JPH08314969A - 情報検索方法及び装置 - Google Patents

情報検索方法及び装置

Info

Publication number
JPH08314969A
JPH08314969A JP7122763A JP12276395A JPH08314969A JP H08314969 A JPH08314969 A JP H08314969A JP 7122763 A JP7122763 A JP 7122763A JP 12276395 A JP12276395 A JP 12276395A JP H08314969 A JPH08314969 A JP H08314969A
Authority
JP
Japan
Prior art keywords
keyword
search
importance
unit
language expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7122763A
Other languages
English (en)
Inventor
Rintarou Sunaba
倫太郎 砂場
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7122763A priority Critical patent/JPH08314969A/ja
Publication of JPH08314969A publication Critical patent/JPH08314969A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本発明の目的は、必要以上に検索処理が実行
されることを避けることができる情報検索方法及び装置
を提供することである。 【構成】 本発明は、日本語文書データベースの検索を
始める前に、利用者から入力されたキーワードの優先度
を評価する評価手段100と、評価手段100の評価結
果に基づいて日本語文書データベースの検索を行う検索
手段200とを有する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、情報検索方法及び装置
に係り、特に、日本語文書を検索する装置において、ネ
ットワーク上に存在する巨大な日本語文書データベース
を検索する際に、キーワード毎に優先度の評価を行い、
当該評価に基づいてデータベースの検索を行う情報検索
方法及び装置に関する。
【0002】詳しくは、あらゆる文書の電子化が進み、
だれもが、巨大な自然言語データベースをネットワーク
上から利用できる社会になった場合、必要な情報だけを
素早く、効率よく検索する技術はますます重要になって
くる。しかし、検索対象が大容量となり、ネットワーク
上に分散するようになると、計算処理コストや通信コス
トが莫大となる。このため、効率よく情報を取得するた
めに、検索のキーとなるキーワードを絞り込んで、デー
タベース内のデータとヒットする可能性が高いキーワー
ドを選択するような方法が望まれている。
【0003】
【従来の技術】従来は、検索対象データベースを検索す
る際に、利用者により入力された情報から検索式を作成
して、当該検索式で検索対象データベースを検索する。
このような検索を行うと、検索キーワードによっては、
検索結果が0件であったり、必要以上に多くなることが
ある。この場合には、利用者は検索結果を見ながら、検
索式を修正して、再び情報の検索を行う。このような方
法は、特願平7−17919「データベース検索装置及
びデータベース検索方法」に示されている。特願平7−
17919は所定の制約を満たすように所定の検索条件
緩和知識を参照して検索要求を緩和していくものであ
る。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
従来の方法は、利用者が検索結果を見ながら検索式を修
正して再び検索する作業を必要な情報(件数)が得られ
るまで繰り返す必要がある。検索対象が巨大で複数のデ
ータベースであって計算処理コストがかかる場合、何度
も検索作業を繰り返すことは、システム、利用者双方に
負担がかかることになる。
【0005】本発明は、上記の点に鑑みなされたもの
で、必要以上に検索処理が実行されることを避けること
ができる情報検索方法及び装置を提供することを目的と
する。本発明の更なる目的は、データベース中に格納さ
れている文書の自立語を抽出し、文書単位の自立語の頻
度分布確率より算出される情報量を評価基準に用いるこ
とによって、キーワードの重要度を計算し、重要度の高
いキーワードから検索を行う情報検索方法及び装置を提
供することである。
【0006】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。本発明の情報検索方法は、日
本語文書データベースの検索を始める前に、利用者から
入力されたキーワードの優先度を評価し(ステップ
1)、キーワードに付与されている優先度に基づいて日
本語文書データベースを検索する(ステップ2)。
【0007】また、ステップ1において、キーワードの
優先度を評価する際に、キーワードになりうる言語表現
について、予め言語表現に対応して設定されている重要
度のテーブルを参照する。また、ステップ2において、
日本語文書データベースを検索する際に、あるキーワー
ドについて所定の文書数が検索された時点で、検索を終
了する。
【0008】また、ステップ2において、日本語文書デ
ータベースを検索する際に、所定の閾値より低い優先度
が付与されているキーワードを棄却する。図2は、本発
明の原理構成図である。本発明の情報検索装置は、日本
語文書データベースの検索を始める前に、利用者から入
力されたキーワードの優先度を評価する評価手段100
と、評価手段100の評価結果に基づいて日本語文書デ
ータベースの検索を行う検索手段200とを有する。
【0009】また、評価手段100は、日本語文書デー
タベースにアクセスし、文書毎に分かち書きを行い、名
詞・動詞・形容詞といった言語表現を抽出する言語表現
抽出手段130と、言語表現の頻度を文書毎に求める出
現頻度分布解析手段140と、言語表現の出現頻度分布
を文書の1文1文の長さを考慮して、出現頻度確率分布
に変換する出現頻度確率分布算出手段160と、出現頻
度分布から頻度のばらつきに基づいて、言語表現の重要
度を評価する重要度評価手段170と、ユーザから入力
された1つ以上の検索キーワードの重要度を評価し、重
要度の大きさによってキーワード検索の優先度を判定す
る言語表現重要度判定手段180とを含む。
【0010】また、検索手段200は、検索キーワード
評価装置において取得した優先度を参照して該優先度の
高いキーワードの順に日本語文書データベース350を
検索する手段を有する。また、検索手段200は、検索
された文書が所定の数に達した時に検索を中断する中断
手段を含む。
【0011】また、検索手段200は、キーワードに付
与されている優先度が所定の閾値より低い場合に、キー
ワードを棄却する棄却手段を含む。
【0012】
【作用】本発明は、利用者が入力する複数のキーワード
を全てそのまま受入れ、同等に検索処理を行う必要はな
い。検索される文書数という観点から見た場合、100
文書中、100の文書を検索してしまうキーワードと1
つの文書だけを特異的に検索できるキーワードの2つが
並んでいたら、まず1つの文書を検索するキーワードか
ら検索していく方が必要な文書を少ない計算処理コスト
で得ることが可能である点に着目して、予め、自立語の
ような言語表現を抽出し、文書単位に言語表現の出現頻
度分布確率を求め、そのばらつきから言語表現の重要度
を計算しておくことによって、検索の際にユーザが入力
するキーワードの重要度を評価し、重要度の高い順番に
キーワード検索を行い、検索される文書数を制限しなが
ら、検索対象を絞り込み、必要な日本語文書を迅速に検
索することが可能となる。
【0013】また、本発明は、ユーザから入力された検
索要求キーワードを入力された順番に検索していくので
はなく、重要度の高いキーワードから順番に文書の検索
を行うことにより、優先度が低いキーワードによる検索
を行わないように操作することも可能となる。
【0014】また、本発明は、検索された文書が指定し
た数に達した時に検索を中断することが可能であるた
め、無駄な検索を行わなくとも良い。さらに、本発明
は、所定の評価値以下のキーワードによる検索を行わな
いようにすることも可能である。
【0015】
【実施例】以下、図面と共に本発明の実施例を詳細に説
明する。図3は、本発明の一実施例の情報検索装置のシ
ステム構成図である。同図に示す情報検索装置は、キー
ワード重要度評価装置100、キーワード検索装置20
0、言語表現重要度テーブル330、及び検索用日本語
文書蓄積装置350より構成される。
【0016】キーワード重要度評価装置100は、日本
語文章中の自立語を抽出し、文書毎に自立語の頻度情報
を取得して、自立語の頻度情報からキーワード候補の言
語表現重要度テーブル330を生成する。キーワード検
索装置200は、キーワード重要度評価装置100で生
成された言語表現重要度テーブル330を参照して、重
要度の高いキーワードの順に検索用日本語文書蓄積装置
350を検索して、検索結果を取得する。
【0017】図4は、本発明の一実施例のキーワード重
要度評価装置の構成を示す。同図中、図3と同一構成部
分には、同一符号を付しその説明を省略する。図4に示
すキーワード重要度評価装置100は、文書アクセス部
110、分かち書き処理部120、言語表現抽出部13
0、言語表現頻度テーブル作成部140、頻度計測終了
判定部150、頻度情報正規化部160、言語表現存在
確率変換部170、言語表現重要度測定部180より構
成され、文書アクセス部110は、日本語文書蓄積装置
310をアクセスし、言語表現頻度テーブル作成部14
0は、言語表現出現頻度テーブル320を生成し、言語
表現重要度測定部180は、言語表現重要度テーブル3
30を生成する。
【0018】まず、キーワードとなり得る単語は、日本
語文書中の名詞・動詞・形容詞・形容動詞といった自立
語と定義する。日本語文書蓄積装置310には、n文の
文書cn が蓄積されている。文書アクセス部110は、
日本語文書蓄積装置310の文書c1 〜cまでのテキス
トをアクセスする。ここでは、n=x番目の文書をアク
セスし、cx の文書を分かち書き処理部120に転送す
る。
【0019】分かち書き処理部120は、日本語文書を
の文字列を形態素解析することにより、単語に分割し、
品詞を付与し、リスト形式で出力する。言語表現抽出部
130は、単語に分割されたテキストを解析し、動詞、
形容詞、形容動詞のみを抽出し、順にリスト形式にし、
言語表現頻度テーブル作成部140に出力する。
【0020】言語表現頻度テーブル作成部140は、言
語表現の文書に対する出現頻度を測定する。x番目の文
書cx に対して、言語表現tk が出現した頻度dxkをカ
ウントし、図5に示すような言語表現出現頻度テーブル
320のcx の列に格納する。
【0021】頻度計測終了判定部150は、テキストが
x=nになった場合には、情報正規化部160に制御を
渡し、x<nの場合には、全ての文書cx に対して上記
の文書アクセス部110の以降の処理を繰り返すように
制御する。全ての文書cx の言語表現出現頻度テーブル
320が生成されたら、頻度情報正規化部160の処理
に移行する。
【0022】頻度情報正規化部160は、1つの文書に
含まれる自立語の数のばらつきを考慮して、言語表現出
現頻度テーブル320の内容を正規化する。正規化され
た後の頻度情報d’nkは次式で求められる。
【0023】
【数1】
【0024】言語表現存在確率変換部170は、言語表
現出現頻度テーブル320を、言語表現tkに対して正
規化し、言語表現の文書に対する存在確率d”nkに変換
し、言語表現重要度測定部180に出力する。存在確率
は以下の式により求められる。
【0025】
【数2】
【0026】言語表現重要度測定部180は、キーワー
ドの存在確率分布からキーワードの重要度を求める。キ
ーワードの重要度の評価基準として、言語表現の頻度分
布から求めた情報量を用いる。例えば、キーワード存在
確率分布が5つの文書に対して{0.6 0.1 0.1 0.1 0.1
}の場合と、{0.2 0.2 0.2 0.2 0.2 }の場合では、
前者の頻度分布を持つキーワードの方が、ある特定の文
書のみ存在するので、特異的に検索できるキーワードと
言える。このように言語表現を検索キーワードとして用
いた場合の重要度として、言語表現の頻度の確率分布か
ら求めたエントロピーを用いる。言語表現ti の文書に
対する頻度を1次元配列Vi として取り出すと、 Vi ={d”1i d”2i … d”ni} 上記の配列Vi の要素のうち、頻度情報d”=0である
要素を取り除いた頻度情報の集合をV’i とする。
【0027】V’i ={xi ≠0|Vi ∋xi } 頻度情報の集合V’i の重要度w(V’i )は次式で定
義する。 w(V’i )=1−h(V’i ) ここで、h(Vi )は、相対エントロピーに相当するも
のであり、次のように定義される。
【0028】
【数3】
【0029】H(V’i )はエントロピーに相当し、次
式で定義される。
【0030】
【数4】
【0031】H(V’i )の値は、頻度情報の確率分布
dがばらついているほど高くなり、集中しているほど低
くなるので、言語表現ti の重要度w(V’i )は、言
語表現キーワードとして用いた場合の、検索の特異性の
指標となる。上記のようにして生成された重要度は、図
6に示すように言語表現と対応付けられて言語表現重要
度テーブル330に設定される。
【0032】図7は、本発明の一実施例のキーワード重
要度評価の動作のフローチャートである。 ステップ101) 最初に文書アクセス部110が日本
語文書蓄積装置310にアクセスして、文書を取り出
す。
【0033】ステップ102) 分かち書き処理部12
0が単語辞書(図示せず)を参照して、取り出された文
書を形態素解析処理により文書を単語に分割し、品詞を
付与する。 ステップ103) 形態素解析により、分割された各単
語には品詞が付与されているので、言語表現抽出部13
0は、単語の品詞を参照して動詞、形容詞、形容動詞を
抽出する。つまり、キーワードとなり得る単語を抽出す
る。
【0034】ステップ104) 言語表現頻度テーブル
作成部140が文書に対して、言語表現が出現した頻度
をカウントし、その結果を文書毎に言語表現出現頻度テ
ーブル320に設定する。 ステップ105) 上記のステップ101からステップ
104の処理が、すべての文書に対して終了しているか
を判定し、終了している場合には、ステップ106に移
行し、終了していない場合には、ステップ101の処理
に移行する。
【0035】ステップ106) 頻度情報正規化部16
0は、言語表現出現頻度テーブル320のばらつきにつ
いて正規化する。 ステップ107) 言語表現存在確率変換部170がス
テップ106で正規化された言語表現頻度テーブル32
0の言語表現の文書に対する存在確率に変換する。
【0036】ステップ108) キーワードの存在確率
分布から言語表現について、キーワードの重要度を求め
る。 ステップ109) 全ての言語表現について終了してい
るかを判断し、終了している場合には、ステップ110
に移行し、終了していない場合には、ステップ107に
移行する。
【0037】ステップ110) 上記により求められた
全ての言語表現をキーワードとして用いた場合の重要度
を、言語表現重要度テーブル330に設定する。 次に、この言語表現重要度テーブル330を用いたキー
ワード検索について説明する。
【0038】図8は、本発明の一実施例のキーワード検
索装置の構成を示す。図3、図4と同一構成部分には、
同一符号を付し、その説明を省略する。同図に示すキー
ワード検索装置は、検索要求入力部210、言語表現重
要度判定部220、キーワード検索部230、検索終了
判定部240、検索結果表示部250より構成される。
【0039】検索要求入力部210は、ユーザ検索要求
として1つ以上のキーワードと、検索される文書の上限
値も入力される。入力されるキーワードは、 K={k1 ,k2 ,…,ki } とする。
【0040】言語表現重要度判定部220は、入力され
たキーワードkx で、前述のキーワード重要度評価装置
100で生成された言語表現重要度テーブル330を検
索する。検索した結果、各キーワードkx に重要度が付
与される。ここで、言語表現重要度テーブル330中の
言語表現tk 中に見つからないキーワードの重要度は−
1とする。なお、重要度が付加されたキーワードを優先
順位の高い順に並べ変えておいてもよい。重要度が付加
されたキーワードは、 K={(tx x )(ky y )…(kz z )} で表される。
【0041】キーワード検索部230は、重要度の高い
キーワードから順に検索用日本語文書蓄積装置350の
情報の検索を行う。ここで用いる手法として一般の全文
検索、もしくは、文書に付与されたキーワードのみに注
目する検索の手法が利用できる。キーワード検索部23
0は、検索文書の上限値が2となっている場合には、あ
るキーワードで検索される文書が3つあっても2つのみ
が検索結果として取得される。また、重要度の所定の値
を予め決定しておき、当該値以下となる重要度を有する
キーワードの検索は行わないようにすることも可能であ
る。
【0042】検索終了判定部240は、ある重要度以上
で検索された文書数が上限Lを越えているか否かの判定
を行い、当該上限Lを越えた時点で、検索を終了するよ
うに制御する。検索結果表示部250は、検索された文
書を表示する。
【0043】図9は、本発明の一実施例の文書検索動作
のフローチャートである。 ステップ201) ユーザが複数のキーワードと検索文
書数の上限の件数を入力する。 ステップ202) 言語表現重要度判定部220は、入
力キーワードで言語表現重要度テーブル330を検索す
る。
【0044】ステップ203) 検索の結果、入力キー
ワードに対応する言語表現が言語表現重要度テーブル3
30内に存在する場合には、ステップ204に移行し、
存在しない場合にはステップ205に移行する。 ステップ204) 入力キーワードに取得した重要度を
付与し、ステップ206に移行する。
【0045】ステップ205) 入力キーワードの重要
度を−1とする。 ステップ206) 入力キーワードに付与された重要度
の順にキーワードを取り出す。 ステップ207) 取り出されたキーワードの重要度が
所定の値以上の重要度であるかを判定し、所定の値以下
の場合には、検索処理を行わず、ステップ201に移行
する。即ち、キーワードは、優先順位で取り出されてい
るため、当該キーワード以降のキーワードは当該キーワ
ードよりさらに優先度が低いため、ユーザに次のキーワ
ードの入力を促す。このとき、入力されたキーワードで
検索できない旨をメッセージ表示してもよい。
【0046】ステップ208) キーワード検索部23
0は、取り出されたキーワードの重要度が所定の値以上
である場合には、検索用日本語文書蓄積装置350を当
該キーワードで検索する。 ステップ209) 文書が1つ検索される毎に文書数を
インクリメントする。
【0047】ステップ210) 検索された文書数が所
定の文書数の上限値L以上となった場合、または、全検
索文書を取得した場合(所定文書数未設定の場合)に
は、ステップ211に移行し、そうでない場合には、ス
テップ208に移行する。 ステップ211) 検索されたL件の文書を表示する。
【0048】次に、上記の動作を具体例を示して説明す
る。実際にテキストを解析すると、多くの自立語が抽出
されるが、説明のため以下の説明では、 {マルチメディア パソコン 携帯電話 テレビ会議
ケーブルテレビ ビデオ} の6つの言語表現に限定し、日本語文書蓄積装置310
には5つの文書が蓄積されているものとする。
【0049】(1) まず、キーワード重要度評価装置
100の文書アクセス部110は、、日本語文書蓄積装
置310に格納されている文書1をアクセスし、分かち
書き処理部120に出力する。 (2) 分かち書き処理部120は、文書1のテキスト
を形態素解析することにより単語に分割し、品詞を付与
し、リスト形式で出力する。例えば、次の文を分かち書
き処理部120で処理してみる。
【0050】『インターネットは、これまでの歴史中で
進化を遂げてきた。』 を入力すると、 “(インターネット は これまで の 歴史 の 中
で 進化 を 遂げて き た。)” のように分かち書きされ、名詞、動詞、形容詞等には、
品詞が与えられ、活用する動詞・形容詞は以下のように
終止形に変換される。 “(インターネット/名詞・は これ/名詞 まで の
歴史/名詞 の中/名詞 で 進化/名詞 を 遂げ
る/動詞 て くる/動詞 た)” (3) 言語表現頻抽出部130では、言語表現として
名詞・動詞・形容詞を抽出する。上記例において自立語
リストは以下のようになる。
【0051】(インターネット これ 歴史 中 進化
遂げる くる) (4) 言語表現頻度テーブル作成部140は、文書中
に存在する言語表現の頻度を計測する。計測した頻度
は、図10に示すように、言語表現出現頻度テーブル3
20に格納される。同図の例では、文書1には、言語表
現「マルチメディア」が10個、「パソコン」は4個と
いう頻度で存在していることを意味する。
【0052】(5) 頻度計測終了判定部150は、こ
の文書アクセス部110から言語表現頻度テーブル作成
部140までの処理を日本語文書蓄積装置310の全て
の文書に対して繰り返す。本例では、5つの文書に対し
て繰り返し行ったところ、図10に示す言語表現出現頻
度テーブル320が作成される。
【0053】(6) 頻度情報正規化部160では、文
書1つ1つの長さを考慮するために、1つの文書中に含
まれていた自立語の総数によって正規化する。図10の
文書1中の「マルチメディア」の頻度d’11は、次のよ
うになる。
【0054】
【数5】
【0055】これにより、図10の言語表現出現頻度テ
ーブルの内容は、図11に示すように、各文書の長さを
考慮して頻度を正規化される。 (7) 次に、言語表現存在確率変換部170は言語表
現出現頻度テーブル320を言語表現に対してさらに正
規化し、言語表現の文書に対する存在確率d”に変換す
る。
【0056】
【数6】
【0057】これにより、図11の言語表現出現頻度テ
ーブルの内容は図12に示すように、言語表現の文書に
対する頻度の確率分布が求められる。 (8) 言語表現重要度測定部180は、言語表現出現
頻度テーブル320より情報量を計算し、言語表現重要
度テーブル330を作成する。言語表現「携帯電話」の
文書に対する頻度を1次元配列V3 として取り出すと、 V3 ={0.00 0.12 0.00 0.88 0.00} V3 の要素のうち、頻度情報が0である要素を取り除い
た集合をV’3 とする。
【0058】V3 ={0.12 0.88 } 頻度情報の集合V’3 の重要度w(V’3 )を求める
と、次のようになる。
【0059】
【数7】
【0060】この言語表現の重要度wjを全てのjにつ
いて求めると、図13に示すような言語表現重要度テー
ブル350が生成される。 (9) 次に、この言語表現重要度テーブル350を用
いたキーワード検索装置200の動作について説明す
る。
【0061】ユーザ検索要求入力部210には、ユーザ
からの検索要求として、 {マルチメディア 携帯電話}が入力され、検索文数の
上限値L=2とする。 (10) 入力されたキーワードは、言語表現重要度判
定部220に入力され、以下のように、キーワードの重
要度wが付加される。
【0062】{(マルチメディア 0.08) (携帯電話
0.48)} (11) キーワード検索部230は、重要度の高いキ
ーワードから検索を行う。例として、日本語文書蓄積装
置310と同じデータベースである検索用日本語文書蓄
積装置350を全文検索すると、「携帯電話」が存在す
る文は2つあり、検索終了判定部240において、文書
上限値L=2に達したので、検索を終了し、検索結果表
示部250で表示される。
【0063】この例では、言語表現「マルチメディア」
を検索することによって、文書1から文書5まで全て検
索されてしまうことになるが、優先度を付与することに
より、このような無駄な検索を避けることができる。ま
た、検索要求文として、 {マルチメディア パソコン} が入力された例では、どちらのキーワードによっても全
ての文が検索されてしまう。この場合も重要度を評価す
ると、 {(マルチメディア 0.08) (パソコン 0.18)} となるが、重要度がある閾値(この例では、0.2 )より
低い場合は、警告をユーザに出力して、キーワードを拒
絶し、無駄な検索処理を避けることが可能となる。
【0064】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内で種々変更・応用が可能
である。
【0065】
【発明の効果】上述のように、本発明の情報検索方法及
び装置によれば、予め日本語蓄積装置中の文書から、文
書毎に自立語を抽出し、頻度を計測し、情報量に基づい
て言語表現重要度テーブルを作成しておくことにより、
複数のキーワードが入力された場合、キーワード検索の
優先付けが可能となり、必要以上に検索処理が実行され
ることを避けることができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施例のシステム構成図である。
【図4】本発明の一実施例のキーワード重要度評価装置
の構成図である。
【図5】本発明の一実施例の言語表現出現頻度テーブル
の例を示す図である。
【図6】本発明の一実施例の言語表現重要度テーブルの
例を示す図である。
【図7】本発明の一実施例のキーワード重要度評価の動
作のフローチャートである。
【図8】本発明の一実施例のキーワード検索装置の構成
図である。
【図9】本発明の一実施例の文書検索動作のフローチャ
ートである。
【図10】本発明の一実施例の言語表現出現頻度テーブ
ルの言語表現の各文書における頻度表である。
【図11】本発明の一実施例の言語表現出現頻度テーブ
ルの頻度を各文書の長さを考慮して正規化した表であ
る。
【図12】本発明の一実施例の言語表現出現頻度テーブ
ルの言語表現の文書に対する頻度の確率分布を示す図で
ある。
【図13】本発明の一実施例の言語表現重要度テーブル
の一例を示す図である。
【符号の説明】
100 キーワード重要度評価装置、評価手段 110 文書アクセス部 120 分かち書き処理部 130 言語表現抽出部、言語表現抽出手段 140 言語表現頻度テーブル作成部、出現頻度分布解
析手段 150 頻度計測終了判定部 160 頻度情報正規化部、出現頻度確率分布算出手段 170 言語表現存在確率変換部、重要度評価手段 180 言語表現重要度測定部、言語表現重要度判定手
段 200 キーワード検索装置、検索手段 210 検索要求入力部 220 言語表現重要度判定部 230 キーワード検索部 240 検索終了判定部 250 検索結果表示部 310 日本語文書蓄積装置 320 言語表現出現頻度テーブル 330 言語表現重要度テーブル 350 検索用日本語文書蓄積装置

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 日本語文書データベースの検索を始める
    前に、利用者から入力されたキーワードの優先度を評価
    し、 前記キーワードに付与されている優先度に基づいて前記
    日本語文書データベースを検索することを特徴とする情
    報検索方法。
  2. 【請求項2】 前記キーワードの優先度を評価する際
    に、 キーワードになりうる言語表現について、予め言語表現
    に対応して設定されている重要度のテーブルを参照する
    請求項1記載の情報検索方法。
  3. 【請求項3】 前記日本語文書データベースを検索する
    際に、 あるキーワードについて所定の文書数が検索された時点
    で、検索を終了する請求項1記載の情報検索方法。
  4. 【請求項4】 前記日本語文書データベースを検索する
    際に、 所定の閾値より低い優先度が付与されているキーワード
    を棄却する請求項1記載の情報検索方法。
  5. 【請求項5】 日本語文書データベースの検索を始める
    前に、利用者から入力されたキーワードの優先度を評価
    する評価手段と、 前記評価手段の評価結果に基づいて前記日本語文書デー
    タベースの検索を行う検索手段とを有することを特徴と
    する情報検索装置。
  6. 【請求項6】 前記評価手段は、 前記日本語文書データベースにアクセスし、文書毎に分
    かち書きを行い、名詞・動詞・形容詞といった言語表現
    を抽出する言語表現抽出手段と、 前記言語表現の頻度を文書毎に求める出現頻度分布解析
    手段と、 前記言語表現の出現頻度分布を文書の1文1文の長さを
    考慮して、出現頻度確率分布に変換する出現頻度確率分
    布算出手段と、 前記出現頻度分布から頻度のばらつきに基づいて、前記
    言語表現の重要度を評価する重要度評価手段と、 ユーザから入力された1つ以上の検索キーワードの重要
    度を評価し、重要度の大きさによってキーワード検索の
    優先度を判定する言語表現重要度判定手段とを含む請求
    項5記載の情報検索装置。
  7. 【請求項7】 前記検索手段は、 前記評価手段において取得した優先度を参照して該優先
    度の高いキーワードの順に前記日本語文書データベース
    を検索する手段を有する請求項5記載の情報検索装置。
  8. 【請求項8】 前記検索手段は、 検索された文書が所定の数に達した時に検索を中断する
    中断手段を含む請求項5記載の情報検索装置。
  9. 【請求項9】 前記検索手段は、 キーワードに付与されている前記優先度が所定の閾値よ
    り低い場合に、該キーワードを棄却する棄却手段を含む
    請求項5記載の情報検索装置。
JP7122763A 1995-05-22 1995-05-22 情報検索方法及び装置 Pending JPH08314969A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7122763A JPH08314969A (ja) 1995-05-22 1995-05-22 情報検索方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7122763A JPH08314969A (ja) 1995-05-22 1995-05-22 情報検索方法及び装置

Publications (1)

Publication Number Publication Date
JPH08314969A true JPH08314969A (ja) 1996-11-29

Family

ID=14844018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7122763A Pending JPH08314969A (ja) 1995-05-22 1995-05-22 情報検索方法及び装置

Country Status (1)

Country Link
JP (1) JPH08314969A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320420A (ja) * 1997-03-14 1998-12-04 Dainippon Screen Mfg Co Ltd データ検索方法
JPH11167398A (ja) * 1997-12-04 1999-06-22 Mitsubishi Electric Corp 音声合成装置
JP2006113683A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献検索支援装置、その方法、文献検索装置、それらのプログラム、および、そのプログラムを記録した記録媒体
JP2014215996A (ja) * 2013-04-30 2014-11-17 エヌ・ティ・ティ・コミュニケーションズ株式会社 重要性判定システム、重要性判定方法及びコンピュータプログラム
JP2018081394A (ja) * 2016-11-15 2018-05-24 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320420A (ja) * 1997-03-14 1998-12-04 Dainippon Screen Mfg Co Ltd データ検索方法
JPH11167398A (ja) * 1997-12-04 1999-06-22 Mitsubishi Electric Corp 音声合成装置
JP2006113683A (ja) * 2004-10-12 2006-04-27 Patolis Corp 文献検索支援装置、その方法、文献検索装置、それらのプログラム、および、そのプログラムを記録した記録媒体
JP2014215996A (ja) * 2013-04-30 2014-11-17 エヌ・ティ・ティ・コミュニケーションズ株式会社 重要性判定システム、重要性判定方法及びコンピュータプログラム
JP2018081394A (ja) * 2016-11-15 2018-05-24 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
US10503828B2 (en) System and method for answering natural language question
US8180781B2 (en) Information processing apparatus , method, and computer-readable recording medium for performing full text retrieval of documents
US20050203900A1 (en) Associative retrieval system and associative retrieval method
KR101873873B1 (ko) 속성 정보 분석을 통한 멀티미디어 컨텐츠 검색장치 및 검색방법
JPH09153066A (ja) 文書検索装置
CN112035511A (zh) 基于医学知识图谱的目标数据搜索方法及相关设备
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
KR100795930B1 (ko) 검색용 색인 기반 질의어 추천 방법 및 그 시스템
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
JPH08314969A (ja) 情報検索方法及び装置
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JPH064584A (ja) 文章検索装置
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP4153843B2 (ja) 自然文検索装置、自然文検索方法、自然文検索プログラム及び自然文検索プログラム記憶媒体
JP2003085181A (ja) 事典システム
TWI290684B (en) Incremental thesaurus construction method
JPH06274546A (ja) 情報量一致度計算方式
JP2010282403A (ja) 文書検索方法
KR102351264B1 (ko) 사용자 맞춤형 신간 도서 정보의 제공 방법 및 그 시스템