JP3612769B2 - Information search apparatus and information search method - Google Patents

Information search apparatus and information search method Download PDF

Info

Publication number
JP3612769B2
JP3612769B2 JP03549895A JP3549895A JP3612769B2 JP 3612769 B2 JP3612769 B2 JP 3612769B2 JP 03549895 A JP03549895 A JP 03549895A JP 3549895 A JP3549895 A JP 3549895A JP 3612769 B2 JP3612769 B2 JP 3612769B2
Authority
JP
Japan
Prior art keywords
information
search
relationship
words
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03549895A
Other languages
Japanese (ja)
Other versions
JPH0844771A (en
Inventor
良寛 上田
剛弘 小山
満美子 岡
忠信 宮内
寿平 中垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP03549895A priority Critical patent/JP3612769B2/en
Publication of JPH0844771A publication Critical patent/JPH0844771A/en
Application granted granted Critical
Publication of JP3612769B2 publication Critical patent/JP3612769B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【産業上の利用分野】
本発明は、検索要求に適合する文書などの情報を検索する情報検索装置および情報検索方法に関するものである。
【0002】
【従来の技術】
従来、データベース等に蓄積された大量の情報の中から、所望の情報を検索する手法として、各データにあらかじめキーワードを割り当てておき、ユーザの入力した検索キーと一致したキーワードを持つ情報を検索して出力する装置が開発されている。
【0003】
この方式は、索引方式とかインデックス方式などと呼ばれる。索引方式の実現方法には、ハッシュ法、デジタル検索法などがあり、詳しくは「The Artof Computer Programing,Volume 3 /Sorting and Searching 」(Donald E.Knuth,Addison−Wesley Publishing Company,1973)のChapter6−Searchingなどに記載されている。
【0004】
これに対し、近年では、あらかじめキーワードを割り当てておくことはせず、ユーザの入力した検索キーを含む情報を直接検索できるようにしたものも開発されている。この方式は、全文検索とかフルテキストサーチなどと呼ばれる。この方式の実現方法としては、BM法、AC法、FSA法などがあり、詳しくは「テキスト検索プロセッサ」(高橋恒介著,社団法人電子情報通信学会,1991)の2章、3章などに記載されている。
【0005】
しかしながら、ある検索キーが一意にある情報を指定する場合は少ないので、1つの検索キーによって検索される情報は、通常、複数のものとなり、記憶されている情報が大量になると、候補の数は非常に多くなる。そこで、複数の検索キーを指定し、それらの検索キーを全て含む情報を出力することによって、候補の数を減らすことが一般的に行なわれている。しかし、このようにして得られた検索結果にも、ユーザが望んでいた情報とは違うものも多く含まれており、ユーザはその中から所望の情報を選び出す作業に時間を費やさなければならなかった。
【0006】
従来は、例えば、ワークステーションを開発したことについての新聞記事を検索したいときには、「ワークステーション & 開発」のように検索キーを指定して検索を行なう。しかし、この検索によって得られた結果の中には、ワークステーションを開発したことについての記事の他に、あるソフトウェアをワークステーション上で開発したことについての記事や、さらには「ワークステーション」や「開発」などのキーワードを含むけれども、それらの単語の間にはなんら意味的な関係がない記事なども含まれることになる。ユーザはこれら多くの記事を全て読んで、自分が望んでいた記事を探さなければならなかった。
【0007】
このような無用な検索結果を排除するため、例えば、特開平1−112331号公報には、キーワードに重要度を付加し、キーワード検索を能率良く行なう技術が記載されている。しかし、キーワードの重要度が同じであれば、上述のような、例えば、ユーザがワークステーションを開発したことについての記事を検索したい場合に、あるソフトウェアをワークステーション上で開発したことについての記事は、意味が違うにもかかわらず、依然として同じ検索結果としてユーザに提示されてしまう。
【0008】
また、このような検索において、検索キーと完全に一致する情報だけでは、抜けが生じる恐れがある。そのため、近年では、シソーラスと呼ばれる類義語辞書を参照して検索キーを拡張し、それに基づいて検索を行なうことも多くなってきている。このような検索装置としては、例えば、特開昭62−248032号公報に記載された文書検索装置等がある。このように、類義語をも用いることによって、検索結果の候補の数はますます増えることになり、所望の情報を選び出す作業はさらに難しくなってきている。
【0009】
例えば、特開昭62−191924号公報や特開昭62−191925号公報などでは、複数の検索キーを用いて検索を行なう場合に、OR検索を行なって抜けを防止し、また、検索結果の有するキーワードと検索キーとの一致度を計算して、一致度の大きい順に出力することによって、多量の検索結果からなるべくユーザの意図に近いものを優先して表示するようにした検索装置が記載されている。
【0010】
しかし、このような類義語辞書を用いたり、OR検索を行なって一致度を計算する等の技術を用いたとしても、上述したような、例えば、ワークステーションを開発した新聞記事とワークステーション上でソフトウェアを開発した新聞記事とは、やはり混在することになる。そのため、ユーザは不必要な検索結果の情報をも順次参照しなければならず、所望の情報を探し出す作業は煩雑であった。
【0011】
【発明が解決しようとする課題】
本発明は、上述した事情に鑑みてなされたもので、検索結果の中から、所望の情報を見つけやすくした情報検索装置および情報検索方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明は、請求項1に記載の発明においては、検索要求に適合する情報を検索する情報検索装置において、少なくともテキストを含む情報を記憶する情報記憶手段と、複数の単語を検索キーとして前記情報記憶手段から情報を検索する情報検索手段と、該情報検索手段で検索された情報から検索キーとして用いられた複数の単語間の関係を抽出する関係抽出手段と、前記情報検索手段による検索結果と前記関係抽出手段で抽出された関係とを対にして表示する表示手段を有し、前記関係抽出手段は、前記複数の単語が1文中に存在する場合は該1文を形態素解析して単語間の関係を抽出し、前記複数の単語が1文中に存在しない場合には、それぞれの単語を含む文と文の間の距離を算出することを特徴とするものである。
【0013】
同様に請求項9に記載の発明においては、検索要求に適合する情報を検索する情報検索方法において、少なくともテキストを含む情報を情報記憶手段に記憶させておき、複数の単語を検索キーとして情報検索手段により前記情報記憶手段から情報を検索し、検索された情報から検索キーとして用いられた複数の単語間の関係を関係抽出手段により抽出し、検索結果と抽出された関係とを対にして表示手段に表示するものであって、前記複数の単語が1文中に存在する場合は該1文を形態素解析して単語間の関係を抽出し、前記複数の単語が1文中に存在しない場合には、それぞれの単語を含む文と文の間の距離を算出することを特徴とするものである。
【0014】
請求項2に記載の発明においては、検索要求に適合する情報を検索する情報検索装置において、少なくともテキストを含む情報を記憶する情報記憶手段と、前記情報記憶手段から複数の単語を検索キーとして情報を検索する情報検索手段と、該情報検索手段から検索された情報を保持する検索結果記憶手段と、該検索結果記憶手段に記憶されている情報から検索キーとして用いられた複数の単語間の関係を抽出して前記検索結果記憶手段に格納する関係抽出手段と、前記検索結果記憶手段に保持されている検索された情報と抽出された関係とを対にして表示する表示手段を有し、前記関係抽出手段は、前記複数の単語が1文中に存在する場合は該1文を形態素解析して単語間の関係を抽出し、前記複数の単語が1文中に存在しない場合には、それぞれの単語を含む文と文の間の距離を算出することを特徴とするものである。
【0015】
同様に請求項10に記載の発明においては、検索要求に適合する情報を検索する情報検索方法において、少なくともテキストを含む情報を情報記憶手段に記憶させておき、該情報記憶手段から複数の単語を検索キーとして情報検索手段により情報を検索し、検索された情報を検索結果記憶手段に保持し、該検索結果記憶手段に記憶されている情報から検索キーとして用いられた複数の単語間の関係を関係抽出手段により抽出して前記検索結果記憶手段に格納し、前記検索結果記憶手段に保持されている検索された情報と抽出された関係とを対にして表示手段に表示するものであって、前記複数の単語が1文中に存在する場合は該1文を形態素解析して単語間の関係を抽出し、前記複数の単語が1文中に存在しない場合には、それぞれの単語を含む文と文の間の距離を算出することを特徴とするものである。
【0016】
請求項3に記載の発明においては、請求項1または2に記載の情報検索装置において、さらに、ある単語に類似した単語のリストを保持する類義語記憶手段を有し、前記情報検索手段は、ある単語に対して前記類義語記憶手段から得られる類義語を検索キーとして前記情報記憶手段から情報を検索することを特徴とするものである。
【0017】
請求項4に記載の発明においては、請求項1または2に記載の情報検索装置において、ある言語における単語を入力とし各言語における該単語と等価または類似の単語をその言語の種類とともに出力する対訳辞書を有し、前記情報検索手段は、検索キーとして与えられた単語を前記対訳辞書に与え、前記対訳辞書から得られた単語を検索キーとして前記情報記憶手段から情報を検索し、前記関係抽出手段は、検索された各情報中のテキストが記述されている言語の種類に応じて、各言語ごとに検索キーとして用いられた複数の単語とその間の関係を抽出することを特徴とするものである。
【0018】
請求項5に記載の発明においては、請求項4に記載の情報検索装置において、ある言語における単語の関係と他の言語における単語の関係を記述した関係対応情報を保持する関係対応記憶手段をさらに有し、前記関係抽出手段は、ある言語を用いて記述された検索要求から、該検索要求が記述されている言語の種類に応じて、前記情報検索手段に検索キーとして与える複数の単語とその単語間の関係を抽出するとともに、前記情報検索手段により検索された各情報中のテキストが記述されている言語の種類に応じて、各言語ごとに前記テキスト内の検索キーとして用いられた複数の単語間の関係を抽出し、前記検索要求から抽出した単語間の関係と前記情報検索手段により検索された情報から抽出された関係とを前記関係対応記憶手段に保持されている関係対応情報を用いて比較し、一致または矛盾のない情報のみを抽出することを特徴とするものである。
【0019】
請求項6に記載の発明においては、請求項4または11に記載の情報検索装置において、前記関係抽出手段は、検索された各情報から抽出した複数の単語とその間の関係をもとに該関係の明確さまたは該複数の単語と前記検索キーとして与えられた複数の単語との類似度あるいはその両方に基づいて、検索された各情報を並びかえて出力することを特徴とするものである。
【0020】
請求項7に記載の発明においては、請求項5に記載の情報検索装置において、前記関係抽出手段は、前記検索要求から抽出した関係と前記情報検索手段により検索された情報から抽出された関係とを比較して一致度を判定し、該一致度に基づいて検索された情報を並びかえることを特徴とするものである。
【0021】
請求項8に記載の発明においては、請求項4ないし13のいずれか1項に記載の情報検索装置において、前記情報検索手段によって検索された情報のうち該情報のテキストが記述されている言語の種類が指定された言語の種類と一致する情報のみを検索結果とする言語比較手段を有することを特徴とするものである。
【0026】
【作用】
本発明によれば、請求項1および請求項9に記載の発明において、関係抽出手段は、複数の検索キーにより検索された検索結果から、検索キーとして用いられた単語間の関係として、複数の単語が1文中に存在する場合は該1文を形態素解析して単語間の関係を抽出し、複数の単語が1文中に存在しない場合には、それぞれの単語を含む文との距離を算出する。抽出した単語間の関係は、検索された情報とともに対にして表示手段に表示することによって、ユーザが望む情報を見つけるのを容易にすることを可能にしている。
【0027】
また、請求項2および請求項10に記載の発明において、関係抽出手段は、複数の検索キーにより検索された検索結果から、検索キーとして用いられた単語間の関係として、複数の単語が1文中に存在する場合は該1文を形態素解析して単語間の関係を抽出し、複数の単語が1文中に存在しない場合には、それぞれの単語を含む文との距離を算出して、検索結果記憶手段に格納する。検索結果記憶手段に格納された検索結果および検索キーとして用いられた単語間の関係を対にして表示手段で表示することにより、ユーザが望む情報を見つけるのを容易にすることを可能にしている。
【0028】
請求項3に記載の発明において、さらに類義語記憶手段を設け、ある単語に対して類義語を類義語記憶手段から得て、これを検索キーとして情報記憶手段に対する検索を行なうことにより、検索キーとの完全一致のみで発生する検索結果の抜けを防止することができる。
【0029】
請求項4に記載の発明によれば、対訳辞書から得られた単語を検索キーとして情報記憶手段から情報を検索することにより、多言語を含む情報の検索が可能となる。このとき、関係抽出手段は、各言語ごとに単語間の関係を抽出するので、異なる言語によって記述されたテキストを含む情報であっても、所望の内容を有する情報を容易に見つけることができる。
【0030】
請求項5に記載の発明によれば、検索要求が表現される言語の種類に応じて、検索要求から複数の単語とその単語間の関係とを抽出しておく。そして、検索要求から抽出された複数の単語をもとにして対訳辞書から得られた単語を検索キーとして情報記憶手段から情報を検索し、検索された各情報中のテキストが記述されている言語の種類に応じて、各言語ごとにテキスト内の検索キーとして用いられた複数の単語間の関係を抽出する。検索された情報から抽出した関係と検索要求から抽出した関係とを比較し、一致または矛盾のない情報のみを抽出する。このとき、関係対応記憶手段に保持されている関係対応情報を用いることにより、同じ言語内の単語の対応とともに、異なる言語間の単語の対応を考慮した関係の比較が行なわれる。これにより、検索要求と異なる言語で記述されたテキストを含む情報であっても、所望の内容を有する情報を得ることができる。
【0031】
請求項6に記載の発明によれば、検索された各情報は、情報中から抽出した単語間の関係をもとに、その関係の明確さ、または、ヒットした単語と情報検索装置に検索キーとして与えられた単語との類似度、あるいはその両方に基づいて、検索された各情報を並びかえて出力する。これにより、意味的にはっきりしている情報から、また、検索キーとして与えた単語と意味的に近い情報から参照することができ、ユーザは所望の検索結果を容易に得ることが可能となる。
【0032】
請求項7に記載の発明によれば、検索された情報から抽出した関係と検索要求から抽出した関係とを比較する際に一致度を判定し、検索された各情報を一致度に基づいて並びかえて例えば表示装置などに出力することにより、なるべく検索要求に近いと考えられる情報からユーザに提示することができる。これによって、ユーザは所望の検索結果を短時間で得ることが可能となる。
【0033】
請求項4ないし7に記載の多言語の検索においては、請求項8に記載の発明のように、言語の種類を指定しておき、指定された言語の種類と一致する情報のみを検索結果とするように構成すること可能である。
【0037】
【実施例】
図1は、本発明の情報検索装置の第1の実施例を示すブロック図である。図中、1は入力手段、2は情報検索手段、3は情報記憶手段、4は検索結果記憶手段、5は関係抽出手段、6は表示手段である。
【0038】
入力手段1は、検索したい情報に関する検索キーを入力するもので、例えば、キーボードのような入力手段から構成することができる。検索キーとしては、複数の単語を入力することが可能である。
【0039】
情報検索手段2は、入力手段1で入力された検索キーにより、情報記憶手段3から情報を検索し、検索結果を検索結果記憶手段4に格納する。検索の方法としては、情報記憶手段3に格納された各情報に対応して、あらかじめキーワードを割り当てておき、検索キーと一致したキーワードを持つ情報を検索するインデックス検索方式や、あらかじめキーワードを割り当てておくことはせず、ユーザの入力した検索キーを含む情報を文字列のマッチングなどの方法により直接検索するフルテキストサーチ方式など、どのような方法を用いてもよい。これらは、前述したように、従来より用いられている検索技術を用いれば容易に実現することができる。
【0040】
情報記憶手段3は、大量の情報を記憶している記憶装置である。この情報記憶手段3は、例えば、磁気ディスクのような、情報を記憶できるものであればどのような構成でもよい。また、記憶されている情報は、少なくとも自然言語(この例では日本語)で記述されたテキストを含むものであれば、絵や図形などを含んでいてもよい。
【0041】
検索結果記憶手段4は、情報記憶手段3から検索された結果の情報を記憶する記憶装置である。この検索結果記憶手段は、磁気ディスクのような情報を記憶できるものであればどのような構成でもよい。この検索結果記憶手段4は、検索された結果の情報を記憶するとともに、記憶している各情報に対して、関係抽出手段5から抽出された単語間の関係情報を対応付けて記憶することができる。
【0042】
関係抽出手段5は、文章から複数の単語間の関係を抽出するものである。文章を形態素解析して単語の列を抽出し、その単語列と関係抽出規則とを照合することによって、互いに関係する複数の単語間の関係を抽出する。
【0043】
表示手段6は、検索結果記憶手段4に保持されている情報と関係とをともに表示するもので、例えば、CRTなどのディスプレイ装置から構成することができる。
【0044】
上述の構成において、関係抽出手段5は、検索結果記憶手段4に検索結果が格納されてから関係の抽出処理を行なっているが、これに限らず、情報検索手段2から直接、検索結果を受け取り、抽出処理を行なうように構成することもできる。このとき、表示手段6が表示する単語間の関係以外の情報は、関係抽出手段5を介して、あるいは、情報検索手段2から直接受け取るように構成すればよい。
【0045】
本発明の情報検索装置の第1の実施例における動作の一例を示すフローチャートである。この情報検索装置は、まず検索キーが入力されると、S11において、情報検索手段2が、情報記憶手段3から情報を検索し、検索結果を検索結果記憶手段4に格納する。次に、S12において、関係抽出手段5が、検索結果記憶手段4に記憶されている検索結果から、検索キーとして用いられた複数の単語間の関係を抽出し、検索結果記憶手段4に格納する。そして、最後に、S13において、検索結果記憶手段4に記憶されている情報と関係とをともに表示手段に表示する。
【0046】
図3は、本発明の情報検索装置の第1の実施例における関係抽出手段の動作の一例を示すフローチャートである。情報検索手段2で検索された情報が検索結果記憶手段4に格納されると、関係抽出手段5が起動される。まず、S21において、検索結果記憶手段4に格納されている検索結果の1つを取り出す。ここでは、検索に用いた検索キーは2語の場合を示している。検索に用いた検索キーを変数W1,W2に格納し、取り出した1つの検索結果を変数TEXTに格納する。
【0047】
S22において、変数W1,W2に格納された検索キーの単語が、1文中に存在するか否かを判定する。1文中に存在する場合には、S23において、変数TEXTに格納された検索結果、または、検索結果中の検索キーの含まれる1文を形態素解析する。形態素解析は、自然言語処理の基本技術として広く知られており、例えば、「自然言語処理の基礎技術」(野村浩郷著、社団法人 電子情報通信学会,1988)や「情報処理」(Vol.30,No.10,1989)の「3.1 形態論」などに記載されている方法により、容易に実現することができる。
【0048】
そして、S24において、変数W1,W2に格納されている単語を含む部分単語列を、関係抽出規則と照合する。関係抽出規則には、少なくとも、単語群中の単語の並びに関する情報と、その単語群が有する関係とが対になり、登録されている。S25において、この関係抽出規則中に単語群とマッチするものがあるか否かを判定し、マッチするものがあれば、関係抽出規則中の対応する関係を検索結果記憶手段4に格納する。図3では、検索結果記憶手段4を“REL”と記している。もし、マッチするものがない場合には、少なくとも同じ文内に2つの検索キーが存在したことを示すため、検索結果記憶手段4に「0文」という情報を格納する。
【0049】
S22において、変数W1,W2に格納されている単語が1文中に存在しない場合には、S29において、変数W1に格納されている単語を含む文と、変数W2に格納されている単語を含む文との距離を計算し、検索結果記憶手段4に格納する。ここで、文の距離とは、例えば、変数W1に格納されている単語を含む文の、次の文内に変数W2に格納されている単語が含まれている場合、距離を「1文」とする。また、変数W1に格納されている単語を含む文と、変数W2に格納されている単語を含む文の間に1文が挟まれている場合、距離を「2文」とする。以下同様に距離を計算する。
【0050】
S26,S28,S29において、検索結果記憶手段4に変数W1,W2の関係あるいは距離が格納されると、S27で関係抽出処理の未処理の検索結果が検索結果記憶手段4内に存在するか否かを判定し、未処理の検索結果が残っている場合には、S21へ戻り、次の検索結果についての処理を行なう。すべての検索結果に対する関係抽出処理が終了したら、関係抽出手段の動作を終了する。この時点で、検索結果記憶手段4に記憶されている各検索結果には、検索キーが検索結果中で現われる関係または距離の情報が付加されている。表示手段6にこれらの情報も表示する。これにより、ユーザは検索結果が所望のものか否かを、表示された関係または距離を参照して知ることができる。そのため、所望の情報または所望の情報に近い情報を短時間で得ることができる。
【0051】
次に、上述の動作を具体例をもとに、図2、図3に示したフローチャートにそって、図4ないし図7を用いて詳述する。ここでは、具体例として、ワークステーションを開発したことについての新聞記事を検索しようとして、入力手段1から「ワークステーション & 開発」と入力したときの例について説明する。
【0052】
情報記憶手段3には、大量の新聞記事の情報が記憶されている。各記事は、日本語の文章と図や絵などから構成されている。情報検索手段2は、各記事の日本語の文章の部分に含まれる自立語をキーワードとしてインデックス化して有している。
【0053】
S11において、情報検索手段2は、入力手段1から入力された検索キーと一致したキーワードを持つ記事を結果として出力する。ここでは、情報検索手段2は、「ワークステーション」と「開発」という2つの単語の論理積により、情報記憶手段3から検索を行なう。
【0054】
図4は、本発明の情報検索装置の第1の実施例における2つのキーによる検索結果の一例の説明図である。情報検索手段2は、図4に示すような検索結果を得て、検索結果記憶手段4に格納する。検索結果記憶手段4は、例えば、図4に示すように、検索に用いられた検索キーを格納するキー1,キー2という項目と、検索された結果の情報を格納する検索結果という項目と、後に関係抽出手段により得られる単語間の関係を格納するという項目とから構成することができる。図4では、検索結果の項目中の情報について、キー1,キー2の単語の部分に下線を付して示している。図4を参照すればわかるように、検索結果は、単に「ワークステーション」という単語と、「開発」という単語を有しているというだけで集められた情報であるので、ワークステーションを開発したという情報以外にも、種々の情報が混在している。
【0055】
次に、S12において、関係抽出手段5は、検索結果記憶手段4に記憶されている検索結果から検索キーとして用いられた複数の単語間の関係を抽出し、検索結果記憶手段に格納する。関係の抽出は、検索結果の文章あるいは検索キーを含む文を形態素解析して単語の列に分割し、関係として抽出する表現を含めた関係抽出規則と照合することにより行なう。
【0056】
まず、図3のS21において、検索結果記憶手段4から検索結果とその検索キーを1つ取り出す。ここでは、最初に、図4に示す検索結果記憶手段4内の検索結果から、タイトルが「独自開発のWSを発売」という検索結果を取り出し、処理を行なう。検索キー1および2は、それぞれ「ワークステーション」,「開発」であり、検索結果の文章は、「A社は5日、演算処理速度が速いRISC型中央演算処理素子を載せたワークステーションを開発、計7機種11モデルを発売すると発表した。これまで同社は、最大手のB社から・・・」である。検索キー1,検索キー2を変数W1,W2に格納し、検索結果の文章を変数TEXTに格納する。
【0057】
この検索結果では、検索キー1,検索キー2である「ワークステーション」と「開発」は、同じ1文中にあるので、S22からS23に進み、変数TEXT内の文章を形態素解析し、単語の列に分割する。図5は、本発明の情報検索装置の第1の実施例における形態素解析結果の一例の説明図である。形態素解析の結果は、分割された単語とその品詞が対になって得られる。
【0058】
次に、S24において、S23で形態素解析により分割された単語列と、関係として抽出する表現を定めた関係抽出規則との照合を行なう。図6は、本発明の情報検索装置の第1の実施例における関係抽出規則の一例の説明図である。関係抽出規則には、図6に示すように、単語列の並びの規則と、そのとき抽出する単語および関係を対にして登録してある。ここでは、サ変名詞をサ変、形容動詞語幹を形容動詞として示している。例えば、名詞+「が」+サ変名詞のように単語が続けば、そのときは単語1である名詞と、単語3であるサ変名詞と、関係としてガ格を抽出することを示している。
【0059】
図5に示した形態素解析の結果から、「ワークステーション」と「開発」の部分の単語列「ワークステーション」+「を」+「開発」と、図6に示した関係抽出規則とを照合すると、「名詞/サ変+「を」+サ変」という規則と適合する。そのため、S25からS26に進み、「ヲ格」という関係を抽出し、検索結果記憶手段4に格納する。
【0060】
S27において、検索結果記憶手段中にはまだ関係を抽出していない検索結果が残っているので、S21へ戻り、関係抽出手段5は次の検索結果についての処理を行なう。今度はタイトルが「C社とD社の提携が始動」という検索結果に対して、処理を続ける。検索キー1および2はそれぞれ「ワークステーション」,「開発」であり、検索結果の文章は、「C社は・・・D社から供給を受けた新型のワークステーションを海外の販売網を通じて販売すると、正式に発表した。また、D社も・・・開発した大型コンピューターの・・・販売を英国で発表。・・・」である。検索キー1,キー2を変数W1,W2に格納し、検索結果の文章を変数TEXTに格納する。
【0061】
検索キー「ワークステーション」と「開発」は、同じ1文中にないので、S22からS29に進む。検索キー「ワークステーション」の含まれる文の次の文に検索キー「開発」が含まれているので、両単語を含む文の距離は1文である。そのため、「1文」という関係が抽出され、この関係「1文」を検索結果記憶手段4に格納する。
【0062】
以下、同様の処理を、検索結果全てに対して行なう。図7は、本発明の情報検索装置の第1の実施例における関係抽出処理後の検索結果の一例の説明図である。上述のようにして、関係抽出手段5による関係抽出の処理が終了した時点で、検索結果記憶手段4に格納されている情報は、図7に示すようになる。それぞれの検索結果に対して関係が付与されている。
【0063】
以上で、検索結果からの関係の抽出の処理が終了するので、S13において、この関係を検索結果の情報とともに表示手段6に表示する。図8は、本発明の情報検索装置の第1の実施例における関係抽出処理後の検索結果の表示の一例の説明図である。図8に示した表示例では、入力領域、候補表示領域、結果表示領域の3つの領域を表示している。入力領域には、入力された検索キーが表示されている。候補表示領域には、検索結果と、関係抽出手段5で抽出された関係とを対にして、検索された順序で表示されている。上述の具体例の場合には、ユーザは、ワークステーションを開発したことについての新聞記事を検索したいので、図8では、関係が「ヲ格」であるものを探してその結果情報だけを見れば良く、それ以外の情報を見る必要がない。そのため、ユーザは、所望の情報をすぐに得ることができる。
【0064】
この検索結果と関係との対のうちのどれかを選ぶことにより、右側の結果表示領域に検索結果の内容が表示される。図8では、選択された検索結果にハッチングを施して示している。ここでは、タイトルとして「独自開発のWSを開発」という文章が選択されており、結果表示領域に検索された文章が表示されている。このとき、検索キーの部分に図8に示すように下線を付したり、反転表示、色や輝度を変える等、強調表示を行なうようにしてもよい。
【0065】
図9は、本発明の情報検索装置の第1の実施例における関係抽出処理後の検索結果の表示の別の例の説明図である。図9では、検索結果に対応する関係が同じもの同士をまとめて候補表示領域に表示した例である。このように表示することによって、ユーザは、自分が探したい結果を容易に見つけることができる。上述の具体例の場合には、ユーザは、ワークステーションを開発したことについての新聞記事を検索したいので、図9では、関係が「ヲ格」のところに並んでいる情報だけを見れば良く、それ以外の情報を見る必要がない。図8に示した表示例に比べ、関係の部分を探す手間が減少するので、さらに所望の情報を簡単に得ることができる。
【0066】
ここでは、検索結果とともに関係だけを表示した例を示したが、表示の仕方はこれに限らず、関係の代わりに、例えば、「ワークステーション−ヲ格−開発」のように、関係を検索キーとともに表示しても良いし、さらに「ヲ格」のような関係を表わす記号ではなく、「ワークステーションを開発」のように普通の日本語の表示にしてもよい。さらに、例えば、「a.ヲ格 b.デ格 c.1文d.2文 e.3文」といったように、まず関係だけを表示しておいてその中から1つを選択してもらい、選択された関係を持つ検索結果を表示するというようにしてもよい。
【0067】
図10は、本発明の情報検索装置の第2の実施例を示すブロック図である。図中、図1と同様の部分には同じ符号を付して説明を省略する。7は類義語記憶手段である。この第2の発明では、第1の発明において、さらに、ある単語に類似した単語のリストを保持した類義語記憶手段7を有している。情報検索手段2は、ある単語に対して、類義語記憶手段7から得られる類義語を検索キーとして、情報記憶手段3から情報を検索する。
【0068】
類義語記憶手段7は、ある単語に類似した単語のリストを保持しているものであり、例えば、「ワークステーション」という語に対して、「パソコン」や「オフコン」のような類似した語を保持しており、「開発」という語に対して、「作成」のような語を保持している。このような類義語が類義語記憶手段7に保持されているとき、情報検索手段2は、例えば、「ワークステーション & 開発」という検索条件で検索を行なう際には、「(ワークステーション or パソコン or オフコン)&(開発 or 作成)」という検索条件で検索を行なうことになる。
【0069】
その後、関係抽出手段5が、第1の発明と同様に検索結果記憶手段に記憶されている検索結果から検索キーとして用いられた複数の単語間の関係を抽出し、検索結果記憶手段に格納する。なお、関係抽出手段5は、情報検索手段2から直接、検索結果を受け、抽出した関係の情報を表示手段6に出力するように構成してもよい。
【0070】
図11は、本発明の情報検索装置の第2の実施例における類義語を用いた検索および関係抽出処理の結果の一例の説明図である。図11に示すように、検索キー1として、「ワークステーション」だけでなく、「パソコン」,「オフコン」を有し、また、検索キー2として、「開発」だけでなく、「作成」を有する情報も検索されている。これにより、ワークステーションを開発した記事を参照するときに、例えば、パソコンを開発した記事も検索することができ、検索の漏れを防止することができる。
【0071】
以上で、検索結果からの関係の抽出の処理が終了するので、第1の発明と同様に、この関係と結果の情報とを表示する。図12は、本発明の情報検索装置の第2の実施例における関係抽出処理後の検索結果の表示の一例の説明図である。図12では、図9に示した表示例と同様に、関係が同じもの同士をまとめて表示している。このように表示することによって、ユーザは、自分が捜したい結果を容易に見つけることができる。
【0072】
図13は、本発明の情報検索装置の第2の実施例における関係抽出処理後の検索結果の表示の別の例の説明図である。図13に示した表示例では、検索キーを関係とともに表示している。このように表示することによって、ユーザは、どのような検索キーにより検索された情報かが判別でき、自分が捜したい結果を容易に見つけることができるとともに、類義語としてどのような語が存在し、また、類義語により検索が行なわれたことを知ることができる。
【0073】
上述のように、ユーザは、ワークステーションを開発したことについての新聞記事を検索したい場合には、図13では、関係が「ヲ格」のところに並んでいる情報のうち、キー1,キー2がそれぞれ「ワークステーション」「開発」となっている結果情報を見れば良く、必要に応じて、キー1,キー2がそれぞれ「パソコン」,「開発」となっている結果情報なども参考にすれば良い。
【0074】
上述の例では、類義語記憶手段7に、「ワークステーション」という語に対して「パソコン」や「オフコン」のような類義語を保持している例について説明した。これ以外にも、「ワークステーション」という語に対して、例えば、「コンピュータ」のような上位概念や、「ワークステーション」に対する商品名のような下位概念などを類義語記憶手段7に保持しておき、これらの上位概念あるいは下位概念を用いて検索するようにしてもよい。上位概念を用いて検索する例を示すと、例えば、「ワークステーション & 開発」という検索条件で検索を行なう際には、
(ワークステーション or コンピュータ)&(開発)
で検索を行なったり、
(ワークステーション or パソコン or オフコン or コンピュータ)&(開発 or 作成)
で検索を行なったりすることになる。これらの検索条件で検索を行なった際の処理は、上述の例と同様である。
【0075】
通常、類義語をも含めて検索を行なうと、検索結果として得られる情報は多量となり、その中から所望の情報を選択することは容易ではない。しかし、本発明のように、キーワードがユーザが意図した関係を有する情報のみをピックアップして参照することにより、所望の情報を容易に得ることができる。
【0076】
図14は、本発明の情報検索装置の第3の実施例を示すブロック図である。図中、図1と同様の部分には同じ符号を付して説明を省略する。8は入力情報記憶手段、9は関係比較手段である。上述の第1および第2の実施例では、入力手段1から検索要求を入力する際には、複数の単語を入力していた。この第3の実施例では、検索要求を自然言語で入力する場合を示している。
【0077】
入力手段1は、検索したい情報に関する検索要求を自然言語で入力するものである。例えば、キーボードのような入力装置により構成することができる。本実施例では、検索要求は日本語で入力されたものについて示す。この場合、日本語の入力としてかな漢字変換等を行なう場合には、入力手段1として、かな漢字変換などのためのソフトウェアを含む構成とすることができる。
【0078】
入力情報記憶手段8は、入力手段1から入力された検索要求とともに、その検索要求から関係抽出手段5によって抽出された複数の単語と、その単語間の関係を記憶する。この入力情報記憶手段8は、磁気ディスクのような情報を記憶できるものであればどのような構成でもよい。
【0079】
関係抽出手段5は、文章から複数の単語とその単語間の関係を抽出するものである。文章を形態素解析して単語の列を抽出し、その単語列と関係抽出規則とを照合することによって、互いに関係する複数の単語間の関係とを抽出する。関係の抽出は、検索結果記憶手段に格納された検索結果の情報に対して行なうとともに、この第3の実施例では、入力情報記憶手段8に記憶されている検索要求に対しても行なう。
【0080】
関係比較手段9は、入力情報記憶手段8に記憶されている関係と、検索結果記憶手段4に記憶されている関係とを比較し、一致する情報を表示手段6に送るものである。
【0081】
表示手段6は、関係比較手段9による比較処理によって、検索要求と一致した検索結果情報を表示する。例えば、CRTやLCDなどのディスプレイ装置等で構成することができる。
【0082】
この第3の実施例の構成において、関係抽出手段5は検索結果記憶手段4を介さずに、直接、情報検索手段2から検索結果を得るように構成することができる。さらに、関係比較手段9も、関係抽出手段5から直接、抽出した関係を得るように構成することができる。この場合、検索された情報は、関係抽出手段5や関係比較手段9を介して、あるいは、情報検索手段2または情報記憶手段3から直接、表示手段6に供給されるように構成すればよい。
【0083】
図15は、本発明の情報検索装置の第3の実施例における動作の一例を示すフローチャートである。この第3の実施例では、まず検索キーが入力されると、S31において、入力された検索要求を入力情報記憶手段8に格納する。そして、S32において、関係抽出手段5が検索要求から複数の単語とその単語間の関係とを抽出し、入力情報記憶手段8に格納する。次に、S33において、情報検索手段2が、入力情報記憶手段8に記憶されている複数の単語を検索キーとして、情報記憶手段3から情報を検索し、検索結果記憶手段4に検索結果を格納する。
【0084】
その後、S34において、関係抽出手段5が、検索結果記憶手段4に記憶されている検索結果から、検索キーとして用いられた複数の単語間の関係を抽出し、検索結果記憶手段4に格納する。そして最後に、S35において、関係比較手段9が、入力情報記憶手段8に記憶されている関係と、検索結果記憶手段4に記憶されている関係とを比較し、一致する情報を表示手段6に表示する。
【0085】
図16は、本発明の情報検索装置の第3の実施例における関係抽出手段5の動作の一例を示すフローチャートである。上述のように、この第3の実施例においては、関係抽出手段5は、入力情報記憶手段8に記憶された検索要求に対する関係抽出処理と、検索結果記憶手段4に記憶されている検索結果に対する関係抽出処理を行なう。まず、検索要求の場合には、S41からS42に移り、入力情報記憶手段8に記憶されている検索要求を変数TEXTに読み込む。読み込んだ検索要求は、S43で形態素解析により単語に分解される。そして、S44において、形態素解析で分解された単語列を関係抽出規則と照合し、関係抽出規則中にマッチするものがあるか否かをS45で判断する。マッチする関係抽出規則が存在する場合には、S46において、マッチした関係抽出規則に基づいて、単語群および関係を抽出し、入力情報記憶手段8に格納する。また、マッチする関係抽出規則が存在しない場合には、S47でエラーとなる。
【0086】
検索結果に対する抽出処理の場合には、S41からS48に進む。S48ないしS56の処理は、第1の実施例の図3におけるS21ないしS29の処理と同一であるので、ここでは説明を省略する。
【0087】
次に、上述の動作を具体例をもとに、図15、図16に示したフローチャートにそって、図17ないし図25を用いて詳述する。ここでは、具体例として、上述の実施例と同様、ワークステーションを開発したことについての新聞記事を検索しようとして、入力手段1から「ワークステーションを開発」と入力したときの例について説明する。
【0088】
この第3の実施例では、入力手段1から検索要求として「ワークステーションを開発」と入力されると、S31において、入力された検索要求を入力情報記憶手段8に格納する。図17は、本発明の情報検索装置の第3の実施例における入力情報記憶手段に記憶された検索要求の一例の説明図である。この段階では、図17に示したように、入力された検索要求がそのまま入力情報記憶手段8に格納される。
【0089】
次に、S32において、関係抽出手段5は、入力情報記憶手段8に記憶されている検索要求から互いに関連を持つ複数の単語と、その単語間の関係とを抽出して、入力情報記憶手段8に格納する。
【0090】
関係抽出手段5における関係の抽出処理では、まず、検索要求に対する関係抽出処理であるので、図16のS41からS42に進む。S42において、検索要求である「ワークステーションを開発」を取り出し、取り出した検索要求をS43で形態素解析して単語の列に分割する。図18は、本発明の情報検索装置の第3の実施例における検索要求の形態素解析結果の説明図である。入力された検索要求「ワークステーションを開発」は、図18に示すように形態素解析がなされ、単語に分割される。
【0091】
次に、S44において、形態素解析により得られた単語列と、関係として抽出する表現を定めた関係抽出規則との照合を行なう。この関係抽出規則は、検索結果から関係を抽出する際に用いたものと同様のものを用いることができる。例えば、第1の実施例の図6に示した関係抽出規則を用いることができる。
【0092】
図18に示した単語列と、図6に示した関係抽出規則とを照合すると、「ワークステーション」は名詞であり、「開発」はサ変名詞であるので、「名詞+「を」+サ変」という規則と適合し、S45からS46に進み、「ワークステーション」,「開発」という2つの単語と、「ヲ格」という関係が抽出される。抽出された複数の単語とその単語間の関係は、入力情報記憶手段8に格納される。図19は、本発明の情報検索装置の第3の実施例における関係抽出処理後の検索要求の一例の説明図である。入力された検索要求とともに、関係抽出手段5で抽出された単語と関係が格納されている。複数の単語と関係が抽出される場合も、同様に入力情報記憶手段8に格納される。以上で、検索要求からの関係の抽出の処理が終了する。
【0093】
次に、図15のS33において、情報検索手段2は、関係抽出手段5によって検索要求から抽出された「ワークステーション」と「開発」という2つの単語を検索キーとし、その論理積を検索条件として情報記憶手段3から情報を検索する。すなわち、第1の実施例における具体例で「ワークステーション & 開発」と入力した場合と同様の検索を行なう。検索結果として、例えば、第1の実施例と同様に、図4に示す検索結果が得られたものとする。得られた検索結果は、検索結果記憶手段4に格納される。
【0094】
次に、S34において、関係抽出手段5は、今度は検索結果記憶手段4に記憶されている検索結果から関係を抽出し、検索結果記憶手段4に格納する。図16のS41からS42へ進み、第1の実施例と同様にして、検索結果記憶手段4に記憶されている各検索結果について、関係を抽出し、検索結果記憶手段4に格納する。図4に示す検索結果について、関係抽出手段5で関係を抽出した後の検索結果記憶手段4の内容は、第1の実施例における図7のようになる。
【0095】
最後に、S35において、関係比較手段9は、入力情報記憶手段8に記憶されている関係、すなわち、図19に示す情報と、検索結果記憶手段4に記憶されている関係、例えば、図7に示す情報とを比較し、一致する情報を表示手段6に表示する。この例では、入力情報記憶手段8に記憶されている関係は、図19に示すように「ヲ格」という関係である。この関係と、図7に示されている検索結果記憶手段4に記憶されている関係とを比較すると、タイトルが「独自開発のWSを発売」,「P社がWSを発売」という2つの検索結果が「ヲ格」を有しているので一致する。この一致した検索結果を表示手段6で表示する。
【0096】
図20、図21は、本発明の情報検索装置の第3の実施例における検索結果の表示例の説明図である。検索結果は、ユーザが入力した検索要求が有する関係を満たしたものだけが抽出されている。すなわち、表示される検索結果は、ユーザの意図したものだけに絞り込まれている。そのため、上述の第1、第2の実施例のように、関係情報を表示する必要はなく、例えば、図20に示すように、検索結果を表示領域に順々に表示するだけでもよい。あるいは、図21に示すように、一旦、候補表示領域にタイトルなどを表示し、候補を選んで文章を表示するようにしてもよい。あるいは、それ以外の方法で表示してもよい。また、図20,図21に示すように、関連する単語に下線を引いたり、反転させたり、色や輝度を変えて表示したりしてもよい。
【0097】
このように、本発明の第3の実施例によれば、ユーザは検索要求を自然言語で入力することができ、検索の操作性を向上させることができる。また、自然言語で入力された検索要求から、互いに関連する複数の単語とその単語間の関係とを抽出して、その関係を有する検索結果をユーザに提示するので、ユーザが所望する情報を精度良く検索することを可能としている。
【0098】
次に、第4の実施例について説明する。第4の実施例の構成は、上述の第3の実施例と同様である。この第4の実施例では、関係比較手段9は、入力情報記憶手段8に記憶されている関係と、検索結果記憶手段4に記憶されている関係とを比較する際に、一致度を計算し、その一致度に基づいて検索結果記憶手段4に保持されている情報を並び変えて提示することを特徴とするものである。この実施例の場合にも、検索結果から抽出された関係を、関係抽出手段5から直接得るように構成してもよい。
【0099】
図22は、本発明の情報検索装置の第4の実施例における関係比較表の一例の説明図である。関係比較手段9は、一致度を計算する際に、例えば、図22に示すような関係比較表を用いることができる。この関係比較表は、入力情報記憶手段8に記憶されている検索要求から抽出された関係と、検索結果記憶手段4に記憶されている検索結果から抽出された関係とを一意に決めることによって、一致度が得られるようになっている。図22では、関係が一致した場合を100とし、それぞれの場合の一致度を数値で示している。
【0100】
第4の実施例における動作は、関係比較手段9における動作を除き、上述の第3の実施例と同様である。以下、関係比較手段9の動作についてのみ、具体的に説明する。
【0101】
第3の実施例と同様に、検索要求から関係を抽出した結果として、入力情報記憶手段8の記憶内容が図19に示すようになっており、検索結果から関係を抽出した結果として、検索結果記憶手段4の記憶内容が図7に示すようになっている場合について説明する。つまり、入力情報記憶手段8に記憶されている関係は「ヲ格」という関係である。
【0102】
関係比較手段9は、図22に示した関係比較表を用いて、一致度を判定する。まず、入力情報記憶手段8に記憶されている関係「ヲ格」と、検索結果記憶手段に記憶されている検索結果の最初のものの関係「ヲ格」とを比較する。図22に示した関係比較表より、この一致度は「100」という値になるため、検索結果記憶手段4の一致度の欄にこの値を記憶する。次の検索結果についても同様に、入力情報記憶手段8に記憶されている関係「ヲ格」と、検索結果の関係「1文」とを比較し、関係比較表から一致度「50」を得る。このようにして、検索結果記憶手段4に格納されているすべての検索結果との一致度を判定する。図23は、本発明の情報検索装置の第4の実施例における一致度判定結果を含む検索結果の一例の説明図である。すべての検索結果について、一致度を判定し、得られた一致度の値は検索結果記憶手段4に格納される。例えば、図19に示した検索要求の関係と、図7に示した検索結果の関係から、図23に示すように一致度が得られる。
【0103】
図24は、本発明の情報検索装置の第4の実施例における検索結果の表示例の説明図である。図23に示すように一致度が得られると、得られた一致度の大きい順に検索結果を並べ直して、表示手段6に表示する。図23に示した検索結果を一致度の大きい順に検索結果を並べ直すと、タイトルの順序は、図24の候補表示領域に示した順序となる。この表示順序は、ユーザが入力した検索要求に近い順である。そのため、ユーザは上の方から順に検索結果を参照することにより、所望の検索結果に容易に到達することが可能である。
【0104】
図24に示した表示例では、候補表示領域には一致度の大きい順にタイトルを表示しているのみであるが、一致度を合わせて表示したり、第1の実施例と同様に、各検索結果の関係を表示することも可能である。
【0105】
図25は、本発明の情報検索装置の第5の実施例を示すブロック図である。図中の符号は、図10、図14と同様である。この第5の実施例では、上述の第4の実施例に、第2の実施例で説明した類義語記憶手段7を設けた例を示している。この場合、関係抽出手段5で検索要求から抽出された単語以外に、その単語に類似した単語でも検索が行なわれるので、関係比較手段9は、関係の比較だけでなく、単語の類似度についても判定する。
【0106】
類義語記憶手段7は、ある単語に類似した単語のリストを保持している。情報検索手段2は、関係抽出手段5によって入力情報記憶手段8に記憶されている検索要求から抽出された単語に対して、類義語記憶手段7から得られる類義語を得る。そして、検索要求から抽出された単語と、類義語記憶手段7から得られた類義語を検索キーとして用いて、情報記憶手段3から情報を検索する。検索した情報は、検索結果記憶手段4に格納する。関係比較手段9は、入力情報記憶手段8に記憶されている複数の単語およびそれらの関係と、検索結果記憶手段4に記憶されている各検索結果から抽出された複数の単語およびそれらの関係とを比較して、一致度を判定する。そして、その一致度に基づいて、検索結果記憶手段4に保持されている情報を並び替えて、表示手段6に表示する。もちろん、情報検索手段2で検索した情報を関係比較手段9に直接渡し、さらに、関係抽出手段9は抽出した関係を関係比較手段9に直接渡すようにしてもよい。
【0107】
具体例をもとに、本発明の第5の実施例の動作を説明する。類義語記憶手段7は、例えば、「ワークステーション」という語に対して、「パソコン」や「コンピュータ」のような類似語を保持しており、「開発」という語に対して、「作成」のような語を保持しているものとする。入力手段1から、例えば、「ワークステーションを開発」という検索要求が入力されると、入力情報記憶手段8に格納され、関係抽出手段5で単語および関係が抽出されて、例えば、図19に示す情報が入力情報記憶手段8に記憶される。情報検索手段2は、検索要求から抽出された単語「ワークステーション」および「開発」をもとに、類義語記憶手段7を参照する。これにより、単語「ワークステーション」に類似した語「パソコン」や「コンピュータ」等が得られる。また、単語「開発」に類似した語「作成」が得られる。そして、入力情報記憶手段8から得られた単語と、類義語記憶手段7から得られた単語を用いて、例えば、
(ワークステーション or パソコン or コンピュータ)&(開発 or 作成)
という検索条件により、情報検索手段2は検索を行なうことになる。
【0108】
図26は、本発明の情報検索装置の第5の実施例における検索結果の一例の説明図である。上述のようにして類似した語をも用いて検索することにより、キーワードとして「ワークステーション」,「開発」を有する情報だけでなく、「パソコン」や「コンピュータ」、「作成」を有する情報も検索されている。
【0109】
図27は、本発明の情報検索装置の第5の実施例における関係抽出処理後の検索結果の一例の説明図である。図26に示す検索結果が得られ、検索結果記憶手段4に格納されると、関係抽出手段5によって、各検索キー同士の関係を抽出する。この処理は、上述の各実施例と同様である。関係抽出手段5によって関係が抽出された後の検索結果記憶手段4の内容を図27に示している。
【0110】
図27に示すように各検索結果の関係が抽出されると、関係比較手段9は、上述の第4の実施例と同様にして関係の一致度を判定するとともに、単語の一致度の判定も行ない、それらを総合して一致度の判定を行なう。ここで、検索要求から得られた関係は、例えば、図19に示すように「ヲ格」となっているものとする。
【0111】
次に、第4の実施例と同様に、検索要求から得られた関係「ヲ格」と、図27に示す各関係との一致度を、例えば、図22に示した関係比較表を用いて判定し、検索結果記憶手段4に格納する。例えば、最初の検索結果は、関係「ヲ格」を有しているので、関係の一致度は100となる。また、2番目の検索結果は、関係「1文」を有しているので、関係の一致度は50となる。
【0112】
また、単語の一致度の判定を、図19に示した単語「ワークステーション」,「開発」と、図27に示した各検索結果の検索キーとを比較して行なう。この例では、類義語記憶手段7から得られる類義語の一致度を全て「90」として計算を行なう。しかし、これに限らず、類義語記憶手段7の中に、類義語と類似度(一致度)とを対にして記憶しておいたり、単語の一致度の計算のための関係比較表を設けてもよい。
【0113】
そして最後に、関係の一致度と単語の一致度とから全体の一致度を判定し、検索結果記憶手段4に格納する。ここでは、関係の一致度、検索キー1の一致度、および、検索キー2の一致度の3つの一致度の平均を全体の一致度として計算している。もちろん、このほかの方法で全体の一致度を計算してもよく、例えば、各一致度に重みを付け、加重平均を算出するなど、種々の方法を用いることができる。
【0114】
図28は、本発明の情報検索装置の第5の実施例における一致度判定後の検索結果の一例の説明図である。それぞれの検索結果について、関係抽出手段5で抽出された関係と検索要求から抽出された関係との一致度と、検索要求から抽出された単語と検索キーとして用いた単語との一致度とが求められ、これらの一致度から全体の一致度が検索されて格納されている。
【0115】
図28に示すように、一致度が求められると、これらを、例えば、全体の一致度により並べ替え、表示手段6に表示する。表示の方法としては、例えば、上述の第4の実施例で図24に示したように、全体の一致度が大きい順に検索結果のタイトルを候補表示領域に表示し、選択されたタイトルを有する文章を結果表示領域に表示するように構成することができる。このほか、ユーザからの指示に従い、関係の一致度や単語の一致度に基づいて並べ替えて表示を変更可能に構成することもできる。この第5の実施例の場合にも、例えば、全体の一致度をタイトルとともに表示したり、関係の一致度、単語の一致度をも表示するように構成することも可能である。
【0116】
この一致度の大きい情報ほど、ユーザが所望する情報そのものであるか、あるいは所望する情報に近い情報であり、ユーザは、一致度の大きい順に表示された検索結果を順に参照することにより、所望する情報を容易に得ることができる。このように、上述の第5の実施例では、類義語を用いて検索することにより、検索漏れを防ぐとともに、一致度の大きい順に表示することができ、ユーザが所望する情報を容易に得られるようにしている。
【0117】
上述の第3ないし第5の実施例においては、入力手段1から入力される検索要求が自然言語であるものとして説明したが、もちろん、複数の単語とそれらの関係を入力するように構成してもよい。このとき、例えば、上述の具体例のように、ワークステーションを開発する内容の情報を検索する場合、「ワークステーション」、「関係」の各単語と、関係「ヲ格」を入力すればよい。
【0118】
また、上述の第2および第5の実施例において、類義語格納手段7から類義語を取得して検索を行なうか、あるいは、入力した検索要求のみで検索を行なうかを、ユーザの指示に従って切り替えるように構成することが可能である。
【0119】
さらに、上述の第1ないし第5の各実施例では、検索結果から単語列と抽出規則との比較によって関係を抽出し、「ヲ格」「ガ格」などを関係として用いたが、この関係としてこれ以外にも文章を構文・意味解析して得られる格関係などを用いても良い。構文・意味解析を行なった場合に得られる格関係は、例えば、
開発:<対象>ワークステーション
開発:<主体>A社
のようなものである。<対象>や<主体>などが格関係であり、「開発」の対象は「ワークステーション」、「開発」の主体は「A社」であることを表わしている。例えば、「A社はRISC型中央演算処理素子を載せたワークステーションを開発」という文からは、
開発:<対象>ワークステーション
開発:<主体>A社
載せる:<対象>RISC型中央演算処理素子
載せる:<場所>ワークステーション
のような格関係が抽出でき、「ワークステーション & 開発」という検索キーによって検索されたときには、
対象:<開発>ワークステーション
のように関係を表示すればよい。
【0120】
また、これら以外にも、文章を解析して得られる単語間のさまざまな関係を用いてかまわない。さらに、上述の各実施例では、検索キーとなる単語の数が2個のもので説明したが、3語以上の単語とそれらの間の関係を用いてもかまわない。
【0121】
上述の各実施例では、情報記憶手段3に日本語のテキストを含む情報が格納され、日本語による検索要求によって検索を行なう場合を例にして説明した。これらの実施例では、例えば、英語のテキストを含む情報を英語の検索要求によって検索を行なうなど、日本語以外の言語を用いた場合でも同様に構成することができる。しかし、上述の各実施例では、例えば、日本語による検索要求によって英語のテキストを含む情報を検索することはできない。以下、このような多言語間の検索を行なうことのできる実施例をいくつか示す。
【0122】
図29は、本発明の情報検索装置の第6の実施例を示すブロック図である。図中、図1と同様の部分には同じ符号を付して重複する説明を省略する。61は検索要求解析手段、62は対訳辞書、63は関係解析手段、64は言語解析切り替え手段、65は言語別言語解析手段、66は言語別関係抽出手段、67は検索結果出力手段である。
【0123】
情報記憶手段3には、少なくとも自然言語で記述されたテキストを含む情報が記憶されている。テキストの記述には、日本語に限らず、英語やドイツ語、フランス語など、各種の言語が用いられる。
【0124】
入力手段1は、上述の各実施例と同様に、例えば、キーボードのような入力装置から、検索要求となる複数の単語や文等を入力することができる。検索要求解析手段61は、入力手段1から入力された検索要求を、検索キーとなる複数の単語に分割して保持する。
【0125】
対訳辞書62は、類義語辞書を複数言語に拡張したものである。上述のように、類義語辞書は、ある語に対して類似した意味を持つ語を集めたリストである。例えば、類義語辞書では、「生産」という語に対して、「製造」、「制作」、「産出」などが得られる。対訳辞書62は、類似した意味を持つ語を同一言語だけでなく複数言語にわたって収録したものである。例えば、同じ「生産」に関しては、日本語の類義語と、英語では“produce”,“manufacuture”,“create”など、ドイツ語では“schaffen”,“produzieren”などが得られる。対訳辞書62中では、これらの語を、それぞれの言語と対をなして例えばリストとして保持しておくことができる。どの言語のどの単語からでもこのリストを得ることができるように構成しておくとよい。
【0126】
情報検索手段2は、検索要求解析手段61で分割した複数の単語のそれぞれを、対訳辞書62を用いて展開する。もとの入力された検索要求を形成する語をa,bの2語であったとする。それぞれの語を展開した語をa1,a2,...,amと、b1,b2,...,bnとする。これらの展開した語には、複数の言語の類義語が含まれている。情報検索手段2は、展開されたそれぞれの語をキーとして情報記憶手段3から情報を検索する。ここでの検索キーは、(a1 ORa2 OR ... OR am) AND (b1 OR b2 OR ... OR bn)である。検索方法は、上述の実施例と同様、既存の技術を利用することができる。検索により得られた情報中のテキストは、種々の言語で記述されている。
【0127】
関係解析手段63は、検索された情報中のテキストの解析を言語解析切り替え手段64に依頼し、検索キーとして用いた単語のテキスト中での関係を得る。そして、検索により得られた情報と、言語解析切り替え手段64から得られた単語とその関係を検索結果出力手段67へ送る。ここでは、検索に用いた検索キーが、1文中に存在するか否かを判定し、1文中に存在する場合には、その文の解析を依頼し、1文中に存在しない場合には、解析を依頼せず、その先の処理は行なわないように構成している。しかし、1文中に検索キーが存在しない場合に、関係として無関係を表わす例えば「NO−REL」という関係を与えて、そのまま関係解析手段63の出力とし、検索結果出力手段67へ渡すように構成してもよい。これにより、すくなくともブール検索と同等の機能を果たすことができる。
【0128】
言語解析切り替え手段64は、検索結果として得られる情報中のテキストを記述する言語の種類に応じて、複数の言語別言語解析手段65のうちから対応するものを選び、選んだ言語別言語解析手段に情報を渡す。テキストを記述する言語の種類を判別する方法としては、予めテキストとともに言語を示す情報を記憶させておき、この言語を示す情報を参照する方法や、または、テキストの特徴を解析する方法等を用いることができる。前者の方法の場合には、情報記憶手段3に記憶されている各情報に、テキストの記述に使用されている言語を示す情報を付加しておく必要がある。また、後者の方法の場合には、対訳辞書62あるいはそれと同様の辞書などを利用して、テキストを構成する各単語の言語を得ることによって判断することができる。このとき用いる辞書は、10語程度でも十分利用可能である。ここでは、前者の方法を採用し、言語の種類が予め情報中に記述されているものとする。記述方法としては、表題や作成日付などと同様に、本文のテキストとは別に記載する方法と、本文中にタグなどを用いて埋め込む方法がある。後者の方法では、本文の一部に他言語で記載されている部分がある場合にも対処できる。この実施例では、簡単にするため、前者の本文のテキストとは別に記載する方法を採用する。
【0129】
言語別言語解析手段65は、各言語ごとに設けられ、その言語専用の文法規則、辞書などを備え、各言語を解析するのに適切な構成を有している。ただし、解析エンジンは共通のものを使用してもよい。一方、解析のレベルを言語別に変えることも可能である。例えば、英語とドイツ語は共通の言語解析器を用い、日本語は形態素解析とパターンマッチングで解析するという構成を用いることができる。解析結果は、言語別関係抽出手段66へ送られる。
【0130】
言語別関係抽出手段66も各言語ごとに設けられ、対応する言語別言語解析手段65から送られてきた解析結果から複数の単語間の関係を抽出する。日本語関係抽出手段の場合、上述の各実施例のように、文章の形態素解析結果より単語の列を抽出し、その単語列と関係抽出規則とを照合することによって、互いに関係する複数の単語間の関係を抽出する。英語の場合は、構文(木構造)マッチングを用いることができる。
【0131】
検索結果出力手段67は、例えばディスプレイなどの出力装置で構成され、言語別関係抽出手段66で抽出された単語群とそれらの関係や、検索された情報等を表示する。
【0132】
図30は、本発明の情報検索装置の第6の実施例における動作の一例を示すフローチャートである。まず、S71において、入力手段1から検索要求を受け付ける。受け付けた検索要求は、S72において、検索要求解析手段61で検索キーとなる複数の単語に分割される。次に、S73において、情報検索手段2は、S72で得られた複数の単語を、対訳辞書62を用いて展開する。そして、S74において、展開した結果を用いて検索式を作り、検索を行なう。
【0133】
S75において、検索の結果として得られた情報中のテキストの記述に用いられている言語の種類を判定し、言語の種類に応じた処理を選択する。S76およびS77の処理は、各言語ごとに設けられる。ここでは、1つのみ示している。S76において、言語別言語解析手段65は、検索の結果得られた情報中のテキストを解析する。そして、S77において、言語別関係抽出手段66は、関係抽出規則を用いて、検索キーとして用いた複数の単語と、それらの単語間の関係を抽出する。
【0134】
S78において、関係解析手段63は、言語別関係抽出手段66で抽出した単語群とそれらの関係、および、検索の結果得られた情報を検索結果出力手段67に渡し、検索結果出力手段67から出力する
【0135】
以下、本発明の情報検索装置の第6の実施例における動作の一例を、具体例を用いて説明する。図31は、本発明の情報検索装置の第6の実施例における情報記憶手段3に記憶されている情報の一例の説明図である。この具体例では、情報記憶手段3に記憶されている情報は、少なくともテキストを含み、そのテキストの記述に用いられている言語の種類を示す言語マークが付与されている。「J」は日本語、「D」はドイツ語、「E」は英語を示している。もちろん、他の言語によって記述されたテキストを有する情報が記憶されていてもよい。情報中には、絵や図形などが含まれていることもある。各情報を検索するためのキーワードとしては、各情報中のテキスト内で用いられている単語が用いられている。図31に示した例では、キーワードはインデックスとしてまとめられており、各キーワードと、そのキーワードを有する各情報へのポインタが対応づけられて記憶されている。このポインタを図31では矢線で示している。もちろん、他の情報の管理方法を採用してもよい。
【0136】
図32は、本発明の情報検索装置の第6の実施例における対訳辞書の一例の説明図である。ここでは、各言語において類似した意味を持つ語を集めたリストとして、言語の種類を識別するための記号、ここでは「J」、「E」、「D」と対にして登録してある。図32に示した例では、「生産」という語に対して、日本語を示す「J]の記号とともに、「生産」、「製造」、「制作」、「産出」の各単語が、また、英語を示す「E」の記号とともに“produce”,“manufacuture”,“create”の各単語が、さらに、ドイツ語を示す「D」の記号とともに“schaffen”,“produzieren”の各単語が登録されている。同様に、「酒」という語に対しては、日本語の「アルコール」、「酒類」、「酒」、「ビール」、「ワイン」、「ブランデー」が、また、英語の“alcohol”、“wine”、“beer”、“brandy”、“champagne”が、さらに、ドイツ語の“Alkohol”、“Champagner”、“Branttwein”、“Wain”、“Bier”が登録されている。
【0137】
入力手段1から検索要求が入力される。この具体例では、検索要求は複数の単語をコンマなどのデリミタで区切って入力されるものとする。もちろん、空白など、他のデリミタであってもよい。ここでは、「ワイン,生産」を入力として与えることにする。検索要求解析手段61は、入力された検索要求を、検索キーとなる複数の単語に分割する。この具体例では、検索要求解析手段61により、「ワイン」と「生産」が得られる。
【0138】
情報検索手段4は、検索要求解析手段61により分割した各単語を、例えば、図32に示した対訳辞書62を用いて展開する。「ワイン」は「アルコール」、「酒類」、「酒」、「ビール」、「ワイン」、「ブランデー」、“alcohol”、“wine”、“beer”、“brandy”、“champagne”、“Alkohol”、“Champagner”、“Branttwein”、“Wain”、“Bier”に展開される。また、「生産」は、「生産」、「製造」、「制作」、「産出」、“produce”,“manufacuture”,“create”、“schaffen”,“produzieren”に展開される。そして、それぞれ、展開された単語間をORで結んだ条件式を作成し、さらに2つの条件式をANDで結んで検索式を作成する。例えば、(アルコール OR 酒類 OR 酒 OR ビール OR ワイン OR ブランデー OR alcohol OR wine OR beer OR brandy OR champagne OR Alkohol OR Champagner OR Branttwein OR Wain OR Bier)AND (生産 OR 製造 OR 制作 OR 産出 OR produce OR manufacuture OR create OR schaffen OR produzieren)という検索式を作成する。この検索式を用いて情報記憶手段3を検索する。
【0139】
図31においてテキストの内容の一部まで示した情報は、この検索式によって検索される情報の例を示している。例えば、情報(1)は「製造」および「アルコール」を有しており、情報(2)は“Wein”および“produzieren”の変化形“geproduzieret”を有しており、情報(3)は「酒」および「生産」を有しており、情報(4)は“wine”および“produce”の名詞“production”を有しており、情報(5)は「アルコール」および「製造」を有している。そのため、上述の検索式を満足し、これらの情報が検索される。
【0140】
このようにして得られた検索結果は、テキストを含む情報とそのテキストを記述する言語の種類である。これらは次の関係解析手段63に渡される。検索して得られたテキストを含む情報は、情報そのものを関係解析手段63に渡す代わりに、情報記憶手段3に対するアドレスを渡してもよい。このアドレスは、ここでは情報の先頭を示す位置と、その情報内での解析対象となる文の相対位置で構成することができる。アドレスとして、対象となる文の絶対アドレスを渡してもよいし、情報の先頭の位置のみとしてもよい。
【0141】
関係解析手段63は、情報検索手段2から検索結果を受け取り、検索された情報中のテキストを参照し、検索に用いた検索キーが、1文中に存在するか否かを判定する。図31に示した5つの情報では、情報(1)は検索キー「製造」と「アルコール」が別の文に存在するので、この情報については以降の処理を行なわない。この場合、情報(1)を検索結果から除くか、あるいは、関係として無関係を表わす「NO−REL」という関係を与えてそのまま関係解析手段の出力とする。情報(2)〜(5)については、検索キーが1文中に存在するので、順次、言語解析切り替え手段64に送る。
【0142】
言語解析切り替え手段64は、関係解析手段63から送られてきた検索結果から、情報中のテキストが記述されている言語の種類を判別し、言語の種類に応じて、複数の言語別言語解析手段65のうちから対応するものを選び、検索結果を渡す。例えば、図31に示した情報(2)は、テキストがドイツ語で記述されているので、言語解析切り替え手段64はドイツ語言語解析手段を選択する。同様に、情報(3),(5)の場合には、例えば、上述の第1ないし5の実施例で用いたような日本語の言語解析手段を選択する。情報(4)の場合には、英語言語解析手段を選択する。
【0143】
各言語別言語解析手段64では、それぞれの言語ごとに、検索キーの含まれている文を解析する。例えば、日本語言語解析手段は、上述の第1ないし5の実施例で示したように、文を形態素解析し、例えば、図5に示すような単語と品詞の対を生成する。図33は、本発明の情報検索装置の第6の実施例における英語の構文解析結果の一例の説明図である。英語解析手段は、検索キーの含まれている1文を解析し、例えば、図33に示すような構文木を生成するように構成することができる。図33では、“The ABC Ltd. will produce wine.”という文の解析結果の例を示している。ここでは、理解のため解析結果を樹形図とし、属性とともに示している。データ構造は任意である。解析結果は、それぞれの言語に対応する言語別関係抽出手段66へ送られる。
【0144】
各言語別関係抽出手段66は、それぞれの言語ごとに、解析結果をもとに複数の単語とそれらの単語間の関係を抽出する。このとき、関係抽出規則を用いる。図34は、本発明の情報検索装置の第6の実施例における日本語の関係抽出規則の一例の説明図、図35は、同じく英語の関係抽出規則の一例の説明図である。日本語関係抽出手段の場合、図34に一部示すような関係抽出規則を用いて、2つの単語とその単語間の関係を抽出する。この日本語における関係の抽出処理は、上述の第1〜5で用いた関係抽出手段5の動作とほぼ同様である。図34に示した関係抽出規則は、図6に示した関係抽出規則とほぼ同じものであり、抽出される関係の表記が相違するのみである。ここでは、他の言語における関係の表記とあわせるため、図34に示すような関係の表記を用いている。
【0145】
英語関係抽出手段では、例えば、図35に一部示すような関係抽出規則を用いることができる。図35において、「−>」の左側、すなわち左辺は、単語のパターンである。この中で、(#1 #2 #3 #4)は、#1を親とし、その下に#2,#3,#4の3つの子がある木構造を表わす。「<」と「>」で囲まれている部分は、そのノードの属性の指定である。「cat」はカテゴリーであり、構文的な役割を示す。「form」は単語そのもの、「infl」は語形変化を示す。「pres−p」は現在分詞(ing形)、「past−p」は過去分詞を示す。右辺は、抽出される関係表現であり、第一項が関係名、第二、第三項が関係を持つ単語である。「#2.head」は名詞句の被修飾名詞を示し、「#3.main」は動詞句の主動詞(助動詞を除いたもの)を示している。規則中には示していないが、関係表現中では基本的には動詞は原形、名詞は単数形で保持される。図33に示した解析結果の例では、図35に示す英語の関係抽出規則と照合すると、最初の規則と2番目の規則が適用され、次のような単語と単語間の関係が抽出される。
(NOM “ABC Ltd.” “produce”)
(ACC “WINE” “produce”)
【0146】
このようにして得られた単語および単語間の関係は、言語解析切り替え手段64を介して、あるいは、直接、関係解析手段63に返され、言語の種類および検索して得られたテキストを含む情報とともに検索結果出力手段67に送られる。
【0147】
検索結果出力手段67は、関係解析手段63から送られてきた解析結果を表示装置に表示し、ユーザからの指示に従って情報を表示する。このとき、情報を示すアドレスが送られてくる構成の場合には、そのアドレスをもとに情報記憶手段3から情報を取り出し、表示する。図36は、本発明の情報検索装置の第6の実施例における表示画面の一例の説明図である。この例では、候補表示領域に各言語別関係抽出手段66で抽出された複数の単語とそれらの関係を表示している。関係の表示は、関係抽出規則に定義されている関係名をそのまま表示しているが、これに限らず、例えば、上述の第1〜5の実施例で用いたような格(ヲ格、ノ格、デ格、・・・)を表示するようにしてもよい。また、表示領域に余裕があれば、例えば、図13に示したように、タイトルや情報の一部も表示するように構成することもできる。もちろん、例えば、図8に示したように、関係とタイトルなどにより構成してもよい。
【0148】
次に、本発明の情報検索装置の第7の実施例について説明する。この実施例における構成は、第6の実施例で説明した図29に示す構成と同様である。また、動作についても、検索結果の出力の際の処理を除き、第6の実施例と同様である。この第7の実施例では、検索結果の出力の際に、検索された情報から抽出された関係の明確さ、または、単語の類似度、あるいはその両方を求め、これらを用いて検索結果を並べ替えて出力する。これらの処理は、ここでは関係解析手段63において行なわれるものとして説明するが、検索結果出力手段67において行なうように構成してもよい。
【0149】
図37は、本発明の情報検索装置の第7の実施例における関係の明確さを与える規則の説明図である。関係解析手段63は、単語間の関係とその間形の明確さの値を対にした規則を有している。この規則は、言語別に用意され、単語間の関係がより明確になるほど大きな値となるように定義されている。例えば、英語の場合も日本語の場合も、名詞が連続する場合(関係「UNSPEC」)は、その名詞間の意味的なつながりがあいまいであるので、明確さが低いと判断される。日本語の場合は埋め込みも同様である。このような規則を用い、言語別関係抽出手段66で抽出された関係から、明確さの値が求められる。例えば、日本語関係抽出手段で関係「GA−NOMINATIVE」が抽出された場合には、明確さの値は「5」となる。
【0150】
次に、類似度について説明する。上述の第6の実施例で説明したように、検索キーとして与えられた単語は、情報検索手段2において、対訳辞書62を用いて展開され、展開された単語を実際の検索キーとして検索式を生成し、検索を行なっている。そのため、検索された情報に含まれる検索キーと一致した単語は、検索キーとして与えられた単語である場合と、対訳辞書62で展開された単語である場合がある。このとき、検索キーとして与えられた単語と、検索された情報に含まれている単語との類似度を求めることによって、検索された情報が検索要求にどの程度近いかを示すことができると考えられる。
【0151】
類似度を求める方法として、ここでは対訳辞書62に登録されている語を階層的に構成し、階層の違いによって類似度を求める方法を用いている。図38は、本発明の情報検索装置の第7の実施例における対訳辞書の一例の説明図である。図38に示した例では、各言語ごとに階層を構成しており、各ノードに複数の単語が記載されている場合は、それらを同じグループとみなす。また、言語間で破線で結んでいる単語同士も同じグループとみなす。ここでは、言語の種類を示す記号は省略している。単語の類似度は、例えば、同じグループに属する単語間の類似度を10とし、階層を上がる場合はそれより3だけ、階層を下がる場合はそれより1だけ、類似度を減らすことにする。図38に示した例では、「ビール」と「麦酒」は類似度10である。「ビール」と「アルコール」の場合、入力が「アルコール」ならば「ビール」の類似度は9、入力が「ビール」ならば「アルコール」の類似度は7となる。同様にして、「ビール」と「日本酒」の場合は、階層を一つ上がって一つ下がることになり、類似度は6となる。このようにして求められた類似度に従って、例えば、類似度の大きい順に検索結果を並べ替えて出力すればよい。また、類似度が0より大きい情報を出力とするなど、出力する検索結果を制限することができる。このような制限を設けても出力が多すぎる場合には、類似度の初期値を小さくしたり、または閾値を大きくしたり、あるいは、階層を上下する際の類似度の差分を大きくすればよい。また、これらの値をあらかじめ固定しておくのではなく、ユーザーが調整可能なように構成することもできる。なお、このような類似度の求め方を採用する場合には、図29には示されていないが、関係解析手段63が対訳辞書62を参照することができるように構成される。
【0152】
上述の関係の明確さと単語の類似度の両方を用いて、検索結果の並べ替えを行なうこともできる。例えば、言語別関係抽出部で「単語1」と「単語2」およびそれらの関係が抽出されたとき、
「単語1」の類似度×「単語2」の類似度×関係の明確さをスコアとして用い、検索結果の並べ替えを行なうことができる。
【0153】
図39は、本発明の情報検索装置の第7の実施例における表示画面の一例の説明図である。図36に示した第6の実施例と同様の検索を行なった場合の表示画面を示している。検索キーとして与えた単語「酒」と、検索された情報から抽出された単語「Wein」、「Wine」、「アルコール」、「日本酒」との類似度、検索キーとして与えた単語「製造」と、検索された情報から抽出された単語「produzieren」、「produce」、「製造」、「生産」との類似度、および、検索された情報から抽出された関係「ACC」、「ACC」、「DE−INST」、「NO−UNSPEC」から求めた明確さの値から、上述の式によりスコアを計算し、並べ替えを行なっている。図36に比べ、候補表示領域の表示順序が異なっている。
【0154】
上述のスコアは一例であり、例えば、3つの加算値を用いるなど、他の計算方法を用いることもできる。さらに、上述の類似度や明確さの求め方以外の方法でこれらの値を求めてもよいし、類似度や明確さ以外の尺度を導入してもよい。
【0155】
図40は、本発明の情報検索装置の第8の実施例を示すブロック図である。図中、図29と同様の部分には同じ符号を付して説明を省略する。68は関係対応記憶手段である。この第8の実施例では、検索要求として、単語の並びではなく、複数の単語とそれらの関係が与えられる場合の実施例を示している。検索要求として複数の単語とそれらの関係が与えられる場合としては、複数の単語と関係とが別々にユーザから与えられる場合と、上述の第3〜5の実施例に示すように自然言語により与えられる場合が考えられる。ここでは、検索要求が自然言語により与えられる場合について述べる。
【0156】
検索要求解析手段61は、入力手段1から入力された検索要求を解析し、検索キーとなる複数の単語とそれらの関係に分割する。この解析には言語別言語解析手段を用いることができる。すなわち、検索要求が記述されている言語の種別とともに検索要求を関係解析手段63あるいは言語解析切り替え手段64に渡し、解析を依頼する。言語の種別の指定は、例えば、ユーザが主に使う言語を予め指定しておく方法や、検索要求と同時に入力手段1から言語の種類を指定する方法、検索要求に対して簡単な解析を行なって決定する方法などが考えられる。
【0157】
情報検索手段2は、検索要求解析手段61で得られる単語とその関係のうち、単語のみを用い、上述の第6の実施例と同様に、対訳辞書62により単語を展開して検索を行なう。検索結果は関係解析手段63に送られ、やはり第6の実施例と同様に言語解析切り替え手段64、言語別言語解析手段65、言語別関係抽出手段66を用いて検索された情報から単語間の関係を抽出する。
【0158】
関係解析手段63は、先に解析を行なって抽出した検索要求における関係と、検索された情報から抽出した関係を比較する。この比較の際に、関係対応記憶手段68を用いる。
【0159】
関係対応記憶手段68は、言語間関係対応情報と言語内関係対応情報の2つを有している。言語間関係対応情報は、各言語において抽出される関係を対応づけた情報である。また、言語内関係対応情報は、ある関係とその関係に矛盾しない関係を対応づけた情報である。この言語内関係対応情報は、各言語ごとに用意される。
【0160】
いま、検索要求が第1の言語で記述され、検索要求から抽出された関係をREL−Sとする。言語間関係対応情報として、第1の言語における関係REL−Sと、第2の言語における関係REL−Tが対応づけられているとする。また、第1の言語における言語内関係対応情報として、関係REL−Sと、それに矛盾しない関係REL−S2,REL−S3,...が対応づけられ、第2の言語における言語内関係対応情報として、関係REL−Tと、それに矛盾しない関係REL−T2,REL−T3,...が対応づけられているものとする。検索された情報中のテキストが第2の言語で記述されている場合、検索要求の関係REL−Sに対して、言語間関係対応情報により検索された情報中のテキストが記述されている第2の言語における関係REL−Tを得る。さらに、関係REL−Tに対して、第2の言語における言語内関係対応情報を用いて展開し、関係REL−Tと矛盾しない関係REL−T2,REL−T3,...を得る。また、検索要求から抽出された関係REL−Sに対して、第1の言語の言語内関係対応情報を用いて関係を展開し、関係REL−S2,REL−S3,...を得る。検索された情報中のテキストが第3の言語で記述され、検索要求の関係REL−Sに対応する第3の言語における関係が言語間関係対応情報中に対応づけられていない場合には、まず、第1の言語の言語内関係対応情報を用いて検索要求から抽出された関係REL−Sを展開し、関係REL−S2,REL−S3,...を得る。そして、得られたそれぞれの関係に対して、言語間関係対応情報を参照し、第3の言語における関係を得る。この場合、得られた第3の言語における関係は、それ以上の展開は行なわない。
【0161】
図41は、本発明の情報検索装置の第8の実施例における言語間関係対応情報の一例の説明図、図42は、同じく日本語の言語内関係対応情報の一例の説明図である。図41に示した言語間関係対応情報には、日本語の関係「WO−ACCUSATIVE」に、英語の関係「ACC」、ドイツ語の関係「ACC」、フランス語の関係「ACC」が対応づけられている。例えば、入力された検索要求が「AをBする」ならば、日本語の関係として「WO−ACCUSATIVE」が得られる。検索された情報中のテキストが記述されている言語が英語であるとき、検索要求から得られた日本語の関係「WO−ACCUSATIVE」から英語の関係「ACC」が得られる。さらに、英語の関係「ACC」をもとに、英語の言語内関係対応情報を参照する。ここでは、英語の言語内関係対応情報を示していないが、例えば、英語の関係「ACC」に矛盾しない関係として、関係「UNSPEC」等が得られる。一方、図42に示した日本語の言語内関係対応情報を用いて、日本語の関係「WO−ACCUSATIVE」に矛盾しないすべての関係が得られる。図42では、関係「HA−THEME」、「MO−ADDITION」、「CASE−UNSPEC」、「UNSPEC」が対応づけられている。れらすべての関係を、もとの関係「WO−ACCUSATIVE」に矛盾しない関係として扱う。
【0162】
関係解析手段63は、このようにして得られた関係と、検索された情報から抽出された関係を比較し、一致しない検索結果を除き、出力する。あるいは、一致しない旨の情報を付加して出力する。このようにして出力された検索結果を検索結果出力手段67が、例えば、表示装置に表示することにより、ユーザは、検索要求を記述した言語と違う言語を用いて記述されたテキストを有する情報であっても、内容の近い情報を得ることができる。このように、検索要求および情報中のテキストが記述されている言語の種類によらず、内容の類似した情報を得ることができる。
【0163】
さらに、関係解析手段63において、第4または第5の実施例で説明したように、関係の比較の際に用いて一致度を計算し、計算した一致度に基づいて検索結果を並べ替えて表示するように構成することもできる。一致度の計算は、例えば、図22に示したような関係比較表を各言語について用意し、これを用いることができる。また、図42の言語内関係対応情報において括弧で示したのように、矛盾しない関係に類似度を減らす値を付加しておき、例えば、類似度の初期値を5とし、それぞれの値だけ類似度を減らすように構成することもできる。この場合、言語間関係対応についても、例えば、一律に類似度をマイナス1したり、または、そのままの類似度を使うことが考えられる。このようにして計算された類似度の値を一致度として用いて検索結果を並べ替えればよい。さらに、上述の第7の実施例で説明した関係の明確さや単語の類似度を用い、検索結果を並べ替えたり、一致度と併用して第5の実施例のように全体の一致度を計算し、検索結果を並べ替えることができる。一致度等の計算、並べ替え処理は、関係解析手段63または検索結果出力手段67あるいはその両方で処理を分担することによって実現することができる。
【0164】
上述の第6〜第8の実施例において、検索結果として特定の言語に限定して出力させることも可能である。例えば、入力手段1から特定の言語を指定することによって、情報検索手段2が対訳辞書62を用いて単語を展開する際に、指定された言語の単語のみに展開して検索を行なったり、関係解析手段63が指定された言語によってテキストが記述されている情報のみを選択して以降の処理を行なったり、あるいは、検索結果出力手段67において、指定された言語によってテキストが記述されている情報に関してのみ、表示するように構成することができる。
【0165】
なお、第6〜第8の実施例では、情報検索手段2による検索結果は、直接、関係解析手段63に渡されるように図示しているが、上述の第1〜第5の実施例で示したように、検索結果記憶手段を用い、検索結果を一旦記憶させ、関係抽出処理等を行なうように構成してもよい。
【0166】
本発明の情報検索装置は、従来の情報検索装置の構成を変えることなく、情報検索手段2として用いることにより実現することができるため、すでに導入されている情報検索装置から容易に構成可能である。
【0167】
【発明の効果】
以上の説明から明らかなように、本発明によれば、複数の検索キーにより検索された検索結果から、検索キーとして用いられた単語間の関係を抽出するようにしたので、例えば、検索結果と関係とをともに表示することによって、従来の結果だけの表示に比べて、ユーザが望む情報を見つけるのを容易にすることができる。また、検索漏れを防ぐために類義語を含めて検索を行なった場合でも、関係の情報を参照することにより、多量の検索結果から所望の情報を容易に得ることができる。
【0168】
さらに、自然言語で入力された検索要求から、互いに関連する複数の単語とその単語間の関係とを抽出し、その複数の単語をキーとして検索を行なった検索結果からもその単語間の関係を抽出し、それらの関係同士を比較するようにしたので、従来の単語だけの検索に比べて、ユーザが望む情報を精度良く検索することができるようになる。このとき、検索要求から得られる関係と、検索結果から得られる関係の一致度を計算して、これに基づき表示順序を並べ替えることにより、ユーザは関連情報を重要と思われる順に参照することができる。この場合にも、検索漏れを防ぐために類義語を含めて検索を行ない、関係の一致度と単語の一致度から重要と考えられる順に検索情報をユーザに提示することができるので、ユーザは類義語を含めた検索結果から所望の情報を容易に得ることができる
【0169】
さらに、情報記憶手段に記憶されている情報中のテキストの記述言語によらず、また、検索要求の際に用いる言語によらず、所望の内容を有する情報を容易に得ることができるという効果がある。
【図面の簡単な説明】
【図1】本発明の情報検索装置の第1の実施例を示すブロック図である。
【図2】本発明の情報検索装置の第1の実施例における動作の一例を示すフローチャートである。
【図3】本発明の情報検索装置の第1の実施例における関係抽出手段の動作の一例を示すフローチャートである。
【図4】本発明の情報検索装置の第1の実施例における2つのキーによる検索結果の一例の説明図である。
【図5】本発明の情報検索装置の第1の実施例における形態素解析結果の一例の説明図である。
【図6】本発明の情報検索装置の第1の実施例における関係抽出規則の一例の説明図である。
【図7】本発明の情報検索装置の第1の実施例における関係抽出処理後の検索結果の一例の説明図である。
【図8】本発明の情報検索装置の第1の実施例における関係抽出処理後の検索結果の表示の一例の説明図である。
【図9】本発明の情報検索装置の第1の実施例における関係抽出処理後の検索結果の表示の別の例の説明図である。
【図10】本発明の情報検索装置の第2の実施例を示すブロック図である。
【図11】本発明の情報検索装置の第2の実施例における類義語を用いた検索および関係抽出処理の結果の一例の説明図である。
【図12】本発明の情報検索装置の第2の実施例における関係抽出処理後の検索結果の表示の一例の説明図である。
【図13】本発明の情報検索装置の第2の実施例における関係抽出処理後の検索結果の表示の別の例の説明図である。
【図14】本発明の情報検索装置の第3の実施例を示すブロック図である。
【図15】本発明の情報検索装置の第3の実施例における動作の一例を示すフローチャートである。
【図16】本発明の情報検索装置の第3の実施例における関係抽出手段の動作の一例を示すフローチャートである。
【図17】本発明の情報検索装置の第3の実施例における入力情報記憶手段に記憶された検索要求の一例の説明図である。
【図18】本発明の情報検索装置の第3の実施例における検索要求の形態素解析結果の説明図である。
【図19】本発明の情報検索装置の第3の実施例における関係抽出処理後の検索要求の一例の説明図である。
【図20】本発明の情報検索装置の第3の実施例における検索結果の表示例の説明図である。
【図21】本発明の情報検索装置の第3の実施例における関係抽出処理後の検索結果の別の表示例の説明図である。
【図22】本発明の情報検索装置の第4の実施例における関係比較表の一例の説明図である。
【図23】本発明の情報検索装置の第4の実施例における一致度判定結果を含む検索結果の一例の説明図である。
【図24】本発明の情報検索装置の第4の実施例における検索結果の表示例の説明図である。
【図25】本発明の情報検索装置の第5の実施例を示すブロック図である。
【図26】本発明の情報検索装置の第5の実施例における検索結果の一例の説明図である。
【図27】本発明の情報検索装置の第5の実施例における関係抽出処理後の検索結果の一例の説明図である。
【図28】本発明の情報検索装置の第5の実施例における一致度判定後の検索結果の一例の説明図である。
【図29】本発明の情報検索装置の第6の実施例を示すブロック図である。
【図30】本発明の情報検索装置の第6の実施例における動作の一例を示すフローチャートである。
【図31】本発明の情報検索装置の第6の実施例における情報記憶手段3に記憶されている情報の一例の説明図である。
【図32】本発明の情報検索装置の第6の実施例における対訳辞書の一例の説明図である。
【図33】本発明の情報検索装置の第6の実施例における英語の構文解析結果の一例の説明図である。
【図34】本発明の情報検索装置の第6の実施例における日本語の関係抽出規則の一例の説明図である。
【図35】本発明の情報検索装置の第6の実施例における英語の関係抽出規則の一例の説明図である。
【図36】本発明の情報検索装置の第6の実施例における表示画面の一例の説明図である。
【図37】本発明の情報検索装置の第7の実施例における関係の明確さを与える規則の説明図である。
【図38】本発明の情報検索装置の第7の実施例における対訳辞書の一例の説明図である。
【図39】本発明の情報検索装置の第7の実施例における表示画面の一例の説明図である。
【図40】本発明の情報検索装置の第8の実施例を示すブロック図である。
【図41】本発明の情報検索装置の第8の実施例における言語間関係対応情報の一例の説明図である。
【図42】本発明の情報検索装置の第8の実施例における日本語の言語内関係対応情報の一例の説明図である。
【符号の説明】
1…入力手段、2…情報検索手段、3…情報記憶手段、4…検索結果記憶手段、5…関係抽出手段、6…表示手段、7…類義語記憶手段、8…入力情報記憶手段、9…関係比較手段、61…検索要求解析手段、62…対訳辞書、63…関係解析手段、64…言語解析切り替え手段、65…言語別言語解析手段、66…言語別関係抽出手段、67…検索結果出力手段、68…関係対応記憶手段。
[0001]
[Industrial application fields]
The present invention relates to an information search apparatus and an information search method for searching for information such as a document that matches a search request.
[0002]
[Prior art]
Conventionally, as a method for searching for desired information from a large amount of information stored in a database or the like, a keyword is assigned to each data in advance, and information having a keyword that matches a search key input by a user is searched. Have been developed.
[0003]
This method is called an index method or an index method. Examples of the indexing method include a hash method and a digital search method. For details, refer to “The Artof Computer Programming, Volume 3 / Sorting and Searching” (Donald E. Knud, Addison-Wesley Publishing Company, 73). Searching and the like.
[0004]
On the other hand, in recent years, a technique has been developed in which a keyword is not assigned in advance, but information including a search key input by a user can be directly searched. This method is called full text search or full text search. There are BM method, AC method, FSA method and so on as a method for realizing this method. For details, see Chapter 2, Chapter 3, etc. of "Text Search Processor" (written by Takahashi Kosuke, The Institute of Electronics, Information and Communication Engineers, 1991). Has been described.
[0005]
However, since there are few cases where information with a certain search key is uniquely specified, the information searched by one search key is usually plural, and when the amount of stored information becomes large, the number of candidates is Become very much. Therefore, it is a common practice to reduce the number of candidates by designating a plurality of search keys and outputting information including all of the search keys. However, many of the search results obtained in this way are different from the information that the user wanted, and the user has to spend time selecting the desired information. It was.
[0006]
Conventionally, for example, when it is desired to search a newspaper article about the development of a workstation, a search key is designated as in “workstation & development”. However, some of the results from this search included articles about developing workstations, articles about developing certain software on workstations, and even "workstations" and " Articles that contain keywords such as “development” but have no semantic relationship between these words are also included. Users had to read all these many articles and find the one they wanted.
[0007]
In order to eliminate such useless search results, for example, Japanese Patent Application Laid-Open No. 1-112331 describes a technique for efficiently performing keyword search by adding importance to keywords. However, if the importance of the keywords is the same, for example, if you want to search for an article about a user developing a workstation as described above, an article about developing a software on a workstation is Even though the meaning is different, it is still presented to the user as the same search result.
[0008]
Further, in such a search, there is a possibility that omission occurs only with information that completely matches the search key. For this reason, in recent years, a search key is expanded by referring to a synonym dictionary called a thesaurus and a search is performed based on the search key. As such a search device, for example, there is a document search device described in JP-A-62-248032. Thus, the use of synonyms also increases the number of search result candidates, and the task of selecting desired information is becoming more difficult.
[0009]
For example, in Japanese Patent Application Laid-Open Nos. 62-191924 and 62-191925, when searching using a plurality of search keys, an OR search is performed to prevent omission, and search results A search device is described in which a degree of matching between a keyword and a search key is calculated and output in descending order of the degree of matching so that a search result that is as close to the user's intention as possible is displayed preferentially. ing.
[0010]
However, even if such a synonym dictionary is used or a technique such as performing an OR search to calculate the degree of coincidence is used, for example, a newspaper article that has developed a workstation and software on the workstation. It will be mixed with the newspaper article that developed. Therefore, the user has to sequentially refer to unnecessary search result information, and the work of finding desired information is complicated.
[0011]
[Problems to be solved by the invention]
The present invention has been made in view of the above-described circumstances, and an object thereof is to provide an information search apparatus and an information search method that make it easy to find desired information from search results.
[0012]
[Means for Solving the Problems]
According to the present invention, in the information search device for searching for information that matches a search request, the information storage means for storing information including at least text, and the information using a plurality of words as search keys. An information search means for searching for information from the storage means, a relation extraction means for extracting a relationship between a plurality of words used as search keys from the information searched by the information search means, and a search result by the information search means; Display means for displaying a pair of relations extracted by the relation extraction means; and when the plurality of words are present in one sentence, the relation extraction means performs a morphological analysis on the one sentence to And when the plurality of words do not exist in one sentence, the distance between the sentence including each word and the sentence is calculated.
[0013]
Similarly, in the invention according to claim 9, in the information search method for searching for information that matches the search request, information including at least text is stored in the information storage means, and information search is performed using a plurality of words as search keys. The information is retrieved from the information storage means by means, the relation between the plurality of words used as the retrieval key is extracted from the retrieved information by the relation extraction means, and the search result and the extracted relation are displayed in pairs When the plurality of words are present in one sentence and the plurality of words are present in one sentence, the relation between the words is extracted by analyzing the one sentence, and when the plurality of words are not present in one sentence The distance between sentences containing each word is calculated.
[0014]
According to a second aspect of the present invention, in an information search device for searching for information that matches a search request, information storage means for storing information including at least text, and information using a plurality of words as search keys from the information storage means Information search means for searching for information, search result storage means for holding information searched from the information search means, and a relationship between a plurality of words used as search keys from information stored in the search result storage means A relation extraction means for extracting and storing in the search result storage means, and a display means for displaying the searched information held in the search result storage means and the extracted relation as a pair, When the plurality of words are present in one sentence, the relationship extracting means extracts a relationship between the words by performing morphological analysis on the one sentence, and when the plurality of words are not present in one sentence, It is characterized in calculating the distance between the sentence and the sentence containing the word respectively.
[0015]
Similarly, in the invention according to claim 10, in the information search method for searching for information that matches the search request, information including at least text is stored in the information storage means, and a plurality of words are stored in the information storage means. Information is searched by the information search means as a search key, the searched information is held in the search result storage means, and the relationship between a plurality of words used as the search key from the information stored in the search result storage means is determined. Extracted by the relationship extraction means and stored in the search result storage means, and the searched information held in the search result storage means and the extracted relationship are displayed on the display means as a pair, When the plurality of words are present in one sentence, the sentence is morphologically analyzed to extract a relationship between the words. When the plurality of words are not present in one sentence, each word is It is characterized in calculating the distance between the free sentences and sentence.
[0016]
According to a third aspect of the present invention, the information search device according to the first or second aspect further comprises synonym storage means for holding a list of words similar to a certain word, and the information search means includes Information is retrieved from the information storage means using a synonym obtained from the synonym storage means for a word as a search key.
[0017]
According to a fourth aspect of the present invention, in the information search device according to the first or second aspect, a translation in which a word in a certain language is input and a word equivalent to or similar to the word in each language is output together with the type of the language. A dictionary, the information search means gives the word given as a search key to the bilingual dictionary, searches information from the information storage means using the word obtained from the bilingual dictionary as a search key, and extracts the relation The means is characterized by extracting a plurality of words used as a search key for each language and a relationship between them according to the type of language in which the text in each searched information is described. is there.
[0018]
According to a fifth aspect of the invention, in the information search device according to the fourth aspect of the present invention, there is further provided relation relation storage means for holding relation correspondence information describing the relation between words in a certain language and the relation between words in another language. And the relationship extraction means includes, from a search request described using a certain language, a plurality of words given as search keys to the information search means according to the type of language in which the search request is described, and A plurality of words used as search keys in the text for each language according to the type of language in which the text in each information searched by the information search means is described, while extracting the relationship between words The relationship between words is extracted, and the relationship between words extracted from the search request and the relationship extracted from the information retrieved by the information retrieval unit are stored in the relationship correspondence storage unit Compared using the relationship correspondence information that has been, it is characterized in that to extract only the matching or consistent information.
[0019]
According to a sixth aspect of the present invention, in the information search device according to the fourth or eleventh aspect, the relationship extracting means is configured to determine the relationship based on a plurality of words extracted from each searched information and the relationship between them. The retrieved information is rearranged and output based on the clarity, the similarity between the plurality of words and the plurality of words given as the search key, or both.
[0020]
According to a seventh aspect of the present invention, in the information search device according to the fifth aspect, the relationship extraction means includes a relationship extracted from the search request and a relationship extracted from the information searched by the information search means. And the degree of coincidence is determined, and the retrieved information is rearranged based on the degree of coincidence.
[0021]
According to an eighth aspect of the present invention, in the information retrieval device according to any one of the fourth to thirteenth aspects, the language of the information in which the text of the information is described among the information retrieved by the information retrieval means. It is characterized by having a language comparison means that retrieves only information whose type matches the type of the designated language.
[0026]
[Action]
According to the present invention, in the inventions according to claim 1 and claim 9, the relationship extraction means uses a plurality of search keys searched from a plurality of search keys as a relationship between words used as search keys. When a word exists in one sentence, the relation between the words is extracted by analyzing the one sentence, and when a plurality of words do not exist in one sentence, a distance from the sentence including each word is calculated. . The relationship between the extracted words is displayed together with the searched information on the display means, thereby making it easy to find information desired by the user.
[0027]
Further, in the inventions according to claim 2 and claim 10, the relationship extracting means, based on the search results searched by the plurality of search keys, includes a plurality of words in one sentence as a relationship between the words used as the search keys. If there is a plurality of words in one sentence, the distance from the sentence containing each word is calculated and the search result Store in storage means. By displaying the search result stored in the search result storage means and the relationship between the words used as the search key in pairs on the display means, it is possible to easily find the information desired by the user. .
[0028]
In the invention according to claim 3, synonym storage means is further provided, and a synonym is obtained from the synonym storage means for a certain word, and this is used as a search key to perform a search on the information storage means. It is possible to prevent missing search results that occur only by matching.
[0029]
According to the fourth aspect of the present invention, it is possible to search for information including multiple languages by searching information from the information storage means using a word obtained from the bilingual dictionary as a search key. At this time, since the relationship extraction unit extracts the relationship between words for each language, even information including text described in different languages can easily find information having a desired content.
[0030]
According to the fifth aspect of the present invention, a plurality of words and a relationship between the words are extracted from the search request according to the type of language in which the search request is expressed. A language in which information is retrieved from the information storage means using a word obtained from the bilingual dictionary based on a plurality of words extracted from the retrieval request as a retrieval key, and the text in each retrieved information is described Depending on the type, the relationship between a plurality of words used as search keys in the text is extracted for each language. The relationship extracted from the retrieved information is compared with the relationship extracted from the retrieval request, and only information that does not match or contradict is extracted. At this time, by using the relationship correspondence information held in the relationship correspondence storage means, the relationship is compared in consideration of the correspondence between words in the same language and the correspondence between words in different languages. Thereby, even if it is the information containing the text described in the language different from a search request, the information which has a desired content can be obtained.
[0031]
According to the invention described in claim 6, each searched information is based on the relationship between the words extracted from the information, the relationship is clarified, or the hit word and the information search device have a search key. Based on the similarity to the word given as or both, the retrieved information is sorted and output. Thus, it is possible to refer to information that is semantically clear or from information that is semantically close to the word given as the search key, and the user can easily obtain a desired search result.
[0032]
According to the seventh aspect of the present invention, the degree of coincidence is determined when comparing the relationship extracted from the retrieved information with the relationship extracted from the retrieval request, and the retrieved pieces of information are arranged based on the degree of coincidence. Instead, for example, by outputting to a display device or the like, it is possible to present to the user from information that is considered as close to the search request as possible. Thus, the user can obtain a desired search result in a short time.
[0033]
In the multilingual search according to claims 4 to 7, the language type is designated as in the invention according to claim 8, and only information that matches the designated language type is taken as the search result. It can be configured to do so.
[0037]
【Example】
FIG. 1 is a block diagram showing a first embodiment of the information search apparatus of the present invention. In the figure, 1 is input means, 2 is information search means, 3 is information storage means, 4 is search result storage means, 5 is relationship extraction means, and 6 is display means.
[0038]
The input unit 1 is used to input a search key related to information to be searched, and can be composed of an input unit such as a keyboard. A plurality of words can be input as a search key.
[0039]
The information retrieval unit 2 retrieves information from the information storage unit 3 using the retrieval key input by the input unit 1 and stores the retrieval result in the retrieval result storage unit 4. As a search method, a keyword is assigned in advance corresponding to each information stored in the information storage means 3, and an index search method for searching for information having a keyword that matches the search key, or a keyword is assigned in advance. Any method may be used such as a full text search method in which information including a search key input by a user is directly searched by a method such as matching character strings. As described above, these can be easily realized by using a conventionally used search technique.
[0040]
The information storage means 3 is a storage device that stores a large amount of information. The information storage means 3 may have any configuration as long as it can store information, such as a magnetic disk. Further, the stored information may include a picture, a figure, or the like as long as it includes text written in at least a natural language (in this example, Japanese).
[0041]
The search result storage unit 4 is a storage device that stores information on the results retrieved from the information storage unit 3. The search result storage means may have any configuration as long as it can store information such as a magnetic disk. The search result storage unit 4 stores information on the search results, and stores the relationship information between words extracted from the relationship extraction unit 5 in association with each stored information. it can.
[0042]
The relationship extraction means 5 extracts the relationship between a plurality of words from the sentence. A morphological analysis is performed on the sentence to extract a word string, and the word string is compared with a relation extraction rule to extract a relation between a plurality of related words.
[0043]
The display means 6 displays both information and relationships held in the search result storage means 4, and can be constituted by a display device such as a CRT, for example.
[0044]
In the above-described configuration, the relationship extraction unit 5 performs the relationship extraction process after the search result is stored in the search result storage unit 4. However, the present invention is not limited to this, and receives the search result directly from the information search unit 2. The extraction process may be performed. At this time, information other than the relationship between words displayed by the display unit 6 may be received via the relationship extraction unit 5 or directly from the information search unit 2.
[0045]
It is a flowchart which shows an example of operation | movement in the 1st Example of the information search device of this invention. In this information search apparatus, when a search key is first input, the information search means 2 searches for information from the information storage means 3 and stores the search results in the search result storage means 4 in S11. Next, in S <b> 12, the relationship extraction unit 5 extracts a relationship between a plurality of words used as a search key from the search result stored in the search result storage unit 4 and stores it in the search result storage unit 4. . Finally, in S13, both the information stored in the search result storage unit 4 and the relationship are displayed on the display unit.
[0046]
FIG. 3 is a flowchart showing an example of the operation of the relationship extraction means in the first embodiment of the information search apparatus of the present invention. When the information retrieved by the information retrieval unit 2 is stored in the retrieval result storage unit 4, the relationship extraction unit 5 is activated. First, in S21, one of the search results stored in the search result storage means 4 is taken out. Here, the case where the search key used for the search is two words is shown. The search key used for the search is stored in variables W1 and W2, and one retrieved result is stored in variable TEXT.
[0047]
In S22, it is determined whether or not the search key word stored in the variables W1 and W2 exists in one sentence. If it exists in one sentence, in S23, the search result stored in the variable TEXT or one sentence including the search key in the search result is subjected to morphological analysis. Morphological analysis is widely known as a basic technology of natural language processing. For example, “Basic technology of natural language processing” (Hirogo Nomura, The Institute of Electronics, Information and Communication Engineers, 1988) and “Information Processing” (Vol. 30, No. 10, 1989) and can be easily realized by the method described in “3.1 Morphology”.
[0048]
In S24, the partial word string including the words stored in the variables W1 and W2 is collated with the relationship extraction rule. In the relationship extraction rule, at least information related to the arrangement of words in the word group and the relationship of the word group are paired and registered. In S25, it is determined whether or not there is a word group that matches the word group. If there is a match, the corresponding relation in the relationship extraction rule is stored in the search result storage means 4. In FIG. 3, the search result storage unit 4 is described as “REL”. If there is no match, information “0 sentence” is stored in the search result storage means 4 to indicate that there are at least two search keys in the same sentence.
[0049]
If the word stored in the variables W1 and W2 does not exist in one sentence in S22, the sentence including the word stored in the variable W1 and the sentence including the word stored in the variable W2 in S29. Is stored in the search result storage means 4. Here, the sentence distance is, for example, a sentence including the word stored in the variable W1, and when the word stored in the variable W2 is included in the next sentence, the distance is “1 sentence”. And In addition, when one sentence is sandwiched between a sentence including the word stored in the variable W1 and a sentence including the word stored in the variable W2, the distance is set to “two sentences”. Similarly, the distance is calculated.
[0050]
In S26, S28, and S29, when the relationship or distance between the variables W1 and W2 is stored in the search result storage unit 4, whether or not an unprocessed search result of the relationship extraction process exists in the search result storage unit 4 in S27. If an unprocessed search result remains, the process returns to S21 to process the next search result. When the relationship extraction process for all search results is completed, the operation of the relationship extraction means is terminated. At this point, information on the relationship or distance in which the search key appears in the search result is added to each search result stored in the search result storage unit 4. Such information is also displayed on the display means 6. Thereby, the user can know whether or not the search result is a desired one by referring to the displayed relationship or distance. Therefore, desired information or information close to the desired information can be obtained in a short time.
[0051]
Next, based on a specific example, the above operation will be described in detail with reference to the flowcharts shown in FIGS. 2 and 3 with reference to FIGS. Here, as a specific example, an example will be described in which “workstation & development” is input from the input means 1 in order to search for a newspaper article about the development of a workstation.
[0052]
Information storage means 3 stores a large amount of newspaper article information. Each article is composed of Japanese text and figures and pictures. The information search means 2 has an independent word included in a Japanese sentence part of each article as an index.
[0053]
In S11, the information search unit 2 outputs an article having a keyword that matches the search key input from the input unit 1 as a result. Here, the information search means 2 searches the information storage means 3 by the logical product of the two words “workstation” and “development”.
[0054]
FIG. 4 is an explanatory diagram showing an example of a search result by two keys in the first embodiment of the information search apparatus of the present invention. The information search means 2 obtains a search result as shown in FIG. 4 and stores it in the search result storage means 4. For example, as shown in FIG. 4, the search result storage means 4 includes an item called key 1 and key 2 for storing the search key used for the search, an item called search result for storing information of the searched result, It can be composed of an item for storing a relationship between words obtained later by the relationship extracting means. In FIG. 4, the information in the search result item is indicated by underlining the word portions of the keys 1 and 2. As can be seen from FIG. 4, the search result is information gathered merely by having the word “workstation” and the word “development”. In addition to information, various types of information are mixed.
[0055]
Next, in S12, the relationship extraction unit 5 extracts a relationship between a plurality of words used as a search key from the search result stored in the search result storage unit 4, and stores it in the search result storage unit. Relation extraction is performed by morphologically analyzing a sentence including a search result sentence or a search key, dividing the sentence into word strings, and collating with a relation extraction rule including an expression to be extracted as a relation.
[0056]
First, in S21 of FIG. 3, a search result and one search key are extracted from the search result storage unit 4. Here, first, from the search result in the search result storage means 4 shown in FIG. 4, the search result whose title is “release proprietary WS” is extracted and processed. Search keys 1 and 2 are “workstation” and “development”, respectively. The text of the search result is “Company A developed a workstation with a RISC type central processing element that has a high processing speed for 5 days. , The company announced that it will release a total of 7 models and 11 models. Search key 1 and search key 2 are stored in variables W1 and W2, and the text of the search result is stored in variable TEXT.
[0057]
In this search result, search key 1 and search key 2 "workstation" and "development" are in the same sentence, so the process proceeds from S22 to S23, the morphological analysis is performed on the sentence in variable TEXT, and the word string Divide into FIG. 5 is an explanatory diagram showing an example of a morphological analysis result in the first embodiment of the information search apparatus of the present invention. The result of morphological analysis is obtained by pairing the divided words and their parts of speech.
[0058]
Next, in S24, the word string divided by the morphological analysis in S23 is collated with a relationship extraction rule that defines an expression to be extracted as a relationship. FIG. 6 is an explanatory diagram showing an example of the relationship extraction rule in the first embodiment of the information search apparatus of the present invention. In the relationship extraction rule, as shown in FIG. 6, a rule for arranging word strings, a word extracted at that time, and a relationship are registered as a pair. Here, sa-variant nouns are shown as sa-variants, and adjective verb stems are shown as adjective verbs. For example, if a word continues like noun + “ga” + sa-variant noun, then the noun being the word 1 and the sa-noun being the word 3 are extracted as a relationship.
[0059]
From the result of the morphological analysis shown in FIG. 5, the word string “workstation” + “to” + “development” in the “workstation” and “development” portions and the relation extraction rule shown in FIG. , It conforms to the rule of “noun / sa modification +“ to ”+ sa modification”. For this reason, the process proceeds from S25 to S26, where the relation “wo” is extracted and stored in the search result storage means 4.
[0060]
In S27, the search result storage means still has a search result for which no relation has been extracted. Therefore, the process returns to S21, and the relation extraction means 5 performs processing for the next search result. This time, the processing is continued for the search result whose title is “A partnership between company C and company D is started”. Search keys 1 and 2 are “workstation” and “development”, respectively. The text of the search results is “Company C ... sells a new workstation supplied by Company D through an overseas sales network. In addition, company D ... also announced the sale of the developed large computer in the UK ... ". Search key 1 and key 2 are stored in variables W1 and W2, and the text of the search result is stored in variable TEXT.
[0061]
Since the search keys “workstation” and “development” are not in the same sentence, the process proceeds from S22 to S29. Since the search key “development” is included in the sentence next to the sentence including the search key “workstation”, the distance between the sentences including both words is one sentence. Therefore, the relationship “1 sentence” is extracted, and this relationship “1 sentence” is stored in the search result storage means 4.
[0062]
Thereafter, the same processing is performed for all search results. FIG. 7 is an explanatory diagram showing an example of a search result after the relation extraction process in the first embodiment of the information search apparatus of the present invention. As described above, the information stored in the search result storage unit 4 when the relationship extraction process by the relationship extraction unit 5 is completed is as shown in FIG. A relationship is assigned to each search result.
[0063]
Thus, the process of extracting the relationship from the search result is completed. In S13, this relationship is displayed on the display unit 6 together with the search result information. FIG. 8 is an explanatory diagram showing an example of a search result display after the relationship extraction process in the first embodiment of the information search apparatus of the present invention. In the display example shown in FIG. 8, three areas of an input area, a candidate display area, and a result display area are displayed. The input search key is displayed in the input area. In the candidate display area, the search result and the relationship extracted by the relationship extracting means 5 are paired and displayed in the searched order. In the case of the specific example described above, the user wants to search for a newspaper article about the development of a workstation, so in FIG. Good, no need to see other information. Therefore, the user can obtain desired information immediately.
[0064]
By selecting one of the pair of the search result and the relationship, the content of the search result is displayed in the result display area on the right side. In FIG. 8, the selected search results are shown hatched. In this case, the text “Develop an originally developed WS” is selected as the title, and the retrieved text is displayed in the result display area. At this time, as shown in FIG. 8, the search key may be underlined, highlighted, or highlighted so as to change color or brightness.
[0065]
FIG. 9 is an explanatory diagram of another example of display of search results after the relationship extraction process in the first embodiment of the information search apparatus of the present invention. FIG. 9 shows an example in which the same relations corresponding to the search results are displayed together in the candidate display area. By displaying in this way, the user can easily find the result he / she wants to search for. In the case of the specific example described above, the user wants to search for a newspaper article about the development of the workstation, so in FIG. 9, it is only necessary to look at the information where the relationship is lined up in the “wo case” There is no need to look at other information. Compared to the display example shown in FIG. 8, the time and effort for searching for a related portion is reduced, so that more desired information can be easily obtained.
[0066]
Here, an example is shown in which only the relationship is displayed together with the search result, but the display method is not limited to this. It may also be displayed together with it, or it may be displayed in ordinary Japanese, such as “develop workstation”, instead of a symbol representing a relationship such as “wo case”. Furthermore, for example, “a. Wo case b. De case c. 1 sentence d. 2 sentence e. 3 sentence” is displayed first, and only one of the relations is displayed and one of them is selected. Search results having the selected relationship may be displayed.
[0067]
FIG. 10 is a block diagram showing a second embodiment of the information search apparatus of the present invention. In the figure, the same parts as those in FIG. Reference numeral 7 denotes synonym storage means. The second invention further includes synonym storage means 7 which holds a list of words similar to a certain word in the first invention. The information retrieval unit 2 retrieves information from the information storage unit 3 using a synonym obtained from the synonym storage unit 7 as a search key for a certain word.
[0068]
The synonym storage means 7 holds a list of words that are similar to a certain word. For example, for the word “workstation”, a similar word such as “computer” or “office computer” is held. In contrast to the word “development”, it holds a word such as “creation”. When such a synonym is held in the synonym storage means 7, the information search means 2, for example, performs a search under the search condition “workstation & development”, “(workstation or personal computer or office computer)”. & (Development or creation) "will be searched.
[0069]
Thereafter, the relationship extraction means 5 extracts the relationship between the plurality of words used as the search key from the search results stored in the search result storage means as in the first invention, and stores them in the search result storage means. . The relationship extraction unit 5 may be configured to receive the search result directly from the information search unit 2 and output the extracted relationship information to the display unit 6.
[0070]
FIG. 11 is an explanatory diagram of an example of a result of a search using a synonym and a relationship extraction process in the second embodiment of the information search apparatus of the present invention. As shown in FIG. 11, the search key 1 has not only “workstation” but also “computer” and “office computer”, and the search key 2 has not only “development” but also “creation”. Information is also being searched. Thereby, when referring to an article developed for a workstation, for example, an article developed for a personal computer can also be searched, and a search omission can be prevented.
[0071]
Thus, the process of extracting the relationship from the search result is completed, and this relationship and the result information are displayed as in the first invention. FIG. 12 is an explanatory diagram showing an example of the display of the search result after the relation extraction process in the second embodiment of the information search apparatus of the present invention. In FIG. 12, like the display example shown in FIG. 9, those having the same relationship are collectively displayed. By displaying in this way, the user can easily find the result he / she wants to search for.
[0072]
FIG. 13 is an explanatory diagram of another example of the display of the search result after the relationship extraction process in the second embodiment of the information search apparatus of the present invention. In the display example shown in FIG. 13, the search key is displayed together with the relationship. By displaying in this way, the user can determine what kind of search key is used to search for information, easily find the result he wants to search for, and what words exist as synonyms, In addition, it is possible to know that a search has been performed using synonyms.
[0073]
As described above, when the user wants to search for a newspaper article about the development of a workstation, in FIG. You can see the result information that is “workstation” and “development” respectively, and if necessary, also refer to the result information that key 1 and key 2 are “PC” and “development” respectively. It ’s fine.
[0074]
In the above-described example, the synonym storage unit 7 has been described with respect to an example in which synonyms such as “personal computer” and “office computer” are held for the word “workstation”. In addition to this, for example, a high-level concept such as “computer” or a low-level concept such as a product name for “workstation” is stored in the synonym storage means 7 for the word “workstation”. The search may be performed using these superordinate concepts or subordinate concepts. For example, when searching using the superordinate concept, for example, when searching with the search condition “workstation & development”
(Workstation or computer) & (development)
Search with
(Workstation or computer or off-computer or computer) & (development or creation)
You can search with. The processing when a search is performed under these search conditions is the same as in the above example.
[0075]
Usually, when a search is performed including synonyms, a large amount of information is obtained as a search result, and it is not easy to select desired information from the information. However, as in the present invention, desired information can be easily obtained by picking up and referencing only information having a keyword intended relationship with the user.
[0076]
FIG. 14 is a block diagram showing a third embodiment of the information search apparatus of the present invention. In the figure, the same parts as those in FIG. 8 is an input information storage means, and 9 is a relation comparison means. In the first and second embodiments described above, when a search request is input from the input means 1, a plurality of words are input. In the third embodiment, a case where a search request is input in a natural language is shown.
[0077]
The input means 1 inputs a search request related to information to be searched in a natural language. For example, it can be configured by an input device such as a keyboard. In the present embodiment, the search request is shown for those entered in Japanese. In this case, when Kana-Kanji conversion or the like is performed as Japanese input, the input unit 1 may be configured to include software for Kana-Kanji conversion.
[0078]
The input information storage unit 8 stores a plurality of words extracted by the relationship extraction unit 5 from the search request and the relationship between the words together with the search request input from the input unit 1. The input information storage means 8 may have any configuration as long as it can store information such as a magnetic disk.
[0079]
The relationship extraction means 5 extracts a plurality of words and the relationship between the words from the sentence. A morphological analysis is performed on the sentence to extract a word string, and the word string is compared with a relation extraction rule to extract a relation between a plurality of related words. The extraction of the relationship is performed on the search result information stored in the search result storage means, and in the third embodiment, it is also performed on the search request stored in the input information storage means 8.
[0080]
The relationship comparison unit 9 compares the relationship stored in the input information storage unit 8 with the relationship stored in the search result storage unit 4 and sends matching information to the display unit 6.
[0081]
The display means 6 displays the search result information that matches the search request by the comparison processing by the relation comparison means 9. For example, a display device such as a CRT or LCD can be used.
[0082]
In the configuration of the third embodiment, the relationship extraction unit 5 can be configured to obtain the search result directly from the information search unit 2 without using the search result storage unit 4. Furthermore, the relationship comparison unit 9 can also be configured to obtain the relationship extracted directly from the relationship extraction unit 5. In this case, the searched information may be configured to be supplied to the display unit 6 via the relationship extraction unit 5 or the relationship comparison unit 9 or directly from the information search unit 2 or the information storage unit 3.
[0083]
FIG. 15 is a flowchart showing an example of operation in the third embodiment of the information search apparatus of the present invention. In the third embodiment, when a search key is first input, the input search request is stored in the input information storage means 8 in S31. In S 32, the relationship extraction unit 5 extracts a plurality of words and the relationship between the words from the search request and stores them in the input information storage unit 8. Next, in S33, the information search means 2 searches the information storage means 3 using a plurality of words stored in the input information storage means 8 as search keys, and stores the search results in the search result storage means 4. To do.
[0084]
Thereafter, in S 34, the relationship extraction unit 5 extracts a relationship between a plurality of words used as a search key from the search result stored in the search result storage unit 4 and stores it in the search result storage unit 4. Finally, in S35, the relationship comparison unit 9 compares the relationship stored in the input information storage unit 8 with the relationship stored in the search result storage unit 4, and displays matching information on the display unit 6. indicate.
[0085]
FIG. 16 is a flowchart showing an example of the operation of the relationship extraction means 5 in the third embodiment of the information search apparatus of the present invention. As described above, in the third embodiment, the relationship extraction unit 5 performs the relationship extraction process for the search request stored in the input information storage unit 8 and the search result stored in the search result storage unit 4. Perform relationship extraction processing. First, in the case of a search request, the process proceeds from S41 to S42, and the search request stored in the input information storage unit 8 is read into the variable TEXT. The read search request is decomposed into words by morphological analysis in S43. In S44, the word string decomposed by the morphological analysis is compared with the relationship extraction rule, and it is determined in S45 whether there is a match in the relationship extraction rule. If there is a matching relationship extraction rule, a word group and a relationship are extracted based on the matched relationship extraction rule and stored in the input information storage unit 8 in S46. If there is no matching relationship extraction rule, an error occurs in S47.
[0086]
In the case of the extraction process for the search result, the process proceeds from S41 to S48. Since the processing from S48 to S56 is the same as the processing from S21 to S29 in FIG. 3 of the first embodiment, the description thereof is omitted here.
[0087]
Next, based on a specific example, the above operation will be described in detail with reference to the flowcharts shown in FIGS. 15 and 16 with reference to FIGS. Here, as a specific example, an example in which “develop workstation” is input from the input means 1 to search for a newspaper article about the development of a workstation will be described, as in the above-described embodiment.
[0088]
In the third embodiment, when “develop workstation” is input as a search request from the input means 1, the input search request is stored in the input information storage means 8 in S31. FIG. 17 is an explanatory diagram showing an example of a search request stored in the input information storage means in the third embodiment of the information search apparatus of the present invention. At this stage, as shown in FIG. 17, the input search request is stored in the input information storage unit 8 as it is.
[0089]
Next, in S 32, the relationship extraction unit 5 extracts a plurality of words that are related to each other from the search request stored in the input information storage unit 8 and the relationship between the words, and the input information storage unit 8. To store.
[0090]
In the relationship extraction processing in the relationship extraction means 5, first, since it is the relationship extraction processing for the search request, the process proceeds from S41 to S42 in FIG. In S42, the search request “Develop workstation” is extracted, and the extracted search request is morphologically analyzed in S43 and divided into word strings. FIG. 18 is an explanatory diagram of the morphological analysis result of the search request in the third embodiment of the information search apparatus of the present invention. The input search request “develop workstation” is subjected to morphological analysis as shown in FIG. 18 and divided into words.
[0091]
Next, in S44, the word string obtained by the morphological analysis is collated with a relation extraction rule that defines an expression to be extracted as a relation. As the relation extraction rule, the same one as used when extracting the relation from the search result can be used. For example, the relationship extraction rule shown in FIG. 6 of the first embodiment can be used.
[0092]
When the word string shown in FIG. 18 and the relation extraction rule shown in FIG. 6 are collated, “workstation” is a noun and “development” is a sub-variable noun. The process proceeds from S45 to S46, and the two words “workstation” and “development” and the relationship “wo case” are extracted. A plurality of extracted words and the relationship between the words are stored in the input information storage unit 8. FIG. 19 is an explanatory diagram showing an example of a search request after the relationship extraction process in the third embodiment of the information search apparatus of the present invention. Along with the input search request, the words and relationships extracted by the relationship extracting means 5 are stored. Similarly, when a plurality of words and relationships are extracted, they are also stored in the input information storage unit 8. This completes the process of extracting the relationship from the search request.
[0093]
Next, in S33 of FIG. 15, the information search means 2 uses the two words “workstation” and “development” extracted from the search request by the relationship extraction means 5 as search keys, and uses the logical product as a search condition. Information is retrieved from the information storage means 3. That is, the same search is performed as when “workstation & development” is input in the specific example of the first embodiment. As a search result, for example, the search result shown in FIG. 4 is obtained as in the first embodiment. The obtained search result is stored in the search result storage means 4.
[0094]
Next, in S <b> 34, the relationship extraction unit 5 extracts a relationship from the search result stored in the search result storage unit 4 and stores it in the search result storage unit 4. The process proceeds from S41 to S42 in FIG. 16, and the relationship is extracted for each search result stored in the search result storage unit 4 and stored in the search result storage unit 4 as in the first embodiment. Regarding the search results shown in FIG. 4, the contents of the search result storage means 4 after the relation extraction means 5 extracts the relation are as shown in FIG. 7 in the first embodiment.
[0095]
Finally, in S35, the relationship comparison unit 9 displays the relationship stored in the input information storage unit 8, that is, the information shown in FIG. 19 and the relationship stored in the search result storage unit 4, such as FIG. The information shown is compared and the matching information is displayed on the display means 6. In this example, the relationship stored in the input information storage means 8 is a relationship of “wo” as shown in FIG. Comparing this relationship with the relationship stored in the search result storage means 4 shown in FIG. 7, two searches with the title “release proprietary WS” and “P release WS” Since the result has “Wo”, it matches. The matched search result is displayed on the display means 6.
[0096]
20 and 21 are explanatory diagrams of display examples of search results in the third embodiment of the information search apparatus of the present invention. Only search results that satisfy the relationship of the search request input by the user are extracted. That is, the displayed search results are narrowed down to only those intended by the user. Therefore, there is no need to display the relationship information as in the first and second embodiments described above. For example, as shown in FIG. 20, the search results may be displayed in order in the display area. Alternatively, as shown in FIG. 21, a title or the like may be temporarily displayed in the candidate display area, and a sentence may be displayed by selecting the candidate. Alternatively, it may be displayed by other methods. In addition, as shown in FIGS. 20 and 21, related words may be underlined, inverted, or displayed with different colors and brightness.
[0097]
Thus, according to the third embodiment of the present invention, the user can input a search request in a natural language, and the search operability can be improved. In addition, since a plurality of words related to each other and a relationship between the words are extracted from a search request input in a natural language and a search result having the relationship is presented to the user, the information desired by the user can be accurately obtained. It is possible to search well.
[0098]
Next, a fourth embodiment will be described. The configuration of the fourth embodiment is the same as that of the above-described third embodiment. In the fourth embodiment, the relationship comparison unit 9 calculates the degree of coincidence when comparing the relationship stored in the input information storage unit 8 and the relationship stored in the search result storage unit 4. The information held in the search result storage unit 4 is rearranged and presented based on the degree of coincidence. Also in the case of this embodiment, the relationship extracted from the search result may be obtained directly from the relationship extraction means 5.
[0099]
FIG. 22 is an explanatory diagram of an example of a relationship comparison table in the fourth embodiment of the information search apparatus of the present invention. When calculating the degree of coincidence, the relationship comparison unit 9 can use a relationship comparison table as shown in FIG. 22, for example. The relationship comparison table uniquely determines the relationship extracted from the search request stored in the input information storage unit 8 and the relationship extracted from the search result stored in the search result storage unit 4. The degree of coincidence can be obtained. In FIG. 22, the case where the relationship is coincident is 100, and the degree of coincidence in each case is indicated by a numerical value.
[0100]
The operation in the fourth embodiment is the same as that in the third embodiment described above except for the operation in the relationship comparison means 9. Only the operation of the relationship comparison means 9 will be specifically described below.
[0101]
As in the third embodiment, as a result of extracting the relationship from the search request, the storage content of the input information storage means 8 is as shown in FIG. 19, and as a result of extracting the relationship from the search result, the search result A case where the storage contents of the storage means 4 are as shown in FIG. 7 will be described. In other words, the relationship stored in the input information storage unit 8 is a relationship of “wo”.
[0102]
The relationship comparison means 9 determines the degree of coincidence using the relationship comparison table shown in FIG. First, the relationship “wo case” stored in the input information storage unit 8 is compared with the relationship “wo case” of the first search result stored in the search result storage unit. According to the relationship comparison table shown in FIG. 22, the degree of coincidence has a value of “100”, so this value is stored in the coincidence degree column of the search result storage unit 4. Similarly for the next search result, the relation “wo case” stored in the input information storage unit 8 is compared with the relation “one sentence” of the search result, and the degree of coincidence “50” is obtained from the relation comparison table. . In this way, the degree of coincidence with all the search results stored in the search result storage means 4 is determined. FIG. 23 is an explanatory diagram showing an example of a search result including a matching degree determination result in the fourth embodiment of the information search apparatus of the present invention. The degree of coincidence is determined for all the search results, and the obtained degree of coincidence value is stored in the search result storage unit 4. For example, the degree of coincidence is obtained as shown in FIG. 23 from the relationship between the search requests shown in FIG. 19 and the relationship between the search results shown in FIG.
[0103]
FIG. 24 is an explanatory diagram of a display example of search results in the fourth embodiment of the information search apparatus of the present invention. As shown in FIG. 23, when the degree of coincidence is obtained, the search results are rearranged in the descending order of the obtained degree of coincidence and displayed on the display means 6. When the search results shown in FIG. 23 are rearranged in descending order of the degree of coincidence, the title order becomes the order shown in the candidate display area of FIG. This display order is close to the search request input by the user. Therefore, the user can easily reach a desired search result by referring to the search result in order from the top.
[0104]
In the display example shown in FIG. 24, only the titles are displayed in the descending order of the matching degree in the candidate display area. However, the matching degrees are displayed together, and each search is performed as in the first embodiment. It is also possible to display the relationship of results.
[0105]
FIG. 25 is a block diagram showing a fifth embodiment of the information search apparatus of the present invention. The reference numerals in the figure are the same as those in FIGS. In the fifth embodiment, the synonym storage means 7 described in the second embodiment is provided in the fourth embodiment described above. In this case, in addition to the word extracted from the search request by the relationship extraction means 5, a search is performed for a word similar to that word, so the relationship comparison means 9 not only compares the relationship but also compares the word similarity. judge.
[0106]
The synonym storage means 7 holds a list of words similar to a certain word. The information retrieval unit 2 obtains a synonym obtained from the synonym storage unit 7 for the word extracted from the search request stored in the input information storage unit 8 by the relationship extraction unit 5. Then, information is searched from the information storage unit 3 using the word extracted from the search request and the synonym obtained from the synonym storage unit 7 as a search key. The searched information is stored in the search result storage means 4. The relationship comparison unit 9 includes a plurality of words stored in the input information storage unit 8 and their relationship, and a plurality of words extracted from each search result stored in the search result storage unit 4 and their relationship. Are compared to determine the degree of coincidence. Then, based on the degree of coincidence, the information held in the search result storage unit 4 is rearranged and displayed on the display unit 6. Of course, the information retrieved by the information retrieval unit 2 may be directly transferred to the relationship comparison unit 9, and the relationship extraction unit 9 may directly transfer the extracted relationship to the relationship comparison unit 9.
[0107]
The operation of the fifth embodiment of the present invention will be described based on a specific example. The synonym storage means 7 holds similar words such as “computer” or “computer” for the word “workstation” and “create” for the word “development”. Suppose you hold the correct word. For example, when a search request “develop workstation” is input from the input means 1, it is stored in the input information storage means 8, and the words and relations are extracted by the relation extraction means 5, for example, as shown in FIG. Information is stored in the input information storage means 8. The information search means 2 refers to the synonym storage means 7 based on the words “workstation” and “development” extracted from the search request. As a result, the words “computer” and “computer” similar to the word “workstation” are obtained. In addition, the word “creation” similar to the word “development” is obtained. Then, using the word obtained from the input information storage means 8 and the word obtained from the synonym storage means 7, for example,
(Workstation or computer or computer) & (development or creation)
The information search means 2 performs a search according to the search condition.
[0108]
FIG. 26 is an explanatory diagram showing an example of a search result in the fifth embodiment of the information search apparatus of the present invention. By searching using similar words as described above, not only information with “workstation” and “development” as keywords, but also information with “computer”, “computer”, and “creation” are searched. Has been.
[0109]
FIG. 27 is an explanatory diagram showing an example of a search result after the relation extraction process in the fifth embodiment of the information search apparatus of the present invention. When the search result shown in FIG. 26 is obtained and stored in the search result storage unit 4, the relationship extraction unit 5 extracts the relationship between the search keys. This process is the same as in the above-described embodiments. The contents of the search result storage means 4 after the relation is extracted by the relation extraction means 5 are shown in FIG.
[0110]
When the relationship between each search result is extracted as shown in FIG. 27, the relationship comparison means 9 determines the degree of coincidence of the relationship in the same manner as in the fourth embodiment, and also determines the degree of coincidence of words. Perform a comprehensive decision on the degree of match. Here, it is assumed that the relationship obtained from the search request is “wo” as shown in FIG. 19, for example.
[0111]
Next, as in the fourth embodiment, the degree of coincidence between the relationship “wo case” obtained from the search request and each relationship shown in FIG. 27 is calculated using, for example, the relationship comparison table shown in FIG. The determination is made and stored in the search result storage means 4. For example, since the first search result has the relationship “wo”, the degree of coincidence of the relationship is 100. Also, since the second search result has the relationship “one sentence”, the degree of coincidence of the relationship is 50.
[0112]
Further, the degree of matching of the words is determined by comparing the words “workstation” and “development” shown in FIG. 19 with the search keys of the respective search results shown in FIG. In this example, the calculation is performed assuming that all the synonyms obtained from the synonym storage means 7 have a degree of coincidence of “90”. However, the present invention is not limited to this, and the synonym storage means 7 may store a synonym and similarity (matching degree) as a pair, or may provide a relationship comparison table for calculating the matching degree of words. Good.
[0113]
Finally, the overall matching degree is determined from the relation matching degree and the word matching degree, and stored in the search result storage means 4. Here, the average of the three matching degrees of the matching degree of the relationship, the matching degree of the search key 1 and the matching degree of the search key 2 is calculated as the overall matching degree. Of course, the overall matching degree may be calculated by other methods. For example, various methods such as weighting each matching degree and calculating a weighted average can be used.
[0114]
FIG. 28 is an explanatory diagram showing an example of the search result after the matching degree determination in the fifth embodiment of the information search apparatus of the present invention. For each search result, the degree of coincidence between the relation extracted by the relation extracting means 5 and the relation extracted from the search request and the degree of coincidence between the word extracted from the search request and the word used as the search key are obtained. The total matching degree is retrieved from these matching degrees and stored.
[0115]
As shown in FIG. 28, when the degree of coincidence is obtained, these are rearranged according to, for example, the whole degree of coincidence and displayed on the display means 6. As a display method, for example, as shown in FIG. 24 in the above-described fourth embodiment, the titles of the search results are displayed in the candidate display area in descending order of the overall matching degree, and the sentence having the selected title Can be configured to be displayed in the result display area. In addition, it is possible to change the display by rearranging on the basis of the degree of coincidence of relationships and the degree of coincidence of words according to instructions from the user. Also in the case of the fifth embodiment, for example, it is possible to display the overall matching degree together with the title, or to display the relation matching degree and the word matching degree.
[0116]
The information with the higher degree of coincidence is the information desired by the user or the information closer to the desired information. The user desires by referring to the search results displayed in descending order of the degree of coincidence. Information can be easily obtained. As described above, in the fifth embodiment described above, searching using synonyms can prevent omission of search and can be displayed in descending order of coincidence, so that information desired by the user can be easily obtained. I have to.
[0117]
In the above third to fifth embodiments, the search request input from the input means 1 has been described as being in natural language, but of course, it is configured to input a plurality of words and their relationships. Also good. At this time, for example, as in the above-described specific example, when searching for information on the contents for developing a workstation, the words “workstation” and “relation” and the relationship “wo” may be input.
[0118]
In the second and fifth embodiments described above, whether to search by acquiring synonyms from the synonym storage means 7 or to search only by the input search request is switched according to the user's instruction. It is possible to configure.
[0119]
Further, in each of the first to fifth embodiments described above, the relationship is extracted from the search result by comparing the word string and the extraction rule, and “wo” and “ga” are used as the relationship. In addition to this, case relationships obtained by syntactic / semantic analysis of sentences may be used. The case relationship obtained when syntax / semantic analysis is performed is, for example,
Development: <Target> Workstation
Development: <Subject> Company A
It ’s like that. <Subject>, <Subject>, etc. are case-related, indicating that the subject of "Development" is "Workstation" and the subject of "Development" is "Company A". For example, from the sentence "Company A develops a workstation with a RISC-type central processing unit"
Development: <Target> Workstation
Development: <Subject> Company A
Place: <Target> RISC type central processing unit
Place: <Location> Workstation
Can be extracted and searched by the search key "workstation &development"
Target: <Development> Workstation
The relationship may be displayed as follows.
[0120]
In addition to these, various relationships between words obtained by analyzing sentences may be used. Further, in each of the embodiments described above, the number of words serving as search keys has been described as two, but three or more words and a relationship between them may be used.
[0121]
In each of the above-described embodiments, the case where information including Japanese text is stored in the information storage means 3 and a search is performed by a search request in Japanese has been described as an example. In these embodiments, even when a language other than Japanese is used, for example, information including English text is searched by an English search request, the same configuration can be made. However, in each of the above-described embodiments, for example, information including English text cannot be searched by a search request in Japanese. In the following, some embodiments that can perform such multilingual search are shown.
[0122]
FIG. 29 is a block diagram showing a sixth embodiment of the information search apparatus of the present invention. In the figure, the same parts as those in FIG. Reference numeral 61 is a search request analysis unit, 62 is a bilingual dictionary, 63 is a relationship analysis unit, 64 is a language analysis switching unit, 65 is a language-specific language analysis unit, 66 is a language-specific relationship extraction unit, and 67 is a search result output unit.
[0123]
The information storage means 3 stores information including at least text written in a natural language. The description of the text is not limited to Japanese, and various languages such as English, German and French are used.
[0124]
As in the above-described embodiments, the input unit 1 can input a plurality of words, sentences, and the like as search requests from an input device such as a keyboard. The search request analysis unit 61 divides and holds the search request input from the input unit 1 into a plurality of words serving as search keys.
[0125]
The bilingual dictionary 62 is an extension of the synonym dictionary to multiple languages. As described above, the synonym dictionary is a list of words having similar meanings with respect to a certain word. For example, in the synonym dictionary, “manufacturing”, “production”, “production” and the like are obtained for the word “production”. The bilingual dictionary 62 includes words having similar meanings recorded not only in the same language but also in a plurality of languages. For example, for the same “production”, Japanese synonyms and “production”, “manufacture”, “create”, etc. in English, and “schaffen”, “produzieren”, etc., are obtained in German. In the bilingual dictionary 62, these words can be stored as a list, for example, in pairs with the respective languages. It is good to make it so that this list can be obtained from any word in any language.
[0126]
The information search unit 2 expands each of the plurality of words divided by the search request analysis unit 61 using the bilingual dictionary 62. Assume that the words forming the original input search request are two words a and b. The expanded words are a1, a2,. . . , Am and b1, b2,. . . , Bn. These expanded words include synonyms of multiple languages. The information retrieval unit 2 retrieves information from the information storage unit 3 using each expanded word as a key. The search key here is (a1 ORa2 OR... OR am) AND (b1 OR b2 OR... OR bn). The search method can use the existing technology as in the above-described embodiment. Text in information obtained by searching is described in various languages.
[0127]
The relationship analysis unit 63 requests the language analysis switching unit 64 to analyze the text in the retrieved information, and obtains the relationship in the text of the word used as the search key. Then, the information obtained by the search, the word obtained from the language analysis switching means 64, and the relationship thereof are sent to the search result output means 67. Here, it is determined whether or not the search key used for the search exists in one sentence. If the search key exists in one sentence, the analysis is requested. If the search key does not exist in one sentence, the analysis is performed. Is not requested, and the subsequent processing is not performed. However, when there is no search key in one sentence, a relationship such as “NO-REL” representing irrelevance is given as a relationship, and the output is directly output from the relationship analysis unit 63 and passed to the search result output unit 67. May be. As a result, at least a function equivalent to a Boolean search can be achieved.
[0128]
The language analysis switching means 64 selects a corresponding one of the plurality of language-specific language analysis means 65 according to the type of language describing the text in the information obtained as a search result, and selects the selected language-specific language analysis means. Pass information to. As a method for discriminating the type of language in which the text is described, information indicating the language is stored together with the text, and a method of referring to the information indicating the language or a method of analyzing the characteristics of the text is used. be able to. In the case of the former method, it is necessary to add information indicating the language used for the text description to each piece of information stored in the information storage means 3. In the case of the latter method, the determination can be made by obtaining the language of each word constituting the text using the bilingual dictionary 62 or a similar dictionary. The dictionary used at this time can be sufficiently used even with about 10 words. Here, it is assumed that the former method is adopted and the language type is described in the information in advance. As the description method, there are a method of describing separately from the text of the main body and a method of embedding in the main body using a tag or the like, like the title and the creation date. The latter method can cope with a case where a part of the text is described in another language. In this embodiment, for simplicity, a method described separately from the former body text is adopted.
[0129]
The language-specific language analyzing means 65 is provided for each language, and has a grammar rule, a dictionary, etc. dedicated to the language, and has a configuration suitable for analyzing each language. However, a common analysis engine may be used. On the other hand, it is also possible to change the level of analysis for each language. For example, a common language analyzer can be used for English and German, and a configuration in which Japanese is analyzed by morphological analysis and pattern matching can be used. The analysis result is sent to the language-specific relationship extraction unit 66.
[0130]
A language-specific relationship extraction unit 66 is also provided for each language, and extracts relationships between a plurality of words from the analysis result sent from the corresponding language-specific language analysis unit 65. In the case of Japanese relation extraction means, as in each of the embodiments described above, a plurality of words related to each other are extracted by extracting a string of words from the morphological analysis result of the sentence and collating the word string with the relation extraction rules. Extract relationships between them. In English, syntax (tree structure) matching can be used.
[0131]
The search result output means 67 is composed of an output device such as a display, for example, and displays the word groups extracted by the language-specific relationship extraction means 66 and their relationships, searched information, and the like.
[0132]
FIG. 30 is a flowchart showing an example of the operation in the sixth embodiment of the information search apparatus of the present invention. First, in S71, a search request is accepted from the input means 1. The accepted search request is divided into a plurality of words serving as search keys by the search request analysis means 61 in S72. Next, in S73, the information search means 2 expands the plurality of words obtained in S72 using the bilingual dictionary 62. In S74, a search expression is created using the expanded result, and the search is performed.
[0133]
In S75, the type of language used for describing the text in the information obtained as a result of the search is determined, and processing corresponding to the type of language is selected. The processes of S76 and S77 are provided for each language. Only one is shown here. In S76, the language-specific language analysis unit 65 analyzes the text in the information obtained as a result of the search. In S77, the language-specific relationship extraction unit 66 uses the relationship extraction rule to extract a plurality of words used as search keys and the relationship between these words.
[0134]
In S <b> 78, the relationship analysis unit 63 passes the word groups extracted by the language-specific relationship extraction unit 66, their relationship, and information obtained as a result of the search to the search result output unit 67 and outputs from the search result output unit 67. Do
[0135]
Hereinafter, an example of the operation in the sixth embodiment of the information search apparatus of the present invention will be described using a specific example. FIG. 31 is an explanatory diagram showing an example of information stored in the information storage means 3 in the sixth embodiment of the information search apparatus of the present invention. In this specific example, the information stored in the information storage means 3 includes at least text, and a language mark indicating the type of language used for describing the text is given. “J” indicates Japanese, “D” indicates German, and “E” indicates English. Of course, information having text written in another language may be stored. The information may include pictures and figures. As a keyword for searching for each piece of information, a word used in the text in each piece of information is used. In the example shown in FIG. 31, the keywords are collected as an index, and each keyword and a pointer to each piece of information having the keyword are stored in association with each other. This pointer is indicated by an arrow line in FIG. Of course, other information management methods may be adopted.
[0136]
FIG. 32 is an explanatory diagram of an example of a bilingual dictionary in the sixth embodiment of the information search apparatus of the present invention. Here, a list of words having similar meanings in each language is registered as a pair with symbols for identifying language types, here “J”, “E”, and “D”. In the example shown in FIG. 32, for the word “production”, the words “production”, “manufacturing”, “production”, “production”, together with the symbol “J” indicating Japanese, “Production”, “manufacture” and “create” words are registered together with the symbol “E” indicating English, and “schaffen” and “produzieren” words are registered together with the symbol “D” indicating German. ing. Similarly, the word “alcohol” includes “alcohol”, “alcohol”, “alcohol”, “beer”, “wine”, “brandy” in Japanese, and “alcohol”, “ “wine”, “beer”, “brandy”, “champagne” are registered, and German “Alkohol”, “Champagne”, “Branttwein”, “Wain”, “Bier” are registered.
[0137]
A search request is input from the input means 1. In this specific example, the search request is input by separating a plurality of words with a delimiter such as a comma. Of course, other delimiters such as a blank may be used. Here, “wine, production” is given as an input. The search request analysis means 61 divides the input search request into a plurality of words that serve as search keys. In this specific example, the search request analysis means 61 obtains “wine” and “production”.
[0138]
The information search means 4 develops each word divided by the search request analysis means 61 using, for example, the bilingual dictionary 62 shown in FIG. “Wine” means “alcohol”, “alcohol”, “alcohol”, “beer”, “wine”, “brandy”, “alcohol”, “wine”, “beer”, “brandy”, “champagne”, “Alkohol” "," Champagne "," Branttwein "," Wain "," Bier ". “Production” is expanded into “production”, “manufacturing”, “production”, “production”, “production”, “manufacture”, “create”, “schaffen”, and “produzieren”. Then, a conditional expression in which the expanded words are connected by OR is created, and a search expression is created by connecting two conditional expressions by AND. For example, (alcohol OR liquor OR liquor OR beer OR wine OR brandy OR alcohol by wine OR beer OR brandy OR champagne OR Alcohol OR Champ OR OR produced by OR OR OR search OR OR produzieren) is created. The information storage means 3 is searched using this search formula.
[0139]
The information shown up to a part of the text content in FIG. 31 shows an example of information searched by this search formula. For example, information (1) has “manufacturing” and “alcohol”, information (2) has “Wein” and “produzieren” variants “geproduzieret”, and information (3) has “ Information (4) has the noun “production” for “wine” and “production”, and information (5) has “alcohol” and “production”. ing. Therefore, the above retrieval formula is satisfied and such information is retrieved.
[0140]
The search results obtained in this way are information including text and the type of language describing the text. These are transferred to the next relation analysis means 63. The information including the text obtained by the search may pass an address to the information storage unit 3 instead of passing the information itself to the relationship analysis unit 63. This address can be composed of the position indicating the head of the information and the relative position of the sentence to be analyzed in the information. The absolute address of the target sentence may be passed as the address, or only the head position of the information may be used.
[0141]
The relation analysis unit 63 receives the search result from the information search unit 2, refers to the text in the searched information, and determines whether or not the search key used for the search exists in one sentence. In the five pieces of information shown in FIG. 31, since the information (1) includes the search keys “manufacturing” and “alcohol” in different sentences, the subsequent processing is not performed on this information. In this case, the information (1) is removed from the search result, or the relationship “NO-REL” representing irrelevance is given as the relationship, and the output is directly output from the relationship analyzing means. The information (2) to (5) is sequentially sent to the language analysis switching means 64 because the search key exists in one sentence.
[0142]
The language analysis switching means 64 discriminates the language type in which the text in the information is described from the search result sent from the relation analysis means 63, and a plurality of language analysis means for each language according to the language type. A corresponding one is selected from 65 and a search result is passed. For example, in the information (2) shown in FIG. 31, since the text is described in German, the language analysis switching means 64 selects the German language analysis means. Similarly, in the case of the information (3) and (5), for example, the Japanese language analysis means as used in the above first to fifth embodiments is selected. In the case of information (4), an English language analysis means is selected.
[0143]
Each language-specific language analyzing means 64 analyzes a sentence including a search key for each language. For example, the Japanese language analyzing means performs morphological analysis of the sentence as shown in the first to fifth embodiments, and generates, for example, a pair of words and parts of speech as shown in FIG. FIG. 33 is an explanatory diagram of an example of an English syntax analysis result in the sixth embodiment of the information search apparatus of the present invention. The English analysis means can be configured to analyze one sentence including the search key and generate, for example, a syntax tree as shown in FIG. FIG. 33 shows an example of an analysis result of a sentence “The ABC Ltd. will produce wine.”. Here, for the sake of understanding, the analysis result is shown as a tree diagram and shown with attributes. The data structure is arbitrary. The analysis result is sent to the language-specific relationship extraction unit 66 corresponding to each language.
[0144]
Each language-specific relationship extraction unit 66 extracts a plurality of words and a relationship between these words based on the analysis result for each language. At this time, a relationship extraction rule is used. FIG. 34 is an explanatory diagram of an example of a Japanese relationship extraction rule in the sixth embodiment of the information search apparatus of the present invention, and FIG. 35 is an explanatory diagram of an example of an English relationship extraction rule. In the case of the Japanese relationship extraction means, the relationship extraction rule as shown in part in FIG. 34 is used to extract two words and the relationship between the words. This relationship extraction process in Japanese is substantially the same as the operation of the relationship extraction means 5 used in the first to fifth aspects described above. The relationship extraction rule shown in FIG. 34 is almost the same as the relationship extraction rule shown in FIG. 6, and only the notation of the extracted relationship is different. Here, in order to match the notation of the relationship in other languages, the notation of the relationship as shown in FIG. 34 is used.
[0145]
In the English relationship extraction means, for example, a relationship extraction rule as shown in part in FIG. 35 can be used. In FIG. 35, the left side of “−>”, that is, the left side, is a word pattern. Among them, (# 1 # 2 # 3 # 4) represents a tree structure having # 1 as a parent and three children # 2, # 3, and # 4 below it. The portion enclosed by “<” and “>” is the designation of the attribute of the node. “Cat” is a category and indicates a syntactic role. “Form” indicates the word itself, and “infl” indicates a change in word form. “Pres-p” indicates the present participle (ing form), and “past-p” indicates the past participle. The right side is a relational expression to be extracted, where the first term is a relation name and the second and third terms are related words. “# 2.head” indicates a modified noun phrase, and “# 3.main” indicates a main verb of the verb phrase (excluding auxiliary verbs). Although not shown in the rules, verbs are basically kept in their original form and nouns in their singular form in relational expressions. In the example of the analysis result shown in FIG. 33, when collating with the English relationship extraction rule shown in FIG. 35, the first rule and the second rule are applied, and the following relationship between words is extracted. .
(NOM “ABC Ltd.” “production”)
(ACC “WINE” “production”)
[0146]
The words and the relations between the words thus obtained are returned to the relation analysis means 63 via the language analysis switching means 64 or directly, and include information including the language type and the text obtained by the search. At the same time, it is sent to the search result output means 67.
[0147]
The search result output unit 67 displays the analysis result sent from the relationship analysis unit 63 on the display device, and displays information in accordance with an instruction from the user. At this time, if the address indicating the information is sent, the information is extracted from the information storage means 3 based on the address and displayed. FIG. 36 is an explanatory diagram showing an example of a display screen in the sixth embodiment of the information search apparatus of the present invention. In this example, a plurality of words extracted by the language-specific relationship extraction means 66 and their relationships are displayed in the candidate display area. The display of the relationship displays the relationship name defined in the relationship extraction rule as it is. However, the present invention is not limited to this. For example, the case (such as the case used in the first to fifth embodiments described above) You may make it display a case, a de-grade, ...). Further, if there is a margin in the display area, for example, as shown in FIG. 13, a part of the title and information can be displayed. Of course, for example, as shown in FIG.
[0148]
Next, a description will be given of a seventh embodiment of the information search apparatus of the present invention. The configuration in this embodiment is the same as that shown in FIG. 29 described in the sixth embodiment. Also, the operation is the same as that of the sixth embodiment except for the processing when outputting the search result. In the seventh embodiment, when the search result is output, the clarity of the relationship extracted from the searched information and / or the similarity of the words are obtained, and these are used to arrange the search results. Change the output. Although these processes are described here as being performed by the relationship analysis unit 63, they may be configured to be performed by the search result output unit 67.
[0149]
FIG. 37 is an explanatory diagram of rules that give clarity of relations in the seventh embodiment of the information search apparatus of the present invention. The relationship analysis means 63 has a rule that pairs the relationship between words with the value of clarity between the words. This rule is prepared for each language and is defined so that the value becomes larger as the relationship between words becomes clearer. For example, in both English and Japanese, when nouns are continuous (relation “UNSPEC”), the semantic connection between the nouns is ambiguous, so it is determined that the clarity is low. In the case of Japanese, embedding is the same. Using such rules, a value of clarity is obtained from the relationship extracted by the language-specific relationship extraction means 66. For example, when the relationship “GA-NOMINATIVE” is extracted by the Japanese relationship extracting means, the value of clarity is “5”.
[0150]
Next, the similarity will be described. As described in the sixth embodiment, the word given as the search key is expanded using the bilingual dictionary 62 in the information search means 2, and a search formula is set using the expanded word as the actual search key. Generate and search. Therefore, the word that matches the search key included in the searched information may be a word given as a search key or a word developed in the bilingual dictionary 62. At this time, it is considered that it is possible to indicate how close the searched information is to the search request by obtaining the similarity between the word given as the search key and the word included in the searched information. It is done.
[0151]
Here, as a method for obtaining the similarity, a method is used in which words registered in the bilingual dictionary 62 are hierarchically constructed, and the similarity is obtained by a difference in the hierarchy. FIG. 38 is an explanatory diagram of an example of a bilingual dictionary in the seventh embodiment of the information search apparatus of the present invention. In the example shown in FIG. 38, a hierarchy is configured for each language, and when a plurality of words are described in each node, they are regarded as the same group. In addition, words connected by broken lines between languages are also regarded as the same group. Here, symbols indicating language types are omitted. As for the similarity of words, for example, the similarity between words belonging to the same group is set to 10, and the degree of similarity is reduced by 3 when going up the hierarchy and by 1 when going down the hierarchy. In the example shown in FIG. 38, “beer” and “wine wine” have a similarity of 10. In the case of “beer” and “alcohol”, if the input is “alcohol”, the similarity of “beer” is 9, and if the input is “beer”, the similarity of “alcohol” is 7. Similarly, in the case of “beer” and “Japanese sake”, the level is increased by one and the similarity is decreased by six. According to the similarity obtained in this way, for example, the search results may be rearranged and output in descending order of similarity. In addition, it is possible to limit the search results to be output, such as outputting information with a similarity greater than 0. If there is too much output even with this restriction, you can reduce the initial value of similarity, increase the threshold, or increase the difference in similarity when moving up and down the hierarchy. . Further, these values are not fixed in advance, but can be configured to be adjustable by the user. In the case of adopting such a method for obtaining the similarity, it is configured so that the relationship analysis means 63 can refer to the bilingual dictionary 62, although not shown in FIG.
[0152]
Search results can also be rearranged using both the above-described relationship clarification and word similarity. For example, when “word 1” and “word 2” and their relationship are extracted by the language-specific relationship extraction unit,
Using the similarity of “word 1” × the similarity of “word 2” × the clarity of the relationship, the search results can be rearranged.
[0153]
FIG. 39 is an explanatory diagram showing an example of a display screen in the seventh embodiment of the information search apparatus of the present invention. 37 shows a display screen when a search similar to that in the sixth embodiment shown in FIG. 36 is performed. The word “sake” given as the search key, the similarity between the words “Wein”, “Wine”, “alcohol” and “sake” extracted from the searched information, and the word “manufacturing” given as the search key , Similarities to the words “produzieren”, “product”, “production”, “production” extracted from the searched information, and the relationships “ACC”, “ACC”, “ From the values of clarity obtained from “DE-INST” and “NO-UNSPEC”, the scores are calculated by the above formula and rearranged. Compared to FIG. 36, the display order of the candidate display areas is different.
[0154]
The above-mentioned score is an example, and other calculation methods such as using three addition values can be used. Furthermore, these values may be obtained by a method other than the above-described method for obtaining the degree of similarity or clarity, or a measure other than the degree of similarity or clarity may be introduced.
[0155]
FIG. 40 is a block diagram showing an eighth embodiment of the information search apparatus of the present invention. In the figure, the same parts as those in FIG. Reference numeral 68 denotes a relationship correspondence storage means. In the eighth embodiment, an example is shown in which a plurality of words and their relationships are given as search requests instead of word sequences. As a search request, a plurality of words and their relations are given as a case where a plurality of words and relations are given separately from the user, and given in a natural language as shown in the above third to fifth embodiments. It may be possible. Here, a case where a search request is given in a natural language will be described.
[0156]
The search request analysis unit 61 analyzes the search request input from the input unit 1 and divides the search request into a plurality of words serving as search keys and their relationships. For this analysis, language-specific language analysis means can be used. That is, the search request is sent to the relation analysis unit 63 or the language analysis switching unit 64 together with the language type in which the search request is described, and the analysis is requested. The language type is specified by, for example, a method in which a user mainly specifies a language to be used in advance, a method in which a language type is specified from the input unit 1 at the same time as a search request, or a simple analysis is performed on the search request. The method of making decisions can be considered.
[0157]
The information search unit 2 searches only by using the word obtained from the search request analysis unit 61 and the word, and expands the word by the bilingual dictionary 62 as in the sixth embodiment. The search result is sent to the relation analysis means 63, and also between the words from the information searched using the language analysis switching means 64, the language-specific language analysis means 65, and the language-specific relation extraction means 66, as in the sixth embodiment. Extract relationships.
[0158]
The relationship analysis means 63 compares the relationship in the search request extracted by performing the analysis previously with the relationship extracted from the searched information. In this comparison, the relationship correspondence storage means 68 is used.
[0159]
The relationship correspondence storage means 68 has two types of relationship correspondence information between languages and relationship correspondence information within a language. Inter-language relationship correspondence information is information that associates relationships extracted in each language. The intra-language relationship correspondence information is information that associates a certain relationship with a relationship that does not contradict the relationship. This intra-language relationship correspondence information is prepared for each language.
[0160]
Now, the search request is described in the first language, and the relationship extracted from the search request is REL-S. Assume that the relationship REL-S in the first language and the relationship REL-T in the second language are associated as the inter-language relationship correspondence information. In addition, as the intra-language relationship correspondence information in the first language, the relationship REL-S and the relationships REL-S2, REL-S3,. . . Are associated with each other, and the relationship REL-T and the relationships REL-T2, REL-T3,. . . Are associated with each other. When the text in the retrieved information is described in the second language, the second in which the text in the information retrieved by the inter-language relationship correspondence information is described with respect to the retrieval request relationship REL-S. Get the relationship REL-T in the language. Further, the relationship REL-T is expanded using the in-language relationship correspondence information in the second language, and the relationships REL-T2, REL-T3,. . . Get. Further, the relationship REL-S extracted from the search request is expanded using the in-language relationship correspondence information of the first language, and the relationships REL-S2, REL-S3,. . . Get. When the text in the retrieved information is described in the third language and the relationship in the third language corresponding to the relationship REL-S of the retrieval request is not associated in the inter-language relationship correspondence information, , The relationship REL-S extracted from the search request using the in-language relationship correspondence information of the first language is expanded, and the relationships REL-S2, REL-S3,. . . Get. Then, for each of the obtained relationships, the inter-language relationship correspondence information is referred to obtain a relationship in the third language. In this case, the relationship in the obtained third language is not expanded further.
[0161]
FIG. 41 is an explanatory diagram of an example of inter-language relationship correspondence information in the eighth embodiment of the information search apparatus of the present invention, and FIG. 42 is an explanatory diagram of an example of the intra-language relationship correspondence information in Japanese. In the inter-language relationship correspondence information shown in FIG. 41, the English relationship “ACC”, the German relationship “ACC”, and the French relationship “ACC” are associated with the Japanese relationship “WO-ACCUSIVE”. Yes. For example, if the input search request is “A to B”, “WO-ACCUSIVE” is obtained as the Japanese relationship. When the language in which the text in the searched information is described is English, the English relation “ACC” is obtained from the Japanese relation “WO-ACCUSIVE” obtained from the search request. Further, based on the English relation “ACC”, the English correspondence relation information in the language is referred to. Here, the relationship correspondence information in English is not shown, but for example, the relationship “UNSPEC” or the like is obtained as a relationship consistent with the English relationship “ACC”. On the other hand, using the Japanese intra-language relationship correspondence information shown in FIG. 42, all relationships that are consistent with the Japanese relationship “WO-ACCUSIVE” are obtained. In FIG. 42, the relationships “HA-THEME”, “MO-ADDITION”, “CASE-UNSPEC”, and “UNSPEC” are associated with each other. All these relationships are treated as being consistent with the original relationship "WO-ACCUSIVE".
[0162]
The relationship analysis means 63 compares the relationship obtained in this way with the relationship extracted from the searched information, and outputs the search result that does not match. Alternatively, information indicating that they do not match is added and output. The search result output means 67 displays the search result output in this manner, for example, on a display device, so that the user can use information having text described using a language different from the language in which the search request is described. Even if it exists, information with similar contents can be obtained. In this way, information similar in content can be obtained regardless of the type of language in which the search request and the text in the information are described.
[0163]
Further, as described in the fourth or fifth embodiment, the relation analysis unit 63 calculates the degree of coincidence using the relation comparison, and rearranges and displays the search results based on the calculated degree of coincidence. It can also be configured to. For the calculation of the degree of coincidence, for example, a relationship comparison table as shown in FIG. 22 is prepared for each language, and this can be used. Further, as shown in parentheses in the intra-language relationship correspondence information of FIG. 42, a value for reducing the similarity is added to the non-conflicting relationship, for example, the initial value of the similarity is set to 5, and only the respective values are similar. It can also be configured to reduce the degree. In this case, with respect to correspondence between languages, for example, it is conceivable that the degree of similarity is uniformly reduced by 1, or the degree of similarity is used as it is. The search results may be rearranged using the similarity value calculated in this way as the degree of coincidence. Furthermore, using the clarity of relations and word similarities described in the seventh embodiment, the search results are rearranged, and combined with the matching degrees, the total matching degree is calculated as in the fifth embodiment. And sort the search results. The calculation of the degree of coincidence and the rearrangement processing can be realized by sharing the processing between the relationship analysis means 63 and the search result output means 67 or both.
[0164]
In the sixth to eighth embodiments described above, it is also possible to output a search result limited to a specific language. For example, by designating a specific language from the input unit 1, when the information retrieval unit 2 expands a word using the bilingual dictionary 62, the search is performed by expanding only the word in the specified language. The analysis unit 63 selects only the information in which the text is described in the specified language and performs the subsequent processing, or the search result output unit 67 relates to the information in which the text is described in the specified language. Can only be configured to display.
[0165]
In the sixth to eighth embodiments, the search result by the information search means 2 is shown to be directly passed to the relation analysis means 63, but it is shown in the above first to fifth embodiments. As described above, the search result storage unit may be used to temporarily store the search result and perform a relationship extraction process or the like.
[0166]
Since the information search device of the present invention can be realized by using it as the information search means 2 without changing the configuration of the conventional information search device, it can be easily configured from the information search device already introduced. .
[0167]
【The invention's effect】
As is clear from the above description, according to the present invention, since the relationship between words used as search keys is extracted from the search results searched by a plurality of search keys, for example, the search results and By displaying the relationship together, it is possible to make it easier to find the information desired by the user compared to the conventional display of only the result. Further, even when a search including synonyms is performed in order to prevent a search omission, it is possible to easily obtain desired information from a large amount of search results by referring to related information.
[0168]
Furthermore, from a search request input in a natural language, a plurality of words related to each other and the relationship between the words are extracted, and the relationship between the words is also determined from a search result obtained by performing a search using the plurality of words as a key. Since they are extracted and compared with each other, the information desired by the user can be searched with higher accuracy than the conventional search using only words. At this time, by calculating the degree of coincidence between the relationship obtained from the search request and the relationship obtained from the search result, and rearranging the display order based on this, the user can refer to the related information in the order of importance. it can. Also in this case, in order to prevent omission of search, it is possible to perform a search including synonyms and present the search information to the user in the order considered to be important based on the matching degree of the relationship and the matching degree of the word. Desired information can be easily obtained from the retrieved results
[0169]
Furthermore, there is an effect that information having a desired content can be easily obtained regardless of the description language of the text in the information stored in the information storage means and regardless of the language used for the search request. is there.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first embodiment of an information search apparatus of the present invention.
FIG. 2 is a flowchart showing an example of operation in the first exemplary embodiment of the information search apparatus of the present invention.
FIG. 3 is a flowchart showing an example of the operation of the relationship extraction means in the first embodiment of the information search apparatus of the present invention.
FIG. 4 is an explanatory diagram showing an example of a search result using two keys in the first embodiment of the information search apparatus of the present invention;
FIG. 5 is an explanatory diagram showing an example of a morphological analysis result in the first embodiment of the information search apparatus of the present invention.
FIG. 6 is an explanatory diagram of an example of a relationship extraction rule in the first embodiment of the information search apparatus of the present invention.
FIG. 7 is an explanatory diagram showing an example of a search result after a relation extraction process in the first embodiment of the information search apparatus of the present invention.
FIG. 8 is an explanatory diagram showing an example of a search result display after the relationship extraction process in the first embodiment of the information search apparatus of the present invention;
FIG. 9 is an explanatory diagram of another example of search result display after the relationship extraction process in the first embodiment of the information search apparatus of the present invention;
FIG. 10 is a block diagram showing a second embodiment of the information search apparatus of the present invention.
FIG. 11 is an explanatory diagram showing an example of a result of a search using a synonym and a relation extraction process in the second embodiment of the information search apparatus of the present invention;
FIG. 12 is an explanatory diagram showing an example of a search result display after the relationship extraction process in the second embodiment of the information search apparatus of the present invention;
FIG. 13 is an explanatory diagram of another example of search result display after the relationship extraction process in the second embodiment of the information search apparatus of the present invention;
FIG. 14 is a block diagram showing a third embodiment of the information search apparatus of the present invention.
FIG. 15 is a flowchart showing an example of operation in the third embodiment of the information search apparatus of the present invention;
FIG. 16 is a flowchart showing an example of the operation of the relationship extraction means in the third embodiment of the information search apparatus of the present invention.
FIG. 17 is an explanatory diagram showing an example of a search request stored in the input information storage means in the third embodiment of the information search apparatus of the present invention.
FIG. 18 is an explanatory diagram of a morphological analysis result of a search request in the third embodiment of the information search apparatus of the present invention.
FIG. 19 is an explanatory diagram showing an example of a search request after the relation extraction process in the third embodiment of the information search apparatus of the present invention.
FIG. 20 is an explanatory diagram of a display example of search results in the third embodiment of the information search apparatus of the present invention.
FIG. 21 is an explanatory diagram of another display example of search results after the relationship extraction process in the third embodiment of the information search apparatus of the present invention;
FIG. 22 is an explanatory diagram showing an example of a relationship comparison table in the fourth embodiment of the information search apparatus of the present invention;
FIG. 23 is an explanatory diagram showing an example of a search result including a matching score determination result in the fourth embodiment of the information search apparatus of the present invention.
FIG. 24 is an explanatory diagram of a display example of search results in the fourth embodiment of the information search apparatus of the present invention;
FIG. 25 is a block diagram showing a fifth embodiment of the information search apparatus of the present invention.
FIG. 26 is an explanatory diagram showing an example of a search result in the fifth embodiment of the information search apparatus of the present invention;
FIG. 27 is an explanatory diagram showing an example of a search result after the relation extraction process in the fifth embodiment of the information search apparatus of the present invention;
FIG. 28 is an explanatory diagram showing an example of a search result after the matching degree determination in the fifth embodiment of the information search apparatus of the present invention;
FIG. 29 is a block diagram showing a sixth embodiment of the information search apparatus of the present invention.
FIG. 30 is a flowchart showing an example of operation in the sixth embodiment of the information search apparatus of the present invention;
FIG. 31 is an explanatory diagram showing an example of information stored in the information storage means 3 in the sixth embodiment of the information search apparatus of the present invention;
FIG. 32 is an explanatory diagram showing an example of a bilingual dictionary in the sixth embodiment of the information search apparatus of the present invention;
FIG. 33 is an explanatory diagram of an example of an English syntax analysis result in the sixth embodiment of the information search apparatus of the present invention;
FIG. 34 is an explanatory diagram showing an example of a Japanese relation extraction rule in the sixth embodiment of the information search apparatus of the present invention;
FIG. 35 is an explanatory diagram showing an example of an English relation extraction rule in the sixth embodiment of the information search apparatus of the present invention;
FIG. 36 is an explanatory diagram showing an example of a display screen in the sixth embodiment of the information search apparatus of the present invention.
FIG. 37 is an explanatory diagram of rules for giving clarity of relations in the seventh embodiment of the information search apparatus of the present invention;
FIG. 38 is an explanatory diagram showing an example of a bilingual dictionary in the seventh embodiment of the information search apparatus of the present invention;
FIG. 39 is an explanatory diagram showing an example of a display screen in the seventh embodiment of the information search apparatus of the present invention.
FIG. 40 is a block diagram showing an eighth embodiment of the information search apparatus of the present invention.
FIG. 41 is an explanatory diagram showing an example of correspondence relation information between languages in the eighth embodiment of the information search device of the present invention;
FIG. 42 is an explanatory diagram showing an example of correspondence relation information in Japanese language in the eighth embodiment of the information search device of the present invention.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Input means, 2 ... Information search means, 3 ... Information storage means, 4 ... Search result storage means, 5 ... Relation extraction means, 6 ... Display means, 7 ... Synonym storage means, 8 ... Input information storage means, 9 ... Relation comparison means 61 ... Search request analysis means 62 ... Bilingual dictionary 63 ... Relation analysis means 64 ... Language analysis switching means 65 ... Language analysis means for each language 66 ... Relation extraction means for each language 67 ... Search result output Means 68... Relationship correspondence storage means.

Claims (10)

検索要求に適合する情報を検索する情報検索装置において、少なくともテキストを含む情報を記憶する情報記憶手段と、複数の単語を検索キーとして前記情報記憶手段から情報を検索する情報検索手段と、該情報検索手段で検索された情報から検索キーとして用いられた複数の単語間の関係を抽出する関係抽出手段と、前記情報検索手段による検索結果と前記関係抽出手段で抽出された関係とを対にして表示する表示手段を有し、前記関係抽出手段は、前記複数の単語が1文中に存在する場合は該1文を形態素解析して単語間の関係を抽出し、前記複数の単語が1文中に存在しない場合には、それぞれの単語を含む文と文の間の距離を算出することを特徴とする情報検索装置。In an information search device for searching for information that matches a search request, information storage means for storing information including at least text, information search means for searching for information from the information storage means using a plurality of words as search keys, and the information A relationship extraction unit that extracts a relationship between a plurality of words used as a search key from information searched by the search unit, and a pair of a search result by the information search unit and a relationship extracted by the relationship extraction unit Display means for displaying, and when the plurality of words are present in one sentence, the relation extraction means extracts a relation between the words by analyzing the one sentence, and the plurality of words are included in one sentence. An information search apparatus characterized by calculating a distance between a sentence including each word when it does not exist. 検索要求に適合する情報を検索する情報検索装置において、少なくともテキストを含む情報を記憶する情報記憶手段と、該情報記憶手段から複数の単語を検索キーとして情報を検索する情報検索手段と、該情報検索手段から検索された情報を保持する検索結果記憶手段と、該検索結果記憶手段に記憶されている情報から検索キーとして用いられた複数の単語間の関係を抽出して前記検索結果記憶手段に格納する関係抽出手段と、前記検索結果記憶手段に保持されている検索された情報と抽出された関係とを対にして表示する表示手段を有し、前記関係抽出手段は、前記複数の単語が1文中に存在する場合は該1文を形態素解析して単語間の関係を抽出し、前記複数の単語が1文中に存在しない場合には、それぞれの単語を含む文と文の間の距離を算出することを特徴とする情報検索装置。In an information search apparatus for searching for information that matches a search request, information storage means for storing information including at least text, information search means for searching for information from the information storage means using a plurality of words as search keys, and the information Search result storage means for holding information searched from the search means, and a relationship between a plurality of words used as a search key is extracted from the information stored in the search result storage means and stored in the search result storage means A relation extracting means for storing; and a display means for displaying the retrieved information held in the search result storing means and the extracted relation in pairs, wherein the relation extracting means includes the plurality of words. If one sentence is present, one sentence is morphologically analyzed to extract the relationship between words. If the plurality of words are not present in one sentence, the distance between the sentence including each word and the sentence. Information retrieval apparatus and calculates a. さらに、ある単語に類似した単語のリストを保持する類義語記憶手段を有し、前記情報検索手段は、ある単語に対して前記類義語記憶手段から得られる類義語を検索キーとして前記情報記憶手段から情報を検索することを特徴とする請求項1または2に記載の情報検索装置。Furthermore, it has synonym storage means for holding a list of words similar to a certain word, and the information search means uses the synonym obtained from the synonym storage means for a certain word as a search key to receive information from the information storage means. The information search device according to claim 1, wherein the information search device searches. ある言語における単語を入力とし各言語における該単語と等価または類似の単語をその言語の種類とともに出力する対訳辞書を有し、前記情報検索手段は、検索キーとして与えられた単語を前記対訳辞書に与え、前記対訳辞書から得られた単語を検索キーとして前記情報記憶手段から情報を検索し、前記関係抽出手段は、検索された各情報中のテキストが記述されている言語の種類に応じて、各言語ごとに検索キーとして用いられた複数の単語とその間の関係を抽出することを特徴とする請求項1または2に記載の情報検索装置。A bilingual dictionary that inputs a word in a language and outputs a word equivalent to or similar to the word in each language together with the type of the language, and the information search means stores the word given as a search key in the bilingual dictionary Given the word obtained from the bilingual dictionary as a search key to retrieve information from the information storage means, the relationship extraction means, according to the type of language in which the text in each searched information is described, The information search apparatus according to claim 1, wherein a plurality of words used as search keys for each language and relationships between the words are extracted. ある言語における単語の関係と他の言語における単語の関係を記述した関係対応情報を保持する関係対応記憶手段をさらに有し、前記関係抽出手段は、ある言語を用いて記述された検索要求から、該検索要求が記述されている言語の種類に応じて、前記情報検索手段に検索キーとして与える複数の単語とその単語間の関係を抽出するとともに、前記情報検索手段により検索された各情報中のテキストが記述されている言語の種類に応じて、各言語ごとに前記テキスト内の検索キーとして用いられた複数の単語間の関係を抽出し、前記検索要求から抽出した単語間の関係と前記情報検索手段により検索された情報から抽出された関係とを前記関係対応記憶手段に保持されている関係対応情報を用いて比較し、一致または矛盾のない情報のみを抽出することを特徴とする請求項4に記載の情報検索装置。It further has relation correspondence storage means for holding relation correspondence information describing the relation between words in a certain language and the relation between words in another language, and the relation extraction means comprises a search request written using a certain language, According to the type of language in which the search request is described, a plurality of words given as search keys to the information search means and the relationship between the words are extracted, and each information searched by the information search means In accordance with the type of language in which the text is described, a relationship between a plurality of words used as a search key in the text is extracted for each language, and the relationship between the words extracted from the search request and the information The relation extracted from the information retrieved by the retrieval means is compared using the relation correspondence information held in the relation correspondence storage means, and only information that does not match or contradict is extracted. Information retrieval apparatus according to claim 4, characterized in that. 前記関係抽出手段は、検索された各情報から抽出した複数の単語とその間の関係をもとに該関係の明確さまたは該複数の単語と前記検索キーとして与えられた複数の単語との類似度あるいはその両方に基づいて、検索された各情報を並びかえて出力することを特徴とする請求項4または5に記載の情報検索装置。The relation extracting means is based on the relation between the plurality of words extracted from each searched information and the degree of similarity between the plurality of words and the plurality of words given as the search key. 6. The information search apparatus according to claim 4, wherein the searched information is rearranged and output based on both of them. 前記関係抽出手段は、前記検索要求から抽出した関係と前記情報検索手段により検索された情報から抽出された関係とを比較して一致度を判定し、該一致度に基づいて検索された情報を並びかえることを特徴とする請求項5に記載の情報検索装置。The relationship extraction unit compares the relationship extracted from the search request with the relationship extracted from the information searched by the information search unit to determine a matching level, and determines the information searched based on the matching level. 6. The information search apparatus according to claim 5, wherein the information search apparatus is arranged. 前記情報検索手段によって検索された情報のうち該情報のテキストが記述されている言語の種類が指定された言語の種類と一致する情報のみを検索結果とする言語比較手段を有することを特徴とする請求項4ないし7のいずれか1項に記載の情報検索装置。It comprises language comparison means for retrieving only information in which the language type in which the text of the information is described matches the specified language type among the information searched by the information search means. The information search device according to any one of claims 4 to 7. 検索要求に適合する情報を検索する情報検索方法において、少なくともテキストを含む情報を情報記憶手段に記憶させておき、複数の単語を検索キーとして情報検索手段により前記情報記憶手段から情報を検索し、検索された情報から検索キーとして用いられた複数の単語間の関係を関係抽出手段により抽出し、検索結果と抽出された関係とを対にして表示手段に表示するものであって、前記複数の単語が1文中に存在する場合は該1文を形態素解析して単語間の関係を抽出し、前記複数の単語が1文中に存在しない場合には、それぞれの単語を含む文と文の間の距離を算出することを特徴とする情報検索方法。In an information search method for searching for information that matches a search request, information including at least text is stored in the information storage means, and information is searched from the information storage means by the information search means using a plurality of words as search keys, A relationship extraction unit extracts a relationship between a plurality of words used as a search key from the retrieved information, and displays the search result and the extracted relationship on a display unit as a pair. When a word is present in one sentence, morphological analysis is performed on the one sentence to extract a relationship between the words. When the plurality of words are not present in one sentence, a sentence between the sentence including each word and the sentence is extracted. An information search method characterized by calculating a distance. 検索要求に適合する情報を検索する情報検索方法において、少なくともテキストを含む情報を情報記憶手段に記憶させておき、該情報記憶手段から複数の単語を検索キーとして情報検索手段により情報を検索し、検索された情報を検索結果記憶手段に保持し、該検索結果記憶手段に記憶されている情報から検索キーとして用いられた複数の単語間の関係を関係抽出手段により抽出して前記検索結果記憶手段に格納し、前記検索結果記憶手段に保持されている検索された情報と抽出された関係とを対にして表示手段に表示するものであって、前記複数の単語が1文中に存在する場合は該1文を形態素解析して単語間の関係を抽出し、前記複数の単語が1文中に存在しない場合には、それぞれの単語を含む文と文の間の距離を算出することを特徴とする情報検索方法。In an information search method for searching for information that matches a search request, information including at least text is stored in the information storage means, and information is searched from the information storage means using a plurality of words as search keys by the information search means, The retrieved information is held in the retrieval result storage means, and the relation between the plurality of words used as the retrieval key is extracted from the information stored in the retrieval result storage means by the relationship extraction means, and the retrieval result storage means When the plurality of words are present in one sentence, the retrieved information stored in the retrieval result storage unit and the extracted relationship are displayed on the display unit as a pair. A morphological analysis is performed on the one sentence to extract a relationship between words, and when the plurality of words do not exist in one sentence, a distance between the sentence including each word and the sentence is calculated. Information retrieval how to.
JP03549895A 1994-05-25 1995-02-23 Information search apparatus and information search method Expired - Fee Related JP3612769B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03549895A JP3612769B2 (en) 1994-05-25 1995-02-23 Information search apparatus and information search method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP6-111601 1994-05-25
JP11160194 1994-05-25
JP03549895A JP3612769B2 (en) 1994-05-25 1995-02-23 Information search apparatus and information search method

Publications (2)

Publication Number Publication Date
JPH0844771A JPH0844771A (en) 1996-02-16
JP3612769B2 true JP3612769B2 (en) 2005-01-19

Family

ID=26374498

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03549895A Expired - Fee Related JP3612769B2 (en) 1994-05-25 1995-02-23 Information search apparatus and information search method

Country Status (1)

Country Link
JP (1) JP3612769B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09231233A (en) * 1996-02-26 1997-09-05 Fuji Xerox Co Ltd Network retrieval device
JPH1011462A (en) * 1996-06-26 1998-01-16 Fuji Xerox Co Ltd Similar relation development dictionary, similarity evaluating device, and retrieval device
JPH10105555A (en) * 1996-09-26 1998-04-24 Sharp Corp Translation-with-original example sentence retrieving device
JPH11161682A (en) * 1997-09-29 1999-06-18 Toshiba Corp Device and method for retrieving information and recording medium
JP3275813B2 (en) * 1998-01-06 2002-04-22 日本電気株式会社 Document search apparatus, method and recording medium
GB2338089A (en) * 1998-06-02 1999-12-08 Sharp Kk Indexing method
JP4640591B2 (en) * 2005-06-09 2011-03-02 富士ゼロックス株式会社 Document search device
JP4619915B2 (en) * 2005-10-04 2011-01-26 シャープ株式会社 PROGRAM DATA PROCESSING DEVICE, PROGRAM DATA PROCESSING METHOD, CONTROL PROGRAM, RECORDING MEDIUM, RECORDING DEVICE, REPRODUCTION DEVICE, AND INFORMATION DISPLAY DEVICE EQUIPPED WITH PROGRAM DATA PROCESSING DEVICE
US7949959B2 (en) 2006-11-10 2011-05-24 Panasonic Corporation Target estimation device and target estimation method
JP4499179B1 (en) * 2009-05-12 2010-07-07 株式会社エヌ・ティ・ティ・データ Terminal device
JP4967037B2 (en) * 2010-02-08 2012-07-04 株式会社エヌ・ティ・ティ・データ Information search device, information search method, terminal device, and program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6074081A (en) * 1983-09-30 1985-04-26 Fujitsu Ltd Generating device for natural language sentence
JP2529418B2 (en) * 1989-11-06 1996-08-28 松下電器産業株式会社 Document search device
JPH04139580A (en) * 1990-09-29 1992-05-13 Fujitsu Ltd Keyword searching system
JPH05151253A (en) * 1991-11-29 1993-06-18 Canon Inc Document retrieving device
JP3363501B2 (en) * 1993-01-18 2003-01-08 三洋電機株式会社 Text search device

Also Published As

Publication number Publication date
JPH0844771A (en) 1996-02-16

Similar Documents

Publication Publication Date Title
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US8005815B2 (en) Search engine
KR100666064B1 (en) Systems and methods for interactive search query refinement
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
JPH07219969A (en) Device and method for retrieving picture parts
JP2003016089A (en) Information retrieval system and server
JPH08255172A (en) Document retrieval system
JP3612769B2 (en) Information search apparatus and information search method
US6535873B1 (en) System and method for indexing electronic text
JPH0484271A (en) Intra-information retrieval device
JP3178421B2 (en) Text search device and computer-readable recording medium storing text search program
JP2006227823A (en) Information processor and its control method
JP2003150624A (en) Information extraction device and information extraction method
JP3617096B2 (en) Relational expression extraction apparatus, relational expression search apparatus, relational expression extraction method, relational expression search method
JP5269399B2 (en) Structured document retrieval apparatus, method and program
KR100376931B1 (en) A Method of Database System Implementation for Korean-English Translation Using Information Retrieval Techniques
JP3249743B2 (en) Document search system
JP2000105769A (en) Document display method
JP2004133510A (en) Technical literature retrieval system
JPH08305726A (en) Information retrieving device
JP3444223B2 (en) Database registration device
JPH0793345A (en) Document retrieval device
JP5971571B2 (en) Structural document management system, structural document management method, and program
JPH0540783A (en) Natural language analysis device
JP2013206130A (en) Search device, search method and program

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040622

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041018

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071105

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081105

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091105

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101105

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111105

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121105

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121105

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131105

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees