JP4217410B2 - 情報検索装置及びその制御方法、並びにプログラム - Google Patents

情報検索装置及びその制御方法、並びにプログラム Download PDF

Info

Publication number
JP4217410B2
JP4217410B2 JP2002038948A JP2002038948A JP4217410B2 JP 4217410 B2 JP4217410 B2 JP 4217410B2 JP 2002038948 A JP2002038948 A JP 2002038948A JP 2002038948 A JP2002038948 A JP 2002038948A JP 4217410 B2 JP4217410 B2 JP 4217410B2
Authority
JP
Japan
Prior art keywords
search
query
information
character string
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002038948A
Other languages
English (en)
Other versions
JP2002318813A (ja
JP2002318813A5 (ja
Inventor
朋紀 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002038948A priority Critical patent/JP4217410B2/ja
Publication of JP2002318813A publication Critical patent/JP2002318813A/ja
Publication of JP2002318813A5 publication Critical patent/JP2002318813A5/ja
Application granted granted Critical
Publication of JP4217410B2 publication Critical patent/JP4217410B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
文字列を含む複数の情報から所定の情報を検索する情報検索装置及びその制御方法、並びに情報検索手順を記述するプログラムに関する。
【0002】
【従来の技術】
近年、大量の文書データを扱う機会が増加し、所望の文書データを検索する手段も多種多様になってきている。単純なキーワード検索(キーワードを指示し、それが出現するか否かで検索を行う)だけでは、ユーザの要求を十分に満たさなくなってきているためである。
【0003】
そこで、文書データを検索する手段して、キーワード間の関係や構文情報の類似度を用いたもの、文書の内容を特徴付ける文書ベクトルを用いたものなどが新たに実現されている。さらには、内容を特徴付ける意味、分野、単語そのものを次元として、その特徴量を値とすることでベクトル表現し、文書ベクトル間の内積等の値を用いて文書間の類似度を求めるものも考案されている。
【0004】
従来では、ユーザは検索目的や検索状況によって、どの検索モードで検索するかを決定し検索を行っている。
【0005】
図29は、従来の文書データ検索手順を示すフローチャートであり、検索モードが、全文検索(入力されたクエリーの全文と記憶装置に格納されている文書等との一致判定を行う)、フレーズ検索(入力されたクエリーのフレーズ単位の類似判定を行う)、及び概念検索(入力されたクエリーの概念の類似判定を行う)の3種類ある場合を例としている。
【0006】
まず、記憶装置(データベース)に対して問い合わせるためのクエリー(query)を入力装置により取得する(ステップS41)。次に検索モードを取得し(ステップS42)、さらにステップS41で取得したクエリーを解析する(ステップS43)。
【0007】
そして、ステップS42で取得した検索モードに従い、実行する検索方法を判定する(ステップS44)。ステップS44で検索モードが第1の検索モード(全文検索モード)であると判定された場合は、全文検索で検索し(ステップS45)、ステップS44で検索モードが第2の検索モード(フレーズ検索)であると判定された場合は、第2の検索モード(フレーズ検索)で検索し(ステップS46)、ステップS44で検索モードが第3の検索モード(概念検索)であると判定された場合は、第3の検索モード(概念検索)で検索する(ステップS47)。そして、表示装置に検索結果を表示する(ステップS48)。
【0008】
図30に示す例に基づいて具体的に説明すると、入力されたクエリー「川崎」を取得し(ステップS41)、全文検索モードで記憶装置に格納されている文書等と一致判定する。一致した場合、検索結果リストに追加し、対象文書等をすべて検索する。つまりクエリーを含むデータを判定してリストアップする。
【0009】
検索が終了すると、検索結果として図10に示すように、一致した文書等を検索順または一致度の大きいものから順に表示装置4に一覧表示する。
【0010】
【発明が解決しようとする課題】
しかしながら、上記従来の情報検索装置では、次のような問題点があった。
【0011】
図30に示すようにクエリーとして「川崎」という単語を入力し、全文検索モードで検索指示した場合、図10に示すような全文検索結果が得られる。この例では、「川崎」という単語を含んだ文書あるいは画像等を検索したいという意図で検索を行ったと仮定した場合、入力したクエリー「川崎」と単語「川崎」を含んだ文書あるいは画像等を高速に検索を行うためには、検索モードは全文検索が最適であるという知識あるいは経験が必要であり、他の検索モードを選択した場合には、最適な検索結果が出なかったり、多くの検索時間が必要であったりする場合がある。
【0012】
このようにユーザは、検索する目的によって検索モードの特徴を理解し、検索モードを自ら決定して選択操作を行う必要があるため、検索効率が悪く、操作性が十分ではなかった。
【0013】
本発明は上記従来の問題点に鑑み、検索モードの入力操作なしに、効率的に高精度の検索結果を得ることができる情報検索装置及びその制御方法、並びにプログラムを提供することを目的とする。
【0014】
【課題を解決するための手段】
上記目的を達成するために、本発明の情報検索装置では、文字列を含む情報を複数保持する情報保持手段中から所定の情報を検索するための複数の検索モードである、クエリー文字列の全文と前記情報保持手段に格納されている情報との一致判定を行う全文検索モード、クエリー文字列と前記情報保持手段に格納されている情報とのフレーズ単位での類似判定を行うフレーズ検索モード、クエリー文字列と前記情報保持手段に格納されている情報との概念レベルでの類似判定を行う概念検索モードが存在する情報検索装置において、クエリー文字列を取得するクエリー取得手段と、前記クエリー取得手段で取得されたクエリー文字列の自立語と未知語の数を解析する言語解析手段と、前記言語解析手段の言語解析結果に基づいて、前記複数の検索モードから自立語と未知語の数で定義された条件に合致する複数の適用する検索モードと適用しない検索モードとを決定する検索モード決定手段と、前記言語解析手段の言語解析結果に基づいて、前記クエリー文字列に対応した文字列の検索を前記検索モード決定手段で決定された複数の適用する検索モードで実行する検索モード実行手段と、前記検索モード実行手段で実行された複数の適用する検索モードの検索結果を統合して表示する検索結果表示手段とを備えることを特徴とする。
また、本発明の情報検索装置の制御方法は、文字列を含む情報を複数保持する情報保持手段中から所定の情報を検索するための複数の検索モードである、クエリー文字列の全文と前記情報保持手段に格納されている情報との一致判定を行う全文検索モード、クエリー文字列と前記情報保持手段に格納されている情報とのフレーズ単位での類似判定を行うフレーズ検索モード、クエリー文字列と前記情報保持手段に格納されている情報との概念レベルでの類似判定を行う概念検索モードが存在する情報検索装置の制御方法であって、クエリー文字列を取得するクエリー取得工程と、前記クエリー取得工程で取得されたクエリー文字列の自立語と未知語の数を解析する言語解析工程と、前記言語解析工程の言語解析結果に基づいて、前記複数の検索モードから自立語と未知語の数で定義された条件に合致する複数の適用する検索モードと適用しない検索モードとを決定する検索モード決定工程と、前記言語解析工程の言語解析結果に基づいて、前記クエリー文字列に対応した文字列の検索を前記検索モード決定工程で決定された複数の適用する検索モードで実行する検索モード実行工程と、前記検索モード実行工程で実行された複数の適用する検索モードの検索結果を統合して表示する検索結果表示工程とを備えることを特徴とする。
また、本発明のプログラムは、文字列を含む情報を複数保持する情報保持手段中から所定の情報を検索するための複数の検索モードである、クエリー文字列の全文と前記情報保持手段に格納されている情報との一致判定を行う全文検索モード、クエリー文字列と前記情報保持手段に格納されている情報とのフレーズ単位での類似判定を行うフレーズ検索モード、クエリー文字列と前記情報保持手段に格納されている情報との概念レベルでの類似判定を行う概念検索モードが存在する情報検索手順を記述するプログラムであって、クエリー文字列を取得するクエリー取得手順と、前記クエリー取得手順で取得されたクエリー文字列の自立語と未知語の数を解析する言語解析手順と、前記言語解析手順の言語解析結果に基づいて、前記複数の検索モードから自立語と未知語の数で定義された条件に合致する複数の適用する検索モードと適用しない検索モードとを決定する検索モード決定手順と、前記言語解析手順の言語解析結果に基づいて、前記クエリー文字列に対応した文字列の検索を前記検索モード決定手順で決定された複数の適用する検索モードで実行する検索モード実行手順と、前記検索モード実行手順で実行された複数の適用する検索モードの検索結果を統合して表示する検索結果表示手順とをコンピュータに実行させるためのプログラムであることを特徴とする。
【0023】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【0024】
[第1実施形態]
図1は、本発明の第1実施形態に係る情報検索装置の構成を示すブロック図である。
【0025】
この情報検索装置は、プログラムに従って処理を実行する中央処理装置1と、検索対象となる文書やアノテーション付き画像等のほか、プログラムや辞書の納まっているデータベース等の記憶装置2と、処理を操作するキーボードやマウス等の入力装置3と、検索結果を表示する表示装置4と、FD(フロッピー(登録商標)ディスク)、CD−ROM、ROM及び磁気テープ等の記録媒体に記憶されたプログラムやデータ等を記憶装置2に読み取る記憶媒体読取装置5とで構成されている。
【0026】
<検索動作の概要説明>
次に、本実施形態の検索動作の概要を説明する。
【0027】
図2は、文書等の登録処理を示すフローチャートである。
【0028】
この登録処理は、登録データ(文書等)の言語解析処理(ステップS91)と、全文検索登録処理(ステップS92)と、フレーズ検索登録処理(ステップS93)と、概念検索登録処理(ステップS94)とで構成されている。
【0029】
ここで、登録データ言語解析処理(ステップS91)は、単語辞書等を参照しながら形態素解析を行い、場合により構文解析や意味解析等を行う処理であり、全文検索登録処理(ステップS92)は、ステップS91で得られた登録データや解析結果から作成された全文検索インデックス情報などを記憶装置2のデータベースなどに格納する処理である。
【0030】
フレーズ検索登録処理(ステップS93)は、ステップS91で得られた登録データや解析結果から作成されたフレーズ検索インデックス情報などを記憶装置2のデータベースなどに格納する。概念検索登録処理(ステップS94)は、ステップS91で得られた登録データや解析結果から作成された概念検索インデックス情報などを記憶装置2のデータベースなどに格納する処理である。
【0031】
図3は、図2のステップS94の概念検索登録処理を詳細化したフローチャートである。
【0032】
この概念検索登録処理は、言語解析結果取得処理(ステップS101)と、文書ベクトル生成処理(ステップS102)と、インデックス登録処理(ステップS103)とで構成されている。
【0033】
ここで、言語解析結果取得処理(ステップS101)は、登録文書の言語解析結果を取得する処理であり、文書ベクトル生成処理(ステップS102)は、ステップS101で抽出された単語から辞書を検索し、単語毎の次元別の特徴量を得て、その総和から文書ベクトルを生成する処理であり、インデックス登録処理(ステップS103)は、ステップS102で得られた文書ベクトルを登録文書の内容または文書識別子とともに記憶装置2に登録する処理である。
【0034】
図4は、第1実施形態に係る情報検索手順を示すフローチャートである。
【0035】
まず、入力装置3によりクエリーを取得し(ステップS51)、次にステップS51で取得したクエリーの言語解析を行う(ステップS52)。さらに、ステップS52で取得したクエリーの言語解析の結果を基に、どの検索モードを適用するかを判定する(ステップS53)。
【0036】
ステップS53の判定処理の結果、全文検索モードを適用する場合はステップS54に進んで全文検索を実行し、フレーズ検索モードを適用する場合はステップS55に進んでフレーズ検索を実行し、概念検索モードを適用する場合はステップS56に進んで概念検索を実行する。
【0037】
その後は、ステップS54、ステップS55、及びステップS56の各検索ステップの検索結果リストを表示装置4に一致度の高い順に一覧表示する(ステップS57)。
【0038】
図5は、図4のクエリー言語解析(ステップS52)を詳細化したフローチャートである。
【0039】
このクエリー言語解析は、形態素解析処理(ステップS71)と、構文解析処理(ステップS72)と、意味解析処理(ステップS73)とから構成されている。
【0040】
ここで、クエリーを形態素解析する処理(ステップS71)は、クエリーの文字列に対して単語辞書を参照しながら形態素解析を行う。クエリーを構文解析する処理(ステップS72)は、係り受け解析などの構文情報を作成する。クエリーを意味解析する処理(ステップS73)は、意味情報などから意味解析を行う。
【0041】
図6は、図4のフレーズ検索(ステップS55)を詳細化したフローチャートである。
【0042】
このフレーズ検索は、クエリー単語取得処理(ステップS81)と、クエリー単語間関係取得処理(ステップS82)と、類似度算出処理(ステップS83)とで構成されている。
【0043】
クエリー単語取得処理(ステップS81)は、ステップS52での形態素解析結果からクエリー単語を取得する処理であり、クエリー単語間関係取得処理(ステップS82)は、ステップS52での形態素解析結果からクエリー単語の構文情報を取得する処理であり、類似度算出処理(ステップS83)は、ステップS81とステップS82で取得したクエリー単語とクエリー単語間の関係と文書単語と文書単語間の関係を比較して類似度を算出する処理である。
【0044】
図7は、図4のステップS56の概念検索を詳細化したフローチャートである。
【0045】
この概念検索は、クエリー言語解析結果取得処理(ステップS111)と、クエリーベクトル生成処理(ステップS102)と、類似度算出処理(ステップS103)とから構成される。
【0046】
ここで、クエリー言語解析結果取得処理(ステップS111)は、ステップS52で生成したクエリー言語解析結果を取得する処理であり、クエリーベクトル生成処理(ステップS102)は、ステップS111で取得した解析結果からクエリーベクトルの生成する処理であり、類似度算出処理(ステップS103)は、ステップS102で得られたクエリーベクトルと登録時に記憶装置2に格納された文書毎の文書ベクトルと比較して類似度を算出し検索結果としてリストアップする処理である。
【0047】
<検索動作の具体的な説明>
次に、上述した各フローチャートで説明した処理で実現される本実施形態の検索動作について、表示例を参照しつつ具体的に説明する。
【0048】
I.全文検索
図8には、入力装置3よりクエリーとして入力された入力文字列「川崎」が表示されている。このクエリー取得処理(図4のステップS51)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語解析処理(ステップS52)の中の形態素解析処理(図5のステップS71)で、図9のように記憶装置2に格納された単語辞書を検索し、言語解析し、単語「川崎」が作成される。
【0049】
検索モード選択(ステップS53)では、ステップS52で言語処理した結果を基に、検索モードの選択を行う。ここではクエリーの単語数が単語「川崎」一つであるため、全文検索を適用すると判定する。全文検索(ステップS54)では、図2の登録フローチャートで記憶装置2に格納された文書または画像のアノテーション等の情報と全文検索インデックスから、文字列「川崎」を検索する。そして、図10に示すように検索結果リストを一致度の高い順に表示装置4に一覧表示する(ステップS57)。または、記憶装置2に格納する。
【0050】
II.フレーズ検索
次に、フレーズ検索(ステップS55)の詳細について、図11(a),(b),(c)のデータ例と図6のフローチャートを参照して説明する。
【0051】
図11(a)に示すように、クエリーとして「画像を印刷する。」が入力された場合において、クエリー単語取得処理(図6のステップS81)では、「画像」「を」「印刷する。」を取得する。
【0052】
次の単語間関係取得処理(ステップS82)では、“「画像」が「印刷する」に係っている”ことを取得する。続く類似度算出処理(ステップS83)では、単語と単語間の関係が類似している度合いを算出する。
【0053】
例えば、図11(b)の文書1では、単語「画像」と単語「印刷する」が含まれ、“「画像」が「印刷する」に係っている”ことと、“「高速」が「印刷する」に係っている”ことが示されており、“「画像」が「印刷する」に係っている”が類似しているので、文書1は、類似したフレーズを含んでいる類似度=1−単語による減点(0)−関係による減点(単語間距離1単語なので0.1)=0.9となる。
【0054】
次に図11(b)の文書2は、同様に、類似度=1−単語による減点(0)−関係による減点(係り先が違う0.5)=0.5となる。
【0055】
従って、類似度の大きい図11(b)に示した文書1が検索結果として表示装置2に表示されることになる。
【0056】
III.概念検索登録処理
次に、概念検索登録処理(ステップS94)の詳細について、図12及び図13のデータ例と図3のフローチャートを参照して説明する。
【0057】
文書は登録される段階で、まず言語解析結果取得処理(図3のステップS101)を実行し、登録文書に含まれる単語を取得する。次に文書ベクトル生成処理(ステップS102)で、文書内に出現する単語から基本ベクトル辞書を用いて文書ベクトルが算出される。
【0058】
図12は、基本ベクトル辞書の構成を示した図である。同図に示すように、基本ベクトル辞書は、単語毎にベクトル表現時のそれぞれの次元(Dim.)に応対した特徴量が格納されている。次元は、その単語本来の意味によって分類された基準や、その単語の使用分野に応じて分類された基準等が採用される。「単語1」の「Dim.01」の特徴量は0であり、「Dim.02」の特徴量は23であることが分かる。
【0059】
このように辞書から一つの単語におけるそれぞれの次元(Dim.)の特徴量を得ることが可能となる。特徴量は、その単語が使用されることにより、その文書がその分類基準(=次元)をどれぐらい特徴付ける可能性があるかを示す値と解釈することが可能である。文書を構成するすべての単語から得られた分類基準別(次元別)の特徴量から、文書全体の特徴量が分類基準を次元とするベクトルで表現される。得られたベクトルをノルム=1で正規化した値を文書ベクトルとして格納する。
【0060】
その後のインデックス登録処理(ステップS103)では、文書ベクトルを図13に示すようなインデックスに格納する。「文書ID=6947」の文書ベクトルの「Dim.01」の特徴量は、0.183であり、「Dim.02」の特徴量は、0.214であることが分かる。
【0061】
IV.概念検索
次に、概念検索(ステップS56)の詳細について、図7のフローチャートを参照して説明する。
【0062】
まず、クエリー言語処理結果取得処理(ステップS111)で、クエリーに含まれる単語を取得する。次のクエリーベクトル生成処理(ステップS112)では、文書ベクトル生成と同様に基本ベクトル辞書によりクエリーのベクトルを生成する。そして、類似度算出処理(ステップS113)では、クエリーの特徴ベクトルとそれぞれの文書ベクトルの類似度を実際に算出する。
【0063】
このように本実施形態によれば、目的の文書やアノテーション付きの画像等の情報を検索する際に、入力されたクエリーを言語解析し、その解析結果(構文情報など)から検索モードの適用を判定し、その検索モードを選択実行するようにしたので、ユーザが検索モードを選択することなしに、ノイズの少ない精度の高い検索結果が自動的に得られるため、目的の情報を効果的に検索することができる。
【0064】
[第2実施形態]
上記第1実施形態では、検索モードの選択で検索モードを一つのみ選択するようにしたが、第2実施形態では、複数の検索モードを適用可能にした場合について説明する。
【0065】
<検索手順の概要>
まず、本実施形態の検索手順の概要を説明する。
【0066】
図14は、本発明の第2実施形態に係る検索手順を示すフローチャートである。
【0067】
入力装置3によりクエリーを取得すると(ステップS61)、そのクエリーの言語解析を行い(ステップS62)、次いで、ステップS62で取得したクエリーの言語解析結果を基に、全文検索、フレーズ検索、及び概念検索を適用するかを判定する(ステップS63)。
【0068】
次にステップS63で決定した検索適用情報を基に、全文検索を適用するかを判定し(ステップS64)、適用する場合はステップS65に進んで、全文検索動作を実行した後、ステップS66へ進む。適用しない場合は何もしないでステップS66へ進む。
【0069】
ステップS66では、ステップS63で決定した検索適用情報を基に、フレーズ検索を適用するかを判定し、適用する場合はステップS67に進んでフレーズ検索動作を実行した後、ステップS68へ進む。適用しない場合は何もしないでステップS68へ進む。
【0070】
ステップS68では、ステップS63で決定した検索適用情報を基に、概念検索を適用するかを判定し、適用する場合はステップS69に進んで概念検索動作を実行した後、ステップS70へ進む。適用しない場合は何もしないでステップS70へ進む。
【0071】
次にステップS65、ステップS67、及びステップS69の各検索モードの検索結果リスト、またはそれぞれの結果をマージした検索結果を表示装置4に一致度の高い順に一覧表示する(ステップS70)。
【0072】
<検索動作の具体的な説明>
次に、上述した図14のフローチャートで説明した処理で実現される本実施形態の検索動作について、表示例を参照しつつ具体的に説明する。
【0073】
I.第1の具体例
クエリー文字列“日本の経済における金利の影響について”の検索時には、図15に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済における金利の影響について”が表示装置4に表示される。
【0074】
このクエリー取得処理(図14のステップS61)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS62)で、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。
【0075】
次に解析結果判定処理(ステップS63)を行う。本例では、例えば自立語の個数は4個であり、未知語は無しとした場合において、条件として、▲1▼全文検索は未知語がなければ行わない、▲2▼フレーズ検索は自立語の個数が8個以下ならば行う、▲3▼概念検索は自立語が3個以上ならば行う、としたとき、この解析結果判定処理(ステップS63)ではフレーズ検索及び概念検索を適用すると判定する。
【0076】
そして、全文検索適用判定処理(ステップS64)では、ステップS63で全文検索を適用しないと判定したので、全文検索動作(ステップS65)はスキップする。次にフレーズ検索適用判定処理(ステップS66)では、ステップS63でフレーズ検索を適用すると判定したので、フレーズ検索動作(ステップS67)を実行する。概念検索適用判定処理(ステップS68)では、ステップS63で概念検索を適用すると判定したので、概念検索動作(ステップS69)を実行する。
【0077】
次に検索結果表示処理(ステップS70)では、フレーズ検索(ステップS67)及び概念検索(ステップS69)の結果をマージして、検索結果リストを例えば図16のように表示装置4に一致度の高い順に一覧表示する(ステップS70)。または、記憶装置2に格納する。
【0078】
II.第2の具体例
解析結果判定処理(ステップS63)において、上記第1の具体例では、自立語と未知語の個数を判定条件として説明したが、本具体例では、最後まで解析が終了したか否かを判定条件とする。
【0079】
具体的には、解析結果判定処理(ステップS63)において、本例では、例えば最後まで解析が終了した場合において、条件として、▲1▼全文検索は、言語処理でエラーが発生した、または、最後まで解析できなかった場合に実行する、▲2▼フレーズ検索は、言語処理で最後まで解析できた場合に実行する、▲3▼概念検索は、言語処理で最後まで解析できた場合に実行する、としたときに、この解析結果判定処理(ステップS63)ではフレーズ検索及び概念検索を適用すると判定する。
【0080】
解析結果判定処理(ステップS63)以外の処理は、上記第1の具体例と同様である。
【0081】
III.第3の具体例
検索結果表示処理(ステップS70)において、上記第2の具体例では、上記第1の具体例と同様に、フレーズ検索(ステップS67)及び概念検索(ステップS69)の結果をマージして、検索結果リストを例えば図16のように表示装置4に一致度の高い順に一覧表示また記憶装置2に格納するようにしたが、本具体例では、フレーズ検索(ステップS67)及び概念検索(ステップS69)の検索結果リストを図17と図18に示すように表示装置4に一致度の高い順にそれぞれ個別に一覧表示または記憶装置2に格納する(ステップS70)。
【0082】
検索結果表示処理(ステップS70)以外の処理は、上記第2の具体例と同様である。
【0083】
IV.第4の具体例
第1、第2及び第3の具体例と異なるクエリー文字列“ジュビロのハジェヴスキーについて”の検索時には、図19のように入力装置3よりクエリーとして入力されている入力文字列“ジュビロのハジェヴスキーについて”が表示装置4に表示される。
【0084】
このクエリー取得処理(図14のステップS61)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS62)で、クエリー単語として「ジュビロ」「の」「ハジェヴスキー」「について」を得る。
【0085】
次に解析結果判定処理(ステップS63)を行う。本例では、例えば自立語の個数は2個であり、未知語は2個であり、未知語以外の自立語は無しとした場合において、条件として、▲1▼全文検索は未知語がなければ行わない、▲2▼フレーズ検索は未知語以外の自立語の個数が2個以上8個以下なら行う、▲3▼概念検索は、自立語が3個以上なら行うとしたとき、この解析結果判定処理(ステップS63)では全文検索を適用すると判定する。
【0086】
そして、全文検索適用判定処理(ステップS64)では、ステップS63で全文検索を適用すると判定したので全文検索動作(ステップS65)を実行する。次にフレーズ検索適用判定処理(ステップS66)では、ステップS63でフレーズ検索を適用しないと判定したのでフレーズ検索動作(ステップS67)をスキップする。次に概念検索適用判定処理(ステップS68)では、ステップS63で概念検索を適用しないと判定したので概念検索動作(ステップS69)をスキップする。
【0087】
次に検索結果表示処理(ステップS70)では、全文検索(ステップS65)の検索結果リストを表示装置4に一致度の高い順に一覧表示する(ステップS70)。または、記憶装置2に格納する。
【0088】
V.第5の具体例
解析結果判定処理(ステップS63)において、上記第4の具体例では、自立語と未知語の個数を判定条件として説明したが、本具体例では、最後まで解析が終了したか否かを判定条件とする。
【0089】
具体的には、解析結果判定処理(ステップS63)において、本例では、例えば最後まで解析が終了した場合において、条件として、▲1▼全文検索は、言語処理でエラーが発生した、または、最後まで解析できなかった場合に実行する、▲2▼フレーズ検索は、言語処理で最後まで解析できた場合に実行する、▲3▼概念検索は、言語処理で最後まで解析できた場合に実行する、としたときに、この解析結果判定処理(ステップS63)ではフレーズ検索及び概念検索を適用すると判定する。
【0090】
解析結果判定処理(ステップS63)以外の処理は、上記第4の具体例と同様である。
【0091】
なお、上記解析結果判定(ステップS63)による検索モードの適用判定は、上述の具体例の他に、クエリーの文字数、バイト数、単語数、単語頻度の累計、最大頻度単語、最小頻度単語、単語長、単語長の累計、最大単語長、最小単語長、自立語数、自立語頻度、自立語頻度の累計、最大頻度自立語、最小頻度自立語、最大自立語長、最小自立語長、付属語の有無、付属語数、未知語の有無、未知語数、未知語以外の自立語数、形態素解析処理のエラーの有無、構文解析処理のエラーの有無、あるいは意味解析処理のエラーの有無などの条件によって決定する場合にも適用される。
【0092】
[第3実施形態]
次に、ハードウェアの処理能力により、適用する検索モードを選択する場合について説明する。
【0093】
図20は、本発明の第3実施形態に係る検索手順を示すフローチャートである。
【0094】
クエリー文字列“日本の経済における金利の影響について”の検索時には、図15に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済における金利の影響について”が表示装置4に表示される。
【0095】
このクエリー取得処理(図20のステップS201)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語解析処理(ステップS202)で、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。
【0096】
次に検索モードの適用判定処理(ステップS203)において、ハードウェアの処理能力からどの検索モードを適用するかを判定する。その判定条件として、ハードウェアの処理能力が低ければ全文検索のみの検索モードを適用し、高ければすべての検索モード、つまり全文検索、フレーズ検索及び概念検索を適用するものとする。本例では、ハードウェアの処理能力が低いものとし、全文検索のみを適用すると判定する。
【0097】
そして、全文検索適用判定処理(ステップS204)では、ステップS203で全文検索を適用すると判定したので、全文検索動作(ステップS205)を実行する。次のフレーズ検索適用判定処理(ステップS206)では、ステップS203でフレーズ検索を適用しないと判定したので、フレーズ検索動作(ステップS207)をスキップする。さらに概念検索適用判定処理(ステップS208)では、ステップS203で概念検索を適用しないと判定したので概念検索動作(ステップS209)をスキップする。
【0098】
その後の検索結果表示処理(ステップS210)では、全文検索(ステップS205)の検索結果リストを例えば図16のように表示装置4に一致度の高い順に一覧表示する(ステップS210)。または、記憶装置2に格納する。
【0099】
本実施形態では、CPUをアップグレードなどした場合は、ハードウェアの処理能力が高くなり、プログラム変更なしで高精度の検索モードを適用することができる。
【0100】
[第4実施形態]
次に、クライアント端末の接続数によって、適用する検索モードを選択する場合について説明する。
【0101】
図21は、本発明の第4実施形態に係る情報検索装置が適用されるシステムの構成を示すブロック図である。
【0102】
同図に示すように、このシステムは、サーバー51,52や、クライアント端末53〜56がネットワーク60によって接続されている。この場合、例えばサーバー51が上述した本発明の情報検索装置を構成する。
【0103】
図22は、第4実施形態に係る検索手順を示すフローチャートである。
【0104】
クエリー文字列“日本の経済における金利の影響について”の検索時には、図15に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済における金利の影響について”が表示装置4に表示される。
【0105】
このクエリー取得処理(図22のステップS301)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS302)で、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。
【0106】
次に検索モードの適用判定処理(ステップS303)において、クライアント端末の接続数によってどの検索モードを適用するかを判定する。その判定条件として、接続クライアント端末数が5までは、すべての検索モードを適用する。未知語以外の自立語が5つ以上でクライアント端末数が100以下であれば、概念検索を適用する。フレーズ検索はクライアント端末数が50以下なら適用する。また、接続クライアント端末数が100を超える場合は全文検索のみ適用する。
【0107】
そして、全文検索適用判定処理(ステップS304)では、ステップS303で全文検索を適用すると判定したので、全文検索動作(ステップS305)を実行する。次のフレーズ検索適用判定処理(ステップS306)では、ステップS303でフレーズ検索を適用しないと判定したので、フレーズ検索動作(ステップS307)をスキップする。さらに概念検索適用判定処理(ステップS308)では、ステップS303で概念検索を適用しないと判定したので概念検索動作(ステップS309)をスキップする。
【0108】
その後の検索結果表示処理(ステップS310)では、全文検索(ステップS307)の検索結果リストを例えば図16のように表示装置4に一致度の高い順に一覧表示する(ステップS310)。または、記憶装置2に格納する。
【0109】
なお、本発明では、検索モード適用判定条件として、ハードウェア処理能力、接続クライアント端末数のほか、最大クライアント端末接続数などで決定する場合も適用される。
【0110】
さらに、検索モード適用判定条件は、言語解析結果を利用する条件と、ハードウェア処理能力を利用する条件と、接続クライアント端末数を利用する条件との組み合わせであってもよい。
【0111】
また、図23に示すように、本発明の情報検索装置70は、インターネット71に接続して、WEBの検索等にも適用される。
【0112】
[第5実施形態]
次に、各検索モードの重み付けを決定し、その結果に応じて複数の検索モードから適用する検索モードを選択する場合について説明する。
【0113】
<検索動作の具体的な説明>
次に、図24のフローチャートを参照しつつ本実施形態の検索動作について、表示例を参照しつつ具体的に説明する。
【0114】
I.第1の具体例
クエリー文字列“日本の経済におけるリナックスの影響について”の検索時には、図25に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済におけるリナックスの影響について”が表示装置4に表示される。
【0115】
このクエリー取得処理(図24のステップS401)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語解析処理(ステップS402)で、クエリー単語として「日本」「の」「経済」「における」「リナックス」「の」「影響」「について」を得る。
【0116】
次に解析結果判定処理(ステップS403)を行う。本例では、例えば自立語の個数は4個であり、未知語は1個とした場合において、重み付け条件として、▲1▼全文検索は未知語数/自立語数、▲2▼フレーズ検索は(自立語−未知語数)/(自立語数*文の数)、▲3▼概念検索は((自立語−未知語数)/自立語数)*(1−1/文の数)としたとき、この解析結果判定処理(ステップS403)では全文検索の重みは0.25、フレーズ検索の重みは0.75、概念検索の重みは0、を適用すると判定する。
【0117】
そして、全文検索適用判定処理(ステップS404)では、ステップS403で全文検索の重みは0.25と決定したので、全文検索動作(ステップS405)を実行し、一致度に0.25を乗算する。次にフレーズ検索適用判定処理(ステップS406)では、ステップS403でフレーズ検索の重みは0.75と決定したので、フレーズ検索動作(ステップS407)を実行し、一致度に0.75を乗算する。概念検索適用判定処理(ステップS408)では、ステップS403で概念検索の重みは0と決定したので、概念検索動作(ステップS409)をスキップする。
【0118】
次に検索結果表示処理(ステップS410)では、全文検索(ステップS405)とフレーズ検索(ステップS407)の結果をマージして、検索結果リストを表示装置4に一致度の高い順に一覧表示する(ステップS410)。または、記憶装置2に格納する。
【0119】
II.第2の具体例
第1の具体例と異なるクエリー文字列“ジュビロのハジェヴスキーについて”の検索時には、図19のように入力装置3よりクエリーとして入力されている入力文字列“ジュビロのハジェヴスキーについて”が表示装置4に表示される。
【0120】
このクエリー取得処理(図24のステップS401)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS402)で、クエリー単語として「ジュビロ」「の」「ハジェヴスキー」「について」を得る。
【0121】
次に解析結果判定処理(ステップS403)を行う。本例では、例えば自立語の個数は2個であり、未知語は2個であり、未知語以外の自立語は無しとした場合において、重み付け条件として、▲1▼全文検索は未知語数/自立語数、▲2▼フレーズ検索は(自立語−未知語数)/(自立語数*文の数)、▲3▼概念検索は((自立語−未知語数)/自立語数)*(1−1/文の数)としたとき、この解析結果判定処理(ステップS403)では全文検索の重みは1、フレーズ検索の重みは0、概念検索の重みは0、を適用すると判定する。
【0122】
そして、全文検索適用判定処理(ステップS404)では、ステップS403で全文検索の重みは1に決定したので全文検索動作(ステップS405)を実行し、一致度に1を乗算する。次にフレーズ検索適用判定処理(ステップS406)では、ステップS403でフレーズ検索の重みは0に決定したのでフレーズ検索動作(ステップS407)をスキップする。次に概念検索適用判定処理(ステップS408)では、ステップS403で概念検索の重みは0に決定したので概念検索動作(ステップS409)をスキップする。
【0123】
次に検索結果表示処理(ステップS410)では、全文検索動作(ステップS405)の検索結果リストを表示装置4に一致度の高い順に一覧表示する(ステップS410)。または、記憶装置2に格納する。
【0124】
なお、解析結果判定(ステップS403)による検索モードの適用判定は、上述の具体例の他に、クエリーの文字数、バイト数、単語数、単語頻度の累計、最大頻度単語、最小頻度単語、単語長、単語長の累計、最大単語長、最小単語長、自立語数、自立語頻度、自立語頻度の累計、最大頻度自立語、最小頻度自立語、最大自立語長、最小自立語長、付属語の有無、付属語数、未知語の有無、未知語数、未知語以外の自立語数、形態素解析処理のエラーの有無、構文解析処理のエラーの有無、あるいは意味解析処理のエラーの有無などの条件によって決定する場合にも適用される。
【0125】
[第6実施形態]
次に、ハードウェアの処理能力により、各検索モードの重み付けを決定する場合について説明する。
【0126】
図26は、本発明の第6実施形態に係る検索手順を示すフローチャートである。
【0127】
I.第1の具体例
クエリー文字列“日本の経済における金利の影響について”の検索時には、図15に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済における金利の影響について”が表示装置4に表示される。
【0128】
このクエリー取得処理(図26のステップS501)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語解析処理(ステップS502)で、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。
【0129】
次に検索モードの適用判定処理(ステップS503)において、ハードウェアの処理能力から検索モードの重み付けを決定する。その決定条件として、全文検索の重み付けは2/(3*CPUクロック(GHz))であり、フレーズ検索の重み付けは(1−1/CPUのクロック(GHz))で、概念検索の重み付けは1/(3*CPUクロック(GHz))とすると、CPUのクロックが1GHzであれば全文検索の重みは0.66、フレーズ検索の重みは0、概念検索の重みは0.33となる。 そして、全文検索適用判定処理(ステップS504)では、ステップS503で全文検索の重みは0.66に決定したので全文検索動作(ステップS505)を実行し、一致度に0.66を乗算する。次にフレーズ検索適用判定処理(ステップS506)では、ステップS503でフレーズ検索の重みは0に決定したのでフレーズ検索動作(ステップS507)をスキップする。次に概念検索適用判定処理(ステップS508)では、ステップS503で概念検索の重みは0.33に決定したので概念検索動作(ステップS509)を実行し、一致度に0.33を乗算する。
【0130】
次に検索結果表示処理(ステップS510)では、全文検索(ステップS505)及び概念検索(ステップS509)の結果をマージして、検索結果リストを図16のように表示装置4に一致度の高い順に一覧表示する(ステップS510)。または、記憶装置2に格納する。
【0131】
II.第2の具体例
クエリー文字列“日本の経済における金利の影響について”の検索時には、図15に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済における金利の影響について”が表示装置4に表示される。
【0132】
このクエリー取得処理(図26のステップS501)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語解析処理(ステップS502)で、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。
【0133】
次に検索モードの適用判定処理(ステップS503)において、ハードウェアの処理能力から検索モードの重み付けを決定する。その決定条件として、全文検索の重み付けは2/(3*CPUクロック(GHz))であり、フレーズ検索の重み付けは(1−1/CPUのクロック(GHz))で、概念検索の重み付けは1/(3*CPUクロック(GHz))とすると、第1の具体例と異なるCPUのクロックが2GHzである場合、全文検索の重みは0.33で、フレース検索の重みは0.5で、概念検索の重みは0.16となる。
【0134】
そして、全文検索適用判定処理(ステップS504)では、ステップS503で全文検索の重みは0.33に決定したので全文検索動作(ステップS505)を実行し、一致度に0.33を乗算する。次にフレーズ検索適用判定処理(ステップS506)では、ステップS503でフレーズ検索の重みは0.5に決定したのでフレーズ検索動作(ステップS507)を実行し、一致度に0.5を乗算する。
【0135】
次に概念検索適用判定処理(ステップS508)では、ステップS503で概念検索の重みは0.16に決定したので概念検索動作(ステップS509)を実行し、一致度に0.16を乗算する。次に検索結果表示処理(ステップS510)では、全文検索(ステップS505)、フレーズ検索(ステップS507)及び概念検索(ステップS509)の結果をマージして、検索結果リストを図16のように表示装置4に一致度の高い順に一覧表示する(ステップS510)。または、記憶装置2に格納する。
【0136】
本実施形態では、インストールしたマシンに合った検索を行う。またCPUをアップグレードなどした場合は、ハードウェアの処理能力が高くなり、プログラム変更なしで高精度の検索モードを適用することができる。
【0137】
[第7実施形態]
次に、クライアント端末の接続数によって各検索モードの重み付けを決定する場合について説明する。なお、第7実施形態に係る情報検索装置が適用されるシステムの構成は、図21に示したものと同じである。
【0138】
図27は、第7実施形態に係る検索手順を示すフローチャートである。
【0139】
I.第1の具体例
クエリー文字列“日本の経済における金利の影響について”の検索時には、図15に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済における金利の影響について”が表示装置4に表示される。
【0140】
このクエリー取得処理(図27のステップS601)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS602)で、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。
【0141】
次に検索重み付け処理(ステップS603)において、クライアント端末の接続数によって検索結果の重み付けを決定する。全文検索と概念検索の重みは0.001*((クライアント数+2)の2乗)で最大.5とし小数3位切り上げ、フレーズ検索の重みは1−(2*全文検索の重み)であるとするとクライアント数が2の場合、全文検索、概念検索の重みは0.02、フレーズ検索の重みは0.96となる。
【0142】
そして、全文検索適用判定処理(ステップS604)では、ステップS603で全文検索の重みは0.02に決定したので全文検索動作(ステップS605)を実行し、一致度に0.02を乗算する。次にフレーズ検索適用判定処理(ステップS606)では、ステップS603でフレーズ検索の重みは0.96に決定したのでフレーズ検索動作(ステップS607)を実行し、一致度に0.96を乗算する。次に概念検索適用判定処理(ステップS608)では、ステップS603で概念検索の重みは0.02に決定したので概念検索動作(ステップS609)を実行し、一致度に0.02を乗算する。
【0143】
次に検索結果表示処理(ステップS610)では、全文検索(ステップS605)及び概念検索(ステップS609)の結果をマージして、検索結果リストを図16のように表示装置4に一致度の高い順に一覧表示する(ステップS610)。または、記憶装置2に格納する。
【0144】
II.第2の具体例
クエリー文字列“日本の経済における金利の影響について”の検索時には、図15に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済における金利の影響について”が表示装置4に表示される。
【0145】
このクエリー取得処理(図27のステップS601)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS602)で、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。
【0146】
次に検索重み付け処理(ステップS603)において、クライアント端末の接続数によって検索結果の重み付けを決定する。全文検索と概念検索の重みは0.001*((クライアント数+2)の2乗)で最大.5とし小数3位切り上げ、フレーズ検索の重みは1−(2*全文検索の重み)であるとすると、第1の具体例と異なるクライアントが20の場合、全文検索、概念検索の重みは0.4、フレーズ検索の重みは0.2となる。
【0147】
そして、全文検索適用判定処理(ステップS604)では、ステップS603で全文検索の重みは0.4に決定したので全文検索動作(ステップS605)を実行し、一致度に0.4を乗算する。次にフレーズ検索適用判定処理(ステップS606)では、ステップS603でフレーズ検索の重みは0.2に決定したのでフレーズ検索動作(ステップS607)を実行し、一致度に0.2を乗算する。次に概念検索適用判定処理(ステップS608)では、ステップS603で概念検索の重みは0.4に決定したので概念検索動作(ステップS609)を実行し、一致度に0.4を乗算する。
【0148】
次に検索結果表示処理(ステップS610)では、全文検索(ステップS605)、フレーズ検索(ステップS607)及び概念検索(ステップS609)の結果をマージして、検索結果リストを図16のように表示装置4に一致度の高い順に一覧表示する(ステップS610)。または、記憶装置2に格納する。
【0149】
III.第3の具体例
クエリー文字列“日本の経済における金利の影響について”の検索時には、図15に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済における金利の影響について”が表示装置4に表示される。
【0150】
このクエリー取得処理(図27のステップS601)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS602)で、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。
【0151】
次に検索重み付け処理(ステップS603)において、クライアント端末の接続数によって検索結果の重み付けを決定する。全文検索と概念検索の重みは0.001*((クライアント数+2)の2乗)で最大.5とし小数3位切り上げ、フレーズ検索の重みは1−(2*全文検索の重み)であるとすると、第1、2の具体例と異なるクライアントが23の場合、全文検索、概念検索の重みは0.5、フレーズ検索の重みは0となる。
【0152】
そして、全文検索適用判定処理(ステップS604)では、ステップS603で全文検索の重みは0.5に決定したので全文検索動作(ステップS605)を実行し、一致度に0.5を乗算する。次にフレーズ検索適用判定処理(ステップS606)では、ステップS603でフレーズ検索の重みは0に決定したのでフレーズ検索動作(ステップS607)をスキップする。次に概念検索適用判定処理(ステップS608)では、ステップS603で概念検索の重みは0.5に決定したので概念検索動作(ステップS609)を実行し、一致度に0.5を乗算する。
【0153】
次に検索結果表示処理(ステップS610)では、全文検索(ステップS605)、フレーズ検索(ステップS607)及び概念検索(ステップS609)の結果をマージして、検索結果リストを図16のように表示装置4に一致度の高い順に一覧表示する(ステップS610)。または、記憶装置2に格納する。
【0154】
[第8実施形態]
次に、言語処理解析結果とハードウェアの処理能力とクライアント端末の接続数との組み合わせによって、各検索の重み付けを決定する場合について説明する。なお、第8実施形態に係る情報検索装置が適用されるシステムの構成は、図21に示したものと同じである。
【0155】
図28は、第8実施形態に係る検索手順を示すフローチャートである。
【0156】
I.第1の具体例
クエリー文字列“日本の経済におけるリナックスの影響について”の検索時には、図25に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済におけるリナックスの影響について”が表示装置4に表示される。
【0157】
このクエリー取得処理(図28のステップS701)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS702)で、クエリー単語として「日本」「の」「経済」「における」「リナックス」「の」「影響」「について」を得る。
【0158】
次に判定処理(ステップS703)を行う。本例では、例えば言語解析結果より自立語の個数は4個であり、未知語は1個、文の数1とし、CPUのクロックが1.2GHzでクライアント接続数が3であった場合において、実行条件として(i)全文検索はすべての条件で実行する。(ii)フレーズ検索は自立語数が2個未満または20個以上の場合は実行しない。または、クライアント接続数が20以上の場合は行わない。または、CPUのクロックが1.5GHz以下の場合は実行しない。(iii)概念検索は未知語の割合が5割以上の場合は実行しない。または、クライアント接続数が50以上の場合は行わない。または、CPUのクロックが1.0GHz以下の場合は実行しない。
【0159】
重み付け条件として、▲1▼全文検索は未知語数/自立語数、▲2▼フレーズ検索は(自立語−未知語数)/(自立語数*2*文の数)、▲3▼概念検索は((自立語−未知語数)/自立語数)*(1−1/(2*文の数))としたとき、この解析結果判定処理(ステップS703)では全文検索の重みは0.25、フレーズ検索の重みはCPUのクロックが低いので0、概念検索の重みは0.37、を適用すると判定する。
【0160】
そして、全文検索適用判定処理(ステップS704)では、ステップS703で全文検索の重みは0.25に決定したので全文検索動作(ステップS705)を実行し、一致度に0.25を乗算する。次にフレーズ検索適用判定処理(ステップS706)では、ステップS703でフレーズ検索の重みは0に決定したのでフレーズ検索動作(ステップS707)をスキップする。次に概念検索適用判定処理(ステップS708)では、ステップS703で概念検索の重みは0.37に決定したので概念検索動作(ステップS709)を実行し、一致度に0.37を乗算する。
【0161】
次に検索結果表示処理(ステップS710)では、全文検索(ステップS705)及び概念検索(ステップS709)の結果をマージして、検索結果リストを表示装置4に一致度の高い順に一覧表示する(ステップS710)。または、記憶装置2に格納する。
【0162】
II.第2の具体例
クエリー文字列“日本の経済におけるリナックスの影響について”の検索時には、図25に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済におけるリナックスの影響について”が表示装置4に表示される。
【0163】
このクエリー取得処理(図28のステップS701)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS702)で、クエリー単語として「日本」「の」「経済」「における」「リナックス」「の」「影響」「について」を得る。
【0164】
次に判定処理(ステップS703)を行う。本例では、例えば言語解析結果より自立語の個数は4個であり、未知語は1個、文の数1とし、CPUのクロックが1.8GHzでクライアント接続数が1であった場合において、実行条件として(i)全文検索はすべての条件で実行する。(ii)フレーズ検索は自立語数が2個未満または20個以上の場合は実行しない。または、クライアント接続数が20以上の場合は行わない。または、CPUのクロックが1.5GHz以下の場合は実行しない。(iii)概念検索は未知語の割合が5割以上の場合は実行しない。または、クライアント接続数が50以上の場合は行わない。または、CPUのクロックが1.0GHz以下の場合は実行しない。
【0165】
重み付け条件として、▲1▼全文検索は未知語数/自立語数、▲2▼フレーズ検索は(自立語−未知語数)/(自立語数*2*文の数)、▲3▼概念検索は((自立語−未知語数)/自立語数)*(1−1/(2*文の数))としたとき、この解析結果判定処理(ステップS703)では全文検索の重みは0.25、フレーズ検索の重みは0.37、概念検索の重みは0.37、を適用すると判定する。
【0166】
そして、全文検索適用判定処理(ステップS704)では、ステップS703で全文検索の重みは0.25に決定したので全文検索動作(ステップS705)を実行し、一致度に0.37を乗算する。次にフレーズ検索適用判定処理(ステップS706)では、ステップS703でフレーズ検索の重みは0.37に決定したのでフレーズ検索動作(ステップS707)を実行し、一致度に0.75を乗算する。次に概念検索適用判定処理(ステップS708)では、ステップS703で概念検索の重みは0.37に決定したので概念検索動作(ステップS709)を実行し、一致度に0.75を乗算する。
【0167】
次に検索結果表示処理(ステップS710)では、全文検索(ステップS705)、フレーズ検索(ステップS707)及び概念検索(ステップS709)の結果をマージして、検索結果リストを表示装置4に一致度の高い順に一覧表示する(ステップS710)。または、記憶装置2に格納する。
【0168】
III.第3の具体例
クエリー文字列“ジュビロのハジェヴスキーについて”の検索時には、図19に示すように、入力装置3よりクエリーとして入力されている入力文字列“ジュビロのハジェヴスキーについて”が表示装置4に表示される。
【0169】
このクエリー取得処理(図28のステップS701)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS702)で、クエリー単語として「ジュビロ」「の」「ハジェヴスキー」「について」を得る。
【0170】
次に判定処理(ステップS703)を行う。本例では、例えば言語解析結果より自立語の個数は2個であり、未知語は1個、文の数1とし、CPUのクロックが2.0GHzでクライアント接続数が7であった場合において、実行条件として(i)全文検索はすべての条件で実行する。(ii)フレーズ検索は自立語数が2個未満または20個以上の場合は実行しない。または、クライアント接続数が20以上の場合は行わない。または、CPUのクロックが1.5GHz以下の場合は実行しない。(iii)概念検索は未知語の割合が5割以上の場合は実行しない
。または、クライアント接続数が50以上の場合は行わない。または、CPUのクロックが1.0GHz以下の場合は実行しない。
【0171】
重み付け条件として、▲1▼全文検索は未知語数/自立語数、▲2▼フレーズ検索は(自立語−未知語数)/(自立語数*2*文の数)、▲3▼概念検索は((自立語−未知語数)/自立語数)*(1−1/(2*文の数))としたとき、この解析結果判定処理(ステップS703)では全文検索の重みは0.5、フレーズ検索の重みは0.25、概念検索の重みは未知語の割合が5割以上なので0、とする。
【0172】
そして、全文検索適用判定処理(ステップS704)では、ステップS703で全文検索の重みは0.5に決定したので全文検索動作(ステップS705)を実行し、一致度に0.5を乗算する。次にフレーズ検索適用判定処理(ステップS706)では、ステップS703でフレーズ検索の重みは0.25に決定したのでフレーズ検索動作(ステップS707)を実行し、一致度に0.5を乗算する。次に概念検索適用判定処理(ステップS708)では、ステップS703で概念検索の重みは0に決定したので概念検索動作(ステップS709)をスキップする。
【0173】
次に検索結果表示処理(ステップS710)では、全文検索(ステップS705)及びフレーズ検索(ステップS707)の結果をマージして、検索結果リストを表示装置4に一致度の高い順に一覧表示する(ステップS710)。または、記憶装置2に格納する。
【0174】
IV.第4の具体例
クエリー文字列“日本の経済におけるリナックスの影響について”の検索時には、図25に示すように、入力装置3よりクエリーとして入力されている入力文字列“日本の経済におけるリナックスの影響について”が表示装置4に表示される。
【0175】
このクエリー取得処理(図28のステップS701)では、このようにして取得したクエリーを記憶装置2に格納する。かかるクエリー取得処理で取得したクエリーを入力とし、クエリー言語処理(ステップS702)で、クエリー単語として「日本」「の」「経済」「における」「リナックス」「の」「影響」「について」を得る。
【0176】
次に判定処理(ステップS703)を行う。本例では、例えば言語解析結果より自立語の個数は4個であり、未知語は1個、文の数1とし、CPUのクロックが1.8GHzでクライアント接続数が50であった場合において、実行条件として(i)全文検索はすべての条件で実行する。(ii)フレーズ検索は自立語数が2個未満または20個以上の場合は実行しない。または、クライアント接続数が20以上の場合は行わない。または、CPUのクロックが1.5GHz以下の場合は実行しない。(iii)概念検索は未知語の割合が5割以上の場合は実行しない。または、クライアント接続数が50以上の場合は行わない。または、CPUのクロックが1.0GHz以下の場合は実行しない。
【0177】
重み付け条件として、▲1▼全文検索は未知語数/自立語数、▲2▼フレーズ検索は(自立語−未知語数)/(自立語数*2*文の数)、▲3▼概念検索は((自立語−未知語数)/自立語数)*(1−1/(2*文の数))としたとき、この解析結果判定処理(ステップS703)では全文検索の重みは0.25、フレーズ検索の重みはクライアント接続数が50なので0、概念検索の重みはクライアント接続数が50なので0、を適用すると判定する。
【0178】
そして、全文検索適用判定処理(ステップS704)では、ステップS703で全文検索の重みは0.25に決定したので全文検索動作(ステップS705)を実行し、一致度に0.37を乗算する。次にフレーズ検索適用判定処理(ステップS706)では、ステップS703でフレーズ検索の重みは0に決定したのでフレーズ検索動作(ステップS707)をスキップする。次に概念検索適用判定処理(ステップS708)では、ステップS703で概念検索の重みは0に決定したので概念検索動作(ステップS709)をスキップする。
【0179】
次に検索結果表示処理(ステップS710)では、全文検索(ステップS705)の検索結果リストを表示装置4に一致度の高い順に一覧表示する(ステップS710)。または、記憶装置2に格納する。
【0180】
なお、本発明では、検索モード適用判定条件として、ハードウェア処理能力、接続クライアント端末数のほか、最大クライアント端末接続数などで決定する場合も適用される。
【0181】
さらに、検索モード適用判定条件は、言語解析結果を利用する条件と、ハードウェア処理能力を利用する条件と、接続クライアント端末数を利用する条件との組み合わせであってもよい。
【0182】
なお、上述した図2〜図7、図14、図20、図22、図24、図26〜図28の各フローチャートに従ったプログラムを情報検索装置の例えば記憶装置2に格納し動作することにより、上述の各制御方法を実現させることが可能となる。
【0183】
また、本発明は、上述した実施形態の装置に限定されず、複数の機器から構成されるシステムに適用しても、一つの機器から成る装置に適用してもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。
【0184】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードウェアディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0185】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPUなどが処理を行って実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0186】
【発明の効果】
以上詳述したように本発明によれば、情報検索において、ユーザが検索モードを選択することなしに、クエリーから高精度の検索結果を自動的に得ることが可能になる。これにより、ユーザの操作性を大幅に向上させ、目的の情報を効果的に検索することが可能になる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る情報検索装置の構成を示すブロック図である。
【図2】文書等の登録処理を示すフローチャートである。
【図3】図2中の概念検索登録処理を詳細化したフローチャートである。
【図4】第1実施形態に係る情報検索手順を示すフローチャートである。
【図5】図4中のクエリー言語解析処理を詳細化したフローチャートである。
【図6】図4中のフレーズ検索を詳細化したフローチャートである。
【図7】図4中の概念検索を詳細化したフローチャートである。
【図8】第1実施形態に係るクエリーの入力状態を示す表示画面図である。
【図9】記憶装置に格納された単語辞書例を示す図である。
【図10】第1実施形態に係る検索結果例を示す図である。
【図11】フレーズ検索のデータ例を示す図である。
【図12】基本ベクトル辞書の構成を示した図である。
【図13】文書ベクトルインデックスの例を示した図である。
【図14】本発明の第2実施形態に係る検索手順を示すフローチャートである。
【図15】第2実施形態に係るクエリーの入力状態を示す図である。
【図16】第2実施形態に係る検索結果例を示す図である。
【図17】第2実施形態に係る検索結果例を示す図である。
【図18】第2実施形態に係る検索結果例を示す図である。
【図19】第2実施形態に係る他のクエリーの入力状態を示す図である。
【図20】本発明の第3実施形態に係る検索手順を示すフローチャートである。
【図21】本発明の第4実施形態に係る情報検索装置が適用されるシステムの構成を示すブロック図である。
【図22】第4実施形態に係る検索手順を示すフローチャートである。
【図23】本発明の情報検索装置をインターネットに接続した例を示す概念図である。
【図24】第5実施形態に係る検索手順を示すフローチャートである。
【図25】第5実施形態に係るクエリーの入力状態を示す図である。
【図26】第6実施形態に係る検索手順を示すフローチャートである。
【図27】第7実施形態に係る検索手順を示すフローチャートである。
【図28】第8実施形態に係る検索手順を示すフローチャートである。
【図29】従来の文書データ検索手順を示すフローチャートである。
【図30】従来のクエリー入力状態を示す表示画面図である。
【符号の説明】
1 中央処理装置
2 記憶装置
3 入力装置
4 表示装置
5 記憶媒体読取装置

Claims (7)

  1. 文字列を含む情報を複数保持する情報保持手段中から所定の情報を検索するための複数の検索モードである、クエリー文字列の全文と前記情報保持手段に格納されている情報との一致判定を行う全文検索モード、クエリー文字列と前記情報保持手段に格納されている情報とのフレーズ単位での類似判定を行うフレーズ検索モード、クエリー文字列と前記情報保持手段に格納されている情報との概念レベルでの類似判定を行う概念検索モードが存在する情報検索装置において、
    クエリー文字列を取得するクエリー取得手段と、
    前記クエリー取得手段で取得されたクエリー文字列の自立語と未知語の数を解析する言語解析手段と、
    前記言語解析手段の言語解析結果に基づいて、前記複数の検索モードから自立語と未知語の数で定義された条件に合致する複数の適用する検索モードと適用しない検索モードとを決定する検索モード決定手段と、
    前記言語解析手段の言語解析結果に基づいて、前記クエリー文字列に対応した文字列の検索を前記検索モード決定手段で決定された複数の適用する検索モードで実行する検索モード実行手段と、
    前記検索モード実行手段で実行された複数の適用する検索モードの検索結果を統合して表示する検索結果表示手段と
    を備えることを特徴とする情報検索装置。
  2. 前記言語解析手段は、前記クエリー文字列の形態素解析処理を行う手段と、前記クエリー文字列の構文解析処理を行う手段と、前記クエリー文字列の意味解析処理を行う手段とを備えたことを特徴とする請求項1に記載の情報検索装置。
  3. 前記検索モード決定手段は、前記言語解析手段の言語解析結果が、未知語がある場合、前記全文検索を用いることを決定し、自立語の数が所定数以下の場合、前記フレーズ検索を用いる事を決定し、自立語の数が所定数以上の場合、前記概念検索を用いることを決定することを特徴とする請求項に記載の情報検索装置。
  4. 前記検索結果表示手段は、前記複数の適用する検索モードの検索結果を一致度の高い順に一覧表示することを特徴とする請求項1に記載の情報検索装置。
  5. 前記検索結果表示手段は、前記複数の適用する検索モードの検索結果を、それぞれの検索モード毎に一致度の高い順に一覧表示することを特徴とする請求項1に記載の情報検索装置。
  6. 文字列を含む情報を複数保持する情報保持手段中から所定の情報を検索するための複数の検索モードである、クエリー文字列の全文と前記情報保持手段に格納されている情報との一致判定を行う全文検索モード、クエリー文字列と前記情報保持手段に格納されている情報とのフレーズ単位での類似判定を行うフレーズ検索モード、クエリー文字列と前記情報保持手段に格納されている情報との概念レベルでの類似判定を行う概念検索モードが存在する情報検索装置の制御方法であって、
    クエリー文字列を取得するクエリー取得工程と、
    前記クエリー取得工程で取得されたクエリー文字列の自立語と未知語の数を解析する言語解析工程と、
    前記言語解析工程の言語解析結果に基づいて、前記複数の検索モードから自立語と未知語の数で定義された条件に合致する複数の適用する検索モードと適用しない検索モードとを決定する検索モード決定工程と、
    前記言語解析工程の言語解析結果に基づいて、前記クエリー文字列に対応した文字列の検索を前記検索モード決定工程で決定された複数の適用する検索モードで実行する検索モード実行工程と、
    前記検索モード実行工程で実行された複数の適用する検索モードの検索結果を統合して表示する検索結果表示工程と
    を備えることを特徴とする情報検索装置の制御方法。
  7. 文字列を含む情報を複数保持する情報保持手段中から所定の情報を検索するための複数の検索モードである、クエリー文字列の全文と前記情報保持手段に格納されている情報との一致判定を行う全文検索モード、クエリー文字列と前記情報保持手段に格納されている情報とのフレーズ単位での類似判定を行うフレーズ検索モード、クエリー文字列と前記情報保持手段に格納されている情報との概念レベルでの類似判定を行う概念検索モードが存在する情報検索手順を記述するプログラムであって、
    クエリー文字列を取得するクエリー取得手順と、
    前記クエリー取得手順で取得されたクエリー文字列の自立語と未知語の数を解析する言語解析手順と、
    前記言語解析手順の言語解析結果に基づいて、前記複数の検索モードから自立語と未知語の数で定義された条件に合致する複数の適用する検索モードと適用しない検索モードとを決定する検索モード決定手順と、
    前記言語解析手順の言語解析結果に基づいて、前記クエリー文字列に対応した文字列の検索を前記検索モード決定手順で決定された複数の適用する検索モードで実行する検索モード実行手順と、
    前記検索モード実行手順で実行された複数の適用する検索モードの検索結果を統合して表示する検索結果表示手順と
    をコンピュータに実行させるためのプログラム。
JP2002038948A 2001-02-15 2002-02-15 情報検索装置及びその制御方法、並びにプログラム Expired - Fee Related JP4217410B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002038948A JP4217410B2 (ja) 2001-02-15 2002-02-15 情報検索装置及びその制御方法、並びにプログラム

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2001-38629 2001-02-15
JP2001038629 2001-02-15
JP2001-38630 2001-02-15
JP2001038630 2001-02-15
JP2002038948A JP4217410B2 (ja) 2001-02-15 2002-02-15 情報検索装置及びその制御方法、並びにプログラム

Publications (3)

Publication Number Publication Date
JP2002318813A JP2002318813A (ja) 2002-10-31
JP2002318813A5 JP2002318813A5 (ja) 2005-08-25
JP4217410B2 true JP4217410B2 (ja) 2009-02-04

Family

ID=27346002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002038948A Expired - Fee Related JP4217410B2 (ja) 2001-02-15 2002-02-15 情報検索装置及びその制御方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP4217410B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006301975A (ja) * 2005-04-20 2006-11-02 Canon Inc 情報処理装置及び情報処理方法並びにプログラム
JP2009277154A (ja) * 2008-05-16 2009-11-26 Ntt Docomo Inc 情報検索装置及び情報検索方法
JP7453182B2 (ja) 2021-06-18 2024-03-19 Lineヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
JP2002318813A (ja) 2002-10-31

Similar Documents

Publication Publication Date Title
JP2742115B2 (ja) 類似文書検索装置
CN100424695C (zh) 搜索文档的文档处理装置及其控制方法
JP2009075791A (ja) 機械翻訳を行う装置、方法、プログラムおよびシステム
JP2006506692A (ja) テンプレート・オートマトンとレイテント・セマンティック・インデックス原理に基づく新しいコンピュータ支援メモリ翻訳スキーム
JP2000123041A (ja) 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JP2006215717A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
JP2006227823A (ja) 情報処理装置及びその制御方法
JPH11110409A (ja) 情報分類方法及び装置
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4217410B2 (ja) 情報検索装置及びその制御方法、並びにプログラム
JP2006227914A (ja) 情報検索装置、情報検索方法、プログラム、記憶媒体
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP2004240769A (ja) 情報検索装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP5019315B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2005025465A (ja) 文書検索方法及び文書検索装置
JP2003330958A (ja) 情報検索装置、情報検索方法、プログラムおよび記憶媒体
JP2003228578A (ja) 情報検索方法及び情報検索装置及び情報検索装置の制御プログラム
WO2024069941A1 (ja) 情報処理装置、検索方法、及び検索プログラム
KR102685135B1 (ko) 영상 편집 자동화 시스템
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060415

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080325

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081027

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081110

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111114

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121114

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131114

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees