JP2004240769A - 情報検索装置 - Google Patents
情報検索装置 Download PDFInfo
- Publication number
- JP2004240769A JP2004240769A JP2003029918A JP2003029918A JP2004240769A JP 2004240769 A JP2004240769 A JP 2004240769A JP 2003029918 A JP2003029918 A JP 2003029918A JP 2003029918 A JP2003029918 A JP 2003029918A JP 2004240769 A JP2004240769 A JP 2004240769A
- Authority
- JP
- Japan
- Prior art keywords
- search
- information
- query
- character string
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】検索モードの入力なしに、必要に応じて高速に検索したり、精度の高い検索結果を得たりすることを可能にする。
【解決手段】文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置において、検索すべき文字列を受け取り(S61)、この受け取った文字列を言語解析し(S62)、この解析結果に基づき、複数の検索手法(S65,S67,S69)の中から少なくとも1つの検索手法を選択する(S63)。選択された検索手法に従い、複数の被検索対象情報を検索し、これにより検出された被検索対象情報を表示する(S70)。
【選択図】 図5
【解決手段】文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置において、検索すべき文字列を受け取り(S61)、この受け取った文字列を言語解析し(S62)、この解析結果に基づき、複数の検索手法(S65,S67,S69)の中から少なくとも1つの検索手法を選択する(S63)。選択された検索手法に従い、複数の被検索対象情報を検索し、これにより検出された被検索対象情報を表示する(S70)。
【選択図】 図5
Description
【0001】
【発明の属する技術分野】
本発明は、情報検索装置に関し、特に、文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置に関する。
【0002】
【従来の技術】
記憶媒体に格納された多量の文書データの中から所望の文書を検索する方法として、従来、単純なキーワード検索(キーワードを指定し、該キーワードと一致する文字を含む文書を検出する)があるが、これだけでは、ユーザの要求を十分に満たすことができない。そのため、キーワード間の関係や構文情報の類似度を用いた検索方法や、文書の内容を特徴付ける文書ベクトルを用いて行う検索方法が考案されている。また、内容を特徴付ける意味、分野、単語そのものを次元とし、その特徴量を値とすることでベクトル表現し、文書ベクトル間の内積等の値を用いて文書間の類似度を求める検索方法も考案されている。ユーザは検索目的や検索状況に応じて、多くの検索方法の中から適切な検索方法を選んで検索を行っている。
【0003】
図32は、従来の情報検索処理の概略を示すフローチャートである。ここでは例として、全文検索とフレーズ検索と概念検索との3種類の検索方法が用意されているとする。
【0004】
入力装置から入力されたクエリー(検索したい文字列)を取得し(ステップS41)、また入力装置から入力された検索モードを取得する(ステップS42)。ここでは、全文検索とフレーズ検索と概念検索とのうちのいずれかのモードが入力装置から指定される。そして、ステップS41で取得したクエリーを解析する(ステップS43)。次に、ステップS42で取得した検索モードに従い、検索方法を決定する(ステップS44)。
【0005】
ステップS44で決定された検索モードが全文検索の場合、ステップS43での解析結果に応じて全文検索により検索を行う(ステップS45)。ステップS44で決定された検索モードがフレーズ検索の場合、ステップS43での解析結果に応じてフレーズ検索により検索を行う(ステップS46)。ステップS44で決定された検索モードが概念検索の場合、ステップS43での解析結果に応じて概念検索により検索を行う(ステップS47)。
【0006】
そして、ステップS45〜S47のいずれかで得られた検索結果を表示装置に表示する(ステップS48)。
【0007】
例えば、ユーザが単語「川崎」をクエリーとして、記憶装置に格納されている文書を、全文検索モードを指定して検索したとする。その場合、単語「川崎」に一致する文書が検出され、検出された各文書名からなる検索結果リストが作成され、表示装置に表示される。この検索結果リストでは、検索順または一致度の大きいものから順に一覧表示が行われる。
【0008】
【発明が解決しようとする課題】
しかしながら、上記の従来の情報検索処理において、上記例のように「川崎」という単語をクエリーとして文書検索を行う場合、ユーザが、全文検索モードで検索を行うことが最適であると判断できる必要があり、そのためにはユーザが、複数の検索モードの検索精度や検索速度について知識や経験を予め持っている必要がある。こうした知識や経験を予め持たずに、全文検索以外の他の検索モードを選択した場合、適切な検索結果が出なかったり、検索時間が多くかかったりする可能性がある。
【0009】
したがって従来、ユーザは各種の検索モードの特徴を理解し、検索対象に合った検索モードを決定しなければならず、そのため、検索効率が悪く、操作性がよくなかった。
【0010】
また、検索精度は、情報検索処理を行うデータ処理ハードウェアのパフォーマンスと無関係であって常時一定であるが、検索速度はハードウェアのパフォーマンスと比例関係にあり、したがって、「検索精度はあまり高くなくてもよいが、速く検索結果をほしい」、「多少時間はかかっても、一回で的確な検索結果をほしい」、「このくらいの時間で検索してほしい」といった個別の要求に応じることはできなかった。また、検索速度一定で、ハードウェアのパフォーマンスに比例して検索精度を向上させるということはできなかった。
【0011】
本発明はこのような問題点に鑑みてなされたものであって、検索モードの入力なしに、必要に応じて高速に検索したり、精度の高い検索結果を得たりすることを可能にする情報検索装置を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記目的を達成するために、本発明によれば、文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置において、検索すべき文字列を受け取る受取手段と、前記受取手段によって受け取った文字列を言語解析する解析手段と、前記解析手段による解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択手段と、前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索手段と、前記検索手段によって検出された被検索対象情報を表示する表示手段とを有することを特徴とする情報検索装置が提供される。
【0013】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して説明する。
【0014】
[第1の実施の形態]
図1は、本発明に係る情報検索装置の第1の実施の形態の構成を示すブロック図である。
【0015】
情報検索装置の主要部は、プログラムに従って各種処理を実行する中央処理装置1、検索対象となる文書やアノテーション付き画像、プログラム、辞書等が格納された記憶装置2、検索したい文字列等を入力したりするためのキーボード、ポインティングデバイス等の入力装置3、情報検索結果等を表示する表示装置4、フロッピー(登録商標)ディスク(FD)、CD−ROM、ROM、磁気テープ等の記録媒体に記憶されたプログラム、データ等を読み取って記憶装置2に記録する記憶媒体読取装置5から構成される。
【0016】
なお本発明は、図2のようなシステムにも適用され得る。図2は、本発明が適用可能なシステムの構成を示すブロック図であり、該システムは、サーバ22,23と、クライアント(コンピュータ)24〜27とがネットワーク21によって接続された構成となっている。
【0017】
また本発明は、図3に示すような、インターネット32に接続され、WEBの検索等を行う端末31にも適用され得る。
【0018】
なおまた、以下の説明においては、検索方法として全文検索、フレーズ検索、概念検索の3つの検索方法を例に挙げて説明するが、これに限られるものではなく、複数の互いに異なる検索方法を対象にして本発明は実施可能である。
【0019】
図4は、図1に示す情報検索装置の中央処理装置1において実行される検索処理の手順の概要を示すフローチャートである。
【0020】
すなわち、中央処理装置1は、入力装置3を介して入力されたクエリー(検索対象の文字列)を取得し(ステップS51)、取得したクエリーを言語解析する(ステップS52)。このクエリーの言語解析の結果を基に、どの検索方法を実行すべきかを判定する(ステップS53)。ステップS53での判定の結果、全文検索を実行すべき場合、ステップS54に進む。フレーズ検索を実行すべき場合、ステップS55に進む。概念検索を実行すべき場合、ステップS56に進む。
【0021】
ステップS54では全文検索を実行し、ステップS55ではフレーズ検索を実行し、ステップS56では概念検索を実行する。そして、ステップS54、ステップS55、またはステップS56での検索実行によって得られた検索結果を、一致度の高い順に一覧リストにして表示装置4に表示する(ステップS57)。
【0022】
なお、情報検索装置の中央処理装置1は、図5に示すような検索処理を実行するようにしてもよい。
【0023】
図5は、図1に示す情報検索装置の中央処理装置1において実行され得る他の検索処理の手順の概要を示すフローチャートである。
【0024】
すなわち、中央処理装置1は、入力装置3を介して入力されたクエリーを取得し(ステップS61)、取得したクエリーを言語解析する(ステップS62)。このクエリーの言語解析の結果を基に、どの検索方法を実行すべきかを判定する(ステップS63)。ステップS63での判定の結果、全文検索方法を実行すべきか否かを判定する(ステップS64)。全文検索方法を実行すべきと判定された場合、ステップS65に進む。実行すべきでないと判定された場合、ステップS66に進む。ステップS65では全文検索を実行する。
【0025】
次にステップS63での判定の結果、フレーズ検索方法を実行すべきか否かを判定する(ステップS66)。フレーズ検索方法を実行すべきと判定された場合、ステップS67に進む。実行すべきでないと判定された場合、ステップS68に進む。ステップS67ではフレーズ検索を実行する。
【0026】
次にステップS63での判定の結果、概念検索方法を実行すべきか否かを判定する(ステップS68)。概念検索方法を実行すべきと判定された場合、ステップS69に進む。実行すべきでないと判定された場合、ステップS70に進む。ステップS69では概念検索を実行する。
【0027】
そして、ステップS65、ステップS67、またはステップS68での検索実行によって得られた検索結果を、一致度の高い順に一覧リストにして表示装置4に表示する(ステップS70)。
【0028】
図6は、情報検索装置の中央処理装置1において実行される被検索対象の文書等の言語処理及び該処理結果の記憶装置2への格納処理の手順を示すフローチャートである。
【0029】
まず、被検索対象の文章等(登録データ)を言語処理する(ステップS91)。すなわち、単語辞書等を参照しながら形態素解析を行い、必要に応じて構文解析や意味解析等を行う。下記表1は単語辞書の一例を示し、下記表2は、1つの文書に対して形態素解析を行った結果の一例を示す。
【0030】
【表1】
【0031】
【表2】
【0032】
つぎに、ステップS91で言語処理された登録データや解析結果を基に全文検索インデックス情報を作成し、これを記憶装置2のデータベースに格納する(ステップS92)。下記表3は、全文検索インデックス情報の一例を示す。
【0033】
【表3】
【0034】
またステップS91で言語処理された登録データや解析結果を基にフレーズ検索インデックス情報を作成し、これを記憶装置2のデータベースに格納する(ステップS93)。さらに、ステップS91で言語処理された登録データや解析結果を基に概念検索インデックス情報を作成し、これを記憶装置2のデータベースに格納する(ステップS94)。
【0035】
図7は、図6のステップS94で実行される概念検索登録処理の詳細内容を示すフローチャートである。
【0036】
図6のステップS91で言語処理された登録データや解析結果を取得し(ステップS101)、これを基に辞書を検索して、単語毎の次元別の特徴量を得、それらの総和から文書ベクトルを生成する(ステップS102)。この生成された文書ベクトル(概念検索インデックス情報)を登録文書の内容または文書識別子とともに記憶装置2に登録する(ステップS103)。
【0037】
次に、クエリーの言語解析を説明する。
【0038】
図8は、図4のステップS52で実行されるクエリー言語解析の詳細内容を示すフローチャートである。
【0039】
クエリー言語解析ではまず、クエリーに対して形態素解析を行う(ステップS71)。すなわち、クエリーの文字列に対して、単語辞書を参照しながら、形態素解析を行う。そして、必要に応じて、クエリーの文字列に対して構文解析を行い(ステップS72)、係り受けなどの構文情報を作成する。また、クエリーの文字列に対して意味情報などから意味解析を行う(ステップS73)。
【0040】
図9は、図4のステップS54で実行されるフレーズ検索の詳細内容を示すフローチャートである。
【0041】
図4のステップS52でのクエリー言語解析結果(詳しくは図8のステップ71での形態素解析結果)を基に、クエリー単語を取得する(ステップS81)とともに、クエリー単語の構文情報(単語間の関係)を取得する(ステップS82)。次に、ステップS81及びステップS82で取得したクエリー単語及びクエリー単語間の関係と、記憶装置2のデータベースに格納された被検索対象文書の文書単語及び文書単語間の関係とを比較し、それらの類似度を算出する(ステップS83)。
【0042】
図10は、図4のステップS56で実行される概念検索の詳細内容を示すフローチャートである。
【0043】
図4のステップS52でのクエリー言語解析結果(詳しくは図8のステップ71での形態素解析結果)を取得し(ステップS111)、これを基にクエリーベクトルを生成する(ステップS112)。この生成されたクエリーベクトルと、記憶装置2のデータベースに格納された被検索対象文書の文書毎の文書ベクトル(図7のステップS103で格納)とを比較して類似度を算出し、この類似度を検索結果としてリストアップする(ステップS113)。
【0044】
次に、情報検索装置の中央処理装置1において実行される検索処理を、クエリーの入力例を用いて具体的に説明する。
【0045】
例えば、図11に示すように、入力装置3を介してクエリーとして文字列「川崎」が入力されたとする。図11は、入力装置3よりクエリーとして入力された文字列の例を表示する表示装置4の画面を示す図である。
【0046】
中央処理装置1は、こうした文字列「川崎」のクエリーを、入力装置3を介して取得し、記憶装置2に格納する(図4のステップS51)。次に記憶装置2から文字列「川崎」を読み出して、文字列「川崎」の言語解析を行う(図4のステップS52、図8のステップS71)。すなわち、記憶装置2に格納された上記表1に例示するような単語辞書を参照して文字列「川崎」を言語解析し、文字列「川崎」は1つの単語「川崎」から構成されることを認識する。
【0047】
クエリーの単語数が1つである場合、図4のステップS53では、全文検索を実行すべきと判定する。図4のステップS54での全文検索では、記憶装置2に格納された文書または画像のアノテーション等の情報を基にする全文検索インデックス情報(例えば上記表3)を参照して、単語「川崎」と一致する単語を持つ文書を検索する。その結果得られた単語「川崎」を持つ文書を、一致度の高い順に並べた検索結果リストにまとめ、表示装置4に表示するとともに、記憶装置2に格納する(図4のステップS57)。図12は、表示装置4に表示された単語「川崎」を持つ文書の一覧表を示す図である。
【0048】
別の検索例として、入力装置3よりクエリーとして文字列「画像を印刷する」が入力されたとする。この場合、文字列「画像を印刷する」の言語解析(図4のステップS52、図8のステップS71)の結果、文字列「画像を印刷する」は3つの単語「画像」「を」「印刷する」から構成されることが認識される。
【0049】
このようにクエリーの単語数が複数である場合、図4のステップS53では、フレーズ検索を実行すべきと判定する。図4のステップS55でのフレーズ検索では、図9に詳しく示すように、「画像」「を」「印刷する」を取得する(ステップS81)。そして「画像」が「印刷する」に係っているという構文情報(単語間の関係)を取得する(ステップS82)。次に、単語と単語との間の関係が類似している度合いを算出する(ステップS83)。これを、図13を参照して説明する。
【0050】
図13は、クエリーの文字列「画像を印刷する。」と、文書辞書内の文書1「画像を高速に印刷する。」と、文書2「画像を読み込む。文書を印刷する。」とを示す図である。
【0051】
文書1,2にはそれぞれ、単語「画像」「を」「印刷する」が含まれる。文書1では「画像」が「印刷する」に係っているとともに、「高速」が「印刷する」に係っている。「画像」が「印刷する」に係っているので、文書1のクエリー文字列との類似度=1−単語による減点(0)−関係による減点(単語間距離1単語なので0.1)=0.9となる。一方、文書2では、「画像」が「読み込む」に係っているとともに、「文書」が「印刷する」に係っている。「画像」が「印刷する」に係っていないので、文書2のクエリー文字列との類似度=1−単語による減点(0)−関係による減点(係り先が違う0.5)=0.5となる。
【0052】
次に、図4のステップS56での概念検索の詳細を説明するに先立って、図6のステップS94で実行される概念検索登録(詳しくは図7に図示)を、下記の表4と表5に示す例を用いて説明する。表4は基本ベクトル辞書の一例を示し、表5は文書ベクトルインデックスの一例を示す。
【0053】
【表4】
【0054】
【表5】
【0055】
概念検索登録ではまず、被検索対象の文書に対して行われた言語解析によって得られた単語群が取得される(図7のステップS101)。この取得された単語群に基づいて、基本ベクトル辞書を参照して文書ベクトルが生成される(ステップS102)。すなわち、基本ベクトル辞書では、上記表4に例示するように、各単語を、次元(Dim.)ごとの特徴量によってベクトル表現したものである。次元は、単語本来の意味によって分類された基準や、単語の使用分野に応じて分類された基準等であり、特徴量は、対応の単語が文書において使用されたとき、その文書が対応の次元(=分類基準)によって特徴付けられる度合いを示す値である。上記表4に示す例では、単語1における次元Dim.01の特徴量は0であり、次元Dim.02の特徴量は23である。
【0056】
こうした基本ベクトル辞書を参照して、図7のステップS101で取得された単語群の各々における次元(Dim.)ごとの特徴量を読み出す。これらの得られた次元(Dim.)ごとの特徴量を、上記単語群にわたって次元(Dim.)ごとに合計してベクトルとする。そしてこのベクトルをノルム=1で正規化した値を文書ベクトルインデックスとして記憶装置2に格納する(図7のステップS103)。上記表5は、こうした文書ベクトルインデックスを例示する。すなわち例えば、文書ID=6947の文書においては、次元Dim.01で特徴量が0.183であり、次元Dim.02で特徴量が0.214である文書ベクトルが示される。
【0057】
次に、図4のステップS56での概念検索の詳細を説明する。
【0058】
図10に示すように、クエリーに含まれる単語を取得する(ステップS111)。つぎに、図6のステップS94で実行される概念検索登録(詳しくは図7に図示)と同様に、基本ベクトル辞書を参照してクエリーのベクトルを生成する(ステップS112)。そして、生成されたクエリーのベクトルと、記憶装置2に格納された文書ベクトルインデックスにおける各文書の文書ベクトルとの間で類似度をそれぞれ算出する(ステップS113)。
【0059】
次に、図5に示す検索処理に基づく検索例を説明する。図5に示す検索処理では、所定の判定条件に応じて、1つのクエリーに対して複数の検索方法が実行され得るものであり、所定の判定条件は、例えば、クエリーに未知語(単語辞書に存在しない単語)が含まれれば全文検索を実行し、クエリーに含まれる未知語以外の自立語の個数が2個以上8個以下ならばフレーズ検索を実行し、クエリーに含まれる自立語の個数が3個以上ならば概念検索を実行すると設定する。
【0060】
例えば、図14に示すように、入力装置3を介してクエリーとして文字列「日本の経済における金利の影響について」が入力されたとする。図14は、入力装置3よりクエリーとして入力された文字列の例を表示する表示装置4の画面を示す図である。
【0061】
中央処理装置1は、こうした文字列「日本の経済における金利の影響について」のクエリーを、入力装置3を介して取得し、記憶装置2に格納する(図5のステップS61)。次に記憶装置2から文字列「日本の経済における金利の影響について」を読み出して、文字列「日本の経済における金利の影響について」の言語解析を行い(図5のステップS62)、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。ここで、自立語の個数は4個、未知語なしと認識し、上記の所定の判定条件によれば、フレーズ検索及び概念検索を実行すべきと判定する(図5のステップS63)。したがって、図5のステップS64では全文検索ステップS65をスキップし、次のステップS66ではステップS67へ進んでフレーズ検索を実行する。そして、次のステップS68でもステップS69へ進んで概念検索を実行する。
【0062】
かくしてステップS70では、フレーズ検索ステップS67及び概念検索ステップS69の処理結果をマージして、類似度の高い順に並べた検索結果リストを表示装置4に表示するとともに、記憶装置2に格納する。図15は、表示装置4に表示された上記検索結果リストを示す図である。
【0063】
次に、図14に示すクエリーとは異なったクエリーを対象にした、図5に示す検索処理に基づく検索例を説明する。
【0064】
例えば、図16に示すように、入力装置3を介してクエリーとして文字列「ジュビロのハジェヴスキーについて」が入力されたとする。図16は、入力装置3よりクエリーとして入力された文字列の例を表示する表示装置4の画面を示す図である。
【0065】
中央処理装置1は、こうした文字列「ジュビロのハジェヴスキーについて」の言語解析を行い(図5のステップS62)、クエリー単語として「ジュビロ」「の」「ハジェヴスキー」「について」を得る。ここで、未知語(自立語)の個数2、未知語以外の自立語なしと認識し、上記の所定の判定条件によれば、全文検索のみを実行すべきと判定する(図5のステップS63)。したがって、図5のステップS64ではステップS65へ進んで全文検索を実行し、次のステップS66ではフレーズ検索ステップS67をスキップし、またステップS68でも概念検索ステップS69をスキップする。
【0066】
かくしてステップS70では、全文検索ステップS65の処理結果を基に、類似度の高い順に並べた検索結果リストを表示装置4に表示するとともに、記憶装置2に格納する。
【0067】
上記の所定の判定条件では、クエリー内の未知語の有無および自立語の個数に応じて、検索方法を選択するようにしているが、これに代わって、下記のような要素に応じて検索方法を選択するようにしてもよい。
【0068】
すなわち、クエリーの文字数、バイト数、単語数、単語頻度の累計、最大頻度単語、最小頻度単語、単語長、単語長の累計、最大単語長、最小単語長、自立語頻度、自立語頻度の累計、最大頻度自立語、最小頻度自立語、最大自立語長、最小自立語長、付属語の有無、付属語数、未知語数、形態素解析処理のエラーの有無、構文解析処理のエラーの有無、意味解析処理のエラーの有無など。
【0069】
さらにまた、外部から要求される検索精度(または検査速度)に応じて、検索方法を選択するようにしてもよい。これを以下に具体的に説明する。
【0070】
例えば、所定の判定条件を、検索精度の優先度が0.3以下ならば全文検索を実行し、検索精度の優先度が0.75以上ならばフレーズ検索を実行し、検索精度の優先度が0.5以上ならば概念検索を実行すると設定する。
【0071】
ここで、図17に示すように、入力装置3を介してクエリーとして文字列「ジュビロのハジェヴスキーについて」が入力されるとともに、検索精度の優先度を0.3(検索速度の優先度0.7)に設定されたとする。図17は、入力装置3を介して入力された文字列および検索精度の優先度(検索速度の優先度)の例を表示する表示装置4の画面を示す図である。
【0072】
中央処理装置1は、文字列「ジュビロのハジェヴスキーについて」の言語解析を行い(図5のステップS62)、クエリー単語として「ジュビロ」「の」「ハジェヴスキー」「について」を得る。ここで、検索精度の優先度は0.3であるので、上記の所定の判定条件によれば、全文検索のみを実行すべきと判定する(図5のステップS63)。したがって、図5のステップS64ではステップS65へ進んで全文検索を実行し、次のステップS66ではフレーズ検索ステップS67をスキップし、またステップS68でも概念検索ステップS69をスキップする。
【0073】
かくしてステップS70では、全文検索ステップS65の処理結果を基に、類似度の高い順に並べた検索結果リストを表示装置4に表示するとともに、記憶装置2に格納する。
【0074】
なお、検索精度の優先度は検索時以外にも、図18に示すように、検索処理プログラムのインストール時やユーティリティで設定するようにしてもよい。また図19に示すように、ユーザ単位やグループ単位に検索精度の優先度を設定するようにしてもよい。また図20に示すように、検索処理プログラムのインストール時やユーティリティによって設定されたクライアントコンピュータの最大接続数を基にして検索精度の優先度を算出するようにしてもよい。
【0075】
[第2の実施の形態]
次に第2の実施の形態を説明する。
【0076】
第2の実施の形態の構成は、基本的に第1の実施の形態の構成と同じであるので、第2の実施の形態の説明においては、第1の実施の形態の構成を流用し、異なる構成部分だけを説明する。
【0077】
第2の実施の形態では、第1の実施の形態における図5に示す検索処理と類似した、1つのクエリーに対して複数の検索方法が実行され得る検索処理を行うが、第2の実施の形態では、図5に示すステップS63とは異なる処理を実行し、外部から指定された検索方法に従い、検索処理を実行する。
【0078】
図21は、情報検索装置の中央処理装置1において実行される第2の実施の形態における検索処理の手順の概要を示すフローチャートである。
【0079】
ここで例えば、図22に示すように、入力装置3を介してクエリーとして文字列「日本の経済における金利の影響について」が入力されるとともに、全文検索を行うように指示されたとする。図22は、入力装置3を介して入力された文字列および検索方法の指定の例を表示する表示装置4の画面を示す図である。
【0080】
図21において、中央処理装置1は、入力装置3を介して入力されたクエリーを取得し(ステップS201)、取得したクエリーを言語解析する(ステップS202)。このクエリーの言語解析の結果、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。次に、指定された検索方法を認識する(ステップS203)。ここでは全文検索が指定されているので、ステップS204ではステップS205へ進んで全文検索を実行し、次のステップS206ではフレーズ検索ステップS207をスキップし、またステップS208でも概念検索ステップS209をスキップする。
【0081】
かくしてステップS210では、全文検索ステップS205の処理結果を基に、類似度の高い順に並べた検索結果リスト(例えば図15に示すリストと同一内容のリスト)を表示装置4に表示するとともに、記憶装置2に格納する。
【0082】
以上のように、第2の実施の形態では、外部から指定された検索方法にしたがって、検索処理を行うことができる。
【0083】
[第3の実施の形態]
次に第3の実施の形態を説明する。
【0084】
第3の実施の形態の構成は、基本的に第2の実施の形態の構成と同じであるので、第3の実施の形態の説明においては、第2の実施の形態の構成を流用し、異なる構成部分だけを説明する。
【0085】
第3の実施の形態では、情報検索装置を構成するハードウェア(例えば中央処理装置1)の性能がアップグレードされたりして、情報検索装置の処理能力が向上したときに、図21に示す第2の実施の形態の検索処理と同一の検索処理におけるステップS203において、アップグレード後の処理性能に合わせた検索方法の選択を行うようにしたものである。
【0086】
図23は、情報検索装置の中央処理装置1において実行される第3の実施形態における自己診断処理の手順を示すフローチャートである。
【0087】
情報検索装置のハードウェア処理能力が向上したときに、スケジューラやクライアント監視処理などによってこの自己診断処理が起動される。
【0088】
まず情報検索装置にクライアントコンピュータが接続されているか否かを判定する(ステップS241)。クライアントコンピュータが接続されている場合、情報検索装置は自己診断を行わない。クライアントコンピュータが接続されていない場合、記憶装置3から標準クエリーを取得する(ステップS242)。この標準クエリーは、自己診断を行う場合に用いる、予め設定された基準となる文字列からなるクエリーであり、記憶装置3に格納される。この取得した標準クエリーを使用して、記憶装置3に格納されたデータベース1の全文検索を行う(ステップS243)。このデータベース1には、下記表6に示すように10000件の文書が格納されているものとする。
【0089】
【表6】
【0090】
ステップS243での検索にかかった時間を取得する(ステップS244)。ここでは例えば0.004秒を取得したとする。一方、情報検索装置のハードウェア処理能力が向上する前に、同一の10000件の文書を標準クエリーによって全文検索したとき(自己診断)の検索時間が、上記表6によれば0.008秒であったと認識される。したがって、情報検索装置のハードウェア処理能力の向上後には所要検索時間が減少していることが分かるので、所要検索時間がより多く必要となる検索方法を選択する(ステップS245)。具体的には例えば、全文検索のみの実行から、すべての検索方法の実行に変更する。ここで決定された検索方法を図21に示す第2の実施の形態の検索処理と同一の検索処理に適用する。
【0091】
すなわち、第3の実施の形態で流用する図21に示す検索処理の手順において、入力装置3を介してクエリーとして文字列「日本の経済における金利の影響について」が入力されたとする。中央処理装置1は、入力装置3を介して入力されたクエリーを取得し(ステップS201)、取得したクエリーを言語解析する(ステップS202)。このクエリーの言語解析の結果、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。次に、指定された検索方法を認識する(ステップS203)。ここでは前述のように、すべての検索方法の実行が指定されているので、ステップS204ではステップS205へ進んで全文検索を実行し、次のステップS206ではステップS207へ進んでフレーズ検索を実行し、さらにステップS208ではステップS209へ進んで概念検索を実行する。
【0092】
かくしてステップS210では、全文検索ステップS205、フレーズ検索ステップS207、及び概念検索ステップS209の処理結果を基に、類似度の高い順に並べた検索結果リストを表示装置4に表示するとともに、記憶装置2に格納する。
【0093】
以上のように第3の実施の形態では、情報検索装置のハードウェア処理能力が向上した場合、検索処理プログラムを変更することなく、より高精度な検索方法を実行することが可能になる。
【0094】
[第4の実施の形態]
次に第4の実施の形態を説明する。
【0095】
第4の実施の形態の構成は、基本的に第2の実施の形態の構成と同じであるので、第4の実施の形態の説明においては、第2の実施の形態の構成を流用し、異なる構成部分だけを説明する。
【0096】
第4の実施の形態では、検索方法ごとに検索時間を予測し、予め指定された検索時間内に終了する検索方法を選択して実行するようにする。
【0097】
図24は、情報検索装置の中央処理装置1において実行される第4の実施の形態における検索適用条件学習処理の手順を示すフローチャートである。
【0098】
なおこの処理プログラムの情報検索装置へのインストール時に、自己診断処理によって標準検索時間の測定を予め行い、下記表7に例示するようなデータを得て記憶装置2に格納しておく。
【0099】
【表7】
【0100】
上記表7における標準検索時間は、検索方法(全文検索、フレーズ検索、概念検索の単独及びそれらの組み合わせ)ならびにクエリー単語数ごとに表示される。なお、この測定の対象となる文書数は100,000であり、情報検索装置には1つのクライアントコンピュータが接続されているものとする。
【0101】
図24のステップS251において検索を行う。この検索は、図21に示す第2の実施の形態の検索処理と同一の検索処理のフローチャートに沿って行われる。
【0102】
ここで例えば、図25に示すように、入力装置3を介してクエリーとして文字列「日本の経済における金利の影響について」が入力されるとともに、検索時間として3秒が入力されたとする。図25は、入力装置3を介して入力された文字列および検索時間の指定の例を表示する表示装置4の画面を示す図である。
【0103】
この場合、第4の実施の形態で流用する図21に示す検索処理の手順において、情報検索装置の中央処理装置1は、入力装置3を介して入力されたクエリーを取得し(ステップS201)、取得したクエリーを言語解析する(ステップS202)。このクエリーの言語解析の結果、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。
【0104】
次のステップS201では、上記クエリー単語から、自立語数が4であると認識し、また、入力装置3を介して入力された指定の検索時間(図25)を3秒と認識する。さらに別途、情報検索装置に現在接続されているクライアントコンピュータの数が例えば20、被検索対象の文書数が例えば120,356であると認識する。
【0105】
ここで中央処理装置1は、まず、全文検索、フレーズ検索、概念検索のすべてを実行した場合に必要となる予想検索時間を算出する。すなわち、記憶装置2に格納された表7のデータから、A+B+C、4単語に対応する標準検索時間0.3秒を読み出し、これにクライアントコンピュータ数(20)及び検索対象文書数比(120,356/100,000)を乗算して予想検索時間(7.22秒=0.3*20*120,356/100,000)を算出する。
【0106】
同様の算出方法により、全文検索のみを実行した場合に必要となる予想検索時間は2.41秒(=0.1*20*120,356/100,000)、全文検索と概念検索とを実行した場合に必要となる予想検索時間は2.65秒(=0.11*20*120,356/100,000)、フレーズ検索のみを実行した場合に必要となる予想検索時間は4.57秒(=0.19*20*120,356/100,000)、フレーズ検索と概念検索とを実行した場合に必要となる予想検索時間は4.81秒(=0.2*20*120,356/100,000)となる。
【0107】
中央処理装置1は、これらの予想検索時間のうちで指定の検索時間3秒よりも短い時間となっている全文検索と概念検索とを実行すべき検索方法と判定する。
【0108】
なお、フレーズ検索は自立語が1単語の場合は適用しないというルールにしている。
【0109】
以上の例では、全文検索と概念検索とを実行すべきと判定されたので、ステップS204ではステップS205へ進んで全文検索を実行し、次のステップS206ではステップS207をスキップし、さらにステップS208ではステップS209へ進んで概念検索を実行する。
【0110】
かくしてステップS210では、全文検索ステップS205及び概念検索ステップS209の処理結果を基に、類似度の高い順に並べた検索結果リストを表示装置4に表示するとともに、記憶装置2に格納する。
【0111】
つぎに図24に示す検索適用条件学習処理に戻って、ステップS251での検索にかかった時間を取得する(ステップS252)。この取得された検索時間を基に検索方法適用条件を補正する(ステップS253)。すなわち、表7のA+C、4単語に対応する標準検索時間を補正する。
【0112】
なお、上記の図24に示す検索適用条件学習処理に代わって、図26または図27に示す検索適用条件学習処理を実行するようにしてもよい。
【0113】
図26は、情報検索装置の中央処理装置1において実行される第2の検索適用条件学習処理の手順を示すフローチャートである。
【0114】
検索を行い(ステップS261)、この検索にかかった時間を取得する(ステップS262)。この取得された検索時間が検索時間の最大値よりも大きいか否かを判定する(ステップS263)。最大値以下であればステップS264をスキップして本処理を終了し、最大値よりも大きければステップS264へ進む。ステップS264では、標準クエリーとステップS262で取得した検索時間とを基に、検索方法適用条件を補正する。
【0115】
図27は、情報検索装置の中央処理装置1において実行される第3の検索適用条件学習処理の手順を示すフローチャートである。
【0116】
検索を行い(ステップS271)、このときに情報検索装置に接続されているクライアントコンピュータの数が1つであるか否かを判定する(ステップS272)。この結果、クライアントコンピュータの数が複数であれば本処理を終了し、1つであればステップS273へ進む。ステップS273では、ステップS271での検索にかかった時間を取得し(ステップS273)、この取得された検索時間を基に、検索方法適用条件を補正する(ステップS274)。
【0117】
なおまた、検索方法適用条件は、クライアントコンピュータの接続数のほか、クライアントコンピュータの最大接続数などに応じて補正すべきか否かが決定され得る。
【0118】
さらに、検索方法適用条件は、言語解析結果を利用する条件、ハードウェア処理能力を利用する条件、接続クライアント数を利用する条件の組み合わせにも適用される。
【0119】
また、標準検索時間設定は検索時以外にも、図28に示すように、インストール時やユーティリティで設定するようにしてもよい。また図29に示すように、ユーザ単位やグループ単位に標準検索時間を設定するようにしてもよい。さらに図30に示すように、速度優先の場合のみ検索時間を設定するようにしたり、図31に示すように、該設定をユーザ単位やグループ単位に行うようにしてもよい。
【0120】
[他の実施の形態]
なお、本発明の目的は、前述の各実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPU、MPU等)が記憶媒体に格納されたプログラムコードを読み出して実行することによっても達成される。
【0121】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した各実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0122】
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD−R、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0123】
また、コンピュータが読み出したプログラムコードを実行することにより、上記の各実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。
【0124】
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。
【0125】
以上のように、本発明の各種の実施の形態を示して説明したが、以下に本発明の実施態様の例を列挙する。
【0126】
〔実施態様1〕 文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置において、
検索すべき文字列を受け取る受取手段と、
前記受取手段によって受け取った文字列を言語解析する解析手段と、
前記解析手段による解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択手段と、
前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索手段と、
前記検索手段によって検出された被検索対象情報を表示する表示手段と
を有することを特徴とする情報検索装置。
【0127】
〔実施態様2〕 前記選択手段は、前記解析手段の解析によって得られた単語の数及び該単語の種類のうち少なくとも1つに基づき、前記検索手法の選択を行うことを特徴とする実施態様1に記載の情報検索装置。
【0128】
〔実施態様3〕 前記選択手段は、前記解析手段による解析結果及び要求される検索精度または検索速度に基づき、前記検索手法の選択を行うことを特徴とする実施態様1に記載の情報検索装置。
【0129】
〔実施態様4〕 前記選択手段は、前記解析手段による解析結果及び許容検索時間に基づき、前記検索手法の選択を行うことを特徴とする実施態様1に記載の情報検索装置。
【0130】
〔実施態様5〕 前記選択手段は、前記複数の検索手法によってそれぞれ検索を行った場合に要する各所要時間を予測し、該各所要時間を前記許容検索時間と比較することにより、前記検索手法の選択を行うことを特徴とする実施態様4に記載の情報検索装置。
【0131】
〔実施態様6〕 前記選択手段は、前記解析手段による解析結果及び前記情報検索装置のハードウェア性能に基づき、前記検索手法の選択を行うことを特徴とする実施態様1に記載の情報検索装置。
【0132】
〔実施態様7〕 前記選択手段は、前記情報検索装置のハードウェア更新時に所定の標準検索を実行し、該実行に要した所要時間を、ハードウェア更新前に前記所定の標準検索を実行してかかった所要時間と比較することによって、前記情報検索装置のハードウェア更新後のハードウェア性能を認識し、該認識に基づき前記検索手法の選択を行うことを特徴とする実施態様6に記載の情報検索装置。
【0133】
〔実施態様8〕 前記選択手段は、前記情報検索装置にクライアントコンピュータが接続されていないときに動作することを特徴とする実施態様7に記載の情報検索装置。
【0134】
〔実施態様9〕 前記複数の検索手法は、全文検索、フレーズ検索、及び概念検索のうち少なくとも2つであることを特徴とする実施態様1に記載の情報検索装置。
【0135】
〔実施態様10〕 文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置に適用される情報検索方法において、
検索すべき文字列を受け取る受取ステップと、
前記受取ステップによって受け取った文字列を言語解析する解析ステップと、
前記解析ステップによる解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択ステップと、
前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索ステップと、
前記検索ステップによって検出された被検索対象情報を表示する表示ステップと
を有することを特徴とする情報検索方法。
【0136】
〔実施態様11〕 前記選択ステップは、前記解析ステップによる解析結果及び要求される検索精度または検索速度に基づき、前記検索手法の選択を行うことを特徴とする実施態様10に記載の情報検索方法。
【0137】
〔実施態様12〕 前記選択ステップは、前記解析ステップによる解析結果及び許容検索時間に基づき、前記検索手法の選択を行うことを特徴とする実施態様10に記載の情報検索方法。
【0138】
〔実施態様13〕 前記選択ステップは、前記解析ステップによる解析結果及び前記情報検索装置のハードウェア性能に基づき、前記検索手法の選択を行うことを特徴とする実施態様10に記載の情報検索方法。
【0139】
〔実施態様14〕 文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置に適用される情報検索方法を、コンピュータに実行させるためのプログラムにおいて、
前記情報検索方法が、
検索すべき文字列を受け取る受取ステップと、
前記受取ステップによって受け取った文字列を言語解析する解析ステップと、
前記解析ステップによる解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択ステップと、
前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索ステップと、
前記検索ステップによって検出された被検索対象情報を表示する表示ステップと
を有することを特徴とするプログラム。
【0140】
〔実施態様15〕 前記選択ステップは、前記解析ステップによる解析結果及び要求される検索精度または検索速度に基づき、前記検索手法の選択を行うことを特徴とする実施態様14に記載のプログラム。
【0141】
〔実施態様16〕 前記選択ステップは、前記解析ステップによる解析結果及び許容検索時間に基づき、前記検索手法の選択を行うことを特徴とする実施態様14に記載のプログラム。
【0142】
〔実施態様17〕 前記選択ステップは、前記解析ステップによる解析結果及び前記情報検索装置のハードウェア性能に基づき、前記検索手法の選択を行うことを特徴とする実施態様14に記載のプログラム。
【0143】
〔実施態様18〕 文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置に適用される情報検索方法をプログラムとして記憶した、コンピュータにより読み出し可能な記憶媒体において、
前記情報検索方法が、
検索すべき文字列を受け取る受取ステップと、
前記受取ステップによって受け取った文字列を言語解析する解析ステップと、
前記解析ステップによる解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択ステップと、
前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索ステップと、
前記検索ステップによって検出された被検索対象情報を表示する表示ステップと
を有することを特徴とする記憶媒体。
【0144】
〔実施態様19〕 前記選択ステップは、前記解析ステップによる解析結果及び要求される検索精度または検索速度に基づき、前記検索手法の選択を行うことを特徴とする実施態様18に記載の記憶媒体。
【0145】
〔実施態様20〕 前記選択ステップは、前記解析ステップによる解析結果及び許容検索時間に基づき、前記検索手法の選択を行うことを特徴とする実施態様18に記載の記憶媒体。
【0146】
〔実施態様21〕 前記選択ステップは、前記解析ステップによる解析結果及び前記情報検索装置のハードウェア性能に基づき、前記検索手法の選択を行うことを特徴とする実施態様19に記載の記憶媒体。
【0147】
【発明の効果】
以上詳述したように本発明によれば、文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置において、検索すべき文字列を受け取り言語解析し、この解析結果に少なくとも基づき、複数の検索手法の中から少なくとも1つの検索手法を選択し、該選択された検索手法に従い、複数の被検索対象情報を検索する。
【0148】
これにより、検索手法を指定するモード入力なしに、必要に応じて高速に検索したり、精度の高い検索結果を得たりすることが可能となる。
【図面の簡単な説明】
【図1】本発明に係る情報検索装置の第1の実施の形態の構成を示すブロック図である。
【図2】本発明が適用可能なシステムの構成を示すブロック図である。
【図3】本発明が適用可能なインターネットに接続された端末を示すブロック図である。
【図4】図1に示す情報検索装置の中央処理装置において実行される検索処理の手順の概要を示すフローチャートである。
【図5】図1に示す情報検索装置の中央処理装置において実行され得る他の検索処理の手順の概要を示すフローチャートである。
【図6】情報検索装置の中央処理装置において実行される被検索対象の文書等の言語処理及び該処理結果の記憶装置への格納処理の手順を示すフローチャートである。
【図7】図6のステップS94で実行される概念検索登録処理の詳細内容を示すフローチャートである。
【図8】図4のステップS52で実行されるクエリー言語解析の詳細内容を示すフローチャートである。
【図9】図4のステップS54で実行されるフレーズ検索の詳細内容を示すフローチャートである。
【図10】図4のステップS54で実行されるフレーズ検索の詳細内容を示すフローチャートである。
【図11】入力装置よりクエリーとして入力された文字列の例を表示する表示装置の画面を示す図である。
【図12】表示装置に表示された単語「川崎」を持つ文書の一覧表を示す図である。
【図13】クエリーの文字列「画像を印刷する。」と、文書辞書内の文書「画像を高速に印刷する。」と、文書「画像を読み込む。文書を印刷する。」とを示す図である。
【図14】入力装置よりクエリーとして入力された文字列の例を表示する表示装置の画面を示す図である。
【図15】表示装置に表示された検索結果リストを示す図である。
【図16】入力装置よりクエリーとして入力された文字列の例を表示する表示装置の画面を示す図である。
【図17】入力装置を介して入力された文字列および検索精度の優先度の例を表示する表示装置の画面を示す図である。
【図18】検索精度の優先度を設定するための第1の設定画面を示す図である。
【図19】検索精度の優先度を設定するための第2の設定画面を示す図である。
【図20】検索精度の優先度を設定するための第3の設定画面を示す図である。
【図21】情報検索装置の中央処理装置において実行される第2の実施の形態における検索処理の手順の概要を示すフローチャートである。
【図22】入力装置を介して入力された文字列および検索方法の指定の例を表示する表示装置の画面を示す図である。
【図23】情報検索装置の中央処理装置において実行される第3の実施形態における自己診断処理の手順を示すフローチャートである。
【図24】情報検索装置の中央処理装置において実行される第4の実施の形態における検索適用条件学習処理の手順を示すフローチャートである。
【図25】入力装置を介して入力された文字列および検索時間の指定の例を表示する表示装置の画面を示す図である。
【図26】情報検索装置の中央処理装置において実行される第2の検索適用条件学習処理の手順を示すフローチャートである。
【図27】情報検索装置の中央処理装置において実行される第3の検索適用条件学習処理の手順を示すフローチャートである。
【図28】標準検索時間を設定するための第1の設定画面を示す図である。
【図29】標準検索時間を設定するための第2の設定画面を示す図である。
【図30】標準検索時間を設定するための第3の設定画面を示す図である。
【図31】標準検索時間を設定するための第4の設定画面を示す図である。
【図32】従来の情報検索処理の概略を示すフローチャートである。
【符号の説明】
1 中央処理装置
2 記憶装置
3 入力装置
4 表示装置
5 記憶媒体読取装置
【発明の属する技術分野】
本発明は、情報検索装置に関し、特に、文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置に関する。
【0002】
【従来の技術】
記憶媒体に格納された多量の文書データの中から所望の文書を検索する方法として、従来、単純なキーワード検索(キーワードを指定し、該キーワードと一致する文字を含む文書を検出する)があるが、これだけでは、ユーザの要求を十分に満たすことができない。そのため、キーワード間の関係や構文情報の類似度を用いた検索方法や、文書の内容を特徴付ける文書ベクトルを用いて行う検索方法が考案されている。また、内容を特徴付ける意味、分野、単語そのものを次元とし、その特徴量を値とすることでベクトル表現し、文書ベクトル間の内積等の値を用いて文書間の類似度を求める検索方法も考案されている。ユーザは検索目的や検索状況に応じて、多くの検索方法の中から適切な検索方法を選んで検索を行っている。
【0003】
図32は、従来の情報検索処理の概略を示すフローチャートである。ここでは例として、全文検索とフレーズ検索と概念検索との3種類の検索方法が用意されているとする。
【0004】
入力装置から入力されたクエリー(検索したい文字列)を取得し(ステップS41)、また入力装置から入力された検索モードを取得する(ステップS42)。ここでは、全文検索とフレーズ検索と概念検索とのうちのいずれかのモードが入力装置から指定される。そして、ステップS41で取得したクエリーを解析する(ステップS43)。次に、ステップS42で取得した検索モードに従い、検索方法を決定する(ステップS44)。
【0005】
ステップS44で決定された検索モードが全文検索の場合、ステップS43での解析結果に応じて全文検索により検索を行う(ステップS45)。ステップS44で決定された検索モードがフレーズ検索の場合、ステップS43での解析結果に応じてフレーズ検索により検索を行う(ステップS46)。ステップS44で決定された検索モードが概念検索の場合、ステップS43での解析結果に応じて概念検索により検索を行う(ステップS47)。
【0006】
そして、ステップS45〜S47のいずれかで得られた検索結果を表示装置に表示する(ステップS48)。
【0007】
例えば、ユーザが単語「川崎」をクエリーとして、記憶装置に格納されている文書を、全文検索モードを指定して検索したとする。その場合、単語「川崎」に一致する文書が検出され、検出された各文書名からなる検索結果リストが作成され、表示装置に表示される。この検索結果リストでは、検索順または一致度の大きいものから順に一覧表示が行われる。
【0008】
【発明が解決しようとする課題】
しかしながら、上記の従来の情報検索処理において、上記例のように「川崎」という単語をクエリーとして文書検索を行う場合、ユーザが、全文検索モードで検索を行うことが最適であると判断できる必要があり、そのためにはユーザが、複数の検索モードの検索精度や検索速度について知識や経験を予め持っている必要がある。こうした知識や経験を予め持たずに、全文検索以外の他の検索モードを選択した場合、適切な検索結果が出なかったり、検索時間が多くかかったりする可能性がある。
【0009】
したがって従来、ユーザは各種の検索モードの特徴を理解し、検索対象に合った検索モードを決定しなければならず、そのため、検索効率が悪く、操作性がよくなかった。
【0010】
また、検索精度は、情報検索処理を行うデータ処理ハードウェアのパフォーマンスと無関係であって常時一定であるが、検索速度はハードウェアのパフォーマンスと比例関係にあり、したがって、「検索精度はあまり高くなくてもよいが、速く検索結果をほしい」、「多少時間はかかっても、一回で的確な検索結果をほしい」、「このくらいの時間で検索してほしい」といった個別の要求に応じることはできなかった。また、検索速度一定で、ハードウェアのパフォーマンスに比例して検索精度を向上させるということはできなかった。
【0011】
本発明はこのような問題点に鑑みてなされたものであって、検索モードの入力なしに、必要に応じて高速に検索したり、精度の高い検索結果を得たりすることを可能にする情報検索装置を提供することを目的とする。
【0012】
【課題を解決するための手段】
上記目的を達成するために、本発明によれば、文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置において、検索すべき文字列を受け取る受取手段と、前記受取手段によって受け取った文字列を言語解析する解析手段と、前記解析手段による解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択手段と、前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索手段と、前記検索手段によって検出された被検索対象情報を表示する表示手段とを有することを特徴とする情報検索装置が提供される。
【0013】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して説明する。
【0014】
[第1の実施の形態]
図1は、本発明に係る情報検索装置の第1の実施の形態の構成を示すブロック図である。
【0015】
情報検索装置の主要部は、プログラムに従って各種処理を実行する中央処理装置1、検索対象となる文書やアノテーション付き画像、プログラム、辞書等が格納された記憶装置2、検索したい文字列等を入力したりするためのキーボード、ポインティングデバイス等の入力装置3、情報検索結果等を表示する表示装置4、フロッピー(登録商標)ディスク(FD)、CD−ROM、ROM、磁気テープ等の記録媒体に記憶されたプログラム、データ等を読み取って記憶装置2に記録する記憶媒体読取装置5から構成される。
【0016】
なお本発明は、図2のようなシステムにも適用され得る。図2は、本発明が適用可能なシステムの構成を示すブロック図であり、該システムは、サーバ22,23と、クライアント(コンピュータ)24〜27とがネットワーク21によって接続された構成となっている。
【0017】
また本発明は、図3に示すような、インターネット32に接続され、WEBの検索等を行う端末31にも適用され得る。
【0018】
なおまた、以下の説明においては、検索方法として全文検索、フレーズ検索、概念検索の3つの検索方法を例に挙げて説明するが、これに限られるものではなく、複数の互いに異なる検索方法を対象にして本発明は実施可能である。
【0019】
図4は、図1に示す情報検索装置の中央処理装置1において実行される検索処理の手順の概要を示すフローチャートである。
【0020】
すなわち、中央処理装置1は、入力装置3を介して入力されたクエリー(検索対象の文字列)を取得し(ステップS51)、取得したクエリーを言語解析する(ステップS52)。このクエリーの言語解析の結果を基に、どの検索方法を実行すべきかを判定する(ステップS53)。ステップS53での判定の結果、全文検索を実行すべき場合、ステップS54に進む。フレーズ検索を実行すべき場合、ステップS55に進む。概念検索を実行すべき場合、ステップS56に進む。
【0021】
ステップS54では全文検索を実行し、ステップS55ではフレーズ検索を実行し、ステップS56では概念検索を実行する。そして、ステップS54、ステップS55、またはステップS56での検索実行によって得られた検索結果を、一致度の高い順に一覧リストにして表示装置4に表示する(ステップS57)。
【0022】
なお、情報検索装置の中央処理装置1は、図5に示すような検索処理を実行するようにしてもよい。
【0023】
図5は、図1に示す情報検索装置の中央処理装置1において実行され得る他の検索処理の手順の概要を示すフローチャートである。
【0024】
すなわち、中央処理装置1は、入力装置3を介して入力されたクエリーを取得し(ステップS61)、取得したクエリーを言語解析する(ステップS62)。このクエリーの言語解析の結果を基に、どの検索方法を実行すべきかを判定する(ステップS63)。ステップS63での判定の結果、全文検索方法を実行すべきか否かを判定する(ステップS64)。全文検索方法を実行すべきと判定された場合、ステップS65に進む。実行すべきでないと判定された場合、ステップS66に進む。ステップS65では全文検索を実行する。
【0025】
次にステップS63での判定の結果、フレーズ検索方法を実行すべきか否かを判定する(ステップS66)。フレーズ検索方法を実行すべきと判定された場合、ステップS67に進む。実行すべきでないと判定された場合、ステップS68に進む。ステップS67ではフレーズ検索を実行する。
【0026】
次にステップS63での判定の結果、概念検索方法を実行すべきか否かを判定する(ステップS68)。概念検索方法を実行すべきと判定された場合、ステップS69に進む。実行すべきでないと判定された場合、ステップS70に進む。ステップS69では概念検索を実行する。
【0027】
そして、ステップS65、ステップS67、またはステップS68での検索実行によって得られた検索結果を、一致度の高い順に一覧リストにして表示装置4に表示する(ステップS70)。
【0028】
図6は、情報検索装置の中央処理装置1において実行される被検索対象の文書等の言語処理及び該処理結果の記憶装置2への格納処理の手順を示すフローチャートである。
【0029】
まず、被検索対象の文章等(登録データ)を言語処理する(ステップS91)。すなわち、単語辞書等を参照しながら形態素解析を行い、必要に応じて構文解析や意味解析等を行う。下記表1は単語辞書の一例を示し、下記表2は、1つの文書に対して形態素解析を行った結果の一例を示す。
【0030】
【表1】
【0031】
【表2】
【0032】
つぎに、ステップS91で言語処理された登録データや解析結果を基に全文検索インデックス情報を作成し、これを記憶装置2のデータベースに格納する(ステップS92)。下記表3は、全文検索インデックス情報の一例を示す。
【0033】
【表3】
【0034】
またステップS91で言語処理された登録データや解析結果を基にフレーズ検索インデックス情報を作成し、これを記憶装置2のデータベースに格納する(ステップS93)。さらに、ステップS91で言語処理された登録データや解析結果を基に概念検索インデックス情報を作成し、これを記憶装置2のデータベースに格納する(ステップS94)。
【0035】
図7は、図6のステップS94で実行される概念検索登録処理の詳細内容を示すフローチャートである。
【0036】
図6のステップS91で言語処理された登録データや解析結果を取得し(ステップS101)、これを基に辞書を検索して、単語毎の次元別の特徴量を得、それらの総和から文書ベクトルを生成する(ステップS102)。この生成された文書ベクトル(概念検索インデックス情報)を登録文書の内容または文書識別子とともに記憶装置2に登録する(ステップS103)。
【0037】
次に、クエリーの言語解析を説明する。
【0038】
図8は、図4のステップS52で実行されるクエリー言語解析の詳細内容を示すフローチャートである。
【0039】
クエリー言語解析ではまず、クエリーに対して形態素解析を行う(ステップS71)。すなわち、クエリーの文字列に対して、単語辞書を参照しながら、形態素解析を行う。そして、必要に応じて、クエリーの文字列に対して構文解析を行い(ステップS72)、係り受けなどの構文情報を作成する。また、クエリーの文字列に対して意味情報などから意味解析を行う(ステップS73)。
【0040】
図9は、図4のステップS54で実行されるフレーズ検索の詳細内容を示すフローチャートである。
【0041】
図4のステップS52でのクエリー言語解析結果(詳しくは図8のステップ71での形態素解析結果)を基に、クエリー単語を取得する(ステップS81)とともに、クエリー単語の構文情報(単語間の関係)を取得する(ステップS82)。次に、ステップS81及びステップS82で取得したクエリー単語及びクエリー単語間の関係と、記憶装置2のデータベースに格納された被検索対象文書の文書単語及び文書単語間の関係とを比較し、それらの類似度を算出する(ステップS83)。
【0042】
図10は、図4のステップS56で実行される概念検索の詳細内容を示すフローチャートである。
【0043】
図4のステップS52でのクエリー言語解析結果(詳しくは図8のステップ71での形態素解析結果)を取得し(ステップS111)、これを基にクエリーベクトルを生成する(ステップS112)。この生成されたクエリーベクトルと、記憶装置2のデータベースに格納された被検索対象文書の文書毎の文書ベクトル(図7のステップS103で格納)とを比較して類似度を算出し、この類似度を検索結果としてリストアップする(ステップS113)。
【0044】
次に、情報検索装置の中央処理装置1において実行される検索処理を、クエリーの入力例を用いて具体的に説明する。
【0045】
例えば、図11に示すように、入力装置3を介してクエリーとして文字列「川崎」が入力されたとする。図11は、入力装置3よりクエリーとして入力された文字列の例を表示する表示装置4の画面を示す図である。
【0046】
中央処理装置1は、こうした文字列「川崎」のクエリーを、入力装置3を介して取得し、記憶装置2に格納する(図4のステップS51)。次に記憶装置2から文字列「川崎」を読み出して、文字列「川崎」の言語解析を行う(図4のステップS52、図8のステップS71)。すなわち、記憶装置2に格納された上記表1に例示するような単語辞書を参照して文字列「川崎」を言語解析し、文字列「川崎」は1つの単語「川崎」から構成されることを認識する。
【0047】
クエリーの単語数が1つである場合、図4のステップS53では、全文検索を実行すべきと判定する。図4のステップS54での全文検索では、記憶装置2に格納された文書または画像のアノテーション等の情報を基にする全文検索インデックス情報(例えば上記表3)を参照して、単語「川崎」と一致する単語を持つ文書を検索する。その結果得られた単語「川崎」を持つ文書を、一致度の高い順に並べた検索結果リストにまとめ、表示装置4に表示するとともに、記憶装置2に格納する(図4のステップS57)。図12は、表示装置4に表示された単語「川崎」を持つ文書の一覧表を示す図である。
【0048】
別の検索例として、入力装置3よりクエリーとして文字列「画像を印刷する」が入力されたとする。この場合、文字列「画像を印刷する」の言語解析(図4のステップS52、図8のステップS71)の結果、文字列「画像を印刷する」は3つの単語「画像」「を」「印刷する」から構成されることが認識される。
【0049】
このようにクエリーの単語数が複数である場合、図4のステップS53では、フレーズ検索を実行すべきと判定する。図4のステップS55でのフレーズ検索では、図9に詳しく示すように、「画像」「を」「印刷する」を取得する(ステップS81)。そして「画像」が「印刷する」に係っているという構文情報(単語間の関係)を取得する(ステップS82)。次に、単語と単語との間の関係が類似している度合いを算出する(ステップS83)。これを、図13を参照して説明する。
【0050】
図13は、クエリーの文字列「画像を印刷する。」と、文書辞書内の文書1「画像を高速に印刷する。」と、文書2「画像を読み込む。文書を印刷する。」とを示す図である。
【0051】
文書1,2にはそれぞれ、単語「画像」「を」「印刷する」が含まれる。文書1では「画像」が「印刷する」に係っているとともに、「高速」が「印刷する」に係っている。「画像」が「印刷する」に係っているので、文書1のクエリー文字列との類似度=1−単語による減点(0)−関係による減点(単語間距離1単語なので0.1)=0.9となる。一方、文書2では、「画像」が「読み込む」に係っているとともに、「文書」が「印刷する」に係っている。「画像」が「印刷する」に係っていないので、文書2のクエリー文字列との類似度=1−単語による減点(0)−関係による減点(係り先が違う0.5)=0.5となる。
【0052】
次に、図4のステップS56での概念検索の詳細を説明するに先立って、図6のステップS94で実行される概念検索登録(詳しくは図7に図示)を、下記の表4と表5に示す例を用いて説明する。表4は基本ベクトル辞書の一例を示し、表5は文書ベクトルインデックスの一例を示す。
【0053】
【表4】
【0054】
【表5】
【0055】
概念検索登録ではまず、被検索対象の文書に対して行われた言語解析によって得られた単語群が取得される(図7のステップS101)。この取得された単語群に基づいて、基本ベクトル辞書を参照して文書ベクトルが生成される(ステップS102)。すなわち、基本ベクトル辞書では、上記表4に例示するように、各単語を、次元(Dim.)ごとの特徴量によってベクトル表現したものである。次元は、単語本来の意味によって分類された基準や、単語の使用分野に応じて分類された基準等であり、特徴量は、対応の単語が文書において使用されたとき、その文書が対応の次元(=分類基準)によって特徴付けられる度合いを示す値である。上記表4に示す例では、単語1における次元Dim.01の特徴量は0であり、次元Dim.02の特徴量は23である。
【0056】
こうした基本ベクトル辞書を参照して、図7のステップS101で取得された単語群の各々における次元(Dim.)ごとの特徴量を読み出す。これらの得られた次元(Dim.)ごとの特徴量を、上記単語群にわたって次元(Dim.)ごとに合計してベクトルとする。そしてこのベクトルをノルム=1で正規化した値を文書ベクトルインデックスとして記憶装置2に格納する(図7のステップS103)。上記表5は、こうした文書ベクトルインデックスを例示する。すなわち例えば、文書ID=6947の文書においては、次元Dim.01で特徴量が0.183であり、次元Dim.02で特徴量が0.214である文書ベクトルが示される。
【0057】
次に、図4のステップS56での概念検索の詳細を説明する。
【0058】
図10に示すように、クエリーに含まれる単語を取得する(ステップS111)。つぎに、図6のステップS94で実行される概念検索登録(詳しくは図7に図示)と同様に、基本ベクトル辞書を参照してクエリーのベクトルを生成する(ステップS112)。そして、生成されたクエリーのベクトルと、記憶装置2に格納された文書ベクトルインデックスにおける各文書の文書ベクトルとの間で類似度をそれぞれ算出する(ステップS113)。
【0059】
次に、図5に示す検索処理に基づく検索例を説明する。図5に示す検索処理では、所定の判定条件に応じて、1つのクエリーに対して複数の検索方法が実行され得るものであり、所定の判定条件は、例えば、クエリーに未知語(単語辞書に存在しない単語)が含まれれば全文検索を実行し、クエリーに含まれる未知語以外の自立語の個数が2個以上8個以下ならばフレーズ検索を実行し、クエリーに含まれる自立語の個数が3個以上ならば概念検索を実行すると設定する。
【0060】
例えば、図14に示すように、入力装置3を介してクエリーとして文字列「日本の経済における金利の影響について」が入力されたとする。図14は、入力装置3よりクエリーとして入力された文字列の例を表示する表示装置4の画面を示す図である。
【0061】
中央処理装置1は、こうした文字列「日本の経済における金利の影響について」のクエリーを、入力装置3を介して取得し、記憶装置2に格納する(図5のステップS61)。次に記憶装置2から文字列「日本の経済における金利の影響について」を読み出して、文字列「日本の経済における金利の影響について」の言語解析を行い(図5のステップS62)、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。ここで、自立語の個数は4個、未知語なしと認識し、上記の所定の判定条件によれば、フレーズ検索及び概念検索を実行すべきと判定する(図5のステップS63)。したがって、図5のステップS64では全文検索ステップS65をスキップし、次のステップS66ではステップS67へ進んでフレーズ検索を実行する。そして、次のステップS68でもステップS69へ進んで概念検索を実行する。
【0062】
かくしてステップS70では、フレーズ検索ステップS67及び概念検索ステップS69の処理結果をマージして、類似度の高い順に並べた検索結果リストを表示装置4に表示するとともに、記憶装置2に格納する。図15は、表示装置4に表示された上記検索結果リストを示す図である。
【0063】
次に、図14に示すクエリーとは異なったクエリーを対象にした、図5に示す検索処理に基づく検索例を説明する。
【0064】
例えば、図16に示すように、入力装置3を介してクエリーとして文字列「ジュビロのハジェヴスキーについて」が入力されたとする。図16は、入力装置3よりクエリーとして入力された文字列の例を表示する表示装置4の画面を示す図である。
【0065】
中央処理装置1は、こうした文字列「ジュビロのハジェヴスキーについて」の言語解析を行い(図5のステップS62)、クエリー単語として「ジュビロ」「の」「ハジェヴスキー」「について」を得る。ここで、未知語(自立語)の個数2、未知語以外の自立語なしと認識し、上記の所定の判定条件によれば、全文検索のみを実行すべきと判定する(図5のステップS63)。したがって、図5のステップS64ではステップS65へ進んで全文検索を実行し、次のステップS66ではフレーズ検索ステップS67をスキップし、またステップS68でも概念検索ステップS69をスキップする。
【0066】
かくしてステップS70では、全文検索ステップS65の処理結果を基に、類似度の高い順に並べた検索結果リストを表示装置4に表示するとともに、記憶装置2に格納する。
【0067】
上記の所定の判定条件では、クエリー内の未知語の有無および自立語の個数に応じて、検索方法を選択するようにしているが、これに代わって、下記のような要素に応じて検索方法を選択するようにしてもよい。
【0068】
すなわち、クエリーの文字数、バイト数、単語数、単語頻度の累計、最大頻度単語、最小頻度単語、単語長、単語長の累計、最大単語長、最小単語長、自立語頻度、自立語頻度の累計、最大頻度自立語、最小頻度自立語、最大自立語長、最小自立語長、付属語の有無、付属語数、未知語数、形態素解析処理のエラーの有無、構文解析処理のエラーの有無、意味解析処理のエラーの有無など。
【0069】
さらにまた、外部から要求される検索精度(または検査速度)に応じて、検索方法を選択するようにしてもよい。これを以下に具体的に説明する。
【0070】
例えば、所定の判定条件を、検索精度の優先度が0.3以下ならば全文検索を実行し、検索精度の優先度が0.75以上ならばフレーズ検索を実行し、検索精度の優先度が0.5以上ならば概念検索を実行すると設定する。
【0071】
ここで、図17に示すように、入力装置3を介してクエリーとして文字列「ジュビロのハジェヴスキーについて」が入力されるとともに、検索精度の優先度を0.3(検索速度の優先度0.7)に設定されたとする。図17は、入力装置3を介して入力された文字列および検索精度の優先度(検索速度の優先度)の例を表示する表示装置4の画面を示す図である。
【0072】
中央処理装置1は、文字列「ジュビロのハジェヴスキーについて」の言語解析を行い(図5のステップS62)、クエリー単語として「ジュビロ」「の」「ハジェヴスキー」「について」を得る。ここで、検索精度の優先度は0.3であるので、上記の所定の判定条件によれば、全文検索のみを実行すべきと判定する(図5のステップS63)。したがって、図5のステップS64ではステップS65へ進んで全文検索を実行し、次のステップS66ではフレーズ検索ステップS67をスキップし、またステップS68でも概念検索ステップS69をスキップする。
【0073】
かくしてステップS70では、全文検索ステップS65の処理結果を基に、類似度の高い順に並べた検索結果リストを表示装置4に表示するとともに、記憶装置2に格納する。
【0074】
なお、検索精度の優先度は検索時以外にも、図18に示すように、検索処理プログラムのインストール時やユーティリティで設定するようにしてもよい。また図19に示すように、ユーザ単位やグループ単位に検索精度の優先度を設定するようにしてもよい。また図20に示すように、検索処理プログラムのインストール時やユーティリティによって設定されたクライアントコンピュータの最大接続数を基にして検索精度の優先度を算出するようにしてもよい。
【0075】
[第2の実施の形態]
次に第2の実施の形態を説明する。
【0076】
第2の実施の形態の構成は、基本的に第1の実施の形態の構成と同じであるので、第2の実施の形態の説明においては、第1の実施の形態の構成を流用し、異なる構成部分だけを説明する。
【0077】
第2の実施の形態では、第1の実施の形態における図5に示す検索処理と類似した、1つのクエリーに対して複数の検索方法が実行され得る検索処理を行うが、第2の実施の形態では、図5に示すステップS63とは異なる処理を実行し、外部から指定された検索方法に従い、検索処理を実行する。
【0078】
図21は、情報検索装置の中央処理装置1において実行される第2の実施の形態における検索処理の手順の概要を示すフローチャートである。
【0079】
ここで例えば、図22に示すように、入力装置3を介してクエリーとして文字列「日本の経済における金利の影響について」が入力されるとともに、全文検索を行うように指示されたとする。図22は、入力装置3を介して入力された文字列および検索方法の指定の例を表示する表示装置4の画面を示す図である。
【0080】
図21において、中央処理装置1は、入力装置3を介して入力されたクエリーを取得し(ステップS201)、取得したクエリーを言語解析する(ステップS202)。このクエリーの言語解析の結果、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。次に、指定された検索方法を認識する(ステップS203)。ここでは全文検索が指定されているので、ステップS204ではステップS205へ進んで全文検索を実行し、次のステップS206ではフレーズ検索ステップS207をスキップし、またステップS208でも概念検索ステップS209をスキップする。
【0081】
かくしてステップS210では、全文検索ステップS205の処理結果を基に、類似度の高い順に並べた検索結果リスト(例えば図15に示すリストと同一内容のリスト)を表示装置4に表示するとともに、記憶装置2に格納する。
【0082】
以上のように、第2の実施の形態では、外部から指定された検索方法にしたがって、検索処理を行うことができる。
【0083】
[第3の実施の形態]
次に第3の実施の形態を説明する。
【0084】
第3の実施の形態の構成は、基本的に第2の実施の形態の構成と同じであるので、第3の実施の形態の説明においては、第2の実施の形態の構成を流用し、異なる構成部分だけを説明する。
【0085】
第3の実施の形態では、情報検索装置を構成するハードウェア(例えば中央処理装置1)の性能がアップグレードされたりして、情報検索装置の処理能力が向上したときに、図21に示す第2の実施の形態の検索処理と同一の検索処理におけるステップS203において、アップグレード後の処理性能に合わせた検索方法の選択を行うようにしたものである。
【0086】
図23は、情報検索装置の中央処理装置1において実行される第3の実施形態における自己診断処理の手順を示すフローチャートである。
【0087】
情報検索装置のハードウェア処理能力が向上したときに、スケジューラやクライアント監視処理などによってこの自己診断処理が起動される。
【0088】
まず情報検索装置にクライアントコンピュータが接続されているか否かを判定する(ステップS241)。クライアントコンピュータが接続されている場合、情報検索装置は自己診断を行わない。クライアントコンピュータが接続されていない場合、記憶装置3から標準クエリーを取得する(ステップS242)。この標準クエリーは、自己診断を行う場合に用いる、予め設定された基準となる文字列からなるクエリーであり、記憶装置3に格納される。この取得した標準クエリーを使用して、記憶装置3に格納されたデータベース1の全文検索を行う(ステップS243)。このデータベース1には、下記表6に示すように10000件の文書が格納されているものとする。
【0089】
【表6】
【0090】
ステップS243での検索にかかった時間を取得する(ステップS244)。ここでは例えば0.004秒を取得したとする。一方、情報検索装置のハードウェア処理能力が向上する前に、同一の10000件の文書を標準クエリーによって全文検索したとき(自己診断)の検索時間が、上記表6によれば0.008秒であったと認識される。したがって、情報検索装置のハードウェア処理能力の向上後には所要検索時間が減少していることが分かるので、所要検索時間がより多く必要となる検索方法を選択する(ステップS245)。具体的には例えば、全文検索のみの実行から、すべての検索方法の実行に変更する。ここで決定された検索方法を図21に示す第2の実施の形態の検索処理と同一の検索処理に適用する。
【0091】
すなわち、第3の実施の形態で流用する図21に示す検索処理の手順において、入力装置3を介してクエリーとして文字列「日本の経済における金利の影響について」が入力されたとする。中央処理装置1は、入力装置3を介して入力されたクエリーを取得し(ステップS201)、取得したクエリーを言語解析する(ステップS202)。このクエリーの言語解析の結果、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。次に、指定された検索方法を認識する(ステップS203)。ここでは前述のように、すべての検索方法の実行が指定されているので、ステップS204ではステップS205へ進んで全文検索を実行し、次のステップS206ではステップS207へ進んでフレーズ検索を実行し、さらにステップS208ではステップS209へ進んで概念検索を実行する。
【0092】
かくしてステップS210では、全文検索ステップS205、フレーズ検索ステップS207、及び概念検索ステップS209の処理結果を基に、類似度の高い順に並べた検索結果リストを表示装置4に表示するとともに、記憶装置2に格納する。
【0093】
以上のように第3の実施の形態では、情報検索装置のハードウェア処理能力が向上した場合、検索処理プログラムを変更することなく、より高精度な検索方法を実行することが可能になる。
【0094】
[第4の実施の形態]
次に第4の実施の形態を説明する。
【0095】
第4の実施の形態の構成は、基本的に第2の実施の形態の構成と同じであるので、第4の実施の形態の説明においては、第2の実施の形態の構成を流用し、異なる構成部分だけを説明する。
【0096】
第4の実施の形態では、検索方法ごとに検索時間を予測し、予め指定された検索時間内に終了する検索方法を選択して実行するようにする。
【0097】
図24は、情報検索装置の中央処理装置1において実行される第4の実施の形態における検索適用条件学習処理の手順を示すフローチャートである。
【0098】
なおこの処理プログラムの情報検索装置へのインストール時に、自己診断処理によって標準検索時間の測定を予め行い、下記表7に例示するようなデータを得て記憶装置2に格納しておく。
【0099】
【表7】
【0100】
上記表7における標準検索時間は、検索方法(全文検索、フレーズ検索、概念検索の単独及びそれらの組み合わせ)ならびにクエリー単語数ごとに表示される。なお、この測定の対象となる文書数は100,000であり、情報検索装置には1つのクライアントコンピュータが接続されているものとする。
【0101】
図24のステップS251において検索を行う。この検索は、図21に示す第2の実施の形態の検索処理と同一の検索処理のフローチャートに沿って行われる。
【0102】
ここで例えば、図25に示すように、入力装置3を介してクエリーとして文字列「日本の経済における金利の影響について」が入力されるとともに、検索時間として3秒が入力されたとする。図25は、入力装置3を介して入力された文字列および検索時間の指定の例を表示する表示装置4の画面を示す図である。
【0103】
この場合、第4の実施の形態で流用する図21に示す検索処理の手順において、情報検索装置の中央処理装置1は、入力装置3を介して入力されたクエリーを取得し(ステップS201)、取得したクエリーを言語解析する(ステップS202)。このクエリーの言語解析の結果、クエリー単語として「日本」「の」「経済」「における」「金利」「の」「影響」「について」を得る。
【0104】
次のステップS201では、上記クエリー単語から、自立語数が4であると認識し、また、入力装置3を介して入力された指定の検索時間(図25)を3秒と認識する。さらに別途、情報検索装置に現在接続されているクライアントコンピュータの数が例えば20、被検索対象の文書数が例えば120,356であると認識する。
【0105】
ここで中央処理装置1は、まず、全文検索、フレーズ検索、概念検索のすべてを実行した場合に必要となる予想検索時間を算出する。すなわち、記憶装置2に格納された表7のデータから、A+B+C、4単語に対応する標準検索時間0.3秒を読み出し、これにクライアントコンピュータ数(20)及び検索対象文書数比(120,356/100,000)を乗算して予想検索時間(7.22秒=0.3*20*120,356/100,000)を算出する。
【0106】
同様の算出方法により、全文検索のみを実行した場合に必要となる予想検索時間は2.41秒(=0.1*20*120,356/100,000)、全文検索と概念検索とを実行した場合に必要となる予想検索時間は2.65秒(=0.11*20*120,356/100,000)、フレーズ検索のみを実行した場合に必要となる予想検索時間は4.57秒(=0.19*20*120,356/100,000)、フレーズ検索と概念検索とを実行した場合に必要となる予想検索時間は4.81秒(=0.2*20*120,356/100,000)となる。
【0107】
中央処理装置1は、これらの予想検索時間のうちで指定の検索時間3秒よりも短い時間となっている全文検索と概念検索とを実行すべき検索方法と判定する。
【0108】
なお、フレーズ検索は自立語が1単語の場合は適用しないというルールにしている。
【0109】
以上の例では、全文検索と概念検索とを実行すべきと判定されたので、ステップS204ではステップS205へ進んで全文検索を実行し、次のステップS206ではステップS207をスキップし、さらにステップS208ではステップS209へ進んで概念検索を実行する。
【0110】
かくしてステップS210では、全文検索ステップS205及び概念検索ステップS209の処理結果を基に、類似度の高い順に並べた検索結果リストを表示装置4に表示するとともに、記憶装置2に格納する。
【0111】
つぎに図24に示す検索適用条件学習処理に戻って、ステップS251での検索にかかった時間を取得する(ステップS252)。この取得された検索時間を基に検索方法適用条件を補正する(ステップS253)。すなわち、表7のA+C、4単語に対応する標準検索時間を補正する。
【0112】
なお、上記の図24に示す検索適用条件学習処理に代わって、図26または図27に示す検索適用条件学習処理を実行するようにしてもよい。
【0113】
図26は、情報検索装置の中央処理装置1において実行される第2の検索適用条件学習処理の手順を示すフローチャートである。
【0114】
検索を行い(ステップS261)、この検索にかかった時間を取得する(ステップS262)。この取得された検索時間が検索時間の最大値よりも大きいか否かを判定する(ステップS263)。最大値以下であればステップS264をスキップして本処理を終了し、最大値よりも大きければステップS264へ進む。ステップS264では、標準クエリーとステップS262で取得した検索時間とを基に、検索方法適用条件を補正する。
【0115】
図27は、情報検索装置の中央処理装置1において実行される第3の検索適用条件学習処理の手順を示すフローチャートである。
【0116】
検索を行い(ステップS271)、このときに情報検索装置に接続されているクライアントコンピュータの数が1つであるか否かを判定する(ステップS272)。この結果、クライアントコンピュータの数が複数であれば本処理を終了し、1つであればステップS273へ進む。ステップS273では、ステップS271での検索にかかった時間を取得し(ステップS273)、この取得された検索時間を基に、検索方法適用条件を補正する(ステップS274)。
【0117】
なおまた、検索方法適用条件は、クライアントコンピュータの接続数のほか、クライアントコンピュータの最大接続数などに応じて補正すべきか否かが決定され得る。
【0118】
さらに、検索方法適用条件は、言語解析結果を利用する条件、ハードウェア処理能力を利用する条件、接続クライアント数を利用する条件の組み合わせにも適用される。
【0119】
また、標準検索時間設定は検索時以外にも、図28に示すように、インストール時やユーティリティで設定するようにしてもよい。また図29に示すように、ユーザ単位やグループ単位に標準検索時間を設定するようにしてもよい。さらに図30に示すように、速度優先の場合のみ検索時間を設定するようにしたり、図31に示すように、該設定をユーザ単位やグループ単位に行うようにしてもよい。
【0120】
[他の実施の形態]
なお、本発明の目的は、前述の各実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムまたは装置に供給し、そのシステムまたは装置のコンピュータ(またはCPU、MPU等)が記憶媒体に格納されたプログラムコードを読み出して実行することによっても達成される。
【0121】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した各実施の形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0122】
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD−R、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0123】
また、コンピュータが読み出したプログラムコードを実行することにより、上記の各実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。
【0124】
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。
【0125】
以上のように、本発明の各種の実施の形態を示して説明したが、以下に本発明の実施態様の例を列挙する。
【0126】
〔実施態様1〕 文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置において、
検索すべき文字列を受け取る受取手段と、
前記受取手段によって受け取った文字列を言語解析する解析手段と、
前記解析手段による解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択手段と、
前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索手段と、
前記検索手段によって検出された被検索対象情報を表示する表示手段と
を有することを特徴とする情報検索装置。
【0127】
〔実施態様2〕 前記選択手段は、前記解析手段の解析によって得られた単語の数及び該単語の種類のうち少なくとも1つに基づき、前記検索手法の選択を行うことを特徴とする実施態様1に記載の情報検索装置。
【0128】
〔実施態様3〕 前記選択手段は、前記解析手段による解析結果及び要求される検索精度または検索速度に基づき、前記検索手法の選択を行うことを特徴とする実施態様1に記載の情報検索装置。
【0129】
〔実施態様4〕 前記選択手段は、前記解析手段による解析結果及び許容検索時間に基づき、前記検索手法の選択を行うことを特徴とする実施態様1に記載の情報検索装置。
【0130】
〔実施態様5〕 前記選択手段は、前記複数の検索手法によってそれぞれ検索を行った場合に要する各所要時間を予測し、該各所要時間を前記許容検索時間と比較することにより、前記検索手法の選択を行うことを特徴とする実施態様4に記載の情報検索装置。
【0131】
〔実施態様6〕 前記選択手段は、前記解析手段による解析結果及び前記情報検索装置のハードウェア性能に基づき、前記検索手法の選択を行うことを特徴とする実施態様1に記載の情報検索装置。
【0132】
〔実施態様7〕 前記選択手段は、前記情報検索装置のハードウェア更新時に所定の標準検索を実行し、該実行に要した所要時間を、ハードウェア更新前に前記所定の標準検索を実行してかかった所要時間と比較することによって、前記情報検索装置のハードウェア更新後のハードウェア性能を認識し、該認識に基づき前記検索手法の選択を行うことを特徴とする実施態様6に記載の情報検索装置。
【0133】
〔実施態様8〕 前記選択手段は、前記情報検索装置にクライアントコンピュータが接続されていないときに動作することを特徴とする実施態様7に記載の情報検索装置。
【0134】
〔実施態様9〕 前記複数の検索手法は、全文検索、フレーズ検索、及び概念検索のうち少なくとも2つであることを特徴とする実施態様1に記載の情報検索装置。
【0135】
〔実施態様10〕 文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置に適用される情報検索方法において、
検索すべき文字列を受け取る受取ステップと、
前記受取ステップによって受け取った文字列を言語解析する解析ステップと、
前記解析ステップによる解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択ステップと、
前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索ステップと、
前記検索ステップによって検出された被検索対象情報を表示する表示ステップと
を有することを特徴とする情報検索方法。
【0136】
〔実施態様11〕 前記選択ステップは、前記解析ステップによる解析結果及び要求される検索精度または検索速度に基づき、前記検索手法の選択を行うことを特徴とする実施態様10に記載の情報検索方法。
【0137】
〔実施態様12〕 前記選択ステップは、前記解析ステップによる解析結果及び許容検索時間に基づき、前記検索手法の選択を行うことを特徴とする実施態様10に記載の情報検索方法。
【0138】
〔実施態様13〕 前記選択ステップは、前記解析ステップによる解析結果及び前記情報検索装置のハードウェア性能に基づき、前記検索手法の選択を行うことを特徴とする実施態様10に記載の情報検索方法。
【0139】
〔実施態様14〕 文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置に適用される情報検索方法を、コンピュータに実行させるためのプログラムにおいて、
前記情報検索方法が、
検索すべき文字列を受け取る受取ステップと、
前記受取ステップによって受け取った文字列を言語解析する解析ステップと、
前記解析ステップによる解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択ステップと、
前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索ステップと、
前記検索ステップによって検出された被検索対象情報を表示する表示ステップと
を有することを特徴とするプログラム。
【0140】
〔実施態様15〕 前記選択ステップは、前記解析ステップによる解析結果及び要求される検索精度または検索速度に基づき、前記検索手法の選択を行うことを特徴とする実施態様14に記載のプログラム。
【0141】
〔実施態様16〕 前記選択ステップは、前記解析ステップによる解析結果及び許容検索時間に基づき、前記検索手法の選択を行うことを特徴とする実施態様14に記載のプログラム。
【0142】
〔実施態様17〕 前記選択ステップは、前記解析ステップによる解析結果及び前記情報検索装置のハードウェア性能に基づき、前記検索手法の選択を行うことを特徴とする実施態様14に記載のプログラム。
【0143】
〔実施態様18〕 文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置に適用される情報検索方法をプログラムとして記憶した、コンピュータにより読み出し可能な記憶媒体において、
前記情報検索方法が、
検索すべき文字列を受け取る受取ステップと、
前記受取ステップによって受け取った文字列を言語解析する解析ステップと、
前記解析ステップによる解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択ステップと、
前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索ステップと、
前記検索ステップによって検出された被検索対象情報を表示する表示ステップと
を有することを特徴とする記憶媒体。
【0144】
〔実施態様19〕 前記選択ステップは、前記解析ステップによる解析結果及び要求される検索精度または検索速度に基づき、前記検索手法の選択を行うことを特徴とする実施態様18に記載の記憶媒体。
【0145】
〔実施態様20〕 前記選択ステップは、前記解析ステップによる解析結果及び許容検索時間に基づき、前記検索手法の選択を行うことを特徴とする実施態様18に記載の記憶媒体。
【0146】
〔実施態様21〕 前記選択ステップは、前記解析ステップによる解析結果及び前記情報検索装置のハードウェア性能に基づき、前記検索手法の選択を行うことを特徴とする実施態様19に記載の記憶媒体。
【0147】
【発明の効果】
以上詳述したように本発明によれば、文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置において、検索すべき文字列を受け取り言語解析し、この解析結果に少なくとも基づき、複数の検索手法の中から少なくとも1つの検索手法を選択し、該選択された検索手法に従い、複数の被検索対象情報を検索する。
【0148】
これにより、検索手法を指定するモード入力なしに、必要に応じて高速に検索したり、精度の高い検索結果を得たりすることが可能となる。
【図面の簡単な説明】
【図1】本発明に係る情報検索装置の第1の実施の形態の構成を示すブロック図である。
【図2】本発明が適用可能なシステムの構成を示すブロック図である。
【図3】本発明が適用可能なインターネットに接続された端末を示すブロック図である。
【図4】図1に示す情報検索装置の中央処理装置において実行される検索処理の手順の概要を示すフローチャートである。
【図5】図1に示す情報検索装置の中央処理装置において実行され得る他の検索処理の手順の概要を示すフローチャートである。
【図6】情報検索装置の中央処理装置において実行される被検索対象の文書等の言語処理及び該処理結果の記憶装置への格納処理の手順を示すフローチャートである。
【図7】図6のステップS94で実行される概念検索登録処理の詳細内容を示すフローチャートである。
【図8】図4のステップS52で実行されるクエリー言語解析の詳細内容を示すフローチャートである。
【図9】図4のステップS54で実行されるフレーズ検索の詳細内容を示すフローチャートである。
【図10】図4のステップS54で実行されるフレーズ検索の詳細内容を示すフローチャートである。
【図11】入力装置よりクエリーとして入力された文字列の例を表示する表示装置の画面を示す図である。
【図12】表示装置に表示された単語「川崎」を持つ文書の一覧表を示す図である。
【図13】クエリーの文字列「画像を印刷する。」と、文書辞書内の文書「画像を高速に印刷する。」と、文書「画像を読み込む。文書を印刷する。」とを示す図である。
【図14】入力装置よりクエリーとして入力された文字列の例を表示する表示装置の画面を示す図である。
【図15】表示装置に表示された検索結果リストを示す図である。
【図16】入力装置よりクエリーとして入力された文字列の例を表示する表示装置の画面を示す図である。
【図17】入力装置を介して入力された文字列および検索精度の優先度の例を表示する表示装置の画面を示す図である。
【図18】検索精度の優先度を設定するための第1の設定画面を示す図である。
【図19】検索精度の優先度を設定するための第2の設定画面を示す図である。
【図20】検索精度の優先度を設定するための第3の設定画面を示す図である。
【図21】情報検索装置の中央処理装置において実行される第2の実施の形態における検索処理の手順の概要を示すフローチャートである。
【図22】入力装置を介して入力された文字列および検索方法の指定の例を表示する表示装置の画面を示す図である。
【図23】情報検索装置の中央処理装置において実行される第3の実施形態における自己診断処理の手順を示すフローチャートである。
【図24】情報検索装置の中央処理装置において実行される第4の実施の形態における検索適用条件学習処理の手順を示すフローチャートである。
【図25】入力装置を介して入力された文字列および検索時間の指定の例を表示する表示装置の画面を示す図である。
【図26】情報検索装置の中央処理装置において実行される第2の検索適用条件学習処理の手順を示すフローチャートである。
【図27】情報検索装置の中央処理装置において実行される第3の検索適用条件学習処理の手順を示すフローチャートである。
【図28】標準検索時間を設定するための第1の設定画面を示す図である。
【図29】標準検索時間を設定するための第2の設定画面を示す図である。
【図30】標準検索時間を設定するための第3の設定画面を示す図である。
【図31】標準検索時間を設定するための第4の設定画面を示す図である。
【図32】従来の情報検索処理の概略を示すフローチャートである。
【符号の説明】
1 中央処理装置
2 記憶装置
3 入力装置
4 表示装置
5 記憶媒体読取装置
Claims (1)
- 文字列をそれぞれが含む複数の被検索対象の情報を保持し、該複数の被検索対象情報を、複数の異なる検索手法により検索することが可能な情報検索装置において、
検索すべき文字列を受け取る受取手段と、
前記受取手段によって受け取った文字列を言語解析する解析手段と、
前記解析手段による解析結果に少なくとも基づき、前記複数の検索手法の中から少なくとも1つの検索手法を選択する選択手段と、
前記選択された検索手法に従い、前記複数の被検索対象情報を検索する検索手段と、
前記検索手段によって検出された被検索対象情報を表示する表示手段と
を有することを特徴とする情報検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003029918A JP2004240769A (ja) | 2003-02-06 | 2003-02-06 | 情報検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003029918A JP2004240769A (ja) | 2003-02-06 | 2003-02-06 | 情報検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004240769A true JP2004240769A (ja) | 2004-08-26 |
Family
ID=32956962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003029918A Pending JP2004240769A (ja) | 2003-02-06 | 2003-02-06 | 情報検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004240769A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008533596A (ja) * | 2005-03-10 | 2008-08-21 | ヤフー! インコーポレイテッド | 検索結果の関連性の再ランク付けおよびその増強 |
US7647303B2 (en) | 2004-09-02 | 2010-01-12 | Canon Kabushiki Kaisha | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program |
JP2010250658A (ja) * | 2009-04-17 | 2010-11-04 | Seiko Epson Corp | 印刷装置、画像処理装置、画像処理方法およびコンピュータープログラム |
US7945552B2 (en) | 2005-12-02 | 2011-05-17 | International Business Machines Corporation | System of effectively searching text for keyword, and method thereof |
-
2003
- 2003-02-06 JP JP2003029918A patent/JP2004240769A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7647303B2 (en) | 2004-09-02 | 2010-01-12 | Canon Kabushiki Kaisha | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program |
JP2008533596A (ja) * | 2005-03-10 | 2008-08-21 | ヤフー! インコーポレイテッド | 検索結果の関連性の再ランク付けおよびその増強 |
KR101157349B1 (ko) | 2005-03-10 | 2012-07-03 | 야후! 인크. | 탐색 결과들의 관련성을 재순위화 및 증가시키기 |
US7945552B2 (en) | 2005-12-02 | 2011-05-17 | International Business Machines Corporation | System of effectively searching text for keyword, and method thereof |
JP2010250658A (ja) * | 2009-04-17 | 2010-11-04 | Seiko Epson Corp | 印刷装置、画像処理装置、画像処理方法およびコンピュータープログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3225912B2 (ja) | 情報検索装置、方法及び記録媒体 | |
US7769771B2 (en) | Searching a document using relevance feedback | |
US9087111B2 (en) | Personalized tag ranking | |
KR100962923B1 (ko) | 텍스트에서 키워드를 효율적으로 검색하는 시스템 및 이의방법 | |
JP7252914B2 (ja) | 検索提案を提供する方法、装置、機器及び媒体 | |
Freire et al. | A metadata geoparsing system for place name recognition and resolution in metadata records | |
CN111046221A (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
JP3577972B2 (ja) | 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 | |
KR101706300B1 (ko) | 기술용어 개념계층도 생성 장치 및 방법 | |
JP2023516209A (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
JPH0744567A (ja) | 文書検索装置 | |
US8533150B2 (en) | Search index generation apparatus | |
JP2006099428A (ja) | 文書要約作成システム、方法、及びプログラム | |
JPWO2003034279A1 (ja) | 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
US8001122B2 (en) | Relating similar terms for information retrieval | |
JPH11110409A (ja) | 情報分類方法及び装置 | |
JP2004240769A (ja) | 情報検索装置 | |
JP4217410B2 (ja) | 情報検索装置及びその制御方法、並びにプログラム | |
JP3856388B2 (ja) | 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2001005830A (ja) | 情報処理装置及びその方法、コンピュータ可読メモリ | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP2003330958A (ja) | 情報検索装置、情報検索方法、プログラムおよび記憶媒体 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
CN109408713A (zh) | 一种基于用户反馈信息的软件需求检索系统 |