JP4223756B2 - Document search method, document search program, and document search system - Google Patents
Document search method, document search program, and document search system Download PDFInfo
- Publication number
- JP4223756B2 JP4223756B2 JP2002213929A JP2002213929A JP4223756B2 JP 4223756 B2 JP4223756 B2 JP 4223756B2 JP 2002213929 A JP2002213929 A JP 2002213929A JP 2002213929 A JP2002213929 A JP 2002213929A JP 4223756 B2 JP4223756 B2 JP 4223756B2
- Authority
- JP
- Japan
- Prior art keywords
- segment
- search
- keyword
- document
- index table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、電子化された多数の文書から、検索条件として所定のキーワードを指定して必要とする文書を検索する文書検索方法、文書検索プログラム及び文書検索方法に関するものである。
【0002】
近年、コンピュータシステムにおける保管文書は、データベースの大型化やネットワーク技術の導入等により増加しており、同システムにおける多数の文書の中から所望の文書を効率よく検索する技術が望まれている。
【0003】
【従来の技術】
文書検索システムは、検索者が指定した検索条件に適合する文書を、任意の範囲から検索し、その所在をリストとして提示するものである。具体的には、例えば、所定のパソコンに保管してある文書の中から所望の文書を検索する、といった検索範囲が比較的狭く、文書の数、及び、文書データの総量が大きくない場合、文書検索システムは、条件が指定される毎にすべての文書データを実際に調べてリストを作成している。しかし、検索範囲がネットワークを介すなどして広範囲に及ぶ場合は、この方式では、一回の検索の応答時間が非常に長くなってしまう上に、システム全体への処理負荷も大きく、実用的では無い。このため、ネットワーク上の文書などの大量広範囲の文書を対象とする検索システムにおいて、実用的な応答速度を実現する場合、定期的に検索範囲の文書を調査し、検索条件として指定されるキーワードなどの情報と、文書の所在場所(アドレス)とを対応づけるインデックステーブルを作成している。そして、検索要求があった時点で、このインデックステーブルを使用して検索情報との対比を行い、対応する文書のアドレスのリストを返すという方法が採用されている。
【0004】
一般的な文書検索システムにおいて、検索範囲における文書収集、インデックスの作成、及び検索要求に応じたインデックスの集計と応答は、一台のコンピュータで行われている場合もあれば、クラスタ化された複数のコンピュータにより行われている場合もあるが、基本には一個所で集中的に行われている。
【0005】
検索対象であるネットワーク上のリソースは継続して増大しているため、集中方式の検索システムでは、インデックステーブルの肥大化が将来に及ぶ問題となっている。このため、検索範囲を複数のサーバで分割し、これらが協調して検索を行うシステムがいくつか提案されている。また、特開平8−255178号公報には、文書の関連性を評価して、それを記録し、関連の深い文書をたどれるようにすることによって、ユーザが一つの文書から、関連の深い文書を効果的に閲覧できるようにするといった手法も開示されている。
【0006】
【発明が解決しようとする課題】
ところで、例えば、特定の分野でその分野固有の意味に使用されているキーワードについて、広く知られていて、話題に上りやすい別の意味が存在した場合、上記従来の文書検索システムでは、その別の意味で使用されている文書(必要のない文書)が大量にヒットする。そのため、本来探したい意味のキーワードを有する文書を探すためには、分野を絞り込むためのキーワードを別に指定するなどの工夫が必要となっている。また、文書検索システムのアルゴリズムによっては、キーワードに対する文書が大量にヒットした場合、広く知られているメジャーなキーワードについての凡庸な文書(ページ)と判定されたものは、その検索結果から除外されてしまう可能性もある。
【0007】
本発明は上記問題点を解決するためになされたものであって、その目的は、キーワード検索を的確に行うことができる文書検索方法、文書検索プログラム及び文書検索システムを提供することにある。
【0008】
【課題を解決するための手段】
上記目的を達成するため、請求項1,4,5に記載の発明によれば、検索キーワードと、検索を開始する開始セグメントと、該開始セグメントを起点としたセグメントの探索段数とが入力され、セグメントの探索段数にて指定される検索範囲内のセグメントに対してインデックステーブルの近隣セグメント保有情報に基づくキーワード検索が行われる。そして、各セグメントのインデックステーブルから検索キーワードの該当文書の所在情報が抽出され検索結果リストが生成される。つまり、開始セグメントと検索範囲を指定することにより、検索キーワードに関するインデックスの検索範囲が適切に調整される。従って、関連する文書の管理単位でセグメントを設定することにより、同一のキーワードを含む無関係な文書を検索結果リストから排除することが可能となり、キーワードの該当文書が的確に検索される。
【0009】
請求項2に記載の発明によれば、セグメント単位で文書の収集が行われ、文書中に存在するキーワードと、該キーワードを含む該当文書の所在情報とを記録したローカルインデックステーブルが作成される。そして、ローカルインデックステーブルに存在するキーワードのリストについて、セグメント自身のキーワードのリストと、近隣のセグメントのキーワードのリストとの総和から、交換先となるセグメントのキーワードのリストのみが排除されて腕インデックステーブルが作成される。さらに、セグメント間における交換にて得られた腕インデックステーブルとローカルインデックステーブルとに基づいて、キーワードとセグメント内に保管された該当文書の所在情報と交換相手のセグメントの保有情報とを記録したグローバルインデックステーブルが作成される。このグローバルインデックステーブルが参照されることでキーワードを含む該当文書の所在情報が抽出され検索結果リストが生成される。
【0010】
請求項3に記載の発明によれば、セグメント単位でサーバが設けられるので、キーワードの検索処理がセグメント毎に分散して行われる。また、この場合、使用されるネットワーク資源は、セグメントの対象範囲に限定され、さらにセグメントの対象範囲が一台のコンピュータ内のみである場合には、ネットワークを使用することなく行えるので、その文書の収集によるネットワーク負荷を低減することが可能となる。
【0011】
【発明の実施の形態】
以下、本発明を具体化した一実施形態を図面に従って説明する。
図1は、文書検索システムの概略構成を示すブロック図である。同システムにおいて、複数のセグメントSa〜Sdが接続され、各セグメントSa〜Sdは相互にデータのやり取りを行うことができるようになっている。具体的には、セグメントSaは、セグメントSb,Sc,Sdと接続されている。また、セグメントSb,Sc,Sdは、セグメントSa以外に図示しない他のセグメントと接続されている。セグメントSb〜Sdは、セグメントSaに対する近隣セグメントとして設定されている。
【0012】
各セグメントSa〜Sdは、電子化された多数の文書を有するコンピュータシステム上での任意の区分として設定される。セグメントSa〜Sdは、例えば、単一のコンピュータにおけるディレクトリ毎、ローカルネットワークに接続されたコンピュータ毎、広域ネットワーク上のドメイン毎、或いは社内組織における管理部門毎のように、設定することができる。但し、実用的な文書検索システムを構築する場合、セグメント内の各文書が関連のある文書となるよう区分するとよい。
【0013】
セグメントSaは、ローカルインデックステーブルLIa、グローバルインデックステーブルGIa、腕インデックステーブルAIa−b,AIa−c,AIa−dを含む。同セグメントSaの近隣セグメントSb〜Sdも、同様に、ローカルインデックステーブルLIb〜LId、グローバルインデックステーブルGIb〜GId、腕インデックステーブルAIb−a,AIb−x,AIc−a,AIc−x,AId−a、AId−xを含む。
【0014】
ローカルインデックステーブルLIa〜LIdは、キーワードと、文書の所在情報(アドレス)とを対応づけて示す一覧表(リスト)である。ローカルインデックステーブルLIa〜LIdの生成時には、セグメントSa〜Sd内に保管されている複数の文書が収集され、各文書からキーワードが抽出される。そして、各キーワードについて、キーワードと、文書の所在を示すインデックス情報とがローカルインデックステーブルLIa〜LIdに順次登録される。なお、文書の収集とローカルインデックステーブルLIa〜LIdの生成は、セグメント単位で定期的に実施される。
【0015】
ここで、日本語などの、単語を区切らずに書く言語の文書からキーワードを抽出するには、文書を単語(文節)に分割する必要がある。そのため、先ず、公知の形態素解析の手法により、文書が複数の単語(文節)に分割される。そして、分割された単語のうちの所望の単語がキーワードとして抽出され、インデックステーブルLIa〜LIdに登録される。なお、形態素解析を行うものとしては、例えば、奈良先端科学技術大学院大学自然言語処理学講座からリリースされている日本語形態素解析システムの「茶筌」等がある。
【0016】
また、分割された各単語において、どの単語をキーワードとしてインデックステーブルに登録するかについては、次のような方法が挙げられる。
(a)文書のデータ形式を利用して文書タイトルなどの有為と思われる構成要素に基づいてそれに関連する単語をキーワードとして登録する方法。
(b)あらかじめ有為とみなされるキーワードの辞書を用意し、適合する単語のみをキーワードとして登録する方法。
(c)(b)とは逆に、接続詞などの頻出してキーワードとして意味の無い単語の辞書を用意し、それに合致する単語をキーワードから排除する方法。
(d)収集範囲中の出現頻度などの統計的な評価によって、基準値以上の評価が得られた単語をキーワードとして登録する方法。
(e)上記(a)〜(d)を組み合わせた方法。
【0017】
文書の所在を示すインデックス情報(所在情報)の一例として、UNIX(R),Windows(R)などにおけるファイルシステムのパス、URL(Uniform Resource Locator)、URC(Uniform Resource Characteristic)などが挙げられる。なお、ローカルインデックステーブルLIa〜LIdは、各セグメントSa〜Sd内の文書のみを対象として生成されるインデックステーブルである。
【0018】
腕インデックステーブルAIa−b,AIa−c,AIa−d,AIb−a,AIb−x,AIc−a,AIc−x,AId−a、AId−xは、グローバルインデックステーブルGIa〜GIdを生成するために近隣セグメント同士が交換するインデックステーブルである。これら腕インデックステーブルAIa−b,AIa−c,AIa−d,AIb−a,AIb−x,AIc−a,AIc−x,AId−a、AId−xは、ローカルインデックステーブルLIa〜LIdに登録されたキーワードに基づいて生成される。
【0019】
腕インデックステーブルAIa−b,AIa−c,AIa−d,AIb−a,AIb−x,AIc−a,AIc−x,AId−a、AId−xは、各セグメントSa〜Sdにおいて、それらセグメントにおける近隣セグメントの数だけ生成される。具体的には、セグメントSaでは、近隣セグメントSb〜Scが設定されているため、それら各近隣セグメントSb〜Scと交換するための3つの腕インデックステーブルAIa−b,AIa−c,AIa−dが生成される。また、交換先となる近隣セグメントSb〜Sd側でも腕インデックステーブルAIb−a,AIc−a,AId−aが生成される。つまり、腕インデックステーブルAIa−b,AIa−c,AIa−d及び腕インデックステーブルAIb−a,AIc−a,AId−aは、セグメントSaと近隣セグメントSb〜Sdとを結ぶ腕(接続部)の両端で作られている。
【0020】
腕インデックステーブルAIa−b,AIa−c,AIa−d,AIb−a,AIb−x,AIc−a,AIc−x,AId−a、AId−xは、キーワードの一覧表(リスト)であり、彼岸腕インデックステーブルと呼ぶものと、此岸腕インデックステーブルと呼ぶものとに分けられる。具体的には、セグメントSaにおけるインデックス更新処理で生成した近隣セグメントSbに対する腕インデックステーブルAIa−bを彼岸腕インデックステーブルと呼ぶ。一方、近隣セグメントSbにおけるインデックス更新処理にて生成された、こちらのセグメントSaに対する腕インデックステーブルAIb−aを此岸腕インデックステーブルと呼ぶ。同様に、セグメントSaの近隣セグメントSc,Sdに対する腕インデックステーブルAIa−c,AIa−dを彼岸腕インデックステーブルと呼び、セグメントSaに対する腕インデックステーブルAIc−a,AId−aを此岸腕インデックステーブルと呼ぶ。
【0021】
近隣セグメントSbに対する彼岸腕インデックステーブルAIa−bは、セグメントSbにおける此岸腕インデックステーブルAIb−a以外の此岸腕インデックステーブルAIc−a,AId−aと、ローカルインデックステーブルLIaに存在するキーワードのリストの総和として生成される。彼岸腕インデックステーブルAIa−cは、此岸腕インデックステーブルAIb−a,AId−aと、ローカルインデックステーブルLIaに存在するキーワードのリストの総和として生成される。彼岸腕インデックステーブルAIa−dは、此岸腕インデックステーブルAIb−a,AIc−aと、ローカルインデックステーブルLIaとに存在するキーワードのリストの総和として生成される。つまり、セグメント自身のキーワードのリスト(ローカルインデックステーブルのキーワードのリスト)と、近隣セグメントにおけるキーワードのリスト(此岸腕インデックステーブル)との総和から、交換先となる近隣セグメントのキーワードのリストのみを排除して彼岸腕インデックステーブルが生成される。
【0022】
彼岸腕インデックステーブルAIa−b,AIa−c,AIa−dは、各近隣セグメントSb〜SdのためにセグメントSa側で生成する腕インデックステーブルであり、交換対象となる近隣セグメントSb〜Sd側から見た場合には、此岸腕インデックステーブルとなる。そして、近隣セグメントSb〜Sd側では、上記と同様に、此岸腕インデックステーブルAIa−b,AIa−c,AIa−d等とローカルインデックステーブルLIlb〜LIdとに存在するキーワードのリストの総和として彼岸腕インデックステーブルAIb−a,AIc−a,AId−a等が生成される。
【0023】
このように彼岸腕インデックステーブルを生成した場合、一方のセグメントで生成した他方のセグメントのための彼岸腕インデックステーブルは、その一方のセグメントと、該一方のセグメントを経由して他方のセグメントに接続する他の複数のセグメントとにおけるキーワードのリストになる。例えば、セグメントSaにおける近隣セグメントSbのための彼岸腕インデックステーブルAIa−bは、セグメントSaと、そのセグメントSaを経由してセグメントSbに接続する各セグメントSc,Sd等におけるローカルインデックステーブルLIa,LIc,LId等のキーワードのリストになる。また逆に、セグメントSbにおける近隣セグメントSaのための彼岸腕インデックステーブルAIb−aは、セグメントSbと、そのセグメントSbを経由してセグメントSaに接続する各セグメント(図示しない)とにおけるローカルインデックステーブルLIb等のキーワードのリストになる。
【0024】
セグメントSaにおけるグローバルインデックステーブルGIaは、ローカルインデックステーブルLIaに、此岸腕インデックステーブルAIb−a,AIc−a,AId−aの内容を追加したものである。同様に、各セグメントSb〜SdのグローバルインデックステーブルGIb〜GIdは、ローカルインデックステーブルLIb〜LIdに、此岸腕インデックステーブルAIa−b,AIa−c,AIa−d等の内容を追加したものである。
【0025】
グローバルインデックステーブルGIa〜GIdには、ローカルインデックステーブルLIa〜LIdの情報(セグメントSa〜Sd内における文書の所在を示すインデックス情報)に加え、近隣セグメント識別コードが登録される。グローバルインデックステーブルGIa〜GIdにおいて、近隣セグメント識別コードは、近隣セグメントがキーワードの該当文書を保有する旨を示す情報として登録されている。例えば、セグメントSaにおけるグローバルインデックステーブルGIaについて、近隣セグメントSbの此岸腕インデックステーブルAIa−bのキーワードを登録する場合、そのキーワードとともに近隣セグメントSbの識別コードが登録される。そして、キーワードの検索時には、グローバルインデックステーブルGIa〜GIdに基づいて検索結果リストが生成される。
【0026】
具体的には、例えば、グローバルインデックステーブルGIaから、指定されたキーワードが検索され、該当文書の所在がセグメントSa内なら、そのまま文書の所在情報が検索結果リストに追加される。また、グローバルインデックステーブルGIaにおいて、近隣セグメントSbの識別コードが登録されていれば、近隣セグメントSbのグローバルインデックステーブルGIbについても同様に、指定されたキーワードが検索され、その該当文書の所在情報が検索結果リストへ追加される。このように、グローバルインデックステーブルの情報に基づいて近隣セグメント間を辿ってキーワードの検索処理が繰り返し実施される。そして、経由したセグメント数が指定された上限に達した場合、近隣セグメント識別コードで示されるセグメントが検索を開始したセグメントである場合等になるまでキーワードの検索処理が実施される。
【0027】
図2は、セグメントSaの概略構成図である。セグメントSaは、本実施形態ではパーソナルコンピュータ11により構成されている。尚、セグメントSaをワークステーション等の汎用的な目的で使用される計算機により構成しても良い。
【0028】
従って、文章検索システムは複数のパソコン11を連携させ構築されている。図1における他のセグメントSb〜Sdは、セグメントSaと同様に構成されているため、図面及び説明を省略する。
【0029】
パソコン11は、操作入力部12、表示部13、制御部14、記憶部15等を備える。操作入力部12は、キーボード、マウス装置等を含み、文書検索プログラムの起動、キーワードの入力等のユーザからの要求や指示に用いられる。表示部13は、例えば、CRT,LCD,PDP等により構成され、キーワード入力画面の表示、検索結果の表示等に用いられる。
【0030】
制御部14は、パソコン11を統括的に制御する周知の中央処理装置(CPU)、文書検索プログラムを格納した記録装置等により構成される。制御部14におけるCPUは、文書検索プログラムを実行することにより、ローカルインデックス作成手段21、彼岸腕インデックス作成手段22、グローバルインデックス作成手段23、キーワード検索手段24、問い合わせ発行手段25として機能する。
【0031】
記憶部15は、パソコン11に内蔵された磁気ディスク装置(ハードディスク)により構成されている。記憶部15は、ローカルファイルシステム31、セグメント定義テーブル32、文書テーブル33、ローカルインデックステーブル34、近隣セグメントテーブル35、グローバルインデックステーブル36、此岸腕インデックステーブル37、彼岸腕インデックステーブル38、問い合わせ履歴リスト39、検索結果リスト40等を含む。なお、記憶部15としては、光ディスク装置、光磁気ディスク装置を使用してもよい。勿論、パソコン11に外付けされたディスク装置を用いてもよく、複数のディスク装置により記憶部15を構成してもよい。
【0032】
ローカルファイルシステム31には、文書管理領域として複数のディレクトリが設けられており、電子化された各種文書が文書内容に応じて各ディレクトリに格納されている。セグメント定義テーブル32は、ローカルファイルシステム31において検索対象となるディレクトリの所在を示すパス文字列のリストである。
【0033】
先ず、ローカルインデックステーブル34の作成方法について説明する。
ローカルインデックス作成手段21は、セグメント定義テーブル32からパス文字列を順次取り出し、ローカルファイルシステム31上において検索対象となるディレクトリのパスを認識する。そして、ローカルインデックス作成手段21は、それらパスを起点として、各ディレクトリに格納されている文書を収集して文書テーブル33を作成する。なお、セグメント定義テーブル32のパス文字列で示されるディレクトリに下位ディレクトリが存在する場合には、そのパス文字列が起点パスとなり、ローカルファイルシステム31におけるファイル管理情報を利用することで、下位ディレクトリの文書についても収集できるようになっている。
【0034】
文書テーブル33は、同一の文書へのパスを文字列として扱う場合の冗長性を回避するために作成されるテーブルであり、文書の所在を示すパス(文書パス文字列)と、その文書に対応させる文書コード(整数値のならび)とからなる一覧表(リスト)である。単に、文書パス文字列のリストとし、リスト上の順番を示す数値を文書コードとしてもよい。なお、文書パス文字列は、パソコン11のローカルファイルシステム31におけるパス表現を使う。
【0035】
ローカルインデックス作成手段21は、セグメント定義テーブル32に基づき収集した各文書について、上述した日本語形態素解析システム等を使用して、単語の切り出し、品詞の判定を行った後、固有名詞をキーワードとして抽出する。そして、抽出したキーワードに基づいて、ローカルインデックステーブル34を作成する。
【0036】
図3に示すように、ローカルインデックステーブル34は、キーワードKW(KW1,KW2,…)の文字列と、そのキーワードを含む文書の文書コードCD(CD1,CD2,…,CDx)とを構成要素とするテーブルである。このローカルインデックステーブル34の作成に際しては、各キーワードKWについて、ローカルインデックステーブル34におけるエントリの有無が探索され、エントリが有ればそのテーブル34上のキーワードKWに対して文書コードCDが追加される。エントリが無ければそのキーワードKWの項目を新たに追加し、キーワードKWに対する文書コードCDを書き込む。このキーワードKW及び文書コードCDの追加は、各文書から抽出した全キーワードKWについて繰り返し実施される。これにより、セグメント定義テーブル32で定義された範囲内にある各文書のローカルインデックステーブル34が作成される。なお、このローカルインデックステーブル34上から任意のキーワードKWを高速に検索する手法としては、二分木法などが知られている。
【0037】
近隣セグメントテーブル35は、近隣セグメントとするセグメントの設定であって、近隣セグメントとして設定するパソコン11のネットワークアドレスのリストと、そのパソコン11に対応付けられた近隣セグメント識別コードとのならびである。なおここで、関連のある文書を保管するパソコン11同士を近隣セグメントとして設定している。近隣セグメント識別コードは、近隣セグメントを識別するためのコードであり、本実施形態では、文書コードCDで使用するコードの一定領域を予約して割り付けている。
【0038】
次に、腕インデックステーブルの作成方法について説明する。
彼岸腕インデックス作成手段22は、ローカルインデックステーブル34、近隣セグメントテーブル35、此岸腕インデックステーブル37に基づいて、各近隣セグメントの彼岸腕インデックステーブル38を生成する。
【0039】
具体的に、彼岸腕インデックス作成手段22は、近隣セグメントテーブル35に基づいて近隣セグメントとして設定された他のパソコン11を認識し、各パソコン11から此岸腕インデックステーブル37を受信して記憶部15に格納する。また、彼岸腕インデックス作成手段22は、ローカルインデックステーブル34に存在するキーワードを抽出してそのキーワードの一覧表(リスト)を作成する。さらに、彼岸腕インデックス作成手段22は、腕インデックステーブルの交換対象となる近隣セグメントから受信した此岸腕インデックステーブル37を除く他の此岸腕インデックステーブル37の内容をキーワードKWのリストに追加する。これにより、交換対象となる近隣セグメントに対する彼岸腕インデックステーブル38が生成される。彼岸腕インデックステーブル38は、近隣セグメントテーブル35において近隣セグメントとして設定された各パソコン11について生成される。
【0040】
彼岸腕インデックステーブル38は、各近隣セグメントについて作成する腕インデックステーブルであり、交換対象となる近隣セグメント側から見た場合は、此岸腕インデックステーブル37となる。つまり、近隣セグメント側での腕インデックステーブルの作成時には、彼岸腕インデックステーブル38が近隣セグメントに転送され、近隣セグメントでは、その腕インデックステーブル38が此岸腕インデックステーブルとして使用される。
【0041】
次に、グローバルインデックステーブル36の作成方法について説明する。
グローバルインデックス作成手段23は、文書テーブル33、ローカルインデックステーブル34、近隣セグメントテーブル35、此岸腕インデックステーブル37に基づいて、グローバルインデックステーブル36を生成する。図4に示すように、グローバルインデックステーブル36は、図3のローカルインデックステーブル34の内容に加え、近隣セグメント識別コードCS(CSb,CSd、CSc,…)が入力されている。つまり、グローバルインデックステーブル36において、ローカルファイルシステム31上に保管されている文書は文書コードCDによりその所在が示され、一方、近隣セグメントに保管されている文書は、文書コードCDではなく近隣セグメント識別コードCSによりその所在が示される。
【0042】
具体的に、グローバルインデックス作成手段23は、先ず、ローカルインデックステーブル34の内容をそのままグローバルインデックステーブル36にコピーする。その後、グローバルインデックス作成手段23は、各此岸腕インデックステーブル37について、キーワードKWを順に取り出す。ここで、各キーワードKWについて、グローバルインデックステーブル36におけるキーワードKWのエントリの有無が探索され、エントリが有ればそのテーブル36上のキーワードKWに対して近隣セグメント識別コードCSが追加される。エントリが無ければそのキーワードKWの項目を新たに追加して、キーワードKWに対する近隣セグメント識別コードCSを書き込む。このキーワードKW及び近隣セグメント識別コードCSの追加は、近隣セグメントから受信した各此岸腕インデックステーブル37の全キーワードKWについて繰り返し実施される。これにより、グローバルインデックステーブル36が作成される。
【0043】
ここで、ローカルファイルシステム31上に所定のキーワードKWを含む文書が複数存在する場合、グローバルインデックステーブル36には、それら文書の所在を示す複数の文書コードCDがキーワードKWのインデックス情報として登録される。また、近隣セグメントにおいて所定のキーワードKWを含む文書が存在する場合、グローバルインデックステーブル36には、その近隣セグメントの識別コードCSが登録される。なお、近隣セグメントにおいてキーワードKWの該当文書が複数存在する場合、グローバルインデックステーブル36にはそのキーワードKWに対して同一の近隣セグメント識別コードCSが重複して登録されることはない。
【0044】
次に、キーワードKWの検索方法について説明する。
本実施形態の文書検索システムでは、キーワード検索を開始するパソコン11(開始セグメント)が指定され、同パソコン11におけるキーワード検索が実施された後、近隣セグメントとして設定された他のパソコン11を辿ってキーワード検索が実施される。この文書検索システムにおいて、経由する近隣セグメント(パソコン11)の数の上限を示す整数(探索段数)により、キーワードの検索範囲が指定される。
【0045】
詳述すると、問い合わせ発行手段25は、問い合わせ先パソコン11、キーワードKW、探索段数の入力を促す入力画面を表示部13に表示させる。そして、ユーザにより操作入力部12が操作され、その操作により、問い合わせ先のパソコン11、検索キーワードKW、探索段数といった入力データが問い合わせ発行手段25に入力される。問い合わせ発行手段25は、これら入力データにより問い合わせ識別コードを自動的に生成して、問い合わせ先パソコン11に対して問い合わせ識別コードとともに上記入力データを発行する。なお、問い合せ識別コードは、問い合せを発行したホストとなるパソコン11のアドレスと、発行時間とからなる識別コードである。従って、別の時間に同一キーワードKWに対する問い合わせが発行された場合には、異なる問い合わせ識別コードが生成される。
【0046】
キーワード検索手段24は、問い合わせ発行手段25からの問い合せ(キーワードKW、探索段数、問い合せ識別コード)に応答してキーワード検索を開始する。キーワード検索手段は、他のパソコン11からの通信による問い合せに備えて常時待機しており、他のパソコン11のキーワード検索手段24や問い合わせ発行手段25からの問い合せを受信した場合にも検索を開始する。
【0047】
キーワード検索手段24は、先ず、問い合せ履歴リスト39を参照する。問い合せ履歴リスト39は、過去に処理した問い合わせの識別コードの一覧表であり、新しい問い合せであった場合は、その問い合せ識別コードが問い合わせ履歴リストに追加される。キーワード検索手段24は、グローバルインデックステーブル36から、指定されたキーワードKWを検索する。ここで、ローカルファイルシステム31においてそのキーワードKWの該当文書が存在した場合(文書コードCDが見つかった場合)は、文書テーブル33を参照して、その文書のローカルパスと、自分のネットワークアドレスとを検索結果リスト40に追加する。
【0048】
検索結果リスト40は、文書が存在していたパソコン11のネットワークアドレスと、文書の所在を示すパス文字列とからなる。キーワード検索手段24は、ローカルファイルシステム31に存在する全ての該当文書に関するパス文字列を検索結果リスト40に登録した後、問い合せ識別コードに基づいて問い合せを発行したパソコン(ホストパソコン)11を認識し、同パソコン11に検索結果リスト40を返信する。
【0049】
また、グローバルインデックステーブル36において、近隣セグメント識別コードCSがみつかった場合、キーワード検索手段24は、対応する近隣セグメント(パソコン11)に問い合わせを発行する。このとき、探索段数が1減算されて、その探索段数が問い合せ識別コード、キーワードKWとともに送られる。
【0050】
近隣セグメント(パソコン11)におけるキーワード検索手段24は、上記と同様に、グローバルインデックステーブル36から、指定されたキーワードKWを検索する。そして、ローカルファイルシステム31上の該当文書に関する検索結果リスト40を生成した後、該検索結果リスト40を問い合せを発行したパソコン11に返信する。
【0051】
問い合わせに含まれる探索段数が0であった場合、キーワード検索手段24は、近隣セグメント(パソコン11)への問い合せは行わず、グローバルインデックステーブル36における近隣セグメント識別コードCSを無視する。なおこの場合にも、キーワード検索手段24は、グローバルインデックステーブル36に基づいてローカルファイルシステム31における該当文書の所在を探索して検索結果リスト40を生成した後、該リスト40を問い合せを発行したパソコン11に返信する。
【0052】
また、既に同一の問い合せを処理していた場合、問い合わせ履歴リスト39にはその問い合わせの識別コードが登録されている。そのため、キーワード検索手段24は、上記のグローバルインデックステーブル36に基づく検索処理を実施することなく、空の検索結果リスト40をホストパソコン11に返信する。文書検索システムにおける近隣セグメント(パソコン11)の設定等によっては、近隣セグメントを経由する際に、所定のセグメントに対して同じ問い合わせが繰り返し発行される場合がある。よって、問い合わせ識別コードにより同一の問い合せ認識し、空の検索結果リスト40を返信することにより、キーワード検索手段24において、検索処理が重複して実施されることが回避される。
【0053】
問い合せを発行したホストパソコン11において、検索結果リスト40を受信すると、問い合わせ発行手段25は、検索結果リスト40に関する表示画面を表示部13に表示させる。また、問い合せ発行手段25は、ユーザの選択に応じて、指定された文書を受信して、該文書を表示部13に表示させる。
【0054】
以上記述したように、上記実施形態によれば、下記の効果を奏する。
(1)検索キーワードKWと、検索を開始する開始セグメント(パソコン11)と、セグメントの探索段数とが入力され、セグメントの探索段数にて指定される検索範囲内において近隣セグメントとして設定された各他のパソコン11を辿ってキーワード検索が行われる。つまり、開始セグメント(パソコン11)と検索範囲を指定することにより、検索キーワードKWに関するインデックスの検索範囲を適切に調整できる。従って、同一のキーワードKWを含む無関係な文書を検索結果リスト40から排除することが可能となり、キーワードKWの該当文書を的確に検索できる。
【0055】
(2)グローバルインデックステーブル36には、近隣のセグメントがキーワードKWの該当文書を保有する旨を示す近隣セグメント識別コードCSが登録され、近隣セグメント識別コードCSに基づいて、近隣セグメントとして設定された各他のパソコン11を辿ってキーワードの検索が行われる。ここで、近隣セグメントにキーワードKWを含む文書が複数あったとしても、グローバルインデックステーブル36には文書の所在の有無を示す1つの近隣セグメント識別コードCSが登録されるだけである。このようにすれば、コンピュータシステムにおける保管文書が増大したとしても、グローバルインデックステーブル36の肥大化を抑制することができる。
【0056】
(3)問い合わせ発行手段25において、入力情報に基づく問い合わせ識別コードが発行され、該問い合わせ識別コードに関するキーワード検索時にその識別コードが問い合わせ履歴リスト39に登録される。そして、その履歴リスト39を参照することにより、キーワード検索を重複して行うことが回避できる。
【0057】
(4)セグメントとして設定されたパソコン11毎に、記憶部15、ローカルインデックス作成手段21、彼岸腕インデックス作成手段22、グローバルインデックス作成手段23、キーワード検索手段24、問い合わせ発行手段25等が設けられている。この場合、各インデックステーブル34、36,38の更新処理や、キーワードの検索処理が各パソコン11にて分散して行われるので、パソコン11間を接続するネットワークの負荷を軽減でき、実用上好ましいものとなる。
【0058】
(5)本実施形態では、文書の所在を示すパスと、その文書に対応させる文書コードCDとからなる文書テーブル33を作成し、文書テーブル33における文書コードCDを用いて、ローカルインデックステーブル34やグローバルインデックステーブル36が作成されている。このようにすれば、同一の文書へのパスを文字列として扱う場合の冗長性を回避することができる。よって、インデックステーブル34,36のために必要となる記憶領域の増大を抑制することができる。
【0059】
上記実施の形態は、次に示すように変更することもできる。
・上記実施形態では個人のパソコン11を1つのセグメントとして具体化したが、ネットワーク上の適当な構成単位(サブネットやドメイン等)を一つのセグメントとして具体化してもよい。この場合、ローカルインデックス作成手段21、彼岸腕インデックス作成手段22、グローバルインデックス作成手段23、キーワード検索手段24等を有するサブネット単位で配置する。そして、腕インデックステーブルの交換や近隣セグメントへの問い合わせ等の処理については、サーバ間の通信にて行うようにする。このようにすると、サブネットやドメイン単位で、インデックスの作成処理やキーワード検索処理を分散することができる。またこの場合、サブネット間を接続するネットワークを使用することなく文書の収集が行えるので、その文書の収集によるネットワーク負荷を低減することができる。さらに、ネットワークに接続するサブネットを新たに増設する場合には、そのサブネットのためのサーバを追加すればよく、実用上好ましいものとなる。
【0060】
また、一台のパソコンが複数のセグメントを扱うような構成にしてもよい。さらに、一台のパソコン内の文書が異なるセグメントに属してもよい。セグメント及びセグメント処理手段の構成は、処理効率と管理の都合によって任意に設定できる。
【0061】
・上記実施形態において、問い合わせ発行手段25は、各パソコン11が持つ構成であるが、これに限定されるものではない。つまり、文書検索システムを構成する全てのパソコン11に設ける必要はなく、それらパソコン11のうちの少なくとも一つに設けるようにすればよい。また、ローカルインデックス作成手段21、彼岸腕インデックス作成手段22、グローバルインデックス作成手段23、キーワード検索手段24を有するパソコン11とは別に、問い合わせ発行手段25のみを有するパソコンを文書検索システムに設けてもよい。
【0062】
・上記第実施形態では、文書の所在を示すパスと、その文書に対応させる文書コードCDとからなる文書テーブル33を作成し、文書テーブル33における文書コードCDを用いて、ローカルインデックステーブル34やグローバルインデックステーブル36を作成したが、これに限定するものではない。ローカルインデックステーブル34やグローバルインデックステーブル36は、文書テーブル33の文書コードCDを用いずに、文書の所在を示すパス(文書パス文字列)を用いて作成してもよい。
【0063】
以上の様々な実施の形態をまとめると、以下のようになる。
(付記1)コンピュータシステム上に保管されている文書を検索するための文書検索方法であって、
前記コンピュータシステムにおける文書の管理単位としてセグメントが設定され、
前記セグメントは、キーワードと、セグメント内に保管された前記キーワードを含む該当文書の所在情報と、近隣のセグメントが該当文書を保有する旨を示す近隣セグメント保有情報とを記録したインデックステーブルを含み、
前記コンピュータシステムにおいて、検索キーワードと、検索を開始する開始セグメントと、該開始セグメントを起点としたセグメントの探索段数とに基づいて、前記探索段数で指定される検索範囲内のセグメントに対して前記インデックステーブルの近隣セグメント保有情報に基づくキーワード検索を行い、該各セグメントの前記インデックステーブルからキーワードの該当文書の所在情報を抽出して検索結果リストを生成することを特徴とする文書検索方法。
(付記2)前記コンピュータシステムを構成するコンピュータは、
セグメント単位で文書の収集を行い、文書中に存在するキーワードと、該キーワードを含む該当文書の所在情報とを記録したローカルインデックステーブルを作成し、
前記ローカルインデックステーブルに存在するキーワードのリストについて、セグメント自身のキーワードのリストと、近隣のセグメントのキーワードのリストとの総和から、交換先となるセグメントのキーワードのリストのみを排除して腕インデックステーブルを作成し、
前記交換先となるセグメントとの間で腕インデックステーブルを交換し、その交換した腕インデックステーブルと前記ローカルインデックステーブルとに基づいて、前記キーワードと、前記セグメント内に保管された該当文書の所在情報と、交換相手のセグメントの保有情報とを記録したグローバルインデックステーブルを作成し、
前記グローバルインデックステーブルを参照することで前記検索キーワードを含む該当文書の所在情報を抽出して検索結果リストを生成することを特徴とする付記1に記載の文書検索方法。
(付記3)前記コンピュータシステムにおいてセグメント単位でサーバが設けられ、サーバ間の通信によって、前記腕インデックステーブルの交換と、他のセグメントにおけるキーワードの検索を行うようにしたことを特徴とする付記2に記載の文書検索方法。
(付記4)前記文書の所在を示すパスと、その文書に対応させる文書コードとからなる文書テーブルを作成し、該文書テーブルにおける文書コードを用いて、前記インデックステーブルを作成するようにしたことを特徴とする付記1〜3のいずれかに記載の文書検索方法。
(付記5)入力情報に対応する問い合わせ識別コードを発行し、前記問い合わせ識別コードに関するキーワード検索時にその識別コードを問い合わせ履歴リストに登録するようにしたことを特徴とする付記1〜4のいずれかに記載の文書検索方法。
(付記6)コンピュータシステム上に保管されている文書を検索するための文書検索プログラムであって、
コンピュータに、
前記文書の管理単位としてのセグメントを設定し、セグメント単位で文書の収集を行い、キーワードと、前記セグメント内に保管された前記キーワードを含む該当文書の所在情報と、近隣のセグメントが該当文書を保有する旨を示す近隣セグメント保有情報とを記録したインデックステーブルを作成する手段と、
検索キーワードと、検索を開始する開始セグメントと、該開始セグメントを起点としたセグメントの探索段数とを入力情報として取り込む手段と、
前記探索段数で指定される検索範囲内のセグメントに対して前記インデックステーブルの近隣セグメント保有情報に基づくキーワード検索を行い、該各セグメントの前記インデックステーブルから検索キーワードの該当文書の所在情報を抽出して検索結果リストを生成する手段として機能させること
を特徴とする文書検索プログラム。
(付記7)コンピュータシステム上に保管されている文書を検索する文書検索システムであって、
前記コンピュータシステムにおける文書の管理単位としてのセグメントを設定するためのテーブルが記憶手段に記憶され、
前記セグメントは、キーワードと、セグメント内に保管された前記キーワードを含む該当文書の所在情報と、近隣のセグメントが該当文書を保有する旨を示す近隣セグメント保有情報とを記録したインデックステーブルを含み、
検索キーワードと、検索を開始する開始セグメントと、該開始セグメントを起点としたセグメントの探索段数とを入力情報として問い合わせを行う問い合わせ発行手段と、
前記インデックステーブルを参照し、前記検索キーワードの該当文書の所在情報を抽出して検索結果リストを生成するキーワード検索手段と、
を備え、前記探索段数で指定される検索範囲内のセグメントに対し前記インデックステーブルの近隣セグメント保有情報に基づいて各他のセグメントを辿ってキーワード検索を行うようにしたことを特徴とする文書検索システム。
(付記8)セグメント単位で文書の収集を行い、文書中に存在するキーワードと、該キーワードを含む該当文書の所在情報とを記録したローカルインデックステーブルを作成するローカルインデックス作成手段と、
前記ローカルインデックステーブルに存在するキーワードのリストについて、セグメント自身のキーワードのリストと、近隣のセグメントのキーワードのリストとの総和から、交換先となるセグメントのキーワードのリストのみを排除して腕インデックステーブルを作成する腕インデックス作成手段と、
セグメント間における交換により得られた腕インデックステーブルと、前記ローカルインデックステーブルとに基づいて、前記キーワードと、前記セグメント内に保管された該当文書の所在情報と、交換相手のセグメントの保有情報とを記録したグローバルインデックステーブルを作成するグローバルインデックス作成手段と
を備えることを特徴とする付記7に記載の文書検索システム。
【0064】
【発明の効果】
以上詳述したように、本発明によれば、キーワード検索を的確に行うことができる文書検索方法、文書検索プログラム及び文書検索システムを提供することができる。
【図面の簡単な説明】
【図1】 一実施形態の文書検索システムを示す概略構成図である。
【図2】 文書検索システムを構成するパソコンの概略構成図である。
【図3】 ローカルインデックステーブルの説明図である。
【図4】 グローバルインデックステーブルの説明図である。
【符号の説明】
11 セグメントとしてのパソコン
15 記憶手段としての記憶部
21 ローカルインデックス作成手段
22 腕インデックス作成手段としての彼岸腕インデックス作成手段
23 グローバルインデックス作成手段
24 キーワード検索手段
25 問い合わせ発行手段
32 セグメント定義テーブル
34 ローカルインデックステーブル
35 近隣セグメントテーブル
36 グローバルインデックステーブル
37 此岸腕インデックステーブル
38 彼岸腕インデックステーブル
39 問い合わせ履歴リスト
40 検索結果リスト
CS 識別コード
KW キーワード
Sa,Sb,Sc,Sd セグメント
GIa,GIb,GIc,GId グローバルインデックステーブル
LIa,LIb,LIc,LId ローカルインデックステーブル
AIa−b,AIa−c,AIa−d,AIb−a,AIb−x,AIc−a,AIc−x,AId−a,AId−x 腕インデックステーブル[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document search method, a document search program, and a document search method for searching a required document by specifying a predetermined keyword as a search condition from a number of digitized documents.
[0002]
In recent years, the number of stored documents in a computer system has increased due to an increase in the size of a database, the introduction of network technology, and the like, and a technique for efficiently retrieving a desired document from a large number of documents in the system is desired.
[0003]
[Prior art]
The document search system searches for a document that meets a search condition specified by a searcher from an arbitrary range, and presents the location as a list. Specifically, for example, when the search range such as searching for a desired document from documents stored in a predetermined personal computer is relatively narrow and the number of documents and the total amount of document data are not large, the document The search system creates a list by actually examining all document data every time a condition is specified. However, when the search range extends over a wide range, such as via a network, this method results in a very long response time for a single search and a large processing load on the entire system. Not. For this reason, in a search system that targets a large amount of documents such as documents on a network, when a practical response speed is to be realized, the documents in the search range are periodically checked, and keywords specified as search conditions, etc. An index table is created for associating this information with the location (address) of the document. Then, when a search request is made, a method is employed in which the index table is used for comparison with search information and a list of addresses of corresponding documents is returned.
[0004]
In a general document search system, collection of documents in a search range, creation of an index, and aggregation and response of an index according to a search request may be performed by a single computer, or a plurality of clusters may be clustered. In some cases, it is done by a computer, but basically it is done centrally in one place.
[0005]
Since resources on the network to be searched continue to increase, in the centralized search system, the enlargement of the index table is a future problem. For this reason, several systems have been proposed in which the search range is divided by a plurality of servers and these search in cooperation. Japanese Patent Application Laid-Open No. 8-255178 discloses a method for evaluating the relevance of a document, recording it, and tracing a closely related document, so that a user can create a deeply related document from one document. A technique for enabling effective browsing is also disclosed.
[0006]
[Problems to be solved by the invention]
By the way, for example, in the case of a keyword that is used for a specific meaning in a specific field, there is another meaning that is widely known and easy to get to the topic. Documents that are used in meaning (unnecessary documents) are hit in large numbers. Therefore, in order to search for a document having a keyword having a meaning that is originally desired to be searched, it is necessary to devise such as separately specifying a keyword for narrowing down a field. Also, depending on the algorithm of the document search system, when a large number of documents for a keyword are hit, what is determined to be a mediocre document (page) for a major keyword that is widely known is excluded from the search results. There is also a possibility of end.
[0007]
The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a document search method, a document search program, and a document search system that can accurately perform keyword search.
[0008]
[Means for Solving the Problems]
In order to achieve the above object, according to the first, fourth, and fifth aspects of the present invention, a search keyword, a start segment for starting a search, and the number of search stages of the segment starting from the start segment are input. A keyword search based on neighboring segment possession information in the index table is performed on a segment within the search range specified by the number of segment search stages. Then, the location information of the corresponding document of the search keyword is extracted from the index table of each segment, and a search result list is generated. That is, by specifying the start segment and the search range, the search range of the index related to the search keyword is appropriately adjusted. Therefore, by setting a segment in the management unit of related documents, it is possible to exclude irrelevant documents including the same keyword from the search result list, and the corresponding document of the keyword is accurately searched.
[0009]
According to the second aspect of the present invention, documents are collected on a segment basis, and a local index table is created in which keywords existing in the documents and location information of the corresponding documents including the keywords are recorded. Then, for the keyword list existing in the local index table, only the keyword list of the segment to be exchanged is excluded from the sum of the keyword list of the segment itself and the keyword list of the neighboring segment, and the arm index table Is created. Furthermore, based on the arm index table and local index table obtained by exchange between segments, a global index that records keywords, location information of corresponding documents stored in the segment, and possession information of the exchange partner's segment A table is created. By referring to the global index table, the location information of the corresponding document including the keyword is extracted and a search result list is generated.
[0010]
According to the third aspect of the present invention, since the server is provided for each segment, the keyword search process is performed in a distributed manner for each segment. In this case, the network resources used are limited to the target range of the segment. Further, when the target range of the segment is only within one computer, the network resource can be used without using the network. Network load due to collection can be reduced.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, an embodiment of the invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a schematic configuration of a document search system. In the system, a plurality of segments Sa to Sd are connected, and each segment Sa to Sd can exchange data with each other. Specifically, the segment Sa is connected to the segments Sb, Sc, and Sd. The segments Sb, Sc, Sd are connected to other segments (not shown) in addition to the segment Sa. The segments Sb to Sd are set as neighboring segments with respect to the segment Sa.
[0012]
Each segment Sa to Sd is set as an arbitrary section on a computer system having a large number of digitized documents. The segments Sa to Sd can be set, for example, for each directory in a single computer, for each computer connected to a local network, for each domain on a wide area network, or for each administrative department in an in-house organization. However, when constructing a practical document search system, it is preferable to classify each document in the segment so that it is a related document.
[0013]
The segment Sa includes a local index table LIa, a global index table GIa, and arm index tables AIa-b, AIa-c, and AIa-d. Similarly, the neighboring segments Sb to Sd of the segment Sa are also local index tables LIb to LId, global index tables GIb to GId, arm index tables AIb-a, AIb-x, AIc-a, AIc-x, AId-a. , AId-x.
[0014]
The local index tables LIa to LId are lists (lists) that indicate keywords and document location information (addresses) in association with each other. When the local index tables LIa to LId are generated, a plurality of documents stored in the segments Sa to Sd are collected, and a keyword is extracted from each document. For each keyword, the keyword and index information indicating the location of the document are sequentially registered in the local index tables LIa to LId. Note that collection of documents and generation of the local index tables LIa to LId are periodically performed on a segment basis.
[0015]
Here, in order to extract a keyword from a document in a language such as Japanese that is written without dividing a word, it is necessary to divide the document into words (sentences). Therefore, first, the document is divided into a plurality of words (phrases) by a known morphological analysis technique. Then, a desired word among the divided words is extracted as a keyword and registered in the index tables LIa to LId. Examples of the morphological analysis include “tea bowl” of the Japanese morphological analysis system released from Nara Institute of Science and Technology Graduate School of Natural Language Processing.
[0016]
In addition, for each divided word, as for which word is registered in the index table as a keyword, the following method can be cited.
(A) A method of registering a word related to a keyword as a keyword based on a component such as a document title using a document data format.
(B) A method of preparing a dictionary of keywords that are considered to be significant in advance and registering only matching words as keywords.
(C) Contrary to (b), a method of preparing a dictionary of frequently used words such as conjunctions and meaningless words as keywords, and excluding words that match them from the keywords.
(D) A method of registering, as a keyword, a word for which an evaluation equal to or higher than a reference value is obtained by statistical evaluation such as appearance frequency in the collection range.
(E) A method combining the above (a) to (d).
[0017]
Examples of index information (location information) indicating the location of a document include a file system path, URL (Uniform Resource Locator), URC (Uniform Resource Characteristic), etc. in UNIX (R), Windows (R), and the like. Note that the local index tables LIa to LId are index tables generated only for documents in the segments Sa to Sd.
[0018]
The arm index tables AIa-b, AIa-c, AIa-d, AIb-a, AIb-x, AIc-a, AIc-x, AId-a, and AId-x generate global index tables GIa to GId. This is an index table exchanged between neighboring segments. These arm index tables AIa-b, AIa-c, AIa-d, AIb-a, AIb-x, AIc-a, AIc-x, AId-a, and AId-x are registered in the local index tables LIa to LId. It is generated based on the keyword.
[0019]
The arm index tables AIa-b, AIa-c, AIa-d, AIb-a, AIb-x, AIc-a, AIc-x, AId-a, AId-x are included in the segments Sa to Sd. The number of neighboring segments is generated. Specifically, since the segment Sa has neighboring segments Sb to Sc, three arm index tables AIa-b, AIa-c, and AIa-d for exchanging with the neighboring segments Sb to Sc are provided. Generated. In addition, arm index tables AIb-a, AIc-a, and AId-a are also generated on the neighboring segments Sb to Sd side to be exchanged. That is, the arm index tables AIa-b, AIa-c, AIa-d and the arm index tables AIb-a, AIc-a, AId-a are the arms (connection portions) that connect the segment Sa and the neighboring segments Sb to Sd. Made at both ends.
[0020]
The arm index tables AIa-b, AIa-c, AIa-d, AIb-a, AIb-x, AIc-a, AIc-x, AId-a and AId-x are keyword lists (lists). It is divided into what is called the “branch arm index table” and what is called this “branch arm index table”. Specifically, the arm index table AIa-b for the neighboring segment Sb generated by the index update process in the segment Sa is referred to as a cluster arm index table. On the other hand, the arm index table AIb-a for this segment Sa generated by the index update process in the neighboring segment Sb is referred to as this bank arm index table. Similarly, the arm index tables AIa-c and AIa-d for the neighboring segments Sc and Sd of the segment Sa are referred to as the cross-arm index table, and the arm index tables AIc-a and AId-a for the segment Sa are referred to as the cross-arm index table. .
[0021]
The cluster index index AIa-b for the neighboring segment Sb is the sum of the list of keywords existing in the local index table LIa and the bank index tables AIc-a and AId-a other than the bank index table AIb-a in the segment Sb. Is generated as The bank index table AIa-c is generated as the sum of the list of keywords existing in the bank index table AIb-a, AId-a and the local index table LIa. The bank index table AIa-d is generated as the sum of the keyword lists existing in the bank index tables AIb-a and AIc-a and the local index table LIa. In other words, from the sum of the segment's own keyword list (local index table keyword list) and the neighboring segment keyword list (this bank arm index table), only the neighboring segment keyword list to be exchanged is excluded. The cross-arm index table is generated.
[0022]
The cluster arm index tables AIa-b, AIa-c, and AIa-d are arm index tables that are generated on the segment Sa side for each of the neighboring segments Sb to Sd, and are viewed from the neighboring segment Sb to Sd to be exchanged. In this case, this bank arm index table is used. Then, on the neighboring segments Sb to Sd side, as above, this bank arm is the sum of the keyword lists existing in this bank arm index table AIa-b, AIa-c, AIa-d, etc. and the local index tables LIlb to LId. Index tables AIb-a, AIc-a, AId-a, etc. are generated.
[0023]
In this way, when generating a pier arm index table, the pier arm index table for the other segment generated in one segment is connected to the other segment via the one segment and the one segment. A list of keywords with other segments. For example, the cluster index table AIa-b for the neighboring segment Sb in the segment Sa is the local index table LIa, LIc, in each segment Sc, Sd, etc. connected to the segment Sb via the segment Sa. It becomes a list of keywords such as LId. Conversely, the cluster index index AIb-a for the neighboring segment Sa in the segment Sb is the local index table LIb in the segment Sb and each segment (not shown) connected to the segment Sa via the segment Sb. It becomes a list of keywords such as.
[0024]
The global index table GIa in the segment Sa is obtained by adding the contents of this bank arm index table AIb-a, AIc-a, AId-a to the local index table LIa. Similarly, the global index tables GIb to GId of the segments Sb to Sd are obtained by adding contents such as this bank index table AIa-b, AIa-c, AIa-d to the local index tables LIb to LId.
[0025]
In the global index tables GIa to GId, in addition to the information of the local index tables LIa to LId (index information indicating the location of documents in the segments Sa to Sd), neighboring segment identification codes are registered. In the global index tables GIa to GId, the neighboring segment identification code is registered as information indicating that the neighboring segment holds the corresponding document of the keyword. For example, for the global index table GIa in the segment Sa, when registering a keyword of the adjacent arm index table AIa-b of the neighboring segment Sb, the identification code of the neighboring segment Sb is registered together with the keyword. When searching for keywords, a search result list is generated based on the global index tables GIa to GId.
[0026]
Specifically, for example, the specified keyword is searched from the global index table GIa, and if the location of the corresponding document is in the segment Sa, the location information of the document is added to the search result list as it is. Further, if the identification code of the neighboring segment Sb is registered in the global index table GIa, the designated keyword is similarly searched for the global index table GIb of the neighboring segment Sb, and the location information of the corresponding document is searched. Added to the result list. In this way, keyword search processing is repeatedly performed by tracing between neighboring segments based on information in the global index table. When the number of segments passed through reaches the designated upper limit, the keyword search process is performed until the segment indicated by the neighboring segment identification code is the segment where the search is started.
[0027]
FIG. 2 is a schematic configuration diagram of the segment Sa. The segment Sa is configured by the
[0028]
Therefore, the text search system is constructed by linking a plurality of
[0029]
The
[0030]
The
[0031]
The
[0032]
The
[0033]
First, a method for creating the local index table 34 will be described.
The local index creation means 21 sequentially extracts path character strings from the segment definition table 32 and recognizes the path of the directory to be searched on the
[0034]
The document table 33 is a table created in order to avoid redundancy when a path to the same document is handled as a character string, and corresponds to a path (document path character string) indicating the location of the document and the document. It is a list (list) composed of document codes (a sequence of integer values) to be executed. Simply, a list of document path character strings may be used, and a numerical value indicating the order on the list may be used as the document code. The document path character string uses a path expression in the
[0035]
For each document collected based on the segment definition table 32, the local index creation means 21 uses the above-described Japanese morphological analysis system to extract words and determine parts of speech, and then extracts proper nouns as keywords. To do. Then, the local index table 34 is created based on the extracted keywords.
[0036]
As shown in FIG. 3, the local index table 34 includes a character string of a keyword KW (KW1, KW2,...) And a document code CD (CD1, CD2,..., CDx) of a document including the keyword as constituent elements. It is a table to do. When the local index table 34 is created, each keyword KW is searched for the presence / absence of an entry in the local index table 34. If there is an entry, the document code CD is added to the keyword KW on the table 34. If there is no entry, an entry for the keyword KW is newly added, and the document code CD for the keyword KW is written. The addition of the keyword KW and the document code CD is repeatedly performed for all keywords KW extracted from each document. As a result, a local index table 34 for each document within the range defined in the segment definition table 32 is created. A binary tree method or the like is known as a method for searching for an arbitrary keyword KW at high speed from the local index table 34.
[0037]
The neighboring segment table 35 is a setting of a segment to be a neighboring segment, and includes a list of network addresses of the
[0038]
Next, a method for creating an arm index table will be described.
The pier arm index creation means 22 generates a pier arm index table 38 of each neighboring segment based on the local index table 34, the neighboring segment table 35, and the pier arm index table 37.
[0039]
Specifically, the hindrest index creation means 22 recognizes the other
[0040]
The cluster index table 38 is an arm index table created for each neighboring segment, and when viewed from the neighboring segment side to be exchanged, this bank index table 37. That is, when the arm index table is created on the neighboring segment side, the bank arm index table 38 is transferred to the neighboring segment, and the arm index table 38 is used as this bank arm index table in the neighboring segment.
[0041]
Next, a method for creating the global index table 36 will be described.
The global index creation means 23 generates a global index table 36 based on the document table 33, the local index table 34, the neighboring segment table 35, and the bank arm index table 37. As shown in FIG. 4, the global index table 36 is input with the neighborhood segment identification code CS (CSb, CSd, CSc,...) In addition to the contents of the local index table 34 of FIG. That is, in the global index table 36, the document stored on the
[0042]
Specifically, the global index creating means 23 first copies the contents of the local index table 34 to the global index table 36 as they are. Thereafter, the global index creation means 23 sequentially extracts the keyword KW for each bank arm index table 37. Here, for each keyword KW, the presence / absence of an entry for the keyword KW in the global index table 36 is searched. If there is an entry, the neighboring segment identification code CS is added to the keyword KW on the table 36. If there is no entry, an entry for the keyword KW is newly added, and the neighboring segment identification code CS for the keyword KW is written. The addition of the keyword KW and the neighboring segment identification code CS is repeatedly performed for all the keywords KW in each of the bank arm index tables 37 received from the neighboring segment. Thereby, the global index table 36 is created.
[0043]
Here, when there are a plurality of documents including the predetermined keyword KW on the
[0044]
Next, a search method for the keyword KW will be described.
In the document search system of this embodiment, a personal computer 11 (starting segment) for starting a keyword search is designated, and after the keyword search in the
[0045]
More specifically, the inquiry issuing means 25 causes the
[0046]
The keyword search means 24 starts keyword search in response to an inquiry from the inquiry issuing means 25 (keyword KW, number of search stages, inquiry identification code). The keyword search means always stands by in preparation for inquiries by communication from other
[0047]
The keyword search means 24 first refers to the
[0048]
The
[0049]
When the neighboring segment identification code CS is found in the global index table 36, the keyword search means 24 issues an inquiry to the corresponding neighboring segment (personal computer 11). At this time, the search stage number is decremented by 1, and the search stage number is sent together with the inquiry identification code and the keyword KW.
[0050]
The keyword search means 24 in the neighboring segment (personal computer 11) searches the specified keyword KW from the global index table 36 in the same manner as described above. Then, after generating the
[0051]
When the number of search stages included in the inquiry is 0, the keyword search means 24 does not make an inquiry to the neighboring segment (personal computer 11) and ignores the neighboring segment identification code CS in the global index table 36. Also in this case, the keyword search means 24 searches the location of the corresponding document in the
[0052]
If the same inquiry has already been processed, an inquiry identification code is registered in the
[0053]
When the host
[0054]
As described above, according to the above embodiment, the following effects can be obtained.
(1) The search keyword KW, the start segment (PC 11) for starting the search, and the segment search stage number are input, and each other set as a neighboring segment within the search range specified by the segment search stage number The keyword search is performed by tracing the
[0055]
(2) In the global index table 36, the neighboring segment identification code CS indicating that the neighboring segment holds the corresponding document of the keyword KW is registered, and each of the neighboring segments set as the neighboring segment based on the neighboring segment identification code CS is registered. The keyword search is performed by tracing the other
[0056]
(3) The inquiry issuing means 25 issues an inquiry identification code based on the input information, and the identification code is registered in the
[0057]
(4) For each
[0058]
(5) In the present embodiment, a document table 33 including a path indicating the location of a document and a document code CD corresponding to the document is created, and the local index table 34 or the like is created using the document code CD in the document table 33. A global index table 36 is created. In this way, it is possible to avoid redundancy when handling paths to the same document as character strings. Therefore, an increase in the storage area required for the index tables 34 and 36 can be suppressed.
[0059]
The above embodiment can be modified as follows.
In the above embodiment, the
[0060]
Further, a configuration may be adopted in which one personal computer handles a plurality of segments. Furthermore, documents in one personal computer may belong to different segments. The configuration of the segment and the segment processing means can be arbitrarily set depending on the processing efficiency and management convenience.
[0061]
-In above-mentioned embodiment, although the inquiry issuing means 25 is the structure which each
[0062]
In the first embodiment, the document table 33 including the path indicating the location of the document and the document code CD corresponding to the document is created, and the local index table 34 and the global index are created using the document code CD in the document table 33. Although the index table 36 is created, the present invention is not limited to this. The local index table 34 and the global index table 36 may be created using a path (document path character string) indicating the location of the document without using the document code CD of the document table 33.
[0063]
The various embodiments described above can be summarized as follows.
(Supplementary note 1) A document retrieval method for retrieving documents stored on a computer system,
A segment is set as a document management unit in the computer system,
The segment includes an index table that records a keyword, location information of a corresponding document including the keyword stored in the segment, and neighboring segment holding information indicating that a neighboring segment holds the corresponding document,
In the computer system, based on a search keyword, a start segment for starting a search, and a search stage number of a segment starting from the start segment, the index for a segment within a search range specified by the search stage number A document search method comprising: performing a keyword search based on neighboring segment possession information of a table, extracting location information of a corresponding document of a keyword from the index table of each segment, and generating a search result list.
(Additional remark 2) The computer which comprises the said computer system is
Documents are collected in segment units, and a local index table is created in which keywords existing in the documents and location information of the corresponding documents including the keywords are recorded.
For the keyword list existing in the local index table, the arm index table is created by excluding only the keyword list of the segment to be exchanged from the sum of the keyword list of the segment itself and the keyword list of the neighboring segments. make,
The arm index table is exchanged with the segment to be exchanged, and based on the exchanged arm index table and the local index table, the keyword and the location information of the corresponding document stored in the segment, , Create a global index table that records the holding information of the exchange partner's segment,
The document search method according to claim 1, wherein the search result list is generated by extracting location information of the corresponding document including the search keyword by referring to the global index table.
(Supplementary note 3) The supplementary note 2 is characterized in that a server is provided for each segment in the computer system, and the exchange of the arm index table and the search for keywords in other segments are performed by communication between servers. The document search method described.
(Supplementary note 4) A document table composed of a path indicating the location of the document and a document code corresponding to the document is created, and the index table is created using the document code in the document table. The document search method according to any one of appendices 1 to 3, which is characterized.
(Supplementary note 5) Any one of Supplementary notes 1 to 4, wherein an inquiry identification code corresponding to the input information is issued and the identification code is registered in the inquiry history list when searching for a keyword related to the inquiry identification code. The document search method described.
(Appendix 6) A document search program for searching a document stored on a computer system,
On the computer,
Set a segment as a management unit for the document, collect documents in the segment unit, keywords, location information of the document including the keyword stored in the segment, and neighboring segments own the document Means for creating an index table recording neighboring segment possession information indicating that
Means for taking as input information a search keyword, a start segment for starting the search, and the number of search stages of the segment starting from the start segment;
A keyword search based on neighboring segment holding information of the index table is performed on a segment within the search range specified by the search stage number, and the location information of the corresponding document of the search keyword is extracted from the index table of each segment. Act as a means to generate a search result list
Document search program characterized by
(Supplementary note 7) A document retrieval system for retrieving documents stored on a computer system,
A table for setting a segment as a document management unit in the computer system is stored in the storage means,
The segment includes an index table that records a keyword, location information of a corresponding document including the keyword stored in the segment, and neighboring segment holding information indicating that a neighboring segment holds the corresponding document,
Inquiry issuing means for making an inquiry using the search keyword, the start segment for starting the search, and the number of search stages of the segment starting from the start segment;
Keyword search means for referring to the index table and extracting the location information of the corresponding document of the search keyword to generate a search result list;
And a keyword search is performed by tracing each other segment based on neighboring segment holding information of the index table with respect to a segment within a search range specified by the number of search stages. .
(Supplementary note 8) A local index creating means for collecting documents in segment units and creating a local index table in which keywords existing in the documents and location information of the corresponding documents including the keywords are recorded;
For the keyword list existing in the local index table, the arm index table is created by excluding only the keyword list of the segment to be exchanged from the sum of the keyword list of the segment itself and the keyword list of the neighboring segments. Arm index creation means to create,
Based on the arm index table obtained by exchange between segments and the local index table, the keyword, the location information of the corresponding document stored in the segment, and the possession information of the exchange partner segment are recorded. Global index creation means to create a global index table
The document search system according to appendix 7, further comprising:
[0064]
【The invention's effect】
As described above in detail, according to the present invention, it is possible to provide a document search method, a document search program, and a document search system that can accurately perform keyword search.
[Brief description of the drawings]
FIG. 1 is a schematic configuration diagram illustrating a document search system according to an embodiment.
FIG. 2 is a schematic configuration diagram of a personal computer constituting the document search system.
FIG. 3 is an explanatory diagram of a local index table.
FIG. 4 is an explanatory diagram of a global index table.
[Explanation of symbols]
11 PC as a segment
15 Storage unit as storage means
21 Local index creation means
22 Cluster index creation means as arm index creation means
23 Global index creation means
24 Keyword search means
25 Inquiry issuing means
32 segment definition table
34 Local index table
35 Neighborhood segment table
36 Global Index Table
37 Kokonishi Arm Index Table
38 Higan Index Table
39 Inquiry History List
40 Search result list
CS identification code
KW keyword
Sa, Sb, Sc, Sd segments
GIa, GIb, GIc, GId Global index table
LIa, LIb, LIc, LId Local index table
AIa-b, AIa-c, AIa-d, AIb-a, AIb-x, AIc-a, AIc-x, AId-a, AId-x Arm index table
Claims (5)
前記コンピュータシステムにおける文書の管理単位としてセグメントが設定され、
前記セグメントは、キーワードと、セグメント内に保管された前記キーワードを含む該当文書の所在情報と、近隣のセグメントが該当文書を保有する旨を示す近隣セグメント保有情報とを記録したインデックステーブルを含み、
前記コンピュータシステムにおいて、検索キーワードと、検索を開始する開始セグメントと、該開始セグメントを起点としたセグメントの探索段数とに基づいて、前記探索段数で指定される検索範囲内のセグメントに対して前記インデックステーブルの近隣セグメント保有情報に基づくキーワード検索を行い、該各セグメントの前記インデックステーブルから検索キーワードの該当文書の所在情報を抽出して検索結果リストを生成することを特徴とする文書検索方法。A document search method for searching a document stored on a computer system, comprising:
A segment is set as a document management unit in the computer system,
The segment includes an index table that records a keyword, location information of a corresponding document including the keyword stored in the segment, and neighboring segment holding information indicating that a neighboring segment holds the corresponding document,
In the computer system, based on a search keyword, a start segment for starting a search, and a search stage number of a segment starting from the start segment, the index for a segment within a search range specified by the search stage number A document search method comprising: performing a keyword search based on neighboring segment possession information of a table, extracting location information of a document corresponding to a search keyword from the index table of each segment, and generating a search result list.
セグメント単位で文書の収集を行い、文書中に存在するキーワードと、該キーワードを含む該当文書の所在情報とを記録したローカルインデックステーブルを作成し、
前記ローカルインデックステーブルに存在するキーワードのリストについて、セグメント自身のキーワードのリストと、近隣のセグメントのキーワードのリストとの総和から、交換先となるセグメントのキーワードのリストのみを排除して腕インデックステーブルを作成し、
前記交換先となるセグメントとの間で腕インデックステーブルを交換し、その交換した腕インデックステーブルと前記ローカルインデックステーブルとに基づいて、前記キーワードと、前記セグメント内に保管された該当文書の所在情報と、交換相手のセグメントの保有情報とを記録したグローバルインデックステーブルを作成し、
前記グローバルインデックステーブルを参照することで前記検索キーワードを含む該当文書の所在情報を抽出して検索結果リストを生成することを特徴とする請求項1に記載の文書検索方法。The computer constituting the computer system is:
Documents are collected in segment units, and a local index table is created in which keywords existing in the documents and location information of the corresponding documents including the keywords are recorded.
For the keyword list existing in the local index table, the arm index table is created by excluding only the keyword list of the segment to be exchanged from the sum of the keyword list of the segment itself and the keyword list of the neighboring segments. make,
The arm index table is exchanged with the segment to be exchanged, and based on the exchanged arm index table and the local index table, the keyword and the location information of the corresponding document stored in the segment, , Create a global index table that records the holding information of the exchange partner's segment,
The document search method according to claim 1, wherein the search result list is generated by extracting location information of a corresponding document including the search keyword by referring to the global index table.
コンピュータに、
前記文書の管理単位としてのセグメントを設定し、セグメント単位で文書の収集を行い、キーワードと、前記セグメント内に保管された前記キーワードを含む該当文書の所在情報と、近隣のセグメントが該当文書を保有する旨を示す近隣セグメント保有情報とを記録したインデックステーブルを作成する手段と、
検索キーワードと、検索を開始する開始セグメントと、該開始セグメントを起点としたセグメントの探索段数とを入力情報として取り込む手段と、
前記探索段数で指定される検索範囲内のセグメントに対して前記インデックステーブルの近隣セグメント保有情報に基づくキーワード検索を行い、該各セグメントの前記インデックステーブルから検索キーワードの該当文書の所在情報を抽出して検索結果リストを生成する手段として機能させること
を特徴とする文書検索プログラム。A document search program for searching a document stored on a computer system,
On the computer,
Set a segment as a management unit for the document, collect documents in the segment unit, keywords, location information of the document including the keyword stored in the segment, and neighboring segments own the document Means for creating an index table recording neighboring segment possession information indicating that
Means for taking as input information a search keyword, a start segment for starting the search, and the number of search stages of the segment starting from the start segment;
A keyword search based on neighboring segment holding information of the index table is performed on a segment within the search range specified by the search stage number, and the location information of the corresponding document of the search keyword is extracted from the index table of each segment. A document search program which functions as means for generating a search result list.
前記コンピュータシステムにおける文書の管理単位としてのセグメントを設定するためのテーブルが記憶手段に記憶され、
前記セグメントは、キーワードと、セグメント内に保管された前記キーワードを含む該当文書の所在情報と、近隣のセグメントが該当文書を保有する旨を示す近隣セグメント保有情報とを記録したインデックステーブルを含み、
検索キーワードと、検索を開始する開始セグメントと、該開始セグメントを起点としたセグメントの探索段数とを入力情報として問い合わせを行う問い合わせ発行手段と、
前記インデックステーブルを参照し、前記検索キーワードの該当文書の所在情報を抽出して検索結果リストを生成するキーワード検索手段と、
を備え、前記探索段数で指定される検索範囲内のセグメントに対し前記インデックステーブルの近隣セグメント保有情報に基づいて各他のセグメントを辿ってキーワード検索を行うようにしたことを特徴とする文書検索システム。A document retrieval system for retrieving documents stored on a computer system,
A table for setting a segment as a document management unit in the computer system is stored in the storage means,
The segment includes an index table that records a keyword, location information of a corresponding document including the keyword stored in the segment, and neighboring segment holding information indicating that a neighboring segment holds the corresponding document,
Inquiry issuing means for making an inquiry using the search keyword, the start segment for starting the search, and the number of search stages of the segment starting from the start segment;
Keyword search means for referring to the index table and extracting the location information of the corresponding document of the search keyword to generate a search result list;
And a keyword search is performed by tracing each other segment based on neighboring segment holding information of the index table with respect to a segment within a search range specified by the number of search stages. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002213929A JP4223756B2 (en) | 2002-07-23 | 2002-07-23 | Document search method, document search program, and document search system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002213929A JP4223756B2 (en) | 2002-07-23 | 2002-07-23 | Document search method, document search program, and document search system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004054757A JP2004054757A (en) | 2004-02-19 |
JP4223756B2 true JP4223756B2 (en) | 2009-02-12 |
Family
ID=31936395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002213929A Expired - Fee Related JP4223756B2 (en) | 2002-07-23 | 2002-07-23 | Document search method, document search program, and document search system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4223756B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101113787B1 (en) * | 2009-10-28 | 2012-02-27 | 동국대학교 산학협력단 | Apparatus and method for indexing text |
-
2002
- 2002-07-23 JP JP2002213929A patent/JP4223756B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004054757A (en) | 2004-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6701310B1 (en) | Information search device and information search method using topic-centric query routing | |
JP3755134B2 (en) | Computer-based matched text search system and method | |
US6654742B1 (en) | Method and system for document collection final search result by arithmetical operations between search results sorted by multiple ranking metrics | |
US20020099685A1 (en) | Document retrieval system; method of document retrieval; and search server | |
Dumani et al. | A framework for argument retrieval: Ranking argument clusters by frequency and specificity | |
WO2005111787A2 (en) | A method for indexing and searching geocoded pages of a web site | |
KR20060045720A (en) | Query to task mapping | |
US20100293159A1 (en) | Systems and methods for extracting phases from text | |
CN113190687B (en) | Knowledge graph determining method and device, computer equipment and storage medium | |
CN113297457B (en) | High-precision intelligent information resource pushing system and pushing method | |
US20060101004A1 (en) | Method and system for retrieving a document | |
Kao et al. | Entropy-based link analysis for mining web informative structures | |
KR20180129001A (en) | Method and System for Entity summarization based on multilingual projected entity space | |
Duhan et al. | A novel approach for organizing web search results using ranking and clustering | |
CN113495945B (en) | Text searching method, device and storage medium | |
JP2001188802A (en) | Device and method for retrieving information | |
Pradhan et al. | Comparison-based study of pagerank algorithm using web structure mining and web content mining | |
KR101846347B1 (en) | Method and apparatus for managing massive documents | |
JP4223756B2 (en) | Document search method, document search program, and document search system | |
KR100659370B1 (en) | Method for constructing a document database and method for searching information by matching thesaurus | |
JP4128212B1 (en) | Relevance calculation system between keywords and relevance calculation method | |
JP3632354B2 (en) | Information retrieval device | |
Zhang | Application of data storage and information search in english translation corpus | |
KR101117171B1 (en) | Method, system and computer-readable recording medium for creating data for retrieval | |
JP5199968B2 (en) | Keyword type determination device, keyword type determination method, and keyword type determination program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050516 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080612 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20080730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081120 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121128 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121128 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131128 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |