JP2000057151A

JP2000057151A - 文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体

Info

Publication number: JP2000057151A
Application number: JP10221829A
Authority: JP
Inventors: Natsuko Sugaya; 菅谷　　奈津子; Katsumi Tada; 勝己多田; Takuya Okamoto; 卓哉岡本; Tadataka Matsubayashi; 忠孝松林; Yasushi Kawashita; 靖司川下
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-08-05
Filing date: 1998-08-05
Publication date: 2000-02-25
Anticipated expiration: 2018-08-05
Also published as: JP3620968B2

Abstract

(57)【要約】【課題】検索性能の高速化を図ると共に総インデクス
サイズの増加を最小限に抑えることが可能な技術を提供
する。【解決手段】検索タームの部分文字列と同じ位置関係
を持つテキストデータの位置情報を抽出するインデクス
検索ステップと、テキストデータの部分文字列に対応す
るインデクスのサイズと予め定められた基準インデクス
サイズとを比較するインデクスサイズ比較ステップと、
該インデクスのサイズが該基準インデクスサイズより大
きい場合に、該インデクスに対応する部分文字列が前記
インデクス検索ステップで検索される可能性が高いかど
うかを判定する検索可能性判定ステップと、該部分文字
列が前記インデクス検索ステップで検索される可能性が
高い場合に、該部分文字列に文字列を追加した拡張部分
文字列と該拡張部分文字列に対応するインデクスを作成
する文字列インクリメントステップを有するもの。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は新聞記事や特許明細
書の様に日々増加していく大規模な文書データベースか
ら所望の文書を探索する文書検索システムに関し、特に
指定した文字列の存在を文書の全文を対象として探索す
るフルテキストサーチの為の文書検索システムに適用し
て有効な技術に関するものである。

【０００２】

【従来の技術】指定された検索文字列（以下、検索ター
ムと呼ぶ）が含まれる文書を大規模な文書データベース
から高速に探し出す方法として、ｎ−ｇｒａｍインデク
ス方式（以下、方法１と呼ぶ）がある。

【０００３】ｎ−ｇｒａｍインデクス方式とは、文書の
登録時に文書中の全てのｎ−ｇｒａｍ（連続するｎ文字
からなる文字列）についてその出現位置情報をインデク
スとして格納しておき、検索時には検索ターム中のｎ−
ｇｒａｍに対してそのインデクスを参照し、検索ターム
中の位置関係とインデクス中の位置関係が等しいかどう
かを判定（以下、隣接判定と呼ぶ）することによって、
検索タームが出現する文書を探し出す方法である。

【０００４】図２０は従来の１−ｇｒａｍインデクス方
式の一例を示す図である。本図に示す様に、方法１で
は、文書の登録時に文書中の全てのｎ−ｇｒａｍ（図２
０の例ではｎ＝１）についてその出現位置情報をインデ
クスとして格納する。例えば、“に”という１−ｇｒａ
ｍは文書‘００１’の‘３’文字目に出現するので、そ
の文書番号‘００１’と文字位置‘３’を“に”に対応
するインデクス２００に格納する。

【０００５】検索時には、指定された検索タームから抽
出したｎ−ｇｒａｍのインデクス間で出現位置情報の隣
接判定を行うことにより、検索タームの出現位置情報を
取得する。例えば、“微生物”が検索タームとして指定
された場合には、この検索タームからまず、１−ｇｒａ
ｍ“微”、“生”及び“物”を抽出する。そして、
“微”に対応するインデクス２０１、“生”に対応する
インデクス２０２及び“物”に対応するインデクス２０
３の間で出現位置情報の隣接判定を行うことによって、
“微生物”の出現位置情報を取得する。本図の例では、
“微”、“生”及び“物”が文書番号‘００１’の
‘９’文字目からと、文書番号‘０５６’の‘５’文字
目からとで隣り合っているので、それらの出現位置に
“微生物”が存在することが分かる。

【０００６】以上の様に方法１では、文書を走査するこ
となしにインデクスの読込みと出現位置情報の隣接判定
だけで検索が行える為、大規模な文書データベースに適
用した場合でも高速なフルテキストサーチを実現できる
可能性がある。

【０００７】しかし方法１では、ｎを１とすると、すな
わち１−ｇｒａｍのインデクスを用いると、１−ｇｒａ
ｍは全文書中（データベース中）における出現頻度が高
い為、一つの１−ｇｒａｍに対する出現位置情報が増
え、個々のインデクスのサイズが大きくなる。この為イ
ンデクスの読込みに時間が掛かるばかりでなく、出現位
置情報による隣接判定の回数も増える為、検索に時間が
掛かるという問題が生じる。

【０００８】検索を高速にする為にはｎの値を増やした
サイズの小さなインデクスを作成する必要があるが、短
い検索タームが指定された場合でも検索が行える様にｎ
の小さなインデクスも全て作成しておかなければならな
い。その結果、総インデクスサイズが膨大になってしま
う。

【０００９】また、方法１の様なインデクス型の文書検
索方法では、“キー探索技法−ＩＶトライとその応用”
（青江順一著、情報処理Ｖｏｌ．３４、Ｎｏ．２、１９
９３、ｐｐ．２４４−２５１）に記載されているトライ
の様な木構造で文字列（方法１の場合はｎ−ｇｒａｍ）
を管理する必要がある。

【００１０】トライとは検索対象となる文字列すなわち
キーワードの集合（以下、キー集合と呼ぶ）における各
キーワード（以下、キーと呼ぶ）に共通な前方部分文字
列を共通の節で括り出して作られる木構造である。

【００１１】このトライは登録や検索の際に用いられ、
登録する文字列或いは検索ターム中の文字列でキーを辿
ってトライを探索することにより、その文字列に対応す
るインデクスを指し示すポインタ情報を取得することが
できる。トライの探索に掛かる時間はキーの数に依存し
ない為、大規模なデータベースに適用した場合でも、高
速にキーワードを探索できるという特徴がある。

【００１２】図２１は従来のキー集合｛ｂａｂｙ、ｂａ
ｄｇｅ、ｂａｄｇｅｒ、ｊａｒ｝に対応するトライの構
成を示す図である。このトライでは節１（３００）から
節２（３０１）へ枝ラベルｂ（３０２）が定義され、二
重丸で示すキーの末尾にあたる節にはそのキーに対する
インデクスへのポインタ情報が設定されている。

【００１３】例えば、検索タームとして“ｂａｂｙ”が
指定された場合には、文字列“ｂａｂｙ”で本図のトラ
イを探索することにより、節５（３０３）に設定されて
いるポインタ情報Ｐｔ１が得られ、このポインタ情報Ｐ
ｔ１が示す先に検索ターム“ｂａｂｙ”に対応するイン
デクスが格納されていることになる。

【００１４】方法１において、このトライを用いてｎ−
ｇｒａｍを管理する際、個々のインデクスのサイズを小
さくして検索を高速にする為にｎ−ｇｒａｍを長くした
インデクスを作成すると、ｎ−ｇｒａｍの種類が増え、
トライの節が増える為、トライ全体の規模が膨大になっ
てしまうという問題がある。

【００１５】以上説明した、検索時間の長大化と、総イ
ンデクスサイズとインデクスを管理する木構造サイズの
巨大化という相反する問題を解決する為に、インデクス
のサイズがある基準値（以下、基準インデクスサイズと
呼ぶ）を超えたｎ−ｇｒａｍに対してのみ、ｎの値を増
やしてサイズの小さなインデクスを作成することによ
り、常にサイズの小さなインデクスの読込みと出現位置
情報の隣接判定で済む様にして、高速な検索を実現する
と共に、総インデクスサイズ及びインデクスを管理する
木構造（以下、トライで説明する）サイズの巨大化を防
ぐ文書検索方法及び装置が特開平８−１９４７１８号公
報（以下、公知例１と呼ぶ）に開示されている。

【００１６】図２２は従来の公知例１の処理内容を示す
図である。本方法では、文書の登録時にｎ−ｇｒａｍに
対応するインデクスを作成する共に、文書中の２文字の
接続情報をトライ４０１に登録する。そして、文書を登
録していき、インデクスのサイズが基準インデクスサイ
ズを超えた場合には、対応するｎ−ｇｒａｍに文字列を
追加したｎ−ｇｒａｍ（以下、拡張ｎ−ｇｒａｍと呼
ぶ）のインデクスを作成する。

【００１７】以下、図２２を用いてインデクスの作成方
法を具体的に説明する。ｎ−ｇｒａｍに文字列を追加し
た拡張ｎ−ｇｒａｍを作成する為には、まずトライ４０
１を参照してそのｎ−ｇｒａｍに続く可能性のあるｎ−
ｇｒａｍを取得する。

【００１８】そして、検出されたｎ−ｇｒａｍ（以下、
接続ｎ−ｇｒａｍと呼ぶ）のインデクスと基準インデク
スサイズよりサイズが大きくなったｎ−ｇｒａｍ（以
下、基準インデクス超過ｎ−ｇｒａｍと呼ぶ）のインデ
クスの間で出現位置情報の隣接判定を行うことにより、
拡張ｎ−ｇｒａｍのインデクスを作成する。

【００１９】本図の例では、“生”という１−ｇｒａｍ
に対応するインデクスが基準インデクスサイズより大き
くなっており、“生”が基準インデクス超過ｎ−ｇｒａ
ｍとなる。ここで、まず“生”という文字でトライ４０
１を探索し、“生”に続く接続ｎ−ｇｒａｍを取得す
る。本図に示す例では、トライ４０１を探索することに
より、“生”の後ろに“物”と“息”が続くことが分か
る。そこで、“生”と“物”、“生”と“息”のインデ
クスの間で出現位置情報の隣接判定を行うことにより、
“生物”、“生息”といった“生”に文字列を追加した
拡張ｎ−ｇｒａｍのインデクス４００を作成する。

【００２０】以上の様に、公知例１に開示されている文
書検索方法及び装置を用いることにより、サイズが大き
く検索に時間が掛かるインデクスに対しては、そのｎ−
ｇｒａｍに文字列を追加した拡張ｎ−ｇｒａｍに対する
インデクスを作成する為、サイズの小さなインデクスの
読込みと出現位置情報の隣接判定で済む様になり、高速
な検索を実現することができる様になる。また、それ以
外のインデクスに対しては、ｎ−ｇｒａｍの長さを増や
したインデクスを作成しない為、総インデクスサイズ及
びｎ−ｇｒａｍを管理する木構造（トライ）サイズの巨
大化を防ぐことができる。

【００２１】

【発明が解決しようとする課題】以上説明した公知例１
に開示されている文書検索方法及び装置によると、基準
インデクスサイズよりサイズが大きく検索に時間が掛か
るインデクスに対しては、そのキーであるｎ−ｇｒａｍ
に文字列を追加したサイズの小さなインデクスを作成す
ることになる為、サイズの小さなインデクスの読込みと
出現位置情報の隣接判定で済む様になり、高速な検索を
実現することが可能となる。また、基準インデクスサイ
ズよりサイズの小さなインデクスに対しては、それ以上
ｎ−ｇｒａｍを長くしたインデクスを作成しない為、総
インデクスサイズ及びｎ−ｇｒａｍを管理する木構造
（トライ）サイズの巨大化を防ぐことが可能となる。

【００２２】しかし、公知例１に開示されている文書検
索方法及び装置では、インデクスのサイズのみに基づい
てｎ−ｇｒａｍに文字列を追加した拡張ｎ−ｇｒａｍの
インデクスを作成している。その結果、実際には検索に
あまり用いられることのないｎ−ｇｒａｍ（例えば、助
詞として用いられる平仮名等）に対してもインデクスサ
イズが大きくなった場合には、拡張ｎ−ｇｒａｍのイン
デクスが作成されることになる。

【００２３】これらのｎ−ｇｒａｍは検索にあまり用い
られることがない為、インデクスサイズというコストを
支払っても、検索性能の高速化というメリットが得られ
ないｎ−ｇｒａｍであり、無駄なインデクスになるとい
う問題がある。

【００２４】本発明の目的は上記問題を解決し、検索性
能の高速化を図ると共に総インデクスサイズの増加を最
小限に抑えることが可能な技術を提供することにある。

【００２５】

【課題を解決するための手段】本発明は、特定の検索タ
ームを含むテキストデータを検索する文書検索システム
において、テキストデータから作成した部分文字列に対
応するインデクスのサイズが基準インデクスサイズより
大きく、該インデクスに対応する部分文字列が検索され
る可能性が高い場合に、該部分文字列に文字列を追加し
た拡張部分文字列と該拡張部分文字列に対応するインデ
クスを作成するものである。

【００２６】本発明の文書検索システムでは、まずイン
デクス作成登録ステップで、文書情報を文字コードデー
タとして蓄積したテキストデータベースを対象として、
登録対象テキストデータから所定の部分文字列と、該部
分文字列の該対象テキストデータにおけるテキスト識別
情報及び出現位置情報を含む位置情報とを抽出し、該位
置情報をインデクスとして記憶し、前記部分文字列と前
記インデクスの記憶位置を管理する為の部分文字列テー
ブルを更新する。

【００２７】特定の検索タームを含むテキストデータを
検索する場合には、インデクス検索ステップにより、前
記部分文字列テーブルを参照して検索タームから所定の
部分文字列を抽出し、該当インデクスを読み出し、該検
索タームにおける部分文字列と同じ位置関係を持つテキ
ストデータの位置情報を抽出する。

【００２８】一方、インデクスサイズ比較ステップで
は、テキストデータから作成した部分文字列に対応する
インデクスのサイズと予め定められた基準インデクスサ
イズとを比較し、該インデクスのサイズが該基準インデ
クスサイズより大きい場合には、検索可能性判定ステッ
プにより、該インデクスに対応する部分文字列が前記イ
ンデクス検索ステップで検索される可能性が高いかどう
かを判定する。

【００２９】該部分文字列が前記インデクス検索ステッ
プで検索される可能性が高い場合には、文字列インクリ
メントステップにより、該部分文字列に文字列を追加し
た拡張部分文字列と該拡張部分文字列に対応するインデ
クスを作成し、前記部分文字列テーブルを更新する。

【００３０】前記検索可能性判定ステップは、特定のイ
ンデクスに対応する部分文字列が前記インデクス検索ス
テップで検索される可能性が高いかどうかを、例えばイ
ンデクスに対応する参照頻度に応じて判定する。

【００３１】すなわち、前記インデクス検索ステップで
インデクスの読み出しを行った際に、インデクスの読み
出し回数を管理する参照頻度テーブルを参照頻度テーブ
ル更新ステップにより更新し、前記検索可能性判定ステ
ップである参照頻度比較ステップは、前記参照頻度テー
ブル内の該インデクスに対応する参照頻度と予め定めら
れた基準参照頻度とを比較し、前記参照頻度テーブル内
の該インデクスに対応する参照頻度が基準参照頻度より
大きい場合には、該部分文字列に文字列を追加した拡張
部分文字列と該拡張部分文字列に対応するインデクスを
文字列インクリメントステップにより作成する。

【００３２】また前記検索可能性判定ステップは、特定
のインデクスに対応する部分文字列が前記インデクス検
索ステップで検索される可能性が高いかどうかを、ユー
ザが入力した重要語に応じて判定しても良い。

【００３３】すなわち、ユーザが入力した重要語を重要
語登録ステップにより重要語テーブルに格納しておき、
前記検索可能性判定ステップである重要文字列検索ステ
ップは、該インデクスに対応する部分文字列が前記重要
語テーブルに格納されている重要語に含まれるかどうか
を調べる。該インデクスに対応する部分文字列が前記重
要語テーブルの重要語に含まれている場合には、該部分
文字列に文字列を追加した拡張部分文字列と該拡張部分
文字列に対応するインデクスを文字列インクリメントス
テップにより作成する。

【００３４】また前記検索可能性判定ステップは、特定
のインデクスに対応する部分文字列が前記インデクス検
索ステップで検索される可能性が高いかどうかを、相互
に関連のある語を予め関連付けた関連語に応じて判定し
ても良い。

【００３５】すなわち、相互に関連のある語を予め関連
付けて格納した関連語ファイルを作成しておき、前記検
索可能性判定ステップである展開語検索ステップは、該
インデクスに対応する部分文字列が前記関連語テーブル
に格納されている関連語に含まれるかどうかを調べる。
該インデクスに対応する部分文字列が前記関連語テーブ
ルの関連語に含まれている場合には、該部分文字列に文
字列を追加した拡張部分文字列と該拡張部分文字列に対
応するインデクスを文字列インクリメントステップによ
り作成する。

【００３６】なお前記関連語ファイルは、前記インデク
ス検索ステップで検索ターム及び関連語における部分文
字列と同じ位置関係を持つテキストデータの位置情報を
抽出する際に、検索ターム展開ステップにより用いられ
るファイルである。

【００３７】前記の様に本発明によれば、基準インデク
スサイズよりインデクスサイズが大きい部分文字列に対
して、そのインデクスへの参照頻度と予め定められた基
準参照頻度とを比較し、基準参照頻度より多い場合には
その部分文字列に文字列を増やしたサイズの小さなイン
デクスを作成することにより、インデクスが大きく検索
に時間が掛かり、かつ検索に用いられる可能性が高い部
分文字列に対しては、検索を高速化することが可能とな
る。

【００３８】また、インデクスは大きいが、実際には検
索にあまり用いられることのない部分文字列（例えば、
助詞として用いられる平仮名等）に対しては、文字列を
増やしたインデクスを作成しない為、総インデクスサイ
ズを抑えることが可能となる。その結果、総インデクス
サイズの最小限の増加で、検索性能の向上を図ることが
可能な文書検索システムを実現することができる。

【００３９】以上の様に本発明の文書検索システムによ
れば、インデクスサイズが大きく検索に時間が掛かり、
かつ検索に用いられる可能性が高い部分文字列に対して
のみ、文字数を増やしたサイズの小さなインデクスを作
成するので、検索性能の高速化を図ると共に総インデク
スサイズの増加を最小限に抑えることが可能である。

【００４０】

【発明の実施の形態】（実施形態１）以下にサイズが大
きく参照頻度の高いインデクスについて、当該インデク
スに対応するｎ−ｇｒａｍに文字列を追加した拡張ｎ−
ｇｒａｍと拡張ｎ−ｇｒａｍに対応するインデクスを作
成する実施形態１の文書検索システムについて説明す
る。

【００４１】図１は本実施形態の文書検索システムの概
略構成を示す図である。本実施形態の文書検索システム
は、ディスプレイ１００、キーボード１０１、中央演算
処理装置（ＣＰＵ）１０２、テキスト１０７及びインデ
クス１０８を格納する二次記憶装置としての磁気ディス
ク装置１０６、フロッピディスクドライブ（ＦＤＤ）１
０４、主記憶装置１０９から構成される。また、バス１
０３にはＣＰＵ１０２、磁気ディスク装置１０６、ＦＤ
Ｄ１０４及び主記憶装置１０９が接続されている。

【００４２】フロッピディスク１０５に格納されている
情報は、ＦＤＤ１０４によりアクセスされる。主記憶装
置１０９には、システム制御プログラム１１０、文書登
録制御プログラム１１１、インクリメント制御プログラ
ム１１２、検索制御プログラム１１３、インデクス作成
登録プログラム１１４、インクリメントプログラム１１
５、検索プログラム１１９が格納されると共にトライ格
納テーブル１２２、参照頻度テーブル１２３及びワーク
エリア１２４が確保される。

【００４３】インクリメントプログラム１１５は、イン
デクスサイズ比較プログラム１１６、参照頻度比較プロ
グラム１１７及びｎ−ｇｒａｍインクリメントプログラ
ム１１８で構成される。検索プログラム１１９はインデ
クス検索プログラム１２０及び参照頻度テーブル更新プ
ログラム１２１で構成される。

【００４４】以上のプログラムは磁気ディスク装置１０
６、フロッピディスク１０５やＣＤ−ＲＯＭ等のコンピ
ュータで読み書きできる記録媒体に格納することもでき
る。

【００４５】なおインデクス検索プログラム１２０は、
検索タームの部分文字列に対応するインデクスにより、
前記検索タームにおける部分文字列と同じ位置関係を持
つテキストデータの位置情報を抽出するインデクス検索
ステップの処理を行う。

【００４６】インデクスサイズ比較プログラム１１６
は、テキストデータから作成した部分文字列に対応する
インデクスのサイズと予め定められた基準インデクスサ
イズとを比較するインデクスサイズ比較ステップの処理
を行う。

【００４７】参照頻度比較プログラム１１７は、該イン
デクスのサイズが該基準インデクスサイズより大きい場
合に、参照頻度テーブル１２３内の該インデクスに対応
する参照頻度と予め定められた基準参照頻度とを比較し
て、該インデクスに対応する部分文字列がインデクス検
索プログラム１２０で検索される可能性が高いかどうか
を判定する参照頻度比較ステップの処理を行う。

【００４８】ｎ−ｇｒａｍインクリメントプログラム１
１８は、該部分文字列がインデクス検索プログラム１２
０で検索される可能性が高い場合に、該部分文字列に文
字列を追加した拡張部分文字列と該拡張部分文字列に対
応するインデクスを作成する文字列インクリメントステ
ップの処理を行う。

【００４９】参照頻度テーブル更新プログラム１２１
は、インデクスの読み出し回数を管理する参照頻度テー
ブル１２３を更新する参照頻度テーブル更新ステップの
処理を行う。

【００５０】システム制御プログラム１１０はキーボー
ド１０１からの指示を受け起動する。文書登録制御プロ
グラム１１１はキーボード１０１からの文書登録指示に
より、システム制御プログラム１１０によって起動さ
れ、インデクス作成登録プログラム１１４の制御を行
う。

【００５１】インクリメント制御プログラム１１２はキ
ーボード１０１からのインクリメント指示により、シス
テム制御プログラム１１０によって起動され、インクリ
メントプログラム１１５の制御を行う。検索制御プログ
ラム１１３はキーボード１０１からの検索指示により、
システム制御プログラム１１０によって起動され、検索
プログラム１１９の制御を行う。

【００５２】以下、本実施形態における処理内容の概要
を説明する。登録の際には、キーボード１０１からの文
書登録指示により、システム制御プログラム１１０が文
書登録制御プログラム１１１を起動する。そして、文書
登録制御プログラム１１１はインデクス作成登録プログ
ラム１１４を起動し、フロッピディスク１０５からテキ
ストデータを読み込んでテキスト１０７として磁気ディ
スク装置１０６に格納すると共に、テキスト１０７にお
ける所定のｎ−ｇｒａｍの出現位置情報をインデクス１
０８として磁気ディスク装置１０６に格納する。

【００５３】このインデクス作成登録プログラム１１４
の処理内容は公知例１に開示されている方法と同様であ
る。またテキストデータはフロッピディスク１０５を用
いて入力するだけに限らず、通信回線やＣＤ−ＲＯＭ装
置（図示せず）等を用いて他の装置から入力する様な構
成をとることも可能である。

【００５４】検索の際には、キーボード１０１からの検
索指示により、システム制御プログラム１１０が検索制
御プログラム１１３を起動し、検索制御プログラム１１
３が検索プログラム１１９を起動する。

【００５５】図２は本実施形態の検索プログラム１１９
の処理内容を示す図である。検索プログラム１１９は、
図２のＰＡＤ（ＰｒｏｂｌｅｍＡｎａｌｙｓｉｓＤ
ｉａｇｒａｍ）図に示す様に、ステップ６００でインデ
クス検索プログラム１２０を起動し、キーボード１０１
から入力された検索タームのテキスト１０７における出
現位置情報をインデクス１０８から取得する。このイン
デクス検索プログラム１２０の処理内容は方法１及び公
知例１に開示されている方法と同様である。

【００５６】そして、ステップ６０１で参照頻度テーブ
ル更新プログラム１２１を起動し、インデクス検索プロ
グラム１２０で用いたインデクスに対応する参照頻度テ
ーブル１２３内の該当参照頻度を更新する。

【００５７】インクリメントの際には、キーボード１０
１からのインクリメント指示により、システム制御プロ
グラム１１０がインクリメント制御プログラム１１２を
起動し、インクリメント制御プログラム１１２がインク
リメントプログラム１１５を起動する。

【００５８】図３は本実施形態のインクリメントプログ
ラム１１５の処理内容を示す図である。図３に示す様に
インクリメントプログラム１１５は、ステップ７００で
全てのインデクスに対してステップ７０１からステップ
７０５までの一連の処理を繰り返す。

【００５９】この繰り返し処理中でインクリメントプロ
グラム１１５は、まずステップ７０１でインデクスサイ
ズ比較プログラム１１６を起動し、処理対象インデクス
のサイズと予め定められた基準インデクスサイズを比較
する。

【００６０】そして、ステップ７０２で処理対象インデ
クスが基準インデクスサイズより大きいと判断された場
合には、ステップ７０３で参照頻度比較プログラム１１
７を起動し、参照頻度テーブル１２３に格納されている
処理対象インデクスの参照頻度と予め定められた基準参
照頻度を比較する。

【００６１】そして、ステップ７０４で処理対象インデ
クスの参照頻度が基準参照頻度より多いと判断された場
合には、ステップ７０５でｎ−ｇｒａｍインクリメント
プログラム１１８を起動し、処理対象インデクスのキー
であるｎ−ｇｒａｍに文字列を追加したサイズの小さな
インデクスを作成する。このｎ−ｇｒａｍインクリメン
トプログラム１１８の処理内容は公知例１に開示されて
いる方法と同様である。

【００６２】図４は本実施形態の文書検索システムの処
理例を示す図である。以下、本実施形態の処理概要につ
いて図４を用いて説明する。インデクス作成登録プログ
ラム１１４の処理は、公知例１に開示されている方法と
同様なので省略する。

【００６３】まず、検索プログラム１１９の処理概要に
ついて説明する。インデクス検索プログラム１２０で
は、ユーザが入力した検索タームから、トライの様なｎ
−ｇｒａｍテーブルを参照して所定のｎ−ｇｒａｍを抽
出し、ｎ−ｇｒａｍに対応するインデクスの記憶位置を
取得する。そして、取得したｎ−ｇｒａｍに対応するイ
ンデクスの記憶位置からインデクスを読み出し、検索タ
ームにおけるｎ−ｇｒａｍと同じ位置関係を持つ位置情
報を抽出する。この位置情報取得ステップは方法１及び
公知例１に開示されている方法と同様の処理になる。

【００６４】参照頻度テーブル更新プログラム１２１で
は、位置情報取得ステップで読み出したインデクスの参
照頻度（読み出した回数）を更新する。図４の例では、
検索タームとして、“微生物”と“生物”が用いられた
ので、“微”に対応する参照頻度を‘１’“生”に対応
する参照頻度を‘２’“物”に対応する参照頻度を
‘２’に更新する。ここで、“に”に対応するインデク
スは検索に用いられていないので参照頻度は‘０’のま
まである。

【００６５】次に、インクリメントプログラム１１５の
処理概要を説明する。インデクスサイズ比較プログラム
１１６では、インデクス作成登録プログラム１１４によ
ってテキストデータから作成したｎ−ｇｒａｍに対応す
るインデクスのサイズと予め定められた基準インデクス
サイズとを比較する。

【００６６】インデクスサイズ比較プログラム１１６
で、ｎ−ｇｒａｍに対応するインデクスのサイズが予め
定められた基準インデクスサイズより大きいと判断され
た場合には、参照頻度比較プログラム１１７でインデク
スに対応する参照頻度を参照頻度テーブル１２３から取
得し、予め定められた基準参照頻度と比較する。

【００６７】参照頻度比較プログラム１１７で、ｎ−ｇ
ｒａｍに対応するインデクスの参照頻度が予め定められ
た基準参照頻度よりも多いと判断された場合には、ｎ−
ｇｒａｍインクリメントプログラム１１８で該当インデ
クスに対応するｎ−ｇｒａｍに文字列を追加した拡張ｎ
−ｇｒａｍと拡張ｎ−ｇｒａｍに対応するインデクスを
作成する。

【００６８】インデクスサイズ比較プログラム１１６及
びｎ−ｇｒａｍインクリメントプログラム１１８は公知
例１に開示されている方法と同様の処理になる。図４に
示す例の場合、“に”と“生”のインデクスが大きくな
っており、インデクスサイズ比較プログラム１１６で基
準インデクスサイズよりも大きいと判断される。その
為、“に”と“生”に対して参照頻度比較プログラム１
１７が実行される。

【００６９】参照頻度比較プログラム１１７では、
“に”と“生”の参照頻度を参照頻度テーブル１２３か
ら取得し、予め定められた基準参照頻度と比較する。図
４に示す例の場合、基準参照頻度は‘１’である。この
結果、“生”に対応する参照頻度のみが基準参照頻度よ
り多いと判断され、ｎ−ｇｒａｍインクリメントプログ
ラム１１８が実行されることにより、“生”に文字列を
追加した拡張ｎ−ｇｒａｍに対応するインデクスが作成
される。ここで“に”に対応する参照頻度は基準参照頻
度より少ないので、インデクスが大きいにもかかわら
ず、拡張ｎ−ｇｒａｍのインデクスは作成されない。

【００７０】以上の様に、本実施形態では、基準インデ
クスサイズよりインデクスが大きいｎ−ｇｒａｍに対し
て、そのインデクスへの参照頻度と予め定められた基準
参照頻度とを比較し、基準参照頻度より多い場合にはそ
のｎ−ｇｒａｍに文字列を増やしたサイズの小さなイン
デクスを作成する。そして、基準参照頻度より参照頻度
が少ない場合には、たとえインデクスが大きいとして
も、そのｎ−ｇｒａｍに文字列を増やしたサイズの小さ
なインデクスを作成しない。

【００７１】こうすることにより、インデクスが大きく
検索に時間が掛かり、かつ検索に用いられる可能性が高
いｎ−ｇｒａｍに対しては、検索を高速化することがで
きる。そして、インデクスは大きいが、実際には検索に
あまり用いられることのないｎ−ｇｒａｍ（例えば、助
詞として用いられる平仮名等）に対しては、文字列を増
やしたインデクスを作成しない為、総インデクスサイズ
を抑えることが可能となる。その結果、総インデクスサ
イズの最小限の増加で、検索性能の向上を図ることが可
能となる。

【００７２】以下、本実施形態における処理内容のう
ち、公知例１に開示されている方法と異なる検索プログ
ラム１１９及びインクリメントプログラム１１５の処理
内容を具体例を用いて詳細に説明する。

【００７３】検索プログラム１１９の処理内容は図２に
示す通りである。まずステップ６００で、インデクス検
索プログラム１２０を起動し、キーボード１０１から入
力された検索タームのテキスト１０７における出現位置
情報をインデクス１０８から取得する。本処理内容は図
２０（図２０の例ではｎ＝１）に示す様に方法１及び公
知例１に開示されている方法と同様である。

【００７４】例えば“微生物”が検索タームとして指定
された場合には、この検索タームからまず、１−ｇｒａ
ｍ“微”、“生”及び“物”を抽出する。そして“微”
に対応するインデクス２０１、“生”に対応するインデ
クス２０２及び“物”に対応するインデクス２０３の間
で出現位置情報の隣接判定を行うことによって“微生
物”の出現位置情報を取得する。

【００７５】本図の例では、“微”、“生”及び“物”
が文書番号‘００１’の‘９’文字目から、文書番号
‘０５６’の‘５’文字目から隣り合っているので、そ
れらが示す位置に“微生物”が存在することが分かる。

【００７６】次にステップ６０１で、参照頻度テーブル
更新プログラム１２１を起動し、インデクス検索プログ
ラム１２０で用いたインデクスに対応する参照頻度テー
ブル１２３内の該当参照頻度を更新する。

【００７７】図５は本実施形態の更新前の参照頻度テー
ブル１２３の初期状態を示す図である。本図に示す様
に、参照頻度テーブル１２３は、個々のインデクスに対
応した参照頻度が格納されるエントリで構成される。

【００７８】図６は本実施形態の検索タームとして“微
生物”が指定された場合の参照頻度テーブル１２３の更
新結果を示す図である。インデクス検索プログラム１２
０では、１−ｇｒａｍ“微”、“生”及び“物”のイン
デクスを用いて、“微生物”の出現位置情報を取得す
る。その為、参照頻度テーブル更新プログラム１２１で
は、“微”、“生”及び“物”のインデクスに対応する
参照頻度テーブル１２３の該当参照頻度を‘１’に増や
す。このとき、“に”のインデクスに対応する個所は
‘０’のままである。

【００７９】次に、検索タームとして“生物”が指定さ
れたとする。このとき、インデクス検索プログラム１２
０では、１−ｇｒａｍ“生”及び“物”のインデクスを
用いて、“生物”の出現位置情報を取得する。その為、
参照頻度テーブル更新プログラム１２１では、“生”及
び“物”のインデクスに対応する参照頻度テーブル１２
３の該当参照頻度を‘１’増やす。

【００８０】図７は本実施形態の検索ターム“生物”に
おける参照頻度テーブル更新プログラム１２１の処理内
容を示す図である。“生”及び“物”のインデクスに対
応する参照頻度は‘２’となり、“に”の参照頻度は
‘０’、“微”の参照頻度は‘１’のままである。以上
が、検索プログラム１１９の詳細な処理内容である。

【００８１】インクリメントプログラム１１５の処理内
容は図３に示す通りである。まずステップ７００で、テ
キスト１０７から作成された全てのインデクスに対して
ステップ７０１からステップ７０５までの一連の処理を
繰り返す。

【００８２】この繰り返し処理では、まずステップ７０
１で、インデクスサイズ比較プログラム１１６を起動
し、処理対象インデクスのサイズと予め定められた基準
インデクスサイズを比較する。図４に示した例では、
“に”及び“生”のインデクスが基準インデクスサイズ
より大きくなっている。

【００８３】次に、ステップ７０２でインデクスが基準
インデクスサイズより大きいと判断された場合には、ス
テップ７０３で参照頻度比較プログラム１１７を起動
し、参照頻度テーブル１２３に格納されている処理対象
インデクスの参照頻度と予め定められた基準参照頻度を
比較する。

【００８４】そして、ステップ７０４で参照頻度が基準
参照頻度より多いと判断された場合には、ステップ７０
５でｎ−ｇｒａｍインクリメントプログラム１１８を起
動し、処理対象インデクスのキーであるｎ−ｇｒａｍに
文字列を追加したサイズの小さなインデクスを作成す
る。

【００８５】図４の例では、“に”及び“生”のインデ
クスが基準インデクスサイズより大きいと判断される
為、これらのインデクスに対応する参照頻度と予め定め
られた基準参照頻度を比較する。

【００８６】図４の例では、基準参照頻度を１としてい
る。そこで、参照頻度が‘２’である“生”のインデク
スはｎ−ｇｒａｍインクリメントプログラム１１８の処
理対象となるが、参照頻度が‘０’である“に”のイン
デクスはｎ−ｇｒａｍインクリメントプログラム１１８
の処理対象とはならない。

【００８７】最後に、“生”に文字列を追加したサイズ
の小さなインデクスを作成して、インクリメントプログ
ラム１１５の処理を終了する。ｎ−ｇｒａｍインクリメ
ントプログラム１１８の処理内容は図２２に示す公知例
１に開示されている方法と同様である。

【００８８】以上説明した様に、本実施形態では、基準
インデクスサイズよりインデクスが大きいｎ−ｇｒａｍ
に対して、そのインデクスへの参照頻度と予め定められ
た基準参照頻度とを比較し、基準参照頻度より多い場合
にはそのｎ−ｇｒａｍに文字列を増やしたサイズの小さ
なインデクスを作成する。

【００８９】そして、基準参照頻度より参照頻度が少な
い場合には、たとえインデクスが大きいとしても、その
ｎ−ｇｒａｍに文字列を増やしたサイズの小さなインデ
クスを作成しない。こうすることにより、インデクスが
大きく検索に時間が掛かり、かつ検索に用いられる可能
性が高いｎ−ｇｒａｍに対しては、検索を高速化するこ
とが可能となる。

【００９０】また、インデクスは大きいが、実際には検
索にあまり用いられることのないｎ−ｇｒａｍ（例え
ば、助詞として用いられる平仮名等）に対しては、文字
列を増やしたインデクスを作成しない為、総インデクス
サイズを抑えることが可能となる。

【００９１】以上により、新聞記事や特許明細書の様に
日々件数が増大していく大規模な文書データベースにお
いて、出現頻度が高い、すなわちインデクスが大きい検
索タームが指定された場合でも、総インデクスサイズの
最小限の増加で高速な検索が実現できることになる。

【００９２】以上説明した様に本実施形態の文書検索シ
ステムによれば、インデクスサイズが大きく検索に時間
が掛かり、かつ検索に用いられる可能性が高い部分文字
列に対してのみ、文字数を増やしたサイズの小さなイン
デクスを作成するので、検索性能の高速化を図ると共に
総インデクスサイズの増加を最小限に抑えることが可能
である。

【００９３】（実施形態２）以下にインデクスサイズが
大きく重要語に含まれるインデクスについて、当該イン
デクスに対応するｎ−ｇｒａｍに文字列を追加した拡張
ｎ−ｇｒａｍと拡張ｎ−ｇｒａｍに対応するインデクス
を作成する実施形態２の文書検索システムについて説明
する。

【００９４】本実施形態は、基準インデクスサイズより
インデクスが大きいｎ−ｇｒａｍに文字列を追加したサ
イズの小さなインデクスを作成する際に、ユーザが指定
した重要語にそのｎ−ｇｒａｍが含まれているかどうか
を検索し、含まれている場合にのみ文字列を追加したサ
イズの小さなインデクスの作成を行う方法である。

【００９５】検索に良く用いると思われる重要語をユー
ザに指定してもらうことにより、インデクスが大きく検
索に時間が掛かり、かつ検索に用いられる可能性が高い
ｎ−ｇｒａｍに対しての検索の高速化を、総インデクス
サイズの最低限の増加で実現できることになる。

【００９６】本実施形態は基本的に実施形態１（図１）
と同様の構成をとるが、その中の主記憶装置１０９内の
構成が異なる。

【００９７】図８は本実施形態の主記憶装置１０９ａの
概略構成を示す図である。主記憶装置１０９ａには、シ
ステム制御プログラム１１０ａ、文書登録制御プログラ
ム１１１、インクリメント制御プログラム１１２、検索
制御プログラム１１３、重要語登録制御プログラム１１
００、インデクス作成登録プログラム１１４、インクリ
メントプログラム１１５ａ、検索プログラム１１９ａ、
重要語登録プログラム１１０２が格納されると共にトラ
イ格納テーブル１２２、重要語テーブル１１０３及びワ
ークエリア１２４が確保される。

【００９８】インクリメントプログラム１１５ａはイン
デクスサイズ比較プログラム１１６、重要文字列検索プ
ログラム１１０１及びｎ−ｇｒａｍインクリメントプロ
グラム１１８で構成される。検索プログラム１１９ａは
インデクス検索プログラム１２０で構成される。以上の
プログラムは磁気ディスク装置１０６、フロッピディス
ク１０５やＣＤ−ＲＯＭ等のコンピュータで読み書きで
きる記録媒体に格納することもできる。

【００９９】なお重要文字列検索プログラム１１０１
は、該インデクスに対応する部分文字列が重要語テーブ
ル１１０３に格納されている重要語に含まれるかどうか
を調べ、該インデクスに対応する部分文字列がインデク
ス検索プログラム１２０で検索される可能性が高いかど
うかを判定する重要文字列検索ステップの処理を行う。
また重要語登録プログラム１１０２は、ユーザが入力し
た重要語を重要語テーブル１１０３に格納する重要語登
録ステップの処理を行う。

【０１００】システム制御プログラム１１０ａはキーボ
ード１０１からの指示を受け起動する。文書登録制御プ
ログラム１１１はキーボード１０１からの文書登録指示
により、システム制御プログラム１１０ａによって起動
され、インデクス作成登録プログラム１１４の制御を行
う。

【０１０１】インクリメント制御プログラム１１２はキ
ーボード１０１からのインクリメント指示により、シス
テム制御プログラム１１０ａによって起動され、インク
リメントプログラム１１５ａの制御を行う。検索制御プ
ログラム１１３はキーボード１０１からの検索指示によ
り、システム制御プログラム１１０ａによって起動さ
れ、検索プログラム１１９ａの制御を行う。重要語登録
制御プログラム１１００はキーボード１０１からの検索
指示により、システム制御プログラム１１０ａによって
起動され、重要語登録プログラム１１０２の制御を行
う。

【０１０２】以下、実施形態１と異なる検索プログラム
１１９ａ、重要語登録プログラム１１０２及びインクリ
メントプログラム１１５ａの処理概要を説明する。

【０１０３】検索の際には、キーボード１０１からの検
索指示により、システム制御プログラム１１０ａが検索
制御プログラム１１３を起動し、検索制御プログラム１
１３が検索プログラム１１９ａを起動する。

【０１０４】検索プログラム１１９ａは、インデクス検
索プログラム１２０を起動し、キーボード１０１から入
力された検索タームのテキスト１０７における出現位置
情報をインデクス１０８から取得する。このインデクス
検索プログラム１２０の処理内容は方法１及び公知例１
に開示されている方法と同様である。

【０１０５】重要語を登録する際には、キーボード１０
１からの重要語登録指示により、システム制御プログラ
ム１１０ａが重要語登録制御プログラム１１００を起動
し、重要語登録制御プログラム１１００が重要語登録プ
ログラム１１０２を起動する。重要語登録プログラム１
１０２は、キーボード１０１から入力された重要語を重
要語テーブル１１０３に格納する。

【０１０６】インクリメントの際には、キーボード１０
１からのインクリメント指示により、システム制御プロ
グラム１１０ａがインクリメント制御プログラム１１２
を起動し、インクリメント制御プログラム１１２がイン
クリメントプログラム１１５ａを起動する。

【０１０７】図９は本実施形態のインクリメントプログ
ラム１１５ａの処理内容を示す図である。インクリメン
トプログラム１１５ａは、図９に示す様に、ステップ１
２００で、テキスト１０７から作成された全てのインデ
クスに対してステップ１２０１からステップ１２０５ま
での一連の処理を繰り返す。

【０１０８】この繰り返し処理では、まずステップ１２
０１で、インデクスサイズ比較プログラム１１６を起動
し、処理対象インデクスのサイズと予め定められた基準
インデクスサイズを比較する。

【０１０９】そして、ステップ１２０２で処理対象イン
デクスが基準インデクスサイズより大きいと判断された
場合には、ステップ１２０３で重要文字列検索プログラ
ム１１０１を起動し、処理対象ｎ−ｇｒａｍで、重要語
テーブル１１０３に格納されている重要語を検索する。

【０１１０】そして、ステップ１２０４で処理対象ｎ−
ｇｒａｍが重要語テーブル１１０３に格納されている重
要語の一部を構成していると判断された場合には、ステ
ップ１２０５でｎ−ｇｒａｍインクリメントプログラム
１１８を起動し、処理対象インデクスのキーであるｎ−
ｇｒａｍに文字列を追加したサイズの小さなインデクス
を作成する。このｎ−ｇｒａｍインクリメントプログラ
ム１１８の処理内容は公知例１に開示されている方法と
同様である。以上が本実施形態における処理内容の概要
である。

【０１１１】以下、本実施形態における処理内容のう
ち、方法１、公知例１に開示されている方法及び実施形
態１と異なる重要語登録プログラム１１０２及びインク
リメントプログラム１１５ａの処理内容を具体例を用い
て詳細に説明する。

【０１１２】重要語登録プログラム１１０２では、キー
ボード１０１から入力された重要語を重要語テーブル１
１０３に格納する。

【０１１３】図１０は本実施形態の重要語テーブル１１
０３の一例を示す図である。本図に示す例では、ユーザ
は“微生物”に関する文書でデータベースを構築してお
り、頻繁に検索に用いる単語である“ウイルス”、“バ
クテリア”、“かび”、“酵母”、“細菌”、“単細胞
生物”、“微生物”、…をキーボード１０１から入力し
た。重要語登録プログラム１１０２はこれら入力された
文字列を重要語として重要語テーブル１１０３に格納す
る。

【０１１４】インクリメントプログラム１１５ａの処理
内容は図９に示す通りである。まずステップ１２００
で、テキスト１０７から作成された全てのインデクスに
対してステップ１２０１からステップ１２０５までの一
連の処理を繰り返す。

【０１１５】この繰り返し処理では、まずステップ１２
０１で、インデクスサイズ比較プログラム１１６を起動
し、処理対象インデクスのサイズと予め定められた基準
インデクスサイズを比較する。このインデクスサイズ比
較プログラム１１６の処理内容は実施形態１と同様であ
る。

【０１１６】図１１は本実施形態のインクリメントプロ
グラム１１５ａの処理内容の例を示す図である。本図に
示す例では、“に”及び“生”のインデクスが基準イン
デクスサイズより大きくなっている。

【０１１７】次に、ステップ１２０２で処理対象インデ
クスが基準インデクスサイズより大きいと判断された場
合には、ステップ１２０３で重要文字列検索プログラム
１１０１を起動し、処理対象ｎ−ｇｒａｍで、重要語テ
ーブル１１０３に格納されている重要語を検索する。

【０１１８】そして、ステップ１２０４で処理対象ｎ−
ｇｒａｍが重要語テーブル１１０３に格納されている重
要語の一部を構成していると判断された場合には、ステ
ップ１２０５でｎ−ｇｒａｍインクリメントプログラム
１１８を起動し、処理対象インデクスのキーであるｎ−
ｇｒａｍに文字列を追加したサイズの小さなインデクス
を作成する。

【０１１９】図１１の例では、“に”及び“生”のイン
デクスが基準インデクスサイズより大きいと判断される
為、“に”及び“生”で、重要語テーブル１１０３に格
納されている重要語を検索する。

【０１２０】図１１の例では、“生”は重要語“単細胞
生物”及び“微生物”に含まれるが、“に”を含む重要
語は存在しない。そこで、“生”のインデクスはｎ−ｇ
ｒａｍインクリメントプログラム１１８の処理対象とな
るが、“に”のインデクスはｎ−ｇｒａｍインクリメン
トプログラム１１８の処理対象とはならない。

【０１２１】最後に、“生”に文字列を追加したサイズ
の小さなインデクスを作成して、インクリメントプログ
ラム１１５ａの処理を終了する。ｎ−ｇｒａｍインクリ
メントプログラム１１８の処理内容は図２２に示す公知
例１に開示されている方法と同様である。

【０１２２】以上説明した様に、本実施形態では、基準
インデクスサイズよりインデクスが大きいｎ−ｇｒａｍ
に対して、そのｎ−ｇｒａｍがユーザが指定した重要語
に含まれているかどうかを検索し、含まれている場合に
はそのｎ−ｇｒａｍに文字列を増やしたサイズの小さな
インデクスを作成する。

【０１２３】そして、ｎ−ｇｒａｍがユーザが指定した
重要語に含まれていない場合には、たとえインデクスが
大きいとしても、そのｎ−ｇｒａｍに文字列を増やした
サイズの小さなインデクスを作成しない。

【０１２４】検索に良く用いると思われる重要語をユー
ザに指定してもらうことにより、インデクスが大きく検
索に時間が掛かり、かつ検索に用いられる可能性が高い
重要語に含まれるｎ−ｇｒａｍに対しては、検索を高速
化することが可能となる。

【０１２５】また、インデクスは大きいが、ユーザが検
索にあまり用いないｎ−ｇｒａｍに対しては、文字列を
増やしたインデクスを作成しない為、総インデクスサイ
ズを抑えることが可能となる。

【０１２６】以上により、新聞記事や特許明細書の様に
日々件数が増大していく大規模な文書データベースにお
いて、出現頻度が高い、すなわちインデクスが大きい検
索タームが指定された場合でも、総インデクスサイズの
最小限の増加で高速な検索が実現できることになる。

【０１２７】（実施形態３）以下にインデクスサイズが
大きく関連語に含まれるインデクスについて、当該イン
デクスに対応するｎ−ｇｒａｍに文字列を追加した拡張
ｎ−ｇｒａｍと拡張ｎ−ｇｒａｍに対応するインデクス
を作成する実施形態３の文書検索システムについて説明
する。

【０１２８】ユーザがある検索タームを指定し、その検
索タームと同じ意味を持つ語（以下、同義語）の検索も
同時に行うことを指定した場合には、ユーザが指定した
検索タームが一つであったとしても、実際に検索を行う
検索タームの数は多くなり、検索に時間が掛かることに
なる。

【０１２９】そこで、本実施形態では、基準インデクス
サイズよりインデクスが大きいｎ−ｇｒａｍに文字列を
追加したサイズの小さなインデクスを作成する際に、同
義語展開用の辞書やルールを参照して、複数に展開され
る語に含まれるｎ−ｇｒａｍであるかどうかを検索し、
含まれる場合にのみ文字列を追加したサイズの小さなイ
ンデクスを作成する方法である。

【０１３０】こうすることにより、インデクスが大きく
検索に時間が掛かり、かつ同義語の検索の様に複数語に
対して検索を行わなければならない場合でも、総インデ
クスサイズの最低限の増加で高速な検索を実現できるこ
とになる。

【０１３１】本実施形態は基本的に実施形態１（図１）
と同様の構成をとるが、その中の主記憶装置１０９内の
構成が異なる。

【０１３２】図１２は本実施形態の主記憶装置１０９ｂ
の概略構成を示す図である。主記憶装置１０９ｂには、
システム制御プログラム１１０、文書登録制御プログラ
ム１１１、インクリメント制御プログラム１１２、検索
制御プログラム１１３、インデクス作成登録プログラム
１１４、インクリメントプログラム１１５ｂ、検索プロ
グラム１１９ｂが格納されると共にトライ格納テーブル
１２２、同義語展開用辞書１５０２及びワークエリア１
２４が確保される。

【０１３３】インクリメントプログラム１１５ｂはイン
デクスサイズ比較プログラム１１６、展開語検索プログ
ラム１５００及びｎ−ｇｒａｍインクリメントプログラ
ム１１８で構成される。検索プログラム１１９ｂは検索
ターム展開プログラム１５０１及びインデクス検索プロ
グラム１２０で構成される。

【０１３４】以上のプログラムは磁気ディスク装置１０
６、フロッピディスク１０５やＣＤ−ＲＯＭ等のコンピ
ュータで読み書きできる記録媒体に格納することもでき
る。

【０１３５】展開語検索プログラム１５００は、該イン
デクスに対応する部分文字列が同義語展開用辞書１５０
２に格納されている同義語に含まれるかどうかを調べ、
該インデクスに対応する部分文字列がインデクス検索プ
ログラム１２０で検索される可能性が高いかどうかを判
定する展開語検索ステップの処理を行う。

【０１３６】また検索ターム展開プログラム１５０１
は、相互に関連のある語を予め関連付けて格納した関連
語ファイルに相当する同義語展開用辞書１５０２を上記
検索タームで探索し、該検索タームに関連のある１つ以
上の同義語を取得する検索ターム展開ステップの処理を
行い、インデクス検索プログラム１２０は、前記検索タ
ーム及び同義語における部分文字列と同じ位置関係を持
つテキストデータの位置情報を抽出する処理を行う。

【０１３７】システム制御プログラム１１０はキーボー
ド１０１からの指示を受け起動する。文書登録制御プロ
グラム１１１はキーボード１０１からの文書登録指示に
より、システム制御プログラム１１０によって起動さ
れ、インデクス作成登録プログラム１１４の制御を行
う。

【０１３８】インクリメント制御プログラム１１２はキ
ーボード１０１からのインクリメント指示により、シス
テム制御プログラム１１０によって起動され、インクリ
メントプログラム１１５ｂの制御を行う。検索制御プロ
グラム１１３はキーボード１０１からの検索指示によ
り、システム制御プログラム１１０によって起動され、
検索プログラム１１９ｂの制御を行う。

【０１３９】以下、実施形態１と異なる検索プログラム
１１９ｂ及びインクリメントプログラム１１５ｂの処理
概要を説明する。

【０１４０】検索の際には、キーボード１０１からの検
索指示により、システム制御プログラム１１０が検索制
御プログラム１１３を起動し、検索制御プログラム１１
３が検索プログラム１１９ｂを起動する。

【０１４１】図１３は本実施形態の検索プログラム１１
９ｂの処理内容を示す図である。図１３に示す様に検索
プログラム１１９ｂは、ステップ１６００で検索ターム
展開プログラム１５０１を起動し、キーボード１０１か
ら入力された検索タームで同義語展開用辞書１５０２を
探索し、検索タームを複数の同義語に展開する。

【０１４２】次にステップ１６０１で、インデクス検索
プログラム１２０を起動し、検索ターム展開プログラム
１５０１によって展開された同義語全てのテキスト１０
７における出現位置情報をインデクス１０８から取得す
る。このインデクス検索プログラム１２０の処理内容は
方法１及び公知例１に開示されている方法と同様であ
る。

【０１４３】インクリメントの際には、キーボード１０
１からのインクリメント指示により、システム制御プロ
グラム１１０がインクリメント制御プログラム１１２を
起動し、インクリメント制御プログラム１１２がインク
リメントプログラム１１５ｂを起動する。

【０１４４】図１４は本実施形態のインクリメントプロ
グラム１１５ｂの処理内容を示す図である。図１４に示
す様にインクリメントプログラム１１５ｂは、ステップ
１７００でテキスト１０７から作成された全てのインデ
クスに対してステップ１７０１からステップ１７０５ま
での一連の処理を繰り返す。

【０１４５】この繰り返し処理では、まずステップ１７
０１で、インデクスサイズ比較プログラム１１６を起動
し、処理対象インデクスのサイズと予め定められた基準
インデクスサイズを比較する。

【０１４６】そして、ステップ１７０２で処理対象イン
デクスが基準インデクスサイズより大きいと判断された
場合には、ステップ１７０３で展開語検索プログラム１
５００を起動し、処理対象ｎ−ｇｒａｍで、同義語展開
用辞書１５０２に格納されている同義語を検索する。

【０１４７】そして、ステップ１７０４で処理対象ｎ−
ｇｒａｍが複数に展開される語に含まれると判断された
場合には、ステップ１７０５でｎ−ｇｒａｍインクリメ
ントプログラム１１８を起動し、処理対象インデクスの
キーであるｎ−ｇｒａｍに文字列を追加したサイズの小
さなインデクスを作成する。このｎ−ｇｒａｍインクリ
メントプログラム１１８の処理内容は公知例１に開示さ
れている方法と同様である。以上が本実施形態における
処理内容の概要である。

【０１４８】以下、本実施形態における処理内容のう
ち、実施形態１と異なる検索プログラム１１９ｂ及びイ
ンクリメントプログラム１１５ｂの処理内容を具体例を
用いて詳細に説明する。

【０１４９】検索プログラム１１９ｂの処理内容は図１
３に示す通りである。まずステップ１６００で、検索タ
ーム展開プログラム１５０１を起動し、キーボード１０
１から入力された検索タームで同義語展開用辞書１５０
２を探索し、検索タームを複数の同義語に展開する。

【０１５０】図１５は本実施形態の同義語展開用辞書１
５０２による検索タームの同義語展開の例を示す図であ
る。例えば、検索タームとして“計算機”が指定された
とする。検索ターム展開プログラム１５０１は、この検
索ターム“計算機”で同義語展開用辞書１５０２を探索
し、“計算機”と同じ意味を持つ語である同義語を取得
する。

【０１５１】図１５に示す同義語展開用辞書１５０２の
例では、同義語の集合をカンマ（、）をデリミタとして
一行に記載している。この同義語展開用辞書１５０２を
用いて“計算機”を同義語の集合に展開すると、展開後
検索ターム１８００として“計算機”、“電子計算
機”、“電算機”、“ＣＯＭＰＵＴＥＲ”及び“コンピ
ュータ”が得られる。

【０１５２】次にステップ１６０１で、インデクス検索
プログラム１２０を起動し、検索ターム展開プログラム
１５０１によって展開された同義語全てのテキスト１０
７における出現位置情報をインデクス１０８から取得す
る。このインデクス検索プログラム１２０の処理内容は
方法１及び公知例１に開示されている方法と同様であ
る。

【０１５３】インクリメントプログラム１１５ｂの処理
内容は図１４に示す通りである。まずステップ１７００
で、テキスト１０７から作成された全てのインデクスに
対してステップ１７０１からステップ１７０５までの一
連の処理を繰り返す。

【０１５４】この繰り返し処理では、まずステップ１７
０１で、インデクスサイズ比較プログラム１１６を起動
し、処理対象インデクスのサイズと予め定められた基準
インデクスサイズを比較する。このインデクスサイズ比
較プログラム１１６の処理内容は実施形態１と同様であ
る。

【０１５５】図１６は本実施形態のインクリメントプロ
グラム１１５ｂの処理内容を示す図である。本図に示す
例では、“に”及び“生”のインデクスが基準インデク
スサイズより大きくなっている。

【０１５６】次に、ステップ１７０２で処理対象インデ
クスが基準インデクスサイズより大きいと判断された場
合には、ステップ１７０３で展開語検索プログラム１５
００を起動し、処理対象ｎ−ｇｒａｍで、同義語展開用
辞書１５０２に格納されている同義語を検索する。

【０１５７】そして、ステップ１７０４で処理対象ｎ−
ｇｒａｍが複数に展開される語に含まれると判断された
場合には、ステップ１７０５でｎ−ｇｒａｍインクリメ
ントプログラム１１８を起動し、処理対象インデクスの
キーであるｎ−ｇｒａｍに文字列を追加したサイズの小
さなインデクスを作成する。

【０１５８】図１６の例では、“に”及び“生”のイン
デクスが基準インデクスサイズより大きいと判断される
為、“に”及び“生”で、同義語展開用辞書１５０２に
格納されている重要語を検索する。

【０１５９】図１６の例では、“生”は“海洋生物”及
び“海生生物”に含まれるが、“に”を含む語は存在し
ない。そこで、“生”のインデクスはｎ−ｇｒａｍイン
クリメントプログラム１１８の処理対象となるが、
“に”のインデクスはｎ−ｇｒａｍインクリメントプロ
グラム１１８の処理対象とはならない。

【０１６０】最後に、“生”に文字列を追加したサイズ
の小さなインデクスを作成して、インクリメントプログ
ラム１１５ｂの処理を終了する。ｎ−ｇｒａｍインクリ
メントプログラム１１８の処理内容は図２２に示す公知
例１に開示されている方法と同様である。

【０１６１】以上説明した様に、本実施形態では、基準
インデクスサイズよりインデクスが大きいｎ−ｇｒａｍ
に対して、同義語展開用の辞書やルールを参照して、複
数に展開される語に含まれるｎ−ｇｒａｍであるかどう
かを検索し、含まれている場合にはそのｎ−ｇｒａｍに
文字列を増やしたサイズの小さなインデクスを作成す
る。そして、ｎ−ｇｒａｍが複数に展開される語に含ま
れていない場合には、たとえインデクスが大きいとして
も、そのｎ−ｇｒａｍに文字列を増やしたサイズの小さ
なインデクスを作成しない。

【０１６２】こうすることにより、インデクスが大きく
検索に時間が掛かり、かつ同義語の検索の様に複数語に
対して検索を行わなければならない場合でも、検索を高
速化することが可能となる。また、インデクスは大きい
が、複数に展開される語に含まれていないｎ−ｇｒａｍ
に対しては、文字列を増やしたインデクスを作成しない
為、総インデクスサイズを抑えることが可能となる。

【０１６３】以上により、新聞記事や特許明細書の様に
日々件数が増大していく大規模な文書データベースにお
いて、出現頻度が高い、すなわちインデクスが大きい検
索タームが指定され、その検索タームの同義語の検索も
同時に行うことが指定された場合でも、総インデクスサ
イズの最小限の増加で高速な検索が実現できることにな
る。

【０１６４】（実施形態４）以下にインデクスサイズが
大きく処理時間の大きいインデクスについて、当該イン
デクスに対応するｎ−ｇｒａｍに文字列を追加した拡張
ｎ−ｇｒａｍと拡張ｎ−ｇｒａｍに対応するインデクス
を作成する実施形態４の文書検索システムについて説明
する。

【０１６５】本実施形態は、インデクスの読込み及び隣
接判定により検索タームの出現位置情報を取得する際
に、その処理時間を計測しておき、その処理時間が予め
定められた目標検索時間を超過した場合には、取得した
出現位置情報をインデクス化し、磁気ディスク装置へ格
納する方法である。

【０１６６】検索に時間が掛かる検索タームについては
一度検索を行えば、二度目からは一度目に作成したイン
デクスの読込みだけで検索タームの出現位置情報が取得
できる為、インデクスが大きく検索に時間が掛かり、か
つ検索に用いられる可能性が高いｎ−ｇｒａｍに対して
の検索の高速化を、総インデクスサイズの最低限の増加
で実現できることになる。しかも、一度目の検索時に取
得した出現位置情報をそのままインデクスとして利用で
きる為、高速なインデクス作成を行うことができる。

【０１６７】本実施形態は基本的に実施形態１（図１）
と同様の構成をとるが、その中の主記憶装置１０９内の
構成が異なる。

【０１６８】図１７は本実施形態の主記憶装置１０９ｃ
の概略構成を示す図である。主記憶装置１０９ｃには、
システム制御プログラム１１０ｃ、文書登録制御プログ
ラム１１１、検索制御プログラム１１３ｃ、インデクス
作成登録プログラム１１４、検索及びインクリメントプ
ログラム２０００が格納されると共にトライ格納テーブ
ル１２２及びワークエリア１２４が確保される。検索及
びインクリメントプログラム２０００はインデクス検索
プログラム１２０及びインデクス作成プログラム２００
１で構成される。

【０１６９】以上のプログラムは磁気ディスク装置１０
６、フロッピディスク１０５やＣＤ−ＲＯＭ等のコンピ
ュータで読み書きできる記録媒体に格納することもでき
る。

【０１７０】なおインデクス作成プログラム２００１
は、インデクス検索プログラム１２０における処理時間
を測定し、該処理時間が予め定められた基準処理時間よ
り長い場合に、インデクス検索プログラム１２０におい
て得られた位置情報をインデクスとして登録するインデ
クス作成ステップの処理を行う。

【０１７１】システム制御プログラム１１０ｃはキーボ
ード１０１からの指示を受け起動する。文書登録制御プ
ログラム１１１はキーボード１０１からの文書登録指示
により、システム制御プログラム１１０ｃによって起動
され、インデクス作成登録プログラム１１４の制御を行
う。検索制御プログラム１１３ｃはキーボード１０１か
らの検索指示により、システム制御プログラム１１０ｃ
によって起動され、検索及びインクリメントプログラム
２０００の制御を行う。

【０１７２】以下、実施形態１と異なる検索及びインク
リメントプログラム２０００の処理概要を説明する。検
索の際には、キーボード１０１からの検索指示により、
システム制御プログラム１１０ｃが検索制御プログラム
１１３ｃを起動し、検索制御プログラム１１３ｃが検索
及びインクリメントプログラム２０００を起動する。

【０１７３】図１８は本実施形態のインクリメントプロ
グラム２０００の処理内容を示す図である。図１８に示
す様に検索及びインクリメントプログラム２０００は、
まずステップ２１００でインデクス検索プログラム１２
０を起動し、キーボード１０１から入力された検索ター
ムのテキスト１０７における出現位置情報をインデクス
１０８から取得すると共に、インデクス検索プログラム
１２０の処理時間を計測する。インデクス検索プログラ
ム１２０の処理内容は方法１及び公知例１に開示されて
いる方法と同様である。

【０１７４】そして、計測した処理時間が予め定められ
た目標検索時間を超過したとステップ２１０１で判断さ
れた場合には、ステップ２１０２でインデクス作成プロ
グラム２００１を起動し、取得した出現位置情報をイン
デクス１０８として磁気ディスク装置１０６に格納す
る。

【０１７５】そして、ステップ２１０３で、検索ターム
をキーとしてトライ格納テーブル１２２に登録し、イン
デクスへのポインタ情報を格納する。このトライ格納テ
ーブル１２２へのキーの追加方法は公知例１に開示され
ている方法と同様である。以上が本実施形態における処
理内容の概要である。

【０１７６】以下、本実施形態における処理内容のう
ち、実施形態１と異なる検索及びインクリメントプログ
ラム２０００の処理内容を具体例を用いて詳細に説明す
る。

【０１７７】検索及びインクリメントプログラム２００
０の処理内容は図１８に示すとおりである。まずステッ
プ２１００で、インデクス検索プログラム１２０を起動
し、キーボード１０１から入力された検索タームのテキ
スト１０７における出現位置情報をインデクス１０８か
ら取得すると共に、インデクス検索プログラム１２０の
処理時間を計測する。インデクス検索プログラム１２０
の処理内容は方法１及び公知例１に開示されている方法
と同様である。

【０１７８】図１９は本実施形態のインクリメントプロ
グラム２０００の処理例を示す図である。本図に示す例
では、検索タームとして“生物”が指定されている。そ
の為、インデクス検索プログラム１２０は“生”のイン
デクス２０２と“物”のインデクス２０３を磁気ディス
ク装置１０６からワークエリア１２４に読み込み、これ
らのインデクス間で隣接判定を行うことにより、“生
物”の出現位置情報２２００を取得する。

【０１７９】検索及びインクリメントプログラム２００
０は、このインデクス検索プログラム１２０の処理時間
を計測しておく。そして、計測した処理時間が予め定め
られた目標検索時間を超えているとステップ２１０１で
判断された場合には、ステップ２１０２でインデクス作
成プログラム２００１を起動し、取得した出現位置情報
２２００をインデクス１０８として磁気ディスク装置１
０６に格納する。

【０１８０】図１９に示す例では、インデクス検索プロ
グラム１２０の処理時間は予め定められた目標検索時間
を超えている為、“生物”の出現位置情報２２００を
“生物”のインデクス２２０１として磁気ディスク装置
１０６に格納する。

【０１８１】最後に、ステップ２１０３で、検索ターム
をキーとしてトライ格納テーブル１２２に登録し、イン
デクスへのポインタ情報を格納する。このトライ格納テ
ーブル１２２へのキーの追加方法は公知例１に開示され
ている方法と同様である。

【０１８２】以上説明した様に、本実施形態では、イン
デクスの読込み及び隣接判定により検索タームの出現位
置情報を取得する際に、その処理時間を計測しておき、
その処理時間が予め定められた目標検索時間を超過した
場合には、取得した出現位置情報をインデクス化し、磁
気ディスク装置１０６へ格納する。

【０１８３】検索に時間が掛かる検索タームについては
一度検索を行えば、二度目からは一度目に作成したイン
デクスの読込みだけで検索タームの出現位置情報が取得
できる為、インデクスが大きく検索に時間が掛かり、か
つ検索に用いられる可能性が高いｎ−ｇｒａｍに対して
は、検索を高速化することが可能となる。

【０１８４】また、インデクスは大きいが、検索に用い
られないｎ−ｇｒａｍに対しては、文字列を増やしたイ
ンデクスを作成しない為、総インデクスサイズを抑える
ことが可能となる。しかも、一度目の検索時に取得した
出現位置情報をそのままインデクスとして利用できる
為、高速なインデクス作成が可能となる。

【０１８５】以上により、新聞記事や特許明細書の様に
日々件数が増大していく大規模な文書データベースにお
いて、出現頻度が高い、すなわちインデクスが大きい検
索タームが指定された場合でも、総インデクスサイズの
最小限の増加で高速な検索が実現できることになる。

【０１８６】

【発明の効果】本発明によればインデクスサイズが大き
く検索に時間が掛かり、かつ検索に用いられる可能性が
高い部分文字列に対してのみ、文字数を増やしたサイズ
の小さなインデクスを作成するので、検索性能の高速化
を図ると共に総インデクスサイズの増加を最小限に抑え
ることが可能である。

【図面の簡単な説明】

【図１】実施形態１の文書検索システムの概略構成を示
す図である。

【図２】実施形態１の検索プログラム１１９の処理内容
を示す図である。

【図３】実施形態１のインクリメントプログラム１１５
の処理内容を示す図である。

【図４】実施形態１の文書検索システムの処理例を示す
図である。

【図５】実施形態１の更新前の参照頻度テーブル１２３
の初期状態を示す図である。

【図６】実施形態１の検索タームとして“微生物”が指
定された場合の参照頻度テーブル１２３の更新結果を示
す図である。

【図７】実施形態１の検索ターム“生物”における参照
頻度テーブル更新プログラム１２１の処理内容を示す図
である。

【図８】実施形態２の主記憶装置１０９ａの概略構成を
示す図である。

【図９】実施形態２のインクリメントプログラム１１５
ａの処理内容を示す図である。

【図１０】実施形態２の重要語テーブル１１０３の一例
を示す図である。

【図１１】実施形態２のインクリメントプログラム１１
５ａの処理内容の例を示す図である。

【図１２】実施形態３の主記憶装置１０９ｂの概略構成
を示す図である。

【図１３】実施形態３の検索プログラム１１９ｂの処理
内容を示す図である。

【図１４】実施形態３のインクリメントプログラム１１
５ｂの処理内容を示す図である。

【図１５】実施形態３の同義語展開用辞書１５０２によ
る検索タームの同義語展開の例を示す図である。

【図１６】実施形態３のインクリメントプログラム１１
５ｂの処理内容を示す図である。

【図１７】実施形態４の主記憶装置１０９ｃの概略構成
を示す図である。

【図１８】実施形態４のインクリメントプログラム２０
００の処理内容を示す図である。

【図１９】実施形態４のインクリメントプログラム２０
００の処理例を示す図である。

【図２０】従来の１−ｇｒａｍインデクス方式の一例を
示す図である。

【図２１】従来のキー集合｛ｂａｂｙ、ｂａｄｇｅ、ｂ
ａｄｇｅｒ、ｊａｒ｝に対応するトライの構成を示す図
である。

【図２２】従来の公知例１の処理内容を示す図である。

【符号の説明】

１００…ディスプレイ、１０１…キーボード、１０２…
ＣＰＵ、１０３…バス、１０４…ＦＤＤ、１０５…フロ
ッピディスク、１０６…磁気ディスク装置、１０７…テ
キスト、１０８…インデクス、１０９…主記憶装置、１
１０…システム制御プログラム、１１１…文書登録制御
プログラム、１１２…インクリメント制御プログラム、
１１３…検索制御プログラム、１１４…インデクス作成
登録プログラム、１１５…インクリメントプログラム、
１１６…インデクスサイズ比較プログラム、１１７…参
照頻度比較プログラム、１１８…ｎ−ｇｒａｍインクリ
メントプログラム、１１９…検索プログラム、１２０…
インデクス検索プログラム、１２１…参照頻度テーブル
更新プログラム、１２２…トライ格納テーブル、１２３
…参照頻度テーブル、１２４…ワークエリア、１１００
…重要語登録制御プログラム、１１０１…重要文字列検
索プログラム、１１０２…重要語登録プログラム、１１
０３…重要語テーブル、１５００…展開語検索プログラ
ム、１５０１…検索ターム展開プログラム、１５０２…
同義語展開用辞書、１８００…展開後検索ターム、２０
００…インクリメントプログラム、２００１…インデク
ス作成プログラム、２２００…出現位置情報、２２０１
…インデクス、２００〜２０３…インデクス、４００…
インデクス、４０１…トライ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者岡本卓哉神奈川県横浜市都筑区加賀原二丁目２番株式会社日立製作所システム開発本部内 (72)発明者松林忠孝神奈川県横浜市都筑区加賀原二丁目２番株式会社日立製作所システム開発本部内 (72)発明者川下靖司神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内Ｆターム(参考） 5B075 ND03 NK02 NK13 NK50 NR06 NR16 PP12 PP22 PR10 QM01 QS01 UU06

Claims

【特許請求の範囲】

【請求項１】特定の検索タームを含むテキストデータ
を検索する文書検索方法において、検索タームの部分文字列に対応するインデクスにより、
該検索タームの部分文字列と同じ位置関係を持つテキス
トデータの位置情報を抽出するインデクス検索ステップ
と、テキストデータの部分文字列に対応するインデクスのサ
イズと予め定められた基準インデクスサイズとを比較す
るインデクスサイズ比較ステップと、該インデクスのサイズが該基準インデクスサイズより大
きい場合に、該インデクスに対応する部分文字列が前記
インデクス検索ステップで検索される可能性が高いかど
うかを判定する検索可能性判定ステップと、該部分文字列が前記インデクス検索ステップで検索され
る可能性が高い場合に、該部分文字列に文字列を追加し
た拡張部分文字列と該拡張部分文字列に対応するインデ
クスを作成する文字列インクリメントステップとを有す
ることを特徴とする文書検索方法。
【請求項２】インデクスの読み出し回数を管理する参
照頻度テーブルを更新する参照頻度テーブル更新ステッ
プを有し、前記検索可能性判定ステップは、前記参照頻度テーブル
内の該インデクスに対応する参照頻度と予め定められた
基準参照頻度とを比較して、該インデクスに対応する部
分文字列が前記インデクス検索ステップで検索される可
能性が高いかどうかを判定する参照頻度比較ステップで
あることを特徴とする請求項１に記載された文書検索方
法。
【請求項３】ユーザが入力した重要語を重要語テーブ
ルに格納する重要語登録ステップを有し、前記検索可能性判定ステップは、該インデクスに対応す
る部分文字列が前記重要語テーブルに格納されている重
要語に含まれるかどうかを調べ、該インデクスに対応す
る部分文字列が前記インデクス検索ステップで検索され
る可能性が高いかどうかを判定する重要文字列検索ステ
ップであることを特徴とする請求項１に記載された文書
検索方法。
【請求項４】相互に関連のある語を予め関連付けて格
納した関連語ファイルを上記検索タームで探索し、該検
索タームに関連のある１つ以上の関連語を取得する検索
ターム展開ステップを有し、前記インデクス検索ステップは、前記検索タームまたは
関連語における部分文字列と同じ位置関係を持つテキス
トデータの位置情報を抽出し、前記検索可能性判定ステップは、該インデクスに対応す
る部分文字列が前記関連語テーブルに格納されている関
連語に含まれるかどうかを調べ、該インデクスに対応す
る部分文字列が前記インデクス検索ステップで検索され
る可能性が高いかどうかを判定する展開語検索ステップ
であることを特徴とする請求項１に記載された文書検索
方法。
【請求項５】特定の検索タームを含むテキストデータ
を検索する文書検索方法において、検索タームの部分文字列に対応するインデクスにより、
前記検索タームの部分文字列と同じ位置関係を持つテキ
ストデータの位置情報を抽出するインデクス検索ステッ
プと、前記インデクス検索ステップにおける処理時間を測定
し、該処理時間が予め定められた基準処理時間より長い
場合に、前記インデクス検索ステップにおいて得られた
位置情報をインデクスとして登録するインデクス作成ス
テップとを有することを特徴とする文書検索方法。
【請求項６】特定の検索タームを含むテキストデータ
を検索する文書検索装置において、検索タームの部分文字列に対応するインデクスにより、
前記検索タームの部分文字列と同じ位置関係を持つテキ
ストデータの位置情報を抽出するインデクス検索処理部
と、テキストデータの部分文字列に対応するインデクスのサ
イズと予め定められた基準インデクスサイズとを比較す
るインデクスサイズ比較処理部と、該インデクスのサイズが該基準インデクスサイズより大
きい場合に、該インデクスに対応する部分文字列が前記
インデクス検索処理部で検索される可能性が高いかどう
かを判定する検索可能性判定処理部と、該部分文字列が前記インデクス検索処理部で検索される
可能性が高い場合に、該部分文字列に文字列を追加した
拡張部分文字列と該拡張部分文字列に対応するインデク
スを作成する文字列インクリメント処理部とを備えるこ
とを特徴とする文書検索装置。
【請求項７】特定の検索タームを含むテキストデータ
を検索する文書検索装置としてコンピュータを機能させ
る為のプログラムを記録した媒体において、検索タームの部分文字列に対応するインデクスにより、
前記検索タームにおける部分文字列と同じ位置関係を持
つテキストデータの位置情報を抽出するインデクス検索
処理部と、テキストデータから作成した部分文字列に対応するイン
デクスのサイズと予め定められた基準インデクスサイズ
とを比較するインデクスサイズ比較処理部と、該インデクスのサイズが該基準インデクスサイズより大
きい場合に、該インデクスに対応する部分文字列が前記
インデクス検索処理部で検索される可能性が高いかどう
かを判定する検索可能性判定処理部と、該部分文字列が前記インデクス検索処理部で検索される
可能性が高い場合に、該部分文字列に文字列を追加した
拡張部分文字列と該拡張部分文字列に対応するインデク
スを作成する文字列インクリメント処理部としてコンピ
ュータ機能させる為のプログラムを記録したことを特徴
とする媒体。