JP3456127B2

JP3456127B2 - インデクスキーの高速拡張機能を備えた文書検索方法および装置

Info

Publication number: JP3456127B2
Application number: JP30907797A
Authority: JP
Inventors: 菅谷　　奈津子; 勝己多田; 卓哉岡本; 忠孝松林; 靖司川下
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-11-11
Filing date: 1997-11-11
Publication date: 2003-10-14
Anticipated expiration: 2017-11-11
Also published as: JPH11143901A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、新聞記事や特許明
細書のように日々増加していく大規模な文書データベー
スから、所望の文書を探索する文書検索に係わり、特に
文書の全文を対象として、指定した文字列の存在を探索
するフルテキストサーチのための文書検索方法および装
置に関する。

【０００２】

【従来の技術】大規模な文書データベースから指定され
た検索文字列（以下、検索タームと呼ぶ）が含まれる文
書を高速に探し出す方式として、ｎ−ｇｒａｍインデク
ス方式（以下、方式１と呼ぶ）がある。ｎ−ｇｒａｍイ
ンデクス方式とは、文書の登録時に文書中の全てのｎ−
ｇｒａｍ（連続するｎ文字からなる文字列）についてそ
の出現位置情報をインデクスとして格納しておき、検索
時には検索ターム中のｎ−ｇｒａｍに対しそのインデク
スを参照し、検索ターム中の位置関係とインデクス中の
位置関係が等しいかどうかを判定（以下、隣接判定と呼
ぶ）することによって、検索タームが出現する文書を探
し出す方式である。図２に１−ｇｒａｍインデクス方式
の例を示す。本図に示すように、方式１では、文書の登
録時に文書中の全てのｎ−ｇｒａｍ（図２の例ではｎ
＝１）についてその出現位置情報をインデクスとして格
納する。例えば、“に”という１−ｇｒａｍは文書‘０
０１’の‘３’文字目に出現するので、その文書番号
‘００１’と文字位置‘３’を“に”に対応するインデ
クス２００に格納する。検索時には、指定された検索タ
ームから抽出したｎ−ｇｒａｍ（図２の例ではｎ＝
１）のインデクス間で出現位置情報の隣接判定を行うこ
とにより、検索タームの出現位置情報を取得する。例え
ば、“微生物”が検索タームとして指定された場合に
は、この検索タームからまず、１−ｇｒａｍ “微”、
“生”および“物”を抽出する。そして、“微”に対応
するインデクス２０１、“生”に対応するインデクス２
０２および“物”に対応するインデクス２０３の間で出
現位置情報の隣接判定を行うことによって、“微生物”
の出現位置情報を取得する。本図の例では、“微”、
“生”および“物”が文書番号‘００１’の‘９’文字
目から、文書番号‘０５６’の‘５’文字目から隣り合
っているので、それらの出現位置に“微生物”が存在す
ることが分かる。以上のように、方式１では、文書を走
査することなしに、インデクスの読込みと出現位置情報
の隣接判定だけで検索が行えるため、大規模な文書デー
タベースに適用した場合でも高速なフルテキストサーチ
を実現できる可能性がある。

【０００３】しかし、方式１では、ｎを１とすると、す
なわち１−ｇｒａｍのインデクスを用いると、１−ｇｒ
ａｍは全文書中（データベース中）における出現頻度が
高いため、一つの１−ｇｒａｍに対する出現位置情報が
増え、個々のインデクスの容量が大きくなる。このため
インデクスの読込みに時間が掛かるばかりでなく、出現
位置情報による隣接判定の回数も増えるため、検索に時
間が掛かるという問題が生じる。検索を高速にするため
にはｎの値を増やした容量の小さなインデクスを作成す
る必要があるが、短い検索タームが指定された場合でも
検索が行えるようにｎの小さなインデクスも全て作成し
ておかなければならない。その結果、総インデクス容量
が増加することになる。

【０００４】また、方式１のようなインデクス型の文書
検索方法では、“キー探索技法−ＩＶトライとその応
用”（青江順一著、情報処理Ｖｏｌ．３４、Ｎｏ．２、
１９９３、ｐｐ．２４４−２５１）に記載されているト
ライのような木構造で文字列（方式１の場合はｎ−ｇｒ
ａｍ）を管理する必要がある。トライとは検索対象とな
る文字列すなわちキーワードの集合（以下、キー集合と
呼ぶ）における各キーワード（以下、キーと呼ぶ）に共
通な前方部分文字列を共通の節で括り出して作られる木
構造である。このトライは登録や検索の際に用いられ、
登録する文字列あるいは検索ターム中の文字列でキーを
辿ってトライを探索することにより、その文字列に対応
するインデクスを指し示すポインタ情報を取得すること
ができる。トライの探索に掛かる時間はキーの数に依存
しないため、大規模なデータベースに適用した場合で
も、高速にキーワードを探索できるという特徴がある。
図３にキー集合｛ｂａｂｙ、ｂａｄｇｅ、ｂａｄｇｅ
ｒ、ｊａｒ｝に対応するトライを示す。このトライでは
節１（３００）から節２（３０１）へ枝ラベルｂ（３０
２）が定義され、二重丸で示すキーの末尾にあたる節に
はそのキーに対するインデクスへのポインタ情報が設定
されている。例えば、検索タームとして“ｂａｂｙ”が
指定された場合には、文字列“ｂａｂｙ”で本図のトラ
イを探索することにより、節５（３０３）に設定されて
いるポインタ情報Ｐｔ１が得られ、このポインタ情報Ｐ
ｔ１が示す先に検索ターム“ｂａｂｙ”に対応するイン
デクスが格納されていることになる。方式１において、
このトライを用いてｎ−ｇｒａｍを管理する際、個々の
インデクスの容量を小さくして検索を高速にするために
ｎ−ｇｒａｍを長くしたインデクスを作成すると、ｎ
−ｇｒａｍの種類が増え、トライの節が増えるため、ト
ライ全体の規模が大きくなってしまうという問題があ
る。

【０００５】この総インデクス容量とインデクスを管理
する木構造の容量の増加という問題を解決するために
「特開平８−１９４７１８号」（以下、公知例１と呼
ぶ）で、インデクスの容量がある基準値（以下、基準イ
ンデクスサイズと呼ぶ）を超えたｎ−ｇｒａｍに対して
のみ、ｎの値を増やして容量の小さなインデクスを作成
することにより、常に容量の小さなインデクスの読込み
と出現位置情報の隣接判定で済むようにして、高速な検
索を実現するとともに、総インデクス容量およびインデ
クスを管理する木構造（以下、トライで説明する）の容
量の増加を防ぐ方式が開示されている。図４に公知例１
に開示されているインクリメンタルｎ−ｇｒａｍインデ
クス方式の概要を示す。本方式では、文書の登録時にｎ
−ｇｒａｍに対応するインデクスを作成するともに、文
書中の２文字の接続情報をトライ１２２に登録する。そ
して、文書を登録していき、インデクスの容量が基準イ
ンデクスサイズを超えた場合には、対応するｎ−ｇｒａ
ｍに１文字追加したｎ−ｇｒａｍ（以下、拡張ｎ−ｇ
ｒａｍと呼ぶ）のインデクスを作成する。以下、図４を
用いてインデクスの作成方法を具体的に説明する。ｎ
−ｇｒａｍに１文字追加した拡張ｎ−ｇｒａｍを作成す
るためには、まずトライ１２２を参照してそのｎ−ｇｒ
ａｍに続く可能性のあるｎ−ｇｒａｍを取得する。そし
て、検出されたｎ−ｇｒａｍ（以下、接続ｎ−ｇｒａ
ｍと呼ぶ）のインデクスと基準インデクスサイズより容
量が大きくなったｎ−ｇｒａｍ（以下、基準インデク
ス超過ｎ−ｇｒａｍと呼ぶ）のインデクスの間で出現位
置情報の隣接判定を行うことにより、拡張ｎ−ｇｒａｍ
のインデクスを作成する。本図の例では、“生”という
１−ｇｒａｍに対応するインデクスが基準インデクスサ
イズより大きくなっており、“生”が基準インデクス超
過ｎ−ｇｒａｍとなる。ここで、まず、“生”という文
字でトライ１２２を探索し、“生”に続く接続ｎ−ｇｒ
ａｍを取得する。本図に示す例では、トライ１２２を探
索することにより、“生”の後ろに“物”と“息”が続
くことが分かる。そこで、“生”と“物”、“生”と
“息”のインデクスの間で出現位置情報の隣接判定を行
うことにより、“生物”、“生息”といった“生”に１
文字追加した拡張ｎ−ｇｒａｍのインデクス４００を作
成する。以上のように、公知例１を用いることにより、
容量が大きく検索に時間が掛かるインデクスに対して
は、そのｎ−ｇｒａｍに１文字追加した拡張ｎ−ｇｒａ
ｍに対するインデクスを作成するため、常に容量の小さ
なインデクスの読込みと出現位置情報の隣接判定で済む
ようになるため、高速な検索を実現することができるよ
うになる。また、それ以外のインデクスに対しては、
ｎ−ｇｒａｍの長さを増やしたインデクスを作成しない
ため、総インデクス容量およびｎ−ｇｒａｍを管理する
木構造（トライ）の容量の増加を防ぐことができる。

【０００６】

【発明が解決しようとする課題】以上説明した公知例１
に開示されている方式によると、基準インデクスサイズ
より容量が大きく検索に時間が掛かるインデクスに対し
ては、そのキーであるｎ−ｇｒａｍに１文字を追加した
容量の小さなインデクスを作成することになるため、常
に容量の小さなインデクスの読込みと出現位置情報の隣
接判定で済むようになり、高速な検索を実現することが
可能となる。また、基準インデクスサイズより容量の小
さなインデクスに対しては、それ以上ｎ−ｇｒａｍを長
くしたインデクスを作成しないため、総インデクス容量
およびｎ−ｇｒａｍを管理する木構造（トライ）の容量
の増加を防ぐことが可能となる。

【０００７】しかし、ｎ−ｇｒａｍに１文字追加した
拡張ｎ−ｇｒａｍのインデクスの作成処理に時間が掛か
る可能性がある。拡張ｎ−ｇｒａｍのインデクスを作成
するには、基準インデクス超過ｎ−ｇｒａｍのインデク
スと、トライを探索して検出された複数の接続ｎ−ｇｒ
ａｍのインデクスの読込みと、それらのインデクス間で
の出現位置情報の隣接判定を行わなければならない。日
本語の場合、数千種類の文字が存在するため、トライを
探索して得られる接続ｎ−ｇｒａｍは数百から千数百種
にも及ぶ。そのため、１つの接続ｎ−ｇｒａｍ毎に基準
インデクス超過ｎ−ｇｒａｍと接続ｎ−ｇｒａｍのイン
デクスを読み込んで出現位置情報の隣接判定を行うとい
う、通常の検索処理の繰り返しを行うと時間が掛かるこ
とになる。この処理時間を短縮するために、基準インデ
クス超過ｎ−ｇｒａｍのインデクスを主記憶装置上に常
駐させることが考えられる。しかし、インデクス型の検
索方式ではインデクスに格納されている出現位置情報を
圧縮していることが多く、数百から千数百といった接続
ｎ−ｇｒａｍとの隣接判定処理毎に出現位置情報を解凍
していたのでは時間が掛かってしまう。そこで、出現位
置情報の圧縮を解凍した状態で主記憶装置上に常駐させ
ようとすると、必要な主記憶装置容量が膨大になり、現
実的ではない。

【０００８】こうした問題に対し、本発明では以下の課
題を解決することを目的とする。すなわち、本発明の目
的は、基準インデクス超過ｎ−ｇｒａｍのインデクスの
出現位置情報を１つ圧縮解凍した後に複数の接続ｎ−ｇ
ｒａｍとの隣接判定処理を行うことにより、接続ｎ−ｇ
ｒａｍ数が多い場合でも、基準インデクス超過ｎ−ｇｒ
ａｍのインデクスに対する読込みおよび解凍処理を一度
で済ませて、拡張ｎ−ｇｒａｍのインデクスを高速に作
成することが可能な文書検索システムを提供することに
ある。

【０００９】

【課題を解決するための手段】上記課題を解決するため
に、本発明では、文書情報を文字コードデータとして蓄
積したテキストデータベースを対象として、登録対象テ
キストデータから所定のｎ−ｇｒａｍと、該ｎ−ｇｒａ
ｍの該対象テキストデータにおけるテキスト識別情報と
出現位置情報を含む位置情報を抽出し、該位置情報をイ
ンデクスとして記憶し、前記ｎ−ｇｒａｍと前記インデ
クスの記憶位置を管理するためのｎ−ｇｒａｍテーブル
を更新するインデクス作成登録ステップと、前記テキス
トデータから作成した前記ｎ−ｇｒａｍに対応するイン
デクスの容量と予め定められた基準インデクスサイズと
を比較するインデクス容量比較ステップと、前記基準イ
ンデクスサイズより大きい容量のインデクスに対応する
ｎ−ｇｒａｍに続く複数のｎ−ｇｒａｍ（接続ｎ−ｇｒ
ａｍと呼ぶ）を、前記ｎ−ｇｒａｍテーブルを参照して
探索する接続ｎ−ｇｒａｍ探索ステップと、前記ｎ−ｇ
ｒａｍに対応するインデクスと前記複数の接続ｎ−ｇｒ
ａｍに対応するインデクスから、前記ｎ−ｇｒａｍに前
記接続ｎ−ｇｒａｍを追加したｎ−ｇｒａｍ（拡張ｎ−
ｇｒａｍと呼ぶ）と該拡張ｎ−ｇｒａｍに対応するイン
デクスを作成するｎ−ｇｒａｍ拡張ステップを有するｎ
−ｇｒａｍインクリメントステップと、検索タームから
前記ｎ−ｇｒａｍテーブルを参照して所定のｎ−ｇｒａ
ｍを抽出し、該当インデクスを読み出し、該検索ターム
におけるｎ−ｇｒａｍと同じ位置関係を持つ位置情報を
抽出するインデクス検索ステップを有する文書検索方法
において、前記ｎ−ｇｒａｍ拡張ステップは、予め定め
られた使用可能な主記憶装置容量に基づき、前記ｎ−ｇ
ｒａｍと前記複数の接続ｎ−ｇｒａｍと前記複数の拡張
ｎ−ｇｒａｍに対して主記憶装置上にワークエリアを割
り当てるワークエリア割り当てステップと、前記ｎ−ｇ
ｒａｍと前記複数の接続ｎ−ｇｒａｍのインデクスを前
記ワークエリアに読み込むインデクス読込みステップ
と、前記ｎ−ｇｒａｍに対応するインデクスから取得し
た位置情報を、前記複数の接続ｎ−ｇｒａｍに対応する
インデクスから取得した複数の位置情報と連続して比較
し、テキスト識別情報が一致する条件と出現位置情報が
隣接する条件を満たす接続ｎ−ｇｒａｍが存在する場合
には、前記ｎ−ｇｒａｍの位置情報を該接続ｎ−ｇｒａ
ｍに対応する拡張ｎ−ｇｒａｍのインデクスとして前記
ワークエリアに作成する拡張ｎ−ｇｒａｍ作成ステップ
と、前記ワークエリアに作成された前記複数の拡張ｎ−
ｇｒａｍのインデクスを二次記憶装置に書き込むインデ
クス書込みステップを有するようにする。

【００１０】以下、この文書検索方法において、公知例
１に開示されている方式と異なるｎ−ｇｒａｍ拡張ステ
ップの処理内容について説明する。

【００１１】ワークエリア割り当てステップでは、予め
定められた使用可能な主記憶装置容量に基づき、基準イ
ンデクス超過ｎ−ｇｒａｍのインデクスの読込み用、複
数の接続ｎ−ｇｒａｍのインデクスの読込み用および複
数の拡張ｎ−ｇｒａｍのインデクスの作成用に主記憶装
置上のワークエリアを割り当てる。ここで、使用可能な
主記憶装置容量が基準インデクス超過ｎ−ｇｒａｍ、接
続ｎ−ｇｒａｍおよび拡張ｎ−ｇｒａｍのインデクス容
量の合計よりも大きい場合には、（１）図５に示すように、基準インデクス超過ｎ−ｇｒ
ａｍ、接続ｎ−ｇｒａｍおよび拡張ｎ−ｇｒａｍの全て
にインデクス容量と同じ容量のワークエリアを割り当て
る。

【００１２】使用可能な主記憶装置容量が基準インデク
ス超過ｎ−ｇｒａｍ、接続ｎ−ｇｒａｍおよび拡張ｎ−
ｇｒａｍのインデクス容量の合計よりも小さい場合に
は、予め定められた割り当て方法に基づきワークエリア
を割り当てる。この割り当てには、以下のような方法を
用いる。

【００１３】（２）図６に示すように、基準インデクス
超過ｎ−ｇｒａｍ、接続ｎ−ｇｒａｍおよび拡張ｎ−ｇ
ｒａｍの全てに同じ容量のワークエリアを割り当てる。

【００１４】（３）図７に示すように、基準インデクス
超過ｎ−ｇｒａｍ、接続ｎ−ｇｒａｍおよび拡張ｎ−ｇ
ｒａｍのインデクス容量のそれぞれに応じて、ワークエ
リアを比例配分する。

【００１５】（４）図８に示すように、インデクス容量
の小さなｎ−ｇｒａｍにはインデクス容量と同じ容量の
ワークエリアを割り当て、インデクス容量の大きなｎ−
ｇｒａｍに対しては、該ワークエリアの中で最も大きい
容量を割り当てる。

【００１６】なお、拡張ｎ−ｇｒａｍのインデクス容量
は、基準インデクス超過ｎ−ｇｒａｍと接続ｎ−ｇｒａ
ｍのインデクス間で出現位置情報の隣接判定を行わなけ
れば分からないので、接続ｎ−ｇｒａｍのインデクス容
量で代用する。これは、拡張ｎ−ｇｒａｍのインデクス
は接続ｎ−ｇｒａｍのインデクスの小さい方より大きく
なることはないためである。

【００１７】さらに、使用可能な主記憶装置容量が少な
い場合には、接続ｎ−ｇｒａｍと拡張ｎ−ｇｒａｍの一
部に対してｎ−ｇｒａｍ拡張ステップの処理を行い、全
ての接続ｎ−ｇｒａｍと拡張ｎ−ｇｒａｍに対する処理
が終了するまでｎ−ｇｒａｍ拡張ステップの処理を繰り
返すことも可能である。しかし、この場合には基準イン
デクス超過ｎ−ｇｒａｍのインデクスに対する読込みと
圧縮解凍処理が繰り返しの数だけ増加するため、拡張ｎ
−ｇｒａｍのインデクス作成性能が劣化する。

【００１８】以下のステップは図９を用いて説明する。

【００１９】インデクス読込みステップでは、まず、
〈１〉ワークエリア割り当てステップで割り当てられた
主記憶装置上のワークエリアに基準インデクス超過ｎ−
ｇｒａｍのインデクスを読み込む。次に、〈２〉ワーク
エリア割り当てステップで割り当てられた主記憶装置上
のワークエリアに接続ｎ−ｇｒａｍのインデクスを読み
込む。本図の例では、ワークエリア９０２に基準インデ
クス超過ｎ−ｇｒａｍ“生”のインデクス２０２を読み
込み、ワークエリア９０３および９０５に接続ｎ−ｇｒ
ａｍ“物”のインデクス２０３および“息”のインデク
ス９００を読み込む。ここで、上記（１）のように、イ
ンデクス容量と同じ容量のワークエリアが基準インデク
ス超過ｎ−ｇｒａｍと全ての接続ｎ−ｇｒａｍに対して
割り当てられている場合には、一度に基準インデクス超
過ｎ−ｇｒａｍと全ての接続ｎ−ｇｒａｍのインデクス
を読み込む。（２）、（３）および（４）のように、イ
ンデクス容量よりもワークエリアが小さい場合には、ワ
ークエリアに読み込むことができるだけのインデクスを
読み込み、下記に述べる拡張ｎ−ｇｒａｍ作成ステップ
においてワークエリアに読み込まれたインデクスに対す
る処理が終わった時点で、インデクス読込みステップを
再度実行する。

【００２０】拡張ｎ−ｇｒａｍ作成ステップでは、基準
インデクス超過ｎ−ｇｒａｍに対応するインデクスから
解凍して取得した位置情報を、複数の接続ｎ−ｇｒａｍ
に対応するインデクスから解凍して取得した位置情報と
連続して比較し、位置情報が隣接している接続ｎ−ｇｒ
ａｍが存在する場合には、基準インデクス超過ｎ−ｇｒ
ａｍの位置情報を接続ｎ−ｇｒａｍに対応する拡張ｎ−
ｇｒａｍのインデクスとしてワークエリアに格納する。
以下、図９を用いて具体的に説明する。まず、〈３〉ワ
ークエリア９０２に格納されている基準インデクス超過
ｎ−ｇｒａｍ“生”のインデクスの圧縮を解凍して位置
情報を１つ取得する。次に、〈４〉ワークエリア９０３
に格納されている接続ｎ−ｇｒａｍ“物”のインデクス
とワークエリア９０５に格納されている“息”のインデ
クスの圧縮を解凍して位置情報をそれぞれ１つ取得し、
〈３〉で取得した基準インデクス超過ｎ−ｇｒａｍ
“生”の位置情報と比較する。そして、〈５〉比較した
結果、隣接していると判定された場合には、基準インデ
クス超過ｎ−ｇｒａｍ“生”の位置情報を、拡張ｎ−ｇ
ｒａｍのインデクスとしてワークエリアに格納する。図
に示す例の場合、“物”、“息”ともに位置情報が隣接
しているので、その位置情報を拡張ｎ−ｇｒａｍ“生
物”のインデクスとしてワークエリア９０４に、“生
息”のインデクスとしてワークエリア９０６に格納す
る。さらに、〈６〉ワークエリア９０２に格納されてい
る基準インデクス超過ｎ−ｇｒａｍ“生”のインデクス
の圧縮を解凍して位置情報を１つ取得する。次に、
〈７〉ワークエリア９０３に格納されている接続ｎ−ｇ
ｒａｍ“物”のインデクスとワークエリア９０５に格納
されている“息”のインデクスの圧縮を解凍して位置情
報をそれぞれ１つ取得し、〈６〉で取得した基準インデ
クス超過ｎ−ｇｒａｍ“生”の位置情報と比較する。そ
して、〈８〉比較した結果、隣接していると判定された
場合には、対応する拡張ｎ−ｇｒａｍのワークエリアに
格納する。図に示す例の場合、“息”の位置情報が隣接
しているので、その位置情報を拡張ｎ−ｇｒａｍ“生
息”のインデクスとしてワークエリア９０６に格納す
る。

【００２１】インデクス書き込みステップでは、〈９〉
ワークエリアに格納されている拡張ｎ−ｇｒａｍのイン
デクスを二次記憶装置へ書き込む。本処理は、拡張ｎ−
ｇｒａｍ作成ステップを行っている際に、拡張ｎ−ｇｒ
ａｍのワークエリアが一杯になった場合にも行う。図に
示す例では、ワークエリア９０４に格納されている拡張
ｎ−ｇｒａｍ“生物”のインデクスをインデクス４００
として、ワークエリア９０６に格納されている“生息”
のインデクスをインデクス９０１として二次記憶装置に
格納する。

【００２２】以上説明したように、本方式では、基準イ
ンデクス超過ｎ−ｇｒａｍのインデクスから一つ位置情
報を解凍する度に、複数の接続ｎ−ｇｒａｍのインデク
スから解凍して取得した位置情報と、連続して隣接判定
を行い、基準インデクス超過ｎ−ｇｒａｍに１文字増や
した拡張ｎ−ｇｒａｍのインデクスを作成する。単純に
検索処理と同様の処理を繰り返すだけでは拡張ｎ−ｇｒ
ａｍのインデクスを作成するのに、基準インデクス超過
ｎ−ｇｒａｍのインデクスの読込み処理と隣接判定（位
置情報の解凍）処理を接続ｎ−ｇｒａｍの数だけ行わな
ければならないが、本方式では、基準インデクス超過ｎ
−ｇｒａｍの読込み処理と隣接判定処理を各々一度行う
だけで、拡張ｎ−ｇｒａｍのインデクスを作成すること
ができる。その結果、基準インデクス超過ｎ−ｇｒａｍ
を１文字増やした拡張ｎ−ｇｒａｍのインデクスの作成
時間を大幅に短縮することが可能となる。

【００２３】

【発明の実施の形態】以下、本発明の実施例について図
１を用いて説明する。

【００２４】本発明を適用した文書登録検索システム
は、ディスプレイ１００、キーボード１０１、中央演算
処理装置（ＣＰＵ）１０２、テキスト１０７およびイン
デクス１０８を格納する二次記憶装置としての磁気ディ
スク装置１０６、フロッピディスクドライバ（ＦＤＤ）
１０４、主記憶装置１０９から構成される。バス１０３
にはＣＰＵ１０２、磁気ディスク装置１０６、ＦＤＤ１
０４および主記憶装置１０９が接続されている。フロッ
ピディスク１０５に格納されている情報は、ＦＤＤ１０
４によりアクセスされる。

【００２５】主記憶装置１０９には、文書登録制御プロ
グラム１１０、インデクス作成プログラム１１２、イン
クリメントプログラム１１３、検索制御プログラム１１
１、インデクス検索プログラム１２１が格納されるとと
もにトライ格納テーブル１２２およびワークエリア１２
３が確保される。インクリメントプログラム１１３はイ
ンデクス容量比較プログラム１１４、接続ｎ−ｇｒａｍ
探索プログラム１１５およびｎ−ｇｒａｍ拡張プログラ
ム１１６で構成され、ｎ−ｇｒａｍ拡張プログラム１１
６はワークエリア割り当てプログラム１１７、インデク
ス読込みプログラム１１８、拡張ｎ−ｇｒａｍ作成プロ
グラム１１９およびインデクス書込みプログラム１２０
で構成される。文書登録制御プログラム１１０および検
索制御プログラム１１１はユーザによるキーボード１０
１からの指示に応じてＣＰＵ１０２で実行される。

【００２６】以下、本実施例における登録処理と検索処
理について説明する。登録の際は図１０のＰＡＤ（Ｐｒ
ｏｂｌｅｍＡｎａｌｙｓｉｓＤｉａｇｒａｍ）図に
示すように、ステップ１０００でキーボード１０１から
コマンドを入力し、文書登録制御プログラム１１０を起
動する。次に、ステップ１００１で上記文書登録制御プ
ログラム１１０はインデクス作成プログラム１１２を起
動して、ＦＤＤ１０４に挿入されたフロッピディスク１
０５から登録文書のテキストデータをワークエリア１２
３に読み込み、これをテキスト１０７として磁気ディス
ク装置１０６へ格納する。そして、テキスト１０７から
所定のｎ−ｇｒａｍとテキスト１０７における文書番号
（テキスト識別情報）とその文字位置（出現位置情報）
を含む位置情報を抽出し、インデクス１０８として磁気
ディスク装置１０６へ格納する。テキストデータはフロ
ッピディスクを用いて入力するだけに限らず、通信回線
やＣＤ−ＲＯＭ装置（図１には示していない）等を用い
て他の装置から入力するような構成をとることも可能で
ある。最後に、ステップ１００２で文書登録制御プログ
ラム１１０は、インクリメントプログラム１１３を起動
し、インデクス作成プログラム１１２によって作成され
たインデクス１０８が予め定められた基準インデクスサ
イズより大きくなったｎ−ｇｒａｍ（基準インデクス超
過ｎ−ｇｒａｍ）に対して、後述するインクリメント処
理を行う。

【００２７】検索の際には、検索制御プログラム１１１
がキーボード１０１から入力された検索条件式をインデ
クス検索プログラム１２１へ渡し、入力された検索条件
式を満たす文書番号を取得する。この検索処理の内容は
公知例１に開示されている方式と同様である。

【００２８】以下、図１０に示した本実施例における登
録処理手順のうち、インクリメントプログラム１１３の
処理手順について図１１を用いて詳細に説明する。本プ
ログラムでは、ステップ１１００でインデクス作成プロ
グラム１１２によって作成されたインデクスの個数分、
ステップ１１０１からステップ１１０４の一連の処理を
繰り返す。この一連の処理では、まずステップ１１０１
で、インデクス容量比較プログラム１１４を起動し、イ
ンデクス容量とインデクスへのポインタ情報を取得す
る。そしてステップ１１０２で、処理対象であるインデ
クスが基準インデクスサイズより大きい、すなわちイン
デクスのキーであるｎ−ｇｒａｍが基準インデクス超過
ｎ−ｇｒａｍである場合には、ステップ１１０３および
ステップ１１０４の処理を行う。ステップ１１０３で
は、接続ｎ−ｇｒａｍ探索プログラム１１５を起動し、
トライ格納テーブル１２２を参照して基準インデクス超
過ｎ−ｇｒａｍに続く全ての接続ｎ−ｇｒａｍを探索す
る。そして、ステップ１１０４でｎ−ｇｒａｍ拡張プロ
グラム１１６を起動し、基準インデクス超過ｎ−ｇｒａ
ｍのインデクスと接続ｎ−ｇｒａｍのインデクスから拡
張ｎ−ｇｒａｍのインデクスを作成する。

【００２９】最後に、図１１に示すインクリメントプロ
グラム１１３の処理手順の中で公知例１に開示されてい
る方式と処理が異なるｎ−ｇｒａｍ拡張プログラム１１
６の処理内容について図１２を用いて詳細に説明する。
本プログラムでは、まずステップ１２００で、ワークエ
リア割り当てプログラム１１７を起動し、予め定められ
た使用可能な主記憶装置容量に基づき、基準インデクス
超過ｎ−ｇｒａｍのインデクスの読込み用、複数の接続
ｎ−ｇｒａｍのインデクスの読込み用および複数の拡張
ｎ−ｇｒａｍのインデクスの作成用に主記憶装置上のワ
ークエリア１２３を割り当てる。ここで、使用可能な主
記憶装置容量が基準インデクス超過ｎ−ｇｒａｍ、接続
ｎ−ｇｒａｍおよび拡張ｎ−ｇｒａｍのインデクス容量
の合計よりも大きい場合には、（１）図５に示すように、基準インデクス超過ｎ−ｇｒ
ａｍ、接続ｎ−ｇｒａｍおよび拡張ｎ−ｇｒａｍの全て
にインデクス容量と同じ容量のワークエリアを割り当て
る。

【００３０】使用可能な主記憶装置容量が基準インデク
ス超過ｎ−ｇｒａｍ、接続ｎ−ｇｒａｍおよび拡張ｎ−
ｇｒａｍのインデクス容量の合計よりも小さい場合に
は、予め定められた割り当て方法に基づきワークエリア
を割り当てる。この割り当てには、以下のような方法を
用いる。

【００３１】（２）図６に示すように、基準インデクス
超過ｎ−ｇｒａｍ、接続ｎ−ｇｒａｍおよび拡張ｎ−ｇ
ｒａｍの全てに同じ容量のワークエリアを割り当てる。

【００３２】（３）図７に示すように、基準インデクス
超過ｎ−ｇｒａｍ、接続ｎ−ｇｒａｍおよび拡張ｎ−ｇ
ｒａｍのインデクス容量のそれぞれに応じて、ワークエ
リアを比例配分する。

【００３３】（４）図８に示すように、インデクス容量
の小さなｎ−ｇｒａｍにはインデクス容量と同じ容量の
ワークエリアを割り当て、インデクス容量の大きなｎ−
ｇｒａｍに対しては、該ワークエリアの中で最も大きい
容量を割り当てる。

【００３４】なお、拡張ｎ−ｇｒａｍのインデクス容量
は、基準インデクス超過ｎ−ｇｒａｍと接続ｎ−ｇｒａ
ｍのインデクス間で出現位置情報の隣接判定を行わなけ
れば分からないので、接続ｎ−ｇｒａｍのインデクス容
量で代用する。これは、拡張ｎ−ｇｒａｍのインデクス
は接続ｎ−ｇｒａｍのインデクスの小さい方より大きく
なることはないためである。

【００３５】さらに、使用可能な主記憶装置容量が少な
い場合には、接続ｎ−ｇｒａｍと拡張ｎ−ｇｒａｍの一
部に対してｎ−ｇｒａｍ拡張ステップの処理を実行し、
全ての接続ｎ−ｇｒａｍと拡張ｎ−ｇｒａｍに対する処
理が終了するまでｎ−ｇｒａｍ拡張ステップの処理を繰
り返すことも可能である。しかし、この場合には基準イ
ンデクス超過ｎ−ｇｒａｍのインデクスに対する読込み
と圧縮解凍処理が繰り返しの数だけ増加するため、拡張
ｎ−ｇｒａｍのインデクス作成性能が劣化する。

【００３６】次にステップ１２０１で、拡張ｎ−ｇｒａ
ｍ作成プログラム１１９を起動し、基準インデクス超過
ｎ−ｇｒａｍおよび複数の接続ｎ−ｇｒａｍのインデク
スに対して処理が全て終了するまでステップ１２０２か
らステップ１２０８の一連の処理を繰り返す。

【００３７】この繰り返し処理では、まずステップ１２
０２で、インデクス読込みプログラム１１８を起動し、
基準インデクス超過ｎ−ｇｒａｍおよび複数の接続ｎ−
ｇｒａｍのインデクス１０８を磁気ディスク装置１０６
から読み込み、ワークエリア１２３に格納する。図９に
示す例では、上記（４）の割り当て方法を用いており、
インデクス容量の小さい接続ｎ−ｇｒａｍ“物”および
“息”に対しては、インデクス容量と同じ容量のワーク
エリアが割り当てられているため、インデクスを全て読
み込んで格納する。しかし、使用可能な主記憶装置容量
が少ないため、基準インデクス超過ｎ−ｇｒａｍ“生”
に対して割り当てられたワークエリア９０２はインデク
ス容量よりも小さくなり、全てのインデクスを読み込む
ことはできない。

【００３８】次にステップ１２０３で、インデクス読込
みプログラム１１８によってワークエリア１２３に格納
されたインデクスに対しての処理が全て終了するまで、
ステップ１２０４からステップ１２０８の一連の処理を
繰り返す。

【００３９】本繰り返し処理では、まずステップ１２０
４で、ワークエリア１２３に格納されている基準インデ
クス超過ｎ−ｇｒａｍのインデクスを解凍して出現位置
情報を１つ取得する。次にステップ１２０５で、ワーク
エリア１２３に格納されている複数の接続ｎ−ｇｒａｍ
のインデクスを解凍して出現位置情報をそれぞれ１つ取
得する。そしてステップ１２０６で、基準インデクス超
過ｎ−ｇｒａｍと複数の接続ｎ−ｇｒａｍの間で出現位
置情報を比較し、隣接している場合には対応する拡張ｎ
−ｇｒａｍのインデクスとしてワークエリア１２３に格
納する。図９の例では、基準インデクス超過ｎ−ｇｒａ
ｍ“生”のインデクスから取得した出現位置情報が接続
ｎ−ｇｒａｍ“物”および“息”の出現位置情報と隣接
しているため、基準インデクス超過ｎ−ｇｒａｍ“生”
の出現位置情報を、拡張ｎ−ｇｒａｍ“生物”のインデ
クスとしてワークエリア９０４に、“生息”のインデク
スとしてワークエリア９０６に格納する。次に、ステッ
プ１２０７で、ワークエリア１２３に格納されている拡
張ｎ−ｇｒａｍのインデクス容量を調査する。そして、
フルである拡張ｎ−ｇｒａｍのワークエリアがあると判
断された場合には、ステップ１２０８でインデクス書込
みプログラム１２０を起動し、ワークエリア１２３に格
納されている拡張ｎ−ｇｒａｍのインデクスをインデク
ス１０８として磁気ディスク装置１０６に追加格納す
る。

【００４０】最後に、拡張ｎ−ｇｒａｍ作成プログラム
１１９による処理が全て終了した段階で、ステップ１２
０９で、インデクス書込みプログラム１２０を起動し、
ワークエリア１２３に格納されている拡張ｎ−ｇｒａｍ
のインデクスをインデクス１０８として磁気ディスク装
置１０６に追加格納する。図９に示す例では、拡張ｎ−
ｇｒａｍ作成プログラム１１９によってワークエリア９
０４内に作成された拡張ｎ−ｇｒａｍ“生物”のインデ
クスを“生物”のインデクス４００として、ワークエリ
ア９０６内に作成された“生息”のインデクスを“生
息”のインデクス９０１として磁気ディスク装置１０６
へ追加格納してｎ−ｇｒａｍ拡張プログラム１１６の処
理を終了する。

【００４１】以上説明したように、本実施例では、予め
定められた基準インデクスサイズよりもインデクス容量
が大きくなったｎ−ｇｒａｍ（基準インデクス超過ｎ−
ｇｒａｍ）に１文字追加した容量の小さなインデクスを
作成する際に、基準インデクス超過ｎ−ｇｒａｍ、複数
の接続ｎ−ｇｒａｍおよび複数の拡張ｎ−ｇｒａｍに対
してインデクス読込みあるいは書込み用のワークエリア
を用意しておき、基準インデクス超過ｎ−ｇｒａｍのイ
ンデクスの圧縮を解凍して位置情報を１つ取得する度
に、複数の接続ｎ−ｇｒａｍの位置情報と隣接判定を行
うことにより、接続ｎ−ｇｒａｍ数が多い場合でも、基
準インデクス超過ｎ−ｇｒａｍのインデクスに対する読
込みと圧縮解凍処理を１度で済ませることができるた
め、拡張ｎ−ｇｒａｍのインデクスを高速に作成するこ
とが可能となる。なお、本実施例ではｎ−ｇｒａｍテー
ブルとしてトライ格納テーブルを用いているが、トライ
格納テーブル以外の木構造のテーブルを用いてもよい。

【００４２】以上本発明によれば、新聞記事や特許明細
書のように日々件数が増大していく大規模な文書データ
ベースにおいて、検索用インデクス容量の大きなｎ−ｇ
ｒａｍに１文字追加して複数の容量の小さなインデクス
を作成する際に、インデクスの読込みと圧縮解凍処理を
各々一度行えば済むようになるため、追加する文字数、
すなわち作成するインデクス数が多い場合でも時間の掛
からないインデクスの作成処理が実現できることにな
る。

【００４３】

【発明の効果】本発明によれば、予め定められた基準イ
ンデクスサイズよりもインデクス容量が大きくなったｎ
−ｇｒａｍ（基準インデクス超過ｎ−ｇｒａｍ）に１文
字追加した複数の容量の小さなインデクスを作成する際
に、基準インデクス超過ｎ−ｇｒａｍ、基準インデク
ス超過ｎ−ｇｒａｍに接続する複数の接続ｎ−ｇｒａｍ
および基準インデクス超過ｎ−ｇｒａｍに１文字追加し
た複数の拡張ｎ−ｇｒａｍに対してインデクス読込みあ
るいは書込み用のワークエリアを用意しておき、基準イ
ンデクス超過ｎ−ｇｒａｍのインデクスの圧縮を解凍し
て位置情報を１つ取得する度に、複数の接続ｎ−ｇｒａ
ｍの位置情報と隣接判定を行うことにより、接続ｎ−ｇ
ｒａｍ数が多い場合でも、基準インデクス超過ｎ−ｇｒ
ａｍのインデクスに対する読込みと圧縮解凍処理が１度
で済むため、拡張ｎ−ｇｒａｍのインデクスを高速に作
成することが可能となる。この結果、基準インデクス超
過ｎ−ｇｒａｍに対する接続ｎ−ｇｒａｍ数が多い場合
でも、拡張ｎ−ｇｒａｍのインデクスを高速に作成する
ことが可能な文書検索システムを実現することが可能と
なる。

【図面の簡単な説明】

【図１】本発明の実施例の構成を示す図

【図２】方式１の処理内容を示す図

【図３】トライの構成を示す図

【図４】公知例１「特開平８−１９４７１８号」に開示
されている方式の処理内容を示す図

【図５】ワークエリア割り当て方法（１）の説明図

【図６】ワークエリア割り当て方法（２）の説明図

【図７】ワークエリア割り当て方法（３）の説明図

【図８】ワークエリア割り当て方法（４）の説明図

【図９】本発明の処理内容を示す図

【図１０】文書登録の処理内容を示すＰＡＤ図

【図１１】インクリメントプログラム１１３の処理内容
を示すＰＡＤ図

【図１２】ｎ−ｇｒａｍ拡張プログラム１１６の処理内
容を示すＰＡＤ図

【符号の説明】

１００・・・ディスプレイ、１０１・・・キーボード、１０２・・・ＣＰＵ、１０３・・・バス、１０４・・・フロッピディスクドライバ、１０５・・・フロッピディスク、１０６・・・磁気ディスク装置、１０７・・・テキスト、１０８・・・インデクス、１０９・・・主記憶装置、１１０・・・文書登録制御プログラム、１１１・・・検索制御プログラム、１１２・・・インデクス作成プログラム、１１３・・・インクリメントプログラム、１１４・・・インデクス容量比較プログラム、１１５・・・接続ｎ−ｇｒａｍ探索プログラム、１１６・・・ｎ−ｇｒａｍ拡張プログラム、１１７・・・ワークエリア割り当てプログラム、１１８・・・インデクス読込みプログラム、１１９・・・拡張ｎ−ｇｒａｍ作成プログラム、１２０・・・インデクス書込みプログラム、１２１・・・インデクス検索プログラム、１２２・・・トライ格納テーブル、１２３・・・ワークエリア、２００・・・“に”のインデクス、２０１・・・“微”のインデクス、２０２・・・“生”のインデクス、２０３・・・“物”のインデクス、３００・・・節１、３０１・・・節２、３０２・・・枝ラベルｂ、３０３・・・節５、４００・・・拡張ｎ−ｇｒａｍ“生物”のインデクス、９００・・・接続ｎ−ｇｒａｍ“息”のインデクス、９０１・・・拡張ｎ−ｇｒａｍ“生息”のインデクス、９０２・・・基準インデクス超過ｎ−ｇｒａｍ“生”の
ワークエリア、９０３・・・接続ｎ−ｇｒａｍ“物”のワークエリア、９０４・・・拡張ｎ−ｇｒａｍ“生物”のワークエリ
ア、９０５・・・接続ｎ−ｇｒａｍ“息”のワークエリア、９０６・・・拡張ｎ−ｇｒａｍ“生息”のワークエリア

───────────────────────────────────────────────────── フロントページの続き (72)発明者岡本卓哉神奈川県川崎市幸区鹿島田890番地株式会社日立製作所情報・通信開発本部内 (72)発明者松林忠孝神奈川県川崎市幸区鹿島田890番地株式会社日立製作所情報・通信開発本部内 (72)発明者川下靖司神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内 (56)参考文献特開平８−194718（ＪＰ，Ａ) 青江順一，（キー探索技法ＩＶ）トライとその応用，情報処理，情報処理学会，1993年２月15日，第34巻，第２号，第244〜251頁 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06F 12/00

Claims

(57)【特許請求の範囲】

【請求項１】文書情報を文字コードデータとして蓄積し
たテキストデータベースを対象とした文書検索方法にお
いて、登録対象テキストデータから所定の部分文字列と、該部
分文字列の該対象テキストデータにおけるテキスト識別
情報と出現位置情報を含む位置情報を抽出し、該位置情
報をインデクスとして記憶し、前記部分文字列と前記イ
ンデクスの記憶位置を管理するための文字列テーブルを
更新するインデクス作成登録ステップと、前記テキストデータから作成した前記部分文字列に対応
するインデクスの容量と予め定められた基準インデクス
サイズとを比較するインデクス容量比較ステップと、前記基準インデクスサイズより大きい容量のインデクス
に対応する部分文字列に続く複数の文字列（接続文字列
と呼ぶ）を、前記文字列テーブルを参照して探索する接
続文字列探索ステップと、前記部分文字列に対応するインデクスと前記複数の接続
文字列に対応するインデクスから、前記部分文字列に前
記接続文字列を追加した文字列（拡張文字列と呼ぶ）と
該拡張文字列に対応するインデクスを作成する文字列拡
張ステップと、検索タームから前記文字列テーブルを参照して所定の部
分文字列を抽出し、該当インデクスを読み出し、該検索
タームにおける部分文字列と同じ位置関係を持つ位置情
報を抽出するインデクス検索ステップとを有し、前記文字列拡張ステップは、前記部分文字列に対応する
インデクスから取得した位置情報を、前記複数の接続文
字列に対応するインデクスから取得した複数の位置情報
と連続して比較する隣接判定一括処理ステップを有する
ことを特徴とした文書検索方法。
【請求項２】文書情報を文字コードデータとして蓄積し
たテキストデータベースを対象として文書検索を行う文
書検索装置において、登録対象テキストデータから所定の部分文字列と、該部
分文字列の該対象テキストデータにおけるテキスト識別
情報と出現位置情報を含む位置情報を抽出し、該位置情
報をインデクスとして記憶し、前記部分文字列と前記イ
ンデクスの記憶位置を管理するための文字列テーブルを
更新するインデクス作成登録手段と、前記テキストデータから作成した前記部分文字列に対応
するインデクスの容量と予め定められた基準インデクス
サイズとを比較するインデクス容量比較手段と、前記基準インデクスサイズより大きい容量のインデクス
に対応する部分文字列に続く複数の文字列（接続文字列
と呼ぶ）を、前記文字列テーブルを参照して探索する接
続文字列探索手段と、前記部分文字列に対応するインデクスと前記複数の接続
文字列に対応するインデクスから、前記部分文字列に前
記接続文字列を追加した文字列（拡張文字列と呼ぶ）と
該拡張文字列に対応するインデクスを作成する文字列拡
張手段と、検索タームから前記文字列テーブルを参照して所定の部
分文字列を抽出し、該当インデクスを読み出し、該検索
タームにおける部分文字列と同じ位置関係を持つ位置情
報を抽出するインデクス検索手段とを備え、前記文字列拡張手段は、予め定められた使用可能な主記憶装置容量に基づき、前
記部分文字列と前記複数の接続文字列と前記複数の拡張
文字列に対して主記憶装置上にワークエリアを割り当て
るワークエリア割り当て手段と、前記部分文字列と前記複数の接続文字列のインデクスを
前記ワークエリアに読み込むインデクス読込み手段と、前記部分文字列に対応するインデクスから取得した位置
情報を、前記複数の接続文字列に対応するインデクスか
ら取得した複数の位置情報と連続して比較し、テキスト
識別情報が一致する条件と出現位置情報が隣接する条件
を満たす接続文字列が存在する場合には、前記部分文字
列の位置情報を該接続文字列に対応する拡張文字列のイ
ンデクスとして前記ワークエリアに作成する拡張文字列
作成手段と、前記ワークエリアに作成された前記複数の拡張文字列の
インデクスを二次記憶装置に書き込むインデクス書込み
手段を有することを特徴とした文書検索装置。