JP2000090115A

JP2000090115A - インデクス作成方法および検索方法

Info

Publication number: JP2000090115A
Application number: JP10276553A
Authority: JP
Inventors: Kazuki Yasumatsu; 一樹安松; Akifumi Sekijima; 章文関島
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1998-09-11
Filing date: 1998-09-11
Publication date: 2000-03-31
Anticipated expiration: 2018-09-11
Also published as: JP3859044B2

Abstract

(57)【要約】【課題】例えば文書に対する全文検索のためのインデ
クスを高速に生成し、当該インデクスを用いて高速な検
索を実現する。【解決手段】指定された語から決定されるキーを用い
て値を検索するためにキーと値とを対応させたインデク
スを作成するに際して、語の長さが設定された閾値（例
えば８バイト）以下の場合には当該語の文字列を含むキ
ーと値との組を登録する一方、語の長さが前記閾値を越
える場合には当該語の文字列に所定のハッシュ関数を適
用して決まるハッシュ値（例えば７バイト）を当該文字
列に代えて含ませたキーと値との組を登録する。キーは
例えば図に示すキー文字列と文書を特定する文書識別番
号とを結合した構成であり、キー文字列には前記閾値を
越える長さの語を一意に特定するための登録番号や、前
記閾値以下の長さの語から決定されるキーと前記閾値を
越える長さの語から決定されるキーとを区別するフラグ
（例えば先頭から８バイト目の最上位ビット）を付加し
てある。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば文書に対す
る全文検索のためのインデクスを高速に生成し、また、
当該インデクスを用いて高速な検索を実現する方法に関
し、特に、検索等に用いるキーの構成に関する。

【０００２】

【従来の技術】大量の文書に対する全文検索の方法とし
て、シグネチャ・ファイルと呼ばれるデータ構造を用い
る方法がある。特開平７-２４４６７１号公報に示され
ている方法では、文書における文字の出現をビットで表
すインデクスを構成している。この方法では、格納され
ている文書数に影響されずに、比較的高速な検索が可能
である。しかしながら、いくつかの異なる語に対して１
つのビットを割り当てているため、指定した以外の語が
含まれている文書が検索される可能性があり、正確な検
索が行えないという問題があった。また、生成や検索の
アルゴリズムが複雑であり、既存のデータベース管理シ
ステムの上で実現することが困難であった。

【０００３】このような問題に対して、文献「Compress
ion and Fast Indexing for Multi-Gigabyte Text Data
bases」には、一般的なデータベース管理システムが提
供しているハッシュ表やＢ＋木などのインデクス手法を
用いて、高速な全文検索の機能を実現する方法が提案さ
れている。この方法では、インデクスのキーとなる語と
値となる文書に識別番号を割り付け、それらを圧縮して
格納している。これにより、検索に必要となるディスク
の読み出しページ数を減らし、高速に検索が可能とな
る。また、異なる語に異なる識別番号を割り付けられる
ため、正確な検索が可能となる。なお、この文献は、こ
の方法を用いて、約７０万件の文書に対する検索が高速
に行えることを示している。

【０００４】しかしながら、上記の文献で述べられてい
る方法では、インデクスの新規作成や更新処理の性能が
考慮されていないため、高い性能が得られないという問
題があった。特に、更新時に或る語に対して同じ文書を
重複して登録しないようにするための確認の処理は、文
書識別番号の集まりに対する繰り返し処理により実現し
なければならないため、効率よく実現することができな
い。

【０００５】このような問題に対して、本出願人は特願
平１０−２６６９１号に処理の効率化を図ることができ
るインデクス作成方法および検索方法を提案している。
この方法では、Ｂ＋木のキーとして語の識別番号の後ろ
に文書の識別番号をつなげて配置したものを用いて、Ｂ
＋木を、語の識別番号に或るハッシュ関数を適用して得
られるハッシュ値と文書識別番号に別のハッシュ関数を
適用して得られるハッシュ値などによって分割して二次
元の配列に配置することにより、新規生成時や更新時に
は、文書識別番号のハッシュ値などが同じになるものを
まとめて登録することで、書き込みページ数を少なく
し、処理効率を高めている。

【０００６】また、上記の文献で述べられている方法で
は、語の識別番号を必要とする。異なる語に異なる識別
番号を与えるには、何らかの方法で語を管理する必要が
ある。１つの語の管理（追加、検索）に要する時間をＴ
ｗとし、１個の文書の中に１００個の異なる語が含まれ
ているとすると、例えば語の管理では、検索時には１Ｔ
ｗ、登録時には１００Ｔｗの時間を要する。語の数が増
加するに伴い、Ｔｗは増加し、その結果、インデクスの
新規作成や更新処理の性能は大きく低下することとな
る。

【０００７】具体例として、インターネットのＷＷＷペ
ージに対する全文検索を行う場合などは、対象となる文
書の数が数百万件となり、その文書中に出現する異なる
語の数は数千万件となる。インターネットの場合には、
固有名詞の豊富さや、スペル・ミスや、多言語での記述
などの特性により、異なる語の数は文書数に比例して増
加する傾向がある。数千万件の異なる語をＢ＋木で管理
する場合、１つの語の追加や検索に要する時間Ｔｗとし
ては、０．１秒から１秒の時間が必要となる。これは、
Ｂ＋木に対する１個の語の追加や検索処理が木の高さ＋
１だけの回数のハードディスクに対するアクセスを必要
とすることや、Ｂ＋木が巨大になるとディスクのメモリ
中へのキャッシュの効果が得られず、ハードディスクに
対するほとんどすべてのアクセスが実際にハードディス
クを読み込む処理を必要とすることに起因する。

【０００８】例えば、１千万件の異なる語をＢ＋木で管
理する場合に、各ノードの分岐の数が５００であるとす
るとＢ＋木の高さはｌｏｇ500（１０，０００，００
０）−１＝１．５９となり、１個の語と文書の組を追
加、検索するために平均で約２．６回のディスク・アク
セスが必要となる。ハードディスクを１回アクセスする
ために数十ミリ秒から数百ミリ秒かかるため、１個の語
と文書の組の追加や検索には０．１秒から１秒の時間が
必要となる。よって、１個の文書の中に１００個の異な
る語が含まれているとすると、１個の文書を登録するた
めに１００Ｔｗ、すなわち、１０秒から１００秒の時間
を必要とすることになる。

【０００９】

【発明が解決しようとする課題】ところで、上記従来例
では語の識別番号の後ろに文書の識別番号をつなげて配
置したものをＢ＋木のキーとして用いて検索等を行う構
成を示したが、このように語に識別番号を与える代わり
に、例えば語の文字列を用いてキーを作成することも考
えられる。このように語の文字列を用いてキーを作成す
れば、語と識別番号との対応関係を管理等する必要がな
くなるため、例えば異なる語の数が多くなっても、語の
管理に要する負担を少なくすることができると考えられ
る。

【００１０】しかしながら、Ｂ＋木のキーの長さは一般
に固定長であるため、例えば文書中で用いられる種々な
長さの語のすべてに対応するためには、これらすべての
語を含めることが可能なようにキーの長さを十分に長く
取る必要がある。ところが、キーの長さが大きくなると
データベースのサイズが大きくなってしまうため、ハー
ドディスクを読み込む回数が多くなると同時にメモリ中
のキャッシュのヒット率が低下し、全体的な性能が低下
するといった不具合が生じてしまう。また、例えばキー
の長さを可変長にしたとしても、この場合には、処理が
複雑になると同時にディスクのフラグメントが生じてし
まうため、アクセス効率等が悪くなって、全体的な性能
が低下するといった不具合が生じてしまう。

【００１１】本発明は、このような従来の事情に鑑みな
されたもので、語の文字列からキーを決定する仕方を工
夫して、例えば大量の異なる語を含む大量の文書に対す
る全文検索のためのインデクスを高速に作成する方法を
提供することを目的とする。また、本発明は、このよう
に作成されたインデクスを用いて、高速な検索を実現す
る方法を提供することを目的とする。また、本発明は、
上記のような方法を実行するための装置や、また、プロ
グラムを記憶した記憶媒体を提供することを目的とす
る。

【００１２】

【課題を解決するための手段】上記目的を達成するた
め、本発明に係るインデクス作成方法では、指定された
語から決定されるキーを用いて値を検索するためにキー
と値とを対応させたインデクスを作成するに際して、語
の長さが設定された閾値以下の場合には当該語の文字列
を含むキーと値との組を登録する一方、語の長さが前記
閾値を越える場合には当該語の文字列に所定のハッシュ
関数を適用して決まるハッシュ値を当該文字列に代えて
含ませたキーと値との組を登録する。このように、本発
明では、前記閾値より長い語については当該文字列のハ
ッシュ値を用いてキーを構成するため、例えばキーの長
さを短い固定長に制限することができ、これにより、デ
ータベースサイズの増加を防ぎ、処理効率を高めること
ができる。

【００１３】また、本発明では、前記閾値を越える長さ
の語と当該語を一意に特定するための番号とを対応させ
て登録テーブルに登録し、当該語から決定されるキーに
前記登録番号を付加することで、前記閾値を越える長さ
の語の間でハッシュ値が重なってしまった場合でも、各
語を区別できる構成とした。また、本発明では、前記閾
値以下の長さの語から決定されるキーと前記閾値を越え
る長さの語から決定されるキーに各々を区別するフラグ
を付加することで、これらのキーを区別できる構成とし
た。

【００１４】また、本発明に係るインデクス作成方法で
は、上記のように語の長さに閾値を設定してインデクス
を作成するに際して、キーと値との組を登録するインデ
クスを複数のサブインデクスにより構成し、登録する値
に所定の関数を適用して決まる値と語に所定の関数を適
用して決まる値によって参照される二次元配列位置にサ
ブインデクスを格納する。ここで、本発明では、上記し
たキーと対応させる値として、例えば当該キーを決定す
る語を含んでいる１つの文書を用いる。

【００１５】上記したサブインデクスを構成する一例と
して、本発明では、文書に一意に識別する文書識別番号
を与え、文書に適用する関数として文書識別番号を二次
元配列の一の方向の位置を示す値にマップするハッシュ
関数と、語に適用する関数として語を二次元配列の他の
方向の位置を示す値にマップするハッシュ関数とを用意
し、文書における語の出現をその文書識別番号およびそ
の語の各々にハッシュ関数を適用して得られた値を用い
て対応するサブインデクスに登録する。

【００１６】また、本発明では、このようなサブインデ
クスの構成を実施するに際して、複数の文書における語
の出現を一括して登録する場合に、それらの文書の文書
識別番号にハッシュ関数を適用して決まる値が同じにな
るものを１つのグループにまとめて、グループごとに語
の出現を登録する。このように、本発明では、例えばイ
ンデクスの新規生成時や更新時に、文書識別番号のハッ
シュ値が同じになるものをまとめて登録することができ
るため、書き込みページ数を少なくし、処理効率を高め
ることができる。

【００１７】また、本発明では、上記のようにして１つ
のグループにまとめられた文書におけるすべての語の出
現を登録する場合に、各語の出現を語にハッシュ関数を
適用して決まる値が同じになるものを一つのグループに
まとめて、グループごとに語の出現を登録することで、
処理効率を更に高めることもできる。

【００１８】また、上記したサブインデクスを構成する
他の例として、本発明では、文書中の語の出現に適用す
る関数としてその語の文書における出現回数を二次元配
列の一の方向の位置を示す値にマップするハッシュ関数
と、語に適用する関数として語を二次元配列の他の方向
の位置を示す値にマップするハッシュ関数を用意し、或
る文書における或る語の出現をその語の出現回数および
その語の各々にハッシュ関数を適用して得られた値を用
いて対応するサブインデクスに登録する。

【００１９】この構成においても、上記と同様に、複数
の文書における語の出現を一括して登録する場合に、各
語の出現回数にハッシュ関数を適用して決まる値が同じ
になるものを１つのグループにまとめて、グループごと
に語の出現を登録することで、処理効率を高めることが
できる。また、上記と同様に、１つのグループにまとめ
られた文書におけるすべての語の出現を登録する場合
に、各語の出現を語にハッシュ関数を適用して決まる値
が同じになるものを一つのグループにまとめて、グルー
プごとに語の出現を登録することで、処理効率を更に高
めることができる。

【００２０】また、上記したサブインデクスを構成する
他の例として、本発明では、文書中の語の出現に適用す
る関数としてその語の文書における出現頻度を二次元配
列の一の方向の位置を示す値にマップするハッシュ関数
と、語に適用する関数として語を二次元配列の他の方向
の位置を示す値にマップするハッシュ関数を用意し、或
る文書における或る語の出現をその語の出現頻度および
その語の各々にハッシュ関数を適用して得られた値を用
いて対応するサブインデクスに登録する。

【００２１】この構成においても、上記と同様に、複数
の文書における語の出現を一括して登録する場合に、各
語の出現頻度にハッシュ関数を適用して決まる値が同じ
になるものを１つのグループにまとめて、グループごと
に語の出現を登録することで、処理効率を高めることが
できる。また、上記と同様に、１つのグループにまとめ
られた文書におけるすべての語の出現を登録する場合
に、各語の出現を語にハッシュ関数を適用して決まる値
が同じになるものを一つのグループにまとめて、グルー
プごとに語の出現を登録することで、処理効率を更に高
めることができる。また、本発明では、以上の登録に際
して、例えば主記憶装置に用意した少なくとも１つのサ
ブインデクスが格納できるページキャッシュを用いるこ
とで、処理の高速化を図った。

【００２２】また、本発明では、以上に示したサブイン
デクスとしてＢ＋木構造を用いるとともに、キーに当該
キーと対応する文書の一意な識別情報を付加した。本発
明では、このような文書識別情報をキーに付加すること
で、例えば異なる文書中の同じ語から決定されるキーを
文書毎に区別することを可能にし、これにより、例えば
異なる文書中の同じ語から決定されるキーが重なってし
まってＢ＋木構造中で衝突してしまう（例えば両者の区
別ができずに一方が他方に上書きされてしまう）ことを
防ぐことができる。なお、文書の一意な識別情報として
は、例えば上記した文書識別番号や語の出現回数や語の
出現頻度といった情報を用いることができる。

【００２３】また、本発明に係るインデクス検索方法で
は、文書名と当該文書に含まれる語から決定されるキー
とを対応させたインデクスをＢ＋木構造により構成し
て、語から決定されるキーを用いて対応する文書名を得
る検索を行うに際して、文書名に一意に識別する文書識
別情報を与え、語の長さが設定された閾値以下の場合に
は当該語の文字列に検索範囲を指定する文書識別情報を
結合した値をキーとして用いる一方、語の長さが前記閾
値を越える場合には当該語の文字列に所定のハッシュ関
数を適用して決まるハッシュ値に前記文書識別情報を結
合した値をキーとして用いる。

【００２４】このように、本発明では、例えば語の文字
列や文字列のハッシュ値の後ろに検索範囲を指定する文
書識別情報を結合した値をキーとして用いるため、或る
文書における或る語の出現をＢ＋木インデクスに対する
１回の検索で見つけることを実現することができる。な
お、文書識別情報としては、上記と同様に、例えば文書
識別番号や語の出現回数や語の出現頻度といった情報を
用いることができる。

【００２５】また、本発明では、上記の検索方法におい
て、前記閾値を越える長さの語から決定されるキーに当
該語を一意に特定するための番号を付加するとともに、
当該番号と当該語とを対応させて登録しておき、上記検
索に際して、前記閾値を越える長さの語から決定される
キーに検索範囲を指定する登録番号を付加した値を用い
て検索を行った後に、更に当該キーに付加された登録番
号と対応して登録されている語を特定し、特定した語と
検索対象の語との対応に基づいて、検索された文書名集
合から該当する文書名を特定する。

【００２６】このように、本発明では、前記閾値を越え
る長さの語から決定されるキーを用いて検索を行うに際
して、例えば同一の文書中の異なる語の間でキーを構成
するハッシュ値が重なってしまった場合であっても、ま
ず、登録番号以外のハッシュ値や文書識別情報から文書
名集合を検索した後に、更に、検索した文書名集合から
登録番号を用いて該当する文書名を特定するようにした
ため、検索対象と一致する語を一意に特定することがで
きる。

【００２７】また、本発明は、以上に示した方法を実行
する装置や、以上に示した方法を実行するためのプログ
ラムを記憶した記憶媒体として構成することもできる。
例えば、本発明に係るインデクス作成装置では、指定さ
れた語から決定されるキーを用いて値を検索するために
キーと値とを対応させたインデクスを作成するに際し
て、記憶手段がキーと値とを対応させたインデクスを記
憶し、登録手段が語の長さが設定された閾値以下である
ことに応じて当該語の文字列を含むキーと値との組を記
憶手段に登録する一方、語の長さが前記閾値を越えるこ
とに応じて当該語の文字列に所定のハッシュ関数を適用
して決まるハッシュ値を含むキーと値との組を記憶手段
に登録する。

【００２８】また、本発明に係る記憶媒体では、指定さ
れた語から決定されるキーを用いて値を検索するために
キーと値とを対応させたインデクスの作成処理を、コン
ピュータに実行させるプログラムを当該コンピュータに
読み取り可能に記憶した構成において、前記プログラム
は、語の長さが設定された閾値以下であることに応じて
当該語の文字列を含むキーと値との組をインデクスメモ
リに登録する一方、語の長さが前記閾値を越えることに
応じて当該語の文字列に所定のハッシュ関数を適用して
決まるハッシュ値を含むキーと値との組をインデクスメ
モリに登録する処理を、前記コンピュータに実行させ
る。

【００２９】

【発明の実施の形態】本発明に係る第１実施例を図面を
参照して説明する。図１には、本発明に係る方法を実行
する装置の構成例を示してある。なお、この装置はコン
ピュータハードウエア資源を用いて、本発明を実施する
ためのプログラムを実行することにより構成されてい
る。

【００３０】文書蓄積部１はハードディスク装置等の外
部メモリにより構成されており、この文書蓄積部１に
は、登録や検索の対象となる文書がその文書名や文書識
別番号と対応付けられて格納されて管理される。なお、
文書識別番号は文書を一意に識別する情報であり、例え
ば各文書毎に異なる番号が与えられている。文書ソート
部２は、インデクスの登録の対象となる文書の文書名
を、あらかじめ定義されたハッシュ関数を文書識別番号
に適用して得られる値が同じになるものがまとまるよう
にソートする。

【００３１】形態素解析部３は、指定された文書の全文
を解析し、語の切り出しを行う。キー文字列作成部４
は、与えられた語に基づいてキー文字列を作成する。ロ
ングワード管理部５は、あらかじめ定められた閾値より
も長い語の一覧を保持するロングワードテーブルを管理
する。本例では、ロングワードテーブルは、文書毎に用
意される。また、文書毎のロングワードテーブルが保持
する語には、一意な登録番号が付与される。なお、上記
したキー文字列や登録番号の具体例については後述す
る。

【００３２】インデクス登録部６は、与えられた文書名
の文書識別番号および語を得て、後述するインデクス選
択部８の機能により選択されたＢ＋木構造に、キー文字
列と文書識別番号とを結合した値をキーとして、文書内
の語の出現を登録する。インデクス蓄積部７はハードデ
ィスク装置等の外部メモリにより構成されており、この
インデクス蓄積部７は、あらかじめ定められた大きさの
二次元の配列（本例ではＤ×Ｗ、但し、Ｄ、Ｗは１以上
の整数）上にＢ＋木を記憶する。また、インデクス蓄積
部７は文書名と文書識別番号との対応関係も記憶してい
る。

【００３３】インデクス選択部８は、与えられた文書識
別番号と語の文字列（例えば文字コード）に、それぞれ
あらかじめ定められたハッシュ関数を適用し、その結果
得られた値を用いてインデクス蓄積部７に格納されてい
るインデクス表から語の出現を登録するＢ＋木の識別番
号を選択する。ここで、上記した文書ソート部２および
インデクス選択部８で用いられる文書識別番号に適用さ
れるハッシュ関数Ｈｄや、語の文字列に適用されるハッ
シュ関数Ｈｗは、文書識別番号をｉd、語の文字列をｓ
としたとき、それぞれ、０≦Ｈd（ｉd）＜Ｄ、０≦Ｈw
（ｓ）＜Ｗ、となる整数を値とするように定義される。

【００３４】問い合わせ入力部９は、利用者からの検索
要求を受け付け、例えば語をＡＮＤまたはＯＲで結合し
た検索式を生成する。検索実行部１０は、与えられた検
索式に含まれている語の文字列から、インデクス選択部
８の機能により検索の対象となるＢ＋木を得て検索処理
を行う。結果出力部１１は、検索実行部１０により得ら
れた検索結果をディスプレイ表示等して利用者に提示す
る。

【００３５】図２には、インデクス蓄積部７に格納され
ているＢ＋木のキーの構成例を示してある。同図に示さ
れるように、このＢ＋木のキーは、キー文字列の後ろに
文書識別番号を結合した構造となっており、本例では、
キー文字列として９バイト、文書識別番号として４バイ
トの領域を割り当てている。

【００３６】図３には、キー文字列の構成例を示してあ
る。同図に示されるように、キー文字列は、対象とする
語の長さがあらかじめ定められた閾値より短いか或いは
長いかによって、２通りの構造を成す。本例では、語の
長さの閾値を８バイトに設定してあり、対象とする語の
長さが８バイト以下（すなわち、閾値以下）の場合に
は、語の文字列をそのままキー文字列に含めて用いる一
方、対象とする語の長さが８バイトを越える（すなわ
ち、閾値を越える）場合には、語の文字列ｓにハッシュ
関数Ｈｌを適用して得られるハッシュ値Ｈｌ（ｓ）をキ
ー文字列に含めて用いる。

【００３７】ここで、上記したハッシュ関数Ｈｌは、語
の文字列をｓ、閾値をｎとしたとき、０≦Ｈｌ（ｓ）＜
２^8(n-1)、となる整数を値とするように定義される。す
なわち、ハッシュ関数Ｈｌの返す値（すなわち、ハッシ
ュ値）のデータサイズは、閾値より１バイト少ない値
（本例の場合は７バイト）となる。

【００３８】また、例えば語の長さが８バイトを越える
場合に、異なる語の間でハッシュ値が重複する可能性が
あるので、本例では、ハッシュ値とロングワードテーブ
ルにおけるその語の登録番号（本例では、後述するよう
に１５ビットの登録番号を含んだ２バイトから成る登録
番号部として図３に示してある）を結合したものをキー
文字列とする。これにより、同じ文書中に現れる長い語
の間でハッシュ値が重複しても、キー文字列が重複する
ことが無くなる。また、実際のＢ＋木中では、上記図２
に示したようにキー文字列に文書識別番号を結合したも
のをキーとするので、異なる文書に含まれる語の間でキ
ー文字列が重複しても、Ｂ＋木のキーが重複することは
無い。

【００３９】また、長さが８バイト以下の語の文字列と
長さが８バイトを越える語のハッシュ値との間で値が重
なる可能性がある。そこで、本例では、語の長さが８バ
イト以下の場合には、語の文字列の８バイト目の値をキ
ー文字列中の９バイト目にずらし、キー文字列中の８バ
イト目の値を０にする。例えば、対象とする語が’ｉｎ
ｔｅｒｎｅｔ’である場合、キー文字列は、６９６Ｅ７
４６５７２６Ｅ６５００７４（１６進）となる。

【００４０】一方、長さが８バイトを越える語について
は、登録番号の最大値を３２７６７（すなわち、２¹⁵−
１）とし、登録番号を格納する領域（登録番号部）の最
上位ビットを常に１にする。これにより、語の長さが８
バイト以下の場合にはキー文字列の先頭から８バイト目
のデータの最上位ビットが必ず０になる一方、語の長さ
が８バイトを越える場合にはキー文字列の先頭から８バ
イト目のデータの最上位ビットが必ず１になるので、長
さが閾値以下の語の文字列と長さが閾値を越える語のハ
ッシュ値との間で値が重なっても、キー文字列が重複す
ることが無くなる。

【００４１】図４には、キー文字列を作成する処理の手
順の一例を示してある。すなわち、例えば与えられた語
の長さが８バイト以下の場合には（ステップＳ１）、ま
ず、キー文字列ｉｗに語の文字列ｓの先頭から７バイト
の値をコピーし（ステップＳ２）、次に、キー文字列ｉ
ｗの８バイト目に０をセットし（ステップＳ３）、次い
で、キー文字列ｉｗの９バイト目に前記文字列ｓの８バ
イト目の値をコピーすることにより（ステップＳ４）、
キー文字列ｉｗを作成する。

【００４２】一方、与えられた語の長さが８バイトを越
える場合には（ステップＳ１）、まず、キー文字列ｉｗ
に語の文字列ｓのハッシュ値Ｈｌ（ｓ）をコピーし（ス
テップＳ５）、次に、与えられた登録番号と１００００
０００００００００００（２進）との論理和を取った値
をキー文字列ｉｗの８バイト目以降にコピーすることに
より（ステップＳ６）、キー文字列ｉｗを作成する。な
お、図４において、＜＜はビットを左にシフトする演算
を示している。

【００４３】このように、本例のインデクス作成方法で
は、語の長さが設定された閾値以下の場合には当該語の
文字列を含むキーと値（本例では、当該キーを決定する
語を含んでいる１つの文書の文書識別情報）との組を登
録することとする一方、語の長さが前記閾値を越える場
合には当該語の文字列に所定のハッシュ関数を適用して
決まるハッシュ値を当該文字列に代えて含ませたキーと
値との組を登録するようにしたため、例えばキーの長さ
を短い固定長に制限することができ、これにより、デー
タベースサイズの増加を防ぎ、処理効率を高めることが
できる。

【００４４】なお、語の長さの閾値としては、どのよう
な値が設定されてもよいが、例えば長さが閾値以下の語
の出現率や長さが閾値を越える語の出現率を考慮して、
インデクスのサイズを小さくすることや、データの登録
処理や検索処理にかかる時間を短くすることができるよ
うな値に設定されるのが好ましい。

【００４５】また、上記のように本例では、設定された
閾値を越える長さの語と当該語を一意に特定するための
番号とを対応させて登録テーブル（本例では、ロングワ
ードテーブル）に登録し、登録した番号を当該語から決
定されるキーに付加することにより、前記閾値を越える
長さの語の間でハッシュ値が重なってしまった場合で
も、各語を区別できる構成としている。また、本例で
は、設定された閾値以下の長さの語から決定されるキー
と当該閾値を越える長さの語から決定されるキーに各々
を区別するフラグを付加することで、これらのキーを区
別できる構成としてある。なお、本例では、好ましい態
様として、キー文字列中のハッシュ値と登録番号との境
目となる先頭から８バイト目のデータの最上位ビットを
フラグとして用いたが、フラグの構成としては特に限定
はない。

【００４６】図５には、Ｂ＋木から語の出現を検索する
処理の手順の一例を示してある。すなわち、或る語を含
む文書を得る検索においては、まず、当該語からキー文
字列ｉｗを作成し（ステップＳ１１）、その語の出現を
含む全てのＢ＋木について、当該キー文字列ｉｗに検索
範囲を指定する文書識別番号の最小値（ここでは０（３
２ビット））を結合した値をｓｔａｒｔ点として設定す
る一方（ステップＳ１２）、検索範囲を指定する文書識
別番号の最大値（ここではＦＦＦＦＦＦＦＦ（１６
進））を結合した値をｅｎｄ点として設定する（ステッ
プＳ１４）。

【００４７】ここで、与えられた語の長さが閾値を越え
る場合には、語のハッシュ値に登録番号を付加した値が
キー文字列ｉｗとして用いられるため、この登録番号に
ついても、上記した文書識別番号の場合と同様に検索範
囲を設定する。すなわち、本例では、検索範囲の最小値
に対応するキー文字列ｉｗを作成する際に、語の検索範
囲を指定する登録番号の最小値（ここでは０）を与える
一方（ステップＳ１１）、検索範囲の最大値に対応する
キー文字列ｉｗを作成する際に、語の検索範囲を指定す
る登録番号の最大値（ここでは７ＦＦＦ（１６進））を
与え（ステップＳ１３）、これにより、キー文字列ｉｗ
に与えた登録番号の最小値から最大値までの範囲で検索
が行われるようにしている。

【００４８】そして、上記したｓｔａｒｔ点からｅｎｄ
点までの間で検索を行うことにより（ステップＳ１
５）、例えば与えられた語が閾値（本例では８バイト）
以下である場合には（ステップＳ１６）、その語に対す
るすべての出現を、文書識別番号の昇順に得ることがで
きる（ステップＳ１７）。一方、与えられた語の長さが
閾値を越えている場合には（ステップＳ１６）、キー文
字列ｉｗに与えた登録番号の検索範囲において該当する
語の出現がすべて検索されるため、検索された語の出現
の中から本当に検索対象に該当するものを特定すること
を行う。

【００４９】具体的には、本例では、得られた検索結果
から語の登録番号と文書識別番号を取り出して、当該文
書識別番号と対応するロングワードテーブルを参照する
ことで（ステップＳ１８）、当該登録番号と対応した語
を特定し、例えば特定した語と検索対象の語とを比較す
ることにより、検索対象の語が検索された文書に本当に
含まれているかどうかを検証する（ステップＳ１９）。
この結果、検索対象の語が文書に含まれていればその語
の出現を返し（ステップＳ１７）、含まれていなければ
例えばＮＵＬＬを返す（ステップＳ２０）。なお、上記
と同様に、図５において、＜＜はビットを左にシフトす
る演算を示している。

【００５０】一例として、いくつかの文書に関する語の
出現を登録した時点で、Ｂ＋木の一部の状態が図６に示
されているようになっていたとする。この状態におい
て、キー文字列が７４６５７３７４０００００００００
０（１６進）であるような語を含む文書を検索する場合
には、キーの値が７４６５７３７４０００００００００
０００００００００（１６進）と７４６５７３７４００
００００００００ＦＦＦＦＦＦＦＦ（１６進）の範囲に
あるものを検索することにより、目的とする語の出現
（Ｏ４、Ｏ５）を得られる。

【００５１】また、キー文字列が７４６５７３７４００
００００００００（１６進）である語が文書識別番号が
７である文書に含まれているか否かを確認する場合に
は、７４６５７３７４０００００００００００００００
００７（１６進）をキーとして、キーの値が一致するも
のを検索することで、語の出現（Ｏ５）を得ることがで
きる。なお、本例では、語の出現には、例えば当該語が
どの文書中のどのページやどの行にあるかといった情報
や、当該語の出現回数や出現頻度等といった情報が含ま
れている。

【００５２】このように、本例のインデクス検索方法で
は、例えば文書名と当該文書に含まれる語から決定され
るキーとを対応させたインデクスをＢ＋木構造により構
成して、語から決定されるキーを用いて対応する文書名
を得る検索を行うに際して、文書名に一意に識別する文
書識別情報（本例では文書識別番号）を与え、語の長さ
が設定された閾値以下の場合には当該語の文字列に検索
範囲を指定する文書識別情報を結合した値をキーとして
用いる一方、語の長さが前記閾値を越える場合には当該
語の文字列に所定のハッシュ関数を適用して決まるハッ
シュ値に前記文書識別情報を結合した値をキーとして用
いることにより、或る文書における或る語の出現をＢ＋
木インデクスに対する１回の検索で見つけることを実現
している。

【００５３】また、本例では、前記閾値を越える長さの
語から決定されるキーには当該語を一意に特定するため
の番号が付加されているとともに、当該番号と当該語と
が対応してロングワードテーブルに登録されており、上
記検索では、前記閾値を越える長さの語から決定される
キーに検索範囲を指定する登録番号を付加した値を用い
て検索を行った後に、更に当該キーに付加された登録番
号と対応して登録されている語を特定し、特定した語と
検索対象の語との対応に基づいて、検索された文書名集
合から該当する文書名を特定しており、これにより、上
記したように検索対象と一致する語を一意に特定するこ
とができる。

【００５４】図７には、インデクス蓄積部７におけるＢ
＋木の格納構造を示してある。同図に示されるように、
本例では、Ｄ×Ｗの二次元配列によりＤ×Ｗ個のサブイ
ンデクスが設けられており、各サブインデクスとしてＢ
＋木構造が用いられている。例えば、文書識別番号がｉ
ｄで且つ語の文字列がｓである或る語の出現は、Ｂ＋木
（Ｈｗ（ｓ），Ｈｄ（ｉｄ））のサブインデクスに対応
したＢ＋木に登録されている。よって、文字列がｓであ
る語の出現を検索する場合には、後述する図８に示され
ている手順で選択されたＢ＋木について上記図５に示し
た処理を実行する。

【００５５】ここで、図８には、指定された或る一つの
語が出現する文書を検索する処理の手順の一例を示して
ある。すなわち、この処理では、まず、与えられた語の
文字列ｓにハッシュ関数Ｈｗを適用して得られる値Ｈｗ
（ｓ）をｗに代入する（ステップＳ３１）。そして、変
数ｉおよび変数ｒを０に初期化し（ステップＳ３２）、
ｉを１つずつ増加させながら（ステップＳ３５）、ｉが
Ｄとなるまで（ステップＳ３６）、Ｂ＋木（ｗ，ｉ）に
対して語の検索を繰り返し行い（ステップＳ３３）、そ
の結果を配列Ｒ［ｒ，ｒ＋ｒ’］に追加している（ステ
ップＳ３４）。なお、ｒ’には検索結果数が代入され、
ｉを１つ増加させる度毎にｒがｒ＋ｒ’に置き換えられ
る。

【００５６】これにより、上記図７に示した二次元配列
の或る一つの行のサブインデクスに記憶されているＢ＋
木群に対する検索を行うことができる。このように検索
を行う範囲を一つの行に限っても、目的とする語の出現
はそれ以外のＢ＋木には含まれていないので、これによ
り見つかった文書のみに目的とする語が含まれているこ
とになる。このように、本例の検索処理では、検索の対
象となるＢ＋木が限定され、且つ各Ｂ＋木を順序良く利
用するため、検索対象のサブインデクスを保持するキャ
ッシュのヒット率を高めることができ、効率よく検索が
実行できる。なお、本例の検索では、検索実行部１０が
使用する主記憶装置のキャッシュに、少なくとも１つの
Ｂ＋木サブインデクスが保持されるようになっている。

【００５７】図９には、複数の文書の語の出現を一括し
て登録する処理の手順の一例を示してある。すなわち、
この処理では、まず、各文書を文書識別番号ｉｄにハッ
シュ関数Ｈｄを適用して得られる値Ｈｄ（ｉｄ）により
Ｄ個のグループに分け、グループ分けされた文書をグル
ープごとに各配列Ｇ（０）〜Ｇ（Ｄ−１）に格納する
（ステップＳ４１）。続いて、変数ｄを０に初期化し
（ステップＳ４２）、変数ｄを１つずつ増加させながら
（ステップＳ４９）、変数ｄがＤとなるまで（ステップ
Ｓ５０）、各配列Ｇ（ｄ）について以下の登録処理を行
う。

【００５８】すなわち、この登録処理では、上記した各
配列Ｇ（ｄ）について、その配列Ｇ（ｄ）に格納されて
いる全ての文書から語の出現（文書と語の組）を取り出
して（ステップＳ４３）、取り出した語の出現を各語の
文字列ｓにハッシュ関数Ｈｗを適用して得られる値Ｈｗ
（ｓ）によりＷ個のグループに分け、グループ分けされ
た語の出現をグループごとに各配列Ｏ（０）〜Ｏ（Ｗ−
１）に格納する（ステップＳ４４）。そして、変数ｗを
０に初期化し（ステップＳ４５）、変数ｗを１つずつ増
加させながら（ステップＳ４７）、変数ｗがＷとなるま
で（ステップＳ４８）、配列Ｇ（ｄ）に格納されている
各グループＯ（ｗ）について、そのグループＯ（ｗ）に
属している語の出現を登録する処理を実施する（ステッ
プＳ４６）。なお、語の出現を登録する処理の手順につ
いては、後述する図１０に示す。

【００５９】上記の処理により、語の出現は上記図７に
示された配列の左上から下方向に並んだＢ＋木サブイン
デクスに順に格納され、一番下のＢ＋木サブインデクス
まで格納が終わると、一つ右の列について上から下方向
に並んだＢ＋木サブインデクスに順に格納されるため、
複数のＢ＋木サブインデクスを交互に参照することがな
くなり、ページ・キャッシュのヒット率を高めることが
できる。さらに、主記憶上に一つのＢ＋木サブインデク
スの内容を保持できるだけの領域があれば、一つのＢ＋
木サブインデクスに対する格納処理をすべて主記憶中で
実行できるため、極めて高速に格納処理を実行できる。

【００６０】図１０には、或る文書における或る語の出
現を登録する処理の手順の一例を示してある。すなわ
ち、この処理では、例えば文書中の語の文字列ｓおよび
当該文書の文書識別番号ｉｄを得て、それぞれにハッシ
ュ関数Ｈｗ、Ｈｄを適用して得られる値Ｈｗ（ｓ）、Ｈ
ｄ（ｉｄ）をそれぞれの変数ｗ、ｄに保持する（ステッ
プＳ６１、Ｓ６２）。

【００６１】続いて、対象とする語に基づいてキー文字
列ｉｗを作成する。ここで、語の長さが設定された閾値
（本例では８バイト）以下の場合には（ステップＳ６
３）、当該語の文字列を含んだキー文字列ｉｗを作成す
る一方（ステップＳ６４）、語の長さが前記閾値を越え
る場合には（ステップＳ６３）、当該語を文書に対応す
るロングワードテーブルに登録して登録番号を取得し
（ステップＳ６７）、取得した登録番号と語に基づいて
キー文字列ｉｗを作成する（ステップＳ６８）。

【００６２】次いで、作成したキー文字列ｉｗの値を左
に３２ビットシフトした値に、文書識別番号ｉｄの値を
足したものを変数ｋに代入する（ステップＳ６５）。そ
して、上記図７に示された配列のサブインデクスＢ＋木
（ｗ，ｄ）に、前記ｋをキーとして語の出現を登録する
（ステップＳ６６）。なお、上記と同様に、図１０にお
いて、＜＜はビットを左にシフトする演算を示してい
る。

【００６３】このように、本例では、指定された語から
決定されるキーを用いて値を検索するためにキーと値と
を対応させたインデクスを作成するに際して、キーと値
との組を登録するインデクスを複数のサブインデクスに
より構成し、登録する値に所定の関数を適用して決まる
値と語（本例では語の文字列）に所定の関数を適用して
決まる値によって参照される二次元配列位置にサブイン
デクスを格納する構成を用い、また、サブインデクスと
してＢ＋木構造を用いることで、処理の効率化を図って
いる。

【００６４】なお、具体的には、本例では上記したよう
に、文書に適用する関数として文書識別番号を二次元配
列の一の方向の位置を示す値にマップするハッシュ関数
と、語に適用する関数として語を二次元配列の他の方向
の位置を示す値にマップするハッシュ関数とを用意し、
文書における語の出現をその文書識別番号およびその語
の各々にハッシュ関数を適用して得られた値を用いて対
応するサブインデクスに登録するようにした。

【００６５】そして、本例では、このようなサブインデ
クスの構成を用いて、複数の文書における語の出現を一
括して登録する場合に、それらの文書の文書識別番号に
ハッシュ関数を適用して決まる値が同じになるものを１
つのグループにまとめて、グループごとに語の出現を登
録することにより、インデクスの新規生成時や更新時に
おける書き込みページ数を少なくし、処理効率を高め
た。更に、本例では、上記のようにして１つのグループ
にまとめられた文書におけるすべての語の出現を登録す
る場合に、各語の出現を語にハッシュ関数を適用して決
まる値が同じになるものを一つのグループにまとめて、
グループごとに語の出現を登録することにより、処理効
率を更に高めた。

【００６６】また、本例では、サブインデクスとしてＢ
＋木構造を用いるに際して、キーに当該キーと対応する
文書の一意な識別情報（本例では文書識別情報）を付加
することにより、例えば異なる文書中の同じ語から決定
されるキー文字列が重なってしまった場合であっても、
これらのキー文字列を文書識別情報により区別可能な構
成とすることで、両者がＢ＋木構造中で衝突してしまう
ことを防いだ。また、本例では、上記したように、主記
憶装置に用意した少なくとも１つのサブインデクスが格
納できるページキャッシュを用いているため、処理の高
速化を図ることができる。

【００６７】以上のように、本例のインデクス作成方法
やインデクス検索方法では、例えば大量の異なる語を含
む大量の文書に対する全文検索のためのインデクスを作
成する処理や、作成したインデクスを用いて検索を行う
処理を実行するに際して、語の文字列或いは当該文字列
のハッシュ値を用いてキーを作成するようにしたため、
異なる語の数によって受ける影響を小さくすることがで
き、例えば数百万件の文書に対する全文検索のためのイ
ンデクスを高速に生成、更新、検索することができる。

【００６８】また、本例の方法では、例えば各語と識別
番号との対応関係を管理するといったことを行わずと
も、設定された閾値を越える長さの語に適用するハッシ
ュ関数や登録番号を記憶等しておけば、語とキーとの対
応が付けられるため、例えば異なる語の数が多くなって
も語の管理に要する負担を少なくすることができ、これ
により、１つの語の管理（追加、検索）に要する時間Ｔ
ｗをゼロに近づけることができる。

【００６９】また、本例の方法では、上記したサブイン
デクスの構成やＢ＋木の構造を採用しているため、文書
の格納処理や検索処理に必要となる更新ページ数や読み
出しページ数を削減することができ、登録処理や検索処
理を高速に実行することができる。なお、本例では、サ
ブインデクスとしてＢ＋木を用いることで、例えば木の
ルートからの検索を短いパスで実現することや、新たな
語の出現を容易に追加等することができる。

【００７０】図１１には、本発明の第２実施例として、
Ｂ＋木インデクスの縦方向の分割に、語の出現回数に或
る関数を適用した値を用いる場合のキーの構成例を示し
てある。同図に示されるように、本例のキーは、キー
文字列の後ろに語の出現回数を整数であらわした値を結
合した構造であり、キー文字列として９バイト、出現回
数として４バイトの領域を割り当てている。

【００７１】図１２には、上記図１１に示したキーの構
成を用いて、語の出現をＢ＋木に登録した状態の一例を
示してある。上記図１２に示されているように、同じ語
に対する複数の異なる語の出現が、例えば語の出現回数
の多い順にならべられる。これにより、検索処理におい
て、検索の結果を語の出現回数の多い順に取り出すこと
が容易となる。

【００７２】なお、本第２実施例における語の出現を検
索する処理手順は、上記図８に示した第１実施例におけ
る語の出現を検索する処理と同じである。また、語の出
現を登録する処理手順は、上記図９に示した処理手順に
おいて文書識別番号を用いて文書をグループ分けしてい
る処理（ステップＳ４１）を語の出現回数を用いて語の
出現をグループ分けする処理に置き換え、また、上記図
１０に示した処理手順において文書識別番号の値を用い
てキーとなる値を生成している処理（ステップＳ６２、
Ｓ６５）を語の出現回数の値を用いてキーとなる値を生
成する処理に置き換えること等で実現できる。

【００７３】このように、本発明では、文書中の語の出
現に適用する関数としてその語の文書における出現回数
を二次元配列の一の方向の位置を示す値にマップするハ
ッシュ関数と、語に適用する関数として語を二次元配列
の他の方向の位置を示す値にマップするハッシュ関数を
用意し、或る文書における或る語の出現をその語の出現
回数およびその語の各々にハッシュ関数を適用して得ら
れた値を用いて対応するサブインデクスに登録するとい
った構成を用いることもできる。

【００７４】この構成においても、上記第１実施例の場
合と同様に、複数の文書における語の出現を一括して登
録する場合に、各語の出現回数にハッシュ関数を適用し
て決まる値が同じになるものを１つのグループにまとめ
てグループごとに語の出現を登録することや、更に、各
語の出現を語にハッシュ関数を適用して決まる値が同じ
になるものを一つのグループにまとめてグループごとに
語の出現を登録することにより、処理効率を高めること
ができる。

【００７５】図１３には、本発明の第３実施例として、
Ｂ＋木の縦方向の分割に語の出現頻度に或る関数を適用
した値を用いる場合のキーの構成例を示してある。同図
に示されるように、本例のキーは、キー文字列の後ろに
語の出現頻度を整数であらわした値を結合した構造であ
り、キー文字列として９バイト、出現頻度として１バイ
トの領域を割り当てている。なお、本例では、或る語の
出現の出現頻度は、その語がその文書に現れた回数をそ
の文書の総語数で割って１００を掛けた値であらわす。

【００７６】図１４には、上記図１３に示したキーの構
成を用いて、語の出現をＢ＋木に登録した状態の一例を
示してある。上記図１４に示されているように、同じ語
に対する複数の異なる語の出現が、例えば語の出現頻度
の高い順にならべられる。これにより、検索処理におい
て、検索の結果を語の出現頻度の高い順に取り出すこと
が容易となる。

【００７７】なお、本第３実施例における語の出現を検
索する処理手順は、上記図８に示した第１実施例におけ
る語の出現を検索する処理と同じである。また、語の出
現を登録する処理手順は、上記図９に示した処理手順に
おいて文書識別番号を用いて文書をグループ分けしてい
る処理（ステップＳ４１）を語の出現頻度を用いて語の
出現をグループ分けする処理に置き換え、また、上記図
１０に示した処理手順において文書識別番号の値を用い
てキーとなる値を生成している処理（ステップＳ６２、
Ｓ６５）を語の出現頻度の値を用いてキーとなる値を生
成する処理に置き換えること等で実現できる。

【００７８】このように、本発明では、文書中の語の出
現に適用する関数としてその語の文書における出現頻度
を二次元配列の一の方向の位置を示す値にマップするハ
ッシュ関数と、語に適用する関数として語を二次元配列
の他の方向の位置を示す値にマップするハッシュ関数を
用意し、或る文書における或る語の出現をその語の出現
頻度およびその語の各々にハッシュ関数を適用して得ら
れた値を用いて対応するサブインデクスに登録するとい
った構成を用いることもできる。

【００７９】この構成においても、上記第１実施例や第
２実施例の場合と同様に、複数の文書における語の出現
を一括して登録する場合に、各語の出現頻度にハッシュ
関数を適用して決まる値が同じになるものを１つのグル
ープにまとめてグループごとに語の出現を登録すること
や、更に、各語の出現を語にハッシュ関数を適用して決
まる値が同じになるものを一つのグループにまとめてグ
ループごとに語の出現を登録することにより、処理効率
を高めることができる。

【００８０】ここで、本発明は、以上に示した方法を実
行する装置として把握することもできる。一例として、
本発明に係るインデクス作成装置では、指定された語か
ら決定されるキーを用いて値を検索するためにキーと値
とを対応させたインデクスを作成するに際して、ハード
ディスク等から成る記憶手段がキーと値とを対応させた
インデクスを記憶し、登録手段が語の長さが設定された
閾値以下であることに応じて当該語の文字列を含むキー
と値との組を記憶手段に登録する一方、語の長さが前記
閾値を越えることに応じて当該語の文字列に所定のハッ
シュ関数を適用して決まるハッシュ値を含むキーと値と
の組を記憶手段に登録することにより、処理の効率化を
図ることができる。

【００８１】また、上記したように以上では、上記図１
に示した装置に備えられた各機能手段により行われる処
理は、例えばプロセッサやメモリ等を備えたハードウエ
ア資源においてプロセッサが制御プログラムを実行する
ことにより構成されるが、本発明では、これらの各機能
手段を独立したハードウエア回路として構成してもよ
い。また、本発明は上記の制御プログラムを格納したフ
ロッピーディスクやＣＤ−ＲＯＭ等のコンピュータによ
り読み取り可能な記憶媒体として把握することもでき、
当該制御プログラムを記憶媒体からコンピュータに入力
してプロセッサに実行させることにより、本発明に係る
処理を遂行させることができる。

【００８２】一例として、本発明に係る記憶媒体では、
指定された語から決定されるキーを用いて値を検索する
ためにキーと値とを対応させたインデクスの作成処理
を、コンピュータに実行させるプログラムを当該コンピ
ュータに読み取り可能に記憶した構成において、前記プ
ログラムが、語の長さが設定された閾値以下であること
に応じて当該語の文字列を含むキーと値との組をインデ
クスメモリに登録する一方、語の長さが前記閾値を越え
ることに応じて当該語の文字列に所定のハッシュ関数を
適用して決まるハッシュ値を含むキーと値との組をイン
デクスメモリに登録する処理を前記コンピュータに実行
させることにより、処理の効率化を図ることができる。

【００８３】なお、上記したインデクスメモリとして
は、例えば上記プログラムを格納した記憶媒体とは別個
なハードディスク装置等として設けることができるばか
りでなく、例えば当該記憶媒体の中に設けられてもよ
い。また、インデクスメモリを記憶媒体中に設ける場合
には、例えばキーと値とを対応させたインデクスを上記
プログラム中に記憶してもよく、また、このようなイン
デクスを上記プログラムとは別に記憶していてもよい。

【００８４】

【発明の効果】以上説明したように、本発明によると、
指定された語から決定されるキーを用いて値を検索する
ためにキーと値とを対応させたインデクスを作成するに
際して、語の長さが設定された閾値以下の場合には当該
語の文字列を含むキーと値との組を登録する一方、語の
長さが前記閾値を越える場合には当該語の文字列に所定
のハッシュ関数を適用して決まるハッシュ値を当該文字
列に代えて含ませたキーと値との組を登録するようにし
たため、例えば異なる語の数が多い場合でも、キーの長
さを短い固定長に制限することができ、これにより、デ
ータベースサイズの増加を防ぎ、処理効率を高めること
ができる。

【００８５】また、本発明では、前記閾値を越える長さ
の語を一意に特定するための登録番号を当該語から決定
されるキーに付加することや、前記閾値以下の長さの語
から決定されるキーと前記閾値を越える長さの語から決
定されるキーに各々を区別するフラグを付加することを
行うようにしたため、登録時や検索時において異なる語
から決定されるキーを確実に区別することができる。

【００８６】また、本発明では、キーと値との組を登録
するインデクスを複数のサブインデクスにより構成し、
例えば文書を特定する文書識別番号や語の出現回数や語
の出現頻度を二次元配列の一の方向の位置を示す値にマ
ップするハッシュ関数と、語を二次元配列の他の方向の
位置を示す値にマップするハッシュ関数とを用意して、
文書における語の出現をその文書識別番号等およびその
語の各々にハッシュ関数を適用して得られた値を用いて
対応するサブインデクスに登録するようにしたため、例
えば文書識別番号等や語にハッシュ関数を適用して決ま
る値が同じになるものを１つのグループにまとめて処理
することで、複数の文書における語の出現を一括して登
録する処理等の効率を高めることができる。

【００８７】また、本発明では、例えば主記憶装置に用
意した少なくとも１つのサブインデクスが格納できるペ
ージキャッシュを用いることで、処理の高速化を実現し
た。また、本発明では、サブインデクスとしてＢ＋木構
造を用いることで、インデクス更新処理や検索処理の高
速化を図るとともに、キーに当該キーと対応する文書の
一意な識別情報を付加することで、或る文書における或
る語の出現をＢ＋木インデクスに対する１回の検索で見
つけること等を実現した。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る装置の構成例を示す
図である。

【図２】本発明の第１実施例に係るキーの構成例を示す
図である。

【図３】キー文字列の構成例を示す図である。

【図４】キー文字列を作成する処理の手順の一例を示す
フローチャートである。

【図５】語の出現を検索する処理の手順の一例を示すフ
ローチャートである。

【図６】Ｂ＋木の内容の一部を例示する図である。

【図７】Ｂ＋木のインデクス配列の構成例を示す図であ
る。

【図８】語の出現を検索する処理の手順の一例を示すフ
ローチャートである。

【図９】複数の文書の語の出現を一括して登録する処理
の手順の一例を示すフローチャートである。

【図１０】或る一つの語の出現を登録する処理の手順の
一例を示す図である。

【図１１】本発明の第２実施例に係るキーの構成例を示
す図である。

【図１２】本発明の第２実施例におけるＢ＋木の内容の
一部を例示する図である。

【図１３】本発明の第３実施例に係るキーの構成例を示
す図である。

【図１４】本発明の第３実施例におけるＢ＋木の内容の
一部を例示する図である。

【符号の説明】

１・・文書蓄積部、２・・文書ソート部、３・・形
態素解析部、４・・キー文字列作成部、５・・ロング
ワード管理部、６・・インデクス登録部、７・・イン
デクス蓄積部、８・・インデクス選択部、９・・問い
合わせ入力部、１０・・検索実行部、１１・・結果出
力部、

Claims

【特許請求の範囲】

【請求項１】指定された語から決定されるキーを用い
て値を検索するために、キーと値とを対応させたインデ
クスを作成する方法において、語の長さが設定された閾値以下の場合には当該語の文字
列を含むキーと値との組を登録する一方、語の長さが前記閾値を越える場合には当該語の文字列に
所定のハッシュ関数を適用して決まるハッシュ値を当該
文字列に代えて含ませたキーと値との組を登録すること
を特徴とするインデクス作成方法。
【請求項２】請求項１に記載のインデクス作成方法に
おいて、前記閾値を越える長さの語と当該語を一意に特定するた
めの番号とを対応させて登録テーブルに登録し、当該語から決定されるキーに前記登録番号を付加するこ
とを特徴とするインデクス作成方法。
【請求項３】請求項１又は請求項２に記載のインデク
ス作成方法において、前記閾値以下の長さの語から決定されるキーと前記閾値
を越える長さの語から決定されるキーに各々を区別する
フラグを付加することを特徴とするインデクス作成方
法。
【請求項４】請求項１乃至請求項３のいずれか１項に
記載のインデクス作成方法において、キーと値との組を登録するインデクスを複数のサブイン
デクスにより構成し、登録する値に所定の関数を適用して決まる値と語に所定
の関数を適用して決まる値によって参照される二次元配
列位置にサブインデクスを格納することを特徴とするイ
ンデクス作成方法。
【請求項５】請求項４に記載のインデクス作成方法に
おいて、キーを決定する語を含んでいる１つの文書を値として用
いることを特徴とするインデクス作成方法。
【請求項６】請求項５に記載のインデクス作成方法に
おいて、文書に一意に識別する文書識別番号を与え、文書に適用する関数として文書識別番号を二次元配列の
一の方向の位置を示す値にマップするハッシュ関数と、
語に適用する関数として語を二次元配列の他の方向の位
置を示す値にマップするハッシュ関数とを用意し、文書における語の出現をその文書識別番号およびその語
の各々にハッシュ関数を適用して得られた値を用いて対
応するサブインデクスに登録することを特徴とするイン
デクス作成方法。
【請求項７】請求項６に記載のインデクス作成方法に
おいて、複数の文書における語の出現を一括して登録する場合
に、それらの文書の文書識別番号にハッシュ関数を適用
して決まる値が同じになるものを１つのグループにまと
めて、グループごとに語の出現を登録することを特徴と
するインデクス作成方法。
【請求項８】請求項５に記載のインデクス作成方法に
おいて、文書中の語の出現に適用する関数としてその語の文書に
おける出現回数を二次元配列の一の方向の位置を示す値
にマップするハッシュ関数と、語に適用する関数として語を二次元配列の他の方向の位
置を示す値にマップするハッシュ関数を用意し、或る文書における或る語の出現をその語の出現回数およ
びその語の各々にハッシュ関数を適用して得られた値を
用いて対応するサブインデクスに登録することを特徴と
するインデクス作成方法。
【請求項９】請求項８に記載のインデクス作成方法に
おいて、複数の文書における語の出現を一括して登録する場合
に、各語の出現回数にハッシュ関数を適用して決まる値
が同じになるものを１つのグループにまとめて、グループごとに語の出現を登録することを特徴とするイ
ンデクス作成方法。
【請求項１０】請求項５に記載のインデクス作成方法
において、文書中の語の出現に適用する関数としてその語の文書に
おける出現頻度を二次元配列の一の方向の位置を示す値
にマップするハッシュ関数と、語に適用する関数として語を二次元配列の他の方向の位
置を示す値にマップするハッシュ関数を用意し、或る文書における或る語の出現をその語の出現頻度およ
びその語の各々にハッシュ関数を適用して得られた値を
用いて対応するサブインデクスに登録することを特徴と
するインデクス作成方法。
【請求項１１】請求項１０に記載のインデクス作成方
法において、複数の文書における語の出現を一括して登録する場合
に、各語の出現頻度にハッシュ関数を適用して決まる値
が同じになるものを１つのグループにまとめて、グルー
プごとに語の出現を登録することを特徴とするインデク
ス作成方法。
【請求項１２】請求項７又は請求項９又は請求項１１
に記載のインデクス作成方法において、１つのグループにまとめられた文書におけるすべての語
の出現を登録する場合に、各語の出現を語にハッシュ関
数を適用して決まる値が同じになるものを一つのグルー
プにまとめて、グループごとに語の出現を登録すること
を特徴とするインデクス作成方法。
【請求項１３】請求項１２に記載のインデクス作成方
法において、主記憶装置に用意した少なくとも１つのサブインデクス
が格納できるページキャッシュを用いることを特徴とす
るインデクス作成方法。
【請求項１４】請求項５乃至請求項１３のいずれか１
項に記載のインデクス作成方法において、サブインデクスとしてＢ＋木構造を用いるとともに、キーに当該キーと対応する文書の一意な識別情報を付加
したことを特徴とするインデクス作成方法。
【請求項１５】文書名と当該文書に含まれる語から決
定されるキーとを対応させたインデクスをＢ＋木構造に
より構成して、語から決定されるキーを用いて対応する
文書名を得る検索方法において、文書名に一意に識別する文書識別情報を与え、語の長さが設定された閾値以下の場合には当該語の文字
列に検索範囲を指定する文書識別情報を結合した値をキ
ーとして用いる一方、語の長さが前記閾値を越える場合には当該語の文字列に
所定のハッシュ関数を適用して決まるハッシュ値に前記
文書識別情報を結合した値をキーとして用いることを特
徴としたインデクス検索方法。
【請求項１６】請求項１５に記載のインデクス検索方
法において、前記閾値を越える長さの語から決定されるキーには当該
語を一意に特定するための番号が付加されているととも
に、当該番号が当該語と対応して登録されており、前記閾値を越える長さの語から決定されるキーに検索範
囲を指定する登録番号を付加した値を用いて検索を行っ
た後に、更に当該キーに付加された登録番号と対応して
登録されている語を特定し、特定した語と検索対象の語
との対応に基づいて、検索された文書名集合から該当す
る文書名を特定することを特徴とするインデクス検索方
法。
【請求項１７】指定された語から決定されるキーを用
いて値を検索するために、キーと値とを対応させたイン
デクスを作成する装置において、キーと値とを対応させたインデクスを記憶する記憶手段
と、語の長さが設定された閾値以下であることに応じて当該
語の文字列を含むキーと値との組を記憶手段に登録する
一方、語の長さが前記閾値を越えることに応じて当該語
の文字列に所定のハッシュ関数を適用して決まるハッシ
ュ値を含むキーと値との組を記憶手段に登録する登録手
段と、を備えたことを特徴とするインデクス作成装置。
【請求項１８】指定された語から決定されるキーを用
いて値を検索するためにキーと値とを対応させたインデ
クスの作成処理を、コンピュータに実行させるプログラ
ムを当該コンピュータに読み取り可能に記憶した記憶媒
体において、前記プログラムは、語の長さが設定された閾値以下であ
ることに応じて当該語の文字列を含むキーと値との組を
インデクスメモリに登録する一方、語の長さが前記閾値
を越えることに応じて当該語の文字列に所定のハッシュ
関数を適用して決まるハッシュ値を含むキーと値との組
をインデクスメモリに登録する処理を、前記コンピュー
タに実行させることを特徴とする記憶媒体。