JP2833580B2

JP2833580B2 - 全文インデックス作成装置および全文データベース検索装置

Info

Publication number: JP2833580B2
Application number: JP8098050A
Authority: JP
Inventors: 俊一福島
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1996-04-19
Filing date: 1996-04-19
Publication date: 1998-12-09
Anticipated expiration: 2016-04-19
Also published as: JPH09288676A; US6189006B1; US5940836A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数件の電子化テ
キスト（文字コード列）を全文データベースとして蓄積
しておき、そのなかからキーワードなどの検索条件に合
致するテキストのみを見つけ出す全文データベース検索
装置、および、その検索で用いる補助ファイル（全文イ
ンデックス）を作成する全文インデックス作成装置に関
する。

【０００２】

【従来の技術】あるキーワードを含むテキストを見つけ
出す最も単純な方法は、蓄積された全テキストについ
て、テキストとキーワードを文字列照合するものであ
る。近年、電子化テキスト（文字コード列で表現され
る）は多量に流通・蓄積されており、検索の対象として
扱うべき全文データベースの規模は１００ＭＢ（メガバ
イト、１ＭＢ＝百万バイト）、さらにはＧＢ（ギガバイ
ト、１ＧＢ＝十億バイト）クラスになってきている。こ
のような大規模な全文データベースは、通常、磁気ディ
スク装置や光ディスク装置などに格納される。そのた
め、文字列照合方式では、全テキストを順次、ディスク
から読み出さねばならず、その読み出し速度×読み出し
量がボトルネックとなり、高速な検索速度は望めない。

【０００３】そこで、高速なテキスト検索を実現するた
めに、従来、全文データベースに対して、事前に、検索
のための補助ファイル（全文インデックス）を作成して
おき、これを検索の際に参照する方法が採られている。

【０００４】この全文インデックスのタイプは、二つの
観点から分類できる。どのような文字列をキーとするか
と、そのキーにどのような位置情報を対応付けるかとい
う二つの観点である。

【０００５】まず、どのような文字列をキーとするかと
いう第一の観点からは、およそ次のような３種類に分類
できる。

【０００６】（Ａ）単語をキーとする。

【０００７】（Ｂ）１文字、２文字組、３文字組など、
一定の長さの文字列をキーとする。

【０００８】（Ｃ）同一字種文字列など、単語を近似し
た文字列をキーとする。

【０００９】次に、そのキーにどのような位置情報を対
応付けるかという第二の観点からは、次の２種類に分類
できる。

【００１０】（ア）テキストＩＤを対応付ける。

【００１１】（イ）テキストＩＤに加えて、テキスト内
の位置（何文字目や何単語目など）も対応付ける。

【００１２】以下では、このような観点から全文インデ
ックスのタイプを３×２＝６通りに分類し、従来の全文
インデックス作成装置および全文データベース検索装置
を説明する。

【００１３】まず、（Ａ・ア）や（Ａ・イ）のタイプの
全文インデックスは、英語テキストを対象としたテキス
ト検索において、よく用いられている。英語テキストは
単語単位に空白で区切られる（分かち書きされる）のに
対して、日本語テキストはそのような分かち書きの習慣
がない。そこで、日本語テキストを対象としたテキスト
検索において（Ａ・ア）や（Ａ・イ）のタイプの全文イ
ンデックスを作成するためには、単語辞書を参照しなが
ら、べた書きテキストを単語単位に分割する処理（形態
素解析）を実行することが不可欠になる。特開平３−２
２９３６４号公報「フルテキスト検索装置」には、（Ａ
・ア）タイプのインデックスファイルを用いる検索装置
が記載されている。

【００１４】（Ａ・ア）や（Ａ・イ）のタイプの全文イ
ンデックスを用いた全文データベース検索装置では、検
索条件としてキーワードが与えられると、そのキーワー
ドと完全一致あるいは部分一致する単語を全文インデッ
クスのキー群から検索する。一致するキー（単語）が全
文インデックスに存在した場合は、そのキーに対応する
テキストＩＤあるいはテキスト内位置を読み出して、そ
れらを検索結果とする。

【００１５】次に、（Ｂ・ア）タイプの全文インデック
スは、キーとする文字列の長さの違いに着目して整理す
ると、次のような従来例がある。特開昭６２−２１１７
２８号公報「日本語情報検索システム」では、キー文字
列長が１であり、各文字がどのテキストに出現したかと
いう文字成分表をインデックスファイルに用いている。
特開平６−６８１５９号公報「検索装置」では、キー文
字列長を２としており、各２文字組がどのテキストに出
現したかをインデックスファイルに登録している。特開
平５−２６６０８０号公報「検索装置」では、キー文字
列長を２文字＋数ビットとしている。特開平３−１２５
２６３号公報（特公平５−８７８６５号公報）「情報検
索システムにおける連語索引を用いた検索法」、およ
び、特開平５−１０１１０２号公報「検索装置」では、
キー文字列長を一般的にＮとしている。特開平７−１０
５２３７号公報「索引作成方法およびその装置と文書検
索装置」では、１文字を粗く分類したキーによるインデ
ックスファイルと、２文字組を粗く分類したキーによる
インデックスファイルと、３文字組を粗く分類したキー
によるインデックスファイルを併用している。特開平５
−１７４０６７号公報「データベース検索システム」で
は、１文字をｎ通りに分類したものと、その１文字の以
降のＮ文字をｍ通りに分類したものとを組み合わせてキ
ーとし、それをテキストＩＤに対応付けている。特開平
６−２５１０５８号公報「文書検索装置」、および、特
開平６−２５１０５９号公報「文書検索装置」では、キ
ー文字列長が１のインデックスファイルに、２文字組の
文字コードの差分をキーとしたインデックスファイルを
組み合わせて用いている。

【００１６】（Ｂ・ア）タイプの全文インデックスを用
いた全文データベース検索装置では、検索条件としてキ
ーワードが与えられると、全文インデックス作成時と同
様の方針で、キーワードの文字列を分割する。例えば、
キーワードが「東京都」であるとすると、全文インデッ
クスのキー文字列長を１とした検索装置ならば、「東」
「京」「都」という３つのキー文字に分割する。そし
て、各キーで全文インデックスを検索し、「東」の出現
するテキストの集合、「京」の出現するテキストの集
合、「都」の出現するテキストの集合の各々を求めて、
それらの集合の積集合（すなわち、「東」「京」「都」
の３文字ともが出現するテキストの集合）を求める。も
し全文インデックスのキー文字列長が２の検索装置なら
ば、キーワードである「東京都」を「東京」「京都」と
いう２文字組に分割し、同様に、「東京」の出現するテ
キストの集合と「京都」の出現するテキストの集合の積
集合を求めることになる。このようにして求めた積集合
は、ゴミを含む可能性がある。すなわち、「東京都」と
いうキーワードでの検索例であれば、「東」「京」
「都」の３文字が出現していても「東京都」のように３
文字が並んで存在している保証はないし、また、「東
京」「京都」という２文字組の両方が出現していても
「東京都」という並びで存在している保証はない。例え
ば、「東京都」という文字列は含まなくても「……東京
と京都は……」という文字列を含むようなテキストはゴ
ミとなる。したがって、このような（Ｂ・ア）タイプの
全文インデックスの検索結果からゴミを除去するために
は、通常、この検索結果のテキストに対して、テキスト
とキーワードの文字列照合をかけて、絞り込みを行なう
ことになる。

【００１７】（Ｂ・イ）タイプには、次のような従来例
がある。特開昭６４−８４４１号公報「文字列検索方
式」、および、特開平４−２０５５６０号公報「情報検
索処理方式および検索ファイル作成装置」では、キー文
字列長が１であり、各文字がどのテキストの何文字目に
出現したかをインデックスファイルに登録している。特
開平６−１４９８８２号公報「全文データベース検索装
置」では、キー文字列長を２としており、各２文字組が
どのテキストの何文字目に出現したかをインデックスフ
ァイルに登録している。特開平４−２１５１８１号公報
（特公平７−１０９６０３号公報）「情報検索処理方式
および検索ファイル作成装置」、特開平５−６１９１０
号公報「全文インデックス検索方法」、特開平６−５２
２２２号公報「情報検索処理装置」、特開平６−１６８
２７０号公報（特公平７−１１３９２６号公報）「イン
デックスを用いた文字列検索システム及びそのインデッ
クス作成装置」では、キー文字列長を一般的にＮとして
いる。

【００１８】（Ｂ・イ）タイプの全文インデックスを用
いた全文データベース検索装置では、検索条件としてキ
ーワードが与えられると、全文インデックス作成時と同
様の方針で、キーワードの文字列を分割する。例えば、
キーワードが「東京都」であるとすると、全文インデッ
クスのキー文字列長を１とした検索装置ならば、「東」
「京」「都」という３つのキー文字に分割する。そし
て、各キーで全文インデックスを検索し、「東」の出現
するテキストＩＤ・テキスト内位置の組の集合、「京」
の出現するテキストＩＤ・テキスト内位置の組の集合、
「都」の出現するテキストＩＤ・テキスト内位置の組の
集合の各々を求め、それらの集合の要素を組み合わせ
て、「東」「京」「都」の３文字が同一テキストで「東
京都」という連続する３文字として出現する箇所を求め
る。もし全文インデックスのキー文字列長が２の検索装
置ならば、キーワードである「東京都」を「東京」「京
都」という２文字組に分割し（「東京」「都＊」と分割
する方法もある：＊は任意の１文字）、同様に出現位置
の関係を判定する。なお、（Ｂ・イ）タイプの全文イン
デックスの検索では、（Ｂ・ア）タイプの全文インデッ
クスの検索の場合と異なり、ゴミは発生しない。

【００１９】また、（Ｃ・ア）や（Ｃ・イ）タイプの全
文インデックスでは、テキストを漢字・片仮名・平仮名
などの同一字種の連続単位に分割したものをキー文字列
とする。例えば、「フルテキスト検索システムを開発し
た」というテキストであれば、「フルテキスト」「検
索」「システム」「を」「開発」「した」の各々をキー
文字列とする。検索条件のキーワードについても同様に
分割し、全文インデックスにおいて、それらを含むキー
文字列を検索する。例えば、「テキスト検索」というキ
ーワードであれば、「テキスト」と「検索」に分割し、
「テキスト」を包含する前述の「フルテキスト」の出現
するテキストや、「検索」の出現するテキストを全文イ
ンデックスから得る。

【００２０】特開平３−１７４６５２号公報「階層プリ
サーチ式文書検索方法及び装置及びこの装置に用いられ
る磁気ディスク装置」、および、特開平４−２７４５５
７号公報「フルテキストサーチ方法および装置」では、
（Ｂ・ア）タイプの１文字をキーとしてテキストＩＤを
対応付けたインデックスファイルである文字成分表と、
（Ｃ・ア）タイプのインデックスファイルである擬似本
文とを組み合わせて、テキスト検索に利用している。特
開平５−１７４０６４号公報「文書検索方法および装
置」では、（Ｂ・ア）タイプのＮ文字組をキーとしてテ
キストＩＤを対応付けたインデックスファイルである連
接文字成分表と、（Ｃ・ア）タイプのインデックスファ
イルである擬似本文とを組み合わせて、テキスト検索に
利用している。これらの例では、まず（Ｂ・ア）タイプ
の文字成分表または連接文字成分表を検索し、その検索
結果（前述のようにゴミを含む可能性あり）に対して、
さらに（Ｃ・ア）タイプの擬似本文を検索する。擬似本
文との照合でもゴミが発生し得るケースがあるので、そ
の場合は、最終的にテキスト本体と照合して確認するこ
とになる。

【００２１】

【発明が解決しようとする課題】（Ａ・ア）や（Ａ・
イ）のタイプの全文インデックスを用いる全文データベ
ース検索装置では、日本語テキストを対象とした場合、
前述のように全文インデックスの作成に形態素解析を用
いなくてはならない。この形態素解析は、１０万語ある
いは数１０万語の規模の単語辞書を参照してテキストを
単語に分割する処理であるから、インデックスファイル
の作成に時間がかかるという問題がある。さらに、単語
辞書に含まれていない単語（未登録語）がテキストに出
現することは避けられず、精度１００％の解析は不可能
に近い。したがって、解析誤りにより、インデックスフ
ァイルに正しく単語が登録されない現象が発生すること
になり、検索洩れが起きてしまうことも大きな問題であ
る。

【００２２】（Ｂ・ア）や（Ｃ・ア）のタイプの全文イ
ンデックスを用いる全文データベース検索装置では、前
述のように検索結果にゴミが含まれる（検索条件のキー
ワードを含まないテキストも該当してしまう）。このゴ
ミを除去するためには、（Ｂ・ア）や（Ｃ・ア）のタイ
プの全文インデックスの検索結果に対して、さらに文字
列照合をかけるという多段階の検索処理を実行する必要
がある。この文字列照合処理は、前段階の（Ｂ・ア）や
（Ｃ・ア）タイプの全文インデックス検索での該当件数
が少なければ、その処理量は少なくて済むが、前段階で
の該当件数が多いと、かなり大きな処理負荷がかる。最
終的に文字列照合の結果としても多数件が該当するよう
なキーワード（多数のテキストに出現するキーワード）
であるならば、インデックスファイルに登録する文字列
の種類を工夫するなどしても（キー文字列の長さを長く
すればゴミの発生する可能性は減少する）、文字列照合
を多数件のテキストに対して実行することは避けられな
い。したがって、（Ｂ・ア）や（Ｃ・ア）のタイプの全
文インデックスを用いた全文データベース検索装置で
は、ゴミを除去するために文字列照合を組み合わせた多
段階の検索を行なうようにすると、その検索速度の高速
化には限界がある。

【００２３】以上のような分析から、日本語テキストを
対象とした全文データベース検索装置には、（Ｂ・イ）
や（Ｃ・イ）のような文字列をキーとしてテキストＩＤ
・テキスト内位置の組を対応付けるタイプの全文インデ
ックスを用いるのが有効である。（Ａ・ア）や（Ａ・
イ）のタイプに比べて短時間でインデックスファイルの
作成が可能であり、（Ｂ・ア）や（Ｃ・ア）で発生する
ゴミの問題も起きない。

【００２４】しかしながら、テキスト検索の様々な用途
・アプリケーションへの適用においては、インデックス
ファイルの容量と検索速度のトレードオフを考えねばな
らない。

【００２５】図３（ａ）は、キー文字列長を１とした場
合の従来の（Ｂ・イ）タイプの全文インデックス５０の
例である。図３（ａ）の全文インデックス５０は、図２
（ａ）の全文データベース１から作成したものである。
図３（ａ）における位置情報５０２の領域は、ｎ−ｍと
いう形式で、ｎ番目のテキスト（テキストＩＤ：ｎ）の
ｍ文字目という意味を表わしている。すなわち、文字
「い」は、テキスト１の２文字目と５文字目、テキスト
２の２文字目に出現していることが表わされている。こ
こで、図３（ａ）の全文インデックス５０を用いて、例
えば「あうい」というキーワードを検索するには次のよ
うにする。

【００２６】まず、キーワード「あうい」を構成する各
文字に対して全文インデックス５０を検索し、各文字が
出現した位置情報を読み出す。

【００２７】あ → １−３、１−６、２−１、３−２、３−３、３−４う → １−１、１−４、２−３、３−１い → １−２、１−５、２−２次に、これらの位置関係を調べ、「あうい」という文字
の並びが存在するかを判断する。この例では、「あ：１
−３」「い：１−４」「う：１−５」が、これを満た
す。したがって、テキスト１の３文字目から５文字目に
キーワード「あうい」が存在することがわかる。

【００２８】この図３（ａ）のような全文インデックス
を用いた検索において、全文データベースの規模が大き
くなったときに検索速度のボトルネックとなるのは、位
置情報の読み出し量である。すなわち、図３（ａ）の例
でいえば、キー文字列５００の領域から「あ」「う」
「い」という文字を検索するのに要する時間よりも、位
置情報５０２の領域から「あ」に対する「１−３、１−
６、２−１、３−２、３−３、３−４」、「う」に対す
る「１−１、１−４、２−３、３−１」、「い」に対す
る「１−２、１−５、２−２」を読み出すのに要する時
間の方がはるかに大きい。なぜならば、キー文字列５０
０の部分は高々数千個分程度のサイズで足りる（１文字
の種類はすぐに飽和する）のに対して、位置情報５０２
の部分は、全文データベースの規模が大きくなるにつれ
て線形増加していくためである。位置情報５００の総容
量はテキスト全件の総文字数Ｑに位置情報（ｎ−ｍ）１
件あたりのサイズＰを乗じたものとなる。テキスト全件
で出現した文字の種類をＣ、キーワードの長さをＬ文字
とすると、検索の際に読み出す位置情報の量の平均はＱ
×Ｐ×Ｌ／Ｃとなる。ここで、Ｑ＝１Ｇ（十億）文字、
Ｐ＝４バイト、Ｃ＝３０００文字、Ｌ＝３文字とする
と、Ｑ×Ｐ×Ｌ／Ｃ＝４Ｍ（４百万）バイトである。１
個のキーワードの検索において４Ｍバイトものデータを
読み出すならば、それだけで検索処理のレスポンスを大
幅に低下させることになる。

【００２９】一方、図３（ｂ）は、キー文字列長を２と
した場合の従来の（Ｂ・イ）タイプの全文インデックス
５１の例である。図３（ｂ）の全文インデックス５１
は、図３（ａ）と同様に図２（ａ）の全文データベース
１から作成したものである。図３（ｂ）では例えば、２
文字組「ああ」はテキスト３の２文字目と３文字目に出
現していることなどが表わされている。なお、図３
（ｂ）の位置情報５０２の領域における「＄」は、テキ
スト末尾のダミー記号を意味している。ここで、図３
（ｂ）の全文インデックス５１を用いて、例えば「あう
い」というキーワードを検索するには次のようにする。

【００３０】まず、キーワード「あうい」を「あう」と
「うい」という２文字組に分割する（あるいは「あう」
と「い＊」や、「＊あ」と「うい」というような分割を
使う手もある：＊は任意の１文字）。そして、これらの
２文字組に対して全文インデックス５１を検索し、各２
文字組が出現した位置情報を読み出す。

【００３１】あう → １−３うい → １−１、１−４次に、これらの位置関係を調べ、「あうい」という文字
の並びが存在するかを判断する。この例では、「あう：
１−３」「うい：１−４」が、これを満たすので、テキ
スト１の３文字目から５文字目にキーワード「あうい」
が存在することがわかる。

【００３２】この図３（ｂ）の全文インデックス５１と
前述の図３（ａ）の全文インデックス５０とを比較する
と、位置情報５０２の領域のサイズは、各キー文字列に
対して可変長でもつとすれば、基本的に（ａ）（ｂ）と
もにＱ×Ｐで同一である。しかしながら、キー文字列５
００の種類は、（ａ）に比べて（ｂ）の方がはるかに多
い。（ａ）のキー文字列（長さ：１）の種類が最大Ｃ通
りであるとすれば、（ｂ）のキー文字列（長さ：２）の
種類は最大Ｃ×Ｃ通りになるためである。その結果、１
つのキー文字列に対して読み出さねばならないデータ量
が、（ｂ）は（ａ）より大幅に少なくなる。その一方
で、キー文字列の種類が増えた分だけキー文字列５００
の領域の検索に時間がかかることになるが、キー文字列
５００の領域の検索時間は、キー文字列の種類に対して
ｌｏｇオーダーで増加するのに対して、位置情報５０２
の読み出し量はキー文字列の種類に対して線形に減少す
る（線形に高速化される）ので、（ｂ）の方が（ａ）よ
り高速に検索できることになる。

【００３３】ところが、（ａ）に比べて（ｂ）の方が、
キー文字列５００の領域の総容量は大幅に増える。した
がって、インデックスファイルの容量と検索速度との間
に極端ななトレードオフが生じている。この傾向は、図
３で説明したキー文字列長が１と２のときに限らず一般
なもので、キー文字列長Ｎの値を大きくすると検索速度
は高速になるが、Ｎの値を１つ増やすだけでインデック
スファイルの容量は急激に増大してしまう。

【００３４】そこで、本発明の目的は、インデックスフ
ァイルの容量と検索速度を細かく段階的に調整可能な全
文インデックス作成装置＋全文データベース検索装置を
提供することである。また、テキストにおける文字の出
現頻度の傾向に合わせて、インデックスファイルの容量
と検索速度がバランスよく調整された全文インデックス
作成装置＋全文データベース検索装置も提供可能とす
る。

【００３５】

【課題を解決するための手段】本発明の全文インデック
ス作成装置は、全文データベースからＮ文字組と該Ｎ文
字組の出現した文脈と該Ｎ文字組の出現した文字位置情
報とを取り出すＮ文字組抽出手段と、前記Ｎ文字組の出
現した文脈を分類する文脈分類手段と、前記Ｎ文字組の
出現した文字位置情報を前記Ｎ文字組の種類と前記文脈
の分類ごとに分けて格納するインデックス登録手段を備
える。

【００３６】また、本発明の全文データベース検索装置
は、全文データベースに出現するＮ文字組の文字位置情
報を該Ｎ文字組の種類と該Ｎ文字組の文脈の分類ごとに
分けて格納した全文インデックスと、入力された検索条
件を記憶する検索条件メモリと、前記検索条件の文字列
をＮ文字組に分割するとともに該検索条件の文字列にお
ける各Ｎ文字組の文脈を取り出す検索条件解析手段と、
前記検索条件の文字列における各Ｎ文字組の文脈を分類
する文脈分類手段と、前記検索条件解析手段の抽出した
Ｎ文字組の種類と前記文脈分類手段の結果とによって前
記全文インデックスを検索して該当するＮ文字組の文字
位置情報を読み出すインデックス検索手段と、前記イン
デックス検索手段の結果から前記検索条件文字列の前記
全文データベースにおける出現位置を判定する位置判定
手段を備える。

【００３７】従来の（Ｂ・イ）タイプの全文インデック
スでは、Ｎ文字組の種類に対応させて文字位置情報を格
納している。それに対して、本発明による全文インデッ
クスでは、Ｎ文字組の種類をさらにＮ文字組が出現した
文脈の分類によって分けて、それに文字位置情報を対応
させるようにした。文字位置情報を細かく分けてインデ
ックスに格納することになるので、検索の際に読み出す
データ量が少なく抑えられ、検索速度が向上する。

【００３８】従来の（Ｂ・イ）タイプの全文インデック
スでは、Ｎ文字組のＮの値を変えると、インデックス容
量と検索速度の間に極端なトレードオフが生じていた。
しかし、本発明による全文インデックスでは、Ｎの値を
変える以外に、Ｎ文字組の文脈の分類の粗さ／細かさを
変化させることが可能で、それによってインデックス容
量と検索速度との間のバランスを細かく段階的に調整で
きるようになっている。

【００３９】さらに、全文データベースにおいて出現頻
度の高いＮ文字組については文脈を細かく分類し、逆に
出現頻度の低いＮ文字組については文脈を粗く分類する
ような調整が可能で、これによれば、インデックス容量
を必要以上に増大させることなく検索速度を高めること
が可能になる。

【００４０】

【発明の実施の形態】本発明の実施の形態を、図面を参
照して詳細に説明する。

【００４１】図１に示す実施の形態においては、全文イ
ンデックス作成装置２０は、Ｎ文字組抽出手段２、文脈
分類手段３、インデックス登録手段４を含む。

【００４２】以下では、これらの各構成要素について説
明するが、その前に、全文インデックス作成装置２０が
処理の入力とする全文データベース１について説明して
おく。全文データベースは、電子化テキスト（文字コー
ド列）の集合である。図２（ａ）が全文データベース１
の一例である。テキスト本体１０１は複数のテキストの
集合であり、各テキストに対してはテキストを一意に指
し示すテキストＩＤ１００が付与されている。図２
（ａ）では、テキストＩＤとして通番を与えているが、
必ずしも番号ではなく、例えばテキストファイル名など
の文字列で識別してもかまわない。この全文データベー
スは通常、磁気ディスク装置、光ディスク装置などの記
憶装置類に格納されている（全文データベースの規模が
小さいか、または高価な装置価格が許される場合には半
導体メモリに格納されることもある）。

【００４３】Ｎ文字組抽出手段２は、全文データベース
１から、Ｎ文字組と、このＮ文字組の出現した文脈と、
このＮ文字組の出現した文字位置情報とを取り出す。図
４は、このＮ文字組抽出手段２を実現するフローチャー
トの例である。図４のフローチャートでは、先頭のテキ
ストの先頭文字から順に１文字ずつ文字位置をずらしな
がら、各文字位置からＮ文字組、その文脈、文字位置情
報の３つを取り出して出力している。文字位置情報は、
テキストＩＤとテキスト内位置の組で表わすことが可能
であり、例えば、ｉ番目のテキストのｊ文字目であれば
ｉ−ｊ（ｉマイナスｊではなくｉとｊの組を意味する）
で表わせる。Ｎ文字組の出現した文脈には、例えば、そ
のＮ文字組の直前のＳ文字と直後のＴ文字を用いること
ができる。

【００４４】文脈分類手段３は、Ｎ文字組の出現した文
脈を分類する。例えば、Ｎ文字組の直前のＳ文字を前文
脈、直後のＴ文字を後文脈とするならば、前文脈のＳ文
字分の文字コードと後文脈のＴ文字分の文字コードの各
々から、予め定めた上限値Ｒ以内の分類番号に対応付け
ることで分類することができる。文字コードから上限値
Ｒ以内の分類番号に対応付ける方法の１つは、Ｓ文字分
あるいはＴ文字分の文字コードを加算し、それをＲで割
った余りを分類番号とする方法である。別な対応付け方
法として、Ｓ文字分あるいはＴ文字分の文字コードから
部分的にビット列を取り出し、合わせてｌｏｇＲビット
の数値としたものを分類番号とする方法なども考えられ
る。また、この上限値Ｒは、すべてのＮ文字組に共通の
定数とするのが最も単純であるが、Ｎ文字組の種類など
に応じて個別に定めるようにすると、インデックスファ
イル容量や検索速度に関するきめ細かな調整が可能にな
る。例えば、Ｎ文字組の字種（漢字・平仮名・片仮名な
ど）ごとに上限値Ｒを定めるようにしてもよい。あるい
は、全文データベース１における各Ｎ文字組の出現頻度
を求めておき、その出現頻度に応じて各Ｎ文字組に個別
に上限値Ｒを定めるようにしてもよい。さらに、前文脈
の場合と後文脈の場合とで異なる上限値Ｒを定める方法
も考えられる。

【００４５】インデックス登録手段４は、各Ｎ文字組の
出現した文字位置情報を、Ｎ文字組の種類とその文脈の
分類ごとに分け、全文インデックス５に格納する。図２
（ｂ）は、インデックス登録手段５が出力する全文イン
デックス５の一例である。全文インデックスの検索キー
は、まずキー文字列（Ｎ文字組）５００で分けられ、そ
れがさらに文脈分類５０１で分けられている。それをた
どった結果として、位置情報５０２に文字位置情報の並
びが格納されている。このようなインデックスファイル
への登録・検索アルゴリズムには、よく知られたＢ−ｔ
ｒｅｅアルゴリズムやバイナリツリーアルゴリズムなど
を用いればよい。

【００４６】さらに、このインデックス登録手段４で
は、文字位置情報の並びについて、次のような容量圧縮
をかけてもよい。すなわち、まず、文字位置情報の並び
について、各々の直前の文字位置情報との差分を求め、
それを下位からｅビットずつに分割する。ｅビットずつ
に分割したもののうち上位側から全ｅビットが０になっ
ている範囲は切り捨てる。そして、有効な値の入った下
位側のｅビット列について、文字位置情報の区切りフラ
グ１ビットを加えた（ｅ＋１）ビット単位で表現して格
納する。

【００４７】次に、全文インデックス作成装置の動作
を、実施例を用いて説明する。

【００４８】Ｎ文字組抽出手段２について、図２（ａ）
の全文データベース１を対象に、Ｎ＝１、Ｓ＝１、Ｔ＝
１で動作させると、次のような結果が得られる。

【００４９】［Ｎ文字組、前文脈、後文脈、文字位置情
報］＝［う、＄、い、１−１］、［い、う、あ、１−
２］、［あ、い、う、１−３］、［う、あ、い、１−
４］、［い、う、あ、１−５］、［あ、い、＄、１−
６］、［あ、＄、い、２−１］、・・・・・・・・・・
・・なお、この例において「＄」はテキストの先頭または末
尾のダミー記号である。

【００５０】また、Ｎ＝２、Ｓ＝１、Ｔ＝２で動作させ
た場合は、次のようになる。

【００５１】［Ｎ文字組、前文脈、後文脈、文字位置情
報］＝［うい、＄、あう、１−１］、［いあ、う、う
い、１−２］、［あう、い、いあ、１−３］、［うい、
あ、あ＄、１−４］、［いあ、う、＄＄、１−５］、
［あ＄、い、＄＄、１−６］、［あい、＄、う＄、２−
１］、・・・・・・・・・・・・文脈分類手段３では、文字コード（複数文字の場合は文
字コードの和）を分類数上限値Ｒで割った余りによって
文脈を分類するものとする。文脈の文字列長（ＳやＴ）
が１で、Ｒ＝５だとすると、次のような分類ができる。

【００５２】「あ」（ＪＩＳコードは１６進で２４２２）→分類番号：０「い」（ＪＩＳコードは１６進で２４２４）→分類番号：２「う」（ＪＩＳコードは１６進で２４２６）→分類番号：４なお、文脈が「＄」（すなわち、テキストの先頭または
末尾で文脈がない）の場合には、任意の文脈が許される
ものと考え、どの分類番号を対応付けてもよい。例え
ば、常に分類番号：０を割り当てるのが１つの方法であ
る（以下の実施例の説明ではこれを用いる）。あるい
は、他の文脈の分類番号と重ならないような独自の分類
番号（例えば−１など）を割り当ててもよい。あるい
は、その都度、ランダムまたは規則的に分類番号を割り
当てる方法も考えられる。規則的に割り当てる方法とは
具体的には、その都度、分類番号を１からＲまで順番に
回していく方法や、その時点での分類件数が最小の分類
番号を割り当てる方法などが考えられる。

【００５３】したがって、上述のＮ＝１、Ｓ＝１、Ｔ＝
１でＮ文字組抽出手段２を動作させた結果に対して、文
脈分類手段３を上記の条件（Ｓ＝１、Ｔ＝１、Ｒ＝５）
で動作させると、インデックス登録手段４へ渡されるデ
ータ内容は次のようなものなる。

【００５４】［Ｎ文字組、（前文脈の分類番号、後文脈
の分類番号）、文字位置情報］＝［う、（０、２）、１
−１］、［い、（４、０）、１−２］、［あ、（２、
４）、１−３］、［う、（０、２）、１−４］、［い、
（４、０）、１−５］、［あ、（２、０）、１−６］、
［あ、（０、２）、２−１］、・・・・・・・・・・・
・これらをインデックス登録手段４によって登録した結果
が、図２（ｂ）の全文インデックス５となる。

【００５５】なお、以上の実施例では、分類数上限値Ｒ
を、前文脈・後文脈ともに同一で、かつ、全Ｎ文字組に
共通にＲ＝５と定めたが、発明の実施の形態のところで
説明したように、Ｎ文字組の種類などに応じて個別に定
めてもよい。例えば、上記のＮ＝１の場合について、Ｎ
文字組が漢字ならばＲ＝２、平仮名ならばＲ＝５、片仮
名ならばＲ＝４というように字種で分けるのが一例であ
る。一般に、各字種に属する文字の出現頻度は平仮名が
最も多く、片仮名・漢字の順になる。したがって、頻度
の多い字種はＲの値を大きくすることで、検索の際に読
み出す位置情報のデータ量が細かく分割・制限でき、効
率よく検索速度を向上させることができる。よりきめ細
かに指定するには、各Ｎ文字組の全文データベースにお
ける出現頻度を求めて、その出現頻度に応じて各Ｎ文字
組のＲ値を定めるとよい。位置情報のデータ量は前文脈
のＲ値と後文脈のＲ値とを掛け合わせた数だけに場合分
けされることになるので、各Ｎ文字組に対する位置情報
のデータ量をほぼ均等に分割するように場合分けするに
は、各Ｎ文字組の出現頻度の平方根に比例するようにＲ
の値を定めるとよい。

【００５６】また、インデックス登録手段４が全文イン
デックス５に位置情報５０２を格納する際に、容量圧縮
をかける場合の実施例についても説明する。図７が、位
置情報の並びを圧縮する過程の例である。図７におい
て、圧縮前の位置情報５０２は、キー文字列５００と文
脈分類５０１とで分けられたもので、そのなかは位置情
報の昇順にソートされているものとする。なお、図７で
は１６進値で数値を表現しており、図７（ａ）は４バイ
ト／件で７件の位置情報が並んだものである（１行が１
件）。次に、図７（ｂ）では、直前の位置情報との差分
５０３を求める。次に、図７（ｃ）では、その差分５０
３を下位からｅビット単位に分割する（ここではｅ＝７
とした）。この差分５０３について、上位側からｅビッ
トともＮＵＬＬのものが連続していれば、それらを取り
除いて、図７（ｄ）とする。その結果として残ったｅビ
ット列を順番に並べ（１つの位置情報に対するｅビット
列は下位のものから並べる）、位置情報の区切りフラグ
を（ｅ＋１）ビット目として付与したものが、図７
（ｅ）の圧縮された位置情報５０６である。区切りフラ
グは、位置情報の区切りのｅビット単位に対して１をセ
ットしている。このような手順によって、図７（ａ）で
は４×７＝２８バイトの容量が、図７（ｅ）では１０バ
イトに圧縮されている。

【００５７】次に、全文データベース検索装置の実施の
形態を説明する。図１に示すように、全文データベース
検索装置２１は、全文インデックス５、検索条件メモリ
６、検索条件解析手段７、文脈分類手段３、インデック
ス検索手段８、位置判定手段９を含む。

【００５８】全文インデックス５は、全文データベース
１に出現するＮ文字組の文字位置情報を、そのＮ文字組
の種類とそのＮ文字組の文脈の分類ごとに分けて格納し
たものである。すなわち、前述の全文インデックス作成
装置２０によって作成された全文インデックスである。
この全文インデックス５は通常、全文データベース１と
同様に、磁気ディスク装置、光ディスク装置などの記憶
装置類に格納されている（全文インデックスの規模が小
さいか、または高価な装置価格が許される場合は半導体
メモリに格納されることもある）。

【００５９】検索条件メモリ６は、検索条件入力手段１
０から入力された検索条件を記憶する。通常、半導体メ
モリや磁気ディスク装置などが用いられる。検索条件と
してよく用いられるのはキーワードである。全文データ
ベース検索装置２１の利用者は、キーボードなどの検索
条件入力手段１０からキーワードを入力することで、そ
のキーワードの文字列が出現するテキストを見つけ出せ
という指示を、全文データベース検索装置２１に与えた
ことになる。検索条件は、単一のキーワードで指定され
る以外にも、複数のキーワードをＡＮＤやＯＲの論理式
として組み合わせて指定されることもある。検索条件メ
モリ６は、そのようなキーワードおよび論理式を記憶す
る。図５は検索条件メモリ６に格納する検索条件の表現
形式の例である。図５（ａ）は、利用者が入力した検索
条件の文字列表現をそのまま用いたものであり、「＊」
はＡＮＤ演算、「＋」はＯＲ演算、括弧でくくられた範
囲は優先して演算することを意味している。図５（ｂ）
は、計算機で処理しやすいように木構造表現に変換した
ものである。

【００６０】検索条件解析手段７は、検索条件メモリ６
に記憶された検索条件のキーワード文字列をＮ文字組に
分割するとともに、そのキーワード文字列における各Ｎ
文字組の文脈を取り出す。ここで行なうＮ文字組の解析
処理は、検索条件が単一キーワードではなく複数キーワ
ードの論理式である場合には、各キーワードに対して実
行する。すなわち、検索条件メモリ６において図５
（ｂ）のような木構造表現がとられていれば、木構造の
各リーフ６０のキーワードの各々に対して、そのキーワ
ードの文字列をＮ文字組に分割するとともに、各Ｎ文字
組の文脈を取り出す。その結果のデータ構造は、例え
ば、図５（ｂ）の各リーフ６０の各々にＮ文字組への分
割結果と文脈情報とを対応付けたようなものになる。キ
ーワード文字列をＮ文字組へ分割する方法は、少なくと
も２通りの方法があり得る。第一の方法は、前述のＮ文
字組抽出手段２と同様の処理を実行するもので、キーワ
ード文字列の先頭から１文字ずつずらしながらＮ文字組
を取り出す方法である。第二の方法は、Ｎ文字組がオー
バラップしないようにＮ文字ずつずらして取り出す方法
である。いずれの方法でも、Ｎ文字組の文脈の取り出し
方は、Ｎ文字組抽出手段２と同様である。ここで注意す
ることは、検索条件解析手段７において、キー文字列の
長さＮ、前文脈の長さＳ、後文脈の長さＴは、全文イン
デックス５を作成する際に用いた値と同一でなくてはな
らない。検索条件解析手段７は、検索条件の各キーワー
ドに対してＮ文字組、Ｎ文字組の文脈（前文脈、後文
脈）、先頭のＮ文字組からのずらし量を出力する。

【００６１】文脈分類手段３は、全文インデックス作成
装置２０における文脈分類手段３と同一である。検索条
件解析手段７の出力したＮ文字組の文脈に対して、予め
定めた上限値以内の分類番号を割り当てる。ただし、全
文インデックス作成装置の場合は、テキストの先頭や末
尾のダミー記号「＄」（文脈なし）に対しても何らかの
分類番号を割り当てたが、全文データベース検索装置の
場合は、キーワードの先頭や末尾のダミー記号には文脈
分類手段３を適用しないでおく。

【００６２】インデックス検索手段８は、検索条件解析
手段７の抽出したＮ文字組の種類と文脈分類手段３の分
類結果（分類番号）とによって、全文インデックス５を
検索する。そして、Ｎ文字組の種類と文脈分類に該当す
る文字位置情報を読み出す。その際、Ｎ文字組の文脈と
してキーワードの先頭や末尾のダミー記号が該当してい
る場合には、そのダミー記号は任意の文脈番号と一致す
るワイルドカードとみなして検索する。なお、全文イン
デックス５の作成の際に、前述したような位置情報の圧
縮格納がされている場合は、このインデックス検索手段
８において、圧縮された位置情報の復元を行なう。この
復元手順は、圧縮手順を逆順に適用すればよい。

【００６３】位置判定手段９は、インデックス検索手段
８の結果から、検索条件文字列の全文データベース５に
おける出現位置を判定する。この位置判定手段９が実行
される段階では、検索条件のキーワードを分割した各Ｎ
文字組に対して、全文インデックス５からインデックス
検索手段８によって読み出された文字位置情報の集合
と、各Ｎ文字組のキーワード先頭からのずらし量が得ら
れている。これをもとに、位置判定手段９は、各キーワ
ードに対して、例えば図６のフローチャートのような判
定処理を行なう。すなわち、まず、キーワードを分割し
たＮ文字組の１つを選択する（ステップ６００）。この
選択は、キーワードの先頭側のＮ文字組から順番に選択
する方法や、対応する文字位置情報の数が少ないＮ文字
組から順番に選択する方法などが考えられる。次に、そ
のＮ文字組がキーワードの先頭からＺ文字分だけずらし
たものであったならば、そのＮ文字組に対する文字位置
情報の集合の各要素からＺ文字分だけ差し引き、それを
ヒット位置の集合Ｈとする（ステップ６０１）。未処理
のＮ文字組がまだあるかを判断し（ステップ６０２）、
まだ残っているならば１つ選択し（ステップ６０３）、
その選択したＮ文字組に対する文字位置情報の集合の各
要素から同様に、そのＮ文字組のずらし量分だけを差し
引いた位置の集合を求め、集合Ｈと積をとった結果を新
たな集合Ｈとして繰り返す（ステップ６０４）。すべて
のＮ文字組を処理し終わったところで、集合Ｈの要素が
キーワードの出現位置の集合になる（ステップ６０
５）。

【００６４】このようにして、各キーワードの出現位置
の集合は求めることができるが、検索条件が単一キーワ
ードではなく論理式で与えられているときは、各キーワ
ードの出現テキスト集合について論理式に合わせた集合
演算を行なうことになる。その手順は、従来の全文デー
タベース検索装置でもやられていることであるが、例え
ば、次のように行なえばよい。この論理演算は、テキス
トＩＤの集合について行なえばよいので、テキスト内位
置の情報は切り捨ててよい。そこで、図５（ｂ）のよう
な木構造表現と対応付ければ、各キーワード６０に対し
て、そのキーワードが出現したテキストＩＤ集合が求め
られたところから考える。すると、論理式を満たすテキ
ストＩＤ集合を求める手順は、図５（ｂ）のリーフ６０
から始めて、各ノードに対応するテキストＩＤの集合を
順に求めて、最終的にルートに対応するテキストＩＤ集
合を求めればよいことになる。したがって、「＋」のノ
ードについては、その下位の２つのノードまたはリーフ
に対応するテキストＩＤ集合の和集合を求め、「＊」の
ノードについては、その下位の２つのノードまたはリー
フに対応するテキストＩＤ集合の積集合を求めていけば
よい。

【００６５】次に、全文データベース検索装置の動作
を、実施例を用いて説明する。

【００６６】全文インデックス５には、図２（ｂ）の例
を用いる。すなわち、キー文字列の長さＮ＝１、前文脈
の長さＳ＝１、後文脈の長さＴ＝１、分類数上限値Ｒ＝
５（前文脈・後文脈とも同じで全Ｎ文字組で共通）であ
る。

【００６７】検索条件としては、単一のキーワード「あ
うい」が入力されたものとする。このとき、検索条件解
析手段７の処理結果は次のようになる。

【００６８】［Ｎ文字組、前文脈、後文脈、ずらし量］＝［あ、＄、
う、０］、［う、あ、い、１］、［い、う、＄、２］これに対して、全文インデックス作成装置の実施例と同
様の文脈分類手段３を適用すると、結果は次のようにな
る。キーワードの先頭や末尾のダミー記号は、文脈分類
においてワイルドカードとみなすので、下記では「＊」
に置き換えた。

【００６９】［Ｎ文字組、（前文脈の分類番号、後文脈
の分類番号）、ずらし量］＝［あ、（＊、４）、０］、
［う、（０、２）、１］、［い、（４、＊）、２］インデックス検索手段８は、上記のＮ文字組と（前、
後）文脈の分類番号をキーとして、全文インデックス５
を検索する。その結果、次のような位置情報が読み出さ
れる。

【００７０】あ：（＊、４） → あ：（２、４） → １−３う：（０、２） → １−１、１−４い：（４、＊） → い：（４、０） → １−２、１−５位置判定手段９では、まず各位置情報からずらし量分を
差し引く。その結果は、次のようになる。

【００７１】あ（ずらし量：０） → １−３う（ずらし量：１） → １−０、１−３い（ずらし量：２） → １−０、１−３次に、位置判定手段９では、これらの位置情報の集合の
積を求める。その結果、１−３が残り、キーワード「あ
うい」はテキスト１の３文字目に出現してことがわか
る。

【００７２】

【発明の効果】本発明の第一の効果は、従来技術におい
てはインデックスファイルの容量と検索速度とが極端な
トレードオフを生じていたが、細かく段階的に調整する
ことが可能になる。その結果、様々な用途・アプリケー
ションに対して、全文インデックス装置・全文データベ
ース検索装置を最適な構成で実現することが可能とな
る。

【００７３】その理由は、位置情報をキー文字列の長さ
Ｎで分けて格納・検索するだけでなく、それらが出現し
た文脈の分類でも分けて格納・検索するようにしている
ためである。文脈の分類の粗さ／細かさが段階的に調整
可能である。

【００７４】第二の効果は、インデックスファイルの容
量を必要以上に大きくすることなく、検索速度を高める
ことが可能になることである。

【００７５】その理由の１つは、全文データベースにお
けるＮ文字組の出現頻度に応じて文脈の分類の粗さ／細
かさを個別に定めることで、検索速度とインデックスフ
ァイル容量とのバランスを適切に設定できるためであ
る。また、もう１つの理由は、位置情報の格納の際に、
隣接する位置情報の間で差分をとり、一定のビットサイ
ズで分割し、ＮＵＬＬ範囲を削除する圧縮方式を組み合
わせたためである。

【図面の簡単な説明】

【図１】全文インデックス作成装置２０と全文データベ
ース検索装置２１の構成を示すブロック図である。

【図２】全文データベース１と本発明による全文インデ
ックス５の例を示す図である。

【図３】従来の全文インデックス５０・５１の例を示す
図である。

【図４】Ｎ文字組抽出手段２のフローチャートである。

【図５】検索条件の表現形式の例を示す図である。

【図６】位置判定手段９におけるキーワードの位置判定
手順を示すフローチャートである。

【図７】位置情報の並びを圧縮する手順の例を示す図で
ある。

【符号の説明】

１全文データベース２Ｎ文字組抽出手段３文脈分類手段４インデックス登録手段５全文インデックス６検索条件メモリ７検索条件解析手段８インデックス検索手段９位置判定手段１０検索条件入力手段１１検索結果メモり１２検索結果出力手段２０全文インデックス作成装置２１全文データベース検索手段５０・５１従来の全文インデックス１００テキストＩＤ１０１テキスト本体５００キー文字列５０１文脈分類５０２位置情報

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平６−168270（ＪＰ，Ａ) 特開平８−314964（ＪＰ，Ａ) 特開平８−190571（ＪＰ，Ａ) 特開平８−101848（ＪＰ，Ａ) 特開平７−319920（ＪＰ，Ａ) 特開平５−61910（ＪＰ，Ａ) 特開平７−85065（ＪＰ，Ａ) 特開平７−56943（ＪＰ，Ａ) 特開平４−205560（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 17/30

Claims

(57)【特許請求の範囲】

【請求項１】全文データベースからＮ文字組と該Ｎ文字
組の出現した文脈と該Ｎ文字組の出現した文字位置情報
とを取り出すＮ文字組抽出手段と、前記Ｎ文字組の出現
した文脈を分類する文脈分類手段と、前記Ｎ文字組の出
現した文字位置情報を前記Ｎ文字組の種類と前記文脈の
分類ごとに分けて格納するインデックス登録手段を備え
たことを特徴とする全文インデックス作成装置。
【請求項２】全文データベースに出現するＮ文字組の文
字位置情報を該Ｎ文字組の種類と該Ｎ文字組の文脈の分
類ごとに分けて格納した全文インデックスと、入力され
た検索条件を記憶する検索条件メモリと、前記検索条件
の文字列をＮ文字組に分割するとともに該検索条件の文
字列における各Ｎ文字組の文脈を取り出す検索条件解析
手段と、前記検索条件の文字列における各Ｎ文字組の文
脈を分類する文脈分類手段と、前記検索条件解析手段の
抽出したＮ文字組の種類と前記文脈分類手段の結果とに
よって前記全文インデックスを検索して該当するＮ文字
組の文字位置情報を読み出すインデックス検索手段と、
前記インデックス検索手段の結果から前記検索条件文字
列の前記全文データベースにおける出現位置を判定する
位置判定手段を備えたことを特徴とする全文データベー
ス検索装置。
【請求項３】前記Ｎ文字組の出現した文脈として該Ｎ文
字組の直前のＳ文字と直後のＴ文字を用い、前記文脈分
類手段は前記Ｓ文字分の文字コードと前記Ｔ文字分の文
字コードとから予め定めた上限値以内の分類番号に対応
付けるようにした請求項１記載の全文インデックス作成
装置。
【請求項４】前記Ｎ文字組の文脈として該Ｎ文字組の直
前のＳ文字と直後のＴ文字を用い、前記文脈分類手段は
前記Ｓ文字分の文字コードと前記Ｔ文字分の文字コード
とから予め定めた上限値以内の分類番号に対応付けるよ
うにした請求項２記載の全文データベース検索装置。
【請求項５】前記Ｎ文字組の字種（漢字・平仮名・片仮
名など）に応じて前記上限値を定めるようにした請求項
３記載の全文インデックス装置。
【請求項６】前記Ｎ文字組の字種（漢字・平仮名・片仮
名など）に応じて前記上限値を定めるようにした請求項
４記載の全文データベース装置。
【請求項７】前記全文データベースにおけるＮ文字組の
出現頻度に応じて各Ｎ文字組に個別に前記上限値を定め
るようにした請求項３記載の全文インデックス装置。
【請求項８】前記全文データベースにおけるＮ文字組の
出現頻度に応じて各Ｎ文字組に個別に前記上限値を定め
るようにした請求項４記載の全文データベース検索装
置。
【請求項９】前記インデックス登録手段は、文字位置情
報の並びについて、各々の直前の文字位置情報との差分
を下位からｅビットずつに分割し、上位側の全ｅビット
が０になるまでの範囲を文字位置情報の区切りフラグ１
ビットを加えた（ｅ＋１）ビット単位で表現することに
より、圧縮して格納するようにした請求項１記載の全文
インデックス作成装置。