JP3333549B2

JP3333549B2 - 文書検索方式

Info

Publication number: JP3333549B2
Application number: JP14326092A
Authority: JP
Inventors: 雅二郎岩崎
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1992-03-24
Filing date: 1992-05-07
Publication date: 2002-10-15
Anticipated expiration: 2017-10-15
Also published as: JPH05324722A

Description

【発明の詳細な説明】

【０００１】

【技術分野】本発明は、文書検索方式に関し、より詳細
には、処理時間が短く、かつ、検索に利用する文字成分
表を小さく抑えて、全文書に対して文字列検索する文書
検索方式に関する。

【０００２】

【従来技術】「大規模文書データベース用テキストサー
チマシンの開発」（1991 情報学シンポジウム講演論文
集）で記載されているように、従来方法では、文書ファ
イルとは別に、各文書にどの文字が含まれるかを示す文
字成分表を有している。検索時には検索文字列中の各文
字を含む文書を文字成分表より探す。しかし、検索文字
列及び文書を文字の列としてではなく、検索文字列の各
文字が独立に文書中に存在する文書だけを抽出するの
で、検索文字列を含まない文書も抽出する。また、従来
技術の文字単位の文字成分表のみを利用した文字列検索
では、検索文字列を含まない文書を多数検索してしま
い、検索精度が低いという問題点があり、また、従来技
術の文字成分表は、すべての２バイトコードの文字に対
してその文字が文書に存在するか否かを示すので、文字
成分表が巨大になるという問題点がある。

【０００３】

【目的】本発明は、上述のごとき実情に鑑みなされたも
ので、文字列検索において利用する文字成分表を小さく
抑えつつ、検索精度を上げ、かつ、高速な文書登録がで
きるようにした文書検索方式を提供することを目的とし
てなされたものである。

【０００４】

【構成】本発明は、上記目的を達成するために、（１）
大量の文書データを保持し、入力装置から入力された検
索文字列を含む文書を検索し、出力装置により検索した
文書を出力する文書検索装置において、文書登録時に、
文書より各文字コード成分である１文字成分及び隣接文
字から抽出したビット列成分である隣接文字成分を抽出
する抽出手段と、各文書がそれぞれの成分を含むか否か
を示す１文字成分表及び隣接文字成分表を生成する生成
手段と、検索時には、検索文字列から１文字成分及び隣
接文字成分を抽出してこれらの成分により各文字成分表
を引き文書を検索する検索手段とを有すること、更に
は、（２）前記文字成分表において、文字種ごとに文字
成分表を持ち、検索時の検索文字列の隣接文字成分を抽
出する時に、文字種を判別し対応する文字種の隣接文字
成分表を引くこと、更には、（３）前記文字成分表を構
成する隣接文字成分抽出時に、文字種を判別できる上位
ビットを抽出することにより、文字種ごとに文字成分の
範囲が限定され文字種ごとの隣接文字成分表を小さく抑
えること、更には、（４）前記文字成分表において、文
書に出現する頻度により文字種ごとに隣接する文字から
抽出するビット数を変えて隣接文字成分表を作成し、検
索すること、更には、（５）登録されている文書に出現
する文字コードと前記文字成分表へのアドレスとを登録
したインデックステーブルをもち、前記文字成分表の文
字コードに対するエントリ数を、このインデックステー
ブルに登録された文字コードの個数とすることにより、
登録文書に出現しない文字の文字成分表のエントリをも
たないようにすること、更には、（６）前記文字成分表
を圧縮し、検索時に必要なレコードを伸長し利用するこ
と、更には、（７）前記の文字成分表において、文書を
文字成分表の最後に追加する場合に限り高速に文書を登
録するために、文字成分表の最後尾のデータに関する情
報をもち、最後尾のデータのみを更新すること、或い
は、（８）大量の文書データを保持し、入力装置から入
力された検索文字列を含む文書を検索し、出力装置によ
り検索した文書を出力する文書検索装置において、文書
登録時に、文書より各文字コード成分である１文字成分
及び隣接文字から抽出したビット列成分である隣接文字
成分を抽出する抽出手段と、各文書がそれぞれの成分を
含むか否かを示す１文字成分表及び隣接文字成分表を生
成する生成手段と、検索時には、検索文字列から１文字
成分及び隣接文字成分を抽出してこれらの成分により各
文字成分表を引き文書を検索する検索手段とから成り、
前記文字成分表を小型にするために文字種ごとに文字成
分表を生成し、文書中での各文字種ごとの出現頻度に合
わせて適切なデータ構造とすること、更には、（９）前
記（８）において、前記文字種ごとの隣接文字成分表に
おいて、隣接する文字が異なる場合には、文字種ごとの
隣接文字成分表とは別の隣接成分表を利用すること、更
には、（１０）前記（８）において、前記文字成分の有
無を示すために要素が０と１から構成される文字成分表
において、要素の出現が極めて偏っている場合に効果的
に圧縮できることを特徴としたものである。以下、本発
明の実施例に基づいて説明する。

【０００５】図１は、本発明による文書検索方式の一実
施例を説明するための構成図で、図中、１は入力部、２
は処理部、３は文字列入力処理部、４は文書検索処理
部、５は文書出力処理部、６は文書登録処理部、７はデ
ータ部、８は文字成分表、９は出力部、１０は文書デー
タである。入力部１に入力された検索文字列は、処理部
２の文書列入力処理３で処理する。文書検索処理部４に
おいて、データ部７の文字成分表８を利用して文字列を
含むと思われる文書を検索する。そして、検索した文書
に対応する文書データ１０を文書出力処理５により出力
部９に出力する。文書登録処理では、登録する文書を文
書データ１０に登録し、文書データより文字成分を抽出
し、文字成分表８に登録する。

【０００６】検索文字列を文書から検索する場合には、
通常、すべての文書データ１０の各文字と検索文字列を
照合する。しかし、大量の文書がある場合、すべての文
書データと検索文字列を照合する処理は極めて時間を要
する。したがって、従来方法では、文字成分表を利用し
検索対象の文書を検索する。しかし、文字成分表を利用
した場合には、検索文字列の各文字が文書中にばらばら
に出現する文書も検索してしまい検索精度が低い。本発
明では検索精度を上げるために、文字成分表として、文
字成分が文書中に存在するか否かを示す１文字成分表及
び文書をビット列として扱い、隣接する文字から抽出し
たあるビット列が文書中に存在するか否かを示す隣接文
字成分表を利用して文書を検索する。

【０００７】対象文書は日本語文書とし、２バイトコー
ドであるＥＵＣコードのテキストデータとする。文書を
データ部に登録する時には、図２に示すように、１文字
成分及び隣接文字成分を抽出し、文字成分表を作成す
る。１文字成分は各文字の２バイトコードとし、隣接文
字成分は隣接する文字のビット成分を適当に抽出したビ
ット列で、この図２では隣接する文字の上位１バイトを
合わせて２バイトとしている。このようにして得られた
文字成分及び隣接文字成分が各文書に存在するか否かを
０と１で示す。図３に成分表を示す。図３では、０００
２（１６進）のビット列は文書１，４，５，６には存在
せず、文書２，３には存在することを意味する。文書登
録時に上記方法により文書から文字成分を抽出し、各文
字成分テーブルに加える。

【０００８】隣接文字成分表は各文字成分の上位１バイ
トのみを基本的に利用しているので、検索文字列とは異
なる隣接文字でも上位バイトが一致する隣接文字を含む
文書を検索する場合がある。特にひらがな及びカタカナ
は頻繁に出現するので、検索時に文字種を考慮しない場
合には、検索の精度が低い。検索時に検索文字列の文字
種によって異なる隣接文字成分表を利用することによっ
て、ひらがななどの頻繁に文書に出現する文字種の影響
を受けず、検索精度を上げることができる。

【０００９】また、下位１バイトを隣接文字成分とした
場合には、文字種ごとに２¹⁶（漢字コードはすべてのビ
ットを利用していないので、厳密には２¹⁴程度）のエン
トリが必要になる。しかし、本発明では、上位１バイト
を隣接文字成分として抽出する。上位１バイトは文字種
を判定でき、しかも文字種によりコードの範囲が限定さ
れるので、各文字成分表は文字種ごとのコード範囲に比
例したサイズとなる。ただし、隣接する文字の文字種が
異なる場合には、漢字の隣接文字成分表を利用する。し
たがって、漢字以外の各隣接文字成分表のサイズは、隣
接文字成分として下位１バイトを利用した場合に比べ、
はるかに小さく抑えることが可能である。

【００１０】また、ひらがなやカタカナなど文書中に頻
繁に出現する文字種は検索精度が低いので、検索精度を
上げるために、隣接文字成分として抽出するビット数は
多くする。各文字種ごとの隣接文字成分の取り得る範囲
を図４に示す。ひらがなやカタカナは文字コードの上位
１バイトだけでなく、それぞれ下位１バイトの上位３ビ
ットまたは２ビットを加え、全２２ビットまたは全２０
ビットから構成される。また、隣接する文字種が異なる
場合には漢字の隣接文字成分表を利用するので、漢字の
隣接文字成分の範囲は文字コードの全範囲となる。

【００１１】検索時には、指定された検索文字列を前記
の文書から文字成分を抽出する処理と同様の処理をす
る。検索文字列が「検索」である場合について、以下に
検索時の処理の手順を示す。．図６のように「検索」を文字列成分と隣接文字成分
に分解する。．各文字列成分と各隣接文字成分により、それぞれ１
文字成分表及び隣接文字成分表から文書集合を得る。．前記文書集合のＡＮＤ集合を求め、これを検索結果
とする。

【００１２】１文字成分表及び隣接文字成分表は、（文
字コード数）×（登録文書数ビットの大きさ）となり極
めて巨大になる。しかし、第二水準漢字コードや特殊文
字は通常ほとんど使われないので、インデックステーブ
ルを利用し、使われている漢字コードのみの表を持つこ
とによって表の大きさを小さく抑えている。図５に２バ
イトコード毎のインデックステーブルとそれに対応する
固定長ブロックのデータブロックとの関係を示す。図中
の各フィールドの値は以下のとおりである。・ブロックポインタ：文字成分に対応する成分表のデー
タをもつブロックの先頭アドレス。・ブロック長：固定長ブロックのうち有効なブロックの
バイト長。・ブロックネキストポインタ：データが入りきらない場
合に、次の成分テーブルをもつブロックの先頭アドレ
ス。

【００１３】図５の例では、検索文字列より得られた文
字成分（１６進）の場合、まず、インデックステーブル
をａｌａｌで引きブロックポインタを得る。このブロッ
クポインタで示されるブロックをデータブロックより得
て、ブロックからデータを得る。この例ではデータが１
ブロックに収まらないので、ネキストブロックより次の
ブロックを得る。１ブロック目のデータと２ブロック目
のデータを連結し成分表のデータを生成する。さらに、
（隣接）文字成分表を小さくするために、各漢字コード
に対するテーブルを圧縮している。表のほとんどの成分
は０なので、０成分のみを圧縮する。その圧縮前の表と
圧縮後の表を図７に示す。圧縮後の表の最上位１ビット
は下位７ビットの意味を決定する。

【００１４】つまり、・最上位ビット＝０：下位７ビットの値Ｘは、（Ｘ）×
（７ビット０）が連続すること。・最上位ビット＝１：下位７ビットはそのまま７ビット
列。である。したがって、０が連続する部分が圧縮され、１
が出現する部分はビット列のままとなる。これにより、
１が極めて多く圧縮効果が最悪の場合でも、元のデータ
長の８／７にしかならず、通常０の部分がかなり多いの
で効率よく圧縮することが可能である。図７の例の圧縮
後のデータでは、１バイト目の１ビット目が０であるか
ら、次の７ビットは０の個数を示すことがわかる。７ビ
ットの値は１であるから、１×７ビット０が連続するこ
とがわかる。２バイト目の１ビット目は１であるから、
次の７ビットはビット列だとわかる。よってそのまま０
０１１０００が値となる。

【００１５】また、文書を文字成分表に登録する時に、
データブロックがリスト構造になっているために、ファ
イルのリードライトにかなり時間を要する。さらに、文
字成分表が圧縮されている場合には圧縮伸長処理に時間
を要する。そこで、文字成分表の最後に追加する場合の
み高速に処理が可能なように、インデックステーブル
は、図８で示されるフィールドを有する。各フィールド
の意味は以下のとおりである。・ラストブロックポインタ：リンクしている最後のブロ
ック。・ラスト文書ＩＤ：表の最後尾の１バイトが表す文書Ｉ
Ｄ。

【００１６】登録する文書がラスト文書ＩＤで示される
文書ＩＤより大きい場合に限り、次に示す手順により高
速に文書登録可能である。．ラストブロックポインタで示される最後のブロック
を得る。．最後のブロックのブロック長より最後尾の１バイト
の成分表データを得る。．圧縮した文字成分表を利用している場合には、最後
尾の一バイトを伸長する。．インデックステーブルのラスト文書ＩＤにより成分
表データに文書を登録する。．圧縮した文字成分表を利用している場合には、成分
表データを圧縮する。．データブロックに成分表データを書く。．インデックステーブルの内容を更新する。

【００１７】次に、本発明による文書検索方式の他の実
施例について説明する。構成図は、図１と同様である。
対象文書は日本語文書とし、２バイトコードであるＥＵ
Ｃコードのテキストデータとする。文書をデータ部に登
録する時には、図９に示すように、１文字成分及び隣接
文字成分を抽出し、文字成分表を作成する。１文字成分
は各文字の２バイトコードとし、隣接文字成分は隣接す
る文字のビット成分を適当に抽出したビット列で、この
図では隣接する文字の下位１バイトを合わせて２バイト
としている。上記方法で得られた文字成分及び隣接文字
成分に対して、それぞれ１文字成分表及び隣接文字成分
表が生成される。成分表は、各１文字成分及び隣接文字
成分が各文書に存在するか否かを０と１で示す。成分表
は図３と同じである。図では、０００２（１６進）のビ
ット列は文書１、４、５、６には存在せず、文書２、３
には存在することを意味する。文書登録時に上記方法に
より文書から文字成分を抽出し各文字成分テーブルに加
える。検索時には検索文字列から１文字成分と隣接文字
成分を抽出し、それぞれ文字成分表から各成分を含む文
書を検索する。

【００１８】仮に隣接文字成分表として各文字成分の下
位１バイトのみを利用した場合には検索文字列とは異な
る隣接文字でも下位バイトが一致する隣接文字を含む文
書を検索する場合がある。ひらがな及びカタカナは頻繁
に出現するので、検索の精度が低くなる。また漢字は文
書中の出現頻度が低いので本来検索精度が高い文字種で
あるにも関わらず、検索精度が低い他の文字種の影響を
受け検索精度が低くなってしまう。そこで、文字種ごと
に異なる隣接文字成分表を作成し、検索時に検索文字列
の文字種ごとに異なる隣接文字成分表を利用することに
よって、ひらがななどの頻繁に文書に出現する文字種の
影響を受けず、検索精度を上げることができる。

【００１９】図１０は、検索文字列の文字種が異なる場
合の隣接成分の抽出の様子を示す図である。ひらがなや
カタカナなどは各文字種の文字コードの範囲が狭いの
で、抽出するビットが少なくても十分な検索精度が得ら
れる。図中では、第一水準漢字から下位８ビット、カタ
カナから下位３ビット抽出して隣接文字成分としてい
る。異なる文字種が隣接している場合には、文字種ごと
の隣接文字成分表とは別の異種隣接文字成分表を利用す
る。他の隣接文字成分に比べ出現する頻度が少ないの
で、この図では下位６ビットを抽出して隣接文字成分と
している。各文字種ごとの隣接成分の抽出ビット数及び
取り得る範囲は以下の表１のようになる。

【００２０】

【表１】

【００２１】検索時には、前記の文書から文字成分を抽
出する処理と同様に指定された検索文字列を処理をす
る。検索文字列が「検索」である場合について、図１１
に示すとともに以下に検索時の処理手順を示す。．検索文字列から文字種を判別して一文字成分、隣接
文字成分を抽出する。．抽出した文字成分について、それぞれ１文字成分表
及び隣接文字成分表から文書集合を得る。．得られた文書集合のＡＮＤ集合を求め、これを検索
結果とする。

【００２２】

【表２】

【００２３】文字種により出現頻度が大きくなるので、
表２のように文字種ごとに文字成分表のデータ構造及び
圧縮の方法を文字ごとに変えることによって、文字成分
表の大きさを抑えることができる。出現頻度により次の
３種類のデータ構造とする。０圧縮文字成分の出現頻度が極めて低い（成分表で０要素が１
要素より圧倒的に多い）ので０要素のみを圧縮する。１圧縮文字成分の出現頻度が極めて高い（成分表で１要素が０
要素より圧倒的に多い）ので１要素のみを圧縮する。一次元配列文字成分がほとんど出現しない（１要素がほとんど出現
しない）ので表構造ではなく文書ＩＤの一次元配列とす
る。

【００２４】したがって、文字成分表の全構成は次のよ
うになる。上記の０圧縮の圧縮前の表と圧縮後の表を図
１２に示す（以下のカッコ内は１圧縮の場合である）。
圧縮後の表の上位１ビット又は２ビットが下位ビットの
意味を決定する。つまり・上位２ビット＝００：下位６ビットの値ＸはＸ×７ビ
ット０（１）が連続することを意味する。・上位２ビット＝０１：下位６ビットの値ＸはＸ×６２
７２ビット０（１）が連続することを意味する（ここで
は６２７２としたが、圧縮の効果が上がるように任意に
設定できる）。・最上位１ビット＝１：下位７ビットはそのまま７ビッ
ト列である。である。したがって、０（１）が連続する部分が圧縮さ
れ、１（０）が出現する部分はビット列のままとなる。
これにより、１（０）が極めて多く圧縮効果が最悪の場
合でも、元のデータ長の８／７にしかならず、通常０
（１）の部分がかなり多いので効率よく圧縮することが
可能である。図１２の例の圧縮後のデータでは、１バイ
ト目の１ビット目が０であるから、次の７ビットは０の
個数を示すことがわかる。７ビットの値は１であるか
ら、１×７ビット０が連続することがわかる。２バイト
目の１ビット目は１であるから、次の７ビットはビット
列だとわかる。したがって、そのまま００１１０００が
値となる。

【００２５】

【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。（１）従来のように各文字が含まれているか否かを示す
１文字成分表のみを利用した場合と比較して、１文字成
分表だけでなく文字種ごとに隣接文字成分として抽出す
るビット数を変えた隣接文字成分から生成した隣接文字
成分表も利用することにより、検索精度が高い。（２）従来技術の１文字成分表は、（文字コード）×
（登録文書数ビットのサイズ）となり巨大な表となる
が、インデックステーブルの利用や文字成分表に適した
圧縮アルゴリズムにより、小型な文字成分表にすること
ができる。（３）文書登録時に文字成分表の最後に追加する場合に
限り、成分表の最後尾のデータに関する情報を持ち、最
後尾のデータのみを更新することにより、ファイルへの
アクセスが少なく高速な文書登録が可能である。（４）従来の文字成分表を表形式にすると極めてサイズ
が大きくなるので、文字種による文書の出現頻度に着目
して、文字種ごとにデータの構成を配列及び表形式にし
たり圧縮の方法を変えることによって文字成分表を小型
にすることができる。（５）本発明の圧縮アルゴリズムによって大量の文書に
対する文字成分表であっても効果的に圧縮できる。

【図面の簡単な説明】

【図１】本発明による文書検索方式の一実施例を説明
するための構成図である。

【図２】本発明の文字成分抽出を示す図である。

【図３】本発明の文字成分表を示す図である。

【図４】本発明の各文字種ごとの隣接文字成分の範囲
を示す図である。

【図５】本発明の成分表のデータ構造を示す図であ
る。

【図６】本発明の検索文字列からの文字成分抽出を示
す図である。

【図７】本発明の圧縮アルゴリズムを示す図である。

【図８】本発明の文書登録のデータ構造を示す図であ
る。

【図９】本発明の他の文字成分抽出を示す図である。

【図１０】本発明の異種の隣接文字成分抽出を示す図
である。

【図１１】本発明の検索文字列からの文字分抽出を示
す図である。

【図１２】本発明の圧縮アルゴリズムを示す図であ
る。

【符号の説明】

１…入力部、２…処理部、３…文字列入力処理部、４…
文書検索処理部、５…文書出力処理部、６…文書登録処
理部、７…データ部、８…文字成分表、９…出力部、１
０…文書データ。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭59−112339（ＪＰ，Ａ) ＨｉｄｅｏＦｕｊｉｉ，Ａ．ＣｏｍｐａｒｉｓｏｎｏｆＩｎｄｅｘｉｎｇＴｅｃｈｎｉｑｕｅｓｆｏｒＪａｐａｎｅｓｅＴｅｘｔＲｅｔｒｉｅｖａｌ，ＡＣＭ−ＳＩＧＩＲ，1993 年，ｐ．237−246 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30

Claims

(57)【特許請求の範囲】

【請求項１】大量の文書データを保持し、入力装置か
ら入力された検索文字列を含む文書を検索し、出力装置
により検索した文書を出力する文書検索装置において、
文書登録時に、文書より各文字コード成分である１文字
成分及び隣接文字から抽出したビット列成分である隣接
文字成分を抽出する抽出手段と、各文書がそれぞれの成
分を含むか否かを示す１文字成分表及び隣接文字成分表
を生成する生成手段と、検索時には、検索文字列から１
文字成分及び隣接文字成分を抽出してこれらの成分によ
り各文字成分表を引き文書を検索する検索手段とを有す
ることを特徴とする文書検索方式。
【請求項２】前記文字成分表において、文字種ごとに
文字成分表を持ち、検索時の検索文字列の隣接文字成分
を抽出する時に、文字種を判別し対応する文字種の隣接
文字成分表を引くことを特徴とする請求項１記載の文書
検索方式。
【請求項３】前記文字成分表を構成する隣接文字成分
抽出時に、文字種を判別できる上位ビットを抽出するこ
とにより、文字種ごとに文字成分の範囲が限定され文字
種ごとの隣接文字成分表を小さく抑えることを特徴とす
る請求項１記載の文書検索方式。
【請求項４】前記文字成分表において、文書に出現す
る頻度により文字種ごとに隣接する文字から抽出するビ
ット数を変えて隣接文字成分表を作成し、検索すること
を特徴とする請求項１記載の文書検索方式。
【請求項５】登録されている文書に出現する文字コー
ドと前記文字成分表へのアドレスとを登録したインデッ
クステーブルをもち、前記文字成分表の文字コードに対
するエントリ数を、このインデックステーブルに登録さ
れた文字コードの個数とすることにより、登録文書に出
現しない文字の文字成分表のエントリをもたないように
することを特徴とする請求項１記載の文書検索方式。
【請求項６】前記文字成分表を圧縮し、検索時に必要
なレコードを伸長し利用することを特徴とする請求項１
記載の文書検索方式。
【請求項７】前記の文字成分表において、文書を文字
成分表の最後に追加する場合に限り高速に文書を登録す
るために、文字成分表の最後尾のデータに関する情報を
もち、最後尾のデータのみを更新することを特徴とする
請求項１記載の文書検索方式。
【請求項８】大量の文書データを保持し、入力装置か
ら入力された検索文字列を含む文書を検索し、出力装置
により検索した文書を出力する文書検索装置において、
文書登録時に、文書より各文字コード成分である１文字
成分及び隣接文字から抽出したビット列成分である隣接
文字成分を抽出する抽出手段と、各文書がそれぞれの成
分を含むか否かを示す１文字成分表及び隣接文字成分表
を生成する生成手段と、検索時には、検索文字列から１
文字成分及び隣接文字成分を抽出してこれらの成分によ
り各文字成分表を引き文書を検索する検索手段とから成
り、前記文字成分表を小型にするために文字種ごとに文
字成分表を生成し、文書中での各文字種ごとの出現頻度
に合わせて適切なデータ構造とすることを特徴とする文
書検索方式。
【請求項９】前記文字種ごとの隣接文字成分表におい
て、隣接する文字が異なる場合には、文字種ごとの隣接
文字成分表とは別の隣接成分表を利用することを特徴と
する請求項８記載の文書検索方式。
【請求項１０】前記文字成分の有無を示すために要素
が０と１から構成される文字成分表において、要素の出
現が極めて偏っている場合に効果的に圧縮できることを
特徴とする請求項８記載の文書検索方式。