JPH06309360A

JPH06309360A - 否定論理条件の処理に適したフルテキストサーチ方法

Info

Publication number: JPH06309360A
Application number: JP5094082A
Authority: JP
Inventors: Katsumi Tada; 勝己多田; Kanji Kato; 寛次加藤; Hisamitsu Kawaguchi; 川口　　久光; Atsushi Hatakeyama; 敦畠山; Satoshi Asakawa; 悟志浅川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-04-21
Filing date: 1993-04-21
Publication date: 1994-11-04

Abstract

(57)【要約】【目的】ＮＯＴ条件で指定された検索処理を行う場合
にも、階層型プリサーチの課程で検索タームを含まない
文書を削除していき、等価的に高速なフルテキストサー
チを実現することにある。【構成】本発明は、本文登録ステップ、凝縮本文作成
ステップ、および文字成分表作成ステップの他、検索タ
ームを文字レベルで分解し、各検索タームの全ての文字
を含む文書のみを抽出する文字成分表サーチのステッ
プ、文字成分表サーチによる部分集合に対して凝縮本文
および本文のうち少なくともいずれか一方を参照し、各
検索タームを含む文書を抽出する凝縮本文および本文サ
ーチのステップ、本文および凝縮本文サーチによる文書
集合に対して、集合間の論理演算を行い、与えられた検
索条件式を満たすもののみを抽出する論理演算処理のス
テップを備えたものである。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書データベースを文
字列を指定して文書の全文を対象として探索するフルテ
キストサーチ方法に係わり、特に複雑な論理条件検索が
指定された場合の全文検索処理を等価的に高速化するた
めの検索方法に関する。

【０００２】

【従来の技術】情報処理システムの分野では、文字列デ
ータによって構成される文書（以後、テキストと呼ぶ）
データベースの中から、検索者が指定したある特定の文
字列（以後、検索タームと呼ぶ）を含む文書を探し出す
ことが一つの重要な処理となっている。このような文書
検索システムを実現する方式として、登録時に文字コー
ド化したテキストをそのまま計算機に入力しデータベー
ス化し、検索時にはテキストデータベース内の全ての文
書の内容を読んで与えられた検索タームを含む文書を探
し出すフルテキストサーチが提案されている。

【０００３】このフルテキストサーチ方式は、「情報処
理学会研究報告ｖｏｌ．８９，ｎｏ．６６情報学基
礎１４−７テキストデータベース管理システムＳＩＧ
ＭＡとその応用（１９８９.７.２７）」の第２節冒頭で
述べられているように、テキストファイル全体を先頭か
ら一文字ずつ走査することを大きな特徴としている。し
かし、この方式を大規模なデータベースに適用した場合
には、処理時間が非常に長くなってしまうという問題が
あった。すなわち、同文献第２節中にみられるように、
汎用の大型計算機を用いても、２ＭＢ／ｓ程度の検索処
理速度しか実現できない。そのため、オフィス等の実用
規模のデータベース容量である数百メガバイトのデータ
ベースを検索した場合には十分な検索レスポンスが得ら
れないという問題があった。

【０００４】この問題を解決するために特開平３−１７
４６５２号公報と特開平４−２７４５５７号公報が提案
されている。

【０００５】これらの従来例では、検索対象となる文書
をデータベースに登録するときに自動的に二つの補助フ
ァイル、すなわち本文の内容を単語レベルで圧縮した凝
縮本文と文字レベルで圧縮した文字成分表を生成する。
そして、検索時にはこれらの補助ファイルを用いて、入
力された検索タームに関連しない文書を文字レベルと単
語レベルで階層的にふるい落し、無用の本文サーチを省
くという処理を行うことにより検索速度の高速化を実現
している。

【０００６】はじめに、本従来例の構成について図２を
用いて説明する。

【０００７】本従来例における文書検索装置は、ディス
プレイ１００、キーボード１０１、中央制御装置ＣＰＵ
１０２、文字成分表１０５、凝縮本文１０４、及び本文
１０３格納用ファイル１１０、フロッピディスクドライ
バ１０６、主メモリ２００から構成される。

【０００８】また、主メモリ２００には、本文登録プロ
グラム２０１、凝縮本文作成登録プログラム２０２、文
字成分表作成登録プログラム２０３、文字成分表サーチ
プログラム２０４、凝縮本文サーチプログラム２０５、
本文サーチプログラム２０６、階層型プリサーチ制御プ
ログラム２０７が格納されるとともに、データエリア２
０８が確保されている。以上が本従来例における文書検
索装置の構成である。

【０００９】次に、本従来例の動作の概要について説明
する。はじめに、登録時の動作について図３を用いて説
明する。まず、はじめに登録すべき文書が入力される
と、まずそのまま「本文」として格納する。

【００１０】次に、この「本文」の中から文字種（漢
字、ひらがな、カタカナ、英字等）ごとに文字列を分割
し、繰り返し現れる言葉の重複を排除することにより
「凝縮本文」を作成する。すなわち、本図中の文書１の
場合には、「検索」が重複語として切り捨てられ、「あ
いまい」と「検索技術」及び「のための」が「凝縮本
文」として残ることになる。

【００１１】また、「本文」から「文字成分表」を作成
する。ここでは、「本文」に現われる文字を１ビットの
情報で表す。そして、「本文」にその文字がある場合に
は‘１’を、存在しない場合には‘０’を文字成分表の
該当文字部分に設定する。すなわち、文書１の例では、
「あ」と「い」は本文中に現われるのでそれぞれ‘１’
を、また「う」は現われないので‘０’を設定する。
「検」と「索」も同様にそれぞれ‘１’を設定する。

【００１２】このようにして、文書の登録時に「凝縮本
文」と「文字成分表」を自動的に作成し、階層型プリサ
ーチの準備をしておく。

【００１３】検索時の処理フローについて図４に示す。
本図の例では “検索” ａｎｄ “理解” すなわち、「“検索”と“理解”が同一文書中に現れる
ものを探せ」という条件式で検索した例を示す。

【００１４】まず、文字成分表サーチでは、与えられた
検索ターム毎にそのタームを構成する文字を同時に含む
文書を探し、その後各検索ターム間でＡＮＤ条件を満た
す文書を出力する処理を行う。

【００１５】すなわち、この例では「（‘検’ＡＮＤ
‘索’）ＡＮＤ（‘理’ＡＮＤ‘解’）」従って、
「‘検’ＡＮＤ‘索’ＡＮＤ‘理’ＡＮＤ‘解’」つま
り、上記の４文字を同時に含む文書のみを抽出する（図
５）。

【００１６】次に、この文字成分表サーチの結果絞り込
まれた文書に対して凝縮本文をサーチし、指定されたキ
ーワードが単語として現われる文書だけを抽出する。す
なわち、“検索”と“理解”を両方同時に含む文書を検
索する（図６）。以上が、本従来例の動作の概要であ
る。

【００１７】このように、本従来例では入力された検索
タームに関連しない文書を文字レベルと単語レベルで階
層的にふるい落すことにより、大規模な文書データベー
スでも実用的な応答速度で、フルテキストサーチを行う
ことを可能としている。

【００１８】

【発明が解決しようとする課題】以上のように、本従来
例ではＡＮＤ条件またはＯＲ条件が指定された場合につ
いて、文字成分表と凝縮本文を用いた階層型プリサーチ
方式を用いることにより、等価的に検索処理を高速化す
る方法を提案している。

【００１９】しかし、本従来例にはＮＯＴ条件、すなわ
ち「“Ａ”という検索タームを含むが“Ｂ”という検索
タームは含まない文書を検索する」という条件が指定さ
れた場合については示されていない。

【００２０】本発明の目的は、ＮＯＴ検索時においても
階層型プリサーチ方式の課程で検索対象文書を絞り込ん
でいくことによって、等価的に高速なフルテキストサー
チを実現する方法を提供することである。

【００２１】

【課題を解決するための手段】上記課題を解決するため
に、以下の処理ステップを含むフルテキストサーチ方法
を用いる。

【００２２】（１）本文自体を格納する本文登録ステッ
プ、（２）格納した本文を単語レベルで部分文字列へ分
解し、分解した部分文字列間で相互に文字列の包含関係
を調べ、他の部分文字列に含まれる文字列を排除した部
分文字列の集合からなる凝縮本文を作成するステップ、
（３）本文中で用いられている文字を重複なく集めた文
字成分表を作成するステップ、（４）与えられた検索タ
ームを文字レベルで分解し、各検索タームを構成する全
ての文字を含む文書のみを抽出する文字成分表サーチの
ステップ、（５）文字成分表サーチによって形成される
部分集合に対して凝縮本文および本文のうち少なくとも
いずれか一方を参照し、与えられた各検索タームを含む
文書を抽出する凝縮本文および本文サーチのステップ、
（６）本文および凝縮本文サーチによって形成される文
書集合に対して、集合間の論理演算を行うことによっ
て、与えられた検索条件式を満たすもののみを抽出する
論理演算処理のステップ。

【００２３】

【作用】本発明によると、ＮＯＴ検索時においても文字
成分表サーチによる絞り込みを行った後、凝縮本文およ
び本文検索を行うことによって、文字成分表サーチの段
階で与えられた条件式を満たさない文書を検索漏れを生
じることなく切り捨て、検索対象となる凝縮本文および
本文の文書件数を少なくすることができる。すなわち、
検索処理時間に占める割合が高い凝縮本文および本文検
索処理時間を減らすことによって、全体の検索処理時間
を短縮することが可能となる。

【００２４】例えば、「本文中に“認識”という文字列
を含むが“音声”という文字を含まない文書を探せ」と
いう条件式が与えられた場合を例に、本発明による効果
を説明する。

【００２５】始めに、ＮＯＴ検索時には文字成分表を用
いた階層型プリサーチ方式を用いない場合について説明
する。

【００２６】本方式では、データベースに登録された全
文書に対して凝縮本文サーチを行う必要がある。そのた
め、本文に対する凝縮本文の圧縮率を３０％、また検索
処理速度を２ＭＢ／ｓと仮定すると５００ＭＢの本文を
サーチするのに５００×０.３／２＝７５秒掛かること
になる。

【００２７】次に、本発明による方法を用いた場合につ
いて説明する。本方式では、まず第一に文字成分表をサ
ーチすることにより“認”および“識”を同時に含む文
書を集合｛Ａ｝に抽出する。また、“音”および“声”
についても同様に、二つの文字を同時に含む文書を集合
｛Ｂ｝に抽出する。

【００２８】次に、文字成分表サーチによって抽出され
た集合｛Ａ｝と｛Ｂ｝に対して、それぞれ凝縮本文検索
を行う。すなわち、集合｛Ａ｝と｛Ｂ｝に対してそれぞ
れ“認識”と“音声”で凝縮本文検索を行い、検索結果
をそれぞれ集合｛Ｃ｝、｛Ｄ｝に格納する。

【００２９】そして最後に、集合｛Ｃ｝と、集合｛Ｄ｝
の補集合の間で論理積をとることによって、指定された
検索条件である「本文中に“認識”という文字列を含む
が“音声”という文字を含まない文書」の検索を行う。

【００３０】このように本発明による方法では、ＮＯＴ
条件で指定された検索条件に対しても予め文字成分表検
索によって絞られた文書集合に対してのみ凝縮本文検索
を行う。つまり、典型的な場合として文字成分表でデー
タベース全件の１０％に絞り込めたとすると、文字成分
表の容量はデータベース全体からみると無視できるほど
小さいので、検索すべき凝縮本文の容量は５００×０.
３×０.１＝１５ＭＢとなり、２ＭＢ／ｓの検索速度で
も、約８秒で検索処理を終了できることになる。すなわ
ち、従来の方式に比べ検索速度を約１０倍高速化するこ
と可能になる。

【００３１】

【実施例】本発明の構成を図７に示す。本図は図２に示
した従来方式の構成図中の主メモリ２００内に、文字成
分表検索結果格納用データエリア２０９−１〜ｎ、本文
および凝縮本文検索結果格納用データエリア２１０−１
〜ｎ、および集合間論理演算プログラム２１１を付加し
たものである。

【００３２】次に、本発明の第一の実施例における処理
の概要について説明する。なお、本実施例における登録
時の処理は従来例と同じであるため説明を省略する。す
なわち、検索時の処理について以下に例を挙げて説明す
る。本例では

【００３３】

【数１】 “認識”ａｎｄ｛ｎｏｔ“音声”｝ ……（数１）すなわち、「“認識”という文字列を含むが“音声”と
いう文字列を含まない文書を探せ」という条件式で検索
した場合を例に検索処理の概要を説明する。

【００３４】本発明の第一の実施例における処理フロー
を図１を用いて説明する。

【００３５】はじめに、文字成分表サーチステップの動
作について説明する。

【００３６】文字成分表サーチステップでは“認”およ
び“識”で文字成分表を参照し、“認”と“識”を同時
に含む文書を部分集合｛Ａ｝として格納する（図８）。
次に“音”および“声”に対しても同様に文字成分表を
参照し、“音”と“声”を同時に含む文書を部分集合
｛Ｂ｝として格納する（図９）。以上が文字成分表サー
チステップの動作である。

【００３７】次に、凝縮本文および本文サーチステップ
の動作について説明する。凝縮本文および本文サーチス
テップでは、まず文字成分表サーチによって形成された
部分集合｛Ａ｝に対して“認識”という検索タームで凝
縮本文検索を行い、“認識”という文字を含む文書集合
を凝縮本文検索結果集合｛Ｃ｝として格納する（図１
０）。また、部分集合｛Ｂ｝に対しては“音声”という
検索タームで凝縮本文検索を行い、この検索結果を凝縮
本文検索結果集合｛Ｄ｝として格納する（図１１）。以
上が凝縮本文および本文サーチステップの動作である。

【００３８】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された文書集合間で論理演算を行うこと
によって、与えられた検索条件式を満たすものだけを抽
出し検索結果として出力する。すなわち、本例では凝縮
本文および本文サーチステップで抽出された文書集合
｛Ｃ｝と文書集合｛Ｄ｝の補集合との論理積をとること
によって与えられた検索条件式である“認識”ａｎｄ
｛ｎｏｔ“音声”｝を満たす文書だけを抽出し検索結果
として出力する（図１２）。以上が、本実施例における
検索時の処理概要である。

【００３９】次に、具体的な検索処理例として実際にい
くつかの文書が登録されたデータベースを検索するとき
について図１３を用いて説明する。

【００４０】まず始めに、文字成分表サーチステップで
は“認”および“識”で文字成分表を参照し、“認”お
よび“識”を含む文書を部分集合｛Ａ｝として格納す
る。すなわち、文字成分表の“認”の列と“識”の列の
論理積が１になる文書だけを選びだす。つまり、本例で
は文書１および文書２が文字成分表検索結果集合｛Ａ｝
に格納される。また、“音”および“声”についても同
様に文字成分表を参照し、“音”および“声”を含む文
書を部分集合｛Ｂ｝として格納する。すなわち、文字成
分表の“音”の列と“声”の列の論理積が１になる文書
だけを選びだすことにより、文書１および文書４が文字
成分表検索結果集合｛Ｂ｝に格納される。

【００４１】次に、凝縮本文および本文サーチステップ
について説明する。本ステップでは、文字成分表サーチ
によって形成された部分集合｛Ａ｝に対して凝縮本文の
検索を行い、“認識”という文字を含む文書集合を抽出
し、凝縮本文検索結果集合｛Ｃ｝として格納する。すな
わち、本例では文書１および文書２が“認識”という文
字を含んでいるため凝縮本文検索結果集合｛Ｄ｝に文書
１および文書２を登録する。また、“音声”についても
同様に部分集合｛Ｂ｝に対して凝縮本文の検索を行い、
“音声”という文字を含む文書集合を抽出し、凝縮本文
検索結果集合｛Ｄ｝として格納する。すなわち、本例で
は文書１には“音声”という文字が含まれるが、文書４
には含まれないため凝縮本文検索結果集合｛Ｄ｝には文
書１のみが登録されることになる。

【００４２】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された各凝縮本文検索結果集合間で集合
間の論理演算を行うことによって、与えられた検索条件
式を満たす文書だけを抽出し検索結果として出力する。
すなわち、本例では凝縮本文および本文サーチステップ
で抽出された文書集合｛Ｃ｝と文書集合｛Ｄ｝の補集合
との論理積をとることによって文書２が、与えられた検
索条件式である“認識”ａｎｄ｛ｎｏｔ“音声”｝を満
たす検索結果として出力される。以上が本実施例におけ
る具体的な検索方法の例である。

【００４３】このように、本実施例ではＮＯＴ検索時に
おいても文字成分表を用いたプリサーチを行い、検索対
象となる凝縮本文および本文の文書件数を削減すること
により等価的に非常に高速なフルテキストサーチが実現
できることになる。

【００４４】すなわち、本例を用いて説明すると、従来
の検索方式ではデータベースに登録された全文書に対し
て凝縮本文検索を行う必要があった。しかし、本実施例
によると凝縮本文検索の対象となる文書は図８および図
９に示すように“認”と“識”による文字成分表検索結
果集合｛Ａ｝および“音”と“声”による文字成分表検
索結果集合｛Ｂ｝だけですむため、典型的な例をあげる
と凝縮本文検索対象となる文書の件数を約１０％に削減
することができる。つまり、検索速度を等価的に１０倍
高速化することができることになる。

【００４５】なお、本実施例では２つの検索タームから
なる検索条件式を入力した場合を例に説明したが、３つ
以上の検索タームからなる検索条件式を処理する場合に
ついても、ＮＯＴ検索で与えられる検索タームとＡＮＤ
条件検索で与えられる検索タームを分けてから、本実施
例に述べたように各検索タームに対して文字成分表を用
いた絞り込みを行い、その後、それぞれの検索タームを
含む文書集合を抽出し、それらの間で論理演算を行うこ
とにより非常に高速なフルテキストサーチが実現できる
ことが明らかである。

【００４６】また、本実施例では文字成分表を用いて文
字レベルで検索対象文書の絞り込みを行った後、凝縮本
文ないしは本文を検索することにより等価的に高速なフ
ルテキストサーチを実現する場合について例を挙げて説
明したが、ニューロ方式による学習ファイル、スーパ・
インポーズド・コーディングによるシグネチャ・ファイ
ルなど絞り込み検索用ファイルを用いて絞り込みを行う
検索方法一般についても、本実施例と同じ方法によって
等価的に高速なフルテキストサーチが実現できることも
明らかである。

【００４７】さらに、本実施例では文字成分表を用いて
文字レベルを検索対象文書の絞り込みを行った後、凝縮
本文を検索することによりある検索タームを含まない文
書のみを抽出する場合について例を挙げて説明したが、
凝縮本文を用いることなく検索対象文書の絞り込みを行
った後、直接本文を検索する場合においても等価的に高
速なフルテキストサーチを実現することができることも
明らかである。

【００４８】本発明の第一の実施例では、複数の検索タ
ームからなる検索条件式が与えられたとき、各検索ター
ムに対しそれぞれ別々に文字成分表を用いて絞り込みを
行うことによって等価的に検索速度を高速化する方式に
ついて説明した。しかし、本方式では、検索タームのう
ち一つでも出現頻度の高いものがあると文字成分表によ
る絞り込みが十分には行われず、あまり検索速度を高速
化できないという問題が生じる。つまり、本発明の第一
の実施例において“音”および“声”を同時に含む文書
が多く存在した場合、すなわち図９における文字成分表
検索結果集合｛Ｂ｝による絞り込み率が不十分な場合に
は凝縮本文検索の対象となる文書数が多くなり、あまり
検索速度を高速化することができないという問題があ
る。

【００４９】そこで、本発明の第二の実施例では、各検
索ターム間の関連を考慮して文字成分表を参照すること
によって、出現頻度の高い検索タームを含む検索条件に
対しても検索速度を高速化する方法について説明する。

【００５０】なお、文書登録時の動作については本発明
の第一の実施例と同じであるため説明を省略する。ここ
では、第一の実施例における検索条件と同じ条件式が入
力された場合、すなわち（数１）に示す検索条件式が入
力された場合を例に検索時処理の概要について例を挙げ
て説明する。

【００５１】本実施例における検索フローを図１４に示
す。まず第１に、文字成分表サーチステップについて説
明する。本ステップでは、“認”および“識”で文字成
分表を参照し“認”と“識”を同時に含む文書を部分集
合｛Ａ｝として格納する（図１５）。次に“音”および
“声”に対しても同様に文字成分表を参照し、“音”と
“声”を同時に含む文書を部分集合｛Ｂ｝として格納す
る（図１６）。そして、部分集合｛Ａ｝と部分集合
｛Ｂ｝の論理積をとることにより、部分集合｛Ｃ｝を作
成しこれを凝縮本文検索の対象となる集合とする（図１
７）。以上が文字成分表サーチステップの動作である。

【００５２】次に、凝縮本文および本文サーチステップ
の動作について説明する。凝縮本文および本文サーチス
テップでは、まず文字成分表サーチによって形成された
部分集合｛Ａ｝に対して“認識”という検索タームで凝
縮本文検索を行い、“認識”という文字を含む文書集合
を凝縮本文検索結果集合｛Ｄ｝として格納する（図１
８）。また、部分集合｛Ｃ｝に対しては“音声”という
検索タームで凝縮本文検索を行い、この検索結果を凝縮
本文検索結果集合｛Ｅ｝として格納する（図１９）。以
上が凝縮本文および本文サーチステップの動作である。

【００５３】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された文書集合間で論理演算を行うこと
によって、与えられた検索条件式を満たすものだけを抽
出し検索結果として出力する。すなわち、本例では凝縮
本文および本文サーチステップで抽出された文書集合
｛Ｄ｝と文書集合｛Ｅ｝の補集合との論理積をとること
によって、与えられた検索条件式である“認識”ａｎｄ
｛ｎｏｔ“音声”｝を満たす文書だけを抽出し検索結果
として出力する（図２０）。以上が、本実施例における
検索時の処理概要である。

【００５４】次に、具体的な検索処理例として、実際に
いくつかの文書が登録されたデータベースを検索すると
きについて図２１に例を挙げて説明する。

【００５５】まず始めに、文字成分表サーチステップで
は“認”および“識”で文字成分表を参照し、“認”お
よび“識”を含む文書を部分集合｛Ａ｝として格納す
る。つまり、本例では文書１および文書２が文字成分表
検索結果集合｛Ａ｝に格納される。また、“音”および
“声”についても同様に文字成分表を参照し、“音”お
よび“声”を含む文書、つまり本例では文書１および文
書４が部分集合｛Ｂ｝に格納される。そして、部分集合
｛Ａ｝と部分集合｛Ｂ｝の論理積をとることにより、部
分集合｛Ｃ｝＝｛Ａ｝ａｎｄ｛Ｂ｝を作成しこれを凝縮
本文検索の対象となる集合とする。すなわち、本例では
文書１のみが部分集合｛Ｃ｝に格納されることになる。

【００５６】次に、凝縮本文および本文サーチステップ
について説明する。本ステップでは、文字成分表サーチ
によって形成された部分集合｛Ａ｝に対して凝縮本文の
検索を行い、“認識”という文字を含む文書集合を抽出
し、凝縮本文検索結果集合｛Ｄ｝として格納する。すな
わち、本例では“認識”という文字は文書１および文書
２に含まれているため、凝縮本文検索結果集合｛Ｄ｝に
文書１および文書２を登録する。また、“音声”につい
ては部分集合｛Ｃ｝に対して凝縮本文の検索を行い、
“音声”という文字を含む文書集合を抽出し凝縮本文検
索結果集合｛Ｅ｝として格納する。すなわち、本例では
“音声”という文字は文書１に含まれているため凝縮本
文検索結果集合｛Ｅ｝に文書１が登録される。

【００５７】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された各凝縮本文検索結果集合間で集合
間の論理演算を行うことによって、与えられた検索条件
式を満たす文書だけを抽出し検索結果として出力する。
すなわち、本例では凝縮本文および本文サーチステップ
で抽出された文書集合｛Ｃ｝と文書集合｛Ｄ｝の補集合
との論理積をとることによって文書２が、与えられた検
索条件式である“認識”ａｎｄ｛ｎｏｔ“音声”｝を満
たす検索結果として出力される。以上が本実施例におけ
る具体的な検索方法の例である。

【００５８】このように、本発明の第一の実施例では、
図９の文字成分表検索結果集合｛Ｂ｝に対し“音声”で
凝縮本文検索を行う必要があったものを、本実施例では
図１７の文字成分表検索結果集合｛Ｃ｝の領域に削減す
ることができる。すなわち、図９からも分かるように
“音”および“声”を含む文書が多く存在した場合に
は、本発明の第一の実施例による検索方法では、文字成
分表によって検索対象となる文書数をあまり削減するこ
とができなかった。しかし、本実施例においては図１７
に示すように、さらに“認”および“識”を同時に含む
文書という条件で絞り込んでいるため、検索の対象とな
る文書数を削減することができ、ひいては検索速度をさ
らに高速化することができることになる。

【００５９】本発明の第二の実施例では、各検索ターム
間の関連を考慮して文字成分表を参照することによっ
て、出現頻度の高い検索タームを含む検索条件に対して
も検索速度を高速化する方法について説明した。

【００６０】しかし、本実施例では文字成分表の検索結
果のみによって検索の絞り込みを行うため階層プリサー
チによる絞り込みが不十分となり、検索速度があまり高
速化されないという問題が生じる可能性があるという問
題がある。

【００６１】そこで、本発明の第三の実施例では文字成
分表サーチによる絞り込みだけでなく凝縮本文検索の結
果を用いて検索対象文書の絞り込みを行うことにより、
検索速度をさらに高速化する方法について説明する。

【００６２】なお第二の実施例と同様、文書登録時の動
作については本発明の第一の実施例と同じであるため説
明を省略する。また、検索条件についても第一の実施例
と同様、（数１）に示す検索条件式が入力された場合を
例に、検索時処理の概要について例を挙げて説明する。

【００６３】本実施例における検索フローを図２２に示
す。まず第１に、文字成分表サーチステップについて説
明する。本ステップでは、“認”および“識”で文字成
分表を参照し“認”と“識”を同時に含む文書を部分集
合｛Ａ｝として格納する（図２３）。次に、部分集合
｛Ａ｝に対して“認識”で凝縮本文検索を行い、“認
識”という文字を含む文書集合を凝縮本文検索結果集合
｛Ｂ｝として格納する（図２４）。最後に、凝縮本文検
索結果集合｛Ｂ｝に対して“音”および“声”で文字成
分表を参照し、“音”と“声”を同時に含む文書を部分
集合｛Ｃ｝として格納する（図２５）。以上が文字成分
表サーチステップの動作である。

【００６４】次に、凝縮本文および本文サーチステップ
の動作について説明する。凝縮本文および本文サーチス
テップでは、まず文字成分表サーチによって形成された
部分集合｛Ｃ｝に対して“音声”で凝縮本文検索を行
い、“音声”という文字を含む文書集合を凝縮本文検索
結果集合｛Ｄ｝として格納する（図２６）。以上が凝縮
本文および本文サーチステップの動作である。

【００６５】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された文書集合間で論理演算を行うこと
によって、与えられた検索条件式を満たすものだけを抽
出し検索結果として出力する。すなわち、本例では凝縮
本文および本文サーチステップで抽出された文書集合
｛Ｃ｝と文書集合｛Ｄ｝の補集合との論理積をとること
によって、与えられた検索条件式である“認識”ａｎｄ
｛ｎｏｔ“音声”｝を満たす文書だけを抽出し検索結果
として出力する（図２７）。以上が、本実施例における
検索時の処理概要である。

【００６６】次に、具体的な検索処理例として、実際に
いくつかの文書が登録されたデータベースを検索すると
きについて図２８に例を挙げて説明する。

【００６７】まず始めに、文字成分表サーチステップで
は“認”および“識”で文字成分表を参照し、“認”お
よび“識”を含む文書を部分集合｛Ａ｝として格納す
る。つまり、本例では文書１および文書２が“認”およ
び“識”という文字を含んでいるため文字成分表検索結
果集合｛Ａ｝に格納される。次に、部分集合｛Ａ｝に対
して、すなわち文書１および文書２に対し“認識”で凝
縮本文検索を行い、“認識”という文字列を含む文書を
凝縮本文検索結果集合｛Ｂ｝として格納する。

【００６８】つまり、本例では文書１および文書２が凝
縮本文検索結果集合｛Ｂ｝に格納されることになる。最
後に、凝縮本文検索結果集合｛Ｃ｝に対して“音”およ
び“声”で文字成分表を参照し、“音”と“声”を同時
に含む文書を部分集合｛Ｃ｝として格納する。すなわ
ち、本例では文書２には“音”という文字も“声”とい
う文字も含まれないため、部分集合｛Ｃ｝には文書１だ
けが登録されることになる。

【００６９】次に、凝縮本文および本文サーチステップ
について説明する。本ステップでは、文字成分表サーチ
によって抽出された部分集合｛Ｃ｝に対して凝縮本文の
検索を行い、“音声”という文字を含む文書集合を抽出
し、凝縮本文検索結果集合｛Ｄ｝として格納する。すな
わち、本例では文書１に“音声”という文字が含まれて
いるため、凝縮本文検索結果集合｛Ｄ｝には文書１が登
録されることになる。以上が凝縮本文および本文サーチ
ステップの動作である。

【００７０】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された各凝縮本文検索結果集合間で論理
演算を行うことによって、与えられた検索条件式を満た
す文書だけを抽出し検索結果として出力する。すなわ
ち、本例では凝縮本文検索結果集合｛Ｂ｝と集合｛Ｄ｝
の補集合との論理積をとることによって文書２が、与え
られた検索条件式である“認識”ａｎｄ｛ｎｏｔ“音
声”｝を満たす検索結果として出力される。以上が本実
施例における具体的な検索方法の例である。

【００７１】このように、本発明の第二の実施例では、
図１７の文字成分表検索結果集合｛Ｃ｝に対し“音声”
で凝縮本文検索を行う必要があったものを、本実施例で
は図２５の文字成分表検索結果集合｛Ｃ｝の領域に削減
することができる。すなわち、本発明の第二の実施例で
は文字成分表のみによる絞り込み結果に対して凝縮本文
検索を行っていたため検索対象となる文書数をあまり削
減することができなかった。しかし、本実施例において
は“認識”という文字を含む文書というようにさらに絞
り込んだ条件で凝縮本文検索を行っているため、検索の
対象となる文書数をより削減することができ、ひいては
検索速度をさらに高速化することができることになる。

【００７２】

【発明の効果】本発明によれば、ＮＯＴ条件で指定され
た検索を行う場合においても、文字成分表および凝縮本
文を用いて文字レベルおよび単語レベルで階層的に検索
タームに関連しない文書をふるい落し、無用の本文サー
チを省くことにより、等価的に高速なフルテキストサー
チを実現することができ、ひいては大規模な文書データ
ベースに対しても実用的な応答時間でフルテキストサー
チが可能となる。

【図面の簡単な説明】

【図１】本発明の第一の実施例における処理フローを示
す図である。

【図２】従来例の構成を示す図である。

【図３】階層プリサーチのための登録処理を示す図であ
る。

【図４】従来例における処理フローを示す図である。

【図５】従来例における検索処理手順を示す図である。

【図６】従来例における検索処理手順を示す図である。

【図７】本発明の構成を示す図である。

【図８】本発明の第一の実施例における検索処理手順を
示す図である。

【図９】本発明の第一の実施例における検索処理手順を
示す図である。

【図１０】本発明の第一の実施例における検索処理手順
を示す図である。

【図１１】本発明の第一の実施例における検索処理手順
を示す図である。

【図１２】本発明の第一の実施例における検索処理手順
を示す図である。

【図１３】本発明の第一の実施例における具体的な検索
処理例を示す図である。

【図１４】本発明の第一の実施例における処理フローを
示す図である。

【図１５】本発明の第二の実施例における検索処理手順
を示す図である。

【図１６】本発明の第二の実施例における検索処理手順
を示す図である。

【図１７】本発明の第二の実施例における検索処理手順
を示す図である。

【図１８】本発明の第二の実施例における検索処理手順
を示す図である。

【図１９】本発明の第二の実施例における検索処理手順
を示す図である。

【図２０】本発明の第二の実施例における検索処理手順
を示す図である。

【図２１】本発明の第二の実施例における具体的な検索
処理例を示す図である。

【図２２】本発明の第三の実施例における処理フローを
示す図である。

【図２３】本発明の第三の実施例における検索処理手順
を示す図である。

【図２４】本発明の第三の実施例における検索処理手順
を示す図である。

【図２５】本発明の第三の実施例における検索処理手順
を示す図である。

【図２６】本発明の第三の実施例における検索処理手順
を示す図である。

【図２７】本発明の第三の実施例における検索処理手順
を示す図である。

【図２８】本発明の第三の実施例における具体的な検索
処理例を示す図である。

【符号の説明】

１００…ディスプレイ、１０１…キーボード、１０２…
中央制御装置ＣＰＵ、１０３…本文、１０４…凝縮本
文、１０５…文字成分表、１１０…データ格納用ファイ
ル、１０６…フロッピディスクドライバ、２００…主メ
モリ、２０１…本文登録プログラム、２０２…凝縮本文
作成登録プログラム、２０３…文字成分表作成登録プロ
グラム、２０４…文字成分表サーチプログラム、２０５
…凝縮本文サーチプログラム、２０６…本文サーチプロ
グラム、２０７…階層型プリサーチ制御プログラム、２
０８…データエリア、２０９…文字成分表検索結果格納
用データエリア、２１０…本文および凝縮本文検索結果
格納用データエリア、２１１…集合間論理演算プログラ
ム。

───────────────────────────────────────────────────── フロントページの続き (72)発明者畠山敦東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者浅川悟志神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア開発本部内

Claims

【特許請求の範囲】

【請求項１】文書情報を文字コードデータとして蓄積し
た文書データベースを対象として、検索者が指定したキ
ーワードを含む文書をその本文内容を参照して検索する
フルテキストサーチ方法において、該文書データベース
に文書を登録するステップと、該登録文書の本文文字列
をひらがな、漢字、及び英数字等の文字種ごとに分割
し、分割した各部分文字列の間で相互に文字列の包含関
係を調べ、他の文字列に含まれる文字列を排除した部分
文字列の集合からなる凝縮本文を作成するステップと、
該凝縮本文中に現れる文字を重複なく登録した文字成分
表を作成するステップと、検索時には先ず与えられた各
検索タームを文字レベルで分解し、各検索タームを構成
する各文字に対して文字成分表を参照し、その結果によ
り全文書中から本文検索の対象となる部分集合を形成す
る文字成分表サーチのステップと、文字成分表サーチに
よって形成された部分集合に対して凝縮本文および本文
のうち少なくともいずれか一方を参照し、与えられた各
検索タームを含む文書を抽出する凝縮本文および本文サ
ーチのステップと、与えられた各検索タームを含む文書
集合に対して論理演算を行うことによって与えられた検
索条件式を満たすもののみを抽出するステップを備え、
ある検索タームを含まない文書集合を抽出する場合にお
いても等価的に高速なフルテキストサーチを行うことを
特徴とする否定論理条件の処理に適したフルテキストサ
ーチ方法。
【請求項２】請求項１に記載したフルテキストサーチ方
法において、上記文字成分表サーチのステップは、各検
索タームを構成する文字に加え、同時に入力された他の
検索タームを構成する文字を含めて文字成分表を参照
し、その結果により全文書中から本文検索の対象となる
部分集合を形成することを特徴とする否定論理条件の処
理に適したフルテキストサーチ方法。
【請求項３】請求項１に記載したフルテキストサーチ方
法において、上記文字成分表サーチのステップは、各検
索タームを構成する各文字に対して文字成分表を参照す
る際に、同時に入力された他の検索タームに対して行っ
た本文検索結果を加味し、全文書中から本文検索の対象
となる部分集合を形成することを特徴とする否定論理条
件の処理に適したフルテキストサーチ方法。