JPH06309360A - 否定論理条件の処理に適したフルテキストサーチ方法 - Google Patents

否定論理条件の処理に適したフルテキストサーチ方法

Info

Publication number
JPH06309360A
JPH06309360A JP5094082A JP9408293A JPH06309360A JP H06309360 A JPH06309360 A JP H06309360A JP 5094082 A JP5094082 A JP 5094082A JP 9408293 A JP9408293 A JP 9408293A JP H06309360 A JPH06309360 A JP H06309360A
Authority
JP
Japan
Prior art keywords
search
text
character
document
component table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5094082A
Other languages
English (en)
Inventor
Katsumi Tada
勝己 多田
Kanji Kato
寛次 加藤
Hisamitsu Kawaguchi
川口  久光
Atsushi Hatakeyama
敦 畠山
Satoshi Asakawa
悟志 浅川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5094082A priority Critical patent/JPH06309360A/ja
Publication of JPH06309360A publication Critical patent/JPH06309360A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 NOT条件で指定された検索処理を行う場合
にも、階層型プリサーチの課程で検索タームを含まない
文書を削除していき、等価的に高速なフルテキストサー
チを実現することにある。 【構成】 本発明は、本文登録ステップ、凝縮本文作成
ステップ、および文字成分表作成ステップの他、検索タ
ームを文字レベルで分解し、各検索タームの全ての文字
を含む文書のみを抽出する文字成分表サーチのステッ
プ、文字成分表サーチによる部分集合に対して凝縮本文
および本文のうち少なくともいずれか一方を参照し、各
検索タームを含む文書を抽出する凝縮本文および本文サ
ーチのステップ、本文および凝縮本文サーチによる文書
集合に対して、集合間の論理演算を行い、与えられた検
索条件式を満たすもののみを抽出する論理演算処理のス
テップを備えたものである。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書データベースを文
字列を指定して文書の全文を対象として探索するフルテ
キストサーチ方法に係わり、特に複雑な論理条件検索が
指定された場合の全文検索処理を等価的に高速化するた
めの検索方法に関する。
【0002】
【従来の技術】情報処理システムの分野では、文字列デ
ータによって構成される文書(以後、テキストと呼ぶ)
データベースの中から、検索者が指定したある特定の文
字列(以後、検索タームと呼ぶ)を含む文書を探し出す
ことが一つの重要な処理となっている。このような文書
検索システムを実現する方式として、登録時に文字コー
ド化したテキストをそのまま計算機に入力しデータベー
ス化し、検索時にはテキストデータベース内の全ての文
書の内容を読んで与えられた検索タームを含む文書を探
し出すフルテキストサーチが提案されている。
【0003】このフルテキストサーチ方式は、「情報処
理学会研究報告 vol.89,no.66 情報学基
礎14−7 テキストデータベース管理システムSIG
MAとその応用(1989.7.27)」の第2節冒頭で
述べられているように、テキストファイル全体を先頭か
ら一文字ずつ走査することを大きな特徴としている。し
かし、この方式を大規模なデータベースに適用した場合
には、処理時間が非常に長くなってしまうという問題が
あった。すなわち、同文献第2節中にみられるように、
汎用の大型計算機を用いても、2MB/s程度の検索処
理速度しか実現できない。そのため、オフィス等の実用
規模のデータベース容量である数百メガバイトのデータ
ベースを検索した場合には十分な検索レスポンスが得ら
れないという問題があった。
【0004】この問題を解決するために特開平3−17
4652号公報と特開平4−274557号公報が提案
されている。
【0005】これらの従来例では、検索対象となる文書
をデータベースに登録するときに自動的に二つの補助フ
ァイル、すなわち本文の内容を単語レベルで圧縮した凝
縮本文と文字レベルで圧縮した文字成分表を生成する。
そして、検索時にはこれらの補助ファイルを用いて、入
力された検索タームに関連しない文書を文字レベルと単
語レベルで階層的にふるい落し、無用の本文サーチを省
くという処理を行うことにより検索速度の高速化を実現
している。
【0006】はじめに、本従来例の構成について図2を
用いて説明する。
【0007】本従来例における文書検索装置は、ディス
プレイ100、キーボード101、中央制御装置CPU
102、文字成分表105、凝縮本文104、及び本文
103格納用ファイル110、フロッピディスクドライ
バ106、主メモリ200から構成される。
【0008】また、主メモリ200には、本文登録プロ
グラム201、凝縮本文作成登録プログラム202、文
字成分表作成登録プログラム203、文字成分表サーチ
プログラム204、凝縮本文サーチプログラム205、
本文サーチプログラム206、階層型プリサーチ制御プ
ログラム207が格納されるとともに、データエリア2
08が確保されている。以上が本従来例における文書検
索装置の構成である。
【0009】次に、本従来例の動作の概要について説明
する。はじめに、登録時の動作について図3を用いて説
明する。まず、はじめに登録すべき文書が入力される
と、まずそのまま「本文」として格納する。
【0010】次に、この「本文」の中から文字種(漢
字、ひらがな、カタカナ、英字等)ごとに文字列を分割
し、繰り返し現れる言葉の重複を排除することにより
「凝縮本文」を作成する。すなわち、本図中の文書1の
場合には、「検索」が重複語として切り捨てられ、「あ
いまい」と「検索技術」及び「のための」が「凝縮本
文」として残ることになる。
【0011】また、「本文」から「文字成分表」を作成
する。ここでは、「本文」に現われる文字を1ビットの
情報で表す。そして、「本文」にその文字がある場合に
は‘1’を、存在しない場合には‘0’を文字成分表の
該当文字部分に設定する。すなわち、文書1の例では、
「あ」と「い」は本文中に現われるのでそれぞれ‘1’
を、また「う」は現われないので‘0’を設定する。
「検」と「索」も同様にそれぞれ‘1’を設定する。
【0012】このようにして、文書の登録時に「凝縮本
文」と「文字成分表」を自動的に作成し、階層型プリサ
ーチの準備をしておく。
【0013】検索時の処理フローについて図4に示す。
本図の例では “検索” and “理解” すなわち、「“検索”と“理解”が同一文書中に現れる
ものを探せ」という条件式で検索した例を示す。
【0014】まず、文字成分表サーチでは、与えられた
検索ターム毎にそのタームを構成する文字を同時に含む
文書を探し、その後各検索ターム間でAND条件を満た
す文書を出力する処理を行う。
【0015】すなわち、この例では「(‘検’AND
‘索’) AND (‘理’AND‘解’)」従って、
「‘検’AND‘索’AND‘理’AND‘解’」つま
り、上記の4文字を同時に含む文書のみを抽出する(図
5)。
【0016】次に、この文字成分表サーチの結果絞り込
まれた文書に対して凝縮本文をサーチし、指定されたキ
ーワードが単語として現われる文書だけを抽出する。す
なわち、“検索”と“理解”を両方同時に含む文書を検
索する(図6)。以上が、本従来例の動作の概要であ
る。
【0017】このように、本従来例では入力された検索
タームに関連しない文書を文字レベルと単語レベルで階
層的にふるい落すことにより、大規模な文書データベー
スでも実用的な応答速度で、フルテキストサーチを行う
ことを可能としている。
【0018】
【発明が解決しようとする課題】以上のように、本従来
例ではAND条件またはOR条件が指定された場合につ
いて、文字成分表と凝縮本文を用いた階層型プリサーチ
方式を用いることにより、等価的に検索処理を高速化す
る方法を提案している。
【0019】しかし、本従来例にはNOT条件、すなわ
ち「“A”という検索タームを含むが“B”という検索
タームは含まない文書を検索する」という条件が指定さ
れた場合については示されていない。
【0020】本発明の目的は、NOT検索時においても
階層型プリサーチ方式の課程で検索対象文書を絞り込ん
でいくことによって、等価的に高速なフルテキストサー
チを実現する方法を提供することである。
【0021】
【課題を解決するための手段】上記課題を解決するため
に、以下の処理ステップを含むフルテキストサーチ方法
を用いる。
【0022】(1)本文自体を格納する本文登録ステッ
プ、(2)格納した本文を単語レベルで部分文字列へ分
解し、分解した部分文字列間で相互に文字列の包含関係
を調べ、他の部分文字列に含まれる文字列を排除した部
分文字列の集合からなる凝縮本文を作成するステップ、
(3)本文中で用いられている文字を重複なく集めた文
字成分表を作成するステップ、(4)与えられた検索タ
ームを文字レベルで分解し、各検索タームを構成する全
ての文字を含む文書のみを抽出する文字成分表サーチの
ステップ、(5)文字成分表サーチによって形成される
部分集合に対して凝縮本文および本文のうち少なくとも
いずれか一方を参照し、与えられた各検索タームを含む
文書を抽出する凝縮本文および本文サーチのステップ、
(6)本文および凝縮本文サーチによって形成される文
書集合に対して、集合間の論理演算を行うことによっ
て、与えられた検索条件式を満たすもののみを抽出する
論理演算処理のステップ。
【0023】
【作用】本発明によると、NOT検索時においても文字
成分表サーチによる絞り込みを行った後、凝縮本文およ
び本文検索を行うことによって、文字成分表サーチの段
階で与えられた条件式を満たさない文書を検索漏れを生
じることなく切り捨て、検索対象となる凝縮本文および
本文の文書件数を少なくすることができる。すなわち、
検索処理時間に占める割合が高い凝縮本文および本文検
索処理時間を減らすことによって、全体の検索処理時間
を短縮することが可能となる。
【0024】例えば、「本文中に“認識”という文字列
を含むが“音声”という文字を含まない文書を探せ」と
いう条件式が与えられた場合を例に、本発明による効果
を説明する。
【0025】始めに、NOT検索時には文字成分表を用
いた階層型プリサーチ方式を用いない場合について説明
する。
【0026】本方式では、データベースに登録された全
文書に対して凝縮本文サーチを行う必要がある。そのた
め、本文に対する凝縮本文の圧縮率を30%、また検索
処理速度を2MB/sと仮定すると500MBの本文を
サーチするのに500×0.3/2=75秒掛かること
になる。
【0027】次に、本発明による方法を用いた場合につ
いて説明する。本方式では、まず第一に文字成分表をサ
ーチすることにより“認”および“識”を同時に含む文
書を集合{A}に抽出する。また、“音”および“声”
についても同様に、二つの文字を同時に含む文書を集合
{B}に抽出する。
【0028】次に、文字成分表サーチによって抽出され
た集合{A}と{B}に対して、それぞれ凝縮本文検索
を行う。すなわち、集合{A}と{B}に対してそれぞ
れ“認識”と“音声”で凝縮本文検索を行い、検索結果
をそれぞれ集合{C}、{D}に格納する。
【0029】そして最後に、集合{C}と、集合{D}
の補集合の間で論理積をとることによって、指定された
検索条件である「本文中に“認識”という文字列を含む
が“音声”という文字を含まない文書」の検索を行う。
【0030】このように本発明による方法では、NOT
条件で指定された検索条件に対しても予め文字成分表検
索によって絞られた文書集合に対してのみ凝縮本文検索
を行う。つまり、典型的な場合として文字成分表でデー
タベース全件の10%に絞り込めたとすると、文字成分
表の容量はデータベース全体からみると無視できるほど
小さいので、検索すべき凝縮本文の容量は500×0.
3×0.1=15MBとなり、2MB/sの検索速度で
も、約8秒で検索処理を終了できることになる。すなわ
ち、従来の方式に比べ検索速度を約10倍高速化するこ
と可能になる。
【0031】
【実施例】本発明の構成を図7に示す。本図は図2に示
した従来方式の構成図中の主メモリ200内に、文字成
分表検索結果格納用データエリア209−1〜n、本文
および凝縮本文検索結果格納用データエリア210−1
〜n、および集合間論理演算プログラム211を付加し
たものである。
【0032】次に、本発明の第一の実施例における処理
の概要について説明する。なお、本実施例における登録
時の処理は従来例と同じであるため説明を省略する。す
なわち、検索時の処理について以下に例を挙げて説明す
る。本例では
【0033】
【数1】 “認識”and{not“音声”} ……(数1) すなわち、「“認識”という文字列を含むが“音声”と
いう文字列を含まない文書を探せ」という条件式で検索
した場合を例に検索処理の概要を説明する。
【0034】本発明の第一の実施例における処理フロー
を図1を用いて説明する。
【0035】はじめに、文字成分表サーチステップの動
作について説明する。
【0036】文字成分表サーチステップでは“認”およ
び“識”で文字成分表を参照し、“認”と“識”を同時
に含む文書を部分集合{A}として格納する(図8)。
次に“音”および“声”に対しても同様に文字成分表を
参照し、“音”と“声”を同時に含む文書を部分集合
{B}として格納する(図9)。以上が文字成分表サー
チステップの動作である。
【0037】次に、凝縮本文および本文サーチステップ
の動作について説明する。凝縮本文および本文サーチス
テップでは、まず文字成分表サーチによって形成された
部分集合{A}に対して“認識”という検索タームで凝
縮本文検索を行い、“認識”という文字を含む文書集合
を凝縮本文検索結果集合{C}として格納する(図1
0)。また、部分集合{B}に対しては“音声”という
検索タームで凝縮本文検索を行い、この検索結果を凝縮
本文検索結果集合{D}として格納する(図11)。以
上が凝縮本文および本文サーチステップの動作である。
【0038】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された文書集合間で論理演算を行うこと
によって、与えられた検索条件式を満たすものだけを抽
出し検索結果として出力する。すなわち、本例では凝縮
本文および本文サーチステップで抽出された文書集合
{C}と文書集合{D}の補集合との論理積をとること
によって与えられた検索条件式である“認識”and
{not“音声”}を満たす文書だけを抽出し検索結果
として出力する(図12)。以上が、本実施例における
検索時の処理概要である。
【0039】次に、具体的な検索処理例として実際にい
くつかの文書が登録されたデータベースを検索するとき
について図13を用いて説明する。
【0040】まず始めに、文字成分表サーチステップで
は“認”および“識”で文字成分表を参照し、“認”お
よび“識”を含む文書を部分集合{A}として格納す
る。すなわち、文字成分表の“認”の列と“識”の列の
論理積が1になる文書だけを選びだす。つまり、本例で
は文書1および文書2が文字成分表検索結果集合{A}
に格納される。また、“音”および“声”についても同
様に文字成分表を参照し、“音”および“声”を含む文
書を部分集合{B}として格納する。すなわち、文字成
分表の“音”の列と“声”の列の論理積が1になる文書
だけを選びだすことにより、文書1および文書4が文字
成分表検索結果集合{B}に格納される。
【0041】次に、凝縮本文および本文サーチステップ
について説明する。本ステップでは、文字成分表サーチ
によって形成された部分集合{A}に対して凝縮本文の
検索を行い、“認識”という文字を含む文書集合を抽出
し、凝縮本文検索結果集合{C}として格納する。すな
わち、本例では文書1および文書2が“認識”という文
字を含んでいるため凝縮本文検索結果集合{D}に文書
1および文書2を登録する。また、“音声”についても
同様に部分集合{B}に対して凝縮本文の検索を行い、
“音声”という文字を含む文書集合を抽出し、凝縮本文
検索結果集合{D}として格納する。すなわち、本例で
は文書1には“音声”という文字が含まれるが、文書4
には含まれないため凝縮本文検索結果集合{D}には文
書1のみが登録されることになる。
【0042】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された各凝縮本文検索結果集合間で集合
間の論理演算を行うことによって、与えられた検索条件
式を満たす文書だけを抽出し検索結果として出力する。
すなわち、本例では凝縮本文および本文サーチステップ
で抽出された文書集合{C}と文書集合{D}の補集合
との論理積をとることによって文書2が、与えられた検
索条件式である“認識”and{not“音声”}を満
たす検索結果として出力される。以上が本実施例におけ
る具体的な検索方法の例である。
【0043】このように、本実施例ではNOT検索時に
おいても文字成分表を用いたプリサーチを行い、検索対
象となる凝縮本文および本文の文書件数を削減すること
により等価的に非常に高速なフルテキストサーチが実現
できることになる。
【0044】すなわち、本例を用いて説明すると、従来
の検索方式ではデータベースに登録された全文書に対し
て凝縮本文検索を行う必要があった。しかし、本実施例
によると凝縮本文検索の対象となる文書は図8および図
9に示すように“認”と“識”による文字成分表検索結
果集合{A}および“音”と“声”による文字成分表検
索結果集合{B}だけですむため、典型的な例をあげる
と凝縮本文検索対象となる文書の件数を約10%に削減
することができる。つまり、検索速度を等価的に10倍
高速化することができることになる。
【0045】なお、本実施例では2つの検索タームから
なる検索条件式を入力した場合を例に説明したが、3つ
以上の検索タームからなる検索条件式を処理する場合に
ついても、NOT検索で与えられる検索タームとAND
条件検索で与えられる検索タームを分けてから、本実施
例に述べたように各検索タームに対して文字成分表を用
いた絞り込みを行い、その後、それぞれの検索タームを
含む文書集合を抽出し、それらの間で論理演算を行うこ
とにより非常に高速なフルテキストサーチが実現できる
ことが明らかである。
【0046】また、本実施例では文字成分表を用いて文
字レベルで検索対象文書の絞り込みを行った後、凝縮本
文ないしは本文を検索することにより等価的に高速なフ
ルテキストサーチを実現する場合について例を挙げて説
明したが、ニューロ方式による学習ファイル、スーパ・
インポーズド・コーディングによるシグネチャ・ファイ
ルなど絞り込み検索用ファイルを用いて絞り込みを行う
検索方法一般についても、本実施例と同じ方法によって
等価的に高速なフルテキストサーチが実現できることも
明らかである。
【0047】さらに、本実施例では文字成分表を用いて
文字レベルを検索対象文書の絞り込みを行った後、凝縮
本文を検索することによりある検索タームを含まない文
書のみを抽出する場合について例を挙げて説明したが、
凝縮本文を用いることなく検索対象文書の絞り込みを行
った後、直接本文を検索する場合においても等価的に高
速なフルテキストサーチを実現することができることも
明らかである。
【0048】本発明の第一の実施例では、複数の検索タ
ームからなる検索条件式が与えられたとき、各検索ター
ムに対しそれぞれ別々に文字成分表を用いて絞り込みを
行うことによって等価的に検索速度を高速化する方式に
ついて説明した。しかし、本方式では、検索タームのう
ち一つでも出現頻度の高いものがあると文字成分表によ
る絞り込みが十分には行われず、あまり検索速度を高速
化できないという問題が生じる。つまり、本発明の第一
の実施例において“音”および“声”を同時に含む文書
が多く存在した場合、すなわち図9における文字成分表
検索結果集合{B}による絞り込み率が不十分な場合に
は凝縮本文検索の対象となる文書数が多くなり、あまり
検索速度を高速化することができないという問題があ
る。
【0049】そこで、本発明の第二の実施例では、各検
索ターム間の関連を考慮して文字成分表を参照すること
によって、出現頻度の高い検索タームを含む検索条件に
対しても検索速度を高速化する方法について説明する。
【0050】なお、文書登録時の動作については本発明
の第一の実施例と同じであるため説明を省略する。ここ
では、第一の実施例における検索条件と同じ条件式が入
力された場合、すなわち(数1)に示す検索条件式が入
力された場合を例に検索時処理の概要について例を挙げ
て説明する。
【0051】本実施例における検索フローを図14に示
す。まず第1に、文字成分表サーチステップについて説
明する。本ステップでは、“認”および“識”で文字成
分表を参照し“認”と“識”を同時に含む文書を部分集
合{A}として格納する(図15)。次に“音”および
“声”に対しても同様に文字成分表を参照し、“音”と
“声”を同時に含む文書を部分集合{B}として格納す
る(図16)。そして、部分集合{A}と部分集合
{B}の論理積をとることにより、部分集合{C}を作
成しこれを凝縮本文検索の対象となる集合とする(図1
7)。以上が文字成分表サーチステップの動作である。
【0052】次に、凝縮本文および本文サーチステップ
の動作について説明する。凝縮本文および本文サーチス
テップでは、まず文字成分表サーチによって形成された
部分集合{A}に対して“認識”という検索タームで凝
縮本文検索を行い、“認識”という文字を含む文書集合
を凝縮本文検索結果集合{D}として格納する(図1
8)。また、部分集合{C}に対しては“音声”という
検索タームで凝縮本文検索を行い、この検索結果を凝縮
本文検索結果集合{E}として格納する(図19)。以
上が凝縮本文および本文サーチステップの動作である。
【0053】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された文書集合間で論理演算を行うこと
によって、与えられた検索条件式を満たすものだけを抽
出し検索結果として出力する。すなわち、本例では凝縮
本文および本文サーチステップで抽出された文書集合
{D}と文書集合{E}の補集合との論理積をとること
によって、与えられた検索条件式である“認識”and
{not“音声”}を満たす文書だけを抽出し検索結果
として出力する(図20)。以上が、本実施例における
検索時の処理概要である。
【0054】次に、具体的な検索処理例として、実際に
いくつかの文書が登録されたデータベースを検索すると
きについて図21に例を挙げて説明する。
【0055】まず始めに、文字成分表サーチステップで
は“認”および“識”で文字成分表を参照し、“認”お
よび“識”を含む文書を部分集合{A}として格納す
る。つまり、本例では文書1および文書2が文字成分表
検索結果集合{A}に格納される。また、“音”および
“声”についても同様に文字成分表を参照し、“音”お
よび“声”を含む文書、つまり本例では文書1および文
書4が部分集合{B}に格納される。そして、部分集合
{A}と部分集合{B}の論理積をとることにより、部
分集合{C}={A}and{B}を作成しこれを凝縮
本文検索の対象となる集合とする。すなわち、本例では
文書1のみが部分集合{C}に格納されることになる。
【0056】次に、凝縮本文および本文サーチステップ
について説明する。本ステップでは、文字成分表サーチ
によって形成された部分集合{A}に対して凝縮本文の
検索を行い、“認識”という文字を含む文書集合を抽出
し、凝縮本文検索結果集合{D}として格納する。すな
わち、本例では“認識”という文字は文書1および文書
2に含まれているため、凝縮本文検索結果集合{D}に
文書1および文書2を登録する。また、“音声”につい
ては部分集合{C}に対して凝縮本文の検索を行い、
“音声”という文字を含む文書集合を抽出し凝縮本文検
索結果集合{E}として格納する。すなわち、本例では
“音声”という文字は文書1に含まれているため凝縮本
文検索結果集合{E}に文書1が登録される。
【0057】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された各凝縮本文検索結果集合間で集合
間の論理演算を行うことによって、与えられた検索条件
式を満たす文書だけを抽出し検索結果として出力する。
すなわち、本例では凝縮本文および本文サーチステップ
で抽出された文書集合{C}と文書集合{D}の補集合
との論理積をとることによって文書2が、与えられた検
索条件式である“認識”and{not“音声”}を満
たす検索結果として出力される。以上が本実施例におけ
る具体的な検索方法の例である。
【0058】このように、本発明の第一の実施例では、
図9の文字成分表検索結果集合{B}に対し“音声”で
凝縮本文検索を行う必要があったものを、本実施例では
図17の文字成分表検索結果集合{C}の領域に削減す
ることができる。すなわち、図9からも分かるように
“音”および“声”を含む文書が多く存在した場合に
は、本発明の第一の実施例による検索方法では、文字成
分表によって検索対象となる文書数をあまり削減するこ
とができなかった。しかし、本実施例においては図17
に示すように、さらに“認”および“識”を同時に含む
文書という条件で絞り込んでいるため、検索の対象とな
る文書数を削減することができ、ひいては検索速度をさ
らに高速化することができることになる。
【0059】本発明の第二の実施例では、各検索ターム
間の関連を考慮して文字成分表を参照することによっ
て、出現頻度の高い検索タームを含む検索条件に対して
も検索速度を高速化する方法について説明した。
【0060】しかし、本実施例では文字成分表の検索結
果のみによって検索の絞り込みを行うため階層プリサー
チによる絞り込みが不十分となり、検索速度があまり高
速化されないという問題が生じる可能性があるという問
題がある。
【0061】そこで、本発明の第三の実施例では文字成
分表サーチによる絞り込みだけでなく凝縮本文検索の結
果を用いて検索対象文書の絞り込みを行うことにより、
検索速度をさらに高速化する方法について説明する。
【0062】なお第二の実施例と同様、文書登録時の動
作については本発明の第一の実施例と同じであるため説
明を省略する。また、検索条件についても第一の実施例
と同様、(数1)に示す検索条件式が入力された場合を
例に、検索時処理の概要について例を挙げて説明する。
【0063】本実施例における検索フローを図22に示
す。まず第1に、文字成分表サーチステップについて説
明する。本ステップでは、“認”および“識”で文字成
分表を参照し“認”と“識”を同時に含む文書を部分集
合{A}として格納する(図23)。次に、部分集合
{A}に対して“認識”で凝縮本文検索を行い、“認
識”という文字を含む文書集合を凝縮本文検索結果集合
{B}として格納する(図24)。最後に、凝縮本文検
索結果集合{B}に対して“音”および“声”で文字成
分表を参照し、“音”と“声”を同時に含む文書を部分
集合{C}として格納する(図25)。以上が文字成分
表サーチステップの動作である。
【0064】次に、凝縮本文および本文サーチステップ
の動作について説明する。凝縮本文および本文サーチス
テップでは、まず文字成分表サーチによって形成された
部分集合{C}に対して“音声”で凝縮本文検索を行
い、“音声”という文字を含む文書集合を凝縮本文検索
結果集合{D}として格納する(図26)。以上が凝縮
本文および本文サーチステップの動作である。
【0065】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された文書集合間で論理演算を行うこと
によって、与えられた検索条件式を満たすものだけを抽
出し検索結果として出力する。すなわち、本例では凝縮
本文および本文サーチステップで抽出された文書集合
{C}と文書集合{D}の補集合との論理積をとること
によって、与えられた検索条件式である“認識”and
{not“音声”}を満たす文書だけを抽出し検索結果
として出力する(図27)。以上が、本実施例における
検索時の処理概要である。
【0066】次に、具体的な検索処理例として、実際に
いくつかの文書が登録されたデータベースを検索すると
きについて図28に例を挙げて説明する。
【0067】まず始めに、文字成分表サーチステップで
は“認”および“識”で文字成分表を参照し、“認”お
よび“識”を含む文書を部分集合{A}として格納す
る。つまり、本例では文書1および文書2が“認”およ
び“識”という文字を含んでいるため文字成分表検索結
果集合{A}に格納される。次に、部分集合{A}に対
して、すなわち文書1および文書2に対し“認識”で凝
縮本文検索を行い、“認識”という文字列を含む文書を
凝縮本文検索結果集合{B}として格納する。
【0068】つまり、本例では文書1および文書2が凝
縮本文検索結果集合{B}に格納されることになる。最
後に、凝縮本文検索結果集合{C}に対して“音”およ
び“声”で文字成分表を参照し、“音”と“声”を同時
に含む文書を部分集合{C}として格納する。すなわ
ち、本例では文書2には“音”という文字も“声”とい
う文字も含まれないため、部分集合{C}には文書1だ
けが登録されることになる。
【0069】次に、凝縮本文および本文サーチステップ
について説明する。本ステップでは、文字成分表サーチ
によって抽出された部分集合{C}に対して凝縮本文の
検索を行い、“音声”という文字を含む文書集合を抽出
し、凝縮本文検索結果集合{D}として格納する。すな
わち、本例では文書1に“音声”という文字が含まれて
いるため、凝縮本文検索結果集合{D}には文書1が登
録されることになる。以上が凝縮本文および本文サーチ
ステップの動作である。
【0070】最後に、集合間論理演算ステップについて
説明する。本ステップでは、凝縮本文および本文サーチ
ステップで抽出された各凝縮本文検索結果集合間で論理
演算を行うことによって、与えられた検索条件式を満た
す文書だけを抽出し検索結果として出力する。すなわ
ち、本例では凝縮本文検索結果集合{B}と集合{D}
の補集合との論理積をとることによって文書2が、与え
られた検索条件式である“認識”and{not“音
声”}を満たす検索結果として出力される。以上が本実
施例における具体的な検索方法の例である。
【0071】このように、本発明の第二の実施例では、
図17の文字成分表検索結果集合{C}に対し“音声”
で凝縮本文検索を行う必要があったものを、本実施例で
は図25の文字成分表検索結果集合{C}の領域に削減
することができる。すなわち、本発明の第二の実施例で
は文字成分表のみによる絞り込み結果に対して凝縮本文
検索を行っていたため検索対象となる文書数をあまり削
減することができなかった。しかし、本実施例において
は“認識”という文字を含む文書というようにさらに絞
り込んだ条件で凝縮本文検索を行っているため、検索の
対象となる文書数をより削減することができ、ひいては
検索速度をさらに高速化することができることになる。
【0072】
【発明の効果】本発明によれば、NOT条件で指定され
た検索を行う場合においても、文字成分表および凝縮本
文を用いて文字レベルおよび単語レベルで階層的に検索
タームに関連しない文書をふるい落し、無用の本文サー
チを省くことにより、等価的に高速なフルテキストサー
チを実現することができ、ひいては大規模な文書データ
ベースに対しても実用的な応答時間でフルテキストサー
チが可能となる。
【図面の簡単な説明】
【図1】本発明の第一の実施例における処理フローを示
す図である。
【図2】従来例の構成を示す図である。
【図3】階層プリサーチのための登録処理を示す図であ
る。
【図4】従来例における処理フローを示す図である。
【図5】従来例における検索処理手順を示す図である。
【図6】従来例における検索処理手順を示す図である。
【図7】本発明の構成を示す図である。
【図8】本発明の第一の実施例における検索処理手順を
示す図である。
【図9】本発明の第一の実施例における検索処理手順を
示す図である。
【図10】本発明の第一の実施例における検索処理手順
を示す図である。
【図11】本発明の第一の実施例における検索処理手順
を示す図である。
【図12】本発明の第一の実施例における検索処理手順
を示す図である。
【図13】本発明の第一の実施例における具体的な検索
処理例を示す図である。
【図14】本発明の第一の実施例における処理フローを
示す図である。
【図15】本発明の第二の実施例における検索処理手順
を示す図である。
【図16】本発明の第二の実施例における検索処理手順
を示す図である。
【図17】本発明の第二の実施例における検索処理手順
を示す図である。
【図18】本発明の第二の実施例における検索処理手順
を示す図である。
【図19】本発明の第二の実施例における検索処理手順
を示す図である。
【図20】本発明の第二の実施例における検索処理手順
を示す図である。
【図21】本発明の第二の実施例における具体的な検索
処理例を示す図である。
【図22】本発明の第三の実施例における処理フローを
示す図である。
【図23】本発明の第三の実施例における検索処理手順
を示す図である。
【図24】本発明の第三の実施例における検索処理手順
を示す図である。
【図25】本発明の第三の実施例における検索処理手順
を示す図である。
【図26】本発明の第三の実施例における検索処理手順
を示す図である。
【図27】本発明の第三の実施例における検索処理手順
を示す図である。
【図28】本発明の第三の実施例における具体的な検索
処理例を示す図である。
【符号の説明】
100…ディスプレイ、101…キーボード、102…
中央制御装置CPU、103…本文、104…凝縮本
文、105…文字成分表、110…データ格納用ファイ
ル、106…フロッピディスクドライバ、200…主メ
モリ、201…本文登録プログラム、202…凝縮本文
作成登録プログラム、203…文字成分表作成登録プロ
グラム、204…文字成分表サーチプログラム、205
…凝縮本文サーチプログラム、206…本文サーチプロ
グラム、207…階層型プリサーチ制御プログラム、2
08…データエリア、209…文字成分表検索結果格納
用データエリア、210…本文および凝縮本文検索結果
格納用データエリア、211…集合間論理演算プログラ
ム。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 畠山 敦 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 浅川 悟志 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】文書情報を文字コードデータとして蓄積し
    た文書データベースを対象として、検索者が指定したキ
    ーワードを含む文書をその本文内容を参照して検索する
    フルテキストサーチ方法において、該文書データベース
    に文書を登録するステップと、該登録文書の本文文字列
    をひらがな、漢字、及び英数字等の文字種ごとに分割
    し、分割した各部分文字列の間で相互に文字列の包含関
    係を調べ、他の文字列に含まれる文字列を排除した部分
    文字列の集合からなる凝縮本文を作成するステップと、
    該凝縮本文中に現れる文字を重複なく登録した文字成分
    表を作成するステップと、検索時には先ず与えられた各
    検索タームを文字レベルで分解し、各検索タームを構成
    する各文字に対して文字成分表を参照し、その結果によ
    り全文書中から本文検索の対象となる部分集合を形成す
    る文字成分表サーチのステップと、文字成分表サーチに
    よって形成された部分集合に対して凝縮本文および本文
    のうち少なくともいずれか一方を参照し、与えられた各
    検索タームを含む文書を抽出する凝縮本文および本文サ
    ーチのステップと、与えられた各検索タームを含む文書
    集合に対して論理演算を行うことによって与えられた検
    索条件式を満たすもののみを抽出するステップを備え、
    ある検索タームを含まない文書集合を抽出する場合にお
    いても等価的に高速なフルテキストサーチを行うことを
    特徴とする否定論理条件の処理に適したフルテキストサ
    ーチ方法。
  2. 【請求項2】請求項1に記載したフルテキストサーチ方
    法において、上記文字成分表サーチのステップは、各検
    索タームを構成する文字に加え、同時に入力された他の
    検索タームを構成する文字を含めて文字成分表を参照
    し、その結果により全文書中から本文検索の対象となる
    部分集合を形成することを特徴とする否定論理条件の処
    理に適したフルテキストサーチ方法。
  3. 【請求項3】請求項1に記載したフルテキストサーチ方
    法において、上記文字成分表サーチのステップは、各検
    索タームを構成する各文字に対して文字成分表を参照す
    る際に、同時に入力された他の検索タームに対して行っ
    た本文検索結果を加味し、全文書中から本文検索の対象
    となる部分集合を形成することを特徴とする否定論理条
    件の処理に適したフルテキストサーチ方法。
JP5094082A 1993-04-21 1993-04-21 否定論理条件の処理に適したフルテキストサーチ方法 Pending JPH06309360A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5094082A JPH06309360A (ja) 1993-04-21 1993-04-21 否定論理条件の処理に適したフルテキストサーチ方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5094082A JPH06309360A (ja) 1993-04-21 1993-04-21 否定論理条件の処理に適したフルテキストサーチ方法

Publications (1)

Publication Number Publication Date
JPH06309360A true JPH06309360A (ja) 1994-11-04

Family

ID=14100563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5094082A Pending JPH06309360A (ja) 1993-04-21 1993-04-21 否定論理条件の処理に適したフルテキストサーチ方法

Country Status (1)

Country Link
JP (1) JPH06309360A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161357A (ja) * 1994-06-02 1996-06-21 Ricoh Co Ltd 文書管理装置
JP2004178614A (ja) * 1994-06-02 2004-06-24 Ricoh Co Ltd 文書管理方法および文書管理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161357A (ja) * 1994-06-02 1996-06-21 Ricoh Co Ltd 文書管理装置
JP2004178614A (ja) * 1994-06-02 2004-06-24 Ricoh Co Ltd 文書管理方法および文書管理装置

Similar Documents

Publication Publication Date Title
US5745745A (en) Text search method and apparatus for structured documents
US6523030B1 (en) Sort system for merging database entries
US8027994B2 (en) Searching a multi-lingual database
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
JP2742115B2 (ja) 類似文書検索装置
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
JPH11110413A (ja) データベース検索結果を生成するための方法および装置
JP2000163442A (ja) 記号辞書作成方法及び記号辞書検索方法
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
JPH0628403A (ja) 文書検索装置
JP3258063B2 (ja) データベース検索システム及び方法
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
JPH08147311A (ja) 構造化文書検索方法及び装置
JPH09319767A (ja) 類義語辞書登録方法
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法
JPH1027183A (ja) データ登録方法および装置
JP2519130B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JP2519129B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JPH08190571A (ja) 文書検索方法
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
JPH02148174A (ja) Ocrによる住所データベース検索装置
JPS63136224A (ja) キ−ワ−ド自動抽出装置
JPH05225248A (ja) データベース検索システム
JP3104893B2 (ja) 情報検索方式