JPH07160724A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH07160724A
JPH07160724A JP5298433A JP29843393A JPH07160724A JP H07160724 A JPH07160724 A JP H07160724A JP 5298433 A JP5298433 A JP 5298433A JP 29843393 A JP29843393 A JP 29843393A JP H07160724 A JPH07160724 A JP H07160724A
Authority
JP
Japan
Prior art keywords
character
document
component table
search
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5298433A
Other languages
English (en)
Other versions
JP3325677B2 (ja
Inventor
Masajirou Iwasaki
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP29843393A priority Critical patent/JP3325677B2/ja
Publication of JPH07160724A publication Critical patent/JPH07160724A/ja
Application granted granted Critical
Publication of JP3325677B2 publication Critical patent/JP3325677B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文字列成分表を利用することで、頻繁に検索
する検索語について誤検索を含まない検索を可能とす
る。 【構成】 入力部1に入力された検索文字列は、処理部
2の文字列入力処理部3で処理する。文書検索処理部4
においてデータ部7の文字成分表8を利用し、文字列を
含むと思われる文書を検索する。検索した文書に対応す
る文書データ10を文書出力処理5により出力部9に出
力する。文書登録処理部6では、登録する文書を文書デ
ータ10に登録し、該文書データ10より文字成分を抽
出して文字成分表8に登録する。ユーザの検索語の頻度
情報を蓄積し、頻度の高い検索語については、文字成分
表8とは別に文字列がどの文書に存在するか否かを示す
文字列成分表12に登録し、該文字列成分表12に登録
された単語の検索については誤検索のない検索を可能と
する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書検索装置に関し、
より詳細には、文字成分表を利用し、全文書に対して文
字列を検索する文書検索装置に関する。
【0002】
【従来の技術】「大規模文書データベース用テキストサ
ーチマシンの開発」(1991 情報学シンポジウム講
演論文集)で記載されているように、従来方法では、文
書ファイルとは別に、各文書にどの文字が含まれるかを
示す文字成分表を有している。検索時には検索文字列中
の各文字を含む文書を文字成分表より探す。しかし、検
索文字列及び文書を文字の列としてではなく、検索文字
列の各文字が独立に文書中に存在する文書だけを抽出す
るので、検索文字列を含まない文書も抽出する。また、
従来方法では、2バイト文字コードのみを対象とし、文
字成分が文書中に存在するか否かを示す単一文字成分表
及び隣接する文字から抽出したあるビット列が文書中に
存在するか否かを示す隣接文字成分表を利用して文書を
検索する。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
文書検索装置における文字単位の文字成分表のみを利用
した文字列検索では、検索文字列を含まない文書を多数
検索してしまい、検索精度が低いという問題点があり、
また、従来技術の文字成分表は、すべての2バイトコー
ドの文字に対してその文字が文書に存在するか否かを示
すので、文字成分表が巨大になるという問題点がある。
すなわち、従来の文書検索装置における文字成分表によ
る検索では、検索結果に若干の誤検索が含まれ、文字成
分表の特徴として出現頻度が高い文字種については検索
精度が低くなり、英語文書では日本語に比べ少ない文字
で構成されているので各文字の出現頻度が極めて高く、
検索精度が低くなる。さらに、文字成分表はサイズが大
きいという問題点がある。
【0004】本発明は、このような実情に鑑みてなされ
たもので、文字列成分表を利用することで、頻繁に検索
する検索語について誤検索を含まない検索を可能とする
文書検索装置を提供することを目的としている。
【0005】
【課題を解決するための手段】本発明は、上記課題を解
決するために、(1)大量の文書データを保持し、入力
装置から入力された検索文字列を含む文書を検索し、出
力装置により検索した文書を出力する文書検索装置にお
いて、文書登録時に文書より各文字コード成分(単一文
字成分)及び隣接文字から抽出したビット列成分(隣接
文字成分)を抽出する第1の抽出手段と、各文書がそれ
ぞれの成分を含むか否かを示す単一文字成分表及び隣接
文字成分表を生成する生成手段と、検索時には検索文字
列から同様に単一文字成分及び隣接文字成分を抽出する
第2の抽出手段と、これらの成分により各文字成分表か
ら文書を検索する検索手段と、検索語の頻度情報を蓄積
して頻度の高い検索語については、前記文字成分表とは
別に文字列がどの文書に存在するか否かを示す文字列成
分表に登録する登録手段とを有し、前記文字列成分表に
登録された単語の検索については誤検索のない検索を可
能とすること、更には、(2)前記文字列成分表に登録
する文字列数の上限を予め設定しておき、上限に達した
後は検索語の頻度情報を基に文字列の削除及び登録する
ことで、常に高い頻度の検索語のみを文字列成分表に登
録し、かつ、文字列成分表に登録されている文字列数を
一定に保つことで文字列成分表が過剰に大きくならない
ようにすること、更には、(3)誤検索が多い文字種に
ついては3文字以上の文字列から連接文字成分を生成
し、該連接文字成分から隣接文字成分表と同様に連接文
字成分表を生成し、該連接文字成分表を利用することに
よって文書の検索を行い、誤検索を減らすこと、更に
は、(4)前記(3)において、前記隣接文字成分表及
び連接文字成分表において、各文字成分の参照頻度情報
を蓄積し、参照頻度の極めて低い文字成分については複
数のエントリを一つにまとめることによって文字成分表
を小型にすることを特徴としたものである。
【0006】
【作用】文書登録時に文書より各文字コード成分(単一
文字成分)及び隣接文字から抽出したビット列成分(隣
接文字成分)を抽出し、各文書がそれぞれの成分を含む
か否かを示す単一文字成分表及び隣接文字成分表を生成
し、検索時には検索文字列から同様に単一文字成分及び
隣接文字成分を抽出し、これらの成分により各文字成分
表から文書を検索する。ユーザの検索語の頻度情報を蓄
積し、頻度の高い検索語については、文字成分表とは別
に文字列がどの文書に存在するか否かを示す文字列成分
表に登録し、文字列成分表に登録された単語の検索につ
いては誤検索のない検索を可能とする。
【0007】
【実施例】実施例について、図面を参照して以下に説明
する。図1は、本発明による文書検索装置の一実施例を
説明するための構成図で、図中、1は入力部、2は処理
部、3は文字列入力部、4は文書検索処理部、5は文書
出力部、6は文書登録処理部、7はデータ部、8は文字
成分表、9は出力部、10は文書データ、11は頻度デ
ータ、12は文字列成分表である。
【0008】入力部1に入力された検索文字列は、処理
部2の文字列入力処理3で処理する。文書検索処理部4
においてデータ部7の文字成分表8を利用し、文字列を
含むと思われる文書を検索する。そして検索した文書に
対応する文書データ10を文書出力処理5により出力部
9に出力する。文書登録処理部6では、登録する文書を
文書データ10に登録し、該文書データ10より文字成
分を抽出して文字成分表8に登録する。
【0009】検索文字列を文書から検索する場合には、
通常、すべての文書データ10の各文字と検索文字列を
照合する。しかし、大量の文書がある場合、すべての文
書データと検索文字列を照合するには極めて時間がかか
る。従って、従来方法では、各文字成分が文書中に存在
するか否かを示す単一文字成分表と、文書中の文字列を
ビット列として扱い、隣接する文字から抽出したあるビ
ット列が文書中に存在するか否かを示す隣接文字成分表
を利用して文書を検索する。
【0010】対象文書は1バイト文字コード(例えば、
ASCII)及び2バイト文字コード(EUC:Extend
ed UNIC CODE)からなるテキストデータとする。1バイ
ト文字コードは前処理としてすべて2バイトコード文字
に変換する。つまり、1バイト文字の“A”は2バイト
文字の“A”に変換する。
【0011】文字成分表による検索では、頻繁の出現す
る文字種については検索精度が低いという特徴がある。
英語文書は英字のみで構成されるので各文字は極めて頻
繁に文書中に出現する。したがって、2文字の隣接文字
成分表では検索精度が極めて低く英語文書には実用的で
はない。そこで、本発明の実施例では連接する4文字の
英文字から生成する連接文字成分によって隣接文字成分
表と同様に4文字の連接文字成分表を生成する。英文字
の連接文字成分を生成する規則は各文字の識別が十分で
きればどのような規則でも構わない。本発明の実施例で
は各文字コードの最下位3ビットを連結して生成した1
2ビットを連接文字成分とする。
【0012】文字成分表の構成例を以下に示す。 ・単一文字成分表:文字がどの文書に出現するか否かを
示す表 ・隣接文字成分表 −同種隣接文字成分表:隣接する同種の文字のペアがど
の文書に出現するか否かを示す表 *記号数字 *ひらがな *カタカナ *ギリシャ文字、グラフィック文字など *第一水準漢字 *第二水準漢字 −異種隣接文字成分表:隣接する異種の文字のペアがど
の文書に出現するか否かを示す表 ・連接文字成分表:英文字の4文字列がどの文書に出現
するか否かを示す表
【0013】また、文字成分表の特徴として通常、検索
結果には若干の誤検索が含まれる。そこで、頻繁に検索
される文字列については誤検索を含まないようにするた
めに、文字列成分表を利用する。該文字列成分表は文字
成分表と同様に0,1で文字列がどの文書に存在するか
否かを示す。検索文字列の頻度情報を蓄積し、頻度が予
め設定した値を越えた文字列については、誤検索を含ま
ない検索結果を文字列成分表に登録する。そして、登録
された文字列の検索については、文字成分表を利用せず
に、文字列成分表を利用することにより誤検索のない検
索を可能とする。
【0014】また、検索頻度の高い検索語を次々に文字
列成分表に登録すると文字列成分表のサイズが巨大にな
る。そこで、文字列成分表に登録できる文字列数の上限
を予め設定しておき、上限に達した後は検索語の頻度の
高い方から登録文字列上限数の検索語のみを登録単語と
し、これを下回った単語を文字列成分表から削除し、新
たに上回った単語を登録する。これによって、文字列成
分表が巨大になることを防げるだけでなく、常に頻度の
高い検索文字列のみを文字列成分表に登録しておくこと
ができる。検索時に次のような流れで文字列成分表の登
録削除を行なう。
【0015】1.検索語の頻度数に1を加える。 2.検索語の頻度(頻度数/総検索数)を計算する。 3.現在、文字列成分表に登録されている中で一番低い
頻度の文字列よりも検索語の頻度が高ければ、文字列成
分表から一番頻度が低い文字列を削除する。 4.パターンマッチングにより検索語の検索結果から誤
検索を取り除き、結果を検索語とともに文字列成分表に
登録する。
【0016】また、従来の方法では隣接文字成分表のサ
イズがかなり大きい。その反面、検索に利用されない隣
接文字成分のエントリも極めて多い。そこで、隣接文字
成分エントリ単位に参照頻度を蓄積しておき、参照され
ない隣接文字成分エントリについては、複数のエントリ
を1つのエントリにまとめる。これによって、隣接文字
成分表のサイズを小さくすることができる。
【0017】
【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)従来の文書検索装置では検索結果に若干の誤検索
が含まれたが、本発明は、文字列成分表を利用すること
で頻繁に検索する検索語について誤検索が含まれない検
索が可能である。 (2)従来の文書検索装置では英文字からなる文書の検
索精度が極めて低かったが、本発明は、連接文字成分表
を利用することで検索精度を十分にあげることができ
る。 (3)従来の文書検索装置では文字成分表が巨大であっ
たが、本発明は、不要なエントリをまとめることで小型
にすることができる。
【図面の簡単な説明】
【図1】 本発明による文書検索装置の一実施例を説明
するための構成図である。
【符号の説明】
1…入力部、2…処理部、3…文字列入力部、4…文書
検索処理部、5…文書出力部、6…文書登録処理部、7
…データ部、8…文字成分表、9…出力部、10…文書
データ、11…頻度データ、12…文字列成分表。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 9194−5L 15/403 340 B

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 大量の文書データを保持し、入力装置か
    ら入力された検索文字列を含む文書を検索し、出力装置
    により検索した文書を出力する文書検索装置において、
    文書登録時に文書より各文字コード成分及び隣接文字か
    ら抽出したビット列成分を抽出する第1の抽出手段と、
    各文書がそれぞれの成分を含むか否かを示す単一文字成
    分表及び隣接文字成分表を生成する生成手段と、検索時
    には検索文字列から同様に単一文字成分及び隣接文字成
    分を抽出する第2の抽出手段と、これらの成分により各
    文字成分表から文書を検索する検索手段と、検索語の頻
    度情報を蓄積して頻度の高い検索語については、前記文
    字成分表とは別に文字列がどの文書に存在するか否かを
    示す文字列成分表に登録する登録手段とを有し、前記文
    字列成分表に登録された単語の検索については誤検索の
    ない検索を可能とすることを特徴とする文書検索装置。
  2. 【請求項2】 前記文字列成分表に登録する文字列数の
    上限を予め設定しておき、上限に達した後は検索語の頻
    度情報を基に文字列の削除及び登録することで、常に高
    い頻度の検索語のみを文字列成分表に登録し、かつ、文
    字列成分表に登録されている文字列数を一定に保つこと
    で文字列成分表が過剰に大きくならないようにすること
    を特徴とする請求項1記載の文書検索装置。
  3. 【請求項3】 誤検索が多い文字種については3文字以
    上の文字列から連接文字成分を生成し、該連接文字成分
    から隣接文字成分表と同様に連接文字成分表を生成し、
    該連接文字成分表を利用することによって文書の検索を
    行い、誤検索を減らすことを特徴とする請求項1記載の
    文書検索装置。
  4. 【請求項4】 前記隣接文字成分表及び連接文字成分表
    において、各文字成分の参照頻度情報を蓄積し、参照頻
    度の極めて低い文字成分については複数のエントリを一
    つにまとめることによって文字成分表を小型にすること
    を特徴とする請求項3記載の文書検索装置。
JP29843393A 1993-11-29 1993-11-29 文書検索装置 Expired - Lifetime JP3325677B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29843393A JP3325677B2 (ja) 1993-11-29 1993-11-29 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29843393A JP3325677B2 (ja) 1993-11-29 1993-11-29 文書検索装置

Publications (2)

Publication Number Publication Date
JPH07160724A true JPH07160724A (ja) 1995-06-23
JP3325677B2 JP3325677B2 (ja) 2002-09-17

Family

ID=17859649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29843393A Expired - Lifetime JP3325677B2 (ja) 1993-11-29 1993-11-29 文書検索装置

Country Status (1)

Country Link
JP (1) JP3325677B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198395A (ja) * 1996-01-16 1997-07-31 Fuji Xerox Co Ltd 文書検索装置
JPH1040256A (ja) * 1996-07-19 1998-02-13 Ricoh Co Ltd 文書管理方式
JPH10149367A (ja) * 1996-11-19 1998-06-02 Nec Corp テキスト蓄積検索装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07239861A (ja) * 1994-02-25 1995-09-12 Ricoh Co Ltd 文書検索装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04215181A (ja) * 1990-12-12 1992-08-05 Teremateiiku Kokusai Kenkyusho:Kk 情報検索処理方式および検索ファイル作成装置
JPH0668159A (ja) * 1992-08-14 1994-03-11 Matsushita Electric Ind Co Ltd 検索装置
JPH06348757A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書検索装置および方法
JPH07105237A (ja) * 1993-10-08 1995-04-21 Matsushita Electric Ind Co Ltd 索引作成方法およびその装置と文書検索装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04215181A (ja) * 1990-12-12 1992-08-05 Teremateiiku Kokusai Kenkyusho:Kk 情報検索処理方式および検索ファイル作成装置
JPH0668159A (ja) * 1992-08-14 1994-03-11 Matsushita Electric Ind Co Ltd 検索装置
JPH06348757A (ja) * 1993-06-07 1994-12-22 Hitachi Ltd 文書検索装置および方法
JPH07105237A (ja) * 1993-10-08 1995-04-21 Matsushita Electric Ind Co Ltd 索引作成方法およびその装置と文書検索装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198395A (ja) * 1996-01-16 1997-07-31 Fuji Xerox Co Ltd 文書検索装置
JPH1040256A (ja) * 1996-07-19 1998-02-13 Ricoh Co Ltd 文書管理方式
JPH10149367A (ja) * 1996-11-19 1998-06-02 Nec Corp テキスト蓄積検索装置

Also Published As

Publication number Publication date
JP3325677B2 (ja) 2002-09-17

Similar Documents

Publication Publication Date Title
US7369987B2 (en) Multi-language document search and retrieval system
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US5590317A (en) Document information compression and retrieval system and document information registration and retrieval method
JP2758826B2 (ja) 文書検索装置
US20020169763A1 (en) Method and system for expanding document retrieval information
JPH09288676A (ja) 全文インデックス作成装置および全文データベース検索装置
JP3333549B2 (ja) 文書検索方式
JPH04274557A (ja) フルテキストサーチ方法
JPH05225238A (ja) データベース検索システム
JPH07160724A (ja) 文書検索装置
JP3727995B2 (ja) 文書処理方法及び装置
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP3253657B2 (ja) 文書検索方法
JPH1011431A (ja) 漢字検索装置および方法
JPH08314950A (ja) テキストの検索方法及び装置
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JPH04340165A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
JPH06149881A (ja) 辞書引き装置及び文書処理装置並びにディジタル複写装置
JPH01106263A (ja) 文書の格納検索装置
JPH0944521A (ja) インデックス作成装置および文書検索装置
JPH09269952A (ja) 文書検索装置及びその方法
JPH09212524A (ja) 全文検索方法および電子化辞書装置
JP2001202388A (ja) フルテキストサーチ方法および装置
JP2900628B2 (ja) 辞書検索装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070705

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080705

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090705

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090705

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100705

Year of fee payment: 8