JPH06290218A - 文書情報検索装置 - Google Patents

文書情報検索装置

Info

Publication number
JPH06290218A
JPH06290218A JP5075826A JP7582693A JPH06290218A JP H06290218 A JPH06290218 A JP H06290218A JP 5075826 A JP5075826 A JP 5075826A JP 7582693 A JP7582693 A JP 7582693A JP H06290218 A JPH06290218 A JP H06290218A
Authority
JP
Japan
Prior art keywords
document
information
preprocessing
search
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5075826A
Other languages
English (en)
Inventor
Yoichi Fujii
洋一 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP5075826A priority Critical patent/JPH06290218A/ja
Publication of JPH06290218A publication Critical patent/JPH06290218A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 検索対象の文書から条件に一致する文書を検
索する装置において、検索要求に対して検索必要性があ
る文書の絞り込みを効率的に行い、検索処理時間を高速
化する。 【構成】 従来の文書中の出現文字の前処理情報に加え
て、拡張前処理情報として連続する文字列の出現情報ま
でを前もって処理しておく。実際の検索時にはこの2つ
の前処理情報を利用して、検索要求に一致しない文書を
実際の文書を検索することなく排除する。排除されなか
った文書に対して実際の検索を行う。 【効果】 実際の文書内を検索することなく多くの文書
を除外し、検索対象文書を絞り込むことで、検索処理を
高速化できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、登録された文書情報
から指定した条件を満足する文書を検索する文書を検索
する装置に係り、特に検索を高速に行うための前処理情
報の生成に関する。
【0002】
【従来の技術】図6は、例えば、情報処理学会研究報告
(情報学基礎14−6 1989年7月27日)”大規
模文書情報システム用テキストマシンの研究”に示され
た従来の文書情報検索装置の構成図であり、1は、文書
中から検索したい検索条件を入力するキーボード等の検
索条件入力装置、2は検索対象となる文書を保持する検
索文書記憶装置、3は検索条件から検索対象の文書を絞
り込むための前処理情報を保持する前処理結果記憶装
置、24は文書を検索文書記憶装置2に登録する時に検
索時に使用する前処理情報を生成して前処理結果記憶装
置3に格納する前処理情報生成手段、5は検索条件入力
手段1で入力された検索条件と前処理結果記憶装置3に
保持されている前処理情報とから検索対象の文書を絞り
込む文書絞り込み手段、6は文書絞り込み手段5で絞り
込まれたファイルを検索して、文書中に検索条件を満足
する文字列が存在するかどうかを確認し、満足する場合
には検索結果を生成する文書検索手段、7は文書検索手
段6で検索された検索結果を表示するCRT等の検索結
果報表示装置である。
【0003】図7は上記検索文書記憶装置2に記憶され
た検索文書から文字情報前処理装置24を使って文書中
の文字出現情報を前処理結果記憶装置3に記憶させた情
報で例を示す図である。8は検索文書記憶装置2に記憶
された文書iとその文書中に現れる文字列「文字列検
索」であらわされる登録文書例、9は検索文書記憶装置
2に記憶された文書jとその文書中に現れる文字列「検
索文字列」であらわされる登録文書例、10はこの例に
おける出現文字コードと文書名との交点のビットを”
1”として記憶した(文字コード、文書名)のテーブル
である前処理情報、25は文書i(8)から生成される
文字コードのビット表現である前処理情報例、26は文
書j(9)から生成される文字コードのビット表現であ
る前処理情報例である。
【0004】図8は上記検索条件入力装置1から入力さ
れた検索条件を前処理情報10を利用して、文書を絞り
込むときのデータの例を示す図である。14は検索条件
入力装置1から入力された検索条件、27は検索条件1
4を前処理情報10のテーブルから取り出したデータか
ら直接処理できるように変換した文字単位検索条件、2
8は文字単位検索条件27に従って前処理情報10のテ
ーブルからデータを取り出しビット演算によって検索対
象文書を絞り込む様子を示した文書絞り込み図、29は
絞り込みによって絞り込まれた文書絞り込み結果であ
る。
【0005】次に動作について説明する。先ず、登録時
の動作を説明する。図7において検索文書記憶装置2に
登録されている文書8と文書9が前処理の対象となった
場合を示す。ここでは文書中に現れる文字コードの全て
が前処理情報として登録されている。すなわち、文書i
(8)では文字コードの前処理情報として前処理情報1
0上で(文,i)、(字,i)、(列,i)、(検,
i)、(索,i)であらわされるビット”1”にした前
処理情報例25を作成する。文書j(9)では文字コー
ドの前処理情報として前処理情報10上で(検,j)、
(索,j)、(文,j)(字,j)、(列,j)であら
わされるビット”1”にした前処理情報例26を作成す
る。
【0006】次に文書検索時の動作を説明する。図8に
おいて検索条件14が検索条件入力装置1から文書絞り
込み装置5に入力されると、文字単位検索条件27で示
されるように、各文字列を文字毎の論理積に展開する。
展開した文字に対して前処理情報10から対応するデー
タを縦方向に取り出した文書絞り込み図28に示される
情報を作成する。文字単位条件27に従ってビットの論
理演算を行うことで文書絞り込み結果29に示される情
報を作成する。文書絞り込み結果29に示される情報は
文書検索装置6に渡され、文書絞り込み結果29に示さ
れる情報の内で”1”の情報を持つビットに対応する文
書からなる絞り込まれた検索対象の各文書名に対して検
索条件14に従って文書を検索し、検索条件14を満足
したものだけの検索結果を生成する。検索結果は検索結
果表示装置7に渡され検索結果として表示する。
【0007】
【発明が解決しようとする課題】従来の文字列検索装置
は以上のように構成されているので、検索条件入力装置
から入力された文字列が存在する文書に対して文書の内
容を検索することなく絞り込むことがある程度可能とな
るが、例えば、日本語における「ひらがな」、「カタカ
ナ」、「数字」、「英文字」等の記憶単位中の出現頻度
が大きいと思われる検索条件文字列に対して、文書を絞
り込む手段が有効に働かず、検索の高速化の障害となっ
ていた。
【0008】本発明は、このような問題点を解決するた
めになされたもので、各文書に対する前処理情報を文字
単位から文字列単位にまで拡張することで、文書の絞り
込みの効果を向上させ、検索速度の高速化を図ろうとす
るものである。
【0009】
【課題を解決するための手段】請求項1に記載の発明に
係わる文書情報検索装置は、下記の要素を有するもので
ある。 (a)検索対象となる文書を保持する記憶装置、(b)
上記文書の前処理時に、文字単位と共に文字列単位に前
処理情報を生成する手段、(c)上記前処理情報生成手
段により生成した前処理情報を保持する記憶装置、
(d)文書を検索するための条件を入力する手段、
(e)上記入力手段により入力した条件と上記前処理情
報とから検索する文書の絞り込みを行う文書絞り込み手
段、(f)上記文書絞り込み手段により生成した情報を
もとに上記検索対象文書から文書検索を行う文書検索手
段、(g)上記文書検索手段で検索した文書を表示する
表示手段。
【0010】請求項2に記載の発明に係る文書情報検索
装置は、上記前処理情報生成手段の処理単位を文字列単
位のみにしたものである。
【0011】請求項3に記載の発明に係る文書情報検索
装置は、上記前処理情報生成手段が文字列単位の前処理
をするに際して文字コード列に対して前処理結果の情報
を縮退させる手段を備えるようにしたものである。
【0012】
【作用】請求項1に記載の発明に係る文書情報検索装置
においては、前処理情報生成時に従来は、文字単位に処
理していたのを文字列単位に処理する手段を付加したこ
とを特徴とする。この文字列単位の処理をする手段を付
加したことにより、検索速度を大幅に改善することがで
きる。
【0013】請求項2に記載の発明に係る文書情報検索
装置においては、前処理情報生成時に文字列単位のみの
処理をするようにしたのが特徴である。このことにより
前処理結果を保持する記憶装置の容量を小さくすること
ができると共に検索速度を改善することができる。
【0014】請求項3に記載の発明に係る文書情報検索
装置においては、文字列単位の前処理情報生成時に文字
コード列に対して前処理結果の情報を縮退させる手段を
備えるようにしたことが特徴である。このことにより前
処理結果を保持する記憶装置の容量を大幅に減少するこ
とができる。
【0015】
【実施例】
実施例1.以下、この発明の一実施例を図について説明
する。図1はこの発明に係わる文書情報検索装置の構成
図であり、1〜3,5〜7は従来例と同じものである。
4は検索文書記憶装置2から前処理結果記憶装置3に保
持する前処理情報を生成する前処理情報生成手段であ
る。
【0016】図2は上記検索文書記憶装置2に記憶され
た検索文書から前処理情報生成手段4を使って文書中の
文字列出現情報を前処理結果記憶装置3に記憶させた情
報の例を示す図である。8,9は従来例と同じ登録文書
例、10は従来の方法と同様に記憶された(文字コー
ド,文書名)のテーブルである前処理情報、11は本発
明における(文字列,文書名)のテーブルである拡張前
処理情報、12は文書i(8)から生成される2文字列
コードのビット表現である前処理情報例、13は文書j
(9)から生成される2文字列コードのビット表現であ
る前処理情報例である。
【0017】図3は上記検索条件入力装置1から入力さ
れた検索条件を前処理情報10、拡張前処理情報11の
テーブルを利用して、文書を絞り込むときのデータの例
を示す図である。14は検索条件入力装置1から入力さ
れた検索条件、15は検索条件14を前処理情報10、
拡張前処理情報11のテーブルから取り出したデータか
ら直接処理できるように変換した展開検索条件、16は
展開検索条件15に従って前処理情報10、拡張前処理
情報11のテーブルからデータを取り出しビット演算に
よって検索対象文書を絞り込む様子を示した文書絞り込
み図、17は絞り込みによって絞り込まれた絞り込み結
果である。
【0018】次に動作について説明する。先ず前処理情
報の生成について説明する。図2において検索文書記憶
装置2に登録されている文書8と文書9が前処理の対象
となった場合を示す。最大登録文字列長n=2の場合、
最大文字列長より短い文字列を全ての前処理情報10、
拡張前処理情報11に登録する。すなわち、文書i
(8)に対して、従来例の場合と同様に前処理情報例1
2の文字コードの前処理情報として前処理情報10上で
(文,i)、(字,i)、(列,i)、(検,i)、
(索,i)であらわされるビットを”1”にするととも
に、拡張前処理情報11として文字列長2となる(○
文,i)、(文字,i)、(字列,i)、(検索,
i)、(索×,i)であらわされるビットを”1”にす
る。一方、文書j(9)に対して、従来例の場合と同様
に前処理情報例13の文字コードの前処理情報として前
処理情報10上で(検,j)、(索,j)、(文,
j)、(字,j)、(列,j)であらわされるビット
を”1”にするとともに、拡張前処理情報11として文
字列長2となる(○検,j)、(検索,j)、(検文,
j)、(文字,j)、(字列,j)、(列×,j)であ
らわされるビットを”1”にする。
【0019】次いで検索について説明する。図3におい
て検索条件14が検索条件入力装置1から文書絞り込み
装置5に入力されると、展開検索条件15で示されるよ
うに、最大登録文字長2により、2より短い検索文字列
は展開せず、2より長い文字列は文字列長2の部分文字
列の論理積に展開する。展開された文字列に対して前処
理情報10、拡張前処理情報11から対応するデータを
縦方向に取り出し、展開検索条件15に従ってビットの
論理演算を行うことで文書絞り込み結果17で示される
データのうちで”1”の情報を持つビットに対応する文
書からなる絞り込まれた検索対象の文書名を生成する。
文書絞り込み装置5で絞り込まれた文書に対して従来例
と同様に検索条件14に従って文書を検索することで、
実際に検索する文書量を従来例より減少させることがで
きる。
【0020】実施例2.なお、上記実施例1における図
2において拡張前処理情報11を作成するにあたって、
図4のたとえば、2つの文字abの下位バイトの情報か
らだけなる18で示される前処理情報縮退関数を利用す
ることによって拡張前処理情報11のテーブルを縮退さ
せ前処理情報記憶装置3の記憶領域を小さくする。この
場合、検索条件14は展開条件21に展開され、実施例
1と同様に検索対象の文書名を絞り込むことができる。
【0021】上記実施例においては、文字列の長さを2
として説明したが、文字列の長さに制限はない。また、
上記実施例においては、検索文書記憶装置と前処理結果
記憶装置とは別々の記憶装置として説明したが両者は同
じ物であってもよい。また、前処理情報生成手段と文書
検索手段とは同一の処理装置上に構成されても別々の処
理装置上にあってもよい。
【0022】
【発明の効果】以上説明したように、この発明によれ
ば、検索条件に対して検索対象の文書から条件に一致す
る文書を検索する装置において、文字列単位の前処理を
行うようにする手段を設けることにより前処理機能を強
化したので、検索必要な文書の絞り込みを効率的に行う
ことができて、検索処理を高速化する効果がある。
【0023】また、前処理を文字列単位のみにすること
により前処理結果を格納する記憶装置の容量を小さくす
ることができる。
【0024】また、文字列単位の前処理時に、文字コー
ド列に対するコード情報を縮退させる手段を設けたの
で、前処理結果を格納する記憶装置の容量を大幅に減少
させることができる。
【図面の簡単な説明】
【図1】本発明の実施例における文字列情報検索装置の
構成図。
【図2】本発明の実施例1における前処理情報のデータ
の例。
【図3】本発明の実施例1における文書絞り込み処理の
例。
【図4】本発明の実施例2における前処理情報のデータ
の例。
【図5】本発明の実施例2おける文書絞り込み処理の
例。
【図6】従来例における文書情報検索装置の構成図。
【図7】従来例における前処理情報のデータの例。
【図8】従来例における文書絞り込み処理の例。
【符号の説明】
3 前処理結果記憶装置 4 文字列情報前処理装置 5 文書絞り込み装置 10 前処理情報 11 拡張前処理情報 12 前処理情報例 13 前処理情報例 15 展開検索条件式 16 文書絞り込み図 17 文書絞り込み結果 18 前処理情報縮退関数 21 展開検索条件式 22 文書絞り込み図 23 文書絞り込み結果

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 下記の要素を有する文書情報検索装置 (a)検索対象となる文書を保持する記憶装置、(b)
    上記文書の前処理時に、文字単位と共に文字列単位に前
    処理情報を生成する手段、(c)上記前処理情報生成手
    段により生成した前処理情報を保持する記憶装置、
    (d)文書を検索するための条件を入力する手段、
    (e)上記入力手段により入力した検索条件と上記前処
    理情報とから検索する文書の絞り込みを行う文書絞り込
    み手段、(f)上記文書絞り込み手段により生成した情
    報をもとに上記検索対象文書から文書検索を行う文書検
    索手段、(g)上記文書検索手段で検索した文書を表示
    する表示手段。
  2. 【請求項2】 上記前処理情報生成手段は、文字列単位
    のみに前処理を行うようにしたことを特徴とする請求項
    1に記載の文書情報検索装置。
  3. 【請求項3】 上記前処理情報生成手段は、文字列単位
    の前処理において、文字コード列に対して前処理結果の
    情報を縮退させる手段を備えたことを特徴とする請求項
    1または請求項2に記載の文書情報検索装置。
JP5075826A 1993-04-01 1993-04-01 文書情報検索装置 Pending JPH06290218A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5075826A JPH06290218A (ja) 1993-04-01 1993-04-01 文書情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5075826A JPH06290218A (ja) 1993-04-01 1993-04-01 文書情報検索装置

Publications (1)

Publication Number Publication Date
JPH06290218A true JPH06290218A (ja) 1994-10-18

Family

ID=13587387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5075826A Pending JPH06290218A (ja) 1993-04-01 1993-04-01 文書情報検索装置

Country Status (1)

Country Link
JP (1) JPH06290218A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175557A (ja) * 1997-12-16 1999-07-02 Sanyo Electric Co Ltd 情報通信端末装置
WO2004061712A1 (ja) * 2002-12-27 2004-07-22 Fujitsu Limited 照合装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175557A (ja) * 1997-12-16 1999-07-02 Sanyo Electric Co Ltd 情報通信端末装置
WO2004061712A1 (ja) * 2002-12-27 2004-07-22 Fujitsu Limited 照合装置

Similar Documents

Publication Publication Date Title
US5745745A (en) Text search method and apparatus for structured documents
JP2002189747A (ja) 文書情報の検索方法
JP3258063B2 (ja) データベース検索システム及び方法
JPH05324722A (ja) 文書検索方式
JPH06162092A (ja) 情報検索装置
JP3151730B2 (ja) データベース検索システム
JPH06290218A (ja) 文書情報検索装置
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JP3253657B2 (ja) 文書検索方法
JP3162907B2 (ja) 文書データ検索装置
JP2001125916A (ja) 情報処理装置
JP3325677B2 (ja) 文書検索装置
JP3079844B2 (ja) 全文データベースシステム
JP3259781B2 (ja) データベース検索システムおよびデータベース検索方法
JPH08115330A (ja) 類似文書検索方法および装置
JPH08137892A (ja) 文書検索方法及び文書検索装置
JP2993539B2 (ja) データベース検索システムおよびその方法
JP3344755B2 (ja) 昇順整数列データの圧縮および復号システム
JP3279002B2 (ja) 情報管理装置
JP3325326B2 (ja) 電子ファイリング装置
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH06309360A (ja) 否定論理条件の処理に適したフルテキストサーチ方法
JPH08221443A (ja) 漢字を含むテキストの検索方法及び装置
JPH05165889A (ja) 文書検索装置
JPH1097542A (ja) 全文検索装置及び全文検索方法