JPH06290217A - 文書検索方式 - Google Patents

文書検索方式

Info

Publication number
JPH06290217A
JPH06290217A JP5096615A JP9661593A JPH06290217A JP H06290217 A JPH06290217 A JP H06290217A JP 5096615 A JP5096615 A JP 5096615A JP 9661593 A JP9661593 A JP 9661593A JP H06290217 A JPH06290217 A JP H06290217A
Authority
JP
Japan
Prior art keywords
character
document
component
search
byte
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5096615A
Other languages
English (en)
Inventor
Masajirou Iwasaki
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP5096615A priority Critical patent/JPH06290217A/ja
Publication of JPH06290217A publication Critical patent/JPH06290217A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 文字列による文書検索において、1バイト並
びに2バイトの文字コードからなる長い文書にあっても
適合率が落ちないようにして、高速な文書検索を可能と
する。 【構成】 対象文書は、1バイト文字コードと2バイト
文字コードとからなるテキストデータとし、1バイト文
字コードを2バイト文字コードへマッピングして扱う。
文書を登録するときは、文書をある一定サイズで分割
し、分割した文書のそれぞれに対して文字成分表を別の
エントリとして登録する。文書登録時に、単一文字成分
及び文字種毎に異なる隣接文字成分を抽出し、各文字成
分表に加える。検索時には、登録時と同様に検索文字列
から単一文字成分と隣接文字成分を抽出し、それぞれ文
字成分表から各文字成分を含む文書を検索し、文書を一
致度とともに表示する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書検索方式に関し、よ
り詳細には、文書中に含まれる文字成分を利用し、指定
された文字列を含む文書を検索する文書検索方式に関す
る。
【0002】
【従来の技術】「大規模文書データベース用テキストサ
ーチマシンの開発」(1991 情報学シンポジウム講
演論文集)で記載されているように、従来方法では、文
書ファイルとは別に、各文書毎にどの文字が含まれるか
どうかを示す文字成分表を有している。検索時には検索
文字列中の各文字を含む文書を文字成分表により探す。
しかし、文書及び検索文字列を文字の列としてではな
く、検索文字列の各文字が独立に文書中に存在する文書
だけを検索するので、全体としての検索文字列を含まな
い文書を多数抽出してしまい、検索精度が低いという問
題点がある。特願平04−143260号では、各文字
だけの文字成分表だけではなく、隣接した文字に対する
隣接文字成分表を作成し、文書中の検索する文字列の単
一文字については文字成分表を、また検索文字の文字間
の関連には隣接文字成分表を用いることで、上記欠点を
解決している。
【0003】
【発明が解決しようとする課題】しかしながら、従来方
法の単一文字成分及び隣接文字成分を用いた検索方式で
は、文書が長ければ長いほど適合率が落ちるという欠点
がある。又、従来方法では検索語と同じ文字列しか検索
できないので、部分的に一致する文字列を含む文書を検
索出来ないという欠点がある。又、従来方法では、文書
及び検索文字列は2バイトの文字コードのみを対象とし
ており、1バイトの文字コードを扱うことが出来ないと
いう欠点がある。
【0004】本発明は上記の点を考慮してなされたもの
であり、単一文字成分及び隣接文字成分を用いた検索方
式で、長い文書にあっても適合率が落ちないようにする
こと、及び文書中に1バイト並びに2バイトの文字コー
ドがあっても同時に扱うことができるような文書検索方
式を提供しようとするものである。
【0005】
【課題を解決するための手段】かかる課題を解決するた
め本発明においては、次のような手順を採用した。対象
文書は、1バイト文字コードと2バイト文字コードとか
らなるテキストデータとし、1バイト文字コードを2バ
イト文字コードへマッピングして扱う。文書を登録する
ときは、文書をある一定サイズで分割し、分割した文書
のそれぞれに対して文字成分表を別のエントリとして登
録する。文書登録時に、単一文字成分及び文字種毎に異
なる隣接文字成分を抽出し、各文字成分表に加える。検
索時には、登録時と同様に検索文字列から単一文字成分
と隣接文字成分を抽出し、それぞれ文字成分表から各文
字成分を含む文書を検索し、文書を一致度とともに表示
する。
【0006】
【作用】文書登録処理では、登録する文書を文書データ
に登録し、文書データ中の単一文字成分及び隣接文字成
分を抽出し、各文字成分表へ登録する。このとき文書を
ある一定サイズで分割し、分割した文書のそれぞれに対
して文字成分表を別のエントリとして登録するようにす
る。入力部に入力された検索文字列は、文字列入力処理
部で文字種を判別して、その検索文字列を単一文字成分
及び隣接文字成分に分解する。文書検索処理部では、デ
ータ部に登録された文字成分表を利用して文字列を含む
と思われる文書を検索し、検索結果とともに計算した一
致度を表示する。予め検索者が一致度を指定した場合に
は、指定した一致度より高い一致度の検索結果だけを表
示することもできる。さらに、確定した検索結果に対応
する文書データを文書出力処理により出力部に出力す
る。
【0007】
【実施例】以下図面を参照して、本発明の一実施例を詳
述する。図1は、本発明による文書検索方式の一実施例
を説明するための構成図で、図中、1は入力部、2は処
理部、3は文字列入力処理部、4は文書検索処理部、5
は文書出力処理部、6は文書登録処理部、7はデータ
部、8は文字成分表、9は出力部、10は文書データで
ある。入力部1に入力された検索文字列は、処理部2の
文字列入力処理部3で処理する。文書検索処理部4にお
いて、データ部7の文字成分表8を利用して文字列を含
むと思われる文書を検索する。そして、検索した文書に
対応する文書データ10を文書出力処理5により出力部
9に出力する。文書登録処理では、登録する文書を文書
データ10に登録し、文書データより文字成分を抽出
し、文字成分表8へ登録する。
【0008】検索文字列を文書から検索する場合には、
通常、すべての文書データ10の各文字と検索文字列を
照合する。しかし、大量の文書がある場合、すべての文
書データと検索文字列とを照合するには極めて時間がか
かる。従って、従来方法では、文字成分表を利用し検索
対象の文書を検索する。しかし、文字成分表を利用した
場合には、検索文字列の各文字が文書中にばらばらに出
現する文書も検索してしまい、検索精度が低い。本発明
では検索精度を上げるために、各文字成分が文書中に存
在するか否かを示す単一文字成分表と、文書中の文字列
をビット列として扱い、隣接する文字から抽出したある
ビット列が文書中に存在するか否かを示す隣接文字成分
表を利用して文書を検索する。
【0009】対象文書は、1バイト文字コード(例え
ば、ASCII)と2バイト文字コード(例えば、EU
C:Extended UNIX CODE)とからな
るテキストデータとする。
【0010】対象文書及び検索文字列中に含まれる1バ
イト文字コードを扱えるようにするために、1バイト文
字コードを2バイト文字コードへマッピングする。例え
ば、図2に示すように、2バイト文字コードの未使用領
域に1バイト文字コードをマッピングするようにする。
このようにすることによって、1バイト文字コードが含
まれていてもすべてが2バイト文字コードから出来てい
る文書の文字列及び検索文字列として統一して扱えるよ
うにすることができる。
【0011】文書を文書データ部10へ登録するとき
は、単一文字成分及び隣接文字成分を抽出し、文字成分
表を作成する。図3に示すように、単一文字成分は各文
字の2バイト文字コードで表す。隣接文字成分は隣接し
た文字のビット成分を適当に抽出したビット列とし、図
4に示すように、隣接する文字の下位1バイトを合わせ
て2バイトとして表現する。各文字成分表は、各単一文
字成分又は各隣接する文字成分が各文書に存在する場合
は1、存在しない場合は0で示している。例えば、図4
の隣接文字成分表の場合、a0a0(16進)のビット
列は文書DOC−1、2、3、nには存在せず、文書D
OC−4、5には存在していることを意味している。こ
のようにして文書から文字成分を抽出し、文書登録時に
各文字成分表に加える。
【0012】本発明では、各文字及び隣接する文字から
抽出したビット列成分が出現するか否かを調べているだ
けなので、各文字及びビット列成分がバラバラに文書中
に出現する文書も検索する。文書が長ければ長いほど、
バラバラに出現する可能性が高くなり、文字種単位に考
えると頻繁に出現する文字ほど文書中の文字数が多くな
り、バラバラに出現する可能性が高くなる。従って、ひ
らがなは頻繁に文書中に出現するので検索精度が低い。
実用上、ひらがなは検索語になることが少ないので、ひ
らがなの検索精度が低いということは特に問題にならな
い。しかし、文字コ−ドの下位1バイトを取り出して2
バイトの隣接文字成分とした時に、異なる文字でも下位
1バイトが同じ場合があるので、全く違った文字列であ
っても隣接文字成分が全く同じになることがあり得る。
従って、例えば、漢字の隣接文字成分がひらがなの隣接
文字成分と一致する場合があり、しかも、前述のように
ひらがなは文書中に頻繁に出現するので、結果的にひら
がなの影響を受け漢字の検索精度が落ちる。つまり、検
索精度が低い他の文字種の影響を受け検索精度が低くな
るという傾向がある。そこで、文書登録の時に文字種毎
に異なる隣接文字成分表を作成し、検索時に検索文字列
の文字種毎に異なる隣接文字成分表を利用することによ
って、文字種間の影響を排除し、検索精度を上げること
ができる。
【0013】以下に文字成分表の構成例を示す。本発明
では、1バイト文字コードを扱えるようにしたので、1
バイト文字コード用の同種隣接文字成分表を用意した。 単一文字成分表:文字がどの文書に出現するか否かを示
す表(図3) 隣接文字成分表:隣接する文字の対がどの文書に出現す
るか否かを示す表(図4) −同種隣接文字成分表:
隣接する同種の文字の対に対する表 例えば、次の8種類のグループがある。 ・ 記号 ・ 英数字 ・ ひらがな ・ カタカナ ・ ギリシャ文字、グラフィック文字など ・ 1バイト文字コード ・ 第一水準漢字 ・ 第二水準漢字 −異種隣接文字成分表:隣接する異種の文字の対に対す
る表
【0014】又、従来の方法では、短い文書の場合には
検索精度が高いが、文書が長くなるほど単一文字成分及
び隣接文字成分が文書中にバラバラに出現する可能性が
高くなり、検索精度が落ちてしまった。そこで、本発明
では、図5に示すように、文書をある一定サイズで分割
し、分割した文書のそれぞれに対して文字成分表を別の
エントリとして登録することにして、長い文書でも検索
精度が落ちないようにした。図5は、登録文書を二〜三
つに分割して登録した例である。
【0015】検索時には、登録時と同様に検索文字列か
ら単一文字成分と隣接文字成分を抽出し、それぞれ文字
成分表から各文字成分を含む文書を検索する。検索文字
列が「情報処理」である場合について、以下に検索時の
処理の手順を示す。 (1)「情報処理」を単一文字成分と隣接文字成分に分
解する。 (2)分解した各単一文字成分と各隣接文字成分によ
り、それぞれ単一文字成分表と隣接文字成分表を見るこ
とによって、文書に存在するかどうかを判断し、存在す
るという文書の集合を作成する。 (3)これらの文書集合のAND集合を求め、これを検
索結果とする。
【0016】正確な検索語が分からなかったり、似通っ
た文字列を検索したいことがある。このような場合、検
索語の一部が一致する(部分一致の)文書も検索しなけ
ればならない。このような部分一致検索をするための処
理手順を以下に示す。 (1)検索文字列から文字種を判別して、その検索文字
列を単一文字成分及び隣接文字成分に分解する。 (2)抽出した文字成分について、それぞれ単一文字成
分表及び隣接文字成分表から文書集合を得る。 (3)文書集合の各文書について、文字成分及び隣接文
字成分の個数又はそれに重みを付けた値を一致度として
計算する。 (4)検索結果とともに計算した一致度を表示する。 上記の一致度の算出例では、単一文字成分(表中の1文
字)は2点、隣接文字成分(表中の2文字の対)は1点
とし、各文書に出現する文字成分の点数を加算する。
【0017】又、予め検索者が一致度を指定した場合に
は、指定した一致度より高い一致度の検索結果だけを表
示することによって、表示量及びより適合度の高い検索
結果だけを得ることができるように構成できる。
【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)従来の方法では、比較的短い文書しか高い検索精
度を得ることが出来なかったが、長い文書をいくつかに
分割して登録することにより、文書が長くても高い検索
精度が維持できる。 (2)完全一致だけでなく、部分一致検索が出来ること
により、あいまいな検索語でも検索できる。 (3)検索した文書の一致度を提示することにより、ユ
ーザは提示された一致度に応じて所望の文書かどうか判
断の助けになる。 (4)予めユーザが所望の一致度を指定しておくことに
よって、ユーザが指定した一致度以上の結果のみに限定
することができるので、表示量を適正にすることができ
る。 (5)2バイト文字コードだけでなく、1バイト文字コ
ードを含む文書を扱うことができる。
【図面の簡単な説明】
【図1】 本発明による文書検索方式の一実施例を説明
するための構成図である。
【図2】 本発明の文書が1バイト文字コードを含むと
きの2バイト文字コードへのマッピングを示す図であ
る。
【図3】 本発明の単一文字成分表を示す図である。
【図4】 本発明の隣接文字成分表を示す図である。
【図5】 本発明の文書を複数に分割したときの単一文
字成分表を示す図である。
【符号の説明】
1…入力部、2…処理部、3…文字列入力処理部、4…
文書検索処理部、5…文書出力処理部、6…文書登録処
理部、7…データ部、8…文字成分表、9…出力部、1
0…文書データ。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 大量の文書データを保持し、入力装置か
    ら入力された検索文字列を含む文書を検索し、出力装置
    により検索した文書を出力する文書検索装置において、
    文書登録時に文書より各文字コード成分である単一文字
    成分及び隣接文字から抽出したビット列成分である隣接
    文字成分を抽出する抽出手段と、各文書がそれぞれの成
    分を含むか否かを示す単一文字成分表及び隣接文字成分
    表を生成する文字成分生成手段と、検索時には検索文字
    列から同様に単一文字成分及び隣接文字成分を抽出して
    これらの成分により各文字成分表から文書を検索する検
    索手段とからなり、文書中及び検索文字列中の文字が1
    バイト文字コードの場合2バイト文字コードにマップ
    し、1バイト文字コードを2バイト文字コードとして登
    録及び検索することによって、1バイト文字コードを含
    んだ文書及び検索文字列も扱えるようにしたことを特徴
    とする文書検索方式。
  2. 【請求項2】 登録文書を一定サイズに分割しそれぞれ
    別文書として登録し、検索時には一つの文書として検索
    することにより長い文書の適合率を高めるようにしたこ
    とを特徴とする請求項1記載の文書検索方式。
  3. 【請求項3】 単一文字成分及び隣接文字成分を一つで
    も含む文書をすべて検索し、各文書が含む各成分から一
    致度を計算して検索者に提示するようにしたことを特徴
    とする請求項1記載の文書検索方式。
  4. 【請求項4】 予め検索者が指定した一致度以上の文書
    のみを検索者に提示することにより、検索者が必要な文
    書を効率良く検索できるようにしたことを特徴とする請
    求項1記載の文書検索方式。
JP5096615A 1993-03-31 1993-03-31 文書検索方式 Pending JPH06290217A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5096615A JPH06290217A (ja) 1993-03-31 1993-03-31 文書検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5096615A JPH06290217A (ja) 1993-03-31 1993-03-31 文書検索方式

Publications (1)

Publication Number Publication Date
JPH06290217A true JPH06290217A (ja) 1994-10-18

Family

ID=14169766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5096615A Pending JPH06290217A (ja) 1993-03-31 1993-03-31 文書検索方式

Country Status (1)

Country Link
JP (1) JPH06290217A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4888148A (en) * 1988-08-15 1989-12-19 The B. F. Goodrich Company Method of making extruded amorphous thermoplastic pipe having reduced internal stress
JPH08161357A (ja) * 1994-06-02 1996-06-21 Ricoh Co Ltd 文書管理装置
JPH08180066A (ja) * 1994-12-26 1996-07-12 Toshiba Corp インデックス作成方法、文書検索方法及び文書検索装置
JPH08329116A (ja) * 1995-06-05 1996-12-13 Hitachi Ltd 構造化文書検索方法
JPH0969113A (ja) * 1995-09-01 1997-03-11 Ricoh Co Ltd 文書管理方式
JPH0991305A (ja) * 1995-09-27 1997-04-04 Canon Inc 情報処理方法及び装置
JPH1040256A (ja) * 1996-07-19 1998-02-13 Ricoh Co Ltd 文書管理方式
JP2004178614A (ja) * 1994-06-02 2004-06-24 Ricoh Co Ltd 文書管理方法および文書管理装置
JP2009266171A (ja) * 2008-04-30 2009-11-12 Xanavi Informatics Corp 情報検索装置およびナビゲーション装置
JP2011100320A (ja) * 2009-11-06 2011-05-19 Fujitsu Ltd 情報処理プログラム、情報検索プログラム、情報処理装置、および情報検索装置
WO2013179348A1 (ja) * 2012-05-31 2013-12-05 富士通株式会社 インデックス生成プログラム及び検索プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6383833A (ja) * 1986-09-29 1988-04-14 Hitachi Ltd 文字列検索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6383833A (ja) * 1986-09-29 1988-04-14 Hitachi Ltd 文字列検索方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4888148A (en) * 1988-08-15 1989-12-19 The B. F. Goodrich Company Method of making extruded amorphous thermoplastic pipe having reduced internal stress
JPH08161357A (ja) * 1994-06-02 1996-06-21 Ricoh Co Ltd 文書管理装置
JP2004178614A (ja) * 1994-06-02 2004-06-24 Ricoh Co Ltd 文書管理方法および文書管理装置
JPH08180066A (ja) * 1994-12-26 1996-07-12 Toshiba Corp インデックス作成方法、文書検索方法及び文書検索装置
JPH08329116A (ja) * 1995-06-05 1996-12-13 Hitachi Ltd 構造化文書検索方法
JPH0969113A (ja) * 1995-09-01 1997-03-11 Ricoh Co Ltd 文書管理方式
JPH0991305A (ja) * 1995-09-27 1997-04-04 Canon Inc 情報処理方法及び装置
JPH1040256A (ja) * 1996-07-19 1998-02-13 Ricoh Co Ltd 文書管理方式
JP2009266171A (ja) * 2008-04-30 2009-11-12 Xanavi Informatics Corp 情報検索装置およびナビゲーション装置
JP2011100320A (ja) * 2009-11-06 2011-05-19 Fujitsu Ltd 情報処理プログラム、情報検索プログラム、情報処理装置、および情報検索装置
WO2013179348A1 (ja) * 2012-05-31 2013-12-05 富士通株式会社 インデックス生成プログラム及び検索プログラム
JPWO2013179348A1 (ja) * 2012-05-31 2016-01-14 富士通株式会社 インデックス生成プログラム及び検索プログラム

Similar Documents

Publication Publication Date Title
US6496820B1 (en) Method and search method for structured documents
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
US20020123995A1 (en) Pattern search method, pattern search apparatus and computer program therefor, and storage medium thereof
EP0106651B1 (en) Method for making common blank form for a plurality of card images in a data processing system
JPH06290217A (ja) 文書検索方式
JP3333549B2 (ja) 文書検索方式
JPH05225238A (ja) データベース検索システム
JPH06162092A (ja) 情報検索装置
JP3151730B2 (ja) データベース検索システム
JPH064584A (ja) 文章検索装置
JP3325677B2 (ja) 文書検索装置
JP4463925B2 (ja) インデックス生成装置及びその方法、記憶媒体
JP3079844B2 (ja) 全文データベースシステム
JP3315755B2 (ja) 階層化文書の文字列検索装置
JP3259781B2 (ja) データベース検索システムおよびデータベース検索方法
JP3288063B2 (ja) 可変長データの格納および参照システム
JPH08115330A (ja) 類似文書検索方法および装置
JPH05135102A (ja) 文書検索方式
JPH1069490A (ja) 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置
JPH03125266A (ja) 電子化文書ファイリングシステム
JPH03123973A (ja) 文書検索方法
JP2000067070A (ja) 情報検索方法、検索ファイル作成方法及び情報検索装置
CN111046255A (zh) 数据排序方法及相关设备
JPH0375960A (ja) 文字処理装置の頻度変更方式
JPH0748218B2 (ja) 情報処理装置