JP3333549B2 - 文書検索方式 - Google Patents

文書検索方式

Info

Publication number
JP3333549B2
JP3333549B2 JP14326092A JP14326092A JP3333549B2 JP 3333549 B2 JP3333549 B2 JP 3333549B2 JP 14326092 A JP14326092 A JP 14326092A JP 14326092 A JP14326092 A JP 14326092A JP 3333549 B2 JP3333549 B2 JP 3333549B2
Authority
JP
Japan
Prior art keywords
character
document
component
adjacent
component table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14326092A
Other languages
English (en)
Other versions
JPH05324722A (ja
Inventor
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP14326092A priority Critical patent/JP3333549B2/ja
Publication of JPH05324722A publication Critical patent/JPH05324722A/ja
Application granted granted Critical
Publication of JP3333549B2 publication Critical patent/JP3333549B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、文書検索方式に関し、より詳細
には、処理時間が短く、かつ、検索に利用する文字成分
表を小さく抑えて、全文書に対して文字列検索する文書
検索方式に関する。
【0002】
【従来技術】「大規模文書データベース用テキストサー
チマシンの開発」(1991 情報学シンポジウム講演論文
集)で記載されているように、従来方法では、文書ファ
イルとは別に、各文書にどの文字が含まれるかを示す文
字成分表を有している。検索時には検索文字列中の各文
字を含む文書を文字成分表より探す。しかし、検索文字
列及び文書を文字の列としてではなく、検索文字列の各
文字が独立に文書中に存在する文書だけを抽出するの
で、検索文字列を含まない文書も抽出する。また、従来
技術の文字単位の文字成分表のみを利用した文字列検索
では、検索文字列を含まない文書を多数検索してしま
い、検索精度が低いという問題点があり、また、従来技
術の文字成分表は、すべての2バイトコードの文字に対
してその文字が文書に存在するか否かを示すので、文字
成分表が巨大になるという問題点がある。
【0003】
【目的】本発明は、上述のごとき実情に鑑みなされたも
ので、文字列検索において利用する文字成分表を小さく
抑えつつ、検索精度を上げ、かつ、高速な文書登録がで
きるようにした文書検索方式を提供することを目的とし
てなされたものである。
【0004】
【構成】本発明は、上記目的を達成するために、(1)
大量の文書データを保持し、入力装置から入力された検
索文字列を含む文書を検索し、出力装置により検索した
文書を出力する文書検索装置において、文書登録時に、
文書より各文字コード成分である1文字成分及び隣接文
字から抽出したビット列成分である隣接文字成分を抽出
する抽出手段と、各文書がそれぞれの成分を含むか否か
を示す1文字成分表及び隣接文字成分表を生成する生成
手段と、検索時には、検索文字列から1文字成分及び隣
接文字成分を抽出してこれらの成分により各文字成分表
を引き文書を検索する検索手段とを有すること、更に
は、(2)前記文字成分表において、文字種ごとに文字
成分表を持ち、検索時の検索文字列の隣接文字成分を抽
出する時に、文字種を判別し対応する文字種の隣接文字
成分表を引くこと、更には、(3)前記文字成分表を構
成する隣接文字成分抽出時に、文字種を判別できる上位
ビットを抽出することにより、文字種ごとに文字成分の
範囲が限定され文字種ごとの隣接文字成分表を小さく抑
えること、更には、(4)前記文字成分表において、文
書に出現する頻度により文字種ごとに隣接する文字から
抽出するビット数を変えて隣接文字成分表を作成し、検
索すること、更には、(5)登録されている文書に出現
する文字コードと前記文字成分表へのアドレスとを登録
したインデックステーブルをもち、前記文字成分表の文
字コードに対するエントリ数を、このインデックステー
ブルに登録された文字コードの個数とすることにより、
登録文書に出現しない文字の文字成分表のエントリをも
たないようにすること、更には、(6)前記文字成分表
を圧縮し、検索時に必要なレコードを伸長し利用するこ
と、更には、(7)前記の文字成分表において、文書を
文字成分表の最後に追加する場合に限り高速に文書を登
録するために、文字成分表の最後尾のデータに関する情
報をもち、最後尾のデータのみを更新すること、或い
は、(8)大量の文書データを保持し、入力装置から入
力された検索文字列を含む文書を検索し、出力装置によ
り検索した文書を出力する文書検索装置において、文書
登録時に、文書より各文字コード成分である1文字成分
及び隣接文字から抽出したビット列成分である隣接文字
成分を抽出する抽出手段と、各文書がそれぞれの成分を
含むか否かを示す1文字成分表及び隣接文字成分表を生
成する生成手段と、検索時には、検索文字列から1文字
成分及び隣接文字成分を抽出してこれらの成分により各
文字成分表を引き文書を検索する検索手段とから成り、
前記文字成分表を小型にするために文字種ごとに文字成
分表を生成し、文書中での各文字種ごとの出現頻度に合
わせて適切なデータ構造とすること、更には、(9)前
記(8)において、前記文字種ごとの隣接文字成分表に
おいて、隣接する文字が異なる場合には、文字種ごとの
隣接文字成分表とは別の隣接成分表を利用すること、更
には、(10)前記(8)において、前記文字成分の有
無を示すために要素が0と1から構成される文字成分表
において、要素の出現が極めて偏っている場合に効果的
に圧縮できることを特徴としたものである。以下、本発
明の実施例に基づいて説明する。
【0005】図1は、本発明による文書検索方式の一実
施例を説明するための構成図で、図中、1は入力部、2
は処理部、3は文字列入力処理部、4は文書検索処理
部、5は文書出力処理部、6は文書登録処理部、7はデ
ータ部、8は文字成分表、9は出力部、10は文書デー
タである。入力部1に入力された検索文字列は、処理部
2の文書列入力処理3で処理する。文書検索処理部4に
おいて、データ部7の文字成分表8を利用して文字列を
含むと思われる文書を検索する。そして、検索した文書
に対応する文書データ10を文書出力処理5により出力
部9に出力する。文書登録処理では、登録する文書を文
書データ10に登録し、文書データより文字成分を抽出
し、文字成分表8に登録する。
【0006】検索文字列を文書から検索する場合には、
通常、すべての文書データ10の各文字と検索文字列を
照合する。しかし、大量の文書がある場合、すべての文
書データと検索文字列を照合する処理は極めて時間を要
する。したがって、従来方法では、文字成分表を利用し
検索対象の文書を検索する。しかし、文字成分表を利用
した場合には、検索文字列の各文字が文書中にばらばら
に出現する文書も検索してしまい検索精度が低い。本発
明では検索精度を上げるために、文字成分表として、文
字成分が文書中に存在するか否かを示す1文字成分表及
び文書をビット列として扱い、隣接する文字から抽出し
たあるビット列が文書中に存在するか否かを示す隣接文
字成分表を利用して文書を検索する。
【0007】対象文書は日本語文書とし、2バイトコー
ドであるEUCコードのテキストデータとする。文書を
データ部に登録する時には、図2に示すように、1文字
成分及び隣接文字成分を抽出し、文字成分表を作成す
る。1文字成分は各文字の2バイトコードとし、隣接文
字成分は隣接する文字のビット成分を適当に抽出した
ット列で、この図2では隣接する文字の上位1バイトを
合わせて2バイトとしている。このようにして得られた
文字成分及び隣接文字成分が各文書に存在するか否かを
0と1で示す。図3に成分表を示す。図3では、000
2(16進)のビット列は文書1,4,5,6には存在
せず、文書2,3には存在することを意味する。文書登
録時に上記方法により文書から文字成分を抽出し、各文
字成分テーブルに加える。
【0008】隣接文字成分表は各文字成分の上位1バイ
トのみを基本的に利用しているので、検索文字列とは異
なる隣接文字でも上位バイトが一致する隣接文字を含む
文書を検索する場合がある。特にひらがな及びカタカナ
は頻繁に出現するので、検索時に文字種を考慮しない場
合には、検索の精度が低い。検索時に検索文字列の文字
種によって異なる隣接文字成分表を利用することによっ
て、ひらがななどの頻繁に文書に出現する文字種の影響
を受けず、検索精度を上げることができる。
【0009】また、下位1バイトを隣接文字成分とした
場合には、文字種ごとに216(漢字コードはすべての
ットを利用していないので、厳密には214程度)のエン
トリが必要になる。しかし、本発明では、上位1バイト
を隣接文字成分として抽出する。上位1バイトは文字種
を判定でき、しかも文字種によりコードの範囲が限定さ
れるので、各文字成分表は文字種ごとのコード範囲に比
例したサイズとなる。ただし、隣接する文字の文字種が
異なる場合には、漢字の隣接文字成分表を利用する。し
たがって、漢字以外の各隣接文字成分表のサイズは、隣
接文字成分として下位1バイトを利用した場合に比べ、
はるかに小さく抑えることが可能である。
【0010】また、ひらがなやカタカナなど文書中に頻
繁に出現する文字種は検索精度が低いので、検索精度を
上げるために、隣接文字成分として抽出するビット数は
多くする。各文字種ごとの隣接文字成分の取り得る範囲
を図4に示す。ひらがなやカタカナは文字コードの上位
1バイトだけでなく、それぞれ下位1バイトの上位3
ットまたは2ビットを加え、全22ビットまたは全20
ビットから構成される。また、隣接する文字種が異なる
場合には漢字の隣接文字成分表を利用するので、漢字の
隣接文字成分の範囲は文字コードの全範囲となる。
【0011】検索時には、指定された検索文字列を前記
の文書から文字成分を抽出する処理と同様の処理をす
る。検索文字列が「検索」である場合について、以下に
検索時の処理の手順を示す。 .図6のように「検索」を文字列成分と隣接文字成分
に分解する。 .各文字列成分と各隣接文字成分により、それぞれ1
文字成分表及び隣接文字成分表から文書集合を得る。 .前記文書集合のAND集合を求め、これを検索結果
とする。
【0012】1文字成分表及び隣接文字成分表は、(文
字コード数)×(登録文書数ビットの大きさ)となり極
めて巨大になる。しかし、第二水準漢字コードや特殊文
字は通常ほとんど使われないので、インデックステーブ
ルを利用し、使われている漢字コードのみの表を持つこ
とによって表の大きさを小さく抑えている。図5に2バ
イトコード毎のインデックステーブルとそれに対応する
固定長ブロックのデータブロックとの関係を示す。図中
の各フィールドの値は以下のとおりである。 ・ブロックポインタ:文字成分に対応する成分表のデー
タをもつブロックの先頭アドレス。 ・ブロック長:固定長ブロックのうち有効なブロックの
バイト長。 ・ブロックネキストポインタ:データが入りきらない場
合に、次の成分テーブルをもつブロックの先頭アドレ
ス。
【0013】図5の例では、検索文字列より得られた文
字成分(16進)の場合、まず、インデックステーブル
をalalで引きブロックポインタを得る。このブロッ
クポインタで示されるブロックをデータブロックより得
て、ブロックからデータを得る。この例ではデータが1
ブロックに収まらないので、ネキストブロックより次の
ブロックを得る。1ブロック目のデータと2ブロック目
のデータを連結し成分表のデータを生成する。さらに、
(隣接)文字成分表を小さくするために、各漢字コード
に対するテーブルを圧縮している。表のほとんどの成分
は0なので、0成分のみを圧縮する。その圧縮前の表と
圧縮後の表を図7に示す。圧縮後の表の最上位1ビット
は下位7ビットの意味を決定する。
【0014】つまり、 ・最上位ビット=0:下位7ビットの値Xは、(X)×
(7ビット0)が連続すること。 ・最上位ビット=1:下位7ビットはそのまま7ビット
列。 である。したがって、0が連続する部分が圧縮され、1
が出現する部分はビット列のままとなる。これにより、
1が極めて多く圧縮効果が最悪の場合でも、元のデータ
長の8/7にしかならず、通常0の部分がかなり多いの
で効率よく圧縮することが可能である。図7の例の圧縮
後のデータでは、1バイト目の1ビット目が0であるか
ら、次の7ビットは0の個数を示すことがわかる。7
ットの値は1であるから、1×7ビット0が連続するこ
とがわかる。2バイト目の1ビット目は1であるから、
次の7ビットビット列だとわかる。よってそのまま0
011000が値となる。
【0015】また、文書を文字成分表に登録する時に、
データブロックがリスト構造になっているために、ファ
イルのリードライトにかなり時間を要する。さらに、文
字成分表が圧縮されている場合には圧縮伸長処理に時間
を要する。そこで、文字成分表の最後に追加する場合の
み高速に処理が可能なように、インデックステーブル
は、図8で示されるフィールドを有する。各フィールド
の意味は以下のとおりである。 ・ラストブロックポインタ:リンクしている最後のブロ
ック。 ・ラスト文書ID:表の最後尾の1バイトが表す文書I
D。
【0016】登録する文書がラスト文書IDで示される
文書IDより大きい場合に限り、次に示す手順により高
速に文書登録可能である。 .ラストブロックポインタで示される最後のブロック
を得る。 .最後のブロックのブロック長より最後尾の1バイト
の成分表データを得る。 .圧縮した文字成分表を利用している場合には、最後
尾の一バイトを伸長する。 .インデックステーブルのラスト文書IDにより成分
表データに文書を登録する。 .圧縮した文字成分表を利用している場合には、成分
表データを圧縮する。 .データブロックに成分表データを書く。 .インデックステーブルの内容を更新する。
【0017】次に、本発明による文書検索方式の他の実
施例について説明する。構成図は、図1と同様である。
対象文書は日本語文書とし、2バイトコードであるEU
Cコードのテキストデータとする。文書をデータ部に登
録する時には、図9に示すように、1文字成分及び隣接
文字成分を抽出し、文字成分表を作成する。1文字成分
は各文字の2バイトコードとし、隣接文字成分は隣接す
る文字のビット成分を適当に抽出したビット列で、この
図では隣接する文字の下位1バイトを合わせて2バイト
としている。上記方法で得られた文字成分及び隣接文字
成分に対して、それぞれ1文字成分表及び隣接文字成分
表が生成される。成分表は、各1文字成分及び隣接文字
成分が各文書に存在するか否かを0と1で示す。成分表
は図3と同じである。図では、0002(16進)のビ
ット列は文書1、4、5、6には存在せず、文書2、3
には存在することを意味する。文書登録時に上記方法に
より文書から文字成分を抽出し各文字成分テーブルに加
える。検索時には検索文字列から1文字成分と隣接文字
成分を抽出し、それぞれ文字成分表から各成分を含む文
書を検索する。
【0018】仮に隣接文字成分表として各文字成分の下
位1バイトのみを利用した場合には検索文字列とは異な
る隣接文字でも下位バイトが一致する隣接文字を含む文
書を検索する場合がある。ひらがな及びカタカナは頻繁
に出現するので、検索の精度が低くなる。また漢字は文
書中の出現頻度が低いので本来検索精度が高い文字種で
あるにも関わらず、検索精度が低い他の文字種の影響を
受け検索精度が低くなってしまう。そこで、文字種ごと
に異なる隣接文字成分表を作成し、検索時に検索文字列
の文字種ごとに異なる隣接文字成分表を利用することに
よって、ひらがななどの頻繁に文書に出現する文字種の
影響を受けず、検索精度を上げることができる。
【0019】図10は、検索文字列の文字種が異なる場
合の隣接成分の抽出の様子を示す図である。ひらがなや
カタカナなどは各文字種の文字コードの範囲が狭いの
で、抽出するビットが少なくても十分な検索精度が得ら
れる。図中では、第一水準漢字から下位8ビット、カタ
カナから下位3ビット抽出して隣接文字成分としてい
る。異なる文字種が隣接している場合には、文字種ごと
の隣接文字成分表とは別の異種隣接文字成分表を利用す
る。他の隣接文字成分に比べ出現する頻度が少ないの
で、この図では下位6ビットを抽出して隣接文字成分と
している。各文字種ごとの隣接成分の抽出ビット数及び
取り得る範囲は以下の表1のようになる。
【0020】
【表1】
【0021】検索時には、前記の文書から文字成分を抽
出する処理と同様に指定された検索文字列を処理をす
る。検索文字列が「検索」である場合について、図11
に示すとともに以下に検索時の処理手順を示す。 .検索文字列から文字種を判別して一文字成分、隣接
文字成分を抽出する。 .抽出した文字成分について、それぞれ1文字成分表
及び隣接文字成分表から文書集合を得る。 .得られた文書集合のAND集合を求め、これを検索
結果とする。
【0022】
【表2】
【0023】文字種により出現頻度が大きくなるので、
表2のように文字種ごとに文字成分表のデータ構造及び
圧縮の方法を文字ごとに変えることによって、文字成分
表の大きさを抑えることができる。出現頻度により次の
3種類のデータ構造とする。 0圧縮 文字成分の出現頻度が極めて低い(成分表で0要素が1
要素より圧倒的に多い)ので0要素のみを圧縮する。 1圧縮 文字成分の出現頻度が極めて高い(成分表で1要素が0
要素より圧倒的に多い)ので1要素のみを圧縮する。 一次元配列 文字成分がほとんど出現しない(1要素がほとんど出現
しない)ので表構造ではなく文書IDの一次元配列とす
る。
【0024】したがって、文字成分表の全構成は次のよ
うになる。上記の0圧縮の圧縮前の表と圧縮後の表を図
12に示す(以下のカッコ内は1圧縮の場合である)。
圧縮後の表の上位1ビット又は2ビットが下位ビットの
意味を決定する。つまり ・上位2ビット=00:下位6ビットの値XはX×7ビ
ット0(1)が連続することを意味する。 ・上位2ビット=01:下位6ビットの値XはX×62
72ビット0(1)が連続することを意味する(ここで
は6272としたが、圧縮の効果が上がるように任意に
設定できる)。 ・最上位1ビット=1:下位7ビットはそのまま7ビッ
ト列である。 である。したがって、0(1)が連続する部分が圧縮さ
れ、1(0)が出現する部分はビット列のままとなる。
これにより、1(0)が極めて多く圧縮効果が最悪の場
合でも、元のデータ長の8/7にしかならず、通常0
(1)の部分がかなり多いので効率よく圧縮することが
可能である。図12の例の圧縮後のデータでは、1バイ
ト目の1ビット目が0であるから、次の7ビットは0の
個数を示すことがわかる。7ビットの値は1であるか
ら、1×7ビット0が連続することがわかる。2バイト
目の1ビット目は1であるから、次の7ビットはビット
列だとわかる。したがって、そのまま0011000が
値となる。
【0025】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)従来のように各文字が含まれているか否かを示す
1文字成分表のみを利用した場合と比較して、1文字成
分表だけでなく文字種ごとに隣接文字成分として抽出す
ビット数を変えた隣接文字成分から生成した隣接文字
成分表も利用することにより、検索精度が高い。 (2)従来技術の1文字成分表は、(文字コード)×
(登録文書数ビットのサイズ)となり巨大な表となる
が、インデックステーブルの利用や文字成分表に適した
圧縮アルゴリズムにより、小型な文字成分表にすること
ができる。 (3)文書登録時に文字成分表の最後に追加する場合に
限り、成分表の最後尾のデータに関する情報を持ち、最
後尾のデータのみを更新することにより、ファイルへの
アクセスが少なく高速な文書登録が可能である。 (4)従来の文字成分表を表形式にすると極めてサイズ
が大きくなるので、文字種による文書の出現頻度に着目
して、文字種ごとにデータの構成を配列及び表形式にし
たり圧縮の方法を変えることによって文字成分表を小型
にすることができる。 (5)本発明の圧縮アルゴリズムによって大量の文書に
対する文字成分表であっても効果的に圧縮できる。
【図面の簡単な説明】
【図1】 本発明による文書検索方式の一実施例を説明
するための構成図である。
【図2】 本発明の文字成分抽出を示す図である。
【図3】 本発明の文字成分表を示す図である。
【図4】 本発明の各文字種ごとの隣接文字成分の範囲
を示す図である。
【図5】 本発明の成分表のデータ構造を示す図であ
る。
【図6】 本発明の検索文字列からの文字成分抽出を示
す図である。
【図7】 本発明の圧縮アルゴリズムを示す図である。
【図8】 本発明の文書登録のデータ構造を示す図であ
る。
【図9】 本発明の他の文字成分抽出を示す図である。
【図10】 本発明の異種の隣接文字成分抽出を示す図
である。
【図11】 本発明の検索文字列からの文字分抽出を示
す図である。
【図12】 本発明の圧縮アルゴリズムを示す図であ
る。
【符号の説明】
1…入力部、2…処理部、3…文字列入力処理部、4…
文書検索処理部、5…文書出力処理部、6…文書登録処
理部、7…データ部、8…文字成分表、9…出力部、1
0…文書データ。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭59−112339(JP,A) Hideo Fujii,A.Com parison of Indexin g Techniques for J apanese Text Retri eval,ACM−SIGIR,1993 年,p.237−246 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30

Claims (10)

    (57)【特許請求の範囲】
  1. 【請求項1】 大量の文書データを保持し、入力装置か
    ら入力された検索文字列を含む文書を検索し、出力装置
    により検索した文書を出力する文書検索装置において、
    文書登録時に、文書より各文字コード成分である1文字
    成分及び隣接文字から抽出したビット列成分である隣接
    文字成分を抽出する抽出手段と、各文書がそれぞれの成
    分を含むか否かを示す1文字成分表及び隣接文字成分表
    を生成する生成手段と、検索時には、検索文字列から1
    文字成分及び隣接文字成分を抽出してこれらの成分によ
    り各文字成分表を引き文書を検索する検索手段とを有す
    ることを特徴とする文書検索方式。
  2. 【請求項2】 前記文字成分表において、文字種ごとに
    文字成分表を持ち、検索時の検索文字列の隣接文字成分
    を抽出する時に、文字種を判別し対応する文字種の隣接
    文字成分表を引くことを特徴とする請求項1記載の文書
    検索方式。
  3. 【請求項3】 前記文字成分表を構成する隣接文字成分
    抽出時に、文字種を判別できる上位ビットを抽出するこ
    とにより、文字種ごとに文字成分の範囲が限定され文字
    種ごとの隣接文字成分表を小さく抑えることを特徴とす
    る請求項1記載の文書検索方式。
  4. 【請求項4】 前記文字成分表において、文書に出現す
    る頻度により文字種ごとに隣接する文字から抽出するビ
    ット数を変えて隣接文字成分表を作成し、検索すること
    を特徴とする請求項1記載の文書検索方式。
  5. 【請求項5】 登録されている文書に出現する文字コー
    ドと前記文字成分表へのアドレスとを登録したインデッ
    クステーブルをもち、前記文字成分表の文字コードに対
    するエントリ数を、このインデックステーブルに登録さ
    れた文字コードの個数とすることにより、登録文書に出
    現しない文字の文字成分表のエントリをもたないように
    することを特徴とする請求項1記載の文書検索方式。
  6. 【請求項6】 前記文字成分表を圧縮し、検索時に必要
    なレコードを伸長し利用することを特徴とする請求項1
    記載の文書検索方式。
  7. 【請求項7】 前記の文字成分表において、文書を文字
    成分表の最後に追加する場合に限り高速に文書を登録す
    るために、文字成分表の最後尾のデータに関する情報を
    もち、最後尾のデータのみを更新することを特徴とする
    請求項1記載の文書検索方式。
  8. 【請求項8】 大量の文書データを保持し、入力装置か
    ら入力された検索文字列を含む文書を検索し、出力装置
    により検索した文書を出力する文書検索装置において、
    文書登録時に、文書より各文字コード成分である1文字
    成分及び隣接文字から抽出したビット列成分である隣接
    文字成分を抽出する抽出手段と、各文書がそれぞれの成
    分を含むか否かを示す1文字成分表及び隣接文字成分表
    を生成する生成手段と、検索時には、検索文字列から1
    文字成分及び隣接文字成分を抽出してこれらの成分によ
    り各文字成分表を引き文書を検索する検索手段とから成
    り、前記文字成分表を小型にするために文字種ごとに文
    字成分表を生成し、文書中での各文字種ごとの出現頻度
    に合わせて適切なデータ構造とすることを特徴とする文
    書検索方式。
  9. 【請求項9】 前記文字種ごとの隣接文字成分表におい
    て、隣接する文字が異なる場合には、文字種ごとの隣接
    文字成分表とは別の隣接成分表を利用することを特徴と
    する請求項8記載の文書検索方式。
  10. 【請求項10】 前記文字成分の有無を示すために要素
    が0と1から構成される文字成分表において、要素の出
    現が極めて偏っている場合に効果的に圧縮できることを
    特徴とする請求項8記載の文書検索方式。
JP14326092A 1992-03-24 1992-05-07 文書検索方式 Expired - Fee Related JP3333549B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14326092A JP3333549B2 (ja) 1992-03-24 1992-05-07 文書検索方式

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP4-97086 1992-03-24
JP9708692 1992-03-24
JP14326092A JP3333549B2 (ja) 1992-03-24 1992-05-07 文書検索方式

Publications (2)

Publication Number Publication Date
JPH05324722A JPH05324722A (ja) 1993-12-07
JP3333549B2 true JP3333549B2 (ja) 2002-10-15

Family

ID=14182835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14326092A Expired - Fee Related JP3333549B2 (ja) 1992-03-24 1992-05-07 文書検索方式

Country Status (1)

Country Link
JP (1) JP3333549B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329103A (ja) * 1995-05-31 1996-12-13 Ricoh Co Ltd 文書管理装置
JPH08329104A (ja) * 1995-05-31 1996-12-13 Ricoh Co Ltd 文書管理装置
JP3596696B2 (ja) * 1995-10-06 2004-12-02 富士ゼロックス株式会社 情報検索装置
JPH09114854A (ja) * 1995-10-20 1997-05-02 D I S:Kk 文書検索システム
JP3644765B2 (ja) * 1996-07-19 2005-05-11 株式会社リコー 文書管理方式および文書管理方法
CN1326073C (zh) * 2001-04-02 2007-07-11 佳能株式会社 用于建立计算机文字信息的索引和进行检索的方法和系统
WO2010035366A1 (ja) * 2008-09-28 2010-04-01 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2010095179A1 (ja) * 2009-02-23 2010-08-26 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
US9009655B2 (en) 2008-09-28 2015-04-14 KOUSOKUYA, Inc. Code string search apparatus, search method, and program
JP4464459B1 (ja) * 2009-03-29 2010-05-19 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
JP4429373B1 (ja) * 2009-03-18 2010-03-10 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
JP5190898B2 (ja) * 2010-01-18 2013-04-24 株式会社高速屋 コード列検索装置、検索方法及びプログラム
JP5605288B2 (ja) 2011-03-31 2014-10-15 富士通株式会社 出現マップ生成方法、ファイル抽出方法、出現マップ生成プログラム、ファイル抽出プログラム、出現マップ生成装置、およびファイル抽出装置
JP5831298B2 (ja) 2012-03-06 2015-12-09 富士通株式会社 プログラム、情報処理装置およびインデックス生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hideo Fujii,A.Comparison of Indexing Techniques for Japanese Text Retrieval,ACM−SIGIR,1993年,p.237−246

Also Published As

Publication number Publication date
JPH05324722A (ja) 1993-12-07

Similar Documents

Publication Publication Date Title
Silva de Moura et al. Fast and flexible word searching on compressed text
US5546578A (en) Data base retrieval system utilizing stored vicinity feature values
JP2758826B2 (ja) 文書検索装置
JP3333549B2 (ja) 文書検索方式
JP3234104B2 (ja) 圧縮データをサーチする方法及びシステム
US5704060A (en) Text storage and retrieval system and method
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
EP0293161B1 (en) Character processing system with spelling check function
US6047298A (en) Text compression dictionary generation apparatus
JP3518933B2 (ja) 構造化文書検索方法
JP3258063B2 (ja) データベース検索システム及び方法
Mayne et al. Information compression by factorising common strings
JPH07319920A (ja) 文書検索方法及び装置
JP4208326B2 (ja) 情報索引装置
JP3325677B2 (ja) 文書検索装置
JP2519130B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JPH0546358A (ja) テキストデータの圧縮方法
JPH07182354A (ja) 電子文書の作成方法
JPH05181913A (ja) 昇順整数列データの圧縮および復号システム
JPS63263561A (ja) 日本語文の圧縮方法
JP3288063B2 (ja) 可変長データの格納および参照システム
JP3325326B2 (ja) 電子ファイリング装置
JPH09114854A (ja) 文書検索システム
JP3344755B2 (ja) 昇順整数列データの圧縮および復号システム
JPH0954781A (ja) 文書検索システム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070726

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080726

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090726

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees