JPH05324722A - 文書検索方式 - Google Patents

文書検索方式

Info

Publication number
JPH05324722A
JPH05324722A JP4143260A JP14326092A JPH05324722A JP H05324722 A JPH05324722 A JP H05324722A JP 4143260 A JP4143260 A JP 4143260A JP 14326092 A JP14326092 A JP 14326092A JP H05324722 A JPH05324722 A JP H05324722A
Authority
JP
Japan
Prior art keywords
character
document
component
adjacent
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4143260A
Other languages
English (en)
Other versions
JP3333549B2 (ja
Inventor
Masajirou Iwasaki
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP14326092A priority Critical patent/JP3333549B2/ja
Publication of JPH05324722A publication Critical patent/JPH05324722A/ja
Application granted granted Critical
Publication of JP3333549B2 publication Critical patent/JP3333549B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文字列検索において、利用する文字成分表を
小さく抑え、かつ、検索程度を上げ、高速な文書登録を
可能とする。 【構成】 入力部1に入力された検索文字列は、処理部
2の文字列入力処理3で処理する。文書検索処理部4に
おいてデータ部7の文字成分表8を利用して文字列を含
むと思われる文書を検索する。検索した文書に対応する
文書データ10を文書出力処理5により出力部9に出力
する。文書登録処理では、登録する文書を文書データ1
0に登録し、文書データより文字成分を抽出し、文字成
分表8に登録する。検索文字列を文書から検索する場
合、文字成分表として、文字成分が文書中に存在するか
否かを示す1文字成分表及び文書をピット列として扱
い、隣接する文字から抽出したあるピット列が文書中に
存在するか否かを示す隣接文字成分表を利用して文書を
検索する。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、文書検索方式に関し、より詳細
には、処理時間が短く、かつ、検索に利用する文字成分
表を小さく抑えて、全文書に対して文字列検索する文書
検索方式に関する。
【0002】
【従来技術】「大規模文書データベース用テキストサー
チマシンの開発」(1991 情報学シンポジウム講演論文
集)で記載されているように、従来方法では、文書ファ
イルとは別に、各文書にどの文字が含まれるかを示す文
字成分表を有している。検索時には検索文字列中の各文
字を含む文書を文字成分表より探す。しかし、検索文字
列及び文書を文字の列としてではなく、検索文字列の各
文字が独立に文書中に存在する文書だけを抽出するの
で、検索文字列を含まない文書も抽出する。また、従来
技術の文字単位の文字成分表のみを利用した文字列検索
では、検索文字列を含まない文書を多数検索してしま
い、検索精度が低いという問題点があり、また、従来技
術の文字成分表は、すべての2バイトコードの文字に対
してその文字が文書に存在するか否かを示すので、文字
成分表が巨大になるという問題点がある。
【0003】
【目的】本発明は、上述のごとき実情に鑑みなされたも
ので、文字列検索において利用する文字成分表を小さく
抑えつつ、検索精度を上げ、かつ、高速な文書登録がで
きるようにした文書検索方式を提供することを目的とし
てなされたものである。
【0004】
【構成】本発明は、上記目的を達成するために、(1)
大量の文書データを保持し、入力装置から入力された検
索文字列を含む文書を検索し、出力装置により検索した
文書を出力する文書検索装置において、文書登録時に、
文書より各文字コード成分である1文字成分及び隣接文
字から抽出したピット列成分である隣接文字成分を抽出
する抽出手段と、各文書がそれぞれの成分を含むか否か
を示す1文字成分表及び隣接文字成分表を生成する生成
手段と、検索時には、検索文字列から1文字成分及び隣
接文字成分を抽出してこれらの成分により各文字成分表
を引き文書を検索する検索手段とを有すること、更に
は、(2)前記文字成分表において、文字種ごとに文字
成分表を持ち、検索時の検索文字列の隣接文字成分を抽
出する時に、文字種を判別し対応する文字種の隣接文字
成分表を引くこと、更には、(3)前記文字成分表を構
成する隣接文字成分抽出時に、文字種を判別できる上位
ピットを抽出することにより、文字種ごとに文字成分の
範囲が限定され文字種ごとの隣接文字成分表を小さく抑
えること、更には、(4)前記文字成分表において、文
書に出現する頻度により文字種ごとに隣接する文字から
抽出するピット数を変えて隣接文字成分表を作成し、検
索すること、更には、(5)前記文字成分表において、
各漢字コードに対する文字成分表のエントリへのインデ
ックステーブルをもち、文書に出現しない文字の文字成
分表のエントリをもたないようにすること、更には、
(6)前記文字成分表を圧縮し、検索時に必要なレコー
ドを伸長し利用すること、更には、(7)前記の文字成
分表において、文書を文字成分表の最後に追加する場合
に限り高速に文書を登録するために、文字成分表の最後
尾のデータに関する情報をもち、最後尾のデータのみを
更新すること、或いは、(8)大量の文書データを保持
し、入力装置から入力された検索文字列を含む文書を検
索し、出力装置により検索した文書を出力する文書検索
装置において、文書登録時に、文書より各文字コード成
分である1文字成分及び隣接文字から抽出したピット列
成分である隣接文字成分を抽出する抽出手段と、各文書
がそれぞれの成分を含むか否かを示す1文字成分表及び
隣接文字成分表を生成する生成手段と、検索時には、検
索文字列から1文字成分及び隣接文字成分を抽出してこ
れらの成分により各文字成分表を引き文書を検索する検
索手段とから成り、前記文字成分表を小型にするために
文字種ごとに文字成分表を生成し、文書中での各文字種
ごとの出現頻度に合わせて適切なデータ構造とするこ
と、更には、(9)前記(8)において、前記文字種ご
との隣接文字成分表において、隣接する文字が異なる場
合には、文字種ごとの隣接文字成分表とは別の隣接成分
表を利用すること、更には、(10)前記(8)におい
て、前記文字成分の有無を示すために要素が0と1から
構成される文字成分表において、要素の出現が極めて偏
っている場合に効果的に圧縮できることを特徴としたも
のである。以下、本発明の実施例に基づいて説明する。
【0005】図1は、本発明による文書検索方式の一実
施例を説明するための構成図で、図中、1は入力部、2
は処理部、3は文字列入力処理部、4は文書検索処理
部、5は文書出力処理部、6は文書登録処理部、7はデ
ータ部、8は文字成分表、9は出力部、10は文書デー
タである。入力部1に入力された検索文字列は、処理部
2の文書列入力処理3で処理する。文書検索処理部4に
おいて、データ部7の文字成分表8を利用して文字列を
含むと思われる文書を検索する。そして、検索した文書
に対応する文書データ10を文書出力処理5により出力
部9に出力する。文書登録処理では、登録する文書を文
書データ10に登録し、文書データより文字成分を抽出
し、文字成分表8に登録する。
【0006】検索文字列を文書から検索する場合には、
通常、すべての文書データ10の各文字と検索文字列を
照合する。しかし、大量の文書がある場合、すべての文
書データと検索文字列を照合する処理は極めて時間を要
する。したがって、従来方法では、文字成分表を利用し
検索対象の文書を検索する。しかし、文字成分表を利用
した場合には、検索文字列の各文字が文書中にばらばら
に出現する文書も検索してしまい検索精度が低い。本発
明では検索精度を上げるために、文字成分表として、文
字成分が文書中に存在するか否かを示す1文字成分表及
び文書をピット列として扱い、隣接する文字から抽出し
たあるピット列が文書中に存在するか否かを示す隣接文
字成分表を利用して文書を検索する。
【0007】対象文書は日本語文書とし、2バイトコー
ドであるEUCコードのテキストデータとする。文書を
データ部に登録する時には、図2に示すように、1文字
成分及び隣接文字成分を抽出し、文字成分表を作成す
る。1文字成分は各文字の2バイトコードとし、隣接文
字成分は隣接する文字のピット成分を適当に抽出したピ
ット列で、この図2では隣接する文字の上位1バイトを
合わせて2バイトとしている。このようにして得られた
文字成分及び隣接文字成分が各文書に存在するか否かを
0と1で示す。図3に成分表を示す。図3では、000
2(16進)のピット列は文書1,4,5,6には存在
せず、文書2,3には存在することを意味する。文書登
録時に上記方法により文書から文字成分を抽出し、各文
字成分テーブルに加える。
【0008】隣接文字成分表は各文字成分の上位1バイ
トのみを基本的に利用しているので、検索文字列とは異
なる隣接文字でも上位バイトが一致する隣接文字を含む
文書を検索する場合がある。特にひらがな及びカタカナ
は頻繁に出現するので、検索時に文字種を考慮しない場
合には、検索の精度が低い。検索時に検索文字列の文字
種によって異なる隣接文字成分表を利用することによっ
て、ひらがななどの頻繁に文書に出現する文字種の影響
を受けず、検索精度を上げることができる。
【0009】また、下位1バイトを隣接文字成分とした
場合には、文字種ごとに216(漢字コードはすべてのピ
ットを利用していないので、厳密には214程度)のエン
トリが必要になる。しかし、本発明では、上位1バイト
を隣接文字成分として抽出する。上位1バイトは文字種
を判定でき、しかも文字種によりコードの範囲が限定さ
れるので、各文字成分表は文字種ごとのコード範囲に比
例したサイズとなる。ただし、隣接する文字の文字種が
異なる場合には、漢字の隣接文字成分表を利用する。し
たがって、漢字以外の各隣接文字成分表のサイズは、隣
接文字成分として下位1バイトを利用した場合に比べ、
はるかに小さく抑えることが可能である。
【0010】また、ひらがなやカタカナなど文書中に頻
繁に出現する文字種は検索精度が低いので、検索精度を
上げるために、隣接文字成分として抽出するピット数は
多くする。各文字種ごとの隣接文字成分の取り得る範囲
を図4に示す。ひらがなやカタカナは文字コードの上位
1バイトだけでなく、それぞれ下位1バイトの上位3ピ
ットまたは2ピットを加え、全22ピットまたは全20
ピットから構成される。また、隣接する文字種が異なる
場合には漢字の隣接文字成分表を利用するので、漢字の
隣接文字成分の範囲は文字コードの全範囲となる。
【0011】検索時には、指定された検索文字列を前記
の文書から文字成分を抽出する処理と同様の処理をす
る。検索文字列が「検索」である場合について、以下に
検索時の処理の手順を示す。 .図6のように「検索」を文字列成分と隣接文字成分
に分解する。 .各文字列成分と各隣接文字成分により、それぞれ1
文字成分表及び隣接文字成分表から文書集合を得る。 .前記文書集合のAND集合を求め、これを検索結果
とする。
【0012】1文字成分表及び隣接文字成分表は、(文
字コード数)×(登録文字数ピットの大きさ)となり極
めて巨大になる。しかし、第二水準漢字コードや特殊文
字は通常ほとんど使われないので、インデックステーブ
ルを利用し、使われている漢字コードのみの表を持つこ
とによって表の大きさを小さく抑えている。図5に2バ
イトコード毎のインデックステーブルとそれに対応する
固定長ブロックのデータブロックとの関係を示す。図中
の各フィールドの値は以下のとおりである。 ・ブロックポインタ:文字成分に対応する成分表のデー
タをもつブロックの先頭アドレス。 ・ブロック長:固定長ブロックのうち有効なブロックの
バイト長。 ・ブロックネキストポインタ:データが入りきらない場
合に、次の成分テーブルをもつブロックの先頭アドレ
ス。
【0013】図5の例では、検索文字列より得られた文
字成分(16進)の場合、まず、インデックステーブル
をalalで引きブロックポインタを得る。このブロッ
クポインタで示されるブロックをデータブロックより得
て、ブロックからデータを得る。この例ではデータが1
ブロックに収まらないので、ネキストブロックより次の
ブロックを得る。1ブロック目のデータと2ブロック目
のデータを連結し成分表のデータを生成する。さらに、
(隣接)文字成分表を小さくするために、各漢字コード
に対するテーブルを圧縮している。表のほとんどの成分
は0なので、0成分のみを圧縮する。その圧縮前の表と
圧縮後の表を図7に示す。圧縮後の表の最上位1ピット
は下位7ピットの意味を決定する。
【0014】つまり、 ・最上位ピット=0:下位7ピットの値Xは、(X)×
(7ピット0)が連続すること。 ・最上位ピット=1:下位7ピットはそのまま7ピット
列。 である。したがって、0が連続する部分が圧縮され、1
が出現する部分はピット列のままとなる。これにより、
1が極めて多く圧縮効果が最悪の場合でも、元のデータ
長の8/7にしかならず、通常0の部分がかなり多いの
で効率よく圧縮することが可能である。図7の例の圧縮
後のデータでは、1バイト目の1ピット目が0であるか
ら、次の7ピットは0の個数を示すことがわかる。7ピ
ットの値は1であるから、1×7ピット0が連続するこ
とがわかる。2バイト目の1ピット目は1であるから、
次の7ピットはピット列だとわかる。よってそのまま0
011000が値となる。
【0015】また、文書を文字成分表に登録する時に、
データブロックがリスト構造になっているために、ファ
イルのリードライトにかなり時間を要する。さらに、文
字成分表が圧縮されている場合には圧縮伸長処理に時間
を要する。そこで、文字成分表の最後に追加する場合の
み高速に処理が可能なように、インデックステーブル
は、図8で示されるフィールドを有する。各フィールド
の意味は以下のとおりである。 ・ラストブロックポインタ:リンクしている最後のブロ
ック。 ・ラスト文書ID:表の最後尾の1バイトが表す文書I
D。
【0016】登録する文書がラスト文書IDで示される
文書IDより大きい場合に限り、次に示す手順により高
速に文書登録可能である。 .ラストブロックポインタで示される最後のブロック
を得る。 .最後のブロックのブロック長より最後尾の1バイト
の成分表データを得る。 .圧縮した文字成分表を利用している場合には、最後
尾の一バイトを伸長する。 .インデックステーブルのラスト文書IDにより成分
表データに文書を登録する。 .圧縮した文字成分表を利用している場合には、成分
表データを圧縮する。 .データブロックに成分表データを書く。 .インデックステーブルの内容を更新する。
【0017】次に、本発明による文書検索方式の他の実
施例について説明する。構成図は、図1と同様である。
対象文書は日本語文書とし、2バイトコードであるEU
Cコードのテキストデータとする。文書をデータ部に登
録する時には、図9に示すように、1文字成分及び隣接
文字成分を抽出し、文字成分表を作成する。1文字成分
は各文字の2バイトコードとし、隣接文字成分は隣接す
る文字のビット成分を適当に抽出したビット列で、この
図では隣接する文字の下位1バイトを合わせて2バイト
としている。上記方法で得られた文字成分及び隣接文字
成分に対して、それぞれ1文字成分表及び隣接文字成分
表が生成される。成分表は、各1文字成分及び隣接文字
成分が各文書に存在するか否かを0と1で示す。成分表
は図3と同じである。図では、0002(16進)のビ
ット列は文書1、4、5、6には存在せず、文書2、3
には存在することを意味する。文書登録時に上記方法に
より文書から文字成分を抽出し各文字成分テーブルに加
える。検索時には検索文字列から1文字成分と隣接文字
成分を抽出し、それぞれ文字成分表から各成分を含む文
書を検索する。
【0018】仮に隣接文字成分表として各文字成分の下
位1バイトのみを利用した場合には検索文字列とは異な
る隣接文字でも下位バイトが一致する隣接文字を含む文
書を検索する場合がある。ひらがな及びカタカナは頻繁
に出現するので、検索の精度が低くなる。また漢字は文
書中の出現頻度が低いので本来検索精度が高い文字種で
あるにも関わらず、検索精度が低い他の文字種の影響を
受け検索精度が低くなってしまう。そこで、文字種ごと
に異なる隣接文字成分表を作成し、検索時に検索文字列
の文字種ごとに異なる隣接文字成分表を利用することに
よって、ひらがななどの頻繁に文書に出現する文字種の
影響を受けず、検索精度を上げることができる。
【0019】図10は、検索文字列の文字種が異なる場
合の隣接成分の抽出の様子を示す図である。ひらがなや
カタカナなどは各文字種の文字コードの範囲が狭いの
で、抽出するビットが少なくても十分な検索精度が得ら
れる。図中では、第一水準漢字から下位8ビット、カタ
カナから下位3ビット抽出して隣接文字成分としてい
る。異なる文字種が隣接している場合には、文字種ごと
の隣接文字成分表とは別の異種隣接文字成分表を利用す
る。他の隣接文字成分に比べ出現する頻度が少ないの
で、この図では下位6ビットを抽出して隣接文字成分と
している。各文字種ごとの隣接成分の抽出ビット数及び
取り得る範囲は以下の表1のようになる。
【0020】
【表1】
【0021】検索時には、指定された検索文字列を前記
の文書から文字成分を抽出する処理と同様の処理をす
る。検索文字列が「検索」である場合について、図11
に示すとともに以下に検索時の処理手順を示す。 .検索文字列から文字種を判別して一文字成分、隣接
文字成分を抽出する。 .抽出した文字成分について、表2に示すようなそれ
ぞれ1文字成分表及び隣接文字成分表から文書集合を得
る。 .得られた文書集合のAND集合を求め、これを検索
結果とする。
【0022】
【表2】
【0023】文字種により出現頻度が大きくなるので、
文字成分表のデータ構造及び圧縮の方法を文字ごとに変
えることによって、文字成分表の大きさを抑えることが
できる。出現頻度により次の3種類のデータ構造とす
る。 0圧縮 文字成分の出現頻度が極めて低い(成分表で0要素が1
要素より圧倒的に大きい)ので0要素のみを圧縮する。 1圧縮 文字成分の出現頻度が極めて高い(成分表で1要素が0
要素より圧倒的に大きい)ので1要素のみを圧縮する。 一次元配列 文字成分がほとんど出現しない(1要素がほとんど出現
しない)ので表構造ではなく文書IDの一次元配列とす
る。
【0024】したがって、文字成分表の全構成は次のよ
うになる。上記の0圧縮の圧縮前の表と圧縮後の表を図
12に示す(以下はカッコ内は1圧縮の場合である)。
圧縮後の表の上位1ビット又は2ビットが下位ビットの
意味を決定する。つまり ・上位2ビット=00:下位6ビットの値XはX×7ビ
ット0(1)が連続することを意味する。 ・上位2ビット=01:下位6ビットの値XはX×62
72ビット0(1)が連続することを意味する(ここで
は6272としたが、圧縮の効果が上がるように任意に
設定できる)。 ・最上位2ビット=1:下位7ビットはそのまま7ビッ
ト列である。 である。したがって、0(1)が連続する部分が圧縮さ
れ、1(0)が出現する部分はビット列のままとなる。
これにより、1(0)が極めて多く圧縮効果が最悪の場
合でも、元のデータ長の8/7にしかならず、通常0
(1)の部分がかなり多いので効率よく圧縮することが
可能である。図12の例の圧縮後のデータでは、1バイ
ト目の1ビット目が0であるから、次の7ビットは0の
個数を示すことがわかる。7ビットの値は1であるか
ら、1×7ビット0が連続することがわかる。2バイト
目の1ビット目は1であるから、次の7ビットはビット
列だとわかる。したがって、そのまま0011000が
値となる。
【0025】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)従来のように各文字が含まれているか否かを示す
1文字成分表のみを利用した場合と比較して、1文字成
分表だけでなく文字種ごとに隣接文字成分として抽出す
るピット数を変えた隣接文字成分から生成した隣接文字
成分表も利用することにより、検索精度が高い。 (2)従来技術の1文字成分表は、(文字コード)×
(登録文書数ピットのサイズ)となり巨大な表となる
が、インデックステーブルの利用や文字成分表に適した
圧縮アルゴリズムにより、小型な文字成分表にすること
ができる。 (3)文書登録時に文字成分表の最後に追加する場合に
限り、成分表の最後尾のデータに関する情報を持ち、最
後尾のデータのみを更新することにより、ファイルへの
アクセスが少なく高速な文書登録が可能である。 (4)従来の文字成分表を表形式にすると極めてサイズ
が大きくなるので、文字種による文書の出現頻度に着目
して、文字種ごとにデータの構成を配列及び表形式にし
たり圧縮の方法を変えることによって文字成分表を小型
にすることができる。 (5)本発明の圧縮アルゴリズムによって大量の文書に
対する文字成分表であっても効果的に圧縮できる。
【図面の簡単な説明】
【図1】 本発明による文書検索方式の一実施例を説明
するための構成図である。
【図2】 本発明の文字成分抽出を示す図である。
【図3】 本発明の文字成分表を示す図である。
【図4】 本発明の各文字種ごとの隣接文字成分の範囲
を示す図である。
【図5】 本発明の成分表のデータ構造を示す図であ
る。
【図6】 本発明の検索文字列からの文字成分抽出を示
す図である。
【図7】 本発明の圧縮アルゴリズムを示す図である。
【図8】 本発明の文書登録のデータ構造を示す図であ
る。
【図9】 本発明の他の文字成分抽出を示す図である。
【図10】 本発明の異種の隣接文字成分抽出を示す図
である。
【図11】 本発明の検索文字列からの文字分抽出を示
す図である。
【図12】 本発明の圧縮アルゴリズムを示す図であ
る。
【符号の説明】
1…入力部、2…処理部、3…文字列入力処理部、4…
文書検索処理部、5…文書出力処理部、6…文書登録処
理部、7…データ部、8…文字成分表、9…出力部、1
0…文書データ。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 大量の文書データを保持し、入力装置か
    ら入力された検索文字列を含む文書を検索し、出力装置
    により検索した文書を出力する文書検索装置において、
    文書登録時に、文書より各文字コード成分である1文字
    成分及び隣接文字から抽出したピット列成分である隣接
    文字成分を抽出する抽出手段と、各文書がそれぞれの成
    分を含むか否かを示す1文字成分表及び隣接文字成分表
    を生成する生成手段と、検索時には、検索文字列から1
    文字成分及び隣接文字成分を抽出してこれらの成分によ
    り各文字成分表を引き文書を検索する検索手段とを有す
    ることを特徴とする文書検索方式。
  2. 【請求項2】 前記文字成分表において、文字種ごとに
    文字成分表を持ち、検索時の検索文字列の隣接文字成分
    を抽出する時に、文字種を判別し対応する文字種の隣接
    文字成分表を引くことを特徴とする請求項1記載の文書
    検索方式。
  3. 【請求項3】 前記文字成分表を構成する隣接文字成分
    抽出時に、文字種を判別できる上位ピットを抽出するこ
    とにより、文字種ごとに文字成分の範囲が限定され文字
    種ごとの隣接文字成分表を小さく抑えることを特徴とす
    る請求項1記載の文書検索方式。
  4. 【請求項4】 前記文字成分表において、文書に出現す
    る頻度により文字種ごとに隣接する文字から抽出するピ
    ット数を変えて隣接文字成分表を作成し、検索すること
    を特徴とする請求項1記載の文書検索方式。
  5. 【請求項5】 前記文字成分表において、各漢字コード
    に対する文字成分表のエントリへのインデックステーブ
    ルをもち、文書に出現しない文字の文字成分表のエント
    リをもたないようにすることを特徴とする請求項1記載
    の文書検索方式。
  6. 【請求項6】 前記文字成分表を圧縮し、検索時に必要
    なレコードを伸長し利用することを特徴とする請求項1
    記載の文書検索方式。
  7. 【請求項7】 前記の文字成分表において、文書を文字
    成分表の最後に追加する場合に限り高速に文書を登録す
    るために、文字成分表の最後尾のデータに関する情報を
    もち、最後尾のデータのみを更新することを特徴とする
    請求項1記載の文書検索方式。
  8. 【請求項8】 大量の文書データを保持し、入力装置か
    ら入力された検索文字列を含む文書を検索し、出力装置
    により検索した文書を出力する文書検索装置において、
    文書登録時に、文書より各文字コード成分である1文字
    成分及び隣接文字から抽出したピット列成分である隣接
    文字成分を抽出する抽出手段と、各文書がそれぞれの成
    分を含むか否かを示す1文字成分表及び隣接文字成分表
    を生成する生成手段と、検索時には、検索文字列から1
    文字成分及び隣接文字成分を抽出してこれらの成分によ
    り各文字成分表を引き文書を検索する検索手段とから成
    り、前記文字成分表を小型にするために文字種ごとに文
    字成分表を生成し、文書中での各文字種ごとの出現頻度
    に合わせて適切なデータ構造とすることを特徴とする文
    書検索方式。
  9. 【請求項9】 前記文字種ごとの隣接文字成分表におい
    て、隣接する文字が異なる場合には、文字種ごとの隣接
    文字成分表とは別の隣接成分表を利用することを特徴と
    する請求項8記載の文書検索方式。
  10. 【請求項10】 前記文字成分の有無を示すために要素
    が0と1から構成される文字成分表において、要素の出
    現が極めて偏っている場合に効果的に圧縮できることを
    特徴とする請求項8記載の文書検索方式。
JP14326092A 1992-03-24 1992-05-07 文書検索方式 Expired - Fee Related JP3333549B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14326092A JP3333549B2 (ja) 1992-03-24 1992-05-07 文書検索方式

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP4-97086 1992-03-24
JP9708692 1992-03-24
JP14326092A JP3333549B2 (ja) 1992-03-24 1992-05-07 文書検索方式

Publications (2)

Publication Number Publication Date
JPH05324722A true JPH05324722A (ja) 1993-12-07
JP3333549B2 JP3333549B2 (ja) 2002-10-15

Family

ID=14182835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14326092A Expired - Fee Related JP3333549B2 (ja) 1992-03-24 1992-05-07 文書検索方式

Country Status (1)

Country Link
JP (1) JP3333549B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329103A (ja) * 1995-05-31 1996-12-13 Ricoh Co Ltd 文書管理装置
JPH08329104A (ja) * 1995-05-31 1996-12-13 Ricoh Co Ltd 文書管理装置
JPH09101965A (ja) * 1995-10-06 1997-04-15 Fuji Xerox Co Ltd 情報登録方法および情報検索方法
JPH09114854A (ja) * 1995-10-20 1997-05-02 D I S:Kk 文書検索システム
JPH1040256A (ja) * 1996-07-19 1998-02-13 Ricoh Co Ltd 文書管理方式
JP2003006231A (ja) * 2001-04-02 2003-01-10 Canon Inc コンピュータ文字情報のインデックス作成及び検索を行なうための方法及びシステム
WO2010035366A1 (ja) * 2008-09-28 2010-04-01 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2010095179A1 (ja) * 2009-02-23 2010-08-26 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2010106605A1 (ja) * 2009-03-18 2010-09-23 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2010116435A1 (ja) * 2009-03-29 2010-10-14 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2011086915A1 (ja) * 2010-01-18 2011-07-21 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
US9009655B2 (en) 2008-09-28 2015-04-14 KOUSOKUYA, Inc. Code string search apparatus, search method, and program
US9378126B2 (en) 2012-03-06 2016-06-28 Fujitsu Limited Decompression apparatus and decompression method
US9720976B2 (en) 2011-03-31 2017-08-01 Fujitsu Limited Extracting method, computer product, extracting system, information generating method, and information contents

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329104A (ja) * 1995-05-31 1996-12-13 Ricoh Co Ltd 文書管理装置
JPH08329103A (ja) * 1995-05-31 1996-12-13 Ricoh Co Ltd 文書管理装置
JPH09101965A (ja) * 1995-10-06 1997-04-15 Fuji Xerox Co Ltd 情報登録方法および情報検索方法
JPH09114854A (ja) * 1995-10-20 1997-05-02 D I S:Kk 文書検索システム
JPH1040256A (ja) * 1996-07-19 1998-02-13 Ricoh Co Ltd 文書管理方式
JP2003006231A (ja) * 2001-04-02 2003-01-10 Canon Inc コンピュータ文字情報のインデックス作成及び検索を行なうための方法及びシステム
US9009655B2 (en) 2008-09-28 2015-04-14 KOUSOKUYA, Inc. Code string search apparatus, search method, and program
WO2010035366A1 (ja) * 2008-09-28 2010-04-01 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2010095179A1 (ja) * 2009-02-23 2010-08-26 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
WO2010106605A1 (ja) * 2009-03-18 2010-09-23 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
JP2010218326A (ja) * 2009-03-18 2010-09-30 S Grants Co Ltd コード列検索装置、検索方法及びプログラム
WO2010116435A1 (ja) * 2009-03-29 2010-10-14 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
JP2010231675A (ja) * 2009-03-29 2010-10-14 S Grants Co Ltd コード列検索装置、検索方法及びプログラム
WO2011086915A1 (ja) * 2010-01-18 2011-07-21 株式会社エスグランツ コード列検索装置、検索方法及びプログラム
JP2011145991A (ja) * 2010-01-18 2011-07-28 S Grants Co Ltd コード列検索装置、検索方法及びプログラム
US9720976B2 (en) 2011-03-31 2017-08-01 Fujitsu Limited Extracting method, computer product, extracting system, information generating method, and information contents
US9378126B2 (en) 2012-03-06 2016-06-28 Fujitsu Limited Decompression apparatus and decompression method

Also Published As

Publication number Publication date
JP3333549B2 (ja) 2002-10-15

Similar Documents

Publication Publication Date Title
Silva de Moura et al. Fast and flexible word searching on compressed text
US9619565B1 (en) Generating content snippets using a tokenspace repository
JP3696745B2 (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2758826B2 (ja) 文書検索装置
US9146967B2 (en) Multi-stage query processing system and method for use with tokenspace repository
US5745745A (en) Text search method and apparatus for structured documents
US6415250B1 (en) System and method for identifying language using morphologically-based techniques
US5748953A (en) Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US20020165707A1 (en) Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers
JPH05324722A (ja) 文書検索方式
US6620207B1 (en) Method and apparatus for processing chinese teletext
JP2001109754A (ja) 索引ファイルを使用した検索方法及びそれに用いる装置
JPH06290217A (ja) 文書検索方式
JPH07319920A (ja) 文書検索方法及び装置
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JP3325677B2 (ja) 文書検索装置
JP3489237B2 (ja) 文書検索方法
JP2519130B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
JPH07182354A (ja) 電子文書の作成方法
JPH03150668A (ja) 検索システムの入力文字列正規化方式
JPH05135102A (ja) 文書検索方式
JPH08115330A (ja) 類似文書検索方法および装置
JP3187671B2 (ja) 電子辞書表示装置
JPH0954781A (ja) 文書検索システム
WO1992009960A1 (en) Data retrieving device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070726

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080726

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090726

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees