JPH05135102A - 文書検索方式 - Google Patents

文書検索方式

Info

Publication number
JPH05135102A
JPH05135102A JP3323914A JP32391491A JPH05135102A JP H05135102 A JPH05135102 A JP H05135102A JP 3323914 A JP3323914 A JP 3323914A JP 32391491 A JP32391491 A JP 32391491A JP H05135102 A JPH05135102 A JP H05135102A
Authority
JP
Japan
Prior art keywords
document
search
bit string
character string
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3323914A
Other languages
English (en)
Other versions
JP3253657B2 (ja
Inventor
Masajirou Iwasaki
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP32391491A priority Critical patent/JP3253657B2/ja
Publication of JPH05135102A publication Critical patent/JPH05135102A/ja
Application granted granted Critical
Publication of JP3253657B2 publication Critical patent/JP3253657B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文字列検索において利用する表を小さく抑え
つつ、かつ効率的に文書を絞り込むこと。 【構成】 入力部1において検索文字列を入力する。候
補文書検索処理部3においてデータ部5のビット列成分
テーブル6を利用し、文字列を含むと思われる候補文書
ファイルを抽出し、さらに文書検索処理部4で実際に文
書データ7の候補文書から文字列を検索し文書を特定す
る。出力部8において特定された文書をディスプレイに
出力する。候補文書検索時には、検索文字列中のあるビ
ット列が文書中に存在するか否かをそのビット列成分テ
ーブルを利用して判定し、検索対象文書を絞り込む。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、文書検索方式に関し、より詳細
には、処理時間が短く、かつ検索に利用するインデック
ステーブルを少なく抑えて、全文書に対して文字列検索
する文書検索方式に関する。
【0002】
【従来技術】本発明に係る従来技術を記載した公知文献
としては、「全文検索用テキストサーチマシンの開発」
(電子情報通信学会技術研究報告 DE89-36〜47,1989
年12月)がある。この文献に記載された従来方法では、
文書ファイルとは別に、各文書にどの文字が含まれるか
を示す文字成分表を持つ。検索時には検索文字列中の各
文字を含む文書を文字成分表より探す。しかし、検索文
字列及び文書を文字の列としてではなく、検索文字列の
各文字が独立に文書中に存在する文書だけを抽出するの
で、検索文字列を含まない文書も抽出する。さらに、文
書ファイルから生成した凝縮文書から文字列を検索する
ことにより、最終的に文書を検索する。従来技術の文字
成分表は、すべての2バイトコードの文字に対してその
文字が文書に存在するか否かを示すので、表が巨大にな
る。また、従来技術では、文字の連結を考慮せずに、文
書に文字があるか否かのみで検索するために、十分に絞
り込めない。従って、次段階で正確に検索する処理の負
担が大きい。
【0003】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、文字列検索において利用する表を小さく抑えつ
つ、かつ効率的に文書を絞り込むようにした文書検索方
式を提供することを目的としてなされたものである。
【0004】
【構成】本発明は、上記目的を達成するために、(1)
大量の文書データを保持し、入力装置から入力された検
索文字列を含む文書を検索し、出力装置により検索した
文書を出力する文書検索装置において、第一段階として
大まかに検索文字列を含むと予想される候補文書を検索
し、第二段階としてその候補文書からさらに正確に文書
を検索する二段階の検索処理をする場合に、第一段階の
処理として、文書及び検索文字列をビット列と解釈し、
予め文書から規則的に抽出したビット列のインデックス
テーブルを利用し、検索文字列からも同様に規則的に抽
出したビット列を含む文書を検索することにより、検索
文字列を含むと思われる候補文書を検索すること、更に
は、(2)前記インデックステーブル及び検索処理に利
用するために、文書及び検索文字列から抽出するビット
列として、2バイト文字を縮めたビット列及び文字の連
結情報として2文字に跨るビット列を抽出することによ
り候補文書を効率的に検索し、かつ検索に必要となるイ
ンデックステーブルの大きさを抑えること、更には、
(3)前記複数のインデックステーブルから得られた各
文書に検索文字列のビット列が存在するか否かを示す情
報を複数のビット列情報とし、各ビット列を論理演算す
ることにより、高速に文書を検索することを特徴とした
ものである。以下、本発明の実施例に基づいて説明す
る。
【0005】図1は、本発明による文書検索方式の一実
施例を説明するための構成図で、図中、1は入力部、2
は処理部、3は候補文書検索処理部、4は文書検索処理
部、5はデータ部、6はビット列成分テーブル、7は文
書データ、8は出力部である。入力部1において検索文
字列を入力する。候補文書検索処理部3においてデータ
部5のビット列成分テーブル6を利用し、文字列を含む
と思われる候補文書ファイルを抽出し、さらに文書検索
処理部4で実際に文書データ7の候補文書から文字列を
検索し文書を特定する。出力部8において特定された文
書をディスプレイに出力する。文書データ7は、各文書
のテキストファイルである。ビット列成分テーブル6は
各文書毎に含まれるビット列成分のテーブルである。
【0006】指定された検索文字列を文書から検索する
場合に、通常すべての文書データ7の各文字と検索文字
列を照合する。しかし、大量の文書がある場合、すべて
の文書データ7と検索文字列を照合する処理は極めて時
間を要する。従って、従来方法では、文字成分テーブル
を利用し、検索対象の文書を絞り込んでから文字列の照
合をするようにしている。しかし、絞り込みが不十分な
ために、詳細な文字列検索をする次処理に負担がかか
る。また、各文書ごとにすべでの2バイト文字のビット
領域を文字成分テーブルに確保する必要があり、テーブ
ルが大きくなりやすい。
【0007】本発明では、成分テーブルとして、文字成
分が文書中に存在するか否かではなく、文書及び検索文
字列をビット列として扱い、あるビット列が文書中に存
在するか否かを示すビット列成分テーブル6を利用す
る。候補文書検索時には、検索文字列中のあるビット列
が文書中に存在するか否かをそのビット列成分テーブル
を利用して判定し、検索対象文書を絞り込む。
【0008】対象文書は、日本語が扱えるように基本的
に2バイトコードのテキストデータとする。各文書をビ
ットの並びとして捉え、文書登録時に次に示すビット成
分に分解し、図2に示すようなビット成分テーブルを作
成する。 圧縮ビット列成分1 2バイトコードを1バイトに圧縮した成分により構成さ
れている。つまり、図2の文書中の文字列「文字列検
索」は、2進のビット列で表される。この1文字のビッ
ト列の偶数ビットを取り出して1バイトとする。 圧縮ビット列成分2 2バイトコードの奇数ビットを取り出して1バイトとす
る。 境界ビット列成分 各2バイトコード間の連結を示す。2バイトコードの下
位4ビットと次の2バイトコードの上位4ビットにより
1バイトを生成する。
【0009】図3は、ビット列成分テーブルを示す。図
では、0000 0010のビット列は文書1,4,5,6
にはなく、文書2,3にはあることを意味する。上記の
3つのビット列成分毎にテーブルを持ち、各テーブルは
各文書毎に各ビット列が存在するか否かを0と1で表し
ている。これらのビット列テーブルは、文書登録時に文
書から各ビット列成分を抽出して各テーブルに加える。
候補文書検索処理時には、指定された検索文字列を同様
に各ビット列成分に分解する。検索文字列が「検索」で
ある場合を例とすると、まず、図4のように上記の3種
類のビット列成分に分解する。
【0010】次に、検索文字列から抽出した5つのビッ
ト列成分を持つ文書を各ビット列テーブルから取り出
す。ここで、それぞれのテーブルを順次調べるのではな
く、高速化のため、図5のように抽出したビット列成分
の0100 0001については、圧縮ビット列成分テ
ーブルから対応するデータ0010 1101…を取り
出す。同様に、各テーブルからビット列に対応するデー
タを取り出す。この文書中にビット列が存在するか否か
を示す各ビット列に対してAND演算を行う。演算結果
のビット列について1である文書を候補文書とする。さ
らに、文書検索処理で文書データの候補文書のテキスト
データを実際にサーチして、最終的に文書を特定する。
【0011】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1に対応する効果:候補文書を検索する時
に利用するインデックステーブルは、従来方式では2バ
イトコードの文字単位なので、テーブルのサイズは65
536×総文書数ビットとなる。しかし、本発明では、
1バイトのビット列単位なので、3つのテーブルのサイ
ズの合計は3×256×総文書数ビットであり、インデ
ックステーブルを非常に小さく抑えることができる。 (2)請求項2に対応する効果:文書をビット列と捉
え、インデックステーブルに利用するビット列として、
2文字に跨ったビットを利用することにより、効率良く
候補文書を絞り込むことができる。
【図面の簡単な説明】
【図1】 本発明による文書検索方式の一実施例を説明
するための構成図である。
【図2】 ビット列成分抽出を示す図である。
【図3】 ビット列成分テーブルを示す図である。
【図4】 検索文字列からのビット列成分抽出を示す図
である。
【図5】 ビット列成分テーブルによる検索を示す図で
ある。
【符号の説明】
1…入力部、2…処理部、3…候補文書検索処理部、4
…文書検索処理部、5…データ部、6…ビット列成分テ
ーブル、7…文書データ、8…出力部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 大量の文書データを保持し、入力装置か
    ら入力された検索文字列を含む文書を検索し、出力装置
    により検索した文書を出力する文書検索装置において、
    第一段階として大まかに検索文字列を含むと予想される
    候補文書を検索し、第二段階としてその候補文書からさ
    らに正確に文書を検索する二段階の検索処理をする場合
    に、第一段階の処理として、文書及び検索文字列をビッ
    ト列と解釈し、予め文書から規則的に抽出したビット列
    のインデックステーブルを利用し、検索文字列からも同
    様に規則的に抽出したビット列を含む文書を検索するこ
    とにより、検索文字列を含むと思われる候補文書を検索
    することを特徴とする文書検索方式。
  2. 【請求項2】 前記インデックステーブル及び検索処理
    に利用するために、文書及び検索文字列から抽出するビ
    ット列として、2バイト文字を縮めたビット列及び文字
    の連結情報として2文字に跨るビット列を抽出すること
    により候補文書を効率的に検索し、かつ検索に必要とな
    るインデックステーブルの大きさを抑えることを特徴と
    する請求項1記載の文書検索方式。
  3. 【請求項3】 前記複数のインデックステーブルから得
    られた各文書に検索文字列のビット列が存在するか否か
    を示す情報を複数のビット列情報とし、各ビット列を論
    理演算することにより、高速に文書を検索することを特
    徴とする請求項1記載の文書検索方式。
JP32391491A 1991-11-11 1991-11-11 文書検索方法 Expired - Fee Related JP3253657B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32391491A JP3253657B2 (ja) 1991-11-11 1991-11-11 文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32391491A JP3253657B2 (ja) 1991-11-11 1991-11-11 文書検索方法

Publications (2)

Publication Number Publication Date
JPH05135102A true JPH05135102A (ja) 1993-06-01
JP3253657B2 JP3253657B2 (ja) 2002-02-04

Family

ID=18160032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32391491A Expired - Fee Related JP3253657B2 (ja) 1991-11-11 1991-11-11 文書検索方法

Country Status (1)

Country Link
JP (1) JP3253657B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244671A (ja) * 1994-03-02 1995-09-19 Ricoh Co Ltd 文書検索装置
WO2011148511A1 (ja) * 2010-05-28 2011-12-01 富士通株式会社 情報生成プログラム/装置/方法、情報検索プログラム/装置/方法
JP2012216088A (ja) * 2011-03-31 2012-11-08 Fujitsu Ltd 抽出方法、抽出プログラム、抽出システム、情報生成方法、情報生成プログラム、および情報コンテンツ
WO2016001991A1 (ja) * 2014-06-30 2016-01-07 株式会社日立製作所 検索方法
KR102265937B1 (ko) * 2020-12-21 2021-06-17 주식회사 모비젠 시퀀스데이터의 분석 방법 및 그 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59112339A (ja) * 1982-12-20 1984-06-28 Fujitsu Ltd 文書検索高速化方式
JPH03229367A (ja) * 1990-02-05 1991-10-11 Nippon Telegr & Teleph Corp <Ntt> テキストベース検索方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59112339A (ja) * 1982-12-20 1984-06-28 Fujitsu Ltd 文書検索高速化方式
JPH03229367A (ja) * 1990-02-05 1991-10-11 Nippon Telegr & Teleph Corp <Ntt> テキストベース検索方式

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244671A (ja) * 1994-03-02 1995-09-19 Ricoh Co Ltd 文書検索装置
WO2011148511A1 (ja) * 2010-05-28 2011-12-01 富士通株式会社 情報生成プログラム/装置/方法、情報検索プログラム/装置/方法
CN102918524A (zh) * 2010-05-28 2013-02-06 富士通株式会社 信息生成程序、装置、方法以及信息检索程序、装置、方法
JP5741577B2 (ja) * 2010-05-28 2015-07-01 富士通株式会社 情報生成プログラム、情報生成装置、および情報生成方法
CN102918524B (zh) * 2010-05-28 2016-06-01 富士通株式会社 信息生成程序、装置、方法以及信息检索程序、装置、方法
US9501557B2 (en) 2010-05-28 2016-11-22 Fujitsu Limited Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method
JP2012216088A (ja) * 2011-03-31 2012-11-08 Fujitsu Ltd 抽出方法、抽出プログラム、抽出システム、情報生成方法、情報生成プログラム、および情報コンテンツ
WO2016001991A1 (ja) * 2014-06-30 2016-01-07 株式会社日立製作所 検索方法
JPWO2016001991A1 (ja) * 2014-06-30 2017-04-27 株式会社日立製作所 検索方法
KR102265937B1 (ko) * 2020-12-21 2021-06-17 주식회사 모비젠 시퀀스데이터의 분석 방법 및 그 장치

Also Published As

Publication number Publication date
JP3253657B2 (ja) 2002-02-04

Similar Documents

Publication Publication Date Title
JP3672242B2 (ja) パターン検索方法、パターン検索装置、コンピュータプログラム及び記憶媒体
CN1008016B (zh) 输入处理系统
CN105404677A (zh) 一种基于树形结构的检索方法
JPH05324722A (ja) 文書検索方式
JPH06162092A (ja) 情報検索装置
JP3303881B2 (ja) 文書検索方法および装置
JPH05135102A (ja) 文書検索方式
JPS63244259A (ja) キ−ワ−ド抽出装置
CN105426490A (zh) 一种基于树形结构的索引方法
JPH056398A (ja) 文書登録装置及び文書検索装置
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP3325677B2 (ja) 文書検索装置
JPH0750486B2 (ja) キ−ワ−ド抽出装置
JPH1021192A (ja) 操作抽出方式およびマクロ作成方式
JPS63201867A (ja) 文書画像自動要約方式
JPH05158984A (ja) 文字列抽出装置
JP3224917B2 (ja) 名標辞書作成装置
JPH06162096A (ja) レコード検索方法
JPH0816617A (ja) 文書検索方法及び装置
JPH1115845A (ja) 情報検索方法および装置と情報検索プログラムを格納した記録媒体
JP2001202388A (ja) フルテキストサーチ方法および装置
JPH05165889A (ja) 文書検索装置
JPH0452967A (ja) 集合ファイルに対する論理積演算処理方式
JPH03125266A (ja) 電子化文書ファイリングシステム
JPH05324610A (ja) 住所表記漢字入力装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees