JPH0236475A - 文字列検索装置 - Google Patents

文字列検索装置

Info

Publication number
JPH0236475A
JPH0236475A JP63186523A JP18652388A JPH0236475A JP H0236475 A JPH0236475 A JP H0236475A JP 63186523 A JP63186523 A JP 63186523A JP 18652388 A JP18652388 A JP 18652388A JP H0236475 A JPH0236475 A JP H0236475A
Authority
JP
Japan
Prior art keywords
character string
file
sic
superimpose
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63186523A
Other languages
English (en)
Inventor
Katsuhiko Fujita
克彦 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63186523A priority Critical patent/JPH0236475A/ja
Publication of JPH0236475A publication Critical patent/JPH0236475A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、テキスト処理、文書校正等に際して、テキス
トファイル中から指定した文字列を検索する文字列検索
装置に関する。
従来の技術 従来、日本語テキストファイル中から指定した文字列を
検索する方法として、 ■ 予めインバーテツド・ファイル(I nverte
dfile)を作っておき、それをインデックスとして
検索する方法 ■ 直接、テキストファイルを読み、よく知られたアル
ゴリズムで直接照合する方法(例えば、ボイヤーームー
ア法、クヌースーモリスープラット法等) がある。
発明が解決しようとする問題点 しかし、■の方法によると、インデックス部が大きくな
り過ぎ、メモリ効率の悪いものとなる。
また、■の方法によると、テキストファイルの全文を調
べなければならず、検索効率の悪いものである。
間圧点を解決するための手段 テキストファイルの行又は行に対応する単位毎にスーパ
ーインポーズコードを算出する手段と、算出されたスー
パーインポーズコードを当該行又は行に対応する単位に
対応付けて記憶する手段とを設ける一方、検索すべき文
字列のスーパーインポーズコードを算出する手段を設け
、双方のスーパーインポーズコード相互の照合を行う手
段を設ける。
さらには、テキストファイルの行又は行に対応する単位
よりも大きな段落単位又はファイル単位毎にスーパーイ
ンポーズコードを算出する手段をモ設ケ、スーパーイン
ポーズコードの照合を階層的に行い文字列を検索する。
また、複数種類のスーパーインポーズコードな持つ。
作用 まず、テキストファイル中の各行について、行単位相当
でスーパーインポーズコードが算出され、その算出結果
は、対応付けられて記憶される。−方、検索すべき文字
列についても、そのスーパーインポーズコードが算出さ
れる。そこで、両者のスーパーインポーズコードを相互
に照合することにより、検索すべき文字列が含まれてい
る可能性の有無が判断される。この後の検索は容易であ
る。
つまり、入力テキストファイルの全文を検索しなくても
、求める文字列の検索を効率よく行うことができる。ま
た、複数の文字列に対する検索も容易となる。
特に、段落若しくはファイル単位のスーパーインポーズ
コードをも算出して、階層的なスーパーインポーズコー
ドの照合を行えば、或いは、複数種類のスーパーインポ
ーズコードを用いれば、照合が成功し過ぎることを減ら
し、より効率のよい検索が可能となる。
実施例 本発明の一実施例を図面に基づいて説明する。
文字列検索装置全体の構成を第1図のブロック図に示す
。まず、キーボード等の人力装置1に接続された人力部
2が設けられている。この入力部2には入力されたテキ
ストファイルを記憶するテキストファイル記憶部3とと
もに、文字列検索部4が接続され、その出力が出力部5
を介してCRT等の表示装置6に出力されるように構成
されている。ここに、本実施例では前記テキストファイ
ル記憶部3から与えられるテキストファイル、人力部2
から与えられる検索すべき文字列に基づき各々スーパー
インポーズコード(以下、SICと賂して示す)を算出
する手段としてのSICファイル作成部7が設けられて
いる。このSICファイル作成部7により算出されたS
ICファイルを記憶する記憶手段としてのSIC記憶部
8か設けられている。
このような構成において、SIC作成部7での処理は、
第2図に示すフローチャートに従って行われる。まず、
テキストファイルを入力ファイルとしてオーブンする。
一方、出力用ファイルもオープンする。そして、入力テ
キストファイルから1行を読み、その行に含まれる漢字
のJIS区点コードに基づきSICを計算する。
ここに、第2図に示すSICの計算方法を説明する。い
ま、具体例として、テキストファイル中から「この取り
扱いは、したがって非常に有効である。」なる1行が与
えられた場合で説明する。
この行中に含まれる漢字は、「取j 「扱J 「非J「
常」 「有」 「効」の6文字である。これらの漢字は
各々下記に示すようなJIS区点コードを与えることが
できる。
これらの区点コードを、区と点とについて、各々用意し
た94ビツトからなるエリアに「1」を立てることによ
り表現する。第3図はこれらの例示した6つの漢字に対
する表現結果を示し、同図(a)が区の5IC1同図(
b)が点のSICである。
このように、区、点の各々についてのrQJ とr14
 とによるパターンを5IC(スーパーインポーズコー
ド)と称するものである。このようなSICの計算をテ
キストファイル中の各行に対して行い、第4図に示すよ
うな1行番号」 「区の5ICJr点の5ICJからな
るようなレコードとして、元のテキストファイルに対応
したファイルに書き出しておく。例えば、元のテキスト
ファイルを“SAMPLE TXT”とする場合、SI
Cのファイルを“SAMPLE SIC”の如くするこ
とにより区別することができる。
また、1行の処理毎に、そのSICとそれ以前の行のS
ICとのビットのOR(論理和)をとって計算したファ
イル用のSICも作成しておく。
即ち、行単位よりも大きなファイル単位のSICの算出
となる。
そして、テキストファイルが終了した時点で、このファ
イル用のSICを、ファイル管理用の出力ファイル、本
例では“FILE SIC”に書込むことにする。この
ファイルSICは、第5図に示すような「ファイル名」
 「区の5ICJr点の5ICJからなるようなレコー
ド形式とされている。
このようにして、テキストファイルの行単位(行単位で
なくても、行単位に対応する単位であればよい)にSI
Cが算出されて当該性に対応する形でSIC記憶部8に
記憶されるとともに、ファイル単位(この他、段落単位
でもよい)に算出されたファイルSICも記憶される。
一方、文字検索部4における検索すべき文字列について
の処理は、第6図に示すフローチャートに従い行われる
。ここでは、例えば“非常”という文字列を、複数のテ
キストファイル中から検索する場合を考える。この検索
すべき文字列“非常”についても、SICファイル作成
部7により、上記の場合と同様に区、点の各々について
SICが計算される。
このように計算されたSICを用いて、まず、ファイル
SIC中のレコードと照合する。これは、検索すべき文
字列“非常゛に基づき作成したSICにおいて「1」の
立っているビットの全てに対し、ビットが立っているフ
ァイルSIC中のレコードに対応したファイルに“°非
常”という文字列が含まれている可能性があるからであ
る。このようなファイルに対し、今度は、行単位の照合
を行う。ここでも、同様に、゛非常”から得られたSI
Cと行単位のSICとの照合を行い、照合に成功した行
番号中に“非常”なる文字列が含まれている可能性があ
ることが判る。
この照合により得られた行番号に基づき、テキストファ
イル中の該当行のデータを検索し、そのデータに対して
、例えばボイヤーームーア法による文字列照合を行うこ
とで、最終的に“非常”なる文字列が含まれているかど
うかが明かとなる。
また、本実施例方式によれば、例えば2つ以上の漢字列
に対するAND検索、OR検索も可能となる。これは、
上側でのファイルSICとの照合、又は行のSICとの
照合において、照合条件を多少変更するだけで可能であ
る。
また、本実施例では、SICの計算に、JISの区点コ
ードを利用したが、これ以外のものでも、勿論可能であ
る。また、区のSIC1点のSICに加え、更に別種類
のSICを利用して、照合が成功し過ぎるのを避けるよ
うにしてもよい。
さらには、本実施例では漢字だけを対象とし、処理の効
率化を図ったが、他の文字種を対象とすることも可能で
ある。
発明の効果 本発明は、上述したように特に漢字の検索に有効なスー
パーインポーズコードのファイルを利用するようにした
ので、小さなインデックス用のファイルにして、全文を
検索することなく、効率よく、求める文字列の検索が可
能であり、複数の文字列に対する検索も容易であり、さ
らには、インデックス用のファイルとしてのスーパーイ
ンポーズコードのファイルも作成しやすいものである。
【図面の簡単な説明】
図面は本発明の一実施例を示し、第1図はブロック図、
第2図はSIC作成部の処理を示すフローチャート、第
3図はSICパターン例を示す説明図、第4図は行のS
ICのレコード形式を示す説明図、第5図はファイルS
ICのレコード形式を示す説明図、第6図は文字列検索
部の処理を示すフローチャートである。 4 ・照合手段、7・・・スーパーインポーズコード算
出手段、8・・スーパーインポーズコード記憶手段

Claims (1)

  1. 【特許請求の範囲】 1、テキストファイルの行又は行に対応する単位毎にス
    ーパーインポーズコードを算出する手段と、算出された
    スーパーインポーズコードを当該行又は行に対応する単
    位に対応付けて記憶する手段と、検索すべき文字列のス
    ーパーインポーズコードを算出する手段と、双方のスー
    パーインポーズコード相互の照合を行う手段とからなる
    ことを特徴とする文字列検索装置。 2、テキストファイルの行又は行に対応する単位よりも
    大きな段落単位又はファイル単位毎にスーパーインポー
    ズコードを算出する手段を設け、スーパーインポーズコ
    ードの照合を階層的に行うことを特徴とする請求項1記
    載の文字列検索装置。 3、複数種類のスーパーインポーズコードを持つことを
    特徴とする請求項1又は2記載の文字列検索装置。
JP63186523A 1988-07-26 1988-07-26 文字列検索装置 Pending JPH0236475A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63186523A JPH0236475A (ja) 1988-07-26 1988-07-26 文字列検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63186523A JPH0236475A (ja) 1988-07-26 1988-07-26 文字列検索装置

Publications (1)

Publication Number Publication Date
JPH0236475A true JPH0236475A (ja) 1990-02-06

Family

ID=16189986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63186523A Pending JPH0236475A (ja) 1988-07-26 1988-07-26 文字列検索装置

Country Status (1)

Country Link
JP (1) JPH0236475A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7408859B2 (en) 1996-09-25 2008-08-05 Victor Company Of Japan Ltd. Method and apparatus for recording and reproducing information on and from recording disc

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7408859B2 (en) 1996-09-25 2008-08-05 Victor Company Of Japan Ltd. Method and apparatus for recording and reproducing information on and from recording disc
US7415619B2 (en) * 1996-09-25 2008-08-19 Victor Company Of Japan, Ltd. Method and apparatus for recording and reproducing information on and from recording disc

Similar Documents

Publication Publication Date Title
US4862408A (en) Paradigm-based morphological text analysis for natural languages
JPS63198154A (ja) つづり誤り訂正装置
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JPH0236475A (ja) 文字列検索装置
JPS60176169A (ja) 文章処理装置
JPH05233704A (ja) キーワード拡張検索方式
Bakar et al. An evaluation of retrieval effectiveness using spelling‐correction and string‐similarity matching methods on Malay texts
KR20020059555A (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JPH07319890A (ja) 文書登録検索システム
JPH0991305A (ja) 情報処理方法及び装置
JPS63136224A (ja) キ−ワ−ド自動抽出装置
JPH10307839A (ja) テキスト検索装置及び方法
JP3431618B2 (ja) データ検索装置および検索方法
JPH02297193A (ja) 辞書引き装置
JPH04211868A (ja) Cd―romデータの検索用キーワードの作成方法
JPH1166076A (ja) データ派生装置及び方法、並びに、データ派生プログラムを格納した記憶媒体
JPS62256075A (ja) 辞書検索方式
JP2001325292A (ja) 複合語の類似度判定システム、類似度判定方法及び記録媒体
JPH06332949A (ja) 電子ファイリング装置
JPH08278980A (ja) データ処理装置
JPH0830610A (ja) 情報処理装置
JPH0869455A (ja) 文書検索方法,文書検索装置及び文書記憶装置
JPS6395570A (ja) 言語解析方式
JPH1153360A (ja) データ変換装置、データ変換方法及びデータ変換プログラムを記録した媒体
JPH11265385A (ja) 情報検索装置及び方法及び情報検索プログラムを格納した記憶媒体