JP2729491B2 - 可変長文字列検出装置 - Google Patents

可変長文字列検出装置

Info

Publication number
JP2729491B2
JP2729491B2 JP63227502A JP22750288A JP2729491B2 JP 2729491 B2 JP2729491 B2 JP 2729491B2 JP 63227502 A JP63227502 A JP 63227502A JP 22750288 A JP22750288 A JP 22750288A JP 2729491 B2 JP2729491 B2 JP 2729491B2
Authority
JP
Japan
Prior art keywords
character string
character
signal
collation
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63227502A
Other languages
English (en)
Other versions
JPH0276072A (ja
Inventor
哲也 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63227502A priority Critical patent/JP2729491B2/ja
Publication of JPH0276072A publication Critical patent/JPH0276072A/ja
Priority to US07/859,627 priority patent/US5212697A/en
Application granted granted Critical
Publication of JP2729491B2 publication Critical patent/JP2729491B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、磁気ディスクや光ディスク等の2次記憶に
保存されている文書ファイルを入力し、あらかじめ登録
されている文字列と照合を行なうことにより、文字情報
(テキスト)中から登録文字列および誤り文字列を検索
する装置に関する。
(従来の技術) 従来の文字列検出方法としては、(1)ソートサーチ
法、(2)連想メモリ法、(3)セルラアレイ法、
(4)有限状態オートマトン法、(5)DP法等があげら
れるが、これらの方法には以下のような問題があった。
(2),(3)は、長い文字列が扱えない、(1),
(2),(3),(5)は可変長文字列のノンアンカー
マッチが扱えない、(5)は処理速度が遅い、(3),
(4),(5)はハードウェアサイズが小さくならない
などの問題がある。これらの問題点の一部を解決するた
めに、(2)と(4)を組み合わせた文字列検索LSI
(日本電気−ISSP)が開発されている。これを示す文献
に、高橋、他「ストリング・マッチング・ハードウェア
のアーキテクチャ」電子通信学会研究報告(コンピュー
タシステム)、CPSY 86−57(1986.7)がある。この場
合でも、装置規模が許容される誤り文字数に比例するた
め、ハードウェア構成の制約により現実には誤り文字数
が1文字程度のLSIしか製作されていない。
(発明が解決しようとする課題) 上述の文献のISSPはN文字の誤り・抜け・挿入のすべ
てのパターンを検出するように構成できるが、現実的に
は伝送路エラーや2次記憶内で発生するエラーはバース
ト的な誤りがほとんどであり、ランダム誤りは少ない。
そこで本発明では、連続するN文字の誤り・抜け・挿入
のエラーのみを検出し、連続するエラーのみを扱うこと
によりハードウェアの規模を小さくした、実用的な可変
長文字列検出装置を提供することを目的とする。
(課題を解決するための手段) 本発明による可変長文字列検出装置は、それぞれ対応
する複数の文字レジスタを備え、検出する文字列が予め
登録文字列として登録される登録レジスタ、およびファ
イルから入力される文字列をクロック信号に同期して一
文字づつ文字レジスタに移送するシフトレジスタを備
え、対応する文字レジスタの内容を比較し、前記文字列
と前記登録文字列の一致の有無を示す1文字ごとの文字
列照合信号を出力する文字照合部と、文字列照合信号に
所定の論理演算処理を施し、その結果より登録文字列お
よびその連続する部分文字列の有無を示す部分文字列照
合信号を出力する部分文字列検出部と、部分文字列照合
信号に所定の論理演算処理を施し、その結果を照合結果
信号として出力する検出パターン制御部とを有し、照合
結果信号により、登録文字列の有無および部分文字列と
連続する誤り文字列よりなる各種の誤り文字列を前記フ
ァイルから検出することを特徴とする。
(作用) 文字照合部は予め検出する文字列を登録文字列として
登録し、文書ファイル等から入力された文字列の各文字
が登録文字列に有るか否かを示す文字ごとの文字照合信
号を出力する。部分文字列検出部は文字照合信号の論理
積をとることにより、登録文字列とその連続する部分文
字列の有無を示す部分文字列照合信号を出力する。検出
パターン制御部は部分文字列照合信号の中で、登録文字
列を示す照合結果信号と、同信号の否定と他の部分文字
列信号の論理積をとることにより、連続する誤り文字を
含む誤り文字列を示す照合結果信号を出力する。このよ
うにして、可変長文字列検出装置は登録文字列および連
続する誤り文字を含む誤り文字列を検出することができ
る。
(実施例) 次に、本発明の実施例を添付図面を用いて説明する。
第1図は本発明の可変長文字列検出装置の一実施例を示
すブロック図である。この装置は、磁気ディスクや光デ
ィスク等の2次記憶に保存されている文書ファイルを入
力し、あらかじめ登録されている文字列と照合を行な
い、登録文字列と同一の文字列の検出、1文字以上の連
続する誤り・文字抜け・余剰文字挿入を検出する。
装置は、各部1,2および3よりなり、各部の入出力動
作はシフトクロック5と同期して行われる。文字照合部
1は、複数の文字レジスタよりなり、文書ファイル等か
ら検出する文字列が登録文字列として予め登録される。
文書ファイル等からの文字列を検出するときは、入力さ
れる文字列10と登録文字列の対応する各文字を比較し、
一致の有無を示す文字照合信号11を出力する。部分文字
列検出部2は、この信号11を入力し、所定の論理演算処
理を施し、登録文字列およびその部分文字列の有無を示
す部分文字列照合信号12を出力する。検出パターン制御
部3は入力される信号12に所定の論理演算処理を施し登
録文字列の有無および部分文字列を含む各種の文字列を
示す照合結果信号13を出力する。
第2図は文字照合部1の構成例を示す。データセレク
タ20は、登録時に登録文字列1が入力されると、出力a
より登録レジスタ31に出力し、照合時に、文書ファイル
等の文字列1が入力されると、出力bより照合レジスタ
32に出力する。クロックセレクタ21は入力するシフトク
ロック5を登録時に登録レジスタ31に、照合時に照合レ
ジスタ32に出力する。以上のデータセレクタ20およびク
ロックセレクタ21の出力切換は登録/照合セレクト信号
6により制御される。
登録レジスタ31および照合レジスタ32は、図示のよう
にそれぞれ複数個直列に接続され、シフトレジスタ31a
および31bを構成する。前者は、登録時、入力される登
録文字列1の各文字をシフトクロック5に同期して各登
録レジスタ31を通して移送し、登録文字列を登録する、
後者は、同様に文書ファイル等からの文字列1を各照合
レジスタ32を通して移送する。比較器30は各レジスタ31
および32の各出力310および320を入力され、一致したと
き文字照合信号11をアクティブにする。なお、登録レジ
スタ31はシフトレジスタ31aに限定されるものではな
く、予め登録文字列1を記憶するROM等であっても差支
えない。
第6図は、文字照合部1に登録される文字列の例と本
装置によって検出可能な文字列パターンを示したもので
ある。|*」は登録文字列に対して正しくない任意の文
字を表す。
部分文字列検出部2の構成例を第3図(a)に示す。
同部2は抵抗Rを介して電圧Vccが印加される縦線
(列)と、シフトクロック5に同期した文字列照合信号
11が印加される横線(行)と、格子点で行間を接続する
同図(b)のオープンコレクタ型バッファ40で構成され
ている。バッファ40は、文字列照合信号11の論理積をと
り、登録文字列およびそのN文字が連続する部分文字列
を検出する部分文字列検出信号12を列に出力する。
例えば、登録文字列が“STRING"であるとき検出され
る部分文字列は“S",“ST",“STR",“STRI",“STIRN",
“STRING",“TRING",“RING",“ING",“NG",“G"等があ
る。
上記の部分文字列が文書ファイル等に存在すると、部
分文字列照合信号12がアクティブとなる。
検出パターン制御部3の構成例を第4図(a)に示
す。同部3は部分文字列検出部2から部分文字列照合信
号12が入力される列と、抵抗Rを介して電圧Vccが印加
される行と、格子点に接続される同図(b)のオープン
コレクタ型インバートバッファ50およびバッファ40で構
成される。バッファ40および50は、列から入力される部
分文字列照合信号12のアクティブおよび否定の、論理積
をとり照合結果信号13として行に出力する。照合結果信
号13がアクティブとなると、信号13の“STRING"は登録
文字列、“*TRING"〜“STRIN*”は1文字誤りパター
ンの、また“**RING",“S**ING"は2文字誤りパタ
ーン、の文字列が、ファイル文書等にあることを示す。
第5図は検出パターン制御部3の他の構成例であり、
登録文字列からN(自然数)字抜け、またはN字の余剰
文字が挿入されたパターンを検出する。直列に接続され
た1ビットラッチ61および62は、シフトクロック5に同
期し、入力Dから入力した部分文字列照合信号12を1ク
ロック遅らせて出力Qに出力して、信号12を1クロック
遅延させる遅延素子である。直列に接続されるラッチ61
および62の出力Dに接続する列線211および212には、そ
れぞれ1クロックおよび2クロック遅延した部分文字列
信号12が出力され、列線211とバッファ40を介して接続
される行線に“SRING"〜“STRNG"等の一文字抜けパター
ンが出力され、さらに“STRING"の列線とインバートバ
ッファ50を介して接続する行線に“S*TRING"〜“STR
*ING"等の一文字挿入パターンが出力される。同様に列
線212と接続する行線に“SING"〜“STG"等の2文字抜け
および“S**TRING"〜“STR**ING"等の2文字挿入
パターンが出力される。このようにして、1文字以上の
連続する誤りを検出することができる。
次に、文書情報から検出すべき文字列(登録文字列)
が、“STRING"という文字列である場合を例にして以下
説明する。第2図の文字照合部1において、登録/照合
セレクト信号6によってデータセレクタ20およびクロッ
クセレクタ21の出力を登録レジスタ31側に接続し、登録
文字列1をシフトクロック5に同期して入力することに
よって登録が行われる。
可変長文字列検出を行なう際には登録/照合セレクト
信号6によってデータセレクタ21およびクロックセレク
タ21の出力を照合レジスタ32側に接続し、文字情報を文
書ファイル等からシフトクロック5に同期して入力す
る。入力される文字情報は1文字ごとに比較器30によっ
て登録文字列と比較され、その結果が文字照合信号11と
して出力される。
第3図の部分文字列検出部2では、行に入力される所
定の文字照合信号11の論理積をとり、列に出力すること
によって登録文字列1の部分文字列を検出する。第3図
に示すように、検出したい文字の文字照合信号11と部分
文字列照合信号12をオープンコレクタ型バッファ40を用
いて接続することにより部分文字列照合信号12を構成す
ることができる。例えば、“STR"という3文字の文字列
を検出したい場合、“S",“T",“R"に対応する文字照合
信号11と部分文字列照合信号12を接続すればよい。ただ
しここでいう「接続」とは電気的等電位にするよう物理
的接続を行なうのではなく、論理的にワイヤード・アン
ドを構成できるようにオープンコレクタバッファ等で接
続することである。
第4図(a)の検出パターン制御部3では、同部3に
入力された部分文字列検出信号12のうち、必要な信号だ
けを照合結果信号13と接続することにより図のようにN
文字誤りパターンの検出が可能となる。例えば、1文字
誤りパターン“S*RING"は“S"に対する部分文字列照
合信号12と、“RING"に対する部分文字列照合信号12
と、“STRING"に対する部分文字列照合信号12の否定信
号を接続することによって構成できる。“STRING"の否
定信号を接続するのは、本構成例では“S*RING"を満
たすパターンのうち正解でない文字列を検出するように
したためであり、これを接続しなければ正解文字列を含
むパターン検出が可能となる。
また、第5図に示す構成例における検出パターン制御
部3のように部分文字列照合信号12にN段の1ビットラ
ッチ61,62群を付加することによって、N文字抜けパタ
ーンおよびN文字挿入パターンの検出ができる。例え
ば、1文字抜けパターン“SRING"を検出する信号を得る
には1クロック前の“RING"信号と現在の“S"信号とを
照合結果信号13に接続すればよい。つまり、文字照合部
1に入力された文字列が、“SRING"である場合、“RIN
G"が検出された1クロック後に“S"が検出されるためで
ある。2文字以上の抜けパターンについても同様にして
検出が可能である。
さらに例えば1文字挿入パターン“S*TRING"を検出
する信号を得るには、1クロック前の“S"信号と現在の
“TRING"信号と現在の“STRING"の否定信号とを照合結
果信号3に接続すればよい。これも文字照合部1に入力
された文字列が“S*TRING"である場合、“S"が検出さ
れた1クロック後に“TRING"が検出されるためである。
2文字以上の挿入パターンの検出についても同様にして
検出が可能である。また前述の誤りパターンの例と同様
に登録文字列(正解文字列)の信号“STRING"の否定信
号を付加しているが、これを除けば正解文字列を含む検
出が可能である。N文字抜けパターン検出の場合は正解
文字列が現われる可能性がないので、正解文字列の否定
信号を付加する必要がない。
以上のようにして、登録文字列に対して正解文字列パ
ターン、連続するN文字誤りパターン、同じくN文字抜
けパターン、同じくN文字挿入パターンの検出ができ
る。
(発明の効果) 以上説明したように、本発明によれば、連続するN文
字の誤り・抜け・挿入のすべてのパターンを検出でき、
すべてのN文字の誤りの抜け・挿入パターンを検出する
装置に比べ、ハードウェア規模が小さくできる。また、
同一モジュールの繰返し構造が多いためVLSI化に好適で
あるなどの効果がある。
【図面の簡単な説明】
第1図は本発明の可変長文字列検出装置の実施例を示す
構成図、 第2図は第1図に示す実施例における文字照合部のブロ
ック図、 第3図(a)は同実施例における部分文字列検出部の構
成例を示す図、第3図(b)はオープンコレクタ型バッ
ファの記号を説明する図、 第4図(a)は同実施例における検出パターン制御部の
構成例1を示す図、第4図(b)はオープンコレクタ型
インバートバッファの記号を説明する図、 第5図は同実施例における検出パターン制御部の他の構
成例を示す図、 第6図は検出可能な文字列のパターンの例を示す図であ
る。 主要部分の符号の説明 1……文字照合部 2……部分文字列検出部 3……検出パターン制御部 20……データセレクタ 21……クロックセレクタ 30……比較器 31……登録レジスタ 32……照合レジスタ 40……オープンコレクタ型バッファ 50……オープンコレクタ型インバートバッファ 61,62……1ビットラッチ

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】それぞれ対応する複数の文字レジスタを備
    え、検出する文字列が予め登録文字列として登録される
    登録レジスタ、およびファイルから入力される文字列を
    クロック信号に同期して一文字づつ前記文字レジスタに
    移送するシフトレジスタを備え、対応する前記文字レジ
    スタの内容を比較し、前記文字列と前記登録文字列の一
    致の有無を示す1文字ごとの文字列照合信号を出力する
    文字照合部と、 前記文字列照合信号に所定の論理演算処理を施し、その
    結果より前記登録文字列およびその連続する部分文字列
    の有無を示す部分文字列照合信号を出力する部分文字列
    検出部と、 前記部分文字列照合信号に所定の論理演算処理を施し、
    その結果を照合結果信号として出力する検出パターン制
    御部とを有し、 前記照合結果信号により、前記登録文字列の有無および
    前記部分文字列と連続する誤り文字よりなる各種の誤り
    文字列を前記ファイルから検出することを特徴とする可
    変長文字列検出装置。
  2. 【請求項2】請求項1に記載の装置において、前記検出
    パターン制御部は、前記クロック信号に同期して順番に
    導通状態となる少なくとも1つの遅延素子を含み、該素
    子を通過した前記部分文字列照合信号に所定の論理演算
    処理を施した結果を照合信号として出力し、該照合信号
    により、前記登録文字列から連続する文字欠落、または
    連続する余剰文字を含む誤り文字列を前記ファイルから
    検出することを特徴とする可変長文字列検出装置。
JP63227502A 1988-09-13 1988-09-13 可変長文字列検出装置 Expired - Lifetime JP2729491B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP63227502A JP2729491B2 (ja) 1988-09-13 1988-09-13 可変長文字列検出装置
US07/859,627 US5212697A (en) 1988-09-13 1992-03-20 Variable length character string detection apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63227502A JP2729491B2 (ja) 1988-09-13 1988-09-13 可変長文字列検出装置

Publications (2)

Publication Number Publication Date
JPH0276072A JPH0276072A (ja) 1990-03-15
JP2729491B2 true JP2729491B2 (ja) 1998-03-18

Family

ID=16861899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63227502A Expired - Lifetime JP2729491B2 (ja) 1988-09-13 1988-09-13 可変長文字列検出装置

Country Status (1)

Country Link
JP (1) JP2729491B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2984033B2 (ja) * 1990-07-05 1999-11-29 キヤノン株式会社 画像検索装置及び画像検索方法
JP3275816B2 (ja) 1998-01-14 2002-04-22 日本電気株式会社 記号列検索方法及び記号列検索装置並びに記号列検索プログラムを記録した記録媒体
JP3613134B2 (ja) 2000-05-12 2005-01-26 日本電気株式会社 高速ターボデコーダ
JP5439721B2 (ja) * 2008-01-07 2014-03-12 富士通株式会社 学習支援システム、プログラムおよび学習支援方法

Also Published As

Publication number Publication date
JPH0276072A (ja) 1990-03-15

Similar Documents

Publication Publication Date Title
JP2790031B2 (ja) ネット情報抽出方法および装置
JP2702927B2 (ja) 文字列検索装置
JPS62217321A (ja) 高速サ−チプロセツサ
JP2737173B2 (ja) 記号列照合装置とその制御方法
JPH04271443A (ja) データベース構築方法及び装置
US20180089019A1 (en) Validation of a symbol response memory
US5212697A (en) Variable length character string detection apparatus
JP2729491B2 (ja) 可変長文字列検出装置
US6898722B2 (en) Parallel data transfer method and system of DDR divided data with associated transfer clock signal over three signal lines
JP2693914B2 (ja) 検索システム
US4979101A (en) Apparatus for retrieving character strings
Chen et al. Simplified odd-even sort using multiple shift-register loops
EP0178651B1 (en) Data retrieving apparatus
JP2674810B2 (ja) 多重化n連一致保護回路
JPH0268663A (ja) 文字列検索装置
Yamada et al. A character string search processor
JP2541944B2 (ja) 並び換え部分文字列結合処理方式
Slobodová Communication for alternating machines
RU2028664C1 (ru) Устройство для параллельной обработки данных
Smith et al. The tree-match chip
Dyer et al. One-way Bounded Cellular Acceptors
JP2773657B2 (ja) 文字列検索装置
JPH0421227B2 (ja)
JPH1065753A (ja) 通信プロトコル処理方法
JPH0926872A (ja) パイプラインマージソータ