JPH024026B2

JPH024026B2 -

Info

Publication number: JPH024026B2
Application number: JP58211720A
Authority: JP
Inventors: Ushio Inoe; Haruo Hayamizu
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1983-11-12
Filing date: 1983-11-12
Publication date: 1990-01-25
Also published as: JPS60105039A

Description

【発明の詳細な説明】（発明の属する分野）本発明は文字列中に所定の文字列が存在するか
否かを判定するための文字列照合方式に関するも
のである。

（従来の技術）データ処理システムの分野では、文章等の文字
列データの集まりの中からキーとなる特定の部分
文字列を含むもののみを検索したり、文字列デー
タ中に含まれるすべてのキーを抽出することがし
ばしば必要となる。通常、１つの文字はｎビツト
の固定長のコードで表現されるため、文字列デー
タはｎビツト単位のコードの系列となる。一般に
文字列データは磁気デイスク等の電子計算機の外
部記憶装置に格納されており、検索時に中央処理
装置へ１文字ずつ直列に転送される。従つて、処
理時間の短縮のためには、データの転送と同時に
検索を行うことが必要となる。

第１図はこのような文字列照合機構の説明図で
ある。第１図において、１は文字列データが格納
された記憶装置、２は文字列の照合を行う文字列
照合装置、３は文字列データ転送路、４は検索結
果を出力する信号線である。文字列データは記憶
装置１からデータ転送路３を経由して文字列照合
装置２へ１文字ずつ直列に入力される。文字列照
合装置２では予じめ記憶されているキーとなる部
分文字列と入力されたデータを照合し、両者の一
致が検出された時点で信号線４に一致信号を出力
する。文字列照合装置２において文字列の照合を
行う方式として、従来より有限オートマトンを用
いる方法が一般に知られている。（L.A.Hollaar
“Hardware systems for Text Information
Retrieval”ACM SIGIR 6th Conference1983）第２図は有限オートマトンの状態遷移を表わし
た説明図である。第２図において、５はオートマ
トンの状態、６は状態遷移の方向を表わし、文字
列データの中の“DOG”という３文字のキーを
照合することができる。以下、この動作を説明す
る。オートマトンの初期状態は状態（０）であ
り、入力文字が“Ｄ”であると状態(1)へ遷移す
る。第２図において“＃”はその他の文字を表わ
し、状態（０）における入力文字が“Ｄ”以外な
らば引き続き状態（０）にとどまる。状態(1)につ
いても同様であり、入力文字が“０”ならば状態
(2)へ、“Ｄ”ならば再び状態(1)へ、それ以外なら
ば状態（０）へ遷移する。状態(2)において入力文
字が“Ｇ”ならば状態(3)へ遷移し、“DOG”とい
うキーを検出したことになり、第１図の信号線４
から一致信号が出力される。

第３図は８ビツトのJISコードで表現された文
字列データを対象とした従来の有限オートマトン
の実現回路構成の説明図である。第３図におい
て、３は文字列データ転送路、４は検索結果を出
力する信号線であり、７は16ビツトのアドレスレ
ジスタ、８は64KB（256×2⁸B）のランダムアク
セス・メモリ、９はアドレスデコーダ、１０は８
ビツトのメモリレジスタ、１１は判別回路であ
り、１２，１４，１５は８ビツト幅のデータ線、
１３は16ビツト幅のアドレス線である。

第４図は、第３図のランダムアクセス・メモリ
８に格納された従来の状態遷移テーブルの内容を
表わしたものであり、１６は８ビツトのデータ、
１７はメモリアドレスの上位８ビツト、１８はメ
モリアドレスの下位８ビツトである。なお、論理
的にはメモリの上位アドレス１７が状態番号、メ
モリの下位アドレス１８が文字コードに対応して
おり、１９はメモリの下位アドレス１８のコード
によつて表現されるコード対応の文字である。

入力文字はデータ転送路３よりアドレスレジス
タ７の下位８ビツトにセツトされる。アドレスレ
ジスタ７の上位８ビツトには初期値としてオール
ゼロがセツトされており、アドレス線１３を経由
してアドレスデコーダ９に入力され、ランダムア
クセス・メモリ８から当該アドレスに格納されて
いる８ビツトのデータ１６が読み出され、データ
線１４を経由してメモリレジスタ１０に格納され
る。判別回路１１ではデータ線１５よりメモリレ
ジスタ１０の内容を参照し、値がハイバリユー
（16進表示FF）ならば信号線４に一致信号を
出力し、ハイバリユー以外ならばデータ線１２を
経由してメモリレジスタ１０の内容をアドレスレ
ジスタ７の上位８ビツトにセツトされる。以上の
動作をデータ転送路３から１文字入力されるごと
に繰り返すことにより、照合処理が実行される。

以上説明した従来の方式では、入力文字列デー
タの照合中に一致が識別されるとメモリレジスタ
にハイバリユーがセツトされるため、以後の状態
遷移ができなくなり照合動作を終了していた。従
つて、たとえ複数のキーをテーブルに登録した場
合でも少くともそのうちの１つが入力文字列デー
タに含まれているかどうかの判別しかできないと
いう欠点があつた。

（発明の目的）本発明は、状態遷移テーブルとは別に複数の部
分文字列のそれぞれに対応する番号を登録した一
致判定テーブルを使用することを特徴とし、その
目的は入力文字列中に含まれるすべての部分文字
列を照合できるようにしたことである。以下、図
面について詳細に説明する。

（発明の構成および作用）第５図は本発明を用いた有限オートマトンの実
現回路の構成を示す一実施例のブロツク図であ
り、８ビツトのコードで表現された文字列データ
を対象とした照合方式の説明図である。

図において、２０は64KB（256×2⁸B）のラン
ダムアクセス・メモリ、２１はメモリレジスタ、
２２は判別回路、２３はアドレスデコーダ出力
線、２４，２５は８ビツトのデータ線である。

第６図及び第７図は、キーとなる部分文字列
“ABC”と“BCD”の両方について同時に照合す
る場合のランダムアクセス・メモリの内容の一例
を表わしたものであり、第６図は第５図のランダ
ムアクセス・メモリ８に格納された状態遷移テー
ブル、第７図は第５図のランダムアクセス・メモ
リ２０に格納された一致判定テーブルである。第
７図において、２６は８ビツトのデータ、２７は
メモリアドレスの上位８ビツト、２８はメモリア
ドレスの下位８ビツトであり、構成としては第６
図の状態遷移テーブルと同一である。

次に、第５図の動作について第３図との相異点
を中心に説明する。第５図では、アドレスデコー
ダ９の出力は出力線２３によつて２方向へ分配さ
れ、ランダムアクセス・メモリ８から当該アドレ
スに格納されている８ビツトのデータ１６が読み
出されデータ線１４を経由してメモリレジスタ１
０に格納されるとともに、ランダムアクセスメモ
リ２０からも同一アドレスに格納されている８ビ
ツトのデータ２６が読み出されデータ線２４を経
由してメモリレジスタ２１に格納される。メモリ
レジスタ１０の内容はデータ線１２を経由してア
ドレスレジスタ７の上位８ビツトにセツトされ、
メモリレジスタ２１の内容はデータ線２５より判
別回路２２に加えられ、値がオールゼロ以外なら
ば信号線４に一致信号およびメモリレジスタ２１
の内容が出力される。

以上の動作から明らかなように、状態遷移のた
めの情報即ちデータ１６と、一致判定のための情
報即ちデータ２６は独立に処理されるため、入力
文字列データとキーとなる部分文字列が一致した
場合にも状態遷移が可能になり、従つて複数のキ
ーについて同時に照合することができる。

第８図は、状態遷移テーブル及び一致判定テー
ブルを作成するためのフローチヤートを示し、３
０，３１はそれぞれ256個の作業域、３２で示し
たｌはキーとなる部分文字列の長さ、３３で示し
たＫは部分文字列データ、３４で示したｉはテー
ブル内のアドレスの上位８ビツトを表わす変数で
ある。

このフローチヤートは大きく分けて３つのフエ
ーズからなり、第１のフエーズではボツクス３６
を中心としたテーブル類の初期設定処理、第２の
フエーズではDOループ３７によるキーを順次テ
ーブルに登録しいく処理、第３のフエーズでは
DOループ３８，３９によるテーブルを行単位で
複写していく処理を行う。上記３つのフエーズに
より、状態遷移テーブルおよび一致判定テーブル
が完成する。このように、２つのテーブルの作成
は機械的に行うことができ、かつキーの個数と長
さに関する個別の制約はない。

第９図は、第８図に示したフローチヤートに従
つて作成した状態遷移テーブル、一致判定テーブ
ル及び作業域の内容を表わしており、キーとなる
文字列は“ABC”、“BCD”、BAD”の３つであ
る。

なお、上記説明では状態遷移テーブルと一致判
定テーブルをそれぞれ独立なランダムアクセス・
メモリに格納する場合を示したが、１つのランダ
ムアクセス・メモリのワード幅を拡張し、例えば
上位ビツトに状態遷移テーブルを、下位ビツトに
一致判定テーブルを格納することも可能である。

（効果）以上説明したように、本発明は状態遷移テーブ
ルとは別に複数の部分文字列のそれぞれに対応す
る番号を登録した一致判定テーブルを設け、２つ
のテーブルを同期して索引するものであるから、
文字列データ中に含まれる相異なる複数の部分文
字列のすべてについて同時に照合でき、かつテー
ブルのサイズが許す限り任意の数の任意の長さの
部分文字列を照合できるという利点がある。

【図面の簡単な説明】

第１図は文字列照合機構の説明図、第２図は有
限オートマトンの状態遷移を表わした説明図、第
３図は従来の有限オートマトンの実現回路構成
図、第４図は従来の状態遷移テーブルの構成図、
第５図は本発明を用いた有限オートマトンの実現
回路の構成を示す一実施例のブロツク図、第６図
は第５図に対応する状態遷移テーブルの構成図、
第７図は第５図に対応する一致判定テーブルの構
成図、第８図は状態遷移テーブル及び一致判定テ
ーブルを作成するためのフローチヤート、第９図
は第８図のフローチヤートに従つて作成した状態
遷移テーブル、一致判定テーブル及び作業域の構
成図である。１…記憶装置、２…文字列照合装置、３…デー
タ転送路、４…信号線、５…オートマトンの状
態、６…状態遷移の方向、７…アドレスレジス
タ、８，２０…ランダムアクセス・メモリ、９…
アドレスデコーダ、１０，２１…メモリレジス
タ、１１，２２…判別回路、１２，１４，１５，
２４，２５…データ線、１３…アドレス線、１
６，２６…データ、１７，２７…メモリの上位ア
ドレス、１８，２８…メモリの下位アドレス、１
９，２９…コード対応の文字、２３…デコーダ出
力線、３０，３１…作業域、３２…部分文字列の
長さ、３３…部分文字列データ。

Claims

【特許請求の範囲】

１ｎを正の偶数とした時、ｎビツトのコードで
表現される文字によつて構成される文字列中に、
所定の部分文字列が存在するか否かを判定するた
め、コードと状態番号をエントリとする２次元の
状態遷移テーブルを使用した有限オートマトンを
利用する照合方式において、状態遷移テーブルと
は別に複数の部分文字列のそれぞれに対応する番
号を登録した一致判定テーブルを設け、２つのテ
ーブルを同時に索引することにより、相異なる複
数の部分文字列のすべてについて同時に判定する
ことを特徴とする文字列照合方式。