JPH024026B2 - - Google Patents

Info

Publication number
JPH024026B2
JPH024026B2 JP58211720A JP21172083A JPH024026B2 JP H024026 B2 JPH024026 B2 JP H024026B2 JP 58211720 A JP58211720 A JP 58211720A JP 21172083 A JP21172083 A JP 21172083A JP H024026 B2 JPH024026 B2 JP H024026B2
Authority
JP
Japan
Prior art keywords
address
data
character string
state
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58211720A
Other languages
English (en)
Other versions
JPS60105039A (ja
Inventor
Ushio Inoe
Haruo Hayamizu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP58211720A priority Critical patent/JPS60105039A/ja
Publication of JPS60105039A publication Critical patent/JPS60105039A/ja
Publication of JPH024026B2 publication Critical patent/JPH024026B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 (発明の属する分野) 本発明は文字列中に所定の文字列が存在するか
否かを判定するための文字列照合方式に関するも
のである。
(従来の技術) データ処理システムの分野では、文章等の文字
列データの集まりの中からキーとなる特定の部分
文字列を含むもののみを検索したり、文字列デー
タ中に含まれるすべてのキーを抽出することがし
ばしば必要となる。通常、1つの文字はnビツト
の固定長のコードで表現されるため、文字列デー
タはnビツト単位のコードの系列となる。一般に
文字列データは磁気デイスク等の電子計算機の外
部記憶装置に格納されており、検索時に中央処理
装置へ1文字ずつ直列に転送される。従つて、処
理時間の短縮のためには、データの転送と同時に
検索を行うことが必要となる。
第1図はこのような文字列照合機構の説明図で
ある。第1図において、1は文字列データが格納
された記憶装置、2は文字列の照合を行う文字列
照合装置、3は文字列データ転送路、4は検索結
果を出力する信号線である。文字列データは記憶
装置1からデータ転送路3を経由して文字列照合
装置2へ1文字ずつ直列に入力される。文字列照
合装置2では予じめ記憶されているキーとなる部
分文字列と入力されたデータを照合し、両者の一
致が検出された時点で信号線4に一致信号を出力
する。文字列照合装置2において文字列の照合を
行う方式として、従来より有限オートマトンを用
いる方法が一般に知られている。(L.A.Hollaar
“Hardware systems for Text Information
Retrieval”ACM SIGIR 6th Conference1983) 第2図は有限オートマトンの状態遷移を表わし
た説明図である。第2図において、5はオートマ
トンの状態、6は状態遷移の方向を表わし、文字
列データの中の“DOG”という3文字のキーを
照合することができる。以下、この動作を説明す
る。オートマトンの初期状態は状態(0)であ
り、入力文字が“D”であると状態(1)へ遷移す
る。第2図において“#”はその他の文字を表わ
し、状態(0)における入力文字が“D”以外な
らば引き続き状態(0)にとどまる。状態(1)につ
いても同様であり、入力文字が“0”ならば状態
(2)へ、“D”ならば再び状態(1)へ、それ以外なら
ば状態(0)へ遷移する。状態(2)において入力文
字が“G”ならば状態(3)へ遷移し、“DOG”とい
うキーを検出したことになり、第1図の信号線4
から一致信号が出力される。
第3図は8ビツトのJISコードで表現された文
字列データを対象とした従来の有限オートマトン
の実現回路構成の説明図である。第3図におい
て、3は文字列データ転送路、4は検索結果を出
力する信号線であり、7は16ビツトのアドレスレ
ジスタ、8は64KB(256×28B)のランダムアク
セス・メモリ、9はアドレスデコーダ、10は8
ビツトのメモリレジスタ、11は判別回路であ
り、12,14,15は8ビツト幅のデータ線、
13は16ビツト幅のアドレス線である。
第4図は、第3図のランダムアクセス・メモリ
8に格納された従来の状態遷移テーブルの内容を
表わしたものであり、16は8ビツトのデータ、
17はメモリアドレスの上位8ビツト、18はメ
モリアドレスの下位8ビツトである。なお、論理
的にはメモリの上位アドレス17が状態番号、メ
モリの下位アドレス18が文字コードに対応して
おり、19はメモリの下位アドレス18のコード
によつて表現されるコード対応の文字である。
入力文字はデータ転送路3よりアドレスレジス
タ7の下位8ビツトにセツトされる。アドレスレ
ジスタ7の上位8ビツトには初期値としてオール
ゼロがセツトされており、アドレス線13を経由
してアドレスデコーダ9に入力され、ランダムア
クセス・メモリ8から当該アドレスに格納されて
いる8ビツトのデータ16が読み出され、データ
線14を経由してメモリレジスタ10に格納され
る。判別回路11ではデータ線15よりメモリレ
ジスタ10の内容を参照し、値がハイバリユー
(16進表示FF)ならば信号線4に一致信号を
出力し、ハイバリユー以外ならばデータ線12を
経由してメモリレジスタ10の内容をアドレスレ
ジスタ7の上位8ビツトにセツトされる。以上の
動作をデータ転送路3から1文字入力されるごと
に繰り返すことにより、照合処理が実行される。
以上説明した従来の方式では、入力文字列デー
タの照合中に一致が識別されるとメモリレジスタ
にハイバリユーがセツトされるため、以後の状態
遷移ができなくなり照合動作を終了していた。従
つて、たとえ複数のキーをテーブルに登録した場
合でも少くともそのうちの1つが入力文字列デー
タに含まれているかどうかの判別しかできないと
いう欠点があつた。
(発明の目的) 本発明は、状態遷移テーブルとは別に複数の部
分文字列のそれぞれに対応する番号を登録した一
致判定テーブルを使用することを特徴とし、その
目的は入力文字列中に含まれるすべての部分文字
列を照合できるようにしたことである。以下、図
面について詳細に説明する。
(発明の構成および作用) 第5図は本発明を用いた有限オートマトンの実
現回路の構成を示す一実施例のブロツク図であ
り、8ビツトのコードで表現された文字列データ
を対象とした照合方式の説明図である。
図において、20は64KB(256×28B)のラン
ダムアクセス・メモリ、21はメモリレジスタ、
22は判別回路、23はアドレスデコーダ出力
線、24,25は8ビツトのデータ線である。
第6図及び第7図は、キーとなる部分文字列
“ABC”と“BCD”の両方について同時に照合す
る場合のランダムアクセス・メモリの内容の一例
を表わしたものであり、第6図は第5図のランダ
ムアクセス・メモリ8に格納された状態遷移テー
ブル、第7図は第5図のランダムアクセス・メモ
リ20に格納された一致判定テーブルである。第
7図において、26は8ビツトのデータ、27は
メモリアドレスの上位8ビツト、28はメモリア
ドレスの下位8ビツトであり、構成としては第6
図の状態遷移テーブルと同一である。
次に、第5図の動作について第3図との相異点
を中心に説明する。第5図では、アドレスデコー
ダ9の出力は出力線23によつて2方向へ分配さ
れ、ランダムアクセス・メモリ8から当該アドレ
スに格納されている8ビツトのデータ16が読み
出されデータ線14を経由してメモリレジスタ1
0に格納されるとともに、ランダムアクセスメモ
リ20からも同一アドレスに格納されている8ビ
ツトのデータ26が読み出されデータ線24を経
由してメモリレジスタ21に格納される。メモリ
レジスタ10の内容はデータ線12を経由してア
ドレスレジスタ7の上位8ビツトにセツトされ、
メモリレジスタ21の内容はデータ線25より判
別回路22に加えられ、値がオールゼロ以外なら
ば信号線4に一致信号およびメモリレジスタ21
の内容が出力される。
以上の動作から明らかなように、状態遷移のた
めの情報即ちデータ16と、一致判定のための情
報即ちデータ26は独立に処理されるため、入力
文字列データとキーとなる部分文字列が一致した
場合にも状態遷移が可能になり、従つて複数のキ
ーについて同時に照合することができる。
第8図は、状態遷移テーブル及び一致判定テー
ブルを作成するためのフローチヤートを示し、3
0,31はそれぞれ256個の作業域、32で示し
たlはキーとなる部分文字列の長さ、33で示し
たKは部分文字列データ、34で示したiはテー
ブル内のアドレスの上位8ビツトを表わす変数で
ある。
このフローチヤートは大きく分けて3つのフエ
ーズからなり、第1のフエーズではボツクス36
を中心としたテーブル類の初期設定処理、第2の
フエーズではDOループ37によるキーを順次テ
ーブルに登録しいく処理、第3のフエーズでは
DOループ38,39によるテーブルを行単位で
複写していく処理を行う。上記3つのフエーズに
より、状態遷移テーブルおよび一致判定テーブル
が完成する。このように、2つのテーブルの作成
は機械的に行うことができ、かつキーの個数と長
さに関する個別の制約はない。
第9図は、第8図に示したフローチヤートに従
つて作成した状態遷移テーブル、一致判定テーブ
ル及び作業域の内容を表わしており、キーとなる
文字列は“ABC”、“BCD”、BAD”の3つであ
る。
なお、上記説明では状態遷移テーブルと一致判
定テーブルをそれぞれ独立なランダムアクセス・
メモリに格納する場合を示したが、1つのランダ
ムアクセス・メモリのワード幅を拡張し、例えば
上位ビツトに状態遷移テーブルを、下位ビツトに
一致判定テーブルを格納することも可能である。
(効果) 以上説明したように、本発明は状態遷移テーブ
ルとは別に複数の部分文字列のそれぞれに対応す
る番号を登録した一致判定テーブルを設け、2つ
のテーブルを同期して索引するものであるから、
文字列データ中に含まれる相異なる複数の部分文
字列のすべてについて同時に照合でき、かつテー
ブルのサイズが許す限り任意の数の任意の長さの
部分文字列を照合できるという利点がある。
【図面の簡単な説明】
第1図は文字列照合機構の説明図、第2図は有
限オートマトンの状態遷移を表わした説明図、第
3図は従来の有限オートマトンの実現回路構成
図、第4図は従来の状態遷移テーブルの構成図、
第5図は本発明を用いた有限オートマトンの実現
回路の構成を示す一実施例のブロツク図、第6図
は第5図に対応する状態遷移テーブルの構成図、
第7図は第5図に対応する一致判定テーブルの構
成図、第8図は状態遷移テーブル及び一致判定テ
ーブルを作成するためのフローチヤート、第9図
は第8図のフローチヤートに従つて作成した状態
遷移テーブル、一致判定テーブル及び作業域の構
成図である。 1…記憶装置、2…文字列照合装置、3…デー
タ転送路、4…信号線、5…オートマトンの状
態、6…状態遷移の方向、7…アドレスレジス
タ、8,20…ランダムアクセス・メモリ、9…
アドレスデコーダ、10,21…メモリレジス
タ、11,22…判別回路、12,14,15,
24,25…データ線、13…アドレス線、1
6,26…データ、17,27…メモリの上位ア
ドレス、18,28…メモリの下位アドレス、1
9,29…コード対応の文字、23…デコーダ出
力線、30,31…作業域、32…部分文字列の
長さ、33…部分文字列データ。

Claims (1)

    【特許請求の範囲】
  1. 1 nを正の偶数とした時、nビツトのコードで
    表現される文字によつて構成される文字列中に、
    所定の部分文字列が存在するか否かを判定するた
    め、コードと状態番号をエントリとする2次元の
    状態遷移テーブルを使用した有限オートマトンを
    利用する照合方式において、状態遷移テーブルと
    は別に複数の部分文字列のそれぞれに対応する番
    号を登録した一致判定テーブルを設け、2つのテ
    ーブルを同時に索引することにより、相異なる複
    数の部分文字列のすべてについて同時に判定する
    ことを特徴とする文字列照合方式。
JP58211720A 1983-11-12 1983-11-12 文字列照合方式 Granted JPS60105039A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58211720A JPS60105039A (ja) 1983-11-12 1983-11-12 文字列照合方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58211720A JPS60105039A (ja) 1983-11-12 1983-11-12 文字列照合方式

Publications (2)

Publication Number Publication Date
JPS60105039A JPS60105039A (ja) 1985-06-10
JPH024026B2 true JPH024026B2 (ja) 1990-01-25

Family

ID=16610482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58211720A Granted JPS60105039A (ja) 1983-11-12 1983-11-12 文字列照合方式

Country Status (1)

Country Link
JP (1) JPS60105039A (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265242A (en) * 1985-08-23 1993-11-23 Hiromichi Fujisawa Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
JPH0797373B2 (ja) * 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
JPH0625925B2 (ja) * 1985-09-13 1994-04-06 日本電気株式会社 順序論理装置
JP2550022B2 (ja) * 1986-01-08 1996-10-30 株式会社日立製作所 文書情報検索方式
DE69032712T2 (de) * 1989-06-14 1999-07-01 Hitachi, Ltd., Tokio/Tokyo Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung
US5220625A (en) * 1989-06-14 1993-06-15 Hitachi, Ltd. Information search terminal and system
US5471610A (en) * 1989-06-14 1995-11-28 Hitachi, Ltd. Method for character string collation with filtering function and apparatus
US5748953A (en) * 1989-06-14 1998-05-05 Hitachi, Ltd. Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US5140644A (en) * 1990-07-23 1992-08-18 Hitachi, Ltd. Character string retrieving system and method
JPH04348469A (ja) * 1990-07-23 1992-12-03 Hitachi Ltd 文字列検索装置およびその方法
KR20050072128A (ko) * 2002-10-29 2005-07-08 록히드 마틴 코포레이션 하드웨어 파서 가속기

Also Published As

Publication number Publication date
JPS60105039A (ja) 1985-06-10

Similar Documents

Publication Publication Date Title
US5140644A (en) Character string retrieving system and method
US4241402A (en) Finite state automaton with multiple state types
US5319762A (en) Associative memory capable of matching a variable indicator in one string of characters with a portion of another string
US4285049A (en) Apparatus and method for selecting finite success states by indexing
US5138669A (en) Range-conditional character string retrieving method and system
JPH024026B2 (ja)
JP3141866B2 (ja) 連想記憶装置及び連想メモリ検索方法
JPH0315221B2 (ja)
JPH0746362B2 (ja) 文字列照合方法
JP3027754B2 (ja) 連想記憶装置
EP0227348A2 (en) Content addressable memory circuit and method
US3697951A (en) Pattern recognition by multiple associative transformations
EP0468402B1 (en) Character string retrieving system and method
JPH04348472A (ja) 数値検索装置およびその方法
JPH07120356B2 (ja) 文字列パタ−ンマツチング装置
JPH0664586B2 (ja) 文字列照合方法
JP2588261B2 (ja) Ocrによる住所データベース検索装置
JPH04279973A (ja) 文字列比較方式
JPS6024631A (ja) 情報登録および検索方式
JP2839515B2 (ja) 文字読取システム
SU342185A1 (ru) УСТРОЙСТВО дл ПОИСКА ИНФОРМАЦИИ
JP2582355B2 (ja) 数値分布比較検索方法
JPS5827240A (ja) フアイル記憶方式
JPS5820075B2 (ja) パタ−ン認識装置
JPS5850044A (ja) インデクス・レコ−ドの検索処理方式