JPH0315221B2 - - Google Patents

Info

Publication number
JPH0315221B2
JPH0315221B2 JP58211718A JP21171883A JPH0315221B2 JP H0315221 B2 JPH0315221 B2 JP H0315221B2 JP 58211718 A JP58211718 A JP 58211718A JP 21171883 A JP21171883 A JP 21171883A JP H0315221 B2 JPH0315221 B2 JP H0315221B2
Authority
JP
Japan
Prior art keywords
state transition
bit
code
transition table
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58211718A
Other languages
English (en)
Other versions
JPS60105040A (ja
Inventor
Ushio Inoe
Haruo Hayamizu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP58211718A priority Critical patent/JPS60105040A/ja
Publication of JPS60105040A publication Critical patent/JPS60105040A/ja
Publication of JPH0315221B2 publication Critical patent/JPH0315221B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 (発明の属する分野) 本発明は文字列中に所定の文字列が存在するか
否かを判定するための文章検索方式に関するもの
である。
(従来の技術) データ処理システムの分野では、文章等の文字
列データの集まりの中からキーとなる特定の部分
文字列を含むもののみを検索したり、文字列デー
タ中に含まれるすべてのキーを抽出することがし
ばしば必要となる。通常、1つの文字はnビツト
の固定長のコードで表現されるため、文字列デー
タはnビツト単位のコードの系列となる。一般に
文字列データは磁気デイスク等の電子計算機の外
部記憶装置に格納されており、検索時に中央処理
装置へ1文字ずつ直列に転送される。従つて、処
理時間の短縮のためには、データの転送と同時に
検索を行うことが必要となる。
第1図はこのような文章検索機構の説明図であ
る。第1図において、1は文字列データが格納さ
れた記憶装置、2は文字列の検索を行う文字列検
索装置、3は文字列データ転送路、4は検索結果
を出力する信号線である。文字列データは記憶装
置1からデータ転送路3を経由して文字列検索装
置2へ1文字ずつ直列に入力される。文字列検索
装置2では予じめ記憶されているキーとなる部分
文字列と入力されたデータを照合し、両者の一致
が検出された時点で信号線4に一致信号を出力す
る。文字列検索装置2において文字列の照合を行
う方式として、従来より有限オートマンを用いる
方法が一般に知られている。(L.A.Hollaar
“Hardware Systems for Text Infomation
Retrieval”ACM SIGIR 6th Conference1983) 第2図は有限オートマトンの状態遷移を表わし
た説明図である。第2図において、5はオートマ
トンの状態、6は状態遷移の方向を表わし、文字
列データの中から“DOG”という3文字のキー
を検索することができる。以下、この動作を説明
する。オートマトンの初期状態は状態(0)であ
り、入力文字が“D”であると状態1へ遷移す
る。第2図において“#”はその他の文字を表わ
し、状態(0)における入力文字が“D”以外な
らば引き続き状態(0)にとどまる。状態(1)につ
いても同様であり、入力文字が“0”ならば状態
2へ、“D”ならば再び状態1へ、それ以外なら
ば状態(0)へ遷移する。状態2において入力文
字が“G”ならば状態3へ遷移し、“DOG”とい
うキーを検出したことになり、第1図の信号線4
から一致信号が出力される。
第3図は8ビツトのJISコードで表現されや文
字列データを対象とした従来の有限オートマトン
の実現回路構成の説明図である。第3図におい
て、3は文字列データ転送路、4は検索結果を出
力する信号線であり、7は16ビツトのアドレスレ
ジスタ、8は64KB(256×28B)のランダムアク
セス・メモリ、9はアドレスデコーダ、10は8
ビツトのメモリレジスタ、11は判別回路であ
り、12,14,15は8ビツト幅のデータ線、
13は16ビツト幅のアドレス線である。
第4図は、第3図のランダムアクセス・メモリ
8に格納された状態遷移テーブルの内容を表わし
たものであり、16は8ビツトのデータ、17は
メモリアドレスの上位8ビツト、18はメモリア
ドレスの下位8ビツトである。なお、論理的には
メモリの上位アドレス17が状態番号、メモリの
下位アドレス18が文字コードに対応しており、
19はメモリの下位アドレス18のコードによつ
て表現される文字である。
入力文字はデータ転送路3よりアドレスレジス
タ7の下位8ビツトにセツトされる。アドレスレ
ジスタ7の上位8ビツトには初期値としてオール
ゼロがセツトされており、アドレス線13を経由
してアドレスデコーダ9に入力され、ランダムア
クセス・メモリ8から当該アドレスに格納されて
いる8ビツトのデータ16が読み出され、データ
線14を経由してメモリレジスタ10に格納され
る。判別回路11ではデータ線15よりメモリレ
ジスタ10の内容を参照し、値がハイバリユー
(16進表示でvFFv)ならば信号線4に一致信号を
出力し、ハイバリユー以外ならばデータ線12を
経由してメモリレジスタ10の内容をアドレスレ
ジスタ7の上位8ビツトにセツトされる。以上の
動作をデータ転送路3から1文字入力されるごと
に繰り返すことにより、検索処理が実行される。
以上説明した従来の方式を、1文字が16ビツト
で表現される日本語文字列に適用しようとする
と、コードの種類が216となるため、第3図と同
じく256個の状態を表現する状態遷移テーブルを
格納するためのランダムアクセス・メモリ8の大
きさは1MB(256×216B)必要となる。しかもこ
こに格納されるデータ16の内容は一般に大半が
ゼロであり、極端に低い利用効率で膨大な量のメ
モリを使用しなければならなくなるという欠点が
あつた。
(発明の目的) 本発明は、状態遷移テーブルのエントリを文字
コードそのものとするのではなく、文字コードを
等しい長さを有する2の羃乗の個数に分割した部
分パターン…を使用することを特徴とし、その目
的は文字コードのビツト長が長い場合でも小さな
サイズの状態遷移テーブルにより検索できるよう
にしたことである。以下、文字コードを2個に分
割する場合について詳細に説明する。
(発明の構成および作用) 第5図は本発明の方式を用いた有限オートマト
ンの実現回路の構成を示す一実施例のブロツク図
で、16ビツトのコードで表現された文字列データ
を対象とした検索方式の説明図であり、20は16
ビツトのデータレジスタ、21は切換え回路、2
3,24は8ビツト幅のデータ線である。
第6図は第5図のランダムアクセス・メモリ8
に格納された状態遷移テーブルの構成内容を表わ
したものであり、キーとなる部分文字列が“海
抜”(16進のJISコードで表わすとv3324・4834v
の場合である。
入力文字は転送路3よりデータレジスタ20に
格納される。切換え回路21はデータレジスタ2
0の内容を8ビツトずつ上位、下位の順で交互に
データ線23を経由してアドレスレジスタ7の下
位8ビツトにセツトする。アドレスレジスタ7の
上位8ビツトには初期値としてオールゼロがセツ
トされており、アドレス線13を経由してアドレ
スデコーダ9に入力され、ランダムアクセスメモ
リ8から当該アドレスに格納さされている8ビツ
トのデータ16が読み出され、データ線14を経
由してメモリレジスタ10に格納される。
第7図は判別回路22の動作を記述した真理値
を示す図であり、25はデータ線24からの入
力、26はデータ線15からの入力、27はデー
タ線12への出力、28は信号線4への出力を16
進表示で示したものである。判別回路22は第7
図の真理値図によつて動作し、I1すなわちアドレ
スレジスタ7の上位8ビツトがvFEvの場合は、I2
すなわちメモリレジスタ10の内容を無視してア
ドレスレジスタ7の上位8ビツトを強制的にv00v
にリセツトする。
第8図はこの強制的なリセツトが必要なことを
示すための具体例であり、29はキーとなる部分
文字列、30は部分文字列29の16進表示、31
は検索対象となる文字列データ、32は文字列デ
ータ31の16進表示である。
第8図に示すように16ビツトのコードで表わさ
れた文字を8ビツトずつに分割して検索を行う
と、丁度8ビツトだけずれた状態で2つの異なる
文字列のコードパターンが一致することが生じ
る。この現象を防止するため本発明では、状態遷
移テーブルに特殊な値(vFEv)を埋め込んでお
き、判別回路22で強制的なリセツトをかけてい
る。なお、判別回路22のI1vFEv以外の場合に
は従来の方式と同じ動作を行う。
第9図は第6図または第10図の状態遷移テー
ブルを作成するためのフローチヤートである。
第9図において、33は256個の作業域であり、
34で示したiは状態遷移テーブル内のアドレス
の上位8ビツトを表わす変数、35で示したjは
同じくアドレスの下位8ビツトを表わす変数であ
る。
第10図は、第9図に示したフローチヤートに
従つて作成した状態遷移テーブルと作業域の内容
を表わしており、キーとなる文字列はv商務省v
(16進のコードは3E26・4C33・3E4A)である。
第9図のフローチヤートから明らかなように、状
態遷移テーブルの作成は単純かつ容易である。ま
た、第10図の状態遷移テーブルのサイズは1536
バイト(6×28B)であり、従来の方式による状
態遷移テーブルのサイズ196608バイト(3×
216B)と比較して大幅に小さくなつている。
なお、上記説明ではコードの分割は2分の1と
した場合を説明したが、これに限らず、2の羃乗
分の1としてもよいことは明らかである。
(効果) 以上説明したように、本発明は1文字を表わす
nビツトのコードを状態遷移テーブルのエントリ
としてそのまま使用するのではなく、nビツトの
コードパターンを2分の1に分割した部分パター
ンをエントリとして使用するとともに、文字列デ
ータがn/2ビツトずれることによつて本来含ま
れていない部分文字列が検出されることを防止す
る強制的なリセツト機構を備えたものであるか
ら、従来の方式と全く同じ機能を、従来のものよ
りも大幅に減少したサイズの状態遷移テーブルに
よつて実現できるという利点がある。
【図面の簡単な説明】
第1図は文章検索機構の説明図、第2図は有限
オートマトンの状態遷移を表わした説明図、第3
図は従来の有限オートマトンの実現回路構成図、
第4図は従来の状態遷移テーブルの構成図、第5
図は本発明を用いた有限オートマトンの実現回路
の構成を示す一実施例のブロツク図、第6図は第
5図のランダムアクセス・メモリに格納された状
態遷移テーブルの構成図、第7図は本発明による
判別回路の動作の真理値を示す図、第8図は本発
明における強制的なリセツト機構が必要であるこ
とを示す具体例、第9図は第6図または第10図
の状態遷移テーブルを作成するためのフローチヤ
ート、第10図は第9図のフローチヤートに従つ
て作成した状態遷移テーブルと作業域の内容を示
す図である。 1……記憶装置、2……文字列検索装置、3…
…データ転送路、4……信号線、5……オートマ
トンの状態、6……状態遷移の方向、7……アド
レスレジスタ、8……ランダムアクセス・メモ
リ、9……アドレスデコーダ、10……メモリレ
ジスタ、11……判別回路、12,14,15,
23,24……データ線、13……アドレス線、
16……データ、17……メモリの上位アドレ
ス、18……メモリの下位アドレス、19……コ
ード対応の文字、20……データレジスタ、21
……切換え回路、22……判別回路、25,26
……入力端子、27,28……出力端子、29…
…部分文字列、30,32……文字列の16進表
示、31……検索対象となる文字列データ、33
……作業域。

Claims (1)

    【特許請求の範囲】
  1. 1 nを正の偶数とした時、nビツトのコードで
    表現される文字によつて構成される文字列中に、
    所定の部分文字列が存在するか否かを判定するた
    め、コードと状態番号をエントリとする2次元の
    状態遷移テーブルを使用した有限オートマトンを
    利用する検索方式において、状態遷移テーブルの
    エントリとして、nビツトのコードパターンを等
    しい長さの2の羃乗の個数に分割した部分パター
    ンを使用し、コードパターンを分割した回数だけ
    状態遷移テーブルを索引することによつて状態の
    遷移先を決定するとともに、コード内のビツトの
    ずれによる誤つた検索を防止するため、状態遷移
    テーブル内に誤り防止用データを記憶させてお
    き、ビツトのずれを判定してリセツトする機能を
    備えたことを特徴とする文章検索方式。
JP58211718A 1983-11-12 1983-11-12 文章検索方式 Granted JPS60105040A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58211718A JPS60105040A (ja) 1983-11-12 1983-11-12 文章検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58211718A JPS60105040A (ja) 1983-11-12 1983-11-12 文章検索方式

Publications (2)

Publication Number Publication Date
JPS60105040A JPS60105040A (ja) 1985-06-10
JPH0315221B2 true JPH0315221B2 (ja) 1991-02-28

Family

ID=16610445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58211718A Granted JPS60105040A (ja) 1983-11-12 1983-11-12 文章検索方式

Country Status (1)

Country Link
JP (1) JPS60105040A (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0752451B2 (ja) * 1986-09-17 1995-06-05 株式会社日立製作所 情報検索装置
US5179683A (en) * 1988-06-14 1993-01-12 Hitachi, Ltd. Retrieval apparatus including a plurality of retrieval units
US5748953A (en) * 1989-06-14 1998-05-05 Hitachi, Ltd. Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
DE69032712T2 (de) * 1989-06-14 1999-07-01 Hitachi, Ltd., Tokio/Tokyo Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung
US5471610A (en) * 1989-06-14 1995-11-28 Hitachi, Ltd. Method for character string collation with filtering function and apparatus
US5220625A (en) * 1989-06-14 1993-06-15 Hitachi, Ltd. Information search terminal and system
US5140644A (en) * 1990-07-23 1992-08-18 Hitachi, Ltd. Character string retrieving system and method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5354937A (en) * 1976-10-28 1978-05-18 Nec Corp Non-synchronous sequence circuit
JPS541133A (en) * 1978-01-13 1979-01-06 Yasaka Kougiyou Kk Container

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5354937A (en) * 1976-10-28 1978-05-18 Nec Corp Non-synchronous sequence circuit
JPS541133A (en) * 1978-01-13 1979-01-06 Yasaka Kougiyou Kk Container

Also Published As

Publication number Publication date
JPS60105040A (ja) 1985-06-10

Similar Documents

Publication Publication Date Title
US4314356A (en) High-speed term searcher
US3675211A (en) Data compaction using modified variable-length coding
US5440753A (en) Variable length string matcher
US5329405A (en) Associative cam apparatus and method for variable length string matching
JP3225638B2 (ja) データを圧縮するための装置及び方法並びにデータ処理システム
US5293616A (en) Method and apparatus for representing and interrogating an index in a digital memory
JPS5958558A (ja) 並列周期的冗長チエツク回路
GB1580570A (en) Coding or decoding apparatus
US3290659A (en) Content addressable memory apparatus
JPH01182992A (ja) 半導体記憶装置
US4531201A (en) Text comparator
US4254476A (en) Associative processor
JPH0315221B2 (ja)
JPH024026B2 (ja)
US4789852A (en) Method and apparatus for converting data in a binary format
US3064239A (en) Information compression and expansion system
US3613086A (en) Compressed index method and means with single control field
JPH0666050B2 (ja) ソート処理方法
US5668525A (en) Comparator circuit using two bit to four bit encoder
US4035766A (en) Error-checking scheme
JP3141428B2 (ja) 数値検索装置およびその方法
JPH0746362B2 (ja) 文字列照合方法
JP3027754B2 (ja) 連想記憶装置
EP0227348A2 (en) Content addressable memory circuit and method
US6513053B1 (en) Data processing circuit and method for determining the first and subsequent occurences of a predetermined value in a sequence of data bits