JPS60105040A - Sentence retrieving system - Google Patents

Sentence retrieving system

Info

Publication number
JPS60105040A
JPS60105040A JP58211718A JP21171883A JPS60105040A JP S60105040 A JPS60105040 A JP S60105040A JP 58211718 A JP58211718 A JP 58211718A JP 21171883 A JP21171883 A JP 21171883A JP S60105040 A JPS60105040 A JP S60105040A
Authority
JP
Japan
Prior art keywords
bits
register
order
address
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58211718A
Other languages
Japanese (ja)
Other versions
JPH0315221B2 (en
Inventor
Ushio Inoue
潮 井上
Haruo Hayamizu
速水 治夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP58211718A priority Critical patent/JPS60105040A/en
Publication of JPS60105040A publication Critical patent/JPS60105040A/en
Publication of JPH0315221B2 publication Critical patent/JPH0315221B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To attain the sentence retrieval by means of a state shift table in a small size even in case a character code is long in bit length by using partial patterns obtained by dividing the character code into units equal to 2 pcs of power multiplier. CONSTITUTION:The input characters are set to low-order 8 bits of an address register 7 every 8 bits and alternately in order of high-order and low-order places from a data register 20 by a switch circuit 21. The upper 8 bits having initial values all set at 0 are supplied to an address decoder 9, and the 8-bit data is read out of an address 0 of a random access memory 8 and stored to a memory register 10. A discrimination circuit 22 neglects the contents 10 of the register 10 with a truth value action in case the high-order 8 bits of the register 7 are equal to the special value FF. Then the high-order 8 bits of the register 7 are forcibly reset ''0'' to prevent the coincidence between code patterns of different character strings.

Description

【発明の詳細な説明】 (発明の属する分野) 本発明は文字列中に所定の文字列が存在するか否かを判
定するだめの文章検索方式に関するものである。
DETAILED DESCRIPTION OF THE INVENTION (Field of the Invention) The present invention relates to a text search method for determining whether a predetermined character string exists in a character string.

(従来の技術) データ処理システムの分野では、文章等の文字列データ
の集まりの中からキーとなる特定の部分文字列を含むも
ののみを検索しだシ、文字列データ中に含まれるすべて
のキーを抽出することがしばしば必要となる。通常、1
つの文章はnビットの固定長のコードで表現されるため
、文字列データはnビット単位のコードの系列となる。
(Prior Art) In the field of data processing systems, it is necessary to search for only those that contain a specific substring as a key from a collection of character string data such as sentences. It is often necessary to extract the key. Usually 1
Since one sentence is expressed by a fixed length code of n bits, the character string data is a series of codes of n bits.

一般に文字列データは磁気ディスク等の電子計算機の外
部記憶装置に格納でれており、検索時に中央処理装置へ
1文手ずつ直列に転送埒れる。従って、処理時間の短縮
のためには、データの転送と同時に検索を行うことが必
要と々る。
Character string data is generally stored in an external storage device of a computer, such as a magnetic disk, and is serially transferred one sentence at a time to a central processing unit during a search. Therefore, in order to reduce processing time, it is necessary to perform a search simultaneously with data transfer.

第1図はこのような文章検索機構の説明図である。第1
図において、1は文字列データが格納された記憶装置、
2は文字列の検索を行う文字列検索装置、3は文字列デ
ータ転送路、4は検索結果を出力する信号線である。文
字列データは記憶装置1からデータ転送路3を経由して
文字列検索装置2へ1文字ずつ直列に入力される。文字
列検索装置2では予じめ記憶されているキーとなる部分
文字列と入力されたデータを照合し、両者の一致が検出
でれた時点で信号線4に一致信号を出力する。文字列検
索装置2において文字列の照合を行う方式として、従来
より有限オートマトンを用いる方法が一般に知られてい
る。(L、 A、 Ho1laar’ Hardwar
e Systems for Text Inform
ation Retrieval llACM 5IG
IR6th Conference 1983 )第2
図は有限オートマトンの状態遷移を表わした説明図であ
る。第2図において、5はオートマトンの状態、6は状
態遷移の方向を表わし、文字列データの中からnDOG
llという3文字のキーを検索することができる。以下
、この動作を説明する。オートマトンの初期状態は状態
(0)であり、入力文字が+lD″であると状態(1)
へ遷移する。第2図において1≠1はその他の文字を表
わし、状態(0)における入力文字が″D11以外なら
ば引き続き状態(0)にとどまる。状態(1)について
も同様であり、入力文字がn □ nならば状態(2)
へ、′D′1ならば再び状態(1)へ、それ以外ならば
状態(0)へ遷移する。
FIG. 1 is an explanatory diagram of such a text search mechanism. 1st
In the figure, 1 is a storage device in which character string data is stored;
Reference numeral 2 designates a character string search device that searches for character strings, 3 represents a character string data transfer path, and 4 represents a signal line that outputs search results. Character string data is serially input character by character from the storage device 1 to the character string search device 2 via the data transfer path 3. The character string search device 2 compares the input data with a pre-stored partial character string serving as a key, and outputs a match signal to the signal line 4 when a match is detected between the two. As a method for collating character strings in the character string search device 2, a method using a finite automaton is generally known. (L, A, Ho1laar' Hardwar
e Systems for Text Information
ation Retrieval llACM 5IG
IR6th Conference 1983) 2nd
The figure is an explanatory diagram showing the state transition of a finite automaton. In Figure 2, 5 represents the state of the automaton, 6 represents the direction of state transition, and nDOG is selected from the character string data.
You can search for the three-letter key ll. This operation will be explained below. The initial state of the automaton is state (0), and if the input character is +lD'', it becomes state (1).
Transition to. In Fig. 2, 1≠1 represents other characters, and if the input character in state (0) is other than "D11", it will continue to remain in state (0).The same applies to state (1), and if the input character is n □ If n, state (2)
If 'D' is 1, the state returns to state (1); otherwise, the state returns to state (0).

状態Q)において入力文字が+1GIIならば状態(3
)へ遷移し、′1DOGI′というキーを検出したこと
になり、第1図の信号線4から一致信号が出力される。
If the input character is +1GII in state Q), state (3
), which means that the key '1DOGI' has been detected, and a match signal is output from the signal line 4 in FIG.

第3図は8ビツトのJ工Sコードで表現された文字列デ
ータを対象とした従来の有限オートマトンの実現回路構
成の説明図である。第3図において、3は文字列データ
転送路、4は検索結果を出力する信号線であり、7は1
6ビツトのアドレスレジスタ、8は64KB (256
X 2813 )のランダムアクセス・メモリ、9はア
ドレスデコーダ、10は8ビツトのメモリレジスタ、1
1は判別回路であり、12.14,15は8ビツト幅の
データ線、13は16ビツト幅のアドレス線である。
FIG. 3 is an explanatory diagram of a circuit configuration for realizing a conventional finite automaton for character string data expressed in 8-bit J/S code. In Figure 3, 3 is a character string data transfer path, 4 is a signal line for outputting search results, and 7 is 1
6-bit address register, 8 is 64KB (256
X2813) random access memory, 9 is an address decoder, 10 is an 8-bit memory register, 1
1 is a discrimination circuit, 12, 14 and 15 are 8-bit wide data lines, and 13 is a 16-bit wide address line.

第4図は、第3図のランダムアクセス・メモリ8に格納
てれた状態遷移テーブルの内容を表わしたものであり、
16は8ビツトのデータ、17はメモリアドレスの上位
8ビツト、18はメモリアドレスの下位8ビツトである
。なお、論理的にはメモリの上位アドレス17が状態番
号、メモリの下位アドレス18が文字コードに対応して
おシ、19はメモリの下位アドレス18のコードによっ
て表現きれる文字である。
FIG. 4 shows the contents of the state transition table stored in the random access memory 8 of FIG.
16 is 8-bit data, 17 is the upper 8 bits of the memory address, and 18 is the lower 8 bits of the memory address. Note that logically, the upper address 17 of the memory corresponds to the state number, the lower address 18 of the memory corresponds to the character code, and 19 is a character that can be expressed by the code of the lower address 18 of the memory.

入力文字はデータ転送路3よりアドレスレジスタ7の下
位8ビツトにセラ11れる。アドレスレジスタ7の上位
8ビツトには初期値としてオールゼロがセットされてお
り、アドレス線13を経由してアドレスデコーダ9に入
力きれ、ランダムアクセス・メモリ8から当該アドレス
に格納されている8ビツトのデータ16が読み出場れ、
データ線14を経由してメモリレジスタ10に格納され
る。
The input character is transferred from the data transfer path 3 to the lower 8 bits of the address register 7. The upper 8 bits of the address register 7 are set to all zeros as an initial value, and the 8-bit data stored at the address from the random access memory 8 can be input to the address decoder 9 via the address line 13. 16 is read out,
The data is stored in the memory register 10 via the data line 14.

判別回路11ではデータ線15よりメモリレジスタIO
の内容を参照し、値7がハイバリュー(16進表示で”
FF’ )ならば信号線4に一致信号を出力し、ハイバ
リー−以外ならばデータ線12を経由してメモリレジス
タ10の内容をアドレスレジスタ7の上位8ビツトにセ
ット嘔れる。以上の動作をデータ転送路3から1文字入
力されるごとに繰シ返ずことによシ、検索処理が実行さ
れる。
In the discrimination circuit 11, the data line 15 is connected to the memory register IO.
Refer to the contents of ``7'' is a high value (in hexadecimal notation)
FF'), a match signal is output to the signal line 4, and if it is other than Highbury-, the contents of the memory register 10 are set to the upper 8 bits of the address register 7 via the data line 12. The above operation is repeated every time one character is input from the data transfer path 3, thereby executing the search process.

以上説明した従来の方式を、1文字が16ビツトで表現
される日本語文字列に適用しようとすると、コードの種
類が216となるため、第3図と同じく256個の状態
を表現する状態遷移テーブルを格納するだめのランダム
アクセス・メモリ8の大きさはIMB (256X 2
16B)必要となる。しかもここに格納きれるデータ1
6の内容は一般に大半がゼロであり、極端に低い利用効
率で膨大な量のメモリを使用しなければならなくなると
いう欠点があった。
If we try to apply the conventional method explained above to a Japanese character string in which each character is represented by 16 bits, the number of code types will be 216, so there will be state transitions representing 256 states as in Figure 3. The size of the random access memory 8 used to store the table is IMB (256 x 2
16B) Required. Moreover, the data that can be stored here1
6 is generally mostly zero, which has the drawback of requiring a huge amount of memory to be used with extremely low utilization efficiency.

(発明の目的) 本発明は、状態遷移テーブルのエントリを文字コードそ
のものとするのではなく、文字コート′を2の11.I
J乗数個に分割した部分ノくターンを使用することを特
徴とし、その目的は文字コードのビット長が長い場合で
も小さなサイズの状態遷移テーフ゛ルにより検索できる
ようにしたことである。以下、文字コードを2個に分割
する場合について詳細に説明する。
(Objective of the Invention) The present invention does not use the character code itself as an entry in the state transition table, but instead uses the character code '211. I
It is characterized by the use of partial turns divided into J multipliers, and its purpose is to make it possible to search using a small-sized state transition table even when the bit length of the character code is long. The case where a character code is divided into two will be described in detail below.

(発明の構成および作用) 第5図は本発明の方式を用いた有限オートマトンの実現
回路の構成を示す一実施例のブロック図で、16ピツト
のコードで表現をれた文字列データを対象とした検索方
式の説明図であシ、20は16ビツトのデータレジスタ
、21は切換え回路、23、24は8ビツト幅のデータ
線である。
(Structure and operation of the invention) Fig. 5 is a block diagram of an embodiment showing the structure of a circuit for realizing a finite automaton using the method of the present invention. In this figure, 20 is a 16-bit data register, 21 is a switching circuit, and 23 and 24 are 8-bit wide data lines.

第6図は第5図のランダムアクセス・メモリ8に格納さ
れた状態遷移テーブルの構成内容を表わしだものであり
、キーとなる部分文字列が1海抜n(16進)JISコ
ートテ表ワストv3324.4834v)ノ場合である
FIG. 6 shows the structure of the state transition table stored in the random access memory 8 of FIG. 5, and the key partial string is 1 sea level n (hexadecimal) JIS Courtesy table wast v3324. 4834v).

入力文字は転送路3よシデータレジスタ20に格納され
る。切換え回路21はデータレジスタ20の内容を8ビ
ツトずつ」二位、下位の順で交互にデータ線23を経由
してアドレスレジスタ7の下位8ビツトにセットする。
The input characters are stored in the transfer path 3 and the data register 20. The switching circuit 21 sets the contents of the data register 20 8 bits at a time to the lower 8 bits of the address register 7 via the data line 23 alternately in the order of 2nd place and lower order.

アドレスレジスタ7の上位8ビツトには初期値としてオ
ールゼロがセットされており、アドレス線13を経由し
てアドレスデコーダ9に入力され、ランダムアクセスメ
モリ8から当該アドレスに格納嘔れている8ビツトのデ
ータ16が読み出され、データ線14を経由してメモリ
レジスフ10に格納される。
The upper 8 bits of the address register 7 are set to all zeros as an initial value, and are input to the address decoder 9 via the address line 13, and the 8-bit data stored at the address from the random access memory 8 is sent to the address decoder 9 via the address line 13. 16 is read out and stored in the memory register 10 via the data line 14.

第7図は判別回路22の動作を記述した真理値を示す図
であり、25はデータ線24からの入力、26はデータ
線15からの入力、27はデータ線12への出力、28
は信号線4への出力を16進表示で示したものである。
FIG. 7 is a diagram showing truth values describing the operation of the discrimination circuit 22, in which 25 is an input from the data line 24, 26 is an input from the data line 15, 27 is an output to the data line 12, and 28
is a hexadecimal representation of the output to the signal line 4.

判別回路22は第7図の真理値図によって動作し、工1
すなわちアドレスレジスタ7の上位8ビツトがv、FE
vの場合は、I2すなわちメモリレジスフ10の内容を
無視してアドレスレジスタ7の上位8ビツトを強制的に
voovにリセットする。
The discrimination circuit 22 operates according to the truth diagram shown in FIG.
That is, the upper 8 bits of address register 7 are v, FE
In the case of v, I2, that is, the contents of the memory register 10, is ignored and the upper 8 bits of the address register 7 are forcibly reset to voov.

第8図はこの強制的なりセントが必要なことを示すだめ
の具体例であり、29はキーとなる部分文字列、30は
部分文字列29の16進表示、31は検索対象と々る文
字列データ、32は文字列データ31の16進表示であ
る。
Figure 8 is a concrete example showing that this compulsory cent is required, where 29 is a key substring, 30 is a hexadecimal representation of substring 29, and 31 is the character to be searched. Column data 32 is a hexadecimal representation of character string data 31.

第8図に示すように16ビツートのコードで表わされた
文字を8ビツトずつに分割して検索を行うと、丁度8ビ
ツトだけずれた状態で2つの異なる文字列のコードパタ
ーンが一致することが生じる。
As shown in Figure 8, if a character represented by a 16-bit code is divided into 8-bit parts and searched, the code patterns of two different character strings will match with a difference of exactly 8 bits. occurs.

この現象を防止するため本発明では、状態遷移チー フ
ルに特殊な値(vFEv) ffi埋め込んでおき、判
別回路22で強制的なリセットをかけている。なお、判
別回路22のI□がvFEv以外の場合には従来の方式
と同じ動作を行う。
In order to prevent this phenomenon, in the present invention, a special value (vFEv) ffi is embedded in the state transition coefficient, and the determination circuit 22 is forced to reset it. Note that when I□ of the discrimination circuit 22 is other than vFEv, the same operation as the conventional method is performed.

第9図は第6図まだは第10図の状態遷移テーブルを作
成するだめのフローチャートである。
FIG. 9 is a flowchart for creating the state transition table shown in FIG. 6 and FIG. 10.

第9図において、33は256個の作業域であシ、34
で示しだiは状態遷移テーブル内のアドレスの上位8ビ
ツトを表わす変数、35で示した3は同じくアドレスの
下位8ビツトを表わす変数である。
In Figure 9, 33 is 256 work areas, 34
In the figure, i is a variable representing the upper 8 bits of the address in the state transition table, and 3, denoted by 35, is a variable representing the lower 8 bits of the address.

第10図は、第9図に示したフローチャー1・に従って
作成した状態遷移テーブルと作業域の内容を表わしてお
シ、キーとなる文字列はV商務省V(16進のコードは
3E26.4C33,3E4A )である。
FIG. 10 shows the contents of the state transition table and work area created according to the flowchart 1 shown in FIG. 9. The key character string is V Commerce Department V (hexadecimal code is 3E26. 4C33,3E4A).

第9図のフローチャートから明らかなように、状態遷移
テーブルの作成は単純かつ容易である。また、第10図
の状態遷移テーブルのサイズは1536バイ)(6X2
8B)であり、従来の方式による状態遷移テーブルのサ
イズ196608ノくイト(3X2 B)と比較して大
幅に小さくなっている。
As is clear from the flowchart of FIG. 9, creating the state transition table is simple and easy. Also, the size of the state transition table in Figure 10 is 1536 bytes) (6X2
8B), which is significantly smaller than the size of the state transition table according to the conventional method, which is 196,608 knots (3×2 B).

なお、上記説明ではコードの分割は2分の1とした場合
を説明したが、これに限らず、2の慕乗分の1としても
よいことは明らかである。
In the above description, the code is divided into 1/2, but it is clear that the code is not limited to this and may be divided into 1/2.

(効果) 以上説明したように、本発明は1文字を表わすnビット
のコートを状態遷移テーブルのエントりとしてそのまま
使用するのではなく、nビットのコードパターンを2分
の1に分割した部分バクーンをエントリとして使用する
とともに、文字列データがn72ビツトずれることによ
って本来含まれていない部分文字列が検出されることを
防止する強制的なりセント機構を備えたものであるから
、従来の方式と全く同じ機能を、従来のものよシも大幅
に減少したサイズの状態遷移テーブルによって実現でき
るという利点がある。
(Effects) As explained above, the present invention does not directly use the n-bit code representing one character as an entry in the state transition table, but instead uses a partial code pattern that divides the n-bit code pattern into half. is used as an entry, and is equipped with a forced cent mechanism that prevents a substring that is not originally included from being detected due to a shift of n72 bits in the character string data, so it is completely different from the conventional method. The advantage is that the same functionality can be achieved with a state transition table that is significantly smaller in size than the conventional one.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は文章検索機構の説明図、第2図は有限オートマ
トンの状態遷移を表わしだ説明図、第3図は従来の有限
オートマトンの実現回路構成図、第4図は従来の状態遷
移テーブルの構成図、第5図は本発明を用いた有限オー
トマトンの実現回路の構成を示す一実施例のブロック図
、第6図は第5図のランダムアクセス・メモリに格納さ
れた状態遷移テーブルの構成図、第7図は本発明による
判別回路の動作の真理値を示す図、第8図は本発明にお
ける強制的なりセット機構が必要であることを示す具体
例、第9図は第6図または第10図の状態遷移テーブル
を作成するだめのフローチャート、第10図は第9図の
フローチャー1・に従って作成した状態遷移テーブルと
作業域の内容を示す図である。 1 ・・・・・・・記憶装置、 2・・・・・・・・文
字列検索装置、3・・・・・・・・・データ転送路、 
4 ・・・・・・・・信号線、5・・・・・・・・オー
トマトンの状態、 6・・・川・・状態遷移の方向、 
7・・・・・・・・・アドレスレジスタ、8・・・・・
・・ランダムアクセス・メモリ、 9・・・・・・・・
・アドレスデコーダ、10・・・・・・・・・メモリレ
ジスタ、11 ゛−−−゛ 判別回路、 12.14.
15.23.24・・・・・・・・・データ線、13・
・・・・・・・・アドレスill、16・・・・・・・
・・f−タ、17・−・・・・・・メモリの上位アドレ
ス、18パ゛メモリの下位アドレス、19・・・・・・
・・ コード対応の文字、20 ・・・・・・・データ
レジスタ、21・・・・・・・・切換え回路、22 ・
・・・・・判別回路、25,26−・・・・・ 入力端
子、27、28 ・−・・−出力端子、29・・・・・
・ 部分文字列、30.32 ・・・・文字列の16進
表示、31・・・・・・検索対象となる文字列データ、
33・・・・・・・・作業域。 特許出願人 日本電信電話公社 第1図 第2図 一1第3図 て 第4図 第8図 ′海 捩、、29 (33)(24)(48)(34)J3゜山と宕 j3
1 (3B)(33X24 K48)(34X64)I32
第10図 (3E)(26X4CX33X3EX4A)〜′30第
9図
Figure 1 is an explanatory diagram of the text retrieval mechanism, Figure 2 is an explanatory diagram showing the state transition of a finite automaton, Figure 3 is a diagram of the circuit configuration for realizing a conventional finite automaton, and Figure 4 is a diagram of a conventional state transition table. 5 is a block diagram of an embodiment showing the configuration of a finite automaton implementation circuit using the present invention, and FIG. 6 is a configuration diagram of a state transition table stored in the random access memory of FIG. 5. , FIG. 7 is a diagram showing the truth value of the operation of the discrimination circuit according to the present invention, FIG. 8 is a specific example showing the necessity of a forced reset mechanism in the present invention, and FIG. 9 is a diagram showing the truth value of the operation of the discriminating circuit according to the present invention. FIG. 10 is a flowchart for creating the state transition table. FIG. 10 is a diagram showing the state transition table created according to flowchart 1 of FIG. 9 and the contents of the work area. 1...Storage device, 2...Character string search device, 3...Data transfer path,
4...Signal line, 5...Automaton state, 6...River...Direction of state transition,
7...Address register, 8...
・Random access memory, 9・・・・・・・・・・
・Address decoder, 10... Memory register, 11 ゛----゛ Discrimination circuit, 12.14.
15.23.24... Data line, 13.
・・・・・・・・・Address ill, 16・・・・・・・
...F-data, 17--... Upper address of memory, 18 Lower address of memory, 19...
・・Character corresponding to the code, 20 ・・・・・Data register, 21 ・・・Switching circuit, 22 ・
...Discrimination circuit, 25, 26--Input terminal, 27, 28 ...-Output terminal, 29...
・ Partial character string, 30.32 ... Hexadecimal representation of the character string, 31 ... Character string data to be searched,
33......Work area. Patent Applicant Nippon Telegraph and Telephone Public Corporation Figure 1 Figure 2 Figure 3
1 (3B) (33X24 K48) (34X64) I32
Figure 10 (3E) (26X4CX33X3EX4A) ~ '30 Figure 9

Claims (1)

【特許請求の範囲】[Claims] nを正の偶数とした時、nビットのコードで表現される
文字によって構成?れる文字列中に、所定の部分文字列
が存在するか否かを判定するため、コードと状態番号を
エントリとする2次元の状態遷移テーブルを使用した有
限オートマトンを利用する検索方式において、状態遷移
テーブルのエントリとして、nビットのコードパターン
を2の光来数個に分割した部分パターンを使用し、コー
ドパターンを分割した回数だけ状態遷移テーブルを索引
することによって状態の遷移先を決定するとともに、コ
ード内のビットのずれによる誤った検索結果が出力され
ることを防止するためのり化ノド機構を備えたことを特
徴とする文章検索方式。
When n is a positive even number, is it composed of characters expressed by n-bit codes? In a search method that uses a finite automaton that uses a two-dimensional state transition table with codes and state numbers as entries, the state transition A partial pattern obtained by dividing an n-bit code pattern into several parts is used as a table entry, and the state transition destination is determined by indexing the state transition table as many times as the code pattern is divided. A text retrieval method characterized by having a gluing gutter mechanism for preventing output of erroneous search results due to misalignment of bits in a code.
JP58211718A 1983-11-12 1983-11-12 Sentence retrieving system Granted JPS60105040A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58211718A JPS60105040A (en) 1983-11-12 1983-11-12 Sentence retrieving system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58211718A JPS60105040A (en) 1983-11-12 1983-11-12 Sentence retrieving system

Publications (2)

Publication Number Publication Date
JPS60105040A true JPS60105040A (en) 1985-06-10
JPH0315221B2 JPH0315221B2 (en) 1991-02-28

Family

ID=16610445

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58211718A Granted JPS60105040A (en) 1983-11-12 1983-11-12 Sentence retrieving system

Country Status (1)

Country Link
JP (1) JPS60105040A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6373422A (en) * 1986-09-17 1988-04-04 Hitachi Ltd Information retrieving device
US5140644A (en) * 1990-07-23 1992-08-18 Hitachi, Ltd. Character string retrieving system and method
US5168533A (en) * 1989-06-14 1992-12-01 Hitachi, Ltd. Hierarchical presearch type text search method and apparatus and magnetic disk unit used in the apparatus
US5179683A (en) * 1988-06-14 1993-01-12 Hitachi, Ltd. Retrieval apparatus including a plurality of retrieval units
US5220625A (en) * 1989-06-14 1993-06-15 Hitachi, Ltd. Information search terminal and system
US5471610A (en) * 1989-06-14 1995-11-28 Hitachi, Ltd. Method for character string collation with filtering function and apparatus
US5748953A (en) * 1989-06-14 1998-05-05 Hitachi, Ltd. Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5354937A (en) * 1976-10-28 1978-05-18 Nec Corp Non-synchronous sequence circuit
JPS541133A (en) * 1978-01-13 1979-01-06 Yasaka Kougiyou Kk Container

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5354937A (en) * 1976-10-28 1978-05-18 Nec Corp Non-synchronous sequence circuit
JPS541133A (en) * 1978-01-13 1979-01-06 Yasaka Kougiyou Kk Container

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6373422A (en) * 1986-09-17 1988-04-04 Hitachi Ltd Information retrieving device
US5179683A (en) * 1988-06-14 1993-01-12 Hitachi, Ltd. Retrieval apparatus including a plurality of retrieval units
US5168533A (en) * 1989-06-14 1992-12-01 Hitachi, Ltd. Hierarchical presearch type text search method and apparatus and magnetic disk unit used in the apparatus
US5220625A (en) * 1989-06-14 1993-06-15 Hitachi, Ltd. Information search terminal and system
US5471610A (en) * 1989-06-14 1995-11-28 Hitachi, Ltd. Method for character string collation with filtering function and apparatus
US5519857A (en) * 1989-06-14 1996-05-21 Hitachi, Ltd. Hierarchical presearch type text search method and apparatus and magnetic disk unit used in the apparatus
US5748953A (en) * 1989-06-14 1998-05-05 Hitachi, Ltd. Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US6094647A (en) * 1989-06-14 2000-07-25 Hitachi, Ltd. Presearch type document search method and apparatus
US5140644A (en) * 1990-07-23 1992-08-18 Hitachi, Ltd. Character string retrieving system and method

Also Published As

Publication number Publication date
JPH0315221B2 (en) 1991-02-28

Similar Documents

Publication Publication Date Title
US3675211A (en) Data compaction using modified variable-length coding
US3717851A (en) Processing of compacted data
US4314356A (en) High-speed term searcher
US4099257A (en) Markov processor for context encoding from given characters and for character decoding from given contexts
JP2007508653A (en) High-speed table lookup memory and low power consumption mechanism
JPS6097435A (en) Arithmetic processor
US3290659A (en) Content addressable memory apparatus
JPH01182992A (en) Semiconductor memory device
US4188669A (en) Decoder for variable-length codes
US4254476A (en) Associative processor
JPS60105040A (en) Sentence retrieving system
US3389377A (en) Content addressable memories
JPH024026B2 (en)
US3064239A (en) Information compression and expansion system
JPH0666050B2 (en) Sort processing method
JPH0746362B2 (en) String matching method
EP0227348A2 (en) Content addressable memory circuit and method
JPS63187334A (en) Character-string pattern matching device
JP2752220B2 (en) String processing unit
SU902282A1 (en) Device for receiving information through two parallel communication channels
JP2690175B2 (en) Unequal length code decoding circuit
JPH0664586B2 (en) String matching method
SU976449A1 (en) Multi-dimensional static analyzer
JPS5827240A (en) File storing system
JPH0748309B2 (en) Symbol string matching memory and its cascade connection method