JPH0527150B2 - - Google Patents

Info

Publication number
JPH0527150B2
JPH0527150B2 JP59148925A JP14892584A JPH0527150B2 JP H0527150 B2 JPH0527150 B2 JP H0527150B2 JP 59148925 A JP59148925 A JP 59148925A JP 14892584 A JP14892584 A JP 14892584A JP H0527150 B2 JPH0527150 B2 JP H0527150B2
Authority
JP
Japan
Prior art keywords
symbol
register
symbol string
output
register array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59148925A
Other languages
Japanese (ja)
Other versions
JPS6128133A (en
Inventor
Hachiro Yamada
Tsunesuke Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP14892584A priority Critical patent/JPS6128133A/en
Publication of JPS6128133A publication Critical patent/JPS6128133A/en
Publication of JPH0527150B2 publication Critical patent/JPH0527150B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は情報処理システムの構成要素に係り、
より具体的には長大な記号列の中から特定の記号
列を抽出する記号列照合装置とその照合方式に関
するものである。
[Detailed Description of the Invention] (Industrial Application Field) The present invention relates to components of an information processing system,
More specifically, the present invention relates to a symbol string matching device and its matching method for extracting a specific symbol string from a long symbol string.

(従来技術とその問題点) 上記記号列照合装置はパタン認識システムでの
特徴系列の抽出、ワープロで作成された文章の原
文フアイルからのキーワードの抽出、言語翻訳の
支援や通信文章の略文の解読、図形、イメージ、
テキスト等による非構造データベースの構築に利
用され、知能化されるこれらの情報処理システム
の形成に欠くことができないものである。
(Prior art and its problems) The above-mentioned symbol string matching device extracts feature sequences in a pattern recognition system, extracts keywords from the original text file of sentences created with a word processor, supports language translation, and extracts abbreviations from correspondence. deciphering, shapes, images,
It is used to construct unstructured databases based on text, etc., and is indispensable for the formation of intelligent information processing systems.

従来の記号列照合は汎用コンピユータのソフト
ウエアにたよつた逐次処理によるため、膨大な処
理時間を必要とし、小規模なものに限定されてい
た。また、単語毎に区切られて構造化された記号
列に照合対象が制限されていた。一例として、n
個の記号列からなるテキスト中にm個の記号列か
らなるパタンがどこに有るかを調べる場合には、
m(n−m+1)回の照合処理を必要とする。磁
気デイスクや光デイスク等に格納されたm=109
個の文字列のテキストから、n=103個の文字列
の文章を捜すには1012回の照合処理を必要とす
る。従つて、テキスト、イメージ、図形、音声等
の大容量な原情報による検索は非現実的であるた
め、予め原情報にキーワードを付加しての検索や
表形式に構造化されたデータの検索に限定されて
いた。また、記号列の構成要素の変動を許容する
柔軟な記号列照合に対して処理時間の長くなりす
ぎる欠点があつた。
Conventional symbol string matching requires sequential processing using software on a general-purpose computer, which requires an enormous amount of processing time and is limited to small-scale applications. In addition, matching targets were limited to structured symbol strings separated by words. As an example, n
To find out where a pattern consisting of m symbol strings is located in a text consisting of m symbol strings,
This requires m(n-m+1) matching processes. m = 10 9 stored on a magnetic disk, optical disk, etc.
Searching for sentences with n = 10 3 character strings from text with 3 character strings requires 10 12 matching processes. Therefore, it is impractical to search using a large amount of source information such as text, images, graphics, audio, etc., so it is not practical to search by adding keywords to the source information in advance or search for data structured in tabular format. It was limited. Another disadvantage is that the processing time is too long for flexible symbol string matching that allows variations in the constituent elements of symbol strings.

さらに具体的に従来の記号列照合装置とその照
合方式の問題点について説明する。
More specifically, the problems of the conventional symbol string matching device and its matching method will be explained.

第1図は記号列照合の対象となるテキストを示
している。このテキストは報告書の始めの部分を
一例として示している。このようなテキストはワ
ープロのフアイルメモリに多数個格納される。そ
れ等のテキストの中から必要なものをさがし出す
時に、要求内容を示す単語によつて直接に検索で
きる事が求められる。
FIG. 1 shows text that is the subject of symbol string matching. This text shows the beginning of the report as an example. A large number of such texts are stored in the file memory of the word processor. When searching for what is needed from such texts, it is required to be able to search directly using words that indicate the desired content.

たとえば、第1図のテキストがmemory,
bubble等の記号列を含む論文であるかを知るた
めには、そのテキストの中でmemory,
memoriesやbubble等の記号列に整合する部分が
あるか否かを検索する必要がある。そのような記
号列のテキストとの比較照合は従来のコンピユー
タとソフトウエアで対応させると、非常に長い時
間を要する。
For example, if the text in Figure 1 is memory,
In order to know whether a paper contains symbol strings such as bubble, etc. in the text,
It is necessary to search to see if there is a matching part in symbol strings such as memories and bubbles. Comparing such symbol strings with text would take a very long time if conventional computers and software were used.

一般のA4サイズの英文はワード間のスペース
を含めると、約3000文字分の長さになる。一方、
比較照合を行なう記号列の長さはmemoryの場合
もbubbleの場合も6文字である。6文字と3000
文字の記号列間の照合に一般にその積に等しいオ
ーダの回数に及ぶ文字の比較を必要とする。マイ
クロプロセツサでの文字比較時間が1μsecであつ
たとしても各記号列の検索に18msecの時間がか
かる。
A typical A4 size English sentence is about 3000 characters long, including the spaces between words. on the other hand,
The length of the symbol string to be compared and matched is 6 characters in both memory and bubble cases. 6 characters and 3000
Matching between strings of characters generally requires comparing the characters a number of times on the order of their product. Even if the character comparison time in the microprocessor is 1 μsec, it takes 18 msec to search each symbol string.

現実に検索の対象となるテキストの文字数は
109個に及び、照合を行なう記号列の文字数も100
を越すこともあり得る。照合される記号列の数も
1個だけでなく、数10個に及ぶ。その場合の照合
時間は数100時間に及ぶ。故に、このような照合
は現実的に不可能であり、実際は人手により予め
キーワードを抽出しておき、抽出されたキーワー
ドに対する照合に限定されていた。
The actual number of characters in the text to be searched is
10 9 characters, and the number of characters in the symbol string to be matched is 100.
It is possible to exceed. The number of symbol strings to be matched is not just one, but dozens. In that case, the verification time would be several hundred hours. Therefore, such matching is practically impossible, and in reality, keywords are extracted manually in advance and matching is limited to the extracted keywords.

〔発明の目的〕[Purpose of the invention]

本発明の目的は上記従来の記号列照合装置やそ
の方式の欠点を容易に解決し、テキスト、イメー
ジ、図形等の非構造の記号列の中から任意の記号
列を短時間にして、柔軟な抽出が可能な記号列照
合装置とその照合方式を提供することにある。
The purpose of the present invention is to easily solve the drawbacks of the conventional symbol string matching devices and methods mentioned above, and to quickly and flexibly convert arbitrary symbol strings from unstructured symbol strings such as text, images, figures, etc. An object of the present invention is to provide a symbol string matching device capable of extraction and a matching method thereof.

また、本発明の他の目的は照合記号列の長さを
任意に設定可能な低価格な記号列照合装置を提供
することにある。
Another object of the present invention is to provide a low-cost symbol string matching device that can arbitrarily set the length of a matching symbol string.

また、本発明の他の目的は出力端子数の少ない
LSI化が容易な記号列照合装置を提供することに
ある。
Another object of the present invention is to reduce the number of output terminals.
The object of the present invention is to provide a symbol string matching device that can be easily integrated into LSI.

(発明の構成) 従つて本発明によれば、各記号に関連づけたビ
ツトパタンで複数の照合記号列を記憶する記号列
記憶手段と、この各出力につながる第1の伝達手
段と、互いに隣接する各レジスタ間が第1の伝達
手段により連結された複数の第1のレジスタアレ
イと、隣接する各レジスタ間が直列に接続された
第2のレジスタアレイと、第2のレジスタアレイ
の各段のレジスタの内容により、各第1のレジス
タアレイの出力を選択的に出力する出力手段と、
各第1のレジスタアレイの出力と第2のレジスト
アレイ内のレジスタの出力とを選択的に次の第1
のレジスタアレイに伝達する第2の伝達手段とを
含む記号列照合装置及び該装置の出力手段にエン
コーダ又はシフトレジストが付加された記号列照
合装置が得られる。
(Structure of the Invention) Therefore, according to the present invention, a symbol string storage means for storing a plurality of collation symbol strings with bit patterns associated with each symbol, a first transmission means connected to each of the outputs, and each adjacent A plurality of first register arrays in which registers are connected by a first transmission means, a second register array in which adjacent registers are connected in series, and registers in each stage of the second register array. output means for selectively outputting the output of each first register array depending on the content;
The output of each first register array and the output of a register in the second register array are selectively transferred to the next first register array.
A symbol string matching device including a second transmission means for transmitting data to a register array, and a symbol string matching device in which an encoder or a shift register is added to the output means of the device are obtained.

(実施例) 第2図は本発明の第1の実施例の説明図であ
る。この記号列照合装置は長大な記号列となるテ
キストを逐次入力し、その中に登録した照合記号
列が含まれているか否かを調べ、外部に伝達する
ものであり、照合記号列をビツトパタンで記憶す
る記号列記憶手段210と、この各出力につなが
る第1の伝達手段230となるアンドゲート回路
と、互いに隣接する各レジスタ245間が該アン
ドゲート回路230により連結された複数の第1
のレジスタアレイ240と、隣接する第2レジス
タ255間が直列に接続された第2のレジスタア
レイ250と、第2のレジスタアレイ250の各
レジスタ255の内容により選択された第1のレ
ジスタアレイ240の出力を選択的に出力する出
力手段260と、各第1のレジスタアレイ240
の出力と第2のレジスタアレイ250内のレジス
タ255の出力とを選択的に次の第1のレジスタ
アレイ240に伝達する第2の伝達手段270と
からなる。
(Embodiment) FIG. 2 is an explanatory diagram of the first embodiment of the present invention. This symbol string matching device sequentially inputs text that is a long symbol string, checks whether it contains a registered verification symbol string, and transmits it to the outside. A symbol string storage means 210 for storing, an AND gate circuit serving as a first transmission means 230 connected to each output, and a plurality of first
register array 240, a second register array 250 in which adjacent second registers 255 are connected in series, and a first register array 240 selected according to the contents of each register 255 of the second register array 250. Output means 260 for selectively outputting an output, and each first register array 240
and a second transmission means 270 for selectively transmitting the output of the register 255 in the second register array 250 to the next first register array 240.

上段に位置する第1のレジスタアレイ240内
には図の例では6個の第1レジスタ245を含
み、下段の第1のレジスタアレイ240内には5
個の第1のレジスタ245を含む。各第1のレジ
スタアレイ240間はオアゲート回路270とア
ンドゲート回路230とで連結されている。記号
の個数が6個以下の照合記号列を用いる場合には
第2レジスタの第1番目の第2レジスタ255に
“1”を格納させる。この場合、第1番目の第2
レジスタ255につながる第2の伝達手段270
は第1のレジスタアレイ240の出力を通過させ
ずに第2レジスタ255の内容すなわち“1”を
アンドゲート回路に供給する。従つて、上段と下
段に位置する各第1のレジスタアレイ240の入
出力は分離される。また、上段の第1のレジスタ
アレイ240は出力手段260を介して外部に照
合出力として出力される。
In the illustrated example, the first register array 240 located at the upper stage includes six first registers 245, and the first register array 240 at the lower stage includes five registers 245.
first registers 245 . Each first register array 240 is connected by an OR gate circuit 270 and an AND gate circuit 230. When using a collation symbol string with six or fewer symbols, "1" is stored in the first second register 255 of the second registers. In this case, the first second
Second communication means 270 leading to register 255
supplies the contents of the second register 255, that is, "1", to the AND gate circuit without passing the output of the first register array 240. Therefore, the input and output of each first register array 240 located in the upper and lower stages are separated. Further, the first register array 240 in the upper stage is outputted to the outside as a verification output via the output means 260.

一方、7個以上の記号を有する照合記号列に対
しては、第2のレジスタアレイ250の第1段目
と第2段目の第2レジスタ255に各々“0”と
“1”を格納させる。この場合、第2の伝達手段
270は上段の第1のレジスタアレイ240の出
力を通過させ、アンドゲート回路230に供給す
る。従つて、上段と下段の第1のレジスタアレイ
240が連結される。また、出力手段260は下
段の第1のレジスタアレイ240の出力を照合出
力として通過させる。このように、7個以上の記
号からなる照合記号列に対しては、各第1のレジ
スタアレイ240を連結させて用いる。この連結
は第2のレジスタアレイ250の内容により制御
できる。
On the other hand, for a collation symbol string having seven or more symbols, "0" and "1" are stored in the second registers 255 in the first and second stages of the second register array 250, respectively. . In this case, the second transmission means 270 passes the output of the first register array 240 in the upper stage and supplies it to the AND gate circuit 230. Therefore, the upper and lower first register arrays 240 are connected. Further, the output means 260 passes the output of the first register array 240 in the lower stage as a verification output. In this way, for a collation symbol string consisting of seven or more symbols, the first register arrays 240 are used in conjunction with each other. This concatenation can be controlled by the contents of second register array 250.

照合記号列の各記号は記号記憶手段210の各
ビツトに記号に関連づけたビツトパタンで格納さ
れる。このビツトパタンは記号で選択された番地
のみ“1”になつている。第2図の例では11ビツ
トの記号記憶手段210に“ABABB”の5個の
記号からなる照合記号列を格納している。すなわ
ち、記号“A”で指定されるアドレスの第1,3
ビツトと記号“B”で指定されるアドレスの第
2,4,5ビツトにのみ“1”が格納され、他は
“0”が格納される。但し、記号列記憶手段21
0の第6ビツトは全アドレスに“1”を格納させ
る。従つて、それにつながるアンドゲート回路2
30は第5番目の第1レジスタ245の内容Q5
をそのまま第6番目の第1レジスタ245に供給
する。
Each symbol of the verification symbol string is stored in each bit of the symbol storage means 210 in a bit pattern associated with the symbol. In this bit pattern, only the address selected by the symbol is set to "1". In the example shown in FIG. 2, the 11-bit symbol storage means 210 stores a collation symbol string consisting of five symbols "ABABB". In other words, the first and third addresses designated by the symbol “A”
"1" is stored only in the 2nd, 4th, and 5th bits of the address specified by the bit and the symbol "B", and "0" is stored in the other bits. However, the symbol string storage means 21
The 6th bit of 0 causes "1" to be stored in all addresses. Therefore, AND gate circuit 2 connected to it
30 is the content Q5 of the fifth first register 245
is supplied as is to the sixth first register 245.

また、第2のレジスタアレイ250の第1番目
の第2レジスタには“1”を格納させ、上段の第
1のレジスタアレイ240の出力Q6を出力手段
270を介して外部に出力させる。
Further, "1" is stored in the first second register of the second register array 250, and the output Q6 of the first register array 240 in the upper stage is outputted to the outside via the output means 270.

先に説明したように、記号記憶手段210の番
地は記号の種類に対応し、その第1,3ビツトの
読取り出力は記号“A”が入力されたときのみ
“1”となり、第2,4,5ビツトの読取り出力
は“B”が入力されたときのみ“1”となる。ま
た、第6ビツトの読取り出力は常に“1”を発生
する。
As explained above, the address of the symbol storage means 210 corresponds to the type of symbol, and the read output of the first and third bits becomes "1" only when the symbol "A" is input, and the read output of the second and fourth bits becomes "1" only when the symbol "A" is input. , the read output of 5 bits becomes "1" only when "B" is input. Further, the read output of the sixth bit always generates "1".

照合しようとするテキストを構成する記号は逐
次記号記憶手段210のアドレス入力211に印
加され、その記号に対応する番地の内容が読み出
される。記号記憶手段210の第1ビツトの読取
り出力は内部記号として第1のレジスタアレイ2
40の初段のレジスタ245に供給される。他の
読取り出力はアンドゲート回路で構成された内部
信号の伝達手段230に供給され、レジスタアレ
イ240内の各段のレジスタ245に蓄積された
内部信号を次段のレジスタ245に伝達するか否
かを制御する。このレジスタアレイ240内の各
段のレジスタ245は、記号の入力毎に印加され
る同一のクロツク信号241で内部信号の取込み
を行なう。内部信号は記号記憶手段210のアド
レス入力211に記号列“ABABB”が入力され
たときにのみレジスタアレイ240の各段のレジ
スタを通過し、出力手段270を介して特定のレ
ジスタの内容が照合出力端子280から出力され
る。
The symbols constituting the text to be compared are sequentially applied to the address input 211 of the symbol storage means 210, and the contents of the address corresponding to the symbol are read out. The read output of the first bit of the symbol storage means 210 is stored as an internal symbol in the first register array 2.
40 first-stage registers 245. The other read output is supplied to an internal signal transmission means 230 composed of an AND gate circuit, and determines whether or not to transmit the internal signal accumulated in the register 245 at each stage in the register array 240 to the register 245 at the next stage. control. The registers 245 at each stage in the register array 240 take in internal signals using the same clock signal 241 applied each time a symbol is input. The internal signal passes through the registers in each stage of the register array 240 only when the symbol string "ABABB" is input to the address input 211 of the symbol storage means 210, and the contents of a specific register are collated and output via the output means 270. It is output from terminal 280.

第3図は第2図の記号列照合装置の動作説明図
である。これは第2図に示したように記号記憶手
段210に“ABABB”の照合記号列が格納さ
れ、そのアドレス入力211にテキスト
“ABABAABBABABBAB”の記号列が入力さ
れたときの第1のレジスタアレイ240の各段の
出力Q1〜Q6を示している。第1のレジスタア
レイ240の初段の出力Q1は記号“A”が入力
されたときのみ“1”となり、また第2段の出力
Q2はQ1が1で記号“B”が入力されたときに
のみ“1”となる。このようにして、照合出力端
子280に出力されるQ6はテキスト内に照合記
号列“ABABB”に等しい記号列が現われたとき
に“1”となる。この例では時刻T14にQ6が
“1”となるので、それより一時刻前に入力され
た下線で示す記号列が照合記合列に等しいとわか
る。
FIG. 3 is an explanatory diagram of the operation of the symbol string matching device shown in FIG. 2. As shown in FIG. 2, this is the first register array 240 when the collation symbol string "ABABB" is stored in the symbol storage means 210 and the symbol string "ABABAABBABABBAB" is input to the address input 211. The outputs Q1 to Q6 of each stage are shown. The output Q1 of the first stage of the first register array 240 becomes "1" only when the symbol "A" is input, and the output Q2 of the second stage becomes "1" only when Q1 is 1 and the symbol "B" is input. It becomes “1”. In this way, Q6 output to the verification output terminal 280 becomes "1" when a symbol string equal to the verification symbol string "ABABB" appears in the text. In this example, since Q6 becomes "1" at time T14, it can be seen that the underlined symbol string input one time before that is equal to the matching string.

この例では記号記憶手段210に格納された照
合記号列“ABABB”のみ検知しているが、テキ
スト内の記号列の1部が重複したり、欠けたりし
ても混同がなければ検知することも可能である。
たとえば、照合記号列の先頭が記号“Z”でも良
いとする場合には記号記憶手段210の第0ビツ
トの記号Zで指定される番地にも“1”を格納し
ておくことで、“ABABB”および“ZBABB”
の両記号列を抽出できる。
In this example, only the collation symbol string "ABABB" stored in the symbol storage means 210 is detected, but even if part of the symbol string in the text is duplicated or missing, it may be detected if there is no confusion. It is possible.
For example, if the head of the verification symbol string can be the symbol "Z", by storing "1" also at the address specified by the symbol Z of the 0th bit of the symbol storage means 210, "ABABB ” and “ZBABB”
Both symbol strings can be extracted.

この記号列照合装置は単語等の意味を持つ記号
列毎にスペース等の区切り記号等がない記号列の
照合も可能にする。また、同様な意味を有する異
なる記号列の照合も可能である。英単語、特に名
詞は単数形と複数形で最終文字が異なる場合が多
い。例えば“memory”は複数形になると
“memories”になる。この場合、照合記号列と
して“memory”と“memori”すなわち、
“memor”の最後に“y”と“i”の両記号を付
加した記号列を記憶しておくことで、“memory”
と“memories”の両記号列を照合できる。
This symbol string matching device also makes it possible to match symbol strings that do not have delimiters such as spaces for each symbol string that has a meaning such as a word. It is also possible to match different symbol strings that have similar meanings. English words, especially nouns, often have different final letters in their singular and plural forms. For example, “memory” becomes “memories” in plural form. In this case, the collation symbol strings are “memory” and “memori”, that is,
By memorizing a symbol string with both “y” and “i” added to the end of “memor”, “memory”
and “memories” can be matched.

この記号列照合装置は容易にLSI化が可能であ
るので低価格化をもたらし、また1個の記号を記
号列記憶手段、例えばICメモリのほぼサイクル
タイムで照合可能であるため、高速な記号列照合
を可能にする。また、種々の長さの記号列長の照
合記号列を取扱うことができる。また、照合出力
を発生する出力端子数が削減され、より容易に
LSI化を可能にする。
This symbol string matching device can be easily integrated into LSI, resulting in low cost. Also, since it is possible to match a single symbol in approximately the cycle time of a symbol string storage means, such as an IC memory, it is possible to create high-speed symbol strings. Enables matching. Furthermore, it is possible to handle collation symbol strings of various symbol string lengths. In addition, the number of output pins that generate verification output is reduced, making it easier to
Enables LSI conversion.

第4図は本発明による記号列照合装置の他の実
施例の説明図である。この記号列照合装置は任意
の記号列長の複数の照合記号列を並列に照合でき
る。これを可能にするために、第2図の記号列記
憶装置に使用した第2の伝達手段270と第1の
伝達手段230と出力手段260とに各々対応す
るオアゲート回路470と第1のアンドゲート回
路430と第2のアンドゲート回路460と、さ
らに記号列記憶手段210と第1のレジスタアレ
イ440と第2のレジスタアレイ450と出力手
段としてのアンドゲート回路460に付加される
エンコーダ490とから構成される。
FIG. 4 is an explanatory diagram of another embodiment of the symbol string matching device according to the present invention. This symbol string matching device can match multiple matching symbol strings of arbitrary symbol string lengths in parallel. To make this possible, an OR gate circuit 470 and a first AND gate are provided, which correspond to the second transmission means 270, first transmission means 230, and output means 260 used in the symbol string storage device of FIG. Consisting of a circuit 430, a second AND gate circuit 460, a symbol string storage means 210, a first register array 440, a second register array 450, and an encoder 490 added to the AND gate circuit 460 as an output means. be done.

第1のレジスタアレイ440はM個有り、各々
N個のレジスタ445を含んでいる。各第1のレ
ジスタアレイ440内の各レジスタ445は第1
のアンドゲート回路430を介して連結され、各
第1のレジスタアレイ440はオアゲート回路4
70と第1のアンドゲート回路430を介して接
続される。第2のレジスタアレイ450は第1の
レジスタアレイ440の個数に対応するM個のレ
ジスタを含み、それらは直列に接続されている。
There are M first register arrays 440, each including N registers 445. Each register 445 in each first register array 440 is a first
are connected via an AND gate circuit 430, and each first register array 440 is connected to an OR gate circuit 4.
70 via a first AND gate circuit 430. Second register array 450 includes M registers corresponding to the number of first register array 440, which are connected in series.

照合記号列は第2図と同様に記号に関連づけた
ビツトパタンで記号列記憶手段210に格納され
る。すなわち、照合記号列の記号で示される記号
列記憶手段210のアドレスにのみ“1”を書込
むことでその記号が格納される。照合記号列の記
号数が第1のレジスタアレイ440のレジスタ4
45の個数Nより小さい場合には、記号列記憶手
段210に第1のレジスタアレイ440に対応し
てM個の照合記号列を格納できる。このとき、第
2のレジスタアレイ450の各レジスタ455に
は、M個の照合記号列を区切るマーカとして
“1”を格納する。このマーカはマーカ入力信号
451と共に第2のレジスタアレイ450へのマ
ーカ書込みクロツク信号452を印加することで
直列に書込める。また、照合記号列の記号数とN
との差に相当する記号列記憶手段210のビツト
には全てのアドレスに“1”を格納しておく必要
がある。例えば、第1のレジスタアレイ440の
レジスタ445の個数Nを8とし、そこに6文字
の照合記号列“memory”を格納する場合には、
記号列記憶手段の第1ビツト目と第2ビツト目の
全アドレスに“1”を格納し、第3ビツト目から
第8ビツト目に各々“m”,“e”,“m”,“o”,
“r”,“y”の記号に対応するアドレスにのみ
“1”を格納させる。このように格納すると、第
1のレジスタアレイ440内の第1段目と第2段
目のレジスタ445には、記号列入力端子221
から入力される記号にかかわらず常に“1”が保
持される。その結果、照合記号列“memory”に
等しい記号列が記号列入力端子221から入力さ
れたときのみ、“1”の内部信号が第1のレジス
タアレイ440内の最終段のレジスタ445に伝
達され、第2のアンドゲート回路460を介し
て、照合出力480が発生する。すなわち、レジ
スタ445の段数Nより短い記号列長の照合記号
列の照合が可能となる。
The verification symbol string is stored in the symbol string storage means 210 in the form of a bit pattern associated with the symbol, as in FIG. That is, by writing "1" only to the address of the symbol string storage means 210 indicated by the symbol of the verification symbol string, that symbol is stored. The number of symbols in the collation symbol string is the register 4 of the first register array 440.
If the number N is less than 45, M verification symbol strings can be stored in the symbol string storage means 210 in correspondence with the first register array 440. At this time, "1" is stored in each register 455 of the second register array 450 as a marker that separates M collation symbol strings. The marker can be written in series by applying a marker write clock signal 452 to the second register array 450 along with a marker input signal 451. Also, the number of symbols in the matching symbol string and N
It is necessary to store "1" in all the bits of the symbol string storage means 210 corresponding to the difference between the two addresses. For example, when the number N of registers 445 in the first register array 440 is 8 and a 6-character collation symbol string "memory" is stored there,
"1" is stored in all addresses of the first and second bits of the symbol string storage means, and "m", "e", "m", and "o" are stored in the third to eighth bits, respectively. ”、
“1” is stored only in the addresses corresponding to the symbols “r” and “y”. When stored in this way, the first and second stage registers 445 in the first register array 440 have the symbol string input terminal 221
“1” is always held regardless of the symbol input from. As a result, only when a symbol string equal to the collation symbol string "memory" is input from the symbol string input terminal 221, an internal signal of "1" is transmitted to the final stage register 445 in the first register array 440, A verification output 480 is generated via the second AND gate circuit 460 . In other words, it is possible to match a verification symbol string having a symbol string length shorter than the number of stages N of the register 445.

一方:記号列長がNより大きい照合記号列に対
しては、2個以上の第1のレジスタアレイ440
にまたがつて照合記号列を格納する。このため
に、その第1のレジスタアレイ440のつながり
に対応する第2のレジスタアレイ450のレジス
タ455に連続していることを意味する“0”を
格納させる。この結果、“0”を出力する第2の
レジスタアレイ450のレジスタ455につなが
るオアゲート回路470は、第1のレジスタアレ
イ440の最終段のレジスタ445の内容を次の
第1のレジスタアレイ440の入力につながるア
ンドゲート回路430に伝達する。すなわち、2
個の第1のレジスタアレイ440が連続に接続さ
れたことになる。このように、第2のレジスタア
レイ450内のレジスタ455の内容により、各
第1のレジスタアレイ440を直列に接続した
り、また分離することができる。すなわち、第1
のレジスタアレイ440内のレジスタ445の段
数Nの単位でそのレジスタ445をつなげること
できる。
On the other hand: for a collation symbol string whose symbol string length is greater than N, two or more first register arrays 440
Stores a collation symbol string across. For this purpose, the register 455 of the second register array 450 corresponding to the connection of the first register array 440 is made to store "0", which means that it is continuous. As a result, the OR gate circuit 470 connected to the register 455 of the second register array 450 that outputs "0" inputs the contents of the last stage register 445 of the first register array 440 to the next first register array 440. The signal is transmitted to an AND gate circuit 430 connected to . That is, 2
This means that the first register arrays 440 are connected in series. In this way, each first register array 440 can be connected in series or separated depending on the contents of the registers 455 in the second register array 450. That is, the first
The registers 445 in the register array 440 can be connected in units of N stages.

このように第2のレジスタアレイ450の内容
により、任意の第1のレジスタアレイ440内の
最終段のレジスタ445内の内部信号を照合出力
480に導くことができ、複数の第1のレジスタ
アレイ440を任意に分割、接続ができる。従つ
て、記号列記憶手段210に任意の記号列長の複
数の照合記号列を格納でき、その照合記号列に関
する並列照合が可能となる。
In this way, depending on the contents of the second register array 450, the internal signal in the final stage register 445 in any first register array 440 can be guided to the collation output 480, and the plurality of first register arrays 440 can be arbitrarily divided and connected. Therefore, a plurality of collation symbol strings having an arbitrary symbol string length can be stored in the symbol string storage means 210, and parallel verification of the collation symbol strings can be performed.

また、照合出力端子480の数は、第1のレジ
スタアレイ440の数Mで複数の第1のレジスタ
アレイ440内のレジスタ445の個数のN分の
1である。出力端子数が少ないため、容易にLSI
化が可能となり価格低下をもたらす。
Further, the number of collation output terminals 480 is the number M of first register arrays 440, which is 1/N of the number of registers 445 in the plurality of first register arrays 440. Easy to integrate into LSI due to small number of output pins
This makes it possible to reduce the price.

各照合出力480はエンコーダ490に導か
れ、照合した記号列の分類コード491をエンコ
ーダは発生する。いずれの照合出力480もエン
コーダ490に到達していない場合に、エンコー
ダ490は判別不能信号492を出力する。この
ようなエンコーダ490はプライオリテイ・エン
コーダの商品名で市販されている。分類コード4
91のビツト数は照合出力480の個数を2Nとす
ると、Nビツトとなり、記号列照合装置の出力端
子数を削減し、容易にLSI化を実現できる。
Each matching output 480 is directed to an encoder 490, which generates a classification code 491 for the matched symbol string. If none of the matching outputs 480 has reached the encoder 490, the encoder 490 outputs an indiscernible signal 492. Such an encoder 490 is commercially available under the trade name Priority Encoder. Classification code 4
The number of bits of 91 becomes N bits when the number of collation outputs 480 is 2N , and the number of output terminals of the symbol string collation device can be reduced and LSI implementation can be easily realized.

また、エンコーダ490の代りに照合出力48
0の信号を並列に入力し、それを直列に出力する
シフトレジスタに置換えることも可能である。こ
の場合、出力端子数が1個となりさらにLSI化が
容易になる。
Also, instead of the encoder 490, the collation output 48
It is also possible to replace it with a shift register that inputs 0 signals in parallel and outputs them in series. In this case, the number of output terminals is one, which further facilitates LSI implementation.

なお、第1、第2のアンドゲート回路430,
460及びオアゲート回路470は各々内部信号
の第1の伝達手段、内部信号の出力手段、内部信
号の第2の伝達手段の機能を有するものならば、
他のゲート回路に置換えることも可能である。
Note that the first and second AND gate circuits 430,
460 and the OR gate circuit 470 have the functions of a first internal signal transmission means, an internal signal output means, and a second internal signal transmission means, respectively.
It is also possible to replace it with another gate circuit.

(発明の効果) 以上述べたように、本発明によれば従来の記号
列照合において照合時間が掛かりすぎる問題を容
易に解決した記号列照合装置を実現できる。また
一部の記号の誤りや変化にも柔軟に対応できる照
合が可能である。さらに、記号列長が異なる複数
の照合記号列を格納でき、それらを並列に照合で
きる。従つて、ハードウエアを効率的に利用し、
価格低下と照合時間の短縮をもたらす。
(Effects of the Invention) As described above, according to the present invention, it is possible to realize a symbol string matching device that easily solves the problem of the conventional symbol string matching requiring too much matching time. It is also possible to perform verification that can flexibly deal with errors or changes in some symbols. Furthermore, multiple collation symbol strings with different symbol string lengths can be stored and collated in parallel. Therefore, by using hardware efficiently,
This results in lower prices and shorter matching times.

本発明の記号列照合装置は現状の256キロビツ
トRAMの半導体技術を用いれば、記号のコード
長を8ビツトとすると、平均8個の記号列長の照
合記号列を128個を1チツプに収納でき、それら
を並列に照合できる。
If the symbol string matching device of the present invention uses the current 256 kilobit RAM semiconductor technology and the symbol code length is 8 bits, it is possible to store 128 matching symbol strings with an average length of 8 symbols on one chip. , they can be matched in parallel.

1チツプで256種の信号から成る記号列を128ク
ラスに分類することができる事はワープロで作成
した文章の原文フアイルからシーケンシアルに読
出される記号列文章の中から128個までのキーワ
ード(記号列)の抽出を一挙にやりとげれる事を
意味する。従来は多数のキーワードの同時検索が
困難であつたから、上記チツプのインパクトは大
きい。
The ability to classify symbol strings consisting of 256 types of signals into 128 classes with one chip means that up to 128 keywords (symbols This means that you can extract all columns in one go. In the past, it was difficult to search multiple keywords at the same time, so the above-mentioned chip has a great impact.

この記号列識別装置はOCR装置や音声認識装
置などパタン認識を行なうシステムにおける特徴
系列の分類においても役立つ。この記号列識別装
置の1チツプLSI化は言語翻訳に必要な辞書とし
ても役立つ。このチツプに通常RAMを接続し各
記号列の分類コードに対応ずけて、単語の訳語を
格納すると、1チツプにつき128単語までの翻訳
が記号列の入力の完了時に直ちに求まる。記号列
識別チツプに接続される通常RAMには記号列の
分類コードに対応ずけて、各種の情報を格納する
ことが可能であつて、それによつて種々の記号列
情報処理機能が達成される。たとえば、記号列の
分類コードに対応ずけ、単語の品詞コードや記号
列の出現回数や記号列文章に対する処理命令を格
納すると、知識情報の収集や整理が行ないやすく
なる。
This symbol string identification device is also useful for classifying feature sequences in systems that perform pattern recognition, such as OCR devices and speech recognition devices. This one-chip LSI version of the symbol string identification device can also be used as a dictionary necessary for language translation. If a normal RAM is connected to this chip and translations of words are stored in correspondence with the classification code of each symbol string, translations of up to 128 words per chip can be obtained immediately upon completion of symbol string input. A typical RAM connected to a symbol string identification chip can store various types of information in accordance with the classification code of the symbol string, thereby achieving various symbol string information processing functions. . For example, if the part-of-speech code of a word, the number of occurrences of a symbol string, and processing instructions for a symbol string sentence are stored in correspondence with the classification code of the symbol string, it becomes easier to collect and organize knowledge information.

この記号列抽出装置の処理速度は、記号記憶手
段に使われる半導体RAMのサイクルタイムTcが
1つの記号の処理時間にほぼ対応する。Tcを
100nsとすると、109個の記号列のテキストに対す
る103個の記号列による照合を10秒で行なえる。
現状のソフトウエアによる照合では10時間程度を
必要とするので、本発明の記号列照合装置は著し
く照合時間を短縮する。
The processing speed of this symbol string extraction device is such that the cycle time Tc of the semiconductor RAM used as the symbol storage means approximately corresponds to the processing time of one symbol. Tc
If it is 100 ns, it will take 10 seconds to match the text of 10 9 symbol strings with 10 3 symbol strings.
Since matching using current software requires about 10 hours, the symbol string matching device of the present invention significantly shortens the matching time.

以上まとめると、従来のマイコンとソフトウエ
アの組合わせによる記号列の分類による処理時間
の大きい事と柔軟性に欠ける事の欠陥が容易に解
決する。また、本発明の記号列識別装置が1チツ
プのLSIにまとまり易い事を考えると、このよう
なLSIは文章の原文フアイルからのキーワードの
抽出や言語翻訳用の電子辞書やパタン認識システ
ムの特徴系列の分類において欠かすことのできな
い機能素子になる。
In summary, the drawbacks of long processing time and lack of flexibility caused by conventional symbol string classification using a combination of a microcomputer and software can be easily solved. Also, considering that the symbol string identification device of the present invention can be easily integrated into a single LSI chip, such an LSI can be used to extract keywords from original text files, electronic dictionaries for language translation, and feature series of pattern recognition systems. It becomes an indispensable functional element in classification.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は記号列照合問題の説明図、第2図は本
発明による記号列照合装置の一実施例の説明図、
第3図は動作説明図、第4図は本発明による他の
実施例の説明図である。 210……記号列記憶手段、230……第1の
伝達手段、240,440……第1のレジスタア
レイ、245……レジスタ、250,450……
第2のレジスタアレイ、255……レジスタ、2
60……出力手段、270……第2の伝達手段、
430……第1のアンドゲート回路、460……
第2のアンドゲート回路、470……オアゲート
回路、490……エンコーダ。
FIG. 1 is an explanatory diagram of a symbol string matching problem, FIG. 2 is an explanatory diagram of an embodiment of a symbol string matching device according to the present invention,
FIG. 3 is an explanatory diagram of the operation, and FIG. 4 is an explanatory diagram of another embodiment according to the present invention. 210... Symbol string storage means, 230... First transmission means, 240, 440... First register array, 245... Register, 250, 450...
Second register array, 255...Register, 2
60... Output means, 270... Second transmission means,
430...first AND gate circuit, 460...
Second AND gate circuit, 470...OR gate circuit, 490...Encoder.

Claims (1)

【特許請求の範囲】 1 各記号に関連づけたビツトパタンで複数の照
合記号列を記憶する記号列記憶手段と、この各出
力につながる第1の伝達手段と、互いに隣接する
各レジスタ間が第1の伝達手段により連結された
複数の第1のレジスタアレイと、隣接する各レジ
スタ間が直列に接続された第2のレジスタアレイ
と、第2のレジスタアレイの各段のレジスタの内
容により各第1のレジスタアレイの出力を選択的
に出力する出力手段と、各第1のレジスタアレイ
の出力と第2のレジスタアレイ内のレジスタの出
力とを選択的に次の第1のレジスタアレイに伝達
する第2の伝達手段とを備えたことを特徴とする
記号列照合装置。 2 第1の伝達手段と出力手段がアンドゲート回
路であり、前記第2の伝達手段がオアゲート回路
であることを特徴とする特許請求の範囲第1項記
載の記号列照合装置。 3 各記号に関連づけたビツトパタンで複数の照
合記号列を記憶する記号列記憶手段と、この各出
力につながる第1の伝達手段と、互いに隣接する
各レジスタ間が第1の伝達手段により連結された
複数の第1のレジスタアレイと、隣接する各レジ
スタ間が直列に接続された第2のレジスタアレイ
と、第2のレジスタアレイの各段のレジスタの内
容により各第1のレジスタアレイの出力を選択的
に出力する出力手段と、各第1のレジスタアレイ
の出力と第2のレジスタアレイ内のレジスタの出
力とを選択的に次の第1のレジスタアレイに伝達
する第2の伝達手段と前記出力手段に付加するエ
ンコーダ又はシフトレジスタとを備えたことを特
徴とする記号列照合装置。 4 第1の伝達手段と出力手段がアンドゲート回
路であり、前記第2の伝達手段がオアゲート回路
であることを特徴とする特許請求の範囲第3項記
載の記号列照合装置。
[Claims] 1. Symbol string storage means for storing a plurality of collation symbol strings with bit patterns associated with each symbol, a first transmission means connected to each of the outputs, and a first communication means between adjacent registers. A plurality of first register arrays connected by a transmission means, a second register array in which adjacent registers are connected in series, and a plurality of first register arrays connected by a transmission means; output means for selectively outputting the output of the register array; and a second output means for selectively transmitting the output of each first register array and the output of the register in the second register array to the next first register array. A symbol string matching device comprising: a transmission means. 2. The symbol string matching device according to claim 1, wherein the first transmission means and the output means are AND gate circuits, and the second transmission means is an OR gate circuit. 3 Symbol string storage means for storing a plurality of collation symbol strings with bit patterns associated with each symbol, a first transmission means connected to each of the outputs, and mutually adjacent registers connected by the first transmission means. A plurality of first register arrays, a second register array in which adjacent registers are connected in series, and an output of each first register array is selected based on the contents of the registers in each stage of the second register array. output means for selectively transmitting the output of each first register array and the output of the register in the second register array to the next first register array; A symbol string matching device characterized by comprising an encoder or a shift register added to the means. 4. The symbol string matching device according to claim 3, wherein the first transmission means and the output means are AND gate circuits, and the second transmission means is an OR gate circuit.
JP14892584A 1984-07-18 1984-07-18 Symbol string collating device Granted JPS6128133A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14892584A JPS6128133A (en) 1984-07-18 1984-07-18 Symbol string collating device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14892584A JPS6128133A (en) 1984-07-18 1984-07-18 Symbol string collating device

Publications (2)

Publication Number Publication Date
JPS6128133A JPS6128133A (en) 1986-02-07
JPH0527150B2 true JPH0527150B2 (en) 1993-04-20

Family

ID=15463726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14892584A Granted JPS6128133A (en) 1984-07-18 1984-07-18 Symbol string collating device

Country Status (1)

Country Link
JP (1) JPS6128133A (en)

Also Published As

Publication number Publication date
JPS6128133A (en) 1986-02-07

Similar Documents

Publication Publication Date Title
JPH0533422B2 (en)
US3938099A (en) Electronic digital system and method for reproducing languages using the Arabic-Farsi script
JP2737173B2 (en) Symbol string collating device and its control method
JPS5660972A (en) Recognition device for basic form of word and translator using it
US4381551A (en) Electronic translator
JP2715465B2 (en) Symbol string matching device
KR100629862B1 (en) The korean transcription apparatus and method for transcribing convert a english language into a korea language
JPH0527150B2 (en)
JPH0554147B2 (en)
JPH0529950B2 (en)
JPH0554148B2 (en)
KR100289332B1 (en) Automatic Word Construction System for Electronic Documents and Method
JPH0554146B2 (en)
JPS6128131A (en) Symbol string collating device and its collating system
JPS62299879A (en) Kanji learning apparatus
Alcon Acedo From image to MIDI: Implementing a complete OMR system for sheet music
Roberto Busa The Use of Punched Cards in Linguistic Analysis
JPS60225273A (en) Word retrieving system
JPH0438026B2 (en)
JPS6120178A (en) Code string discriminator and its controlling method
JPS6195443A (en) Matching device of code string
JPH0583957B2 (en)
JPS60211539A (en) Symbol string identification device and its control system
JPS61267130A (en) Mark string identifying device and its control system
JPS5892064A (en) Constituting system for electronic dictionary