JPH0619800B2

JPH0619800B2 - 文字列照合装置および同装置での階層的文字列照合方式

Info

Publication number: JPH0619800B2
Application number: JP62200208A
Authority: JP
Inventors: 恒介 ▲高▼橋
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1987-08-10
Filing date: 1987-08-10
Publication date: 1994-03-16
Anticipated expiration: 2009-03-16
Also published as: JPS6442784A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は情報検索システムや情報通信システムなどに用
いられる文字列照合装置および同装置での階層的文字列
照合方式に関するものである。特に、上記文字列照合装
置は入文データ文字列（テキスト情報や通信メッセー
ジ）が登録パタン文字列（キーワードとかメッセージの
宛先など）のどれとどこで一致するかを判別するデバイ
スで構成できるものであって、ネットワークを介して高
速に伝送される情報の中から各個人の要求に合った情報
だけを効率的に選択できるようにする役割と、伝送され
たりファイルされたりする大量の情報を圧縮する役割と
を果すものである。

〔従来の技術〕

テキストやメッセージを構成する文字列の中から特定の
文字列いくつかを見つけ出すためには、いくつかのパタ
ン文字列をメモリに貯えておいて、それ等をテキストや
メッセージなどの入力データ文字列と１文字ずつ比較す
る必要がある。入力データ文字列の中の各文字列長さに
区切りがなかったり、文字列長さが任意でなかたり、パ
タン文字列の個数が大きかったりすると、ソフトウエア
では処理速度が非常に低い。そこで、ハードウエアによ
る処理方法がいくつか提案されている。

例えば、連想メモリやセルラーアレイを用いる方法は文
字列長が一定で、しかも文字列に区切りがある時に、処
理速度が高くなる。しかし、そうでない現実的な場合に
は性能が上りにくい。文字列照合論理の有限状態オート
マトン（ＦＳＡ）の状態遷移表を記憶するＲＡＭ（ラン
ダムアクセスメモリを用いるＦＳＡ方法は文字列長が任
意であってもよいが、文字列に区切りが必要であるし、
状態遷移表を作ってＲＡＭに書込む作業がめんどうであ
る。

これに対して、特開昭60-211539号公報の「記号列識別
装置及びその制御方式」（本願発明者による発明）がメ
モリと順序論理回路とエンコーダとの組合わせによる、
多数パタン文字列と入力データ文字列との並列照合処理
方法を提示している。この方法では、メモリ部の登録パ
タン文字列の数をＰとし、入力データ文字列の入力速度
をＦとし、単位パタン文字列の長さをＬとし、一斉に比
較される文字数をＮ＝ＰＬとすると、毎秒ＮＦ回の文字
比較という高い処理速度が達成される。さらに、上記の
記号列識別装置の構成はメモリとロジックとエンコーダ
であるから、ＬＳＩ化に向いている。

しかし、メモリに登録されるパタン文字列の数を増やす
時に合わせてロジックやエンコーダもそれに比例して増
大すると共に、パタン文字列の複合語の登録が文字列の
重複登録を招き、メモリの利用効率を低下させる。

パタン文字列の個数が２５６個までなら、エンコーダは
８ビットで良いが、パタン文字列の個数が１０２４以上
になってくると、エンコーダは大規模になり、そこでの
配線が急激に増加し、その回路サイズを顕著に大きなも
のにする。特に、プライオリティーエンコーダの場合に
は、回路サイズが大きくなるだけでなく、処理速度が低
下するようになる。そして、処理速度の低下を防ぐに
は、６〜７ビット以下に制限されるる。そのために、メ
モリ容量の方も制限されるのでは具合が悪い。

複合語に関して言えばたとえば、通信衛星・通信事業・
通信機関・通信学会・通信販売と合わせて、販売活動・
事業活動・活動機関・販売組合・組合活動・学会活動な
どをパタン文字列としてメモリに登録する時に、４４文
字分のメモリエリヤが確保される必要がある。ところ
が、これらの文字列の中で通信は４回も出現し、活動も
４回出現し、重複して登録されていることになる。この
ような複合語が非常に多くなると、メモリの利用効率は
低下してしまう。

〔本発明が解決しようとする問題点〕

エンコーダ部分が大きすぎるために、パタン記号列を登
録するメモリ部分を大きくきないという問題点と、複合
語など階層的文字列を登録する時に同じような文字列が
何度も登録され、メモリの利用効率が低くなるという問
題点があるために、ＬＳＩ化した文字列照合装置での登
録パタン文字列数が実質的に大きくならなかった。そこ
で、本発明の目的はこれら二つの問題を一挙に解決する
事にある。

〔問題点を解決するための手段〕

したがって、本発明の文字列照合装置および同装置での
階層的文字列照合方式の第一の発明は、複数個のメモリ
エリヤに分れた連想メモリ手段と、前記メモリ手段に対
応して複数個に分かれた順序論理手段と、エンコード手
段と、前記エンコード手段の出力を一時的に前記連想メ
モリ手段へフィードバックする割込みスイッチ手段とを
備えて構成される。

さらに、本発明の第二の発明は、登録パタン文字列を短
かいパタン文字列へ階層的に分割し、階層毎に割当てら
れたメモリエリヤに格納し、入力データ文字列が低階層
メモリエリヤのパタン文字列とマッチした時に、前記エ
ンコード手段の出力を前記割込みスイッチ手段を介して
一時的に前記入力データ文字列と交換し、高階層メモリ
エリヤの前記パタン文字列と比較するようにした事を備
えて構成される。

〔作用〕

パタン文字列を登録する連想メモリ部を複数個のメモリ
エリヤに分割し、各メモリエリヤを選択的にアクセスで
きるようにすることによって、プライオリティーエンコ
ーダを大きくしないで、連想メモリ部の記憶容量を大き
くできると共に、連想メモリ部における単位文字列の重
複登録を少くして、トータルの登録パタン文字列数を大
きくすることができる。

たとえば、単位パタン文字列として通信・衛星・事業・
機関・学会・販売・組合・活動を登録し、それの識別コ
ードをそれぞれ、Ａ・Ｂ・Ｃ・Ｄ・Ｅ・Ｆ・Ｇ・Ｈと
し、通信衛星をＡＢ・通信事業をＡＣ・通信機関をＡＤ
・通信学会をＡＥ・通信販売をＡＦ・販売活動をＦＨ・
事業活動をＣＨ・活動機関をＨＤ・販売組合をＦＧ・組
合活動をＧＨ・学会活動をＥＨとして別メモリエリヤに
登録すると、４４文字の格納エリヤが３８文字分で済む
ようになる。この例では節約になるるメモリエリヤサイ
ズはごくわずかであるが、複合語以外に単一単語８個も
識別の対象になると、６０文字の格納エリヤが３８文字
に減少したことになる。

〔実施例〕第１図は本発明の文字列照合装置の一実施例基本構成図
であり、本発明の基本構成を示している。

複数個のメモリエリヤ120-1〜120-4に分割された連想メ
モリ部１２０と、各メモリエリヤに対応して個別に動作
できる複数個の順序論理回路130-1〜130-4から成るロジ
ック部１３０と、ロジック部１３０のどの位置からマッ
チ信号が発生したかを識別するエンコード部１４０と、
エンコード部１４０の出力によって指定された番地から
連想メモリ部１２０のメモリエリヤの選択コードを出力
する選択コードメモリ部１５０と、選択コードメモリ部
１５０の出力によってロジック部１３０の中の順序論理
回路を選択的に動作させるクロック信号制御部１６０
と、選択コードメモリ部１５０の出力とエンコード部１
４０の出力を受け入れる割込みスイッチ部１７０とが本
発明の文字列照合装置の構成要素である。

入力データ文字列は、上端中央部の入力端子１０１から
割込みスイッチ部１７０を介して、連想メモリ部１２０
にある４つのメモリエリヤ120-1・120-2・120-3・120-4の
１つに入力される。どのメモリエリヤに入力されるか
は、割込みスイッチ部１７０から与えられるメモリエリ
ヤ選択コードによって決められる。入力端子１０１から
入力データ文字列を受付ける時には初期状態であるの
で、メモリエリヤ・コードが“００”であって、メモリ
エリヤ120-1が選択される。合わせて、順序論理回路130
-1が選択されるように、クロック信号制御部１６０が働
く。したがって、メモリエリヤ120-1の中に登録された
最小単位のパタン文字列が入力データ文字列と比較され
る。すなわち、メモリエリヤ120-1の出力する文字コー
ドレベルのマッチ信号は順序論理回路130-1に選択的に
入力され、順序論理回路130-1において、文字列照合が
行なわれる。

文字列照合結果は、エンコード部１４０によってパタン
文字列の識別コードに変換されて、外部へ出力される。
合わせて、選択コードメモリ部１５０に与えられ、階層
的に上位のパタン文字列（たとえば複合語）であるか否
かを示すエリヤコードが、選択コードメモリ部１５０か
ら出力される。エンコードの“００”は上位のパタン文
字列の存在しない事を示す。もし、選択コードメモリ部
１５０から出力されるエンコードが“０１”ならば、上
位パタン文字列がある筈だと判断して、エリヤコード
“０１”と共にエンコード部１４０の出力する識別コー
ドが割込みスイッチ部１７０を通過でき、一時的にメモ
リエリヤ120-2に入力される。そして、メモリエリヤ120
-2の出力が、ロジック部１３０の中の２番目の順序論理
回路130-2に選択的に入力される。そこでの照合結果
は、エンコード部１４０によって、メモリエリヤ120-2
に対する識別コードに変換される。

選択コードメモリ部１５０は、出力しているメモリエリ
ヤ・コードによって次の出力内容が変る。つまり、現在
のメモリエリヤコードとエンコード部１４０の出力する
識別コードによって、次に割込みで選択駆動されるメモ
リエリヤが決定される。割込みによってアクセスされた
メモリエリヤの出力に従ってロジック部１３０がマッチ
信号を出力しないならば、メモリエリヤコードが“０
０”に戻って、次の入力データ文字列の受付けを行う。

このような文字列照合装置の連想メモリ部１２０部への
パタン文字列の登録は、登録すべきパタン文字列が“０
０”メモリエリヤ120-1にすでに登録済みでないかどう
かのチェックが始まる。登録されていないパタン文字列
の各部は、“００”メモリエリヤ120-1に追加登録され
る必要がある。もし全ての部分メモリ文字列が登録済み
である時には、それの組合せから成るパタン文字列は
“０１”メモリエリヤ120-2に追加登録される。また、
“０１”メモリエリヤ120-2に登録されたパタン文字列
をいくつか配列して構成されるパタン文字列は“１０”
メモリエリヤ120-3に追加登録される。同様にして、
“１０”メモリエリヤ120-3に登録されたパタン文字列
の組合せパタン文字列は“１１”メモリエリヤ120-4に
登録される。

以上のようなパタン文字列の登録方法を、階層的に区分
されたパタン文字列の階層的登録方法と呼ぶ。この方法
を用いると、メモリエリヤに登録できるパタン文字列数
４文字単位で６４個程度だとしても、４つのメモリエリ
ヤ120-1・120-2・120-3・120-4に登録できるパタン文字
列はそれぞれ４文字単位のもの６４個、１６文字単位の
もの６４個、６４文字単位のもの６４個、２５６文字単
位のもの６４個に及ぶ。したがって、登録されるパタン
文字列を文字数に換算すると、それは約２万文字に及
ぶ。本来なら４つのメモリエリヤでは、各エリヤに２５
６文字ずつで、合わせて１千文字分しか格納され得な
い。したがって、階層的登録方法がフルに活用されるな
らば、文字登録数が２０倍に増える事になる。２０に至
らなくとも、この効果は大きい。

４つのメモリエリヤに登録されるパタン文字列数がが文
字登録数で２０に増えても、各メモリエリヤに登録され
るパタン文字列数が６４のままであるとすれば、エンコ
ード部１４０は６ビット分で良く。そう大きなサイズに
ならない。しかも、４つのメモリエリヤに共通であって
時分割で利用されるので、回路の利用効率が高くなる。
選択コードメモリ部１５０は６ビット＋２ビットのアド
レスコードで選択される各番地に２ビットの選択コード
を記憶するだけであり、５１２ビットのＲＡＭで容易に
実現される。

以下で各部の詳細な構成の説明を行う。

第２図(a)及び(b)ならびに第３図(a)及び(b)は本発明の
中の連想メモリ部の一実施例を示している。

第２図(a)は入力端子１０１から与えられる文字コード
（今の場合、４ビットとした）と、連想メモリ部１２０
の４つのメモリエリヤ120-1・120-2・120-3・120-4に貯
えられた文字コードとの比較結果を、ワイヤド・アンド
読取り回路１２４から出力する。この実施例では、４ビ
ットの文字コード４つのメモリマトリクス１２９に分け
られて貯えられる。各メモリマトリクス１２９には、文
字コードの中の１つのビット情報が縦線１２２から与え
られ、各ビット情報との比較結果が横線123,123Aを介し
て読取り回路２１２４から出力される。４つのビット情
報との比較結果が全て“１”の時にワイヤド・アンド読
取り回路１２４が文字コード単位のマッチ信号を出力す
る。

各メモリマトリクス１２９は４つのメモリエリヤ120-1
・120-2・120-3・120-4に分けられていて、デコーダ１
１１によって選択され、選択されたメモリエリヤの中の
２本の縦線１２２のいずれが駆動されるかは、文字コー
ドの中のビット情報の“１”か“０”かによって決定さ
れる。駆動された方の縦線１２２と横線123・123Aとの交
点のＲＡＭセル１２８に“１”が格納されていれば、そ
のビットがマッチした事になる。“０”が格納されてい
れば、そのビットでミスマッチのあった事が示される。

各メモリマトリクス１２９にビット情報を登録する時
は、マッチ信号を発生して欲しい文字コードのビット情
報が縦線１２２から与えられ、その縦線１２２が駆動さ
れている期間に書込み回路2125から“１”の書込み信号
が送られる。共通書込み回路１２５は４ビット文字コー
ドの書込みに対し４つの書込み回路2125に一斉に“１”
の書込み信号の駆動を指令する。これによって、各行１
つの文字コードの記憶を分担する。各行の１対の横線１
２３と１２３Ａは“１”の書込みに対して横線１２３が
ハイレベルに、横線１２３Ａがローレベルになり、
“０”の書込みに対して横線１２３がローレベルに、横
線１２３Ａがハイレベルになる。

第２図(b)がＲＡＭセル１２８の拡大した回路構成を示
している。ＲＡＭセル１２８の中で、４つのＭＯＳトラ
ンジスタ（以降Trと略す）Ｑ_１・Ｑ_２・Ｑ_３・Ｑ_４と抵
抗器Ｒ_１とＲ_２がスタチックＲＡＭの代表的なセル回路
を構成している。ＴｒＱ_３のソースとＴｒＱ_４のソース
のいずれがハイレベルであるかによってビット情報を貯
える。

ＲＡＭセル2128への書込みは、横線１２３・１２３Ａの
いずれかをハイレベルに、他方をローレベルにすると共
に、縦線１２２をハイレベルにする事によって行なわれ
る。ＲＡＭセルの情報読取りは縦線１２２をハイレベル
にする事だけでよく、横線１２３と１２３Ａのいずれが
ハイレベルかを読取る事によって達成される。

第３図(a)はもう一つのタイプの想メモリ部の構成を示
している。この場合には、メモリエリヤ選択手段１１０
の入力端子１０１から与えられる４ビットの文字列コー
ドが、入力端子１０２から与えられる選択コードによっ
て、４つのメモリエリヤ120-1・120-2・120-3・120-4の
中の１つに選択的に供給される。各メモリエリヤには４
対の縦線１２２と１２２Ａがあり、各対の縦線１２２と
１２２Ａのいずれをハイレベルにするかによって、文字
コードの中の各ビット情報を駆動する。１対の縦線１２
２と１２２Ａと横線120・2123との交点には、連想メモリ
（ＡＭ）セルが使用される。各メモリエリヤの中の各行
の４つのＡＭセルが、マッチ信号検出用横線2123から
“１”を出力する時にのみ、読取り回路2124が文字コー
ドレベルのマッチ信号を発生する。ワイヤドアンド読取
り回路１２４は、４つのメモリエリヤのいずれかの読取
り回路2124からマッチ信号が検出される時に、マッチ信
号を出力する。

第３図(b)はＡＭセルの拡大した回路構成図を示してい
る。

丸印2128の中でＴｒＱ_３とＴｒＱ_４とから成るフリップ
フロップに貯えられた情報と、縦線１２２と１２２Ａか
ら与えられるビット情報との比較は、ＴｒＱ_５とＴｒＱ
_６とで行なわれる。そして、一致した時に、ＴｒＱ_７の
ベース電位がローレベルに下る。一致がない限り、その
ペース電位がハイレベルとなり、ＴｒＱ_７はオフになら
ない。ＴｒＱ_７のベース電位がローレベルに下ると、Ｔ
ｒＱ_７がオフになってマッチ信号検出用横線2123は、抵
抗器Ｒ_３によってハイレベルにつり上げられている。Ｔ
ｒＱ_７がオンになると、検出用横線2123の電位はローレ
ベルに下る。この検出用横線2123は、それによながるい
くつものＡＭセルのどれか１つでＴｒＱ_７がオンになる
と、ローレベルに下ってミスマッチを表示する。

このＡＭセルは第２図(b)のＲＡＭセル２個分の働きを
するが、トランジスタ数で１つ少ないだけであって、回
転素子数で差をつけるものでないが、ＴｒＱ_３とＴｒＱ
_４とから成るフリップフロップに貯えられたビット情報
を、横線１２３の選択的アクセスによって、縦線１２
２，１２２′から読出すことができるメリットを持つ。

第３図(a)に戻って、メモリエリヤ選択手段１１０は４
つのメモリエリヤ120-1・120-2・120-3・120-4の中の１
つだけに入力端子１０１の文字コードを与えると説明し
たが、より具体的には、入力端子１０２から与えられる
選択コードによって選択されたメモリエリヤの読取り回
路2124のみが、文字コードレベルの照合結果をワイヤド
アンド読取り回路１２４に導びき、非選択メモリエリヤ
の読取り回路2124はマスクされて、ワイヤドアンド読取
り回路１２４の出力に影響を及ぼさないようなマッチレ
ベルの電位に保たれる。

次にロジック部の説明を行う。

第４図はロジック部の一実施例を示している。複雑にら
ことを避けるために、ロジック部の中に２つの順序論理
回路があるとしている。したがって、２つの順序論理回
路に対応して２つのメモリエリヤがあるとしている。２
つのメモリエリヤに登録されるパタン文字列は長さに異
ってもよいし、また、各メモリエリヤに入力されるデー
タ文字列は一定速度でなくて良い。そのために、各順序
論理回路は独立に動作するように設計されている。この
事が、入力データ文字列の中に階層の異なる文字を書込
ませる階層的文字列照合方式の実現に不可欠である。

第４図において、左端に連想メモリ部１２０の各行のワ
イヤドアンド読取り回路１２４だけが示されており、残
りは省略されている。各行にはメモリエリヤ毎に１つの
タン文字コードを貯えていて、入力端子１０１からデー
タ文字コードが入力される都度、各行のワイヤドアンド
読取り回路１２４からパタン文字コードとデータ文字コ
ードとの比較結果が外部信号として出力される。マッチ
の時に“１”、ミスマッチの時に“０”になる。

各順序論理回路130-1または130-2は、フリップフロップ
(FF)131・132と、左側／右側選択用アンドゲート133・134
と、想メモリ手段１２０の出力する外部信号によって制
御されるアンドゲート135・136と、デリミタ信号保持手
段431・432と、マッチ信号集計用アンドゲート433・434と
を繰返えし配列したものである。フリップフロップ（Ｆ
Ｆと略す）131・132は文字列がどの文字までマッチして
きたかを示す内部信号を保持し、シフトクロックによっ
て送り出す部分である。

各順序論理回路は４行毎で破線４００で区切られてい
て、先頭行のデリミタ信号保持手段431・432にデリミタ
信号“１”が登録されている時に、先頭行のフリップフ
ロップ１３１と１３２に内部信号が設定される。対応す
るメモリエリヤにタン文字列の登録された行に並ぶデリ
ミタ信号保持手段431・432にはデリミタ信号“１”は書
込まれず、パタン文字列の最終文字の登録された行の次
の行に並ぶデリミタ信号保持手段431・432にデリミタ信
号“１”が書込まれる。

このようなデリミタ信号“１”は、Ｗ（ライト）モード
時のワイヤド・アンド読取り回路１２４から、デリミタ
信号設定用アンドゲート４３０を介してデリミタ信号保
持手段431・432に設定される。読取り書込み切替え（Ｒ
／Ｗ）と先頭・最後尾指示（Ｓ／Ｅ）の制御端子４０１
と４０２とは、それぞれ読取りモード(R)と書込みモー
ド(W)との切替え制御信号と、登録パターン文字列の先
頭(S)と最後尾(E)とを指示する制御信号を与えるために
用意されている。これ等のデリミタ信号設定手段によっ
て、２つの順序論理回路に相異なる長さのパタン文字列
とデータ文字列との照合に必要な文字列長さの設定が、
独立に行なわれる。というのは、各デリミタ信号保持手
段431・432は、それぞれ順序論理回路選択線411・412が選
択されている時にのみ、選択的にデリミタ信号“１”の
登録を許すからである。

順序論理回路選択線411・412はインバータ１６１によっ
ていずれか一方のみが選択され、入力端子４０４から来
るシフトクロック信号を駆動する。入力端子４０３は選
択コードの入力端子であり、今の場合メモリエリヤが２
個だけの場合を例にとりあげたために、１ビットだけに
なっている。４個とか８個の時には２ビットとか３ビッ
トにすればよい。

順序論理回路選択線４４４（または４１２）によって選
択された順序論理回路においては、デリミタ信号保持手
段４３１（または４３２）から供給された内部信号
“１”が、フリップフロップ１３１（または１３２）を
通して上から下へアンドゲート１３３（または１３４）
をアンドゲート１３５（または１３６）とを介して転送
される。

パタン文字列の最終文字の登録された行のフリップフロ
ップ１３１（または１３２）に到達できた内部信号は、
マッチ信号集計用アンドゲート４３３（または４３４）
をしてオアゲート４３５に送られ、オアゲート４３５の
出力は文字列レベルのマッチ信号としてエンコーダ１４
５に送られ、識別コードに変換される。こゝに、アンド
ゲート４３３（または４３４）は選択線４１１（または
４１２）で選択されている事と、次の行のデリミタ信号
保持手段４３１（または４３２）がデリミタ信号“１”
を保持している事とによって、フリップフロップ１３１
（または１３２）の内容をオアゲート４３５に伝送でき
る。

アンドゲート１３５（または１３６）は読取り(R)モー
ド時のワイヤドアンド読取り回路１２４の出力する外部
信号が“１”の時に、その上側のフリップフロップ１３
１（または１３２）の内部信号“１”をその下側のフリ
ップフロップ１３１（または１３２）にシフトする。こ
れによって、第１図記載の連想メモリ部１２０の各メモ
リエリヤに貯えられたパタン文字列と、連想メモリ部１
２０に入力される。データ文字列との照合処理が行なわ
れる。

なお、選択線４１１（または４１２）に駆動されるシフ
トクロックは、連想メモリ部１２０に入力されるデータ
文字列の入力速度に合わせて与えられる。オアゲート４
３５からマッチ信号の発生した時には、エンコーダ１４
５の出力が選択コードメモリ１５０に入力される。

選択コードメモリ１５０の出力はエンコーダ１４５の出
力と共に割込みスイッチ部（第４図に記載されていない
が、第１図に記載されている）１７０に入力される。そ
の期間はデータ文字列の各文字コードの印加される周期
よりはるかに短かいものであるとする。そして、その一
瞬の間、別のメモリエリヤにエンコーダ１４５の出力が
印加される。その期間だけ選択線４１１が４２１に切替
る。それによって、再びオアゲート４３５からマッチ信
号が発生したら、再度選択コードメモリ１５０がアクセ
スされるとする。

その時には、選択コードメモリ１５０の以前の出力がラ
ッチ回路１５１を通して選択コードメモリ１５０のアド
レスデコーダに入力されるために、選択コードメモリ１
５０は別の選択コードを出力する。オアゲート４３５か
らマッチ信号が発生しない時には、選択コードメモリ１
５０はアクセスされず、ラッチ回路１５１の内容は始め
の状態に戻る。

階層的文字列照合を行なう時の階層はメモリエリヤ数で
決まり、第４図では階層が２の場合である。第１図では
階層が４の場合である。階層数が４の時には、１つの文
字コード入力期間に３回の割込みが起り得る。それを受
付けるためには、連想メモリ部１２０もロジック部１３
０もデータ文字列の入力速度の４倍の速度で動作できる
能力を確保する必要がある。

このような回路をＣＭＯＳトランジスタで実現した時
に、入力速度１〜２Mch/s（メガ・キャラクターズ／セ
カンド）にする事は低い消費電力で達成されるが、10〜
20Mch/sにすると消費電力が１０倍増えて、絶えずその
ような速度で使用することは信頼性の面で問題になる。
しかし、常時は低い周波数の１〜２Mch/sで動作させ、
割込みがあった時にのみ瞬間的に高い周波数で動作させ
るのは熱的問題を引起さないために許される。故に、割
込み処理のために入力速度をさらに低下させる必要はほ
とんどないと考えられる。

なお、このロジック部はデリミタ信号保持手段431・432
からの内部信号““１”の発生をさせ方を制御すること
によってアンカー文字列照合だけでなく、ノンアンカー
文字列照合を行なわせることができる。アンカーとは入
力データ文字列の中の文字列に区切りが設けられる場合
であり、ノンアンカーとは区切りが設けられない場合を
意味する。

次に、割込みスイッチを用いる階層文字列登録方式や照
合方式の説明を行なう。

第５図は本発明の文字列照合装置に階層的に登録する文
字列の一例を示す。

上段５１０は登録される文字列の一例であって、部分文
字列を多く含んでいる。このままの形で記号列識別装置
に登録すると、同文字がメモリエリヤに何度も登録され
る。結果として、この例では１００文字分のメモリエリ
ヤが必要となる。

下段５２０は登録文字列を３つの階層521・522・523に分
類して登録する場合（本発明の階層的な文字列登録方
式）を示している。すなわち、０番目の階層（＃０メモ
リエリヤ）に「自然」「言語」「処理」「技術」「入
門」「情報」「知識」を登録し、それに対する識別コー
ドをＡ・Ｂ・Ｃ・Ｄ・Ｅ・Ｆ・Ｇとしている。そして、
１番目の階層（＃１メモリエリヤ）に「ＡＢ」「ＢＣ」
「ＢＦ」「ＦＣ」「ＧＣ」「ＣＤ」「ＣＥ」「Ｃ」
「Ｄ」を登録し、それぞれに、識別コードａ・ｂ・ｃ・
ｄ・ｅ・ｆ・ｇ・ｈ・ｉ・ｊを与える。そして２番目の
階層（＃２メモリエリヤ）に「ａｇ」「ａｈ」「ｄｇ」
「ｆｇ」「ａｉ」「ｄｉ」「ｆｈ」「ｂｊ」を登録し、
その識別コードをそれぞれＩ・II・III・IV・Ｖ・VI・V
II・IIXとしている。

このように、階層に分けて文字列を登録すると、この例
では４８文字分のメモリエリヤが使われるだけで、記憶
容量が半分ですむ。

第６図は、階層的に分けて登録された文字列の階層的文
字列照合式の動作を示す。説明しやすくするために、表
形式にされている。すなわち、１行目が入力力テキスト
の文字列を示し、「自然言語処理技術…」が与えられる
場合を例示している。２行目がこの入力文字列に対する
＃０メモリエリヤの出力（文字毎での照合結果）を示
し、３行目が＃０メモリエリヤ120-1の出力に対する＃
０順序論理回路（130-1）の出力を示している。＃０順
序論理回路（130-1）の出力が“１”の時には、メモリ
エリヤの選択コードがインクリメントされて、エンコー
ド部１４０の出力が上記選択コードで指定された＃１メ
モリエリヤ（120-2）にも入力される。

４行目は＃メモリエリヤ（120-2）の出力を示し、５行
目は＃１順序論理回路（130-2）の出力を示している。
＃０と＃１との順序論理回路（130-2）の出力が“１”
の時には、選択コードが２度にわたってインクリメント
され、エンコード部１４０の出力が次々と上記選択コー
ドで指定される＃メモリエリヤ（120-2）と＃２メモリ
エリヤ（120-3）に入力される。６行目は＃２メモリエ
リヤ（120-3）の出力を示し、７行目はそれに対する＃
２順序論理回路（130-3）の出力を示している。３行目
と５行目と７行目の順序論理回路の出力にはカッコで囲
まれた識別コードが付加されている。

この図からはっきりすることは、入力文字列「自然言語
処理技術…」に対して、「自然」まで入力された時に＃
０階層から識別コード「Ａ」が出力され、「自然言語」
まで入力された時点で＃０と＃１階層から識別コード
「Ｂ」と「ａ」がシルアルに出力され、「自然言語処
理」まで入力された時点で、＃０と＃１と＃２の階層か
ら、それぞれ識別コード「Ｃ」と「ｂ」と「Ｖ」がシリ
アルに出力される。そして、「自然言語処理技術」まで
入力されると、＃０と＃１と＃２の階層から、それぞれ
識別コード「Ｄ」と「ｇ」と「Ｉ」または「」とがシ
リアルに出力されるということである。

このように、順序論理回路のいずれかからマッチ信号が
出る時に識別コードが階層の低い方から階層の高い方に
シリアルに出力れると、エンコーダ１個で全ての部分パ
タン文字列の照合結果が求まる。最高識別の識別コード
を代表として残すのが一つのやり方である。

第７図は、本発明の文字照合装置と階層的制御方式の採
用効果の説明図である。

まず、第７図の左が従来の記号列識別装置の場合のメモ
リエリヤ７１０とロジックエリヤ７１５を示し、第７図
の右が本発明を採用した場合の３つのメモリエリヤ７２
０とロジックエリヤ７２５を示している。

従来の記号列識別装置であれば、第５図の上段５１０の
文字列をそのまゝ登録するために、第７図の左に示すよ
うに、１００文字分のメモリエリヤ７１０が必要であ
り、合わせて１００文字分のロジックエリヤ７１５が必
要になる。

本発明の記号列識別装置では、第５図の下段５２０の文
字列を３つのメモリエリヤに分割して登録するために、
第７図の右に示すように、１４文字分の＃０メモリエリ
ヤと１８文字分の＃１メモリエリヤと１６文字分の＃２
メモリエリヤと、それから共通に使われる１８文字分の
ロジックエリア７２５が使われるだけである。したがっ
て、メモリエリヤサイズ７２０が半分に減るだけでな
く、ロジックエリア７２５が１／５以下に減る。第７図
の左の場合と比較すると、チップサイズが７／２０以下
すなわちほゞ１／３に減るということがわかる。

なお、本発明の実施例の説明においては、メモリエリヤ
数がが４とか２とかであったが、それはもっと大きくな
っても良く、またロジック部の順序論理回路は文字列の
厳密な照合（ストリクトマッチ）のみを行なうようにし
てあるが、あいまい文字列照合を可能なように変更して
もよい。

〔発明の効果〕

以上、詳細に説明したように、文字列を登録する連想メ
モリ部を複数個のメモリエリヤに分割し、各メモリエリ
ヤを選択的にアクセスできるようにし、登録文字列を階
層的に分割して上記メモリエリヤへ登録し、各メモリエ
リヤに対応した順序論理回路を高速に切替えて使えるよ
うにし、下位レベルの文字列の照合で一致があった時に
のみ、一時的に上位レベルの文字列照合を行なう割込み
を許す階層的制御方式を採用するために、複合文字列の
中のいくつかの部分文字列の重複登録を回避でき、文字
列の登録密度を何倍かに高めることが可能になる。すな
わち、連想メモリ部の記憶容量を上げる代りに、階層的
文字列登録方式によってメモリエリヤを節約し、合わせ
てロジックエリヤサイズを顕著に減少させることが可能
になる。

このように、多くの文字列を登録する事のメリットは情
報検索システムや情報通信システムでの大量に伝送され
る情報の中から、必要な情報のみをきめ細かく選び出せ
るようにする事である。しかし、伝送されたりファイル
されたりする大量の情報の中で高頻度に出現する長い文
字列を短かい識別コード列に置き替えて情報の圧縮を行
えるようにするメリットもある。すなわち、圧縮すべき
長い文字列が多数個ある時に、それらを本発明の文字列
照合装置によって符号化し、短い識別コードに圧縮でき
る。また、本発明の文字列照合装置は圧縮された文字列
の検索や復号にも使うことができる。

したがって、本発明の照合装置および階層的文字列照合
方式によれば、従来の装置における複合語文字列の登録
の際に登録文字列容量を大きくできないという問題点
と、文字列の登録容量と共にロジック部のサイズも増加
させなければならないために記憶密度を上げられないと
いう問題点とが容易に解決されることがわかる。

【図面の簡単な説明】

第１図は本発明による文字列識別装置の一実施例の基本
構成図、第２図(a)および(b)ならびに第３図(a)および
(b)は連想メモリ部の詳細説明図、第４図はロジック部
の詳細説明図、第５図は階層的文字列登録方式の説明
図、第６図は階層的文字列照合方式の説明図、第７図は
本発明の採用効果の説明図である。１１０……デコーダ、１２０……連想メモリ手段、120-
1〜120-4……メモリエリヤ、１３０……ロジック部、13
0-1〜130-4……順序論理回路、１４０……エンコーダ、
１５０……選択コードメモリ、１６０……クロック信号
制御回路、１７０……割込みスイッチ。

Claims

【特許請求の範囲】

【請求項１】複数個のメモリエリヤに分れた連想メモリ
手段と、前記連想メモリ手段に対応して複数個に分かれ
た順序論理手段と、エンコード手段と、前記エンコード
手段の出力を一時的に前記連想メモリ手段へフィードバ
ックする割込みスイッチ手段とを備えた事を特徴とする
文字列照合装置。
【請求項２】前記エンコード手段の出力によって前記メ
モリエリヤを切換えるための選択コードメモリ手段を前
記割込みスイッチ手段の制御に用いる事を特徴とする特
許請求範囲第１項に記載の文字列照合装置。
【請求項３】登録パタン文字列を短かいパタン文字列へ
階層的に分割し、階層毎に割当てられたメモリエリヤに
格納し、入力データ文字列が低階層メモリエリヤのパタ
ン文字列とマッチした時に、前記エンコード手段の出力
を前記割込みスイッチ手段を介して一時的に前記入力デ
ータ文字列と交換し、高階層メモリエリヤの前記パタン
文字列と比較するようにした事を特徴とする文字列照合
装置での階層的文字列照合方式。