JPH0529950B2 - - Google Patents

Info

Publication number
JPH0529950B2
JPH0529950B2 JP21680884A JP21680884A JPH0529950B2 JP H0529950 B2 JPH0529950 B2 JP H0529950B2 JP 21680884 A JP21680884 A JP 21680884A JP 21680884 A JP21680884 A JP 21680884A JP H0529950 B2 JPH0529950 B2 JP H0529950B2
Authority
JP
Japan
Prior art keywords
symbol string
symbol
register
register array
transmission means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP21680884A
Other languages
English (en)
Other versions
JPS6195442A (ja
Inventor
Hachiro Yamada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP59216808A priority Critical patent/JPS6195442A/ja
Priority to EP85113130A priority patent/EP0178651B1/en
Priority to DE8585113130T priority patent/DE3586451T2/de
Publication of JPS6195442A publication Critical patent/JPS6195442A/ja
Publication of JPH0529950B2 publication Critical patent/JPH0529950B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は情報処理システムの構成要素に係り、
より具体的には長大な記号列の中から特定の記号
列を抽出する記号列照合装置とその照合方式に関
するものである。
(従来技術とその問題点) 上記記号列照合装置はパタン認識システムでの
特徴系列の抽出、ワープロで作成された文章の原
文フアイルからのキーワードの抽出、言語翻訳の
支援や通信文章の略文の解読、図形、イメージ、
テキスト等による非構造データベースの構築に利
用され、知能化されるこれらの情報処理システム
の形成に欠くことができないものである。
従来の記号列照合は汎用コンピユータのソフト
ウエアにたよつた逐次処理によるため、膨大な処
理時間を必要とし、小規模なものに限定されてい
た。また、単語毎に区切られて構造化された記号
列に照合対象が制限されていた。一例として、n
個の記号列からなるテキスト中にm個の記号列か
らなるパタンがどこに有るかを調べる場合には、
m(n−m+1)回の照合処理を必要とする。磁
気デイスクや光デイスク等に格納されたm=109
個の文字列のテキストから、n=103個の文字列
の文章を捜すには1012回の照合処理を必要とす
る。従つて、テキスト、イメージ、図形、音声等
の大容量な原情報による検索は非現実的であるた
め、予め原情報にキーワードを付加しての検索や
表形式に構造化されたデータの検索に限定されて
いた。また、記号列の構成要素の変動を許容する
柔軟な記号列照合に対して処理時間の長くなりす
ぎる欠点があつた。
さらに、具体的に従来の記号列照合装置とその
照合方式の問題点について説明する。
第11図は記号列照合の対象となるテキストを
示している。このテキストは報告書の始めの部分
を一例として示している。このようなテキストは
ワードプロセツサのフアイルメモリに多数個格納
される。それ等のテキストの中から、必要なもの
をさがし出す時に、要求内容を示す単語によつて
直接に検索できる事が求められる。
たとえば、第11図のテキストがmemory,
bubble等の記号列を含む論文であるかを知るた
めには、そのテキストの中でmemory,
memoriesやbubble等の記号列に整合する部分が
あるか否かを検索する必要がある。そのような記
号列のテキストとの比較照合は従来のコンピユー
タとソフトウエアで対応させると、非常に長い時
間を要する。
一般のA4サイズの英文はワード間のスペース
を含めると、約3000文字分の長さになる。一方、
比較照合を行なう記号列の長さはmemoryの場合
もbubbleの場合も6文字である。6文字と3000
文字の記号列間の照合は一般にその積に等しいオ
ーダの回数に及ぶ文字の比較を必要とする。マイ
クロプロセツサでの文字比較時間が1μsecであつ
たとしても、各記号列の検索に18msecの時間が
かかる。
現実に検索の対象となるテキストの文字数は
109個に及び、照合を行なう記号列の文字数も100
を越すこともあり得る。照合される記号列の数も
1個だけでなく、数10個に及ぶ。その場合の照合
時間は数100時間に及ぶ。故に、このような照合
は現実的に不可能であり、実際は人手により予め
キーワードを抽出しておき、抽出されたキーワー
ドに対する照合に限定されていた。
また、一部の記号に欠けや誤りのある記号列や
余分な記号が付加された記号列の照合が困難であ
る。例えば、文字列“MEMORY”に関し、そ
の中の文字“O”が他の文字“X”に置換つた文
字列“MEMXRY”や、文字“O”が欠けた
“MEMRY”や余分な文字“X”が付加された
“MEMXORY”が入力された場合に、照合文字
列“MEMORY”と類似していることを出力で
きることが記号列照合に望まれる。しかし、従来
の記号列照合装置や照合方式では一部の記号の誤
りに関しては照合記号列と重ね合せて比較するこ
とにより類似性を調べることができるが、一部の
記号の欠けや余分な文字の付加に対しては対処で
きなかつた。
〔発明の目的〕
本発明の目的は上記従来の記号列照合装置の欠
点を容易に解決し、テキスト、イメージ、図形等
の非構造の記号列の中から任意の記号列を短時間
にして、柔軟な抽出が可能な記号列照合装置を提
供することにある。
また、一部の記号の欠けや誤り、あるいは余分
な記号が付加された記号列についても照合可能な
低価格な記号列照合装置を提供することにある。
(発明の構成) 従つて、本発明によれば以下の記号列照合装置
が得られる。
記号コードをアドレス入力とし、照合記号列を
記憶する記号列記憶手段と、この各出力につなが
る第1、第2、第3の伝達手段と、隣接するレジ
スタ間が第1の伝達手段により連結された第1の
レジスタアレイと、隣接するレジスタ間が第2の
伝達手段により連結され、第1のレジスタアレイ
と第3の伝達手段により接続された第2のレジス
タアレイとを備えた記号列照合装置、及び記号コ
ードをアドレス入力とし、照合記号列を記憶する
記号列記憶手段と、この各出力につながる第1、
第2、第3、第4、第5、第6の伝達手段と、隣
接するレジスタ間が第1の伝達手段により連結さ
れた第1のレジスタアレイと、隣接するレジスタ
間が第2の伝達手段により連結され、第1のレジ
スタアレイと第5の伝達手段により接続された第
2のレジスタアレイと、隣接するレジスタ間が第
3の伝達手段により連結され、第1のレジスタア
レイと第6の伝達手段により接続された第3のレ
ジスタアレイと、隣接するレジスタ間が第4の伝
達手段により連結され、第1のレジスタアレイと
第6の伝達手段により接続された第4のレジスタ
アレイとを備えた記号列照合装置及び記号コード
をアドレス入力とし、照合記号列を記憶する記号
列記憶手段と、この各出力につながる第1、第
2、第3、第4の伝達手段と、隣接するレジスタ
間が第1の伝達手段により連結された第1のレジ
スタアレイと、隣接するレジスタ間が第2の伝達
手段により連結され、N(正整数)段目のレジス
タと第1のレジスタアレイの(N−2)段のレジ
スタとが第3の伝達手段により接続され、N段目
及び(N+1)段目のレジスタと第1のレジスタ
アレイのN段目のレジスタが第4の伝達手段によ
り接続された第2のレジスタアレイとを備えた記
号列照合装置及び記号コードをアドレス入力と
し、照合記号列を記憶する記号列記憶手段と、こ
の各出力につながる第1の伝達手段群と、N段の
隣接するレジスタ間が第1の伝達手段により接続
されたM(N)行N列のレジスタを含むレジス
タアレイと、記号列記憶手段の各出力につなが
り、レジスタアレイ内のI(1IM)行J(1
JN)列のレジスタと(I+1)行J列及び
(I+1)行(J+1)列のレジスタとを接続す
る第2の伝達手段群とを備えた記号列照合装置、
及び記号コードをアドレス入力し、照合記号列を
記憶する記号列記憶手段と、この各出力につなが
る第1の伝達手段群と、N段の隣接するレジスタ
間が第1の伝達手段により接続されたM(N)
行N列のレジスタを含むレジスタアレイと、記号
列記憶手段の各出力につながり、レジスタアレイ
内のI(1IM)行J(1JN)列のレジ
スタと(I+1)行J列及び(I+1)行(J+
1)列のレジスタとを接続する第2の伝達手段群
とを含む複数の記号列照合ユニツトと、その中の
レジスタアレイの各行のN列のレジスタにつなが
り、整合コードを発生する第1のエンコーダと、
各第1のエンコーダからの第3信号を入力とし、
相異度信号を発生する第2のエンコーダを備えた
記号列照合装置である。
以下図面を用いて本発明の更に詳細な説明を行
なう。
〔本発明の作用・原理〕
第2図a,b,cは本発明による記号列照合装
置の原理を示す順序論理の状態遷移図である。同
図は一例として“MEMORY”を照合記号列と
し、それと整合する記号列の抽出だけでなく、そ
の中の任意の記号が欠けた記号列や誤つた記号列
あるいは余分な記号が付加された記号列について
も抽出できる状態遷移図を示している。ステート
ノードS0は初期状態を示し、各ステートノードは
矢印上に書かれた記号が入力されたときに、矢印
で示された次のステートノードに遷移する。矢印
上に書かれた記号以外の記号が入力されると、図
示していないが次のステートノードに移らず、リ
ジエクトされ、削滅する。
図2aは照合記号列“MEMORY”とその中
の1記号欠けた記号列の照合を可能にする状態遷
移図を示す。記号列“MEMORY”が入力され
ると状態はステートノードS0,S1,S2,S3,S4
S5と移り、S6に達する。状態がS6に達したことに
より、その時点までに入力された記号列が照合記
号列“MEMORY”と整合していると判断でき
る。また“MEMORY”内の1記号が欠けた記
号列、例えば“MEMRY”が入力されると、状
態はS0,S1,S2,S3,S10に移り、S11に達する。
ステートノードS11は照合記号列内の1記号欠け
た記号列が入力されたときに状態が到達する。
同図bは照合記号列内の1記号が誤つた記号列
の抽出を可能にする状態遷移図を示す。例えば、
記号列“MEM?RY”が入力されると、ステー
トノードS0に位置する状態は、S1,S2,S3,S9
S10に移り、S11に達する。2個以上の記号が誤つ
た記号列、例えば“MEM??Y”が入力される
と、S0の状態はS1,S2,S3,S9に移つた後に消滅
し、ステートノードS11に到達しない。すなわち、
ステートノードS11を監視をすることで、入力記
号列が照合記号列と1記号誤つている記号列であ
るか否かを判断できる。
同図cは照合記号列内に余分な記号が付加され
た記号列の抽出を可能にする状態遷移図を示す。
例えば1記号付加された“ME?MORY”が入
力されると、S0の状態はS1,S2,S7,S8,S9
S10と移り、S11に達する。しかし、2個以上の余
分な記号が付加された記号列が入力された場合に
は途中で消滅する。
第2図の状態遷移図により、照合記号列と完全
に整合する記号列だけでなく、一部の記号の欠け
や誤りや余分な記号が付加された記号列について
も照合できる。
第3図a,bは本発明による記号列照合装置の
原理を示す別の状態遷移図である。同図は第2図
a,b,cの状態遷移図を1つに集約した状態遷
移図であり、照合記号列“MEMORY”に整合
する記号列だけでなく、記号の欠け、誤り、付加
についても対処できる状態遷移図である。
第3図aは照合記号列に整合する記号列、及び
その中の1個の記号が欠けた記号列、1個の記号
が誤つた記号列、余分な1個の記号が付加された
記号列を分離して抽出し、それらの記号列が入力
されると状態は各々ステートノードS6,S11
S16,S22に到達する。例えば、照合記号列に整合
する記号列“MEMORYが入力されると、状態
はS0→S1→S2→S3→S4→S5→S6と遷移する。ま
た、1記号欠けた記号列“MEMRY”が入力さ
れると、S0→S1→S2→S3→S10→S11に移り、1記
号誤つた記号列“MEM?RY”が入力されると
S0→S1→S2→S3→S14→S15→S16に移る。また、
余分な1個の記号が付加された記号列“MEM?
ORY”が入力されると、S0→S1→S2→S3→S19
S20→S21→S22に移る。このように、終段のステ
ートノードS6,S11,S16,S22を監視することに
より、入力された記号列が照合記号列に類似して
いるか否かを判断でき、またどのような誤りであ
るかも判る。
第3図bは記号の欠け、誤り、付加を区別しな
いで照合する状態遷移図であり、同図aの第1、
第2、第3行のステートノードS7〜S22を同図b
のステートノードS7〜S12に集約している。照合
記号列と整合する記号列の入力に対してはステー
トノードS0→S1→S2→S3→S4→S5→S6をたどり、
その中の1つの記号が欠けたり、誤つた記号列あ
るいは余分な1つの記号が付加された記号列が入
力されると、第2行のステートノードS0〜S5のい
ずれから第1行のステートノードS7〜S12のいず
れかに移り、ステートノードS12に達する。
このように1つの状態遷移図により、照合記号
列に類似する記号列の抽出が可能となる。
第4図は照合記号列に整合する記号列と照合記
号列内の1個以内の記号が誤つた記号列及び1個
以上の記号が付加された記号列の照合を可能にす
る状態遷移図である。照合記号列に整合する記号
列の入力に対して、ステートノードS0の状態はS6
に達し、1記号の誤りと付加された記号列の入力
に対してはS12に達する。照合記号列内の5個の
記号が誤つた記号列が入力されるとS36に達する。
このようにより類似度が低い記号列が入力される
程、状態遷移図のより上方に位置するステートノ
ードに達する。
〔実施例〕
第1図は第1の発明の一実施例の説明図であ
る。この記号列照合装置は第2図aに示した状態
遷移図を実現し、第11図に示したような最大な
記号列となるテキストあるいはイメージ、画像、
音声等をコード化し、記号列入力端子111から
逐次入力し、その中に登録済みの照合記号列に類
似する記号列がどこに含われるかを外部に伝達す
るものであり、記号に関連ずけたビツトパタンで
記号列を記憶する記号列記憶手段110と、その
読取り信号112につながり、それぞれ第1、第
2、第3の伝達手段を構成する第1、第2、第3
のアンドゲート回路120,130,140と、
第2のアンドゲート回路130と第3のアンドゲ
ート回路140の各出力の論理和を行なうオアゲ
ート回路150と、隣接するレジスタ間が第1の
アンドゲート回路120を介して連結された第1
のレジスタアレイ160と、隣接するレジスタ間
が第2のアンドゲート回路130とオアゲート回
路150とを介して接続され、第3のアンドゲー
ト回路140とオアゲート回路150とを介して
第1のレジスタアレイ160と接続された第2の
レジスタアレイ170とからなる。
照合記号列の各記号は記号列記憶手段110の
各ビツトに記号に関連づけたビツトパタンで格納
される。図の例では6ビツトの記号列記憶手段1
10に“MEMORY”の6個の記号からなる照
合記号列を格納している。すなわち、記号列記憶
手段110の第1から第6ビツト目の各々記号
“M”,“E”,“M”,“O”,“R”,“Y”で指
定さ
れるアドレスにのみ“1”が格納され、他は
“0”が格納される。記号列記憶手段110のア
ドレスは記号の種類に対応し、その第1から第6
ビツト目の読取り信号112は、各々記号“M”,
“E”,“M”,“O”,“R”,“Y”が入力された

きのみ“1”となる。
照合しようとするテキストを構成する記号は逐
次記号列記憶手段110のアドレス入力となる記
号列入力端子111に印加され、その記号に対応
する番地の内容が読み出される。
第1のレジスタアレイ160内の上からみて第
1から第6ビツト目の各レジスタ165は、第2
図aに示した状態遷移図のステートノードS1
S2,S3,S4,S5,S6に各々対応する。また、第2
のレジスタアレイ170内の上からみて第1から
第5ビツト目の各レジスタは、ステートノード
S7,S8,S9,S10,S11に各々対応する。これらの
レジスタはクロツク信号121に同期して一斉に
入力データを取込む。第2図aの矢印で示される
次のステートノードへの遷移が起るか否かは第
1、第2、第3の伝達手段となる第1、第2、第
3のアンドゲート回路120,130,140に
供給される読取り信号112により制御される。
読取り信号112の論理値は記号列入力端子11
1を介して記号列記憶手段110のアドレス部に
入力される記号により決まる。記号列記憶手段1
10に“1”が格納されているアドレスに対応す
る記号が入力されれば、レジスタの内容は第1、
第2あるいは第3のアンドゲート回路120,1
30あるいは140を介して次のレジスタに移
る。これは第2図の状態遷移図の矢印で示される
遷移に対応する。第3のアンドゲート回路140
は第1のレジスタアレイ160内のレジスタ16
5の内容を第2のレジスタアレイ170内のレジ
スタ175に伝える役目をはたす。これは第2図
aの第2行のステートノードから第1行のステー
トノードへの遷移に対応する。
次に具体的な照合動作について説明する。照合
動作に第1、第2のレジスタアレイ160,17
0の内容をクリアしておく。
照合記号列に整合する記号列“MEMORY”
が記号列入力端子111から1記号毎入力される
と、まず記号“M”の入力に対し内部記号となる
記号列記憶手段110の第1ビツト目の読取り信
号112が第1のレジスタアレイ160内の第1
ビツト目のレジスタ165に取込まれる。このと
き、第3ビツト目の読取り信号112も“1”に
なるが、第2ビツト目のレジスタ165の内容が
“0”であるため、第3ビツト目のレジスタ16
5は“1”にセツトされない。次に記号“E”,
“M”,“O”,“R”,“Y”と入力されると、第1
ビツト目のレジスタ165に格納された内部信号
は記号が入力される毎に次のビツトのレジスタ1
65に転送され、最後の記号“Y”が入力された
ときに第1の整合信号166が発生する。この第
1の整号信号166により、照合記号列に整合し
た記号列が入力されたことを判段できる。
次に照合記号列内の1記号抜けた記号列
“MEMRY”が入力されると、第1のレジスタア
レイ160内の第1ビツト目のレジスタ165に
格納された内部記号は3番目の記号“M”の入力
までは第1のレジスタアレイ160内の次のレジ
スタ165に転送される。しかし、第4番目の記
号“R”が入力されると、第3ビツト目のレジス
タ165内の内部信号は第3のアンドゲート回路
140とオアゲート回路150を介して、第2の
レジスタアレイ170内の第4ビツト目のレジス
タ175に転送される。最後の記号“Y”が入力
されたときに、第2の整合信号176が発生し、
照合記号列内の1記号が欠けた記号列が入力され
たと判断される。
このように第1図の記号列照合装置は照合記号
列に整合する記号列だけでなく、その中の任意の
1記号が欠けた記号列も判別できる。
第5図は第1の発明の第2の実施例の説明図を
示し、第2図bに示した状態遷移図に対応する。
この記号列照合装置は照合記号列内の1記号が誤
つた記号列の抽出を可能にし、第3の伝達手段と
して否定入力付きアンドゲート回路540を採用
している点が第1図の記号列照合装置と異なる。
第1のレジスタアレイ160内の上からみて第
1から第5ビツト目の各レジスタ165は第2図
bのステートノードS1,S2,S3,S4,S5に対応
し、第2のレジスタアレイ170内の第1から第
6ビツト目の各レジスタ175はそれぞれステー
トノードS6,S7,S8,S9,S10,S11に対応する。
照合記号列内の1記号の誤つた記号列が記号列入
力端子111から入力されると、誤つた記号が入
力されたときに、第1のレジスタアレイ160内
のレジスタ165内の内部信号は否定入力付きア
ンドゲート回路540とオアゲート回路150を
介して第2のレジスタアレイ170内のレジスタ
175に移る。これは第2図bの下位のステート
ノードから上位のステートノードへの遷移に対応
する。例えば、記号列“MEM?RY”が入力さ
れると、第1のレジスタアレイ160内の第1ビ
ツトのレジスタ165に“1”の内部信号がセツ
トされ、第2、第3ビツトのレジスタ165に移
り、次に第2のレジスタアレイ170内の第4ビ
ツト目のレジスタ175、さらに第5、第6ビツ
ト目のレジスタ175に移る。従つて、
“MEM?RY”の記号列が入力し終つたときに第
3の整合信号177が発生する。
すなわち、この記号列照合装置は照合記号列と
1記号異なる記号列の抽出を可能にする。
第6図は第1の発明の記号列照合装置の第3の
実施例の説明図であり、第2図cの状態遷移図に
対応する。この記号列照合装置は照合記号列内に
て1個の余分な記号が付加された記号列の抽出を
可能にし、第1のレジスタアレイ160内のレジ
スタ165の内容が第2のレジスタアレイ170
内の同じビツト位置のレジスタ175の入力に伝
わるように否定入力付きアンドゲート回路640
を接続している点が第5図の記号列照合装置と異
なる。
第1のレジスタアレイ160内の上からみて第
1から第5ビツト目までの各レジスタ165は第
2図cのステートノードS1,S2,S3,S4,S5に対
応し、第2のレジスタアレイ170内の第1から
第6ビツト目の各レジスタ175はステートノー
ドS6,S7,S8,S9,S10,S11に対応する。
照合記号列内に余分な記号が付加された記号列
が入力されると、付加された記号の入力時に第1
のレジスタアレイ160内のレジスタ165の内
部信号は、否定入力付きアンドゲート回路640
とオアゲート回路150を介して第2のレジスタ
アレイ170内のレジスタ175に伝わる。これ
は第2図cの状態遷移図の下位のステートノード
から上位のステートノードへの遷移に対応する。
例えば、“MEM?ORY”の記号列が入力される
と、内部信号となる第1ビツト目の読取り信号1
12は第1のレジスタアレイ160内の第1、第
2、第3ビツト目のレジスタ165に順次転送さ
れ、記号“?”が入力されたときに第2のレジス
タアレイ170内の第3ビツト目のレジスタ17
5に転送される。次に、第2のレジスタアレイ1
70内の第4、第5、第6ビツト目のレジスタ1
75に内部信号が転送され、第4の整合信号17
8が発生する。
このようにして、照合記号列内に1個の余分な
記号が付加された記号列の抽出が可能となる。
第7図は第2の発明の実施例の説明図であり、
第3図aの状態遷移図に対応する。この記号列照
合装置は第1図、第5図、第6図の各記号列照合
装置を合成したものであり、照合記号列に整合し
た記号列、その中の1記号欠けた記号列、1記号
誤つた記号列、余分な記号が付加された記号列の
抽出を可能にするために、それらの記号列の抽出
に対応する第1、第2、第3、第4のレジスタア
レイ710,720,730,740と、第1、
第2、第3、第4、第5、第6の伝達手段に各々
対応する第1、第2、第3、第4、第5のアンド
ゲート回路751,752,753,754,7
55、否定入力付きアンドゲート回路756と、
第1、第2のオアゲート回路760,770と、
図示していないが第1図、第5図、第6図の記号
列照合装置に用いられた記号列記憶手段110と
から構成される。
第1のレジスタアレイ710内の第1ビツト目
から第6ビツト目のレジスタ710は第3図aの
状態遷移図におけるステートノードS1,S2,S3
S4,S5,S6に対応し、第2のレジスタアレイ72
0内の第1ビツト目から第5ビツト目のレジスタ
725はステートノードS7,S8,S9,S10,S11
対応し、第3のレジタアレイ730の第1ビツト
目から第5ビツト目のレジスタ735はステート
ノードS12,S13,S14,S15,S16に対応し、第4の
レジスタアレイ740内の第1ビツト目から第6
ビツト目のレジスタ745はステートノードS17
S18,S19,S20,S21,S22に対応する。
照合記号列に整合する記号列が入力されると内
部信号となる第1ビツト目の読取り信号112は
第1のレジスタアレイ710内の第1ビツト目の
レジスタ715から第6ビツト目のレジスタ71
5に順次移り、第1の整合信号711が発生す
る。照合記号列内の1記号欠けた信号列が入力さ
れると、内部信号は第1のレジスタアレイ710
から第5のアンドゲート回路755及び第1のオ
アゲート回路760を介して第2のレジスタアレ
イ720に移るか、あるいは最初の記号“M”が
欠けている場合には第2のレジスタアレイ720
を伝わり、第2の整合信号721が発生する。照
合記号列内の1記号が誤つた記号列が入力される
と、内部信号は第1のレジスタアレイ710から
否定入力付きアンドゲート回路756及び第2の
オアゲート回路770を介して第3のレジスタア
レイ730に転送され、第3の整合信号731が
発生する。また、照合記号列に余分な記号が付加
された記号列が入力されると、内部信号は第1の
レジスタアレイ710から否定入力付きアンドゲ
ート回路756と第3の第3ゲート回路780を
介して第4のレジスタアレイ740に転送され、
第4の整合信号741が発生する。照合記号列と
さらに異なる記号列が入力されると内部信号は途
中で削滅し、第1〜第4の整合信号711,72
1,731,741は発生しない。
このように、第1〜第4の整合信号711,7
21,734,741を監視することにより、入
力記号列内から照合記号列に類似する記号列のみ
を抽出できる。
第8図は第3の発明による記号列照合装置の実
施例の説明図であり、第3図bに示した状態遷移
図に対応し、第1のレジスタアレイ810と、第
2のレジスタアレイ820と、第1、第2、第
3、第4の伝達手段に各々対応する第1、第2、
第3のアンドゲート回路830,840,85
0、否定入力付きアンドゲート回路860と、オ
アゲート回路870と、図示していないが第1図
に示した記号列記憶手段110とから構成され
る。
この記号列照合装置は照合記号列に整合する記
号列の抽出と、その中の1記号欠けた記号列や、
誤つた記号列や余分な記号が付加された記号列を
区別なく抽出でき、第7図の記号列照合装置に比
べレジスタやアンドゲート回路が削減されてい
る。
第1のレジスタアレイ810内の第1ビツト目
から第6ビツト目の各レジスタ815は第3bの
ステートノードS1,S2,S3,S4,S5,S6に対応
し、第2のレジスタアレイ820内の第1ビツト
目から第6ビツト目の各レジスタ825はステー
トノードS7,S8,S9,S10,S11,S12に対応する。
照合記号列に整合する記号列が入力されると、記
号列記憶手段110の第1ビツト目の読取り信号
112は内部信号として第1のレジスタアレイ8
10内の第1ビツト目のレジスタ815から第1
のアンドゲート830を介して順次第6ビツト目
のレジスタ815に転送され、第1の整合信号8
11が発生する。照合記号列内の1記号が欠けた
り誤つた記号列や余分な1記号が付加された記号
列が入力されると、内部信号は第1のレジスタア
レイ810から第3のアンドゲート回路830や
否定入力付きアンドゲート回路860とオアゲー
ト回路870を介して第2のレジスタアレイ82
0に伝わり、第2の整合信号を発生する。
第9図は第4の発明による記号列照合装置の一
実施例の説明図であり、第4図の状態遷移図に対
応し、照合記号列に整合する記号列と照合記号列
内の1から5個の記号が誤つたり、1から5個の
余分な記号が付加された記号列の抽出を可能にす
る。この記号列照合装置は省略してあるが第1図
に示した記号列記憶手段110と、その各読取り
信号112を入力とする6行6列のアンドゲート
回路915で構成されたアンドゲートアレイと、
隣接するレジスタ925間がアンドゲート回路9
15を介して接続された6行6列のレジスタアレ
イと、読取り信号112を入力とし、隣接するレ
ジスタアレイ間を接続する5行5列の否定入力付
きアンドゲート回路935で構成された否定入力
付きアンドゲートアレイと、アンドゲート回路9
15と否定入力付きアンドゲート回路935の各
出力の論理和をレジスタアレイ内の各レジスタ9
25に伝える5行5列のオアゲート回路945で
構成されたオアゲートアレイと、否定入力付きオ
アゲート回路960とで構成される。
なお、図中にアンドゲートアレイ、レジスタア
レイ、否定入力付きアンドゲートアレイ、オアゲ
ートアレイを示す番号を複雑になるため省略して
あるが、それらは各々アンドゲート回路915、
レジスタ925、否定入力付きアンドゲート回路
935、オアゲート回路945の総称である。
アンドゲートアレイは第1の伝達手段群に対応
し、否定入力付きアンドゲートアレイは第2の伝
達手段群に対応する。否定入力付きアンドゲート
アレイ内のI行J列の否定入力付きアンドゲート
回路935は(J+1)ビツト目の読取り信号1
12とレジスタアレイ内のI行J列のレジスタ9
25の内容とを入力とし、その出力はオアゲート
アレイ内のI行J列とI行(J+1)列のオアゲ
ート回路945の入力に接続されている。また、
レジスタアレイ内の6行6列の各レジスタ925
は第4図に示した状態遷移図の6行6列のステー
トノードS1からS36に各々対応する。
照合記号列に整合する記号列の入力に対して、
記号列記憶手段110の第1ビツト目の読取り信
号112すなわち内部信号はレジスタアレイ内の
第1行第1列のレジスタ925から第6列のレジ
スタ925に伝わり、第1の整合信号951を発
生する。照合記号列内の一部の記号が誤つた記号
列や余分な一部の記号が付加された記号列が入力
されると、内部信号はレジスタアレイの第1行第
1列のレジスタ925から次のレジスタ925に
転送される。このとき、照合記号列内の記号と整
合する記号が入力された場合にはレジスタアレイ
内の同行の次の列のレジスタ925に内部信号が
伝達され、不整合な記号が入力された場合には1
つ上位行の同列及び次列のレジスタ925に内部
信号が伝達される。すなわち、不整合な記号が入
力される毎に内部信号は1つ上位行のレジスタ9
25に伝達される。したがつて、照合記号列内の
記号と1,2,3,4,5個の不整合な記号を含
む記号列が入力されると、各々第2、第3、第
4、第5、第6の整合信号952,953,95
4,955,956を発生する。
このように、この記号列照合装置は任意の個数
の誤つた記号や余分な記号を含む記号列をその個
数毎に分離して抽出できる。
なお、アンドゲートアレイ、否定入力付きアン
ドゲートアレイ、レジスタアレイ、オアゲートア
レイの行と列数は照合記号列の記号数や抽出しよ
うとする異なる記号の個数に応じて変更できる。
第10図は第5の発明による記号列照合装置の
一実施例の説明図である。この記号列照合装置は
複数の照合記号列を並列に照合し、類似した照合
記号列のクラスを示す整合コード1050と相異
度信号1060を出力するものであり、第9図に
示した記号列照合装置に対応する記号列照合ユニ
ツト1010をN(正整数)個含む記号列照合部
1020と、各記号列照合ユニツト1010から
出力される第1の整合信号951−1〜951−
N、第2の整合信号952−1〜952−N、第
3の整合信号953−1〜953−N、第4の整
合信号954−1〜954−N、第5の整合信号
955−1〜955−N、第6の整合信号956
−1〜956−Nを各々入力とする6個の第1の
エンコーダ1030と、各第1のエンコータ10
3のオア出力1032を入力とする第2のエンコ
ータ1040とから構成される。
第9図を用いて説明したように、各記号列照合
ユニツト1010は入力された記号列と照合記号
列とを照合し、異なる記号の個数に応じた第1〜
第6の整合信号951〜956を発生する。第1
の整合信号951は完全に整合し、最も相異度が
低いことを示し、第6の整合信号956は照合記
号列と5個の記号が異なり、最も相異度が高いこ
とを示す。各第1のエンコーダ1030の禁止入
力にはその下位に位置する第1のエンコーダ10
30から出力されるオア信号1032が供給され
る。禁止入力にオア信号1032が供給された第
1のエンコーダ1030の出力は高インピーダン
ス状態になる。オア信号1032は対応する第1
のエンコーダ1030に整合信号が供給されてい
る場合に発生する。従つて、下位に位置する第1
のエンコーダ1030程優先順位が高く、オア信
号1032を発生した第1のエンコーダ1030
より上位に位置する第1のエンコーダ1030は
禁止され、その出力は高インピーダンス状態にな
る。また、第1のエンコーダ1030にいずれの
整合信号も入力されていなければ、その出力は高
インピーダンス状態になり、オア信号1032も
発生しない。従つて、各記号列照合ユニツト10
10で発生した整合信号内で最も相異度が低い整
合信号につながる第1のエンコーダ1030のみ
が動作し、他の第1のエンコーダ1030の出力
は高インピーダンス状態になる。すなわち、第1
のエンコーダ1030が出力する整合コード10
50は入力された記号列に類似する照合記号列を
格納している記号列照合ユニツト1010の番
号、すなわち最も類似する記号列のクラスを示す
ことになる。オア信号1032は第2のエンコー
ダ1040にも与えられる。第2のエンコーダ1
040は発生した整合信号内の最も低い相異度を
示す整合信号の番号を相異度信号1060として
出力し、類似した記号列が入力されたことを示す
マツチ信号1070を発生する。
一例として、上から2番目の記号列照合ユニツ
ト1010に照合記号列“MEMORY”が格納
され、他の記号列照合ユニツト1010には
“MEMORY”と全く異なる照合記号列が格納さ
れているとする。そして、記号列入力端子111
から“ME??RY”の記号列を入力すると、下
から3番目の第1のエンコーダ1030にのみ第
3の整合信号953−2が供給される。従つて、
その第1のエンコーダ1030は2番目の記号列
照合ユニツト1010内の照合記号列を示す
“1”の整合コード1050を発生する。また、
第2のエンコーダ1040は照合記号列と2記号
異なることを示す“2”の相異度信号1060と
マツチ信号1070を発生する。従つて、外部で
は入力記号列が2番目の照合記号列と2記号異な
る記号列であることを判断できる。
このように、この記号列照合装置には多数の照
合記号列を格納でき、それらと入力記号列とを並
列に照合し、その相異度を発生できる。また、そ
の出力である整合コード1050、相異度信号1
060はコード化されているので、著しく出力端
子数が削減される。従つて、LSI化を容易に可能
にし、価格低下をもたらす。
なお、記号列照合ユニツト1010の個数は6
個に限らず任意の個数を選べる。
(発明の効果) 以上述べたように、本発明によれば従来の記号
列照合において照合時間が多く掛かりすぎる問題
を容易に解決した記号列照合装置を実現できる。
また、一部の記号の欠けや誤りの有る記号列や一
部に余分な記号が付加された記号列についても抽
出可能であり、記号列内の誤つた記号の個数に応
じて抽出できる。
英単語、特に名詞は単数形、複数形により最終
文字が異なる場合が多い。例えば、“memory”
は複数形になると“memories”になる。この場
合、基本の“memory”を照合記号列とし、複数
の整合信号や相異度信号1060を監視すること
で、複数形も抽出できる。このような一部の記号
の欠けや余分な記号の付加は一般に記号列内のど
こに生ずるか、またどのような記号が欠けるか、
付加されるか予め判断できない。したがつて、起
りうるすべての記号列の変化に対し、従来の記号
列照合ではそれらの変化を許容するようにプログ
ラミングしておかなければならない。しかし、本
発明の記号列照合装置は第2、第3、第4の整合
信号あるいは相異度信号1060を監視すること
で対処でき、柔軟な記号列照合を可能にする。
また、入出力端子数を削減し、LSI化を容易に
可能にし、価格低下をもたらす。現状の256キロ
ビツトRAMの半導体技術を用いれば、8ビツト
コードの信号8個からなる照合記号列を128個を
1チツプに格納でき、それらを並列に照合でき
る。
1チツプで256種の記号から成る記号列を128ク
ラスに分類することができる事はワードプロセツ
サで作成した文章の原文フアイルからシーケンシ
ァルに読出される記号列文章の中から128個まで
のキーワード(記号列)の抽出を一挙にやりとげ
れる事を意味する。従来は多数のキーワードの同
時検索が困難であつたから、上記チツプのインパ
クトは大きい。
この記号列照合装置はOCR装置や音声認識装
置などパタン認識を行なうシステムにおける特徴
系列の分類においても役立つ。この記号列照合装
置の1チツプLSI化は言語翻訳に必要な辞書とし
ても役立つ。このチツプに通常RAMを接続し、
各記号列の分類コードに対応ずけて、単語の訳語
を格納すると、1チツプにつき128単語までの翻
訳が記号列の入力の完了時に直ちに求まる。記号
列照合チツプに接続される通常RAMには記号列
の分類コードに対応ずけて、各種の情報を格納す
ることが可能であつて、それによつて種々の記号
列情報処理機能が達成される。たとえば、記号列
の分類コードに対応ずけ、単語の品詞コードや記
号列の出現回数や記号列文章に対する処理命令を
格納すると、知識情報の収集や整理が行ないやす
くなる。
この記号列抽出装置の処理速度は、記号記憶手
段210,410に使われる半導体RAMのサイ
クルタイムTcが1つの記号の処理時間にほぼ対
応する。Tcを100nsとすると、109個の記号列の
テキストに対する103個の記号列による照合を10
秒で行なえる。現状のソフトウエアによる照合で
は10時間程度を必要とするので、本発明の記号列
照合装置は著しく照合時間を短縮する。
以上に述べたように、本発明によれば、従来の
マイコンとソフトウエアの組合わせによる記号列
の分類による処理時間の大きい事と柔軟性に欠け
る事の欠陥が容易に解決する。また、本発明の記
号列照合装置が1チツプのLSIにまとまり易い事
を考えると、このようなLSIは文章の原文フアイ
ルからのキーワードの抽出や言語翻訳用の電子辞
書やパタン認識システムの特徴系列の分類におい
て欠かすことのできない機能素子になる。
なお、第1図に示した第1、第2、第3のアン
ドゲート回路120,130,140、オアゲー
ト回路150と、第5図、第6図の否定入力付き
アンドゲート回路540,640と、第7図に示
した第1〜第5のアンドゲート回路751〜75
5、第1〜第3のオアゲート回路と、第8図の否
定入力付きアンドゲート回路860、オアゲート
回路870と、第9図に示したアンドゲート回路
915、否定入力付きアンドゲート回路935、
オアゲート回路945は高レベルを論理値“1”
とする正論理で設計した場合であるが、高レベル
を論理値“0”とする負論理で設計する場合には
アンドゲート回路がオアゲート回路に変わり、オ
アゲート回路がアンドゲート回路に変る。従つ
て、上記ゲート回路は種々の論理ゲート回路に置
換えることができ、これらの記述は何ら本発明の
特許請求の範囲を限定するものではない。
【図面の簡単な説明】
第1図は第1の発明による記号列照合装置の一
実施例の説明図、第2図a,b,cは本発明の原
理を示す状態遷移図、第3図a,bは本発明の原
理を示す他の状態遷移図、第4図は本発明の原理
を示す他の状態遷移図、第5図、第6図は第1の
発明の他の実施例の説明図、第7図は第2の発明
の一実施例の説明図、第8図は第3の発明の一実
施例の説明図、第9図は第4の発明の一実施例の
説明図、第10図は第5の発明の一実施例の説明
図、第11図は一般的な記号列照合の説明図であ
る。図において 110……記号列記憶手段、120,710,
830……第1のアンドゲート回路、130,7
20,840……第2のアンドゲート回路、14
0,730,850……第3のアンドゲート回
路、150,870,945……オアゲート回
路、160,710,810……第1のレジスタ
アレイ、170,720,820……第2のレジ
スタアレイ、540,640,756,860,
935……否定入力付きアンドゲート回路、73
0……第3のレジスタアレイ、740……第4の
レジスタアレイ、751,830……第1のアン
ドゲート回路、752,840……第2のアンド
ゲート回路、753,850……第3のアンドゲ
ート回路、754……第4のアンドゲート回路、
755……第5のアンドゲート回路、760……
第1のオアゲート回路、770……第2のオアゲ
ート回路、780……第3のオアゲート回路、9
15……アンドゲート回路、925……レジス
タ、935……否定入力付きアンドゲート回路、
960……否定入力付きオアゲート回路、101
0……記号列照合ユニツト、1020……記号列
照合部、1030……第1のエンコーダ、104
0……第2のエンコーダである。

Claims (1)

  1. 【特許請求の範囲】 1 記号コードをアドレス入力とし、照合記号列
    を記憶する記号列記憶手段と、この各出力につな
    がる第1、第2、第3の伝達手段と、隣接するレ
    ジスタ間が第1の伝達手段により連結された第1
    のレジスタアレイと、隣接するレジスタ間が第2
    の伝達手段により連結され、第1のレジスタアレ
    イと第3の伝達手段により接続された第2のレジ
    スタアレイとを備えたことを特徴とする記号列照
    合装置。 2 記号コードをアドレス入力とし、照合記号列
    を記憶する記号列記憶手段と、この各出力につな
    がる第1、第2、第3、第4、第5、第6の伝達
    手段と、隣接するレジスタ間が第1の伝達手段に
    より連結された第1のレジスタアレイと、隣接す
    るレジスタ間が第2の伝達手段により連結され、
    第1のレジスタアレイと第5の伝達手段により接
    続された第2のレジスタアレイと、隣接するレジ
    スタ間が第3の伝達手段により連結され、第1の
    レジスタアレイと第6の伝達手段により接続され
    た第3のレジスタアレイと、隣接するレジスタ間
    が第4の伝達手段により連結され、第1のレジス
    タアレイと第6の伝達手段により接続された第4
    のレジスタアレイとを備えたことを特徴とする記
    号列照合装置。 3 記号コードをアドレス入力とし、照合記号列
    を記憶する記号列記憶手段と、この各出力につな
    がる第1、第2、第3、第4の伝達手段と、隣接
    するレジスタ間が第1の伝達手段により連結され
    た第1のレジスタアレイと、隣接するレジスタ間
    が第2の伝達手段により連結され、N(正整数)
    段目のレジスタと第1のレジスタアレイの(N−
    2)段のレジスタとが第3の伝達手段により接続
    され、N段目及び(N+1)段目のレジスタと第
    1のレジスタアレイのN段目のレジスタが第4の
    伝達手段により接続された第2のレジスタアレイ
    とを備えたことを特徴とする記号列照合装置。 4 記号コードをアドレス入力とし、照合記号列
    を記憶する記号列記憶手段と、この各出力につな
    がる第1の伝達手段群と、N段の隣接するレジス
    タ間が第1の伝達手段により接続されたM(N)
    行N列のレジスタを含むレジスタアレイと、記号
    列記憶手段の各出力につながり、レジスタアレイ
    内のI(1IM)行J(1JN)列の位置
    にあるレジスタと(I+1)行J列及び(I+
    1)行(J+1)列の位置にあるレジスタとを接
    続する第2の伝達手段群とを備えたことを特徴と
    する記号列照合装置。 5 記号コードをアドレス入力とし、照合記号列
    を記憶する記号列記憶手段と、この各出力につな
    がる第1の伝達手段群と、N段の隣接するレジス
    タ間が第1の伝達手段により接続されたM(N)
    行N列のレジスタを含むレジスタアレイと、記号
    列記憶手段の各出力につながり、レジスタアレイ
    内のI(1IM)行J(1JN)列の位置
    にあるレジスタと(I+1)行J列及び(I+
    1)行(J+1)列の位置にあるレジスタとを接
    続する第2の伝達手段群とを含む複数の記号列照
    合ユニツトと、その中のレジスタアレイの各行の
    N列のレジスタにつながり、整合コードを発生す
    る第1のエンコーダと、各第1のエンコーダから
    のオア信号を入力とし、相異度信号を発生する第
    2のエンコーダとを備えたことを特徴とする記号
    列照合装置。
JP59216808A 1984-10-16 1984-10-16 記号列照合装置 Granted JPS6195442A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP59216808A JPS6195442A (ja) 1984-10-16 1984-10-16 記号列照合装置
EP85113130A EP0178651B1 (en) 1984-10-16 1985-10-16 Data retrieving apparatus
DE8585113130T DE3586451T2 (de) 1984-10-16 1985-10-16 Geraet zur datenwiederauffindung.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59216808A JPS6195442A (ja) 1984-10-16 1984-10-16 記号列照合装置

Publications (2)

Publication Number Publication Date
JPS6195442A JPS6195442A (ja) 1986-05-14
JPH0529950B2 true JPH0529950B2 (ja) 1993-05-06

Family

ID=16694206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59216808A Granted JPS6195442A (ja) 1984-10-16 1984-10-16 記号列照合装置

Country Status (3)

Country Link
EP (1) EP0178651B1 (ja)
JP (1) JPS6195442A (ja)
DE (1) DE3586451T2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2737173B2 (ja) * 1988-10-25 1998-04-08 日本電気株式会社 記号列照合装置とその制御方法
JPH0460871A (ja) * 1990-06-29 1992-02-26 Nec Corp 記号列照合装置の制御方式

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4524345A (en) * 1983-02-14 1985-06-18 Prime Computer, Inc. Serial comparison flag detector

Also Published As

Publication number Publication date
JPS6195442A (ja) 1986-05-14
DE3586451T2 (de) 1993-03-18
EP0178651A2 (en) 1986-04-23
EP0178651B1 (en) 1992-08-05
DE3586451D1 (de) 1992-09-10
EP0178651A3 (en) 1989-02-22

Similar Documents

Publication Publication Date Title
JPH0533422B2 (ja)
JPH02299068A (ja) 入力文字列からワードを分離する方法
JP2737173B2 (ja) 記号列照合装置とその制御方法
JP2693914B2 (ja) 検索システム
US4979101A (en) Apparatus for retrieving character strings
JPH0529950B2 (ja)
JPH0554148B2 (ja)
JPH0527150B2 (ja)
JPH0554147B2 (ja)
JPS6128131A (ja) 記号列照合装置とその照合方式
JPH0454270B2 (ja)
JPS6195443A (ja) 記号列照合装置
JPH0554146B2 (ja)
JPS60211539A (ja) 記号列識別装置及びその制御方式
JPS6120178A (ja) 記号列識別装置とその制御方式
Marukawa et al. A post-processing method for handwritten Kanji name recognition using Furigana information
JP2880387B2 (ja) Ocr住所処理装置
JPH0583957B2 (ja)
JPS62285189A (ja) 文字認識後処理方式
JPS61267130A (ja) 記号列識別装置
JPS61145798A (ja) 記号列連想メモリ装置とその動作制御方式
JPH0863487A (ja) 文書検索方法及び文書検索装置
JPS61161588A (ja) 文字認識後処理方式
JPS63103393A (ja) 単語認識装置
JPS61128367A (ja) カナ漢字変換装置