JPH0119195B2 - - Google Patents

Info

Publication number
JPH0119195B2
JPH0119195B2 JP56136144A JP13614481A JPH0119195B2 JP H0119195 B2 JPH0119195 B2 JP H0119195B2 JP 56136144 A JP56136144 A JP 56136144A JP 13614481 A JP13614481 A JP 13614481A JP H0119195 B2 JPH0119195 B2 JP H0119195B2
Authority
JP
Japan
Prior art keywords
character
matching
word
recognition
prefecture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56136144A
Other languages
English (en)
Other versions
JPS5839378A (ja
Inventor
Hideaki Sugawara
Eiichiro Yamamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56136144A priority Critical patent/JPS5839378A/ja
Publication of JPS5839378A publication Critical patent/JPS5839378A/ja
Publication of JPH0119195B2 publication Critical patent/JPH0119195B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は文字認識後処理方式に関するものであ
つて、特に文字読取手段により入力された入力文
字を文字辞書(例えば漢字辞書)と文字認識処理
を行つたのち認識結果に対しその順位に応じて重
みづけを行なつて単語辞書とのマツチングを行な
うことにより、入力単語を正確に認識できるよう
にした文字認識後処理方式に関するものである。
従来の文字認識方式では、例えば第1図に示す
如く、認識部1において入力文字の特徴抽出を行
ないこれをフアイルと比較してもつとも認識順位
の高いものを出力レジスタ2に出力し、その後、
文字認識後処理としてこの出力レジスタ2に出力
された3ケの文字が都道府県名を示すものである
とあらかじめわかつている場合には、これらの出
力された文字を都道府県辞書3と順次マツチング
回路4にて比較を行ない入力文字を正確に認識す
るようにしている。
すなわち、第1図において、都道府県名の記入
領域に3個の文字の記入されたデータ入力用紙
(図示省略)を例えばOCR(図示省略)で読取り、
これにより得られたデータにもとづき認識部1で
はそれぞれに対する特徴抽出にもとづき認識順位
のもつとも高い「宮」、「埼」、「県」を出力レジス
タ2に出力し、これらをマツチング回路4におい
て都道府県辞書3にセツトされている都道府県名
と順次比較してその一致度のもつとも高い都道府
県名を読取出力として出力するものである。しか
るにこのような後処理方式では、第1図に示す如
く、認識部1から「宮」、「埼」、「県」と出力され
たことにもとづき都道府県名とマツチングを行な
つたとき、「宮崎県」と「宮城県」の2つが同一
優先順位で存在することになり、自動的にこのい
ずれか一方を選択することができなかつた。
そのために、第2図に示す如く、認識部で入力
文字を認識するとき複数順位の候補文字を出力す
ることが提案された。認識部で3文字の都道府県
名を認識したとき第1番目の文字については第2
図に示す如く、第1順位が「科」、第2順位が
「秩」、第3順位が「秋」、第4順位が「材」、第5
順位が「林」であり、第2番目の文字については
第1順位〜第5順位が「田」、「内」、「口」、「円」

「由」であり、第3番目の文字については第1順
位〜第5順位が「具」、「県」、「目」、「且」、「旦

の場合に、これらの各候補文字を都道府県名と順
次比較する。すなわち都道府県辞書3から第1番
目に「北海道」を読出し、その第1番目の文字
「北」を前記「科、秩、秋、材、林」と比較して
マツチングをとる。そして第2番目の文字「海」
と前記「田、内、口、円、由」と比較して、第3
番目の文字「道」を前記「具、県、目、且、旦」
と比較しそれぞれ一致をとるがいずれも不一致で
ある。次に2番目の単語「青森県」と同様なマツ
チングを行なうが、第3番目の文字「県」が前記
「具、県、目、且、旦」と照合したとき第2順位
の「県」で一致が得られる。そして第3番目の単
語「秋田県」とマツチングを行なうとき、第1番
目の文字「秋」と「科、秩、秋、材、林」と照合
して一致が得られ、同様に第2番目の文字「田」
と「田、内、口、円、由」と照合して一致が得ら
れ、第3番目の文字「県」と「具、県、目、且、
旦」と照合してこれまた一致が得られる。かくし
て「秋田県」ではすべての文字が候補文字の1つ
と一致が得られるので、このマツチング度合のも
つともよい「秋田県」を読取文字として出力す
る。
しかしながらこのような複数順位の候補文字を
単純に比較する場合には、第3図に示す如き例で
は読取出力を1つに確定できないことがある。す
なわち、第1番目の文字に対しては第1番目〜第
5番目の認識順位が「宮、官、富、呂、宙」であ
り、第2番目の文字に対しては同じく認識順位が
「埼、崎、峠、城、地」であり、第3番目の文字
に対しては同じく「具、県、目、且、旦」であ
り、これを文字マトリクス・レジスタ5から各順
位毎に3文字ずつ順位レジスタ6に出力して都道
府県辞書3の単語とマツチング回路4にて照合し
たとき、「宮崎県」と「宮城県」とが同一のマツ
チング度合となり区分することができない場合が
存在する。
したがつて本発明はこのような問題を改善する
ために認識部からの候補出力に対し、その順位毎
に重みを付与して単語辞書とのマツチングを求
め、もつとも上位順位でマツチングのとれた単語
を求めるようにした文字認識後処理方式を提供す
ることを目的とするものである。そしてこのため
に本発明における文字認識後処理方式では、読取
文字を認識する文字認識手段と単語が保持されて
いる単語保持手段と前記文字認識手段にて認識さ
れた文字が単語保持手段に保持された単語と一致
することを検出するマツチング手段を具備する文
字認識後処理方式において、文字認識手段から複
数順位の認識文字候補を出力させ、マツチング手
段において単語保持手段に保持された単語と前記
複数順位の認識文字候補とマツチングを行なうと
ともに、前記認識文字候補の1つの文字と前記単
語の1つの文字がマツチングしたときはその認識
順位に応じた重みを付与して出力する重み付与出
力手段を設けて認識順位に応じたマツチング順位
度が得られるようにすることにより、マツチング
順位度のもつとも高い単語を選択出力するように
したことを特徴とする。
以下本発明の一実施例を第4図にもとづき説明
する。
第4図において他図と同符号部は同一部分を示
し、7はマツチング回路、8は単語辞書、9はマ
ツチング結果出力レジスタ、10は結果判定回
路、11は出力レジスタである。
マツチング回路7は単語辞書8から読出した単
語を認識部1から文字マトリクス・レジスタ5に
出力された第1順位〜第5順位までの認識候補文
字とを照合してマツチングを行なうとともにマツ
チングした文字が存在する場合その認識順位に応
じて、例えば第1順位の認識候補文字と一致した
とき「0」、第2順位の認識候補文字と一致した
とき「1」、第3順位の認識候補文字と一致した
とき「2」、第4順位のものと一致したとき
「3」、第5順位のものと一致したとき「4」、第
1順位〜第5順位のいずれのものとも一致しない
とき「5」を出力する。
単語辞書8は後処理に必要な、例えば都道府県
名用の単語集とか、各都道府県毎の例えば秋田県
内の郡市町村名のような分類された複数の単語集
がフアイルされているものであり、マツチング回
路7からの単語毎の制御信号C2により分類別に、
しかも一定の順序にしたがつて所定の分類の単語
が順次出力されるものである。
マツチング結果出力レジスタ9は文字マトリク
ス・レジスタ5にセツトされた候補文字と単語辞
書8から出力された単語との一致度を単語対応に
保持するレジスタである。
結果判定回路10はマツチング回路7にて行な
われたマツチングの結果、そのもつともマツチン
グ度合の大きな単語を選択出力するものである。
次に第4図の動作について説明する。
(1) 認識部1から出力された認識候補文字はその
認識順位にしたがつて文字マトリクス・レジス
タ5に出力される。例えば第1番目の文字に対
しては第1順位〜第5順位までの「科、秩、
秋、材、林」が出力され、第2番目の文字に対
しては「田、内、口、円、由」が出力され、第
3番目の文字に対しては「具、県、目、且、
旦」が出力される。そして前記認識部1の出力
が都道府県名であることがあらかじめわかつて
いるので、単語辞書8から都道府県名用の単語
集フアイル部が順次読出される。この場合、マ
ツチング回路7から出力される単語毎の制御信
号C2により先ず「北海道」が読出される。そ
してマツチング回路7からの順序制御信C1-0
より順位レジスタ6に先ず「科田具」がセツト
され「北海道」と比較されるが、このとき第4
番目に文字がないということでのみ一致するが
他は一致しない。次にマツチング回路7から順
序制御信号C1-1により順位レジスタ6に第2順
位の「秩内県」がセツトされ、同様に「北海
道」と照合される。このようにしてマツチング
回路7からの順序制御信号C1-2〜C1-4により順
位レジスタ6に第3順位の「秋口目」に、第4
順位の「材円且」、第5順位の「林由旦」が順
次セツトされ「北海道」とのマツチングが行な
われるが、これらは文字同志では不一致であ
り、その結果第4番目の文字が存在しないとい
うことで一致するのみなので、マツチング結果
出力レジスタ9の区分1の(4)には「0」が記入
され、区分1の(1)〜(3)には「5」が記入され
る。
(2) このようにして第1番目の単語「北海道」と
の照合が終るとマツチング回路7は制御信号
C2を出力し、第2番目の単語「青森県」を出
力させる。それから順序制御信号C1-0〜C1〜4
出力して順位レジスタ6に第1順位「科田具」
〜第5順位「林由旦」を順次セツトして前記
「青森県」とマツチングする。このとき第2順
位の「秩内県」における「県」と第4番目の文
字がないという2つの点で一致するので、マツ
チング回路7はマツチング結果出力レジスタ9
の区分2の(4)に「0」、(3)に「1」、(2)と(1)にそ
れぞれ「5」が記入されることになる。
(3) 次いでマツチング回路7は制御信号C2によ
り第3番目の単語「秋田県」を出力させ、それ
から前記(1)、(2)と同様にして順位レジスタ6に
「科田具」〜「林由旦」を順次セツトしてこの
「秋田県」との照合を行なう。この場合には、
第1順位の「科田具」における「田」、第2順
位における「秩内県」の「県」、第3順位の
「秋口目」における「秋」と第4番目の文字が
ないということでそれぞれ一致が得られるの
で、マツチング結果出力レジスタ(9)の区分3の
(2)、(4)には「0」が、(3)には「1」が、(1)には
「2」がそれぞれ記入されることになる。
(4) このようにしてすべての都道府県名との照合
が終了したとき、結果判定回路10はこのマツ
チング結果出力レジスタ9の各区分の合計点の
もつとも小さい区分を求めてそのマツチング度
合のもつとも大きいものとして選択出力するこ
とになる。したがつてこの場合には区分3が合
計点3のために最小であり、かくして第3番目
の都道府県名の「秋田県」を最終的な読取出力
として出力レジスタ11に出力する。このよう
にして後処理により「秋田県」を正確に取出す
ことができる。
なお、第5図に示す如く、結果判定回路1
0′に第1入力レジスタ12、第2入力レジス
タ13および比較制御部14を設け、第1入力
レジスタ12にマツチング回路7からの個々の
区分のマツチング状態を入力してこれを先に入
力されている第2入力レジスタ13に保持され
ている区分のものとのマツチング状態と比較し
て、新らしく伝達された第1入力レジスタ12
のマツチング度が大きいとき(第4図の状態で
は合計点の小さいとき)にこれを第2入力レジ
スタ13に記入し、小さいときにはそのまま第
1入力レジスタ12に次の単語に対するマツチ
ング度を入力するように構成すれば、第4図に
おけるマツチング結果出力レジスタ9は不必要
となり、単語辞書から読出される被照合単語数
が大きい場合でも、簡単な構成で対処すること
ができる。
かくして、本発明によれば、第6図に示す如
く、文字マトリクス・レジスタ5に第1順位〜
第5順位として「宮埼県」〜「宙地旦」と出力
された場合でも、マツチング回路7において都
道府県辞書3とマツチングを行なう場合、第7
図に示す如く、「宮崎県」に対しては例えばマ
ツチング結果出力レジスタの区分9−0に合計
点が「1」として記入されるが「宮城県」に対
しては同じく区分9−10に合計点が「3」とし
て記入されることになり、これより「宮崎県」
が後処理結果として出力されることになる。
本発明を一般的に説明すれば、第8図に示す如
く、入力単語をL1,L2,…Lo(n文字で単語を構
成するものとする)とし、L1に対する認識候補
をL1(1),L2(2),…L1(5)(認識候補として第1順位
〜第5順位までを採用するとき)とする。また重
みを第1順位〜第5順位に対してW(1)〜W(5)とし
第6順位以下のものに対してW(6)とし、W(1)
W(2)…<W(6)としてかつW(1)〜W(6)は直線的な変
化をもつものとする。そして単語辞書に登録され
ている標準単語(北海道とか青森県に相当するも
の)S1,S2…Soと入力単語L1,L2…Loとの相違
度Dを各文字ごとの相違度の和として表現する。
各文字L1,L2…およびLoごとの相違度は、例え
ばS1を考えたとき認識候補L1(4)でマツチングが得
られたときその相違度d(S1,L1)はW(4)となる。
もしもマツチングする認識候補がなければ相違度
はW(6)となる。したがつて単語の相違度Dは、 D=oi=1 d(Si、Li) となり、このDが最小となる単語辞書の単語を正
しいものとして判断することになる。
なお上記説明では候補文字を第5順位まで選択
した例について説明したがこれに限定されるもの
でもない。そして順位の高いものを小さな数の重
みづけした例について説明したが、逆の場合でも
同様である。
以上説明の如く、本発明によれば候補文字に対
しその候補順位に応じた重みづけを行なつて単語
単位にこの重みの合計を求めることにより明確な
後処理を行なうことができる。
【図面の簡単な説明】
第1図〜第3図は従来の後処理説明図、第4図
は本発明の一実施例構成図、第5図はその結果判
定回路の他の実施例、第6図〜第8図は本発明の
動作状態説明図である。 図中、1は認識部、2は出力レジスタ、3は都
道府県辞書、4はマツチング回路、5は文字マト
リクス・レジスタ、6は順位レジスタ、7はマツ
チング回路、8は単語辞書、9はマツチング結果
出力レジスタ、10は結果判定回路、11は出力
レジスタをそれぞれ示す。

Claims (1)

    【特許請求の範囲】
  1. 1 読取文字を認識する文字認識手段と単語が保
    持されている単語保持手段と前記文字認識手段に
    て認識された文字が単語保持手段に保持された単
    語と一致することを検出するマツチング手段を具
    備する文字認識後処理方式において、文字認識手
    段から複数順位の認識文字候補を出力させ、マツ
    チング手段において単語保持手段に保持された単
    語と前記複数順位の認識文字候補とマツチングを
    行なうとともに、前記認識文字候補の1つの文字
    と前記単語の1つの文字がマツチングしたときは
    その認識順位に応じた重みを付与して出力する重
    み付与出力手段を設けて認識順位に応じたマツチ
    ング順位度が得られるようにすることにより、マ
    ツチング順位度のもつとも高い単語を選択出力す
    るようにしたことを特徴とする文字認識後処理方
    式。
JP56136144A 1981-09-01 1981-09-01 文字認識後処理方式 Granted JPS5839378A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56136144A JPS5839378A (ja) 1981-09-01 1981-09-01 文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56136144A JPS5839378A (ja) 1981-09-01 1981-09-01 文字認識後処理方式

Publications (2)

Publication Number Publication Date
JPS5839378A JPS5839378A (ja) 1983-03-08
JPH0119195B2 true JPH0119195B2 (ja) 1989-04-10

Family

ID=15168329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56136144A Granted JPS5839378A (ja) 1981-09-01 1981-09-01 文字認識後処理方式

Country Status (1)

Country Link
JP (1) JPS5839378A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5839377A (ja) * 1981-09-02 1983-03-08 Toshiba Corp 文字認識装置

Also Published As

Publication number Publication date
JPS5839378A (ja) 1983-03-08

Similar Documents

Publication Publication Date Title
JPS6262387B2 (ja)
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JPH0119195B2 (ja)
JPH0226268B2 (ja)
JPH0441388B2 (ja)
JPH0210957B2 (ja)
JPS60225273A (ja) 単語検索方式
JPH0766423B2 (ja) 文字認識装置
EP0178651B1 (en) Data retrieving apparatus
JPH0576675B2 (ja)
JPS6252912B2 (ja)
JP2947832B2 (ja) 単語照合方法
JPS6365499A (ja) 構文認識方式
JPH0746373B2 (ja) 単語認識装置
Kozareva et al. Using language resource independent detection for spanish named entity recognition
JPH0340434B2 (ja)
CN115329883A (zh) 一种语义相似度处理方法、装置、系统以及存储介质
JPH08305698A (ja) 自然語解析方法及び装置
JP2637762B2 (ja) パターン詳細同定方式
JPH0438026B2 (ja)
JPS62285189A (ja) 文字認識後処理方式
JPS63268082A (ja) パタ−ン認識装置
JPH067351B2 (ja) 候補列作成装置
JPS6121581A (ja) 文字認識装置
JPH0554148B2 (ja)