JPH01177180A - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPH01177180A
JPH01177180A JP63000004A JP488A JPH01177180A JP H01177180 A JPH01177180 A JP H01177180A JP 63000004 A JP63000004 A JP 63000004A JP 488 A JP488 A JP 488A JP H01177180 A JPH01177180 A JP H01177180A
Authority
JP
Japan
Prior art keywords
word
character
characters
words
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63000004A
Other languages
English (en)
Other versions
JPH07113957B2 (ja
Inventor
Tsunefumi Shindo
進藤 恒文
Yoshimi Terada
寺田 善美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP63000004A priority Critical patent/JPH07113957B2/ja
Publication of JPH01177180A publication Critical patent/JPH01177180A/ja
Publication of JPH07113957B2 publication Critical patent/JPH07113957B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は帳票上の文字を読取って得られた候補文字デー
タをもとに候補文字を単語辞書と照合することにより、
より正解に近い認識結果を出力する文字認識方法に関す
るものである。
(従来の技術) 従来、この種の単語照合による文字認識方法の説明図を
第5図に示す。従来の文字認識方法では、文字読取装置
が読取ワた帳票上の各文字について出力する複数個の候
補文字データと、予め用意した単語辞書を人力データと
する。帳票上に書かれる各単語はなんらかのセパレータ
で分かち書きされていなければならない。例えば同図(
a)の級票の例では、セパレータとして「東京都J 「
港区」の間の4文字目のスペース(ブランク)が設けら
れている。このようなセパレータによって切り出された
単語を構成する各文字の候補文字を何通りかに組合わせ
てできた単語が予め用意した単語辞書に登録されている
かどうか、検索し、登録されていれば候補単語とし、登
録されていなければ候補単語としない。同図(a)の帳
票上の文字を読取フて得られた同図(b)の候補文字デ
ータの例では、4文字目のスペースにより先頭から3文
字を単語として切り出し、同図(C)に示すような候補
文字の組合わせを作成して単語辞書と照合する。この結
果、同図(d)に示すように「東京都」「西京都」が単
語辞書に登録されているので、これらを候補単語として
選出する。
このようにして検索した結果、候補単語が複数個あった
場合は類似雁を計算する。類似度は各候補文字に与えら
れた順位、ランク、レベル等様々であるが、各候補単語
に対してその単語を構成する各文字の類似度を加算して
各候補単語の類似度を算出する。その類似度が最も高い
ものを正解単語として出力する。同図(e)に示すよう
に「東京都」及び「西京都」の場合には、そわぞれ、類
似度(正確には非類似度)が「5」と「6」であるので
、「東京都」が認識結果(正解単語)として出力される
(発明が解決しようとする課題) しかし、以上述べた文字認識方法では、単語が必ず分か
ち書きにされていなければ単語の文字数が確定できない
ため単語の類似度の計算に誤りが生じ、また単語中のあ
る文字について候補文字の中に正解文字がなかったり、
候補文字がなかったりすると単語の検索ができないとい
う問題点があった。
本発明の目的は上述した分かち書きされていなければな
らないという問題点と誤読文字・読取不能文字を含む単
語の検索ができないという問題点とを除去し、より汎用
的で単語読取率の高い文字認識方法を提供することであ
る。
(課題を解決するための手段) 本発明は前記問題点を解決するために、帳票上の文字を
読取って得られた候補文字データと単語辞書とを照合し
、照合結果に基づいて認識単語を出力する文字認識方法
において、前記単語辞書として予め認識対象となる単語
の種類別に単語と該単語の文字数から成る複数種類の単
語辞書を備えておき、前記候補文字データを走査してス
ペースを検索することにより、処理対象の文字列を決定
する第1のステップと、決定した文字列を前記認識対象
に応じて選択した単語辞書と照合して各単語についての
各文字の類似度の和を文字数で割った平均類似度を計算
する第2のステップと、前記計算結果に基づいて認識単
語を出力する第3のステップとを備え、前記認識単語に
基づいて選択した単語辞書に対して残りの文字列を照合
して少なくとも前記平均類似度の計算及び認識単語の判
定を繰り返すことを特徴とする文字認識方法。
好ましい実施態様では、前記各文字の類似度として、認
識不能文字及び単語辞書にない文字に対しては特定の固
定値を与えると共に、単語辞書の文字と一致する文字に
対しては候補順位を与えるものである。
(作用) 本発明は次のように作用する。第1のステップでは、単
語照合の処理対象の文字列を決定するように働く。第2
のステップでは、決定した文字列と単語辞書と照合して
、単語辞書の各単語について、各文字の類似度の和を文
字数で割フた平均類似度を求めているので、例えば認識
不能文字や単語辞書の単語の文字と一致しない場合には
それぞれについて特定の固定値を加算することにより、
候補文字データに誤読文字やりジェクト文字を含む場合
にも単語照合が正しくできると共に、上記平均類似度の
計算により分かち書きされていない場合にも単語照合が
可能となる。従って、上記のような場合にも第3のステ
ップで第2のステップの平均類似度が最も大きいものを
認識単語として出力できるので、前記従来技術の問題点
を解決できるのである。
(実施例) 以下、第1図乃至第4図を参照して本発明の詳細な説明
する。
第1図は本発明の実施例の認識手順を示すフローチャー
ト、第2図は本実施例のシステム構成図、第3図は本実
施例の動作説明図である。
本実施例のシステムは、第2図に示すように、文字が記
入された帳票を認識し、候補文字データを出力する文字
読取装置1、文字読取装置1からの人力と後述する単語
照合処理部へのデータの受は渡し、及び後述する出力装
置へ読取り結果を出力する制御部2、本発明の要部であ
る単語照合処理(マツチング処理)を実行する単語照合
処理部3、単語照合を行なう際に参照するための単語と
その文字数から成る複数種類の単語辞書4、及び読取り
(認識)結果を出力する出力装置5から構成される。
次に、第1図のフローチャート及び第3図の説明図を参
照して本実施例の動作を説明する。ここで、読取対象と
しての帳票には、第3図(a)に示すように、住所を記
入するフィールド(欄)を持つものであり、セパレータ
(スペース)なしで住所がべた書きされているものとす
る。
まず、帳票上の住所フィールドが読取装置1で読取られ
、その結果として、第3図(b)に示すような候補文字
データが制御部へ出力される(ステップS1、S2)。
この候補文字データは住所フィールドの各文字について
、それぞれ複数個の候補文字が選択される。第3図(b
)では各文字について類似度の高い順に第2位まで示さ
れる。図中、第1文字目の「?」は読取(認識)不能文
字を示し、第6文字目乃至第8文字目の「―」はスペー
ス(ブランク)を示す。
次に、制御部2は文字読取装置1から候補文字データを
受は取ると、そのデータを単語照合処理部3へ転送する
。単語照合処理部3では、認識対象が住所フィールドで
あることが、制御部2より予め通知されているので、レ
ベル1として複数種類の単語辞書4のうち都道府県名辞
書4aを選択する(ステップS3)。単語照合処理部3
は選択した都道府県名辞書4aに対して次のマツチング
処理を行う(ステップS4)。
まず、候補文字データ上でスペースを検索してスペース
の直航までを処理対象の文字列とする(ステップ54a
)。第3図(b)の候補文字データでは第6文字目にス
ペースがあることから、第1文字目から第5文字目まで
が処理対象の文字列として決定される。
次に、該当する単語辞書4(この場合は、都道府県辞書
4a)に登録されているすべての単語に対して、その単
語の各文字が候、補文字データのうち、第何位にあるか
を検索し、第3図(C)に示すように候補順位の和を文
字数で割った値を類似度(平均類似度)とする(ステッ
プ54c)。この際、読取不能文字及び候補文字データ
中にない文字に対しては固定値を与える。第3図(C)
では、第1文字目の読取不能文字(?)については「θ
ノ、都道府県名辞書4aと候補文字データの文字と一致
しない文字については「20」をそれぞれ与えている。
この結果、類似度が最も大きい、つまり第3図(C)で
は、非類似度で示されているので、最も小さい単語「東
京都」を読取り(認識)結果として制御部2を介して出
力装置5へ出力する(ステップS5)。
次に、ステップS4aで決定した処理対象の文字列のう
ち既に読取り(認識)結果が得られた文字列を処理済と
しその次の文字以降を処理対象として照合をくりかえす
。即ち、認識結果が県であれば、単語照合処理部3はこ
れを認識し、この結果、レベル2としてその県の小郡辞
書を選択してステップ4と同様のマツチング処理を行っ
て認識結果を出力する(ステップS6〜S8)。この結
果、ある特定の市が認識されると、ステップ6と同様に
してその市の字辞書が選択された後に、ステップS4、
S7と同様にマツチング処理が行われて認識結果が出力
され、すべての住所フィールドの認識が終了する(ステ
ップ89〜S 11)。第3図の例では、第3文字目ま
で認識されたので、レベル2として東京都の市区郡辞書
を選択し、第4文字目からスペースをサーチして第6文
字目にスペースがあることを確認した後、第4文字及び
第5文字を処理対象として選択した市区郡辞書によりマ
ツチング処理が行われることとなる。
次に、第4図のフローチャートを参照してマツチング処
理を詳細に説明する。
□まず、候補文字データからスペースをサーチして処理
対象の文字列を決定する。即ち、文字NO,iに先頭文
字NO,を入力する(ステップ521a)。
第3図(b)の例では「1」を人力する。次に、iがフ
ィールドの終り(第3図(b)では「8」)より小さい
かを判定し、小さい場合にはi文字名の第1位候補文字
(C(i)、CD (1))がスペース(I−1)と等
しいかどうかを判定し、等しくなければiに+1をして
以上のステップを繰り返す(ステップS 21b〜52
1d)。
この結果、例えば、第3図(b)のように第6文字目に
スペースがあると、ri−IJ  (第3図(b)では
r6−IJ)をして、スペースによる仮文字数(SP−
5EP)に入力した後、単語辞書の単WnNO−k及び
文字NO,iを「1」とする(ステップS22、S23
・)。kが単語辞書の単語数(WR−CNT)より小さ
いかどうかを判定し、小さい場合には単語文字数が仮文
字数より大きいかどうか判定する(ステップS24.5
25)。この判定の結果、大きくない場合には、iが単
語文字数より小さいかどうかを判定し、小さい場合には
候補順位NO,jを「1」とした後、jがi文字目の候
補数(C(i )、CNT)より小さいかどうかを判定
する(ステップS26.527a 、 527b ) 
、この結果率さい場合には、i文字目の第j位候補文字
(C(i)、CD (j))かに番目の単語のi文字目
の文字(WR(k)、C(i))と等しいかどうかを判
定し、等しくなければjに+1をしてjに人力してステ
ップS 27bに戻る(ステップ527c 、 527
d )。
ステップS25で単語文字数が仮文字数より大きい場合
には予め定められた類似度の上限の定数(MAX)をに
番目の単語の類似度a (k)とした後、次の単語の照
合を行う(ステップS 28a、S 30)。なお、こ
の場合は第3図の例では存在しない。また、ステップ2
7bで、jがi文字目の候補数より大きい場合には、a
(k)(初期値「0」)に最大候補数×2の定数a′を
プラスしてa (k)に人力した後、次の文字の照合を
行う(ステップ528b 、 529) 、第3図(C
)”t’!t、最大候補数「10」としているので、a
′は「2o」である。また、ステップS 27cでi文
字目の第j位候補文字かに番目の単語のi文字目の文字
と一致した場合には、その候補文字の順位No、jをa
(k)(初期値「0」)にプラスしてa (k)に入力
した後に次の文字の照合を行う(ステップS 28c%
529)。なお、第4図では省略されているが、第3図
で述べたように、i文字目の第1位候補文字が認識不能
文字(?)であるかどうかの判定をし、この結果、認識
不能文字である場合にはa (k)に固定値(第3図で
は「0」)をプラスしてa (k)に入力している。更
に、ステップS26でiが単語文字数(「東京都」の場
合「3」)より大きくなった場合にはa (k)を単語
文字数で割って次の単語の照合を行う(ステップ528
a %530)。
このようにして、ステップ24でkが単語数(都道府県
名辞書4aではr 47 、 )より大きくなると、a
 (k)の最小値(MIN (a (k)))を類似度
(MIN−a)とし、MIN−aが類似度の上限(MA
X)より小さいか否かを判定し、小さい場合にはM I
 N −aに対応するに番目の単語(WR(k))を認
識結果として出力し、逆に大きい場合にはリジェクトす
る(ステップS31〜534)。
2回目(レベル2)以降は、先頭文字NO,が変更され
るだけで1回目(レベル2)と同様にして行なわれる。
因に、第3図の例のレベル2では先頭文字NO,は「4
」となる。
(発明の効果) 以上詳細に説明したように本発明によれば、単語照合の
処理が単語辞書をベースにして行なわれるので誤読文字
やりジェクト文字を含むデータについても単語照合が正
しく行なわれる。また、類低度を計算する際に各文字の
類似度の和を文字数で割って平均の類似度とすることに
より、文字数の特定できないデータ(べた書き等)の照
合も可能となる。
【図面の簡単な説明】
第1図は本発明の一実施例のフローチャート、第2図は
本実施例のシステム構成図、第3図(a)乃至(C)は
本実施例の動作説明図、第4図はマツチング処理のフロ
ーチャート、第5図(a)乃至(f)は従来技術の説明
図である。 1・・・文字読取装置、    2・・・制御部、3・
・・単語照合処理部、  4・・・単語辞書、4 a 
−−−都道府県名辞書、   5・・・出力装置。

Claims (2)

    【特許請求の範囲】
  1. (1)帳票上の文字を読取って得られた候補文字データ
    と単語辞書とを照合し、照合結果に基づいて認識単語を
    出力する文字認識方法において、前記単語辞書として予
    め認識対象となる単語の種類別に単語と該単語の文字数
    から成る複数種類の単語辞書を備えておき、 前記候補文字データを走査してスペースを検索すること
    により処理対象の文字列を決定する第1のステップと、 決定した文字列を前記認識対象に応じて選択した単語辞
    書と照合して各単語についての各文字の類似度の和を文
    字数で割った平均類似度を計算する第2のステップと、 前記計算結果に基づいて認識単語を判定して出力する第
    3のステップとを備え、 前記認識単語に基づいて選択した単語辞書に対して残り
    の文字列を照合して少なくとも前記平均類似度の計算及
    び認識単語の判定を繰り返すことを特徴とする文字認識
    方法。
  2. (2)前記各文字の類似度として、認識不能文字及び単
    語辞書にない文字に対しては特定の固定値を与えると共
    に、単語辞書の文字と一致する文字に対しては候補順位
    を与える特許請求の範囲第1項記載の文字認識方法。
JP63000004A 1988-01-04 1988-01-04 文字認識方法 Expired - Fee Related JPH07113957B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63000004A JPH07113957B2 (ja) 1988-01-04 1988-01-04 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63000004A JPH07113957B2 (ja) 1988-01-04 1988-01-04 文字認識方法

Publications (2)

Publication Number Publication Date
JPH01177180A true JPH01177180A (ja) 1989-07-13
JPH07113957B2 JPH07113957B2 (ja) 1995-12-06

Family

ID=11462336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63000004A Expired - Fee Related JPH07113957B2 (ja) 1988-01-04 1988-01-04 文字認識方法

Country Status (1)

Country Link
JP (1) JPH07113957B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60584A (ja) * 1983-06-16 1985-01-05 Toshiba Corp 単語認識方式
JPS60251484A (ja) * 1984-05-29 1985-12-12 Toshiba Corp 単語認識装置
JPS62274486A (ja) * 1986-05-23 1987-11-28 Hitachi Ltd パタ−ン認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60584A (ja) * 1983-06-16 1985-01-05 Toshiba Corp 単語認識方式
JPS60251484A (ja) * 1984-05-29 1985-12-12 Toshiba Corp 単語認識装置
JPS62274486A (ja) * 1986-05-23 1987-11-28 Hitachi Ltd パタ−ン認識装置

Also Published As

Publication number Publication date
JPH07113957B2 (ja) 1995-12-06

Similar Documents

Publication Publication Date Title
KR910007531B1 (ko) 음성인식장치
KR940022320A (ko) 영어문자인식 방법 및 시스템
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
JPH01177180A (ja) 文字認識方法
JPH05314320A (ja) 認識距離の差と候補順を利用した認識結果の評価方式
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP2998054B2 (ja) 文字認識方法及び文字認識装置
JPS63268082A (ja) パタ−ン認識装置
Daelemans et al. Treetalk: Memory-based word phonemisation
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2644859B2 (ja) パターン詳細同定装置の同定処理方式
JP2942375B2 (ja) 文字読取装置
JPS59117673A (ja) 文字認識装置における後処理方式
JP2795003B2 (ja) 文字認識処理装置
JP3245415B2 (ja) 文字認識方法
JP2746899B2 (ja) 文字認識装置
JP2639314B2 (ja) 文字認識方式
JPH11120294A (ja) 文字認識装置および媒体
JPH0816729A (ja) 文字認識後処理方式
JP2839515B2 (ja) 文字読取システム
JP2923295B2 (ja) パターン同定処理方式
JPH02148277A (ja) パターン認識装置
JP2001266074A (ja) 文字認識装置
JPH01166188A (ja) 文字認識方法
JPH0420229B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees