JPH07113957B2 - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPH07113957B2
JPH07113957B2 JP63000004A JP488A JPH07113957B2 JP H07113957 B2 JPH07113957 B2 JP H07113957B2 JP 63000004 A JP63000004 A JP 63000004A JP 488 A JP488 A JP 488A JP H07113957 B2 JPH07113957 B2 JP H07113957B2
Authority
JP
Japan
Prior art keywords
character
word
candidate
characters
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63000004A
Other languages
English (en)
Other versions
JPH01177180A (ja
Inventor
恒文 進藤
善美 寺田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP63000004A priority Critical patent/JPH07113957B2/ja
Publication of JPH01177180A publication Critical patent/JPH01177180A/ja
Publication of JPH07113957B2 publication Critical patent/JPH07113957B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は単語と該単語の文字数を格納してある単語辞書
と照合して帳票上のべた書きされた文字の切り出しを行
い、読取って得られた候補文字データをもとに候補文字
を単語辞書と照合することにより、より正解に近い認識
結果を出力する文字認識方法に関するものである。
(従来の技術) 従来、この種の単語照合による文字認識方法の説明図を
第5図に示す。従来の文字認識方法では、文字読取装置
が読取った帳票上の各文字について出力する複数個の候
補文字データと、予め用意した単語辞書を入力データと
する。帳票上に書かれる各単語はなんらかのセパレータ
で分かち書きされていなければならない。例えば同図
(a)の帳票の例では、セパレータとして「東京都」
「港区」の間の4文字目のスペース(ブランク)が設け
られている。このようなセパレータによって切り出され
た単語を構成する各文字の候補文字を何通りかに組合わ
せてできた単語が予め用意した単語辞書に登録されてい
るかどうか、検索し、登録されていれば候補単語とし、
登録されていなければ候補単語としない。同図(a)の
帳票上の文字を読取って得られた同図(b)の候補文字
データの例では、4文字目のスペースにより先頭から3
文字を単語として切り出し、同図(c)に示すような候
補文字の組合わせを作成して単語辞書と照合する。この
結果、同図(d)に示すように「東京都」「西京都」が
単語辞書に登録されているので、これらを候補単語とし
て選出する。
このようにして検索した結果、候補単語が複数個あった
場合は類似度を計算する。類似度は各候補文字に与えら
れた順位,ランク,レベル等様々であるが、各候補単語
に対してその単語を構成する各文字の類似度を加算して
各候補単語の類似度を算出する。その類似度が最も高い
ものを正解単語として出力する。同図(e)に示すよう
に「東京都」及び「西京都」の場合には、それぞれ、類
似度(正確には非類似度)が「5」と「6」であるの
で、「東京都」が認識結果(正解単語)として出力され
る。
(発明が解決しようとする課題) しかし、以上述べた文字認識方法では、単語が必ず分か
ち書きにされていなければ単語の文字数が確定できない
ため単語の類似度の計算に誤りが生じ、また単語中のあ
る文字について候補文字の中に正解文字がなかったり、
候補文字がなかったりすると単語の検索ができないとい
う問題点があった。
本発明の目的は上述した分かち書きされていなければな
らないという問題点を誤読文字・読取不能文字を含む単
語の検索ができないという問題点とを除去し、より汎用
的で単語読取率の高い文字認識方法を提供することであ
る。
(課題を解決するための手段) 本発明は前記問題点を解決するために、帳票上の文字を
読取って得られた候補文字データと単語辞書とを照合
し、照合結果に基づいて認識単語を出力する文字認識方
法において、予め認識対象となる種類別の単語と当該単
語の文字数からなり、かつ互いの種別の関係を持たせて
階層化された複数の単語辞書を備えておき、候補文字デ
ータを走査してスペースを検索することにより処理対象
の文字列を決定する第1のステップと、決定した文字列
を認識対象に応じて選択した単語辞書と照合して当該単
語辞書の前記文字数により決定した文字列から候補文字
を切り出し、候補文字の各単語に対する単語辞書の各文
字の類似度を求め、当該候補文字の類似度の和を文字数
で割った平均類似度を求める第2のステップと、求めた
平均類似度の最も高いものを認識単語と判定する第3の
ステップとからなり、認識単語に基づいて選択した単語
辞書に対して残りの候補文字列と単語辞書との照合して
少なくとも第2のステップ及び第3のステップを繰り返
すものである。
(作用) 本発明は次のように作用する。第1のステップでは、単
語照合の処理対象の文字列を決定するように働く。第2
のステップでは、決定した文字列を認識対象に応じて選
択した単語辞書と照合して当該単語辞書の文字数により
決定した文字列から候補文字を切り出し、候補文字の各
単語に対する単語辞書の各文字の類似度を求め、当該候
補文字の類似度の和を文字数で割った平均類似度を求め
ているので、例えば認識不能文字や単語辞書の単語の文
字と一致しない場合にはそれぞれについて特定の固定値
を加算することにより、候補文字データに誤読文字やリ
ジェクト文字を含む場合にも単語照合が正しくできると
共に、上記平均類似度の計算により分かち書きされてい
ない場合にも単語照合が可能となる。従って、上記のよ
うな場合にも第3のステップで第2のステップの平均類
似度が最も大きいものを認識単語として出力できるの
で、前記従来技術の問題点を解決できるのである。
(実施例) 以下、第1図乃至第4図を参照して本発明の実施例を説
明する。
第1図は本発明の実施例の認識手順を示すフローチャー
ト、第2図は本実施例のシステム構成図、第3図は本実
施例の動作説明図である。
本実施例のシステムは、第2図に示すように、文字が記
入された帳票を認識し、候補文字データを出力する文字
読取装置1、文字読取装置1からの入力と後述する単語
照合処理部へのデータの受け渡し、及び後述する出力装
置へ読取り結果を出力する制御部2、本発明の要部であ
る単語照合処理(マッチング処理)を実行する単語照合
処理部3、単語照合を行なう際に参照するための単語と
その文字数から成る複数種類の単語辞書4、及び読取り
(認識)結果を出力する出力装置5から構成される。
次に、第1図のフローチャート及び第3図の説明図を参
照して本実施例の動作を説明する。ここで、読取対象と
しての帳票には、第3図(a)に示すように、住所を記
入するフィールド(欄)を持つものであり、セパレータ
(スペース)なしで住所がべた書きされているものとす
る。
まず、帳票上の住所フィールドが読取装置1で読取ら
れ、その結果として、第3図(b)に示すような候補文
字データが制御部へ出力される(ステップS1、S2)。こ
の候補文字データは住所フィールドの各文字について、
それぞれ複数個の候補文字が選択される。第3図(b)
では各文字について類似度の高い順に第2位まで示され
る。図中、第1文字目の「?」は読取(認識)不能文字
を示し、第6文字目乃至第8文字目の はスペース(ブランク)を示す。
次に、制御部2は文字読取装置1から候補文字データを
受け取ると、そのデータを単語照合処理部3へ転送す
る。単語照合処理部3では、認識対象が住所フィールド
であることが、制御部2より予め通知されているので、
レベル1として複数種類の単語辞書4のうち都道府県名
辞書4aを選択する(ステップS3)。単語照合処理部3は
選択した都道府県名辞書4aに対して次のマッチング処理
を行う(ステップS4)。
まず、候補文字データ上でスペースを検索してスペース
の直前までを処理対象の文字列とする(ステップS4
a)。第3図(b)の候補文字データでは第6文字目に
スペースがあることから、第1文字目から第5文字目ま
でが処理対象の文字列として決定される。
次に、該当する単語辞書4(この場合は、都道府県辞書
4a)に登録されているすべての単語に対して、その単語
の各文字が候補文字データのうち、第何位にあるかを検
索し、第3図(c)に示すように候補順位の和を文字数
で割った値を類似度(平均類似度)とする(ステップS4
c)。この際、読取不能文字及び候補文字データ中にな
い文字に対しては固定値を与える。第3図(c)では、
第1文字目の読取不能文字(?)については「0」、都
道府県名辞書4aと候補文字データの文字と一致しない文
字については「20」をそれぞれ与えている。この結果、
類似度が最も大きい、つまり第3図(c)では、非類似
度で示されているので、最も小さい単語「東京都」を読
取り(認識)結果として制御部2を介して出力装置5へ
出力する(ステップS5)。
次に、ステップS4aで決定した処理対象の文字列のうち
既に読取り(認識)結果が得られた文字列を処理済とし
その次の文字以降を処理対象として照合をくりかえす。
即ち、認識結果が県であれば、単語照合処理部3はこれ
を認識し、この結果、レベル2としてその県の市郡辞書
を選択してステップ4と同様のマッチング処理を行って
認識結果を出力する(ステップS6〜S8)。この結果、あ
る特定の市が認識されると、ステップ6と同様にしてそ
の市の字辞書が選択された後に、ステップS4、S7と同様
にマッチング処理が行われて認識結果が出力され、すべ
ての住所フィールドの認識が終了する(ステップS9〜S1
1)。第3図の例では、第3文字目まで認識されたの
で、レベル2として東京都の市区郡辞書を選択し、第4
文字目からスペースをサーチして第6文字目にスペース
があることを確認した後、第4文字及び第5文字を処理
対象として選択した市区郡辞書によりマッチング処理が
行われることとなる。
次に、第4図のフローチャートを参照してマッチング処
理を詳細に説明する。
まず、候補文字データからスペースをサーチして処理対
象の文字列を決定する。即ち、文字NO.iに先頭文字NO.
を入力する(ステップS21a)。第3図(b)の例では
「1」を入力する。次に、iがフィールドの終り(第3
図(b)では「8」)より小さいかを判定し、小さい場
合にはi文字目の第1位候補文字(C(i).CD
(1))がスペース と等しいかどうかを判定し、等しくなければiに+1を
して以上のステップを繰り返す(ステップS21b〜21
d)。
この結果、例えば、第3図(b)のように第6文字目に
スペースがあると、「i−1」(第3図(b)では「6
−1」)をして、スペースによる仮文字数(SP−SEP)
に入力した後、単語辞書の単語NO.k及び文字NO.iを
「1」とする(ステップS22、S23)。kが単語辞書の単
語数(WR−CNT)より小さいかどうかを判定し、小さい
場合には単語文字数が仮文字数より大きいかどうか判定
する(ステップS24、S25)。この判定の結果、大きくな
い場合には、iが単語文字数より小さいかどうかを判定
し、小さい場合には候補順位NO.jを「1」とした後、j
がi文字目の候補数(C(i).CNT)より小さいかどう
かを判定する(ステップS26、S27a、S27b)。この結果
小さい場合には、i文字目の第j位候補文字(C
(i).CD(j))がk番目の単語のi文字目の文字(W
R(k).C(i))と等しいかどうかを判定し、等しく
なければjに+1をしてjに入力してステップS27bに戻
る(ステップS27c、S27d)。
ステップS25で単語文字数が仮文字数より大きい場合に
は予め定められた類似度の上限の定数(MAX)をk番目
の単語の類似度a(k)とした後、次の単語の照合を行
う(ステップS28a、S30)。なお、この場合は第3図の
例では存在しない。また、ステップ27bで、jがi文字
目の候補数より大きい場合には、a(k)(初期値
「0」)に最大候補数×2の定数a′をプラスしてa
(k)に入力した後、次の文字の照合を行う(ステップ
S28b、S29)。第3図(c)では、最大候補数「10」と
しているので、a′は「20」である。また、ステップS2
7cでi文字目の第j位候補文字がk番目の単語のi文字
目の文字と一致した場合には、その候補文字の順位NO.j
をa(k)(初期値「0」)にプラスしてa(k)に入
力した後に次の文字の照合を行う(ステップS28c、S2
9)。なお、第4図では省略されているが、第3図で述
べたように、i文字目の第1位候補文字が認識不能文字
(?)であるかどうかの判定をし、この結果、認識不能
文字である場合にはa(k)に固定値(第3図では
「0」)をプラスしてa(k)に入力している。更に、
ステップS26でiが単語文字数(「東京都」の場合
「3」)より大きくなった場合にはa(k)を単語文字
数で割って次の単語の照合を行う(ステップS28a、S3
0)。
このようにして、ステップ24でkが単語数(都道府県名
辞書4aでは「47」)より大きくなると、a(k)の最小
値(MIN(a(k)))を類似度(MIN−a)とし、MIN
−aが類似度の上限(MAX)より小さいか否かを判定
し、小さい場合にはMIN−aに対応するk番目の単語(W
R(k))を認識結果として出力し、逆に大きい場合に
はリジェクトする(ステップS31〜S34)。
2回目(レベル2)以降は、先頭文字NO.が変更される
だけで1回目(レベル2)と同様にして行なわれる。因
に、第3図の例のレベル2では先頭文字NO.は「4」と
なる。
(発明の効果) 以上詳細に説明したように本発明によれば、単語照合の
処理が単語辞書をベースにして行なわれるので誤読文字
やリジェクト文字を含むデータについても単語照合が正
しく行なわれる。また、単語辞書内の該当単語の文字数
により候補文字列の切り出しを行い、類似度を計算する
際に各文字の類似度の和を文字数で割って平均の類似度
とすることにより、文字数の特定できないデータ(ベタ
書き等)の照合も可能となる。更に、誤読文字やリジェ
クト文字を含むデータについてはそれぞれ固有値を割り
当てているので誤読文字やリジェクト文字についても単
語照合が可能である。
【図面の簡単な説明】
第1図は本発明の一実施例のフローチャート、第2図は
本実施例のシステム構成図、第3図(a)乃至(c)は
本実施例の動作説明図、第4図はマッチング処理のフロ
ーチャート、第5図(a)乃至(f)は従来技術の説明
図である。 1……文字読取装置、2……制御部、 3……単語照合処理部、4……単語辞書、 4a……都道府県名辞書、5……出力装置。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】帳票上の文字を読取って得られた候補文字
    データと単語辞書とを照合し、照合結果に基づいて認識
    単語を出力する文字認識方法において、 予め認識対象となる種類別の単語と当該単語の文字数か
    らなり、かつ互いの種別の関係を持たせて階層化された
    複数の単語辞書を備えておき、 前記候補文字データを走査してスペースを検索すること
    により処理対象の文字列を決定する第1のステップと、 決定した文字列を前記認識対象に応じて選択した単語辞
    書と照合して当該単語辞書の前記文字数により決定した
    文字列から候補文字を切り出し、候補文字の各単語に対
    する単語辞書の各文字の類似度を求め、当該候補文字の
    類似度の和を文字数で割った平均類似度を求める第2の
    ステップと、 求めた前記平均類似度の最も高いものを認識単語と判定
    する第3のステップとからなり、 前記認識単語に基づいて選択した単語辞書に対して残り
    の前記候補文字列と前記単語辞書とを照合して少なくと
    も前記第2のステップ及び前記第3のステップを繰り返
    すことを特徴とする文字認識方法。
  2. 【請求項2】前記第2のステップにおいて認識不能文字
    及び単語辞書の各文字に対応する候補文字がない場合に
    は特定の固有値の類似度を与えると共に、単語辞書の各
    文字と一致する文字に対しては候補順位を類似度として
    与える特許請求の範囲第1項記載の文字認識方法。
JP63000004A 1988-01-04 1988-01-04 文字認識方法 Expired - Fee Related JPH07113957B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63000004A JPH07113957B2 (ja) 1988-01-04 1988-01-04 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63000004A JPH07113957B2 (ja) 1988-01-04 1988-01-04 文字認識方法

Publications (2)

Publication Number Publication Date
JPH01177180A JPH01177180A (ja) 1989-07-13
JPH07113957B2 true JPH07113957B2 (ja) 1995-12-06

Family

ID=11462336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63000004A Expired - Fee Related JPH07113957B2 (ja) 1988-01-04 1988-01-04 文字認識方法

Country Status (1)

Country Link
JP (1) JPH07113957B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60584A (ja) * 1983-06-16 1985-01-05 Toshiba Corp 単語認識方式
JPH0711821B2 (ja) * 1984-05-29 1995-02-08 株式会社東芝 単語認識装置
JPS62274486A (ja) * 1986-05-23 1987-11-28 Hitachi Ltd パタ−ン認識装置

Also Published As

Publication number Publication date
JPH01177180A (ja) 1989-07-13

Similar Documents

Publication Publication Date Title
WO2011104754A1 (ja) 検索装置及び検索プログラム
WO2010044123A1 (ja) 検索装置、検索用索引作成装置、および検索システム
WO2000036530A1 (fr) Methode de recherche et dispositif correspondant, support enregistre
KR102072238B1 (ko) 신뢰도 기반 질의응답 시스템 및 방법
JPH07113957B2 (ja) 文字認識方法
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JP4511274B2 (ja) 音声データ検索装置
JP2655087B2 (ja) 文字認識後処理方式
JP2002259912A (ja) オンライン文字列認識装置及びオンライン文字列認識方法
JP2000090193A (ja) 文字認識装置および項目分類方法
JP2845463B2 (ja) パターン認識装置
JPS646514B2 (ja)
JP3245415B2 (ja) 文字認識方法
JP2618018B2 (ja) 文字認識装置
JP2560959B2 (ja) 文字認識後処理方式
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JP2795003B2 (ja) 文字認識処理装置
JPH11143984A (ja) 文字読取装置
JPH11120294A (ja) 文字認識装置および媒体
JPS61161588A (ja) 文字認識後処理方式
JPH08137668A (ja) 類似単語検索のための有限オートマトン作成方法
Beeksma et al. shotgun: converting words into triplets: A hybrid approach to grapheme-phoneme conversion in Dutch
JP2622004B2 (ja) 文字認識装置
Chen et al. Using multiple sequence alignment and statistical language model to integrate multiple Chinese address recognition outputs
JPH067351B2 (ja) 候補列作成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees