JPH11272800A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH11272800A
JPH11272800A JP10069172A JP6917298A JPH11272800A JP H11272800 A JPH11272800 A JP H11272800A JP 10069172 A JP10069172 A JP 10069172A JP 6917298 A JP6917298 A JP 6917298A JP H11272800 A JPH11272800 A JP H11272800A
Authority
JP
Japan
Prior art keywords
character
candidate
size information
size
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10069172A
Other languages
English (en)
Other versions
JP3099797B2 (ja
Inventor
Yuichi Nakatani
裕一 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP10069172A priority Critical patent/JP3099797B2/ja
Priority to US09/272,312 priority patent/US6233354B1/en
Publication of JPH11272800A publication Critical patent/JPH11272800A/ja
Application granted granted Critical
Publication of JP3099797B2 publication Critical patent/JP3099797B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】 【課題】 一部欠けた文字を有する単語画像の認識精度
の向上をはかる。 【解決手段】 キー文字選択手段は、他の文字候補の切
り出し領域のサイズ情報を評価する際に基準となる文字
候補を選択する。要注意文字選択手段は、キー文字の切
り出し領域のサイズ情報を基準として、他の文字候補の
切り出し領域のサイズ情報を評価し、逸脱したサイズ情
報を持つ文字候補を要注意文字として選択する。再文字
認識手段は、キー文字の切り出し領域のサイズ情報を基
準として、要注意文字選択手段によって選択された各々
の文字候補に対して当該文字候補の切り出し領域のサイ
ズ情報を推定し、そのサイズ情報に基づいて入力単語画
像より当該文字候補の切り出しを行い、切り出された領
域の外枠を文字認識辞書のテンプレートの文字枠と一致
させて文字認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識装置に関
し、特に文字列画像を入力として個別文字の認識結果を
出力する文字認識装置に関する。
【0002】
【従来の技術】画像として与えられた単語を認識する場
合、従来は例えば特開平6−348911のように単語
画像を2値化してその黒画素連結成分に外接する外接矩
形を求め、それら外接矩形を前後の外接矩形との距離な
どの図形的特徴に基づいて統合し、統合された矩形領域
を文字認識しておき、文字認識結果を辞書に記憶してお
いた正しい単語スペルと照合して合致度が大きいものを
結果として出力していた。
【0003】
【発明が解決しようとする課題】上記従来技術における
問題点は、画像中で一部欠けた文字があると正しく読め
ないということである。その理由は、矩形領域を文字認
識する際、その外接矩形が文字認識辞書内の文字の文字
枠と一致していると仮定しているためである。この仮定
は文字の一部が欠けている場合には成り立たず、その文
字に対する文字認識結果は著しく妥当性を欠いたものに
なる恐れが有る。
【0004】例えばYという文字を含む画像が、図15
の(A)のように切り出されているとする。(A)はY
の右側の一部が欠けている場合である。一方、図15の
(C)のようなYという文字種に対するテンプレートが
文字認識辞書として用意されているとする。
【0005】一般に文字認識装置は認識対象画像の外接
矩形と文字認識辞書のテンプレートの文字枠とを一致さ
せてから類似度を算出する。例えば図15(A)は、テ
ンプレートの文字枠と一致させるために図15(B)の
ように変形された後、図15(C)との類似度が算出さ
れることになる。変形後の(B)とテンプレート(C)
とは類似度が低いため、誤認識の原因となる。
【0006】すなわち、切り出された文字に欠けがある
と、正解文字種のテンプレートとの間の類似性が低くな
り、さらに正解以外の文字種のテンプレートとの間に偶
然高い類似性を持ってしまう恐れもあるため、正しい文
字認識結果が得られなくなるという問題がある。
【0007】本発明の目的は、一部欠けた文字を有する
単語画像をより高い信頼度で認識する手段を提供するこ
とにある。
【0008】
【課題を解決するための手段】本発明は、切り出された
文字候補の認識結果とサイズ情報に基づいて単独確信度
を求め、前記単独確信度が高い文字候補をキー文字とし
て選択するキー文字選択手段(図1の22)と、キー文字
のサイズ情報を基準として、その他の文字候補の認識結
果とサイズ情報より当該文字候補の相対確信度を求め、
前記相対確信度の低い文字候補を要注意文字として選択
する要注意文字選択手段(図1の23)と、キー文字のサ
イズ情報を基準として、選択された要注意文字のサイズ
情報を推定し、かかるサイズ情報に基づいて改めて要注
意文字の切り出し及び文字認識を行う再文字認識手段
(図1の24)とを備える。
【0009】
【作用】キー文字選択手段は、他の文字候補の切り出し
領域のサイズ情報を評価する際に基準となる文字候補を
選択する。要注意文字選択手段は、キー文字の切り出し
領域のサイズ情報を基準として、他の文字候補の切り出
し領域のサイズ情報を評価し、逸脱したサイズ情報を持
つ文字候補を要注意文字として選択する。再文字認識手
段は、キー文字の切り出し領域のサイズ情報を基準とし
て、要注意文字選択手段によって選択された各々の文字
候補に対して当該文字候補の切り出し領域のサイズ情報
を推定し、そのサイズ情報に基づいて入力単語画像より
当該文字候補の切り出しを行い、切り出された領域の外
枠を文字認識辞書のテンプレートの文字枠と一致させて
文字認識を行う。
【0010】
【発明の実施の形態】以下、本発明の第1の実施の形態
について図面を参照しながら詳細に説明する。図1は本
実施の形態の構成を説明するブロック構成図である。図
1を参照すると、本実施の形態の文字認識装置は入力装
置1、データ処理装置2、記憶装置3、及び出力装置4
から構成される。
【0011】入力装置1は、認識対象となる単語画像を
入力する装置である。
【0012】データ処理装置2は、正解単語候補生成手
段21、キー文字選択手段22、要注意文字選択手段2
3、及び再文字認識手段24から構成される。
【0013】正解単語候補生成手段21は、入力装置1
で入力された認識対象単語画像に対して文字切り出しと
文字認識とを行い、文字認識の結果である文字種を組み
合わせていくつかの正解単語候補を生成する。
【0014】キー文字選択手段22は、正解単語候補生
成手段21が生成した各正解単語候補の中に含まれる個
々の文字候補について、その文字候補に関する確信度
(以下、単独確信度と呼ぶ)を、当該文字候補の認識結
果とサイズ情報に基づいて算出する。そして単独確信度
が閾値以上の文字候補をキー文字として選択する。
【0015】単独確信度は、例えば、その文字候補の文
字認識スコアと、当該文字候補のサイズ情報を基に単独
サイズ辞書31を参照して得られる単独サイズスコア
と、基準線から見たその文字候補の外接矩形下端の高さ
と、その文字候補の外接矩形の縦及び横の長さと、その
文字候補の前後の文字候補の外接矩形との間隔と、を用
いて算出する。
【0016】要注意文字選択手段23は、各正解単語候
補に含まれるキー文字以外の個々の文字候補について、
その文字候補に関する確信度(以下、相対確信度と呼ぶ)
を、当該文字候補の認識結果とサイズ情報に基づいて算
出する。そして、その相対確信度が閾値以下の文字候補
を要注意文字として選択する。
【0017】相対確信度は、例えば、その文字候補の文
字認識スコアと、キー文字及び当該文字候補のサイズ情
報を基に相対サイズ辞書33を参照して得られる相対サ
イズスコアと、基準線から見たその文字候補の外接矩形
下端の高さと、その文字候補の外接矩形の縦及び横の長
さと、その文字候補の前後の文字候補の外接矩形との間
隔と、を用いて算出する。
【0018】再文字認識手段24は、要注意文字選択手
段23により選択された各要注意文字に対し、サイズ推
定辞書34を参照して要注意文字の切り出し領域のサイ
ズ情報を決定し、そのサイズ情報に従って認識対象単語
画像から改めて要注意文字を切り出し、文字認識を行
う。そしてその結果に基づいて要注意文字の認識スコア
を修正する。
【0019】記憶装置3は単独サイズ辞書31と、相対
サイズ辞書33と、サイズ推定辞書34を記憶してい
る。
【0020】図2は単独サイズ辞書31と、相対サイズ
辞書33と、サイズ推定辞書34の具体例を説明する図
である。
【0021】単独サイズ辞書31は、文字種と文字のサ
イズ情報の組み合わせに対して、前記文字種の文字が前
記文字のサイズ情報を有する場合のスコアを単独サイズ
スコアとして記憶している。
【0022】例えば図2の(A)は、文字種Eに関し、
サイズ情報を文字の外接矩形の縦及び横の長さとして、
文字Eが各サイズ情報を有する場合のスコアを、テーブ
ルの形で記憶している様子を示している。
【0023】相対サイズ辞書33は、第1の文字種、第
1の文字のサイズ情報、第2の文字種および第2の文字
のサイズ情報の組み合わせに対して、前記第1の文字種
の文字が前記第1の文字のサイズ情報を有している場合
に前記第2の文字種の文字が前記第2の文字のサイズ情
報を有する場合のスコアを相対サイズスコアとして対応
付けて記憶している。
【0024】例えば図2の(B)は、文字種Eと文字種
Lに関し、サイズ情報を文字の外接矩形の縦及び横の長
さとして、文字Eの外接矩形の縦の長さが8、横の長さ
が6である場合に、文字Lが各サイズ情報を有する場合
のスコアを、テーブルの形で記憶している様子を示して
いる。
【0025】サイズ推定辞書34は、第1の文字種、第
1の文字のサイズ情報および第2の文字種の組み合わせ
に対して、前記第1の文字種の文字が前記第1の文字の
サイズ情報を有している場合の前記第2の文字種の文字
のサイズ情報の推定値を記憶している。
【0026】例えば、図2の(C)は、文字種Eと、文
字種L及び文字種Zに関し、サイズ情報を文字の外接矩
形の縦及び横の長さとして、文字Eの外接矩形の縦の長
さが8,横の長さが6である場合に、文字L及び文字Z
のサイズ情報の推定値を、テーブルの形で記憶している
様子を示している。
【0027】出力装置4は正解単語候補を修正された文
字認識スコアとともに出力する。
【0028】次に、本実施の形態の動作について図面を
参照ながら詳細に説明する。図3は本実施の形態の動作
を説明する流れ図である。また、認識対象単語画像とし
て図4に示すような画像が入力されるとする。
【0029】まずステップA1では、入力装置1から入
力された認識対象単語画像に対し正解単語候補生成手段
21を用いることにより、文字切り出しと文字認識とを
行い正解単語候補を生成する。
【0030】例えば、前述した特開平6−348911
で行われているように、まず認識対象単語画像を2値化
し、2値画像から黒画素連結成分の外接矩形を検出し、
それらを外接矩形のサイズや外接矩形間の距離に基づい
てより大きな外接矩形に統合し、統合された各々の外接
矩形にそれぞれ1つの文字が含まれていると仮定して文
字認識を行い、その結果である文字種および文字認識ス
コアを得る。そして得られた文字種を組み合わせて正し
い単語のスペルと照合し合致度の高いものからいくつか
を正解単語候補として生成することができる。
【0031】ここで、図4に示す認識対象単語画像に対
して、正解単語候補として「APPLE」と「APPZ
E」が生成されたとする。
【0032】またステップA1の段階で正解単語候補の
基準線を求めておく。基準線は例えば図5のように、単
語画像を文字列方向に1ラインずつ走査して黒画素のヒ
ストグラムを作成し、下端から上端へヒストグラムの値
の変化量を調べ、増加量が一定値以上となるラインを基
準線とすることで設定することができる。
【0033】次にステップA2では、ステップA1で生
成された各正解単語候補に含まれる個々の文字候補につ
いて、その単独確信度を当該文字候補の認識結果とサイ
ズ情報に基づいて算出する。そして単独確信度が閾値以
上の文字候補をキー文字として選択する。
【0034】単独確信度は、例えば、その文字候補の文
字認識スコアと、当該文字候補のサイズ情報を基に単独
サイズ辞書31を参照して得られる単独サイズスコア
と、基準線から見たその文字候補の外接矩形下端の高さ
と、その文字候補の外接矩形の縦及び横の長さと、その
文字候補の前後の文字候補の外接矩形との間隔と、を用
いて算出する。
【0035】図6はステップA2の詳細を説明する流れ
図である。
【0036】まずステップB1では、各正解単語候補に
含まれる個々の文字候補について、その外接矩形の縦及
び横の長さを基に、単独サイズ辞書31内のテーブルを
参照して単独サイズスコアを求める。図2(A)は前記
テーブルの例を示している。
【0037】前記テーブルは、例えば、各文字種ごとに
その外接矩形の縦及び横の長さからなる2次元ベクトル
【0038】
【数1】
【0039】を学習データより集め、その分布が平均
μ、分散共分散行列Σの正規分布N(μ,Σ)に従うも
のと仮定してその母数(μ,Σ)を
【0040】
【数2】
【0041】
【数3】
【0042】として推定し、N(μ’,Σ’)の平均値
μ’からのマハラノビス距離の2乗
【0043】
【数4】
【0044】を単独サイズスコアとすることにより作成
することができる。
【0045】ただしSum(,,)はその第1項の整数
と第2項の整数を両端とする閉区間にふくまれる全ての
整数について第3項の総和をとることを意味する。
【0046】図4の例では、例えば5文字目の文字Eの
外接矩形の縦の長さが8,横の長さが6であったとする
と、図2(A)のテーブルを参照することにより、単独サ
イズスコア20が求まる。
【0047】ステップB2では、各正解単語候補に含ま
れる個々の文字候補について、その外接矩形の縦及び横
の長さ以外の図形的特徴量を求める。図形的特徴量とし
て、例えば、その文字の外接矩形とその前後の外接矩形
との間隔や、正解単語候補の基準線から当該文字候補の
外接矩形下端までの高さなどを用いることができる。
【0048】ステップB3では、各正解単語候補に含ま
れる個々の文字候補について、ステップB1で求められ
た単独サイズスコア、ステップB2で求められた図形的
特徴量、及びステップA1で求められた文字認識スコア
を用いて単独確信度を求め、前記単独確信度が閾値以上
となる文字候補をキー文字として選択する。
【0049】単独確信度は、例えば次のようにして求め
る。予め学習用文字サンプルを用意しておき、人間がそ
れらをキー文字にすべきサンプルとキー文字にすべきで
ないサンプルとに分けておく。そしてその両者の各文字
について、単独サイズスコア、前後の文字の外接矩形と
の間隔、単語基準線からその文字の外接矩形下端までの
高さ、及び文字認識スコアからなる5次元ベクトルをそ
れぞれ
【0050】
【数5】
【0051】及び
【0052】
【数6】
【0053】として求めておく。そして、それらから
【0054】
【数7】
【0055】及び
【0056】
【数8】
【0057】を計算しておく。そして、正解単語候補に
含まれる個々の文字候補に関する前記5次元ベクトルを
yとし、
【0058】
【数9】
【0059】の値を単独確信度として求める。この場合
のキー文字選択に用いる閾値は、例えば0とすることが
できる。
【0060】図4の例では、例えば5文字目の文字Eが
キー文字として選ばれたとする。
【0061】ステップA3では、各正解単語候補に含ま
れるキー文字以外の個々の文字候補について、相対確信
度を当該文字候補の認識結果とサイズ情報に基づいて算
出する。そして、その相対確信度が閾値以下の文字候補
を要注意文字として選択する。
【0062】相対確信度は、例えば、その文字候補の文
字認識スコアと、キー文字及び当該文字候補のサイズ情
報を基に相対サイズ辞書33を参照して得られる相対サ
イズスコアと、基準線から見たその文字候補の外接矩形
下端の高さと、その文字候補の外接矩形の縦及び横の長
さと、その文字候補の前後の文字候補の外接矩形との間
隔と、を用いて算出する。
【0063】図7はステップA3の詳細を説明する流れ
図である。
【0064】ステップC1では、ステップA2で得られ
た全てのキー文字に対しステップC3以下の処理を行っ
たか否かを判定し、全て処理済であれば終了する。そう
でなければステップC2へすすむ。
【0065】ステップC2では、ステップA2で得られ
たキー文字のうちステップC3以下の処理が行われてい
ないものの中から1つを選ぶ。選ぶ順序は適当でよい
が、例えば単独確信度の高い順とすることができる。
【0066】ステップC3では、ステップC2で選ばれ
たキー文字と同じ正解単語候補に含まれる各々の文字候
補について、その外接矩形の縦及び横の長さ、並びに、
ステップC2で選ばれたキー文字の外接矩形の縦及び横
の長さを基に、相対サイズ辞書33内のテーブルを参照
して相対サイズスコアを求める。図2(B)は前記テー
ブルの例を示している。
【0067】前記テーブルは、例えば、任意の2つの文
字種iとjについて、これらが同一単語内にある学習デ
ータを収集し、各学習データの文字iとjについて、そ
の外接矩形の縦及び横の長さからなる4次元ベクトル
(x1,y1,x2,y2)を求め、前記4次元ベクト
ルの分布Pij(x1,y1,x2,y2)を4次元正
規分布と仮定してその母数の推定値を求め、一方の文字
種の文字の外接矩形の縦及び横の長さ(x1,y1)が
与えられたときの、他方の文字種の文字の外接矩形の縦
及び横の長さ(x2,y2)の条件付き分布Pij(x
2,y2|x1,y1)の平均値を算出し、前記平均値
からのマハラノビス距離の2乗を相対サイズスコアとす
ることにより作成することができる。正規分布の母数の
推定値の求め方及びマハラノビス距離の求め方について
は、ステップB1と同様に行うことができる。
【0068】図4の例において、正解単語候補「APP
LE」に対し、4文字目の文字Lに該当する文字候補の
切り出し領域の縦及び横の長さがそれぞれ8と2であっ
たとする。キー文字である5文字目の文字Eに該当する
文字候補の切り出し領域の縦及び横の長さは8と6であ
り、これを基に図2(B)のテーブルを参照することに
より、4文字目の文字Lに該当する文字候補の相対サイ
ズスコア80が求まる。
【0069】ステップC4では、ステップC2で選ばれ
たキー文字と同じ正解単語候補に含まれる各々の文字候
補について、その外接矩形の縦及び横の長さ以外の図形
的特徴量を求める。図形的特徴量として、例えば、その
文字の外接矩形とその前後の外接矩形との間隔や、正解
単語候補の基準線から当該文字候補の外接矩形下端まで
の高さなどを用いることができる。これらはステップB
4で求めたものと同じであるので、ステップB4でこれ
らの値を記憶しておいてここで再利用することもでき
る。
【0070】ステップC5では、ステップC2で選ばれ
たキー文字と同じ正解単語候補に含まれる各々の文字候
補について、ステップC3で求められた相対サイズスコ
ア及びステップC4で求められた図形的特徴量を用いて
相対確信度を求め、前記相対確信度が閾値以下となる文
字候補を要注意文字として選択する。
【0071】相対確信度は、例えば次のようにして求め
る。予め学習用文字サンプルを用意しておき、人間がそ
れらを要注意文字にすべきでないサンプルと要注意文字
にすべきであるサンプルとに分けておく。あとはステッ
プB3で行ったのと同様にして相対確信度を求めること
ができる。閾値は、例えば0に設定する。
【0072】図4の例では、正解単語候補「APPL
E」に対しては4番目の文字Lが、「APPZE」に対
しては4番目の文字Zが、要注意文字として選ばれたと
する。
【0073】ステップA4では、再文字認識手段24と
サイズ推定辞書34を用いることより、ステップA3で
選択された各要注意文字に対して文字切り出しと文字認
識をやり直し、その結果に基づいて各要注意文字の文字
認識スコアを訂正する。
【0074】図8はステップA4の詳細を説明する流れ
図である。
【0075】ステップD1では、ステップA2で得られ
た全てのキー文字に対しステップD3以下の処理を行っ
たか否かを判定し、全て処理済であれば終了する。そう
でなければステップD2へすすむ。
【0076】ステップD2では、ステップA2で得られ
たキー文字のうちステップD3以下の処理が行われてい
ないものの中から1つを選ぶ。選ぶ順序は適当でよい
が、例えば単独確信度の高い順に選ぶ。
【0077】ステップD3では、ステップD2で選ばれ
たキー文字と同じ正解単語候補に含まれる各々の要注意
文字について、前記キー文字の外接矩形の縦及び横の長
さを基に、サイズ推定辞書34内のテーブルを参照して
要注意文字の切り出し領域のサイズ情報を決定する。図
2(C)は前記テーブルの例を示している。
【0078】前記テーブルは、例えば、ある文字種iの
外接矩形の縦及び横の長さが(x1,y1)である時
の、文字種jの外接矩形の縦及び横の長さ(x2,y
2)の推定値を、ステップC3ででてきたPijを用い
て最尤推定値
【0079】
【数10】
【0080】として求めることにより作成できる。
【0081】図4の例において、正解単語候補「APP
LE」に対し、4文字目の文字Lに該当する文字候補の
切り出し領域の縦及び横の長さの推定値は、図2(C)
のテーブルを参照することにより、それぞれ8と7とな
る。また、正解単語候補「APPZE」に対し、4文字
目の文字Zに該当する文字候補の切り出し領域の縦及び
横の長さの推定値も、同様に8と7となる。
【0082】ステップD4では、ステップD2で選ばれ
たキー文字と同じ正解単語候補に含まれる各々の要注意
文字に対して、ステップD3で決定された切り出し領域
の縦及び横の長さを基に、認識対象単語画像から矩形領
域を切り出す。
【0083】但しステップD3で決定されたのは切り出
し領域の縦及び横の長さのみで、切り出し位置は決定さ
れていないため、ステップD3で決定された縦及び横の
長さを持つ矩形領域を単語画像上に複数設定し、それぞ
れの矩形領域の図形的特徴をもとに評価を行い、所定の
条件を満たす矩形領域を選択して切り出しを行う。
【0084】例えば、図9に示すように、要注意文字の
外接矩形と角を共有する矩形領域を設定する。矩形の角
は4つなので設定される矩形領域は4つとなる。これら
4つの矩形領域に対し図形的特徴を求める。図形的特徴
としては、例えば、基準線から見た矩形領域下端の高さ
や、その前後の文字候補の外接矩形との間隔を用いるこ
とができる。
【0085】矩形領域の選択方法としては、例えばステ
ップB3と同様にして実現できる。すなわち、予め学習
用矩形領域サンプルを用意しておき、人間がそれらを切
り出しを行うべきグループと切り出しを行うべきでない
グループとに分けておく。ここで、切り出しを行うべき
でない場合とは、隣接する文字と重なりが大きい場合な
どが該当する。そして、それぞれのグループにおいて前
記図形的特徴を要素とする特徴ベクトルを各サンプルか
ら求め、各グループの特徴ベクトルの平均値と共分散行
列を求めておく。矩形領域の選択にあたっては、前記4
つの矩形領域のそれぞれについて得られる前記特徴ベク
トルに関し、前記平均値と共分散行列を用いて各グルー
プからのマハラノビス距離を求め、切り出しを行うべき
グループの平均値に近い場合に、その矩形領域を選択す
る。
【0086】図9の例では、図9の1及び2が選択され
て切り出され、図9の3及び4は隣接する文字候補との
重なりが大きいため選択されなかったとする。
【0087】ステップD5では、ステップD4で切り出
された矩形領域に対して文字認識を行う。その際ステッ
プD4で切り出された矩形領域の外枠を文字認識辞書側
の文字枠と一致させる。そして文字認識の結果によって
要注意文字の文字認識スコアを修正する。修正方法とし
ては、例えば、要注意文字に対するそれまでの文字認識
スコアを消去し、ここで得られた文字認識スコアのうち
最良のもので上書きする方法などが考えられる。
【0088】図9の例において、図9の1及び2に対し
て文字枠を一致させて文字認識を行うと、図9の1、2
ともに文字Zよりも文字Lとの類似度の方が高くなり、
要注意文字であった4番目の文字候補の文字認識スコア
は修正されて、文字種Lに対するものが最も大きくな
る。
【0089】ステップA5では、出力装置4を用いるこ
とにより、正解単語候補を、修正された文字認識スコア
とともに出力する。
【0090】次に、従来技術では文字Lよりも文字Zに
対する類似度の方が高くなるのに対し、本発明では文字
Zよりも文字Lに対する類似度の方が高くなることを、
図10を用いて説明する。
【0091】今、文字認識辞書に1文字種につき2種類
のテンプレートが用意されているとし、文字種Lについ
ては図10の(a)と(b)、文字種Zについては図1
0の(c)と(d)が用意されているとする。これら2
種類のテンプレートの役割は、黒画素が存在すべき領域
に白画素があるかどうかをチェックするためのものと、
白画素が存在すべき領域に黒画素があるかどうかをチェ
ックするためのものである。(a)及び(c)が前者で
あり、c1及びc2が黒画素が存在すべき領域を表して
いる。また、(b)及び(d)が後者であり、e1、e
21及びe22が白画素が存在すべき領域を表してい
る。
【0092】文字認識の対象として切り出された領域
は、その外形がテンプレートの文字枠と一致するように
変形される。なお、ここではテンプレートの大きさは2
8x28であるとする。
【0093】図4の例では4文字目に欠けがあるため、
そのまま一致するように変形された場合、図10の
(f)のようになる。一方、本発明では図9の1及び2
に示すような領域で切り出された後に一致するように変
形されるため、図10の(e)のようになる。すなわ
ち、図10の(f)は従来技術における認識対象を表
し、図10の(e)は本発明における認識対象を表して
いる。
【0094】最初に図10の(f)と文字種Lとの類似
度を求める。図10の(f)と図10の(a)とを重ね
合わせ、黒画素が存在すべき領域c1と(f)の白画素
領域について、重なった部分の面積S1を算出する。こ
れは本来黒画素があるべき領域に白画素が有ることへの
ペナルティと意味付けることができ、図の例では、S1
=0になる。また図10の(f)と図10の(b)とを
重ね合わせ、白画素が存在すべき領域e1と(f)の黒
画素領域について、重なった部分の面積S2を算出す
る。これは本来白画素があるべき領域に黒画素が有るこ
とへのペナルティと意味付けることができ、図の例で
は、S2=340になる。類似度を1000−S1−S
2と定義すると、図10の(f)と文字種Lとの類似度
は660となる。
【0095】次に図10の(f)と文字種Zとの類似度
を求める。図10の(f)と図10の(c)とを重ね合
わせ、黒画素が存在すべき領域c2と(f)の白画素領
域について、重なった部分の面積S1を算出する。図の
例では、S1=28になる。また図10の(f)と図1
0の(d)とを重ね合わせ、白画素が存在すべき領域e
21及びe22と(f)の黒画素領域について、重なっ
た部分の面積S2を算出する。図の例では、S2=15
0になる。1000−S1−S2を計算した結果、図1
0の(f)と文字種Zとの類似度は822となる。
【0096】これより図10の(f)に関しては、文字
種Lとの類似度660よりも、文字種Zとの類似度82
2の方が大きくなっていることがわかる。
【0097】一方、図10の(e)に対して同様に文字
種Lとの類似度を求めると、図の例ではS1=84、S
2=0になり、類似度は916となる。また文字種Zと
の類似度は、図の例ではS1=320、S2=332に
なり、類似度は348になる。これより、図10の
(e)に関しては、文字種Zとの類似度348よりも、
文字種Lとの類似度916の方が大きくなっていること
がわかる。
【0098】次に、本発明の第2の実施の形態の構成つ
いて図面を参照しながら詳細に説明する。図11は本実
施の形態の構成を説明するブロック構成図である。図1
1を参照すると、本実施の形態の構成は、相対サイズ辞
書33が第2相対サイズ辞書35に置き換わっている点
で、図1に示された第1の実施の形態の構成と異なる。
【0099】図12は第2相対サイズ辞書35の具体例
を説明する図である。第2相対サイズ辞書35は、同一
フォントの文字群に対し、各文字のサイズ情報に関する
比を記憶している。
【0100】例えば図12は、サイズ情報を文字の外接
矩形の横の長さとして、フォントナンバー1の文字群に
対して、A,E,L,P,Zの各文字の外接矩形の横の
長さの比16:20:14:18:10を、フォントナ
ンバー2の文字群に対して、A,E,L,P,Zの各文
字の外接矩形の横の長さの比16:10:20:25:
10を、テーブルの形で記憶していることを示してい
る。
【0101】前記テーブルは、例えば、予め各フォント
ごとに学習用のサンプルデータを用意しておき、各文字
のサンプルデータの外接矩形の横幅を実測し、比を求め
ることにより作成できる。
【0102】次に本実施の形態の動作について図面を参
照しながら詳細に説明する。本実施の形態の動作は、ス
テップA3を除いて、図3に示す第1の実施の形態の動
作と同じである。
【0103】本実施の形態はステップA3で、各正解単
語候補に含まれる個々の文字候補について、相対確信度
をキー文字及び当該文字候補のサイズ情報を基に第2相
対サイズ辞書35を参照することにより算出し、その相
対確信度が閾値以下の文字候補を要注意文字として選択
する。
【0104】図13は本実施の形態におけるステップA
3の詳細を説明する流れ図である。
【0105】ステップH1では、ステップA1で得られ
た全て正解単語候補に対しステップH3以下の処理を行
ったか否かを判定し、全て処理済であれば終了する。そ
うでなければステップH2へすすむ。
【0106】ステップH2では、ステップA1で得られ
た正解単語候補のうちステップH3以下の処理が行われ
ていないものの中から1つを選ぶ。
【0107】ステップH3では、ステップH2で選ばれ
た正解単語候補に含まれる個々の文字候補について、第
2相対サイズ辞書35を参照しながら以下のようにして
相対確信度を算出する。
【0108】正解単語候補に含まれるP個の文字候補に
ついて、認識結果がC1 ,…,CP、外接矩形の横幅が
1 ,…,Xp であったとする。まず、正解単語候補中
の文字候補群のサイズ情報と最も似たサイズ情報を持つ
フォントを選択する。具体的には、
【0109】
【数11】
【0110】を最小とするi,kを求め、i’,k’と
おく。ここで、iはフォントナンバーを表し、i’は選
択されたフォントのフォントナンバーを表す。また、x
i (Cj )は、第2相対サイズ辞書を参照することによ
り得られる、フォントナンバーiのフォントにおける文
字種Cj のサイズ情報の比を表す。また、Key(j)
は正解単語候補中のj番目の文字がキー文字であれば
2、そうでなければ1をとる関数であり、キー文字に対
する誤差の重みを大きくする働きをする。
【0111】フォントが選択された後、各文字候補の相
対確信度を、−|k’x_{i’}(C_j)−X_
{j}|により算出する。
【0112】例えば、正解単語候補「APPLE」にお
いて、各文字候補の外接矩形の横の長さX1 ,…,Xp
が順に8,9,9,2,10であったとする。この時、
図2の第2相対サイズ辞書を参照することにより、フォ
ントナンバー1のフォントに対しては、F1(k)=|
16k−8|+|18k−9|+|18k−9|+|1
4k−2|+2|20k−10|となるから、これを最
小とするkはk=0.5となる。ここでi=1のときの
i (k)が最小となったとすると、正解単語候補「A
PPLE」の各文字に対する相対確信度は順に、0,
0,0,−5,0となる。
【0113】ステップH4では、ステップH3で計算さ
れた正解単語候補中の各文字候補に対する相対確信度と
閾値とを比較し、閾値以下の相対確信度を持つ文字候補
を要注意文字として選択する。
【0114】例えば閾値が−3とすると、上述の例で
は、正解単語候補「APPLE」の中から4文字目の文
字Lに該当する文字候補が要注意文字として選ばれるこ
とになる。
【0115】次に、本発明の第3の実施の形態の構成つ
いて図面を参照しながら詳細に説明する。図14は本実
施の形態の構成を説明するブロック構成図である。図1
4を参照すると、本実施の形態の構成は、2値画像生成
手段20と2値画像バッファ32とを有する点で、図1
に示された第1の実施の形態の構成と異なる。
【0116】認識対象単語画像が多値画像で、用いる文
字認識手段が2値画像のみを対象としていた場合、2値
画像に変換してから文字認識を行う必要がある。しかし
背景と文字を完全に分かつような閾値が存在しないこと
も多い。そこで2値画像生成手段20において複数の閾
値により複数の2値画像を生成し、2値画像バッファに
格納する。
【0117】2値画像生成手段20では、生成された2
値画像のうち1つを選択して正解単語候補生成手段21
に出力し、それ以外の2値画像は2値画像バッファに出
力する。
【0118】正解単語候補生成手段21、キー文字選択
手段22及び要注意文字選択手段23では、前記選択し
た2値画像を用いて、第1の実施の形態と同様の処理を
行う。
【0119】再文字認識手段24は、前記選択された2
値画像を用いて第1の実施の形態と同様に切り出し領域
を決定し、前記選択された2値画像及び2値画像バッフ
ァから読み出した2値画像に対して、前記決定した切り
出し領域と同位置の矩形領域を切り出して、要注意文字
の再文字認識を行う。
【0120】
【発明の効果】本発明の効果は、単語画像に含まれる欠
けがある文字に対してより信頼性の高い文字認識が行え
ることである。その理由は、単語画像に含まれる文字候
補のうち、欠けがない文字候補のサイズ情報から欠けが
ある文字候補のサイズ情報を推定することで、欠けがあ
る文字候補の外接矩形と文字認識辞書のテンプレートの
文字枠とを一致させて照合する際の類似度が低くなるこ
とを防ぐことができるからである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の構成を示すブロッ
ク図である。
【図2】単独サイズ辞書、相対サイズ辞書、サイズ推定
辞書の例を示す図である。
【図3】本発明の第1の実施の形態の動作を示す流れ図
である。
【図4】入力画像の例を示す図である。
【図5】基準線の求め方を説明する図である。
【図6】図3のステップA2における動作を示す流れ図
である。
【図7】図3のステップA3における動作を示す流れ図
である。
【図8】図3のステップA4における動作を示す流れ図
である。
【図9】切り出し領域の設定の仕方を説明する図であ
る。
【図10】文字Lと文字Zに対する類似度の違いを説明
する図である。
【図11】本発明の第2の実施の形態の構成を示すブロ
ック図である。
【図12】第2相対サイズ辞書の例を示す図である。
【図13】第2の実施の形態における、図3のステップ
A3における動作を示す流れ図である。
【図14】本発明の第3の実施の形態の構成を示すブロ
ック図である。
【図15】従来技術の課題を説明する図である。
【符号の説明】
1 入力装置 2 データ処理装置 20 2値画像生成手段 21 正解単語候補生成手段 22 キー文字選択手段 23 要注意文字選択手段 24 再文字認識手段 3 記憶装置 31 単独サイズ辞書 32 2値画像バッファ 33 相対サイズ辞書 34 サイズ推定辞書 35 第2相対サイズ辞書 4 出力装置

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】認識対象である単語画像に対し、文字候補
    を切り出して文字認識を行い、文字認識結果である文字
    種に基づいて前記文字候補を組み合わせて単語候補を生
    成する単語候補生成手段と、 文字種と文字のサイズ情報の組み合わせに対して、前記
    文字種の文字が前記文字のサイズ情報を有する場合のス
    コアを単独サイズスコアとして記憶する単独サイズ辞書
    と、 前記単語候補に含まれる文字候補について、当該文字候
    補の認識結果とサイズ情報を文字種と文字のサイズ情報
    として前記単独サイズ辞書を参照することにより単独サ
    イズスコアを求め、前記単独サイズスコアと当該文字候
    補の認識結果に少なくとも基づいて当額文字候補の単独
    確信度を算出し、前記算出された単独確信度があらかじ
    め記憶する所定の値よりも高い場合に前記文字候補をキ
    ー文字として選択し、キー文字として1つも選択されな
    かった場合には単独確信度が高い文字候補から少なくと
    も1つのキー文字を選択するキー文字選択手段と、 第1の文字種、第1の文字のサイズ情報、第2の文字種
    および第2の文字のサイズ情報の組み合わせに対して、
    前記第1の文字種の文字が前記第1の文字のサイズ情報
    を有している場合に前記第2の文字種の文字が前記第2
    の文字のサイズ情報を有する場合のスコアを相対サイズ
    スコアとして対応付けて記憶する相対サイズ辞書と、 前記単語候補に含まれる文字候補のうち前記キー文字と
    して選択されなかった文字候補に対し、当該文字候補の
    認識結果とサイズ情報を第1の文字種、第1の文字のサ
    イズ情報とし、当該文字候補の認識結果と同じ単語候補
    に含まれる少なくとも1つのキー文字の認識結果とサイ
    ズ情報を第2の文字種、第2の文字のサイズ情報とし
    て、相対サイズ辞書を参照して相対サイズスコアを求
    め、少なくとも前記相対サイズスコアに基づいて当該文
    字候補の相対確信度を算出し、前記算出された相対確信
    度があらかじめ記憶する所定の値よりも低い場合に、当
    該文字候補を要注意文字として選択する要注意文字選択
    手段と、 第1の文字種、第1の文字のサイズ情報および第2の文
    字種の組み合わせに対して、前記第1の文字種の文字が
    前記第1の文字のサイズ情報を有している場合の前記第
    2の文字種の文字のサイズ情報の推定値を記憶するサイ
    ズ推定辞書と、 前記要注意文字として選択された文字候補に対し、当該
    文字候補の認識結果を第2の文字種とし、当該文字候補
    について要注意文字の選択の際に用いられたキー文字の
    認識結果とサイズ情報を第1の文字種、第1の文字のサ
    イズ情報とし、サイズ推定辞書を参照して当該文字候補
    のサイズ情報の推定値を算出し、前記単語画像において
    当該文字候補の位置を基準に、前記推定値で与えられる
    サイズ情報に基づいて切り出し領域を設定し、前記設定
    された切り出し領域の外枠が文字の外接矩形であるとし
    て文字認識を行う再文字認識手段とを備えたことを特徴
    とする文字認識装置。
  2. 【請求項2】同一フォントの文字群に対し、各文字のサ
    イズ情報に関する比を記憶する第2相対サイズ辞書を備
    え、 前記要注意文字選択手段が、前記単語候補に含まれる文
    字候補群に対し、各文字候補のサイズ情報及び当該文字
    候補がキー文字として選択されているかどうかを基に第
    2相対サイズ辞書を参照することにより相対確信度を算
    出し、前記算出された相対確信度があらかじめ記憶する
    所定の値よりも低い場合に、当該文字候補を要注意文字
    として選択することを特徴とする請求項1記載の文字認
    識装置。
  3. 【請求項3】認識対象である単語画像に対して複数の異
    なる閾値により2値化を行い、複数の2値化画像を生成
    する2値画像生成手段と、 前記複数の2値化画像を記憶する2値画像バッファを有
    し、 前記再文字認識手段が、前記単語画像に切り出し領域を
    設定する際に、前記2値画像バッファに記憶された前記
    複数の2値化画像に対しても前記単語画像に設定される
    切り出し領域と同位置に切り出し領域を設定し、前記単
    語画像及び前記複数の2値化画像のそれぞれに設定され
    た切り出し領域に対し、切り出し領域の外枠が文字の外
    接矩形であるとして文字認識を行うことを特徴とする請
    求項1又は2記載の文字認識装置。
JP10069172A 1998-03-19 1998-03-19 文字認識装置 Expired - Fee Related JP3099797B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10069172A JP3099797B2 (ja) 1998-03-19 1998-03-19 文字認識装置
US09/272,312 US6233354B1 (en) 1998-03-19 1999-03-19 Character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10069172A JP3099797B2 (ja) 1998-03-19 1998-03-19 文字認識装置

Publications (2)

Publication Number Publication Date
JPH11272800A true JPH11272800A (ja) 1999-10-08
JP3099797B2 JP3099797B2 (ja) 2000-10-16

Family

ID=13395047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10069172A Expired - Fee Related JP3099797B2 (ja) 1998-03-19 1998-03-19 文字認識装置

Country Status (2)

Country Link
US (1) US6233354B1 (ja)
JP (1) JP3099797B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014092871A (ja) * 2012-11-01 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 文字認識装置及び文字認識プログラムを記録したコンピュータ読取り可能な記録媒体

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6987879B1 (en) * 1999-05-26 2006-01-17 Ricoh Co., Ltd. Method and system for extracting information from images in similar surrounding color
US6879718B2 (en) * 2001-11-06 2005-04-12 Microsoft Corp. Efficient method and system for determining parameters in computerized recognition
US8175388B1 (en) 2009-01-30 2012-05-08 Adobe Systems Incorporated Recognizing text at multiple orientations
JP5321109B2 (ja) * 2009-02-13 2013-10-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5990609B2 (ja) * 2015-02-25 2016-09-14 京セラドキュメントソリューションズ株式会社 画像形成装置
CN108509408B (zh) * 2017-02-27 2019-11-22 芋头科技(杭州)有限公司 一种句子相似度判断方法
CN110363189B (zh) * 2018-04-09 2021-09-24 珠海金山办公软件有限公司 一种文档内容修复方法、装置、电子设备及可读存储介质
US11386687B2 (en) 2020-03-30 2022-07-12 Wipro Limited System and method for reconstructing an image

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5597671A (en) 1979-01-19 1980-07-25 Fujitsu Ltd Character/pattern recognizing system
US5164996A (en) * 1986-04-07 1992-11-17 Jose Pastor Optical character recognition by detecting geo features
US5504822A (en) * 1986-09-19 1996-04-02 Holt; Arthur W. Character recognition system
JPH06348911A (ja) 1993-06-07 1994-12-22 Matsushita Electric Ind Co Ltd 英文字認識装置
US5544260A (en) * 1994-07-12 1996-08-06 International Business Machines Corporation Silent training by error correction for on-line handwritting recognition systems
US5883986A (en) * 1995-06-02 1999-03-16 Xerox Corporation Method and system for automatic transcription correction

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014092871A (ja) * 2012-11-01 2014-05-19 Nippon Telegr & Teleph Corp <Ntt> 文字認識装置及び文字認識プログラムを記録したコンピュータ読取り可能な記録媒体

Also Published As

Publication number Publication date
US6233354B1 (en) 2001-05-15
JP3099797B2 (ja) 2000-10-16

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
CN111523537A (zh) 一种文字识别方法、存储介质及系统
JP3099797B2 (ja) 文字認識装置
JP3099771B2 (ja) 文字認識方法、装置及び文字認識プログラムを記録した記録媒体
US8472719B2 (en) Method of stricken-out character recognition in handwritten text
US11361529B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JPH11328315A (ja) 文字認識装置
JP2002245404A (ja) 領域切り出しプログラムおよび装置
JP2001236467A (ja) パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体
JPH11191135A (ja) 文書画像の日本語英語判定方法、文書認識方法および記録媒体
JP2812391B2 (ja) パターン処理方法
JP7404625B2 (ja) 情報処理装置、及びプログラム
US20230045871A1 (en) Character recognition method, computer program product with stored program and computer readable medium with stored program
JP2592756B2 (ja) 文字切り出し装置およびこれを用いた文字認識装置
JP2925303B2 (ja) 画像処理方法及び装置
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3209197B2 (ja) 文字認識装置及び文字認識プログラムを記録した記録媒体
JP3074691B2 (ja) 文字認識装置
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
JP3006823B2 (ja) 文字および単語の認識方式
JP4011859B2 (ja) 単語画像正規化装置,単語画像正規化プログラム記録媒体および単語画像正規化プログラム
JP3345469B2 (ja) 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置
JP2977244B2 (ja) 文字認識方法及び文字認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070818

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080818

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080818

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090818

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090818

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130818

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees