JP4056745B2 - 文字認識方法および文字認識装置 - Google Patents

文字認識方法および文字認識装置 Download PDF

Info

Publication number
JP4056745B2
JP4056745B2 JP2002000189A JP2002000189A JP4056745B2 JP 4056745 B2 JP4056745 B2 JP 4056745B2 JP 2002000189 A JP2002000189 A JP 2002000189A JP 2002000189 A JP2002000189 A JP 2002000189A JP 4056745 B2 JP4056745 B2 JP 4056745B2
Authority
JP
Japan
Prior art keywords
character
area
character recognition
line
certainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002000189A
Other languages
English (en)
Other versions
JP2003203204A (ja
Inventor
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002000189A priority Critical patent/JP4056745B2/ja
Publication of JP2003203204A publication Critical patent/JP2003203204A/ja
Application granted granted Critical
Publication of JP4056745B2 publication Critical patent/JP4056745B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文字認識をおこなう、より詳しくは、原稿の画像を読み取り文字データを出力する文字認識方法において、文字以外の認識結果の認識出力を防いでより精度の高い文字認識がおこなえる文字認識方法および文字認識装置に関する。
【0002】
【従来の技術】
従来の文字認識方法としては、特許第2991779号に開示された技術のように、文字単体の確信度情報を用い、文字の認識段階の複数の情報を評価し、その文字の信頼度に相当する値を算出し運用するものがある。
【0003】
この文字の確信度を利用する他の方法としては、特開平5−182014号公報に開示されているように、低い確信度情報が得られた文字認識結果に対し、ユーザーからの修正を促すような表示をおこなうなどの方法が知られている。
【0004】
また、特開平7−220091号公報に開示された技術は、各文字の情報だけでなく、領域の自動分割、識別を実行処理した後に、文字認識をおこない、その結果を利用して、属性の再判別をするものである。
【0005】
さらに、特開平8−101880号公報に開示された技術は、特定の領域の確信度を文字の確信度から算出し、算出した結果に応じて表示の方法を変えるものである。また、特開平9−282416号公報に開示された技術では、領域だけに限らず、文書全体の確信度を求めることで、その画像の結果全体のリジェクト判定に応用するものである。以上のように、文字認識に確信度を利用した方法は、多数提案されている。
【0006】
【発明が解決しようとする課題】
しかしながら、上述した各従来技術に基づく文書自体の確信度でリジェクト判定する方法は、文書全体の文字認識の精度を極力向上させ、文字以外のものの認識結果を極力出力しないという方向を目指した場合においては、期待した効果を得ることができない。
【0007】
領域単位に確信度を求めてなんらかの処理をする場合、非文字領域と文字領域を融合させた一つの領域として領域分割で切り出したとすると、当然非文字部分の確信度は低くなるため、非文字部分の混在率によって、領域の確信度が上下することになる。
【0008】
領域の確信度が低い場合は、その文字領域を図に変更する処理などを実行すると、得られた文字認識結果が活かされずなくなることも考えられる。一方、文字単位で確信度が低いものを全てリジェクト(排除)すると、品質の悪い画像を認識した場合には、リジェクト結果が多数を占め、見苦しく使用できない文字認識結果が出力されることになる。品質の悪い画像としては、たとえば、ノイズが多い画像の他に、濃度が濃く文字がつぶれている画像や、逆に濃度が薄いかすれた画像がある。
【0009】
ところで、自動で文字領域を判別する方法としては、本出願人による特開平7−037036号公報など、外接矩形を抽出し、そのサイズや内部の情報によって、外接矩形を分類し、文字矩形は文字矩形で統合して領域を生成していく方法などがある。このような、領域分割の方法で文字領域が取得できた後に、文字認識をおこない、文字コードや座標とその確信度を得る方法もある。この確信度を得る方法には、上記説明した特許第2991779号公報などの技術を用いる。しかし、この場合、文字領域の判別の精度に影響を受け上記同様に使用できない文字認識結果が出力されることになる。
【0010】
この発明は、上述した従来技術による問題点を解消するため、文字以外の認識結果の認識出力を防いでより高精度で高信頼性を有する文字認識がおこなえる文字認識方法、および装置を提供することを目的とする。
【0011】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、請求項1に係る文字認識方法は、原稿上の文字領域を判別し、該文字領域内の文字認識を行なう文字認識方法であって、前記原稿上の領域を文字領域、および他の領域に分割する領域分割工程と、前記文字領域内の各行単位に文字データを認識する文字認識工程と、前記文字領域内の各行単位に文字の認識結果の確からしさを示す確信度を算出する確信度算出工程と、各行単位に、算出された前記確信度に基づいて文字認識結果の出力を調整する出力調整工程とを有し、前記出力調整工程は、前記確信度の平均値が、所定の閾値であって、前記文字領域内の文字行が他の属性を有する領域と重なっている場合に大きな値へ変動する閾値より小さいとき、前記文字認識結果を消去する。
【0029】
【発明の実施の形態】
以下に添付図面を参照して、この発明にかかる文字認識方法および文字認識装置の好適な実施の形態を詳細に説明する。
【0030】
図1は、本発明の文字認識装置の全体構成を示すブロック図である。文字認識装置100は、スキャナ101が読み取った画像データを文字認識してディスプレイ102、およびプリンタ等の印字装置103にテキスト等の文字データを出力する。
【0031】
文字認識装置100は、スキャナ101の画像データを格納する画像メモリ104,画像メモリ104の画像データを文字認識処理するCPU105,CPU105の文字認識処理プログラムが格納されたROM106,CPU105の文字認識処理時のデータのワークエリアとして用いられるRAM107,CPU105の文字認識処理時に参照される辞書(辞書データ格納部)108によって構成されている。
【0032】
ROM106の文字認識処理プログラムは、画像データを文字認識処理時の単位に領域分割する領域分割部,OCR(文字認識)部,確信度処理部,の各機能別プログラムによって大略構成されている。
【0033】
図2は、文字認識装置100が実行する文字認識処理の概要手順を示すフローチャートである。CPU105は、スキャナ101から読み込まれ画像メモリ104に格納した原稿等の画像データを、ROM106の文字認識処理プログラムによって文字認識する。
【0034】
はじめに、領域分割部で画像データを文字認識処理する単位に領域分割する(ステップS201)。つぎに、OCR部で領域分割された各領域毎に文字認識する(ステップS202)。つぎに、確信度処理部で文字認識結果に対する「確からしさ」である確信度を得て確信度別に文字認識結果の出力を調整する(ステップS203)。
【0035】
図3は、文字認識装置100が実行する文字認識処理で行確信度処理をおこなう手順を示すフローチャートである。CPU105は、はじめに、領域分割部で画像データを文字認識処理する行単位に領域分割する(ステップS301)。以降、この分割された行単位で以降の処理を実行する(ステップS302)。つぎに、OCR部は、領域分割された各領域のうち、文字領域に対する文字認識処理を実行する(ステップS303)。
【0036】
つぎに、確信度処理部でこの行の文字認識結果に対する「確からしさ」である行確信度を得る(ステップS304)。つぎに、分割された全ての領域に対する文字認識処理が終了したか否か判断する(ステップS305)。未だ終了していなければ(ステップS305:No)、ステップS302に復帰してつぎの領域に対する文字認識処理を実行する。全ての領域に対する文字認識処理が終了すれば(ステップS305:Yes)、各行の文字認識結果と、行確信度の結果が出力される。
【0037】
つぎに、図4は、文字認識装置100が実行する平均確信度を用いた文字/非文字判定の手順を示すフローチャートである。はじめに、領域分割部には、文字認識後の結果が入力され、文字認識結果を行単位に領域分割する(ステップS401)。そして、分割された各行の行データ数をiとして、行データ数iが領域内の全行数に至るまで以下の処理を継続させる(ステップS402)。まず、確信度処理部でこの行の文字認識結果に対する「確からしさ」である行確信度の平均値(行内平均確信度)を算出する(ステップS403)。つぎに、算出された行内平均確信度を比較用の閾値Th1と比較する(ステップS404)。
【0038】
行内平均確信度が閾値Th1を超えていれば(ステップS404:Yes)、この行が文字と判定する(ステップS405)。一方、行内平均確信度が閾値Th1を超えていなければ(ステップS404:No)、この行が非文字と判定する(ステップS406)。この後、ステップS402に復帰して全ての行に対する文字/非文字の判定をおこない、行確信度の判定結果を出力する(ステップS407)。
【0039】
つぎに、図5は、文字認識装置100が実行する平均確信度を用いた文字/非文字判定の手順を示すフローチャートである。はじめに、領域分割部には、文字認識後の結果が入力され、文字認識結果を行単位に領域分割する(ステップS501)。そして、分割された各行の行データ数をiとして、行データ数iが領域内の分割された全行数に至るまで以下の処理を継続させる(ステップS502)。まず、確信度処理部でこの行の文字認識結果に対する「確からしさ」である行確信度の平均値(行内平均確信度)を算出する(ステップS503)。つぎに、算出された行内平均確信度を比較用の閾値Th1と比較する(ステップS504)。
【0040】
行内平均確信度が閾値Th1を超えていれば(ステップS504:Yes)、この行が文字と判定する(ステップS505)。一方、行内平均確信度が閾値Th1を超えていなければ(ステップS504:No)、この行が非文字と判定し(ステップS506)、この行をあらかじめ定めた所定のリジェクト文字に置き換える(ステップS507)。この後、ステップS502に復帰して全ての行に対する文字/非文字の判定、および非文字に対するリジェクト処理をおこない、行確信度の判定結果を出力する(ステップS508)。
【0041】
この非文字としては、特殊文字、たとえば「=」という文字や、OCRで通常使用しない(規定範囲外の)文字コードをリジェクト文字(リジェクトコード)に置き換える。リジェクト文字としては、なんらかの文字を割り当てておけばよく、文字認識後の後工程でリジェクト文字に対する処理が可能となる。なお、リジェクト文字としてスペースを割り当てると、認識前に文字が無かったと誤判断されるため、なんらかのかが表示される文字を用いることが望ましい。
【0042】
上記の確信度処理部は、行確信度を閾値と比較して得た上で、行確信度を、確からしい/あるいは確からしくない、の2つのいずれかに判定し、その結果、確からしくないと判定した場合には、この行は文字領域でないと判定する構成としてもよい。
【0043】
つぎに、図6は、文字認識装置100が実行する文字/非文字判定によって領域種別を変更する手順を示すフローチャートである。はじめに、領域分割部には、各領域毎の文字認識結果が入力される。領域数Inは、0を初期値として原稿全体の領域数nまで増加する。つぎに、入力されたある領域の文字認識結果を行単位に領域分割する(ステップS601)。そして、分割された各行の行データ数をiとして、行データ数iが領域内の分割された全行数に至るまで以下の処理を継続させる(ステップS602)。まず、確信度処理部でこの行の文字認識結果に対する「確からしさ」である行確信度の平均値(行内平均確信度)を算出する(ステップS603)。つぎに、算出された行内平均確信度を比較用の閾値Th1と比較する(ステップS604)。
【0044】
行内平均確信度が閾値Th1を超えていれば(ステップS604:Yes)、この行が文字と判定する(ステップS605)。一方、行内平均確信度が閾値Th1を超えていなければ(ステップS604:No)、この行が非文字と判定し(ステップS606)、この行が非文字行であるとして非文字行数をインクリメント(In++)する(ステップS607)。この後、ステップS602に復帰して全ての行に対する文字/非文字の判定、および非文字行数のカウントをおこない、1領域中の行確信度の判定結果を出力する。
【0045】
この際、この結果出力時、得られた行確信度に基づき、1領域中の非文字行数が制限値nに達したか否かを判定する(ステップS608)。非文字行数が制限値nに達していない場合には(ステップS608:No)、この領域が文字領域であると判断し、行確信度の結果を出力する。一方、非文字行数が制限値nに達した場合には(ステップS608:Yes)、この処理中の領域が文字領域ではないと判断し、この領域の属性種別を他に変更する(ステップS609)。
【0046】
図7は、原稿700上における各領域の属性を示す図である。図示のように、領域分割時に領域の属性は、文字領域701,図領域702,表領域703,囲み枠領域704等として分類し属性が附される。文字領域701は、原稿700上レイアウトに従い、文字認識する領域順1〜4(701a〜701e)が附される。
【0047】
上記ステップS609での領域属性の変更時には、たとえば文字領域701eがこれにあたる場合、この領域701eの属性種別を変更する。たとえば、図6記載の処理を再度実行する。また、この領域701e自体を削除する。この他、この領域701eを図領域に変更する設定としてもよい。
【0048】
つぎに、図8は、文字認識装置100が実行する文字/非文字判定によって文字領域のサイズを変更する手順を示すフローチャートである。はじめに、領域分割部には、各領域毎の文字認識結果が入力される。領域数Inは、0を初期値として原稿全体の領域数nまで増加する。つぎに、入力されたある領域の文字認識結果を行単位に領域分割する(ステップS801)。そして、分割された各行の行データ数をiとして、行データ数iが領域内の分割された全行数に至るまで以下の処理を継続させる(ステップS802)。まず、確信度処理部でこの行の文字認識結果に対する「確からしさ」である行確信度の平均値(行内平均確信度)を算出する(ステップS803)。つぎに、算出された行内平均確信度を比較用の閾値Th1と比較する(ステップS804)。
【0049】
行内平均確信度が閾値Th1を超えていれば(ステップS804:Yes)、この行が文字と判定する(ステップS805)。一方、行内平均確信度が閾値Th1を超えていなければ(ステップS804:No)、この行が非文字と判定し(ステップS806)、この行が非文字行であるとして非文字行数をインクリメント(In++)する(ステップS807)。この後、ステップS802に復帰して全ての行に対する文字/非文字の判定、および非文字行数のカウントをおこない、1領域中の行確信度の判定結果を出力する。
【0050】
この際、この結果出力時、得られた行確信度に基づき、1領域中の非文字行数が制限値nに達したか否かを判定する(ステップS808)。非文字行数が制限値nに達していない場合には(ステップS808:No)、この領域が文字領域であると判断し、行確信度の結果を出力する。一方、非文字行数が制限値nに達した場合には(ステップS808:Yes)、この処理中の領域が文字領域ではないと判断し、この領域のサイズを変更する(ステップS809)。
【0051】
図9は文字領域のサイズ変更例を示す図である。図9(a)に示すように、この文字領域701において連続して高確信度行901a〜901nが判断され、最下行に低確信度行901xが判断されたとする。この場合、図9(b)に示すように、低確信度行901xを除く、高確信度行901a〜901nのみで文字領域701を形成するよう領域サイズを変更する。
【0052】
図10は、文字領域サイズの他の変更例を示す図である。図10(a)に示すように、この文字領域701において連続する高確信度行901a〜901d,901e〜901gの間に、低確信度行901xが判断されたとする。図示の例では、低確信度行901xは複数行である。
【0053】
この場合、図9(b)に示すように、低確信度行901xを除く、一方のまとまりの高確信度行901a〜901dで分割された一方の文字領域701Aを形成する。また、他方のまとまりの高確信度行901e〜901gで分割された他方の文字領域701Bを形成する。
【0054】
このように、文字領域701内における低確信度行901xの位置に応じて領域サイズの変更時に文字領域701自体を分割することもできる。この際、低確信度行901xの各行の領域属性を文字領域から図領域に変更することもできる。
【0055】
つぎに、図11は、本発明の低確信度処理の処理内容を示すフローチャートである。この低確信度処理では、認識した文字結果の確信度を参照して、行や領域単位の平均確信度が低い場合に文字認識結果を消去する処理を実行する。この際、処理条件を細かく分けることでなるべく正解文字を残し、文字らしくない認識結果を削除する構成である。
【0056】
以下に説明する全ての低確信度処理は、行単位でおこなう。この低確信度処理で文字かそれ以外を判断する特徴として以下の6つを組み合わせて用いる。
【0057】
1)行内平均確信度
2)高確信度文字数
3)高確信度文字数の比率
4)英数文字数
5)ユーザー設定閾値
6)図、表等との重なりなど
【0058】
実際の文字認識結果では、1行の文字数が何文字であるかはデータを1行分(改行コードの位置まで)解析しないとわからない。そのため、改行位置をみつけるのと同時に特徴抽出をおこなうことで、行の領域座標値がわかる時点では上記の特徴は全て収拾済みと考えて良い。図11に示すフローチャート上で、文字認識行が表領域と重なりがあるために除外する処理の前に特徴計算が入るのはそのためである。
【0059】
はじめに、領域分割部には、各領域毎の文字認識結果が入力される。つぎに、入力されたある領域の文字認識結果を行単位に領域分割する(ステップS1101)。そして、分割された各行の行データ数をiとして、行データ数iが領域内の分割された全行数に至るまで以下の処理を継続させる(ステップS1102)。まず、確信度処理部でこの行の文字認識結果に対する「確からしさ」である行確信度の平均値(行内平均確信度)を算出する(ステップS1103)。この際、高確信度文字数、たとえば、確信度80以上の文字数を計数する。
【0060】
つぎに、この行が表に包含されている(表内部の文字列)かどうかを判断する(ステップS1104)。包含されている行の場合は(ステップS1104:Yes)、低確信度処理はおこなわない(ステップS1102に復帰)。理由は、表の内部は数字列などが入る可能性が高く、そのような文字列は確信度が比較的小さめに出る傾向があるため、確信度の低いような数値データを削除しないためである。
【0061】
ステップS1104で包含されていない行の場合には(ステップS1104:No)、つぎに、画像全体に対してある程度小さな図に、その行が重なっているかどうかを判断する(ステップS1105)。重なっている場合には(ステップS1105:Yes)、重なりフラグをONにする(ステップS1106)。重なっていない場合には(ステップS1105:No)、重なりフラグをOFFにする(ステップS1107)。
【0062】
この「小さい図」という判定には閾値処理を使う。結果領域の存在する範囲を求め、縦横どちらか小さいほうの長さの1/2の値を閾値とし、図の縦横双方とも閾値以下である場合、小さい図として低確信度処理に用いる。そして、この図との重なりフラグによって、文字を削除するかどうかの条件を変えている。
【0063】
この処理では、低確信度処理の閾値を50に設定した場合(Th1=50)の状態がもっとも効果がある場合の例である。そして、重なりフラグがOFF(ステップS1107)とされた後には、平均確信度が60を越えたか判断し(ステップS1108)、越えていれば(ステップS1108:Yes)、ステップS1102に復帰する。越えていなければ(ステップS1108:No)、ステップS1100に移行する。
【0064】
重なりフラグがON(ステップS1106)とされた後には、平均確信度が70を越えたか判断し(ステップS1109)、越えていれば(ステップS1109:Yes)、ステップS1102に復帰する。越えていなければ(ステップS1109:No)、ステップS1110に移行する。
【0065】
ステップS1110では、行内文字数に対する高確信度文字数の割合を判断する。判断は、(高確信度文字数/行内文字数>40%)の算出式を用いる。割合が40%を越えていれば(ステップS1110:Yes)、ステップS1102に復帰する。越えていなければ(ステップS1110:No)、高確信度文字数が存在し、かつ、この文字の平均確信度が閾値Th1(50)以上であるか判断する(ステップS1111)。いずれも満たしていれば(ステップS1111:Yes)、ステップS1102に復帰する。いずれか一方でも満たさなければ(ステップS1111:No)、ステップS1112に移行する。
【0066】
つぎに、行内に英数文字が所定数(たとえば4つ)以上あり、かつこの文字の平均確信度が閾値Th1以上であるか判断する(ステップS1112)。いずれも満たしていれば(ステップS1112:Yes)、ステップS1102に復帰する。いずれか一方でも満たさなければ(ステップS1112:No)、つぎに、この行について図との重なりフラグの状態を判断する(ステップS1113)。
【0067】
この行が図と重なる(図との重なりフラグがON)場合には(ステップS1113:Yes)、ステップS1115に移行する。一方、この行が図と重ならない(図との重なりフラグがOFF)場合には(ステップS1113:No)、行内の高確信度文字が所定割合(たとえば10%)を越え、かつ、この文字の平均確信度が閾値を越えたか判断する(ステップS1114)。越えていれば(ステップS1114:Yes)、ステップS1102に復帰する。いずれか一方でも満たさなければ(ステップS1114:No)、ステップS1115に移行する。ステップS1115では、行内の文字データ第1候補をスペースに置換し、ステップS1102に復帰する。
【0068】
上記の確信度を得るための情報には言語処理を用いることが多い。先に領域識別で、文字領域となった領域に対して、文字行を切り出す。たとえば、射影などをとり黒画素の少ない部分で、行を切り出した後、文字を射影や、黒画素の外接矩形を利用して取り出す。この際、日本語では、1文字が1つの矩形になるとは限らないので、1つの文字について何種類かの切り出し方をしておいて、もっともよい結果を最終結果にするように文字を切り出す。
【0069】
この後、後処理が実行される。切り出した文字列を形態素解析等の手法で単語単位に切り出し、この単語を言語辞書にある単語とマッチング処理する。そして、文法的に整合するような認識結果が得られた場合に高い確信度が得られる。このような、文章として確からしさが得られているような認識結果である場合、高い確信度を持った文字結果が多くなる。こうした場合、上記のステップS1110の処理のように、平均確信度よりも確実に認識できた文字の文字数は非常に有効となる。
【0070】
後処理において、たとえば、「出入り口」という単語があって、単語辞書にもあったとする。しかし、認識されたのは「出人りロ」(でひとりろ)だったとする。「人」と「ロ」の認識の第二候補はそれぞれ「入」と「口」がある。このため、第二候補と第一候補を入れかえると単語辞書にもマッチングする言葉ができるので、これが正解であると判断する。このような、後処理は、上記の確信度に影響を有し、単語辞書とマッチングした認識結果は確信度も高くなる。
【0071】
上記の低確信度処理では、行単位にスペースへの変換がおこなわれる。このため、仮にある領域の行が全てスペースに変換されたとすると、その領域を文字領域として多数のスペースを認識結果として出力することには無駄がある。そこで、領域中の行が全てスペースに置き換えられた場合には、文字領域サイズの変更処理(図8のステップS809の処理)を実行し、領域自体を結果から削除する(図9、図10参照)。また、削除に限らず、この領域を図その他などに属性変更する処理も可能である。
【0072】
また、上記処理では、行内文字を削除する際は、第一候補としてスペースコードを挿入し、第2候補以下には以前の候補文字を候補順位を下げる形で格納しておく。第一候補そのものをスペースに置き換える処理ではないため、認識処理用に生成され、別途格納される中間データを後ほど参照することによって、この後の処理で候補の再度の置き換えが可能である。
【0073】
また、上記処理によれば、結果的に文字行が図との重なりがある場合は(ステップS1105:Yes)、以下に実行される各処理(ステップS1109,ステップS1114)で用いた対比用の値(平均確信度)が高いため、多めに文字が削除される設定となっている。
【0074】
また、上記の処理では、低確信度処理の閾値(Th1)を50に設定したものであるが、この閾値を50以上としたい場合には、Th1に所望する値の閾値を設定して同様に処理が可能である。一方、ユーザー設定閾値が50より低い場合は、確信度が低い文字も出力したい要望であるため、この場合には、上記フローチャートの各処理とは異なり、行内の平均確信度をユーザー設定閾値と対比し、高い、あるいは低いかを判断する処理を実行する。
【0075】
また、ステップS1110の処理では、行全体の文字数の中に占める高確信度の文字の割合を判断している。これによって、たとえば、1行が5文字でこの中に3文字が高確信度の場合と、1行が40文字でこの中に3文字が高確信度であった場合の信頼度の変動が防止できる。
【0076】
また、行内の文字の確信度の平均とユーザー設定の閾値(Th1)を比較する処理(ステップS1111,ステップS1114)によって、パラメーターをできるだけ少なくした簡素な処理手順にでき、ユーザーの意向を反映しやすくなる。
【0077】
また、行内の文字数のうち、英数文字の行内に含まれる割合を比較する処理(ステップS1112)によって、英数文字による確信度への影響を低減させている。具体的に説明すると、英数文字では、たとえば、bと6、qと9、oと0、sとSなど、類似している文字が比較的多く、数字に関してはほとんど言語処理が効かない構成上の理由に基づき、確信度は仮名漢字に比べて低めに出る傾向がある。そのため、英数字が行内に多く存在している場合は、平均確信度の判定基準をレベルダウンさせる処理が有効であり、これを用いている。
【0078】
また、行内の確信度を算出する際に、文字の確信度ではなく、文字行の座標値と別属性の領域との位置重なりを使用する。特に、表領域との重なりを判定(ステップS1104)を用いている。表領域の内部にある文字行に対しては、以降の低確信度処理全てを実行しないことが有効である。表領域に対する文字認識の結果に、英数字が多く含まれていた場合には、数表を認識させた結果の可能性が高いため、以降の処理で確信度が低く文字を削除する処理を除外することが望ましい。
【0079】
同様に、図や写真との重なりを判定(ステップS1105)することによって、図と重なっている文字領域中の1行全体の確信度平均が低いような場合は、図の一部を文字認識したことによるものと判断しやすくなる。ここで、全ての図領域を使うに限らず、たとえば、矩形で表示させたときに画像全面となるような図に対してのみ判定の対象から外す構成としてもよい。
【0080】
以上説明した低確信度処理で文字かそれ以外を判断する特徴
1)行内平均確信度
2)高確信度文字数
3)高確信度文字数の比率
4)英数文字数
5)ユーザー設定閾値
6)図、表等との重なり
は、これら特徴の少なくとも1つ以上の情報を組み合わせて用い、行の確信度を求めることができる。
【0081】
また、確信度情報を含む特徴と、文字行が含まれている(重なりのある)領域情報の特徴を使用する場合に、文字行が包含されている領域の種類によって、文字行の確信度情報を比較する閾値を変更させる構成とすることもできる。
【0082】
なお、本実施の形態で説明した文字認識方法は、あらかじめ用意されたプログラムをパーソナル・コンピューターやワークステーション等のコンピュータで実行することによって実現することができる。このプログラムは、ハードディスク、フロッピー(R)ディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、上記記録媒体を介して、インターネット等のネットワークを介して配布することができる。
【0083】
【発明の効果】
以上説明したように、本発明によれば、より正確な文字認識結果を得ることが可能となる。
【図面の簡単な説明】
【図1】この発明の本実施の形態にかかる文字認識装置の構成を示すブロック図である。
【図2】この発明の本実施の形態にかかる文字認識装置の文字認識処理の概要手順を示すフローチャートである。
【図3】この発明の本実施の形態にかかる文字認識装置の文字認識処理で行確信度処理をおこなう手順を示すフローチャートである。
【図4】この発明の本実施の形態にかかる文字認識装置の平均確信度を用いた文字/非文字判定の手順を示すフローチャートである。
【図5】この発明の本実施の形態にかかる文字認識装置の平均確信度を用いた文字/非文字判定の手順を示すフローチャートである。
【図6】この発明の本実施の形態にかかる文字認識装置の文字/非文字判定によって領域種別を変更する手順を示すフローチャートである。
【図7】この発明の本実施の形態にかかる文字認識装置の原稿上における各領域の属性を示す図である。
【図8】この発明の本実施の形態にかかる文字認識装置の文字/非文字判定によって文字領域のサイズを変更する手順を示すフローチャートである。
【図9】この発明の本実施の形態にかかる文字認識装置の文字領域のサイズ変更例を示す図である。
【図10】この発明の本実施の形態にかかる文字認識装置の文字領域のサイズの他の変更例を示す図である。
【図11】この発明の本実施の形態にかかる文字認識装置の低確信度処理の処理内容を示すフローチャートである。
【符号の説明】
100 文字認識装置
101 スキャナ
102 ディスプレイ
103 印字装置
104 画像メモリ
105 CPU
106 ROM
107 RAM
108 辞書
700 原稿
701(701a〜701e,701A,701B) 文字領域
702 図領域
703 表領域
704 囲み枠領域
901a〜901n 高確信度行
901x 低確信度行

Claims (4)

  1. 原稿上の文字領域を判別し、該文字領域内の文字認識を行なう文字認識方法であって、
    前記原稿上の領域を文字領域、および他の領域に分割する領域分割工程と、
    前記文字領域内の各行単位に文字データを認識する文字認識工程と、
    前記文字領域内の各行単位に文字の認識結果の確からしさを示す確信度を算出する確信
    度算出工程と、
    各行単位に、算出された前記確信度に基づいて文字認識結果の出力を調整する出力調整工程とを有し、
    前記出力調整工程は、前記確信度の平均値が、所定の閾値であって、前記文字領域内の文字行が他の属性を有する領域と重なっている場合に大きな値へ変動する閾値より小さいとき、前記文字認識結果を消去することを特徴とする文字認識方法。
  2. 前記調整は、行内の文字認識の結果を予め定めた所定の記号に置き換えて出力することを特徴とする請求項1に記載の文字認識方法。
  3. 原稿上の文字領域を判別し、該文字領域内の文字認識を行なう文字認識装置であって、
    前記原稿上の領域を文字領域、および他の領域に分割する領域分割手段と、
    前記文字領域内の各行単位に文字データを認識する文字認識手段と、
    前記文字領域内の各行単位に文字の認識結果の確からしさを示す確信度を算出する確信
    度算出手段と、
    各行単位に、算出された前記確信度に基づいて文字認識結果の出力を調整する出力調整手段とを備え、
    前記出力調整手段は、前記確信度の平均値が、所定の閾値であって、前記文字領域内の文字行が他の属性を有する領域と重なっている場合に大きな値へ変動する閾値より小さいとき、前記文字認識結果を消去することを特徴とする文字認識装置。
  4. 前記調整は、行内の文字認識の結果を予め定めた所定の記号に置き換えて出力することを特徴とする請求項3に記載の文字認識装置。
JP2002000189A 2002-01-04 2002-01-04 文字認識方法および文字認識装置 Expired - Fee Related JP4056745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002000189A JP4056745B2 (ja) 2002-01-04 2002-01-04 文字認識方法および文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002000189A JP4056745B2 (ja) 2002-01-04 2002-01-04 文字認識方法および文字認識装置

Publications (2)

Publication Number Publication Date
JP2003203204A JP2003203204A (ja) 2003-07-18
JP4056745B2 true JP4056745B2 (ja) 2008-03-05

Family

ID=27640655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002000189A Expired - Fee Related JP4056745B2 (ja) 2002-01-04 2002-01-04 文字認識方法および文字認識装置

Country Status (1)

Country Link
JP (1) JP4056745B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5492666B2 (ja) * 2010-06-08 2014-05-14 日本電信電話株式会社 判定装置及び方法及びプログラム
JP5853495B2 (ja) * 2011-08-26 2016-02-09 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
CN110458184B (zh) * 2019-06-26 2023-06-30 平安科技(深圳)有限公司 光学字符识别辅助方法、装置、计算机设备及存储介质
JP7357030B2 (ja) * 2021-08-25 2023-10-05 ソフトバンク株式会社 通信端末、プログラム、及び表示方法

Also Published As

Publication number Publication date
JP2003203204A (ja) 2003-07-18

Similar Documents

Publication Publication Date Title
JP3359095B2 (ja) 画像処理方法及び装置
US8861862B2 (en) Character recognition apparatus, character recognition method and program
US8041113B2 (en) Image processing device, image processing method, and computer program product
JP3452774B2 (ja) 文字認識方法
JP4655335B2 (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
CN113378839A (zh) 信息处理装置、信息处理方法及计算机可读介质
US9049400B2 (en) Image processing apparatus, and image processing method and program
JP4056745B2 (ja) 文字認識方法および文字認識装置
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
US20010043742A1 (en) Communication document detector
JP2005063419A (ja) 言語識別装置、プログラム及び記録媒体
JPH06103411A (ja) 文書読取装置
JP3835652B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JP2918666B2 (ja) 文字画像切出し方法
JP2004246546A (ja) 画像処理方法、該方法の実行に用いるプログラム及び画像処理装置
JP2006277149A (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP2832928B2 (ja) 文字認識方法
JP3135290B2 (ja) 画像処理方法及び装置
JP7292984B2 (ja) 行分割装置および方法、ならびにプログラム
JP3384634B2 (ja) 文字種識別方法
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JP3406942B2 (ja) 画像処理装置及び方法
JPH05174185A (ja) 日本語文字認識装置
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
JP2003259129A (ja) 画像処理方法、画像処理装置、画像処理プログラムおよび画像処理プログラムが格納されたコンピュータ読み取り可能な記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071212

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101221

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101221

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111221

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111221

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121221

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131221

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees