JP4878057B2 - 文字認識方法,プログラム及び記録媒体 - Google Patents

文字認識方法,プログラム及び記録媒体 Download PDF

Info

Publication number
JP4878057B2
JP4878057B2 JP2009185400A JP2009185400A JP4878057B2 JP 4878057 B2 JP4878057 B2 JP 4878057B2 JP 2009185400 A JP2009185400 A JP 2009185400A JP 2009185400 A JP2009185400 A JP 2009185400A JP 4878057 B2 JP4878057 B2 JP 4878057B2
Authority
JP
Japan
Prior art keywords
character
recognition
line segment
image
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009185400A
Other languages
English (en)
Other versions
JP2009259291A (ja
Inventor
潤二 柏岡
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009185400A priority Critical patent/JP4878057B2/ja
Publication of JP2009259291A publication Critical patent/JP2009259291A/ja
Application granted granted Critical
Publication of JP4878057B2 publication Critical patent/JP4878057B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本発明は文字認識方法,プログラム及び記録媒体に関する。
近年,文字が手書きまたは印刷された用紙をコンピュータに入力するために文字認識の技術が広く利用されているが,帳票等の用紙に文字を記入する位置を示すため,予め紙面上に印刷等により案内のための文字や,罫線等(以下,プレプリント情報という)を描いておいて,それらの近傍に文字を記入する場合が多い。
このような場合,プレプリント情報の存在により,記入した文字を正確に認識することが困難になるため,その改善が望まれている。
図28はプレプリント情報上に書かれた文字の例を示す。この例では,金額として千(万),百(万),十(万),万,千,百,十,円の各単位を表す文字と,各単位に対応して文字(数字)を記入する枠を表す罫線が予め印刷されており,このような用紙に対し利用者が図に示すように手書きの文字(数字)を記入することができる。
このようなプレプリント情報を含む紙面に記入された文字を認識するための従来の方法を説明すると,プレプリント情報に関する既知の情報を用いて,プレプリントを含む読取り情報からプレプリント情報を削除することにより,記入された文字情報だけ残し,その文字情報について認識を行う方法が用いられている。その場合,プレプリント文字や罫線が存在する領域の位置情報,プレプリント文字の種類等の既知の情報を用いて,当該プレプリント文字や罫線を削除することができた。また,濃淡画像として文書を取り込める環境では,プレプリント情報と,認識すべき文字に濃淡の差がある場合には,その濃淡差を用いて,認識すべき文字のみを抽出する処理を行って文字認識を行うという方法もある。
上記した従来の方法のうち,プレプリント情報を削除する方法は,プレプリント情報に関する知識が無い場合には文字認識を正確に行うことが不可能であるという問題があった。また,プレプリント情報を別の方法で抽出できたとしても,その中には抽出誤りを生じる場合があり,罫線やプレプリント情報が認識したい文字に重なって残ると文字認識結果を誤ってしまう場合があった。
更に,システムの制約により文書を濃淡画像で取得できない場合や,元々プレプリント情報と認識する文字との間に濃淡差がないか,少ない場合には濃淡情報から認識すべき文字を抽出することは不可能であるという問題があった。
本発明はこれらの問題を解決し,プレプリント情報の知識や,濃淡差を使用することなくプレプリント情報に接触,重畳した文字を認識することができる文字認識方法,プログラム及び記録媒体を提供することを第1の目的とする。
上記第1の目的を実現する新たな文字認識方法を本発明により提案したが,その方法によると次の図29に示すような誤認識が発生する場合がある。
すなわち,図29は誤認識の事例を示し,上記図28に示すプレプリント情報上に書かれた文字に対して,上記の第1の目的を達成する文字認識方法によれば,図29の(a) 〜(c) のそれぞれの左側に示す入力画像に対して, それぞれ右側に示すように画像が認識結果として採用される。詳細には,図29の(a) のように,縦方向の線分を有する「7」がプレプリントされた文字等に重畳されて書かれた場合に,「7」の縦直線成分により認識結果が「1」と誤認識されることがある。また,図29の(b) のように「8」がプレプリントされた文字に重畳されて書かれた場合に,「8」が形成される2個のループのうち1つのループについて「0」と誤認識してしまう等の本来の文字認識結果に対して,その文字の部分パターンと近似する他の文字に誤認識される場合があった。また,図29の(c) のように「0」がプレプリントされた文字等に重畳して書かれた場合,「0」に交わる線により「6」(または「8」)に誤認識される場合があった。
本発明は上記の第1の目的を実現する認識方法により発生することがある誤認識を防止して正しい認識結果を得ることを第2の目的とする。
図1は本発明の第1の原理構成である。図中,10は画像取得部,11は認識領域指定部,12は認識領域内線分分割部,120は細線化手段,121は端点・交点抽出手段,122は線分分割手段,123は線幅拡張手段,13は線分組合せ文字認識部,2はメモリ,2aは原画像,2bは指定領域画像,2cは分割線分画像である。
最初に画像取得部10でプレプリント情報(罫線を含む)が描かれた面上に文字が記入された領域を読取ってメモリ2内に原画像2aを格納する。次に認識領域指定部11により紙面上の領域の中から一つの文字記入領域を指定する。この指定は予め領域を指定しても,レイアウト解析等による結果を参照することによっても可能である。この指定により特定の認識対象の文字を含む領域がその文字に接触または重畳するプレプリント情報と共に切出されて,メモリ2内に指定領域画像2bが得られる。次いで認識領域内線分分割部12において,120〜123の手段により線分の分割を行う。すなわち,指定領域内の各線分を細線化手段120で画像を構成する線を細線化した上で,端点・交点抽出手段121で端点または交点を抽出し,更に抽出した端点,交点を利用して線分分割手段122により連続した細線に対して端点から端点,端点から交点,または交点から交点までの個別の線分に分割(または分解)する。更に,線幅拡張手段123により分割した各線分の線幅を原画像2aと同程度に拡張し,その結果はメモリ2内に分割線分画像2cとして得られる。次に線分組合せ文字認識部13において,分割線分画像2cの各線分を組合せて文字認識を行う。この時,分割(分解)した線分の組合せや,線分の処理には次の「まる1」〜「まる6」のように種々の方法がある。
「まる1」プレプリント情報に接触,重畳して記入された文字を認識する方法として,当該文字を含む領域の成分を線分に分解して,分解した線分の組合せを変更しながら文字認識を行い,当該組合せの中で最大の信頼度を発生する文字認識結果を採用することにより,罫線,文字等のプレプリント情報に接触,重畳して記入された文字を認識する。
「まる2」上記「まる1」において,組合せた線分全てが連結する場合にのみ文字認識を行う。
「まる3」上記「まる1」において,線幅の細い線分を予め除去してから,文字認識を行う。
「まる4」上記「まる1」において,認識すべき文字が記入される記入領域が既知の場合や,レイアウト解析の結果から抽出できる場合,その記入領域に含まれる線分は必ず線分の組合せに含むように線分を組合せて文字認識を行う。
「まる5」上記「まる1」において,線分の両端のうち一方が端点であり,且つその線分が短い場合に,当該線分を前記の組合せる線分の候補から除外し,文字認識を行う。
「まる6」上記「まる1」において,線分の組合せにより作成される図形のサイズが一定範囲内部導体の時だけ,文字認識を行う。
図2は上記第2の目的を実現するための本発明の第2の原理構成を示す。図中,10〜13,2,認識領域内線分分割部12の120〜123とメモリ2内の2a〜2cの各符号は上記図1の同一符号の各部と同じであり,説明を省略する。14はこの第2の原理構成の特徴である認識結果交換部であり,メモリ2内の2dは候補文字対応信頼度,2eは文字認識結果交換の参照テーブルである。
上記図1と同様に認識領域指定部11で領域を指定し,認識領域内線分分割部12で領域内の線分を各手段120〜123を用いて分割し,線分組合せ文字認識部13において分割した線分の組合せを変更しながら各認識候補の文字パターンについて照合することでそれぞれの信頼度(類似度)を求め,各認識候補文字とそれぞれの信頼度(類似度)2dがメモリ2に格納され,最も高い信頼度が得られた認識結果が出力される。
一方,メモリ2の文字認識結果交換の参照テーブル2eには,文字認識結果が他の文字パターンに対する誤認識の可能性が高いものとして予め登録した文字(これを以下,被交換対象文字という)が格納されている。
認識結果交換部14は線分組合せ文字認識部13から認識結果を受け取ると,次の「まる1」乃至「まる4」に示す何れかにより認識結果の交換を行う。
「まる1」 認識結果交換部14は,認識結果として受け取った文字がメモリ2の参照テーブル2eの被交換対象文字に該当するか判別し,該当する場合は,前記メモリの参照テーブル2eを参照して他の認識候補(交換対象文字)が得られていると,被交換対象文字をその交換対象文字に交換する。これにより,誤認識を回避でき,文字認識精度を高めることができる。
「まる2」 認識結果交換部14における文字認識結果の交換は,交換対象文字(他の認識候補文字)に対する文字認識の信頼度が候補文字対応信頼度2dを参照して,その値が一定値以上の場合にのみ行うようにする。これにより,登録されている被交換対象文字に該当する場合に,全てが交換されてしまうことがなくなり,信頼性の高い認識結果の交換が可能となる。
「まる3」 認識結果交換部14における文字認識結果の交換は,交換対象文字に対する認識候補を構成する線分に,被交換対象文字の認識結果を交換する線分が含まれる場合にのみ行う。これにより,ある文字についての部分パターンにより誤った文字認識結果が得られる場合に,これを正しい文字に置き替えることができ,その信頼性を高めることができる。
「まる4」 認識結果交換部14における文字認識結果の交換は,交換対象文字に対する文字認識結果の信頼度が一定値以上であり,また当該交換対象文字の認識候補を構成する線分に被交換対象文字の認識結果を構成する線分が含まれる場合にのみ行う。すなわち,上記の「まる2」と「まる3」を組み合わせることにより,文字認識結果の交換の精度を更に高めることができる。
本発明の第1の原理構成及び第2の原理構成は図1及び図2に示す機能の内,特に認識領域指定部11,認識領域内線分分割部12,線分組合せ文字認識部13,認識結果交換部14等の各機能はコンピュータにより読み取り可能な記録媒体に記録されたプログラムにより実現することができる。
本発明によれば,プレプリント文字や罫線等に接触,重畳して書かれた文字をプレプリント文字や罫線に関する知識がなくても認識することが可能になる。
また,提案した種々の線分の組合せの方法により線分組合せの数を低減することにより計算時間を大幅に削減することができる。
更に,認識結果の文字に対して誤認識を起こす可能性のある文字として予め登録されている場合に,その信頼度や形状等について妥当性を検証しながら交換対象となる他の文字との認識結果の交換を,精度よく行うことができ,結果としてプレプリント文字等に重畳等して書かれた文字の認識精度を高めることができる。
本発明の第1の原理構成を示す図である。 本発明の第2の原理構成を示す図である。 本発明が実施される情報処理装置の構成を示す図である。 読取った結果の例を示す図である。 線分分割のフローチャートを示す図である。 線分画像作成の具体例を示す図である。 端点・交点の画素の例を示す図である。 交点での細線化画像分割の処理フローを示す図である。 細線線分拡張の処理フローを示す図である。 第1の線分組合せ文字認識の処理フローを示す図である。 第2の線分組合せ文字認識の処理フローを示す図である。 線分連結性チェックの処理フロー(その1)を示す図である。 線分連結性チェックの処理フロー(その2)を示す図である。 連結線分の番号を記録する線分のデータ構造を示す図である。 線分画像の連結性による認識回数削減の例を示す図である。 線幅の細い部分の画像削除の説明図である。 細い線幅のプレプリント情報を除去した具体例を示す図である。 文字記入領域が予め分かっている例を示す図である。 線分両端のタイプと線分長を備える線分のデータ構造を示す図である。 第5の線分組合せ文字認識の方法の具体例を示す図である。 線分を組合せた図形のサイズを考慮した文字認識の処理フローを示す図である。 認識結果交換の実施例1のフローチャートである。 実施例1の文字認識結果交換の参照テーブルを示す図である。 認識結果交換の実施例2のフローチャートである。 実施例2の文字認識結果交換の参照テーブルを示す図である。 認識結果交換の実施例3のフローチャートである。 認識結果交換の実施例4のフローチャートである。 プレプリント情報上に書かれた文字の例を示す図である。 誤認識の事例を示す図である。
図3は本発明が実施される情報処理装置(コンピュータ)の構成を示し,図中,20はCPU,21はデータやプログラムを格納するメモリ,22はハードディスク,23はキーボード,24はディスプレイ,25は紙の上に印刷または記入された文字やパターンを読み取るスキャナ,26はCDROM装置,27はフレキシブルディスク装置,28は通信装置を表す。
最初に図1,図2に示す画像取得部10の機能として,スキャナ25で認識の対象となる帳票等の用紙を読み取って,メモリ21に格納する。こうして,読取った結果の例を図4に示すが,この例は上記図28に示した内容と同じである。次に上記図1,図2の認識領域指定部11に対応する機能として,予め文字が記入される可能性のある領域がレイアウト情報として予め与えられるか,またレイアウト解析の結果により文字が記入される領域が取得され,その矩形座標が線分に分割する領域として上記図1,図2の認識領域内線分分割部12に渡される。図4の例の場合,文字記入領域の左側から5番目の領域が指定される。
本発明は以下に説明する処理機能を備えるメモリ21上のプログラムにより実現され,プログラムはCDROM装置26,フレキシブルディスク装置27へのCDROMやフレキシブルディスク等に記録されたり,通信装置28を介して遠隔の端末等の装置からメモリにロードすることができる。
上記図1,図2の認識領域内線分分割部12に対応する機能により,矩形の座標情報に基づき,その領域内の成分(プレプリント情報を含む)を線分に分割する処理が行われ,その詳細を図5を用いて説明する。
図5は線分分割のフローチャートである。この線分分割を上記図4に示す指定領域の例について,図6に示す線分画像作成の具体例及び図7に示す端点・交点の画素の例を参照しながら説明する。なお,線分分割部の端点・交点間分割の詳細を示す処理フローを図8に示し合わせて説明する。
最初に領域内細線化を行う(図5のS1)。図6の例では,領域内の原画はA.に示され,帳票のプレプリントの「千」の文字と記入枠を表す線に対し手書きの文字「5」が記入されている。この領域の画像を細線化処理することで,B.に示すような細線化画像が得られる。次にこの細線化画像から,端点・交点を抽出し(図5のS2),端点または交点での細線化画像の分割を行う(同S3)。端点・交点の画素の例を図7に示す。図7の(a) は端点の例であり,この例は注目画素が黒画素である場合に,注目画素を中心とした周囲8画素に1点しか黒画素がない場合であり,図7の(b) は交点の例であり,これも注目画素が黒画素である場合に,注目画素を中心とした周囲8画素に3点以上に黒画素がある場合をいう。
次に図5のフローでは,ステップS3で交点での細線化画像の分割が行われる。これに対応する図6の例では,この分割の処理により,C.に示すように(1) 〜(11)という11個の細線線分に分割される。
ここで,交点での細線化画像分割の処理フローを図8により説明する。最初に全ての端点・交点をチェックしたか判別し(図8のS1),全ての端点・交点のチェックが終了していないと交点または端点を一つ取り出し(同S2),注目画素の周囲8画素(上記図7に示す9画素の中の中心画素を除く8画素)に未探索画素があるか判別する(同S3)。未探索画素があると,一つの未探索画素を探索(検出)し(同S4),探索された画素をメモリ(図示省略)に記録し(同S5),探索画素が交点又は端点か判別する(同S6)。この判別は,注目画素の周囲の画素(黒)が端点のパターン(図7の(a) はパターンの一例)か,交点のパターン(図7の(b) はパターンの一例)の何れに該当するかを識別することにより行われる。端点または交点であることが判別されると,この点を含む線分を登録し(図8のS7),S3に戻り,周囲8画素に未探索画素があるとS4に移行し,未探索画素がないとS1に戻り,更に端点・交点のチェックを行う。
図5のフローでは,次のステップS4において細線線分拡張が行われる。これに対応する図6の例では,この細線線分拡張の処理により,D.の(1) 〜(11)に示すように各細線線分を原画像の線幅まで線の太さを拡張する。
図9は細線線分拡張の処理フローである。まず,全体の処理概要を説明すると,細線線分を画像として初期段階の線分画像とする。次に線分画像の各画素に注目し,その注目画素がエッジ画素(注目画素が黒画素で周囲8画素に白画素がある場合の注目画素)で,原画像上の対応する位置で周囲8画素に黒画素があるならば,細線線分の対応する位置に黒画素を拡張する。この一連の処理を全線分に対して行い,1段目の処理とする。また,1段目の処理が終わった段階で既に拡張の対象となった画素が次の段階の処理で追加されないように記憶しておく。次に,1段階目の拡張を行った線分画像に対して,注目画素がエッジ画素の場合に,原画像の対応する位置の隣接8画素に黒画素があるならば,線分画像の対応する位置に黒画素を拡張する。この一連の段階処理を追加対象の黒画素がなくなるまで繰り返し,全線分の線幅画像を作成する。
処理フローの詳細では,最初に原画像上の全ての黒画素が拡張対象となったか判別し(図9のS1),全てが対象となっていない場合,iを線分の番号としてi=1に設定し(同S2),iが線分数を越えないか判別する(同S3)。越えない場合,i番目の線分画像を取り出し(図9のS4),線分画像をバッファにコピーして(同S5),線分画像の画素を1つ取り出す(同S6)。ここで,その画素が黒画素で,且つ周囲の8画素に白画素があるか判別し(図9のS7),白画素がなければ後述するステップS11に移行し,白画素がある場合は原画像の対応する位置で周囲8画素に黒画素があり,且つ既に拡張対象となっていないか判別する(同S8)。S8の条件を満たされければ後述するステップS11に移行し,S8の条件を満たす場合は,原画像の黒画素の位置と同じバッファの位置に黒画素を追加し(図9のS9),拡張対象画素を記憶する(同S10)。次いで,線分画像の全ての画素を処理したか判別し(図9のS11),処理した場合はバッファから線分画像にコピーし(同S13),S1に戻り,原画上の全ての黒画素を拡張対象として処理が終了するまで繰り返される。
なお,線分画像の作成方法は原画像を何らかの形で最小単位の線分情報に分割する限り,この方法に限定する必要はなく,例えば,所定面積単位に連結する黒画素の領域を分割する等の方法等を採ることも可能である。
次に線分組合せ文字認識部(図1,図2の13)による線分画像の組合せを変更しながら文字認識処理を行う。ここでは,線分の組合せにより線分画像を合成した認識画像を作成し,文字認識処理をする。各認識候補の文字認識結果とその信頼度を記憶し,全ての認識結果のうち最大の信頼度を出力する文字を最終的な認識結果とする。ここで,信頼度は文字認識処理が出力する辞書との距離差や,尤度等を用いる。
図10は第1の線分組合せ文字認識の処理フローである。最初に全組合せを処理をしたか判別し(図10のS1),全組合せを処理してない場合,線分組合せを変更し(同S2),認識画像を作成して(同S3),文字認識を行う(同S4)。続いて文字認識結果の信頼度が従前(以前)の認識結果より大きいか判別し(図10のS5),大きくないとS1に戻り,信頼度が従前の認識結果より大きい場合は文字認識結果を記憶し(同S6),ステップS1に戻る。S1で全組合せを終了したと判別されると,最大信頼度の文字認識結果を出力する(図10のS7)。
この第1の線分組合せ文字認識には,線分がn本抽出されたとすると,線分の組合せ可能な数が2n のオーダとなり,この回数分の文字認識の処理が必要となる。そのため,認識回数を減らすには線分の組合せ数を低減する必要があり,そのための方法として複数の方法があり,その内容は以下に説明する。なお,以下の各方法は単独で用いても,組合せても良い。
第2の線分組合せ文字認識の方法。
第2の線分組合せ文字認識は,線分の連結性を考慮した方法であり,その原理は上記図6のD.に例として示すような,各線分について文字認識する前に組合せとして選び出した線分が全て連結するかチェックし,連結する場合にのみ認識を行い,最大の信頼度の文字認識結果を採用する。
図11は第2の線分組合せ文字認識の処理フローである。図11のステップS1,S2は上記図10のS1,S2と同様であり,図11ではS2において組合せを変更した時,ステップS3で組合せに連結性があるかチェックする点が相違する。このチェックの詳細は後述する図12,図13に示す処理フローに示す。このチェックで連結性がないと判別された場合はS1に戻り,連結性があると判別されると,上記図10のS3以下の処理フローと同様に,認識画像の作成(図11のS4),文字認識(同S5),文字認識結果の信頼度が以前の認識結果より大きいかの判別(同S6),信頼度が以前の認識結果より大きい場合の文字認識結果の記憶(同S7),が実行される。
図12,図13は線分連結性チェックの処理フロー(その1),(その2)である。
最初に全ての線分の連結フラグをオフ(OFF)にし(図12のS1),組合せ中から線分を一つ選択する(同S2)。そして処理終了フラグをオン(ON)にし(図12のS3),残りの線分を全て処理したか判別し(同S4),全て処理してないと,残りの線分を一つ選択し(同S5),選択した2線分が連結するか判別する(同S6)。連結しないとステップS4に移行し,連結すると両線分の連結フラグをオンにし(図12のS7),処理終了フラグをオフにして(同S8),ステップS4に戻る。なお,連結フラグはオンの場合,当該線分が他の線分と連結が有ることを表し,オフの場合は他の線分と連結しないことを表す。また,処理終了フラグはオンの場合,図13のステップS9で後述するステップS10に進み,オフの場合はステップS13に進む。
ステップS4において,残りの線分を全て処理したと判別されると,処理終了フラグはオンか判別し(図13のS9),オンの場合全線分の連結フラグがオンか判別し(同S10),全線分の連結フラグがオンの場合は,連結性フラグをオンにし(図13のS11),オンでない場合(オフの場合)は連結性フラグをオフにする(図13のS12)。上記S9において,処理終了フラグがオンでない場合は,処理終了フラグをオンにし(図13のS13),連結フラグオフの線分があるか判別し(同S14),ない場合はS9に戻り処理終了フラグのオン,オフによりそれぞれS10,S13へ進む。S14で連結フラグオフの線分がある場合は,連結フラグオフの線分を一つ選択する(同S15)。この線分を線分1という。次に連結フラグオンの線分を全て処理したか判別し(図13のS16),処理した場合はステップS9に戻り,処理してない場合は,連結フラグオンの線分を一つ選択する(同S17)。この線分を線分2という。次に線分1と線分2が連結するか判別し(図13のS18),連結しないとステップS16に戻り,連結すると線分1の連結フラグをオンにし(同S19),処理終了フラグをオフにし(同S20),ステップS9に戻る。
図14は連結線分の番号を記録する線分のデータ構造である。図中,30は線分データ,31は画素座標リスト,32は連結線分番号リストである。線分データ30は30a〜30eの各項目からなる。30aは線分番号,30bは画素数,30cは画素座標リストへのポインタ,30dは連結線分数,30eは連結線分番号リストへのポインタとからなる。このデータ構造により,各線分の線分番号毎に,画素数(m1,m2等)が設定され,更にその線分を構成する各画素の座標リスト31がポインタ30cによりアクセスでき,連結線分数(k1,k2等)及び各連結線分の番号が記録された連結線分番号リスト32がポインタ30eによりアクセスできる。
図15は線分画像の連結性による認識回数削減の例を示す図である。すなわち,(a) の原画に対して,(b) のように選択した線分の組合せに連結性がない場合は文字認識処理を行わず,(c) のように選択した線分の組合せに連結性がある場合にのみ文字認識を行う。これにより線分が連結しない場合の分だけ文字認識を行う回数が低減できる。連結続性の確認方法としては,細線化線分作成の際に,細線化線分に分割する点(交点)で接続する他の線分の番号を記憶しておく。線分を組合せ,文字認識する前に,組合せとして選ばれた線分が連結しているかどうかをその情報を基に確認でき,連結している場合のみ,文字認識を行うことで文字認識処理の回数が削減できる。
第3の線分組合せ文字認識の方法。
第3の線分組合せ文字認識は,プレプリント情報の一部または全部が認識すべき文字(手書き)より線幅が細いという前提が成り立つ場合に,本発明の認識方法を適用する前処理として,原画像に対して線幅の細い線分を除去することを原理とする。
その除去方法は,画像を水平方向と垂直方向に走査して,黒画素のラン(幅)の分布を別々に求め,そのランが小さい部分を除去することにより,細い線分部分のプレプリント情報を削除できる。これにより,この方法を適用した場合の線分数が削減でき,従って認識の対象となる線分組合せの数が削減して計算時間を短縮することができる。
図16は線幅の細い部分の画像削除の説明図であり,垂直方向の例を示す。
図16の(a) はプレプリント情報として明朝体の「十」(数字の10)の記号を印刷した画像の例であり,(b) はこの画像を垂直方向に走査した時のラン分布でありその中の数値「1」,「2」,「a」,「9」は垂直方向の走査時の各位置における黒画素の長さを16進数で表す。この例では「十」の記号の横方向の線幅は1画素分であり細い線分であることが分かる。この横方向の線分の垂直方向の線幅が1画素である線分を除去することで(c) の画像が得られる。
図17は細い線幅のプレプリント情報を除去した具体例である。図17の(a) は認識対象領域の原画で,上記図6のA.に示す帳票に文字「5」が記入された画像と同じであり,プレプリント情報として線幅が細い「千」の文字の一部が含まれている。図17の(b) はそのような細い線分を(a) の原画から除去した後の画像であり, これにより線分の組合せ数が削減できる。また,この方法以外にも,分割後の線分の線幅を線分の方向に対して適宜に求めることにより線幅を求めて,線幅の細い線分を除去する方法を用いることができる。
第4の線分組合せ文字認識の方法
この方法は認識すべき文字が書かれる領域が予め,またはレイアウト解析の結果等によりわかっている場合に,当該領域に含まれる線分は,線分の組合せを決定する際に必ず含まれるようにする。これにより線分の組合せ数が削減でき,文字認識回数が削減できる。
図18は文字記入領域が予め分かっている例である。図中,点線で示す文字記入領域内の線分を,文字認識のための線分の組合せに必ず含むようにし,これ以外の領域にある線分の組合せを変更する。
第5の線分組合せ文字認識の方法。
第5の線分組合せ文字認識は,線分の一方が端点となる短い線分を認識のための線分の組合せ中に含めないようにする方法である。一方が端点となる短い線分は,本来の文字に占める領域が小さいため,これを含めなくとも文字認識に与える影響が小さい。従って,このような線分を組合せの候補に含めないことにより,線分の組合せ数を削減でき,結果として文字認識の処理回数を削減できる。
この第4の線分組合せ文字認識の方法では,線分データとして両端のタイプ(端点から3点交点または4点交点までの線分,端点から端点までの線分等)と線分長を含むと処理が簡単になり,図18にデータ構造を示す。
図19は線分両端のタイプと線分長を備える線分のデータ構造である。このデータ40は,各線分に付与した線分番号に対応して,40aの画素数(m1,m2等),40bの画素座標リストへのポインタ(a1,a2等),40cの線分端タイプ1(線分の一方の端点のタイプ),40dの線分端タイプ2(線分の他方の端点のタイプ),40eの線分長さとで構成され,座標リスト41はポインタ40bにより指定される。座標リスト41には,当該線分番号の線分を構成する画素数分の各座標番号に対応する座標が格納されている。また,線分端タイプ1,タイプ2には,端点や3点交差等のタイプがある。
図20は第5の線分組合せ文字認識の方法の具体例である。この例は,図20のA.の原画像に示すようにプレプリント文字の明朝体の「千」の文字の上に手書きで「1」と書かれている。記入文字は同図のB.に示され,この線分の「1」の上部先端の線分のように,線分に分解した場合に,一方が端点に接続する短い線分を削除することで,同図C.のような線分になり,この線分について文字認識を行う。
第6の線分組合せ文字認識の方法。
第6の線分組合せ文字認識は,線分を組合せて文字認識を行う前に,その線分の組合せによりできる図形のサイズが一定範囲内のサイズの時だけ文字認識を行い,線分の組合せの中から最大の信頼度を出力する文字認識結果を利用する。記入される文字のサイズの上限,下限,またはその両者が想定できる場合にはこの方法によって文字認識の回数を削減することが可能である。この場合,図形のサイズとしては,線分を組合せた図形の外接矩形の面積,または図形の高さ等を用いることができる。
図21は線分を組合せた図形のサイズを考慮した文字認識の処理フローである。最初に全組合せを終了したか判別し(図21のS1),終了してない場合は,線分の組合せを変更し(同S2),組合せた図形のサイズが一定範囲内か判別する(同S3)。一定範囲内でないとステップS1に戻り,一定範囲内の場合は,認識画像を作成し(図21のS4),文字認識を行う(同S5)。この認識結果の信頼度が従前(以前)の認識結果より大きいか判別し(図21のS6),大きいと文字認識結果を記憶し(同S7),大きくないとステップS1に戻る。全組合せを処理した場合は,最大信頼度の文字認識結果を出力する(図21のS8)。
例えば,図18に示す帳票のように,文字が記入される領域が与えられるような場合では,そこに記入される文字のサイズの範囲を定めておき,これから外れるサイズの線分の組合せの場合は,文字認識処理を行わず,この分の文字認識処理の回数が削減できる。
次に本発明の第2の原理構成(図2)で設けられた認識結果交換部14において実行される認識結果交換の処理を上記に説明した「まる1」〜「まる4」の各方法に対応した図を用いて以下に説明する。
ここで,上記図2の線分組合せ文字認識部13に対応する処理フロー(上記図9,図10)において,各線分組合せを変更しながら文字認識を行い,各認識結果を候補文字としてそれぞれの信頼度(または類似度)を求めて,最大の信頼度の候補文字を最適な文字認識結果として出力する。この場合,最大の信頼度の認識候補文字以外にも,線分を組み合わせて文字認識する過程で得られる認識候補のうち,信頼度の高いものから順に所定の個数の認識候補をメモリ(図3の21)に記憶しておくものとする。
図22は認識結果交換の実施例1のフローチャートであり,図23は実施例1の文字認識結果交換の参照テーブルである。なお,この図22の実施例1のフローチャートは上記図2について説明した「まる1」の文字認識結果の交換方法に対応する。
最初に受け取った文字認識結果が参照テーブル(図23)に被交換対象文字として登録されているか判別する(図22のS1)。被交換対象文字に登録されていない場合は,交換を行わないで終了するが,登録されている場合は,参照テーブルの当該被交換対象文字に対応する交換対象文字としてこの認識結果文字以外の認識候補がある(メモリに格納されている)かの判別をする(図22のS2)。認識候補が無い場合には交換を行わずに終了するが,ある場合はその認識候補(認識結果の次に信頼度が高い候補)の文字を認識結果の文字と交換する(図22のS3)。なお,上記ステップS2において,被交換対象文字に対する認識候補の文字が複数ある場合は,そのうち最大の信頼度の文字と交換する。
図24は認識結果交換の実施例2のフローチャートであり,図25は実施例2の文字認識結果交換の参照テーブルである。この実施例2の参照テーブルには被交換対象文字に対して交換対象文字が設定されると共に各交換対象文字について交換する場合の信頼度が設定されている。なお,この図24の実施例2のフローチャートは上記図2について説明した「まる2」の文字認識結果の交換方法に対応する。
最初に上記図22と同様に文字認識結果が参照テーブル(図25)に被交換対象文字として登録されているか判別する(図24のS1)。被交換対象文字に登録されていない場合は,交換を行わないで終了するが,登録されている場合は,参照テーブルの当該被交換対象文字に対応する交換対象文字としてこの認識結果文字以外により次に信頼度が低い認識候補があり,且つ交換対象文字に対する信頼度(認識動作においてメモリに格納)が参照テーブル(図25)の当該交換対象文字に対して設定した一定値以上か判定する(図24のS2)。一定値以上である場合は被交換対象文字をその交換対象文字と交換し(同S3),候補が無いかまたはあったとしても信頼度が設定された一定値に達しない場合は処理を終了する。
上記図25の参照テーブルに設定されている「信頼度」は,文字認識処理により出力される特徴ベクトルの距離値等を使うことが可能であるが,その信頼度は適用する文字認識処理系,交換対象となる文字により,適切な値に調整する必要がある。交換する場合の信頼度の値は,予め学習することにより,図25のテーブルのように設定することができる。なお,交換対象文字に対する認識信頼度のみでなく,被交換対象の文字の信頼度の差異も条件とすることができる。
図26は認識結果交換の実施例3のフローチャートである。
この認識結果交換の実施例3のフローチャートは上記図2について説明した「まる3」の文字認識結果の交換方法に対応する。上記図22に示す実施例1の方法では,文字認識結果が参照テーブル上に登録されている被交換対象文字であり,且つテーブルに登録されている交換対象文字に一致する文字が文字認識の過程で候補として認識されている場合に,文字認識結果の交換を行っているが,この実施例3では,この交換の際に図26のステップS2に示すように,被交換対象の文字を構成する線分が,交換対象の文字を構成する線分に含まれているか判別し,含まれている場合に,文字認識結果を交換する(図26のS3)。
例えば,上記図29の(a) の事例のように「1」が文字認識結果として出力された場合に,被交換対象文字のテーブル(図23,図25参照)に「1」が登録されているので,交換対象文字「4」,「7」,「9」のうちいずれかの認識候補があるかを調べる。認識候補がある場合には,その候補を構成する線分に「1」を構成する線分が含まれていれば認識結果の交換を行う。これにより,文字の部分パターンにより誤った文字認識結果が得られた場合に,これを正しい文字に置き替えることができ,文字認識の信頼性を高めることができる。
また,上記図29の(c) に示すように「0」に横線が交わることにより,「6」が文字認識結果とされた場合には,「0」が認識候補として存在する場合には,「6」を形成する図形の凸形の線分を求め,凸形の形成に寄与する線分を抽出し,これが「0」の認識候補を形成する線分に含まれ場合には,「0」を被交換対象文字,「6」を交換対象文字として,認識結果の交換を行うことができる。更に,「0」に横罫線が交わった図形に対し,「8」が文字認識結果として出力された場合にも,同様の処理により,「0」を被交換対象文字,「8」を交換対象文字として,認識結果の交換を行えばよい。
図27は認識結果交換の実施例4のフローチャートである。
この認識結果交換の実施例4のフローチャートは上記図2について説明した「まる4」の文字認識結果の交換方法に対応する。この実施例4では,上記の実施例2(図24)及び実施例3(図26)を組み合わせたものである。すなわち,文字認識結果がテーブル上に登録されている被交換対象文字であるか判別し(図27のS1),登録されている場合は,テーブルに登録されている交換対象文字と一致する文字が認識過程で候補として認識され,且つ交換対象となる文字の文字認識による信頼度が一定値(図25のテーブル参照)より高く,しかも被交換対象の文字を構成する線分が,交換対象の文字を構成する線分に含まれるか判別し(図27のS2),この条件を全て満たす場合に,文字認識結果を交換する(図27のS3)。
この実施例4により,文字認識結果を交換する修正の信頼性を更に高めることが可能となる。
上記図8乃至図13,図21,図22,図24,図26及び図27に示した各フローや,動作説明で示す機能は,図3に示すような情報処理装置(コンピュータ)において,メモリ,ROM,フレキシブルディスク等の記録媒体に記録されたプログラムまたは通信装置を介して外部から伝送されてメモリにローディングされたプログラムにより実行することができる。
(付記1) プレプリント情報を含む帳票等に記入された文字を認識するための文字認識方法において,前記プレプリント情報と記入文字を読取って得た画像から認識すべき文字が存在する領域の画像の線分に対して,前記領域内の画像中の全ての線分を個別に細線化し,前記線分の中から端点・交点を抽出し,前記細線化画像を前記端点から前記交点まで,前記端点から前記端点まで,または前記交点から前記交点までの線分に分割し,前記各線分を前記入力された原画像を参照して元の線幅に拡張することで線分を個別に分割し,前記分割された複数の線分の組合せを変えて認識画像を作成し,作成した認識画像について文字認識を行って信頼度と共に認識結果を記憶し,前記線分の組合せを順次変更して全ての組合せについて上記の認識を行って,最大の信頼度を持つ認識結果を出力し,前記文字認識結果が他の文字パターンに対する誤認識の可能性が高いものとして予め登録されている文字の場合,前記の線分の組合せを変更しながら文字認識を行う過程で前記他の文字についても認識候補が得られていると,前記文字認識結果を前記他の文字と交換することを特徴とする文字認識方法。
(付記2) 付記1において,前記文字認識結果の交換は,前記他の文字に対する文字認識の信頼度が予め設定された一定値以上の場合にのみ行うことを特徴とする文字認識方法。
(付記3) 付記1において,前記文字認識結果の交換は,前記他の文字の認識候補を構成する線分に当該文字認識結果の線分が含まれる場合にのみ行うことを特徴とする文字認識方法。
(付記4) 付記1において,前記文字認識結果の交換は,前記他の文字に対する文字認識の信頼度が予め設定された一定値以上であり,且つ前記他の文字の認識候補を構成する線分に当該文字認識結果の線分が含まれる場合にのみ行うことを特徴とする文字認識方法。
(付記5) プレプリント情報を含む帳票等に記入された文字を読取ることにより得た画像の認識すべき文字が存在する領域の画像を線分に対して,前記領域内の画像中の全ての線分を個別に細線化し,前記線分の中から端点・交点を抽出し,前記細線化画像を前記端点から前記交点まで,前記端点から前記端点まで,または前記交点から前記交点までの線分に分割し,前記各線分を前記入力された原画像を参照して元の線幅に拡張することで線分を個別に分割し,前記分割された複数の線分の組合せを変えて認識画像を作成し,作成した認識画像について文字認識を行って信頼度と共に認識結果を記憶し,前記線分の組合せを順次変更して全ての組合せについて認識を行って,最大の信頼度を持つ認識結果を出力し,前記出力された文字認識結果が他の文字パターンに対する誤認識の可能性が高いものとして予め登録されている文字であることが検出されると,前記文字認識過程で得られた他の認識候補の文字が得られていると,前記文字認識結果を前記他の文字と交換する機能をコンピュータに実行させることを特徴とするプログラム。
(付記6) プレプリント情報を含む帳票等に記入された文字を読取ることにより得た画像の認識すべき文字が存在する領域の画像を線分に対して,前記領域内の画像中の全ての線分を個別に細線化し,前記線分の中から端点・交点を抽出し,前記細線化画像を前記端点から前記交点まで,前記端点から前記端点まで,または前記交点から前記交点までの線分に分割し,前記各線分を前記入力された原画像を参照して元の線幅に拡張することで線分を個別に分割し,前記分割された複数の線分の組合せを変えて認識画像を作成し,作成した認識画像について文字認識を行って信頼度と共に認識結果を記憶し,前記線分の組合せを順次変更して全ての組合せについて認識を行って,最大の信頼度を持つ認識結果を出力し,前記出力された文字認識結果が他の文字パターンに対する誤認識の可能性が高いものとして予め登録されている文字であることが検出されると,前記文字認識過程で得られた他の認識候補の文字が得られていると,前記文字認識結果を前記他の文字と交換する機能をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
10 画像取得部
11 認識領域指定部
12 認識領域内線分分割部
120 細線化手段
121 端点・交点抽出手段
122 線分分割手段
123 線幅拡張手段
13 線分組合せ文字認識部
2 メモリ
2a 原画像
2b 指定領域画像
2c 分割線分画像

Claims (6)

  1. プレプリント情報を含む帳票等に記入された文字を認識するための文字認識方法において,
    前記プレプリント情報と記入文字を読取って得た画像から認識すべき文字が存在する領域の画像を線分に個別に分割し,前記線分の分割は前記領域内の画像中の全ての線分を個別に細線化し,
    前記線分の中から端点・交点を抽出し,前記細線化画像を前記端点から前記交点まで,前記端点から前記端点まで,または前記交点から前記交点までの線分に分割し,
    前記各線分を前記入力された原画像を参照して元の線幅に拡張することで線分を個別に分割し,
    前記分割された複数の線分の組合せを変えて認識画像を作成し,
    作成した認識画像について文字認識を行って信頼度と共に認識結果を記憶し,
    前記線分の組合せを順次変更して全ての組合せについて前記の認識を行って,最大の信頼度を持つ認識結果を出力し,
    前記文字認識結果が他の文字パターンに対する誤認識の可能性が高いものとして予め登録されている文字の場合,前記の線分の組合せを変更しながら文字認識を行う過程で前記他の文字についても認識候補が得られていると,前記文字認識結果を前記他の文字と交換することを特徴とする文字認識方法。
  2. 請求項1において,
    前記文字認識結果の交換は,前記他の文字に対する文字認識の信頼度が予め設定された一定値以上の場合にのみ行うことを特徴とする文字認識方法。
  3. 請求項1において,
    前記文字認識結果の交換は,前記他の文字の認識候補を構成する線分に当該文字認識結果の線分が含まれる場合にのみ行うことを特徴とする文字認識方法。
  4. 請求項1において,
    前記文字認識結果の交換は,前記他の文字に対する文字認識の信頼度が予め設定された一定値以上であり,且つ前記他の文字の認識候補を構成する線分に当該文字認識結果の線分が含まれる場合にのみ行うことを特徴とする文字認識方法。
  5. プレプリント情報を含む帳票等に記入された文字を読取ることにより得た画像の認識すべき文字が存在する領域の画像を線分に個別に分割し,前記線分の分割は前記領域内の画像中の全ての線分を細線化し,
    前記線分の中から端点・交点を抽出し,前記細線化画像を前記端点から前記交点まで,前記端点から前記端点まで,または前記交点から前記交点までの線分に分割し,
    前記各線分を前記入力された原画像を参照して元の線幅に拡張することで線分を個別に分割し,
    前記分割された複数の線分の組合せを変えて認識画像を作成し,作成した認識画像について文字認識を行って信頼度と共に認識結果を記憶し,前記線分の組合せを順次変更して全ての組合せについて認識を行って,最大の信頼度を持つ認識結果を出力し,
    前記出力された文字認識結果が他の文字パターンに対する誤認識の可能性が高いものとして予め登録されている文字であることが検出されると,前記文字認識過程で得られた他の認識候補の文字が得られていると,前記文字認識結果を前記他の文字と交換する機能をコンピュータに実行させることを特徴とするプログラム。
  6. プレプリント情報を含む帳票等に記入された文字を読取ることにより得た画像の認識すべき文字が存在する領域の画像を線分に個別に分割し,前記線分の分割は前記領域内の画像中の全ての線分を個別に細線化し,
    前記線分の中から端点・交点を抽出し,前記細線化画像を前記端点から前記交点まで,前記端点から前記端点まで,または前記交点から前記交点までの線分に分割し,
    前記各線分を前記入力された原画像を参照して元の線幅に拡張することで線分を個別に分割し,
    前記分割された複数の線分の組合せを変えて認識画像を作成し,作成した認識画像について文字認識を行って信頼度と共に認識結果を記憶し,前記線分の組合せを順次変更して全ての組合せについて認識を行って,最大の信頼度を持つ認識結果を出力し,
    前記出力された文字認識結果が他の文字パターンに対する誤認識の可能性が高いものとして予め登録されている文字であることが検出されると,前記文字認識過程で得られた他の認識候補の文字が得られていると,前記文字認識結果を前記他の文字と交換する機能をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2009185400A 2000-11-01 2009-08-10 文字認識方法,プログラム及び記録媒体 Expired - Fee Related JP4878057B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009185400A JP4878057B2 (ja) 2000-11-01 2009-08-10 文字認識方法,プログラム及び記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000334296 2000-11-01
JP2000334296 2000-11-01
JP2009185400A JP4878057B2 (ja) 2000-11-01 2009-08-10 文字認識方法,プログラム及び記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001140140A Division JP4704601B2 (ja) 2000-11-01 2001-05-10 文字認識方法,プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2009259291A JP2009259291A (ja) 2009-11-05
JP4878057B2 true JP4878057B2 (ja) 2012-02-15

Family

ID=41386540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009185400A Expired - Fee Related JP4878057B2 (ja) 2000-11-01 2009-08-10 文字認識方法,プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4878057B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6366685A (ja) * 1986-09-08 1988-03-25 Matsushita Electric Ind Co Ltd 接触文字分離装置
JP3260843B2 (ja) * 1992-08-25 2002-02-25 株式会社リコー 文字認識方法
JPH0713996A (ja) * 1993-06-25 1995-01-17 Hitachi Ltd 文字認識装置
JP3266441B2 (ja) * 1995-01-19 2002-03-18 株式会社リコー 文字認識方法
JP4176175B2 (ja) * 1996-09-27 2008-11-05 富士通株式会社 パターン認識装置

Also Published As

Publication number Publication date
JP2009259291A (ja) 2009-11-05

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
JP4704601B2 (ja) 文字認識方法,プログラム及び記録媒体
JP6080259B2 (ja) 文字切り出し装置及び文字切り出し方法
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JP4834351B2 (ja) 文字認識装置及び文字認識方法
JP3634574B2 (ja) 情報処理方法及び装置
JP2013171309A (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
JP7039882B2 (ja) 画像解析装置及び画像解析プログラム
JP2008108114A (ja) 文書処理装置および文書処理方法
JP4543675B2 (ja) 文字・図形の認識方法
JP4878057B2 (ja) 文字認識方法,プログラム及び記録媒体
JPH08320914A (ja) 表認識方法および装置
JP3442847B2 (ja) 文字読取装置
CN110737364B (zh) 一种安卓系统下触摸书写加速的控制方法
US5894525A (en) Method and system for simultaneously recognizing contextually related input fields for a mutually consistent interpretation
CN112183538B (zh) 一种满文识别方法及系统
JP2009193170A (ja) 文字認識装置及び文字認識方法
US20030002062A1 (en) Image processing apparatus, method and program, and storage medium
JP2000322514A (ja) パターン抽出装置及び文字切り出し装置
JP3710164B2 (ja) 画像処理装置及び方法
JP3113217B2 (ja) 破線認識方法
JP3406942B2 (ja) 画像処理装置及び方法
JPH0757047A (ja) 文字切出し方式
JP3285837B2 (ja) 文字列の切り出し装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees