JP4635845B2 - Ocr装置、フォームアウト方法及びフォームアウトプログラム - Google Patents

Ocr装置、フォームアウト方法及びフォームアウトプログラム Download PDF

Info

Publication number
JP4635845B2
JP4635845B2 JP2005343159A JP2005343159A JP4635845B2 JP 4635845 B2 JP4635845 B2 JP 4635845B2 JP 2005343159 A JP2005343159 A JP 2005343159A JP 2005343159 A JP2005343159 A JP 2005343159A JP 4635845 B2 JP4635845 B2 JP 4635845B2
Authority
JP
Japan
Prior art keywords
image
unit
difference
rotation angle
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005343159A
Other languages
English (en)
Other versions
JP2007148846A (ja
Inventor
淳 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005343159A priority Critical patent/JP4635845B2/ja
Publication of JP2007148846A publication Critical patent/JP2007148846A/ja
Application granted granted Critical
Publication of JP4635845B2 publication Critical patent/JP4635845B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、光学的読み取り手段によって入力された帳票の画像データの中から記入された文字画像を抽出し出力するOCR装置に関し、より詳しくは、入力された帳票の画像データの中から記入された文字画像のみを抽出し、出力するフォームアウト機能を備えたOCR装置に関する。
従来、OCR技術を応用し、光学的に読み取られた帳票等から記入された文字画像のみを分離抽出する技術(フォームアウト)として、例えば、ドロップアウト処理技術が開発され実用化されている。
ドロップアウト処理技術とは、予め帳票を作成する際に、罫線等のフォームを赤や緑といったカラーで印刷し、文字入力後の帳票からカラー部分の画像を除去して文字画像のみを抽出する技術であり、各種帳票類の読み取り・入力処理に広く活用されている。
しかしながら、従来のドロップアウト方式では、読み取り及び除去が可能なドロップアウトカラーが読み取り装置等によって様々に異なるため、処理可能な色が特定の色に限定されてしまい、汎用性や利便性、経済性等に欠けるという問題があった。
このため、このようなドロップアウト処理を用いない方法として、予め帳票の固定的なフォームを記憶しておき、文字入力後の帳票からこの固定フォームのみを削除して文字画像を抽出する方法が採られるようになった。
ところが、この種の帳票フォームを固定・記憶するフォームアウトの方法では、画像の位置ずれ等があるとフォームアウト処理ができないという事態が生じることがあった。
そこで、これまで、このような帳票フォームを利用したフォームアウト方式を改善する技術として種々の提案がなされてきた。
例えば、特許文献1には、文字が書き込まれたテンプレートから基準テンプレートを除去するための微細位置合わせの方法等が提案されている。
また、特許文献2には、帳票上に特別のマークを設けることなく位置合わせを行う画像位置合わせ方法等が提案されている。
さらに、特許文献3には、黒背景機能なしで、専用マークを用いずに、用紙中の罫線の有無に左右されずに用紙の位置合わせを可能にする用紙位置合わせ装置等が提案されている。
特表平08−504076号公報(第1−5頁、第1図) 特開平10−091783号公報(第1−3頁、第1図) 特開平11−003431号公報(第1−5頁、第4図)
しかしながら、上述の特許文献1に提案されている位置合わせの方法等では、参照画像と入力画像の位置合わせの際、画像を縦軸、横軸に投射し、それぞれ黒画素数を比較するようにしているため、縮尺誤差や回転による歪みを発生するコピー機やFAX等には対応できないという問題が生じた。
また、特許文献2に提案されている画像位置合わせ方法等では、罫線の交差部分(十字点)を検出して位置合わせを行うようにしているため、罫線を含まない帳票ではフォームアウトができないという問題があった。
さらに、上特許文献3に提案されている用紙位置合わせ装置等では、入力画像全体が同一の伸縮率・回転角で変形していることを前提としており、局所的な変形誤差を考慮していなかった。このため、プリンタでの帳票印刷時や、スキャナ装置での搬送時に生じる非線形の歪みには対応できないという問題が発生した。
本発明は、以上のような従来の技術が有する問題を解決するために提案されたものであり、入力された帳票の読み取り位置指定用マークや罫線の有無、印刷機器によるサイズ誤差、印刷ズレ、入力画像の伸縮、又は局所的な変形等に拘わらず、どのような用紙・帳票類であってもフォームアウトが可能なOCR装置の提供を目的とする。
上記目的を達成するため、本発明のOCR装置は、請求項1に記載するように、光学的読み取り手段によって入力された帳票の画像データの中から記入された文字画像を抽出し出力するOCR装置であって、前記光学的読み取り手段によって帳票の画像データを入力する画像入力部と、入力した未記入帳票の画像データを参照画像として記憶する参照画像記憶部と、入力した未記入帳票の画像データの一部を所定の回転角及び拡大率で変換し、辞書画像として記憶する辞書画像記憶部と、入力した記入済み帳票の画像と前記辞書画像との差分画像を生成する差分画像生成部と、前記差分画像生成部によって生成された差分画像に基づいて前記記入済み帳票画像の回転角及び拡大率を検出する回転角・拡大率検出部と、前記回転角・拡大率検出部で検出された回転角及び拡大率によって前記参照画像を変換する参照画像回転・拡大部と、前記参照画像回転・拡大部によって変換された参照画像と前記未記入帳票画像との差分画像を生成し出力する出力画像生成部とを備えた構成としてある。
このような構成からなる本発明のOCR装置によれば、画像入力部によって入力された記入済み帳票画像の回転角及び拡大率を検出し、検出された回転角及び拡大率によって参照画像を変換させることによって、処理対象となる記入済み帳票画像と参照画像の双方のフォームを一致させるようにしてある。そして、変換された参照画像と記入済み帳票画像との差分画像を生成し、出力することでフォームアウトを実現している。
このため、回転や伸縮によって生じた歪みを検出し、補正することができる。
したがって、画像スキャン時に発生するサイズ誤差(拡大・縮小)、印刷ズレ、入力画面の伸縮等が生じても、これらを補正し、フォームアウト処理を確実に実施することができる。
また、本発明のOCR装置は入力された未記入帳票の画像データを一以上の行及び列に分割することにより複数の分割画像を生成する画像分割部と、前記画像分割部によって生成された分割画像を二値化し、二値化して得られた画素のうち一方の画素からなる画像の輪郭長の和を計算する特徴抽出部と、前記画像分割部によって生成された分割画像の中から前記輪郭長の和が最も大きい分割画像を検出する最大特徴領域検出部と、前記最大特徴領域検出部によって検出された分割画像を所定の回転角及び拡大率によって複数の画像データに変換する拡大・回転加工部と、を備え、前記辞書画像記憶部が、前記拡大・回転加工部によって変換された複数の画像データを辞書画像として記憶する構成としてある。
そして、本発明のOCR装置は、請求項3に記載するように、前記差分画像生成部は、前記記入済み帳票画像をラスタ走査し、所定の画像データを取得するラスタ走査手段と、前記ラスタ走査手段によって取得した画像データから前記辞書画像の領域に相当する領域を抽出する領域抽出手段と、抽出した領域において、前記記入済み帳票画像と前記辞書画像との差分画像を生成する差分画像生成手段とを、備えた構成としてある。
このような構成からなる本発明のOCR装置によれば、未記入帳票の画像データを複数に分割し、その中でも最も特徴量の大きい分割画像を抽出し、この分割画像を所定の回転角及び拡大率で変換し複数の辞書画像を作成するようにしている。
また、記入済み帳票の画像データ上で、これらすべての辞書画像をラスタ走査し、各位置においてを差分画像を生成するようにしてある。
このため、記入済み帳票画像の回転角及び拡大率の正確な検出につながり、結果、精度の高いフォームアウトが可能となる。
また、本発明のOCR装置は前記回転角・拡大率検出部は、前記差分画像生成部によって生成された差分画像を二値化し、二値化して得られた画素のうち一方の画素の合計面積を計算する画素面積計算手段と、前記差分画像生成部によって生成された差分画像の中から前記合計面積が最も小さい差分画像を抽出する差分画像抽出手段と、前記差分画像抽出手段によって抽出された差分画像の生成にかかる辞書画像の回転角及び拡大率を、前記記入済み帳票画像の回転角及び拡大率とする回転角・拡大率決定手段とを備えた構成としてある。
このような構成からなる本発明のOCR装置によれば、差分画像生成部によって生成された複数の差分画像の中から、差分を表す画素の面積が最も少ない差分画像を抽出するようにしてある。また、その面積が予め定めた閾値以下であることを条件としてある。
このため、記入済み帳票画像の回転角や拡大率の決定に際し、一定以上の精度を保つことが可能となる。
したがって、最終的なフォームアウト出力において、高い品質を維持することができる。
また、本発明のOCR装置は前記参照画像回転・拡大部によって変換された参照画像を、一以上の行及び列に分割することによって複数の小領域参照画像を生成する参照画像分割部と、前記小領域参照画像と前記入力済み帳票画像との位置を合わせる位置合わせ部とを備え、前記出力画像生成部は、前記位置合わせ部により小領域ごとの位置合わせが行われた後に、各小領域画像と記入済み帳票画像との差分画像を生成し出力する構成としてある。
特に、前記位置合わせ部は前記参照画像分割部によって生成された各小領域参照画像ごとに前記記入済み帳票画像を所定の指定位置を基準として重ね合わせる基準位置合わせ手段と、前記指定位置を基準に一定の範囲内で前記各小領域参照画像及び/又は前記記入済み帳票画像を移動させる画像ずらし手段と、前記範囲内で前記各小領域参照画像と記入済み帳票画像との差分画像を生成する小領域差分画像生成手段と、生成された差分画像の中から差分絶対値が最も少ない各差分画像を抽出する小領域差分画像抽出手段と、前記小領域差分画像抽出手段によって抽出された各差分画像の生成に係る各小領域参照画像及び/又は入力済み帳票画像の位置をもって、画像の位置を決定する位置決定手段とを備えた構成としてある。
このような構成からなる本発明のOCR装置によれば、差分画像の生成の際、記入済み帳票画像と参照画像との位置合わせを小領域単位で行うこととしている。
したがって、局所的な歪みも補正できるため、さらに精度の高いフォームアウトを実現できる。
また、位置合わせのためのマークや罫線等が不要なので、帳票作成の際の制限が無くなり、利便性を向上することができる。
また、本発明のフォームアウト方法は光学的読み取り手段によって入力された帳票の画像データの中から記入された文字画像を抽出し出力するフォームアウト方法であって、未記入帳票の画像データを入力するステップ、入力した未記入帳票の画像データを参照画像として記憶するステップ、入力した未記入帳票の画像データの一部を所定の回転率及び拡大率で変換し、辞書画像として記憶するステップ、記入済み帳票の画像データを入力するステップ、前記記入済み帳票画像と前記辞書画像との差分画像を生成するステップ、前記差分画像に基づいて前記記入済み帳票画像の回転率及び拡大率を検出するステップ、検出された回転率及び拡大率によって前記参照画像を変換するステップ、変換された参照画像と前記未記入帳票画像との差分画像を生成し出力するステップとを有する方法としてある。
このように、本発明は上述した装置発明としてだけでなく、方法発明としても実現化することができる。
これによって、具体的な装置構成に限定されることなく、前記各ステップを備える限り、本発明を実現化することができ、汎用性の高いフォームアウト方法を提供することができる。
また、本発明のフォームアウトプログラムは光学的読み取り手段によって入力された帳票の画像データの中から記入された文字画像を抽出し出力するためにコンピュータを、前記光学的読み取り手段によって帳票の画像データを入力する手段、入力した未記入帳票の画像データを参照画像として記憶する手段、入力した未記入帳票の画像データの一部を所定の回転角及び拡大率で変換し、辞書画像として記憶する手段、入力した記入済み帳票の画像データと前記辞書画像との差分画像を生成する手段、前記差分画像に基づいて前記記入済み帳票画像の回転角及び拡大率を検出する手段、検出された回転角及び拡大率によって前記参照画像を変換する手段、変換された参照画像と前記未記入帳票画像との差分画像を生成し出力する手段、として機能させるためのプログラムとしてある。
このように本発明はプログラムとしても実現化することができる。
これにより、OCR装置のみならずパーソナルコンピュータやスキャナにプログラムをインストールし各々の装置が連携することによって本発明を実現することができ、汎用性,拡張性に優れたフォームアウトプログラムとして提供することができる。
本発明のOCR装置によれば、入力画像の歪み(サイズ誤差、印刷ズレ、伸縮、スキュー等)に対応できるようになり、確実なフォームアウトが可能となる。
また、局所的な歪みも吸収できるため、精度の高いフォームアウトを実現することができる。
さらに、従来の帳票に必要とされてきた位置合わせのためのマークや罫線が不要となるので、利便性を高めることができる。
これにより、入力された帳票の読み取り位置指定用マークや罫線の有無、印刷機器によるサイズ誤差、印刷ズレ、入力画像の伸縮、又は局所的な変形等に拘わらず、どのような用紙・帳票類であってもフォームアウトが可能な、汎用性,拡張性等に優れ、かつ、信頼性の高いOCR装置を実現することができる。
以下、本発明のOCR装置の好ましい実施形態について、図面を参照しつつ説明する。
ここで、以下の実施形態に示す本発明のOCR装置は、プログラム(ソフトウェア)の命令によりコンピュータで実行される処理,手段,機能によって実現される。プログラムは、コンピュータの各構成要素に指令を送り、以下に示すような所定の処理・機能を行わせる。すなわち、本発明のOCR装置における各処理・手段は、プログラムとコンピュータとが協働した具体的手段によって実現される。
なお、プログラムの全部又は一部は、例えば、磁気ディスク,光ディスク,半導体メモリ,その他任意のコンピュータで読取り可能な記録媒体により提供され、記録媒体から読み出されたプログラムがコンピュータにインストールされて実行される。また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。
図1は、本発明の一実施形態に係るOCR装置の主な構成を示すブロック図である。
本実施形態のOCR装置1は、入力装置10、データ処理装置20及び記憶装置40から構成される。
以下、本実施形態の主な構成について、各々詳細な説明を行う。
[入力装置10]
入力装置10は、画像入力部11を有する。画像入力部11は、帳票を光学的に読み取り画像データとして入力するものである。具体的には、スキャナ装置等がこれに相当する。
なお、入力装置10によって入力された画像データは、データ処理装置20に出力される。
[データ処理装置20]
データ処理装置20は、画像分割部21、特徴抽出部22、最大特徴領域検出部23、拡大・回転加工部24、差分画像生成部31、回転角・拡大率検出部32、参照画像回転・拡大部33、参照画像分割部34、位置合わせ部35、及び出力画像生成部36を備える。
画像分割部21は、入力装置10から与えられた未記入帳票Aの画像データを複数の小領域に分割するものである。具体的には、画像データを、縦方向(行)及び横方向(列)に一以上分割することによって複数の碁盤目状の分割画像を生成するものである。例えば、2行2列に分割すると、4つの小領域に分かれた分割画像が生成されることとなる。
特徴抽出部22は、画像分割部21によって生成された分割画像を二値化し、二値化して得られた二つの画素(白画素及び黒画素)のうち、一方の画素の輪郭追跡処理を行い、その輪郭の長さの和を計算するものである。
例えば、二値化して得られた画素のうち、黒画素の輪郭追跡処理を行う場合、分割画像を走査し、最初に発見された黒画素を追跡開始点として所定方向に輪郭画素(黒画素と白画素の境界部)を追跡していき、再び追跡開始点に戻ったときに一つの輪郭線が形成されるので、この各輪郭線の長さの総和(特徴量)を計算することとなる。
なお、特徴量は、その領域(分割画像)に含まれる罫線、文字、模様等の複雑さを表す指標となるものである。
最大特徴領域検出部23は、画像分割部21によって生成された分割画像の中から最も大きな特徴量を有する分割画像を選び出すものである。
そして、拡大・回転加工部24は、最大特徴領域検出部23で検出した最も特徴量の大きい小領域の画像データを、回転、拡大(縮小)させるものである。
具体的には、回転角は、−6゜から+6゜まで1゜刻みの13通り、拡大率は、−10%から+10%まで2%刻みの11通りのすべての組み合わせについて加工し、合計143通りの加工済み小領域画像データを、辞書画像記憶部42に記憶する。
差分画像生成部31は、辞書画像と記入済み帳票Bの入力画像との差分画像を生成するものである。詳細には、図2に示すとおり、ラスタ走査手段311、領域抽出手段312及び差分画像生成手段313を有しており、各手段の一連の動作により差分画像生成部31としての機能を果たすものとなっている。
ラスタ走査手段311は、入力装置10から与えられた記入済み帳票Bの画像データ上で、辞書画像記憶部42に記憶された143パターンの辞書画像をラスタ走査するものである。
領域抽出手段312は、ラスタ走査手段311によって得た画像データにより、記入済み帳票Bの画像上における辞書画像領域と同一の領域を抽出するものである。
差分画像生成手段313は、領域抽出手段312によって得た領域において、各辞書画像パターンごとに差分画像を生成するものである。
なお、差分画像生成部31によって生成された差分画像は、回転角・拡大率検出部32に出力される。
回転角・拡大率検出部32は、記入済み帳票Bの入力画像の回転角や拡大率を検出するものである。
具体的には、回転角・拡大率検出部32は、図3に示すように、画素面積計算手段321、差分画像抽出手段322及び回転角・拡大率決定手段323を有しており、各手段の一連の動作により回転角・拡大率検出部32としての機能を果たすものとなっている。
画素面積計算手段321は、差分画像生成部31で生成された差分画像を黒画素及び白画素に二値化し、一方の画素(例えば、白画素)の合計面積を計算するものである。これは、差分画像生成に関わった辞書画像と記入済み帳票画像との差異の大きさを測定するためである。
差分画像抽出手段322は、画素面積計算手段321によって計算された一方の画素の合計面積が最小となるところの差分画像を抽出するものである。
回転角・拡大率決定手段323は、差分画像抽出手段322によって抽出された差分画像の生成に関わった辞書画像を抽出し、その辞書画像の回転角及び拡大率を記入済み帳票Bの入力画像の回転角・拡大率であると判断するものである。
なお、回転角・回転率の判断においては、上記最小面積が、所定の閾値以下であることを限定条件としてもよい。
参照画像回転・拡大部33は、参照画像記憶部41に記憶された参照画像の画像データを、回転角・拡大率検出部32でもとめた回転角及び拡大率で変換するものである。
この変換処理によって、記入済み帳票Bの入力画像に生じていた回転や拡大・縮小に係る歪みが、相対的に補正されることとなる。
参照画像分割部34は、参照画像回転・拡大部33で変換した参照画像を、複数の小領域に分割するものである。
具体的な処理については、画像分割部21と同様であり、参照画像を縦方向(行)及び横方向(列)に一以上分割することによって複数の分割画像を生成するものである。
位置合わせ部35は、記入済み帳票Bの入力画像と参照画像分割部34によって生成された参照画像の分割画像との位置合わせを行うものである。
具体的には、位置合わせ部35は、図4に示すように、基準位置合わせ手段351、画像ずらし手段352、小領域差分画像生成手段353、小領域差分画像抽出手段354及び位置決定手段355を有し、各手段の一連の動作により位置合わせ部35としての機能を果たすものとなっている。
基準位置合わせ手段351は、参照画像分割部34によって生成された各小領域参照画像ごとに記入済み帳票Bの入力画像を重ね合わせるものである。具体的には、所定の基準位置(例えば、画像の重心など)に双方の画像の位置を合わせることとなる。
画像ずらし手段352は、前記基準位置から一定の範囲内において、各小領域参照画像又は記入済み帳票の入力画像の位置をずらす動作を行う。
このように画像位置の微調整を行うことによって、フォームアウトの精度を高めることができる。
小領域差分画像生成手段353は、画像ずらし手段352における一定の範囲内で、各小領域参照画像と記入済み帳票画像との差分画像を生成するものである。
小領域差分画像抽出手段354は、小領域差分画像生成手段353によって生成された差分画像の中から差分絶対値が最も少ない差分画像を各小領域ごとに抽出するものである。
位置決定手段355は、上記小領域差分画像抽出手段354によって抽出された差分画像の生成に関わった小領域参照画像又は記入済み帳票画像の位置をもって各画像の位置とするものである。
そして、出力画像生成部36では、上記位置合わせ部35によって決定した位置にしたがって、各小領域参照画像ごとに記入済み帳票画像との差分画像が生成され、その合成画像が出力されることとなる。
[記憶装置40]
記憶装置は、参照画像記憶部41及び辞書画像記憶部42を有する。
参照画像記憶部41は、入力装置10(画像入力部11)からの未記入帳票Aの画像を記憶するものである。
一方、辞書画像記憶部42は、データ処理装置20によって分割・変換加工された未記入帳票Aの画像を記憶するものである。
[フォームアウト方法]
次に、以上のような構成からなる一実施形態のOCR装置における動作フローについて図5及び図6を参照しつつ説明する。
図5は、本発明の一実施形態に係るOCR装置における辞書画像の生成フローを示したフローチャートである。
また、図6は、本発明の一実施形態に係るOCR装置における記入済み帳票のフォームアウトフローを示したフローチャートである。
[辞書画像生成]
最初に、本発明の一実施形態に係るOCR装置における辞書画像の生成フローについて、図5を参照しつつ説明する。
まず、入力装置10で入力された未記入帳票Aの画像データは、参照画像記憶部41とデータ処理装置20(画像分割部21)に供給される(ステップA1)。
画像分割部21では、図7に示すように、未記入帳票Aの画像データの全体又は一部を複数の小領域に分割する(ステップA2)。
例えば、縦方向はM行、横方向はN列(但し、M、Nは自然数)に分割することによって、M×N個の碁盤目状の小領域が形成される。
次に、特徴抽出部22が、ステップA2により生成された各分割画像についてそれぞれ特徴となるデータ(特徴量)を抽出する(ステップA3)。特徴量とは、小領域に含まれる罫線や文字や模様等の複雑さを表すものであり、具体的には、分割画像を二値化して得た二値の画素(白画素及び黒画素)のうち、例えば黒画素部分の輪郭長の総和を計算することによって求めることができる。
そして、最大特徴領域抽出部23が、M×N個の各分割画像の中から、ステップA3で抽出した特徴量が最大であるところの領域(最大特徴領域)を抽出する(ステップA4)。すなわち、前記輪郭長が最大であるところの分割画像を抽出する。
次に、拡大・回転加工部24が、ステップA4で抽出した領域の画像を様々な回転角・拡大率で変換加工する(ステップA5)。
具体的には、図8に示すように、回転角θは−6゜≦θ≦6゜の範囲で1゜刻み、拡大率Rは、0.90≦R≦1.10で0.02刻みの各組み合わせで変換することにより、143パターンの加工画像が生成されることとなる。
ここで、分割画像の回転角及び拡大率について一定の適用範囲を設けたのは、回転角や拡大率の幅を広くとり過ぎると、補正が追いつかず大きな誤差が生じる場合があり、一方、狭すぎると補正の適用範囲が小さくなり本発明の機能を十分に発揮できないためである。
ただし、入力画像の歪みの大小は、入力装置の相違等、ユーザーによって異なることから、回転角、拡大率の範囲やそのパターン数は変更可能としてある。
なお、実際の画像データの変換においては、領域の縦方向をy軸、横方向をx軸とみたて、もとの画像座標を(x,y)、変換後の画像座標を(x’,y’)とした場合、以下の一次変換式が用いられる。
Figure 0004635845
そして、これら加工された画像データのすべては記憶装置40に送られ、辞書画像としてメモリー(辞書画像記憶部42)に記憶される(ステップA6)。
以上のステップを通して生成された辞書画像は、後のフォームアウト処理に必要とされるものである。要約すると、これらの辞書画像は、記入済み帳票の入力画像の歪み(回転や拡大・縮小等)を判定するために利用され、結果、確実なフォームアウトを可能とするものである。なお、辞書画像を利用したフォームアウトの詳細については、後述のフォームアウトフローの中で説明する。
[フォームアウト]
次に、本発明の一実施形態に係るOCR装置における記入済み帳票のフォームアウトフローについて、図6を参照しつつ説明する。
まず、入力装置10は、記入済み帳票Bの画像データを取り込み(ステップB1)、データ処理装置20に出力する。
データ処理装置20では、図9に示すように、差分画像生成部31が、入力装置10からの記入済み帳票Bの入力画像上ですべての辞書画像をラスタ走査し、各々差分画像を生成する(ステップB2)。
そして、ステップB2で生成された各差分画像を利用して、記入済み帳票Bの入力画像の回転角・拡大率を検出する(ステップB3)。
具体的には、各差分画像を黒画素及び白画素に二値化し、相違部分(例えば、白画素部分)の面積を測定する。次に、この面積が最も小さくなるときの差分画像を抽出する。そして、この差分画像の生成に関わった辞書画像を抽出し、該辞書画像の回転角・拡大率を記入済み帳票画像の回転角・拡大率と判定するものである。
例えば、ここで抽出された差分画像の辞書画像が、未記入帳票画像を回転角5゜、拡大率0.90で変換されたものである場合には、記入済み帳票の入力画像は、回転角5゜、拡大率0.90で変形されて入力したものであると判定される。
ここで、辞書画像は、上述の通り、所定の範囲(本実施形態においては、回転角が−6゜から+6゜、拡大率が0.90から1.10の範囲)で変換された画像であるので、ステップB3で検出可能な回転角・拡大率も同一の範囲に限られる。
すなわち、上記範囲を超える変形が記入済み帳票の入力画面に生じている場合には、その回転角・拡大率は検出できず、フォームアウト不能を示すエラーコードが出力され、処理は終了する(ステップB4 NO)。
一方、回転角・拡大率が検出された場合は、次のステップ(ステップB5)にすすむ(ステップB4 YES)。
ステップB5では、ステップB4で検出された回転角・拡大率によって、参照画像を変換し(ステップB5)、M行N列(但し、M、Nは自然数)の小領域に分割する(ステップB6)。
次に、分割された小領域ごとに、記入済み帳票Bの入力画像と分割した参照画像との位置合わせを試みる(ステップB7)。
具体的には、図10で示すように、まず変換・分割した参照画像を、記入済み帳票の入力画像の指定位置(例えば、各画像の重心位置)に合わせた状態を基準として、該参照画像をx方向に±K画素、y方向に±L画素(但し、K、Lは自然数)の範囲でずらし、各ずらし位置で記入済み帳票画像と該参照画像との差分画像を生成する。
その際、上記参照画像の白紙部分では差分を取らないよう(差分は0(ゼロ)固定)にする。記入済み帳票では、その部分に文字が記入される可能性があるためである。
また、図11に示すように、各ずらし位置において差分画像から各小領域の差分の絶対値の和(Sum i,j(p,q)) (0≦i≦M−1,0≦j≦N−1,−K≦p≦K,−L≦q≦L)を求める。
そして、各ずらし位置での差分絶対値の和(Sum i,j(p、q))を比較し、小領域(i,j)ごとに、この差分絶対値の和(Sum i,j(p、q))が最小となるずらし位置(p(i,j),q(i,j))を保持する。
具体的には、図11に示すような式の通りとなる。
このようにして位置p(i,j)、q(i,j)が決まれば(ステップB8 YES)、図12に示す小領域ごとに差分画像を生成し、それらをつなぎ合わせ、全体の差分画像を生成する(ステップB9)。
一方、入力画像が、許容範囲外の変形がされたものであったり、参照画像と異なるフォーマット画像等の場合には、位置合わせは失敗と判断され、フォームアウト不能を示すエラーコードが出力され、処理は終了する(ステップB8 NO)。
以上のステップに従ってフォームアウト処理を実施することにより、図13に示すように、差分画像には読み取り対象となる文字画像のみが抽出される。
以上説明したように、本実施形態のOCR装置1によれば、画像分割部21が参照画像を碁盤目状の部分画像に分割し、最大特徴領域検出部23がその中で最も特徴のある小領域のみを抽出し、拡大・回転加工部24がその小領域を複数の回転角・拡大率の組み合わせで変換し、回転角・拡大率検出部32がその各変換パターンと入力画像を重ね合わせることで、帳票の拡大・縮小率及びスキュー角を判定し、補正できるようにしてある。
その結果、出力画像生成部36によって、確実にフォームアウト出力ができるようにしている。
このため、入力画面のサイズ誤差、印刷ズレ、伸縮等が生じてもこれらの歪みを吸収し、確実にフォームアウト処理を行うことができる。
また、画像を分割し小領域単位で処理を行うことによって、局所的な歪みにも対応できるため、精度の高いフォームアウトを実現することができる。
さらに、従来の帳票に必要とされてきた位置合わせのためのマークや罫線が不要となるので、利便性を高めることができる。
また、従来発生していた罫線除去エラー頻度が低減し、データエントリーの工数削減も可能となる。
以上、本発明のOCR装置について、好ましい実施形態を示して説明したが、本発明にかかるOCR装置は、上述した実施形態にのみ限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、本発明のOCR装置は、辞書画像を生成する際に行う最大特徴領域の変形(回転、拡大)の組み合わせを、任意の範囲やステップに変更してもよい。
また、辞書画像を生成する際、最大特徴領域を加工するときの拡大率を縦方向と横方向とで可変してもよい。
さらに、複数の参照画像を記憶し複数の帳票に対応させる帳票識別機能を備えた構成であってもよい。
本発明は、画像入力手段、データ処理手段、記憶手段を備えたOCR装置に好適に利用することができる。
本発明の一実施形態に係るOCR装置の主な構成を示すブロック図である。 本発明の一実施形態に係るOCR装置を構成するデータ処理装置が備える差分画像生成部の詳細構成を示したブロック図である。 本発明の一実施形態に係るOCR装置を構成するデータ処理装置が備える回転角・拡大率検出部の詳細構成を示したブロック図である。 本発明の一実施形態に係るOCR装置を構成するデータ処理装置が備える位置合わせ部の詳細構成を示したブロック図である。 本発明の一実施形態に係るOCR装置における辞書画像の生成フローを示したフローチャートである。 本発明の一実施形態に係るOCR装置における記入済み帳票のフォームアウトフローを示したフローチャートである。 本発明の一実施形態に係るOCR装置により実施される分割後の参照画像及び最大特徴領域を表した図である。 本発明の一実施形態に係るOCR装置により実施される最大特徴領域の回転・拡大(辞書画像の例)を表した図である。 本発明の一実施形態に係るOCR装置により実施される記入済み帳票画像上での辞書画像のラスタ走査を表した図である。 本発明の一実施形態に係るOCR装置により実施される位置合わせにおける画像ずらし手段を表した図である。 本発明の一実施形態に係るOCR装置により実施される位置合わせにおける各位置での差分絶対値の和を表した図である。 本発明の一実施形態に係るOCR装置において小領域ごとに差分画像を生成し合成することによって生成された差分画像を示した図である。 本発明の一実施形態に係るOCR装置におけるフォームアウト実施後の出力画像を示した図である。
符号の説明
1 OCR装置
10 入力装置
20 データ処理装置
40 記憶装置
A 未記入帳票
B 記入済み帳票

Claims (8)

  1. 光学的読み取り手段によって入力された帳票の画像データの中から記入された文字画像を抽出し出力するOCR装置であって、
    光学的読み取り手段によって帳票の画像データを入力する画像入力部と、
    入力した未記入帳票の画像データを参照画像として記憶する参照画像記憶部と、
    入力した未記入帳票の画像データの一部を所定の回転角及び拡大率で変換し、辞書画像として記憶する辞書画像記憶部と、
    入力した記入済み帳票の画像データと前記辞書画像との差分画像を生成する差分画像生成部と、
    前記差分画像生成部によって生成された差分画像に基づいて前記記入済み帳票画像の回転角及び拡大率を検出する回転角・拡大率検出部と、
    前記回転角・拡大率検出部で検出された回転角及び拡大率によって前記参照画像を変換する参照画像回転・拡大部と、
    前記参照画像回転・拡大部によって変換された参照画像と前記未記入帳票画像との差分画像を生成し出力する出力画像生成部と、を備えることを特徴とするOCR装置。
  2. 入力された未記入帳票の画像データを一以上の行及び列に分割することにより複数の分割画像を生成する画像分割部と、
    前記画像分割部によって生成された分割画像を二値化し、二値化して得られた画素のうち一方の画素からなる画像の輪郭長の和を計算する特徴抽出部と、
    前記画像分割部によって生成された分割画像の中から前記輪郭長の和が最も大きい分割画像を検出する最大特徴領域検出部と、
    前記最大特徴領域検出部によって検出された分割画像を所定の回転角及び拡大率によって複数の画像データに変換する拡大・回転加工部と、を備え、
    前記辞書画像記憶部が、
    前記拡大・回転加工部によって変換された複数の画像データを辞書画像として記憶することを特徴とする請求項1に記載のOCR装置。
  3. 前記差分画像生成部は、
    前記記入済み帳票画像をラスタ走査し、所定の画像データを取得するラスタ走査手段と、
    前記ラスタ走査手段によって取得した画像データから前記辞書画像の領域に相当する領域を抽出する領域抽出手段と、
    抽出した領域において、前記記入済み帳票画像と前記辞書画像との差分画像を生成する差分画像生成手段と、を備えることを特徴とする請求項1又は2に記載のOCR装置。
  4. 前記回転角・拡大率検出部は、
    前記差分画像生成部によって生成された差分画像を二値化し、二値化して得られた画素のうち一方の画素の合計面積を計算する画素面積計算手段と、
    前記差分画像生成部によって生成された差分画像の中から前記合計面積が最も小さい差分画像を抽出する差分画像抽出手段と、
    前記差分画像抽出手段によって抽出された差分画像の生成にかかる辞書画像の回転角及び拡大率を、前記記入済み帳票画像の回転角及び拡大率とする回転角・拡大率決定手段と、を備えることを特徴とする請求項1乃至3のいずれか一項に記載のOCR装置。
  5. 前記参照画像回転・拡大部によって変換された参照画像を、一以上の行及び列に分割することによって複数の小領域参照画像を生成する参照画像分割部と、
    前記小領域参照画像と前記入力済み帳票画像との位置を合わせる位置合わせ部と、を備え、
    前記出力画像生成部は、前記位置合わせ部により小領域ごとの位置合わせが行われた後に、各小領域画像と記入済み帳票画像との差分画像を生成し出力することを特徴とする請求項1乃至4のいずれか一項に記載のOCR装置。
  6. 前記位置合わせ部は、
    前記参照画像分割部によって生成された各小領域参照画像ごとに前記記入済み帳票画像を所定の指定位置を基準として重ね合わせる基準位置合わせ手段と、
    前記指定位置を基準に一定の範囲内で前記各小領域参照画像及び/又は前記記入済み帳票画像を移動させる画像ずらし手段と、
    前記範囲内で前記各小領域参照画像と記入済み帳票画像との差分画像を生成する小領域差分画像生成手段と、
    生成された差分画像の中から差分絶対値が最も少ない差分画像を小領域ごとに抽出する小領域差分画像抽出手段と、
    前記小領域差分画像抽出手段によって抽出された各差分画像の生成に係る各小領域参照画像及び/又は入力済み帳票画像の位置をもって、画像の位置を決定する位置決定手段と、を備えることを特徴とする請求項5に記載のOCR装置。
  7. 光学的読み取り手段によって入力された帳票の画像データの中から記入された文字画像を抽出し出力するフォームアウト方法であって、
    未記入帳票の画像データを入力するステップ、
    入力した未記入帳票の画像データを参照画像として記憶するステップ、
    入力した未記入帳票の画像データの一部を所定の回転率及び拡大率で変換し、辞書画像として記憶するステップ、
    記入済み帳票の画像データを入力するステップ、
    前記記入済み帳票の画像データと辞書画像との差分画像を生成するステップ、
    前記差分画像に基づいて前記記入済み帳票画像の回転率及び拡大率を検出するステップ、
    検出された回転率及び拡大率によって前記参照画像を変換するステップ、
    変換された参照画像と前記未記入帳票画像との差分画像を生成し出力するステップと、を有することを特徴とするフォームアウト方法。
  8. 光学的読み取り手段によって入力された帳票の画像データの中から記入された文字画像を抽出し出力するためにコンピュータを、
    前記光学的読み取り手段によって帳票の画像データを入力する手段、
    入力した未記入帳票の画像データを参照画像として記憶する手段、
    入力した未記入帳票の画像データの一部を所定の回転角及び拡大率で変換し、辞書画像として記憶する手段、
    入力した記入済み帳票の画像データと前記辞書画像との差分画像を生成する手段、
    前記差分画像に基づいて前記記入済み帳票画像の回転角及び拡大率を検出する手段、
    検出された回転角及び拡大率によって前記参照画像を変換する手段、
    変換された参照画像と前記未記入帳票画像との差分画像を生成し出力する手段、
    として機能させるためのフォームアウトプログラム。
JP2005343159A 2005-11-29 2005-11-29 Ocr装置、フォームアウト方法及びフォームアウトプログラム Expired - Fee Related JP4635845B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005343159A JP4635845B2 (ja) 2005-11-29 2005-11-29 Ocr装置、フォームアウト方法及びフォームアウトプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005343159A JP4635845B2 (ja) 2005-11-29 2005-11-29 Ocr装置、フォームアウト方法及びフォームアウトプログラム

Publications (2)

Publication Number Publication Date
JP2007148846A JP2007148846A (ja) 2007-06-14
JP4635845B2 true JP4635845B2 (ja) 2011-02-23

Family

ID=38210184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005343159A Expired - Fee Related JP4635845B2 (ja) 2005-11-29 2005-11-29 Ocr装置、フォームアウト方法及びフォームアウトプログラム

Country Status (1)

Country Link
JP (1) JP4635845B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023181149A1 (ja) * 2022-03-23 2023-09-28 日本電気株式会社 文字認識システム、文字認識方法および記録媒体

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043317A (ja) * 1999-08-02 2001-02-16 Hitachi Eng Co Ltd 文字検査装置とその辞書自動生成方法
JP2001325563A (ja) * 2000-03-10 2001-11-22 Fujitsu Ltd 画像照合装置、画像照合方法、及び画像照合プログラム
JP2002324236A (ja) * 2001-04-25 2002-11-08 Hitachi Ltd 帳票識別方法及び帳票登録方法
JP2002366895A (ja) * 2001-05-30 2002-12-20 Internatl Business Mach Corp <Ibm> 画像処理方法、画像処理システムおよびプログラム
JP2003030583A (ja) * 2001-07-11 2003-01-31 Oki Electric Ind Co Ltd 表種別識別方法および表種別識別装置、フォーマット種別識別方法およびフォーマット種別識別装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3591049B2 (ja) * 1995-05-18 2004-11-17 凸版印刷株式会社 自動倍率角度出し装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043317A (ja) * 1999-08-02 2001-02-16 Hitachi Eng Co Ltd 文字検査装置とその辞書自動生成方法
JP2001325563A (ja) * 2000-03-10 2001-11-22 Fujitsu Ltd 画像照合装置、画像照合方法、及び画像照合プログラム
JP2002324236A (ja) * 2001-04-25 2002-11-08 Hitachi Ltd 帳票識別方法及び帳票登録方法
JP2002366895A (ja) * 2001-05-30 2002-12-20 Internatl Business Mach Corp <Ibm> 画像処理方法、画像処理システムおよびプログラム
JP2003030583A (ja) * 2001-07-11 2003-01-31 Oki Electric Ind Co Ltd 表種別識別方法および表種別識別装置、フォーマット種別識別方法およびフォーマット種別識別装置

Also Published As

Publication number Publication date
JP2007148846A (ja) 2007-06-14

Similar Documents

Publication Publication Date Title
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
JP5559619B2 (ja) 画像比較解析を用いた印刷文書における変更の検出方法
US20130020386A1 (en) Information input output method using dot pattern
KR101235226B1 (ko) 화상 처리 장치, 화상 처리 방법 및 기록 매체
JPH1173501A (ja) 参照画像作成方法およびパターン検査装置
JP5861503B2 (ja) 画像検査装置及び方法
US7079265B2 (en) Distortion correction device for correcting imaged object to produce plane image without distortion
US8064636B2 (en) Image processing apparatus and method of controlling the same
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
JP4013060B2 (ja) 画像補正方法および画像補正装置
JP6665595B2 (ja) 文字認識装置、方法およびプログラム
JP6413542B2 (ja) 画像処理装置及び画像処理プログラム
JP4635845B2 (ja) Ocr装置、フォームアウト方法及びフォームアウトプログラム
JP4910635B2 (ja) 画像処理装置及び画像処理プログラム
JP2009025856A (ja) 帳票識別プログラム及び帳票識別装置
JPH06311333A (ja) 画像処理装置
JP5844698B2 (ja) 文字認識装置
JP4803001B2 (ja) 画像処理装置及び画像処理プログラム
JP2000076378A (ja) 文字認識方法
JP3606218B2 (ja) 文書分類装置、文字読み取り装置及び真贋判定装置、並びにこれらの方法
JP2007328652A (ja) 画像処理装置および画像処理プログラム
JP5146199B2 (ja) 差分抽出装置及び差分抽出プログラム
JPH11282959A (ja) 文字列照合装置、方法及び記録媒体、並びに文書分類装置、文字読み取り装置及び真贋判定装置
JP4517667B2 (ja) 文書画像照合装置、文書画像位置合わせ方法及びプログラム
JP2715930B2 (ja) 線分検出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4635845

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees