JP3864246B2 - 画像処理方法、画像処理システムおよびプログラム - Google Patents
画像処理方法、画像処理システムおよびプログラム Download PDFInfo
- Publication number
- JP3864246B2 JP3864246B2 JP2001163376A JP2001163376A JP3864246B2 JP 3864246 B2 JP3864246 B2 JP 3864246B2 JP 2001163376 A JP2001163376 A JP 2001163376A JP 2001163376 A JP2001163376 A JP 2001163376A JP 3864246 B2 JP3864246 B2 JP 3864246B2
- Authority
- JP
- Japan
- Prior art keywords
- line segment
- horizontal line
- rotation direction
- detected
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は、イメージデータの処理方法、処理システムおよびプログラムに関する。特に、ビットマップデータ等のイメージデータからOCR(optical character readerまたはoptical character recognition)等のデータ処理を行う場合の、帳票の識別処理あるいは文字枠等フィールド位置の特定に適用して有効な技術に関する。
【0002】
【従来の技術】
帳票(一定の書式を有する申請書、契約書等の書面をいう)の識別と文字の認識処理として、文字枠などの位置をイメージ上で特定するためには、(1)ページマークあるいはリファレンスマークを基準として用いる方式、(2)スキャナーに帳票の背景を黒として帳票のエッジを検出する機能が有る場合、そのエッジを基準に用いる方式、(3)黒色文字枠を個別に検出し、その枠とあらかじめ定義されている枠とのマッチングをする方式、が採用できる。
【0003】
しかし、方式(1)においては、帳票にページマークあるいはリファレンスマークが必須となり、ユーザーが使用できる領域が狭くなるなど制限が多くなってしまう。また、この方式では、ページマークあるいはリファレンスマークが無い帳票に対応できないという問題点がある。方式(2)は、このような機能が備わっているOCR専用の高価なスキャナーでなければ適用できないという問題点がある。方式(3)は、黒色文字枠を検出するために、水平線分ばかりでなく垂直線分も特徴として抽出する必要があるので、処理速度が低下するという問題がある。
【0004】
また、前処理としてイメージそのものをスキュー補正して、スキューが全くない状態にするので、さらに処理が遅くなるという問題点がある。特に帳票の内容を用いて識別する方式では、スキューや位置ずれのある場合は、分析ロジックが複雑になりがちであり、処理速度が低下する傾向にある。
【0005】
これらの問題を解決する一手法として、たとえば特開平11−143986号公報に記載された本発明者らの発明に係る技術がある。この技術では以下のようなステップの処理を行う。まず、(1)ビットマップイメージから水平線分を抽出する。(2)水平線分に接する外接矩形(外接長方形)を生成する。(3)スキューの理論的補正を行った後、(4)あらかじめ登録された帳票定義体を参照し、外接矩形による帳票候補の絞り込み、水平線分の情報による帳票候補の絞り込みを行い、帳票の識別を行う。その後、(5)識別された帳票の入力フィールドに対応する領域の文字認識を行ってビットマップイメージから認識文字を生成する。なお、帳票定義体にはあらかじめ各帳票の線分や外接矩形の情報を登録しておく。
【0006】
この技術により以下のような効果が得られている。すなわち、ページマークあるいはリファレンスマークなしの帳票で、かつスキャナーが帳票のエッジを検出できないものであっても文字枠(入力フィールド)の特定と文字の認識を可能にできる。また、高速に認識できる水平線分のみから形成した外接矩形を基準としてビットマップイメージの比較を行うことができるので、ビットマップイメージの識別処理を高速化できる。また、イメージそのものをスキュー補正することなく、理想のイメージへマッピングをすることができるので、ビットマップイメージの識別処理を高速化できる。また、外接矩形の4隅を仮想ページマークとすることができるので、従来のページマークを基準とした文字枠の検出ロジックを流用できる。また、外接矩形や水平線分の定義情報を既存の帳票定義体に追加できるので、従来の帳票定義体の情報をそのまま利用でき、帳票定義体を作成するオペレータの負担を軽減できる。
【0007】
また、前記公報記載の技術を適用する前提として、ビットマップイメージの方向が文字認識できる方向であることが必要である。すなわち、ビットマップイメージが認識方向に対して90度あるいは270度等回転している場合には、正常に認識できる方向にイメージを回転する操作を考慮する必要がある。たとえば、本発明者らが実施しているシステムでは以下のような処理を施す。すなわち、まず、(1)原帳票を90度回転する。(2)水平線分を検出し、その線分情報を利用して帳票識別を行う。(3)帳票識別がOKなら認識処理に進む。(4)帳票識別がNGなら原帳票を270度回転する。(5)水平線分を検出し、その線分情報を利用して帳票識別を行う。(6)帳票識別がOKなら認識処理に進む。NGなら帳票エラーとする。なお、この処理は、A4等長方形用紙に横書きされる帳票を仮定し、この帳票がファクシミリ等によって用紙の短辺に対して平行にスキャンされるデータを仮定している。よって帳票の回転方向は90度あるいは270度に限られる場合の例である。
【0008】
【発明が解決しようとする課題】
このように、前記した公報記載の技術あるいは本発明者らが実施しているイメージ回転操作の処理によって、前記した方式(1)〜(3)に付随する問題点を解決できる。しかし、前記公報記載の技術あるいは本発明者らが実施しているイメージ回転操作の処理には以下のような問題がある。
【0009】
すなわち、前記公報に記載の技術では、主にOCR処理用に設計された帳票(OCR用帳票)を用いることが前提となっている。OCR用帳票では文字入力枠(入力フィールド)が太い線で指定され、一般的には一文字づつ太い矩形で囲まれる。前記技術の水平線分検出では、OCR用帳票を採用する限り安定した線分検出が可能である。また、水平線分が安定に検出できることを前提にすれば、仮想ページマーク(外接矩形)の生成を安定化するためには、より広い外接矩形を構成するような最も外側の水平線分をキー線分とするのが合理的である。よって、前記技術では、OCR用帳票を用いることを前提に、最も外側の水平線分をキー線分として外接矩形(仮想ページマーク)を生成するアルゴリズムを採用する。つまり前記技術では、帳票の中で安定して検出できる水平線分をベースにするようなアルゴリズムの考慮がなされていない。
【0010】
このため、帳票として非OCR帳票を採用した場合、外接矩形を決定するキー線分が、かすれ、スキュー、帳票端の欠けや汚れ、折り目等のために検出できない場合や、キー線分の一部(特に外側)が欠けてしまうような場合に、安定した仮想ページマーク(外接矩形)が生成できず、誤った仮想ページマークを生成してしまう問題がある。特に、帳票の周囲にスキューや伸縮に対応するための空白エリアであるクリアエリアが無いあるいは少ない場合に、ファクシミリ等で送信されたイメージの受信データでは必要な水平線分がファックスヘッダーによって欠けてしまう。このため本来認識されるべき帳票が認識されず、帳票識別エラーを生じてしまう。
【0011】
また、一般に帳票全体を対象とした水平線分の検出処理やイメージ全体の回転操作の処理は時間がかかる。前記したイメージ回転操作の技術では、一つの帳票を処理する毎に必ず1回の回転操作と線分検出処理を行わなければならず、最悪の場合、2回の回転操作と線分検出処理を行わなければならない。処理速度の向上は常に要求されることであり、無駄な操作を省略してより速い処理速度を実現できるアルゴリズムの採用が望まれる。
【0012】
本発明の目的は、非OCR用帳票であっても安定した仮想ページマークを生成し、安定した帳票の識別が可能な技術を提供することにある。
【0013】
また、本発明の目的は、水平線分の検出に冗長性を持たせ、水平線分の検出が困難な場合にも安定した仮想ページマークを生成できる技術を提供することにある。
【0014】
さらに、本発明の目的は、帳票回転操作の方向をあらかじめ検出する技術を提供し、回転操作および帳票全体の線分検出処理の回数を最低限に抑制して、処理速度を向上する技術を提供することにある。
【0015】
【課題を解決するための手段】
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。すなわち、本発明では、非OCR帳票の場合、水平線分情報が正しく検出できないことを想定して、仮想ページマークの検出にあたっては帳票の中で安定して検出できるキー線分をあらかじめ定義し、このキー線分をベースに仮想ページマーク(外接矩形)を生成する。また、キー線分の検出には冗長性を持たせ、汚れ、欠け等によってキー線分が検出できなかった場合であっても代替線分を定義してこの代替線分をベースに仮想ページマークを生成する。
【0016】
このような発明により、非OCR帳票であっても安定して仮想ページマークを生成でき、帳票識別の能力が向上する。また、キー線分の検出に冗長性があるので、帳票識別エラーの確率を減少できる。
【0017】
なお、選択するキー線分は以下のような条件に合致するものとする。すなわち、(1)帳票のかすれに耐えられる太さを持つ線分であること、(2)帳票周囲から十分な距離を持った位置にあり、スキューや帳票端の欠けにも安定な線分であること、(3)帳票の原紙の折り目と重ならない線分であること、である。
【0018】
また、本発明では、以下のような帳票回転処理を行う場合がある。すなわち、(1)原帳票を回転せずに、一部領域の水平線分を検出し、その線分情報を利用して回転方向の判別を行う。(2)回転方向の判別がOKなら回転処理に進み、NGなら帳票エラーとする。(3)原帳票を判別した回転角で回転する。(4)水平線分を検出し、その線分情報を利用して帳票識別を行う。(5)帳票識別がOKなら認識処理を行い、NGなら帳票エラーとする。
【0019】
このような帳票回転処理により、全ての帳票においてその処理が認識処理に進むまでに、1回の回転方向判別処理と1回の回転操作と1回の線分検出処理を経過するのみである。従来2回の回転操作および線分検出処理を経る場合があった時と比較して処理速度を著しく向上できる。なお、回転方向判別処理は帳票イメージの全体を検査する必要が無く、その10分の1程度の領域を検査すれば十分である。このため本発明の回転方向判別処理には過大な処理時間を要することはない。
【0020】
なお、本発明は方法あるいはシステムとして把握できるほか、プログラムとして把握することも可能である。
【0021】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づいて詳細に説明する。ただし、本発明は多くの異なる態様で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。なお、実施の形態の全体を通して同じ要素には同じ番号を付するものとする。
【0022】
以下の実施の形態では、主に方法またはシステムについて説明するが、当業者であれば明らかなとおり、本発明は方法、システムの他、コンピュータで使用可能なプログラムとしても実施できる。したがって、本発明は、ハードウェアとしての実施形態、ソフトウェアとしての実施形態またはソフトウェアとハードウェアとの組合せの実施形態をとることができる。プログラムを記録する媒体としては、ハードディスク、CD−ROM、光記憶装置または磁気記憶装置を含む任意のコンピュータ可読媒体を例示できる。
【0023】
また、本実施の形態で用いるコンピュータシステムには、一般的なコンピュータシステムを用いることができる。コンピュータシステムには、パーソナルコンピュータ、ワークステーション、メインフレームコンピュータ等各種のコンピュータを含む。なお、コンピュータシステムは相互にLAN(local area network)で接続されても良く、インターネットを介して接続されても良い。これら相互に接続されたコンピュータシステムが分散的に後に説明する本発明の方法を実現しても良い。
【0024】
一般的なコンピュータシステムは、中央演算処理装置(CPU)、主記憶装置(メインメモリ:RAM)、不揮発性記憶装置(ROM)等がバスで相互に接続され、バスには、その他コプロセッサ、画像アクセラレータ、キャッシュメモリ、入出力制御装置(I/O)等が接続される。バスには、適当なインタフェースを介して外部記憶装置、データ入力デバイス、表示デバイス、通信制御装置、音声出力装置等が接続される。その他、一般的にコンピュータシステムに備えられるハードウェア資源を備えることが可能なことは言うまでもない。外部記憶装置にはハードディスク装置、光磁気記憶装置、光記憶装置、フラッシュメモリ等半導体記憶装置が例示できる。データ入力デバイスには、キーボード等の入力装置、マウス等ポインティングデバイス、ペン入力装置、タブレット装置、スキャナ等の画像読み取り装置、音声入力装置等を含む。また、データは、ファクシミリからの信号を受けてビットマップ等のイメージデータとして入力されても良い。あるいは電子メール等に添付されたイメージデータが入力されても良い。データ表示装置としては、CRT、液晶表示装置、プラズマ表示装置が例示できる。
【0025】
オペレーティング・システムとしては、Windows(マイクロソフトの商標)、OS/2(IBMの商標)、AIX(IBMの商標)上のX−WINDOWシステム(MITの商標)などの、標準でGUIマルチウインドウ環境をサポートするものが望ましい。しかし本発明は、特定のオペレーティング・システム環境に限定されない。
【0026】
図1は本発明の一実施の形態である画像処理システムの一例をその機能について示したブロック図である。本実施の形態の画像処理システム100は、ユーザ入力部101、制御部102、画像解析部103、画像表示部104、画像入力部105、定義体格納部106を含む。
【0027】
ユーザ入力部101は、処理の開始・終了の命令の入力や、マウス等ポインティングデバイスを使用した画面上の座標値の入力等をユーザから受領し、制御部102に伝達する機能を持つ。制御部102は各種の制御を司る。画像解析部103は、画像入力部105に保持する画像情報を解析する。たとえば画像内の線分を抽出し、検出した線分を特定する座標値等を導出する。画像表示部104は、画像入力部105の保持する帳票イメージ等の画像情報や、定義体格納部106に格納されたフィールドの位置情報や、属性情報を表示画面上に表示する。画像入力部105は、ファクシミリ、スキャナ等から入力された帳票イメージ等の画像情報を保持し、その画像情報を制御部102に伝達する。定義体格納部106には、後に説明する定義体が格納される。各機能ブロックの詳しい機能については後に詳述する。
【0028】
なお、図1に示す機能ブロックは、論理的機能ブロックであり、各々1つのまとまりを持ったハードウエアやソフトウエアによって実現されることを意味するのではなく、複合し、または共通したハードウエアやソフトウエアによって実現可能である。
【0029】
次に、本実施の形態のシステムの動作を説明する。以下、OCRに本発明を適用した例を説明するが本発明はOCRだけに限られず、一般的なビットマップ・イメージの認識や識別においても適用可能である。また、画像データはビットマップイメージに限らず、ポストスクリプト形式、ピクト形式等他の形式で表現された画像データにも本発明を適用できる。
【0030】
帳票識別機能を有するOCRソフトウエアは、文字を認識するに際し、あらかじめ文字枠の位置や文字属性などを記述したファイル(以降帳票定義体と呼ぶ)を使用して実際に文字が記入された帳票を識別し、文字の記入されている場所である文字フィールドを特定し、文字を認識/コード化している。
【0031】
図2は、本実施の形態の画像処理システムに好適な帳票定義体の内容の一例を示す概念図である。帳票定義体200には、従来の帳票定義体に対応する帳票/文字枠定義情報部210、外接矩形/水平線分定義情報部230、回転方向判別用線分定義情報部250を有する。本発明の好適な実施例における定義体格納部106は、複数の帳票定義体200を格納している。
【0032】
帳票/文字枠定義情報部210は、帳票番号211およびその帳票に含まれる文字枠ごとの文字枠情報212を含む。文字枠情報212には、文字枠番号213、文字枠の開始位置214(文字枠の左上の頂点の座標位置)、文字枠の大きさ(幅及び高さの情報)215、文字数216、属性217を含む。一般に各帳票には複数の文字枠が含まれ、文字枠情報212は文字枠ごとに管理される。
【0033】
外接矩形/水平線分定義情報部230は、帳票毎に、帳票/文字枠定義情報部210にリンクしており、外接矩形の左上の位置(x、y座標)231、外接矩形の右上の位置(x座標)232、外接矩形の左下の位置(x、y座標)233、外接矩形の右下の位置(x座標)234、水平線分の本数235、キー線分の本数・ID236、代替線分の本数・ID237、線分情報238の各情報を含む。
【0034】
キー線分の本数・ID236、代替線分の本数・ID237またはこれらの双方の領域には、各線分間の関連付けを行う相互参照情報を含ませても良い。このような構成をとることにより、後述するような代替線分からのキー線分の特定、第1キー線分からの第2キー線分の特定といった処理を効率的に行うことができる。相互参照情報としては、関連する線分のID(識別情報)や関連する線分との位置の差分データ等を含ませても良い。ただしこのような情報は、線分情報238に線分ごとに持たせても良い。
【0035】
線分情報238は各々の線分について管理され、線分の開始位置239、線分の長さ240、線分の太さ241の各情報を含む。なお、ここでの線分は、帳票が正常な方向に表示された状態で水平に表示される線分である。この外接矩形/水平線分定義情報部230の4隅の情報231〜234については、従来の帳票定義体に含まれているページマーク/レファレンスマークの定義エリアを流用することも可能である。
【0036】
回転方向判別用線分定義情報部250は、帳票毎に、帳票/文字枠定義情報部210にリンクしており、回転方向判別用線分の本数251、線分情報252を含む。線分情報252は、線分ごとに管理され、線分の開始位置253、線分の長さ254、線分の太さ255等の各情報を含む。なお、回転方向判別用線分の線分情報は、正常方向に対する回転角と関連付けて記録される。たとえば正常方向に対して90度回転した画像データにおける水平線分として、及び、270度に回転した画像データにおける水平線分として前記各情報253〜255を記録できる。あるいは、たとえば正常方向に対して90度回転した画像データにおける水平線分の情報のみを記録し、270度回転の場合の線分情報は90度回転の場合のデータから計算により求めても良い。
【0037】
帳票定義体のうち、帳票/文字枠定義情報部210に相当する部分を生成する技術は、本願の出願時において公知である。たとえば、新たに作成されたOCR用帳票を文字認識プログラムに認識させるOCRの帳票定義作業(帳票定義体生成作業)を行うに際し、古典的手法においては、帳票のサイズ、ページマーク/位置補正マーク(タイミングマークまたはリファレンスマークとも呼ばれる)/文字フィールド/文字の相対的な位置とサイズなどを物差しを使って測定し、その数値を入力し、帳票定義体を生成することができる。しかし、この手法は、オペレータ(定義体作成者)にとって手間のかかるものである。現在いくつかの改良された手法が提案されている。一例をあげると、メディア・ドライブ社の「WinReader Hand v1.5 ユーザーズ・マニュアル、フィールドの設定(p19,20)」(「WinReader Hand」はメディア・ドライブ社の商標)に記載されたような、黒枠の帳票では未記入の帳票イメージをスキャナーで取り込み、ディスプレイ上に表示し、全ての黒い縦線と横線を自動検出し、オペレータが直線を正しく検出されたことを確認してから文字認識フィールドを設定する方式がある。
【0038】
また、本願の出願人による特許3113827号公報に記載されているように、文字枠を含む帳票のスキャンしたイメージをディスプレイ上に表示し、認識フィールドごとに左端の文字枠内をマウスでクリックし、次に同一フィールドの右端の文字枠内をクリックすることにより自動的にフィールドの指定を行う技術がある。この技術においては、文字枠検出プログラムを実行後、検出された文字枠の再設定、属性情報の設定を行うことが可能である。フィールド属性を設定すると、数字項目中の数字の「0」を誤って英字の「O」と認識することを避けることができ、また、対比する集合が少なくなるため、高速に認識を行うことができるというメリットがある。特に手書き文字認識では、数字の「0」と英字の「O」等判別が困難な文字も存在するため、属性情報を含む帳票定義体を用いなくても認識は可能であるものの、実用に耐えうる速度、及び認識率を得ることは困難であり、また認識した文字の以降の扱い(住所、姓名、金額など)が不明になりやすい。従って、帳票を認識する処理は、通常、帳票定義体の作成とそれに基づく実帳票の認識という2つのステップから構成されている。
【0039】
本発明も、このOCR処理における帳票定義体の作成への適用と帳票識別/文字認識への適用の2つのステップへ応用することができる。以下、各ステップにおける本発明の適用例を説明する。
【0040】
図3は、帳票定義体作成処理の流れの一例を示したフローチャートである。まず、ブランク帳票のイメージデータをスキャナ、ファクシミリ等によって入力する。この帳票定義体の作成処理においては、帳票は正常方向に表示されているものとする。つまり、帳票が90度、270度等回転して入力された場合には、正常方向で表示されるように回転修正されているものとする。
【0041】
画像が正常方向で表示されている状態で、画像から水平線分の抽出を行う(ステップ301)。本発明では、帳票から水平線分を抽出し、これを帳票識別のベースにすることが特徴の一つである。これは、水平線分の抽出は垂直線分の抽出に比較して数倍速く処理できるからである。ビットマップデータの場合、水平方向にスキャンすることによって高速に水平線分の抽出が行える。この時、文字等を形成する無用の短い線分やノイズの影響を避けるために、水平線分の長さ及び太さに制限を設けることができる。例えば長さ7mm以下あるいは太さ0.3mm以下の線分は無視するという制限を例示できる。
【0042】
図4は、本実施の形態で用いる帳票の一例を示した図である。帳票400は、たとえばA4用紙サイズの大きさであり、長手方向に横書きされるフォーマットを持つ。帳票400には多数の入力領域401が存在する。図示する帳票400はブランク帳票であり、入力領域401には必要に応じて文字が書き込まれる。なお、符号401を付した入力領域は例示であり、それ以外の領域にも入力領域が存在することは勿論である。入力領域401に書き込まれた文字は、後に説明するように文字認識の対象となる。
【0043】
図5は、図4の帳票がステップ301で線分抽出された後の一例を示す概念図である。ここでは、帳票400内のほとんど全ての水平線分601が抽出されている状態を示す。線分を特定する情報として、各線分(線幅の中央)の始点、終点のx,y座標、線分の太さの情報を線分特定情報として保持する。各線分の始点のx,y座標、線分の長さ、太さの情報を線分特定情報として保持することも有効である。また、次に説明するキー線分を識別するために各線分に線分番号等のIDを付す。
【0044】
次に、図5のように抽出された線分601からキー線分を選択する(ステップ302)。図6はキー線分の選択手順の一例を示したフローチャートである。以下キー線分の選択手順を説明する。
【0045】
まず、コンピュータの表示画面上に図5のように線分を表示する(ステップ501)。このとき、図4の帳票400を重ねて表示しても良い。
【0046】
次にオペレータがマウス等のポインティングデバイスを用いてキー線分を特定する(ステップ502)。キー線分の選択基準は、このキー線分をベースとして外接矩形(仮想ページマーク)が生成されることを考慮すれば、確実かつ安定に抽出されるものであることが好ましい。よって、選択するキー線分は十分な太さを持ち、かすれ等に強いものであるべきである。また、帳票の原紙である用紙に折り目がある場合には、これら折り目の部分で線分が途切れることがよくある。このためキー線分は折り目の領域に重ならないものであるべきである。また、帳票400のスキューが正確に補正できることを考慮すれば、できるだけ帳票400の周辺にその端部が位置する線分を選択することが好ましい。しかし、あまり極端に端部に位置するようでは逆に安定な外接矩形は生成できない。クリアエリアは端部の欠けやスキュー補正に対処するために余裕として持たせておくべき空白エリアであり、図4に示すような帳票400のように、周辺に十分な空白のクリアエリアが存在しない帳票では積極的に仮想的なクリアエリア(空白ではないが、ファクシミリ等のファックスヘッダーによる欠け、スキューや伸縮に対応するために必要なエリア、以降仮想クリアエリアという)をとるべきである。これらの条件を考慮してオペレータがマウスを用いて候補となる線分を指定する。
【0047】
システムは指定された線分について、所定の太さ以上であるかを判断し(ステップ503)、これがYesであるときにはさらに帳票周囲の仮想クリアエリアに重ならないかを判断し(ステップ504)、この判断もYesの場合はさらに折り目と重ならないかを判断する(ステップ505)。ステップ505の判断をもYesと判断されたとき、すなわち前記3つの条件を全てYesと判断したとき選択された線分をキー線分として決定する(ステップ506)。選択されたキー線分は、線分番号(線分ID)が記録されることによって管理される。なお、前記ステップ503〜505の判断が1つでもnoの場合はステップ502に戻って線分の特定からやり直す。線分決定後、線分の選択処理を終了するかをオペレータに問い合わせ(ステップ507)、選択処理を続行する場合はステップ502に戻って上記処理を繰り返し、選択処理を終了する時には処理を終了する(ステップ508)。以上のようにして抽出された水平線分からキー線分を選択する。
【0048】
なお、ここでは、オペレータが選択した線分について、前記した選択基準の判断をシステムがステップ503〜505によって自動的に行う例を説明した。しかし、前記判断をシステムに自動的に行わせるのではなく、全ての判断をオペレータに任せても良い。また、オペレータに線分を選択させるのではなく、ステップ301で抽出された線分について各々前記ステップ503〜505の判断を行い、それをパスした線分のうち最も周辺にその端部が位置する線分からランキングを行い、ランクの高い線分をシステムが自動的にキー線分であると決定する方法を採用することもできる。つまり、キー線分の決定を全てシステムによって自動的に行っても良い。
【0049】
次に代替線分を選択する(ステップ303)。後に説明するように、本実施の形態では外接矩形の形成はキー線分をベースに行う。しかし、キー線分が検出できなかった場合、外接矩形が生成できない事態を生じるので、これを避けるため、代替線分をキー線分のバックアップとして定義する。代替線分の選択基準はキー線分の選択基準とほぼ同じである。ただし、既にキー線分として選択されている線分は選択対象から除かれる。選択方法は前記した図6に示す手順と同じである。また、代替線分がオペレータの選択操作のみによって、あるいはシステムにより自動生成できる点もキー線分選択の場合と同様である。
【0050】
図7は、キー線分および代替線分が選択された後の線分を示す概念図である。図5に示す線分のうち、キー線分として線分611,612,613が選択されている。また、代替線分として線分621,622,623が選択されている。図8は、仮想クリアエリアおよび折り目領域を重ねて示した図である。キー線分611,612,613および代替線分621,622,623は、帳票400の周囲の仮想クリアエリア631、折り目領域632に重ならないように選択されている。このように選択されたキー線分611,612,613および代替線分621,622,623は、実際の認識処理においてほぼ確実に抽出および認識されることが期待され、安定した外接矩形を確実に生成できることが期待できる。これにより帳票の周囲に実際のクリアエリア(空白)が存在しない場合でも、帳票の識別を確実にすることができる。また、OCR用に設計されていない非OCR帳票では、線分認識が困難な細い線分を含むこともあるが、このような細い線分をあらかじめ避けて、確実に認識されるであろう太い線分をキー線分あるいは代替線分とすることにより、非OCR帳票であっても確実に外接矩形を生成できる。また、帳票端部や折り目領域に位置することによって欠けの生じる可能性のある線分を避け、そのような欠けの生じない線分をキー線分あるいは代替線分に選択するため、安定に外接矩形を生成できる。さらに、仮にキー線分の検出に失敗した場合であっても、代替線分を検出できれば外接矩形を生成することが可能になる。つまり外接矩形生成のベースとなる線分の検出に冗長性を持たすので、外接矩形生成の信頼性を向上できる。
【0051】
なお、図7および図8では、キー線分、代替線分の各々を3本ずつ選択している例を示しているが、キー線分および代替線分の本数は、十分な大きさの外接矩形が生成できる限り2本でもよい。
【0052】
次に、キー線分あるいは必要な場合は代替線分をベースに外接矩形を生成する(ステップ304)。まず、外接矩形の生成に先立ち、ステップ301で抽出された水平線分の集合から帳票に唯一の平均スキュー値を計算しておく。たとえば線分情報の始点、終点のx,y座標から各線分の傾きを求め、その平均値を平均スキュー角とする。外接矩形はこの平均スキュー値の角度を持って生成される。
【0053】
外接矩形は、キー線分を含む矩形として生成される。キー線分となる各線分の始点の最小及び最大のy座標、最小のx座標、各線分の最大のx座標の情報から、外接矩形の定義情報として、外接矩形の4隅の点を保持する。図9は、外接矩形の形成処理によって作成された外接矩形の概念図である。外接矩形641の各頂点に仮想ページマーク642が生成されることになる。外接矩形の頂点に線分が無い場合、たとえば図9の外接矩形641の右下頂点のような場合、水平線分x座標の最大値または最小値を用いて直線方程式で算出する。
【0054】
このようにして求めた水平線分、キー線分、外接矩形の位置情報は、図2の定義体に格納する。
【0055】
次に、外接矩形を基準として文字フィールドの位置及び認識属性を指定する(ステップ305)。外接矩形の左上を原点として、文字枠の相対的な位置を決定する。本実施の形態においては、従来の帳票定義体200として、帳票/文字枠定義情報部210のみが先に作成されており、その生成されている帳票定義体200に、外接矩形/水平線分定義情報部230を追加している。この態様においては、各文字枠の開始位置214のx座標y座標の値が外接矩形の左上の位置231のx座標y座標の値によって減算される。
【0056】
本実施の形態においては、帳票/文字枠定義情報部210と、外接矩形/水平線分定義情報部230とを一連の処理で定義する。この態様においては、先に抽出された外接矩形の左上の位置231を起点として、公知の文字枠の検出プログラムを実行し、文字枠の開始位置214の抽出を行っている。
【0057】
また、外接矩形の左上の位置231と右上の位置232をページマークとみなして使用することにより、従来のページマークを使用したプログラムを大きな変更を加えずに使用することができる。
【0058】
次に、外接矩形の左上を基準とした逆回転による隅と各文字フィールドのスキュー補正を行う(ステップ306)。先に求めたスキュー値に基づいた回転角を用い、外接矩形の残りの3隅及び文字枠の位置を外接矩形の左上を基に計算上の逆回転補正をする。これによって算出された外接矩形の4隅の位置情報を帳票定義体200の外接矩形の4隅の位置情報231〜234と置換する。このように、イメージそのものを回転させることなく、いわゆる位置情報のマッピングのみで理論上のスキュー補正を行うので高速に処理ができる。また、文字枠の開始位置214をスキュー補正後の情報に置換する。
【0059】
次に、外接矩形の補正後の4隅の位置を保存する(ステップ307)。外接矩形の補正後の4隅の位置を、現行のページマークの位置情報として保存する。これにより、この補正後の4隅の位置情報は、仮想ページマークとして現行のページマークを用いた文字枠検出ロジックに流用できる。
【0060】
次に、水平線分情報を保存する(ステップ308)。図2に示す定義体に、検出した水平線分の本数235、キー線分の本数およびID236、代替線分の本数およびID237、開始位置239、長さ240、太さ241等の各種情報を保存する。この情報は、帳票識別の際に使用する。なお、キー線分のおよび代替線分の本数は必ずしも保存する必要はない。また、キー線分および代替線分は線分IDとして記録しているが、その開始位置、長さ、太さを水平線分とは別個に保存しても構わない。また、代替線分はキー線分との相対位置として保存しても良い。
【0061】
次に、画像回転方向判別用の線分の定義を行う。まず、画像を90度回転させ(ステップ309)、その回転した画像についてステップ301と同様に水平線分の抽出を行う(ステップ310)。
【0062】
次に、回転方向判別用線分の選択を行う(ステップ311)。回転方向判別用線分の選択基準は、キー線分の場合(ステップ302)と同様である。ただし、以下の条件を加重する。すなわち、画像中心を軸とする回転対称位置に同じあるいは類似する線分が存在しないという条件である。この条件を付加しなければ、180度回転対称になり、回転方向が判別できなくなるのでその意義は明白である。
【0063】
図10は、回転方向判別用線分の選択手順の一例を示したフローチャートである。まず、コンピュータの表示画面上に抽出された線分を表示する(ステップ701)。このとき、90度回転された帳票を重ねて表示しても良い。次にオペレータがマウス等のポインティングデバイスを用いて回転方向判別用線分を特定する(ステップ702)。回転方向判別用線分の選択基準は、前記した条件の通りである。システムは指定された線分について、所定の太さ以上であるかを判断し(ステップ703)、これがYesであるときにはさらに帳票周囲の仮想クリアエリアに重ならないかを判断する(ステップ704)。ステップ704の判断がYesの場合、さらに画像中心を軸とする180度回転対称位置に同じ線分が無いかを判断し(ステップ705)、この判断もYesの場合はさらに折り目と重ならないかを判断する(ステップ706)。ステップ706の判断をもYesと判断されたとき、すなわち前記4つの条件を全てYesと判断したとき、選択された線分を回転方向判別用線分として決定する(ステップ707)。前記ステップ703〜706の判断が1つでもnoの場合はステップ702に戻って線分の特定からやり直す。線分決定後、線分の選択処理を終了するかをオペレータに問い合わせ(ステップ708)、選択処理を続行する場合はステップ702に戻って上記処理を繰り返し、選択処理を終了する時には処理を終了する(ステップ709)。以上のようにして抽出された水平線分から回転方向判別用線分を選択する。
【0064】
図11は、回転方向判別用線分の選択処理を終了した後の表示の一例を示す図である。回転方向判別用線分として線分711が選択されている。
【0065】
なお、回転方向判別用線分が、オペレータの選択操作のみによって決定できる点、システムによって自動生成できる点は、キー線分の場合と同様である。
【0066】
選択および決定された回転方向判別用線分は、その本数、各線分についての開始位置、長さ、太さ等の情報が、図2の回転方向判別用線分定義情報部250に記録される(ステップ312)。
【0067】
以上のようにして帳票定義体200に必要な情報が収集される。帳票定義体200の情報は、実際の認識処理で利用される。
【0068】
次に、帳票識別および文字認識処理を説明する。図12は、帳票識別および文字認識処理の一例を示したフローチャートである。なお、本実施の形態では、A4等縦横長さの相違する帳票について、その長辺方向に横書きされている帳票が入力される場合を仮定する。また、入力される帳票の画像読み取り方向は任意であると仮定する。つまり、入力画像は、正常位置に対して90度または270度回転した状態で入力されると仮定する。
【0069】
まず、入力画像の入力された状態で、水平線分の抽出を行う(ステップ801)。ただし、ここで抽出される水平線分は画像回転方向判別用の線分であり、帳票全体について抽出処理を行う必要はない。図13は、ステップ801において処理される領域を示した図である。ある帳票を仮定すれば、回転方向判別用線分711が存在するであろう領域を仮定できる。よって、この線分が存在すると思われる領域902と、回転中心901を中心とする180度回転対称位置にある領域903とについて水平線分抽出処理を行う。このようにこのステップでは帳票全体を処理対象とするのではなく、その一部を処理対象とするので、回転方向判別処理の速度を向上できる。一般的には、帳票全体の10%程度を処理対象とすれば良く、処理時間は全体を対象とする場合と比較して10%程度に低減できる。
【0070】
次に回転方向の判別処理を行う(ステップ802)。図13における領域902に、回転方向判別用線分定義情報部250に記録された線分が検出できた場合は、この帳票は90度回転状態で入力されていることになる。なお本明細書において回転方向は時計回りの逆方向に正値をとる。
【0071】
逆に領域903に、回転方向判別用線分定義情報部250に記録された線分が検出できた場合は、この帳票は270度回転状態で入力されていることになる。
【0072】
90度回転で入力されていると判断した場合は画像全体に270度の回転処理を施し(ステップ804)、270度回転で入力されていると判断した場合は画像全体に90度回転の処理を施す(ステップ803)。何れの領域902,903にも回転方向判別用線分が検出できない時には帳票エラーであると判断し(ステップ805)、他の帳票について判断を続行する、あるいは処理を中止する。
【0073】
回転処理を施された画像データについて、水平線分の抽出を行う(ステップ806)。帳票定義の場合と同様に、帳票のイメージ(画像データ)から水平方向の走査によって高速に処理できる水平線分のみを検出する。この時も、文字等を形成する無用の短い線分やノイズの影響を避けるために、水平線分の長さ及び太さにある制限をつける。
【0074】
次に、抽出された水平線分からキー線分を検出する(ステップ807)。キー線分が検出できない時は代替線分の検出を試みる(ステップ809)。代替線分が検出できた時には代替線分からキー線分を生成し(ステップ810)、キー線分が検出されたものとして処理を続行する。代替線分をも検出できない時には帳票エラーとする(ステップ811)。
【0075】
あるいはキー線分の検出は以下にように行うこともできる。キー線分のうち任意の第1キー線分を選択し、この第1キー線分に相当する線分が抽出されているかを判断する。第1キー線分の検出は、用紙のずれあるいはスキューの存在を考慮して、ある程度広い範囲をサーチする。すなわち、第1キー線分が存在するであろう領域を中心に、比較的広い範囲を対象としてその存在をチェックする。第1キー線分が検出できないときには、第1キー線分に対応する第1代替線分をサーチする。第1代替線分のサーチは第1キー線分の場合と同様である。第1代替線分が検出されたときには、その相対位置から第1キー線分が存在すべき位置を特定し、当該位置に第1キー線分があると仮定して以降の処理を進める。第1代替線分が検出できない時には帳票エラーと判断する。第1キー線分が検出できたとき、あるいは第1代替線分によって第1キー線分が特定されたときには、第1キー線分を基準に第2キー線分の相対位置を計算し、その相対位置に相当する比較的狭い領域に絞って第2キー線分をサーチする。第2キー線分が検出できないときには前記同様に第2代替線分をサーチし、検出できた時には第2キー線分が存在すべき位置に第2キー線分があるとする。第2代替線分が検出できないときには帳票エラーとする。上記の処理を順次繰り返し、必要数のキー線分が検出されるまで処理を繰り返す。
【0076】
なお、上記の相対位置に基づく判定処理は、各線分の開始位置等のアドレス位置からその都度算出してもよいし、予め差分としての相対位置データを外接矩形/水平線分定義情報部230に保持することによって行っても良い。
【0077】
外接矩形生成に必要なキー線分が検出できた段階で、キー線分から外接矩形を生成する(ステップ808)。外接矩形の生成は、帳票定義の場合と同様である。抽出された水平線分の集合から帳票に唯一の平均スキュー値を計算し、その角度を持った外接矩形を形成する。
【0078】
次に、スキューの理論的補正を行う(ステップ812)。前記帳票定義の場合と同様に、文字枠の位置等を検出し補正する。これにより帳票定義時と認識時のスキューが異なっていたり位置ずれしていたりしても、同じ理想イメージ上で対応をとることができる。
【0079】
次に、外接矩形の類似度による帳票候補の絞り込みを行う(ステップ813)。形成された外接矩形の縦横の長さを帳票定義体200の外接矩形の4隅の情報231〜234から算出された外接矩形の縦横の長さと比較する。あるしきい値より類似度が大きい場合は次の処理に進む。不合格の場合は別の帳票定義体と類似度比較を行う(ステップ816,817)。なお、帳票上に帳票IDが存在するか否かを検査し、帳票IDが存在する場合は、それを認識し、帳票定義体200の帳票番号211と比較することにより帳票識別を完全なものとしてもよい。
【0080】
次に、水平線分情報の類似度による帳票候補の絞り込みを行う(ステップ814)。抽出された水平線分を帳票定義体に保存されている水平線分情報と長方形内の位置、長さに関して比較する。あるしきい値より類似度が大きい場合は次の水平線分の比較処理に進む。なお、最終的に本数は必ずしも一致しなくてもよいものとする。これは、記入された文字などによる水平線分の誤検出や検出漏れによる影響を少なくするためである。これらの類似度比較に合格すると次の処理に進む。不合格の場合は別の帳票定義体と類似度比較を行う。
【0081】
次に、定義体情報をもとに帳票識別と文字認識を行う(ステップ815)。形成された外接矩形の4隅の位置情報、回転角、帳票定義体の文字枠の位置情報や属性情報などを基に文字認識処理を行う。(外接矩形の4隅の位置情報は、帳票定義の場合と同様に仮想ページマークとすることで、現行のページマークからの文字枠検出ロジックが流用できる。)この後にスキャンした帳票と推定した帳票とが一致しない場合は、ステップ813に戻り他の定義体を調べる。このエラーが起こり得るのは、水平線分が一致しても帳票が異なる場合や、水平線分の類似度のしきい値があまい場合である。
【0082】
ステップ813、814、815の条件を満たす帳票であった場合には、その定義体の帳票に一致する帳票としてOCRの処理を行う。いずれの帳票定義体200に定義された帳票とも一致しない帳票の場合には、認識不能な帳票が入力されたものと判断し、エラーの処理を行う。
【0083】
以上説明したように、本実施の形態の画像処理システムあるいは画像処理方法によれば、非OCR帳票であっても安定に帳票識別を行うことができ、また、文字認識を行うことができる。また、帳票の周囲にクリアエリア(空白)が無い場合であっても安定に帳票識別および文字認識処理が行える。また、帳票に折り目その他線分がかすれる、欠ける等の要因があっても、これを避けることができ、帳票識別および文字認識の安定化、高信頼化を図ることができる。
【0084】
また、90度あるいは270度に回転して入力された画像データの処理を高速化できる。本実施形態の方法と、従来の回転方向判別の方法とを、現実的な帳票処理の場合における処理時間で比較すると以下の通りである。ここで、処理対象帳票として以下のように仮定する。この仮定は現実の帳票処理において一般的な数値である。すなわち、OCR該当帳票は処理総数の50%である。OCR該当帳票のうち、90度回転および270度回転の割合は各々50%である。画像データの回転処理の時間は100msec/秒である。帳票全体の水平線分検出処理時間は200msec/秒である。回転方向判別のための水平線分検出処理時間は20msec/秒である(帳票全体を処理する必要がないので処理時間は短い)。帳票識別、回転方向判別処理の処理時間は無視できる。該当帳票以外の実帳票でキー線分が存在するものはごく少数である。以上のように仮定する。
【0085】
背景技術で説明した回転方向判別の場合、帳票1枚あたりの処理時間は以下の通りである。すなわち、
90度回転のOCR該当帳票の処理時間=25%×(100+200msec)=75msec
270度回転のOCR該当帳票の処理時間=25%×(100+200msec)×2=150msec
OCR該当帳票でない帳票の処理時間=50%×(100+200msec)×2=300msec
合計の処理時間=525msec
一方、本実施の形態の回転方向判別の場合、帳票1枚あたりの処理時間は以下の通りである。すなわち、
90度回転のOCR該当帳票の処理時間=25%×(20+100+200msec)=80msec
270度回転のOCR該当帳票の処理時間=25%×(20+100+200msec)=80msec
OCR該当帳票でない帳票の処理時間=50%×(20msec)=10msec
合計の処理時間=170msec
つまり、本実施の形態の場合は、従来の処理時間と比較して32%に削減されたことがわかる。
【0086】
以上、本発明者によってなされた発明を発明の実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。
【0087】
たとえば、実施の形態では、入力画像データが90度あるいは270度回転されたものを仮定したが、180度回転されたものを加えても良い。この場合、それに対応した回転角度検出用の水平線分データを追加する。
【0088】
また、前記実施の形態では、キー線分と代替線分の冗長性が2の場合を説明したが、代替線分のさらに代替線分等、冗長性を3以上に拡張することも可能である。
【0089】
また、前記実施の形態で、キー線分および代替線分が共に検出できない時は帳票エラーとする例を説明したが、既登録のキー線分のうち、全てのキー線分を検出できなくとも、その一部のキー線分で外接矩形を生成できる場合には、検出できたキー線分で外接矩形を生成するように拡張できる。この場合、キー線分の組合せ毎に外接矩形を定義する必要がある。
【0090】
また、前記実施の形態では、線分情報として太さを含む例を示したが、必ずしも太さは必要ではない。線分情報として開始位置および長さが特定されれば本発明を実施することができる。
【0091】
また、前記実施の形態では、主にシステムおよび方法として説明したが、これらシステムあるいは方法はコンピュータを用いて実現されるものであり、本発明の方法あるいはシステムはコンピュータプログラムとして把握することが可能なことは勿論である。
【0092】
また、前記実施の形態において、回転方向判別用線分にキー線分と同様な代替線分を定義し、回転方向判別用線分が検出されない場合でも、この代替線分が検出された場合には回転方向判別用線分が検出されたとみなすようにしても良い。これにより、回転方向判別のステップにおいても冗長性を増し、帳票識別エラーと判断される確率を小さくすることができる。
【0093】
また、前記実施の形態では、キー線分あるいは代替線分の選択基準のうち、第3の条件として、折り目に重ならないことを挙げたが、帳票の原紙に折り目がないときには折り目領域632は存在せず、第3の条件について判断する必要がないことは勿論である。
【0094】
【発明の効果】
本発明によれば、非OCR用紙であっても安定した仮想ページマークを生成し、安定した帳票の識別が可能になる。また、水平線分の検出に冗長性を持たせ、水平線分の検出が困難な場合にも安定した仮想ページマークを生成できる。また、帳票回転操作の方向をあらかじめ検出する技術を提供し、回転操作および帳票全体の線分検出処理の回数を最低限に抑制して、処理速度を向上できる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である画像処理システムの一例をその機能について示したブロック図である。
【図2】本発明の一実施の形態である画像処理システムに好適な帳票定義体の内容の一例を示す概念図である。
【図3】帳票定義体作成処理の流れの一例を示したフローチャートである。
【図4】本実施の形態で用いる帳票の一例を示した図である。
【図5】図4の帳票がステップ301で線分抽出された後の一例を示す概念図である。
【図6】キー線分の選択手順の一例を示したフローチャートである。
【図7】キー線分および代替線分が選択された後の線分を示す概念図である。
【図8】仮想クリアエリアおよび折り目領域を重ねて示した図である。
【図9】外接矩形の形成処理によって作成された外接矩形の概念図である。
【図10】回転方向判別用線分の選択手順の一例を示したフローチャートである。
【図11】回転方向判別用線分の選択処理を終了した後の表示の一例を示す図である。
【図12】帳票識別および文字認識処理の一例を示したフローチャートである。
【図13】ステップ801において処理される領域を示した図である。
【符号の説明】
100…画像処理システム、101…ユーザ入力部、102…制御部、103…画像解析部、104…画像表示部、105…画像入力部、106…定義体格納部、200…帳票定義体、210…帳票/文字枠定義情報部、211…帳票番号、212…文字枠情報、213…文字枠番号、214…開始位置、216…文字数、217…属性、230…外接矩形/水平線分定義情報部、231…外接矩形の左上の位置、232…外接矩形の右上の位置、233…外接矩形の左下の位置、234…外接矩形の右下の位置、235…水平線分の本数、236…キー線分の本数・ID、237…代替線分の本数・ID、238…線分情報、239…開始位置、250…回転方向判別用線分定義情報部、251…回転方向判別用線分の本数、252…線分情報、253…開始位置、400…帳票、401…入力領域、601…水平線分、611〜613…キー線分、621〜623…代替線分、631…仮想クリアエリア、632…折り目領域、641…外接矩形、642…仮想ページマーク、711…回転方向判別用線分。
Claims (12)
- 所与の画像データから複数の水平線分を抽出するステップと、
前記複数の水平線分の中から、予め定義されたキー線分に相当する水平線分を検出し、前記キー線分に相当する水平線分に外接する外接矩形を生成するステップと、
前記キー線分に相当する水平線分が検出できない場合には、前記キー線分毎に定義された代替線分に相当する水平線分を検出し、前記代替線分の情報を用いて前記外接矩形を生成するステップと、
前記生成された外接矩形の頂点位置その他の情報を利用して、帳票毎の定義情報を記録する帳票定義体から1つの帳票を選択するステップと、を有し、
前記キー線分または代替線分は、安定した帳票の選択を可能にする基準で予め定義され、その太さが所定の閾値以上である第1の条件、前記帳票の周囲のエリアであって空白ではないが画像の欠け、スキューまたは伸縮に対応するために必要なエリアである仮想クリアエリアに重ならない第2の条件、および前記帳票に折り目領域が予め定義されている場合には前記折り目領域に重ならない第3の条件、を満足するものである、画像処理方法。 - 前記代替線分に相当する水平線分が検出されたときには、前記代替線分の相対位置から計算される対応するキー線分の存在するべき位置に水平線分が存在していると仮定し、前記仮定された水平線分に外接する外接矩形を生成する請求項1に記載の画像処理方法。
- 前記選択された帳票の定義情報を参照して、前記画像データに含まれる文字を認識するステップをさらに有する請求項1または2に記載の画像処理方法。
- 所与の画像データから水平線分を抽出するステップと、
前記抽出された水平線分が、予め定義された回転方向判別用線分に相当するかを判断し、画像回転方向を決定するステップと、
前記回転方向判別用線分に相当する水平線分が検出できない場合には、前記回転方向判別用線分毎に定義された代替線分に相当する水平線分を検出し、前記代替線分に相当する水平線分が検出されたときには、前記回転方向判別用線分が検出されたと判断して前記画像回転方向を決定するステップと、
前記決定された回転方向に前記画像データを回転するステップと、
前記画像データに相当する帳票を識別し、必要な場合はさらに前記帳票の定義情報を参照して前記画像データに含まれる文字を認識するステップと、を有し、
前記回転方向判別用線分または代替線分は、安定した帳票の識別を可能にする基準で予め定義され、その太さが所定の閾値以上である第1の条件、前記帳票の周囲のエリアであって空白ではないが画像の欠け、スキューまたは伸縮に対応するために必要なエリアである仮想クリアエリアに重ならない第2の条件、前記帳票に折り目領域が予め定義されている場合には前記折り目領域に重ならない第3の条件、および前記帳票の中心を軸とする180度回転対称位置に類似する線分が存在しない第4の条件、を満足するものである、画像処理方法。 - 前記水平線分の抽出は、前記回転方向判別用線分が存在するべき前記画像データの一部領域およびその180度回転対称領域を対象とする請求項4に記載の画像処理方法。
- 所与の画像データから複数の水平線分を抽出する手段と、
前記複数の水平線分の中から、予め定義されたキー線分に相当する水平線分を検出し、前記キー線分に相当する水平線分に外接する外接矩形を生成する手段と、
前記キー線分に相当する水平線分が検出できない場合には、前記キー線分毎に定義された代替線分に相当する水平線分を検出し、前記代替線分の情報を用いて前記外接矩形を生成する手段と、
帳票毎の定義情報を記録する帳票定義体と、
前記生成された外接矩形の頂点位置その他の情報を利用して、前記帳票定義体から1つの帳票を選択する手段と、を有し、
前記キー線分または代替線分は、安定した帳票の選択を可能にする基準で予め定義され、その太さが所定の閾値以上である第1の条件、前記帳票の周囲のエリアであって空白ではないが画像の欠け、スキューまたは伸縮に対応するために必要なエリアである仮想クリアエリアに重ならない第2の条件、および前記帳票に折り目領域が予め定義されている場合には前記折り目領域に重ならない第3の条件、を満足するものである、画像処理システム。 - 前記代替線分に相当する水平線分が検出されたときには、前記代替線分の相対位置から計算される対応するキー線分の存在するべき位置に水平線分が存在していると仮定し、前記仮定された水平線分に外接する外接矩形を生成する請求項6に記載の画像処理システム。
- 前記選択された帳票の定義情報を参照して、前記画像データに含まれる文字を認識する手段をさらに有する請求項6または7に記載の画像処理システム。
- 所与の画像データから水平線分を抽出する手段と、
前記抽出された水平線分が、予め定義された回転方向判別用線分に相当するかを判断し、画像回転方向を決定する手段と、
前記回転方向判別用線分に相当する水平線分が検出できない場合には、前記回転方向判別用線分毎に定義された代替線分に相当する水平線分を検出し、前記代替線分に相当する水平線分が検出されたときには、前記回転方向判別用線分が検出されたと判断して前記画像回転方向を決定する手段と、
前記決定された回転方向に前記画像データを回転する手段と、
前記画像データに相当する帳票を識別し、必要な場合はさらに前記帳票の定義情報を参照して前記画像データに含まれる文字を認識する手段と、を有し、
前記回転方向判別用線分または代替線分は、安定した帳票の識別を可能にする基準で予め定義され、その太さが所定の閾値以上である第1の条件、前記帳票の周囲のエリアであって空白ではないが画像の欠け、スキューまたは伸縮に対応するために必要なエリアである仮想クリアエリアに重ならない第2の条件、前記帳票に折り目領域が予め定義されている場合には前記折り目領域に重ならない第3の条件、および前記帳票の中心を軸とする180度回転対称位置に類似する線分が存在しない第4の条件、を満足するものである、画像処理システム。 - 前記水平線分の抽出は、前記回転方向判別用線分が存在するべき前記画像データの一部領域およびその180度回転対称領域を対象とする請求項9に記載の画像処理システム。
- コンピュータが実行可能なプログラムであって、
所与の画像データから複数の水平線分を抽出する機能と、
前記複数の水平線分の中から、予め定義されたキー線分に相当する水平線分を検出し、前記キー線分に相当する水平線分に外接する外接矩形を生成する機能と、
前記キー線分に相当する水平線分が検出できない場合には、前記キー線分毎に定義された代替線分に相当する水平線分を検出し、前記代替線分の情報を用いて前記外接矩形を生成する機能と、
前記生成された外接矩形の頂点位置その他の情報を利用して、帳票毎の定義情報を記録する帳票定義体から1つの帳票を選択する機能と、
前記選択された帳票の定義情報を参照して、前記画像データに含まれる文字を認識する機能と、をコンピュータに実現させ、
前記キー線分または代替線分は、安定した帳票の選択を可能にする基準で予め定義され、その太さが所定の閾値以上である第1の条件、前記帳票の周囲のエリアであって空白ではないが画像の欠け、スキューまたは伸縮に対応するために必要なエリアである仮想クリアエリアに重ならない第2の条件、および前記帳票に折り目領域が予め定義されている場合には前記折り目領域に重ならない第3の条件、を満足するものである、プログラム。 - コンピュータが実行可能なプログラムであって、
所与の画像データから水平線分を抽出する機能と、
前記抽出された水平線分が、予め定義された回転方向判別用線分に相当するかを判断し、画像回転方向を決定する機能と、
前記回転方向判別用線分に相当する水平線分が検出できない場合には、前記回転方向判別用線分毎に定義された代替線分に相当する水平線分を検出し、前記代替線分に相当する水平線分が検出されたときには、前記回転方向判別用線分が検出されたと判断して前記画像回転方向を決定する機能と、
前記決定された回転方向に前記画像データを回転する機能と、
前記画像データに相当する帳票を識別し、前記帳票の定義情報を参照して前記画像データに含まれる文字を認識する機能と、をコンピュータに実現させ、
前記回転方向判別用線分または代替線分は、安定した帳票の識別を可能にする基準で予め定義され、その太さが所定の閾値以上である第1の条件、前記帳票の周囲のエリアであって空白ではないが画像の欠け、スキューまたは伸縮に対応するために必要なエリアである仮想クリアエリアに重ならない第2の条件、前記帳票に折り目領域が予め定義されている場合には前記折り目領域に重ならない第3の条件、および前記帳票の中心を軸とする180度回転対称位置に類似する線分が存在しない第4の条件、を満足するものである、プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001163376A JP3864246B2 (ja) | 2001-05-30 | 2001-05-30 | 画像処理方法、画像処理システムおよびプログラム |
US10/153,143 US7006670B2 (en) | 2001-05-30 | 2002-05-21 | Image processing method, image processing system and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001163376A JP3864246B2 (ja) | 2001-05-30 | 2001-05-30 | 画像処理方法、画像処理システムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002366895A JP2002366895A (ja) | 2002-12-20 |
JP3864246B2 true JP3864246B2 (ja) | 2006-12-27 |
Family
ID=19006359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001163376A Expired - Fee Related JP3864246B2 (ja) | 2001-05-30 | 2001-05-30 | 画像処理方法、画像処理システムおよびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7006670B2 (ja) |
JP (1) | JP3864246B2 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2801997A1 (fr) * | 1999-12-02 | 2001-06-08 | Itesoft | Technologie adaptative d'analyse automatique de document |
JP4142982B2 (ja) * | 2003-05-13 | 2008-09-03 | 株式会社Pfu | 画像読み取り装置 |
JP4178263B2 (ja) * | 2003-06-10 | 2008-11-12 | 富士通マイクロエレクトロニクス株式会社 | データ保存方法及びデータ保存装置 |
TWI236838B (en) * | 2004-04-22 | 2005-07-21 | Avision Inc | Image acquisition device and method capable of rotating document images |
US20070086773A1 (en) * | 2005-10-14 | 2007-04-19 | Fredrik Ramsten | Method for creating and operating a user interface |
EP1791080A1 (en) | 2005-11-23 | 2007-05-30 | Neopost S.A. | Finding markings on a document |
JP4635845B2 (ja) * | 2005-11-29 | 2011-02-23 | 日本電気株式会社 | Ocr装置、フォームアウト方法及びフォームアウトプログラム |
JP2007267197A (ja) * | 2006-03-29 | 2007-10-11 | Fujitsu Ltd | 画像処理方法、画像処理装置、および印刷物 |
JP4595101B2 (ja) * | 2006-05-26 | 2010-12-08 | 京セラミタ株式会社 | 画像形成装置 |
US8275168B2 (en) * | 2009-08-28 | 2012-09-25 | Seiko Epson Corporation | Orientation free watermarking message decoding from document scans |
US20110052094A1 (en) * | 2009-08-28 | 2011-03-03 | Chunyu Gao | Skew Correction for Scanned Japanese/English Document Images |
US9152617B2 (en) * | 2010-03-11 | 2015-10-06 | A2iA S.A. | System and method for processing objects |
JP5649059B2 (ja) * | 2011-03-17 | 2015-01-07 | 株式会社Pfu | 画像形成システム、画像形成装置、画像処理方法、及びプログラム |
JP6171165B2 (ja) * | 2012-09-30 | 2017-08-02 | 日本電産サンキョー株式会社 | 運転免許証読取装置及び運転免許証読取方法 |
JP5822865B2 (ja) * | 2013-04-25 | 2015-11-25 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置、罫線判定方法、及び罫線判定プログラム |
CN104951741A (zh) * | 2014-03-31 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 一种文字识别方法及装置 |
CN105354834B (zh) * | 2015-10-15 | 2018-04-17 | 广东欧珀移动通信有限公司 | 一种统计纸质文本字体个数的方法及装置 |
CN107133621B (zh) * | 2017-05-12 | 2020-09-29 | 中电鸿信信息科技有限公司 | 基于ocr的格式化传真的分类和信息提取方法 |
JP7160432B2 (ja) | 2018-04-02 | 2022-10-25 | 日本電気株式会社 | 画像処理装置、画像処理方法、プログラム |
CN110619158A (zh) * | 2019-08-30 | 2019-12-27 | 合肥芯碁微电子装备有限公司 | 一种多边形边界盘绕方向计算方法 |
US20230139831A1 (en) * | 2020-09-30 | 2023-05-04 | DataInfoCom USA, Inc. | Systems and methods for information retrieval and extraction |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5101448A (en) * | 1988-08-24 | 1992-03-31 | Hitachi, Ltd. | Method and apparatus for processing a document by utilizing an image |
US5335290A (en) * | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
US6574375B1 (en) * | 1992-04-06 | 2003-06-03 | Ricoh Company, Ltd. | Method for detecting inverted text images on a digital scanning device |
JPH11143986A (ja) * | 1997-10-17 | 1999-05-28 | Internatl Business Mach Corp <Ibm> | ビットマップイメージの処理方法及び処理装置、ビットマップイメージの処理を行うイメージ処理プログラムを格納した記憶媒体 |
US6711292B2 (en) * | 1998-12-30 | 2004-03-23 | Canon Kabushiki Kaisha | Block selection of table features |
US6909805B2 (en) * | 2001-01-31 | 2005-06-21 | Matsushita Electric Industrial Co., Ltd. | Detecting and utilizing add-on information from a scanned document image |
-
2001
- 2001-05-30 JP JP2001163376A patent/JP3864246B2/ja not_active Expired - Fee Related
-
2002
- 2002-05-21 US US10/153,143 patent/US7006670B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7006670B2 (en) | 2006-02-28 |
JP2002366895A (ja) | 2002-12-20 |
US20020181777A1 (en) | 2002-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3864246B2 (ja) | 画像処理方法、画像処理システムおよびプログラム | |
US6356655B1 (en) | Apparatus and method of bitmap image processing, storage medium storing an image processing program | |
JP3805005B2 (ja) | 画像処理装置及び光学的文字認識装置及びそれらの方法 | |
US6600834B1 (en) | Handwriting information processing system with character segmentation user interface | |
US5465304A (en) | Segmentation of text, picture and lines of a document image | |
US7825922B2 (en) | Temporary lines for writing | |
US5410611A (en) | Method for identifying word bounding boxes in text | |
US6640010B2 (en) | Word-to-word selection on images | |
JP3113827B2 (ja) | 矩形オブジェクトの認識方法及び認識装置 | |
AU2004208732B2 (en) | System and method for detecting a hand-drawn object in ink input | |
US20090021793A1 (en) | Image processing device, image processing method, program for executing image processing method, and storage medium for storing program | |
JP3795238B2 (ja) | 文書画像処理装置及び文書画像処理方法 | |
JP3467437B2 (ja) | 文字認識装置及びその方法とプログラム記録媒体 | |
JP4810853B2 (ja) | 文字画像切出装置、文字画像切出方法およびプログラム | |
JPH10171920A (ja) | 文字認識装置、その文字認識方法およびその記録媒体 | |
JP2000082110A (ja) | 罫線消去装置および文字画像抽出装置および罫線消去方法および文字画像抽出方法および記録媒体 | |
JP2761679B2 (ja) | オンライン手書き文字認識装置 | |
JPH11250179A (ja) | 文字認識装置および文字認識方法 | |
JP3268084B2 (ja) | 帳票読取システム | |
JPS5949671A (ja) | 光学的文字読取装置 | |
JP2002366900A (ja) | 光学式文字読取装置 | |
JPH1097591A (ja) | 枠なしオンライン文字認識装置 | |
JP3190794B2 (ja) | 文字切り出し装置 | |
JP2000207486A (ja) | 文字認識装置、誤認文字等検出方法及び誤認文字等検出プログラムを記録した媒体 | |
JP2983448B2 (ja) | 図面認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060320 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060829 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20060907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060912 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091013 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101013 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101013 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111013 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121013 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121013 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131013 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |