JP2005242825A - 帳票読取装置及び帳票読取装置による帳票方向判定方法 - Google Patents
帳票読取装置及び帳票読取装置による帳票方向判定方法 Download PDFInfo
- Publication number
- JP2005242825A JP2005242825A JP2004053617A JP2004053617A JP2005242825A JP 2005242825 A JP2005242825 A JP 2005242825A JP 2004053617 A JP2004053617 A JP 2004053617A JP 2004053617 A JP2004053617 A JP 2004053617A JP 2005242825 A JP2005242825 A JP 2005242825A
- Authority
- JP
- Japan
- Prior art keywords
- character
- pixel group
- similarity
- characters
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【課題】帳票読取処理の高速化を図る。
【解決手段】このOCRシステムは、文書1から画像情報(イメージデータ)を読み取るスキャナー2とコンピュータ10とからなる。コンピュータ10は、数字、記号、英字及び漢字を含む文字認識用の辞書を記憶する記憶手段としてのメモリ13と、スキャナー2から入力されたイメージデータから方向識別の対象となる横方向に長い文字を構成する画素群を検出し、ライブラリを参照して検出した画素群を正方向、逆方向、右90度、左90度の4方向に向きを変えて複数の文字を認識し、認識した各文字と元の文字を構成する画素群との類似度を判定し、判定した類似度に基づいて帳票の方向を判定する帳票方向判定手段としてのCPU16とを備える。
【選択図】図1
【解決手段】このOCRシステムは、文書1から画像情報(イメージデータ)を読み取るスキャナー2とコンピュータ10とからなる。コンピュータ10は、数字、記号、英字及び漢字を含む文字認識用の辞書を記憶する記憶手段としてのメモリ13と、スキャナー2から入力されたイメージデータから方向識別の対象となる横方向に長い文字を構成する画素群を検出し、ライブラリを参照して検出した画素群を正方向、逆方向、右90度、左90度の4方向に向きを変えて複数の文字を認識し、認識した各文字と元の文字を構成する画素群との類似度を判定し、判定した類似度に基づいて帳票の方向を判定する帳票方向判定手段としてのCPU16とを備える。
【選択図】図1
Description
本発明は、例えば帳票を処理する業務に用いられる帳票読取装置及び帳票読取装置による帳票方向判定方法に関する。
例えば文書などの帳票を光学的文字読取装置(以下OCRと称す)で画像を走査してスキャンする場合、利用者は、予め手で帳票を特定の方向に揃えておく必要がある。このような作業は、人手のかかる作業である。
そこで、OCRに入力した帳票の画像から、帳票の挿入方向が正方向、右90度、左90度、逆方向のいずれであるかを自動的に推定する技術がいくつか提案されている(例えば特許文献1参照)。
特開平11−102416号公報
上記従来の技術ではレイアウト解析処理を行っている。このレイアウト解析は、帳票に記入されたフォーマットのレイアウトの特徴を抽出する処理である。
このレイアウト解析処理は、一般的な現在のコンピュータで、A4帳票を処理する場合、500ms程度の処理時間を必要とするものであり、高速な帳票OCR装置では、処理速度上、大きな問題となる。また、従来技術における文字認識は、一般に使われる全ての文字種類、例えば漢字などの場合、4000種類以上の文字を認識対象としており、レイアウト解析処理を行うと文字認識が終了するまでに非常に時間がかかる。
このレイアウト解析処理は、一般的な現在のコンピュータで、A4帳票を処理する場合、500ms程度の処理時間を必要とするものであり、高速な帳票OCR装置では、処理速度上、大きな問題となる。また、従来技術における文字認識は、一般に使われる全ての文字種類、例えば漢字などの場合、4000種類以上の文字を認識対象としており、レイアウト解析処理を行うと文字認識が終了するまでに非常に時間がかかる。
このように上記技術には、「レイアウト解析」という手法が用いられており、レイアウト解析処理には一定の処理時間が必要なことから帳票の読み取り処理全体として長い時間がかかるという問題があった。
本発明はこのような課題を解決するためになされたもので、帳票読取処理の高速化を図ることのできる帳票読取装置及び帳票読取装置による帳票方向判定方法を提供することを目的としている。
上記した課題を解決するために、本発明の帳票読取装置は、帳票より画像を取得する画像情報取得手段と、前記画像情報取得手段により取得された帳票の画像の中から方向識別の対象となる所定方向に長い文字を構成する画素群を検出する画素群検出手段と、前記画素郡検出手段により検出された画素群をいくつかの方向に回転させて各方向毎に文字を認識する文字認識手段と、前記文字認識手段により認識された各方向の文字と元の文字を構成する画素群との類似度を判定する類似度判定手段と、前記類似度判定手段により判定された各方向毎の文字の類似度に基づいて帳票の方向を判定する帳票方向判定手段とを具備したことを特徴とする。
上記帳票方向判定手段は、画素集合検出手段により帳票の画像の異なるエリアから複数の画素群が検出された場合、文字認識手段により認識された複数の文字の類似度を方向毎に加算して最も高得点を得た方向を帳票の方向と判定する手段を具備する。
上記文字認識手段は、ライブラリの中の長音、マイナス記号(ハイフン)、数字の「いち」、英字の「エル」を参照して前記画素群検出手段により検出された所定方向に長い画素群を正方向、逆方向、右90度、左90度の4方向に向きを変えていずれかの文字として認識する文字限定認識手段を具備する。
上記文字認識手段は、前記画素群検出手段により検出された所定方向に長い画素群を正方向、逆方向、右90度、左90度の4方向に向きを変えて複数の数字として認識する数字限定認識手段を具備する。
上記文字認識手段は、ライブラリの中の長音、マイナス記号(ハイフン)、数字の「いち」、英字の「エル」を参照して前記画素群検出手段により検出された所定方向に長い画素群を正方向、逆方向、右90度、左90度の4方向に向きを変えていずれかの文字として認識する文字限定認識手段を具備する。
上記文字認識手段は、前記画素群検出手段により検出された所定方向に長い画素群を正方向、逆方向、右90度、左90度の4方向に向きを変えて複数の数字として認識する数字限定認識手段を具備する。
本発明の帳票読取装置による帳票方向判定方法は、帳票の画像を撮像するための撮像手段を備えた帳票読取装置による帳票方向判定方法において、前記撮像手段により撮像された帳票の画像の中から方向識別の対象となる所定方向に長い画素群を検出するステップと、検出した画素群をいくつかの方向に回転させて各方向毎に文字を認識するステップと、認識した各方向毎の文字と元の文字を構成する画素群との類似度を判定するステップと、判定した各方向毎の文字の類似度に基づいて帳票の方向を判定するステップとを実行することを特徴とする。
本発明では、撮像手段により撮像された帳票の画像の中から方向識別の対象となる所定方向に長い画素群を検出すると、検出した画素群をいくつかの方向に回転させて各方向毎に文字を認識し、認識した各方向毎の文字と元の文字を構成する画素群との類似度を判定し、判定した各方向毎の文字の類似度に基づいて帳票の方向を判定する。
すなわち、レイアウト解析を伴わずに帳票の方向を高速に判定するので、帳票読取処理の高速化を図ることができる。
すなわち、レイアウト解析を伴わずに帳票の方向を高速に判定するので、帳票読取処理の高速化を図ることができる。
以上説明したように本発明によれば、帳票読取処理の高速化を図ることができる。
以下、本発明の実施の形態を図面を参照して詳細に説明する。
図1は本発明に係る一つの実施の形態のOCRシステムの構成を示す図である。
同図に示すように、このOCRシステムは、帳票としての文書1の表面を例えばCCDなどで走査(スキャン)して画像情報(イメージデータ)を取得(生成)するイメージスキャナー2(以下スキャナー2と称す)と、このスキャナー2に接続され、文書1から読み取った画像情報(イメージデータ)に対して帳票方向判定処理及び文字認識処理を行うコンピュータ10とから構成されている。スキャナー2は、文書1より画像情報(イメージデータ)を取得する画像情報取得手段として機能する。
図1は本発明に係る一つの実施の形態のOCRシステムの構成を示す図である。
同図に示すように、このOCRシステムは、帳票としての文書1の表面を例えばCCDなどで走査(スキャン)して画像情報(イメージデータ)を取得(生成)するイメージスキャナー2(以下スキャナー2と称す)と、このスキャナー2に接続され、文書1から読み取った画像情報(イメージデータ)に対して帳票方向判定処理及び文字認識処理を行うコンピュータ10とから構成されている。スキャナー2は、文書1より画像情報(イメージデータ)を取得する画像情報取得手段として機能する。
コンピュータ10は、操作部11、通信I/F12、記憶手段としてのメモリ13、表示部14、ハードディスク装置15、CPU16とを備えている。操作部11は、キーボート、マウスなどのユーザーが操作を行う入力手段である。
メモリ13には、数字、記号、英字及び漢字を含む文字を認識するための標準文字パターンからなる辞書と、後述する細長い文字(記号)を検出するための検出条件の情報(ルール)が記憶されている。
表示部14は、文字認識処理のための画面、文書1の方向判定結果、文書1の文字認識結果などを表示する。
ハードディスク装置15には、オペレーティングシステム(以下OSと称す)と、CPU16に各部の制御動作を行わせる制御ソフトウェアとがインストールされており、これらが協動して本システムの動作を実現する。動作説明ではコンピュータ起動後のCPU16の動作として説明する。
表示部14は、文字認識処理のための画面、文書1の方向判定結果、文書1の文字認識結果などを表示する。
ハードディスク装置15には、オペレーティングシステム(以下OSと称す)と、CPU16に各部の制御動作を行わせる制御ソフトウェアとがインストールされており、これらが協動して本システムの動作を実現する。動作説明ではコンピュータ起動後のCPU16の動作として説明する。
すなわち、CPU16は、スキャナー2により取得された文書1のイメージデータを一定方向に操作してその中から方向識別の対象となる所定方向に細長い文字、例えば横方向などに長い文字(横長文字)を構成する画素群(イメージデータの切り出し領域)を検出する画素群検出手段と、メモリ13に記憶された辞書を参照して、検出した横長文字を構成する画素群をいくつかの方向、例えば正方向(0度)、左90度(90度)、逆方向(180度)、右90度(270度)などの4つの方向に向きを変えて(回転させて)、各方向毎に文字を認識する文字認識手段と、認識した各方向毎の文字について元の画素群との類似度を判定し、判定結果に応じた点数を付与する類似度判定手段と、判定した各方向毎の文字の類似度に基づいて文書1の方向を判定する帳票方向判定手段として機能する。文書1の方向としては、一般的なコピー用紙サイズのものでは、正方向と逆方向の入れ違いが多いが、配送伝票などでは、縦横の長さがあまり変わらないものもあり、用紙が縦横に重ねられる場合もあるため、縦2方向、横2方向ずつの計4方向の判別となる。
以下、図3〜図5を参照してこのOCRシステムの動作を説明する。
このOCRシステムの場合、スキャナー2の読み取り台に文書1がセットされ、走査開始の操作が行われると、スキャナー2は、文書1の表面を走査してイメージデータを生成しコンピュータ10へ送る。
このOCRシステムの場合、スキャナー2の読み取り台に文書1がセットされ、走査開始の操作が行われると、スキャナー2は、文書1の表面を走査してイメージデータを生成しコンピュータ10へ送る。
コンピュータ10では、CPU16は、スキャナー2から受信された文書1のイメージデータから帳票方向判定処理を行い、この判定結果に応じてイメージデータを回転処理した上で、イメージデータの文字読取処理を実行することで、文書1の画像をテキストデータに変換してメモリ13に記憶すると共に表示部14に表示する。その後、ユーザーにより操作部11が保存操作あるいは出力操作されると、CPU16は、メモリ13のテキストデータを該当保存場所へ保存あるいは該当出力先へ出力する。
ここで、図3〜図5を参照してこのOCRシステムにおける帳票方向判定処理について説明する。
帳票方向判定処理を行う場合、CPU16は、まず、スキャナー2から受信された文書1のイメージデータから文書1に印字されている細長い文字「1(数字のいち)」「l(英字のエル)」「−(マイナス、ハイフン)」「ー(長音)」「一(漢字のいち)」などを構成する画素群を検出する(S101)。細長い文字の画素群は、予めパラメータで設定されている所定の数分だけ検出される(S102)。この例の場合、例えば2つとする。
帳票方向判定処理を行う場合、CPU16は、まず、スキャナー2から受信された文書1のイメージデータから文書1に印字されている細長い文字「1(数字のいち)」「l(英字のエル)」「−(マイナス、ハイフン)」「ー(長音)」「一(漢字のいち)」などを構成する画素群を検出する(S101)。細長い文字の画素群は、予めパラメータで設定されている所定の数分だけ検出される(S102)。この例の場合、例えば2つとする。
この画素群検出は、イメージデータを一定方向に走査し、一定幅以下の黒画素(黒色のピクセル)を接続して線分としてゆく、などの方法によって高速に処理することが可能である。
具体的には、図2に示すように、画素(ピクセル)を縦に走査し、例えば縦方向が0.6mm以下の線分が横方向に1mm以上6mm以下続くかどうかを調査することで、イメージデータの中から細長い文字の画素部分を検出し、検出した画素部分を少なくとも含む画素群を切り出す。切り出される画素群としては、例えば8×15=120ピクセル(画素)程度である。
具体的には、図2に示すように、画素(ピクセル)を縦に走査し、例えば縦方向が0.6mm以下の線分が横方向に1mm以上6mm以下続くかどうかを調査することで、イメージデータの中から細長い文字の画素部分を検出し、検出した画素部分を少なくとも含む画素群を切り出す。切り出される画素群としては、例えば8×15=120ピクセル(画素)程度である。
イメージデータの中から細長い文字を構成する2つの画素群が検出されると(S102のYes)、次に、CPU16は、検出した各細長い文字の画素群を切り出して、メモリ13に記憶し、メモリ13上の画素群の現在の位置を正方向とし、メモリ13に記憶されている辞書を参照して文字を認識し(S103)、認識結果をメモリ13に記憶する。CPU16は、この文字認識処理を画素群の方向を順次変えて(回転させて)、正方向、右90度、左90度、逆方向の4つの方向についてそれぞれ行う。
続いて、CPU16は、認識した各方向の文字について、それぞれの類似度を採点して(S104)、メモリ13の該当方向の文字に点数を付与する。
文字の類似度の採点方法については、例えば認識した文字の画素パターンと元の画素群のパターンとを比較して全体の範囲の中でどれだけ合致したかの割合を求め、100倍して点数としても良く、また、単に画素どうしの合致比率を計算して100倍しても良い。
その後、各文字について、正方向、右90度、左90度、逆方向の各4つの方向別に得点を加算(合計)し、最も高得点を得た方向を文字方向、つまり帳票の方向と判定する(S105)。
文字の類似度の採点方法については、例えば認識した文字の画素パターンと元の画素群のパターンとを比較して全体の範囲の中でどれだけ合致したかの割合を求め、100倍して点数としても良く、また、単に画素どうしの合致比率を計算して100倍しても良い。
その後、各文字について、正方向、右90度、左90度、逆方向の各4つの方向別に得点を加算(合計)し、最も高得点を得た方向を文字方向、つまり帳票の方向と判定する(S105)。
図4に細長い文字(記号)をさらに高速に検知する方法の例を示す。
この高速検知方法では、メモリ13に下記検出条件の情報(ルール)を記憶しておき、CPU16は、メモリ13に記憶された検出条件の情報(ルール)に基づいて細長い文字(記号)を構成する画素群の着目ピクセルをイメージデータから探索(検出)する。
すなわち、
(A)まず着目するピクセルが黒であり、
(B)かつ着目するピクセルの1ピクセル左が白であり、
(C)かつ着目するピクセルのnピクセル上が白であり、
(D)かつ着目するピクセルのnピクセル下が白であり、
(E)かつ着目するピクセルのnピクセル上、mピクセル右が白であり、
(F)かつ着目するピクセルのmピクセル右が黒であり、
(G)かつ着目するピクセルのnピクセル下、mピクセル右が白であり、
(H)かつ着目するピクセルのnピクセル上、2mピクセル右が白であり、
(I)かつ着目するピクセルの2mピクセル右が黒であり、
(J)かつ着目するピクセルのnピクセル下、2mピクセル右が白である、
という条件を満たす着目ピクセルを探索する。
なお、図4の例では、nを4とし、mを6としている。
上記10個の検出条件を満たす着目ピクセルは、一般的に画像全体のピクセル数の0.1%以下になる。
そこで、この条件を満たす着目ピクセルを候補ピクセルとし、その候補ピクセル周辺について、図3に示した横長文字の検出方法を用いて候補ピクセル周辺が細長い文字(記号)のパターンとなっているかどうかをさらに詳細に調べる。
この高速検知方法では、メモリ13に下記検出条件の情報(ルール)を記憶しておき、CPU16は、メモリ13に記憶された検出条件の情報(ルール)に基づいて細長い文字(記号)を構成する画素群の着目ピクセルをイメージデータから探索(検出)する。
すなわち、
(A)まず着目するピクセルが黒であり、
(B)かつ着目するピクセルの1ピクセル左が白であり、
(C)かつ着目するピクセルのnピクセル上が白であり、
(D)かつ着目するピクセルのnピクセル下が白であり、
(E)かつ着目するピクセルのnピクセル上、mピクセル右が白であり、
(F)かつ着目するピクセルのmピクセル右が黒であり、
(G)かつ着目するピクセルのnピクセル下、mピクセル右が白であり、
(H)かつ着目するピクセルのnピクセル上、2mピクセル右が白であり、
(I)かつ着目するピクセルの2mピクセル右が黒であり、
(J)かつ着目するピクセルのnピクセル下、2mピクセル右が白である、
という条件を満たす着目ピクセルを探索する。
なお、図4の例では、nを4とし、mを6としている。
上記10個の検出条件を満たす着目ピクセルは、一般的に画像全体のピクセル数の0.1%以下になる。
そこで、この条件を満たす着目ピクセルを候補ピクセルとし、その候補ピクセル周辺について、図3に示した横長文字の検出方法を用いて候補ピクセル周辺が細長い文字(記号)のパターンとなっているかどうかをさらに詳細に調べる。
すなわち、CPU16は、細長い文字を検出する際に、着目ピクセルが黒、着目ピクセルの1ピクセル左が白、着目ピクセルのnピクセル上が白、着目ピクセルのnピクセル下が白であることをまずチェックし、その全てを満たす着目ピクセル周辺のみについて詳細に細長い文字の存在を調査する機能を備える。
このように、着目ピクセルが黒、着目ピクセルの1ピクセル左が白、着目ピクセルのnピクセル上が白、着目ピクセルのnピクセル下が白であることをまずチェックし、その全てを満たす着目ピクセル周辺のみについて詳細に細長い文字の存在を調べる機能を備えることで、帳票の方向を高速に自動判別することができる。
このように、着目ピクセルが黒、着目ピクセルの1ピクセル左が白、着目ピクセルのnピクセル上が白、着目ピクセルのnピクセル下が白であることをまずチェックし、その全てを満たす着目ピクセル周辺のみについて詳細に細長い文字の存在を調べる機能を備えることで、帳票の方向を高速に自動判別することができる。
図3の処理は、画像全体について行うと、図4の処理と比べて時間がかかる。
そこで、図4の検出方法により候補ピクセルを抽出し、抽出した候補ピクセル周辺だけに限り図3の処理を行う。これにより、細長い文字(記号)をより高速に検出することができる。
図4の処理は、横長の細い文字を検出するのみであるが、画像を90度回転した上で同じ処理を行うことで、縦長の細い文字も検出することができる。
そこで、図4の検出方法により候補ピクセルを抽出し、抽出した候補ピクセル周辺だけに限り図3の処理を行う。これにより、細長い文字(記号)をより高速に検出することができる。
図4の処理は、横長の細い文字を検出するのみであるが、画像を90度回転した上で同じ処理を行うことで、縦長の細い文字も検出することができる。
図5は、検出した文字を認識して得た結果(文字認識結果)から帳票挿入方向を判別する場合の一例である。
図5に示す例では、単純に各文字の4方向の認識結果について類似度を得点として付与し、類似度を各方向毎に加算している。そして、最も合計得点の高い方向、この場合、正方向が、文書1の挿入方向(用紙が縦で文字が上向きの状態で挿入)と判別される。
図5に示す例では、単純に各文字の4方向の認識結果について類似度を得点として付与し、類似度を各方向毎に加算している。そして、最も合計得点の高い方向、この場合、正方向が、文書1の挿入方向(用紙が縦で文字が上向きの状態で挿入)と判別される。
このOCRシステムの効果について説明する。
従来技術では、イメージデータを文字認識する処理中にレイアウト解析の処理を伴っていたが、このレイアウト解析は、一般的な現在のコンピュータで、A4帳票を処理する場合500ms程度の処理時間を必要とし、OCRシステムの高速化を阻害する要因になっていた。また、従来技術における文字認識は、一般に使われる全ての文字種類、例えば漢字などの場合、4000種類以上の文字を対象としていたため文字の認識するまでに非常に時間がかかっていた。
これに対して、本発明における細長い文字の検出による帳票方向の検出及び文字認識処理では、同条件の帳票(文書)で処理を行った場合、100ms以下(従来の1/5以下の処理時間)の高速な処理が可能となる。また細長いいくつかの文字(4種類〜6種類程度)を文字認識の対象とするだけなので、文字の検出ばかりでなく文字認識処理についても高速に行えるようになり、総合的に非常に高速なOCRシステムやスキャナシステムを提供できる。
従来技術では、イメージデータを文字認識する処理中にレイアウト解析の処理を伴っていたが、このレイアウト解析は、一般的な現在のコンピュータで、A4帳票を処理する場合500ms程度の処理時間を必要とし、OCRシステムの高速化を阻害する要因になっていた。また、従来技術における文字認識は、一般に使われる全ての文字種類、例えば漢字などの場合、4000種類以上の文字を対象としていたため文字の認識するまでに非常に時間がかかっていた。
これに対して、本発明における細長い文字の検出による帳票方向の検出及び文字認識処理では、同条件の帳票(文書)で処理を行った場合、100ms以下(従来の1/5以下の処理時間)の高速な処理が可能となる。また細長いいくつかの文字(4種類〜6種類程度)を文字認識の対象とするだけなので、文字の検出ばかりでなく文字認識処理についても高速に行えるようになり、総合的に非常に高速なOCRシステムやスキャナシステムを提供できる。
ただし、欠点として、帳票に「1」、「−」、「ー」「l」、「一」などの文字や記号が印字されていない場合、方向判別ができないケースが生じる。しかし、現実的に一般の帳票には、これらの文字や記号が印字されているケースが多いため、多くの場合、正しい判別結果が得られる。また、従来の技術も文字認識の結果、誤った判別結果が得られる場合もある。従って、運用によっては判別率においても従来技術と同等以上となる。
つまり、本発明によれば、数字の「1」(いち)や「−」(マイナス)などといった細長い文字が他の文字や図形と比べて著しく高速に検出可能で、かつ出現頻度が高いことを利用し、レイアウト解析の代わりに細長い文字の検出を行うことで、従来と比べ高速かつ十分高精度の方向判別機能を実現することができる。
つまり、本発明によれば、数字の「1」(いち)や「−」(マイナス)などといった細長い文字が他の文字や図形と比べて著しく高速に検出可能で、かつ出現頻度が高いことを利用し、レイアウト解析の代わりに細長い文字の検出を行うことで、従来と比べ高速かつ十分高精度の方向判別機能を実現することができる。
なお、本発明は上記実施形態に限定されるものではない。
図6、図7のような仕組み(応用例の帳票方向自動判別方法)によりさらなる高速化が可能である。
例えば文書1などでは、ある1つの文字を画像(イメージデータ)の中から検出した場合、その上下左右の近傍にも他の文字があることが予想できるので、この近傍検出方法を用いることにより他の文字を簡単な手順で検出する。
図6の例では、この近傍検出方法を利用し、CPU16は、上記細長文字検出処理により、はじめの細長い文字を構成する画素群を検出し、それから次の文字を構成する画素群を検出する際に、その細長文字を構成する画素群の上下左右の近傍のエリアに位置する文字を構成する画素群を検出し、文字認識の対象とする。この場合、細長い文字を構成する画素群を中心に、下のエリアの画素群、左のエリアの画素群、右のエリアの画素群の計5つの画素群となる。その上で、CPU16は、ライブラリを参照して各画素群を切り出して文字認識した各文字について類似度を採点し、各方向毎に文字の得点を加算して、最も高得点の方向を帳票の挿入方向と判定する。
漢字の文字パターンを回転すると、類似した文字は一般的に少ない。従って、漢字を文字認識した場合の類似度は、正方向、逆方向、右90度、左90度の4つの方向で、得点差が大きくなる。この図6の例では、上下左右の文字を対象とすることで漢字が対象に含まれる確率が高まり、結果的に合計得点差が大きくなる。これは、つまり感度が高くなることを意味し、回転方向の検出精度を高めることができる。
図6、図7のような仕組み(応用例の帳票方向自動判別方法)によりさらなる高速化が可能である。
例えば文書1などでは、ある1つの文字を画像(イメージデータ)の中から検出した場合、その上下左右の近傍にも他の文字があることが予想できるので、この近傍検出方法を用いることにより他の文字を簡単な手順で検出する。
図6の例では、この近傍検出方法を利用し、CPU16は、上記細長文字検出処理により、はじめの細長い文字を構成する画素群を検出し、それから次の文字を構成する画素群を検出する際に、その細長文字を構成する画素群の上下左右の近傍のエリアに位置する文字を構成する画素群を検出し、文字認識の対象とする。この場合、細長い文字を構成する画素群を中心に、下のエリアの画素群、左のエリアの画素群、右のエリアの画素群の計5つの画素群となる。その上で、CPU16は、ライブラリを参照して各画素群を切り出して文字認識した各文字について類似度を採点し、各方向毎に文字の得点を加算して、最も高得点の方向を帳票の挿入方向と判定する。
漢字の文字パターンを回転すると、類似した文字は一般的に少ない。従って、漢字を文字認識した場合の類似度は、正方向、逆方向、右90度、左90度の4つの方向で、得点差が大きくなる。この図6の例では、上下左右の文字を対象とすることで漢字が対象に含まれる確率が高まり、結果的に合計得点差が大きくなる。これは、つまり感度が高くなることを意味し、回転方向の検出精度を高めることができる。
また、伝票などの画像では、はじめの一文字目として数字が検出された場合、その上下左右の近傍にも数字があることが予想できるので、この近傍数字限定検出方法を用いることにより他の文字をさらに簡単な手順で検出する。
図7の例では、この近傍数字限定検出方法を利用し、CPU16は、上記細長文字検出処理により、はじめの細長い文字を構成する画素群を検出し、それから次の文字を構成する画素群を検出する際に、その細長文字の画素群の上下左右の近傍のエリアに位置する文字の画素群を検出し、文字認識の対象とする。その上で、CPU16は、数字のみの辞書を参照して各画素群を切り出して文字認識した各「数字」について類似度を採点し、各方向毎に認識した「数字」の得点を加算して、最も高得点の方向を帳票の挿入方向と判定する。
つまり、この近傍数字限定検出方法では、上下左右の文字の認識対象を、漢字を含む全ての文字ではなく数字のみに限定する。
一般に「1(いち)」や「−(マイナス)」などの数字、記号は、他の数字と一緒に出現する可能性が高い。従って、数字の出現頻度が高い伝票などの帳票では、上下左右の文字が数字である場合も多く、認識対象として漢字を含めず数字だけとしても、4方向の得点差を大きくできる場合がある。数字は、10字しかないため文字認識の速度が漢字4000字と比べて非常に高速になる。従って、この図7の例では、数字の出現頻度が高い帳票において、高精度かつ高速な処理が行える特徴がある。また数字を認識する場合、漢字を認識する場合と比べ、辞書のデータ容量も少なくて済むという利点がある。
図7の例では、この近傍数字限定検出方法を利用し、CPU16は、上記細長文字検出処理により、はじめの細長い文字を構成する画素群を検出し、それから次の文字を構成する画素群を検出する際に、その細長文字の画素群の上下左右の近傍のエリアに位置する文字の画素群を検出し、文字認識の対象とする。その上で、CPU16は、数字のみの辞書を参照して各画素群を切り出して文字認識した各「数字」について類似度を採点し、各方向毎に認識した「数字」の得点を加算して、最も高得点の方向を帳票の挿入方向と判定する。
つまり、この近傍数字限定検出方法では、上下左右の文字の認識対象を、漢字を含む全ての文字ではなく数字のみに限定する。
一般に「1(いち)」や「−(マイナス)」などの数字、記号は、他の数字と一緒に出現する可能性が高い。従って、数字の出現頻度が高い伝票などの帳票では、上下左右の文字が数字である場合も多く、認識対象として漢字を含めず数字だけとしても、4方向の得点差を大きくできる場合がある。数字は、10字しかないため文字認識の速度が漢字4000字と比べて非常に高速になる。従って、この図7の例では、数字の出現頻度が高い帳票において、高精度かつ高速な処理が行える特徴がある。また数字を認識する場合、漢字を認識する場合と比べ、辞書のデータ容量も少なくて済むという利点がある。
このように、イメージデータから認識対象の文字を構成する画素群を検出する上で、はじめに検出した細長文字(第1の文字)の画素群に隣接する上、下、左、右の少なくとも一つの近傍エリアから第2の文字(漢字あるいは数字など)の画素群を検出する機能を備えることで、高精度かつ高速な処理を行うことができる。
1…文書、2…スキャナー、10…コンピュータ、11…操作部、12…通信I/F、14…表示部、15…ハードディスク装置、16…CPU。
Claims (5)
- 帳票より画像を取得する画像情報取得手段と、
前記画像情報取得手段により取得された帳票の画像の中から方向識別の対象となる所定方向に長い文字を構成する画素群を検出する画素群検出手段と、
前記画素郡検出手段により検出された画素群をいくつかの方向に回転させて各方向毎に文字を認識する文字認識手段と、
前記文字認識手段により認識された各方向の文字と元の文字を構成する画素群との類似度を判定する類似度判定手段と、
前記類似度判定手段により判定された各方向毎の文字の類似度に基づいて帳票の方向を判定する帳票方向判定手段と
を具備したことを特徴とする帳票読取装置。 - 前記帳票方向判定手段は、
前記画素集合検出手段により帳票の画像の異なるエリアから複数の画素群が検出された場合、前記文字認識手段により認識された複数の文字の類似度を方向毎に加算して最も高得点を得た方向を帳票の方向と判定する手段を具備したことを特徴とする請求項1記載の帳票読取装置。 - 前記文字認識手段は、
前記ライブラリの中の長音、マイナス記号(ハイフン)、数字の「いち」、英字の「エル」を参照して前記画素群検出手段により検出された所定方向に長い画素群を正方向、逆方向、右90度、左90度の4方向に向きを変えていずれかの文字として認識する文字限定認識手段を具備したことを特徴とする請求項1記載の帳票読取装置。 - 前記文字認識手段は、
前記画素群検出手段により検出された所定方向に長い画素群を正方向、逆方向、右90度、左90度の4方向に向きを変えて複数の数字として認識する数字限定認識手段を具備したことを特徴とする請求項1記載の帳票読取装置。 - 帳票の画像を撮像するための撮像手段を備えた帳票読取装置による帳票方向判定方法において、
前記撮像手段により撮像された帳票の画像の中から方向識別の対象となる所定方向に長い画素群を検出するステップと、
検出した画素群をいくつかの方向に回転させて各方向毎に文字を認識するステップと、
認識した各方向毎の文字と元の文字を構成する画素群との類似度を判定するステップと、
判定した各方向毎の文字の類似度に基づいて帳票の方向を判定するステップと
を実行することを特徴とする帳票読取装置による帳票方向判定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004053617A JP2005242825A (ja) | 2004-02-27 | 2004-02-27 | 帳票読取装置及び帳票読取装置による帳票方向判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004053617A JP2005242825A (ja) | 2004-02-27 | 2004-02-27 | 帳票読取装置及び帳票読取装置による帳票方向判定方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005242825A true JP2005242825A (ja) | 2005-09-08 |
Family
ID=35024479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004053617A Pending JP2005242825A (ja) | 2004-02-27 | 2004-02-27 | 帳票読取装置及び帳票読取装置による帳票方向判定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005242825A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7546315B2 (en) | 2005-12-28 | 2009-06-09 | International Business Machines Corporation | Device for reporting software problem information |
JP2017062574A (ja) * | 2015-09-24 | 2017-03-30 | 富士通フロンテック株式会社 | 帳票画像判定プログラム、帳票画像判定方法および帳票画像判定システム |
-
2004
- 2004-02-27 JP JP2004053617A patent/JP2005242825A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7546315B2 (en) | 2005-12-28 | 2009-06-09 | International Business Machines Corporation | Device for reporting software problem information |
JP2017062574A (ja) * | 2015-09-24 | 2017-03-30 | 富士通フロンテック株式会社 | 帳票画像判定プログラム、帳票画像判定方法および帳票画像判定システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JPH07141463A (ja) | 2値画像内の機械印刷された金額の検出方法 | |
CA2797363A1 (en) | Segmentation of a word bitmap into individual characters or glyphs during an ocr process | |
JP2010250425A (ja) | 下線除去装置 | |
JP5111055B2 (ja) | 画像処理装置及び画像処理方法、コンピュータプログラム | |
JP5906788B2 (ja) | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム | |
CN109409180B (zh) | 图像分析装置和图像分析方法 | |
JP2002015280A (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JP3268552B2 (ja) | 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置 | |
JP4810853B2 (ja) | 文字画像切出装置、文字画像切出方法およびプログラム | |
JP2005242825A (ja) | 帳票読取装置及び帳票読取装置による帳票方向判定方法 | |
JP4867894B2 (ja) | 画像認識装置、画像認識方法及びプログラム | |
JP6007720B2 (ja) | 情報処理装置及び情報処理プログラム | |
JPH07230526A (ja) | 文字読取装置 | |
US11710331B2 (en) | Systems and methods for separating ligature characters in digitized document images | |
US11158058B2 (en) | Information processing apparatus and non-transitory computer readable medium for processing images of punched holes | |
JP5277750B2 (ja) | 画像処理プログラム、画像処理装置及び画像処理システム | |
JP5298830B2 (ja) | 画像処理プログラム、画像処理装置及び画像処理システム | |
JP4974367B2 (ja) | 領域分割方法及び装置、並びにプログラム | |
JP2022186250A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP4810995B2 (ja) | 画像処理装置、方法及びプログラム | |
JP2022051198A (ja) | Ocr処理装置、ocr処理方法、及びプログラム | |
JP2021144673A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
CN113542522A (zh) | 弯折检测装置、图像处理装置与方法以及计算机可读介质 | |
JP4819661B2 (ja) | 方向判定装置、画像処理装置、画像方向判別方法、および画像方向判別プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060627 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20061024 |