JP2005242825A

JP2005242825A - 帳票読取装置及び帳票読取装置による帳票方向判定方法

Info

Publication number: JP2005242825A
Application number: JP2004053617A
Authority: JP
Inventors: Kazuaki Yokota; 和章横田
Original assignee: Toshiba Solutions Corp
Current assignee: Toshiba Digital Solutions Corp
Priority date: 2004-02-27
Filing date: 2004-02-27
Publication date: 2005-09-08

Abstract

【課題】帳票読取処理の高速化を図る。
【解決手段】このＯＣＲシステムは、文書１から画像情報（イメージデータ）を読み取るスキャナー２とコンピュータ１０とからなる。コンピュータ１０は、数字、記号、英字及び漢字を含む文字認識用の辞書を記憶する記憶手段としてのメモリ１３と、スキャナー２から入力されたイメージデータから方向識別の対象となる横方向に長い文字を構成する画素群を検出し、ライブラリを参照して検出した画素群を正方向、逆方向、右９０度、左９０度の４方向に向きを変えて複数の文字を認識し、認識した各文字と元の文字を構成する画素群との類似度を判定し、判定した類似度に基づいて帳票の方向を判定する帳票方向判定手段としてのＣＰＵ１６とを備える。
【選択図】図１

Description

本発明は、例えば帳票を処理する業務に用いられる帳票読取装置及び帳票読取装置による帳票方向判定方法に関する。

例えば文書などの帳票を光学的文字読取装置(以下ＯＣＲと称す)で画像を走査してスキャンする場合、利用者は、予め手で帳票を特定の方向に揃えておく必要がある。このような作業は、人手のかかる作業である。

そこで、ＯＣＲに入力した帳票の画像から、帳票の挿入方向が正方向、右９０度、左９０度、逆方向のいずれであるかを自動的に推定する技術がいくつか提案されている(例えば特許文献１参照)。
特開平１１−１０２４１６号公報

上記従来の技術ではレイアウト解析処理を行っている。このレイアウト解析は、帳票に記入されたフォーマットのレイアウトの特徴を抽出する処理である。
このレイアウト解析処理は、一般的な現在のコンピュータで、Ａ４帳票を処理する場合、５００ｍｓ程度の処理時間を必要とするものであり、高速な帳票ＯＣＲ装置では、処理速度上、大きな問題となる。また、従来技術における文字認識は、一般に使われる全ての文字種類、例えば漢字などの場合、４０００種類以上の文字を認識対象としており、レイアウト解析処理を行うと文字認識が終了するまでに非常に時間がかかる。

このように上記技術には、「レイアウト解析」という手法が用いられており、レイアウト解析処理には一定の処理時間が必要なことから帳票の読み取り処理全体として長い時間がかかるという問題があった。

本発明はこのような課題を解決するためになされたもので、帳票読取処理の高速化を図ることのできる帳票読取装置及び帳票読取装置による帳票方向判定方法を提供することを目的としている。

上記した課題を解決するために、本発明の帳票読取装置は、帳票より画像を取得する画像情報取得手段と、前記画像情報取得手段により取得された帳票の画像の中から方向識別の対象となる所定方向に長い文字を構成する画素群を検出する画素群検出手段と、前記画素郡検出手段により検出された画素群をいくつかの方向に回転させて各方向毎に文字を認識する文字認識手段と、前記文字認識手段により認識された各方向の文字と元の文字を構成する画素群との類似度を判定する類似度判定手段と、前記類似度判定手段により判定された各方向毎の文字の類似度に基づいて帳票の方向を判定する帳票方向判定手段とを具備したことを特徴とする。

上記帳票方向判定手段は、画素集合検出手段により帳票の画像の異なるエリアから複数の画素群が検出された場合、文字認識手段により認識された複数の文字の類似度を方向毎に加算して最も高得点を得た方向を帳票の方向と判定する手段を具備する。
上記文字認識手段は、ライブラリの中の長音、マイナス記号（ハイフン）、数字の「いち」、英字の「エル」を参照して前記画素群検出手段により検出された所定方向に長い画素群を正方向、逆方向、右９０度、左９０度の４方向に向きを変えていずれかの文字として認識する文字限定認識手段を具備する。
上記文字認識手段は、前記画素群検出手段により検出された所定方向に長い画素群を正方向、逆方向、右９０度、左９０度の４方向に向きを変えて複数の数字として認識する数字限定認識手段を具備する。

本発明の帳票読取装置による帳票方向判定方法は、帳票の画像を撮像するための撮像手段を備えた帳票読取装置による帳票方向判定方法において、前記撮像手段により撮像された帳票の画像の中から方向識別の対象となる所定方向に長い画素群を検出するステップと、検出した画素群をいくつかの方向に回転させて各方向毎に文字を認識するステップと、認識した各方向毎の文字と元の文字を構成する画素群との類似度を判定するステップと、判定した各方向毎の文字の類似度に基づいて帳票の方向を判定するステップとを実行することを特徴とする。

本発明では、撮像手段により撮像された帳票の画像の中から方向識別の対象となる所定方向に長い画素群を検出すると、検出した画素群をいくつかの方向に回転させて各方向毎に文字を認識し、認識した各方向毎の文字と元の文字を構成する画素群との類似度を判定し、判定した各方向毎の文字の類似度に基づいて帳票の方向を判定する。
すなわち、レイアウト解析を伴わずに帳票の方向を高速に判定するので、帳票読取処理の高速化を図ることができる。

以上説明したように本発明によれば、帳票読取処理の高速化を図ることができる。

以下、本発明の実施の形態を図面を参照して詳細に説明する。
図１は本発明に係る一つの実施の形態のＯＣＲシステムの構成を示す図である。
同図に示すように、このＯＣＲシステムは、帳票としての文書１の表面を例えばＣＣＤなどで走査（スキャン）して画像情報（イメージデータ）を取得（生成）するイメージスキャナー２（以下スキャナー２と称す）と、このスキャナー２に接続され、文書１から読み取った画像情報（イメージデータ）に対して帳票方向判定処理及び文字認識処理を行うコンピュータ１０とから構成されている。スキャナー２は、文書１より画像情報（イメージデータ）を取得する画像情報取得手段として機能する。

コンピュータ１０は、操作部１１、通信Ｉ／Ｆ１２、記憶手段としてのメモリ１３、表示部１４、ハードディスク装置１５、ＣＰＵ１６とを備えている。操作部１１は、キーボート、マウスなどのユーザーが操作を行う入力手段である。

メモリ１３には、数字、記号、英字及び漢字を含む文字を認識するための標準文字パターンからなる辞書と、後述する細長い文字（記号）を検出するための検出条件の情報（ルール）が記憶されている。
表示部１４は、文字認識処理のための画面、文書１の方向判定結果、文書１の文字認識結果などを表示する。
ハードディスク装置１５には、オペレーティングシステム（以下ＯＳと称す）と、ＣＰＵ１６に各部の制御動作を行わせる制御ソフトウェアとがインストールされており、これらが協動して本システムの動作を実現する。動作説明ではコンピュータ起動後のＣＰＵ１６の動作として説明する。

すなわち、ＣＰＵ１６は、スキャナー２により取得された文書１のイメージデータを一定方向に操作してその中から方向識別の対象となる所定方向に細長い文字、例えば横方向などに長い文字（横長文字）を構成する画素群（イメージデータの切り出し領域）を検出する画素群検出手段と、メモリ１３に記憶された辞書を参照して、検出した横長文字を構成する画素群をいくつかの方向、例えば正方向（０度）、左９０度（９０度）、逆方向（１８０度）、右９０度（２７０度）などの4つの方向に向きを変えて（回転させて）、各方向毎に文字を認識する文字認識手段と、認識した各方向毎の文字について元の画素群との類似度を判定し、判定結果に応じた点数を付与する類似度判定手段と、判定した各方向毎の文字の類似度に基づいて文書１の方向を判定する帳票方向判定手段として機能する。文書１の方向としては、一般的なコピー用紙サイズのものでは、正方向と逆方向の入れ違いが多いが、配送伝票などでは、縦横の長さがあまり変わらないものもあり、用紙が縦横に重ねられる場合もあるため、縦２方向、横２方向ずつの計４方向の判別となる。

以下、図３〜図５を参照してこのＯＣＲシステムの動作を説明する。
このＯＣＲシステムの場合、スキャナー２の読み取り台に文書１がセットされ、走査開始の操作が行われると、スキャナー２は、文書１の表面を走査してイメージデータを生成しコンピュータ１０へ送る。

コンピュータ１０では、ＣＰＵ１６は、スキャナー２から受信された文書１のイメージデータから帳票方向判定処理を行い、この判定結果に応じてイメージデータを回転処理した上で、イメージデータの文字読取処理を実行することで、文書１の画像をテキストデータに変換してメモリ１３に記憶すると共に表示部１４に表示する。その後、ユーザーにより操作部１１が保存操作あるいは出力操作されると、ＣＰＵ１６は、メモリ１３のテキストデータを該当保存場所へ保存あるいは該当出力先へ出力する。

ここで、図３〜図５を参照してこのＯＣＲシステムにおける帳票方向判定処理について説明する。
帳票方向判定処理を行う場合、ＣＰＵ１６は、まず、スキャナー２から受信された文書１のイメージデータから文書１に印字されている細長い文字「１(数字のいち)」「ｌ（英字のエル）」「−（マイナス、ハイフン）」「ー（長音）」「一（漢字のいち）」などを構成する画素群を検出する（Ｓ１０１）。細長い文字の画素群は、予めパラメータで設定されている所定の数分だけ検出される（Ｓ１０２）。この例の場合、例えば２つとする。

この画素群検出は、イメージデータを一定方向に走査し、一定幅以下の黒画素（黒色のピクセル）を接続して線分としてゆく、などの方法によって高速に処理することが可能である。
具体的には、図２に示すように、画素（ピクセル）を縦に走査し、例えば縦方向が０．６ｍｍ以下の線分が横方向に１ｍｍ以上６ｍｍ以下続くかどうかを調査することで、イメージデータの中から細長い文字の画素部分を検出し、検出した画素部分を少なくとも含む画素群を切り出す。切り出される画素群としては、例えば８×１５＝１２０ピクセル（画素）程度である。

イメージデータの中から細長い文字を構成する２つの画素群が検出されると（Ｓ１０２のＹｅｓ）、次に、ＣＰＵ１６は、検出した各細長い文字の画素群を切り出して、メモリ１３に記憶し、メモリ１３上の画素群の現在の位置を正方向とし、メモリ１３に記憶されている辞書を参照して文字を認識し（Ｓ１０３）、認識結果をメモリ１３に記憶する。ＣＰＵ１６は、この文字認識処理を画素群の方向を順次変えて（回転させて）、正方向、右９０度、左９０度、逆方向の４つの方向についてそれぞれ行う。

続いて、ＣＰＵ１６は、認識した各方向の文字について、それぞれの類似度を採点して（Ｓ１０４）、メモリ１３の該当方向の文字に点数を付与する。
文字の類似度の採点方法については、例えば認識した文字の画素パターンと元の画素群のパターンとを比較して全体の範囲の中でどれだけ合致したかの割合を求め、１００倍して点数としても良く、また、単に画素どうしの合致比率を計算して１００倍しても良い。
その後、各文字について、正方向、右９０度、左９０度、逆方向の各４つの方向別に得点を加算（合計）し、最も高得点を得た方向を文字方向、つまり帳票の方向と判定する（Ｓ１０５）。

図４に細長い文字（記号）をさらに高速に検知する方法の例を示す。
この高速検知方法では、メモリ１３に下記検出条件の情報（ルール）を記憶しておき、ＣＰＵ１６は、メモリ１３に記憶された検出条件の情報（ルール）に基づいて細長い文字（記号）を構成する画素群の着目ピクセルをイメージデータから探索（検出）する。
すなわち、
（Ａ）まず着目するピクセルが黒であり、
（Ｂ）かつ着目するピクセルの１ピクセル左が白であり、
（Ｃ）かつ着目するピクセルのｎピクセル上が白であり、
（Ｄ）かつ着目するピクセルのｎピクセル下が白であり、
（Ｅ）かつ着目するピクセルのｎピクセル上、ｍピクセル右が白であり、
（Ｆ）かつ着目するピクセルのｍピクセル右が黒であり、
（Ｇ）かつ着目するピクセルのｎピクセル下、ｍピクセル右が白であり、
（Ｈ）かつ着目するピクセルのｎピクセル上、２ｍピクセル右が白であり、
（Ｉ）かつ着目するピクセルの２ｍピクセル右が黒であり、
（Ｊ）かつ着目するピクセルのｎピクセル下、２ｍピクセル右が白である、
という条件を満たす着目ピクセルを探索する。
なお、図４の例では、ｎを４とし、ｍを６としている。
上記１０個の検出条件を満たす着目ピクセルは、一般的に画像全体のピクセル数の０．１％以下になる。
そこで、この条件を満たす着目ピクセルを候補ピクセルとし、その候補ピクセル周辺について、図３に示した横長文字の検出方法を用いて候補ピクセル周辺が細長い文字（記号）のパターンとなっているかどうかをさらに詳細に調べる。

すなわち、ＣＰＵ１６は、細長い文字を検出する際に、着目ピクセルが黒、着目ピクセルの１ピクセル左が白、着目ピクセルのｎピクセル上が白、着目ピクセルのｎピクセル下が白であることをまずチェックし、その全てを満たす着目ピクセル周辺のみについて詳細に細長い文字の存在を調査する機能を備える。
このように、着目ピクセルが黒、着目ピクセルの１ピクセル左が白、着目ピクセルのｎピクセル上が白、着目ピクセルのｎピクセル下が白であることをまずチェックし、その全てを満たす着目ピクセル周辺のみについて詳細に細長い文字の存在を調べる機能を備えることで、帳票の方向を高速に自動判別することができる。

図３の処理は、画像全体について行うと、図４の処理と比べて時間がかかる。
そこで、図４の検出方法により候補ピクセルを抽出し、抽出した候補ピクセル周辺だけに限り図３の処理を行う。これにより、細長い文字（記号）をより高速に検出することができる。
図４の処理は、横長の細い文字を検出するのみであるが、画像を９０度回転した上で同じ処理を行うことで、縦長の細い文字も検出することができる。

図５は、検出した文字を認識して得た結果（文字認識結果）から帳票挿入方向を判別する場合の一例である。
図５に示す例では、単純に各文字の４方向の認識結果について類似度を得点として付与し、類似度を各方向毎に加算している。そして、最も合計得点の高い方向、この場合、正方向が、文書１の挿入方向（用紙が縦で文字が上向きの状態で挿入）と判別される。

このＯＣＲシステムの効果について説明する。
従来技術では、イメージデータを文字認識する処理中にレイアウト解析の処理を伴っていたが、このレイアウト解析は、一般的な現在のコンピュータで、Ａ４帳票を処理する場合５００ｍｓ程度の処理時間を必要とし、ＯＣＲシステムの高速化を阻害する要因になっていた。また、従来技術における文字認識は、一般に使われる全ての文字種類、例えば漢字などの場合、４０００種類以上の文字を対象としていたため文字の認識するまでに非常に時間がかかっていた。
これに対して、本発明における細長い文字の検出による帳票方向の検出及び文字認識処理では、同条件の帳票（文書）で処理を行った場合、１００ｍｓ以下（従来の１／５以下の処理時間）の高速な処理が可能となる。また細長いいくつかの文字（４種類〜６種類程度）を文字認識の対象とするだけなので、文字の検出ばかりでなく文字認識処理についても高速に行えるようになり、総合的に非常に高速なＯＣＲシステムやスキャナシステムを提供できる。

ただし、欠点として、帳票に「１」、「−」、「ー」「ｌ」、「一」などの文字や記号が印字されていない場合、方向判別ができないケースが生じる。しかし、現実的に一般の帳票には、これらの文字や記号が印字されているケースが多いため、多くの場合、正しい判別結果が得られる。また、従来の技術も文字認識の結果、誤った判別結果が得られる場合もある。従って、運用によっては判別率においても従来技術と同等以上となる。
つまり、本発明によれば、数字の「１」（いち）や「−」（マイナス）などといった細長い文字が他の文字や図形と比べて著しく高速に検出可能で、かつ出現頻度が高いことを利用し、レイアウト解析の代わりに細長い文字の検出を行うことで、従来と比べ高速かつ十分高精度の方向判別機能を実現することができる。

なお、本発明は上記実施形態に限定されるものではない。
図６、図７のような仕組み（応用例の帳票方向自動判別方法）によりさらなる高速化が可能である。
例えば文書１などでは、ある1つの文字を画像（イメージデータ）の中から検出した場合、その上下左右の近傍にも他の文字があることが予想できるので、この近傍検出方法を用いることにより他の文字を簡単な手順で検出する。
図６の例では、この近傍検出方法を利用し、ＣＰＵ１６は、上記細長文字検出処理により、はじめの細長い文字を構成する画素群を検出し、それから次の文字を構成する画素群を検出する際に、その細長文字を構成する画素群の上下左右の近傍のエリアに位置する文字を構成する画素群を検出し、文字認識の対象とする。この場合、細長い文字を構成する画素群を中心に、下のエリアの画素群、左のエリアの画素群、右のエリアの画素群の計5つの画素群となる。その上で、ＣＰＵ１６は、ライブラリを参照して各画素群を切り出して文字認識した各文字について類似度を採点し、各方向毎に文字の得点を加算して、最も高得点の方向を帳票の挿入方向と判定する。
漢字の文字パターンを回転すると、類似した文字は一般的に少ない。従って、漢字を文字認識した場合の類似度は、正方向、逆方向、右９０度、左９０度の４つの方向で、得点差が大きくなる。この図６の例では、上下左右の文字を対象とすることで漢字が対象に含まれる確率が高まり、結果的に合計得点差が大きくなる。これは、つまり感度が高くなることを意味し、回転方向の検出精度を高めることができる。

また、伝票などの画像では、はじめの一文字目として数字が検出された場合、その上下左右の近傍にも数字があることが予想できるので、この近傍数字限定検出方法を用いることにより他の文字をさらに簡単な手順で検出する。
図７の例では、この近傍数字限定検出方法を利用し、ＣＰＵ１６は、上記細長文字検出処理により、はじめの細長い文字を構成する画素群を検出し、それから次の文字を構成する画素群を検出する際に、その細長文字の画素群の上下左右の近傍のエリアに位置する文字の画素群を検出し、文字認識の対象とする。その上で、ＣＰＵ１６は、数字のみの辞書を参照して各画素群を切り出して文字認識した各「数字」について類似度を採点し、各方向毎に認識した「数字」の得点を加算して、最も高得点の方向を帳票の挿入方向と判定する。
つまり、この近傍数字限定検出方法では、上下左右の文字の認識対象を、漢字を含む全ての文字ではなく数字のみに限定する。
一般に「１（いち）」や「−（マイナス）」などの数字、記号は、他の数字と一緒に出現する可能性が高い。従って、数字の出現頻度が高い伝票などの帳票では、上下左右の文字が数字である場合も多く、認識対象として漢字を含めず数字だけとしても、４方向の得点差を大きくできる場合がある。数字は、１０字しかないため文字認識の速度が漢字４０００字と比べて非常に高速になる。従って、この図７の例では、数字の出現頻度が高い帳票において、高精度かつ高速な処理が行える特徴がある。また数字を認識する場合、漢字を認識する場合と比べ、辞書のデータ容量も少なくて済むという利点がある。

このように、イメージデータから認識対象の文字を構成する画素群を検出する上で、はじめに検出した細長文字（第１の文字）の画素群に隣接する上、下、左、右の少なくとも一つの近傍エリアから第２の文字（漢字あるいは数字など）の画素群を検出する機能を備えることで、高精度かつ高速な処理を行うことができる。

ＯＣＲシステムの構成を示す図。図１のＯＣＲシステムの動作を示すフローチャート。細長い文字を検出する動作を説明するための図。高速化で細長い文字（記号）検出動作を説明するための図。イメージから文字認識及び類似度を付与する第１の例を示す図。イメージから文字認識及び類似度を付与する第２の例を示す図。イメージから文字認識及び類似度を付与する第３の例を示す図。

符号の説明

１…文書、２…スキャナー、１０…コンピュータ、１１…操作部、１２…通信Ｉ／Ｆ、１４…表示部、１５…ハードディスク装置、１６…ＣＰＵ。

Claims

帳票より画像を取得する画像情報取得手段と、
前記画像情報取得手段により取得された帳票の画像の中から方向識別の対象となる所定方向に長い文字を構成する画素群を検出する画素群検出手段と、
前記画素郡検出手段により検出された画素群をいくつかの方向に回転させて各方向毎に文字を認識する文字認識手段と、
前記文字認識手段により認識された各方向の文字と元の文字を構成する画素群との類似度を判定する類似度判定手段と、
前記類似度判定手段により判定された各方向毎の文字の類似度に基づいて帳票の方向を判定する帳票方向判定手段と
を具備したことを特徴とする帳票読取装置。
前記帳票方向判定手段は、
前記画素集合検出手段により帳票の画像の異なるエリアから複数の画素群が検出された場合、前記文字認識手段により認識された複数の文字の類似度を方向毎に加算して最も高得点を得た方向を帳票の方向と判定する手段を具備したことを特徴とする請求項１記載の帳票読取装置。
前記文字認識手段は、
前記ライブラリの中の長音、マイナス記号（ハイフン）、数字の「いち」、英字の「エル」を参照して前記画素群検出手段により検出された所定方向に長い画素群を正方向、逆方向、右９０度、左９０度の４方向に向きを変えていずれかの文字として認識する文字限定認識手段を具備したことを特徴とする請求項１記載の帳票読取装置。
前記文字認識手段は、
前記画素群検出手段により検出された所定方向に長い画素群を正方向、逆方向、右９０度、左９０度の４方向に向きを変えて複数の数字として認識する数字限定認識手段を具備したことを特徴とする請求項１記載の帳票読取装置。
帳票の画像を撮像するための撮像手段を備えた帳票読取装置による帳票方向判定方法において、
前記撮像手段により撮像された帳票の画像の中から方向識別の対象となる所定方向に長い画素群を検出するステップと、
検出した画素群をいくつかの方向に回転させて各方向毎に文字を認識するステップと、
認識した各方向毎の文字と元の文字を構成する画素群との類似度を判定するステップと、
判定した各方向毎の文字の類似度に基づいて帳票の方向を判定するステップと
を実行することを特徴とする帳票読取装置による帳票方向判定方法。