JP2004334913A - 帳票認識装置及び帳票認識方法 - Google Patents
帳票認識装置及び帳票認識方法 Download PDFInfo
- Publication number
- JP2004334913A JP2004334913A JP2004239273A JP2004239273A JP2004334913A JP 2004334913 A JP2004334913 A JP 2004334913A JP 2004239273 A JP2004239273 A JP 2004239273A JP 2004239273 A JP2004239273 A JP 2004239273A JP 2004334913 A JP2004334913 A JP 2004334913A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- frame structure
- component
- shaped element
- corner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
【課題】帳票認識装置において、帳票の傾きや破線の罫線が存在しても、信頼性の高い認識装置を提供することを目的とする。
【解決手段】枠罫線を含む帳票文書を読み取り2値画像を出力する画像入力手段1と、前記2値画像から罫線のコーナーを検出するコーナー検出手段4と、前記コーナーの組み合わせから罫線の構成要素を検出する手段800と、罫線の端点を検出した場合は端点と他の端点を含む他の構成要素との組合せから構成要素を再構成する構成要素検出手段801と、前記構成要素を相互に連結し、枠構造情報を出力する矩形検出手段6と、予め複数の帳票文書の基準となる枠構造情報であるフォーマット情報を記憶するフォーマット情報記憶手段9と、前記枠構造情報と前記フォーマット情報とを順次照合し、検出対象の枠構造情報を判定する枠構造照合手段10とを具備するものである。
【選択図】図26
【解決手段】枠罫線を含む帳票文書を読み取り2値画像を出力する画像入力手段1と、前記2値画像から罫線のコーナーを検出するコーナー検出手段4と、前記コーナーの組み合わせから罫線の構成要素を検出する手段800と、罫線の端点を検出した場合は端点と他の端点を含む他の構成要素との組合せから構成要素を再構成する構成要素検出手段801と、前記構成要素を相互に連結し、枠構造情報を出力する矩形検出手段6と、予め複数の帳票文書の基準となる枠構造情報であるフォーマット情報を記憶するフォーマット情報記憶手段9と、前記枠構造情報と前記フォーマット情報とを順次照合し、検出対象の枠構造情報を判定する枠構造照合手段10とを具備するものである。
【選択図】図26
Description
本発明は、帳票のような枠罫線と文字を含む文書画像において枠罫線の構造を認識し、帳票内の特定の文字領域を切り出し、文字を認識するための帳票認識装置に関する。
近年、文書情報の電子化に伴い、OCR(Optical Character Reader)を初めとする文字認識技術や文書画像処理に対する要望が高まっており、帳票など表形式文書の表構造認識技術もそのひとつである。
従来、帳票の枠罫線認識として、枠線のラン長で線分を検出する方法が良く知られており例えば特許文献1があり、その罫線認識装置のブロック結線図を図31に示し説明する。
図31において、1001は画像入力部、1002は画像メモリ、1003は縦方向ランを抽出する縦方向ラン抽出部、1004は縦方向線分を抽出する縦方向線分抽出部、1005は横方向ランを抽出する横方向ラン抽出部、1006は横方向線分を抽出する横方向線分抽出部、1007は抽出された縦方向線分と横方向線分を用いて文字領域を抽出する文字領域抽出部であり、その動作を以下に説明する。
画像入力部1001は、認識対象罫線を含む画像を走査し2値信号で画像メモリ1002に格納する。縦方向ラン抽出部1003は、画像メモリ1002に格納されている画像を縦方向に走査して縦方向ランを抽出する。縦方向線分抽出部1004は、抽出された縦方向のランの連結性を調べ、縦方向線分を抽出する。同様の処理により、横方向ラン抽出部1005で横方向ランを抽出し、横方向線分抽出部1006で横方向線分を抽出する。
文字領域抽出部1007は、縦方向線分抽出部1004で抽出された縦方向線分と横方向線分抽出部1006で抽出された横方向線分を用いて文字領域および文字記入領域を抽出するものである。
また、切り出された文字の認識方法については、各種方式が提案されており、例えば非特許文献1があり、認識率も実用的なところまできているが、今回は帳票認識装置ということで帳票の指定枠の認識処理を中心としているので文字認識に関しては上記非特許文献1を提示し説明は省略するものとする。
特開平01−217583号公報
森吉弘、ニューラルネットを用いた文字認識法("PDPモデルによる手書き漢字認識"、電子情報通信学会論文誌、Vol.J73-D-II, No.8 pp.1268-1274 1990)
しかしながら上記の従来の構成では、第1の課題として、帳票が画像として傾いて読み取られた場合はラン長で枠罫線を認識することが難しく、また枠罫線が破線の場合は文字枠として検出する事ができないという問題があった。
さらに、第2の課題として、枠罫線が汚れ等により断線したりあるいはコーナーが直角ではなく丸みを持ったコーナーの場合、ラン長による枠罫線の認識ができないという問題があった。
本発明は、前記従来技術の課題を解決するもので、帳票画像が傾いて入力された場合や、帳票に丸みを持ったコーナーが存在しても、文字枠を正確に検出することのできる信頼性の高い帳票認識装置を提供することを目的とする。
この第1の課題を解決するために本発明は、枠罫線を含む帳票文書を読み取り2値画像を出力する画像入力手段と、前記2値画像から罫線のコーナーを検出するコーナー検出手段と、前記コーナー検出手段からのコーナーの組み合わせから罫線の構成要素を検出し、罫線の端点を検出した場合は端点と他の端点を含む他の構成要素との組合せから構成要素を再構成する構成要素検出手段と、前記構成要素検出手段からの構成要素を相互に連結し、枠構造情報を出力する矩形検出手段と、予め複数の帳票文書の基準となる枠構造情報であるフォーマット情報を記憶するフォーマット情報記憶手段と、前記枠構造情報と前記フォーマット情報とを順次照合し、検出対象の枠構造情報を判定する枠構造照合手段とを設けたものである。
また、第2の課題を解決するために本発明は、構成要素検出手段として、前記コーナー検出手段からのコーナーの組み合わせから罫線の構成要素として、L字要素、T字要素、十字要素及びI字要素を検出し、該当のI字要素と他のI字要素を含む構成要素とのグルーピングを行い、新たな構成要素として再構成するようにしたものである。
これにより、帳票が画像として傾いて入力されたり、帳票内に丸みを持ったコーナーが存在しても、文字枠を正確に検出でき、信頼性の高い帳票認識装置が実現できる。
以上のように本発明の効果は、第1に、罫線のコーナー形状の組み合わせから構成要素を検出し、構成要素同士を連結し矩形を検出し、複数の帳票のフォーマット情報と照合することにより、帳票が画像として傾いて入力されたり、帳票内に破線の罫線が存在しても、文字枠を正確に検出し文字認識を行うことができ、信頼性の高い帳票認識装置が実現できる。
第2に、枠罫線の抽出処理によって途中で切れてしまった罫線部分をI字要素として検出し、さらにI字要素同士またはI字要素と他の要素とをグルーピングして構成要素を検出することによって、枠の断線部分や角部分が緩やかな曲率を持つ場合でも、枠の交点を正確に認識できる信頼性の高い帳票認識装置が実現できる。
本発明は、枠罫線を含む帳票文書を読み取り2値画像を出力する画像入力手段と、前記2値画像から罫線のコーナーを検出するコーナー検出手段と、前記コーナー検出手段からのコーナーの組み合わせから罫線の構成要素を検出し、罫線の端点を検出した場合は端点と他の端点を含む他の構成要素との組合せから構成要素を再構成する構成要素検出手段と、前記構成要素検出手段からの構成要素を相互に連結し、枠構造情報を出力する矩形検出手段と、予め複数の帳票文書の基準となる枠構造情報であるフォーマット情報を記憶するフォーマット情報記憶手段と、前記枠構造情報と前記フォーマット情報とを順次照合し、検出対象の枠構造情報を判定する枠構造照合手段とを具備する帳票認識装置としたものであり、帳票の2値画像から実線及び破線の罫線を抽出し、その罫線からなるパターンのコーナー点を抽出し、コーナー点から枠罫線交点である構成要素を抽出し、相互に連結された構成要素から矩形構造を検出し、フォーマット情報と比較照合することにより、帳票が傾いて読み取られた場合や、帳票に破線の罫線が存在していても、読み取り対象の文字枠を正確に検出できるという作用を有する。
さらに、構成要素検出手段として、前記コーナー検出手段からのコーナーの組み合わせから罫線の構成要素として、L字要素、T字要素、十字要素及びI字要素を検出し、該当のI字要素と他のI字要素を含む構成要素とのグルーピングを行い、新たな構成要素として再構成することを特徴とし、枠罫線の断線や帳票枠の角部分が緩やかな曲率を持っている場合にも、構成要素を正確に検出できるという作用を有する。
以下、本発明の実施の形態について、図1から図30を用いて説明する。
(実施の形態1)
図1は、本発明の実施の形態1の帳票認識装置のブロック構成図を示し、1は帳票文書を読み取り2値画像を得る画像入力手段、2は前記2値画像を記憶する画像メモリ、3は2値画像の水平、垂直方向の実線の罫線を抽出する第1の罫線抽出手段、4は実線の罫線のコーナーを検出する第1のコーナー検出手段、5は前記コーナーの組み合わせから罫線の屈曲や交差によるL字要素、T字要素、及び十字要素を検出する構成要素検出手段、6は構成要素同士を連結し枠構造情報として出力する矩形検出手段と、7は前記2値画像において水平、垂直方向の実線及び破線の罫線を抽出する第2の罫線抽出手段、8は前記実線及び破線の枠罫線のコーナーを検出する第2のコーナー検出手段、9は予め読み取り対象となる複数の帳票のフォーマット情報を記憶するフォーマット情報記憶手段、10は前記枠構造情報と前記フォーマット情報とを順次照合し実線枠を検出すると共に、照合結果から帳票の種別を判別し、前記第2のコーナー検出手段からのコーナーと前記フォーマット情報とから実線枠で指定された対象枠と破線との交点である破線交点を検出し、対象枠の座標を出力する枠構造照合手段、11は文字読み取り対象枠の文字領域を切り出す文字切り出し手段、12は切り出された文字を認識する文字認識手段である。
図1は、本発明の実施の形態1の帳票認識装置のブロック構成図を示し、1は帳票文書を読み取り2値画像を得る画像入力手段、2は前記2値画像を記憶する画像メモリ、3は2値画像の水平、垂直方向の実線の罫線を抽出する第1の罫線抽出手段、4は実線の罫線のコーナーを検出する第1のコーナー検出手段、5は前記コーナーの組み合わせから罫線の屈曲や交差によるL字要素、T字要素、及び十字要素を検出する構成要素検出手段、6は構成要素同士を連結し枠構造情報として出力する矩形検出手段と、7は前記2値画像において水平、垂直方向の実線及び破線の罫線を抽出する第2の罫線抽出手段、8は前記実線及び破線の枠罫線のコーナーを検出する第2のコーナー検出手段、9は予め読み取り対象となる複数の帳票のフォーマット情報を記憶するフォーマット情報記憶手段、10は前記枠構造情報と前記フォーマット情報とを順次照合し実線枠を検出すると共に、照合結果から帳票の種別を判別し、前記第2のコーナー検出手段からのコーナーと前記フォーマット情報とから実線枠で指定された対象枠と破線との交点である破線交点を検出し、対象枠の座標を出力する枠構造照合手段、11は文字読み取り対象枠の文字領域を切り出す文字切り出し手段、12は切り出された文字を認識する文字認識手段である。
以上のように構成された帳票認識装置について、その動作の概要を説明する。
画像入力手段1により帳票を読み取り、文字部及び枠罫線部が値1、背景が値0をもつ2値画像に変換し画像メモリ2に記憶する。第1の罫線抽出手段3は、画像メモリ2からの2値画像を水平及び垂直方向に走査し所定長以上の値”1”が連続する線を抽出し、第1のコーナー検出手段4により水平及び垂直の罫線からのコーナーを検出する。構成要素検出手段5は、第1のコーナー検出手段4からのコーナーの組み合わせから罫線の屈曲部や交差部のL字要素、T字要素、及び十字要素の構成要素を検出する。矩形検出手段6は、構成要素検出手段5からの構成要素同士を相互に連結し枠構造情報を得る。
第2の罫線抽出手段7は、前記2値画像の水平、垂直方向の実線及び破線の罫線を抽出し、第2のコーナー検出手段8により実線及び破線の枠罫線からコーナーを検出する。
フォーマット情報記憶手段9は、予め読み取り対象となる複数の帳票のフォーマット情報を記憶する。枠構造照合手段10は、構成要素検出手段5からの枠構造情報と前記フォーマット情報を照合し帳票の種別を判別し、枠構造情報から実線枠を検出すると共に、第2のコーナー検出手段8からのコーナーと前記実線枠および前記フォーマット情報から実線と破線との交点を検出し、実線枠とその実線枠と破線との交点から帳票内の対象枠を検出する。文字切り出し手段11は、読み取り対象枠の4頂点の座標に基づき文字領域を切り出し、文字認識手段12により切り出された領域から文字を認識するものである。
次に図1に基づいて、各構成要素の動作を詳細に説明する。
画像入力手段1は、帳票を読み取り2値画像を出力するもので、本発明の実施の形態1では読み取り線密度を約400dpi程度とし、原稿である帳票にLED(発光ダイオード)等で照明しその反射光を一次元のCCDカメラで読み取り、任意の閾値で2値化して文字部を値1、背景を値0とした2値画像を出力する。
また、照明は、原稿である帳票の枠線や記入された文字の色によって異なるが、例えば青・黒および赤等の枠線に対して、黒や青等で数字や記号および文字が記入された場合、緑あるいは黄緑の波長(550〜570nm付近)のLEDを用いることが多い。2値化処理においては、固定閾値法や浮動閾値法(”認識問題としての二値化と各種方法の検討”、情報処理学会、イメージプロセッシング15-1, Nov. 1977)が良く知られており、本発明の実施の形態1では2値化処理法については特に言及するものではないので、原稿に合わせて任意の2値化処理法を選択すればよい。このように2値化された画像データは画像メモリ2に格納され、各処理で必要に応じて読み出される。
次に第1の罫線抽出手段3について図2を用いて説明する。図2は、第1の罫線抽出手段3における画像処理のブロック構成図を示し、20は画像メモリ2からの2値画像、21は水平方向にパターンを縮める水平方向収縮手段、22は水平方向にパターンを延長する水平方向延長手段、23は垂直方向にパターンを縮める垂直方向収縮手段、24は垂直方向にパターンを延長する垂直方向延長手段、25は水平方向延長手段22と垂直方向延長手段24の出力のNOR演算を行うNOR回路である。
水平方向収縮手段21は、画像メモリ2からの2値画像20に対し、水平方向にh画素縮めることにより、水平方向にh画素以下の幅の線や文字を消滅させるものである。続く水平方向延長手段22は、水平方向にh画素延長することによりh画素より長い水平線分のみを抽出する。
同様に、垂直方向収縮手段23は、垂直方向にv画素縮めることにより、垂直方向にv画素以下の幅の線や文字が消滅させるものである。続く垂直方向延長手段24は、垂直方向にv画素延長することによりv画素より長い垂直線分を抽出する。NOR回路25は、水平方向延長手段22と垂直方向延長手段24からの出力をNOR演算を行い、文字部が消去され枠罫線のみが残り、枠罫線及び背景がそれぞれ”0”及び”1”の値をもつ2値画像が得られる。
次に、水平及び垂直方向の収縮及び延長処理について図3及び図4を用いてさらに詳細に説明する。
図3は、水平及び垂直方向収縮手段21及び23の処理手順を示すフロー図で、2値画像を水平方向または垂直方向に1ラインずつ順次走査し終了ラインまで処理を行い、各ライン毎にn画素の収縮処理を行うとき、ランレングスのカウント値をCとし、ステップ毎に説明する。
ステップ31は、各ラインの走査開始時にカウント値Cに0を設定する。ステップ32は、1画素データを読み込む。ステップ33は、画素の値が0(白)か1(黒)かを判定し、0のときステップ34へ、1のときステップ36に進む。ステップ36は、カウント値Cに0を設定する。ステップ35は、黒ランではないので値0を出力する。ステップ36は、カウント値Cがn以上かどうかの判定を行い、n未満のときステップ37へ、n以上のときステップ38に進む。ステップ37は、カウント値Cをインクリメントしステップ35に進む。ステップ38は、n画素以上のランレングスをもつ黒ランが存在するので値1を出力する。
以上の処理を1ラインの終了まで行うことにより、そのライン上の黒ランがn画素縮められる。次のラインを処理するときは再びステップ31から同様の処理を繰り返す。このようにして全画面の走査が終了すると、水平または垂直方向にn画素以上のランレングスを有する線分が抽出される。
同様に図4は、水平及び垂直方向延長手段22及び24の処理手順を示すフロー図で、2値画像を水平方向または垂直方向に1ラインずつ順次走査し終了ラインまで処理し、各ライン毎にn画素の延長処理をおこなうとき、ランレングスのカウント値をCとし、各ステップ毎に説明する。
ステップ41は、各ラインの走査開始時にカウント値Cに0を設定する。ステップ42は、1画素データを読み込む。ステップ43は、画素の値が0(白)か1(黒)かを判定し、1のときステップ44へ、0のときはステップ46に進む。ステップ44は、カウント値Cにnを設定する。ステップ45は、黒ラン上にあるので値1を出力する。
ステップ46は、カウント値Cが0以下かどうかの判定を行い、0より大きい場合ステップ47へ、0以下のときステップ48へ進む。ステップ47は、カウント値Cをデクリメントし、さらにステップ45へ進む。ステップ48は、その走査位置は黒ランからn画素より大きく離れているので値0を出力する。
以上の処理を1ラインの終了まで行うことにより、そのライン上の黒ランがn画素延長される。次のラインを処理するときは再びステップ41から同様の処理を繰り返す。このようにして全画面の走査が終了すると、水平または垂直方向にランレングスがn画素分だけ延長される。
次に第1のコーナー検出手段4、構成要素検出手段5、及び矩形検出手段6における一連の処理について説明するが、これらの内容は同一出願人により特願平7−016862号に記載されており詳細な説明は省略し、その動作を簡単に説明する。
まず第1のコーナー検出手段4について図5から図7を用いて説明する。図5は、コーナーを検出するための前処理として、第1の罫線抽出手段で抽出された2値画像の実線の罫線の輪郭に方向コードを付与した方向コード化画像に変換した結果を示す。図6は、方向コード1〜8と実際の方向の対応関係を示す図であり、図7は検出するコーナーの具体例を示す図である。
図5において、51は枠罫線の画素、52は背景の画素、数字は輪郭点に付与された方向コードをそれぞれ示しており、この場合背景パターンを右回りの方向に輪郭を追跡しながら図6に示す方向コード1〜8を割り当てている。
なお、背景画素に方向コードを付与したが枠罫線の輪郭画素に付与しても良く、また背景パターンを右回りの方向に輪郭を追跡しているが、左回りに追跡しても良い。
コーナーの検出は、このように方向コード化画像から方向コードの変化点、すなわちコーナーを検出する。このために3×3近傍において、注目位置(中央画素)コードが指示する方向に、中央画素と同一の方向コードでない方向コードを持つ画素を検出する。図5において、丸で囲まれた位置は方向コードの変化点を示している。例えば53の位置では、図7(a)に示す画素配置となっており、注目画素の指示する方向”3”の示す位置にある画素の方向コードは”1”となっており、輪郭の方向が”3”から”1”へ変化することを意味するので方向コードの変化点であるコーナーとして検出する。
また、方向コードの変化点は、”31”というコード(以下方向変化コードと呼ぶ)で表記し、x座標、y座標と方向変化コードを1組の特徴情報として検出する。同様に画素位置54、55、56は図7の(b)、(c)、(d)に対応しており、それぞれ”17”、”75”、”53”という方向変化コードが与えられ、これらのコーナー点の持つx座標、y座標、方向変化コードを1組の特徴情報として構成要素検出手段5へ通知する。
次に構成要素検出手段5について図8と図9を用いて説明する。図8は、コーナー点の組み合わせから構成要素を検出するための判定条件を示す図で、図9は構成要素の記述形式を示す図である。図8において、(a)(b)(c)(d)はL字要素の検出例、(e)(f)(g)(h)はT字要素の検出例、(i)は十字要素の検出例を示している。
構成要素検出手段5は、コーナー検出手段4からのコーナーの特徴情報を用いて、x座標、y座標が所定の距離以内にある複数のコーナー点を一つのグループにまとめる処理(以下グループ化と呼ぶ)を行い、グループのメンバーであるコーナー点の方向変化コードの組み合わせから、構成要素の種類が対応付けられる。
このようにして検出された構成要素は、図9に示すように4ビットのコード(以下形状コードとよぶ)で記述され、各ビットは上位からS、W、N、Eのいずれの方向に腕が存在するかを示している。例えば図8(a)に示すL字要素はS方向とE方向に腕を有しているので、”1001”のビットパターンで記述される。構成要素のx座標及びy座標には、グループのメンバーであるコーナー点のx座標及びy座標の平均値を与えるものとし、構成要素検出手段5は前記構成要素のx座標、y座標、及び形状コードを特徴情報として、矩形検出手段6に通知する。
次に矩形検出手段6について図10及び図11を用いて説明する。図10は、構成要素同士の連結関係を示す図であり、図11は前記の連結関係から生成された最小矩形の認識を示す図である。矩形検出手段6は、矩形情報としてこれら構成要素の連結関係を記述した連結テーブル(図10(b))、および構成要素の連結関係から構成される最小矩形の位置情報を記述した矩形情報テーブル(図11(b))を生成出力するものである。
図10(a)は、構成要素検出手段5において検出されたL字要素、T字要素、十字要素とその位置関係の一例を示すものである。まず、各構成要素に対し識別ラベルe1からe20を付与し、次に構成要素検出手段5からの特徴情報(x座標、y座標、形状コード)に基づき、形状コードの示す腕の各方向についてx方向とy方向とをそれぞれ探索し、連結可能な腕をもつ構成要素のうち最短距離にあるものを検出し、連結テーブル(図10(b))を生成する。図10(b)は、構成要素の連結関係を示す連結テーブルを示すもので、各構成要素がどの要素と連結するかをN、S、E、Wの各方向について記述している。例えば、L字要素e1の場合は、腕S及びEに対応する構成要素としてe14及びe2が存在し、T字要素e2の場合は腕S、W、及びEに対応する構成要素としてe8、e1、及びe3が存在することになる。
さらに生成した連結テーブル(図10(b))を用いて、最小矩形を認識して矩形情報テーブルを生成する。図11(a)は、最小矩形の認識の概念図を示すもので、ある構成要素を始点としてE方向、S方向、W方向、N方向の順に連結をたどっていき、始点に戻ることができれば、その4点で構成される矩形を最小矩形と呼び、図11(b)に示す最小矩形の位置、サイズ等を記述した矩形情報テーブルに登録する。例えば、要素e1を始点とし時計方向回りに探索した場合は、E方向に連結する要素として要素e2が存在する。次に要素e2が持つS方向に連結をたどって要素e8を参照し、次に要素e8からW方向に連結をたどろうとするが、要素e8はW方向の腕を持っていないので、さらにS方向に連結をたどると、W方向の腕を持った要素e15が存在する。次に要素e15からW方向に要素e14をたどり、要素e14からN方向にたどると始点の要素e1に戻り最小矩形として認識することができる。そして、E,S,W,Nと方向を変えながら連結している4つの要素e1、e2、e15、e14を最小矩形の角の4点として、図11(b)の矩形情報テーブルの矩形識別ラベルr1の項目に登録し、すべての最小矩形を認識し矩形情報テーブルを生成する。
なお、要素e1を始点として設定したが、限定するものではなくどの位置を始点にしても良く、また右回りに連結したが左回りに連結しても良い。
このようにして生成された連結テーブル及び矩形情報テーブルを枠構造照合手段10に通知する。
次に、第2の罫線抽出手段7について図12を用いて説明する。図12は、第2の罫線抽出手段7における画像処理のブロック構成図を示し、20は画像メモリ2からの2値画像、201は水平方向にパターンを延長する第1の水平方向延長手段、202は水平方向にパターンを縮める水平方向収縮手段、203は水平方向にパターンを延長する第2の水平方向延長手段、204は垂直方向にパターンを延長する第1の垂直方向延長手段、205は垂直方向にパターンを縮める垂直方向収縮手段、206は垂直方向にパターンを延長する第2の垂直方向延長手段、207は第2の水平方向延長手段203と第2の垂直方向延長手段206の出力のNOR演算を行うNOR回路である。
第1の水平方向延長手段201は、画像メモリ2からの2値画像20に対し、水平方向にhd画素延長することによりhd画素より間隔の短い破線部分を連結する。水平方向収縮手段202は、水平方向に(h+hd)画素縮めることにより、水平方向に(h+hd)画素以下の幅の線や文字を消滅させ、続く第2の水平方向延長手段203において水平方向にh画素延長することにより、hd画素以下の間隔で、かつh画素より長い水平線分を抽出する。
同様に第1の垂直方向延長手段204は、画像メモリ2からの2値画像20に対し、垂直方向にvd画素延長することによりvd画素より間隔の短い破線部分を連結する。垂直方向収縮手段205は、垂直方向に(v+vd)画素縮めることにより、垂直方向に(v+vd)画素以下の幅の線や文字を消滅させ、続く第2の垂直方向延長手段206において垂直方向にv画素延長することにより、vd画素以下の間隔でかつv画素より長い垂直線分を抽出する。
NOR回路207は、第2の水平方向延長手段203と第2の垂直方向延長手段206の出力のNOR演算を行い、文字が消去され破線部分が実線になった枠罫線のみが残り、枠罫線及び背景がそれぞれ”0”及び”1”の値をもつ2値画像208が得られる。
また、第1及び第2の水平及び垂直方向延長手段201、203、204、206は、第1の罫線抽出手段3の水平及び垂直方向延長手段22及び24と同じ処理をするものであり、水平及び垂直方向収縮手段202及び205は、第1の罫線抽出手段3の水平及び垂直方向収縮手段21及び23と同じ処理をするものであり詳細な説明は省略する。
第2のコーナー検出手段8の処理は、第1のコーナー検出手段4と同じであり、前記第2の罫線抽出手段からの実線と破線部分のコーナー点情報を出力するもので、説明は省略する。
次にフォーマット情報記憶手段9について図13及び図14を用いて説明する。図13(a)は入力された帳票500の画像、図13(b)は第1の罫線抽出手段3の出力画像、図13(c)は第2の罫線抽出手段7の出力画像を各々示している。フォーマット情報記憶手段9には図13(b)に示す実線の枠構造情報、及び破線で区切られた枠構造情報が格納されており、例えば図13に示す帳票に対しては図14に示すフォーマットが対応する。
図14において、ID番号1は枠501、ID番号2は枠502というように各実線枠と1対1に対応しており、各実線枠内に破線枠が存在するときは、破線フラグが”1”になっており、当該実線枠の桁数が設定されている。また、対象枠フラグが”1”の場合には、該実線枠および破線枠を対象枠として文字切り出し手段に通知する対象枠である。図13(b)の帳票500においては、枠502に5桁、枠504に3桁、枠505に3桁破線枠が存在し、対応する図14にはID番号2、4、及び5の位置に桁数として5、3、及び3が設定されている。図14において、x、y座標は、各実線枠の左上、右上、右下、左下の順に登録されており、さらに各実線枠の幅と高さが登録されている。また図14における許容値は、枠構造を照合する際の枠の幅と高さの誤差許容範囲を示すものである。
また、フォーマット情報記憶手段9には、複数の帳票の枠構造情報が登録されており、それぞれ帳票はレコード番号で識別される。
次に枠構造照合手段10について図15を用いて説明する。枠構造照合手段10は、まず図14に示したフォーマット情報を参照して入力された帳票の実線枠構造を認識し、対象フラグが”1”の場合に、前記実線枠と図13(c)の○印で示す位置のコーナー点情報とを基に、破線の交点位置を確定して、実線枠および破線枠の4角の点の座標を文字切り出し手段11に通知するものである。
図15は、枠構造照合手段10における処理手順を示すフロー図であり、各ステップ毎に説明する。
まずステップ511は、矩形検出手段6から枠構造情報である連結テーブル及び矩形情報テーブルを読み込む。ステップ512は、読み込んだ連結テーブルから連結している構成要素の傾きの平均値を画像の傾き値gradとして(数1)によって算出する。
ここでは、水平方向に連結している構成要素の傾きの平均値を画像の傾き値として用いたが、画像の傾きがわかるのであれば、他の手法でもかまわない。
次に513〜518のステップは、フォーマット情報記憶手段9に登録されている複数の帳票の中から、矩形検出手段6からの枠構造情報と最も類似している帳票を判別する処理である。まず、ステップ513でフォーマット情報記憶手段9からレコード番号(i)の枠構造情報を取り出す。
次に、ステップ514で枠構造情報(i)と連結テーブル及び矩形情報テーブルとの実線枠照合及び“累積枠相違度”の算出を行う。ここで、“累積枠相違度”とは、枠毎に求めた“枠相違度”を累積加算し帳票全体の相違度を表したものである。“枠相違度”とは、枠構造情報の枠と読み取られた帳票の枠同士を対応づけた時の枠形状の“違い”を表すもので、互いの枠の形状の差が大きいほど“枠相違度”が大きくなるように定義する。すなわち、枠構造情報と読み取られた帳票のフォーマットの差が大きいほど“累積枠相違度”も大きくなる。
なお、ここで、枠構造の照合に枠形状の“違い”を表す枠相違度および累積枠相違度を用いたが、枠形状の“一致”を表す枠一致度および累積枠一致度を用いても良い。
ステップ515は、ステップ514で算出された累積枠相違度を、今までに算出されている累積枠相違度の中で最小の値(以下、最小累積枠相違度と呼ぶ)と比較し、小さい場合はステップ516に進み、大きい場合は、ステップ513に戻る。ステップ516で、現在の累積枠相違度を最小累積枠相違度とし、基準フォーマットのレコード番号(i)、認識枠テーブルを記録更新する。ステップ517は、レコード番号iとフォーマット情報に登録されている帳票の数nとを比較し、i≧nならステップ518に、i<nならi=i+1しステップ513に戻る。
ステップ518は、最小累積枠相違度が予め設定したしきい値よりも小さければ認識枠テーブルをそのまま出力し、大きければ基準フォーマットの中に対応する帳票がなかったとして出力する。ステップ519は、認識した実線枠の中で対応するフォーマット情報のテーブル対象枠フラグが”1”となっている実線枠の4点の座標を基に、フォーマット情報から推定した破線の交点の位置の近傍領域から第2のコーナー検出手段からの実在のコーナー点を探索し破線交点を検出する。
次に、ステップ520は、帳票内の対象枠の検出処理で、実線枠の4角の座標と破線交点の位置から、実線と破線で構成されている枠の4角の座標を算出し対象枠として文字切り出し手段11に通知する。例えば、図23(b)の実線枠720は4本の破線によって5つの枠721〜枠725で構成されている。実線枠720の座標をそれぞれ左上点、右上点、右下点、左下点の順に(x1、y1)、(x2、y2)、(x3、y3)、(x4、y4)として、破線交点の上側の座標を左から順に(XU0、YU0)〜(XU3、YU3)、下側の座標を(XL0、XL0)〜(XL3、YL3)とすると、通知する5つの対象枠の4角の座標は、枠721が、左上点、右上点、右下点、左下点の順に(x1、y1)、(XU0、YU0)、(XL0、YL0)、(x4、y4)となり、枠722が(XU0、YU0)、(XU1、YU1)、(XL1、YL1)、(XL0、YL0)となり、その他の枠も図23(c)の表のごとく通知される。
次に、ステップ514の実線枠照合及び“累積枠相違度”の算出及びステップ519の破線交点の検出について詳細に説明する。
ステップ514の実線枠照合及び“累積枠相違度”の算出について、図16から図19を用いて詳細に説明する。図16は、フォーマット情報記憶手段9に登録されている枠構造情報と矩形検出手段6からの連結テーブル及び矩形情報テーブルとを照合し、“累積枠相違度”を算出する手順を示すフロー図である。図17(a)は、基準になる帳票の実画像(以下、基準帳票と呼ぶ)を示し、図17(b)は、その枠構造情報を示す。図18(a)は、読み取られた帳票の実画像(以下、検査帳票と呼ぶ)を示し、図18(b)は、検査帳票の連結テーブル、図18(c)は、矩形情報テーブルを示す。図19は探索範囲を示す。また、図20は実際の処理の結果を示す。
図16に示す実線枠の照合および累積枠相違度を求める処理フローに従って、ステップ毎に説明する。
まず、ステップ521は、フォーマット情報の枠座標を(数2)により、傾き値gradだけ回転させ傾きを補正する。
ステップ522は、フォーマット情報から位置あわせの始点とする“始点枠”を取り出し、取り出す始点枠がない場合は終了する。”始点枠”として、例えば原点に近い枠から順次選択する。
ステップ523は、フォーマット情報に記述された許容値の範囲内で高さと幅が“始点枠”と同じ枠を“始点候補枠”として矩形情報テーブルから探索する。ステップ524では、“始点候補枠”が存在するかどうかの判断を行い、存在しなければステップ525に進み、存在すればその矩形の4点座標を始点候補枠として記憶し、ステップ526に進む。ステップ525は、連結テーブルから、図19(a)のように始点枠の4角の点を中心に所定の探索範囲を設定し、検査帳票の連結テーブルの全構成要素について探索し、4つの探索範囲すべてに構成要素が存在する場合に、その4点を始点候補枠として記憶する。
ステップ526は、“始点候補枠”が全くなければ、ステップ521に戻りフォーマット情報の次の枠を“始点枠”として選択してやり直す。
例えば、図17と図18の帳票の場合には、まず図17(b)をフォーマット情報としてID番号b1の枠を始点枠として選択する。次に、b1の枠と同じサイズの矩形を図18(c)の矩形情報テーブルから探索すると、r1、r2の矩形がそれぞれ始点候補枠として選ばれ、図20(a)に示すように記憶される。仮にr1、r2の矩形が存在しない場合には、e1,e2,e3,e4の構成要素の組み合わせと、e5,e6,e10,e9の組み合わせが“始点候補枠”として選択されて記憶される。
次に、“始点候補枠”が存在すれば、次の527〜539のステップで、そのすべての“始点枠”と“始点候補枠”とが重なるように位置あわせを行い、フォーマット情報と矩形情報テーブルの各枠毎に照合し枠相違度を求め、累積加算したものを累積枠相違度として算出するもので、最終的には“累積枠相違度”が最小になる組み合わせを選ぶことになる。フォーマット情報と矩形情報テーブルとの照合について図19(b)を用いて説明する。
まず、ステップ527で、“始点枠”b1の枠原点551と“始点候補枠”r1の枠原点550の相対距離(rx,ry)を(数3)で算出する。
次に、ステップ528は、次の対象枠の探索範囲を設定する処理で、例えば”基準枠”b2の枠原点(枠の左上の点)557からの相対距離(rx,ry)移動した点556を中心に探索範囲552を設定する。
ステップ529は、矩形情報テーブルから次の対象枠を例えば対象枠r2として、高さと幅が許容値内であり、探索範囲の中に枠原点562があるかどうか探索する。ステップ530は、矩形が存在するかどうかを確認するもので、存在すればその矩形を枠テーブルに登録しステップ532に進み、存在しなければステップ531に進む。ステップ531は、図19(c)に示すように基準枠572の4点座標をそれぞれ相対距離(rx,ry)分移動した枠の4点(574、575、576、577)を中心に、それぞれ所定の探索範囲573を設定して連結テーブルの4点を探索する。
ステップ532は、探索した構成要素の点を枠テーブルに登録するが、もし構成要素の点が存在しない場合には、基準枠の点の座標をそのまま登録する。
ステップ533で“枠相違度”d frameを(数4)で算出する。ここで、“枠相違度”とは、基準枠と探索した枠との相違度を示す数であり、この値が大きいほど基準枠と探索した枠とが異なっていることを示す。
なお、本発明では枠相違度を、探索範囲に存在しない構成要素の数としているが、他の評価式、例えば、基準枠の点と探索した枠の点との距離の差(あるいは差の絶対値)の総和を枠相違度としても構わない。
ステップ534は、“枠相違度”を“累積枠相違度”に累積加算する。
ステップ535は、フォーマット情報のテーブルに次の枠があるかを判定し、あればステップ536に進み、なければ537に進む。
ステップ536は、フォーマット情報から次の基準枠を読み込み、ステップ528に戻る。次に、ステップ537で“累積枠相違度”が今までに算出されている“累積枠相違度”より小さいかどうかの判定をし、大きければステップ539に進み、小さければステップ538に進む。ステップ538は、枠テーブルを認識枠テーブルに登録更新する。ステップ539は、ほかの“始点候補枠”があるかどうか判定し、“始点候補枠”がなくなるまでステップ528からステップ539を繰り返す。
以上の処理をすべての“始点候補枠”について行えば、最終的に最も違いの少ない認識枠データおよび累積枠相違度が得られる。
実線枠の照合および累積枠相違度の処理結果を図20に示す。始点枠b1の始点候補枠が、図20(a)に示すr1、r2となっている。そこで、図20(b)に示すように、r1を始点候補とした場合には、b2の枠とr2の枠、b3の枠とe7,e8,e11の構成要素、b4の枠とr3の枠がそれぞれ対応し、b3の場合だけ枠相違度が1となるので、累積枠相違度は1となる。一方、r2を始点候補とした場合には、対応する枠がほとんどなく、累積枠相違度は10となり、累積枠相違度が最小になるr1を始点候補とした認識枠データが図20(c)の認識枠テーブルに登録される。
次に、ステップ519の破線交点の検出について、図21及び図22を用いて詳細に説明する。図21、22は、第2のコーナー検出手段からのコーナー点情報を基に破線交点を検出する手順を示すフロー図である。図21において、Nは読み取り対象とする対象枠に存在する破線の総数である。
破線交点を検出する手順を、図21、22に示すフロー図に基づき、ステップ毎に説明する。
まず、601から604のステップは、実線交点間を桁数で等分し破線交点の候補位置を算出する。ステップ601は、制御変数jをリセットする。ステップ602は、実線枠の頂点間を等分し破線交点候補の座標を求める。ステップ603は、jをインクリメントし、ステップ604においてjがN以上かどうかの判定をし、N以上であればステップ605へ進み、そうでなければステップ602に戻る。
ステップ602における演算内容を、図23(a)を用いてさらに詳しく説明する。図23(a)は、破線交点の候補の位置関係を示すもので、例えば枠701の頂点間を5等分することにより、上側の破線交点候補CU(0)からCU(3)、及び下側の破線交点候補CL(0)からCL(3)の座標が求まる。すなわち実線枠の上側の2頂点を(x1,y1)、(x2,y2)、破線で区切られた桁数をpとすると、上側の破線交点の候補座標(xU(j),yU(j))は(数5)に示す内分演算で求められる。下側の破線交点の候補座標も実線枠の下側の2頂点(x3,y3)、(x4,y4)を用いて同様の計算で求められる。
以上の手続きを枠702及び枠703に関しても行い、帳票内の全ての破線の候補交点の座標を決める。
次の605から611のステップでは、第2のコーナー検出手段8からのコーナー情報を1点ずつ読み込み、破線交点の候補座標の近傍に存在するかどうかを判定し、近傍に存在するコーナー点を各破線交点毎に一つのグループにまとめる。
まず、ステップ605は、コーナー情報をx座標、y座標、方向変化コードの形式で1点ずつ読み込む。次にステップ606は、制御変数jをリセットする。ステップ607は、破線交点の候補座標を中心として±dを近傍領域として設定し、コーナー点が近傍領域内に存在するかどうかを判定し、近傍領域内に存在する場合はステップ608に進み、存在しない場合はステップ609に進む。
ステップ608は、該当する候補交点のグループに帰属させ、再び605に戻る。このとき枠の上側の破線交点の候補座標の近傍に存在する場合はグループGU(j)に所属させ、また枠の下側の破線交点の候補座標の近傍に存在する場合はグループGL(j)に所属させることにより上側のグループと下側のグループを区別する。これは、後述するペアコーナー点の成立条件において、ペアとなるコーナー点の方向変化コードが上側の交点と下側の交点で異なるからである。ステップ609は、制御変数jをインクリメントする。ステップ610は、j≧Nを判定しNの場合は607に、Yの場合は611に進む。611は、コーナー点の終了かどうかを判断し、次のステップへ進むかどうかの判定を行う。
次に、図22における621から627のステップは、各候補交点のコーナー点のグループ毎に、T字要素を構成し得るコーナー点のペアを生成する。
まず、ステップ621は、制御変数jをリセットする。次にステップ622は、各破線交点毎のコーナー点のグループGU(j)またはGL(j)に対しコーナー点のペアを生成する。ステップ623は、ペアが存在するかどうかを判定し、ペアが存在する場合はステップ624へ進み、ペアが存在しない場合はステップ625へ進む。ステップ624は、破線交点の座標としてペアコーナー点の平均座標から算出する。ステップ625は、破線交点の座標としてステップ602で求めた実線枠の頂点間を等分し破線交点候補の座標をで求めた座標を採用する。次にステップ626においてjをインクリメントし、ステップ627において次のステップへ進むかどうかj≧Nで判定を行う。
以上、図21及び図22に示した手順により、帳票の破線交点の位置が確定する。具体的には、図24に示すように破線交点の候補位置707、708を中心として±dの近傍領域705、706を設定する。枠の上側のグループGU(j)は、方向変化コード”17”のコーナー点の右側に方向変化コード”31”のコーナー点が存在することからペアとして認められ、その平均座標を破線交点の座標とする。一方、枠の下側のグループGL(j)は、方向変化コード”75”のコーナー点の右側に方向変化コード”53”のコーナー点が存在することからペアと認められ、その平均座標を破線交点の座標とする。
次に、文字切り出し手段11について説明する。文字切り出し手段11は、画像メモリ2から実際の文字の2値イメージを切り出して文字認識手段12に送るもので、その処理について図25を用いて詳細に説明する。
図25は、ある帳票の枠の中に文字が描かれている2値イメージの一部を示す。ここで、711〜714は、枠構造照合手段10から通知された枠の4角の点、715は枠の4角の点711〜714で構成される領域a、716は領域a(715)よりも枠線の幅の分だけ小さくした領域b、717は枠内に描かれている文字、718は文字枠である。
文字切り出しの処理の時には、領域a(715)で2値画像を切り出した場合、文字枠718の一部分まで切り出してしまい、余分な画像を含んでいるために文字認識率が低下する事がある。そこで、領域a(715)よりも枠線の幅の分小さくした領域b(716)で画像メモリ2から切り出すことによって、文字枠718を除いた文字領域を文字認識手段12に切り出し、文字717を認識させるために、文字認識率の低下を防ぐことができる。
文字認識手段12は、例えば、ニューラルネットを用いた文字認識法(”PDPモデルによる手書き漢字認識”、電子情報通信学会論文誌、Vol.J73-D-II, No.8 pp.1268-1274 1990)により実現することができる。詳細な処理に関しては既存の技術であるので上記文献を提示し省略するものとする。
このようにして、帳票を識別してその指定された対象枠内の文字を認識することができる。
(実施の形態2)
以下、本発明の実施の形態2について、図26から図30を参照しながら説明する。
以下、本発明の実施の形態2について、図26から図30を参照しながら説明する。
図26は、本発明の実施の形態2の帳票認識装置のブロック構成図を示し、1は帳票文書を読み取り2値画像を得る画像入力手段、2は前記2値画像を記憶する画像メモリ、3は2値画像の水平、垂直方向の実線の罫線を抽出する第1の罫線抽出手段、4は実線の罫線からなるパターンのコーナーを検出する第1のコーナー検出手段、800は前記コーナー点の組み合わせから罫線の屈曲や交差によるL字要素、T字要素、十字要素及びI字要素の構成要素を検出する第1の構成要素検出手段、801は構成要素同士をグルーピングさせて新しい構成要素を生成する第2の構成要素検出手段、6は構成要素同士を連結し連結形態を枠構造情報として出力する矩形検出手段と、9は予め読み取り対象となる複数の帳票のフォーマット情報を記憶するフォーマット情報記憶手段、10は前記枠構造情報をもとに帳票内の矩形構造と前記フォーマット情報を照合し帳票の種別を判別し、帳票内の文字読み取り対象枠を検出する枠構造照合手段、11は文字読み取り対象枠の文字領域を切り出す文字切り出し手段、12は切り出された文字を認識する文字認識手段である。
以上のように構成された帳票認識装置において、その動作を説明するが、本発明の実施の形態1の帳票認識装置のブロック構成図と異なる第1の構成要素検出手段800と第2の構成要素検出手段801について詳細に説明する。
まず、第1の構成要素検出手段801について説明するが、第1の構成要素検出手段801は、実施の形態1の構成要素検出手段5と基本的には同じものであり、図27(a)〜(d)に示す罫線の断線を意味するI字要素を検出するための判定条件を付加したものである。よって、L字要素、T字要素、十字要素に加えてI字要素を検出して、802の第2の構成要素検出手段に通知する。
次に第2の構成要素検出手段802について図28から図30を用いて説明する。図28は、構成要素同士のグルーピングの判定条件を示し、図29は第1の構成要素検出手段からの構成要素をグルーピングする手順を示すフロー図を示している。また、図30は、本発明の実施の形態2の処理結果を示す。
図28において、図28(a)〜(c)はI字要素同士をグルーピングしてそれぞれL字要素、T字要素、十字要素を検出する例を示している。また、図28(d)は、I字要素とL字要素をグルーピングしてT字要素を検出し、図28(e)はI字要素とT字要素をグルーピングして十字要素を検出する例を示している。
次に、第2の構成要素検出手段802の処理手順について、図29を用いて各ステップ毎に説明する。まず、ステップ820は、対象の構成要素がI字要素であるかどうかを判断し、I字要素であればステップ821に進み、I字要素でない場合にはステップ828に進む。ステップ821は、予め設定した探索範囲内で他の構成要素を探索する。
ステップ822は、他の構成要素がI字要素でない場合にはステップ824に進み、I字要素の場合にはステップ823に進み、図28(a)〜(c)の配置になる構成要素を選択して、それぞれグルーピングし、グルーピングした構成要素の座標の平均値および形状コードの論理和をそれぞれグルーピング構成要素の座標および形状コードとして更新登録する。
ステップ824は、他の構成要素がL字要素であるかの判定をして、L字要素でなければステップ826に進み、L字要素であれば、ステップ825で図28(d)のグルーピングを行う。前記と同じように、グルーピングした構成要素の座標の平均値および形状コードの論理和をとり、それぞれグルーピング構成要素の座標および形状コードとして更新登録する。
ステップ826は、他の構成要素がT字要素の判定を行い、T字要素でなければステップ828に進み、T字要素であれば、ステップ827で図28(e)のグルーピングを行い、前記と同じように座標値と形状コードの更新登録を行う。ステップ828は、次の構成要素が存在すれば、820に戻り処理を繰り返し、構成要素が存在しなければ処理を終了する。
また、図28(a)〜(e)のグルーピングの条件を満たさずに単独で存在するI字要素は登録を行わない。ただし、単独で存在するL字要素、T字要素および十字要素は、そのまま登録する。
本発明の実施の形態2の構成要素検出手段の処理結果について、図30を用いて説明する。図30(a)は、枠の角部分が緩やかな曲率を持つ帳票の原画像である。図30(b)は、第1の罫線抽出手段により所定の長さ以上の線分を抽出し、コーナー点を検出した結果であり、枠線の角部分が途切れている。図30(b)の831、832、833は、第1の構成要素検出手段によって、枠の断線した部分のコーナー点から検出されたI字要素である。図30(b)の834と835は、同じく第1の構成要素検出手段によって検出されたL字要素である。図30(c)は、第2の構成要素検出手段によってグルーピングされた構成要素を示し、L字要素836は(b)のI字要素831と832がグルーピングしたものである。ただし、図30において左側のみ説明および図示したが右側も同様である。また、T字要素837は、I字要素833とL字要素834がグルーピングしたものである。L字要素838は、グルーピングする構成要素がなかったのでそのまま通知されている。
以上説明したように、枠の角部分が緩やかな曲率を持つ場合でも、枠の交点を正確に認識することができる。
本発明にかかる帳票認識装置は、帳票が画像として傾いて入力されたり、帳票内に破線の罫線が存在しても、文字枠を正確に検出し文字認識を行うことができるという特徴を有し、帳票など表形式文書の表構造認識を含めた文字認識装置等に有用である。
1 画像入力手段
2 画像メモリ
3 第1の罫線抽出手段
4 第1のコーナー検出手段
5 構成要素検出手段
6 矩形検出手段
7 第2の罫線抽出手段
8 第2のコーナー検出手段
9 フォーマット情報記憶手段
10 枠構造照合手段
11 文字切り出し手段
12 文字認識手段
20 2値画像
21 水平方向収縮手段
22 水平方向延長手段
23 垂直方向収縮手段
24 垂直方向延長手段
25 NOR回路
201 第1の水平方向延長手段
202 水平方向収縮手段
203 第2の水平方向延長手段
204 第1の垂直方向延長手段
205 垂直方向収縮手段
206 第2の垂直方向延長手段
207 NOR回路
801 第1の構成要素検出手段
802 第2の構成要素検出手段
2 画像メモリ
3 第1の罫線抽出手段
4 第1のコーナー検出手段
5 構成要素検出手段
6 矩形検出手段
7 第2の罫線抽出手段
8 第2のコーナー検出手段
9 フォーマット情報記憶手段
10 枠構造照合手段
11 文字切り出し手段
12 文字認識手段
20 2値画像
21 水平方向収縮手段
22 水平方向延長手段
23 垂直方向収縮手段
24 垂直方向延長手段
25 NOR回路
201 第1の水平方向延長手段
202 水平方向収縮手段
203 第2の水平方向延長手段
204 第1の垂直方向延長手段
205 垂直方向収縮手段
206 第2の垂直方向延長手段
207 NOR回路
801 第1の構成要素検出手段
802 第2の構成要素検出手段
Claims (9)
- 枠罫線を含む帳票文書を読み取り2値画像を出力する画像入力手段と、前記2値画像から罫線のコーナーを検出するコーナー検出手段と、前記コーナー検出手段からのコーナーの組み合わせから罫線の構成要素を検出し、罫線の端点を検出した場合は端点と他の端点を含む他の構成要素との組合せから構成要素を再構成する構成要素検出手段と、前記構成要素検出手段からの構成要素を相互に連結し、枠構造情報を出力する矩形検出手段と、予め複数の帳票文書の基準となる枠構造情報であるフォーマット情報を記憶するフォーマット情報記憶手段と、前記枠構造情報と前記フォーマット情報とを順次照合し、検出対象の枠構造情報を判定する枠構造照合手段とを具備する帳票認識装置。
- 枠構造照合手段は、前記枠構造情報と前記フォーマット情報とを順次照合し、検出対象の枠構造情報を判定すると共に、照合結果から帳票文書の種別を判別することを特徴とする請求項1記載の帳票認識装置。
- 構成要素検出手段は、前記コーナー検出手段からのコーナーの組み合わせから罫線の構成要素として、L字要素、T字要素、十字要素及びI字要素を検出し、該当のI字要素と他のI字要素を含む構成要素とのグルーピングを行い、新たな構成要素として再構成することを特徴とする請求項1または2記載の帳票認識装置。
- 更に、前記2値画像を記憶する画像メモリと、前記対象枠の座標に基づき前記画像メモリから文字領域を切り出す文字切り出し手段と、切り出された文字領域から文字を認識する文字認識手段とを具備することを特徴とする請求項1乃至3のいずれかに記載の帳票認識装置。
- 更に、入力された2値画像から水平、垂直方向の実線の罫線を抽出する罫線抽出手段を有し、実線のみからコーナー検出を行うことを特徴とする請求項1乃至4のいずれかに記載の帳票認識装置。
- 枠罫線を含む帳票文書の2値画像から罫線のコーナーを検出し、検出された前記コーナーの組み合わせから罫線の構成要素を抽出し、抽出された構成要素で罫線の端点を検出した場合は端点と他の端点を含む他の構成要素との組合せから構成要素を再構成し、抽出された構成要素を相互に連結し、枠構造情報を求め、前記枠構造情報と予め記憶された読み取り対象となる複数の帳票のフォーマット情報とを順次照合し、検出対象の枠構造情報を判定する帳票認識方法。
- 枠構造情報の照合は、前記枠構造情報と前記フォーマット情報とを順次照合し、検出対象の枠構造情報を判定すると共に、照合結果から帳票文書の種別を判別することを特徴とする請求項6記載の帳票認識方法。
- 構成要素の検出は、前記検出されたコーナーの組み合わせから罫線の屈曲や交差形状の構成要素として、L字要素、T字要素、十字要素及びI字要素を検出し、該当のI字要素と他のI字要素を含む構成要素とのグルーピングを行い新たな構成要素を抽出することを特徴とする請求項6記載の帳票認識方法。
- 前記2値画像を記憶する画像メモリと、前記対象枠の座標に基づき前記画像メモリから文字領域を切り出し、切り出された文字領域から文字を認識することを特徴とする請求項6乃至8のいずれかに記載の帳票認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004239273A JP2004334913A (ja) | 2004-08-19 | 2004-08-19 | 帳票認識装置及び帳票認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004239273A JP2004334913A (ja) | 2004-08-19 | 2004-08-19 | 帳票認識装置及び帳票認識方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19871696A Division JP3622347B2 (ja) | 1996-07-29 | 1996-07-29 | 帳票認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004334913A true JP2004334913A (ja) | 2004-11-25 |
Family
ID=33509489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004239273A Withdrawn JP2004334913A (ja) | 2004-08-19 | 2004-08-19 | 帳票認識装置及び帳票認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004334913A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008015702A (ja) * | 2006-07-04 | 2008-01-24 | Tokyo Soft Kk | 帳票処理装置 |
EP2136316A2 (en) | 2008-06-20 | 2009-12-23 | Fujitsu Frontech Limited | Form recognition apparatus, method, database generation apparatus, method, and storage medium |
CN106682671A (zh) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | 图像文字识别系统 |
CN113139539A (zh) * | 2021-03-16 | 2021-07-20 | 中国科学院信息工程研究所 | 渐近回归边界的任意形状场景文字检测方法及装置 |
-
2004
- 2004-08-19 JP JP2004239273A patent/JP2004334913A/ja not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008015702A (ja) * | 2006-07-04 | 2008-01-24 | Tokyo Soft Kk | 帳票処理装置 |
EP2136316A2 (en) | 2008-06-20 | 2009-12-23 | Fujitsu Frontech Limited | Form recognition apparatus, method, database generation apparatus, method, and storage medium |
US8891871B2 (en) | 2008-06-20 | 2014-11-18 | Fujitsu Frontech Limited | Form recognition apparatus, method, database generation apparatus, method, and storage medium |
CN106682671A (zh) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | 图像文字识别系统 |
CN113139539A (zh) * | 2021-03-16 | 2021-07-20 | 中国科学院信息工程研究所 | 渐近回归边界的任意形状场景文字检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3302147B2 (ja) | 文書画像処理方法 | |
JP2005316755A (ja) | 2次元矩形コードシンボル読み取り装置及び2次元矩形コードシンボル読み取り方法 | |
KR101821087B1 (ko) | 이차원 코드, 이차원 코드의 해석 시스템 | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
JP3411472B2 (ja) | パターン抽出装置 | |
CN115619656A (zh) | 数字化档案纠偏矫正方法及系统 | |
Boukerma et al. | A novel Arabic baseline estimation algorithm based on sub-words treatment | |
JPH0418351B2 (ja) | ||
JP3936436B2 (ja) | 表認識方法 | |
KR20010015025A (ko) | 문자인식장치의 문자추출방법 및 장치 | |
JP2004334913A (ja) | 帳票認識装置及び帳票認識方法 | |
JP3622347B2 (ja) | 帳票認識装置 | |
JP3586949B2 (ja) | 帳票認識装置 | |
JP3586911B2 (ja) | 枠線認識装置 | |
JP2002133424A (ja) | 文書の傾き角度及び境界の検出方法 | |
JP4329226B2 (ja) | 基準マーク検出方法、基準マーク検出装置及び光学式文字読取装置 | |
JPH04268685A (ja) | 帳票類の種類判別方法 | |
JP3794285B2 (ja) | 光学式文字読取装置 | |
JP4282467B2 (ja) | 像域分離方法 | |
JP4221960B2 (ja) | 帳票識別装置及びその識別方法 | |
JP2022184331A (ja) | 帳票の特定フィールド認識方法および特定フィールド読取り装置 | |
JPH09147105A (ja) | 図面閉領域の抽出方法 | |
JP2009193170A (ja) | 文字認識装置及び文字認識方法 | |
JP3662967B2 (ja) | 文字ループ候補抽出装置及び文字補完装置 | |
JPH0877293A (ja) | 文字認識装置および文字認識用辞書作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040819 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050711 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20060427 |