JP2007011528A

JP2007011528A - Ｏｃｒ処理における認識対象項目の位置探索方法

Info

Publication number: JP2007011528A
Application number: JP2005189269A
Authority: JP
Inventors: Akitoshi Yoshizawa; 明登志吉澤; Daisuke Okamoto; 大輔岡本
Original assignee: NJK Corp
Current assignee: NJK Corp
Priority date: 2005-06-29
Filing date: 2005-06-29
Publication date: 2007-01-18

Abstract

【課題】原稿様式毎のソフトウェアによる書式設定を行う必要をなくし、画像データの文字位置及び罫線位置の変動に影響されることなく文字認識を行うことができ、更に認識すべき文字を罫線の位置を基に自動的に探索できるようにする。
【解決手段】ＯＣＲ処理する文書画像データに含まれる罫線で囲まれた矩形枠の頂点を探索して設定した処理領域と、コンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠とを互いに番号を付与して対応付け、このコンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠と互いに番号を付与して対応付けた処理領域内の成分をＯＣＲ文字認識して文字列を求める。
【選択図】図７

Description

本発明は、紙媒体の定型文書をスキャナから取り込んだ画像データをＯＣＲ処理により文字認識したり、既にＰＤＦ形式で画像データに処理された電子文書をＯＣＲ処理したりする場合に、画像データ上のＯＣＲ処理する認識対象項目の位置を検索するＯＣＲ処理における認識対象項目の位置探索方法に関する。

ＯＣＲ処理では、基準となる画像データ（基準位置）上の文字認識位置（範囲）を予めソフトウェアで書式設定（フォームレイアウト設定）し、実際に取り込んだ画像データ上の前記基準となる画像データ上の文字認識位置に対応する位置（範囲）の文字をＯＣＲ認識するようにしている。しかし、実際に取り込んだ画像データ上の文字認識位置と、基準となる画像データ上の文字認識位置との間に誤差が発生すると、ＯＣＲ処理での文字認識ができなくなる場合がある。

例えば、図１（ａ）及び（ｂ）に示すように、スキャナで読み取り処理された画像データが基準位置（基準となる画像データ）に対して傾斜して形成され、この結果、画像データの原稿読み取り面上の認識の対象となる文字列（対象の文字列）が、基準位置に対して書式設定された範囲（位置）から外れると、ＯＣＲ処理での文字認識ができなくなる。このため、図１（ｃ）に示すように、スキャナの文書取り込み処理及びＯＣＲ処理の機能で、読み取り処理された画像データの傾きを一定の範囲で補正するようにしている。しかし、この補正後であっても、画像データの認識の対象となる文字列が、基準位置に対して書式設定された範囲から外れると、ＯＣＲ処理での文字認識ができなくなる。

また、図２（ａ）及び（ｂ）に示すように、ソフトウェアで作製処理された画像データ自体が基準位置（基準となる画像データ）に対して縦方向及び横方向に外れて形成され、この結果、画像データの原稿読み取り面上の認識の対象となる文字列（対象の文字列）が、基準位置に対して書式設定された範囲から外れると、ＯＣＲ処理での文字認識ができなくなる。例えば、ソフトウェアの余白設定や倍率設定の相違により、このような誤差が発生し、このような誤差が発生した場合、画像データの補正は困難である。

更に、様々な方法で大量に作成される画像データでは、基準位置（基準となる画像データ）に対する誤差が個々に一定ではなく、従来の原稿様式に対して固定的に書式設定する方法では対応できない問題があった。

大量の定型文書を機械的に読み取ってＯＣＲ処理する場合、画像データ及び電子文書の作成過程に文字位置及び罫線位置の不揃いが生じ、ＯＣＲの誤認識による修正や追加入力が多数発生しているのが現状であった。このため、ＯＣＲ処理における文字の認識率を向上させて修正作業や追加入力作業を軽減させ、更に、従来ＯＣＲ処理が不可能であった文書の電子化に寄与するものの開発が強く望まれていた。

本発明は上記事情に鑑みて為されたもので、原稿様式毎のソフトウェアによる書式設定を行うことなく、罫線の位置を基に、認識すべき文字の位置を自動的に探索でき、しかも、画像データの文字位置及び罫線位置の変動に影響されることなく文字認識を行うことができるようにしたＯＣＲ処理における認識対象項目の位置探索方法を提供することを目的とする。

上記目的を達成するため、本発明のＯＣＲ処理における認識対象項目の位置探索方法は、ＯＣＲ処理する定型文書の画像データに含まれる罫線で囲まれた矩形枠の頂点を探索して、処理領域を設定することを特徴とする。
このように、ＯＣＲ処理する定型文書の画像データに含まれる罫線で囲まれた矩形枠の頂点を探索して処理領域を設定することで、原稿様式毎のソフトウェアによる書式設定を行う必要をなくすことができる。

前記処理領域と、コンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠とを互いに番号を付与して対応付けることが好ましい。
前記コンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠と互いに番号を付与して対応付けた前記処理領域内の成分をＯＣＲ文字認識して文字列を求めることが好ましい。これにより、罫線の位置を基に、認識すべき文字の位置を自動的に探索して、画像データの文字位置及び罫線位置の変動に影響されることなく文字認識を行うことができる。

本発明によれば、例えば原稿に多少の歪みがある場合でも、ＯＣＲ処理による文字認識が可能となり、このため、修正作業や追加入力作業が軽減できるサービスを提供することができる。

以下、本発明の実施の形態を図面を参照して説明する。
本発明を実施するためのコンピュータ・システムは、図３に示すように、中央処理装置１０、記憶装置１２、表示装置１４及び入力装置１６から構成されている。定型文書（紙媒体）をスキャナ１８で読み込んだ画像データ（イメージデータ）や定型文書（ＰＤＦ形式）のＰＤＦデータは、コンピュータ・システムの記憶装置１２に記憶され、中央処理装置１０でＯＣＲ処置を行って画像データから求めたテキストデータも記憶装置１２に記憶される。

図４に示すように、画像データは、ワープロ等で電子的に作成された原稿文書をＰＤＦ作成ソフトで出力したＰＤＦ形式のデータ（ＰＦＤデータ）および紙媒体の原稿文書をスキャナで読み取ったイメージ（イメージデータ）を指す。画像データは、原稿文書の文字や罫線の描画用の情報であり、コンピュータ・システムの表示装置１４での元の原稿文書の再現やＯＣＲ処理の文字認識に使用され、ＯＣＲ処理後にテキストデータとして記憶装置１２に記憶される。１つの画像データは、１種類の原稿文書の様式（定型文書）であり、原稿文書の量（例えば枚数）に応じたデータ量を持つ。

以下、図５に示す原稿文書を画像データに変換してＯＣＲ処理を行うようにした例について説明する。この原稿文書を画像データに変換後に表示装置１４に出力した時、図６に示すように、原稿文書上の基準となる罫線位置と該基準となる罫線位置と対応する画像データ上の罫線位置との間に、スキャナによる文書取り込み段階またはＯＣＲ処理では補正できない歪みが残っており、原稿文書と画像データの文字位置を比較した時の誤差が１つの様式（定型文書）として一定でない場合は、従来の書式設定（原稿文書を使用したフォームレイアウト設定）では文字認識が不可能である。従って、本発明では以下のような処理を行っている。

本発明の処理フローを図７に示す。図７に示すように、処理を開始すると、画像データファイルから基準とする１件分の画像データを入力情報として表示装置１４に出力して表示する。この画像データには、前述のように、紙媒体の定型文書をスキャナの機能により画像データに変換されたものと、定型文書がＰＤＦ形式の電子文書に変換されたものが含まれる。表示装置１４に表示された画像データを図８に示す。

次に、表示装置１４に表示された画像データから、文字認識する罫線で囲まれた部分の項目（番号）をコンピュータ・システムの入力装置１６により指定して記憶する。この例では、図８に示す例の「プロペラシャフト」の表示部分を文字認識する場合を示しており、原稿文書の書式に基づき、予め罫線で囲まれた領域に、左上から右方向に向けて連続番号を付与しておき、最初に画像データを表示した時点で、コンピュータ・システムの入力装置１６から項目（番号）を選択することにより、該当の番号を引き当てるようにしている。つまり、この例で、「プロペラシャフト」の表示部分を囲む罫線で囲まれた領域は、画像データの左上から右方向へ順番に連続番号を付与すると２番目であり、２番目の項目を指定する。

なお、図８に示す例において、「Ｕ−ＦＫ６１７Ｋ」の項目を指定する場合には、この「Ｕ−ＦＫ６１７Ｋ」の表示部分を囲む罫線で囲まれた領域は、画像データの左上から右方向へ順番に連続番号を付与すると４番目であり、４番目の項目を指定する。

この例では、１つの原稿文書の中で文字認識する部分が１つのみの場合について説明しているが、文字認識する部分が２つ以上ある場合には、文字認識する罫線で囲まれた部分の項目（番号）のコンピュータ・システムの入力装置１６による指定を、文字認識する部分の数だけ繰り返す。

上記のようにして、罫線で囲まれた部分の項目を指定した後、画像データファイルから順次読み取った画像データのページ毎の探索を行う。
先ず、罫線で囲まれた部分（領域）の左上起点を全て探索し、次にこの左上起点を基に罫線で囲まれた領域の探索を行う。つまり、表示した画像データの全域に亘って、画素単位で座標を移動して罫線を構成する画素を検出し、次に罫線で囲まれた領域を探索して１つの領域を決定する。罫線は、実線と破線の両方を探索対象とする。そして、画像データの全域の探索が終了した時点で、求めた全ての領域の座標を記憶する。

この画像データの全域から罫線の部分の左上起点を探索する方法について、図９を参照して説明する。図９に示すように、画像データの有効な領域の左上の頂点から、１ピクセルの幅で水平に右方向（(1)方向）へ座標を移動して、罫線を意味する色情報（ＲＧＢ値）の画素を探索する。座標が画像データの右端まで達した時点で、垂直方向に１ピクセル下方の左端へ戻り、再び水平の右方向（(2)方向）へ座標を移動して、罫線を意味する色情報（ＲＧＢ値）の画素を探索する。この繰り返しの過程において、水平の右方向（(3)方向）への座標の移動が、点(A)に達して罫線を検出した場合には、この点(A)の座標を始点として、水平の右方向（(4)方向）へ座標を移動する。そして、罫線を意味する画素が連続していると判断した時点で「水平の罫線」の存在を記憶する。画素が規則的に断続する場合は、破線の罫線と判断する。

次に、点(A)点へ戻り、垂直の下方向（(5)方向）へ座標を移動する。そして、罫線を意味する画素が連続していると判断した時点で、「垂直の罫線」の存在を記憶する。ここまでの処理において、点(A)点は、罫線の接する頂点（始点）であると検出して記憶する。

次の頂点の探索を継続するため、始点(A)に戻り、水平の右方向（(6)方向）へ座標を移動させながら、垂直の下方向（(7)方向）の罫線を探索する。そして、点(B)に達して垂直の下方向の罫線を検出した場合には、この点(B)の座標を始点として、水平の右方向（(8)方向）へ座標を移動し、罫線を意味する画素が連続していると判断した時点で「水平の罫線」の存在を記憶する。画素が規則的に断続する場合は、破線の罫線と判断する。

次に、点(B)点へ戻り、垂直の下方向（(9)方向）へ座標を移動する。そして、罫線を意味する画素が連続していると判断した時点で、「垂直の罫線」の存在を記憶する。ここまでの処理において、点(B)は、罫線の接する頂点（始点）であると検出して記憶する。なお、水平の罫線から外れる水平の右方向（(10)方向）への座標の移動にあっては、水平の罫線を検出せず、また罫線の内部に入る水平の右方向（(11)方向）への座標の移動にあっても、水平の罫線を検出せず、このため、これらの座標の水平の右方向の移動によって始点が探索されることはない。

そして、前述と同様にして、水平の右方向（(12)方向）の座標の移動に伴って、点(C)は、罫線の接する頂点（始点）であると検出して記憶する。
以上のようにして、罫線の接する頂点（始点）の座標を画像データから全て求めて、それぞれ罫線で囲まれた領域の順序を意味する番号を付与して記憶する。

図１０に示すように、実際の罫線は、一般に数ピクセル分の画素幅があり、１ピクセル単位に探索する軌跡は複数存在する。図１０に示す例では、水平の右方向（(2)方向）と垂直の下方向（(3)方向）の座標の移動で求めた接点(a)と、水平の右方向（(4)方向）と垂直の下方向（(5)方向）の座標の移動で求めた接点(b)と、水平の右方向（(6)方向）と垂直の下方向（(7)方向）の剤表の移動で求めた接点(c)が存在する場合を示している。

次に、上記の探索により検出した座標を起点とする罫線で囲まれた領域を探索する方法について、図１１を参照して説明する。先ず、図１１に示す最初の点(A1)の座標から水平の右方向（(1)方向）へ座標を移動しながら垂直の下方向（(2)方向）に罫線を探索して、罫線で囲まれた領域の右上の点(A2)の座標を決定する。次に、垂直の下方向（(3)方向）へ座標を移動しながら水平に左方向（(4)方向）の罫線を探索して、罫線で囲まれた領域の右下の点(A3)の座標を決定する。次に最初の点(A1)に戻り、垂直の下方向（(5)方向）へ座標を移動させながら、水平に右方向（(6)方向）の罫線を探索して、罫線で囲まれた領域の左下の点(A4)の座標を決定する。

前述の図１０に示す例のように、探索した軌跡が罫線上に複数存在する場合は、図１１に示す例で、起点の左上の点(A1)の座標では垂直方向（ｙ軸の値）が最小かつ水平方向（ｘ軸の値）が最大の接点、右上の点(A2)の座標では垂直方向（ｙ軸の値）が最小かつ水平方向（ｘ軸の値）が最小の接点、右下の点(A3)座標では垂直方向（ｙ軸の値）が最大かつ水平方向（ｘ軸の値）が最小の接点、左下の点(A4)の座標では垂直方向（ｙ軸の値）が最大かつ水平方向（ｘ軸の値）が最大の接点を有効とする。
以上のようにして、四隅の頂点を求めて結ぶことで、罫線で囲まれた矩形の領域が決定する。

図１２及び図１３に示すように、傾きの補正が不完全な画像データでは、罫線の水平方向及び垂直方向の線が傾斜するが、上記の有効座標を求めることにより矩形の領域と罫線の重なりを回避できる。

つまり、図１２に示す例では、左上の起点(A1)から座標を水平の右方向（(1)方向）へ移動させて、罫線で囲まれた領域の右上の点(A2)の座標を決定する際に、鉛直の下方向（(2)方向）への罫線の探索と同期して、逆の方向（(3)方向）への水平方向に傾斜して延びる罫線の探索を行う。そして、鉛直の下方向（(2)方向）への罫線の探索によって、右上の点(A2)の座標を決定した時点の始点の座標におけるｙ軸の値と、この時の逆の方向（(3)方向）への探索で得られた終点の座標におけるｙ軸の値との差分を求め、左上の点(A1)の座標と右上の点(A2)の座標の間の傾斜を計算し、罫線で囲まれた領域の他の頂点に計算した結果を適用して、座標を補正する。

図１３に示す例も同様に、左上の起点(A1)から座標を水平の右方向（(1)方向）へ移動させて罫線で囲まれた領域の右上の点(A2)の座標を決定する際に、鉛直の下方向（(2)方向）の垂直の下方向への罫線の探索と同期して、逆の方向（(3)方向）への水平方向に傾斜して延びる罫線の探索を行う。そして、鉛直の下方向（(2)方向）への罫線の探索によって、右上の点(A2)の座標を決定した時点の始点の座標におけるｙ軸の値と、この時の逆の方向（(3)方向）への探索で得られた終点の座標におけるｙ軸の値との差分を求め、左上の点(A1)の座標と右上の点(A2)の座標の間の傾斜を計算し、罫線で囲まれた領域の他の頂点に計算した結果を適用して、座標を補正する。

以上の方法で、文字認識する項目として指定した項目の番号と画像データの探索で検出した罫線で囲まれた領域の番号の対応付けが可能となる。
そして、画像データ毎に、画像データを基に予め求めた領域の数と、処理する画像データにおける起点を基に検索した領域の数が互いに一致するか否かを判断し、一致しない場合は、当該の１つの画像データの探索は無効とする。画像データを基に予め求めた領域の数と、処理する画像データにおける起点を基に検索した領域の数が互いに一致する場合には、処理する画像データにおける起点を基に検索した領域に対して、ユーザインターフェースで指定された項目（番号）と一致する領域内の文字列、つまり図８に示す例にあっては、罫線で囲まれた領域の２番目の項目と一致する領域内の「プロペラシャフト」をＯＣＲ文字認識し、結果をテキストデータに変換してコンピュータ・システムに保存する。そして、１つの画像データに指定したすべての領域の処理が終了した時点で画像データから求めたテキストデータをコンピュータ・システムに保存する。以上で１つの画像データに対する処理を終了する。

以上のように、この例によれば、原稿様式毎のソフトウェアによる書式設定を行う必要をなくし、罫線の位置を基に、認識すべき文字の位置を自動的に探索して、画像データの文字位置及び罫線位置の変動に影響されることなく文字認識を行うことができる。

原稿読み取り処理における原稿の物理的な傾きによって、画像データに傾きが発生し、更に補正処理によって傾きを補正した状態を示す図である。画像データの作成処理ソフトウェアの機能と使用条件によって、画像データ自体に位置の外れが生じた状態を示す図である。本発明を実施するためのコンピュータ・システムの例を示す図である。本発明の実施するためのコンピュータ・システムにおける原稿文書と画像データとの関係を示す図である。画像データに変換してＯＣＲ文字認識する定型文書の例を示す図である。図５に示す定型文書を画像データ処理して表示した一例を示す図である。本発明の制御フロー図である。表示装置に表示された画像データを基に罫線で囲まれた領域の項目を指定する例を示す図である。画像データから罫線で囲まれた領域の左上起点を探索する方法の説明に付する図である。図９の一部を拡大して示す図である。起点から罫線で囲まれた領域を探索する方法の説明に付する図である。傾斜した罫線領域を探索する方法の説明に付する図である。傾斜した罫線領域を探索する他の方法の説明に付する図である。

符号の説明

１０中央処理装置
１２記憶装置
１４表示装置
１６入力装置
１８スキャナ

Claims

ＯＣＲ処理する定型文書の画像データに含まれる罫線で囲まれた矩形枠の頂点を探索して、処理領域を設定することを特徴とするＯＣＲ処理における認識対象項目の位置探索方法。
前記処理領域と、コンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠とを互いに番号を付与して対応付けることを特徴とする請求項１記載のＯＣＲ処理における認識対象項目の位置探索方法。
前記コンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠と互いに番号を付与して対応付けた前記処理領域内の成分をＯＣＲ文字認識して文字列を求めることを特徴とする請求項２記載のＯＣＲ処理における認識対象項目の位置探索方法。