JP2007011528A - Ocr処理における認識対象項目の位置探索方法 - Google Patents

Ocr処理における認識対象項目の位置探索方法 Download PDF

Info

Publication number
JP2007011528A
JP2007011528A JP2005189269A JP2005189269A JP2007011528A JP 2007011528 A JP2007011528 A JP 2007011528A JP 2005189269 A JP2005189269 A JP 2005189269A JP 2005189269 A JP2005189269 A JP 2005189269A JP 2007011528 A JP2007011528 A JP 2007011528A
Authority
JP
Japan
Prior art keywords
image data
ruled line
ocr
searching
rectangular frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005189269A
Other languages
English (en)
Inventor
Akitoshi Yoshizawa
明登志 吉澤
Daisuke Okamoto
大輔 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NJK Corp
Original Assignee
NJK Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NJK Corp filed Critical NJK Corp
Priority to JP2005189269A priority Critical patent/JP2007011528A/ja
Publication of JP2007011528A publication Critical patent/JP2007011528A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】 原稿様式毎のソフトウェアによる書式設定を行う必要をなくし、画像データの文字位置及び罫線位置の変動に影響されることなく文字認識を行うことができ、更に認識すべき文字を罫線の位置を基に自動的に探索できるようにする。
【解決手段】 OCR処理する文書画像データに含まれる罫線で囲まれた矩形枠の頂点を探索して設定した処理領域と、コンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠とを互いに番号を付与して対応付け、このコンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠と互いに番号を付与して対応付けた処理領域内の成分をOCR文字認識して文字列を求める。
【選択図】 図7

Description

本発明は、紙媒体の定型文書をスキャナから取り込んだ画像データをOCR処理により文字認識したり、既にPDF形式で画像データに処理された電子文書をOCR処理したりする場合に、画像データ上のOCR処理する認識対象項目の位置を検索するOCR処理における認識対象項目の位置探索方法に関する。
OCR処理では、基準となる画像データ(基準位置)上の文字認識位置(範囲)を予めソフトウェアで書式設定(フォームレイアウト設定)し、実際に取り込んだ画像データ上の前記基準となる画像データ上の文字認識位置に対応する位置(範囲)の文字をOCR認識するようにしている。しかし、実際に取り込んだ画像データ上の文字認識位置と、基準となる画像データ上の文字認識位置との間に誤差が発生すると、OCR処理での文字認識ができなくなる場合がある。
例えば、図1(a)及び(b)に示すように、スキャナで読み取り処理された画像データが基準位置(基準となる画像データ)に対して傾斜して形成され、この結果、画像データの原稿読み取り面上の認識の対象となる文字列(対象の文字列)が、基準位置に対して書式設定された範囲(位置)から外れると、OCR処理での文字認識ができなくなる。このため、図1(c)に示すように、スキャナの文書取り込み処理及びOCR処理の機能で、読み取り処理された画像データの傾きを一定の範囲で補正するようにしている。しかし、この補正後であっても、画像データの認識の対象となる文字列が、基準位置に対して書式設定された範囲から外れると、OCR処理での文字認識ができなくなる。
また、図2(a)及び(b)に示すように、ソフトウェアで作製処理された画像データ自体が基準位置(基準となる画像データ)に対して縦方向及び横方向に外れて形成され、この結果、画像データの原稿読み取り面上の認識の対象となる文字列(対象の文字列)が、基準位置に対して書式設定された範囲から外れると、OCR処理での文字認識ができなくなる。例えば、ソフトウェアの余白設定や倍率設定の相違により、このような誤差が発生し、このような誤差が発生した場合、画像データの補正は困難である。
更に、様々な方法で大量に作成される画像データでは、基準位置(基準となる画像データ)に対する誤差が個々に一定ではなく、従来の原稿様式に対して固定的に書式設定する方法では対応できない問題があった。
大量の定型文書を機械的に読み取ってOCR処理する場合、画像データ及び電子文書の作成過程に文字位置及び罫線位置の不揃いが生じ、OCRの誤認識による修正や追加入力が多数発生しているのが現状であった。このため、OCR処理における文字の認識率を向上させて修正作業や追加入力作業を軽減させ、更に、従来OCR処理が不可能であった文書の電子化に寄与するものの開発が強く望まれていた。
本発明は上記事情に鑑みて為されたもので、原稿様式毎のソフトウェアによる書式設定を行うことなく、罫線の位置を基に、認識すべき文字の位置を自動的に探索でき、しかも、画像データの文字位置及び罫線位置の変動に影響されることなく文字認識を行うことができるようにしたOCR処理における認識対象項目の位置探索方法を提供することを目的とする。
上記目的を達成するため、本発明のOCR処理における認識対象項目の位置探索方法は、OCR処理する定型文書の画像データに含まれる罫線で囲まれた矩形枠の頂点を探索して、処理領域を設定することを特徴とする。
このように、OCR処理する定型文書の画像データに含まれる罫線で囲まれた矩形枠の頂点を探索して処理領域を設定することで、原稿様式毎のソフトウェアによる書式設定を行う必要をなくすことができる。
前記処理領域と、コンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠とを互いに番号を付与して対応付けることが好ましい。
前記コンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠と互いに番号を付与して対応付けた前記処理領域内の成分をOCR文字認識して文字列を求めることが好ましい。これにより、罫線の位置を基に、認識すべき文字の位置を自動的に探索して、画像データの文字位置及び罫線位置の変動に影響されることなく文字認識を行うことができる。
本発明によれば、例えば原稿に多少の歪みがある場合でも、OCR処理による文字認識が可能となり、このため、修正作業や追加入力作業が軽減できるサービスを提供することができる。
以下、本発明の実施の形態を図面を参照して説明する。
本発明を実施するためのコンピュータ・システムは、図3に示すように、中央処理装置10、記憶装置12、表示装置14及び入力装置16から構成されている。定型文書(紙媒体)をスキャナ18で読み込んだ画像データ(イメージデータ)や定型文書(PDF形式)のPDFデータは、コンピュータ・システムの記憶装置12に記憶され、中央処理装置10でOCR処置を行って画像データから求めたテキストデータも記憶装置12に記憶される。
図4に示すように、画像データは、ワープロ等で電子的に作成された原稿文書をPDF作成ソフトで出力したPDF形式のデータ(PFDデータ)および紙媒体の原稿文書をスキャナで読み取ったイメージ(イメージデータ)を指す。画像データは、原稿文書の文字や罫線の描画用の情報であり、コンピュータ・システムの表示装置14での元の原稿文書の再現やOCR処理の文字認識に使用され、OCR処理後にテキストデータとして記憶装置12に記憶される。1つの画像データは、1種類の原稿文書の様式(定型文書)であり、原稿文書の量(例えば枚数)に応じたデータ量を持つ。
以下、図5に示す原稿文書を画像データに変換してOCR処理を行うようにした例について説明する。この原稿文書を画像データに変換後に表示装置14に出力した時、図6に示すように、原稿文書上の基準となる罫線位置と該基準となる罫線位置と対応する画像データ上の罫線位置との間に、スキャナによる文書取り込み段階またはOCR処理では補正できない歪みが残っており、原稿文書と画像データの文字位置を比較した時の誤差が1つの様式(定型文書)として一定でない場合は、従来の書式設定(原稿文書を使用したフォームレイアウト設定)では文字認識が不可能である。従って、本発明では以下のような処理を行っている。
本発明の処理フローを図7に示す。図7に示すように、処理を開始すると、画像データファイルから基準とする1件分の画像データを入力情報として表示装置14に出力して表示する。この画像データには、前述のように、紙媒体の定型文書をスキャナの機能により画像データに変換されたものと、定型文書がPDF形式の電子文書に変換されたものが含まれる。表示装置14に表示された画像データを図8に示す。
次に、表示装置14に表示された画像データから、文字認識する罫線で囲まれた部分の項目(番号)をコンピュータ・システムの入力装置16により指定して記憶する。この例では、図8に示す例の「プロペラシャフト」の表示部分を文字認識する場合を示しており、原稿文書の書式に基づき、予め罫線で囲まれた領域に、左上から右方向に向けて連続番号を付与しておき、最初に画像データを表示した時点で、コンピュータ・システムの入力装置16から項目(番号)を選択することにより、該当の番号を引き当てるようにしている。つまり、この例で、「プロペラシャフト」の表示部分を囲む罫線で囲まれた領域は、画像データの左上から右方向へ順番に連続番号を付与すると2番目であり、2番目の項目を指定する。
なお、図8に示す例において、「U−FK617K」の項目を指定する場合には、この「U−FK617K」の表示部分を囲む罫線で囲まれた領域は、画像データの左上から右方向へ順番に連続番号を付与すると4番目であり、4番目の項目を指定する。
この例では、1つの原稿文書の中で文字認識する部分が1つのみの場合について説明しているが、文字認識する部分が2つ以上ある場合には、文字認識する罫線で囲まれた部分の項目(番号)のコンピュータ・システムの入力装置16による指定を、文字認識する部分の数だけ繰り返す。
上記のようにして、罫線で囲まれた部分の項目を指定した後、画像データファイルから順次読み取った画像データのページ毎の探索を行う。
先ず、罫線で囲まれた部分(領域)の左上起点を全て探索し、次にこの左上起点を基に罫線で囲まれた領域の探索を行う。つまり、表示した画像データの全域に亘って、画素単位で座標を移動して罫線を構成する画素を検出し、次に罫線で囲まれた領域を探索して1つの領域を決定する。罫線は、実線と破線の両方を探索対象とする。そして、画像データの全域の探索が終了した時点で、求めた全ての領域の座標を記憶する。
この画像データの全域から罫線の部分の左上起点を探索する方法について、図9を参照して説明する。図9に示すように、画像データの有効な領域の左上の頂点から、1ピクセルの幅で水平に右方向((1)方向)へ座標を移動して、罫線を意味する色情報(RGB値)の画素を探索する。座標が画像データの右端まで達した時点で、垂直方向に1ピクセル下方の左端へ戻り、再び水平の右方向((2)方向)へ座標を移動して、罫線を意味する色情報(RGB値)の画素を探索する。この繰り返しの過程において、水平の右方向((3)方向)への座標の移動が、点(A)に達して罫線を検出した場合には、この点(A)の座標を始点として、水平の右方向((4)方向)へ座標を移動する。そして、罫線を意味する画素が連続していると判断した時点で「水平の罫線」の存在を記憶する。画素が規則的に断続する場合は、破線の罫線と判断する。
次に、点(A)点へ戻り、垂直の下方向((5)方向)へ座標を移動する。そして、罫線を意味する画素が連続していると判断した時点で、「垂直の罫線」の存在を記憶する。ここまでの処理において、点(A)点は、罫線の接する頂点(始点)であると検出して記憶する。
次の頂点の探索を継続するため、始点(A)に戻り、水平の右方向((6)方向)へ座標を移動させながら、垂直の下方向((7)方向)の罫線を探索する。そして、点(B)に達して垂直の下方向の罫線を検出した場合には、この点(B)の座標を始点として、水平の右方向((8)方向)へ座標を移動し、罫線を意味する画素が連続していると判断した時点で「水平の罫線」の存在を記憶する。画素が規則的に断続する場合は、破線の罫線と判断する。
次に、点(B)点へ戻り、垂直の下方向((9)方向)へ座標を移動する。そして、罫線を意味する画素が連続していると判断した時点で、「垂直の罫線」の存在を記憶する。ここまでの処理において、点(B)は、罫線の接する頂点(始点)であると検出して記憶する。なお、水平の罫線から外れる水平の右方向((10)方向)への座標の移動にあっては、水平の罫線を検出せず、また罫線の内部に入る水平の右方向((11)方向)への座標の移動にあっても、水平の罫線を検出せず、このため、これらの座標の水平の右方向の移動によって始点が探索されることはない。
そして、前述と同様にして、水平の右方向((12)方向)の座標の移動に伴って、点(C)は、罫線の接する頂点(始点)であると検出して記憶する。
以上のようにして、罫線の接する頂点(始点)の座標を画像データから全て求めて、それぞれ罫線で囲まれた領域の順序を意味する番号を付与して記憶する。
図10に示すように、実際の罫線は、一般に数ピクセル分の画素幅があり、1ピクセル単位に探索する軌跡は複数存在する。図10に示す例では、水平の右方向((2)方向)と垂直の下方向((3)方向)の座標の移動で求めた接点(a)と、水平の右方向((4)方向)と垂直の下方向((5)方向)の座標の移動で求めた接点(b)と、水平の右方向((6)方向)と垂直の下方向((7)方向)の剤表の移動で求めた接点(c)が存在する場合を示している。
次に、上記の探索により検出した座標を起点とする罫線で囲まれた領域を探索する方法について、図11を参照して説明する。先ず、図11に示す最初の点(A1)の座標から水平の右方向((1)方向)へ座標を移動しながら垂直の下方向((2)方向)に罫線を探索して、罫線で囲まれた領域の右上の点(A2)の座標を決定する。次に、垂直の下方向((3)方向)へ座標を移動しながら水平に左方向((4)方向)の罫線を探索して、罫線で囲まれた領域の右下の点(A3)の座標を決定する。次に最初の点(A1)に戻り、垂直の下方向((5)方向)へ座標を移動させながら、水平に右方向((6)方向)の罫線を探索して、罫線で囲まれた領域の左下の点(A4)の座標を決定する。
前述の図10に示す例のように、探索した軌跡が罫線上に複数存在する場合は、図11に示す例で、起点の左上の点(A1)の座標では垂直方向(y軸の値)が最小かつ水平方向(x軸の値)が最大の接点、右上の点(A2)の座標では垂直方向(y軸の値)が最小かつ水平方向(x軸の値)が最小の接点、右下の点(A3)座標では垂直方向(y軸の値)が最大かつ水平方向(x軸の値)が最小の接点、左下の点(A4)の座標では垂直方向(y軸の値)が最大かつ水平方向(x軸の値)が最大の接点を有効とする。
以上のようにして、四隅の頂点を求めて結ぶことで、罫線で囲まれた矩形の領域が決定する。
図12及び図13に示すように、傾きの補正が不完全な画像データでは、罫線の水平方向及び垂直方向の線が傾斜するが、上記の有効座標を求めることにより矩形の領域と罫線の重なりを回避できる。
つまり、図12に示す例では、左上の起点(A1)から座標を水平の右方向((1)方向)へ移動させて、罫線で囲まれた領域の右上の点(A2)の座標を決定する際に、鉛直の下方向((2)方向)への罫線の探索と同期して、逆の方向((3)方向)への水平方向に傾斜して延びる罫線の探索を行う。そして、鉛直の下方向((2)方向)への罫線の探索によって、右上の点(A2)の座標を決定した時点の始点の座標におけるy軸の値と、この時の逆の方向((3)方向)への探索で得られた終点の座標におけるy軸の値との差分を求め、左上の点(A1)の座標と右上の点(A2)の座標の間の傾斜を計算し、罫線で囲まれた領域の他の頂点に計算した結果を適用して、座標を補正する。
図13に示す例も同様に、左上の起点(A1)から座標を水平の右方向((1)方向)へ移動させて罫線で囲まれた領域の右上の点(A2)の座標を決定する際に、鉛直の下方向((2)方向)の垂直の下方向への罫線の探索と同期して、逆の方向((3)方向)への水平方向に傾斜して延びる罫線の探索を行う。そして、鉛直の下方向((2)方向)への罫線の探索によって、右上の点(A2)の座標を決定した時点の始点の座標におけるy軸の値と、この時の逆の方向((3)方向)への探索で得られた終点の座標におけるy軸の値との差分を求め、左上の点(A1)の座標と右上の点(A2)の座標の間の傾斜を計算し、罫線で囲まれた領域の他の頂点に計算した結果を適用して、座標を補正する。
以上の方法で、文字認識する項目として指定した項目の番号と画像データの探索で検出した罫線で囲まれた領域の番号の対応付けが可能となる。
そして、画像データ毎に、画像データを基に予め求めた領域の数と、処理する画像データにおける起点を基に検索した領域の数が互いに一致するか否かを判断し、一致しない場合は、当該の1つの画像データの探索は無効とする。画像データを基に予め求めた領域の数と、処理する画像データにおける起点を基に検索した領域の数が互いに一致する場合には、処理する画像データにおける起点を基に検索した領域に対して、ユーザインターフェースで指定された項目(番号)と一致する領域内の文字列、つまり図8に示す例にあっては、罫線で囲まれた領域の2番目の項目と一致する領域内の「プロペラシャフト」をOCR文字認識し、結果をテキストデータに変換してコンピュータ・システムに保存する。そして、1つの画像データに指定したすべての領域の処理が終了した時点で画像データから求めたテキストデータをコンピュータ・システムに保存する。以上で1つの画像データに対する処理を終了する。
以上のように、この例によれば、原稿様式毎のソフトウェアによる書式設定を行う必要をなくし、罫線の位置を基に、認識すべき文字の位置を自動的に探索して、画像データの文字位置及び罫線位置の変動に影響されることなく文字認識を行うことができる。
原稿読み取り処理における原稿の物理的な傾きによって、画像データに傾きが発生し、更に補正処理によって傾きを補正した状態を示す図である。 画像データの作成処理ソフトウェアの機能と使用条件によって、画像データ自体に位置の外れが生じた状態を示す図である。 本発明を実施するためのコンピュータ・システムの例を示す図である。 本発明の実施するためのコンピュータ・システムにおける原稿文書と画像データとの関係を示す図である。 画像データに変換してOCR文字認識する定型文書の例を示す図である。 図5に示す定型文書を画像データ処理して表示した一例を示す図である。 本発明の制御フロー図である。 表示装置に表示された画像データを基に罫線で囲まれた領域の項目を指定する例を示す図である。 画像データから罫線で囲まれた領域の左上起点を探索する方法の説明に付する図である。 図9の一部を拡大して示す図である。 起点から罫線で囲まれた領域を探索する方法の説明に付する図である。 傾斜した罫線領域を探索する方法の説明に付する図である。 傾斜した罫線領域を探索する他の方法の説明に付する図である。
符号の説明
10 中央処理装置
12 記憶装置
14 表示装置
16 入力装置
18 スキャナ

Claims (3)

  1. OCR処理する定型文書の画像データに含まれる罫線で囲まれた矩形枠の頂点を探索して、処理領域を設定することを特徴とするOCR処理における認識対象項目の位置探索方法。
  2. 前記処理領域と、コンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠とを互いに番号を付与して対応付けることを特徴とする請求項1記載のOCR処理における認識対象項目の位置探索方法。
  3. 前記コンピュータ・システムのユーザインターフェイスにより指定する罫線の矩形枠と互いに番号を付与して対応付けた前記処理領域内の成分をOCR文字認識して文字列を求めることを特徴とする請求項2記載のOCR処理における認識対象項目の位置探索方法。
JP2005189269A 2005-06-29 2005-06-29 Ocr処理における認識対象項目の位置探索方法 Withdrawn JP2007011528A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005189269A JP2007011528A (ja) 2005-06-29 2005-06-29 Ocr処理における認識対象項目の位置探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005189269A JP2007011528A (ja) 2005-06-29 2005-06-29 Ocr処理における認識対象項目の位置探索方法

Publications (1)

Publication Number Publication Date
JP2007011528A true JP2007011528A (ja) 2007-01-18

Family

ID=37749975

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005189269A Withdrawn JP2007011528A (ja) 2005-06-29 2005-06-29 Ocr処理における認識対象項目の位置探索方法

Country Status (1)

Country Link
JP (1) JP2007011528A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1730701A1 (en) 2004-03-01 2006-12-13 Bcode Pty Ltd. Mobile ticketing
CN111062377A (zh) * 2019-12-18 2020-04-24 广东小天才科技有限公司 一种题号检测方法、系统、存储介质及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1730701A1 (en) 2004-03-01 2006-12-13 Bcode Pty Ltd. Mobile ticketing
CN111062377A (zh) * 2019-12-18 2020-04-24 广东小天才科技有限公司 一种题号检测方法、系统、存储介质及电子设备
CN111062377B (zh) * 2019-12-18 2024-02-23 广东小天才科技有限公司 一种题号检测方法、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
JPH113430A (ja) 入力画像を基準画像に対応付ける方法、そのための装置、及びその方法を実現するプログラムを記憶した記憶媒体
JP2001358925A (ja) 画像処理のための装置、方法及び記録媒体
JP2005073015A (ja) 画像処理装置及び画像処理方法及びコンピュータプログラム
JPH0535938A (ja) 画像処理装置
US11245803B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
CN102682457A (zh) 一种对平面媒体图像进行适应屏幕阅读的重排方法
JP2017161969A (ja) 文字認識装置、方法およびプログラム
JP2009251872A (ja) 情報処理装置及び情報処理プログラム
JP6579331B2 (ja) 画像形成装置、文書電子化プログラムおよび文書電子化方法
JP2007011529A (ja) Ocr処理における文字認識位置の決定方法
JP2007011528A (ja) Ocr処理における認識対象項目の位置探索方法
JP2018151699A (ja) 情報処理装置及びプログラム
JP2008259172A (ja) 画像処理装置、画像処理方法およびプログラム
US10834281B2 (en) Document size detecting by matching between image of entire document and read size image
JP2011166778A (ja) 画像形成装置、画像補正方法およびそのプログラム
JP2008040598A (ja) 画像入力装置
JP2007226353A (ja) 画像読取方法,プログラム,および画像読取装置
US11163992B2 (en) Information processing apparatus and non-transitory computer readable medium
JP7301529B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2004080341A (ja) 画像処理装置、画像処理方法、プログラム、及び記録媒体
JP3604909B2 (ja) 画像間位置合わせ方法
JP6639257B2 (ja) 情報処理装置及びその制御方法
JP2000187705A (ja) 文書読取装置および方法および記憶媒体
JP2015156166A (ja) 地図補正方法、及び地図補正装置
JP4974367B2 (ja) 領域分割方法及び装置、並びにプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080902