JP2017107552A - 画像内の回転したテーブルの補正方法 - Google Patents

画像内の回転したテーブルの補正方法 Download PDF

Info

Publication number
JP2017107552A
JP2017107552A JP2016220032A JP2016220032A JP2017107552A JP 2017107552 A JP2017107552 A JP 2017107552A JP 2016220032 A JP2016220032 A JP 2016220032A JP 2016220032 A JP2016220032 A JP 2016220032A JP 2017107552 A JP2017107552 A JP 2017107552A
Authority
JP
Japan
Prior art keywords
angle
bin
line
image
bins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016220032A
Other languages
English (en)
Other versions
JP6778586B2 (ja
Inventor
イー. ベラート ダレル
E Bellert Darrell
イー. ベラート ダレル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Laboratory USA Inc
Original Assignee
Konica Minolta Laboratory USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Laboratory USA Inc filed Critical Konica Minolta Laboratory USA Inc
Publication of JP2017107552A publication Critical patent/JP2017107552A/ja
Application granted granted Critical
Publication of JP6778586B2 publication Critical patent/JP6778586B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • G06T3/608Rotation of whole images or parts thereof by skew deformation, e.g. two-pass or three-pass rotation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Abstract

【課題】手書き等により回転したテーブルを含む画像に対して適切に処理を行う。
【解決手段】画像処理方法であって、テーブルを含む画像を取得するステップと、前記画像内の前記テーブルに対応する第1のライン、前記第1のラインの第1の信頼値、および前記第1のラインの第1の角度を識別するステップと、複数の角度に対応する複数のアングルビンを生成するステップと、前記第1の信頼値に基づいて、前記第1の角度を囲むウィンドウ内の前記複数のアングルビンの第1のサブセットに対する第1の複数のビン値を計算するステップと、前記第1の複数のビン値を前記複数のアングルビンの前記第1のサブセットに加算するステップと、前記複数のアングルビンのうち最大のビン値を有するアングルビンを特定するステップと、前記最大のビン値を有する前記アングルビンに基づいて、前記画像を回転するステップと、を含む方法。
【選択図】図2

Description

本発明は画像内の回転したテーブルの補正方法に関する。
画像は、任意の数のテーブル(表)を含み得る。さらに、各テーブルは、任意のサイズ(すなわち、任意の行数、任意の例数)を取り得る。テーブルの各セル(すなわち、行と列の交点)は、任意のフォント、サイズ、スタイルなどのテキスト文字を含み得る。テーブルは、手書き(すなわち、ユーザーによる手書き)または機械生成され得る。画像内において、テーブルは完全な水平または完全な垂直でない可能性がある。すなわち、このテーブルは水平軸または垂直軸のいずれかに対して回転している可能性がある。この回転は、ユーザーがテーブルを手書きした結果、および/または画像を生成する処理(例えばスキャン)の結果、生じ得る。
光学式文字認識(OCR)は、画像内のテキスト文字(例えばテーブルのセル内のテキスト文字)を認識する処理である。OCRを実行する多くのアルゴリズムが存在する。しかしながら、水平軸または垂直軸に対して回転しているテキスト文字は、しばしば、アルゴリズムを妨げ、誤った結果を導く。ユーザーは回転しているテーブルであっても、このテーブルに対してOCRを実行したい。
概して、一の態様では、本発明は画像処理方法に関する。この方法は、テーブルを含む画像を取得するステップと、前記画像内の前記テーブルに対応する第1のライン、前記第1のラインの第1の信頼値、および前記第1のラインの第1の角度を識別するステップと、複数の角度に対応する複数のアングルビンを生成するステップと、前記第1の信頼値に基づいて、前記第1の角度を囲むウィンドウ内の前記複数のアングルビンの第1のサブセットに対する第1の複数のビン値を計算するステップと、前記第1の複数のビン値を前記複数のアングルビンの前記第1のサブセットに加算するステップと、前記複数のアングルビンのうち、最大のビン値を有するアングルビンを特定するステップと、前記最大のビン値を有する前記アングルビンに基づいて、前記画像を回転するステップと、を含む。
概して、一の態様では、本発明は、コンピューター装置を制御するコンピュータープログラムであって、処理をコンピューター装置に実行させるためのコンピュータープログラムに関する。この処理は、テーブルを含む画像を取得するステップと、前記画像内の前記テーブルに対応する第1のライン、前記第1のラインの第1の信頼値、および前記第1のラインの第1の角度を識別するステップと、複数の角度に対応する複数のアングルビンを生成するステップと、前記第1の信頼値に基づいて、前記第1の角度を囲むウィンドウ内の前記複数のアングルビンの第1のサブセットに対する第1の複数のビン値を計算するステップと、前記第1の複数のビン値を前記複数のアングルビンの前記第1のサブセットに加算するステップと、前記複数のアングルビンのうち、最大のビン値を有するアングルビンを特定するステップと、前記最大のビン値を有する前記アングルビンに基づいて、前記画像を回転するステップと、を含む。
概して、一の態様では、本発明は、画像処理用のシステムに関する。このシステムは、テーブルを含む画像を記憶するバッファーと、前記画像内の前記テーブルに対応する第1のライン、前記第1のラインの第1の信頼値、および前記第1のラインの第1の角度を識別し、前記画像内の前記テーブルに対応する第2のライン、前記第2のラインの第2の信頼値、および前記第2のラインの第2の角度を識別する、ライン抽出部と、複数のビンを有するアングルビンエンジンであって、前記第1の信頼値に基づいて、前記第1の角度を囲むウィンドウ内の前記複数のアングルビンの第1のサブセットに対する第1の複数のビン値を計算し、前記第2の信頼値に基づいて、前記第2の角度を囲むウィンドウ内の前記複数のアングルビンの第2のサブセットに対する第2の複数のビン値を計算し、前記第1の複数のビン値を前記複数のアングルビンの前記第1のサブセットに加算し、前記第2の複数のビン値を前記複数のアングルビンの前記第2のサブセットに加算する、アングルビンエンジンと、前記最大のビン値を有する前記アングルビンに基づいて、前記画像を回転するテーブルエンジンと、を備える。
本発明の他の態様は、以下の詳細な説明および添付の特許請求の範囲から明らかになるであろう。
本発明の一つ以上の実施形態に係るシステムを示す図である。 本発明の一つ以上の実施形態に係るフローチャートを示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係る実施例を示す図である。 本発明の一つ以上の実施形態に係るコンピューターシステムを示す図である。
添付の図面を参照し、以下、本発明の具体的な実施形態の詳細を説明する。異なる図面においては、整合性のために同様の要素は同様の参照番号で示す。
本発明の実施形態の以下の詳細な説明においては、本発明のより完全な理解のために、数々の具体的な詳細を記載している。しかしながら、当業者にとって本発明は、これらの具体的な記述がなくても実行可能であることは明らかであろう。その他、不必要に説明が複雑になることを避けるために、よく知られた構成については説明を省略している。
概して、本発明の実施形態によれば、方法、コンピュータープログラム、および画像処理用のシステムが提供される。テーブルを含む画像が取得され、マスクに変換される。テーブルが手書きであれば、このテーブルは完全には水平または垂直ではなく、また、テーブルは完全な直線ではない可能性がある。画像内で、テーブルに対応する複数のライン(線)が識別され、これらの識別された各ラインは角度および信頼値を有する。各ラインに対して、このラインの角度を囲むウィンドウ内のアングルビンについて、ビン値が計算される。画像は最大のビン値を持つアングルビンに基づいて回転される。この回転の後、テーブルは水平および/または垂直に近くなり、どのような光学式文字認識(OCR)アルゴリズムを画像上に適用してもその結果は改善される。
図1は、本発明の一つ以上の実施形態に係るシステム(100)を示す図である。図1に示すようにシステム(100)は、例えばバッファー(104)、ライン抽出部(114)、アングルビンエンジン(110)、テーブルエンジン(108)を含む、複数の構成要素を有する。これらの各構成要素(104,108,110、114)は、同一のコンピューター装置(例えばパーソナルコンピューター(PC)、ラップトップ、タブレットPC、スマートフォン、複合プリンター、キオスク、サーバー等)に搭載されてもよく、あるいは、有線および/または無線のセグメントを有する任意の規模のネットワークで接続された複数の異なるコンピューター装置に搭載されてもよい。これらの各構成要素については後述する。
本発明の一つ以上の実施形態において、システム(100)はバッファー(104)を含む。バッファー(104)は、ハードウェア(すなわち、電気回路)、ソフトウェア、またはこれらの任意の組み合わせにより実装され得る。バッファー(104)は、テーブルを含む画像(106)を記憶するように構成される。画像(106)は、任意のソースから取得(例えばダウンロード)され得る。さらに、画像(106)は、任意のサイズおよび任意のフォーマット(例えばJPEG.GIF、BMP、PNGなど)であってもよい。
一つ以上の実施形態において、画像(106)内のテーブルは手書きである。したがって、テーブルは完全には水平、または完全には垂直ではない可能性がある。すなわち、テーブルは水平軸および/または垂直軸に対して回転している可能性がある。さらに、このテーブルのラインは真っ直ぐな直線ラインではない可能性がある。一つ以上の実施形態では、テーブルは機械生成されたものである。このような実施形態であっても、画像(106)を生成する処理(例えばスキャンニング)によって生じる歪みによって、テーブルは水平軸または垂直軸に対して回転し得る。テーブルは、任意の数の行と列と有する。さらに、テーブルの各セルはテキストおよび/またはグラフィックを含み得る。
本発明の一つ以上の実施形態において、システム(100)は、ライン抽出部(114)を含む。ライン抽出部(114)はハードウェア(すなわち電気回路)、ソフトウェア、またはこれらの任意の組み合わせにより実装され得る。ライン抽出部(114)は、画像内における直線ライン、各ラインの角度(例えば水平軸または垂直軸に対する角度)、および各ラインの信頼値(すなわち画像内のラインに寄与する画素数)を識別する。本発明の一つ以上の実施形態においてライン抽出部(114)は、ライン、ラインの角度、およびラインの信頼値を識別するために、ハフ(Hough)変換を画像(106)に適用する。本発明の一つ以上の実施形態において、ライン抽出部(114)は、ラインの識別処理を向上させるため、画像(106)内のラインを識別する前に、画像(106)をマスク(例えばバイナリ画像)に変換する。
本発明の一つ以上の実施形態において、ライン抽出部(114)は、一つ以上の基準を満たさないラインを廃棄する。例えば、ラインの信頼値を閾値と比較し、信頼値が閾値よりも小さければこのラインを廃棄する。閾値は、最も信頼するN本のラインの平均信頼値のパーセンテージPとして算出できる。すなわち、平均信頼値は、最も高い信頼値を有するN本のラインによって算出され、この平均信頼値のP未満の信頼値を有するいずれのラインも廃棄される。例えば、Pは50%に等しくてもよく、Nは10に等しくてもよい。
本発明の一つ以上の実施形態において、システム(100)は、アングルビンエンジン(110)を有する。アングルビンエンジン(110)は、ハードウェア(すなわち電気回路)、ソフトウェア、またはこれらの任意の組み合わせにより実装され得る。アングルビンエンジン(110)は、アングルビンのセット(例えばアレイ)を初期化するように構成する。各アングルビンは角度に対応する。アングルビンの初期化には、全てのアングルビンをゼロまたは他の定数に設定することを含めてもよい。セット内のアングルビン数(すなわち、アングルビンのセットのカーディナリティ)は、ラインの識別に用いる変換(例えばハフ変換)の角度分解能に依存する。この変換は、この角度分解能において角度の増加を伴ったラインのみを探すことができる。角度分解能は、変換に対する実行時入力パラメータであってもよい。例えば、変換の角度分解能が1度であれば、180個の角度が可能であるから、180個のアングルビン(すなわち0度から179度)が存在する。
本明細書の恩恵を受ける当業者は、手書きのテーブルが0度と90度の完全なラインで描かれることはほとんどないことが理解できるであろう。変換を適用することで検出され、識別されたラインの角度に対して、この識別されたラインは、識別される角度を囲むウィンドウ内のある角度で描かれ得る。すなわち、この変換が角度θでラインを検出した場合、このラインは実際には、角度θ−Wから角度θ+Wまでのいずれかであり得る。例えば、Wが5度であれば、ウィンドウはθ(すなわち、識別されたラインの角度)から両方向に実際上は5度広がっている。
本発明の一つ以上の実施形態において、アングルビンエンジン(110)は、各識別されたラインに対して、角度θ−Wから角度θ+Wまでの各角度のビン信頼値を計算する。ビン信頼値はθから遠いほど、減少する。言い換えると、識別されたラインがθで描かれていれば高い信頼度を示し、識別されたラインがθ−Wまたはθ+Wで描かれていれば低い信頼度を示す。本発明の一つ以上の実施形態において、アングルビンb(BCV)のビン信頼値は、
BCV=W−|θ−b|+1により計算される。
上記式に示すように、アングルビンbとラインの角度の差分は、BCVの因子である。本明細書の恩恵を受ける当業者は、b=θであるウィンドウの中央が、BCVがW+1であることは理解できるであろう。これに対し、b=θ±Wであるウィンドウの端では、BCVは、1である。
本発明の一つ以上の実施形態において、アングルビンエンジン(110)は、各識別されたラインに対して、識別されたラインの角度を囲むウィンドウ内の各アングルビンのビン値を計算する。一つ以上の実施形態において、アングルビンのビン値は、次のように計算される。
アングルビンbのビン値=BCV×(識別されたラインの信頼値)
本明細書の恩恵を受ける当業者は、ラインの信頼値を二乗することで、より有力なラインがより重み付けられるとともに、相対的に信頼値が低い多数のラインの潜在的な影響が打ち消されることが、理解できるであろう。ビン値は、それぞれの各アングルビンに加算され、この処理は、廃棄されていない全ての識別されたラインに対して繰り返される。
本発明の一つ以上の実施形態において、システム(100)は、テーブルエンジン(108)を有する。テーブルエンジン(108)は、ハードウェア(すなわち電気回路)、ソフトウェア、またはこれらの任意の組み合わせにより実装され得る。テーブルエンジン(108)は、最大のビン値を有するアングルビンを特定するように構成される。画像(106)内のテーブルは、このアングルビン(例えば10度)で回転していると見なされる。テーブルエンジン(108)は、このアングルビンに基づいて画像(106)を回転させ、つまりテーブルを回転させ、テーブルをほぼ水平または垂直な状態にする(すなわち水平軸または垂直軸にほぼ揃う)。これは、ユーザーの手書きによってもたらされたテーブルの回転、および/または画像(106)を生成するスキャン処理中にもたらされた回転を、効果的に補正する。また、テーブルエンジン(108)は、テーブルのセル内に含まれるテキストを抽出するため画像上にOCRを実行するよう構成される。テーブルが水平軸および/または垂直軸に揃うほど、OCRが成功する(すなわち、テキスト文字を正しく認識、抽出する)可能性が高まる。
システム(100)は、4つの構成要素(104、108,110、114)を有するものとして示しているが、本発明の他の実施形態では、システム(100)はこれよりも多い、または少ない構成要素を有してもよい。さらに、上述した各構成要素の機能は、複数の構成要素に分割されていてもよい。
図2は、本発明の一つ以上の実施形態に係るフローチャートを示す。フローチャートは、画像処理の手順を表す。具体的には、フローチャートは、手書きのテーブルをほぼ水平または垂直に回転する処理を表す。図2の一つ以上のステップは、図1を参照して上述したシステム(100)の構成要素により実行されてもよい。本発明の一つ以上の実施形態において、図2に示された一つ以上のステップを省略したり、繰り返したり、および/または、図2に示された順序とは異なる順序で実行したりしてもよい。したがって、本発明の範囲は、図2に示された具体的なステップの並びに限定されると見なされるべきでない。
最初に、テーブルを含んだ画像を取得する(ステップ205)。画像を任意のソースから取得(例えばタウンロード)してもよい。画像はハードコピー文書をスキャンすることで生成してもよい。この画像は任意のサイズ、フォーマットであってもよい。一つ以上の実施形態において、この画像内のテーブルは手書きである。したがって、テーブルは完全には水平、または完全には垂直ではない可能性がある。すなわち、テーブルは、水平軸または垂直軸に対して回転している可能性がある。さらに、テーブルのラインは、完全な直線ではない可能性がある。一つ以上の実施形態において、テーブルのラインは、機械生成される。しかしながら、このような実施形態であっても、画像を生成するスキャン処理によりもたらされる歪みによりテーブルは、水平軸または垂直軸に対して回転している可能性がある。テーブルは、任意の数の行と列を有する。さらに、テーブルの各セルはテキストおよび/またはグラフィックを有する。
ステップ210では、画像をマスクに変換する。すなわち、画像は、バイナリ画像に変換される。テーブルのラインおよび/またはセル内のテキスト文字に対応する画素は1に設定され、残りの全て画素は0に設定される。
ステップ215では、テーブルに対応する画像内のラインが識別される。各ラインの(例えば、水平軸または垂直軸に対する)角度、および各ラインの信頼値(すなわち、画像内のラインに寄与する画素数)も特定される。本発明の一つ以上の実施形態において、ライン、ラインの角度、およびラインの信頼値は、画像にハフ変換を適用することにより識別される。なお、ラインを識別するために他の変換方式が用いられてもよい。
本発明の一つ以上の実施形態において、一つ以上の基準を満たさないラインは廃棄される。例えば、ラインの信頼値が閾値と比較され、信頼値が閾値よりも小さければラインは廃棄される。この閾値は、最も確からしいN本のラインの平均信頼値のパーセンテージPとして算出できる。すなわち、平均信頼値は、最も信頼値が高いN本のラインに対して計算される。そして、信頼値が、この平均信頼値のP未満のラインはいずれも廃棄される。
ステップ220では、アングルビンを初期化する。各アングルビンは1つの角度に対応する。アングルビンの初期化は、全てのアングルビンをゼロまたは他の定数に設定することが含まれていてもよい。セット内のアングルビンの数(すなわち、アングルビンのセットのカーディナリティ)は、ラインの識別(ステップ215)に用いられる変換の角度分解能に依存する。この変換は、この角度分解能において角度の増大を伴うラインのみを探すことができる。角度分解能は、変換に対する実行時入力パラメータであってもよい。例えば、変換の角度分解能が1度であれば、180個の角度が可能であるから、180個のアングルビン(すなわち0度から179度)が存在する。
ステップ225では、ラインのうちの一つが選択される。具体的には、それまでに選択されていないラインが選択される。ラインはランダムに選択されてもよい。さらに、またはこれに代えて、最大の信頼値を持つライン、または最小の信頼値を持つラインが選択されてもよい。さらに、またはこれに代えて、最小の角度を持つライン、または最大の角度を持つラインが選択されてもよい。
ステップ230では、選択されたラインの角度を囲むウィンドウ内のアングルビンに対するビン値を計算する。ビン値は、選択されたラインの信頼値に基づいて計算される。上述のとおり、適用した変換により検出された識別ラインの任意の角度に対して、識別ラインは、識別された角度を囲むウィンドウ内のある角度で描かれている可能性がある。すなわち、変換が角度θでラインを検出した場合、このラインは実際には、θ−Wからθ+Wのいずれかにある可能性がある。
本発明の一つ以上の実施形態において、各アングルビンのθ−Wからθ+Wまでのビン信頼値を計算する。ビン信頼値は、θから遠いほど、減少する。本発明の一つ以上の実施形態において、アングルビンb(BCV)のビン信頼値は、
BCV=W−|θ−b|+1により計算される。
本発明の一つ以上の実施形態において、識別されたラインを囲むウィンドウ内の各アングルビンに対するビン値が計算される。一つ以上の実施形態において、アングルビンbのビン値は、次のように計算される。
アングルビンbのビン値=BCV×(識別されたラインの信頼値)
ステップ235では、ビン値はそれぞれのアングルビンに加算される。本明細書を所持する当業者であれば、図2に表される処理内の一つ以上のステップを繰り返すので、アングルビンは既に値を蓄積していることが、理解できるだろう。そのようなシナリオでは、ステップ230で計算されたビン値は、アングルビン中に蓄積されている既存の値に加算される(すなわち、既存の値は上書きされない)。
ステップ240では、それまでに選択されていない追加のラインが残っているかを判定する。少なくとも一つのラインが残っていると判定すれば、処理をステップ225に戻す。全てのラインが選択済みであれば、処理をステップ245に進める。
ステップ245では、最大ビン値を有するアングルビンを特定する。画像内のテーブルは、このアングルビン(例えば10度)で回転しているとみなされる。ステップ250では、このアングルビンに対応する角度に基づいて、画像(したがってテーブル)は回転される。このステップは、ユーザーの手書きによって生じたテーブルの回転、および/または画像を生成するスキャン処理中に生じた回転を効果的に補正する。
ステップ255では、テーブル内のテキストを抽出するため、画像上にOCRを実行する。回転の後、テーブルが水平軸および/または垂直軸に揃うほど、OCRが成功する(すなわち、テキスト文字を正しく認識、抽出する)可能性が高まる。
図3Aから図3Fは、本発明の一つ以上の実施形態に係る実施例である。図3Aに示すように、手書きのテーブル(308)を有する画像(306)が存在する。テーブル(308)の各セルにはテキストが含まれる。手書きテーブル(308)のラインは直線ではない。さらに、手書きテーブル(308)はある角度で描かれている(すなわち、水平軸および/または水平軸に揃っていない)。この幾何学的配置の画像(306)に対して、OCRを実行しても、結果が悪くなる可能性が高い。すなわち、OCRアルゴリズムは、回転したテーブルのセル内のテキストを識別、抽出しない可能性がある。
図3Bは、マスク(例えばバイナリ画像)に変換された後の画像(310)を示している。ラインおよびテキスト文字に対応する全ての画素は1に設定され、残りの全ての画素はゼロに設定される。
図3Cは、ハフ変換後の画像(312)を示している。ハフ変換は画像内の複数の直線を識別する。ハフ変換は、それぞれの識別したラインの(例えば、水平軸または垂直軸に対する)角度および信頼値(すなわち、画像内の識別されたラインに寄与する画素数)も特定する。図3Cでは、識別されたラインのうちの1本が、角度θ=10度であり、信頼値が483である。
図3Dの表は、角度θ=10度で信頼値483の選択されたラインに対する算出されたビン信頼値、および算出されたビン値を示している。この例では、ウィンドウは識別されたラインの角度に対して両側に5度で広がっている(すなわちθ=10度、W=5度、θ−w=5度、θ+W=15度)。表に示すように、識別されたラインの角度(θ=10度)に等しいアングルビンについてのビン信頼値およびビン値が最大である。同様に、ウィンドウの端(すなわちアングルビンが5度およびアングルビン15度)でのビン信頼値およびビン値が最小である。ビン値は、それぞれのアングルビンに加算される。同様な計算は、全ての識別されたラインに対して実行される。
図3Eでは、全ての計算を実行した後のいくつかのアングルビンに対するビン値を示している。図3Eに示すように、+10度が最大のビン値を有するアングルビンである。したがって、手書きテーブル(308)は、10度で回転していると見なされる。
図3Fでは、テーブルを手書きすることで生じた回転を補正するため、−10度で回転させた画像(314)を示している。図3Fに示すように、テーブル(したがってセル内のテキスト)は、水平軸および垂直軸に非常に近く揃っている。したがって、画像上に実行される任意のOCR処理は、テーブル内のテキスト文字の識別、抽出において成功する可能性がより高まる。
本発明の一つ以上の実施形態は、以下の有利な点を有するであろう。すなわち、テーブルの回転角を特定でき、画像内の識別されたラインに基づいてテーブルの角度を特定でき、手書きのテーブルを処理でき、回転したテーブルへのOCR処理の成功可能性を高めることができ、ライン角度のウィンドウを横切る様々な信頼レベルを評価でき、閾値および信頼値に基づいて識別されたラインを廃棄できる。
本発明の実施形態は、使用されているプラットフォームにかかわらず、事実上あらゆるタイプのコンピューターシステム上で実施できる。例えば、コンピューターシステムは、一つ以上のモバイル装置(例えば、ラップトップコンピューター、スマートフォン、パーソナルデジタルアシスタント、タブレットコンピューター、または他のモバイル装置)、デスクトップコンピューター、サーバー、サーバーシャーシー内のブレード、または他のタイプのコンピューター装置であってもよい。また、本発明の一つ以上の実施形態を実行する少なくとも、最低限の処理パワー、メモリー、および入出力装置を含む装置であってもよい。例えば、図4に示すように、コンピューターシステム(400)は、一つ以上のコンピュータープロセッサー(402)、関連するメモリー(404)(例えばランダムアクセスメモリー(RAM)、キャッシュメモリー、フラッシュメモリーなど)、一つ以上のストレージ装置(406)(例えばハードディスク、コンパクトディスク(CD)ドライブ、デジタル多目的ディスク(DVD)ドライブなどの光学ドライブ、フラッシュメモリースティックなど)、ならびに多くの他の要素および機能を含むことができる。コンピュータープロセッサー(402)は、命令を処理するための集積回路であってもよい。例えば、コンピュータープロセッサーは、一つ以上のコア、またはプロセッサーのマイクロコアであってもよい。
コンピューターシステム(400)は、タッチスクリーン、キーボード、マウス、マイクロフォン、タッチパッド、電子ペン、または他のタイプの入力装置などの一つ以上の入力装置(410)を含むことができる。さらに、コンピューターシステム(400)は、スクリーン(例えば液晶ディスプレイ(LCD)、プラズマディスプレイ、タッチスクリーン、ブラウン管(CRT)モニター、プロジェクター、または他の表示装置)、プリンター、外部ストレージ、または他の出力ディスプレイなどの一つ以上の出力装置(408)を含むことができる。一つ以上の出力装置は、入力装置と同じであっても異なってもよい。このコンピューターシステム(400)は、ネットワークインターフェース接続(図示せず)を介して、ネットワーク(412)(例えばローカルエリアネットワーク(LAN)、インターネットのようなワイドエリアネットワーク(WAN)、モバイルネットワーク、または他のタイプのネットワーク)に接続してもよい。この入出力装置は、ローカル接続またはリモート接続(例えばネットワーク(412)経由)でコンピュータープロセッサー(402)、メモリー(404)およびストレージ装置(406)に接続してもよい。多くの異なるタイプのコンピューターシステムが存在し、上述の入出力装置は、他の形態を取ってもよい。
本発明の実施形態を実施するコンピューター可読プログラムコードの態様でのソフトウェアの指示の全部または一部は、一時的または永続的に、CD、DVD、ストレージ装置、ディスケット、テープ、フラッシュメモリー、物理メモリー、または他のいずれのコンピューター可読媒体などの非一時的なコンピューター可読媒体に記憶することができる。具体的には、ソフトウェアの指示は、プロセッサーにより実行されるときに本発明の実施形態を実施するよう構成された、コンピューター可読プログラムコードに対応する。また、上述のコンピューターシステム(400)の一つ以上の要素は、遠隔地に配置され、ネットワーク(412)を介して他の要素と接続されていてもよい。
さらに、本発明の一つ以上の実施形態は、複数のノードを有する分散システムであって、本発明の各部分が異なるノード上に配置された分散システムで実施されてもよい。本発明の一実施形態では、このノードは、別個のコンピューター装置に対応する。あるいは、ノードは、関連する物理メモリーを備えるコンピュータープロセッサーに対応してもよい。あるいは、ノードは、コンピュータープロセッサーまたは共有メモリーおよび/または資源を備えたコンピュータープロセッサーのマイクロコアに対応してもよい。
本発明は、限られた数の実施形態に対して記述されているが、本開示から恩恵を受ける当業者は、本明細書に開示された本発明の範囲から逸脱しない他の実施形態が考え出されることが理解できるであろう。したがって、本発明の範囲は、添付の特許請求の範囲によってのみ限定されるべきである。

Claims (20)

  1. 画像処理方法であって、
    テーブルを含む画像を取得するステップと、
    前記画像内の前記テーブルに対応する第1のライン、前記第1のラインの第1の信頼値、および前記第1のラインの第1の角度を識別するステップと、
    複数の角度に対応する複数のアングルビンを生成するステップと、
    前記第1の信頼値に基づいて、前記第1の角度を囲むウィンドウ内の前記複数のアングルビンの第1のサブセットに対する第1の複数のビン値を計算するステップと、
    前記第1の複数のビン値を前記複数のアングルビンの前記第1のサブセットに加算するステップと、
    前記複数のアングルビンのうち、最大のビン値を有するアングルビンを特定するステップと、
    前記最大のビン値を有する前記アングルビンに基づいて、前記画像を回転するステップと、
    を含む方法。
  2. 前記画像内の前記テーブルに対応する第2のライン、前記第2のラインの第2の信頼値、および前記第2のラインの第2の角度を識別するステップと、
    前記第2の信頼値に基づいて、前記第2の角度を囲む前記ウィンドウ内の前記複数のアングルビンの第2のサブセットに対する第2の複数のビン値を計算するステップと、
    前記最大のビン値を有するアングルビンを特定するステップの前に、前記第2の複数のビン値を前記複数のアングルビンの前記第2のサブセットに加算するステップと、
    をさらに含む請求項1に記載の方法。
  3. 前記画像内の前記テーブルに対応する第3のライン、前記第3のラインの第3の信頼値、および前記第3のラインの第3の角度を識別するステップと、
    前記第3の信頼値を閾値と比較するステップと、
    前記第3の信頼値が前記閾値を下回ることに応じて、前記第3のラインを廃棄するステップと、
    をさらに含む、請求項2に記載の方法。
  4. 前記第1のラインを識別する前に、前記画像をマスクに変換するステップをさらに含み、
    前記テーブルは手書きである、請求項1から請求項3のいずれか一つに記載の方法。
  5. 前記第1のライン、前記第1の信頼値、および前記第1の角度を識別するステップは、前記画像へのハフ(Hough)変換の適用を含む、請求項1から請求項4のいずれか一つに記載の方法。
  6. 前記第1の複数のビン値を計算するステップは、
    前記複数のアングルビンの前記第1のサブセットに対する複数のビン信頼値であって、前記ウィンドウのサイズと、前記複数のアングルビンの前記第1のサブセットおよび前記第1の角度間の複数の差分と、に基づく複数のビン信頼値を計算するステップと、
    前記複数のビン信頼値のそれぞれを、前記第1の信頼値の2乗と乗算するステップと、
    を含む請求項1から請求項5のいずれか一つに記載の方法。
  7. 前記ウィンドウは、各方向で前記第1の角度から5度広がっている、請求項6に記載の方法。
  8. 前記画像を回転させた後、テーブル内のテキストに光学式文字認識(OCR)を実行するステップをさらに含む、請求項1から7のいずれか一つに記載の方法。
  9. コンピューター装置を制御するコンピュータープログラムであって、
    テーブルを含む画像を取得するステップと、
    前記画像内の前記テーブルに対応する第1のライン、前記第1のラインの第1の信頼値、および前記第1のラインの第1の角度を識別するステップと、
    複数の角度に対応する複数のアングルビンを生成するステップと、
    前記第1の信頼値に基づいて、前記第1の角度を囲むウィンドウ内の前記複数のアングルビンの第1のサブセットに対する第1の複数のビン値を計算するステップと、
    前記第1の複数のビン値を前記複数のアングルビンの前記第1のサブセットに加算するステップと、
    前記複数のアングルビンのうち、最大のビン値を有するアングルビンを特定するステップと、
    前記最大のビン値を有する前記アングルビンに基づいて、前記画像を回転するステップと、
    を含む処理を、前記コンピューター装置に実行させるためのコンピュータープログラム。
  10. 前記画像内の前記テーブルに対応する第2のライン、前記第2のラインの第2の信頼値、および前記第2のラインの第2の角度を識別するステップと、
    前記第2の信頼値に基づいて、前記第2の角度を囲む前記ウィンドウ内の前記複数のアングルビンの第2のサブセットに対する第2の複数のビン値を計算するステップと、
    前記最大のビン値を有するアングルビンを特定するステップの前に、前記第2の複数のビン値を前記複数のアングルビンの前記第2のサブセットに加算するステップと、
    をさらに含む請求項9に記載のコンピュータープログラム。
  11. 前記画像内の前記テーブルに対応する第3のライン、前記第3のラインの第3の信頼値、および前記第3のラインの第3の角度を識別するステップと、
    前記第3の信頼値を閾値と比較するステップと、
    前記第3の信頼値が前記閾値を下回ることに応じて、前記第3のラインを廃棄するステップと、
    をさらに含む、請求項10に記載のコンピュータープログラム。
  12. 前記第1のラインを識別する前に、前記画像をマスクに変換するステップをさらに含み、
    前記テーブルは手書きである、請求項9から請求項11のいずれか一つに記載のコンピュータープログラム。
  13. 前記第1のライン、前記第1の信頼値、および前記第1の角度を識別するステップは、前記画像へのハフ(Hough)変換の適用を含む、請求項9から請求項12のいずれか一つに記載のコンピュータープログラム。
  14. 前記第1の複数のビン値を計算するステップは、
    前記複数のアングルビンの前記第1のサブセットに対する複数のビン信頼値であって、前記ウィンドウのサイズと、前記複数のアングルビンの前記第1のサブセットおよび前記第1の角度間の複数の差分と、に基づく複数のビン信頼値を計算するステップと、
    前記複数のビン信頼値のそれぞれを、前記第1の信頼値の2乗と乗算するステップと、
    を含む請求項9から請求項13のいずれか一つに記載のコンピュータープログラム。
  15. 前記ウィンドウは、各方向で前記第1の角度から5度広がっている、請求項14に記載のコンピュータープログラム。
  16. 画像処理用のシステムであって
    テーブルを含む画像を記憶するバッファーと、
    前記画像内の前記テーブルに対応する第1のライン、前記第1のラインの第1の信頼値、および前記第1のラインの第1の角度を識別し、
    前記画像内の前記テーブルに対応する第2のライン、前記第2のラインの第2の信頼値、および前記第2のラインの第2の角度を識別する、ライン抽出部と、
    複数のビンを有するアングルビンエンジンであって、
    前記第1の信頼値に基づいて、前記第1の角度を囲むウィンドウ内の前記複数のアングルビンの第1のサブセットに対する第1の複数のビン値を計算し、
    前記第2の信頼値に基づいて、前記第2の角度を囲む前記ウィンドウ内の前記複数のアングルビンの第2のサブセットに対する第2の複数のビン値を計算し、
    前記第1の複数のビン値を前記複数のアングルビンの前記第1のサブセットに加算し、前記第2の複数のビン値を前記複数のアングルビンの前記第2のサブセットに加算する、アングルビンエンジンと、
    最大のビン値を有する前記アングルビンに基づいて、前記画像を回転するテーブルエンジンと、
    を備えるシステム。
  17. 前記ライン抽出部は、さらに、前記第1のラインを識別する前に、前記画像をマスクに変換し、
    前記テーブルは手書きである、請求項16に記載のシステム。
  18. 前記第1の複数のビン値の計算は、
    前記複数のアングルビンの前記第1のサブセットに対する第1の複数のビン信頼値であって、前記ウィンドウのサイズと、前記複数のアングルビンの前記第1のサブセットおよび前記第1の角度間の複数の差分に基づく第1の複数のビン信頼値の計算と、
    前記第1の複数のビン信頼値のそれぞれを、前記第1の信頼値の2乗との乗算すること、
    を含む、請求項16または請求項17に記載のシステム。
  19. 前記ウィンドウは、各方向で前記第1の角度から5度広がっている、請求項18に記載のシステム。
  20. 前記テーブルエンジンは、さらに、前記画像を回転させた後、テーブル内のテキストに光学式文字認識(OCR)を実行する、請求項16から19のいずれか一つに記載のシステム。
JP2016220032A 2015-11-25 2016-11-10 画像内の回転したテーブルの補正方法 Active JP6778586B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/952,691 US9865038B2 (en) 2015-11-25 2015-11-25 Offsetting rotated tables in images
US14/952691 2015-11-25

Publications (2)

Publication Number Publication Date
JP2017107552A true JP2017107552A (ja) 2017-06-15
JP6778586B2 JP6778586B2 (ja) 2020-11-04

Family

ID=58720903

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016220032A Active JP6778586B2 (ja) 2015-11-25 2016-11-10 画像内の回転したテーブルの補正方法

Country Status (3)

Country Link
US (1) US9865038B2 (ja)
JP (1) JP6778586B2 (ja)
CN (1) CN107066433B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019040585A (ja) * 2017-06-30 2019-03-14 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 表に関するタイプセットネススコア

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9865038B2 (en) * 2015-11-25 2018-01-09 Konica Minolta Laboratory U.S.A., Inc. Offsetting rotated tables in images
US10395378B2 (en) * 2016-07-15 2019-08-27 Samsung Electronics Co., Ltd. Detecting periodic patterns and aperture problems for motion estimation
US10331949B2 (en) * 2017-07-25 2019-06-25 Konica Minolta Laboratory U.S.A., Inc. Splitting merged table cells
US10679049B2 (en) * 2017-09-29 2020-06-09 Konica Minolta Laboratory U.S.A., Inc. Identifying hand drawn tables
CN110135217B (zh) * 2018-02-02 2021-07-23 兴业数字金融服务(上海)股份有限公司 用于识别图像中的表格内的字符的方法和装置
CN110163205B (zh) * 2019-05-06 2021-05-28 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06195462A (ja) * 1992-12-22 1994-07-15 Fujitsu Ltd 画像の傾き角度計測方式
JPH0844822A (ja) * 1994-08-03 1996-02-16 Matsushita Electric Ind Co Ltd 文字認識装置
JP2003223643A (ja) * 2002-01-31 2003-08-08 Ricoh Co Ltd 画像認識装置、画像認識方法、およびその方法をコンピュータに実行させるプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JP2007279828A (ja) * 2006-04-03 2007-10-25 Toshiba Corp 帳票処理装置、帳票様式作成装置、帳票、帳票処理用のプログラム、帳票様式作成用のプログラム
US8526036B2 (en) * 2008-01-17 2013-09-03 Konica Minolta Laboratory U.S.A., Inc. Systems and methods for print resource management
US8634645B2 (en) * 2008-03-28 2014-01-21 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
US8189961B2 (en) * 2010-06-09 2012-05-29 Microsoft Corporation Techniques in optical character recognition
JP5558973B2 (ja) * 2010-08-31 2014-07-23 株式会社日立情報通信エンジニアリング 画像補正装置、補正画像生成方法、補正テーブル生成装置、補正テーブル生成方法、補正テーブル生成プログラムおよび補正画像生成プログラム
CN103577817B (zh) * 2012-07-24 2017-03-01 阿里巴巴集团控股有限公司 表单识别方法与装置
JP5604496B2 (ja) * 2012-10-24 2014-10-08 本田技研工業株式会社 板状ワーク用センターリング装置
CN103258198B (zh) * 2013-04-26 2015-12-23 四川大学 一种表格文档图像中字符提取方法
US9466092B2 (en) * 2013-11-27 2016-10-11 Microsoft Technology Licensing, Llc Content-aware image rotation
US9621765B2 (en) * 2015-07-06 2017-04-11 Konica Minolta Laboratory U.S.A., Inc. Method for supporting color conversion on premultiplied data
US9865038B2 (en) * 2015-11-25 2018-01-09 Konica Minolta Laboratory U.S.A., Inc. Offsetting rotated tables in images
US9697423B1 (en) * 2015-12-31 2017-07-04 Konica Minolta Laboratory U.S.A., Inc. Identifying the lines of a table

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06195462A (ja) * 1992-12-22 1994-07-15 Fujitsu Ltd 画像の傾き角度計測方式
JPH0844822A (ja) * 1994-08-03 1996-02-16 Matsushita Electric Ind Co Ltd 文字認識装置
JP2003223643A (ja) * 2002-01-31 2003-08-08 Ricoh Co Ltd 画像認識装置、画像認識方法、およびその方法をコンピュータに実行させるプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019040585A (ja) * 2017-06-30 2019-03-14 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 表に関するタイプセットネススコア
JP7219011B2 (ja) 2017-06-30 2023-02-07 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 表に関するタイプセットネススコア

Also Published As

Publication number Publication date
US9865038B2 (en) 2018-01-09
CN107066433B (zh) 2020-05-08
US20170148140A1 (en) 2017-05-25
CN107066433A (zh) 2017-08-18
JP6778586B2 (ja) 2020-11-04

Similar Documents

Publication Publication Date Title
JP6778586B2 (ja) 画像内の回転したテーブルの補正方法
US9697423B1 (en) Identifying the lines of a table
US10650495B2 (en) High resolution style transfer
WO2019119966A1 (zh) 文字图像处理方法、装置、设备及存储介质
CN111523468B (zh) 人体关键点识别方法和装置
US9076205B2 (en) Edge direction and curve based image de-blurring
US9842251B2 (en) Bulleted lists
CN107038441B (zh) 书写板检测和校正
CN111260569A (zh) 图像倾斜校正的方法、装置、电子设备和存储介质
CN110399712B (zh) 基于验证码的交互验证方法、装置、介质和计算设备
US10083218B1 (en) Repairing tables
US10163004B2 (en) Inferring stroke information from an image
CN113762455A (zh) 检测模型训练方法、单字检测方法、装置、设备及介质
WO2023134143A1 (zh) 图像样本生成方法、文本识别方法、装置、设备和介质
JP7219011B2 (ja) 表に関するタイプセットネススコア
US20230005171A1 (en) Visual positioning method, related apparatus and computer program product
US9785856B2 (en) Repairing holes in images
US10157311B2 (en) Detecting arrows within images
CN111401366A (zh) 字符识别方法、装置、计算机设备和存储介质
CN113673522B (zh) 文本图像的倾斜角度检测方法、装置、设备及存储介质
US10579893B2 (en) Inferring stroke information from an image
CN106922192B (zh) 利用查找表的面部检测方法和装置
CN113850351A (zh) 图像特征点的匹配方法及装置
CN117542070A (zh) 一种识别用印位置的方法、装置、电子设备及存储介质
CN117094870A (zh) 数据处理方法、装置、设备、计算机可读存储介质及产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201012

R150 Certificate of patent or registration of utility model

Ref document number: 6778586

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150