JP2020166811A - 文書フォームの識別 - Google Patents

文書フォームの識別 Download PDF

Info

Publication number
JP2020166811A
JP2020166811A JP2019168691A JP2019168691A JP2020166811A JP 2020166811 A JP2020166811 A JP 2020166811A JP 2019168691 A JP2019168691 A JP 2019168691A JP 2019168691 A JP2019168691 A JP 2019168691A JP 2020166811 A JP2020166811 A JP 2020166811A
Authority
JP
Japan
Prior art keywords
keyword
document
input image
matching score
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019168691A
Other languages
English (en)
Other versions
JP7384603B2 (ja
Inventor
チャン ヨンミャン
Yongmian Zhang
チャン ヨンミャン
アガワル シュバーン
Agarwal Shubham
アガワル シュバーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Laboratory USA Inc
Original Assignee
Konica Minolta Laboratory USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Laboratory USA Inc filed Critical Konica Minolta Laboratory USA Inc
Publication of JP2020166811A publication Critical patent/JP2020166811A/ja
Application granted granted Critical
Publication of JP7384603B2 publication Critical patent/JP7384603B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2272Character recognition characterised by the type of writing of cursive writing using stroke segmentation with lexical matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】拡張可能な文書フォームの処理、および複数のタイプの文書フォームの処理など、様々な処理条件下で文書フォームを識別するための方法およびシステムを提供する。【解決手段】方法は、記入済み文書フォームをスキャンして生成された入力画像に対して画像処理を実行する。入力画像は、記入済み文書フォームのフォームタイプを識別するために、様々な文書フォームの白紙版に対して評価される。評価の結果、白紙の文書フォームの1つを、記入済み文書フォームと一致するものとして特定する。各文書フォームには一連のキーワードを有する。評価には、記入済み文書フォームにおけるキーワードマッチのベクトルを使用する。白紙の文書フォームが一致すると識別すると、記入済み文書フォームをその文書フォームに応じて分類および/または入力済み文書から抽出されたデータを、その文書フォームのキーワードに関連付けて保存する。【選択図】図2

Description

本開示は、一般に、画像処理に関し、より詳細には、入力画像を文書フォームと照合する処理に関する。
文書フォームは、ビジネス、政府、教育、その他の分野で使用される。例えば、文書フォームは、日付や数量などの対応する情報とともに製品またはサービスをリストする請求書でありうる。情報を入力すると、請求書をスキャンしてPDFファイルなどの電子画像ファイルを取得できる。この電子画像ファイルは、記録管理の目的でデータベースにアーカイブできる。文書フォームの情報は、多くの場合、抽出されて電子画像ファイルにエンコード(符号化)される。例えば、文字認識は、請求書に現れる製品名で請求書の電子画像ファイルをエンコードするためにコンピューターによって実行されてもよい。したがって、検索操作を実行して、特定の製品名を含むすべての請求書を見つけることができる。ただし、より複雑な操作が必要な場合がある。例えば、電子画像ファイルをスプレッドシートファイルまたは他の編集可能な形式に変換する操作が必要になる場合がある。データ分析のために複数の文書フォームから情報を集約する操作が必要になる場合がある。例えば、様々な製品の販売日と数量の分析から季節的な傾向を特定するために、1年間のすべての請求書のデータを集計することが必要な場合がある。これらまたはその他のような複雑な操作を可能にするには、記入済み文書フォームが特定のフォーム(例えば、特定の情報の配置)を有していると識別され、販売日や数量などの様々な情報が適切に認識されるようにする必要がある。フォームの識別は、多くの文書フォームが拡張可能なように電子的に生成されるため、複雑である。つまり、同じ文書フォームは、入力方法によって異なる場合がある。例えば、図1Aおよび図1Bは、同じタイプの文書フォームを示す。図1Aでは、3つの製品がリストされているので、パッキングリスト(梱包明細書)には3つの製品行(product rows)がある。図1Bでは、1つの製品のみがリストされているため、パッキングリストには1つの製品行がある。このようなフォームは、セル内のテキストの量に応じてサイズを水平方向に調整することもできる。異なるタイプの文書フォームを処理する必要がある場合、フォームの識別はより複雑になる。企業または他の組織は、データを抽出および集約する元となる多くの異なるタイプの文書フォームを発行および/または受け取ることが考えられる。例えば、企業は様々な小売業者から、異なるヘッダーテキストのパッキングリストを受け取ることがある。
したがって、拡張可能な文書フォームの処理、および複数のタイプの文書フォームの処理など、様々な処理条件下で文書フォームを識別するための方法およびシステムが必要である。
簡潔にそして一般的に言えば、本発明は、フォーム識別のための画像処理方法およびシステムを対象とする。
本発明の態様では、画像処理方法は、テキストを含む入力画像に対して複数の評価を実行することを含む。前記評価は、前記入力画像を複数の文書フォームから識別された文書フォームと照合するために実行され、前記評価のそれぞれは、前記複数の文書フォームの中の候補フォームを使用して実行され、各々の評価の前記候補フォームは他の評価のフォームとは異なる。各々の前記評価は、前記入力画像の前記テキスト内の1つ以上のワードを前記候補フォームの参照画像内の1つ以上のキーワードに関連付けることを含む。前記関連付けは、前記入力画像内のキーワードマッチを特定するために実行される。各々の前記評価は、前記候補フォームのフォームマッチングスコアを決定することを含む。前記フォームマッチングスコアは、前記入力画像内のキーワードマッチの配置を表すキーワードマッチ頂点から決定される。前記画像処理方法は、第1の文書フォームを前記入力画像との一致として特定することを含む。前記第1の文書フォームは、複数の前記評価における前記候補フォームの1つであり、前記特定は、前記第1の文書フォームに対して決定されたフォームマッチングスコアに応じて実行される。
本発明の態様では、画像処理システムは、プロセッサーと、前記プロセッサーと通信するメモリーと、を有し、前記メモリーは命令を格納し、前記プロセッサーは、格納された命令に従ってプロセスを実行するように構成されている。前記プロセスは、テキストを含む入力画像に対して複数の評価を実行することを含む。前記評価は、前記入力画像を複数の文書フォームから識別された文書フォームと照合するために実行され、前記評価のそれぞれは、前記複数の文書フォームの中の候補フォームを使用して実行され、各々の評価の前記候補フォームは他の評価のフォームとは異なる。各々の前記評価は、前記入力画像の前記テキスト内の1つ以上のワードを前記候補フォームの参照画像内の1つ以上のキーワードに関連付けることを含む。前記関連付けは、前記入力画像内のキーワードマッチを特定するために実行される。各々の前記評価は、前記候補フォームのフォームマッチングスコアを決定することを含む。前記フォームマッチングスコアは、前記入力画像内のキーワードマッチの配置を表すキーワードマッチ頂点から決定される。前記プロセスは、第1の文書フォームを前記入力画像との一致として特定することを含む。前記第1の文書フォームは、複数の前記評価における前記候補フォームの1つであり、前記特定は、前記第1の文書フォームに対して決定されたフォームマッチングスコアに応じて実行される。
本発明の特徴および利点は、添付の図面と併せて読まれるべき以下の詳細な説明からより容易に理解されるであろう。
同じタイプであるが行数が異なる記入済み文書フォームを示す。 同じタイプであるが行数が異なる記入済み文書フォームを示す。 入力画像を処理して、入力画像と一致する文書フォームを特定するための例示的なプロセスを示す。 空白の文書フォームの例の参照画像を示す。 空白の文書フォームの別の例の参照画像を示す。 図4の参照画像から切り取られたキーワードを示す。 図4の参照画像から切り取られたキーワードを示す。 図5Aのキーワードの一部の拡大図である。 ヒストグラムテンプレートの例を示す図である。 図6Aのヒストグラムテンプレートの線形版である。 図5Cの点Piの例示的なヒストグラムを示す図である。 図6Cのヒストグラムの線形版である。 点Piを中心とする局所領域(local region)を示す、図5Bのキーワードの一部の拡大図である。 局所領域内の点の分布を示す、図7Aの点Piのヒストグラムの線形版である。 記入済み文書フォームをスキャンすることによって生成された入力画像の例である。 入力画像と一致する文書フォームを識別するために入力画像に対して実行される例示的な分析を示す流れ図である。 局所領域内の点のヒストグラムを用いて、文書フォームのキーワードと入力画像のターゲットワードとが互いにどのように関連付けられるかを示す図である。 キーワードの第1の点のヒストグラムおよびターゲットワードの第1の点のヒストグラムを示し、それらがどのようにして数H(1,1)をもたらすかを示す。 キーワード上の第1の点のヒストグラムおよびターゲットワード上の第2の点のヒストグラムを示し、それらがどのようにして数H(1,2)をもたらすかを示す。 キーワードに関連付けられた数値配置ラベルで注釈が付けられた、空白の文書フォームの例示的な参照画像である。 記入済み文書フォームの入力画像の例であり、キーワードマッチ(keyword matches)に関連する数値配置ラベルで注釈が付けられ、結果のベクトルを示している。 図13のベクトルの例示的な二部グラフ(bipartite graphs)である。 図13のベクトルの例示的な二部グラフである。 図13のベクトルの例示的な二部グラフである。 入力画像に一致する文書フォームを識別するために入力画像に対して実行される例示的な分析を示す流れ図である。 入力画像の例である。 候補フォームの例示的な参照画像であり、図16Aの入力画像を用いて参照画像を評価することによって形成された二部グラフで示されている。 候補フォームの例示的な参照画像であり、図16Aの入力画像を用いて参照画像を評価することによって形成された二部グラフとともに示されている。 例示的な画像処理用システムを示す概略図であり、このシステムは、装置と、ネットワークを介して装置に接続されたデータベースとを備える。
次に、非限定的な例を説明する目的で図面をより詳細に参照し、同様の参照番号は、いくつかの図の間で対応するまたは同様の要素を示す。図2に画像処理方法の例を示す。1つ以上のタイプの文書フォームがスキャン20および分析21され、データベース23に分類22される。スキャン20には、解析される電子画像(jpg、bmp、pdf、他の形式)を得るために、文書フォームの空白版をスキャナーに送ることが含まれる。電子画像は、参照画像と呼ばれる。参照画像の分析には、ドキュメントフォーム内のキーワードの特定と、キーワードに関連付けられたヒストグラムの取得が含まれる。キーワードの選択は、人間のユーザーおよび/または文字認識アルゴリズムを実行するコンピューターの助けを借りて実行することができる。分類22は、キーワードに関連してヒストグラムをデータベース23に格納すること、および文書フォームに関連してキーワードを格納することを含む。
図3は、「パッキング」、「説明」、「数量」、および「合計」というワード(単語)が特定の文書フォームのキーワードとして選択されうる、例示的な文書フォームの空白版の参照画像40を示す。図4は、「Invoice(請求書)」、「To(宛先)」、「Service(サービス)」などのワードが特定の文書フォームのキーワードになるように選択されうる、別の例示的な文書フォームの空白版の参照画像40を示す。
図5Aは、図4の参照画像40のワード「サービス」の拡大図を示す。上記ワードは、図4の文書フォームのキーワードの1つとして選択された。キーワードごとに1つ以上のヒストグラムが取得される。各キーワードには複数の点が存在する。例えば、複数の点は、キーワードを画定する、連結されたピクセルの境界にある。図5Aでは、結合された黒いピクセルは文字Sを形成し、結合された黒いピクセルの境界は、ピクセル値の黒から灰色への変化によって画定される。図5Bでは、境界は、明確にするために黒い線として示され、境界上のいくつかの点Pは、明確にするために黒い点で示されている。点Pの総数は、図示されているものより少なくてもよく、または図示されているものよりも多くてもよい。例えば、点Pの総数は、各キーワードについて100を超える場合がある。各ヒストグラムは、複数の点の中のそれぞれの点に対応する。各ヒストグラムのそれぞれの点は、他のヒストグラムの点とは異なる。各ヒストグラムは、ヒストグラムの各点に対する他の点の分布を表す。
図5Cは、文字Sのさらなる拡大図を示し、キーワードの様々な点Pの中のそれぞれの点Piについてヒストグラムがどのように得られるかを示す。それぞれの点Piは、他の点Pと区別するために白い点または中空の点として示されている。点Piのヒストグラムは、点Piに対する他の点Pの分布を表している。例えば、点Piのヒストグラムは、点Piに対する他の点Pの分布を表し、これらの点Pは、同じ連結成分(連結(つまり、接触)する黒いピクセルによって定義される文字S)に排他的に存在する。Piに対する点Pの分布は、様々な直線距離Lと、直線距離の角度方向の組とで表される。例えば、図5Cにおける一点鎖線の水平線は、様々な直線距離Lのそれぞれについて角度Aが測定されるゼロ度配向を表しうる。一点鎖線は、連結成分(例えば、図5Cの文字S)について具体的に計算できる基準座標を表す。重心、または他の特性など、連結成分の1つ以上の特性を使用して、基準座標を決定できる。したがって、基準座標の向き(例えば、図5Cの一点鎖線)は、連結成分のサイズおよび形状に依存しうる。距離Lと角度Aは、極座標系の座標を表しうる。したがって、点Piのヒストグラムは、入力画像上にある他の点Pの極分布(polar distribution)を表すことができる。点の総数は、計算効率を高めるために制限される場合がある。例えば、点Piのヒストグラムは、Piと同じ連結成分(例えば、文字S)に排他的に配置されている他の点Pの極分布を表す場合がある。別の例では、点Piのヒストグラムは、Piの周りに画定された局所領域内に排他的に位置する他の点Pの極分布を表すことができる。
図6Aは、ヒストグラムの極座標系を示す。極座標系の領域は、セクターまたはビン(bin)b=1から16に分割することができる。図6Aでは、16個のビンbにラベルが付けられている。領域は、図に示されているよりも少ない、または多いビンに分割することもできる。
図6Bは、図6Aのビンの軸方向表示を示す。
図6Cは、図5Cの点Piのヒストグラムを示す。ヒストグラムは、図5Cの他の点Pの極分布を表す。図示のように、距離L’は、図5Cの距離Lから直線的にスケーリングされる。ビンb=2、8、11、および14のそれぞれに1つの点が含まれている。ビンb=9には2つの点が含まれている。あるいは、距離Lは、点Piからより近い、またはより遠い点Pにより重点が置かれるように、他の方法でスケーリングされてもよい。例えば、図5Cの距離Lは、対数的にスケーリングされ、距離L’を得てもよい。すなわち、図6Cの距離L’は、代わりに、図5Cの距離Lの対数であってもよい。
図6Dは、図6Cのヒストグラムの軸方向表示を示す。図6Cに示すように、ビンb=2、8、11、および14のそれぞれは1つの点を含み、ビンb=9は2つの点を含む。つまり、ビン2、8、11、および14のビン値は1である。ビン9のビン値は2である。残りの各ビンのビン値はゼロである。
図7Aは、点Piの周りに画定された局所領域Rを示す。上述のように、点Piのヒストグラムは、Piの周りに画定された局所領域R内の点Pの極分布を表すことができる。個別に示されていないが、点Pは互いに接近して間隔をあけられうる。例えば、点Pは、境界上の隣接するピクセルでありうる。画定された局所領域R内には、20、40、または50を超える点Pがある。
図7Bは、距離Lが対数的にスケーリングされている、画定された局所領域R内の点Pの極分布を表す例示的なヒストグラムを示す。
再び図2を参照する。分析21中に、スキャン20にかけられた文書フォームに対してキーワードが選択される。各キーワードは、点Piのセットとして、キーワードの各点Piに対してヒストグラムが計算される。このプロセスは、参照画像40上に現れるすべてのキーワードに対して実行される。分類22をしている間、データベース23は、スキャンされた文書フォームに関連してキーワードを格納し、それぞれのキーワードに関連して計算されたヒストグラムを格納する。スキャン20、分析21、および分類22は、データベース23が複数の文書フォームに関連してキーワードおよびヒストグラムを格納できるように、任意の数の空白の文書フォームに対して実行されてもよい。例えば、スキャン20、分析21、および分類22は、図3および図4の空白の文書フォームの参照画像40に対して実行されてもよい。キーワードと関連するヒストグラムとは、文書フォームの識別に使用される。すなわち、キーワードおよび関連するヒストグラムを使用して、入力画像をデータベース23に分類されている文書フォームの1つと照合する。
引き続き図2を参照する。画像処理は、記入済み文書フォームの電子画像である入力画像を生成するために、記入済み文書フォームをスキャン24することを含む。入力画像は、入力画像に対して複数の評価を行うことを含む分析25にかけられる。評価は、入力画像を、以前にデータベース23において分類された、複数の文書フォームから識別された文書フォームと照合するために実行される。各評価は、複数の文書フォームの中の候補フォームを使用して実行される。各評価の候補フォームは、他の評価の候補フォームとは異なる。例えば、入力画像は、図3に対応する候補フォームに対して評価されてもよい。そして、その後、図4に対応する候補フォームに対して評価される。したがって、複数の評価は、候補フォームが図3に対応する第1の評価と、候補フォームが図4に対応する第2の評価と、を含む。複数の文書フォームのうち、入力画像と一致するものとして、候補フォームの1つが識別される。その後、入力画像は、識別された候補フォームに応じて分類26されうる。分類26は、識別された候補フォームに関連して入力画像を格納することを含みうる。これにより、様々な記入済み文書フォームの入力画像を分類して、検索操作を容易にすることができる。例えば、入力画像は請求書またはパッキングリストのいずれかに分類されるため、すべての請求書は検索操作で識別できる。追加または代替として、データは、入力画像から抽出27され、識別された候補フォームのキーワードに関連付けられて格納28される。
図8は、記入済み文書の例の入力画像80を示す。入力画像80の分析25(図2)は、入力画像80との一致として特定される、図4に対応する文書フォームをもたらしうる。その後、データが抽出(27)される。図8の1つの行を参照する。抽出されたデータは、「Printing and copying(印刷およびコピー)」、「02/11/2018」、「1」、および「0.50」を含みうる。これらのデータは、図4に対応するフォームのキーワードに関連して記憶28されてもよい。例えば、「Printing and copying」という語句は、キーワード「Services(サービス)」に関連付けて格納することができ、「02/11/2018」という数値は、キーワード「Date(日付)」に関連付けて格納することができ、「1」という数字は、キーワード「Quantity(数量)」に関連付けて格納され、「0.50」という数字はキーワード「Total(合計)」に関連付けて格納されてもよい。
図9は、分析25(図2)中に入力画像と一致する文書フォームを識別するためのプロセスを示す。入力画像の分析25は、入力画像を特定の文書フォームと照合するため、複数の評価90を実行することを含む。前述のように、各評価は、データベース23に分類されている複数の文書フォームの中の候補フォームを使用して実行される。大文字のKは文書フォームの総数を表す。各評価は、入力画像のテキスト内の1つ以上のワードを候補フォームの1つ以上のキーワードに関連付けること(91)を含む。関連付けること(91)は、入力画像内のキーワードの一致を特定(92)するために実行される。各評価90は、候補フォームのフォームマッチングスコアを決定すること(93)をさらに含む。フォームマッチングスコアは、入力画像内のキーワードマッチ(keyword matches)の配置を表す一連の頂点から決定される。追加の評価90は、複数の文書フォームのすべてが入力画像に対して評価されるまで実行される。
最後の評価の後、第1の文書フォーム(複数の評価における候補フォームの1つ)が、入力画像と一致しているとして識別(94)される。「第1の文書フォーム」という用語は、評価される最初のものである必要はないという点で、汎用的であることを意図していることを理解されたい。識別プロセスは、第1の文書フォームのフォームマッチングスコアに応じて実行される。例えば、複数の文書フォームは、評価中に計算されたそれぞれのフォームマッチングスコアに応じてランク付けされる。
上述のように、入力画像のテキスト内のワードは、候補フォームの1つ以上のキーワードに関連付けられ(91)ている。関連付けること(91)は、入力画像におけるキーワードマッチを特定(92)するために、入力画像のテキスト上の複数の点のヒストグラムを使用することを含む。記入済み文書フォームの入力画像80は、図8の上部の「Invoice(請求書)」、およびテーブルヘッダの「Servces(サービス)」等のテキストを含む。候補フォームの参照画像40内のキーワード上の点について前述したのと同様に、入力画像内のテキスト上にも複数の点が存在する。各ヒストグラムは、文書フォームのキーワード上の点について前述したのと同じ方法で、入力画像80内のテキスト上の複数の点の中のそれぞれの点Piに対応する。参照画像40から導出されたヒストグラムについて上で提供されたすべての説明は、入力画像80から導出されたヒストグラムについても同じである。
プロセスは、関連付け91(図9)ている間に、候補フォームのキーワードに一致する入力画像内の1つまたは複数のワードを見つけようと試みる。このプロセスでは、最初のキーワード(キーワードA)を取得し、それを入力画像の最初のワード(ターゲットワードA)と比較して、2つのワードが一致するかどうかを確認する。次に、プロセスはキーワードAを入力画像の第2のワード(ターゲットワードB)と比較して、2つのワードが一致するかどうかを確認する。各比較には、ワードペアが含まれる。すなわち、候補フォームの電子画像のキーワード、および入力画像のターゲットワードである。
図10は、候補フォームの参照画像40におけるキーワード10(「Services」)と、記入済み文書フォームの入力画像80におけるターゲットワード12(「Services」)とを含むワード対の例を示す。キーワード10は参照画像40の切り取られた部分であり、ターゲットワード12は入力画像80の切り取られた部分である。ワード10と12はどちらも、スキャン20および24(図2)時に解像度が制限されているためにテキストの境界がギザギザになる現実的な様式で示されている。スキャンする前に、様々な設定または印刷機を使用して、元の文書(空白および記入済み文書フォーム)を印刷できる。さらに、スキャン20および24は、異なる時間に実行されてもよく、それらは、異なる設定、または読取装置を使用して実行されてもよい。したがって、空白の文書フォームと記入済み文書フォームの電子画像の間でスケールが変化する可能性がある。この可能性に対処するために、ターゲットワード12はキーワード10と同じ高さに正規化される。さらに、ターゲットワード12の幅は、空白と記入済み文書フォームの電子画像間の高さの比率に基づいて正規化される。そのような正規化の後、キーワード10上の特定の点Piについて、入力画像上のそのおおよその位置をより簡単に見つけることができる。
図10を参照する。キーワード10は点Piを有し、i=1からNpである。R(i)という項は、特定の点Piの局所領域である。ターゲットワード12は、点Pjを有し、ここで、j=1からMである。プロセスは、ワードペアが候補フォームの評価90(図9)中に一致するかどうかを判断する。任意の候補フォームの評価90(図9)は、1つまたは複数のワードペアを含むことができる。例えば、入力画像に4つのワードがあり、候補フォームに3つのキーワードがある場合、4×3=12のワードペアになる。各ワードペアについて、ワードマッチングスコア(word matching score)Wは次の2つの数式から計算される。
数式(1)において、Npは、キーワード10における点Piの総数を表す。数式(2)において、Bは、ヒストグラムHiおよびHjにおけるビンの総数を表す。キーワードでは、各点Piは、ヒストグラムHiを有する。ヒストグラムHiは、Piを中心とする局所領域R(i)内の他の点の分布を表す。ターゲットワード12では、各点Pjは、ヒストグラムHjを有する。ヒストグラムHjは、Pjを中心とする局所領域R(i)内の他の点の分布を表す。図10を参照する。R(1)は、キーワード10の点P1に対して定義された局所領域である。データベース23(図2)は、P1およびR(1)に関連するヒストグラムH1をすでに含んでいる。分析25(図2)の間、特に関連付け(91)(図9)の間では、同じ局所領域R(1)を使用して、図10に示されている点P1、P135、P151等のターゲットワード12の点のヒストグラムを取得する。局所領域と参照座標を使用すると、キーワード10とターゲットワード12の間のスケールと回転の変動を補償できる。
数式(2)において、タリー数(tally number)H(i、j)はビン値の合計であり、各ビン値はHiおよびHjにおける対応するビン値の積である。図11Aは、Hi=1およびHj=1の例であり、H(1,1)の結果を示す。ビン2のビン値は、Hi=1およびHj=1で1であり、1×1=1になる。ビン8のビン値は、Hi=1およびHj=1で1であり、1×1=1になる。ビン9は、Hi=1とHj=1で2のビン値を有し、2×2=4になる。ビンb=1から16までのすべてのビン値の合計は、タリー数H(1,1)=1+1+4=6になる。
図11Bは、Hi=1およびHj=2の例であり、H(1,2)の結果を示す。ビン2のビン値は、Hi=1およびHj=2で1であり、1×1=1になる。ビン8は、Hi=1およびHj=2で、1のビン値を有し、1×1=1になる。ビン9は、Hi=1の場合は2、Hj=2の場合は1のビン値を有し、2×1=2になる。ビンb=1から16までのすべてのビン値の合計は、H(1,2)=1+1+2=4になる。
数式(1)においてi=1の場合、プロセスは、対象ワード12のすべての領域j=1からMの間の最大のH(1、j)を計算する。max関数は、キーワード10の第1の点P1に対して最も良く一致する候補であるターゲットワードにおける特定点Pjを表す最大タリー数を返す。i=2の場合、プロセスは同じターゲットワードのすべての領域j=1からMの間の最大のH(2,j)を計算する。max関数は、キーワードの第2の点P2に対して最も一致する候補であるターゲットワードの特定の点Pjを表す最大タリー数を返す。これは、i=Nになるまで、つまり、キーワードのすべての点Piに対して最も一致する候補が見つかるまで、最大のH(3,j)、H(4,j)などを計算することが繰り返される。次にプロセスは、数式(1)に示すように、すべての最大値の合計を計算する。ワードペアのワードマッチングスコアWを計算するために、プロセスは、合計をそのキーワードの合計点数Npで割ることによって合計を正規化する。
ワードマッチングスコアWは、すべてのワードペア、つまり、入力画像内のターゲットワードと候補フォーム内のキーワードのすべてのペアについて計算される。したがって、入力画像が特定の候補フォームに対して評価されるときに、複数のワードマッチングスコアWが計算される。
表Iは、入力画像の最初の4つのターゲットワード(A〜D)と、文書フォームの最初の3つのキーワード(A〜C)とについて、ワードマッチングスコアWが計算される例を示している。入力画像は3つ以上のターゲットワードを有する場合があり、文書フォームは4つ以上のキーワードを有する場合があることを理解されたい。
ワードペアが一致するかどうかを判断するには、ワードペアのワードマッチングスコアWをワードマッチ要件に対して評価する。例えば、ワードマッチ要件は、閾値Twでありうる。W≧Twの場合、ワードペアは一致している。W<Twの場合、ワードペアは一致していない。表Iの例では、「一致」という語はW≧Twを示す。ターゲットワードAはキーワードAに関連付けられている。ターゲットワードAはキーワードAと一致するため、ターゲットワードAはキーワードマッチと呼ばれる。ターゲットワードBはキーワードCに関連付けられている。ターゲットワードBはキーワードCと一致するため、ターゲットワードBはキーワードマッチと呼ばれる。
表Iに示すように、プロセスは、入力画像のテキスト内の第1のワード(例えば、ターゲットワードA)の第1のワードマッチングスコア(例えば、WAA)を決定する。第1のワードマッチングスコアは、少なくとも第1のワードの点のヒストグラムと、候補フォームのキーワードのうち、特定のキーワード(キーワードAなど)の特定の点のヒストグラムと、から決定される。プロセスは、入力画像のテキスト内の第2のワード(例えば、ターゲットワードB)の第2のワードマッチングスコア(例えば、WAB)を決定する。第2のワードマッチングスコアは、少なくとも第2のワードの点のヒストグラムと、特定のキーワード(キーワードA)の特定の点のヒストグラムと、から決定される。プロセスは、少なくとも第1のワードマッチングスコア(WAA)に応じて、第1のワード(ターゲットワードA)が特定のキーワード(キーワードA)のキーワードマッチであると分類する。プロセスは、少なくとも第2のワードマッチングスコア(WAB)に応じて、第2のワード(ターゲットワードB)が特定のキーワード(キーワードA)のキーワードマッチではないと分類する。
次に、入力画像のトポロジー構造と候補フォームは、ベクトルVinput(V入力)とVcandidate(V候補)とで表される。それぞれのベクトルは、入力画像内のターゲットワードの位置を表す頂点と、候補フォームのキーワードの頂点とを含む。V候補を取得するには、候補フォームの参照画像からのキーワードに数値でラベリングされる。キーワードに番号が付けられる順序は、キーワードの位置と読み取り規則に基づいている。例えば、読み取り規則は「上から下、左から右」とすることができる。別の読み取り規則は、「上から下、右から左」でありうる。
図12は、図4の候補フォームのキーワードの数値ラベルを示す。分析21(図10)では、「Period(期間)」、「Invoice(請求書)」、「Data(日付)」などのワードとなる様々なキーワードが選択される。図12の上部にリストされている選択されたキーワードは、文書フォームにおいて必ずしもこの順序で現れる必要はない。さらに、同じキーワードが複数の位置に存在する場合がある。「上から下、左から右」の読み取りルールを使用して、キーワードの配置は、数値配置ラベル(numerical location label)(括弧内に示されている)で順番にラベル付けされている。括弧内の数値配置ラベルは実際には参照画像40の一部ではないことを理解されたい。数値配置ラベルは説明の目的で示されている。キーワード「Period(期間)」は(5)のラベルが付いた1つの位置にあり、キーワード「Invoice(請求書)」は(1)と(3)のラベルが付いた2つの位置にあり、キーワード「日付」は(4)と(8)のラベルが付いた2つの位置にある。図12に示す例では、候補文書のトポロジー構造は、キーワードに関連付けられた数値配置ラベル1、2、3、4、5、6、7、8、9、10、11および12によって表される。ラベルおよび関連するキーワードは、表IIに従って、データベース23(図2)に格納することができる。
図13は、キーワードマッチとして特定されたターゲットワードを有する、図8の記入済み文書フォームの参照画像80を示す。分析25(図2)では、前述のようにヒストグラムを使用して、ワードマッチングスコアWに基づいて入力画像内のキーワードマッチを特定する。すべてのワードペア(例えば、表IIIを参照)がキーワードマッチを特定するために評価された後、プロセスは、表IIの1〜12の数値配置ラベルを確立するために使用されたものと同じ読み取り規則(「上から下、左から右」)を使用する。表IIIは、図13の入力画像で見つかったキーワードマッチの順序を示している。キーワードマッチは、表IIから取得した対応する数値配置ラベルとともにリストされている。図13は、説明の目的で、対応する数値配置ラベルを示す。括弧内の数値配置ラベルは実際には入力画像80の一部ではないことを理解されたい。
表IIIでは、「Quantity Control Inc.」が記入済み文書フォームに入力されたため、キーワード「Quantity(数量)」は2つのインスタンス(instances)がある。この事実を強調するために、長方形が図13に示されている。同様に、記入済み文書フォームへの入力により、キーワード「Invoice(請求書)」および「Services(サービス)」の追加のインスタンスがある。また、キーワード「Period(期間)」は、図13の入力画像には見つからなかったことにも留意されたい。これは、記入済み文書フォームのしみやストレイマーク(stray mark)、スキャンエラー、またはその他が原因である可能性がある。
V入力の要素または頂点は、入力画像内のキーワードマッチの配置に基づいている。V入力は、入力画像内のキーワードマッチの配置を表す一連のキーワードマッチ頂点を定義する入力画像ベクトルの例である。図13の例では、V入力の頂点は、表IIIから取得された数値配置ラベルである。したがって、
Vinput={1、2、9、3、4、6、7、8、9、10、11、3、7、12}
V候補の要素または頂点は、候補フォームのキーワードが入力画像内のいずれかのターゲットワードと一致したかどうかに基づく。一致が見つかった場合、そのキーワードの配置ラベルがV候補の頂点として機能する。キーワードが見つからない場合、not−foundフラグ(Oなど)がV候補の要素として機能する。V候補は、候補フォームのキーワードの配置を表すキーワード頂点のセットを定義する文書フォームベクトルの例である。図13の例では、V候補の頂点は、表IIから取得された数値配置ラベルである。ただし、入力画像と一致しなかったので、not−foundフラグ(例えば、O)がキーワード「期間」の頂点値である。したがって、
Vcandidate={1,2,3,4,O,6,7,8,9,10,11,12}
図14Aでは、Vinput(V入力)およびVcandidate(V候補)は、2部グラフにおける2つの互いに素(disjoint)で、独立した一連の頂点である。一般的な2部グラフとは異なり、一致する頂点を結ぶ線によって形成される「エッジ」がある。つまり、エッジは、V候補のキーワード頂点を、同じ配置ラベルを有するキーワードマッチ頂点に接続する。対応するキーワードマッチ頂点を有しないキーワード頂点(例えば、キーワード「Period(期間)」)にはエッジがない。他のエッジと交差するエッジは、クロスエッジと呼ばれる。クロスエッジは、キーワード頂点(例えば、キーワード「Quantity(数量)」)に対応するキーワードマッチ頂点が複数ある場合に存在する。
図14Bでは、クロスエッジ(cross−edges)が削除されている。クロスエッジが削除されると、2つの互いに素なV入力とV候補のセットが1対1のマッピングの2部グラフを形成する。この1対1の特性(1頂点対1頂点)では、2つの画像に同じタイプの文書フォームが含まれている場合、符号化スキームは、空白の文書フォームの電子画像と、入力画像との間の同じトポロジー関係でキーワードを保持する。
図14Bでは、V入力のキーワードマッチ頂点が削除されているため、繰り返しの一致が削除されている。V入力とV候補は、それぞれベクトルSとRに名前が変更されている。Sの頂点は、{s1…sM}のように小文字で表され、合計Mの頂点を有する。Rの頂点は{r1…rN}で表され、合計N個の頂点を有する。入力画像にキーワード(「Period(期間)」など)が見つからない可能性がある。したがって、N≧Mである。この表記では、フォームマッチングスコアFは次の数式に従って計算される。
数式(3)では、Dは、1対1のマッピングの二部グラフを提供するために、図14Bに示すように削除された1つまたは複数のキーワードマッチ頂点を有するSのサブセットを表す。Rのキーワード頂点にSの対応するキーワードマッチ頂点がある場合、コスト関数Cは1を返す。したがって、コスト関数Cは、Sの対応するキーワードマッチ頂点を有するRのキーワード頂点の数を提供する。少なくともこの数値から、フォームマッチングスコアFが決定される。さらに、Rのキーワード頂点にnot−foundフラグ(Oなど)が含まれている場合、コスト関数Cは−1を返す。つまり、Rのキーワード頂点にSの対応するキーワードマッチ頂点がない場合、コスト関数Cは−1を返す。
図14Cは、頂点1からNまでのCの値を示す。Cの値の合計は、11−1=10である。クロスエッジを削除する方法は複数ありうるため、数式(3)においてSの複数のサブセットが可能である。図14Cは、Sの1つの特定のサブセットに対する1つの2部グラフを示す。2部グラフは、各々のSのサブセットに対して形成および分析されるであろう。C値の合計は、複数のSのサブセット間で異なる場合がある。したがって、フォームマッチングスコアFは、C値の合計の最大値の中から見つけることによって決定される。図14Aの例では、図14Bに示されるSのサブセットを仮定し、C値の最大合計を提供する。したがって、この例では、フォームマッチングスコアはF=10である。
フォームマッチングスコアFは、評価中の各候補フォーム90について決定される(図9)。各評価90において、候補フォームは、k=1からKまでの複数の文書フォームの中から取られる。プロセスは、以下の数式に従って、入力画像に最も一致する候補フォームを識別する。
キーワードの総数Nは候補フォーム間で異なる可能性があるため、候補フォームkのフォームマッチングスコアFは、Nで除算することによって正規化される。正規化フォームマッチングスコアはF’=F/Nである。最大の正規化されたフォームマッチングスコアF’は、入力画像との一致として特定される。上記から、そのような特定は、その特定の候補フォームのフォームマッチングスコアFに応じて実行されたことを理解されたい。例えば、候補フォームk=1が図3の文書フォームに対応し、候補フォームk=2が、図4の文書フォームに対応する場合、プロセスは、フォームk=2を、フォームk=1よりも高いフォームマッチングスコアを有するものとして決定する。その結果、プロセスは、k=2のフォームを図8の入力画像との一致であると特定する。
2つ以上の候補フォームが同じであり、合計K個のドキュメントフォームの中で正規化されたフォームマッチングスコアF’が最大である場合、キーワードNの数が最も多い候補フォームk’が、入力画像との一致として特定される。これは、キーワードの数が最も多い候補フォームが最も一致する可能性が高いためである。候補フォームk’は、次の方程式に従って見つけることができる。
例えば、評価93(図9)の1つは、第1の文書フォームがフォームマッチングスコアF1またはF’1を有すると決定できる。評価93(図9)の別の1つは、第2の文書フォームが、フォームマッチングスコアF2またはF’2を有すると決定できる。これは第1の文書フォームと同様である。他のすべての文書フォームのフォームマッチングスコアがより低い場合、キーワードの総数が調べられる。この例では、第1の文書フォームの参照画像には合計N1個のキーワードがあり、第2の文書フォームの参照画像にはN1未満のN2がある。数式(7)によると、N1がN2より大きいことにより、第1の文書フォームが、入力画像と一致していると特定される。
図15は、入力画像と一致する候補フォームを特定するための例示的なフロー図を示す。ブロック150で、スキャン24(図2)などによって入力画像が取得される。データベース23は、合計でK個の様々な文書フォームの一連のキーワードを含む。一連のキーワードは、プロセス20、21、および22(図2)について前述したように、データベース23に格納されている。第1の文書フォーム(k=1)から始めて、そのフォームの一連のキーワードがブロック151で使用され、入力画像が分析される25(図2)。分析は、入力画像のテキスト内の1つまたは複数のワードを候補フォームの1つまたは複数のキーワードに関連付けること91(図9)を含む。プロセス92(図9)に対して前述され、図12および図13に示されるように、ブロック152および154において、ベクトルRおよびS(V候補およびV入力とも呼ばれる)は、読み取り入力ルールに従って数値配置ラベルを適用することによって定義される。ブロック154において、図14Bに示すように、S内の反復キーワードマッチ頂点を除去することにより、1つまたは複数の二部グラフが形成される。ブロック154において、候補フォームのフォームマッチングスコアFは、上記数式(3)および数式(4)に従って決定される。さらに、正規化されたフォームマッチングスコアF’は、数式(6)に従って計算される。ブロック156では、正規化されたフォームマッチングスコアF’が閾値Tfと比較される。例えば、F’>Tfの場合、候補フォームは入力画像と一致するものとして特定され、それ以上の文書フォームは評価されない。F’≦Tfの場合、プロセスは、ブロック157で、評価すべき文書フォームがまだあるかどうか(すなわち、k=Kかどうか)を判断する。k=Kの場合、どの文書フォームも入力画像と一致しないと判断される。k≠Kの場合、kはインクリメントされ(k=k+1)、同じ入力画像が次の文書フォームに対して評価される。
図16Aは、記入済み文書フォームをスキャンすることによって生成された例示的な入力画像を示す。図16Bおよび図16Cは、ほぼ同一の文書フォームの例を示す。違いは、図16Cには、3つのキーワードを有する追加の1行の表がある。図16Bの候補フォームを用いた入力画像の第1の評価では、プロセスは、ベクトルS={1,2,3,4,5,6,7,8,9,10}およびR={1,2,3,4,5,6,7,8,9,10}を定義する。図16Bにおいて、候補フォームにはN=10個のキーワードの配置がある。対応する二部グラフが、数式(4)に従って決定されたCの値とともに図16Bに示されている。C値の合計は、フォームマッチングスコアF=10になる。C値の合計は、Sに対応するキーワードマッチ頂点を有するRのキーワード頂点の数値カウントに基づいていることに留意。したがって、フォームマッチングスコアFは、少なくともこの数値カウントから決定される。正規化されたフォームマッチングスコアはF’=F/N=10/10=1である。
図16Cの候補フォームを用いた入力画像の第2の評価では、プロセスは、ベクトルS={1,2,3,4,5,6,7,8,9,10}およびR={1,2,3,O,O,O,4,5,6,7,8,9,10}を定義する。キーワード「P.O.No.」、「Terms(条項)」、および「Project(プロジェクト)」は入力画像で見つからなかったため、ベクトルRにおいてnot−foundフラグ(「O」)でラベル付けされている。図16Cでは、候補フォームにはN=13個のキーワード配置がある。対応する二部グラフが図16Cに示されている。C値の合計は、フォームマッチングスコアF=10−3=7を与える。C値の合計は、第1の数値と第2の数値とに基づいていることに留意。第1の数値、つまり10は、Sに対応するキーワードマッチ頂点があるRのキーワード頂点の数である。第2の数字、つまり3は、Sに対応するキーワードマッチ頂点がないRのキーワード頂点の数である。したがって、フォームマッチングスコアFは、第1の数値と第2の数値から決定される。正規化されたフォームマッチングスコアはF’=F/N=(10−3)/13=0.54である。
プロセスは、図16Bの文書フォームを選択するであろう。これは、FまたはF’スコアが大きいためである。この例では、複数の文書フォームのうち、特定の文書フォーム(図16C)が入力画像と一致しないものとして分類されている。分類は、特定の文書フォームに対して決定されたフォームマッチングスコア(F=7またはF’=0.54のいずれか)に応じて実行される。図16Cの文書フォームのすべてのキーワードが入力画像で発見された場合でも、プロセスは、図16Bの文書フォームが最もよく一致すると判断することが理解できるであろう。
前述の説明は、入力画像内のキーワード分布のトポロジー構造を利用して、入力画像が以前に定義された文書フォームと一致するかどうかを判断するアプローチを示している。ヒストグラムを使用すると、入力画像でキーワードの一致を見つけるための安定的な方法が提供される。ヒストグラムを使用すると、スケールやローテーションが変動しても、キーワードマッチ候補が確実に見つかりうる。ベクトルRとSを使用すると、プロセスは、与えられた入力画像と最も一致する可能性が高い文書フォームを特定できる。定義済みの読み取りルールを使用してベクトルを形成することにより、プロセスは、同じキーワードを有するが異なるキーワードレイアウトを持つ文書フォームを区別できる。1対1の2部グラフアプローチでは、入力画像の入力にプロセスを混乱させる可能性のあるワードが含まれている場合でも、信頼できるフォーム特定が可能になる。
図17は、本明細書で説明される方法およびプロセスを実行するように構成された例示的な装置170を示す。装置170は、サーバー、コンピューターワークステーション、パーソナルコンピューター、ラップトップコンピューター、タブレット、スマートフォン、ファクシミリ機、印刷機、プリンターとスキャナーを組み合わせた機能を有する多機能周辺機器(MFP)、または他のタイプの機器でありうる。これには、1つ以上のコンピュータープロセッサとメモリーが含まれる。
装置170は、1つ以上のコンピュータープロセッサ171(CPU)、1つ以上のコンピューターメモリーデバイス172、1つ以上の入力デバイス173、および1つ以上の出力デバイス174を含む。1つ以上のコンピュータープロセッサ171は、まとめてプロセッサー171と呼ばれる。プロセッサー171は、命令を実行するように構成される。プロセッサー171は、命令を実行する集積回路を含みうる。命令は、本明細書で説明されるプロセスを実行するための1つ以上のソフトウェアモジュールを具現化しうる。1つ以上のソフトウェアモジュールは、まとめて画像処理プログラム175と呼ばれる。
1つ以上のコンピューターメモリーデバイス172は、まとめてメモリー172と呼ばれる。メモリー172は、ランダムアクセスメモリ(RAM)モジュール、読み取り専用メモリー(ROM)モジュール、および他の電子デバイスの任意の1つまたは組み合わせを含む。メモリー172は、光学ドライブ、磁気ドライブ、ソリッドステートフラッシュドライブ、および他のデータストレージデバイスなどの大容量ストレージデバイスを含みうる。メモリー172は、画像処理プログラム175を格納するコンピューター読み取り可能な記憶媒体を含む。データベース23(図2および図15)は、メモリーデバイス172の一部を形成することができる。
1つ以上の入力デバイス173は、まとめて入力デバイス173と呼ばれる。入力デバイス173は、カメラおよび光源を有し、参照画像40および/または入力画像80を生成するために文書ページをスキャンするように構成される光学スキャナーを含むことができる。入力デバイス173は、人(ユーザー)がデータを入力し、装置170と対話することを可能にすることができる。入力デバイス173は、ボタン付きキーボード、タッチスクリーン、マウス、電子ペン、および他のタイプのデバイスを含むことができる。これにより、ユーザーは分析21(図2)中にキーワードを選択できる。
1つ以上の出力デバイス174は、まとめて出力デバイス174と呼ばれる。出力デバイス174は、液晶ディスプレイ、プロジェクター、または他のタイプの視覚表示デバイスを含むことができる。出力デバイス174は、参照画像40および/または入力画像80を表示するために使用されうる。出力デバイス174は、参照画像40および/または入力画像80のコピーを印刷するプリンターを含みうる。
装置170は、装置170がローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、インターネット、および電話通信キャリアなどのネットワーク177を介して他のマシンと通信できるように構成されたネットワークインターフェース(I/F)176を含む。ネットワークI/F176は、ネットワーク177を介したアナログまたはデジタル通信を可能にする回路を含みうる。例えば、ネットワークI/F176は、ネットワーク177に接続された別の機器から画像10を受信するように構成されうる。ネットワークI/F176は、文字認識プロセスにかけられた、画像10の符号化されたバージョンを送信するように構成されうる。装置170の上記の構成要素は、通信バス178を介して互いに通信可能に結合される。
データベース23(図2および図15)は、装置170の外部にあってもよい。その場合、ネットワークインターフェース(I/F)176は、ネットワーク177を介してデータベース23と通信するように構成される。ネットワークインターフェース(I/F)176は、別のデータベース179と通信して、データベース179が、入力画像と一致すると特定された文書フォームのキーワードに関連して、入力画像から抽出されたデータを格納できるようにする。ネットワークインターフェース(I/F)176は、別のデータベース179と通信して、データベース179が入力画像と一致すると特定された文書フォームに関連して入力画像を格納できるように構成される。
本発明のいくつかの特定の形態を図示し、説明してきたが、本発明の範囲から逸脱することなく、様々な変更を加えることができることも明らかであろう。また、本発明の様々なモードを形成するために、開示された実施形態の特定の特徴および態様の様々な組み合わせまたはサブコンビネーションを互いに組み合わせるまたは置き換えることができることも企図されている。したがって、添付の特許請求の範囲による場合を除いて、本発明が限定されることは意図されていない。

Claims (20)

  1. テキストを含む入力画像に対して複数の評価を実行するステップと、
    第1の文書フォームを前記入力画像との一致として特定するステップと、を含むコンピューターシステムによって実行される画像処理方法であって、
    前記評価は、前記入力画像を複数の文書フォームから識別された文書フォームと照合するために実行され、前記評価のそれぞれは、前記複数の文書の中の候補フォームを使用して実行され、各々の評価の前記候補フォームは他の評価のフォームとは異なり、
    前記第1の文書フォームは、複数の前記評価における前記候補フォームの1つであり、
    前記特定は、前記第1の文書フォームに対して決定されたフォームマッチングスコアに応じて実行され、
    各々の前記評価は、
    前記入力画像の前記テキスト内の1つ以上のワードを前記候補フォームの参照画像内の1つ以上のキーワードに関連付けるステップと、
    前記候補フォームのフォームマッチングスコアを決定するステップと、を含み、
    前記フォームマッチングスコアは、前記入力画像内のキーワードマッチの配置を表すキーワードマッチ頂点から決定され、
    前記関連付けは、前記入力画像内のキーワードマッチを特定するために実行される、画像処理方法。
  2. 前記第1の文書フォームが一致であると特定した後、前記入力画像から抽出されたデータを前記第1の文書フォームの前記キーワードと関連付けて格納するステップをさらに含む、請求項1に記載の画像処理方法。
  3. 前記第1の文書フォームに応じて前記入力画像を分類するステップをさらに含む、請求項1または2に記載の画像処理方法。
  4. 前記評価のそれぞれについて、前記関連付けは、前記入力画像内のキーワードマッチを特定するために、前記入力画像のテキスト上の複数の点のヒストグラムを使用することを含み、各ヒストグラムは前記複数の点の中のそれぞれの点に対応し、各ヒストグラムのそれぞれの点は他のヒストグラムの点とは異なり、各ヒストグラムはヒストグラムのそれぞれの点に対する他の点の分布を表し、当該他の点は前記入力画像のテキスト上に位置する、請求項1〜3のいずれか1項に記載の画像処理方法。
  5. 前記ヒストグラムのそれぞれが、前記入力画像の前記テキスト上に位置する他の点の極分布を表す、請求項4に記載の画像処理方法。
  6. 各ヒストグラムについて、前記それぞれの点および前記他の点は、前記入力画像の前記テキストを画定する、連結されたピクセルの境界に位置する、請求項4または5に記載の画像処理方法。
  7. 前記評価の1つについて、前記ヒストグラムを使用することは、
    前記入力画像の前記テキストにおける第1のワードの第1のワードマッチングスコアを決定することと、
    前記入力画像の前記テキストにおける第2のワードの第2のワードマッチングスコアを決定することと、
    少なくとも前記第1のワードマッチングスコアに応じて、前記第1のワードを特定のキーワードのキーワードマッチとして分類することと、
    少なくとも前記第2のワードマッチングスコアに応じて、前記第2のワードを前記特定のキーワードの非キーワードマッチとして分類することと、を含み、
    前記第1のワードマッチングスコアは、少なくとも前記第1のワード上の点のヒストグラムと、前記候補フォームのキーワードの中の前記特定のキーワード上の前記特定の点のヒストグラムから決定され、
    前記第2のワードマッチングスコアは、少なくとも前記第2のワード上の点のヒストグラムと、前記特定のキーワード上の特定の点のヒストグラムから決定される、請求項4〜6のいずれか1項に記載の画像処理方法。
  8. 前記評価のそれぞれについて、文書フォームベクトルは、前記候補フォームのキーワードの配置を表す一連のキーワード頂点を定義し、
    前記候補フォームの前記フォームマッチングスコアは、前記キーワードマッチ頂点のいずれかに対応するキーワード頂点の数値カウントから少なくとも決定される、請求項1〜7のいずれか1項に記載の画像処理方法。
  9. 前記評価のうちの少なくとも1つについて、前記候補フォームの前記フォームマッチングスコアは、少なくとも第1の数および第2の数から決定され、前記第1の数は、前記キーワードマッチ頂点のうちのいずれかに対応するキーワード頂点の数値カウントであり、前記第2の数は、前記キーワードマッチ頂点のうちのいずれにも対応しないキーワード頂点の数値カウントである、請求項8に記載の画像処理方法。
  10. 前記評価のそれぞれについて、前記候補フォームについて決定された前記フォームマッチングスコアが、前記候補フォームの前記参照画像内のキーワードの数値カウントに応じて正規化される、請求項1〜9のいずれか1項に記載の画像処理方法。
  11. 前記評価の1つは、前記複数の文書フォームの中から、第2の文書フォームが、前記第1の文書フォームのフォームマッチングスコアと等しいフォームマッチングスコアを有すると判断し、
    前記入力画像との一致として前記第1の文書フォームを特定することは、前記第2の文書フォームのキーワードの数値カウントよりも大きい前記第1の文書フォームのキーワードの数値カウントに応じて実行される、請求項1〜10のいずれか1項に記載の画像処理方法。
  12. 前記複数の文書フォームのうち、特定の文書フォームを、前記入力画像に一致していないとして分類し、前記分類は、前記特定の文書フォームに対して決定された前記フォームマッチングスコアに応じて実行される、請求項1〜11のいずれか1項に記載の画像処理方法。
  13. プロセッサーと、
    前記プロセッサーと通信するメモリーと、を有し、
    前記メモリーは命令を格納し、前記プロセッサーは、格納された命令に応じてプロセスを実行するように構成され、
    前記プロセスは、
    テキストを含む入力画像に対して複数の評価を実行することと、
    第1の文書フォームを前記入力画像との一致として特定することと、を含み、
    前記評価は、複数の文書フォームから識別された文書フォームに前記入力画像を一致させるために実行され、前記評価のそれぞれは、前記複数の文書の中の候補フォームを使用して実行され、各々の評価の前記候補フォームは他の評価のフォームとは異なり、
    前記第1の文書フォームは、複数の前記評価における前記候補フォームの1つであり、
    前記特定は、前記第1の文書フォームに対して決定されたフォームマッチングスコアに応じて実行され、
    各々の前記評価は、
    前記入力画像の前記テキスト内の1つ以上のワードを前記候補フォームの参照画像内の1つ以上のキーワードに関連付けることと、
    前記候補フォームのフォームマッチングスコアを決定することと、を含み、
    前記フォームマッチングスコアは、前記入力画像内のキーワードマッチの配置を表すキーワードマッチ頂点から決定され、
    前記関連付けは、前記入力画像内のキーワードマッチを特定するために実行される、画像処理システム。
  14. 前記評価のそれぞれについて、前記関連付けは、前記入力画像内のキーワードマッチを特定するために、前記入力画像のテキスト上の複数の点のヒストグラムを使用することを含み、各ヒストグラムは前記複数の点の中のそれぞれの点に対応し、各ヒストグラムのそれぞれの点は他のヒストグラムのものとは異なり、各ヒストグラムはヒストグラムのそれぞれの点に対する他の点の分布を表し、当該他の点は前記入力画像のテキスト上に位置する、請求項13に記載の画像処理システム。
  15. 前記評価の1つについて、前記ヒストグラムを使用することは、
    前記入力画像の前記テキストにおける第1のワードの第1のワードマッチングスコアを決定することと、
    前記入力画像の前記テキストにおける第2のワードの第2のワードマッチングスコアを決定することと、
    少なくとも前記第1のワードマッチングスコアに応じて、前記第1のワードを特定のキーワードのキーワードマッチとして分類することと、
    少なくとも前記第2のワードマッチングスコアに応じて、前記第2のワードを前記特定のキーワードの非キーワードマッチとして分類することと、を含み、
    前記第1のワードマッチングスコアは、少なくとも前記第1のワード上の点のヒストグラムと、前記候補フォームのキーワードの中の前記特定のキーワード上の特定の点のヒストグラムから決定され、
    前記第2のワードマッチングスコアは、少なくとも前記第2のワード上の点のヒストグラムと、前記特定のキーワード上の特定の点のヒストグラムから決定される、請求項14に記載の画像処理システム。
  16. 前記評価のそれぞれについて、文書フォームベクトルは、前記候補フォームのキーワードの配置を表す一連のキーワード頂点を定義し、
    前記候補フォームの前記フォームマッチングスコアは、前記キーワードマッチ頂点のいずれかに対応するキーワード頂点の数値カウントから少なくとも決定される、請求項13〜15のいずれか1項に記載の画像処理システム。
  17. 前記評価のうちの少なくとも1つについて、前記候補フォームの前記フォームマッチングスコアは、少なくとも第1の数および第2の数から決定され、前記第1の数は、前記キーワードマッチ頂点のうちのいずれかに対応するキーワード頂点の数値カウントであり、前記第2の数は、前記キーワードマッチ頂点のうちのいずれにも対応しないキーワード頂点の数値カウントである、請求項16に記載の画像処理システム。
  18. 前記評価のそれぞれについて、前記候補フォームについて決定された前記フォームマッチングスコアが、前記候補フォームの前記参照画像内のキーワードの数値カウントに応じて正規化される、請求項13〜17のいずれか1項に記載の画像処理システム。
  19. 前記評価の1つは、前記複数の文書フォームの中から、第2の文書フォームが、前記第1の文書フォームのフォームマッチングスコアと等しいフォームマッチングスコアを有すると判断し、
    前記入力画像との一致として前記第1の文書フォームを特定することは、前記第2の文書フォームのキーワードの数値カウントよりも大きい前記第1の文書フォームのキーワードの数値カウントに応じて実行される、請求項13〜18のいずれか1項に記載の画像処理システム。
  20. 前記プロセッサーによって実行される前記プロセスは、前記複数の文書フォームのうち、特定の文書フォームを、前記入力画像に一致していないとして分類することを含み、前記分類は、前記特定の文書フォームに対して決定された前記フォームマッチングスコアに応じて実行される、請求項13〜19のいずれか1項に記載の画像処理システム。
JP2019168691A 2019-03-28 2019-09-17 文書フォームの識別 Active JP7384603B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/368,304 US20200311413A1 (en) 2019-03-28 2019-03-28 Document form identification
US16/368,304 2019-03-28

Publications (2)

Publication Number Publication Date
JP2020166811A true JP2020166811A (ja) 2020-10-08
JP7384603B2 JP7384603B2 (ja) 2023-11-21

Family

ID=72605956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019168691A Active JP7384603B2 (ja) 2019-03-28 2019-09-17 文書フォームの識別

Country Status (2)

Country Link
US (1) US20200311413A1 (ja)
JP (1) JP7384603B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11380116B2 (en) * 2019-10-22 2022-07-05 International Business Machines Corporation Automatic delineation and extraction of tabular data using machine learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204493A (ja) * 1996-01-24 1997-08-05 Canon Inc 画像処理装置及びその方法
JP2004348467A (ja) * 2003-05-22 2004-12-09 Canon Inc 画像検索装置及びその制御方法、プログラム
US20190303447A1 (en) * 2018-03-28 2019-10-03 Wipro Limited Method and system for identifying type of a document

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8306987B2 (en) * 2008-04-03 2012-11-06 Ofer Ber System and method for matching search requests and relevant data
US8495490B2 (en) * 2009-06-08 2013-07-23 Xerox Corporation Systems and methods of summarizing documents for archival, retrival and analysis
US9158833B2 (en) * 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US8086039B2 (en) * 2010-02-05 2011-12-27 Palo Alto Research Center Incorporated Fine-grained visual document fingerprinting for accurate document comparison and retrieval

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09204493A (ja) * 1996-01-24 1997-08-05 Canon Inc 画像処理装置及びその方法
JP2004348467A (ja) * 2003-05-22 2004-12-09 Canon Inc 画像検索装置及びその制御方法、プログラム
US20190303447A1 (en) * 2018-03-28 2019-10-03 Wipro Limited Method and system for identifying type of a document

Also Published As

Publication number Publication date
US20200311413A1 (en) 2020-10-01
JP7384603B2 (ja) 2023-11-21

Similar Documents

Publication Publication Date Title
US20230021040A1 (en) Methods and systems for automated table detection within documents
US10783367B2 (en) System and method for data extraction and searching
US10726252B2 (en) Method of digitizing and extracting meaning from graphic objects
US11580763B2 (en) Representative document hierarchy generation
US8321357B2 (en) Method and system for extraction
US20160041987A1 (en) Method and system for extraction
US9396540B1 (en) Method and system for identifying anchors for fields using optical character recognition data
US8977054B2 (en) Candidate identification by image fingerprinting and model matching
JP2018205910A (ja) 計算機、文書識別方法、及びシステム
US8687886B2 (en) Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
US11615244B2 (en) Data extraction and ordering based on document layout analysis
JP2014182477A (ja) プログラム及び帳票処理装置
JP7384603B2 (ja) 文書フォームの識別
JP7272037B2 (ja) 情報処理装置及びプログラム
JP4518212B2 (ja) 画像処理装置及びプログラム
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
JP4517822B2 (ja) 画像処理装置及びプログラム
JP2021114225A (ja) ファイル検索システム、ファイル検索方法及びプログラム
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
JP2018037020A (ja) 情報処理装置及び情報処理プログラム
Caluori et al. Similarity measures for pattern matching on-the-fly

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231109

R150 Certificate of patent or registration of utility model

Ref document number: 7384603

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150