JP7384603B2 - 文書フォームの識別 - Google Patents
文書フォームの識別 Download PDFInfo
- Publication number
- JP7384603B2 JP7384603B2 JP2019168691A JP2019168691A JP7384603B2 JP 7384603 B2 JP7384603 B2 JP 7384603B2 JP 2019168691 A JP2019168691 A JP 2019168691A JP 2019168691 A JP2019168691 A JP 2019168691A JP 7384603 B2 JP7384603 B2 JP 7384603B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- input image
- document
- candidate
- matching score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 claims description 100
- 238000000034 method Methods 0.000 claims description 45
- 230000008569 process Effects 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 17
- 238000003672 processing method Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 6
- 238000012856 packing Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
- G06V30/2268—Character recognition characterised by the type of writing of cursive writing using stroke segmentation
- G06V30/2272—Character recognition characterised by the type of writing of cursive writing using stroke segmentation with lexical matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、本発明の別の態様では、画像処理方法は、テキストを含む入力画像に対して複数の評価を実行することを含む。前記評価は、前記入力画像を複数の文書フォームから識別された文書フォームと照合するために実行され、前記評価のそれぞれは、前記複数の文書フォームの中の候補フォームを使用して実行され、各々の評価の前記候補フォームは他の評価のフォームとは異なる。各々の前記評価は、前記入力画像の前記テキスト内の1つ以上のワードを前記候補フォームの参照画像内の1つ以上のキーワードに関連付けることを含む。前記関連付けは、前記入力画像内のキーワードマッチを特定するために実行される。各々の前記評価は、前記候補フォームのフォームマッチングスコアを決定することを含む。前記フォームマッチングスコアは、前記入力画像内のキーワードマッチの配置を表すキーワードマッチ頂点から決定される。前記画像処理方法は、第1の文書フォームを前記入力画像との一致として特定することを含む。前記第1の文書フォームは、複数の前記評価における前記候補フォームの1つであり、前記特定は、前記第1の文書フォームに対して決定されたフォームマッチングスコアに応じて実行され、前記評価のそれぞれについて、文書フォームベクトルは、前記候補フォームのキーワードの配置を表す一連のキーワード頂点を定義し、前記候補フォームの前記フォームマッチングスコアは、前記キーワードマッチ頂点のいずれかに対応するキーワード頂点の数値カウントから少なくとも決定され、前記評価のうちの少なくとも1つについて、前記候補フォームの前記フォームマッチングスコアは、少なくとも第1の数および第2の数から決定され、前記第1の数は、前記キーワードマッチ頂点のうちのいずれかに対応するキーワード頂点の数値カウントであり、前記第2の数は、前記キーワードマッチ頂点のうちのいずれにも対応しないキーワード頂点の数値カウントである。
また、本発明の別の態様では、画像処理システムは、プロセッサーと、前記プロセッサーと通信するメモリーと、を有し、前記メモリーは命令を格納し、前記プロセッサーは、格納された命令に従ってプロセスを実行するように構成されている。前記プロセスは、テキストを含む入力画像に対して複数の評価を実行することを含む。前記評価は、前記入力画像を複数の文書フォームから識別された文書フォームと照合するために実行され、前記評価のそれぞれは、前記複数の文書フォームの中の候補フォームを使用して実行され、各々の評価の前記候補フォームは他の評価のフォームとは異なる。各々の前記評価は、前記入力画像の前記テキスト内の1つ以上のワードを前記候補フォームの参照画像内の1つ以上のキーワードに関連付けることを含む。前記関連付けは、前記入力画像内のキーワードマッチを特定するために実行される。各々の前記評価は、前記候補フォームのフォームマッチングスコアを決定することを含む。前記フォームマッチングスコアは、前記入力画像内のキーワードマッチの配置を表すキーワードマッチ頂点から決定される。前記プロセスは、第1の文書フォームを前記入力画像との一致として特定することを含む。前記第1の文書フォームは、複数の前記評価における前記候補フォームの1つであり、前記特定は、前記第1の文書フォームに対して決定されたフォームマッチングスコアに応じて実行され、前記評価のそれぞれについて、文書フォームベクトルは、前記候補フォームのキーワードの配置を表す一連のキーワード頂点を定義し、前記候補フォームの前記フォームマッチングスコアは、前記キーワードマッチ頂点のいずれかに対応するキーワード頂点の数値カウントから少なくとも決定され、前記評価のうちの少なくとも1つについて、前記候補フォームの前記フォームマッチングスコアは、少なくとも第1の数および第2の数から決定され、前記第1の数は、前記キーワードマッチ頂点のうちのいずれかに対応するキーワード頂点の数値カウントであり、前記第2の数は、前記キーワードマッチ頂点のうちのいずれにも対応しないキーワード頂点の数値カウントである。
Vinput={1、2、9、3、4、6、7、8、9、10、11、3、7、12}
V候補の要素または頂点は、候補フォームのキーワードが入力画像内のいずれかのターゲットワードと一致したかどうかに基づく。一致が見つかった場合、そのキーワードの配置ラベルがV候補の頂点として機能する。キーワードが見つからない場合、not-foundフラグ(Oなど)がV候補の要素として機能する。V候補は、候補フォームのキーワードの配置を表すキーワード頂点のセットを定義する文書フォームベクトルの例である。図13の例では、V候補の頂点は、表IIから取得された数値配置ラベルである。ただし、入力画像と一致しなかったので、not-foundフラグ(例えば、O)がキーワード「期間」の頂点値である。したがって、
Vcandidate={1,2,3,4,O,6,7,8,9,10,11,12}
図14Aでは、Vinput(V入力)およびVcandidate(V候補)は、2部グラフにおける2つの互いに素(disjoint)で、独立した一連の頂点である。一般的な2部グラフとは異なり、一致する頂点を結ぶ線によって形成される「エッジ」がある。つまり、エッジは、V候補のキーワード頂点を、同じ配置ラベルを有するキーワードマッチ頂点に接続する。対応するキーワードマッチ頂点を有しないキーワード頂点(例えば、キーワード「Period(期間)」)にはエッジがない。他のエッジと交差するエッジは、クロスエッジと呼ばれる。クロスエッジは、キーワード頂点(例えば、キーワード「Quantity(数量)」)に対応するキーワードマッチ頂点が複数ある場合に存在する。
Claims (18)
- テキストを含む入力画像に対して複数の評価を実行するステップと、
第1の文書フォームを前記入力画像との一致として特定するステップと、を含むコンピューターシステムによって実行される画像処理方法であって、
前記評価は、前記入力画像を複数の文書フォームから識別された文書フォームと照合するために実行され、前記評価のそれぞれは、前記複数の文書の中の候補フォームを使用して実行され、各々の評価の前記候補フォームは他の評価のフォームとは異なり、
前記第1の文書フォームは、複数の前記評価における前記候補フォームの1つであり、
前記特定は、前記第1の文書フォームに対して決定されたフォームマッチングスコアに応じて実行され、
各々の前記評価は、
前記入力画像の前記テキスト内の1つ以上のワードを前記候補フォームの参照画像内の1つ以上のキーワードに関連付けるステップと、
前記候補フォームのフォームマッチングスコアを決定するステップと、を含み、
前記フォームマッチングスコアは、前記入力画像内のキーワードマッチの配置を表すキーワードマッチ頂点から決定され、
前記関連付けは、前記入力画像内のキーワードマッチを特定するために実行され、
前記評価のそれぞれについて、前記関連付けは、前記入力画像内のキーワードマッチを特定するために、前記入力画像のテキスト上の複数の点のヒストグラムを使用することを含み、各ヒストグラムは前記複数の点の中のそれぞれの点に対応し、各ヒストグラムのそれぞれの点は他のヒストグラムの点とは異なり、各ヒストグラムはヒストグラムのそれぞれの点に対する他の点の分布を表し、当該他の点は前記入力画像のテキスト上に位置する、画像処理方法。 - 前記第1の文書フォームが一致であると特定した後、前記入力画像から抽出されたデータを前記第1の文書フォームの前記キーワードと関連付けて格納するステップをさらに含む、請求項1に記載の画像処理方法。
- 前記第1の文書フォームに応じて前記入力画像を分類するステップをさらに含む、請求項1または2に記載の画像処理方法。
- 前記ヒストグラムのそれぞれが、前記入力画像の前記テキスト上に位置する他の点の極分布を表す、請求項1に記載の画像処理方法。
- 各ヒストグラムについて、前記それぞれの点および前記他の点は、前記入力画像の前記テキストを画定する、連結されたピクセルの境界に位置する、請求項1~4のいずれか1項に記載の画像処理方法。
- 前記評価の1つについて、前記ヒストグラムを使用することは、
前記入力画像の前記テキストにおける第1のワードの第1のワードマッチングスコアを決定することと、
前記入力画像の前記テキストにおける第2のワードの第2のワードマッチングスコアを決定することと、
少なくとも前記第1のワードマッチングスコアに応じて、前記第1のワードを特定のキーワードのキーワードマッチとして分類することと、
少なくとも前記第2のワードマッチングスコアに応じて、前記第2のワードを前記特定のキーワードの非キーワードマッチとして分類することと、を含み、
前記第1のワードマッチングスコアは、少なくとも前記第1のワード上の点のヒストグラムと、前記候補フォームのキーワードの中の前記特定のキーワード上の前記特定の点のヒストグラムから決定され、
前記第2のワードマッチングスコアは、少なくとも前記第2のワード上の点のヒストグラムと、前記特定のキーワード上の特定の点のヒストグラムから決定される、請求項1~5のいずれか1項に記載の画像処理方法。 - 前記評価のそれぞれについて、文書フォームベクトルは、前記候補フォームのキーワードの配置を表す一連のキーワード頂点を定義し、
前記候補フォームの前記フォームマッチングスコアは、前記キーワードマッチ頂点のいずれかに対応するキーワード頂点の数値カウントから少なくとも決定される、請求項1~6のいずれか1項に記載の画像処理方法。 - テキストを含む入力画像に対して複数の評価を実行するステップと、
第1の文書フォームを前記入力画像との一致として特定するステップと、を含むコンピューターシステムによって実行される画像処理方法であって、
前記評価は、前記入力画像を複数の文書フォームから識別された文書フォームと照合するために実行され、前記評価のそれぞれは、前記複数の文書の中の候補フォームを使用して実行され、各々の評価の前記候補フォームは他の評価のフォームとは異なり、
前記第1の文書フォームは、複数の前記評価における前記候補フォームの1つであり、
前記特定は、前記第1の文書フォームに対して決定されたフォームマッチングスコアに応じて実行され、
各々の前記評価は、
前記入力画像の前記テキスト内の1つ以上のワードを前記候補フォームの参照画像内の1つ以上のキーワードに関連付けるステップと、
前記候補フォームのフォームマッチングスコアを決定するステップと、を含み、
前記フォームマッチングスコアは、前記入力画像内のキーワードマッチの配置を表すキーワードマッチ頂点から決定され、
前記関連付けは、前記入力画像内のキーワードマッチを特定するために実行され、
前記評価のそれぞれについて、文書フォームベクトルは、前記候補フォームのキーワードの配置を表す一連のキーワード頂点を定義し、
前記候補フォームの前記フォームマッチングスコアは、前記キーワードマッチ頂点のいずれかに対応するキーワード頂点の数値カウントから少なくとも決定され、
前記評価のうちの少なくとも1つについて、前記候補フォームの前記フォームマッチングスコアは、少なくとも第1の数および第2の数から決定され、前記第1の数は、前記キーワードマッチ頂点のうちのいずれかに対応するキーワード頂点の数値カウントであり、前記第2の数は、前記キーワードマッチ頂点のうちのいずれにも対応しないキーワード頂点の数値カウントである、画像処理方法。 - 前記評価のそれぞれについて、前記候補フォームについて決定された前記フォームマッチングスコアが、前記候補フォームの前記参照画像内のキーワードの数値カウントに応じて正規化される、請求項1~8のいずれか1項に記載の画像処理方法。
- 前記評価の1つは、前記複数の文書フォームの中から、第2の文書フォームが、前記第1の文書フォームのフォームマッチングスコアと等しいフォームマッチングスコアを有すると判断し、
前記入力画像との一致として前記第1の文書フォームを特定することは、前記第2の文書フォームのキーワードの数値カウントよりも大きい前記第1の文書フォームのキーワードの数値カウントに応じて実行される、請求項1~9のいずれか1項に記載の画像処理方法。 - 前記複数の文書フォームのうち、特定の文書フォームを、前記入力画像に一致していないとして分類し、前記分類は、前記特定の文書フォームに対して決定された前記フォームマッチングスコアに応じて実行される、請求項1~10のいずれか1項に記載の画像処理方法。
- プロセッサーと、
前記プロセッサーと通信するメモリーと、を有し、
前記メモリーは命令を格納し、前記プロセッサーは、格納された命令に応じてプロセスを実行するように構成され、
前記プロセスは、
テキストを含む入力画像に対して複数の評価を実行することと、
第1の文書フォームを前記入力画像との一致として特定することと、を含み、
前記評価は、複数の文書フォームから識別された文書フォームに前記入力画像を一致させるために実行され、前記評価のそれぞれは、前記複数の文書の中の候補フォームを使用して実行され、各々の評価の前記候補フォームは他の評価のフォームとは異なり、
前記第1の文書フォームは、複数の前記評価における前記候補フォームの1つであり、
前記特定は、前記第1の文書フォームに対して決定されたフォームマッチングスコアに応じて実行され、
各々の前記評価は、
前記入力画像の前記テキスト内の1つ以上のワードを前記候補フォームの参照画像内の1つ以上のキーワードに関連付けることと、
前記候補フォームのフォームマッチングスコアを決定することと、を含み、
前記フォームマッチングスコアは、前記入力画像内のキーワードマッチの配置を表すキーワードマッチ頂点から決定され、
前記関連付けは、前記入力画像内のキーワードマッチを特定するために実行され、
前記評価のそれぞれについて、前記関連付けは、前記入力画像内のキーワードマッチを特定するために、前記入力画像のテキスト上の複数の点のヒストグラムを使用することを含み、各ヒストグラムは前記複数の点の中のそれぞれの点に対応し、各ヒストグラムのそれぞれの点は他のヒストグラムのものとは異なり、各ヒストグラムはヒストグラムのそれぞれの点に対する他の点の分布を表し、当該他の点は前記入力画像のテキスト上に位置する、画像処理システム。 - 前記評価の1つについて、前記ヒストグラムを使用することは、
前記入力画像の前記テキストにおける第1のワードの第1のワードマッチングスコアを決定することと、
前記入力画像の前記テキストにおける第2のワードの第2のワードマッチングスコアを決定することと、
少なくとも前記第1のワードマッチングスコアに応じて、前記第1のワードを特定のキーワードのキーワードマッチとして分類することと、
少なくとも前記第2のワードマッチングスコアに応じて、前記第2のワードを前記特定のキーワードの非キーワードマッチとして分類することと、を含み、
前記第1のワードマッチングスコアは、少なくとも前記第1のワード上の点のヒストグラムと、前記候補フォームのキーワードの中の前記特定のキーワード上の特定の点のヒストグラムから決定され、
前記第2のワードマッチングスコアは、少なくとも前記第2のワード上の点のヒストグラムと、前記特定のキーワード上の特定の点のヒストグラムから決定される、請求項12に記載の画像処理システム。 - 前記評価のそれぞれについて、文書フォームベクトルは、前記候補フォームのキーワードの配置を表す一連のキーワード頂点を定義し、
前記候補フォームの前記フォームマッチングスコアは、前記キーワードマッチ頂点のいずれかに対応するキーワード頂点の数値カウントから少なくとも決定される、請求項12または13に記載の画像処理システム。 - プロセッサーと、
前記プロセッサーと通信するメモリーと、を有し、
前記メモリーは命令を格納し、前記プロセッサーは、格納された命令に応じてプロセスを実行するように構成され、
前記プロセスは、
テキストを含む入力画像に対して複数の評価を実行することと、
第1の文書フォームを前記入力画像との一致として特定することと、を含み、
前記評価は、複数の文書フォームから識別された文書フォームに前記入力画像を一致させるために実行され、前記評価のそれぞれは、前記複数の文書の中の候補フォームを使用して実行され、各々の評価の前記候補フォームは他の評価のフォームとは異なり、
前記第1の文書フォームは、複数の前記評価における前記候補フォームの1つであり、
前記特定は、前記第1の文書フォームに対して決定されたフォームマッチングスコアに応じて実行され、
各々の前記評価は、
前記入力画像の前記テキスト内の1つ以上のワードを前記候補フォームの参照画像内の1つ以上のキーワードに関連付けることと、
前記候補フォームのフォームマッチングスコアを決定することと、を含み、
前記フォームマッチングスコアは、前記入力画像内のキーワードマッチの配置を表すキーワードマッチ頂点から決定され、
前記関連付けは、前記入力画像内のキーワードマッチを特定するために実行され、
前記評価のそれぞれについて、文書フォームベクトルは、前記候補フォームのキーワードの配置を表す一連のキーワード頂点を定義し、
前記候補フォームの前記フォームマッチングスコアは、前記キーワードマッチ頂点のいずれかに対応するキーワード頂点の数値カウントから少なくとも決定され、
前記評価のうちの少なくとも1つについて、前記候補フォームの前記フォームマッチングスコアは、少なくとも第1の数および第2の数から決定され、前記第1の数は、前記キーワードマッチ頂点のうちのいずれかに対応するキーワード頂点の数値カウントであり、前記第2の数は、前記キーワードマッチ頂点のうちのいずれにも対応しないキーワード頂点の数値カウントである、画像処理システム。 - 前記評価のそれぞれについて、前記候補フォームについて決定された前記フォームマッチングスコアが、前記候補フォームの前記参照画像内のキーワードの数値カウントに応じて正規化される、請求項12~15のいずれか1項に記載の画像処理システム。
- 前記評価の1つは、前記複数の文書フォームの中から、第2の文書フォームが、前記第1の文書フォームのフォームマッチングスコアと等しいフォームマッチングスコアを有すると判断し、
前記入力画像との一致として前記第1の文書フォームを特定することは、前記第2の文書フォームのキーワードの数値カウントよりも大きい前記第1の文書フォームのキーワードの数値カウントに応じて実行される、請求項12~16のいずれか1項に記載の画像処理システム。 - 前記プロセッサーによって実行される前記プロセスは、前記複数の文書フォームのうち、特定の文書フォームを、前記入力画像に一致していないとして分類することを含み、前記分類は、前記特定の文書フォームに対して決定された前記フォームマッチングスコアに応じて実行される、請求項12~17のいずれか1項に記載の画像処理システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/368,304 | 2019-03-28 | ||
US16/368,304 US20200311413A1 (en) | 2019-03-28 | 2019-03-28 | Document form identification |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020166811A JP2020166811A (ja) | 2020-10-08 |
JP7384603B2 true JP7384603B2 (ja) | 2023-11-21 |
Family
ID=72605956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019168691A Active JP7384603B2 (ja) | 2019-03-28 | 2019-09-17 | 文書フォームの識別 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200311413A1 (ja) |
JP (1) | JP7384603B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11380116B2 (en) * | 2019-10-22 | 2022-07-05 | International Business Machines Corporation | Automatic delineation and extraction of tabular data using machine learning |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348467A (ja) | 2003-05-22 | 2004-12-09 | Canon Inc | 画像検索装置及びその制御方法、プログラム |
US20190303447A1 (en) | 2018-03-28 | 2019-10-03 | Wipro Limited | Method and system for identifying type of a document |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3412998B2 (ja) * | 1996-01-24 | 2003-06-03 | キヤノン株式会社 | 画像処理装置及びその方法 |
US8306987B2 (en) * | 2008-04-03 | 2012-11-06 | Ofer Ber | System and method for matching search requests and relevant data |
US8495490B2 (en) * | 2009-06-08 | 2013-07-23 | Xerox Corporation | Systems and methods of summarizing documents for archival, retrival and analysis |
US9158833B2 (en) * | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
US8086039B2 (en) * | 2010-02-05 | 2011-12-27 | Palo Alto Research Center Incorporated | Fine-grained visual document fingerprinting for accurate document comparison and retrieval |
-
2019
- 2019-03-28 US US16/368,304 patent/US20200311413A1/en not_active Abandoned
- 2019-09-17 JP JP2019168691A patent/JP7384603B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348467A (ja) | 2003-05-22 | 2004-12-09 | Canon Inc | 画像検索装置及びその制御方法、プログラム |
US20190303447A1 (en) | 2018-03-28 | 2019-10-03 | Wipro Limited | Method and system for identifying type of a document |
Also Published As
Publication number | Publication date |
---|---|
US20200311413A1 (en) | 2020-10-01 |
JP2020166811A (ja) | 2020-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210012102A1 (en) | Systems and Methods For Automatic Data Extraction From Document Images | |
US11715313B2 (en) | Apparatus and methods for extracting data from lineless table using delaunay triangulation and excess edge removal | |
RU2699687C1 (ru) | Обнаружение текстовых полей с использованием нейронных сетей | |
US8515208B2 (en) | Method for document to template alignment | |
US8442319B2 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
US8045798B2 (en) | Features generation and spotting methods and systems using same | |
US8321357B2 (en) | Method and system for extraction | |
US5293429A (en) | System and method for automatically classifying heterogeneous business forms | |
US20160041987A1 (en) | Method and system for extraction | |
US9396540B1 (en) | Method and system for identifying anchors for fields using optical character recognition data | |
US8687886B2 (en) | Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features | |
US8977054B2 (en) | Candidate identification by image fingerprinting and model matching | |
JP2018205910A (ja) | 計算機、文書識別方法、及びシステム | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
JP6170860B2 (ja) | 文字認識装置及び識別関数生成方法 | |
US11321558B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP7384603B2 (ja) | 文書フォームの識別 | |
US11256760B1 (en) | Region adjacent subgraph isomorphism for layout clustering in document images | |
Yu et al. | An effective method for figures and tables detection in academic literature | |
JP4518212B2 (ja) | 画像処理装置及びプログラム | |
JP4517822B2 (ja) | 画像処理装置及びプログラム | |
Ferrer et al. | MDIW-13: a new multi-lingual and multi-script database and benchmark for script identification | |
Cutter et al. | Font group identification using reconstructed fonts | |
WO2023062799A1 (ja) | 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム | |
JP2018037020A (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230516 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231109 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7384603 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |