JP5710624B2 - 抽出のための方法及びシステム - Google Patents
抽出のための方法及びシステム Download PDFInfo
- Publication number
- JP5710624B2 JP5710624B2 JP2012532203A JP2012532203A JP5710624B2 JP 5710624 B2 JP5710624 B2 JP 5710624B2 JP 2012532203 A JP2012532203 A JP 2012532203A JP 2012532203 A JP2012532203 A JP 2012532203A JP 5710624 B2 JP5710624 B2 JP 5710624B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- processor
- document
- information
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 82
- 238000000605 extraction Methods 0.000 title description 40
- 238000010200 validation analysis Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 description 28
- 230000004807 localization Effects 0.000 description 25
- 238000012015 optical character recognition Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 238000012549 training Methods 0.000 description 11
- 238000007726 management method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 239000000047 product Substances 0.000 description 8
- 238000007619 statistical method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 239000002131 composite material Substances 0.000 description 7
- 239000002245 particle Substances 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 210000004556 brain Anatomy 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
・フィールド「invoice date(インボイスの日付)」=「01/14/03」又は「09/22/2001」又は「11DEC1999」
・フィールド「total amount(合計金額)」=「1,176.22」又は「$170.00」又は「699.28」
フォーマットの属性スコアの計算の一例を、学習したフォーマット「$+ddd.dd」について以下で詳しく説明する。文書上の所定のテキスト、即ち、「$#123.45/」(OCRのエラーを含んでいる)に関して、これを評価する場合に、スコアリングは、各々2で重み付けされた7個のフォーマットのヒット($記号と、小数点と、5つの数字)を計数して、1で重み付けされた1つの不一致(#対+)と、1で重み付けされた最後の追加の1つのキャラクタ(例えば、/)とを計数する。合計の属性スコアは、これらの部分の加重和又は一次結合(例えば、7(2)−1(1)−1(1)=12)であり得る。なお、提示されているフィールドのタイプに対して学習した他の全てのフォーマットのストリングの統計によって、重みが決まる。重みは、フィールドのタイプに応じて変わり得ることに留意すべきである。
なお、k1とk2は、局限化スコアと属性スコアとの相対的な重みを考慮に入れた2つの調整パラメータである。
以下に、本出願時の特許請求の範囲に記載された発明を付記する。
[1] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出する方法であって、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成するステップと、
少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定するステップと、
少なくとも1つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも1つの可能性のある一致に当てはまるかどうかを決定するステップと、
少なくとも1つの削除プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致を、前記少なくとも1つの可能性のある一致のリストから削除するステップと、
少なくとも1つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定するステップと、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
を含む、方法。
[2] 前記少なくとも1つの属性スコアと、前記少なくとも1つの局限化スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、請求項1の方法。
[3] 前記空間特徴基準を使用して、前記少なくとも1つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、前記[2]の方法。
[4] 前記文脈特徴基準は、前記少なくとも1つのターゲットエントリの近隣にある少なくとも1つの可能性のあるターゲットエントリに関する情報に重みを付ける、前記[2]の方法。
[5] 前記関係特徴基準を使用して、前記少なくとも1つのターゲットエントリが内部で見付かる見込みがある少なくとも1つのエリアを決定する、前記[2]の方法。
[6] 前記空間特徴基準と、前記文脈特徴基準と、前記関係特徴基準との任意の組み合わせ間における数学的変換によって、前記導出特徴基準を生成する、前記[2]の方法。
[7] 少なくとも1つのプロセッサは、
前記少なくとも1つのランク付け及び/又はマッチングプロセッサ、
前記少なくとも1つの特徴プロセッサ、
前記少なくとも1つの否定特徴プロセッサ、
前記少なくとも1つの削除プロセッサ、
前記少なくとも1つの肯定特徴プロセッサ、或いは、
前記少なくとも1つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含むことができる、前記[1]の方法。
[8] サンプル文書から前記少なくとも1組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも1組の文書の中に類似の情報を見付けるステップと、
を更に含む、前記[1]の方法。
[9] 前記少なくとも1つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、前記[1]の方法。
[10] 前記バリデートするステップは、
内部でバリデートするステップ、及び/又は、
外部バリデートするステップ、
を含む、前記[9]の方法。
[11] 前記少なくとも1つの属性スコアと前記少なくとも1つの局限化スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れている、前記[1]の方法。
[12] 前記学習した特性は、少なくとも1つの未知の文書及び/又は少なくとも1つの異なる文書のタイプに当てはまる、前記[8]の方法。
[13] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出する方法であって、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成するステップ、
を含む、方法。
[14] 前記少なくとも1つの属性スコアと、前記少なくとも1つの局限化スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、前記[13]の方法。
[15] 前記空間特徴基準を使用して、前記少なくとも1つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、前記[14]の方法。
[16] 前記文脈特徴基準は、前記少なくとも1つのターゲットエントリの近隣にある少なくとも1つの可能性のあるターゲットエントリに関する情報に重みを付ける、前記[14]の方法。
[17] 前記関係特徴基準を使用して、前記少なくとも1つのターゲットエントリが内部で見付かる見込みがある少なくとも1つのエリアを決定する、前記[14]の方法。
[18] 前記空間特徴基準と、前記文脈特徴基準と、前記関係特徴基準との任意の組み合わせ間における数学的変換によって、前記導出特徴基準を生成する、前記[14]の方法。
[19] 少なくとも1つのプロセッサは、
前記少なくとも1つのランク付け及び/又はマッチングプロセッサ、
前記少なくとも1つの特徴プロセッサ、
前記少なくとも1つの否定特徴プロセッサ、
前記少なくとも1つの削除プロセッサ、
前記少なくとも1つの肯定特徴プロセッサ、或いは、
前記少なくとも1つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含むことができる、前記[13]の方法。
[20] サンプル文書から前記少なくとも1組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも1組の文書の中に類似の情報を見付けるステップと、
を更に含む、前記[13]の方法。
[21] 前記少なくとも1つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、前記[13]の方法。
[22] 前記バリデートするステップは、
内部でバリデートするステップ、及び/又は、
外部でバリデートするステップ、
を含む、前記[21]の方法。
[23] 前記少なくとも1つの属性スコアと前記少なくとも1つの局限化スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れる、前記[13]の方法。
[24] 前記学習した特性は、少なくとも1つの未知の文書及び/又は少なくとも1つの異なる文書のタイプに当てはまる、前記[20]の方法。
[25] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出する方法であって、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成するステップと、
少なくとも1つの肯定特徴プロセッサを使用して、N−グラム統計に基づいて、肯定の特徴を決定するステップと、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
を含む、方法。
[26] 前記少なくとも1つの属性スコアと、前記少なくとも1つの局限化スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、前記[25]の方法。
[27] 前記空間特徴基準を使用して、前記少なくとも1つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、前記[26]の方法。
[28] 前記文脈特徴基準は、前記少なくとも1つのターゲットエントリの近隣にある少なくとも1つの可能性のあるターゲットエントリに関する情報に重みを付ける、前記[26]の方法。
[29] 前記関係特徴基準を使用して、前記少なくとも1つのターゲットエントリが内部で見付かる見込みがある少なくとも1つのエリアを決定する、前記[26]の方法。
[30] 前記空間特徴基準と、前記文脈特徴基準と、前記関係特徴基準との任意の組み合わせ間における数学的変換によって、前記導出特徴基準を生成する、前記[26]の方法。
[31] 少なくとも1つのプロセッサは、
前記少なくとも1つのランク付け及び/又はマッチングプロセッサ、
前記少なくとも1つの特徴プロセッサ、或いは、
前記少なくとも1つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含むことができる、前記[25]の方法。
[32] サンプル文書から前記少なくとも1組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも1組の文書の中に類似の情報を見付けるステップと、
を更に含む、前記[25]の方法。
[33] 前記少なくとも1つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、前記[25]の方法。
[34] 前記バリデートするステップは、
内部でバリデートするステップ、及び/又は、
外部でバリデートするステップ、
を含む、前記[33]の方法。
[35] 前記少なくとも1つの属性スコアと前記少なくとも1つの局限化スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れる、前記[25]の方法。
[36] 前記学習した特性は、少なくとも1つの未知の文書及び/又は少なくとも1つの異なる文書のタイプに当てはまる、前記[32]の方法。
[37] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出するコンピュータシステムであって、
前記コンピュータシステムは、少なくとも1つのプロセッサを含んでおり、
前記少なくとも1つのプロセッサは、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成して、
少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定して、
少なくとも1つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも1つの可能性のある一致に当てはまるかどうかを決定して、
少なくとも1つの削除プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致を、前記少なくとも1つの可能性のある一致のリストから削除して、
少なくとも1つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定して、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
ように構成されている、コンピュータシステム。
[38] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出するコンピュータ化されたシステムであって、
前記コンピュータ化されたシステムは、少なくとも1つのプロセッサを含んでおり、
前記プロセッサは、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成する、
ように構成されている、コンピュータ化されたシステム。
[39] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出するコンピュータ化されたシステムであって、
前記コンピュータ化されたシステムは、少なくとも1つのプロセッサを含んでおり、
前記プロセッサは、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成して、
少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、肯定の特徴を決定して、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
ように構成されている、コンピュータ化されたシステム。
Claims (24)
- 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出する方法であって、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの位置スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成するステップと、
少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定するステップと、
少なくとも1つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも1つの可能性のある一致に当てはまるかどうかを決定するステップと、
少なくとも1つの確率修正プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致の確率を低減するステップと、
少なくとも1つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定するステップと、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
を含む、方法。 - 前記少なくとも1つの属性スコアと、前記少なくとも1つの位置スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、請求項1の方法。 - 前記空間特徴基準を使用して、前記少なくとも1つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、請求項2の方法。
- 前記文脈特徴基準は、前記少なくとも1つのターゲットエントリの近隣にある少なくとも1つの可能性のあるターゲットエントリに関する情報に重みを付ける、請求項2の方法。
- 前記関係特徴基準を使用して、前記少なくとも1つのターゲットエントリが内部で見付かる見込みがある少なくとも1つのエリアを決定する、請求項2の方法。
- 少なくとも1つのプロセッサは、
前記少なくとも1つのランク付け及び/又はマッチングプロセッサ、
前記少なくとも1つの特徴プロセッサ、
前記少なくとも1つの否定特徴プロセッサ、
前記少なくとも1つの確率修正プロセッサ、
前記少なくとも1つの肯定特徴プロセッサ、或いは、
前記少なくとも1つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含む、請求項1の方法。 - サンプル文書から前記少なくとも1組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも1組の文書の中に類似の情報を見付けるステップと、
を更に含む、請求項1の方法。 - 前記少なくとも1つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、請求項1の方法。
- 前記バリデートするステップは、
内部でバリデートするステップ、及び/又は、
外部バリデートするステップ、
を含む、請求項8の方法。 - 前記少なくとも1つの属性スコアと前記少なくとも1つの位置スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れている、請求項1の方法。 - 前記学習した特性は、少なくとも1つの未知の文書及び/又は少なくとも1つの異なる文書のタイプに当てはまる、請求項7の方法。
- 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出する方法であって、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの位置スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成するステップと、
少なくとも1つの肯定特徴プロセッサを使用して、N−グラム統計に基づいて、肯定の特徴を決定するステップと、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
を含む、方法。 - 前記少なくとも1つの属性スコアと、前記少なくとも1つの位置スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、請求項12の方法。 - 前記空間特徴基準を使用して、前記少なくとも1つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、請求項13の方法。
- 前記文脈特徴基準は、前記少なくとも1つのターゲットエントリの近隣にある少なくとも1つの可能性のあるターゲットエントリに関する情報に重みを付ける、請求項13の方法。
- 前記関係特徴基準を使用して、前記少なくとも1つのターゲットエントリが内部で見付かる見込みがある少なくとも1つのエリアを決定する、請求項13の方法。
- 少なくとも1つのプロセッサは、
前記少なくとも1つのランク付け及び/又はマッチングプロセッサ、
前記少なくとも1つの特徴プロセッサ、或いは、
前記少なくとも1つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含む、請求項12の方法。 - サンプル文書から前記少なくとも1組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも1組の文書の中に類似の情報を見付けるステップと、
を更に含む、請求項12の方法。 - 前記少なくとも1つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、請求項12の方法。
- 前記バリデートするステップは、
内部でバリデートするステップ、及び/又は、
外部でバリデートするステップ、
を含む、請求項19の方法。 - 前記少なくとも1つの属性スコアと前記少なくとも1つの位置スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れる、請求項12の方法。 - 前記学習した特性は、少なくとも1つの未知の文書及び/又は少なくとも1つの異なる文書のタイプに当てはまる、請求項18の方法。
- 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出するコンピュータシステムであって、
前記コンピュータシステムは、少なくとも1つのプロセッサを含んでおり、
前記少なくとも1つのプロセッサは、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの位置スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成して、
少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定して、
少なくとも1つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも1つの可能性のある一致に当てはまるかどうかを決定して、
少なくとも1つの確率修正プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致の確率を低減して、
少なくとも1つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定して、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
ように構成されている、コンピュータシステム。 - 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出するコンピュータ化されたシステムであって、
前記コンピュータ化されたシステムは、少なくとも1つのプロセッサを含んでおり、
前記プロセッサは、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの位置スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成して、
少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、肯定の特徴を決定して、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
ように構成されている、コンピュータ化されたシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/570,412 US8321357B2 (en) | 2009-09-30 | 2009-09-30 | Method and system for extraction |
US12/570,412 | 2009-09-30 | ||
PCT/US2010/050087 WO2011041205A2 (en) | 2009-09-30 | 2010-09-24 | A method and system for extraction |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013506915A JP2013506915A (ja) | 2013-02-28 |
JP5710624B2 true JP5710624B2 (ja) | 2015-04-30 |
Family
ID=43781395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012532203A Active JP5710624B2 (ja) | 2009-09-30 | 2010-09-24 | 抽出のための方法及びシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US8321357B2 (ja) |
EP (1) | EP2483815A4 (ja) |
JP (1) | JP5710624B2 (ja) |
AU (3) | AU2010300890A1 (ja) |
CA (1) | CA2774989C (ja) |
WO (1) | WO2011041205A2 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9213756B2 (en) | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
GB2487600A (en) * | 2011-01-31 | 2012-08-01 | Keywordlogic Ltd | System for extracting data from an electronic document |
US9032346B2 (en) * | 2011-05-19 | 2015-05-12 | Globalfoundries Singapore Pte. Ltd. | Method and apparatus for creating and managing waiver descriptions for design verification |
US8983826B2 (en) * | 2011-06-30 | 2015-03-17 | Palo Alto Research Center Incorporated | Method and system for extracting shadow entities from emails |
US9275636B2 (en) * | 2012-05-03 | 2016-03-01 | International Business Machines Corporation | Automatic accuracy estimation for audio transcriptions |
US9430453B1 (en) | 2012-12-19 | 2016-08-30 | Emc Corporation | Multi-page document recognition in document capture |
US10019535B1 (en) * | 2013-08-06 | 2018-07-10 | Intuit Inc. | Template-free extraction of data from documents |
US10445063B2 (en) * | 2013-09-17 | 2019-10-15 | Adobe Inc. | Method and apparatus for classifying and comparing similar documents using base templates |
US9898773B2 (en) | 2014-11-18 | 2018-02-20 | Microsoft Technology Licensing, Llc | Multilingual content based recommendation system |
US10740372B2 (en) * | 2015-04-02 | 2020-08-11 | Canon Information And Imaging Solutions, Inc. | System and method for extracting data from a non-structured document |
WO2017009900A1 (ja) * | 2015-07-10 | 2017-01-19 | 株式会社日立製作所 | 文書処理システム及び文書処理方法 |
US9588966B2 (en) | 2015-07-21 | 2017-03-07 | Facebook, Inc. | Data sorting for language processing such as POS tagging |
JP6775935B2 (ja) | 2015-11-04 | 2020-10-28 | 株式会社東芝 | 文書処理装置、方法、およびプログラム |
JP6602243B2 (ja) * | 2016-03-16 | 2019-11-06 | 株式会社東芝 | 学習装置、方法、及びプログラム |
US10282435B2 (en) * | 2016-08-17 | 2019-05-07 | International Business Machines Corporation | Apparatus, method, and storage medium for automatically correcting errors in electronic publication systems |
US11646114B2 (en) * | 2016-08-26 | 2023-05-09 | Sap Se | Method and system for processing of electronic medical invoices |
JP6622172B2 (ja) | 2016-11-17 | 2019-12-18 | 株式会社東芝 | 情報抽出支援装置、情報抽出支援方法およびプログラム |
US10726501B1 (en) | 2017-04-25 | 2020-07-28 | Intuit Inc. | Method to use transaction, account, and company similarity clusters derived from the historic transaction data to match new transactions to accounts |
US10956986B1 (en) | 2017-09-27 | 2021-03-23 | Intuit Inc. | System and method for automatic assistance of transaction sorting for use with a transaction management service |
US11989774B1 (en) * | 2017-11-20 | 2024-05-21 | Wells Fargo Bank, N.A. | Systems and methods for providing digital trusted data |
CN110163460B (zh) * | 2018-03-30 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种确定应用分值的方法及设备 |
US10832049B2 (en) | 2018-05-31 | 2020-11-10 | Intematlonal Business Machlnes Corporation | Electronic document classification system optimized for combining a plurality of contemporaneously scanned documents |
US10735615B1 (en) | 2019-03-15 | 2020-08-04 | Ricoh Company, Ltd. | Approach for cloud EMR communication via a content parsing engine |
US11269812B2 (en) * | 2019-05-10 | 2022-03-08 | International Business Machines Corporation | Derived relationship for collaboration documents |
US11861523B2 (en) | 2019-09-30 | 2024-01-02 | Ricoh Company, Ltd. | Approach for cloud EMR communication via a content parsing engine and a storage service |
US10956106B1 (en) * | 2019-10-30 | 2021-03-23 | Xerox Corporation | Methods and systems enabling a user to customize content for printing |
US11210507B2 (en) | 2019-12-11 | 2021-12-28 | Optum Technology, Inc. | Automated systems and methods for identifying fields and regions of interest within a document image |
US11227153B2 (en) | 2019-12-11 | 2022-01-18 | Optum Technology, Inc. | Automated systems and methods for identifying fields and regions of interest within a document image |
Family Cites Families (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731861A (en) | 1983-08-26 | 1988-03-15 | Texas Instruments Incorporated | Method of optical character recognition |
JPS61204733A (ja) | 1985-03-07 | 1986-09-10 | Oki Electric Ind Co Ltd | 視野管理システム |
JPS61217863A (ja) | 1985-03-23 | 1986-09-27 | Brother Ind Ltd | 電子辞書 |
EP0321493A4 (en) | 1986-08-22 | 1991-11-21 | Commonwealth Scientific And Industrial Research Organisation | A content-addressable memory system |
US4864501A (en) | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
CA1338601C (en) | 1987-10-09 | 1996-09-17 | Douglas Wyche Caldwell | Relational database representation with relational database operation capability |
JPH022459A (ja) | 1987-12-11 | 1990-01-08 | Hewlett Packard Co <Hp> | 問合わせ処理方法 |
US5201047A (en) | 1989-12-21 | 1993-04-06 | International Business Machines Corporation | Attribute-based classification and retrieval system |
US5191525A (en) | 1990-01-16 | 1993-03-02 | Digital Image Systems, Corporation | System and method for extraction of data from documents for subsequent processing |
US5344132A (en) | 1990-01-16 | 1994-09-06 | Digital Image Systems | Image based document processing and information management system and apparatus |
FR2660085A1 (fr) | 1990-03-20 | 1991-09-27 | Philips Electronique Lab | Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire. |
JP3329806B2 (ja) | 1990-11-09 | 2002-09-30 | 株式会社日立製作所 | ニューラルネット構築装置 |
US5245672A (en) | 1992-03-09 | 1993-09-14 | The United States Of America As Represented By The Secretary Of Commerce | Object/anti-object neural network segmentation |
US5377348A (en) | 1992-06-04 | 1994-12-27 | International Business Machines Corporation | System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection |
US5491758A (en) | 1993-01-27 | 1996-02-13 | International Business Machines Corporation | Automatic handwriting recognition using both static and dynamic parameters |
US5649068A (en) | 1993-07-27 | 1997-07-15 | Lucent Technologies Inc. | Pattern recognition system using support vectors |
US5619709A (en) | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
US5537491A (en) | 1993-11-24 | 1996-07-16 | Xerox Corporation | Analyzing an image or other data to obtain a stable number of groups |
US5742806A (en) | 1994-01-31 | 1998-04-21 | Sun Microsystems, Inc. | Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system |
NZ248751A (en) | 1994-03-23 | 1997-11-24 | Ryan John Kevin | Text analysis and coding |
US5671333A (en) | 1994-04-07 | 1997-09-23 | Lucent Technologies Inc. | Training apparatus and method |
US5956419A (en) | 1995-04-28 | 1999-09-21 | Xerox Corporation | Unsupervised training of character templates using unsegmented samples |
US5689620A (en) | 1995-04-28 | 1997-11-18 | Xerox Corporation | Automatic training of character templates using a transcription and a two-dimensional image source model |
US5675710A (en) | 1995-06-07 | 1997-10-07 | Lucent Technologies, Inc. | Method and apparatus for training a text classifier |
JPH096799A (ja) | 1995-06-19 | 1997-01-10 | Sharp Corp | 文書分類装置及び文書検索装置 |
EP0856175A4 (en) | 1995-08-16 | 2000-05-24 | Univ Syracuse | SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON |
US5889886A (en) | 1995-11-28 | 1999-03-30 | Xerox Corporation | Method and apparatus for detecting running text in an image |
US6076088A (en) | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US5864855A (en) | 1996-02-26 | 1999-01-26 | The United States Of America As Represented By The Secretary Of The Army | Parallel document clustering process |
US5787201A (en) | 1996-04-09 | 1998-07-28 | The United States Of America As Represented By The Secretary Of The Navy | High order fractal feature extraction for classification of objects in images |
US5937084A (en) * | 1996-05-22 | 1999-08-10 | Ncr Corporation | Knowledge-based document analysis system |
US6101515A (en) | 1996-05-31 | 2000-08-08 | Oracle Corporation | Learning system for classification of terminology |
US5778362A (en) | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
DE19627472A1 (de) | 1996-07-08 | 1998-01-15 | Ser Systeme Ag | Datenbanksystem |
US5918223A (en) | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
AU4495597A (en) | 1996-09-23 | 1998-04-14 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
DE19642622A1 (de) * | 1996-10-16 | 1998-04-23 | Wella Ag | Haarbehandlungsmittel mit langanhaltenden Festigungseigenschaften |
US6275610B1 (en) | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
US6327387B1 (en) | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
DE19715723A1 (de) | 1997-04-15 | 1998-11-12 | Dci Datenbank Fuer Wirtschafts | Array-Verfahren |
US6353840B2 (en) | 1997-08-15 | 2002-03-05 | Ricoh Company, Ltd. | User-defined search template for extracting information from documents |
JPH11184894A (ja) | 1997-10-07 | 1999-07-09 | Ricoh Co Ltd | 論理要素抽出方法および記録媒体 |
US6665841B1 (en) | 1997-11-14 | 2003-12-16 | Xerox Corporation | Transmission of subsets of layout objects at different resolutions |
US6115708A (en) | 1998-03-04 | 2000-09-05 | Microsoft Corporation | Method for refining the initial conditions for clustering with applications to small and large database clustering |
US6161130A (en) | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US6192360B1 (en) | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US6243713B1 (en) | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
US6324551B1 (en) | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
US6212532B1 (en) | 1998-10-22 | 2001-04-03 | International Business Machines Corporation | Text categorization toolkit |
US6189002B1 (en) | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
US6622134B1 (en) | 1999-01-05 | 2003-09-16 | International Business Machines Corporation | Method of constructing data classifiers and classifiers constructed according to the method |
CN1371504A (zh) | 1999-01-13 | 2002-09-25 | 电脑相关想象公司 | 签名识别系统和方法 |
US6477551B1 (en) | 1999-02-16 | 2002-11-05 | International Business Machines Corporation | Interactive electronic messaging system |
EP1049030A1 (en) | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
EP1224569A4 (en) * | 1999-05-28 | 2005-08-10 | Sehda Inc | PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE |
US6501855B1 (en) | 1999-07-20 | 2002-12-31 | Parascript, Llc | Manual-search restriction on documents not having an ASCII index |
US6188010B1 (en) | 1999-10-29 | 2001-02-13 | Sony Corporation | Music search by melody input |
DE19952769B4 (de) | 1999-11-02 | 2008-07-17 | Sap Ag | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache |
EP1128278B1 (en) | 2000-02-23 | 2003-09-17 | SER Solutions, Inc | Method and apparatus for processing electronic documents |
US7149347B1 (en) | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
US7305399B2 (en) | 2000-03-09 | 2007-12-04 | The Web Access, Inc. | Method and apparatus for applying a parametric search methodology to a directory tree database format |
US6741724B1 (en) | 2000-03-24 | 2004-05-25 | Siemens Dematic Postal Automation, L.P. | Method and system for form processing |
US20070033252A1 (en) | 2000-03-30 | 2007-02-08 | Combest Ricky F | Dynamic virtual network and method |
JP2001318948A (ja) | 2000-05-09 | 2001-11-16 | Hitachi Ltd | 文書検索方法及び装置並びにその処理プログラムを記憶した媒体 |
US7028250B2 (en) | 2000-05-25 | 2006-04-11 | Kanisa, Inc. | System and method for automatically classifying text |
US6895552B1 (en) | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
US6944340B1 (en) | 2000-08-07 | 2005-09-13 | Canon Kabushiki Kaisha | Method and apparatus for efficient determination of recognition parameters |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
US6766316B2 (en) | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US20020156816A1 (en) | 2001-02-13 | 2002-10-24 | Mark Kantrowitz | Method and apparatus for learning from user self-corrections, revisions and modifications |
US6732090B2 (en) | 2001-08-13 | 2004-05-04 | Xerox Corporation | Meta-document management system with user definable personalities |
DK1288792T3 (da) | 2001-08-27 | 2012-04-02 | Bdgb Entpr Software Sarl | Fremgangsmåde til automatisk indeksering af dokumenter |
PT1315096E (pt) | 2001-11-21 | 2012-10-09 | Werner Voegeli | Método e dispositivo para pesquisar informação relevante |
JP4006239B2 (ja) | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | 文書の検索方法および検索システム |
JP4366108B2 (ja) | 2003-04-30 | 2009-11-18 | キヤノン株式会社 | 文書検索装置、文書検索方法及びコンピュータプログラム |
JP2005043977A (ja) | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
US7805446B2 (en) | 2004-10-12 | 2010-09-28 | Ut-Battelle Llc | Agent-based method for distributed clustering of textual information |
US8570586B2 (en) | 2005-05-02 | 2013-10-29 | Digimarc Corporation | Active images through digital watermarking |
US7472121B2 (en) | 2005-12-15 | 2008-12-30 | International Business Machines Corporation | Document comparison using multiple similarity measures |
US8090743B2 (en) | 2006-04-13 | 2012-01-03 | Lg Electronics Inc. | Document management system and method |
WO2007149004A1 (en) | 2006-06-13 | 2007-12-27 | Freescale Semiconductor, Inc. | Methods and apparatus for simulating distributed effects |
US7610281B2 (en) | 2006-11-29 | 2009-10-27 | Oracle International Corp. | Efficient computation of document similarity |
US7720721B1 (en) | 2006-12-28 | 2010-05-18 | Amazon Technologies, Inc. | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms |
US8280877B2 (en) | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
US20080212877A1 (en) | 2007-03-04 | 2008-09-04 | John Franco | High speed error detection and correction for character recognition |
JP4775306B2 (ja) * | 2007-04-23 | 2011-09-21 | ソニー株式会社 | 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム |
US20090228777A1 (en) | 2007-08-17 | 2009-09-10 | Accupatent, Inc. | System and Method for Search |
US20090125529A1 (en) * | 2007-11-12 | 2009-05-14 | Vydiswaran V G Vinod | Extracting information based on document structure and characteristics of attributes |
US20090198677A1 (en) | 2008-02-05 | 2009-08-06 | Nuix Pty.Ltd. | Document Comparison Method And Apparatus |
JP4538507B2 (ja) | 2008-05-02 | 2010-09-08 | シャープ株式会社 | 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体 |
-
2009
- 2009-09-30 US US12/570,412 patent/US8321357B2/en active Active
-
2010
- 2010-09-24 CA CA2774989A patent/CA2774989C/en active Active
- 2010-09-24 WO PCT/US2010/050087 patent/WO2011041205A2/en active Application Filing
- 2010-09-24 JP JP2012532203A patent/JP5710624B2/ja active Active
- 2010-09-24 AU AU2010300890A patent/AU2010300890A1/en not_active Abandoned
- 2010-09-24 EP EP10821057.6A patent/EP2483815A4/en not_active Withdrawn
-
2016
- 2016-07-13 AU AU2016204913A patent/AU2016204913A1/en not_active Abandoned
-
2018
- 2018-01-17 AU AU2018200396A patent/AU2018200396B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP2483815A2 (en) | 2012-08-08 |
CA2774989C (en) | 2018-06-19 |
AU2018200396A1 (en) | 2018-02-08 |
AU2010300890A1 (en) | 2012-04-12 |
US20110078098A1 (en) | 2011-03-31 |
JP2013506915A (ja) | 2013-02-28 |
EP2483815A4 (en) | 2018-01-24 |
CA2774989A1 (en) | 2011-04-07 |
AU2016204913A1 (en) | 2016-08-04 |
WO2011041205A2 (en) | 2011-04-07 |
AU2018200396B2 (en) | 2019-11-21 |
US8321357B2 (en) | 2012-11-27 |
WO2011041205A3 (en) | 2011-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5710624B2 (ja) | 抽出のための方法及びシステム | |
US20160041987A1 (en) | Method and system for extraction | |
Van Strien et al. | Assessing the impact of OCR quality on downstream NLP tasks | |
Drobac et al. | Optical character recognition with neural networks and post-correction with finite state methods | |
CN113762028B (zh) | 从文本文档进行数据驱动的结构提取 | |
Mao et al. | Document structure analysis algorithms: a literature survey | |
EP2015228B1 (en) | Retrieving electronic documents by converting them to synthetic text | |
Evershed et al. | Correcting noisy OCR: Context beats confusion | |
CA2777930C (en) | System and method for increasing the accuracy of optical character recognition (ocr) | |
US9158833B2 (en) | System and method for obtaining document information | |
Ud Din et al. | Segmentation-free optical character recognition for printed Urdu text | |
US20150310269A1 (en) | System and Method of Using Dynamic Variance Networks | |
KR20200013130A (ko) | 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지의 도면 부호에 대응되는 도면 부호의 설명 데이터 처리 방법 및 장치 | |
Lund et al. | How well does multiple OCR error correction generalize? | |
JP2003524258A (ja) | 電子ドキュメントを処理する方法および装置 | |
Tkaczyk | New methods for metadata extraction from scientific literature | |
Romero et al. | Modern vs diplomatic transcripts for historical handwritten text recognition | |
Chaudhuri et al. | An approach for recognition and interpretation of mathematical expressions in printed document | |
Aliwy et al. | Corpus-based technique for improving Arabic OCR system | |
Soheili et al. | Sub-word image clustering in Farsi printed books | |
US20240143632A1 (en) | Extracting information from documents using automatic markup based on historical data | |
CN112949287B (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Soheili et al. | Clustering of Farsi sub-word images for whole-book recognition | |
Gope | A Study on Knowledge Extraction from Official Bangla Documents | |
KR20220142901A (ko) | 반정형 문서로부터 정보를 추출하는 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130924 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140715 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20141014 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20141021 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5710624 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |