JP5710624B2 - 抽出のための方法及びシステム - Google Patents

抽出のための方法及びシステム Download PDF

Info

Publication number
JP5710624B2
JP5710624B2 JP2012532203A JP2012532203A JP5710624B2 JP 5710624 B2 JP5710624 B2 JP 5710624B2 JP 2012532203 A JP2012532203 A JP 2012532203A JP 2012532203 A JP2012532203 A JP 2012532203A JP 5710624 B2 JP5710624 B2 JP 5710624B2
Authority
JP
Japan
Prior art keywords
feature
processor
document
information
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012532203A
Other languages
English (en)
Other versions
JP2013506915A (ja
Inventor
ラピア、ゲンナディ
シャット、ハリー
マイアー、ラルフ
バンシュラ、トルステン
ハオスマン、ヨハンネス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BDGB Enterprise Software SARL
Original Assignee
BDGB Enterprise Software SARL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BDGB Enterprise Software SARL filed Critical BDGB Enterprise Software SARL
Publication of JP2013506915A publication Critical patent/JP2013506915A/ja
Application granted granted Critical
Publication of JP5710624B2 publication Critical patent/JP5710624B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連出願の相互参照
本出願は、2009年9月30日に出願された米国特許出願第12/570,412号の出願日の利益に基づいており、これを得ている。米国特許出願第12/570,412号の全内容は、参照によって全体的にここに組み込まれている。
1つの実施形態に従って、抽出システムを示している。 1つの実施形態に従って、抽出モジュールの詳細を示している。 1つの実施形態に従って、抽出器及び内部整合性チェッカ210の抽出器部分の詳細を示している。 1つの実施形態に従って、ターゲットコーデックモジュールの詳細を示している。 1つの実施形態に従って、抽出器学習モジュールの詳細を示している。 1つの実施形態に従って、抽出器実行モジュールの詳細を示している。 1つの実施形態に従って、抽出モジュールの方法を示している。 1つの実施形態に従って、1つの特定のフィールドに対する幾つかの候補のスコアの二次元投影を示している。 1つの実施形態に従って、フィールド「日付」の周辺の単語(又は、他のテキストパーティクル)のN−グラム/単語/肯定又は否定の例示的な統計の空間サンプリングの一例の文書に対する展開と分解とを示している。
図1は、1つの実施形態に従って、抽出システム100を示している。1つの実施形態では、抽出システム100は、自動自己適応学習型の文書処理を容易にする。1つの実施形態では、抽出システム100は、例で学習して(例えば、インボイスであることが分かっているたくさんの文書から、インボイスの特性を学習して)、次に、文脈に関係付けられた(例えば、比較、統計スコアリング方法、ファジー特徴に基づく)文書からの情報と、ある特定のフィールドに対する文脈関係とを使用して、他の文書において類似の情報を見付ける。抽出システム100は、例えば、データを抽出して、文書を分類して、他のタスクに役立つ文書に関する知識を生成することができる。他のタスクは、例えば、ページの分割、文書の合成、シートの回復、フォームの認識、フォームの一般化、文書の破損の認識と修復、光学文字認識(optical character recognition, OCR)のエラー訂正、又はこれらの任意の組み合わせであるが、これらに制限されない。抽出システム100は、文書を使って作業することができる。文書は、例えば、インボイス、送金額の明細書、貨物引換証、小切手、投票用紙、申し込み用紙、ダイヤグラム、印刷された表情報、又は証明書、或いはこれらの任意の組み合わせであるが、これらに制限されない。(特定のターゲットフィールドの形で)情報を抽出する必要がある場合に、抽出システム100は、(少なくとも幾らかのテキスト部分を含んでいる)任意の少なくとも不十分に構造化された文書を処理することができる。文書は、1頁又は複数の頁であり得る。更に、文書は、英語又は他の言語、或いは言語の組み合わせであり得る。抽出システム100は、1つの言語又は複数の言語を一度に処理することもできる。
1つの実施形態では、抽出システム100は、ハードウェアとソフトウェアの要素をつなぐ通信ネットワーク101を具備することができる。ハードウェアは、出力ユニット105と、ディスプレイユニット110と、中央処理ユニット(centralized processing unit, CPU)115と、ハードディスクユニット120と、メモリユニット125と、入力ユニット130と、通信ユニット135と、スキャナ140とを具備することができる。出力ユニット105は、抽出処理の結果を、例えば、スクリーン、プリンタ、ディスク、コンピュータ、及び/又はアプリケーションに送ることができる。ディスプレイユニット110は、情報を表示することができる。CPU115は、ハードウェア及び/又はソフトウェアのコンポーネントからの命令を解釈して、実行することができる。ハードディスクユニット120は、ハードディスク又は同様の記憶デバイスから情報(例えば、文書、データ)を受信することができる。メモリユニット125は、情報を記憶することができる。入力ユニット130(例えば、キーボード、マウス、人間又は人間以外の他の入力デバイス)は、スクリーン、スキャナ、ディスク、コンピュータ、及び/又はアプリケーションから、処理するための情報を受信することができる。通信ユニット135は、他のコンピュータと通信することができる。スキャナ140は、紙から文書画像を得ることができる。
ソフトウェアは、1つ以上のデータベース145と、抽出モジュール150と、画像処理モジュール155と、OCRモジュール160と、文書入力モジュール165と、文書変換モジュール170と、テキスト処理統計分析モジュール175と、文書/出力後処理モジュール180と、システム管理モジュール185とを具備することができる。データベース145は、情報、例えばトレーニングセットに関する情報を記憶することができる。画像処理モジュール155は、画像を処理できるソフトウェアを含むことができる。OCRモジュール160は、スキャナによってスキャンされた画像のテキスト表現を生成できるソフトウェアを含む。文書入力モジュール165は、(例えば、抽出システム100又は他の場所で前処理された)前処理済みの文書を使って作業して情報(例えば、トレーニングセット)を取得できるソフトウェアを含むことができる。文書表現(例えば、画像及び/又はOCRテキスト)は、抽出モジュール150に送ることができる。文書変換モジュール170は、1つの形式から別の形式に(例えば、ワードからPDFに)文書を変換できるソフトウェアを含むことができる。テキスト処理統計分析モジュール175は、生成されたテキストを統計分析してテキスト情報を前処理できるソフトウェアを含むことができる。例えば、単語の頻度、等のような情報を提供することができる。文書/出力後処理モジュール180は、結果の文書を特定の形式(例えば、ユーザによって要求されたフォーマット)で作成できるソフトウェアを含むことができる。更に、文書/出力後処理モジュール180は、更なるフォーマッティングと処理とのために、結果の情報を第三者又は内部のアプリケーションに送ることができる。システム管理モジュール185は、管理者がソフトウェアとハードウェアとを操作できるようにするソフトウェアを含むことができる。1つの実施形態では、個々のモジュールは、(特定の入力インターフェースを介して)接続できるソフトウェアモジュールとして実施され、その出力は、更なる処理のために望ましいモジュールに転送され得る。記載されている全てのモジュールは、記載されている情報処理インフラストラクチャ内の、1つ又は多数のCPU、仮想マシン、メインフレーム、或いはシェルにおいて実行できる。
抽出モジュール150は、コーディングと、学習と、抽出と、バリデーション(validation、妥当性確認)とを行なうことができるソフトウェア(図2−8に関連して更に説明される)を含む。抽出モジュール150によって生成された追加の情報は、データベース145又は外部の入力(例えば、入力ユニット130と、通信ユニット135と、通信ネットワーク101と、ハードディスクユニット120と、管理モジュール185)に送ることができる。後処理モジュール180を使用して又は使用せずに、様々なコンポーネント(例えば、出力ユニット105、ディスプレイユニット110、ハードディスクユニット120、メモリユニット125、通信ユニット135、通信ネットワーク101、変換モジュール170、データベース145、OCRモジュール160、スキャナ140、統計分析モジュール175)における入力パラメータとして、抽出モジュール150の出力の一部又は出力を記憶、提示、又は使用することができる。このようなフィードバックシステムが、インタラクティブに精度を高めることを可能にしている。
図2は、1つの実施形態に従って、抽出モジュール150の詳細を示している。抽出モジュール150は、全てのタイプの入力を扱う入力ユニット205を具備することができる。このような入力は、インボイス、送金額の明細書、貨物引換証、小切手、投票用紙、申し込み用紙、ダイヤグラム、印刷された表情報、又は証明書、或いはこれらの任意の組み合わせを含むが、これらに制限されない。文書は、色々なファイル形式と、色々な文書のインスタンス(例えば、画像とテキストの情報)とを含むことができる。入力ユニット205は、他の入力生成ユニット(入力ユニット130と、スキャナ140と、OCRモジュール160と、文書変換モジュール170と、データベース145と、文書入力モジュール165)によって提供されたデータへの接続器として使用され得る。抽出モジュール150は、抽出器及び内部整合性チェッカ210を更に含むことができる。抽出器及び内部整合性チェッカ210は、入力から情報を抽出して、抽出された情報をチェックして、それが正確であるかどうかを決定することができる。このようなチェックは、ビジネスルールのバリデーション、税率と規定された税金とが合計に一致しているかどうかを調べるためにこれらを比較すること、インボイス番号のチェックサム、又はデータベースに記憶されている学習セットとの相互参照、或いはこれらの任意の組み合わせであるが、これらに制限されない。1つの実施形態では、抽出器は、内部整合性チェッカと別々であり得ることに留意すべきである。抽出器及び内部整合性チェッカ210は、外部バリデータ215と情報を交換してもよい。外部バリデータ215は、システム内の(検索され、更に、抽出又は生成された)情報にオーバーライドして、修正して、承認することができる。外部バリデータ215は、他の源からの情報(例えば、ソフトウェア、記憶されている情報)又は人間の決定であり得る。抽出器及び内部整合性チェッカ210と、外部バリデータ215とを、記憶ユニット225(例えば、メモリ、ファイル、データベース)に接続することができる。記憶ユニット225は、抽出器及び内部整合性チェッカ210と外部バリデータ215とが見付けた情報の全てを記憶することができる。外部バリデータ215からの情報は、文書のテキスト表現内のOCRのエラーの修正、文書画像の手動回転、処理文書の言語の変更、又はシステム内で使用されている任意のパラメータの適合、或いはこれらの任意の組み合わせを含むが、これらに制限されない。
抽出モジュール150のうちの幾つか又は全ての要素は、管理ユニット230によって操作され得る。全てのモジュールが、自身の管理モジュールを有し得ることに留意すべきである。これらの自身の管理モジュールは、管理モジュール185と呼ぶことができる。更に、管理モジュール185は、図1の抽出システム100において概説したハードウェアとソフトウェアのネットワーク内の接続とインフラストラクチャとを操作できる。出力は、出力プリプロセッサ220によって前処理されて、出力ユニット250に送られ得る。出力の前処理と、出力と、記憶と、管理とにより、抽出モジュール150は、その環境とインタラクトすることができ、文書分析の内部状態を記憶及び/又は検索することができる。内部状態は、文書に関する様々な情報を含むことができる。様々な情報は、例えば、学習した情報;抽出された統計;集められたキーワード(例えば、送金額の明細書における「check amount(勘定金額)」、貨物引換証における「ship to(出荷先)」の住所、インボイスにおける「invoice number(インボイス番号)」、契約書における「author(作成者)」、販売注文における「part number(品番)」、医療請求又は給付金支払明細書における「patient name(患者名)」、等のような、近隣フィールド値に関する情報を含んでいる文書における、キャラクタ(character)、文字(letter)、記号、語句、数字、或いは、これらの寄せ集め又はストリング)、N−グラムの特徴(即ち、ターゲットフィールドの周辺のテキスト形式のもののN−グラムに関係付けられた情報。N−グラムについては、より詳しく後述する);画像のパーティクル(更なる説明については、図3におけるターゲットコーデックモジュール310を参照);パラメータ;又はデータセット(例えば、1つ又は多数の入力文書と、肯定又は否定の例としてインポートされた文書の組と、辞書と、そこから引き出されるものとを含む。これは、N−グラムの特徴に関係付けられた統計を含むことができる);或いはその任意の組み合わせであるが、これらに制限されない。
N−グラムは、アイテムのサブシーケンスである。N−グラムは、ターゲットフィールドの周辺のテキストのアイテムに関する情報を提供することができる。このアイテムは、用途に従って、音素、音節、文字、単語、語幹の対、等であり得る。N−グラムモデルは、統計に基づく自然言語の処理において使用され得る。一連の単語(例えば、the cat smelled like)の場合は、トリグラム(即ち、3グラム)は、「# the cat」と、「the cat smelled」と、「cat smelled like」とである。一連のキャラクタ(例えば、smelled)の場合は、トリグラムは、smeと、melと、ellと、lleと、ledとである。前処理をすることによって、N−グラムから、スペース、句読点、等を減らす又は取り除くことができることに留意すべきである。N−グラムのタイプのオプションは、連続するN−グラムのパーティクル間の相対的な変化をコード化するデルタグラムを含む。更に、色々なタイプの前処理を選択することができる。色々なタイプの前処理は、前処理なし、「単語の併合」(例えば、OCRで分割されたテキストのフラグメントを修正して、それらを併合すること)、他のOCRエラーキャラクタの交換(例えば、混同行列に基づいて、「0」から「O」又は「I」から「1」への変換)、重要でないキャラクタの削除、或いは小文字又は大文字への変換、若しくはこれらの組み合わせを含むが、これらに制限されない。
図3は、1つの実施形態に従って、抽出器及び内部整合性チェッカ210の抽出器部分の詳細を示している。入力ユニット305は、ターゲットコーデックモジュール310へ入力(例えば、文書)を受け取る。ターゲットコーデックモジュール310は、ターゲット(即ち、特徴)コーデック(即ち、コーダ/デコーダ)の1乃至Nのインスタンスを使用して、文書中のターゲットに関係する内容と、文脈と、位置と、他の表現とに関する情報を抽出することができる。この抽出情報は、N−グラムの特徴に関係する統計、ターゲット(例えば、顧客のアドレスに対してある位置を有するロゴ)をアンカーすることができるグラフィックの特徴、又は、内容に対するバリデーションルール(例えば、特定のフォーマットを有し、自身のチェックサムを含む数)、或いはその任意の組み合わせを含むことができるが、これらに制限されない。
入力ユニット305は、他の入力からの全ての文書フォーマットを収集して、それらをターゲットコーデックモジュール310に適合させることができる。ターゲットコーデックモジュール310は、図4と、図4に付随する記載とに、より詳しく説明されている。文書コーデックモジュール311は、完全な文書(多数の頁から構成され、グラフィックとテキストの情報の組み合わせのような色々な外観を有し得る)の表現(例えば、1又は多数の特徴の組)を含み、一方で、ターゲットコーデックモジュール310は、文書の一部(頁、章、段落、行、単語、等であり得る)を処理することができる。
抽出器学習モジュール315は、システムをトレーニングすることができる。抽出器学習モジュール315は、ターゲットが抽出されるべき文書とその文書に関する情報とを提供され得る。このような学習セットは、処理される色々な文書のタイプの見本から構成され、少数の文書又は何百もの文書を含むことができる。例えば、インボイスにおけるフィールド「total amount(合計金額)」を抽出ターゲットとして希望している場合に、その文書におけるそのフィールドの位置と値とを抽出器学習モジュール315に提供して、抽出器学習モジュール315は、そのフィールドに通常関連付けられている所定の例の特徴から、ランク付けして一般化する。例えば、インボイスからの「total amount(合計金額)」は、単語「total(合計)」と「gross(総計)」のN−グラムの特徴のような特徴を見付けることによって、或いは一般的な日付の書式(例えば、12 Jan 2005)とロゴからの相対的な位置を使用することによる日付の抽出によって、場所を特定できる。次に、これらの相関関係の統計を処理して、学習処理の一部として記憶する。抽出器学習モジュール315は、図5と、図5に付随する記載とに、より詳しく説明されている。
トレーニング後に、抽出器実行モジュール320は、システムを実行することができる。次に、(抽出器学習モジュール315によって取得されて、処理されて、記憶された)学習した情報を検索して、それを使用して、新たな文書におけるターゲットの場所を特定できる。抽出器実行モデル320は、図6と、図6に付随する記載とに、より詳しく説明されている。入力ユニット305と、記憶部325と、管理部330と、出力ユニット335は、図2に記載されている機能と同様の機能を行なう。記憶ユニット325は、それが属しているモジュール、即ち、抽出器及び内部整合性チェッカ210に関係する情報のみを記憶できる。これは、図の中の他の記憶ユニットにも当てはまる。記憶ユニットを実現したものは、物理的に異なる場合もあり、異なる(保護された)論理ユニットの中に含まれていることもある。出力ユニット335は、その出力を処理できる全てのモジュールと、更に、可能性のある出力を全て送ることができる出力ユニット105とに、出力を送ることができる。出力ユニット105は、全ての処理をモニタ(例えば、追跡、監視)できる。
図4は、1つの実施形態に従って、ターゲットコーデックモジュール310の詳細を示している。文書は、入力ユニット405に入力され得る。入力ユニット405は、ターゲットコーデックモジュール310に適した入力のみを許可でき、この観点において、入力ユニット405は、入力ユニット130、205、305と異なり得る。入力される文書の情報は、テキストの特徴410、幾何学的特徴415、又はグラフィックの特徴420、或いはこれらの任意の組み合わせを含み得るが、これらに制限されない。テキストの特徴410は、単語の特徴425(例えば、「date(日付)」)、N−グラムの特徴430(例えば、単語Brain(脳)に対するトリグラムの場合は、BRA RAI AIN)、語句の特徴435(例えば、「Invoice date(インボイスの日付)」)、タイプの特徴440、又は複合特徴445であり得る。タイプの特徴440は、フォーマットのタイプと内容のタイプとを含むことができる。フォーマットのタイプは、正規表現と同等の表示を含み得るが、これに制限されない。正規表現と同等の表示は、例えば、Nが数字(Number)を表わし、Aが英数字キャラクタ(alphanumerical character)の特徴を表わす場合に、NN−NNAAAである。例えば、インボイス番号08−04A6Kは、年(08)と、月(04)と、個々のインボイスを識別する英数字部分とをコード化できる。内容のタイプは、国際銀行の口座番号(International Bank Account Number, IBAN)システムに適用するチェックルール又は構成を含み得るが、これに制限されない。例えば、DE90123456780023434566は、銀行のID番号12345678と、口座番号2343566とを有するドイツ銀行の口座を表わすことができる。IBANのコード化は、チェックサム及びバリデーションルールと、特定のフォーマットとを含むことができる。更に、複合特徴445を構築することができる。例えば、 D, DA,DAT,ATE...とNN/NN/200Nのような、N−グラムのリストとフォーマットのタイプとの組み合わせを構築することができる。1つの実施形態では、Nの位置に妥当な数字(例えば、月(month)の位置の1桁目に対して、0又は1)のみを許可するように、Nを制約することができる。
幾何学的特徴415は、絶対座標450、相対座標455、又は複合特徴460、或いはこれらの任意の組み合わせを含むことができる。絶対座標450は、特定の文書のパーティクル(即ち、ターゲットの位置に対する、1つ又は多数の特徴又は特徴の組み合わせの任意のクラスタ)に配置された座標であり得る。例えば、語句「Invoice Number(インボイス番号)」は、invoice number(インボイス番号)のフィールドのための、その頁の左上の隅から下に5インチ及び右に0.2インチを示している。N−グラム、等においても語句をコード化できるのは当然である。相対座標455は、他のパーティクル又は他の特徴を基準とする座標であり得る。例えば、ターゲットは、語句「Tax Idenitification Number(納税者識別番号)」のテキスト特徴表現の後の左に0.2インチ及び下に2インチを示し得る。
複合特徴460は、絶対座標450と相対座標455との組み合わせであり得る。例えば、階層座標(即ち、相対座標455)とデカルト積空間(即ち、絶対座標450)とを使用することができる。階層座標は、フィールド間の空間関係を反映する位置ベクトルの階層の集合であり得る。例えば、インボイスの場合に、total amount(合計金額)のフィールドは、「bill to(請求書送付先)」のアドレスフィールドと異なり、tax(税)、freight(運送料)、subtotal(小計)のフィールドに、比較的に近いかもしれない。このような階層は、特有のものであって、複数のオプションを含むことができる。座標は、絶対座標及び/又は相対座標で表わすことができる。デカルト積空間は、文書上のターゲットの場所を2つの数値座標によって特定できる。より容易に分類/学習するために、より高次元の特徴空間も構築できる。デカルト積(又は、積集合)は、直積集合である。集合X(例えば、x軸上の複数の点)とY(例えば、y軸上の複数の点)とのデカルト積(例えば、x−y面の全体である)は、可能性のある順序対の全ての集合であり、その第1の成分はXのメンバであり、その第2の成分はYのメンバである。2つの有限集合のデカルト積は、テーブルによって表わすことができ、行としての一方の集合と、列としての他方と集合とを有し、行と列とから集合の要素を選択することによって、順序対(例えば、テーブルのセル)を形成することができる。任意(恐らくは、無限)の集合の族のデカルト積を定義することが可能である。
グラフィックの特徴420は、色チャネル及び/又は画素461、画像変換465、或いは複合特徴470、若しくはこれらの任意の組み合わせを含むことができる。色チャネル及び/又は画素461は、ある特定の色、例えば、全ての色濃度における、赤と、緑と、青と、全ての混合とを含むことができる(しかしながら、これらに制限されない)。例えば、「amount due(支払額)」が赤で印刷されている場合に、この色情報を使用して、「amount due(合計金額)」のターゲットを検索することができる。画像変換465は、デスキュー(de-skew)と、フーリエ変換(Fourier-Transformation, FT)と、ウェーブレットとを含むことができる。スキャナにおける文書の位置合わせが悪いことが原因で、抽出された座標がずれていた場合に、画像をデスキューして、修正することができる。更に、フーリエ変換とウェーブレットとを使用して、低品質のスキャン又は印刷におけるノイズ(例えば、高周波)のバックグラウンドをフィルタにかけて取り除くか、ピクチャ又はウォーターマーク、等をフィルタにかけて取り除くか、或いは文書における反復構造(例えば、準結晶構造を備えた高度に構造化されたテーブル)をコード化することができる。複合特徴470は、画素のクラスタ及び/又は周波数帯を含むことができる。画素クラスタ(例えば、輪郭のはっきししたロゴ)の後に始める画像変換(例えば、ウォーターマーク)に関する情報を、このやり方でコード化することができる。
特徴変換ユニット475は、1つの特徴表現を別の特徴表現に変更することができる。1つの実施形態では、語句又は単語の特徴に基づいて、N−グラムを計算することができ、逆もまた同じである。例えば、単語「brain(脳)」をバイグラム( b,br,ra,ai,in,n )としてコード化することができ、この場合に、これらのバイグラムが現れる順序をそのバイグラムと共に記憶すると、それを一緒に再び結合して、「brain(脳)」を完全に綴ることができる。別の例として、語句の特徴(例えば、「Invoice Number(インボイス番号)」)を使用する場合に、これを2つの単語の特徴(例えば「Invoice(インボイス)」と「Number(番号)」)に分割して、次に、再び組み合わせることができる。特徴複合ユニット480を使用して、異なる特徴の組(例えば、幾何学的特徴と組み合わされたテキストの特徴)を含んでいるパッケージを構築することができる。例えば、幾何学的特徴の座標625×871において、テキストの特徴「date(日付)」が見付かることが示され得る。
出力ユニット485は、ターゲットコーデックモジュール310の出力を受け取って、その情報を、抽出システム100の別の要素に渡すことができる。例えば、語句と座標とのコード化されたパッケージを抽出器学習モジュール315に転送でき、抽出器学習モジュール315において、これと他の情報とを組み合わせることができる。別の例として、抽出器実行モジュール320は、学習セットと比較して、候補ランク付けシステムに影響を及ぼすことができる。
図5は、1つの実施形態に従って、抽出器学習モジュール315の詳細を示している。抽出器学習モジュール315は、システムのトレーニングに使用される。抽出器学習モジュール315は、文書と、その文書からどのターゲットが抽出されるべきかに関する情報とを提供され得る。例えば、抽出するターゲットとして、フィールド「total amount(合計金額)」を希望している場合に、文書上のそのフィールドの値と位置(例えば、頁番号とその絶対位置)が、抽出器学習モジュール315に提供され得る。抽出器学習モジュール315は、「total amount(合計金額)」のターゲットに通常関連付けられている所定の例のキャラクタと相関関係とから、ランク付けして一般化する。次に、これらのキャラクタと相関関係の統計を処理して、学習処理として記憶することができる。抽出器学習モジュール315は、更なる抽出(即ち、抽出器実行モジュール320)のための基礎を定めることができる。その後に、収集された情報と、統計と、肯定及び否定の例が、候補のランク付けのための基準として使用され得る(例えば、図7の725と、図8の825を参照)。
抽出器学習モジュール315は、ターゲットコーデックモジュール310と文書コーデックモジュール311とから、入力ユニット505における入力を受信することができる。文書コーデックモジュール311又は(ターゲットコーデックモジュール310によって提供された文脈における)文書コーデック情報を有する(ターゲットコーデックモジュール310によって提供された場所とものの)文書コーデック情報からのこれらの入力の組み合わせを、学習処理に使用することができる。例えば、周辺の文脈の情報を学習して、多数の文書に対する一般化を可能にするために、ターゲットの値と、位置と、それが埋め込まれている文書が必要であり得る。
入力ユニット505は、抽出器学習モジュール315のために有効な入力のみを受け入れることができ、従って、入力ユニット130、205、305、405と異なり得る。ターゲットのコーデック情報と文書のコーデック情報は、同じコーデック方式を有することができる。その理由は、さもなければ、例えば、N−グラムと画素クラスタとの比較が明確な一致をもたらさなくなくなるからである。入力されると、統計分析モジュール510、空間特徴分布モジュール515、文脈特徴分布モジュール520、関係特徴分布モジュール525、導出特徴分布モジュール530、ターゲットランク付けシステム535、及び/又はターゲットバリデーションシステム540、の任意の組み合わせを、学習に使用することができる。これらの異なる学習モジュールは、基礎データとその分布との様々な側面をカバーできる。異なる学習モジュールは、異なる強さと弱さとを有し得る。従って、特定の学習モジュール又は多数の学習方法の組み合わせを適用すると、より高い抽出性能をもたらし得る。
統計分析モジュール510は、最も重要な特徴に焦点を合わせるのに役立ち得る。最も重要な特徴は、タスクに応じて、最も目立つ特徴又は最も定型的でない特徴の組の何れかであり得る。統計分析モジュール510は、N−グラムに基づいており、ベイズ推定又はベイズネットワークのようなベイズ方法を可能にする。
空間特徴分布モジュール515は、ターゲットの局限化(localization)に役立ち得る。従って、空間特徴分布モジュール515を使用して、抽出問題の範囲を、ターゲットが見付かる見込みが最も高いエリアに小さくすることができる。文脈特徴分布モジュール520は、ターゲットを囲んでいる1つ又は多数のアンカーを表わして、文書上の座標に関係なく、現在のターゲットの近隣にある、可能性のあるターゲット、又はターゲット、に関する情報に重みを付けることができる。従って、文書の全体にわたって非常に不定に局限されるターゲットを見付けることができる。関係特徴分布525は、ターゲットが内部で見付かり得るエリア/領域/特徴の組を示すことができる(例えば、第2頁の左上の隅は、文書が印刷された日付を示している)。更に、関係特徴分布525は、異なるターゲット、ターゲットの位置、又は他の位置間の局所的又は全体的な関係から、情報を集めることができる。導出特徴分布モジュール530は、他の学習モジュール間の数学的変換によって生成され得る。従って、例えば、導出特徴分布モジュール530は、統計分析510、空間特徴分布515、文脈特徴分布520、関係特徴分布525、又はターゲットランク付けシステム535、或いはこれらの任意の組み合わせから演繹される分布を計算して組み合わせることができる。
ターゲットバリデーションシステム540は、フィールドと文書との全体にわたって候補の妥当性を内部でチェックすることができる。この点で、第2のレベルのランク付けに対して、肯定又は否定の反例を得ることができる。ターゲットバリデーションシステム540は、ターゲットの候補である尤度に関する良い情報を提供できる。例えば、同じ文書内で、特定のチェックサムを満たす別の数を見付ける見込みは低い。このバリデーション情報に基づいて、より弱い否定の特徴により小さい重みを付け、及び/又は、肯定の特徴により大きい重みを付けることができる。
出力ユニット545は、抽出器学習モジュール315の出力を受け取って、その情報を、抽出システム100の別の要素に渡すことができる。例えば、ランク付けされたリストを記憶するか、印刷するか、視覚化するか、データベースに送るか、学習セットに統合するか、他のアプリケーションに送るか、又は出力後処理モジュールに送るか、或いはこれらの任意の組み合わせができる。
図6は、1つの実施形態に従って、抽出器実行モジュール320の詳細を示している。ターゲットコーデックモジュール310と、文書コーデックモジュール311と、抽出器学習モジュール315とから、入力ユニット605に入力を供給することができる。特徴分布610(空間特徴分布515と、文脈特徴分布520と、関係特徴分布525と、導出特徴分布530)と、ターゲットランク付けシステム535とが適用され得る。次に、全ての情報を候補ランク付けシステム615に収めることができる。候補ランク付けシステム615は、以前に学習した情報に従って、新たな文書からの候補に順序を付ける。候補ランク付けシステム615内において、尤度に従ってフィールドに対する候補をソートするスコアを得ることができる。このスコアは、数学を用いた組み合わせによって、及び/又は重み付けによって、学習した情報に直接に基づくことができる。例えば、ターゲットの候補について2つ以上の特徴が十分に表されている場合に、一致する特徴が1つ又はないものと比較して、その候補をより高くランク付けすることができる。候補ランク付けシステム615は、多くのターゲットと多くの特徴の形態とをランク付けに使用できる点で、この候補ランク付けシステム615は、ターゲットランク付けシステム535と異なり得る。例えば、幾つかの実施形態では、1つの候補は2つの非同一フィールドに対して有効になり得ない。従って、既に設定された候補を候補リストから取り除くことができる。これは、文書内における不十分なフォーマットの定義及びOCRのエラーの状況において適切であり得る。例えば、10/03/05は、日付であるか、又は、OCRのエラーを伴うインボイス番号(例えば、10703/05と読むべきである)でもあり得る。このような場合に、ターゲットフィールド候補の組の全体にわたって候補にフィルタをかけることが役立ち得る。上述で概略的に説明したように作成された、(1から多数にわたって)ランク付けされた1組の候補は、確率スコアを含むことができる。この確率スコアは、候補バリデーションシステム620に渡され得る。候補バリデーションシステム620は、例えば、人間の検証者又はデータベースに、この結果を転送することができる。次に、抽出器実行モジュール320の出力を抽出モジュール150(図1)にフィードバックして、これをメインシステム100に供給して、例えば、結果を提示するために、及び/又は抽出モジュール150の漸進的な学習と適応のために、再使用することができる。
図7は、1つの実施形態に従って、抽出モジュール150の方法700を示している。図3と5に関連して上述でより詳しく説明されているように、701において、抽出システム100をトレーニングするために、1組の文書に対して抽出器モジュール315を実行する。705において、抽出器実行モジュール320を実行して、文書上のターゲットエントリ(例えば、インボイス上のtotal amount(合計金額))に対する可能性のある一致(possible match)(即ち、候補)を生成して、尤度に従ってランク付けすることができる。既に記載したように、抽出器実行モジュール320が、図6に記載されているように、この機能を行なうことができる。
抽出された全てのターゲットフィールドに対して、可能性のある一致候補のリストを別々に順次にコンパイルすることができる。所定のフィールドに対する候補のリストを作成するために、単語のプール(文書コーデックモジュール311を参照)を連続的にスキャンして、エントリごとに、全てのストリングと全てのサブストリング(又は、特徴コーデックユニットにおいて概略的に説明したように、他の特徴と特徴のサブセット)を検査することができる。
空間特徴分布モジュール515、文脈特徴分布モジュール520、関係特徴分布モジュール525、又は導出特徴分布530、或いはこれらの任意の組み合わせを使用して、各ターゲットに対する個々の可能性のある候補についての属性スコアと局限化スコアとを決定することができる。属性スコアは、テキストの長さとフォーマット及び/又はフィールドのパターン特性(即ち、正規表現において使用されているものに似ている)を扱った基準に基づくことができる。属性の例は、次のフィールドの長さ、フォーマット、パターン、又はキャラクタである。
・フィールド「invoice number(インボイス番号)」=「000056」、又は「×3456」又は「19543567」...
・フィールド「invoice date(インボイスの日付)」=「01/14/03」又は「09/22/2001」又は「11DEC1999」
・フィールド「total amount(合計金額)」=「1,176.22」又は「$170.00」又は「699.28」
フォーマットの属性スコアの計算の一例を、学習したフォーマット「$+ddd.dd」について以下で詳しく説明する。文書上の所定のテキスト、即ち、「$#123.45/」(OCRのエラーを含んでいる)に関して、これを評価する場合に、スコアリングは、各々2で重み付けされた7個のフォーマットのヒット($記号と、小数点と、5つの数字)を計数して、1で重み付けされた1つの不一致(#対+)と、1で重み付けされた最後の追加の1つのキャラクタ(例えば、/)とを計数する。合計の属性スコアは、これらの部分の加重和又は一次結合(例えば、7(2)−1(1)−1(1)=12)であり得る。なお、提示されているフィールドのタイプに対して学習した他の全てのフォーマットのストリングの統計によって、重みが決まる。重みは、フィールドのタイプに応じて変わり得ることに留意すべきである。
局限化スコアは、フィールド又は特徴のX、Y分布を扱う基準に基づくことができる。局限の例は、次の通りである。
・フィールド「invoice number(インボイス番号)」は、主として、最初の頁の右上に配置されている。
・フィールド「invoice date(インボイスの日付)」は、主として、最初の頁の右上に配置されている。
・フィールド「total amount(合計金額)」は、主として、最終頁の最下部(の右側)に配置されている。
空間と、文脈と、関係と、導出の基準に対して最高点のスコアを取るフラグメントを、候補として取り上げて、それに応じて、スコアを付けることができる。候補の最大数と基準の厳しさの程度とを、調整可能なパラメータによって適応させることができる。局限化スコアの計算の例は、所定のフィールドのXとYの座標に対する(分散のような学習セットの統計に基づく)重み付き線形積分であり得る。例えば、書類(例えば、用紙の上部の8インチと、用紙の側部の11インチ)に印刷されたインボイスの文書において、Y座標は、より大きな変化を示すことができ(例えば、「total amount(合計金額)のフィールド」は、異なるインボイスの文書におけるY軸上の多数の位置に配置され得る)、従って、Xの位置と比較して、より小さい重みを付けられる。その理由は、この例では、Xの位置はより大きな安定性を示すことができる(例えば、「total amount(合計金額)のフィールド」は、X軸上の同じような位置に配置されることが多い)からである。
文書のトレーニングセットがほぼ同じような文書から構成されている場合は、候補数を減らすことができるように、空間と、文脈と、関係と、導出の基準をより強化しなければならないことに留意すべきである。文書のトレーニングセットが異なる文書から構成されている場合は、候補数を増やすことができるように、属性と局限化の許容差をより緩和することができる。
属性スコア情報と局限化スコア情報とを使用して、各ターゲットフィールドに対する可能性のある一致候補のリストを生成できる。更に、属性スコア情報と局限化スコア情報は、(例えば、後述でより詳しく説明する、第2の検索段階、ランク付け段階中に)各候補に「付加された」ままであり得る。
705において可能性のある一致候補のリストを生成した後で、706において、(後述でより詳しく説明する、統計に基づく重み付けを有している又は有していない)N−グラムに関係付けられた統計を決定でき、各ターゲットに対して、肯定の特徴のリストと否定の特徴のリストとを作成することができる。テキストの特徴410、統計分析510、及び/又は特徴分布515、520、525、530を使って、抽出器学習モジュール315及び抽出器実行モジュール320を相互に実行することによって、これを行なうことができる。例えば、抽出器学習モジュール315によって実行される学習段階中に、肯定の特徴(例えば、「10/25/02」は、フィールド「DATE(日付)」の近くで見付かる)を収集することができる。実行段階中に、抽出器実行モジュール320を使用して、高いスコアを有する(従って、それが望ましいフィールドである尤度が非常に高い)1つの候補が見付かると、システムは、学習セットから「良い」又は「肯定」と見なされる特徴と、文書中の特徴の補足とに基づいて、否定の特徴のリストを自動的に生成できる(例えば、「Number(番号)」は「Invoice Number(インボイス番号)」と「Order Number(注文番号)」との両者に現われるので、「Number(番号)」が重複する単語であるときに、Order Number(注文番号)のフィールドに対する否定の特徴のリストに「Number(番号)」を追加することができる)。この手続きにより、肯定と否定の特徴の対照的で、重み付けされたリストを得ることができる。このプロセスは、学習段階においても適用され得ることに留意すべきである。
全てのフィールドに近接している単語に対して、N−グラムの統計表(別名:「N−グラム頻度ヒストグラム」又は「N−グラム頻度プロファイル」)を作成することができる。図9は、1つの実施形態に従って、フィールド「日付」の周辺の単語(又は、他のテキストパーティクル)のN−グラム/単語/肯定又は否定の例示的な統計の空間サンプリングの一例の文書に対する展開と分解とを示している。フィールド「日付」905は、ボックスによって示されている。フィールド「日付」905に対して、角度境界領域(angular boundary domain)が関係付けられており、これらの角度境界領域は、細い点線910によって表わされている様々なセクションに、文書を分割して、12個の角度の分解について示されている。
フィールド「日付」に関係付けられた空間領域を示すために、大まかなゾーン915、920、925を表わして、文書をセクションに分割する別のやり方を示している。例えば、ゾーン1(920)は、キャラクタ「10/25/2002」の左と上とにセクションを作っている太い点線によって表わされている。同様に、ゾーン2(925)は、キャラクタ「10/25/2002」よりも下にセクションを作っている太い点線によって表わされている。更に、ゾーン0(915)は、キャラクタ「10/25/2002」を囲んでいるセクションを作っている太い点線によって表わされている。
角度境界領域910と、空間領域915、920、925とを使用して、対象フィールドに関連してどの情報が通常見付かるかを学習して適用することができる。例えば、図9では、これらの境界を適用すると、会社の名前が、日付フィールド905の左と上方にわたっていることによって、日付フィールド905(例えば、10/25/2002)に位置的に関係付けられていることが分かる。更に、単語「Invoice(インボイス)」が、ゾーン1(920)の中にあることが分かる。別のインボイスにおける日付フィールドをサーチするときに、同様の位置関係がおそらく当てはまるので、この情報を適用して、日付のフィールドに対する候補が正しいかどうかを決定するのを助けることができる。
1つの実施形態では、文書を一単語ずつ読み出すことができ、テキストを、1組の部分的に重なり合ったN−グラムに構文解析(parse)することができる。例えば、「Number123」={ N, Nu, Num,Numb,umbe,mber,ber ,er ,r 1, 12, 123,123 ,23 ,3 }。同時に、1つの実施形態では、キャラクタを、より単純な形にされたキャラクタの組にマップすることができる(例えば、全てのキャラクタは大文字になり、及び/又は、全ての数字は「0」で表わすことができる)。「Number123」={ N, NU, NUM,NUMB,UMBE,MBER,BER ,ER ,R 0, 00, 000,000 ,00 ,0 }。更に、似た形状を有する文字(letter)は、等しくすることができる:β=B、
Figure 0005710624
、等。次に、全てのNグラムを、ある特定の範囲の整数に関連付けることができる(0・・TABLE SIZE)。なお、パラメータTABLE SIZEは、スペクトルの長さ(例えば、およそ8000)である。
各フィールドに対して、N−グラムのスペクトルは、TABLE SIZEの浮動小数点アキュムレータの空の配列、即ち、class pss[TABLE SIZE]として始まる。トレーニング中に、全てのN−グラムの数(Ingr)に対する重みを付けられたスコアの合計を、対応するアキュムレータclass pss[Ingr]に蓄積して、周辺の単語のN−グラムのスペクトルを提供する。このような「重みを付けられた」スペクトルにおける統計は、N−グラムの発生頻度を表わすだけでなく、全てのN−グラムの文書中の対応するフィールドに対する平均的な隣接度も表わす。N−グラムの重みと、フィールドに対するその位置との特定の関数従属性を、調整可能な位置関数によって与えることができる。単語がフィールドにより近付くほど、対応するN−グラムの重みはより大きくなる。統計は、全てのフィールドのN−グラムの対に対する距離と相互の位置とを考慮に入れる。例えば、北及び西に位置するN−グラムは、南又は東に位置するN−グラムよりも、大きな重みを一般に有する。N−グラムの重みの角度分布は、例えば、異方性であり得る。即ち、全ての異なる中間方向に対して、14の角度領域のN−グラム統計を個別に集めることができる。空間サンプリングの例については、図9を参照すべきである。
例えば、フィールド「invoice number(インボイス番号)」は、関係するキーワードに属するN−グラム、例えば、北に対する、北西に対する、又は西に対する、「Invoice」、「No.」、「Date」、「INVO」、「VOIC」、「NO. 」、「NUMB」、「DATE」によって大抵は囲まれ得るが、無関係のキーワードに属するN−グラム、例えば、「total」、「order」、「P.O.Nr」:「TOTA」、「ORDE」、「RDER」、「P.O.」、等によって囲まれることはめったにない。
フィールド「total amount(合計金額)」は、関係するキーワードに属するN−グラム、例えば、北に対する、北西に対する、又は西に対する、「TOTA」、「MOUN」、「DUE 」、「TAX 」、「NET 」によって大抵は囲まれ得るが、無関係のキーワードに属するN−グラム、例えば、「NN/N」(Nは、日付フィールドにおける数字である)、「INVO」、「NUMB」、「P.O.」、等によって囲まれることはめったにない。
1つの実施形態では、あまりにも長い持間がかかる場合は、各文書フラグメントに対して、(属性スコアと局限化スコアとに関し得る)N−グラム統計を計算しない。その代わりに、ランク付け段階中にのみ、候補に対してN−グラム統計を計算することができる。従って、1つの実施形態では、属性及び局限化スコアのみを使って、705においてソートされた候補のリストを作成することができる。N−グラム統計を使用すると、706におけるランク付け段階後に、最終的なより正確なスコアを得ることができる。
1つの実施形態では、トレーニング中に、全てのフィールドに対して、2つのNグラムリストを作成して、ランク付けする。2つのN−グラムリストは、(対応するフィールドの近くに平均よりも頻繁に現われる周辺のN−グラムに対する)肯定の特徴のリストと、(平均よりも少なく現われる周辺のN−グラムに対する)否定の特徴のリストである。全てのN−グラムリストは、3つの空間ゾーンのサブリストから構成されている。即ち、「フィールドの前の」すぐ近くにあるテキストに対するゾーン1と、「フィールドの後の」すぐ近くにあるテキストに対するゾーン2と、フィールド自体の中のテキストに対するゾーン0である。フィールド自体又は任意の近隣の単語のOCRの間違いがひどく多くても、N−グラム表現が実際のフィールドの場所を明らかにできるという点で、N−グラム表現は「ファジー性(fuzziness)」を有する。ファジー性は、トレーニングと抽出とに対して等しく有効であり得る。完全なOCRの認識は必要ない。更に、全体的なN−グラムのスペクトルの代わりに、2つのリストを使用すると、より速くスコアを計算でき、中間的な(neutral)N−グラムからの「ノイズ効果」を低減できる。中間的なN−グラムは、2つのリストの何れにも属さず、文書フィールドの重要な特性を表わす可能性が低い。
別の実施形態では、N−グラムの近接度スコアを計算でき、更に、統計重み付け特性を考慮に入れることができることに留意すべきである。統計重み付け特性は、数値とアルファベットのN−グラム間の差(数値により小さい重みを付ける)か;1文字と、2文字と、3文字のN−グラム間の差(短いものにより小さい重みを付ける)か;「肯定」と「中間的な」Nグラムに対する2種類の空間の相互の「スクリーン」効果(「肯定」のN−グラムは肯定の特徴のリストに属し、「否定」のN−グラムは否定の特徴のリストに属し、「中間的な」N−グラムは、「肯定」又は「否定」のNグラムのリストの何れにも属さない)(フィールドに近接する幾つかの等しい「肯定」のN−グラムがある場合は、それらの中で最も近い1つのみが対応するスコアに寄与し、フィールドに近接する任意の「中間的な」N−グラムが存在する場合は、より近い、更に、最も近い「肯定」のN−グラムが対応するスコアに寄与して、次に、各「中間的な」アイテムに対する幾らかのペナルティによってスコアを下げる)か;或いは、第2のステップのトレーニングによって提供された否定のリストに属するN−グラムの追加のペナルティを科すことか;若しくは、これらの任意の組み合わせを含むが、これらに制限されない。
1つの実施形態では、更に、N−グラムの近接度スコアは、キーワードの候補のペアリングを考慮に入れることができる。このペアリングは、全ての候補の好ましい「キーワード」を提供する。このように、1つのキーワードと多数の候補が近くに一緒に置かれている場合に、これらの間の曖昧な結合が除かれる。
従って、既に説明したように、ランク付けは、属性スコア(attribute score, ATTR)と、局限化スコア(localization score, LOC)と、N−グラムの近接度スコア(N-gram vicinity score, NGR)とを考慮に入れることができる。図7は、これらのスコアの使用を示していることに留意すべきである。706は、N−グラムの近接度スコアの使用を示している。705では、属性スコアと局限化スコアとを使用して、可能性のある一致を見付ける。1つの実施形態では、三次元空間の中の点で全ての候補を表わすことができる幾何学的配置によって、これを表わすことができる。1つの実施形態では、ランク付けスコア(score, SCR)の計算を次のように表現することができる。
SCR=NGR+(k1×LOC)+(k2×ATTR) (1)
なお、k1とk2は、局限化スコアと属性スコアとの相対的な重みを考慮に入れた2つの調整パラメータである。
例えば、属性スコアは、例えば、N−グラムと、フォーマットスコアと、単語及び辞書ベースのスコアと、OCR信頼度スコアと、310に挙げられている他の属性とを具備し得ることに留意すべきである。局限化スコアは、例えば、310において概略的に説明した、相対又は絶対座標と、他の座標とを具備し得る。
1つの実施形態では、スコアリングの式(1)において、locが、異なる局限化特徴、例えば空間特徴コーデック415に与えられている特徴である場合に、LOCは、
Figure 0005710624
という形式を有し、attrが、異なる属性、例えば310において与えられている属性である場合に、ATTRは、
Figure 0005710624
という形式を有する。異なる局限化特徴の各々と、異なる属性の各々とに対して、異なる重みを与えることができることに留意すべきである。
式(1)におけるk1とk2を、全てのフィールドに対して個別に最適化できることに留意すべきである。図8は、1つの実施形態に従って、1つの特定のフィールドに対する幾つかの候補のスコアの二次元投影を示している。図8における候補0は、格段の最高のスコアを示しているので、これが格段に最良の候補であることは明らかである。更に、(例えば、人間による)マニュアルの検査は、それが正しい(望ましい)ターゲットであることを確認できる。図8における水平方向の線は場所のスコアを表わすことができ、垂直方向の線は属性のスコアを表わすことができ、水平方向の線はベイズ分類器からの超平面の断面を示すことができることに留意すべきである。これは、抽出と候補のソートの問題を線形分類器によって解決できることを示している。これは、全体的に、任意のシステムの高速学習と、(例えば、少なくとも、計算時間とスループットとに関する)高い性能とを示している。
710では、N−グラム統計によって見付けた否定の特徴が、705において見付けた一致に当てはまるかどうかを決めることができる。例えば、特徴が、抽出するフィールドの近くにある禁止された又は望ましくない単語であり得るかどうかを決定できる。例えば、「total amount(合計金額)」を抽出する場合に、可能性のある一致「amount(金額)」からある特定の距離内に単語「tax(税)」があるものは許されないと定義することができる。否定の特徴がある場合は、プロセスは715に進む。そうでなければ、続いてプロセスは720に進む。715では、否定の特徴が当てはまる候補一致リストの中の可能性のある一致を全て取り出すことができる。720では、705においてN−グラム統計によって見付けた肯定の特徴のリストに照らして、候補をチェックする。肯定の特徴を使用して、特徴が候補の一部である確率を修正できる。従って、肯定の特徴は、候補のリスト又は所定の候補の望ましいフィールドを表わす確率を増加又は低減できる。否定の特徴は、望ましいフィールドを表わす候補の確率を下げ、「肯定」の特徴は、確率を上げる。例えば、抽出システム100は、「gross(総計)」が用語「total amount(合計金額)」に対する正の反例であることを学習することができる。はい、即ち、幾つかの肯定の特徴がある場合は、725では、これらの反例に従って、可能性のある一致に対するスコアを更新でき、新たなスコアに基づいて、可能性のある一致のリストの順序を変更することができる。以前に生成された候補リストの中の候補のスコアを変更することによって、これを行なって、次に、更新された候補リストを得ることができる。次に、プロセスは、730に移ることができる。肯定の特徴がない場合は、プロセスは730に移る。ランク付けされた可能性のある一致のリストを、ユーザ又はアプリケーションに転送する。これは、ターゲットフィールドに対する候補の順序付けされたリストを生成する。実施形態に応じて、抽出値として、1つ(最高値)以上を使用できる。複数(例えば、3つ)の候補の場合に、上位3つを人間の検証者に提示して、そこから選択することができる。
上述に本発明の様々な実施形態を記載したが、これらは、制限的にではなく、例示的に提示されていると理解すべきである。本発明の意図と範囲から逸脱することなく、形式と詳細を様々に変更できることが、当業者に分かるであろう。従って、上述の例示的な実施形態のうちの何れかによって、本発明を制限すべきではない。
更に、図面は本発明の機能と特長とを強調しており、上述において図面は単に例示のために提示されていると理解すべきである。本発明の構造は十分にフレキシブルであって構成可能であるので、図面に示されていない他のやり方で本発明の構成を利用することができる。
更に、要約書は、概して、米国特許商標庁と一般の人々、特に、特許又は法律の用語と表現に精通していない科学者と、エンジニアと、実務家が、大まかに調べることによって、本出願の技術的開示の性質と本質とを判断できるようにすることを目的としている。何れにしても、要約書は、本発明の範囲を制限することを意図していない。
最後に、請求項のみが、米国特許法第112条第6項のもとで解釈される表現である「手段」又は「ステップ」を含むことを、出願人は意図している。用語「手段」又は「ステップ」を明示的に含んでいない請求項は、米国特許法第112条第6項によって解釈されるべきではない。
以下に、本出願時の特許請求の範囲に記載された発明を付記する。
[1] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出する方法であって、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成するステップと、
少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定するステップと、
少なくとも1つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも1つの可能性のある一致に当てはまるかどうかを決定するステップと、
少なくとも1つの削除プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致を、前記少なくとも1つの可能性のある一致のリストから削除するステップと、
少なくとも1つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定するステップと、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
を含む、方法。
[2] 前記少なくとも1つの属性スコアと、前記少なくとも1つの局限化スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、請求項1の方法。
[3] 前記空間特徴基準を使用して、前記少なくとも1つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、前記[2]の方法。
[4] 前記文脈特徴基準は、前記少なくとも1つのターゲットエントリの近隣にある少なくとも1つの可能性のあるターゲットエントリに関する情報に重みを付ける、前記[2]の方法。
[5] 前記関係特徴基準を使用して、前記少なくとも1つのターゲットエントリが内部で見付かる見込みがある少なくとも1つのエリアを決定する、前記[2]の方法。
[6] 前記空間特徴基準と、前記文脈特徴基準と、前記関係特徴基準との任意の組み合わせ間における数学的変換によって、前記導出特徴基準を生成する、前記[2]の方法。
[7] 少なくとも1つのプロセッサは、
前記少なくとも1つのランク付け及び/又はマッチングプロセッサ、
前記少なくとも1つの特徴プロセッサ、
前記少なくとも1つの否定特徴プロセッサ、
前記少なくとも1つの削除プロセッサ、
前記少なくとも1つの肯定特徴プロセッサ、或いは、
前記少なくとも1つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含むことができる、前記[1]の方法。
[8] サンプル文書から前記少なくとも1組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも1組の文書の中に類似の情報を見付けるステップと、
を更に含む、前記[1]の方法。
[9] 前記少なくとも1つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、前記[1]の方法。
[10] 前記バリデートするステップは、
内部でバリデートするステップ、及び/又は、
外部バリデートするステップ、
を含む、前記[9]の方法。
[11] 前記少なくとも1つの属性スコアと前記少なくとも1つの局限化スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れている、前記[1]の方法。
[12] 前記学習した特性は、少なくとも1つの未知の文書及び/又は少なくとも1つの異なる文書のタイプに当てはまる、前記[8]の方法。
[13] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出する方法であって、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成するステップ、
を含む、方法。
[14] 前記少なくとも1つの属性スコアと、前記少なくとも1つの局限化スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、前記[13]の方法。
[15] 前記空間特徴基準を使用して、前記少なくとも1つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、前記[14]の方法。
[16] 前記文脈特徴基準は、前記少なくとも1つのターゲットエントリの近隣にある少なくとも1つの可能性のあるターゲットエントリに関する情報に重みを付ける、前記[14]の方法。
[17] 前記関係特徴基準を使用して、前記少なくとも1つのターゲットエントリが内部で見付かる見込みがある少なくとも1つのエリアを決定する、前記[14]の方法。
[18] 前記空間特徴基準と、前記文脈特徴基準と、前記関係特徴基準との任意の組み合わせ間における数学的変換によって、前記導出特徴基準を生成する、前記[14]の方法。
[19] 少なくとも1つのプロセッサは、
前記少なくとも1つのランク付け及び/又はマッチングプロセッサ、
前記少なくとも1つの特徴プロセッサ、
前記少なくとも1つの否定特徴プロセッサ、
前記少なくとも1つの削除プロセッサ、
前記少なくとも1つの肯定特徴プロセッサ、或いは、
前記少なくとも1つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含むことができる、前記[13]の方法。
[20] サンプル文書から前記少なくとも1組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも1組の文書の中に類似の情報を見付けるステップと、
を更に含む、前記[13]の方法。
[21] 前記少なくとも1つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、前記[13]の方法。
[22] 前記バリデートするステップは、
内部でバリデートするステップ、及び/又は、
外部でバリデートするステップ、
を含む、前記[21]の方法。
[23] 前記少なくとも1つの属性スコアと前記少なくとも1つの局限化スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れる、前記[13]の方法。
[24] 前記学習した特性は、少なくとも1つの未知の文書及び/又は少なくとも1つの異なる文書のタイプに当てはまる、前記[20]の方法。
[25] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出する方法であって、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成するステップと、
少なくとも1つの肯定特徴プロセッサを使用して、N−グラム統計に基づいて、肯定の特徴を決定するステップと、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
を含む、方法。
[26] 前記少なくとも1つの属性スコアと、前記少なくとも1つの局限化スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、前記[25]の方法。
[27] 前記空間特徴基準を使用して、前記少なくとも1つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、前記[26]の方法。
[28] 前記文脈特徴基準は、前記少なくとも1つのターゲットエントリの近隣にある少なくとも1つの可能性のあるターゲットエントリに関する情報に重みを付ける、前記[26]の方法。
[29] 前記関係特徴基準を使用して、前記少なくとも1つのターゲットエントリが内部で見付かる見込みがある少なくとも1つのエリアを決定する、前記[26]の方法。
[30] 前記空間特徴基準と、前記文脈特徴基準と、前記関係特徴基準との任意の組み合わせ間における数学的変換によって、前記導出特徴基準を生成する、前記[26]の方法。
[31] 少なくとも1つのプロセッサは、
前記少なくとも1つのランク付け及び/又はマッチングプロセッサ、
前記少なくとも1つの特徴プロセッサ、或いは、
前記少なくとも1つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含むことができる、前記[25]の方法。
[32] サンプル文書から前記少なくとも1組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも1組の文書の中に類似の情報を見付けるステップと、
を更に含む、前記[25]の方法。
[33] 前記少なくとも1つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、前記[25]の方法。
[34] 前記バリデートするステップは、
内部でバリデートするステップ、及び/又は、
外部でバリデートするステップ、
を含む、前記[33]の方法。
[35] 前記少なくとも1つの属性スコアと前記少なくとも1つの局限化スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れる、前記[25]の方法。
[36] 前記学習した特性は、少なくとも1つの未知の文書及び/又は少なくとも1つの異なる文書のタイプに当てはまる、前記[32]の方法。
[37] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出するコンピュータシステムであって、
前記コンピュータシステムは、少なくとも1つのプロセッサを含んでおり、
前記少なくとも1つのプロセッサは、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成して、
少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定して、
少なくとも1つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも1つの可能性のある一致に当てはまるかどうかを決定して、
少なくとも1つの削除プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致を、前記少なくとも1つの可能性のある一致のリストから削除して、
少なくとも1つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定して、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
ように構成されている、コンピュータシステム。
[38] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出するコンピュータ化されたシステムであって、
前記コンピュータ化されたシステムは、少なくとも1つのプロセッサを含んでおり、
前記プロセッサは、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成する、
ように構成されている、コンピュータ化されたシステム。
[39] 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出するコンピュータ化されたシステムであって、
前記コンピュータ化されたシステムは、少なくとも1つのプロセッサを含んでおり、
前記プロセッサは、
少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの局限化スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成して、
少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、肯定の特徴を決定して、
少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
ように構成されている、コンピュータ化されたシステム。

Claims (24)

  1. 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出する方法であって、
    少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの位置スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成するステップと、
    少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定するステップと、
    少なくとも1つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも1つの可能性のある一致に当てはまるかどうかを決定するステップと、
    少なくとも1つの確率修正プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致の確率を低減するステップと、
    少なくとも1つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定するステップと、
    少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
    を含む、方法。
  2. 前記少なくとも1つの属性スコアと、前記少なくとも1つの位置スコアは、
    空間特徴基準、
    文脈特徴基準、
    関係特徴基準、又は、
    導出特徴基準、或いは、
    これらの任意の組み合わせ、
    に基づいている、請求項1の方法。
  3. 前記空間特徴基準を使用して、前記少なくとも1つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、請求項2の方法。
  4. 前記文脈特徴基準は、前記少なくとも1つのターゲットエントリの近隣にある少なくとも1つの可能性のあるターゲットエントリに関する情報に重みを付ける、請求項2の方法。
  5. 前記関係特徴基準を使用して、前記少なくとも1つのターゲットエントリが内部で見付かる見込みがある少なくとも1つのエリアを決定する、請求項2の方法。
  6. 少なくとも1つのプロセッサは、
    前記少なくとも1つのランク付け及び/又はマッチングプロセッサ、
    前記少なくとも1つの特徴プロセッサ、
    前記少なくとも1つの否定特徴プロセッサ、
    前記少なくとも1つの確率修正プロセッサ、
    前記少なくとも1つの肯定特徴プロセッサ、或いは、
    前記少なくとも1つの順序変更プロセッサ、若しくは、
    これらの任意の組み合わせ、
    を含む、請求項1の方法。
  7. サンプル文書から前記少なくとも1組の文書の特性を学習するステップと、
    前記学習した特性を使用して、前記少なくとも1組の文書の中に類似の情報を見付けるステップと、
    を更に含む、請求項1の方法。
  8. 前記少なくとも1つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、請求項1の方法。
  9. 前記バリデートするステップは、
    内部でバリデートするステップ、及び/又は、
    外部バリデートするステップ、
    を含む、請求項の方法。
  10. 前記少なくとも1つの属性スコアと前記少なくとも1つの位置スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
    テキストの特徴、
    幾何学的特徴、
    グラフィックの特徴、
    特徴変換、又は、
    これらの任意の組み合わせ、
    に関係付けられた情報を考慮に入れている、請求項1の方法。
  11. 前記学習した特性は、少なくとも1つの未知の文書及び/又は少なくとも1つの異なる文書のタイプに当てはまる、請求項の方法。
  12. 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出する方法であって、
    少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの位置スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成するステップと、
    少なくとも1つの肯定特徴プロセッサを使用して、N−グラム統計に基づいて、肯定の特徴を決定するステップと、
    少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
    を含む、方法。
  13. 前記少なくとも1つの属性スコアと、前記少なくとも1つの位置スコアは、
    空間特徴基準、
    文脈特徴基準、
    関係特徴基準、又は、
    導出特徴基準、或いは、
    これらの任意の組み合わせ、
    に基づいている、請求項12の方法。
  14. 前記空間特徴基準を使用して、前記少なくとも1つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、請求項13の方法。
  15. 前記文脈特徴基準は、前記少なくとも1つのターゲットエントリの近隣にある少なくとも1つの可能性のあるターゲットエントリに関する情報に重みを付ける、請求項13の方法。
  16. 前記関係特徴基準を使用して、前記少なくとも1つのターゲットエントリが内部で見付かる見込みがある少なくとも1つのエリアを決定する、請求項13の方法。
  17. 少なくとも1つのプロセッサは、
    前記少なくとも1つのランク付け及び/又はマッチングプロセッサ、
    前記少なくとも1つの特徴プロセッサ、或いは、
    前記少なくとも1つの順序変更プロセッサ、若しくは、
    これらの任意の組み合わせ、
    を含む、請求項12の方法。
  18. サンプル文書から前記少なくとも1組の文書の特性を学習するステップと、
    前記学習した特性を使用して、前記少なくとも1組の文書の中に類似の情報を見付けるステップと、
    を更に含む、請求項12の方法。
  19. 前記少なくとも1つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、請求項12の方法。
  20. 前記バリデートするステップは、
    内部でバリデートするステップ、及び/又は、
    外部でバリデートするステップ、
    を含む、請求項19の方法。
  21. 前記少なくとも1つの属性スコアと前記少なくとも1つの位置スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
    テキストの特徴、
    幾何学的特徴、
    グラフィックの特徴、
    特徴変換、又は、
    これらの任意の組み合わせ、
    に関係付けられた情報を考慮に入れる、請求項12の方法。
  22. 前記学習した特性は、少なくとも1つの未知の文書及び/又は少なくとも1つの異なる文書のタイプに当てはまる、請求項18の方法。
  23. 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出するコンピュータシステムであって、
    前記コンピュータシステムは、少なくとも1つのプロセッサを含んでおり、
    前記少なくとも1つのプロセッサは、
    少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの位置スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成して、
    少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定して、
    少なくとも1つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも1つの可能性のある一致に当てはまるかどうかを決定して、
    少なくとも1つの確率修正プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致の確率を低減して、
    少なくとも1つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定して、
    少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
    ように構成されている、コンピュータシステム。
  24. 少なくとも1組の文書の中の少なくとも1つの文書から情報を抽出するコンピュータ化されたシステムであって、
    前記コンピュータ化されたシステムは、少なくとも1つのプロセッサを含んでおり、
    前記プロセッサは、
    少なくとも1つのランク付け及び/又はマッチングプロセッサを使用して、前記少なくとも1つの文書における少なくとも1つのターゲットエントリに対する少なくとも1つの可能性のある一致を含んでいて、且つ少なくとも1つの属性スコアと少なくとも1つの位置スコアとに基づく、少なくとも1つのランク付けされた可能性のある一致のリストを生成して、
    少なくとも1つの特徴プロセッサを使用して、N−グラム統計に基づいて、肯定の特徴を決定して、
    少なくとも1つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも1つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
    ように構成されている、コンピュータ化されたシステム。
JP2012532203A 2009-09-30 2010-09-24 抽出のための方法及びシステム Active JP5710624B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/570,412 US8321357B2 (en) 2009-09-30 2009-09-30 Method and system for extraction
US12/570,412 2009-09-30
PCT/US2010/050087 WO2011041205A2 (en) 2009-09-30 2010-09-24 A method and system for extraction

Publications (2)

Publication Number Publication Date
JP2013506915A JP2013506915A (ja) 2013-02-28
JP5710624B2 true JP5710624B2 (ja) 2015-04-30

Family

ID=43781395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012532203A Active JP5710624B2 (ja) 2009-09-30 2010-09-24 抽出のための方法及びシステム

Country Status (6)

Country Link
US (1) US8321357B2 (ja)
EP (1) EP2483815A4 (ja)
JP (1) JP5710624B2 (ja)
AU (3) AU2010300890A1 (ja)
CA (1) CA2774989C (ja)
WO (1) WO2011041205A2 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
GB2487600A (en) * 2011-01-31 2012-08-01 Keywordlogic Ltd System for extracting data from an electronic document
US9032346B2 (en) * 2011-05-19 2015-05-12 Globalfoundries Singapore Pte. Ltd. Method and apparatus for creating and managing waiver descriptions for design verification
US8983826B2 (en) * 2011-06-30 2015-03-17 Palo Alto Research Center Incorporated Method and system for extracting shadow entities from emails
US9275636B2 (en) * 2012-05-03 2016-03-01 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
US9430453B1 (en) 2012-12-19 2016-08-30 Emc Corporation Multi-page document recognition in document capture
US10019535B1 (en) * 2013-08-06 2018-07-10 Intuit Inc. Template-free extraction of data from documents
US10445063B2 (en) * 2013-09-17 2019-10-15 Adobe Inc. Method and apparatus for classifying and comparing similar documents using base templates
US9898773B2 (en) 2014-11-18 2018-02-20 Microsoft Technology Licensing, Llc Multilingual content based recommendation system
US10740372B2 (en) * 2015-04-02 2020-08-11 Canon Information And Imaging Solutions, Inc. System and method for extracting data from a non-structured document
WO2017009900A1 (ja) * 2015-07-10 2017-01-19 株式会社日立製作所 文書処理システム及び文書処理方法
US9588966B2 (en) 2015-07-21 2017-03-07 Facebook, Inc. Data sorting for language processing such as POS tagging
JP6775935B2 (ja) 2015-11-04 2020-10-28 株式会社東芝 文書処理装置、方法、およびプログラム
JP6602243B2 (ja) * 2016-03-16 2019-11-06 株式会社東芝 学習装置、方法、及びプログラム
US10282435B2 (en) * 2016-08-17 2019-05-07 International Business Machines Corporation Apparatus, method, and storage medium for automatically correcting errors in electronic publication systems
US11646114B2 (en) * 2016-08-26 2023-05-09 Sap Se Method and system for processing of electronic medical invoices
JP6622172B2 (ja) 2016-11-17 2019-12-18 株式会社東芝 情報抽出支援装置、情報抽出支援方法およびプログラム
US10726501B1 (en) 2017-04-25 2020-07-28 Intuit Inc. Method to use transaction, account, and company similarity clusters derived from the historic transaction data to match new transactions to accounts
US10956986B1 (en) 2017-09-27 2021-03-23 Intuit Inc. System and method for automatic assistance of transaction sorting for use with a transaction management service
US11989774B1 (en) * 2017-11-20 2024-05-21 Wells Fargo Bank, N.A. Systems and methods for providing digital trusted data
CN110163460B (zh) * 2018-03-30 2023-09-19 腾讯科技(深圳)有限公司 一种确定应用分值的方法及设备
US10832049B2 (en) 2018-05-31 2020-11-10 Intematlonal Business Machlnes Corporation Electronic document classification system optimized for combining a plurality of contemporaneously scanned documents
US10735615B1 (en) 2019-03-15 2020-08-04 Ricoh Company, Ltd. Approach for cloud EMR communication via a content parsing engine
US11269812B2 (en) * 2019-05-10 2022-03-08 International Business Machines Corporation Derived relationship for collaboration documents
US11861523B2 (en) 2019-09-30 2024-01-02 Ricoh Company, Ltd. Approach for cloud EMR communication via a content parsing engine and a storage service
US10956106B1 (en) * 2019-10-30 2021-03-23 Xerox Corporation Methods and systems enabling a user to customize content for printing
US11210507B2 (en) 2019-12-11 2021-12-28 Optum Technology, Inc. Automated systems and methods for identifying fields and regions of interest within a document image
US11227153B2 (en) 2019-12-11 2022-01-18 Optum Technology, Inc. Automated systems and methods for identifying fields and regions of interest within a document image

Family Cites Families (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731861A (en) 1983-08-26 1988-03-15 Texas Instruments Incorporated Method of optical character recognition
JPS61204733A (ja) 1985-03-07 1986-09-10 Oki Electric Ind Co Ltd 視野管理システム
JPS61217863A (ja) 1985-03-23 1986-09-27 Brother Ind Ltd 電子辞書
EP0321493A4 (en) 1986-08-22 1991-11-21 Commonwealth Scientific And Industrial Research Organisation A content-addressable memory system
US4864501A (en) 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
CA1338601C (en) 1987-10-09 1996-09-17 Douglas Wyche Caldwell Relational database representation with relational database operation capability
JPH022459A (ja) 1987-12-11 1990-01-08 Hewlett Packard Co <Hp> 問合わせ処理方法
US5201047A (en) 1989-12-21 1993-04-06 International Business Machines Corporation Attribute-based classification and retrieval system
US5191525A (en) 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
US5344132A (en) 1990-01-16 1994-09-06 Digital Image Systems Image based document processing and information management system and apparatus
FR2660085A1 (fr) 1990-03-20 1991-09-27 Philips Electronique Lab Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire.
JP3329806B2 (ja) 1990-11-09 2002-09-30 株式会社日立製作所 ニューラルネット構築装置
US5245672A (en) 1992-03-09 1993-09-14 The United States Of America As Represented By The Secretary Of Commerce Object/anti-object neural network segmentation
US5377348A (en) 1992-06-04 1994-12-27 International Business Machines Corporation System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection
US5491758A (en) 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
US5649068A (en) 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
US5619709A (en) 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5537491A (en) 1993-11-24 1996-07-16 Xerox Corporation Analyzing an image or other data to obtain a stable number of groups
US5742806A (en) 1994-01-31 1998-04-21 Sun Microsystems, Inc. Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system
NZ248751A (en) 1994-03-23 1997-11-24 Ryan John Kevin Text analysis and coding
US5671333A (en) 1994-04-07 1997-09-23 Lucent Technologies Inc. Training apparatus and method
US5956419A (en) 1995-04-28 1999-09-21 Xerox Corporation Unsupervised training of character templates using unsegmented samples
US5689620A (en) 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
US5675710A (en) 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
JPH096799A (ja) 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置
EP0856175A4 (en) 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US5889886A (en) 1995-11-28 1999-03-30 Xerox Corporation Method and apparatus for detecting running text in an image
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5864855A (en) 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
US5787201A (en) 1996-04-09 1998-07-28 The United States Of America As Represented By The Secretary Of The Navy High order fractal feature extraction for classification of objects in images
US5937084A (en) * 1996-05-22 1999-08-10 Ncr Corporation Knowledge-based document analysis system
US6101515A (en) 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US5778362A (en) 1996-06-21 1998-07-07 Kdl Technologies Limted Method and system for revealing information structures in collections of data items
DE19627472A1 (de) 1996-07-08 1998-01-15 Ser Systeme Ag Datenbanksystem
US5918223A (en) 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
AU4495597A (en) 1996-09-23 1998-04-14 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
DE19642622A1 (de) * 1996-10-16 1998-04-23 Wella Ag Haarbehandlungsmittel mit langanhaltenden Festigungseigenschaften
US6275610B1 (en) 1996-10-16 2001-08-14 Convey Corporation File structure for scanned documents
US6327387B1 (en) 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
DE19715723A1 (de) 1997-04-15 1998-11-12 Dci Datenbank Fuer Wirtschafts Array-Verfahren
US6353840B2 (en) 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
JPH11184894A (ja) 1997-10-07 1999-07-09 Ricoh Co Ltd 論理要素抽出方法および記録媒体
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US6115708A (en) 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
US6161130A (en) 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6243713B1 (en) 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6324551B1 (en) 1998-08-31 2001-11-27 Xerox Corporation Self-contained document management based on document properties
US6212532B1 (en) 1998-10-22 2001-04-03 International Business Machines Corporation Text categorization toolkit
US6189002B1 (en) 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US6622134B1 (en) 1999-01-05 2003-09-16 International Business Machines Corporation Method of constructing data classifiers and classifiers constructed according to the method
CN1371504A (zh) 1999-01-13 2002-09-25 电脑相关想象公司 签名识别系统和方法
US6477551B1 (en) 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
EP1049030A1 (en) 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
EP1224569A4 (en) * 1999-05-28 2005-08-10 Sehda Inc PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE
US6501855B1 (en) 1999-07-20 2002-12-31 Parascript, Llc Manual-search restriction on documents not having an ASCII index
US6188010B1 (en) 1999-10-29 2001-02-13 Sony Corporation Music search by melody input
DE19952769B4 (de) 1999-11-02 2008-07-17 Sap Ag Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
EP1128278B1 (en) 2000-02-23 2003-09-17 SER Solutions, Inc Method and apparatus for processing electronic documents
US7149347B1 (en) 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
US7305399B2 (en) 2000-03-09 2007-12-04 The Web Access, Inc. Method and apparatus for applying a parametric search methodology to a directory tree database format
US6741724B1 (en) 2000-03-24 2004-05-25 Siemens Dematic Postal Automation, L.P. Method and system for form processing
US20070033252A1 (en) 2000-03-30 2007-02-08 Combest Ricky F Dynamic virtual network and method
JP2001318948A (ja) 2000-05-09 2001-11-16 Hitachi Ltd 文書検索方法及び装置並びにその処理プログラムを記憶した媒体
US7028250B2 (en) 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
US6895552B1 (en) 2000-05-31 2005-05-17 Ricoh Co., Ltd. Method and an apparatus for visual summarization of documents
US6944340B1 (en) 2000-08-07 2005-09-13 Canon Kabushiki Kaisha Method and apparatus for efficient determination of recognition parameters
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020156816A1 (en) 2001-02-13 2002-10-24 Mark Kantrowitz Method and apparatus for learning from user self-corrections, revisions and modifications
US6732090B2 (en) 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
DK1288792T3 (da) 2001-08-27 2012-04-02 Bdgb Entpr Software Sarl Fremgangsmåde til automatisk indeksering af dokumenter
PT1315096E (pt) 2001-11-21 2012-10-09 Werner Voegeli Método e dispositivo para pesquisar informação relevante
JP4006239B2 (ja) 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
JP4366108B2 (ja) 2003-04-30 2009-11-18 キヤノン株式会社 文書検索装置、文書検索方法及びコンピュータプログラム
JP2005043977A (ja) 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
US7805446B2 (en) 2004-10-12 2010-09-28 Ut-Battelle Llc Agent-based method for distributed clustering of textual information
US8570586B2 (en) 2005-05-02 2013-10-29 Digimarc Corporation Active images through digital watermarking
US7472121B2 (en) 2005-12-15 2008-12-30 International Business Machines Corporation Document comparison using multiple similarity measures
US8090743B2 (en) 2006-04-13 2012-01-03 Lg Electronics Inc. Document management system and method
WO2007149004A1 (en) 2006-06-13 2007-12-27 Freescale Semiconductor, Inc. Methods and apparatus for simulating distributed effects
US7610281B2 (en) 2006-11-29 2009-10-27 Oracle International Corp. Efficient computation of document similarity
US7720721B1 (en) 2006-12-28 2010-05-18 Amazon Technologies, Inc. Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms
US8280877B2 (en) 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US20080212877A1 (en) 2007-03-04 2008-09-04 John Franco High speed error detection and correction for character recognition
JP4775306B2 (ja) * 2007-04-23 2011-09-21 ソニー株式会社 画像処理装置、撮像装置、および画像表示制御方法、並びにコンピュータ・プログラム
US20090228777A1 (en) 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
US20090125529A1 (en) * 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes
US20090198677A1 (en) 2008-02-05 2009-08-06 Nuix Pty.Ltd. Document Comparison Method And Apparatus
JP4538507B2 (ja) 2008-05-02 2010-09-08 シャープ株式会社 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体

Also Published As

Publication number Publication date
EP2483815A2 (en) 2012-08-08
CA2774989C (en) 2018-06-19
AU2018200396A1 (en) 2018-02-08
AU2010300890A1 (en) 2012-04-12
US20110078098A1 (en) 2011-03-31
JP2013506915A (ja) 2013-02-28
EP2483815A4 (en) 2018-01-24
CA2774989A1 (en) 2011-04-07
AU2016204913A1 (en) 2016-08-04
WO2011041205A2 (en) 2011-04-07
AU2018200396B2 (en) 2019-11-21
US8321357B2 (en) 2012-11-27
WO2011041205A3 (en) 2011-08-04

Similar Documents

Publication Publication Date Title
JP5710624B2 (ja) 抽出のための方法及びシステム
US20160041987A1 (en) Method and system for extraction
Van Strien et al. Assessing the impact of OCR quality on downstream NLP tasks
Drobac et al. Optical character recognition with neural networks and post-correction with finite state methods
CN113762028B (zh) 从文本文档进行数据驱动的结构提取
Mao et al. Document structure analysis algorithms: a literature survey
EP2015228B1 (en) Retrieving electronic documents by converting them to synthetic text
Evershed et al. Correcting noisy OCR: Context beats confusion
CA2777930C (en) System and method for increasing the accuracy of optical character recognition (ocr)
US9158833B2 (en) System and method for obtaining document information
Ud Din et al. Segmentation-free optical character recognition for printed Urdu text
US20150310269A1 (en) System and Method of Using Dynamic Variance Networks
KR20200013130A (ko) 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지의 도면 부호에 대응되는 도면 부호의 설명 데이터 처리 방법 및 장치
Lund et al. How well does multiple OCR error correction generalize?
JP2003524258A (ja) 電子ドキュメントを処理する方法および装置
Tkaczyk New methods for metadata extraction from scientific literature
Romero et al. Modern vs diplomatic transcripts for historical handwritten text recognition
Chaudhuri et al. An approach for recognition and interpretation of mathematical expressions in printed document
Aliwy et al. Corpus-based technique for improving Arabic OCR system
Soheili et al. Sub-word image clustering in Farsi printed books
US20240143632A1 (en) Extracting information from documents using automatic markup based on historical data
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
Soheili et al. Clustering of Farsi sub-word images for whole-book recognition
Gope A Study on Knowledge Extraction from Official Bangla Documents
KR20220142901A (ko) 반정형 문서로부터 정보를 추출하는 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140715

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141014

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150304

R150 Certificate of patent or registration of utility model

Ref document number: 5710624

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250