JP5710624B2

JP5710624B2 - 抽出のための方法及びシステム

Info

Publication number: JP5710624B2
Application number: JP2012532203A
Authority: JP
Inventors: ラピア、ゲンナディ; シャット、ハリー; マイアー、ラルフ; バンシュラ、トルステン; ハオスマン、ヨハンネス
Original assignee: BDGB Enterprise Software SARL
Current assignee: BDGB Enterprise Software SARL
Priority date: 2009-09-30
Filing date: 2010-09-24
Publication date: 2015-04-30
Anticipated expiration: 2030-09-24
Also published as: EP2483815A2; CA2774989C; AU2018200396A1; AU2010300890A1; US20110078098A1; JP2013506915A; EP2483815A4; CA2774989A1; AU2016204913A1; WO2011041205A2; AU2018200396B2; US8321357B2; WO2011041205A3

Description

関連出願の相互参照

本出願は、２００９年９月３０日に出願された米国特許出願第１２／５７０，４１２号の出願日の利益に基づいており、これを得ている。米国特許出願第１２／５７０，４１２号の全内容は、参照によって全体的にここに組み込まれている。

１つの実施形態に従って、抽出システムを示している。１つの実施形態に従って、抽出モジュールの詳細を示している。１つの実施形態に従って、抽出器及び内部整合性チェッカ210の抽出器部分の詳細を示している。１つの実施形態に従って、ターゲットコーデックモジュールの詳細を示している。１つの実施形態に従って、抽出器学習モジュールの詳細を示している。１つの実施形態に従って、抽出器実行モジュールの詳細を示している。１つの実施形態に従って、抽出モジュールの方法を示している。１つの実施形態に従って、１つの特定のフィールドに対する幾つかの候補のスコアの二次元投影を示している。１つの実施形態に従って、フィールド「日付」の周辺の単語(又は、他のテキストパーティクル)のＮ−グラム／単語／肯定又は否定の例示的な統計の空間サンプリングの一例の文書に対する展開と分解とを示している。

図１は、１つの実施形態に従って、抽出システム100を示している。１つの実施形態では、抽出システム100は、自動自己適応学習型の文書処理を容易にする。１つの実施形態では、抽出システム100は、例で学習して(例えば、インボイスであることが分かっているたくさんの文書から、インボイスの特性を学習して)、次に、文脈に関係付けられた(例えば、比較、統計スコアリング方法、ファジー特徴に基づく)文書からの情報と、ある特定のフィールドに対する文脈関係とを使用して、他の文書において類似の情報を見付ける。抽出システム100は、例えば、データを抽出して、文書を分類して、他のタスクに役立つ文書に関する知識を生成することができる。他のタスクは、例えば、ページの分割、文書の合成、シートの回復、フォームの認識、フォームの一般化、文書の破損の認識と修復、光学文字認識(optical character recognition, OCR)のエラー訂正、又はこれらの任意の組み合わせであるが、これらに制限されない。抽出システム100は、文書を使って作業することができる。文書は、例えば、インボイス、送金額の明細書、貨物引換証、小切手、投票用紙、申し込み用紙、ダイヤグラム、印刷された表情報、又は証明書、或いはこれらの任意の組み合わせであるが、これらに制限されない。(特定のターゲットフィールドの形で)情報を抽出する必要がある場合に、抽出システム100は、(少なくとも幾らかのテキスト部分を含んでいる)任意の少なくとも不十分に構造化された文書を処理することができる。文書は、１頁又は複数の頁であり得る。更に、文書は、英語又は他の言語、或いは言語の組み合わせであり得る。抽出システム100は、１つの言語又は複数の言語を一度に処理することもできる。

１つの実施形態では、抽出システム100は、ハードウェアとソフトウェアの要素をつなぐ通信ネットワーク101を具備することができる。ハードウェアは、出力ユニット105と、ディスプレイユニット110と、中央処理ユニット(centralized processing unit, CPU)115と、ハードディスクユニット120と、メモリユニット125と、入力ユニット130と、通信ユニット135と、スキャナ140とを具備することができる。出力ユニット105は、抽出処理の結果を、例えば、スクリーン、プリンタ、ディスク、コンピュータ、及び／又はアプリケーションに送ることができる。ディスプレイユニット110は、情報を表示することができる。ＣＰＵ115は、ハードウェア及び／又はソフトウェアのコンポーネントからの命令を解釈して、実行することができる。ハードディスクユニット120は、ハードディスク又は同様の記憶デバイスから情報(例えば、文書、データ)を受信することができる。メモリユニット125は、情報を記憶することができる。入力ユニット130(例えば、キーボード、マウス、人間又は人間以外の他の入力デバイス)は、スクリーン、スキャナ、ディスク、コンピュータ、及び／又はアプリケーションから、処理するための情報を受信することができる。通信ユニット135は、他のコンピュータと通信することができる。スキャナ140は、紙から文書画像を得ることができる。

ソフトウェアは、１つ以上のデータベース145と、抽出モジュール150と、画像処理モジュール155と、ＯＣＲモジュール160と、文書入力モジュール165と、文書変換モジュール170と、テキスト処理統計分析モジュール175と、文書／出力後処理モジュール180と、システム管理モジュール185とを具備することができる。データベース145は、情報、例えばトレーニングセットに関する情報を記憶することができる。画像処理モジュール155は、画像を処理できるソフトウェアを含むことができる。ＯＣＲモジュール160は、スキャナによってスキャンされた画像のテキスト表現を生成できるソフトウェアを含む。文書入力モジュール165は、(例えば、抽出システム100又は他の場所で前処理された)前処理済みの文書を使って作業して情報(例えば、トレーニングセット)を取得できるソフトウェアを含むことができる。文書表現(例えば、画像及び／又はＯＣＲテキスト)は、抽出モジュール150に送ることができる。文書変換モジュール170は、１つの形式から別の形式に(例えば、ワードからＰＤＦに)文書を変換できるソフトウェアを含むことができる。テキスト処理統計分析モジュール175は、生成されたテキストを統計分析してテキスト情報を前処理できるソフトウェアを含むことができる。例えば、単語の頻度、等のような情報を提供することができる。文書／出力後処理モジュール180は、結果の文書を特定の形式(例えば、ユーザによって要求されたフォーマット)で作成できるソフトウェアを含むことができる。更に、文書／出力後処理モジュール180は、更なるフォーマッティングと処理とのために、結果の情報を第三者又は内部のアプリケーションに送ることができる。システム管理モジュール185は、管理者がソフトウェアとハードウェアとを操作できるようにするソフトウェアを含むことができる。１つの実施形態では、個々のモジュールは、(特定の入力インターフェースを介して)接続できるソフトウェアモジュールとして実施され、その出力は、更なる処理のために望ましいモジュールに転送され得る。記載されている全てのモジュールは、記載されている情報処理インフラストラクチャ内の、１つ又は多数のＣＰＵ、仮想マシン、メインフレーム、或いはシェルにおいて実行できる。

抽出モジュール150は、コーディングと、学習と、抽出と、バリデーション（validation、妥当性確認）とを行なうことができるソフトウェア(図２−８に関連して更に説明される）を含む。抽出モジュール150によって生成された追加の情報は、データベース145又は外部の入力(例えば、入力ユニット130と、通信ユニット135と、通信ネットワーク101と、ハードディスクユニット120と、管理モジュール185)に送ることができる。後処理モジュール180を使用して又は使用せずに、様々なコンポーネント(例えば、出力ユニット105、ディスプレイユニット110、ハードディスクユニット120、メモリユニット125、通信ユニット135、通信ネットワーク101、変換モジュール170、データベース145、ＯＣＲモジュール160、スキャナ140、統計分析モジュール175)における入力パラメータとして、抽出モジュール150の出力の一部又は出力を記憶、提示、又は使用することができる。このようなフィードバックシステムが、インタラクティブに精度を高めることを可能にしている。

図２は、１つの実施形態に従って、抽出モジュール150の詳細を示している。抽出モジュール150は、全てのタイプの入力を扱う入力ユニット205を具備することができる。このような入力は、インボイス、送金額の明細書、貨物引換証、小切手、投票用紙、申し込み用紙、ダイヤグラム、印刷された表情報、又は証明書、或いはこれらの任意の組み合わせを含むが、これらに制限されない。文書は、色々なファイル形式と、色々な文書のインスタンス(例えば、画像とテキストの情報)とを含むことができる。入力ユニット205は、他の入力生成ユニット(入力ユニット130と、スキャナ140と、ＯＣＲモジュール160と、文書変換モジュール170と、データベース145と、文書入力モジュール165)によって提供されたデータへの接続器として使用され得る。抽出モジュール150は、抽出器及び内部整合性チェッカ210を更に含むことができる。抽出器及び内部整合性チェッカ210は、入力から情報を抽出して、抽出された情報をチェックして、それが正確であるかどうかを決定することができる。このようなチェックは、ビジネスルールのバリデーション、税率と規定された税金とが合計に一致しているかどうかを調べるためにこれらを比較すること、インボイス番号のチェックサム、又はデータベースに記憶されている学習セットとの相互参照、或いはこれらの任意の組み合わせであるが、これらに制限されない。１つの実施形態では、抽出器は、内部整合性チェッカと別々であり得ることに留意すべきである。抽出器及び内部整合性チェッカ210は、外部バリデータ215と情報を交換してもよい。外部バリデータ215は、システム内の(検索され、更に、抽出又は生成された)情報にオーバーライドして、修正して、承認することができる。外部バリデータ215は、他の源からの情報(例えば、ソフトウェア、記憶されている情報)又は人間の決定であり得る。抽出器及び内部整合性チェッカ210と、外部バリデータ215とを、記憶ユニット225(例えば、メモリ、ファイル、データベース)に接続することができる。記憶ユニット225は、抽出器及び内部整合性チェッカ210と外部バリデータ215とが見付けた情報の全てを記憶することができる。外部バリデータ215からの情報は、文書のテキスト表現内のＯＣＲのエラーの修正、文書画像の手動回転、処理文書の言語の変更、又はシステム内で使用されている任意のパラメータの適合、或いはこれらの任意の組み合わせを含むが、これらに制限されない。

抽出モジュール150のうちの幾つか又は全ての要素は、管理ユニット230によって操作され得る。全てのモジュールが、自身の管理モジュールを有し得ることに留意すべきである。これらの自身の管理モジュールは、管理モジュール185と呼ぶことができる。更に、管理モジュール185は、図１の抽出システム100において概説したハードウェアとソフトウェアのネットワーク内の接続とインフラストラクチャとを操作できる。出力は、出力プリプロセッサ220によって前処理されて、出力ユニット250に送られ得る。出力の前処理と、出力と、記憶と、管理とにより、抽出モジュール150は、その環境とインタラクトすることができ、文書分析の内部状態を記憶及び／又は検索することができる。内部状態は、文書に関する様々な情報を含むことができる。様々な情報は、例えば、学習した情報；抽出された統計；集められたキーワード(例えば、送金額の明細書における「ｃｈｅｃｋａｍｏｕｎｔ（勘定金額）」、貨物引換証における「ｓｈｉｐｔｏ（出荷先）」の住所、インボイスにおける「ｉｎｖｏｉｃｅｎｕｍｂｅｒ（インボイス番号）」、契約書における「ａｕｔｈｏｒ（作成者）」、販売注文における「ｐａｒｔｎｕｍｂｅｒ（品番）」、医療請求又は給付金支払明細書における「ｐａｔｉｅｎｔｎａｍｅ（患者名）」、等のような、近隣フィールド値に関する情報を含んでいる文書における、キャラクタ（character）、文字(letter)、記号、語句、数字、或いは、これらの寄せ集め又はストリング）、Ｎ−グラムの特徴(即ち、ターゲットフィールドの周辺のテキスト形式のもののＮ−グラムに関係付けられた情報。Ｎ−グラムについては、より詳しく後述する)；画像のパーティクル(更なる説明については、図３におけるターゲットコーデックモジュール310を参照)；パラメータ；又はデータセット(例えば、１つ又は多数の入力文書と、肯定又は否定の例としてインポートされた文書の組と、辞書と、そこから引き出されるものとを含む。これは、Ｎ−グラムの特徴に関係付けられた統計を含むことができる)；或いはその任意の組み合わせであるが、これらに制限されない。

Ｎ−グラムは、アイテムのサブシーケンスである。Ｎ−グラムは、ターゲットフィールドの周辺のテキストのアイテムに関する情報を提供することができる。このアイテムは、用途に従って、音素、音節、文字、単語、語幹の対、等であり得る。Ｎ−グラムモデルは、統計に基づく自然言語の処理において使用され得る。一連の単語(例えば、ｔｈｅｃａｔｓｍｅｌｌｅｄｌｉｋｅ)の場合は、トリグラム(即ち、３グラム)は、「＃ｔｈｅｃａｔ」と、「ｔｈｅｃａｔｓｍｅｌｌｅｄ」と、「ｃａｔｓｍｅｌｌｅｄｌｉｋｅ」とである。一連のキャラクタ（例えば、ｓｍｅｌｌｅｄ）の場合は、トリグラムは、ｓｍｅと、ｍｅｌと、ｅｌｌと、ｌｌｅと、ｌｅｄとである。前処理をすることによって、Ｎ−グラムから、スペース、句読点、等を減らす又は取り除くことができることに留意すべきである。Ｎ−グラムのタイプのオプションは、連続するＮ−グラムのパーティクル間の相対的な変化をコード化するデルタグラムを含む。更に、色々なタイプの前処理を選択することができる。色々なタイプの前処理は、前処理なし、「単語の併合」(例えば、ＯＣＲで分割されたテキストのフラグメントを修正して、それらを併合すること)、他のＯＣＲエラーキャラクタの交換(例えば、混同行列に基づいて、「０」から「Ｏ」又は「Ｉ」から「１」への変換)、重要でないキャラクタの削除、或いは小文字又は大文字への変換、若しくはこれらの組み合わせを含むが、これらに制限されない。

図３は、１つの実施形態に従って、抽出器及び内部整合性チェッカ210の抽出器部分の詳細を示している。入力ユニット305は、ターゲットコーデックモジュール310へ入力(例えば、文書)を受け取る。ターゲットコーデックモジュール310は、ターゲット(即ち、特徴)コーデック(即ち、コーダ／デコーダ)の１乃至Ｎのインスタンスを使用して、文書中のターゲットに関係する内容と、文脈と、位置と、他の表現とに関する情報を抽出することができる。この抽出情報は、Ｎ−グラムの特徴に関係する統計、ターゲット(例えば、顧客のアドレスに対してある位置を有するロゴ)をアンカーすることができるグラフィックの特徴、又は、内容に対するバリデーションルール(例えば、特定のフォーマットを有し、自身のチェックサムを含む数)、或いはその任意の組み合わせを含むことができるが、これらに制限されない。

入力ユニット305は、他の入力からの全ての文書フォーマットを収集して、それらをターゲットコーデックモジュール310に適合させることができる。ターゲットコーデックモジュール310は、図４と、図４に付随する記載とに、より詳しく説明されている。文書コーデックモジュール311は、完全な文書(多数の頁から構成され、グラフィックとテキストの情報の組み合わせのような色々な外観を有し得る)の表現(例えば、１又は多数の特徴の組）を含み、一方で、ターゲットコーデックモジュール310は、文書の一部(頁、章、段落、行、単語、等であり得る)を処理することができる。

抽出器学習モジュール315は、システムをトレーニングすることができる。抽出器学習モジュール315は、ターゲットが抽出されるべき文書とその文書に関する情報とを提供され得る。このような学習セットは、処理される色々な文書のタイプの見本から構成され、少数の文書又は何百もの文書を含むことができる。例えば、インボイスにおけるフィールド「ｔｏｔａｌａｍｏｕｎｔ（合計金額）」を抽出ターゲットとして希望している場合に、その文書におけるそのフィールドの位置と値とを抽出器学習モジュール315に提供して、抽出器学習モジュール315は、そのフィールドに通常関連付けられている所定の例の特徴から、ランク付けして一般化する。例えば、インボイスからの「ｔｏｔａｌａｍｏｕｎｔ（合計金額）」は、単語「ｔｏｔａｌ（合計）」と「ｇｒｏｓｓ（総計）」のＮ−グラムの特徴のような特徴を見付けることによって、或いは一般的な日付の書式(例えば、１２Ｊａｎ２００５)とロゴからの相対的な位置を使用することによる日付の抽出によって、場所を特定できる。次に、これらの相関関係の統計を処理して、学習処理の一部として記憶する。抽出器学習モジュール315は、図５と、図５に付随する記載とに、より詳しく説明されている。

トレーニング後に、抽出器実行モジュール320は、システムを実行することができる。次に、(抽出器学習モジュール315によって取得されて、処理されて、記憶された)学習した情報を検索して、それを使用して、新たな文書におけるターゲットの場所を特定できる。抽出器実行モデル320は、図６と、図６に付随する記載とに、より詳しく説明されている。入力ユニット305と、記憶部325と、管理部330と、出力ユニット335は、図２に記載されている機能と同様の機能を行なう。記憶ユニット325は、それが属しているモジュール、即ち、抽出器及び内部整合性チェッカ210に関係する情報のみを記憶できる。これは、図の中の他の記憶ユニットにも当てはまる。記憶ユニットを実現したものは、物理的に異なる場合もあり、異なる(保護された)論理ユニットの中に含まれていることもある。出力ユニット335は、その出力を処理できる全てのモジュールと、更に、可能性のある出力を全て送ることができる出力ユニット105とに、出力を送ることができる。出力ユニット105は、全ての処理をモニタ(例えば、追跡、監視)できる。

図４は、１つの実施形態に従って、ターゲットコーデックモジュール310の詳細を示している。文書は、入力ユニット405に入力され得る。入力ユニット405は、ターゲットコーデックモジュール310に適した入力のみを許可でき、この観点において、入力ユニット405は、入力ユニット130、205、305と異なり得る。入力される文書の情報は、テキストの特徴410、幾何学的特徴415、又はグラフィックの特徴420、或いはこれらの任意の組み合わせを含み得るが、これらに制限されない。テキストの特徴410は、単語の特徴425(例えば、「ｄａｔｅ（日付）」)、Ｎ−グラムの特徴430(例えば、単語Ｂｒａｉｎ（脳）に対するトリグラムの場合は、ＢＲＡＲＡＩＡＩＮ)、語句の特徴435(例えば、「Ｉｎｖｏｉｃｅｄａｔｅ（インボイスの日付）」)、タイプの特徴440、又は複合特徴445であり得る。タイプの特徴440は、フォーマットのタイプと内容のタイプとを含むことができる。フォーマットのタイプは、正規表現と同等の表示を含み得るが、これに制限されない。正規表現と同等の表示は、例えば、Ｎが数字（Number)を表わし、Ａが英数字キャラクタ（alphanumerical character）の特徴を表わす場合に、ＮＮ−ＮＮＡＡＡである。例えば、インボイス番号０８−０４Ａ６Ｋは、年(０８)と、月(０４)と、個々のインボイスを識別する英数字部分とをコード化できる。内容のタイプは、国際銀行の口座番号(International Bank Account Number, IBAN)システムに適用するチェックルール又は構成を含み得るが、これに制限されない。例えば、ＤＥ９０１２３４５６７８００２３４３４５６６は、銀行のＩＤ番号１２３４５６７８と、口座番号２３４３５６６とを有するドイツ銀行の口座を表わすことができる。ＩＢＡＮのコード化は、チェックサム及びバリデーションルールと、特定のフォーマットとを含むことができる。更に、複合特徴445を構築することができる。例えば、Ｄ，ＤＡ，ＤＡＴ，ＡＴＥ．．．とＮＮ／ＮＮ／２００Ｎのような、Ｎ−グラムのリストとフォーマットのタイプとの組み合わせを構築することができる。１つの実施形態では、Ｎの位置に妥当な数字(例えば、月（month）の位置の１桁目に対して、０又は１)のみを許可するように、Ｎを制約することができる。

幾何学的特徴415は、絶対座標450、相対座標455、又は複合特徴460、或いはこれらの任意の組み合わせを含むことができる。絶対座標450は、特定の文書のパーティクル(即ち、ターゲットの位置に対する、１つ又は多数の特徴又は特徴の組み合わせの任意のクラスタ)に配置された座標であり得る。例えば、語句「ＩｎｖｏｉｃｅＮｕｍｂｅｒ（インボイス番号）」は、ｉｎｖｏｉｃｅｎｕｍｂｅｒ（インボイス番号）のフィールドのための、その頁の左上の隅から下に５インチ及び右に０．２インチを示している。Ｎ−グラム、等においても語句をコード化できるのは当然である。相対座標455は、他のパーティクル又は他の特徴を基準とする座標であり得る。例えば、ターゲットは、語句「ＴａｘＩｄｅｎｉｔｉｆｉｃａｔｉｏｎＮｕｍｂｅｒ（納税者識別番号）」のテキスト特徴表現の後の左に０．２インチ及び下に２インチを示し得る。

複合特徴460は、絶対座標450と相対座標455との組み合わせであり得る。例えば、階層座標(即ち、相対座標455)とデカルト積空間(即ち、絶対座標450)とを使用することができる。階層座標は、フィールド間の空間関係を反映する位置ベクトルの階層の集合であり得る。例えば、インボイスの場合に、ｔｏｔａｌａｍｏｕｎｔ（合計金額）のフィールドは、「ｂｉｌｌｔｏ（請求書送付先）」のアドレスフィールドと異なり、ｔａｘ（税）、ｆｒｅｉｇｈｔ（運送料）、ｓｕｂｔｏｔａｌ（小計）のフィールドに、比較的に近いかもしれない。このような階層は、特有のものであって、複数のオプションを含むことができる。座標は、絶対座標及び／又は相対座標で表わすことができる。デカルト積空間は、文書上のターゲットの場所を２つの数値座標によって特定できる。より容易に分類／学習するために、より高次元の特徴空間も構築できる。デカルト積(又は、積集合)は、直積集合である。集合Ｘ(例えば、ｘ軸上の複数の点)とＹ(例えば、ｙ軸上の複数の点)とのデカルト積(例えば、ｘ−ｙ面の全体である)は、可能性のある順序対の全ての集合であり、その第１の成分はＸのメンバであり、その第２の成分はＹのメンバである。２つの有限集合のデカルト積は、テーブルによって表わすことができ、行としての一方の集合と、列としての他方と集合とを有し、行と列とから集合の要素を選択することによって、順序対(例えば、テーブルのセル)を形成することができる。任意(恐らくは、無限)の集合の族のデカルト積を定義することが可能である。

グラフィックの特徴420は、色チャネル及び／又は画素461、画像変換465、或いは複合特徴470、若しくはこれらの任意の組み合わせを含むことができる。色チャネル及び／又は画素461は、ある特定の色、例えば、全ての色濃度における、赤と、緑と、青と、全ての混合とを含むことができる（しかしながら、これらに制限されない）。例えば、「ａｍｏｕｎｔｄｕｅ（支払額）」が赤で印刷されている場合に、この色情報を使用して、「ａｍｏｕｎｔｄｕｅ（合計金額）」のターゲットを検索することができる。画像変換465は、デスキュー（de-skew）と、フーリエ変換(Fourier-Transformation, FT)と、ウェーブレットとを含むことができる。スキャナにおける文書の位置合わせが悪いことが原因で、抽出された座標がずれていた場合に、画像をデスキューして、修正することができる。更に、フーリエ変換とウェーブレットとを使用して、低品質のスキャン又は印刷におけるノイズ(例えば、高周波)のバックグラウンドをフィルタにかけて取り除くか、ピクチャ又はウォーターマーク、等をフィルタにかけて取り除くか、或いは文書における反復構造(例えば、準結晶構造を備えた高度に構造化されたテーブル)をコード化することができる。複合特徴470は、画素のクラスタ及び／又は周波数帯を含むことができる。画素クラスタ(例えば、輪郭のはっきししたロゴ)の後に始める画像変換(例えば、ウォーターマーク)に関する情報を、このやり方でコード化することができる。

特徴変換ユニット475は、１つの特徴表現を別の特徴表現に変更することができる。１つの実施形態では、語句又は単語の特徴に基づいて、Ｎ−グラムを計算することができ、逆もまた同じである。例えば、単語「ｂｒａｉｎ（脳）」をバイグラム( ｂ，ｂｒ，ｒａ，ａｉ，ｉｎ，ｎ )としてコード化することができ、この場合に、これらのバイグラムが現れる順序をそのバイグラムと共に記憶すると、それを一緒に再び結合して、「ｂｒａｉｎ（脳）」を完全に綴ることができる。別の例として、語句の特徴(例えば、「ＩｎｖｏｉｃｅＮｕｍｂｅｒ（インボイス番号）」)を使用する場合に、これを２つの単語の特徴(例えば「Ｉｎｖｏｉｃｅ（インボイス）」と「Ｎｕｍｂｅｒ（番号）」)に分割して、次に、再び組み合わせることができる。特徴複合ユニット480を使用して、異なる特徴の組(例えば、幾何学的特徴と組み合わされたテキストの特徴)を含んでいるパッケージを構築することができる。例えば、幾何学的特徴の座標６２５×８７１において、テキストの特徴「ｄａｔｅ（日付）」が見付かることが示され得る。

出力ユニット485は、ターゲットコーデックモジュール310の出力を受け取って、その情報を、抽出システム100の別の要素に渡すことができる。例えば、語句と座標とのコード化されたパッケージを抽出器学習モジュール315に転送でき、抽出器学習モジュール315において、これと他の情報とを組み合わせることができる。別の例として、抽出器実行モジュール320は、学習セットと比較して、候補ランク付けシステムに影響を及ぼすことができる。

図５は、１つの実施形態に従って、抽出器学習モジュール315の詳細を示している。抽出器学習モジュール315は、システムのトレーニングに使用される。抽出器学習モジュール315は、文書と、その文書からどのターゲットが抽出されるべきかに関する情報とを提供され得る。例えば、抽出するターゲットとして、フィールド「ｔｏｔａｌａｍｏｕｎｔ（合計金額）」を希望している場合に、文書上のそのフィールドの値と位置(例えば、頁番号とその絶対位置)が、抽出器学習モジュール315に提供され得る。抽出器学習モジュール315は、「ｔｏｔａｌａｍｏｕｎｔ（合計金額）」のターゲットに通常関連付けられている所定の例のキャラクタと相関関係とから、ランク付けして一般化する。次に、これらのキャラクタと相関関係の統計を処理して、学習処理として記憶することができる。抽出器学習モジュール315は、更なる抽出(即ち、抽出器実行モジュール320)のための基礎を定めることができる。その後に、収集された情報と、統計と、肯定及び否定の例が、候補のランク付けのための基準として使用され得る(例えば、図７の725と、図８の825を参照)。

抽出器学習モジュール315は、ターゲットコーデックモジュール310と文書コーデックモジュール311とから、入力ユニット505における入力を受信することができる。文書コーデックモジュール311又は（ターゲットコーデックモジュール310によって提供された文脈における）文書コーデック情報を有する(ターゲットコーデックモジュール310によって提供された場所とものの)文書コーデック情報からのこれらの入力の組み合わせを、学習処理に使用することができる。例えば、周辺の文脈の情報を学習して、多数の文書に対する一般化を可能にするために、ターゲットの値と、位置と、それが埋め込まれている文書が必要であり得る。

入力ユニット505は、抽出器学習モジュール315のために有効な入力のみを受け入れることができ、従って、入力ユニット130、205、305、405と異なり得る。ターゲットのコーデック情報と文書のコーデック情報は、同じコーデック方式を有することができる。その理由は、さもなければ、例えば、Ｎ−グラムと画素クラスタとの比較が明確な一致をもたらさなくなくなるからである。入力されると、統計分析モジュール510、空間特徴分布モジュール515、文脈特徴分布モジュール520、関係特徴分布モジュール525、導出特徴分布モジュール530、ターゲットランク付けシステム535、及び／又はターゲットバリデーションシステム540、の任意の組み合わせを、学習に使用することができる。これらの異なる学習モジュールは、基礎データとその分布との様々な側面をカバーできる。異なる学習モジュールは、異なる強さと弱さとを有し得る。従って、特定の学習モジュール又は多数の学習方法の組み合わせを適用すると、より高い抽出性能をもたらし得る。

統計分析モジュール510は、最も重要な特徴に焦点を合わせるのに役立ち得る。最も重要な特徴は、タスクに応じて、最も目立つ特徴又は最も定型的でない特徴の組の何れかであり得る。統計分析モジュール510は、Ｎ−グラムに基づいており、ベイズ推定又はベイズネットワークのようなベイズ方法を可能にする。

空間特徴分布モジュール515は、ターゲットの局限化（localization）に役立ち得る。従って、空間特徴分布モジュール515を使用して、抽出問題の範囲を、ターゲットが見付かる見込みが最も高いエリアに小さくすることができる。文脈特徴分布モジュール520は、ターゲットを囲んでいる１つ又は多数のアンカーを表わして、文書上の座標に関係なく、現在のターゲットの近隣にある、可能性のあるターゲット、又はターゲット、に関する情報に重みを付けることができる。従って、文書の全体にわたって非常に不定に局限されるターゲットを見付けることができる。関係特徴分布525は、ターゲットが内部で見付かり得るエリア／領域／特徴の組を示すことができる(例えば、第２頁の左上の隅は、文書が印刷された日付を示している)。更に、関係特徴分布525は、異なるターゲット、ターゲットの位置、又は他の位置間の局所的又は全体的な関係から、情報を集めることができる。導出特徴分布モジュール530は、他の学習モジュール間の数学的変換によって生成され得る。従って、例えば、導出特徴分布モジュール530は、統計分析510、空間特徴分布515、文脈特徴分布520、関係特徴分布525、又はターゲットランク付けシステム535、或いはこれらの任意の組み合わせから演繹される分布を計算して組み合わせることができる。

ターゲットバリデーションシステム540は、フィールドと文書との全体にわたって候補の妥当性を内部でチェックすることができる。この点で、第２のレベルのランク付けに対して、肯定又は否定の反例を得ることができる。ターゲットバリデーションシステム540は、ターゲットの候補である尤度に関する良い情報を提供できる。例えば、同じ文書内で、特定のチェックサムを満たす別の数を見付ける見込みは低い。このバリデーション情報に基づいて、より弱い否定の特徴により小さい重みを付け、及び／又は、肯定の特徴により大きい重みを付けることができる。

出力ユニット545は、抽出器学習モジュール315の出力を受け取って、その情報を、抽出システム100の別の要素に渡すことができる。例えば、ランク付けされたリストを記憶するか、印刷するか、視覚化するか、データベースに送るか、学習セットに統合するか、他のアプリケーションに送るか、又は出力後処理モジュールに送るか、或いはこれらの任意の組み合わせができる。

図６は、１つの実施形態に従って、抽出器実行モジュール320の詳細を示している。ターゲットコーデックモジュール310と、文書コーデックモジュール311と、抽出器学習モジュール315とから、入力ユニット605に入力を供給することができる。特徴分布610(空間特徴分布515と、文脈特徴分布520と、関係特徴分布525と、導出特徴分布530)と、ターゲットランク付けシステム535とが適用され得る。次に、全ての情報を候補ランク付けシステム615に収めることができる。候補ランク付けシステム615は、以前に学習した情報に従って、新たな文書からの候補に順序を付ける。候補ランク付けシステム615内において、尤度に従ってフィールドに対する候補をソートするスコアを得ることができる。このスコアは、数学を用いた組み合わせによって、及び／又は重み付けによって、学習した情報に直接に基づくことができる。例えば、ターゲットの候補について２つ以上の特徴が十分に表されている場合に、一致する特徴が１つ又はないものと比較して、その候補をより高くランク付けすることができる。候補ランク付けシステム615は、多くのターゲットと多くの特徴の形態とをランク付けに使用できる点で、この候補ランク付けシステム615は、ターゲットランク付けシステム535と異なり得る。例えば、幾つかの実施形態では、１つの候補は２つの非同一フィールドに対して有効になり得ない。従って、既に設定された候補を候補リストから取り除くことができる。これは、文書内における不十分なフォーマットの定義及びＯＣＲのエラーの状況において適切であり得る。例えば、１０／０３／０５は、日付であるか、又は、ＯＣＲのエラーを伴うインボイス番号(例えば、１０７０３／０５と読むべきである)でもあり得る。このような場合に、ターゲットフィールド候補の組の全体にわたって候補にフィルタをかけることが役立ち得る。上述で概略的に説明したように作成された、（１から多数にわたって）ランク付けされた１組の候補は、確率スコアを含むことができる。この確率スコアは、候補バリデーションシステム620に渡され得る。候補バリデーションシステム620は、例えば、人間の検証者又はデータベースに、この結果を転送することができる。次に、抽出器実行モジュール320の出力を抽出モジュール150(図１)にフィードバックして、これをメインシステム100に供給して、例えば、結果を提示するために、及び／又は抽出モジュール150の漸進的な学習と適応のために、再使用することができる。

図７は、１つの実施形態に従って、抽出モジュール150の方法700を示している。図３と５に関連して上述でより詳しく説明されているように、701において、抽出システム100をトレーニングするために、１組の文書に対して抽出器モジュール315を実行する。705において、抽出器実行モジュール320を実行して、文書上のターゲットエントリ(例えば、インボイス上のｔｏｔａｌａｍｏｕｎｔ（合計金額）)に対する可能性のある一致（possible match）(即ち、候補)を生成して、尤度に従ってランク付けすることができる。既に記載したように、抽出器実行モジュール320が、図６に記載されているように、この機能を行なうことができる。

抽出された全てのターゲットフィールドに対して、可能性のある一致候補のリストを別々に順次にコンパイルすることができる。所定のフィールドに対する候補のリストを作成するために、単語のプール(文書コーデックモジュール311を参照)を連続的にスキャンして、エントリごとに、全てのストリングと全てのサブストリング(又は、特徴コーデックユニットにおいて概略的に説明したように、他の特徴と特徴のサブセット)を検査することができる。

空間特徴分布モジュール515、文脈特徴分布モジュール520、関係特徴分布モジュール525、又は導出特徴分布530、或いはこれらの任意の組み合わせを使用して、各ターゲットに対する個々の可能性のある候補についての属性スコアと局限化スコアとを決定することができる。属性スコアは、テキストの長さとフォーマット及び／又はフィールドのパターン特性(即ち、正規表現において使用されているものに似ている)を扱った基準に基づくことができる。属性の例は、次のフィールドの長さ、フォーマット、パターン、又はキャラクタである。

・フィールド「ｉｎｖｏｉｃｅｎｕｍｂｅｒ（インボイス番号）」＝「００００５６」、又は「×３４５６」又は「１９５４３５６７」．．．
・フィールド「ｉｎｖｏｉｃｅｄａｔｅ（インボイスの日付）」＝「０１／１４／０３」又は「０９／２２／２００１」又は「１１ＤＥＣ１９９９」
・フィールド「ｔｏｔａｌａｍｏｕｎｔ（合計金額）」＝「１，１７６．２２」又は「＄１７０．００」又は「６９９．２８」
フォーマットの属性スコアの計算の一例を、学習したフォーマット「＄＋ｄｄｄ．ｄｄ」について以下で詳しく説明する。文書上の所定のテキスト、即ち、「＄＃１２３．４５／」(ＯＣＲのエラーを含んでいる)に関して、これを評価する場合に、スコアリングは、各々２で重み付けされた７個のフォーマットのヒット(＄記号と、小数点と、５つの数字)を計数して、１で重み付けされた１つの不一致（＃対＋）と、１で重み付けされた最後の追加の１つのキャラクタ（例えば、／）とを計数する。合計の属性スコアは、これらの部分の加重和又は一次結合(例えば、７（２）−１（１）−１（１）＝１２)であり得る。なお、提示されているフィールドのタイプに対して学習した他の全てのフォーマットのストリングの統計によって、重みが決まる。重みは、フィールドのタイプに応じて変わり得ることに留意すべきである。

局限化スコアは、フィールド又は特徴のＸ、Ｙ分布を扱う基準に基づくことができる。局限の例は、次の通りである。

・フィールド「ｉｎｖｏｉｃｅｎｕｍｂｅｒ（インボイス番号）」は、主として、最初の頁の右上に配置されている。

・フィールド「ｉｎｖｏｉｃｅｄａｔｅ（インボイスの日付）」は、主として、最初の頁の右上に配置されている。

・フィールド「ｔｏｔａｌａｍｏｕｎｔ（合計金額）」は、主として、最終頁の最下部(の右側)に配置されている。

空間と、文脈と、関係と、導出の基準に対して最高点のスコアを取るフラグメントを、候補として取り上げて、それに応じて、スコアを付けることができる。候補の最大数と基準の厳しさの程度とを、調整可能なパラメータによって適応させることができる。局限化スコアの計算の例は、所定のフィールドのＸとＹの座標に対する(分散のような学習セットの統計に基づく)重み付き線形積分であり得る。例えば、書類(例えば、用紙の上部の８インチと、用紙の側部の１１インチ)に印刷されたインボイスの文書において、Ｙ座標は、より大きな変化を示すことができ(例えば、「ｔｏｔａｌａｍｏｕｎｔ（合計金額）のフィールド」は、異なるインボイスの文書におけるＹ軸上の多数の位置に配置され得る)、従って、Ｘの位置と比較して、より小さい重みを付けられる。その理由は、この例では、Ｘの位置はより大きな安定性を示すことができる（例えば、「ｔｏｔａｌａｍｏｕｎｔ（合計金額）のフィールド」は、Ｘ軸上の同じような位置に配置されることが多い）からである。

文書のトレーニングセットがほぼ同じような文書から構成されている場合は、候補数を減らすことができるように、空間と、文脈と、関係と、導出の基準をより強化しなければならないことに留意すべきである。文書のトレーニングセットが異なる文書から構成されている場合は、候補数を増やすことができるように、属性と局限化の許容差をより緩和することができる。

属性スコア情報と局限化スコア情報とを使用して、各ターゲットフィールドに対する可能性のある一致候補のリストを生成できる。更に、属性スコア情報と局限化スコア情報は、（例えば、後述でより詳しく説明する、第２の検索段階、ランク付け段階中に）各候補に「付加された」ままであり得る。

705において可能性のある一致候補のリストを生成した後で、706において、(後述でより詳しく説明する、統計に基づく重み付けを有している又は有していない)Ｎ−グラムに関係付けられた統計を決定でき、各ターゲットに対して、肯定の特徴のリストと否定の特徴のリストとを作成することができる。テキストの特徴410、統計分析510、及び／又は特徴分布515、520、525、530を使って、抽出器学習モジュール315及び抽出器実行モジュール320を相互に実行することによって、これを行なうことができる。例えば、抽出器学習モジュール315によって実行される学習段階中に、肯定の特徴(例えば、「１０／２５／０２」は、フィールド「ＤＡＴＥ（日付）」の近くで見付かる)を収集することができる。実行段階中に、抽出器実行モジュール320を使用して、高いスコアを有する(従って、それが望ましいフィールドである尤度が非常に高い)１つの候補が見付かると、システムは、学習セットから「良い」又は「肯定」と見なされる特徴と、文書中の特徴の補足とに基づいて、否定の特徴のリストを自動的に生成できる（例えば、「Ｎｕｍｂｅｒ（番号）」は「ＩｎｖｏｉｃｅＮｕｍｂｅｒ（インボイス番号）」と「ＯｒｄｅｒＮｕｍｂｅｒ（注文番号）」との両者に現われるので、「Ｎｕｍｂｅｒ（番号）」が重複する単語であるときに、ＯｒｄｅｒＮｕｍｂｅｒ（注文番号）のフィールドに対する否定の特徴のリストに「Ｎｕｍｂｅｒ（番号）」を追加することができる）。この手続きにより、肯定と否定の特徴の対照的で、重み付けされたリストを得ることができる。このプロセスは、学習段階においても適用され得ることに留意すべきである。

全てのフィールドに近接している単語に対して、Ｎ−グラムの統計表（別名：「Ｎ−グラム頻度ヒストグラム」又は「Ｎ−グラム頻度プロファイル」)を作成することができる。図９は、１つの実施形態に従って、フィールド「日付」の周辺の単語(又は、他のテキストパーティクル)のＮ−グラム／単語／肯定又は否定の例示的な統計の空間サンプリングの一例の文書に対する展開と分解とを示している。フィールド「日付」905は、ボックスによって示されている。フィールド「日付」905に対して、角度境界領域（angular boundary domain）が関係付けられており、これらの角度境界領域は、細い点線910によって表わされている様々なセクションに、文書を分割して、１２個の角度の分解について示されている。

フィールド「日付」に関係付けられた空間領域を示すために、大まかなゾーン915、920、925を表わして、文書をセクションに分割する別のやり方を示している。例えば、ゾーン１(920)は、キャラクタ「１０／２５／２００２」の左と上とにセクションを作っている太い点線によって表わされている。同様に、ゾーン２(925)は、キャラクタ「１０／２５／２００２」よりも下にセクションを作っている太い点線によって表わされている。更に、ゾーン０(915)は、キャラクタ「１０／２５／２００２」を囲んでいるセクションを作っている太い点線によって表わされている。

角度境界領域910と、空間領域915、920、925とを使用して、対象フィールドに関連してどの情報が通常見付かるかを学習して適用することができる。例えば、図９では、これらの境界を適用すると、会社の名前が、日付フィールド905の左と上方にわたっていることによって、日付フィールド905(例えば、１０／２５／２００２)に位置的に関係付けられていることが分かる。更に、単語「Ｉｎｖｏｉｃｅ（インボイス）」が、ゾーン１(920)の中にあることが分かる。別のインボイスにおける日付フィールドをサーチするときに、同様の位置関係がおそらく当てはまるので、この情報を適用して、日付のフィールドに対する候補が正しいかどうかを決定するのを助けることができる。

１つの実施形態では、文書を一単語ずつ読み出すことができ、テキストを、１組の部分的に重なり合ったＮ−グラムに構文解析（parse）することができる。例えば、「Ｎｕｍｂｅｒ１２３」＝｛Ｎ，Ｎｕ，Ｎｕｍ，Ｎｕｍｂ，ｕｍｂｅ，ｍｂｅｒ，ｂｅｒ，ｅｒ，ｒ，１，１２，１２３，１２３，２３，３｝。同時に、１つの実施形態では、キャラクタを、より単純な形にされたキャラクタの組にマップすることができる(例えば、全てのキャラクタは大文字になり、及び／又は、全ての数字は「０」で表わすことができる）。「Ｎｕｍｂｅｒ１２３」＝｛Ｎ，ＮＵ，ＮＵＭ，ＮＵＭＢ，ＵＭＢＥ，ＭＢＥＲ，ＢＥＲ，ＥＲ，Ｒ，０，００，０００，０００，００，０｝。更に、似た形状を有する文字（letter）は、等しくすることができる：β＝Ｂ、

、等。次に、全てのＮグラムを、ある特定の範囲の整数に関連付けることができる（０・・ＴＡＢＬＥＳＩＺＥ）。なお、パラメータＴＡＢＬＥＳＩＺＥは、スペクトルの長さ（例えば、およそ８０００）である。

各フィールドに対して、Ｎ−グラムのスペクトルは、ＴＡＢＬＥＳＩＺＥの浮動小数点アキュムレータの空の配列、即ち、ｃｌａｓｓｐｓｓ［ＴＡＢＬＥＳＩＺＥ］として始まる。トレーニング中に、全てのＮ−グラムの数(Ｉｎｇｒ)に対する重みを付けられたスコアの合計を、対応するアキュムレータｃｌａｓｓｐｓｓ［Ｉｎｇｒ］に蓄積して、周辺の単語のＮ−グラムのスペクトルを提供する。このような「重みを付けられた」スペクトルにおける統計は、Ｎ−グラムの発生頻度を表わすだけでなく、全てのＮ−グラムの文書中の対応するフィールドに対する平均的な隣接度も表わす。Ｎ−グラムの重みと、フィールドに対するその位置との特定の関数従属性を、調整可能な位置関数によって与えることができる。単語がフィールドにより近付くほど、対応するＮ−グラムの重みはより大きくなる。統計は、全てのフィールドのＮ−グラムの対に対する距離と相互の位置とを考慮に入れる。例えば、北及び西に位置するＮ−グラムは、南又は東に位置するＮ−グラムよりも、大きな重みを一般に有する。Ｎ−グラムの重みの角度分布は、例えば、異方性であり得る。即ち、全ての異なる中間方向に対して、１４の角度領域のＮ−グラム統計を個別に集めることができる。空間サンプリングの例については、図９を参照すべきである。

例えば、フィールド「ｉｎｖｏｉｃｅｎｕｍｂｅｒ（インボイス番号）」は、関係するキーワードに属するＮ−グラム、例えば、北に対する、北西に対する、又は西に対する、「Ｉｎｖｏｉｃｅ」、「Ｎｏ．」、「Ｄａｔｅ」、「ＩＮＶＯ」、「ＶＯＩＣ」、「ＮＯ．」、「ＮＵＭＢ」、「ＤＡＴＥ」によって大抵は囲まれ得るが、無関係のキーワードに属するＮ−グラム、例えば、「ｔｏｔａｌ」、「ｏｒｄｅｒ」、「Ｐ．Ｏ．Ｎｒ」：「ＴＯＴＡ」、「ＯＲＤＥ」、「ＲＤＥＲ」、「Ｐ．Ｏ．」、等によって囲まれることはめったにない。

フィールド「ｔｏｔａｌａｍｏｕｎｔ（合計金額）」は、関係するキーワードに属するＮ−グラム、例えば、北に対する、北西に対する、又は西に対する、「ＴＯＴＡ」、「ＭＯＵＮ」、「ＤＵＥ」、「ＴＡＸ」、「ＮＥＴ」によって大抵は囲まれ得るが、無関係のキーワードに属するＮ−グラム、例えば、「ＮＮ／Ｎ」（Ｎは、日付フィールドにおける数字である）、「ＩＮＶＯ」、「ＮＵＭＢ」、「Ｐ．Ｏ．」、等によって囲まれることはめったにない。

１つの実施形態では、あまりにも長い持間がかかる場合は、各文書フラグメントに対して、(属性スコアと局限化スコアとに関し得る)Ｎ−グラム統計を計算しない。その代わりに、ランク付け段階中にのみ、候補に対してＮ−グラム統計を計算することができる。従って、１つの実施形態では、属性及び局限化スコアのみを使って、705においてソートされた候補のリストを作成することができる。Ｎ−グラム統計を使用すると、706におけるランク付け段階後に、最終的なより正確なスコアを得ることができる。

１つの実施形態では、トレーニング中に、全てのフィールドに対して、２つのＮグラムリストを作成して、ランク付けする。２つのＮ−グラムリストは、(対応するフィールドの近くに平均よりも頻繁に現われる周辺のＮ−グラムに対する)肯定の特徴のリストと、(平均よりも少なく現われる周辺のＮ−グラムに対する)否定の特徴のリストである。全てのＮ−グラムリストは、３つの空間ゾーンのサブリストから構成されている。即ち、「フィールドの前の」すぐ近くにあるテキストに対するゾーン１と、「フィールドの後の」すぐ近くにあるテキストに対するゾーン２と、フィールド自体の中のテキストに対するゾーン０である。フィールド自体又は任意の近隣の単語のＯＣＲの間違いがひどく多くても、Ｎ−グラム表現が実際のフィールドの場所を明らかにできるという点で、Ｎ−グラム表現は「ファジー性（fuzziness）」を有する。ファジー性は、トレーニングと抽出とに対して等しく有効であり得る。完全なＯＣＲの認識は必要ない。更に、全体的なＮ−グラムのスペクトルの代わりに、２つのリストを使用すると、より速くスコアを計算でき、中間的な（neutral）Ｎ−グラムからの「ノイズ効果」を低減できる。中間的なＮ−グラムは、２つのリストの何れにも属さず、文書フィールドの重要な特性を表わす可能性が低い。

別の実施形態では、Ｎ−グラムの近接度スコアを計算でき、更に、統計重み付け特性を考慮に入れることができることに留意すべきである。統計重み付け特性は、数値とアルファベットのＮ−グラム間の差(数値により小さい重みを付ける)か；１文字と、２文字と、３文字のＮ−グラム間の差(短いものにより小さい重みを付ける)か；「肯定」と「中間的な」Ｎグラムに対する２種類の空間の相互の「スクリーン」効果(「肯定」のＮ−グラムは肯定の特徴のリストに属し、「否定」のＮ−グラムは否定の特徴のリストに属し、「中間的な」Ｎ−グラムは、「肯定」又は「否定」のＮグラムのリストの何れにも属さない)(フィールドに近接する幾つかの等しい「肯定」のＮ−グラムがある場合は、それらの中で最も近い１つのみが対応するスコアに寄与し、フィールドに近接する任意の「中間的な」Ｎ−グラムが存在する場合は、より近い、更に、最も近い「肯定」のＮ−グラムが対応するスコアに寄与して、次に、各「中間的な」アイテムに対する幾らかのペナルティによってスコアを下げる）か；或いは、第２のステップのトレーニングによって提供された否定のリストに属するＮ−グラムの追加のペナルティを科すことか；若しくは、これらの任意の組み合わせを含むが、これらに制限されない。

１つの実施形態では、更に、Ｎ−グラムの近接度スコアは、キーワードの候補のペアリングを考慮に入れることができる。このペアリングは、全ての候補の好ましい「キーワード」を提供する。このように、１つのキーワードと多数の候補が近くに一緒に置かれている場合に、これらの間の曖昧な結合が除かれる。

従って、既に説明したように、ランク付けは、属性スコア(attribute score, ATTR)と、局限化スコア(localization score, LOC)と、Ｎ−グラムの近接度スコア(N-gram vicinity score, NGR)とを考慮に入れることができる。図７は、これらのスコアの使用を示していることに留意すべきである。706は、Ｎ−グラムの近接度スコアの使用を示している。705では、属性スコアと局限化スコアとを使用して、可能性のある一致を見付ける。１つの実施形態では、三次元空間の中の点で全ての候補を表わすことができる幾何学的配置によって、これを表わすことができる。１つの実施形態では、ランク付けスコア(score, SCR)の計算を次のように表現することができる。

ＳＣＲ＝ＮＧＲ＋（ｋ１×ＬＯＣ）＋（ｋ２×ＡＴＴＲ）（１）
なお、ｋ１とｋ２は、局限化スコアと属性スコアとの相対的な重みを考慮に入れた２つの調整パラメータである。

例えば、属性スコアは、例えば、Ｎ−グラムと、フォーマットスコアと、単語及び辞書ベースのスコアと、ＯＣＲ信頼度スコアと、310に挙げられている他の属性とを具備し得ることに留意すべきである。局限化スコアは、例えば、310において概略的に説明した、相対又は絶対座標と、他の座標とを具備し得る。

１つの実施形態では、スコアリングの式（１）において、ｌｏｃが、異なる局限化特徴、例えば空間特徴コーデック415に与えられている特徴である場合に、ＬＯＣは、

という形式を有し、ａｔｔｒが、異なる属性、例えば310において与えられている属性である場合に、ＡＴＴＲは、

という形式を有する。異なる局限化特徴の各々と、異なる属性の各々とに対して、異なる重みを与えることができることに留意すべきである。

式（１）におけるｋ１とｋ２を、全てのフィールドに対して個別に最適化できることに留意すべきである。図８は、１つの実施形態に従って、１つの特定のフィールドに対する幾つかの候補のスコアの二次元投影を示している。図８における候補０は、格段の最高のスコアを示しているので、これが格段に最良の候補であることは明らかである。更に、(例えば、人間による)マニュアルの検査は、それが正しい(望ましい)ターゲットであることを確認できる。図８における水平方向の線は場所のスコアを表わすことができ、垂直方向の線は属性のスコアを表わすことができ、水平方向の線はベイズ分類器からの超平面の断面を示すことができることに留意すべきである。これは、抽出と候補のソートの問題を線形分類器によって解決できることを示している。これは、全体的に、任意のシステムの高速学習と、（例えば、少なくとも、計算時間とスループットとに関する）高い性能とを示している。

710では、Ｎ−グラム統計によって見付けた否定の特徴が、705において見付けた一致に当てはまるかどうかを決めることができる。例えば、特徴が、抽出するフィールドの近くにある禁止された又は望ましくない単語であり得るかどうかを決定できる。例えば、「ｔｏｔａｌａｍｏｕｎｔ（合計金額）」を抽出する場合に、可能性のある一致「ａｍｏｕｎｔ（金額）」からある特定の距離内に単語「ｔａｘ（税）」があるものは許されないと定義することができる。否定の特徴がある場合は、プロセスは715に進む。そうでなければ、続いてプロセスは720に進む。715では、否定の特徴が当てはまる候補一致リストの中の可能性のある一致を全て取り出すことができる。720では、705においてＮ−グラム統計によって見付けた肯定の特徴のリストに照らして、候補をチェックする。肯定の特徴を使用して、特徴が候補の一部である確率を修正できる。従って、肯定の特徴は、候補のリスト又は所定の候補の望ましいフィールドを表わす確率を増加又は低減できる。否定の特徴は、望ましいフィールドを表わす候補の確率を下げ、「肯定」の特徴は、確率を上げる。例えば、抽出システム100は、「ｇｒｏｓｓ（総計）」が用語「ｔｏｔａｌａｍｏｕｎｔ（合計金額）」に対する正の反例であることを学習することができる。はい、即ち、幾つかの肯定の特徴がある場合は、725では、これらの反例に従って、可能性のある一致に対するスコアを更新でき、新たなスコアに基づいて、可能性のある一致のリストの順序を変更することができる。以前に生成された候補リストの中の候補のスコアを変更することによって、これを行なって、次に、更新された候補リストを得ることができる。次に、プロセスは、730に移ることができる。肯定の特徴がない場合は、プロセスは730に移る。ランク付けされた可能性のある一致のリストを、ユーザ又はアプリケーションに転送する。これは、ターゲットフィールドに対する候補の順序付けされたリストを生成する。実施形態に応じて、抽出値として、１つ（最高値）以上を使用できる。複数(例えば、３つ)の候補の場合に、上位３つを人間の検証者に提示して、そこから選択することができる。

上述に本発明の様々な実施形態を記載したが、これらは、制限的にではなく、例示的に提示されていると理解すべきである。本発明の意図と範囲から逸脱することなく、形式と詳細を様々に変更できることが、当業者に分かるであろう。従って、上述の例示的な実施形態のうちの何れかによって、本発明を制限すべきではない。

更に、図面は本発明の機能と特長とを強調しており、上述において図面は単に例示のために提示されていると理解すべきである。本発明の構造は十分にフレキシブルであって構成可能であるので、図面に示されていない他のやり方で本発明の構成を利用することができる。

更に、要約書は、概して、米国特許商標庁と一般の人々、特に、特許又は法律の用語と表現に精通していない科学者と、エンジニアと、実務家が、大まかに調べることによって、本出願の技術的開示の性質と本質とを判断できるようにすることを目的としている。何れにしても、要約書は、本発明の範囲を制限することを意図していない。

最後に、請求項のみが、米国特許法第１１２条第６項のもとで解釈される表現である「手段」又は「ステップ」を含むことを、出願人は意図している。用語「手段」又は「ステップ」を明示的に含んでいない請求項は、米国特許法第１１２条第６項によって解釈されるべきではない。
以下に、本出願時の特許請求の範囲に記載された発明を付記する。
[１] 少なくとも１組の文書の中の少なくとも１つの文書から情報を抽出する方法であって、
少なくとも１つのランク付け及び／又はマッチングプロセッサを使用して、前記少なくとも１つの文書における少なくとも１つのターゲットエントリに対する少なくとも１つの可能性のある一致を含んでいて、且つ少なくとも１つの属性スコアと少なくとも１つの局限化スコアとに基づく、少なくとも１つのランク付けされた可能性のある一致のリストを生成するステップと、
少なくとも１つの特徴プロセッサを使用して、Ｎ−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定するステップと、
少なくとも１つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも１つの可能性のある一致に当てはまるかどうかを決定するステップと、
少なくとも１つの削除プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致を、前記少なくとも１つの可能性のある一致のリストから削除するステップと、
少なくとも１つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定するステップと、
少なくとも１つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも１つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
を含む、方法。
[２] 前記少なくとも１つの属性スコアと、前記少なくとも１つの局限化スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、請求項１の方法。
[３] 前記空間特徴基準を使用して、前記少なくとも１つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、前記[２]の方法。
[４] 前記文脈特徴基準は、前記少なくとも１つのターゲットエントリの近隣にある少なくとも１つの可能性のあるターゲットエントリに関する情報に重みを付ける、前記[２]の方法。
[５] 前記関係特徴基準を使用して、前記少なくとも１つのターゲットエントリが内部で見付かる見込みがある少なくとも１つのエリアを決定する、前記[２]の方法。
[６] 前記空間特徴基準と、前記文脈特徴基準と、前記関係特徴基準との任意の組み合わせ間における数学的変換によって、前記導出特徴基準を生成する、前記[２]の方法。
[７] 少なくとも１つのプロセッサは、
前記少なくとも１つのランク付け及び／又はマッチングプロセッサ、
前記少なくとも１つの特徴プロセッサ、
前記少なくとも１つの否定特徴プロセッサ、
前記少なくとも１つの削除プロセッサ、
前記少なくとも１つの肯定特徴プロセッサ、或いは、
前記少なくとも１つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含むことができる、前記[１]の方法。
[８] サンプル文書から前記少なくとも１組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも１組の文書の中に類似の情報を見付けるステップと、
を更に含む、前記[１]の方法。
[９] 前記少なくとも１つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、前記[１]の方法。
[１０] 前記バリデートするステップは、
内部でバリデートするステップ、及び／又は、
外部バリデートするステップ、
を含む、前記[９]の方法。
[１１] 前記少なくとも１つの属性スコアと前記少なくとも１つの局限化スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れている、前記[１]の方法。
[１２] 前記学習した特性は、少なくとも１つの未知の文書及び／又は少なくとも１つの異なる文書のタイプに当てはまる、前記[８]の方法。
[１３] 少なくとも１組の文書の中の少なくとも１つの文書から情報を抽出する方法であって、
少なくとも１つのランク付け及び／又はマッチングプロセッサを使用して、前記少なくとも１つの文書における少なくとも１つのターゲットエントリに対する少なくとも１つの可能性のある一致を含んでいて、且つ少なくとも１つの属性スコアと少なくとも１つの局限化スコアとに基づく、少なくとも１つのランク付けされた可能性のある一致のリストを生成するステップ、
を含む、方法。
[１４] 前記少なくとも１つの属性スコアと、前記少なくとも１つの局限化スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、前記[１３]の方法。
[１５] 前記空間特徴基準を使用して、前記少なくとも１つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、前記[１４]の方法。
[１６] 前記文脈特徴基準は、前記少なくとも１つのターゲットエントリの近隣にある少なくとも１つの可能性のあるターゲットエントリに関する情報に重みを付ける、前記[１４]の方法。
[１７] 前記関係特徴基準を使用して、前記少なくとも１つのターゲットエントリが内部で見付かる見込みがある少なくとも１つのエリアを決定する、前記[１４]の方法。
[１８] 前記空間特徴基準と、前記文脈特徴基準と、前記関係特徴基準との任意の組み合わせ間における数学的変換によって、前記導出特徴基準を生成する、前記[１４]の方法。
[１９] 少なくとも１つのプロセッサは、
前記少なくとも１つのランク付け及び／又はマッチングプロセッサ、
前記少なくとも１つの特徴プロセッサ、
前記少なくとも１つの否定特徴プロセッサ、
前記少なくとも１つの削除プロセッサ、
前記少なくとも１つの肯定特徴プロセッサ、或いは、
前記少なくとも１つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含むことができる、前記[１３]の方法。
[２０] サンプル文書から前記少なくとも１組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも１組の文書の中に類似の情報を見付けるステップと、
を更に含む、前記[１３]の方法。
[２１] 前記少なくとも１つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、前記[１３]の方法。
[２２] 前記バリデートするステップは、
内部でバリデートするステップ、及び／又は、
外部でバリデートするステップ、
を含む、前記[２１]の方法。
[２３] 前記少なくとも１つの属性スコアと前記少なくとも１つの局限化スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れる、前記[１３]の方法。
[２４] 前記学習した特性は、少なくとも１つの未知の文書及び／又は少なくとも１つの異なる文書のタイプに当てはまる、前記[２０]の方法。
[２５] 少なくとも１組の文書の中の少なくとも１つの文書から情報を抽出する方法であって、
少なくとも１つのランク付け及び／又はマッチングプロセッサを使用して、前記少なくとも１つの文書における少なくとも１つのターゲットエントリに対する少なくとも１つの可能性のある一致を含んでいて、且つ少なくとも１つの属性スコアと少なくとも１つの局限化スコアとに基づく、少なくとも１つのランク付けされた可能性のある一致のリストを生成するステップと、
少なくとも１つの肯定特徴プロセッサを使用して、Ｎ−グラム統計に基づいて、肯定の特徴を決定するステップと、
少なくとも１つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも１つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
を含む、方法。
[２６] 前記少なくとも１つの属性スコアと、前記少なくとも１つの局限化スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、前記[２５]の方法。
[２７] 前記空間特徴基準を使用して、前記少なくとも１つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、前記[２６]の方法。
[２８] 前記文脈特徴基準は、前記少なくとも１つのターゲットエントリの近隣にある少なくとも１つの可能性のあるターゲットエントリに関する情報に重みを付ける、前記[２６]の方法。
[２９] 前記関係特徴基準を使用して、前記少なくとも１つのターゲットエントリが内部で見付かる見込みがある少なくとも１つのエリアを決定する、前記[２６]の方法。
[３０] 前記空間特徴基準と、前記文脈特徴基準と、前記関係特徴基準との任意の組み合わせ間における数学的変換によって、前記導出特徴基準を生成する、前記[２６]の方法。
[３１] 少なくとも１つのプロセッサは、
前記少なくとも１つのランク付け及び／又はマッチングプロセッサ、
前記少なくとも１つの特徴プロセッサ、或いは、
前記少なくとも１つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含むことができる、前記[２５]の方法。
[３２] サンプル文書から前記少なくとも１組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも１組の文書の中に類似の情報を見付けるステップと、
を更に含む、前記[２５]の方法。
[３３] 前記少なくとも１つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、前記[２５]の方法。
[３４] 前記バリデートするステップは、
内部でバリデートするステップ、及び／又は、
外部でバリデートするステップ、
を含む、前記[３３]の方法。
[３５] 前記少なくとも１つの属性スコアと前記少なくとも１つの局限化スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れる、前記[２５]の方法。
[３６] 前記学習した特性は、少なくとも１つの未知の文書及び／又は少なくとも１つの異なる文書のタイプに当てはまる、前記[３２]の方法。
[３７] 少なくとも１組の文書の中の少なくとも１つの文書から情報を抽出するコンピュータシステムであって、
前記コンピュータシステムは、少なくとも１つのプロセッサを含んでおり、
前記少なくとも１つのプロセッサは、
少なくとも１つのランク付け及び／又はマッチングプロセッサを使用して、前記少なくとも１つの文書における少なくとも１つのターゲットエントリに対する少なくとも１つの可能性のある一致を含んでいて、且つ少なくとも１つの属性スコアと少なくとも１つの局限化スコアとに基づく、少なくとも１つのランク付けされた可能性のある一致のリストを生成して、
少なくとも１つの特徴プロセッサを使用して、Ｎ−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定して、
少なくとも１つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも１つの可能性のある一致に当てはまるかどうかを決定して、
少なくとも１つの削除プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致を、前記少なくとも１つの可能性のある一致のリストから削除して、
少なくとも１つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定して、
少なくとも１つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも１つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
ように構成されている、コンピュータシステム。
[３８] 少なくとも１組の文書の中の少なくとも１つの文書から情報を抽出するコンピュータ化されたシステムであって、
前記コンピュータ化されたシステムは、少なくとも１つのプロセッサを含んでおり、
前記プロセッサは、
少なくとも１つのランク付け及び／又はマッチングプロセッサを使用して、前記少なくとも１つの文書における少なくとも１つのターゲットエントリに対する少なくとも１つの可能性のある一致を含んでいて、且つ少なくとも１つの属性スコアと少なくとも１つの局限化スコアとに基づく、少なくとも１つのランク付けされた可能性のある一致のリストを生成する、
ように構成されている、コンピュータ化されたシステム。
[３９] 少なくとも１組の文書の中の少なくとも１つの文書から情報を抽出するコンピュータ化されたシステムであって、
前記コンピュータ化されたシステムは、少なくとも１つのプロセッサを含んでおり、
前記プロセッサは、
少なくとも１つのランク付け及び／又はマッチングプロセッサを使用して、前記少なくとも１つの文書における少なくとも１つのターゲットエントリに対する少なくとも１つの可能性のある一致を含んでいて、且つ少なくとも１つの属性スコアと少なくとも１つの局限化スコアとに基づく、少なくとも１つのランク付けされた可能性のある一致のリストを生成して、
少なくとも１つの特徴プロセッサを使用して、Ｎ−グラム統計に基づいて、肯定の特徴を決定して、
少なくとも１つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも１つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
ように構成されている、コンピュータ化されたシステム。

Claims

少なくとも１組の文書の中の少なくとも１つの文書から情報を抽出する方法であって、
少なくとも１つのランク付け及び／又はマッチングプロセッサを使用して、前記少なくとも１つの文書における少なくとも１つのターゲットエントリに対する少なくとも１つの可能性のある一致を含んでいて、且つ少なくとも１つの属性スコアと少なくとも１つの位置スコアとに基づく、少なくとも１つのランク付けされた可能性のある一致のリストを生成するステップと、
少なくとも１つの特徴プロセッサを使用して、Ｎ−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定するステップと、
少なくとも１つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも１つの可能性のある一致に当てはまるかどうかを決定するステップと、
少なくとも１つの確率修正プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致の確率を低減するステップと、
少なくとも１つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定するステップと、
少なくとも１つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも１つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
を含む、方法。
前記少なくとも１つの属性スコアと、前記少なくとも１つの位置スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、請求項１の方法。
前記空間特徴基準を使用して、前記少なくとも１つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、請求項２の方法。
前記文脈特徴基準は、前記少なくとも１つのターゲットエントリの近隣にある少なくとも１つの可能性のあるターゲットエントリに関する情報に重みを付ける、請求項２の方法。
前記関係特徴基準を使用して、前記少なくとも１つのターゲットエントリが内部で見付かる見込みがある少なくとも１つのエリアを決定する、請求項２の方法。
少なくとも１つのプロセッサは、
前記少なくとも１つのランク付け及び／又はマッチングプロセッサ、
前記少なくとも１つの特徴プロセッサ、
前記少なくとも１つの否定特徴プロセッサ、
前記少なくとも１つの確率修正プロセッサ、
前記少なくとも１つの肯定特徴プロセッサ、或いは、
前記少なくとも１つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含む、請求項１の方法。
サンプル文書から前記少なくとも１組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも１組の文書の中に類似の情報を見付けるステップと、
を更に含む、請求項１の方法。
前記少なくとも１つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、請求項１の方法。
前記バリデートするステップは、
内部でバリデートするステップ、及び／又は、
外部バリデートするステップ、
を含む、請求項８の方法。
前記少なくとも１つの属性スコアと前記少なくとも１つの位置スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れている、請求項１の方法。
前記学習した特性は、少なくとも１つの未知の文書及び／又は少なくとも１つの異なる文書のタイプに当てはまる、請求項７の方法。
少なくとも１組の文書の中の少なくとも１つの文書から情報を抽出する方法であって、
少なくとも１つのランク付け及び／又はマッチングプロセッサを使用して、前記少なくとも１つの文書における少なくとも１つのターゲットエントリに対する少なくとも１つの可能性のある一致を含んでいて、且つ少なくとも１つの属性スコアと少なくとも１つの位置スコアとに基づく、少なくとも１つのランク付けされた可能性のある一致のリストを生成するステップと、
少なくとも１つの肯定特徴プロセッサを使用して、Ｎ−グラム統計に基づいて、肯定の特徴を決定するステップと、
少なくとも１つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも１つの可能性のある一致のリストにおける前記可能性のある一致を順序変更するステップと、
を含む、方法。
前記少なくとも１つの属性スコアと、前記少なくとも１つの位置スコアは、
空間特徴基準、
文脈特徴基準、
関係特徴基準、又は、
導出特徴基準、或いは、
これらの任意の組み合わせ、
に基づいている、請求項１２の方法。
前記空間特徴基準を使用して、前記少なくとも１つのターゲットエントリが見付かる見込みが最も高いエリアを決定する、請求項１３の方法。
前記文脈特徴基準は、前記少なくとも１つのターゲットエントリの近隣にある少なくとも１つの可能性のあるターゲットエントリに関する情報に重みを付ける、請求項１３の方法。
前記関係特徴基準を使用して、前記少なくとも１つのターゲットエントリが内部で見付かる見込みがある少なくとも１つのエリアを決定する、請求項１３の方法。
少なくとも１つのプロセッサは、
前記少なくとも１つのランク付け及び／又はマッチングプロセッサ、
前記少なくとも１つの特徴プロセッサ、或いは、
前記少なくとも１つの順序変更プロセッサ、若しくは、
これらの任意の組み合わせ、
を含む、請求項１２の方法。
サンプル文書から前記少なくとも１組の文書の特性を学習するステップと、
前記学習した特性を使用して、前記少なくとも１組の文書の中に類似の情報を見付けるステップと、
を更に含む、請求項１２の方法。
前記少なくとも１つの文書の中の情報が整合しているかどうかを決定するために、前記情報をバリデートするステップ、を更に含む、請求項１２の方法。
前記バリデートするステップは、
内部でバリデートするステップ、及び／又は、
外部でバリデートするステップ、
を含む、請求項１９の方法。
前記少なくとも１つの属性スコアと前記少なくとも１つの位置スコアとに基づく前記ランク付けされた可能性のある一致のリストは、
テキストの特徴、
幾何学的特徴、
グラフィックの特徴、
特徴変換、又は、
これらの任意の組み合わせ、
に関係付けられた情報を考慮に入れる、請求項１２の方法。
前記学習した特性は、少なくとも１つの未知の文書及び／又は少なくとも１つの異なる文書のタイプに当てはまる、請求項１８の方法。
少なくとも１組の文書の中の少なくとも１つの文書から情報を抽出するコンピュータシステムであって、
前記コンピュータシステムは、少なくとも１つのプロセッサを含んでおり、
前記少なくとも１つのプロセッサは、
少なくとも１つのランク付け及び／又はマッチングプロセッサを使用して、前記少なくとも１つの文書における少なくとも１つのターゲットエントリに対する少なくとも１つの可能性のある一致を含んでいて、且つ少なくとも１つの属性スコアと少なくとも１つの位置スコアとに基づく、少なくとも１つのランク付けされた可能性のある一致のリストを生成して、
少なくとも１つの特徴プロセッサを使用して、Ｎ−グラム統計に基づいて、否定の特徴と肯定の特徴とを決定して、
少なくとも１つの否定特徴プロセッサを使用して、否定の特徴が前記少なくとも１つの可能性のある一致に当てはまるかどうかを決定して、
少なくとも１つの確率修正プロセッサを使用して、前記否定の特徴が当てはまる任意の可能性のある一致の確率を低減して、
少なくとも１つの肯定特徴プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定して、
少なくとも１つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも１つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
ように構成されている、コンピュータシステム。
少なくとも１組の文書の中の少なくとも１つの文書から情報を抽出するコンピュータ化されたシステムであって、
前記コンピュータ化されたシステムは、少なくとも１つのプロセッサを含んでおり、
前記プロセッサは、
少なくとも１つのランク付け及び／又はマッチングプロセッサを使用して、前記少なくとも１つの文書における少なくとも１つのターゲットエントリに対する少なくとも１つの可能性のある一致を含んでいて、且つ少なくとも１つの属性スコアと少なくとも１つの位置スコアとに基づく、少なくとも１つのランク付けされた可能性のある一致のリストを生成して、
少なくとも１つの特徴プロセッサを使用して、Ｎ−グラム統計に基づいて、肯定の特徴を決定して、
少なくとも１つの順序変更プロセッサを使用して、前記可能性のある一致のうちの何れが肯定の特徴であるかを決定することによって学習した情報に基づいて、前記少なくとも１つの可能性のある一致のリストにおける前記可能性のある一致を順序変更する、
ように構成されている、コンピュータ化されたシステム。