JP2013509663A - 動的変動ネットワークを使用するシステムおよび方法 - Google Patents

動的変動ネットワークを使用するシステムおよび方法 Download PDF

Info

Publication number
JP2013509663A
JP2013509663A JP2012537458A JP2012537458A JP2013509663A JP 2013509663 A JP2013509663 A JP 2013509663A JP 2012537458 A JP2012537458 A JP 2012537458A JP 2012537458 A JP2012537458 A JP 2012537458A JP 2013509663 A JP2013509663 A JP 2013509663A
Authority
JP
Japan
Prior art keywords
target
document
information
similar
dvn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012537458A
Other languages
English (en)
Other versions
JP5774597B2 (ja
Inventor
ウルブシャット、ハリー
マイアー、ラルフ
バンシュラ、トルステン
ハオスマン、ヨハンネス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BDGB Enterprise Software SARL
Original Assignee
BDGB Enterprise Software SARL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BDGB Enterprise Software SARL filed Critical BDGB Enterprise Software SARL
Publication of JP2013509663A publication Critical patent/JP2013509663A/ja
Application granted granted Critical
Publication of JP5774597B2 publication Critical patent/JP5774597B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1452Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on positionally close symbols, e.g. amount sign or URL-specific characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)

Abstract

少なくとも1つの文書中で、少なくとも1つのターゲットの少なくとも1つのターゲット値を決定する方法およびシステムは、少なくとも1つのトレーニング文書からの情報を利用する少なくとも1つのスコアリングアプリケーションを利用して、少なくとも1つの可能性あるターゲット値を決定することと、少なくとも1つの新たな文書上で、少なくとも1つのターゲットの少なくとも1つの値を決定するために、少なくとも1つのスコアリングアプリケーションを利用して、少なくとも1つの新たな文書に情報を適用することとを含む。
【選択図】図8

Description

関連出願への相互参照
本出願は、2009年11月2日に出願された米国特許出願第12/610,915号の出願日に基づき、その利益を得る。本出願の内容全体は、そのすべてが参照によりここに組み込まれている。
図1は、1つの実施形態にしたがった、少なくとも1つの文書についての情報を取得するシステムを図示している。 図2は、1つの実施形態にしたがった、動的変動ネットワーク(DVN)を利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける方法を図示している。 図3は、1つの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける方法を図示している。 図4は、1つの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける方法を図示している。 図5は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図6は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図7は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図8は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図9は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図10は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図11は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図12は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図13は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図14は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図15は、いくつかの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図16は、1つの実施形態にしたがった、動的知覚マップ(DSM)を利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける方法を図示している。 図17は、1つの実施形態にしたがった、DSMを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける方法を図示している。 図18は、1つの実施形態にしたがった、DSMを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける方法を図示している。 図19は、1つの実施形態にしたがった、DSMを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける例を図示している。 図20は、1つの実施形態にしたがった、少なくとも1つの文書についての情報を取得する方法を図示している。
発明の実施形態の詳細な説明
図1は、1つの実施形態にしたがった、少なくとも1つの文書についての情報を取得するシステムを図示している。1つの実施形態では、システム100は、ハードウェアエレメントとソフトウェアエレメントとを接続する少なくとも1つの通信ネットワーク101を含むことができる。いくつかの実施形態では、ハードウェアは、ソフトウェアを実行することができる。
ハードウェアは、少なくとも1つの通信/出力ユニット105と、少なくとも1つのディスプレイユニット110と、少なくとも1つの中央処理装置(CPU)115と、少なくとも1つのハードディスクユニット120と、少なくとも1つのメモリユニット125と、少なくとも1つの入力ユニット130とを備えることができる。通信/出力ユニット105は、例えば、スクリーン、プリンタ、ディスク、コンピュータ、および/またはアプリケーションに、抽出処理の結果を送ることができる。ディスプレイユニット110は、情報を表示することができる。CPU115は、ハードウェアおよび/またはソフトウェアコンポーネントからの命令を翻訳して実行することができる。ハードディスクユニット120は、CPU115、メモリユニット125、および/または入力130からの情報(例えば、文書、データ)を受信することができる。メモリユニット125は、情報を記憶することができる。入力ユニット130は、例えば、スクリーン、スキャナ、ディスク、コンピュータ、アプリケーション、キーボード、マウス、または他の人間的もしくは非人間的な入力デバイス、あるいは、これらの任意の組み合わせから、処理するための情報(例えば、文書画像または他のデータ)を受信することができる。
ソフトウェアは、1つ以上のデータベース145と、少なくとも1つの局所モジュール150と、少なくとも1つの画像処理モジュール155と、少なくとも1つのOCRモジュール160と、少なくとも1つの文書入力モジュール165と、少なくとも1つの文書変換モジュール170と、少なくとも1つのテキスト処理統計分析モジュール175と、少なくとも1つの文書/出力後処理モジュール180と、少なくとも1つのシステムアドミニストレーションモジュール185とを含むことができる。データベース145は、情報を記憶することができる。画像処理モジュール155は、画像を処理できるソフトウェアを備えることができる。OCRモジュール160は、入力ユニット130(例えば、スキャナ)によりスキャンされた画像のテキスト表示を生成することができるソフトウェアを備えることができる。1つの実施形態では、複数のOCRモジュール160を利用することができることに留意すべきである。文書入力モジュール165は、(例えば、システム100またはその他の場所で予め処理された)予め処理された文書を扱って、(例えば、トレーニングに使用する)情報を取得できるソフトウェアを備えることができる。文書表示(例えば、画像および/またはOCRテキスト)は、局所モジュール150に送ることができる。文書変換モジュール170は、文書をある形態から別の形態へ(例えば、ワードからPDFへ)変換することができるソフトウェアを備えることができる。テキスト処理統計分析モジュール175は、テキストの情報を予め処理するための、発生されたテキストの統計分析を提供することができるソフトウェアを備えることができる。例えば、ワードの頻度等のような情報を提供することができる。文書/出力後処理モジュール180は、特定の形態(例えば、ユーザにより要求されたフォーマット)で結果としての文書を準備することができるソフトウェアを備えることができる。これは、さらなるフォーマットおよび処理のために、結果としての情報を外部アプリケーションまたは内部アプリケーションに送ることもできる。システムアドミニストレーションモジュール185は、アドミニストレータがソフトウェアおよびハードウェアを管理できるようにするソフトウェアを備えることができる。1つの実施形態では、(それらの特定のインターフェースを通して)接続することができるソフトウェアモジュールとして、個々のモジュールを実現することができ、それらの出力は、さらなる処理のための望ましいモジュールに送ることができる。記述したすべてのモジュールは、CPU115のような記述した情報処理インフラストラクチャ内の、1つのもしくは多くの、CPU上、仮想機械上、メインフレーム上、またはシェル上で実行することができる。データベース145は、ハードディスク駆動ユニット120に記憶させることができる。
局所モジュール150は、少なくとも1つの文書分類子、少なくとも1つの動的変動ネットワーク(DVN)、少なくとも1つの動的知覚マップ(DSM)、または少なくとも1つのファジーフォーマットエンジン、あるいは、これらの任意の組み合わせを利用することができる。文書分類子を使用して、例えば、クラス識別子(例えば、インボイス、送金額明細、船荷証券(bill of lading)、レター、eメール;または、送り主、売り主、もしくは受取人の身元により)を使用して、書類を分類できる。文書分類子は、学習セットを生成するのに、レビューする必要がある、または、考慮する必要がある文書を絞り込む助けができる。文書分類子は、新たな文書をレビューするときに、いずれのスコアリングアプリケーション(例えば、DVN、DSM、および/またはファジーフォーマットエンジン)を使用すべきかを識別する助けもできる。例えば、文書分類子が、新たな文書を、企業ABCからのインボイスとして識別する場合に、この情報を使用して、DVN、DSM、およびファジーフォーマットエンジンにより学習した情報を、企業ABCからの他のインボイスから引き出すことができる。学習した情報は、例えば、企業BCDからのインボイスから学習した情報よりもずっと妥当であるかもしれないので、この学習した情報は、その後、効率的な方法で、新たな文書に適用することができる。文書分類子は、図20に関して、さらに詳細に記述する。
上述したように、局所モジュール150は、これらには限定されないが、DVN、DSN、またはファジーフォーマットエンジン、あるいはこれらの任意の組み合わせのような、数々のスコアリングアプリケーションを備えることができる。文書上の、または、文書の一部上の参照を使用して、任意のターゲットに対する可能性ある位置を決定することにより、可能性あるターゲット値を決定するために、DVNを使用することができる。DVNにより識別された各可能性あるターゲット値に対して、スコアを与えることができる。図2〜15、および20に関して、DVNを下記でさらに議論する。ターゲットに対する異なる既知のロケーションに基づいて、可能性あるターゲット値を決定するために、DSMを使用することもできる。DSMにより識別された各可能性あるターゲット値に対して、スコアを与えることができる。図16〜20に関して、DSMを下記でさらに議論する。加えて、任意のターゲットに対するフォーマットのファジーリストを使用することにより、可能性あるターゲット値を識別するために、ファジーフォーマットエンジンを利用することができる。DVNおよびDSMのように、何らかの可能性あるターゲット値に対して、ファジーフォーマットエンジンはスコアを与えることができる。図20に関して、ファジーフォーマットエンジンをより詳細に議論する。
局所モジュール150により発生させた情報は、データベース145に、または、外部入力(例えば、入力ユニット130、通信ネットワーク101、ハードディスクユニット120、アドミニストレーションモジュール185)に送ることができる。後処理モジュール180を使用して、または、後処理モジュール180を使用せずに、さまざまなコンポーネント(例えば、通信/出力ユニット105、ディスプレイユニット110、ハードディスクユニット120、メモリユニット125、通信ネットワーク101、変換モジュール170、データベース145、OCRモジュール160、統計分析モジュール175)における入力パラメータとして、局所モジュール150の、出力、または、出力の一部を、記憶、提示、または使用することができる。このようなフィードバックシステムは、反復改良を可能にすることができる。
[文書分類子]
上記で示したように、文書分類子を使用して、例えば、クラス識別子(例えば、インボイス、送金額明細、船荷証券、レター、eメール;または、送り主、売り主、もしくは受取人の身元により)を使用して文書を分類できる。文書分類子は、文書中のテキストに基づいて動作できる。文書分類子は、文書中のテキストについての位置情報に基づくこともある。文書分類子が、文書からのテキストについての、テキスト情報および/または位置情報の何らかの組み合わせを使用して、どのように文書を分類するかに関する詳細は、参照によりここに組み込まれている、以下の特許出願/特許においてより詳細に説明される:(すべて、“分類方法および装置”と題する)US2009/0216693、US6,976,207、およびUS7,509,578。
いったん、少なくとも1つのトレーニング文書に対して、テキスト情報およびテキスト位置情報が取得されると、この情報を使用して、新たな文書に対して適切なクラス識別子に戻すことができる。(人間または他のアプリケーションがこの情報を提供できることに留意すべきである。)例えば、企業ABCにより発行されたインボイスをレビューすることになる場合に、文書のトレーニングセット上で見つかる、特定のテキスト(例えば、“ABC”)、または、テキスト位置情報(例えば、例えばDVNまたはDSMを使用して、トレーニング文書上に位置付けられる“ABC”が見つかった場所)は、新たな文書上でサーチすることができ、新たな文書が企業ABCにより発行されたインボイスであるか否かを決定することを助ける。企業ABCにより発行されたインボイスとして識別された文書は、企業ABCの特定のDVN、DSM、および/またはファジーサーチ機械によりレビューできる。
文書分類サーチは、ファジーな方法で実行できることに留意すべきである。例えば、句読点または分離文字は、先頭(leading)または後ろ(lagging)の英文字、ならびに、先頭または後ろの0と同様に、無視することができる。したがって、例えば、列“12345”に対するファジーサーチが行われている場合に、“123−45”、“1/2345”、“0012345”、“INR1234/5”を見つけることができる。当業者は、多くのタイプの既知のファジーサーチングアプリケーションを使用して、文書分類サーチを実行できることが分かるだろう。ファジー表現の他の例、および、それらのそれぞれの分類は、参照によりここに組み込まれている、以下の特許出願/特許においてより詳細に説明される:(すべて、“連想メモリ”と題する)US2009/0193022、US6,983,345、およびUS7,433,997。
上記で説明したように、文書分類子は、レビューする必要がある文書を絞り込む助けができる。文書分類子は、新たな文書をレビューするときに、いずれのスコアリングアプリケーション(例えば、DVN、DSM、および/またはファジーフォーマットエンジン)を使用すべきかを識別する助けもできる。学習した情報は、例えば、企業BCDからのインボイスから学習した情報よりもずっと妥当であるかもしれないので、DVN、DSM、および/またはファジーフォーマットエンジンから学習したこの情報を、その後、効率的な方法で、新たな文書に適用できる。
図20は、スコアリングアプリケーションとともに、文書分類子の例示的な使用を図示している。(文書を絞り込むために、文書分類子を使用する必要はないことに留意すべきである。また、多くの他のスコアリングアプリケーションを利用することができることに留意すべきである。さらに、他のアプリケーションを利用して、ターゲットについての情報を決定することができることに留意すべきである。)図20を参照すると、2005では、文書分類子を利用して、最も妥当なスコアリング情報を選択する。例えば、文書分類子が、新たな文書を企業ABCからのインボイスとして識別する場合に、この情報を使用して、DVN、DSM、およびファジーフォーマットエンジンにより学習された情報を、企業ABCからの他のインボイスから引き出すことができる。2010では、(例えば、企業ABCにより発行されたインボイスに関連する)妥当なDVN、DSM、およびファジーフォーマット情報を、分類された文書に適用して、それぞれに対するスコアにしたがって、何らかの可能性あるターゲット値を取得できる。2015では、妥当性確認ルールを使用して、可能性あるターゲット値のセットを絞り込むことができる。例えば、公式NET+VAT=TOTALを満たす、ターゲットNET、VAT、およびTOTALに対する可能性あるターゲット値のみを、フィルタリングされた可能性あるターゲット値として戻すことができる。他の例示的な妥当性確認ルールは:文書の日付が2005年1月1日より後でなければならないこと、または、オーダー番号が特定の範囲内である必要があることを含む可能性がある。2020では、フィルタリングされた可能性あるターゲット値は互いに比較され、最大スコアを持つフィルタリングされた可能性あるターゲット値をターゲット値として使用することができる。他の実施形態では、フィルタリングされたすべての可能性あるターゲット値、または、フィルタリングされていないすべての可能性あるターゲット値でさえも、人に示される可能性があり、または、別のアプリケーションに供給される可能性があることに留意すべきである。
[動的変動ネットワーク(DVN)]
図2は、1つの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける方法200を図示している。205では、トレーニングに対して、1つ以上の文書(または、文書の一部)を使用することができる。210では、文書のトレーニングセットからコンパイルされた情報から、少なくとも1つのDVNを生成できる。DVNは、“キーワード”参照のセット(例えば、ワード、数、英数字シーケンス、トークン、ロゴ、テキストフラグメント、ブランクスペース等のような、何らかのテキスト/デジタル/文字のブロック)と、この参照のセットに対する参照ベクトルとであり得る。各参照ベクトルは、参照をターゲットに接続することができる。215では、DVNをトレーニングされていない文書に適用して、少なくとも1つのターゲットをトレーニングされていない文書上で局所化することができる。局所化は、トレーニングされていない文書のどこにターゲットの位置を予期すべきかを決定できる。これにより、(例えば、ターゲット“インボイス日付”に対するターゲット値1/10/2009のような)ターゲットについての情報を取得または確認する助けをする。例えば、ターゲットが日付のような文書フィールドである場合に、ターゲットにある値を抽出することができる。所定のターゲット位置において参照が存在しない場合に、ターゲットが文書上にないことを示すことになる。例示的なターゲットは、これらには限定されないが、チェックボックス、署名フィールド、スタンプ、アドレスブロック、フィールド(例えば、インボイスの総額、配達記録上のパッケージの重量、レシート上のクレジットカード番号)、マップ上に手動または自動で編集されたエントリ、テキスト/画像の混合文書中の画像関連コンテンツ、ページ番号等を含む。
上記の方法200は、さらなる冗長および正確さを提供することができることに留意すべきである。すべての参照は、ターゲット局所化に対する潜在的な基礎であるので、各ターゲットに対してページごとに何百の参照アンカーが存在することがある。したがって、すべての典型的なキーワードが欠落している引き裂かれたページに対してでさえも、ターゲット局所化は見つけることができる。
加えて、特定の位置における、誤記、または、OCRエンジンによる認識違いによる参照は、どこで参照が見つかったかに基づいて、自動的にアンカーとして使用することができることに留意すべきである。したがって、いくつかの実施形態では、従来のキーワードを特定する、または、アンカー参照に何らかの限定を適用する必要はない。この方法で、厳密なおよび/またはファジーな一致を利用して、何らかの類似した参照を新たな文書中の少なくとも1つの参照に一致させることができる。
さらに、一致させるときに、参照の以下の特徴を考慮できる:フォント、フォントサイズ、スタイル、または任意のこれらの組み合わせ。加えて、参照は、少なくとも1つの他の参照と組み合わせることができる;および/または、少なくとも2つの参照に分けることができる。
図3は、1つの実施形態にしたがって、トレーニングセットからDVNを生成する方法210の詳細を図示している。305では、トレーニングに使用する少なくとも1つの文書上で見つかった少なくとも1つの参照から、“キーワード”参照のセットを生成させることができる。310では、各参照に対して、少なくとも1つの参照ベクトルを生成させることができる。
図5は、灰色のエリア510が“キーワード”参照のセットとして使用する可能性がある異なる参照を示す、文章の図を図示している。参照ベクトル515は、各参照から特定のターゲット550へのラインである。灰色の異なる色彩は、異なるコンテンツを示すことができる。例えば、より暗い灰色は、ワードコンテンツであるコンテンツを表すことが可能である。別の例として、より明るい灰色は、数、または、数と文字との組み合わせであるコンテンツを表すことが可能である。コンテンツのさらなる例は、これらには限定されないが、数および句読点の列、OCR−認識違い文字(例えば、画像上のスタンプの部分に対する“/(!*7%8[]4$2§”)、異なる言語でのワード、辞書で見つかったワード、辞書に見つからないワード、異なるフォントタイプ、異なるフォントサイズ、異なるフォントプロパティ等を含む。
315では、変動フィルタリングは、類似した参照ベクトルを選択することにより実行できる。変動フィルタリングは、学習セット中のすべての文書に対して、参照と参照ベクトルとを比較し、参照のタイプを比較して、類似した参照ベクトルを保つことができる。類似した参照ベクトルは、参照に対して、位置に関して類似している、コンテンツが類似している、および/またはタイプが類似しているとすることができる。参照は、通常、参照がページ上の1つ以上の特定の場所で見つかるときに、位置的に類似するとすることができる。コンテンツの類似は、同一のタイプのコンテンツを有する(例えば、参照がすべて同一のワードまたは類似したワードであるときの)参照に関連する。タイプの類似は、通常、特定のタイプである参照(例えば、数値、ワード、キーワード、フォントタイプ等)に関連する。類似タイプは、(例えば、参照が、タイプが類似している(例えば、すべてのタイプ“日付”)ときだけでなく、さらに参照がすべて、コンテンツが類似しているか、同一のワードであるか、または類似したワードであるときに、)他の類似タイプに結びつけられることがある。
参照の一貫性テストは、ファジーになり得ることに留意すべきである。位置的に類似した参照によるファジーテストの例は、規定されたXおよびY座標スペース内のすべてを利用するとき、および、スペースパラメータを調整できるときである。コンテンツ一貫性の例は、ワードを比較することにより決定する。したがって、“Swine−Flu”、“swineflu”、“Schweinegrippe”、および“H1N1”は、特別な種類のファジー比較に対して同一であると仮定できる。“Invoice Number”、“Inv0!ce No.”、および“invoiceNr”は、別の種類のファジー比較に対して同一であると仮定できる。類似タイプのファジーテストの例は、1つより多いタイプ(例えば、日付に対して“数字”タイプと“数字/文字”タイプとの双方)を使用できるときである。
320では、類似した参照フィルタを使用して、DVNを生成する。例えば、図6は、6つの文書に対するDVN(すなわち、“キーワード”参照のための参照ベクトル)を図示している。6つの文書は、異なる文書にわたる参照および位置に関する変動性と、参照ベクトル上のその影響とを図示している。
図7は、図6からの6つすべての文書の変動フィルタリング315(例えば、オーバーレイ)を図示している。705は、1つのスタック上の図6中の参照ベクトルを図示している。参照ベクトルの変動性および一貫性は、ラインの濃さで示されている。図7上のラインが濃ければ濃いほど、文書をオーバーレイするときに、参照ベクトルがより頻繁に見つかった。710は、参照ベクトル上の一貫性フィルタの影響を図示している。参照ベクトルおよび文書にわたる一貫性の最小量は、設定可能とすることができ、1(すべての参照ベクトルが保たれていることを意味する)と、N(現在のセット中の文書の数であり、すべての文書上にある参照ベクトルのみが有益であると考えられることを意味する)との間の値を持つことができる。例えば、一貫性に対して選択した値が5であり、文書の数は7である場合に、特定の位置における1つの特定のワードに対する類似したベクトルは、この参照ベクトルを保つために、7つの文書中の5つの文書上で見つかるにちがいない。
特に、全体的に類似した参照ベクトルのみを使用するときに、参照の、コンテンツ、位置、およびタイプを使用して、参照ベクトルをフィルタリングして、DVNを構築することができることに留意すべきである。図9は、完全に類似した(例えば、学習セット中のすべての文書において、参照ベクトルが類似している(例えば、整列している)、または、ファジー方法において類似している(例えば、ほぼ整列している、“ほぼ”は予め設定された変動である))ときの例示的な結果を図示している。参照905は、最大の安定性(例えば、コンテンツ、位置、およびタイプが類似している)を有し、1つ実施形態では、第1の色彩で表すことが可能である。参照910は、位置およびタイプに関してのみ安定しており、1つの実施形態では、第2の色彩で示すことができる。位置、コンテンツ、タイプのどちらにおいても安定していない参照は、図9には示されていない。
小さな位置変更を持つ同一のコンテンツは、ワード読取可能にすることができるが、ぼやけさせるので、参照の画像はいくつかの状況でぼやけることがあり得ることに留意すべきである。コンテンツが同じではない(例えば、インボイス日付に対する数字、インボイス番号、オーダー日付、およびオーダー番号)ときは、コンテンツは、オーバーレイで読取可能であるかもしれない。図8に示されるように、810は、1つの実施形態にしたがって、コンテンツの変動性と、(例えば、学習セット中の各文書が互いにオーバーレイしているときの)変動フィルタリングにおけるその影響とを図示している。815では、低コンテンツ変動を持つワードの拡大バージョンを示している。820では、高コンテンツ変動を有するワードの拡大バージョンを示している。1つの実施形態では、変動を持たないコンテンツまたは低変動を持つコンテンツは、動的変動ネットワークを構築するために、コンテンツ安定性のために、より価値のある情報として考えることができる。より変動しやすいコンテンツ(例えば、日付)は、不安定な参照ポイントとして参照でき、重要性が低いとして考えることができる。
図4は、1つの実施形態にしたがって、トレーニングされていない文書215上のターゲット局所化に対する、DVNの適用の詳細を図示している。405では、処理することになる文書上のすべての参照は、DVN“キーワード”参照リストと比較されて、どの参照が最も妥当であるかを決定する。DVN“キーワード”リストは、トレーニングにより一貫して見つかる参照のリストである。1つの実施形態では、トレーニングに使用するすべての文書に見つかる参照のみを、DVN“キーワード”参照リスト上で使用する。他の実施形態では、トレーニングに使用する文書のほとんどに見つかる参照を、使用することができる。
例えば、図7および8の710、805、および810の例を使用すると、トレーニングからの類似した参照は、(濃い灰色により指定された)以下のワードタイプの参照を含む可能性がある:“インボイス番号”、“インボイス日付”、“オーダー番号”、“オーダー日付”、“説明”、および“量”。これらの参照の変形(例えば、Order No.の代わりにOrder Number)を使用することもできる。トレーニングからの類似した参照は、(明るい灰色に指定された)数字の列、または、数字/レター文字の列の形態を含む可能性もある:(日付に対して)XX/XX/XX、(インボイス番号に対して)XXXXXXXXXX、(オーダー番号に対して)XXXXXX、および(オーダー日付に対して)XX/XX。
410では、“キーワード”参照に関連する参照ベクトルのすべてを使用して、ターゲットに向かってポイントすることができる。415では、参照ベクトルと参照キーワードとのすべてからのポインタ情報の統合を使用して、ターゲットを局所化(決定)できる。
例えば、図10において、1005では、文書に対するすべての参照を示している。1010では、位置的な一貫性フィルタが適用された後の参照を示している。1015では、さまざまな文書からのこれらの参照からの参照ベクトル情報を適用および比較する。1020では、類似した参照ベクトルを使用して、ターゲットの局所性を決定する。
いったん、DVNを使用して、何らかのターゲット局所性の可能性ある位置が見つかると、ターゲットに対する可能性ある値を見つけることができる(例えば、ターゲット“インボイス日付”に対する値としての1/10/2009)。ターゲットに対する各可能性ある値に、スコアを与えることができる。ターゲットにポイントしていない参照ベクトルに対するターゲットにヒットしている参照ベクトルの比により、スコアを決定することができる。さらに、学習した参照(例えば、テキスト)と局所化に使用した参照との間のファジー編集距離は、重みとして統合できる。例えば、文書上のすべての可能性ある参照ワードが、学習セット中に記憶されたものとして、ターゲットからの同じ相対位置で正確に見つかった場合に、最高スコアを戻すことができる。学習セット中に含まれていないさらなる参照、または、それぞれのターゲットに向かってポイントしているベクトルを持たない参照は、スコアを減少することができる。
多くのさらなるタスクのために、DVNを使用することができることに留意すべきである:多くのさらなるタスクは、これらには限定されないが、参照ベクトルの追加、参照訂正、文書分類、ページ区切り、文書修正の認識、文書要約、または文書比較、あるいは、これらの任意の組み合わせを含む。これらのタスクを下記でより詳細に説明する。
(参照ベクトルの追加および/または除去) DVNは、ターゲット局所化の後に動的に適応することができる。ターゲットを局所化するために、少なくとも1つの参照ベクトルを学習して使用したときに、他のすべての可能性ある参照ベクトルを生成させて、図2の210において学習したDVNに動的に追加することができる。さらに、古くなったもの(例えば、長い時間使用されていない、すなわち、フィルタリングされていない参照)は、除去することができる。これにより、すべての処理文書からの参照ベクトルの継続的な更新が可能になる。このような継続的な更新手順は、文書処理の間に、DVNを更新して変更することができる。
(参照訂正) 参照ベクトルは、参照訂正のために使用できる。図11に例を図示している。1105において、1つのターゲット1107と、3つのアンカー参照(“991826”、“!8%!”、および“example”)を含む1つの学習文書を示している。参照からターゲットへのそれぞれの参照ベクトル1115も示している。学習の後に、異なる文書1130上で、参照ベクトル1115のセットが一致する。この文書1130上で、参照“example”は破損しており、“Exanp1e”とつづられている。しかしながら、そのロケーションのために、“Exanp1e”は、“example”に一致させて、1140で置換させることができる。この能力は、処理した文書上の参照訂正における結果を援助することができる。
参照訂正のために使用する参照ベクトルの別の例は、例えば、特定のタイプのターゲットを位置付けるために参照ベクトルが使用されるときである。潜在的に破損したターゲットを訂正するために、存在する追加の情報を使用することができる。例えば、参照ベクトルは、参照“29 Septenbr ”に向かってポイントしており、この参照が、最近取り出された文書からの日付フィールドターゲットであるとして知られている場合に、そのターゲットの“29 September ”への訂正が可能である。この訂正を行うために、“Septenbr”と“September”との間の高い類似性をファジーコンテンツ比較において使用することができ、日付であるエントリについての追加の情報を使用して、妥当であると思われる(設定可能な)期間に年度を訂正することができる。日付フィールドターゲットが明確に位置付けられている場合に、参照ベクトルがもとの潜在的なアンカー参照に従うことができることにも留意すべきである。例えば、このようなアンカー参照に対する位置情報が完璧にフィットする場合には、実際の参照がそこに存在するが、学習したDVN中にあるアンカー参照にフィットしていないものは、学習したDVNからの1つにより置換することが可能である。例えば、インボイス番号フィールドターゲットが位置付けられた場合に、破損しており、“Inv0!ce Nunder”を示す周囲の典型的なキーワードは、学習したDVNからこの位置に対して記憶された1つにより置換することが可能である。したがって、その訂正の後に、“Invoice Number”をその位置において読み取ることが可能である。
(文書分類) 図1に関して先に説明したように、図12に示すように、文書分類に対して、学習したDVNも使用できる。文書のターゲット(1210aおよび1210b)上でアンカーされた参照を持つ2つの文書(1205aおよび1210b)が示されている。文書1205aに対する参照ベクトルは、アンカー参照ワードをポイントする。文書1205bに対して、参照ベクトルのいくつかは、アンカー参照ホワイトスペースをポイントする。学習したDVNのフィットの品質は、測定することができ、現在の文書が、学習したDVNがトレーニングされた場所と同じ“カテゴリ”または“クラス”からのものであるか否かに関するインジケータとして、機能することができる。このようなアプリケーションに対する多くのクラスのシナリオでは、すべての訂正したDVNに対して、1つのターゲットエリア上の参照ベクトルのオーバーラップを測定することができる。多くの参照ベクトルの高いオーバーラップは、アンカーワードが、1つまたは多くのターゲットに対して類似した相対位置に存在するかもしれないことを示す。この高いオーバーラップ情報は、DVNが、文書のどのクラスまたはセットから生成されたかを決定するための情報として使用することができる。
(ページ区切り) また、ページ区切りのために、アンカー参照に関する位置情報を使用することができる。たくさんの異なる文書(例えば、単一の文書、複数ページの文書)では、(“フィットの品質”とも呼ばれる)DVN位置情報における変更は、新たな文書の開始ページについての情報を提供することができる。この方法を、例えば、文書の山を単一の文書に再パッケージ化するために使用することができる。
(文書修正の認識) DVNは、逆の方法(例えば、ターゲットを位置付けた後に、現在の文書上のアンカーワードが、DVNの学習したアンカーワードにいかによくフィットするかを調べること)で、文書修正を認識するために使用することもできる。例えば、図13では、1つの文書(1300a)が学習され(例えば、少なくとも1つのターゲットに対してDVNが生成され)、その後、修正を検出するために、このDVNは、潜在的に編集された文書(1300b)上で後ほど一致する。修正の3つの基本タイプが存在する:1)参照ベクトルが、同じ位置を有するが、コンテンツが変更されている参照をポイントする(1310);2)参照ベクトルが、ホワイトスペースをポイントし、そこにある参照は削除または移動されたかもしれないことを示す(1320);3)参照ベクトルを持たない参照が存在する(例えば、追加されたワード1230が存在するかもしれない)。このような修正は、これらには限定されないが、ワードの交換、ワードの言い換え、文書の一部の除去、文書レイアウト、フォントサイズ、またはフォントスタイルにおける変更を含むことができる。さらに、1つの文書上での異なるターゲットに対するいくつかのDVNの比較は、本質的に、文書中の何らかの非典型的な変更を検出するローバスで過敏な方法を提供する、精密な“フィンガープリンティング”を可能にすることができる。例えば、契約書に対する改正番号における頻繁な変更は、無視できる一方で、表現における変更は、強調表示することができる。変更された場所およびものを元に戻すオプションを提供することができる。
(文書要約) DVNは、文書コンテンツを自動的に要約するためにも使用することができる。図14でこのプロセスを図示している。この例では、入力として2つの文書(1400aおよび1400b)が使用され、2つのDVNが生成され、これらの2つのDVNは、これらの変動性に対して分析される。この変動は、1420において、2つのDVNの(視覚的な補助のために)わずかにシフトしたオーバーラップとして示されている。参照の、位置的な、可能性あるコンテンツ変動性に注目する。このケースにも適用する、コンテンツ変動性に対する例が、図9で示されており、ここで、905は、安定したコンテンツを示し、910は、ある変動を持つコンテンツを示す。この情報に基づいて、2つの要約を構築することができる:類似した参照のみを保つ安定した要約(1430)、参照を変更し続ける変動性の要約(1440)。文書上の任意のターゲットに対する(低い変動の)安定した参照ベクトルは、文書の“形態”または“テンプレート”を表すことができる。(高い変動の)変動性の参照ベクトルは、文書ごとの個々の情報を示すことができ、したがって、自動的な要約に対して有用であるとすることができる。
(文書圧縮) DVNは、文書または文書のセットの圧縮のためにも使用することができる。図15では、4つの異なる文書(1500a、1500b、1500c、1500d)と、それらのそれぞれのDVNとに対して、文書圧縮を図示している。圧縮されていないケース(1501)では、4つすべての文書を記憶しなければならない。圧縮されたケース(1520)では、(1510で示されている)安定したDVNと、DVNマッピングされていないワードのそれぞれに対して、それぞれの位置を文書上に持つ、そのDVNからの偏差(1505a、1505b、1505c、1505d、1505e)とのみを記憶しなければならない。例えば、1505aは、文書の左上端に関連する文書配列+1902x+962において、列“Management-Approved”である可能性がある。このような変動情報を1505b、1505c、1505d、および1505eに対して記憶することができる。これは、DVNを基礎としたデルタ圧縮アルゴリズムのアプリケーションとして見ることができる。このシナリオでは、DVNとDVNからの偏差とは、別々に記憶され、したがって、DVNの冗長が、多くの文書を介して記憶されることになるデータ量を減少させる。さらに、前述したすべてのDVNアプリケーションを、それらを解凍する必要なく、圧縮された文書で同様に使用することができる。
[動的知覚マップ(DSM)]
図16は、1つの実施形態にしたがった、DSMを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付けるための方法を図示している。1610では、トレーニングのために1つ以上の文書(すなわち、文書の一部)を使用できる。1620では、トレーニングからコンパイルされた情報から、少なくとも1つのDSMを生成できる。DSMは、少なくとも1つのターゲットに対する可能性あるロケーションのセットであり得る。230では、ターゲットを位置付けるために、ターゲットの可能性あるロケーションを使用して、DSMをトレーニングされていない文書に適用できる。
図17は、1つの実施形態にしたがって、1620でDSMを生成させることに関する詳細を図示している。1710では、少なくとも1つのターゲットを識別する。1720では、最も可能性のあるターゲットの位置に対する確率を決定する。ターゲットロケーションが、トレーニング文書のセット中の第1の文書からのものである場合に、あり得そうなターゲットのロケーションとして、このようなターゲットロケーションを使用することができる。トレーニング文書がさらに分析されると、可能性あるターゲットロケーションは増加して、他のロケーションを含むことになる。各可能性あるターゲットロケーションの確率は、そのロケーションにおいて見つかるターゲットの頻度(例えば、10の文書中に7回)をカウントすることにより決定することもできる。各可能性あるターゲットロケーションに対する確率は、したがって、追加の文書がレビューされるときに、増加または減少され得る(例えば、類似する反学習、または、反例の取り込み)。
図19は、DSMを生成することの例を図示している。3つの異なる文書(1910a、1910b、1910c)に対して、ターゲットのロケーション(1940a、1940b、1940c)を決定する。灰色のボックスは、文書上の、他の潜在的なターゲットまたは参照を示す。1950では、文書の境界を整列させるような方法で、3つの文書(1910a、1910b、1910c)がオーバーレイされている。1970には、それぞれのDSMが示されている。ここで、1980の異なる灰色レベルは、ターゲット対する異なる可能性あるロケーションを示すことができる。1970のDSMはまた、2つの異なる軸(1985および1990)を示しており、ターゲットの可能性あるロケーションを系統的な方法で(例えば、x軸およびy軸上のそのそれぞれの位置を使用して)他の文書に使用することができる。例えば、インボイス上の“total amount”ターゲットに対して、1985の軸に沿った位置は、1990の軸に沿ったものより信頼できるものであると決定することができる。このタイプの情報は、抽出の間に、ターゲットに対する潜在的な候補をソートするための2次判定基準として考慮することができる。
図18は、1つの実施形態にしたがって、1630中のDSMを適用することに関する詳細を図示している。1810では、DSMは、ターゲットが局所化されることになる文書上にオーバーレイされる。1820では、(各可能性ある位置に対する確率に加えて)ターゲットの可能性ある位置をDSMから取得する。1830では、これらの可能性ある位置をソートすることができ、最高確率を持つ位置が、ターゲットの位置であると考えられる。いったん、ターゲットの位置が決定すると、ターゲットについての情報(例えば、“total amount”フィールド中にリストされている量)を見つけることができる。
[ファジーフォーマットエンジン]
ファジーフォーマットエンジンは、トレーニング文書から、少なくとも1つのターゲットに対するファジーフォーマットのリストを収集することができる。抽出フェーズの間に、ファジーフォーマットエンジンは、学習したフォーマットを潜在的なターゲットに一致させるスコアを算出することができる。例えば、量タイプのターゲットに対して、ターゲット値“102.65$”である場合に、ファジーフォーマットエンジンは、トレーニング文書から、表現“ddd.ddR”において、dは、数字を表し、Rは通貨信号を表すことを学習することができる。そして、ファジーフォーマットエンジンが、列“876.27$”を見つける場合に、この列は、非常に高いスコア(例えば、10)を持つ潜在的なターゲット値であると決定することができる。しかしながら、列“1872,12$”が見つけられる場合に、スコアは、8のスコアにおいて、追加の数字に対して1つ減少され、ピリオドの代わりのカンマに対して別の1つが減少されている可能性がある。別の例として、ファジーフォーマットエンジンは、“INVNR−10234”は、“CCCC−ddddd”として表されている可能性があり、ここで、Cは、大文字を表し、dは数字を表すことを学習することができる。多くのタイプのファジーフォーマットエンジンを使用することができ、多くのタイプのスコアリングを利用できることも、当業者は理解するだろう。他の可能性あるスコアリングシステムの例は、例えば、欠損した、または、追加の文字および数字の異なる取り扱い(例えば、欠損した、または、追加の文字に対して0.125スコアペナルティを持つことに対して、欠損した、または、追加の数字に対して0.25ペナルティを持つこと);参照によりここに組み込まれている以下の特許出願/特許に記述されているように取得できる文字列類似性測定である:(すべて“相関メモリ”と題する)US2009/0193022、US6,983,345、US7,433,997。
本発明のさまざまな実施形態を上述してきたが、それらは実例として提示されており、限定するものではないことを理解すべきである。本発明の精神および範囲から逸脱することなく、形態および詳細におけるさまざまな変更を本発明に行うことができることは、当業者にとって明らかになるだろう。したがって、本発明は、上述した例示的な実施形態の何らかのものにより限定されるべきではない。
さらに、本発明の機能性および利益を強調表示する上述した図面は、例示的な目的のためのみに表されていることを理解すべきである。本発明のアーキテクチャは、これを図面中に示したもの以外の方法により利用できるように、十分適応性があり、設定可能である。
さらに、本開示の要約の目的は、米国特許商標庁、ならびに、一般的には公衆、特に、特許もしくは法律用語または専門語に精通していない科学者、技術者、および当業者が、簡単な検討から、本出願の技術開示の特質および本質を素早く決定できるようにすることである。本開示の要約は、何らかの方法で、本発明の範囲に関して限定することを意図してはいない。
最後に、“する手段”または“するステップ”という明示された言い回しを含む請求項のみを、米国特許法第112条第6パラグラフの規定の下で解釈すべきであるというのが出願人の意図である。“する手段”または“するステップ”というフレーズを明示的に含まない請求項は、米国特許法第112条第6パラグラフの規定の下で解釈すべきではない。

Claims (36)

  1. 少なくとも1つの文書で、少なくとも1つのターゲットの少なくとも1つのターゲット値を決定する方法において、
    少なくとも1つのトレーニング文書からの情報を利用する少なくとも1つのスコアリングアプリケーションを利用して、少なくとも1つの可能性あるターゲット値を決定することと、
    少なくとも1つの新たな文書上で、前記少なくとも1つのターゲットの少なくとも1つの値を決定するために、前記少なくとも1つのスコアリングアプリケーションを利用して、前記少なくとも1つの新たな文書に前記情報を適用することと、
    を含む方法。
  2. 前記情報は、ターゲット位置情報を含む、請求項1記載の方法。
  3. (a)少なくとも1つのトレーニング文書中の少なくとも1つのターゲットの少なくとも1つの位置を含む情報、
    (b)前記少なくとも1つのトレーニング文書中の少なくとも1つのターゲットに対する、フォーマット情報および可能性あるバリエーションのフォーマット情報、または、
    (c)これらの任意の組み合わせ、
    を利用する少なくとも1つの追加のスコアリングアプリケーションをさらに含む、請求項2記載の方法。
  4. 少なくとも1つの文書分類子を前記少なくとも1つの文書に適用することをさらに含む、請求項1記載の方法。
  5. 前記ターゲット位置情報は、少なくとも1つの参照と、各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルとを含む、請求項2記載の方法。
  6. 前記少なくとも1つの局所モジュールを利用して、前記少なくとも1つの参照を見つけることにより、
    前記少なくとも1つの局所モジュールを利用して、各参照に対して、前記少なくとも1つの参照ベクトルを生成することにより、
    すべての文書から、何らかの類似した参照と何らかの類似した参照ベクトルとを取得するために、前記少なくとも1つの局所モジュールを利用して、各文書からの、前記少なくとも1つの参照に、および、前記少なくとも1つの参照ベクトルに、変動フィルタリングを実行することにより、
    少なくとも1つの動的変動ネットワーク(DVN)を生成するために、前記少なくとも1つの局所モジュールを利用して、何らかの類似した参照と何らかの類似した参照ベクトルとを使用することにより、
    前記少なくとも1つのターゲット位置情報を利用することをさらに含み、
    前記少なくとも1つのDVNは、少なくとも1つの参照と、各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルとを含む、請求項5記載の方法。
  7. 前記変動フィルタリングは、
    何らかの一致する参照が存在するか否かを決定するために、前記少なくとも1つの局所モジュールを利用して、何らかの類似した参照を、少なくとも1つの新たな文書上の少なくとも1つの参照と比較することと、
    前記少なくとも1つの新たな文書上で前記少なくとも1つのターゲットを決定するために、前記少なくとも1つの局所モジュールを利用して、何らかの一致する参照に対応する何らかの類似した参照ベクトルを使用することと、
    をさらに含む、請求項6記載の方法。
  8. 前記少なくとも1つの参照は、
    少なくとも1つの文字列;
    少なくとも1つのワード;
    少なくとも1つの数字;
    少なくとも1つの英数字表現;
    少なくとも1つのトークン;
    少なくとも1つのブランクスペース;
    少なくとも1つのロゴ;または、
    少なくとも1つのテキストフラグメント;あるいは、
    これらの任意の組み合わせを含む、請求項5記載の方法。
  9. 前記少なくとも1つのターゲットの少なくとも1つのロケーションを使用して、前記ターゲットについての情報を取得および/または確認する、請求項1記載の方法。
  10. 前記少なくとも1つの参照は、タイプミス、OCR誤り、または代替スペリング、あるいは、これらの任意の組み合わせを含むが、前記少なくとも1つの参照は、依然として、前記少なくとも1つの参照のロケーションのために、参照として使用される、請求項5記載の方法。
  11. 前記類似した参照ベクトルは、位置的に類似しているか、コンテンツが類似しているか、またはタイプが類似しているか、あるいは、これらの任意の組み合わせであるとすることができる、請求項6記載の方法。
  12. 前記参照と前記参照ベクトルとにわたる類似点は、設定可能である、請求項6記載の方法。
  13. 厳密なおよび/またはファジーな一致を利用して、何らかの類似した参照を、前記少なくとも1つの新たな文書中の少なくとも1つの参照に一致させることができる、請求項6の方法。
  14. 前記少なくとも1つの参照のうちの以下の特性:フォント;フォントサイズ;スタイル;またはこれらの任意の組み合わせ;が考慮される、請求項13記載の方法。
  15. 前記少なくとも1つの参照は、少なくとも1つの他の参照と組み合わされる、および/または、少なくとも2つの参照に分けられる、請求項5記載の方法。
  16. 前記少なくとも1つのDVNは、文書処理の間に動的に適応される、請求項6記載の方法。
  17. 前記少なくとも1つのDVNは、
    参照訂正;
    文書分類;
    ページ区切り;
    文書修正の認識;
    文書要約;または、
    文書圧縮;あるいは、
    これらの何らかの組み合わせ、に対して使用する、請求項6記載の方法。
  18. 前記情報は、
    前記少なくとも1つのターゲットの少なくとも1つの位置に関連する位置情報、
    各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルに関連する位置情報、
    フォーマット情報、および、前記フォーマット情報の可能性あるバリエーション、
    前記少なくとも1つのターゲットに関連するキーワード情報、あるいは、
    これらの任意の組み合わせ、
    を含む、請求項1記載の方法。
  19. 少なくとも1つの文書で、少なくとも1つのターゲットの少なくとも1つのターゲット値を決定するシステムにおいて、
    少なくとも1つのプロセッサを含み、
    前記少なくとも1つのプロセッサは、
    少なくとも1つのトレーニング文書からの情報を利用する少なくとも1つのスコアリングアプリケーションを利用して、少なくとも1つの可能性あるターゲット値を決定し、
    少なくとも1つの新たな文書上で、少なくとも1つのターゲットの少なくとも1つの値を決定するために、前記少なくとも1つのスコアリングアプリケーションを利用して、前記少なくとも1つの新たな文書に前記情報を適用するように構成されている、システム。
  20. 前記情報は、ターゲット位置情報を含む、請求項19記載のシステム。
  21. 前記プロセッサは、
    (a)少なくとも1つのトレーニング文書中の少なくとも1つのターゲットの少なくとも1つの位置を含む情報、
    (b)前記少なくとも1つのトレーニング文書中の少なくとも1つのターゲットに対する、フォーマット情報および可能性あるバリエーションのフォーマット情報、または、
    (c)これらの任意の組み合わせ、
    に対する少なくとも1つの追加のスコアリングアプリケーションを利用するようにさらに構成されている、請求項20記載のシステム。
  22. 少なくとも1つの文書分類子を前記少なくとも1つの文書に適用することをさらに含む、請求項19記載のシステム。
  23. 前記ターゲット位置情報は、少なくとも1つの参照と、各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルとを含む、請求項20記載のシステム。
  24. 前記プロセッサは、
    前記少なくとも1つの局所モジュールを利用して、前記少なくとも1つの参照を見つけることにより、
    前記少なくとも1つの局所モジュールを利用して、各参照に対して、前記少なくとも1つの参照ベクトルを生成させることにより、
    すべての文書から、何らかの類似した参照と何らかの類似した参照ベクトルとを取得するために、前記少なくとも1つの局所モジュールを利用して、各文書からの、前記少なくとも1つの参照に、および、前記少なくとも1つの参照ベクトルに、変動フィルタリングを実行することにより、
    少なくとも1つの動的変動ネットワーク(DVN)を生成させるために、前記少なくとも1つの局所モジュールを利用して、何らかの類似した参照と何らかの類似した参照ベクトルとを使用することにより、
    前記少なくとも1つのターゲット位置情報を利用するようにさらに構成され、
    前記少なくとも1つのDVNは、少なくとも1つの参照と、各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルとを含む、請求項23記載のシステム。
  25. 前記変動フィルタリングは、
    何らかの一致する参照が存在するか否かを決定するために、前記少なくとも1つの局所モジュールを利用して、何らかの類似した参照を、少なくとも1つの新たな文書上の少なくとも1つの参照と比較することと、
    前記少なくとも1つの新たな文書上で前記少なくとも1つのターゲットを決定するために、前記少なくとも1つの局所モジュールを利用して、何らかの一致する参照に対応する何らかの類似した参照ベクトルを使用することと、
    をさらに含む、請求項24記載のシステム。
  26. 前記少なくとも1つの参照は、
    少なくとも1つの文字列;
    少なくとも1つのワード;
    少なくとも1つの数字;
    少なくとも1つの英数字表現;
    少なくとも1つのトークン;
    少なくとも1つのブランクスペース;
    少なくとも1つのロゴ;または、
    少なくとも1つのテキストフラグメント;あるいは、
    これらの任意の組み合わせを含む、請求項23記載のシステム。
  27. 前記少なくとも1つのターゲットの少なくとも1つのロケーションを使用して、前記ターゲットについての情報を取得および/または確認する、請求項19記載のシステム。
  28. 前記少なくとも1つの参照は、タイプミス、OCR誤り、または代替スペリング、あるいは、これらの任意の組み合わせを含むが、前記少なくとも1つの参照は、依然として、前記少なくとも1つの参照のロケーションのために、参照として使用される、請求項23記載のシステム。
  29. 前記類似した参照ベクトルは、位置的に類似しているか、コンテンツが類似しているか、またはタイプが類似しているか、あるいは、これらの任意の組み合わせであるとすることができる、請求項24記載のシステム。
  30. 前記参照と前記参照ベクトルとにわたる類似点は、設定可能である、請求項24記載のシステム。
  31. 厳密なおよび/またはファジーな一致を利用して、何らかの類似した参照を、前記少なくとも1つの新たな文書中の少なくとも1つの参照に一致させることができる、請求項24のシステム。
  32. 前記少なくとも1つの参照のうちの以下の特性:フォント;フォントサイズ;スタイル;またはこれらの任意の組み合わせ;が考慮される、請求項31記載のシステム。
  33. 前記少なくとも1つの参照は、少なくとも1つの他の参照と組み合わされる、および/または、少なくとも2つの参照に分けられる、請求項23記載のシステム。
  34. 前記少なくとも1つのDVNは、文書処理の間に動的に適応される、請求項24記載のシステム。
  35. 前記少なくとも1つのDVNは、
    参照訂正;
    文書分類;
    ページ区切り;
    文書修正の認識;
    文書要約;または、
    文書圧縮;あるいは、
    これらの何らかの組み合わせ、に対して使用する、請求項24記載のシステム。
  36. 前記情報は、
    前記少なくとも1つのターゲットの少なくとも1つの位置に関連する位置情報、
    各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルに関連する位置情報、
    フォーマット情報、および、前記フォーマット情報の可能性あるバリエーション、
    前記少なくとも1つのターゲットに関連するキーワード情報、あるいは、
    これらの任意の組み合わせ、
    を含む、請求項19記載のシステム。
JP2012537458A 2009-11-02 2010-10-29 動的変動ネットワークを使用するシステムおよび方法 Active JP5774597B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/610,937 US9158833B2 (en) 2009-11-02 2009-11-02 System and method for obtaining document information
US12/610,937 2009-11-02
PCT/IB2010/003251 WO2011051816A2 (en) 2009-11-02 2010-10-29 System and method for obtaining document information

Publications (2)

Publication Number Publication Date
JP2013509663A true JP2013509663A (ja) 2013-03-14
JP5774597B2 JP5774597B2 (ja) 2015-09-09

Family

ID=43802028

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012537458A Active JP5774597B2 (ja) 2009-11-02 2010-10-29 動的変動ネットワークを使用するシステムおよび方法

Country Status (6)

Country Link
US (1) US9158833B2 (ja)
EP (1) EP2497039A2 (ja)
JP (1) JP5774597B2 (ja)
AU (1) AU2010311066B2 (ja)
CA (1) CA2778303C (ja)
WO (1) WO2011051816A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022006172A (ja) * 2020-12-16 2022-01-12 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体
JP2022547028A (ja) * 2019-09-03 2022-11-10 京セラドキュメントソリューションズ株式会社 機械学習を用いた自動原稿分類
WO2023062798A1 (ja) * 2021-10-14 2023-04-20 株式会社Pfu 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information
US9213756B2 (en) 2009-11-02 2015-12-15 Harry Urbschat System and method of using dynamic variance networks
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
US10540404B1 (en) * 2014-02-07 2020-01-21 Amazon Technologies, Inc. Forming a document collection in a document management and collaboration system
JP2018506087A (ja) 2015-02-04 2018-03-01 バットボックス・リミテッドVatbox, Ltd. 複数の文書を盛り込んだ画像から文書画像を抽出するためのシステムおよび方法
CN105046253B (zh) * 2015-06-24 2018-05-11 山西同方知网数字出版技术有限公司 一种基于ocr的论文封皮自动识别系统及方法
US10387561B2 (en) 2015-11-29 2019-08-20 Vatbox, Ltd. System and method for obtaining reissues of electronic documents lacking required data
US10509811B2 (en) 2015-11-29 2019-12-17 Vatbox, Ltd. System and method for improved analysis of travel-indicating unstructured electronic documents
US10558880B2 (en) 2015-11-29 2020-02-11 Vatbox, Ltd. System and method for finding evidencing electronic documents based on unstructured data
US11138372B2 (en) 2015-11-29 2021-10-05 Vatbox, Ltd. System and method for reporting based on electronic documents
WO2017142615A1 (en) * 2016-02-15 2017-08-24 Vatbox, Ltd. System and method for maintaining data integrity
JP6938408B2 (ja) * 2018-03-14 2021-09-22 株式会社日立製作所 計算機及びテンプレート管理方法
US20200311413A1 (en) * 2019-03-28 2020-10-01 Konica Minolta Laboratory U.S.A., Inc. Document form identification
JP7328797B2 (ja) * 2019-06-05 2023-08-17 株式会社日立製作所 端末装置、文字認識システム及び文字認識方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524258A (ja) * 2000-02-23 2003-08-12 エスイーアール・システムズ・アーゲー 電子ドキュメントを処理する方法および装置

Family Cites Families (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731861A (en) 1983-08-26 1988-03-15 Texas Instruments Incorporated Method of optical character recognition
JPS61204733A (ja) 1985-03-07 1986-09-10 Oki Electric Ind Co Ltd 視野管理システム
JPS61217863A (ja) * 1985-03-23 1986-09-27 Brother Ind Ltd 電子辞書
AU595378B2 (en) 1986-08-22 1990-03-29 Commonwealth Scientific And Industrial Research Organisation Content-addressable memory system with active memory circuit
US4864501A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
CA1338601C (en) 1987-10-09 1996-09-17 Douglas Wyche Caldwell Relational database representation with relational database operation capability
JPH022459A (ja) * 1987-12-11 1990-01-08 Hewlett Packard Co <Hp> 問合わせ処理方法
JPH01277977A (ja) 1988-04-28 1989-11-08 Nec Corp パタン照合装置
JPH02186484A (ja) 1989-01-12 1990-07-20 Ricoh Co Ltd 認識辞書の学習方式
US5201047A (en) * 1989-12-21 1993-04-06 International Business Machines Corporation Attribute-based classification and retrieval system
US5191525A (en) * 1990-01-16 1993-03-02 Digital Image Systems, Corporation System and method for extraction of data from documents for subsequent processing
US5344132A (en) * 1990-01-16 1994-09-06 Digital Image Systems Image based document processing and information management system and apparatus
FR2660085A1 (fr) * 1990-03-20 1991-09-27 Philips Electronique Lab Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire.
JP3329806B2 (ja) * 1990-11-09 2002-09-30 株式会社日立製作所 ニューラルネット構築装置
JPH04123283U (ja) 1991-04-19 1992-11-06 鐘紡株式会社 編立機の不使用糸処理装置
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
US5245672A (en) * 1992-03-09 1993-09-14 The United States Of America As Represented By The Secretary Of Commerce Object/anti-object neural network segmentation
US5377348A (en) 1992-06-04 1994-12-27 International Business Machines Corporation System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection
US5491758A (en) 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
US5649068A (en) * 1993-07-27 1997-07-15 Lucent Technologies Inc. Pattern recognition system using support vectors
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
GB2281997B (en) 1993-09-20 1997-10-15 Ricoh Kk Method and apparatus for improving a text image by using character regeneration
US5537491A (en) * 1993-11-24 1996-07-16 Xerox Corporation Analyzing an image or other data to obtain a stable number of groups
US5742806A (en) * 1994-01-31 1998-04-21 Sun Microsystems, Inc. Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system
NZ248751A (en) 1994-03-23 1997-11-24 Ryan John Kevin Text analysis and coding
JPH07271916A (ja) 1994-03-31 1995-10-20 Suzuki Motor Corp 学習パターン生成装置及びこれを用いた文字認識装置
US5671333A (en) * 1994-04-07 1997-09-23 Lucent Technologies Inc. Training apparatus and method
US5689620A (en) 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
US5956419A (en) 1995-04-28 1999-09-21 Xerox Corporation Unsupervised training of character templates using unsegmented samples
US5675710A (en) * 1995-06-07 1997-10-07 Lucent Technologies, Inc. Method and apparatus for training a text classifier
JPH096799A (ja) 1995-06-19 1997-01-10 Sharp Corp 文書分類装置及び文書検索装置
AU6849196A (en) * 1995-08-16 1997-03-19 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US5889886A (en) * 1995-11-28 1999-03-30 Xerox Corporation Method and apparatus for detecting running text in an image
US6009196A (en) * 1995-11-28 1999-12-28 Xerox Corporation Method for classifying non-running text in an image
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5864855A (en) * 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
JP2987099B2 (ja) * 1996-03-27 1999-12-06 株式会社日立国際ビジネス 文書作成支援システム及び用語辞書
US5787201A (en) * 1996-04-09 1998-07-28 The United States Of America As Represented By The Secretary Of The Navy High order fractal feature extraction for classification of objects in images
US5937084A (en) 1996-05-22 1999-08-10 Ncr Corporation Knowledge-based document analysis system
US6101515A (en) * 1996-05-31 2000-08-08 Oracle Corporation Learning system for classification of terminology
US5778362A (en) * 1996-06-21 1998-07-07 Kdl Technologies Limted Method and system for revealing information structures in collections of data items
DE19627472A1 (de) 1996-07-08 1998-01-15 Ser Systeme Ag Datenbanksystem
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5745889A (en) 1996-08-09 1998-04-28 Digital Equipment Corporation Method for parsing information of databases records using word-location pairs and metaword-location pairs
AU4495597A (en) * 1996-09-23 1998-04-14 Lowrie Mcintosh Defining a uniform subject classification system incorporating document management/records retention functions
US6275610B1 (en) * 1996-10-16 2001-08-14 Convey Corporation File structure for scanned documents
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
DE19715723A1 (de) 1997-04-15 1998-11-12 Dci Datenbank Fuer Wirtschafts Array-Verfahren
US6353840B2 (en) * 1997-08-15 2002-03-05 Ricoh Company, Ltd. User-defined search template for extracting information from documents
JPH11184894A (ja) 1997-10-07 1999-07-09 Ricoh Co Ltd 論理要素抽出方法および記録媒体
US6665841B1 (en) * 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US5987457A (en) 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
JP4116688B2 (ja) 1997-12-22 2008-07-09 株式会社日本デジタル研究所 辞書学習方法および文字認識装置
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6115708A (en) * 1998-03-04 2000-09-05 Microsoft Corporation Method for refining the initial conditions for clustering with applications to small and large database clustering
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
US6324551B1 (en) * 1998-08-31 2001-11-27 Xerox Corporation Self-contained document management based on document properties
US6212532B1 (en) * 1998-10-22 2001-04-03 International Business Machines Corporation Text categorization toolkit
US6574632B2 (en) * 1998-11-18 2003-06-03 Harris Corporation Multiple engine information retrieval and visualization system
JP2000155803A (ja) 1998-11-20 2000-06-06 Nec Corp 文字読取方法および光学式文字読取装置
US6189002B1 (en) 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US6622134B1 (en) * 1999-01-05 2003-09-16 International Business Machines Corporation Method of constructing data classifiers and classifiers constructed according to the method
WO2000042563A2 (en) 1999-01-13 2000-07-20 Computer Associates Think, Inc. Signature recognition system and method
US6477551B1 (en) * 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
US6501855B1 (en) 1999-07-20 2002-12-31 Parascript, Llc Manual-search restriction on documents not having an ASCII index
US6785810B1 (en) * 1999-08-31 2004-08-31 Espoc, Inc. System and method for providing secure transmission, search, and storage of data
US6453315B1 (en) * 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6990238B1 (en) * 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
US6188010B1 (en) * 1999-10-29 2001-02-13 Sony Corporation Music search by melody input
DE19952769B4 (de) * 1999-11-02 2008-07-17 Sap Ag Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
US7149347B1 (en) * 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
US7305401B2 (en) * 2000-03-09 2007-12-04 The Web Access, Inc. Method and apparatus for performing a research task by interchangeably utilizing a multitude of search methodologies
US6741724B1 (en) 2000-03-24 2004-05-25 Siemens Dematic Postal Automation, L.P. Method and system for form processing
US20070033252A1 (en) * 2000-03-30 2007-02-08 Combest Ricky F Dynamic virtual network and method
JP2001318948A (ja) * 2000-05-09 2001-11-16 Hitachi Ltd 文書検索方法及び装置並びにその処理プログラムを記憶した媒体
AU2001264928A1 (en) * 2000-05-25 2001-12-03 Kanisa Inc. System and method for automatically classifying text
US6895552B1 (en) 2000-05-31 2005-05-17 Ricoh Co., Ltd. Method and an apparatus for visual summarization of documents
US6944340B1 (en) 2000-08-07 2005-09-13 Canon Kabushiki Kaisha Method and apparatus for efficient determination of recognition parameters
EP1182577A1 (en) 2000-08-18 2002-02-27 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Associative memory
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020156816A1 (en) 2001-02-13 2002-10-24 Mark Kantrowitz Method and apparatus for learning from user self-corrections, revisions and modifications
US6732090B2 (en) * 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
PT1288792E (pt) 2001-08-27 2012-02-29 Bdgb Entpr Software Sarl Método para indexar automaticamente documentos
DK1315096T3 (da) 2001-11-21 2012-09-24 Werner Voegeli Fremgangsmåde og indretning til at hente relevant information
JP4006239B2 (ja) 2002-02-21 2007-11-14 株式会社日立製作所 文書の検索方法および検索システム
GB0308413D0 (en) 2003-04-11 2003-05-21 Enseal Systems Ltd Verification of authenticity of check data
JP4366108B2 (ja) * 2003-04-30 2009-11-18 キヤノン株式会社 文書検索装置、文書検索方法及びコンピュータプログラム
JP2005038077A (ja) 2003-07-17 2005-02-10 Hitachi Ltd 筆記データ入力装置
JP2005043977A (ja) * 2003-07-23 2005-02-17 Hitachi Ltd 文書間の類似度算出方法および装置
US7483570B1 (en) 2004-02-11 2009-01-27 Knight Andrew F Software and method for creating a dynamic handwriting font
US7805446B2 (en) * 2004-10-12 2010-09-28 Ut-Battelle Llc Agent-based method for distributed clustering of textual information
US20060142993A1 (en) 2004-12-28 2006-06-29 Sony Corporation System and method for utilizing distance measures to perform text classification
US8570586B2 (en) 2005-05-02 2013-10-29 Digimarc Corporation Active images through digital watermarking
US7865018B2 (en) 2005-06-02 2011-01-04 Microsoft Corporation Personalized implicit and explicit character shape adaptation and recognition
US7925716B2 (en) 2005-12-05 2011-04-12 Yahoo! Inc. Facilitating retrieval of information within a messaging environment
US7949714B1 (en) 2005-12-05 2011-05-24 Google Inc. System and method for targeting advertisements or other information using user geographical information
US7472121B2 (en) * 2005-12-15 2008-12-30 International Business Machines Corporation Document comparison using multiple similarity measures
US8090743B2 (en) * 2006-04-13 2012-01-03 Lg Electronics Inc. Document management system and method
WO2007149004A1 (en) * 2006-06-13 2007-12-27 Freescale Semiconductor, Inc. Methods and apparatus for simulating distributed effects
US7945627B1 (en) * 2006-09-28 2011-05-17 Bitdefender IPR Management Ltd. Layout-based electronic communication filtering systems and methods
US7610281B2 (en) * 2006-11-29 2009-10-27 Oracle International Corp. Efficient computation of document similarity
US7720721B1 (en) 2006-12-28 2010-05-18 Amazon Technologies, Inc. Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms
US20100325109A1 (en) * 2007-02-09 2010-12-23 Agency For Science, Technology And Rearch Keyword classification and determination in language modelling
US8280877B2 (en) * 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US20080212877A1 (en) * 2007-03-04 2008-09-04 John Franco High speed error detection and correction for character recognition
US8049921B2 (en) 2007-04-16 2011-11-01 Bottomline Technologies (De) Inc. System and method for transferring invoice data output of a print job source to an automated data processing system
US20090228777A1 (en) 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
US20090125529A1 (en) 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes
AU2008255269A1 (en) * 2008-02-05 2009-08-20 Nuix Pty. Ltd. Document comparison method and apparatus
JP5402099B2 (ja) 2008-03-06 2014-01-29 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP4538507B2 (ja) 2008-05-02 2010-09-08 シャープ株式会社 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体
US9158833B2 (en) 2009-11-02 2015-10-13 Harry Urbschat System and method for obtaining document information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524258A (ja) * 2000-02-23 2003-08-12 エスイーアール・システムズ・アーゲー 電子ドキュメントを処理する方法および装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022547028A (ja) * 2019-09-03 2022-11-10 京セラドキュメントソリューションズ株式会社 機械学習を用いた自動原稿分類
JP7552686B2 (ja) 2019-09-03 2024-09-18 京セラドキュメントソリューションズ株式会社 機械学習を用いた自動原稿分類
JP2022006172A (ja) * 2020-12-16 2022-01-12 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体
JP7295189B2 (ja) 2020-12-16 2023-06-20 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体
WO2023062798A1 (ja) * 2021-10-14 2023-04-20 株式会社Pfu 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム

Also Published As

Publication number Publication date
US9158833B2 (en) 2015-10-13
WO2011051816A2 (en) 2011-05-05
AU2010311066B2 (en) 2016-08-11
CA2778303A1 (en) 2011-05-05
EP2497039A2 (en) 2012-09-12
CA2778303C (en) 2018-07-03
WO2011051816A3 (en) 2011-06-23
AU2010311066A1 (en) 2012-05-10
US20110103689A1 (en) 2011-05-05
JP5774597B2 (ja) 2015-09-09

Similar Documents

Publication Publication Date Title
JP5774597B2 (ja) 動的変動ネットワークを使用するシステムおよび方法
JP5730890B2 (ja) 動的変動ネットワークを使用するシステムおよび方法
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
JP5710624B2 (ja) 抽出のための方法及びシステム
US20160041987A1 (en) Method and system for extraction
US20070212143A1 (en) Print management apparatus, recording medium, and print management method
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
US11657367B2 (en) Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program
JP7268389B2 (ja) 情報処理装置及びプログラム
JP7271987B2 (ja) 情報処理装置及びプログラム
JP2008257543A (ja) 画像処理システム及びプログラム
JPH08263587A (ja) 文書入力方法および文書入力装置
JP2007018158A (ja) 文字処理装置、文字処理方法及び記録媒体
US11206335B2 (en) Information processing apparatus, method and non-transitory computer readable medium
JP2005050175A (ja) イメージデータ文書検索システム
JP2024003769A (ja) 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム
JP2023061781A (ja) 情報処理装置、及び情報処理プログラム
JP2023103967A (ja) 画像処理装置、画像処理方法および画像処理プログラム
Wille The facit project

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140617

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140912

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150701

R150 Certificate of patent or registration of utility model

Ref document number: 5774597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250