JP2013509663A - 動的変動ネットワークを使用するシステムおよび方法 - Google Patents
動的変動ネットワークを使用するシステムおよび方法 Download PDFInfo
- Publication number
- JP2013509663A JP2013509663A JP2012537458A JP2012537458A JP2013509663A JP 2013509663 A JP2013509663 A JP 2013509663A JP 2012537458 A JP2012537458 A JP 2012537458A JP 2012537458 A JP2012537458 A JP 2012537458A JP 2013509663 A JP2013509663 A JP 2013509663A
- Authority
- JP
- Japan
- Prior art keywords
- target
- document
- information
- similar
- dvn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1452—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on positionally close symbols, e.g. amount sign or URL-specific characters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
- Machine Translation (AREA)
Abstract
【選択図】図8
Description
上記で示したように、文書分類子を使用して、例えば、クラス識別子(例えば、インボイス、送金額明細、船荷証券、レター、eメール;または、送り主、売り主、もしくは受取人の身元により)を使用して文書を分類できる。文書分類子は、文書中のテキストに基づいて動作できる。文書分類子は、文書中のテキストについての位置情報に基づくこともある。文書分類子が、文書からのテキストについての、テキスト情報および/または位置情報の何らかの組み合わせを使用して、どのように文書を分類するかに関する詳細は、参照によりここに組み込まれている、以下の特許出願/特許においてより詳細に説明される:(すべて、“分類方法および装置”と題する)US2009/0216693、US6,976,207、およびUS7,509,578。
図2は、1つの実施形態にしたがった、DVNを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付ける方法200を図示している。205では、トレーニングに対して、1つ以上の文書(または、文書の一部)を使用することができる。210では、文書のトレーニングセットからコンパイルされた情報から、少なくとも1つのDVNを生成できる。DVNは、“キーワード”参照のセット(例えば、ワード、数、英数字シーケンス、トークン、ロゴ、テキストフラグメント、ブランクスペース等のような、何らかのテキスト/デジタル/文字のブロック)と、この参照のセットに対する参照ベクトルとであり得る。各参照ベクトルは、参照をターゲットに接続することができる。215では、DVNをトレーニングされていない文書に適用して、少なくとも1つのターゲットをトレーニングされていない文書上で局所化することができる。局所化は、トレーニングされていない文書のどこにターゲットの位置を予期すべきかを決定できる。これにより、(例えば、ターゲット“インボイス日付”に対するターゲット値1/10/2009のような)ターゲットについての情報を取得または確認する助けをする。例えば、ターゲットが日付のような文書フィールドである場合に、ターゲットにある値を抽出することができる。所定のターゲット位置において参照が存在しない場合に、ターゲットが文書上にないことを示すことになる。例示的なターゲットは、これらには限定されないが、チェックボックス、署名フィールド、スタンプ、アドレスブロック、フィールド(例えば、インボイスの総額、配達記録上のパッケージの重量、レシート上のクレジットカード番号)、マップ上に手動または自動で編集されたエントリ、テキスト/画像の混合文書中の画像関連コンテンツ、ページ番号等を含む。
図16は、1つの実施形態にしたがった、DSMを利用して、少なくとも1つの文書中で少なくとも1つのターゲットを位置付けるための方法を図示している。1610では、トレーニングのために1つ以上の文書(すなわち、文書の一部)を使用できる。1620では、トレーニングからコンパイルされた情報から、少なくとも1つのDSMを生成できる。DSMは、少なくとも1つのターゲットに対する可能性あるロケーションのセットであり得る。230では、ターゲットを位置付けるために、ターゲットの可能性あるロケーションを使用して、DSMをトレーニングされていない文書に適用できる。
ファジーフォーマットエンジンは、トレーニング文書から、少なくとも1つのターゲットに対するファジーフォーマットのリストを収集することができる。抽出フェーズの間に、ファジーフォーマットエンジンは、学習したフォーマットを潜在的なターゲットに一致させるスコアを算出することができる。例えば、量タイプのターゲットに対して、ターゲット値“102.65$”である場合に、ファジーフォーマットエンジンは、トレーニング文書から、表現“ddd.ddR”において、dは、数字を表し、Rは通貨信号を表すことを学習することができる。そして、ファジーフォーマットエンジンが、列“876.27$”を見つける場合に、この列は、非常に高いスコア(例えば、10)を持つ潜在的なターゲット値であると決定することができる。しかしながら、列“1872,12$”が見つけられる場合に、スコアは、8のスコアにおいて、追加の数字に対して1つ減少され、ピリオドの代わりのカンマに対して別の1つが減少されている可能性がある。別の例として、ファジーフォーマットエンジンは、“INVNR−10234”は、“CCCC−ddddd”として表されている可能性があり、ここで、Cは、大文字を表し、dは数字を表すことを学習することができる。多くのタイプのファジーフォーマットエンジンを使用することができ、多くのタイプのスコアリングを利用できることも、当業者は理解するだろう。他の可能性あるスコアリングシステムの例は、例えば、欠損した、または、追加の文字および数字の異なる取り扱い(例えば、欠損した、または、追加の文字に対して0.125スコアペナルティを持つことに対して、欠損した、または、追加の数字に対して0.25ペナルティを持つこと);参照によりここに組み込まれている以下の特許出願/特許に記述されているように取得できる文字列類似性測定である:(すべて“相関メモリ”と題する)US2009/0193022、US6,983,345、US7,433,997。
Claims (36)
- 少なくとも1つの文書で、少なくとも1つのターゲットの少なくとも1つのターゲット値を決定する方法において、
少なくとも1つのトレーニング文書からの情報を利用する少なくとも1つのスコアリングアプリケーションを利用して、少なくとも1つの可能性あるターゲット値を決定することと、
少なくとも1つの新たな文書上で、前記少なくとも1つのターゲットの少なくとも1つの値を決定するために、前記少なくとも1つのスコアリングアプリケーションを利用して、前記少なくとも1つの新たな文書に前記情報を適用することと、
を含む方法。 - 前記情報は、ターゲット位置情報を含む、請求項1記載の方法。
- (a)少なくとも1つのトレーニング文書中の少なくとも1つのターゲットの少なくとも1つの位置を含む情報、
(b)前記少なくとも1つのトレーニング文書中の少なくとも1つのターゲットに対する、フォーマット情報および可能性あるバリエーションのフォーマット情報、または、
(c)これらの任意の組み合わせ、
を利用する少なくとも1つの追加のスコアリングアプリケーションをさらに含む、請求項2記載の方法。 - 少なくとも1つの文書分類子を前記少なくとも1つの文書に適用することをさらに含む、請求項1記載の方法。
- 前記ターゲット位置情報は、少なくとも1つの参照と、各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルとを含む、請求項2記載の方法。
- 前記少なくとも1つの局所モジュールを利用して、前記少なくとも1つの参照を見つけることにより、
前記少なくとも1つの局所モジュールを利用して、各参照に対して、前記少なくとも1つの参照ベクトルを生成することにより、
すべての文書から、何らかの類似した参照と何らかの類似した参照ベクトルとを取得するために、前記少なくとも1つの局所モジュールを利用して、各文書からの、前記少なくとも1つの参照に、および、前記少なくとも1つの参照ベクトルに、変動フィルタリングを実行することにより、
少なくとも1つの動的変動ネットワーク(DVN)を生成するために、前記少なくとも1つの局所モジュールを利用して、何らかの類似した参照と何らかの類似した参照ベクトルとを使用することにより、
前記少なくとも1つのターゲット位置情報を利用することをさらに含み、
前記少なくとも1つのDVNは、少なくとも1つの参照と、各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルとを含む、請求項5記載の方法。 - 前記変動フィルタリングは、
何らかの一致する参照が存在するか否かを決定するために、前記少なくとも1つの局所モジュールを利用して、何らかの類似した参照を、少なくとも1つの新たな文書上の少なくとも1つの参照と比較することと、
前記少なくとも1つの新たな文書上で前記少なくとも1つのターゲットを決定するために、前記少なくとも1つの局所モジュールを利用して、何らかの一致する参照に対応する何らかの類似した参照ベクトルを使用することと、
をさらに含む、請求項6記載の方法。 - 前記少なくとも1つの参照は、
少なくとも1つの文字列;
少なくとも1つのワード;
少なくとも1つの数字;
少なくとも1つの英数字表現;
少なくとも1つのトークン;
少なくとも1つのブランクスペース;
少なくとも1つのロゴ;または、
少なくとも1つのテキストフラグメント;あるいは、
これらの任意の組み合わせを含む、請求項5記載の方法。 - 前記少なくとも1つのターゲットの少なくとも1つのロケーションを使用して、前記ターゲットについての情報を取得および/または確認する、請求項1記載の方法。
- 前記少なくとも1つの参照は、タイプミス、OCR誤り、または代替スペリング、あるいは、これらの任意の組み合わせを含むが、前記少なくとも1つの参照は、依然として、前記少なくとも1つの参照のロケーションのために、参照として使用される、請求項5記載の方法。
- 前記類似した参照ベクトルは、位置的に類似しているか、コンテンツが類似しているか、またはタイプが類似しているか、あるいは、これらの任意の組み合わせであるとすることができる、請求項6記載の方法。
- 前記参照と前記参照ベクトルとにわたる類似点は、設定可能である、請求項6記載の方法。
- 厳密なおよび/またはファジーな一致を利用して、何らかの類似した参照を、前記少なくとも1つの新たな文書中の少なくとも1つの参照に一致させることができる、請求項6の方法。
- 前記少なくとも1つの参照のうちの以下の特性:フォント;フォントサイズ;スタイル;またはこれらの任意の組み合わせ;が考慮される、請求項13記載の方法。
- 前記少なくとも1つの参照は、少なくとも1つの他の参照と組み合わされる、および/または、少なくとも2つの参照に分けられる、請求項5記載の方法。
- 前記少なくとも1つのDVNは、文書処理の間に動的に適応される、請求項6記載の方法。
- 前記少なくとも1つのDVNは、
参照訂正;
文書分類;
ページ区切り;
文書修正の認識;
文書要約;または、
文書圧縮;あるいは、
これらの何らかの組み合わせ、に対して使用する、請求項6記載の方法。 - 前記情報は、
前記少なくとも1つのターゲットの少なくとも1つの位置に関連する位置情報、
各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルに関連する位置情報、
フォーマット情報、および、前記フォーマット情報の可能性あるバリエーション、
前記少なくとも1つのターゲットに関連するキーワード情報、あるいは、
これらの任意の組み合わせ、
を含む、請求項1記載の方法。 - 少なくとも1つの文書で、少なくとも1つのターゲットの少なくとも1つのターゲット値を決定するシステムにおいて、
少なくとも1つのプロセッサを含み、
前記少なくとも1つのプロセッサは、
少なくとも1つのトレーニング文書からの情報を利用する少なくとも1つのスコアリングアプリケーションを利用して、少なくとも1つの可能性あるターゲット値を決定し、
少なくとも1つの新たな文書上で、少なくとも1つのターゲットの少なくとも1つの値を決定するために、前記少なくとも1つのスコアリングアプリケーションを利用して、前記少なくとも1つの新たな文書に前記情報を適用するように構成されている、システム。 - 前記情報は、ターゲット位置情報を含む、請求項19記載のシステム。
- 前記プロセッサは、
(a)少なくとも1つのトレーニング文書中の少なくとも1つのターゲットの少なくとも1つの位置を含む情報、
(b)前記少なくとも1つのトレーニング文書中の少なくとも1つのターゲットに対する、フォーマット情報および可能性あるバリエーションのフォーマット情報、または、
(c)これらの任意の組み合わせ、
に対する少なくとも1つの追加のスコアリングアプリケーションを利用するようにさらに構成されている、請求項20記載のシステム。 - 少なくとも1つの文書分類子を前記少なくとも1つの文書に適用することをさらに含む、請求項19記載のシステム。
- 前記ターゲット位置情報は、少なくとも1つの参照と、各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルとを含む、請求項20記載のシステム。
- 前記プロセッサは、
前記少なくとも1つの局所モジュールを利用して、前記少なくとも1つの参照を見つけることにより、
前記少なくとも1つの局所モジュールを利用して、各参照に対して、前記少なくとも1つの参照ベクトルを生成させることにより、
すべての文書から、何らかの類似した参照と何らかの類似した参照ベクトルとを取得するために、前記少なくとも1つの局所モジュールを利用して、各文書からの、前記少なくとも1つの参照に、および、前記少なくとも1つの参照ベクトルに、変動フィルタリングを実行することにより、
少なくとも1つの動的変動ネットワーク(DVN)を生成させるために、前記少なくとも1つの局所モジュールを利用して、何らかの類似した参照と何らかの類似した参照ベクトルとを使用することにより、
前記少なくとも1つのターゲット位置情報を利用するようにさらに構成され、
前記少なくとも1つのDVNは、少なくとも1つの参照と、各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルとを含む、請求項23記載のシステム。 - 前記変動フィルタリングは、
何らかの一致する参照が存在するか否かを決定するために、前記少なくとも1つの局所モジュールを利用して、何らかの類似した参照を、少なくとも1つの新たな文書上の少なくとも1つの参照と比較することと、
前記少なくとも1つの新たな文書上で前記少なくとも1つのターゲットを決定するために、前記少なくとも1つの局所モジュールを利用して、何らかの一致する参照に対応する何らかの類似した参照ベクトルを使用することと、
をさらに含む、請求項24記載のシステム。 - 前記少なくとも1つの参照は、
少なくとも1つの文字列;
少なくとも1つのワード;
少なくとも1つの数字;
少なくとも1つの英数字表現;
少なくとも1つのトークン;
少なくとも1つのブランクスペース;
少なくとも1つのロゴ;または、
少なくとも1つのテキストフラグメント;あるいは、
これらの任意の組み合わせを含む、請求項23記載のシステム。 - 前記少なくとも1つのターゲットの少なくとも1つのロケーションを使用して、前記ターゲットについての情報を取得および/または確認する、請求項19記載のシステム。
- 前記少なくとも1つの参照は、タイプミス、OCR誤り、または代替スペリング、あるいは、これらの任意の組み合わせを含むが、前記少なくとも1つの参照は、依然として、前記少なくとも1つの参照のロケーションのために、参照として使用される、請求項23記載のシステム。
- 前記類似した参照ベクトルは、位置的に類似しているか、コンテンツが類似しているか、またはタイプが類似しているか、あるいは、これらの任意の組み合わせであるとすることができる、請求項24記載のシステム。
- 前記参照と前記参照ベクトルとにわたる類似点は、設定可能である、請求項24記載のシステム。
- 厳密なおよび/またはファジーな一致を利用して、何らかの類似した参照を、前記少なくとも1つの新たな文書中の少なくとも1つの参照に一致させることができる、請求項24のシステム。
- 前記少なくとも1つの参照のうちの以下の特性:フォント;フォントサイズ;スタイル;またはこれらの任意の組み合わせ;が考慮される、請求項31記載のシステム。
- 前記少なくとも1つの参照は、少なくとも1つの他の参照と組み合わされる、および/または、少なくとも2つの参照に分けられる、請求項23記載のシステム。
- 前記少なくとも1つのDVNは、文書処理の間に動的に適応される、請求項24記載のシステム。
- 前記少なくとも1つのDVNは、
参照訂正;
文書分類;
ページ区切り;
文書修正の認識;
文書要約;または、
文書圧縮;あるいは、
これらの何らかの組み合わせ、に対して使用する、請求項24記載のシステム。 - 前記情報は、
前記少なくとも1つのターゲットの少なくとも1つの位置に関連する位置情報、
各参照を前記少なくとも1つのターゲットに結び付ける少なくとも1つの参照ベクトルに関連する位置情報、
フォーマット情報、および、前記フォーマット情報の可能性あるバリエーション、
前記少なくとも1つのターゲットに関連するキーワード情報、あるいは、
これらの任意の組み合わせ、
を含む、請求項19記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/610,937 US9158833B2 (en) | 2009-11-02 | 2009-11-02 | System and method for obtaining document information |
US12/610,937 | 2009-11-02 | ||
PCT/IB2010/003251 WO2011051816A2 (en) | 2009-11-02 | 2010-10-29 | System and method for obtaining document information |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013509663A true JP2013509663A (ja) | 2013-03-14 |
JP5774597B2 JP5774597B2 (ja) | 2015-09-09 |
Family
ID=43802028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012537458A Active JP5774597B2 (ja) | 2009-11-02 | 2010-10-29 | 動的変動ネットワークを使用するシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9158833B2 (ja) |
EP (1) | EP2497039A2 (ja) |
JP (1) | JP5774597B2 (ja) |
AU (1) | AU2010311066B2 (ja) |
CA (1) | CA2778303C (ja) |
WO (1) | WO2011051816A2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022006172A (ja) * | 2020-12-16 | 2022-01-12 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体 |
JP2022547028A (ja) * | 2019-09-03 | 2022-11-10 | 京セラドキュメントソリューションズ株式会社 | 機械学習を用いた自動原稿分類 |
WO2023062798A1 (ja) * | 2021-10-14 | 2023-04-20 | 株式会社Pfu | 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9158833B2 (en) | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
US9213756B2 (en) | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
US8996350B1 (en) | 2011-11-02 | 2015-03-31 | Dub Software Group, Inc. | System and method for automatic document management |
US10540404B1 (en) * | 2014-02-07 | 2020-01-21 | Amazon Technologies, Inc. | Forming a document collection in a document management and collaboration system |
JP2018506087A (ja) | 2015-02-04 | 2018-03-01 | バットボックス・リミテッドVatbox, Ltd. | 複数の文書を盛り込んだ画像から文書画像を抽出するためのシステムおよび方法 |
CN105046253B (zh) * | 2015-06-24 | 2018-05-11 | 山西同方知网数字出版技术有限公司 | 一种基于ocr的论文封皮自动识别系统及方法 |
US10387561B2 (en) | 2015-11-29 | 2019-08-20 | Vatbox, Ltd. | System and method for obtaining reissues of electronic documents lacking required data |
US10509811B2 (en) | 2015-11-29 | 2019-12-17 | Vatbox, Ltd. | System and method for improved analysis of travel-indicating unstructured electronic documents |
US10558880B2 (en) | 2015-11-29 | 2020-02-11 | Vatbox, Ltd. | System and method for finding evidencing electronic documents based on unstructured data |
US11138372B2 (en) | 2015-11-29 | 2021-10-05 | Vatbox, Ltd. | System and method for reporting based on electronic documents |
WO2017142615A1 (en) * | 2016-02-15 | 2017-08-24 | Vatbox, Ltd. | System and method for maintaining data integrity |
JP6938408B2 (ja) * | 2018-03-14 | 2021-09-22 | 株式会社日立製作所 | 計算機及びテンプレート管理方法 |
US20200311413A1 (en) * | 2019-03-28 | 2020-10-01 | Konica Minolta Laboratory U.S.A., Inc. | Document form identification |
JP7328797B2 (ja) * | 2019-06-05 | 2023-08-17 | 株式会社日立製作所 | 端末装置、文字認識システム及び文字認識方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003524258A (ja) * | 2000-02-23 | 2003-08-12 | エスイーアール・システムズ・アーゲー | 電子ドキュメントを処理する方法および装置 |
Family Cites Families (118)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4731861A (en) | 1983-08-26 | 1988-03-15 | Texas Instruments Incorporated | Method of optical character recognition |
JPS61204733A (ja) | 1985-03-07 | 1986-09-10 | Oki Electric Ind Co Ltd | 視野管理システム |
JPS61217863A (ja) * | 1985-03-23 | 1986-09-27 | Brother Ind Ltd | 電子辞書 |
AU595378B2 (en) | 1986-08-22 | 1990-03-29 | Commonwealth Scientific And Industrial Research Organisation | Content-addressable memory system with active memory circuit |
US4864501A (en) * | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
CA1338601C (en) | 1987-10-09 | 1996-09-17 | Douglas Wyche Caldwell | Relational database representation with relational database operation capability |
JPH022459A (ja) * | 1987-12-11 | 1990-01-08 | Hewlett Packard Co <Hp> | 問合わせ処理方法 |
JPH01277977A (ja) | 1988-04-28 | 1989-11-08 | Nec Corp | パタン照合装置 |
JPH02186484A (ja) | 1989-01-12 | 1990-07-20 | Ricoh Co Ltd | 認識辞書の学習方式 |
US5201047A (en) * | 1989-12-21 | 1993-04-06 | International Business Machines Corporation | Attribute-based classification and retrieval system |
US5191525A (en) * | 1990-01-16 | 1993-03-02 | Digital Image Systems, Corporation | System and method for extraction of data from documents for subsequent processing |
US5344132A (en) * | 1990-01-16 | 1994-09-06 | Digital Image Systems | Image based document processing and information management system and apparatus |
FR2660085A1 (fr) * | 1990-03-20 | 1991-09-27 | Philips Electronique Lab | Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire. |
JP3329806B2 (ja) * | 1990-11-09 | 2002-09-30 | 株式会社日立製作所 | ニューラルネット構築装置 |
JPH04123283U (ja) | 1991-04-19 | 1992-11-06 | 鐘紡株式会社 | 編立機の不使用糸処理装置 |
US5278980A (en) * | 1991-08-16 | 1994-01-11 | Xerox Corporation | Iterative technique for phrase query formation and an information retrieval system employing same |
US5245672A (en) * | 1992-03-09 | 1993-09-14 | The United States Of America As Represented By The Secretary Of Commerce | Object/anti-object neural network segmentation |
US5377348A (en) | 1992-06-04 | 1994-12-27 | International Business Machines Corporation | System for searching a data base by creating a marking matrix in which two dimensional patterns control the search and selection |
US5491758A (en) | 1993-01-27 | 1996-02-13 | International Business Machines Corporation | Automatic handwriting recognition using both static and dynamic parameters |
US5649068A (en) * | 1993-07-27 | 1997-07-15 | Lucent Technologies Inc. | Pattern recognition system using support vectors |
US5619709A (en) * | 1993-09-20 | 1997-04-08 | Hnc, Inc. | System and method of context vector generation and retrieval |
GB2281997B (en) | 1993-09-20 | 1997-10-15 | Ricoh Kk | Method and apparatus for improving a text image by using character regeneration |
US5537491A (en) * | 1993-11-24 | 1996-07-16 | Xerox Corporation | Analyzing an image or other data to obtain a stable number of groups |
US5742806A (en) * | 1994-01-31 | 1998-04-21 | Sun Microsystems, Inc. | Apparatus and method for decomposing database queries for database management system including multiprocessor digital data processing system |
NZ248751A (en) | 1994-03-23 | 1997-11-24 | Ryan John Kevin | Text analysis and coding |
JPH07271916A (ja) | 1994-03-31 | 1995-10-20 | Suzuki Motor Corp | 学習パターン生成装置及びこれを用いた文字認識装置 |
US5671333A (en) * | 1994-04-07 | 1997-09-23 | Lucent Technologies Inc. | Training apparatus and method |
US5689620A (en) | 1995-04-28 | 1997-11-18 | Xerox Corporation | Automatic training of character templates using a transcription and a two-dimensional image source model |
US5956419A (en) | 1995-04-28 | 1999-09-21 | Xerox Corporation | Unsupervised training of character templates using unsegmented samples |
US5675710A (en) * | 1995-06-07 | 1997-10-07 | Lucent Technologies, Inc. | Method and apparatus for training a text classifier |
JPH096799A (ja) | 1995-06-19 | 1997-01-10 | Sharp Corp | 文書分類装置及び文書検索装置 |
AU6849196A (en) * | 1995-08-16 | 1997-03-19 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US5889886A (en) * | 1995-11-28 | 1999-03-30 | Xerox Corporation | Method and apparatus for detecting running text in an image |
US6009196A (en) * | 1995-11-28 | 1999-12-28 | Xerox Corporation | Method for classifying non-running text in an image |
US6076088A (en) * | 1996-02-09 | 2000-06-13 | Paik; Woojin | Information extraction system and method using concept relation concept (CRC) triples |
US5864855A (en) * | 1996-02-26 | 1999-01-26 | The United States Of America As Represented By The Secretary Of The Army | Parallel document clustering process |
JP2987099B2 (ja) * | 1996-03-27 | 1999-12-06 | 株式会社日立国際ビジネス | 文書作成支援システム及び用語辞書 |
US5787201A (en) * | 1996-04-09 | 1998-07-28 | The United States Of America As Represented By The Secretary Of The Navy | High order fractal feature extraction for classification of objects in images |
US5937084A (en) | 1996-05-22 | 1999-08-10 | Ncr Corporation | Knowledge-based document analysis system |
US6101515A (en) * | 1996-05-31 | 2000-08-08 | Oracle Corporation | Learning system for classification of terminology |
US5778362A (en) * | 1996-06-21 | 1998-07-07 | Kdl Technologies Limted | Method and system for revealing information structures in collections of data items |
DE19627472A1 (de) | 1996-07-08 | 1998-01-15 | Ser Systeme Ag | Datenbanksystem |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US5745889A (en) | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for parsing information of databases records using word-location pairs and metaword-location pairs |
AU4495597A (en) * | 1996-09-23 | 1998-04-14 | Lowrie Mcintosh | Defining a uniform subject classification system incorporating document management/records retention functions |
US6275610B1 (en) * | 1996-10-16 | 2001-08-14 | Convey Corporation | File structure for scanned documents |
US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
DE19715723A1 (de) | 1997-04-15 | 1998-11-12 | Dci Datenbank Fuer Wirtschafts | Array-Verfahren |
US6353840B2 (en) * | 1997-08-15 | 2002-03-05 | Ricoh Company, Ltd. | User-defined search template for extracting information from documents |
JPH11184894A (ja) | 1997-10-07 | 1999-07-09 | Ricoh Co Ltd | 論理要素抽出方法および記録媒体 |
US6665841B1 (en) * | 1997-11-14 | 2003-12-16 | Xerox Corporation | Transmission of subsets of layout objects at different resolutions |
US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US5987457A (en) | 1997-11-25 | 1999-11-16 | Acceleration Software International Corporation | Query refinement method for searching documents |
JP4116688B2 (ja) | 1997-12-22 | 2008-07-09 | 株式会社日本デジタル研究所 | 辞書学習方法および文字認識装置 |
US6289342B1 (en) | 1998-01-05 | 2001-09-11 | Nec Research Institute, Inc. | Autonomous citation indexing and literature browsing using citation context |
US6115708A (en) * | 1998-03-04 | 2000-09-05 | Microsoft Corporation | Method for refining the initial conditions for clustering with applications to small and large database clustering |
US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US6243713B1 (en) * | 1998-08-24 | 2001-06-05 | Excalibur Technologies Corp. | Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types |
US6324551B1 (en) * | 1998-08-31 | 2001-11-27 | Xerox Corporation | Self-contained document management based on document properties |
US6212532B1 (en) * | 1998-10-22 | 2001-04-03 | International Business Machines Corporation | Text categorization toolkit |
US6574632B2 (en) * | 1998-11-18 | 2003-06-03 | Harris Corporation | Multiple engine information retrieval and visualization system |
JP2000155803A (ja) | 1998-11-20 | 2000-06-06 | Nec Corp | 文字読取方法および光学式文字読取装置 |
US6189002B1 (en) | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
US6622134B1 (en) * | 1999-01-05 | 2003-09-16 | International Business Machines Corporation | Method of constructing data classifiers and classifiers constructed according to the method |
WO2000042563A2 (en) | 1999-01-13 | 2000-07-20 | Computer Associates Think, Inc. | Signature recognition system and method |
US6477551B1 (en) * | 1999-02-16 | 2002-11-05 | International Business Machines Corporation | Interactive electronic messaging system |
US6629097B1 (en) * | 1999-04-28 | 2003-09-30 | Douglas K. Keith | Displaying implicit associations among items in loosely-structured data sets |
EP1049030A1 (en) * | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
US6501855B1 (en) | 1999-07-20 | 2002-12-31 | Parascript, Llc | Manual-search restriction on documents not having an ASCII index |
US6785810B1 (en) * | 1999-08-31 | 2004-08-31 | Espoc, Inc. | System and method for providing secure transmission, search, and storage of data |
US6453315B1 (en) * | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
US6990238B1 (en) * | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
US6188010B1 (en) * | 1999-10-29 | 2001-02-13 | Sony Corporation | Music search by melody input |
DE19952769B4 (de) * | 1999-11-02 | 2008-07-17 | Sap Ag | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache |
US7149347B1 (en) * | 2000-03-02 | 2006-12-12 | Science Applications International Corporation | Machine learning of document templates for data extraction |
US7305401B2 (en) * | 2000-03-09 | 2007-12-04 | The Web Access, Inc. | Method and apparatus for performing a research task by interchangeably utilizing a multitude of search methodologies |
US6741724B1 (en) | 2000-03-24 | 2004-05-25 | Siemens Dematic Postal Automation, L.P. | Method and system for form processing |
US20070033252A1 (en) * | 2000-03-30 | 2007-02-08 | Combest Ricky F | Dynamic virtual network and method |
JP2001318948A (ja) * | 2000-05-09 | 2001-11-16 | Hitachi Ltd | 文書検索方法及び装置並びにその処理プログラムを記憶した媒体 |
AU2001264928A1 (en) * | 2000-05-25 | 2001-12-03 | Kanisa Inc. | System and method for automatically classifying text |
US6895552B1 (en) | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
US6944340B1 (en) | 2000-08-07 | 2005-09-13 | Canon Kabushiki Kaisha | Method and apparatus for efficient determination of recognition parameters |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US20020156816A1 (en) | 2001-02-13 | 2002-10-24 | Mark Kantrowitz | Method and apparatus for learning from user self-corrections, revisions and modifications |
US6732090B2 (en) * | 2001-08-13 | 2004-05-04 | Xerox Corporation | Meta-document management system with user definable personalities |
PT1288792E (pt) | 2001-08-27 | 2012-02-29 | Bdgb Entpr Software Sarl | Método para indexar automaticamente documentos |
DK1315096T3 (da) | 2001-11-21 | 2012-09-24 | Werner Voegeli | Fremgangsmåde og indretning til at hente relevant information |
JP4006239B2 (ja) | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | 文書の検索方法および検索システム |
GB0308413D0 (en) | 2003-04-11 | 2003-05-21 | Enseal Systems Ltd | Verification of authenticity of check data |
JP4366108B2 (ja) * | 2003-04-30 | 2009-11-18 | キヤノン株式会社 | 文書検索装置、文書検索方法及びコンピュータプログラム |
JP2005038077A (ja) | 2003-07-17 | 2005-02-10 | Hitachi Ltd | 筆記データ入力装置 |
JP2005043977A (ja) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
US7483570B1 (en) | 2004-02-11 | 2009-01-27 | Knight Andrew F | Software and method for creating a dynamic handwriting font |
US7805446B2 (en) * | 2004-10-12 | 2010-09-28 | Ut-Battelle Llc | Agent-based method for distributed clustering of textual information |
US20060142993A1 (en) | 2004-12-28 | 2006-06-29 | Sony Corporation | System and method for utilizing distance measures to perform text classification |
US8570586B2 (en) | 2005-05-02 | 2013-10-29 | Digimarc Corporation | Active images through digital watermarking |
US7865018B2 (en) | 2005-06-02 | 2011-01-04 | Microsoft Corporation | Personalized implicit and explicit character shape adaptation and recognition |
US7925716B2 (en) | 2005-12-05 | 2011-04-12 | Yahoo! Inc. | Facilitating retrieval of information within a messaging environment |
US7949714B1 (en) | 2005-12-05 | 2011-05-24 | Google Inc. | System and method for targeting advertisements or other information using user geographical information |
US7472121B2 (en) * | 2005-12-15 | 2008-12-30 | International Business Machines Corporation | Document comparison using multiple similarity measures |
US8090743B2 (en) * | 2006-04-13 | 2012-01-03 | Lg Electronics Inc. | Document management system and method |
WO2007149004A1 (en) * | 2006-06-13 | 2007-12-27 | Freescale Semiconductor, Inc. | Methods and apparatus for simulating distributed effects |
US7945627B1 (en) * | 2006-09-28 | 2011-05-17 | Bitdefender IPR Management Ltd. | Layout-based electronic communication filtering systems and methods |
US7610281B2 (en) * | 2006-11-29 | 2009-10-27 | Oracle International Corp. | Efficient computation of document similarity |
US7720721B1 (en) | 2006-12-28 | 2010-05-18 | Amazon Technologies, Inc. | Method and system for analyzing user interaction to identify documents associated with dissimilar items that may contain synonyms |
US20100325109A1 (en) * | 2007-02-09 | 2010-12-23 | Agency For Science, Technology And Rearch | Keyword classification and determination in language modelling |
US8280877B2 (en) * | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
US20080212877A1 (en) * | 2007-03-04 | 2008-09-04 | John Franco | High speed error detection and correction for character recognition |
US8049921B2 (en) | 2007-04-16 | 2011-11-01 | Bottomline Technologies (De) Inc. | System and method for transferring invoice data output of a print job source to an automated data processing system |
US20090228777A1 (en) | 2007-08-17 | 2009-09-10 | Accupatent, Inc. | System and Method for Search |
US20090125529A1 (en) | 2007-11-12 | 2009-05-14 | Vydiswaran V G Vinod | Extracting information based on document structure and characteristics of attributes |
AU2008255269A1 (en) * | 2008-02-05 | 2009-08-20 | Nuix Pty. Ltd. | Document comparison method and apparatus |
JP5402099B2 (ja) | 2008-03-06 | 2014-01-29 | 株式会社リコー | 情報処理システム、情報処理装置、情報処理方法およびプログラム |
JP4538507B2 (ja) | 2008-05-02 | 2010-09-08 | シャープ株式会社 | 画像照合方法、画像照合装置、画像データ出力処理装置、プログラム及び記憶媒体 |
US9158833B2 (en) | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
-
2009
- 2009-11-02 US US12/610,937 patent/US9158833B2/en active Active
-
2010
- 2010-10-29 WO PCT/IB2010/003251 patent/WO2011051816A2/en active Application Filing
- 2010-10-29 EP EP10805633A patent/EP2497039A2/en not_active Withdrawn
- 2010-10-29 JP JP2012537458A patent/JP5774597B2/ja active Active
- 2010-10-29 CA CA2778303A patent/CA2778303C/en active Active
- 2010-10-29 AU AU2010311066A patent/AU2010311066B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003524258A (ja) * | 2000-02-23 | 2003-08-12 | エスイーアール・システムズ・アーゲー | 電子ドキュメントを処理する方法および装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022547028A (ja) * | 2019-09-03 | 2022-11-10 | 京セラドキュメントソリューションズ株式会社 | 機械学習を用いた自動原稿分類 |
JP7552686B2 (ja) | 2019-09-03 | 2024-09-18 | 京セラドキュメントソリューションズ株式会社 | 機械学習を用いた自動原稿分類 |
JP2022006172A (ja) * | 2020-12-16 | 2022-01-12 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体 |
JP7295189B2 (ja) | 2020-12-16 | 2023-06-20 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | ドキュメントコンテンツの抽出方法、装置、電子機器及び記憶媒体 |
WO2023062798A1 (ja) * | 2021-10-14 | 2023-04-20 | 株式会社Pfu | 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US9158833B2 (en) | 2015-10-13 |
WO2011051816A2 (en) | 2011-05-05 |
AU2010311066B2 (en) | 2016-08-11 |
CA2778303A1 (en) | 2011-05-05 |
EP2497039A2 (en) | 2012-09-12 |
CA2778303C (en) | 2018-07-03 |
WO2011051816A3 (en) | 2011-06-23 |
AU2010311066A1 (en) | 2012-05-10 |
US20110103689A1 (en) | 2011-05-05 |
JP5774597B2 (ja) | 2015-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5774597B2 (ja) | 動的変動ネットワークを使用するシステムおよび方法 | |
JP5730890B2 (ja) | 動的変動ネットワークを使用するシステムおよび方法 | |
US7668372B2 (en) | Method and system for collecting data from a plurality of machine readable documents | |
JP5710624B2 (ja) | 抽出のための方法及びシステム | |
US20160041987A1 (en) | Method and system for extraction | |
US20070212143A1 (en) | Print management apparatus, recording medium, and print management method | |
US11321558B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US11657367B2 (en) | Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program | |
JP7268389B2 (ja) | 情報処理装置及びプログラム | |
JP7271987B2 (ja) | 情報処理装置及びプログラム | |
JP2008257543A (ja) | 画像処理システム及びプログラム | |
JPH08263587A (ja) | 文書入力方法および文書入力装置 | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 | |
US11206335B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
JP2005050175A (ja) | イメージデータ文書検索システム | |
JP2024003769A (ja) | 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム | |
JP2023061781A (ja) | 情報処理装置、及び情報処理プログラム | |
JP2023103967A (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
Wille | The facit project |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140912 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140922 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141217 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5774597 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |