JP2005182730A - ドキュメントの自動分離 - Google Patents

ドキュメントの自動分離 Download PDF

Info

Publication number
JP2005182730A
JP2005182730A JP2004047112A JP2004047112A JP2005182730A JP 2005182730 A JP2005182730 A JP 2005182730A JP 2004047112 A JP2004047112 A JP 2004047112A JP 2004047112 A JP2004047112 A JP 2004047112A JP 2005182730 A JP2005182730 A JP 2005182730A
Authority
JP
Japan
Prior art keywords
document
images
computer
categories
categorization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004047112A
Other languages
English (en)
Other versions
JP4311552B2 (ja
Inventor
Mauritius A R Schmidtler
エイ. アール. シュミットラー モウリティアス
Scott S Texeira
スチュワート テキセイラ スコット
Christopher K Harris
ケイ. ハリス クリストファー
Sameer Samat
サマット サミーヤ
Roland Borrey
ボレイ ローランド
Anthony Macciola
マッキオラ アンソニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mohomine Inc
Original Assignee
Mohomine Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mohomine Inc filed Critical Mohomine Inc
Publication of JP2005182730A publication Critical patent/JP2005182730A/ja
Application granted granted Critical
Publication of JP4311552B2 publication Critical patent/JP4311552B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32106Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file
    • H04N1/32112Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file in a separate computer file, document page or paper sheet, e.g. a fax cover sheet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3243Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of type information, e.g. handwritten or text document

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)
  • Paper (AREA)
  • Sheets, Magazines, And Separation Thereof (AREA)

Abstract

【課題】 ドキュメントの境界の線引き、およびドキュメントタイプの識別を、コンピュータベースのシステムにおいて達成すること。
【解決手段】 本発明では、1つ以上のドキュメントのデジタルイメージを解析し、1つ以上のドキュメント内の1つ以上のページまたはサブドキュメントを自動的に分類し、かつ、異なったカテゴリに属するデジタルイメージ間に挿入された分離ページのコンピュータによって生成されたイメージ、デジタルイメージのカテゴリ化シーケンスの記述、またはデジタルイメージに貼り付けられたか、これに関連したコンピュータによって生成された電子ラベル等の線引き識別子を自動的に生成することによって、ドキュメントの境界に線引きし、かつドキュメントのタイプを識別するための方法およびシステムが提供される。
【選択図】 図1

Description

(発明の分野)
本発明は、デジタルスキャナによって生成されたドキュメントまたはサブドキュメント等のイメージのシーケンスにおける境界を効果的に見つけるシステムおよび方法に関する。
(関連技術の説明)
ドキュメントまたはサブドキュメントの境界を見つけることは、大量のドキュメントおよび/またはサブドキュメントをそれらのドキュメントまたはドキュメントタイプに従って処理するという意味合いで有用である。本明細書中で用いられるように、「ドキュメント」という用語は、通常、開始部分の境界(例えば、第1ページ、第1パラグラフ等)および終わり部分の境界(例えば、最後のページ、最後のパラグラフ等)を有する媒体に含まれる情報に関し、「サブドキュメント」は、「ドキュメント」(例えば、ページ(単数または複数)、セクション(単数または複数)、パラグラフ(単数または複数)等)に含まれる任意の定義可能な情報のサブセットであり得る。以下において、「ドキュメント」および「サブドキュメント」は、集合的に「ドキュメント」と呼ばれる。
大量デジタルドキュメントの走査、および、これに続くドキュメントの処理のために通常用いられる現在の方法は、例えば、Raoによる特許文献1に記載されるように、ドキュメントを分類するために、物理的セパレータシートを用いるステップを包含する。大量の走査作業において、走査の前に物理的セパレータページを挿入するという手動の労力は、著しく費用がかかり、かつ時間を要し得る。例えば、米国の大規模なローン処理会社は、現在、1ヶ月に2000万件のローンイメージを処理するために、セパレータページの印刷に、1年間に100万ドルを費やすと推定する。さらに、これらのローン処理会社は、ローンドキュメントごとに、少なくとも20秒の手動の労力を推定する。従って、セパレータページを用いることが、全ドキュメント作成費の実質的な部分を占め得、この労力のレベルは、処理されるフォームの量とともに直線的に拡大縮小する。
同様の量が与えられた場合、人間によって構築されたルールに基づいたシステム(ここで、分類および/または分離ルールは、人間のオペレータによって定められる)は、特定の種類のタスクにとっては首尾よく働く。しかしながら、このようなルールに基づくシステムのコストは、処理されるドキュメントの数とともに直線的に増減せず、ドキュメントのタイプと業務ルールとの組み合わせの数が増加すると、より不十分な増減になりさえし得る。これは、時間とともに、システムが新しい制約に適応することを強いられ、かつ、新旧のルール間での対応の相互関係が正確であることを保証することが厄介であり、時間を要し、かつ高度に熟練した(従って、高価な)労働力を必要とし得る。
ごく最近、ルールの生成の処理を自動化する研究が行われた。非特許文献1(以後、「Collins−Thompson」」)に記載される研究は、特定の順序でないページを有する一括のドキュメントをとり入れ、かつ、同じドキュメントからのページを共に、自動的にグループ分けする。この研究は、3ステップの方法を用いる。第1に、ページの各ペアに、ドキュメント構造情報、テキストレイアウト情報、テキストの類似性、および一般的イメージコンテンツフィーチャに基づいた4つの類似性スコアが割り当てられる。これらのスコアは、その後、2つのページ間の全体的類似性を計算するために用いられる。最後に、ページのペアは、全部が互いに類似であるページのより大きいグループを得るために、類似性スコアによってクラスタ形成される。その結果、複数のドキュメントから、大きいページのセットのドキュメントが分離される。
Collins−Thompsonによって提示される方法は、ページをドキュメントに対応するグループに区分し、これは、どのタイプのドキュメントが集合の中に存在するかを識別することを試みない。しかしながら、このアプローチは、ビジネス全体の問題に対処するには及ばない。あるドキュメントが開始し、別のドキュメントが終了する場所をコンピュータに教示し、かつ、セパレータページの後に続くドキュメントのタイプを識別するために、かなり頻繁に、ドキュメント間にセパレータページが挿入される。情報の両方の情報部分が、特定のビジネスプロセスを強化するために重要である。このドキュメントのタイプの識別は、特定のドキュメントに対してどのさらなる処理が行われることが必要であるかを決定するために用いられる。以下の実施例は、両方のステップを実行することの価値を示す。
抵当リファイナンス会社は、ローンリファイナンス申し込みのドキュメントの作成を自動化することを所望する。作成プロセスは、今日、各ドキュメント間にバーコードセパレータを挿入するステップを包含する。セパレータは、1つのドキュメントが開始および終了する場所をコンピュータに教示する。バーコードは、どのドキュメントタイプがセパレータの後にあるかをコンピュータに教示する。ドキュメントタイプに基づいて、自動化された抽出およびルーティング技術が、各ドキュメントからの正確な情報を抜き取り得る。以前は、このすべての作業が手動で行われなければならなかった。ドキュメントタイプを識別しない場合、技術による節約が大幅に低減される。ドキュメントは、分離されるが、識別されない。人間のオペレータは、同定するために、各ドキュメントに目を通す必要がある。このプロセスは、各ドキュメントに目を通し、バーコードセパレータページを挿入するくらい長い。
さらに、Collins−Thompsonによって記載されたシステムは、特定の基準(ページは、同じドキュメントからのものである)に従ってドキュメントを互いに分離するように構築された。しかしながら、ビジネスプロセスのグループ分け基準を再定義することは有用であり得る。例えば、納税申告用紙から証書を分けることは、1つの分離タスクであり得る。別のビジネスプロセスにおいて、1人の個人に属するすべてのフォームを識別することは、所望される分離タスクであり得る。Collins−Thompsonにおいて用いられる方法は、システムのユーザが、類似であるとは何を意味するかを容易に定義すること、従って、分離タスクを再定義することを可能にしない。その代わりに、ユーザは、分類を再プログラムし、システムでクラスタ形成すること、および、システムが入力として用いるドキュメントから用いられるフィーチャを設計し直すことを必要とする。
米国特許第6,118,544号明細書 Collins−Thompsonら、"A Clustering−Based Algorithm for Automatic Document Separation"、ACM Special Interest Group in Information Retrieval、2002年
本発明は、ドキュメントの境界の線引き、およびドキュメントタイプの識別を、コンピュータベースのシステムにおいて達成することを課題とする。
(発明の簡単な要旨)
本発明により、コンピュータベースのシステムにおいて、ドキュメントの境界に線引きし、かつドキュメントタイプを識別する方法であって、カテゴリの分類ルールにより、複数のドキュメントイメージを複数の所定のカテゴリに自動的にカテゴリ化するステップと、該複数のドキュメントイメージのどれが、少なくとも2つのカテゴリのどれに属するかを識別する少なくとも1つの識別子を自動的に生成するステップとを包含する、方法が提供され、それにより、上記目的を達成する。
前記少なくとも1つの識別子は、前記複数のカテゴリのうちの異なったカテゴリに属するイメージに線引きするために、ドキュメントイメージ間に挿入されるコンピュータによって生成された分離ページを備えてもよい。
前記少なくとも1つの識別子は、前記複数のデジタルイメージのカテゴリ化により、該複数のデジタルイメージのカテゴリ化シーケンスを識別するコンピュータ可読記述を含んでもよい。
前記コンピュータ可読記述は、XMLメッセージを含んでもよい。
前記少なくとも1つの識別子は、前記複数のドキュメントイメージの少なくとも1つと電子的に関連付けられた、少なくとも1つのコンピュータによって生成されたラベルを含んでもよい。
前記複数のカテゴリは、金融取引において用いられる少なくとも2つの異なったフォームタイプを含んでもよい。
前記複数のカテゴリは、前記少なくとも2つの異なったフォームタイプごとに、最初、中間、および最後のページカテゴリをさらに含んでもよい。
前記自動的にカテゴリ化するステップは、ドキュメントイメージごとに出力スコアを生成するステップと、前記複数のドキュメントイメージの複数の可能なカテゴリ化シーケンスから、該出力スコアに基づいて最適カテゴリ化シーケンスを決定するためにグラフ探索アルゴリズムを用いるステップとを包含してもよい。
前記出力スコアは、各ドキュメントイメージが、前記複数のカテゴリからの少なくとも1つのそれぞれのカテゴリに属する確率を表してもよい。
前記グラフ探索アルゴリズムを用いるステップは、前記可能なカテゴリ化シーケンスごとに、前記複数のドキュメントイメージごとの前記出力スコアに基づいて、合計出力スコアを計算するためにグラフ構造を用いるステップと、どのカテゴリ化シーケンスが最高の合計出力スコアをもたらすかを決定するステップとを包含してもよい。
前記グラフ構造は、有限状態変換器を用いて実現され、前記複数のドキュメントイメージは、入力を含み、前記複数のカテゴリ化シーケンスは、出力を含んでもよい。
前記グラフ構造は、前記複数のドキュメントイメージを入力として、および前記複数のカテゴリ化シーケンスを出力として有する重みつき有限状態変換器を用いて実現され、各カテゴリ化シーケンスは、前記出力スコアに基づいて、重みつき値をそれらと関連付けてもよい。
前記出力スコアは、各ドキュメントイメージが、前記複数のカテゴリからの少なくとも1つのそれぞれのカテゴリに属する条件付確率を表し、ドキュメントイメージごとの該条件付確率は、少なくとも1つの先行するか、または後続のドキュメントイメージについて選択される少なくとも1つのカテゴリに依存してもよい。
前記自動的にカテゴリ化するステップは、少なくとも1つの可能なカテゴリ化シーケンスを除去する、手動で生成された分類ルールを適用するステップをさらに包含してもよい。
前記少なくとも1つの可能なカテゴリ化シーケンスは、第1のドキュメントタイプの最後のページが識別される前に、第2のドキュメントタイプの最初のページによって追従される第1のドキュメントタイプの最初のページを含んでもよい。
前記少なくとも1つの可能なカテゴリ化シーケンスは、所定の数のページを有することが知られる第1のドキュメントタイプの2つの連続的ページを含んでもよい。
本発明により、コンピュータによって実行される場合、ドキュメントの境界に線引きし、かつ、ドキュメントタイプを識別する方法を実行する、コンピュータによって実行可能な命令を格納するコンピュータ可読媒体であって、該方法は、カテゴリの分類ルールにより、複数のドキュメントイメージを複数の所定のカテゴリに自動的にカテゴリ化するステップと、該複数のドッキュメントイメージのどれが、該少なくとも2つのカテゴリのどれに属するかを識別する少なくとも1つの識別子を自動的に生成するステップとを包含してもよい。
前記複数のカテゴリのうちの異なったカテゴリに属するイメージに線引きするために、前記少なくとも1つの識別子は、ドキュメントイメージ間に挿入されるコンピュータ可読分離ページを含んでもよい。
前記少なくとも1つの識別子は、前記複数のデジタルイメージのカテゴリ化により、該複数のデジタルイメージのカテゴリ化シーケンスを識別するコンピュータ可読記述を含んでもよい。
前記コンピュータ可読記述は、XMLメッセージを含んでもよい。
前記少なくとも1つの識別子は、前記複数のドキュメントイメージの少なくとも1つと電子的に関連した少なくとも1つのコンピュータによって生成されたラベルを備えてもよい。
前記複数のカテゴリは、金融取引において用いられる少なくとも2つの異なったフォームタイプを含んでもよい。
前記複数のカテゴリは、前記少なくとも2つの異なったフォームタイプごとに最初、中間、および最後のページカテゴリをさらに含んでもよい。
前記自動的にカテゴリ化するステップは、ドキュメントイメージごとに出力スコアを生成するステップと、前記出力スコアに基づいて、前記複数のドキュメントイメージごとの複数の可能なカテゴリ化シーケンスからの最適なカテゴリ化シーケンスを決定するためにグラフ探索アルゴリズムを用いるステップとを包含してもよい。
前記出力スコアは、各ドキュメントイメージが前記複数のカテゴリからの少なくとも1つのそれぞれのカテゴリに属する確率を表してもよい。
前記グラフ探索アルゴリズムを用いるステップは、前記可能なカテゴリ化シーケンスごとに、前記複数のドキュメントイメージごとの前記出力スコアに基づいて、合計出力スコアを計算するためにグラフ構造を用いるステップと、どのカテゴリ化シーケンスが最高の合計出力スコアをもたらすかを決定するステップとを包含してもよい。
前記グラフ構造は、有限状態変換器を用いて実現され、前記複数のドキュメントイメージは、入力を含み、前記複数のカテゴリ化シーケンスは、出力を含んでもよい。
前記グラフ構造は、前記複数のドキュメントイメージを入力として、および前記複数のカテゴリ化シーケンスを出力として有する重みつき有限状態変換器を用いて実現され、各カテゴリ化シーケンスは、該出力スコアに基づいて、重みつき値とこれらを関連付けてもよい。
前記出力スコアは、各ドキュメントイメージが、前記複数のカテゴリからの少なくとも1つのそれぞれのカテゴリに属する条件付確率を表し、各ドキュメントイメージごとの該条件付確率は、少なくとも1つの先行するか、または後続のドキュメントイメージについて選択された少なくとも1つのカテゴリに依存してもよい。
前記自動的にカテゴリ化するステップは、少なくとも1つの可能なカテゴリ化シーケンスを除去する手動で生成された分類ルールを適用するステップをさらに包含してもよい。
前記少なくとも1つの可能なカテゴリ化シーケンスは、第1のドキュメントタイプの最後のページが識別される前に、第2のドキュメントタイプの最初のページによって追従される該第1のドキュメントタイプの最初のページを含んでもよい。
前記少なくとも1つの可能なカテゴリ化シーケンスは、所定の数のページを有することが知られた第1のドキュメントタイプの2つの連続的ページを含んでもよい。
前記少なくとも1つのドキュメントは、複数の銀行ローンドキュメント(bank loan document)を含んでもよい。
前記少なくとも1つのドキュメントは、複数の保険フォーム(insurance form)を含んでもよい。
前記少なくとも1つのドキュメントは、複数の納税フォーム(tax form)を含んでもよい。
前記少なくとも1つのドキュメントは、複数の雇用フォーム(employment form)を含んでもよい。
前記少なくとも1つのドキュメントは、複数の健康管理フォーム(healthcare form)を含んでもよい。
前記少なくとも1つのドキュメントは、複数の請求書フォーム(invoice form)を含んでもよい。
本発明は、デジタル走査した後で、ドキュメントまたはサブドキュメントの分離および識別に伴う手動の労力を低減する方法およびシステムを提供する。特に、本方法およびシステムは、手動で構築されたルールに基づくシステムのように、ほとんどの入来するドキュメントを自動的に処理するが、さらに、システムのセットアップ、メンテナンスおよび拡張に伴う構成時間を著しく低減するという利益をももたらす。ある実施形態において、これは、ドキュメントおよび/またはサブドキュメントを分離するために用いられるルールを自動的に構築する監視付き(supervised)機械学習法を用いることによって達成される。
さらなる実施形態において、本発明は、テキストおよびイメージのイメージ分類を適用し、これらの結果を、ルールベースのフレームワークで組み合わせ、これにより、分離の最も見込みのある構成が、容易に構成可能な制約のセットのもとで見出され得るシステムおよび方法を提供する。
別の実施形態において、本発明は、高品質の分離を自動的に生成するために、確率的ネットワークを用いる。確率的ネットワークは、原則に基づいて、情報の複数のソースを組み合わせ得、当業者は、すべての利用可能な情報から最も見込みのある分離を推論するために、公知の推論アルゴリズムを用い得る。情報の例示的ソースは、サブドキュメントシーケンス情報、各イメージにおけるグラフィカル情報、各イメージにおけるテキスト情報、ドキュメントおよび/またはサブドキュメントの頻度の分布、ドキュメントおよび/またはサブドキュメントの長さの分布、ならびにビジネスプロセスルールを含むが、これらに限定されない。単一の確率フレームワークに組み込まれるべき情報の種々のソースは、確率推定、およびなされた独立性の仮定を明確にするネットワーク構造の構築を必要とする。これらの仮定は、ネットワークにおける各確率の推定および推論の間に利用可能な情報を定義する。
ある実施形態において、各イメージのグラフィカル情報は、イメージのドキュメントまたはサブドキュメントタイプを予測する分類ルールを学習するために、機械学習アルゴリズムによって用いられる。別の実施形態において、機械学習アルゴリズムは、光学式文字認識(OCR)によって取得されたイメージにおけるテキスト情報に基づいて、イメージごとに分類ルールを学習する。さらに、別の実施形態は、2つのそのような分類器の出力を組み合わせ得、かつ、これらから単一の出力スコアを生成し得る。別の実施形態において、これらのフィーチャの2つのセットは、1つのフィーチャ空間、およびドキュメントまたはサブドキュメント分類ルールを構築するために、すべてのフィーチャが同時に用いられる1つの機械学習アルゴリズムに組み合わせられる。
さらなる実施形態において、分類ルールからの出力スコアは、推定されるクラスメンバーシップの確率として解釈され得る。これは、スコアが、推定するように構築された真のクラス確率分布関数と良好に相関することを意味する。これらのスコアは、確率に対して較正されるので、誤分類コストおよび事前分類(category priors)を考慮して決定を下す(例えば、Bayes最適決定)ために用いられ得る。確率を厳密に推定するための出力スコアの較正は、異なった情報ソースの組み合わせがより容易に達成されることを可能にする。なぜなら、種々のソースのからの情報の組み合わせは、通常、どのように進行するか、またはどれほどの改善が可能であるかを決定するために、原則に基づいた方法を用いずに、発見的に実行されるからである。
ある実施形態において、本発明は、1.0または0.0の「ハード」確率を生成する方法およびシステムに基づいたルールを含み得る。他の実施形態において、本発明は、より高度のレベルの分解能で、より平滑な確率密度関数を推定する能力を有する方法およびシステムを含む。
別の実施形態において、本発明は、ユーザが分類ルールまたはさらなる問題の制約を手動で明確にすることを可能にする。これは、関係/制約がネットワークにおいて容易にエンコードされ、かつユーザにすでに知られている場合、機械学習技術を用いるよりも、制約および関係を取得するために、より効率的な方法であり得る。
さらなる実施形態において、本発明は、ドキュメントの境界に線引きし、かつ、ドキュメントタイプを識別する方法を含む。この方法は、各カテゴリの、サンプルドキュメントイメージに基づいて自動的に生成された分類ルールに従って、複数のドキュメントイメージを複数の所定のカテゴリに自動的に分類するステップと、複数のドキュメントイメージのどれが、少なくとも2つのカテゴリのいずれに属するかを識別するための少なくとも1つの識別子を自動的に生成するステップとを包含する。
ある実施形態において、少なくとも1つの識別子は、複数のカテゴリのうちの異なったカテゴリに属するイメージに線引きするために、ドキュメントイメージ間に挿入された、コンピュータによって生成された分離ページを含む。別の実施形態において、少なくとも1つの識別子は、それぞれのカテゴリ分類に従って、複数のデジタルイメージのカテゴリ分類シーケンスを識別するコンピュータ可読記述(例えば、XMLメッセージ)を含む。さらに別の実施形態において、少なくとも1つの識別子は、複数のドキュメントイメージの少なくとも1つと電子的に関連付けられた、コンピュータによって生成された少なくとも1つのラベルを含む。
本発明のある実施形態によると、ネットワーク構造の構成可能性、およびルール構築の種々の方法を活用してネットワークの確率を推定する能力のために、本発明は、他の形態の情報、あるいは他の種類のドキュメントまたはサブドキュメントタイプを含むように、容易に保守および拡張される。
本発明により、ドキュメントの境界の線引き、およびドキュメントタイプの識別が、コンピュータベースのシステムにおいて達成される。
(好適な実施形態の詳細な説明)
本発明は、以下において図を参照して詳細に説明され、ここで、同じ要素は、一貫して同じ符号で示される。
本発明は、コンピュータシステムまたは他の処理システム上でソフトウェアを用いて実行され得る。図1は、本明細書中に記載された本発明の機能性を実行することができる例示的コンピュータシステム100のブロック図である。各コンピュータシステム100は、Intel Corporation(米国カリフォルニア州Santa Clara)から販売される「Pentium(R)」マイクロプロセッサおよび関連した集積回路チップ等の1つ以上の中央演算処理ユニット(CPU)の制御下で動作する。コンピュータシステム100は、キーボードおよびマウス104からコマンドおよびデータを入力し得、ユーザは、ディスプレイ106で入力およびコンピュータ出力を閲覧し得る。このディスプレイは、通常、ビデオモニタまたはフラットパネルディスプレイデバイスであり、コンピュータ100は、さらに、予め組み込まれたハードディスクドライブ等の、ダイレクトアクセス格納デバイス(DASD)もまた含む。メモリ108は、通常、揮発性半導体ランダムアクセスメモリ(RAM)を備える。各コンピュータは、好適には、プログラム製品リーダがデータを読み出し得(および、データを適宜書き込み得)るプログラム製品格納デバイス112を収容するプログラム製品リーダ110を含む。プログラム製品リーダは、例えば、ディスクドライブを備え得、プログラム製品格納デバイスは、フロッピー(R)ディスク、光学式CD−ROMディスク、CD−Rディスク、CD−RWディスク、DVDディスク等の取り外し可能な格納媒体を備え得る。各コンピュータ100は、コンピュータネットワーク113を介して接続された他のコンピュータと、ネットワーク113とコンピュータ100との間の接続116を介して通信を可能にするネットワークインターフェース114を通じて通信し得る。これらのデバイスは、通信バス117を通じて他のデバイスと通信する能力を有する。
CPU102は、DASD107に格納され、および/またはコンピュータ100のメモリ108に一時的に格納されるソフトウェアプログラムのプログラミングステップの制御下で動作する。プログラミングステップが実行された場合、関連システムコンポーネントは、機能を実行する。従って、ある実施形態において、プログラミングステップは、本明細書中に記載されたシステムの機能性を実現する。プログラミングステップは、プログラム製品112、またはネットワーク接続116を通じて、DASD107から受信され得る。格納ドライブ110は、CPU102による実行のために、プログラム製品を受信し、その上に記録されたプログラミングステップを読み出し、かつ、プログラミングステップをメモリ108に転送する。上述のように、プログラム製品格納デバイスは、磁気フロッピー(R)ディスク、CD−Rom、およびDVD格納ディスクを含む、記録されたコンピュータ可読命令を有する複数の取り外し可能媒体の任意の1つを備え得る。他の適切なプログラム製品格納デバイスは、磁気テープおよび半導体メモリチップを含み得る。このようにして、本発明による動作のために必要な処理ステップは、プログラム製品上で具体化され得る。
あるいは、プログラムステップは、ネットワーク113を介してオペレーティングメモリ108に収容され得る。ネットワーク方法において(さらなる説明がなくても当業者に理解される周知の方法により)、コンピュータは、ネットワーク通信がネットワーク接続116にわたって確立された後、プログラムステップを含むデータを、ネットワークインターフェース114を通じてメモリ108に収容する。その後、システムの処理を実行するために、プログラムステップがCPU102によって実行される。当業者に公知のように、本明細書中に記載される本発明の種々の機能をサポートするために、代替的アーキテクチャおよび構成を有する他のコンピューティングマシンおよびシステムが実現され得る。
1実施形態において、デジタルスキャナ120は、任意の公知の周辺バスインターフェースまたはアーキテクチャを用いてコンピュータシステム100に接続される。スキャナ120は、アナログイメージ(例えば、グラフィックおよび/またはテキスト情報)を走査して、これらをCPU102によって処理するために、デジタルイメージに変換するか、またはファイルする。スキャナ120は、市販される任意の適切なスキャナであり得る。1実施形態において、スキャナ120は、イリノイ州Lincolnwoodに位置するBoewe Bell&Howellによって製造されるBoewe Bell&Howell8125である。
1実施形態において、本発明は、ドキュメントに線引きするためにセパレータページを用いる従来技術のプロセスを改善するように設計される。例示的従来技術のプロセスは、図2に示される。201で開始して、ドキュメントページの集合は、人が異なったドキュメントタイプまたは目的のセクションに対応するページ間に物理セパレータシートを手動で挿入することによって処理される。目的のセクションは、各ドキュメントに必要とされるアプリケーションおよびさらなる処理に依存する。ステップ202にて、ドキュメントページおよびセパレータページの集合が、その後、デジタルスキャナに供給され、セパレータページを含む、各ページを表すデジタルイメージのシーケンスが生成される。このイメージのシーケンスは、その後、セパレータページによって識別および区別されるドキュメントまたはサブドキュメントのタイプに基づいて、システム100内に常駐するさらなるソフトウェアコンポーネントによってさらに処理され得る。ドキュメントまたはサブドキュメント専用の処理がここで可能である。なぜなら、セパレータページのイメージは、ドキュメントまたはサブドキュメントを線引きし、かつ、システム100によって容易に検出され得るからである。
本発明は、ページのドキュメントグループまたはサブドキュメントグループを線引きするプロセスを自動化する。1実施形態は、図3に示される。ステップ301で開始して、ドキュメントページは、デジタルスキャナ120に挿入され、かつ、デジタルイメージのシーケンスに変換される。このデジタルイメージのシーケンスは、その後、本発明により処理される(ステップ302)。ステップ302の出力は、ステップ202の出力、すなわち、自動的に生成されたセパレータシートのイメージがインターリーブされたデジタル化されたページのシーケンスと同じである。差異は、ステップ302において、本発明は、セパレータシートイメージをイメージシーケンスに自動的に挿入していることである。1実施形態において、ソフトウェアによって生成されたセパレータページは、さらに、セパレータページの直後に追従するか、またはこれに先行するドキュメントのタイプを示す。本発明がセパレータページをどのように決定するか、および、セパレータページをどこで挿入するかの方法は、本発明の種々の実施形態によりさらに詳細に後述される。
作業の流れのルーティングシステムが、ドキュメントシーケンス情報を直接的に解釈するように構成された場合、将来のサブシステムをセパレータイメージの処理または格納から解放して、さらなる経済性が得られ得る。この代替的実施形態は、図4に示される。ステップ401で開始して、ページは、デジタルスキャナに挿入され、かつ、デジタルイメージのシーケンスに変換される。このデジタルイメージのシーケンスは、その後、本発明により処理される(ステップ402)。このステップにおいて、セパレータシートイメージをデジタルイメージのシーケンスに挿入する代わりに、ステップ402は、変更されない元のデジタル化されたイメージシーケンスを出力し、かつ、さらに、イメージのシーケンスの記述を出力する。この記述は、ドキュメントまたはサブドキュメントの境界がコンピュータシステム100によって解釈されることを可能にする。1実施形態において、この記述は、ドキュメントの境界およびタイプを決定するために、システム100によって読み出されかつ処理されるXMLメッセージである。ドキュメント分離に対応する例示的XMLメッセージは、
Figure 2005182730
のように提供される。
しかしながら、当業者は、シーケンスを行う情報を生成および提供するために代替的方法が存在することを理解する。例えば、1実施形態において、コンピュータシステム100は、電子ラベルまたは他の識別子を各スキャナによって生成されたデジタルイメージ上に挿入または貼り付けて、一連のフォームにおける各フォームの最初、最後、および任意の中間のページを識別し得る。次に続く、これらのページの処理は、その後、各ページのラベルまたは識別子により実行される。
1実施形態において、本発明は、ページのシーケンスを自動的に分離するために分類ルールを構築および組み合わせる。ルールのセットは、確率ネットワークによって定義される。1実施形態において、このネットワークは、Mohri,Mによる「Finite−State Transducers in Language and Speech Proessing」(以後、「Mohri」)Association for Computational Linguistics(1997年)に記載の有限状態機械(FSM)の公知の形態である、有限状態変換器として実現され得る。1実施形態によると、本明細書中で記載されるFSMのタイプは、入力値、状態またはアイテム(例えば、ページのデジタルイメージ)を表す入力アーク(input arcs)、および、可能な次の値を表す出力アーク(output arcs)を有する1つ以上の状態遷移または決定ポイントとして表され得る。当該分野で公知のように、各状態遷移または決定ポイントは、入力アーク上の入力、出力アーク上の出力を受取り、1実施形態において、入力アークおよび/または出力アークと関連した確率重み値を有する。入力アークおよび出力アークは、さらに、ε(イプシロン)とよく呼ばれる空値またはシンボルを表し得る。1実施形態において、この確率重み値は、確率の負の対数として解釈され、ここで、Pは、アークによって表される確率である。
図5は、単一のドキュメント内の3つのフォームまたはサブドキュメントを分離するように設計された単純なFSMまたは確率ネットワークのグラフィック表現を示す。FSMは、3つのアークを有する単一の遷移状態またはポイントを含み、各アークは、入力および出力状態の両方を表す。コロンの前の各アークに関する情報は、入力アイテムである。図5の場合、これは入力イメージである。この入力イメージは、イメージのシーケンスにおいて、各イメージがそのアークの入力として考えられることを示すために、下付き数字tがインデクス付けされる(例えば、イメージ0は、最初の入力、イメージ1は次の入力等)。コロンの後であるが“/”の前の情報は、出力である。この場合、これは「A」「B」または「C」であり、3つのフォーム、すなわちフォームA、フォームB、またはフォームCのうちの1つにページを割り当てることに対応する。“/”の右側の情報は、モデル化されたイベントの確率である。当業者に公知のように、変換器は、ある「通常言語」をもう一方の「通常言語」にマップする。この場合、図5における変換器は、イメージのシーケンスをA、BおよびCシンボル、および、これらと関連した確率にマップする。実際、図5における変換器が、入来するイメージのシーケンスに適用された場合、フォームのサブシーケンスのすべての可能な組み合わせが、それらが生じる確率と共に列挙される。グラフ探索アルゴリズムは、その後、最高の確率でイメージのシーケンスが与えられた、フォームのシーケンスを見つけるために用いられ得る。例示的グラフ探索アルゴリズムは、深さ優先探索および幅優先探索アルゴリズムであり、これらは、当業者に周知であり、かつ、例えば、Russel,S.、Norvig,P.による「Artificial Intelligence:A Modern Approach」Prentice−Hall,Inc.(1995年)70〜84ページ、531〜544ページに記載される。図5における変換器について、これは、各イメージに与えられた、最も見込みのあるフォームを欲張り(greedy)な態様で選択することと同じである。これは、各イメージが、他のイメージと別個であると考えられ、かつ、他のイメージがどのフォームに割り当てられたかを考慮に入れないからである。しかしながら、複数のフォームタイプが存在し得る任意のネットワーク構造について、高い確率を有するシーケンスは、必ずしも、イメージごとに最高のイメージ対フォームの確率アークを順番に選択することによって構築されるシーケンスではない。これは、フォームの特定のシーケンスが、例えば、フォームの(ページの)長さ、または先行するか、または次に続くイメージと関連した確率といった他のファクタに基づいて、多少見込みがあることが可能だからである。
図5において、「image:A/p(FormA|image)」とラベル付けされた第1の最大のアークは、FSMの可能な経路または出力を表し、かつ、走査されたイメージは「FormA」イメージである確率を提供する。「image:B/p(FormB|image)」とラベル付けされた第2の中間アークは、FSMの別の可能な経路または出力を表し、かつ、走査されたイメージが「FormB」イメージである確率を提供する。同様に、「image:C/p(FormC|image)」とラベル付けされた最小のアークは、そのイメージが「FormC」である確率を提供する。1実施形態において、各経路と関連した確率は、各イメージのテキストおよび/またはグラフィカルコンテンツを解析し、その後、このコンテンツを既知のモデルと比較するか、または各カテゴリまたはフォームタイプと関連したセットをトレーニングすることによって生成される。このタイプの解析および確率分類を実行する例示的方法およびシステムは、「Effective Multi−Class Support Vector Machine Classification」と称される米国特許出願第60/341,291号(2003年3月10日出願)、アトーニードケット番号第52923−2000800号に記載され、この出願は参考のため、本明細書中にその全体が援用される(以後、「Harris」)。
図6は、同じ問題を解決するために、本発明の別の実施形態を表す、より複雑な変換器を示す。この変換器のアーク確率は、入来するイメージ(imageと示される)に依存し、このフォームに前のイメージが割り当てられる(imaget−1と示される)。例えば、「image:A/p(FormA|image,imaget−1=FormA)」とラベル付けされたアークは、FSMの1つの可能な経路または結果を表し、走査されたイメージが、現在のイメージ、imageのプロパティが与えられた「FormA」イメージである確率、および、前のイメージが「FormA」イメージであったという情報を提供する。あるいは、「image:A/p(FormA|image,imaget−1=FormB)」とラベル付けされたアークは、同じ入力イメージの異なった確率を生成する。なぜなら、このアークは、前のイメージ、すなわちimaget−1が「FormB」イメージであり、「FormA」イメージではなかったという情報を用いるからである。前のイメージの分類に関する情報を利用することによって、このFSMは、現在のイメージをどのように分類するかについて、より識別力がある。FSMをこのように構築することによって、当該の問題についてのより複雑な確率モデルが表現される。
さらなる実施形態において、FSMの構築および最適化は、例えば、Mohriに記載されるような関係代数の方法を用いて行われ得る。当業者に公知のように、変換器の入力(または、同様に、出力)側が、通常言語を表す。1実施形態において、通常言語は、セット、場合によっては、無限のイメージ(フォーム)の入力(出力)シーケンスである。従って、結合、クロス乗積、否定、減算および交差等のセットを演算は、他の変換器を生成するために、変換器の群上で実行され得る。さらに、変換器は、有理関数であり、従って、例えば、Mohriに記載されるように、このような投影および生成等の演算もまた可能である。これらの演算は、Mohriに示されるように、変換器を構築、操作および最適化する際に有用であることが証明される。
例えば、図6がほぼ正確であったが、FormAに割り当てられる2つの連続したイメージのシーケンスを否認することを所望していたことを前提とする。おそらく、これは、FormAがあるページフォームであり、かつ、別のFormAの次に現れ得ないというビジネスルールを強化する。図7における変換器は、FSMであり、これは、図6におけるFSMで生成された場合、正確に所望の結果をもたらす。図7において、アークは、フォームタイプシンボル(「A」、「B」、または「C」)である入力および出力アークの両方でラベル付けされ、かつ、確率を有しない。入力シンボルは、フォームタイプである。なぜなら、このFSMは、図5〜図6に記載されるようなFSMの出力を、入力としてとるように設計されるからである。さらに、アーク上には確率はない。なぜなら、このFSMは、特定の経路が他よりもより見込みがあるか、または好適であると判定するように設計されないからであり、このFSMは、フォームタイプのシーケンスを単に認めるか、または否認するように設計される。これは、2つのFormAイメージのシーケンスを有するすべての経路に0確率を、および、すべての他の経路に1.0確率を均等に割り当てると考えられ得る。例えば、「A:A」がラベル付けされたアークは、FSMがFormAシンボルをFormAシンボルに無条件にマッピングすることを意味する。同様に、「B:B」および「C:C」とラベル付けされたアークは、FormBシンボル対FormBシンボル、およびFormCシンボル対FormCシンボルにそれぞれマッピングする。これらのアークは、図5〜図6におけるもの等のFSMを用いて決定された任意のイメージについて、フォームタイプを変更せず、2つのFormAタイプイメージを有するシーケンスのみを除去することに留意されたい。これは、一旦「A」シンボルが読み込まれると、唯一の許容され得る出て行くアークは「B」および「C」だからである。従って、2つの連続する「A」出力シンボルを含む任意の経路は、最良の解決策を見つけるためにグラフ探索アルゴリズムが用いられる間、廃棄されるからである。
図8は、図5における変換器が与えられた6つの入力イメージのフォームシーケンスのすべての組み合わせの表現を示す。図5における変換器が与えられた6つの入力イメージに対して720の可能なフォームシーケンスがある。図7におけるフィルタが提供された後、Mohriにおいて記載されるような重み付きFSMの生成を用いて、隣り合う2つのFormAイメージを有するすべてのシーケンスが除去される(図9に示される)。状態およびアークの数が図8よりも図9において、より多い一方で、一意的シーケンスまたは経路の数は、図9において、より小さいことに留意されたい。図9における6つの入力イメージに対して、448のフォームのシーケンスのみがある。他の720−448=272は、すべて、2つの連続的FormAを中に有し、従って、可能なシーケンスとして除去された。
このフレームワークにおいて、イメージごとの情報、イメージ情報のシーケンス、フォームごとのシーケンス情報、イメージ情報のシーケンス、およびフォーム情報のシーケンスを利用する確率およびカスタムアプリケーションルール(例えば、2つの連続的FormAイメージは、許されない)は、すべて、許容可能なシーケンスのセットを制約するように原則に基づいて組み合わされ、かつ、次に、最高の確率を有する許容可能なシーケンスを見つけるために最適化され得る。
本発明は、各アークに対して分類ルールを確立する周知のマシン学習技術を用いる。例示的技術は、例えば、Bishop,C.による「Neural Networks for Pattern Recognition」Oxford University Press、Inc.(2002年)、27、77〜85、230〜247、295〜300、および343〜345ページに記載されるようなニューラルネットワーク(以後、「Bishop」)、Vapnik,V.による「The Nature of Statistical Learning Theory:Second Edition」Springer−Verlag New York,Inc.(2000年)138〜142ページに記載されるようなサポートベクトルマシーンである。他の技術は、例えば、Russell,S.およびNovig,P.による「Artificial Intelligence:A Modern Approach」Prentice−Hall,Inc.(1995年)、531〜544ページに記載されるような学習された決定ツリーの利用を含む。別の実施形態において、これらの方法は、例えば、Bishop、Harris、およびZadrozny,B.らによる「Transforming classifier scores into accurate multiclass probability estimates」Proceedings of the Egypt International Conference on Knowledge Discovery and Data Mining、(2002年)、ならびにPlatt,J.C.による「Probabilistic outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods」Advances in Large Margin Classifiers、MIT Press(1999年)に記載されるような較正された出力確率を出力し、従って、上述のネットワークの最適化が原則に基づいて行われる。
分類および確率ルールの適用と共に、本発明は、カスタムアプリケーションまたは「フィルタ」ルールをさらに含み、これらは、各ドキュメント、サブドキュメント、フォームまたは他のアイテムの公知の特性に基づいてアプリケーションごとに合わせられる。例えば、上述のように、特定のアプリケーションにおいて、FormAが単一のページフォームにすぎないことが知られ得る。従って、2つの連続的FromAに至るFSMのすべての可能な経路は、FSMから除去される。別の例のように、FormCは、常に3つのページの長さであることが公知であり得る。従って、FormCの開始ページが中間および終わりのページによって追従されなければならないカスタムロールは、このカスタムルールを満たさない任意の経路を削除するように実現され得る。これらは、次に続くハンドリング/プロセシングのために、ドキュメントまたは他のアイテムを分類および分離する際に支援し得る多くの可能なカスタムルールのほんのわずかな例である。
本発明の1実施形態による、ドキュメントセパレーションプログラムは、ページのグループを異なったローン申し込みフォームに分離するために、各イメージからテキストフィーチャのみを用いて構築された。20の異なった可能なフォームがあるが、これらのフォームの13のみが25よりも多い例示的ページを有し、従って、分類子は、これらの13のフォームのためにだけ構成される。この実施例は、25,526ローンアプリケーションページを含む。これらのページは、Boewe Bell&Howell(イリノイ州Lincolnwoodに位置する、によって製造されたBoewe Bell&Howe 8125デジタルスキャナを用いてデジタル的に走査され、ドキュメントページごとに単一の.tif fileが生成された。これらのイメージは、ロシアのMoscowに位置するAbbyy Software Houseによって製造されたAbbyyOCRと呼ばれる第3パーティ光学式文字認識(OCR)パッケージによって処理された。OCR処理は、ページごとに単一のASCIIテキストファイルをもたらす。
単一のローンの申し込みに対応するすべてのテキストファイルは、プログラムに送信される。ASCIIエンコードテキストファイルのシーケンスは、ローン申し込み#を含んだファイル名を有するディスクに保存される。これらの個々のテキストファイルは、その後、20のフォームタイプのうちの1つにより手動で分類され、順序どおりにローン申し込みに現れる。
分類子を構築するために用いられる13のフォームの各々について、Form_start、Form_mid、およびForm_endの3つのカテゴリが構成される。これらの3つのクラスは、フォームに最初に現れるページ、フォームの中間ページ、およびフォームの最後のページをそれぞれ表すように構成される。3つ以上のページを含むフォームについては、ページ1は、Form_startに割り当てられ、最後のページは、Form_endに割り当てられ、および、すべての他のページは、Form_midに割り当てられる。2つのページのみを含むフォームについては、最初および最後のフォームがForm_start、およびFrom_endのそれぞれに割り当てられ、さらに、最初および最後のページの両方が、Form_midに割り当てられる。最後に、長さにおけるただ1つのページであるフォームについて、このページは、すべての3つのカテゴリに割り当てられる。従って、13のフォームタイプ×フォームタイプごとの3つのカテゴリが、39のバイナリ分類子の構成をもたらす。それぞれがHarrisに記載されたように、クラスメンバーシップの確率を出力するように構成される(例えば、p(LoanApplication_start|image)、p(Appraisal_end|Image)等)。各場合における正のクラスは、クラス(例えば、Appraisal_end)における例によって定義され、負のクラスは、すべて、他のページである(分類子が構成されない7つのフォームの一部分であったものを含む)。ドキュメントの分離の有効性を試験するために、試験セットは、トレーニングセットを構成するために用いられたものと同じ方法で構成される。このセットは、20個の異なったフォームからの5,357ページを有する。
39個のページごとのテキスト分類子のみを用いた結果、図5と類似の構成になる。無効のシーケンスの1つの原因は、ページが、Form_startに割り当てられる前に現れるページの前に、Form_endに不正確に分類されることである。エラーの別の形態は、フォームが開始した場合に、別のフォームが開始し、その後、最初のフォームが終了し、その後、第2のフォームが終了することである。これらのシーケンスは、無意味であるので、以下のフィルタルールを強化したフィルタFSMが構成される。これらのルールは、一旦Form_startがページに割り当てられると、次のページは、すべて、対応するForm_midまたはForm_endに割り当てられなければならず、一旦Form_endがページに割り当てられると、パージは、Form_startにのみ割り当てられ得る。これにより、有効なシーケンスのみが製造される。上述の例示的FSMの単純な構造を仮定して、類似の態様で残りの10個のフォームをこのFSMに追加することは、当業者にとって通常の手順である。次に、ページのシーケンスが与えられたフォームの最も見込みのあるシーケンスを見つけるために、生じたFSMに深さ優先探索アルゴリズムが適用される。このシーケンスは、テキストベースの分類子によって自動的に構築されたルールを用いてフォームにページが割り当てられることによって定義される。見出されたシーケンスにおけるフォームに対する、ページの、ページごとの割り当ての最高確率からの唯一の逸脱は、見出されるシーケンスが上述の制約を満たすという意味で「許容可能」でなければならず、すなわち、(a)は、フォームはオーバーラップし得ず、かつ(b)終了する前に開始しなければならないことである。試験セットに対してこのプログラムを用いることによって、自動フォーム分離の実行が続く。
Figure 2005182730
カラム「NAME」は、試験されるフォームの名称に対応する。カラム「TP」、「FP」および「FN」は、システムによってなされる真正、偽正および偽負フォーム分離をそれぞれ示す。精度は、TP/(TP+FP)として定義され、リコールは、TP/(TP+FN)と定義される。F測定値は、精度とリコールとの間の調和平均と定義される。上述の表において、各TP、FP、およびFNは、完成したフォームである(例えば、イメージのシーケンス)。従って、3ページAppraisalOriginationフォームが、1ページAppraisalOriginationフォームによって追従される2ページAppraisalOriginationフォームに不正確に分割された場合、これは、AppraisalOriginationについては2FPおよび1FNになる。同じ3ページフォームが3ページNoteとして不正確に識別された場合、Noteについては、これは1FPと記録され、AppraisalOriginationについては1FNとして記録される。
この手順によってなされる別のタイプの間違いは、1つのフォームのページの長いシーケンスが、まさに隣り合うフォームの2つのシーケンスに分割されることである。例えば、単一の4ページフォームは、2つの隣接する2ページフォームに分割され得る。特定のローン処理アプリケーションがなされた場合、任意のタイプのフォームの2つの発生(occurrence)が同じローンアプリケーションにおいて現れることは不可能である。従って、別の実施形態において、図7におけるものと同じフィルタが、まさに隣り合って現れる反復形態を除去するように構成される。従って、テキスト分類子が、すべての4つのページを同じフォームタイプに割り当てることが所望された場合、これらは、2ページの2つのシーケンスの代わりに、4ページの1つのシーケンスに押し込まれる。これは、システムの精度を劇的に改善する。フィルタは、約1時間のうちに構成され、これは、カスタムビジネスルールを、特に、このローンアプリケーション問題に対して実施する。さらなるフィルタルールを有するこのシステムの性能は、以下のテーブルで提供される。
Figure 2005182730
上記の結果は、カスタムフィルタを組み込んで、ドキュメントおよび/またはアイテムの自動分類および分離を改善するために、カスタムフィルタルールを取り入れることができるという点で、本発明の有用性を示す。1実施形態において、フィルタルールは、処理されるドキュメントまたはアイテムの公知の特徴、フィーチャ等を手動で用いて構成され得る。別の実施形態において、フィルタルールは、上述のように、例示的ドキュメントまたはアイテムのトレーニングセットを利用する公知の機械学習技術を用いて自動的に構築され得、システムを構成または適合することが必要とされる非常にわずかな時間で非常に正確なシステムを達成する。
別の実施形態において、前の発明は、ローンアプリケーションをデジタルで走査および処理するための大規模プロセスに統合される。このプロセスは、作業の流れ、および19個のBell&Howell8125デジタルスキャナおよび22個の人間が見るリビュアの統合化を管理するためのKofax Ascent Capture5.51ソフトウェアを用いる。この統合は、上述のようなXMLメッセージを戻す方法を用いて行われる。この統合は、各フォームに割り当てられるページごとのすべての確率の平均にすぎないフォームごとの「信頼スコア」を戻すことを含む。このプロセスは、偽正に非常に敏感であるので、95%未満の信頼スコアを有するフォームがAscentによって検閲のために人間にルーティングされる。この検閲は、コンピュータ端末にて手動で実行され、ページのシーケンスに割り当てられた適切なフォーム(単数または複数)が人間の検閲者によって決定され、その後、ページは、割り当てられたフォームタイプにより処理される。手動のフォーム分離ステップをコンピュータ端末に移動することによって、物理的セパレータページを印刷する必要を除去する。このプロセスについて、年間1,000,000ドル以上が節約され得ることが推定される。単一のローンアプリケーションにおけるフォーム間にセパレータシートを物理的に挿入するために約20秒を要し、かつ、単一のローン処理企業が月間2000万を越えるローンアプリケーションを受取り得ると想定して、フォームの大多数を自動的に分離することによって節約される人間の時間の量が、より重要ですらあるさらなる節約である。上述の自動フォーム分離システムは、2週間のうちにこのプロジェクトのために実施される。これは、通常、何ヶ月間も測定される、システムに基づく伝統的ルールを構成するためにかかる時間に対する著しい改善であり、本発明は、任意の自動システムのこのタスクに関してこれまで報告されたよりも著しく正確な結果を示す。
一旦人間の検閲者が、例えば、25個の十分なページを処理すると、ページごとの確率の推定をより良好に構築するために、分類子が保持される。このことの特に有用な表れは、十分なページが手動で検閲されて、新しいフォームタイプモデルの追加を可能にすることである。これは、自動分類子が将来においてフォームタイプのさらなるカテゴリを処理することを可能にする。ドキュメント、サブドキュメント、またはフォームが識別および分離されると、電子セパレータシートまたはラベルが各フォームタイプを識別するために「挿入され」得る。例えば、これらのセパレータシートは、デジタル化されたドキュメントイメージシーケンスまたはXML記述、またはドキュメントまたはサブドキュメントまたは他のアイテムのシーケンスにおける各ページと電子的に関連付けられえる他の電子ラベルの一部分になる実際のコンピュータによって生成されたイメージのフォームであり得る。
本発明は、これまで、銀行のローンドキュメントを線引きおよび識別するという意味合いで説明されてきたが、当業者は、例えば、保険フォーム、納税フォーム、雇用フォーム、健康管理フォーム、請求書等の他のタイプのドキュメントを所望の分類ルールに基づいて処理するという意味合いで方法およびシステムを線引きおよび識別する新規のドキュメントを提供するために、通常の実験以外は用いずに本発明を実現し得る。
本発明により提供されるのは、1つ以上のドキュメントのデジタルイメージを解析し、1つ以上のドキュメント内の1つ以上のページまたはサブドキュメントを自動的に分類し、かつ、異なったカテゴリに属するデジタルイメージ間に挿入された分離ページのコンピュータによって生成されたイメージ、デジタルイメージのカテゴリ化シーケンスの記述、またはデジタルイメージに貼り付けられたか、これに関連したコンピュータによって生成された電子ラベル等の線引き識別子を自動的に生成することによって、ドキュメントの境界に線引きし、かつドキュメントのタイプを識別するための方法およびシステムである。
上述のように、本発明は、分類および/または確率ルールと、カスタムメイドフィルタルールとの組み合わせを用いて、目的のドキュメント、サブドキュメント、または他のアイテムの自動的分離を確実かつ効率的に実行するための改善された方法およびシステムを提供する。本発明の好ましい実施形態を用いて本発明を例示してきたが、本発明は、この実施形態に限定して解釈されるべきものではない。本発明は、特許請求の範囲によってのみその範囲が解釈されるべきであることが理解される。当業者は、本発明の具体的な好ましい実施形態の記載から、本発明の記載および技術常識に基づいて等価な範囲を実施することができることが理解される。本明細書において引用した特許、特許出願および文献は、その内容自体が具体的に本明細書に記載されているのと同様にその内容が本明細書に対する参考として援用されるべきであることが理解される。
図1は、本発明により用いられ得る例示的コンピュータシステムを表すブロック図を示す。 図2は、従来技術のドキュメント分離手順のプロセスフローチャートを示す。 図3は、本発明の1実施形態による、ドキュメント分離手順のプロセスフローチャートを示す。 図4は、本発明の別の実施形態による、ドキュメント分離手順のプロセスフローチャートを示す。 図5は、本発明の1実施形態による、3つの異なった形態またはドキュメントタイプを分離するための例示的有限状態機械図を示す。 図6は、本発明のさらなる実施形態による、例示的有限状態機械図を示す。 図7は、本発明の別の実施形態による、例示的有限状態機械図を示す。 図8は、図5の有限状態機械が与えられた、6つの入力イメージの形態のシーケンスのすべての可能な組み合わせを表す図を提供する。 図9は、本発明の1実施形態による、図7のフィルタ変換器を図5の変換器に適用した後の、形態のシーケンスの可能な組み合わせを表す図を提供する。
符号の説明
100 コンピュータシステム
102 CPU
104 キーボードおよびマウス
106 ディスプレイ
107 DASD
108 メモリ
110 プログラムリーダ
112 プログラム格納デバイス
113 ネットワーク
114 ネットワークインターフェース
117 通信バス

Claims (38)

  1. コンピュータベースのシステムにおいて、ドキュメントの境界に線引きし、かつドキュメントタイプを識別する方法であって、
    カテゴリの分類ルールにより、複数のドキュメントイメージを複数の所定のカテゴリに自動的にカテゴリ化するステップと、
    該複数のドキュメントイメージのどれが、少なくとも2つのカテゴリのどれに属するかを識別する少なくとも1つの識別子を自動的に生成するステップと
    を包含する、方法。
  2. 前記少なくとも1つの識別子は、前記複数のカテゴリのうちの異なったカテゴリに属するイメージに線引きするために、ドキュメントイメージ間に挿入されるコンピュータによって生成された分離ページを備える、請求項1に記載の方法。
  3. 前記少なくとも1つの識別子は、前記複数のデジタルイメージのカテゴリ化により、該複数のデジタルイメージのカテゴリ化シーケンスを識別するコンピュータ可読記述を含む、請求項1に記載の方法。
  4. 前記コンピュータ可読記述は、XMLメッセージを含む、請求項3に記載の方法。
  5. 前記少なくとも1つの識別子は、前記複数のドキュメントイメージの少なくとも1つと電子的に関連付けられた、少なくとも1つのコンピュータによって生成されたラベルを含む、請求項1に記載の方法。
  6. 前記複数のカテゴリは、金融取引において用いられる少なくとも2つの異なったフォームタイプを含む、請求項1に記載の方法。
  7. 前記複数のカテゴリは、前記少なくとも2つの異なったフォームタイプごとに、最初、中間、および最後のページカテゴリをさらに含む、請求項6に記載の方法。
  8. 前記自動的にカテゴリ化するステップは、
    ドキュメントイメージごとに出力スコアを生成するステップと、
    前記複数のドキュメントイメージの複数の可能なカテゴリ化シーケンスから、該出力スコアに基づいて最適カテゴリ化シーケンスを決定するためにグラフ探索アルゴリズムを用いるステップと
    を包含する、請求項1に記載の方法。
  9. 前記出力スコアは、各ドキュメントイメージが、前記複数のカテゴリからの少なくとも1つのそれぞれのカテゴリに属する確率を表す、請求項8に記載の方法。
  10. 前記グラフ探索アルゴリズムを用いるステップは、
    前記可能なカテゴリ化シーケンスごとに、前記複数のドキュメントイメージごとの前記出力スコアに基づいて、合計出力スコアを計算するためにグラフ構造を用いるステップと、
    どのカテゴリ化シーケンスが最高の合計出力スコアをもたらすかを決定するステップと
    を包含する、請求項8に記載の方法。
  11. 前記グラフ構造は、有限状態変換器を用いて実現され、前記複数のドキュメントイメージは、入力を含み、前記複数のカテゴリ化シーケンスは、出力を含む、請求項10に記載の方法。
  12. 前記グラフ構造は、前記複数のドキュメントイメージを入力として、および前記複数のカテゴリ化シーケンスを出力として有する重みつき有限状態変換器を用いて実現され、各カテゴリ化シーケンスは、前記出力スコアに基づいて、重みつき値をそれらと関連付ける、請求項11に記載の方法。
  13. 前記出力スコアは、各ドキュメントイメージが、前記複数のカテゴリからの少なくとも1つのそれぞれのカテゴリに属する条件付確率を表し、ドキュメントイメージごとの該条件付確率は、少なくとも1つの先行するか、または後続のドキュメントイメージについて選択される少なくとも1つのカテゴリに依存する、請求項8に記載の方法。
  14. 前記自動的にカテゴリ化するステップは、少なくとも1つの可能なカテゴリ化シーケンスを除去する、手動で生成された分類ルールを適用するステップをさらに包含する、請求項8に記載の方法。
  15. 前記少なくとも1つの可能なカテゴリ化シーケンスは、第1のドキュメントタイプの最後のページが識別される前に、第2のドキュメントタイプの最初のページによって追従される第1のドキュメントタイプの最初のページを含む、請求項14に記載の方法。
  16. 前記少なくとも1つの可能なカテゴリ化シーケンスは、所定の数のページを有することが知られる第1のドキュメントタイプの2つの連続的ページを含む、請求項14に記載の方法。
  17. コンピュータによって実行される場合、ドキュメントの境界に線引きし、かつ、ドキュメントタイプを識別する方法を実行する、コンピュータによって実行可能な命令を格納するコンピュータ可読媒体であって、該方法は、
    カテゴリの分類ルールにより、複数のドキュメントイメージを複数の所定のカテゴリに自動的にカテゴリ化するステップと、
    該複数のドッキュメントイメージのどれが、該少なくとも2つのカテゴリのどれに属するかを識別する少なくとも1つの識別子を自動的に生成するステップと
    を包含する、コンピュータ可読媒体。
  18. 前記複数のカテゴリのうちの異なったカテゴリに属するイメージに線引きするために、前記少なくとも1つの識別子は、ドキュメントイメージ間に挿入されるコンピュータ可読分離ページを含む、請求項17に記載のコンピュータ可読媒体。
  19. 前記少なくとも1つの識別子は、前記複数のデジタルイメージのカテゴリ化により、該複数のデジタルイメージのカテゴリ化シーケンスを識別するコンピュータ可読記述を含む、請求項17に記載のコンピュータ可読媒体。
  20. 前記コンピュータ可読記述は、XMLメッセージを含む、請求項19に記載のコンピュータ可読媒体。
  21. 前記少なくとも1つの識別子は、前記複数のドキュメントイメージの少なくとも1つと電子的に関連した少なくとも1つのコンピュータによって生成されたラベルを備える、請求項17に記載のコンピュータ可読媒体。
  22. 前記複数のカテゴリは、金融取引において用いられる少なくとも2つの異なったフォームタイプを含む、請求項17に記載のコンピュータ可読媒体。
  23. 前記複数のカテゴリは、前記少なくとも2つの異なったフォームタイプごとに最初、中間、および最後のページカテゴリをさらに含む、請求項22に記載のコンピュータ可読媒体。
  24. 前記自動的にカテゴリ化するステップは、
    ドキュメントイメージごとに出力スコアを生成するステップと、
    前記出力スコアに基づいて、前記複数のドキュメントイメージごとの複数の可能なカテゴリ化シーケンスからの最適なカテゴリ化シーケンスを決定するためにグラフ探索アルゴリズムを用いるステップと
    を包含する、請求項17に記載のコンピュータ可読媒体。
  25. 前記出力スコアは、各ドキュメントイメージが前記複数のカテゴリからの少なくとも1つのそれぞれのカテゴリに属する確率を表す、請求項24に記載のコンピュータ可読媒体。
  26. 前記グラフ探索アルゴリズムを用いるステップは、
    前記可能なカテゴリ化シーケンスごとに、前記複数のドキュメントイメージごとの前記出力スコアに基づいて、合計出力スコアを計算するためにグラフ構造を用いるステップと、
    どのカテゴリ化シーケンスが最高の合計出力スコアをもたらすかを決定するステップと
    を包含する、請求項24に記載のコンピュータ可読媒体。
  27. 前記グラフ構造は、有限状態変換器を用いて実現され、前記複数のドキュメントイメージは、入力を含み、前記複数のカテゴリ化シーケンスは、出力を含む、請求項26に記載のコンピュータ可読媒体。
  28. 前記グラフ構造は、前記複数のドキュメントイメージを入力として、および前記複数のカテゴリ化シーケンスを出力として有する重みつき有限状態変換器を用いて実現され、各カテゴリ化シーケンスは、該出力スコアに基づいて、重みつき値とこれらを関連付ける、請求項27に記載のコンピュータ可読媒体。
  29. 前記出力スコアは、各ドキュメントイメージが、前記複数のカテゴリからの少なくとも1つのそれぞれのカテゴリに属する条件付確率を表し、各ドキュメントイメージごとの該条件付確率は、少なくとも1つの先行するか、または後続のドキュメントイメージについて選択された少なくとも1つのカテゴリに依存する、請求項24に記載のコンピュータ可読媒体。
  30. 前記自動的にカテゴリ化するステップは、少なくとも1つの可能なカテゴリ化シーケンスを除去する手動で生成された分類ルールを適用するステップをさらに包含する、請求項24に記載のコンピュータ可読媒体。
  31. 前記少なくとも1つの可能なカテゴリ化シーケンスは、第1のドキュメントタイプの最後のページが識別される前に、第2のドキュメントタイプの最初のページによって追従される該第1のドキュメントタイプの最初のページを含む、請求項30に記載のコンピュータ可読媒体。
  32. 前記少なくとも1つの可能なカテゴリ化シーケンスは、所定の数のページを有することが知られた第1のドキュメントタイプの2つの連続的ページを含む、請求項30に記載のコンピュータ可読媒体。
  33. 前記少なくとも1つのドキュメントは、複数の銀行ローンドキュメント(bank loan document)を含む、請求項1に記載の方法。
  34. 前記少なくとも1つのドキュメントは、複数の保険フォーム(insurance form)を含む、請求項1に記載の方法。
  35. 前記少なくとも1つのドキュメントは、複数の納税フォーム(tax form)を含む、請求項1に記載の方法。
  36. 前記少なくとも1つのドキュメントは、複数の雇用フォーム(employment form)を含む、請求項1に記載の方法。
  37. 前記少なくとも1つのドキュメントは、複数の健康管理フォーム(healthcare form)を含む、請求項1に記載の方法。
  38. 前記少なくとも1つのドキュメントは、複数の請求書フォーム(invoice form)を含む、請求項1に記載の方法。
JP2004047112A 2003-12-19 2004-02-23 ドキュメントの自動分離 Expired - Lifetime JP4311552B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/742,131 US8693043B2 (en) 2003-12-19 2003-12-19 Automatic document separation

Publications (2)

Publication Number Publication Date
JP2005182730A true JP2005182730A (ja) 2005-07-07
JP4311552B2 JP4311552B2 (ja) 2009-08-12

Family

ID=34552816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004047112A Expired - Lifetime JP4311552B2 (ja) 2003-12-19 2004-02-23 ドキュメントの自動分離

Country Status (5)

Country Link
US (2) US8693043B2 (ja)
EP (1) EP1548633B1 (ja)
JP (1) JP4311552B2 (ja)
AT (1) ATE419593T1 (ja)
DE (1) DE602004018739D1 (ja)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8693043B2 (en) 2003-12-19 2014-04-08 Kofax, Inc. Automatic document separation
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US20070077987A1 (en) * 2005-05-03 2007-04-05 Tangam Gaming Technology Inc. Gaming object recognition
WO2007050646A2 (en) * 2005-10-24 2007-05-03 Capsilon Fsg, Inc. A business method using the automated processing of paper and unstructured electronic documents
US8176004B2 (en) * 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US7570382B2 (en) * 2005-11-14 2009-08-04 Kabushiki Kaisha Toshiba System and method for detecting errors in electronic document workflow
US7958067B2 (en) * 2006-07-12 2011-06-07 Kofax, Inc. Data classification methods using machine learning techniques
US7937345B2 (en) * 2006-07-12 2011-05-03 Kofax, Inc. Data classification methods using machine learning techniques
US20080086432A1 (en) * 2006-07-12 2008-04-10 Schmidtler Mauritius A R Data classification methods using machine learning techniques
US7761391B2 (en) * 2006-07-12 2010-07-20 Kofax, Inc. Methods and systems for improved transductive maximum entropy discrimination classification
US8503797B2 (en) * 2007-09-05 2013-08-06 The Neat Company, Inc. Automatic document classification using lexical and physical features
US20090132406A1 (en) * 2007-11-21 2009-05-21 Paperless Office Solutions, Inc. D/B/A Docvelocity System and method for paperless loan applications
US9082080B2 (en) * 2008-03-05 2015-07-14 Kofax, Inc. Systems and methods for organizing data sets
US7860735B2 (en) * 2008-04-22 2010-12-28 Xerox Corporation Online life insurance document management service
US8671112B2 (en) * 2008-06-12 2014-03-11 Athenahealth, Inc. Methods and apparatus for automated image classification
US8688744B2 (en) * 2008-09-09 2014-04-01 Applied Systems, Inc. Method, system, and apparatus for scanning and importing documents
US9613049B2 (en) * 2008-09-09 2017-04-04 Applied Systems, Inc. Document integration and distribution system, method and device
US8515302B2 (en) * 2009-01-12 2013-08-20 Xerox Corporation Creating and inserting an electronic code sheet
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US8346685B1 (en) 2009-04-22 2013-01-01 Equivio Ltd. Computerized system for enhancing expert-based processes and methods useful in conjunction therewith
US8533194B1 (en) * 2009-04-22 2013-09-10 Equivio Ltd. System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
US8527523B1 (en) 2009-04-22 2013-09-03 Equivio Ltd. System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
US20110137898A1 (en) * 2009-12-07 2011-06-09 Xerox Corporation Unstructured document classification
US8577826B2 (en) 2010-07-14 2013-11-05 Esker, Inc. Automated document separation
US20140237353A1 (en) * 2011-09-23 2014-08-21 Ecmarket Inc. Systems, methods and articles to automatically transform documents transmitted between senders and recipients
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9165188B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9020873B1 (en) * 2012-05-24 2015-04-28 The Travelers Indemnity Company Decision engine using a finite state machine for conducting randomized experiments
US9002842B2 (en) 2012-08-08 2015-04-07 Equivio Ltd. System and method for computerized batching of huge populations of electronic documents
JP2016517587A (ja) 2013-03-13 2016-06-16 コファックス, インコーポレイテッド モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
WO2014145059A2 (en) 2013-03-15 2014-09-18 Bell Tyler Apparatus, systems, and methods for analyzing movements of target entities
US9122681B2 (en) 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
DE202014011407U1 (de) 2013-05-03 2020-04-20 Kofax, Inc. Systeme zum Erkennen und Klassifizieren von Objekten in durch Mobilgeräte aufgenommenen Videos
JP2016538783A (ja) 2013-11-15 2016-12-08 コファックス, インコーポレイテッド モバイル映像データを用いて長尺文書の合成画像を生成するためのシステムおよび方法
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242001B2 (en) 2015-06-19 2019-03-26 Gordon V. Cormack Systems and methods for conducting and terminating a technology-assisted review
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
CA3008480C (en) 2015-12-19 2024-04-23 Ripcord Inc. Systems and methods relating to document and fastener identification
US10187542B1 (en) 2015-12-19 2019-01-22 Ripcord Inc. Integrated physical warehouse and digital document management system
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US11726979B2 (en) * 2016-09-13 2023-08-15 Oracle International Corporation Determining a chronological order of transactions executed in relation to an object stored in a storage system
JP2020512247A (ja) 2017-03-21 2020-04-23 リップコード インコーポレイテッド 原稿デジタル化のための多シート処理
WO2018175631A1 (en) 2017-03-21 2018-09-27 Ripcord Inc. Systems and methods for identifying and transferring sheets
US11132407B2 (en) 2017-11-28 2021-09-28 Esker, Inc. System for the automatic separation of documents in a batch of documents
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
JP2020198546A (ja) * 2019-06-03 2020-12-10 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP2021033831A (ja) * 2019-08-28 2021-03-01 富士ゼロックス株式会社 ワークフロー支援装置、ワークフロー支援システム及びプログラム
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及系统
US20220036410A1 (en) * 2020-07-31 2022-02-03 Patty, Llc System and Method for Pre-Qualifying a Consumer for Life and Health Insurance Products or Services, Benefits Products or Services based on Eligibility and Referring a Qualified Customer to a Licensed Insurance Agent, Producer or Broker to Facilitate the Enrollment Process
US20220100964A1 (en) * 2020-09-25 2022-03-31 UiPath, Inc. Deep learning based document splitter
US11295175B1 (en) 2020-09-25 2022-04-05 International Business Machines Corporation Automatic document separation
JP2022091608A (ja) * 2020-12-09 2022-06-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
US11818205B2 (en) 2021-03-12 2023-11-14 Bank Of America Corporation System for identity-based exposure detection in peer-to-peer platforms
US11816184B2 (en) * 2021-03-19 2023-11-14 International Business Machines Corporation Ordering presentation of training documents for machine learning
US12002276B2 (en) * 2021-03-22 2024-06-04 Bill Operations, Llc Document distinguishing based on page sequence learning
CN112990110B (zh) * 2021-04-20 2022-03-25 数库(上海)科技有限公司 从研报中进行关键信息提取方法及相关设备
US11829706B1 (en) * 2022-06-29 2023-11-28 Ancora Software Inc. Document assembly with the help of training data
US11935316B1 (en) 2023-04-18 2024-03-19 First American Financial Corporation Multi-modal ensemble deep learning for start page classification of document image file including multiple different documents

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5159667A (en) 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
US5344132A (en) 1990-01-16 1994-09-06 Digital Image Systems Image based document processing and information management system and apparatus
JP3191057B2 (ja) 1991-11-22 2001-07-23 株式会社日立製作所 符号化画像データの処理方法および装置
US5359673A (en) 1991-12-27 1994-10-25 Xerox Corporation Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
US5467433A (en) * 1992-04-15 1995-11-14 Monarch Marking Systems, Inc. Label printing and data collection program generator
US7082426B2 (en) * 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US5671463A (en) * 1993-12-28 1997-09-23 Minolta Co., Ltd. Image forming apparatus capable of forming a plurality of images from different originals on a single copy sheet
US5757963A (en) * 1994-09-30 1998-05-26 Xerox Corporation Method and apparatus for complex column segmentation by major white region pattern matching
JP3748141B2 (ja) * 1996-12-26 2006-02-22 株式会社東芝 画像形成装置
AUPO904597A0 (en) * 1997-09-08 1997-10-02 Canon Information Systems Research Australia Pty Ltd Method for non-linear document conversion and printing
US6674924B2 (en) * 1997-12-30 2004-01-06 Steven F. Wright Apparatus and method for dynamically routing documents using dynamic control documents and data streams
JP2000067065A (ja) 1998-08-20 2000-03-03 Ricoh Co Ltd 文書画像識別方法および記録媒体
US7017108B1 (en) * 1998-09-15 2006-03-21 Canon Kabushiki Kaisha Method and apparatus for reproducing a linear document having non-linear referential links
US6483599B1 (en) * 1998-12-29 2002-11-19 Pitney Bowes Inc. System and method for separating a print stream into an electronic document print stream and a physical document print stream
US6765685B1 (en) * 1999-01-22 2004-07-20 Ricoh Company, Ltd. Printing electronic documents with automatically interleaved separation sheets
JP2000354144A (ja) 1999-06-11 2000-12-19 Ricoh Co Ltd 文書読取装置
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
JP4377494B2 (ja) * 1999-10-22 2009-12-02 東芝テック株式会社 情報入力装置
US20010027420A1 (en) * 1999-12-21 2001-10-04 Miroslav Boublik Method and apparatus for capturing transaction data
US7600183B2 (en) * 2000-06-16 2009-10-06 Olive Software Inc. System and method for data publication through web pages
JP4023075B2 (ja) 2000-07-10 2007-12-19 富士ゼロックス株式会社 画像取得装置
WO2002008948A2 (en) * 2000-07-24 2002-01-31 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
US6621930B1 (en) * 2000-08-09 2003-09-16 Elron Software, Inc. Automatic categorization of documents based on textual content
JP3720740B2 (ja) * 2000-09-12 2005-11-30 キヤノン株式会社 分散印刷システム、分散印刷制御方法、記憶媒体、及びプログラム
US6921220B2 (en) * 2000-12-19 2005-07-26 Canon Kabushiki Kaisha Image processing system, data processing apparatus, data processing method, computer program and storage medium
US7266768B2 (en) * 2001-01-09 2007-09-04 Sharp Laboratories Of America, Inc. Systems and methods for manipulating electronic information using a three-dimensional iconic representation
US7299202B2 (en) * 2001-02-07 2007-11-20 Exalt Solutions, Inc. Intelligent multimedia e-catalog
JP4250368B2 (ja) * 2001-03-06 2009-04-08 キヤノン株式会社 画像形成装置
JP3824209B2 (ja) 2001-04-18 2006-09-20 三菱電機株式会社 文書自動分割装置
JP2003034062A (ja) * 2001-07-26 2003-02-04 Canon Inc 画像形成装置、その制御方法、及びその制御プログラムを格納したコンピュータにより読み取り可能な記憶媒体
US7120869B2 (en) * 2001-08-16 2006-10-10 Sun Microsystems, Inc. Enhanced mechanism for automatically generating a transformation document
JP4564693B2 (ja) 2001-09-14 2010-10-20 キヤノン株式会社 文書処理装置及び方法
AU2002359821A1 (en) * 2001-12-21 2003-07-15 Xmlcities, Inc. Extensible stylesheet designs using meta-tag and/or associated meta-tag information
US7191395B2 (en) * 2002-03-12 2007-03-13 International Business Machines Corporation Method and system for stylesheet-centric editing
US20030210428A1 (en) * 2002-05-07 2003-11-13 Alex Bevlin Non-OCR method for capture of computer filled-in forms
US7036073B2 (en) * 2002-06-27 2006-04-25 Microsoft Corporation System and method for supporting non-native XML in native XML of a word-processor document
DE10253903A1 (de) * 2002-11-19 2004-06-17 OCé PRINTING SYSTEMS GMBH Verfahren, Anordnung und Computersoftware zum Bedrucken eines Trennblattes mit Hilfe eines elektrofotografischen Druckers oder Kopierers
US7757162B2 (en) * 2003-03-31 2010-07-13 Ricoh Co. Ltd. Document collection manipulation
US7665061B2 (en) * 2003-04-08 2010-02-16 Microsoft Corporation Code builders
US7251777B1 (en) * 2003-04-16 2007-07-31 Hypervision, Ltd. Method and system for automated structuring of textual documents
EP1636672A4 (en) * 2003-06-09 2008-03-12 Greenline Systems Inc SYSTEM AND METHODS FOR RISK DETECTION, REPORTS AND INFRASTRUCTURE
US20050050060A1 (en) * 2003-08-27 2005-03-03 Gerard Damm Data structure for range-specified algorithms
US7553095B2 (en) * 2003-11-27 2009-06-30 Konica Minolta Business Technologies, Inc. Print data transmitting apparatus, image forming system, printing condition setting method and printer driver program
US8693043B2 (en) 2003-12-19 2014-04-08 Kofax, Inc. Automatic document separation

Also Published As

Publication number Publication date
US20050134935A1 (en) 2005-06-23
EP1548633A3 (en) 2006-05-03
US9910829B2 (en) 2018-03-06
ATE419593T1 (de) 2009-01-15
EP1548633A2 (en) 2005-06-29
US20140164914A1 (en) 2014-06-12
US8693043B2 (en) 2014-04-08
DE602004018739D1 (de) 2009-02-12
EP1548633B1 (en) 2008-12-31
JP4311552B2 (ja) 2009-08-12

Similar Documents

Publication Publication Date Title
JP4311552B2 (ja) ドキュメントの自動分離
US11776244B2 (en) Systems and methods for generating and using semantic images in deep learning for classification and data extraction
US10706320B2 (en) Determining a document type of a digital document
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
Lohani et al. An invoice reading system using a graph convolutional network
US20200004815A1 (en) Text entity detection and recognition from images
JP2001256244A (ja) 画像データ分類装置および画像データ分類方法
US20200210776A1 (en) Question answering method, terminal, and non-transitory computer readable storage medium
CN110866116A (zh) 政策文档的处理方法、装置、存储介质及电子设备
US11600088B2 (en) Utilizing machine learning and image filtering techniques to detect and analyze handwritten text
CN115880704B (zh) 一种病例的自动编目方法、系统、设备及存储介质
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
JP3912463B2 (ja) 論理構造抽出装置及び論理構造抽出方法
JPH07160822A (ja) パターン認識方法
EP4099225A1 (en) Method for training a classifier and system for classifying blocks
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
Qin et al. Laba: Logical layout analysis of book page images in arabic using multiple support vector machines
JP4834693B2 (ja) パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法
Prabhu et al. Mtl-foun: A multi-task learning approach to form understanding
CN112613341A (zh) 训练方法及装置、指纹识别方法及装置、电子设备
JPH10111867A (ja) ワード長分布状態分析によるドキュメントの類別方法及び該方法を記録した記録媒体及び該方法を実行するためのコンピュータシステム
JP3925011B2 (ja) パターン認識装置及び認識方法
US11789990B1 (en) Automated splitting of document packages and identification of relevant documents
US20230274568A1 (en) Systems and methods for intelligent zonal recognition and automated context mapping

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20050421

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090507

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120522

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4311552

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130522

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140522

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term