JP7289047B2 - ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム - Google Patents

ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム Download PDF

Info

Publication number
JP7289047B2
JP7289047B2 JP2020524442A JP2020524442A JP7289047B2 JP 7289047 B2 JP7289047 B2 JP 7289047B2 JP 2020524442 A JP2020524442 A JP 2020524442A JP 2020524442 A JP2020524442 A JP 2020524442A JP 7289047 B2 JP7289047 B2 JP 7289047B2
Authority
JP
Japan
Prior art keywords
microblocks
document
microblock
key
macroblock
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020524442A
Other languages
English (en)
Other versions
JP2021504781A (ja
Inventor
ノースラップ、ケビン
トリム、グレイグ
ヒッキー、テリー
ジャヴ、トザミール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021504781A publication Critical patent/JP2021504781A/ja
Application granted granted Critical
Publication of JP7289047B2 publication Critical patent/JP7289047B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/163Handling of whitespace
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Description

本開示は、文書処理技術に関し、より特定的には、文書イメージからデータをコグニティブ(cognitive)にデジタル化するための方法、コンピュータ・プログラム製品、及びシステムに関する。
従来の文書処理において、紙に印刷された(ink-on-paper)文書は、ページごとに走査され、それぞれの視覚イメージとして準備される。走査された紙から結果として得られる文書ファイルは、典型的には、一連のページの視覚イメージである。ページの視覚イメージの各々は、アクセス可能なコンテンツを有さず、既存の文書処理アプリケーションは、特定の視覚イメージ・パターンをデジタル化してデジタル化データにすることができ、このデジタル化データには、対応するコンピュータ・プログラム・アプリケーションを用いて、アクセスし動作することができる。視覚イメージのこのようなデータ・デジタル化プロセスは、抽出又はデータ抽出と呼ばれることが多い。従来の紙形態で表される情報及び走査される文書イメージの量を鑑みると、こうした文書イメージの抽出は、産業及び社会の多くの領域における一般的な生産性に大きな影響を与え得る。
文書イメージからデータをコグニティブにデジタル化するための方法、コンピュータ・プログラム製品、及びシステムを提供する。
1つの態様において、方法を提供することにより、従来技術の欠点が克服され、付加的な利点が与えられる。この方法は、例えば、複数のオブジェクトを含む文書イメージを取得することと、文書イメージ内の複数のマクロブロックを識別することと、複数のマクロブロックのマクロブロック内でマイクロブロック処理を実行することであって、マイクロブロック処理は、キー値ペアの抽出のためにマクロブロック内でマイクロブロックのコンテンツを検査することを含み、コンテンツを検査することは、マイクロブロックのオントロジ分析を実行することを含み、マイクロブロック処理は、信頼性レベルを抽出されたキー値ペアに関連付けることを含む、実行することと、複数のマクロブロックのマクロブロック内でマイクロブロック処理を実行することに基づいて、メタデータを出力することとを含む。
1つの態様において、1つ又は複数のプロセッサ回路により可読であり、1つ又は複数のプロセッサにより実行される、方法を実行するための命令を格納するコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品を提供することにより、従来技術の欠点が克服され、付加的な利点が与えられ、この方法は、例えば、複数のオブジェクトを含む文書イメージを取得することと、文書イメージ内の複数のマクロブロックを識別することと、複数のマクロブロックのマクロブロック内でマイクロブロック処理を実行することであって、マイクロブロック処理は、キー値ペアの抽出のためにマクロブロック内のマイクロブロックのコンテンツを検査することを含み、コンテンツを検査することは、マイクロブロックのオントロジ分析を実行することを含み、マイクロブロック処理は、信頼性レベルを抽出されたキー値ペアに関連付けることを含む、実行することと、複数のマクロブロックのマクロブロック内でマイクロブロック処理を実行することに基づいて、メタデータを出力することとを含む。
1つの態様において、メモリと、メモリと通信する少なくとも1つのプロセッサと、メモリを介して1つ又は複数のプロセッサにより実行可能な、方法を実行するためのプログラム命令とを含むシステムを提供することにより、従来技術の欠点が克服され、付加的な利点が与えられ、この方法は、例えば、複数のオブジェクトを含む文書イメージを取得することと、文書イメージ内の複数のマクロブロックを識別することと、複数のマクロブロックのマクロブロック内でマイクロブロック処理を実行することであって、マイクロブロック処理は、キー値ペアの抽出のためにマクロブロック内のマイクロブロックのコンテンツを検査することを含み、コンテンツを検査することは、マイクロブロックのオントロジ分析を実行することを含み、マイクロブロック処理は、信頼性レベルを抽出されたキー値ペアに関連付けることを含む、実行することと、複数のマクロブロックのマクロブロック内でマイクロブロック処理を実行することに基づいて、メタデータを出力することとを含む。
1つの態様において、方法を提供することにより、従来技術の欠点が克服され、付加的な利点が与えられる。この方法は、例えば、複数のオブジェクトを含む文書イメージを取得することと、文書イメージ内のマクロブロックを識別することであって、マクロブロックは前記複数のオブジェクトのオブジェクトを含む、識別することと、1つ又は複数のキー値ペアの抽出のために文書イメージのマイクロブロックの領域内のマイクロブロックのコンテンツを検査することであって、検査することは、マイクロブロックの領域内のアラインされていないマイクロブロックのコンテンツを検査することを含み、マイクロブロックの領域内のアラインされていないマイクロブロックのコンテンツを検査することは、オントロジ分析を適用することを含む、検査することと、信頼性レベルを、1つ又は複数のキー値ペアのうちの1つのキー値ペアに関連付けることと、1つ又は複数のキー値ペアを出力することとを含む。
1つの態様において、1つ又は複数の処理回路により可読であり、方法を実行するための、1つ又は複数のプロセッサにより実行される命令を格納するコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品を提供することにより、従来技術の欠点が克服され、付加的な利点が与えられ、この方法は、例えば、複数のオブジェクトを含む文書イメージを取得することと、文書イメージ内の複数のマクロブロックを識別することであって、マクロブロックは複数のオブジェクトを含む、識別することと、1つ又は複数のキー値ペアの抽出のために文書イメージのマクロブロックの領域内のマクロブロックのコンテンツを検査することであって、検査することは、マクロブロックの領域内のアラインされていないマイクロブロックのコンテンツを検査することを含み、マクロブロックの領域内のアラインされていないマイクロブロックのコンテンツを検査することは、オントロジ分析を適用することを含む、検査することと、信頼性レベルを1つ又は複数のキー値ペアのうちの1つのキー値ペアに関連付けることと、1つ又は複数のキー値ペアを出力することとを含む。
1つの態様において、メモリと、メモリと通信する少なくとも1つのプロセッサと、メモリを介して1つ又は複数のプロセッサにより実行可能な、方法を実行するためのプログラム命令とを含むシステムを提供することにより、従来技術の欠点が克服され、付加的な利点が与えられ、この方法は、例えば、複数のオブジェクトを含む文書イメージを取得することと、文書イメージ内の複数のマクロブロックを識別することであって、マクロブロックは複数のオブジェクトを含む、識別することと、1つ又は複数のキー値ペアの抽出のために文書イメージのマクロブロックの領域内のマクロブロックのコンテンツを検査することであって、検査することは、マクロブロックの領域内のアラインされていないマイクロブロックのコンテンツを検査することを含み、マクロブロックの領域内のアラインされていないマイクロブロックのコンテンツを検査することは、オントロジ分析を適用することを含む、検査することと、信頼性レベルを1つ又は複数のキー値ペアのうちの1つのキー値ペアに関連付けることと、1つ又は複数のキー値ペアを出力することとを含む。
1つの態様において、方法を提供することにより、従来技術の欠点が克服され、付加的な利点が与えられる。この方法は、例えば、複数のオブジェクトを含む文書イメージを取得することと、文書イメージを処理して、ベースライン・フォント高さを指定するベースライン・スタイル・パラメータ値を識別することと、文書イメージのテキストの行の各単語について、ベースライン・スタイル・パラメータ値を参照して定められる相対スタイル・パラメータを識別することであって、相対スタイル・パラメータは、ベースライン・スタイル・パラメータ値の百分率としてテキストの行のテキストの単語のフォント高さを指定する、識別することと、相対スタイル・パラメータを出力のための出力メタデータとして提供することとを含む。
1つの態様において、1つ又は複数の処理回路により可読であり、1つ又は複数のプロセッサにより実行される、方法を実行するための命令を格納するコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品を提供することにより、従来技術の欠点が克服され、付加的な利点が与えられ、この方法は、例えば、複数のオブジェクトを含む文書イメージを取得することと、文書イメージを処理して、ベースライン・フォント高さを指定するベースライン・スタイル・パラメータ値を識別することと、文書イメージのテキストの行の各単語について、ベースライン・スタイル・パラメータ値を参照して定められる相対スタイル・パラメータを識別することであって、相対スタイル・パラメータは、ベースライン・スタイル・パラメータ値の百分率としてテキスト行のテキストの単語のフォント高さを指定する、識別することと、相対スタイル・パラメータを出力のための出力メタデータとして提供することとを含む。
1つの態様において、メモリと、メモリと通信する少なくとも1つのプロセッサと、メモリを介して1つ又は複数のプロセッサにより実行可能な、方法を実行するためのプログラム命令とを含むシステムを提供することにより、従来技術の欠点が克服され、付加的な利点が与えられ、この方法は、例えば、複数のオブジェクトを含む文書イメージを取得することと、文書イメージを処理して、ベースライン・フォント高さを指定するベースライン・スタイル・パラメータ値を識別することと、文書イメージのテキストの行の各単語について、ベースライン・スタイル・パラメータ値を参照して定められる相対スタイル・パラメータを識別することであって、相対スタイル・パラメータは、ベースライン・スタイル・パラメータ値の百分率としてテキスト行のテキストの単語のフォント高さを指定する、識別することと、相対スタイル・パラメータを出力のための出力メタデータとして提供することとを含む。
本発明で記載される技術を通じて、付加的な特徴が実現される。これらに限定されるものではないが、コンピュータ・プログラム製品及びシステムを含む他の実施形態及び態様が、本明細書で詳細に説明され、特許請求される発明の一部と見なされる。
本発明の1つ又は複数の態様が、本明細書の最後にある特許請求の範囲において、例として具体的に示され、明確に特許請求されている。本発明の上記及び他の目的、特徴、並びに利点は、添付図面と関連して用いられる以下の詳細な説明から明らかである。
本明細書に記載される1つ又は複数の実施形態による、文書イメージをコグニティブにデジタル化するためのシステムを示す。 本明細書に記載される1つ又は複数の実施形態による、コグニティブ文書デジタル化エンジンにより実行される動作のフローチャートを示す。 本明細書に記載される1つ又は複数の実施形態による、コグニティブ文書デジタル化エンジンにより実行される、多層ブロック識別の詳細な動作を示す。 本明細書に記載される1つ又は複数の実施形態による、マクロブロックを識別するために調整可能なブロック識別パラメータが適用される例示的文書イメージを示す。 マクロブロックが識別され、内部のマイクロブロックの識別のための処理が施されるマクロブロック処理の詳細な動作を示す。 本明細書に記載される1つ又は複数の実施形態による、マクロブロックを識別するために調整可能なブロック識別パラメータが適用される例示的文書イメージを示す。 本明細書に記載される1つ又は複数の実施形態による、マクロブロックを識別するために調整可能なブロック識別パラメータが適用される例示的文書イメージを示す。 本明細書に記載される1つ又は複数の実施形態による、マクロブロックを識別するために調整可能なブロック識別パラメータが適用される例示的文書イメージを示す。 本明細書に記載される1つ又は複数の実施形態による、文書デジタル化エンジンにより出力される出力メタデータを示す。 本明細書に記載される1つ又は複数の実施形態による、文書デジタル化エンジンにより出力される出力メタデータを示す。 本発明の実施形態によるクラウド・コンピューティング・ノードを示す。 本発明の実施形態によるクラウド・コンピューティング環境を示す。 本発明の実施形態による抽象化モデルを示す。
図1は、本明細書に記載される1つ又は複数の実施形態による、文書イメージをコグニティブにデジタル化するためのシステム100を示す。
文書イメージからの計算(computational)データの抽出は、様々なカスタム形式、個々のスタイル、多様なアラインメント、及び非テキスト・コンテンツのためにうまくいかないことが多い。その結果、文書イメージで表される膨大な量の情報には、完全にデジタル化された文書と同じ程度にアクセス可能ではない。デジタル化されていない文書イメージは、視覚的表示及び保存目的などに使用が制限される。その一方で、デジタル化から利益を得る文書の数を考慮すると、そうした文書イメージの手動デジタル化に必要な時間とコストは法外なものである。
デジタル文書は、文書内に表されるデータを計算的に(computationally)用いる際に便宜上好ましいことが多い。紙にペンで書かれた(pen-on-paper)文書を走査して取り込むと、文書は、ページの一連の視覚イメージとなるものの、デジタル・データとして計算的に使用する準備はできていない。従って、文書イメージから計算データを正確に抽出するために、多くの文書デジタル化アプリケーションが開発されてきた。既存の文書処理アプリケーションにおいては、文書の視覚イメージを処理し、文書から計算データを抽出する際、文書のカスタム形式及び構成が非常に多いことにより問題が提示される。本明細書での実施形態は、文書内の視覚マークが伝える意味を人間の読み手が理解するとき、文書イメージのコグニティブなデジタル化プロセスを実施し、文書イメージからのデータ抽出の効率及び精度を向上させる。本明細書での実施形態は、オブジェクトのアラインメント又はオブジェクト間の意味関係のみに依存せず、アライメント・ベースの処理及び意味ベースの処理の組み合わせを用いる方法によって、文書からメタデータを抽出する。
システム100は、文書デジタル化エンジン120を含む。文書デジタル化エンジン120は、ユーザ・デバイス110を介して、ユーザ101から文書イメージ181を受け取る。文書イメージ181は、計算データではない特定の情報に対して作成された文書の視覚イメージである。例えば、紙文書の走査イメージは、いずれのデジタル化データも有さないので、走査イメージ内のテキストを検索することも、又はデータ入力として別のアプリケーションに読み込むこともできない。文書イメージ181は、計算データとして抽出することができる多数のオブジェクトを有する。本明細書において、「オブジェクト」という用語は、文書イメージにおける識別可能な個々のエンティティを指し、「マイクロブロック」という用語は、マイクロブロック機械論理境界付け規則(delineation rule)に従ってオブジェクト間の関係を見つけるための種々の分析のための、文書内の対応するオブジェクトから識別される候補データの最小単位を指す。文書デジタル化エンジン120は、各マイクロブロックのコンテンツ、位置、スタイルを含む多数のマイクロブロック特徴を有して各マイクロブロックを表す。
文書デジタル化エンジン120は、多層共線性分析に基づいて文書イメージ181からデータを自動的に抽出するので、文書イメージ181内のテキスト及び数のイメージから抽出された情報は、他のプログラム及びアプリケーションにより使用可能な計算データであり得る。文書デジタル化エンジン120に結合されたリレーショナル・データベース150は、文書イメージ181から抽出されたデータに対応する複数のKVPのうちの1つのキー値ペア(KVP)155を格納する。文書デジタル化エンジン120は、キー値ペアをそれぞれの信頼性レベルと関連付ける。「キー値ペア」という用語は、キー及び値を用いる一次データ表現単位を指し、そこで、キーは値を説明又は特定する。多くの場合、リレーショナル・データベース・テーブルに見られるように、KVPを階層的に編成してより大きいデータ構造にすることができる。
文書デジタル化エンジン120は、文書イメージ181内のオブジェクトについてのメタデータ140を判断することができる。デジタル化された計算データを定めるメタデータ140は、例えば、コンテンツ、位置及びスタイルなどの特徴メタデータ145、関連付けられた信頼性レベルを含むことができるキー値ペア・メタデータ146、及びより広い領域に関連する文書の領域におけるスタイルを指定する相対スタイル・メタデータ148を含むことができる。出力メタデータを編成して、文書イメージ181のオブジェクト間の階層関係を示すタクソノミ(taxonomy)を指定することができる。文書デジタル化エンジン120は、例えばJSON又はXMLなどの適切なマークアップでメタデータを出力することができ、1つの実施形態においては、文書のコンテンツを表す機械可読スタイルシートでメタデータを出力することができる。文書デジタル化エンジン120は、メタデータを1つ又は複数のプロセス・インターフェース149に出力することができる。文書デジタル化エンジン120は、光学式文字認識(OCR)などの1つ又は複数の外部ツール170を用いて、メタデータを判断することができる。
本明細書において、「共線性」という用語は、文書デジタル化エンジン120が、2つ又はそれより多いマイクロブロックが共線性を有することに基づいてマイクロブロックを識別するために有意であると考えるときの、文書イメージ181内の認識可能なオブジェクト間の幾何的アラインメントを指し、「マイクロブロック」という用語は、文書イメージ181から認識される個々のオブジェクトを指し、「マクロブロック」という用語は、テーブル内のキー値ペア(KVP)及び列又行のような有意のデータ単位を形成する、2つ又はそれより多いマイクロブロックのグループを指す。マクロブロックは、2つ又はそれより多いマイクロブロックの空間領域を含む空間領域を定めることができる。
従来の文書イメージ処理においては、使用可能なデータを抽出するための無数のカスタム形式の文書において共線性を正しく発見するのは、進行中のプロセスである。文書デジタル化エンジン120は、共線性及び意味論を用いる多層手法を利用して、従来の文書イメージ処理アプリケーションよりも包括的な文書の認識を達成し、結果として文書イメージ181から使用可能データを抽出する。
文書デジタル化エンジン120は、複数の調整可能な共線性パラメータに基づいてマイクロブロックの間の共線性を分析し、文書イメージ181においてアラインされると判断される複数のマイクロブロックから計算データを抽出する。コヒーシブ・データの例は、文書内のテーブルにおけるような、個々のキー値ペア及びKVPのセットを含むことができる。調整可能な共線性パラメータの例は、これらに限定されるものではないが、フォント高さ及びスタイルの変更、アラインメント及び句読点を含むことができる。文書デジタル化エンジン120による共線性分析に基づいて2つのマイクロブロックが互いにアラインする場合、キーはマイクロブロックであり、値は別のマイクロブロックであるので、キー値ペアは、2つのマイクロブロックを含むマクロブロックである。
文書デジタル化エンジン120は、意味データベース130内に格納された種々の意味情報をさらに利用して、文書イメージ181からデータを抽出する。意味データベース130内の情報の幾つかの例として、これらに限定されるものではないが、1つ又は複数の文書クラス131、1つ又は複数のキー・エイリアス135、及びキー・オントロジ・データ137が挙げられる。文書デジタル化エンジン120の詳細な動作は、図2、図3及び図4に説明される。
意味データベース130において、1つ又は複数の文書クラス131の各々は、各文書クラス内のあらゆる文書が含むことになる1つ又は複数のクラス・キー133に対応する。例えば、文書が購入請求書クラスのものであるとき、対応するクラス・キーは、これらに限定されるものではないが、名称、取引日、項目リスト、金額等を含むことができる。
意味データベース130において、1つ又は複数のキー・エイリアス135は、キーの代わりに文書イメージ181内に現れ得る多数のキーについてのエイリアスを含む。クラスに対応する全てのクラス・キーは1つの文書内に現れるので、1つ又は複数のクラス・キー133を探して、1つ又は複数のキー・エイリアス135が調べられることが多い。例えば、クラス・キーが「Account Number(アカウント番号)」クラス・キーを指定し得るが、文書イメージ181は、「Account Number」のテキストではなく、「Acct.#」テキストを有するキーを有することがある。1つ又は複数のキー・エイリアス135は、様々なカスタマイズ文書の分析及びデータ抽出を適合するように、「Account Number」及び「Acct.#」のような交換可能な名称を列挙する。
意味データベース130のキー・オントロジ・データ137は、制約のセット、及び文書イメージ181により表される知識の範囲をモデル化する意味を定める。キー・オントロジ・データ137は、文書イメージ181内に提示できる複数のキーを含む。複数のキーの中のキー138は、キー138のプロパティ、キー138が属する1つ又は複数のセット、及び1つ又は複数のセットの同じセットのメンバーの間の関係を含む種々の特徴と関連付けられる。また、文書デジタル化エンジン120は、2つの意味的に関連付けられたテキスト・ブロックが共線性を有すると結論づけることができる。例えば、キー138は、CustomerLastName(顧客の姓)キーに対するテキスト文字列、DateOfBirth(生年月日)キーに対する8桁の数のような、キー138についての値の適切なデータ・タイプを指定するデータ・タイプ139プロパティを有することができる。同じ例において、テキスト文字列が、「Johnson」のような一般的な名前を有する場合、文書デジタル化エンジン120は、テキスト文字列が近接範囲内のキーとアラインされなくても、CustomerLastNameキー及びテキスト文字列「Johnson」をKVPとして判定することができる。同じ例において、文書デジタル化エンジン120は、テキスト文字列「Johnson」を用いて分類器(外部ツール170の1つ)を実行し、テキスト文字列「Johnson」が名前についてのデータ・タイプであると判定する。別の例において、キー138は、1つ又は複数のクラス・キー133の1つとすることができ、CustomerNumber(顧客番号)クラス・キー及びAmount(金額)クラス・キーの両方を含む請求書文書クラスのような、キー・オントロジ・データ137内に定められる他のクラス・キーとの関係を有する。
図2は、本明細書に記載される1つ又は複数の実施形態による、図1の文書デジタル化エンジン120により実行される動作のフローチャートを示す。
ブロック210において、文書デジタル化エンジン120は、文書イメージを受け取り、該文書イメージを処理する。受け取った文書イメージは、1つのページ内に1つより多い特有の(distinctive)視覚パターンを有し得る。文書デジタル化エンジン120は、こうしたパターンを文書内のそれぞれのセクションとして識別する。本明細書において、「オブジェクト」という用語は、文書イメージ内のイメージ・オブジェクトを指し、「マイクロブロック」という用語は、共線性分析のためのマイクロブロック機械論理境界付け規則に従って対応するイメージ・オブジェクトから識別された不可分の単位ブロックを指す。次に、文書デジタル化エンジン120は、ブロック220に進む。
ブロック220において、文書デジタル化エンジン120は、テーブル分類器、単語密度分類器(テキスト密度が閾値を上回る領域をマクロブロックとして識別することができる)、アドレス分類器、段落分類器などのマクロブロック分類器を用いて、文書イメージ181のそれぞれのセクションにマクロブロック分類器を適用する。文書デジタル化エンジン120が文書においてオブジェクトのマクロブロックを発見しない場合、文書デジタル化エンジン120はブロック230に進む。文書デジタル化エンジン120が文書においてオブジェクトの1つ又は複数のマクロブロックを発見した場合、文書デジタル化エンジン120は、ブロック240に進む。
ブロック230において、文書デジタル化エンジン120は、文書イメージ181内のマイクロブロックを分析し、マイクロブロックの拡張した共線性分析に基づいてマクロブロックを識別する。ブロック230の詳細な動作及び対応する説明は、図3に説明される。次に、文書デジタル化エンジン120は、ブロック250に進む。
ブロック240において、文書デジタル化エンジン120は、ブロック220におけるマクロブロック分類又はブロック230における共線性分析の結果として識別されたマクロブロックをそれぞれ分析する。ブロック240の詳細な動作及び対応する説明は、図5に説明される。次に、文書デジタル化エンジン120は、ブロック250に進む。
ブロック250において、文書デジタル化エンジン120は、計算データを有するデジタル化された文書イメージの結果をユーザに返す。文書デジタル化エンジン120は、随意的に、ユーザからの結果に対するフィードバック199を受け取る。文書デジタル化エンジン120は、ブロック230から生成されたキー値ペア及び/又はフィードバックに従ってブロック240から生成されたテーブルを更新し、次に、ブロック210において受け取った文書イメージ181の処理を終了する。ブロック250において、文書デジタル化エンジン120は、メタデータを、例えばプロセス・インターフェース149に出力することができる。
文書デジタル化エンジン120は、文書イメージ181のセクションに応じてブロック230及びブロック240を実行し、オブジェクト・クラスタ及び種々の組織のテーブルの混合物を有するカスタム文書の種々の形式をサポートすることができる。文書デジタル化エンジン120は、文書イメージ181内に存在するオブジェクトに従って、必要に応じてブロック230及び/又はブロック240を繰り返すことができる。
図3は、本明細書に記載される1つ又は複数の実施形態による、図1の文書デジタル化エンジン120により実行されるような、図2のブロック230の詳細な動作、多層ブロックの識別を示す。
ブロック310において、文書デジタル化エンジン120は、対応するオブジェクトから、受け取った文書におけるマイクロブロックを識別する。オブジェクトは、テキスト文字列、数値、記号、又は画像のいずれかであり得る。文書デジタル化エンジン120は、共線性分析に備えて、オブジェクト間の水平及び垂直空間の絶対距離及び/又は相対近接性を測定する。次に、文書デジタル化エンジン120は、ブロック320に進む。
ブロック320において、文書デジタル化エンジン120は、マイクロブロックの調整可能な共線性パラメータに基づいて、2つ又はそれより多いマイクロブロックの相対位置の近接性を分析することにより、ブロック310で識別された各マイクロブロックに対応するマクロブロックを識別する。文書デジタル化エンジン120は、調整可能な共線性パラメータに従って共線性を有する2つ又はそれより多いマイクロブロックに基づいて、マクロブロックを識別することができる。受け取った文書内の全てのマイクロブロックについてそれぞれのマクロブロックを識別すると、文書デジタル化エンジン120は、ブロック330に進む。
1つの実施形態において、文書デジタル化エンジン120は、2つ又はそれより多いマイクロブロックが、絶対距離又は相対位置において特定の距離範囲内にあるとき、正確なアラインメントなしに、調整可能な共線性パラメータに基づいて2つ又はそれより多いマイクロブロックが共線性を有すると判断することができる。調整可能な共線性パラメータは、フォント、段落アラインメント、句読点、及びオントロジ・マッチングを含む。調整可能な共線性パラメータは、2つのマイクロブロックが特有のフォント及び異なるサイズ/スタイルを有し、それぞれのマイクロブロックにおいて異なる段落アラインメントを有し、及び/又は句読点により分離されていても、文書デジタル化エンジン120は、2つのマイクロブロックを共線関係で関連付けることができる。さらに、文書デジタル化エンジン120は、例えば、特定のキー名及びキー名についてのデータ・タイプが指定されるキー・オントロジ・データに基づいて、2つのマイクロブロックをマクロブロックとして判断することができる。調整可能な共線性パラメータの例及び詳細な説明及び対応する説明は、図4に説明される。
ブロック330において、文書デジタル化エンジン120は、受け取った文書のクラス、及び文書のクラスにおいて要求される全てのクラス・キーが識別されたかどうかを判断する。文書デジタル化エンジン120が、いずれのクラス・キーも識別されなかったと判断した場合、文書デジタル化エンジン120は、ブロック340に進む。文書デジタル化エンジン120が、全てのクラス・キーが識別されたと判断した場合、文書デジタル化エンジン120は、ブロック350に進む。
ブロック340において、文書デジタル化エンジン120は、欠落しているクラス・キーの各々に対応するそれぞれのエイリアスに関して、ブロック310において識別された全てのマイクロブロックを検査する。欠落しているクラス・キーの代わりに見つかった各エイリアスについて、文書デジタル化エンジン120は、ブロック320におけるような、エイリアスを有するマイクロブロックを含むマクロブロックを識別する。次いで、文書デジタル化エンジン120は、ブロック350に進む。
ブロック350において、文書デジタル化エンジン120は、ブロック320及びブロック340において識別されたマクロブロックから全てのキー値ペア(KVP)を識別する。各マクロブロックの1つのマイクロブロックは、KVPにおけるキーに対応し、同じマクロブロックの別のマイクロブロックは、同じKVP内の値に対応し得る。文書デジタル化エンジン120は、信頼性レベルを識別されたKVPの各々に割り当てる。文書デジタル化エンジン120は、近接性レベル、それぞれのキー名のオントロジ・マッチング及びデータ・タイプのような種々の要因に基づいて、KVPの信頼性レベルを発見的に判断する。公式の(formal)取引文書内に頻繁に現れるキー及び値において、KVPの信頼性レベルは、非公式の(informal)個人的文書におけるカスタム・キー及び値よりも高くなり得る。次いで、文書デジタル化エンジン120は、図2のブロック250に進む。
図4は、本明細書に記載される1つ又は複数の実施形態による、マクロブロックを特定するために調整可能なブロック特定パラメータが適用される、例示的な文書イメージを示す。
文書400は、種々の構成での2つのマイクロブロックを含む。第1のマイクロブロックはテキスト文字列「Name(名前)」を有し、第2のマイクロブロックはテキスト文字列「Kevin」を有する。第1のマイクロブロックの「Name」テキストは、キーとして抽出することができ、第2のマイクロブロックの「Kevin」テキストは、Nameキーの値として抽出することができ、そこから、文書デジタル化エンジン120は、マクロブロック、すなわちキー値ペア(KVP)、Name=「Kevin」を識別する。
構成410は、2つの隣接するマイクロブロックにおける異なるフォント・サイズを示し、そこで、「Name」マイクロブロックは、「Kevin」マイクロブロックのフォントより小さいフォントを有する。既存の文書処理アプリケーションにおいては、サイズの変更を含むフォントの差は、さもなくばKVPを形成することになる2つのマイクロブロックがマクロブロック(KVP)として識別されるのを阻害するであろう。文書デジタル化エンジン120は、フォント・サイズに関する調整可能な共線性パラメータを用いて、異なるフォント・サイズを有する2つのマイクロブロックを1つのマクロブロック(KVP)として識別することが可能である。
構成415は、2つの垂直方向に隣接するマイクロブロックにおける異なるテキスト・スタイルを示し、ここで、「Name」マイクロブロックはボールド体であるが、次の行の「Kevin」マイクロブロックは標準書体を有する。既存の文書処理アプリケーションにおいて、例えば活字書体の変更を含むテキスト・スタイルの差は、標準テキストがボールド体、イタリック体、及び下線付きであるとき、さもなくばKVPを形成することになる2つのマイクロブロックがマクロブロック(KVP)として識別されるのを阻害するであろう。文書デジタル化エンジン120は、テキスト・スタイルに関する調整可能な共線性パラメータを用いて、異なるテキスト・スタイルを有する2つのマイクロブロックを1つのマクロブロック(KVP)として識別することが可能である。
構成420は、2つの隣接するマイクロブロックにおける異なる段落アラインメントを示し、ここで、「名前」マイクロブロックは左揃えにされているが、「Kevin」マイクロブロックは右端にアラインされている。既存の文書処理アプリケーションにおいては、上に示されるような段落アラインメントの差は、さもなくばKVPを形成することになる2つのマイクロブロックがマクロブロック(KVP)として識別されるのを阻害するであろう。文書デジタル化エンジン120は、段落アラインメントに関する調整可能な共線性パラメータを用いて、異なる段落アラインメントを有する2つのマイクロブロックを1つのマクロブロック(KVP)として識別することが可能である。
構成425は、2つの垂直方向に隣接するマイクロブロックにおける異なる段落アラインメントを示し、ここで、「Name」マイクロブロックは左揃えにされているが、「Kevin」マイクロブロックは次の行の右端にアラインされている。既存の文書処理アプリケーションにおいては、上に示されるような段落アラインメントの差は、さもなくばKVPを形成することになるそれぞれの行の2つのマイクロブロックがマクロブロック(KVP)として識別されるのを阻害するであろう。文書デジタル化エンジン120は、段落アラインメントに関する調整可能な共線性パラメータを用いて、異なる段落アラインメントを有するそれぞれの行の2つのマイクロブロックを1つのマクロブロック(KVP)として識別することが可能である。
構成430は、句読点で分離される2つの隣接するマイクロブロックを示し、そこで、「:」すなわちコロンが、「Name」マイクロブロックと「Kevin」マイクロブロックとの間に配置される。既存の文書処理アプリケーションにおいては、上に示されるような分離する句読点は、さもなくばKVPを形成することになる2つのマイクロブロックがマクロブロック(KVP)として識別されるのを阻害することがある。文書デジタル化エンジン120は、句読点の分離に関する調整可能な共線性パラメータを用いて、句読点で分離される2つのマイクロブロックを1つのマクロブロック(KVP)として識別することが可能である。
構成435は、句読点で分離される2つの垂直方向に隣接するブロックを示し、そこで、「:」すなわちコロンが、「Name」マイクロブロックと「Kevin」マイクロブロックとの間に配置される。既存の文書処理アプリケーションにおいては、上に示されるような分離する句読点は、さもなくばKVPを形成することになるそれぞれの行の2つのマイクロブロックがマクロブロック(KVP)として識別されるのを阻害することがある。文書デジタル化エンジン120は、句読点分離に関する調整可能な共線性パラメータを用いて、句読点で分離されるそれぞれの行の2つのマイクロブロックを1つのマクロブロック(KVP)として識別することが可能である。
構成440は、広いスペースで分離される2つの隣接するマイクロブロックを示し、そこで、「Name」マイクロブロックと「Kevin」マイクロブロックとの間の広いスペースは通常、既存の文書処理アプリケーションにおいては、2つのマイクロブロックがマクロブロック(KVP)として識別されるのを阻害する。文書デジタル化エンジン120は、2つのマイクロブロックのテキストを意味的に分析すること、及び「Kevin」が「Name」キーの値についての適切なデータ・タイプのものであるとき、キー・オントロジ・データに基づいてキーと値とをマッチングすることにより、こうした広いスペースで分離される2つのマイクロブロックを1つのマクロブロック(KVP)として識別することが可能である。
構成445は、広いスペースで分離される2つの垂直方向に隣接するマイクロブロックを示し、ここで、「Name」マイクロブロックと次の行の「Kevin」マイクロブロックとの間の広いスペースは通常、既存の文書処理アプリケーションにおいては、2つのマイクロブロックがマクロブロック(KVP)として識別されるのを阻害する。文書デジタル化エンジン120は、2つのマイクロブロックのテキストを意味的に分析すること、及び「Kevin」が「Name」キーの値についての適切なデータ・タイプのものであるとき、キー・オントロジ・データに基づいてキーと値とをマッチングすることにより、こうした広いスペースで分離されるそれぞれの行の2つのマイクロブロックを1つのマクロブロック(KVP)として識別することが可能である。
特定の実施形態において、文書デジタル化エンジン120は、例えば、きつい間隔(spacing)、シングル・スペース(標準の間隔)、1.5間隔、ダブル・スペース及び広い間隔などを含むことができる所定の間隔カテゴリのセットを有することができ、ここで、各間隔カテゴリは、それぞれの間隔カテゴリにより分離される2つのマクロブロック間の共線性の特有の尤度を示す。間隔カテゴリのセットは、各マクロブロック内のマイクロブロックに対して特有のものであり得る。
文書デジタル化エンジン120はさらに、意味関係を示す、接続詞、論理和、及び関連した記号マークのような意味表示の存在に基づいて、意味的補間(semantic interpolation)を適用することができる。例えば、「及び(and)」及び「又は(or)」の両方とも、記号「&」、「+」におけるような行の継続を表す。「-」及び「*」などの記号は、リスト内の見出し行の標識として使用されることが多い。文書デジタル化エンジン120は、間隔カテゴリからなされたマクロブロックの識別のために、意味的補間を考慮に入れることができる。
さらに、文書デジタル化エンジン120は、マクロブロック識別のために、相対スタイルも考慮に入れることができる。意味的補間及び相対スタイルは一般に、絶対的及び相対的測定に従った間隔を下回るそれぞれの重みを有する。文書デジタル化エンジン120は、文書のクラスに基づいて、特定の要素についてのそれぞれの重みを割り当てることができる。例えば、特定の距離範囲内の2つのブロック間のスタイル及びフォントの変更は、プレゼンテーション用スライドのような非公式文書よりも、取引文書、請求書、及び政府書式などの公式文書においてより重視され得る。
図5は、メタデータのマクロブロック抽出のための方法を示す。文書デジタル化エンジン120は、メタデータにより提供される計算データを、例えば意味データベース130の更新で使用される1つ又は複数のプロセス・インターフェースに出力し、タクソノミ・レポートは、文書デジタル化エンジンが、音声対応アプリケーションで用いられる、フォームへの申請書を検索エンジンに入力するために、文書イメージに類似した文書イメージを次に処理するときに、文書デジタル化エンジン120により提供される処理を改善する。
ブロック2110において、文書デジタル化エンジン120は、例えば、マイクロブロック1602A~1602Kのような1つ又は複数のマイクロブロックを含む図6に示されるマクロブロック1604Dなどのマクロブロックを識別する。1つの実施形態において、本明細書に記載されるマクロブロック1604D(図6)の識別は、各マイクロブロックについての調整可能な共線性パラメータを分析することを含む。ブロック320(図3)を参照して述べられるように、調整可能な共線性パラメータは、フォント、段落アラインメント、句読点、及びオントロジ・マッチングを含むことができる。1つの実施形態において、文書デジタル化エンジン120は、例えば、テーブル、テキスト密度、アドレス、又は段落分類器などの分類器の適用などの別の方法を用いて、マクロブロック1604D(図6)を識別する(図2のブロック220において)。文書デジタル化エンジン120は、文書イメージの全てのマクロブロックが識別されるまで、ブロック2110を繰り返すことができる。例えばテーブルなどの特化されたマクロブロックが認識された場合、特化されたマクロブロック処理が進行し得る。いかなる場合でも、ブロック2110に説明されるような一般的なマクロブロック処理が進行し得る。
ブロック2120において、文書デジタル化エンジン120は、例えばマクロブロック1604Dなどの識別されたマクロブロックを用いて、キー値ペア(KVP)を見つける。識別されたKVPは、例えばマクロブロック1604Dを識別するための処理中に識別された、あらゆる以前に識別されたKVPを補足することができる。識別されたマクロブロック1604Dを用いてKVPを見つけることは、1つの実施形態において、文書デジタル化エンジン120が、異なるマイクロブロック境界付け機械論理規則を繰り返し適用して、マクロブロック内の同じコンテンツに対して異なるマイクロブロックのセットが識別されるようにすることを含む。識別されたマクロブロック内のマイクロブロックに対して、文書デジタル化エンジン120は、1つの実施形態において、1つのマイクロブック内の「キー」を見つけると、そのキーに対応する値についてのマクロブロック内の各々の残りのマイクロブロックを検索する。
ブロック2130において、文書デジタル化エンジン120は、関連付けられた信頼性レベルを含み得る識別されたKVPを評価する。ブロック2130の実行のために、1つの実施形態において、文書デジタル化エンジン120は、信頼性レベルを識別されたKVPの各々に割り当てる。文書デジタル化エンジン120は、近接性のレベル、それぞれのキー名称及びデータ・タイプのオントロジ・マッチングなどの種々の要因に基づいて、KVPの信頼性レベルを発見的に判断する。形式的な取引文書内に頻繁に表れるキー及び値の場合、KVPの信頼性レベルは、非公式の個人的文書におけるカスタム・キー及び値よりも高くなり得る。1つの実施形態において、文書デジタル化エンジン120は、信頼性レベルをKVPに割り当てるための要因として、KVPが共通のマクロブロックに属することが以前に判断されたかどうかを適用する。従って、文書デジタル化エンジン120は、評価が、共通のマクロブロックに属するとしてキー値ペアを識別する前に行われるか(ブロック2130において)、又は一般的に、比較されるマイクロブロックを含むマクロブロックが識別された後に行われるか(図3のブロック320において)に応じて、より高い信頼性レベルを、KVPとして評価される同じ2つのマイクロブロックに割り当てることができる。1つの実施形態において、ブロック2120及び2130における処理が、図6~図8を参照してさらに説明される。
ブロック2130における割り当てられた信頼性レベルに基づいて、評価の対象となる1つ又は複数のKVPを廃棄すること、又はタイトル(値を有しない有効なキー)として扱うことができる。1つの実施形態において、文書デジタル化エンジン120は、0~70%の間で発見的に設定される低いソフト・マッチング、及び100%における高精度マッチングを適用する。ひとたび値が抽出されると、区切り記号の不存在又は再処置は、このランク付けの主要部分を形成する。
ブロック2140において、文書デジタル化エンジン120は、ユーザ編集のためにメタデータの形態で計算データを提供する。ブロック2150において、文書デジタル化エンジン120は、メタデータを、例えばプロセス・インターフェース149に出力する。ブロック2140及び2150における処理の態様は、図6乃至図8を参照してさらに説明される。
図6は、文書デジタル化エンジン120により識別されるマクロブロック1604Dを有する例示的文書イメージ1600を示す。例えば、文書デジタル化エンジン120は、最初に、マイクロブロック1602A~1602Kを認識し、共線性ベースのブロック識別処理(図3のブロック320における)を適用して、マクロブロック1604Dがマイクロブロック1602Aを含むマクロブロックであると判断することができる。別の実施形態において、マクロブロック1604Dは、例えば、テーブル分類器、単語密度分類器(テキスト密度が閾値を上回る領域をマクロブロックとして識別することができる)、アドレス分類器、段落分類器などの適用される分類器を用いて、マイクロブロック1602A~1602Kの事前認識なしにマクロブロックとして認識することができる。本明細書での実施形態は、オブジェクトのアラインメントが、「属すること」を、従って、例えばキー値ペアの存在を検索するのに有用な識別領域であるマクロブロックを示し得ることを認識する。文書デジタル化エンジン120は、直線の境界により各々の識別されたマイクロブロック及びマクロブロックを境界付けすることができる。図7は、第2のマイクロブロック機械論理境界付け規則の適用に従って代替的にセグメント化された文書イメージ1600を示し、図9は、文書イメージ1600の処理に基づいて、文書デジタル化エンジン120により出力されたメタデータにより提供される計算データを示す。
本明細書に記載されるように、文書デジタル化エンジン120は、文書の各マイクロブロックについて、各マイクロブロックについての調整可能な共線性パラメータを分析することにより、マクロブロックを識別することができる。ブロック320(図3)を参照して既述されるように、調整可能な共線性パラメータは、フォント、段落アラインメント、句読点、及びオントロジ・マッチングを含むことができる。図6を参照して、文書デジタル化エンジン120は、フォント・サイズの差にもかかわらず、アラインメント及びオントロジに基づいて、マイクロブロック1602B及び1602Cを含むものとしてマクロブロック1604Aを識別することができる。図6を参照して、文書デジタル化エンジン120は、アラインメントに基づいて、マイクロブロック1602D及び1602Eを含むものとしてマクロブロック1604Bを識別することができる。図6を参照して、文書デジタル化エンジン120は、フォント・サイズの差にもかかわらず、アラインメント及びオントロジに基づいて、マイクロブロック1602F及び1602Gを含むものとしてマクロブロック1604Cを識別することができる。文書デジタル化エンジン120は、マイクロブロック1602A、1602B、1602D、1602F、1602H及び1602Kの間の左側のアラインメントに基づいて、マイクロブロック1602A、1602B、1602D、1602F、1602H及び1602Kを含むものとしてマクロブロック1604Dを識別することができ、従って、マクロブロック1602Kの右側の境界及びマクロブロック1604Dの直線構成に基づいて、マイクロブロック1602A、1602B、1602D、1602F、1602H及び1602K、並びにマイクロブロック1602A~1602Kの残りのマイクロブロックを確立する。従って、マクロブロック1604Dの識別の完了時に、マクロブロック1604Dは、マイクロブロック1602A~1602Kを含むものと判断される。マイクロブロック1602A~1602Kからマクロブロック1604Dを判断するために、第1のマイクロブロック境界付け機械論理規則が適用され得る。例えば、第1マイクロブロック機械論理規則によると、マイクロブロックの境界付けのために、テキスト・セグメント間のダブル・スペースを無視することができる。従って、図6に示されるように、マイクロブロック1602H~1602Jは、それぞれ単一のマイクロブロックとして識別される。
図6に示されるように定められたマクロブロック1604Dにおいて、文書デジタル化エンジン120は、マクロブロック1604D内のキー値ペアを識別することができる。識別されたマクロブロック1604Dにおけるキー値ペアの識別は、マクロブロック1604Dが各マイクロブロックについての調整可能な共線性パラメータを分析する分析によって識別された場合、マクロブロック1604Dの識別のために行われたキー値ペアの前の識別を補完することができる。1つの実施形態において、識別されたマクロブロック1604Dにおけるキー値ペアの識別は、初期キー値ペア識別である。
図6に示されるように定められたマクロブロック1604Dにおけるキー値ペアの識別のために、文書デジタル化エンジン120は、マクロブロック1604D内のマイクロブロックを識別する。1つの実施形態において、文書デジタル化エンジン120は、第1のマイクロブック境界付け規則(ダブル・スペースが無視され、マイクロブロック間の境界付けをもたらさない)を用いてキー値ペアを検索し、識別するために、図6に示されるようなマイクロブロック1602A~1602Kを使用することができる。
1つの実施形態において、図7を参照すると、文書デジタル化エンジン120は、マイクロブロックの識別のための種々のマイクロブック境界付け機械論理規則を適用することができ、1つの実施形態において、キー値ペア(KVP)の検索を拡張するために、マクロブロック1604D内のマイクロブロックの識別のためのマイクロブロック機械論理境界付け規則を繰り返し変更することができる。
図7に示されるようなマイクロブロックの識別のために、文書デジタル化エンジン120は、マイクロブロックの境界付けのために、マイクロブロック間のダブル・スペースが観察される(無視されるのではなく)、つまり、2つのテキスト・セグメント間のダブル・スペースが単一のマイクロブロックではなく2つのマイクロブロックの識別をもたらす、第2の機械論理規則のマイクロブロック境界付け規則に基づいて、マイクロブロック1603A~1603Nを識別する。第2の機械論理規則は、付加的なマイクロブロックの識別、従って、キー値ペアの識別のための付加的なベースをもたらす。図7に記載されるように識別されたマクロブロック1604Dに関して、文書デジタル化エンジン120は、キー値ペアを識別するために、新しく識別されたマイクロブロック1603A~1603Nを用いることができる。マイクロブロック1603A~1603Nの1つのマイクロブロック内に位置する各キーについて、文書デジタル化エンジン120は、マイクロブロック1603A~1603Nの別のマイクロブロック内の対応する値を検索し、識別することができる。説明される例において、文書デジタル化エンジン120は、マイクロブロック1603A~1603Nのコンテンツに基づいて、キー値ペアを識別する。付加的なマイクロブロック1603H~1603M(第1の機械論理マイクロブロック境界付け規則を用いて、3つのマイクロブロックが識別されるテキストにおいて識別された6つのマイクロブロック)の識別に関して、文書デジタル化エンジン120は、付加的な検索を行うことができるが、付加的な検索がマクロブロック1604Dの文書イメージ領域に限定されることに基づいて、付加的な検索は、経済的に使用され、低遅延のものである。
1つの実施形態において、より少ないマイクロブロック1602A~1602Kを識別する第1のマイクロブロック境界付け機械論理規則が、マクロブロック1604D及びキー値ペアの確立のために適用され、(ひとたび確立されると)マクロブロック1604D内の付加的な新しく定められたマイクロブロック1603H~1603M(図7)を識別する第2のマイクロブロック境界付け機械論理規則が、キー値ペアの識別のために適用される。従って、1つの実施形態において、相対的に粗く定められたマイクロブロックを用いて識別されたオントロジ関係は、関心ある領域(マクロブロック)の識別をもたらすことができ、次に、関心ある領域にさらなる分析を行うことができる(さらなる分析は、KVPの抽出のために内部の相対的に細かく定められたマイクロブロックの識別を含むことができる)。
マイクロブロック1602A~1602K及びマイクロブロック1603A~1603Nを用いて識別されたキー値ペアに関して、文書デジタル化エンジン120は、1つの実施形態において、例えば、更に別の変更されたマイクロブロック境界付け機械論理規則を用いてマクロブロック1604D内の新しく定められたマイクロブロックを識別すること、及び新しく定められたマイクロブロックに基づいてマクロブロック1604D内の新しいキー値ペアを識別することにより、マクロブロック1604Dを用いて、引き続きキー値ペアを識別する。例えば1つの更に別の変更されたマイクロブロック境界付け規則によると、文書デジタル化エンジン120は、1つの実施形態において、マイクロブロック間を境界付けする要素として、シングル・スペースを無視するのではなく観察する。例えば1つの更に別の変更されたマイクロブロック境界付け規則によると、文書デジタル化エンジン120は、1つの実施形態において、マイクロブロック間を境界付けする句読要素として、ハイフン「-」を、無視するのではなく観察する。例えば1つの更に別の変更されたマイクロブロック境界付け規則によると、文書デジタル化エンジン120は、1つの実施形態において、マイクロブロック間を境界付けする要素として異なる線の提示を観察する。
マクロブロックの確立前及びマクロブロックの確立後の両方にキー値ペアを識別するためのプロセスの適用は、利点をもたらす。図8を参照して、文書イメージ1700は、マイクロブロック1702A、マイクロブロック1702B及びマイクロブロック1702Cを含むことができる。初期の処理中(例えば、図3のブロック320による)、マイクロブロック1702Aとマイクロブロック1702Bとの間の調整された共線性パラメータの分析は、例えば閾値を下回る識別されたキー値ペアと関連付けられた信頼性レベルに基づいて、キー値ペアの出力をトリガし損なうことがある。初期処理の際、マイクロブロック1702Bとマイクロブロック1702Cとの間の調整された共線性パラメータの分析は、例えば閾値を下回る識別されたキー値ペアと関連付けられた信頼性レベルに基づいて、識別されたキー値ペアの出力をトリガし損なうことがある。しかしながら、初期処理の際、マイクロブロック1702Aとマイクロブロック1702Cとの間の調整された共線性パラメータの分析は、例えば閾値を上回る識別されたキー値ペアと関連付けられた信頼性レベルに基づいて(例えば、意味データベース130のキー・オントロジ137を用いて判断されるようなアドレス・フィールドのコンテンツにオントロジ的にマッチするキー「Address」に基づいて)、識別されたキー値ペアの出力を成功裡にトリガすることができる。
キー値ペアを定めるマイクロブロック1702A及びマイクロブロック1702Cのコンテンツに基づいて、マクロブロック1704A(適用される機械論理により、直線の形状に制約され得る)は、マイクロブロック1702Aとマイクロブロック1702Cとの間のオントロジ関係に基づいて、マイクロブロック1702Bがマクロブロック1704A内に含まれるように確立することができる。説明される例において、マイクロブロック1702Bのコンテンツが、キー値ペアの識別のためにマイクロブロック1702A(又は1702C)のコンテンツを、例えば(a)マクロブロック1704Aの確立前に1回目、及び(b)マイクロブロック1702A、マイクロブロック1702B及びマイクロブロック1702Cを含むマクロブロック1704A内に含まれるものとしてマイクロブロック1702Bを確立するマクロブロック1704Aの確立後に2回目など、複数回検査されるように、文書デジタル化エンジン120を構成することができる。1つの実施形態において、文書デジタル化エンジン120は、対応するマイクロブロックが共通のマクロブロックのものであると判断された新しい情報(付加的に適用される重みをもたらす)に基づいて2回目の検査から得られた候補キー値ペアに、より高い(潜在的に閾値を超える)信頼性レベルを割り当てることができる。従って、アラインされていない第1及び第2のマイクロブロック(例えば、マイクロブロック1702A及び1702C)のコンテンツ間のKVPの識別は、第1及び第2のマイクロブロック、並びに潜在的に付加的なマイクロブロックを含むマクロブロックの確立に基づいた付加的なKVPの出力に役立ち得る。
図6及び図7のマクロブロック1604Dの処理に基づいた、ユーザ編集のための例示的メタデータ140が、図9に示される。図9に示されるマクロブロック1604Dに基づいたユーザ編集のための例示的メタデータ140が、ユーザ・デバイス110のディスプレイ上に表示するためのユーザ・インターフェース内に提示され得る。図9におけるユーザ編集のためのメタデータは、管理者ユーザが、出力のためにキー値ペアを受諾すること又は拒否することを可能にする、信頼性レベルに関連付けられた各々の識別されたユーザ制御(Y/N)の信頼性レベルのテキスト・ベースの表現を含む。
ユーザ・デバイス110を使用するユーザは、制御(Y/N)を用いて示される各々の候補KVPを受諾すること又は拒否することができる。文書デジタル化エンジン120は、これに応じて、処理の対象である受け取った文書が意味データベース130内に対応する文書クラス131を有さない新しい文書であった場合でも、複数の訓練セットを必要とすることなく、出力メタデータを自動的に導く。本明細書での実施形態は、文書イメージを処理するための文書デジタル化エンジン120の能力が、本明細書で記載されるような訓練により改善すると予想することができるが、有用なメタデータは訓練に基礎を置くべきではないこと、そしてむしろ、文書がクラスの最初の文書である場合でも有用なメタデータを提供すべきであることを認識する。図9のメタデータ140に見られるように、ユーザは、制御(Y/N)を用いるユーザ・インターフェースを用いて見つかったKVPを受諾すること又は拒否することができる。図9に示されるメタデータに関連付けられたユーザ・インターフェース機能は、管理者ユーザが、抽出される百分率が小さいことを見出した場合、案内をクリックして文書表現に進み、文書デジタル化エンジン120により提供される信頼性レベルを用いてKVPの判断に対する付加的な訂正を行う機能を含むことができる。
ブロック2150において、ユーザ編集のための与えられたメタデータ及びユーザの選択に基づいて、文書デジタル化エンジン120は、例えば図9に示される(全ての識別されたKVPが受諾された)、ユーザに提示されユーザ選択に基づいて廃棄された幾らかのメタデータを潜在的に有する、メタデータ140を出力することができる。文書デジタル化エンジン120は、意味データベース130内に信頼できる訓練された文書クラス131を有する場合に可能性が高い、全ての信頼性レベルが閾値を上回ることに基づいて、メタデータを例えばプロセス・インターフェース149に出力することに直接進むように構成することができることが理解されるであろう。
図9に示されるメタデータ140を提供するために、文書デジタル化エンジン120は、識別されたマクロブロック(例えば、2つ又はそれより多いマイクロブロックを含む)、識別されたマイクロブロック、及び識別されたKVPに基づいて、タクソミを逆行分析(reverse engineering)する。図9に示されるメタデータへのKVPの編成は、マクロブロックからマイクロブロックへの関係の逆行分析である。文書イメージ181の単一のページが、ゼロからM個のマクロブロックを含むことができ、各マクロブロックは、ゼロからN個のマイクロブロックを含むことができ、各マクロブロックからの候補KVPは、共に階層構造にまとめられると考える。従って、説明される例において、文書デジタル化エンジン120は、文書ページについてゼロからM個のマクロブロックを識別することができ、図9に示されるような代表的なメタデータ140に対して、タイトル「Payment Details(支払の詳細)」のような、各マイクロブロックについてのタイトルのような見出しを割り当てることができる。
図9の出力メタデータ140を参照して、文書デジタル化エンジン120は、文書イメージ181のオブジェクト間の階層関係を示すタクソノミを指定するように編成されたメタデータを出力することができる。例えば、図9に示されるような出力メタデータにおいて、出力メタデータは、ある形態で提示することができ、そこでは、抽出された個々のKVPは、それらを発見したマクロブロックについての指示子に関連付けられる。見出し「Payment Details」の下に、図9に示されるタクソノミは、種々のKVPのインジケータを含むことができる。図9の例に示されるように、文書デジタル化エンジン120は、関連付けられたマクロブロック1604Dの指示子タイトル(タイトル「Payment Details」)の下に小見出しが付けられたKVPを提示することができる。
図9の例に示されるように、文書イメージ1600(図6及び図7)のコンテンツに基づいて、メタデータ140のKVPを順番に提示することができる。しかしながら、別の実施形態によると、文書デジタル化エンジン120は、文書イメージ1600のオブジェクトの順番によって決定されない順序に従ってKVPを提示することができる。例えば、文書デジタル化エンジン120は、例えば、KVPに関連付けられた信頼性レベルに基づいた順序に従って、関連付けられたマイクロブロック指示子の下に編成されたKVPを提示することができる。1つの実施形態において、文書デジタル化エンジン120は、例えばトピック分類階層に従った、KVPのトピック分類に基づいた順序に従って、例えば関連付けられたマイクロブロック指示子の下に編成されたKVPを提示することができる。文書デジタル化エンジン120は、自然言語処理(NLP)トピック分類、又は(外部ツール170の)NLP理解処理を用いて、出力メタデータにより指定されるタクソノミの属性を判断することができる。例えば、幾つかの使用事例において、例えば、トピック・ベースのNLP処理を行うとき、いずれの分類も返さなかったKVPよりも、トピック「人口統計学データ」に従って分類されたKVPを優先することは有用であり得る。代替的に、KVPの発見のための方法に基づいた順序で、KVPを提示することもできる。1つの実施形態において、第1のマイクロブロック境界付け機械論理規則(より少ないマイクロブロックが識別される)を用いて識別されたマイクロブロックを用いて見出されたKVPを、第2のマイクロブロック境界付け機械論理規則(より多くのマイクロブロックが識別される)を用いて識別されたマイクロブロックを用いて見出されたKVPよりも前に提示することができる。1つの実施形態において、ブロック320(図3)における処理を介して見出されたKVPを、ブロック2120(図5)における処理を介して見出されたKVPよりも前に提示することができる。1つの実施形態において、値に関連付けられたキーを推論するような方法で見出されたKVPを、KVPが意味データベース130の文書クラス131に従って明示的に定められたKVPより下に提示することができる。文書イメージ181のオブジェクト間の階層関係を示すタクソノミを指定するように編成された出力メタデータは、多数の利点、例えば下流プロセスによる処理の容易さを提供し、そのことにより、メタデータの処理のための規則ベースの機械論理にあまり依存しなくなる。
文書デジタル化エンジン120は、自然言語処理(NLP)トピック分類、又は(外部ツール170の)NLP理解処理を利用して、識別された候補キーに対応する識別されたマイクロブロックの値を求めることができる。例えば、マイクロブロックのテキストにNLPトピック分類を行うことが、トピックを戻す場合、又はキー若しくはキーのエイリアスにマッチすると理解する場合、キー・ペア識別を提供することができる。第1のマイクロブロックにNLPトピック分類を行うことにより返されるトピックが、第2のマイクロブロックにNLPトピック分類を行うことにより返されるトピックとマッチする場合も、キー値ペア識別を提供することができる。マイクロブロックのテキストにNLPトピック分類を行うことがトピックの多様性をもたらす場合、文書デジタル化エンジン120は、一般的な「コメント」キーをマイクロブロックに適用することができる。
図9のメタデータを参照して、出力メタデータは、一貫した構造又は形式なしに潜在的(latent)KVPのメタデータを含むことができる。本明細書での実施形態は、潜在的KVP、例えば、句読区切り文字(コロン「:」のような)を有さないKVPの抽出を提供し、KVPは、公式のタクソノミに正しく推論されるキーを有する値をもつ。本明細書での実施形態は、候補キー及び値を識別するための、意味データベース130のオントロジ・データに関連したマクロブロック及びマイクロブロック処理を提供する。
本明細書での実施形態は、非構造化文書を含む文書を処理し、例えばJSON又はXMLのような構造化形式で計算データを顧客に提示する。本明細書での実施形態は、テキストを、消費できる方法で抽出し、スタイル情報を保持しようと努める。本明細書での実施形態は、単にスタイル情報(例えば、フォント・サイズ)を指定するだけではなく、文書イメージのより大きい比率(share)に対する文書イメージの領域におけるフォントの高さ(サイズ)などの相対スタイル情報を提供する。相対スタイル情報は、本明細書で記載される相対スタイル・パラメータ値によって提供することができる。テキストは、ボールド体であってもよく、又はフォント高さ(サイズ)又はスタイルの変形を有してもよい。人間の読み手にとっては、適切に行われる場合、これらのスタイルの変更は、ヘッダ、又は構文若しくは意味コンテンツ内に含まれない他の何らかの形態の情報を伝えるイタリック体又はより大きいフォントを用いる僅かな比較から、強調の範囲を伝えることができる。本明細書での実施形態は、スタイルは極めて重要であるが、保持するのが困難な要素であることを認識する。本明細書での実施形態は、人間のコグニティブなパターン分類をエミュレートするように、メタデータ内に相対スタイル情報を提供するように記載し、ここで、パターンは、絶対的ではなく相対的に分類される傾向がある。機械可読計算メタデータとして与えられる相対スタイル情報により、相対スタイル情報は、様々なプロセスを容易にする。
本明細書での実施形態は、より新しいバージョンのPDF文書が何らかのスタイル情報を保持できるバッキングXML構造を含むが、利用可能なスタイル情報は限定されることを認識する。例えば、PDF文書を処理するための利用可能な技術によると、各オブジェクトは、それぞれのフォント、フォント・サイズ、及び色空間を有するものとして分類することができる。本明細書での実施形態は、組織が膨大な数のPDF文書を有し、多くはバッキング・メタデータを有さないことを認識する。
本明細書での実施形態は、文書イメージからスタイル情報を抽出し、該文書イメージから「相対スタイル情報」を提供する。
1つの実施形態において、文書デジタル化エンジン120は、テキストを有する文書イメージを処理するように構成されるので、フォント・タイプ及びサイズ、並びにフォントの色に加えて情報が与えられる。従って、ヘルベチカ(Helvetica)24ポイントのテキストのセグメントに対して、文書デジタル化エンジン120は、24ポイントのヘルベチカの出力を提供することができる。さらに、文書デジタル化エンジン120は、相対スタイル情報を抽出し、出力することができる。相対スタイル情報は、例えば、テキスト・セグメントがその近隣より10%大きい、又は50%大きい、又は20%小さいフォント(文字)高さ(サイズ)を有するデータを含むことができる。文書デジタル化エンジン120は、フォントに関する付加的な又は代替的な特徴情報を提供することができ、例えば、フォントを「ビジネス・フォント」又は「レクリエーション・フォント」のような分類に分類することができる。
文書デジタル化エンジン120を、相対スタイル情報を含むメタデータを出力するように構成することは、例えば、出力メタデータがフォーム再生成器(form regenerator)又は別のプロセス・インターフェースに出力される場合、テキスト変換を向上させる。文書デジタル化エンジン120は、テキストを非構造化文書から、例えばPC環境若しくはモバイル・デバイスなどの電子デバイス上で表示するための形式に変換する際に使用するように構成することができる。1つの実施形態において、文書デジタル化エンジン120は、処理文書が、処理文書の相対スタイルに対応する相対スタイル情報を有することに基づいて、カスケーディング・スタイル・シート(CSS)などのスタイルシートにおいて初期設定されたメタデータを出力することができる。ソース・ターゲット間の1行ごとの変換を実行することに加えて又はその代わりに、スタイル情報が同一の方法で指定される場合、文書デジタル化エンジン120は、相対スタイル情報を有するCSSを出力することができる。
1つの実施形態において、相対スタイル情報を有するCSSを出力するように文書を処理するために、文書デジタル化エンジン120は、より大きい領域、例えば文書全体の分析を行うことができる。より大きい領域の文書分析を行うことにより、文書デジタル化エンジン120は、文書についてのベースライン・フォント高さ(サイズ)パラメータ及び/又はベースライン空白サイズ・パラメータなどのベースライン・スタイル・パラメータ値(又はベースライン・スタイル・パラメータ値のセット)を求めることができ、求められた1つ又は複数のベースライン・スタイル・パラメータ値に基づいて、文書デジタル化エンジン120は、これらのスタイルを継承及び変更するようにスタイルシートをプロビジョニングすることができる。オリジナルのコンテンツがその近隣より10%大きいセクション(例えば、テキストの1つの行内の単語)を有していた場合、相対スタイル・パラメータ値を提供するこの相対高さ情報をCSSで表すことができる。例えば、スタイル・ブロックにおける「フォント高さ:80%」の使用により、親要素のフォント高さ(サイズ)を指す、20%小さいスタイルがもたらされる。
説明される処理は、概念ごとの変換を提供する。ソースからターゲットへの変換を実行することが意図されるかどうかに関係なく、相対スタイル情報の抽出は、スタイル情報内に存在する非意味的及び非構文的強調を、あらゆる下流プロセスのために保持することを可能にする。
相対スタイル・パラメータ値を定める相対フォント高さデータを提供するために、文書デジタル化エンジン120は、最初に、単語より大きい文書の領域、例えば文書の全ページにおける文書についてのベースライン・フォント高さにより与えられるベースライン・スタイル・パラメータ値を求めることができる。フォント高さベースライン・スタイル・パラメータを求めるために、文書デジタル化エンジン120は、文書全体にわたる単語のフォント高さのヒストグラムを構築することができ、ベースライン・スタイル・パラメータ値は、ヒストグラムの中央散布度、例えばフォント高さ値の平均値又は中央値に基づいて求めることができる。テキストの行ごとに、文書デジタル化エンジン120は、例えば関連するベースライン・スタイル・パラメータ値の百分率として、各単語についての相対フォント高さ相対スタイル・パラメータ値を割り当てることができる。幾つかの実施形態において、ベースライン・スタイル・パラメータ値は、マクロブロック特有のデータ(全ページ・データではなく)又はマクロブロックとグルーバル・ページ・データの組み合わせに基づいて求めることができる。幾つかの実施形態においては、フォント高さベースライン・スタイル・パラメータ値を求めるために、K平均法(K-means)クラスタリング分析を実行することができる。
出力メタデータ140の一部として与えられる相対スタイル情報は、文書の空白(テキスト又は他のオブジェクトがない領域)に関する相対スタイル情報を含むことができる。相対スタイル・パラメータ値を定めるオブジェクトについての空白相対スタイル情報を提供するために、文書デジタル化エンジン120は、最初に、行のセグメントより大きい文書の領域における、例えば文書の全ページにおける、文書についての空白ベースライン・スタイル・パラメータ値を求めることができる。空白ベースライン・スタイル・パラメータ値を求めるために、文書デジタル化エンジン120は、文書全体にわたって空白サイズのヒストグラムを構築することができ、ベースライン・スタイル・パラメータ値についてのベースライン値は、ヒストグラムの中央散布度、例えば、空白サイズの平均値又は中央値に基づいて求めることができる。テキスト行ごとに、文書デジタル化エンジン120は、空白ベースライン・スタイル・パラメータ値の百分率として表される行の各空白についての空白相対スタイル・パラメータ値を割り当てることができる。従って、ダブル・スペースの空白は、標準文書について101(ベースラインの101%)の値、高密度のテキストを有する文書の場合は150%の値、又は非常に疎らなテキストを有する文書の場合は50%の値に匹敵し得る。幾つかの実施形態において、ベースライン・スタイル・パラメータ値は、マクロブロック特有のデータ、又はマクロブロック・データとグローバル・ページ・データの組み合わせに基づいて求めることができる。幾つかの実施形態においては、空白ベースライン・スタイル・パラメータ値を求めるために、K平均法クラスタリング分析を実行することができる。
「ビジネス・フォント」又は「レクリエーション・フォント」の分類を提供するために、文書デジタル化エンジン120は、それぞれ「ビジネス・フォント」又は「レクリエーション・フォント」分類を有するフォントを相互参照する参照テーブルを検査することができる。バスカービル(Baskerville)又はタイムズ・ニュー・ローマン(Times New Roman)のようなフォントを「ビジネス・フォント」として分類し、一方、エイリアル(Arial)のようなフォントをリクリエーション・フォントとして分類することができる。
相対スタイル情報を提供することにより、文書デジタル化エンジン120により出力された受け取ったメタデータに基づいた機能を有する下流プロセスの機能を高めることができる。例えば、相対スタイル・パラメータ値を定めるために、相対フォント高さ(サイズ)、空白又はフォント・タイプ分類を有する出力メタデータに基づいて、フォーム再生成器の開発を自動化又は簡略化することができる。例えば、フォーム再生成器機械論理において、大きいフォント高さへの突然の変更を示す相対フォント高さデータを検査して、フォント高さの再生成を必要とする特別な強調ではなく、一般的な強調を表すように決定することができる。例えば、フォーム再生成器の出力において、フォント高さの突然の増大を代わりに表現することができ、又は強調を示す、例えば黒色から赤色などの色の変化により表現することもできる。フォーム再生成器が特定のサイズのディスプレイ上での表示に適合するようにコンテンツを移動する場合、空白ベースライン・スタイル・パラメータ値の文脈における空白相対スタイル情報(例えば、空白相対スタイル・パラメータ値)を検査して、調整により、変更により与えられる影響全体における容認できない変更がもたらされないことを検証することができる。フォント・タイプ分類(「ビジネス」及び「レクリエーション」)の提供により、例えば、外部リソースから欠落しているフォントにアクセスする必要性が回避される。相対スタイル情報は、出力メタデータの処理のための機械論理の複雑さを低減させる。
図10は、本明細書で記載される1つ又は複数の実施形態による、文書イメージ181に対応する例示的文書メタデータ140を示す。
文書デジタル化エンジン120は、文書イメージ181を処理し、文書メタデータ140を生成する。本発明の特定の実施形態において、文書デジタル化エンジン120は、図10の例示的文書メタデータ140に示されるような、JavaScript Object Notation(JSON)形式で文書メタデータ140を生成する。文書イメージ181は、1つ又は複数の行を含む1つ又は複数のブロックとして階層的に編成される。各行は、1又は複数の単語を有する。各ブロック、行及び単語は、文書イメージ181内のそれぞれのオブジェクトとみなすことができ、その特性は、それぞれ文書メタデータ140内に記述される。
行L401は、リストが「BlockList」で表されるブロックを記述することを示す。行L402及びL403は、ブロックの始点の(x,y)座標を表す。行L404は、注釈がブロックに付けられていないことを示す。行L405は、ブロックが特定の幅のものであることを示す。行L406は、ブロックが「LineList」で表される行を有することを示す。
行L407は、行「LineList」が「WordList」で表される単語を有することを示す。行L408は、単語が値「XYZ Inc.」を有することを示し、行L409及びL410は、それぞれ単語の高さ及び密度を示す。高さは、204の値を有するように指定され、単語の高さが、204%のベースライン・スタイル・パラメータ値であることを示す。行の付加的な単語を、異なる高さを有する範囲まで付加的な百分率値で表現することができる。図6及び図7の説明に役立つ実例において、値204又は204%は、単語「ANZ」、「BANK」及び「Winnellie」に対して、及び値99(99パーセント)は、単語「bank」に対して与えることができる。行L411及びL412は、単語の始点の(x,y)座標を表す。行L413は、特定のカスタム・フォント・サイズ・グループにおけるような、フォント高さ(サイズ)データのさらなる特徴付けのための単語のフォント高さ(サイズ)を示す。行L414は、単語が「word_0」名により識別されることを示す。行L415は、単語が8文字を有することを示し、行L416は、単語が特定の幅のものであることを示す。測定は、ピクセル単位とすること、又は他のいずれかのカスタム単位に従うことができる。
行L417乃至L421は、L406に導入される行「LineList」を完結する。行の幅はL417に、行の始点の(x,y)座標はL418及びL419に、行の高さは行L420に、そして、行を識別するための名称「line_0」は行L421に示される。
オブジェクトの文脈は、各オブジェクトが特定のリスト内にどのように一緒に現れるかにより表される。オブジェクトの相対位置及びサイズは、高さ及び幅などの種々の座標及び寸法要素に基づいて求めることができる。文書メタデータ140は、特定的には、候補キーが既知のキーのエイリアスである尤度に関する信頼性スコアを評価するために、意味正規化エンジン160への入力として使用される。
行L511乃至L521は、例示的KVPメタデータを示す。L512は、候補キーが「block_16」の名称により特定されるブロックのメンバーであることを示す。「block_16」は、文脈、位置及びスタイルに関して文書メタデータ内に指定することができる。行L513は、候補キーの値が「573093486」であることを示す。行L514及びL515は、L513の値の始点の(x,y)座標を示す。行L516及びL517は、候補キーの始点の(x,y)座標を示す。行L518は、候補キーがテキスト「Accnt No」を有することを示す。行L519は、キー・クラス「customerAccountNumber」が、文書メタデータ内に表される文脈、相対位置及びスタイル、テキスト順序付け、意味マッチング、ベクトル空間モデル化及びテキスト分類に基づいて、候補キー「Accnt No」に対応するキー・クラスである可能性が82.35%であると、文書デジタル化エンジン120が判断することを示す。出力メタデータ140は、図9及び図10に関連して記載されるような、組織並びにオブジェクトの間の階層を示すタクソノミを指定することができる。
文書デジタル化エンジン120は、メタデータを複数のプロセス・インターフェースに出力することができる。例えば、出力メタデータを用いて、(a)文書デジタル化エンジン120のプロセスに自動的に適合させること、(b)情報管理を促進すること、(c)チャット・ボックスを促進すること、及び/又は(d)フォーム生成を増強することが可能である。
(a)に関して、文書デジタル化エンジン120は、例えば本明細書で記載される出力メタデータの相対スタイル情報を用いて、出力メタデータに基づいて文書デジタル化エンジン120により実行される1つ又は複数のプロセスに適合させることができる。1つの実施において、文書デジタル化エンジン120は、空白ベースライン・スタイル・パラメータ値及び/又は空白相対スタイル・パラメータ値(例えば、1つの実施形態に従ってテキスト行ごとに決定され得るような)に基づいて、マイクロブロック境界付け機械論理規則を自動的に調整することができる。例えば、大きい空白を有する比較的低密度のページの場合、より包含的ではなく、特定の領域にわたってより少ないマイクロブロックを識別するマイクロブロック境界付け規則(例えば、5スペースの空白でトリガされる境界付け)を選択的にイネーブルにし、アクティブにすることができる。より小さいホワイト・スペースを有する高密度のページの場合、より包括的で、特定の領域にわたってより多くのマクロブロックを識別するマイクロブロック境界付け規則を選択にイネーブルにし、アクティブにすることができ、例えば、マイクロブロック境界付けは、2スペース(ダブル・スペース)の空白でトリガされる。
さらに(a)に関して、文書デジタル化エンジン120は、例えば、図9及び図10に示されるような出力メタデータを用いて、意味データベース130を更新することができる。例えば、図9及び図10のメタデータを参照して、文書デジタル化エンジン120は、例えばNLP処理を介して、文書イメージ1600の「Account Name」が、キー「account number」に対する予想されるエイリアスであることを認識することができる。意味データベース130を更新するためのメタデータの出力により、「account number」に対する公式のエイリアスとして「account name」を含むように、キー・オントロジ・データ137を更新することができる。
(b)に関して、文書デジタル化エンジン120は、情報管理サービスを促進するように、メタデータ140を出力することができる。図9及び図10に示されるようなメタデータ140を検索エンジンに入力することは、インデックス・フィールドが高精度で識別されることを意味する。「BSB 015896 Account 2856-98739 Swift Code ANZBAU3M」を単一の値(他の何らかのインデックスと関連付けられた)として扱うのではなく、検索エンジンは、これをインデックス=BSB、値=015896、データ・タイプ=整数、インデックス=Account Number、値=285698739、データ・タイプ=整数、等として扱うことができる。1つの実施形態において、文書デジタル化エンジン120は、検索される検索エンジンの実行のための検索エンジン・インターフェースとして提供することができる。検索エンジン・インターフェースとして構成される文書デジタル化エンジン120は、PDF文書により提供できるような非構造化文書により与えられる検索エンジン要求を受け取ることができる。文書デジタル化エンジン120は、こうした文書の処理の結果得られるメタデータを検索エンジンに出力し、有用な検索結果を返すことができる。
(c)に関し、文書デジタル化エンジン120は、チャット・インターフェースとして提供することができ、チャット環境において提示される質問に応答するために、文書イメージ1600に対応する文書のような非構造化文書にアクセスするように構成することができる。「What is the BSB for ANZ Bank Winnellie?(ANZ Bank Winnellieに対するBSBは何か?)」という質問に応答するために、文書デジタル化エンジン120は、文書イメージ1600に対応する文書にアクセスしてこれを処理し、ノイズのない高精度を用いてフルスパンの意味エンティティを認識することができる。文書デジタル化エンジン120による処理に基づいて、質問は、「What is the <key> for <value>?(<値>に対する<キー>は何か?)」又は「What is the <value> for <key>?(<キー>に対する<値>は何か?)」のうちの1つとなり、基本クエリ代数により、「What is the <key:BSB> for <value:ANZ Bank Winnellie>?(<値:ANZ Bank Winnellie>に対する<キー:BSB>は何か?)」となり、答えは<015896>である。
(d)に関して、文書デジタル化エンジン120をフォーム再生成ツールとして用いることができる。文書デジタル化エンジン120は、メタデータを、文書イメージ181に対応する文書の情報を再生成するフォーム再生成器に出力することができる。メタデータ140を受け取るフォーム再生成器は、このデータを再生成して、モバイル若しくはウェブ若しくは他の何らかの有用性パラダイムに適したフォームにすることができる。例えば、フォーム再生成器の開発は、フォント高さ(サイズ)、空白、又はフォント・タイプ分類を指定する相対スタイル・パラメータなどの相対スタイル・パラメータを有する出力メタデータに基づいて、自動化又は簡略化することができる。例えば、機械論理を適用する構成されたフォーム再生成器は、相対スタイル情報の相対フォント高さの検査を実行することができ、検査に基づいて、小さい高さのフォントから大きい高さのフォントへの突然の変更が、フォント高さの再生成を必要とする特定の強調ではなく、一般的な強調を表すことを判断することができる。例えば、フォーム再生成器により与えられる出力において、フォント高さの突然の変更を、代わりに又はさらに、例えば、黒色から強調を示す赤色への色の変更により表現することができる。フォーム再生成器が、特定のサイズのディスプレイ上への表示に適合するようにコンテンツを移動する場合、空白ベースライン・スタイル・パラメータ値の文脈における空白相対スタイル情報を検査して、調整が、変更によりもたらされるグラフィカルな影響全体における容認できない変更をもたらさないことを検証することができる。フォント・タイプ分類(「ビジネス」及び「レクリエーション」)の提供は、例えば、外部リソースから欠落しているフォントにアクセスする必要性を回避する。相対スタイル情報は、出力メタデータの処理のための機械論理の複雑さを低減させる。
本明細書での特定の実施形態は、コンピュータ・ネットワークの領域において生じる問題を処理するための計算利点を含む種々の技術的な計算利点を提供することができる。デジタル文書は、文書内に表らされるデータを計算的に用いる際の便宜のために好ましいことが多い。紙にペンで書かれた文書を走査して取り込むと、文書は、ページの一連の視覚イメージとなるものの、デジタル・データとして計算的に使用する準備はできていない。従って、文書イメージから計算データを正確に抽出するために、多くの文書デジタル化アプリケーションが開発されてきた。既存の文書処理アプリケーションにおいては、文書の視覚イメージを処理し、文書から計算データを抽出する際、文書のカスタム形式及び構成が非常に多いことにより問題が提示される。本明細書での実施形態は、文書内の視覚マークが伝える意味を人間の読み手が理解するとき、文書イメージのコグニティブなデジタル化プロセスを実施し、文書イメージからのデータ抽出の効率及び精度を向上させる。本明細書での実施形態は、非構造化文書により提供され得る文書の処理により導出されるメタデータを用いて、プロセスの制御を提供する。本明細書での実施形態は、オブジェクトのアラインメント又はオブジェクト間の意味関係のみに依存せず、アライメント・ベースの処理及び意味ベースの処理の組み合わせを用いる方法によって、文書からメタデータを抽出する。
図11~図13は、本明細書に記載される1つ又は複数の態様による、コンピュータ・システム及びクラウド・コンピューティングを含むコンピューティングの種々の態様を示す。
本開示はクラウド・コンピューティングについての詳細な説明を含むが、本明細書に記載される教示の実装は、クラウド・コンピューティング環境に限定されないことを予め理解されたい。むしろ、本明細書での実施形態は、現在既知の又は後で開発される他のいずれかのタイプのコンピューティング環境と共に実施することができる。
クラウド・コンピューティングは、最小限の管理労力又はサービス・プロバイダとの対話で迅速にプロビジョニング及び解放することができる構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス)の共有プールへの、便利なオンデマンドのネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特徴、少なくとも3つのサービス・モデル、及び少なくとも4つのデプロイメント・モデルを含むことができる。
特徴は、以下の通りである。
オンデマンド・セルフサービス:クラウド・コンシューマは、必要に応じて、サーバ時間及びネットワーク・ストレージ等のコンピューティング機能を、人間がサービスのプロバイダと対話する必要なく自動的に、一方的にプロビジョニングすることができる。
広範なネットワーク・アクセス:機能は、ネットワーク上で利用可能であり、異種のシン又はシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、及びPDA)による使用を促進する標準的な機構を通じてアクセスされる。
リソース・プール化:プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを用いて、異なる物理及び仮想リソースを要求に応じて動的に割り当て及び再割り当てすることにより、複数のコンシューマにサービスを提供するためにプールされる。コンシューマは、一般に、提供されるリソースの正確な位置についての制御又は知識を持たないという点で、位置とは独立しているといえるが、より抽象化レベルの高い位置(例えば、国、州、又はデータセンタ)を特定できる場合がある。
迅速な弾力性:機能は、迅速かつ弾力的に、場合によっては自動的に、プロビジョニングして素早くスケール・アウトし、迅速にリリースして素早くスケール・インさせることができる。コンシューマにとって、プロビジョニングに利用可能なこれらの機能は、多くの場合、無制限であり、いつでもどんな量でも購入できるように見える。
計測されるサービス:クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、及びアクティブなユーザ・アカウント)に適した何らかの抽象化レベルでの計量機能を用いることによって、リソースの使用を自動的に制御及び最適化する。リソース使用を監視し、制御し、報告し、利用されるサービスのプロバイダとコンシューマの両方に対して透明性をもたらすことができる。
サービス・モデルは以下の通りである。
Software as a Service(SaaS):クラウド・インフラストラクチャ上で動作しているプロバイダのアプリケーションを使用するために、コンシューマに提供される機能である。これらのアプリケーションは、ウェブ・ブラウザ(例えば、ウェブ・ベースの電子メール)などのシン・クライアント・インターフェースを通じて、種々のクライアント・デバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定の考え得る例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、又は個々のアプリケーション機能をも含めて、基礎をなすクラウド・インフラストラクチャを管理又は制御しない。
Platform as a Service(PaaS):プロバイダによってサポートされるプログラミング言語及びツールを用いて生成された、コンシューマが生成した又は取得したアプリケーションを、クラウド・インフラストラクチャ上にデプロイするために、コンシューマに提供される機能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、又はストレージなどの基礎をなすクラウド・インフラストラクチャを管理又は制御しないが、配備されたアプリケーション、及び場合によってはアプリケーション・ホスティング環境構成に対して制御を有する。
Infrastructure as a Service(IaaS):コンシューマが、オペレーティング・システム及びアプリケーションを含み得る任意のソフトウェアを配備及び動作させることができる、処理、ストレージ、ネットワーク、及び他の基本的なコンピューティング・リソースをプロビジョニンングするために、コンシューマに提供される機能である。コンシューマは、基礎をなすクラウド・インフラストラクチャを管理又は制御しないが、オペレーティング・システム、ストレージ、配備されたアプリケーションに対する制御、及び場合によってはネットワーク・コンポーネント(例えば、ホストのファイアウォール)選択の限定された制御を有する。
デプロイメント・モデルは以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、ある組織のためだけに運営される。このクラウド・インフラストラクチャは、その組織又は第三者によって管理することができ、オンプレミス又はオフプレミスに存在することができる。
コミュニティ・クラウド:クラウド・インフラストラクチャは、幾つかの組織によって共有され、共通の関心事項(例えば、任務、セキュリティ要件、ポリシー、及びコンプライアンス上の考慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラストラクチャは、その組織又は第三者によって管理することができ、オンプレミス又はオフプレミスに存在することができる。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆又は大規模な業界グループに利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データ及びアプリケーションの移行性を可能にする標準化された又は専用の技術(例えば、クラウド間の負荷分散のためのクラウド・バースティング)によって結び付けられる2つ以上のクラウド(プライベート、コミュニティ、又はパブリック)の混成物である。
クラウド・コンピューティング環境は、ステートレス性、低結合性、モジュール性、及びセマンティック相互運用性に焦点を置くことを指向するサービスである。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。
ここで図11を参照すると、コンピューティング・ノードの例の概略が示される。コンピューティング・ノード10は、クラウド・コンピューティング・ノードとして使用するのに適したコンピューティング・ノードの一例にすぎず、本明細書で記載される実施形態の使用範囲又は機能に関するいずれかの限定を示唆することを意図していない。それにもかかわらず、コンピューティング・ノード10は、本明細書で上述される機能のいずれも実装及び/又は実行することができる。コンピューティング・ノート10は、クラウド・コンピューティング環境におけるクラウド・コンピューティング・ノードとして実装されてもよく、又はクラウド・コンピューティング環境ではないコンピューティング環境におけるコンピューティング・ノードとして実装されてもよい。
コンピューティング・ノード10において、多数の他の汎用又は専用コンピューティング・システム環境又は構成で動作可能であるコンピュータ・システム12がある。コンピュータ・システム12と共に使用するのに好適であり得る周知のコンピューティング・システム、環境、及び/又は構成の例としては、これらに限定されるものではないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、手持ち式又はラップトップ型デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能民生電子機器、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、及び、上述のシステム若しくはデバイスのいずれかを含む分散型クラウド・コンピューティング環境等が含まれる。
コンピュータ・システム12は、コンピュータ・システムによって実行される、プログラム・プロセスなどのコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。一般に、プログラム・プロセスは、特定のタスクを実行する又は特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含むことができる。コンピュータ・システム12は、通信ネットワークを通じてリンクされた遠隔処理デバイスによってタスクが実行される分散型クラウド・コンピューティング環境で実施することができる。分散型クラウド・コンピューティング環境において、プログラム・プロセスは、メモリ・ストレージ・デバイスを含む、ローカル及び遠隔両方のコンピュータ・システム・ストレージ媒体に配置することができる。
図11に示されるように、コンピューティング・ノード10におけるコンピュコンピュータ・システム12が、汎用コンピューティング・デバイスの形で示される。コンピュータ・システム12のコンポーネントは、これらに限定されるものではないが、1つ又は複数のプロセッサ16、システム・メモリ28、及びシステム・メモリ28を含む種々のシステム・コンポーネントをプロセッサ16に結合するバス18を含むことができる。1つの実施形態において、コンピューティング・ノード10は、非クラウド・コンピューティング環境のコンピューティング・ノードである。1つの実施形態において、コンピューティング・ノード10は、図12~図13と関連して説明されるようなクラウド・コンピューティング環境のコンピューティング・ノードである。
バス18は、メモリ・バス又はメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、及び種々のバス・アーキテクチャのいずれかを用いるプロセッサ又はローカル・バスを含む、幾つかのタイプのバス構造のうちのいずれかの1つ又は複数を表す。限定ではなく例としては、このようなアーキテクチャは、業界標準アーキテクチャ(Industry Standard Architecture、ISA)バス、マイクロ・チャネル・アーキテクチャ(Micro Channel Architecture、MCA)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカル・バス、及びPeripheral Component Interconnect(PCI)バスを含む。
コンピュータ・システム12は、典型的には、種々のコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム12によりアクセス可能ないずれかの利用可能媒体とすることができ、揮発性媒体及び不揮発性媒体の両方と、取り外し可能媒体及び取り外し不能媒体の両方とを含む。
システム・メモリ28は、ランダム・アクセス・メモリ(RAM)30及び/又はキャッシュ・メモリ32など、揮発性メモリの形のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム12は、他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ・システム・ストレージ媒体をさらに含むことができる。単なる例として、取り外し不能の不揮発性磁気媒体(図示されておらず、典型的には「ハード・ドライブ」と呼ばれる)との間の読み出し及び書き込みのために、ストレージ・システム34を設けることができる。図示されていないが、取り外し可能な不揮発性磁気ディスク(例えば、「フロッピー・ディスク」)との間の読み出し及び書き込みのための磁気ディスク・ドライブと、CD-ROM、DVD-ROM又は他の光媒体などの取り外し可能な不揮発性光ディスクとの間の読み出し及び書き込みのための光ディスク・ドライブとを設けることができる。このような例においては、それぞれを、1つ又は複数のデータ媒体インターフェースによってバス18に接続することができる。以下でさらに示され説明されるように、メモリ28は、本発明の実施形態の機能を実行するように構成されたプログラム・プロセスのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含むことができる。
限定ではなく例として、プログラム・プロセス42のセット(少なくとも1つ)を有する1つ又は複数のプログラム40、並びにオペレーティング・システム、1つ又は複数のアプリケーション・プログラム、他のプログラム・プロセス、及びプログラム・データをメモリ28内に格納することができる。プログラム・プロセス42を含む1つ又は複数のプログラム40は、一般に、本明細書で記載される機能を実行することができる。1つの実施形態において、文書デジタル化エンジン120は、1つ又は複数のコンピューティング・ノード10を含むことができ、図2、図3及び図5のフローチャートに関連して説明される方法のような、本明細書で記載される種々の方法を参照して説明される機能を実行するための1つ又は複数のプログラム40を含むことができる。1つの実施形態において、異なる参照番号で参照される図1のそれぞれのコンポーネントの各々は、コンピューティング・ノード・ベースのデバイスとすることができ、1つ又は複数のコンピューティング・ノード10、及びそれぞれのコンポーネントを参照して本明細書で説明される機能を実行するための1つ又は複数のプログラム40を含むことができる。
コンピュータ・システム12は、キーボード、ポインティング・デバイス、ディスプレイ24等のような1つ又は複数の外部デバイス14、ユーザがコンピュータ・システム12と対話することを可能にする1つ又は複数のデバイス、及び/又はコンピュータ・システム12が1つ又は複数の他のコンピューティング・デバイスと通信することを可能にするいずれかのデバイス(例えば、ネットワーク・カード、モデム等)と通信することもできる。このような通信は、入力/出力(I/O)インターフェース22を介して行うことができる。さらに、コンピュータ・システム12は、ネットワーク・アダプタ20を介して、ローカル・エリア・ネットワーク(LAN)、汎用広域ネットワーク(WAN)、及び/又はパブリック・ネットワーク(例えば、インターネット)などの1つ又は複数のネットワークと通信することもできる。示されるように、ネットワーク・アダプタ20は、バス18を介して、コンピュータ・システム12の他のコンポーネントと通信する。図示されないが、コンピュータ・システム12と共に他のハードウェア及び/又はソフトウェア・コンポーネントを使用できることを理解されたい。例としては、これらに限定されるものではないが、マイクロコード、デバイス・ドライバ、冗長プロセッサ、外部のディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、及びデータ・アーカイブ・ストレージ・システム等が含まれる。ユーザ・インターフェース機能を与えるように構成され得る外部デバイス14及びディスプレイ24を有するのに加えて又はその代わりに、コンピューティング・ノード10は、1つの実施形態において、バス18に接続されたディスプレイ25を含むことができる。1つの実施形態において、ディスプレイ25は、タッチ・スクリーン・ディスプレイとして構成することができ、ユーザ・インターフェース機能を提供するように構成することができ、例えば、仮想キーボード機能及びデータ全体の入力を容易にすることができる。コンピュータ・システム12は、1つの実施形態において、バス18に接続された1つ又は複数のセンサ・デバイス27を含むこともできる。1つ又は複数のセンサ・デバイス27は、代替的に、I/Oインターフェース22を通じて接続することもできる。1つ又は複数のセンサ・デバイス27は、1つの実施形態においては、グローバル・ポジショニング・センサ(GPS)デバイスを含むことができ、コンピューティング・ノード10の位置を提供するように構成することができる。1つの実施形態において、1つ又は複数のセンサ・デバイス27は、代替的に又は付加的に、例えば、カメラ、ジャイロスコープ、温度センサ、湿度センサ、心拍センサ、血圧(bp)センサ、又は音声入力デバイスのうちの1つ又は複数を含むことができる。コンピュータ・システム12は、1つ又は複数のネットワーク・アダプタ20を含むことができる。図12において、コンピューティング・ノード10は、クラウド・コンピューティング環境内に実装されるものとして説明され、従って、図12の文脈においてクラウド・コンピューティング・ノードと呼ばれる。
ここで図12を参照すると、例示的クラウド・コンピューティング環境50が示される。示されるように、クラウド・コンピューティング環境50は、例えば携帯情報端末(PDA)又は携帯電話54A、デスクトップ・コンピュータ54B、ラップトップ・コンピュータ54C、及び/又は自動車コンピュータ・システム54Nなどといった、クラウド・コンシューマによって用いられるローカル・コンピューティング・デバイスと通信できる1つ又は複数のクラウド・コンピューティング・ノード10を含む。ノード10は、互いに通信することができる。これらのノードは、上述のようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、若しくはハイブリッド・クラウド、又はこれらの組み合わせなど、1つ又は複数のネットワークにおいて物理的又は仮想的にグループ化することができる(図示せず)。これにより、クラウド・コンピューティング環境50が、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを保持する必要のないサービスとして、インフラストラクチャ、プラットフォーム、及び/又はソフトウェアを提供することが可能になる。図11に示されるコンピューティング・デバイス54A~Nのタイプは単に例示であることを意図し、コンピューティング・ノード10及びクラウド・コンピューティング環境50は、いずれのタイプのネットワーク及び/又はネットワーク・アドレス指定可能な接続上でも(例えば、ウェブ・ブラウザを用いて)、いずれのタイプのコンピュータ化されたデバイスとも通信できることを理解されたい。
ここで図13を参照すると、クラウド・コンピューティング環境50(図12)によって提供される機能抽象化層のセットが示される。図13に示されるコンポーネント、層、及び機能は単に例示であることを意図し、本発明の実施形態はそれらに限定されないことを予め理解されたい。図示されるように、以下の層及び対応する機能が提供される。
ハードウェア及びソフトウェア層60は、ハードウェア及びソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例として、メインフレーム61と、RISC(Reduced Instruction Set Computer(縮小命令セット・コンピュータ))アーキテクチャ・ベースのサーバ62と、サーバ63と、ブレード・サーバ64と、ストレージ・デバイス65と、ネットワーク及びネットワーキング・コンポーネント66とが含まれる。幾つかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア67及びデータベース・ソフトウェア68を含む。
仮想化層70は、抽象化層を提供し、この層により、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想プライベート・ネットワークを含む仮想ネットワーク73、仮想アプリケーション及びオペレーティング・システム74、並びに仮想クライアント75を提供することができる。
一例においては、管理層80は、以下で説明される機能を提供することができる。リソース・プロビジョニング81は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソース及び他のリソースの動的な調達を提供する。計量及び価格決定82は、クラウド・コンピューティング環境内でリソースが利用される際のコスト追跡と、これらのリソースの消費に対する課金又は請求とを提供する。一例においては、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含むことができる。セキュリティは、クラウド・コンシューマ及びタスクに対する識別情報の検証と、データ及び他のリソースに対する保護とを提供する。ユーザ・ポータル83は、コンシューマ及びシステム管理者のために、クラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理84は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソースの割り当て及び管理を提供する。サービス・レベル・アグリーメント(Service Level Agreement、SLA)の計画及び履行85は、SLAに従って将来の要件が予測されるクラウド・コンピューティング・リソースの事前配置及び調達を提供する。
ワークロード層90は、クラウド・コンピューティング環境を利用することができる機能の例を提供する。この層から提供することができるワークロード及び機能の例として、マッピング及びナビゲーション91、ソフトウェア開発及びライフサイクル管理92、仮想教室教育配信93、データ分析処理94、トランザクション処理95、及び本明細書で説明される文書イメージを処理するための処理コンポーネント96が挙げられる。処理コンポーネント96は、図11に説明される1つ又は複数のプログラム40を用いて実装され得る。
本発明は、システム、方法、及び/又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子記憶装置、磁気記憶装置、光学記憶装置、電磁気記憶装置、半導体記憶装置、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、パンチカード若しくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語若しくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。これらのコンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、及び/又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
コンピュータ・プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生産し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1つ又は複数のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
本明細書で用いられる用語は、特定の実施形態を説明することのみを目的とし、本発明を限定することを意図したものではない。本明細書内で用いられる場合、単数形「1つの(a)」、「1つの(an)」及び「その(the)」は、文脈がそうでないことを明確に示していない限り、複数形も含むことを意図している。さらに、用語「含む(comprise)」(及び、compriseの任意の形態、例えば「comprises」及び「comprising」)、「有する(have)」(及び、haveの任意の形態、例えば「has」及び「having」)、「含む(include)」(及び、includeの任意の形態、例えば「includes」及び「including」)、並びに「含有する(contain)」(及び、containの任意の形態、例えば「contains」及び「containing」)は、変更可能な連結動詞(open-ended linking verbs)であることが理解されるであろう。その結果、1つ又は複数のステップ又は要素を「含む(comprise)」、「有する(have)」、「含む(include)」、又は「含有する(contain)」方法又はデバイスは、1つ又は複数のステップ又は要素を保有するが、それらの1つ又は複数のステップ又は要素のみを保有することに限定されるものではない。同様に、1つ又は複数の特徴を「含む(comprise)」、「有する(have)」、「含む(include)」、又は「含有する(contain)」、方法のステップ又はデバイスの要素は、それらの1つ又は複数の特徴を保有するが、それらの1つ又は複数の特徴のみを保有することに限定されるものではない。本明細書で「~に基づく(based on)」という用語の形態は、要素が部分的に基づく場合の関係、並びに要素が全体的に基づく場合の関係を含む。特定の数の要素を有するものとして記載される方法、製品及びシステムは、特定の数より少ない又はそれより多い要素で実施されることもある。さらに、特定の方法で構成されたデバイス又は構造は、少なくともその方法で構成されるが、列挙されていない方法で構成されることもある。
以下の特許請求の範囲に存在する場合、「手段又はステップと機能との組合せ(ミーンズ又はステップ・プラス・ファンクション)」要素の対応する構造、材料、動作及び均等物は、明確に特許請求された他の特許請求される要素と共に機能を実行するための任意の構造、材料、又は動作を含むことを意図したものである。本明細書に記載される説明は、例証及び説明のためだけに提示されたものであり、網羅的であること又は本発明を開示した形態に限定することを意図したものではない。当業者には、本開示の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。実施形態は、本明細書に記載される1つ又は複数の態様の原理、実際の用途を最も良く説明するため、及び考えられる特定の使用に適するものとして種々の変形を有する種々の実施形態において、当業者が、本明細書に説明される1つ又は複数の態様を理解するのを可能にするために、選択され説明された。
100:システム
101:ユーザ
110:ユーザ・デバイス
120:文書デジタル化エンジン
130:意味データベース
131:文書クラス
133:クラス・キー
135:キー・エイリアス
137:キー・オントロジ・データ
138:キー
140:メタデータ
149:プロセス・インターフェース
150:リレーショナル・データベース
155:キー値ペア(KVP)
181、1600、1700:文書イメージ
1602A~1602K、1603A~1603N、1702A~1702C:マイクロブロック
1604D、1704A:マクロブロック

Claims (16)

  1. コンピュータの情報処理により実行される方法であって、
    複数のオブジェクトを含む文書イメージを取得することと、
    前記文書イメージ内の複数のマクロブロックを識別することと、
    前記複数のマクロブロックのマクロブロック内でマイクロブロック処理を実行することであって、前記マイクロブロック処理は、キー値ペアの抽出のためにマクロブロック内のマイクロブロックのコンテンツを検査することを含み、前記コンテンツを検査することは、マイクロブロックのオントロジ分析を実行することを含み、前記マイクロブロック処理は、信頼性レベルを前記抽出されたキー値ペアに関連付けることを含む、実行することと、
    前記複数のマクロブロックのマクロブロック内でマイクロブロック処理を実行することに基づいて、抽出された前記キー値ペア及び関連付けられた前記信頼性レベルの情報を含むメタデータを出力することと、
    前記文書イメージを処理して、ベースライン・フォント高さを指定するベースライン・スタイル・パラメータ値を識別することと、前記文書イメージのテキストの行の各単語について、前記ベースライン・スタイル・パラメータ値を参照して定められる相対スタイル・パラメータを識別することであって、前記相対スタイル・パラメータは、前記ベースライン・スタイル・パラメータ値の百分率として前記テキストの行のテキストの単語のフォント高さを指定する、識別することとを含み、前記メタデータを出力することは、前記相対スタイル・パラメータを出力のための出力メタデータとして提供することを含
    前記マクロブロックの領域内のマイクロブロックのコンテンツを検査することは、第1の機械論理マイクロブロック境界付け規則を用いて前記マクロブロックの前記領域内の第1のマイクロブロックのセットを識別することと、前記第1の機械論理マイクロブロック境界付け規則とは異なる第2の機械論理マイクロブロック境界付け規則を用いて前記マクロブロックの前記領域内の第2のマイクロブロックのセットを識別することとを含み、前記第1のマイクロブロックのセットのマイクロブロックの数は、前記第2のマイクロブロックのセットのマイクロブロックの数とは異なる、
    方法。
  2. 前記メタデータを出力することは、メタデータをプロセス・インターフェースに出力することを含む、請求項1に記載の方法。
  3. 前記メタデータは、マクロブロックの表示と、各マクロブロックについての指示子内に列挙される、識別されたキー値ペアとを含む階層を提示する、請求項1に記載の方法。
  4. 前記出力することは、閾値を下回る信頼性レベルを有するキー値ペアが出力されないようにキー値ペアを廃棄することを含む、請求項1に記載の方法。
  5. 前記コンテンツを検査することは、アラインされていないマイクロブロックのオントロジ分析を実行することと、前記オントロジ分析に基づいて、アラインされていないマイクロブロックが共線性を有すると判断することとを含む、請求項1に記載の方法。
  6. 前記方法は、マイクロブロックより大きい前記文書イメージの領域についての空白スタイル・パラメータ値を求めること、及び前記空白スタイル・パラメータ値に基づいて機械論理マイクロブロック境界付け規則を適用することを含む、請求項1に記載の方法。
  7. コンピュータの情報処理により実行される方法であって、
    複数のオブジェクトを含む文書イメージを取得することと、
    前記文書イメージ内のマクロブロックを識別することであって、前記マクロブロックは前記複数のオブジェクトのオブジェクトを含む、識別することと、
    1つ又は複数のキー値ペアの抽出のために前記文書イメージの前記マクロブロックの領域内のマイクロブロックのコンテンツを検査することであって、前記検査することは、前記マクロブロックの前記領域内のアラインされていないマイクロブロックのコンテンツを検査することを含み、前記マクロブロックの前記領域内のアラインされていないマイクロブロックのコンテンツを検査することは、オントロジ分析を適用することを含む、検査することと、
    信頼性レベルを、前記1つ又は複数のキー値ペアのうちの1つのキー値ペアに関連付けることと、
    前記1つ又は複数のキー値ペアを出力することと、
    前記文書イメージを処理して、ベースライン・フォント高さを指定するベースライン・スタイル・パラメータ値を識別することと、前記文書イメージのテキストの行の各単語について、前記ベースライン・スタイル・パラメータ値を参照して定められる相対スタイル・パラメータを識別することであって、前記相対スタイル・パラメータは、前記ベースライン・スタイル・パラメータ値の百分率として前記テキストの行のテキストの単語のフォント高さを指定する、識別することと、前記相対スタイル・パラメータを出力のための出力メタデータとして提供することと、
    を含
    前記マクロブロックの領域内のアラインされていないマイクロブロックのコンテンツを検査することは、第1の機械論理マイクロブロック境界付け規則を用いて前記マクロブロックの前記領域内の第1のマイクロブロックのセットを識別することと、前記第1の機械論理マイクロブロック境界付け規則とは異なる第2の機械論理マイクロブロック境界付け規則を用いて前記マクロブロックの前記領域内の第2のマイクロブロックのセットを識別することとを含み、前記第1のマイクロブロックのセットのマイクロブロックの数は、前記第2のマイクロブロックのセットのマイクロブロックの数とは異なる、
    方法。
  8. 前記検査することは、前記マクロブロックの前記領域内の第1のマイクロブロック及び第2のマイクロブロックの両方のそれぞれの意味コンテンツを分析することと、前記第1のマイクロブロックの第1の意味コンテンツがキー名と関連付けられていることを確認することと、前記キー名に対応するキー・オントロジ・データから、前記第2のマイクロブロックの第2の意味コンテンツが、前記キー名に対応するデータ・タイプのものであることを発見することとを含む、請求項に記載の方法。
  9. 前記アラインされていないマイクロブロックのコンテンツを検査することは、マクロブロックを識別することの前に開始され、前記文書イメージ内のマクロブロックを識別することは、前記アラインされていないマイクロブロックのコンテンツを検査することに基づいて実行される、請求項に記載の方法。
  10. 前記アラインされていないマイクロブロックのコンテンツを検査することは、第1の繰り返し及び第2の繰り返しにおいて前記検査を実行することを含み、前記第1の繰り返しは、前記マクロブロックの識別をもたらし、前記第2の繰り返しは、前記マクロブロックの識別後に実行される、請求項に記載の方法。
  11. コンピュータの情報処理により実行される方法であって、
    複数のオブジェクトを含む文書イメージを取得することと、
    前記文書イメージ内のマクロブロックを識別することであって、前記マクロブロックは前記複数のオブジェクトのオブジェクトを含む、識別することと、
    1つ又は複数のキー値ペアの抽出のために前記文書イメージの前記マクロブロックの領域内のマイクロブロックのコンテンツを検査することであって、前記検査することは、前記マクロブロックの前記領域内のアラインされていないマイクロブロックのコンテンツを検査することを含み、前記マクロブロックの前記領域内のアラインされていないマイクロブロックのコンテンツを検査することは、オントロジ分析を適用することを含む、検査することと、
    信頼性レベルを、前記1つ又は複数のキー値ペアのうちの1つのキー値ペアに関連付けることと、
    前記1つ又は複数のキー値ペアを出力することと、
    前記文書イメージを処理して、ベースライン・フォント高さを指定するベースライン・スタイル・パラメータ値を識別することと、前記文書イメージのテキストの行の各単語について、前記ベースライン・スタイル・パラメータ値を参照して定められる相対スタイル・パラメータを識別することであって、前記相対スタイル・パラメータは、前記ベースライン・スタイル・パラメータ値の百分率として前記テキストの行のテキストの単語のフォント高さを指定する、識別することと、前記相対スタイル・パラメータを出力のための出力メタデータとして提供することと、
    を含み、
    前記アラインされていないマイクロブロックのコンテンツを検査することは、第1の繰り返し及び第2の繰り返しにおいて前記検査を実行することを含み、前記第1の繰り返しは、前記マクロブロックの識別をもたらし、前記第2の繰り返しは、前記マクロブロックの識別後に実行され、前記第1の繰り返しにおいて前記検査を実行することは、第1の機械論理マイクロブロック境界付け規則を適用して、前記マクロブロックの前記領域内のマイクロブロックを識別することを含み、前記第2の繰り返しにおいて前記検査を実行することは、第2の機械論理マイクロブロック境界付け規則を適用して、前記マクロブロックの前記領域内の前記第1の繰り返しにおいて識別されるマイクロブロックの数より多いマイクロブロックを識別することを含み、前記出力することは、前記1つ又は複数のキー値ペアをメタデータとして、文書処理のためのプロセス・インターフェース、検索エンジン検索のためのプロセス・インターフェース、及びフォーム再生成のためのプロセス・インターフェースからなる群から選択されるプロセス・インターフェースに出力することを含む、方法。
  12. コンピュータの情報処理により実行される方法であって、
    複数のオブジェクトを含む文書イメージを取得することと、
    前記文書イメージを処理して、ベースライン・フォント高さを指定するベースライン・スタイル・パラメータ値を識別することと、
    前記文書イメージのテキストの行の各単語について、前記ベースライン・スタイル・パラメータ値を参照して定められる相対スタイル・パラメータを識別することであって、前記相対スタイル・パラメータは、前記ベースライン・スタイル・パラメータ値の百分率値として、前記テキスト行のテキストの単語のフォント高さを指定する、識別することと、
    前記相対スタイル・パラメータを出力のための出力メタデータとして提供することと、
    前記出力メタデータをプロセス・インターフェースに出力することであって、前記プロセス・インターフェースは、前記テキスト行のテキストの単語のフォント高さを前記ベースライン・スタイル・パラメータ値の百分率として指定する前記相対スタイル・パラメータを検査するように構成されたフォーム再生成器であり、高さの変更を示す前記相対スタイル・パラメータに基づいて、前記フォーム再生成器により出力された出力文書におけるフォント高さ以外の前記単語の属性を変更する、出力することと、
    を含む、方法。
  13. 前記方法は、前記テキスト行より大きい前記文書イメージの領域におけるフォント高さ値のヒストグラムを提供することにより、前記ベースライン・スタイル・パラメータ値を求めることと、前記ヒストグラムの中央散布度に基づいて、前記ベースライン・スタイル・パラメータ値を選択することとを含む、請求項12に記載の方法。
  14. 請求項1から請求項13までのいずれか1項に記載の方法をコンピュータに実行させるコンピュータ・プログラム。
  15. 請求項14に記載のコンピュータ・プログラムを格納したコンピュータ可読ストレージ媒体。
  16. メモリと、
    前記メモリと通信する少なくとも1つのプロセッサと、
    前記メモリを介して前記少なくとも1つのプロセッサにより実行可能な、請求項1から請求項13までのいずれか1項に記載の方法を実行するためのプログラム命令と、
    を含む、システム。
JP2020524442A 2017-12-01 2018-11-23 ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム Active JP7289047B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/828,813 2017-12-01
US15/828,813 US10452904B2 (en) 2017-12-01 2017-12-01 Blockwise extraction of document metadata
PCT/IB2018/059250 WO2019106507A1 (en) 2017-12-01 2018-11-23 Blockwise extraction of document metadata

Publications (2)

Publication Number Publication Date
JP2021504781A JP2021504781A (ja) 2021-02-15
JP7289047B2 true JP7289047B2 (ja) 2023-06-09

Family

ID=66659299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020524442A Active JP7289047B2 (ja) 2017-12-01 2018-11-23 ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム

Country Status (6)

Country Link
US (2) US10452904B2 (ja)
JP (1) JP7289047B2 (ja)
CN (1) CN111512315B (ja)
DE (1) DE112018005616T5 (ja)
GB (1) GB2583290B (ja)
WO (1) WO2019106507A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10996277B2 (en) * 2016-09-29 2021-05-04 Cummins Inc. System and methods for accommodating loss of battery charge history
US10452904B2 (en) * 2017-12-01 2019-10-22 International Business Machines Corporation Blockwise extraction of document metadata
US10878234B1 (en) * 2018-11-20 2020-12-29 Amazon Technologies, Inc. Automated form understanding via layout agnostic identification of keys and corresponding values
US20200409982A1 (en) * 2019-06-25 2020-12-31 i2k Connect, LLC. Method And System For Hierarchical Classification Of Documents Using Class Scoring
US11308492B2 (en) * 2019-07-03 2022-04-19 Sap Se Anomaly and fraud detection with fake event detection using pixel intensity testing
US11704333B2 (en) * 2019-09-11 2023-07-18 Schlumberger Technology Corporation Form text extraction of key/value pairs
CN112364604A (zh) * 2020-10-26 2021-02-12 南京工程学院 一种xml文档的数字化方法和系统
US12056945B2 (en) * 2020-11-16 2024-08-06 Kyocera Document Solutions Inc. Method and system for extracting information from a document image
CN112949450B (zh) * 2021-02-25 2024-01-23 北京百度网讯科技有限公司 票据处理方法、装置、电子设备和存储介质
JP2022137608A (ja) * 2021-03-09 2022-09-22 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
CN112906686A (zh) * 2021-03-11 2021-06-04 北京小米移动软件有限公司 文字识别方法、装置、电子设备及存储介质
CN113971750A (zh) * 2021-10-19 2022-01-25 浙江诺诺网络科技有限公司 银行回单的关键信息提取方法、装置、设备及存储介质
US11922328B1 (en) * 2023-04-10 2024-03-05 Snowflake Inc. Generating machine-learning model for document extraction

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005302011A (ja) 2004-03-24 2005-10-27 Microsoft Corp スキャン・ドキュメントから電子フォームに取り込むための方法および装置
WO2007081147A1 (en) 2006-01-10 2007-07-19 Inzisoft Co., Ltd. Portable terminal having camera for recognizing name card and method thererof using the same
JP2009077145A (ja) 2007-09-20 2009-04-09 Canon Inc 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP2011150466A (ja) 2010-01-20 2011-08-04 Fujitsu Ltd 文字列認識装置、文字列認識プログラムおよび文字列認識方法
JP2012208589A (ja) 2011-03-29 2012-10-25 Hitachi Omron Terminal Solutions Corp 帳票認識装置、帳票認識方法およびそのためのプログラム
US20160217119A1 (en) 2015-01-26 2016-07-28 Adobe Systems Incorporated Recognition and population of form fields in an electronic document
JP2016170677A (ja) 2015-03-13 2016-09-23 オムロン株式会社 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2584973B2 (ja) * 1986-04-21 1997-02-26 株式会社リコー 文字認識装置における認識結果出力方法
WO2000052645A1 (fr) 1999-03-01 2000-09-08 Matsushita Electric Industrial Co., Ltd. Dispositif de traitement d'image document, procede d'extraction de titre de document et procede d'information d'etiquetage de document
US6910182B2 (en) 2000-01-31 2005-06-21 Xmlcities, Inc. Method and apparatus for generating structured documents for various presentations and the uses thereof
US8825682B2 (en) * 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
WO2007070010A1 (en) 2005-12-16 2007-06-21 Agency For Science, Technology And Research Improvements in electronic document analysis
US20070168382A1 (en) 2006-01-03 2007-07-19 Michael Tillberg Document analysis system for integration of paper records into a searchable electronic database
CN101329731A (zh) 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法
US8126837B2 (en) * 2008-09-23 2012-02-28 Stollman Jeff Methods and apparatus related to document processing based on a document type
US8504511B2 (en) * 2009-08-05 2013-08-06 Fujifilm Medical Systems Usa, Inc. System and method for providing localization of radiological information utilizing radiological domain ontology
US20130205202A1 (en) 2010-10-26 2013-08-08 Jun Xiao Transformation of a Document into Interactive Media Content
US8484245B2 (en) * 2011-02-08 2013-07-09 Xerox Corporation Large scale unsupervised hierarchical document categorization using ontological guidance
GB2489675A (en) * 2011-03-29 2012-10-10 Sony Corp Generating and viewing video highlights with field of view (FOV) information
US9372924B2 (en) * 2012-06-12 2016-06-21 International Business Machines Corporation Ontology driven dictionary generation and ambiguity resolution for natural language processing
US9471550B2 (en) * 2012-10-16 2016-10-18 Linkedin Corporation Method and apparatus for document conversion with font metrics adjustment for format compatibility
US9251413B2 (en) 2013-06-14 2016-02-02 Lexmark International Technology, SA Methods for automatic structured extraction of data in OCR documents having tabular data
US20160371238A1 (en) 2013-07-09 2016-12-22 Blueprint Sofware Systems Inc, Computing device and method for converting unstructured data to structured data
CN103678260A (zh) 2013-12-25 2014-03-26 南通大学 一种便携式电子名片簿及处理方法
US9374501B2 (en) 2014-03-04 2016-06-21 Xerox Corporation Methods and devices for form-independent registration of filled-out content
US20150324459A1 (en) * 2014-05-09 2015-11-12 Chegg, Inc. Method and apparatus to build a common classification system across multiple content entities
WO2015196469A1 (en) 2014-06-27 2015-12-30 Google Inc. Automated creative extension selection for content performance optimization
US20170098192A1 (en) 2015-10-02 2017-04-06 Adobe Systems Incorporated Content aware contract importation
US10489439B2 (en) 2016-04-14 2019-11-26 Xerox Corporation System and method for entity extraction from semi-structured text documents
US10452904B2 (en) 2017-12-01 2019-10-22 International Business Machines Corporation Blockwise extraction of document metadata
US10592738B2 (en) * 2017-12-01 2020-03-17 International Business Machines Corporation Cognitive document image digitalization

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005302011A (ja) 2004-03-24 2005-10-27 Microsoft Corp スキャン・ドキュメントから電子フォームに取り込むための方法および装置
WO2007081147A1 (en) 2006-01-10 2007-07-19 Inzisoft Co., Ltd. Portable terminal having camera for recognizing name card and method thererof using the same
JP2009077145A (ja) 2007-09-20 2009-04-09 Canon Inc 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP2011150466A (ja) 2010-01-20 2011-08-04 Fujitsu Ltd 文字列認識装置、文字列認識プログラムおよび文字列認識方法
JP2012208589A (ja) 2011-03-29 2012-10-25 Hitachi Omron Terminal Solutions Corp 帳票認識装置、帳票認識方法およびそのためのプログラム
US20160217119A1 (en) 2015-01-26 2016-07-28 Adobe Systems Incorporated Recognition and population of form fields in an electronic document
JP2016170677A (ja) 2015-03-13 2016-09-23 オムロン株式会社 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置

Also Published As

Publication number Publication date
DE112018005616T5 (de) 2020-07-09
GB202009894D0 (en) 2020-08-12
JP2021504781A (ja) 2021-02-15
US20190171875A1 (en) 2019-06-06
US20200026913A1 (en) 2020-01-23
US10977486B2 (en) 2021-04-13
US10452904B2 (en) 2019-10-22
WO2019106507A1 (en) 2019-06-06
CN111512315A (zh) 2020-08-07
GB2583290A (en) 2020-10-21
CN111512315B (zh) 2024-06-18
GB2583290B (en) 2022-03-16

Similar Documents

Publication Publication Date Title
JP7289047B2 (ja) ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム
JP7201299B2 (ja) コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム
US11244203B2 (en) Automated generation of structured training data from unstructured documents
RU2571373C2 (ru) Метод анализа тональности текстовых данных
US20180053096A1 (en) Linkage Prediction Through Similarity Analysis
US11042581B2 (en) Unstructured data clustering of information technology service delivery actions
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
US20160306852A1 (en) Answering natural language table queries through semantic table representation
AU2022223275B2 (en) Auditing citations in a textual document
CN111263943B (zh) 文档数字化中的语义规范化
JP2013105321A (ja) 文書処理装置、文書構成要素間の関係解析方法およびプログラム
US20230419710A1 (en) Information extraction from documents containing handwritten text
US11645452B2 (en) Performance characteristics of cartridge artifacts over text pattern constructs
US11176311B1 (en) Enhanced section detection using a combination of object detection with heuristics
US20220309276A1 (en) Automatically classifying heterogenous documents using machine learning techniques
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
US11163954B2 (en) Propagation of annotation metadata to overlapping annotations of synonymous type
US12027070B2 (en) Cognitive framework for identification of questions and answers
US11556591B2 (en) Tenant-isolated custom annotations for search within a public corpus
US20230368510A1 (en) Image grounding with modularized graph attentive networks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200501

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200602

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220428

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220817

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20221017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230510

R150 Certificate of patent or registration of utility model

Ref document number: 7289047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150