JP7239533B2 - 文書処理のための位置埋め込み - Google Patents

文書処理のための位置埋め込み Download PDF

Info

Publication number
JP7239533B2
JP7239533B2 JP2020169800A JP2020169800A JP7239533B2 JP 7239533 B2 JP7239533 B2 JP 7239533B2 JP 2020169800 A JP2020169800 A JP 2020169800A JP 2020169800 A JP2020169800 A JP 2020169800A JP 7239533 B2 JP7239533 B2 JP 7239533B2
Authority
JP
Japan
Prior art keywords
document
tokens
neural network
embeddings
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020169800A
Other languages
English (en)
Other versions
JP2021082266A (ja
Inventor
クリスティアン・ライスヴィヒ
シュテファン・クラウス・バウアー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SAP SE
Original Assignee
SAP SE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SAP SE filed Critical SAP SE
Publication of JP2021082266A publication Critical patent/JP2021082266A/ja
Application granted granted Critical
Publication of JP7239533B2 publication Critical patent/JP7239533B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

文書中の文字を識別するために光学文字認識(OCR)が使用されてきた。更に、応用OCR技術に基づいて文書画像内の文字および単語を識別するために機械学習アルゴリズムが開発されてきた。例えば、文字、単語または記号が文書画像から抽出できる。これらの技術は、しかしながら、記号に関連した位置情報を保持できない。例えば、これらの技術は、文書記号の配置を考慮できない。この位置情報の欠如は、文書の内容を解析する際の困難をもたらし得る。テキストおよび位置情報を含む文書データファイルさえ、位置情報が文書処理中に考慮されなければ不正確かつ/または間違った結果を生じ得る。
添付図面は本明細書に組み込まれて本明細書の一部を形成する。
一部の実施形態に係る、文書処理環境のブロック図を表す。 一部の実施形態に係る、文書処理フローのブロック図を表す。 一部の実施形態に係る、ネットワーク方程式例を表す。 一部の実施形態に係る、文書ラベルを生成するための方法を例示するフローチャートを表す。 一部の実施形態に係る、直列化技術例を表す。 様々な実施形態を実装するのに有用なコンピュータシステム例を表す。
図面において、同様の参照番号は全般的に、同一または類似の要素を示す。追加的に、全般的に、参照番号の最上位桁は、参照番号が最初に出現する図面を識別する。
本明細書に提供されるのは、位置埋め込みを使用して文書ラベルを生成するためのシステム、装置、デバイス、方法および/もしくはコンピュータプログラム製品実施形態、ならびに/またはその組合せおよび部分組合せである。本明細書に開示される実施形態は、文書画像を解析して、文書画像の記号またはトークンに対する位置パラメータの系列を識別できる。これらの位置パラメータは、文書画像中のトークンの配置情報を保持するために使用でき、そしてラベル生成中に更なる精度を提供できる。例えば、ラベル生成プロセスが直列化機械学習または人工知能形式を使用する場合、位置パラメータは、記号と共に埋め込まれて位置情報を保持できる。これらの埋め込みを使用すると、位置情報を使用してラベルが生成されて、加速学習プロセスによってより高精度を達成できる。
一実施形態において、ラベルシステムは、文書および/または文書画像を受信し、そして位置埋め込みを使用してラベルを生成できる。ラベルは、文書を処理する際に使用される文書および/または文書画像から特定の値および/または記号を識別できる。例えば、文書はインボイスであることができ、そして文書処理に基づいてインボイスの合計金額を表す記号またはトークンを識別するラベルを生成できる。ラベルは、文書からキー値ペア、固有表現および/または他の意味情報も識別できる。ラベルシステムは、これらのラベルを生成し、そして/または位置情報を使用して特定の記号またはトークンを識別して、更なる精度を提供できる。
位置埋め込み情報は文書解析を支援できる。例えば、或る情報は、単語の位置付けに基づいてパターンを生じることができる。実施形態例を例示するために、文書は、「名前」欄を持つインボイスであることができる。この欄に対する入力は「ジョン」であることができるが、様々な仕方で配置できる。例えば、入力は、欄ラベルの下に、欄ラベルの右に、または欄ラベルの上に配置され得る。これらの3つの構成が以下に例示される:
(1)
名前
ジョン
(2)
名前:ジョン
(3)
ジョン
名前
幾つかの文書の他にこれらの入力値の空間位置を解析することは、正しい値をより正確に識別およびラベル付けするのを支援できる。水平および/または垂直位置などの位置埋め込みを使用することによって、機械学習モデルが値をより良好に識別し、そして文書を解析できる。
しかしながら、一部の機械学習モデルに関する問題点が、直列化トークンの使用であり得る。例えば、一部の自然言語処理技術は、文書を文字または単語の1次元系列で解析し得る。この種類の処理は、2次元情報および/または文書中の単語もしくはトークン間の関係の喪失という結果になり得る。
このように、位置情報を保持するために、本明細書に記載されるラベルシステムは、位置埋め込みを行って位置情報を保持できる。位置埋め込みは、文書の単語またはトークンの位置に対応する2次元座標を保持できる。一部の実施形態において、ラベルシステムは、文書および/または文書画像をデータファイルとして受信できる。ラベルシステムは、文字、単語、および/または他の文字のグループ化を文書のトークンとして識別できる。例えば、ラベルシステムは、光学文字認識(OCR)プロセスを行って文字および/または単語を識別できる。一部の実施形態において、文書は、例えばHTML、Wordテキスト、プレーンテキスト、書式付きテキストおよび/または他のテキストデータファイルなど、書式付きテキストを含むデータファイルであることができる。この場合、ラベルシステムは、OCRプロセスをスキップし、文書データファイルから直接テキストおよび/または位置情報を識別できる。例えば、ラベルシステムはファイルリーダまたはコンバータを使用できる。
ラベルシステムは、第1のニューラルネットワークを使用して、文字および/または単語に対応する位置埋め込みを識別することもできる。第1のニューラルネットワークは位置埋め込みの系列を識別できる。この系列は、入力単語ベクトルの系列と組み合わされ、そして第2のニューラルネットワークに適用できる。第2のニューラルネットワークは、位置埋め込みベクトルとの単語ベクトルの組合せに基づいてラベルを生成できる。以下に更に説明されることになるように、第1のニューラルネットワークおよび第2のニューラルネットワークは、組合せニューラルネットワークのサブネットワークであることができる。同様に、第1および第2のニューラルネットワークは共同でまたは順次に訓練できる。
単語のベクトル値と位置埋め込みを組み合わせることによって、ラベルシステムは、ラベルを生成するときに位置情報を保持できる。ラベルシステムは、ラベルを生成するときに第2のニューラルネットワークにおいてこの位置情報を利用して、より正確な結果を生成できる。この構成は、第2のニューラルネットワークが1次元かつ/または順次フォーマット化を使用するときでさえ使用するための位置情報を更に保持できる。例えば、この構成は、テーブルからデータを抽出し、テーブル組織を保持できる。このように、文書の2次元情報は、1次元言語モデルまたはニューラルネットワークにおいてさえ保持および利用できる。この構成は、あまりコンピュータ資源集約的でなくすることもでき、かつ機械学習モデルを訓練するのがより効率的であることができる。このプロセスは、機械学習プロセスを加速し、かつより高精度をもたらすこともできる。追加的に、ニューラルネットワーク構成は、使用する層を少なくして、あまり資源集約的でない処理を可能にすることができる。このように、この構成は、文書の文字および/または単語を分類する一方で更に各文字または単語の位置埋め込みを取得するときに軽量かつ高速であることができる。
これらの特徴の様々な実施形態について、ここで対応する図に関して述べることになる。
図1Aは、一部の実施形態に係る、文書処理環境100Aのブロック図を表す。文書処理環境100Aは、ラベルシステム110、下流処理システム130および文書120を含むことができる。文書120は、手書きおよび/またはタイプされたテキストを含むことができる。文書120は、文書の画像、および/または識別できる文字を有する他の種類のデータファイルであることができる。文書120は、文字および/または文字のグループ化を含むことができる。一部の実施形態において、文書120は、異なるアルファベットを表す異なる言語および/または記号を含むことができる。
ラベルシステム110は、文書120を受信し、そして位置埋め込みおよび/またはラベルを生成して、文書120の値を識別できる。ラベルシステム110は、位置ベクトルネットワーク112、ラベルプロセッサ114および/またはラベルネットワーク116を含んで文書120を処理できる。ラベルプロセッサ114は、位置ベクトルネットワーク112および/またはラベルネットワーク116を管理できる。ラベルプロセッサ114は、ニューラルネットワークまたは機械学習アルゴリズムを実装するように構成される1つもしくは複数のプロセッサおよび/またはメモリを含むことができる。位置ベクトルネットワーク112は、文書120の文字、単語、記号および/またはトークンの位置埋め込みを識別するように構成されるニューラルネットワークおよび/または他の機械学習モデルであることができる。ラベルネットワーク116は、これらの位置埋め込みおよび/または単語ベクトル値を使用してラベルを生成できる。ラベルプロセッサ114は、このプロセスを制御できる。
一実施形態において、ラベルシステム110は、外部コンピュータからの送信など、外部源から文書120を受信でき、および/またはアクセス可能なメモリから文書120を取り出すことができる。ラベルプロセッサ114は、文書120を解析して文字および/または単語などの文字のグループ化を識別できる。ラベルプロセッサ114は、光学文字認識(OCR)プロセスを行って文字を識別できる。ラベルプロセッサ114のプログラミングに基づいて、ラベルプロセッサ114は、ラベリングのために文字群を記号またはトークンとして識別できる。例えば、ラベルプロセッサ114は単語をトークンとして識別できる。図2を参照しつつ更に説明されることになるように、ラベルプロセッサ114は、「wi」を入力単語ベクトルの系列として更に識別できる。例えば、各単語ベクトルは文書120の単語を表すことができる。
文書120のトークンを識別することに加えて、ラベルシステム110は、位置ベクトルネットワーク112を使用して、トークンに対応する位置埋め込みベクトルを識別できる。図2を参照しつつ更に説明されることになるように、位置ベクトルネットワーク112は、「xi」を位置埋め込みベクトルの系列として識別できる。一実施形態において、位置ベクトルネットワーク112は、2次元画像ベースまたは文字グリッドベースの畳み込みニューラルネットワークを使用して位置埋め込みを決定できる。例えば最後の層など、畳み込みニューラルネットワークの一層がベクトルの1次元系列へ直列化されて2次元位置埋め込みを決定できる。これらの位置埋め込みを識別するために、位置ベクトルネットワーク112は、文書120のピクセルを解析できる。位置ベクトルネットワーク112は、2次元位置埋め込みに対するエンコーダとして動作して、文書120のテキスト配置に応じて変化し得る複雑な2次元位置埋め込みを識別できる。
一実施形態において、位置ベクトルネットワーク112は、モートンまたはヒルベルト-ルベーグ曲線などの空間充填曲線を使用してピクセルおよび/または位置埋め込みをマッピングすることによって直列化を行うことができる。図4は、一部の実施形態に係る、直列化技術を表す。例えば、モートン曲線410および/またはヒルベルト-ルベーグ曲線420が使用されて2次元埋め込みの系列の直列化を生成できる。一部の実施形態において、ヒルベルト-ルベーグ曲線420は、より良好な空間局所性を提供できる。図が1つの特徴マップチャネルを表すことができるのに対して、各要素はベクトルに対応できる。ベクトルは位置埋め込みであることができる。以下に更に説明されることになるように、直列化または空間充填曲線が位置ベクトルネットワーク112の最後の符号化層として使用されて位置埋め込みを識別できる。
訓練または動作中に、位置ベクトルネットワーク112は、文書120の文字、単語および/またはトークンに対する位置埋め込みを識別するように動作できる。この場合、位置ベクトルネットワーク112の最後の特徴層は、パディングマスクを利用して、トークンの系列をマッピングするのに十分な量のピクセルを得ることができる。系列が入手可能な位置埋め込みの数より短い場合、位置ベクトルネットワーク112は、パディングマスクを使用して深層学習および/または自然言語処理を行うことができる。
位置埋め込みを識別した後に、ラベルプロセッサ114は、ラベルネットワーク116への入力として、入力単語ベクトルと位置埋め込みを組み合わせることができる。例えば、各入力単語ベクトル「wi」に対して位置埋め込みベクトル「xi」が識別できる。これらの位置埋め込みベクトルは、2次元文書の特定のトークンの位置についての情報を高次元空間へマッピングできる。次元は、入力単語ベクトルと同じまたは異なることができる。ラベルプロセッサ114は、入力単語ベクトルに位置埋め込みベクトルを組み合わせかつ/または付加し、そして組合せをラベルネットワーク116への入力として供給できる。このように、組合せは、ラベル生成プロセスのために2次元配置情報を保持できる。
ラベルネットワーク116は、出力としてラベルの系列を生成できるトランスフォーマニューラルネットワークであることができる。一部の実施形態において、ラベルネットワーク116は、トークンの空間局所性および/または空間秩序を保持しないまたはそれに依存しないニューラルネットワークであることができる。既に説明したように、ラベルネットワーク116は、各単語ベクトルと組み合わされる2次元埋め込みベクトルの系列を利用してラベルを生成できる。ラベルネットワーク116は、単語ベクトル値の他に位置埋め込みに基づいてラベルを識別するように既に訓練されていることができる。ラベルネットワーク116がトランスフォーマベースの系列タグ付け機械学習モデルである場合、(単語または文字などの)系列の各要素は、ラベルネットワーク116の各層において各他の要素と比較できる。このように、この比較は、入力系列の任意の要素間の順不同関係を識別できる。これらのトランスフォーマベースのシステムを使用するときに位置埋め込み情報を含むことによって、要素間の空間関係が保持できる。例えば、単語間の空間関係が保持できる。この情報は、正確なラベルを識別および生成するのを更に支援できる。
位置ベクトルネットワーク112およびラベルネットワーク116が別々のニューラルネットワークとして表されるが、一部の実施形態において、それらは単一ニューラルネットワークを使用して実装できる。同様に、位置ベクトルネットワーク112およびラベルネットワーク116は共同でまたは順次に訓練できる。ネットワークを別々に訓練するために、ラベルシステム110は、ラベルネットワーク116を訓練しつつ位置ベクトルネットワーク112をフリーズさせることができる。一部の実施形態において、位置ベクトルネットワーク112は、文書120に含まれる単語の系列を予測することによって事前に訓練できる。このように、ラベルシステム110は、位置埋め込みおよび/またはラベルを識別するように異なったサブネットワークを訓練または共同ニューラルネットワークを訓練できる。同様に、文書を解析するときに、ラベルシステム110はどちらの構成も使用できる。
ここで図2を参照すると、図2は、一部の実施形態に係る、ネットワーク方程式210、220および230を表す。これらのネットワーク方程式210~230は、ラベルシステム110、位置ベクトルネットワーク112およびラベルネットワーク116の動作を更に例示する。
位置ベクトルネットワーク112は、位置ベクトル方程式220を使用して位置埋め込みベクトル「xi」の系列を決定できる。この値は、文書120のi番目の単語に対する位置埋め込みベクトルであることができる。関数「g」は、2次元画像ベースまたは文字グリッドベースの2次元畳み込みエンコーダネットワークを表すことができる。既に記載したように、ネットワークの一層がベクトルの1次元系列へ直列化できる。例えば、位置ベクトルネットワーク112の最後の層が直列化されて位置埋め込みを生成できる。位置ベクトル方程式220では、関数のオペランドは、文書120のピクセルを表すことができる「Ikl」であることができる。オペランドは、文書中のk番目およびl番目のピクセルを表すことができる。ピクセルは、文書画像および/または文字グリッドの文字および/または単語ピクセルであることができる。ピクセルの各グループ化に関数を適用することによって、位置ベクトルネットワーク112は、文書120の各文字、単語またはトークンに対する位置埋め込みベクトルを決定できる。
ラベル予測方程式210および230は、ラベル「li」の系列を生成するために使用できる。ラベルネットワーク116は、ラベル予測方程式210および230を使用するトランスフォーマネットワークであることができる。ラベル予測方程式210および230は、関数「f」を使用してトランスフォーマネットワークを表すことができる。トランスフォーマネットワークのためのオペランドは、トークンベクトルおよび位置埋め込みベクトルの組合せであることができる。一部の実施形態において、トークンベクトルが単語ベクトル「wi」であることができる一方で、位置埋め込みベクトルは、位置ベクトルネットワーク112によって決定されるように「xi」であることができる。組合せは、文書120の各単語を表す各単語ベクトルに位置埋め込みベクトルを付加することによって生成できる。このように、ラベルネットワーク116は、位置ベクトルネットワーク112から出力される位置埋め込みを単語ベクトルと共に使用して、ラベル予測方程式210および230に示されるようにラベルを生成できる。
既に記載したように、位置ベクトルネットワーク112およびラベルネットワーク116は、ラベルプロセッサ114によって管理される別々のニューラルネットワークであることができる。ラベル予測方程式210および230は、位置ベクトルネットワーク112とラベルネットワーク116との間の相互作用を例示できる。例えば、ラベル予測方程式230に見られるように、ラベルネットワーク116は、位置ベクトルネットワーク112からの出力を組み込むことができる。一部の実施形態において、位置ベクトルネットワーク112およびラベルネットワーク116は、同じニューラルネットワークを使用して実装できる。この場合、共通のニューラルネットワークは、ラベル予測方程式230を実装し、そしてピクセル解析を行って位置埋め込みを識別できる。位置埋め込みは次いで、ラベルを生成するために使用できる。
図1Aに戻ると、ラベルシステム110がラベルを生成した後に、ラベルシステム110は、これらのラベルを記憶し、そして/または下流文書処理タスクにおいてラベルを利用できる。例えば、文書120のラベル付き版が、索引付けおよび/またはファイル保管のためにデータベースに記憶できる。ラベル付き値は下流プロセスにおいて抽出および/または更に操作できる。一部の実施形態において、ラベルシステム110は、ラベルおよび/または文書120を更なる処理のために下流処理システム130に送信できる。下流処理システム130は、ラベルシステム110の外部のシステムであることができ、かつ有線または無線接続を介して接続できる。
ラベル生成の実施形態例を例示するために、ここで図1Bについて述べることになる。図1Bは、一部の実施形態に係る、文書処理フロー100Bのブロック図を表す。文書120は文書画像のデータファイルであることができる。文書画像は、テキスト文字「インボイス」および「合計:100ドル」を持つインボイスを表すことができる。一実施形態において、ラベルシステム110は、光学文字認識(OCR)プロセスを適用して文書120の文字を識別できる。一部の実施形態において、文書120は、例えばHTML、Wordテキスト、プレーンテキスト、書式付きテキストおよび/または他のテキストデータファイルなど、書式付きテキストを含むデータファイルであることができる。この場合、ラベルシステム110は、OCRプロセスをスキップし、文書120から直接テキストおよび/または位置情報を識別できる。例えば、ラベルシステム110はファイルリーダまたはコンバータを使用できる。
ラベルシステム110は、文字のグループ化を識別することによって文書120から単語などのトークンを識別することもできる。例えば、ラベルシステム110は、ピクセル解析に基づく文字群間の空白スペースの識別に基づいて文字をグループ化できる。これらのグループ化は、ラベル生成プロセス中に使用される単語ベクトルに対応できる単語であることができる。例えば、単語「インボイス」を単語ベクトル「w1」として表すことができる一方で、「合計:」および「100ドル」は、それぞれ単語ベクトル「w2」および「w3」として表すことができる。これらの単語ベクトルに対して、ラベルシステム110は位置埋め込みベクトルを識別できる。
位置埋め込みベクトルを識別するために、ラベルシステム110は、OCRプロセスを適用して単語トークンの系列を得ることができる。これはトークン化文書140を生成できる。トークン化文書140は、Cチャネル、高さHおよび重さWを有することができる。ラベルプロセッサ114は、トークン化文書140を生成し、そして位置ベクトルネットワーク112にトークン化文書140を渡すことができる。位置ベクトルネットワーク112は、例えば深層畳み込みニューラルネットワークなどの2次元エンコーダネットワークであることができる。ニューラルネットワークはベクトル150を生成できる。ベクトル150は次いで、単語ベクトルと組み合わせるために直列化できる。ネットワークのエンコーダ特徴マップが、図4を参照しつつ描写および記載されるようにモートン曲線410またはヒルベルト-ルベーグ曲線420を使用して直列化できる。この解析は、各単語に対して行われて、対応する位置埋め込みベクトルを識別し、そして2次元埋め込みの系列を生成できる。直列化曲線は、要素の局所性を保持する方式でベクトル150を「アンロール」および/または特徴マップを平坦化できる。この局所性は、単語の相対距離を、および単語が他の単語から近いか遠いかを保持するのを支援できる。
ラベルプロセッサ114は次いで、単語ベクトル「wi」と直列化位置埋め込みベクトル「xi」を組み合わせることができる。一部の実施形態において、位置埋め込みベクトルは単語ベクトルに付加できる。これらの組合せ160は文書120の各トークンまたは単語に対して生成できる。例えば、トークン「100ドル」に対して、対応する組合せは「w3+x3」であることができる。組合せ160は次いで、ラベルネットワーク116に適用できる。既に記載したように、ラベルネットワーク116は、ラベルを識別するように構成されるトランスフォーマネットワークであることができる。
ラベルネットワーク116は、1つまたは複数のラベルを識別するように訓練できる。例えば、ラベルネットワーク116は、位置埋め込みを使用した訓練データに基づいてインボイスの合計金額を識別するように既に訓練されていることができる。このように、ラベルネットワーク116は、ラベルとして特定のクラス記述を示すラベル系列170を出力できる。合計金額が「w3」として識別される3番目の単語であれば、ラベルは、この3番目の単語を所望の合計金額クラスとして識別できる。ラベルシステム110は次いで、追加の文書処理のためにラベルを使用してこの値を抽出できる。一部の実施形態において、ラベリングは、値を抽出および/または文書120を分類するのを支援できる。ラベルネットワーク116の構成に応じて、他の単語には、該他の単語が所望された合計金額カテゴリ内に収まらないことを示すことができるラベル系列170中のヌルまたはゼロ値を与えることができる。一部の実施形態において、各単語には、各単語に対するカテゴリ化に応じてラベルを与えることができる。
ラベルシステム110は、フロー100Bを行って異なる言語への単語の翻訳を行うこともできる。例えば、ラベルシステム110は、言語が異なる長さの文字または単語を有する翻訳のために応用できる。ラベルシステム110は1対1翻訳を必要としなくてもよく、代わりに異なる言語間の異なる系列長に応用可能であることができる。生成されたラベルおよび/または抽出された情報は、文書120を翻訳するために使用できる。同様に、ラベル生成は、2次元文書を要約するのを支援できる。ラベルの識別は、キー値を識別することによって簡潔な概要を提供できる。
図3は、一部の実施形態に係る、文書ラベルを生成するための方法300を例示するフローチャートを表す。方法300は図1Aを参照しつつ記載されるものとするが、しかしながら、方法300はその実施形態例に限定されない。
一実施形態において、ラベルシステム110は、1つまたは複数のニューラルネットワークを使用して文書120を解析して、文書ラベルを識別できる。方法300がラベルシステム110を参照しつつ記載されるが、方法300は、例えば、図5を参照しつつ記載されるコンピュータシステム、および/またはハードウェア(例えば、回路網、専用ロジック、プログラマブルロジック、マイクロコードなど)、ソフトウェア(例えば、処理デバイス上で実行する命令)もしくはその組合せを備えることができる処理ロジックなど、任意のコンピューティングデバイス上で実行できる。
本明細書で提供される開示を行うために全てのステップが必要とされなくてもよいことが認識されるはずである。更に、当業者によって理解されるように、ステップの一部を同時に、または図3に示されるのとは異なる順に行うことができる。
305で、ラベルシステム110は、文書画像を受信できる。文書画像は文書120であることができる。ラベルシステム110は、コンピュータメモリ内の記憶場所から文書画像にアクセスでき、および/または外部コンピュータシステムから文書画像を受信できる。文書画像は、テキスト、文書および/または画像データファイルであることができる。文書画像は、手書きおよび/またはタイプされたテキストを含むことができる。
310で、ラベルシステム110は、文書画像の1つまたは複数のトークンを識別できる。1つまたは複数のトークンを識別するために、ラベルシステム110は光学文字認識(OCR)サービスを適用できる。OCRサービスは、文書画像中に検出される文字に対する、数値指標値へのマッピングを提供できる。OCRサービスは、ピクセル解析を行って、これらの文字値を決定できる。一部の実施形態において、OCRサービスは、トークンを文字のグループ化として識別できる。例えば、トークンは、単語、句、文、段落、または他の文字の組織であることができる。ラベルシステム110は、1つまたは複数の言語からトークンを識別できる。一部の言語では、例えば中国語など、文字はトークンとして特定できる。ラベルシステム110は、これらのトークンを識別して、1つまたは複数の単語ベクトル「wi」を生成できる。
一部の実施形態において、文書画像は、例えばHTML、Wordテキスト、プレーンテキスト、書式付きテキストおよび/または他のテキストデータファイルなど、書式付きテキストを含むデータファイルであることができる。この場合、ラベルシステム110は、OCRプロセスをスキップし、文書データファイルから直接テキストおよび/または位置情報を識別できる。例えば、ラベルシステム110はファイルリーダまたはコンバータを使用できる。ラベルシステム110は、文書データファイルから1つまたは複数のトークンを直接識別できる。
315で、ラベルシステム110は、文書画像に第1のニューラルネットワークを適用して、トークンに対応する位置埋め込みの系列を識別できる。第1のニューラルネットワークは位置ベクトルネットワーク112であることができる。既に上記したように、第1のニューラルネットワークは、文書画像の単語に対する位置埋め込みを識別できる。位置埋め込みは、2次元エンコーダネットワークまたは深層畳み込みニューラルネットワークによって行われるピクセル識別に基づいて生成できる。エンコーダによって生成される特徴マップが直列化されて、文書画像のトークンに対応する2次元位置埋め込みの系列を生成できる。直列化は、モートン曲線、ヒルベルト-ルベーグ曲線および/または他の直列化方法を使用して空間局所性を保持することによって行うことができる。この平坦化は位置埋め込みの系列を生成できる。
320で、ラベルシステム110は、1つまたは複数のトークンの、位置埋め込みの系列の対応する位置埋め込みとの1つまたは複数の組合せに第2のニューラルネットワークを適用できる。第2のニューラルネットワークはラベルネットワーク116であることができる。1つまたは複数のトークンの対応する位置埋め込みとの組合せは、位置埋め込みベクトルを文書画像から識別されるその対応するトークンに付加することを含むことができる。この構成は、1つまたは複数の組合せを、ラベルネットワーク116による解析のために1次元系列へ配置できる。ラベルネットワーク116は次いで、組合せの系列を処理して、ラベルネットワーク116の構成および事前の訓練に応じてラベルを識別できる。
325で、ラベルシステム110は、1つまたは複数の文書ラベルを生成できる。これらの文書ラベルは、1つまたは複数のトークンの対応する位置埋め込みとの組合せに基づいてラベルネットワーク116によって生成できる。文書ラベルは、文書画像からのデータ抽出のために、文書分類のために、および/または他の文書処理のために特定の値を識別できる。一部の実施形態において、文書ラベルが所望の値を識別できる。一部の実施形態において、文書画像の複数トークンに対して文書ラベルが提供されて追加の文書ラベリングを提供できる。ラベルシステム110は、これらのラベルを更なる文書処理のために文書画像と共に使用および/または記憶できる。一部の実施形態において、ラベルシステム110は、下流処理システム130に1つまたは複数の文書ラベルを送信できる。下流処理システム130は、1つまたは複数の文書ラベルを使用して文書画像に追加の処理を行う外部システムであることができる。
例えば、図5に図示されるコンピュータシステム500など、1つまたは複数の周知のコンピュータシステムを使用して様々な実施形態が実装できる。1つまたは複数のコンピュータシステム500は、例えば、本明細書で述べる実施形態の他にその組合せおよび部分組合せのいずれかを実装するために使用できる。
コンピュータシステム500は、プロセッサ504などの、1つまたは複数のプロセッサ(中央処理ユニットまたはCPUとも呼ばれる)を含むことができる。プロセッサ504は通信インフラストラクチャまたはバス506に接続できる。
コンピュータシステム500は、ユーザ入出力インタフェース502を通じて通信インフラストラクチャ506と通信できる、モニタ、キーボード、ポインティングデバイスなどといった、ユーザ入出力デバイス503も含むことができる。
プロセッサ504の1つまたは複数がグラフィック処理ユニット(GPU)であることができる。一実施形態において、GPUは、数学集約的なアプリケーションを処理するように設計された専用の電子回路であるプロセッサであることができる。GPUは、コンピュータグラフィックアプリケーション、画像、ビデオなどに共通の数学集約的なデータなどの大きなデータブロックの並列処理のために効率的である並列構造を有することができる
コンピュータシステム500は、ランダムアクセスメモリ(RAM)などの主または1次メモリ508も含むことができる。主メモリ508は1つまたは複数のレベルのキャッシュを含むことができる。主メモリ508は、制御ロジック(すなわち、コンピュータソフトウェア)および/またはデータが記憶されていることができる。
コンピュータシステム500は、1つまたは複数の2次記憶デバイスまたはメモリ510も含むことができる。2次メモリ510は、例えば、ハードディスクドライブ512および/またはリムーバブル記憶デバイスもしくはドライブ514を含むことができる。リムーバブル記憶ドライブ514は、フロッピーディスクドライブ、磁気テープドライブ、コンパクトディスクドライブ、光記憶デバイス、テープバックアップデバイスおよび/または任意の他の記憶デバイス/ドライブであることができる。
リムーバブル記憶ドライブ514はリムーバブル記憶ユニット518と対話できる。リムーバブル記憶ユニット518は、コンピュータソフトウェア(制御ロジック)および/またはデータが記憶されたコンピュータ使用可能または可読記憶デバイスを含むことができる。リムーバブル記憶ユニット518は、フロッピーディスク、磁気テープ、コンパクトディスク、DVD、光記憶ディスク、および任意の他のコンピュータデータ記憶デバイスであることができる。リムーバブル記憶ドライブ514はリムーバブル記憶ユニット518から読み取り、および/またはそれに書き込むことができる。
2次メモリ510は、コンピュータプログラムおよび/もしくは他の命令ならびに/またはデータがコンピュータシステム500によってアクセスされるのを許容するための他の手段、デバイス、部品、方便または他の手法を含むことができる。そのような手段、デバイス、部品、方便または他の手法は、例えば、リムーバブル記憶ユニット522およびインタフェース520を含むことができる。リムーバブル記憶ユニット522およびインタフェース520の例は、プログラムカートリッジおよびカートリッジインタフェース(ビデオゲームデバイスに見られるものなど)、リムーバブルメモリチップ(EPROMもしくはPROMなど)および関連ソケット、メモリスティックおよびUSBポート、メモリカードおよび関連メモリカードスロット、ならびに/または任意の他のリムーバブル記憶ユニットおよび関連インタフェースを含むことができる。
コンピュータシステム500は、通信またはネットワークインタフェース524を更に含むことができる。通信インタフェース524は、コンピュータシステム500が外部デバイス、外部ネットワーク、外部エンティティなど(参照番号528によって個々におよび集合的に参照される)の任意の組合せと通信および対話することを可能にすることができる。例えば、通信インタフェース524は、有線および/または無線(またはその組合せ)であることができ、かつLAN、WAN、インターネットなどの任意の組合せを含むことができる通信経路526を通じてコンピュータシステム500が外部または遠隔デバイス528と通信するのを許容することができる。制御ロジックおよび/またはデータは通信路526を介してコンピュータシステム500に/から送信できる。
コンピュータシステム500は、幾つかの非限定的な例を挙げると、携帯情報端末(PDA)、デスクトップワークステーション、ラップトップもしくはノートブックコンピュータ、ネットブック、タブレット、スマートフォン、スマートウォッチもしくは他のウェアラブル、電気器具、モノのインターネットの一部および/または組込システム、あるいはその任意の組合せのいずれかであることもできる。
コンピュータシステム500は、遠隔または分散クラウドコンピューティングソリューション;ローカルまたは構内ソフトウェア(「構内」クラウドベースのソリューション);「サービスとしての」モデル(例えば、サービスとしてのコンテンツ(CaaS)、サービスとしてのデジタルコンテンツ(DCaaS)、サービスとしてのソフトウェア(SaaS)、サービスとしての管理されたソフトウェア(MSaaS)、サービスとしてのプラットフォーム(PaaS)、サービスとしてのデスクトップ(DaaS)、サービスとしてのフレームワーク(FaaS)、サービスとしてのバックエンド(BaaS)、サービスとしてのモバイルバックエンド(MBaaS)、サービスとしてのインフラストラクチャ(IaaS)など);および/あるいは上記の例または他のサービスもしくは配信パラダイムの任意の組合せを含むハイブリッドモデル、を含むがこれに限定されない、任意の配信パラダイムを通して任意のアプリケーションおよび/またはデータにアクセスまたはホストする、クライアントまたはサーバであることができる。
コンピュータシステム500におけるいかなる適用可能なデータ構造、ファイル形式およびスキーマも、JavaScriptオブジェクト表記法(JSON)、拡張可能マークアップ言語(XML)、イェットアナザーマークアップ言語(YAML)、拡張可能ハイパーテキストマークアップ言語(XHTML)、ワイヤレスマークアップ言語(WML)、MessagePack、XMLユーザインタフェース言語(XUL)、または任意の他の機能類似表現単独もしくは組合せを含むがこれに限定されない標準から導出できる。代替的に、専有のデータ構造、形式またはスキーマを、排他的にか、公知のもしくはオープン標準と組み合わせてか、使用できる。
一部の実施形態において、制御ロジック(ソフトウェア)が記憶された有形の非一時的コンピュータ使用可能または可読媒体を備える有形の非一時的装置または製品を、コンピュータプログラム製品またはプログラム記憶デバイスと本明細書で称することもできる。これは、コンピュータシステム500、主メモリ508、2次メモリ510ならびにリムーバブル記憶ユニット518および522の他に、上記の任意の組合せを具現化する有形の製品を含むが、これに限定されない。そのような制御ロジックは、1つまたは複数のデータ処理デバイス(コンピュータシステム500など)によって実行されると、そのようなデータ処理デバイスを本明細書に記載されるように動作させることができる。
本開示に含まれる教示に基づいて、図5に図示されるもの以外のデータ処理デバイス、コンピュータシステムおよび/またはコンピュータアーキテクチャを使用して本開示の実施形態を作製および使用する仕方は当業者に明らかであろう。特に、実施形態は、本明細書に記載されるもの以外のソフトウェア、ハードウェアおよび/またはオペレーティングシステム実装例と共に動作できる。
いかなる他の欄でもなく、「発明を実施するための形態」欄が、請求項を解釈するために使用されると意図されることが認識されるはずである。他の欄は、発明者によって企図される全ての例証的な実施形態でなく1つまたは複数を明らかにすることができ、したがって、いかなる形であれ本開示または添付の請求項を限定するとは意図されない。
本開示は例証的な分野および応用のための例証的な実施形態を記載するが、本開示がそれに限定されないことが理解されるべきである。他の実施形態およびその変更例が可能であり、かつ本開示の範囲および趣旨内である。例えば、この段落の一般性を限定することなく、実施形態は、図に例示されかつ/または本明細書に記載されるソフトウェア、ハードウェア、ファームウェアおよび/またはエンティティに限定されない。更に、実施形態(本明細書に明示的に記載されるか否かを問わず)は、本明細書に記載される例を越えた分野および応用に有意な効用を有する。
実施形態は、指定された機能およびその関係の実装を例示する機能構築ブロックの支援により本明細書に記載されている。これらの機能構築ブロックの境界は、説明の便宜のために本明細書において任意に定められている。指定された機能および関係(またはその均等物)が適切に行われる限り、代替の境界を定めることができる。また、代替実施形態は、本明細書に記載されるものとは異なる順序付けを使用して機能ブロック、ステップ、動作、方法などを行うことができる。
本明細書における「1つの実施形態」、「一実施形態」、「実施形態例」または類似の句への参照は、記載された実施形態が特定の特徴、構造または特性を含むことができることを示すが、あらゆる実施形態が必ずしも同特定の特徴、構造または特性を含むことができるわけではない。その上、そのような句が必ずしも同じ実施形態を指しているわけではない。更に、特定の特徴、構造または特性が一実施形態に関連して記載されるとき、そのような特徴、構造または特性を他の実施形態へ組み込むことは、本明細書に明示的に言及または記載されるか否かを問わず当業者の知識の範囲内であろう。追加的に、一部の実施形態は、それらの派生と共に「結合される」および「接続される」という表現を使用して記載できる。これらの用語は必ずしも互いにとって同義語として意図されるわけではない。例えば、一部の実施形態は、2つ以上の要素が互いと直接物理または電気接触していることを示すために「接続される」および/または「結合される」という用語を使用して記載できる。「結合される」という用語は、しかしながら、2つ以上の要素が互いと直接接触していないが、それでも互いに協働または相互作用することも意味することができる。
本開示の広さおよび範囲は、上記の例証的な実施形態のいずれによっても限定されるべきでなく、以下の請求項およびそれらの均等物に従ってのみ定められるべきである。
100A 文書処理環境
100B 文書処理フロー
110 ラベルシステム
112 位置ベクトルネットワーク
114 ラベルプロセッサ
116 ラベルネットワーク
120 文書
130 下流処理システム
140 トークン化文書
150 ベクトル
160 組合せ
170 ラベル系列
210~230 ネットワーク方程式
410 モートン曲線
420 ヒルベルト-ルベーグ曲線
500 コンピュータシステム
502 ユーザ入出力インタフェース
503 ユーザ入出力デバイス
504 プロセッサ
506 通信インフラストラクチャ
508 主メモリ
510 2次メモリ
512 ハードディスクドライブ
514 リムーバブル記憶ドライブ
518 リムーバブル記憶ユニット
520 インタフェース
522 リムーバブル記憶ユニット
524 通信インタフェース
526 通信経路
528 外部デバイス、ネットワーク、エンティティ

Claims (20)

  1. 文書の文書画像を受信するステップと、
    前記文書画像の1つまたは複数のトークンを識別するステップと、
    前記文書画像に第1のニューラルネットワークを適用して、前記1つまたは複数のトークンに対応する位置埋め込みの系列を識別するステップであって、前記位置埋め込みの系列が、前記文書中の前記1つまたは複数のトークンの位置に対応する2次元座標を保持する、ステップと、
    前記1つまたは複数のトークン、前記位置埋め込みの系列のうちの対応する位置埋め込みとの1つまたは複数の組合せに第2のニューラルネットワークを適用するステップと、
    前記第2のニューラルネットワークを適用したことに応答して、1つまたは複数の文書ラベルを生成するステップであって、前記文書ラベルが、前記文書からキー値ペア、固有表現、および/または意味情報を識別する、ステップと、
    を含む、コンピュータ実装方法。
  2. 前記1つまたは複数のトークンが前記文書画像の単語である、請求項1に記載のコンピュータ実装方法。
  3. 前記位置埋め込みの系列が、前記1つまたは複数のトークンに対応するベクトルである、請求項1に記載のコンピュータ実装方法。
  4. 前記第1のニューラルネットワークを適用するステップが、
    空間充填曲線を適用して位置ベクトルを直列化して前記位置埋め込みの系列を識別するステップ、
    を更に含む、請求項1に記載のコンピュータ実装方法。
  5. 前記1つまたは複数の組合せが、位置埋め込みを前記1つまたは複数のトークンの対応するトークンに付加することによって生成される、請求項1に記載のコンピュータ実装方法。
  6. 前記1つまたは複数の組合せが、前記第2のニューラルネットワークによる解析のために1次元系列に配置される、請求項1に記載のコンピュータ実装方法。
  7. 前記第1のニューラルネットワークおよび前記第2のニューラルネットワークが単一ニューラルネットワークのサブネットワークである、請求項1に記載のコンピュータ実装方法。
  8. メモリと、
    前記メモリに結合され、かつ
    文書の文書画像を受信することと
    前記文書画像の1つまたは複数のトークンを識別することと
    前記文書画像に第1のニューラルネットワークを適用して、前記1つまたは複数のトークンに対応する位置埋め込みの系列を識別することであって、前記位置埋め込みの系列が、前記文書中の前記1つまたは複数のトークンの位置に対応する2次元座標を保持する、ことと
    前記1つまたは複数のトークン、前記位置埋め込みの系列のうちの対応する位置埋め込みとの1つまたは複数の組合せに第2のニューラルネットワークを適用することと
    前記第2のニューラルネットワークを適用したことに応答して、1つまたは複数の文書ラベルを生成することであって、前記文書ラベルが、前記文書からキー値ペア、固有表現、および/または意味情報を識別する、ことと
    を行うように構成される少なくとも1つのプロセッサと、
    を備える、システム。
  9. 前記1つまたは複数のトークンが前記文書画像の単語である、請求項8に記載のシステム。
  10. 前記位置埋め込みの系列が、前記1つまたは複数のトークンに対応するベクトルである、請求項8に記載のシステム。
  11. 前記第1のニューラルネットワークを適用するために、前記少なくとも1つのプロセッサが、
    空間充填曲線を適用して位置ベクトルを直列化して前記位置埋め込みの系列を識別するように更に構成される、請求項8に記載のシステム。
  12. 前記1つまたは複数の組合せが、位置埋め込みを前記1つまたは複数のトークンの対応するトークンに付加することによって生成される、請求項8に記載のシステム。
  13. 前記1つまたは複数の組合せが、前記第2のニューラルネットワークによる解析のために1次元系列に配置される、請求項8に記載のシステム。
  14. 前記第1のニューラルネットワークおよび前記第2のニューラルネットワークが単一ニューラルネットワークのサブネットワークである、請求項8に記載のシステム。
  15. 少なくとも1つのコンピューティングデバイスによって実行されると、前記少なくとも1つのコンピューティングデバイスに、
    文書の文書画像を受信することと、
    前記文書画像の1つまたは複数のトークンを識別することと、
    前記文書画像に第1のニューラルネットワークを適用して、前記1つまたは複数のトークンに対応する位置埋め込みの系列を識別することであって、前記位置埋め込みの系列が、前記文書中の前記1つまたは複数のトークンの位置に対応する2次元座標を保持する、ことと、
    前記1つまたは複数のトークン、前記位置埋め込みの系列のうちの対応する位置埋め込みとの1つまたは複数の組合せに第2のニューラルネットワークを適用することと、
    前記第2のニューラルネットワークを適用したことに応答して、1つまたは複数の文書ラベルを生成することであって、前記文書ラベルが、前記文書からキー値ペア、固有表現、および/または意味情報を識別する、ことと、
    を含む動作を行わせる命令が記憶された非一時的コンピュータ可読デバイス。
  16. 前記1つまたは複数のトークンが前記文書画像の単語である、請求項15に記載の非一時的コンピュータ可読デバイス。
  17. 前記位置埋め込みの系列が、前記1つまたは複数のトークンに対応するベクトルである、請求項15に記載の非一時的コンピュータ可読デバイス。
  18. 前記第1のニューラルネットワークを適用することが、
    空間充填曲線を適用して位置ベクトルを直列化して前記位置埋め込みの系列を識別すること、
    を更に含む、請求項15に記載の非一時的コンピュータ可読デバイス。
  19. 前記1つまたは複数の組合せが、位置埋め込みを前記1つまたは複数のトークンの対応するトークンに付加することによって生成される、請求項15に記載の非一時的コンピュータ可読デバイス。
  20. 前記1つまたは複数の組合せが、前記第2のニューラルネットワークによる解析のために1次元系列に配置される、請求項15に記載の非一時的コンピュータ可読デバイス。
JP2020169800A 2019-11-20 2020-10-07 文書処理のための位置埋め込み Active JP7239533B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/689,498 2019-11-20
US16/689,498 US11275934B2 (en) 2019-11-20 2019-11-20 Positional embeddings for document processing

Publications (2)

Publication Number Publication Date
JP2021082266A JP2021082266A (ja) 2021-05-27
JP7239533B2 true JP7239533B2 (ja) 2023-03-14

Family

ID=73172485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020169800A Active JP7239533B2 (ja) 2019-11-20 2020-10-07 文書処理のための位置埋め込み

Country Status (5)

Country Link
US (1) US11275934B2 (ja)
EP (1) EP3825920A1 (ja)
JP (1) JP7239533B2 (ja)
CN (1) CN112825129A (ja)
AU (1) AU2020239769A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435217B (zh) * 2021-06-25 2023-12-19 青岛海尔科技有限公司 语言测试处理方法、装置及电子设备
CN113807222B (zh) * 2021-09-07 2023-06-27 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
US20230123711A1 (en) * 2021-10-18 2023-04-20 Intuit Inc. Extracting key value pairs using positional coordinates
US12062214B2 (en) * 2021-12-27 2024-08-13 Advanced Micro Devices, Inc. Systems and method for generating Morton code
US11687575B1 (en) * 2022-01-10 2023-06-27 Sap Se Efficient search for combinations of matching entities given constraints
US20240303881A1 (en) * 2023-03-06 2024-09-12 Adobe Inc. Machine learning-based layout generation

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396540B1 (en) * 2012-03-28 2016-07-19 Emc Corporation Method and system for identifying anchors for fields using optical character recognition data
JP6000992B2 (ja) * 2014-01-24 2016-10-05 京セラドキュメントソリューションズ株式会社 文書ファイル生成装置及び文書ファイル生成方法
JP6588449B2 (ja) * 2014-01-31 2019-10-09 グーグル エルエルシー 文書のベクトル表現の生成
US10387531B1 (en) * 2015-08-18 2019-08-20 Google Llc Processing structured documents using convolutional neural networks
EP3179449B1 (en) * 2015-12-12 2022-04-27 Dassault Systèmes Multi-resolution image system
EP3507722A4 (en) * 2016-09-02 2020-03-18 FutureVault Inc. METHOD AND SYSTEM FOR AUTOMATED DOCUMENT FILING AND PROCESSING
US10970768B2 (en) * 2016-11-11 2021-04-06 Ebay Inc. Method, medium, and system for image text localization and comparison
CN106845440B (zh) * 2017-02-13 2020-04-10 山东万腾电子科技有限公司 一种增强现实图像处理方法及系统
US10963784B1 (en) * 2017-06-02 2021-03-30 Relativity Oda Llc Identifying portions of electronic communication documents using machine vision
US10515295B2 (en) * 2017-10-27 2019-12-24 Adobe Inc. Font recognition using triplet loss neural network training
CN108229299B (zh) * 2017-10-31 2021-02-26 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
US10936863B2 (en) * 2017-11-13 2021-03-02 Way2Vat Ltd. Systems and methods for neuronal visual-linguistic data retrieval from an imaged document
US11003856B2 (en) * 2018-02-22 2021-05-11 Google Llc Processing text using neural networks
CN110276342B (zh) * 2018-03-14 2023-04-18 台达电子工业股份有限公司 车牌辨识方法以及其系统
RU2701995C2 (ru) * 2018-03-23 2019-10-02 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое определение набора категорий для классификации документа
JP6791191B2 (ja) * 2018-04-02 2020-11-25 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
JP6874729B2 (ja) * 2018-04-02 2021-05-19 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
JP6784273B2 (ja) * 2018-04-02 2020-11-11 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
US11055557B2 (en) * 2018-04-05 2021-07-06 Walmart Apollo, Llc Automated extraction of product attributes from images
US10540579B2 (en) * 2018-05-18 2020-01-21 Sap Se Two-dimensional document processing
RU2699687C1 (ru) * 2018-06-18 2019-09-09 Общество с ограниченной ответственностью "Аби Продакшн" Обнаружение текстовых полей с использованием нейронных сетей
US11062164B2 (en) * 2018-07-19 2021-07-13 Leverton Holding Llc Text line normalization systems and methods
US10915788B2 (en) * 2018-09-06 2021-02-09 Sap Se Optical character recognition using end-to-end deep learning
JP7116309B2 (ja) * 2018-10-10 2022-08-10 富士通株式会社 コンテキスト情報生成方法、コンテキスト情報生成装置およびコンテキスト情報生成プログラム
CN111144399B (zh) * 2018-11-06 2024-03-05 富士通株式会社 处理图像的装置和方法
US11837002B2 (en) * 2019-02-01 2023-12-05 Intuit Inc. System and method for spatial encoding and feature generators for enhancing information extraction
CN109992752B (zh) * 2019-03-07 2023-10-20 平安科技(深圳)有限公司 合同文件的标签标记方法、装置、计算机装置及存储介质
US10402641B1 (en) * 2019-03-19 2019-09-03 Capital One Services, Llc Platform for document classification
US10846553B2 (en) * 2019-03-20 2020-11-24 Sap Se Recognizing typewritten and handwritten characters using end-to-end deep learning
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
CN109871909B (zh) * 2019-04-16 2021-10-01 京东方科技集团股份有限公司 图像识别方法及装置
CN109977956B (zh) * 2019-04-29 2022-11-18 腾讯科技(深圳)有限公司 一种图像处理方法、装置、电子设备以及存储介质
CN110956739A (zh) * 2019-05-09 2020-04-03 杭州睿琪软件有限公司 一种票据识别方法及装置
US11222286B2 (en) * 2019-06-14 2022-01-11 The Toronto-Dominion Bank Target document template generation
US11062133B2 (en) * 2019-06-24 2021-07-13 International Business Machines Corporation Data structure generation for tabular information in scanned images
CN110321560B (zh) * 2019-06-25 2021-10-01 北京邮电大学 一种从文本信息中确定位置信息的方法、装置及电子设备
RU2721189C1 (ru) * 2019-08-29 2020-05-18 Общество с ограниченной ответственностью "Аби Продакшн" Детектирование разделов таблиц в документах нейронными сетями с использованием глобального контекста документа
RU2723293C1 (ru) * 2019-08-29 2020-06-09 Общество с ограниченной ответственностью "Аби Продакшн" Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа
US11048867B2 (en) * 2019-09-06 2021-06-29 Wipro Limited System and method for extracting tabular data from a document
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
US11507593B2 (en) * 2019-10-22 2022-11-22 International Institute Of Information Technology, Hyderabad System and method for generating queryeable structured document from an unstructured document using machine learning
US11481605B2 (en) * 2019-10-25 2022-10-25 Servicenow Canada Inc. 2D document extractor
US11195008B2 (en) * 2019-10-30 2021-12-07 Bill.Com, Llc Electronic document data extraction
US11138424B2 (en) * 2019-11-20 2021-10-05 Sap Se Contextual vector grids for document processing
RU2737720C1 (ru) * 2019-11-20 2020-12-02 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение полей с помощью нейронных сетей без использования шаблонов

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jacob Devlin et al.,BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,arXiv,米国,Cornell University,2019年05月24日,http://arxiv.org/pdf/1810.04805v2.pdf
Timo I. Denk et al.,BERTgrid: Contextualized Embedding for 2D Document Representation and Understanding,arXiv,米国,Cornell University,2019年09月11日,https://arxiv.org/pdf/1909.04948v1.pdf

Also Published As

Publication number Publication date
EP3825920A1 (en) 2021-05-26
JP2021082266A (ja) 2021-05-27
CN112825129A (zh) 2021-05-21
US20210150201A1 (en) 2021-05-20
US11275934B2 (en) 2022-03-15
AU2020239769A1 (en) 2021-06-03

Similar Documents

Publication Publication Date Title
JP7239533B2 (ja) 文書処理のための位置埋め込み
US11244208B2 (en) Two-dimensional document processing
US10915788B2 (en) Optical character recognition using end-to-end deep learning
CN110765785B (zh) 基于神经网络的中英翻译方法、及其相关设备
CN111324743A (zh) 文本关系抽取的方法、装置、计算机设备及存储介质
WO2019084867A1 (zh) 自动回答方法、装置、存储介质及电子设备
US11327971B2 (en) Assertion-based question answering
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CA3119249C (en) Querying semantic data from unstructured documents
WO2024098533A1 (zh) 图文双向搜索方法、装置、设备及非易失性可读存储介质
US11557140B2 (en) Model-independent confidence values for extracted document information using a convolutional neural network
CN110795938A (zh) 文本序列分词方法、装置及存储介质
US9870351B2 (en) Annotating embedded tables
US10824808B2 (en) Robust key value extraction
US20230206522A1 (en) Training method for handwritten text image generation mode, electronic device and storage medium
Indrawan et al. A new method of Latin-to-balinese script transliteration based on noto sans balinese font and dictionary data structure
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
JP2023062150A (ja) 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
US11138424B2 (en) Contextual vector grids for document processing
CN118193668A (zh) 一种文本实体关系抽取的方法和装置
US11341760B2 (en) Form processing and analysis system
US20230281392A1 (en) Computer-readable recording medium storing computer program, machine learning method, and natural language processing apparatus
Ganai et al. Computationally efficient recognition of unconstrained handwritten Urdu script using BERT with vision transformers
US20240264827A1 (en) Apparatus, system, and method for providing question and answer service including source code explanation, and method for providing chatbot service using same
US20220215446A1 (en) Targeted document information extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220404

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230302

R150 Certificate of patent or registration of utility model

Ref document number: 7239533

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150