JP2023119593A

JP2023119593A - ドキュメント画像の認識方法、装置、記憶媒体、及び電子装置

Info

Publication number: JP2023119593A
Application number: JP2023022386A
Authority: JP
Inventors: ユィ・ユエチェン; Yuechen Yu; ジャン・チェンチュエン; Chengquan Zhang; ヤオ・クン; Kun Yao
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-16
Filing date: 2023-02-16
Publication date: 2023-08-28
Also published as: US20230260306A1; CN114519858A; CN114519858B; KR20230123449A

Abstract

【課題】ドキュメント画像の認識精度及び認識効率を高めて画像認識アルゴリズムの計算量を低減させるドキュメント画像の認識方法、装置、記憶媒体及び電子装置を提供する。
【解決手段】認識方法は、認識対象の、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含むドキュメント画像を、画像特徴マップに変換するステップと、画像特徴マップ、文字及びテキストボックスに基づいて、認識対象のドキュメント画像の第１の認識コンテンツを予測して取得するステップＳ１０４と、光学文字認識アルゴリズムを利用して認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得するステップＳ１０６と、第１の認識コンテンツと第２の認識コンテンツとをマッチングして、目的認識コンテンツを取得するステップＳ１０８と、を含む。
【選択図】図１

Description

本開示は人工知能認識の技術分野に関し、特に深層学習、コンピュータビジョンの技術分野に関し、画像処理、光学文字認識ＯＣＲシーンに適用され、具体的に、ドキュメント画像の認識方法、装置、記憶媒体、及び電子装置に関する。

従来技術におけるドキュメント画像の認識方法は主に、光学文字認識（ＯＣＲ）技術によって実現されるが、従来のドキュメント画像の認識方法は光学文字認識技術を利用して実現される場合、一般的に、複雑な画像処理フローを通過する必要があり、品質の悪いドキュメント画像、又は雑音が存在するドキュメント走査ファイル（即ち、弱いコントラスト、不均一な明暗分布、そしてぼやけた背景などの状況が存在するドキュメント画像又はドキュメント走査ファイル）に対して、当該認識方法は、認識の精度が低く、時間がかかる。

上記の問題について、いまだに効果的な解決策が提出されていない。

本開示はドキュメント画像の認識方法、装置、記憶媒体及び電子装置を提供する。

本開示の１つの側面によれば、認識対象のドキュメント画像を画像特徴マップに変換するステップであって、前記ドキュメント画像は少なくとも、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含むステップと、前記画像特徴マップ、前記文字及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得するステップと、光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得するステップと、前記第１の認識コンテンツと前記第２の認識コンテンツとをマッチングして、目的認識コンテンツを取得するステップと、を含むドキュメント画像の認識方法を提供する。

本開示の他の側面によれば、認識対象のドキュメント画像を画像特徴マップに変換する変換モジュールであって、前記ドキュメント画像は少なくとも、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含む変換モジュールと、前記画像特徴マップ、前記文字及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得する第１の予測モジュールと、光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得する第２の予測モジュールと、前記第１の認識コンテンツと前記第２の認識コンテンツとをマッチングして、目的認識コンテンツを取得するマッチングモジュールと、を備えるドキュメント画像の認識装置を提供する。

本開示の他の側面によれば、電子装置を提供し、少なくとも１つのプロセッサーと、前記少なくとも１つのプロセッサーに通信可能に接続されるメモリとを備え、前記メモリには、前記少なくとも１つのプロセッサーにより実行可能な指令が記憶され、前記指令が前記少なくとも１つのプロセッサーにより実行されることで、前記少なくとも１つのプロセッサーは上記何れか１つのドキュメント画像の認識方法を実行できる。

本開示の他の側面によれば、コンピュータに、上記何れか１つのドキュメント画像の認識方法を実行させるコンピュータ指令が記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

本開示の他の側面によれば、プロセッサーにより実行されると、上記何れか１つのドキュメント画像の認識方法を実現するコンピュータプログラムを備えるコンピュータプログラム製品を提供する。

本開示の他の側面によれば、前記の電子装置を備えるドキュメント画像の認識製品を提供する。

本開示の実施例において、認識対象のドキュメント画像を画像特徴マップに変換するステップであって、前記ドキュメント画像は少なくとも、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含むステップと、前記画像特徴マップ、前記文字及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得するステップと、光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得するステップと、前記第１の認識コンテンツと前記第２の認識コンテンツとをマッチングして、目的認識コンテンツを取得するステップと、を実行することで、ドキュメント画像におけるコンテンツ情報を正確に認識するという目的を達成し、ドキュメント画像の認識精度及び認識効率を高めて、画像認識アルゴリズムの計算量を低減させるという技術効果を実現し、関連技術におけるドキュメント画像認識方法が、品質の悪いドキュメント画像に対して認識精度が低く、且つアルゴリズムの計算量が大きいという技術的課題を解決する。

ここで、当該部分に記載の内容は、本開示の実施例の主な特徴又は重要特徴を意味するのではなく、本開示の範囲も限定しない。以下の明細書によって、本開示の他の特徴は分かりやすくなる。

図面は本開示に対する限定を構成するのではなく、当該解決策をよりよく理解するためのものである。

本開示の第１の実施例によるドキュメント画像の認識方法のフローチャートである。本開示の第１の実施例による選択的なドキュメント画像の認識方法のフローチャートである。本開示の第１の実施例による他の選択的なドキュメント画像の認識方法のフローチャートである。本開示の第１の実施例による他の選択的なドキュメント画像の認識方法のフローチャートである。本開示の第１の実施例による他の選択的なドキュメント画像の認識方法のフローチャートである。本開示の第２の実施例によるドキュメント画像の認識装置の構成概略図である。本開示の実施例のドキュメント画像の認識方法を実現するための電子装置のブロック図である。

以下、図面を参照しながら、本開示の例示的な実施例を説明し、理解できるように、本開示の実施例の各種の細部を含み、それらは単に例示的なものである。従って、当業者であれば認識できるように、本開示の範囲及び精神を逸脱することなく、ここに記載の実施例に対して各種の変更及び修正を行ってもよい。同様に、明瞭及び簡潔のために、以下の記載は公知機能及び構成に対する記載を省略する。

ここで、本開示の明細書、特許請求の範囲及び上記図面における「第１」、「第２」などの用語は必ずしも特定の順序又は前後順を記載するためではなく、類似のオブジェクトを区別するためのものである。理解すべきことは、ここに記載の本開示の実施例は、ここに図示又は記載のもの以外の順序で実施されるように、このようなデータは適宜な場合、互いに交換されてもよい。また、用語である「含む」、「具備」及びそれらの任意の変形は、非排他的な包含を含むように意図され、例えば、一連のステップ又はユニットを含む過程、方法、システム、製品又は装置は、明らかに挙げられたステップ又はユニットに限定されず、明らかに挙げられていないか、又はこれらの過程、方法、製品又は装置の固有の他のステップ又はユニットを含んでもよい。

実施例１
ネットワークの情報化及び画像認識処理技術の発展に連れて、光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）技術は、教育、金融、医療、交通及び保険などの各種産業で何れも大幅な注目及び応用を取得し、オフィスエレクトロニック程度の向上に伴って、もともと紙の形態で保存されていたドキュメント資料はだんだんスキャナーなどのエレクトロニック手段によって、画像形態で保存されるように変換される。特定の記録画像を検索し又は呼び出すために、映像及び映像コンテンツデータに対してインデックスを確立する必要がある。インデックスを確立するために、一般的に、光学文字認識（ＯＣＲ）技術を利用して、走査して得られた映像に対して分類処理を行ってから、認識してそのコンテンツデータを取得する。

業界の主流である画像処理アルゴリズムのドキュメント画像認識の解決策は、一般的に複雑な画像処理フローを利用して解决し、品質の悪いドキュメント画像又は雑音が存在する走査ファイル（即ち、弱いコントラスト、不均一な明暗分布、そしてぼやけた背景などの状況が存在するドキュメント画像又はドキュメント走査ファイル）に対して、認識精度が低く、時間がかかる。

従来の光学文字認識（ＯＣＲ）技術を利用してドキュメント画像認識（例えばテーブル認識）を行う場合、光学文字認識技術を利用してドキュメント画像認識を行う具体的な実現過程は、即ち、まず、ドキュメント画像に対して二値化処理を行って、画像に対して傾き補正処理及び画像分割処理などを行うことで、ドキュメント画像における単一の文字を抽出し、そして、従来の文字認識ツールを呼び出し、又は汎用のニューラルネットワーク分類器を訓練することで、文字を認識することを含む。

具体的に、まず、ドキュメント画像に対して二値化処理を行い、上記二値化処理方法は主にグローバル閾値法、ローカル閾値法、領域拡張の方法、分水界アルゴリズム、最小記述長法、マルコフ確率場による方法などを含む。そして、分割処理後のドキュメント画像に対して傾き補正処理を行い、上記傾き補正処理の方法は主に、投影図による方法、Ｈｏｕｇｈ変換による方法、最近傍法及びベクトル化方法などを含む。そして、傾き補正処理後のドキュメント画像に対して分割処理を行って、ドキュメント画像における単一の文字を抽出し、従来の文字認識ツールを呼び出し、又は汎用のニューラルネットワーク分類器を訓練することで、文字を認識する。

これから分かるように、上記方法は複雑な画像処理フローによって実現され、往々にして、一定の弊害が存在する。例えば、上記グローバル閾値法は、画像の階調情報のみを配慮し、画像における空間情報を無視し、全ての画素に対して同一の階調閾値を利用し、輝度がどこでも均一であり、且つ画像ヒストグラムが明らかなダブルピークを有する理想の状況のみに適し、画像には明らかな階調差が存在しない場合、又は各物体の階調値範囲が大きな重複を有する場合、一般的に、望ましい効果を取得し難い。上記ローカル閾値法は、グローバル閾値法に存在する、輝度分布が不均一であるという欠陥を克服できるが、ウィンドウサイズの設定という問題が存在し、即ち、小さすぎるウィンドウであれば、ラインの破断を招致しやすく、大きすぎるウィンドウであれば、画像は、あるべき局所細部を失う恐れがある。上記投影法は、各傾斜角の投影形状を計算する必要があり、傾斜推定の精度を高くしようとすると、この方法の計算量は非常に大きくなり、また、当該方法は一般的に、文字ドキュメントの傾き補正に適用され、複雑な構成を有するテーブル補正に対して、当該方法の効果が悪くい。最近傍法は、多くの近隣を有する構成部分に対して、非常に時間がかかってしまい、総体的なパフォーマンスが理想的ではない。ベクトル化アルゴリズムは、ラスター画像の各画素を直接処理し、記憶量が大きく、その補正結果のよしあし、アルゴリズムのパフォーマンス及び画像処理の時間、空間コストは何れもベクトルプリミティブの選択に大きく依存する。上記Ｈｏｕｇｈ変換方法は、計算量が大きく、非常に時間がかかってしまい、直線の始点及び終点を決定し難く、プレーンテキストドキュメントのみに対して効果があり、グラフを有する複雑な構成のドキュメント画像に対しては、画像及びテーブルの干渉のため、望ましい結果を取得できないため、具体的な工程実践における応用は制限される。また、上記方法は、品質の悪いドキュメント画像、又は雑音が存在するドキュメント走査ファイル（即ち、弱いコントラスト、不均一な明暗分布、そしてぼやけた背景などの状況が存在するドキュメント画像又はドキュメント走査ファイル）に対して、認識の精度が低く、時間がかかる。

上記問題に基づいて、本開示の実施例はドキュメント画像の認識方法の実施例を提供する。ここで、図面のフローチャートで示されるステップは、例えば、コンピュータ実行可能な１組の指令はコンピュータシステムで実行され、フローチャートはロジック順序を示すが、一部の場合、ここと異なる順序で、示され又は記載されるステップを実行してもよい。

図１は本開示の第１の実施例によるドキュメント画像の認識方法のフローチャートである。図１に示すように、当該方法は以下のステップＳ１０２、Ｓ１０４、Ｓ１０６、Ｓ１０８を含む。

ステップＳ１０２：認識対象のドキュメント画像を画像特徴マップに変換し、上記ドキュメント画像は少なくとも、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含む。

ステップＳ１０４：上記画像特徴マップ、上記文字及び上記テキストボックスに基づいて、上記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得する。

ステップＳ１０６：光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得する。

ステップＳ１０８：上記第１の認識コンテンツと上記第２の認識コンテンツとをマッチングして、目的認識コンテンツを取得する。

選択的には、畳み込みニューラルネットワークアルゴリズムを利用して、認識対象のドキュメント画像を画像特徴マップに変換し、即ち、認識対象のドキュメント画像をスイッチニューラルネットワークモデルに入力し、上記画像特徴マップを取得し、上記畳み込みニューラルネットワークアルゴリズムは、ＲｅｓＮｅｔ、ＶＧＧ、ＭｏｂｉｌｅＮｅｔなどのアルゴリズムを含んでもよいが、これらに限定されていない。

選択的には、上記第１の認識コンテンツは、予測方法により認識された上記ドキュメント画像における文字認識コンテンツ、及び文字領域の位置情報を含んでもよいが、これらに限定されず、上記第２の認識コンテンツは、光学文字認識（ＯＣＲ）アルゴリズムにより認識された上記ドキュメント画像における文字認識コンテンツ、及び文字領域の位置情報を含んでもよいが、これらに限定されず、上記第１の認識コンテンツと上記第２の認識コンテンツとをマッチングするステップは、上記第１の認識コンテンツと上記第２の認識コンテンツにおける文字認識コンテンツ、及び文字領域の位置情報をマッチングするステップを含んでもよいが、これらに限定されていない。

ここで、本開示の実施例のドキュメント画像の認識方法は主に、ドキュメント及び／又はグラフにおけるテキスト情報を正確に認識するために用いられるため、上記ドキュメント画像は少なくとも、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含む。

本開示の実施例において、認識対象のドキュメント画像を画像特徴マップに変換するステップであって、上記ドキュメント画像は少なくとも、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含むステップと、上記画像特徴マップ、上記文字及び上記テキストボックスに基づいて、上記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得するステップと、光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得するステップと、上記第１の認識コンテンツと上記第２の認識コンテンツとをマッチングして、目的認識コンテンツを取得するステップと、を実行することで、ドキュメント画像におけるコンテンツ情報を正確に認識するという目的を達成し、ドキュメント画像の認識精度及び認識効率を高めて、画像認識アルゴリズムの計算量を低減させるという技術効果を実現し、関連技術におけるドキュメント画像認識方法が、品質の悪いドキュメント画像に対して認識精度が低く、且つアルゴリズムの計算量が大きいという技術的課題を解決する。

選択的な実施例として、図２は本開示の第１の実施例による選択的なドキュメント画像の認識方法のフローチャートである。図２に示すように、上記画像特徴マップ、上記文字及び上記テキストボックスに基づいて、上記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得するステップは、以下のステップＳ２０２、Ｓ２０４、Ｓ２０６、Ｓ２０８を含む。

ステップＳ２０２：各上記テキストボックスのサイズに基づいて、上記画像特徴マップを複数の特徴サブマップに区画する。

ステップＳ２０４：上記文字における自然言語単語に対応する第１のベクトルを決定し、異なる上記文字の自然言語単語は、長さが同じで一定であるベクトルに変換される。

ステップＳ２０６：上記テキストボックスの第１の座標情報に対応する第２のベクトル、及び上記文字の第２の座標情報に対応する第３のベクトルをそれぞれ決定し、上記第２のベクトルと第３のベクトルは、ベクトル長さが同じで一定である。

ステップＳ２０８：ドキュメント構成復号器を利用して上記複数の特徴サブマップ、上記第１のベクトル、上記第２のベクトル及び上記第３のベクトルに対して復号処理を行って、上記第１の認識コンテンツを取得する。

選択的には、テキストボックスの位置情報に基づいて各上記テキストボックスのサイズを決定し、各上記テキストボックスのサイズに基づいて、上記画像特徴マップを複数の特徴サブマップに区画し、各上記テキストボックスは１つの特徴サブマップに対応し、各特徴サブマップのサイズは、対応するテキストボックスのサイズと同じである。

選択的には、上記画像特徴マップ（即ち、認識対象のドキュメント画像の画像全体の特徴マップ）を取得した後、上記画像特徴マップをＲＯＩ畳み込み層に入力することで、上記認識対象のドキュメント画像における各上記テキストボックスに対応する特徴サブマップを取得し、上記ＲＯＩ畳み込み層は、各上記テキストボックスにおける主な特徴（例えば、文字特徴）を抽出し、テキストボックスと同一サイズを有する特徴サブマップを生成する。

選択的には、各文字をＷｏｒｄ２Ｖｅｃモデルに入力して、上記各文字における自然言語単語を認識し、上記文字における自然言語単語は、長さが同じで一定であるベクトルに変換されることで、上記第１のベクトルを取得し、これによって、上記各文字をバッチの形で処理し、上記第１の認識コンテンツを取得してもよいが、これに限定されていない。

選択的には、上記テキストボックスの第１の座標情報及び上記文字の第２の座標情報（即ち、［ｘ１、ｙ１、ｘ２、ｙ２］）を取得し、上記第１の座標情報及び上記第２の座標情報をＷｏｒｄ２Ｖｅｃモデルにそれぞれ入力することで、上記第１の座標情報及び上記第２の座標情報をベクトル長さが同じで一定であるベクトル（即ち、上記第２のベクトル及び上記第３のベクトル）にそれぞれ変換してもよいが、これに限定されていない。

ここで、上記複数の特徴サブマップ、上記第１のベクトル、上記第２のベクトル及び上記第３のベクトルは異なる複数のモーダル特徴に対応し、上記ドキュメント構成復号器によって上記異なる複数のモーダル特徴に対して復号処理を行って、上記第１の認識コンテンツを取得することで、テキスト情報特徴を突出させ、認識対象のドキュメント画像における第１の認識コンテンツをより正確に認識するという目的を達成する。

選択的な実施例として、図３は本開示の第１の実施例による他の選択的なドキュメント画像の認識方法のフローチャートである。図３に示すように、上記ドキュメント構成復号器を利用して上記複数の特徴サブマップ、上記第１のベクトル、上記第２のベクトル及び上記第３のベクトルに対して復号処理を行って、上記第１の認識コンテンツを取得するステップは以下のステップＳ３０２、Ｓ３０４、Ｓ３０６、Ｓ３０８を含む。

ステップＳ３０２：上記複数の特徴サブマップ、上記第１のベクトル、上記第２のベクトル及び上記第３のベクトルをマルチモーダル変換モデルに入力して、上記マルチモーダル変換モデルから対応して出力されたマルチモーダル特徴を取得する。

ステップＳ３０４：上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像のテーブル特徴シーケンスを取得する。

ステップＳ３０６：リンク関係予測アルゴリズムを利用して上記テーブル特徴シーケンスと上記テキスト情報における文字行と間のリンク関係を予測し、予測リンク行列を取得する。

ステップＳ３０８：上記テーブル特徴シーケンス及び上記予測リンク行列に基づいて上記第１の認識コンテンツを決定する。

選択的には、上記マルチモーダル変換モデルは、多層自己注意ネットワークを有するＴｒａｎｓｆｏｒｍｅｒモデルであってもよいが、これに限定されず、上記Ｔｒａｎｓｆｏｒｍｅｒは注意メカニズムを利用してモデル訓練速度を向上させる。

選択的には、上記マルチモーダル変換モデルは、異なるモーダルの情報を同一特徴空間に変換し、融和してマルチモーダル特徴を取得し、即ち、上記マルチモーダル変換モデルによって、上記異なる複数のモーダル特徴を同一特徴空間に変換してから、上記異なる複数のモーダル特徴に対して融和処理を行って、上記異なる複数のモーダル特徴を、マルチモーダル情報を同時に具備する１つの特徴（即ち、上記マルチモーダル特徴）に融和する。

選択的には、上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像のテーブル特徴シーケンス、例えば、「＜ｔｈｅａｄ＞＜ｔｒ＞＜ｔｄ＞＜／ｔｄ＞＜／ｔｒ＞＜／ｔｈｅａｄ＞」などのシーケンスを取得する。

選択的には、上記リンク関係予測アルゴリズムはｌｉｎｋｉｎｇアルゴリズムであってもよいが、これに限定されず、例えば、図４に示すように、ｌｉｎｋｉｎｇブランチによって、テーブル特徴シーケンス＜ｔｄ＞＜／ｔｄ＞と上記テキスト情報における文字行との間のリンク関係を予測し、予測リンク行列を取得し、上記予測リンク行列は、上記テーブル特徴シーケンスの、上記認識対象のドキュメント画像での位置情報を決定する。

ここで、上記複数の特徴サブマップ、上記第１のベクトル、上記第２のベクトル及び上記第３のベクトルは異なる複数のモーダル特徴に対応し、上記複数の特徴サブマップ、上記第１のベクトル、上記第２のベクトル及び上記第３のベクトルをマルチモーダル変換モデルに入力して、上記マルチモーダル変換モデルから対応して出力されたマルチモーダル特徴を取得し、上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像のテーブル特徴シーケンスを取得し、リンク関係予測アルゴリズムを利用して上記テーブル特徴シーケンスと上記テキスト情報における文字行と間のリンク関係を予測し、予測リンク行列を取得し、上記テーブル特徴シーケンス及び上記予測リンク行列に基づいて上記第１の認識コンテンツを決定することで、ドキュメント画像におけるテキスト情報特徴を突出させ、認識対象のドキュメント画像テキスト情報及び位置情報をより正確に認識するという目的を達成できる。

選択的な実施例として、図５は本開示の第１の実施例による他の選択的なドキュメント画像の認識方法のフローチャートである。図５に示すように、上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像のテーブル特徴シーケンスを取得するステップは以下のステップＳ５０２、Ｓ５０４、Ｓ５０６を含む。

ステップＳ５０２：上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像における各テーブルのテーブルタグを取得する。

ステップＳ５０４：上記テーブルタグを上記テーブル特徴シーケンスに変換する。
ステップＳ５０６：上記テーブル特徴シーケンスを出力して表示する。

選択的には、上記モーダル変換モデルから出力されたマルチモーダル特徴を取り出し、上記ドキュメント構成復号器に入力し、上記ドキュメント構成復号器はドキュメント画像における各テーブルのテーブルタグ、例えば「＜ｔｄ＞」を順に出力し、上記テーブルタグを上記テーブル特徴シーケンスに変換し、最後に、ドキュメント画像における各テーブルの特徴シーケンスを出力して表示する。

選択的な実施例において、上記認識対象のドキュメント画像を画像特徴マップに変換するステップは、
畳み込みニューラルネットワークモデルを利用して上記認識対象のドキュメント画像を上記画像特徴マップに変換するステップを含む。

選択的には、上記畳み込みニューラルネットワークモデルは、ＲｅｓＮｅｔ、ＶＧＧ、ＭｏｂｉｌｅＮｅｔなどの畳み込みニューラルネットワークモデルであってもよいが、これらに限定されていない。

ここで、畳み込みニューラルネットワークモデルを利用して上記認識対象のドキュメント画像を上記画像特徴マップに変換することで、画像特徴マップ認識の精度を向上させるという目的を達成できる。

選択的な実施例において、上記光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得するステップは、
上記光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、各上記テキストボックスの第１の情報及び各上記文字の第２の情報を取得するステップを含む。

選択的には、上記第１の情報及び第２の情報は何れもテキスト情報及び座標情報を含む。

ここで、本開示の実施例において、光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得する場合、認識対象のテキスト画像におけるテキストボックス及び文字におけるテキスト情報を取得するだけではなく、上記テキスト情報に対応する位置情報も取得し、テキスト情報と位置情報とを組み合せることで、ドキュメント画像におけるテキスト情報認識の精度を高めるという目的を達成する。

ここで、本実施例の選択的な又は好ましい実施形態について、上記ドキュメント画像の認識方法の実施例における関連記載を参照すればよく、ここでは、説明を省略する。本開示の技術案において、係わるユーザー個人情報の取得、記憶及び応用などは何れも関連法律法規の規定に合って、且つ公序良俗に違反していない。

実施例２
本開示の実施例によれば、上記ドキュメント画像の認識方法を実施する装置の実施例をさらに提供し、図６は本開示の第２の実施例によるドキュメント画像の認識装置の構成概略図であり、図６に示すように、上記ドキュメント画像の認識装置は、
認識対象のドキュメント画像を画像特徴マップに変換する変換モジュールであって、上記ドキュメント画像は少なくとも、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含む変換モジュール６００と、
上記画像特徴マップ、上記文字及び上記テキストボックスに基づいて、上記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得する第１の予測モジュール６０２と、
光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得する第２の予測モジュール６０４と、
上記第１の認識コンテンツと上記第２の認識コンテンツとをマッチングして、目的認識コンテンツを取得するマッチングモジュール６０６と、を備える。

本開示の実施例において、認識対象のドキュメント画像を画像特徴マップに変換する変換モジュールであって、上記ドキュメント画像は少なくとも、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含む変換モジュール６００と、上記画像特徴マップ、上記文字及び上記テキストボックスに基づいて、上記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得する第１の予測モジュール６０２と、光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得する第２の予測モジュール６０４と、上記第１の認識コンテンツと上記第２の認識コンテンツとをマッチングして、目的認識コンテンツを取得するマッチングモジュール６０６と、を備えることで、ドキュメント画像におけるコンテンツ情報を正確に認識するという目的を達成し、ドキュメント画像の認識精度及び認識効率を高めて、画像認識アルゴリズムの計算量を低減させるという技術効果を実現し、関連技術におけるドキュメント画像認識方法が、品質の悪いドキュメント画像に対して認識精度が低く、且つアルゴリズムの計算量が大きいという技術的課題を解決する。

なお、上記各モジュールはソフトウェア又はハードウェアによって実現されるが、例えば、後者の場合、上記各モジュールが同一プロセッサーに位置するか、又は、上記各モジュールが任意の組み合わせで、異なるプロセッサーに位置することによって実現されてもよい。

なおここで、上記変換モジュール６００、第１の予測モジュール６０２、第２の予測モジュール６０４、及びマッチングモジュール６０６は実施例１におけるステップＳ１０２～ステップＳ１０８に対応し、上記モジュールは、対応するステップにより実現される実例及び応用シーンと同様であるが、上記実施例１に開示された内容に限定されていない。なお、装置の一部として、上記モジュールはコンピュータ端末にて運転できる。

選択的には、上記第１の予測モジュールは、各上記テキストボックスのサイズに基づいて、上記画像特徴マップを複数の特徴サブマップに区画する第１の区画モジュールと、上記文字における自然言語単語に対応する第１のベクトルを決定する第１の決定モジュールであって、異なる上記文字の自然言語単語は、長さが同じで一定であるベクトルに変換される第１の決定モジュールと、上記テキストボックスの第１の座標情報に対応する第２のベクトル、及び上記文字の第２の座標情報に対応する第３のベクトルをそれぞれ決定する第２の決定モジュールであって、上記第２のベクトルと第３のベクトルは、ベクトル長さが同じで一定である第２の決定モジュールと、ドキュメント構成復号器を利用して上記複数の特徴サブマップ、上記第１のベクトル、上記第２のベクトル及び上記第３のベクトルに対して復号処理を行って、上記第１の認識コンテンツを取得する第１の復号モジュールと、をさらに備える。

選択的には、上記第１の復号モジュールは、上記複数の特徴サブマップ、上記第１のベクトル、上記第２のベクトル及び上記第３のベクトルをマルチモーダル変換モデルに入力して、上記マルチモーダル変換モデルから対応して出力されたマルチモーダル特徴を取得する入力モジュールであって、上記マルチモーダル変換モデルは異なるモーダルの情報を同一特徴空間に変換し、融和してマルチモーダル特徴を取得する入力モジュールと、上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像のテーブル特徴シーケンスを取得する第２の復号モジュールと、リンク関係予測アルゴリズムを利用して上記テーブル特徴シーケンスと上記テキスト情報における文字行と間のリンク関係を予測し、予測リンク行列を取得する第１の予測サブモジュールであって、上記予測リンク行列は上記テーブル特徴シーケンスの、上記認識対象のドキュメント画像での位置情報を決定する第１の予測サブモジュールと、上記テーブル特徴シーケンス及び上記予測リンク行列に基づいて上記第１の認識コンテンツを決定する第３の決定モジュールと、をさらに備える。

選択的には、上記第２の復号モジュールは、上記ドキュメント構成復号器を利用して上記マルチモーダル特徴に対して復号処理を行って、上記認識対象のドキュメント画像における各テーブルのテーブルタグを取得する第３の復号モジュールと、上記テーブルタグを上記テーブル特徴シーケンスに変換する第１の変換サブモジュールと、上記テーブル特徴シーケンスを出力して表示する表示モジュールと、をさらに備える。

選択的には、上記変換モジュールは、畳み込みニューラルネットワークモデルを利用して上記認識対象のドキュメント画像を上記画像特徴マップに変換する第２の変換サブモジュールをさらに備える。

選択的には、上記変換モジュールは、上記光学文字認識アルゴリズムを利用して上記認識対象のドキュメント画像を認識し、各上記テキストボックスの第１の情報及び各上記文字の第２の情報を取得する認識モジュールをさらに備え、上記第１の情報及び第２の情報は何れもテキスト情報及び座標情報を含む。

なお、本実施例の選択的な又は好ましい実施形態について、実施例１の関連説明を参照すればよく、ここでは、説明を省略する。本開示の技術案において、係わるユーザー個人情報の取得、記憶及び応用などは、何れも関連法律法規の規定に合って、公序良俗に違反していない。

実施例３
本開示の実施例によれば、本開示は電子装置、読み取り可能な記憶媒体、コンピュータプログラム製品、上記電子装置を有するドキュメント画像の認識製品をさらに開示する。

図７は、本開示の実施例を実施する例示的な電子装置７００の概略ブロック図を示す。電子装置とは、各種形態のデジタルコンピュータ、例えば、ラップトップパソコン、デスクトップパソコン、作業台、携帯情報端末、サーバー、ブレードサーバー、大型コンピュータ、及び他の適宜なコンピュータを意味する。電子装置は、各種形態の移動装置、例えば、携帯情報端末、セルラー電話、スマートフォン、ウェアラブル装置及び他の類似のコンピューティング装置をさらに示すことができる。本明細書に開示された部材、それらの接続と関係、及びそれらの機能は、本明細書に記載及び／又は要求された本開示の実現を限定するのではなく、単に例示である。

図７に示すように、電子装置７００は、読み取り専用メモリ（ＲＯＭ）７０２に記憶されるコンピュータプログラム、又は記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされるコンピュータプログラムに基づいて、各種の適宜な操作及び処理を実行するコンピューティングユニット７０１を備え。ＲＡＭ７０３には、電子装置７００の動作用の各種プログラム及びデータが記憶される。コンピューティングユニット７０１、ＲＯＭ７０２及びＲＡＭ７０３はバス７０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続される。

電子装置７００における複数の部材はＩ／Ｏインターフェース７０５に接続されており、キーボード、マウスなどのような入力ユニット７０６と、各種タイプのディスプレイ、スピーカなどのような出力ユニット７０７と、磁気ディスク、光ディスクなどのような記憶ユニット７０８と、ネットワークカード、変調復調器、無線通信トランシーバなどのような通信ユニット７０９とを備える。通信ユニット７０９は、電子装置７００がインターネットのようなコンピュータネットワーク及び／又は各種電気通信ネットワークによって、他の装置と情報／データを交換することを許可する。

コンピューティングユニット７０１は、処理及び計算能力を有する各種の汎用及び／又は専用処理コンポーネントである。コンピューティングユニット７０１のいくつかの例示は中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、各種専用の人工知能（ＡＩ）コンピューティングチップ、機械学習モデルアルゴリズムを実行する各種のコンピューティングユニット、デジタル信号プロセッサー（ＤＳＰ）、及び任意の適宜なプロセッサー、コントローラ、マイクロコントローラなどを含むが、これらに限定されていない。コンピューティングユニット７０１は以上に記載の各方法及び処理を実行し、例えば、方法は認識対象のドキュメント画像を画像特徴マップに変換する。例えば、いくつかの実施例において、方法は認識対象のドキュメント画像を画像特徴マップに変換することは、マシン読み取り可能な媒体、例えば記憶ユニット７０８に有形的に含まれるコンピュータソフトウェアプログラムとして実現される。いくつかの実施例において、コンピュータプログラムの一部又は全ては、ＲＯＭ７０２及び／又は通信ユニット７０９によって、装置７００にローディング及び／又はインストーラされる。コンピュータプログラムはＲＡＭ７０３にロードされ、コンピューティングユニット７０１により実行されると、以上に記載の方法の、認識対象のドキュメント画像を画像特徴マップに変換する１つ又は複数のステップを実行できる。また、他の実施例において、コンピューティングユニット７０１は他の任意の適宜な方式（例えば、ファームウェアを利用する形）で、方法を実行して、認識対象のドキュメント画像を画像特徴マップに変換するように配置される。

本明細書において、以上に記載のシステム及び技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、特定応用向け汎用品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現される。これらの各種の実施形態は、１つ又は複数のコンピュータプログラムで実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラムプロセッサーを有するプログラムシステムで実行及び／又は解釈され、当該プログラムプロセッサーは専用又は汎用プログラマブルプロセッサーであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び指令を受信し、データ及び指令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することを含んでもよい。

１つ又は複数のプログラミング言語の任意の組み合わせで、本開示の方法を実施するためのプログラムコードを書いてもよい。これらのプログラムコードを汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサー又はコントローラに提供することで、プロセッサー又はコントローラにより実行される場合、プログラムコードは、フローチャート及び／又はブロック図に規定される機能／動作を実施させる。プログラムコードは完全にマシンで実行されてもよく、部分的にマシンで実行されてもよく、独立のパッケージとして、一部がマシンで実行されるとともに、一部がリモートマシンで実行され、又は完全にリモートマシン或いはサーバーで実行されてもよい。

本開示の明細書において、マシン読み取り可能な媒体は、指令実行システム、装置又は機器が使用するか、又は指令実行システム、装置或いは機器と結合して使用するプログラムを含み又は記憶する有形媒体である。マシン読み取り可能な媒体はマシン読み取り可能な信号媒体又はマシン読み取り可能な記憶媒体である。マシン読み取り可能な媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、或いは上記内容の任意の適宜な組み合わせを含んでもよいが、これらに限定されていない。マシン読み取り可能な記憶媒体のより具体的な例示は、１つ又は複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶機器、磁気記憶機器、又は上記内容の任意の適宜な組み合わせを含む。

ユーザーとのインタラクションを提供するために、ここに記載のシステム及び技術をコンピュータで実施し、当該コンピュータは、ユーザーに情報を表示する表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）を具備し、ユーザーは当該キーボード及び当該ポインティングデバイスによって、入力をコンピュータに提供する。他のタイプの装置はさらにユーザーとのインタラクションを提供し、例えば、ユーザーに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音声入力、語音入力、又は触覚入力を含む）で、ユーザーからの入力を受信してもよい。

ここに記載のシステム及び技術は、バックグランド部材を有するコンピューティングシステム（例えば、データサーバーとして）、又はミドルウェア部材を有するコンピューティングシステム（例えば、アプリケーションサーバー）、或いはフロントエンド部材を有するコンピューティングシステム（例えば、グラフィカルユーザーインターフェース又はネットワークブラウザを有するユーザーコンピュータであって、ユーザーは当該グラフィカルユーザーインターフェース、又は当該ネットワークブラウザを利用して、ここに記載のシステム及び技術の実施形態とインタラクションを行う）、若しくはこのようなバックグランド部材、ミドルウェア部材、又はフロントエンド部材の任意の組み合わせを有するコンピューティングシステムに実施される。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって、システムの部材を互いに接続する。通信ネットワークの例示は、ローカルネットワーク（ＬＡＮ）、広域網（ＷＡＮ）及びインターネットを含む。

コンピュータシステムはクライアント及びサーバーを含む。クライアント及びサーバーは一般的に、互いに離れて、通信ネットワークによってインタラクションを行う。相応的なコンピュータで運転して、互いにクライアント－サーバー関係を有するコンピュータプログラムによって、クライアントとサーバーとの関係を生成する。サーバーはクラウドサーバーであってもよいし、分散型システムのサーバーであってもよく、又はブロックチェーンを結合したサーバーであってもよい。

以上に示された各種形態のフローを利用して、ステップを改めて並び替え、増加し又は削除してもよいことを理解できる。例えば、本発明の開示に記載の各ステップに対して、並行に実行してもよく、順に実行してもよく、異なる順次で実行してもよく、本開示が開示した技術案の所望の結果を実現できると、本明細書はこれを限定していない。

上記具体的な実施形態は、本開示の保護範囲に対する限定を構成していない。当業者であれば分かるように、設計要求及び他の要因に基づいて、いろんな修正、組み合わせ、サブ組み合わせ及び置き換えを行ってもよい。本開示の精神及び原則内でなされた任意の修正、均等置換及び改良などは、何れも本開示の保護範囲内に該当すべきである。

Claims

ドキュメント画像の認識方法であって、
認識対象のドキュメント画像を画像特徴マップに変換するステップであって、前記ドキュメント画像は少なくとも、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含むステップと、
前記画像特徴マップ、前記文字、及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得するステップと、
光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得するステップと、
前記第１の認識コンテンツと前記第２の認識コンテンツとをマッチングして、目的認識コンテンツを取得するステップと、を含むドキュメント画像の認識方法。
前記画像特徴マップ、前記文字、及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得する前記ステップは、
各前記テキストボックスのサイズに基づいて、前記画像特徴マップを複数の特徴サブマップに区画するステップと、
前記文字における自然言語単語に対応する第１のベクトルを決定するステップであって、異なる前記文字の自然言語単語は、長さが同じで一定であるベクトルに変換されるステップと、
前記テキストボックスの第１の座標情報に対応する第２のベクトル、及び前記文字の第２の座標情報に対応する第３のベクトルをそれぞれ決定するステップであって、前記第２のベクトルと第３のベクトルは、ベクトル長さが同じで一定であるステップと、
ドキュメント構成復号器を利用して前記複数の特徴サブマップ、前記第１のベクトル、前記第２のベクトル、及び前記第３のベクトルに対して復号処理を行って、前記第１の認識コンテンツを取得するステップと、を含む請求項１に記載のドキュメント画像の認識方法。
ドキュメント構成復号器を利用して前記複数の特徴サブマップ、前記第１のベクトル、前記第２のベクトル、及び前記第３のベクトルに対して復号処理を行って、前記第１の認識コンテンツを取得する前記ステップは、
前記複数の特徴サブマップ、前記第１のベクトル、前記第２のベクトル、及び前記第３のベクトルをマルチモーダル変換モデルに入力して、前記マルチモーダル変換モデルから対応して出力されたマルチモーダル特徴を取得するステップであって、前記マルチモーダル変換モデルは、異なるモーダルの情報を同一特徴空間に変換し、融和してマルチモーダル特徴を取得するためのものであるステップと、
前記ドキュメント構成復号器を利用して前記マルチモーダル特徴に対して復号処理を行って、前記認識対象のドキュメント画像のテーブル特徴シーケンスを取得するステップと、
リンク関係予測アルゴリズムを利用して前記テーブル特徴シーケンスと前記テキスト情報における文字行との間のリンク関係を予測し、予測リンク行列を取得するステップであって、前記予測リンク行列は、前記テーブル特徴シーケンスの、前記認識対象のドキュメント画像での位置情報を決定するためのものであるステップと、
前記テーブル特徴シーケンス及び前記予測リンク行列に基づいて、前記第１の認識コンテンツを決定するステップと、を含む請求項２に記載のドキュメント画像の認識方法。
前記ドキュメント構成復号器を利用して前記マルチモーダル特徴に対して復号処理を行って、前記認識対象のドキュメント画像のテーブル特徴シーケンスを取得する前記ステップは、
前記ドキュメント構成復号器を利用して前記マルチモーダル特徴に対して復号処理を行って、前記認識対象のドキュメント画像における各テーブルのテーブルタグを取得するステップと、
前記テーブルタグを前記テーブル特徴シーケンスに変換するステップと、
前記テーブル特徴シーケンスを出力して表示するステップと、を含む請求項３に記載のドキュメント画像の認識方法。
前記認識対象のドキュメント画像を画像特徴マップに変換する前記ステップは、
畳み込みニューラルネットワークモデルを利用して前記認識対象のドキュメント画像を前記画像特徴マップに変換するステップを含む請求項１に記載のドキュメント画像の認識方法。
前記光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得する前記ステップは、
前記光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、各前記テキストボックスの第１の情報及び各前記文字の第２の情報を取得するステップを含み、前記第１の情報及び第２の情報は何れもテキスト情報及び座標情報を含む請求項１に記載のドキュメント画像の認識方法。
ドキュメント画像の認識装置であって、
認識対象のドキュメント画像を画像特徴マップに変換する変換モジュールであって、前記ドキュメント画像は少なくとも、少なくとも１つのテキストボックスと、複数の文字を有するテキスト情報とを含む変換モジュールと、
前記画像特徴マップ、前記文字、及び前記テキストボックスに基づいて、前記認識対象のドキュメント画像の第１の認識コンテンツを予測して取得する第１の予測モジュールと、
光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、第２の認識コンテンツを取得する第２の予測モジュールと、
前記第１の認識コンテンツと前記第２の認識コンテンツとをマッチングして、目的認識コンテンツを取得するマッチングモジュールと、を備えるドキュメント画像の認識装置。
前記第１の予測モジュールは、
各前記テキストボックスのサイズに基づいて、前記画像特徴マップを複数の特徴サブマップに区画する第１の区画モジュールと、
前記文字における自然言語単語に対応する第１のベクトルを決定する第１の決定モジュールであって、異なる前記文字の自然言語単語は、長さが同じで一定であるベクトルに変換される第１の決定モジュールと、
前記テキストボックスの第１の座標情報に対応する第２のベクトル、及び前記文字の第２の座標情報に対応する第３のベクトルをそれぞれ決定する第２の決定モジュールであって、前記第２のベクトルと第３のベクトルは、ベクトル長さが同じで一定である第２の決定モジュールと、
ドキュメント構成復号器を利用して前記複数の特徴サブマップ、前記第１のベクトル、前記第２のベクトル、及び前記第３のベクトルに対して復号処理を行って、前記第１の認識コンテンツを取得する第１の復号モジュールと、をさらに備える請求項７に記載のドキュメント画像の認識装置。
前記第１の復号モジュールは、
前記複数の特徴サブマップ、前記第１のベクトル、前記第２のベクトル、及び前記第３のベクトルをマルチモーダル変換モデルに入力して、前記マルチモーダル変換モデルから対応して出力されたマルチモーダル特徴を取得する入力モジュールであって、前記マルチモーダル変換モデルは、異なるモーダルの情報を同一特徴空間に変換し、融和してマルチモーダル特徴を取得するためのものである入力モジュールと、
前記ドキュメント構成復号器を利用して前記マルチモーダル特徴に対して復号処理を行って、前記認識対象のドキュメント画像のテーブル特徴シーケンスを取得する第２の復号モジュールと、
リンク関係予測アルゴリズムを利用して前記テーブル特徴シーケンスと前記テキスト情報における文字行との間のリンク関係を予測し、予測リンク行列を取得する第１の予測サブモジュールであって、前記予測リンク行列は、前記テーブル特徴シーケンスの、前記認識対象のドキュメント画像での位置情報を決定するためのものである第１の予測サブモジュールと、
前記テーブル特徴シーケンス及び前記予測リンク行列に基づいて、前記第１の認識コンテンツを決定する第３の決定モジュールと、をさらに備える請求項８に記載のドキュメント画像の認識装置。
前記第２の復号モジュールは、
前記ドキュメント構成復号器を利用して前記マルチモーダル特徴に対して復号処理を行って、前記認識対象のドキュメント画像における各テーブルのテーブルタグを取得する第３の復号モジュールと、
前記テーブルタグを前記テーブル特徴シーケンスに変換する第１の変換サブモジュールと、
前記テーブル特徴シーケンスを出力して表示する表示モジュールと、をさらに備える請求項９に記載のドキュメント画像の認識装置。
前記変換モジュールは、
畳み込みニューラルネットワークモデルを利用して前記認識対象のドキュメント画像を前記画像特徴マップに変換する第２の変換サブモジュールをさらに備える請求項７に記載のドキュメント画像の認識装置。
前記変換モジュールは、
前記光学文字認識アルゴリズムを利用して前記認識対象のドキュメント画像を認識し、各前記テキストボックスの第１の情報及び各前記文字の第２の情報を取得する認識モジュールをさらに備え、前記第１の情報及び第２の情報は何れもテキスト情報及び座標情報を含む請求項７に記載のドキュメント画像の認識装置。
電子装置であって、
少なくとも１つのプロセッサーと、
前記少なくとも１つのプロセッサーに通信可能に接続されるメモリと、を備え、
前記メモリには、前記少なくとも１つのプロセッサーにより実行可能な指令が記憶され、前記指令が前記少なくとも１つのプロセッサーにより実行されることで、前記少なくとも１つのプロセッサーは請求項１～６の何れか１項に記載のドキュメント画像の認識方法を実行できる電子装置。
コンピュータに、請求項１～６の何れか１項に記載のドキュメント画像の認識方法を実行させるコンピュータ指令が記憶された、非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサーにより実行されると、請求項１～６の何れか１項に記載のドキュメント画像の認識方法を実現するコンピュータプログラム。
ドキュメント画像の認識製品であって、請求項１３に記載の電子装置を備える認識製品。