JP2022088602A

JP2022088602A - テーブル生成方法、装置、電子機器、記憶媒体及びプログラム

Info

Publication number: JP2022088602A
Application number: JP2022059810A
Authority: JP
Inventors: ユエチェンユ; Yuechen Yu; ユーリンリ; Yulin Li; チェンチュエンチャン; Chengquan Zhang; クンヤオ; Kun Yao
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2022-03-31
Publication date: 2022-06-14
Anticipated expiration: 2042-03-31
Also published as: US20220301334A1; JP7300034B2; CN113657274A; EP4138050A1; CN113657274B

Abstract

【課題】スマートシティ及びスマート金融のシーンに適用するテーブル生成方法、装置、電子機器、記憶媒体及びプログラムを提供する。【解決手段】テーブル生成方法は、認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップ２０１と、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含み、少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定するステップ２０２と、少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するステップ２０３と、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成するステップ２０４、を含む。【選択図】図２

Description

本開示は、人工知能技術の分野、具体的に、コンピュータビジョン及び深層学習技術の分野に関し、特に、スマートシティ及びスマート金融のシーンに適用できる、テーブル生成方法、装置、電子機器、記憶媒体及びプログラムに関する。

ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ，光学式文字認識）技術とは、電子機器が紙に印刷された文字を検出し、明暗などのパターンを検出して画像のテーブル形状を決定し、そして、コンピュータ言語で表現されたテキストを、文字認識方法を使用して取得するプロセスを指す。

従来技術において、ＯＣＲ技術によるテーブル認識方法は、正確性が低く、認識精度が劣っている。

本開示は、テーブル生成用の方法、装置、電子機器、記憶媒体及びプログラムを提供する。

第１の態様によれば、本開示は、テーブル生成方法を提供し、
認識待ちの画像内の少なくとも１つのテーブル対象を認識し、前記少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含むステップと、
前記少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定するステップと、
前記少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、
前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するステップと、を含む。

第２の態様によれば、本開示は、テーブル生成装置を提供し、
認識待ちの画像内の少なくとも１つのテーブル対象を認識し、前記少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するための属性認識ユニットであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含む属性認識ユニットと、
前記少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定するための対象決定ユニットと、
前記少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するための領域決定ユニットと、
前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するためのテーブル生成ユニットと、を含む。

第３の態様によれば、本開示は、電子機器を提供し、
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが第１の態様に記載の方法を実行できるように、前記少なくとも１つのプロセッサにより実行される。

第４の態様によれば、本開示は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第１の態様に記載の方法を実行させるために用いられる。

第５の態様によれば、本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも１つのプロセッサは、電子機器が第１の態様に記載の方法を実行するように、前記コンピュータプログラムを実行する。

本開示の技術案によれば、認識待ちの画像内の少なくとも１つのテーブル対象のテーブル属性を認識し、セル属性を持つ少なくとも１つの目標対象を利用してセル領域を認識し、認識待ちの画像内のセルを正確に認識し、有効なセル位置情報を取得し、さらに少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像のスプレッドシートを生成する。これにより、セルを認識基準とすることにより、より正確的な認識結果を取得し、スプレッドシートの認識精度を向上できる。

なお、この部分に記載されている内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の詳細の説明を通じて容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第１の実施例によるネットワークアーキテクチャの概略図である。本開示の第２の実施例によるテーブル生成方法の１つの概略図である。本開示の第３の実施例による他のテーブル生成方法のフローチャートである。本開示の第４の実施例による別のテーブル生成方法のフローチャートである。本開示の実施例に基づいて提供される特徴融合の概略図である。本開示の実施例に係るテーブル生成方法を実現するためのテーブル生成装置のブロック図である。本開示の実施例に係るテーブル生成方法を実現するための電子機器のブロック図である。

以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

本開示は、テーブル生成方法と装置、電子機器、記憶媒体及びプログラムを提供し、人工知能の分野、具体的に、コンピュータビジョン及び深層学習の分野に適用され、スマートシティ及びスマート金融シーンに応用することにより、テーブル生成精度を向上させる目的を達成することができる。

従来技術において、ＯＣＲ技術を採用して画像内のスプレッドシートを認識することができる。通常、グローバルしきい値アルゴリズム、ローカルしきい値アルゴリズム、地域成長アルゴリズム、喫水線アルゴリズム、最小記述長アルゴリズム、マルコフ確率場に基づくアルゴリズムなどを採用し、画像に対して初歩的な二値化処理を行うことができる。そして、画像スキュー補正アルゴリズムを利用して画像を補正することができる。常用の画像スキュー補正アルゴリズムとして、例えば、投影マップベースのアルゴリズム、Ｈｏｕｇｈ（ハフ）変換ベースのアルゴリズム、最近傍クラスターアルゴリズム又はベクトル化アルゴリズムなどが挙げられる。その後、補正された画像特徴に対してテキストボックス検出を行い、画像内のテキストボックスを認識し、テキストボックスの画像での領域画像を取得して、各テキストボックスの領域画像内のテキスト情報及び位置情報を認識することにより、スプレッドシートを生成する。しかし、上記アルゴリズムによる計算の複雑さや認識待ちの画像の画像精度に対する高い要件などの規制があるため、このように伝統的なＯＣＲ技術を採用してテキストボックスを直接分割し、各テキストボックスに対応する領域画像のテキスト情報を認識することにより、各テキストボックスに対応する領域画像のテキスト情報に従ってスプレッドシートを生成する方法は、認識精度が低く、正確性も劣っている。

発明者は、当該技術的問題を解決するために、創造的研究を重ねた結果、スプレッドシートが作成されるとき、テーブル対象によってテーブル属性が異なってもよいことを見出した。例えば、テーブルの１つ目のテキストボックスのテーブル属性がヘッダー属性であり、テーブルが１行生成終了すると１つの終了識別子が取得され、例えば、＜／ｔｄ＞が終了識別子とされる。テーブルでは、テキストが載せられたテーブル対象のテーブル属性は、セル属性となり、各セル属性に対応するテーブル対象は、それぞれセルとなる。セルは、テキストボックスよりも基本的で標準的なスプレッドシートの属性であるため、セル単位で認識し、先にセルを認識し、次にスプレッドシートを認識することにより、スプレッドシートの認識精度を効果的に向上できる。したがって、認識待ちの画像内の各テキストボックス対象又は文字対象のテーブル属性を認識し、そして、各対象のテーブル属性を利用してテーブルを復元できる。発明者は、以上より、本開示の技術案を提案したまで至った。

本開示の実施例において、認識待ちの画像について、当該認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象のそれぞれのテーブル属性を取得し、テーブル属性は、セル属性又は非セル属性を含むことができ、少なくとも１つの目標対象における、セル属性を持つ少なくとも１つの目標対象を決定し、それによって、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を決定し、対象の所属するセルの特定を実現し、その結果、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像のスプレッドシートを生成する。認識待ちの画像内の少なくとも１つのテーブル対象のテーブル属性を認識し、セル属性を持つ少なくとも１つの目標対象を利用してセル領域を認識し、認識待ちの画像内のセルを正確に認識し、セルを認識基準とすることにより、より正確的な認識結果を取得し、スプレッドシートの認識精度を向上できる。

図１は、本開示に基づいて提供される、画像用のテーブル生成方法が応用された場合の１つのネットワークアーキテクチャ図である。図１に示すように、当該ネットワークアーキテクチャには、１つのサーバ１と、当該サーバ１にローカルエリアネットワーク又はワイドエリアネットワークを介してネットワークで接続されたユーザ機器２が含み得る。当該ユーザ機器をパーソナルコンピュータ２に仮定する。当該サーバ１として、例えば、普通のサーバ、スーパーパーソナルコンピュータ、クラウドサーバなどのタイプのサーバが挙げられるが、本開示では、サーバの具体的なタイプは、必要以上に限定されない。ユーザ機器２として、例えば、コンピュータ、ノートパソコン、タブレットコンピュータ、ウェアラブルデバイス、スマート家電、車載機器などの端末機器が挙げられるが、本開示の実施例において、ユーザ機器の具体的なタイプは、必要以上に限定されない。ユーザ機器は、ユーザにより提供される認識待ちの画像を検出し、認識待ちの画像をサーバに送信することができる。サーバは、認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得することができる。任意のテーブル対象のテーブル属性は、セル属性又は非セル属性である。少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定することにより、少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得することができる。さらに少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの対象に対応するスプレッドシートを生成する。セルを認識基準とすることにより、より正確的な認識結果を取得し、スプレッドシートの認識精度を向上できる。

本発明の実施例により提供されるテーブル生成方法は、例えば、教育や、スマートシティ、スマート金融、スマート交通又はスマート保険など、様々な応用シーンに適用することができ、それにより、紙の形で保存された文書や書類などは、スキャナーなどの電子的手段によって画像形式のものに変換される。各文書の照会又は調査研究を可能にして、データ使用効率を向上できるために、画像内のコンテンツをコンピュータで記憶可能なテーブルなどとして認識し、そして、映像及びテーブル情報に従ってインデックスを作成する必要がある。通常、ＯＣＲ技術を採用して画像内のテーブルコンテンツを認識している。

以下、本開示の実施例に係る技術案について、図面を参照しながら詳細に説明する。

図２に示すように、図２は、本開示の第１の実施例により提供されるテーブル生成方法の１つの実施例のフローチャートであり、当該テーブル生成方法の実行主体は、テーブル生成装置である。当該テーブル生成装置は、電子機器に配置され得る。当該方法は、以下のいくつかのステップを含んでよい。

２０１において、認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得する。

任意のテーブル対象のテーブル属性は、セル属性又は非セル属性を含む。

本実施例により提供されるテーブル生成方法は、電子機器に適用でき、当該電子機器として、例えば、コンピュータ、スーパーパーソナルコンピュータ、ノートパソコン、クラウドサーバ、普通のサーバなどのデバイスが挙げられるが、本開示は、電子機器の具体的なタイプを必要以上に限定しない。

認識待ちの画像には、テーブル画像が含み得るが、テーブル画像は、コンピュータプログラムによって処理できないため、認識待ちの画像内の少なくとも１つのテーブル対象を認識し、そして、テーブル対象を利用してテーブル画像内のテーブルを復元できる。

選択的に、認識待ちの画像には、テーブル対象のほか、さらに、ｌｏｇｏ対象などの非テーブル対象や、カップ、小動物、人などの物体対象が含み得るが、本開示では、テーブル画像内のテーブル対象のみを処理し、非テーブル対象を認識した後、非テーブル対象を復元でき、その認識原理及び表示手段は、従来技術と同じであり、説明の簡潔さのために、本明細書では繰り返して説明しない。

任意のテーブル対象は、対応するテーブル属性を持つことができる。任意のテーブル対象のテーブル属性は、セル属性又は非セル属性のいずれかにすることができる。Ｈｔｔｐプロトコルでは、セル属性は、＜ｔｄ＞という識別子を使用して示すことができる。非セル属性は、少なくとも１つの属性を含むことができる。例えば、行＜ｔｒ＞属性、＜／ｔｄ＞属性、ヘッダー属性などは、いずれも非セル属性として分類され得る。

２０２において、少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定する。

少なくとも１つの目標対象は、少なくとも１つのテーブル対象から選択して処理する、テーブル属性がセル属性である対象にすることができる。具体的に、少なくとも１つのテーブル対象のそれぞれのテーブル属性に従って、少なくとも１つのテーブル対象から、テーブル属性がセル属性である少なくとも１つの目標対象を選択することができる。目標対象は、認識待ちの画像内の文字列対象を検出することにより取得されることができ、即ち、文字列を検出目標として、検出することで少なくとも１つの目標対象を取得する。

目標対象は、文字対象又はテキストボックス対象であってもよい。文字対象は、文字列においてスペースを認識終了条件として取得された単語であってもよい。例えば、ＣＡＳＥＮＡＭＥには、２つの文字対象であるＣＡＳＥとＮＡＭＥとが含まれ得る。テキストボックス対象は、文字列の所属する文字列領域を認識条件として取得された各文字列の所属するテキストボックスである。例えば、ＣＡＳＥＮＡＭＥのテキストボックスは（ｖ１、ｖ２、ｖ３、ｖ４）であると仮定する場合、当該テキストボックス（ｖ１、ｖ２、ｖ３、４）は、テキストボックス対象とされ得る。

２０３において、少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得する。

少なくとも１つの目標対象にそれぞれ対応するセル領域は、少なくとも１つの目標対象がそれぞれ所属するセル領域であってよい。セル領域は長方形であると仮定すると、セル位置情報は、長方形の左上と右下との座標となり、この場合、セル位置情報は、目標対象の所属するセルの認識待ちの画像での位置座標となる。

２０４において、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成する。

選択的に、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成するステップは、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも１つの目標対象のうち、セル位置情報が同じである目標対象に対して重複排除処理を行い、少なくとも１つの目標位置情報を取得し、それによって、少なくとも１つの目標位置情報と少なくとも１つの目標位置情報のセルに対応するテキスト情報とに従って、認識待ちの画像に対応するスプレッドシートを生成するステップを含み得る。

本開示の実施例において、認識待ちの画像について、当該認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象のそれぞれのテーブル属性を取得し、そして、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を利用して、少なくとも１つの目標対象における、セル属性を持つ少なくとも１つの目標対象を決定し、さらに、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を決定し、対象の所属するセルの特定を実現し、その結果、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像のスプレッドシートを生成する。認識待ちの画像内の少なくとも１つのテーブル対象のテーブル属性を認識することにより、セル属性を持つ少なくとも１つの目標対象を利用してセル領域を認識し、認識待ちの画像内のセルを正確に認識し、セルを認識基準とすることにより、より正確的な認識結果を取得し、スプレッドシートの認識精度を向上できる。

テーブルにおけるセルを正確に認識するために、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成するとき、セル領域の画像認識方法を採用して認識することができる。具体的に、図３に示すように、図３は、本開示の第２の実施例により提供されるテーブル生成方法の１つのフローチャートであり、当該方法は、以下のいくつかのステップを含んでよい。

３０１において、認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得する。

任意のテーブル対象のテーブル属性は、セル属性又は非セル属性である。

本実施例における一部のステップは、上記実施例における一部のステップと同じであるため、説明の簡潔さのために、ここでは繰り返して説明しない。

３０２において、少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定する。

３０３において、少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得する。

３０４において、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも１つの目標対象にそれぞれ対応する領域画像を決定する。

選択的に、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも１つの目標対象にそれぞれ対応する領域画像を決定するステップは、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像から各セル位置情報に対応する領域画像を抽出し、少なくとも１つの目標対象にそれぞれ対応する領域画像を取得するステップを含み得る。

領域画像は、認識待ちの画像から抽出された、セル領域に対応する部分的な画像である。

３０５において、少なくとも１つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、少なくとも１つの目標対象にそれぞれ対応するテキスト情報を取得する。

選択的に、少なくとも１つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、少なくとも１つの目標対象にそれぞれ対応するテキスト情報を取得するステップは、少なくとも１つの目標対象にそれぞれ対応する領域画像を文字認識アルゴリズムを利用して認識し、少なくとも１つの目標対象にそれぞれ対応するテキスト情報を取得するステップを含み得る。具体的に、任意の領域画像を文字認識アルゴリズムに入力し、文字認識アルゴリズムを利用して認識し、当該領域画像のテキスト情報を取得できる。

領域画像のテキスト情報を正確に認識することができるように、文字認識アルゴリズムは、従来技術における任意の文字認識アルゴリズムであってよい。例えば、ＣＲＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ，畳み込みリカレントニューラルネットワーク）又はＦＯＴＳ（ＦａｓｔＯｒｉｅｎｔｅｄＴｅｘｔＳｐｏｔｔｉｎｇ，エンドツーエンドのテキスト検出と認識）などの機械学習に基づく認識アルゴリズムであってよい。

３０６において、少なくとも１つの目標対象にそれぞれ対応するテキスト情報とセル位置情報とに従って、スプレッドシートを生成する。

スプレッドシートは、少なくとも１つの目標対象にそれぞれ対応するテキスト情報とセル位置情報とに従って生成され得る。具体的に、空白のテーブルを生成し、少なくとも１つの目標対象のそれぞれのセル位置情報に従って、対応するテキスト情報を空白テーブルに埋め込むことができる。空白テーブルは、少なくとも１つの目標対象にそれぞれ対応するセル位置情報によって示されたセル構造に応じて生成され得る。

本実施例において、認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得できる。任意のテーブル対象のテーブル属性は、セル属性又は非セル属性であるため、少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象は決定されることができる。さらに、少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得できる。セル領域を認識することで、正確的なセル位置情報を取得できる。その結果、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも１つの目標対象にそれぞれ対応する領域画像を決定し、少なくとも１つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、少なくとも１つの目標対象にそれぞれ対応するテキスト情報を取得して、正確的なテキスト情報を取得する。それによって、少なくとも１つの目標対象にそれぞれ対応するテキスト情報とセル位置情報とに従って、スプレッドシートを生成する。テキスト情報とセル位置情報とを利用した正確的な生成により、取得された各目標対象のそれぞれのテキスト情報とセル位置情報との一致性はより高くなり、それによって、スプレッドシートの正確的な生成は完成され、スプレッドシートの正確性は確保される。

セルコンテンツ認識のために採用される方法として、画像認識方法のほか、ＯＣＲ認識に基づき、セルコンテンツをより正確に認識する方法も考えられる。図４に示すように、図４は、本開示の第３の実施例により提供されるテーブル生成方法の１つのフローチャートであり、当該方法は、以下のいくつかのステップを含んでよい。

４０１において、認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を取得する。

対象位置情報は、テーブル対象をカバーすることができる領域によって形成される位置情報であってよい。対象位置情報は、長方形の座標位置情報を含んでもよい。当該長方形は、テーブル対象をカバーする長方形領域であってもよい。任意のテーブル対象の対象テキスト情報は、当該テーブル対象の対象位置情報の中のテキスト情報であってもよい。

選択的に、従来のＯＣＲ技術を採用して認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報と対象テキスト情報とを取得できる。本実施例においては、従来のＯＣＲ技術に基づき、認識結果、即ち、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報と対象テキスト情報とを利用して、テーブル構造をさらに分析し、それによって、テーブル構造を利用してテーブルをより正確に復元する。

４０２において、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を決定する。

任意のテーブル対象のテーブル属性は、セル属性及び／又は非セル属性である。

選択的に、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を決定するステップは、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも１つのテーブル対象のテーブル構造を分析して処理し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップを含む。

４０３において、少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定する。

４０４において、少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得する。

４０５において、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成する。

本実施例において、認識待ちの画像内の少なくとも１つのテーブル対象を認識した後、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報と対象テキスト情報とを取得でき、それによって、少なくとも１つのテーブル対象にそれぞれ対応する対象領域情報と対象テキスト情報とを利用し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を決定でき、これにより、少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定する。その後、少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得する。少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成する。認識待ちの画像内の少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報と対象テキスト情報とを認識し、対象位置情報と対象テキスト情報とを利用して、認識待ちの画像のテーブル構造を分析し、少なくとも１つの目標対象のそれぞれのテーブル属性を取得する。テーブル構造を正確に分析することで、各目標対象の正確的なテーブル属性を取得でき、それによって、テーブル属性を利用してテーブルは正確に復元され、復元結果の正確さの向上は確保される。

少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を決定するステップは、
少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップと、
少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップと、を含んでもよい。

選択的に、属性分類モデルは、深度ニューラルネットワークモデル、例えば、深度自己注意モデルのデコーダーであってよい。少なくとも１つのテーブル対象にそれぞれ対応する目標特徴は、深度自己注意モデルのエンコーダーを利用して、少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報と対象位置情報とをエンコードして取得され得る。少なくとも１つのテーブル対象にそれぞれ対応する目標特徴は、深度自己注意モデルのデコーダーを利用して取得され得る。少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップは、少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を深度自己注意モデルのデコーダーに入力し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップを含み得る。

深度自己注意モデルのエンコーダーとデコーダーは、訓練して取得され得る。具体的な訓練ステップは、それぞれ正確的な属性の識別子に対応する少なくとも１つの訓練サンプルを決定するステップと、訓練結果が少なくとも１つの訓練サンプルにそれぞれ対応する正確的な属性識別子であることを訓練目標として、少なくとも１つの訓練サンプルを利用して訓練し、深度自己注意モデルのエンコーダー及びデコーダーのそれぞれのモデルパラメータを取得するステップと、を含んでもよい。

訓練中に、各訓練サンプルの目標特徴を抽出する方法、及び各訓練サンプルの目標特徴を利用してテーブル対象の属性を決定する方法は、本開示の実施例における、少なくとも１つのテーブル対象を抽出及び分類する方法と同じであるため、ここでは繰り返して説明しない。

テーブル属性は、テーブル属性識別子で示されてよい。例えば、＜ｔｒ＞、＜ｔｄ＞などは、いずれもテーブル属性を示すことができる。テーブル属性の具体的な表現方法は、従来技術であり、例えば、ｈｔｔｐプロトコルにより、テーブル属性を直接認識し、テーブル属性に応じてテーブルをレンダリングできる。テーブル属性は、テーブル構造の決定のために用いられる。

さらに、選択的に、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップは、
少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップと、
少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも１つのテーブル対象にそれぞれ対応する領域特徴を抽出するステップと、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップと、
少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を取得するステップと、を含んでもよい。
特徴融合モデルは、深度ニューラルネットワークモデル、例えば、深度自己注意モデルのエンコーダーであってよい。少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を取得するステップは、少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を深度自己注意モデルのエンコーダーに入力し、少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を取得するステップを含み得る。

選択的に、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも１つのテーブル対象にそれぞれ対応する領域特徴を抽出するステップは、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を、特徴変換モデルに入力し、少なくとも１つのテーブル対象にそれぞれ対応する領域特徴を取得するステップを含み得る。

特徴変換モデルは、Ｗｏｒｄ２Ｖｅｃ（ｗｏｒｄｅｍｂｅｄｄｉｎｇ、単語ベクトル）モデルであってよい。抽出された少なくとも１つのテーブル対象にそれぞれ対応する領域特徴は、少なくとも１つのテーブル対象にそれぞれ対応する領域単語ベクトルであってよい。各テーブル対象の領域単語ベクトルのベクトル長は同じで、ベクトル長は予め設定されてもよい。

また、特徴変換モデルは、他の深度ニューラルネットワークモデル、例えば、Ｇｌｏｖｅ（Ｇｌｏｂａｌｖｅｃｔｏｒｓｆｏｒｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ、グローバル単語頻度統計の単語表現モデル）などであってもよい。

なお、本開示における任意のモデルに関する説明は、各モデル種類の詳細な説明にすぎず、本開示に係る技術案を具体的に限定しておらず、本分野における、本開示に係る技術案に適用できる他のモデルも、本開示の保護内容に含まれる。

対象特徴と領域特徴の２つのモーダル種類に対応するモーダル特徴のほか、さらに、他のモーダル種類のモーダル特徴を認識して、より多くのマルチモーダルの特徴を取得し、より多くの種類の特徴の総合認識を実現することにより、モジュール種類によってマルチモーダル特徴表現の全面性を高め、それによって、認識効率及び認識正確性の向上を促進する。

少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも１つのテーブル対象にそれぞれ対応する領域特徴を抽出するステップを実行した後、当該方法は、さらに、
認識待ちの画像に基づき、所定のモーダル種類のうち、少なくとも１つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するステップを含んでもよい。
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシングを行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップは、
任意のテーブル対象の対象特徴と領域特徴と、モーダル種類のうち、テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含んでもよい。
少なくとも１つのテーブル対象は、少なくとも１つのテキストボックス対象及び／又は少なくとも１つの文字対象を含み得る。

１つの可能な設計において、少なくとも１つのテーブル対象は、少なくとも１つのテキストボックス対象を含み得る。

少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップは、
認識待ちの画像の画像特徴を抽出するステップと、
少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に従って、画像特徴から少なくとも１つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するステップと、
任意のテーブル対象の領域画像特徴をテーブル対象の対象特徴として決定し、少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を取得するステップと、を含み得る。

選択的に、認識待ちの画像の画像特徴を抽出するステップは、認識待ちの画像を畳み込みニューラルネットワークに入力し、認識待ちの画像の画像特徴を計算することにより取得するステップを含み得る。実際に応用されるとき、畳み込みニューラルネットワークは、例えば、ＲｅｓＮｅｔ（Ｄｅｅｐｒｅｓｉｄｕａｌｎｅｔｗｏｒｋ、深度残差ニューラルネットワーク）、ＶＧＧ（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐＮｅｔｗｏｒｋ、ビジュアルジオメトリグループネットワーク）、ＭｏｂｉｌｅＮｅｔｓ（ＥｆｆｉｃｉｅｎｔＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＭｏｂｉｌｅＶｉｓｉｏｎＡｐｐｌｉｃａｔｉｏｎｓ、モバイルビジョンのための効率的な畳み込みニューラルネットワーク）などの伝統的な畳み込みニューラルネットワークにしてもよい。

他の可能な設計において、少なくとも１つのテーブル対象は、少なくとも１つの文字対象を含み、少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップは、
認識待ちの画像内の少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップと、
少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を取得するステップと、を含み、
少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を取得するステップは、少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報を単語ベクトル抽出モデルに入力し、少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を取得するステップを含み得る。

単語ベクトル抽出モデルは、Ｗｏｒｄ２Ｖｅｃ（ｗｏｒｄｅｍｂｅｄｄｉｎｇ、単語ベクトル）モデルであってもよい。抽出された少なくとも１つのテーブル対象にそれぞれ対応する対象特徴は、少なくとも１つのテーブル対象にそれぞれ対応するテキスト単語ベクトルであってもよい。各テーブル対象のテキスト単語ベクトルのベクトル長は同じで、ベクトル長は、予め設定されてもよい。

また、単語ベクトル抽出モデルは、さらに、他の深度ニューラルネットワークの単語ベクトルモデル、例えば、Ｇｌｏｖｅ（Ｇｌｏｂａｌｖｅｃｔｏｒｓｆｏｒｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ、グローバル単語頻度統計の単語表現モデル）などであってもよい。

少なくとも１つのテーブル対象は少なくとも１つのテキストボックス対象と少なくとも１つの文字対象との両方を含む場合、少なくとも１つのテキストボックス対象の対象特徴を認識する方法として、前述実施例における、少なくとも１つのテキストボックス対象を認識する方法を参照することができ、少なくとも１つの文字対象の対象特徴を認識する方法として、前述実施例における、少なくとも１つのテキストボックス対象を認識する方法を参照することができ、説明の簡潔さのために、ここでは繰り返して説明しない。

少なくとも１つのテーブル対象は少なくとも１つのテキストボックス対象と少なくとも１つの文字対象との両方を含む場合、少なくとも１つの文字対象と少なくとも１つのテキストボックス対象とを並列に配置し、少なくとも１つの文字対象にそれぞれ対応するマルチモーダル特徴と、少なくとも１つのテキストボックス対象にそれぞれ対応するマルチモーダル特徴との両方を、並列に配置するように、特徴融合モデルに入力し、少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を取得できる。

図５を参照すれば、ＯＣＲ技術を採用して認識待ちの画像を認識し、少なくとも１つの文字対象にそれぞれ対応する対象特徴がＴ１、Ｔ２、Ｔ３、……、Ｔｎ、[ＳＥＰ]で、ｎが１より大きい正の整数であり、少なくとも１つのテキストボックス対象にそれぞれ対応する対象特徴がＶ１、Ｖ２、Ｖ３、……、Ｖｍ、[ＰＡＤ]で、ｍが１より大きい正の整数であることを取得すると仮定する。少なくとも１つの文字対象にそれぞれ対応する領域特徴は、Ｂ(ｔ１)、Ｂ(ｔ２) 、Ｂ(ｔ３) ……、Ｂ(ｔｎ)、[ＳＥＰ]として示されてもよい。少なくとも１つのテキストボックス対象にそれぞれ対応する領域特徴は、Ｂ(ｖ１)、Ｂ(ｖ２) 、Ｂ(ｖ３) ……、Ｂ(ｖｎ)、[ＳＥＰ] として示されてもよい。他のタイプのモーダル種類に対応するモーダル特徴、例えば、テーブル識別子特徴は、Ｄ０、Ｄ１、……、Ｄｍとして示されてもよい。テーブル識別子特徴が同じである文字対象は２つ以上あってもよい。以上の複数のモーダルタイプの特徴に対して、重み付け計算、例えば、平均計算などを行い、少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴５０１：[Ｒｔ１、Ｒｔ２、Ｒｔ３、……、Ｒｔｎ、[ＳＥＰ]、Ｒｖ１、Ｒｖ２、Ｒｖ３、……、Ｒｖｍ、[ＰＡＤ]]を計算することにより取得できる。

この後、マルチモーダル特徴５０１：[Ｒｔ１、Ｒｔ２、Ｒｔ３、……、Ｒｔｎ、[ＳＥＰ]、Ｒｖ１、Ｒｖ２、Ｒｖ３、……、Ｒｖｍ、[ＰＡＤ]]を特徴融合モデル、例えば図５に示されている深度自己注意ネットワーク５０２に入力し、少なくとも１つのテーブル対象にそれぞれ対応する目標特徴５０３：[Ｒｔ１’、Ｒｔ２’、Ｒｔ３’、……、Ｒｔｎ’、 [ＳＥＰ]、Ｒｖ１’、Ｒｖ２’、Ｒｖ３’、……、Ｖｍ’ 、[ＰＡＤ]]を取得できる。実際に応用されるとき、特徴融合モデルに入力された特徴は、少なくとも１つのテーブル対象のそれぞれのマルチモーダル特徴のほか、さらに、例えば、 [ＳＥＰ]特徴、[ＰＡＤ]特徴などのテーブル構造特徴を含んでもよい。[ＳＥＰ]特徴を特徴融合して取得される目標特徴は、依然としてテーブル構造特徴であり、例えば、[ＳＥＰ]特徴入力では、特徴融合処理で取得される特徴は、依然として[ＳＥＰ]特徴である。テーブル構造特徴を認識して取得されるテーブル属性は、一般的に、非セル属性である。例えば、[ＳＥＰ]特徴は、テーブル属性認識によってテーブル終了属性＜／ｔｄ＞が取得され、＜／ｔｄ＞は非セル属性である。

マルチモーダル特徴を取得した後、マルチモーダル特徴を利用して目標対象のセル位置情報を認識できる。少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するステップは、
少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップと、
少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、を含んでもよい。

少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を取得した後、少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴に対してセル位置情報の抽出を行うことができる。

マルチモーダル特徴には、少なくとも１つのモーダル種類におけるテーブル対象の特徴が統合されており、テーブル対象はより全面的に分析され、取得されたマルチモーダル特徴には、より全面的なテーブル対象情報が含まれており、それにより、マルチモーダル特徴を利用してセル位置情報抽出を行うとき、より正確的なセル位置情報は取得され、スプレッドシートの復元精度を向上させることができる。
少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップは、
少なくとも１つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、マッチング対象のマルチモーダル特徴を目標対象のマルチモーダル特徴として決定し、少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含んでもよい。

少なくとも１つの目標対象を取得した後、同一のセル領域に所属する目標対象は２つ以上存在する可能性があり、同一のセル領域に所属する目標対象のセル位置情報に対して重み付け計算を行い、当該セル領域に対応するセル位置情報をより正確に取得する。１つの可能な実施形態として、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像のスプレッドシートを生成するステップは、
少なくとも１つの目標対象にそれぞれ対応するテーブル属性に従って、少なくとも１つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも１つの対象グループを取得するステップと、
少なくとも１つの対象グループをトラバースし、任意の対象グループ内の少なくとも１つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、少なくとも１つの対象グループにそれぞれ対応する目標位置情報を取得するステップと、
少なくとも１つの対象グループにそれぞれ対応する目標位置情報に従って、認識待ちの画像のスプレッドシートを生成するステップと、を含んでもよい。
任意の対象グループ内の少なくとも１つの目標対象にそれぞれ対応する重みは同じであってもよい。つまり、少なくとも１つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行うステップは、少なくとも１つの目標対象のそれぞれのセル位置情報に対して平均計算を行うステップを含んでもよい。取得された目標位置情報は、少なくとも１つの目標対象のセル位置情報の平均計算の結果である。

本実施例において、少なくとも１つの目標対象をグループ分けし、同じグループに所属する目標対象のセル位置情報に対して重み付け計算を行い、各対象グループの目標位置情報を取得する。グループ内の目標対象のセル位置情報に対して重み付け計算を行うことで、取得された目標位置情報は、セルの位置により正確にマッチングする情報になり、セル領域の抽出精度は向上し、取得されたスプレッドシートはより正確的なものになる。

１つの実施例として、少なくとも１つの対象グループをトラバースし、任意の対象グループ内の少なくとも１つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、少なくとも１つの対象グループにそれぞれ対応する目標位置情報を取得するステップの後、当該方法は、さらに、
認識待ちの画像内の少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップと、
任意の対象グループ内の少なくとも１つの目標対象のそれぞれの対象テキスト情報に従って、当該対象グループの目標テキスト情報を決定し、少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含んでもよい。
少なくとも１つの対象グループにそれぞれ対応する目標位置情報に従って、認識待ちの画像のスプレッドシートを生成するステップは、
少なくとも１つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、認識待ちの画像のスプレッドシートを生成するステップを含んでもよい。
少なくとも１つのテーブル対象は、少なくとも１つのテキストボックス対象を含み、任意の対象グループ内の少なくとも１つの目標対象のそれぞれの対象テキスト情報に従って、対象グループの目標テキスト情報を決定し、少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップは、
少なくとも１つのテキストボックス対象にそれぞれ対応する対象位置情報と対象テキスト情報とを認識するステップと、
少なくとも１つのテキストボックス対象にそれぞれ対応する対象位置情報と少なくとも１つの対象グループにそれぞれ対応する目標位置情報とに基づき、少なくとも１つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするステップと、
任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、対象グループの目標テキスト情報として決定し、少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含む。

本実施例において、テキストボックス対象のテキスト情報をそれにマッチングするセルのテキスト情報として決定することで、各対象グループの目標テキスト情報はより正確的になり、取得された少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報はより正確になり、テーブル生成の正確性はさらに向上する。

図２に示されている実施例において、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を認識するとき、各セル位置情報を利用して認識待ちの画像を分割し、少なくとも１つの目標対象にそれぞれ対応する領域画像を取得し、領域画像を認識する方法を採用し、少なくとも１つの目標対象のそれぞれの領域画像の画像テキスト情報を取得し、少なくとも１つの目標対象にそれぞれ対応する画像テキスト情報を取得する。領域画像を認識する方法を用いて少なくとも１つの目標対象にそれぞれ対応する画像テキスト情報を取得する。上記実施例において、テキストボックスと目標対象との位置マッチング関係を利用し、テキストボックスに対応するテキスト情報を目標対象のセルに埋め込む。以上の２つの方法を用いて確認することにより、複数の方法による各セルの目標テキスト情報の取得を実現できる。

１つの可能な設計において、各セルのテキスト情報をより正確にするために、少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報と少なくとも１つの目標対象にそれぞれ対応する領域画像の画像テキスト情報を取得した後、任意の対象グループの目標テキスト情報は、以下の実施例によって取得されることができる。

任意の対象グループ内の少なくとも１つの目標対象のそれぞれの領域画像の画像テキスト情報を決定し、少なくとも１つの目標対象のそれぞれの領域画像の画像テキスト情報に対してセマンティック認識を行い、当該対象グループの認識セマンティック情報を取得する。任意の対象グループの認識セマンティック情報を目標テキスト情報と比較して、比較結果を取得する。比較結果に従って当該対象グループの目標テキスト情報を更新する。

比較結果は、セマンティック認識情報のセマンティック意味が目標テキスト情報に対してより正確的なものとなること、又はセマンティック認識情報のセマンティック意味が目標テキスト情報に対してずれがより大きくなることを含む。具体的に、以上の２つの情報のセマンティック点数又はセマンティック等級を計算し、その中から、より高いセマンティック点数又はセマンティック等級の情報を選択する。

比較結果に従って対象グループの目標テキスト情報を更新するステップは、比較結果がセマンティック認識情報のセマンティック意味が目標テキスト情報に対してより正確的なものとなる場合、セマンティック認識情報を目標テキスト情報とするステップと、比較結果がセマンティック認識情報のセマンティック意味が目標テキスト情報に対してずれがより大きくなる場合、元の目標テキスト情報を変更せずに保持するステップと、を含んでよい。

少なくとも１つの目標対象のそれぞれの領域画像のテキスト情報に対してセマンティック認識を行い、対象グループの認識セマンティック情報を取得するステップは、少なくとも１つのテキスト情報を、文法的規則又は少なくとも１つの目標対象の配置順序に従って組み合わせ、対象グループの認識セマンティック情報を取得するステップを含んでよい。文法的規則は、予め設定された文法的コンテンツ、例えば、セル内の文字セマンティックとテキストボックスコンテンツとのどちらかにすることができる。例えば、少なくとも１つの目標対象は、文字対象とテキストボックス対象とを含む場合、文字対象はＣＡＳＥ及びＮＡＭＥで、テキストボックス対象はＣＡＳＥＮＡＭＥであると仮定すると、対象の配置順序に従って、ＣＡＳＥの文字対象はＮＡＭＥ対象の左側に位置し、対応するセマンティックテキストはＣＡＳＥＮＡＭＥとなり、テキストボックス対象であるＣＡＳＥＮＡＭＥはセマンティックテキストと同じであり、文字コンテンツとテキストボックスのコンテンツとのどちらかにする文法的規則に従って、認識セマンティック情報としてそのうちのいずれかのＣＡＳＥＮＡＭＥを選択できる。

前述実施例において、少なくとも１つのテーブル対象を取得するとき、少なくとも１つのテーブル対象は、左から右及び上から下の順序に従って配置することができ、各テーブル対象は、それぞれ対応する配置順序がつく。

図６に示すように、図６は、本開示の第４の実施例により提供される１つのテーブル生成装置の構造概略図であり、画像のテーブルコンテンツ認識用の当該テーブル生成装置６００は、
認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するための属性認識ユニット６０１であって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含む属性認識ユニット６０１と、
少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定するための対象決定ユニット６０２と、
少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するための領域決定ユニット６０３と、
少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成するためのテーブル生成ユニット６０４と、を含んでもよい。

本開示の実施例において、認識待ちの画像について、当該認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象のそれぞれのテーブル属性を取得し、そして、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を利用して、少なくとも１つの目標対象における、セル属性を持つ少なくとも１つの目標対象を決定し、さらに、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を決定し、対象の所属するセルの特定を実現し、その結果、少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像のスプレッドシートを生成する。認識待ちの画像内の少なくとも１つのテーブル対象のテーブル属性を認識し、セル属性を持つ少なくとも１つの目標対象を利用してセル領域を認識し、認識待ちの画像内のセルを正確に認識し、セルを認識基準とすることにより、より正確的な認識結果を取得し、スプレッドシートの認識精度を向上できる。

１つの実施例として、テーブル生成ユニット６０４は、
少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも１つの目標対象にそれぞれ対応する領域画像を決定するための領域分割モジュールと、
少なくとも１つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、少なくとも１つの目標対象にそれぞれ対応する画像テキスト情報を取得するためのテキスト認識モジュールと、
少なくとも１つの目標対象にそれぞれ対応する画像テキスト情報とセル位置情報とに従って、スプレッドシートを生成するための第１の生成モジュールと、を含んでもよい。

１つの実施例として、テーブル生成ユニット６０４は、
認識待ちの画像内の少なくとも１つのテーブル対象を認識し、少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を取得するための対象認識モジュールと、
少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を決定するための第２の生成モジュールと、を含んでもよい。

１つの可能な設計において、第２の生成モジュールは、
少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を抽出するための特徴認識サブモジュールと、
少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するための対象分類サブモジュールと、を含む。

いくつかの実施例において、特徴認識サブモジュールは、
少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を抽出するための第１の抽出ユニットと、
少なくとも１つのテーブル対象にそれぞれ対応する領域特徴を抽出するための第２の抽出ユニットと、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングユニットと、
少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を取得するための特徴融合ユニットと、を含む。

１つの可能な実施形態として、認識待ちの画像に基づき、所定のモーダル種類のうち、少なくとも１つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するための第３の抽出ユニットをさらに含み、
特徴スプライシングユニットは、
任意のテーブル対象の対象特徴と領域特徴と、モーダル種類のうち、テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングモジュールを含む。

１つの可能な設計において、少なくとも１つのテーブル対象は少なくとも１つのテキストボックス対象を含み、第１の抽出ユニットは、
認識待ちの画像の画像特徴を抽出するための第１の抽出モジュールと、
少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に従って、画像特徴から少なくとも１つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するための第２の抽出モジュールと、
任意のテーブル対象の領域画像特徴をテーブル対象の対象特徴として決定し、少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を取得するための特徴決定モジュールと、を含んでもよい。

他の可能な設計において、少なくとも１つのテーブル対象は少なくとも１つの文字対象を含み、当該装置は、さらに、
認識待ちの画像内の少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットを含んでもよい。
第１の抽出ユニットは、
少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を取得するための第３の抽出モジュールを含んでよい。

１つの実施例として、領域決定ユニットは、
少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するための対象決定モジュールと、
少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するための位置決定モジュールと、を含む。

いくつかの実施例において、対象決定モジュールは、
少なくとも１つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、マッチング対象のマルチモーダル特徴を目標対象のマルチモーダル特徴として決定し、少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するための対象マッチングサブモジュールを含む。

１つの実施例として、テーブル生成ユニット６０４は、
少なくとも１つの目標対象にそれぞれ対応するテーブル属性に従って、少なくとも１つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも１つの対象グループを取得するための対象区分けモジュールと、
少なくとも１つの対象グループをトラバースし、任意の対象グループ内の少なくとも１つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、少なくとも１つの対象グループにそれぞれ対応する目標位置情報を取得するための位置重み付けモジュールと、
少なくとも１つの対象グループにそれぞれ対応する目標位置情報に従って、認識待ちの画像のスプレッドシートを生成するための第３の生成モジュールと、を含んでもよい。

当該装置は、さらに、
認識待ちの画像内の少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットと、
任意の対象グループ内の少なくとも１つの目標対象のそれぞれの対象テキスト情報に従って、対象グループの目標テキスト情報を決定し、少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報を取得するためのテキスト決定モジュールと、を含んでもよい。

第３の生成モジュールは、具体的に、
少なくとも１つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、認識待ちの画像のスプレッドシートを生成するために用いられる。

１つの可能な設計において、少なくとも１つのテーブル対象は少なくとも１つのテキストボックス対象を含み、テキスト決定モジュールは、
少なくとも１つのテキストボックス対象にそれぞれ対応する対象位置情報を認識するための第１の認識サブモジュールと、
少なくとも１つのテキストボックス対象にそれぞれ対応する対象位置情報と少なくとも１つの対象グループにそれぞれ対応する目標位置情報とに基づき、少なくとも１つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするための対象マッチングサブモジュールと、
任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、対象グループの目標テキスト情報として決定し、少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報を取得するための情報決定サブモジュールと、を含む。

本開示に係る技術案において、関連するユーザの個人情報の收集や、保存、使用などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。

本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラムを提供する。

本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも１つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか１つの実施例により提供される技術案を実行する。

図７は、本開示の実施例を実施するために使用可能な例示的な電子機器７００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実施を制限することを意図したものではない。

図７に示すように、電子機器７００は、計算ユニット７０１を含み、当該計算ユニット７０１は、読み取り専用メモリ（ＲＯＭ）７０２に記憶されたコンピュータプログラム、または、記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。ＲＡＭ７０３には、さらに、電子機器７００の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット７０１、ＲＯＭ７０２及びＲＡＭ７０３は、バス７０４を介して接続される。入力／出力（Ｉ／Ｏ）インタフェース７０５も、バス７０４に接続される。

キーボードやマウスなどの入力ユニット７０６と、さまざまなタイプのモニタやスピーカーなどの出力ユニット７０７と、磁気ディスクや光ディスクなどの記憶ユニット７０８と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット７０９と、を含む、機器７００における少なくとも１つのコンポーネントは、Ｉ／Ｏインタフェース７０５に接続される。通信ユニット７０９は、機器７００がインターネットなどのコンピュータネットワーク及び／又はさまざまな電気通信デットワークを介して他の機器と情報／データを交換することを可能にさせる。

計算ユニット７０１は、処理能力や計算能力を有するさまざまな汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット７０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、さまざまな専用な人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット７０１は、テーブル生成方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、テーブル生成方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット７０８などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ＲＯＭ７０２及び／又は通信ユニット７０９を介して機器７００にロード及び／又はインストールされることができる。コンピュータプログラムは、ＲＡＭ７０３にロードされて計算ユニット７０１により実行されると、上記に記載のテーブル生成方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット７０１は、他の任意の適当な手段（例えば、ファームウェアに頼る）を用いてテーブル生成方法を実行するように構成されることができる。

本明細書において、上記に記載のシステム及び技術的さまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、１つ又は複数のコンピュータプログラムに実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本開示に係る方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングされることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び／又はブロック図に示される機能／操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。

本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、１つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとする）、或いは、ミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）、或いは、フロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例示は、ローカルネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアント端末とサーバとを含んでよい。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末－サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びＶＰＳ（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称）サービスに存在する管理が難しく、サービスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

テーブル生成方法であって、
認識待ちの画像内の少なくとも１つのテーブル対象を認識し、前記少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含むステップと、
前記少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定するステップと、
前記少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、
前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するステップと、を含むテーブル生成方法。
前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するステップは、
前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも１つの目標対象にそれぞれ対応する領域画像を決定するステップと、
前記少なくとも１つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、前記少なくとも１つの目標対象にそれぞれ対応する画像テキスト情報を取得するステップと、
前記少なくとも１つの目標対象にそれぞれ対応する画像テキスト情報とセル位置情報とに従って、前記スプレッドシートを生成するステップと、を含む請求項１に記載の方法。
認識待ちの画像内の少なくとも１つのテーブル対象を認識し、前記少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップは、
前記認識待ちの画像内の少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を認識するステップと、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を利用し、前記少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を決定するステップと、を含む請求項１に記載の方法。
前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を利用し、前記少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を決定するステップは、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップと、
前記少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、前記少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップと、を含む請求項３に記載の方法。
前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップは、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップと、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも１つのテーブル対象にそれぞれ対応する領域特徴を抽出するステップと、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップと、
前記少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、前記少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を取得するステップと、を含む請求項４に記載の方法。
前記方法は、さらに、
前記認識待ちの画像に基づき、所定のモーダル種類のうち、前記少なくとも１つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するステップを含み、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシングを行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップは、
任意のテーブル対象の対象特徴と領域特徴と、前記モーダル種類のうち、前記テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含む請求項５に記載の方法。
前記少なくとも１つのテーブル対象は少なくとも１つのテキストボックス対象を含み、前記少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップは、
前記認識待ちの画像の画像特徴を抽出するステップと、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に従って、前記画像特徴から前記少なくとも１つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するステップと、
任意のテーブル対象の領域画像特徴を前記テーブル対象の対象特徴として決定し、前記少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を取得するステップと、を含む請求項５に記載の方法。
前記少なくとも１つのテーブル対象は少なくとも１つの文字対象を含み、
前記方法は、さらに、
前記認識待ちの画像内の少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップを含み、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップは、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、前記少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を取得するステップを含む請求項５に記載の方法。
前記少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するステップは、
前記少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、前記少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップと、
前記少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、を含む請求項５に記載の方法。
前記少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、前記少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップは、
前記少なくとも１つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、前記マッチング対象のマルチモーダル特徴を前記目標対象のマルチモーダル特徴として決定し、前記少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含む請求項９に記載の方法。
前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するステップは、
前記少なくとも１つの目標対象にそれぞれ対応するテーブル属性に従って、前記少なくとも１つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも１つの対象グループを取得するステップと、
前記少なくとも１つの対象グループをトラバースし、任意の対象グループ内の少なくとも１つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、前記少なくとも１つの対象グループにそれぞれ対応する目標位置情報を取得するステップと、
前記少なくとも１つの対象グループにそれぞれ対応する目標位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するステップと、を含む請求項１～１０のいずれか１項に記載の方法。
前記方法は、さらに、
前記認識待ちの画像内の少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップと、
任意の対象グループ内の少なくとも１つの目標対象のそれぞれの対象テキスト情報に従って、前記対象グループの目標テキスト情報を決定し、前記少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含み、
前記少なくとも１つの対象グループにそれぞれ対応する目標位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するステップは、
前記少なくとも１つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、前記認識待ちの画像のスプレッドシートを生成するステップを含む請求項１１に記載の方法。
前記少なくとも１つのテーブル対象は少なくとも１つのテキストボックス対象を含み、任意の対象グループ内の少なくとも１つの目標対象のそれぞれの対象テキスト情報に従って、前記対象グループの目標テキスト情報を決定し、前記少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップは、
前記少なくとも１つのテキストボックス対象にそれぞれ対応する対象位置情報を認識するステップと、
前記少なくとも１つのテキストボックス対象にそれぞれ対応する対象位置情報と、前記少なくとも１つの対象グループにそれぞれ対応する目標位置情報とに基づき、前記少なくとも１つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするステップと、
任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、前記対象グループの目標テキスト情報として決定し、前記少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含む請求項１２に記載の方法。
テーブル生成装置であって、
認識待ちの画像内の少なくとも１つのテーブル対象を認識し、前記少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するための属性認識ユニットであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含む属性認識ユニットと、
前記少なくとも１つのテーブル対象における、セル属性を持つ少なくとも１つの目標対象を決定するための対象決定ユニットと、
前記少なくとも１つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するための領域決定ユニットと、
前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するためのテーブル生成ユニットと、を含むテーブル生成装置。
前記テーブル生成ユニットは、
前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも１つの目標対象にそれぞれ対応する領域画像を決定するための領域分割モジュールと、
前記少なくとも１つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、前記少なくとも１つの目標対象にそれぞれ対応する画像テキスト情報を取得するためのテキスト認識モジュールと、
前記少なくとも１つの目標対象にそれぞれ対応する画像テキスト情報とセル位置情報とに従って、前記スプレッドシートを生成するための第１の生成モジュールと、を含む請求項１４に記載の装置。
前記テーブル生成ユニットは、
前記認識待ちの画像内の少なくとも１つのテーブル対象を認識し、前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を取得するための対象認識モジュールと、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報を利用し、前記少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を決定するための第２の生成モジュールと、を含む請求項１４に記載の装置。
前記第２の生成モジュールは、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を抽出するための特徴認識サブモジュールと、
前記少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、前記少なくとも１つのテーブル対象にそれぞれ対応するテーブル属性を取得するための対象分類サブモジュールと、を含む請求項１６に記載の装置。
前記特徴認識サブモジュールは、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を抽出するための第１の抽出ユニットと、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも１つのテーブル対象にそれぞれ対応する領域特徴を抽出するための第２の抽出ユニットと、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングユニットと、
前記少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、前記少なくとも１つのテーブル対象にそれぞれ対応する目標特徴を取得するための特徴融合ユニットと、を含む請求項１７に記載の装置。
前記認識待ちの画像に基づき、所定のモーダル種類のうち、前記少なくとも１つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するための第３の抽出ユニットをさらに含み、
前記特徴スプライシングユニットは、
任意のテーブル対象の対象特徴と領域特徴と、前記モーダル種類のうち、前記テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングモジュールを含む請求項１８に記載の装置。
前記少なくとも１つのテーブル対象は少なくとも１つのテキストボックス対象を含み、前記第１の抽出ユニットは、
前記認識待ちの画像の画像特徴を抽出するための第１の抽出モジュールと、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象位置情報に従って、前記画像特徴から前記少なくとも１つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するための第２の抽出モジュールと、
任意のテーブル対象の領域画像特徴を前記テーブル対象の対象特徴として決定し、前記少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を取得するための特徴決定モジュールと、を含む請求項１８に記載の装置。
前記少なくとも１つのテーブル対象は少なくとも１つの文字対象を含み、
前記装置は、さらに、
前記認識待ちの画像内の少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットを含み、
前記第１の抽出ユニットは、
前記少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、前記少なくとも１つのテーブル対象にそれぞれ対応する対象特徴を取得するための第３の抽出モジュールを含む請求項１８に記載の装置。
前記領域決定ユニットは、
前記少なくとも１つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、前記少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するための対象決定モジュールと、
前記少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、前記少なくとも１つの目標対象にそれぞれ対応するセル位置情報を取得するための位置決定モジュールと、を含む請求項１８に記載の装置。
前記対象決定モジュールは、
前記少なくとも１つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、前記マッチング対象のマルチモーダル特徴を前記目標対象のマルチモーダル特徴として決定し、前記少なくとも１つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するための対象マッチングサブモジュールを含む請求項２２に記載の装置。
前記テーブル生成ユニットは、
前記少なくとも１つの目標対象にそれぞれ対応するテーブル属性に従って、前記少なくとも１つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも１つの対象グループを取得するための対象区分けモジュールと、
前記少なくとも１つの対象グループをトラバースし、任意の対象グループ内の少なくとも１つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、前記少なくとも１つの対象グループにそれぞれ対応する目標位置情報を取得するための位置重み付けモジュールと、
前記少なくとも１つの対象グループにそれぞれ対応する目標位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するための第３の生成モジュールと、を含む請求項１４～２３のいずれか１項に記載の装置。
前記認識待ちの画像内の少なくとも１つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットと、
任意の対象グループ内の少なくとも１つの目標対象のそれぞれの対象テキスト情報に従って、前記対象グループの目標テキスト情報を決定し、前記少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報を取得するためのテキスト決定モジュールと、をさらに含み、
前記第３の生成モジュールは、具体的に、
前記少なくとも１つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、前記認識待ちの画像のスプレッドシートを生成するために用いられる請求項２４に記載の装置。
前記少なくとも１つのテーブル対象は少なくとも１つのテキストボックス対象を含み、前記テキスト決定モジュールは、
前記少なくとも１つのテキストボックス対象にそれぞれ対応する対象位置情報を認識するための第１の認識サブモジュールと、
前記少なくとも１つのテキストボックス対象にそれぞれ対応する対象位置情報と、前記少なくとも１つの対象グループにそれぞれ対応する目標位置情報とに基づき、前記少なくとも１つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするための対象マッチングサブモジュールと、
任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、前記対象グループの目標テキスト情報として決定し、前記少なくとも１つの対象グループにそれぞれ対応する目標テキスト情報を取得するための情報決定サブモジュールと、を含む請求項２４に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリとを含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令が、前記少なくとも１つのプロセッサが請求項１～１３のいずれか１項に記載の方法を実行できるように、前記少なくとも１つのプロセッサにより実行される、電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～１３のいずれか１項に記載の方法を実行させるために用いられるコンピュータ可読記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムはプロセッサにより実行されると、請求項１～１３のいずれか１項に記載の方法は実施されるコンピュータプログラム。