JP2022088602A - テーブル生成方法、装置、電子機器、記憶媒体及びプログラム - Google Patents

テーブル生成方法、装置、電子機器、記憶媒体及びプログラム Download PDF

Info

Publication number
JP2022088602A
JP2022088602A JP2022059810A JP2022059810A JP2022088602A JP 2022088602 A JP2022088602 A JP 2022088602A JP 2022059810 A JP2022059810 A JP 2022059810A JP 2022059810 A JP2022059810 A JP 2022059810A JP 2022088602 A JP2022088602 A JP 2022088602A
Authority
JP
Japan
Prior art keywords
target
feature
position information
information corresponding
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022059810A
Other languages
English (en)
Other versions
JP7300034B2 (ja
Inventor
ユエチェン ユ
Yuechen Yu
ユーリン リ
Yulin Li
チェンチュエン チャン
Chengquan Zhang
クン ヤオ
Kun Yao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022088602A publication Critical patent/JP2022088602A/ja
Application granted granted Critical
Publication of JP7300034B2 publication Critical patent/JP7300034B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Abstract

【課題】スマートシティ及びスマート金融のシーンに適用するテーブル生成方法、装置、電子機器、記憶媒体及びプログラムを提供する。【解決手段】テーブル生成方法は、認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップ201と、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含み、少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するステップ202と、少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップ203と、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成するステップ204、を含む。【選択図】図2

Description

本開示は、人工知能技術の分野、具体的に、コンピュータビジョン及び深層学習技術の分野に関し、特に、スマートシティ及びスマート金融のシーンに適用できる、テーブル生成方法、装置、電子機器、記憶媒体及びプログラムに関する。
OCR(Optical Character Recognition,光学式文字認識)技術とは、電子機器が紙に印刷された文字を検出し、明暗などのパターンを検出して画像のテーブル形状を決定し、そして、コンピュータ言語で表現されたテキストを、文字認識方法を使用して取得するプロセスを指す。
従来技術において、OCR技術によるテーブル認識方法は、正確性が低く、認識精度が劣っている。
本開示は、テーブル生成用の方法、装置、電子機器、記憶媒体及びプログラムを提供する。
第1の態様によれば、本開示は、テーブル生成方法を提供し、
認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含むステップと、
前記少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するステップと、
前記少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、
前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するステップと、を含む。
第2の態様によれば、本開示は、テーブル生成装置を提供し、
認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するための属性認識ユニットであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含む属性認識ユニットと、
前記少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するための対象決定ユニットと、
前記少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するための領域決定ユニットと、
前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するためのテーブル生成ユニットと、を含む。
第3の態様によれば、本開示は、電子機器を提供し、
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1の態様に記載の方法を実行できるように、前記少なくとも1つのプロセッサにより実行される。
第4の態様によれば、本開示は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第1の態様に記載の方法を実行させるために用いられる。
第5の態様によれば、本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサは、電子機器が第1の態様に記載の方法を実行するように、前記コンピュータプログラムを実行する。
本開示の技術案によれば、認識待ちの画像内の少なくとも1つのテーブル対象のテーブル属性を認識し、セル属性を持つ少なくとも1つの目標対象を利用してセル領域を認識し、認識待ちの画像内のセルを正確に認識し、有効なセル位置情報を取得し、さらに少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像のスプレッドシートを生成する。これにより、セルを認識基準とすることにより、より正確的な認識結果を取得し、スプレッドシートの認識精度を向上できる。
なお、この部分に記載されている内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の詳細の説明を通じて容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第1の実施例によるネットワークアーキテクチャの概略図である。 本開示の第2の実施例によるテーブル生成方法の1つの概略図である。 本開示の第3の実施例による他のテーブル生成方法のフローチャートである。 本開示の第4の実施例による別のテーブル生成方法のフローチャートである。 本開示の実施例に基づいて提供される特徴融合の概略図である。 本開示の実施例に係るテーブル生成方法を実現するためのテーブル生成装置のブロック図である。 本開示の実施例に係るテーブル生成方法を実現するための電子機器のブロック図である。
以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
本開示は、テーブル生成方法と装置、電子機器、記憶媒体及びプログラムを提供し、人工知能の分野、具体的に、コンピュータビジョン及び深層学習の分野に適用され、スマートシティ及びスマート金融シーンに応用することにより、テーブル生成精度を向上させる目的を達成することができる。
従来技術において、OCR技術を採用して画像内のスプレッドシートを認識することができる。通常、グローバルしきい値アルゴリズム、ローカルしきい値アルゴリズム、地域成長アルゴリズム、喫水線アルゴリズム、最小記述長アルゴリズム、マルコフ確率場に基づくアルゴリズムなどを採用し、画像に対して初歩的な二値化処理を行うことができる。そして、画像スキュー補正アルゴリズムを利用して画像を補正することができる。常用の画像スキュー補正アルゴリズムとして、例えば、投影マップベースのアルゴリズム、Hough(ハフ)変換ベースのアルゴリズム、最近傍クラスターアルゴリズム又はベクトル化アルゴリズムなどが挙げられる。その後、補正された画像特徴に対してテキストボックス検出を行い、画像内のテキストボックスを認識し、テキストボックスの画像での領域画像を取得して、各テキストボックスの領域画像内のテキスト情報及び位置情報を認識することにより、スプレッドシートを生成する。しかし、上記アルゴリズムによる計算の複雑さや認識待ちの画像の画像精度に対する高い要件などの規制があるため、このように伝統的なOCR技術を採用してテキストボックスを直接分割し、各テキストボックスに対応する領域画像のテキスト情報を認識することにより、各テキストボックスに対応する領域画像のテキスト情報に従ってスプレッドシートを生成する方法は、認識精度が低く、正確性も劣っている。
発明者は、当該技術的問題を解決するために、創造的研究を重ねた結果、スプレッドシートが作成されるとき、テーブル対象によってテーブル属性が異なってもよいことを見出した。例えば、テーブルの1つ目のテキストボックスのテーブル属性がヘッダー属性であり、テーブルが1行生成終了すると1つの終了識別子が取得され、例えば、</td>が終了識別子とされる。テーブルでは、テキストが載せられたテーブル対象のテーブル属性は、セル属性となり、各セル属性に対応するテーブル対象は、それぞれセルとなる。セルは、テキストボックスよりも基本的で標準的なスプレッドシートの属性であるため、セル単位で認識し、先にセルを認識し、次にスプレッドシートを認識することにより、スプレッドシートの認識精度を効果的に向上できる。したがって、認識待ちの画像内の各テキストボックス対象又は文字対象のテーブル属性を認識し、そして、各対象のテーブル属性を利用してテーブルを復元できる。発明者は、以上より、本開示の技術案を提案したまで至った。
本開示の実施例において、認識待ちの画像について、当該認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象のそれぞれのテーブル属性を取得し、テーブル属性は、セル属性又は非セル属性を含むことができ、少なくとも1つの目標対象における、セル属性を持つ少なくとも1つの目標対象を決定し、それによって、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を決定し、対象の所属するセルの特定を実現し、その結果、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像のスプレッドシートを生成する。認識待ちの画像内の少なくとも1つのテーブル対象のテーブル属性を認識し、セル属性を持つ少なくとも1つの目標対象を利用してセル領域を認識し、認識待ちの画像内のセルを正確に認識し、セルを認識基準とすることにより、より正確的な認識結果を取得し、スプレッドシートの認識精度を向上できる。
図1は、本開示に基づいて提供される、画像用のテーブル生成方法が応用された場合の1つのネットワークアーキテクチャ図である。図1に示すように、当該ネットワークアーキテクチャには、1つのサーバ1と、当該サーバ1にローカルエリアネットワーク又はワイドエリアネットワークを介してネットワークで接続されたユーザ機器2が含み得る。当該ユーザ機器をパーソナルコンピュータ2に仮定する。当該サーバ1として、例えば、普通のサーバ、スーパーパーソナルコンピュータ、クラウドサーバなどのタイプのサーバが挙げられるが、本開示では、サーバの具体的なタイプは、必要以上に限定されない。ユーザ機器2として、例えば、コンピュータ、ノートパソコン、タブレットコンピュータ、ウェアラブルデバイス、スマート家電、車載機器などの端末機器が挙げられるが、本開示の実施例において、ユーザ機器の具体的なタイプは、必要以上に限定されない。ユーザ機器は、ユーザにより提供される認識待ちの画像を検出し、認識待ちの画像をサーバに送信することができる。サーバは、認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得することができる。任意のテーブル対象のテーブル属性は、セル属性又は非セル属性である。少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定することにより、少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得することができる。さらに少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの対象に対応するスプレッドシートを生成する。セルを認識基準とすることにより、より正確的な認識結果を取得し、スプレッドシートの認識精度を向上できる。
本発明の実施例により提供されるテーブル生成方法は、例えば、教育や、スマートシティ、スマート金融、スマート交通又はスマート保険など、様々な応用シーンに適用することができ、それにより、紙の形で保存された文書や書類などは、スキャナーなどの電子的手段によって画像形式のものに変換される。各文書の照会又は調査研究を可能にして、データ使用効率を向上できるために、画像内のコンテンツをコンピュータで記憶可能なテーブルなどとして認識し、そして、映像及びテーブル情報に従ってインデックスを作成する必要がある。通常、OCR技術を採用して画像内のテーブルコンテンツを認識している。
以下、本開示の実施例に係る技術案について、図面を参照しながら詳細に説明する。
図2に示すように、図2は、本開示の第1の実施例により提供されるテーブル生成方法の1つの実施例のフローチャートであり、当該テーブル生成方法の実行主体は、テーブル生成装置である。当該テーブル生成装置は、電子機器に配置され得る。当該方法は、以下のいくつかのステップを含んでよい。
201において、認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得する。
任意のテーブル対象のテーブル属性は、セル属性又は非セル属性を含む。
本実施例により提供されるテーブル生成方法は、電子機器に適用でき、当該電子機器として、例えば、コンピュータ、スーパーパーソナルコンピュータ、ノートパソコン、クラウドサーバ、普通のサーバなどのデバイスが挙げられるが、本開示は、電子機器の具体的なタイプを必要以上に限定しない。
認識待ちの画像には、テーブル画像が含み得るが、テーブル画像は、コンピュータプログラムによって処理できないため、認識待ちの画像内の少なくとも1つのテーブル対象を認識し、そして、テーブル対象を利用してテーブル画像内のテーブルを復元できる。
選択的に、認識待ちの画像には、テーブル対象のほか、さらに、logo対象などの非テーブル対象や、カップ、小動物、人などの物体対象が含み得るが、本開示では、テーブル画像内のテーブル対象のみを処理し、非テーブル対象を認識した後、非テーブル対象を復元でき、その認識原理及び表示手段は、従来技術と同じであり、説明の簡潔さのために、本明細書では繰り返して説明しない。
任意のテーブル対象は、対応するテーブル属性を持つことができる。任意のテーブル対象のテーブル属性は、セル属性又は非セル属性のいずれかにすることができる。Httpプロトコルでは、セル属性は、<td>という識別子を使用して示すことができる。非セル属性は、少なくとも1つの属性を含むことができる。例えば、行<tr>属性、</td>属性、ヘッダー属性などは、いずれも非セル属性として分類され得る。
202において、少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定する。
少なくとも1つの目標対象は、少なくとも1つのテーブル対象から選択して処理する、テーブル属性がセル属性である対象にすることができる。具体的に、少なくとも1つのテーブル対象のそれぞれのテーブル属性に従って、少なくとも1つのテーブル対象から、テーブル属性がセル属性である少なくとも1つの目標対象を選択することができる。目標対象は、認識待ちの画像内の文字列対象を検出することにより取得されることができ、即ち、文字列を検出目標として、検出することで少なくとも1つの目標対象を取得する。
目標対象は、文字対象又はテキストボックス対象であってもよい。文字対象は、文字列においてスペースを認識終了条件として取得された単語であってもよい。例えば、CASE NAMEには、2つの文字対象であるCASEとNAMEとが含まれ得る。テキストボックス対象は、文字列の所属する文字列領域を認識条件として取得された各文字列の所属するテキストボックスである。例えば、CASE NAMEのテキストボックスは(v1、v2、v3、v4)であると仮定する場合、当該テキストボックス(v1、v2、v3、 4)は、テキストボックス対象とされ得る。
203において、少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得する。
少なくとも1つの目標対象にそれぞれ対応するセル領域は、少なくとも1つの目標対象がそれぞれ所属するセル領域であってよい。セル領域は長方形であると仮定すると、セル位置情報は、長方形の左上と右下との座標となり、この場合、セル位置情報は、目標対象の所属するセルの認識待ちの画像での位置座標となる。
204において、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成する。
選択的に、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成するステップは、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも1つの目標対象のうち、セル位置情報が同じである目標対象に対して重複排除処理を行い、少なくとも1つの目標位置情報を取得し、それによって、少なくとも1つの目標位置情報と少なくとも1つの目標位置情報のセルに対応するテキスト情報とに従って、認識待ちの画像に対応するスプレッドシートを生成するステップを含み得る。
本開示の実施例において、認識待ちの画像について、当該認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象のそれぞれのテーブル属性を取得し、そして、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を利用して、少なくとも1つの目標対象における、セル属性を持つ少なくとも1つの目標対象を決定し、さらに、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を決定し、対象の所属するセルの特定を実現し、その結果、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像のスプレッドシートを生成する。認識待ちの画像内の少なくとも1つのテーブル対象のテーブル属性を認識することにより、セル属性を持つ少なくとも1つの目標対象を利用してセル領域を認識し、認識待ちの画像内のセルを正確に認識し、セルを認識基準とすることにより、より正確的な認識結果を取得し、スプレッドシートの認識精度を向上できる。
テーブルにおけるセルを正確に認識するために、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成するとき、セル領域の画像認識方法を採用して認識することができる。具体的に、図3に示すように、図3は、本開示の第2の実施例により提供されるテーブル生成方法の1つのフローチャートであり、当該方法は、以下のいくつかのステップを含んでよい。
301において、認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得する。
任意のテーブル対象のテーブル属性は、セル属性又は非セル属性である。
本実施例における一部のステップは、上記実施例における一部のステップと同じであるため、説明の簡潔さのために、ここでは繰り返して説明しない。
302において、少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定する。
303において、少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得する。
304において、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも1つの目標対象にそれぞれ対応する領域画像を決定する。
選択的に、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも1つの目標対象にそれぞれ対応する領域画像を決定するステップは、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像から各セル位置情報に対応する領域画像を抽出し、少なくとも1つの目標対象にそれぞれ対応する領域画像を取得するステップを含み得る。
領域画像は、認識待ちの画像から抽出された、セル領域に対応する部分的な画像である。
305において、少なくとも1つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、少なくとも1つの目標対象にそれぞれ対応するテキスト情報を取得する。
選択的に、少なくとも1つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、少なくとも1つの目標対象にそれぞれ対応するテキスト情報を取得するステップは、少なくとも1つの目標対象にそれぞれ対応する領域画像を文字認識アルゴリズムを利用して認識し、少なくとも1つの目標対象にそれぞれ対応するテキスト情報を取得するステップを含み得る。具体的に、任意の領域画像を文字認識アルゴリズムに入力し、文字認識アルゴリズムを利用して認識し、当該領域画像のテキスト情報を取得できる。
領域画像のテキスト情報を正確に認識することができるように、文字認識アルゴリズムは、従来技術における任意の文字認識アルゴリズムであってよい。例えば、CRNN(Convolutional Recurrent Neural Network,畳み込みリカレントニューラルネットワーク)又はFOTS(Fast Oriented Text Spotting,エンドツーエンドのテキスト検出と認識)などの機械学習に基づく認識アルゴリズムであってよい。
306において、少なくとも1つの目標対象にそれぞれ対応するテキスト情報とセル位置情報とに従って、スプレッドシートを生成する。
スプレッドシートは、少なくとも1つの目標対象にそれぞれ対応するテキスト情報とセル位置情報とに従って生成され得る。具体的に、空白のテーブルを生成し、少なくとも1つの目標対象のそれぞれのセル位置情報に従って、対応するテキスト情報を空白テーブルに埋め込むことができる。空白テーブルは、少なくとも1つの目標対象にそれぞれ対応するセル位置情報によって示されたセル構造に応じて生成され得る。
本実施例において、認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得できる。任意のテーブル対象のテーブル属性は、セル属性又は非セル属性であるため、少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象は決定されることができる。さらに、少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得できる。セル領域を認識することで、正確的なセル位置情報を取得できる。その結果、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも1つの目標対象にそれぞれ対応する領域画像を決定し、少なくとも1つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、少なくとも1つの目標対象にそれぞれ対応するテキスト情報を取得して、正確的なテキスト情報を取得する。それによって、少なくとも1つの目標対象にそれぞれ対応するテキスト情報とセル位置情報とに従って、スプレッドシートを生成する。テキスト情報とセル位置情報とを利用した正確的な生成により、取得された各目標対象のそれぞれのテキスト情報とセル位置情報との一致性はより高くなり、それによって、スプレッドシートの正確的な生成は完成され、スプレッドシートの正確性は確保される。
セルコンテンツ認識のために採用される方法として、画像認識方法のほか、OCR認識に基づき、セルコンテンツをより正確に認識する方法も考えられる。図4に示すように、図4は、本開示の第3の実施例により提供されるテーブル生成方法の1つのフローチャートであり、当該方法は、以下のいくつかのステップを含んでよい。
401において、認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を取得する。
本実施例における一部のステップは、上記実施例における一部のステップと同じであるため、説明の簡潔さのために、ここでは繰り返して説明しない。
対象位置情報は、テーブル対象をカバーすることができる領域によって形成される位置情報であってよい。対象位置情報は、長方形の座標位置情報を含んでもよい。当該長方形は、テーブル対象をカバーする長方形領域であってもよい。任意のテーブル対象の対象テキスト情報は、当該テーブル対象の対象位置情報の中のテキスト情報であってもよい。
選択的に、従来のOCR技術を採用して認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報と対象テキスト情報とを取得できる。本実施例においては、従来のOCR技術に基づき、認識結果、即ち、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報と対象テキスト情報とを利用して、テーブル構造をさらに分析し、それによって、テーブル構造を利用してテーブルをより正確に復元する。
402において、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定する。
任意のテーブル対象のテーブル属性は、セル属性及び/又は非セル属性である。
選択的に、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定するステップは、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも1つのテーブル対象のテーブル構造を分析して処理し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップを含む。
403において、少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定する。
404において、少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得する。
405において、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成する。
本実施例において、認識待ちの画像内の少なくとも1つのテーブル対象を認識した後、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報と対象テキスト情報とを取得でき、それによって、少なくとも1つのテーブル対象にそれぞれ対応する対象領域情報と対象テキスト情報とを利用し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定でき、これにより、少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定する。その後、少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得する。少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成する。認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報と対象テキスト情報とを認識し、対象位置情報と対象テキスト情報とを利用して、認識待ちの画像のテーブル構造を分析し、少なくとも1つの目標対象のそれぞれのテーブル属性を取得する。テーブル構造を正確に分析することで、各目標対象の正確的なテーブル属性を取得でき、それによって、テーブル属性を利用してテーブルは正確に復元され、復元結果の正確さの向上は確保される。
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定するステップは、
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップと、
少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップと、を含んでもよい。
選択的に、属性分類モデルは、深度ニューラルネットワークモデル、例えば、深度自己注意モデルのデコーダーであってよい。少なくとも1つのテーブル対象にそれぞれ対応する目標特徴は、深度自己注意モデルのエンコーダーを利用して、少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報と対象位置情報とをエンコードして取得され得る。少なくとも1つのテーブル対象にそれぞれ対応する目標特徴は、深度自己注意モデルのデコーダーを利用して取得され得る。少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップは、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を深度自己注意モデルのデコーダーに入力し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップを含み得る。
深度自己注意モデルのエンコーダーとデコーダーは、訓練して取得され得る。具体的な訓練ステップは、それぞれ正確的な属性の識別子に対応する少なくとも1つの訓練サンプルを決定するステップと、訓練結果が少なくとも1つの訓練サンプルにそれぞれ対応する正確的な属性識別子であることを訓練目標として、少なくとも1つの訓練サンプルを利用して訓練し、深度自己注意モデルのエンコーダー及びデコーダーのそれぞれのモデルパラメータを取得するステップと、を含んでもよい。
訓練中に、各訓練サンプルの目標特徴を抽出する方法、及び各訓練サンプルの目標特徴を利用してテーブル対象の属性を決定する方法は、本開示の実施例における、少なくとも1つのテーブル対象を抽出及び分類する方法と同じであるため、ここでは繰り返して説明しない。
テーブル属性は、テーブル属性識別子で示されてよい。例えば、<tr>、<td>などは、いずれもテーブル属性を示すことができる。テーブル属性の具体的な表現方法は、従来技術であり、例えば、httpプロトコルにより、テーブル属性を直接認識し、テーブル属性に応じてテーブルをレンダリングできる。テーブル属性は、テーブル構造の決定のために用いられる。
さらに、選択的に、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップは、
少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップと、
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を抽出するステップと、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップと、
少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するステップと、を含んでもよい。
特徴融合モデルは、深度ニューラルネットワークモデル、例えば、深度自己注意モデルのエンコーダーであってよい。少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するステップは、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を深度自己注意モデルのエンコーダーに入力し、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するステップを含み得る。
選択的に、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を抽出するステップは、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を、特徴変換モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を取得するステップを含み得る。
特徴変換モデルは、Word2Vec(word embedding、単語ベクトル)モデルであってよい。抽出された少なくとも1つのテーブル対象にそれぞれ対応する領域特徴は、少なくとも1つのテーブル対象にそれぞれ対応する領域単語ベクトルであってよい。各テーブル対象の領域単語ベクトルのベクトル長は同じで、ベクトル長は予め設定されてもよい。
また、特徴変換モデルは、他の深度ニューラルネットワークモデル、例えば、Glove( Global vectors for word representation、グローバル単語頻度統計の単語表現モデル)などであってもよい。
なお、本開示における任意のモデルに関する説明は、各モデル種類の詳細な説明にすぎず、本開示に係る技術案を具体的に限定しておらず、本分野における、本開示に係る技術案に適用できる他のモデルも、本開示の保護内容に含まれる。
対象特徴と領域特徴の2つのモーダル種類に対応するモーダル特徴のほか、さらに、他のモーダル種類のモーダル特徴を認識して、より多くのマルチモーダルの特徴を取得し、より多くの種類の特徴の総合認識を実現することにより、モジュール種類によってマルチモーダル特徴表現の全面性を高め、それによって、認識効率及び認識正確性の向上を促進する。
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を抽出するステップを実行した後、当該方法は、さらに、
認識待ちの画像に基づき、所定のモーダル種類のうち、少なくとも1つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するステップを含んでもよい。
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシングを行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップは、
任意のテーブル対象の対象特徴と領域特徴と、モーダル種類のうち、テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含んでもよい。
少なくとも1つのテーブル対象は、少なくとも1つのテキストボックス対象及び/又は少なくとも1つの文字対象を含み得る。
1つの可能な設計において、少なくとも1つのテーブル対象は、少なくとも1つのテキストボックス対象を含み得る。
少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップは、
認識待ちの画像の画像特徴を抽出するステップと、
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に従って、画像特徴から少なくとも1つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するステップと、
任意のテーブル対象の領域画像特徴をテーブル対象の対象特徴として決定し、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップと、を含み得る。
選択的に、認識待ちの画像の画像特徴を抽出するステップは、認識待ちの画像を畳み込みニューラルネットワークに入力し、認識待ちの画像の画像特徴を計算することにより取得するステップを含み得る。実際に応用されるとき、畳み込みニューラルネットワークは、例えば、ResNet(Deep residual network、深度残差ニューラルネットワーク)、VGG(Visual Geometry Group Network、ビジュアルジオメトリグループネットワーク)、MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications、モバイルビジョンのための効率的な畳み込みニューラルネットワーク)などの伝統的な畳み込みニューラルネットワークにしてもよい。
他の可能な設計において、少なくとも1つのテーブル対象は、少なくとも1つの文字対象を含み、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップは、
認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップと、
少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップと、を含み、
少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップは、少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を単語ベクトル抽出モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップを含み得る。
単語ベクトル抽出モデルは、Word2Vec(word embedding、単語ベクトル)モデルであってもよい。抽出された少なくとも1つのテーブル対象にそれぞれ対応する対象特徴は、少なくとも1つのテーブル対象にそれぞれ対応するテキスト単語ベクトルであってもよい。各テーブル対象のテキスト単語ベクトルのベクトル長は同じで、ベクトル長は、予め設定されてもよい。
また、単語ベクトル抽出モデルは、さらに、他の深度ニューラルネットワークの単語ベクトルモデル、例えば、Glove( Global vectors for word representation、グローバル単語頻度統計の単語表現モデル)などであってもよい。
少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象と少なくとも1つの文字対象との両方を含む場合、少なくとも1つのテキストボックス対象の対象特徴を認識する方法として、前述実施例における、少なくとも1つのテキストボックス対象を認識する方法を参照することができ、少なくとも1つの文字対象の対象特徴を認識する方法として、前述実施例における、少なくとも1つのテキストボックス対象を認識する方法を参照することができ、説明の簡潔さのために、ここでは繰り返して説明しない。
少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象と少なくとも1つの文字対象との両方を含む場合、少なくとも1つの文字対象と少なくとも1つのテキストボックス対象とを並列に配置し、少なくとも1つの文字対象にそれぞれ対応するマルチモーダル特徴と、少なくとも1つのテキストボックス対象にそれぞれ対応するマルチモーダル特徴との両方を、並列に配置するように、特徴融合モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得できる。
図5を参照すれば、OCR技術を採用して認識待ちの画像を認識し、少なくとも1つの文字対象にそれぞれ対応する対象特徴がT1、T2、T3、……、Tn、[SEP]で、nが1より大きい正の整数であり、少なくとも1つのテキストボックス対象にそれぞれ対応する対象特徴がV1、V2、V3、……、Vm、[PAD]で、mが1より大きい正の整数であることを取得すると仮定する。少なくとも1つの文字対象にそれぞれ対応する領域特徴は、B(t1)、B(t2) 、B(t3) ……、B(tn)、[SEP]として示されてもよい。少なくとも1つのテキストボックス対象にそれぞれ対応する領域特徴は、B(v1)、B(v2) 、B(v3) ……、B(vn)、[SEP] として示されてもよい。他のタイプのモーダル種類に対応するモーダル特徴、例えば、テーブル識別子特徴は、D0、D1、……、Dmとして示されてもよい。テーブル識別子特徴が同じである文字対象は2つ以上あってもよい。以上の複数のモーダルタイプの特徴に対して、重み付け計算、例えば、平均計算などを行い、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴501:[Rt1、Rt2、Rt3、……、Rtn、[SEP]、 Rv1、Rv2、Rv3、……、Rvm、[PAD]]を計算することにより取得できる。
この後、マルチモーダル特徴501:[Rt1、Rt2、Rt3、……、Rtn、[SEP]、 Rv1、Rv2、Rv3、……、Rvm、[PAD]]を特徴融合モデル、例えば図5に示されている深度自己注意ネットワーク502に入力し、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴503:[Rt1’、Rt2’、Rt3’、……、Rtn’、 [SEP]、 Rv 1’、 Rv 2’、 Rv 3’、……、Vm’ 、[PAD]]を取得できる。実際に応用されるとき、特徴融合モデルに入力された特徴は、少なくとも1つのテーブル対象のそれぞれのマルチモーダル特徴のほか、さらに、例えば、 [SEP]特徴、[PAD]特徴などのテーブル構造特徴を含んでもよい。[SEP]特徴を特徴融合して取得される目標特徴は、依然としてテーブル構造特徴であり、例えば、[SEP]特徴入力では、特徴融合処理で取得される特徴は、依然として[SEP]特徴である。テーブル構造特徴を認識して取得されるテーブル属性は、一般的に、非セル属性である。例えば、[SEP]特徴は、テーブル属性認識によってテーブル終了属性</td>が取得され、</td>は非セル属性である。
マルチモーダル特徴を取得した後、マルチモーダル特徴を利用して目標対象のセル位置情報を認識できる。少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップは、
少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップと、
少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、を含んでもよい。
少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を取得した後、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴に対してセル位置情報の抽出を行うことができる。
マルチモーダル特徴には、少なくとも1つのモーダル種類におけるテーブル対象の特徴が統合されており、テーブル対象はより全面的に分析され、取得されたマルチモーダル特徴には、より全面的なテーブル対象情報が含まれており、それにより、マルチモーダル特徴を利用してセル位置情報抽出を行うとき、より正確的なセル位置情報は取得され、スプレッドシートの復元精度を向上させることができる。
少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップは、
少なくとも1つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、マッチング対象のマルチモーダル特徴を目標対象のマルチモーダル特徴として決定し、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含んでもよい。
少なくとも1つの目標対象を取得した後、同一のセル領域に所属する目標対象は2つ以上存在する可能性があり、同一のセル領域に所属する目標対象のセル位置情報に対して重み付け計算を行い、当該セル領域に対応するセル位置情報をより正確に取得する。1つの可能な実施形態として、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像のスプレッドシートを生成するステップは、
少なくとも1つの目標対象にそれぞれ対応するテーブル属性に従って、少なくとも1つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも1つの対象グループを取得するステップと、
少なくとも1つの対象グループをトラバースし、任意の対象グループ内の少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、少なくとも1つの対象グループにそれぞれ対応する目標位置情報を取得するステップと、
少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、認識待ちの画像のスプレッドシートを生成するステップと、を含んでもよい。
任意の対象グループ内の少なくとも1つの目標対象にそれぞれ対応する重みは同じであってもよい。つまり、少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行うステップは、少なくとも1つの目標対象のそれぞれのセル位置情報に対して平均計算を行うステップを含んでもよい。取得された目標位置情報は、少なくとも1つの目標対象のセル位置情報の平均計算の結果である。
本実施例において、少なくとも1つの目標対象をグループ分けし、同じグループに所属する目標対象のセル位置情報に対して重み付け計算を行い、各対象グループの目標位置情報を取得する。グループ内の目標対象のセル位置情報に対して重み付け計算を行うことで、取得された目標位置情報は、セルの位置により正確にマッチングする情報になり、セル領域の抽出精度は向上し、取得されたスプレッドシートはより正確的なものになる。
1つの実施例として、少なくとも1つの対象グループをトラバースし、任意の対象グループ内の少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、少なくとも1つの対象グループにそれぞれ対応する目標位置情報を取得するステップの後、当該方法は、さらに、
認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップと、
任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、当該対象グループの目標テキスト情報を決定し、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含んでもよい。
少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、認識待ちの画像のスプレッドシートを生成するステップは、
少なくとも1つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、認識待ちの画像のスプレッドシートを生成するステップを含んでもよい。
少なくとも1つのテーブル対象は、少なくとも1つのテキストボックス対象を含み、任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、対象グループの目標テキスト情報を決定し、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップは、
少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報と対象テキスト情報とを認識するステップと、
少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報と少なくとも1つの対象グループにそれぞれ対応する目標位置情報とに基づき、少なくとも1つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするステップと、
任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、対象グループの目標テキスト情報として決定し、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含む。
本実施例において、テキストボックス対象のテキスト情報をそれにマッチングするセルのテキスト情報として決定することで、各対象グループの目標テキスト情報はより正確的になり、取得された少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報はより正確になり、テーブル生成の正確性はさらに向上する。
図2に示されている実施例において、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を認識するとき、各セル位置情報を利用して認識待ちの画像を分割し、少なくとも1つの目標対象にそれぞれ対応する領域画像を取得し、領域画像を認識する方法を採用し、少なくとも1つの目標対象のそれぞれの領域画像の画像テキスト情報を取得し、少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報を取得する。領域画像を認識する方法を用いて少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報を取得する。上記実施例において、テキストボックスと目標対象との位置マッチング関係を利用し、テキストボックスに対応するテキスト情報を目標対象のセルに埋め込む。以上の2つの方法を用いて確認することにより、複数の方法による各セルの目標テキスト情報の取得を実現できる。
1つの可能な設計において、各セルのテキスト情報をより正確にするために、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報と少なくとも1つの目標対象にそれぞれ対応する領域画像の画像テキスト情報を取得した後、任意の対象グループの目標テキスト情報は、以下の実施例によって取得されることができる。
任意の対象グループ内の少なくとも1つの目標対象のそれぞれの領域画像の画像テキスト情報を決定し、少なくとも1つの目標対象のそれぞれの領域画像の画像テキスト情報に対してセマンティック認識を行い、当該対象グループの認識セマンティック情報を取得する。任意の対象グループの認識セマンティック情報を目標テキスト情報と比較して、比較結果を取得する。比較結果に従って当該対象グループの目標テキスト情報を更新する。
比較結果は、セマンティック認識情報のセマンティック意味が目標テキスト情報に対してより正確的なものとなること、又はセマンティック認識情報のセマンティック意味が目標テキスト情報に対してずれがより大きくなることを含む。具体的に、以上の2つの情報のセマンティック点数又はセマンティック等級を計算し、その中から、より高いセマンティック点数又はセマンティック等級の情報を選択する。
比較結果に従って対象グループの目標テキスト情報を更新するステップは、比較結果がセマンティック認識情報のセマンティック意味が目標テキスト情報に対してより正確的なものとなる場合、セマンティック認識情報を目標テキスト情報とするステップと、比較結果がセマンティック認識情報のセマンティック意味が目標テキスト情報に対してずれがより大きくなる場合、元の目標テキスト情報を変更せずに保持するステップと、を含んでよい。
少なくとも1つの目標対象のそれぞれの領域画像のテキスト情報に対してセマンティック認識を行い、対象グループの認識セマンティック情報を取得するステップは、少なくとも1つのテキスト情報を、文法的規則又は少なくとも1つの目標対象の配置順序に従って組み合わせ、対象グループの認識セマンティック情報を取得するステップを含んでよい。文法的規則は、予め設定された文法的コンテンツ、例えば、セル内の文字セマンティックとテキストボックスコンテンツとのどちらかにすることができる。例えば、少なくとも1つの目標対象は、文字対象とテキストボックス対象とを含む場合、文字対象はCASE及びNAMEで、テキストボックス対象はCASE NAMEであると仮定すると、対象の配置順序に従って、CASEの文字対象はNAME対象の左側に位置し、対応するセマンティックテキストはCASE NAMEとなり、テキストボックス対象であるCASE NAMEはセマンティックテキストと同じであり、文字コンテンツとテキストボックスのコンテンツとのどちらかにする文法的規則に従って、認識セマンティック情報としてそのうちのいずれかのCASE NAMEを選択できる。
前述実施例において、少なくとも1つのテーブル対象を取得するとき、少なくとも1つのテーブル対象は、左から右及び上から下の順序に従って配置することができ、各テーブル対象は、それぞれ対応する配置順序がつく。
図6に示すように、図6は、本開示の第4の実施例により提供される1つのテーブル生成装置の構造概略図であり、画像のテーブルコンテンツ認識用の当該テーブル生成装置600は、
認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するための属性認識ユニット601であって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含む属性認識ユニット601と、
少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するための対象決定ユニット602と、
少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するための領域決定ユニット603と、
少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成するためのテーブル生成ユニット604と、を含んでもよい。
本開示の実施例において、認識待ちの画像について、当該認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象のそれぞれのテーブル属性を取得し、そして、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を利用して、少なくとも1つの目標対象における、セル属性を持つ少なくとも1つの目標対象を決定し、さらに、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を決定し、対象の所属するセルの特定を実現し、その結果、少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像のスプレッドシートを生成する。認識待ちの画像内の少なくとも1つのテーブル対象のテーブル属性を認識し、セル属性を持つ少なくとも1つの目標対象を利用してセル領域を認識し、認識待ちの画像内のセルを正確に認識し、セルを認識基準とすることにより、より正確的な認識結果を取得し、スプレッドシートの認識精度を向上できる。
1つの実施例として、テーブル生成ユニット604は、
少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも1つの目標対象にそれぞれ対応する領域画像を決定するための領域分割モジュールと、
少なくとも1つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報を取得するためのテキスト認識モジュールと、
少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報とセル位置情報とに従って、スプレッドシートを生成するための第1の生成モジュールと、を含んでもよい。
1つの実施例として、テーブル生成ユニット604は、
認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を取得するための対象認識モジュールと、
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定するための第2の生成モジュールと、を含んでもよい。
1つの可能な設計において、第2の生成モジュールは、
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するための特徴認識サブモジュールと、
少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するための対象分類サブモジュールと、を含む。
いくつかの実施例において、特徴認識サブモジュールは、
少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するための第1の抽出ユニットと、
少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を抽出するための第2の抽出ユニットと、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングユニットと、
少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するための特徴融合ユニットと、を含む。
1つの可能な実施形態として、認識待ちの画像に基づき、所定のモーダル種類のうち、少なくとも1つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するための第3の抽出ユニットをさらに含み、
特徴スプライシングユニットは、
任意のテーブル対象の対象特徴と領域特徴と、モーダル種類のうち、テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングモジュールを含む。
1つの可能な設計において、少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象を含み、第1の抽出ユニットは、
認識待ちの画像の画像特徴を抽出するための第1の抽出モジュールと、
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に従って、画像特徴から少なくとも1つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するための第2の抽出モジュールと、
任意のテーブル対象の領域画像特徴をテーブル対象の対象特徴として決定し、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するための特徴決定モジュールと、を含んでもよい。
他の可能な設計において、少なくとも1つのテーブル対象は少なくとも1つの文字対象を含み、当該装置は、さらに、
認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットを含んでもよい。
第1の抽出ユニットは、
少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するための第3の抽出モジュールを含んでよい。
1つの実施例として、領域決定ユニットは、
少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するための対象決定モジュールと、
少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するための位置決定モジュールと、を含む。
いくつかの実施例において、対象決定モジュールは、
少なくとも1つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、マッチング対象のマルチモーダル特徴を目標対象のマルチモーダル特徴として決定し、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するための対象マッチングサブモジュールを含む。
1つの実施例として、テーブル生成ユニット604は、
少なくとも1つの目標対象にそれぞれ対応するテーブル属性に従って、少なくとも1つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも1つの対象グループを取得するための対象区分けモジュールと、
少なくとも1つの対象グループをトラバースし、任意の対象グループ内の少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、少なくとも1つの対象グループにそれぞれ対応する目標位置情報を取得するための位置重み付けモジュールと、
少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、認識待ちの画像のスプレッドシートを生成するための第3の生成モジュールと、を含んでもよい。
当該装置は、さらに、
認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットと、
任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、対象グループの目標テキスト情報を決定し、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するためのテキスト決定モジュールと、を含んでもよい。
第3の生成モジュールは、具体的に、
少なくとも1つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、認識待ちの画像のスプレッドシートを生成するために用いられる。
1つの可能な設計において、少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象を含み、テキスト決定モジュールは、
少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報を認識するための第1の認識サブモジュールと、
少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報と少なくとも1つの対象グループにそれぞれ対応する目標位置情報とに基づき、少なくとも1つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするための対象マッチングサブモジュールと、
任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、対象グループの目標テキスト情報として決定し、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するための情報決定サブモジュールと、を含む。
本開示に係る技術案において、関連するユーザの個人情報の收集や、保存、使用などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。
本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラムを提供する。
本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか1つの実施例により提供される技術案を実行する。
図7は、本開示の実施例を実施するために使用可能な例示的な電子機器700の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実施を制限することを意図したものではない。
図7に示すように、電子機器700は、計算ユニット701を含み、当該計算ユニット701は、読み取り専用メモリ(ROM)702に記憶されたコンピュータプログラム、または、記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。RAM703には、さらに、電子機器700の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット701、ROM702及びRAM703は、バス704を介して接続される。入力/出力(I/O)インタフェース705も、バス704に接続される。
キーボードやマウスなどの入力ユニット706と、さまざまなタイプのモニタやスピーカーなどの出力ユニット707と、磁気ディスクや光ディスクなどの記憶ユニット708と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット709と、を含む、機器700における少なくとも1つのコンポーネントは、I/Oインタフェース705に接続される。通信ユニット709は、機器700がインターネットなどのコンピュータネットワーク及び/又はさまざまな電気通信デットワークを介して他の機器と情報/データを交換することを可能にさせる。
計算ユニット701は、処理能力や計算能力を有するさまざまな汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット701のいくつかの例は、中央処理ユニット(CPU)、グラフィックスプロセッシングユニット(GPU)、さまざまな専用な人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット701は、テーブル生成方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、テーブル生成方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット708などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ROM 702及び/又は通信ユニット709を介して機器700にロード及び/又はインストールされることができる。コンピュータプログラムは、RAM703にロードされて計算ユニット701により実行されると、上記に記載のテーブル生成方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット701は、他の任意の適当な手段(例えば、ファームウェアに頼る)を用いてテーブル生成方法を実行するように構成されることができる。
本明細書において、上記に記載のシステム及び技術的さまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップのシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、1つ又は複数のコンピュータプログラムに実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本開示に係る方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングされることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び/又はブロック図に示される機能/操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。
本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、1つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、或いは、ミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、或いは、フロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例示は、ローカルネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント端末とサーバとを含んでよい。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末-サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びVPS(「Virtual Private Server」、又は「VPS」と略称)サービスに存在する管理が難しく、サービスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (29)

  1. テーブル生成方法であって、
    認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含むステップと、
    前記少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するステップと、
    前記少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、
    前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するステップと、を含むテーブル生成方法。
  2. 前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するステップは、
    前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも1つの目標対象にそれぞれ対応する領域画像を決定するステップと、
    前記少なくとも1つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、前記少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報を取得するステップと、
    前記少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報とセル位置情報とに従って、前記スプレッドシートを生成するステップと、を含む請求項1に記載の方法。
  3. 認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップは、
    前記認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を認識するステップと、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定するステップと、を含む請求項1に記載の方法。
  4. 前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定するステップは、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップと、
    前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップと、を含む請求項3に記載の方法。
  5. 前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップは、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップと、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を抽出するステップと、
    任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップと、
    前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するステップと、を含む請求項4に記載の方法。
  6. 前記方法は、さらに、
    前記認識待ちの画像に基づき、所定のモーダル種類のうち、前記少なくとも1つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するステップを含み、
    任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシングを行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップは、
    任意のテーブル対象の対象特徴と領域特徴と、前記モーダル種類のうち、前記テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含む請求項5に記載の方法。
  7. 前記少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象を含み、前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップは、
    前記認識待ちの画像の画像特徴を抽出するステップと、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に従って、前記画像特徴から前記少なくとも1つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するステップと、
    任意のテーブル対象の領域画像特徴を前記テーブル対象の対象特徴として決定し、前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップと、を含む請求項5に記載の方法。
  8. 前記少なくとも1つのテーブル対象は少なくとも1つの文字対象を含み、
    前記方法は、さらに、
    前記認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップを含み、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップは、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップを含む請求項5に記載の方法。
  9. 前記少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップは、
    前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップと、
    前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、を含む請求項5に記載の方法。
  10. 前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップは、
    前記少なくとも1つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、前記マッチング対象のマルチモーダル特徴を前記目標対象のマルチモーダル特徴として決定し、前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含む請求項9に記載の方法。
  11. 前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するステップは、
    前記少なくとも1つの目標対象にそれぞれ対応するテーブル属性に従って、前記少なくとも1つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも1つの対象グループを取得するステップと、
    前記少なくとも1つの対象グループをトラバースし、任意の対象グループ内の少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報を取得するステップと、
    前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するステップと、を含む請求項1~10のいずれか1項に記載の方法。
  12. 前記方法は、さらに、
    前記認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップと、
    任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、前記対象グループの目標テキスト情報を決定し、前記少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含み、
    前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するステップは、
    前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、前記認識待ちの画像のスプレッドシートを生成するステップを含む請求項11に記載の方法。
  13. 前記少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象を含み、任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、前記対象グループの目標テキスト情報を決定し、前記少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップは、
    前記少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報を認識するステップと、
    前記少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報と、前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報とに基づき、前記少なくとも1つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするステップと、
    任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、前記対象グループの目標テキスト情報として決定し、前記少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含む請求項12に記載の方法。
  14. テーブル生成装置であって、
    認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するための属性認識ユニットであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含む属性認識ユニットと、
    前記少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するための対象決定ユニットと、
    前記少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するための領域決定ユニットと、
    前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するためのテーブル生成ユニットと、を含むテーブル生成装置。
  15. 前記テーブル生成ユニットは、
    前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも1つの目標対象にそれぞれ対応する領域画像を決定するための領域分割モジュールと、
    前記少なくとも1つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、前記少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報を取得するためのテキスト認識モジュールと、
    前記少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報とセル位置情報とに従って、前記スプレッドシートを生成するための第1の生成モジュールと、を含む請求項14に記載の装置。
  16. 前記テーブル生成ユニットは、
    前記認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を取得するための対象認識モジュールと、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定するための第2の生成モジュールと、を含む請求項14に記載の装置。
  17. 前記第2の生成モジュールは、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するための特徴認識サブモジュールと、
    前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するための対象分類サブモジュールと、を含む請求項16に記載の装置。
  18. 前記特徴認識サブモジュールは、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するための第1の抽出ユニットと、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を抽出するための第2の抽出ユニットと、
    任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングユニットと、
    前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するための特徴融合ユニットと、を含む請求項17に記載の装置。
  19. 前記認識待ちの画像に基づき、所定のモーダル種類のうち、前記少なくとも1つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するための第3の抽出ユニットをさらに含み、
    前記特徴スプライシングユニットは、
    任意のテーブル対象の対象特徴と領域特徴と、前記モーダル種類のうち、前記テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングモジュールを含む請求項18に記載の装置。
  20. 前記少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象を含み、前記第1の抽出ユニットは、
    前記認識待ちの画像の画像特徴を抽出するための第1の抽出モジュールと、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に従って、前記画像特徴から前記少なくとも1つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するための第2の抽出モジュールと、
    任意のテーブル対象の領域画像特徴を前記テーブル対象の対象特徴として決定し、前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するための特徴決定モジュールと、を含む請求項18に記載の装置。
  21. 前記少なくとも1つのテーブル対象は少なくとも1つの文字対象を含み、
    前記装置は、さらに、
    前記認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットを含み、
    前記第1の抽出ユニットは、
    前記少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するための第3の抽出モジュールを含む請求項18に記載の装置。
  22. 前記領域決定ユニットは、
    前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するための対象決定モジュールと、
    前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するための位置決定モジュールと、を含む請求項18に記載の装置。
  23. 前記対象決定モジュールは、
    前記少なくとも1つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、前記マッチング対象のマルチモーダル特徴を前記目標対象のマルチモーダル特徴として決定し、前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するための対象マッチングサブモジュールを含む請求項22に記載の装置。
  24. 前記テーブル生成ユニットは、
    前記少なくとも1つの目標対象にそれぞれ対応するテーブル属性に従って、前記少なくとも1つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも1つの対象グループを取得するための対象区分けモジュールと、
    前記少なくとも1つの対象グループをトラバースし、任意の対象グループ内の少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報を取得するための位置重み付けモジュールと、
    前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するための第3の生成モジュールと、を含む請求項14~23のいずれか1項に記載の装置。
  25. 前記認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットと、
    任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、前記対象グループの目標テキスト情報を決定し、前記少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するためのテキスト決定モジュールと、をさらに含み、
    前記第3の生成モジュールは、具体的に、
    前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、前記認識待ちの画像のスプレッドシートを生成するために用いられる請求項24に記載の装置。
  26. 前記少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象を含み、前記テキスト決定モジュールは、
    前記少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報を認識するための第1の認識サブモジュールと、
    前記少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報と、前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報とに基づき、前記少なくとも1つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするための対象マッチングサブモジュールと、
    任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、前記対象グループの目標テキスト情報として決定し、前記少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するための情報決定サブモジュールと、を含む請求項24に記載の装置。
  27. 電子機器であって、
    少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサが請求項1~13のいずれか1項に記載の方法を実行できるように、前記少なくとも1つのプロセッサにより実行される、電子機器。
  28. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~13のいずれか1項に記載の方法を実行させるために用いられるコンピュータ可読記憶媒体。
  29. コンピュータプログラムであって、前記コンピュータプログラムはプロセッサにより実行されると、請求項1~13のいずれか1項に記載の方法は実施されるコンピュータプログラム。
JP2022059810A 2021-08-17 2022-03-31 テーブル生成方法、装置、電子機器、記憶媒体及びプログラム Active JP7300034B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110945523.3 2021-08-17
CN202110945523.3A CN113657274B (zh) 2021-08-17 2021-08-17 表格生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022088602A true JP2022088602A (ja) 2022-06-14
JP7300034B2 JP7300034B2 (ja) 2023-06-28

Family

ID=78480748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022059810A Active JP7300034B2 (ja) 2021-08-17 2022-03-31 テーブル生成方法、装置、電子機器、記憶媒体及びプログラム

Country Status (4)

Country Link
US (1) US20220301334A1 (ja)
EP (1) EP4138050A1 (ja)
JP (1) JP7300034B2 (ja)
CN (1) CN113657274B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102501576B1 (ko) * 2022-11-22 2023-02-21 주식회사 아무랩스 뉴럴 네트워크를 이용하여 도표에 대한 정보를 사용자 단말에게 전송하는 방법 및 장치

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114639107B (zh) * 2022-04-21 2023-03-24 北京百度网讯科技有限公司 表格图像处理方法、装置和存储介质
CN115409007B (zh) * 2022-11-01 2023-06-30 摩尔线程智能科技(北京)有限责任公司 电子表格的生成方法、装置、电子设备及存储介质
CN116151202B (zh) * 2023-02-21 2024-04-02 中国人民解放军海军工程大学 表格填写方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738251A (zh) * 2020-08-26 2020-10-02 北京智源人工智能研究院 一种融合语言模型的光学字符识别方法、装置和电子设备
CN111782839A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN112131920A (zh) * 2019-06-24 2020-12-25 国际商业机器公司 用于扫描图像中的表格信息的数据结构生成
CN112528813A (zh) * 2020-12-03 2021-03-19 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7366978B1 (en) * 2003-02-13 2008-04-29 Microsoft Corporation Method and system for creating a grid-like coordinate system for addressing data contained in an irregular computer-generated table
US9042653B2 (en) * 2011-01-24 2015-05-26 Microsoft Technology Licensing, Llc Associating captured image data with a spreadsheet
WO2015006343A2 (en) * 2013-07-09 2015-01-15 3M Innovative Properties Company Note recognition and management using color classification
US9588952B2 (en) * 2015-06-22 2017-03-07 International Business Machines Corporation Collaboratively reconstituting tables
US20170220858A1 (en) * 2016-02-01 2017-08-03 Microsoft Technology Licensing, Llc Optical recognition of tables
JP6856321B2 (ja) * 2016-03-29 2021-04-07 株式会社東芝 画像処理システム、画像処理装置、および画像処理プログラム
US10740123B2 (en) * 2017-01-26 2020-08-11 Nice Ltd. Method and system for accessing table content in a digital image of the table
CN110321470A (zh) * 2019-05-23 2019-10-11 平安科技(深圳)有限公司 文档处理方法、装置、计算机设备和存储介质
CN110390269B (zh) * 2019-06-26 2023-08-01 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110334292B (zh) * 2019-07-02 2021-09-28 百度在线网络技术(北京)有限公司 页面处理方法、装置及设备
RU2721189C1 (ru) * 2019-08-29 2020-05-18 Общество с ограниченной ответственностью "Аби Продакшн" Детектирование разделов таблиц в документах нейронными сетями с использованием глобального контекста документа
CN110738037B (zh) * 2019-10-15 2021-02-05 深圳逻辑汇科技有限公司 用于自动生成电子表格的方法、装置、设备及存储介质
CN110956087B (zh) * 2019-10-25 2024-04-19 北京懿医云科技有限公司 一种图片中表格的识别方法、装置、可读介质和电子设备
CN111382717B (zh) * 2020-03-17 2022-09-09 腾讯科技(深圳)有限公司 一种表格识别方法、装置和计算机可读存储介质
CN111814598A (zh) * 2020-06-22 2020-10-23 吉林省通联信用服务有限公司 一种基于深度学习框架的财务报表自动识别方法
CN111860502A (zh) * 2020-07-15 2020-10-30 北京思图场景数据科技服务有限公司 图片表格的识别方法、装置、电子设备及存储介质
CN112101165B (zh) * 2020-09-07 2022-07-15 腾讯科技(深圳)有限公司 兴趣点识别方法、装置、计算机设备和存储介质
CN112001368A (zh) * 2020-09-29 2020-11-27 北京百度网讯科技有限公司 文字结构化提取方法、装置、设备以及存储介质
CN112528863A (zh) * 2020-12-14 2021-03-19 中国平安人寿保险股份有限公司 表格结构的识别方法、装置、电子设备及存储介质
CN112949415B (zh) * 2021-02-04 2023-03-24 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN112906532B (zh) * 2021-02-07 2024-01-05 杭州睿胜软件有限公司 图像处理方法和装置、电子设备和存储介质
CN112966522B (zh) * 2021-03-03 2022-10-14 北京百度网讯科技有限公司 一种图像分类方法、装置、电子设备及存储介质
CN112686223B (zh) * 2021-03-12 2021-06-18 腾讯科技(深圳)有限公司 一种表格识别方法、装置和计算机可读存储介质
CN113032672A (zh) 2021-03-24 2021-06-25 北京百度网讯科技有限公司 多模态poi特征的提取方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131920A (zh) * 2019-06-24 2020-12-25 国际商业机器公司 用于扫描图像中的表格信息的数据结构生成
CN111782839A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN111738251A (zh) * 2020-08-26 2020-10-02 北京智源人工智能研究院 一种融合语言模型的光学字符识别方法、装置和电子设备
CN112528813A (zh) * 2020-12-03 2021-03-19 上海云从企业发展有限公司 表格识别方法、装置以及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102501576B1 (ko) * 2022-11-22 2023-02-21 주식회사 아무랩스 뉴럴 네트워크를 이용하여 도표에 대한 정보를 사용자 단말에게 전송하는 방법 및 장치

Also Published As

Publication number Publication date
US20220301334A1 (en) 2022-09-22
JP7300034B2 (ja) 2023-06-28
CN113657274A (zh) 2021-11-16
EP4138050A1 (en) 2023-02-22
CN113657274B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
JP2022088602A (ja) テーブル生成方法、装置、電子機器、記憶媒体及びプログラム
US20230106873A1 (en) Text extraction method, text extraction model training method, electronic device and storage medium
CN112949415B (zh) 图像处理方法、装置、设备和介质
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN108628830B (zh) 一种语义识别的方法和装置
US20220415072A1 (en) Image processing method, text recognition method and apparatus
US20220138193A1 (en) Conversion method and systems from natural language to structured query language
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN113780098A (zh) 文字识别方法、装置、电子设备以及存储介质
CN113887615A (zh) 图像处理方法、装置、设备和介质
KR102608867B1 (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
CA3140455A1 (en) Information extraction method, apparatus, and system
CN114581732A (zh) 一种图像处理及模型训练方法、装置、设备和存储介质
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
US20230048495A1 (en) Method and platform of generating document, electronic device and storage medium
CN114661904B (zh) 文档处理模型的训练方法、装置、设备、存储介质及程序
CN115035351B (zh) 基于图像的信息提取方法、模型训练方法、装置、设备及存储介质
US20230027813A1 (en) Object detecting method, electronic device and storage medium
CN114419327B (zh) 图像检测方法和图像检测模型的训练方法、装置
EP3889802A1 (en) Method and apparatus for image processing, electronic device, computer readable storage medium, and computer program product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230616

R150 Certificate of patent or registration of utility model

Ref document number: 7300034

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150