JP2022088602A - テーブル生成方法、装置、電子機器、記憶媒体及びプログラム - Google Patents
テーブル生成方法、装置、電子機器、記憶媒体及びプログラム Download PDFInfo
- Publication number
- JP2022088602A JP2022088602A JP2022059810A JP2022059810A JP2022088602A JP 2022088602 A JP2022088602 A JP 2022088602A JP 2022059810 A JP2022059810 A JP 2022059810A JP 2022059810 A JP2022059810 A JP 2022059810A JP 2022088602 A JP2022088602 A JP 2022088602A
- Authority
- JP
- Japan
- Prior art keywords
- target
- feature
- position information
- information corresponding
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000000605 extraction Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 description 20
- 238000012015 optical character recognition Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004224 protection Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Abstract
Description
認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含むステップと、
前記少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するステップと、
前記少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、
前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するステップと、を含む。
認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するための属性認識ユニットであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含む属性認識ユニットと、
前記少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するための対象決定ユニットと、
前記少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するための領域決定ユニットと、
前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するためのテーブル生成ユニットと、を含む。
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが第1の態様に記載の方法を実行できるように、前記少なくとも1つのプロセッサにより実行される。
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップと、
少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップと、を含んでもよい。
少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップと、
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を抽出するステップと、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップと、
少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するステップと、を含んでもよい。
特徴融合モデルは、深度ニューラルネットワークモデル、例えば、深度自己注意モデルのエンコーダーであってよい。少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するステップは、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を深度自己注意モデルのエンコーダーに入力し、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するステップを含み得る。
認識待ちの画像に基づき、所定のモーダル種類のうち、少なくとも1つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するステップを含んでもよい。
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシングを行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップは、
任意のテーブル対象の対象特徴と領域特徴と、モーダル種類のうち、テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含んでもよい。
少なくとも1つのテーブル対象は、少なくとも1つのテキストボックス対象及び/又は少なくとも1つの文字対象を含み得る。
認識待ちの画像の画像特徴を抽出するステップと、
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に従って、画像特徴から少なくとも1つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するステップと、
任意のテーブル対象の領域画像特徴をテーブル対象の対象特徴として決定し、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップと、を含み得る。
認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップと、
少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップと、を含み、
少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップは、少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を単語ベクトル抽出モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップを含み得る。
少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップと、
少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、を含んでもよい。
少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップは、
少なくとも1つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、マッチング対象のマルチモーダル特徴を目標対象のマルチモーダル特徴として決定し、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含んでもよい。
少なくとも1つの目標対象にそれぞれ対応するテーブル属性に従って、少なくとも1つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも1つの対象グループを取得するステップと、
少なくとも1つの対象グループをトラバースし、任意の対象グループ内の少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、少なくとも1つの対象グループにそれぞれ対応する目標位置情報を取得するステップと、
少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、認識待ちの画像のスプレッドシートを生成するステップと、を含んでもよい。
任意の対象グループ内の少なくとも1つの目標対象にそれぞれ対応する重みは同じであってもよい。つまり、少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行うステップは、少なくとも1つの目標対象のそれぞれのセル位置情報に対して平均計算を行うステップを含んでもよい。取得された目標位置情報は、少なくとも1つの目標対象のセル位置情報の平均計算の結果である。
認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップと、
任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、当該対象グループの目標テキスト情報を決定し、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含んでもよい。
少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、認識待ちの画像のスプレッドシートを生成するステップは、
少なくとも1つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、認識待ちの画像のスプレッドシートを生成するステップを含んでもよい。
少なくとも1つのテーブル対象は、少なくとも1つのテキストボックス対象を含み、任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、対象グループの目標テキスト情報を決定し、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップは、
少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報と対象テキスト情報とを認識するステップと、
少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報と少なくとも1つの対象グループにそれぞれ対応する目標位置情報とに基づき、少なくとも1つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするステップと、
任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、対象グループの目標テキスト情報として決定し、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含む。
認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するための属性認識ユニット601であって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含む属性認識ユニット601と、
少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するための対象決定ユニット602と、
少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するための領域決定ユニット603と、
少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、認識待ちの画像に対応するスプレッドシートを生成するためのテーブル生成ユニット604と、を含んでもよい。
少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも1つの目標対象にそれぞれ対応する領域画像を決定するための領域分割モジュールと、
少なくとも1つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報を取得するためのテキスト認識モジュールと、
少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報とセル位置情報とに従って、スプレッドシートを生成するための第1の生成モジュールと、を含んでもよい。
認識待ちの画像内の少なくとも1つのテーブル対象を認識し、少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を取得するための対象認識モジュールと、
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定するための第2の生成モジュールと、を含んでもよい。
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するための特徴認識サブモジュールと、
少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するための対象分類サブモジュールと、を含む。
少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するための第1の抽出ユニットと、
少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を抽出するための第2の抽出ユニットと、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングユニットと、
少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するための特徴融合ユニットと、を含む。
特徴スプライシングユニットは、
任意のテーブル対象の対象特徴と領域特徴と、モーダル種類のうち、テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、テーブル対象のマルチモーダル特徴を取得し、少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングモジュールを含む。
認識待ちの画像の画像特徴を抽出するための第1の抽出モジュールと、
少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に従って、画像特徴から少なくとも1つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するための第2の抽出モジュールと、
任意のテーブル対象の領域画像特徴をテーブル対象の対象特徴として決定し、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するための特徴決定モジュールと、を含んでもよい。
認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットを含んでもよい。
第1の抽出ユニットは、
少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するための第3の抽出モジュールを含んでよい。
少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するための対象決定モジュールと、
少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するための位置決定モジュールと、を含む。
少なくとも1つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、マッチング対象のマルチモーダル特徴を目標対象のマルチモーダル特徴として決定し、少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するための対象マッチングサブモジュールを含む。
少なくとも1つの目標対象にそれぞれ対応するテーブル属性に従って、少なくとも1つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも1つの対象グループを取得するための対象区分けモジュールと、
少なくとも1つの対象グループをトラバースし、任意の対象グループ内の少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、少なくとも1つの対象グループにそれぞれ対応する目標位置情報を取得するための位置重み付けモジュールと、
少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、認識待ちの画像のスプレッドシートを生成するための第3の生成モジュールと、を含んでもよい。
認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットと、
任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、対象グループの目標テキスト情報を決定し、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するためのテキスト決定モジュールと、を含んでもよい。
少なくとも1つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、認識待ちの画像のスプレッドシートを生成するために用いられる。
少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報を認識するための第1の認識サブモジュールと、
少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報と少なくとも1つの対象グループにそれぞれ対応する目標位置情報とに基づき、少なくとも1つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするための対象マッチングサブモジュールと、
任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、対象グループの目標テキスト情報として決定し、少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するための情報決定サブモジュールと、を含む。
Claims (29)
- テーブル生成方法であって、
認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含むステップと、
前記少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するステップと、
前記少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、
前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するステップと、を含むテーブル生成方法。 - 前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するステップは、
前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも1つの目標対象にそれぞれ対応する領域画像を決定するステップと、
前記少なくとも1つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、前記少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報を取得するステップと、
前記少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報とセル位置情報とに従って、前記スプレッドシートを生成するステップと、を含む請求項1に記載の方法。 - 認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップは、
前記認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を認識するステップと、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定するステップと、を含む請求項1に記載の方法。 - 前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定するステップは、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップと、
前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するステップと、を含む請求項3に記載の方法。 - 前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するステップは、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップと、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を抽出するステップと、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップと、
前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するステップと、を含む請求項4に記載の方法。 - 前記方法は、さらに、
前記認識待ちの画像に基づき、所定のモーダル種類のうち、前記少なくとも1つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するステップを含み、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシングを行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップは、
任意のテーブル対象の対象特徴と領域特徴と、前記モーダル種類のうち、前記テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含む請求項5に記載の方法。 - 前記少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象を含み、前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップは、
前記認識待ちの画像の画像特徴を抽出するステップと、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に従って、前記画像特徴から前記少なくとも1つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するステップと、
任意のテーブル対象の領域画像特徴を前記テーブル対象の対象特徴として決定し、前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップと、を含む請求項5に記載の方法。 - 前記少なくとも1つのテーブル対象は少なくとも1つの文字対象を含み、
前記方法は、さらに、
前記認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップを含み、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するステップは、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するステップを含む請求項5に記載の方法。 - 前記少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップは、
前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップと、
前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するステップと、を含む請求項5に記載の方法。 - 前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するステップは、
前記少なくとも1つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、前記マッチング対象のマルチモーダル特徴を前記目標対象のマルチモーダル特徴として決定し、前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するステップを含む請求項9に記載の方法。 - 前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するステップは、
前記少なくとも1つの目標対象にそれぞれ対応するテーブル属性に従って、前記少なくとも1つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも1つの対象グループを取得するステップと、
前記少なくとも1つの対象グループをトラバースし、任意の対象グループ内の少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報を取得するステップと、
前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するステップと、を含む請求項1~10のいずれか1項に記載の方法。 - 前記方法は、さらに、
前記認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するステップと、
任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、前記対象グループの目標テキスト情報を決定し、前記少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含み、
前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するステップは、
前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、前記認識待ちの画像のスプレッドシートを生成するステップを含む請求項11に記載の方法。 - 前記少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象を含み、任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、前記対象グループの目標テキスト情報を決定し、前記少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップは、
前記少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報を認識するステップと、
前記少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報と、前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報とに基づき、前記少なくとも1つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするステップと、
任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、前記対象グループの目標テキスト情報として決定し、前記少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するステップと、を含む請求項12に記載の方法。 - テーブル生成装置であって、
認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するための属性認識ユニットであって、任意のテーブル対象のテーブル属性がセル属性又は非セル属性を含む属性認識ユニットと、
前記少なくとも1つのテーブル対象における、セル属性を持つ少なくとも1つの目標対象を決定するための対象決定ユニットと、
前記少なくとも1つの目標対象にそれぞれ対応するセル領域を決定し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するための領域決定ユニットと、
前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、前記認識待ちの画像に対応するスプレッドシートを生成するためのテーブル生成ユニットと、を含むテーブル生成装置。 - 前記テーブル生成ユニットは、
前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報に従って、少なくとも1つの目標対象にそれぞれ対応する領域画像を決定するための領域分割モジュールと、
前記少なくとも1つの目標対象にそれぞれ対応する領域画像のテキスト情報を認識し、前記少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報を取得するためのテキスト認識モジュールと、
前記少なくとも1つの目標対象にそれぞれ対応する画像テキスト情報とセル位置情報とに従って、前記スプレッドシートを生成するための第1の生成モジュールと、を含む請求項14に記載の装置。 - 前記テーブル生成ユニットは、
前記認識待ちの画像内の少なくとも1つのテーブル対象を認識し、前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を取得するための対象認識モジュールと、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報を利用し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を決定するための第2の生成モジュールと、を含む請求項14に記載の装置。 - 前記第2の生成モジュールは、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を抽出するための特徴認識サブモジュールと、
前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を属性分類モデルに入力し、前記少なくとも1つのテーブル対象にそれぞれ対応するテーブル属性を取得するための対象分類サブモジュールと、を含む請求項16に記載の装置。 - 前記特徴認識サブモジュールは、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を抽出するための第1の抽出ユニットと、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に基づき、前記少なくとも1つのテーブル対象にそれぞれ対応する領域特徴を抽出するための第2の抽出ユニットと、
任意のテーブル対象の対象特徴と領域特徴とに対して特徴のスプライシング処理を行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングユニットと、
前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を特徴融合モデルに入力し、前記少なくとも1つのテーブル対象にそれぞれ対応する目標特徴を取得するための特徴融合ユニットと、を含む請求項17に記載の装置。 - 前記認識待ちの画像に基づき、所定のモーダル種類のうち、前記少なくとも1つのテーブル対象にそれぞれ対応するモーダル特徴を抽出するための第3の抽出ユニットをさらに含み、
前記特徴スプライシングユニットは、
任意のテーブル対象の対象特徴と領域特徴と、前記モーダル種類のうち、前記テーブル対象に対応するモーダル特徴とに対して特徴のスプライシングを行い、前記テーブル対象のマルチモーダル特徴を取得し、前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴を取得するための特徴スプライシングモジュールを含む請求項18に記載の装置。 - 前記少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象を含み、前記第1の抽出ユニットは、
前記認識待ちの画像の画像特徴を抽出するための第1の抽出モジュールと、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象位置情報に従って、前記画像特徴から前記少なくとも1つのテーブル対象にそれぞれ対応する領域画像特徴を抽出するための第2の抽出モジュールと、
任意のテーブル対象の領域画像特徴を前記テーブル対象の対象特徴として決定し、前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するための特徴決定モジュールと、を含む請求項18に記載の装置。 - 前記少なくとも1つのテーブル対象は少なくとも1つの文字対象を含み、
前記装置は、さらに、
前記認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットを含み、
前記第1の抽出ユニットは、
前記少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報に対して単語ベクトル抽出を行い、前記少なくとも1つのテーブル対象にそれぞれ対応する対象特徴を取得するための第3の抽出モジュールを含む請求項18に記載の装置。 - 前記領域決定ユニットは、
前記少なくとも1つのテーブル対象にそれぞれ対応するマルチモーダル特徴に基づき、前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を決定するための対象決定モジュールと、
前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴をセル領域の位置デコーダーに入力し、前記少なくとも1つの目標対象にそれぞれ対応するセル位置情報を取得するための位置決定モジュールと、を含む請求項18に記載の装置。 - 前記対象決定モジュールは、
前記少なくとも1つのテーブル対象から任意の目標対象にマッチングするマッチング対象を決定し、前記マッチング対象のマルチモーダル特徴を前記目標対象のマルチモーダル特徴として決定し、前記少なくとも1つの目標対象にそれぞれ対応するマルチモーダル特徴を取得するための対象マッチングサブモジュールを含む請求項22に記載の装置。 - 前記テーブル生成ユニットは、
前記少なくとも1つの目標対象にそれぞれ対応するテーブル属性に従って、前記少なくとも1つの目標対象における、同一のセル領域を有する目標対象を同一の対象グループに区分けし、少なくとも1つの対象グループを取得するための対象区分けモジュールと、
前記少なくとも1つの対象グループをトラバースし、任意の対象グループ内の少なくとも1つの目標対象のそれぞれのセル位置情報に対して重み付け計算を行い、前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報を取得するための位置重み付けモジュールと、
前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報に従って、前記認識待ちの画像のスプレッドシートを生成するための第3の生成モジュールと、を含む請求項14~23のいずれか1項に記載の装置。 - 前記認識待ちの画像内の少なくとも1つのテーブル対象にそれぞれ対応する対象テキスト情報を認識するためのテキスト認識ユニットと、
任意の対象グループ内の少なくとも1つの目標対象のそれぞれの対象テキスト情報に従って、前記対象グループの目標テキスト情報を決定し、前記少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するためのテキスト決定モジュールと、をさらに含み、
前記第3の生成モジュールは、具体的に、
前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報と目標テキスト情報とに従って、前記認識待ちの画像のスプレッドシートを生成するために用いられる請求項24に記載の装置。 - 前記少なくとも1つのテーブル対象は少なくとも1つのテキストボックス対象を含み、前記テキスト決定モジュールは、
前記少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報を認識するための第1の認識サブモジュールと、
前記少なくとも1つのテキストボックス対象にそれぞれ対応する対象位置情報と、前記少なくとも1つの対象グループにそれぞれ対応する目標位置情報とに基づき、前記少なくとも1つの対象グループのために、対応する目標テキストボックス対象をそれぞれマッチングするための対象マッチングサブモジュールと、
任意の対象グループにマッチングする目標テキストボックス対象の対象テキスト情報を、前記対象グループの目標テキスト情報として決定し、前記少なくとも1つの対象グループにそれぞれ対応する目標テキスト情報を取得するための情報決定サブモジュールと、を含む請求項24に記載の装置。 - 電子機器であって、
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が、前記少なくとも1つのプロセッサが請求項1~13のいずれか1項に記載の方法を実行できるように、前記少なくとも1つのプロセッサにより実行される、電子機器。 - コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~13のいずれか1項に記載の方法を実行させるために用いられるコンピュータ可読記憶媒体。
- コンピュータプログラムであって、前記コンピュータプログラムはプロセッサにより実行されると、請求項1~13のいずれか1項に記載の方法は実施されるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945523.3 | 2021-08-17 | ||
CN202110945523.3A CN113657274B (zh) | 2021-08-17 | 2021-08-17 | 表格生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022088602A true JP2022088602A (ja) | 2022-06-14 |
JP7300034B2 JP7300034B2 (ja) | 2023-06-28 |
Family
ID=78480748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022059810A Active JP7300034B2 (ja) | 2021-08-17 | 2022-03-31 | テーブル生成方法、装置、電子機器、記憶媒体及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220301334A1 (ja) |
EP (1) | EP4138050A1 (ja) |
JP (1) | JP7300034B2 (ja) |
CN (1) | CN113657274B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102501576B1 (ko) * | 2022-11-22 | 2023-02-21 | 주식회사 아무랩스 | 뉴럴 네트워크를 이용하여 도표에 대한 정보를 사용자 단말에게 전송하는 방법 및 장치 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114639107B (zh) * | 2022-04-21 | 2023-03-24 | 北京百度网讯科技有限公司 | 表格图像处理方法、装置和存储介质 |
CN115409007B (zh) * | 2022-11-01 | 2023-06-30 | 摩尔线程智能科技(北京)有限责任公司 | 电子表格的生成方法、装置、电子设备及存储介质 |
CN116151202B (zh) * | 2023-02-21 | 2024-04-02 | 中国人民解放军海军工程大学 | 表格填写方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738251A (zh) * | 2020-08-26 | 2020-10-02 | 北京智源人工智能研究院 | 一种融合语言模型的光学字符识别方法、装置和电子设备 |
CN111782839A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN112131920A (zh) * | 2019-06-24 | 2020-12-25 | 国际商业机器公司 | 用于扫描图像中的表格信息的数据结构生成 |
CN112528813A (zh) * | 2020-12-03 | 2021-03-19 | 上海云从企业发展有限公司 | 表格识别方法、装置以及计算机可读存储介质 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7366978B1 (en) * | 2003-02-13 | 2008-04-29 | Microsoft Corporation | Method and system for creating a grid-like coordinate system for addressing data contained in an irregular computer-generated table |
US9042653B2 (en) * | 2011-01-24 | 2015-05-26 | Microsoft Technology Licensing, Llc | Associating captured image data with a spreadsheet |
WO2015006343A2 (en) * | 2013-07-09 | 2015-01-15 | 3M Innovative Properties Company | Note recognition and management using color classification |
US9588952B2 (en) * | 2015-06-22 | 2017-03-07 | International Business Machines Corporation | Collaboratively reconstituting tables |
US20170220858A1 (en) * | 2016-02-01 | 2017-08-03 | Microsoft Technology Licensing, Llc | Optical recognition of tables |
JP6856321B2 (ja) * | 2016-03-29 | 2021-04-07 | 株式会社東芝 | 画像処理システム、画像処理装置、および画像処理プログラム |
US10740123B2 (en) * | 2017-01-26 | 2020-08-11 | Nice Ltd. | Method and system for accessing table content in a digital image of the table |
CN110321470A (zh) * | 2019-05-23 | 2019-10-11 | 平安科技(深圳)有限公司 | 文档处理方法、装置、计算机设备和存储介质 |
CN110390269B (zh) * | 2019-06-26 | 2023-08-01 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110334292B (zh) * | 2019-07-02 | 2021-09-28 | 百度在线网络技术(北京)有限公司 | 页面处理方法、装置及设备 |
RU2721189C1 (ru) * | 2019-08-29 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Детектирование разделов таблиц в документах нейронными сетями с использованием глобального контекста документа |
CN110738037B (zh) * | 2019-10-15 | 2021-02-05 | 深圳逻辑汇科技有限公司 | 用于自动生成电子表格的方法、装置、设备及存储介质 |
CN110956087B (zh) * | 2019-10-25 | 2024-04-19 | 北京懿医云科技有限公司 | 一种图片中表格的识别方法、装置、可读介质和电子设备 |
CN111382717B (zh) * | 2020-03-17 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
CN111814598A (zh) * | 2020-06-22 | 2020-10-23 | 吉林省通联信用服务有限公司 | 一种基于深度学习框架的财务报表自动识别方法 |
CN111860502A (zh) * | 2020-07-15 | 2020-10-30 | 北京思图场景数据科技服务有限公司 | 图片表格的识别方法、装置、电子设备及存储介质 |
CN112101165B (zh) * | 2020-09-07 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112001368A (zh) * | 2020-09-29 | 2020-11-27 | 北京百度网讯科技有限公司 | 文字结构化提取方法、装置、设备以及存储介质 |
CN112528863A (zh) * | 2020-12-14 | 2021-03-19 | 中国平安人寿保险股份有限公司 | 表格结构的识别方法、装置、电子设备及存储介质 |
CN112949415B (zh) * | 2021-02-04 | 2023-03-24 | 北京百度网讯科技有限公司 | 图像处理方法、装置、设备和介质 |
CN112906532B (zh) * | 2021-02-07 | 2024-01-05 | 杭州睿胜软件有限公司 | 图像处理方法和装置、电子设备和存储介质 |
CN112966522B (zh) * | 2021-03-03 | 2022-10-14 | 北京百度网讯科技有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
CN112686223B (zh) * | 2021-03-12 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 一种表格识别方法、装置和计算机可读存储介质 |
CN113032672A (zh) | 2021-03-24 | 2021-06-25 | 北京百度网讯科技有限公司 | 多模态poi特征的提取方法和装置 |
-
2021
- 2021-08-17 CN CN202110945523.3A patent/CN113657274B/zh active Active
-
2022
- 2022-03-31 JP JP2022059810A patent/JP7300034B2/ja active Active
- 2022-06-06 US US17/832,735 patent/US20220301334A1/en active Pending
- 2022-06-09 EP EP22178006.7A patent/EP4138050A1/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131920A (zh) * | 2019-06-24 | 2020-12-25 | 国际商业机器公司 | 用于扫描图像中的表格信息的数据结构生成 |
CN111782839A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111738251A (zh) * | 2020-08-26 | 2020-10-02 | 北京智源人工智能研究院 | 一种融合语言模型的光学字符识别方法、装置和电子设备 |
CN112528813A (zh) * | 2020-12-03 | 2021-03-19 | 上海云从企业发展有限公司 | 表格识别方法、装置以及计算机可读存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102501576B1 (ko) * | 2022-11-22 | 2023-02-21 | 주식회사 아무랩스 | 뉴럴 네트워크를 이용하여 도표에 대한 정보를 사용자 단말에게 전송하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20220301334A1 (en) | 2022-09-22 |
JP7300034B2 (ja) | 2023-06-28 |
CN113657274A (zh) | 2021-11-16 |
EP4138050A1 (en) | 2023-02-22 |
CN113657274B (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022088602A (ja) | テーブル生成方法、装置、電子機器、記憶媒体及びプログラム | |
US20230106873A1 (en) | Text extraction method, text extraction model training method, electronic device and storage medium | |
CN112949415B (zh) | 图像处理方法、装置、设备和介质 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
JP2023541532A (ja) | テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN108628830B (zh) | 一种语义识别的方法和装置 | |
US20220415072A1 (en) | Image processing method, text recognition method and apparatus | |
US20220138193A1 (en) | Conversion method and systems from natural language to structured query language | |
CN114429637B (zh) | 一种文档分类方法、装置、设备及存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
US20230114673A1 (en) | Method for recognizing token, electronic device and storage medium | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN113780098A (zh) | 文字识别方法、装置、电子设备以及存储介质 | |
CN113887615A (zh) | 图像处理方法、装置、设备和介质 | |
KR102608867B1 (ko) | 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램 | |
CA3140455A1 (en) | Information extraction method, apparatus, and system | |
CN114581732A (zh) | 一种图像处理及模型训练方法、装置、设备和存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
US20230048495A1 (en) | Method and platform of generating document, electronic device and storage medium | |
CN114661904B (zh) | 文档处理模型的训练方法、装置、设备、存储介质及程序 | |
CN115035351B (zh) | 基于图像的信息提取方法、模型训练方法、装置、设备及存储介质 | |
US20230027813A1 (en) | Object detecting method, electronic device and storage medium | |
CN114419327B (zh) | 图像检测方法和图像检测模型的训练方法、装置 | |
EP3889802A1 (en) | Method and apparatus for image processing, electronic device, computer readable storage medium, and computer program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230616 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7300034 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |