JP2022172381A - テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器 - Google Patents
テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器 Download PDFInfo
- Publication number
- JP2022172381A JP2022172381A JP2022145248A JP2022145248A JP2022172381A JP 2022172381 A JP2022172381 A JP 2022172381A JP 2022145248 A JP2022145248 A JP 2022145248A JP 2022145248 A JP2022145248 A JP 2022145248A JP 2022172381 A JP2022172381 A JP 2022172381A
- Authority
- JP
- Japan
- Prior art keywords
- detection
- features
- extracted
- multimodal
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 title claims abstract description 36
- 238000001514 detection method Methods 0.000 claims abstract description 262
- 230000000007 visual effect Effects 0.000 claims abstract description 93
- 239000013598 vector Substances 0.000 claims description 40
- 230000004927 fusion Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/182—Extraction of features or characteristics of the image by coding the contour of the pattern
- G06V30/1823—Extraction of features or characteristics of the image by coding the contour of the pattern using vector-coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19013—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19127—Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
本開示の第1の態様によれば、テキスト抽出方法を提供し、前記方法は、
検出待ち画像の視覚的符号化特徴を取得すること、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出することであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得することであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることとを含む。
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得ることであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることと、
前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングすることとを含む。
検出待ち画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュールであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む抽出モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得するための第2の取得モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第2の取得モジュールとを含む。
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第2の取得モジュールであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む第2の取得モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得るためのテキスト抽出モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュールと、
前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングするためのトレーニングモジュールとを含む。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに上記第1の態様又は第2の態様のいずれか1項に記載の方法を実行させる。
又は、さらに、テンプレートマッチングに基づく方法を用いてもよく、即ち、構造が簡単である証明書について、これらの証明書における各部分が一般的に一定の幾何学的様式を有するため、構造が同じである証明書に対して標準テンプレートを構築してもよい。この標準テンプレートは、証明書のどれらの幾何学的領域からテキスト情報を抽出するかを指定している。標準テンプレートに基づき、各証明書における一定の位置から、テキスト情報を抽出した後、光学文字認識(Optical Character Recognition、OCR)によって、抽出されたテキスト情報を認識し、さらに、抽出されたテキスト情報に対して構造化記憶を行う。
図1に示すように、本開示の実施例は、テキスト抽出方法を提供し、この方法は、以下を含む。
ここで、検出待ち画像は、上記実体文書の画像、例えば、紙文書の画像、種々の手形、証明書又はカードの画像などであってもよい。
視覚的符号化特徴は、検出待ち画像におけるテキストのコンテキスト情報を表すことができる。
ここで、各組のマルチモーダル特徴は、検出待ち画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む。
検出枠における検出特徴は、検出待ち画像におけるこの検出枠部分画像の特徴である。
例えば、検出待ち画像は、乗車券画像であり、抽出される必要のあるテキスト情報は、この乗車券における出発駅の駅名であれば、抽出待ち属性は、出発駅名である。例えば、乗車券における出発駅の駅名が「北京」であれば、「北京」は、抽出される必要のあるテキスト情報である。
ここで、バックボーンネットワーク(Backbone)は、畳み込みニューラルネットワーク(Convolutional Neural Networks、CNN)であってもよく、例えば、具体的に、深層残差ネットワーク(Deep residual network、ResNet)であってもよい。又は、バックボーンネットワークは、Transformerベースのニューラルネットワークであってもよい。
ここで、予め設定される位置ベクトルに対して位置埋め込み(position Embedding)を行い、予め設定される位置符号化特徴を得る。この予め設定される位置ベクトルは、実際の必要に応じて設定されてもよく、画像特徴と予め設定される位置符号化特徴を加算することで、2D空間位置情報を体現できる視覚的特徴を得ることができる。
ここで、予め設定される検出モデルは、画像における、テキスト情報を含む検出枠を抽出するためのモデルであってもよく、このモデルは、OCRモデルであってもよく、関連技術における他のモデル、例えば、ニューラルネットワークモデルであってもよく、本開示の実施例は、これを限定しない。
理解できるように、検出待ち画像の特徴マップと各検出枠の位置情報を得た後、それぞれ、各検出枠の位置情報に基づき、特徴マップから、この検出枠の位置にマッチングする特徴を、この検出枠に対応する検出特徴として切り取る(crop)ことができる。
ここで、検出枠の位置情報が検出待ち画像における検出枠の位置を表すためのものであるため、各検出枠の位置情報に基づき、検出待ち画像における検出枠の位置する画像を切り出し、切り出されるサブ画像を検出待ちサブマップとすることができる。
ここで、予め設定される認識モデルは、関連技術におけるいずれか1つのテキスト認識モデルであってもよく、例えば、OCRモデルであってもよい。
セルフアテンションメカニズムによって、抽出待ち属性とマルチモーダル特徴を融合することで、抽出待ち属性と複数組のマルチモーダル特徴に含まれる第1のテキスト情報との関連付けを得るとともに、Transformerデコーダのアテンションメカニズムは、検出待ち画像のコンテキスト情報を表す視覚的符号化特徴を取得し、さらに、デコーダは、視覚的符号化特徴に基づき、マルチモーダル特徴と抽出待ち属性との関係を得ることができ、即ち、シーケンスベクトルは、各組のマルチモーダル特徴と抽出待ち属性との関係を反映することができ、さらに、後続の多層パーセプトロンネットワークがシーケンスベクトルに基づき、各組のマルチモーダル特徴のクラスを正確に確定することができる。
説明すべきこととして、上記S1031-S1033は、予めトレーニングされるテキスト抽出モデルに含まれる検出サブモデルによって実現してもよく、この検出サブモデルは、上記デコーダと、多層パーセプトロンネットワークとを含む。テキスト抽出モデルのトレーニングプロセスについて、後続の実施例において説明する。
ここで、サンプル画像は、上記実体文書の画像、例えば、紙文書の画像、種々の手形、証明書又はカードの画像などである。
S502、検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得する。
S503、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴を出力サブモデルに入力し、出力サブモデルから出力される、抽出待ち属性にマッチングする第2のテキスト情報を得る。
例えば、サンプル画像は、乗車券画像であり、抽出される必要のあるテキスト情報は、この乗車券における出発駅の駅名であれば、抽出待ち属性は、出発駅名である。例えば、乗車券における出発駅の駅名が「北京」であれば、「北京」は、抽出される必要のあるテキスト情報である。
ここで、視覚的符号化サブモデルに含まれるバックボーンネットワークは、上記実施例で記述されたバックボーンネットワークと同じであり、上記実施例におけるバックボーンネットワークに関わる関連記述を参照してもよく、ここで説明を省略する。
このステップにおけるサンプル画像の画像特徴に対する処理は、上記S1012における検出待ち画像の画像特徴に対する処理プロセスと同じであり、上記S1012における関連記述を参照してもよく、ここで説明を省略する。
ステップ2、複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得る。
ステップ4、予め設定される認識モデルを利用して、各サンプルサブマップにおける第1のテキスト情報を認識し、各検出枠における第1のテキスト情報を得る。
S5031、視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得る。
抽出待ち属性及び複数組のマルチモーダル特徴をセルフアテンション層に入力し、複数の融合特徴を得る。そして、複数の融合特徴と視覚的符号化特徴をコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得る。ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴である。
本開示の実施例を用いると、デコーダにおけるアテンションメカニズムによって、複数組のマルチモーダル特徴、抽出待ち属性及び視覚的符号化特徴に対して復号を行い、シーケンスベクトルを得、さらに、多層パーセプトロンネットワークは、シーケンスベクトルに基づいて、各第1のテキスト情報のクラスを出力し、正しいクラスである第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報として確定することができ、種々の様式の証明書手形に対するテキスト抽出を実現し、人件費を節約し、且つ抽出効率を向上させることができる。
視覚的符号化特徴、マルチモーダル特徴queries及び抽出待ち属性(Key Query)をTransformerデコーダ(Transformer Decoder)に入力し、シーケンスベクトルを得る。
検出待ち画像の視覚的符号化特徴を取得するための第1の取得モジュール901と、
検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュール902であって、各組のマルチモーダル特徴は、検出待ち画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む抽出モジュール902と、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴に基づき、複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、抽出待ち属性にマッチングする第2のテキスト情報を取得するための第2の取得モジュール903であって、抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第2の取得モジュール903とを含む。
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得、
デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、
正しいクラスに属する第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報とするために用いられる。
抽出待ち属性及び複数組のマルチモーダル特徴をデコーダのセルフアテンション層に入力し、複数の融合特徴を得、ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴であり、
複数の融合特徴と視覚的符号化特徴をデコーダのコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得るために用いられる。
検出待ち画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得し、
画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、検出待ち画像の視覚的符号化特徴を得るために用いられる。
検出待ち画像を予め設定される検出モデルに入力し、検出待ち画像の特徴マップと複数の検出枠の位置情報を得、
複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得、
複数の検出枠の位置情報を利用して、検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得、
予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得、
検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの前記検出枠における第1のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得るために用いられる。
視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第1の取得モジュール1001と、
検出サブモデルによってサンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第2の取得モジュール1002であって、各組のマルチモーダル特徴は、サンプル画像から抽出される1つの検出枠の位置情報と、この検出枠における検出特徴と、この検出枠における第1のテキスト情報とを含む第2の取得モジュール1002と、
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴を出力サブモデルに入力し、出力サブモデルから出力される、抽出待ち属性にマッチングする第2のテキスト情報を得るためのテキスト抽出モジュール1003であって、抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュール1003と、
出力サブモデルから出力される第2のテスト情報とサンプル画像における実際に抽出される必要のあるテキスト情報に基づき、テキスト抽出モデルをトレーニングするためのトレーニングモジュール1004とを含む。
視覚的符号化特徴、抽出待ち属性及び複数組のマルチモーダル特徴をデコーダに入力し、デコーダから出力されるシーケンスベクトルを得、
デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得、多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含み、
正しいクラスに属する第1のテキスト情報を抽出待ち属性にマッチングする第2のテキスト情報とするために用いられる。
抽出待ち属性及び複数組のマルチモーダル特徴をセルフアテンション層に入力し、複数の融合特徴を得、ここで、各融合特徴は、一組のマルチモーダル特徴と抽出待ち属性に対して融合を行って得られた特徴であり、
複数の融合特徴と視覚的符号化特徴をコーデックアテンション層に入力し、コーデックアテンション層から出力されるシーケンスベクトルを得るために用いられる。
サンプル画像をバックボーンネットワークに入力し、バックボーンネットワークから出力される画像特徴を取得し、
画像特徴と予め設定される位置符号化特徴を加算した後、エンコーダに入力し、符号化操作を行い、サンプル画像の視覚的符号化特徴を得るために用いられる。
サンプル画像を予め設定される検出モデルに入力し、サンプル画像の特徴マップと複数の検出枠の位置情報を得、
複数の検出枠の位置情報を利用して、特徴マップを切り出し、各検出枠における検出特徴を得、
複数の検出枠の位置情報を利用して、サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得、
予め設定される認識モデルを利用して、各サンプルサブマップにおけるテキスト情報を認識し、各検出枠におけるテキスト情報を得、
検出枠ごとに、この検出枠の位置情報、この検出枠における検出特徴及びこの検出枠における第1のテキスト情報に対してスティッチングを行い、この検出枠に対応する一組のマルチモーダル特徴を得るために用いられる。
図11は本開示の実施例を実施するための例示的な電子機器1100を示す概略ブロック図である。電子機器は、様々な形態のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ステージ、個人用デジタル補助装置、サーバ、ブレードサーバ、大型コンピュータ、その他の適切なコンピュータを示す。電子機器は更に、様々な形態の移動装置、例えば、個人デジタル処理、携帯電話、スマートフォン、着用可能な装置とその他の類似する計算装置を示してよい。本明細書に示される部品、これらの接続関係およびこれらの機能は例示的なものに過ぎず、本明細書に説明したおよび/又は請求した本開示の実現を制限しない。
Claims (19)
- テキスト抽出方法であって、
検出待ち画像の視覚的符号化特徴を取得することと、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出することであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモード特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得することであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることとを含む、テキスト抽出方法。 - 前述した、前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得することは、
前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることと、
前記デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むことと、
正しいクラスに属する第1のテキスト情報を前記抽出待ち属性にマッチングする第2のテキスト情報とすることとを含む、請求項1に記載の方法。 - 前述した、前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることは、
前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダのセルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であることと、
前記複数の融合特徴と前記視覚的符号化特徴を前記デコーダのコーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることとを含む、請求項2に記載の方法。 - 前述した、検出待ち画像の視覚的符号化特徴を取得することは、
前記検出待ち画像をバックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得することと、
前記画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、前記検出待ち画像の視覚的符号化特徴を得ることとを含む、請求項1~3のいずれか1項に記載の方法。 - 前述した、前記検出待ち画像から複数組のマルチモーダル特徴を抽出することは、
前記検出待ち画像を予め設定される検出モデルに入力し、前記検出待ち画像の特徴マップと複数の検出枠の位置情報を得ることと、
前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ることと、
前記複数の検出枠の位置情報を利用して、前記検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得ることと、
予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得ることと、
検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第1のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることとを含む、請求項1~3のいずれか1項に記載の方法。 - テキスト抽出モデルのトレーニング方法であって、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記方法は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含むことと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得ることであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であることと、
前記出力サブモデルから出力される第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングすることとを含む、テキスト抽出モデルのトレーニング方法。 - 前記出力サブモデルは、デコーダと、多層パーセプトロンネットワークとを含み、前述した、前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得ることは、
前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることと、
前記デコーダから出力されるシーケンスベクトルを前記多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むことと、
正しいクラスに属する第1のテキスト情報を前記抽出待ち属性にマッチングする第2のテキスト情報とすることとを含む、請求項6に記載の方法。 - 前記デコーダは、セルフアテンション層と、コーデックアテンション層とを含み、前述した、前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ることは、
前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記セルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であることと、
前記複数の融合特徴と前記視覚的符号化特徴を前記コーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることとを含む、請求項7に記載の方法。 - 前記視覚的符号化サブモデルは、バックボーンネットワークと、エンコーダとを含み、前述した、前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得することは、
前記サンプル画像を前記バックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得することと、
前記画像特徴と予め設定される位置符号化特徴を加算した後、前記エンコーダに入力し、符号化操作を行い、前記サンプル画像の視覚的符号化特徴を得ることとを含む、請求項6~8のいずれか1項に記載の方法。 - 前記検出サブモデルは、予め設定される検出モデルと、予め設定される認識モデルとを含み、前述した、前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得することは、
前記サンプル画像を前記予め設定される検出モデルに入力し、前記サンプル画像の特徴マップと複数の検出枠の位置情報を得ることと、
前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ることと、
前記複数の検出枠の位置情報を利用して、前記サンプル画像を切り出し、各検出枠におけるサンプルサブマップを得ることと、
前記予め設定される認識モデルを利用して、各サンプルサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得ることと、
検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第1のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることとを含む、請求項6~8のいずれか1項に記載の方法。 - テキスト抽出装置であって、
検出待ち画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
前記検出待ち画像から複数組のマルチモーダル特徴を抽出するための抽出モジュールであって、各組のマルチモーダル特徴は、前記検出待ち画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む抽出モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴に基づき、前記複数組のマルチモーダル特徴に含まれる第1のテキスト情報から、前記抽出待ち属性にマッチングする第2のテキスト情報を取得するための第2の取得モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性である第2の取得モジュールとを含む、テキスト抽出装置。 - 前記第2の取得モジュールは、具体的に、
前記視覚的符号化特徴、前記抽出待ち属性及び前記複数組のマルチモーダル特徴をデコーダに入力し、前記デコーダから出力されるシーケンスベクトルを得ること、
前記デコーダから出力されるシーケンスベクトルを多層パーセプトロンネットワークに入力し、前記多層パーセプトロンネットワークから出力される各第1のテキスト情報の属するクラスを得ることであって、前記多層パーセプトロンネットワークから出力されるクラスは、正しいクラスと、誤ったクラスとを含むこと、
正しいクラスに属する第1のテキスト情報を前記抽出待ち属性にマッチングする第2のテキスト情報とすることのために用いられる、請求項11に記載の装置。 - 前記第2の取得モジュールは、具体的に、
前記抽出待ち属性及び前記複数組のマルチモーダル特徴を前記デコーダのセルフアテンション層に入力し、複数の融合特徴を得ることであって、各融合特徴は、一組のマルチモーダル特徴と前記抽出待ち属性に対して融合を行って得られた特徴であること、
前記複数の融合特徴と前記視覚的符号化特徴を前記デコーダのコーデックアテンション層に入力し、前記コーデックアテンション層から出力される前記シーケンスベクトルを得ることのために用いられる、請求項12に記載の装置。 - 前記第1の取得モジュールは、具体的に、
前記検出待ち画像をバックボーンネットワークに入力し、前記バックボーンネットワークから出力される画像特徴を取得すること、
前記画像特徴と予め設定される位置符号化特徴を加算した後、符号化操作を行い、前記検出待ち画像の視覚的符号化特徴を得ることのために用いられる、請求項11~13のいずれか1項に記載の装置。 - 前記抽出モジュールは、具体的に、
前記検出待ち画像を予め設定される検出モデルに入力し、前記検出待ち画像の特徴マップと複数の検出枠の位置情報を得ること、
前記複数の検出枠の位置情報を利用して、前記特徴マップを切り出し、各検出枠における検出特徴を得ること、
前記複数の検出枠の位置情報を利用して、前記検出待ち画像を切り出し、各検出枠における検出待ちサブマップを得ること、
予め設定される認識モデルを利用して、各検出待ちサブマップにおけるテキスト情報を認識し、各検出枠における第1のテキスト情報を得ること、
検出枠ごとに、前記検出枠の位置情報、前記検出枠における検出特徴及び前記検出枠における第1のテキスト情報に対してスティッチングを行い、前記検出枠に対応する一組のマルチモーダル特徴を得ることのために用いられる、請求項11~13のいずれか1項に記載の装置。 - テキスト抽出モデルのトレーニング装置であって、前記テキスト抽出モデルは、視覚的符号化サブモデルと、検出サブモデルと、出力サブモデルとを含み、前記装置は、
前記視覚的符号化サブモデルによって抽出されるサンプル画像の視覚的符号化特徴を取得するための第1の取得モジュールと、
前記検出サブモデルによって前記サンプル画像から抽出される複数組のマルチモーダル特徴を取得するための第2の取得モジュールであって、各組のマルチモーダル特徴は、前記サンプル画像から抽出される1つの検出枠の位置情報と、前記検出枠における検出特徴と、前記検出枠における第1のテキスト情報とを含む第2の取得モジュールと、
前記視覚的符号化特徴、抽出待ち属性及び前記複数組のマルチモーダル特徴を前記出力サブモデルに入力し、前記出力サブモデルから出力される、前記抽出待ち属性にマッチングする第2のテキスト情報を得るためのテキスト抽出モジュールであって、前記抽出待ち属性は、抽出される必要のあるテキスト情報の属性であるテキスト抽出モジュールと、
前記出力サブモデルから出力される第2のテスト情報と前記サンプル画像における実際に抽出される必要のあるテキスト情報に基づき、前記テキスト抽出モデルをトレーニングするためのトレーニングモジュールとを含む、テキスト抽出モデルのトレーニング装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを含み、ここで、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに請求項1~3又は6~8のいずれか1項に記載の方法を実行させる、電子機器。 - コンピュータ命令が記憶される非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~3又は6~8のいずれか1項に記載の方法を実行させるために用いられる、非一時的コンピュータ可読記憶媒体。
- プロセッサによって実行されると、請求項1~3又は6~8のいずれか1項に記載の方法を実現するコンピュータプログラムを含む、コンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210234230.9 | 2022-03-10 | ||
CN202210234230.9A CN114821622B (zh) | 2022-03-10 | 2022-03-10 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022172381A true JP2022172381A (ja) | 2022-11-15 |
JP7423715B2 JP7423715B2 (ja) | 2024-01-29 |
Family
ID=82528699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022145248A Active JP7423715B2 (ja) | 2022-03-10 | 2022-09-13 | テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230106873A1 (ja) |
JP (1) | JP7423715B2 (ja) |
KR (1) | KR20220133141A (ja) |
CN (1) | CN114821622B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797751A (zh) * | 2023-01-18 | 2023-03-14 | 中国科学技术大学 | 基于对比掩码图像建模的图像分析方法与系统 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546488B (zh) * | 2022-11-07 | 2023-05-19 | 北京百度网讯科技有限公司 | 信息分割方法、信息提取方法和信息分割模型的训练方法 |
CN116110056B (zh) * | 2022-12-29 | 2023-09-26 | 北京百度网讯科技有限公司 | 信息抽取方法及装置、电子设备和存储介质 |
CN116168216B (zh) * | 2023-04-21 | 2023-07-18 | 中国科学技术大学 | 一种基于场景提示的单目标跟踪方法 |
CN116597467B (zh) * | 2023-07-17 | 2023-10-31 | 粤港澳大湾区数字经济研究院(福田) | 一种图纸检测方法、系统、设备及存储介质 |
CN117351257B (zh) * | 2023-08-24 | 2024-04-02 | 长江水上交通监测与应急处置中心 | 一种基于多模态信息的航运数据抽取方法及系统 |
CN116912871B (zh) * | 2023-09-08 | 2024-02-23 | 上海蜜度信息技术有限公司 | 身份证信息抽取方法、系统、存储介质及电子设备 |
CN117197737B (zh) * | 2023-09-08 | 2024-05-28 | 数字广东网络建设有限公司 | 一种土地用途的检测方法、装置、设备及存储介质 |
CN117037136B (zh) * | 2023-10-10 | 2024-02-23 | 中国科学技术大学 | 场景文本识别方法、系统、设备及存储介质 |
CN117351331A (zh) * | 2023-10-24 | 2024-01-05 | 北京云上曲率科技有限公司 | 一种为视觉大模型添加适配器的方法及装置 |
CN117274564B (zh) * | 2023-11-20 | 2024-03-15 | 民航成都电子技术有限责任公司 | 基于图文语义差异的机场跑道异物检测方法及系统 |
CN117523543B (zh) * | 2024-01-08 | 2024-03-19 | 成都大学 | 一种基于深度学习的金属压印字符识别方法 |
CN117711001B (zh) * | 2024-02-04 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备和介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090265307A1 (en) * | 2008-04-18 | 2009-10-22 | Reisman Kenneth | System and method for automatically producing fluent textual summaries from multiple opinions |
US20170147577A9 (en) * | 2009-09-30 | 2017-05-25 | Gennady LAPIR | Method and system for extraction |
TWI753034B (zh) * | 2017-03-31 | 2022-01-21 | 香港商阿里巴巴集團服務有限公司 | 特徵向量的產生、搜索方法、裝置及電子設備 |
CN110019812B (zh) * | 2018-02-27 | 2021-08-20 | 中国科学院计算技术研究所 | 一种用户自生产内容检测方法和系统 |
US11023210B2 (en) * | 2019-03-20 | 2021-06-01 | International Business Machines Corporation | Generating program analysis rules based on coding standard documents |
CN110110715A (zh) * | 2019-04-30 | 2019-08-09 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
US11100145B2 (en) * | 2019-09-11 | 2021-08-24 | International Business Machines Corporation | Dialog-based image retrieval with contextual information |
CN111091824B (zh) * | 2019-11-30 | 2022-10-04 | 华为技术有限公司 | 一种语音匹配方法及相关设备 |
CN111090987B (zh) * | 2019-12-27 | 2021-02-05 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN112016438B (zh) * | 2020-08-26 | 2021-08-10 | 北京嘀嘀无限科技发展有限公司 | 一种基于图神经网络识别证件的方法及系统 |
CN112001368A (zh) | 2020-09-29 | 2020-11-27 | 北京百度网讯科技有限公司 | 文字结构化提取方法、装置、设备以及存储介质 |
CN112801010B (zh) * | 2021-02-07 | 2023-02-14 | 华南理工大学 | 一种针对实际ocr场景下的视觉富文档信息抽取方法 |
CN113033534B (zh) * | 2021-03-10 | 2023-07-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113032672A (zh) * | 2021-03-24 | 2021-06-25 | 北京百度网讯科技有限公司 | 多模态poi特征的提取方法和装置 |
CN113378832B (zh) * | 2021-06-25 | 2024-05-28 | 北京百度网讯科技有限公司 | 文本检测模型训练方法、文本预测框方法及装置 |
CN113657390B (zh) * | 2021-08-13 | 2022-08-12 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法和检测文本方法、装置和设备 |
CN113722490B (zh) * | 2021-09-06 | 2023-05-26 | 华南理工大学 | 一种基于键值匹配关系的视觉富文档信息抽取方法 |
CN113971222A (zh) * | 2021-10-28 | 2022-01-25 | 重庆紫光华山智安科技有限公司 | 一种多模态复合编码图像检索方法和系统 |
-
2022
- 2022-03-10 CN CN202210234230.9A patent/CN114821622B/zh active Active
- 2022-09-13 JP JP2022145248A patent/JP7423715B2/ja active Active
- 2022-09-14 KR KR1020220115367A patent/KR20220133141A/ko unknown
- 2022-11-28 US US18/059,362 patent/US20230106873A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797751A (zh) * | 2023-01-18 | 2023-03-14 | 中国科学技术大学 | 基于对比掩码图像建模的图像分析方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114821622A (zh) | 2022-07-29 |
JP7423715B2 (ja) | 2024-01-29 |
KR20220133141A (ko) | 2022-10-04 |
CN114821622B (zh) | 2023-07-21 |
US20230106873A1 (en) | 2023-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7423715B2 (ja) | テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器 | |
EP3923185A2 (en) | Image classification method and apparatus, electronic device and storage medium | |
EP4141733A1 (en) | Model training method and apparatus, electronic device, and storage medium | |
CN112949415B (zh) | 图像处理方法、装置、设备和介质 | |
US20220309549A1 (en) | Identifying key-value pairs in documents | |
JP2023541532A (ja) | テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
WO2024098533A1 (zh) | 图文双向搜索方法、装置、设备及非易失性可读存储介质 | |
WO2024098623A1 (zh) | 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统 | |
CN114818708B (zh) | 关键信息抽取方法、模型训练方法、相关装置及电子设备 | |
CN114612921B (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN116450834A (zh) | 一种基于多模态语义特征的档案知识图谱构建方法 | |
JP2023541527A (ja) | テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 | |
EP4057283A2 (en) | Method for detecting voice, method for training, apparatuses and smart speaker | |
EP3920074A2 (en) | Method for industry text increment, related apparatus, and computer program product | |
CN114724156A (zh) | 表单识别方法、装置及电子设备 | |
CN114186690A (zh) | 飞行器知识图谱构建方法、装置、设备及存储介质 | |
US20220382991A1 (en) | Training method and apparatus for document processing model, device, storage medium and program | |
CN115130473B (zh) | 关键信息抽取方法、模型训练方法、相关装置及电子设备 | |
CN115035351B (zh) | 基于图像的信息提取方法、模型训练方法、装置、设备及存储介质 | |
JP2023010805A (ja) | ドキュメント情報抽出モデルのトレーニングおよびドキュメント情報の抽出のための方法、装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN113361522B (zh) | 用于确定字符序列的方法、装置和电子设备 | |
CN113536797A (zh) | 一种切片文档关键信息单模型抽取方法及系统 | |
CN114445833A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN113971810A (zh) | 文档生成方法、装置、平台、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220913 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7423715 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |