JP7406606B2 - テキスト認識モデルの訓練方法、テキスト認識方法及び装置 - Google Patents
テキスト認識モデルの訓練方法、テキスト認識方法及び装置 Download PDFInfo
- Publication number
- JP7406606B2 JP7406606B2 JP2022151153A JP2022151153A JP7406606B2 JP 7406606 B2 JP7406606 B2 JP 7406606B2 JP 2022151153 A JP2022151153 A JP 2022151153A JP 2022151153 A JP2022151153 A JP 2022151153A JP 7406606 B2 JP7406606 B2 JP 7406606B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- predicted
- loss value
- recognized
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 95
- 238000012549 training Methods 0.000 title claims description 86
- 230000000007 visual effect Effects 0.000 claims description 125
- 238000004590 computer program Methods 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/199—Arrangements for recognition using optical reference masks, e.g. holographic masks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1916—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/20—Combination of acquisition, preprocessing or recognition functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Description
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップであって、前記サンプル画像にはテキストが含まれるステップと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定し、前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するステップと、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップと、を含む。
認識待ちの対象を取得するステップであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストであるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて得られたものである。
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第1の予測ユニットであって、前記サンプル画像にはテキストが含まれる第1の予測ユニットと、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第2の予測ユニットと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定するための第1の決定ユニットと、
前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するための第2の決定ユニットと、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニットと、を含む。
認識待ちの対象を取得するための取得ユニットであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて訓練されたものである。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが第1の態様又は第2の態様に記載の方法を実行できる。
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第1の予測ユニット601であって、サンプル画像にはテキストが含まれる第1の予測ユニット601と、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第2の予測ユニット602と、
予測される視覚的特徴に従ってサンプル画像のテキストの第1の損失値を決定するための第1の決定ユニット603と、
予測される語義特徴に従ってサンプルテキストの第2の損失値を決定するための第2の決定ユニット604と、
第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニット605であって、テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニット605と、を含む。
予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得るための第1のデコーディングサブユニット7071と、
予測される視覚的特徴に対応する予測されるテキスト文字に従って第1の損失値を決定するための第1の決定サブユニット7072と、を含む。
サンプル画像のラベル付けされたテキスト文字を取得するための第1の取得モジュールと、
予測される視覚的特徴に対応する予測されるテキスト文字、及びサンプル画像のラベル付けされたテキスト文字に従って、第1の損失値を計算して得るための第1の計算モジュールと、を含む。
予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得るための第2のデコーディングサブユニット7081と、
予測される語義特徴に対応する予測されるテキスト文字に従って第2の損失値を決定するための第2の決定サブユニット7082と、を含む。
サンプルテキストのラベル付けされたテキスト文字を取得するための第2の取得モジュールと、
予測される語義特徴に対応する予測されるテキスト文字、及びサンプルテキストのラベル付けされたテキスト文字に従って、第2の損失値を計算して得るための第2の計算モジュールと、を含む。
第1の損失値と第2の損失値との平均値を決定するための第3の決定サブユニット7091と、
平均値に従って訓練してテキスト認識モデルを得るための訓練サブユニット7092と、を含む。
予測される視覚的特徴は、コンテキストエンハンスメントモジュールに基づいてサンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものである。
第1の損失値は、予測される視覚的特徴及びデコーディングモジュールに基づいて決定されたものである。
テキスト認識モデルは、第1の損失値及び第2の損失値に基づいて基本ネットワークのパラメータを調整して得られたものである。
予測される語義特徴は、コンテキストエンハンスメントモジュールに基づいてサンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものである。
第2の損失値は、予測される語義特徴及びデコーディングモジュールに基づいて得られたものである。
テキスト認識モデルは、第1の損失値及び第2の損失値に基づいて基本ネットワークのパラメータを調整して得られたものである。
認識待ちの対象を取得するための取得ユニット801であって、認識待ちの対象にはテキストが含まれ、認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニット801と、
予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得るための認識ユニット802と、を含み、
テキスト認識モデルは、上記いずれか1つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。
認識待ちの画像に対して特徴抽出処理を行い、認識待ちの画像の視覚的特徴を得るための第1の抽出サブユニット8021と、
テキスト認識モデルを使用して、認識待ちの画像の視覚的特徴に従って認識待ちの画像に対してテキスト認識を行い、認識待ちの画像に対応するテキストコンテンツを得るための第1の認識サブユニット8022と、を含む。
認識待ちのテキストに対して特徴抽出処理を行い、認識待ちのテキストの語義特徴を得るための第2の抽出サブユニット8023と、
テキスト認識モデルを使用して、認識待ちのテキストの語義特徴に従って認識待ちのテキストに対してテキスト認識を行い、認識待ちのテキストに対応するテキストコンテンツを得るための第2の認識サブユニット8024と、を含む。
Claims (27)
- テキスト認識モデルの訓練方法であって、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップであって、前記サンプル画像にはテキストが含まれるステップと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定し、前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するステップと、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップと、を含み、
前記方法は、予め設定された基本ネットワークに適用され、前記基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
前記予測される視覚的特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものであり、
前記第1の損失値は、前記予測される視覚的特徴及び前記デコーディングモジュールに基づいて決定されたものであり、
前記テキスト認識モデルは、前記第1の損失値及び前記第2の損失値に基づいて前記基本ネットワークのパラメータを調整して得られたものである、
テキスト認識モデルの訓練方法。 - 前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定するステップは、
前記予測される視覚的特徴に対してデコーディング処理を行い、前記予測される視覚的特徴に対応する予測されるテキスト文字を得るステップと、
前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第1の損失値を決定するステップと、を含む請求項1に記載の方法。 - 前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第1の損失値を決定するステップは、
前記サンプル画像のラベル付けされたテキスト文字を取得するステップと、
前記予測される視覚的特徴に対応する予測されるテキスト文字、及び前記サンプル画像のラベル付けされたテキスト文字に従って、前記第1の損失値を計算して得るステップと、を含む請求項2に記載の方法。 - 前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するステップは、
前記予測される語義特徴に対してデコーディング処理を行い、前記予測される語義特徴に対応する予測されるテキスト文字を得るステップと、
前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第2の損失値を決定するステップと、を含む請求項1~3のいずれか1項に記載の方法。 - 前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第2の損失値を決定するステップは、
前記サンプルテキストのラベル付けされたテキスト文字を取得するステップと、
前記予測される語義特徴に対応する予測されるテキスト文字、及び前記サンプルテキストのラベル付けされたテキスト文字に従って、前記第2の損失値を計算して得るステップと、を含む請求項4に記載の方法。 - 前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップは、
前記第1の損失値と前記第2の損失値との平均値を決定し、前記平均値に基づいて訓練して前記テキスト認識モデルを得るステップを含む請求項1~3のいずれか1項に記載の方法。 - 前記予測される語義特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものであり、
前記第2の損失値は、前記予測される語義特徴及び前記デコーディングモジュールに基づいて得られたものである請求項1~3のいずれか1項に記載の方法。 - 前記基本ネットワークは、さらに、コーディングモジュールを含み、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るステップの前、前記方法は、さらに、
取得されたサンプル画像を前記基本ネットワークの前記コーディングモジュールに入力し、前記視覚的特徴を出力するステップを含み、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップは、前記第1の損失値及び前記第2の損失値に従って前記コーディングモジュールのパラメータを調整し、前記テキスト認識モデルを得るステップを含む請求項1~3のいずれか1項に記載の方法。 - 前記基本ネットワークは、さらに、テキスト埋め込みモジュールを含み、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップの前、前記方法は、さらに、
取得されたサンプルテキストを前記基本ネットワークの前記テキスト埋め込みモジュールに入力し、前記語義特徴を出力するステップを含み、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップは、前記第1の損失値及び前記第2の損失値に従って前記テキスト埋め込みモジュールのパラメータを調整し、前記テキスト認識モデルを得るステップを含む請求項1~3のいずれか1項に記載の方法。 - テキスト認識方法であって、
認識待ちの対象を取得するステップであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストであるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが請求項1~3のいずれか1項に記載の方法に基づいて得られたものであるテキスト認識方法。 - 前記認識待ちの対象が認識待ちの画像である場合、予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップは、
前記認識待ちの画像に対して特徴抽出処理を行い、前記認識待ちの画像の視覚的特徴を得るステップと、
前記テキスト認識モデルを使用して、前記認識待ちの画像の視覚的特徴に基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像に対応するテキストコンテンツを得るステップと、を含む請求項10に記載の方法。 - 前記認識待ちの対象が認識待ちのテキストである場合、予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップは、
前記認識待ちのテキストに対して特徴抽出処理を行い、前記認識待ちのテキストの語義特徴を得るステップと、
前記テキスト認識モデルを使用して、前記認識待ちのテキストの語義特徴に従って前記認識待ちのテキストに対してテキスト認識を行い、前記認識待ちのテキストに対応するテキストコンテンツを得るステップと、を含む請求項10に記載の方法。 - テキスト認識モデルの訓練装置であって、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第1の予測ユニットであって、前記サンプル画像にはテキストが含まれる第1の予測ユニットと、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第2の予測ユニットと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定するための第1の決定ユニットと、
前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するための第2の決定ユニットと、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニットと、を含み、
前記装置は、予め設定された基本ネットワークに適用され、前記基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
前記予測される視覚的特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものであり、
前記第1の損失値は、前記予測される視覚的特徴及び前記デコーディングモジュールに基づいて決定されたものであり、
前記テキスト認識モデルは、前記第1の損失値及び前記第2の損失値に基づいて前記基本ネットワークのパラメータを調整して得られたものである、
テキスト認識モデルの訓練装置。 - 前記第1の決定ユニットは、
前記予測される視覚的特徴に対してデコーディング処理を行い、前記予測される視覚的特徴に対応する予測されるテキスト文字を得るための第1のデコーディングサブユニットと、
前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第1の損失値を決定するための第1の決定サブユニットと、を含む請求項13に記載の装置。 - 前記第1の決定サブユニットは、
前記サンプル画像のラベル付けされたテキスト文字を取得するための第1の取得モジュールと、
前記予測される視覚的特徴に対応する予測されるテキスト文字、及び前記サンプル画像のラベル付けされたテキスト文字に従って、前記第1の損失値を計算して得るための第1の計算モジュールと、を含む請求項14に記載の装置。 - 前記第2の決定ユニットは、
前記予測される語義特徴に対してデコーディング処理を行い、前記予測される語義特徴に対応する予測されるテキスト文字を得るための第2のデコーディングサブユニットと、
前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第2の損失値を決定するための第2の決定サブユニットと、を含む請求項13~15のいずれか1項に記載の装置。 - 前記第2の決定サブユニットは、
前記サンプルテキストのラベル付けされたテキスト文字を取得するための第2の取得モジュールと、
前記予測される語義特徴に対応する予測されるテキスト文字、及び前記サンプルテキストのラベル付けされたテキスト文字に従って、前記第2の損失値を計算して得るための第2の計算モジュールと、を含む請求項16に記載の装置。 - 前記訓練ユニットは、
前記第1の損失値と前記第2の損失値との平均値を決定するための第3の決定サブユニットと、
前記平均値に基づいて訓練して前記テキスト認識モデルを得るための訓練サブユニットと、を含む請求項13~15のいずれか1項に記載の装置。 - 前記予測される語義特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものであり、
前記第2の損失値は、前記予測される語義特徴及び前記デコーディングモジュールに基づいて得られたものである請求項13~15のいずれか1項に記載の装置。 - 前記基本ネットワークは、さらに、コーディングモジュールを含み、
前記装置は、さらに、
取得されたサンプル画像を前記基本ネットワークの前記コーディングモジュールに入力するための第1の入力ユニットと、
前記視覚的特徴を出力するための第1の出力ユニットと、を含み、
前記訓練ユニットが、前記第1の損失値及び前記第2の損失値に従って前記コーディングモジュールのパラメータを調整し、前記テキスト認識モデルを得るためのものである請求項13~15のいずれか1項に記載の装置。 - 前記基本ネットワークは、さらに、テキスト埋め込みモジュールを含み、
前記装置は、さらに、
取得されたサンプルテキストを前記基本ネットワークの前記テキスト埋め込みモジュールに入力するための第2の入力ユニットと、
前記語義特徴を出力するための第2の出力ユニットと、を含み、
前記訓練ユニットが、前記第1の損失値及び前記第2の損失値に従って前記テキストめ込みモジュールのパラメータを調整し、前記テキスト認識モデルを得るためのものである請求項13~15のいずれか1項に記載の装置。 - テキスト認識装置であって、
認識待ちの対象を取得するための取得ユニットであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが請求項1~3のいずれか1項に記載の方法に基づいて得られたものであるテキスト認識装置。 - 前記認識待ちの対象が認識待ちの画像である場合、前記認識ユニットは、
前記認識待ちの画像に対して特徴抽出処理を行い、前記認識待ちの画像の視覚的特徴を得るための第1の抽出サブユニットと、
前記テキスト認識モデルを使用して、前記認識待ちの画像の視覚的特徴に基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像に対応するテキストコンテンツを得るための第1の認識サブユニットと、を含む請求項22に記載の装置。 - 前記認識待ちの対象が認識待ちのテキストである場合、前記認識ユニットは、
前記認識待ちのテキストに対して特徴抽出処理を行い、前記認識待ちのテキストの語義特徴を得るための第2の抽出サブユニットと、
前記テキスト認識モデルを使用して、前記認識待ちのテキストの語義特徴に従って前記認識待ちのテキストに対してテキスト認識を行い、前記認識待ちのテキストに対応するテキストコンテンツを得るための第2の認識サブユニットと、を含む請求項22に記載の装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが請求項1~3のいずれか1項に記載の方法を実行できるか、前記少なくとも1つのプロセッサが請求項10に記載の方法を実行できる電子機器。 - コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令がコンピュータに請求項1~3のいずれか1項に記載の方法を実行させるためのものであるか、前記コンピュータ命令が前記コンピュータに請求項10に記載の方法を実行させるためのものである非一時的な可読記憶媒体。
- コンピュータプログラムであって、当該コンピュータプログラムがプロセッサにより実行されると、請求項1~3のいずれか1項に記載の方法のステップは実現されるか、当該コンピュータプログラムがプロセッサにより実行されると、請求項10に記載の方法のステップは実現されるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210275278.4A CN114372477B (zh) | 2022-03-21 | 2022-03-21 | 文本识别模型的训练方法、文本识别方法及装置 |
CN202210275278.4 | 2022-03-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022177220A JP2022177220A (ja) | 2022-11-30 |
JP7406606B2 true JP7406606B2 (ja) | 2023-12-27 |
Family
ID=81145182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022151153A Active JP7406606B2 (ja) | 2022-03-21 | 2022-09-22 | テキスト認識モデルの訓練方法、テキスト認識方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220415071A1 (ja) |
JP (1) | JP7406606B2 (ja) |
KR (1) | KR20220127189A (ja) |
CN (1) | CN114372477B (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818708B (zh) * | 2022-04-20 | 2023-04-18 | 北京百度网讯科技有限公司 | 关键信息抽取方法、模型训练方法、相关装置及电子设备 |
CN114724168A (zh) * | 2022-05-10 | 2022-07-08 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、文本识别方法、装置和设备 |
CN114937277B (zh) * | 2022-05-18 | 2023-04-11 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
CN115115914B (zh) * | 2022-06-07 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 信息识别方法、装置以及计算机可读存储介质 |
WO2024060066A1 (zh) * | 2022-09-21 | 2024-03-28 | 京东方科技集团股份有限公司 | 一种文本识别方法、模型及电子设备 |
CN115544240B (zh) * | 2022-11-24 | 2023-04-07 | 闪捷信息科技有限公司 | 文本类敏感信息识别方法、装置、电子设备和存储介质 |
CN115984865B (zh) * | 2022-12-23 | 2024-02-27 | 成方金融科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
CN116012650B (zh) * | 2023-01-03 | 2024-04-23 | 北京百度网讯科技有限公司 | 文字识别模型训练及其识别方法、装置、设备和介质 |
CN116228895B (zh) * | 2023-01-16 | 2023-11-17 | 北京百度网讯科技有限公司 | 视频生成方法、深度学习模型训练方法、装置以及设备 |
CN116050465B (zh) * | 2023-02-09 | 2024-03-19 | 北京百度网讯科技有限公司 | 文本理解模型的训练方法和文本理解方法、装置 |
CN115951883B (zh) * | 2023-03-15 | 2023-05-23 | 日照市德衡信息技术有限公司 | 分布式微服务架构的服务组件管理系统及其方法 |
CN116363262B (zh) * | 2023-03-31 | 2024-02-02 | 北京百度网讯科技有限公司 | 图像生成方法、装置及电子设备 |
CN116343233B (zh) * | 2023-04-04 | 2024-02-06 | 北京百度网讯科技有限公司 | 文本识别方法和文本识别模型的训练方法、装置 |
CN116469111B (zh) * | 2023-06-08 | 2023-09-15 | 江西师范大学 | 一种文字生成模型训练方法及目标文字生成方法 |
CN116756574B (zh) * | 2023-08-16 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 多模态预训练模型的训练方法、使用方法、装置和设备 |
CN117435738B (zh) * | 2023-12-19 | 2024-04-16 | 中国人民解放军国防科技大学 | 一种基于深度学习的文本多意图分析方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898642A (zh) | 2020-06-30 | 2020-11-06 | 北京市商汤科技开发有限公司 | 关键点检测方法、装置、电子设备及存储介质 |
JP2020534604A (ja) | 2017-09-19 | 2020-11-26 | ラモット・アット・テル・アビブ・ユニバーシテイ・リミテッドRamot At Tel Aviv University Ltd. | 画像コンテンツ認識のための方法およびシステム |
JP2021125138A (ja) | 2020-02-07 | 2021-08-30 | カシオ計算機株式会社 | 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム |
JP2021163456A (ja) | 2020-03-30 | 2021-10-11 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 |
CN113657399A (zh) | 2021-08-18 | 2021-11-16 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法、文字识别方法及装置 |
CN113762269A (zh) | 2021-09-08 | 2021-12-07 | 深圳市网联安瑞网络科技有限公司 | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011420B (zh) * | 2021-03-10 | 2022-08-30 | 北京百度网讯科技有限公司 | 字符识别方法、模型训练方法、相关装置及电子设备 |
CN113033537B (zh) * | 2021-03-25 | 2022-07-01 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备、介质和程序产品 |
CN113313022B (zh) * | 2021-05-27 | 2023-11-10 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法和识别图像中文字的方法 |
-
2022
- 2022-03-21 CN CN202210275278.4A patent/CN114372477B/zh active Active
- 2022-08-31 US US17/899,712 patent/US20220415071A1/en not_active Abandoned
- 2022-08-31 KR KR1020220109668A patent/KR20220127189A/ko unknown
- 2022-09-22 JP JP2022151153A patent/JP7406606B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020534604A (ja) | 2017-09-19 | 2020-11-26 | ラモット・アット・テル・アビブ・ユニバーシテイ・リミテッドRamot At Tel Aviv University Ltd. | 画像コンテンツ認識のための方法およびシステム |
JP2021125138A (ja) | 2020-02-07 | 2021-08-30 | カシオ計算機株式会社 | 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム |
JP2021163456A (ja) | 2020-03-30 | 2021-10-11 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体 |
CN111898642A (zh) | 2020-06-30 | 2020-11-06 | 北京市商汤科技开发有限公司 | 关键点检测方法、装置、电子设备及存储介质 |
CN113657399A (zh) | 2021-08-18 | 2021-11-16 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法、文字识别方法及装置 |
CN113762269A (zh) | 2021-09-08 | 2021-12-07 | 深圳市网联安瑞网络科技有限公司 | 基于神经网络的中文字符ocr识别方法、系统、介质及应用 |
Also Published As
Publication number | Publication date |
---|---|
KR20220127189A (ko) | 2022-09-19 |
US20220415071A1 (en) | 2022-12-29 |
CN114372477B (zh) | 2022-06-10 |
CN114372477A (zh) | 2022-04-19 |
JP2022177220A (ja) | 2022-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7406606B2 (ja) | テキスト認識モデルの訓練方法、テキスト認識方法及び装置 | |
US10679148B2 (en) | Implicit bridging of machine learning tasks | |
US20230162723A1 (en) | Text data processing method and apparatus | |
KR20220122566A (ko) | 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치 | |
CN111523640B (zh) | 神经网络模型的训练方法和装置 | |
WO2019080864A1 (zh) | 一种文本语义编码方法及装置 | |
JP2023541119A (ja) | 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
WO2022253074A1 (zh) | 一种数据处理方法及相关设备 | |
US20220405524A1 (en) | Optical character recognition training with semantic constraints | |
CN111291882A (zh) | 一种模型转换的方法、装置、设备和计算机存储介质 | |
WO2023005253A1 (zh) | 文本识别模型框架的训练方法、装置及系统 | |
JP7357114B2 (ja) | 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
JP2023062150A (ja) | 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 | |
JP7309811B2 (ja) | データ注釈方法、装置、電子機器および記憶媒体 | |
WO2022116827A1 (en) | Automatic delineation and extraction of tabular data in portable document format using graph neural networks | |
CN114065915A (zh) | 网络模型的构建方法、数据处理方法、装置、介质及设备 | |
WO2020155769A1 (zh) | 关键词生成模型的建模方法和装置 | |
US20230153550A1 (en) | Machine Translation Method and Apparatus, Device and Storage Medium | |
US11663412B2 (en) | Relation extraction exploiting full dependency forests | |
CN115879480A (zh) | 语义约束机器翻译方法、装置、电子设备及存储介质 | |
CN113554149B (zh) | 神经网络处理单元npu、神经网络的处理方法及其装置 | |
US20220269698A1 (en) | Phrase based unstructured content parsing | |
WO2021082518A1 (zh) | 机器翻译方法、机器翻译模型训练方法、装置及存储介质 | |
US20210201157A1 (en) | Neural network model compression with quantizability regularization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7406606 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |