JP2022177242A - テキスト認識モデルの訓練方法、テキスト認識方法及び装置 - Google Patents
テキスト認識モデルの訓練方法、テキスト認識方法及び装置 Download PDFInfo
- Publication number
- JP2022177242A JP2022177242A JP2022153452A JP2022153452A JP2022177242A JP 2022177242 A JP2022177242 A JP 2022177242A JP 2022153452 A JP2022153452 A JP 2022153452A JP 2022153452 A JP2022153452 A JP 2022153452A JP 2022177242 A JP2022177242 A JP 2022177242A
- Authority
- JP
- Japan
- Prior art keywords
- text
- recognition
- image
- training
- sample image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000000007 visual effect Effects 0.000 claims abstract description 51
- 238000004590 computer program Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 24
- 230000000873 masking effect Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06T5/75—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
【課題】テキスト認識の正確性及び信頼性を向上させるテキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供する。
【解決手段】認識待ちの画像に対してテキスト認識を行うテキスト認識モデルの訓練方法は、取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、第1のサンプル画像に対応する予測される完全な画像を得て、取得された第2のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得て、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、比較的強い画像視覚的推論能力及びテキスト語義推論能力を習得した事前訓練モデルを得て、その事前訓練モデルに従ってテキスト認識モデルを生成する。
【選択図】図1
【解決手段】認識待ちの画像に対してテキスト認識を行うテキスト認識モデルの訓練方法は、取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、第1のサンプル画像に対応する予測される完全な画像を得て、取得された第2のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得て、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、比較的強い画像視覚的推論能力及びテキスト語義推論能力を習得した事前訓練モデルを得て、その事前訓練モデルに従ってテキスト認識モデルを生成する。
【選択図】図1
Description
本開示は、人工知能(Artificial Intelligence、AI)技術の分野、具体的には、深層学習、コンピュータビジョン技術の分野に関し、光学式文字認識(Optical Character Recognition、OCR)などのシーンに適用でき、特に、テキスト認識モデルの訓練方法、テキスト認識方法及び装置に関する。
OCR技術は、教育、金融、医療、交通及び保険など、様々な業界で広く注目及び応用されている。
関連技術において、OCR技術と深層学習とを組み合わせてテキスト認識モデルを構築し、テキスト認識モデルに基づいて画像に対してテキスト認識を行うことができる。
しかしながら、テキスト認識モデルは、通常、視覚的情報に依存して、視覚的情報に基づいて画像内のテキストコンテンツを判別するため、認識の正確性が低いという欠陥がある。
本開示は、テキスト認識の信頼性を向上させるためのテキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供する。
第1の態様によれば、本開示は、テキスト認識モデルの訓練方法を提供し、前記方法は、
取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、前記第1のサンプル画像に対応する予測される完全な画像を得るステップと、
取得された第2のサンプル画像内の一部のテキストに対して前記マスク予測を行い、前記一部のテキストに対応する予測されるテキストコンテンツを得るステップと、
前記予測される完全な画像及び前記予測されるテキストコンテンツに従って訓練して事前訓練モデルを得て、前記事前訓練モデルに従ってテキスト認識モデルを生成するステップであって、前記テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものであるステップと、を含む。
取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、前記第1のサンプル画像に対応する予測される完全な画像を得るステップと、
取得された第2のサンプル画像内の一部のテキストに対して前記マスク予測を行い、前記一部のテキストに対応する予測されるテキストコンテンツを得るステップと、
前記予測される完全な画像及び前記予測されるテキストコンテンツに従って訓練して事前訓練モデルを得て、前記事前訓練モデルに従ってテキスト認識モデルを生成するステップであって、前記テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものであるステップと、を含む。
第2の態様によれば、本開示は、テキスト認識方法を提供し、前記方法は、
認識待ちの画像を取得するステップであって、前記認識待ちの画像にはテキストが含まれるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて得られたものである。
認識待ちの画像を取得するステップであって、前記認識待ちの画像にはテキストが含まれるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて得られたものである。
第3の態様によれば、本開示は、テキスト認識モデルの訓練装置を提供し、前記装置は、
取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、前記第1のサンプル画像に対応する予測される完全な画像を得、
さらに、取得された第2のサンプル画像内の一部のテキストに対して前記マスク予測を行い、前記一部のテキストに対応する予測されるテキストコンテンツを得るための予測ユニットと、
前記予測される完全な画像及び前記予測されるテキストコンテンツに従って訓練することで事前訓練モデルを得るための訓練ユニットと、
前記事前訓練モデルに従ってテキスト認識モデルを生成するための生成ユニットであって、前記テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものである生成ユニットと、を含む。
取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、前記第1のサンプル画像に対応する予測される完全な画像を得、
さらに、取得された第2のサンプル画像内の一部のテキストに対して前記マスク予測を行い、前記一部のテキストに対応する予測されるテキストコンテンツを得るための予測ユニットと、
前記予測される完全な画像及び前記予測されるテキストコンテンツに従って訓練することで事前訓練モデルを得るための訓練ユニットと、
前記事前訓練モデルに従ってテキスト認識モデルを生成するための生成ユニットであって、前記テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものである生成ユニットと、を含む。
第4の態様によれば、本開示は、テキスト認識装置を提供し、前記装置は、
認識待ちの画像を取得するための取得ユニットであって、前記認識待ちの画像にはテキストが含まれる取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて訓練されたものである。
認識待ちの画像を取得するための取得ユニットであって、前記認識待ちの画像にはテキストが含まれる取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて訓練されたものである。
第5の態様によれば、本開示は、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが第1の態様又は第2の態様に記載の方法を実行できる。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが第1の態様又は第2の態様に記載の方法を実行できる。
第6の態様によれば、本開示は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータに第1の態様又は第2の態様に記載の方法を実行させるためのものである。
第7の態様によれば、本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサが前記コンピュータプログラムを実行すると、電子機器が第1の態様又は第2の態様に記載の方法を実行する。
本開示に係る、マスク予測に基づいて第1のサンプル画像に対応する予測される完全な画像を得て、マスク予測に基づいて第2のサンプル画像内の一部のテキストの予測されるテキストコンテンツを得て、予測される完全な画像及び予測されるテキストコンテンツを組み合わせて事前訓練モデルを生成し、事前訓練モデルに基づいてテキスト認識モデルを生成する技術案によれば、事前訓練モデルは、比較的強い画像視覚的推論能力及びテキスト語義推論能力を習得することができるようになり、それにより、事前訓練モデルによって生成されたテキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の正確性及び信頼性を向上させる。
なお、この部分に記載されているコンテンツは、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の詳細の説明を通じて容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
OCR技術及び深層学習を利用してテキスト認識モデルを構築するとき、「モジュール分離」の手段で実現されてもよいし、「エンドツーエンドモデル」の手段で実現されてもよい。
例示的に、「モジュール分離」の手段とは、テキスト検出モジュール、情報抽出モジュール、及びテキスト認識モジュールを構築して、3つのモジュールを組み合わせてテキスト認識モデルを構築することである。
「モジュール分離」の手段を利用する場合、各モジュールを予め構築し、各モジュールを組み合わせる必要があり、手順が比較的面倒で、効率が比較的低く、正確性が累積して重畳されるため、当該方法に基づいて構築されたテキスト認識モデルの認識の正確性が低くなるという欠陥は生じる。
例示的に、「エンドツーエンドモデル」の手段とは、入力端末から出力端末にかけて予測結果が得られ、例えば、入力端末で画像が入力されると、出力端末で画像の予測されるテキストコンテンツが得られる。
しかしながら、「エンドツーエンドモデル」の手段を利用するとき、データにラベル付けする必要があり、例えば、画像の実際のテキストコンテンツにラベル付けして、訓練を提供するためのデータは比較的有効であるため、訓練して得られたテキスト認識モデルの信頼性が低いという欠陥が生じる。
また、上記いずれかの方法に基づいて訓練して得られたテキスト認識モデルについて、通常、2種類の判断しか行われておらず、異なる垂直カテゴリのフィールド要件が異なる場合、テキスト認識モデル、特に分類用のチャネル数を再設計する必要があり、テキスト認識モデルを再利用できず再訓練する必要がある。
例えば、OCR技術における画像文字検出モデル(EAST)や、分割された文字検出モデル(DB)、テキスト検出器(LOMO)などは、一般的に、ドキュメント(text)クラス及び非ドキュメントクラス(non-text)の2種類の判断にのみ使用できる。特定の垂直カテゴリの下でユーザが関心を持っているフィールドの識別要件を解決する必要がある場合、分類カテゴリの数を増やす必要がある。
いくつかの実施例では、カテゴリを検出して拡張することで訓練して、新たなテキスト認識モデルを取得し、例えば、元のテキスト認識モデルに基づき、フィールド分類のために追加の言語モデルを追加してもよい。
例えば、テキスト認識モデルはOCR技術におけるエンドツーエンドテキスト検出と認識(FOTS)、およびテキスト検出及び認識モデル(Mask Text Spotter)である場合、双方向エンコーダ表現(Bidirectional Encoder Representations from Transformers、BERT)など、追加の言語モデルを追加する必要があり、それにより、新たなテキスト認識モデルが得られ、また、追加の言語モデルが増えるため、追加の訓練を増やす必要があり、これにより、訓練コストが高く、効率が低いなどの欠陥が生じる。
本開示の発明者は、上記問題の少なくとも1つを回避するために、創造的労働を通じて、「エンドツーエンドモデル」の手段を使用して訓練することで、事前訓練モデルを得て、すなわち、モデルベースに対してエンドツーエンドの事前訓練を行い、視覚的次元及び語義次元に基づいて事前訓練を行い、事前訓練して得られたベースに基づいてテキスト認識モデルを生成するという本開示の発明構想に思いついた。
本開示は、上記発明構想に基づき、テキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供し、人工知能技術の分野、具体的には、深層学習、コンピュータビジョン技術の分野に関し、OCRなどのシーンに適用でき、テキスト認識モデルによるテキスト認識の信頼性の向上を向上させる。
図1は、本開示の第1の実施例による概略図であり、図1に示すように、本実施例により提供されるテキスト認識モデルの訓練方法は、以下のステップを含む。
S101では、取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、第1のサンプル画像に対応する予測される完全な画像を得る。
例示的に、本実施例の実行主体は、テキスト認識モデルの訓練装置(以下、訓練装置と略称)であってもよく、訓練装置は、サーバ(例えば、クラウドサーバ、又は、ローカルサーバ、又は、サーバクラスタ)であってもよいし、または、端末機器、コンピュータ、プロセッサ、チップなどであってもよく、本実施例は、それについて限定しない。
マスク予測とは、一部の画像又はテキストなどに対してマスク(mask)処理(又はマスキング処理とも呼ばれる)を行い、mask処理前、すなわち、マスキング処理前の画像又はテキストなどの完全な画像又はテキストなどを復元することである。
対応して、当該ステップは、テキストが含まれる第1のサンプル画像を取得し、第1のサンプル画像の一部の画像に対してmask処理を行い、mask処理後の画像に基づいて完全な第1のサンプル画像(すなわち、予測される完全な画像)を予測するステップとして理解できる。
つまり、当該ステップは、画像再構成タスク(mask image modelling)として理解でき、マスク予測を組み合わせて第1のサンプル画像に対して画像再構成を行うステップとして理解できる。
S102では、取得された第2のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得る。
上記分析に基づき、当該ステップは、テキストが含まれる第2のサンプル画像を取得し、第2のサンプル画像内の一部のテキストに対してmask処理を行い、mask処理後のテキストに基づいてmask処理された一部のテキストのテキストコンテンツ(すなわち、予測されるテキストコンテンツ)を予測するステップとして理解できる。
つまり、当該ステップは、テキスト再構成タスク(mask OCR modelling)として理解でき、マスク予測を組み合わせて第2のサンプル画像に対してテキスト再構成を行い、具体的には、第2のサンプル画像内の一部のテキストを再構成するステップとして理解できる。
なお、第1のサンプル画像と第2のサンプル画像は同じ画像であってもよいし、異なる画像であってもよく、本実施例は、それについて限定しない。
S103では、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、事前訓練モデルを得て、事前訓練モデルに従ってテキスト認識モデルを生成する。
テキスト認識モデルは、認識待ちの画像に対してテキスト認識を行うためのものである。
事前訓練モデルは、テキスト認識モデルのベース又はテキスト認識モデルの隠れ層として理解できる。
上記分析に基づき、事前訓練モデルは、画像再構成及びテキスト再構成に基づいて訓練して得られたものであることがわかり、それにより、事前訓練モデルは、比較的強い画像視覚的推論能力及びテキスト語義推論能力を習得することができるようになり、事前訓練モデルに基づいて生成されたテキスト認識モデルは、正確性及び信頼性が高い。
本実施例では、エンドツーエンドのモデル訓練を実現でき、すなわち、第1のサンプル画像及び第2のサンプル画像に基づいてそれぞれに対応する予測結果を出力でき、例えば、第1のサンプル画像に対応する予測結果が予測される完全な画像で、第2のサンプル画像に対応する予測結果が予測されるテキストコンテンツである場合、その他の手順、例えば、手動で又はOCR技術を利用して第2のサンプル画像に対してテキスト検出を行い、テキストを得る手順を追加する必要がないため、訓練効率は向上し、訓練リソース及びコストは節約される。
上記分析に基づき、本開示の実施例は、テキスト認識モデルの訓練方法を提供し、当該方法は、以下のステップを含む。取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、第1のサンプル画像に対応する予測される完全な画像を得て、取得された第2のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得て、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、事前訓練モデルを得て、事前訓練モデルに従ってテキスト認識モデルを生成し、テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものであることがわかる。本実施例では、マスク予測に基づいて第1のサンプル画像に対応する予測される完全な画像を得て、マスク予測に基づいて第2のサンプル画像内の一部のテキストの予測されるテキストコンテンツを得て、予測される完全な画像及び予測されるテキストコンテンツを組み合わせて事前訓練モデルを生成し、事前訓練モデルに基づいてテキスト認識モデルを生成する技術的特徴により、事前訓練モデルは、比較的強い画像視覚的推論能力及びテキスト語義推論能力を習得することができるようになり、それにより、事前訓練モデルによって生成されたテキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の正確性及び信頼性を向上させる。
図2は、本開示の第2の実施例による概略図であり、図2に示すように、本実施例により提供されるテキスト認識モデルの訓練方法は、以下のステップを含む。
S201では、ターゲット対象を取得する。
ターゲット対象は、第1のサンプル画像及び第2のサンプル画像を含む。
煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しないことを理解すべきである。
S202では、ターゲット対象のうちの一部の対象をランダムにマスキングし、ターゲット対象のうちのマスキングされていない対象に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得る。
ターゲット対象が第1のサンプル画像である場合、ターゲット対象のうちの一部の対象が一部の画像であり、予測結果が予測される完全な画像である。
ターゲット対象が第2のサンプル画像である場合、ターゲット対象のうちの一部の対象が一部のテキストであり、予測結果が予測されるテキストコンテンツである。
いくつかの実施例では、ターゲット対象のうちのマスキングされていない対象に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るステップは、以下のステップを含む。
第1のステップでは、ターゲット対象のうちのマスキングされていない対象に対応する対象特徴を抽出し、第1の対象特徴を得る。
第2のステップでは、第1の対象特徴に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得る。
ターゲット対象が第1のサンプル画像である場合、第1の対象特徴が第1の視覚的特徴である。ターゲット対象が第2のサンプル画像である場合、第1の対象特徴が第1の語義特徴である。
S203では、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、事前訓練モデルを得て、事前訓練モデルに従ってテキスト認識モデルを生成する。
テキスト認識モデルは、認識待ちの画像に対してテキスト認識を行うためのものである。
以下、本開示の実現原理をより深く理解できるようにするために、図3を参照して上記実施例(図1及び図2に示される実施例)についてさらに詳細に説明する。
図3は、本開示の第3の実施例による概略図であり、図3に示すように、本実施例により提供されるテキスト認識モデルの訓練方法は、以下のステップを含む。
S301では、第1のサンプル画像を取得する。
同様に、煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しない。
S302では、第1のサンプル画像内の一部の画像をランダムにマスキングする。
ネットワークモデルの訓練のプロセスは、通常、反復的な訓練プロセスであり、本実施例では、反復的な訓練は、それぞれ、第1のサンプル画像の一部の画像をランダムにマスキングする訓練であるため、第1のサンプル画像の数が1つであってもよく、当然ながら、第1のサンプル画像の数が複数であってもよいことを理解すべきであり、本実施例は、それについて限定しない。
S303では、第1のサンプル画像のうちのマスキングされていない画像に従って、第1のサンプル画像のうちのマスキングされた一部の画像を予測し、予測される完全な画像を得る。
例示的に、第1のサンプル画像をランダムにマスキングした後、第1のサンプル画像内の一部の画像がマスキングされたものであり、他方の画像がマスキングされていないものであると、マスキングされていない画像に基づいて完全な第1のサンプル画像(すなわち、予測される完全な画像)を決定してもよい。
本実施例では、「ランダムなマスキング+予測」の手段を利用して、予測される完全な画像を決定すると、訓練中の不確実性を高めることができ、それにより、訓練して得られた事前訓練モデルによる完全な画像の復元の信頼性は向上する。
S302~S303は、マスクされたオートエンコーダ(MAE)に基づいて実現できる。つまり、第1のサンプル画像をマスクされたオートエンコーダに入力し、予測される完全な画像を出力することができる。
いくつかの実施例では、S303は、以下のステップを含んでもよい。
第1のステップでは、第1のサンプル画像のうちのマスキングされていない画像に対応する視覚的特徴を抽出し、第1の視覚的特徴を得る。
視覚的特徴は、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などを含み、ここで一々例示しない。
対応して、第1の視覚的特徴とは、第1のサンプル画像のうちのマスキングされていない画像に対応する、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などの特徴である。
第2のステップでは、第1の視覚的特徴に従って、第1のサンプル画像のうちのマスキングされた一部の画像を予測し、予測される完全な画像を得る。
本実施例では、マスキングされていない画像に対応する、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などの視覚的特徴に基づき、予測される完全な画像を得るステップは、視覚的コンテキストに基づいて予測される完全な画像を得て、訓練して視覚的手がかりのコンテキスト知識学習を完了することができる事前訓練モデルを得るステップに相当する。
いくつかの実施例では、第2のステップは、以下のサブステップを含んでもよい。
第1のサブステップでは、第1の視覚的特徴に従って、第1のサンプル画像のうちのマスキングされた一部の画像に対応する視覚的特徴を予測し、第2の視覚的特徴を得る。
例示的に、上記分析に基づき、当該サブステップは、マスキングされていない画像に対応する、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などの視覚的特徴に従って、マスキングされた一部の画像に対応する、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などの視覚的特徴を予測して得るステップとして理解できる。
第2のサブステップでは、第2の視覚的特徴に従って、第1のサンプル画像のうちのマスキングされた一部の画像を決定する。
例示的に、マスキングされた一部の画像に対応する、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などの視覚的特徴を得た後、当該視覚的特徴に基づいてマスキングされた一部の画像を補足及び修復してもよい。
第3のサブステップでは、第1のサンプル画像のうちのマスキングされていない画像、及び決定された第1のサンプル画像のうちのマスキングされた一部の画像に従って、予測される完全な画像を生成する。
上記分析に基づき、マスキングされた一部の画像を補足及び修復した後、マスキングされた一部の画像が復元され、マスキングされていない一部の画像は、復元された、マスキングされた一部の画像と継ぎ合わされ、予測される完全な画像は得られ、すなわち、第1のサンプル画像が復元され、予測される完全な画像が第1のサンプル画像と高度に適合するようになり、予測される完全な画像の正確性及び信頼性は向上する。
S304では、第2のサンプル画像を取得する。
上記分析に基づき、第1のサンプル画像及び第2のサンプル画像は同じ画像であってもよいことがわかり、対応して、第1のサンプル画像及び第2のサンプル画像は同じ画像である場合、当該ステップを省略してもよい。
S305では、第2のサンプル画像内の一部のテキストをランダムにマスキングする。
同様に、ネットワークモデルの訓練のプロセスは、通常、反復的な訓練プロセスであり、本実施例では、反復的な訓練は、それぞれ、第2のサンプル画像の一部のテキストをランダムにマスキングする訓練であるため、第2のサンプル画像の数が1つであってもよく、当然ながら、第2のサンプル画像の数が複数であってもよく、本実施例は、それについて限定しない。
例えば、第2のサンプル画像内の一部の単語又は一部の文などをランダムにマスキングしてもよい。
S306では、第2のサンプル画像のうちのマスキングされていないテキストに従って、第2のサンプル画像のうちのマスキングされた一部のテキストを予測し、予測されるテキストコンテンツを得る。
例示的に、第2のサンプル画像をランダムにマスキングした後、第2のサンプル画像内の一部のテキストがマスキングされたものであり、他方のテキストがマスキングされていないであると、マスキングされていないテキストに基づいてマスキングされた一部のテキストのテキストコンテンツ(すなわち、予測されるテキストコンテンツ)を決定してもよい。
本実施例では、「ランダムなマスキング+予測」の手段を利用して、テキストコンテンツを決定すると、訓練中の不確実性を高めることができ、それにより、訓練して得られた事前訓練モデルによる完全な画像の復元の信頼性は向上する。
S305~S306は、マスクされた言語モデル(Masked Language Model、MLM)に基づいて実現できる。つまり、第2のサンプル画像をマスクされた言語モデルに入力し、予測されるテキストコンテンツを出力することができる。
いくつかの実施例では、S306は、以下のステップを含んでもよい。
第1のステップでは、第2のサンプル画像のうちのマスキングされていないテキストに対応する語義特徴を抽出し、第1の語義特徴を得る。
語義特徴とは、各文字列間の論理的関係に係る特徴である。対応して、第1の語義特徴は、マスキングされていないテキストに含まれた各文字列間の論理的関係に係る特徴として理解されてもよいし、マスキングされていないテキスト内の各文字(文字及び/又は単語)間の関連関係に係る特徴として理解されてもよい。
第2のステップでは、第1の語義特徴に従って、第2のサンプル画像のうちのマスキングされた一部のテキストを予測し、予測されるテキストコンテンツを得る。
本実施例では、マスキングされていないテキストに対応する各文字列間の論理的関係などの語義特徴に基づき、予測されるテキストコンテンツを得るステップは、語義コンテキストに基づいて予測されるテキストコンテンツを得て、訓練して語義手がかりのコンテキスト知識学習を完了することができる事前訓練モデルを得るステップに相当する。
いくつかの実施例では、第2のステップは、以下のサブステップを含んでもよい。
第1のサブステップでは、第1の語義特徴に従って、第2のサンプル画像のうちのマスキングされた一部のテキストに対応する語義特徴を予測し、第2の語義特徴を得る。
例示的に、上記分析に基づき、当該サブステップは、マスキングされていないテキストに対応する、各文字列間の論理的関係に係る特徴などの語義特徴に従って、マスキングされた一部のテキストに対応する、各文字列間の論理的関係に係る特徴などの語義特徴を予測して得るステップとして理解できる。
第2のサブステップでは、第2の語義特徴に従って、予測されるテキストコンテンツを生成する。
例示的に、マスキングされていないテキストに対応する、各文字列間の論理的関係に係る特徴などの語義特徴を得た後、当該語義特徴に基づいてマスキングされた一部のテキストの語義特徴を補足及び修復してもよい。
上記分析に基づき、マスキングされた一部のテキストの語義特徴を補足及び修復した後、マスキングされた一部のテキストの語義特徴は復元され、当該語義特徴に対応するテキストコンテンツ(すなわち、予測されるテキストコンテンツ)は決定でき、それにより、予測されるテキストコンテンツはマスキングされた一部のテキストのテキストコンテンツと高度に適合するようになり、予測されるテキストコンテンツの正確性及び信頼性は向上する。
S307では、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、事前訓練モデルを得て、事前訓練モデルに従ってテキスト認識モデルを生成する。
テキスト認識モデルは、認識待ちの画像に対してテキスト認識を行うためのものである。
図4は、本開示の第4の実施例による概略図であり、図4に示すように、本実施例により提供されるテキスト認識モデルの訓練方法は、以下のステップを含む。
S401では、取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、第1のサンプル画像に対応する予測される完全な画像を得る。
同様に、煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しない。
S402では、取得された第2のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得る。
S403では、予測される完全な画像及び予測されるテキストコンテンツに従って訓練して事前訓練モデルを得る。
例示的に、予測される完全な画像及び予測されるテキストコンテンツに基づき、基本ネットワークモデルを訓練し、事前訓練モデルを得てもよい。
例えば、予測される完全な画像及び予測されるテキストコンテンツに基づき、基本ネットワークモデルのモデルパラメータを調整し、事前訓練モデルを得てもよい。
基本ネットワークモデルは、ビジョントランスフォーマー(Vision Transformer、ViT)であってもよいし、畳み込みニューラルネットワークモデル(CNN)などのニューラルネットワークモデル(Backbone)であってもよいし、他のネットワークモデルであってもよく、本実施例は、それについて限定しない。
S404では、認識待ちのタスク及び訓練画像を取得する。
訓練画像にはテキストが含まれる。
認識待ちのタスクは、テキスト認識モデルの認識必要に応じて決定されたものであってもよく、例えば、認識待ちのタスクは文字検出タスクであってもよいし、テキスト認識タスクであってもよいし、フィールド分類タスクであってもよいし、その他の認識タスクであってもよく、ここで一々例示しない。
S405では、認識待ちのタスク及び訓練画像に従って、事前訓練モデルを訓練し、テキスト認識モデルを得る。
テキスト認識モデルは、認識待ちの画像に対してテキスト認識を行うためのものである。
上記分析に基づき、事前訓練モデルは、視覚的手がかりのコンテキスト知識学習を完了するモデルもあれば、語義手がかりのコンテキスト知識学習を完了するモデルもあり、すなわち、事前訓練モデルは、マルチモーダル特徴抽出ベースであるため、事前訓練モデルに基づいて訓練して得られたテキスト認識モデルは、視覚的手がかりに基づくコンテキスト知識認識能力もあれば、語義手がかりに基づくコンテキスト知識認識能力もあることがわかる。
認識待ちのタスクに基づいて事前訓練モデルを訓練することにより、さまざまな認識必要に応じて訓練して対応するテキスト認識モデルを得ることができ、それにより、訓練して得られたテキスト認識モデルの柔軟性及び多様性を向上することができ、さまざまな認識シーンで広く使用され、さまざまな認識必要を満たすことができる。
いくつかの実施例では、事前訓練モデル(すなわち、マルチモーダル特徴抽出ベース)をテキスト検出ネットワークモデル(Efficient and Accuracy Scene Text、EAST)、分割に基づく文字検出ネットワーク(Differentiable Binarization、DB)、テキスト検出ネットワーク(Look More Than Once、LOMO)などにロードして、テキスト認識モデルによる文字検出タスクを実現することができる。また、例えば事前訓練モデルを畳み込みリカレントニューラルネットワーク(Convolutional Recurrent Neural Network、CRNN)にロードすることもでき、畳み込みリカレントニューラルネットワークは、コネクショニスト時系列分類(Connectionist Temporal Classification、CTC)デコード方法を使用してもよいし、注意メカニズム(Attention)デコード方法を使用してもよいし、トランスフォーマー(transformer)デコード方法などを使用してもよく、それによってテキスト認識モデルによるテキスト認識タスクを実現することもできる。さらに、例えば、事前訓練モデルを完全接続ネットワークモデル(Fully Connected、FC)、又は、畳み込みニューラルネットワークモデル(Convolutional Neural Networks、CNN)にロードして、テキスト認識モデルによるフィールド分類タスクを実現することもできる。
いくつかの実施例では、S405は、以下のステップを含んでもよい。
第1のステップでは、訓練画像を事前訓練モデルに入力し、訓練画像に対応するマルチモーダル特徴マップ(Multi-modal Feature Maps)を得る。
上記分析に基づき、マルチモーダル特徴マップは、視覚的次元の特徴や語義次元の特徴など、訓練画像の複数の次元の特徴をキャラクタリゼーションするためのものである。例えば、マルチモーダル特徴マップは、訓練画像に対応する画像特徴及び語義特徴をキャラクタリゼーションするために使用できる。
いくつかの実施例では、マルチモーダル特徴マップは、(d*h*w)として示されてもよく、dが特徴チャネル数を示し、h及びwがマルチモーダル特徴マップの高さ及び幅を示す。
第2のステップでは、認識待ちのタスク及びマルチモーダル特徴マップに従って、テキスト認識モデルを生成する。
本実施例では、マルチモーダル特徴マップは、複数の次元から訓練画像の特徴をキャラクタリゼーションすることができ、訓練画像の視覚的特徴をキャラクタリゼーションすることもでき、訓練画像の語義特徴をキャラクタリゼーションすることもでき、キャラクタリゼーションされた視覚的特徴及び語義特徴は、信頼性及び全面性が高いため、マルチモーダル特徴マップに基づいて生成されたテキスト認識モデルは、信頼性及び正確性が高い。
いくつかの実施例では、第2のステップは、以下のサブステップを含んでもよい。
第1のサブステップでは、マルチモーダル特徴マップに従って、認識待ちのタスクでの訓練画像の予測される認識結果を予測する。
例示的に、マルチモーダル特徴マップを畳み込みリカレントニューラルネットワークに入力し、予測される認識結果(予測テキスト結果など)を得てもよい。
第2のサブステップでは、訓練画像の予め設定された実際の認識結果、及び予測される認識結果に従って、テキスト認識モデルを構築する。
実際の認識結果は、訓練画像を予めラベル付けして得られたものであってもよく、ラベル付け方法について、本実施例は、限定せず、手動によるラベル付け方法であってもよいし、自動的なラベル付け方法であってもよい。
例示的に、実際の認識結果と予測される認識結果との間の損失値を計算してもよい。損失値が予め設定された損失しきい値より大きい(又は等しい)場合、反復訓練を行うが、逆に、損失値が予め設定された損失しきい値より小さい場合、又は、反復回数が予め設定された反復回数に達した場合、テキスト認識モデルの構築を完了させる。
例えば、列車の切符に対してテキスト認識を行うためのテキスト認識モデルを訓練する必要がある場合、訓練画像が列車の切符画像であり、列車の切符画像を事前訓練モデルに入力し、列車の切符画像のマルチモーダル特徴マップを出力し、マルチモーダル特徴マップを畳み込みリカレントニューラルネットワークなどに入力し、列車の切符画像内の「日付、列車番号、座席番号」などの予測される認識結果を出力し、当該予測される認識結果を予めラベル付けされた「日付、列車番号、座席番号」(すなわち、実際の認識結果)と比較して、訓練してテキスト認識モデルを得て、訓練して得られたテキスト認識モデルは、認識待ちの切符画像内の「日付、列車番号、座席番号」のテキストコンテンツを認識するために使用できる。
図5は、本開示の第5の実施例による概略図であり、図5に示すように、本実施例により提供されるテキスト認識方法は、以下のステップを含む。
S501では、認識待ちの画像を取得する。
認識待ちの画像にはテキストが含まれる。
例示的に、本実施例の実行主体は、テキスト認識装置であってもよく、テキスト認識装置は、訓練装置と同じ装置であってもよいし、異なる装置であってもよく、本実施例は、それについて限定しない。
S502では、予め訓練されたテキスト認識モデルに基づいて認識待ちの画像に対してテキスト認識を行い、認識待ちの画像内のテキストコンテンツを得る。
テキスト認識モデルは、上記いずれか1つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。
いくつかの実施例では、S502は、以下のステップを含んでもよい。
第1のステップでは、テキスト認識モデルに従って認識待ちの画像のマルチモーダル特徴マップを決定する。
第2のステップでは、マルチモーダル特徴マップに従って認識待ちの画像内のテキストコンテンツを決定する。
認識待ちの画像のマルチモーダル特徴マップは、認識待ちの画像の視覚的特徴及び語義特徴をキャラクタリゼーションするためのものである。
例示的に、上記分析に基づき、テキスト認識モデルは、事前訓練モデルを含み、テキスト認識モデルは、事前訓練モデルを畳み込みリカレントニューラルネットワークにロードし、訓練して得られたものであり、すなわち、テキスト認識モデルは、さらに、畳み込みリカレントニューラルネットワークを含むと、本実施例は、
認識待ちの画像を事前訓練モデルに入力し、マルチモーダル特徴マップを出力し、マルチモーダル特徴マップを畳み込みリカレントニューラルネットワークに入力し、認識待ちの画像内のテキストコンテンツを出力する実施例として理解できる。
認識待ちの画像を事前訓練モデルに入力し、マルチモーダル特徴マップを出力し、マルチモーダル特徴マップを畳み込みリカレントニューラルネットワークに入力し、認識待ちの画像内のテキストコンテンツを出力する実施例として理解できる。
図6は、本開示の第6の実施例による概略図であり、図6に示すように、本実施例により提供されるテキスト認識モデルの訓練装置600は、
取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、第1のサンプル画像に対応する予測される完全な画像を得、
さらに、取得された第2のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得るための予測ユニット601と、
予測される完全な画像及び予測されるテキストコンテンツに従って訓練して事前訓練モデルを得るための訓練ユニット602と、
事前訓練モデルに従ってテキスト認識モデルを生成するための生成ユニット603であって、テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものである生成ユニット603と、を含む。
取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、第1のサンプル画像に対応する予測される完全な画像を得、
さらに、取得された第2のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得るための予測ユニット601と、
予測される完全な画像及び予測されるテキストコンテンツに従って訓練して事前訓練モデルを得るための訓練ユニット602と、
事前訓練モデルに従ってテキスト認識モデルを生成するための生成ユニット603であって、テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものである生成ユニット603と、を含む。
図7は、本開示の第7の実施例による概略図であり、図7に示すように、本実施例により提供されるテキスト認識モデルの訓練装置700は、予測ユニット701を含む。
予測ユニット701は、取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、第1のサンプル画像に対応する予測される完全な画像を得るためのものである。
予測ユニット701は、さらに、取得された第2のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得るためのものである。
図7を参照して、いくつかの実施例では、予測ユニット701は、
ターゲット対象のうちの一部の対象をランダムにマスキングするためのマスキングサブユニット7011と、
ターゲット対象のうちのマスキングされていない対象に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るための予測サブユニット7012と、を含む。
ターゲット対象のうちの一部の対象をランダムにマスキングするためのマスキングサブユニット7011と、
ターゲット対象のうちのマスキングされていない対象に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るための予測サブユニット7012と、を含む。
ターゲット対象が第1のサンプル画像である場合、ターゲット対象のうちの一部の対象が一部の画像であり、予測結果が予測される完全な画像であるが、ターゲット対象が第2のサンプル画像である場合、ターゲット対象のうちの一部の対象が一部のテキストであり、予測結果が予測されるテキストコンテンツである。
いくつかの実施例では、予測サブユニット7012は、
ターゲット対象のうちのマスキングされていない対象に対応する対象特徴を抽出し、第1の対象特徴を得るための抽出モジュールと、
第1の対象特徴に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るための予測モジュールと、を含む。
ターゲット対象のうちのマスキングされていない対象に対応する対象特徴を抽出し、第1の対象特徴を得るための抽出モジュールと、
第1の対象特徴に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るための予測モジュールと、を含む。
ターゲット対象が第1のサンプル画像である場合、第1の対象特徴が第1の視覚的特徴であるが、ターゲット対象が第2のサンプル画像である場合、第1の対象特徴が第1の語義特徴である。
いくつかの実施例では、ターゲット対象が第1のサンプル画像であり、前記第1の対象特徴が第1の視覚的特徴であり、予測モジュールは、
第1の視覚的特徴に従って、第1のサンプル画像のうちのマスキングされた一部の画像に対応する視覚的特徴を予測し、第2の視覚的特徴を得るための第1の予測サブモジュールと、
第2の視覚的特徴に従って、第1のサンプル画像のうちのマスキングされた一部の画像を決定するための第1の決定サブモジュールと、
第1のサンプル画像のうちのマスキングされていない画像、及び決定された第1のサンプル画像のうちのマスキングされた一部の画像に従って、予測される完全な画像を生成するための第1の生成サブモジュールと、を含む。
第1の視覚的特徴に従って、第1のサンプル画像のうちのマスキングされた一部の画像に対応する視覚的特徴を予測し、第2の視覚的特徴を得るための第1の予測サブモジュールと、
第2の視覚的特徴に従って、第1のサンプル画像のうちのマスキングされた一部の画像を決定するための第1の決定サブモジュールと、
第1のサンプル画像のうちのマスキングされていない画像、及び決定された第1のサンプル画像のうちのマスキングされた一部の画像に従って、予測される完全な画像を生成するための第1の生成サブモジュールと、を含む。
いくつかの実施例では、ターゲット対象が第2のサンプル画像であり、前記第1の対象特徴が第1の語義特徴であり、予測モジュールは、
第1の語義特徴に従って、第2のサンプル画像のうちのマスキングされた一部のテキストに対応する語義特徴を予測し、第2の語義特徴を得るための第2の予測サブモジュールと、
第2の語義特徴に従って、予測されるテキストコンテンツを生成するための第2の生成サブモジュールと、を含む。
第1の語義特徴に従って、第2のサンプル画像のうちのマスキングされた一部のテキストに対応する語義特徴を予測し、第2の語義特徴を得るための第2の予測サブモジュールと、
第2の語義特徴に従って、予測されるテキストコンテンツを生成するための第2の生成サブモジュールと、を含む。
テキスト認識モデルの訓練装置700は、訓練ユニット702及び生成ユニット703を更に含む。
訓練ユニット702は、予測される完全な画像及び予測されるテキストコンテンツに従って訓練して事前訓練モデルを得るためのものである。
訓練ユニット702は、予測される完全な画像及び予測されるテキストコンテンツに従って訓練して事前訓練モデルを得るためのものである。
生成ユニット703は、事前訓練モデルに従ってテキスト認識モデルを生成するためのものであり、テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものである。
図7を参照して、いくつかの実施例では、生成ユニット703は、
認識待ちのタスク及び訓練画像を取得するための取得サブユニット7031であって、訓練画像にはテキストが含まれる取得サブユニット7031と、
認識待ちのタスク及び訓練画像に従って、事前訓練モデルを訓練し、テキスト認識モデルを得るための訓練サブユニット7032と、を含む。
認識待ちのタスク及び訓練画像を取得するための取得サブユニット7031であって、訓練画像にはテキストが含まれる取得サブユニット7031と、
認識待ちのタスク及び訓練画像に従って、事前訓練モデルを訓練し、テキスト認識モデルを得るための訓練サブユニット7032と、を含む。
いくつかの実施例では、訓練サブユニット7032は、
訓練画像を事前訓練モデルに入力し、訓練画像に対応するマルチモーダル特徴マップを得るための入力モジュールと、
認識待ちのタスク及びマルチモーダル特徴マップに従って、テキスト認識モデルを生成するための生成モジュールと、を含む。
訓練画像を事前訓練モデルに入力し、訓練画像に対応するマルチモーダル特徴マップを得るための入力モジュールと、
認識待ちのタスク及びマルチモーダル特徴マップに従って、テキスト認識モデルを生成するための生成モジュールと、を含む。
いくつかの実施例では、生成モジュールは、
マルチモーダル特徴マップに従って、認識待ちのタスクでの訓練画像の予測される認識結果を予測するための第3の予測サブモジュールと、
訓練画像の予め設定された実際の認識結果、及び予測される認識結果に従って、テキスト認識モデルを構築するための構築サブモジュールと、を含む。
マルチモーダル特徴マップに従って、認識待ちのタスクでの訓練画像の予測される認識結果を予測するための第3の予測サブモジュールと、
訓練画像の予め設定された実際の認識結果、及び予測される認識結果に従って、テキスト認識モデルを構築するための構築サブモジュールと、を含む。
図8は、本開示の第8の実施例による概略図であり、図8に示すように、本実施例により提供されるテキスト認識装置800は、
認識待ちの画像を取得するための取得ユニット801であって、認識待ちの画像にはテキストが含まれる取得ユニット801と、
予め訓練されたテキスト認識モデルに基づいて認識待ちの画像に対してテキスト認識を行い、認識待ちの画像内のテキストコンテンツを得るための認識ユニット802と、を含み、
テキスト認識モデルは、上記いずれか1つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。
認識待ちの画像を取得するための取得ユニット801であって、認識待ちの画像にはテキストが含まれる取得ユニット801と、
予め訓練されたテキスト認識モデルに基づいて認識待ちの画像に対してテキスト認識を行い、認識待ちの画像内のテキストコンテンツを得るための認識ユニット802と、を含み、
テキスト認識モデルは、上記いずれか1つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。
図8を参照して、いくつかの実施例では、認識ユニット802は、
テキスト認識モデルに従って認識待ちの画像のマルチモーダル特徴マップを決定するための第1の決定ユニット8021と、
マルチモーダル特徴マップに従って認識待ちの画像内のテキストコンテンツを決定するための第2の決定ユニット8022と、を含み、
認識待ちの画像のマルチモーダル特徴マップは、認識待ちの画像の視覚的特徴及び語義特徴をキャラクタリゼーションするためのものであることがわかる。
テキスト認識モデルに従って認識待ちの画像のマルチモーダル特徴マップを決定するための第1の決定ユニット8021と、
マルチモーダル特徴マップに従って認識待ちの画像内のテキストコンテンツを決定するための第2の決定ユニット8022と、を含み、
認識待ちの画像のマルチモーダル特徴マップは、認識待ちの画像の視覚的特徴及び語義特徴をキャラクタリゼーションするためのものであることがわかる。
図9は、本開示の第9の実施例による概略図であり、図9に示すように、本開示における電子機器900は、プロセッサ901とメモリ902とを含む。
メモリ902は、プログラムを記憶するためのものであり、メモリ902は、ランダムアクセスメモリ(random-access memory、RAMと略称)、スタティックランダムアクセスメモリ(static random-access memory、SRAMと略称)、ダブルデータレートの同期ダイナミックランダムアクセスメモリ(Double Data Rate Synchronous Dynamic Random Access Memory、DDR SDRAMと略称)などの揮発性メモリ(volatile memory)を含んでもよいし、メモリは、フラッシュメモリ(flash memory)などの不揮発性メモリ(non-volatile memory)を含んでもよい。メモリ902は、コンピュータプログラム(例えば、上記方法を実現するためのアプリケーションプログラムや機能モジュールなど)やコンピュータ命令などを記憶するためのものであり、上記のコンピュータプログラムやコンピュータ命令などは、領域別に1つ又は複数のメモリ902内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ901によって呼び出されることができる。
上記のコンピュータプログラムやコンピュータ命令などは、領域別に1つ又は複数のメモリ902内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ901によって呼び出されることができる。
プロセッサ901は、メモリ902内に記憶されたコンピュータプログラムを実行するためのものであり、それによって上記実施例における方法の各ステップは実現される。
具体的には、前述した方法の実施例の関連説明を参照することができる。
プロセッサ901とメモリ902は独立した構造であってもよいし、集積された集積構造であってもよい。プロセッサ901とメモリ902は独立した構造である場合、メモリ902とプロセッサ901は、バス903を介して結合されて接続されることができる。
本実施例に係る電子機器は、上記方法における技術案を実行することができ、その具体的な実現プロセス及び技術的原理が同じであるため、ここで繰り返して説明しない。
本開示に係る技術案において、関連するユーザの個人情報の収集や、保存、使用、加工、伝送、提供、公開などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。
本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラムを提供する。
本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか1つの実施例により提供される技術案を実行する。
図10は、本開示の実施例を実施するために使用可能な例示的な電子機器1000の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実施を制限することを意図したものではない。
図10に示すように、機器1000は、計算ユニット1001を含み、当該計算ユニット1001は、読み取り専用メモリ(ROM)1002に記憶されたコンピュータプログラム、または、記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。RAM1003には、さらに、機器1000の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット1001、ROM1002及びRAM1003は、バス1004を介して接続される。入力/出力(I/O)インタフェース1005も、バス1004に接続される。
キーボードやマウスなどの入力ユニット1006と、さまざまなタイプのモニタやスピーカーなどの出力ユニット1007と、磁気ディスクや光ディスクなどの記憶ユニット1008と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット1009と、を含む、機器1000における複数のコンポーネントは、I/Oインタフェース1005に接続される。通信ユニット1009は、機器1000がインターネットなどのコンピュータネットワーク及び/又はさまざまな電気通信デットワークを介して他の機器と情報/データを交換することを可能にさせる。
計算ユニット1001は、処理能力や計算能力を有するさまざまな汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、さまざまな専用な人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット1001は、テキスト認識モデルの訓練方法及びテキスト認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、テキスト認識モデルの訓練方法及びテキスト認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット1008などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ROM1002及び/又は通信ユニット1009を介して機器1000にロード及び/又はインストールされることができる。コンピュータプログラムは、RAM1003にロードされて計算ユニット1001により実行されると、上記に記載のテキスト認識モデルの訓練方法及びテキスト認識方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット1001は、他の任意の適当な手段(例えば、ファームウェアに頼る)を用いてテキスト認識モデルの訓練方法及びテキスト認識方法を実行するように構成されることができる。
本明細書において、上記に記載のシステム及び技術的さまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップのシステム(SOC)、複雑なプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、1つ又は複数のコンピュータプログラムに実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本開示に係る方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び/又はブロック図に示される機能/操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。
本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、1つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、或いは、ミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、或いは、フロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの実例は、ローカルネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント端末とサーバとを含むことができる。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末-サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びVPSサービス(「VirtuaL Private Server」、又は「VPS」と略称)に存在する管理が難しく、ビジネスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要素に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。
Claims (23)
- テキスト認識モデルの訓練方法であって、
取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、前記第1のサンプル画像に対応する予測される完全な画像を得るステップと、
取得された第2のサンプル画像内の一部のテキストに対して前記マスク予測を行い、前記一部のテキストに対応する予測されるテキストコンテンツを得るステップと、
前記予測される完全な画像及び前記予測されるテキストコンテンツに従って訓練して事前訓練モデルを得て、前記事前訓練モデルに従ってテキスト認識モデルを生成するステップであって、前記テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものであるステップと、を含むことを特徴とするテキスト認識モデルの訓練方法。 - 前記マスク予測は、
ターゲット対象のうちの一部の対象をランダムにマスキングするステップと、
前記ターゲット対象のうちのマスキングされていない対象に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るステップと、を含み、
前記ターゲット対象が第1のサンプル画像である場合、前記ターゲット対象のうちの一部の対象が一部の画像であり、前記予測結果が前記予測される完全な画像であるが、前記ターゲット対象が第2のサンプル画像である場合、前記ターゲット対象のうちの一部の対象が一部のテキストであり、前記予測結果が前記予測されるテキストコンテンツである請求項1に記載の方法。 - 前記ターゲット対象のうちのマスキングされていない対象に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るステップは、
前記ターゲット対象のうちのマスキングされていない対象に対応する対象特徴を抽出し、第1の対象特徴を得るステップと、
前記第1の対象特徴に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、前記予測結果を得るステップと、を含み、
前記ターゲット対象が第1のサンプル画像である場合、前記第1の対象特徴が第1の視覚的特徴であるが、前記ターゲット対象が第2のサンプル画像である場合、前記第1の対象特徴が第1の語義特徴である請求項2に記載の方法。 - 前記ターゲット対象が第1のサンプル画像であり、前記第1の対象特徴が第1の視覚的特徴であり、前記第1の対象特徴に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、前記予測結果を得るステップは、
前記第1の視覚的特徴に従って、前記第1のサンプル画像のうちのマスキングされた一部の画像に対応する視覚的特徴を予測し、第2の視覚的特徴を得るステップと、
前記第2の視覚的特徴に従って、前記第1のサンプル画像のうちのマスキングされた一部の画像を決定するステップと、
前記第1のサンプル画像のうちのマスキングされていない画像、及び決定された前記第1のサンプル画像のうちのマスキングされた一部の画像に従って、前記予測される完全な画像を生成するステップと、を含む請求項3に記載の方法。 - 前記ターゲット対象が第2のサンプル画像であり、前記第1の対象特徴が第1の語義特徴であり、前記第1の対象特徴に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、前記予測結果を得るステップは、
前記第1の語義特徴に従って、前記第2のサンプル画像のうちのマスキングされた一部のテキストに対応する語義特徴を予測し、第2の語義特徴を得るステップと、
前記第2の語義特徴に従って、前記予測されるテキストコンテンツを生成するステップと、を含む請求項3又は4に記載の方法。 - 前記事前訓練モデルに従ってテキスト認識モデルを生成するステップは、
認識待ちのタスク及び訓練画像を取得するステップであって、前記訓練画像にはテキストが含まれるステップと、
前記認識待ちのタスク及び前記訓練画像に従って、前記事前訓練モデルを訓練して、前記テキスト認識モデルを得るステップと、を含む請求項1~4のいずれか1項に記載の方法。 - 前記認識待ちのタスク及び前記訓練画像に従って、前記事前訓練モデルを訓練して、前記テキスト認識モデルを得るステップは、
前記訓練画像を前記事前訓練モデルに入力し、前記訓練画像に対応するマルチモーダル特徴マップを得るステップと、
前記認識待ちのタスク及び前記マルチモーダル特徴マップに従って、前記テキスト認識モデルを生成するステップと、を含む請求項6に記載の方法。 - 前記認識待ちのタスク及び前記マルチモーダル特徴マップに従って、前記テキスト認識モデルを生成するステップは、
前記マルチモーダル特徴マップに従って、前記認識待ちのタスクでの前記訓練画像の予測される認識結果を予測するステップと、
前記訓練画像の予め設定された実際の認識結果、及び前記予測される認識結果に従って、前記テキスト認識モデルを構築するステップと、を含む請求項7に記載の方法。 - テキスト認識方法であって、
認識待ちの画像を取得するステップであって、前記認識待ちの画像にはテキストが含まれるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルは、請求項1~4のいずれか1項に記載の方法に基づいて得られたものであることを特徴とするテキスト認識方法。 - 予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るステップは、
前記テキスト認識モデルに従って前記認識待ちの画像のマルチモーダル特徴マップを決定して、前記マルチモーダル特徴マップに従って前記認識待ちの画像内のテキストコンテンツを決定するステップを含み、
前記認識待ちの画像のマルチモーダル特徴マップは、前記認識待ちの画像の視覚的特徴及び語義特徴をキャラクタリゼーションするためのものである請求項9に記載の方法。 - テキスト認識モデルの訓練装置であって、
取得された第1のサンプル画像内の一部の画像に対してマスク予測を行い、前記第1のサンプル画像に対応する予測される完全な画像を得、
さらに、取得された第2のサンプル画像内の一部のテキストに対して前記マスク予測を行い、前記一部のテキストに対応する予測されるテキストコンテンツを得るための予測ユニットと、
前記予測される完全な画像及び前記予測されるテキストコンテンツに従って訓練することで事前訓練モデルを得るための訓練ユニットと、
前記事前訓練モデルに従ってテキスト認識モデルを生成するための生成ユニットであって、前記テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものである生成ユニットと、を含む、
ことを特徴とするテキスト認識モデルの訓練装置。 - 前記予測ユニットは、
ターゲット対象のうちの一部の対象をランダムにマスキングするためのマスキングサブユニットと、
前記ターゲット対象のうちのマスキングされていない対象に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るための予測サブユニットと、を含み、
前記ターゲット対象が第1のサンプル画像である場合、前記ターゲット対象のうちの一部の対象が一部の画像であり、前記予測結果が前記予測される完全な画像であるが、前記ターゲット対象が第2のサンプル画像である場合、前記ターゲット対象のうちの一部の対象が一部のテキストであり、前記予測結果が前記予測されるテキストコンテンツである請求項11に記載の装置。 - 前記予測サブユニットは、
前記ターゲット対象のうちのマスキングされていない対象に対応する対象特徴を抽出し、第1の対象特徴を得るための抽出モジュールと、
前記第1の対象特徴に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、前記予測結果を得るための予測モジュールを、を含み、
前記ターゲット対象が第1のサンプル画像である場合、前記第1の対象特徴が第1の視覚的特徴であるが、前記ターゲット対象が第2のサンプル画像である場合、前記第1の対象特徴が第1の語義特徴である請求項12に記載の装置。 - 前記ターゲット対象が第1のサンプル画像であり、前記第1の対象特徴が第1の視覚的特徴であり、前記予測モジュールは、
前記第1の視覚的特徴に従って、前記第1のサンプル画像のうちのマスキングされた一部の画像に対応する視覚的特徴を予測し、第2の視覚的特徴を得るための第1の予測サブモジュールと、
前記第2の視覚的特徴に従って、前記第1のサンプル画像のうちのマスキングされた一部の画像を決定するための第1の決定サブモジュールと、
前記第1のサンプル画像のうちのマスキングされていない画像、及び決定された前記第1のサンプル画像のうちのマスキングされた一部の画像に従って、前記予測される完全な画像を生成するための第1の生成サブモジュールと、を含む請求項13に記載の装置。 - 前記ターゲット対象が第2のサンプル画像であり、前記第1の対象特徴が第1の語義特徴であり、前記予測モジュールは、
前記第1の語義特徴に従って、前記第2のサンプル画像のうちのマスキングされた一部のテキストに対応する語義特徴を予測し、第2の語義特徴を得るための第2の予測サブモジュールと、
前記第2の語義特徴に従って、前記予測されるテキストコンテンツを生成するための第2の生成サブモジュールと、を含む請求項13又は14に記載の装置。 - 前記生成ユニットは、
認識待ちのタスク及び訓練画像を取得するための取得サブユニットであって、前記訓練画像にはテキストが含まれる取得サブユニットと、
前記認識待ちのタスク及び前記訓練画像に従って、前記事前訓練モデルを訓練して、前記テキスト認識モデルを得るための訓練サブユニットと、を含む請求項11~14のいずれか1項に記載の装置。 - 前記訓練サブユニットは、
前記訓練画像を前記事前訓練モデルに入力し、前記訓練画像に対応するマルチモーダル特徴マップを得るための入力モジュールと、
前記認識待ちのタスク及び前記マルチモーダル特徴マップに従って、前記テキスト認識モデルを生成するための生成モジュールと、を含む請求項16に記載の装置。 - 前記生成モジュールは、
前記マルチモーダル特徴マップに従って、前記認識待ちのタスクでの前記訓練画像の予測される認識結果を予測するための第3の予測サブモジュールと、
前記訓練画像の予め設定された実際の認識結果、及び前記予測される認識結果に従って、前記テキスト認識モデルを構築するための構築サブモジュールと、を含む請求項17に記載の装置。 - テキスト認識装置であって、
認識待ちの画像を取得するための取得ユニットであって、前記認識待ちの画像にはテキストが含まれる取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルは、請求項1~4のいずれか1項に記載の方法に基づいて得られたものであることを特徴とするテキスト認識装置。 - 前記認識ユニットは、
前記テキスト認識モデルに従って前記認識待ちの画像のマルチモーダル特徴マップを決定するための第1の決定ユニットと、
前記マルチモーダル特徴マップに従って前記認識待ちの画像内のテキストコンテンツを決定するための第2の決定ユニットと、を含み、
前記認識待ちの画像のマルチモーダル特徴マップは、前記認識待ちの画像の視覚的特徴及び語義特徴をキャラクタリゼーションするためのものである請求項19に記載の装置。 - 電子機器であって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが請求項1~4のいずれか1項に記載の方法を実行できるか、前記少なくとも1つのプロセッサが請求項9に記載の方法を実行できることを特徴とする電子機器。 - コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令がコンピュータに請求項1~4のいずれか1項に記載の方法を実行させるためのものであるか、前記コンピュータ命令が前記コンピュータに請求項9に記載の方法を実行させるためのものであることを特徴とする非一時的な可読記憶媒体。
- コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、請求項1~4のいずれか1項に記載の方法は実現されるか、前記コンピュータプログラムがプロセッサにより実行されると、請求項9に記載の方法は実現されるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210279539.X | 2022-03-22 | ||
CN202210279539.XA CN114399769B (zh) | 2022-03-22 | 2022-03-22 | 文本识别模型的训练方法、文本识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022177242A true JP2022177242A (ja) | 2022-11-30 |
Family
ID=81234744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022153452A Pending JP2022177242A (ja) | 2022-03-22 | 2022-09-27 | テキスト認識モデルの訓練方法、テキスト認識方法及び装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2022177242A (ja) |
KR (1) | KR20220122566A (ja) |
CN (2) | CN114399769B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363663A (zh) * | 2023-04-03 | 2023-06-30 | 北京百度网讯科技有限公司 | 图像处理方法、图像识别方法及装置 |
CN116884003A (zh) * | 2023-07-18 | 2023-10-13 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399769B (zh) * | 2022-03-22 | 2022-08-02 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
CN114863450B (zh) * | 2022-05-19 | 2023-05-16 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN114972910B (zh) * | 2022-05-20 | 2023-05-23 | 北京百度网讯科技有限公司 | 图文识别模型的训练方法、装置、电子设备及存储介质 |
WO2024063437A1 (ko) * | 2022-09-22 | 2024-03-28 | 쿠팡 주식회사 | 인공지능 모델을 관리하기 위한 방법 및 장치 |
CN115661829A (zh) * | 2022-10-26 | 2023-01-31 | 阿里巴巴(中国)有限公司 | 图文识别方法及图文识别模型的数据处理方法 |
CN116012650B (zh) * | 2023-01-03 | 2024-04-23 | 北京百度网讯科技有限公司 | 文字识别模型训练及其识别方法、装置、设备和介质 |
CN116189198A (zh) * | 2023-01-06 | 2023-05-30 | 北京百度网讯科技有限公司 | 文本识别模型训练方法、文本识别方法、装置及存储介质 |
CN116229480A (zh) * | 2023-01-10 | 2023-06-06 | 北京百度网讯科技有限公司 | 文本识别模型训练方法、文本识别方法、装置及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549893B (zh) * | 2018-04-04 | 2020-03-31 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
EP3754549B1 (en) * | 2019-06-17 | 2021-09-22 | Sap Se | A computer vision method for recognizing an object category in a digital image |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN112016543A (zh) * | 2020-07-24 | 2020-12-01 | 华为技术有限公司 | 一种文本识别网络、神经网络训练的方法以及相关设备 |
CN113792113A (zh) * | 2020-07-31 | 2021-12-14 | 北京京东尚科信息技术有限公司 | 视觉语言模型获得及任务处理方法、装置、设备及介质 |
CN113537186A (zh) * | 2020-12-04 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 文本图像的识别方法、装置、电子设备及存储介质 |
CN112541501B (zh) * | 2020-12-18 | 2021-09-07 | 北京中科研究院 | 一种基于视觉语言建模网络的场景文字识别方法 |
CN112801085A (zh) * | 2021-02-09 | 2021-05-14 | 沈阳麟龙科技股份有限公司 | 一种图像中文字的识别方法、装置、介质及电子设备 |
CN112883953B (zh) * | 2021-02-22 | 2022-10-28 | 中国工商银行股份有限公司 | 基于联合学习的卡片识别装置及方法 |
CN113378833B (zh) * | 2021-06-25 | 2023-09-01 | 北京百度网讯科技有限公司 | 图像识别模型训练方法、图像识别方法、装置及电子设备 |
CN113435529B (zh) * | 2021-07-06 | 2023-11-07 | 北京百度网讯科技有限公司 | 模型预训练方法、模型训练方法及图像处理方法 |
CN113657390B (zh) * | 2021-08-13 | 2022-08-12 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法和检测文本方法、装置和设备 |
CN113657399B (zh) * | 2021-08-18 | 2022-09-27 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法、文字识别方法及装置 |
CN114120305B (zh) * | 2021-11-26 | 2023-07-07 | 北京百度网讯科技有限公司 | 文本分类模型的训练方法、文本内容的识别方法及装置 |
CN114155543B (zh) * | 2021-12-08 | 2022-11-29 | 北京百度网讯科技有限公司 | 神经网络训练方法、文档图像理解方法、装置和设备 |
CN114399769B (zh) * | 2022-03-22 | 2022-08-02 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
-
2022
- 2022-03-22 CN CN202210279539.XA patent/CN114399769B/zh active Active
- 2022-03-22 CN CN202210685043.2A patent/CN115035538B/zh active Active
- 2022-08-16 KR KR1020220101802A patent/KR20220122566A/ko unknown
- 2022-09-27 JP JP2022153452A patent/JP2022177242A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116363663A (zh) * | 2023-04-03 | 2023-06-30 | 北京百度网讯科技有限公司 | 图像处理方法、图像识别方法及装置 |
CN116884003A (zh) * | 2023-07-18 | 2023-10-13 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
CN116884003B (zh) * | 2023-07-18 | 2024-03-22 | 南京领行科技股份有限公司 | 图片自动标注方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114399769B (zh) | 2022-08-02 |
CN115035538B (zh) | 2023-04-07 |
CN115035538A (zh) | 2022-09-09 |
KR20220122566A (ko) | 2022-09-02 |
CN114399769A (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022177242A (ja) | テキスト認識モデルの訓練方法、テキスト認識方法及び装置 | |
JP2022177220A (ja) | テキスト認識モデルの訓練方法、テキスト認識方法及び装置 | |
US9766868B2 (en) | Dynamic source code generation | |
US9619209B1 (en) | Dynamic source code generation | |
US20220415072A1 (en) | Image processing method, text recognition method and apparatus | |
CN113392253B (zh) | 视觉问答模型训练及视觉问答方法、装置、设备及介质 | |
CN114863437B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
EP4191544A1 (en) | Method and apparatus for recognizing token, electronic device and storage medium | |
JP2022185143A (ja) | テキスト検出方法、テキスト認識方法及び装置 | |
CN113821616A (zh) | 领域自适应的槽位填充方法、装置、设备及存储介质 | |
JP2023062150A (ja) | 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 | |
CN112507705B (zh) | 一种位置编码的生成方法、装置及电子设备 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN114863450B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115565186A (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 | |
CN113361522B (zh) | 用于确定字符序列的方法、装置和电子设备 | |
CN115879480A (zh) | 语义约束机器翻译方法、装置、电子设备及存储介质 | |
CN114937277A (zh) | 基于图像的文本获取方法、装置、电子设备及存储介质 | |
CN114707017A (zh) | 视觉问答方法、装置、电子设备和存储介质 | |
CN114220505A (zh) | 病历数据的信息抽取方法、终端设备及可读存储介质 | |
US20220188163A1 (en) | Method for processing data, electronic device and storage medium | |
CN115984302B (zh) | 基于稀疏混合专家网络预训练的多模态遥感图像处理方法 | |
Zhang | Image captioning algorithms for images taken by people with visual impairments | |
CN113836915A (zh) | 数据处理方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231221 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240314 |