JP7406606B2 - テキスト認識モデルの訓練方法、テキスト認識方法及び装置 - Google Patents

テキスト認識モデルの訓練方法、テキスト認識方法及び装置 Download PDF

Info

Publication number
JP7406606B2
JP7406606B2 JP2022151153A JP2022151153A JP7406606B2 JP 7406606 B2 JP7406606 B2 JP 7406606B2 JP 2022151153 A JP2022151153 A JP 2022151153A JP 2022151153 A JP2022151153 A JP 2022151153A JP 7406606 B2 JP7406606 B2 JP 7406606B2
Authority
JP
Japan
Prior art keywords
text
predicted
loss value
recognized
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022151153A
Other languages
English (en)
Other versions
JP2022177220A (ja
Inventor
チャン,チェンクァン
ルゥ,ポンユェン
リウ,シャンシャン
チィァォ,メイナー
スー,ヤンリィウ
ウー,リィァン
リウ,ジントゥオ
ハン,ジュンユ
ディン,エァールイ
ワン,ジンドン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022177220A publication Critical patent/JP2022177220A/ja
Application granted granted Critical
Publication of JP7406606B2 publication Critical patent/JP7406606B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/199Arrangements for recognition using optical reference masks, e.g. holographic masks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/20Combination of acquisition, preprocessing or recognition functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

技術の分野
本開示は、人工知能(Artificial Intelligence、AI)技術の分野、具体的には、深層学習、コンピュータビジョン技術の分野に関し、光学式文字認識(Optical Character Recognition、OCR)などのシーンに適用でき、特に、テキスト認識モデルの訓練方法、テキスト認識方法及び装置に関する。
OCR技術は、教育、金融、医療、交通及び保険など、様々な業界で広く注目及び応用されている。
関連技術において、OCR技術と深層学習とを組み合わせてテキスト認識モデルを構築し、テキスト認識モデルに基づいて画像に対してテキスト認識を行うことができる。
しかしながら、テキスト認識モデルは、通常、視覚的情報に依存して、視覚的情報に基づいて画像内のテキストコンテンツを判別するため、認識の正確性が低いという欠陥がある。
本開示は、テキスト認識の正確性を向上させるためのテキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供する。
第1の態様によれば、本開示は、テキスト認識モデルの訓練方法を提供し、前記方法は、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップであって、前記サンプル画像にはテキストが含まれるステップと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定し、前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するステップと、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップと、を含む。
第2の態様によれば、本開示は、テキスト認識方法を提供し、前記方法は、
認識待ちの対象を取得するステップであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストであるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて得られたものである。
第3の態様によれば、本開示は、テキスト認識モデルの訓練装置を提供し、前記装置は、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第1の予測ユニットであって、前記サンプル画像にはテキストが含まれる第1の予測ユニットと、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第2の予測ユニットと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定するための第1の決定ユニットと、
前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するための第2の決定ユニットと、
前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニットと、を含む。
第4の態様によれば、本開示は、テキスト認識装置を提供し、前記装置は、
認識待ちの対象を取得するための取得ユニットであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが第1の態様に記載の方法に基づいて訓練されたものである。
第5の態様によれば、本開示は、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが第1の態様又は第2の態様に記載の方法を実行できる。
第6の態様によれば、本開示は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータに第1の態様又は第2の態様による方法を実行させるためのものである。
第7の態様によれば、本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも1つのプロセッサが前記コンピュータプログラムを実行すると、電子機器が第1の態様又は第2の態様に記載の方法を実行する。
本開示の実施例によれば、視覚的特徴及び語義特徴という2つの次元から訓練されたパラメータ(すなわち、第1の損失値及び第2の損失値)を共有して、訓練してテキスト認識モデルを得るという技術的解決手段により、テキスト認識モデルは視覚的情報のみならず、語義コンテキストロジックをもマイニングすることができるようになり、それにより、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の多様性及び全面性を向上させることができる。
なお、この部分に記載されている内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の詳細の説明を通じて容易に理解される。
図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本開示の第1の実施例による概略図である。 本開示の第2の実施例による概略図である。 本開示の第3の実施例による概略図である。 本開示のテキスト認識モデルの訓練方法による原理概略図である。 本開示の第4の実施例による概略図である。 本開示の第5の実施例による概略図である。 本開示の第6の実施例による概略図である。 本開示の第7の実施例による概略図である。 本開示の第8の実施例による概略図である。 本開示の実施例のテキスト認識モデルの訓練方法及びテキスト認識方法を実現するための電子機器のブロック図である。
以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
いくつかの実施例では、テキスト認識モデルの訓練方法は、テキストが含まれるサンプル画像を取得し、サンプル画像に基づいて訓練してテキスト認識モデルを得るステップを含む。
例示的に、サンプル画像に基づいて予め設定された基本ネットワークを訓練し、例えば、サンプル画像に基づいて基本ネットワークのモデルパラメータを調整し、テキスト認識モデルを得る。
例えば、サンプル画像の視覚的情報と組み合わせて基本ネットワークを訓練することで、テキスト認識モデルを得ることができる。
例示的に、サンプル画像に対して特徴抽出を行い、サンプル画像の視覚的特徴を得て、視覚的特徴に基づいて基本ネットワークを訓練することにより、基本ネットワークは、視覚的特徴に基づいてテキストコンテンツを抽出する能力を習得するようになり、テキスト認識モデルは得られる。
視覚的特徴とは、テクスチャやカラーなど、サンプル画像の視覚的次元の特徴を指す。
他のいくつかの実施例では、テキスト認識モデルの訓練方法は、サンプルテキストを取得し、サンプルテキストに基づいて訓練してテキスト認識モデルを得るステップを含む。
例示的に、サンプルテキストに基づいて予め設定された基本ネットワークを訓練し、例えば、サンプルテキストに基づいて基本ネットワークのモデルパラメータを調整し、テキスト認識モデルを得る。
例えば、サンプルテキストの語義情報に基づいて基本ネットワークを訓練することで、テキスト認識モデルを得る。
例示的に、サンプルテキストに対して特徴抽出を行い、サンプルテキストの語義特徴を得て、語義特徴に基づいて基本ネットワークを訓練することにより、基本ネットワークは、語義特徴に基づいてテキストコンテンツを抽出する能力を習得するようになり、テキスト認識モデルは得られる。
語義特徴とは、サンプルテキスト内の各文字列間の論理的関係の特徴である。
しかしながら、上記実施例における、視覚的特徴に基づいて訓練してテキスト認識モデルを得る技術案、又は、語義特徴に基づいて訓練してテキスト認識モデルを得る技術案を使用する場合、テキスト認識モデルの認識次元は単一になる可能性があり、例えば、視覚的特徴に基づいて訓練して得られたテキスト認識モデルの認識次元は視覚的情報であり、テキスト特徴に基づいて訓練して得られたテキスト認識モデルの認識次元はテキスト情報であるため、テキスト認識モデルに対してテキスト認識を行うとき、認識の正確性が低いという欠陥がある。
本開示の発明者は、上記問題の少なくとも1つを回避するために、創造的労働を通じて、視覚的特徴及び語義特徴という2つの次元から訓練してテキスト認識モデルを得て、訓練プロセスでは、2つの次元にそれぞれ対応するパラメータ(損失値など)が共有されるという本開示の発明構想に思いついた。
本開示は、上記発明構想に基づき、テキスト認識の信頼性の向上を達成するテキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供し、人工知能の分野における深層学習、コンピュータビジョン技術の分野に適用され、OCR認識などのシーンに適用できる。
図1は、本開示の第1の実施例による概略図であり、図1に示すように、本開示の実施例のテキスト認識モデルの訓練方法は、以下のステップを含む。
S101では、取得されたサンプル画像の視覚的特徴を予測し、サンプル画像の予測されるテキスト文字を得る。
サンプル画像にはテキストが含まれる。
例示的に、本実施例の実行主体は、テキスト認識モデルの訓練装置(以下、訓練装置と略称)であってもよく、訓練装置は、サーバ(例えば、クラウドサーバ、又は、ローカルサーバ、又は、サーバクラスタ)であってもよいし、または、端末機器、コンピュータ、プロセッサ、チップなどであってもよく、本実施例は、それについて限定しない。
当該ステップは、テキストを含むサンプル画像を取得し、サンプル画像に対して特徴抽出を行い、サンプル画像の視覚的特徴、具体的には、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴など、ここで一々例示しない、サンプル画像内のテキストの視覚的特徴を得るステップとして理解できる。
本実施例は、視覚的特徴に基づいてサンプル画像のテキストを予測し、予測されるテキスト文字を得る手段について限定せず、エンコーダに基づいて実現する手段が挙げられる。
S102では、取得されたサンプルテキストの語義特徴を予測し、サンプルテキストの予測されるテキスト文字を得る。
同様に、当該ステップは、サンプルテキストを取得し、サンプルテキストが、サンプル画像に含まれるテキストなど、サンプル画像に対応するサンプルテキストであってもよいし、サンプル画像内のテキストと異なるサンプルテキストであってもよく、サンプルテキストに対して特徴抽出を行い、サンプルテキストの語義特徴、具体的には、テキストの各文字列間の論理的関係など、サンプルテキスト内のテキストの語義特徴を得るステップとして理解できる。
同様に、本実施例は、語義特徴に基づいてサンプルテキストのテキストを予測し、予測されるテキスト文字を得る手段について限定せず、エンコーダに基づいて実現する手段が挙げられる。
S103では、サンプル画像の予測されるテキスト文字に従ってサンプル画像に対応する第1の損失値を決定し、サンプルテキストの予測されるテキスト文字に従ってサンプルテキストに対応する第2の損失値を決定する。
第1の損失値は、サンプル画像の実際のテキスト文字と予測されるテキスト文字との間の差分情報として理解できる。第2の損失値は、サンプルテキストの実際のテキスト文字と予測されるテキスト文字との間の差分情報として理解できる。
S104では、第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得る。
テキスト認識モデルは、認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである。
つまり、本実施例では、視覚的特徴及び語義特徴という2つの次元から訓練されたパラメータ(すなわち、第1の損失値及び第2の損失値)を共有して、訓練してテキスト認識モデルを得ることにより、テキスト認識モデルは視覚的情報のみならず、語義コンテキストロジックをもマイニングすることができるようになり、それにより、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の多様性及び全面性を向上させることができる。
上記分析に基づき、本開示の実施例は、テキスト認識モデルの訓練方法を提供し、当該方法は、取得されたサンプル画像の視覚的特徴を予測し、サンプル画像の予測されるテキスト文字を得て、サンプル画像にはテキストが含まれ、取得されたサンプルテキストの語義特徴を予測し、サンプルテキストの予測されるテキスト文字を得て、サンプル画像の予測されるテキスト文字に従ってサンプル画像に対応する第1の損失値を決定し、サンプルテキストの予測されるテキスト文字に従ってサンプルテキストに対応する第2の損失値を決定し、第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得て、テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップを含み、本実施例では、サンプル画像に対応する第1の損失値、及びサンプルテキストに対応する第2の損失値を決定し、第1の損失値及び第2の損失値を共有して訓練してテキスト認識モデルを得ることにより、単一な特徴次元(視覚的特徴次元又は語義特徴次元など)に基づいて訓練してテキスト認識モデルを得ることが原因となる信頼性が低いという欠陥は回避され、訓練の全面性及び多様性は向上し、テキスト認識モデルによるテキスト認識の正確性及び信頼性の技術的効果は向上する。
図2は、本開示の第2の実施例による概略図であり、図2に示すように、本開示の実施例のテキスト認識モデルの訓練方法は、以下のステップを含む。
S201では、取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得る。
サンプル画像にはテキストが含まれる。
煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しないことを理解すべきである。
視覚的特徴に対してマスク予測を行うことは、視覚的特徴のマスキングとも呼ばれ、視覚的特徴の一部に対してマスク(mask)操作(又はマスキング操作とも呼ばれる)を行い、マスキングされた部分の視覚的特徴(すなわち、予測される視覚的特徴)を予測して得ることとして理解できる。
同様に、語義特徴に対してマスク予測を行うことは、語義特徴のマスキングとも呼ばれ、語義特徴の一部に対してマスク(mask)操作(又はマスキング操作とも呼ばれる)を行い、マスキングされた部分の語義特徴(すなわち、予測される視覚的特徴)を予測して得ることとして理解できる。
S202では、予測される視覚的特徴に従ってサンプル画像のテキストの第1の損失値を決定し、予測される語義特徴に従ってサンプルテキストの第2の損失値を決定する。
S203では、第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得る。
テキスト認識モデルは、認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである。
同様に、本実施例では、視覚的特徴及び語義特徴という2つの次元から訓練されたパラメータ(すなわち、第1の損失値及び第2の損失値)を共有して、訓練してテキスト認識モデルを得ることにより、テキスト認識モデルは視覚的情報のみならず、語義コンテキストロジックをもマイニングすることができるようになり、それにより、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の多様性及び全面性を向上させることができる。
以下、本開示の実現原理をより深く理解できるようにするために、図3を参照して上記実施例(図1及び図2に示される少なくとも1つの実施例)についてさらに詳細に説明する。
図3は、本開示の第3の実施例による概略図であり、図3に示すように、本開示の実施例のテキスト認識モデルの訓練方法は、以下のステップを含む。
S301では、基本ネットワークのコーディングモジュールにより、入力されたサンプル画像に対して視覚的特徴抽出処理を行い、サンプル画像の視覚的特徴を得る。
サンプル画像にはテキストが含まれる。視覚的特徴は、具体的に、サンプル画像内のテキストの視覚的な特徴である。
同様に、煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しないことを理解すべきである。
上記分析に基づき、テキスト認識モデルの訓練は、基本ネットワークを利用して実現できることがわかり、本実施例では、基本ネットワークは、図4に示される第1のコーディングモジュール及び第2のコーディングモジュールなど、コーディングモジュール(Encoder Moule)を含み、サンプル画像は、図4に示される「hello」のようなテキストを含む画像である。
本実施例は、コーディングモジュールの構造について限定しない。例えば、コーディングモジュールは、畳み込みニューラルネットワークモデル(CNN)構造であってもよいし、ビジョントランスフォーマー(Vision Transformer、ViT)構造であってもよいし、トランスフォーマー(Transformer)構造などであってもよい。
S302では、基本ネットワークの第1のコンテキストエンハンスメントモジュールにより、視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得る。
同様に、基本ネットワークは、第1のコンテキストエンハンスメントモジュールを含む。第1のコンテキストエンハンスメントモジュールの「第1」は、後述する第2のコンテキストエンハンスメントモジュールと区別するためのものであり、第1のコンテキストエンハンスメントモジュールを限定するものとして理解できないことを理解すべきである。
コンテキストエンハンスメントモジュールは、入力特徴シーケンス間の相互推論能力を強化するために使用でき、コンテキストエンハンスメントモジュールの構造は、リカレントニューラルネットワーク(Recurrent Neural Network、 RNN)構造又はTransformer構造などであってもよく、本実施例は、それについて限定しない。
例示的に、基本ネットワークは、コンテキストエンハンスメントモジュール(Context Module)を含み、図4に示すように、基本ネットワークは、2つのコンテキストエンハンスメントモジュールを含んでもよく、視覚的特徴を処理するためのコンテキストエンハンスメントモジュールは、図4に示される第1のコンテキストエンハンスメントモジュールであってもよく、語義特徴を処理するためのコンテキストエンハンスメントモジュールは、図4に示される第2のコンテキストエンハンスメントモジュールであってもよい。
すなわち、図4に示すように、上部にあるコンテキストエンハンスメントモジュールが第1のコンテキストエンハンスメントモジュールで、下部にあるコンテキストエンハンスメントモジュールが第2のコンテキストエンハンスメントモジュールである。
相応に、本実施例では、第1のコンテキストエンハンスメントモジュールは、視覚的特徴間の相互推論能力を強化するために使用でき、視覚的特徴の一部により他の視覚的特徴を推論して得る能力が挙げられる。また、第1のコンテキストエンハンスメントモジュールの構造は、RNN構造又はTransformer構造などであってもよい。
コンテキストエンハンスメントモジュールには、マスクフィーチャーモデリング(Mask Feature Modelling)を導入して、マスクフィーチャーモデリングによる入力から特徴予測出力のプロセスにより、コンテキストエンハンスメントモジュールは、入力された特徴のコンテキストへの理解を強めるようになる。
例示的に、本実施例では、第1のコンテキストエンハンスメントモジュールには、マスクフィーチャーモデリングを導入して、マスクフィーチャーモデリングにより、視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得てもよい。
マスクフィーチャーモデリングは、マスク言語モデリング(MLM)、マスク量子化予測(wav2vec 2.0)、マスク画像再構成(Masked Autoencoder、MAE)などであってもよい。
図4のコンテキストエンハンスメントモジュールの数は例示的に説明するためのものにすぎず、他のいくつかの実施例では、コンテキストエンハンスメントモジュールの数が1つであってもよく、他のいくつかの実施例では、コンテキストエンハンスメントモジュールの数が複数であってもよいことを理解すべきである。
S303では、基本ネットワークの第1のデコーディングモジュールにより、予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得る。
同様に、本実施例における第1のデコーディングモジュールの「第1」は、後述する第2のデコーディングモジュールと区別するためものであり、第1のデコーディングモジュールを限定するものとして理解できない。
本実施例は、デコーディングモジュールのデコーディング手段について限定しない。例えば、デコーディングモジュールのデコーディング手段は、コネクショニスト時分類(Connectionist Temporal Classification、CTC)のデコーディング手段、又は注意機構(Attention)のデコーディング手段、又はトランスフォーマーデコーダ(transformer decoder)のデコーディング手段などであってもよい。
例示的に、第1のデコーディングモジュールのデコーディング手段は、CTCのデコーディング手段であってもよく、図4に示すように、図4には、2つのデコーディングモジュール(Decoder Module)が含まれ、相応に、図4の上部に示されるデコーディングモジュールは第1のデコーディングモジュールであってもよい。
S304では、予測される視覚的特徴に対応する予測されるテキスト文字と、サンプル画像のラベル付けされたテキスト文字との間の第1の損失値を計算する。
例示的に、当該ステップは、サンプル画像のラベル付けされたテキスト文字を取得し、予測される視覚的特徴に対応する予測されるテキスト文字、及びサンプル画像のラベル付けされたテキスト文字に従って、サンプル画像内のテキストの損失値(すなわち、第1の損失値)を計算して得るステップとして理解できる。
サンプル画像のラベル付けされたテキスト文字は、サンプル画像の実際のテキスト文字として理解でき、手動でラベル付けされてもよいし、自動的にラベル付けされてもよく、本実施例は、それについて限定しない。
本実施例では、予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得て、予測される視覚的特徴に対応する予測されるテキスト文字に従って第1の損失値を決定することにより、第1の損失値は、サンプル画像のテキストに対応する損失値を比較的正確にキャラクタリゼーションすることができるようになり、訓練して得られたテキスト認識モデルは、視覚的特徴次元間の比較的強い推論能力を習得することができるようになり、それにより、テキスト認識モデルの正確性は向上する。
好ましくは、サンプル画像のラベル付けされたテキスト文字と、予測される視覚的特徴に対応する予測されるテキスト文字とを組み合わせて第1の損失値を決定することにより、サンプル画像のラベル付けされたテキスト文字によってキャラクタリゼーションされるのは、サンプル画像内の実際のテキスト文字であるため、計算して得られた第1の損失値は、真実らしさが高く、適切性が強い。
S305では、基本ネットワークのテキスト埋め込みモジュールにより、入力されたサンプルテキストの語義特徴を決定する。
テキスト埋め込みモジュール(Text Embedding)は、ワンホット(one-hot)エンコーディング又はリードホット(word2vec)エンコーディングに基づいて語義特徴を決定してもよく、ひいては、学習可能な埋め込みモジュールを利用して語義特徴を決定してもよい。図4に示すように、テキスト「hello」が含まれるサンプルテキストをテキスト埋め込みモジュールに入力し、サンプルテキストの語義特徴を得ることができる。
S306では、基本ネットワークの第2のコンテキストエンハンスメントモジュールにより、語義特徴に対してマスク予測を行い、予測される語義特徴を得る。
第2のコンテキストエンハンスメントモジュールの実現原理について、第1のコンテキストエンハンスメントモジュールに関する説明を参照することができ、ここで繰り返して説明しない。
上記分析に基づき、図4には2つのコンテキストエンハンスメントモジュールが含まれ、下部にあるコンテキストエンハンスメントモジュールが第2のコンテキストエンハンスメントモジュールである。
S307では、基本ネットワークの第2のデコーディングモジュールにより、予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得る。
上記分析に基づき、図4には2つのデコーディングモジュールが含まれ、下部に示されるデコーディングモジュールが図4に示される第2のデコーディングモジュールである。
S308では、予測される語義特徴に対応する予測されるテキスト文字と、サンプルテキストのラベル付けされたテキスト文字との間の第2の損失値を計算する。
例示的に、当該ステップは、サンプルテキストのラベル付けされたテキスト文字を取得し、予測される語義特徴に対応する予測されるテキスト文字、及びサンプルテキストのラベル付けされたテキスト文字に従って、サンプルテキスト内のテキストの損失値(すなわち、第2の損失値)を計算して得るステップとして理解できる。
サンプルテキストのラベル付けされたテキスト文字は、サンプルテキストの実際のテキスト文字として理解でき、手動でラベル付けされてもよいし、自動的にラベル付けされてもよく、本実施例は、それについて限定しない。
同様に、本実施例では、予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得て、予測される語義特徴に対応する予測されるテキスト文字に従って第2の損失値を決定することにより、第2の損失値は、サンプルテキストに対応する損失値を比較的正確にキャラクタリゼーションすることができるようになり、訓練して得られたテキスト認識モデルは、語義特徴次元間の比較的強い推論能力を習得することができるようになり、それにより、テキスト認識モデルの正確性は向上する。
好ましくは、サンプルテキストのラベル付けされたテキスト文字と、予測される語義特徴に対応する予測されるテキスト文字とを組み合わせて第2の損失値を決定することにより、サンプルテキストのラベル付けされたテキスト文字によってキャラクタリゼーションされるのは、サンプルテキスト内の実際のテキスト文字であるため、計算して得られた第2の損失値は、真実らしさが高く、適切性が強い。
S309では、第1の損失値と第2の損失値との平均値を計算する。
S310では、平均値に従って基本ネットワークのパラメータを調整し、テキスト認識モデルを得る。
テキスト認識モデルは、認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである。
例示的に、平均値に基づいて基本ネットワークに対して反復訓練を行い、テキスト認識モデルを得る。
例えば、平均値に基づき、例えば、図4に示される入力されたテキストが「hello」で、出力されたテキストも「hello」であるか、反復回数がプリセットのしきい値に達するように、反復訓練が行われた基本ネットワークモデルから出力されたテキストが実際のテキストと同じになるまで、コーディングモジュール、コンテキストエンハンスメントモジュール(第1のコンテキストエンハンスメントモジュール及び第2のコンテキストエンハンスメントモジュールが含まれる)、デコーディングモジュール(第1のデコーディングモジュール及び第2のデコーディングモジュールが含まれる)、及びテキスト埋め込みモジュールのパラメータを調整し続ける。
本実施例では、第1の損失値と第2の損失値との平均値を決定し、平均値に従って訓練してテキスト認識モデルを得て、第1の損失値及び第2の損失値を共有して訓練してテキスト認識モデルを得ることにより、テキスト認識モデルは、視覚的特徴次元の比較的強い推論能力、並びに語義特徴次元の比較的強い推論能力を備えるようになり、テキスト認識モデルのテキスト認識の信頼性及び正確性は向上する。
図5は、本開示の第4の実施例による概略図であり、図5に示すように、本開示の実施例のテキスト認識方法は、以下のステップを含む。
S501では、認識待ちの対象を取得する。
認識待ちの対象にはテキストが含まれ、認識待ちの対象が認識待ちの画像又は認識待ちのテキストである。
例示的に、本実施例の実行主体は、テキスト認識装置であってもよく、テキスト認識装置は、訓練装置と同じ装置であってもよいし、異なる装置であってもよく、本実施例は、それについて限定しない。
認識待ちの対象を取得するステップについて、下記の例を参照して実現されることができる。
一例では、テキスト認識装置は、対象収集(画像収集など)装置に接続され、対象収集装置から送信された認識待ちの対象を受信してもよい。
他の例では、テキスト認識装置は、認識待ちの対象をロードするためのツールを提供してもよく、ユーザは認識待ちの対象をロードするための当該ツールを使用して認識待ちの対象をテキスト認識装置に伝送してもよい。
認識待ちの対象をロードするためのツールは、外部機器に接続するためのインタフェースであってもよく、例えば、他の記憶デバイスに接続するためのインタフェースが挙げられ、当該インタフェースを介して外部機器から伝送された認識待ちの対象を取得する。また、認識待ちの対象をロードするためのツールは、表示装置にしてもよく、例えば、テキスト認識装置により、表示装置に認識待ちの対象をロードする機能付きのインタフェースを入力することができ、ユーザは、当該インタフェースにおいて認識待ちの対象をテキスト認識装置にインポートすることができる。
S502では、予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得る。
テキスト認識モデルは、上記いずれか1つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。
本実施例では、上記方法に基づいて訓練して得られたテキスト認識モデルを使用し、認識待ちの対象に対してテキスト認識を行うことにより、視覚的コンテキストエンハンスメント及び語義コンテキストエンハンスメントの効果は達成され、推論過程では、テキスト認識モデルに追加の計算オーバーヘッドとコストをもたらしていない。挑戦的なビジネスシーンにおけるOCRによる製品認識の全体的な効果は強化でき、AI製品のエクスペリエンスは向上する。新たな文字認識方法により、視覚的特徴の自己監視再構成を兼ねて視覚的コンテキストを強化し、マスクテキスト文字/単語の予測用のサンプルテキストを共有して語義コンテキスト推論能力を強化し、テキスト認識モデルの精度が大幅に向上する。相応に、OCRによる製品認識に関する垂直技術の適用がより広く促進されることができ、開発コストを削減することができ、精度がより保証され、垂直適用性がより高くなり、例えば、金融(領収書画像のテキスト認識など)シーン、教育(問題用紙画像のテキスト認識など)シーン、医療(病歴画像のテキスト認識など)シーン、保険(保険証券画像のテキスト認識など)シーン、オフィス(企業の財務報告画像のテキスト認識など)シーンが挙げられる。
いくつかの実施例では、認識待ちの対象が認識待ちの画像である場合、予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得るが、当該ステップは、以下のステップを含む。
第1のステップでは、認識待ちの画像に対して特徴抽出処理を行い、認識待ちの画像の視覚的特徴を得る。
第2のステップでは、テキスト認識モデルを使用して、認識待ちの画像の視覚的特徴に従って認識待ちの画像に対してテキスト認識を行い、認識待ちの画像に対応するテキストコンテンツを得る。
例示的に、上記分析に基づき、認識待ちの対象が認識待ちの画像である場合、認識待ちの画像をテキスト認識モデルの図4に示されるコーディングモジュールに入力し、コーディングモジュールにより、認識待ちの画像に対してコーディング処理を行い、認識待ちの画像の視覚的特徴を得て、認識待ちの画像の視覚的特徴を、第1のコンテキストエンハンスメントモジュール又は第2のコンテキストエンハンスメントモジュールなど、テキスト認識モデルのコンテキストエンハンスメントモジュールに入力し、視覚的特徴次元での強力な推論能力及び語義特徴次元での強力な推論能力を備えた予測される視覚的特徴を出力し、当該視覚的特徴を、第1のデコーディングモジュール又は第2のデコーディングモジュールなど、テキスト認識モデルのデコーディングモジュールに入力し、高い正確性及び高い信頼性の、認識待ちの画像に対応するテキストコンテンツを出力してもよい。
他のいくつかの実施例では、認識待ちの対象が認識待ちのテキストである場合、予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得るが、当該ステップは、以下のステップを含む。
第1のステップでは、認識待ちのテキストに対して特徴抽出処理を行い、認識待ちのテキストの語義特徴を得る。
第2のステップでは、テキスト認識モデルを使用して、認識待ちのテキストの語義特徴に従って認識待ちのテキストに対してテキスト認識を行い、認識待ちのテキストに対応するテキストコンテンツを得る。
例示的に、上記分析に基づき、認識待ちの対象が認識待ちのテキストである場合、認識待ちのテキストをテキスト認識モデルの図4に示されるテキスト埋め込みモジュールに入力し、テキスト埋め込みモジュールにより、認識待ちのテキストに対してテキストマッピング処理を行い、認識待ちのテキストの語義特徴を得て、認識待ちのテキストの語義特徴を、第1のコンテキストエンハンスメントモジュール又は第2のコンテキストエンハンスメントモジュールなど、テキスト認識モデルのコンテキストエンハンスメントモジュールに入力し、視覚的特徴次元での強力な推論能力及び語義特徴次元での強力な推論能力を備えた予測される語義特徴を出力し、当該語義特徴を、第1のデコーディングモジュール又は第2のデコーディングモジュールなど、テキスト認識モデルのデコーディングモジュールに入力し、高い正確性及び高い信頼性の認識待ちのテキストに対応するテキストコンテンツを出力してもよい。
つまり、図4及び上記分析に基づき、訓練してテキスト認識モデルを得た後、テキスト認識モデルの適用を容易にするために、テキスト認識モデルから、冗長コンテキストエンハンスメントモジュール及びデコーディングモジュールなど、一部のブランチを取り除くことができる。
図6は、本開示の第5の実施例による概略図であり、図6に示すように、本開示の実施例のテキスト認識モデルの訓練装置600は、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第1の予測ユニット601であって、サンプル画像にはテキストが含まれる第1の予測ユニット601と、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第2の予測ユニット602と、
予測される視覚的特徴に従ってサンプル画像のテキストの第1の損失値を決定するための第1の決定ユニット603と、
予測される語義特徴に従ってサンプルテキストの第2の損失値を決定するための第2の決定ユニット604と、
第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニット605であって、テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニット605と、を含む。
図7は、本開示の第6の実施例による概略図であり、図7に示すように、本開示の実施例のテキスト認識モデルの訓練装置700は、以下のユニットを含む。
第1の入力ユニット701は、取得されたサンプル画像を予め設定された基本ネットワークのコーディングモジュールに入力するためのものである。
第1の出力ユニット702は、視覚的特徴を出力するためのものである。
第2の入力ユニット703は、取得されたサンプルテキストを予め設定された基本ネットワークのテキスト埋め込みモジュールに入力するためのものである。
第2の出力ユニット704は、語義特徴を出力するためのものである。
第1の予測ユニット705は、取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るためのものであり、サンプル画像にはテキストが含まれる。
第2の予測ユニット706は、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るためのものである。
第1の決定ユニット707は、予測される視覚的特徴に従ってサンプル画像のテキストの第1の損失値を決定するためのものである。
図7を参照して分かるように、いくつかの実施例では、第1の決定ユニット707は、
予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得るための第1のデコーディングサブユニット7071と、
予測される視覚的特徴に対応する予測されるテキスト文字に従って第1の損失値を決定するための第1の決定サブユニット7072と、を含む。
いくつかの実施例では、第1の決定サブユニット7072は、
サンプル画像のラベル付けされたテキスト文字を取得するための第1の取得モジュールと、
予測される視覚的特徴に対応する予測されるテキスト文字、及びサンプル画像のラベル付けされたテキスト文字に従って、第1の損失値を計算して得るための第1の計算モジュールと、を含む。
第2の決定ユニット708は、予測される語義特徴に従ってサンプルテキストの第2の損失値を決定するためのものである。
図7を参照して分かるように、いくつかの実施例では、第2の決定ユニット708は、
予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得るための第2のデコーディングサブユニット7081と、
予測される語義特徴に対応する予測されるテキスト文字に従って第2の損失値を決定するための第2の決定サブユニット7082と、を含む。
いくつかの実施例では、第2の決定サブユニット7082は、
サンプルテキストのラベル付けされたテキスト文字を取得するための第2の取得モジュールと、
予測される語義特徴に対応する予測されるテキスト文字、及びサンプルテキストのラベル付けされたテキスト文字に従って、第2の損失値を計算して得るための第2の計算モジュールと、を含む。
訓練ユニット709は、第1の損失値及び第2の損失値に従って訓練してテキスト認識モデルを得るためのものであり、テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである。
上記分析に基づき、いくつかの実施例では、訓練ユニット709は、第1の損失値及び第2の損失値に従ってコーディングモジュールのパラメータを調整し、テキスト認識モデルを得るためのものである。
上記分析に基づき、いくつかの実施例では、訓練ユニット709は、第1の損失値及び第2の損失値に従って前記テキスト埋め込みモジュールのパラメータを調整し、テキスト認識モデルを得るためのものである。
図7を参照して分かるように、いくつかの実施例では、訓練ユニット709は、
第1の損失値と第2の損失値との平均値を決定するための第3の決定サブユニット7091と、
平均値に従って訓練してテキスト認識モデルを得るための訓練サブユニット7092と、を含む。
いくつかの実施例では、テキスト認識モデルの訓練装置700は、予め設定された基本ネットワークに適用され、基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
予測される視覚的特徴は、コンテキストエンハンスメントモジュールに基づいてサンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものである。
例示的に、第1の予測ユニット705は、予め設定された基本ネットワークのコンテキストエンハンスメントモジュールに基づき、取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るために使用でき、
第1の損失値は、予測される視覚的特徴及びデコーディングモジュールに基づいて決定されたものである。
例示的に、第1のデコーディングサブユニット7071は、基本ネットワークのデコーディングモジュールに基づいて予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得て、予測される視覚的特徴に対応する予測されるテキスト文字に基づいて第1の損失値を決定するために使用でき、
テキスト認識モデルは、第1の損失値及び第2の損失値に基づいて基本ネットワークのパラメータを調整して得られたものである。
例示的に、訓練ユニット709は、第1の損失値及び第2の損失値に従って、基本ネットワークのパラメータを調整し、テキスト認識モデルを得るために使用できる。
いくつかの実施例では、テキスト認識モデルの訓練装置700は、予め設定された基本ネットワークに適用され、基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
予測される語義特徴は、コンテキストエンハンスメントモジュールに基づいてサンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものである。
例示的に、第2の予測ユニット706は、予め設定された基本ネットワークのコンテキストエンハンスメントモジュールに基づき、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るために使用でき、
第2の損失値は、予測される語義特徴及びデコーディングモジュールに基づいて得られたものである。
例示的に、第2のデコーディングサブユニット7081は、基本ネットワークのデコーディングモジュールに基づいて予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得て、予測される語義特徴に対応する予測されるテキスト文字、及びサンプルテキストのラベル付けされたテキスト文字に基づいて第2の損失値を得るために使用でき、
テキスト認識モデルは、第1の損失値及び第2の損失値に基づいて基本ネットワークのパラメータを調整して得られたものである。
例示的に、訓練ユニット709は、第1の損失値及び第2の損失値に従って、基本ネットワークのパラメータを調整し、テキスト認識モデルを得るために使用できる。
図8は、本開示の第7の実施例による概略図であり、図8に示すように、本開示の実施例のテキスト認識装置800は、
認識待ちの対象を取得するための取得ユニット801であって、認識待ちの対象にはテキストが含まれ、認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニット801と、
予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得るための認識ユニット802と、を含み、
テキスト認識モデルは、上記いずれか1つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。
いくつかの実施例では、認識待ちの対象が認識待ちの画像である場合、図8に示すように、認識ユニット802は、
認識待ちの画像に対して特徴抽出処理を行い、認識待ちの画像の視覚的特徴を得るための第1の抽出サブユニット8021と、
テキスト認識モデルを使用して、認識待ちの画像の視覚的特徴に従って認識待ちの画像に対してテキスト認識を行い、認識待ちの画像に対応するテキストコンテンツを得るための第1の認識サブユニット8022と、を含む。
いくつかの実施例では、認識待ちの対象が認識待ちのテキストである場合、図8に示すように、認識ユニット802は、
認識待ちのテキストに対して特徴抽出処理を行い、認識待ちのテキストの語義特徴を得るための第2の抽出サブユニット8023と、
テキスト認識モデルを使用して、認識待ちのテキストの語義特徴に従って認識待ちのテキストに対してテキスト認識を行い、認識待ちのテキストに対応するテキストコンテンツを得るための第2の認識サブユニット8024と、を含む。
図9は、本開示の第8の実施例による概略図であり、図9に示すように、本開示における電子機器900は、プロセッサ901とメモリ902とを含むことができる。
メモリ902は、プログラムを記憶するためのものであり、メモリ902は、ランダムアクセスメモリ(random-access memory、RAMと略称)、スタティックランダムアクセスメモリ(static random-access memory、SRAMと略称)、ダブルデータレートの同期ダイナミックランダムアクセスメモリ(Double Data Rate Synchronous Dynamic Random Access Memory、DDR SDRAMと略称)などの揮発性メモリ(volatile memory)を含んでもよいし、メモリは、フラッシュメモリ(flash memory)などの不揮発性メモリ(non-volatile memory)を含んでもよい。メモリ902は、コンピュータプログラム(例えば、上記方法を実現するためのアプリケーションプログラムや機能モジュールなど)やコンピュータ命令などを記憶するためのものであり、上記のコンピュータプログラムやコンピュータ命令などは、領域別に1つ又は複数のメモリ902内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ901によって呼び出されることができる。
上記のコンピュータプログラムやコンピュータ命令などは、領域別に1つ又は複数のメモリ902内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ901によって呼び出されることができる。
プロセッサ901は、メモリ902内に記憶されたコンピュータプログラムを実行するためのものであり、それによって上記実施例における方法の各ステップは実現される。
具体的には、前述した方法の実施例の説明を参照することができる。
プロセッサ901とメモリ902は独立した構造であってもよいし、集積された集積構造であってもよい。プロセッサ901とメモリ902は独立した構造である場合、メモリ902とプロセッサ901は、バス903を介して結合されて接続されることができる。
本実施例に係る電子機器は、上記方法における技術案を実行することができ、その具体的な実現プロセス及び技術的原理が同じであるため、ここで繰り返して説明しない。
本開示に係る技術案において、関連するユーザの個人情報の収集や、保存、使用、加工、伝送、提供、開示などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。
本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラムを提供する。
本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも1つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか1つの実施例により提供される技術案を実行する。
図10は、本開示の実施例を実施するために使用可能な例示的な電子機器1000の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実施を制限することを意図したものではない。
図10に示すように、機器1000は、計算ユニット1001を含み、当該計算ユニット1001は、読み取り専用メモリ(ROM)1002に記憶されたコンピュータプログラム、または、記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。RAM 1003には、さらに、機器1000の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット1001、ROM 1002及びRAM 1003は、バス1004を介して接続される。入力/出力(I/O)インタフェース1005も、バス1004に接続される。
キーボードやマウスなどの入力ユニット1006と、さまざまなタイプのモニタやスピーカーなどの出力ユニット1007と、磁気ディスクや光ディスクなどの記憶ユニット1008と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット1009と、を含む、機器1000における複数のコンポーネントは、I/Oインタフェース1005に接続される。通信ユニット1009は、機器1000がインターネットなどのコンピュータネットワーク及び/又はさまざまな電気通信デットワークを介して他の機器と情報/データを交換することを可能にさせる。
計算ユニット1001は、処理能力や計算能力を有するさまざまな汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、中央処理装置(CPU)、グラフィックスプロセッシングユニット(GPU)、さまざまな専用な人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット1001は、テキスト認識モデルの訓練方法及びテキスト認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、テキスト認識モデルの訓練方法及びテキスト認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット1008などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ROM 1002及び/又は通信ユニット1009を介して機器1000にロード及び/又はインストールされることができる。コンピュータプログラムは、RAM 1003にロードされて計算ユニット1001により実行されると、上記に記載のテキスト認識モデルの訓練方法及びテキスト認識方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット1001は、他の任意の適当な手段(例えば、ファームウェアに頼る)を用いてテキスト認識モデルの訓練方法及びテキスト認識方法を実行するように構成されることができる。
本明細書において、上記に記載のシステム及び技術のさまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップのシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、1つ又は複数のコンピュータプログラムに実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本開示に係る方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び/又はブロック図に示される機能/操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。
本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、1つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム(例えば、データサーバとする)、或いは、ミドルウェアコンポーネントを含む計算システム(例えば、アプリケーションサーバ)、或いは、フロントエンドコンポーネントを含む計算システム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの実例は、ローカルネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント端末とサーバとを含むことができる。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末-サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びVPSサービス(「VirtuaL Private Server」、又は「VPS」と略称)に存在する管理が難しく、ビジネスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。
上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (27)

  1. テキスト認識モデルの訓練方法であって、
    取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップであって、前記サンプル画像にはテキストが含まれるステップと、
    前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定し、前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するステップと、
    前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップと、を含み、
    前記方法は、予め設定された基本ネットワークに適用され、前記基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
    前記予測される視覚的特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものであり、
    前記第1の損失値は、前記予測される視覚的特徴及び前記デコーディングモジュールに基づいて決定されたものであり、
    前記テキスト認識モデルは、前記第1の損失値及び前記第2の損失値に基づいて前記基本ネットワークのパラメータを調整して得られたものである、
    テキスト認識モデルの訓練方法。
  2. 前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定するステップは、
    前記予測される視覚的特徴に対してデコーディング処理を行い、前記予測される視覚的特徴に対応する予測されるテキスト文字を得るステップと、
    前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第1の損失値を決定するステップと、を含む請求項1に記載の方法。
  3. 前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第1の損失値を決定するステップは、
    前記サンプル画像のラベル付けされたテキスト文字を取得するステップと、
    前記予測される視覚的特徴に対応する予測されるテキスト文字、及び前記サンプル画像のラベル付けされたテキスト文字に従って、前記第1の損失値を計算して得るステップと、を含む請求項2に記載の方法。
  4. 前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するステップは、
    前記予測される語義特徴に対してデコーディング処理を行い、前記予測される語義特徴に対応する予測されるテキスト文字を得るステップと、
    前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第2の損失値を決定するステップと、を含む請求項1~3のいずれか1項に記載の方法。
  5. 前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第2の損失値を決定するステップは、
    前記サンプルテキストのラベル付けされたテキスト文字を取得するステップと、
    前記予測される語義特徴に対応する予測されるテキスト文字、及び前記サンプルテキストのラベル付けされたテキスト文字に従って、前記第2の損失値を計算して得るステップと、を含む請求項4に記載の方法。
  6. 前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップは、
    前記第1の損失値と前記第2の損失値との平均値を決定し、前記平均値に基づいて訓練して前記テキスト認識モデルを得るステップを含む請求項1~3のいずれか1項に記載の方法。
  7. 記予測される語義特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものであり、
    前記第2の損失値は、前記予測される語義特徴及び前記デコーディングモジュールに基づいて得られたものである請求項1~3のいずれか1項に記載の方法。
  8. 前記基本ネットワークは、さらに、コーディングモジュールを含み、
    取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るステップの前、前記方法は、さらに、
    取得されたサンプル画像を前記基本ネットワークの前記コーディングモジュールに入力し、前記視覚的特徴を出力するステップを含み、
    前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップは、前記第1の損失値及び前記第2の損失値に従って前記コーディングモジュールのパラメータを調整し、前記テキスト認識モデルを得るステップを含む請求項1~3のいずれか1項に記載の方法。
  9. 前記基本ネットワークは、さらに、テキスト埋め込みモジュールを含み、
    取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップの前、前記方法は、さらに、
    取得されたサンプルテキストを前記基本ネットワークの前記テキスト埋め込みモジュールに入力し、前記語義特徴を出力するステップを含み、
    前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るステップは、前記第1の損失値及び前記第2の損失値に従って前記テキスト埋め込みモジュールのパラメータを調整し、前記テキスト認識モデルを得るステップを含む請求項1~3のいずれか1項に記載の方法。
  10. テキスト認識方法であって、
    認識待ちの対象を取得するステップであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストであるステップと、
    予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップと、を含み、
    前記テキスト認識モデルが請求項1~3のいずれか1項に記載の方法に基づいて得られたものであるテキスト認識方法。
  11. 前記認識待ちの対象が認識待ちの画像である場合、予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップは、
    前記認識待ちの画像に対して特徴抽出処理を行い、前記認識待ちの画像の視覚的特徴を得るステップと、
    前記テキスト認識モデルを使用して、前記認識待ちの画像の視覚的特徴に基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像に対応するテキストコンテンツを得るステップと、を含む請求項10に記載の方法。
  12. 前記認識待ちの対象が認識待ちのテキストである場合、予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップは、
    前記認識待ちのテキストに対して特徴抽出処理を行い、前記認識待ちのテキストの語義特徴を得るステップと、
    前記テキスト認識モデルを使用して、前記認識待ちのテキストの語義特徴に従って前記認識待ちのテキストに対してテキスト認識を行い、前記認識待ちのテキストに対応するテキストコンテンツを得るステップと、を含む請求項10に記載の方法。
  13. テキスト認識モデルの訓練装置であって、
    取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第1の予測ユニットであって、前記サンプル画像にはテキストが含まれる第1の予測ユニットと、
    取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第2の予測ユニットと、
    前記予測される視覚的特徴に従って前記サンプル画像のテキストの第1の損失値を決定するための第1の決定ユニットと、
    前記予測される語義特徴に従って前記サンプルテキストの第2の損失値を決定するための第2の決定ユニットと、
    前記第1の損失値及び前記第2の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニットと、を含み、
    前記装置は、予め設定された基本ネットワークに適用され、前記基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
    前記予測される視覚的特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものであり、
    前記第1の損失値は、前記予測される視覚的特徴及び前記デコーディングモジュールに基づいて決定されたものであり、
    前記テキスト認識モデルは、前記第1の損失値及び前記第2の損失値に基づいて前記基本ネットワークのパラメータを調整して得られたものである、
    テキスト認識モデルの訓練装置。
  14. 前記第1の決定ユニットは、
    前記予測される視覚的特徴に対してデコーディング処理を行い、前記予測される視覚的特徴に対応する予測されるテキスト文字を得るための第1のデコーディングサブユニットと、
    前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第1の損失値を決定するための第1の決定サブユニットと、を含む請求項13に記載の装置。
  15. 前記第1の決定サブユニットは、
    前記サンプル画像のラベル付けされたテキスト文字を取得するための第1の取得モジュールと、
    前記予測される視覚的特徴に対応する予測されるテキスト文字、及び前記サンプル画像のラベル付けされたテキスト文字に従って、前記第1の損失値を計算して得るための第1の計算モジュールと、を含む請求項14に記載の装置。
  16. 前記第2の決定ユニットは、
    前記予測される語義特徴に対してデコーディング処理を行い、前記予測される語義特徴に対応する予測されるテキスト文字を得るための第2のデコーディングサブユニットと、
    前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第2の損失値を決定するための第2の決定サブユニットと、を含む請求項13~15のいずれか1項に記載の装置。
  17. 前記第2の決定サブユニットは、
    前記サンプルテキストのラベル付けされたテキスト文字を取得するための第2の取得モジュールと、
    前記予測される語義特徴に対応する予測されるテキスト文字、及び前記サンプルテキストのラベル付けされたテキスト文字に従って、前記第2の損失値を計算して得るための第2の計算モジュールと、を含む請求項16に記載の装置。
  18. 前記訓練ユニットは、
    前記第1の損失値と前記第2の損失値との平均値を決定するための第3の決定サブユニットと、
    前記平均値に基づいて訓練して前記テキスト認識モデルを得るための訓練サブユニットと、を含む請求項13~15のいずれか1項に記載の装置。
  19. 記予測される語義特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものであり、
    前記第2の損失値は、前記予測される語義特徴及び前記デコーディングモジュールに基づいて得られたものである請求項13~15のいずれか1項に記載の装置。
  20. 前記基本ネットワークは、さらに、コーディングモジュールを含み、
    前記装置は、さらに、
    取得されたサンプル画像を前記基本ネットワークの前記コーディングモジュールに入力するための第1の入力ユニットと、
    前記視覚的特徴を出力するための第1の出力ユニットと、を含み、
    前記訓練ユニットが、前記第1の損失値及び前記第2の損失値に従って前記コーディングモジュールのパラメータを調整し、前記テキスト認識モデルを得るためのものである請求項13~15のいずれか1項に記載の装置。
  21. 前記基本ネットワークは、さらに、テキスト埋め込みモジュールを含み、
    前記装置は、さらに、
    取得されたサンプルテキストを前記基本ネットワークの前記テキスト埋め込みモジュールに入力するための第2の入力ユニットと、
    前記語義特徴を出力するための第2の出力ユニットと、を含み、
    前記訓練ユニットが、前記第1の損失値及び前記第2の損失値に従って前記テキストめ込みモジュールのパラメータを調整し、前記テキスト認識モデルを得るためのものである請求項13~15のいずれか1項に記載の装置。
  22. テキスト認識装置であって、
    認識待ちの対象を取得するための取得ユニットであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニットと、
    予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るための認識ユニットと、を含み、
    前記テキスト認識モデルが請求項1~3のいずれか1項に記載の方法に基づいて得られたものであるテキスト認識装置。
  23. 前記認識待ちの対象が認識待ちの画像である場合、前記認識ユニットは、
    前記認識待ちの画像に対して特徴抽出処理を行い、前記認識待ちの画像の視覚的特徴を得るための第1の抽出サブユニットと、
    前記テキスト認識モデルを使用して、前記認識待ちの画像の視覚的特徴に基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像に対応するテキストコンテンツを得るための第1の認識サブユニットと、を含む請求項22に記載の装置。
  24. 前記認識待ちの対象が認識待ちのテキストである場合、前記認識ユニットは、
    前記認識待ちのテキストに対して特徴抽出処理を行い、前記認識待ちのテキストの語義特徴を得るための第2の抽出サブユニットと、
    前記テキスト認識モデルを使用して、前記認識待ちのテキストの語義特徴に従って前記認識待ちのテキストに対してテキスト認識を行い、前記認識待ちのテキストに対応するテキストコンテンツを得るための第2の認識サブユニットと、を含む請求項22に記載の装置。
  25. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサが請求項1~3のいずれか1項に記載の方法を実行できるか、前記少なくとも1つのプロセッサが請求項10に記載の方法を実行できる電子機器。
  26. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令がコンピュータに請求項1~3のいずれか1項に記載の方法を実行させるためのものであるか、前記コンピュータ命令が前記コンピュータに請求項10に記載の方法を実行させるためのものである非一時的な可読記憶媒体。
  27. コンピュータプログラムであって、当該コンピュータプログラムがプロセッサにより実行されると、請求項1~3のいずれか1項に記載の方法のステップは実現されるか、当該コンピュータプログラムがプロセッサにより実行されると、請求項10に記載の方法のステップは実現されるコンピュータプログラム。
JP2022151153A 2022-03-21 2022-09-22 テキスト認識モデルの訓練方法、テキスト認識方法及び装置 Active JP7406606B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210275278.4A CN114372477B (zh) 2022-03-21 2022-03-21 文本识别模型的训练方法、文本识别方法及装置
CN202210275278.4 2022-03-21

Publications (2)

Publication Number Publication Date
JP2022177220A JP2022177220A (ja) 2022-11-30
JP7406606B2 true JP7406606B2 (ja) 2023-12-27

Family

ID=81145182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022151153A Active JP7406606B2 (ja) 2022-03-21 2022-09-22 テキスト認識モデルの訓練方法、テキスト認識方法及び装置

Country Status (4)

Country Link
US (1) US20220415071A1 (ja)
JP (1) JP7406606B2 (ja)
KR (1) KR20220127189A (ja)
CN (1) CN114372477B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818708B (zh) * 2022-04-20 2023-04-18 北京百度网讯科技有限公司 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN114724168A (zh) * 2022-05-10 2022-07-08 北京百度网讯科技有限公司 深度学习模型的训练方法、文本识别方法、装置和设备
CN114937277B (zh) * 2022-05-18 2023-04-11 北京百度网讯科技有限公司 基于图像的文本获取方法、装置、电子设备及存储介质
CN115115914B (zh) * 2022-06-07 2024-02-27 腾讯科技(深圳)有限公司 信息识别方法、装置以及计算机可读存储介质
WO2024060066A1 (zh) * 2022-09-21 2024-03-28 京东方科技集团股份有限公司 一种文本识别方法、模型及电子设备
CN115544240B (zh) * 2022-11-24 2023-04-07 闪捷信息科技有限公司 文本类敏感信息识别方法、装置、电子设备和存储介质
CN115984865B (zh) * 2022-12-23 2024-02-27 成方金融科技有限公司 文本识别方法、装置、电子设备和存储介质
CN116012650B (zh) * 2023-01-03 2024-04-23 北京百度网讯科技有限公司 文字识别模型训练及其识别方法、装置、设备和介质
CN116228895B (zh) * 2023-01-16 2023-11-17 北京百度网讯科技有限公司 视频生成方法、深度学习模型训练方法、装置以及设备
CN116050465B (zh) * 2023-02-09 2024-03-19 北京百度网讯科技有限公司 文本理解模型的训练方法和文本理解方法、装置
CN115951883B (zh) * 2023-03-15 2023-05-23 日照市德衡信息技术有限公司 分布式微服务架构的服务组件管理系统及其方法
CN116363262B (zh) * 2023-03-31 2024-02-02 北京百度网讯科技有限公司 图像生成方法、装置及电子设备
CN116343233B (zh) * 2023-04-04 2024-02-06 北京百度网讯科技有限公司 文本识别方法和文本识别模型的训练方法、装置
CN116469111B (zh) * 2023-06-08 2023-09-15 江西师范大学 一种文字生成模型训练方法及目标文字生成方法
CN116756574B (zh) * 2023-08-16 2023-11-21 腾讯科技(深圳)有限公司 多模态预训练模型的训练方法、使用方法、装置和设备
CN117435738B (zh) * 2023-12-19 2024-04-16 中国人民解放军国防科技大学 一种基于深度学习的文本多意图分析方法与系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898642A (zh) 2020-06-30 2020-11-06 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质
JP2020534604A (ja) 2017-09-19 2020-11-26 ラモット・アット・テル・アビブ・ユニバーシテイ・リミテッドRamot At Tel Aviv University Ltd. 画像コンテンツ認識のための方法およびシステム
JP2021125138A (ja) 2020-02-07 2021-08-30 カシオ計算機株式会社 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム
JP2021163456A (ja) 2020-03-30 2021-10-11 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体
CN113657399A (zh) 2021-08-18 2021-11-16 北京百度网讯科技有限公司 文字识别模型的训练方法、文字识别方法及装置
CN113762269A (zh) 2021-09-08 2021-12-07 深圳市网联安瑞网络科技有限公司 基于神经网络的中文字符ocr识别方法、系统、介质及应用

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011420B (zh) * 2021-03-10 2022-08-30 北京百度网讯科技有限公司 字符识别方法、模型训练方法、相关装置及电子设备
CN113033537B (zh) * 2021-03-25 2022-07-01 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备、介质和程序产品
CN113313022B (zh) * 2021-05-27 2023-11-10 北京百度网讯科技有限公司 文字识别模型的训练方法和识别图像中文字的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020534604A (ja) 2017-09-19 2020-11-26 ラモット・アット・テル・アビブ・ユニバーシテイ・リミテッドRamot At Tel Aviv University Ltd. 画像コンテンツ認識のための方法およびシステム
JP2021125138A (ja) 2020-02-07 2021-08-30 カシオ計算機株式会社 情報処理装置、仮想・現実合成システム、学習済みモデルの生成方法、情報処理装置に実行させる方法、プログラム
JP2021163456A (ja) 2020-03-30 2021-10-11 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド クロスモーダル処理方法、装置、電子機器及びコンピュータ記憶媒体
CN111898642A (zh) 2020-06-30 2020-11-06 北京市商汤科技开发有限公司 关键点检测方法、装置、电子设备及存储介质
CN113657399A (zh) 2021-08-18 2021-11-16 北京百度网讯科技有限公司 文字识别模型的训练方法、文字识别方法及装置
CN113762269A (zh) 2021-09-08 2021-12-07 深圳市网联安瑞网络科技有限公司 基于神经网络的中文字符ocr识别方法、系统、介质及应用

Also Published As

Publication number Publication date
KR20220127189A (ko) 2022-09-19
US20220415071A1 (en) 2022-12-29
CN114372477B (zh) 2022-06-10
CN114372477A (zh) 2022-04-19
JP2022177220A (ja) 2022-11-30

Similar Documents

Publication Publication Date Title
JP7406606B2 (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
US10679148B2 (en) Implicit bridging of machine learning tasks
US20230162723A1 (en) Text data processing method and apparatus
KR20220122566A (ko) 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치
CN111523640B (zh) 神经网络模型的训练方法和装置
WO2019080864A1 (zh) 一种文本语义编码方法及装置
JP2023541119A (ja) 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
WO2022253074A1 (zh) 一种数据处理方法及相关设备
US20220405524A1 (en) Optical character recognition training with semantic constraints
CN111291882A (zh) 一种模型转换的方法、装置、设备和计算机存储介质
WO2023005253A1 (zh) 文本识别模型框架的训练方法、装置及系统
JP7357114B2 (ja) 生体検出モデルのトレーニング方法、装置、電子機器および記憶媒体
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
JP2023062150A (ja) 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
JP7309811B2 (ja) データ注釈方法、装置、電子機器および記憶媒体
WO2022116827A1 (en) Automatic delineation and extraction of tabular data in portable document format using graph neural networks
CN114065915A (zh) 网络模型的构建方法、数据处理方法、装置、介质及设备
WO2020155769A1 (zh) 关键词生成模型的建模方法和装置
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
US11663412B2 (en) Relation extraction exploiting full dependency forests
CN115879480A (zh) 语义约束机器翻译方法、装置、电子设备及存储介质
CN113554149B (zh) 神经网络处理单元npu、神经网络的处理方法及其装置
US20220269698A1 (en) Phrase based unstructured content parsing
WO2021082518A1 (zh) 机器翻译方法、机器翻译模型训练方法、装置及存储介质
US20210201157A1 (en) Neural network model compression with quantizability regularization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231215

R150 Certificate of patent or registration of utility model

Ref document number: 7406606

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150