JP7406606B2

JP7406606B2 - テキスト認識モデルの訓練方法、テキスト認識方法及び装置

Info

Publication number: JP7406606B2
Application number: JP2022151153A
Authority: JP
Inventors: チャン，チェンクァン; ルゥ，ポンユェン; リウ，シャンシャン; チィァォ，メイナー; スー，ヤンリィウ; ウー，リィァン; リウ，ジントゥオ; ハン，ジュンユ; ディン，エァールイ; ワン，ジンドン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-21
Filing date: 2022-09-22
Publication date: 2023-12-27
Anticipated expiration: 2042-09-22
Also published as: KR20220127189A; US20220415071A1; CN114372477B; CN114372477A; JP2022177220A

Description

技術の分野

本開示は、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）技術の分野、具体的には、深層学習、コンピュータビジョン技術の分野に関し、光学式文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）などのシーンに適用でき、特に、テキスト認識モデルの訓練方法、テキスト認識方法及び装置に関する。

ＯＣＲ技術は、教育、金融、医療、交通及び保険など、様々な業界で広く注目及び応用されている。

関連技術において、ＯＣＲ技術と深層学習とを組み合わせてテキスト認識モデルを構築し、テキスト認識モデルに基づいて画像に対してテキスト認識を行うことができる。

しかしながら、テキスト認識モデルは、通常、視覚的情報に依存して、視覚的情報に基づいて画像内のテキストコンテンツを判別するため、認識の正確性が低いという欠陥がある。

本開示は、テキスト認識の正確性を向上させるためのテキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供する。

第１の態様によれば、本開示は、テキスト認識モデルの訓練方法を提供し、前記方法は、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップであって、前記サンプル画像にはテキストが含まれるステップと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第１の損失値を決定し、前記予測される語義特徴に従って前記サンプルテキストの第２の損失値を決定するステップと、
前記第１の損失値及び前記第２の損失値に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップと、を含む。

第２の態様によれば、本開示は、テキスト認識方法を提供し、前記方法は、
認識待ちの対象を取得するステップであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストであるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが第１の態様に記載の方法に基づいて得られたものである。

第３の態様によれば、本開示は、テキスト認識モデルの訓練装置を提供し、前記装置は、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第１の予測ユニットであって、前記サンプル画像にはテキストが含まれる第１の予測ユニットと、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第２の予測ユニットと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第１の損失値を決定するための第１の決定ユニットと、
前記予測される語義特徴に従って前記サンプルテキストの第２の損失値を決定するための第２の決定ユニットと、
前記第１の損失値及び前記第２の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニットと、を含む。

第４の態様によれば、本開示は、テキスト認識装置を提供し、前記装置は、
認識待ちの対象を取得するための取得ユニットであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが第１の態様に記載の方法に基づいて訓練されたものである。

第５の態様によれば、本開示は、電子機器を提供し、前記電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサが第１の態様又は第２の態様に記載の方法を実行できる。

第６の態様によれば、本開示は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータに第１の態様又は第２の態様による方法を実行させるためのものである。

第７の態様によれば、本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも１つのプロセッサが前記コンピュータプログラムを実行すると、電子機器が第１の態様又は第２の態様に記載の方法を実行する。

本開示の実施例によれば、視覚的特徴及び語義特徴という２つの次元から訓練されたパラメータ（すなわち、第１の損失値及び第２の損失値）を共有して、訓練してテキスト認識モデルを得るという技術的解決手段により、テキスト認識モデルは視覚的情報のみならず、語義コンテキストロジックをもマイニングすることができるようになり、それにより、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の多様性及び全面性を向上させることができる。

なお、この部分に記載されている内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の詳細の説明を通じて容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本開示の第１の実施例による概略図である。本開示の第２の実施例による概略図である。本開示の第３の実施例による概略図である。本開示のテキスト認識モデルの訓練方法による原理概略図である。本開示の第４の実施例による概略図である。本開示の第５の実施例による概略図である。本開示の第６の実施例による概略図である。本開示の第７の実施例による概略図である。本開示の第８の実施例による概略図である。本開示の実施例のテキスト認識モデルの訓練方法及びテキスト認識方法を実現するための電子機器のブロック図である。

以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

いくつかの実施例では、テキスト認識モデルの訓練方法は、テキストが含まれるサンプル画像を取得し、サンプル画像に基づいて訓練してテキスト認識モデルを得るステップを含む。

例示的に、サンプル画像に基づいて予め設定された基本ネットワークを訓練し、例えば、サンプル画像に基づいて基本ネットワークのモデルパラメータを調整し、テキスト認識モデルを得る。

例えば、サンプル画像の視覚的情報と組み合わせて基本ネットワークを訓練することで、テキスト認識モデルを得ることができる。

例示的に、サンプル画像に対して特徴抽出を行い、サンプル画像の視覚的特徴を得て、視覚的特徴に基づいて基本ネットワークを訓練することにより、基本ネットワークは、視覚的特徴に基づいてテキストコンテンツを抽出する能力を習得するようになり、テキスト認識モデルは得られる。

視覚的特徴とは、テクスチャやカラーなど、サンプル画像の視覚的次元の特徴を指す。

他のいくつかの実施例では、テキスト認識モデルの訓練方法は、サンプルテキストを取得し、サンプルテキストに基づいて訓練してテキスト認識モデルを得るステップを含む。

例示的に、サンプルテキストに基づいて予め設定された基本ネットワークを訓練し、例えば、サンプルテキストに基づいて基本ネットワークのモデルパラメータを調整し、テキスト認識モデルを得る。

例えば、サンプルテキストの語義情報に基づいて基本ネットワークを訓練することで、テキスト認識モデルを得る。

例示的に、サンプルテキストに対して特徴抽出を行い、サンプルテキストの語義特徴を得て、語義特徴に基づいて基本ネットワークを訓練することにより、基本ネットワークは、語義特徴に基づいてテキストコンテンツを抽出する能力を習得するようになり、テキスト認識モデルは得られる。

語義特徴とは、サンプルテキスト内の各文字列間の論理的関係の特徴である。

しかしながら、上記実施例における、視覚的特徴に基づいて訓練してテキスト認識モデルを得る技術案、又は、語義特徴に基づいて訓練してテキスト認識モデルを得る技術案を使用する場合、テキスト認識モデルの認識次元は単一になる可能性があり、例えば、視覚的特徴に基づいて訓練して得られたテキスト認識モデルの認識次元は視覚的情報であり、テキスト特徴に基づいて訓練して得られたテキスト認識モデルの認識次元はテキスト情報であるため、テキスト認識モデルに対してテキスト認識を行うとき、認識の正確性が低いという欠陥がある。

本開示の発明者は、上記問題の少なくとも１つを回避するために、創造的労働を通じて、視覚的特徴及び語義特徴という２つの次元から訓練してテキスト認識モデルを得て、訓練プロセスでは、２つの次元にそれぞれ対応するパラメータ（損失値など）が共有されるという本開示の発明構想に思いついた。

本開示は、上記発明構想に基づき、テキスト認識の信頼性の向上を達成するテキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供し、人工知能の分野における深層学習、コンピュータビジョン技術の分野に適用され、ＯＣＲ認識などのシーンに適用できる。

図１は、本開示の第１の実施例による概略図であり、図１に示すように、本開示の実施例のテキスト認識モデルの訓練方法は、以下のステップを含む。

Ｓ１０１では、取得されたサンプル画像の視覚的特徴を予測し、サンプル画像の予測されるテキスト文字を得る。

サンプル画像にはテキストが含まれる。

例示的に、本実施例の実行主体は、テキスト認識モデルの訓練装置（以下、訓練装置と略称）であってもよく、訓練装置は、サーバ（例えば、クラウドサーバ、又は、ローカルサーバ、又は、サーバクラスタ）であってもよいし、または、端末機器、コンピュータ、プロセッサ、チップなどであってもよく、本実施例は、それについて限定しない。

当該ステップは、テキストを含むサンプル画像を取得し、サンプル画像に対して特徴抽出を行い、サンプル画像の視覚的特徴、具体的には、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴など、ここで一々例示しない、サンプル画像内のテキストの視覚的特徴を得るステップとして理解できる。

本実施例は、視覚的特徴に基づいてサンプル画像のテキストを予測し、予測されるテキスト文字を得る手段について限定せず、エンコーダに基づいて実現する手段が挙げられる。

Ｓ１０２では、取得されたサンプルテキストの語義特徴を予測し、サンプルテキストの予測されるテキスト文字を得る。

同様に、当該ステップは、サンプルテキストを取得し、サンプルテキストが、サンプル画像に含まれるテキストなど、サンプル画像に対応するサンプルテキストであってもよいし、サンプル画像内のテキストと異なるサンプルテキストであってもよく、サンプルテキストに対して特徴抽出を行い、サンプルテキストの語義特徴、具体的には、テキストの各文字列間の論理的関係など、サンプルテキスト内のテキストの語義特徴を得るステップとして理解できる。

同様に、本実施例は、語義特徴に基づいてサンプルテキストのテキストを予測し、予測されるテキスト文字を得る手段について限定せず、エンコーダに基づいて実現する手段が挙げられる。

Ｓ１０３では、サンプル画像の予測されるテキスト文字に従ってサンプル画像に対応する第１の損失値を決定し、サンプルテキストの予測されるテキスト文字に従ってサンプルテキストに対応する第２の損失値を決定する。

第１の損失値は、サンプル画像の実際のテキスト文字と予測されるテキスト文字との間の差分情報として理解できる。第２の損失値は、サンプルテキストの実際のテキスト文字と予測されるテキスト文字との間の差分情報として理解できる。

Ｓ１０４では、第１の損失値及び第２の損失値に従って訓練してテキスト認識モデルを得る。

テキスト認識モデルは、認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである。

つまり、本実施例では、視覚的特徴及び語義特徴という２つの次元から訓練されたパラメータ（すなわち、第１の損失値及び第２の損失値）を共有して、訓練してテキスト認識モデルを得ることにより、テキスト認識モデルは視覚的情報のみならず、語義コンテキストロジックをもマイニングすることができるようになり、それにより、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の多様性及び全面性を向上させることができる。

上記分析に基づき、本開示の実施例は、テキスト認識モデルの訓練方法を提供し、当該方法は、取得されたサンプル画像の視覚的特徴を予測し、サンプル画像の予測されるテキスト文字を得て、サンプル画像にはテキストが含まれ、取得されたサンプルテキストの語義特徴を予測し、サンプルテキストの予測されるテキスト文字を得て、サンプル画像の予測されるテキスト文字に従ってサンプル画像に対応する第１の損失値を決定し、サンプルテキストの予測されるテキスト文字に従ってサンプルテキストに対応する第２の損失値を決定し、第１の損失値及び第２の損失値に従って訓練してテキスト認識モデルを得て、テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップを含み、本実施例では、サンプル画像に対応する第１の損失値、及びサンプルテキストに対応する第２の損失値を決定し、第１の損失値及び第２の損失値を共有して訓練してテキスト認識モデルを得ることにより、単一な特徴次元（視覚的特徴次元又は語義特徴次元など）に基づいて訓練してテキスト認識モデルを得ることが原因となる信頼性が低いという欠陥は回避され、訓練の全面性及び多様性は向上し、テキスト認識モデルによるテキスト認識の正確性及び信頼性の技術的効果は向上する。

図２は、本開示の第２の実施例による概略図であり、図２に示すように、本開示の実施例のテキスト認識モデルの訓練方法は、以下のステップを含む。

Ｓ２０１では、取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得る。

サンプル画像にはテキストが含まれる。

煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しないことを理解すべきである。

視覚的特徴に対してマスク予測を行うことは、視覚的特徴のマスキングとも呼ばれ、視覚的特徴の一部に対してマスク（ｍａｓｋ）操作（又はマスキング操作とも呼ばれる）を行い、マスキングされた部分の視覚的特徴（すなわち、予測される視覚的特徴）を予測して得ることとして理解できる。

同様に、語義特徴に対してマスク予測を行うことは、語義特徴のマスキングとも呼ばれ、語義特徴の一部に対してマスク（ｍａｓｋ）操作（又はマスキング操作とも呼ばれる）を行い、マスキングされた部分の語義特徴（すなわち、予測される視覚的特徴）を予測して得ることとして理解できる。

Ｓ２０２では、予測される視覚的特徴に従ってサンプル画像のテキストの第１の損失値を決定し、予測される語義特徴に従ってサンプルテキストの第２の損失値を決定する。

Ｓ２０３では、第１の損失値及び第２の損失値に従って訓練してテキスト認識モデルを得る。

同様に、本実施例では、視覚的特徴及び語義特徴という２つの次元から訓練されたパラメータ（すなわち、第１の損失値及び第２の損失値）を共有して、訓練してテキスト認識モデルを得ることにより、テキスト認識モデルは視覚的情報のみならず、語義コンテキストロジックをもマイニングすることができるようになり、それにより、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の多様性及び全面性を向上させることができる。

以下、本開示の実現原理をより深く理解できるようにするために、図３を参照して上記実施例（図１及び図２に示される少なくとも１つの実施例）についてさらに詳細に説明する。

図３は、本開示の第３の実施例による概略図であり、図３に示すように、本開示の実施例のテキスト認識モデルの訓練方法は、以下のステップを含む。

Ｓ３０１では、基本ネットワークのコーディングモジュールにより、入力されたサンプル画像に対して視覚的特徴抽出処理を行い、サンプル画像の視覚的特徴を得る。

サンプル画像にはテキストが含まれる。視覚的特徴は、具体的に、サンプル画像内のテキストの視覚的な特徴である。

同様に、煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しないことを理解すべきである。

上記分析に基づき、テキスト認識モデルの訓練は、基本ネットワークを利用して実現できることがわかり、本実施例では、基本ネットワークは、図４に示される第１のコーディングモジュール及び第２のコーディングモジュールなど、コーディングモジュール（ＥｎｃｏｄｅｒＭｏｕｌｅ）を含み、サンプル画像は、図４に示される「ｈｅｌｌｏ」のようなテキストを含む画像である。

本実施例は、コーディングモジュールの構造について限定しない。例えば、コーディングモジュールは、畳み込みニューラルネットワークモデル（ＣＮＮ）構造であってもよいし、ビジョントランスフォーマー（ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ、ＶｉＴ）構造であってもよいし、トランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）構造などであってもよい。

Ｓ３０２では、基本ネットワークの第１のコンテキストエンハンスメントモジュールにより、視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得る。

同様に、基本ネットワークは、第１のコンテキストエンハンスメントモジュールを含む。第１のコンテキストエンハンスメントモジュールの「第１」は、後述する第２のコンテキストエンハンスメントモジュールと区別するためのものであり、第１のコンテキストエンハンスメントモジュールを限定するものとして理解できないことを理解すべきである。

コンテキストエンハンスメントモジュールは、入力特徴シーケンス間の相互推論能力を強化するために使用でき、コンテキストエンハンスメントモジュールの構造は、リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）構造又はＴｒａｎｓｆｏｒｍｅｒ構造などであってもよく、本実施例は、それについて限定しない。

例示的に、基本ネットワークは、コンテキストエンハンスメントモジュール（ＣｏｎｔｅｘｔＭｏｄｕｌｅ）を含み、図４に示すように、基本ネットワークは、２つのコンテキストエンハンスメントモジュールを含んでもよく、視覚的特徴を処理するためのコンテキストエンハンスメントモジュールは、図４に示される第１のコンテキストエンハンスメントモジュールであってもよく、語義特徴を処理するためのコンテキストエンハンスメントモジュールは、図４に示される第２のコンテキストエンハンスメントモジュールであってもよい。

すなわち、図４に示すように、上部にあるコンテキストエンハンスメントモジュールが第１のコンテキストエンハンスメントモジュールで、下部にあるコンテキストエンハンスメントモジュールが第２のコンテキストエンハンスメントモジュールである。

相応に、本実施例では、第１のコンテキストエンハンスメントモジュールは、視覚的特徴間の相互推論能力を強化するために使用でき、視覚的特徴の一部により他の視覚的特徴を推論して得る能力が挙げられる。また、第１のコンテキストエンハンスメントモジュールの構造は、ＲＮＮ構造又はＴｒａｎｓｆｏｒｍｅｒ構造などであってもよい。

コンテキストエンハンスメントモジュールには、マスクフィーチャーモデリング（ＭａｓｋＦｅａｔｕｒｅＭｏｄｅｌｌｉｎｇ）を導入して、マスクフィーチャーモデリングによる入力から特徴予測出力のプロセスにより、コンテキストエンハンスメントモジュールは、入力された特徴のコンテキストへの理解を強めるようになる。

例示的に、本実施例では、第１のコンテキストエンハンスメントモジュールには、マスクフィーチャーモデリングを導入して、マスクフィーチャーモデリングにより、視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得てもよい。

マスクフィーチャーモデリングは、マスク言語モデリング(ＭＬＭ)、マスク量子化予測(ｗａｖ２ｖｅｃ２．０)、マスク画像再構成（ＭａｓｋｅｄＡｕｔｏｅｎｃｏｄｅｒ、ＭＡＥ）などであってもよい。

図４のコンテキストエンハンスメントモジュールの数は例示的に説明するためのものにすぎず、他のいくつかの実施例では、コンテキストエンハンスメントモジュールの数が１つであってもよく、他のいくつかの実施例では、コンテキストエンハンスメントモジュールの数が複数であってもよいことを理解すべきである。

Ｓ３０３では、基本ネットワークの第１のデコーディングモジュールにより、予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得る。

同様に、本実施例における第１のデコーディングモジュールの「第１」は、後述する第２のデコーディングモジュールと区別するためものであり、第１のデコーディングモジュールを限定するものとして理解できない。

本実施例は、デコーディングモジュールのデコーディング手段について限定しない。例えば、デコーディングモジュールのデコーディング手段は、コネクショニスト時分類（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ、ＣＴＣ）のデコーディング手段、又は注意機構（Ａｔｔｅｎｔｉｏｎ）のデコーディング手段、又はトランスフォーマーデコーダ（ｔｒａｎｓｆｏｒｍｅｒｄｅｃｏｄｅｒ）のデコーディング手段などであってもよい。

例示的に、第１のデコーディングモジュールのデコーディング手段は、ＣＴＣのデコーディング手段であってもよく、図４に示すように、図４には、２つのデコーディングモジュール（ＤｅｃｏｄｅｒＭｏｄｕｌｅ）が含まれ、相応に、図４の上部に示されるデコーディングモジュールは第１のデコーディングモジュールであってもよい。

Ｓ３０４では、予測される視覚的特徴に対応する予測されるテキスト文字と、サンプル画像のラベル付けされたテキスト文字との間の第１の損失値を計算する。

例示的に、当該ステップは、サンプル画像のラベル付けされたテキスト文字を取得し、予測される視覚的特徴に対応する予測されるテキスト文字、及びサンプル画像のラベル付けされたテキスト文字に従って、サンプル画像内のテキストの損失値（すなわち、第１の損失値）を計算して得るステップとして理解できる。

サンプル画像のラベル付けされたテキスト文字は、サンプル画像の実際のテキスト文字として理解でき、手動でラベル付けされてもよいし、自動的にラベル付けされてもよく、本実施例は、それについて限定しない。

本実施例では、予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得て、予測される視覚的特徴に対応する予測されるテキスト文字に従って第１の損失値を決定することにより、第１の損失値は、サンプル画像のテキストに対応する損失値を比較的正確にキャラクタリゼーションすることができるようになり、訓練して得られたテキスト認識モデルは、視覚的特徴次元間の比較的強い推論能力を習得することができるようになり、それにより、テキスト認識モデルの正確性は向上する。

好ましくは、サンプル画像のラベル付けされたテキスト文字と、予測される視覚的特徴に対応する予測されるテキスト文字とを組み合わせて第１の損失値を決定することにより、サンプル画像のラベル付けされたテキスト文字によってキャラクタリゼーションされるのは、サンプル画像内の実際のテキスト文字であるため、計算して得られた第１の損失値は、真実らしさが高く、適切性が強い。

Ｓ３０５では、基本ネットワークのテキスト埋め込みモジュールにより、入力されたサンプルテキストの語義特徴を決定する。

テキスト埋め込みモジュール（ＴｅｘｔＥｍｂｅｄｄｉｎｇ）は、ワンホット（ｏｎｅ－ｈｏｔ）エンコーディング又はリードホット（ｗｏｒｄ２ｖｅｃ）エンコーディングに基づいて語義特徴を決定してもよく、ひいては、学習可能な埋め込みモジュールを利用して語義特徴を決定してもよい。図４に示すように、テキスト「ｈｅｌｌｏ」が含まれるサンプルテキストをテキスト埋め込みモジュールに入力し、サンプルテキストの語義特徴を得ることができる。

Ｓ３０６では、基本ネットワークの第２のコンテキストエンハンスメントモジュールにより、語義特徴に対してマスク予測を行い、予測される語義特徴を得る。

第２のコンテキストエンハンスメントモジュールの実現原理について、第１のコンテキストエンハンスメントモジュールに関する説明を参照することができ、ここで繰り返して説明しない。

上記分析に基づき、図４には２つのコンテキストエンハンスメントモジュールが含まれ、下部にあるコンテキストエンハンスメントモジュールが第２のコンテキストエンハンスメントモジュールである。

Ｓ３０７では、基本ネットワークの第２のデコーディングモジュールにより、予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得る。

上記分析に基づき、図４には２つのデコーディングモジュールが含まれ、下部に示されるデコーディングモジュールが図４に示される第２のデコーディングモジュールである。

Ｓ３０８では、予測される語義特徴に対応する予測されるテキスト文字と、サンプルテキストのラベル付けされたテキスト文字との間の第２の損失値を計算する。

例示的に、当該ステップは、サンプルテキストのラベル付けされたテキスト文字を取得し、予測される語義特徴に対応する予測されるテキスト文字、及びサンプルテキストのラベル付けされたテキスト文字に従って、サンプルテキスト内のテキストの損失値（すなわち、第２の損失値）を計算して得るステップとして理解できる。

サンプルテキストのラベル付けされたテキスト文字は、サンプルテキストの実際のテキスト文字として理解でき、手動でラベル付けされてもよいし、自動的にラベル付けされてもよく、本実施例は、それについて限定しない。

同様に、本実施例では、予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得て、予測される語義特徴に対応する予測されるテキスト文字に従って第２の損失値を決定することにより、第２の損失値は、サンプルテキストに対応する損失値を比較的正確にキャラクタリゼーションすることができるようになり、訓練して得られたテキスト認識モデルは、語義特徴次元間の比較的強い推論能力を習得することができるようになり、それにより、テキスト認識モデルの正確性は向上する。

好ましくは、サンプルテキストのラベル付けされたテキスト文字と、予測される語義特徴に対応する予測されるテキスト文字とを組み合わせて第２の損失値を決定することにより、サンプルテキストのラベル付けされたテキスト文字によってキャラクタリゼーションされるのは、サンプルテキスト内の実際のテキスト文字であるため、計算して得られた第２の損失値は、真実らしさが高く、適切性が強い。

Ｓ３０９では、第１の損失値と第２の損失値との平均値を計算する。

Ｓ３１０では、平均値に従って基本ネットワークのパラメータを調整し、テキスト認識モデルを得る。

例示的に、平均値に基づいて基本ネットワークに対して反復訓練を行い、テキスト認識モデルを得る。

例えば、平均値に基づき、例えば、図４に示される入力されたテキストが「ｈｅｌｌｏ」で、出力されたテキストも「ｈｅｌｌｏ」であるか、反復回数がプリセットのしきい値に達するように、反復訓練が行われた基本ネットワークモデルから出力されたテキストが実際のテキストと同じになるまで、コーディングモジュール、コンテキストエンハンスメントモジュール（第１のコンテキストエンハンスメントモジュール及び第２のコンテキストエンハンスメントモジュールが含まれる）、デコーディングモジュール（第１のデコーディングモジュール及び第２のデコーディングモジュールが含まれる）、及びテキスト埋め込みモジュールのパラメータを調整し続ける。

本実施例では、第１の損失値と第２の損失値との平均値を決定し、平均値に従って訓練してテキスト認識モデルを得て、第１の損失値及び第２の損失値を共有して訓練してテキスト認識モデルを得ることにより、テキスト認識モデルは、視覚的特徴次元の比較的強い推論能力、並びに語義特徴次元の比較的強い推論能力を備えるようになり、テキスト認識モデルのテキスト認識の信頼性及び正確性は向上する。

図５は、本開示の第４の実施例による概略図であり、図５に示すように、本開示の実施例のテキスト認識方法は、以下のステップを含む。

Ｓ５０１では、認識待ちの対象を取得する。

認識待ちの対象にはテキストが含まれ、認識待ちの対象が認識待ちの画像又は認識待ちのテキストである。

例示的に、本実施例の実行主体は、テキスト認識装置であってもよく、テキスト認識装置は、訓練装置と同じ装置であってもよいし、異なる装置であってもよく、本実施例は、それについて限定しない。

認識待ちの対象を取得するステップについて、下記の例を参照して実現されることができる。

一例では、テキスト認識装置は、対象収集（画像収集など）装置に接続され、対象収集装置から送信された認識待ちの対象を受信してもよい。

他の例では、テキスト認識装置は、認識待ちの対象をロードするためのツールを提供してもよく、ユーザは認識待ちの対象をロードするための当該ツールを使用して認識待ちの対象をテキスト認識装置に伝送してもよい。

認識待ちの対象をロードするためのツールは、外部機器に接続するためのインタフェースであってもよく、例えば、他の記憶デバイスに接続するためのインタフェースが挙げられ、当該インタフェースを介して外部機器から伝送された認識待ちの対象を取得する。また、認識待ちの対象をロードするためのツールは、表示装置にしてもよく、例えば、テキスト認識装置により、表示装置に認識待ちの対象をロードする機能付きのインタフェースを入力することができ、ユーザは、当該インタフェースにおいて認識待ちの対象をテキスト認識装置にインポートすることができる。

Ｓ５０２では、予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得る。

テキスト認識モデルは、上記いずれか１つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。

本実施例では、上記方法に基づいて訓練して得られたテキスト認識モデルを使用し、認識待ちの対象に対してテキスト認識を行うことにより、視覚的コンテキストエンハンスメント及び語義コンテキストエンハンスメントの効果は達成され、推論過程では、テキスト認識モデルに追加の計算オーバーヘッドとコストをもたらしていない。挑戦的なビジネスシーンにおけるＯＣＲによる製品認識の全体的な効果は強化でき、ＡＩ製品のエクスペリエンスは向上する。新たな文字認識方法により、視覚的特徴の自己監視再構成を兼ねて視覚的コンテキストを強化し、マスクテキスト文字／単語の予測用のサンプルテキストを共有して語義コンテキスト推論能力を強化し、テキスト認識モデルの精度が大幅に向上する。相応に、ＯＣＲによる製品認識に関する垂直技術の適用がより広く促進されることができ、開発コストを削減することができ、精度がより保証され、垂直適用性がより高くなり、例えば、金融（領収書画像のテキスト認識など）シーン、教育（問題用紙画像のテキスト認識など）シーン、医療（病歴画像のテキスト認識など）シーン、保険（保険証券画像のテキスト認識など）シーン、オフィス（企業の財務報告画像のテキスト認識など）シーンが挙げられる。

いくつかの実施例では、認識待ちの対象が認識待ちの画像である場合、予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得るが、当該ステップは、以下のステップを含む。

第１のステップでは、認識待ちの画像に対して特徴抽出処理を行い、認識待ちの画像の視覚的特徴を得る。

第２のステップでは、テキスト認識モデルを使用して、認識待ちの画像の視覚的特徴に従って認識待ちの画像に対してテキスト認識を行い、認識待ちの画像に対応するテキストコンテンツを得る。

例示的に、上記分析に基づき、認識待ちの対象が認識待ちの画像である場合、認識待ちの画像をテキスト認識モデルの図４に示されるコーディングモジュールに入力し、コーディングモジュールにより、認識待ちの画像に対してコーディング処理を行い、認識待ちの画像の視覚的特徴を得て、認識待ちの画像の視覚的特徴を、第１のコンテキストエンハンスメントモジュール又は第２のコンテキストエンハンスメントモジュールなど、テキスト認識モデルのコンテキストエンハンスメントモジュールに入力し、視覚的特徴次元での強力な推論能力及び語義特徴次元での強力な推論能力を備えた予測される視覚的特徴を出力し、当該視覚的特徴を、第１のデコーディングモジュール又は第２のデコーディングモジュールなど、テキスト認識モデルのデコーディングモジュールに入力し、高い正確性及び高い信頼性の、認識待ちの画像に対応するテキストコンテンツを出力してもよい。

他のいくつかの実施例では、認識待ちの対象が認識待ちのテキストである場合、予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得るが、当該ステップは、以下のステップを含む。

第１のステップでは、認識待ちのテキストに対して特徴抽出処理を行い、認識待ちのテキストの語義特徴を得る。

第２のステップでは、テキスト認識モデルを使用して、認識待ちのテキストの語義特徴に従って認識待ちのテキストに対してテキスト認識を行い、認識待ちのテキストに対応するテキストコンテンツを得る。

例示的に、上記分析に基づき、認識待ちの対象が認識待ちのテキストである場合、認識待ちのテキストをテキスト認識モデルの図４に示されるテキスト埋め込みモジュールに入力し、テキスト埋め込みモジュールにより、認識待ちのテキストに対してテキストマッピング処理を行い、認識待ちのテキストの語義特徴を得て、認識待ちのテキストの語義特徴を、第１のコンテキストエンハンスメントモジュール又は第２のコンテキストエンハンスメントモジュールなど、テキスト認識モデルのコンテキストエンハンスメントモジュールに入力し、視覚的特徴次元での強力な推論能力及び語義特徴次元での強力な推論能力を備えた予測される語義特徴を出力し、当該語義特徴を、第１のデコーディングモジュール又は第２のデコーディングモジュールなど、テキスト認識モデルのデコーディングモジュールに入力し、高い正確性及び高い信頼性の認識待ちのテキストに対応するテキストコンテンツを出力してもよい。

つまり、図４及び上記分析に基づき、訓練してテキスト認識モデルを得た後、テキスト認識モデルの適用を容易にするために、テキスト認識モデルから、冗長コンテキストエンハンスメントモジュール及びデコーディングモジュールなど、一部のブランチを取り除くことができる。

図６は、本開示の第５の実施例による概略図であり、図６に示すように、本開示の実施例のテキスト認識モデルの訓練装置６００は、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第１の予測ユニット６０１であって、サンプル画像にはテキストが含まれる第１の予測ユニット６０１と、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第２の予測ユニット６０２と、
予測される視覚的特徴に従ってサンプル画像のテキストの第１の損失値を決定するための第１の決定ユニット６０３と、
予測される語義特徴に従ってサンプルテキストの第２の損失値を決定するための第２の決定ユニット６０４と、
第１の損失値及び第２の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニット６０５であって、テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニット６０５と、を含む。

図７は、本開示の第６の実施例による概略図であり、図７に示すように、本開示の実施例のテキスト認識モデルの訓練装置７００は、以下のユニットを含む。

第１の入力ユニット７０１は、取得されたサンプル画像を予め設定された基本ネットワークのコーディングモジュールに入力するためのものである。

第１の出力ユニット７０２は、視覚的特徴を出力するためのものである。

第２の入力ユニット７０３は、取得されたサンプルテキストを予め設定された基本ネットワークのテキスト埋め込みモジュールに入力するためのものである。

第２の出力ユニット７０４は、語義特徴を出力するためのものである。

第１の予測ユニット７０５は、取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るためのものであり、サンプル画像にはテキストが含まれる。

第２の予測ユニット７０６は、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るためのものである。

第１の決定ユニット７０７は、予測される視覚的特徴に従ってサンプル画像のテキストの第１の損失値を決定するためのものである。

図７を参照して分かるように、いくつかの実施例では、第１の決定ユニット７０７は、
予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得るための第１のデコーディングサブユニット７０７１と、
予測される視覚的特徴に対応する予測されるテキスト文字に従って第１の損失値を決定するための第１の決定サブユニット７０７２と、を含む。

いくつかの実施例では、第１の決定サブユニット７０７２は、
サンプル画像のラベル付けされたテキスト文字を取得するための第１の取得モジュールと、
予測される視覚的特徴に対応する予測されるテキスト文字、及びサンプル画像のラベル付けされたテキスト文字に従って、第１の損失値を計算して得るための第１の計算モジュールと、を含む。

第２の決定ユニット７０８は、予測される語義特徴に従ってサンプルテキストの第２の損失値を決定するためのものである。

図７を参照して分かるように、いくつかの実施例では、第２の決定ユニット７０８は、
予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得るための第２のデコーディングサブユニット７０８１と、
予測される語義特徴に対応する予測されるテキスト文字に従って第２の損失値を決定するための第２の決定サブユニット７０８２と、を含む。

いくつかの実施例では、第２の決定サブユニット７０８２は、
サンプルテキストのラベル付けされたテキスト文字を取得するための第２の取得モジュールと、
予測される語義特徴に対応する予測されるテキスト文字、及びサンプルテキストのラベル付けされたテキスト文字に従って、第２の損失値を計算して得るための第２の計算モジュールと、を含む。

訓練ユニット７０９は、第１の損失値及び第２の損失値に従って訓練してテキスト認識モデルを得るためのものであり、テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである。

上記分析に基づき、いくつかの実施例では、訓練ユニット７０９は、第１の損失値及び第２の損失値に従ってコーディングモジュールのパラメータを調整し、テキスト認識モデルを得るためのものである。

上記分析に基づき、いくつかの実施例では、訓練ユニット７０９は、第１の損失値及び第２の損失値に従って前記テキスト埋め込みモジュールのパラメータを調整し、テキスト認識モデルを得るためのものである。

図７を参照して分かるように、いくつかの実施例では、訓練ユニット７０９は、
第１の損失値と第２の損失値との平均値を決定するための第３の決定サブユニット７０９１と、
平均値に従って訓練してテキスト認識モデルを得るための訓練サブユニット７０９２と、を含む。

いくつかの実施例では、テキスト認識モデルの訓練装置７００は、予め設定された基本ネットワークに適用され、基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
予測される視覚的特徴は、コンテキストエンハンスメントモジュールに基づいてサンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものである。

例示的に、第１の予測ユニット７０５は、予め設定された基本ネットワークのコンテキストエンハンスメントモジュールに基づき、取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るために使用でき、
第１の損失値は、予測される視覚的特徴及びデコーディングモジュールに基づいて決定されたものである。

例示的に、第１のデコーディングサブユニット７０７１は、基本ネットワークのデコーディングモジュールに基づいて予測される視覚的特徴に対してデコーディング処理を行い、予測される視覚的特徴に対応する予測されるテキスト文字を得て、予測される視覚的特徴に対応する予測されるテキスト文字に基づいて第１の損失値を決定するために使用でき、
テキスト認識モデルは、第１の損失値及び第２の損失値に基づいて基本ネットワークのパラメータを調整して得られたものである。

例示的に、訓練ユニット７０９は、第１の損失値及び第２の損失値に従って、基本ネットワークのパラメータを調整し、テキスト認識モデルを得るために使用できる。

いくつかの実施例では、テキスト認識モデルの訓練装置７００は、予め設定された基本ネットワークに適用され、基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
予測される語義特徴は、コンテキストエンハンスメントモジュールに基づいてサンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものである。

例示的に、第２の予測ユニット７０６は、予め設定された基本ネットワークのコンテキストエンハンスメントモジュールに基づき、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るために使用でき、
第２の損失値は、予測される語義特徴及びデコーディングモジュールに基づいて得られたものである。

例示的に、第２のデコーディングサブユニット７０８１は、基本ネットワークのデコーディングモジュールに基づいて予測される語義特徴に対してデコーディング処理を行い、予測される語義特徴に対応する予測されるテキスト文字を得て、予測される語義特徴に対応する予測されるテキスト文字、及びサンプルテキストのラベル付けされたテキスト文字に基づいて第２の損失値を得るために使用でき、
テキスト認識モデルは、第１の損失値及び第２の損失値に基づいて基本ネットワークのパラメータを調整して得られたものである。

図８は、本開示の第７の実施例による概略図であり、図８に示すように、本開示の実施例のテキスト認識装置８００は、
認識待ちの対象を取得するための取得ユニット８０１であって、認識待ちの対象にはテキストが含まれ、認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニット８０１と、
予め訓練されたテキスト認識モデルに基づいて認識待ちの対象に対してテキスト認識を行い、認識待ちの対象に対応するテキストコンテンツを得るための認識ユニット８０２と、を含み、
テキスト認識モデルは、上記いずれか１つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。

いくつかの実施例では、認識待ちの対象が認識待ちの画像である場合、図８に示すように、認識ユニット８０２は、
認識待ちの画像に対して特徴抽出処理を行い、認識待ちの画像の視覚的特徴を得るための第１の抽出サブユニット８０２１と、
テキスト認識モデルを使用して、認識待ちの画像の視覚的特徴に従って認識待ちの画像に対してテキスト認識を行い、認識待ちの画像に対応するテキストコンテンツを得るための第１の認識サブユニット８０２２と、を含む。

いくつかの実施例では、認識待ちの対象が認識待ちのテキストである場合、図８に示すように、認識ユニット８０２は、
認識待ちのテキストに対して特徴抽出処理を行い、認識待ちのテキストの語義特徴を得るための第２の抽出サブユニット８０２３と、
テキスト認識モデルを使用して、認識待ちのテキストの語義特徴に従って認識待ちのテキストに対してテキスト認識を行い、認識待ちのテキストに対応するテキストコンテンツを得るための第２の認識サブユニット８０２４と、を含む。

図９は、本開示の第８の実施例による概略図であり、図９に示すように、本開示における電子機器９００は、プロセッサ９０１とメモリ９０２とを含むことができる。

メモリ９０２は、プログラムを記憶するためのものであり、メモリ９０２は、ランダムアクセスメモリ（ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭと略称）、スタティックランダムアクセスメモリ（ｓｔａｔｉｃｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＳＲＡＭと略称）、ダブルデータレートの同期ダイナミックランダムアクセスメモリ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＤＤＲＳＤＲＡＭと略称）などの揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含んでもよいし、メモリは、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などの不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含んでもよい。メモリ９０２は、コンピュータプログラム（例えば、上記方法を実現するためのアプリケーションプログラムや機能モジュールなど）やコンピュータ命令などを記憶するためのものであり、上記のコンピュータプログラムやコンピュータ命令などは、領域別に１つ又は複数のメモリ９０２内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ９０１によって呼び出されることができる。

上記のコンピュータプログラムやコンピュータ命令などは、領域別に１つ又は複数のメモリ９０２内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ９０１によって呼び出されることができる。

プロセッサ９０１は、メモリ９０２内に記憶されたコンピュータプログラムを実行するためのものであり、それによって上記実施例における方法の各ステップは実現される。

具体的には、前述した方法の実施例の説明を参照することができる。

プロセッサ９０１とメモリ９０２は独立した構造であってもよいし、集積された集積構造であってもよい。プロセッサ９０１とメモリ９０２は独立した構造である場合、メモリ９０２とプロセッサ９０１は、バス９０３を介して結合されて接続されることができる。

本実施例に係る電子機器は、上記方法における技術案を実行することができ、その具体的な実現プロセス及び技術的原理が同じであるため、ここで繰り返して説明しない。

本開示に係る技術案において、関連するユーザの個人情報の収集や、保存、使用、加工、伝送、提供、開示などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。

本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラムを提供する。

本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも１つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか１つの実施例により提供される技術案を実行する。

図１０は、本開示の実施例を実施するために使用可能な例示的な電子機器１０００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実施を制限することを意図したものではない。

図１０に示すように、機器１０００は、計算ユニット１００１を含み、当該計算ユニット１００１は、読み取り専用メモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラム、または、記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。ＲＡＭ１００３には、さらに、機器１０００の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット１００１、ＲＯＭ１００２及びＲＡＭ１００３は、バス１００４を介して接続される。入力／出力（Ｉ／Ｏ）インタフェース１００５も、バス１００４に接続される。

キーボードやマウスなどの入力ユニット１００６と、さまざまなタイプのモニタやスピーカーなどの出力ユニット１００７と、磁気ディスクや光ディスクなどの記憶ユニット１００８と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット１００９と、を含む、機器１０００における複数のコンポーネントは、Ｉ／Ｏインタフェース１００５に接続される。通信ユニット１００９は、機器１０００がインターネットなどのコンピュータネットワーク及び／又はさまざまな電気通信デットワークを介して他の機器と情報／データを交換することを可能にさせる。

計算ユニット１００１は、処理能力や計算能力を有するさまざまな汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット１００１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、さまざまな専用な人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット１００１は、テキスト認識モデルの訓練方法及びテキスト認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、テキスト認識モデルの訓練方法及びテキスト認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット１００８などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ＲＯＭ１００２及び／又は通信ユニット１００９を介して機器１０００にロード及び／又はインストールされることができる。コンピュータプログラムは、ＲＡＭ１００３にロードされて計算ユニット１００１により実行されると、上記に記載のテキスト認識モデルの訓練方法及びテキスト認識方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット１００１は、他の任意の適当な手段（例えば、ファームウェアに頼る）を用いてテキスト認識モデルの訓練方法及びテキスト認識方法を実行するように構成されることができる。

本明細書において、上記に記載のシステム及び技術のさまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、１つ又は複数のコンピュータプログラムに実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本開示に係る方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び／又はブロック図に示される機能／操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。

本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、１つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとする）、或いは、ミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）、或いは、フロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの実例は、ローカルネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアント端末とサーバとを含むことができる。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末－サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａＬＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称）に存在する管理が難しく、ビジネスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

テキスト認識モデルの訓練方法であって、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得て、取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップであって、前記サンプル画像にはテキストが含まれるステップと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第１の損失値を決定し、前記予測される語義特徴に従って前記サンプルテキストの第２の損失値を決定するステップと、
前記第１の損失値及び前記第２の損失値に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものであるステップと、を含み、
前記方法は、予め設定された基本ネットワークに適用され、前記基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
前記予測される視覚的特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものであり、
前記第１の損失値は、前記予測される視覚的特徴及び前記デコーディングモジュールに基づいて決定されたものであり、
前記テキスト認識モデルは、前記第１の損失値及び前記第２の損失値に基づいて前記基本ネットワークのパラメータを調整して得られたものである、
テキスト認識モデルの訓練方法。
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第１の損失値を決定するステップは、
前記予測される視覚的特徴に対してデコーディング処理を行い、前記予測される視覚的特徴に対応する予測されるテキスト文字を得るステップと、
前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第１の損失値を決定するステップと、を含む請求項１に記載の方法。
前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第１の損失値を決定するステップは、
前記サンプル画像のラベル付けされたテキスト文字を取得するステップと、
前記予測される視覚的特徴に対応する予測されるテキスト文字、及び前記サンプル画像のラベル付けされたテキスト文字に従って、前記第１の損失値を計算して得るステップと、を含む請求項２に記載の方法。
前記予測される語義特徴に従って前記サンプルテキストの第２の損失値を決定するステップは、
前記予測される語義特徴に対してデコーディング処理を行い、前記予測される語義特徴に対応する予測されるテキスト文字を得るステップと、
前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第２の損失値を決定するステップと、を含む請求項１～３のいずれか１項に記載の方法。
前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第２の損失値を決定するステップは、
前記サンプルテキストのラベル付けされたテキスト文字を取得するステップと、
前記予測される語義特徴に対応する予測されるテキスト文字、及び前記サンプルテキストのラベル付けされたテキスト文字に従って、前記第２の損失値を計算して得るステップと、を含む請求項４に記載の方法。
前記第１の損失値及び前記第２の損失値に従って訓練してテキスト認識モデルを得るステップは、
前記第１の損失値と前記第２の損失値との平均値を決定し、前記平均値に基づいて訓練して前記テキスト認識モデルを得るステップを含む請求項１～３のいずれか１項に記載の方法。
前記予測される語義特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものであり、
前記第２の損失値は、前記予測される語義特徴及び前記デコーディングモジュールに基づいて得られたものである請求項１～３のいずれか１項に記載の方法。
前記基本ネットワークは、さらに、コーディングモジュールを含み、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るステップの前、前記方法は、さらに、
取得されたサンプル画像を前記基本ネットワークの前記コーディングモジュールに入力し、前記視覚的特徴を出力するステップを含み、
前記第１の損失値及び前記第２の損失値に従って訓練してテキスト認識モデルを得るステップは、前記第１の損失値及び前記第２の損失値に従って前記コーディングモジュールのパラメータを調整し、前記テキスト認識モデルを得るステップを含む請求項１～３のいずれか１項に記載の方法。
前記基本ネットワークは、さらに、テキスト埋め込みモジュールを含み、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るステップの前、前記方法は、さらに、
取得されたサンプルテキストを前記基本ネットワークの前記テキスト埋め込みモジュールに入力し、前記語義特徴を出力するステップを含み、
前記第１の損失値及び前記第２の損失値に従って訓練してテキスト認識モデルを得るステップは、前記第１の損失値及び前記第２の損失値に従って前記テキスト埋め込みモジュールのパラメータを調整し、前記テキスト認識モデルを得るステップを含む請求項１～３のいずれか１項に記載の方法。
テキスト認識方法であって、
認識待ちの対象を取得するステップであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストであるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが請求項１～３のいずれか１項に記載の方法に基づいて得られたものであるテキスト認識方法。
前記認識待ちの対象が認識待ちの画像である場合、予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップは、
前記認識待ちの画像に対して特徴抽出処理を行い、前記認識待ちの画像の視覚的特徴を得るステップと、
前記テキスト認識モデルを使用して、前記認識待ちの画像の視覚的特徴に基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像に対応するテキストコンテンツを得るステップと、を含む請求項１０に記載の方法。
前記認識待ちの対象が認識待ちのテキストである場合、予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るステップは、
前記認識待ちのテキストに対して特徴抽出処理を行い、前記認識待ちのテキストの語義特徴を得るステップと、
前記テキスト認識モデルを使用して、前記認識待ちのテキストの語義特徴に従って前記認識待ちのテキストに対してテキスト認識を行い、前記認識待ちのテキストに対応するテキストコンテンツを得るステップと、を含む請求項１０に記載の方法。
テキスト認識モデルの訓練装置であって、
取得されたサンプル画像の視覚的特徴に対してマスク予測を行い、予測される視覚的特徴を得るための第１の予測ユニットであって、前記サンプル画像にはテキストが含まれる第１の予測ユニットと、
取得されたサンプルテキストの語義特徴に対してマスク予測を行い、予測される語義特徴を得るための第２の予測ユニットと、
前記予測される視覚的特徴に従って前記サンプル画像のテキストの第１の損失値を決定するための第１の決定ユニットと、
前記予測される語義特徴に従って前記サンプルテキストの第２の損失値を決定するための第２の決定ユニットと、
前記第１の損失値及び前記第２の損失値に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識待ちのテキスト及び認識待ちの画像のうちの少なくとも一方に対してテキスト認識を行うためのものである訓練ユニットと、を含み、
前記装置は、予め設定された基本ネットワークに適用され、前記基本ネットワークは、コンテキストエンハンスメントモジュール及びデコーディングモジュールを含み、
前記予測される視覚的特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプル画像の視覚的特徴に対してマスク予測を行うことにより得られたものであり、
前記第１の損失値は、前記予測される視覚的特徴及び前記デコーディングモジュールに基づいて決定されたものであり、
前記テキスト認識モデルは、前記第１の損失値及び前記第２の損失値に基づいて前記基本ネットワークのパラメータを調整して得られたものである、
テキスト認識モデルの訓練装置。
前記第１の決定ユニットは、
前記予測される視覚的特徴に対してデコーディング処理を行い、前記予測される視覚的特徴に対応する予測されるテキスト文字を得るための第１のデコーディングサブユニットと、
前記予測される視覚的特徴に対応する予測されるテキスト文字に従って前記第１の損失値を決定するための第１の決定サブユニットと、を含む請求項１３に記載の装置。
前記第１の決定サブユニットは、
前記サンプル画像のラベル付けされたテキスト文字を取得するための第１の取得モジュールと、
前記予測される視覚的特徴に対応する予測されるテキスト文字、及び前記サンプル画像のラベル付けされたテキスト文字に従って、前記第１の損失値を計算して得るための第１の計算モジュールと、を含む請求項１４に記載の装置。
前記第２の決定ユニットは、
前記予測される語義特徴に対してデコーディング処理を行い、前記予測される語義特徴に対応する予測されるテキスト文字を得るための第２のデコーディングサブユニットと、
前記予測される語義特徴に対応する予測されるテキスト文字に従って前記第２の損失値を決定するための第２の決定サブユニットと、を含む請求項１３～１５のいずれか１項に記載の装置。
前記第２の決定サブユニットは、
前記サンプルテキストのラベル付けされたテキスト文字を取得するための第２の取得モジュールと、
前記予測される語義特徴に対応する予測されるテキスト文字、及び前記サンプルテキストのラベル付けされたテキスト文字に従って、前記第２の損失値を計算して得るための第２の計算モジュールと、を含む請求項１６に記載の装置。
前記訓練ユニットは、
前記第１の損失値と前記第２の損失値との平均値を決定するための第３の決定サブユニットと、
前記平均値に基づいて訓練して前記テキスト認識モデルを得るための訓練サブユニットと、を含む請求項１３～１５のいずれか１項に記載の装置。
前記予測される語義特徴は、前記コンテキストエンハンスメントモジュールに基づいて前記サンプルテキストの語義特徴に対してマスク予測を行うことにより得られたものであり、
前記第２の損失値は、前記予測される語義特徴及び前記デコーディングモジュールに基づいて得られたものである請求項１３～１５のいずれか１項に記載の装置。
前記基本ネットワークは、さらに、コーディングモジュールを含み、
前記装置は、さらに、
取得されたサンプル画像を前記基本ネットワークの前記コーディングモジュールに入力するための第１の入力ユニットと、
前記視覚的特徴を出力するための第１の出力ユニットと、を含み、
前記訓練ユニットが、前記第１の損失値及び前記第２の損失値に従って前記コーディングモジュールのパラメータを調整し、前記テキスト認識モデルを得るためのものである請求項１３～１５のいずれか１項に記載の装置。
前記基本ネットワークは、さらに、テキスト埋め込みモジュールを含み、
前記装置は、さらに、
取得されたサンプルテキストを前記基本ネットワークの前記テキスト埋め込みモジュールに入力するための第２の入力ユニットと、
前記語義特徴を出力するための第２の出力ユニットと、を含み、
前記訓練ユニットが、前記第１の損失値及び前記第２の損失値に従って前記テキストめ込みモジュールのパラメータを調整し、前記テキスト認識モデルを得るためのものである請求項１３～１５のいずれか１項に記載の装置。
テキスト認識装置であって、
認識待ちの対象を取得するための取得ユニットであって、前記認識待ちの対象にはテキストが含まれ、前記認識待ちの対象が認識待ちの画像又は認識待ちのテキストである取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの対象に対してテキスト認識を行い、前記認識待ちの対象に対応するテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが請求項１～３のいずれか１項に記載の方法に基づいて得られたものであるテキスト認識装置。
前記認識待ちの対象が認識待ちの画像である場合、前記認識ユニットは、
前記認識待ちの画像に対して特徴抽出処理を行い、前記認識待ちの画像の視覚的特徴を得るための第１の抽出サブユニットと、
前記テキスト認識モデルを使用して、前記認識待ちの画像の視覚的特徴に基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像に対応するテキストコンテンツを得るための第１の認識サブユニットと、を含む請求項２２に記載の装置。
前記認識待ちの対象が認識待ちのテキストである場合、前記認識ユニットは、
前記認識待ちのテキストに対して特徴抽出処理を行い、前記認識待ちのテキストの語義特徴を得るための第２の抽出サブユニットと、
前記テキスト認識モデルを使用して、前記認識待ちのテキストの語義特徴に従って前記認識待ちのテキストに対してテキスト認識を行い、前記認識待ちのテキストに対応するテキストコンテンツを得るための第２の認識サブユニットと、を含む請求項２２に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサが請求項１～３のいずれか１項に記載の方法を実行できるか、前記少なくとも１つのプロセッサが請求項１０に記載の方法を実行できる電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令がコンピュータに請求項１～３のいずれか１項に記載の方法を実行させるためのものであるか、前記コンピュータ命令が前記コンピュータに請求項１０に記載の方法を実行させるためのものである非一時的な可読記憶媒体。
コンピュータプログラムであって、当該コンピュータプログラムがプロセッサにより実行されると、請求項１～３のいずれか１項に記載の方法のステップは実現されるか、当該コンピュータプログラムがプロセッサにより実行されると、請求項１０に記載の方法のステップは実現されるコンピュータプログラム。