JP2022177242A

JP2022177242A - テキスト認識モデルの訓練方法、テキスト認識方法及び装置

Info

Publication number: JP2022177242A
Application number: JP2022153452A
Authority: JP
Inventors: 成全章; Chengquan Zhang; 悦晨 ▲ユイ▼; Yuechen Yu; ▲ユイ▼林李; Yulin Li; 健健曹; Jianjian Cao; 夏孟欽; Xiameng Qin; ▲クン▼ 姚; Kun Yao; 鈞宇韓; Junyu Han; 經拓劉; Jingtuo Liu; 二鋭丁; Er Rui Ding; 井東王; Jingdong Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-22
Filing date: 2022-09-27
Publication date: 2022-11-30
Also published as: CN114399769B; CN115035538B; CN115035538A; KR20220122566A; CN114399769A

Abstract

【課題】テキスト認識の正確性及び信頼性を向上させるテキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供する。
【解決手段】認識待ちの画像に対してテキスト認識を行うテキスト認識モデルの訓練方法は、取得された第１のサンプル画像内の一部の画像に対してマスク予測を行い、第１のサンプル画像に対応する予測される完全な画像を得て、取得された第２のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得て、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、比較的強い画像視覚的推論能力及びテキスト語義推論能力を習得した事前訓練モデルを得て、その事前訓練モデルに従ってテキスト認識モデルを生成する。
【選択図】図１

Description

本開示は、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）技術の分野、具体的には、深層学習、コンピュータビジョン技術の分野に関し、光学式文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）などのシーンに適用でき、特に、テキスト認識モデルの訓練方法、テキスト認識方法及び装置に関する。

ＯＣＲ技術は、教育、金融、医療、交通及び保険など、様々な業界で広く注目及び応用されている。

関連技術において、ＯＣＲ技術と深層学習とを組み合わせてテキスト認識モデルを構築し、テキスト認識モデルに基づいて画像に対してテキスト認識を行うことができる。

しかしながら、テキスト認識モデルは、通常、視覚的情報に依存して、視覚的情報に基づいて画像内のテキストコンテンツを判別するため、認識の正確性が低いという欠陥がある。

本開示は、テキスト認識の信頼性を向上させるためのテキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供する。

第１の態様によれば、本開示は、テキスト認識モデルの訓練方法を提供し、前記方法は、
取得された第１のサンプル画像内の一部の画像に対してマスク予測を行い、前記第１のサンプル画像に対応する予測される完全な画像を得るステップと、
取得された第２のサンプル画像内の一部のテキストに対して前記マスク予測を行い、前記一部のテキストに対応する予測されるテキストコンテンツを得るステップと、
前記予測される完全な画像及び前記予測されるテキストコンテンツに従って訓練して事前訓練モデルを得て、前記事前訓練モデルに従ってテキスト認識モデルを生成するステップであって、前記テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものであるステップと、を含む。

第２の態様によれば、本開示は、テキスト認識方法を提供し、前記方法は、
認識待ちの画像を取得するステップであって、前記認識待ちの画像にはテキストが含まれるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが第１の態様に記載の方法に基づいて得られたものである。

第３の態様によれば、本開示は、テキスト認識モデルの訓練装置を提供し、前記装置は、
取得された第１のサンプル画像内の一部の画像に対してマスク予測を行い、前記第１のサンプル画像に対応する予測される完全な画像を得、
さらに、取得された第２のサンプル画像内の一部のテキストに対して前記マスク予測を行い、前記一部のテキストに対応する予測されるテキストコンテンツを得るための予測ユニットと、
前記予測される完全な画像及び前記予測されるテキストコンテンツに従って訓練することで事前訓練モデルを得るための訓練ユニットと、
前記事前訓練モデルに従ってテキスト認識モデルを生成するための生成ユニットであって、前記テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものである生成ユニットと、を含む。

第４の態様によれば、本開示は、テキスト認識装置を提供し、前記装置は、
認識待ちの画像を取得するための取得ユニットであって、前記認識待ちの画像にはテキストが含まれる取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが第１の態様に記載の方法に基づいて訓練されたものである。

第５の態様によれば、本開示は、電子機器を提供し、前記電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサが第１の態様又は第２の態様に記載の方法を実行できる。

第６の態様によれば、本開示は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータに第１の態様又は第２の態様に記載の方法を実行させるためのものである。

第７の態様によれば、本開示は、コンピュータプログラムを提供し、前記コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも１つのプロセッサが前記コンピュータプログラムを実行すると、電子機器が第１の態様又は第２の態様に記載の方法を実行する。

本開示に係る、マスク予測に基づいて第１のサンプル画像に対応する予測される完全な画像を得て、マスク予測に基づいて第２のサンプル画像内の一部のテキストの予測されるテキストコンテンツを得て、予測される完全な画像及び予測されるテキストコンテンツを組み合わせて事前訓練モデルを生成し、事前訓練モデルに基づいてテキスト認識モデルを生成する技術案によれば、事前訓練モデルは、比較的強い画像視覚的推論能力及びテキスト語義推論能力を習得することができるようになり、それにより、事前訓練モデルによって生成されたテキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の正確性及び信頼性を向上させる。

なお、この部分に記載されているコンテンツは、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の詳細の説明を通じて容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。

本開示の第１の実施例による概略図である。本開示の第２の実施例による概略図である。本開示の第３の実施例による概略図である。本開示の第４の実施例による概略図である。本開示の第５の実施例による概略図である。本開示の第６の実施例による概略図である。本開示の第７の実施例による概略図である。本開示の第８の実施例による概略図である。本開示の第９の実施例による概略図である。本開示の実施例のテキスト認識モデルの訓練方法及びテキスト認識方法を実現するための電子機器のブロック図である。

以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

ＯＣＲ技術及び深層学習を利用してテキスト認識モデルを構築するとき、「モジュール分離」の手段で実現されてもよいし、「エンドツーエンドモデル」の手段で実現されてもよい。

例示的に、「モジュール分離」の手段とは、テキスト検出モジュール、情報抽出モジュール、及びテキスト認識モジュールを構築して、３つのモジュールを組み合わせてテキスト認識モデルを構築することである。

「モジュール分離」の手段を利用する場合、各モジュールを予め構築し、各モジュールを組み合わせる必要があり、手順が比較的面倒で、効率が比較的低く、正確性が累積して重畳されるため、当該方法に基づいて構築されたテキスト認識モデルの認識の正確性が低くなるという欠陥は生じる。

例示的に、「エンドツーエンドモデル」の手段とは、入力端末から出力端末にかけて予測結果が得られ、例えば、入力端末で画像が入力されると、出力端末で画像の予測されるテキストコンテンツが得られる。

しかしながら、「エンドツーエンドモデル」の手段を利用するとき、データにラベル付けする必要があり、例えば、画像の実際のテキストコンテンツにラベル付けして、訓練を提供するためのデータは比較的有効であるため、訓練して得られたテキスト認識モデルの信頼性が低いという欠陥が生じる。

また、上記いずれかの方法に基づいて訓練して得られたテキスト認識モデルについて、通常、２種類の判断しか行われておらず、異なる垂直カテゴリのフィールド要件が異なる場合、テキスト認識モデル、特に分類用のチャネル数を再設計する必要があり、テキスト認識モデルを再利用できず再訓練する必要がある。

例えば、ＯＣＲ技術における画像文字検出モデル（ＥＡＳＴ）や、分割された文字検出モデル（ＤＢ）、テキスト検出器（ＬＯＭＯ）などは、一般的に、ドキュメント（ｔｅｘｔ）クラス及び非ドキュメントクラス（ｎｏｎ－ｔｅｘｔ）の２種類の判断にのみ使用できる。特定の垂直カテゴリの下でユーザが関心を持っているフィールドの識別要件を解決する必要がある場合、分類カテゴリの数を増やす必要がある。

いくつかの実施例では、カテゴリを検出して拡張することで訓練して、新たなテキスト認識モデルを取得し、例えば、元のテキスト認識モデルに基づき、フィールド分類のために追加の言語モデルを追加してもよい。

例えば、テキスト認識モデルはＯＣＲ技術におけるエンドツーエンドテキスト検出と認識（ＦＯＴＳ）、およびテキスト検出及び認識モデル（ＭａｓｋＴｅｘｔＳｐｏｔｔｅｒ）である場合、双方向エンコーダ表現（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ、ＢＥＲＴ）など、追加の言語モデルを追加する必要があり、それにより、新たなテキスト認識モデルが得られ、また、追加の言語モデルが増えるため、追加の訓練を増やす必要があり、これにより、訓練コストが高く、効率が低いなどの欠陥が生じる。

本開示の発明者は、上記問題の少なくとも１つを回避するために、創造的労働を通じて、「エンドツーエンドモデル」の手段を使用して訓練することで、事前訓練モデルを得て、すなわち、モデルベースに対してエンドツーエンドの事前訓練を行い、視覚的次元及び語義次元に基づいて事前訓練を行い、事前訓練して得られたベースに基づいてテキスト認識モデルを生成するという本開示の発明構想に思いついた。

本開示は、上記発明構想に基づき、テキスト認識モデルの訓練方法、テキスト認識方法及び装置を提供し、人工知能技術の分野、具体的には、深層学習、コンピュータビジョン技術の分野に関し、ＯＣＲなどのシーンに適用でき、テキスト認識モデルによるテキスト認識の信頼性の向上を向上させる。

図１は、本開示の第１の実施例による概略図であり、図１に示すように、本実施例により提供されるテキスト認識モデルの訓練方法は、以下のステップを含む。

Ｓ１０１では、取得された第１のサンプル画像内の一部の画像に対してマスク予測を行い、第１のサンプル画像に対応する予測される完全な画像を得る。

例示的に、本実施例の実行主体は、テキスト認識モデルの訓練装置（以下、訓練装置と略称）であってもよく、訓練装置は、サーバ（例えば、クラウドサーバ、又は、ローカルサーバ、又は、サーバクラスタ）であってもよいし、または、端末機器、コンピュータ、プロセッサ、チップなどであってもよく、本実施例は、それについて限定しない。

マスク予測とは、一部の画像又はテキストなどに対してマスク（ｍａｓｋ）処理（又はマスキング処理とも呼ばれる）を行い、ｍａｓｋ処理前、すなわち、マスキング処理前の画像又はテキストなどの完全な画像又はテキストなどを復元することである。

対応して、当該ステップは、テキストが含まれる第１のサンプル画像を取得し、第１のサンプル画像の一部の画像に対してｍａｓｋ処理を行い、ｍａｓｋ処理後の画像に基づいて完全な第１のサンプル画像（すなわち、予測される完全な画像）を予測するステップとして理解できる。

つまり、当該ステップは、画像再構成タスク（ｍａｓｋｉｍａｇｅｍｏｄｅｌｌｉｎｇ）として理解でき、マスク予測を組み合わせて第１のサンプル画像に対して画像再構成を行うステップとして理解できる。

Ｓ１０２では、取得された第２のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得る。

上記分析に基づき、当該ステップは、テキストが含まれる第２のサンプル画像を取得し、第２のサンプル画像内の一部のテキストに対してｍａｓｋ処理を行い、ｍａｓｋ処理後のテキストに基づいてｍａｓｋ処理された一部のテキストのテキストコンテンツ（すなわち、予測されるテキストコンテンツ）を予測するステップとして理解できる。

つまり、当該ステップは、テキスト再構成タスク（ｍａｓｋＯＣＲｍｏｄｅｌｌｉｎｇ）として理解でき、マスク予測を組み合わせて第２のサンプル画像に対してテキスト再構成を行い、具体的には、第２のサンプル画像内の一部のテキストを再構成するステップとして理解できる。

なお、第１のサンプル画像と第２のサンプル画像は同じ画像であってもよいし、異なる画像であってもよく、本実施例は、それについて限定しない。

Ｓ１０３では、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、事前訓練モデルを得て、事前訓練モデルに従ってテキスト認識モデルを生成する。

テキスト認識モデルは、認識待ちの画像に対してテキスト認識を行うためのものである。

事前訓練モデルは、テキスト認識モデルのベース又はテキスト認識モデルの隠れ層として理解できる。

上記分析に基づき、事前訓練モデルは、画像再構成及びテキスト再構成に基づいて訓練して得られたものであることがわかり、それにより、事前訓練モデルは、比較的強い画像視覚的推論能力及びテキスト語義推論能力を習得することができるようになり、事前訓練モデルに基づいて生成されたテキスト認識モデルは、正確性及び信頼性が高い。

本実施例では、エンドツーエンドのモデル訓練を実現でき、すなわち、第１のサンプル画像及び第２のサンプル画像に基づいてそれぞれに対応する予測結果を出力でき、例えば、第１のサンプル画像に対応する予測結果が予測される完全な画像で、第２のサンプル画像に対応する予測結果が予測されるテキストコンテンツである場合、その他の手順、例えば、手動で又はＯＣＲ技術を利用して第２のサンプル画像に対してテキスト検出を行い、テキストを得る手順を追加する必要がないため、訓練効率は向上し、訓練リソース及びコストは節約される。

上記分析に基づき、本開示の実施例は、テキスト認識モデルの訓練方法を提供し、当該方法は、以下のステップを含む。取得された第１のサンプル画像内の一部の画像に対してマスク予測を行い、第１のサンプル画像に対応する予測される完全な画像を得て、取得された第２のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得て、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、事前訓練モデルを得て、事前訓練モデルに従ってテキスト認識モデルを生成し、テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものであることがわかる。本実施例では、マスク予測に基づいて第１のサンプル画像に対応する予測される完全な画像を得て、マスク予測に基づいて第２のサンプル画像内の一部のテキストの予測されるテキストコンテンツを得て、予測される完全な画像及び予測されるテキストコンテンツを組み合わせて事前訓練モデルを生成し、事前訓練モデルに基づいてテキスト認識モデルを生成する技術的特徴により、事前訓練モデルは、比較的強い画像視覚的推論能力及びテキスト語義推論能力を習得することができるようになり、それにより、事前訓練モデルによって生成されたテキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の正確性及び信頼性を向上させる。

図２は、本開示の第２の実施例による概略図であり、図２に示すように、本実施例により提供されるテキスト認識モデルの訓練方法は、以下のステップを含む。

Ｓ２０１では、ターゲット対象を取得する。

ターゲット対象は、第１のサンプル画像及び第２のサンプル画像を含む。

煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しないことを理解すべきである。

Ｓ２０２では、ターゲット対象のうちの一部の対象をランダムにマスキングし、ターゲット対象のうちのマスキングされていない対象に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得る。

ターゲット対象が第１のサンプル画像である場合、ターゲット対象のうちの一部の対象が一部の画像であり、予測結果が予測される完全な画像である。

ターゲット対象が第２のサンプル画像である場合、ターゲット対象のうちの一部の対象が一部のテキストであり、予測結果が予測されるテキストコンテンツである。

いくつかの実施例では、ターゲット対象のうちのマスキングされていない対象に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るステップは、以下のステップを含む。

第１のステップでは、ターゲット対象のうちのマスキングされていない対象に対応する対象特徴を抽出し、第１の対象特徴を得る。

第２のステップでは、第１の対象特徴に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得る。

ターゲット対象が第１のサンプル画像である場合、第１の対象特徴が第１の視覚的特徴である。ターゲット対象が第２のサンプル画像である場合、第１の対象特徴が第１の語義特徴である。

Ｓ２０３では、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、事前訓練モデルを得て、事前訓練モデルに従ってテキスト認識モデルを生成する。

以下、本開示の実現原理をより深く理解できるようにするために、図３を参照して上記実施例（図１及び図２に示される実施例）についてさらに詳細に説明する。

図３は、本開示の第３の実施例による概略図であり、図３に示すように、本実施例により提供されるテキスト認識モデルの訓練方法は、以下のステップを含む。

Ｓ３０１では、第１のサンプル画像を取得する。

同様に、煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しない。

Ｓ３０２では、第１のサンプル画像内の一部の画像をランダムにマスキングする。

ネットワークモデルの訓練のプロセスは、通常、反復的な訓練プロセスであり、本実施例では、反復的な訓練は、それぞれ、第１のサンプル画像の一部の画像をランダムにマスキングする訓練であるため、第１のサンプル画像の数が１つであってもよく、当然ながら、第１のサンプル画像の数が複数であってもよいことを理解すべきであり、本実施例は、それについて限定しない。

Ｓ３０３では、第１のサンプル画像のうちのマスキングされていない画像に従って、第１のサンプル画像のうちのマスキングされた一部の画像を予測し、予測される完全な画像を得る。

例示的に、第１のサンプル画像をランダムにマスキングした後、第１のサンプル画像内の一部の画像がマスキングされたものであり、他方の画像がマスキングされていないものであると、マスキングされていない画像に基づいて完全な第１のサンプル画像（すなわち、予測される完全な画像）を決定してもよい。

本実施例では、「ランダムなマスキング＋予測」の手段を利用して、予測される完全な画像を決定すると、訓練中の不確実性を高めることができ、それにより、訓練して得られた事前訓練モデルによる完全な画像の復元の信頼性は向上する。

Ｓ３０２～Ｓ３０３は、マスクされたオートエンコーダ（ＭＡＥ）に基づいて実現できる。つまり、第１のサンプル画像をマスクされたオートエンコーダに入力し、予測される完全な画像を出力することができる。

いくつかの実施例では、Ｓ３０３は、以下のステップを含んでもよい。

第１のステップでは、第１のサンプル画像のうちのマスキングされていない画像に対応する視覚的特徴を抽出し、第１の視覚的特徴を得る。

視覚的特徴は、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などを含み、ここで一々例示しない。

対応して、第１の視覚的特徴とは、第１のサンプル画像のうちのマスキングされていない画像に対応する、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などの特徴である。

第２のステップでは、第１の視覚的特徴に従って、第１のサンプル画像のうちのマスキングされた一部の画像を予測し、予測される完全な画像を得る。

本実施例では、マスキングされていない画像に対応する、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などの視覚的特徴に基づき、予測される完全な画像を得るステップは、視覚的コンテキストに基づいて予測される完全な画像を得て、訓練して視覚的手がかりのコンテキスト知識学習を完了することができる事前訓練モデルを得るステップに相当する。

いくつかの実施例では、第２のステップは、以下のサブステップを含んでもよい。

第１のサブステップでは、第１の視覚的特徴に従って、第１のサンプル画像のうちのマスキングされた一部の画像に対応する視覚的特徴を予測し、第２の視覚的特徴を得る。

例示的に、上記分析に基づき、当該サブステップは、マスキングされていない画像に対応する、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などの視覚的特徴に従って、マスキングされた一部の画像に対応する、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などの視覚的特徴を予測して得るステップとして理解できる。

第２のサブステップでは、第２の視覚的特徴に従って、第１のサンプル画像のうちのマスキングされた一部の画像を決定する。

例示的に、マスキングされた一部の画像に対応する、テクスチャ特徴、輪郭特徴、カラー特徴、及び形状特徴などの視覚的特徴を得た後、当該視覚的特徴に基づいてマスキングされた一部の画像を補足及び修復してもよい。

第３のサブステップでは、第１のサンプル画像のうちのマスキングされていない画像、及び決定された第１のサンプル画像のうちのマスキングされた一部の画像に従って、予測される完全な画像を生成する。

上記分析に基づき、マスキングされた一部の画像を補足及び修復した後、マスキングされた一部の画像が復元され、マスキングされていない一部の画像は、復元された、マスキングされた一部の画像と継ぎ合わされ、予測される完全な画像は得られ、すなわち、第１のサンプル画像が復元され、予測される完全な画像が第１のサンプル画像と高度に適合するようになり、予測される完全な画像の正確性及び信頼性は向上する。

Ｓ３０４では、第２のサンプル画像を取得する。

上記分析に基づき、第１のサンプル画像及び第２のサンプル画像は同じ画像であってもよいことがわかり、対応して、第１のサンプル画像及び第２のサンプル画像は同じ画像である場合、当該ステップを省略してもよい。

Ｓ３０５では、第２のサンプル画像内の一部のテキストをランダムにマスキングする。

同様に、ネットワークモデルの訓練のプロセスは、通常、反復的な訓練プロセスであり、本実施例では、反復的な訓練は、それぞれ、第２のサンプル画像の一部のテキストをランダムにマスキングする訓練であるため、第２のサンプル画像の数が１つであってもよく、当然ながら、第２のサンプル画像の数が複数であってもよく、本実施例は、それについて限定しない。

例えば、第２のサンプル画像内の一部の単語又は一部の文などをランダムにマスキングしてもよい。

Ｓ３０６では、第２のサンプル画像のうちのマスキングされていないテキストに従って、第２のサンプル画像のうちのマスキングされた一部のテキストを予測し、予測されるテキストコンテンツを得る。

例示的に、第２のサンプル画像をランダムにマスキングした後、第２のサンプル画像内の一部のテキストがマスキングされたものであり、他方のテキストがマスキングされていないであると、マスキングされていないテキストに基づいてマスキングされた一部のテキストのテキストコンテンツ（すなわち、予測されるテキストコンテンツ）を決定してもよい。

本実施例では、「ランダムなマスキング＋予測」の手段を利用して、テキストコンテンツを決定すると、訓練中の不確実性を高めることができ、それにより、訓練して得られた事前訓練モデルによる完全な画像の復元の信頼性は向上する。

Ｓ３０５～Ｓ３０６は、マスクされた言語モデル（ＭａｓｋｅｄＬａｎｇｕａｇｅＭｏｄｅｌ、ＭＬＭ）に基づいて実現できる。つまり、第２のサンプル画像をマスクされた言語モデルに入力し、予測されるテキストコンテンツを出力することができる。

いくつかの実施例では、Ｓ３０６は、以下のステップを含んでもよい。

第１のステップでは、第２のサンプル画像のうちのマスキングされていないテキストに対応する語義特徴を抽出し、第１の語義特徴を得る。

語義特徴とは、各文字列間の論理的関係に係る特徴である。対応して、第１の語義特徴は、マスキングされていないテキストに含まれた各文字列間の論理的関係に係る特徴として理解されてもよいし、マスキングされていないテキスト内の各文字（文字及び／又は単語）間の関連関係に係る特徴として理解されてもよい。

第２のステップでは、第１の語義特徴に従って、第２のサンプル画像のうちのマスキングされた一部のテキストを予測し、予測されるテキストコンテンツを得る。

本実施例では、マスキングされていないテキストに対応する各文字列間の論理的関係などの語義特徴に基づき、予測されるテキストコンテンツを得るステップは、語義コンテキストに基づいて予測されるテキストコンテンツを得て、訓練して語義手がかりのコンテキスト知識学習を完了することができる事前訓練モデルを得るステップに相当する。

第１のサブステップでは、第１の語義特徴に従って、第２のサンプル画像のうちのマスキングされた一部のテキストに対応する語義特徴を予測し、第２の語義特徴を得る。

例示的に、上記分析に基づき、当該サブステップは、マスキングされていないテキストに対応する、各文字列間の論理的関係に係る特徴などの語義特徴に従って、マスキングされた一部のテキストに対応する、各文字列間の論理的関係に係る特徴などの語義特徴を予測して得るステップとして理解できる。

第２のサブステップでは、第２の語義特徴に従って、予測されるテキストコンテンツを生成する。

例示的に、マスキングされていないテキストに対応する、各文字列間の論理的関係に係る特徴などの語義特徴を得た後、当該語義特徴に基づいてマスキングされた一部のテキストの語義特徴を補足及び修復してもよい。

上記分析に基づき、マスキングされた一部のテキストの語義特徴を補足及び修復した後、マスキングされた一部のテキストの語義特徴は復元され、当該語義特徴に対応するテキストコンテンツ（すなわち、予測されるテキストコンテンツ）は決定でき、それにより、予測されるテキストコンテンツはマスキングされた一部のテキストのテキストコンテンツと高度に適合するようになり、予測されるテキストコンテンツの正確性及び信頼性は向上する。

Ｓ３０７では、予測される完全な画像及び予測されるテキストコンテンツに従って訓練することで、事前訓練モデルを得て、事前訓練モデルに従ってテキスト認識モデルを生成する。

図４は、本開示の第４の実施例による概略図であり、図４に示すように、本実施例により提供されるテキスト認識モデルの訓練方法は、以下のステップを含む。

Ｓ４０１では、取得された第１のサンプル画像内の一部の画像に対してマスク予測を行い、第１のサンプル画像に対応する予測される完全な画像を得る。

Ｓ４０２では、取得された第２のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得る。

Ｓ４０３では、予測される完全な画像及び予測されるテキストコンテンツに従って訓練して事前訓練モデルを得る。

例示的に、予測される完全な画像及び予測されるテキストコンテンツに基づき、基本ネットワークモデルを訓練し、事前訓練モデルを得てもよい。

例えば、予測される完全な画像及び予測されるテキストコンテンツに基づき、基本ネットワークモデルのモデルパラメータを調整し、事前訓練モデルを得てもよい。

基本ネットワークモデルは、ビジョントランスフォーマー（ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ、ＶｉＴ）であってもよいし、畳み込みニューラルネットワークモデル（ＣＮＮ）などのニューラルネットワークモデル（Ｂａｃｋｂｏｎｅ）であってもよいし、他のネットワークモデルであってもよく、本実施例は、それについて限定しない。

Ｓ４０４では、認識待ちのタスク及び訓練画像を取得する。

訓練画像にはテキストが含まれる。

認識待ちのタスクは、テキスト認識モデルの認識必要に応じて決定されたものであってもよく、例えば、認識待ちのタスクは文字検出タスクであってもよいし、テキスト認識タスクであってもよいし、フィールド分類タスクであってもよいし、その他の認識タスクであってもよく、ここで一々例示しない。

Ｓ４０５では、認識待ちのタスク及び訓練画像に従って、事前訓練モデルを訓練し、テキスト認識モデルを得る。

上記分析に基づき、事前訓練モデルは、視覚的手がかりのコンテキスト知識学習を完了するモデルもあれば、語義手がかりのコンテキスト知識学習を完了するモデルもあり、すなわち、事前訓練モデルは、マルチモーダル特徴抽出ベースであるため、事前訓練モデルに基づいて訓練して得られたテキスト認識モデルは、視覚的手がかりに基づくコンテキスト知識認識能力もあれば、語義手がかりに基づくコンテキスト知識認識能力もあることがわかる。

認識待ちのタスクに基づいて事前訓練モデルを訓練することにより、さまざまな認識必要に応じて訓練して対応するテキスト認識モデルを得ることができ、それにより、訓練して得られたテキスト認識モデルの柔軟性及び多様性を向上することができ、さまざまな認識シーンで広く使用され、さまざまな認識必要を満たすことができる。

いくつかの実施例では、事前訓練モデル（すなわち、マルチモーダル特徴抽出ベース）をテキスト検出ネットワークモデル（ＥｆｆｉｃｉｅｎｔａｎｄＡｃｃｕｒａｃｙＳｃｅｎｅＴｅｘｔ、ＥＡＳＴ）、分割に基づく文字検出ネットワーク（ＤｉｆｆｅｒｅｎｔｉａｂｌｅＢｉｎａｒｉｚａｔｉｏｎ、ＤＢ）、テキスト検出ネットワーク（ＬｏｏｋＭｏｒｅＴｈａｎＯｎｃｅ、ＬＯＭＯ）などにロードして、テキスト認識モデルによる文字検出タスクを実現することができる。また、例えば事前訓練モデルを畳み込みリカレントニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＲＮＮ）にロードすることもでき、畳み込みリカレントニューラルネットワークは、コネクショニスト時系列分類（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ、ＣＴＣ）デコード方法を使用してもよいし、注意メカニズム（Ａｔｔｅｎｔｉｏｎ）デコード方法を使用してもよいし、トランスフォーマー（ｔｒａｎｓｆｏｒｍｅｒ）デコード方法などを使用してもよく、それによってテキスト認識モデルによるテキスト認識タスクを実現することもできる。さらに、例えば、事前訓練モデルを完全接続ネットワークモデル（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ、ＦＣ）、又は、畳み込みニューラルネットワークモデル（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）にロードして、テキスト認識モデルによるフィールド分類タスクを実現することもできる。

いくつかの実施例では、Ｓ４０５は、以下のステップを含んでもよい。

第１のステップでは、訓練画像を事前訓練モデルに入力し、訓練画像に対応するマルチモーダル特徴マップ（Ｍｕｌｔｉ－ｍｏｄａｌＦｅａｔｕｒｅＭａｐｓ）を得る。

上記分析に基づき、マルチモーダル特徴マップは、視覚的次元の特徴や語義次元の特徴など、訓練画像の複数の次元の特徴をキャラクタリゼーションするためのものである。例えば、マルチモーダル特徴マップは、訓練画像に対応する画像特徴及び語義特徴をキャラクタリゼーションするために使用できる。

いくつかの実施例では、マルチモーダル特徴マップは、（ｄ＊ｈ＊ｗ）として示されてもよく、ｄが特徴チャネル数を示し、ｈ及びｗがマルチモーダル特徴マップの高さ及び幅を示す。

第２のステップでは、認識待ちのタスク及びマルチモーダル特徴マップに従って、テキスト認識モデルを生成する。

本実施例では、マルチモーダル特徴マップは、複数の次元から訓練画像の特徴をキャラクタリゼーションすることができ、訓練画像の視覚的特徴をキャラクタリゼーションすることもでき、訓練画像の語義特徴をキャラクタリゼーションすることもでき、キャラクタリゼーションされた視覚的特徴及び語義特徴は、信頼性及び全面性が高いため、マルチモーダル特徴マップに基づいて生成されたテキスト認識モデルは、信頼性及び正確性が高い。

第１のサブステップでは、マルチモーダル特徴マップに従って、認識待ちのタスクでの訓練画像の予測される認識結果を予測する。

例示的に、マルチモーダル特徴マップを畳み込みリカレントニューラルネットワークに入力し、予測される認識結果（予測テキスト結果など）を得てもよい。

第２のサブステップでは、訓練画像の予め設定された実際の認識結果、及び予測される認識結果に従って、テキスト認識モデルを構築する。

実際の認識結果は、訓練画像を予めラベル付けして得られたものであってもよく、ラベル付け方法について、本実施例は、限定せず、手動によるラベル付け方法であってもよいし、自動的なラベル付け方法であってもよい。

例示的に、実際の認識結果と予測される認識結果との間の損失値を計算してもよい。損失値が予め設定された損失しきい値より大きい（又は等しい）場合、反復訓練を行うが、逆に、損失値が予め設定された損失しきい値より小さい場合、又は、反復回数が予め設定された反復回数に達した場合、テキスト認識モデルの構築を完了させる。

例えば、列車の切符に対してテキスト認識を行うためのテキスト認識モデルを訓練する必要がある場合、訓練画像が列車の切符画像であり、列車の切符画像を事前訓練モデルに入力し、列車の切符画像のマルチモーダル特徴マップを出力し、マルチモーダル特徴マップを畳み込みリカレントニューラルネットワークなどに入力し、列車の切符画像内の「日付、列車番号、座席番号」などの予測される認識結果を出力し、当該予測される認識結果を予めラベル付けされた「日付、列車番号、座席番号」（すなわち、実際の認識結果）と比較して、訓練してテキスト認識モデルを得て、訓練して得られたテキスト認識モデルは、認識待ちの切符画像内の「日付、列車番号、座席番号」のテキストコンテンツを認識するために使用できる。

図５は、本開示の第５の実施例による概略図であり、図５に示すように、本実施例により提供されるテキスト認識方法は、以下のステップを含む。

Ｓ５０１では、認識待ちの画像を取得する。

認識待ちの画像にはテキストが含まれる。

例示的に、本実施例の実行主体は、テキスト認識装置であってもよく、テキスト認識装置は、訓練装置と同じ装置であってもよいし、異なる装置であってもよく、本実施例は、それについて限定しない。

Ｓ５０２では、予め訓練されたテキスト認識モデルに基づいて認識待ちの画像に対してテキスト認識を行い、認識待ちの画像内のテキストコンテンツを得る。

テキスト認識モデルは、上記いずれか１つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。

いくつかの実施例では、Ｓ５０２は、以下のステップを含んでもよい。

第１のステップでは、テキスト認識モデルに従って認識待ちの画像のマルチモーダル特徴マップを決定する。

第２のステップでは、マルチモーダル特徴マップに従って認識待ちの画像内のテキストコンテンツを決定する。

認識待ちの画像のマルチモーダル特徴マップは、認識待ちの画像の視覚的特徴及び語義特徴をキャラクタリゼーションするためのものである。

例示的に、上記分析に基づき、テキスト認識モデルは、事前訓練モデルを含み、テキスト認識モデルは、事前訓練モデルを畳み込みリカレントニューラルネットワークにロードし、訓練して得られたものであり、すなわち、テキスト認識モデルは、さらに、畳み込みリカレントニューラルネットワークを含むと、本実施例は、
認識待ちの画像を事前訓練モデルに入力し、マルチモーダル特徴マップを出力し、マルチモーダル特徴マップを畳み込みリカレントニューラルネットワークに入力し、認識待ちの画像内のテキストコンテンツを出力する実施例として理解できる。

図６は、本開示の第６の実施例による概略図であり、図６に示すように、本実施例により提供されるテキスト認識モデルの訓練装置６００は、
取得された第１のサンプル画像内の一部の画像に対してマスク予測を行い、第１のサンプル画像に対応する予測される完全な画像を得、
さらに、取得された第２のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得るための予測ユニット６０１と、
予測される完全な画像及び予測されるテキストコンテンツに従って訓練して事前訓練モデルを得るための訓練ユニット６０２と、
事前訓練モデルに従ってテキスト認識モデルを生成するための生成ユニット６０３であって、テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものである生成ユニット６０３と、を含む。

図７は、本開示の第７の実施例による概略図であり、図７に示すように、本実施例により提供されるテキスト認識モデルの訓練装置７００は、予測ユニット７０１を含む。

予測ユニット７０１は、取得された第１のサンプル画像内の一部の画像に対してマスク予測を行い、第１のサンプル画像に対応する予測される完全な画像を得るためのものである。

予測ユニット７０１は、さらに、取得された第２のサンプル画像内の一部のテキストに対してマスク予測を行い、一部のテキストに対応する予測されるテキストコンテンツを得るためのものである。

図７を参照して、いくつかの実施例では、予測ユニット７０１は、
ターゲット対象のうちの一部の対象をランダムにマスキングするためのマスキングサブユニット７０１１と、
ターゲット対象のうちのマスキングされていない対象に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るための予測サブユニット７０１２と、を含む。

ターゲット対象が第１のサンプル画像である場合、ターゲット対象のうちの一部の対象が一部の画像であり、予測結果が予測される完全な画像であるが、ターゲット対象が第２のサンプル画像である場合、ターゲット対象のうちの一部の対象が一部のテキストであり、予測結果が予測されるテキストコンテンツである。

いくつかの実施例では、予測サブユニット７０１２は、
ターゲット対象のうちのマスキングされていない対象に対応する対象特徴を抽出し、第１の対象特徴を得るための抽出モジュールと、
第１の対象特徴に従って、ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るための予測モジュールと、を含む。

ターゲット対象が第１のサンプル画像である場合、第１の対象特徴が第１の視覚的特徴であるが、ターゲット対象が第２のサンプル画像である場合、第１の対象特徴が第１の語義特徴である。

いくつかの実施例では、ターゲット対象が第１のサンプル画像であり、前記第１の対象特徴が第１の視覚的特徴であり、予測モジュールは、
第１の視覚的特徴に従って、第１のサンプル画像のうちのマスキングされた一部の画像に対応する視覚的特徴を予測し、第２の視覚的特徴を得るための第１の予測サブモジュールと、
第２の視覚的特徴に従って、第１のサンプル画像のうちのマスキングされた一部の画像を決定するための第１の決定サブモジュールと、
第１のサンプル画像のうちのマスキングされていない画像、及び決定された第１のサンプル画像のうちのマスキングされた一部の画像に従って、予測される完全な画像を生成するための第１の生成サブモジュールと、を含む。

いくつかの実施例では、ターゲット対象が第２のサンプル画像であり、前記第１の対象特徴が第１の語義特徴であり、予測モジュールは、
第１の語義特徴に従って、第２のサンプル画像のうちのマスキングされた一部のテキストに対応する語義特徴を予測し、第２の語義特徴を得るための第２の予測サブモジュールと、
第２の語義特徴に従って、予測されるテキストコンテンツを生成するための第２の生成サブモジュールと、を含む。

テキスト認識モデルの訓練装置７００は、訓練ユニット７０２及び生成ユニット７０３を更に含む。
訓練ユニット７０２は、予測される完全な画像及び予測されるテキストコンテンツに従って訓練して事前訓練モデルを得るためのものである。

生成ユニット７０３は、事前訓練モデルに従ってテキスト認識モデルを生成するためのものであり、テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものである。

図７を参照して、いくつかの実施例では、生成ユニット７０３は、
認識待ちのタスク及び訓練画像を取得するための取得サブユニット７０３１であって、訓練画像にはテキストが含まれる取得サブユニット７０３１と、
認識待ちのタスク及び訓練画像に従って、事前訓練モデルを訓練し、テキスト認識モデルを得るための訓練サブユニット７０３２と、を含む。

いくつかの実施例では、訓練サブユニット７０３２は、
訓練画像を事前訓練モデルに入力し、訓練画像に対応するマルチモーダル特徴マップを得るための入力モジュールと、
認識待ちのタスク及びマルチモーダル特徴マップに従って、テキスト認識モデルを生成するための生成モジュールと、を含む。

いくつかの実施例では、生成モジュールは、
マルチモーダル特徴マップに従って、認識待ちのタスクでの訓練画像の予測される認識結果を予測するための第３の予測サブモジュールと、
訓練画像の予め設定された実際の認識結果、及び予測される認識結果に従って、テキスト認識モデルを構築するための構築サブモジュールと、を含む。

図８は、本開示の第８の実施例による概略図であり、図８に示すように、本実施例により提供されるテキスト認識装置８００は、
認識待ちの画像を取得するための取得ユニット８０１であって、認識待ちの画像にはテキストが含まれる取得ユニット８０１と、
予め訓練されたテキスト認識モデルに基づいて認識待ちの画像に対してテキスト認識を行い、認識待ちの画像内のテキストコンテンツを得るための認識ユニット８０２と、を含み、
テキスト認識モデルは、上記いずれか１つの実施例に記載のテキスト認識モデルの訓練方法に基づいて得られたものである。

図８を参照して、いくつかの実施例では、認識ユニット８０２は、
テキスト認識モデルに従って認識待ちの画像のマルチモーダル特徴マップを決定するための第１の決定ユニット８０２１と、
マルチモーダル特徴マップに従って認識待ちの画像内のテキストコンテンツを決定するための第２の決定ユニット８０２２と、を含み、
認識待ちの画像のマルチモーダル特徴マップは、認識待ちの画像の視覚的特徴及び語義特徴をキャラクタリゼーションするためのものであることがわかる。

図９は、本開示の第９の実施例による概略図であり、図９に示すように、本開示における電子機器９００は、プロセッサ９０１とメモリ９０２とを含む。

メモリ９０２は、プログラムを記憶するためのものであり、メモリ９０２は、ランダムアクセスメモリ（ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭと略称）、スタティックランダムアクセスメモリ（ｓｔａｔｉｃｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＳＲＡＭと略称）、ダブルデータレートの同期ダイナミックランダムアクセスメモリ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＤＤＲＳＤＲＡＭと略称）などの揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含んでもよいし、メモリは、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などの不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含んでもよい。メモリ９０２は、コンピュータプログラム（例えば、上記方法を実現するためのアプリケーションプログラムや機能モジュールなど）やコンピュータ命令などを記憶するためのものであり、上記のコンピュータプログラムやコンピュータ命令などは、領域別に１つ又は複数のメモリ９０２内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ９０１によって呼び出されることができる。

上記のコンピュータプログラムやコンピュータ命令などは、領域別に１つ又は複数のメモリ９０２内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ９０１によって呼び出されることができる。

プロセッサ９０１は、メモリ９０２内に記憶されたコンピュータプログラムを実行するためのものであり、それによって上記実施例における方法の各ステップは実現される。

具体的には、前述した方法の実施例の関連説明を参照することができる。

プロセッサ９０１とメモリ９０２は独立した構造であってもよいし、集積された集積構造であってもよい。プロセッサ９０１とメモリ９０２は独立した構造である場合、メモリ９０２とプロセッサ９０１は、バス９０３を介して結合されて接続されることができる。

本実施例に係る電子機器は、上記方法における技術案を実行することができ、その具体的な実現プロセス及び技術的原理が同じであるため、ここで繰り返して説明しない。

本開示に係る技術案において、関連するユーザの個人情報の収集や、保存、使用、加工、伝送、提供、公開などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。

本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラムを提供する。

本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも１つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか１つの実施例により提供される技術案を実行する。

図１０は、本開示の実施例を実施するために使用可能な例示的な電子機器１０００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実施を制限することを意図したものではない。

図１０に示すように、機器１０００は、計算ユニット１００１を含み、当該計算ユニット１００１は、読み取り専用メモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラム、または、記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。ＲＡＭ１００３には、さらに、機器１０００の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット１００１、ＲＯＭ１００２及びＲＡＭ１００３は、バス１００４を介して接続される。入力／出力（Ｉ／Ｏ）インタフェース１００５も、バス１００４に接続される。

キーボードやマウスなどの入力ユニット１００６と、さまざまなタイプのモニタやスピーカーなどの出力ユニット１００７と、磁気ディスクや光ディスクなどの記憶ユニット１００８と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット１００９と、を含む、機器１０００における複数のコンポーネントは、Ｉ／Ｏインタフェース１００５に接続される。通信ユニット１００９は、機器１０００がインターネットなどのコンピュータネットワーク及び／又はさまざまな電気通信デットワークを介して他の機器と情報／データを交換することを可能にさせる。

計算ユニット１００１は、処理能力や計算能力を有するさまざまな汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット１００１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、さまざまな専用な人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット１００１は、テキスト認識モデルの訓練方法及びテキスト認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、テキスト認識モデルの訓練方法及びテキスト認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット１００８などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ＲＯＭ１００２及び／又は通信ユニット１００９を介して機器１０００にロード及び／又はインストールされることができる。コンピュータプログラムは、ＲＡＭ１００３にロードされて計算ユニット１００１により実行されると、上記に記載のテキスト認識モデルの訓練方法及びテキスト認識方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット１００１は、他の任意の適当な手段（例えば、ファームウェアに頼る）を用いてテキスト認識モデルの訓練方法及びテキスト認識方法を実行するように構成されることができる。

本明細書において、上記に記載のシステム及び技術的さまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、複雑なプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、１つ又は複数のコンピュータプログラムに実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本開示に係る方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び／又はブロック図に示される機能／操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。

本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、１つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとする）、或いは、ミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）、或いは、フロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの実例は、ローカルネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアント端末とサーバとを含むことができる。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末－サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａＬＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称）に存在する管理が難しく、ビジネスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要素に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

テキスト認識モデルの訓練方法であって、
取得された第１のサンプル画像内の一部の画像に対してマスク予測を行い、前記第１のサンプル画像に対応する予測される完全な画像を得るステップと、
取得された第２のサンプル画像内の一部のテキストに対して前記マスク予測を行い、前記一部のテキストに対応する予測されるテキストコンテンツを得るステップと、
前記予測される完全な画像及び前記予測されるテキストコンテンツに従って訓練して事前訓練モデルを得て、前記事前訓練モデルに従ってテキスト認識モデルを生成するステップであって、前記テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものであるステップと、を含むことを特徴とするテキスト認識モデルの訓練方法。
前記マスク予測は、
ターゲット対象のうちの一部の対象をランダムにマスキングするステップと、
前記ターゲット対象のうちのマスキングされていない対象に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るステップと、を含み、
前記ターゲット対象が第１のサンプル画像である場合、前記ターゲット対象のうちの一部の対象が一部の画像であり、前記予測結果が前記予測される完全な画像であるが、前記ターゲット対象が第２のサンプル画像である場合、前記ターゲット対象のうちの一部の対象が一部のテキストであり、前記予測結果が前記予測されるテキストコンテンツである請求項１に記載の方法。
前記ターゲット対象のうちのマスキングされていない対象に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るステップは、
前記ターゲット対象のうちのマスキングされていない対象に対応する対象特徴を抽出し、第１の対象特徴を得るステップと、
前記第１の対象特徴に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、前記予測結果を得るステップと、を含み、
前記ターゲット対象が第１のサンプル画像である場合、前記第１の対象特徴が第１の視覚的特徴であるが、前記ターゲット対象が第２のサンプル画像である場合、前記第１の対象特徴が第１の語義特徴である請求項２に記載の方法。
前記ターゲット対象が第１のサンプル画像であり、前記第１の対象特徴が第１の視覚的特徴であり、前記第１の対象特徴に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、前記予測結果を得るステップは、
前記第１の視覚的特徴に従って、前記第１のサンプル画像のうちのマスキングされた一部の画像に対応する視覚的特徴を予測し、第２の視覚的特徴を得るステップと、
前記第２の視覚的特徴に従って、前記第１のサンプル画像のうちのマスキングされた一部の画像を決定するステップと、
前記第１のサンプル画像のうちのマスキングされていない画像、及び決定された前記第１のサンプル画像のうちのマスキングされた一部の画像に従って、前記予測される完全な画像を生成するステップと、を含む請求項３に記載の方法。
前記ターゲット対象が第２のサンプル画像であり、前記第１の対象特徴が第１の語義特徴であり、前記第１の対象特徴に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、前記予測結果を得るステップは、
前記第１の語義特徴に従って、前記第２のサンプル画像のうちのマスキングされた一部のテキストに対応する語義特徴を予測し、第２の語義特徴を得るステップと、
前記第２の語義特徴に従って、前記予測されるテキストコンテンツを生成するステップと、を含む請求項３又は４に記載の方法。
前記事前訓練モデルに従ってテキスト認識モデルを生成するステップは、
認識待ちのタスク及び訓練画像を取得するステップであって、前記訓練画像にはテキストが含まれるステップと、
前記認識待ちのタスク及び前記訓練画像に従って、前記事前訓練モデルを訓練して、前記テキスト認識モデルを得るステップと、を含む請求項１～４のいずれか１項に記載の方法。
前記認識待ちのタスク及び前記訓練画像に従って、前記事前訓練モデルを訓練して、前記テキスト認識モデルを得るステップは、
前記訓練画像を前記事前訓練モデルに入力し、前記訓練画像に対応するマルチモーダル特徴マップを得るステップと、
前記認識待ちのタスク及び前記マルチモーダル特徴マップに従って、前記テキスト認識モデルを生成するステップと、を含む請求項６に記載の方法。
前記認識待ちのタスク及び前記マルチモーダル特徴マップに従って、前記テキスト認識モデルを生成するステップは、
前記マルチモーダル特徴マップに従って、前記認識待ちのタスクでの前記訓練画像の予測される認識結果を予測するステップと、
前記訓練画像の予め設定された実際の認識結果、及び前記予測される認識結果に従って、前記テキスト認識モデルを構築するステップと、を含む請求項７に記載の方法。
テキスト認識方法であって、
認識待ちの画像を取得するステップであって、前記認識待ちの画像にはテキストが含まれるステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルは、請求項１～４のいずれか１項に記載の方法に基づいて得られたものであることを特徴とするテキスト認識方法。
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るステップは、
前記テキスト認識モデルに従って前記認識待ちの画像のマルチモーダル特徴マップを決定して、前記マルチモーダル特徴マップに従って前記認識待ちの画像内のテキストコンテンツを決定するステップを含み、
前記認識待ちの画像のマルチモーダル特徴マップは、前記認識待ちの画像の視覚的特徴及び語義特徴をキャラクタリゼーションするためのものである請求項９に記載の方法。
テキスト認識モデルの訓練装置であって、
取得された第１のサンプル画像内の一部の画像に対してマスク予測を行い、前記第１のサンプル画像に対応する予測される完全な画像を得、
さらに、取得された第２のサンプル画像内の一部のテキストに対して前記マスク予測を行い、前記一部のテキストに対応する予測されるテキストコンテンツを得るための予測ユニットと、
前記予測される完全な画像及び前記予測されるテキストコンテンツに従って訓練することで事前訓練モデルを得るための訓練ユニットと、
前記事前訓練モデルに従ってテキスト認識モデルを生成するための生成ユニットであって、前記テキスト認識モデルが認識待ちの画像に対してテキスト認識を行うためのものである生成ユニットと、を含む、
ことを特徴とするテキスト認識モデルの訓練装置。
前記予測ユニットは、
ターゲット対象のうちの一部の対象をランダムにマスキングするためのマスキングサブユニットと、
前記ターゲット対象のうちのマスキングされていない対象に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、予測結果を得るための予測サブユニットと、を含み、
前記ターゲット対象が第１のサンプル画像である場合、前記ターゲット対象のうちの一部の対象が一部の画像であり、前記予測結果が前記予測される完全な画像であるが、前記ターゲット対象が第２のサンプル画像である場合、前記ターゲット対象のうちの一部の対象が一部のテキストであり、前記予測結果が前記予測されるテキストコンテンツである請求項１１に記載の装置。
前記予測サブユニットは、
前記ターゲット対象のうちのマスキングされていない対象に対応する対象特徴を抽出し、第１の対象特徴を得るための抽出モジュールと、
前記第１の対象特徴に従って、前記ターゲット対象のうちのマスキングされた一部の対象を予測し、前記予測結果を得るための予測モジュールを、を含み、
前記ターゲット対象が第１のサンプル画像である場合、前記第１の対象特徴が第１の視覚的特徴であるが、前記ターゲット対象が第２のサンプル画像である場合、前記第１の対象特徴が第１の語義特徴である請求項１２に記載の装置。
前記ターゲット対象が第１のサンプル画像であり、前記第１の対象特徴が第１の視覚的特徴であり、前記予測モジュールは、
前記第１の視覚的特徴に従って、前記第１のサンプル画像のうちのマスキングされた一部の画像に対応する視覚的特徴を予測し、第２の視覚的特徴を得るための第１の予測サブモジュールと、
前記第２の視覚的特徴に従って、前記第１のサンプル画像のうちのマスキングされた一部の画像を決定するための第１の決定サブモジュールと、
前記第１のサンプル画像のうちのマスキングされていない画像、及び決定された前記第１のサンプル画像のうちのマスキングされた一部の画像に従って、前記予測される完全な画像を生成するための第１の生成サブモジュールと、を含む請求項１３に記載の装置。
前記ターゲット対象が第２のサンプル画像であり、前記第１の対象特徴が第１の語義特徴であり、前記予測モジュールは、
前記第１の語義特徴に従って、前記第２のサンプル画像のうちのマスキングされた一部のテキストに対応する語義特徴を予測し、第２の語義特徴を得るための第２の予測サブモジュールと、
前記第２の語義特徴に従って、前記予測されるテキストコンテンツを生成するための第２の生成サブモジュールと、を含む請求項１３又は１４に記載の装置。
前記生成ユニットは、
認識待ちのタスク及び訓練画像を取得するための取得サブユニットであって、前記訓練画像にはテキストが含まれる取得サブユニットと、
前記認識待ちのタスク及び前記訓練画像に従って、前記事前訓練モデルを訓練して、前記テキスト認識モデルを得るための訓練サブユニットと、を含む請求項１１～１４のいずれか１項に記載の装置。
前記訓練サブユニットは、
前記訓練画像を前記事前訓練モデルに入力し、前記訓練画像に対応するマルチモーダル特徴マップを得るための入力モジュールと、
前記認識待ちのタスク及び前記マルチモーダル特徴マップに従って、前記テキスト認識モデルを生成するための生成モジュールと、を含む請求項１６に記載の装置。
前記生成モジュールは、
前記マルチモーダル特徴マップに従って、前記認識待ちのタスクでの前記訓練画像の予測される認識結果を予測するための第３の予測サブモジュールと、
前記訓練画像の予め設定された実際の認識結果、及び前記予測される認識結果に従って、前記テキスト認識モデルを構築するための構築サブモジュールと、を含む請求項１７に記載の装置。
テキスト認識装置であって、
認識待ちの画像を取得するための取得ユニットであって、前記認識待ちの画像にはテキストが含まれる取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識待ちの画像に対してテキスト認識を行い、前記認識待ちの画像内のテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルは、請求項１～４のいずれか１項に記載の方法に基づいて得られたものであることを特徴とするテキスト認識装置。
前記認識ユニットは、
前記テキスト認識モデルに従って前記認識待ちの画像のマルチモーダル特徴マップを決定するための第１の決定ユニットと、
前記マルチモーダル特徴マップに従って前記認識待ちの画像内のテキストコンテンツを決定するための第２の決定ユニットと、を含み、
前記認識待ちの画像のマルチモーダル特徴マップは、前記認識待ちの画像の視覚的特徴及び語義特徴をキャラクタリゼーションするためのものである請求項１９に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサが請求項１～４のいずれか１項に記載の方法を実行できるか、前記少なくとも１つのプロセッサが請求項９に記載の方法を実行できることを特徴とする電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令がコンピュータに請求項１～４のいずれか１項に記載の方法を実行させるためのものであるか、前記コンピュータ命令が前記コンピュータに請求項９に記載の方法を実行させるためのものであることを特徴とする非一時的な可読記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、請求項１～４のいずれか１項に記載の方法は実現されるか、前記コンピュータプログラムがプロセッサにより実行されると、請求項９に記載の方法は実現されるコンピュータプログラム。