JP2023062150A

JP2023062150A - 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体

Info

Publication number: JP2023062150A
Application number: JP2023025380A
Authority: JP
Inventors: ペンユアンルー; Pengyuan Lyu; チェンチュエンチャン; Chengquan Zhang; シャンシャンリュー; Shanshan Liu; メイナチャオ; Meina Qiao; ヤンリューシュー; Yangliu Xu; リャングウー; Liang Wu; シャオヤンワン; Xiaoyan Wang; クンヤオ; Kun Yao; ジュンユハン; Junyu Han; アールイディング; Errui Ding
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-16
Filing date: 2023-02-21
Publication date: 2023-05-02
Also published as: CN115565177B; CN115565177A; US20230215203A1

Abstract

【課題】モデルによる認識の正確さを向上させる、文字検出認識技術などのシーンに適用する文字認識モデルトレーニング方法、文字認識方法、装置、機器及び媒体を提供する。【解決手段】方法は、タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像に分割し２０１、少なくとも２つのサブサンプル画像を、可視的属性を有する第１のサブサンプル画像を含む第１のトレーニングセットと、不可視的属性を有する第２のサブサンプル画像を含む第２のトレーニングセットと、に分け２０２、第２のトレーニングセットを第１のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る２０３。【選択図】図２

Description

本開示は、人工知能技術の分野、具体的には、深層学習、画像処理、コンピュータ視覚技術の分野に関し、文字検出認識技術などのシーンに適用することができ、特に、文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体に関する。

現在、自然シーンでのＯＣＲ（ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ、光学文字認識）技術は、幅広い応用の基盤を持っている。文字検出認識技術においては、文字認識モデルをトレーニングし、そして、トレーニングして得られた文字認識モデルを利用して入力された画像に対して文字認識を行うのが一般的である。

しかし、文字認識モデルは、一般的に、監視付きトレーニングの方法を用いるが、監視付きのトレーニング方法を利用する場合、タグ付き画像の特徴を少ししか学習できず、取得された認識モデルによる画像の文字認識の正確率の向上に大きく寄与しない。

本開示は、文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体を提供する。

本開示の第１の態様によれば、文字認識モデルトレーニング方法を提供し、前記方法は、
タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像に分割するステップと、
少なくとも２つのサブサンプル画像を、可視的属性を有する第１のサブサンプル画像を含む第１のトレーニングセットと、不可視的属性を有する第２のサブサンプル画像を含む第２のトレーニングセットと、に分けるステップと、
前記第２のトレーニングセットを前記第１のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るステップと、を含む。

本開示の第２の態様によれば、文字認識モデルトレーニング方法を提供し、前記方法は、
合成テキストタグを含む合成サンプルを、少なくとも２つのサブ合成画像に分割するステップと、
少なくとも２つの前記サブ合成画像を、可視的属性を有する第１のサブ合成画像を含む第１の合成セットと、不可視的属性を有する第２のサブ合成画像を含む第２の合成セットと、に分けるステップと、
前記第１の合成セットと前記第２の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップと、を含む。

本開示の第３の態様によれば、文字認識方法を提供し、前記方法は、
第１の態様及び第１の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットエンコーダと、第２の態様及び第２の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットデコーダと、を決定するステップと、
認識対象画像を少なくとも２つのサブ画像に分割するステップと、
前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも２つの前記サブ画像にそれぞれ対応する画像特徴を取得するステップと、
前記ターゲットデコーダと少なくとも２つの問い合わせベクトルに基づき、少なくとも２つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも２つの前記サブ画像に対応するデコード特徴シーケンスを取得するステップと、
前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るステップと、を含む。

本開示の第４の態様によれば、文字認識モデルトレーニング装置を提供し、前記装置は、
タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像に分割するために用いられる第１の分割ユニットと、
少なくとも２つのサブサンプル画像を、可視的属性を有する第１のサブサンプル画像を含む第１のトレーニングセットと、不可視的属性を有する第２のサブサンプル画像を含む第２のトレーニングセットと、に分けるために用いられる第１の分けユニットと、
前記第２のトレーニングセットを前記第１のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るために用いられる第１のトレーニングユニットと、を含む。

本開示の第５の態様によれば、文字認識モデルトレーニング装置を提供し、前記装置は、
合成テキストタグを含む合成サンプルを、少なくとも２つのサブ合成画像に分割するために用いられる第２の分割ユニットと、
少なくとも２つの前記サブ合成画像を、可視的属性を有する第１のサブ合成画像を含む第１の合成セットと、不可視的属性を有する第２のサブ合成画像を含む第２の合成セットと、に分けるために用いられる第２の分けユニットと、
前記第１の合成セットと前記第２の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第２のトレーニングユニットと、を含む。

本開示の第６の態様によれば、文字認識装置を提供し、前記装置は、
第１の態様及び第１の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットエンコーダと、第２の態様及び第２の態様の様々な可能な文字認識モデルトレーニング方法に従ってトレーニングして取得されるターゲットデコーダと、を決定するために用いられるターゲット決定ユニットと、
認識対象画像について、前記認識対象画像を少なくとも２つのサブ画像に分割するために用いられる第３の分割ユニットと、
前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも２つの前記サブ画像にそれぞれ対応する画像特徴を取得するために用いられるエンコード計算ユニットと、
前記ターゲットデコーダと少なくとも２つの問い合わせベクトルに基づき、少なくとも２つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも２つの前記サブ画像に対応するデコード特徴シーケンスを取得するために用いられるデコード計算ユニットと、
前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るために用いられるテキスト認識ユニットと、を含む。

本開示の第７の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが第１の態様、第２の態様又は第３の態様、及び各態様の様々な可能な方法を実行できるように、前記少なくとも１つのプロセッサにより実行される。

本開示の第８の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、コンピュータに第１の態様、第２の態様又は第３の態様、及び各態様の様々な可能な方法を実行させるために用いられる。

本開示の第９の態様によれば、可読記憶媒体に記憶されているコンピュータプログラムを含むコンピュータプログラム製品を提供し、電子機器の少なくとも１つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも１つのプロセッサは、電子機器が第１の態様、第２の態様又は第３の態様、及び各態様の様々な可能な方法を実行するように、前記コンピュータプログラムを実行する。

本開示に係る技術を用いると、監視付きトレーニング方法を利用する場合にタグ付き画像の特徴を少ししか学習できず、取得された認識モデルによる画像の文字認識の正確さが低い、という問題が解決され、タグなしのトレーニングサンプルを用いてエンコーダに対して自己監視トレーニングを行い、タグ付きのトレーニングサンプルを用いてデコーダに対して監視付きトレーニングを行う方法を利用し、監視付きトレーニングと監視なしトレーニングとの組み合わせにより、モデルは、画像とテキスト事前情報を同時に学習し、モデルによる認識の正確さを向上させることができる。トレーニングして得られたターゲットエンコーダとターゲットデコーダを利用して認識対象画像に対してテキスト認識を行うと、取得されたターゲットテキストがより正確になり、認識の正確さがより向上する。

なお、この部分に記載されているコンテンツは、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の詳細の説明を通じて容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の実施例により提供される文字認識システムの応用例示図である。本開示の第１の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。本開示の第２の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。本開示の第３の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。本開示の第４の実施例により提供される文字認識モデルトレーニング方法のフローチャートである。本開示の第５の実施例により提供される文字認識方法のフローチャートである。本開示の第６の実施例により提供される文字認識モデルトレーニング装置の構造図である。本開示の第７の実施例により提供される文字認識モデルトレーニング装置の構造図である。本開示の第８の実施例により提供される文字認識装置の構造図である。本開示の実施例に係る文字認識モデルトレーニング方法又は文字認識方法を実現するための電子機器のブロック図である。

以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

本開示に係る技術案は、画像文字認識の分野に適用されることができ、自己監視の手段を用いてエンコーダをトレーニングし、監視付きの手段を用いてデコーダをトレーニングすることで、高精度の画像特徴抽出モデルを取得し、高精度の特徴抽出を行うことで高正確度の文字認識を取得し、文字認識の正確さを向上させることができる。

関連技術においては、画像認識方法を利用することができ、監視付きの文字認識及び監視なしの文字認識を利用することができる。監視付きの文字認識は、一般的に、データ合成でタグ付きデータを取得するが、合成データと実際に存在する画像との差異が大きいため、監視付きトレーニングによる画像認識の正確さの向上には限度がある。従来の監視なし行列の場合については、タグなしトレーニングサンプルを利用して事前情報を学習する必要があるが、従来の技術案においては、エンコーダの特徴抽出モジュールに対するプリトレーニングだけが着目点であり、テキスト語義に対するトレーニングへの注意を十分に払っておらず、その正確さが高くない。

そこで、本開示は、従来の技術案の正確さが低いという技術的問題を解決するために、タグなしのトレーニングサンプルを利用してエンコーダに対して自己監視トレーニングを行い、タグ付きのトレーニングサンプルを利用してデコーダに対して監視付きトレーニングを行うことで、監視付きトレーニングと監視なしトレーニングの組み合わせにより、モデルは、画像とテキスト事前情報を同時に学習し、モデルによる認識の正確さを向上させることができる。トレーニングして得られたターゲットエンコーダとターゲットデコーダを利用して認識対象画像に対してテキスト認識を行い、取得されたターゲットテキストがより正確になり、認識の正確さがより向上する。

本開示は、人工知能技術の分野に関し、具体的には、深層学習、画像処理、コンピュータ視覚技術の分野に関し、文字検出認識技術などのシーンに適用することができ、特に、文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体に関する。

以下、図面を参照しながら本開示に係る技術案を詳細に説明する。

図１に示すように、本開示の実施例により提供される文字認識システムの応用例示図であり、当該システムは、サーバＭ１を含んでもよく、サーバＭ１は、画像文字認識用のエンコーダとデコーダをトレーニングすることができる。

図１を参照すると、エンコーダに対するトレーニングにおいては、タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像１１に分割することができる。少なくとも２つのサブサンプル画像を、第１のサブサンプル画像に対応する第１のトレーニングセット１１１と、第２のサブサンプル画像に対応する第２のトレーニングセット１１２と、に分けることができる。第１のトレーニングセット１１１と第２のトレーニングセット１１２を用いてトレーニング対象エンコーダに対して自己監視トレーニングを行うことができる。具体的なトレーニングプロセスは、第１のサブサンプル画像と第２のサブサンプル画像を、それぞれ第１のエンコーダ１２に入力し、第１のサブサンプル画像に対応する第１の視覚特徴１３と第２のサブサンプル画像に対応する第２の視覚特徴１４を取得する。マスク設定ポリシーによってタグ付けされた第２の問い合わせベクトル１５と第１の視覚特徴１３に基づいてマスク問い合わせ計算を行い、第３の視覚特徴１６を取得することができる。第３の視覚特徴１６と第２の視覚特徴１４に対して特徴誤差計算を行い、第３の視覚特徴１６が第２の視覚特徴１４に無限に接近することを逆伝播のターゲットとすることができる。さらに、第３の視覚特徴１６に対して、第１のデコーダ１７によって計算された後、画像再構築を行い、画像再構築の結果を取得し、画像再構築の結果と第２のサブサンプル画像との画像誤差１８を決定してもよい。特徴誤差と画像誤差を利用して第１のエンコーダを更新し、画像誤差を利用して第１のデコーダを更新し、すなわち、特徴誤差が第１の誤差条件を満たし且つ画像誤差が第２の誤差条件を満たすまで、第１のエンコーダ１２と第１のデコーダ１７に逆伝播し、ターゲットエンコーダとして最終的に更新される第１のエンコーダを取得する。

選択的に、エンコーダトレーニング終了後、トレーニングして得られたターゲットエンコーダを利用してデコーダをトレーニングしてもよい。図１を参照すると、デコーダに対するトレーニングにおいて、タグ付きの合成サンプルを少なくとも２つのサブ合成画像２１に分割し、少なくとも２つのサブ合成画像２１を第１の合成セット２１１と第２の合成セット２１２に分けてもよい。ターゲットエンコーダ２２を利用して第１の合成セット２１１の中の第１のサブ合成画像の第１の特徴シーケンス２３を抽出し、第２の合成セット２１２の中の第２のサブ合成画像の合成サンプル２１における画像位置を利用して、第１の特徴シーケンス２３に対して特徴補完を行い、第２の特徴シーケンス２４を取得してもよい。第２の特徴シーケンス２４と第３の問い合わせベクトル２５とを、第２のデコーダ２６に入力し、第２のデコーダ２６を用いて第２のデコード特徴２７の特徴計算を行う。第２のデコード特徴２７のテキスト認識処理に基づき、予測テキスト２８を得る。予測テキスト２８と第２のサブ合成画像との合成テキストタグにおける合成テキスト２９に対してテキスト誤差計算を行い、デコード誤差を取得する。デコード誤差は、第３の誤差条件が満たされるまで、第２のデコーダを更新し、ターゲットデコーダを取得するために使用されることができる。

実際の応用においては、サーバＭ１は、端末機器Ｍ２と通信接続を構築することができ、端末機器は、例えば、携帯電話、タブレットコンピュータなどの端末を含んでもよい。端末機器Ｍ２は、サーバＭ１に認識対象画像を送信することができる。サーバＭ１は、認識対象画像を取得した後、トレーニングして得られたターゲットエンコーダとターゲットデコーダを利用して認識対象画像に対して画像特徴抽出を行い、抽出された特徴に対してテキスト認識処理を行い、ターゲットテキストを取得する。サーバＭ１は、さらに、得られたターゲットテキストを端末機器Ｍ２にフィードバックすることもできる。端末機器とサーバとのインタラクションによって画像のオンラインでのテキスト認識を実現し、テキスト認識効率及び正確さを向上させる。

図２は、本開示の第１の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、当該文字認識モデルトレーニング方法は、文字認識モデルトレーニング装置として実装されることができ、当該文字認識モデルトレーニング装置は、電子機器に位置することができる。文字認識モデルトレーニング方法は、以下のいくつかのステップを含むことができる。

２０１では、タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像に分割する。

選択的に、タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像に分割するステップは、画像分割ポリシーに基づき、タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像に分割するステップを含んでもよい。画像分割ポリシーは、画像の長さ分割数と幅分割数を含むことができ、画像の長さ分割数と幅分割数に従って、トレーニングサンプルを少なくとも２つのサブサンプル画像に均一に分割することができる。

画像分割ポリシーは、具体的には、画像のｐａｔｃｈ（シャード）処理であってもよく、画像をｐａｔｃｈによって少なくとも２つの画像ブロックに分けて、サブサンプル画像は、トレーニングサンプルがｐａｔｃｈされた画像ブロックであってもよい。

トレーニングサンプルは、自然環境から収集された画像であってもよく、この場合、トレーニングサンプルはタグなしである。

２０２では、少なくとも２つのサブサンプル画像を、可視的属性を有する第１のサブサンプル画像を含む第１のトレーニングセットと、不可視的属性を有する第２のサブサンプル画像を含む第２のトレーニングセットと、に分ける。

第１のトレーニングセットには、１つ又は少なくとも２つの第１のサブサンプル画像が含まれてもよい。第２のトレーニングセットには、１つ又は少なくとも２つの第２のサブサンプル画像が含まれてもよい。

２０３では、第２のトレーニングセットを第１のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る。

選択的に、第２のトレーニングセットを第１のトレーニングセットのタグとすることは、具体的には、第２のトレーニングセットにおける第２のサブサンプル画像を第１のサブサンプル画像のタグとすることにしてもよい。第２のサブサンプル画像は不可視的属性を有し第１のサブサンプル画像は可視的属性を有しているため、可視的属性を有する第１のサブサンプル画像の特徴表現を利用して、不可視的属性を有する第２のサブサンプル画像の特徴表現を予測し、第１のサブサンプル画像を利用して予測された特徴表現は第２のサブサンプル画像の特徴表現と同様にトレーニングターゲットとしてトレーニングし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る。自己監視トレーニングは、具体的に、トレーニングサンプルのためにタグを設定する必要がなく、トレーニングサンプルそのものの第２のトレーニングセットを第１のトレーニングセットのタグとして、エンコーダに対するトレーニングを完成させることであってもよい。

本開示の実施例においては、タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像に分割し、タグなしのサンプル画像については、可視的属性及び不可視的属性という分け基準に従ってトレーニングサンプルの少なくとも２つのサブサンプル画像を２つのトレーニングセットに分け、２つのトレーニングセットのうちの第２のトレーニングセットを第１のトレーニングセットのタグとすることで、タグが設定されていない第１のトレーニングセットをタグ付きものにし、第２のトレーニングセットと第１のトレーニングセットとの予測結果の差異を分析して、エンコーダに対して反復更新を行い、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得る。トレーニングセットを分けることでエンコーダの自己監視トレーニングを実現し、エンコーダのトレーニング精度を向上させる。

本実施例において、エンコーダトレーニング終了後、ターゲットエンコーダを取得した後、ターゲットエンコーダを利用してデコーダに対して監視付きトレーニングを行うことができることを理解できる。１つの選択的な実施形態として、本実施例に係る方法は、さらに、デコーダに対するトレーニングステップを含んでもよい。デコーダに対する具体的なトレーニングステップは、図４～５などの実施例を参照することができ、ここで繰り返して説明しない。本開示に係るトレーニング方法は、画像文字認識に適用できる。

なお、本開示に係る文字認識モデルトレーニング方法は、画像文字認識の応用シーンに適用されることができ、すなわち、トレーニングして得られたターゲットエンコーダとターゲットデコーダを画像の文字認識に適用し、画像文字認識の精度を向上させる。

エンコーダに対するトレーニングを実現するために、図３を参照すると、本開示の第２の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、前述の実施例との相違点は、第２のトレーニングセットを第１のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得ることであり、
トレーニング対象エンコーダを初期化し、第１のエンコーダを取得するステップ３０１と、
第１のエンコーダに基づき、第１のトレーニングセットにおける第１のサブサンプル画像の第１の視覚特徴と、第２のトレーニングセットにおける第２のサブサンプル画像の第２の視覚特徴と、を抽出するステップ３０２と、
第１の視覚特徴に対してマスク問い合わせ計算を行い、第３の視覚特徴を取得するステップ３０３と、
第３の視覚特徴と第２の視覚特徴との特徴誤差に従って、特徴誤差が第１の誤差条件を満たすまで、第１のエンコーダを更新し、最終的に更新される第１のエンコーダをターゲットエンコーダとして決定するステップ３０４と、を含む。

選択的に、本開示におけるエンコーダは、ＶＩＴ（ＶｉｓｉｏｎＴｒａｎｓｆｏｒｍｅｒ）ネットワークに対応するエンコーダを含んでもよい。トレーニング対象エンコーダのネットワーク構造は、ＶＩＴネットワークを参照することができる。

第１のエンコーダは、トレーニング対象エンコーダに対してパラメータ初期化を行うことで取得され得る。第１のエンコーダのパラメータは、トレーニング終了まで継続的に更新してもよい。

第１のサブサンプル画像のｅｍｂｅｄｄｉｎｇ（埋め込み）ベクトルを第１のエンコーダに入力することで、第１のサブサンプル画像の第１の視覚特徴を抽出することができる。第２のサブサンプル画像のｅｍｂｅｄｄｉｎｇ（埋め込み）ベクトルを第１のエンコーダに入力することで、第２のサブサンプル画像の第２の視覚特徴を抽出することができる。

選択的に、第３の視覚特徴と第２の視覚特徴との特徴誤差は、特徴距離及び類似度の尺度で示されることができ、具体的には、例えば、ユークリッド距離、ハミング距離など、任意の１つの距離式を用いて計算して取得されることができ、本実施例において、特徴誤差の具体的な計算方式について過度の限定をしない。

第１の誤差条件は、特徴誤差が特徴しきい値より小さいことであってもよい。特徴しきい値は、使用上の必要に応じて設定されてもよい。

本実施例において、トレーニング対象エンコーダについて、エンコーダに対してパラメータ更新を行うことによりエンコーダのパラメータを継続的にトレーニングしてもよい。エンコーダを更新する際、現在の第１のエンコーダが第１のトレーニングセットから抽出した第１の視覚特徴を利用して、当該第１の視覚特徴に対してマスク問い合わせ計算を行うことによって取得された第３の視覚特徴は、可視的第１のサブサンプル画像を利用して不可視的第２のサブサンプル画像を予測するための視覚特徴であってもよく、すなわち、取得された第３の視覚特徴は第２の視覚特徴に無限に接近する。第２の視覚特徴と第３の視覚特徴との特徴誤差は、この２つの特徴間の差異をキャラクタリゼーションすることができ、特徴誤差が第１の誤差条件を満たす場合に、エンコーダトレーニング終了を決定し、正確なターゲットエンコーダを取得する。第１の視覚特徴と第２の視覚特徴は、いずれもトレーニングサンプル由来であり、トレーニングサンプル自体のサブサンプル画像をタグとし、可視的特徴表示を用いて不可視的特徴表示を予測することを実現し、エンコーダに対する自己監視トレーニングを完成させ、エンコーダのトレーニング精度を向上させる。

エンコーダを更新する際、画像誤差及び特徴誤差という２つの誤差を利用してエンコーダのトレーニングを逆伝播することができる。１つの実施例として、第３の視覚特徴と第２の視覚特徴との特徴誤差に従って、特徴誤差が第１の誤差条件を満たすまで、第１のエンコーダを更新し、最終的に更新される第１のエンコーダをターゲットエンコーダとして決定するステップは、
トレーニング対象デコーダを初期化し、第１のデコーダを取得するステップと、
第１のデコーダに基づき、第３の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップと、
第３の視覚特徴と第２の視覚特徴との特徴誤差を決定するステップと、
特徴誤差と画像誤差に基づき、特徴誤差が第１の誤差条件を満たし且つ画像誤差が第２の誤差条件を満たすまで、第１のエンコーダを更新し、画像誤差に基づいて第１のデコーダを更新し、最終的に取得された第１のエンコーダをターゲットエンコーダとして決定するステップと、を含む。

画像誤差は、第３の視覚特徴に対する画像再構築の結果に対応する画像誤差であってもよい。

第２の誤差条件は、画像誤差が画像誤差しきい値より小さいことであってもよい。画像誤差しきい値は、使用上の必要に応じて設定されてもよい。

本実施例において、特徴誤差を利用できるだけでなく、さらに、第３の視覚特徴が再構築された画像に対応する画像誤差と特徴誤差とを、エンコーダの逆フィードバック調整とし、より全面的でより詳細な誤差分析をすることによってエンコーダの逆調整を実現し、より高い精度のエンコーダを取得している。さらに、画像誤差を利用して第１のデコーダを更新することで、デコーダに対する正確な更新を実現し、これにより、より正確なデコーダを利用して視覚特徴に対するデコード計算を完成させ、より正確なデコーダを利用してエンコーダのトレーニングにより積極的な影響を与え、デコーダのトレーニング精度を向上させるようになっている。

１つの可能な設計では、第１のデコーダに基づき、第３の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップは、
第１のデコーダを利用して第３の視覚特徴に対してデコード計算処理を行い、第１のデコード特徴を取得するステップと、
第１のデコード特徴に対する画像再構築の結果に従って、画像誤差を得るステップと、を含む。

選択的に、第１のデコーダは、トレーニング対象デコーダに対してパラメータ初期化を行うことで取得され得る。第１のデコーダのパラメータは、トレーニング終了まで、継続的に更新されてもよい。

選択的に、本開示のエンコーダは、ｔｒａｎｓｆｏｒｍｅｒ（転送）ネットワークに対応するデコーダであってもよい。トレーニング対象デコーダのネットワーク構造は、ｔｒａｎｓｆｏｒｍｅｒネットワークを参照することができる。

本実施例において、第１のデコーダを利用した、第３の視覚特徴に対するデコード計算処理によって、第１のデコード特徴を取得することができ、第１のデコード特徴に対する画像再構築の結果に従って画像誤差を得ることができる。エンコーダトレーニング中に、トレーニング可能なデコーダを導入した結果、全面的且つ完全的なエンコード及びデコードの流れを用いて画像の正確な再構築を確保し、そして、画像再構築の結果を利用して画像誤差を有効的に取得する。

いくつかの実施例において、第１のデコード特徴に対する画像再構築の結果に従って、画像誤差を得るステップは、
第１のデコード特徴に対して画像再構築処理を行い、第１の予測結果を取得するステップと、
第２のサブサンプル画像と第１の予測結果を利用して画像誤差計算を行い、画像誤差を取得するステップと、を含む。

選択的に、画像再構築層において第１のデコード特徴に対して画像再構築処理を行い、第１の予測結果を取得し、第１の予測結果が予測画像となるようにしてもよい。画像再構築層は、テキスト学習ネットワークの中の１層であってもよく、これによって画像再構築を実現する。

第１のデコード特徴は、学習された画像の特徴表現であり、第１のデコード特徴に対して逆画像再構築を行うことができ、具体的には、畳み込みニューラルネットワークに基づく画像再構築アルゴリズムなどの画像再構築アルゴリズムを使用することができ、本実施例においては、画像再構築アルゴリズムの具体的なタイプについて過度の限定をしない。

選択的に、第２のサブサンプル画像と第１の予測結果との画像誤差の計算は、第２のサブサンプル画像と第１の予測結果との画像距離又は画像類似度を計算し、画像距離又は画像類似度によって画像誤差を決定することを含んでもよい。画像距離は、ユークリッド距離やマンハッタン距離などを含むことができ、本実施例においては、画像誤差の計算手段について過度の限定をしない。

本実施例において、第１のデコード特徴を利用して画像再構築処理を行うと、第１の予測結果を取得することができる。画像再構築処理によって取得された第１の予測結果を第２のサブサンプル画像と比較すると、画像誤差を正確に決定することができる。

第２のトレーニングセットと一致する問い合わせベクトルを取得し、エンコーダの自己監視トレーニングを実現するために、１つの実施例として、さらに、
マスク設定ポリシーに従って、少なくとも２つの問い合わせベクトルを第１の問い合わせベクトルと第２の問い合わせベクトルとに分けるステップであって、マスク設定ポリシーは予め設定された第１のマスクレートに基づいて生成されたマスクデータを含み、問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルである、ステップを含み、
第１の視覚特徴に対してマスク問い合わせ計算を行い、第３の視覚特徴を取得するステップは、
第２の問い合わせベクトルと第１の視覚特徴に基づく特徴予測計算によって、第１の視覚特徴の第２の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るステップと、
第１の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、第３の視覚特徴を得るステップと、を含む。

選択的に、少なくとも２つの問い合わせベクトル（ｑｕｅｒｙ）は、基礎的文字列に対応する空間変換ベクトルであってもよい。基礎的文字列は、１つ又は少なくとも２つの文字列からなるものであってもよく、文字は、アルファベット、数字、漢字及び／又は任意の言語の単一の符号を含んでもよい。基礎的文字列に対してｅｍｂｅｄｄｉｎｇ（埋め込みアルゴリズム）計算を行うと、問い合わせベクトルが取得される。なお、問い合わせベクトルは、さらに、予め設定された関数を用いて計算して取得され得る。例えば、予め設定された関数は、ベクトル生成関数であってもよい。

ここで、ＰＥは生成される問い合わせベクトルを指し、ｐｏｓはベクトルの位置インデックス又はベクトルＩＤ（Ｉｄｅｎｔｉｔｙｄｏｃｕｍｅｎｔ、アイデンティティ）であり、

は、生成される問い合わせベクトルの合計ディメンションであり、ｉはベクトルのうちの１つの要素がベクトルに位置するディメンションは何番目であるかを示すものであり、すなわち、要素のディメンション順序又はディメンション座標を指す。

１つの可能な設計では、本開示において、第２の問い合わせベクトルと第１の視覚特徴に基づく特徴予測計算は、マスク問い合わせ計算ネットワークによって計算して取得され得る。マスク問い合わせ計算ネットワークの入力データは、第２の問い合わせベクトルと第１の視覚特徴であり、出力データは第３の視覚特徴である。マスク問い合わせ計算ネットワークは、学習することができる計算ネットワークであり、逆伝播の手段を用いてマスク問い合わせ計算ネットワークを更新することができ、すなわち、画像誤差と特徴誤差を決定する場合、画像誤差と特徴誤差に基づいてマスク問い合わせ計算ネットワークを更新し、特徴誤差が第１の誤差条件を満たし且つ画像誤差が第２の誤差条件を満たすまで、マスク問い合わせ計算ネットワークに対する更新を停止する。

選択的に、マスク設定ポリシーは、固定された第１のマスクレートに従って、画像を可視的部分と不可視的部分とに分けるものにしてもよい。マスク設定ポリシーは、さらに、少なくとも２つの問い合わせベクトルの第２の問い合わせベクトルの取得基礎とされ得る。第２の問い合わせベクトルは、第１のマスクレートによって決定されたｍａｓｋｑｕｅｒｉｅｓ（マスクベクトル）であってもよい。第１のマスクレートは、最小マスキング値より高く設定されたターゲットマスキング率（ｍａｓｋｒａｔｉｏ）を含んでもよく、最小マスキング値は設定することによって取得され得る。例えば、最小マスキング値は、０.９に設定されてもよく、第１のマスクレートは、０.９より大きい任意の数値にされてもよいし、当然ながら、第１のマスクレートは１より小さくされてもよい。

選択的に、マスクデータは、マスクベクトル又はマスク行列を含んでもよく、マスクベクトル又はマスク行列の中の要素値は、第１の数値又は第２の数値を含んでもよい。マスクデータを少なくとも２つの問い合わせベクトルと行列計算することで、第１の数値によってタグ付けされた第１の問い合わせベクトルと、第２の数値によってタグ付けされた第２の問い合わせベクトルと、を取得することができる。第１の数値及び第２の数値は、０又は１から選択されることができるが、異なる値にしている。

選択的に、Ｌａｔｅｎｔｃｏｎｔｅｘｔｕａｌｒｅｇｒｅｓｓｏｒ（潜在的なコンテキストリグレッサー）によって第２の問い合わせベクトルと第１の視覚特徴との特徴予測計算を完成させてもよい。

本実施例において、マスク設定ポリシーを利用して、少なくとも２つの問い合わせベクトルに対してマスク処理を行うことにより、画像の分割と一致するように少なくとも２つの問い合わせベクトルを分割する。第２の問い合わせベクトルと第１の視覚特徴との特徴予測計算は、第１の視覚特徴を利用して不可視的第２のサブサンプル画像の特徴に対して予測するプロセスになっており、取得された第３の視覚特徴を第２の視覚特徴と比較して特徴誤差を取得することができる。マスク設定ポリシーの設定により、計算に関わる第２の問い合わせベクトルを利用して不可視的第２のサブサンプル画像の特徴を正確に予測することは確保され、第２の視覚特徴により類似する第３の視覚特徴を取得し、第３の視覚特徴の特徴表現精度を向上させる。

１つの可能な設計では、少なくとも２つのサブサンプル画像を、第１のトレーニングセットと、第２のトレーニングセットと、に分けるステップは、
マスク設定ポリシーを利用して、少なくとも２つのサブサンプル画像を、第１のトレーニングセットと、第２のトレーニングセットと、に分けるステップを含む。

選択的に、マスク設定ポリシーを利用して少なくとも２つのサブサンプル画像を、第１のトレーニングセットと、第２のトレーニングセットと、に分けるステップは、固定された第１のマスクレートに従って画像を可視的第１のトレーニングセットと不可視的第２のトレーニングセットとに分けるステップを含んでもよい。

選択的に、マスク設定ポリシーにおけるマスクデータを少なくとも２つのサブサンプル画像と行列計算することで、第１のトレーニングセットと第２のトレーニングセットとを取得してもよい。

本実施例において、マスク設定ポリシーを利用して少なくとも２つのサブサンプル画像を第１のトレーニングセットと第２のトレーニングセットとに分けている。マスク設定ポリシーは、第１のマスクレートによって生成されるマスクデータが予め設定されたものであってもよく、マスク設定ポリシーを用いて少なくとも２つのサブサンプル画像を可視的第１のトレーニングセットと不可視的第２のトレーニングセットとに分けることができる。第１のトレーニングセットにおける画像は可視的属性を有し、第２のトレーニングセットにおける画像は不可視的属性を有するものとなる。マスク設定ポリシーを利用することで、少なくとも２つのサブサンプル画像を正確に分けることが実現されることができる。

図４に示すように、本開示の第３の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、当該文字認識モデルトレーニング方法は、デコーダをトレーニングすることに適用されることができる。当該方法は、文字認識モデルトレーニング装置として実装されることができ、文字認識モデルトレーニング装置は電子機器に位置することができる。文字認識モデルトレーニング方法は、以下のステップを含むことができる。

４０１では、合成テキストタグを含む合成サンプルを、少なくとも２つのサブ合成画像に分割する。

タグ付きの合成サンプルを少なくとも２つのサブ合成画像に分割するステップは、画像分割ポリシーに従って、合成サンプルを、少なくとも２つのサブ合成画像に分割するステップを含むことができる。画像分割ポリシーは、画像の長さ分割数と幅分割数を含むことができ、画像の長さ分割数と幅分割数に基づき、合成サンプルを少なくとも２つのサブ合成画像に均一に分割することができる。

画像分割ポリシーは、具体的に、画像のｐａｔｃｈ（シャード）処理であってもよく、画像をｐａｔｃｈによって少なくとも２つの画像ブロックに分けることができ、サブ合成画像は合成サンプルがｐａｔｃｈされた画像ブロックであってもよい。

合成サンプルは、合成テキストを利用して合成された画像であってもよく、合成サンプルのタグは、当該サンプルを合成したテキストである。

４０２では、少なくとも２つのサブ合成画像を、可視的属性を有する第１のサブ合成画像を含む第１の合成セットと、不可視的属性を有する第２のサブ合成画像を含む第２の合成セットと、に分ける。

第１の合成セットには、１つ又は少なくとも２つの第１のサブ合成画像が含まれることができる。第２の合成セットには、１つ又は少なくとも２つの第２のサブ合成画像が含まれる。

４０３では、第１の合成セットと第２の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、トレーニング対象デコーダに対応するターゲットデコーダを取得する。

選択的に、各合成セットのそれぞれのテキストタグを用いてトレーニング対象デコーダに対して監視付きトレーニングを行い、トレーニング対象デコーダに対応するターゲットデコーダを取得してもよい。

本実施例において、合成テキストタグ付き合成サンプルを用いてトレーニング対象デコーダをトレーニングしている。合成テキストタグにより、このデコーダに対するトレーニングは監視付きトレーニングであるように確保され、デコーダに対する監視付きトレーニングは実現される。

１つの可能な設計では、固定されたエンコーダを利用してデコーダをトレーニングしてもよい。図５に示すように、図５は本開示の第４の実施例により提供される文字認識モデルトレーニング方法のフローチャートであり、第１の合成セットと第２の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、以下のステップを含むことができる。

５０１では、ターゲットエンコーダを利用して第１の合成セットにおける第１のサブ合成画像の第１の特徴シーケンスを抽出し、ターゲットエンコーダは、上記実施例のいずれか１項に記載の文字認識モデルトレーニング方法を使用してトレーニングして取得されるものである。

本実施例において、ターゲットエンコーダのトレーニングステップは、図２～３などに係る実施例でのトレーニングステップを参照することができ、ここで繰り返して説明しない。

５０２では、第２の合成セットにおける第２のサブ合成画像の、合成サンプルにおける画像位置に基づき、第１の特徴シーケンスに対して特徴補完を行い、第２の特徴シーケンスを取得する。

５０３では、トレーニング対象デコーダを用いて、第２の特徴シーケンスの予測テキストが、第２のサブ合成画像の合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、トレーニング対象デコーダに対応するターゲットデコーダを取得する。

選択的に、ターゲットエンコーダを固定することにより、デコーダに対して監視付きトレーニングを行ってもよい。

第２の特徴シーケンスの予測テキストは、第２のサブ合成画像の合成テキストタグにおける合成テキストと同じであってもよく、そのことをトレーニングターゲットとすることができる。

本実施例において、デコーダに対して監視付きトレーニングを行う際、上記エンコーダのトレーニング結果、すなわち、ターゲットエンコーダを利用して、トレーニング対象デコーダに対して監視付きトレーニングを実行することができる。監視なしトレーニングで得られたターゲットエンコーダを利用して、デコーダに対して監視付きトレーニングを行い、デコーダのトレーニング精度及び効果を向上させる。

１つの実施例として、トレーニング対象デコーダを用いて、第２の特徴シーケンスの予測テキストが、第２のサブ合成画像の合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、
トレーニング対象デコーダを初期化し、第２のデコーダを取得するステップと、
第２のデコーダに基づいて第２の特徴シーケンスの予測テキストを決定するステップと、
予測テキストと、第２のサブ合成画像の合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するステップと、
デコード誤差が第３の誤差条件を満たすまで、デコード誤差に基づいて第２のデコーダを更新し、最終的に取得された第２のデコーダをターゲットデコーダとして決定するステップと、を含むことができる。

第２のデコーダは、第２の特徴シーケンスをデコードし、デコードの特徴を利用してテキスト予測を行い、予測テキストを取得することができる。

テキスト誤差計算の手段として、テキスト類似度計算又はテキスト距離計算の手段を含むことができる。テキスト類似度計算の手段は、予測テキストと合成テキストとのテキスト類似度を計算することであってもよく、テキスト類似度アルゴリズムを利用してテキスト誤差を計算することができ、例えば、同一の文字の数の比率を計算するアルゴリズムが挙げられる。テキスト距離計算の手段は、予測テキストと合成テキストとのテキスト距離を計算することであってもよく、例えば、ＦｒｏｍＷｏｒｄＥｍｂｅｄｄｉｎｇｓＴｏＤｏｃｕｍｅｎｔＤｉｓｔａｎｃｅｓ（ワードベクトルからテキスト距離に埋め込む）などのアルゴリズムを利用してテキスト距離を計算し、テキスト距離をテキスト誤差とする。

選択的に、第３の誤差条件は、デコード誤差がテキスト誤差しきい値より小さいことを含んでもよい。テキスト誤差しきい値は設定することによって取得され得る。

本実施例において、デコーダに対してパラメータ更新を行うことでデコーダを継続的にトレーニングしている。デコーダを更新する際、第２のデコーダを用いて第２の特徴シーケンスの予測テキストと第２のサブ合成画像の合成テキストとに対して、テキスト誤差計算を行うことによって取得されたデコード誤差を利用することができる。デコード誤差を計算することにより、デコーダを正確に逆フィードバックすることは実現され、パラメータの無効更新は回避され、パラメータ更新効率は向上するとともに、パラメータ更新の正確さも向上する。取得されるターゲットデコーダは、精度がより高いものとなる。

１つの可能な設計では、第２のデコーダに基づいて第２の特徴シーケンスの予測テキストを決定するステップは、
第２のサブ合成画像に基づき、トークンとして格納される第３の問い合わせベクトルを取得するステップと、
第３の問い合わせベクトルと第２の特徴シーケンスとを、第２のデコーダに入力し、第２のデコード特徴を取得するステップと、
第２のデコード特徴のテキスト認識処理によって、第２の特徴シーケンスの予測テキストを得るステップと、を含む。

選択的に、ｍａｓｋ（マスク）合成ポリシーに従って第２のサブ合成画像の特徴に対してディメンションダウンを行い、学習可能なトークン（ｔｏｋｅｎ）を利用するか、又は固定されたトークンを利用して、当該学習されたトークン又は固定されたトークンを第３の問い合わせベクトルとして得るようにしてもよい。

第３の問い合わせベクトルと第２の特徴シーケンスとを、第２のデコーダに入力してデコード計算を行い、第２のデコード特徴を取得することができる。第２のデコード特徴の予測テキストと第２のサブ合成画像のテキストが同じであることをトレーニングターゲットとする。

１つの可能な設計では、本開示において、第２のデコード特徴に対するテキスト認識処理は、テキスト認識ネットワークを使用して当該第２のデコード特徴に対してテキスト認識処理を実行することによって行ってもよい。テキスト認識ネットワークは、学習可能な計算ネットワークであり、デコード誤差が取得されたと決定する場合、デコード誤差が第３の誤差条件を満たすまで、デコード誤差を用いてテキスト認識ネットワークを更新することができる。

本実施例において、少なくとも２つの問い合わせベクトルに対してトークンアイデンティティ処理を行うことで、トークン付けされた第３の問い合わせベクトルを取得することができる。第２のデコーダを用いて第３の問い合わせベクトルと第２の特徴シーケンスに対してデコード計算を行い、第２のデコード特徴を取得することができる。第２のデコード特徴のテキスト認識処理によって、第２の特徴シーケンスの予測テキストを取得し、第２の特徴シーケンスのテキスト認識の精度を向上させることができる。

いくつかの実施例において、第２のサブ合成画像に基づき、トークンとして格納される第３の問い合わせベクトルを取得するステップは、
第２のサブ合成画像の特徴を抽出するステップと、
トークン生成アルゴリズムに基づき、第２の合成サブ画像の特徴をトークン形式に変換し、第３の問い合わせベクトルを取得するステップと、を含む。

選択的に、トークン生成アルゴリズムは、具体的に、固定された又は学習可能なｔｏｋｅｎをｑｕｅｒｙとするアルゴリズムであってもよい。学習してｔｏｋｅｎを取得することができる。トークン生成アルゴリズムは、さらに、固定されたトークン表記法であってもよく、第２のサブ合成画像のために、固定されたｔｏｋｅｎを設定して第３の問い合わせベクトルとしてもよい。

本実施例において、トークン変換処理によって第２のサブ合成画像を第３の問い合わせベクトルに変換し、正確なトークンアイデンティティを用いて、第３の問い合わせベクトルの正確さを向上させることができる。

１つの可能な設計では、第２の合成セットにおける第２のサブ合成画像の、合成サンプルにおける画像位置に基づき、第１の特徴シーケンスに対して特徴補完を行い、第２の特徴シーケンスを取得するステップは、
第２のサブ合成画像の合成サンプルにおける画像位置に基づき、第２のサブ合成画像の、合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するステップと、
第１の特徴シーケンスには、シーケンス位置に補完ベクトルを挿入し、第２の特徴シーケンスを取得するステップであって、補完ベクトルのベクトルディメンションが第１の特徴シーケンスのベクトルディメンションと同じである、ステップと、を含む。

選択的に、補完ベクトルは、予め設定された値がすべて同じであるベクトルであってもよい。例えば、値がすべて０であるベクトル又は値がすべて１であるベクトルが挙げられる。

シーケンス位置は、第２のサブ合成画像の合成シーケンスにおける位置であってもよい。第１の特徴シーケンスはｍａｓｋされたシーケンスであってもよく、具体的には、可視的画像に対応するシーケンスであってもよい。補完が必要である場合、ｍａｓｋされたシーケンスを補完し、例えば、仮に元の特徴シーケンスが「ａｂｃｄ」のようになっている４つのシーケンスが存在すると想定すると、ｍａｓｋされた後、第１の特徴シーケンスは、「ａｄ」という２つのシーケンスとなる場合、ｍａｓｋされた２つのシーケンス「ｂｃ」を補完する必要があり、すべてが０ベクトルで補完されると、「ａ００ｄ」というシーケンスを取得することができる。ここで、ａｂｃｄ又は０は、ベクトルを指すことができる。具体的には、図１の第１の特徴シーケンス２３から第２の特徴シーケンス２４の補完例を参照することができる。

本実施例において、第２のサブ合成画像の合成サンプルにおける画像位置に基づき、第２のサブ合成画像の合成シーケンスにおけるシーケンス位置を決定し、画像位置からシーケンス位置への変換を実現し、第１の特徴シーケンスには、シーケンス位置に補完ベクトルを挿入し、第２の特徴シーケンスを取得することができる。シーケンス位置を決定することにより、ベクトルの位置決めされた補完を実現し、より正確な第２の特徴シーケンスを取得することができる。

他の実施例として、少なくとも２つのサブ合成画像を第１のサブ合成画像と第２のサブ合成画像とに分けるステップは、
マスク合成ポリシーに従って、少なくとも２つのサブ合成画像を第１の合成セットと第２の合成セットとに分けるステップを含む。

マスク合成ポリシーは、予め設定された第２のマスクレートに基づいて生成されるマスクデータを含む。第２のマスクレートは、上記実施例のマスクレートに関する説明を参照することができ、ここで繰り返して説明しない。

選択的に、マスク合成ポリシーにおけるマスクデータを用いて少なくとも２つのサブ合成画像と行列計算し、第１の合成セットと第２の合成セットを取得することができる。第２のマスクレートは、最小マスキング値より高く設定されたターゲットマスキング率（ｍａｓｋｒａｔｉｏ）を含んでもよく、最小マスキング値は設定することによって取得され得るものであり、例えば、０.９に設定されてもよく、第２のマスクレートは、０.９より大きい任意の数値にされてもよいし、当然ながら、第２のマスクレートは１より小さくされてもよい。当然ながら、関連技術における他のマスク分割の手段も本開示に係るセット分割に適用されてもよい。ここで繰り返して説明しない。

本実施例において、マスク合成ポリシーを利用して少なくとも２つのサブ合成画像を第１の合成セットと第２の合成セットとに分けている。マスク合成ポリシーは、予め設定された第２のマスクレートによって生成されるマスクデータであってもよく、マスク合成ポリシーを用いて少なくとも２つのサブ合成画像を可視的第１の合成セットと不可視的第２の合成セットとに分けることができる。第１の合成セットにおける画像は可視的属性を有し、第２の合成セットにおける画像は不可視的属性を有するものとなっている。マスク合成ポリシーを利用することで、少なくとも２つのサブ合成画像を正確に分けることを実現することができる。

具体的に応用する際、図６に示すように、本開示の第５の実施例により提供される文字認識方法のフローチャートであり、当該方法は、以下のステップを含むことができる。

６０１では、ターゲットエンコーダと、ターゲットデコーダと、を決定する。ターゲットエンコーダは、上記実施例により提供される文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、ターゲットデコーダは、上記実施例により提供される文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである。

６０２では、認識対象画像を少なくとも２つのサブ画像に分割する。

６０３では、ターゲットエンコーダに基づいてサブ画像の画像特徴を抽出し、少なくとも２つのサブ画像にそれぞれ対応する画像特徴を取得する。

６０４では、ターゲットデコーダと少なくとも２つの問い合わせベクトルに基づき、少なくとも２つのサブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも２つのサブ画像に対応するデコード特徴シーケンスを取得する。

６０５では、デコード特徴シーケンスに従って、認識対象画像のターゲットテキストを得る。

本実施例において、ターゲットエンコーダとターゲットデコーダを利用して、認識対象画像に対して特徴シーケンス計算を行い、正確なデコード特徴シーケンスを取得することで、デコード特徴シーケンスを用いてテキスト認識を行い、ターゲットテキストを得る。ターゲットエンコーダとターゲットデコーダを利用してターゲットテキストを正確に認識することができる。

図７に示すように、本開示の第６の実施例により提供される文字認識モデルトレーニング装置の構造図である。当該文字認識モデルトレーニング装置７００は、
タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像に分割するために用いられる第１の分割ユニット７０１と、
少なくとも２つのサブサンプル画像を、可視的属性を有する第１のサブサンプル画像を含む第１のトレーニングセットと、不可視的属性を有する第２のサブサンプル画像を含む第２のトレーニングセットと、に分けるために用いられる第１の分けユニット７０２と、
第２のトレーニングセットを第１のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るために用いられる第１のトレーニングユニット７０３と、を含むことができる。

１つの実施例として、第１のトレーニングユニットは、
トレーニング対象エンコーダを初期化し、第１のエンコーダを取得するために用いられる第１の取得モジュールと、
第１のエンコーダに基づき、第１のトレーニングセットにおける第１のサブサンプル画像の第１の視覚特徴と、第２のトレーニングセットにおける第２のサブサンプル画像の第２の視覚特徴と、を抽出するために用いられる第１の抽出モジュールと、
第１の視覚特徴に対してマスク問い合わせ計算を行い、第３の視覚特徴を取得するために用いられる第１の計算モジュールと、
第３の視覚特徴と第２の視覚特徴との特徴誤差に従って、特徴誤差が第１の誤差条件を満たすまで、第１のエンコーダを更新し、最終的に更新される第１のエンコーダをターゲットエンコーダとして決定するために用いられる第１のトレーニングモジュールと、を含む。

いくつかの実施例において、第１のトレーニングモジュールは、
トレーニング対象デコーダを初期化し、第１のデコーダを取得するために用いられるデコード決定サブモジュールと、
第１のデコーダに基づき、第３の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するために用いられる第１の誤差サブモジュールと、
第３の視覚特徴と第２の視覚特徴との特徴誤差を決定するために用いられる第２の誤差サブモジュールと、
特徴誤差と画像誤差に基づき、特徴誤差が第１の誤差条件を満たし且つ画像誤差が第２の誤差条件を満たすまで、第１のエンコーダを更新し、画像誤差に基づいて第１のデコーダを更新し、最終的に取得された第１のエンコーダをターゲットエンコーダとして決定するために用いられる第１の更新サブモジュールと、を含む。

１つの可能な設計では、第１の誤差サブモジュールは、具体的に、
第１のデコーダを利用して第３の視覚特徴に対してデコード計算処理を行い、第１のデコード特徴を取得すること、及び
第１のデコード特徴に対する画像再構築の結果に従って、画像誤差を得ること、に用いられる。

１つの選択的な実施形態として、第１の誤差サブモジュールは、具体的に、
第１のデコード特徴に対して画像再構築処理を行い、第１の予測結果を取得すること、及び、
第２のサブサンプル画像と第１の予測結果を利用して画像誤差計算を行い、画像誤差を取得すること、に更に用いられる。

１つの実施例として、さらに、
マスク設定ポリシーに従って、少なくとも２つの問い合わせベクトルを第１の問い合わせベクトルと第２の問い合わせベクトルとに分けるために用いられる問い合わせ決定ユニットを含み、マスク設定ポリシーは予め設定された第１のマスクレートに基づいて生成されたマスクデータを含み、問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルであり、
第１の計算モジュールは、
第２の問い合わせベクトルと第１の視覚特徴に基づく特徴予測計算によって、第１の視覚特徴の第２の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るために用いられるベクトル計算サブモジュールと、
第１の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、第３の視覚特徴を得るために用いられるベクトル組み合わせサブモジュールと、を含む。

他の実施例として、第１の分けユニットは、
マスク設定ポリシーを利用して、少なくとも２つのサブサンプル画像を、第１のトレーニングセットと、第２のトレーニングセットと、に分けるために用いられる第１の分けモジュールを含む。

図８に示すように、本開示の第７の実施例により提供される文字認識モデルトレーニング装置の構造図である。当該文字認識モデルトレーニング装置８００は、
合成テキストタグを含む合成サンプルを、少なくとも２つのサブ合成画像に分割するために用いられる第２の分割ユニット８０１と、
少なくとも２つのサブ合成画像を、可視的属性を有する第１のサブ合成画像を含む第１の合成セットと、不可視的属性を有する第２のサブ合成画像を含む第２の合成セットと、に分けるために用いられる第２の分けユニット８０２と、
第１の合成セットと第２の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第２のトレーニングユニット８０３と、を含むことができる。

１つの実施例として、第２のトレーニングユニットは、
ターゲットエンコーダを利用して第１の合成セットにおける第１のサブ合成画像の第１の特徴シーケンスを抽出するために用いられる第２の抽出モジュールであって、ターゲットエンコーダは、上記実施例に係る文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、第２の抽出モジュールと、
第２の合成セットにおける第２のサブ合成画像の、合成サンプルにおける画像位置に基づき、第１の特徴シーケンスに対して特徴補完を行い、第２の特徴シーケンスを取得するために用いられる特徴補完モジュールと、
トレーニング対象デコーダを用いて、第２の特徴シーケンスの予測テキストが、第２のサブ合成画像の合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第２のトレーニングモジュールと、を含む。

いくつかの実施例において、第２のトレーニングモジュールは、
トレーニング対象デコーダを初期化し、第２のデコーダを取得するために用いられる第１の取得サブモジュールと、
第２のデコーダに基づいて第２の特徴シーケンスの予測テキストを決定するために用いられるテキスト予測サブモジュールと、
予測テキストと、第２のサブ合成画像の合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するために用いられる第３の誤差サブモジュールと、
デコード誤差が第３の誤差条件を満たすまで、デコード誤差に基づいて第２のデコーダを更新し、最終的に取得された第２のデコーダをターゲットデコーダとして決定するために用いられる第２の更新サブモジュールと、を含む。

１つの可能な設計では、テキスト予測サブモジュールは、具体的に、
第２のサブ合成画像に基づき、トークンとして格納される第３の問い合わせベクトルを取得することと、
第３の問い合わせベクトルと第２の特徴シーケンスとを、第２のデコーダに入力し、第２のデコード特徴を取得することと、
第２のデコード特徴のテキスト認識処理によって、第２の特徴シーケンスの予測テキストを得ることと、に用いられる。

いくつかの実施例において、テキスト予測サブモジュールは、具体的に、
第２のサブ合成画像の特徴を抽出すること、及び
トークン生成アルゴリズムに基づき、第２のサブ合成画像の特徴をトークン形式に変換し、第３の問い合わせベクトルを取得すること、に用いられる。

１つの可能な設計では、特徴補完モジュールは、
第２のサブ合成画像の合成サンプルにおける画像位置に基づき、第２のサブ合成画像の、合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するために用いられる位置決定サブモジュールと、
第１の特徴シーケンスには、シーケンス位置に補完ベクトルを挿入し、第２の特徴シーケンスを取得するために用いられるベクトル挿入サブモジュールと、を含む。

いくつかの実施例において、第２の分けユニットは、
マスク合成ポリシーに従って、少なくとも２つのサブ合成画像を、第１の合成セットと、第２の合成セットと、に分けるために用いられる第２の分けモジュールを含み、マスク合成ポリシーは、予め設定された第２のマスクレートに基づいて生成されるマスクデータを含む。

図９に示すように、本開示の第８の実施例により提供される文字認識装置の構造図である。当該文字認識装置９００は、
ターゲットエンコーダと、ターゲットデコーダと、を決定するために用いられるターゲット決定ユニット９０１であって、ターゲットエンコーダは、上記実施例に係る文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、ターゲットデコーダは、上記実施例に係る文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ターゲット決定ユニット９０１と、
認識対象画像について、認識対象画像を少なくとも２つのサブ画像に分割するために用いられる第３の分割ユニット９０２と、
ターゲットエンコーダに基づいてサブ画像の画像特徴を抽出し、少なくとも２つのサブ画像にそれぞれ対応する画像特徴を取得するために用いられるエンコード計算ユニット９０３と、
ターゲットデコーダと少なくとも２つの問い合わせベクトルに基づき、少なくとも２つのサブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも２つのサブ画像に対応するデコード特徴シーケンスを取得するために用いられるデコード計算ユニット９０４と、
デコード特徴シーケンスに従って、認識対象画像のターゲットテキストを得るために用いられるテキスト認識ユニット９０５と、を含むことができる。

本開示により提供される装置は、上記実施例に係る方法を実行するために用いられることができ、各ユニット、モジュール又はサブモジュールによって実行される内容は、上記実施例での説明を参照することができ、ここで繰り返して説明しない。

なお、本実施例におけるエンコーダ及びデコーダは、特定のユーザ向けのものではなく、特定のユーザの個人情報を反映することができない。なお、本実施例におけるトレーニングサンプル、合成サンプル及び認識対象画像は、公開データセット由来である。

本開示に係る技術案において、関連するユーザの個人情報の收集や、保存、使用、加工、伝送、提供、公開などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。

本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラム製品を提供する。

本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを含むコンピュータプログラム製品を提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも１つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか１つの実施例により提供される技術案を実行する。

図１０は、本開示の実施例を実施するために使用可能な例示的な電子機器１０００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実施を制限することを意図したものではない。

図１０に示すように、機器１０００は、計算ユニット１００１を含み、当該計算ユニット１００１は、読み取り専用メモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラム、または、記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。ＲＡＭ１００３には、さらに、機器１０００の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット１００１、ＲＯＭ１００２及びＲＡＭ１００３は、バス１００４を介して接続される。入力／出力（Ｉ／Ｏ）インタフェース１００５も、バス１００４に接続される。

キーボードやマウスなどの入力ユニット１００６と、さまざまなタイプのモニタやスピーカーなどの出力ユニット１００７と、磁気ディスクや光ディスクなどの記憶ユニット１００８と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット１００９と、を含む、機器１０００における少なくとも２つのコンポーネントは、Ｉ／Ｏインタフェース１００５に接続される。通信ユニット１００９は、機器１０００がインターネットなどのコンピュータネットワーク及び／又はさまざまな電気通信ネットワークを介して他の機器と情報／データを交換することを可能にさせる。

計算ユニット１００１は、処理能力や計算能力を有するさまざまな汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット１００１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、さまざまな専用な人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット１００１は、文字認識モデルトレーニング方法又は文字認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、文字認識モデルトレーニング方法又は文字認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット１００８などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ＲＯＭ１００２及び／又は通信ユニット１００９を介して機器１０００にロード及び／又はインストールされることができる。コンピュータプログラムは、ＲＡＭ１００３にロードされて計算ユニット１００１により実行されると、上記に記載の文字認識モデルトレーニング方法又は文字認識方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット１００１は、他の任意の適当な手段（例えば、ファームウェアに頼る）を用いて文字認識モデルトレーニング方法又は文字認識方法を実行するように構成されることができる。

本明細書において、上記に記載のシステム及び技術のさまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、複雑なプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態において、１つ又は複数のコンピュータプログラムに実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本開示に係る方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び／又はブロック図に示される機能／操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。

本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子的なもの、磁気的なもの、光学的なもの、電磁気的なもの、赤外線的なもの、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、１つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ（登録商標））、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとする）、或いは、ミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）、或いは、フロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの実例は、ローカルネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアント端末とサーバとを含むことができる。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末－サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａＬＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称）に存在する管理が難しく、ビジネスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

文字認識モデルトレーニング方法であって、
タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像に分割するステップと、
少なくとも２つの前記サブサンプル画像を、可視的属性を有する第１のサブサンプル画像を含む第１のトレーニングセットと、不可視的属性を有する第２のサブサンプル画像を含む第２のトレーニングセットと、に分けるステップと、
前記第２のトレーニングセットを前記第１のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るステップと、を含む、文字認識モデルトレーニング方法。
前記第２のトレーニングセットを前記第１のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るステップは、
前記トレーニング対象エンコーダを初期化し、第１のエンコーダを取得するステップと、
前記第１のエンコーダに基づき、前記第１のトレーニングセットにおける第１のサブサンプル画像の第１の視覚特徴と、前記第２のトレーニングセットにおける第２のサブサンプル画像の第２の視覚特徴と、を抽出するステップと、
前記第１の視覚特徴に対してマスク問い合わせ計算を行い、第３の視覚特徴を取得するステップと、
前記第３の視覚特徴と前記第２の視覚特徴との特徴誤差に従って、前記特徴誤差が第１の誤差条件を満たすまで、前記第１のエンコーダを更新し、最終的に更新される第１のエンコーダをターゲットエンコーダとして決定するステップと、を含む、請求項１に記載の方法。
前記第３の視覚特徴と前記第２の視覚特徴との特徴誤差に従って、前記特徴誤差が第１の誤差条件を満たすまで、前記第１のエンコーダを更新し、最終的に更新される第１のエンコーダをターゲットエンコーダとして決定するステップは、
トレーニング対象デコーダを初期化し、第１のデコーダを取得するステップと、
前記第１のデコーダに基づき、前記第３の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップと、
前記第３の視覚特徴と前記第２の視覚特徴との特徴誤差を決定するステップと、
前記特徴誤差と前記画像誤差に基づき、前記特徴誤差が前記第１の誤差条件を満たし且つ前記画像誤差が第２の誤差条件を満たすまで、前記第１のエンコーダを更新し前記画像誤差に基づいて前記第１のデコーダを更新し、最終的に取得された第１のエンコーダをターゲットエンコーダとして決定するステップと、を含む、請求項２に記載の方法。
前記第１のデコーダに基づき、前記第３の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するステップは、
前記第１のデコーダを利用して前記第３の視覚特徴に対してデコード計算処理を行い、第１のデコード特徴を取得するステップと、
前記第１のデコード特徴に対する画像再構築の結果に従って、前記画像誤差を得るステップと、を含む、請求項３に記載の方法。
前記第１のデコード特徴に対する画像再構築の結果に従って、前記画像誤差を得るステップは、
前記第１のデコード特徴に対して画像再構築処理を行い、第１の予測結果を取得するステップと、
前記第２のサブサンプル画像と前記第１の予測結果を利用して画像誤差計算を行い、前記画像誤差を取得するステップと、を含む、請求項４に記載の方法。
前記方法は、さらに、
マスク設定ポリシーに従って、少なくとも２つの問い合わせベクトルを第１の問い合わせベクトルと第２の問い合わせベクトルとに分けるステップを含み、前記マスク設定ポリシーは予め設定された第１のマスクレートに基づいて生成されたマスクデータを含み、前記少なくとも２つの問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルであり、
前記第１の視覚特徴に対してマスク問い合わせ計算を行い、第３の視覚特徴を取得するステップは、
前記第２の問い合わせベクトルと前記第１の視覚特徴に基づく特徴予測計算によって、前記第１の視覚特徴の前記第２の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るステップと、
前記第１の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、前記第３の視覚特徴を得るステップと、を含む、請求項２に記載の方法。
少なくとも２つのサブサンプル画像を、第１のトレーニングセットと、第２のトレーニングセットと、に分けるステップは、
マスク設定ポリシーを利用して、少なくとも２つの前記サブサンプル画像を、第１のトレーニングセットと、第２のトレーニングセットと、に分けるステップを含む、請求項１に記載の方法。
文字認識モデルトレーニング方法であって、
合成テキストタグを含む合成サンプルを、少なくとも２つのサブ合成画像に分割するステップと、
少なくとも２つの前記サブ合成画像を、可視的属性を有する第１のサブ合成画像を含む第１の合成セットと、不可視的属性を有する第２のサブ合成画像を含む第２の合成セットと、に分けるステップと、
前記第１の合成セットと前記第２の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップと、を含む、文字認識モデルトレーニング方法。
前記第１の合成セットと前記第２の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、
ターゲットエンコーダを利用して前記第１の合成セットにおける第１のサブ合成画像の第１の特徴シーケンスを抽出するステップであって、前記ターゲットエンコーダは、請求項１～７のいずれか１項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ステップと、
前記第２の合成セットにおける第２のサブ合成画像の、前記合成サンプルにおける画像位置に基づき、前記第１の特徴シーケンスに対して特徴補完を行い、第２の特徴シーケンスを取得するステップと、
トレーニング対象デコーダを用いて、前記第２の特徴シーケンスの予測テキストが、前記第２のサブ合成画像の前記合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップと、を含む、請求項８に記載の方法。
トレーニング対象デコーダを用いて、前記第２の特徴シーケンスの予測テキストが、前記第２のサブ合成画像の前記合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するステップは、
前記トレーニング対象デコーダを初期化し、第２のデコーダを取得するステップと、
前記第２のデコーダに基づいて前記第２の特徴シーケンスの予測テキストを決定するステップと、
前記予測テキストと、前記第２のサブ合成画像の前記合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するステップと、
前記デコード誤差が第３の誤差条件を満たすまで、前記デコード誤差に基づいて前記第２のデコーダを更新し、最終的に取得された前記第２のデコーダを前記ターゲットデコーダとして決定するステップと、を含む、請求項９に記載の方法。
前記第２のデコーダに基づいて前記第２の特徴シーケンスの予測テキストを決定するステップは、
前記第２のサブ合成画像に基づき、トークンとして格納される第３の問い合わせベクトルを取得するステップと、
前記第３の問い合わせベクトルと前記第２の特徴シーケンスとを、前記第２のデコーダに入力し、第２のデコード特徴を取得するステップと、
前記第２のデコード特徴のテキスト認識処理によって、前記第２の特徴シーケンスの予測テキストを得るステップと、を含む、請求項１０に記載の方法。
前記第２のサブ合成画像に基づき、トークンとして格納される第３の問い合わせベクトルを取得するステップは、
前記第２のサブ合成画像の特徴を抽出するステップと、
トークン生成アルゴリズムに基づき、前記第２のサブ合成画像の特徴をトークン形式に変換し、前記第３の問い合わせベクトルを取得するステップと、を含む、請求項１１に記載の方法。
前記第２の合成セットにおける第２のサブ合成画像の、前記合成サンプルにおける画像位置に基づき、前記第１の特徴シーケンスに対して特徴補完を行い、第２の特徴シーケンスを取得するステップは、
前記第２のサブ合成画像の前記合成サンプルにおける画像位置に基づき、前記第２のサブ合成画像の、前記合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するステップと、
前記第１の特徴シーケンスには、前記シーケンス位置に補完ベクトルを挿入し、前記第２の特徴シーケンスを取得するステップと、を含む、請求項９に記載の方法。
少なくとも２つの前記サブ合成画像を、第１の合成セットと、第２の合成セットと、に分けるステップは、
マスク合成ポリシーに従って、少なくとも２つの前記サブ合成画像を前記第１の合成セットと前記第２の合成セットとに分けるステップを含み、前記マスク合成ポリシーは、予め設定された第２のマスクレートに基づいて生成されるマスクデータを含む、請求項８に記載の方法。
文字認識方法であって、
ターゲットエンコーダと、ターゲットデコーダと、を決定するステップであって、前記ターゲットエンコーダは、請求項１～７のいずれか１項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、前記ターゲットデコーダは、請求項８に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ステップと、
認識対象画像を少なくとも２つのサブ画像に分割するステップと、
前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも２つの前記サブ画像にそれぞれ対応する画像特徴を取得するステップと、
前記ターゲットデコーダと少なくとも２つの問い合わせベクトルに基づき、少なくとも２つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも２つの前記サブ画像に対応するデコード特徴シーケンスを取得するステップと、
前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るステップと、を含む、文字認識方法。
文字認識モデルトレーニング装置であって、
タグなしのトレーニングサンプルを少なくとも２つのサブサンプル画像に分割するために用いられる第１の分割ユニットと、
少なくとも２つの前記サブサンプル画像を、可視的属性を有する第１のサブサンプル画像を含む第１のトレーニングセットと、不可視的属性を有する第２のサブサンプル画像を含む第２のトレーニングセットと、に分けるために用いられる第１の分けユニットと、
前記第２のトレーニングセットを前記第１のトレーニングセットのタグとし、トレーニング対象エンコーダに対して自己監視トレーニングを実行し、ターゲットエンコーダを得るために用いられる第１のトレーニングユニットと、を含む、文字認識モデルトレーニング装置。
第１のトレーニングユニットは、
前記トレーニング対象エンコーダを初期化し、第１のエンコーダを取得するために用いられる第１の取得モジュールと、
前記第１のエンコーダに基づき、前記第１のトレーニングセットにおける第１のサブサンプル画像の第１の視覚特徴と、前記第１のトレーニングセットにおける第２のサブサンプル画像の第２の視覚特徴と、を抽出するために用いられる第１の抽出モジュールと、
前記第１の視覚特徴に対してマスク問い合わせ計算を行い、第３の視覚特徴を取得するために用いられる第１の計算モジュールと、
前記第３の視覚特徴と前記第２の視覚特徴との特徴誤差に従って、前記特徴誤差が第１の誤差条件を満たすまで、前記第１のエンコーダを更新し、最終的に更新される第１のエンコーダをターゲットエンコーダとして決定するために用いられる第１のトレーニングモジュールと、を含む、請求項１６に記載の装置。
前記第１のトレーニングモジュールは、
トレーニング対象デコーダを初期化し、第１のデコーダを取得するために用いられるデコード決定サブモジュールと、
前記第１のデコーダに基づき、前記第３の視覚特徴に対して画像再構築を実行することから生じる画像誤差を決定するために用いられる第１の誤差サブモジュールと、
前記第３の視覚特徴と前記第２の視覚特徴との特徴誤差を決定するために用いられる第２の誤差サブモジュールと、
前記特徴誤差と前記画像誤差に基づき、前記特徴誤差が前記第１の誤差条件を満たし且つ前記画像誤差が第２の誤差条件を満たすまで、前記第１のエンコーダを更新し前記画像誤差に基づいて前記第１のデコーダを更新し、最終的に取得された第１のエンコーダをターゲットエンコーダとして決定するために用いられる第１の更新サブモジュールと、を含む、請求項１７に記載の装置。
前記第１の誤差サブモジュールは、
前記第１のデコーダを利用して前記第３の視覚特徴に対してデコード計算処理を行い、第１のデコード特徴を取得すること、及び
前記第１のデコード特徴に対する画像再構築の結果に従って、前記画像誤差を得ること、に用いられる、請求項１８に記載の装置。
前記第１の誤差サブモジュールは、
前記第１のデコード特徴に対して画像再構築処理を行い、第１の予測結果を取得すること、及び
前記第２のサブサンプル画像と前記第１の予測結果を利用して画像誤差計算を行い、前記画像誤差を取得すること、に用いられる、請求項１９に記載の装置。
前記装置は、
マスク設定ポリシーに従って、少なくとも２つの問い合わせベクトルを第１の問い合わせベクトルと第２の問い合わせベクトルとに分けるために用いられる問い合わせ決定ユニットをさらに含み、前記マスク設定ポリシーは予め設定された第１のマスクレートに基づいて生成されたマスクデータを含み、前記問い合わせベクトルは基礎的文字列に対応する空間変換ベクトルであり、
前記第１の計算モジュールは、
前記第２の問い合わせベクトルと前記第１の視覚特徴に基づく特徴予測計算によって、前記第１の視覚特徴の前記第２の問い合わせベクトルにおける出現確率に対応する特徴ベクトルを得るために用いられるベクトル計算サブモジュールと、
前記第１の視覚特徴に対応する特徴ベクトルに対してベクトル組み合わせを行い、前記第３の視覚特徴を得るために用いられるベクトル組み合わせサブモジュールと、を含む、請求項１７に記載の装置。
前記第１の分けユニットは、
マスク設定ポリシーを利用して、少なくとも２つの前記サブサンプル画像を、第１のトレーニングセットと、第２のトレーニングセットと、に分けるために用いられる第１の分けモジュールを含む、請求項１６に記載の装置。
文字認識モデルトレーニング装置であって、
合成テキストタグを含む合成サンプルを、少なくとも２つのサブ合成画像に分割するために用いられる第２の分割ユニットと、
少なくとも２つの前記サブ合成画像を、可視的属性を有する第１のサブ合成画像を含む第１の合成セットと、不可視的属性を有する第２のサブ合成画像を含む第２の合成セットと、に分けるために用いられる第２の分けユニットと、
前記第１の合成セットと前記第２の合成セットに基づき、トレーニング対象デコーダに対して監視付きトレーニングを実行し、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第２のトレーニングユニットと、を含む、文字認識モデルトレーニング装置。
前記第２のトレーニングユニットは、
ターゲットエンコーダを利用して前記第１の合成セットにおける第１のサブ合成画像の第１の特徴シーケンスを抽出するために用いられる第２の抽出モジュールであって、前記ターゲットエンコーダは、請求項１～７のいずれか１項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、第２の抽出モジュールと、
前記第２の合成セットにおける第２のサブ合成画像の、前記合成サンプルにおける画像位置に基づき、前記第１の特徴シーケンスに対して特徴補完を行い、第２の特徴シーケンスを取得するために用いられる特徴補完モジュールと、
トレーニング対象デコーダを用いて、前記第２の特徴シーケンスの予測テキストが、前記第２のサブ合成画像の前記合成テキストタグにおける合成テキストと同じであることを、トレーニングターゲットとしてトレーニングし、前記トレーニング対象デコーダに対応するターゲットデコーダを取得するために用いられる第２のトレーニングモジュールと、を含む、請求項２３に記載の装置。
前記第２のトレーニングモジュールは、
前記トレーニング対象デコーダを初期化し、第２のデコーダを取得するために用いられる第１の取得サブモジュールと、
前記第２のデコーダに基づいて前記第２の特徴シーケンスの予測テキストを決定するために用いられるテキスト予測サブモジュールと、
前記予測テキストと、前記第２のサブ合成画像の前記合成テキストタグにおける合成テキストと、を利用してテキスト誤差計算を行い、デコード誤差を取得するために用いられる第３の誤差サブモジュールと、
前記デコード誤差が第３の誤差条件を満たすまで、前記デコード誤差に基づいて前記第２のデコーダを更新し、最終的に取得された前記第２のデコーダを前記ターゲットデコーダとして決定するために用いられる第２の更新サブモジュールと、を含む、請求項２４に記載の装置。
前記テキスト予測サブモジュールは、
前記第２のサブ合成画像に基づき、トークンとして格納される第３の問い合わせベクトルを取得することと、
前記第３の問い合わせベクトルと前記第２の特徴シーケンスとを、前記第２のデコーダに入力し、第２のデコード特徴を取得することと、
前記第２のデコード特徴のテキスト認識処理によって、前記第２の特徴シーケンスの予測テキストを得ることと、に用いられる、請求項２５に記載の装置。
前記テキスト予測サブモジュールは、
前記第２のサブ合成画像の特徴を抽出すること、及び
トークン生成アルゴリズムに基づき、前記第２のサブ合成画像をトークン形式に変換し、前記第３の問い合わせベクトルを取得すること、に用いられる、請求項２６に記載の装置。
前記特徴補完モジュールは、
前記第２のサブ合成画像の前記合成サンプルにおける画像位置に基づき、前記第２のサブ合成画像の、前記合成サンプルに対応する合成シーケンスにおけるシーケンス位置を決定するために用いられる位置決定サブモジュールと、
前記第１の特徴シーケンスには、前記シーケンス位置に補完ベクトルを挿入し、前記第２の特徴シーケンスを取得するために用いられるベクトル挿入サブモジュールと、を含む、請求項２４に記載の装置。
前記第２の分けユニットは、
マスク合成ポリシーに従って、少なくとも２つの前記サブ合成画像を前記第１の合成セットと前記第２の合成セットとに分けるために用いられる第２の分けモジュールを含み、前記マスク合成ポリシーは、予め設定された第２のマスクレートに基づいて生成されるマスクデータを含む、請求項２３に記載の装置。
文字認識装置であって、
ターゲットエンコーダと、ターゲットデコーダと、を決定するために用いられるターゲット決定ユニットであって、前記ターゲットエンコーダは、請求項１～７のいずれか１項に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものであり、前記ターゲットデコーダは、請求項８に記載の文字認識モデルトレーニング方法に基づいてトレーニングして取得されるものである、ターゲット決定ユニットと、
認識対象画像について、前記認識対象画像を少なくとも２つのサブ画像に分割するために用いられる第３の分割ユニットと、
前記ターゲットエンコーダを利用して前記サブ画像の画像特徴を抽出し、少なくとも２つの前記サブ画像にそれぞれ対応する画像特徴を取得するために用いられるエンコード計算ユニットと、
前記ターゲットデコーダと少なくとも２つの問い合わせベクトルに基づき、少なくとも２つの前記サブ画像にそれぞれ対応する画像特徴に対してデコード計算を行い、少なくとも２つの前記サブ画像に対応するデコード特徴シーケンスを取得するために用いられるデコード計算ユニットと、
前記デコード特徴シーケンスに従って、前記認識対象画像のターゲットテキストを得るために用いられるテキスト認識ユニットと、を含む、文字認識装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが請求項１～８のいずれか１項に記載の方法を実行することができるように、前記少なくとも１つのプロセッサにより実行される、電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～８のいずれか１項に記載の方法を実行させるために用いられる、非一時的なコンピュータ可読記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されるとき、コンピュータに請求項１～８のいずれか１項に記載の方法を実現させる、コンピュータプログラム。