JP2022191470A

JP2022191470A - モデルトレーニング、文字認識方法、装置、機器及び記憶媒体

Info

Publication number: JP2022191470A
Application number: JP2022169573A
Authority: JP
Inventors: シュ，ヤンリウ; Yangliu Xu; シェ，チュンイー; Qunyi Xie; チェン，イー; Yi Chen; チン，シァモン; Xiameng Qin; ヂャン，チョンチュアン; Chengquan Zhang; ヤオ，クン; Kun Yao
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-26
Filing date: 2022-10-24
Publication date: 2022-12-27
Also published as: CN113971806A; US20230042234A1; CN113971806B

Abstract

【課題】モデルトレーニング、文字認識方法、装置、機器及び記憶媒体を提供する。【解決手段】方法は、第１の構築画像と第１の構築画像における第１の実際の文字を用いたトレーニングによりトレーニング対象モデルと支援トレーニングモデルを得るステップＳ１０１と、シーン画像、シーン画像における第２の実際の文字および第２の構築画像を取得するステップＳ１０２と、トレーニング対象モデルを用いてシーン画像に対して文字認識を行って、抽出された文字の第１の特徴と第１の認識文字を得るステップＳ１０３と、支援トレーニングモデルを用いて第２の構築画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第２の特徴を得るステップＳ１０４と、第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得るステップＳ１０５と、を含む。【選択図】図１

Description

本開示は人工知能技術分野に関し、具体的にはコンピュータ視覚と深層学習技術の分野であり、ＯＣＲ光学文字認識などのシーンに応用することができる。

近年、ＯＣＲ（Optical Character Recognition、光学文字認識）技術は、金融、交通、教育などの各業界で広く注目され、適用されている。電子機器はＯＣＲ技術に基づいて画像における文字をコンピュータ識別可能な文字に翻訳し、文字認識を実現することができる。

また、現在の人工知能技術も急速に発展し、人工知能技術は徐々に文字認識シーンに導入されており、ニューラルネットワークモデルを使用して文字認識を実現することによって文字認識の効率と精度を著しく向上させることができると意識した人がますます多くなっている。そのため、どのようにニューラルネットワークモデルをトレーニングして、文字認識を行うためのモデルを得るかは早急に解決しなければならない問題となっている。

本開示は、モデルトレーニング、文字認識方法、装置、機器及び記憶媒体を提供する。

本開示の一態様によれば、第１の構築画像と第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得るステップと、シーン画像、シーン画像における第２の実際の文字および第２の構築画像を取得するステップであって、第２の構築画像における文字と第２の実際の文字とは同じであるステップと、トレーニング対象モデルを用いてシーン画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得るステップと、支援トレーニングモデルを用いて第２の構築画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第２の特徴を得るステップと、第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得るステップと、を含むモデルトレーニング方法を提供する。

本開示の別の態様によれば、認識対象画像を取得するステップと、認識対象画像を文字認識モデルに入力して、文字認識モデルから出力された認識文字を得るステップであって、文字認識モデルが上記のモデルトレーニング方法でトレーニングして得られるモデルであるステップと、を含む文字認識方法を提供する。

本開示の別の態様によれば、第１の構築画像と第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得るモデル取得モジュールと、シーン画像、シーン画像における第２の実際の文字および第２の構築画像を取得する第１の画像取得モジュールであって、第２の構築画像における文字と第２の実際の文字とは同じである第１の画像取得モジュールと、トレーニング対象モデルを用いてシーン画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得る文字決定モジュールと、支援トレーニングモデルを用いて第２の構築画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第２の特徴を得る特徴決定モジュールと、第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得る第１のモデルトレーニングモジュールと、を含むモデルトレーニング装置を提供する。

本開示の別の態様によれば、認識対象画像を取得する第２の画像取得モジュールと、認識対象画像を文字認識モデルに入力して、文字認識モデルから出力された認識文字を得る文字認識モジュールであって、文字認識モデルが上記のモデルトレーニング装置でトレーニングして得られるモデルである文字認識モジュールと、を含む文字認識装置を提供する。

本開示の別の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、命令は、少なくとも１つのプロセッサが上記モデルトレーニングまたは文字認識方法を実行できるように、少なくとも１つのプロセッサによって実行される。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに上記モデルトレーニングまたは文字認識方法を実行させる。

本開示の別の態様によれば、コンピュータプログラムを提供し、コンピュータプログラムはプロセッサによって実行される場合、上記モデルトレーニングまたは文字認識方法を実現する。

以上より、本開示の実施例によって提供される技術案を用いてモデルトレーニングを行う場合、第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、トレーニング対象モデルのモデルパラメータを調整し、モデルトレーニングを実現する。

一方、第１の認識文字はトレーニング対象モデルによってシーン画像に対して文字認識を行って得られた文字であり、第２の実際の文字がシーン画像に実際に含まれる文字であるため、第１の識別文字と第２の実際の文字との差異はトレーニング対象モデルがシーン画像に対して文字認識を行う能力を反映することができる。他方、第１の特徴はトレーニング対象モデルによって抽出して得られたシーン画像における文字の特徴であり、第２の特徴は支援トレーニングモデルによって抽出して得られた第２の構築画像における文字の特徴であり、支援トレーニングモデルが構築画像を用いてトレーニングして得られたものであるため、第２の特徴は第２の構築画像における文字を正確に特徴づけることができる。また、第２の構築画像における文字がシーン画像における文字と同じであるため、第１の特徴と第２の特徴との差異は、トレーニング対象モデルがシーン画像における文字に対して特徴抽出を行う能力を反映することができる。

上記の２つの点をまとめると、第１の識別文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいてトレーニングして得られたトレーニング対象モデルは、シーン画像における文字の特徴を抽出する法則を学習することができ、シーン画像に対して文字認識を行う法則を学習することもできる。従って、本開示の実施例によって提供される技術案は、トレーニングして文字認識を行うためのモデルを得ることができる。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の実施例によって提供される第１のモデルトレーニング方法の概略フローチャートである。本開示の実施例によって提供される第１の構築画像である。本開示の実施例によって提供されるシーン画像である。本開示の実施例によって提供される第２の構築画像である。本開示の実施例によって提供される第２のモデルトレーニング方法の概略フローチャートである。本開示の実施例によって提供される第３のモデルトレーニング方法の概略フローチャートである。本開示の実施例によって提供される支援トレーニングモデルの概略構成図である。本開示の実施例によって提供される第４のモデルトレーニング方法の概略フローチャートである。本開示の実施例によって提供される第３の構築画像である。本開示の実施例によって提供される第４の構築画像である。本開示の実施例によって提供されるトレーニング対象モデル、支援トレーニングモデルの概略構成図である。本開示の実施例によって提供される文字認識方法の概略フローチャートである。本開示の実施例によって提供される第１のモデルトレーニング装置の概略構成図である。本開示の実施例によって提供される第２のモデルトレーニング装置の概略構成図である。本開示の実施例によって提供される第３のモデルトレーニング装置の概略構成図である。本開示の実施例によって提供される第４のモデルトレーニング装置の概略構成図である。本開示の実施例によって提供される文字認識装置の概略構成図である。本開示の実施例のモデルトレーニングまたは文字認識方法を実現するための電子機器のブロック図である。

以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

図１を参照すると、図１は、本開示の実施例によって提供される第１のモデルトレーニング方法の概略フローチャートである。上記方法は以下のステップＳ１０１～Ｓ１０５を含む。

ステップＳ１０１、第１の構築画像と第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得る。

上記第１の構築画像とは、シーンに対して画像収集装置によって収集された画像ではなく、人為的に構築された画像を指す。上記の第１の構築画像には、様々な異なるタイプの構築画像が含まれることができ、具体的なタイプについては、以下の図６ａ、６ｂに示される画像及び対応する実施例を参照することができる。

画像を構築する中に、様々な異なる画像生成アルゴリズムを用いて画像を構築することができる。上記の画像生成アルゴリズムは、従来技術において画像を生成するための様々なアルゴリズムであってもよく、本開示の実施例はこれを限定しない。

上記第１の実際の文字とは、第１の構築画像に実際に含まれる文字を指す。当該第１の実際の文字は、第１の構築画像を構築する時に一括して得ることができる。

図２ａを例として、図２ａに示される画像は構築画像である。当該構築画像における「ＫＤ８９ＲＴ２９９ＵＤＦＪ２６」は、構築画像に実際に含まれる文字、すなわち第１の実際の文字である。

上記の初期ニューラルネットワークモデルは、トレーニングなしのニューラルネットワークモデルであってもよい。例えば、初期ニューラルネットワークモデルは、ＣＮＮ（Convolutional Neural Networks、畳み込みニューラルネットワーク）モデル、ＲＮＮ（Recurrent Neural Network、リカレントニューラルネットワーク）モデルなどであってもよい。

第１の構築画像と上記第１の実際の文字用いて初期ニューラルネットワークモデルをトレーニングするトレーニングプロセスは予めトレーニングプロセスと呼ばれ、トレーニング後の初期ニューラルネットワークモデルは事前トレーニングモデルと呼ばれる。

第１の構築画像と第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングする場合、第１の実際の文字を監督情報として、監督トレーニングを行うことができる。このように監督トレーニングを行って得られた事前トレーニングモデルは、画像に対して文字認識を行う能力を学習したものである。第１の構築画像と第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングするプロセスを予めトレーニングプロセスと呼びことができる。予めトレーニングされていない初期ニューラルネットワークモデルと比較すると、事前トレーニングモデルは、学習された文字認識能力に基づいて、シーン画像、第２の構築画像、第３の構築画像を迅速かつ正確に処理することができ、これによってトレーニング対象モデルのトレーニング時間を短縮し、トレーニング効率を向上させる。

また、事前トレーニングモデルが構築画像をトレーニングサンプルとしてトレーニングして得られたモデルであり、構築画像が上限なしで構築されることができるため、初期ニューラルネットワークモデルをトレーニングする場合、大量の第１の構築画像をトレーニングサンプルとして取得することができ、大量のトレーニングサンプルで初期ニューラルネットワークモデルをトレーニングすることにより、トレーニング終了後に得られた事前トレーニングモデルに優れた文字認識能力を持たせる。

上記の事前トレーニングモデルは、以下の２種類の方式で取得することができる。

第１の実現形態では、上記事前トレーニングモデルは予めトレーニングして得られたモデルであってもよく、この場合、上記予めトレーニングして得られた事前トレーニングモデルを直接取得することができる。

第２の実現形態では、第１の構築画像と第１の実際の文字を取得することができ、第１の構築画像を初期ニューラルネットワークモデルに入力して、初期ニューラルネットワークモデルから出力された認識文字を得て、認識文字と第１の実際の文字に基づいて、初期ニューラルネットワークモデルで文字認識を行う時の損失値を計算し、損失値に基づいて初期ニューラルネットワークモデルのモデルパラメータを調整し、第１の終了条件を満たすまで上記のプロセスを繰り返すことにより、初期ニューラルネットワークモデルのトレーニングを実現し、事前トレーニングモデルを得る。

上記第１の終了条件は、構築画像が形成されたバリデーションセットにおいて、第１の構築画像に対するネットワークモデルの文字認識精度が１００％に近いなどであってもよい。

具体的に、勾配降下法などのパラメータ調整アルゴリズムを用いてモデルパラメータの調整を行うことができる。

トレーニング対象モデル、支援トレーニングモデルは事前トレーニングモデルと同じモデルであり、いずれも文字認識の能力を備える。１つの実施形態では、取得された事前トレーニングモデルをトレーニング対象モデルとして、事前トレーニングモデルを複製することによって支援トレーニングモデルを得ることができる。

ステップＳ１０２、シーン画像、シーン画像における第２の実際の文字および第２の構築画像を取得する。

シーン画像とは、実際のシーンに対して画像収集を行って得られた画像である。上記のシーン画像に対応する実際のシーンが、トレーニングして得られたモデルの、後続の実際の適用の際における適用シーンであるため、上記の実際のシーンは、トレーニングして得られたモデルの適用シーンに対応する。

例えば、道路のシーンに適用され、ナンバープレート画像に対して文字認識を行うモデルをトレーニングして得る必要がある場合、上記シーン画像は上記道路シーンにおけるナンバープレート画像である。教育のシーンに適用され、書籍画像に対して文字認識を行うモデルをトレーニングして得る必要がある場合、上記シーン画像は上記教育のシーンにおける書籍画像である。

第２の実際の文字とは、シーン画像に実際に含まれる文字を指す。当該第２の実際の文字は、人為的にマークを付ける方式で得ることができる。

第２の構築画像とは、シーンに対して画像収集装置によって収集された画像ではなく、人為的に構築された画像を指す。

上記第２の構築画像における文字は、第２の実際の文字と同じである。図２ｂ、図２ｃを例として、図２ｂに示される画像はシーン画像であり、図２ｃに示される画像は第２の構築画像である。図２ｂに示されるシーン画像は、金融のシーンにおけるインボイスに対して画像収集を行って得られた画像であり、上記画像における「１４９０９８４」はインボイスの番号を表し、シーン画像における第２の実際の文字である。図２ｂに示される第２の構築画像に含まれる文字は「１４９０９８４」であり、第２の実際の文字と同じである。

一実施形態では、データベースには、シーン画像、シーン画像における実際の文字、および含まれる文字の上記実際の文字と同じである構築画像が予め記憶されており、これに基づいて、シーン画像、第２の実際の文字、および第２の構築画像を上記のデータベースから得ることができる。

上記ステップＳ１０１、ステップＳ１０２は、並列に実行されてもよく、シリアルに実行されてもよく、例えば、ステップＳ１０１を先に実行し、ステップＳ１０２を後に実行してもよく、あるいは、ステップＳ１０２を先に実行し、ステップＳ１０１を後に実行してもよい。

ステップＳ１０３、トレーニング対象モデルを用いてシーン画像に対して文字認識を行い、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得る。

トレーニング対象モデルを用いてシーン画像に対して文字認識を行う場合、まずシーン画像をトレーニング対象モデルに入力し、その後でトレーニング対象モデルにおけるネットワーク層はシーン画像の文字に対して特徴抽出を行い、抽出された特徴に基づいて文字認識を行い、識別結果を得る。

具体的に、上記ネットワーク層は、アテンション（Ａｔｔｅｎｔｉｏｎ）メカニズムに基づいてシーン画像の文字に対して特徴抽出を行うことができる。

上記の場合に鑑みて、上記の第１の特徴は、トレーニング対象モデルによってシーン画像における文字に対して特徴抽出を行って得られた特徴である。上記の第１の特徴は、シーン画像における各文字の特徴であってもよい。

上記第１の認識文字は、トレーニング対象モデルによってシーン画像に対して文字認識を行って得られた認識結果である。

ステップＳ１０４、支援トレーニングモデルを用いて第２の構築画像に対して文字認識を行い、文字認識プロセス中に抽出された文字の第２の特徴を得る。

支援トレーニングモデルを用いて第２の構築画像に対して文字認識を行う場合、まず第２の構築画像を支援トレーニングモデルに入力し、その後、支援トレーニングモデルにおけるネットワーク層が第２の構築画像の文字に対して特徴抽出を行い、抽出された特徴に基づいて文字認識を行い、認識結果を得る。

上記の場合に鑑みて、上記第２の特徴は、支援トレーニングモデルによって第２の構築画像における文字に対して特徴抽出を行って得られた特徴である。

上記ステップＳ１０３、ステップＳ１０４は、並列に実行されてもよく、シリアルに実行されてもよく、例えば、ステップＳ１０３を先に実行し、ステップＳ１０４を後に実行してもよく、あるいは、ステップＳ１０３を先に実行し、ステップＳ１０４を後に実行してもよい。

ステップＳ１０５、第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得る。

モデルパラメータを調整する際、第１の特徴と第２の特徴を用いる。第１の特徴と第２の特徴との差異は、同じ文字が含まれる２枚の画像における文字に対する２つのモデルの特徴抽出能力を反映する。第１の特徴と第２の特徴を比較することにより、トレーニング対象モデルをトレーニングし、比較学習を実現することができる。

比較学習プロセス中に、含まれる文字が同じである画像を比較学習の基準として、この２枚の画像における文字の特徴に基づいて比較学習を行う。したがって、本実施例で比較学習を行う場合、２枚の画像が同じ画像であるとする判定原則は、含まれる文字が同じ、すなわち、画像および画像の意味が同じであることであり、このように、画像の特徴が同じである場合、同じ画像であるという判定原則と比較すると、画像における文字の情報が効果的かつ十分に使用される。

具体的に、第１の特徴と第２の特徴を比較する際、ＢＹＯＬ（Bootstrap Your Own Latent、独自のライセンスがある）のアルゴリズム思想に基づいて特徴比較を実現することができる。

モデルパラメータを調整するための他の実施形態は、後続の図５に対応する実施例を参照することができ、ここでは詳細に説明しない。

モデルトレーニングプロセス中に、第２の終了条件を満たすまで、上記ステップＳ１０２、Ｓ１０３、Ｓ１０４、Ｓ１０５を繰り返して実行することができる。上記第２の終了条件は、予め設定されたトレーニング回数に達すること、トレーニング対象モデルが収束し、トレーニング対象がシーン画像に対するモデルの認識精度が
上昇しない。

一方、第１の識別文字は、レーニング対象モデルがシーン画像に対して文字認識を行って得られた認識文字であり、第２の実際の文字がシーン画像に実際に含まれる文字であるため、第１の識別文字と第２の実際の文字との差異は、トレーニング対象モデルがシーン画像に対して文字認識を行う能力を反映することができる。他方、第１の特徴はトレーニング対象モデルによって抽出して得られたシーン画像における文字の特徴であり、第２の特徴は支援トレーニングモデルによって抽出して得られた第２の構築画像における文字の特徴であり、支援トレーニングモデルが構築画像を用いてトレーニングして得られたものであるため、第２の特徴は第２の構築画像における文字を正確に特徴づけることができる。また、第２の構築画像における文字とシーン画像における文字とは同じであるため、第１の特徴と第２の特徴との差異はレーニング対象モデルがシーン画像における文字に対して特徴抽出を行う能力を反映することができる。

上記の２つの点をまとめると、第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいてトレーニングして得られたトレーニング対象モデルは、シーン画像における文字の特徴を抽出する法則を学習することができ、シーン画像に対して文字認識を行う法則を学習することもできる。従って、本開示の実施例によって提供される技術案は、トレーニングして文字認識を行うためのモデルを得ることができる。

また、トレーニング対象モデルが文字特徴を抽出する能力は文字認識の能力に影響するため、本開示の実施例によって提供される技術案はモデルトレーニングプロセス中に、文字特徴を抽出する角度からモデルパラメータの調整を行ったため、トレーニングして得られたトレーニング対象モデルが文字認識を行う精度を向上させることができる。また、トレーニング対象モデルをトレーニングする際、第１の特徴と第２の特徴に基づいて比較学習を実現し、このプロセスでは、２枚の画像が同じ画像であるとする判定原則は、含まれる文字が同じであることであり、画像特徴が同じである場合、同じ画像であるという判定原則と比較すると、画像における文字の情報が効果的かつ十分に使用される。画像における非文字情報の干渉を排除し、トレーニングして得られたトレーニング対象モデルが文字認識を行う精度をさらに向上させる。さらに、モデルトレーニングプロセス中に比較学習が導入されたため、モデルトレーニングプロセスに必要なネガティブサンプルの数を減らすことができる。

トレーニング対象モデルをトレーニングする中に、支援トレーニングモデルを導入してトレーニングを支援するほか、トレーニング後のトレーニング対象モデルがより正確に文字認識を行うように、マルチターントレーニングでモデルトレーニングを完成することができる。

具体的に、図３を参照すると、図３は、本開示の実施例によって提供される第２のモデルトレーニング方法の概略フローチャートである。上記図１に示される実施例に加えて、トレーニング対象モデルがトレーニング終了条件を満たした後、支援トレーニングモデルをトレーニングすることもできて、支援トレーニングモデルは支援トレーニング対象モデルがマルチターンモデルトレーニングを完了するようにより正確に、かつよりよく支援する。これに加えて、上記方法は、以下のステップＳ３０６～Ｓ３０７をさらに含むこともできる。

具体的に、本実施例のモデルトレーニング方法は、以下のステップＳ３０１～Ｓ３０７を含む。

ステップＳ３０１、第１の構築画像と第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得る。

ステップＳ３０２、シーン画像、シーン画像における第２の実際の文字および第２の構築画像を取得する。

第２の構築画像における文字と第２の実際の文字とは同じである。

ステップＳ３０３、トレーニング対象モデルを用いてシーン画像に対して文字認識を行い、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得る。

ステップＳ３０４、支援トレーニングモデルを用いて第２の構築画像に対して文字認識を行い、文字認識プロセス中に抽出された文字の第２の特徴を得る。

ステップＳ３０５、第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得る。

上記ステップＳ３０１～Ｓ３０５はそれぞれ上記図１に記載の実施例のステップＳ１０１～Ｓ１０５と同じである、ここで詳細な説明を省略する。

ステップＳ３０６、トレーニング対象モデルがトレーニング終了条件を満たした後、トレーニング後のトレーニング対象モデルのモデルパラメータに基づいて、支援トレーニングモデルのモデルパラメータを調整する。

トレーニング後のトレーニング対象モデルがシーン画像における文字の特徴を抽出する法則を学習し、シーン画像に対して文字認識を行う法則も学習したため、トレーニング後のトレーニング対象モデルのモデルパラメータに基づいて、支援トレーニングモデルのモデルパラメータを調整することにより、支援トレーニングモデルはシーン画像における文字の特徴を抽出する能力も備え、さらにシーン画像に対して文字認識を行う能力も備える。

具体的に、以下の２種類の異なる方式で支援トレーニングモデルのモデルパラメータを調整することができる。

第１の実現形態では、支援トレーニングモデルのモデルパラメータをトレーニング後のトレーニング対象モデルのモデルパラメータに調整する。

具体的に、トレーニング後のトレーニング対象モデルのモデルパラメータを複製し、支援トレーニングモデルのモデルパラメータを複製して得られたモデルパラメータに調整することができる。

支援トレーニングモデルのモデルパラメータをトレーニング後のトレーニング対象モデルのモデルパラメータに調整するため、支援トレーニングモデルのモデルパラメータはトレーニング後のトレーニング対象モデルの完全なモデルパラメータとなり、このように支援トレーニングモデルは、トレーニング後のトレーニング対象モデルの文字認識と文字特徴抽出能力も備える。

第２の実現形態では、トレーニング後のトレーニング対象モデルのモデルパラメータと支援トレーニングモデルのモデルパラメータとを融合させ、支援トレーニングモデルのモデルパラメータを融合後のモデルパラメータに調整する。

具体的に、予め設定された重みに従って、トレーニング後のトレーニング対象モデルのモデルパラメータと支援トレーニングモデルのモデルパラメータとを、重み付け加算し、融合後のモデルパラメータとする。

例えば、トレーニング後のトレーニング対象モデルのモデルパラメータがＭ１であり、支援トレーニングモデルのモデルパラメータがＭ２であり、トレーニング対象モデルのモデルパラメータに対応する予め設定された重みが０．８であり、支援トレーニングモデルのモデルパラメータに対応する予め設定された重みが０．２であり、上記２つのモデルパラメータを重み付け加算して、（０．８＊Ｍ１＋０．２＊Ｍ２）を得て、融合後のモデルパラメータとする。

トレーニング後のトレーニング対象モデルのモデルパラメータと支援トレーニングモデルのモデルパラメータとを融合させ、融合後のモデルパラメータはトレーニング対象モデルのモデルパラメータだけでなく、支援トレーニングモデルのモデルパラメータにも関連する。上記融合後のモデルパラメータに基づいて支援トレーニングモデルのモデルパラメータを調整する時、調整されたパラメータは支援トレーニングモデル自体のモデルパラメータに関連し、支援トレーニングモデルのモデルパラメータを大幅に調整する必要がなく、上記のモデルパラメータのスムーズな移行を実現する。

ステップＳ３０７、第３の構築画像と第３の構築画像における第３の実際の文字を用いて、モデルパラメータが調整された後の支援トレーニングモデルをトレーニングする。支援トレーニングモデルがトレーニング終了条件を満たした後、ステップＳ３０２に戻り、トレーニング対象モデルを再トレーニングする。

上記第３の構築画像は、第２の構築画像と同じ画像であってもよく、この場合、第２の構築画像を第３の構築画像として決定し、第１の実際の文字を第３の実際の文字として決定することができる。

上記第３の構築画像は第２の構築画像と異なる画像であってもよく、この場合、第３の構築画像を取得し、第３の構築画像における第３の実際の文字を取得する必要がある。

第３の構築画像と第３の実際の文字を取得する際、予め記憶された構築画像ライブラリから第３の構築画像及び第３の構築画像における第３の実際の文字を取得することができる。画像生成アルゴリズムを用いて、第３の構築画像として画像を生成し、生成された画像における実際の文字を、第３の実際の文字として決定することもできる。

モデルパラメータが調整された後の支援トレーニングモデルをトレーニングする際、第３の構築画像を上記支援トレーニングモデルに入力し、上記支援トレーニングモデルから出力された認識文字を得ることができ、認識文字と第３の実際の文字に基づいて、上記支援トレーニングモデルが文字認識を行う時の損失値を計算し、損失値に基づいて上記支援トレーニングモデルのモデルパラメータを調整し、トレーニング終了条件を満たしてない場合、第３の構築画像と第３の実際の文字を再取得し、第３の終了条件を満たすまで、上記のプロセスを繰り返して実行し、モデルパラメータが調整された後の支援トレーニングモデルに対するトレーニングを実現する。

上記の支援トレーニングモデルをトレーニングするほかの実施形態は、図４ａに示される実施例のステップＳ４０７～Ｓ４０８を参照することができ、ここで詳細に説明しない。

上記第３の終了条件は、上記ステップ３０７で言及されたトレーニング終了条件である。上記第３の終了条件は、支援トレーニングモデルが収束し、予め設定されたトレーニング回数に達することなどであってもよい。

支援トレーニングモデルがトレーニング終了条件を満たす場合、上記ステップＳ３０２に戻り、ステップＳ３０２～Ｓ３０７を繰り返して実行し、トレーニング対象モデルを再トレーニングする。

本実施例では、トレーニング対象モデルがトレーニング終了条件を満たすように、トレーニング対象モデルに対して複数回のパラメータ調整を行うプロセスは、１ラウンドのトレーニングと呼ぶ。

具体的に、循環ラウンド数を設定することができ、設定された循環ラウンド数に達した後、トレーニング後のトレーニング対象モデルを得て、トレーニング対象モデルのトレーニングを実現する。例えば、上記の循環回数は、２回、３回などであってもよい。

上記から分かるように、本実施例によって提供される技術案ではトレーニング対象モデルに対して複数ラウンドのトレーニングを行い、各ラウンドのトレーニングにおいて、トレーニング対象モデルに対して複数段階のパラメータ調整を行う。次の段階のパラメータ調整は、１つ前の段階のパラメータ調整をもとにして行われ、１つ前の段階でパラメータ調整後のトレーニング対象モデルがすでにより良い文字特徴抽出能力及び文字認識能力を備えており、且つ１つ前の段階でトレーニングして得られた支援トレーニングモデルがシーン画像、構築画像に対して、より良い文字特徴抽出能力を備えるため、次の段階で上記支援トレー
ニングモデルに基づいて上記トレーニング対象モデルを支援的にトレーニングする際、より正確な比較結果を得ることができ、トレーニング対象モデル特徴抽出と文字認識の能力をさらに強化し、トレーニング対象モデルが文字認識を行う精度を向上させる。

当業者であれば、ニューラルネットワークモデルが一般的にネットワーク層を含むため、支援トレーニングモデルが複数のネットワーク層を含むこともでき、この場合、上記ステップＳ３０７でパラメータ調整後の支援トレーニングモデルをトレーニングすることが、図４ａに示す実施例のステップＳ４０７－Ｓ４０９に従って実現できることを理解することができる。

具体的には、本実施例の画像検索方法は、以下のステップＳ４０１～Ｓ４０９を含む。

ステップＳ４０１、第１の構築画像と第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得る。

ステップＳ４０２、シーン画像、シーン画像における第２の実際の文字および第２の構築画像を取得する。

ステップＳ４０３、トレーニング対象モデルを用いてシーン画像に対して文字認識を行い、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得る。

ステップＳ４０４、支援トレーニングモデルを用いて第２の構築画像に対して文字認識を行い、文字認識プロセス中に抽出された文字の第２の特徴を得る。

ステップＳ４０５、第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得る。

ステップＳ４０６、トレーニング対象モデルがトレーニング終了条件を満たした後、トレーニング後のトレーニング対象モデルのモデルパラメータに基づいて、支援トレーニングモデルのモデルパラメータを調整する。

上記ステップＳ４０１～Ｓ４０６は、それぞれ上記図３に前記の実施例のステップＳ３０１～Ｓ３０６と同じであり、ここで詳細な説明を省略する。

ステップＳ４０７、複数のネットワーク層から調整層を決定する。

上記調整層とは、現在調整対象モデルパラメータのネットワーク層を指す。

具体的に、以下の２つの異なる方式で調整層を決定することができる。

第１の実現形態では、各ネットワーク層間の接続順序に従って、ネットワーク層を調整層として選択する。毎回ネットワーク層を選択する際、接続順序に従って、予め設定された数の調整層として決定されていないネットワーク層を選択することができる。上記予め設定された数は１、２などであってもよい。

例えば、支援トレーニングモデルがネットワーク層１、ネットワーク層２、ネットワーク層３を含み、各ネットワーク層間の接続順序が、ネットワーク層１→ネットワーク層２→ネットワーク層３であり、予め設定された数が１であると仮定すると、上記の接続順序に従って、１回目はネットワーク層１を調整層、２回目はネットワーク層２を調整層、３回目はネットワーク層３を調整層として決定する。現在２回目で調整層を決定する場合、ネットワーク層２を調整層として選択する。

第２の実現形態では、複数のネットワーク層から予め設定された数のネットワーク層を調整層としてランダムに選択する。

ステップＳ４０８、第３の構築画像と第３の構築画像における第３の実際の文字を用いて、調整層のモデルパラメータを調整する方式で、支援トレーニングモデルをトレーニングする。

支援トレーニングモデルをトレーニングする際、支援トレーニングモデルに含まれるすべてのネットワーク層のうちの一部のネットワーク層である調整層のモデルパラメータを調整することによってトレーニングする。したがって、モデルパラメータを調整するたびに、調整層として決定されていないネットワーク層のモデルパラメータを調整せず、一部のネットワーク層のモデルパラメータのみを調整する。したがって、本実施例によって提供される技術案では、支援トレーニングモデルをトレーニングする中に、毎回モデルパラメータを調整する方式は、一部のネットワーク層のモデルパラメータのみを調整し、他のネットワーク層のモデルパラメータを一定とすることである。

一実現形態では、第３の構築画像をモデルパラメータが調整された後の支援トレーニングモデルに入力して、上記支援トレーニングモデルから出力された認識文字を得て、認識文字と第３の実際の文字に基づいて、上記支援トレーニングモデルが文字認識を行う時の損失値を計算し、損失値に基づいて調整層のモデルパラメータを調整し、第４の終了条件を満たさない場合、第３の構築画像及び第３の実際の文字を取得するステップに戻り、第４の終了条件を満たすまで、第３の構築画像をモデルパラメータが調整された後の支援トレーニングモデルに入力するステップを実行し、支援トレーニングのレーニングを実現する。

上記第４の終了条件は、上記支援トレーニングモデルが収束すること、予め設定されたトレーニング回数に達すること、構築画像から形成されたバリデーションセットにおいて支援トレーニングモデルの第３の構築画像に対する認識精度がそれ以上上昇しないまたは１００％近くになるなどであってもよい。

ステップＳ４０９、支援トレーニングモデルがトレーニング終了条件を満たした後、調整層として決定されていないネットワーク層から調整層を決定し、すべてのネットワーク層をトラバースするまで、ステップＳ４０８に戻る。

調整層として決定されていないネットワーク層から調整層を決定するには、ステップＳ４０８において調整層を決定することと同じ方式で決定することができ、ここでは説明を省略する。

支援トレーニングモデルがトレーニング終了条件を満たす場合、現在決定された調整層に対するモデルパラメータの調整が終了したことを表し、この場合、引き続き調整層として決定されていないネットワーク層から調整層を決定し、決定された調整層のモデルパラメータを調整する。すべてのネットワーク層をトラバースすると、支援トレーニングモデルに対するトレーニングを実現する。支援トレーニングモデルに対するトレーニングを実現した後、ステップＳ４０２に戻り、ステップＳ４０２～Ｓ４０５の実行を開始し、トレーニング対象モデルに対するトレーニングを実現する。

本開示の一実施例では、支援トレーニングモデルをトレーニングする中に、学習率を導入し、学習率により、支援トレーニングモデルのトレーニングの進捗状況を制御することもできる。

上記学習率は、予め設定された学習率閾値未満の値に設定することができる。

上記から分かるように、モデルパラメータが調整された後の支援トレーニングモデルをトレーニングする際、毎回モデルパラメータを調整する方式は以下通りである。一部のネットワーク層のモデルパラメータのみを調整し、他のネットワーク層のモデルパラメータを一定とする。上記の一部のネットワーク層のモデルパラメータを調整した後、他のネットワーク層をトラバースする。１つのトラバースサイクル内に、一部のネットワーク層のみに対してモデルパラメータを調整することにより、上記の一部のネットワーク層のモデルパラメータを調整する精度を向上させ、支援トレーニングモデルをトレーニングする精度をさらに向上させる。

以下、図４ｂに示される支援トレーニングモデルと併せて、図４ａの支援トレーニングモデルのトレーニングの具体的なプロセスに対して詳細に説明する。

図４ｂの支援トレーニングモデルは、２つのネットワーク層を含み、それぞれ特徴抽出層と文字認識層である。

特徴抽出層は、入力された画像における文字に対して特徴抽出を行い、抽出して得られた特徴を文字認識層に入力する。

文字認識層は、特徴抽出層から入力された特徴に基づいて文字認識を行って、認識結果を得る。

上記支援トレーニングモデルをトレーニングする中に、
ステップ１、標準順不同文字画像及び上記画像における実際の文字を取得する。

標準順不同文字画像とは、画像のバックグラウンドが予め設定されたバックグラウンドであり且つ画像に含まれる文字がランダムな組み合わせである画像を指すものであり、上記予め設定されたバックグラウンドは白一色のバックグラウンドであってもよい。上記の標準順不同文字画像は、第３の構築画像である。

ステップ２、文字認識層を調整層として決定し、文字認識層のモデルパラメータを調整し、特徴抽出層のモデルパラメータを一定とする。

モデルパラメータを調整する中に、標準順不同文字画像を支援トレーニングモデルに入力し、支援トレーニングモデルから出力された認識文字を得て、上記認識文字と標準順不同文字画像における実際の文字に基づいて、支援トレーニングモデルが文字認識を行う時の損失値を計算し、損失値に基づいて文字認識層のモデルパラメータを調整し、第５の終了条件を満たさない場合、順不同文字画像を支援トレーニングモデルに入力するステップに戻り、第５の終了条件を満たすまで、文字認識層のモデルパラメータの調整を実現する。

ステップ３、特徴抽出層を調整層として決定し、特徴抽出層のモデルパラメータを調整し、ステップ２の調整後の特徴抽出層のモデルパラメータを一定とする。

モデルパラメータを調整する中に、上記ステップ２と同じ方式を用いて、特徴抽出層に対するモデルパラメータの調整を実現する。

これまでに、支援トレーニングモデルの各ネットワーク層のトラバースとモデルパラメータの調整が完了し、支援トレーニングモデルのトレーニングを実現する。

本開示の一実施例では、上記支援トレーニングモデルをトレーニングするプロセスに応じて、トレーニング対象モデルをトレーニングする際、同じトレーニング構想を用いてトレーニング対象モデルをトレーニングすることもできる。

具体的に、トレーニング対象モデルに含まれる複数のネットワーク層における調整層を決定し、上記ステップＳ４０５において、第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、決定された調整層のモデルパラメータを調整する方式で、トレーニング対象モデルをトレーニングする。トレーニング対象モデルがトレーニング終了条件を満たした後、調整層として決定されていないネットワーク層から調整層を決定し、すべてのネットワーク層をトラバースするまで、第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、決定された調整層のモデルパラメータを調整する方式で、トレーニング対象モデルをトレーニングするステップに戻り、トレーニング対象モデルのトレーニングを実現する。

上記図１に示す実施例のステップＳ１０５において、トレーニング対象モデルのモデルパラメータを調整する具体的な実施形態は図５のステップＳ５０５～Ｓ５０８を参照することができる。

具体的に、本実施例のモデルトレーニング方法は、以下のステップＳ５０１～Ｓ５０８を含む。

ステップＳ５０１、第１の構築画像と第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得る。

ステップＳ５０２、シーン画像、シーン画像における第２の実際の文字および第２の構築画像を取得する。

ステップＳ５０３、トレーニング対象モデルを用いてシーン画像に対して文字認識を行い、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得る。

ステップＳ５０４、支援トレーニングモデルを用いて第２の構築画像に対して文字認識を行い、文字認識プロセス中に抽出された文字の第２の特徴を得る。

上記ステップＳ５０１～Ｓ５０４はそれぞれ上記図１に記載の実施例のステップＳ１０１～Ｓ１０４と同じであり、ここで詳細な説明を省略する。

ステップＳ５０５、第１の認識文字と第２の実際の文字に基づいて、トレーニング対象モデルが文字認識を行う第１の損失値を決定する。

一実施形態では、第１の認識文字と第２の実際の文字を、第１の損失関数入力パラメータの値とし、第１の損失関数を入力し、第１の損失関数に基づいて計算して得られた第１の損失値を取得する。

上記第１の損失関数は、交差エントロピー損失関数、感知損失関数などであってもよい。

ステップＳ５０６、第１の特徴と第２の特徴との類似度を計算する。

一実施形態では、第１の特徴と第２の特徴との間の距離を計算し、上記の距離を類似度に変換して、第１の特徴と第２の特徴との類似度とする。

上記距離は、ユークリッド距離、コサイン距離などであってもよい。

予め設定された距離と類似度との対応関係に基づいて、計算して得られた距離を対応する類似度に変換することができる。

ステップＳ５０７、類似度に基づいて、トレーニング対象モデルが文字認識を行う第２の損失値を決定する。

一実施形態では、第１の特徴と第２の特徴との実際の類似度を決定し、計算して得られた類似度と実際の類似度に基づいて、トレーニング対象モデルが文字認識を行う第２の損失値を決定する。

第２の構築画像における文字とシーン画像における第２の実際の文字とは同じであるため、シーン画像における文字の特徴は実際に第２の構築画像における文字の特徴と同じである。

これに基づいて、第１の特徴と第２の特徴との実際の類似度を、予め設定された類似度以上である類似度として決定することができ、上記予め設定された類似度は９５％、９８％などであってもよい。

具体的に、計算して得られた類似度と実際の類似度を、第１の損失函数入力パラメータの値とし、第２の損失函数を入力し、第２の損失函数に基づいて計算して得られた第２の損失値を取得することができる。上記第２の損失函数は交差エントロピー損失函数、感知損失函数などであってもよい。

ステップＳ５０８、第１の損失値と第２の損失値に基づいて、トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得る。

具体的に、以下の２つの異なる方式でトレーニング対象モデルのモデルパラメータを調整することができる。

一実施形態では、第１の損失値と第２の損失値に対してデータ融合を行い、融合後の損失値に基づいてトレーニング対象モデルのモデルパラメータを調整する。

具体的に、第１の損失値に対応する第１の重み及び第２の損失値に対応する第２の重みに従って、第１の損失値と第２の損失値を重み付けと加算し、計算して得られた損失値を融合後の損失値として決定し、融合後の損失値に基づいてトレーニング対象モデルのモデルパラメータを調整することができる。

別の実施形態では、第１の損失値と第２の損失値を調整し、調整後の第１の損失値と第２の損失値に対してデータ融合を行い、融合後の損失値に基づいてトレーニング対象モデルのモデルパラメータを調整する。

上記から分かるように、第１の損失値は、第１の認識文字と第２の実際の文字に基づいて決定して得られたものであり、第１の損失値はトレーニング対象モデルが文字認識を行う能力をより正確に反映することができる。第２の損失値は、第１の特徴と第２の特徴との類似度に基づいて決定して得られたものであり、第２の損失値はトレーニング対象モデルが特徴抽出を行う能力を比較的に正確に反映することができる。第１の損失値と第２の損失値に基づいて、トレーニング対象モデルのモデルパラメータを調整することは、トレーニング対象モデルが文字認識を行う能力を反映する角度からトレーニング対象モデルのモデルパラメータを調整することができ、トレーニング対象モデルに対して特徴抽出を行う能力を反映する角度からトレーニング対象モデルのモデルパラメータを調整することもできることにより、調整後のトレーニング対象モデルパラメータの総合能力が高く、トレーニング対象モデルの文字認識の精度が向上する。

上記図１に記載の実施例の第１の構築画像は、複数の異なるタイプの構築画像を含むことができ、以下、第１の構築画像に含まれる構築画像に対して説明する。

本開示の一実施例では、上記第１の構築画像は、以下の２種類の画像のうちの少なくとも１種類を含むことができる。

１つ目は、シーンのバックグラウンドを有しなく、且つ含まれる文字がシーンコーパスに属していない構築画像である。

画像にシーンバックグラウンドがないとは、画像のバックグラウンドが適用シーンのバックグラウンドではないことを指す。例えば、適用シーンのバックグラウンドに地模様があり、画像のバックグラウンドが白一色または黒一色である場合、当該バックグラウンドは適用シーンのバックグラウンドではないため、当該画像にはシーンバックグラウンドがない。

文字がシーンコーパスに属しないとは、文字が適用シーンにおける文字ではないことを指す。例えば、適用シーンにおける文字は、予め設定されたルールに従って配置されており、画像における文字がランダムに組み合わされた文字である場合、当該文字は適用シーンにおける文字ではないため、画像に含まれる文字はシーンコーパスに属しない。

図６ａを例として、図６ａに示される画像は構築画像である。上記画像のバックグラウンドが白一色であり、適用シーンのシーンではないため、当該画像にはシーンバックグラウンドがない。かつ、画像に含まれる文字が、ランダムに組み合わせられたものであり、適用シーンにおける文字ではないため、当該画像に含まれる文字はシーンコーパスに属しない。

構築画像が、シーンのバックグラウンドを有しなく、且つ含まれる文字がシーンコーパスに属していない構築画像である場合、上記画像を構築する際、あまり多くの情報を考慮する必要はなく、短時間内に大量の画像を迅速に構築して得ることがき、これによって構築画像の取得の効率を向上させることができる。

その上で、トレーニングサンプルとしてモデルをトレーニングする十分な画像があるため、モデルをよくトレーニングすることができ、文字認識能力の高いモデルを得ることができる。

２つ目は、シーンのバックグラウンドを有し、且つ含まれる文字がシーンコーパスに属していない構築画像である。

画像にシーンバックグラウンドがあるとは、画像のバックグラウンドが適用シーンのシーンであることを指す。例えば、適用シーンのバックグラウンドにはバックグラウンドを有し、画像のバックグラウンドに地模様がある場合、当該バックグラウンドが適用シーンのバックグラウンドであることが表明される。

上記構築画像のバックグラウンドは、上記シーン画像のバックグラウンドの類似バックグラウンドであってもよい。このように、上記構築画像に基づいてモデルを予めトレーニングする場合、類似バックグラウンド画像に対して文字認識を行う法則を学習することができ、その後モデルトレーニングを行う場合、モデルはシーン画像に対して文字認識を行う法則を比較的早く学習することができる。

図６ｂを例とすると、図６ｂに示される画像は構築画像である。上記画像において、バックグラウンドは金融シーンにおけるインボイス画像のシーンであり、シーンバックグラウンドがある。画像に含まれる文字はランダムに組み合わせられたものであり、金融シーンにおけるインボイス画像内の文字ではない。

上記構築画像を用いてモデルを予めトレーニングする際、構築画像が、シーンのバックグラウンドを有し、且つ含まれる文字がシーンコーパスに属していない構築画像である場合、予めトレーニングして得られたモデルが、シーンバックグラウンドがある画像文字に対する認識の能力を備えるため、その後にモデルトレーニングを行う際、シーン画像における文字を認識する法則を迅速に学習することができる。

以下、図７に示されるモデル構成図と併せて、本開示の実施例によって提供されるモデルトレーニング方法に対して具体的に説明する。

図７には２つのモデルが含まれ、左側のモデルはトレーニング対象モデルであり、右側のモデルは支援トレーニングモデルである。トレーニング対象モデルと支援トレーニングモデルとは同じモデルであり、初期ニューラルネットワークモデルを予めトレーニングして得られた事前トレーニングモデルと同じである。

上記トレーニング対象モデル、支援トレーニングモデルにはいずれも、特徴抽出層と文字認識層が含まれる。

文字認識層は、入力された特徴に基づいて文字認識を行って、認識文字を得る。

上記特徴抽出層には、視覚特徴抽出サブネットワーク層、符号化サブネットワーク層、復号サブネットワーク層が含まれる。

視覚特徴抽出サブネットワーク層は、入力された画像を極めて抽象的な特徴シーケンスに変換し、得られた特徴シーケンスを符号化ユニットに入力する。視覚特徴抽出ユニットは、ＲｅｓＮｅｔ（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、残差ネットワーク）のネットワーク構造に基づいてシーケンスの変換を行うことができる。さらに、特徴シーケンスに変換する際、まず入力された画像を矯正し、画質が悪いかスケールが歪んでいる画像を画質が高く、文字配置が平らな画像に矯正することができる。

符号化サブネットワーク層は、視覚特徴間の意味関係を強化し、画像における文字の意味情報を得て、得られた意味情報を復号化ユニットに入力する。符号化ユニットは、ＲＮＮネットワーク構造に基づいて意味関係を強化することができる。

復号サブネットワーク層は、意味情報をコンピュータ理解可能な文字に変換し、画像における文字の特性を得る。復号ユニットは、ＣＴＣ（Connectionist Temporal Classification、接続時間分類アルゴリズム）アルゴリズム、またはアテンションメカニズムに基づくアルゴリズムに基づくことができる。

トレーニング対象モデルをトレーニングする際、ステップ１、シーン画像をトレーニング対象モデルに入力し、第２の構築画像を支援トレーニングモデルに入力する。

シーン画像に含まれる実際の文字と第２の構築画像に含まれる実際の文字とは同じである。

ステップ２、トレーニング対象モデルから出力された第１の認識文字を得て、トレーニング対象モデルにおける特徴抽出層から出力された第１の特徴、及び支援トレーニングモデルにおける特徴抽出層から出力された第２の特徴を得る。

ステップ３、第１の認識文字、シーン画像に含まれる実際の文字、第１の特徴及び第２の特徴に基づいて、トレーニング対象モデルのモデルパラメータを調整し、トレーニング終了条件を満たさない場合、トレーニング終了条件を満たすまで、第１のステップに戻る。

ステップ４、トレーニング後のトレーニング対象モデルのモデルパラメータに基づいて、支援トレーニングモデルのモデルパラメータを調整する。

ステップ５、第３の構築画像と第３の構築画像における第３の実際の文字を用いて、パラメータが調整された後の支援トレーニングモデルをトレーニングする。

ステップ６、支援トレーニングモデルがトレーニング終了条件を満たした後、ステップ１に戻り、トレーニング対象モデルを再トレーニングする。

上記モデルトレーニング方法に対応して、本開示は文字認識方法をさらに提供する。

図８を参照すると、図８は、本開示の実施例によって提供される文字認識方法の概略フローチャートである。上記方法は、以下の下ステップＳ８０１～Ｓ８０２を含む。

ステップＳ８０１、認識対象画像を取得する。

ステップＳ８０２、認識対象画像を文字認識モデルに入力して、文字認識モデルから出力された認識文字を得る。

上記文字認識モデルは、本開示の実施例によって提供されるモデルトレーニング方法でトレーニングして得られたモデルである。

上記から分かるように、本開示の実施例によって提供される技術案を用いて文字認識を行う場合、文字認識モデルが大量のシーン画像、構築画像を用いて、トレーニングサンプルとしてモデルトレーニングして得られるものであるため、文字認識モデルは優れた画像における文字を認識する能力を備え、上記の文字認識モデルを応用する際、認識対象画像における文字をより正確に認識することができる。

上記モデルトレーニング方法に対応して、本開示の実施例は、モデルトレーニング装置を提供する。

図９を参照すると、図９は、本開示の実施例によって提供される第１のモデルトレーニング装置の概略構成図である。上記装置は以下のモジュール９０１～９０５を含む。

モデル取得モジュール９０１は、第１の構築画像と前記第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得る。

第１の画像取得モジュール９０２は、シーン画像、前記シーン画像における第２の実際の文字および第２の構築画像を取得し、前記第２の構築画像における文字と前記第２の実際の文字とは同じである。

文字決定モジュール９０３は、前記トレーニング対象モデルを用いて前記シーン画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得る。

特徴決定モジュール９０４は、前記支援トレーニングモデルを用いて前記第２の構築画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第２の特徴を得る。

第１のモデルトレーニングモジュール９０５は、前記第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、前記トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得る。

一方、第１の識別文字は、レーニング対象モデルがシーン画像に対して文字認識を行って得られた認識文字であり、第２の実際の文字がシーン画像に実際に含まれる文字であるため、第１の識別文字と第２の実際の文字との差異は、トレーニング対象モデルがシーン画像に対して文字認識を行う能力を反映することができる。他方、第１の特徴はトレーニング対象モデルによって抽出して得られたシーン画像における文字の特徴であり、第２の特徴は支援トレーニングモデルによって抽出して得られた第２の構築画像における文字の特徴であり、支援トレーニングモデルが構築画像を用いてトレーニングして得られたものであるため、第２の特徴は第２の構築画像における文字を正確に特徴づけることができるまた、第２の構築画像における文字とシーン画像における文字とは同じであるため、第１の特徴と第２の特徴との差異はレーニング対象モデルがシーン画像における文字に対して特徴抽出を行う能力を反映することができる。

図１０を参照すると、図１０は、本開示の実施例によって提供される第２のモデルトレーニング装置の概略構成図である。上記装置は以下のモジュール１００１～１００８を含む。

モデル取得モジュール１００１は、第１の構築画像と前記第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得る。

第１の画像取得モジュール１００２は、シーン画像、前記シーン画像における第２の実際の文字および第２の構築画像を取得し、前記第２の構築画像における文字と前記第２の実際の文字とは同じである。

文字決定モジュール１００３は、前記トレーニング対象モデルを用いて前記シーン画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得る。

特徴決定モジュール１００４は、前記支援トレーニングモデルを用いて前記第２の構築画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第２の特徴を得る。

第１の損失値決定サブモジュール１００５は、前記第１の認識文字と前記第２の実際の文字に基づいて、前記トレーニング対象モデルにより文字認識を行う第１の損失値を決定する。

類似度計算サブモジュール１００６は、前記第１の特徴と前記第２の特徴との類似度を計算する。

第２の損失値決定サブモジュール１００７は、前記類似度に基づいて、前記トレーニング対象モデルにより文字認識を行う第２の損失値を決定する。

パラメータ調整サブモジュール１００８は、前記第１の損失値と前記第２の損失値に基づいて、前記トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得る。

図１１を参照すると、図１１は、本開示の実施例によって提供される第３のモデルトレーニング装置の概略構成図である。上記装置は、以下のモジュール１１０１～１１０７を含む。

モデル取得モジュール１１０１は、第１の構築画像と前記第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得る。

第１の画像取得モジュール１１０２は、シーン画像、前記シーン画像における第２の実際の文字および第２の構築画像を取得し、前記第２の構築画像における文字と前記第２の実際の文字とは同じである。

文字決定モジュール１１０３は、前記トレーニング対象モデルを用いて前記シーン画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得る。

特徴決定モジュール１１０４は、前記支援トレーニングモデルを用いて前記第２の構築画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第２の特徴を得る。

第１のモデルトレーニングモジュール１１０５は、前記第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、前記トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得る。

パラメータ調整モジュール１１０６は、前記トレーニング対象モデルがトレーニング終了条件を満たした後、トレーニング後のトレーニング対象モデルのモデルパラメータに基づいて、前記支援トレーニングモデルのモデルパラメータを調整する。

第２のモデルトレーニングモジュール１１０７は、第３の構築画像と前記第３の構築画像における第３の実際の文字を用いて、モデルパラメータが調整された後の支援トレーニングモデルをトレーニングする。前記支援トレーニングモデルがトレーニング終了条件を満たした後、前記第１の画像取得モジュールをトリガして、前記トレーニング対象モデルを再トレーニングする。

上記から分かるように、本実施例によって提供される技術案ではトレーニング対象モデルをマルチターントレーニングし、各ラウンドトレーニングにおいて、トレーニング対象モデルに対して複数段階のパラメータ調整を行う。後段階のパラメータ調整は、前段階のパラメータ調整に加えて行われ、前段階でパラメータ調整後のトレーニング対象モデルがすでにより良い文字特徴抽出能力及び文字認識能力を備えており、前段階でトレーニングして得られた支援トレーニングモデルがシーン画像、構築画像に対して、より良い文字特徴抽出能力を備えるため、このように、後段階で上記支援トレーニングモデルに基づいて上記トレーニング対象モデルを支援的にトレーニングする際、より正確な比較結果を得ることができ、トレーニング対象モデル特徴抽出と文字認識の能力をさらに強化し、トレーニング対象モデルが文字認識を行う精度を向上させる。

図１２を参照すると、図１２は、本開示の実施例によって提供される第４のモデルトレーニング装置の概略構成図である。前記支援トレーニングモデルが複数のネットワーク層を含み、上記モジュール１１０７は、以下のモジュール１２０１～１２０９を含む。

モデル取得モジュール１２０１は、第１の構築画像と前記第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得る。

第１の画像取得モジュール１２０２は、シーン画像、前記シーン画像における第２の実際の文字および第２の構築画像を取得し、前記第２の構築画像における文字と前記第２の実際の文字とは同じである。

文字決定モジュール１２０３は、前記トレーニング対象モデルを用いて前記シーン画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得る。

特徴決定モジュール１２０４は、前記支援トレーニングモデルを用いて前記第２の構築画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第２の特徴を得る。

第１のモデルトレーニングモジュール１２０５は、前記第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、前記トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得る。

パラメータ調整モジュール１２０６は、前記トレーニング対象モデルがトレーニング終了条件を満たした後、トレーニング後のトレーニング対象モデルのモデルパラメータに基づいて、前記支援トレーニングモデルのモデルパラメータを調整する。

第１の調整層決定サブモジュール１２０７は、前記複数のネットワーク層から調整層を決定する。

モデルトレーニングサブモジュール１２０８は、第３の構築画像と前記第３の構築画像における第３の実際の文字を用いて、前記調整層のモデルパラメータを調整することにより、前記支援トレーニングモデルをトレーニングする。

第２の調整層決定サブモジュール１２０９は、前記支援トレーニングモデルがトレーニング終了条件を満たした後、すべてのネットワーク層をトラバースするまで、調整層として決定されていないネットワーク層から調整層を決定し、モデルトレーニングサブモジュールをトリガする。

本開示の一実施例では、上記パラメータ調整モジュールは、具体的に、前記支援トレーニングモデルのモデルパラメータをトレーニング後のトレーニング対象モデルのモデルパラメータに調整し、あるいは、トレーニング後のトレーニング対象モデルのモデルパラメータと前記支援トレーニングモデルのモデルパラメータとを融合させ、前記支援トレーニングモデルのモデルパラメータを融合後のモデルパラメータに調整する。

支援トレーニングモデルのモデルパラメータをトレーニング後のトレーニング対象モデルのモデルパラメータに調整するため、支援トレーニングモデルのモデルパラメータはトレーニング後のトレーニング対象モデルの完全なモデルパラメータとなり、このように支援トレーニングモデルは、トレーニング後のトレーニング対象モデルの文字認識と文字特徴抽出能力も備える。トレーニング後のトレーニング対象モデルのモデルパラメータと支援トレーニングモデルのモデルパラメータとを融合させ、融合後のモデルパラメータはトレーニング対象モデルのモデルパラメータだけでなく、支援トレーニングモデルのモデルパラメータにも関連する。上記融合後のモデルパラメータに基づいて支援トレーニングモデルのモデルパラメータを調整する時、調整されたパラメータは支援トレーニングモデル自体のモデルパラメータに関連し、支援トレーニングモデルのモデルパラメータを大幅に調整する必要がなく、上記のモデルパラメータのスムーズな移行を実現する。

本開示の一実施例では、上記第１の構築画像は、シーンのバックグラウンドを有しなく、且つ含まれる文字がシーンコーパスに属していない構築画像、シーンのバックグラウンドを有し、且つ含まれる文字がシーンコーパスに属していない構築画像のうちの少なくとも１種を含む。

構築画像はシーンのバックグラウンドを有しなく、且つ含まれる文字がシーンコーパスに属していない構築画像である場合、上記画像を構築する際、あまり多くの情報を考慮する必要はなく、短時間内に大量の画像を迅速に構築することがき、これによって構築画像の取得の効率を向上させることができる。

構築画像はシーンのバックグラウンドを有し、且つ含まれる文字がシーンコーパスに属していない構築画像である場合、構築画像を用いてモデルを予めトレーニングする際、予めトレーニングして得られたモデルはシーンバックグラウンドがある画像文字を認識する能力を備え、その後にモデルトレーニングを行う際、シーン画像における文字を認識する法則を迅速に学習することができる。

上記文字認識方法に対応して、本開示の実施例文字認識装置を提供する。

図１３を参照すると、図１３は、本開示の実施例によって提供される文字認識装置の概略構成図である。上記装置は以下のモジュール１３０１～１３０２を含む。

第２の画像取得モジュール１３０１は、認識対象画像を取得する。

文字認識モジュール１３０２は、前記認識対象画像を文字認識モデルに入力して、前記文字認識モデルから出力された認識文字を得て前記文字認識モデルが上記モデルトレーニング装置によってトレーニングして得られるモデルである。

なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれも関連法律法規の規定に合致し、かつ公序良俗に違反しない。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、及びコンピュータプログラムをさらに提供する。

本開示の実施例は、電子機器を提供し、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサがモデルトレーニングまたは文字認識方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータにモデルトレーニングまたは文字認識方法を実行させる。

本開示の実施例は、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサによって実行される場合、モデルトレーニングまたは文字認識方法を実現する。

図１４は、本開示の実施例を実行するための例示的な電子機器１４００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および／または求められる本開示の実現を制限することを意図したものではない。

図１４に示すように、電子機器１４００は、読み取り専用メモリ（ＲＯＭ）１４０２に記憶されているコンピュータプログラムまたは記憶ユニット１４０８からランダムアクセスメモリ（ＲＡＭ）１４０３にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット１４０１を含む。ＲＡＭ１４０３には、電子機器１４００の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット１４０１、ＲＯＭ１４０２、及びＲＡＭ１４０３は、バス１４０４を介して互いに接続されている。パス１４０４には、入力／出力（Ｉ／Ｏ）インターフェース１４０５も接続されている。

電子機器１４００の複数のコンポーネントはＩ／Ｏインターフェース１４０５に接続され、キーボード、マウスなどの入力ユニット１４０６、各タイプのディスプレイ、スピーカなどの出力ユニット１４０７、磁気ディスク、光ディスクなどの記憶ユニット１４０８、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１４０９を含む。通信ユニット１４０９は、電子機器１４００が、インターネットなどのコンピュータネットワークおよび／または各種の電信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット１４０１は、前文に記載の各方法及び処理、例えば、モデルトレーニングまたは文字認識方法を実行する。例えば、いくつかの実施例では、モデルトレーニングまたは文字認識方法を、記憶ユニット１４０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施形態では、コンピュータプログラムの一部または全部は、ＲＯＭ１４０２および／または通信ユニット１４０９を介して電子機器１４００にロードおよび／またはインストールすることができる。コンピュータプログラムがＲＡＭ１４０３にロードされ、計算ユニット１４０１によって実行される場合、前文に記載のモデルトレーニングまたは文字認識方法の１つのまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット１４０１はモデルトレーニングまたは文字認識方法を実行するように、他のいずれかの適切な方式（例えば、ファームウェアを介して）によって構成されてもよい。

本明細書で上記記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および／または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび／またはブロック図に規定された機能／操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記コンテンツの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力、または、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、を含む。

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができることを理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれなければならない。

Claims

モデルトレーニング方法であって、
第１の構築画像と前記第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得るステップと、
シーン画像、前記シーン画像における第２の実際の文字および第２の構築画像を取得するステップであって、前記第２の構築画像における文字と前記第２の実際の文字とは同じである、ステップと、
前記トレーニング対象モデルを用いて前記シーン画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得るステップと、
前記支援トレーニングモデルを用いて前記第２の構築画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第２の特徴を得るステップと、
前記第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、前記トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得るステップと、を含む、ことを特徴とする、
モデルトレーニング方法。
前記第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、前記トレーニング対象モデルのモデルパラメータを調整するステップは、
前記第１の認識文字と前記第２の実際の文字に基づいて、前記トレーニング対象モデルにより文字認識を行う第１の損失値を決定するステップと、
前記第１の特徴と前記第２の特徴との類似度を計算するステップと、
前記類似度に基づいて、前記トレーニング対象モデルにより文字認識を行う第２の損失値を決定するステップと、
前記第１の損失値と前記第２の損失値に基づいて、前記トレーニング対象モデルのモデルパラメータを調整するステップと、を含む、ことを特徴とする、
請求項１に記載の方法。
前記トレーニング対象モデルがトレーニング終了条件を満たした後、トレーニング後のトレーニング対象モデルのモデルパラメータに基づいて、前記支援トレーニングモデルのモデルパラメータを調整するステップと、
第３の構築画像と前記第３の構築画像における第３の実際の文字を用いて、モデルパラメータが調整された後の支援トレーニングモデルをトレーニングするステップと、
前記支援トレーニングモデルがトレーニング終了条件を満たした後、前記シーン画像、前記シーン画像における第２の実際の文字および第２の構築画像を取得するステップに戻り、前記トレーニング対象モデルを再トレーニングするステップと、をさらに含む、ことを特徴とする、
請求項１に記載の方法。
前記支援トレーニングモデルが複数のネットワーク層を含み、第３の構築画像と前記第３の構築画像における第３の実際の文字を用いて、モデルパラメータが調整された後の支援トレーニングモデルをトレーニングするステップは、
前記複数のネットワーク層から調整層を決定するステップと、
第３の構築画像と前記第３の構築画像における第３の実際の文字を用いて、前記調整層のモデルパラメータを調整することにより、前記支援トレーニングモデルをトレーニングするステップと、
前記支援トレーニングモデルがトレーニング終了条件を満たした後、調整層として決定されていないネットワーク層から調整層を決定し、すべてのネットワーク層をトラバースするまで、第３の構築画像と前記第３の構築画像における第３の実際の文字を用いて、前記調整層のモデルパラメータを調整することにより、前記支援トレーニングモデルをトレーニングするステップに戻るステップと、を含む、ことを特徴とする、
請求項３に記載の方法。
トレーニング後のトレーニング対象モデルのモデルパラメータに基づいて、前記支援トレーニングモデルのモデルパラメータを調整するステップは、
前記支援トレーニングモデルのモデルパラメータをトレーニング後のトレーニング対象モデルのモデルパラメータに調整するステップ、
または、
トレーニング後のトレーニング対象モデルのモデルパラメータと前記支援トレーニングモデルのモデルパラメータとを融合させ、前記支援トレーニングモデルのモデルパラメータを融合後のモデルパラメータに調整するステップ、を含む、ことを特徴とする、
請求項３に記載の方法。
前記第１の構築画像は、
シーンのバックグラウンドを有しなく、且つ含まれる文字がシーンコーパスに属していない構築画像、または、
シーンのバックグラウンドを有し、且つ含まれる文字がシーンコーパスに属していない構築画像、
のうちの少なくとも１種類を含む、ことを特徴とする、
請求項１に記載の方法。
文字認識方法であって、
認識対象画像を取得するステップと、
前記認識対象画像を文字認識モデルに入力して、前記文字認識モデルから出力された認識文字を得るステップであって、前記文字認識モデルが、請求項１～６のいずれか一項に記載の方法でトレーニングして得られるモデルである、ステップと、を含む、ことを特徴とする、
文字認識方法。
モデルトレーニング装置であって、
第１の構築画像と前記第１の構築画像における第１の実際の文字を用いて初期ニューラルネットワークモデルをトレーニングしてトレーニング対象モデルと支援トレーニングモデルを得るモデル取得モジュールと、
シーン画像、前記シーン画像における第２の実際の文字および第２の構築画像を取得する第１の画像取得モジュールであって、前記第２の構築画像における文字と前記第２の実際の文字とは同じである、第１の画像取得モジュールと、
前記トレーニング対象モデルを用いて前記シーン画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第１の特徴と第１の認識文字を得る文字決定モジュールと、
前記支援トレーニングモデルを用いて前記第２の構築画像に対して文字認識を行って、文字認識プロセス中に抽出された文字の第２の特徴を得る特徴決定モジュールと、
前記第１の認識文字、第２の実際の文字、第１の特徴及び第２の特徴に基づいて、前記トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得る第１のモデルトレーニングモジュールと、を含む、ことを特徴とする、
モデルトレーニング装置。
前記第１のモデルトレーニングモジュールは、
前記第１の認識文字と前記第２の実際の文字に基づいて、前記トレーニング対象モデルにより文字認識を行う第１の損失値を決定する第１の損失値決定サブモジュールと、
前記第１の特徴と前記第２の特徴との類似度を計算する類似度計算サブモジュールと、
前記類似度に基づいて、前記トレーニング対象モデルにより文字認識を行う第２の損失値を決定する第２の損失値決定サブモジュールと、
前記第１の損失値と前記第２の損失値に基づいて、前記トレーニング対象モデルのモデルパラメータを調整して、文字認識モデルを得るパラメータ調整サブモジュールと、を含む、ことを特徴とする、
請求項８に記載の装置。
前記トレーニング対象モデルがトレーニング終了条件を満たした後、トレーニング後のトレーニング対象モデルのモデルパラメータに基づいて、前記支援トレーニングモデルのモデルパラメータを調整するパラメータ調整モジュールと、
第３の構築画像と前記第３の構築画像における第３の実際の文字を用いて、モデルパラメータが調整された後の支援トレーニングモデルをトレーニングし、前記支援トレーニングモデルがトレーニング終了条件を満たした後、前記第１の画像取得モジュールをトリガして、前記トレーニング対象モデルを再トレーニングする第２のモデルトレーニングモジュールと、をさらに含む、ことを特徴とする、
請求項８に記載の装置。
前記支援トレーニングモデルは、複数のネットワーク層を含み、前記第２のモデルトレーニングモジュールは、
前記複数のネットワーク層から調整層を決定する第１の調整層決定サブモジュールと、
第３の構築画像と前記第３の構築画像における第３の実際の文字を用いて、前記調整層のモデルパラメータを調整することにより、前記支援トレーニングモデルをトレーニングするモデルトレーニングサブモジュールと、
すべてのネットワーク層をトラバースするまで、前記支援トレーニングモデルがトレーニング終了条件を満たした後、調整層として決定されていないネットワーク層から調整層を決定し、モデルトレーニングサブモジュールをトリガする第２の調整層決定サブモジュールと、を含む、ことを特徴とする、
請求項１０に記載の装置。
前記パラメータ調整モジュールは、前記支援トレーニングモデルのモデルパラメータをトレーニング後のトレーニング対象モデルのモデルパラメータに調整し、または、トレーニング後のトレーニング対象モデルのモデルパラメータと前記支援トレーニングモデルのモデルパラメータとを融合させ、前記支援トレーニングモデルのモデルパラメータを融合後のモデルパラメータに調整する、ことを特徴とする、請求項１０に記載の装置。
前記第１の構築画像は、シーンのバックグラウンドを有しなく、且つ含まれる文字がシーンコーパスに属していない構築画像、または、シーンのバックグラウンドを有し、且つ含まれる文字がシーンコーパスに属していない構築画像、のうちの少なくとも１種類を含む、ことを特徴とする、請求項８に記載の装置。
文字認識装置であって、
認識対象画像を取得する第２の画像取得モジュールと、
前記認識対象画像を文字認識モデルに入力して、前記文字認識モデルから出力された認識文字を得る文字認識モジュールであって、前記文字認識モデルが、請求項８～１３のいずれか一項に記載の装置でトレーニングして得られるモデルである、文字認識モジュールと、を含む、ことを特徴とする、
文字認識装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが、請求項１～６または７のいずれか一項に記載の方法を実行することができる、ことを特徴とする、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～６または７のいずれか一項に記載の方法を実行させる、ことを特徴とする、
非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムはプロセッサによって実行される場合、請求項１～６または７のいずれか一項に記載の方法を実現する、ことを特徴とする、コンピュータプログラム。