JP7414907B2

JP7414907B2 - 事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体

Info

Publication number: JP7414907B2
Application number: JP2022125621A
Authority: JP
Inventors: テンシー，; カンカオ，; ガンジャン，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-06
Filing date: 2022-08-05
Publication date: 2024-01-16
Anticipated expiration: 2042-08-05
Also published as: US20220374678A1; JP2022160590A; CN113705628A; CN113705628B; KR20220116395A

Description

本開示は、人工知能技術分野に関し、具体的にはコンピュータビジョン及び深層学習技術分野に関し、画像処理、画像認識などのシーンに適用することができ、特に事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体に関する。

事前訓練済みモデルは、上位人工知能タスクの効果改善に幅広く適用されており、上流タスクでは、大量の訓練データで事前訓練済みモデルが事前訓練されるため、下流タスクにおいて少量の訓練データでモデルを訓練するだけで良好な予測結果を取得することができる。したがって、どのようにして事前訓練済みモデルの訓練コストを削減し、訓練効率を向上させるかは極めて重要なことである。

本開示は、事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体を提供する。

本開示の第１の態様では、複数の候補モデルを取得するステップと、前記複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各前記候補モデルの構造コードを取得するステップと、訓練済みエンコーダを用いて各前記候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するステップと、各前記候補モデルの周波数領域コードに基づいて、各前記候補モデルのモデル性能パラメータを予測するステップと、各前記候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の前記候補モデルからターゲットモデルを決定するステップと、を含む、事前訓練済みモデルの決定方法が提供される。

本開示の第２の態様では、複数の候補モデルを取得するように構成される取得モジュールと、前記複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各前記候補モデルの構造コードを取得するように構成されるコーディングモジュールと、訓練済みエンコーダを用いて各前記候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するように構成されるマッピングモジュールと、各前記候補モデルの周波数領域コードに基づいて、各前記候補モデルのモデル性能パラメータを予測するように構成される予測モジュールと、各前記候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の前記候補モデルからターゲットモデルを決定するように構成される決定モジュールと、を備える、事前訓練済みモデルの決定装置が提供される。

本開示の第３の態様では、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが上記の事前訓練済みモデルの決定方法を実行できる、電子機器が提供される。

本開示の第４の態様では、コンピュータに上記の事前訓練済みモデルの決定方法を実行させるためのコンピュータ命令を記憶した、非一時的コンピュータ読み取り可能な記憶媒体が提供される。

本開示の第５の態様では、プロセッサによって実行される場合、上記の事前訓練済みモデルの決定方法を実現する、コンピュータプログラムが提供される。

なお、この概要部分で説明された内容は本開示の実施例の肝心又は重要な特徴を特定するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は以下の明細書により分かりやすくなる。
図面は本解決案をよりよく理解するためのものであり、本開示を限定するものではない。

本開示の第１の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。本開示の第２の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。本開示の第３の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。本開示の第４の実施例に係る事前訓練済みモデルの決定装置の概略構成図である。本開示の第５の実施例に係る事前訓練済みモデルの決定装置の概略構成図である。本開示の実施例に係る事前訓練済みモデルの決定方法を実現するための電子機器のブロック図である。

本開示の例示的な実施例を図面を参照しながら以下に説明し、ここで、理解を助けるために、本開示の実施例の様々な詳細が含まれており、それらが単に例示するものとして見なされるべきである。したがって、当業者であれば、本開示の範囲と趣旨から逸脱しない限り、ここで説明された実施例に対して様々な置換及び変更を行うことができる。同様に、明確且つ簡潔にするために、以下の説明では、周知機能及び構成に対する説明を省略している。

現在、事前訓練済みモデルは、上位人工知能タスクの効果改善に幅広く適用されており、上流タスクでは、大量の訓練データで事前訓練済みモデルを事前訓練することにより、下流タスクにおいて少量の訓練データでモデルを訓練するだけで好ましい予測結果を取得することができる。したがって、どのようにして事前訓練済みモデルの訓練コストを削減し、訓練効率を向上させるかは、極めて重要なことである。

本開示は、事前訓練済みモデルの訓練コストを削減し、訓練効率を向上させるために、事前訓練済みモデルの決定方法を提供する。この方法では、複数の候補モデルを取得した後、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得し、さらに訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。

以下、図面を参照しながら本開示の実施例の事前訓練済みモデルの決定方法、事前訓練済みモデルの装置、電子機器、非一時的コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品を説明する。

まず、図１を参照しながら本開示に係る事前訓練済みモデルの決定方法を詳しく説明する。

図１は、本開示の第１の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。

ここで、本開示の実施例に係る事前訓練済みモデルの決定方法の実行主体が事前訓練済みモデルの決定装置であり、以下は決定装置をいう。当該決定装置は電子機器であってもよいし、電子機器内に配置されてもよい。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することが実現され、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。本開示の実施例では、決定装置が電子機器内に配置される場合を例として説明する。

ここで、電子機器は、データ処理を行うことができる任意の固定又はモバイルコンピューティングデバイスであり、例えば、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、或いはデスクトップパソコンなどの固定コンピューティングデバイス、或いはサーバ、或いは他のタイプのコンピューティングデバイスなどであってよく、本開示では限定されない。

図１に示すように、事前訓練済みモデルの決定方法は、以下のステップ１０１～１０５を含むことができる。

ステップ１０１において、複数の候補モデルを取得する。

各候補モデルは、訓練済みの複数のサブモデルを組み合わせたものである。訓練済みの複数のサブモデルは、ニューラルネットワークモデルであってもよいし、他のタイプのモデルであってもよいが、本開示では限定されない。

ステップ１０２において、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得する。

例示的な実施例では、複数の候補モデルのそれぞれに対して、当該候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得する。

候補モデルの構造コードにおいて、各項目は候補モデルの１つの層に対応しおり、ここで、１つの層は、候補モデルを構成する複数のサブモデルの１つとして理解することができ、各項目の取り値は、当該項目に対応する層のサブモデルのモデルタイプである。

例えば、候補モデルを構成する各サブモデルはモデルセットから選択されたものであると仮定すると、モデルセット内に１００００タイプのサブモデルが含まれ、候補モデルＡは合計６つの層であり、各層は候補モデルＡの構造コードの１つの項目に対応する。これに対応して、候補モデルＡの構造コードに６つの項目が含まれ、各項目に１００００個の可能な取り値が含まれる。候補モデルＡの第１層のサブモデルのモデルタイプのモデルセット内における番号が５、第２層のサブモデルのモデルタイプのモデルセット内における番号が２、第３層のサブモデルのモデルタイプのモデルセット内における番号が９、第４層のサブモデルのモデルタイプのモデルセット内における番号が８、第５層のサブモデルのモデルタイプのモデルセット内における番号が７、第６層のサブモデルのモデルタイプのモデルセット内における番号が４であると仮定すると、候補モデルＡのモデル構造に基づいて構造コーディングを行って、候補モデルＡの構造コードとして［５，２，９，８，７，４］を取得することができる。

ステップ１０３において、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得する。

例示的な実施例では、訓練エンコーダを事前訓練することができ、エンコーダの入力が構造コードであり、出力が対応する周波数領域コードであり、したがって、各候補モデルの構造コードを訓練済みエンコーダにそれぞれ入力することにより、各候補モデルの構造コードに対応する周波数領域コードを取得することができ、これにより、各候補モデルの構造コードを対応する周波数領域コードにマッピングすることが実現することができる。

ステップ１０４において、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測する。

モデル性能パラメータは、候補モデルの性能の優劣を特徴付けることができる。モデル性能パラメータは、候補モデルの精度を表すパラメータ及び候補モデルの処理速度を表すパラメータなどを含むことができる。

例示的な実施例では、予め統計して、周波数領域コードと対応する候補モデルのモデル性能パラメータとの相関性を説明する相関関数を取得することができ、相関関数のパラメータは周波数領域における最尤推定に基づいて取得することができる。これにより、各候補モデルの周波数領域コードを取得した後に、周波数領域コードに対応する候補モデルのモデル性能パラメータとの間の相関性を説明する相関関数に基づいて、各候補モデルのモデル性能パラメータを予測することができる。具体的に統計して相関関数を取得する方法は相関技術を参照されたく、ここで詳しい説明を省略する。

ステップ１０５において、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。

複数の候補モデルから決定された事前訓練済みモデルの数は、必要に応じて予め設定することができ、例えば予め１つ又は複数に設定することができ、本開示はこれに対して限定しない。

例示的な実施例では、各候補モデルのモデル性能パラメータを予測して取得した後、モデル性能パラメータに基づいて、各候補モデルを性能の良い順にソートし、複数の候補モデルから、上位にある事前設定された数のターゲットモデルを事前訓練済みモデルとして決定することができ、さらには、事前訓練済みモデルを訓練することにより、事前訓練済みモデルを顔認識、画像処理、商品分類など様々なタスクに適したものにすることができる。

複数の候補モデルを取得した後、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、後続で各候補モデルを訓練する必要がなく、決定された事前訓練済みモデルのみを訓練すればよい。これにより、事前訓練済みモデルを訓練する訓練コストを削減し、訓練効率を向上させることができる。また、各候補モデルのモデル性能パラメータに基づいて事前訓練済みモデルを選択することにより、各候補モデルから、精度が同じである場合に処理速度が最も早い候補モデルを事前訓練済みモデルとして選択することができる。さらに、事前訓練済みモデルを訓練した後、画像処理、画像認識などのタスクを実行する時、モデルの特定のハードウェア上での処理速度又は画像認識速度を向上させたり、低いコストのハードウェアにおいて高コストのハードウェアと同じ速度及び精度を達成したりすることができ、或いは、各候補モデルから、同じ速度条件において精度が最も高い候補モデルを事前訓練済みモデルとして選択することができ、さらに、事前訓練済みモデルを訓練した後、画像処理、画像認識などのタスクを実行する時、同等のハードウェア条件では、モデルの精度を向上させることができる。

本開示の実施例に係る事前訓練済みモデルの決定方法では、複数の候補モデルを取得した後、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得し、さらに訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。

上記の分析から分かるように、本開示の実施例では、訓練エンコーダを事前訓練し、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得することができる。以下、図２を参照しながら、本開示に係る事前訓練済みモデルの決定方法におけるエンコーダの訓練プロセスをさらに説明する。

図２は本開示の第２の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。図２に示すように、事前訓練済みモデルの決定方法は、以下のステップ２０１～２０８を含むことができる。

ステップ２０１において、訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して、エンコーダによって出力された予測周波数領域コードを取得する。

サンプル構造コードは、サンプルモデルのモデル構造に基づいてサンプルモデルに対して構造コーディングを行うことで取得することができる。サンプルモデルに対して構造コーディングを行うプロセスは、上記実施例の説明を参照されたく、ここでは説明を省略する。

ステップ２０２において、予測周波数領域コードをデコーダに入力する。

ステップ２０３において、デコーダの出力とサンプル構造コードとの違いに基づいて、エンコーダとデコーダとを訓練する。

エンコーダ及びデコーダは、それぞれニューラルネットワークモデル又は他のタイプのモデルであってもよいが、本開示では限定されない。エンコーダの入力は構造コードであり、出力は構造コードに対応する周波数領域コードであり、デコーダの入力は周波数領域コードであり、出力は周波数領域コードに対応する構造コードである。

例示的な実施例では、エンコーダとデコーダとを訓練する時、例えば深層学習の方式で訓練することができる。他の機械学習方法と比べて、深層学習はビッグデータセットにおいてさらに優れた性能を発揮する。

深層学習の方式でエンコーダ及びデコーダを訓練する時、まず、訓練サンプル内の１つ又は複数のサンプル構造コードを入力として、エンコーダに入力し、エンコーダによって出力された、当該サンプル構造コードに対応する予測周波数領域コードを取得し、次に、エンコーダによって出力された予測周波数領域コードを入力として、デコーダに入力し、デコーダによって出力された、予測周波数領域コードに対応する予測構造コードを取得し、当該サンプル構造コードに合わせて、デコーダの出力と当該サンプル構造コードとの違いを取得し、デコーダの出力と当該サンプル構造コードとの違いに基づいて、エンコーダ及びデコーダのパラメータを調整し、調整されたエンコーダ及びデコーダを取得する。

そして、訓練データ内のもう１つ又は複数のサンプル構造コードを入力とし、調整されたエンコーダに入力し、調整されたエンコーダによって出力された、当該サンプル構造コードに対応する予測周波数領域コードを取得し、次に、調整されたエンコーダによって出力された予測周波数領域コードを入力とし、調整されたデコーダに入力し、調整されたデコーダによって出力された、予測周波数領域コードに対応する予測構造コードを取得し、当該サンプル構造コードに合わせて、調整されたデコーダの出力と当該サンプル構造コードとの違いを取得し、調整されたデコーダの出力と当該サンプル構造コードとの違いに基づいて、調整されたエンコーダ及び調整されたデコーダのパラメータを調整し、さらに調整されたエンコーダ及びデコーダを取得する。

これにより、エンコーダ及びデコーダのパラメータを絶えずに調整してエンコーダ及びデコーダを繰り返して訓練し、デコーダによって出力された予測構造コードの精度が予め設定された閾値を満たすと、訓練を終了し、訓練済みエンコーダ及び訓練済みデコーダを取得する。

上記プロセスにより、訓練済みエンコーダ及び訓練済みデコーダを取得することができ、訓練済みエンコーダは特定のモデルの構造コードを周波数領域コードにマッピングすることができ、訓練済みデコーダは特定のモデルの周波数領域コードを構造コードにマッピングすることができ、これにより、後続で訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するための基礎を築いた。

ステップ２０４において、複数の候補モデルを取得する。

ステップ２０５において、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得する。

ステップ２０６において、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得する。

例示的な実施例では、上記訓練プロセスを用いてエンコーダとデコーダとを訓練した後、複数の候補モデルを取得し、各候補モデルの構造コードを取得すると、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得することができる。

ステップ２０７において、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測する。

なお、本開示の実施例では、各候補モデルの構造コードを対応する周波数領域コードにマッピングする時、構造コードを少なくとも２次元の周波数領域コードにマッピングすることができ、少なくとも２次元の周波数領域コードは、例えば少なくとも時間次元と精度次元とを含み、これにより、各候補モデルの少なくとも２次元の周波数領域コードに基づいて各候補モデルのモデル性能パラメータを予測する時、予測の精度を向上させることができる。

これに対応して、エンコーダとデコーダとを訓練する時、訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力した後、エンコーダにより少なくとも２次元のコーディングを行って、エンコーダによって出力された少なくとも２次元の予測周波数領域コードを取得することができ、次に、少なくとも２次元の予測周波数領域コードをデコーダに入力し、デコーダによって出力された予測構造コードとサンプル構造コードとの違いに基づいて、エンコーダとデコーダとを訓練する。これにより、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして各前記候補モデルの少なくとも２次元の周波数領域コードを取得し、各候補モデルの少なくとも２次元の周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測することを実現し、予測の精度を向上させることができる。

ステップ２０８において、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。

ステップ２０４～２０８の具体的な実現のプロセス及び原理は、上記実施例の説明を参照されたく、ここで詳しい説明を省略する。

本開示の実施例の事前訓練済みモデルの決定方法では、訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して、エンコーダによって出力された予測周波数領域コードを取得し、予測周波数領域コードをデコーダに入力し、デコーダの出力とサンプル構造コードとの違いに基づいて、エンコーダとデコーダとを訓練し、これにより、エンコーダとデコーダとの訓練が実現される。複数の候補モデルを取得し、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得した後、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、さらに各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することができる。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。

上記の分析から分かるように、本開示の実施例では、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、さらに各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。以下、図３を参照しながら、本開示に係る事前訓練済みモデルの決定方法における各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測するプロセスをさらに説明する。

図３は、本開示の第３の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。図３に示すように、事前訓練済みモデルの決定方法は、以下ステップの３０１～３０６を含むことができる。

ステップ３０１において、モデルセット内の特徴抽出モデルを組み合わせて、複数の候補モデルを取得する。

特徴抽出モデルは、コンピュータビジョン及び画像処理分野における、画像特徴を抽出する機能を備える任意のモデルであってもよい。

例示的な実施例では、モデルセットには、訓練済みの複数の特徴抽出モデル（即ち上記実施例におけるサブモデル）が含まれ、複数の特徴抽出モデルはニューラルネットワークのモデルであってもよいし、他のタイプのモデルであってもよいし、本開示では限定されない。例示的な実施例では、ランダム選択の方式により、モデルセットから複数の特徴抽出モデルを選択して組み合わせることで複数の候補モデルを取得してもよい。或いは、モデルセット内の複数の特徴抽出モデルのそれぞれの性能を先に決定してから、性能の優れるいくつかの特徴抽出モデルをモデルセットから選択してランダムに組み合わせて、複数の候補モデルを取得してもよい。或いは、他の方式で複数の候補モデルを取得してもよい。本開示の実施例では、複数の候補モデルを取得する方式が限定されない。

モデルセット内の特徴抽出モデルを組み合わせることで、複数の高精度の候補モデルを取得することができる。

ステップ３０２において、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得する。

ステップ３０３において、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得する。

ステップ３０２～３０３の具体的な実現のプロセス及び原理は、上記実施例の説明を参照されたく、ここで詳しい説明を省略する。

ステップ３０４において、実行するタスクに基づいて、ターゲット相関関数を決定する。

ここで、実行するタスクは、事前訓練済みモデルが訓練された後に実行する必要のあるタスクであり、例えば、顔認識タスク又は商品分類タスクなどであってもよい。

例示的な実施例では、各タスクのそれぞれに対応する相関関数を事前決定することができ、各タスクに対応する相関関数は、周波数領域コードと、対応する候補モデルが当該タスクを実行する時のモデル性能パラメータとの相関性を記述する。相関関数のパラメータは周波数領域での最尤推定によって取得することができる。実行するタスク及び事前決定された各タスクのそれぞれに対応する相関関数に基づいて、実行するタスクに対応するターゲット相関関数を決定することができる。

ステップ３０５において、各候補モデルの周波数領域コードをターゲット相関関数にそれぞれ代入して、各候補モデルのモデル性能パラメータを取得する。

例示的な実施例では、ターゲット相関関数は、周波数領域コードと、対応する候補モデルが実行するタスクを実行する時のモデル性能パラメータとの相関性を記述することにより、各候補モデルの周波数領域コードをターゲット相関関数にそれぞれ代入して、各候補モデルのモデル性能パラメータを取得することができる。

実行するタスクに基づいて、ターゲット相関関数を決定し、各候補モデルの周波数領域コードをターゲット相関関数それぞれに代入して、各候補モデルのモデル性能パラメータを取得する。ことにより、実行するタスクに対応するターゲット相関関数に基づいて、各候補モデルが実行するタスクを実行する時のモデル性能パラメータを決定することが実現される。

ステップ３０６において、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。

ステップ３０６の具体的な実現プロセスと原理は上記実施例の説明を参照されたく、詳しい説明を省略する。

本開示の実施例の事前訓練済みモデルの決定方法では、まず、モデルセット内の特徴抽出モデルを組み合わせて、複数の候補モデルを取得し、次に、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得し、さらに、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、次に、実行するタスクに基づいて、ターゲット相関関数を決定し、各候補モデルの周波数領域コードをターゲット相関関数にそれぞれ代入して、各候補モデルのモデル性能パラメータを取得し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。

以下、図４を参照しながら、本開示に係る事前訓練済みモデルの決定装置を説明する。

図４は本開示の第４の実施例に係る事前訓練済みモデルの決定装置の構造概略図である。

図４に示すように、本開示に係る事前訓練済みモデルの決定装置４００は、取得モジュール４０１、コーディングモジュール４０２、マッピングモジュール４０３、予測モジュール４０４及び決定モジュール４０５を備える。

取得モジュール４０１は、複数の候補モデルを取得するように構成される。
コーディングモジュール４０２は、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得するように構成される。
マッピングモジュール４０３は、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するように構成される。
予測モジュール４０４は、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測するように構成される。
決定モジュール４０５は、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定するように構成される。

なお、本実施例に係る事前訓練済みモデルの決定装置は、上記実施例の事前訓練済みモデルの決定方法を実行することができる。当該決定装置は電子機器であってもよいし、電子機器内に配置されてもよい。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することが実現され、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。

電子機器は、データ処理を行うことができる固定又はモバイルコンピューティングデバイスであり、例えばノートブックコンピューター、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、或いはデスクトップコンピュータなどの固定のコンピューティングデバイス、或いはサーバ、或いは他のタイプのコンピューティングデバイスなどであってもよく、本開示では限定されない。

なお、事前訓練済みモデルの決定方法の実施例に対する上記説明は、本開示に係る事前訓練済みモデルの決定装置にも適用され、ここで詳しい説明を省略する。

本開示の実施例に係る事前訓練済みモデルの決定装置は、複数の候補モデルを取得した後、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得し、さらに訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。

以下、図５を参照しながら、本開示に係る事前訓練済みモデルの決定装置を説明する。

図５は、本開示の第５の実施例に係る事前訓練済みモデルの決定装置の概略構成図である。

図５に示すように、事前訓練済みモデルの決定装置５００は、具体的には、取得モジュール５０１、コーディングモジュール５０２、マッピングモジュール５０３、予測モジュール５０４及び決定モジュール５０５を備えることができる。図５では、取得モジュール５０１、コーディングモジュール５０２、マッピングモジュール５０３、予測モジュール５０４及び決定モジュール５０５は図４における取得モジュール４０１、コーディングモジュール４０２、マッピングモジュール４０３、予測モジュール４０４及び決定モジュール４０５と同じ機能と構成を有する。

例示的な実施例では、事前訓練済みモデルの決定装置５００は、訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して、エンコーダによって出力された予測周波数領域コードを取得するように構成される第１の処理モジュール５０６と、予測周波数領域コードをデコーダに入力するように構成される第２の処理モジュール５０７と、デコーダの出力とサンプル構造コードとの違いに基づいて、エンコーダとデコーダとを訓練するように構成される訓練モジュール５０８と、をさらに備えることができる。

例示的な実施例では、第１の処理モジュール５０６は、訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して少なくとも２次元のコーディングを行って、エンコーダによって出力された少なくとも２次元の予測周波数領域コードを取得するように構成される処理ユニットを備える。

例示的な実施例では、取得モジュール５０１は、モデルセット内の特徴抽出モデルを組み合わせて、複数の候補モデルを取得するように構成される組み合せユニットを備える。

例示的な実施例では、予測モジュール５０４は、実行するタスクに基づいて、ターゲット相関関数を決定するように構成される決定ユニットと、各候補モデルの周波数領域コードをターゲット相関関数にそれぞれ代入して、各候補モデルのモデル性能パラメータを取得するように構成される取得ユニットと、を備える。

本開示の実施例によれば、本開示は電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。

図６は、本開示の実施例を実施できる例示的な電子機器６００の概略的なブロック図を示す。電子機器はラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイル装置を表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を限定することを意図したものではない。

図６に示すように、電子機器６００は、リードオンリーメモリ（ＲＯＭ）６０２に記憶されるコンピュータプログラム又は記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３内にロードされるコンピュータプログラムに基づいて様々な適切な動作と処理を実行できる計算ユニット６０１を備える。ＲＡＭ６０３は、機器６００の操作に必要な様々なプログラム及びデータを含むことができる。計算ユニット６０１、ＲＯＭ６０２及びＲＡＭ６０３はバス６０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース６０５は同様にバス６０４に接続される。

キーボード、マウスなどの入力ユニット６０６と、各種類のタイプのモニタ、スピーカーなどの出力ユニット６０７と、磁気ディスク、光ディスクなどの記憶ユニット６０８と、ネットワークカード、モデム、無線通信受送信機などの通信ユニット６０９とを備える電子機器６００内の複数の部品はＩ／Ｏインターフェース６０５に接続される。通信ユニット６０９は、機器６００がインターネットなどのコンピュータネットワーク及び／又は様々なテレコムネットワークを介して他の機器と情報／データを交換することを許可する。

計算ユニット６０１は処理と計算能力を有する様々な汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット６０１のいくつかの例は中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々なマシン実行学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット６０１は以上で説明された各方法及び処理、例えば、事前訓練済みモデルの決定方法を実行する。例えば、いくつかの実施例では、事前訓練済みモデルの決定方法は、記憶ユニット６０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部又はすべてはＲＯＭ６０２及び／又は通信ユニット６０９を介して電子機器６００にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ６０３にロードされ且つ計算ユニット６０１によって実行される際に、以上で説明された事前訓練済みモデルの決定方法の１つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット６０１は他の任意の適切な方法（例えば、ファームウェアを介して）によって、事前訓練済みモデルの決定方法を実行するように構成されてもよい。

本明細書の上述したシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されてもよく、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び／又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本出願の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又がコントローラによって実行された際に、フローチャート及び／又はブロック図によって規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。

本出願の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されたり、又は命令実行システム、装置、またはデバイスと組み合わせて使用されたりするプログラムを含むか、又は記憶できる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記内容のいずれかの適切な組み合わせを備えることができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記内容のいずれかの適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されたシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、並びにキーボードとポインティングデバイス（例えば、マウス又はトラックボール）を有し、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力または、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとして）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションを行う）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、及びブロックチェーンネットワークを含む。

コンピュータシステムは、クライアントとサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける１つのホスト製品であり、従来の物理ホストとＶＰＳ（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略す）サービスに存在する管理の難しさ、業務拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、またはブロックチェーンと組み合わせたサーバであってもよい。

本開示は人工知能技術分野に関し、具体的にコンピュータビジョン及び深層学習技術分野に関し、画像処理、画像認識などのシーンに適用することができる。

なお、人工知能は、人間のある思考過程及び知的な行動（例えば学習、推理、思考、計画など）をコンピュータにシミュレーションさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能のハードウェア技術は一般に、センサ、専用の人工知能チップ、クラウド計算、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能のソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの側面を含む。

本開示の実施例の技術案によれば、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することで、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。

なお、以上の説明に示される様々な形態のフローを用い、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者であれば、設計の要件と他の要因に応じて、様々な修正、組み合わせ、一部の組み合わせ及び代替を行うことができることを理解されたい。本開示の精神及び原則内で行われた修正、同等の置き換え及び改善などは、いずれも本開示の保護範囲に含まれるべきである。

Claims

複数の候補モデルを取得するステップと、
前記複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各前記候補モデルの構造コードを取得するステップと、
訓練済みエンコーダを用いて各前記候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するステップと、
各前記候補モデルの周波数領域コードに基づいて、各前記候補モデルのモデル性能パラメータを予測するステップと、
各前記候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の前記候補モデルからターゲットモデルを決定するステップと、
を含み、
各前記候補モデルの周波数領域コードに基づいて、各前記候補モデルのモデル性能パラメータを予測するステップが、
実行するタスクに基づいて、ターゲット相関関数を決定するステップと、
各前記候補モデルの周波数領域コードを前記ターゲット相関関数にそれぞれ代入して、各前記候補モデルのモデル性能パラメータを取得するステップと、
を含む、事前訓練済みモデルの決定方法。
訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して、前記エンコーダによって出力された予測周波数領域コードを取得するステップと、
前記予測周波数領域コードをデコーダに入力するステップと、
前記デコーダの出力と前記サンプル構造コードとの違いに基づいて、前記エンコーダと前記デコーダとを訓練するステップと、
を含む請求項１に記載の事前訓練済みモデルの決定方法。
訓練サンプルとして構成されたサンプル構造コードを前記エンコーダに入力して、前記エンコーダによって出力された予測周波数領域コードを取得するステップが、
前記訓練サンプルとして構成されたサンプル構造コードを前記エンコーダに入力して少なくとも２次元のコーディングを行って、前記エンコーダによって出力された少なくとも２次元の予測周波数領域コードを取得するステップを含む請求項２に記載の事前訓練済みモデルの決定方法。
複数の候補モデルを取得するステップが、
モデルセット内の特徴抽出モデルを組み合わせて、前記複数の候補モデルを取得するステップを含む請求項１に記載の事前訓練済みモデルの決定方法。
複数の候補モデルを取得するように構成される取得モジュールと、
前記複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各前記候補モデルの構造コードを取得するように構成されるコーディングモジュールと、
訓練済みエンコーダを用いて各前記候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するように構成されるマッピングモジュールと、
各前記候補モデルの周波数領域コードに基づいて、各前記候補モデルのモデル性能パラメータを予測するように構成される予測モジュールと、
各前記候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の前記候補モデルからターゲットモデルを決定するように構成される決定モジュールと、
を備え、
前記予測モジュールが、
実行するタスクに基づいて、ターゲット相関関数を決定するように構成される決定ユニットと、
各前記候補モデルの周波数領域コードを前記ターゲット相関関数にそれぞれ代入して、各前記候補モデルのモデル性能パラメータを取得するように構成される取得ユニットと、
を備える、事前訓練済みモデルの決定装置。
訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して、前記エンコーダによって出力された予測周波数領域コードを取得するように構成される第１の処理モジュールと、
前記予測周波数領域コードをデコーダに入力するように構成される第２の処理モジュールと、
前記デコーダの出力と前記サンプル構造コードとの違いに基づいて、前記エンコーダと前記デコーダとを訓練するように構成される訓練モジュールと、
を備える請求項５に記載の事前訓練済みモデルの決定装置。
前記第１の処理モジュールが、
前記訓練サンプルとして構成されたサンプル構造コードを前記エンコーダに入力して少なくとも２次元のコーディングを行って、前記エンコーダによって出力された少なくとも２次元の予測周波数領域コードを取得するように構成される処理ユニットを備える請求項６に記載の事前訓練済みモデルの決定装置。
前記取得モジュールが、
モデルセット内の特徴抽出モデルを組み合わせて、前記複数の候補モデルを取得するように構成される組み合せユニットを備える請求項５から７のいずれか一項に記載の事前訓練済みモデルの決定装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１から４のいずれか一項に記載の事前訓練済みモデルの決定方法を実行できる電子機器。
コンピュータに請求項１から４のいずれか一項に記載の事前訓練済みモデルの決定方法を実行させるためのコンピュータ命令を記憶した非一時的コンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合、請求項１から４のいずれか一項に記載の事前訓練済みモデルの決定方法を実現するコンピュータプログラム。