JP7414907B2 - 事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体 - Google Patents

事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP7414907B2
JP7414907B2 JP2022125621A JP2022125621A JP7414907B2 JP 7414907 B2 JP7414907 B2 JP 7414907B2 JP 2022125621 A JP2022125621 A JP 2022125621A JP 2022125621 A JP2022125621 A JP 2022125621A JP 7414907 B2 JP7414907 B2 JP 7414907B2
Authority
JP
Japan
Prior art keywords
model
candidate
trained
code
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022125621A
Other languages
English (en)
Other versions
JP2022160590A (ja
Inventor
テン シー,
カン カオ,
ガン ジャン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022160590A publication Critical patent/JP2022160590A/ja
Application granted granted Critical
Publication of JP7414907B2 publication Critical patent/JP7414907B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Description

本開示は、人工知能技術分野に関し、具体的にはコンピュータビジョン及び深層学習技術分野に関し、画像処理、画像認識などのシーンに適用することができ、特に事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体に関する。
事前訓練済みモデルは、上位人工知能タスクの効果改善に幅広く適用されており、上流タスクでは、大量の訓練データで事前訓練済みモデルが事前訓練されるため、下流タスクにおいて少量の訓練データでモデルを訓練するだけで良好な予測結果を取得することができる。したがって、どのようにして事前訓練済みモデルの訓練コストを削減し、訓練効率を向上させるかは極めて重要なことである。
本開示は、事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体を提供する。
本開示の第1の態様では、複数の候補モデルを取得するステップと、前記複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各前記候補モデルの構造コードを取得するステップと、訓練済みエンコーダを用いて各前記候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するステップと、各前記候補モデルの周波数領域コードに基づいて、各前記候補モデルのモデル性能パラメータを予測するステップと、各前記候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の前記候補モデルからターゲットモデルを決定するステップと、を含む、事前訓練済みモデルの決定方法が提供される。
本開示の第2の態様では、複数の候補モデルを取得するように構成される取得モジュールと、前記複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各前記候補モデルの構造コードを取得するように構成されるコーディングモジュールと、訓練済みエンコーダを用いて各前記候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するように構成されるマッピングモジュールと、各前記候補モデルの周波数領域コードに基づいて、各前記候補モデルのモデル性能パラメータを予測するように構成される予測モジュールと、各前記候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の前記候補モデルからターゲットモデルを決定するように構成される決定モジュールと、を備える、事前訓練済みモデルの決定装置が提供される。
本開示の第3の態様では、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが上記の事前訓練済みモデルの決定方法を実行できる、電子機器が提供される。
本開示の第4の態様では、コンピュータに上記の事前訓練済みモデルの決定方法を実行させるためのコンピュータ命令を記憶した、非一時的コンピュータ読み取り可能な記憶媒体が提供される。
本開示の第5の態様では、プロセッサによって実行される場合、上記の事前訓練済みモデルの決定方法を実現する、コンピュータプログラムが提供される。
なお、この概要部分で説明された内容は本開示の実施例の肝心又は重要な特徴を特定するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は以下の明細書により分かりやすくなる。
図面は本解決案をよりよく理解するためのものであり、本開示を限定するものではない。
本開示の第1の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。 本開示の第2の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。 本開示の第3の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。 本開示の第4の実施例に係る事前訓練済みモデルの決定装置の概略構成図である。 本開示の第5の実施例に係る事前訓練済みモデルの決定装置の概略構成図である。 本開示の実施例に係る事前訓練済みモデルの決定方法を実現するための電子機器のブロック図である。
本開示の例示的な実施例を図面を参照しながら以下に説明し、ここで、理解を助けるために、本開示の実施例の様々な詳細が含まれており、それらが単に例示するものとして見なされるべきである。したがって、当業者であれば、本開示の範囲と趣旨から逸脱しない限り、ここで説明された実施例に対して様々な置換及び変更を行うことができる。同様に、明確且つ簡潔にするために、以下の説明では、周知機能及び構成に対する説明を省略している。
現在、事前訓練済みモデルは、上位人工知能タスクの効果改善に幅広く適用されており、上流タスクでは、大量の訓練データで事前訓練済みモデルを事前訓練することにより、下流タスクにおいて少量の訓練データでモデルを訓練するだけで好ましい予測結果を取得することができる。したがって、どのようにして事前訓練済みモデルの訓練コストを削減し、訓練効率を向上させるかは、極めて重要なことである。
本開示は、事前訓練済みモデルの訓練コストを削減し、訓練効率を向上させるために、事前訓練済みモデルの決定方法を提供する。この方法では、複数の候補モデルを取得した後、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得し、さらに訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。
以下、図面を参照しながら本開示の実施例の事前訓練済みモデルの決定方法、事前訓練済みモデルの装置、電子機器、非一時的コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品を説明する。
まず、図1を参照しながら本開示に係る事前訓練済みモデルの決定方法を詳しく説明する。
図1は、本開示の第1の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。
ここで、本開示の実施例に係る事前訓練済みモデルの決定方法の実行主体が事前訓練済みモデルの決定装置であり、以下は決定装置をいう。当該決定装置は電子機器であってもよいし、電子機器内に配置されてもよい。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することが実現され、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。本開示の実施例では、決定装置が電子機器内に配置される場合を例として説明する。
ここで、電子機器は、データ処理を行うことができる任意の固定又はモバイルコンピューティングデバイスであり、例えば、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、或いはデスクトップパソコンなどの固定コンピューティングデバイス、或いはサーバ、或いは他のタイプのコンピューティングデバイスなどであってよく、本開示では限定されない。
図1に示すように、事前訓練済みモデルの決定方法は、以下のステップ101~105を含むことができる。
ステップ101において、複数の候補モデルを取得する。
各候補モデルは、訓練済みの複数のサブモデルを組み合わせたものである。訓練済みの複数のサブモデルは、ニューラルネットワークモデルであってもよいし、他のタイプのモデルであってもよいが、本開示では限定されない。
ステップ102において、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得する。
例示的な実施例では、複数の候補モデルのそれぞれに対して、当該候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得する。
候補モデルの構造コードにおいて、各項目は候補モデルの1つの層に対応しおり、ここで、1つの層は、候補モデルを構成する複数のサブモデルの1つとして理解することができ、各項目の取り値は、当該項目に対応する層のサブモデルのモデルタイプである。
例えば、候補モデルを構成する各サブモデルはモデルセットから選択されたものであると仮定すると、モデルセット内に10000タイプのサブモデルが含まれ、候補モデルAは合計6つの層であり、各層は候補モデルAの構造コードの1つの項目に対応する。これに対応して、候補モデルAの構造コードに6つの項目が含まれ、各項目に10000個の可能な取り値が含まれる。候補モデルAの第1層のサブモデルのモデルタイプのモデルセット内における番号が5、第2層のサブモデルのモデルタイプのモデルセット内における番号が2、第3層のサブモデルのモデルタイプのモデルセット内における番号が9、第4層のサブモデルのモデルタイプのモデルセット内における番号が8、第5層のサブモデルのモデルタイプのモデルセット内における番号が7、第6層のサブモデルのモデルタイプのモデルセット内における番号が4であると仮定すると、候補モデルAのモデル構造に基づいて構造コーディングを行って、候補モデルAの構造コードとして[5,2,9,8,7,4]を取得することができる。
ステップ103において、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得する。
例示的な実施例では、訓練エンコーダを事前訓練することができ、エンコーダの入力が構造コードであり、出力が対応する周波数領域コードであり、したがって、各候補モデルの構造コードを訓練済みエンコーダにそれぞれ入力することにより、各候補モデルの構造コードに対応する周波数領域コードを取得することができ、これにより、各候補モデルの構造コードを対応する周波数領域コードにマッピングすることが実現することができる。
ステップ104において、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測する。
モデル性能パラメータは、候補モデルの性能の優劣を特徴付けることができる。モデル性能パラメータは、候補モデルの精度を表すパラメータ及び候補モデルの処理速度を表すパラメータなどを含むことができる。
例示的な実施例では、予め統計して、周波数領域コードと対応する候補モデルのモデル性能パラメータとの相関性を説明する相関関数を取得することができ、相関関数のパラメータは周波数領域における最尤推定に基づいて取得することができる。これにより、各候補モデルの周波数領域コードを取得した後に、周波数領域コードに対応する候補モデルのモデル性能パラメータとの間の相関性を説明する相関関数に基づいて、各候補モデルのモデル性能パラメータを予測することができる。具体的に統計して相関関数を取得する方法は相関技術を参照されたく、ここで詳しい説明を省略する。
ステップ105において、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。
複数の候補モデルから決定された事前訓練済みモデルの数は、必要に応じて予め設定することができ、例えば予め1つ又は複数に設定することができ、本開示はこれに対して限定しない。
例示的な実施例では、各候補モデルのモデル性能パラメータを予測して取得した後、モデル性能パラメータに基づいて、各候補モデルを性能の良い順にソートし、複数の候補モデルから、上位にある事前設定された数のターゲットモデルを事前訓練済みモデルとして決定することができ、さらには、事前訓練済みモデルを訓練することにより、事前訓練済みモデルを顔認識、画像処理、商品分類など様々なタスクに適したものにすることができる。
複数の候補モデルを取得した後、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、後続で各候補モデルを訓練する必要がなく、決定された事前訓練済みモデルのみを訓練すればよい。これにより、事前訓練済みモデルを訓練する訓練コストを削減し、訓練効率を向上させることができる。また、各候補モデルのモデル性能パラメータに基づいて事前訓練済みモデルを選択することにより、各候補モデルから、精度が同じである場合に処理速度が最も早い候補モデルを事前訓練済みモデルとして選択することができる。さらに、事前訓練済みモデルを訓練した後、画像処理、画像認識などのタスクを実行する時、モデルの特定のハードウェア上での処理速度又は画像認識速度を向上させたり、低いコストのハードウェアにおいて高コストのハードウェアと同じ速度及び精度を達成したりすることができ、或いは、各候補モデルから、同じ速度条件において精度が最も高い候補モデルを事前訓練済みモデルとして選択することができ、さらに、事前訓練済みモデルを訓練した後、画像処理、画像認識などのタスクを実行する時、同等のハードウェア条件では、モデルの精度を向上させることができる。
本開示の実施例に係る事前訓練済みモデルの決定方法では、複数の候補モデルを取得した後、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得し、さらに訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。
上記の分析から分かるように、本開示の実施例では、訓練エンコーダを事前訓練し、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得することができる。以下、図2を参照しながら、本開示に係る事前訓練済みモデルの決定方法におけるエンコーダの訓練プロセスをさらに説明する。
図2は本開示の第2の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。図2に示すように、事前訓練済みモデルの決定方法は、以下のステップ201~208を含むことができる。
ステップ201において、訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して、エンコーダによって出力された予測周波数領域コードを取得する。
サンプル構造コードは、サンプルモデルのモデル構造に基づいてサンプルモデルに対して構造コーディングを行うことで取得することができる。サンプルモデルに対して構造コーディングを行うプロセスは、上記実施例の説明を参照されたく、ここでは説明を省略する。
ステップ202において、予測周波数領域コードをデコーダに入力する。
ステップ203において、デコーダの出力とサンプル構造コードとの違いに基づいて、エンコーダとデコーダとを訓練する。
エンコーダ及びデコーダは、それぞれニューラルネットワークモデル又は他のタイプのモデルであってもよいが、本開示では限定されない。エンコーダの入力は構造コードであり、出力は構造コードに対応する周波数領域コードであり、デコーダの入力は周波数領域コードであり、出力は周波数領域コードに対応する構造コードである。
例示的な実施例では、エンコーダとデコーダとを訓練する時、例えば深層学習の方式で訓練することができる。他の機械学習方法と比べて、深層学習はビッグデータセットにおいてさらに優れた性能を発揮する。
深層学習の方式でエンコーダ及びデコーダを訓練する時、まず、訓練サンプル内の1つ又は複数のサンプル構造コードを入力として、エンコーダに入力し、エンコーダによって出力された、当該サンプル構造コードに対応する予測周波数領域コードを取得し、次に、エンコーダによって出力された予測周波数領域コードを入力として、デコーダに入力し、デコーダによって出力された、予測周波数領域コードに対応する予測構造コードを取得し、当該サンプル構造コードに合わせて、デコーダの出力と当該サンプル構造コードとの違いを取得し、デコーダの出力と当該サンプル構造コードとの違いに基づいて、エンコーダ及びデコーダのパラメータを調整し、調整されたエンコーダ及びデコーダを取得する。
そして、訓練データ内のもう1つ又は複数のサンプル構造コードを入力とし、調整されたエンコーダに入力し、調整されたエンコーダによって出力された、当該サンプル構造コードに対応する予測周波数領域コードを取得し、次に、調整されたエンコーダによって出力された予測周波数領域コードを入力とし、調整されたデコーダに入力し、調整されたデコーダによって出力された、予測周波数領域コードに対応する予測構造コードを取得し、当該サンプル構造コードに合わせて、調整されたデコーダの出力と当該サンプル構造コードとの違いを取得し、調整されたデコーダの出力と当該サンプル構造コードとの違いに基づいて、調整されたエンコーダ及び調整されたデコーダのパラメータを調整し、さらに調整されたエンコーダ及びデコーダを取得する。
これにより、エンコーダ及びデコーダのパラメータを絶えずに調整してエンコーダ及びデコーダを繰り返して訓練し、デコーダによって出力された予測構造コードの精度が予め設定された閾値を満たすと、訓練を終了し、訓練済みエンコーダ及び訓練済みデコーダを取得する。
上記プロセスにより、訓練済みエンコーダ及び訓練済みデコーダを取得することができ、訓練済みエンコーダは特定のモデルの構造コードを周波数領域コードにマッピングすることができ、訓練済みデコーダは特定のモデルの周波数領域コードを構造コードにマッピングすることができ、これにより、後続で訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するための基礎を築いた。
ステップ204において、複数の候補モデルを取得する。
ステップ205において、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得する。
ステップ206において、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得する。
例示的な実施例では、上記訓練プロセスを用いてエンコーダとデコーダとを訓練した後、複数の候補モデルを取得し、各候補モデルの構造コードを取得すると、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得することができる。
ステップ207において、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測する。
なお、本開示の実施例では、各候補モデルの構造コードを対応する周波数領域コードにマッピングする時、構造コードを少なくとも2次元の周波数領域コードにマッピングすることができ、少なくとも2次元の周波数領域コードは、例えば少なくとも時間次元と精度次元とを含み、これにより、各候補モデルの少なくとも2次元の周波数領域コードに基づいて各候補モデルのモデル性能パラメータを予測する時、予測の精度を向上させることができる。
これに対応して、エンコーダとデコーダとを訓練する時、訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力した後、エンコーダにより少なくとも2次元のコーディングを行って、エンコーダによって出力された少なくとも2次元の予測周波数領域コードを取得することができ、次に、少なくとも2次元の予測周波数領域コードをデコーダに入力し、デコーダによって出力された予測構造コードとサンプル構造コードとの違いに基づいて、エンコーダとデコーダとを訓練する。これにより、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして各前記候補モデルの少なくとも2次元の周波数領域コードを取得し、各候補モデルの少なくとも2次元の周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測することを実現し、予測の精度を向上させることができる。
ステップ208において、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。
ステップ204~208の具体的な実現のプロセス及び原理は、上記実施例の説明を参照されたく、ここで詳しい説明を省略する。
本開示の実施例の事前訓練済みモデルの決定方法では、訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して、エンコーダによって出力された予測周波数領域コードを取得し、予測周波数領域コードをデコーダに入力し、デコーダの出力とサンプル構造コードとの違いに基づいて、エンコーダとデコーダとを訓練し、これにより、エンコーダとデコーダとの訓練が実現される。複数の候補モデルを取得し、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得した後、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、さらに各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することができる。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。
上記の分析から分かるように、本開示の実施例では、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、さらに各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。以下、図3を参照しながら、本開示に係る事前訓練済みモデルの決定方法における各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測するプロセスをさらに説明する。
図3は、本開示の第3の実施例に係る事前訓練済みモデルの決定方法の概略フローチャートである。図3に示すように、事前訓練済みモデルの決定方法は、以下ステップの301~306を含むことができる。
ステップ301において、モデルセット内の特徴抽出モデルを組み合わせて、複数の候補モデルを取得する。
特徴抽出モデルは、コンピュータビジョン及び画像処理分野における、画像特徴を抽出する機能を備える任意のモデルであってもよい。
例示的な実施例では、モデルセットには、訓練済みの複数の特徴抽出モデル(即ち上記実施例におけるサブモデル)が含まれ、複数の特徴抽出モデルはニューラルネットワークのモデルであってもよいし、他のタイプのモデルであってもよいし、本開示では限定されない。例示的な実施例では、ランダム選択の方式により、モデルセットから複数の特徴抽出モデルを選択して組み合わせることで複数の候補モデルを取得してもよい。或いは、モデルセット内の複数の特徴抽出モデルのそれぞれの性能を先に決定してから、性能の優れるいくつかの特徴抽出モデルをモデルセットから選択してランダムに組み合わせて、複数の候補モデルを取得してもよい。或いは、他の方式で複数の候補モデルを取得してもよい。本開示の実施例では、複数の候補モデルを取得する方式が限定されない。
モデルセット内の特徴抽出モデルを組み合わせることで、複数の高精度の候補モデルを取得することができる。
ステップ302において、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得する。
ステップ303において、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得する。
ステップ302~303の具体的な実現のプロセス及び原理は、上記実施例の説明を参照されたく、ここで詳しい説明を省略する。
ステップ304において、実行するタスクに基づいて、ターゲット相関関数を決定する。
ここで、実行するタスクは、事前訓練済みモデルが訓練された後に実行する必要のあるタスクであり、例えば、顔認識タスク又は商品分類タスクなどであってもよい。
例示的な実施例では、各タスクのそれぞれに対応する相関関数を事前決定することができ、各タスクに対応する相関関数は、周波数領域コードと、対応する候補モデルが当該タスクを実行する時のモデル性能パラメータとの相関性を記述する。相関関数のパラメータは周波数領域での最尤推定によって取得することができる。実行するタスク及び事前決定された各タスクのそれぞれに対応する相関関数に基づいて、実行するタスクに対応するターゲット相関関数を決定することができる。
ステップ305において、各候補モデルの周波数領域コードをターゲット相関関数にそれぞれ代入して、各候補モデルのモデル性能パラメータを取得する。
例示的な実施例では、ターゲット相関関数は、周波数領域コードと、対応する候補モデルが実行するタスクを実行する時のモデル性能パラメータとの相関性を記述することにより、各候補モデルの周波数領域コードをターゲット相関関数にそれぞれ代入して、各候補モデルのモデル性能パラメータを取得することができる。
実行するタスクに基づいて、ターゲット相関関数を決定し、各候補モデルの周波数領域コードをターゲット相関関数それぞれに代入して、各候補モデルのモデル性能パラメータを取得する。ことにより、実行するタスクに対応するターゲット相関関数に基づいて、各候補モデルが実行するタスクを実行する時のモデル性能パラメータを決定することが実現される。
ステップ306において、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。
ステップ306の具体的な実現プロセスと原理は上記実施例の説明を参照されたく、詳しい説明を省略する。
本開示の実施例の事前訓練済みモデルの決定方法では、まず、モデルセット内の特徴抽出モデルを組み合わせて、複数の候補モデルを取得し、次に、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得し、さらに、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、次に、実行するタスクに基づいて、ターゲット相関関数を決定し、各候補モデルの周波数領域コードをターゲット相関関数にそれぞれ代入して、各候補モデルのモデル性能パラメータを取得し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。
以下、図4を参照しながら、本開示に係る事前訓練済みモデルの決定装置を説明する。
図4は本開示の第4の実施例に係る事前訓練済みモデルの決定装置の構造概略図である。
図4に示すように、本開示に係る事前訓練済みモデルの決定装置400は、取得モジュール401、コーディングモジュール402、マッピングモジュール403、予測モジュール404及び決定モジュール405を備える。
取得モジュール401は、複数の候補モデルを取得するように構成される。
コーディングモジュール402は、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得するように構成される。
マッピングモジュール403は、訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するように構成される。
予測モジュール404は、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測するように構成される。
決定モジュール405は、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定するように構成される。
なお、本実施例に係る事前訓練済みモデルの決定装置は、上記実施例の事前訓練済みモデルの決定方法を実行することができる。当該決定装置は電子機器であってもよいし、電子機器内に配置されてもよい。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することが実現され、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。
電子機器は、データ処理を行うことができる固定又はモバイルコンピューティングデバイスであり、例えばノートブックコンピューター、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、或いはデスクトップコンピュータなどの固定のコンピューティングデバイス、或いはサーバ、或いは他のタイプのコンピューティングデバイスなどであってもよく、本開示では限定されない。
なお、事前訓練済みモデルの決定方法の実施例に対する上記説明は、本開示に係る事前訓練済みモデルの決定装置にも適用され、ここで詳しい説明を省略する。
本開示の実施例に係る事前訓練済みモデルの決定装置は、複数の候補モデルを取得した後、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得し、さらに訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。
以下、図5を参照しながら、本開示に係る事前訓練済みモデルの決定装置を説明する。
図5は、本開示の第5の実施例に係る事前訓練済みモデルの決定装置の概略構成図である。
図5に示すように、事前訓練済みモデルの決定装置500は、具体的には、取得モジュール501、コーディングモジュール502、マッピングモジュール503、予測モジュール504及び決定モジュール505を備えることができる。図5では、取得モジュール501、コーディングモジュール502、マッピングモジュール503、予測モジュール504及び決定モジュール505は図4における取得モジュール401、コーディングモジュール402、マッピングモジュール403、予測モジュール404及び決定モジュール405と同じ機能と構成を有する。
例示的な実施例では、事前訓練済みモデルの決定装置500は、訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して、エンコーダによって出力された予測周波数領域コードを取得するように構成される第1の処理モジュール506と、予測周波数領域コードをデコーダに入力するように構成される第2の処理モジュール507と、デコーダの出力とサンプル構造コードとの違いに基づいて、エンコーダとデコーダとを訓練するように構成される訓練モジュール508と、をさらに備えることができる。
例示的な実施例では、第1の処理モジュール506は、訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して少なくとも2次元のコーディングを行って、エンコーダによって出力された少なくとも2次元の予測周波数領域コードを取得するように構成される処理ユニットを備える。
例示的な実施例では、取得モジュール501は、モデルセット内の特徴抽出モデルを組み合わせて、複数の候補モデルを取得するように構成される組み合せユニットを備える。
例示的な実施例では、予測モジュール504は、実行するタスクに基づいて、ターゲット相関関数を決定するように構成される決定ユニットと、各候補モデルの周波数領域コードをターゲット相関関数にそれぞれ代入して、各候補モデルのモデル性能パラメータを取得するように構成される取得ユニットと、を備える。
なお、事前訓練済みモデルの決定方法の実施例に対する上記説明は、本開示に係る事前訓練済みモデルの決定装置にも適用され、ここで詳しい説明を省略する。
本開示の実施例に係る事前訓練済みモデルの決定装置は、複数の候補モデルを取得した後、複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各候補モデルの構造コードを取得し、さらに訓練済みエンコーダを用いて各候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得し、各候補モデルの周波数領域コードに基づいて、各候補モデルのモデル性能パラメータを予測し、各候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定する。これにより、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することにより、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。
本開示の実施例によれば、本開示は電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。
図6は、本開示の実施例を実施できる例示的な電子機器600の概略的なブロック図を示す。電子機器はラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイスなどの様々な形態のモバイル装置を表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を限定することを意図したものではない。
図6に示すように、電子機器600は、リードオンリーメモリ(ROM)602に記憶されるコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603内にロードされるコンピュータプログラムに基づいて様々な適切な動作と処理を実行できる計算ユニット601を備える。RAM603は、機器600の操作に必要な様々なプログラム及びデータを含むことができる。計算ユニット601、ROM602及びRAM603はバス604を介して互いに接続される。入力/出力(I/O)インターフェース605は同様にバス604に接続される。
キーボード、マウスなどの入力ユニット606と、各種類のタイプのモニタ、スピーカーなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信受送信機などの通信ユニット609とを備える電子機器600内の複数の部品はI/Oインターフェース605に接続される。通信ユニット609は、機器600がインターネットなどのコンピュータネットワーク及び/又は様々なテレコムネットワークを介して他の機器と情報/データを交換することを許可する。
計算ユニット601は処理と計算能力を有する様々な汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット601のいくつかの例は中央処理装置(CPU)、グラフィックス処理装置(GPU)、様々な専用の人工知能(AI)計算チップ、様々なマシン実行学習モデルアルゴリズムの計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット601は以上で説明された各方法及び処理、例えば、事前訓練済みモデルの決定方法を実行する。例えば、いくつかの実施例では、事前訓練済みモデルの決定方法は、記憶ユニット608などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部又はすべてはROM602及び/又は通信ユニット609を介して電子機器600にロード及び/又はインストールされる。コンピュータプログラムがRAM603にロードされ且つ計算ユニット601によって実行される際に、以上で説明された事前訓練済みモデルの決定方法の1つ又は複数のステップを実行することができる。代替的に、他の実施例では、計算ユニット601は他の任意の適切な方法(例えば、ファームウェアを介して)によって、事前訓練済みモデルの決定方法を実行するように構成されてもよい。
本明細書の上述したシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施されてもよく、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
本出願の方法を実行するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又がコントローラによって実行された際に、フローチャート及び/又はブロック図によって規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。
本出願の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されたり、又は命令実行システム、装置、またはデバイスと組み合わせて使用されたりするプログラムを含むか、又は記憶できる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記内容のいずれかの適切な組み合わせを備えることができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、または上記内容のいずれかの適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されたシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、並びにキーボードとポインティングデバイス(例えば、マウス又はトラックボール)を有し、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力または、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションを行う)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、及びブロックチェーンネットワークを含む。
コンピュータシステムは、クライアントとサーバを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける1つのホスト製品であり、従来の物理ホストとVPS(「Virtual Private Server」、又は「VPS」と略す)サービスに存在する管理の難しさ、業務拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、またはブロックチェーンと組み合わせたサーバであってもよい。
本開示は人工知能技術分野に関し、具体的にコンピュータビジョン及び深層学習技術分野に関し、画像処理、画像認識などのシーンに適用することができる。
なお、人工知能は、人間のある思考過程及び知的な行動(例えば学習、推理、思考、計画など)をコンピュータにシミュレーションさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能のハードウェア技術は一般に、センサ、専用の人工知能チップ、クラウド計算、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能のソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの側面を含む。
本開示の実施例の技術案によれば、複数の候補モデルの周波数領域コードに基づいて、事前訓練済みモデルとして複数の候補モデルからターゲットモデルを決定することで、事前訓練済みモデルを訓練する後続の訓練コストを削減し、訓練効率を向上させることができる。
なお、以上の説明に示される様々な形態のフローを用い、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。
上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者であれば、設計の要件と他の要因に応じて、様々な修正、組み合わせ、一部の組み合わせ及び代替を行うことができることを理解されたい。本開示の精神及び原則内で行われた修正、同等の置き換え及び改善などは、いずれも本開示の保護範囲に含まれるべきである。

Claims (11)

  1. 複数の候補モデルを取得するステップと、
    前記複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各前記候補モデルの構造コードを取得するステップと、
    訓練済みエンコーダを用いて各前記候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するステップと、
    各前記候補モデルの周波数領域コードに基づいて、各前記候補モデルのモデル性能パラメータを予測するステップと、
    各前記候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の前記候補モデルからターゲットモデルを決定するステップと、
    を含み、
    各前記候補モデルの周波数領域コードに基づいて、各前記候補モデルのモデル性能パラメータを予測するステップが、
    実行するタスクに基づいて、ターゲット相関関数を決定するステップと、
    各前記候補モデルの周波数領域コードを前記ターゲット相関関数にそれぞれ代入して、各前記候補モデルのモデル性能パラメータを取得するステップと、
    を含む、事前訓練済みモデルの決定方法。
  2. 訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して、前記エンコーダによって出力された予測周波数領域コードを取得するステップと、
    前記予測周波数領域コードをデコーダに入力するステップと、
    前記デコーダの出力と前記サンプル構造コードとの違いに基づいて、前記エンコーダと前記デコーダとを訓練するステップと、
    を含む請求項1に記載の事前訓練済みモデルの決定方法。
  3. 訓練サンプルとして構成されたサンプル構造コードを前記エンコーダに入力して、前記エンコーダによって出力された予測周波数領域コードを取得するステップが、
    前記訓練サンプルとして構成されたサンプル構造コードを前記エンコーダに入力して少なくとも2次元のコーディングを行って、前記エンコーダによって出力された少なくとも2次元の予測周波数領域コードを取得するステップを含む請求項2に記載の事前訓練済みモデルの決定方法。
  4. 複数の候補モデルを取得するステップが、
    モデルセット内の特徴抽出モデルを組み合わせて、前記複数の候補モデルを取得するステップを含む請求項1に記載の事前訓練済みモデルの決定方法。
  5. 複数の候補モデルを取得するように構成される取得モジュールと、
    前記複数の候補モデルのモデル構造に基づいて構造コーディングを行って、各前記候補モデルの構造コードを取得するように構成されるコーディングモジュールと、
    訓練済みエンコーダを用いて各前記候補モデルの構造コードをマッピングして、各前記候補モデルの周波数領域コードを取得するように構成されるマッピングモジュールと、
    各前記候補モデルの周波数領域コードに基づいて、各前記候補モデルのモデル性能パラメータを予測するように構成される予測モジュールと、
    各前記候補モデルのモデル性能パラメータに基づいて、事前訓練済みモデルとして複数の前記候補モデルからターゲットモデルを決定するように構成される決定モジュールと、
    を備え
    前記予測モジュールが、
    実行するタスクに基づいて、ターゲット相関関数を決定するように構成される決定ユニットと、
    各前記候補モデルの周波数領域コードを前記ターゲット相関関数にそれぞれ代入して、各前記候補モデルのモデル性能パラメータを取得するように構成される取得ユニットと、
    を備える、事前訓練済みモデルの決定装置。
  6. 訓練サンプルとして構成されたサンプル構造コードをエンコーダに入力して、前記エンコーダによって出力された予測周波数領域コードを取得するように構成される第1の処理モジュールと、
    前記予測周波数領域コードをデコーダに入力するように構成される第2の処理モジュールと、
    前記デコーダの出力と前記サンプル構造コードとの違いに基づいて、前記エンコーダと前記デコーダとを訓練するように構成される訓練モジュールと、
    を備える請求項に記載の事前訓練済みモデルの決定装置。
  7. 前記第1の処理モジュールが、
    前記訓練サンプルとして構成されたサンプル構造コードを前記エンコーダに入力して少なくとも2次元のコーディングを行って、前記エンコーダによって出力された少なくとも2次元の予測周波数領域コードを取得するように構成される処理ユニットを備える請求項に記載の事前訓練済みモデルの決定装置。
  8. 前記取得モジュールが、
    モデルセット内の特徴抽出モデルを組み合わせて、前記複数の候補モデルを取得するように構成される組み合せユニットを備える請求項からのいずれか一項に記載の事前訓練済みモデルの決定装置。
  9. 少なくとも1つのプロセッサと、
    該少なくとも1つのプロセッサと通信可能に接続されるメモリと、
    を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1からのいずれか一項に記載の事前訓練済みモデルの決定方法を実行できる電子機器。
  10. コンピュータに請求項1からのいずれか一項に記載の事前訓練済みモデルの決定方法を実行させるためのコンピュータ命令を記憶した非一時的コンピュータ読み取り可能な記憶媒体。
  11. プロセッサによって実行される場合、請求項1からのいずれか一項に記載の事前訓練済みモデルの決定方法を実現するコンピュータプログラム。
JP2022125621A 2021-08-06 2022-08-05 事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体 Active JP7414907B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110903956.2A CN113705628B (zh) 2021-08-06 2021-08-06 预训练模型的确定方法、装置、电子设备以及存储介质
CN202110903956.2 2021-08-06

Publications (2)

Publication Number Publication Date
JP2022160590A JP2022160590A (ja) 2022-10-19
JP7414907B2 true JP7414907B2 (ja) 2024-01-16

Family

ID=78651846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022125621A Active JP7414907B2 (ja) 2021-08-06 2022-08-05 事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体

Country Status (4)

Country Link
US (1) US20220374678A1 (ja)
JP (1) JP7414907B2 (ja)
KR (1) KR20220116395A (ja)
CN (1) CN113705628B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297946B (zh) * 2022-02-08 2023-03-24 无锡雪浪数制科技有限公司 一种实现多学科仿真模型降阶的工业互联网平台
CN114757630B (zh) * 2022-06-16 2022-10-14 阿里健康科技(杭州)有限公司 仓储管理模型确定方法、装置及计算机设备
CN116109914B (zh) * 2023-04-07 2023-06-27 平安银行股份有限公司 银行流水图像的鉴别真伪方法、装置、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064342A (ja) 2019-10-15 2021-04-22 北京小米智能科技有限公司Beijing Xiaomi Intelligent Technology Co.,Ltd. ニューラルネットワーク構造モデルを検索する方法、装置及び記録媒体
JP2021081793A (ja) 2019-11-14 2021-05-27 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111406267B (zh) * 2017-11-30 2024-06-04 谷歌有限责任公司 使用性能预测神经网络的神经架构搜索
CN109286825B (zh) * 2018-12-14 2021-04-30 北京百度网讯科技有限公司 用于处理视频的方法和装置
CN110457545B (zh) * 2019-08-16 2022-12-27 第四范式(北京)技术有限公司 一种确定推荐系统中排序模型的参数的方法及装置
CN111079938B (zh) * 2019-11-28 2020-11-03 百度在线网络技术(北京)有限公司 问答阅读理解模型获取方法、装置、电子设备及存储介质
CN111625635B (zh) * 2020-05-27 2023-09-29 北京百度网讯科技有限公司 问答处理方法、装置、设备及存储介质
CN111859995B (zh) * 2020-06-16 2024-01-23 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN112559885B (zh) * 2020-12-25 2024-01-12 北京百度网讯科技有限公司 地图兴趣点的训练模型确定方法、装置及电子设备
CN112784778B (zh) * 2021-01-28 2024-04-09 北京百度网讯科技有限公司 生成模型并识别年龄和性别的方法、装置、设备和介质
CN112766288B (zh) * 2021-03-03 2024-01-23 重庆赛迪奇智人工智能科技有限公司 图像处理模型构建方法、装置、电子设备和可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021064342A (ja) 2019-10-15 2021-04-22 北京小米智能科技有限公司Beijing Xiaomi Intelligent Technology Co.,Ltd. ニューラルネットワーク構造モデルを検索する方法、装置及び記録媒体
JP2021081793A (ja) 2019-11-14 2021-05-27 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム

Also Published As

Publication number Publication date
KR20220116395A (ko) 2022-08-23
US20220374678A1 (en) 2022-11-24
JP2022160590A (ja) 2022-10-19
CN113705628B (zh) 2024-02-06
CN113705628A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
JP7414907B2 (ja) 事前訓練済みモデルの決定方法及びその決定装置、電子機器並びに記憶媒体
CA3004885C (en) Asynchronous deep reinforcement learning
KR20220113881A (ko) 사전 훈련 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
JP2023531132A (ja) ビデオ認識モデルをトレーニングする方法、装置、電子機器、記憶媒体およびコンピュータプログラム
JP7297038B2 (ja) ニューラルネットワークモデルの事前トレーニング方法、装置、電子機器及び媒体
US11416760B2 (en) Machine learning based user interface controller
CN112784778A (zh) 生成模型并识别年龄和性别的方法、装置、设备和介质
CN112949433B (zh) 视频分类模型的生成方法、装置、设备和存储介质
JP7351942B2 (ja) 分野フレーズマイニング方法、装置及び電子機器
KR20230139296A (ko) 포인트 클라우드 처리 모델의 훈련과 포인트 클라우드 인스턴스 분할 방법 및 장치
CN114424215A (zh) 多任务适配器神经网络
JP2023025126A (ja) 深層学習モデルのトレーニング方法及び装置、テキストデータ処理方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN112966744A (zh) 模型训练方法、图像处理方法、装置和电子设备
CN118095209B (zh) 针对大语言模型的动态猜测解码方法、装置、设备及介质
JP7446359B2 (ja) 交通データ予測方法、交通データ予測装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラム
CN112634880A (zh) 话者识别的方法、装置、设备、存储介质以及程序产品
CN113657466A (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN114186681A (zh) 用于生成模型簇的方法、装置及计算机程序产品
JP7314330B2 (ja) 送電網システムディスパッチングモデルのトレーニング方法、装置、機器及び記憶媒体
KR20220078538A (ko) 생체 감지 모델 트레이닝 방법, 장치, 전자 기기 및 저장 매체
CN113657468A (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN114220163A (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN117351299A (zh) 图像生成及模型训练方法、装置、设备和存储介质
CN113361621B (zh) 用于训练模型的方法和装置
CN115081630A (zh) 多任务模型的训练方法、信息推荐方法、装置和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220805

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231228

R150 Certificate of patent or registration of utility model

Ref document number: 7414907

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150