JP2021193564A

JP2021193564A - 機械学習方法、機械学習システム及び非一時的コンピュータ可読記憶媒体

Info

Publication number: JP2021193564A
Application number: JP2021094808A
Authority: JP
Inventors: 智暘陳; Chih-Yang Chen; 哲瀚張; Che-Han Chang; 智威張; Chang Edward
Original assignee: HTC Corp
Current assignee: HTC Corp
Priority date: 2020-06-05
Filing date: 2021-06-04
Publication date: 2021-12-23
Anticipated expiration: 2041-06-04
Also published as: TW202147139A; JP7226696B2; EP3920102A1; KR20210152402A; US20210383224A1; TWI831016B; CN113762327A

Abstract

【課題】機械学習方法、機械学習システム及び非一時的コンピュータ可読記憶媒体を提供する。【解決手段】機械学習方法は、（ａ）ハイパーパラメータ及びハイパーネットワークパラメータの初期値を取得し、（ｂ）ハイパーパラメータ及びハイパーネットワークパラメータに基づいて第１の分類モデルパラメータを生成し、第１の分類モデルパラメータに基づいてトレーニングサンプルの分類結果に対してハイパーネットワークパラメータを更新し、（ｃ）ハイパーパラメータ及び更新後のハイパーネットワークパラメータに基づいて第２の分類モデルパラメータを生成し、第２の分類モデルパラメータに基づいて検証サンプルの分類結果に対してハイパーパラメータを更新し、（ｄ）ハイパーネットワークパラメータ及びハイパーパラメータを更新するように、ステップ（ｂ）及び（ｃ）を繰り返す。自動的に調整されたデータ拡張後のハイパーパラメータによって、分類モデルの精度を効果的に向上させ、過剰適合の問題を減少するできる。【選択図】図２

Description

本開示は、機械学習技術に関し、特にデータ拡張機能を有する機械学習技術に関する。

機械視覚の分野において、機械学習及びニューラルネットワークなどの技術を利用する場合が多い。機械視覚の重要な適用の１つは、ピクチャ又は画像に含まれるオブジェクト（例えば、人間の顔、ライセンスプレートなど）の検出及び認識であり、特徴抽出及び特徴分類によってオブジェクト検出を行うことができる。

ピクチャ又は画像におけるオブジェクトを正確に検出するとともに検出の精度を向上させるために、通常、多量のトレーニングデータ（例えば、トレーニング用の入力されたピクチャ及び対応する分類ラベル）を必要として、分類を担当するニューラルネットワークがトレーニングデータに基づいて入力されたピクチャと正確な分類ラベルとの関連性を学習できるようにする。実際の状況では、精度の要求に合致するために十分な量のトレーニングデータを取得することは、非常に困難であり、各種のオブジェクト検出の適用は、トレーニングデータのサンプル数が十分でない問題に直面することが多い。

本開示の一態様は、（ａ）ハイパーパラメータ及びハイパーネットワークパラメータの初期値を取得するステップと、（ｂ）前記ハイパーパラメータ及び前記ハイパーネットワークパラメータに基づいて第１の分類モデルパラメータを生成し、前記第１の分類モデルパラメータに基づいてトレーニングサンプルの分類結果に対して前記ハイパーネットワークパラメータを更新するステップと、（ｃ）前記ハイパーパラメータ及び更新後の前記ハイパーネットワークパラメータに基づいて第２の分類モデルパラメータを生成し、前記第２の分類モデルパラメータに基づいて検証サンプルの分類結果に対して前記ハイパーパラメータを更新するステップと、（ｄ）前記ハイパーネットワークパラメータ及び前記ハイパーパラメータを更新するように、ステップ（ｂ）及び（ｃ）を繰り返すステップと、を含む機械学習方法を開示する。

本開示の別の態様は、ハイパーパラメータ及びハイパーネットワークパラメータの初期値を記憶するための記憶ユニットと、記憶ユニットに結合され、ハイパーネットワーク及び分類モデルを実行する処理ユニットと、を含み、前記処理ユニットは（ａ）前記ハイパーネットワークにより前記ハイパーパラメータ及び前記ハイパーネットワークパラメータに基づいて第１の分類モデルパラメータを生成し、前記分類モデルにより前記第１の分類モデルパラメータに基づいてトレーニングサンプルの分類結果を生成することで、前記ハイパーネットワークパラメータを更新する操作と、（ｂ）前記ハイパーネットワークにより前記ハイパーパラメータ及び更新後の前記ハイパーネットワークパラメータに基づいて第２の分類モデルパラメータを生成し、前記分類モデルにより前記第２の分類モデルパラメータに基づいて検証サンプルの分類結果を生成することで、前記ハイパーパラメータを更新する操作と、（ｃ）前記ハイパーネットワークパラメータ及び前記ハイパーパラメータを更新するように、操作（ａ）及び（ｂ）を繰り返す操作と、を行うことに用いられる機械学習システムを開示する。

本開示の別の態様は、少なくとも１つの命令プログラムを含み、機械学習方法を実行するように、プロセッサにより前記少なくとも１つの命令プログラムを実行する非一時的コンピュータ可読記憶媒体であって、前記機械学習方法は（ａ）ハイパーパラメータ及びハイパーネットワークパラメータの初期値を取得するステップと、（ｂ）ハイパーパラメータ及びハイパーネットワークパラメータに基づいて第１の分類モデルパラメータを生成し、前記第１の分類モデルパラメータに基づいてトレーニングサンプルの分類結果に対して前記ハイパーネットワークパラメータを更新するステップと、（ｃ）前記ハイパーパラメータ及び更新後の前記ハイパーネットワークパラメータに基づいて第２の分類モデルパラメータを生成し、前記第２の分類モデルパラメータに基づいて検証サンプルの分類結果に対して前記ハイパーパラメータを更新するステップと、（ｄ）前記ハイパーネットワークパラメータ及び前記ハイパーパラメータを更新するように、ステップ（ｂ）及び（ｃ）を繰り返すステップと、を含む非一時的コンピュータ可読記憶媒体を開示する。

本開示内容の上記実施例において、ハイパーネットワークによって複数の連続的検索モデルを生成し、勾配降下法でデータ拡張に使用されるハイパーパラメータを自動的に調整し、且つ、重み共有ポリシーを採用して演算速度及び精度を向上させ、データ拡張のパラメータを手動で調整する時間及び人的資源を節約できるだけでなく、トレーニングサンプルが十分でない問題を回避することもできる、ハイパーネットワークに基づくデータ拡張を提案する。また、オリジナルのトレーニングサンプルが十分であるか否かにもかかわらず、データ拡張によって、精度を効果的に向上させ、過剰適合の問題を減少することができるため、データ拡張に対してパラメータを自動的に調整することでモデル性能をより効果的に向上させることができる。

本開示による一実施例における機械学習システムを示す模式図である。本開示による一実施例における機械学習方法を示す模式図である。いくつかの実施例における機械学習方法のうちの１つのステップの詳細ステップを示すフローチャートである。いくつかの実施例において処理ユニットにおける各素子が図３の詳細ステップを実行する模式図である。図５Ａは、本開示内容によるいくつかの実施例においてハイパーパラメータを変換して前記第１の分類モデルパラメータを計算する模式図である。図５Ｂは、本開示内容によるいくつかの実施例において第１の損失に基づいてハイパーネットワークパラメータを更新する模式図である。本開示内容によるいくつかの実施例において分類モデルにより４つの検索分類モデルパラメータに基づいて形成された４つの検索分類モデルの内部アーキテクチャを示す模式図である。いくつかの実施例における機械学習方法のうちの１つのステップの詳細ステップを示すフローチャートである。いくつかの実施例において処理ユニットにおける各素子が図７の詳細ステップを実行する模式図である。図９Ａは、本開示内容によるいくつかの実施例においてハイパーパラメータを変換して第２の分類モデルパラメータを計算する模式図である。図９Ｂは、本開示内容によるいくつかの実施例において第２の損失に基づいてハイパーパラメータを更新する模式図である。

以下の開示は、本開示内容の異なる特徴を実施するために多くの異なる実施例又は例を提供する。特定の例における素子及び配置は、以下の検討において本開示を簡略化するために用いられる。検討される全ての例は、説明の目的のみに使用され、如何なる形態で本開示内容又はその例の範囲及び意味を制限するものではない。適切な場合、図面の間及び対応する文字説明において同一の又は類似する素子を表すために同一の符号を使用する。

本開示による一実施例における機械学習システム１００を示す模式図である図１を参照されたい。機械学習システム１００は、記憶ユニット１２０と、処理ユニット１４０と、を含む。処理ユニット１４０は、記憶ユニット１２０に結合される。

いくつかの実施例において、機械学習システム１００は、コンピュータ、サーバ又は処理センターによって確立される。いくつかの実施例において、処理ユニット１４０は、プロセッサ、中央処理ユニット又は計算ユニットによって実現されてよい。いくつかの実施例において、記憶ユニット１２０は、メモリ、フラッシュメモリ、読み出し専用メモリ、ハードディスク又は同等の性能を有する如何なる記憶コンポーネントによって実現されてよい。

いくつかの実施例において、機械学習システム１００は、記憶ユニット１２０及び処理ユニット１４０を含むものに限定されず、実行及び適用に必要な他の素子を更に含んでもよく、例として、出力インタフェース（例えば、情報を表示するための表示パネル）、入力インタフェース（例えば、タッチパネル、キーボード、マイクロフォン、スキャナ又はフラッシュメモリリーダ）及び通信回路（例えば、ＷｉＦｉ（登録商標）通信モジュール、ブルートゥース（登録商標）通信モジュール、無線通信ネットワーク通信モジュールなど）を更に含んでもよい。

図１に示すように、記憶ユニット１２０には少なくとも２種類のハイパーパラメータＨＰ及びハイパーネットワークパラメータＨＮＰのそれぞれの初期値が記憶されている。一実施例において、機械学習システム１００は、この２種類のパラメータ（ハイパーパラメータＨＰ及びハイパーネットワークパラメータＨＮＰ）に基づいてそれぞれデータ拡張及びラベル分類の操作を如何に行うかを決定し、詳細な方法については、後述する段落において詳しく説明される。データ拡張は、トレーニングデータの量を増加させる技術であり、データ拡大又はデータ補完とも呼ばれ、深層学習トレーニングを行う場合、多量のトレーニングデータを必要とすることが多く、データ拡張技術によってオリジナルのトレーニングデータに基づいてより多くの拡張トレーニングデータを生成することで、機械学習モデルのトレーニング時に過剰適合の現象が発生しないように確保することができる。

図１に示すように、処理ユニット１４０は、記憶ユニット１２０に結合され、且つ、対応するソフトウェア／ファームウェア命令プログラムに基づいてデータ拡張モデル１４２、ハイパーネットワーク１４４及び分類モデル１４６を実行するために用いられる。

いくつかの実施例において、データ拡張モデル１４２は、入力されたトレーニングサンプルに基づいてデータ拡張を行って複数の拡張トレーニングサンプルを生成するために用いられる。例えば、入力されたトレーニングサンプルがオリジナル画像（例えば、昼間で、路面で走行している自動車の写真）及びこのオリジナル画像に対応するトレーニングラベル（例えば、自動車、道路又は信号灯）である場合、データ拡張モデル１４２は、オリジナル画像に対して水平反転、垂直反転、回転、垂直シフト、水平シフト、拡大／縮小、輝度調整などの多種類の画像処理のうちの１つ又は複数の処理の組み合わせを行うために用いられる。

いくつかの実施例において、データ拡張モデル１４２は、ハイパーパラメータＨＰの数値に基づいてトレーニングサンプルにおけるオリジナル画像に対して異なる程度の処理を行う（例えば、異なる回転角度、異なる拡大／縮小程度を採用する）ことで複数の拡張トレーニングサンプルにおけるデータ拡張画像を生成する。これらのデータ拡張画像は、全てオリジナル画像に基づいて生成されたものであるが、データ拡張画像における画素の数値が既に画像処理によって変更されたため、分類モデル１４６にとって、複数の拡張トレーニングサンプルを異なるトレーニングサンプルと等価的に見なすことができ、これにより、トレーニングサンプルの数を拡大し、トレーニングサンプルが十分でない問題を解決することができる。

いくつかの実施例において、分類モデル１４６は、入力されたデータ（例えば、前述したデータ拡張画像）を分類することができ、例えば、入力された画像に含まれる車両、人間の顔、ライセンスプレート、文字、トーテム又は他の画像特徴オブジェクトを検出する。分類モデル１４６は、分類結果に基づいて対応するラベルを生成する。分類モデル１４６は、分類動作を実行する時に自身の分類モデルパラメータを参照する必要があることを説明しておきたい。

この実施例において、ハイパーネットワーク１４４は、ハイパーパラメータＨＰを分類モデル１４６に使用される分類モデルパラメータに変換するために用いられる。ハイパーネットワークは、ハイパーネットワークパラメータＨＮＰの設定に基づいてハイパーパラメータＨＰを分類モデルパラメータに如何に変換するかを決定する。

つまり、いくつかの実施例において、ハイパーパラメータＨＰは、データ拡張モデル１４２がデータ拡張を如何に行うかを決定するだけでなく、ハイパーネットワーク１４４によって変換された後（分類モデルパラメータを形成する）、分類モデル１４６が分類操作を如何に行うかを決定するためにも用いられる。

本開示による一実施例の機械学習方法２００を示す模式図である図２を合わせて参照されたく、図１に示す機械学習システム１００は、図２の機械学習方法２００を実行するために用いることができる。

図２に示すように、ステップＳ２１０において、まず、ハイパーパラメータＨＰ及びハイパーネットワークパラメータＨＮＰの初期値を取得する。いくつかの実施例において、このハイパーパラメータＨＰ及びハイパーネットワークパラメータＨＮＰの初期値は、従来のトレーニング経験から取得された平均値、手動で付与された所定値、又は乱数値であってよい。

ステップＳ２２０において、ハイパーパラメータ及びハイパーネットワークパラメータに基づいて第１の分類モデルパラメータを生成し、第１の分類モデルパラメータに基づいてトレーニングサンプルの分類結果に対してハイパーネットワークパラメータを更新する。一実施例において、ハイパーネットワーク１４４によりハイパーネットワークパラメータＨＮＰに基づいてハイパーパラメータＨＰを第１の分類モデルパラメータに変換し、第１の分類モデルパラメータに基づいてトレーニングサンプルの分類結果に対してハイパーネットワークパラメータＨＮＰを更新する。以下、具体的な例を参照しながら、ステップＳ２２０のいくつかの実施例における詳細ステップを更に説明する。

ステップＳ２３０において、ハイパーパラメータ及び更新後のハイパーネットワークパラメータに基づいて第２の分類モデルパラメータを生成し、第２の分類モデルパラメータに基づいて検証サンプルの分類結果に対してハイパーパラメータを更新する。一実施例において、ハイパーネットワーク１４４により更新後のハイパーネットワークパラメータＨＮＰに基づいてハイパーパラメータＨＰを第２の分類モデルパラメータに変換し、第２の分類モデルパラメータに基づいて検証サンプルの分類結果に対してハイパーパラメータＨＰを更新する。以下、具体的な例を参照しながらステップＳ２３０のいくつかの実施例における詳細ステップを更に説明する。

つまり、ステップＳ２２０において、まず、ハイパーネットワークパラメータＨＮＰを更新する。ステップＳ２３０において、新たなハイパーネットワークパラメータＨＮＰに基づいてハイパーパラメータＨＰを更に更新する。

ステップＳ２４０において、収束条件に達したか否かを判定し、収束条件に達していない場合、再びステップＳ２２０に戻り、ハイパーネットワークパラメータＨＮＰ及びハイパーパラメータＨＰを更新するように、ステップＳ２２０及びＳ２３０を持続的に繰り返す。いくつかの実施例において、収束条件に達する前に、ハイパーネットワークパラメータＨＮＰ及びハイパーパラメータＨＰを段階的に繰り返し更新するように、ステップＳ２２０及びＳ２３０を持続的に行うことができる。

収束条件に達した（例えば、分類モデル１４６により与えられた分類結果の精度が閾値よりも高く、又はトレーニング回数が所定の回数に達し、又はトレーニングサンプルの数が所定のサンプル数に達し、又はトレーニング時間が所定の時間に達したなど）場合、機械学習システム１００に対するトレーニングが既に完了したことを示し、引き続きトレーニング完了後の分類モデル１４６に従って後続の適用を行うことができる。例えば、トレーニング完了後の分類モデル１４６は、入力されたピクチャ、画像、ストリームにおけるオブジェクトの認識、人間の顔の認識、音声の認識又は動的検出などに用いることができる。

図３及び図４を合わせて参照されたく、図３は、いくつかの実施例におけるステップＳ２２０の詳細ステップＳ２２１乃至Ｓ２２５を示すフローチャートである。図４は、いくつかの実施例において処理ユニット１４０における各素子がステップＳ２２１乃至Ｓ２２５を実行する模式図である。

図４に示すように、初期状態で、ハイパーパラメータの初期値がハイパーパラメータＨＰ１であり、ハイパーネットワークパラメータの初期値がハイパーネットワークパラメータＨＮＰ１であると仮定する。

図３及び４図に示すように、ステップＳ２２１において、データ拡張モデル１４２によりハイパーパラメータＨＰ１に基づいてトレーニングサンプルＴＤに対してデータ拡張を行って拡張トレーニングサンプルＥＴＤを生成する。ステップＳ２２２において、ハイパーネットワーク１４４によりハイパーネットワークパラメータＨＮＰ１に基づいてハイパーパラメータＨＰ１を第１の分類モデルパラメータＭＰ１に変換する。

本開示内容によるいくつかの実施例におけるステップＳ２２２でハイパーネットワーク１４４によりハイパーネットワークパラメータＨＮＰ１に基づいてハイパーパラメータＨＰ１を第１の分類モデルパラメータＭＰ１に変換する模式図である図５Ａを参照されたい。図５Ａに示すように、ステップＳ２２２は、データ拡張空間ＳＰ１における１つのデータポイント（即ち、ハイパーパラメータＨＰ１）を分類パラメータ空間ＳＰ２における１つのデータポイント（即ち、第１の分類モデルパラメータＭＰ１）にマッピングするために用いられる。

図５Ａにおいて、データ拡張空間ＳＰ１が２つの軸方向の平面座標系であることを例とし、例えば、一方の軸方向は、データ拡張時の回転角度の大きさを代表してよく、他方の軸方向は、データ拡張時のサイズスケーリングの比率の大きさを代表してよいため、データポイントのデータ拡張空間ＳＰ１における異なる位置は、異なるデータ拡張の設定に対応する。分類パラメータ空間ＳＰ２が３つの軸方向の立体座標系であることを例とし、３つの軸方向は、それぞれ畳み込み層の３つの重みの大きさを代表してよい。ステップＳ２２２において、ハイパーネットワークパラメータＨＮＰ１は、ハイパーネットワーク１４４がデータ拡張空間ＳＰ１におけるハイパーパラメータＨＰ１を分類パラメータ空間ＳＰ２における第１の分類モデルパラメータＭＰ１に如何にマッピングするかという両方間のマッピング関係を決定するために用いられる。ハイパーネットワークパラメータＨＮＰ１が変更されると、ハイパーネットワーク１４４は、ハイパーパラメータＨＰ１を分類パラメータ空間ＳＰ２における他の位置にマッピングすることになる。

なお、説明の便宜上、図５Ａのデータ拡張空間ＳＰ１及び分類パラメータ空間ＳＰ２は、単に例示的に説明するために２つの軸方向及び３つの軸方向を示したものであり、本開示内容は、これに限定されない。実際の適用において、データ拡張空間ＳＰ１及び分類パラメータ空間ＳＰ２は、異なる次元を有してもよく、いくつかの実施例において、分類パラメータ空間ＳＰ２は、より多くの軸方向を有する高次元空間である。

図３及び図４に示すように、ステップＳ２２３において、分類モデル１４６により第１の分類モデルパラメータＭＰ１に基づいて拡張トレーニングサンプルＥＴＤを分類して拡張トレーニングサンプルＥＴＤに対応する第１の予測ラベルＬＰＤ１を生成する。

ステップＳ２２４において、処理ユニット１４０により比較演算法を実行し、第１の予測ラベルＬＰＤ１とトレーニングサンプルＴＤのトレーニングラベルＬＴＤとを比較することで第１の損失Ｌ１を生成する。いくつかの実施例において、処理ユニット１４０は、第１の損失Ｌ１を得るように、第１の予測ラベルＬＰＤ１とトレーニングラベルＬＴＤに対してクロスエントロピー計算を行う。

第１の損失Ｌ１の大きさは、分類モデル１４６による分類結果が正確であるか否かを代表し、分類モデル１４６により生成された第１の予測ラベルＬＰＤ１がトレーニングサンプルＴＤのトレーニングラベルＬＴＤと同じである（又は類似する）場合、第１の損失Ｌ１の数値が小さく、現在、分類モデル１４６に使用される第１の分類モデルパラメータＭＰ１が正確であることを代表する。分類モデル１４６により生成された第１の予測ラベルＬＰＤ１がトレーニングサンプルＴＤのトレーニングラベルＬＴＤと異なる場合、第１の損失Ｌ１の数値が大きく、現在、分類モデル１４６に使用される第１の分類モデルパラメータＭＰ１が正確ではないことを代表する。

ステップＳ２２５において、第１の損失Ｌ１に基づいてハイパーネットワークパラメータＨＮＰ２を更新する。本開示内容によるいくつかの実施例におけるステップＳ２２５で第１の損失Ｌ１に基づいてハイパーネットワークパラメータＨＮＰ２を更新する模式図である図５Ｂを合わせて参照されたい。図５Ｂに示すように、現在、分類モデル１４６に使用される第１の分類モデルパラメータＭＰ１に対応する第１の損失Ｌ１を知った後、第１の損失Ｌ１を低下させるように、分類モデル１４６に逆伝播してバックステッピングすることで好ましい分類モデルパラメータＭＰ１ｍを得ることができる。次に、ハイパーネットワーク１４４に逆伝播することで、好ましい分類モデルパラメータＭＰ１ｍに基づいてバックステッピングすることで更新後のハイパーネットワークパラメータＨＮＰ２を得る。いくつかの実施例において、第１の損失Ｌ１を低下させるように、確率的勾配降下法によって好ましい分類モデルパラメータＭＰ１ｍを見つける。

図４及び図５Ｂに示すように、ハイパーパラメータＨＰ１が変わらないように維持される場合、ハイパーネットワーク１４４は、更新後のハイパーネットワークパラメータＨＮＰ２に基づいてハイパーパラメータＨＰ１を好ましい分類モデルパラメータＭＰ１ｍにマッピングする。

一部の実施例において、図５Ａに示すように、ステップＳ２２２において、複数の検索値を導入し、これらの検索値は、ハイパーパラメータＨＰ１の周囲で複数の検索ハイパーパラメータを形成するために用いられ、各検索値は、それぞれ各軸方向上の僅かな差分（例えば、偏向角度が０．５度増加／減少し、シフト量が１％増加／減少するなど）であってよく、図５Ａに示すように、ハイパーパラメータＨＰ１の周囲で４つの検索ハイパーパラメータＨＰｅ１〜ＨＰｅ４が得られる。ハイパーネットワーク１４４は、ハイパーパラメータＨＰ１を分類パラメータ空間ＳＰ２における第１の分類モデルパラメータＭＰ１にマッピングするほか、ハイパーネットワークパラメータＨＮＰ１に基づいてこれらの検索値から形成された検索ハイパーパラメータＨＰｅ１〜ＨＰｅ４を分類パラメータ空間ＳＰ２における他の４つの検索分類モデルパラメータＭＰｅ１〜ＭＰｅ４にマッピングする。図５Ａにおいて、検索分類モデルパラメータＭＰｅ１〜ＭＰｅ４は、同様にオリジナルの第１の分類モデルパラメータＭＰ１に隣接している。いくつかの実施例において、同様に第１の分類モデルパラメータＭＰ１を１組の検索分類モデルパラメータと見なすことができる。

つまり、４つの検索ハイパーパラメータを加えた後、４つの検索ハイパーパラメータＨＰｅ１〜ＨＰｅ４を別の４つの検索分類モデルパラメータＭＰｅ１〜ＭＰｅ４にマッピングすることになる。上記検索ハイパーパラメータの数が４組であることは、単に例として説明しただけであるが、実際の適用において、検索ハイパーパラメータの数は、４組に限定されない。

一部の実施例において、４つの検索分類モデルパラメータＭＰｅ１〜ＭＰｅ４に基づいて４つの検索分類モデルを生成し、これらの４つの検索分類モデルは、それぞれトレーニングサンプルＴＤを分類して４つの第１の予測ラベルＬＰＤ１を生成する。ステップＳ２２４において、生成された４つの第１の予測ラベルＬＰＤ１をそれぞれトレーニングラベルＬＴＤと比較して計算することで、それぞれ４つの検索分類モデルに対応する４つの第１の損失Ｌ１を得ることができる。いくつかの実施例において、各々の第１の損失Ｌ１を得るように、４つの第１の予測ラベルＬＰＤ１のそれぞれとトレーニングラベルＬＴＤに対してクロスエントロピー計算を行う。

この実施例において、ステップＳ２２５において、ハイパーネットワークパラメータＨＮＰ１をハイパーネットワークパラメータＨＮＰ２に更新するように、４つの検索分類モデル及び対応して計算された４つの第１の損失Ｌ１を合わせて考慮する。

本開示内容によるいくつかの実施例において分類モデル１４６により４つの検索分類モデルパラメータＭＰｅ１〜ＭＰｅ４に基づいて形成された４つの検索分類モデル１４６ｅ１〜１４６ｅ４の内部アーキテクチャを示す模式図である図６を合わせて参照されたい。図６に示すように、検索分類モデル１４６ｅ１〜１４６ｅ４の各々は、ｎ個のニューラルネットワーク構造層ＳＬ１、ＳＬ２、ＳＬ３、ＳＬ４、ＳＬ５…ＳＬｎを含む。いくつかの実施例において、各ニューラルネットワーク構造層ＳＬ１、ＳＬ２、ＳＬ３、ＳＬ４、ＳＬ５…ＳＬｎは、畳み込み層、プーリング層、正規化線形関数層、完全接続層又は他の種類のニューラルネットワーク構造層であってよい。

ここで、ｎは正の整数であり、一般的には、分類モデルの合計層数は、実際の適用の要件（分類の精度、分類目標物の複雑度、入力された画像の相違性）に応じて決定されてよく、一般的には、よく使われる層数ｎは、１６〜１２８の間であってよいが、本開示内容は、特定の層数に限定されない。

例えば、ニューラルネットワーク構造層ＳＬ１及びＳＬ２は、畳み込み層であってよく、ニューラルネットワーク構造層ＳＬ３は、プーリング層であってよく、ニューラルネットワーク構造層ＳＬ４及びＳＬ５は、畳み込み層であってよく、ニューラルネットワーク構造層ＳＬ６は、プーリング層であってよく、ニューラルネットワーク構造層ＳＬ７は、畳み込み層であってよく、ニューラルネットワーク構造層ＳＬ８は、正規化線形関数層であってよく、ニューラルネットワーク構造層ＳＬｎは、完全接続層であってよいが、本開示内容は、これに限定されない。

図６に示すように、上記複数のニューラルネットワーク構造層ＳＬ１〜ＳＬｎは、第１の構造層部分Ｐ１と、第１の構造層部分Ｐ１に接続される第２の構造層部分Ｐ２とに分けられる。図６に示す例において、第１の構造層部分Ｐ１は、ニューラルネットワーク構造層ＳＬ１〜ＳＬ３を含み、第２の構造層部分Ｐ２は、ニューラルネットワーク構造層ＳＬ４〜ＳＬｎを含む。

４つの検索分類モデル１４６ｅ１〜１４６ｅ４を形成するための４組の検索分類モデルパラメータＭＰｅ１〜ＭＰｅ４の各々は、第１の重みパラメータコンテンツ（第１の構造層部分Ｐ１の動作を決定するために用いられる）と、第２の重みパラメータコンテンツ（第２の構造層部分Ｐ２の動作を決定するために用いられる）と、を含む。いくつかの実施例において、４つの検索分類モデル１４６ｅ１〜１４６ｅ４の第２の構造層部分Ｐ２（即ち、ニューラルネットワーク構造層ＳＬ４〜ＳＬｎ）は、同じ第２の重みパラメータコンテンツを共有し、ニューラルネットワーク構造層ＳＬ４〜ＳＬｎ同士の動作論理は同じである。

つまり、検索分類モデル１４６ｅ１のニューラルネットワーク構造層ＳＬ４と検索分類モデル１４６ｅ２のニューラルネットワーク構造層ＳＬ４は、同じ重みパラメータを使用するとともに同じ論理で動作する。つまり、検索分類モデル１４６ｅ１のニューラルネットワーク構造層ＳＬ５と検索分類モデル１４６ｅ２のニューラルネットワーク構造層ＳＬ５は、同一の重みパラメータを使用するとともに同じ論理で動作し、このように類推する。

一方、４つの検索分類モデル１４６ｅ１〜１４６ｅ４の第１の構造層部分Ｐ１（即ち、ニューラルネットワーク構造層ＳＬ１〜ＳＬ３）の各々は、独立した第１の重みパラメータコンテンツを有し、ニューラルネットワーク構造層ＳＬ１〜ＳＬ３同士の動作論理は異なる。

図６の第１の構造層部分Ｐ１及び第２の構造層部分Ｐ２の分布は、単に例示的な説明である。本開示内容は、これに限定されない。

一実施例において、検索分類モデル１４６ｅ１〜１４６ｅ４のそれぞれの第１の構造層部分Ｐ１は、少なくとも第１の畳み込み層を含み、例えば、第１の構造層部分Ｐ１は、ニューラルネットワーク構造層ＳＬ１（即ち、第１の畳み込み層）を含み、検索分類モデル１４６ｅ１〜１４６ｅ４のそれぞれの第１の畳み込み層同士は、重みパラメータが異なる。この実施例において、残りのニューラルネットワーク構造層ＳＬ２〜ＳＬｎは、いずれも第２の構造層部分Ｐ２（図示せず）であり、第２の構造層部分Ｐ２は、第２の畳み込み層及び完全接続層を含み、検索分類モデル１４６ｅ１〜１４６ｅ４のそれぞれの第２の畳み込み層同士及び完全接続層同士は、重みパラメータが同じである。この実施例において、殆どのニューラルネットワーク構造層ＳＬ２〜ＳＬｎが全て同じ重みパラメータを共有し、少数のニューラルネットワーク構造層ＳＬ１のみが独立した重みパラメータを使用し、演算上、簡便であるため、全体的なトレーニング速度が速く、必要とされる演算リソースが少なく、実験したところ、ある程度の精度を維持することもできる。

図７及び図８を合わせて参照されたく、図７は、いくつかの実施例におけるステップＳ２３０の詳細ステップＳ２３１乃至Ｓ２３４を示すフローチャートである。図８は、いくつかの実施例において処理ユニット１４０における各素子がステップＳ２３１乃至Ｓ２３４を実行する模式図である。

図３及び図４に示すステップＳ２２０を経た後、ステップＳ２３０に移行する時、図８に示すように、ハイパーパラメータの現在の数値は、ハイパーパラメータＨＰ１のままであるが、ハイパーネットワークパラメータの現在の数値は、既にハイパーネットワークパラメータＨＮＰ２に更新された。

図７及び図８に示すように、ステップＳ２３１において、ハイパーネットワーク１４４により更新後のハイパーネットワークパラメータＨＮＰ２に基づいてハイパーパラメータＨＰ１を第２の分類モデルパラメータＭＰ２に変換し、この場合、第２の分類モデルパラメータＭＰ２は、前の図５Ｂの実施例においてバックステッピングして得られた好ましい分類モデルパラメータＭＰ１ｍと同様である。本開示内容によるいくつかの実施例におけるステップＳ２３１でハイパーパラメータＨＰ１を変換して第２の分類モデルパラメータＭＰ２を計算する模式図である図９Ａを合わせて参照されたい。図９Ａに示すように、ステップＳ２３１は、データ拡張空間ＳＰ１における１つのデータポイント（即ち、ハイパーパラメータＨＰ１）を分類パラメータ空間ＳＰ２における１つのデータポイント（即ち、第２の分類モデルパラメータＭＰ２）にマッピングするために用いられる。

ステップＳ２３１において、ハイパーネットワークパラメータＨＮＰ２は、ハイパーネットワーク１４４がデータ拡張空間ＳＰ１におけるハイパーパラメータＨＰ１を分類パラメータ空間ＳＰ２における第２の分類モデルパラメータＭＰ２にマッピングするかという両方間のマッピング関係を決定するために用いられる。

図９Ａを図５Ａと比較し、ハイパーネットワークパラメータＨＮＰ２が既に前の実施例のハイパーネットワークパラメータＨＮＰ１（図５Ａに示す）と異なるため、ハイパーネットワーク１４４は、同じハイパーパラメータＨＰ１を分類パラメータ空間ＳＰ２における新たな位置（即ち、第２の分類モデルパラメータＭＰ２）にマッピングする。

図７及び図８に示すように、ステップＳ２３２において、分類モデル１４６により第２の分類モデルパラメータＭＰ２に基づいて検証サンプルＶＤを分類して検証サンプルＶＤに対応する第２の予測ラベルＬＰＤ２を生成する。

ステップＳ２３３において、処理ユニット１４０により比較演算法を実行し、第２の予測ラベルＬＰＤ２と検証サンプルＶＤの検証ラベルＬＶＤとを比較することで第２の損失Ｌ２を生成する。いくつかの実施例において、処理ユニット１４０は、第２の損失Ｌ２を得るように、第２の予測ラベルＬＰＤ２と検証ラベルＬＶＤに対してクロスエントロピー計算を行う。

第２の損失Ｌ２の大きさは、分類モデル１４６による分類結果が正確であるか否かを代表し、分類モデル１４６により生成された第２の予測ラベルＬＰＤ２が検証サンプルＶＤの検証ラベルＬＶＤと同じである（又は類似する）場合、第２の損失Ｌ２の数値が小さく、現在、分類モデル１４６に使用される第２の分類モデルパラメータＭＰ２が正確であることを代表する。分類モデル１４６により生成された第２の予測ラベルＬＰＤ２が検証サンプルＶＤの検証ラベルＬＶＤと異なる場合、第２の損失Ｌ２の数値が大きく、現在、分類モデル１４６に使用される第２の分類モデルパラメータＭＰ２が正確ではないことを代表する。

ステップＳ２３４において、第２の損失Ｌ２に基づいてハイパーパラメータＨＰ１をハイパーパラメータＨＰ２に更新する。本開示内容によるいくつかの実施例におけるステップＳ２３４で第２の損失Ｌ２に基づいてハイパーパラメータＨＰ２を更新する模式図である図９Ｂを合わせて参照されたい。図９Ｂに示すように、現在、分類モデル１４６に使用される第２の分類モデルパラメータＭＰ２に対応する第２の損失Ｌ２を知った後、第２の損失Ｌ２を低下させるように、分類モデル１４６に逆伝播してバックステッピングすることで好ましい分類モデルパラメータＭＰ２ｍを得ることができる。次に、ハイパーネットワーク１４４に逆伝播することで、好ましい分類モデルパラメータＭＰ２ｍに基づいてバックステッピングすることで更新後のハイパーパラメータＨＰ２を得る。いくつかの実施例において、第２の損失Ｌ２を低下させるように、確率的勾配降下法によって好ましい分類モデルパラメータＭＰ２ｍを見つける。

図８及び図９Ｂに示すように、ハイパーネットワーク１４４に使用されるハイパーネットワークパラメータＨＮＰ２が変わらないように維持される場合、ハイパーネットワーク１４４は、ハイパーネットワークパラメータＨＮＰ２に基づいて更新後のハイパーパラメータＨＰ２を好ましい分類モデルパラメータＭＰ２ｍにマッピングする。

以上を纏めると、ステップＳ２２０において、まず、ハイパーネットワークパラメータＨＮＰ１をハイパーネットワークパラメータＨＮＰ２に更新する。ステップＳ２３０において、ハイパーネットワークパラメータＨＮＰ２に基づいてハイパーパラメータＨＰ１をハイパーパラメータＨＰ２に更新する。ステップＳ２３０が完了した後、収束条件に達していないと、ハイパーパラメータＨＰ２に基づいてステップＳ２２０に戻り、ハイパーパラメータＨＰ２及びハイパーネットワークパラメータＨＮＰ２を入力条件として再びステップＳ２２０及びＳ２３０を行うことができ、再びハイパーパラメータ及びハイパーネットワークパラメータを更新することができる。このように類推すると、収束条件を満たすまで、ハイパーネットワークパラメータ及びハイパーパラメータを繰り返し更新することができる。

図１に示すように、機械学習システム１００のトレーニング過程において、ハイパーパラメータＨＰのコンテンツに基づいてデータ拡張モデル１４２のデータ拡張操作を制御し、且つ、ハイパーパラメータＨＰ（ハイパーネットワーク１４４により変換された）に基づいて分類モデル１４６の分類操作を制御することができる。なお、本開示内容の異なる検索分類モデルの間で重み共有を行うことができ、このように記憶空間及び演算リソースを節約することができ、トレーニングの速度の加速に寄与する。また、本開示内容の機械学習システム１００は、データ拡張モデルを利用して等価のトレーニングサンプルＴＤの等価の量を増加することができ、これにより、トレーニングして得られた分類モデル１４６は、多量のトレーニングサンプルＴＤを必要とせずに高い精度を保つことができる。

現在、コンピュータ視覚分野において、深層学習の精度は、主に多量の標識されたトレーニングデータによることである。トレーニングデータの品質、量及び多様性の向上に伴い、通常、分類モデルの性能もそれに伴って向上する。しかしながら、分類モデルをトレーニングするための高品質のデータを収集することが困難であり、分類モデルの性能もこれによって向上できない場合が多い。この問題を解決する方法の１つは、例えば、回転角度、回転形態又は輝度調整比などのデータ拡張のパラメータを専門家に手動で設計させることであり、これらの手動で設計されたデータ拡張は、高性能のコンピュータ視覚の分類モデルのトレーニングに一般的に使用されている。機械学習を使用してデータ拡張用のパラメータを自動的に見つけて決定すれば、より効率的になり、且つより高い精度を有することができる。本開示内容の上記実施例において、ハイパーネットワークによって複数の連続的検索モデルを生成し、勾配降下法でデータ拡張に使用されるハイパーパラメータを自動的に調整し、且つ、重み共有ポリシーを採用して演算速度及び精度を向上させ、データ拡張のパラメータを手動で調整する時間及び人的資源を節約できるだけでなく、トレーニングサンプルが十分でない問題を回避することもできる、ハイパーネットワークに基づくデータ拡張を提案する。また、オリジナルのトレーニングサンプルが十分であるか否かにもかかわらず、データ拡張によって、精度を効果的に向上させ、過剰適合の問題を減少することができるため、データ拡張に対してパラメータを自動的に調整することでモデル性能をより効果的に向上させることができる。

適用の点では、本開示内容の機械学習方法及び機械学習システムは、機械視覚、画像分類、又はデータ分類を有する様々な分野で使用することができ、一例として、この機械学習方法は、医療画像の分類に使用することができ、例えば、正常状態、肺炎に罹患している場合、気管支炎に罹患している場合、心疾患に罹患している場合のＸ線画像を区別することができ、又は、正常な胎児、胎児位置異常の超音波画像を区別することができる。一方、この機械学習方法は、自動運転により収集された画像の分類に使用することもでき、例えば、通常の道路、障害物のある道路及び他の車両の道路状況の画像を区別することができる。他にもそれに類似する機械学習分野があり、例えば、本開示内容の機械学習方法及び機械学習システムは、音響スペクトル認識、光学スペクトル認識、ビッグデータ解析、データ特徴認識などの機械学習に関連する他の範囲にも使用することができる。

本開示内容の別の実施例は、少なくとも１つの命令プログラムを含み、図２、図３及び図７の実施例における機械学習方法２００を実行するように、プロセッサ（例えば、図１の処理ユニット１４０）により少なくとも１つの命令プログラムを実行する非一時的コンピュータ可読記憶媒体である。

本開示の特定の実施例として上記実施例を開示したが、これらの実施例は、本開示を制限することを意図するものではない。当業者であれば、本開示の原理及び精神に違反することなく、本開示において様々な置換及び改善を行うことができる。従って、本開示の保護範囲は、添付される特許請求の範囲によって決定されるものとする。

１００機械学習システム
１２０記憶ユニット
１４０処理ユニット
１４２データ拡張モデル
１４４ハイパーネットワーク
１４６分類モデル
２００機械学習方法
Ｓ２１０、Ｓ２２０、Ｓ２３０、Ｓ２４０ステップ
Ｓ２２１、Ｓ２２２、Ｓ２２３、Ｓ２２４、Ｓ２２５ステップ
Ｓ２３１、Ｓ２３２、Ｓ２３３、Ｓ２３４ステップ
ＨＰ、ＨＰ１、ＨＰ２ハイパーパラメータ
ＨＮＰ、ＨＮＰ１、ＨＮＰ２ハイパーネットワークパラメータ
ＭＰ１第１の分類モデルパラメータ
ＭＰ２第２の分類モデルパラメータ
ＭＰ１ｍ、ＭＰ２ｍ好ましい分類モデルパラメータ
ＳＰ１データ拡張空間
ＳＰ２分類パラメータ空間
ＨＰｅ１、ＨＰｅ２、ＨＰｅ３、ＨＰｅ４検索ハイパーパラメータ
ＭＰｅ１、ＭＰｅ２、ＭＰｅ３、ＭＰｅ４検索分類モデルパラメータ
１４６ｅ１、１４６ｅ２、１４６ｅ３、１４６ｅ４検索分類モデル
ＳＬ１、ＳＬ２、ＳＬ３、ＳＬ４、ＳＬ５ニューラルネットワーク構造層
ＳＬ６、ＳＬ７、ＳＬ８、ＳＬｎニューラルネットワーク構造層
Ｐ１第１の構造層部分
Ｐ２第２の構造層部分
ＴＤトレーニングサンプル
ＬＴＤトレーニングラベル
ＥＴＤ拡張トレーニングサンプル
ＶＤ検証サンプル
ＬＶＤ検証ラベル
ＬＰＤ１第１の予測ラベル
ＬＰＤ２第２の予測ラベル
Ｌ１第１の損失
Ｌ２第２の損失

Claims

（ａ）ハイパーパラメータ及びハイパーネットワークパラメータの初期値を取得するステップと、
（ｂ）前記ハイパーパラメータ及び前記ハイパーネットワークパラメータに基づいて第１の分類モデルパラメータを生成し、前記第１の分類モデルパラメータに基づいてトレーニングサンプルの分類結果に対して前記ハイパーネットワークパラメータを更新するステップと、
（ｃ）前記ハイパーパラメータ及び更新後の前記ハイパーネットワークパラメータに基づいて第２の分類モデルパラメータを生成し、前記第２の分類モデルパラメータに基づいて検証サンプルの分類結果に対して前記ハイパーパラメータを更新するステップと、
（ｄ）前記ハイパーネットワークパラメータ及び前記ハイパーパラメータを更新するように、ステップ（ｂ）及び（ｃ）を繰り返すステップと、
を含む機械学習方法。
ステップ（ｂ）は、
（ｂ１）データ拡張モデルにより前記ハイパーパラメータに基づいて前記トレーニングサンプルに対してデータ拡張を行って拡張トレーニングサンプルを生成するステップと、
（ｂ２）ハイパーネットワークにより前記ハイパーネットワークパラメータに基づいて前記ハイパーパラメータを前記第１の分類モデルパラメータに変換するステップと、
（ｂ３）分類モデルにより前記第１の分類モデルパラメータに基づいて前記拡張トレーニングサンプルを分類して前記拡張トレーニングサンプルに対応する第１の予測ラベルを生成するステップと、
（ｂ４）前記第１の予測ラベルと前記トレーニングサンプルのトレーニングラベルとを比較することで生成された第１の損失に基づいて前記ハイパーネットワークパラメータを更新するステップと、を含む請求項１に記載の機械学習方法。
ステップ（ｂ２）は、
前記ハイパーネットワークにより前記ハイパーネットワークパラメータ及び複数の検索値に基づいて前記ハイパーパラメータを前記検索値に対応する複数の検索分類モデルパラメータに変換するステップを含み、
ステップ（ｂ３）は、
前記分類モデルにより前記複数の検索分類モデルパラメータに基づいて、それぞれ前記拡張トレーニングサンプルを分類して前記拡張トレーニングサンプルに対応する複数の第１の予測ラベルを生成する複数の検索分類モデルをそれぞれ形成するステップを含み、
ステップ（ｂ４）は、
前記複数の第１の予測ラベルと前記トレーニングサンプルの前記トレーニングラベルとを比較することで前記複数の検索分類モデルに対応する複数の第１の損失を計算するステップと、
前記複数の検索分類モデル及びそれらに対応する前記複数の第１の損失に基づいて前記ハイパーネットワークパラメータを更新するステップと、を含む請求項２に記載の機械学習方法。
ステップ（ｂ４）において、
前記複数の第１の損失を得るように、前記複数の第１の予測ラベルのそれぞれと前記トレーニングラベルに対してクロスエントロピー計算を行う請求項３に記載の機械学習方法。
前記複数の検索分類モデルの各々は、複数のニューラルネットワーク構造層を含み、前記複数のニューラルネットワーク構造層は、第１の構造層部分と、前記第１の構造層部分に接続される第２の構造層部分とに分けられ、前記複数の検索分類モデルを形成するための前記複数の検索分類モデルパラメータの各々は、前記第１の構造層部分の動作を決定するための第１の重みパラメータコンテンツと、前記第２の構造層部分の動作を決定するための第２の重みパラメータコンテンツと、を含む請求項３に記載の機械学習方法。
前記複数の検索分類モデルの前記複数の第２の構造層部分は、同じ前記第２の重みパラメータコンテンツを共有し、前記複数の第２の構造層部分同士の動作論理は同じである請求項５に記載の機械学習方法。
前記第１の構造層部分は、少なくとも１つの第１の畳み込み層を含み、前記複数の検索分類モデルのそれぞれの前記少なくとも１つの第１の畳み込み層同士は、重みパラメータが異なっている請求項５に記載の機械学習方法。
前記第２の構造層部分は、少なくとも１つの第２の畳み込み層と、少なくとも１つの完全接続層と、を含み、前記複数の検索分類モデルのそれぞれの前記少なくとも１つの第２の畳み込み層同士及び前記少なくとも１つの完全接続層同士は、重みパラメータが同じである請求項５に記載の機械学習方法。
ステップ（ｃ）は、
（ｃ１）ハイパーネットワークにより更新後の前記ハイパーネットワークパラメータに基づいて前記ハイパーパラメータを前記第２の分類モデルパラメータに変換するステップと、
（ｃ２）分類モデルにより前記第２の分類モデルパラメータに基づいて前記検証サンプルを分類して前記検証サンプルに対応する第２の予測ラベルを生成するステップと、
（ｃ３）前記第２の予測ラベルと前記検証サンプルの検証ラベルとを比較することで生成された第２の損失に基づいて前記ハイパーパラメータを更新するステップと、を含む請求項１に記載の機械学習方法。
ステップ（ｃ３）において、
前記第２の損失を得るように、前記第２の予測ラベルと前記検証ラベルに対してクロスエントロピー計算を行う請求項９に記載の機械学習方法。
ハイパーパラメータ及びハイパーネットワークパラメータの初期値を記憶するための記憶ユニットと、
前記記憶ユニットに結合され、ハイパーネットワーク及び分類モデルを実行する処理ユニットと、を含み、
前記処理ユニットは、
（ａ）前記ハイパーネットワークにより前記ハイパーパラメータ及び前記ハイパーネットワークパラメータに基づいて第１の分類モデルパラメータを生成し、前記分類モデルにより前記第１の分類モデルパラメータに基づいてトレーニングサンプルの分類結果を生成することで、前記ハイパーネットワークパラメータを更新する操作と、
（ｂ）前記ハイパーネットワークにより前記ハイパーパラメータ及び更新後の前記ハイパーネットワークパラメータに基づいて第２の分類モデルパラメータを生成し、前記分類モデルにより前記第２の分類モデルパラメータに基づいて検証サンプルの分類結果を生成することで、前記ハイパーパラメータを更新する操作と、
（ｃ）前記ハイパーネットワークパラメータ及び前記ハイパーパラメータを繰り返し更新するように、操作（ａ）及び（ｂ）を繰り返す操作と、を行うことに用いられる機械学習システム。
前記処理ユニットは、更にデータ拡張モデルを実行するために用いられ、前記処理ユニットにより行われる操作（ａ）は、
（ａ１）前記データ拡張モデルにより前記ハイパーパラメータに基づいて前記トレーニングサンプルに対してデータ拡張を行って拡張トレーニングサンプルを生成することと、
（ａ２）前記ハイパーネットワークにより前記ハイパーネットワークパラメータに基づいて前記ハイパーパラメータを前記第１の分類モデルパラメータに変換することと、
（ａ３）前記分類モデルにより前記第１の分類モデルパラメータに基づいて前記拡張トレーニングサンプルを分類して前記拡張トレーニングサンプルに対応する第１の予測ラベルを生成することと、
（ａ４）前記第１の予測ラベルと前記トレーニングサンプルのトレーニングラベルとを比較することで生成された第１の損失に基づいて前記ハイパーネットワークパラメータを更新することと、を含む請求項１１に記載の機械学習システム。
前記処理ユニットにより行われる操作（ａ２）は、
前記ハイパーネットワークにより前記ハイパーネットワークパラメータ及び複数の検索値に基づいて前記ハイパーパラメータを前記検索値に対応する複数の検索分類モデルパラメータに変換することを含み、
前記処理ユニットにより行われる操作（ａ３）は、
前記分類モデルにより前記複数の検索分類モデルパラメータに基づいて、それぞれ前記拡張トレーニングサンプルを分類して前記拡張トレーニングサンプルに対応する複数の第１の予測ラベルを生成する複数の検索分類モデルをそれぞれ形成することを含み、
前記処理ユニットにより行われる操作（ａ４）は、
前記複数の第１の予測ラベルと前記トレーニングサンプルの前記トレーニングラベルとを比較することで前記複数の検索分類モデルに対応する複数の第１の損失を計算することと、
前記複数の検索分類モデル及びそれらに対応する前記複数の第１の損失に基づいて前記ハイパーネットワークパラメータを更新することと、を含む請求項１２に記載の機械学習システム。
前記処理ユニットにより行われる操作（ａ４）は、
前記複数の第１の損失を得るように、前記複数の第１の予測ラベルのそれぞれと前記トレーニングラベルに対してクロスエントロピー計算を行うことを含む請求項１３に記載の機械学習システム。
前記複数の検索分類モデルの各々は、複数のニューラルネットワーク構造層を含み、前記複数のニューラルネットワーク構造層は、第１の構造層部分と、前記第１の構造層部分に接続される第２の構造層部分とに分けられ、前記複数の検索分類モデルを形成するための前記複数の検索分類モデルパラメータの各々は、前記第１の構造層部分の動作を決定するための第１の重みパラメータコンテンツと、前記第２の構造層部分の動作を決定するための第２の重みパラメータコンテンツと、を含む請求項１３に記載の機械学習システム。
前記複数の検索分類モデルの前記複数の第２の構造層部分は、同じ前記第２の重みパラメータコンテンツを共有し、前記複数の第２の構造層部分同士の動作論理は同じである請求項１５に記載の機械学習システム。
前記第１の構造層部分は、少なくとも１つの第１の畳み込み層を含み、前記複数の検索分類モデルのそれぞれの前記少なくとも１つの第１の畳み込み層同士は、重みパラメータが異なっている請求項１５に記載の機械学習システム。
前記第２の構造層部分は、少なくとも１つの第２の畳み込み層と、少なくとも１つの完全接続層と、を含み、前記複数の検索分類モデルのそれぞれの前記少なくとも１つの第２の畳み込み層同士及び前記少なくとも１つの完全接続層同士は、重みパラメータが同じである請求項１５に記載の機械学習システム。
前記処理ユニットにより行われる操作（ｂ）は、
（ｂ１）前記ハイパーネットワークにより更新後の前記ハイパーネットワークパラメータに基づいて前記ハイパーパラメータを前記第２の分類モデルパラメータに変換することと、
（ｂ２）前記分類モデルにより前記第２の分類モデルパラメータに基づいて前記検証サンプルを分類して前記検証サンプルに対応する第２の予測ラベルを生成することと、
（ｂ３）前記第２の予測ラベルと前記検証サンプルの検証ラベルとを比較することで生成された第２の損失に基づいて前記ハイパーパラメータを更新することと、を含む請求項１１に記載の機械学習システム。
少なくとも１つの命令プログラムを含み、機械学習方法を実行するように、プロセッサにより前記少なくとも１つの命令プログラムを実行する非一時的コンピュータ可読記憶媒体であって、前記機械学習方法は、
（ａ）ハイパーパラメータ及びハイパーネットワークパラメータの初期値を取得するステップと、
（ｂ）前記ハイパーパラメータ及び前記ハイパーネットワークパラメータに基づいて第１の分類モデルパラメータを生成し、前記第１の分類モデルパラメータに基づいてトレーニングサンプルの分類結果に対して前記ハイパーネットワークパラメータを更新するステップと、
（ｃ）前記ハイパーパラメータ及び更新後の前記ハイパーネットワークパラメータに基づいて第２の分類モデルパラメータを生成し、前記第２の分類モデルパラメータに基づいて検証サンプルの分類結果に対して前記ハイパーパラメータを更新するステップと、
（ｄ）前記ハイパーネットワークパラメータ及び前記ハイパーパラメータを繰り返し更新するように、ステップ（ｂ）及び（ｃ）を繰り返すステップと、
を含む非一時的コンピュータ可読記憶媒体。