JP2022088341A

JP2022088341A - 機器学習装置及び方法

Info

Publication number: JP2022088341A
Application number: JP2021195279A
Authority: JP
Inventors: 宇劭彭; Yu-Shao Peng; 凱富湯; kai-fu Tang; 智威張; Chang Edward
Original assignee: HTC Corp
Current assignee: HTC Corp
Priority date: 2020-12-02
Filing date: 2021-12-01
Publication date: 2022-06-14
Anticipated expiration: 2041-12-01
Also published as: CN114648094A; JP7307785B2; TWI781000B; TW202223770A; US20220172064A1; EP4009245A1

Abstract

【課題】独立性損失及び平均処理効果損失に基づいてモデルパラメータを調整することで、分類モデルにおけるドミナント偽相関又はリセッシブな偽相関を除去する偽相関を除去する機器学習技術を提供する。【解決手段】機器学習方法は、プロセッサによってメモリからモデルパラメータを取得して、モデルパラメータに基づいて複数のニューラルネットワーク構造層を含む分類モデルを実行する工程と、プロセッサによって複数のトレーニングサンプルに基づいて、複数のニューラルネットワーク構造層における出力層に対応する第１の損失と、複数のニューラルネットワーク構造層における出力層よりも前に位置する一方に対応する第２の損失を算出する工程と、プロセッサによって、第１の損失及び第２の損失に基づいてモデルパラメータに対して複数の更新操作を実行して、分類モデルをトレーニングする工程と、を備える。【選択図】図２

Description

本開示は、機器学習技術に関し、特に、偽相関を除去する機器学習技術に関する。

例えば、機器学習、ニューラルネットワーク等の技術は、人工知能技術の分野で広く適用されている。人工知能の重要な用途の１つとしては、オブジェクト（例えば、顔、ナンバープレート等）の識別、又はデータの予測（例えば、株価予測、医療予測等）がある。オブジェクト検出及びデータ予測は、特徴抽出及び特徴分類によって実現されることができる。

しかしながら、特徴抽出及び特徴分類に用いられる特徴間には、一般的に、偽相関が発生し、しかも偽相関によりオブジェクト検出及びデータ予測の予測精度が低下してしまう。

本開示の一態様は、プロセッサによってメモリからモデルパラメータを取得して、モデルパラメータに基づいて複数のニューラルネットワーク構造層を含む分類モデルを実行する工程と、プロセッサによって複数のトレーニングサンプルに基づいて、複数のニューラルネットワーク構造層における出力層に対応する第１の損失と、複数のニューラルネットワーク構造層における出力層よりも前に位置する一方に対応する第２の損失を算出する工程と、プロセッサによって、第１の損失及び前記第２の損失に基づいてモデルパラメータに対して複数の更新操作を実行して、分類モデルをトレーニングする工程と、を備える機器学習方法を開示する。

いくつかの実施例において、前記複数のトレーニングサンプルに基づいて前記第１の損失及び前記第２の損失を算出する工程は、前記プロセッサによって前記複数のトレーニングサンプルに基づいて前記複数のニューラルネットワーク構造層の前記出力層から複数の予測ラベルを生成する工程と、前記プロセッサによって前記複数の予測ラベルと前記複数のトレーニングサンプルの複数のトレーニングラベルとを比較して前記第１の損失を算出する工程と、を含む。

いくつかの実施例において、前記複数のトレーニングサンプルに基づいて前記第１の損失及び前記第２の損失を算出する工程は、前記プロセッサによって前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成する工程と、前記プロセッサによって前記複数のニューラルネットワーク構造層における一方に対応する前記複数の抽出特徴の間の統計独立性に基づいて、前記第２の損失を算出する工程と、を含む。

いくつかの実施例において、前記第１の損失及び前記第２の損失に基づいて前記モデルパラメータに対して前記複数の更新操作を実行して前記分類モデルをトレーニングする工程は、

前記プロセッサによって前記第１の損失及び前記第２の損失に基づいて複数の損失差を算出する工程と、前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、を含む。

いくつかの実施例において、機器学習方法は、前記プロセッサによって前記複数の抽出特徴、及び前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果に基づいて第３の損失を算出する工程を更に備える。

前記プロセッサによって前記第１の損失、前記第２の損失、及び前記第３の損失に基づいて、複数の損失差を算出する工程と、前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、を含む。

いくつかの実施例において、前記複数のトレーニングサンプルに基づいて前記第１の損失及び前記第２の損失を算出する工程は、前記プロセッサによって前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成する工程と、前記プロセッサによって前記複数のニューラルネットワーク構造における一方に対応する前記複数の抽出特徴と、前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果とに基づいて前記第２の損失を算出する工程と、を含む。

いくつかの実施例において、前記第１の損失及び前記第２の損失に基づいて前記モデルパラメータに対して前記複数の更新操作を実行して前記分類モデルをトレーニングする工程は、前記プロセッサによって前記第１の損失及び前記第２の損失に基づいて複数の損失差を算出する工程と、前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、を含む。

いくつかの実施例において、出力層は、少なくとも１つの完全結合層を含み、前記複数のニューラルネットワーク構造層における一方は、少なくとも１つの畳み込み層を含む。

いくつかの実施例において、前記分類モデルは、ニューラルネットワークに関連づけられる。

本開示の別の態様は、複数のコマンド及びモデルパラメータを記憶するためのメモリと、メモリに接続されるプロセッサと、を備える機器学習装置であって、前記プロセッサは、分類モデルを実行するとともに、メモリからモデルパラメータを取得して、モデルパラメータに基づいて複数のニューラルネットワーク構造層を含む分類モデルを実行し、複数のトレーニングサンプルに基づいて、複数のニューラルネットワーク構造層における出力層に対応する第１の損失と、複数のニューラルネットワーク構造層における出力層よりも前に位置する一方に対応する第２の損失を算出し、第１の損失及び第２の損失に基づいて、モデルパラメータに対して複数の更新操作を実行して、分類モデルをトレーニングするように、複数のコマンドを実行するためのものである、機器学習装置を開示する。

いくつかの実施例において、前記プロセッサは、更に、前記複数のトレーニングサンプルに基づいて前記複数のニューラルネットワーク構造層の前記出力層から複数の予測ラベルを生成し、及び前記第１の損失を算出するように、前記複数の予測ラベルと前記複数のトレーニングサンプルの複数のトレーニングラベルとを比較するためのものである。

いくつかの実施例において、前記プロセッサは、更に、前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成し、及び前記複数のニューラルネットワーク構造層における一方に対応する前記複数の抽出特徴の間の統計独立性に基づいて前記第２の損失を算出するためのものである。

いくつかの実施例において、前記プロセッサは、更に、前記第１の損失及び前記第２の損失に基づいて複数の損失差を算出し、及び前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新するためのものである。

いくつかの実施例において、前記プロセッサは、更に、前記複数の抽出特徴と、前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果とに基づいて第３の損失を算出するためのものである。

いくつかの実施例において、前記プロセッサは、更に、前記第１の損失、前記第２の損失、及び前記第３の損失に基づいて複数の損失差を算出し、及び前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新するためのものである。

いくつかの実施例において、前記プロセッサは、更に、前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成し、及び前記複数のニューラルネットワーク構造における一方に対応する前記複数の抽出特徴と、前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果とに基づいて前記第２の損失を算出するためのものである。

いくつかの実施例において、前記出力層は、少なくとも１つの完全結合層を含み、前記複数のニューラルネットワーク構造層における一方は、少なくとも１つの畳み込み層を含む。

本開示の一実施例による機器学習装置を示す模式図である。本開示の一実施例による機器学習方法を示す模式図である。本開示の一実施例による分類モデル及び損失を示す模式図である。いくつかの実施例における図２のある工程の細部を示すフローチャートである。別のいくつかの実施例における図２のある工程の細部を示すフローチャートである。いくつかの実施例における図２の別の工程の細部を示すフローチャートである。いくつかの実施例における図２の追加工程を示すフローチャートである。別のいくつかの実施例における図２の別の工程の細部を示すフローチャートである。

ここで、本開示の現在の実施例を詳細に参照し、その例を図面に示す。可能な場合には、図面及び説明において同一の要素符号を使用して同一の素子を表す。

図１を参照すると、図１は、本開示の一実施例による機器学習装置を示す模式図である。機器学習装置１００は、プロセッサ１１０と、メモリ１２０と、を備える。プロセッサ１１０及びメモリ１２０は、互いに接続される。

いくつかの実施例において、機器学習装置１００は、コンピュータ、サーバ、又は処理センターによって構築されてよい。いくつかの実施例において、プロセッサ１１０は、中央処理部又は演算部によって実現されてよい。いくつかの実施例において、メモリ１２０は、フラッシュメモリ、リードオンリーメモリ、ハードディスク、又は同等性を有する任意の記憶素子を用いて実現されてよい。

いくつかの実施例において、機器学習装置１００は、プロセッサ１１０とメモリ１２０とを含むことに限定されず、動作及び適用に必要な他の素子を更に含んでよく、例としては、出力インターフェース（例えば、情報を表示するための表示パネル）、入力インターフェース（例えば、タッチパネル、キーボード、マイク、スキャナ、又はフラッシュリーダ）、及び通信回路（例えば、ＷｉＦｉ通信モジュール、Ｂｌｕｅｔｏｏｔｈ通信モジュール、無線通信ネットワーク通信モジュール等）を更に含んでよい。

図１に示すように、プロセッサ１１０は、メモリ１２０に記憶された対応するソフトウェア／ファームウェアコマンドプログラムに基づいて分類モデル１１１を実行するためのものである。

いくつかの実施例において、分類モデル１１１は、入力されたデータ（例えば、上記のデータ強調画像）を分類することができ、例えば、入力画像の中に車両、顔、ナンバープレート、文字、トーテムオブジェクト、又はその他の画像特徴を有するオブジェクトを検出することができる。分類モデル１１１は、分類結果に応じて、対応するラベルを生成する。特に説明すべきなのは、分類モデル１１１は、分類動作を行う際に、その自体のモデルパラメータＭＰを参照する必要がある。

図１に示すように、メモリ１２０は、モデルパラメータＭＰを記憶するためのものである。いくつかの実施例において、モデルパラメータＭＰは、複数の重みパラメータ内容を含んでよい。

本実施例において、分類モデル１１１は、複数のニューラルネットワーク構造層を含む。いくつかの実施例において、各層のニューラルネットワーク構造層は、モデルパラメータＭＰにおける１つの重みパラメータ内容（１つのニューラルネットワーク構造層の動作を決定するためのものである）に対応してもよい。一方、分類モデル１１１の各ニューラルネットワーク構造層は、互いに独立した重みパラメータ内容に対応してよい。つまり、各層のニューラルネットワーク構造層は、１つの重み値集合に対応してよく、重み値集合は、複数の重み値を含んでよい。

いくつかの実施例において、ニューラルネットワーク構造層は、畳み込み層、プール層、線形整流層、完全結合層、又は他のタイプのニューラルネットワーク構造層であってよい。いくつかの実施例において、分類モデル１１１は、ニューラルネットワークに関連づけられてよい（例えば、分類モデル１１１は、深度残差ネットワーク及び完全結合層から構成され、又はＥｆｆｉｃｅｎｔＮｅｔ及び完全結合層から構成されてよい）。

本開示の一実施例による機器学習方法を示す模式図である図２を併せて参照すると、図１に示される機器学習装置１００は、図２の機器学習方法を実行するために使用されてよい。

図２に示すように、まず、工程Ｓ２１０において、メモリ１２０からモデルパラメータＭＰを取得して、モデルパラメータＭＰに基づいて分類モデル１１１を実行する。一実施例において、メモリ１２０におけるモデルパラメータＭＰは、従来のトレーニング経験から得られた平均値、人工的に与えられたデフォルト値、又は乱数値であってよい。

工程Ｓ２２０において、複数のトレーニングサンプルに基づいて、複数のニューラルネットワーク構造層における出力層に対応する第１の損失と、複数のニューラルネットワーク構造層における出力層よりも前に位置する一方に対応する第２の損失を算出する。一実施例において、第１の損失は、分類モデル１１１のニューラルネットワーク構造層の出力層からプロセッサ１１０によって生成され、第２の損失は、出力層よりも前のニューラルネットワーク構造層からプロセッサ１１０によって生成される。いくつかの実施例において、出力層は、少なくとも１つの完全結合層を含んでよい。以下、具体例に合わせて、いくつかの実施例における工程Ｓ２２０の詳細な工程について更に説明する。

工程Ｓ２３０において、第１の損失及び第２の損失に基づいて、モデルパラメータＭＰに対して複数の更新操作を実行して、分類モデル１１１をトレーニングする。一実施例において、トレーニングされたモデルパラメータＭＰを生成するように、プロセッサ１１０は、更新操作において、第１の損失及び第２の損失に基づいてモデルパラメータＭＰを更新し、更に、更新されたモデルパラメータＭＰに基づいて分類モデル１１１をトレーニングして、トレーニングされた分類モデル１１１を生成する。以下、具体例に合わせて、いくつかの実施例における工程Ｓ２３０の詳細な工程を更に説明する。

これにより、トレーニングされた分類モデル１１１は、後のアプリケーションを実行するために使用されてよい。例えば、トレーニングされた分類モデル１１１は、画像や映像の入力、ストリームにおけるオブジェクト識別、顔識別、音声識別、又は動的検出等に使用され、又は株価データ又は天気情報に関するデータ予測に使用されてよい。

図３及び図４を併せて参照すると、図３は、本開示の一実施例による分類モデル及び損失を示す模式図である。図４は、いくつかの実施例における工程Ｓ２２０の詳細な工程Ｓ２２１～Ｓ２２４Ａを示すフローチャートである。

図３に示すように、分類モデル１１１は、ニューラルネットワーク構造層ＳＬ１、ＳＬ２、～ＳＬｔを含む。いくつかの実施例において、ｔは正の整数である。一般的に、分類モデル１１１における総層数は、実際の適用の要求（例えば、分類の精度、分類対象物の複雑さ、入力映像の相違性）に応じて決定されてよい。場合によって、ｔの一般的な範囲は１６～１２８であってよいが、本開示は特定の層数に限定されない。

例としては、ニューラルネットワーク構造層ＳＬ１及びＳＬ２は畳み込み層であってよく、ニューラルネットワーク構造層ＳＬ３はプール層であってよく、ニューラルネットワーク構造層ＳＬ４及びＳＬ５は畳み込み層であってよく、ニューラルネットワーク構造層ＳＬ６はプール層であってよく、ニューラルネットワーク構造層ＳＬ７は畳み込み層であってよく、ニューラルネットワーク構造層ＳＬ８は線形整流層であってよく、ニューラルネットワーク構造層ＳＬｔは完全結合層であってよいが、本開示はこれらに限定されない。

いくつかの実施例において、分類モデル１１１は複数の残差マップブロックを有してもよく、残差マップブロックの構造を使用することで、ｔを大幅に低減することができる。以下、分類モデル１１１のような構成を例として、工程Ｓ２２１～工程Ｓ２２４Ａを更に説明する。

なお、説明の便宜上、図３における分類モデル１１１は例示的な説明に過ぎず、残差マップブロックを有するモデル（例えば、ＲｅｓＮｅｔモデル）を示すが、本開示はこれに限定されない。実際の適用では、分類モデル１１１は、他のタイプの畳み込みニューラルネットワークであってよい。いくつかの実施例において、分類モデル１１１はＥｆｆｉｃｅｎｔＮｅｔモデルであってよい。

図３及び図４に示すように、工程Ｓ２２１において、プロセッサ１１０によって、ニューラルネットワーク構造層ＳＬｌ、ＳＬ２、～ＳＬｔの出力層ＳＬｔから、トレーニングサンプル

に基づいて複数の予測ラベル

が生成される。注意すべきなのは、ｎはトレーニングサンプル

の数であり、ｎは

予測ラベルの数であり、ｎは正の整数であってよく、ｉはｎ以下の正の整数であってよい。図３に示すように、トレーニングサンプルＸｉが分類モデル１１１に入力されると、ニューラルネットワーク構造層ＳＬｌ、ＳＬ２、～ＳＬｔの演算により、分類モデル１１１のニューラルネットワーク構造層ＳＬｔ（すなわち、出力層）から予測ラベル

を生成することができる。同様に、予測ラベル

を生成するように、トレーニングサンプル

を分類モデル１１１に入力してよい。

図３及び図４に示すように、工程Ｓ２２２において、プロセッサ１１０によって比較アルゴリズムが実行されて予測ラベル

とトレーニングサンプル

の複数のトレーニングラベル

とを比較して、第１の損失Ｌｌを生成する。図３に示すように、予測ラベル

とトレーニングサンプルＸｉのトレーニングラベルｙ_ｉとを比較して、損失を算出する。同様に、プロセッサ１１０によって比較アルゴリズムが実行されて予測ラベルとトレーニングラベルとを比較して複数の損失を算出し、且つ、プロセッサ１１０によって、これらの損失（すなわち、従来の損失関数）に基づいて第１の損失Ｌ１を生成する。いくつかの実施例において、第１の損失Ｌ１を得るように、プロセッサ１１０によって予測ラベル

及びトレーニングラベル

に対してクロスエントロピー算出を実行してもよい。

図３及び図４に示すように、工程Ｓ２２３において、トレーニングサンプル

に基づいて分類モデル１１１から複数の抽出特徴

を生成する。図３に示すように、トレーニングサンプルＸｉが分類モデル１１１に入力されると、ニューラルネットワーク構造層ＳＬ１、ＳＬ２、～ＳＬｔ－１の操作により分類モデル１１１のニューラルネットワーク構造層Ｌｔ－１の人工ニューロンから抽出特徴Ｈ_ｉ，１、Ｈ_ｉ，２、～Ｈ_ｉ，ｍ（ｍは正の整数で人工ニューロンの数に等しい）を算出してよく、且つ、抽出特徴Ｈｉ，１、Ｈｉ，２、…Ｈｉ，ｍはそれぞれニューラルネットワーク構造層Ｌｔ－１における人工ニューロンに対応する。また、抽出特徴Ｈｉ，１，Ｈｉ，２，…Ｈｉ，ｍは、それぞれニューラルネットワーク構造層Ｌｔ－１よりも前の何れのニューラルネットワーク構造層における人工ニューロンに対応してもよい。同様に、人工ニューロンからトレーニングサンプル

に対応する抽出特徴

を算出してよい。

注意すべきなのは、抽出特徴

とトレーニングラベル

との間に偽相関が存在する可能性がある。詳細には、第１の抽出特徴は、第２の抽出特徴及びトレーニングラベルｙ_ｉの何れに対しても因果関係があるが、第２の抽出特徴とトレーニングラベルｙ_ｉ同士の間には因果関係がないものとする。これに基づき、第２の抽出特徴及びトレーニングラベルｙ_ｉを関連付けることができる。第２の抽出特徴の数値がラベルの変化に伴い直線的に増加する場合、第２の抽出特徴とトレーニングラベルｙ_ｉとの間には偽相関が存在する。偽相関を引き起こす抽出特徴（すなわち、第１の抽出特徴、第２の抽出特徴、及びトレーニングラベルｙ_ｉの間の関係）が観察され得る場合、偽相関はドミナントである。そうでない場合、偽相関は、リセッシブ（すなわち、第２の抽出特徴とトレーニングラベルｙ_ｉとの間の関係）であると考えられてよい。偽相関は、予測ラベル

とトレーニングラベル

との間のより大きな差を引き起こす。

例えば、患者の臨床画像が病巣の細胞組織、及び細胞組織と色が類似した骨を有する場合、骨の抽出特徴と病巣のラベルとの間のドミナントな偽相関を引き起こす。別の例では、患者の臨床画像は、典型的には、バックグラウンドを有し、患者の臨床画像における病巣及びバックグラウンドは類似である。従って、これは、バックグラウンドの抽出特徴と病巣のラベルとの間のリセッシブな偽相関を引き起こす。

偽相関を回避するために、統計的独立性を使用してドミナントな偽相関を除去し、及び平均化効果を使用してリセッシブな偽相関を除去することの細部を、以下の段落で更に説明する。

図３及び図４に示すように、工程Ｓ２２４Ａにおいて、プロセッサ１１０によって、抽出特徴間の統計的独立性に基づいて第２の損失Ｌ２を算出し、抽出特徴はニューラルネットワーク構造層ＳＬ１、ＳＬ２、～ＳＬｔにおける１つ（すなわち、ニューラルネットワーク構造層ＳＬｔ－１）に対応する。具体的には、確率変数の統計的独立性は、以下の式（１）で示される。
Ｅ（ａ^ｐｂ^ｑ）＝Ｅ（ａ^ｐ）Ｅ（ｂ^ｑ）（１）

ここで、Ｅ（．）はランダム変数の期待値を表し、ａ及びｂはランダム変数であり、ｐ及びｑは正の整数である。式（１）により、独立性損失は、以下の式（２）で表すことができる。
ｉｎｄｅｐｅｎｄｅｎｔｌｏｓｓ＝－｜Ｅ（ａ^ｐｂ^ｑ）－Ｅ（ａ^ｐ）Ｅ（ｂ^ｑ）｜（２）

図３に示すように、ランダム変数を抽出特徴

に置き換えることで、式（２）は、第２の損失Ｌ２（すなわち、抽出特徴

間の独立性損失）を表す以下の式（３）に書き換えることができる。

ここで、ｊ及びｋは正の整数であり、ｍ以下である。式（３）により、抽出特徴

から第２の損失Ｌ２を算出する。いくつかの実施例において、式（３）の第２の損失に更に重要度値を乗算して第２の損失Ｌ２を生成してもよく、重要度値は、０より大きく且つ独立性損失の重要性を制御するハイパーパラメータである。

別の実施例における工程Ｓ２２０の詳細な工程Ｓ２２１～Ｓ２２４Ｂを示すフローチャートである図５を併せて参照されたい。

注意すべきなのは、図４と図５との相違点は、工程Ｓ２２４Ｂのみにある。すなわち、工程Ｓ２２４Ａを実行して第２の損失を生成することに加えて、工程Ｓ２２４Ｂを実行して第２の損失を生成してもよい。従って、以下、工程Ｓ２２４Ｂについてのみ説明し、残りの工程については繰り返して説明しない。

図３及び図５に示すように、工程Ｓ２２４Ｂにおいて、プロセッサ１１０によって、抽出特徴とトレーニングサンプルのトレーニングラベルの間の平均処理効果とに基づいて第２の損失Ｌ３を算出し、抽出特徴はニューラルネットワーク構造層ＳＬ１、ＳＬ２、～ＳＬｔにおける１つ（すなわち、ニューラルネットワーク構造層ＳＬｔ－１）に対応する。詳細には、確率変数の平均処理効果（すなわち、因果性）は、以下の式（４）で示される。

ここで、ｐ（．）は確率変数の確率を表し、Ｙｉ及びＴｉは確率変数であり、

は治療を表し、

で且つ観察結果であり、

で且つ共変ベクトルであり、及び

である。

図３に示すように、Ｙｉ及びＴｉをトレーニングラベル

及び強活性関数により処理された抽出特徴

に置き換えることで、式（４）は以下の式（５）のように書き換えられる。

ここで、ｊ番目の抽出特徴の損失とは、抽出特徴Ｈ_１，ｊ、Ｈ_２，ｊ、～Ｈ_ｎ，ｊに対応する因果的損失（すなわち、平均処理効果損失）であり、

とは範囲が

の強活性関数である。式（５）より、抽出特徴

の平均処理効果を示す第２の損失Ｌ３は、以下の式（６）で示される。

式（６）により、抽出特徴とトレーニングサンプルのトレーニングラベルとに基づいて第２の損失Ｌ３を算出する。いくつかの実施例において、式（６）の第２の損失に、更に別の重要度値を乗算してもよく、他の重要度値は、０より大きく且つ平均処理効果損失の重要性を制御するハイパーパラメータである。

いくつかの実施例における工程Ｓ２３０の詳細な工程Ｓ２３１Ａ～Ｓ２３３を示すフローチャートである図６を併せて参照されたい。

図６に示すように、工程Ｓ２３１Ａにおいて、プロセッサ１１０によって、第１の損失及び第２の損失に基づいて損失差を算出する。詳細には、プロセッサ１１０によって第１の損失及び第２の損失の間の差分演算を実行して、損失差（すなわち、第１の損失から第２の損失を引く）を生成する。注意すべきなのは、第２の損失は、図４の工程Ｓ２２４Ａ又は図５の工程Ｓ２２４Ｂから生成してもよい。つまり、第１の損失及び独立損失、又は第１の損失及び平均処理効果損失に基づいて、損失差を算出してよい。

また、第１の損失、図４の工程Ｓ２２４Ａで生成した第２の損失、及び図５の工程Ｓ２２４Ｂで生成した第２の損失に基づいて損失差を算出してよい（より詳細は、以下の段落でいくつかの例によって説明する）。

工程Ｓ２３２では、損失差が収束したかを判断する。いくつかの実施例において、損失差は、収束すると、統計的実験結果から生じた差閾値に近づくか、又はこれに等しくなってよい。

本実施例において、損失差が収束していなければ、工程Ｓ２３３を実行する。工程Ｓ２３３において、プロセッサ１１０によって、第１の損失及び第２の損失に基づいて分類モデルに対して逆伝搬操作を実行して、モデルパラメータＭＰを更新する。つまり、第１の損失及び第２の損失に基づく逆伝搬操作によって、モデルパラメータＭＰから更新されたモデルパラメータを生成する。

これにより、工程Ｓ２３３、Ｓ２２０及びＳ２３１Ａを継続的に繰り返して、モデルパラメータＭＰを繰り返しに徐々に更新する。このように、損失差は、差閾値に近づくか又は等しくなるまで、徐々に最小化する（すなわち、第２の損失が徐々に最大化する）。逆に、損失差が収束する場合、機器学習装置１００がトレーニングを完了したことを示し、トレーニングされた分類モデル１１１は、後のアプリケーションを実行するために使用されてよい。

上記実施例に基づき、工程Ｓ２２４Ａにおける第２の損失を用いることで、工程Ｓ２３０においてドミナント的な偽相関に属する抽出特徴を除去することができる。また、工程Ｓ２２４Ｂにおける第２の損失を用いることで、工程Ｓ２３０においてリセッシブな偽相関に属する抽出特徴を除去することができる。

図７を併せて参照すると、図６は、いくつかの実施例における工程Ｓ２２４Ａの次の追加工程を示すフローチャートである。

図７に示すように、工程Ｓ２２０’Ａは、工程Ｓ２２４Ｂにおける第２の損失の算出と同様に、第３の損失を算出する。つまり、これは、プロセッサ１１０によって第１の損失が生成した後に、独立損失及び平均処理効果損失が生成することを意味する。工程Ｓ２２０’Ａ及び工程Ｓ２２４Ｂは同様であるので、その工程については繰り返して説明しない。

別の実施例における工程Ｓ２３０の詳細な工程Ｓ２３１Ｂ～Ｓ２３３を示すフローチャートである図８を併せて参照されたい。

注意すべきなのは、図６と図８との相違点は、工程Ｓ２３１Ｂのみにある。すなわち、工程Ｓ２３１Ａを実行して損失差を生成することに加えて、工程Ｓ２３１Ｂを実行して損失差を生成してもよい。従って、以下、工程Ｓ２３１Ｂについてのみ説明し、残りの工程については繰り返して説明しない。

図８に示すように、工程Ｓ２２０’を実行した後、工程Ｓ２３１Ｂを実行する。工程Ｓ２３１Ｂにおいて、プロセッサ１１０によって、第１の損失、第２の損失及び第３の損失に基づいて損失差を算出する。詳細には、プロセッサ１１０によって、第１の損失と第２の損失との間の差分演算を実行して第１の差分値を生成し、次に第１の差分値と第３の損失との間で別の差分演算を実行して損失差を生成する（すなわち、第１の損失から第２の損失を減算し、その後に第３の損失を減算する）。従って、工程Ｓ２３３において、第１の損失、第２の損失及び第３の損失に基づく逆伝搬によって、モデルパラメータＭＰから更新されたモデルパラメータを生成する。これにより、工程Ｓ２３３、Ｓ２２０及びＳ２３１Ｂを継続的に繰り返して、モデルパラメータＭＰを繰り返しに徐々に更新する。このように、損失差も、同様に、損失差が差分閾値に近づくか又は等しくなるまで、徐々に最小化する（すなわち、第２の損失及び第３の損失が徐々に最大化する）。

上記実施例に基づき、工程Ｓ２２４Ａにおける第２の損失及びＳ２２０’における第３の損失を同時に用いることで、工程Ｓ２３０においてドミナント的な偽相関及びリセッシブな偽相関に属する抽出特徴を除去することができる。

図１に示すように、抽出特徴とトレーニングラベルとの間のドミナント偽相関又はリセッシブな偽相関を回避するように、機器学習装置１００のトレーニング過程において、第１の損失及び第２の損失に基づいて分類モデル１１１のモデルパラメータＭＰを更新し、第２の損失は、独立性損失又は平均処理効果損失であってよい。また、独立性損失と平均処理効果損失を用いてモデルパラメータＭＰを調整することで、ドミナント偽相関又はリセッシブな偽相関を除去して、分類モデル１１１の予測精度を大幅に向上させることができる。

コンピュータビジョン及びコンピュータ予測の分野では、深層学習の正確度は、主に、大量のラベルのトレーニングデータに依存する。トレーニングデータの質、数、及びタイプの増加に伴い、分類モデルの性能は、一般に相対的に向上する。しかしながら、分類モデルは、抽出特徴とトレーニングラベルとの間に、常に、ドミナント偽相関又はリセッシブな偽相関が存在する。ドミナント偽相関又はリセッシブな偽相関を除去できれば、効率はより高く、より正確になる。上記の本開示の実施例において、独立性損失及び平均処理効果損失に基づいてモデルを調整し、分類モデルにおけるドミナント偽相関又はリセッシブな偽相関を除去することが提案される。従って、独立性損失及び平均処理効果損失に基づいてモデルパラメータを調整することで、モデルの全体的な性能を向上させることができる。

適用の点において、本開示の機器学習方法及び機器学習システムは、機器視覚、画像分類、データ予測又はデータ分類を有する各種の分野に用いることができ、例としては、この機器学習方法は、正常状態、肺炎、気管支炎、心臓疾患にかかるＸ線イメージ、又は正常胎児、胎位不正を識別可能な超音波イメージのような医療イメージの分類に用いることができる。機器学習方法は、将来の株データの上昇又は下降を予測するためにも用いることができる。一方、この機器学習方法は、正常な路面、障害物のある路面、及び他の車両のある路面を識別可能な道路状況画像等の自動運転収集の映像の分類にも用いることができる。また、これに類似する機器学習分野もあり、例としては、本開示の機器学習方法及び機器学習システムは、音声スペクトルの識別、スペクトルの識別、ビッグデータの分析、データ特徴の識別等の他の機器学習関連カテゴリにも用いることができる。

本開示の特定の実施例は、かかる上記の実施例をすでに開示したが、これらの実施例は、本開示を制限することを意図していない。様々な代替例および改良例は、本開示の原理及び趣旨から逸脱することなく、関連技術分野における当業者によって本開示において実施され得る。従って、本開示の保護範囲は、添付の特許請求の範囲によって決定される。

１００機器学習装置
１１０プロセッサ
１２０メモリ
ＭＰモデルパラメータ
１１１分類モデル
ＳＬ１、ＳＬ２、～ＳＬｔニューラルネットワーク構造層

Ｌ１第１の損失
Ｌ２、Ｌ３第２の損失
Ｓ２１０～Ｓ２３０、Ｓ２２１～Ｓ２２３、Ｓ２２４Ａ、２２４Ｂ、Ｓ２３１Ａ、Ｓ２３１Ｂ、Ｓ２３２～Ｓ２３３、Ｓ２２０’ 工程

Claims

プロセッサによってメモリからモデルパラメータを取得して、前記モデルパラメータに基づいて複数のニューラルネットワーク構造層を含む分類モデルを実行する工程と、
前記プロセッサによって複数のトレーニングサンプルに基づいて、前記複数のニューラルネットワーク構造層における出力層に対応する第１の損失と、前記複数のニューラルネットワーク構造層における前記出力層よりも前に位置する一方に対応する第２の損失を算出する工程と、
プロセッサによって前記第１の損失及び前記第２の損失に基づいて前記モデルパラメータに対して複数の更新操作を実行して前記分類モデルをトレーニングする工程と、
を備える機器学習方法。
前記複数のトレーニングサンプルに基づいて前記第１の損失及び前記第２の損失を算出する工程は、
前記プロセッサによって前記複数のトレーニングサンプルに基づいて前記複数のニューラルネットワーク構造層の前記出力層から複数の予測ラベルを生成する工程と、
前記プロセッサによって前記複数の予測ラベルと前記複数のトレーニングサンプルの複数のトレーニングラベルとを比較して前記第１の損失を算出する工程と、
を含む請求項１に記載の機器学習方法。
前記複数のトレーニングサンプルに基づいて前記第１の損失及び前記第２の損失を算出する工程は、
前記プロセッサによって前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成する工程と、
前記プロセッサによって前記複数のニューラルネットワーク構造層における一方に対応する前記複数の抽出特徴の間の統計独立性に基づいて、前記第２の損失を算出する工程と、
を含む請求項１に記載の機器学習方法。
前記第１の損失及び前記第２の損失に基づいて前記モデルパラメータに対して前記複数の更新操作を実行して前記分類モデルをトレーニングする工程は、
前記プロセッサによって前記第１の損失及び前記第２の損失に基づいて複数の損失差を算出する工程と、
前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、
を含む請求項３に記載の機器学習方法。
前記プロセッサによって前記複数の抽出特徴、及び前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果に基づいて第３の損失を算出する工程を更に備える請求項３に記載の機器学習方法。
前記第１の損失及び前記第２の損失に基づいて前記モデルパラメータに対して前記複数の更新操作を実行して前記分類モデルをトレーニングする工程は、
前記プロセッサによって前記第１の損失、前記第２の損失、及び前記第３の損失に基づいて、複数の損失差を算出する工程と、
前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、
を含む請求項５に記載の機器学習方法。
前記複数のトレーニングサンプルに基づいて前記第１の損失及び前記第２の損失を算出する工程は、
前記プロセッサによって前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成する工程と、
前記プロセッサによって前記複数のニューラルネットワーク構造における一方に対応する前記複数の抽出特徴と、前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果とに基づいて前記第２の損失を算出する工程と、
を含む請求項１に記載の機器学習方法。
前記第１の損失及び前記第２の損失に基づいて前記モデルパラメータに対して前記複数の更新操作を実行して前記分類モデルをトレーニングする工程は、
前記プロセッサによって前記第１の損失及び前記第２の損失に基づいて複数の損失差を算出する工程と、
前記プロセッサによって前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新する工程と、
を含む請求項７に記載の機器学習方法。
前記出力層は、少なくとも１つの完全結合層を含み、前記複数のニューラルネットワーク構造層における一方は、少なくとも１つの畳み込み層を含む請求項１に記載の機器学習方法。
前記分類モデルは、ニューラルネットワークに関連づけられる請求項１に記載の機器学習方法。
複数のコマンド及びモデルパラメータを記憶するためのメモリと、
前記メモリに接続されるプロセッサと、
を備える機器学習装置であって、
前記プロセッサは、分類モデルを実行するとともに、
前記メモリから前記モデルパラメータを取得して、前記モデルパラメータに基づいて複数のニューラルネットワーク構造層を含む前記分類モデルを実行し、
複数のトレーニングサンプルに基づいて、前記複数のニューラルネットワーク構造層における出力層に対応する第１の損失と、前記複数のニューラルネットワーク構造層における前記出力層よりも前に位置する一方に対応する第２の損失を算出し、
前記第１の損失及び前記第２の損失に基づいて前記モデルパラメータに対して複数の更新操作を実行して前記分類モデルをトレーニングするように、
前記複数のコマンドを実行するためのものである、
機器学習装置。
前記プロセッサは、更に、
前記複数のトレーニングサンプルに基づいて前記複数のニューラルネットワーク構造層の前記出力層から複数の予測ラベルを生成し、及び
前記第１の損失を算出するように、前記複数の予測ラベルと前記複数のトレーニングサンプルの複数のトレーニングラベルとを比較するためのものである、
請求項１１に記載の機器学習装置。
前記プロセッサは、更に、
前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成し、及び
前記複数のニューラルネットワーク構造層における一方に対応する前記複数の抽出特徴の間の統計独立性に基づいて前記第２の損失を算出するためのものである、
請求項１１に記載の機器学習装置。
前記プロセッサは、更に、
前記第１の損失及び前記第２の損失に基づいて複数の損失差を算出し、及び
前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新するためのものである、
請求項１３に記載の機器学習装置。
前記プロセッサは、更に、
前記複数の抽出特徴と、前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果とに基づいて第３の損失を算出するためのものである、
請求項１３に記載の機器学習装置。
前記プロセッサは、更に、
前記第１の損失、前記第２の損失、及び前記第３の損失に基づいて複数の損失差を算出し、及び
前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新するためのものである、
請求項１５に記載の機器学習装置。
前記プロセッサは、更に、
前記複数のトレーニングサンプルに基づいて前記分類モデルから複数の抽出特徴を生成し、及び
前記複数のニューラルネットワーク構造における一方に対応する前記複数の抽出特徴と、前記複数のトレーニングサンプルの複数のトレーニングラベルの間の平均処理効果とに基づいて前記第２の損失を算出するためのものである、
請求項１１に記載の機器学習装置。
前記プロセッサは、更に、
前記第１の損失及び前記第２の損失に基づいて複数の損失差を算出し、及び
前記複数の損失差に基づいて前記分類モデルに対して複数の逆伝搬操作を実行して前記モデルパラメータを更新するためのものである、
請求項１７に記載の機器学習装置。
前記出力層は、少なくとも１つの完全結合層を含み、前記複数のニューラルネットワーク構造層における一方は、少なくとも１つの畳み込み層を含む請求項１１に記載の機器学習装置。
前記分類モデルは、ニューラルネットワークに関連づけられる請求項１１に記載の機器学習装置。