JP2021012600A

JP2021012600A - 診断方法、学習方法、学習装置およびプログラム

Info

Publication number: JP2021012600A
Application number: JP2019127103A
Authority: JP
Inventors: 洋桑島; Hiroshi Kuwajima
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2021-02-04
Also published as: US20210012204A1

Abstract

【課題】ニューラルネットワークの学習において勾配消失の診断を行う方法、学習方法、学習装置及びプログラムを提供する。【解決手段】診断方法は、ニューラルネットワークの学習において、ニューラルネットワークの各レイヤについて入力Ｘに対する出力Ｆを表す式を求めるステップＳ１０と、式の入力Ｘにパラメータ行列Ｗを入力して二乗した行列の固有値を二乗固有値として求めるステップＳ１１と、二乗固有値の分布に基づいて、勾配消失または勾配爆発の判定を行うステップＳ１２とを備える。【選択図】図２

Description

本発明は、ニューラルネットワークの学習を行う技術に関する。

ニューラルネットワークは機械学習の一種である。機械学習では、センサやデータベースなどに由来するサンプルデータを入力して解析を行い、そのデータから有用な規則、ルール、知識表現、判断基準などを抽出し、アルゴリズムを発展させる。ニューラルネットワークの学習では、正解データを与え（教師あり学習）、正解データに対する誤差を最小化するように、徐々にニューラルネットワークのパラメータを学習する（誤差逆伝播法）ことが多い。

特開２０１９−６７０６２号公報

誤差逆伝播法による教師あり学習を行うとき、特に深いニューラルネットワーク（ディープラーニング）を学習するときに、最小化するべき誤差が深い階層を伝搬させる過程で、誤差（勾配）が消えてしまうこと（勾配消失）や、誤差（勾配）が大きくなりすぎること（勾配爆発）がある。勾配消失や勾配爆発が起こると、ニューラルネットワークの学習はうまくいかない。このような課題に対して、特許文献１は、ニューラルネットワークの活性化関数が引き起こす勾配消失を低減する学習装置を提案している。

本発明は上記背景に鑑み、従来技術とは異なるアプローチで、ニューラルネットワークの学習において勾配消失や勾配爆発の診断を行う技術を提供する。また、本発明は、学習時に勾配消失や勾配爆発が起こらないように対策する技術を提供する。

本開示は上記課題を解決するために以下の技術的手段を採用する。特許請求の範囲及びこの項に記載した括弧内の符号は、ひとつの態様として後述する実施の形態に記載の具体的手段との対応関係を示す一例であって、本発明の技術的範囲を限定するものではない。

本発明の診断方法は、ニューラルネットワークの学習において、ニューラルネットワークの各レイヤについて入力Ｘに対する出力Ｆを表す下記の式（１）を求めるステップ（Ｓ１０）と、

前記式（１）の入力Ｘにパラメータ行列Ｗを入力して二乗した行列の固有値を二乗固有値として求めるステップ（Ｓ１１）と、前記二乗固有値の分布に基づいて、勾配消失または勾配爆発の判定を行うステップ（Ｓ１２）とを備える。

本発明者は、各レイヤの変換行列の固有値により、勾配消失または勾配爆発を引き起こす状態か否かを判断できることを見出した。本発明では、勾配そのものを見るのではなく、変換行列によって、ニューラルネットワークのパラメータが勾配消失または勾配爆発を引き起こす状態になっていないかどうかを判断する。ここで、変換行列は入力Ｘにパラメータ行列Ｗを入力した行列であるから、次の式（２）によって表される。

変換行列には非線形変換Ｋが適用されているため、固有値の正負が不明であることから、本発明では、変換行列を二乗した行列についての固有値（本明細書では「二乗固有値」と呼ぶ）を規定し、この二乗固有値の分布に基づいて勾配消失および勾配爆発の診断を行う。

本発明の学習方法は、ニューラルネットワークモデルの学習を行う方法であって、ニューラルネットワークの各レイヤにおける入力Ｘに対する出力Ｆを表す次式（１）を求めるステップ（Ｓ２２）と、

前記式（１）の入力Ｘにパラメータ行列Ｗを入力して二乗した行列の固有値を二乗固有値として求めるステップ（Ｓ２３）と、前記二乗固有値を制御するペナルティを含む損失関数を用いて、前記ニューラルネットワークモデルの学習を行うステップ（Ｓ２５）とを繰り返し行う。

このように二乗固有値を制御するペナルティを損失関数に含めることにより、二乗固有値を制御し、勾配消失または勾配爆発の発生を低減した学習を実現できる。

本発明によれば、勾配消失または勾配爆発の発生を低減した学習を実現できる。

（ａ）多層ニューラルネットワークの例を示す図である。（ｂ）図１（ａ）のニューラルネットワークの一つめの層を取り出したものである。実施の形態の診断方法を示すフローチャートである。実施の形態の学習装置の構成を示す図である。対数バリアについて説明するグラフである。低ランク近似について説明する図である。実施の形態の学習方法を示すフローチャートである。

以下、本発明の実施の形態の診断方法および学習方法について説明する。以下の説明では、勾配消失の発生の診断方法および勾配消失の発生を低減した学習方法について説明する。

（ニューラルネットワーク）
ニューラルネットワークは、入力層と出力層との間に、１または複数の層を有しており、各層からの出力が次層へと入力される構造を有している。
図１（ａ）は、多層ニューラルネットワークの例を示す図、図１（ｂ）は、図１（ａ）のニューラルネットワークの一つの層を取り出したものである。図１（ｂ）の左端のノード群Ｘ１（ノードｘ１〜ｘ３からなる）と「１」を出力するノードから出力された値に重みが掛けられ、真ん中のノード群Ｚ１（ノードｚ１〜ｚ３からなる）に入力される。重みを掛けるノードでの変換は、Ｗ^ＴＸ＋ｂの線形変換で表される。なお、大文字は行列を表し、小文字は行列の要素（スカラー値）を表している。

真ん中のノード群Ｚ１は、入力された値に応じた値を出力する。このノードでは、シグモイド関数またはＲｅＬＵ関数等を用いた非線形変換によって、入力された値に応じた値を出力する。この非線形変換は、本明細書ではＫ（Ｘ）で表わされる。ここで用いる関数は、シグモイド関数とＲｅＬＵ関数に限定されるものではなく、切断冪関数やステップ関数などの様々な関数を用いることができる。

したがって、ニューラルネットワークの各レイヤで行う入出力の変換は、以下の式によって表すことができる。

（診断方法）
図２は、本実施の形態の診断方法を示すフローチャートである。
実施の形態の診断方法は、まず、学習中のニューラルネットワークモデルの各レイヤにおける入出力の変換式（上記式（１））を求め、変換式から変換行列Σ（上記式（２））を求める（Ｓ１０）。続いて、変換式の入力Ｘにパラメータ行列Ｗを入力して二乗した行列の固有値を二乗固有値として求め（Ｓ１１）、二乗固有値の分布に基づき、勾配消失が起きる状態か否かを判定する（Ｓ１２）。各レイヤの変換行列には複数の二乗固有値が存在するが、二乗固有値が大きい値から小さい値まで幅広く分布している場合には、当該層のパラメータが縮退しておらず、勾配消失が起きにくい状態である。逆に、全ての二乗固有値の値が小さくなりすぎ、パラメータが縮退している場合には、勾配消失が起きやすい状態である。

本実施の形態では、二乗固有値の分布を判断するために、以下のような基準を用いる。
（１）二乗固有値どうしの比率
二乗固有値どうしの比率としては、例えば、最大の二乗固有値と最小の二乗固有値の比率をとり、この比率が所定の閾値よりも大きいか否かを判定して、比率が所定の閾値よりも大きい場合に、二乗固有値が幅広く分布していると判定してもよい。
（２）二乗固有値の絶対値
二乗固有値の絶対値としては、最大の二乗固有値の絶対値を用いてもよい。最大の二乗固有値が所定の閾値より大きいときには、二乗固有値が幅広く分布していると判定する。また、最小の二乗固有値を用い、最小の二乗固有値が０に非常に近いか否かを判定してもよい。二乗固有値が０に非常に近い場合には、線形変換の列ベクトルが線形独立ではないので、勾配消失が起きる状態といえる。なお、二乗固有値が０に非常に近いか否かは、二乗固有値と０との差が所定の閾値以下であるか否かによって判定することができる。
（３）二乗固有値の分散
二乗固有値の分散が所定の閾値より大きいときには、二乗固有値が幅広く分布していると判定してもよい。
（４）二乗固有値の平均
二乗固有値の平均が所定の閾値より大きいときには、二乗固有値が幅広く分布していると判定してもよい。
以上、二乗固有値の分布を判断するための判定基準の例を示したが、二乗固有値が幅広く分布しているか否かを判定する基準は他にも考えられる。

本実施の形態の診断方法は、あるレイヤについて勾配消失が起きるかどうかの判定をした後、ニューラルネットワークモデルの全レイヤについて、勾配消失の判定を行ったか否かを判定し（Ｓ１３）、全レイヤについて判定済みでない場合には（Ｓ１３でＮＯ）、二乗固有値の分布に基づいて勾配消失を判定する（Ｓ１２）。

全レイヤについて勾配消失の判定済みである場合には（Ｓ１３でＹＥＳ）、判定結果を出力する（Ｓ１４）。全レイヤについて勾配消失がない場合には、ニューラルネットワークは勾配消失しないと判定し、一つのレイヤでも勾配消失する場合には、ニューラルネットワークは勾配消失すると判定し、その判定結果を出力する（Ｓ１４）。判定結果の出力に際しては、二乗固有値の分布状態をグラフ表示してもよい。

（学習装置）
図３は、本実施の形態の学習装置１の構成を示す図である。学習装置１は、教師データ（データと正解ラベル）を入力する入力部１０と、教師データを用いて推論を行う推論部１１と、推論結果と正解ラベルとの誤差を逆伝播することで学習を行う学習部１３と、学習の対象であるニューラルネットワークモデルを記憶した記憶部１２と、学習の状況等を表示する表示部１７とを備えている。

学習部１３は、二乗固有値計算部１４と、損失関数生成部１５と、パラメータ更新部１６とを有している。二乗固有値計算部１４は、学習対象のニューラルネットワークの各レイヤにおける入力Ｘに対する出力Ｆを表す入出力変換式（式（１））を計算する機能を有する。損失関数生成部１５は、ニューラルネットワークの誤差逆伝播に用いる損失関数を生成する機能を有する。本実施の形態では、損失関数は、二乗固有値を制御するペナルティを含んでいる。パラメータ更新部１６は、損失関数生成部１５にて生成した損失関数を最小にするように、誤差逆伝播法によりニューラルネットワークのパラメータを更新する機能を有する。

（損失関数）
本実施の形態において、損失関数は、二乗固有値が小さくなりすぎないようにする関数である。すべての固有値が０より大きければ（正定：ＰｏｓｉｔｉｖｅＤｅｆｉｎｉｔｅ）、行列のすべての列ベクトルが線形独立である。固有値が小さくなりすぎないようにする損失関数を用いて、行列の線形独立性を担保する。

正定化の方法として、入力Ｘにパラメータ行列Ｗを入力して二乗した行列（これを「Σ_k,w ^２」と表す）の行列式を最大化する。本実施の形態では、行列Σ_k,w ^２の行列式の最大化と同等の演算として、対数行列式の最小化を行う。

行列Σ_k,w ^２の固有値λiが得られたとすると、次の式が成り立つ。

行列式の値は固有値の積と等しいから、次式（３）のように、対数逆行列式は対数固有値の和で表わされる。

ここで、式（３）のφ（Λ）＝−Σｌｏｇλiの性質について説明する。−ｌｏｇλiは、λiが０に近づくと、関数φ（Λ）は＋∞に近づく（対数バリア）。この性質を利用し、図４に示すように、固有値λiが０に近づくと、＋∞のペナルティを発生させ、上記学習時に固有値λiを０にしないための（つまり、非線形独立を促進するための）損失関数を生成する。

次に、損失関数を誤差逆伝播法で用いる勾配降下法の更新式に含めるために、パラメータ行列Ｗに関するφ（Λ）の勾配を具体的に計算する。勾配は、合成関数の微分を次式（４）の連鎖律を使って計算する。

右辺第１項から第５項までのそれぞれの項は、次式で計算できる。下記の最初の式にあるｔｒ（）は、行列の跡（trace）のことで、行列の主対角成分の総和である。

なお、上記式では、次の省略表記を用いた。

以上より、上式（４）に示す勾配は、次のとおり求まる。

この勾配の逆（マイナス倍）をＷの更新式に追加して、パラメータ更新を行う際の損失関数として用いる。これにより、勾配の反対方向にパラメータ行列Ｗを動かすことができる。

なお、式（５）で求まった損失関数を含む更新式は、計算量が大きい。そこで、変形例として、小さい固有値のみに着目した低ランク近似を行ってもよい。

図５（ａ）及び図５（ｂ）は低ランク近似について説明するための図である。図５（ａ）は、固有値を左上から右下に向かって大きい方から順にソートして並べた対角行列である。図５では、行列の各成分は固有値の逆数となっているので、値としては左上の方が小さく右下の方が大きい。低ランク近似では、図５（ａ）において、小さい方から所定個数の対角成分（丸で囲った部分）を取り出し、図５（ｂ）に示すような小さい行列を作り、この行列を用いて、損失関数に加える勾配を計算する。

さらに計算量を減らすために、最小の固有値のみを使用して、次の損失関数を生成してもよい。

式（７）において、λ_minは最小の固有値であり、ｖ_minは、最小の固有値に対応する固有ベクトルである。

以上、本実施の形態の学習装置１の構成について説明したが、上記した学習装置１のハードウェアの例は、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、ディスプレイ、キーボード、マウス、通信インターフェース等を備えたコンピュータである。上記した各機能を実現するモジュールを有するプログラムをＲＡＭまたはＲＯＭに格納しておき、ＣＰＵによって当該プログラムを実行することによって、上記した学習装置１が実現される。このようなプログラムも本発明の範囲に含まれる。

図６は、学習装置１による学習の動作を示すフローチャートである。学習装置１は、まず教師データの入力を受け付ける（Ｓ２０）。教師データは、例えば画像や音声等のデータと、それが何であるかを表す正解ラベルのセットからなる。学習装置１は、学習対象のニューラルネットワークに教師データを入力し、推論を行う（Ｓ２１）。学習装置１は、この推論結果と正解ラベルとの誤差を逆伝播させて学習を行うが、学習装置１は学習に用いる損失関数を生成する。

学習装置１は、学習中のニューラルネットワークモデルの各レイヤにおける入出力の変換式（上記式（１））を求め、変換式から変換行列Σ（上記式（２））を求める（Ｓ２２）。続いて、変換式の入力Ｘにパラメータ行列Ｗを入力して二乗した行列の固有値を二乗固有値として求め（Ｓ２３）、二乗固有値が０にならないようなペナルティを加えた損失関数を生成する（Ｓ２４）。このようなペナルティの計算は上述したとおりである。

次に、学習装置１は、生成された損失関数を用いて、誤差逆伝播法によりニューラルネットワークのパラメータを更新する（Ｓ２５）。続いて、学習装置１は、パラメータが更新されたニューラルネットワークの各レイヤについて、上述した本実施の形態の診断方法を用いて勾配消失が起こる状態かどうかを判定する（Ｓ２６）。このフローチャートでは、勾配消失の判定を点線で描画しているのは、勾配消失の判定はパラメータを更新するたびに行う必要はなく、例えば、１〜数エポックの学習が終了したときに行えばよいからである。

判定の結果、勾配消失が起こる状態の場合には（Ｓ２６でＹＥＳ）、学習装置１は、学習処理を終了する。この際、更新前のパラメータを保存しておき、学習を打ち切った後に、勾配消失が起こり始める直前のパラメータに戻すこととしてもよい（Ｓ２８）。この直前のパラメータに戻すステップＳ２８は任意である。

勾配消失が起こらない状態の場合には（Ｓ２６でＮＯ）、学習を継続するか否かを判定する（Ｓ２７）。学習を継続するか否かは、パラメータの更新が収束したかどうかによって判定することができる。学習を継続する場合には（Ｓ２５でＹＥＳ）、推論の処理に戻って上記した処理を繰り返す。学習を継続しない場合には（Ｓ２５でＮＯ）、学習処理を終了する。学習装置１は、適時に、あるいはユーザからの要求に応じて、ニューラルネットワークの各レイヤにおける二乗固有値を計算し、その分布を表示してもよい。

本実施の形態の学習装置１は、ニューラルネットワークの各レイヤの二乗固有値が０にならないようにするペナルティを含んだ損失関数を用いて学習を行うので、各レイヤにおける線形変換の独立性を担保し、勾配消失の発生を低減できる。

また、本実施の形態の学習装置１は、各レイヤの二乗固有値の分布に基づいて勾配消失が発生する状態かどうかを判定し、勾配消失が発生する場合には学習を終了するので、勾配消失が起こり始めたらすぐに学習を打ち切ることができる。

本実施の形態では、勾配消失の診断方法および勾配消失の発生を低減する学習装置１について説明したが、ニューラルネットワークの各レイヤの二乗固有値を見ることで勾配爆発の診断を行なったり、勾配爆発を低減した学習を実現することも可能である。

二乗固有値が大きすぎる場合には、勾配爆発が起こりやすい状態である。二乗固有値が所定の閾値以上になっていないかどうかで勾配爆発が起こりやすい状態か否かを判定できる。また、二乗固有値が大きくなりすぎないようにするペナルティを損失関数に含めることで、勾配爆発の発生を低減した学習を行うことができる。また、損失関数の生成にあたっては、上述した実施の形態と同様に低ランク近似を行うことができ、勾配爆発の発生を低減する際には、二乗固有値のうち大きい方から所定の個数（１個を含む）の二乗固有値をペナルティの計算に用いる。

診断に関しては、二乗固有値が大きい値から小さい値まで幅広く分布している場合には、当該層のパラメータが縮退しておらず、勾配爆発が起きにくい状態である。逆に、二乗固有値の値が大きくなりすぎ、パラメータが発散している場合には、勾配爆発が起きやすい状態である。

上記した実施の形態では、全結合型のニューラルネットワークを例として説明したが、本発明は、畳み込みニューラルネットワークにも適用することができる。畳み込みニューラルネットワークは、スライディングウィンドウで切り取った複数のデータと、複数のフィルタとの行列積と考えることができる。したがって、上述した全結合型のニューラルネットワークの場合と同様に、畳み込みニューラルネットワークにおいても、各レイヤでの変換は上述した式（１）の変換式の形で表すことができるからである。

本発明は、ニューラルネットワークの学習を行う技術として有用である。

１・・・学習装置、１０・・・入力部、１１・・・推論部、１２・・・記憶部、
１３・・・学習部、１４・・・二乗固有値計算部、１５・・・損失関数計算部、
１６・・・パラメータ更新部、１７・・・表示部。

Claims

ニューラルネットワークの学習において、ニューラルネットワークの各レイヤについて入力Ｘに対する出力Ｆを表す式（１）を求めるステップ（Ｓ１０）と、

前記式（１）の入力Ｘにパラメータ行列Ｗを入力して二乗した行列の固有値を二乗固有値として求めるステップ（Ｓ１１）と、
前記二乗固有値の分布に基づいて、勾配消失または勾配爆発の判定を行うステップ（Ｓ１２）と、
を備える診断方法。
前記判定するステップでは、
・前記二乗固有値どうしの比率
・前記二乗固有値の絶対値
・前記二乗固有値の分散
・前記二乗固有値の平均
の少なくとも１つに基づいて、勾配消失または勾配爆発の判定を行う請求項１に記載の診断方法。
ニューラルネットワークモデルの学習を行う方法であって、
ニューラルネットワークの各レイヤにおける入力Ｘに対する出力Ｆを表す次式（１）を求めるステップ（Ｓ２２）と、

前記式（１）の入力Ｘにパラメータ行列Ｗを入力して二乗した行列の固有値を二乗固有値として求めるステップ（Ｓ２３）と、
前記二乗固有値を制御するペナルティを含む損失関数を用いて、前記ニューラルネットワークモデルの学習を行うステップ（Ｓ２５）と、
を繰り返し行う学習方法。
勾配消失を防止する際には、前記学習を行うステップにおいて、前記二乗固有値のうち小さい方から所定の個数の二乗固有値を前記ペナルティの計算に用いる請求項３に記載の学習方法。
勾配爆発を防止する際には、前記学習を行うステップにおいて、前記二乗固有値のうち大きい方から所定の個数の二乗固有値を前記ペナルティの計算に用いる請求項３に記載の学習方法。
ニューラルネットワークモデルの学習を行う学習装置（１）であって、
学習対象のニューラルネットワークの各レイヤにおける入力Ｘに対する出力Ｆを表す次式（１）を計算し、

前記式（１）の入力Ｘにパラメータ行列Ｗを入力して二乗した行列の固有値を二乗固有値として求める二乗固有値計算部（１４）と、
前記二乗固有値を制御するペナルティを含む損失関数を生成する損失関数生成部（１５）と、
教師データの入力を受け付ける入力部（１０）と、
前記教師データを用いた推論を行う推論部（１１）と、
前記推論の結果と前記正解データとの誤差を用いて、前記損失関数を最小にするように学習を行うパラメータ更新部（１６）と、
を備える学習装置。
ニューラルネットワークモデルの学習を行うためのプログラムであって、コンピュータに、
ニューラルネットワークの各レイヤにおける入力Ｘに対する出力Ｆを表す次式（１）を求めるステップと、

前記式（１）の入力Ｘにパラメータ行列Ｗを入力して二乗した行列の固有値を二乗固有値として求めるステップと、
前記二乗固有値を制御するペナルティを含む損失関数を用いて、前記ニューラルネットワークモデルの学習を行うステップと、
を実行させるプログラム。