JP2021012600A - 診断方法、学習方法、学習装置およびプログラム - Google Patents
診断方法、学習方法、学習装置およびプログラム Download PDFInfo
- Publication number
- JP2021012600A JP2021012600A JP2019127103A JP2019127103A JP2021012600A JP 2021012600 A JP2021012600 A JP 2021012600A JP 2019127103 A JP2019127103 A JP 2019127103A JP 2019127103 A JP2019127103 A JP 2019127103A JP 2021012600 A JP2021012600 A JP 2021012600A
- Authority
- JP
- Japan
- Prior art keywords
- eigenvalues
- learning
- square
- input
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
【課題】ニューラルネットワークの学習において勾配消失の診断を行う方法、学習方法、学習装置及びプログラムを提供する。【解決手段】診断方法は、ニューラルネットワークの学習において、ニューラルネットワークの各レイヤについて入力Xに対する出力Fを表す式を求めるステップS10と、式の入力Xにパラメータ行列Wを入力して二乗した行列の固有値を二乗固有値として求めるステップS11と、二乗固有値の分布に基づいて、勾配消失または勾配爆発の判定を行うステップS12とを備える。【選択図】図2
Description
本発明は、ニューラルネットワークの学習を行う技術に関する。
ニューラルネットワークは機械学習の一種である。機械学習では、センサやデータベースなどに由来するサンプルデータを入力して解析を行い、そのデータから有用な規則、ルール、知識表現、判断基準などを抽出し、アルゴリズムを発展させる。ニューラルネットワークの学習では、正解データを与え(教師あり学習)、正解データに対する誤差を最小化するように、徐々にニューラルネットワークのパラメータを学習する(誤差逆伝播法)ことが多い。
誤差逆伝播法による教師あり学習を行うとき、特に深いニューラルネットワーク(ディープラーニング)を学習するときに、最小化するべき誤差が深い階層を伝搬させる過程で、誤差(勾配)が消えてしまうこと(勾配消失)や、誤差(勾配)が大きくなりすぎること(勾配爆発)がある。勾配消失や勾配爆発が起こると、ニューラルネットワークの学習はうまくいかない。このような課題に対して、特許文献1は、ニューラルネットワークの活性化関数が引き起こす勾配消失を低減する学習装置を提案している。
本発明は上記背景に鑑み、従来技術とは異なるアプローチで、ニューラルネットワークの学習において勾配消失や勾配爆発の診断を行う技術を提供する。また、本発明は、学習時に勾配消失や勾配爆発が起こらないように対策する技術を提供する。
本開示は上記課題を解決するために以下の技術的手段を採用する。特許請求の範囲及びこの項に記載した括弧内の符号は、ひとつの態様として後述する実施の形態に記載の具体的手段との対応関係を示す一例であって、本発明の技術的範囲を限定するものではない。
本発明の診断方法は、ニューラルネットワークの学習において、ニューラルネットワークの各レイヤについて入力Xに対する出力Fを表す下記の式(1)を求めるステップ(S10)と、
前記式(1)の入力Xにパラメータ行列Wを入力して二乗した行列の固有値を二乗固有値として求めるステップ(S11)と、前記二乗固有値の分布に基づいて、勾配消失または勾配爆発の判定を行うステップ(S12)とを備える。
本発明者は、各レイヤの変換行列の固有値により、勾配消失または勾配爆発を引き起こす状態か否かを判断できることを見出した。本発明では、勾配そのものを見るのではなく、変換行列によって、ニューラルネットワークのパラメータが勾配消失または勾配爆発を引き起こす状態になっていないかどうかを判断する。ここで、変換行列は入力Xにパラメータ行列Wを入力した行列であるから、次の式(2)によって表される。
変換行列には非線形変換Kが適用されているため、固有値の正負が不明であることから、本発明では、変換行列を二乗した行列についての固有値(本明細書では「二乗固有値」と呼ぶ)を規定し、この二乗固有値の分布に基づいて勾配消失および勾配爆発の診断を行う。
本発明の学習方法は、ニューラルネットワークモデルの学習を行う方法であって、ニューラルネットワークの各レイヤにおける入力Xに対する出力Fを表す次式(1)を求めるステップ(S22)と、
前記式(1)の入力Xにパラメータ行列Wを入力して二乗した行列の固有値を二乗固有値として求めるステップ(S23)と、前記二乗固有値を制御するペナルティを含む損失関数を用いて、前記ニューラルネットワークモデルの学習を行うステップ(S25)とを繰り返し行う。
このように二乗固有値を制御するペナルティを損失関数に含めることにより、二乗固有値を制御し、勾配消失または勾配爆発の発生を低減した学習を実現できる。
本発明によれば、勾配消失または勾配爆発の発生を低減した学習を実現できる。
以下、本発明の実施の形態の診断方法および学習方法について説明する。以下の説明では、勾配消失の発生の診断方法および勾配消失の発生を低減した学習方法について説明する。
(ニューラルネットワーク)
ニューラルネットワークは、入力層と出力層との間に、1または複数の層を有しており、各層からの出力が次層へと入力される構造を有している。
図1(a)は、多層ニューラルネットワークの例を示す図、図1(b)は、図1(a)のニューラルネットワークの一つの層を取り出したものである。図1(b)の左端のノード群X1(ノードx1〜x3からなる)と「1」を出力するノードから出力された値に重みが掛けられ、真ん中のノード群Z1(ノードz1〜z3からなる)に入力される。重みを掛けるノードでの変換は、WTX+bの線形変換で表される。なお、大文字は行列を表し、小文字は行列の要素(スカラー値)を表している。
ニューラルネットワークは、入力層と出力層との間に、1または複数の層を有しており、各層からの出力が次層へと入力される構造を有している。
図1(a)は、多層ニューラルネットワークの例を示す図、図1(b)は、図1(a)のニューラルネットワークの一つの層を取り出したものである。図1(b)の左端のノード群X1(ノードx1〜x3からなる)と「1」を出力するノードから出力された値に重みが掛けられ、真ん中のノード群Z1(ノードz1〜z3からなる)に入力される。重みを掛けるノードでの変換は、WTX+bの線形変換で表される。なお、大文字は行列を表し、小文字は行列の要素(スカラー値)を表している。
真ん中のノード群Z1は、入力された値に応じた値を出力する。このノードでは、シグモイド関数またはReLU関数等を用いた非線形変換によって、入力された値に応じた値を出力する。この非線形変換は、本明細書ではK(X)で表わされる。ここで用いる関数は、シグモイド関数とReLU関数に限定されるものではなく、切断冪関数やステップ関数などの様々な関数を用いることができる。
(診断方法)
図2は、本実施の形態の診断方法を示すフローチャートである。
実施の形態の診断方法は、まず、学習中のニューラルネットワークモデルの各レイヤにおける入出力の変換式(上記式(1))を求め、変換式から変換行列Σ(上記式(2))を求める(S10)。続いて、変換式の入力Xにパラメータ行列Wを入力して二乗した行列の固有値を二乗固有値として求め(S11)、二乗固有値の分布に基づき、勾配消失が起きる状態か否かを判定する(S12)。各レイヤの変換行列には複数の二乗固有値が存在するが、二乗固有値が大きい値から小さい値まで幅広く分布している場合には、当該層のパラメータが縮退しておらず、勾配消失が起きにくい状態である。逆に、全ての二乗固有値の値が小さくなりすぎ、パラメータが縮退している場合には、勾配消失が起きやすい状態である。
図2は、本実施の形態の診断方法を示すフローチャートである。
実施の形態の診断方法は、まず、学習中のニューラルネットワークモデルの各レイヤにおける入出力の変換式(上記式(1))を求め、変換式から変換行列Σ(上記式(2))を求める(S10)。続いて、変換式の入力Xにパラメータ行列Wを入力して二乗した行列の固有値を二乗固有値として求め(S11)、二乗固有値の分布に基づき、勾配消失が起きる状態か否かを判定する(S12)。各レイヤの変換行列には複数の二乗固有値が存在するが、二乗固有値が大きい値から小さい値まで幅広く分布している場合には、当該層のパラメータが縮退しておらず、勾配消失が起きにくい状態である。逆に、全ての二乗固有値の値が小さくなりすぎ、パラメータが縮退している場合には、勾配消失が起きやすい状態である。
本実施の形態では、二乗固有値の分布を判断するために、以下のような基準を用いる。
(1)二乗固有値どうしの比率
二乗固有値どうしの比率としては、例えば、最大の二乗固有値と最小の二乗固有値の比率をとり、この比率が所定の閾値よりも大きいか否かを判定して、比率が所定の閾値よりも大きい場合に、二乗固有値が幅広く分布していると判定してもよい。
(2)二乗固有値の絶対値
二乗固有値の絶対値としては、最大の二乗固有値の絶対値を用いてもよい。最大の二乗固有値が所定の閾値より大きいときには、二乗固有値が幅広く分布していると判定する。また、最小の二乗固有値を用い、最小の二乗固有値が0に非常に近いか否かを判定してもよい。二乗固有値が0に非常に近い場合には、線形変換の列ベクトルが線形独立ではないので、勾配消失が起きる状態といえる。なお、二乗固有値が0に非常に近いか否かは、二乗固有値と0との差が所定の閾値以下であるか否かによって判定することができる。
(3)二乗固有値の分散
二乗固有値の分散が所定の閾値より大きいときには、二乗固有値が幅広く分布していると判定してもよい。
(4)二乗固有値の平均
二乗固有値の平均が所定の閾値より大きいときには、二乗固有値が幅広く分布していると判定してもよい。
以上、二乗固有値の分布を判断するための判定基準の例を示したが、二乗固有値が幅広く分布しているか否かを判定する基準は他にも考えられる。
(1)二乗固有値どうしの比率
二乗固有値どうしの比率としては、例えば、最大の二乗固有値と最小の二乗固有値の比率をとり、この比率が所定の閾値よりも大きいか否かを判定して、比率が所定の閾値よりも大きい場合に、二乗固有値が幅広く分布していると判定してもよい。
(2)二乗固有値の絶対値
二乗固有値の絶対値としては、最大の二乗固有値の絶対値を用いてもよい。最大の二乗固有値が所定の閾値より大きいときには、二乗固有値が幅広く分布していると判定する。また、最小の二乗固有値を用い、最小の二乗固有値が0に非常に近いか否かを判定してもよい。二乗固有値が0に非常に近い場合には、線形変換の列ベクトルが線形独立ではないので、勾配消失が起きる状態といえる。なお、二乗固有値が0に非常に近いか否かは、二乗固有値と0との差が所定の閾値以下であるか否かによって判定することができる。
(3)二乗固有値の分散
二乗固有値の分散が所定の閾値より大きいときには、二乗固有値が幅広く分布していると判定してもよい。
(4)二乗固有値の平均
二乗固有値の平均が所定の閾値より大きいときには、二乗固有値が幅広く分布していると判定してもよい。
以上、二乗固有値の分布を判断するための判定基準の例を示したが、二乗固有値が幅広く分布しているか否かを判定する基準は他にも考えられる。
本実施の形態の診断方法は、あるレイヤについて勾配消失が起きるかどうかの判定をした後、ニューラルネットワークモデルの全レイヤについて、勾配消失の判定を行ったか否かを判定し(S13)、全レイヤについて判定済みでない場合には(S13でNO)、二乗固有値の分布に基づいて勾配消失を判定する(S12)。
全レイヤについて勾配消失の判定済みである場合には(S13でYES)、判定結果を出力する(S14)。全レイヤについて勾配消失がない場合には、ニューラルネットワークは勾配消失しないと判定し、一つのレイヤでも勾配消失する場合には、ニューラルネットワークは勾配消失すると判定し、その判定結果を出力する(S14)。判定結果の出力に際しては、二乗固有値の分布状態をグラフ表示してもよい。
(学習装置)
図3は、本実施の形態の学習装置1の構成を示す図である。学習装置1は、教師データ(データと正解ラベル)を入力する入力部10と、教師データを用いて推論を行う推論部11と、推論結果と正解ラベルとの誤差を逆伝播することで学習を行う学習部13と、学習の対象であるニューラルネットワークモデルを記憶した記憶部12と、学習の状況等を表示する表示部17とを備えている。
図3は、本実施の形態の学習装置1の構成を示す図である。学習装置1は、教師データ(データと正解ラベル)を入力する入力部10と、教師データを用いて推論を行う推論部11と、推論結果と正解ラベルとの誤差を逆伝播することで学習を行う学習部13と、学習の対象であるニューラルネットワークモデルを記憶した記憶部12と、学習の状況等を表示する表示部17とを備えている。
学習部13は、二乗固有値計算部14と、損失関数生成部15と、パラメータ更新部16とを有している。二乗固有値計算部14は、学習対象のニューラルネットワークの各レイヤにおける入力Xに対する出力Fを表す入出力変換式(式(1))を計算する機能を有する。損失関数生成部15は、ニューラルネットワークの誤差逆伝播に用いる損失関数を生成する機能を有する。本実施の形態では、損失関数は、二乗固有値を制御するペナルティを含んでいる。パラメータ更新部16は、損失関数生成部15にて生成した損失関数を最小にするように、誤差逆伝播法によりニューラルネットワークのパラメータを更新する機能を有する。
(損失関数)
本実施の形態において、損失関数は、二乗固有値が小さくなりすぎないようにする関数である。すべての固有値が0より大きければ(正定:Positive Definite)、行列のすべての列ベクトルが線形独立である。固有値が小さくなりすぎないようにする損失関数を用いて、行列の線形独立性を担保する。
本実施の形態において、損失関数は、二乗固有値が小さくなりすぎないようにする関数である。すべての固有値が0より大きければ(正定:Positive Definite)、行列のすべての列ベクトルが線形独立である。固有値が小さくなりすぎないようにする損失関数を用いて、行列の線形独立性を担保する。
正定化の方法として、入力Xにパラメータ行列Wを入力して二乗した行列(これを「Σk,w 2」と表す)の行列式を最大化する。本実施の形態では、行列Σk,w 2の行列式の最大化と同等の演算として、対数行列式の最小化を行う。
行列Σk,w 2の固有値λiが得られたとすると、次の式が成り立つ。
行列式の値は固有値の積と等しいから、次式(3)のように、対数逆行列式は対数固有値の和で表わされる。
ここで、式(3)のφ(Λ)=−Σlogλiの性質について説明する。−logλiは、λiが0に近づくと、関数φ(Λ)は+∞に近づく(対数バリア)。この性質を利用し、図4に示すように、固有値λiが0に近づくと、+∞のペナルティを発生させ、上記学習時に固有値λiを0にしないための(つまり、非線形独立を促進するための)損失関数を生成する。
次に、損失関数を誤差逆伝播法で用いる勾配降下法の更新式に含めるために、パラメータ行列Wに関するφ(Λ)の勾配を具体的に計算する。勾配は、合成関数の微分を次式(4)の連鎖律を使って計算する。
右辺第1項から第5項までのそれぞれの項は、次式で計算できる。下記の最初の式にあるtr( )は、行列の跡(trace)のことで、行列の主対角成分の総和である。
なお、上記式では、次の省略表記を用いた。
以上より、上式(4)に示す勾配は、次のとおり求まる。
この勾配の逆(マイナス倍)をWの更新式に追加して、パラメータ更新を行う際の損失関数として用いる。これにより、勾配の反対方向にパラメータ行列Wを動かすことができる。
なお、式(5)で求まった損失関数を含む更新式は、計算量が大きい。そこで、変形例として、小さい固有値のみに着目した低ランク近似を行ってもよい。
図5(a)及び図5(b)は低ランク近似について説明するための図である。図5(a)は、固有値を左上から右下に向かって大きい方から順にソートして並べた対角行列である。図5では、行列の各成分は固有値の逆数となっているので、値としては左上の方が小さく右下の方が大きい。低ランク近似では、図5(a)において、小さい方から所定個数の対角成分(丸で囲った部分)を取り出し、図5(b)に示すような小さい行列を作り、この行列を用いて、損失関数に加える勾配を計算する。
さらに計算量を減らすために、最小の固有値のみを使用して、次の損失関数を生成してもよい。
式(7)において、λminは最小の固有値であり、vminは、最小の固有値に対応する固有ベクトルである。
以上、本実施の形態の学習装置1の構成について説明したが、上記した学習装置1のハードウェアの例は、CPU、RAM、ROM、ハードディスク、ディスプレイ、キーボード、マウス、通信インターフェース等を備えたコンピュータである。上記した各機能を実現するモジュールを有するプログラムをRAMまたはROMに格納しておき、CPUによって当該プログラムを実行することによって、上記した学習装置1が実現される。このようなプログラムも本発明の範囲に含まれる。
図6は、学習装置1による学習の動作を示すフローチャートである。学習装置1は、まず教師データの入力を受け付ける(S20)。教師データは、例えば画像や音声等のデータと、それが何であるかを表す正解ラベルのセットからなる。学習装置1は、学習対象のニューラルネットワークに教師データを入力し、推論を行う(S21)。学習装置1は、この推論結果と正解ラベルとの誤差を逆伝播させて学習を行うが、学習装置1は学習に用いる損失関数を生成する。
学習装置1は、学習中のニューラルネットワークモデルの各レイヤにおける入出力の変換式(上記式(1))を求め、変換式から変換行列Σ(上記式(2))を求める(S22)。続いて、変換式の入力Xにパラメータ行列Wを入力して二乗した行列の固有値を二乗固有値として求め(S23)、二乗固有値が0にならないようなペナルティを加えた損失関数を生成する(S24)。このようなペナルティの計算は上述したとおりである。
次に、学習装置1は、生成された損失関数を用いて、誤差逆伝播法によりニューラルネットワークのパラメータを更新する(S25)。続いて、学習装置1は、パラメータが更新されたニューラルネットワークの各レイヤについて、上述した本実施の形態の診断方法を用いて勾配消失が起こる状態かどうかを判定する(S26)。このフローチャートでは、勾配消失の判定を点線で描画しているのは、勾配消失の判定はパラメータを更新するたびに行う必要はなく、例えば、1〜数エポックの学習が終了したときに行えばよいからである。
判定の結果、勾配消失が起こる状態の場合には(S26でYES)、学習装置1は、学習処理を終了する。この際、更新前のパラメータを保存しておき、学習を打ち切った後に、勾配消失が起こり始める直前のパラメータに戻すこととしてもよい(S28)。この直前のパラメータに戻すステップS28は任意である。
勾配消失が起こらない状態の場合には(S26でNO)、学習を継続するか否かを判定する(S27)。学習を継続するか否かは、パラメータの更新が収束したかどうかによって判定することができる。学習を継続する場合には(S25でYES)、推論の処理に戻って上記した処理を繰り返す。学習を継続しない場合には(S25でNO)、学習処理を終了する。学習装置1は、適時に、あるいはユーザからの要求に応じて、ニューラルネットワークの各レイヤにおける二乗固有値を計算し、その分布を表示してもよい。
本実施の形態の学習装置1は、ニューラルネットワークの各レイヤの二乗固有値が0にならないようにするペナルティを含んだ損失関数を用いて学習を行うので、各レイヤにおける線形変換の独立性を担保し、勾配消失の発生を低減できる。
また、本実施の形態の学習装置1は、各レイヤの二乗固有値の分布に基づいて勾配消失が発生する状態かどうかを判定し、勾配消失が発生する場合には学習を終了するので、勾配消失が起こり始めたらすぐに学習を打ち切ることができる。
本実施の形態では、勾配消失の診断方法および勾配消失の発生を低減する学習装置1について説明したが、ニューラルネットワークの各レイヤの二乗固有値を見ることで勾配爆発の診断を行なったり、勾配爆発を低減した学習を実現することも可能である。
二乗固有値が大きすぎる場合には、勾配爆発が起こりやすい状態である。二乗固有値が所定の閾値以上になっていないかどうかで勾配爆発が起こりやすい状態か否かを判定できる。また、二乗固有値が大きくなりすぎないようにするペナルティを損失関数に含めることで、勾配爆発の発生を低減した学習を行うことができる。また、損失関数の生成にあたっては、上述した実施の形態と同様に低ランク近似を行うことができ、勾配爆発の発生を低減する際には、二乗固有値のうち大きい方から所定の個数(1個を含む)の二乗固有値をペナルティの計算に用いる。
診断に関しては、二乗固有値が大きい値から小さい値まで幅広く分布している場合には、当該層のパラメータが縮退しておらず、勾配爆発が起きにくい状態である。逆に、二乗固有値の値が大きくなりすぎ、パラメータが発散している場合には、勾配爆発が起きやすい状態である。
上記した実施の形態では、全結合型のニューラルネットワークを例として説明したが、本発明は、畳み込みニューラルネットワークにも適用することができる。畳み込みニューラルネットワークは、スライディングウィンドウで切り取った複数のデータと、複数のフィルタとの行列積と考えることができる。したがって、上述した全結合型のニューラルネットワークの場合と同様に、畳み込みニューラルネットワークにおいても、各レイヤでの変換は上述した式(1)の変換式の形で表すことができるからである。
本発明は、ニューラルネットワークの学習を行う技術として有用である。
1・・・学習装置、10・・・入力部、11・・・推論部、12・・・記憶部、
13・・・学習部、14・・・二乗固有値計算部、15・・・損失関数計算部、
16・・・パラメータ更新部、17・・・表示部。
13・・・学習部、14・・・二乗固有値計算部、15・・・損失関数計算部、
16・・・パラメータ更新部、17・・・表示部。
Claims (7)
- 前記判定するステップでは、
・前記二乗固有値どうしの比率
・前記二乗固有値の絶対値
・前記二乗固有値の分散
・前記二乗固有値の平均
の少なくとも1つに基づいて、勾配消失または勾配爆発の判定を行う請求項1に記載の診断方法。 - 勾配消失を防止する際には、前記学習を行うステップにおいて、前記二乗固有値のうち小さい方から所定の個数の二乗固有値を前記ペナルティの計算に用いる請求項3に記載の学習方法。
- 勾配爆発を防止する際には、前記学習を行うステップにおいて、前記二乗固有値のうち大きい方から所定の個数の二乗固有値を前記ペナルティの計算に用いる請求項3に記載の学習方法。
- ニューラルネットワークモデルの学習を行う学習装置(1)であって、
学習対象のニューラルネットワークの各レイヤにおける入力Xに対する出力Fを表す次式(1)を計算し、
前記二乗固有値を制御するペナルティを含む損失関数を生成する損失関数生成部(15)と、
教師データの入力を受け付ける入力部(10)と、
前記教師データを用いた推論を行う推論部(11)と、
前記推論の結果と前記正解データとの誤差を用いて、前記損失関数を最小にするように学習を行うパラメータ更新部(16)と、
を備える学習装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019127103A JP2021012600A (ja) | 2019-07-08 | 2019-07-08 | 診断方法、学習方法、学習装置およびプログラム |
US16/920,807 US20210012204A1 (en) | 2019-07-08 | 2020-07-06 | Diagnostic method, learning method, learning device, and storage medium storing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019127103A JP2021012600A (ja) | 2019-07-08 | 2019-07-08 | 診断方法、学習方法、学習装置およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021012600A true JP2021012600A (ja) | 2021-02-04 |
Family
ID=74103235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019127103A Pending JP2021012600A (ja) | 2019-07-08 | 2019-07-08 | 診断方法、学習方法、学習装置およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210012204A1 (ja) |
JP (1) | JP2021012600A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114065608B (zh) * | 2021-10-21 | 2023-09-22 | 深圳市卓立智能制造有限公司 | 往复电磁泵输出功率稳定控制方法、系统和电子设备 |
-
2019
- 2019-07-08 JP JP2019127103A patent/JP2021012600A/ja active Pending
-
2020
- 2020-07-06 US US16/920,807 patent/US20210012204A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20210012204A1 (en) | 2021-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gauci et al. | Horizon: Facebook's open source applied reinforcement learning platform | |
Sahu et al. | Evaluating the impact of prediction techniques: Software reliability perspective. | |
Giap et al. | Dynamic structural neural network | |
Malhotra¹ et al. | Software maintainability prediction using machine learning algorithms | |
KR0184276B1 (ko) | 학습형 의지결정 지원 시스템 | |
Uppal et al. | A neuro-fuzzy multiple-model observer approach to robust fault diagnosis based on the DAMADICS benchmark problem | |
JP6730340B2 (ja) | 因果推定装置、因果推定方法、及びプログラム | |
CN111310814A (zh) | 利用不平衡正负样本对业务预测模型训练的方法及装置 | |
US10921755B2 (en) | Method and system for competence monitoring and contiguous learning for control | |
US20180285769A1 (en) | Artificial immune system for fuzzy cognitive map learning | |
WO2019229931A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
Liu et al. | An experimental study on symbolic extreme learning machine | |
JP2020204909A (ja) | 機械学習装置 | |
JP2021012600A (ja) | 診断方法、学習方法、学習装置およびプログラム | |
Nápoles et al. | Hybrid model based on rough sets theory and fuzzy cognitive maps for decision-making | |
JPH0721029A (ja) | 推論装置 | |
Kumaresan et al. | Software reliability modeling using increased failure interval with ANN | |
Lavaei et al. | Dynamic analysis of structures using neural networks | |
JPH10143343A (ja) | 連想型プラント異常診断装置 | |
Abad et al. | Estimation of expected human attention weights based on a decision field theory model | |
Wong et al. | Hybrid data regression model based on the generalized adaptive resonance theory neural network | |
JP2021144659A (ja) | 計算機、計算方法及びプログラム | |
Capretz et al. | Improving effort estimation by voting software estimation models | |
JP3287738B2 (ja) | 関係関数探索装置 | |
WO2022259313A1 (ja) | 誤り判定装置、誤り判定方法、及びプログラム |