JP6955155B2 - 学習装置、学習方法及び学習プログラム - Google Patents
学習装置、学習方法及び学習プログラム Download PDFInfo
- Publication number
- JP6955155B2 JP6955155B2 JP2017200842A JP2017200842A JP6955155B2 JP 6955155 B2 JP6955155 B2 JP 6955155B2 JP 2017200842 A JP2017200842 A JP 2017200842A JP 2017200842 A JP2017200842 A JP 2017200842A JP 6955155 B2 JP6955155 B2 JP 6955155B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- accuracy
- overfitting
- data set
- amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Description
前記学習部による前記精度に基づいて、過学習状態を検出する検出部と、
前記学習部による前記精度に基づいて、学習の収束状態を判定する判定部と、
前記検出部が前記過学習状態を検出した場合、前記学習部による学習率を変更して再び学習させるとともに、前記判定部が前記学習部による学習が収束したと判定した場合、前記学習部による学習を停止させる制御部と、を有する学習装置である。
(1)学習工程
まず、プロセッサが、D個の訓練データの入力データについて、DNNの入力層から出力層に向かってそれぞれ定義された演算を実行し、出力層に出力される出力データを算出する。D個は、例えば学習装置のコンピュータが一度に並列演算できる訓練データの数であり、バッチ数と呼ばれる。
次に、プロセッサが、算出した出力データと訓練データの教師データとの差分の二乗和を算出する。これが、前述した関数fの値である。そして、前述の勾配法により、関数fの傾き(∂f/∂x)に学習率εを乗じた値を現在のDNNの変数(重み値)xiから減じて、新たな変数xi+1を算出する。すなわち、xi+1 = xi - ε*∂f/∂xである。
(2)検証工程
上記の(1)を所定回数(A回)繰り返した後、検証データの入力データについてDNNの演算を実行して出力データを算出し、検証データの教師データとの差分の二乗和に基づいて、精度を算出する。
(3)ある学習率εで上記の(1)(2)を所定回数(B回)繰り返したら、学習率εを減衰させ、再度(1)(2)を所定回数(B回)繰り返す。減衰させた学習率εで(1)(2)を所定回数(B回)繰り返すことを、予め決められた回数(C回)行って、つまり、C個の学習率について繰り返し、学習を終了する。
(a)ある学習率ε=0.01で複数のエポック数分、訓練データによる学習工程(1)の繰り返し(A回)と検証データによる検証工程(2)を繰り返す間に、精度が最初は急上昇し、その後徐々に上昇する。
(b)エポック数が30回(B回)に達すると、図3の例では学習率εを10分の1(1/10)に減少してε=0.001とし、再度学習(1)と検証(2)を繰り返す。ε=0.001での精度は、最初急上昇したあと少し減少している。この減少が過学習状態OFに対応する。
(c)同様に、エポック数が30回(B回)に達すると、学習率εを更に10分の1(1/10)に減少してε=0.0001にし、再度学習(1)と検証(2)を繰り返す。
図3に戻り、同じ学習率εでの学習と検証を一定の学習量行うことを、学習率を減少しながら、繰り返す場合、モデルのDNNの構成と、訓練データセット及び検証データセットに依存して、ある学習率で過学習が発生し始める学習量が異なる。
(1)現象1:各学習率での学習量が多すぎると、それぞれの学習率で過学習が発生してしまい、目標とする検証データセットでの精度に達するまで学習期間(学習量)が長くなる(多くなる)。
(2)現象2:各学習率での学習量が多すぎると、それぞれの学習率で過学習が発生し、検証データセットでの精度が低下したまま、次の学習率での学習が再開され、最終的に達する検証データセットでの精度が、目標とする精度に達しない。
(3)現象3:各学習率での学習量が少なすぎると、それぞれの学習率での検証データセットでの精度が十分に向上する前に、次の学習率での学習が再開され、最終的に達する検証データセットでの精度が、目標とする精度に達しない。
図8は、図7の学習と検証処理S12のフローチャート図である。前述のとおり、図8の学習と検証処理S12は、1エポックEpochでの処理に対応する。学習と検証処理では、プロセッサは、学習プログラムを実行して、以下の処理を実行する。
過学習検出処理S13では、プロセッサは、以下の演算により検証データセットの精度の所定の学習量の期間にわたる低下傾向があるか否かを判定する。
y(i)+y(i-1)+y(i-2)+…+y(i-(M-1))をサンプル数Mで除して、現在のサンプルiから過去M-1個のサンプルの精度の移動平均値ΦM(i)を算出する。
Δi+Δi-1+Δi-2+…+Δi-(N-1)をサンプル数Nで除して、検証データセットの精度の移動平均線における連続N個の精度の変化量の平均値を算出する。
D*A*N≧2*Nd
N≧2*Nd/(D*A)
但し、N>M
次に、学習の終わりを判定する精度の収束検出処理S15について詳述する。過学習検出処理S13では、プロセッサは、以下の演算により、検証データセットの精度が収束しているか否かを判定する。
図7によれば、過学習が検出されると(S13のYES)、一旦深層学習を停止し、精度の収束の判定(S15)が行われる。つまり、過学習と収束が同時期に検出されると、学習が終了する。
図10は、図7の最高精度のサンプル点imaxの取得について説明する図である。図10には、3つの学習率ε1、ε2、ε3での検証データセットの精度曲線が示され、それぞれの学習率での学習で過学習OFが検出されている。図4,5などに示したとおり、過学習が発生すると検証データセットの精度曲線が低下傾向を示す。そこで、プロセッサは、過学習が検出された後、過去のサンプルの中で最高精度のサンプルimaxを取得し、その最高精度のサンプルでの変数で学習を再開する。これにより、学習が終了時の精度をできるだけ高くすることができる。
上記の通り、本実施の形態の学習では、プロセッサは、ある学習率εと過学習判定閾値Δthと収束判定閾値δthを設定し、設定した学習率で訓練データセットによる学習と検証データセットによる検証とを繰り返しながら、各サンプル点(各エポック)で過学習状態に入ったか否か判定する。過学習状態に入ったことを検出すると、プロセッサは、学習率と過学習判定閾値とを減衰して更新し、最大精度サンプル点でのDNNの変数で、再度上記の学習と検証を再開する。さらに、過学習状態の検出とは独立して、精度が収束したか否かの判定を行い、収束したと判定されると学修を終了する。
10:プロセッサ
12:メインメモリ
14:GPU
16:GPUメモリ
20:学習プログラム
22:訓練データセット
24:検証データセット
26:精度データ
40:制御部
41:学習部
42:過学習の検出部
43:収束の判定部
DNN:深層学習モデル、ディープニューロンネットワーク
OF:過学習
ε:学習率
EPOCH:エポック
Δth:過学習判定閾値
δth:収束判定閾値
Claims (9)
- 訓練データセットについて学習器で学習を行い、検証データセットについて精度を算出する学習部と、
前記学習部による前記精度に基づいて、過学習状態を検出する検出部と、
前記学習部による前記精度に基づいて、学習の収束状態を判定する判定部と、
前記検出部が前記過学習状態を検出した場合、前記学習部による学習率を変更して再び学習させるとともに、前記判定部が前記学習部による学習が収束したと判定した場合、前記学習部による学習を停止させる制御部と、を有する学習装置。 - 前記検出部は、
前記精度の複数のサンプルの移動平均線において、連続N(Nは複数)個の精度による傾きが負を示す場合、前記過学習状態を検出する、請求項1に記載の学習装置。 - 前記判定部は、
複数のサンプルでの精度において、連続L(Lは複数)個の精度間の変化量が第1の閾値未満になる場合、前記収束状態と判定する、請求項1に記載の学習装置。 - 前記学習部はさらに、
前記精度の複数のサンプルを収集する収集部を有する、請求項1に記載の学習装置。 - 前記検出部は、
前記収集部が収集した精度の連続M個(Mは複数)のサンプルに関する移動平均線において、連続N個の精度の変化量の平均が第2の閾値未満になり、かつ、前記複数のサンプルのうち最終サンプル点での精度の変化量が負である場合、前記過学習状態を検出する、請求項4記載の学習装置。 - 前記制御部は、前記検出部が前記過学習状態を検出した場合、前記学習率の変更と共に前記第2の閾値を低下するよう変更して再び学習させる、請求項5に記載の学習装置。
- 前記判定部は、
前記収集部が収集した精度の複数のサンプル間の変化量の二乗平均平方根が第3の閾値未満である場合、前記収束したと判定する、請求項4または5に記載の学習装置。 - 訓練データセットについて学習率に基づき学習器で学習を行い、検証データセットについて精度を算出し、
前記精度に基づいて、過学習状態を検出し、
前記精度に基づいて、学習の収束状態を判定し、
前記過学習状態を検出した場合、前記学習率を変更して再び前記学習と前記精度の算出を行い、
学習の収束状態を判定した場合、前記学習を停止する、処理を有する学習方法。 - 訓練データセットについて学習率に基づき学習器で学習を行い、検証データセットについて精度を算出し、
前記精度に基づいて、過学習状態を検出し、
前記精度に基づいて、学習の収束状態を判定し、
前記過学習状態を検出した場合、前記学習率を変更して再び前記学習と前記精度の算出を行い、
学習の収束状態を判定した場合、前記学習を停止する、処理をコンピュータに実行させ
る学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017200842A JP6955155B2 (ja) | 2017-10-17 | 2017-10-17 | 学習装置、学習方法及び学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017200842A JP6955155B2 (ja) | 2017-10-17 | 2017-10-17 | 学習装置、学習方法及び学習プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019074947A JP2019074947A (ja) | 2019-05-16 |
JP6955155B2 true JP6955155B2 (ja) | 2021-10-27 |
Family
ID=66544168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017200842A Active JP6955155B2 (ja) | 2017-10-17 | 2017-10-17 | 学習装置、学習方法及び学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6955155B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7171520B2 (ja) * | 2019-07-09 | 2022-11-15 | 株式会社日立製作所 | 機械学習システム |
FI20195682A1 (en) | 2019-08-15 | 2021-02-16 | Liikennevirta Oy / Virta Ltd | CHARGING STATION MONITORING METHOD AND APPARATUS |
JP2021081930A (ja) * | 2019-11-18 | 2021-05-27 | 日本放送協会 | 学習装置、情報分類装置、及びプログラム |
WO2023188286A1 (ja) * | 2022-03-31 | 2023-10-05 | 日本電気株式会社 | 学習装置、推定装置、学習方法および記録媒体 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6513023B1 (en) * | 1999-10-01 | 2003-01-28 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Artificial neural network with hardware training and hardware refresh |
US8521670B2 (en) * | 2011-05-25 | 2013-08-27 | HGST Netherlands B.V. | Artificial neural network application for magnetic core width prediction and modeling for magnetic disk drive manufacture |
JP6164639B2 (ja) * | 2013-05-23 | 2017-07-19 | 国立研究開発法人情報通信研究機構 | ディープ・ニューラルネットワークの学習方法、及びコンピュータプログラム |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
-
2017
- 2017-10-17 JP JP2017200842A patent/JP6955155B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019074947A (ja) | 2019-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6955155B2 (ja) | 学習装置、学習方法及び学習プログラム | |
US20190122078A1 (en) | Search method and apparatus | |
JP4223894B2 (ja) | Pidパラメータ調整装置 | |
CN112101530A (zh) | 神经网络训练方法、装置、设备及存储介质 | |
CN111221375B (zh) | Mppt控制方法、装置、光伏发电设备及可读存储介质 | |
US20200265307A1 (en) | Apparatus and method with multi-task neural network | |
CN114861880A (zh) | 基于空洞卷积神经网络的工业设备故障预测方法及装置 | |
JP2016018230A (ja) | 制御パラメータ適合方法及び制御パラメータ適合支援装置 | |
CN115587545B (zh) | 一种用于光刻胶的参数优化方法、装置、设备及存储介质 | |
CN111461329A (zh) | 一种模型的训练方法、装置、设备及可读存储介质 | |
CN115346125B (zh) | 一种基于深度学习的目标检测方法 | |
JP2021197108A (ja) | 学習プログラム、学習方法および情報処理装置 | |
CN117150882A (zh) | 发动机油耗预测方法、系统、电子设备及存储介质 | |
JP6560207B2 (ja) | 信号を特徴付けるための方法及びデバイス | |
CN113986700A (zh) | 数据采集频率的优化方法、系统、装置及存储介质 | |
CN108920842B (zh) | 一种潜艇动力学模型参数在线估计方法及装置 | |
CN113408692A (zh) | 网络结构的搜索方法、装置、设备及存储介质 | |
CN117152588B (zh) | 一种数据优化方法、系统、装置及介质 | |
JP5436689B2 (ja) | 混合微分代数プロセスモデルの状態変数をリアルタイムに計算する方法 | |
JP7436830B2 (ja) | 学習プログラム、学習方法、および学習装置 | |
CN116176737B (zh) | 一种车辆控制方法、装置、车辆及存储介质 | |
CN110648021B (zh) | 一种两级电力负荷预测结果协调方法、装置及设备 | |
US20240185070A1 (en) | Training action selection neural networks using look-ahead search | |
CN115114966B (zh) | 模型的操作策略的确定方法、装置、设备及存储介质 | |
US20220253693A1 (en) | Computer-readable recording medium storing machine learning program, apparatus, and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200709 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210708 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210831 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210913 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6955155 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |