JP2017097585A - 学習装置、プログラム及び学習方法 - Google Patents
学習装置、プログラム及び学習方法 Download PDFInfo
- Publication number
- JP2017097585A JP2017097585A JP2015228433A JP2015228433A JP2017097585A JP 2017097585 A JP2017097585 A JP 2017097585A JP 2015228433 A JP2015228433 A JP 2015228433A JP 2015228433 A JP2015228433 A JP 2015228433A JP 2017097585 A JP2017097585 A JP 2017097585A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- regularization
- neural network
- unit
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
Description
図1は、実施形態に係る情報処理装置10のハードウェア構成図である。情報処理装置10は、例えばパーソナルコンピュータ等であってよいが、限定されるものではない。
xi:入力層の素子iへの入力データ
wij (1):入力層の素子iから中間層の素子jにおける重み係数
wjk (2):中間層の素子jから出力層の素子kにおける重み係数
uj:中間層の素子jへの入力
vk:出力層の素子kへの入力
Vj:中間層の素子jからの出力
f(uj):中間層の素子jからの出力関数
g(vk):出力層の素子kからの出力関数
ok:出力層の素子kからの出力データ
tk:出力層の素子kからの教師データ
本実施形態の学習実行部24は、コスト関数Eに重み係数wjk (2)及び重み係数wij (1)のノルムを加えたL2ノルム正則化によるコスト関数Eregによって、重み係数wjk (2)及び重み係数wij (1)を算出する。これにより、学習実行部24は、過学習による重み係数wjk (2)及び重み係数wij (1)の発散を抑制する。
ここで、従来の最適化において、正則化を用いない場合、重み係数wjk (2)及び重み係数wij (1)の発散、及び、最終的に精度が出ない局所解への重み係数wjk (2)及び重み係数wij (1)の収束等が生じる。従って、重み係数wjk (2)及び重み係数wij (1)の最適化において、正則化は必要である。しかしながら、従来の最適化における正則化の方法は、最初から最後まで正則化の効果が一定となるように正則化係数λを変更せずに学習する。このような従来の技術では、学習が進み、重み係数wjk (2)及び重み係数wij (1)が最終的な解に近づいてきた後には、正則化は細かい重み係数wjk (2)及び重み係数wij (1)の修正にとって阻害する効果が大きくなるので、最終的に最適な重み係数wを得ることができない。
“Very deep convolutional networks for large-scale image recognition”
K Simonyan, A Zisserman - arXiv preprint arXiv:1409.1556, 2014 - arxiv.org (2015)
このシミュレーションでは、入力データが約120万枚の画像データの場合、入力された画像データを1000クラスに分類する課題に対して、16層の畳み込みニューラルネットワークを用いて学習をさせた。
学習部22は、正則化の手法としてL1ノルム正則化を採用してもよい。L1ノルム正則化は、次の式(20)に示すように、コスト関数Eに重み係数wのL1ノルムを追加したEregをコスト関数として使用する方法である。ここでλは正則化の大きさを制御するパラメータ(以下、正則化係数)であり、大きいほど正則化の効果が大きくなる。従って、学習部22の変更部28は、重み係数wjk (2)及び重み係数wij (1)の学習が進行すると、正則化係数λを小さくして、正則化の効果を減少させる。
学習部22は、SGD(Stochastic Gradient Descent:確率的勾配降下法)を採用してもよい。
学習部22は、DROPOUTを学習方法として採用してもよい。
DROPOUTは、ニューラルネットワーク20において、各訓練データに対して、中間素子をランダムに無効化しながら、学習を進める方法である。DROPOUTは、正則化の効果を持ち、汎化性能を上げることができる方法である。この場合、変更部28は、学習が進行すると、DROPOUTにおいて中間素子を無効化する率である無効化率を下げて、正則化の効果を減少させる。これにより、学習部22は、学習時間を短縮しつつ、精度の高い重み係数wjk (2)及び重み係数wij (1)の学習を可能とする。
学習部22は、DROPCONNECTを学習方法として採用してもよい。
DROPCONNECTは、DROPOUTが中間素子をランダムに無効化にするのに対して、素子間の接続をランダムに無効化する方法である。本実施形態では、DROPCONNECTにおける無効化率を学習が進むにつれて下げる。この場合、変更部28は、学習が進行すると、DROPCONNECTにおいて素子間の接続を無効化する率である無効化率を下げて、正則化の効果を減少させる。これにより、学習部22は、学習時間を短縮しつつ、精度の高い重み係数wjk (2)及び重み係数wij (1)の学習を可能とする。
判定部26は、学習の進行の判定材料として、コスト関数E(またはコスト関数Ereg)を採用してもよい。例えば、判定部26は、コスト関数Eの変化率が予め定められた変化率用閾値未満となった場合、学習が進行したと判定してもよい。コスト関数Eの変化率が予め定められた変化率用閾値未満となった場合には、コスト関数Eが一定値になった場合を含む。この場合、変更部28は、コスト関数Eの変化率が予め定められた変化率用閾値未満となった場合に、正則化の効果を減少させることになる。
学習部22は、学習の対象のニューラルネットワーク20として、リカレントニューラルネットワーク(Recurrent Neural Network: RNN)を採用してもよい。
変更部28は、学習が進むに連れて、正則化の効果を小さくするとともに、学習率αを小さくしてもよい。
Claims (11)
- 多層ニューラルネットワークの係数を正則化によって学習する学習実行部と、
前記学習が進行しているか否かを判定する判定部と、
前記学習が進行している場合、正則化の効果を減少させる変更部と、
を備える学習装置。 - 前記変更部は、前記学習が進行している場合、前記学習の学習率を減少させるとともに、前記正則化の効果を減少させる
請求項1に記載の学習装置。 - 前記変更部は、前記正則化に用いられる正則化項の係数である正則化係数を減少させることによって、前記正則化の効果を減少させる
請求項1に記載の学習装置。 - 前記変更部は、DROPOUTの割合を減少させることによって、前記正則化の効果を減少させる
請求項1に記載の学習装置。 - 前記変更部は、DROPCONNECTの割合を減少させることによって、前記正則化の効果を減少させる
請求項1に記載の学習装置。 - 前記多層ニューラルネットワークは、Convolutionalニューラルネットワークである
請求項1から5のいずれか1項に記載の学習装置。 - 前記多層ニューラルネットワークは、積層オートエンコーダ(Stacked Autoencoder)である
請求項1から5のいずれか1項に記載の学習装置。 - 前記多層ニューラルネットワークは、リカレントニューラルネットワーク(Recurrent Neural Network)である
請求項1から5のいずれか1項に記載の学習装置。 - 前記学習実行部は、確率的勾配降下法によって、前記係数を学習する
請求項1から8のいずれか1項に記載の学習装置。 - 多層ニューラルネットワークの係数を正則化によって学習する学習実行機能と、
前記学習が進行しているか否かを判定する判定機能と、
前記学習が進行している場合、正則化の効果を減少させる変更機能と、
をコンピュータに機能させるプログラム。 - 学習装置で実行される学習方法であって、
多層ニューラルネットワークの係数を正則化によって学習する学習実行段階と、
前記学習が進行しているか否かを判定する判定段階と、
前記学習が進行している場合、正則化の効果を減少させる変更段階と、
を備える学習方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015228433A JP2017097585A (ja) | 2015-11-24 | 2015-11-24 | 学習装置、プログラム及び学習方法 |
US15/348,165 US20170147921A1 (en) | 2015-11-24 | 2016-11-10 | Learning apparatus, recording medium, and learning method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015228433A JP2017097585A (ja) | 2015-11-24 | 2015-11-24 | 学習装置、プログラム及び学習方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017097585A true JP2017097585A (ja) | 2017-06-01 |
Family
ID=58720888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015228433A Pending JP2017097585A (ja) | 2015-11-24 | 2015-11-24 | 学習装置、プログラム及び学習方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20170147921A1 (ja) |
JP (1) | JP2017097585A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019159956A (ja) * | 2018-03-14 | 2019-09-19 | オムロン株式会社 | ニューラルネットワーク型画像処理装置 |
EP3742353A1 (en) | 2019-05-21 | 2020-11-25 | Fujitsu Limited | Information processing apparatus, information processing program, and information processing method |
EP3767552A1 (en) | 2019-07-11 | 2021-01-20 | Fujitsu Limited | Machine learning method, program, and machine learning device |
JP2021512676A (ja) * | 2018-02-09 | 2021-05-20 | ソシエテ・デ・プロデュイ・ネスレ・エス・アー | カプセルを認識する飲料調製マシン |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018231187A1 (en) * | 2017-06-12 | 2018-12-20 | Google Llc | Context aware chat history assistance using machine-learned models |
WO2019048390A1 (en) | 2017-09-07 | 2019-03-14 | Koninklijke Philips N.V. | MULTI-PART CALCULATION SYSTEM FOR LEARNING A CLASSIFIER |
GB2568230B (en) * | 2017-10-20 | 2020-06-03 | Graphcore Ltd | Processing in neural networks |
WO2019142242A1 (ja) * | 2018-01-16 | 2019-07-25 | オリンパス株式会社 | データ処理システムおよびデータ処理方法 |
CN108307049B (zh) * | 2018-01-17 | 2020-07-03 | Oppo广东移动通信有限公司 | 电子装置的跌落模型更新方法及相关产品 |
KR20190099927A (ko) | 2018-02-20 | 2019-08-28 | 삼성전자주식회사 | 심층 신경망의 학습을 수행시키는 방법 및 그에 대한 장치 |
CN112149708A (zh) * | 2019-06-28 | 2020-12-29 | 富泰华工业(深圳)有限公司 | 数据模型选择优化方法、装置、计算机装置及存储介质 |
JP7363145B2 (ja) | 2019-07-12 | 2023-10-18 | 株式会社リコー | 学習装置および学習方法 |
US10984507B2 (en) | 2019-07-17 | 2021-04-20 | Harris Geospatial Solutions, Inc. | Image processing system including training model based upon iterative blurring of geospatial images and related methods |
US11068748B2 (en) | 2019-07-17 | 2021-07-20 | Harris Geospatial Solutions, Inc. | Image processing system including training model based upon iteratively biased loss function and related methods |
US11417087B2 (en) | 2019-07-17 | 2022-08-16 | Harris Geospatial Solutions, Inc. | Image processing system including iteratively biased training model probability distribution function and related methods |
CN113361700A (zh) * | 2020-03-04 | 2021-09-07 | 佳能株式会社 | 生成量化神经网络的方法、装置、系统、存储介质及应用 |
US11694585B2 (en) | 2020-12-28 | 2023-07-04 | Ricoh Company, Ltd. | Display apparatus, display system, display control method, and non-transitory recording medium |
-
2015
- 2015-11-24 JP JP2015228433A patent/JP2017097585A/ja active Pending
-
2016
- 2016-11-10 US US15/348,165 patent/US20170147921A1/en not_active Abandoned
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021512676A (ja) * | 2018-02-09 | 2021-05-20 | ソシエテ・デ・プロデュイ・ネスレ・エス・アー | カプセルを認識する飲料調製マシン |
JP7486425B2 (ja) | 2018-02-09 | 2024-05-17 | ソシエテ・デ・プロデュイ・ネスレ・エス・アー | カプセルを認識する飲料調製マシン |
JP2019159956A (ja) * | 2018-03-14 | 2019-09-19 | オムロン株式会社 | ニューラルネットワーク型画像処理装置 |
WO2019176479A1 (ja) * | 2018-03-14 | 2019-09-19 | オムロン株式会社 | ニューラルネットワーク型画像処理装置 |
US11361424B2 (en) | 2018-03-14 | 2022-06-14 | Omron Corporation | Neural network-type image processing device, appearance inspection apparatus and appearance inspection method |
EP3742353A1 (en) | 2019-05-21 | 2020-11-25 | Fujitsu Limited | Information processing apparatus, information processing program, and information processing method |
US11941505B2 (en) | 2019-05-21 | 2024-03-26 | Fujitsu Limited | Information processing apparatus of controlling training of neural network, non-transitory computer-readable storage medium for storing information processing program of controlling training of neural network, and information processing method of controlling training of neural network |
EP3767552A1 (en) | 2019-07-11 | 2021-01-20 | Fujitsu Limited | Machine learning method, program, and machine learning device |
Also Published As
Publication number | Publication date |
---|---|
US20170147921A1 (en) | 2017-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017097585A (ja) | 学習装置、プログラム及び学習方法 | |
JP6620439B2 (ja) | 学習方法、プログラム及び学習装置 | |
EP3711000B1 (en) | Regularized neural network architecture search | |
JP6579198B2 (ja) | リスク評価方法、リスク評価プログラム及び情報処理装置 | |
US11449734B2 (en) | Neural network reduction device, neural network reduction method, and storage medium | |
WO2019102984A1 (ja) | 学習装置及び学習方法、識別装置及び識別方法、プログラム並びに記録媒体 | |
CN111508000B (zh) | 基于参数空间噪声网络的深度强化学习目标跟踪方法 | |
JP2022007168A (ja) | 学習プログラム、学習方法および情報処理装置 | |
JP2021086371A (ja) | 学習プログラム、学習方法および学習装置 | |
US20210397948A1 (en) | Learning method and information processing apparatus | |
JPWO2021038793A1 (ja) | 学習システム、学習方法、及びプログラム | |
KR102327045B1 (ko) | 강화학습 기반의 분류기 학습 장치 및 방법 | |
JP7279225B2 (ja) | 破滅的忘却の発生を抑えつつ、転移学習を行う方法、情報処理装置及びプログラム | |
CN112215363A (zh) | 用于为机器人创建策略的方法、设备和计算机程序 | |
CN114049539B (zh) | 基于去相关二值网络的协同目标识别方法、系统及装置 | |
JP6545740B2 (ja) | 生成装置、プログラム、認識システムおよび生成方法 | |
US11743396B2 (en) | Electronic album generating apparatus, electronic album generating method, and non-transitory computer-readable storage medium | |
JP7438544B2 (ja) | ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法 | |
JP7050028B2 (ja) | 計算機システム及び機械学習の制御方法 | |
KR102188115B1 (ko) | 생성적 적대 신경망을 기초로 암의 예후 예측에 사용되는 바이오 마커의 선정이 가능한 전자 장치 및 그 동작 방법 | |
JP2021081930A (ja) | 学習装置、情報分類装置、及びプログラム | |
JP7436830B2 (ja) | 学習プログラム、学習方法、および学習装置 | |
KR102584770B1 (ko) | 다중 인스턴스 학습에 기반한 유전성 질환 예측 및 질병 유발 유전변이 발굴 시스템 및 방법 | |
US20230334315A1 (en) | Information processing apparatus, control method of information processing apparatus, and storage medium | |
US20230316731A1 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181009 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191226 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200602 |