JP2017097585A - 学習装置、プログラム及び学習方法 - Google Patents

学習装置、プログラム及び学習方法 Download PDF

Info

Publication number
JP2017097585A
JP2017097585A JP2015228433A JP2015228433A JP2017097585A JP 2017097585 A JP2017097585 A JP 2017097585A JP 2015228433 A JP2015228433 A JP 2015228433A JP 2015228433 A JP2015228433 A JP 2015228433A JP 2017097585 A JP2017097585 A JP 2017097585A
Authority
JP
Japan
Prior art keywords
learning
regularization
neural network
unit
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015228433A
Other languages
English (en)
Inventor
亮介 笠原
Ryosuke Kasahara
亮介 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2015228433A priority Critical patent/JP2017097585A/ja
Priority to US15/348,165 priority patent/US20170147921A1/en
Publication of JP2017097585A publication Critical patent/JP2017097585A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

【課題】学習結果の精度を向上させる。【解決手段】学習装置は、多層ニューラルネットワークの係数を正則化によって学習する学習実行部と、前記学習が進行しているか否かを判定する判定部と、前記学習が進行している場合、正則化の効果を減少させる変更部と、を備える。【選択図】図3

Description

本発明は、学習装置、プログラム及び学習方法に関する。
機械学習を用いて、物体の識別等を行う方法が多数提案されている。これらの提案の中でも、深い階層を持つ、ニューラルネットワークを用いた機械学習(深層学習:Deep Learning)が高い識別性能を有することが知られている。しかしながら、深い階層を持つニューラルネットワークの学習方法の性能はまだ十分でないといった問題がある。
そこで、特許文献1には、ニューラルネットワークの学習において、良好な学習を行う目的で、損失関数に正則化項を付加する技術が開示されている。
しかしながら、上述の技術では、正則化項の大きさは学習の進み具合によらず一定であり、最終的に得られる学習結果の精度に限界があるといった課題がある。
本発明は、上記に鑑みてなされたものであって、学習結果の精度を向上させる学習装置、プログラム及び学習方法を提供する。
上述した課題を解決し、目的を達成するために、本発明の学習装置は、多層ニューラルネットワークの係数を正則化によって学習する学習実行部と、前記学習が進行しているか否かを判定する判定部と、前記学習が進行している場合、正則化の効果を減少させる変更部と、を備える。
本発明は、学習結果の精度を向上させることができる。
図1は、実施形態に係る情報処理装置のハードウェア構成図である。 図2は、機械学習アルゴリズムの概要を説明する図である。 図3は、実施形態に係る情報処理装置の機能ブロック図である。 図4は、多層ニューラルネットワークを説明する図である。 図5は、学習実行部の学習におけるオートエンコーダを説明する図である。 図6は、学習実行部による積層オートエンコーダを説明する図である。 図7は、学習対象として単純化したニューラルネットワークの一例を説明する図である。 図8は、学習部による学習処理のフローチャートである。
以下の例示的な実施形態や変形例には、同様の構成要素が含まれている。よって、以下では、同様の構成要素には共通の符号が付されるとともに、重複する説明が部分的に省略される。実施形態や変形例に含まれる部分は、他の実施形態や変形例の対応する部分と置き換えて構成されることができる。また、実施形態や変形例に含まれる部分の構成や位置等は、特に言及しない限りは、他の実施形態や変形例と同様である。
<実施形態>
図1は、実施形態に係る情報処理装置10のハードウェア構成図である。情報処理装置10は、例えばパーソナルコンピュータ等であってよいが、限定されるものではない。
図1に示すように、情報処理装置10は、学習装置の一例であって、CPU(Central Processing Unit)11と、HDD(Hard Disk Drive)12と、RAM(Random Access Memory)13と、ROM(Read Only Memory)14と、入力装置15と、表示装置16と、外部I/F17と、被写体を撮像する撮像装置18と、バス19とを備える。CPU11、HDD12、RAM13、ROM14、入力装置15、表示装置16、外部I/F17、及び、撮像装置18は、バス19で互いに接続されている。
CPU11は、ROM14及びHDD12等の記憶装置からプログラム及びデータ等をRAM13上に読み出し、プログラムの処理を実行することで、情報処理装置10全体の制御及び機能等を実現する演算装置である。
HDD12は、プログラム及びデータ等を格納している不揮発性の記憶装置である。格納されるプログラム及びデータ等には、例えば、本実施形態を実現するためのプログラム、情報処理装置10全体を制御する基本ソフトウェアであるOS(Operating System)、OS上において各種機能を提供するアプリケーションソフトウェア等がある。HDD12は格納しているプログラム及びデータ等を所定のファイルシステム及びDB(データベース)等により管理している。なお、情報処理装置10は、HDD12の代わりに又はHDD12と併せて、SSD(Solid State Drive)等を備えていてもよい。
RAM13は、プログラム及びデータ等を一時保持する揮発性の半導体メモリ(記憶装置)である。ROM14は、電源を切ってもプログラム及びデータ等を保持することができる不揮発性の半導体メモリ(記憶装置)である。
入力装置15は、ユーザが各種操作信号を入力するのに用いられる装置である。入力装置15は、例えば、各種操作ボタン、タッチパネル、キーボード、マウス等である。
表示装置16は、情報処理装置10による処理結果を表示する装置である。表示装置16は、例えば、ディスプレイ等である。
外部I/F17は、外部装置とのインターフェースである。外部装置の一例は、USB(Universal Serial Bus)メモリ、SDカード、CD、DVD等である。
図2は、機械学習アルゴリズムの概要を説明する図である。
図2に示すように、情報処理装置10は、機械学習アルゴリズムの学習時において、入力データと、入力データに対応する正解データである教師データを取得する。情報処理装置10は、入力データと教師データとを用いて、ニューラルネットワークが入力データから出力データを演算する際に使用する係数を機械学習アルゴリズムに学習させて、係数を最適化する。機械学習アルゴリズムは、予測時には学習が終わって最適化された係数を用いて、入力データの識別を行い、予測結果を出力データとして出力する。実施形態による情報処理装置10は、これらの処理のうち、係数の学習時の機械学習、特に多層ニューラルネットワークのパラメータの最適化に関する。
図3は、実施形態に係る情報処理装置10の機能ブロック図である。
図3に示すように、情報処理装置10は、ニューラルネットワーク20と、学習部22とを備える。尚、ニューラルネットワーク20は、他の情報処理装置等に設けてもよい。学習部22は、学習実行部24と、判定部26と、変更部28と、記憶部30とを備える。情報処理装置10は、CPU11が、HDD12、ROM14及び外部の記憶装置等に記憶されたプログラムを読み込むことによって、ニューラルネットワーク20及び学習部22として機能する。本実施形態の情報処理装置10で実行されるプログラムは、上述したニューラルネットワーク20及び学習部22を含むモジュール構成となっており、実際のハードウェアとしてはCPU11が主記憶装置として機能するHDD12及びROM14等からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、ニューラルネットワーク20及び学習部22が主記憶装置上に生成されるようになっている。
ニューラルネットワーク20の一例は、多層ニューラルネットワークである。図4は、多層ニューラルネットワークを説明する図である。
図4に示すように、ニューラルネットワーク20の一例である多層ニューラルネットワークは、複数の層にニューロンNRが配置されたフィードフォワード型ニューラルネットワークである。尚、多層ニューラルネットワークは、多層パーセプトロンと呼ばれる場合もある。例えば、多層ニューラルネットワークは、各層のニューロンNRが異なる層の1または複数のニューロンNRと接続された多層構造を有する。
学習実行部24は、多層ニューラルネットワークのパラメータを正則化によって学習する。
具体的には、学習実行部24は、多層ニューラルネットワークに使用される係数(例えば、層間の重み係数)を、積層オートエンコーダを用いたバックプロパゲーション(いわゆる、誤差逆伝播法)によって、学習(即ち、最適化)させる。
図5は、学習実行部24の学習におけるオートエンコーダを説明する図である。
図5に示すように、ニューラルネットワーク20を用いた次元削減(または、次元圧縮)の方法として、オートエンコーダ(Auto Encoder)が知られている。オートエンコーダは、中間層のニューロン数を入力層の次元数よりも少なくすることによって、より少ない次元数で入力データを再現するように次元削減を行うことができる。
図6は、学習実行部24による積層オートエンコーダを説明する図である(出典:http://haohanw.blogspot.jp/2014/12/ml-my-journal-from-neural-network-to_22.html#!/2014/12/ml-my-journal-from-neural-network-to_22.html)。
図6に示すように、ニューラルネットワーク20は多層にすることで、表現能力が上がり、識別器としての性能を上げること、及び、次元削減できることが知られている。そのため、次元削減を行う場合に、一層で所望の次元数まで減らすのではなく、何層かに分けて次元数を減らすことで、次元削減器としての性能を上げることができる。オートエンコーダが積み重ねられた次元削減器による積層オートエンコーダ(Stacked Autoencoder)という方法が知られている。特に、積層オートエンコーダ(Stacked Autoencoder)は、上述のオートエンコーダによって一層ずつ学習した後、学習した層を組み合わせてFine-trainingと呼ばれる学習を行って多層にする。積層オートエンコーダは、効率良く次元削減することができ、次元削減器としての性能を向上させる。
次に、ニューラルネットワーク20の一例である畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)について説明する。
畳み込みニューラルネットワークは、画像系の深い層のニューラルネットワーク20でよく使われる手法である。学習は通常のバックプロパゲーションで行われるが、構造として重要な点は以下の畳み込み(Convolution)及びプーリング(Pooling)の二点である。
畳み込みは、層と層との間を全て接続するのではなく、画像上で位置的に近いところのみを接続する。また、畳み込みの係数は画像上の位置によらない。畳み込みニューラルネットワークは、定性的には、畳み込み(Convolution)により特徴抽出を行う。また、畳み込みニューラルネットワークは、接続を制限して過学習を防ぐ効果を持つ。
プーリングは、次の層につなげるときに、位置的な情報を削減する。定性的には位置不変性を得る。プーリングには最大値をとるmaxpooling、及び、平均値を取る平均プーリングなどがある。
次に、ニューラルネットワーク20の学習方法の一例であるバックプロパゲーションについて説明する。
ニューラルネットワーク20の学習にはバックプロパゲーション(誤差逆伝搬法とも言う)を用いる。バックプロパゲーションでは、ニューラルネットワーク20の出力データと教師データを比較し、それを元に各出力ニューロンNRの誤差を計算する。出力ニューロンNRの誤差はそのニューロンNRに接続された前段のニューロンNRに原因があると考え、誤差が少なくなるようにニューロンNRの接続の重み係数を更新する。また、前段のニューロンNRについて、期待されている出力データと実際の出力データとの差を計算する。これを局所誤差と言う。この局所誤差はさらに前段のニューロンNRに原因があると考え、もう一段前段のニューロンNRの接続の重み係数を更新する。こうして次々と前段のニューロンNRに遡って重み係数の更新を行い、最終的にすべてのニューロンNRの接続の重みパラメータを更新していく。これがバックプロパゲーションの概要である。
図7は、学習対象として単純化したニューラルネットワークの一例を説明する図である。図7に示す入力層、中間層及び出力層を有するニューラルネットワークの、学習実行部24による学習について説明する。
各層における構成素子は2個としている。各記号の定義は、以下の通りである。
:入力層の素子iへの入力データ
ij (1):入力層の素子iから中間層の素子jにおける重み係数
jk (2):中間層の素子jから出力層の素子kにおける重み係数
:中間層の素子jへの入力
:出力層の素子kへの入力
:中間層の素子jからの出力
f(u):中間層の素子jからの出力関数
g(v):出力層の素子kからの出力関数
:出力層の素子kからの出力データ
:出力層の素子kからの教師データ
コスト関数Eを出力データと教師データとの二乗誤差とする。この場合、学習実行部24は、コスト関数Eを次の式(1)によって算出する。
Figure 2017097585
出力データoは次の式(2)、式(3)を満たす。
Figure 2017097585
Figure 2017097585
学習実行部24が、確率的勾配降下法(Stochastic Gradient Descent:SGD)によって最適な重み係数wjk (2)及び重み係数wij (1)を算出して学習する場合について説明する。重み係数wjk (2)及び重み係数wij (1)の更新式は、次の式(4)及び式(5)となる。重み係数wjk (2)’及び重み係数wij (1)’は、更新後の重み係数である。αは、学習率である。
Figure 2017097585
Figure 2017097585
中間層と出力層との間の重み係数wjk (2)は、次の式(6)の関係を満たす。
Figure 2017097585
ここで、次の式(7)が成立する場合、式(6)に式(7)を代入すると、式(6)は式(8)になる。
Figure 2017097585
Figure 2017097585
尚、εは、出力層の素子kにおける誤差信号を意味する。
また、入力層と中間層との間の重み係数wij (1)は、次の式(9)の関係を満たす。
Figure 2017097585
ここで、中間層の素子jの誤差信号εを次の式(10)で定義する。
Figure 2017097585
この場合、式(9)に式(10)を代入すると、式(9)は式(11)となる。
Figure 2017097585
ここで、中間層の素子数がK個の場合、式(10)を一般化した式(12)によって、誤差信号εを定義する。
Figure 2017097585
更に、中間層の素子数がK個の場合、重み係数wjk (2)及び重み係数wij (1)の更新式は、次の式(13)及び式(14)となる。学習実行部24は、式(13)及び式(14)のそれぞれに式(7)及び式(12)を代入した更新式によって、重み係数wjk (2)及び重み係数wij (1)を算出する。更に、学習実行部24は、中間層が増えた場合、同様に1段前の誤差信号εを使用した更新式によって、重み係数wjk (2)及び重み係数wij (1)を算出する。
Figure 2017097585
Figure 2017097585
ここまで学習データである入力データが2個である場合の学習実行部24による重み係数wjk (2)及び重み係数wij (1)の算出を説明した。次に、学習実行部24が、複数(例えば、3個以上)の入力データを使用して、重み係数wjk (2)及び重み係数wij (1)を算出して学習する場合について説明する。入力データの数をN個として、n番目の入力データx とし、n番目のデータに関する各素子の誤差信号ε 、ε とする。学習実行部24は、勾配降下法によって最適化する場合、次の式(15)及び式(16)の更新式から重み係数wjk (2)及び重み係数wij (1)を更新して算出する。
Figure 2017097585
Figure 2017097585
式(15)及び式(16)におけるαは学習率である。学習率αの値が大きい場合、更新式は発散するので、入力データ及びニューラルネットワークの構造に応じて、学習率αは、適切な値に予め設定される。尚、更新式の発散を防止するために、学習率αを小さくした場合、学習に時間がかかる。従って、学習率αは、発散しない範囲で最大に設定されることが好ましい。
学習実行部24は、単位ステップtの学習時の更新量Δwij (1)’(t)を、次の式(17)によって算出する。
Figure 2017097585
ここで、経験的に重み係数wjk (2)及び重み係数wij (1)の収束に過去の方向を加味するように、Momentumの項を追加すると学習を高速化できることが知られている。従って、学習実行部24は、Momentumの項を追加した更新式である式(18)によって、更新量Δwij (1)’(t)を算出することが好ましい。
Figure 2017097585
式(18)において、Δwij (1)’(t−1)は、一つ前のステップの更新量であり、εはMomentumの係数である。Momentumの係数は、ε=0.9程度に予め設定することが好ましい。
次に、正則化項について説明する。
本実施形態の学習実行部24は、コスト関数Eに重み係数wjk (2)及び重み係数wij (1)のノルムを加えたL2ノルム正則化によるコスト関数Eregによって、重み係数wjk (2)及び重み係数wij (1)を算出する。これにより、学習実行部24は、過学習による重み係数wjk (2)及び重み係数wij (1)の発散を抑制する。
具体的には、学習実行部24は、L2ノルム正則化による次の式(19)に示すように、上述のコスト関数Eに重み係数wjk (2)及び重み係数wij (1)のL2ノルムを追加したEregをコスト関数として使用する。ここでλは正則化の大きさを制御するパラメータ(以下、正則化係数)であり、大きいほど正則化の効果が大きくなる。尚、L2ノルム正則化は、Weight Decayと呼ばれる場合もある。
Figure 2017097585
判定部26は、学習実行部24による重み係数wjk (2)及び重み係数wij (1)の学習の進行を判定する。例えば、判定部26は、学習実行部24によって更新された重み係数wjk (2)及び重み係数wij (1)による出力データの正答率と、予め定められて記憶部30に記憶された判定用閾値とを比較して学習の進行を判定する。判定部26は、当該正答率が判定用閾値以上の場合、学習が進行していると判定する。判定部26は、判定結果を変更部28へ出力する。
変更部28は、学習実行部24による重み係数wjk (2)及び重み係数wij (1)の学習の進行に応じて、正則化の効果を減少させる。例えば、学習実行部24による学習が進行している場合、変更部28は、進行している旨を判定部26から取得して、正則化の効果を減少させる。変更部28は、例えば、L2ノルム正則化における正則化係数λを小さくすることによって、正則化の効果を減少させる。
記憶部30は、ニューラルネットワーク20の予測及び学習に必要なプログラム及びデータを記憶する。例えば、記憶部30は、正則化係数λの初期値、学習の進行を判定するための判定用閾値等を記憶する。記憶部30は、例えば、HDD12、RAM13、及び、ROM14のいずれかによって実現される。尚、ニューラルネットワーク20の予測及び学習に必要なプログラム及びデータは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供されてもよい。ニューラルネットワーク20の予測及び学習に必要なプログラム及びデータは、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、ニューラルネットワーク20の予測及び学習に必要なプログラム及びデータをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
図8は、学習部22による学習処理のフローチャートである。
学習処理では、まず、学習実行部24が、入力データ及び教師データを使用したニューラルネットワーク20による学習を開始する(S100)。
判定部26は、学習実行部24による学習によって重み係数wjk (2)及び重み係数wij (1)が更新されたニューラルネットワーク20による正答率を算出する(S110)。判定部26は、学習実行部24による予め定められた重み係数wjk (2)及び重み係数wij (1)の更新回数ごとにステップS110を実行してもよい。
判定部26は、正答率と判定用閾値とを比較して、学習が進行しているか否かを判定する(S120)。判定部26は、正答率が判定用閾値未満の場合、学習が進行していないと判定して(S120:No)、ステップS110以降を繰り返す。一方、判定部26は、正答率が判定用閾値以上の場合、学習が進行していると判定して(S120:Yes)、進行している旨を変更部28へ出力する。
変更部28は、学習が進行している旨を判定部26から取得すると、正則化係数λの値を小さくして、正則化の効果を減少させる(S130)。
この後、学習実行部24は、正則化の効果を減少させるために小さくなった正則化係数λによって学習を継続する。学習実行部24は、予め定められた設定まで学習が進行すると、学習を終了する(S140)。これにより、学習部22は、学習処理を終了する。
次に、本実施形態の効果について説明する。
ここで、従来の最適化において、正則化を用いない場合、重み係数wjk (2)及び重み係数wij (1)の発散、及び、最終的に精度が出ない局所解への重み係数wjk (2)及び重み係数wij (1)の収束等が生じる。従って、重み係数wjk (2)及び重み係数wij (1)の最適化において、正則化は必要である。しかしながら、従来の最適化における正則化の方法は、最初から最後まで正則化の効果が一定となるように正則化係数λを変更せずに学習する。このような従来の技術では、学習が進み、重み係数wjk (2)及び重み係数wij (1)が最終的な解に近づいてきた後には、正則化は細かい重み係数wjk (2)及び重み係数wij (1)の修正にとって阻害する効果が大きくなるので、最終的に最適な重み係数wを得ることができない。
一方、上述したように実施形態による情報処理装置10の学習部22は、判定部26が学習実行部24による学習が進行したと判定すると、変更部28がL2ノルム正則化(即ち、Weight Decay)の正則化係数λを小さくして、正則化の効果を減少させる。これにより、学習部22は、重み係数wjk (2)及び重み係数wij (1)が最終的な解に近づいた最終段階では、重み係数wjk (2)及び重み係数wij (1)の最適化において正則化による阻害を低減しつつ、より精度の高い重み係数wjk (2)及び重み係数wij (1)の学習を可能とする。
また、従来の畳み込みニューラルネットワークでは、非常に大量の画像データを入力して学習を行う場合が多く、学習に非常に時間がかかる。一方、本実施形態の学習部22は、学習の進行によって、正則化の効果を減少させるので、従来の畳み込みニューラルネットワークと比較して、短時間で学習を終わらせることができる。また、学習部22は、従来の畳み込みニューラルネットワークと比較して、より深い構造のニューラルネットワーク20で学習を行っても時間的に問題ないため、同じ学習時間で、学習の精度を向上させることができる。
また、従来の積層オートエンコーダは、単層ごとの学習が必要である上、Fine-trainingでは深い階層のニューラルネットワーク20を入力して学習を行う場合が多く、学習に非常に時間がかかる。一方、本実施形態の学習部22は、学習の進行によって、正則化の効果を減少させるので、従来の積層オートエンコーダより、短時間で学習を終わらせることができる。また、本実施形態の学習部22は、従来の積層オートエンコーダと比較して、より深い層構造のニューラルネットワーク20で学習を行っても時間的に問題がないため、同じ学習時間において精度を向上させることができる。
次に、上述の実施形態の効果を実証するために行ったシミュレーションについて説明する。シミュレーションでは、次の論文に記載のモデルのニューラルネットワーク構成を使用した。
“Very deep convolutional networks for large-scale image recognition”
K Simonyan, A Zisserman - arXiv preprint arXiv:1409.1556, 2014 - arxiv.org (2015)
このシミュレーションでは、入力データが約120万枚の画像データの場合、入力された画像データを1000クラスに分類する課題に対して、16層の畳み込みニューラルネットワークを用いて学習をさせた。
ここで、初期値としてWeight Decayにおける正則化係数をλ=0.005と設定して、学習部22が学習した場合、当該正則化係数における最終的な正答率は69.6781%となった。その後、当該正答率に基づいて学習が進行したとして、Weight Decayの正則化係数をλ=0として正則化の効果を減少させて、上述の正答率の重み係数wjk (2)及び重み係数wij (1)を元にして、学習を続けた。学習部22による学習を続けた結果、正答率は71.4125%となった。これにより、本実施形態の学習部22は、学習が進むと、正則化の効果を0として、学習を続けることにより、高い正答率を得られることがわかる。尚、学習の開始からWeight Decayの係数をλ=0とした場合、学習は適切に進めることができず、重み係数wjk (2)及び重み係数wij (1)は発散する。即ち、学習が進むに連れて、正則化のスケジューリングを実行する本実施形態の学習部22は、重み係数wjk (2)及び重み係数wij (1)の発散を抑制しつつ、学習を適切に進めることができる。
次に、上述した実施形態を部分的に変更した変形例について説明する。
(変形例1)
学習部22は、正則化の手法としてL1ノルム正則化を採用してもよい。L1ノルム正則化は、次の式(20)に示すように、コスト関数Eに重み係数wのL1ノルムを追加したEregをコスト関数として使用する方法である。ここでλは正則化の大きさを制御するパラメータ(以下、正則化係数)であり、大きいほど正則化の効果が大きくなる。従って、学習部22の変更部28は、重み係数wjk (2)及び重み係数wij (1)の学習が進行すると、正則化係数λを小さくして、正則化の効果を減少させる。
Figure 2017097585
(変形例2)
学習部22は、SGD(Stochastic Gradient Descent:確率的勾配降下法)を採用してもよい。
通常の勾配降下法では、入力データの全サンプルを評価して、全データ点のコスト関数の和を最終的なコスト関数として重み係数wjk (2)及び重み係数wij (1)を更新して最適化を行う。従って、通常の勾配降下法は、一回の重み係数wjk (2)及び重み係数wij (1)の更新に非常に時間がかかる。
一方、SGDは、上述した通常の勾配降下法を簡易化したものであり、オンライン学習に向いているとされる手法である。SGDは、ランダムにデータ点を1つピックアップして、ピックアップしたデータ点のコスト関数に対応する勾配で重み係数wjk (2)及び重み係数wij (1)を更新する。SGDは、重み係数wjk (2)及び重み係数wij (1)を更新した後、再び、別のデータ点をピックアップして、重み係数wjk (2)及び重み係数wij (1)の更新を繰り返す。このように学習部22は、SGDを採用することにより、通常の勾配降下法では非常に時間のかかる重み係数wjk (2)及び重み係数wij (1)の更新時間を短縮できる。
また、学習部22は、SGDと通常の勾配降下法との間の方法であるミニバッチ法を採用してもよい。ミニバッチ法は、多層ニューラルネットワークの学習において、よく使用される。ミニバッチ法は、全データを複数個のデータ群に分け、各データ群をミニバッチと呼び、当該ミニバッチごとに重み係数wjk (2)及び重み係数wij (1)を最適化する。これによっても学習部22は、重み係数wjk (2)及び重み係数wij (1)の更新時間を短縮できる。
(変形例3)
学習部22は、DROPOUTを学習方法として採用してもよい。
DROPOUTは、ニューラルネットワーク20において、各訓練データに対して、中間素子をランダムに無効化しながら、学習を進める方法である。DROPOUTは、正則化の効果を持ち、汎化性能を上げることができる方法である。この場合、変更部28は、学習が進行すると、DROPOUTにおいて中間素子を無効化する率である無効化率を下げて、正則化の効果を減少させる。これにより、学習部22は、学習時間を短縮しつつ、精度の高い重み係数wjk (2)及び重み係数wij (1)の学習を可能とする。
(変形例4)
学習部22は、DROPCONNECTを学習方法として採用してもよい。
DROPCONNECTは、DROPOUTが中間素子をランダムに無効化にするのに対して、素子間の接続をランダムに無効化する方法である。本実施形態では、DROPCONNECTにおける無効化率を学習が進むにつれて下げる。この場合、変更部28は、学習が進行すると、DROPCONNECTにおいて素子間の接続を無効化する率である無効化率を下げて、正則化の効果を減少させる。これにより、学習部22は、学習時間を短縮しつつ、精度の高い重み係数wjk (2)及び重み係数wij (1)の学習を可能とする。
(変形例5)
判定部26は、学習の進行の判定材料として、コスト関数E(またはコスト関数Ereg)を採用してもよい。例えば、判定部26は、コスト関数Eの変化率が予め定められた変化率用閾値未満となった場合、学習が進行したと判定してもよい。コスト関数Eの変化率が予め定められた変化率用閾値未満となった場合には、コスト関数Eが一定値になった場合を含む。この場合、変更部28は、コスト関数Eの変化率が予め定められた変化率用閾値未満となった場合に、正則化の効果を減少させることになる。
(変形例6)
学習部22は、学習の対象のニューラルネットワーク20として、リカレントニューラルネットワーク(Recurrent Neural Network: RNN)を採用してもよい。
リカレントニューラルネットワークは、隠れ層の出力内容を、次の時刻の入力として使うニューラルネットの構造である。
リカレントニューラルネットワークでは、出力を入力として戻すため、学習率を大きくすると容易に重み係数wが発散してしまう。そのため、リカレントニューラルネットワークは、学習率を小さくして時間をかけて学習を行う必要がある。しかし、学習部22は、学習が進行すると、正則化の効果を減少させるので、短時間で学習を終わらせることができる。また学習部22は、従来のリカレントニューラルネットワークと比較して、より深い構造のニューラルネットワーク20で学習を行っても時間を短縮できるので、同じ時間における学習の精度を向上させることができる。
(変形例7)
変更部28は、学習が進むに連れて、正則化の効果を小さくするとともに、学習率αを小さくしてもよい。
10…情報処理装置、20…ニューラルネットワーク、22…学習部、24…学習実行部、26…判定部、28…変更部、30…記憶部、w…係数、E…コスト関数、ε…誤差信号、λ…正則化係数
特開平8−202674号公報

Claims (11)

  1. 多層ニューラルネットワークの係数を正則化によって学習する学習実行部と、
    前記学習が進行しているか否かを判定する判定部と、
    前記学習が進行している場合、正則化の効果を減少させる変更部と、
    を備える学習装置。
  2. 前記変更部は、前記学習が進行している場合、前記学習の学習率を減少させるとともに、前記正則化の効果を減少させる
    請求項1に記載の学習装置。
  3. 前記変更部は、前記正則化に用いられる正則化項の係数である正則化係数を減少させることによって、前記正則化の効果を減少させる
    請求項1に記載の学習装置。
  4. 前記変更部は、DROPOUTの割合を減少させることによって、前記正則化の効果を減少させる
    請求項1に記載の学習装置。
  5. 前記変更部は、DROPCONNECTの割合を減少させることによって、前記正則化の効果を減少させる
    請求項1に記載の学習装置。
  6. 前記多層ニューラルネットワークは、Convolutionalニューラルネットワークである
    請求項1から5のいずれか1項に記載の学習装置。
  7. 前記多層ニューラルネットワークは、積層オートエンコーダ(Stacked Autoencoder)である
    請求項1から5のいずれか1項に記載の学習装置。
  8. 前記多層ニューラルネットワークは、リカレントニューラルネットワーク(Recurrent Neural Network)である
    請求項1から5のいずれか1項に記載の学習装置。
  9. 前記学習実行部は、確率的勾配降下法によって、前記係数を学習する
    請求項1から8のいずれか1項に記載の学習装置。
  10. 多層ニューラルネットワークの係数を正則化によって学習する学習実行機能と、
    前記学習が進行しているか否かを判定する判定機能と、
    前記学習が進行している場合、正則化の効果を減少させる変更機能と、
    をコンピュータに機能させるプログラム。
  11. 学習装置で実行される学習方法であって、
    多層ニューラルネットワークの係数を正則化によって学習する学習実行段階と、
    前記学習が進行しているか否かを判定する判定段階と、
    前記学習が進行している場合、正則化の効果を減少させる変更段階と、
    を備える学習方法。
JP2015228433A 2015-11-24 2015-11-24 学習装置、プログラム及び学習方法 Pending JP2017097585A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015228433A JP2017097585A (ja) 2015-11-24 2015-11-24 学習装置、プログラム及び学習方法
US15/348,165 US20170147921A1 (en) 2015-11-24 2016-11-10 Learning apparatus, recording medium, and learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015228433A JP2017097585A (ja) 2015-11-24 2015-11-24 学習装置、プログラム及び学習方法

Publications (1)

Publication Number Publication Date
JP2017097585A true JP2017097585A (ja) 2017-06-01

Family

ID=58720888

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015228433A Pending JP2017097585A (ja) 2015-11-24 2015-11-24 学習装置、プログラム及び学習方法

Country Status (2)

Country Link
US (1) US20170147921A1 (ja)
JP (1) JP2017097585A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159956A (ja) * 2018-03-14 2019-09-19 オムロン株式会社 ニューラルネットワーク型画像処理装置
EP3742353A1 (en) 2019-05-21 2020-11-25 Fujitsu Limited Information processing apparatus, information processing program, and information processing method
EP3767552A1 (en) 2019-07-11 2021-01-20 Fujitsu Limited Machine learning method, program, and machine learning device
JP2021512676A (ja) * 2018-02-09 2021-05-20 ソシエテ・デ・プロデュイ・ネスレ・エス・アー カプセルを認識する飲料調製マシン

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018231187A1 (en) * 2017-06-12 2018-12-20 Google Llc Context aware chat history assistance using machine-learned models
WO2019048390A1 (en) 2017-09-07 2019-03-14 Koninklijke Philips N.V. MULTI-PART CALCULATION SYSTEM FOR LEARNING A CLASSIFIER
GB2568230B (en) * 2017-10-20 2020-06-03 Graphcore Ltd Processing in neural networks
WO2019142242A1 (ja) * 2018-01-16 2019-07-25 オリンパス株式会社 データ処理システムおよびデータ処理方法
CN108307049B (zh) * 2018-01-17 2020-07-03 Oppo广东移动通信有限公司 电子装置的跌落模型更新方法及相关产品
KR20190099927A (ko) 2018-02-20 2019-08-28 삼성전자주식회사 심층 신경망의 학습을 수행시키는 방법 및 그에 대한 장치
CN112149708A (zh) * 2019-06-28 2020-12-29 富泰华工业(深圳)有限公司 数据模型选择优化方法、装置、计算机装置及存储介质
JP7363145B2 (ja) 2019-07-12 2023-10-18 株式会社リコー 学習装置および学習方法
US10984507B2 (en) 2019-07-17 2021-04-20 Harris Geospatial Solutions, Inc. Image processing system including training model based upon iterative blurring of geospatial images and related methods
US11068748B2 (en) 2019-07-17 2021-07-20 Harris Geospatial Solutions, Inc. Image processing system including training model based upon iteratively biased loss function and related methods
US11417087B2 (en) 2019-07-17 2022-08-16 Harris Geospatial Solutions, Inc. Image processing system including iteratively biased training model probability distribution function and related methods
CN113361700A (zh) * 2020-03-04 2021-09-07 佳能株式会社 生成量化神经网络的方法、装置、系统、存储介质及应用
US11694585B2 (en) 2020-12-28 2023-07-04 Ricoh Company, Ltd. Display apparatus, display system, display control method, and non-transitory recording medium

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021512676A (ja) * 2018-02-09 2021-05-20 ソシエテ・デ・プロデュイ・ネスレ・エス・アー カプセルを認識する飲料調製マシン
JP7486425B2 (ja) 2018-02-09 2024-05-17 ソシエテ・デ・プロデュイ・ネスレ・エス・アー カプセルを認識する飲料調製マシン
JP2019159956A (ja) * 2018-03-14 2019-09-19 オムロン株式会社 ニューラルネットワーク型画像処理装置
WO2019176479A1 (ja) * 2018-03-14 2019-09-19 オムロン株式会社 ニューラルネットワーク型画像処理装置
US11361424B2 (en) 2018-03-14 2022-06-14 Omron Corporation Neural network-type image processing device, appearance inspection apparatus and appearance inspection method
EP3742353A1 (en) 2019-05-21 2020-11-25 Fujitsu Limited Information processing apparatus, information processing program, and information processing method
US11941505B2 (en) 2019-05-21 2024-03-26 Fujitsu Limited Information processing apparatus of controlling training of neural network, non-transitory computer-readable storage medium for storing information processing program of controlling training of neural network, and information processing method of controlling training of neural network
EP3767552A1 (en) 2019-07-11 2021-01-20 Fujitsu Limited Machine learning method, program, and machine learning device

Also Published As

Publication number Publication date
US20170147921A1 (en) 2017-05-25

Similar Documents

Publication Publication Date Title
JP2017097585A (ja) 学習装置、プログラム及び学習方法
JP6620439B2 (ja) 学習方法、プログラム及び学習装置
EP3711000B1 (en) Regularized neural network architecture search
JP6579198B2 (ja) リスク評価方法、リスク評価プログラム及び情報処理装置
US11449734B2 (en) Neural network reduction device, neural network reduction method, and storage medium
WO2019102984A1 (ja) 学習装置及び学習方法、識別装置及び識別方法、プログラム並びに記録媒体
CN111508000B (zh) 基于参数空间噪声网络的深度强化学习目标跟踪方法
JP2022007168A (ja) 学習プログラム、学習方法および情報処理装置
JP2021086371A (ja) 学習プログラム、学習方法および学習装置
US20210397948A1 (en) Learning method and information processing apparatus
JPWO2021038793A1 (ja) 学習システム、学習方法、及びプログラム
KR102327045B1 (ko) 강화학습 기반의 분류기 학습 장치 및 방법
JP7279225B2 (ja) 破滅的忘却の発生を抑えつつ、転移学習を行う方法、情報処理装置及びプログラム
CN112215363A (zh) 用于为机器人创建策略的方法、设备和计算机程序
CN114049539B (zh) 基于去相关二值网络的协同目标识别方法、系统及装置
JP6545740B2 (ja) 生成装置、プログラム、認識システムおよび生成方法
US11743396B2 (en) Electronic album generating apparatus, electronic album generating method, and non-transitory computer-readable storage medium
JP7438544B2 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
JP7050028B2 (ja) 計算機システム及び機械学習の制御方法
KR102188115B1 (ko) 생성적 적대 신경망을 기초로 암의 예후 예측에 사용되는 바이오 마커의 선정이 가능한 전자 장치 및 그 동작 방법
JP2021081930A (ja) 学習装置、情報分類装置、及びプログラム
JP7436830B2 (ja) 学習プログラム、学習方法、および学習装置
KR102584770B1 (ko) 다중 인스턴스 학습에 기반한 유전성 질환 예측 및 질병 유발 유전변이 발굴 시스템 및 방법
US20230334315A1 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
US20230316731A1 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181009

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200602