JP2018018350A

JP2018018350A - 画像認識装置、画像認識プログラム、画像認識方法および認識装置

Info

Publication number: JP2018018350A
Application number: JP2016148965A
Authority: JP
Inventors: 晃一白幡; Koichi Shirahata
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2018-02-01
Anticipated expiration: 2036-07-28
Also published as: JP6708044B2; US10296804B2; US20180032835A1

Abstract

【課題】学習時における使用メモリ量を削減することができる画像認識装置、画像認識プログラム、画像認識方法および認識装置を提供する。
【解決手段】第１の全結合層（Fully-conn1）、第２の全結合層（Fully-conn2）は、認識処理でのニューロンデータサイズ（data）がパラメータサイズ（param）以下である。学習制御部は、ニューロンデータの誤差の勾配（gdata）をメモリに保存する。学習制御部は、パラメータの誤差の勾配（gparam）を計算して、認識処理のパラメータを保持するメモリ領域（param）にそれぞれ上書して保存する。
【選択図】図７

Description

本発明は、画像認識装置、画像認識プログラム、画像認識方法および認識装置に関する。

近年、多層構造のニューラルネットワークを用いた機械学習が注目されている。このような多層構造のニューラルネットワークを用いた機械学習は、ディープラーニング（深層学習）とも呼ばれる。ディープラーニングは、ニューラルネットワークの多階層化が進んでおり、多くの分野で有効性が確認されている。例えば、ディープラーニングは、画像・音声の認識において人間に匹敵するほど高い認識精度を発揮している。

特開２００８−３１０５２４号公報

ディープラーニングでは、教師あり学習を行うことにより、ニューラルネットワークに自動的に特徴を学習する。しかしながら、ディープラーニングは、ニューラルネットワークの多階層化により、使用メモリ量が大きくなっており、学習時に使用メモリ量がさらに増加する。例えば、教師あり学習で一般的に使用される誤差逆伝播法では、学習用のデータをニューラルネットワークに順伝播させて認識を行い、認識結果と正解と比較して誤差を求める。そして、誤差逆伝播法では、認識結果と正解との誤差を認識時と逆方向にニューラルネットワークに伝播させ、ニューラルネットワークの各階層のパラメータを変更する。このため、学習時には、使用メモリ量が増加する。例えば、学習には、誤差の勾配を保存するため、認識のみの場合の２倍超にデータ量が増加し、使用メモリ量が２倍超に増加する場合もある。

一つの側面では、学習時における使用メモリ量を削減することができる画像認識装置、画像認識プログラム、画像認識方法および認識装置を提供することを目的とする。

第１の案では、画像認識装置は、認識制御部と、メモリ量計算部と、学習制御部とを有する。認識制御部は、第１の認識処理と、第２の認識処理とを制御する。第１の認識処理では、入力した画像のニューロンデータとパラメータとに基づいてそれぞれ算出した畳み込み量を各第１のメモリ領域にそれぞれ保持する処理と、各第１のメモリ領域に保持した畳み込み量に対して間引き処理をそれぞれ行った間引き後の畳み込み量を各第２のメモリ領域にそれぞれ保持する処理とを第１の複数層において行う。第２の認識処理では、第２のメモリ領域に保持し記間引き後の畳み込み量の全てに対して第３のメモリ領域に保持した重みをそれぞれ積算した出力結果を各第４のメモリ領域にそれぞれ保持する処理を第２の複数層において行う。メモリ量計算部は、第１の複数層と第２の複数層とに含まれる各層について、各ニューロンデータのサイズであるニューロンデータサイズと、各パラメータのサイズであるパラメータサイズとをそれぞれ計算する。学習制御部は、第２の複数層における第１の学習処理と、第１の複数層間における第２の学習処理とを制御する。第１の学習処理では、第２の複数層にいて、第４のメモリ領域に保持した出力結果に基づき計算した出力結果の誤差の勾配を第５のメモリ領域に保持する。また、第１の学習処理では、メモリ量計算部が計算した第２の複数層に含まれる各層のニューロンデータサイズとパラメータサイズと大小関係に基づき、第５のメモリ領域に保持した出力結果の誤差の勾配又は第２の複数層における前層の第６のメモリ領域に保持した誤差の勾配に基づいて計算した第２の複数層における次層への誤差の勾配を各第６のメモリ領域に保持する。また、第１の学習処理では、第２の複数層における次層へのパラメータの誤差の勾配を各第３のメモリ領域にそれぞれ保持する。第２の学習処理では、メモリ量計算部が計算した第１の複数層に含まれる各層のニューロンデータサイズとパラメータサイズとの大小関係に基づき、第２の複数層の最終層の第６のメモリ領域又は第１の複数層における前層の第７のメモリ領域に保持した誤差の勾配に基づいて計算した次層へのパラメータの誤差の勾配を各第７のメモリ領域に保持する。また、第２の学習処理では、第１の複数層における次層への誤差の勾配を各第２のメモリ領域にそれぞれ保持する。

本発明の一の実施態様によれば、学習時における使用メモリ量を削減することができるという効果を奏する。

図１は、ディープラーニングの処理の流れの一例を模式的に示した図である。図２Ａは、畳み込み演算の一例を模式的に示した図である。図２Ｂは、ＲｅＬＵの一例を模式的に示した図である。図２Ｃは、間引きの一例を模式的に示した図である。図２Ｄは、全結合の一例を模式的に示した図である。図３は、従来のニューラルネットワークの計算の流れの一例を示す図である。図４は、ＬｅＮｅｔの処理の流れの一例を模式的に示した図である。図５は、従来の使用メモリ量の一例を示す図である。図６は、認識装置の機能的な構成を概略的に示した図である。図７は、本実施例のニューラルネットワークの計算の流れの一例を示す図である。図８は、本実施例に係る認識装置による使用メモリ量の一例を示す図である。図９は、効果の一例を説明する図である。図１０Ａは、画像認識処理の手順の一例を示すフローチャートである。図１０Ｂは、画像認識処理の手順の一例を示すフローチャートである。図１１は、従来のモーメンタム法を用いたニューラルネットワークの計算の流れの一例を示す図である。図１２は、従来の使用メモリ量の一例を示す図である。図１３は、本実施例のモーメンタム法を用いたニューラルネットワークの計算の流れの一例を示す図である。図１４は、本実施例に係る認識装置による使用メモリ量の一例を示す図である。図１５は、画像認識プログラムを実行するコンピュータの構成の一例を示す図である。

以下に、本発明にかかる画像認識装置、画像認識プログラム、画像認識方法および認識装置の実施例を図面に基づいて詳細に説明する。なお、本実施例により、開示技術が限定されるものではない。また、以下に示す実施例は、矛盾を起こさない範囲で適宜組み合わせてもよい。

［従来のディープラーニングの説明］
最初、従来のディープラーニングについて説明する。図１は、ディープラーニングの処理の流れの一例を模式的に示した図である。ディープラーニングでは、識別対象が写った大量の画像を学習用の画像として教師あり学習を行うことにより、画像に写った識別対象の特徴をニューラルネットワークに自動的に学習する。ディープラーニングでは、このように特徴を学習したニューラルネットワークを用いることで画像の写った識別対象を識別できる。脳には、多数のニューロン（神経細胞）が存在する。各ニューロンは、他のニューロンから信号を受け取り、他のニューロンへ信号を受け渡す。脳は、この信号の流れによって、様々な情報処理を行う。ニューラルネットワークは、このような脳の機能の特性を計算機上で実現したモデルである。ニューラルネットワークは、脳のニューロンを模したユニットを階層的に結合している。ユニットは、ノードとも呼ばれる。各ユニットは、他のユニットからデータを受け取り、他のユニットへデータを受け渡す。ニューラルネットワークは、ユニットのパラメータを学習によって変化させて受け渡すデータを変化させることで様々な識別対象を識別（認識）できる。以下では、ニューラルネットワークを伝送されるデータをニューロンデータと呼ぶ。図１には、ニューラルネットワークの一例として、画像の認識に用いられる畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）の一例が示されている。以下では、ニューラルネットワークとして、畳み込みニューラルネットワークにより画像の認識を行う場合を例に説明する。ニューラルネットワークは、階層構造とされており、畳み込み（convolution）層とプーリング（サブサンプリング）層と全結合（fully-connected）層とを有する。図１の例では、畳み込み層とプーリング層を交互に２回設けているが、さらに多く設けてもよい。また、全結合層は、複数設けられていてもよい。ニューラルネットワークの階層構造や各層の構成は、識別する対象などに応じて、設計者が予め定めている。

ニューラルネットワークでは、画像の識別を行う場合、図１に示すように、左から右へ畳み込み層とプーリング層とを交互に複数回繰り返すことで画像に写った識別対象の特徴を抽出し、最後に全結合層で画像に写った識別対象の識別（カテゴライズ）を行う。一方、ニューラルネットワークでは、画像の学習を行う場合、識別した結果と正解との誤差を求め、図１に示すように、右から左へニューラルネットワークに逆伝播させ、畳み込みニューラルネットワークの各階層のパラメータを変更する。

次に、各層の演算について説明する。畳み込み層では、入力したニューロンデータの畳み込み演算を行う。図２Ａは、畳み込み演算の一例を模式的に示した図である。図２Ａの例では、入力したＮ×Ｎpixelの画像の畳み込み演算をする場合を示している。畳み込み層では、Ｎ×Ｎpixelの画像の各画素の値をそれぞれニューロンデータとして、それぞれパラメータが設定されたｍ×ｍのサイズのフィルタと畳み込み（convolution)を計算することで、次層への出力用のニューロンデータを作成する。また、畳み込み層では、非線形活性化関数σに出力用のニューロンデータを通過させることで、発火（activation）をモデル化する。発火とは、ニューロンから出力される信号の値がある値を超えるときに出力される信号が他のニューロンに伝達される現象をいう。

例えば、畳み込み層では、以下の式（１）に示す畳み込み演算を行い、演算結果に対して、以下の式（２）に示す非線形活性化関数σの演算を行う。

ここで、ｙ^ｌ−１ _{（ｉ＋ａ）（ｊ＋ｂ）}は、入力となるニューロンデータであり、図２Ａに示すＮ×Ｎpixelの画像ｙ^ｌ−１の（ｉ＋ａ，ｊ＋ｂ）の画素のデータである。ｗ_ａｂは、図２Ａに示すｍ×ｍのフィルタｗの重みを表す各パラメータである。ｘ^ｌ _ｉｊは、畳み込み演算された（ｉ，ｊ）の画素のデータである。ｙ^ｌ _ｉｊは、ｘ^ｌ _ｉｊに非線形活性化関数σを適用し、所定のバイアスｂ^ｌを加えた結果としてユニットＵ^ｌｉの出力となり、さらに次の層の入力ともなるニューロンデータである。

非線形活性化関数σとしては、例えば、ＲｅＬＵ（ランプ関数）を用いることができる。図２Ｂは、ＲｅＬＵの一例を模式的に示した図である。図２Ｂの例では、入力Ｘがゼロ未満の場合、出力Ｙにはゼロが出力される。また、入力Ｘがゼロを超えた場合、出力Ｙには入力Ｘの値が出力される。

プーリング層では、入力したニューロンデータの間引きを行う。図２Ｃは、間引きの一例を模式的に示した図である。例えば、Ｎ×Ｎpixelの画像がニューロンデータとして入力する。プーリング層では、Ｎ×Ｎpixelのニューロンデータから、Ｎ／ｋ×Ｎ／ｋのニューロンデータに間引く。例えば、ｋ×ｋの領域ごとに、最大値を取り出すMax-Poolingにより、間引きを行う。間引きは、その他、何れの手法で行ってもよい。例えば、ｋ×ｋの領域の平均値を取り出すAverage-Poolingで、間引きを行ってもよい。また、プーリング層では、間引きを行うｋ×ｋの領域を一部重複させてもよく、重複させずに隣接させて間引きを行ってもよい。

例えば、プーリング層では、以下の式（３）に示すMax-Poolingを行う。

ここで、関数ｍａｘは、図２Ｃに示す（ｉ，ｊ）の画素からそれぞれｋ画素の範囲の領域内で最大値のニューロンデータを出力する関数である。ｙ^ｌ _ｉＪは、ユニットＵ^ｌｉの出力となるニューロンデータである。

全結合層では、識別を行う対象数に応じて、入力したニューロンデータを全結合した全結合の演算を行う。例えば、Ｎ×Ｎpixelの画像がニューロンデータとして入力する。全結合層では、Ｎ×Ｎpixelのニューロンデータ全てを、それぞれ重み（パラメータ）と掛け合わせることで、次層への出力用のニューロンデータを作成する。また、全結合層では、非線形活性化関数σに出力用のニューロンデータを通過させることで、発火をモデル化する。

図２Ｄは、全結合の一例を模式的に示した図である。図２Ｄの例は、識別を行う対象数をｉ個とした場合にｊ個のニューロンデータをそれぞれ全結合してｉ個のニューロンデータを得る場合の一例を示している。例えば、全結合層では、以下の式（４）に示す全結合の演算を行い、演算結果に対して以下の式（５）の演算を行う。

ここで、ｙ^ｌ−１ _Ｊは、ユニットＵ^ｌ−１の出力であり、ユニットＵ^ｌの入力なるニューロンデータである。ｗ^ｌ−１ _ｊｉは、ｙ^ｌ−１ _Ｊとｙ^ｌ _ｉに対応した重みを表すパラメータである。ｘ^ｌ _ｉは、重み付け演算されたデータである。ｙ^ｌ _ｉは、ｘ^ｌ _ｉに非線形活性化関数σを適用し、所定のバイアスｂ^ｌ _ｉを加えた結果のユニットＵ^ｌｉの出力となるニューロンデータである。

非線形活性化関数σとしては、例えば、ＲｅＬＵを用いることができる。

ニューラルネットワークによる演算結果のニューロンデータは、識別層に出力され、識別層で識別が行われる。例えば、図１に示した畳み込みニューラルネットワークによる演算結果のニューロンデータは、識別層に出力され、識別層で画像の識別が行われる。例えば、画像に写った識別対象が１０種類の何れであるかの識別を行う場合、全結合層では、演算結果として１０個のニューロンデータを出力する。識別層では、最も大きいニューロンデータに対応する画像の種類を識別結果とする。また、学習を行う場合、認識結果と正解と比較して誤差を求める。

ところで、ニューラルネットワークによる演算結果のニューロンデータは、実数となる。識別層では、結果の識別を行いやすいように演算結果のニューロンデータを正規化する。例えば、識別層では、Softmax関数などの活性化関数を用いて演算結果のニューロンデータを０〜１の範囲に正規化する。Softmax関数は、ロジスティック関数を一般化したものであり、任意の実数を持つｎ次元ベクトルｘを、（０，１）区間の実数で和が１になるようなｎ次元ベクトルσ（ｘ）に正規化する。例えば、識別層では、以下の式（６）に示すSoftmax関数の演算を行う。

これにより、ニューラルネットワークによる演算結果のｎ個のニューロンデータｘ_ｉは、それぞれの認識対象ｉである確率σ（ｘ）の確率分布に変換される。識別層では、確率分布が最も大きいニューロンデータに対応する画像の種類を識別結果とする。また、学習を行う場合、識別層では、認識結果と正解と比較して誤差を求める。例えば、識別層では、交差エントロピー誤差関数を利用して目的の確率分布(正解)との誤差を求める。例えば、識別層では、以下の式（７）に示す誤差関数の演算を行う。

ここで、ｔ_ｉは、目的の分布であり、認識対象ｉが正解である場合、１とし、その他の場合０とする。ｙ_ｉは、ニューラルネットワークによる演算された認識対象ｉの確率σ（ｘ_ｉ）である。

ディープラーニングでは、教師あり学習を行うことにより、ニューラルネットワークに自動的に特徴を学習する。例えば、教師あり学習で一般的に使用される誤差逆伝播法では、学習用のデータをニューラルネットワークに順伝播させて認識を行い、認識結果と正解と比較して誤差を求める。そして、誤差逆伝播法では、認識結果と正解との誤差を認識時と逆方向にニューラルネットワークに伝播させ、ニューラルネットワークの各階層のパラメータを変更して最適解に近づけていく。

次に、誤差の計算の一例を説明する。例えば、誤差逆伝播法では、以下の式（８）に示す誤差関数の偏微分の演算を行う。

誤差逆伝播法では、出力層Ｌにおける誤差の勾配を以下の式（９）から計算する。なお、Softmax関数の演算を行う識別層では、式（８）の結果が式（９）の誤差の勾配となる。

また、誤差逆伝播法では、出力層Ｌでの誤差から入力への誤差の勾配を部分微分を用いて計算する。例えば、ＲｅＬＵなどの活性化関数の演算を行う層では、以下の式（１０−１）から入力の誤差の勾配を計算する。σ’(ｘ)は、以下の式（１０−２）から求める。ｘは、認識時で使用した値を用いる。σ’(ｘ)を、式（１０−１）に代入すると誤差の勾配（∂Ｅ／∂ｘ^ｌ _ｉ）が求まる。活性化関数がない場合は式（１０−１）、（１０−２）の演算をスキップする。

また、誤差逆伝播法では、演算にパラメータ（重み）を有する層についてはパラメータの誤差の勾配を計算する。例えば、式（４）に示す全結合の演算では、以下の式（１１−１）からパラメータの誤差の勾配を計算する。また、式（１）に示す畳み込み演算では、以下の式（１１−２）からパラメータの誤差の勾配を計算する。なお、偏微分の連鎖律を用いて計算すると得られるｙ^ｌ _ｉは、認識時に使用した値を用いる。

また、誤差逆伝播法では、前の層（Ｌ−１層）への誤差の勾配を算出する。例えば、前の層が全結合の演算を行う層である場合は、以下の式（１２−１）から前の層への誤差の勾配を算出する。また、前の層が畳み込み演算を行う層である場合は、以下の式（１２−２）から前の層への誤差の勾配を算出する。なお、偏微分の連鎖律を用いて計算すると得られるｗ^ｌ _ｉｊは、認識時に使用した値を用いる。また、前の層がMax-Poolingを行う層である場合は、認識時にｋ×ｋの領域の最大値を取った場所に対して誤差の勾配（∂Ｅ／∂ｘ^ｌ _ｉ）を加算する。なお、ｋ×ｋの領域のその他の場所に対しては、何も行わない。

誤差の計算では、ニューラルネットワークに逆伝播させ、ニューラルネットワークの最上位の層に到達するまで各層の誤差の勾配の計算を繰り返す。例えば、Ｌ層での誤差から入力への誤差の勾配を式（１０−１）を用いて計算する。例えば、式（１０−１）に示す入力の誤差は、式（９）の誤差の勾配を代入して求める。また、式（１０−１）に示す入力の誤差は、下層が識別層以外の場合、式（１２−１）、（１２−２）から算出される誤差の勾配を代入して求める。また、例えば、式（１１−１）に示すパラメータの誤差の勾配は、式（１０−１）から算出される誤差を代入して求める。また、例えば、式（１２−１）に示す前の層への誤差は、式（１０−１）から算出される誤差を代入して求める。そして、誤差の計算では、誤差を応じて全層のパラメータを更新する。

ここで、従来のニューラルネットワークの計算の流れの一例を説明する。図３は、従来のニューラルネットワークの計算の流れの一例を示す図である。図３の例は、ニューラルネットワークとして、畳み込みニューラルネットワークの学習を行う際の各データと処理の順序を示している。図３に示すニューラルネットワークは、第１の畳み込み層（conv1）、第１のプーリング層（Pool1）、第２の畳み込み層（conv2）、第２のプーリング層（Pool2）、第１の全結合層（Fully-conn1）、第２の全結合層（Fully-conn2）、識別層（Softmax）が順に並んだ階層構造とされている。「data」は、各層のニューロンデータのデータサイズを示している。「param」は、各層のパラメータのデータサイズを示している。「gdata」は、各層のニューロンデータの誤差の勾配のデータサイズを示している。「gparam」は、各層のパラメータの誤差の勾配のデータサイズを示している。なお、第１のプーリング層、第２のプーリング層および識別層は、演算にパラメータを用いないため、「param」、「gparam」が無い状態とされている。矢印は、ニューラルネットワークの学習を行う際の処理の流れを示している。矢印に付した数字は、処理の順序を示している。

ニューラルネットワークの学習を行う場合、最初に、学習対象の画像の識別が行われる。例えば、学習対象の画像に対して数字の「１」〜「７」の順に各層の処理が行われ、処理結果が出力（Output）される。そして、ニューラルネットワークの学習を行う場合、次に、識別結果に基づく学習が行われる。例えば、数字の「８」に示すように識別結果と正解と比較して誤差を求める。Labelは、学習対象の画像の正解を示す。そして、認識結果と正解との誤差を、数字の「９」〜「１７」の順に各層の誤差の勾配を算出する処理が行われる。そして、数字の「１８」に示すように各階層のパラメータを変更する処理が行われる。なお、パラメータの変更は、各階層ごとに誤差の勾配を算出されたタイミングで行ってもよい。

ここで、各層のニューロンデータの誤差の勾配（gdata）は、前の層の誤差の勾配（gdata）と、認識時のパラメータ（param）から算出される。例えば、第２の全結合層では、「１０」に示すように、識別層の誤差の勾配（gdata）と、第２の全結合層のパラメータ（param）からニューロンデータの誤差の勾配（gdata）が算出されている。また、各層のパラメータの誤差の勾配（gparam）は、前の層の誤差の勾配（gdata）と、認識時のニューロンデータ（data）から算出される。例えば、第２の全結合層では、「９」に示すように、識別層の誤差の勾配（gdata）と、第２の全結合層のニューロンデータ（data）からパラメータの誤差の勾配（gparam）が算出されている。このため、従来のディープラーニングでは、学習を行う場合、学習用の入力データを認識した際のニューロンデータ（data）とパラメータ（param）を記憶する。また、従来のディープラーニングでは、学習を行う場合、ニューロンデータの誤差の勾配（gdata）とパラメータの誤差の勾配（gparam）も記憶する。このように、学習時には、使用メモリ量が増加する。

ディープラーニングでは、大量の画像を学習用の入力データとして学習を行う場合、全ての入力データを一度にまとめて反復学習処理させる方法がある。しかし、学習用の入力データは、データ数が非常に多い場合がある。例えば、学習用の入力データは、データ数が数万〜数百万件となる場合がある。ディープラーニングでは、入力データを一度にまとめて反復学習処理させた場合、全ての処理が完了して復帰するまでの時間が長くなる。また、ディープラーニングでは、入力データの１件ごとにニューラルネットワークの各層の演算結果が保持されるため、使用メモリ量が多くなる。そこで、入力データを所定の件数ごとに分けて、学習のバッチ処理を繰り返すミニバッチ法がある。ミニバッチ法では、例えば、入力データをＭ件ごとに分けて、確率的なバッチ反復を行う。この場合、例えば、以下の式（１３）を用いてパラメータを更新する。

ここで、Ｗ_ｔは、更新前のパラメータの値である。Ｗ_ｔ＋１は、更新後のパラメータの値である。ηは、演算された誤差を更新前のパラメータに反映させる割合を示す学習率である。

ここで、従来の使用メモリ量の一例を説明する。例えば、ＬｅＣｕｎらによるＬｅＮｅｔの構成のニューラルネットワークを用いた場合の使用メモリ量を説明する。図４は、ＬｅＮｅｔの処理の流れの一例を模式的に示した図である。図４の例では、２８×２８pixelの画像がニューロンデータとして入力（Input）する。ニューラルネットワークでは、２８×２８pixelのニューロンデータに対して、第１の畳み込み層（Convolution1）として、５×５のサイズの２０個のフィルタによりそれぞれ畳み込み演算を行って、２４×２４pixelの２０個のニューロンデータを算出する。次に、ニューラルネットワークでは、２４×２４pixelの２０個のニューロンデータに対して、第１のプーリング層（Pooling1）として、２×２の領域ごとに最大値を取り出すMax-Poolingを行い、１２×１２pixelの２０個のニューロンデータを算出する。次に、ニューラルネットワークでは、１２×１２pixelの２０個のニューロンデータに対して、第２の畳み込み層（Convolution2）として、５×５のサイズの５０個のフィルタによりそれぞれ畳み込み演算を行って、８×８pixelの５０個のニューロンデータを算出する。次に、ニューラルネットワークでは、８×８pixelの５０個のニューロンデータに対して、第２のプーリング層（Pooling2）として、２×２の領域ごとに最大値を取り出すMax-Poolingを行い、４×４pixelの５０個のニューロンデータを算出する。次に、ニューラルネットワークでは、４×４pixelの５０個のニューロンデータに対して、第１の全結合層（Fully-Connected1）として、５００個のユニットにそれぞれ全結合し、それぞれのユニットでＲｅＬＵの演算を行って５００個のニューロンデータを算出する。次に、ニューラルネットワークでは、５００個のニューロンデータに対して、第２の全結合層（Fully-Connected2）として、１０個のユニットにそれぞれ全結合し、Softmax関数の演算を行って１０個のニューロンデータを算出する。

図５は、従来の使用メモリ量の一例を示す図である。図５の例は、入力データを６４件ごとに分けて（バッチサイズＭ＝６４）、図４に示したニューラルネットワークの処理を実行した場合の使用メモリ量を示している。

例えば、画像の認識時、入力（Input）としては、ニューロンデータの記憶に５０，１７６バイトのメモリが使用される。第１の畳み込み層（Convolution1）では、ニューロンデータの記憶に７３７，２８０バイトのメモリが使用され、パラメータの記憶に５００バイトのメモリが使用される。第１のプーリング層（Pooling1）では、ニューロンデータの記憶に１８４，３２０バイトのメモリが使用される。第２の畳み込み層（Convolution2）では、ニューロンデータの記憶に２０４，８００バイトのメモリが使用され、パラメータの記憶に２５，０００バイトのメモリが使用される。第２のプーリング層（Pooling2）では、ニューロンデータの記憶に５１，２００バイトのメモリが使用される。第１の全結合層（Fully-Connected1）では、ニューロンデータの記憶に３２，０００バイトのメモリが使用され、パラメータの記憶に４００，０００バイトのメモリが使用される。第２の全結合層（Fully-Connected2）では、ニューロンデータの記憶に６４０バイトのメモリが使用され、パラメータの記憶に５，０００バイトのメモリが使用される。また、Softmax関数の処理では、ニューロンデータの記憶に６４０バイトのメモリが使用される。よって、画像の認識では、バッチサイズＭ＝６４である場合、それぞれを６４倍（４バイトを乗算）した結果、合計、ニューロンデータの記憶に５．０４Ｍバイトのメモリが使用され、パラメータの記憶に１．７２Ｍバイトのメモリが使用される。

また、学習時には、画像の認識時と同様のサイズのメモリが使用される。すなわち、学習時にも、合計、ニューロンデータの記憶に５．０４Ｍバイトのメモリが使用され、パラメータの記憶に１．７２Ｍバイトのメモリが使用される。

実施例１では、このような学習時における使用メモリ量を削減してディープラーニングを行う認識装置を説明する。

［認識装置の構成］
実施例１に係る認識装置１０の構成について説明する。図６は、認識装置の機能的な構成を概略的に示した図である。認識装置１０は、ディープラーニングを用いて各種の対象の認識を行う装置である。例えば、認識装置１０は、サーバコンピュータなどのコンピュータである。認識装置１０は、１台のコンピュータとして実装してもよく、また、複数台のコンピュータにより実装してもよい。なお、本実施例では、認識装置１０を１台のコンピュータとした場合を例として説明する。本実施例では、認識装置１０が、画像の認識を行う場合を例に説明する。

図６に示すように認識装置１０は、記憶部２０と、マザーボード２１と、アクセラレータボード２２とを有する。なお、認識装置１０は、上記の機器以外の他の機器を有してもよい。例えば、認識装置１０は、各種の操作を受け付ける入力部や各種の情報を表示する表示部などを有してもよい。

記憶部２０は、ハードディスク、ＳＳＤ（Solid State Drive）などの記憶装置である。マザーボード２１は、認識装置１０の主機能を担う部品が装着された基板である。アクセラレータボード２２は、認識装置１０の処理能力を高めるために、追加して利用するハードウェアが搭載された基板である。アクセラレータボード２２は、複数設けてもよい。なお、本実施例では、アクセラレータボード２２を１つ設けた場合を例として説明する。

記憶部２０とマザーボード２１とアクセラレータボード２２は、データを転送可能なバス２３で接続されている。例えば、記憶部２０とマザーボード２１は、ＳＡＴＡ(SerialATA)、ＳＡＳ(Serial Attached SCSI)などのバス２３Ａで接続されている。また、マザーボード２１とアクセラレータボード２２は、ＰＣＩ（Peripheral Component Interconnect）エクスプレスなどのバス２３Ｂで接続されている。

ディープラーニングは、演算を大量に行う。このため、認識装置１０では、ＧＰＵ（Graphics Processing Unit）や専用チップなどのアクセラレータを用いたアクセラレータボード２２で演算を行うことにより、処理の高速化を行っている。

記憶部２０は、ＯＳ（Operating System）や、後述する各種の処理を実行する各種プログラムを記憶する。さらに、記憶部２０は、各種情報を記憶する。例えば、記憶部２０は、入力データ４０と、定義情報４１と、パラメータ情報４２と、スナップショット情報４３とを記憶する。なお、記憶部２０は、その他の各種の情報を記憶してもよい。

入力データ４０は、ニューラルネットワークへの入力対象とされたデータである。例えば、教師あり学習を行う場合、入力データ４０は、学習用のデータである。例えば、画像に写った識別対象の特徴をニューラルネットワークに学習させる場合、入力データ４０は、様々な識別対象が写った大量の画像と、識別対象が何であるかの正解を示すラベルを対応付けたデータである。また、ニューラルネットワークによる識別を行う場合、入力データ４０は、識別対象とされたデータである。例えば、画像に写った識別対象を識別する場合、入力データ４０は、識別対象とされた画像のデータである。

定義情報４１は、ニューラルネットワークに関する情報を記憶したデータである。例えば、定義情報４１には、ニューラルネットワークの階層構造や各階層のユニットの構成、ユニットの接続関係などのニューラルネットワークの構成を示す情報が記憶される。画像の認識を行う場合、定義情報４１には、例えば、設計者等によって定められた畳み込みニューラルネットワークの構成を示す情報が記憶される。

パラメータ情報４２は、ニューラルネットワークの各層の演算で用いられる重み値などのパラメータの値を記憶したデータである。パラメータ情報４２に記憶されたパラメータの値は、初期状態では、所定の初期値とされ、学習に応じて更新される。

スナップショット情報４３は、入力データを所定の件数ごとに分けて、学習のバッチ処理を繰り返す場合、途中の処理状態に関する情報を記憶したデータである。

マザーボード２１は、メモリ３０と、演算部３１とを有する。

メモリ３０は、例えば、ＲＡＭ（Random Access Memory)などの半導体メモリである。メモリ３０は、演算部３１で実行される処理の情報や処理で使用される各種の情報を記憶する。

演算部３１は、認識装置１０全体を制御するデバイスである。演算部３１としては、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等の電子回路を採用できる。演算部３１は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、演算部３１は、全体制御部５０と、メモリ量計算部５１とを有する。

全体制御部５０は、ディープラーニングに関する処理全体を制御する。全体制御部５０は、ディープラーニングの処理開始の指示を受け付けると、記憶部２０からディープラーニングに関する各種のプログラムや各種情報を読み出す。例えば、全体制御部５０は、ディープラーニングの処理を制御する各種のプログラムを読み出す。また、全体制御部５０は、定義情報４１、パラメータ情報４２を読み出す。全体制御部５０は、定義情報４１、パラメータ情報４２に基づいてニューラルネットワークの構成を特定し、ニューラルネットワークの認識処理、学習処理の処理順序を決定する。なお、全体制御部５０は、学習処理を開始するタイミングで学習処理の処理順序を決定してもよい。

全体制御部５０は、記憶部２０から入力データ４０を所定の件数ごとに分けて読み出す。そして、全体制御部５０は、読み出した入力データ４０や認識処理、学習処理に関する情報をアクセラレータボード２２にオフロードする。そして、全体制御部５０は、アクセラレータボード２２を制御して、アクセラレータボード２２にニューラルネットワークの認識処理、学習処理を実行させる。また、全体制御部５０は、メモリ量計算部５１により算出されるメモリ量に基づいて、学習処理の処理順序を制御する。

メモリ量計算部５１は、ディープラーニングでデータの記憶に使用される使用メモリ量を算出する。例えば、メモリ量計算部５１は、定義情報４１に基づいて、ニューラルネットワークの各層で、ニューロンデータおよびパラメータの記憶に使用される使用メモリ量を算出する。

アクセラレータボード２２は、メモリ６０と、演算部６１とを有する。

メモリ６０は、例えば、ＲＡＭなどの半導体メモリである。メモリ６０は、演算部６１で実行される処理の情報や処理で使用される各種の情報を記憶する。

演算部６１は、アクセラレータボード２２を制御するデバイスである。演算部６１としては、ＧＰＵ（Graphics Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Ａrray）等の電子回路を採用できる。演算部６１は、全体制御部５０からの制御に応じて、各種のプログラムが動作することにより各種の処理部として機能する。例えば、演算部６１は、認識制御部７０と、学習制御部７１とを有する。

認識制御部７０は、ニューラルネットワークの認識処理を制御する。例えば、認識制御部７０は、マザーボード２１からオフロードされた入力データをニューロンデータとして、処理順序に従い認識処理を実行する。例えば、認識制御部７０は、ニューロンデータに対して、ニューラルネットワークの各層の演算を行い、当該ニューラルネットワークの各層のニューロンデータとパラメータをそれぞれメモリ６０に保持する。

学習制御部７１は、ニューラルネットワークの学習処理を制御する。例えば、学習制御部７１は、認識処理による識別結果と正解との誤差を求め、処理順序に従い、誤差をニューラルネットワークに伝播させる学習処理を実行する。例えば、学習制御部７１は、誤差からニューラルネットワークの各層の誤差の勾配を算出してパラメータを学習する。この際、学習制御部７１は、ニューロンデータとパラメータがメモリ領域に保持される層については、ニューロンデータとパラメータのうち、使用メモリ量の小さい方の誤差の勾配を算出し、算出した誤差の勾配をメモリ６０に保持する。その後、学習制御部７１は、使用メモリ量の大きい方の誤差の勾配を算出し、メモリ６０に保持された認識処理のデータのメモリ領域に、算出した誤差の勾配を上書きする制御を行う。

ここで、本実施例のニューラルネットワークの計算の流れの一例を説明する。図７は、本実施例のニューラルネットワークの計算の流れの一例を示す図である。図７は、図３と同様のニューラルネットワークの処理を本実施例の認識装置１０により実施した場合の計算の流れを示している。ニューラルネットワークは、図３と同様に、第１の畳み込み層（conv1）、第１のプーリング層（Pool1）、第２の畳み込み層（conv2）、第２のプーリング層（Pool2）、第１の全結合層（Fully-conn1）、第２の全結合層（Fully-conn2）、識別層（Softmax）が順に並んだ階層構造とされている。「data」は、各層のニューロンデータのデータサイズを示している。「param」は、各層のパラメータのデータサイズを示している。「gdata」は、各層のニューロンデータの誤差の勾配のデータサイズを示している。「gparam」は、各層のパラメータの誤差の勾配のデータサイズを示している。なお、第１のプーリング層、第２のプーリング層および識別層は、演算にパラメータを用いないため、「param」、「gparam」が無い状態とされている。矢印は、ニューラルネットワークの学習を行う際の処理の流れを示している。矢印に付した数字は、処理の順序を示している。

ニューラルネットワークの学習を行う場合、認識制御部７０は、学習対象の画像の識別する認識処理を実行する。例えば、認識制御部７０は、図３に示した従来のニューラルネットワークの計算と同様に、数字の「１」〜「７」の順に各層の処理を行い、処理結果を出力（Output）する。例えば、認識制御部７０は、第１の畳み込み層（conv1）、第２の畳み込み層（conv2）では、ニューロンデータとパラメータとに基づいてそれぞれ算出した畳み込み量をメモリ６０にそれぞれ保持する処理を実行する。また、認識制御部７０は、第１のプーリング層（Pool1）、第２のプーリング層（Pool2）では、メモリ６０に保持された前の層の畳み込み量に対して間引き処理をそれぞれ行った間引き後の畳み込み量をメモリ６０のメモリ領域にそれぞれ保持する処理を実行する。また、認識制御部７０は、第１の全結合層（Fully-conn1）、第２の全結合層（Fully-conn2）では、メモリ６０に保持された前の層の畳み込み量の全てに対して、メモリ６０に保持した各層の重みをそれぞれ積算した出力結果をメモリ６０にそれぞれ保持する処理を実行する。また、認識制御部７０は、識別層（Softmax）では、メモリ６０に保持された前の層の出力結果を正規化し、正規化した出力結果でメモリ６０に保持する処理を実行する。

ニューラルネットワークの学習を行う場合、次に、学習制御部７１が、認識処理の識別結果の誤差からパラメータを更新する学習処理を実行する。例えば、認識制御部７０は、図３に示した従来のニューラルネットワークの計算と同様に、数字の「８」に示すように識別結果と正解と比較して誤差を求める。そして、認識制御部７０は、数字の「９」〜「１７」の順に各層の誤差の勾配を算出する。そして、認識制御部７０は、数字の「１８」に示すように各階層のパラメータを変更する。なお、各階層のパラメータの変更は、各層ごとに、誤差の勾配が算出された後のタイミングで行ってもよい。

例えば、学習制御部７１は、メモリ６０に保持した識別層（Softmax）の出力結果に基づき計算した出力結果の誤差の勾配を、メモリ６０の識別層（Softmax）の出力結果を保持したメモリ領域に上書きして保持する。これにより、従来と比較して、識別層（Softmax）の誤差の勾配を記憶するメモリ領域を削減される。

また、学習制御部７１は、ニューロンデータとパラメータがメモリ領域に保持される層については、ニューロンデータとパラメータのうち、使用メモリ量の小さい方の誤差の勾配を算出し、算出した誤差の勾配をメモリ６０に保持する。その後、学習制御部７１は、使用メモリ量の大きい方の誤差の勾配を算出し、メモリ６０に保持された認識処理のデータのメモリ領域に、算出した誤差の勾配を上書きする制御を行う。図７の例では、第１の畳み込み層（conv1）、第２の畳み込み層（conv2）、第１の全結合層（Fully-conn1）、第２の全結合層（Fully-conn2）は、ニューロンデータとパラメータをメモリ領域に保持している。学習制御部７１は、ニューロンデータサイズがパラメータサイズ以下の場合、メモリ６０に保持された前の層の誤差の勾配に基づいて計算した次層への誤差の勾配をメモリ６０に保持する。その後、学習制御部７１は、次層へのパラメータの誤差の勾配を、メモリ６０の認識処理のパラメータを保持するメモリ領域にそれぞれ保存する。例えば、図７の例では、第１の全結合層（Fully-conn1）、第２の全結合層（Fully-conn2）は、認識処理でのニューロンデータサイズがパラメータサイズ以下である。このため、学習制御部７１は、数字の「９」、「１１」に示すように、ニューロンデータの誤差の勾配をメモリ６０に保存する。そして、学習制御部７１は、数字の「１０」、「１２」に示すように、パラメータの誤差の勾配を計算して、認識処理のパラメータを保持するメモリ領域にそれぞれ上書して保存する。これにより、図３に示した従来のニューラルネットワークの計算と比較して、第１の全結合層（Fully-conn1）、第２の全結合層（Fully-conn2）のパラメータの誤差の勾配を記憶するメモリ領域を削減される。また、学習制御部７１は、ニューロンデータサイズがパラメータサイズよりも大きい場合、メモリ６０に保持された誤差の勾配に基づいて計算した次層へのパラメータの誤差の勾配をメモリ６０に保持する。その後、学習制御部７１は、次層への誤差の勾配を、メモリ６０の認識処理のニューロンデータを保持するメモリ領域にそれぞれ保存する。例えば、図７の例では、第２の畳み込み層（conv2）は、認識処理でのニューロンデータサイズがパラメータサイズよりも大きい。このため、学習制御部７１は、数字の「１４」に示すように、パラメータの誤差の勾配をメモリ６０に保存する。そして、学習制御部７１は、数字の「１５」に示すように、ニューロンデータの誤差の勾配を計算して、認識処理のニューロンデータを保持するメモリ領域に上書して保存する。これにより、図３に示した従来のニューラルネットワークの計算と比較して、第２の畳み込み層（conv2）のニューロンデータの誤差の勾配を記憶するメモリ領域を削減される。

また、学習制御部７１は、ニューロンデータがメモリ領域に保持される層については、ニューロンデータの誤差の勾配を算出する。そして、学習制御部７１は、メモリ６０に保持された認識処理のニューロンデータのメモリ領域に、算出したニューロンデータの誤差の勾配を上書きする制御を行う。図７の例では、第１のプーリング層（Pool1）および第２のプーリング層（Pool2）は、ニューロンデータをメモリ領域に保持している。学習制御部７１は、第１のプーリング層（Pool1）および第２のプーリング層（Pool2）については、ニューロンデータの誤差の勾配を算出する。そして、学習制御部７１は、数字の「１３」、「１６」に示すように、メモリ６０に保持された認識処理のニューロンデータのメモリ領域に、ニューロンデータの誤差の勾配の勾配を上書きする。これにより、図３に示した従来のニューラルネットワークの計算と比較して、第１のプーリング層（Pool1）および第２のプーリング層（Pool2）のニューロンデータの誤差の勾配を記憶するメモリ領域を削減される。

ここで、本実施例に係る認識装置１０による使用メモリ量の一例を説明する。図８は、本実施例に係る認識装置による使用メモリ量の一例を示す図である。図８の例は、入力データを６４件ごとに分けて（バッチサイズＭ＝６４）、図７に示したニューラルネットワークの処理を実行した場合の使用メモリ量を示している。

画像の認識時には、図５と同様のサイズのメモリが使用される。

一方、学習時には、図５と比較して、第１の畳み込み層（Convolution1）では、ニューロンデータの誤差の勾配の記憶に追加で使用するメモリ領域がゼロに削減される。第２の畳み込み層（Convolution2）でも、ニューロンデータの誤差の勾配の記憶に追加で使用するメモリ領域がゼロに削減される。この第１の畳み込み層および第２の畳み込み層は、後述する画像認識処理においてグループＡに分類される。また、第１の全結合層（Fully-Connected1）では、パラメータの誤差の勾配の記憶に追加で使用するメモリ領域がゼロに削減される。第２の全結合層（Fully-Connected2）でも、パラメータの誤差の勾配の記憶に追加で使用するメモリ領域がゼロに削減される。この第１の全結合層および第２の全結合層は、後述する画像認識処理においてグループＢに分類される。また、Softmax関数の処理では、ニューロンデータの誤差の勾配の記憶に追加で使用するメモリ領域がゼロに削減される。また、第１のプーリング層（Pool1）および第２のプーリング層（Pool2）でも、ニューロンデータの誤差の勾配の記憶に追加で使用するメモリ領域がゼロに削減される。このSoftmax関数の処理、第１のプーリング層（Pool1）および第２のプーリング層（Pool2）は、後述する画像認識処理においてグループＣに分類される。よって、学習の認識では、バッチサイズＭ＝６４である場合、それぞれを６４倍して（４バイトを乗算）した結果、合計、ニューロンデータの使用メモリ量が１３．０４Ｋバイトに削減され、パラメータの使用メモリ量が１．０２Ｍバイトに削減される。

アクセラレータボード２２は、一般的に、搭載されるメモリ６０の記憶容量が小さい。アクセラレータボード２２の一例として、NVIDIA社のGeForce GTX TITAN Xは、搭載されるメモリの記憶容量が１２ＧＢである。

ディープラーニングは、ニューラルネットワークの多階層化により、使用メモリ量が大きくなっており、学習時に使用メモリ量がさらに増加する。このため、ディープラーニングでは、ニューラルネットワークの計算の処理をアクセラレータボードで行う場合、アクセラレータボードのローカルメモリの記憶容量によって処理が制限される場合がある。例えば、ディープラーニングでは、１件の処理での使用メモリ量が多いほど、アクセラレータボードが一度のバッチで処理可能な件数が減少するため、入力データの学習にかかる時間が増加する。

図９は、効果の一例を説明する図である。図９は、画像認識のコンテストILSVRC2014で使用されたニューラルネットワークであるVGGNetを対象に、実測値として各バッチサイズＭを変えて、使用メモリ量と実行速度を評価した結果を示している。図９には、オリジナルのVGGNetをそのまま実行した場合と、本実施例で説明した学習時における使用メモリ量の削減を適用した場合の使用メモリ量と実行速度の変化が示されている。本実施例で説明した学習時における使用メモリ量の削減を適用した場合、学習時の使用メモリ量は、５〜３５％と大幅に削減される。また、本実施例で説明した学習時における使用メモリ量の削減を適用した場合、バッチサイズＭを増加することによる処理時間が低下しており、学習速度向上する。また、オリジナルのVGGNetをそのまま実行した場合、実行可能なバッチサイズＭの上限は、２４であった。本実施例で説明した学習時における使用メモリ量の削減を適用した場合、実行可能なバッチサイズの上限は、４８であった。すなわち、本実施例で説明した学習時における使用メモリ量の削減を適用した場合、実行可能なバッチサイズが２倍に増加している。

［処理の流れ］
次に、本実施例に係る認識装置１０が実行する画像認識処理の流れについて説明する。図１０Ａ、図１０Ｂは、画像認識処理の手順の一例を示すフローチャートである。この画像認識処理は、所定のタイミング、例えば、管理者から処理開始が指示されたタイミングで実行される。

図１０Ａに示すように、全体制御部５０は、定義情報４１、パラメータ情報４２を読み出す（Ｓ１０）。全体制御部５０は、定義情報４１、パラメータ情報４２に基づいてニューラルネットワークの構成を特定する（Ｓ１１）。メモリ量計算部５１は、定義情報４１に基づいて、ニューラルネットワークの各層で、ニューロンデータおよびパラメータの記憶に使用される使用メモリ量を算出する（Ｓ１２）。全体制御部５０は、パラメータｉを１に初期化する（Ｓ１３）。

全体制御部５０は、ニューラルネットワークのｉ層目を、計算順序別のグループＡ〜グループＣに分類する。全体制御部５０は、ニューラルネットワークのｉ層目にパラメータが存在するか判定する（Ｓ１４）。ニューラルネットワークのｉ層目にパラメータが存在する場合（Ｓ１４肯定）、全体制御部５０は、ニューロンデータのデータサイズがパラメータのデータサイズよりも大きいか否かを判定する（Ｓ１５）。ニューロンデータのデータサイズがパラメータのデータサイズよりも大きい場合（Ｓ１５肯定）、全体制御部５０は、ｉ層目の学習の際に、パラメータの誤差の勾配を計算した後、ニューロンデータの誤差の勾配を計算するものと計算順序を決定する（Ｓ１６）。この計算順序の層は、グループＡとする。

一方、ニューロンデータのデータサイズがパラメータのデータサイズ以下の場合（Ｓ１５否定）、全体制御部５０は、ｉ層目の学習の際に、ニューロンデータの誤差の勾配を計算した後、パラメータの誤差の勾配を計算するものと計算順序を決定する（Ｓ１７）。この計算順序の層は、グループＢとする。

一方、ニューラルネットワークのｉ層目にパラメータが存在しない場合（Ｓ１４否定）、全体制御部５０は、ｉ層目の学習の際に、ニューロンデータの誤差の勾配を計算するものと計算順序を決定する（Ｓ１８）。この計算順序の層は、グループＣとする。

全体制御部５０は、パラメータｉの値を１加算する（Ｓ１９）。全体制御部５０は、パラメータｉの値がニューラルネットワークの層数ｎ以下か否かを判定する（Ｓ２０）。パラメータｉの値がニューラルネットワークの層数ｎ以下の場合（Ｓ２０肯定）、上述したＳ１４の処理へ移行する。

一方、パラメータｉの値がニューラルネットワークの層数ｎ以下では無い場合（Ｓ２０否定）、全体制御部５０は、アクセラレータボード２２を制御して、ニューラルネットワークの学習で使用されるデータサイズの記憶領域をメモリ６０に確保する（Ｓ２１）。

図１０Ｂに示すように、全体制御部５０は、記憶部２０から入力データ４０を所定の件数ごとに分けて読み出す。そして、全体制御部５０は、読み出したデータや認識処理、学習処理に関する情報をアクセラレータボード２２にオフロードし、ニューラルネットワークの学習を開始する（Ｓ２２）。

認識制御部７０は、パラメータｉを１に初期化する（Ｓ２３）。認識制御部７０は、マザーボード２１からオフロードされたデータから未処理の１件分のデータを読み出す。そして、認識制御部７０は、読み出したデータをニューロンデータとし、ニューロンデータに対して、ニューラルネットワークの順にｉ層目の演算を行い、演算結果をメモリ６０に保持する（Ｓ２４）。認識制御部７０は、パラメータｉの値を１加算する（Ｓ２５）。

認識制御部７０は、パラメータｉの値がニューラルネットワークの層数ｎ以下か否かを判定する（Ｓ２６）。パラメータｉの値がニューラルネットワークの層数ｎ以下の場合（Ｓ２６肯定）、上述したＳ２４の処理へ移行する。

一方、パラメータｉの値がニューラルネットワークの層数ｎ以下では無い場合（Ｓ２６否定）、学習制御部７１は、ニューラルネットワークの最終層の識別結果と正解との誤差を算出する（Ｓ２７）。

学習制御部７１は、ニューラルネットワークのｉ層目がグループＡ〜Ｃの何れであるか判定する（Ｓ２８）。

ニューラルネットワークのｉ層目がグループＡの場合、学習制御部７１は、パラメータの誤差の勾配を計算してメモリ６０に保持する（Ｓ２９）。そして、学習制御部７１は、ニューロンデータの誤差の勾配を計算し、ニューラルネットワークのｉ層目のニューロンデータを記憶したメモリ６０の記憶領域に上書き保存する（Ｓ３０）。学習制御部７１は、ニューラルネットワークのｉ層目のパラメータの誤差の勾配に基づいて、ニューラルネットワークのｉ層目のパラメータを更新する（Ｓ３１）。

一方、ニューラルネットワークのｉ層目がグループＢの場合、学習制御部７１は、ニューロンデータの誤差の勾配を計算してメモリ６０に保持する（Ｓ３２）。そして、学習制御部７１は、パラメータの誤差の勾配を計算し、ニューラルネットワークのｉ層目のパラメータを記憶したメモリ６０の記憶領域に上書き保存する（Ｓ３３）。学習制御部７１は、ニューラルネットワークのｉ層目のパラメータの誤差の勾配に基づいて、ニューラルネットワークのｉ層目のパラメータを更新する（Ｓ３４）。

一方、ニューラルネットワークのｉ層目がグループＣの場合、学習制御部７１は、ニューロンデータの誤差の勾配を計算してメモリ６０に保持する（Ｓ３５）。

学習制御部７１は、パラメータｉの値から１減算する（Ｓ３６）。認識制御部７０は、パラメータｉの値が１以上であるか否かを判定する（Ｓ３７）。パラメータｉの値が１以上である場合（Ｓ３７肯定）、上述したＳ２８の処理へ移行する。

一方、パラメータｉの値が１以上では無い場合（Ｓ３７否定）、学習制御部７１は、オフロードされたデータ全件の処理が完了したか否かを判定する（Ｓ３８）。オフロードされたデータ全件の処理が完了していない場合（Ｓ３８否定）、上述したＳ２３の処理へ移行する。

一方、オフロードされたデータ全件の処理が完了した場合（Ｓ３８肯定）、全体制御部５０は、処理結果をスナップショット情報４３およびパラメータ情報４２に保存する（Ｓ３９）。

全体制御部５０は、入力データ４０全件の学習が完了したか否かを判定する（Ｓ４０）。入力データ４０全件の処理が完了していない場合（Ｓ４０否定）、上述したＳ２２の処理へ移行する。

一方、入力データ４０全件の処理が完了した場合（Ｓ４０肯定）、処理を終了する。

［効果］
上述してきたように、本実施例に係る認識装置１０は、学習処理において、ニューロンデータとパラメータがメモリ領域に保持される層については、ニューロンデータとパラメータのうち、使用メモリ量の小さい方の誤差の勾配を算出してメモリ領域に保持する。そして、係る認識装置１０は、使用メモリ量の大きい方の誤差の勾配を算出して認識処理のデータを保持したメモリ領域に上書きする。これにより、認識装置１０は、学習時における使用メモリ量を削減することができる。

また、本実施例に係る認識装置１０は、学習処理の正規化した出力結果から計算した出力結果の誤差の勾配を、正規化した出力結果を保持するメモリ領域に上書きして保持する。これにより、認識装置１０は、学習時における使用メモリ量をさらに削減することができる。

また、本実施例に係る認識装置１０は、学習処理で間引き処理を行った層については、次層への誤差の勾配を、学習処理での間引き後の畳み込み量を保持するメモリ領域に上書きして保持する。これにより、認識装置１０は、学習時における使用メモリ量をさらに削減することができる。

さて、これまで開示の装置に関する実施例について説明したが、開示の技術は上述した実施例以外にも、種々の異なる形態にて実施されてもよい。そこで、以下では、本発明に含まれる他の実施例を説明する。

例えば、学習は、モーメンタム法など、その他手法を用いてもよい。例えば、モーメンタム法では、パラメータの値Ｗ_ｔ＋１を、誤差の勾配▽Ｅ（Ｗ）と前周のパラメータｖ_ｔの線形和により更新する。例えば、前周のパラメータｖ_ｔおよびＷ_ｔを用いて、以下の式（１４−１）、（１４−２）から、ｔ＋１周における更新後のパラメータｖ_ｔ＋１およびＷ_ｔ＋１を計算する。

ここで、αは、学習率であり、誤差の勾配への重みづけ倍率である。μは、モーメンタムであり、前周に更新されたパラメータへの重みづけ倍率である。

ここで、従来のモーメンタム法を用いたニューラルネットワークの計算の流れの一例を説明する。図１１は、従来のモーメンタム法を用いたニューラルネットワークの計算の流れの一例を示す図である。ニューラルネットワークは、第１の畳み込み層（conv1）、第１のプーリング層（Pool1）、第２の畳み込み層（conv2）、第２のプーリング層（Pool2）、第１の全結合層（Fully-conn1）、第２の全結合層（Fully-conn2）、識別層（Softmax）が順に並んだ階層構造とされている。「data」は、各層のニューロンデータのデータサイズを示している。「param」は、各層のパラメータのデータサイズを示している。「gdata」は、各層のニューロンデータの誤差の勾配のデータサイズを示している。「gparam」は、各層のパラメータの誤差の勾配のデータサイズを示している。「history」は、前周の誤差情報のデータサイズを示している。なお、第１のプーリング層、第２のプーリング層および識別層は、演算にパラメータを用いないため、「param」、「gparam」が無い状態とされている。矢印は、ニューラルネットワークの学習を行う際の処理の流れを示している。矢印に付した数字は、処理の順序を示している。

ニューラルネットワークの学習を行う場合、最初に、学習対象の画像の識別が行われる。例えば、学習対象の画像に対して数字の「１」〜「７」の順に各層の処理が行われ、処理結果が出力（Output）される。そして、ニューラルネットワークの学習を行う場合、次に、識別結果に基づく学習が行われる。例えば、数字の「８」に示すように識別結果と正解と比較して誤差を求める。Labelは、学習対象の画像の正解を示す。そして、認識結果と正解との誤差を、数字の「９」〜「１７」の順に各層の誤差の勾配を算出する処理が行われる。そして、数字の「１８」、「１９」に示すように各階層のパラメータを変更する処理が行われる。

図１２は、従来の使用メモリ量の一例を示す図である。図１２の例は、入力データを６４件ごとに分けて（バッチサイズＭ＝６４）、図１１に示したニューラルネットワークの処理を実行した場合の使用メモリ量を示している。図１２の例では、階層ニューラルネットワークの学習時に合計使用メモリ量が２倍超に増加する。

次に、本実施例のモーメンタム法を用いたニューラルネットワークの計算の流れの一例を説明する。図１３は、本実施例のモーメンタム法を用いたニューラルネットワークの計算の流れの一例を示す図である。図１３は、図１１と同様のモーメンタム法を用いたニューラルネットワークの処理を本実施例の認識装置１０により実施した場合の計算の流れを示している。矢印は、ニューラルネットワークの学習を行う際の処理の流れを示している。矢印に付した数字は、処理の順序を示している。

ニューラルネットワークの学習を行う場合、認識制御部７０は、学習対象の画像の識別する認識処理を実行する。例えば、認識制御部７０は、図１１に示した従来のニューラルネットワークの計算と同様に、数字の「１」〜「７」の順に各層の処理を行い、処理結果を出力（Output）する。そして、学習制御部７１が、認識処理の識別結果の誤差からパラメータを更新する学習処理を実行する。例えば、認識制御部７０は、数字の「８」に示すように識別結果と正解と比較して誤差を求める。そして、認識制御部７０は、数字の「９」〜「１９」に示すように、順に各層の誤差の勾配を算出しつつ、パラメータを変更する。例えば、学習制御部７１は、メモリ６０に保持した識別層（Softmax）の出力結果に基づき計算した出力結果の誤差の勾配を、メモリ６０の識別層（Softmax）の出力結果を保持したメモリ領域に上書きして保持する。これにより、従来と比較して、識別層（Softmax）の誤差の勾配を記憶するメモリ領域を削減される。例えば、学習制御部７１は、数字の「９」、「１１」に示すように、ニューロンデータの誤差の勾配をメモリ６０に保存する。そして、学習制御部７１は、数字の「１０」、「１２」に示すように、パラメータの誤差の勾配を計算して、前周の誤差情報を保持するメモリ領域にそれぞれ上書して保存する。これにより、図１１に示した従来のニューラルネットワークの計算と比較して、第１の全結合層（Fully-conn1）、第２の全結合層（Fully-conn2）のパラメータの誤差の勾配を記憶するメモリ領域を削減される。また、学習制御部７１は、数字の「１４」に示すように、パラメータの誤差の勾配をメモリ６０に保存する。そして、学習制御部７１は、数字の「１５」に示すように、ニューロンデータの誤差の勾配を計算して、前周の誤差情報を保持するメモリ領域に上書して保存する。これにより、図１１に示した従来のニューラルネットワークの計算と比較して、第２の畳み込み層（conv2）のニューロンデータの誤差の勾配を記憶するメモリ領域を削減される。

図１４は、本実施例に係る認識装置による使用メモリ量の一例を示す図である。図１４の例は、入力データを６４件ごとに分けて（バッチサイズＭ＝６４）、図１３に示したニューラルネットワークの処理を実行した場合の使用メモリ量を示している。図１４に示すように、認識装置１０は、学習時の使用メモリ量を大幅に削減する。例えば、図１４の例は、全体として使用メモリ量が、図１２の例と比較して、４２．８％（＝８７２０７８４/１５２５４４４８）削減される。

また、上記実施例では、ニューラルネットワークにより画像の写った識別対象を識別する場合を例示した。しかしながら、これらに限定されるものではない。例えば、識別対象は、音声など、ニューラルネットワークが識別対象とするものであれば何れであってもよい。

また、上記実施例では、ニューラルネットワークとして、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を用いた場合を例示した。しかしながら、これらに限定されるものではない。例えば、ニューラルネットワークは、ＲＮＮ（Recurrent Neural Network）などの時系列を学習・認識可能なニューラルネットワークであってもよい。ＲＮＮは、ＣＮＮの拡張であり、ＣＮＮと同じく誤差逆伝播を行うため、本実施例と同様の処理を適用できる。

また、上記実施例では、マザーボード２１の演算部３１にメモリ量計算部５１を設けた場合を例示した。しかしながら、これらに限定されるものではない。例えば、アクセラレータボード２２の演算部６１にメモリ量計算部５１を設けて、アクセラレータボード２２の演算部６１のメモリ量計算部５１が、ニューラルネットワークの各層で、ニューロンデータおよびパラメータの記憶に使用される使用メモリ量を算出してもよい。

また、上記実施例では、識別処理の開始の前に、識別処理と学習処理で使用する使用メモリ量を計算する場合を例示した。しかしながら、これらに限定されるものではない。例えば、識別処理の開始の前に、識別処理で使用する使用メモリ量を計算し、識別処理の終了後、学習処理の開始の前に、学習処理で使用する使用メモリ量を計算してもよい。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的状態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、全体制御部５０、メモリ量計算部５１、認識制御部７０および学習制御部７１の各処理部が適宜統合されてもよい。また、各処理部の処理が適宜複数の処理部の処理に分離されてもよい。さらに、各処理部にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［画像認識プログラム］
また、上記の実施例で説明した各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。そこで、以下では、運行を支援する画像認識プログラムを実行するコンピュータシステムの一例を説明する。図１５は、画像認識プログラムを実行するコンピュータの構成の一例を示す図である。

図１５に示すように、コンピュータ４００は、ＣＰＵ（Central Processing Unit）４１０、ＨＤＤ（Hard Disk Drive）４２０、ＲＡＭ（Random Access Memory）４４０を有する。これら４００〜４４０の各部は、バス５００を介して接続される。

ＨＤＤ４２０には上記の全体制御部５０、メモリ量計算部５１、認識制御部７０および学習制御部７１と同様の機能を発揮する画像認識プログラム４２０Ａが予め記憶される。なお、画像認識プログラム４２０Ａについては、適宜分離してもよい。

また、ＨＤＤ４２０は、各種情報を記憶する。例えば、ＨＤＤ４２０は、記憶部２０と同様に、ＯＳや各種プログラム、各種情報を記憶する。

そして、ＣＰＵ４１０が、画像認識プログラム４２０ＡをＨＤＤ４２０から読み出して実行することで、実施例の各処理部と同様の動作を実行する。すなわち、画像認識プログラム４２０Ａは、全体制御部５０、メモリ量計算部５１、認識制御部７０および学習制御部７１と同様の動作を実行する。

なお、上記した画像認識プログラム４２０Ａについては、必ずしも最初からＨＤＤ４２０に記憶させることを要しない。また、例えば、画像認識プログラム４２０Ａは、コンピュータ４００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に記憶させてもよい。そして、コンピュータ４００がこれらからプログラムを読み出して実行するようにしてもよい。

さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ４００に接続される「他のコンピュータ（又はサーバ）」などにプログラムを記憶させておく。そして、コンピュータ４００がこれらからプログラムを読み出して実行するようにしてもよい。

１０認識装置
２０記憶部
２１マザーボード
２２アクセラレータボード
３０メモリ
３１演算部
４０入力データ
４１定義情報
４２パラメータ情報
４３スナップショット情報
５０全体制御部
５１メモリ量計算部
６０メモリ
６１演算部
７０認識制御部
７１学習制御部

Claims

入力した画像のニューロンデータとパラメータとに基づいてそれぞれ算出した畳み込み量を各第１のメモリ領域にそれぞれ保持する処理と、前記各第１のメモリ領域に保持した前記畳み込み量に対して間引き処理をそれぞれ行った間引き後の畳み込み量を各第２のメモリ領域にそれぞれ保持する処理とを第１の複数層において行う第１の認識処理と、前記第２のメモリ領域に保持した前記間引き後の畳み込み量の全てに対して第３のメモリ領域に保持した重みをそれぞれ積算した出力結果を各第４のメモリ領域にそれぞれ保持する処理を第２の複数層において行う第２の認識処理とを制御する認識制御部と、
前記第１の複数層と前記第２の複数層とに含まれる各層について、各ニューロンデータのサイズであるニューロンデータサイズと、各パラメータのサイズであるパラメータサイズとをそれぞれ計算するメモリ量計算部と、
前記第４のメモリ領域に保持した前記出力結果に基づき計算した前記出力結果の誤差の勾配を第５のメモリ領域に保持するとともに、前記メモリ量計算部が計算した前記第２の複数層に含まれる各層のニューロンデータサイズとパラメータサイズと大小関係に基づき、前記第５のメモリ領域に保持した前記出力結果の誤差の勾配又は前記第２の複数層における前層の第６のメモリ領域に保持した誤差の勾配に基づいて計算した前記第２の複数層における次層への誤差の勾配を各第６のメモリ領域に保持した後、前記第２の複数層における次層へのパラメータの誤差の勾配を前記各第３のメモリ領域にそれぞれ保持する前記第２の複数層における第１の学習処理と、前記メモリ量計算部が計算した前記第１の複数層に含まれる各層のニューロンデータサイズとパラメータサイズとの大小関係に基づき、前記第２の複数層の最終層の第６のメモリ領域又は前記第１の複数層における前層の第７のメモリ領域に保持した誤差の勾配に基づいて計算した次層へのパラメータの誤差の勾配を各第７のメモリ領域に保持した後、前記第１の複数層における次層への誤差の勾配を前記各第２のメモリ領域にそれぞれ保持する前記第１の複数層間における第２の学習処理とを制御する学習制御部と、
を有することを特徴とする画像認識装置。
前記学習制御部は、ニューロンデータサイズがパラメータサイズよりも大きい場合、前記第２の学習処理を実行し、ニューロンデータサイズがパラメータサイズ以下の場合、前記第１の学習処理を実行する制御を行う
ことを特徴とする請求項１に記載の画像認識装置。
前記認識制御部は、第４のメモリ領域に保持した前記出力結果を正規化し、正規化した出力結果を第８のメモリ領域に保持する処理を制御し、
前記学習制御部は、前記第８のメモリ領域に保持した前記正規化した出力結果に基づき計算した前記出力結果の誤差の勾配を、前記第５のメモリ領域に代えて前記第８のメモリ領域に上書きして保持するとともに、前記メモリ量計算部が計算した前記第２の複数層に含まれる各層のニューロンデータサイズとパラメータサイズと大小関係に基づき、前記第８のメモリ領域に保持した前記正規化した出力結果の誤差の勾配又は前記第２の複数層における前層の第６のメモリ領域に保持した誤差の勾配に基づいて計算した前記第２の複数層における次層への誤差の勾配を各第６のメモリ領域に保持した後、前記第２の複数層における次層へのパラメータの誤差の勾配を前記各第３のメモリ領域にそれぞれ保持するよう前記第２の複数層における第１の学習処理を制御する
ことを特徴とする請求項１または２に記載の画像認識装置。
前記学習制御部は、前記間引き処理を行った層については、次層への誤差の勾配を前記第２のメモリ領域に上書きして保持する
ことを特徴とする請求項１〜３の何れか１つに記載の画像認識装置。
入力した画像のニューロンデータとパラメータとに基づいてそれぞれ算出した畳み込み量を各第１のメモリ領域にそれぞれ保持する処理と、前記各第１のメモリ領域に保持した前記畳み込み量に対して間引き処理をそれぞれ行った間引き後の畳み込み量を各第２のメモリ領域にそれぞれ保持する処理とを第１の複数層において行う第１の認識処理と、前記第２のメモリ領域に保持した前記間引き後の畳み込み量の全てに対して第３のメモリ領域に保持した重みをそれぞれ積算した出力結果を各第４のメモリ領域にそれぞれ保持する処理を第２の複数層において行う第２の認識処理とを制御し、
前記第１の複数層と前記第２の複数層とに含まれる各層について、各ニューロンデータのサイズであるニューロンデータサイズと、各パラメータのサイズであるパラメータサイズとをそれぞれ計算し、
前記第４のメモリ領域に保持した前記出力結果に基づき計算した前記出力結果の誤差の勾配を第５のメモリ領域に保持するとともに、計算した前記第２の複数層に含まれる各層のニューロンデータサイズとパラメータサイズと大小関係に基づき、前記第５のメモリ領域に保持した前記出力結果の誤差の勾配又は前記第２の複数層における前層の第６のメモリ領域に保持した誤差の勾配に基づいて計算した前記第２の複数層における次層への誤差の勾配を各第６のメモリ領域に保持した後、前記第２の複数層における次層へのパラメータの誤差の勾配を前記各第３のメモリ領域にそれぞれ保持する前記第２の複数層における第１の学習処理と、計算した前記第１の複数層に含まれる各層のニューロンデータサイズとパラメータサイズとの大小関係に基づき、前記第２の複数層の最終層の第６のメモリ領域又は前記第１の複数層における前層の第７のメモリ領域に保持した誤差の勾配に基づいて計算した次層へのパラメータの誤差の勾配を各第７のメモリ領域に保持した後、前記第１の複数層における次層への誤差の勾配を前記各第２のメモリ領域にそれぞれ保持する前記第１の複数層間における第２の学習処理とを制御する、
処理をコンピュータに実行させることを特徴とする画像認識プログラム。
入力した画像のニューロンデータとパラメータとに基づいてそれぞれ算出した畳み込み量を各第１のメモリ領域にそれぞれ保持する処理と、前記各第１のメモリ領域に保持した前記畳み込み量に対して間引き処理をそれぞれ行った間引き後の畳み込み量を各第２のメモリ領域にそれぞれ保持する処理とを第１の複数層において行う第１の認識処理と、前記第２のメモリ領域に保持した前記間引き後の畳み込み量の全てに対して第３のメモリ領域に保持した重みをそれぞれ積算した出力結果を各第４のメモリ領域にそれぞれ保持する処理を第２の複数層において行う第２の認識処理とを制御し、
前記第１の複数層と前記第２の複数層とに含まれる各層について、各ニューロンデータのサイズであるニューロンデータサイズと、各パラメータのサイズであるパラメータサイズとをそれぞれ計算し、
前記第４のメモリ領域に保持した前記出力結果に基づき計算した前記出力結果の誤差の勾配を第５のメモリ領域に保持するとともに、計算した前記第２の複数層に含まれる各層のニューロンデータサイズとパラメータサイズと大小関係に基づき、前記第５のメモリ領域に保持した前記出力結果の誤差の勾配又は前記第２の複数層における前層の第６のメモリ領域に保持した誤差の勾配に基づいて計算した前記第２の複数層における次層への誤差の勾配を各第６のメモリ領域に保持した後、前記第２の複数層における次層へのパラメータの誤差の勾配を前記各第３のメモリ領域にそれぞれ保持する前記第２の複数層における第１の学習処理と、計算した前記第１の複数層に含まれる各層のニューロンデータサイズとパラメータサイズとの大小関係に基づき、前記第２の複数層の最終層の第６のメモリ領域又は前記第１の複数層における前層の第７のメモリ領域に保持した誤差の勾配に基づいて計算した次層へのパラメータの誤差の勾配を各第７のメモリ領域に保持した後、前記第１の複数層における次層への誤差の勾配を前記各第２のメモリ領域にそれぞれ保持する前記第１の複数層間における第２の学習処理とを制御する、
処理をコンピュータが実行することを特徴とする画像認識方法。
入力したニューロンデータに対して、パラメータによる重み付け演算を含む階層型のニューラルネットワークの演算を行い、当該ニューラルネットワークの各層のニューロンデータとパラメータをそれぞれメモリ領域に保持する認識処理を制御する認識制御部と、
前記ニューラルネットワークの各層のニューロンデータの使用メモリ量とパラメータの使用メモリ量をそれぞれ計算するメモリ量計算部と、
前記認識制御部による認識結果の誤差から前記ニューラルネットワークの各層の誤差の勾配を算出してパラメータを学習する学習処理において、ニューロンデータとパラメータがメモリ領域に保持される層については、ニューロンデータとパラメータのうち、使用メモリ量の小さい方の誤差の勾配を算出してメモリ領域に保持したのち、使用メモリ量の大きい方の誤差の勾配を算出して認識処理のデータを保持したメモリ領域に上書きする制御を行う学習制御部と、
を有することを特徴とする認識装置。