JP6831347B2

JP6831347B2 - 学習装置、学習方法および学習プログラム

Info

Publication number: JP6831347B2
Application number: JP2018073498A
Authority: JP
Inventors: 安俊井田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-04-05
Filing date: 2018-04-05
Publication date: 2021-02-17
Anticipated expiration: 2038-04-05
Also published as: JP2019185275A; WO2019194299A1; US20200410348A1

Description

本発明は、学習装置、学習方法および学習プログラムに関する。

機械学習は、識別や回帰、クラスタリングなどのタスクにおいて、観測データに基づき、誤差関数を下げるようにモデルのパラメータの学習を行い、未知データに対して推定を行う技術分野である。その中でも、モデル部分に多層ニューラルネットワーク（主に８層以上）を用いた技術分野はディープラーニングと呼ばれる。

近年、ディープラーニングは層数を増やすことで推定精度が上昇することが示唆されており、１０００層を超えるモデルも登場している。このような大きな層数の実現するためには、モデルの中でもResidual Networkと呼ばれるものを用いることが一般的であり、ディープラーニングにおいて一つの標準的なモデルとなっている。

ところが、多層ニューラルネットワークにおける層数が増加することで計算コストは大きくなっている。具体的には、推定における計算時間とメモリ消費量が増加しており、モバイルやＩｏＴ用デバイス等に搭載することが困難である。このため、多層ニューラルネットワークにおける層を動的に削除する手法が提案されている。

Veit Andreas, Wilber Michael J. and Belongie Serge J. Residual Networks Behave Like Ensembles of Relatively Shallow Networks. In NIPS, pp. 550-558, 2016. Wu Zuxuan, Nagarajan Tushar, Kumar Abhishek, Rennie Steven, Davis Larry S., Grauman Kristen and Feris Rogerio Schmidt. BlockDrop: Dynamic Inference Paths in Residual Networks. CoRR, abs/1711.08393, 2017. Veit Andreas and Belongie Serge J. Convolutional Networks with Adaptive Computation Graphs. CoRR, abs/1711.11503, 2017. Huang Zehao and Wang Naiyan. Data-Driven Sparse Structure Selection for Deep Neural Networks. CoRR, abs/1707.01213, 2017. Sergey Zagoruyko and Nikos Komodakis. Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer. CoRR, abs/1612.03928, 2016.

しかしながら、従来の技術では、精度の低下を防ぎつつ、多層ニューラルネットワークにおける層を削除することができないという課題があった。例えば、従来の動的に層を削除する手法（例えば、非特許文献２、３参照）では、層を削除するほど精度が低下してしまう。なお、従来の技術として、削除対象の層を選択するために更に別のモデルを用意して多層ニューラルネットワークにおける層を動的に削除する手法があるが、この手法ではメモリ消費量が増加してしまう。

本発明は、上記に鑑みてなされたものであって、精度の低下を防ぎつつ、多層ニューラルネットワークにおける層を削除することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の学習装置は、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算する計算部と、前記計算部によって計算された各層の寄与度に基づいて、削除対象の層を選択する選択部と、前記選択部によって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除部と、前記削除部によって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習部とを有することを特徴とする。

また、本発明の学習方法は、学習装置によって実行される学習方法であって、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算する計算工程と、前記計算工程によって計算された各層の寄与度に基づいて、削除対象の層を選択する選択工程と、前記選択工程によって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除工程と、前記削除工程によって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習工程とを含んだことを特徴とする。

また、本発明の学習プログラムは、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算する計算ステップと、前記計算ステップによって計算された各層の寄与度に基づいて、削除対象の層を選択する選択ステップと、前記選択ステップによって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除ステップと、前記削除ステップによって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習ステップとをコンピュータに実行させることを特徴とする。

本発明によれば、精度の低下を防ぎつつ、多層ニューラルネットワークにおける層を削除することができるという効果を奏する。

図１は、第一の実施の形態に係る学習装置の構成例を示すブロック図である。図２は、第一の実施の形態に係る学習装置による処理の概要を説明する図である。図３は、第一の実施の形態に係る学習装置による処理の疑似コードの一例を示す図である。図４は、第一の実施の形態に係る学習装置による処理を説明するフローチャートである。図５は、学習プログラムを実行するコンピュータを示す図である。

以下に、本願に係る学習装置、学習方法および学習プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る学習装置、学習方法および学習プログラムが限定されるものではない。

［第一の実施の形態］
以下の実施の形態では、まず多層ニューラルネットの一種であるResidual Networkについて説明し、第一の実施の形態に係る学習装置の構成、学習装置における処理の流れを順に説明し、最後に第一の実施の形態による効果を説明する。

［多層ニューラルネット］
Residual Networkは、Residual Unitと呼ばれるユニットを積み重ねていくことで、多層構造を構築する多層ニューラルネットの一種である。Residual Unitは以下の（１）式で表される。

ｘ_ｌはｌ番目のResidual Unitへの入力信号であり、Ｆ（ｘ_ｌ）は入力信号ｘ_ｌを引数とする非線形写像（関数）である。最初の入力信号であるｘ_０には、例えば画像認識であれば画像の画素値が相当する。Ｆ（ｘ_ｌ）の構築方法は様々であるが、例えば、非特許文献１のように、畳み込み層・Batch Normalization・ReLUなどを組み合わせて構築する。（１）式をｌに関して再帰的に適用することでResidual Networkは多層構造を構築することができる。最後の層にはソフトマックス関数とクロスエントロピー誤差関数などを設定することで、例えば画像の分類器を構築することができる。

この場合、Residual Networkは画像のカテゴリを推定するということになる。Residual Networkにおいては、上記の（１）式のResidual UnitからＦ（ｘ_ｌ）を削除することで層を削除することができる。上記の（１）式からＦ（ｘ_ｌ）を削除するとｘ_ｌ+１＝ｘ_ｌとなるため、入力信号は断絶せず、より上位のResidual Unitにそのまま引数として渡されるためである。

第一の実施の形態に係る学習装置１０は、多層ニューラルネット(Residual Network)を用いた学習装置である。以下に、学習装置１０について説明する。

［学習装置の構成］
図１を用いて、学習装置１０の構成を説明する。図１は、第一の実施の形態に係る学習装置の構成例を示すブロック図である。図１に示すように、この学習装置１０は、入力部１１、出力部１２、制御部１３および記憶部１４を有する。以下に学習装置１０が有する各部の処理を説明する。

入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１３に対して各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置、スピーカ等によって実現される。

また、記憶部１４は、制御部１３による各種処理に必要なデータおよびプログラムを格納する。例えば、記憶部１４は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。

制御部１３は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行するが、特に本発明に密接に関連するものとしては、計算部１３ａ、選択部１３ｂ、削除部１３ｃおよび学習部１３ｄを有する。ここで、制御部１３は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などの電子回路やＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路である。

計算部１３ａは、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算する。例えば、計算部１３ａは、上記の（１）式を下記（２）式のように変更することで実現する。

ここでｗ_ｌは、他のパラメータ同様、学習によって獲得されるスカラー値であり、寄与度と呼ぶ。寄与度ｗ_ｌの絶対値が小さいとｗ_ｌＦ（ｘ_ｌ）の出力の絶対値は小さくスケーリングされる。つまり、寄与度ｗ_ｌの絶対値が小さいとｗ_ｌＦ（ｘ_ｌ）の出力は上位のResidual Unitにあまり影響を与えない。したがって、本実施の形態では寄与度ｗ_ｌの絶対値を推定結果への寄与の度合いを計算する指標として扱う。他の寄与度の計算方法として、Ｆ（ｘｌ）の中に含まれるパラメータのノルムを使う方法も考えられる。ノルムとしては、例えばフロベニウスノルムや最大ノルムなどが挙げられる。このノルムを各Ｆ（ｘｌ）で計算し、その値を寄与度として扱う。このノルムを寄与度として扱う場合、モデルは（２）式ではなく（１）式で構築する。ノルムを使う場合の寄与度は、ノルムの値が大きいものを寄与度が大きいとしてもよいし、ノルムの値が小さいものを寄与度が大きいとしてもよい。

選択部１３ｂは、計算部１３ａによって計算された各層の寄与度に基づいて、削除対象の層を選択する。例えば、選択部１３ｂは、計算部１３ａによって計算された各層の寄与度を比較し、寄与度が低い所定数の層を削除対象の層として選択する。なお、所定数は、ユーザが任意に設定変更可能な所定数であるものとする。選択部１３ｂは、任意に設定変更可能な所定数の層を、削除対象の層として選択する。ここで、所定数が多いほど、つまり、一度に削除する層が多いほど処理負荷が軽くなり、所定数が少ないほど、つまり、一度に削除する層が少ないほど、削除前と比べて精度の低下を抑えることができる。なお、以下では、所定数をｋと記載する。例えば、選択部１３ｂは、学習後の上記（２）式の寄与度ｗ_ｌの絶対値を指標とし、これが小さいｋ個のResidual Unitを選択する。

削除部１３ｃは、選択部１３ｂによって選択された削除対象の層を多層ニューラルネットワークから削除する。例えば、削除部１３ｃは、選択部１３ｂによって選択されたｋ個のResidual Unitを削除する。つまり、削除部１３ｃは、選択部１３ｂによって選択されたｋ個のResidual Unitについて、上記の（２）式からｗ_ｌＦ（ｘ_ｌ）を削除する。

学習部１３ｄは、削除部１３ｃによって削除対象の層が削除された多層ニューラルネットワークの学習を行う。例えば、学習部１３ｄは、Residual Unitの層を削除した後のパラメータを初期値として、再び学習を行う。このとき、学習には様々なOptimizerを使うことができる。例えば、Stochastic Gradient Descent（ＳＧＤ）を使うことができる（例えば、非特許文献１参照）。このときOptimizerの初期学習率は最初の学習で用いた初期学習率と同等の大きさを設定し、精度が回復するまでｎエポックの最適化を行う。これにより、削除によって低下した推定精度を修復する。このとき、元の誤差関数とは別の誤差関数を学習に使うこともできる。例えば、Attention Transfer lossのような損失関数が挙げられる（例えば、非特許文献５参照）。

ここで図２の例を用いて、第一の実施の形態に係る学習装置１０による処理の概要を説明する。図２は、第一の実施の形態に係る学習装置による処理の概要を説明する図である。図２に例示するように、学習装置１０は、多層ニューラルネットにおける各層の推定結果への寄与の度合いを計算し、寄与度を元に削除する層を選択する。続いて、学習装置１０は、選択した層を削除し、層を削除した後に学習を再び行う。そして、学習装置１０は、多層ニューラルネットにおける層の数が目標値になるまで、上記の処理を繰り返し適用することで層の数を減らしていくことができる。

このように、学習装置１０では、多層ニューラルネットワークにおける各層がどれだけ精度に影響を与えるかという寄与率を導入し、学習後に寄与率にしたがって層を削除する。加えて、学習装置１０では、削除の後に再学習を行うことで精度を回復させる。学習装置１０では、削除と再学習を繰り返すことで複数の層の削除が可能となる。この結果、学習装置１０では、少ない層数で効率的に推定結果を得ることができる多層ニューラルネットワークを提供することが可能である。

［疑似コード］
次に、学習装置１０による処理を実現する疑似コードについて説明する。図３は、第一の実施の形態に係る学習装置による処理を実現する疑似コードの一例を示す図である。また、主な記号を下表に示す。以下の各説明において、同一の記号を用いる。

図３に例示するように、学習装置１０は、学習データセットＤ、初期学習率η、Residual Unitの数Ｌ、一度にResidual Unitを削除する数ｋ、削除した後のResidual Unitの合計数の目標値Ｌ’、再学習のイテレーション数ｎを与える。

まず、学習装置１０は、Residual Networkの学習対象となるパラメータを初期化する（図３の行番号１参照）。次に、適当なOptimizer（例えばＳＧＤ）を用いてResidual Networkを学習する（図３の行番号２参照）。学習装置１０は、徐々にResidual Unitを削除するため、残りのResidual Unit数を記録するｌ’と削除回数ｓを初期化する（図３の行番号３参照）。

そして、学習装置１０は、残りのResidual Unit数ｌ’が目標値Ｌ’より多ければ、Residual Unitの削除と再学習を繰り返す（図３の行番号４参照）。学習装置１０は、Residual Unitの削除を実行する際、削除回数ｓをインクリメントする（図３の行番号５参照）。削除対象となるResidual Unitのインデックスを記録する集合Ｉｓを初期化する（図３の行番号６参照）。

続いて、学習装置１０は、寄与度ｗ_ｌの絶対値が小さいｋ個（例えば、１個）のResidual Unitを選択し、そのインデクスをＩｓに追加する（図３の行番号７参照）。学習装置１０は、Ｉｓに含まれるインデックスについて、上記の（２）式のResidual Unit内におけるｗ_ｌＦ（ｘ_ｌ）を削除する（図３の行番号８参照）。そして、学習装置１０は、Residual Unit削除後のResidual Networkを、初期学習率ηでｎエポック学習する（図３の行番号９参照）。その後、学習装置１０は、残りのResidual Unit数ｌ’から削除したResidual Unit数ｋを減算する（図３の行番号１０参照）。そして、学習装置１０は、残りのResidual Unit数ｌ’が目標値Ｌ’になるまでResidual Unitの削除と再学習を繰り返す（図３の行番号４〜１１参照）。

［学習装置の処理の流れ］
次に、図４を用いて、第一の実施の形態に係る学習装置１０の処理の流れを説明する。図４は、第一の実施の形態に係る学習装置による処理を説明するフローチャートである。

図４に示すように、学習装置１０の計算部１３ａは、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算する（ステップＳ１０１）。そして、選択部１３ｂは、計算部１３ａによって計算された各層の寄与度に基づいて、削除対象の層を選択する（ステップＳ１０２）。例えば、選択部１３ｂは、計算部１３ａによって計算された各層の寄与度を比較し、寄与度が低いｋ個のResidual Unitを選択する。

続いて、削除部１３ｃは、選択部１３ｂによって選択された削除対象の層を多層ニューラルネットワークから削除する（ステップＳ１０３）。例えば、削除部１３ｃは、選択部１３ｂによって選択されたｋ個のResidual Unitを削除する。つまり、削除部１３ｃは、選択部１３ｂによって選択されたｋ個のResidual Unitについて、上記の（２）式からｗ_ｌＦ（ｘ_ｌ）を削除する。

そして、学習部１３ｄは、削除部１３ｃによって削除対象の層が削除された多層ニューラルネットワークの学習を行う（ステップＳ１０４）。例えば、学習部１３ｄは、Residual Unitの層を削除した後のパラメータを初期値として、再び学習を行う。

その後、学習部１３ｄは、削除部１３ｃによって削除対象の層が削除された結果、層の数が目標値になったか否か判定し（ステップＳ１０５）、層の数が目標値より多いと判定した場合には（ステップＳ１０５否定）、ステップＳ１０１の処理に戻って上記の処理を繰り返す。また、学習部１３ｄは、層の数が目標値になったと判定した場合には（ステップＳ１０５肯定）、そのまま処理を終了する。

［第一の実施の形態の効果］
このように、第一の実施の形態に係る学習装置１０は、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算し、各層の寄与度に基づいて、削除対象の層を選択する。そして、学習装置１０は、選択された削除対象の層を多層ニューラルネットワークから削除し、削除対象の層が削除された多層ニューラルネットワークの学習を行う。つまり、学習装置１０では、各層の推定結果への寄与度に基づいて、寄与度の小さい層を削除しつつ、削除後のモデルで、再学習を行い精度の低下を防止する。このため、学習装置１０では、精度の低下を防ぎつつ、多層ニューラルネットワークにおける層を削除することが可能である。

また、学習装置１０によって学習されたモデルは層数が少なくなるため、推定時にメモリ消費量が削減される。このため、少ないメモリ消費量で推定を行うことができる。また、学習装置１０によって学習されたモデルは経験的に層の削除前よりも高い精度を実現するため、高精度に推定を行うことができる。また、学習装置１０によって学習されたモデルは層数が少なくなるため、計算時間が短くなるので、高速に推定を行うことができる。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図５は、学習プログラムを実行するコンピュータを示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１０５１、キーボード１０５２に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１０６１に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク、ＷＡＮを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０学習装置
１１入力部
１２出力部
１３制御部
１３ａ計算部
１３ｂ選択部
１３ｃ削除部
１３ｄ学習部
１４記憶部

Claims

多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度を、学習によって獲得される所定のスカラー値、または所定の非線形写像の中に含まれるパラメータのノルムに基づいて、それぞれ計算する計算部と、
前記計算部によって計算された各層の寄与度に基づいて、削除対象の層を選択する選択部と、
前記選択部によって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除部と、
前記削除部によって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習部と
を有することを特徴とする学習装置。
前記選択部は、前記計算部によって計算された各層の寄与度を比較し、前記寄与度が低い所定数の層を前記削除対象の層として選択することを特徴とする請求項１に記載の学習装置。
前記選択部は、任意に設定変更可能な所定数の層を、前記削除対象の層として選択することを特徴とする請求項１に記載の学習装置。
学習装置によって実行される学習方法であって、
多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度を、学習によって獲得される所定のスカラー値、または所定の非線形写像の中に含まれるパラメータのノルムに基づいて、それぞれ計算する計算工程と、
前記計算工程によって計算された各層の寄与度に基づいて、削除対象の層を選択する選択工程と、
前記選択工程によって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除工程と、
前記削除工程によって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習工程と
を含んだことを特徴とする学習方法。
多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度を、学習によって獲得される所定のスカラー値、または所定の非線形写像の中に含まれるパラメータのノルムに基づいて、それぞれ計算する計算ステップと、
前記計算ステップによって計算された各層の寄与度に基づいて、削除対象の層を選択する選択ステップと、
前記選択ステップによって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除ステップと、
前記削除ステップによって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習ステップと
をコンピュータに実行させるための学習プログラム。