JP2023076839A

JP2023076839A - 機械学習装置およびプルーニング方法

Info

Publication number: JP2023076839A
Application number: JP2021189795A
Authority: JP
Inventors: 竜介関; Ryusuke Seki; 康貴岡田; Yasutaka Okada; 雄喜片山; Yuki Katayama
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2023-06-05

Abstract

【課題】プルーニング後に得られるニューラルネットワークにおける計算効率の向上と、処理精度の低下の抑制との両立を図ることができる技術を提供する。【解決手段】例示的な機械学習装置は、ニューラルネットワークに対してプルーニングを行う処理部を備える。前記プルーニングには、第１のプルーニング処理と、第１のプルーニング処理とは異なる第２のプルーニング処理と、が含まれる。【選択図】図８

Description

本発明は、ニューラルネットワークに対してプルーニングを行う技術に関する。

従来、ディープラーニングにより学習が行われたニューラルネットワークを、計算リソースが限られたエッジデバイスで動作させる手法としてプルーニング（枝刈り）が知られている。プルーニングでは、ニューラルネットワークに含まれる冗長なパラメータの削除が行われる。プルーニングにより、ニューラルネットワークの圧縮を図り、ニューラルネットワークにおける計算効率の向上を図ることができる。

特許文献１には、多層ニューラルネットワークにおける層を削除する技術が開示される。特許文献１における学習装置は、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算し、各層の寄与度に基づいて、削除対象の層を選択する。そして、当該学習装置は、選択された削除対象の層を多層ニューラルネットワークから削除し、削除対象の層が削除された多層ニューラルネットワークの学習を行う。

特開２０１９－１８５２７５号公報

ニューラルネットワークを構成する層単位で削除を行う構成とすると、処理後に得られるニューラルネットワークの計算効率の向上を図れるが、ニューラルネットワークの処理精度が低下することが懸念される。一方で、プルーニングにより冗長なパラメータの削除を十分に行うことができないと、プルーニング後に得られるニューラルネットワークの計算効率を十分に高めることができない可能性がある。

本発明は、上記の点に鑑み、プルーニング後に得られるニューラルネットワークにおける計算効率の向上と、処理精度の低下の抑制との両立を図ることができる技術を提供することを目的とする。

例示的な本発明の機械学習装置は、ニューラルネットワークに対してプルーニングを行う処理部を備える。前記プルーニングには、第１のプルーニング処理と、第１のプルーニング処理とは異なる第２のプルーニング処理と、が含まれる。

例示的な本発明によれば、プルーニング後に得られるニューラルネットワークにおける計算効率の向上と、処理精度の低下の抑制との両立を図ることができる。

機械学習システムの概略構成を示すブロック図プルーニングの概要を示す模式図ニューラルネットワークの構造例について説明するための模式図ニューラルネットワークが有するステージの構造例を示す模式図第１のプルーニング処理の一例について説明するための図第１のプルーニング処理の他の例について説明するための図プルーニングを含む機械学習方法の一例を示すフローチャートプルーニングの流れを示すフローチャートプルーニングを含む機械学習方法の変形例を示すフローチャート

以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。

＜１．機械学習システム＞
図１は、本発明の実施形態に係る機械学習システム１００の概略構成を示すブロック図である。図１に示すように、機械学習システム１００は、機械学習装置１とエッジデバイス２とを備える。

機械学習装置１は、学習済みのニューラルネットワークの生成に関わる処理を行う。機械学習装置１が行う処理には、少なくとも、学習が行われたニューラルネットに対してプルーニングを行う処理が含まれる。本実施形態では、機械学習装置１が行う処理には、プルーニングの他に、プルーニング後の再学習処理も含まれる。

なお、機械学習装置１が行う処理は、プルーニングのみであってもよい。この場合、機械学習装置１は、プルーニング装置であってよい。また、別の例として、機械学習装置１が行う処理には、プルーニングの前に行われるニューラルネットワークを学習する処理（事前学習処理）が含まれてもよい。

本実施形態では、機械学習装置１は、インターネット等の通信網を介してエッジデバイス２と接続される。機械学習装置１は、いわゆるサーバ装置であり、プルーニングおよびその後の再学習が行われたニューラルネットワークをエッジデバイス２に配信する。なお、ここで言うサーバ装置は、物理サーバであっても、クラウドサーバであってもよい。エッジデバイス２は、例えば、スマートフォン、パーソナルコンピュータ、車載装置、ＩｏＴ（Internet of Things）家電等であってよい。

なお、機械学習装置１によりプルーニングおよびその後の再学習が行われたニューラルネットワークは、例えば、光記録媒体あるいは磁気記録媒体等の記録媒体に記録され、記録媒体を介して他の装置（車載装置等）に提供される構成であってもよい。機械学習装置１によりプルーニングおよびその後の再学習が行われたニューラルネットワークは、有線を介して他の装置（車載装置等）に提供される構成であってもよい。

＜２．機械学習装置＞
（２－１．装置の概要）
図１に示すように、機械学習装置１は、処理部１１および記憶部１２を備える。

処理部１１は、例えば、１又は複数のプロセッサにより構成される。プロセッサは、例えばＣＰＵ（Central Processing Unit）またはＧＰＵ（Graphics Processing Unit）を含んで構成されてよい。また、プロセッサは、例えば、ＣＰＵおよびＧＰＵを含んで構成されてもよい。

記憶部１２は、コンピュータにより読み取り可能なプログラムおよびデータ等を非一時的に格納または記憶する。記憶部１２は、不揮発性記憶媒体を有する。記憶部１２が有する不揮発性記憶媒体は、例えば、半導体メモリ、磁気媒体、および、光学媒体等のうち、少なくとも一種類により構成されてよい。

図１に示すように、処理部１１は、機能的な構成として、プルーニング部１１１および学習部１１２を備える。処理部１１が備えるプルーニング部１１１および学習部１１２は、例えば、記憶部１２に記憶されるプログラムに従った演算処理をプロセッサが実行することによって実現される。本実施形態の範囲には、機械学習装置１をコンピュータによって実現するコンピュータプログラムが含まれる。また、本実施形態の範囲には、そのようなプログラムを記録したコンピュータ読取り可能な不揮発性記録媒体が含まれる。

なお、上記各部１１１、１１２は、上述のように、プロセッサにプログラムを実行させること、すなわちソフトウェアにより実現されてよいが、他の手法により実現されてもよい。上記各部１１１、１１２は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等を用いて実現されてもよい。すなわち、上記各部１１１、１１２は、専用のＩＣ等を用いてハードウェアにより実現されてもよい。上記各部１１１、１１２は、ソフトウェアおよびハードウェアを併用して実現されてもよい。また、上記各部１１１、１１２は、概念的な構成要素である。１つの構成要素が実行する機能を複数の構成要素に分散させたり、複数の構成要素が有する機能を１つの構成要素に統合させたりしてよい。

プルーニング部１１１は、ニューラルネットワークに対してプルーニングを行う。つまり、機械学習装置１は、ニューラルネットワークに対してプルーニングを行う処理部１１を備える。詳細には、プルーニングが行われるニューラルネットワークは、事前に学習が行われた学習済みのニューラルネットワークである。この事前の学習は、機械学習装置１によって行われてもよいし、他の装置によって行われてもよい。なお、プルーニングが行われる学習済みのニューラルネットワークは、機械学習装置１がエッジデバイス２に対して配信する学習済みのニューラルネットワークとは異なる。

［２－１－１．プルーニングの概要］
図２は、プルーニングの概要を示す模式図である。図２の左側に示すニューラルネットワークＮＮ１は、プルーニングが行われる前のニューラルネットワークである。図２の右側に示すニューラルネットワークＮＮ２は、ニューラルネットワークＮＮ１に対してプルーニングを行った後のニューラルネットワークである。

図２に示すように、ニューラルネットワークＮＮ１、ＮＮ２は、複数のニューロンＮが集まった層Ｌを複数有する。図２に示す例では、ニューラルネットワークＮＮ１、ＮＮ２は、４つの層Ｌを有する。ニューロンＮは、いわゆるノードと同じである。層Ｌと層Ｌの間には、ニューロンＮ同士のつながりの強さを示す重みＷが存在する。図２に示すように、プルーニング後のニューラルネットワークＮＮ２は、プルーニング前のニューラルネットワークＮＮ１と比べて、ニューロンＮや重みＷの数が減っている。すなわち、プルーニングが行われると、ニューラルネットワークの重みＷおよびニューロンＮのうちの少なくとも一方が取り除かれる。図２に示されたプルーニング後のニューラルネットワークＮＮ２に含まれるニューロンＮや重みＷの数は、プルーニング前のニューラルネットワークＮＮ１と比較して減少している。言い換えれば、プルーニング後のニューラルネットワークＮＮ２は、プルーニング前と比較して、規模が小さくなっている（圧縮されている）。プルーニング後のニューラルネットワークＮＮ２は圧縮されているので、プルーニング後のニューラルネットワークＮＮ２を利用する場合、計算量に加えてメモリの占有量やメモリへのアクセスも低減され、計算効率の向上を図ることができる。本実施形態におけるプルーニングの詳細については、後述する。

図１に戻って、学習部１１２は、プルーニング後のニューラルネットワークを、データセット（不図示）を用いて再学習する。すなわち、処理部１１は、プルーニング後のニューラルネットワークの学習を行う。このような構成とすることによって、プルーニング後のニューラルネットワークの重みの適正化を図り、ニューラルネットワークの処理精度の低下を抑制することができる。

なお、学習部１１２は、機械学習装置１に含まれなくてもよい。また、データセットを用いた学習の手法には、公知の手法が利用されてよい。データセットは、学習データと正解ラベルとを含む教師データ群であってよい。本実施形態では、学習部１１２は、再学習により得られた学習済みのニューラルネットワークをエッジデバイス２に向けて出力する。

（２－２．ニューラルネットワーク）
図３は、処理部１１によってプルーニングが行われるニューラルネットワーク３０の構造例について説明するための模式図である。ニューラルネットワーク３０は、例えば、画像分類や物体検出等を行う画像認識用のニューラルネットワークである。ただし、ニューラルネットワーク３０は、画像認識用のニューラルネットワークに限らず、例えば音声認識用のニューラルネットワーク等であってもよい。

図３に示す例において、プルーニングの対象となるニューラルネットワーク３０は、少なくとも１つのブロック３２を含むステージ３１を複数有する。ニューラルネットワーク３０は、詳細には、複数のステージ３１が連なった構造を有する。複数のステージ３１に含まれるブロック３２の数は、互いに同じであっても、異なってもよい。複数のステージ３１の中には、複数のブロック３２を含むステージ３１が少なくとも１つは存在する。

図４は、ニューラルネットワーク３０が有するステージ３１の構造例を示す模式図である。図４に示す例では、ステージ３１に含まれるブロック３２の数は複数であり、詳細には３つである。図４に示すように、各ブロック３２には、複数の層３３が含まれる。図４に示す例では、各ブロック３２には、３つの畳み込み層３３が含まれる。

図４に示す例では、ステージ３１内に含まれる各ブロック３２の最後の畳み込み層３３が残差コネクション３４により接続される。残差コネクションは、Residual Connection、又は、スキップコネクションと同義である。詳細には、ステージ３１内には、残差コネクション３４が２つ含まれる。第１残差コネクション３４ａは、第１ブロック３２ａの最後の畳み込み層３３ａＬの出力と、第２ブロック３２ｂの最後の畳み込み層３３ｂＬの出力とを結合する。第２残差コネクション３４ｂは、第２ブロック３２ｂの最後の畳み込み層３３ｂＬの出力と、第３ブロック３２ｃの最後の畳み込み層３３ｃＬの出力とを結合する。なお、ステージ３１内に含まれる残差コネクション３４の数は、ステージ３１内に含まれるブロック３２の数に応じて適宜変更されてよい。

出力が残差コネクション３４により結合される畳み込み層３３同士は、要素同士の足し合せが行われるために、出力チャネルの構成が同じとされる。このため、残差コネクション３４で接続される各ブロック３２の最後の畳み込み層３３のチャネル数は同じとされる。換言すると、ステージ３１内において、各ブロック３２の出力チャネル数は同じである。図４に示す例では、第１ブロック３２ａの最後の畳み込み層３３ａＬ、第２ブロック３２ｂの最後の畳み込み層３３ｂＬ、および、第３ブロック３２ｃの最後の畳み込み層３３ｃＬの出力チャネル数は同数Ｃ１である。換言すると、３つのブロック３２ａ、３２ｂ、３２ｃの出力チャネル数はいずれもＣ１である。

本実施形態では、ステージ３１毎に、ブロック３２の出力チャネル数が異なる。換言すると、ステージ３１は、出力するチャネル数が同じとなるブロック３２の集合体である。例えば、ニューラルネットワーク３０が５つのステージ３１を有する場合、第１ステージ、第２ステージ、第３ステージ、第４ステージ、および、第５ステージの各ブロック３２の出力チャネル数は、順に、２４、４０、８０、１２０、１６０等とされる。なお、ステージ３１間を跨ぐ残差コネクション３４は設定されない。

以上のように構成されるニューラルネットワーク３０は、例えば、公知のＲｅｓＮｅｔやＭｏｂｉｌｅＮｅｔＶ２を用いて構成されてよい。ＲｅｓＮｅｔでは、各ブロック３２に含まれる層の数は２つである。ＭｏｂｉｌｅＮｅｔＶ２では、各ブロック３２に含まれる層の数は３つである。

以上では、残差コネクション３４は、各ブロック３２の最後の層３３同士を結合する構成とした。ただし、これは例示である。プルーニングの対象となるニューラルネットワークが残差コネクションを含めばよい。例えば、残差コネクションは、各ブロック３２の中間の層３３同士（例えば、層３３ａＭと層３３ｂＭ）を結合する構成であってもよい。

（２－３．プルーニングの詳細）
本実施形態において、プルーニングには、第１のプルーニング処理と、第１のプルーニング処理とは異なる第２のプルーニング処理とが含まれる。このような構成とすれば、ニューラルネットワーク３０の構成に応じてプルーニングの手法の使い分けを行うことができる。複数のプルーニング手法の使い分けにより、ニューラルネットワーク３０の重みやノードを適切に取り除くことができ、プルーニング後に得られるニューラルネットワーク３０における計算効率の向上と処理精度の低下の抑制との両立を図ることができる。

詳細には、第１のプルーニング処理と第２のプルーニング処理とは、プルーニングを行う、ニューラルネットワーク３０の構成要素の単位が異なる。このような構成とすれば、ニューラルネットワーク３０の局所的な構造の違い等に応じてプルーニングの手法の使い分けを行って、ニューラルネットワーク３０の重みやノードを適切に取り除くことができる。

より詳細には、第１のプルーニング処理は、畳み込み層のチャネル単位でプルーニングを行う。第２のプルーニング処理は、重みパラメータ単位でプルーニングを行う。チャネル単位の方が、重みパラメータ単位よりも、プルーニングを行うニューラルネットワーク３０の構成要素の単位が大きい。すなわち、第１のプルーニング処理は、第２のプルーニング処理に比べて、プルーニングを行うニューラルネットワーク３０の構成要素の単位が大きい。

上述のように、ニューラルネットワーク３０は、残差コネクション３４を含む。このような構成では、残差コネクション３４により接続される畳み込み層３３同士の出力チャネルを同じ構成にする必要がある。このために、残差コネクション３４により接続される層３３に関しては、単独でチャネル単位のプルーニングを行うことができない。すなわち、残差コネクション３４で接続される層３３に対してチャネル単位でプルーニングを行う場合には、接続される各層３３における各チャネルの重要度を総合的に判定してプルーニングを行う必要がある。すなわち、プルーニング処理が複雑となりやすい。

また、残差コネクション３４で接続される層３３の間で、不要なチャネルの数に偏りがある場合、不要なチャネルの数が少ない層３３に合わせてプルーニングを行う必要がある。このために、不要なチャネルの数が多い層３３において、余分なチャネルが残ってしまい、チャネル単位のプルーニングの効果が小さくなることがある。

更に、プルーニングにおいては、ニューラルネットワーク３０全体でプルーニングを行う重みパラメータの比率を決める手法が一般的に行われる。この場合、残差コネクション３４で接続される層３３において、チャネル単位のプルーニングに上述のような制約があるために、残差コネクション３４で接続される層３３以外の層３３にプルーニングが偏って行われる傾向がある。この結果、プルーニング後に得られるニューラルネットワーク３０の処理精度が低下することがある。

この点、本実施形態では、チャネル単位でのプルーニング処理と、重みパラメータ単位でのプルーニング処理とを使い分けることができるために、プルーニング処理の複雑化、および、プルーニング対象の偏りを避けて適度なプルーニングを行うことができる。この結果、プルーニング後に得られるニューラルネットワーク３０における計算効率の向上と、処理精度の低下の抑制との両立を図ることができる。

具体的には、処理部１１は、ニューラルネットワーク３０を構成する複数の層３３のうち、出力が残差コネクション３４で結合される層３３の少なくとも一部を第１のプルーニング処理（チャネル単位のプルーニング処理）の対象外とする。第１のプルーニング処理の対象外とされた層３３に対しては、第２のプルーニング処理（重みパラメータ単位でのプルーニング処理）が行われる。このように構成することで、出力が残差コネクション３４で結合される層３３について、処理が複雑になることを避けつつ、適度なプルーニングを実施することができる。

図４に示す例においては、各ブロック３２ａ、３２ｂ、３２ｃの最後の畳み込み層３３ａＬ、３３ｂＬ、３３ｃＬは、第１のプルーニング処理（チャネル単位のプルーニング）の対象から除外される。そして、これらの畳み込み層３３ａＬ、３３ｂＬ、３３ｃＬは、第２のプルーニング処理（重みパラメータ単位のプルーニング）の対象とされる。各ブロック３２の最初の畳み込み層３３ａＦ、３３ｂＦ、３３ｃＦと、中間の畳み込み層３３ａＭ、３３ｂＭ、３３ｃＭは、第１のプルーニング処理の対象となる。

なお、各ブロック３２の最初の畳み込み層３３ａＦ、３３ｂＦ、３３ｃＦと、中間の畳み込み層３３ａＭ、３３ｂＭ、３３ｃＭとは、第１のプルーニング処理だけが行われる構成であってよい。ただし、各ブロック３２の最初の畳み込み層３３ａＦ、３３ｂＦ、３３ｃＦと、中間の畳み込み層３３ａＭ、３３ｂＭ、３３ｃＭとは、第１のプルーニング処理に加えて、第２のプルーニング処理も行われることが好ましい。

図５は、第１のプルーニング処理の一例について説明するための図である。図５において、ｉは畳み込み層３３の番号、Ｃはチャネル数、ｗとｈはそれぞれ特徴マップ４０の幅と高さを表す。ｉの値が小さいほど入力層に近く、ｉの値が大きいほど出力層に近いことを表す。畳み込み層３３の重みは、サイズｋ×ｋの畳み込みフィルタ（カーネル）がＭ×Ｎ枚配列された構成となっている。行数Ｍは、出力特徴マップ４０のチャネル数（Ｃｉ＋１）に対応する。列数Ｎは、入力特徴マップ４０のチャネル数（Ｃｉ）に対応する。

図５に示す例では、各畳み込みフィルタについて、重みパラメータの絶対値和が算出される。例えば、畳み込みフィルタのサイズが３×３である場合、９つの重みパラメータの絶対値和が算出される。入力チャネルごと（列ごと）に、求めた絶対値和の総和（Ｍ個の絶対値和の総和）が評価値として算出される。評価値が小さい入力チャネルについて、入力チャネルの畳み込みフィルタと、当該入力チャネルに対応する入力特徴マップ４０とが削除される。削除対象となる入力チャネルは、例えば、評価値が小さい方から順番に予め決められた数である。

なお、図５においては、１つの入力チャネルが削除対象となっており、当該削除対象の入力チャネルに含まれる全ての畳み込みフィルタと、当該入力チャネルに対応するハッチングを施した入力特徴マップ４０が削除されている。また、上述の絶対値和の代わりに、例えば、二乗和や、絶対値の最大値が利用される構成等としてもよい。

図６は、第１のプルーニング処理の他の例について説明するための図である。図６においても、図５と同様に、ｉは畳み込み層３３の番号、Ｃはチャネル数、ｗとｈはそれぞれ特徴マップ４０の幅と高さを表す。ｉの値が小さいほど入力層に近く、ｉの値が大きいほど出力層に近いことを表す。畳み込み層３３の重みは、サイズｋ×ｋの畳み込みフィルタがＭ×Ｎ枚配列された構成となっている。行数Ｍは、出力特徴マップ４０のチャネル数（Ｃｉ＋１）に対応する。列数Ｎは、入力特徴マップ４０のチャネル数（Ｃｉ）に対応する。

図６に示す例でも、各畳み込みフィルタについて、重みパラメータの絶対値和が算出される。ただし、図６に示す例では、出力チャネルごと（行ごと）に、求めた絶対値和の総和（Ｎ個の絶対値和の総和）が評価値として算出される。評価値が小さい出力チャネルについて、出力チャネルの畳み込みフィルタと、当該出力チャネルに対応する出力特徴マップ４０とが削除される。削除対象となる出力チャネルは、例えば、評価値が小さい方から順番に予め決められた数である。

なお、図６においては、１つの出力チャネルが削除対象となっており、当該削除対象の出力チャネルに含まれる全ての畳み込みフィルタと、当該出力チャネルに対応するハッチングを施した出力特徴マップ４０が削除される。また、図５に示す例の場合と同様に、上述の絶対値の和の代わりに、例えば、二乗和や、絶対値の最大値が利用される構成としてもよい。

図５に示すプルーニング処理は、入力チャネルの数を削減するプルーニングで、いわゆるチャネルプルーニングである。図６に示すプルーニング処理は、出力チャネルの数を削減するプルーニングで、いわゆるフィルタプルーニングである。図５および図６に示すプルーニングは、上述の説明からわかるように、いずれもチャネル単位でプルーニングが行われる。

上述のように、第２のプルーニング処理は、チャネル単位よりも小さい単位である重みパラメータ単位でプルーニングが行われる。例えば、重みパラメータの絶対値の大きさが、予め定められた閾値よりも小さい場合に、重みパラメータがゼロとされる。絶対値の大きさの代わりに、例えば二乗値が利用されてもよい。

なお、重みパラメータの絶対値が小さい方から順に所定数が、重みパラメータをゼロとされてもよい。また、別の手法として、例えば、ニューラルネットワーク３０の性能（例えば認識率等）に影響を与えない重みパラメータを探索的に見つける手法が用いられてもよい。

重みパラメータ単位で行われる第２のプルーニング処理は、ニューラルネットワーク３０におけるプルーニングを行う構成要素の単位が、チャネル単位で行われる第１のプルーニング処理に比べて小さい。このために、第２のプルーニング処理は、第１のプルーニング処理に比べて精度劣化を小さく抑えることができる。

＜３．機械学習方法＞
次に、本発明の実施形態に係るプルーニング手法を利用した機械学習方法について説明する。図７は、本発明の実施形態に係るプルーニングを含む機械学習方法の一例を示すフローチャートである。

ステップＳ１では、ニューラルネットワーク３０の学習が行われる。当該学習は、データセット（不図示）を用いて行われる。データセットは、学習データと正解ラベルとを含む教師データ群であってよい。当該学習は、上述の事前学習である。事前学習は、機械学習装置１によって行われても、他の装置によって行われてもよい。学習が完了すると、次のステップＳ２に処理が進められる。

ステップＳ２では、機械学習装置１の処理部１１が、学習済みのニューラルネットワーク３０を対象としてプルーニングを行う。プルーニングが完了すると、次のステップＳ３に処理が進められる。ステップＳ３の処理の説明を行う前に、図８を用いてプルーニングの流れについて説明する。図８は、プルーニングの流れを示すフローチャートである。より詳細には、図８は、図７のステップＳ２におけるプルーニングの詳細な流れを示すフローチャートである。

ステップＳ２１では、重みパラメータの削減率が設定される。削減率は、学習済みのニューラルネットワーク３０が有する全ての重みパラメータに対して重みパラメータを削減する比率である。例えばニューラルネットワーク３０の開発を行う開発者等の人が、削減率の設定を行う。機械学習装置１に対する人による削減率の設定は、不図示の入力装置を利用して行われる。なお、削減率の設定は、機械学習装置１が自動的に設定する構成であってもよい。

削減率は、１つの値のみが設定される構成でもよいが、本実施形態では、削減率は、段階的に数値が大きくなるように複数設定される。これは、第１回目のプルーニングからプルーニングの回数を重ねるごとに削減率を大きくする構成とするためである。例えば、削減率は、２０％、２５％、３０％、・・・といった形式で設定される。削減率が設定されると、次のステップＳ２２に処理が進められる。

ステップＳ２２では、処理部１１が、学習済みのニューラルネットワーク３０における不要なチャネルの特定を行う。不要なチャネルの特定を行う処理は、上述したチャネル単位で行われる第１のプルーニング処理に含まれる処理である。ニューラルネットワーク３０に含まれる複数の層３３のうち、出力が残差コネクション３４で結合される層３３は、不要なチャネルを特定する対象から除外される。例えば、上述した評価値が小さい方から順に、所定数が不要なチャネルとして特定される。所定数は、例えば、削減率に応じて自動的に決められる構成としてよい。不要なチャネルの特定が行われると、次のステップＳ２３に処理が進められる。

ステップＳ２３では、処理部１１が、学習済みのニューラルネットワーク３０における不要な重みパラメータの特定を行う。不要な重みパラメータの特定を行う処理は、上述した重みパラメータ単位で行われる第２のプルーニング処理に含まれる処理である。本実施形態では、不要な重みパラメータの特定を行う処理は、ニューラルネットワーク３０に含まれる全ての層３３を対象として行われる。なお、既に不要なチャネルに特定されたチャネルに含まれる重みパラメータは、処理の対象外とされてよい。不要な重みパラメータは、例えば、先の不要なチャネルの特定結果と削減率とに応じて、重みパラメータの絶対値が小さい方から順に特定される。不要な重みパラメータの特定が行われると、次のステップＳ２４に処理が進められる。

なお、ステップＳ２２の処理とステップＳ２３の処理とは、処理を行う順番が反対とされてもよい。

ステップＳ２４では、処理部１１が、先のステップＳ２２およびステップＳ２３の処理で不要と特定されたチャネルおよび重みパラメータをプルーニングする処理を実行する。ステップＳ２４におけるプルーニング処理は、第１のプルーニング処理の一部と、第２のプルーニング処理の一部とを含む。プルーニング処理が実行されると図７に示すステップＳ３に処理が進められる。

以上からわかるように、処理部１１は、ニューラルネットワーク３０を構成する複数の層３３の中から第１のプルーニング処理の対象外となる層３３を特定し、当該特定された層３３を除く層を対象として第１のプルーニング処理を行う。別の言い方をすると、処理部１１は、ニューラルネットワーク３０を構成する複数の層の中から第１のプルーニング処理の対象となる層３３を特定し、当該特定した層３３を対象として第１のプルーニング処理を行う。このような構成とすると、チャネル単位でプルーニングを行う第１のプルーニング処理に適さない層３３に対して第１のプルーニング処理を行わない構成とできる。例えば、出力が残差コネクション３４で結合される層３３の少なくとも一部を第１のプルーニング処理の対象から除外することができる。一方で、チャネル単位でのプルーニングに適した層３３には、チャネル単位でのプルーニングが実行されるために、プルーニングの効果が小さくなることを抑制できる。

また、処理部１１は、複数の層３３のうち、第１のプルーニング処理の対象外に特定された層３３を対象として第２のプルーニング処理を行う。別の言い方をすると、処理部１１は、複数の層３３のうち、第１のプルーニング処理の対象となる層３３に特定した層３３と異なる層３３を対象として第２のプルーニング処理を行う。このような構成によれば、第１のプルーニング処理が行われない層３３が第２のプルーニング処理の対象となるために、プルーニングの効果が極端に小さくなることを抑制することができる。例えば、出力が残差コネクション３４で結合される層３３について、重みパラメータ単位でのプルーニングを行うことができる。なお、層３３を対象として第２のプルーニング処理を行う場合、層間の重みパラメータがプルーニング処理の対象となる。

また、処理部１１は、第１のプルーニング処理の対象外に特定された層３３を除く層３３をさらに対象として第２のプルーニング処理を行う。別の言い方をすると、処理部１１は、第１のプルーニング処理の対象となる層３３に特定した層３３をさらに対象として第２のプルーニング処理を行う。このような構成とすれば、第１のプルーニング処理の対象となった層３３についても第２のプルーニング処理の対象とできる。このために、プルーニングが不十分となることを避けることができ、処理後のニューラルネットワーク３０の計算効率の向上を期待できる。なお、上述した実施形態の構成は、このような構成である。ただし、処理部１１は、第１のプルーニング処理の対象となる層３３を対象として第２のプルーニング処理を行わない構成としてもよい。

図７に戻って、ステップＳ３では、処理部１１は、データセットを用いて、プルーニング後のニューラルネットワーク３０の再学習を行う。再学習が完了すると、次のステップＳ４に処理が進められる。

ステップＳ４では、処理部１１は、プルーニングを終了するか否かを判定する。処理部１１は、例えば、プルーニング後のニューラルネットワーク３０の処理精度が予め設定した閾値以下となった場合に、プルーニングを終了すると判定する。また、別の例として、処理部１１は、プルーニング後のニューラルネットワーク３０のタスク（画像認識等）の実行時間が予め設定された目標値以下となった場合に、プルーニングを終了すると判定する。プルーニングを終了すると判定された場合（ステップＳ４でＹｅｓ）、図７に示す処理が終了する。プルーニングを終了しないと判定された場合（ステップＳ４でＮｏ）、ステップＳ２に戻って、ステップＳ２以降の処理が行われる。

なお、ステップＳ２に戻った場合、先に使用した削減率よりも大きな削減率に変更されて、プルーニングが行われる。また、図７に示す処理により得られたニューラルネットワーク３０は、例えば、エッジデバイス２に配信される。

以上では、第１のプルーニング処理と第２のプルーニング処理とが纏めて実行される構成としたが、図９に示すように、第１のプルーニング処理と第２のプルーニング処理とが順番に行われてもよい。図９は、プルーニングを含む機械学習方法の変形例を示すフローチャートである。

まず、ステップＮ１で学習が行われた学習済みのニューラルネットワークに対して、第１のプルーニング処理が行われる（ステップＮ２）。削減率が設定され、チャネル単位のプルーニングが行われる。なお、ここでは、出力が残差コネクション３４で結合される層３３は、プルーニングの対象から除外される。

第１のプルーニング処理後に再学習が行われ（ステップＮ３）、その後、第１のプルーニング処理を終了するか否かの判定が行われる（ステップＮ４）。例えば、第１のプルーニング処理後のニューラルネットワークの処理精度が予め設定した閾値以下となった場合に、第１のプルーニング処理を終了すると判定する。第１のプルーニング処理を終了しない場合（ステップＮ４でＮｏ）、ステップＮ２に戻ってステップＮ２以降の処理が繰り返される。

第１のプルーニング処理を終了する場合（ステップＮ４でＹｅｓ）、第１のプルーニング処理が行われたニューラルネットワークに対して第２のプルーニング処理が行われる（ステップＮ５）。削減率が設定され、重みパラメータ単位のプルーニングが行われる。なお、本例では、出力が残差コネクションで結合される層を含む全ての層がプルーニングの対象とされる。

第２のプルーニング処理後に再学習が行われ（ステップＮ６）、その後、第２のプルーニング処理を終了するか否かの判定が行われる（ステップＮ７）。例えば、第２のプルーニング処理後のニューラルネットワークの処理精度が予め設定した閾値以下となった場合に、第２のプルーニング処理を終了すると判定する。第２のプルーニング処理を終了しない場合（ステップＮ７でＮｏ）、ステップＮ５に戻ってステップＮ５以降の処理が繰り返される。第２のプルーニング処理を終了する場合（ステップＮ７でＹｅｓ）、図９に示す処理が終了する。図９に示す処理により得られたニューラルネットワークは、例えば、エッジデバイス２に配信される。

なお、本変形例では、第１のプルーニング処理の後に第２のプルーニング処理が行われる構成としたが、第２のプルーニング処理の後に第１のプルーニング処理が行われる構成としてもよい。

＜４．留意事項等＞
本明細書中に開示されている種々の技術的特徴は、上記実施形態のほか、その技術的創作の主旨を逸脱しない範囲で種々の変更を加えることが可能である。すなわち、上記実施形態は、全ての点で例示であって、制限的なものではないと考えられるべきである。本発明の技術的範囲は、上記実施形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲と均等の意味及び範囲内に属する全ての変更が含まれると理解されるべきである。また、本明細書中に示される複数の実施形態及び変形例は可能な範囲で適宜組み合わせて実施されてよい。

１・・・機械学習装置
１１・・・処理部
３０・・・ニューラルネットワーク
３３・・・層、畳み込み層
３４・・・残差コネクション

Claims

ニューラルネットワークに対してプルーニングを行う処理部を備え、
前記プルーニングには、
第１のプルーニング処理と、
第１のプルーニング処理とは異なる第２のプルーニング処理と、
が含まれる、機械学習装置。
第１のプルーニング処理と第２のプルーニング処理とは、前記プルーニングを行う、前記ニューラルネットワークの構成要素の単位が異なる、請求項１に記載の機械学習装置。
第１のプルーニング処理は、畳み込み層のチャネル単位で前記プルーニングを行い、
第２のプルーニング処理は、重みパラメータ単位で前記プルーニングを行う、請求項１又は２に記載の機械学習装置。
前記処理部は、前記ニューラルネットワークを構成する複数の層の中から第１のプルーニング処理の対象となる層を特定し、当該特定した層を対象として第１のプルーニング処理を行う、請求項１から３のいずれか１項に記載の機械学習装置。
前記処理部は、前記複数の層のうち、前記特定した層と異なる層を対象として第２のプルーニング処理を行う、請求項４に記載の機械学習装置。
前記処理部は、前記特定した層をさらに対象として第２のプルーニング処理を行う、請求項５に記載の機械学習装置。
前記ニューラルネットワークは、残差コネクションを含む、請求項１から６のいずれか１項に記載の機械学習装置。
前記ニューラルネットワークは、残差コネクションを含み、
前記処理部は、前記ニューラルネットワークを構成する複数の層のうち、出力が前記残差コネクションで結合される層の少なくとも一部を第１のプルーニング処理の対象外とする、請求項３に記載の機械学習装置。
前記処理部は、前記プルーニング後のニューラルネットワークの学習を行う、請求項１から８のいずれか１項に記載の機械学習装置。
ニューラルネットワークに対してプルーニングを行う方法であって、
前記プルーニングには、
第１のプルーニング処理と、
第１のプルーニング処理とは異なる第２のプルーニング処理と、
が含まれる、プルーニング方法。