JP6831347B2 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
JP6831347B2
JP6831347B2 JP2018073498A JP2018073498A JP6831347B2 JP 6831347 B2 JP6831347 B2 JP 6831347B2 JP 2018073498 A JP2018073498 A JP 2018073498A JP 2018073498 A JP2018073498 A JP 2018073498A JP 6831347 B2 JP6831347 B2 JP 6831347B2
Authority
JP
Japan
Prior art keywords
layer
learning
deleted
neural network
contribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018073498A
Other languages
English (en)
Other versions
JP2019185275A (ja
Inventor
安俊 井田
安俊 井田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018073498A priority Critical patent/JP6831347B2/ja
Priority to US16/980,430 priority patent/US20200410348A1/en
Priority to PCT/JP2019/015040 priority patent/WO2019194299A1/ja
Publication of JP2019185275A publication Critical patent/JP2019185275A/ja
Application granted granted Critical
Publication of JP6831347B2 publication Critical patent/JP6831347B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Description

本発明は、学習装置、学習方法および学習プログラムに関する。
機械学習は、識別や回帰、クラスタリングなどのタスクにおいて、観測データに基づき、誤差関数を下げるようにモデルのパラメータの学習を行い、未知データに対して推定を行う技術分野である。その中でも、モデル部分に多層ニューラルネットワーク(主に8層以上)を用いた技術分野はディープラーニングと呼ばれる。
近年、ディープラーニングは層数を増やすことで推定精度が上昇することが示唆されており、1000層を超えるモデルも登場している。このような大きな層数の実現するためには、モデルの中でもResidual Networkと呼ばれるものを用いることが一般的であり、ディープラーニングにおいて一つの標準的なモデルとなっている。
ところが、多層ニューラルネットワークにおける層数が増加することで計算コストは大きくなっている。具体的には、推定における計算時間とメモリ消費量が増加しており、モバイルやIoT用デバイス等に搭載することが困難である。このため、多層ニューラルネットワークにおける層を動的に削除する手法が提案されている。
Veit Andreas, Wilber Michael J. and Belongie Serge J. Residual Networks Behave Like Ensembles of Relatively Shallow Networks. In NIPS, pp. 550-558, 2016. Wu Zuxuan, Nagarajan Tushar, Kumar Abhishek, Rennie Steven, Davis Larry S., Grauman Kristen and Feris Rogerio Schmidt. BlockDrop: Dynamic Inference Paths in Residual Networks. CoRR, abs/1711.08393, 2017. Veit Andreas and Belongie Serge J. Convolutional Networks with Adaptive Computation Graphs. CoRR, abs/1711.11503, 2017. Huang Zehao and Wang Naiyan. Data-Driven Sparse Structure Selection for Deep Neural Networks. CoRR, abs/1707.01213, 2017. Sergey Zagoruyko and Nikos Komodakis. Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer. CoRR, abs/1612.03928, 2016.
しかしながら、従来の技術では、精度の低下を防ぎつつ、多層ニューラルネットワークにおける層を削除することができないという課題があった。例えば、従来の動的に層を削除する手法(例えば、非特許文献2、3参照)では、層を削除するほど精度が低下してしまう。なお、従来の技術として、削除対象の層を選択するために更に別のモデルを用意して多層ニューラルネットワークにおける層を動的に削除する手法があるが、この手法ではメモリ消費量が増加してしまう。
本発明は、上記に鑑みてなされたものであって、精度の低下を防ぎつつ、多層ニューラルネットワークにおける層を削除することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の学習装置は、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算する計算部と、前記計算部によって計算された各層の寄与度に基づいて、削除対象の層を選択する選択部と、前記選択部によって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除部と、前記削除部によって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習部とを有することを特徴とする。
また、本発明の学習方法は、学習装置によって実行される学習方法であって、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算する計算工程と、前記計算工程によって計算された各層の寄与度に基づいて、削除対象の層を選択する選択工程と、前記選択工程によって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除工程と、前記削除工程によって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習工程とを含んだことを特徴とする。
また、本発明の学習プログラムは、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算する計算ステップと、前記計算ステップによって計算された各層の寄与度に基づいて、削除対象の層を選択する選択ステップと、前記選択ステップによって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除ステップと、前記削除ステップによって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習ステップとをコンピュータに実行させることを特徴とする。
本発明によれば、精度の低下を防ぎつつ、多層ニューラルネットワークにおける層を削除することができるという効果を奏する。
図1は、第一の実施の形態に係る学習装置の構成例を示すブロック図である。 図2は、第一の実施の形態に係る学習装置による処理の概要を説明する図である。 図3は、第一の実施の形態に係る学習装置による処理の疑似コードの一例を示す図である。 図4は、第一の実施の形態に係る学習装置による処理を説明するフローチャートである。 図5は、学習プログラムを実行するコンピュータを示す図である。
以下に、本願に係る学習装置、学習方法および学習プログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態により本願に係る学習装置、学習方法および学習プログラムが限定されるものではない。
[第一の実施の形態]
以下の実施の形態では、まず多層ニューラルネットの一種であるResidual Networkについて説明し、第一の実施の形態に係る学習装置の構成、学習装置における処理の流れを順に説明し、最後に第一の実施の形態による効果を説明する。
[多層ニューラルネット]
Residual Networkは、Residual Unitと呼ばれるユニットを積み重ねていくことで、多層構造を構築する多層ニューラルネットの一種である。Residual Unitは以下の(1)式で表される。
Figure 0006831347
はl番目のResidual Unitへの入力信号であり、F(x)は入力信号xを引数とする非線形写像(関数)である。最初の入力信号であるxには、例えば画像認識であれば画像の画素値が相当する。F(x)の構築方法は様々であるが、例えば、非特許文献1のように、畳み込み層・Batch Normalization・ReLUなどを組み合わせて構築する。(1)式をlに関して再帰的に適用することでResidual Networkは多層構造を構築することができる。最後の層にはソフトマックス関数とクロスエントロピー誤差関数などを設定することで、例えば画像の分類器を構築することができる。
この場合、Residual Networkは画像のカテゴリを推定するということになる。Residual Networkにおいては、上記の(1)式のResidual UnitからF(x)を削除することで層を削除することができる。上記の(1)式からF(x)を削除するとxl+1=xとなるため、入力信号は断絶せず、より上位のResidual Unitにそのまま引数として渡されるためである。
第一の実施の形態に係る学習装置10は、多層ニューラルネット(Residual Network)を用いた学習装置である。以下に、学習装置10について説明する。
[学習装置の構成]
図1を用いて、学習装置10の構成を説明する。図1は、第一の実施の形態に係る学習装置の構成例を示すブロック図である。図1に示すように、この学習装置10は、入力部11、出力部12、制御部13および記憶部14を有する。以下に学習装置10が有する各部の処理を説明する。
入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部13に対して各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置、スピーカ等によって実現される。
また、記憶部14は、制御部13による各種処理に必要なデータおよびプログラムを格納する。例えば、記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。
制御部13は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行するが、特に本発明に密接に関連するものとしては、計算部13a、選択部13b、削除部13cおよび学習部13dを有する。ここで、制御部13は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。
計算部13aは、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算する。例えば、計算部13aは、上記の(1)式を下記(2)式のように変更することで実現する。
Figure 0006831347
ここでwは、他のパラメータ同様、学習によって獲得されるスカラー値であり、寄与度と呼ぶ。寄与度wの絶対値が小さいとwF(x)の出力の絶対値は小さくスケーリングされる。つまり、寄与度wの絶対値が小さいとwF(x)の出力は上位のResidual Unitにあまり影響を与えない。したがって、本実施の形態では寄与度wの絶対値を推定結果への寄与の度合いを計算する指標として扱う。他の寄与度の計算方法として、F(xl)の中に含まれるパラメータのノルムを使う方法も考えられる。ノルムとしては、例えばフロベニウスノルムや最大ノルムなどが挙げられる。このノルムを各F(xl)で計算し、その値を寄与度として扱う。このノルムを寄与度として扱う場合、モデルは(2)式ではなく(1)式で構築する。ノルムを使う場合の寄与度は、ノルムの値が大きいものを寄与度が大きいとしてもよいし、ノルムの値が小さいものを寄与度が大きいとしてもよい。
選択部13bは、計算部13aによって計算された各層の寄与度に基づいて、削除対象の層を選択する。例えば、選択部13bは、計算部13aによって計算された各層の寄与度を比較し、寄与度が低い所定数の層を削除対象の層として選択する。なお、所定数は、ユーザが任意に設定変更可能な所定数であるものとする。選択部13bは、任意に設定変更可能な所定数の層を、削除対象の層として選択する。ここで、所定数が多いほど、つまり、一度に削除する層が多いほど処理負荷が軽くなり、所定数が少ないほど、つまり、一度に削除する層が少ないほど、削除前と比べて精度の低下を抑えることができる。なお、以下では、所定数をkと記載する。例えば、選択部13bは、学習後の上記(2)式の寄与度wの絶対値を指標とし、これが小さいk個のResidual Unitを選択する。
削除部13cは、選択部13bによって選択された削除対象の層を多層ニューラルネットワークから削除する。例えば、削除部13cは、選択部13bによって選択されたk個のResidual Unitを削除する。つまり、削除部13cは、選択部13bによって選択されたk個のResidual Unitについて、上記の(2)式からwF(x)を削除する。
学習部13dは、削除部13cによって削除対象の層が削除された多層ニューラルネットワークの学習を行う。例えば、学習部13dは、Residual Unitの層を削除した後のパラメータを初期値として、再び学習を行う。このとき、学習には様々なOptimizerを使うことができる。例えば、Stochastic Gradient Descent(SGD)を使うことができる(例えば、非特許文献1参照)。このときOptimizerの初期学習率は最初の学習で用いた初期学習率と同等の大きさを設定し、精度が回復するまでnエポックの最適化を行う。これにより、削除によって低下した推定精度を修復する。このとき、元の誤差関数とは別の誤差関数を学習に使うこともできる。例えば、Attention Transfer lossのような損失関数が挙げられる(例えば、非特許文献5参照)。
ここで図2の例を用いて、第一の実施の形態に係る学習装置10による処理の概要を説明する。図2は、第一の実施の形態に係る学習装置による処理の概要を説明する図である。図2に例示するように、学習装置10は、多層ニューラルネットにおける各層の推定結果への寄与の度合いを計算し、寄与度を元に削除する層を選択する。続いて、学習装置10は、選択した層を削除し、層を削除した後に学習を再び行う。そして、学習装置10は、多層ニューラルネットにおける層の数が目標値になるまで、上記の処理を繰り返し適用することで層の数を減らしていくことができる。
このように、学習装置10では、多層ニューラルネットワークにおける各層がどれだけ精度に影響を与えるかという寄与率を導入し、学習後に寄与率にしたがって層を削除する。加えて、学習装置10では、削除の後に再学習を行うことで精度を回復させる。学習装置10では、削除と再学習を繰り返すことで複数の層の削除が可能となる。この結果、学習装置10では、少ない層数で効率的に推定結果を得ることができる多層ニューラルネットワークを提供することが可能である。
[疑似コード]
次に、学習装置10による処理を実現する疑似コードについて説明する。図3は、第一の実施の形態に係る学習装置による処理を実現する疑似コードの一例を示す図である。また、主な記号を下表に示す。以下の各説明において、同一の記号を用いる。
Figure 0006831347
図3に例示するように、学習装置10は、学習データセットD、初期学習率η、Residual Unitの数L、一度にResidual Unitを削除する数k、削除した後のResidual Unitの合計数の目標値L’、再学習のイテレーション数nを与える。
まず、学習装置10は、Residual Networkの学習対象となるパラメータを初期化する(図3の行番号1参照)。次に、適当なOptimizer(例えばSGD)を用いてResidual Networkを学習する(図3の行番号2参照)。学習装置10は、徐々にResidual Unitを削除するため、残りのResidual Unit数を記録するl’と削除回数sを初期化する(図3の行番号3参照)。
そして、学習装置10は、残りのResidual Unit数l’が目標値L’より多ければ、Residual Unitの削除と再学習を繰り返す(図3の行番号4参照)。学習装置10は、Residual Unitの削除を実行する際、削除回数sをインクリメントする(図3の行番号5参照)。削除対象となるResidual Unitのインデックスを記録する集合Isを初期化する(図3の行番号6参照)。
続いて、学習装置10は、寄与度wの絶対値が小さいk個(例えば、1個)のResidual Unitを選択し、そのインデクスをIsに追加する(図3の行番号7参照)。学習装置10は、Isに含まれるインデックスについて、上記の(2)式のResidual Unit内におけるwF(x)を削除する(図3の行番号8参照)。そして、学習装置10は、Residual Unit削除後のResidual Networkを、初期学習率ηでnエポック学習する(図3の行番号9参照)。その後、学習装置10は、残りのResidual Unit数l’から削除したResidual Unit数kを減算する(図3の行番号10参照)。そして、学習装置10は、残りのResidual Unit数l’が目標値L’になるまでResidual Unitの削除と再学習を繰り返す(図3の行番号4〜11参照)。
[学習装置の処理の流れ]
次に、図4を用いて、第一の実施の形態に係る学習装置10の処理の流れを説明する。図4は、第一の実施の形態に係る学習装置による処理を説明するフローチャートである。
図4に示すように、学習装置10の計算部13aは、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算する(ステップS101)。そして、選択部13bは、計算部13aによって計算された各層の寄与度に基づいて、削除対象の層を選択する(ステップS102)。例えば、選択部13bは、計算部13aによって計算された各層の寄与度を比較し、寄与度が低いk個のResidual Unitを選択する。
続いて、削除部13cは、選択部13bによって選択された削除対象の層を多層ニューラルネットワークから削除する(ステップS103)。例えば、削除部13cは、選択部13bによって選択されたk個のResidual Unitを削除する。つまり、削除部13cは、選択部13bによって選択されたk個のResidual Unitについて、上記の(2)式からwF(x)を削除する。
そして、学習部13dは、削除部13cによって削除対象の層が削除された多層ニューラルネットワークの学習を行う(ステップS104)。例えば、学習部13dは、Residual Unitの層を削除した後のパラメータを初期値として、再び学習を行う。
その後、学習部13dは、削除部13cによって削除対象の層が削除された結果、層の数が目標値になったか否か判定し(ステップS105)、層の数が目標値より多いと判定した場合には(ステップS105否定)、ステップS101の処理に戻って上記の処理を繰り返す。また、学習部13dは、層の数が目標値になったと判定した場合には(ステップS105肯定)、そのまま処理を終了する。
[第一の実施の形態の効果]
このように、第一の実施の形態に係る学習装置10は、多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度をそれぞれ計算し、各層の寄与度に基づいて、削除対象の層を選択する。そして、学習装置10は、選択された削除対象の層を多層ニューラルネットワークから削除し、削除対象の層が削除された多層ニューラルネットワークの学習を行う。つまり、学習装置10では、各層の推定結果への寄与度に基づいて、寄与度の小さい層を削除しつつ、削除後のモデルで、再学習を行い精度の低下を防止する。このため、学習装置10では、精度の低下を防ぎつつ、多層ニューラルネットワークにおける層を削除することが可能である。
また、学習装置10によって学習されたモデルは層数が少なくなるため、推定時にメモリ消費量が削減される。このため、少ないメモリ消費量で推定を行うことができる。また、学習装置10によって学習されたモデルは経験的に層の削除前よりも高い精度を実現するため、高精度に推定を行うことができる。また、学習装置10によって学習されたモデルは層数が少なくなるため、計算時間が短くなるので、高速に推定を行うことができる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施の形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図5は、学習プログラムを実行するコンピュータを示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施の形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク、WANを介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 学習装置
11 入力部
12 出力部
13 制御部
13a 計算部
13b 選択部
13c 削除部
13d 学習部
14 記憶部

Claims (5)

  1. 多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度を、学習によって獲得される所定のスカラー値、または所定の非線形写像の中に含まれるパラメータのノルムに基づいて、それぞれ計算する計算部と、
    前記計算部によって計算された各層の寄与度に基づいて、削除対象の層を選択する選択部と、
    前記選択部によって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除部と、
    前記削除部によって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習部と
    を有することを特徴とする学習装置。
  2. 前記選択部は、前記計算部によって計算された各層の寄与度を比較し、前記寄与度が低い所定数の層を前記削除対象の層として選択することを特徴とする請求項1に記載の学習装置。
  3. 前記選択部は、任意に設定変更可能な所定数の層を、前記削除対象の層として選択することを特徴とする請求項1に記載の学習装置。
  4. 学習装置によって実行される学習方法であって、
    多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度を、学習によって獲得される所定のスカラー値、または所定の非線形写像の中に含まれるパラメータのノルムに基づいて、それぞれ計算する計算工程と、
    前記計算工程によって計算された各層の寄与度に基づいて、削除対象の層を選択する選択工程と、
    前記選択工程によって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除工程と、
    前記削除工程によって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習工程と
    を含んだことを特徴とする学習方法。
  5. 多層ニューラルネットワークにおける各層について、該多層ニューラルネットワークの推定結果に対する寄与の度合いを示す寄与度を、学習によって獲得される所定のスカラー値、または所定の非線形写像の中に含まれるパラメータのノルムに基づいて、それぞれ計算する計算ステップと、
    前記計算ステップによって計算された各層の寄与度に基づいて、削除対象の層を選択する選択ステップと、
    前記選択ステップによって選択された削除対象の層を前記多層ニューラルネットワークから削除する削除ステップと、
    前記削除ステップによって削除対象の層が削除された多層ニューラルネットワークの学習を行う学習ステップと
    をコンピュータに実行させるための学習プログラム。
JP2018073498A 2018-04-05 2018-04-05 学習装置、学習方法および学習プログラム Active JP6831347B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018073498A JP6831347B2 (ja) 2018-04-05 2018-04-05 学習装置、学習方法および学習プログラム
US16/980,430 US20200410348A1 (en) 2018-04-05 2019-04-04 Learning device, learning method, and learning program
PCT/JP2019/015040 WO2019194299A1 (ja) 2018-04-05 2019-04-04 学習装置、学習方法および学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018073498A JP6831347B2 (ja) 2018-04-05 2018-04-05 学習装置、学習方法および学習プログラム

Publications (2)

Publication Number Publication Date
JP2019185275A JP2019185275A (ja) 2019-10-24
JP6831347B2 true JP6831347B2 (ja) 2021-02-17

Family

ID=68100754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018073498A Active JP6831347B2 (ja) 2018-04-05 2018-04-05 学習装置、学習方法および学習プログラム

Country Status (3)

Country Link
US (1) US20200410348A1 (ja)
JP (1) JP6831347B2 (ja)
WO (1) WO2019194299A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020086738A (ja) * 2018-11-21 2020-06-04 沖電気工業株式会社 情報処理装置および情報処理方法
US20220300818A1 (en) * 2019-12-03 2022-09-22 Nec Solution Innovators, Ltd. Structure optimization apparatus, structure optimization method, and computer-readable recording medium
JP7373387B2 (ja) 2019-12-20 2023-11-02 株式会社デンソーテン 情報処理装置
JP7189865B2 (ja) * 2019-12-27 2022-12-14 Kddi株式会社 モデル圧縮装置及びプログラム
WO2021156941A1 (ja) * 2020-02-04 2021-08-12 三菱電機株式会社 構造変換装置、構造変換方法及び構造変換プログラム
JP2021197108A (ja) 2020-06-18 2021-12-27 富士通株式会社 学習プログラム、学習方法および情報処理装置
JP2022007168A (ja) 2020-06-25 2022-01-13 富士通株式会社 学習プログラム、学習方法および情報処理装置
JP2023549198A (ja) * 2020-11-13 2023-11-22 日本電気株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0583217B1 (en) * 1992-08-11 2000-05-10 Hitachi Europe Limited Optimisation of feedforward neural networks
JP2000259598A (ja) * 1999-03-12 2000-09-22 Fuji Electric Co Ltd ニューラルネットワークの最適化学習方法
AU2017230184B2 (en) * 2016-03-11 2021-10-07 Magic Leap, Inc. Structure learning in convolutional neural networks
JP2017182319A (ja) * 2016-03-29 2017-10-05 株式会社メガチップス 機械学習装置
US10832135B2 (en) * 2017-02-10 2020-11-10 Samsung Electronics Co., Ltd. Automatic thresholds for neural network pruning and retraining
US20180336468A1 (en) * 2017-05-16 2018-11-22 Nec Laboratories America, Inc. Pruning filters for efficient convolutional neural networks for image recognition in surveillance applications

Also Published As

Publication number Publication date
JP2019185275A (ja) 2019-10-24
WO2019194299A1 (ja) 2019-10-10
US20200410348A1 (en) 2020-12-31

Similar Documents

Publication Publication Date Title
JP6831347B2 (ja) 学習装置、学習方法および学習プログラム
US11922321B2 (en) Methods and systems for selecting quantisation parameters for deep neural networks using back-propagation
US10552737B2 (en) Artificial neural network class-based pruning
US11556778B2 (en) Automated generation of machine learning models
WO2018192200A1 (en) System and method for training neural network
US11741348B2 (en) Neural network circuit device, neural network, neural network processing method, and neural network execution program
Lan et al. Matrix recovery from quantized and corrupted measurements
WO2022105108A1 (zh) 一种网络数据分类方法、装置、设备及可读存储介质
WO2020003434A1 (ja) 機械学習方法、機械学習装置、及び機械学習プログラム
US20190138929A1 (en) System and method for automatic building of learning machines using learning machines
CN109145107B (zh) 基于卷积神经网络的主题提取方法、装置、介质和设备
Ying et al. Performance limits of stochastic sub-gradient learning, Part I: Single agent case
JP2018195231A (ja) 学習モデル作成装置、該方法および該プログラム
EP4343616A1 (en) Image classification method, model training method, device, storage medium, and computer program
JP2014160456A (ja) 疎変数最適化装置、疎変数最適化方法および疎変数最適化プログラム
WO2020107264A1 (zh) 神经网络架构搜索的方法与装置
US20220076121A1 (en) Method and apparatus with neural architecture search based on hardware performance
CN116166967B (zh) 基于元学习与残差网络的数据处理方法、设备和存储介质
CN112699938B (zh) 一种基于图卷积网络模型的分类方法及装置
CN113066486B (zh) 数据识别方法、装置、电子设备和计算机可读存储介质
CN117114087B (zh) 故障预测方法、计算机设备和可读存储介质
WO2023082278A1 (en) Apparatus and method for reinforcement learning based post-training sparsification
US20240143985A1 (en) Identifying one or more quantisation parameters for quantising values to be processed by a neural network
TWI659324B (zh) 電路規劃結果產生方法與系統
WO2021250754A1 (ja) 学習装置、学習方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210128

R150 Certificate of patent or registration of utility model

Ref document number: 6831347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150