JP2021006980A - スパース性制約及び知識の蒸留に基づくスパースかつ圧縮されたニューラルネットワーク - Google Patents
スパース性制約及び知識の蒸留に基づくスパースかつ圧縮されたニューラルネットワーク Download PDFInfo
- Publication number
- JP2021006980A JP2021006980A JP2019174987A JP2019174987A JP2021006980A JP 2021006980 A JP2021006980 A JP 2021006980A JP 2019174987 A JP2019174987 A JP 2019174987A JP 2019174987 A JP2019174987 A JP 2019174987A JP 2021006980 A JP2021006980 A JP 2021006980A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- weights
- network
- subset
- sparse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 164
- 238000013140 knowledge distillation Methods 0.000 title description 33
- 238000000034 method Methods 0.000 claims abstract description 73
- 230000006870 function Effects 0.000 claims abstract description 51
- 230000015654 memory Effects 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 6
- 241000408529 Libra Species 0.000 claims description 2
- 238000009826 distribution Methods 0.000 description 29
- 238000007906 compression Methods 0.000 description 22
- 230000006835 compression Effects 0.000 description 22
- 238000013459 approach Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000013138 pruning Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000009472 formulation Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000013531 bayesian neural network Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Traffic Control Systems (AREA)
Abstract
Description
上記のように、知識の蒸留(KD)フレームワークにおいて、関連のある情報が、教師ネットワークと称される複雑で層がより深いネットワークまたはネットワークのアンサンブルから、よりシンプルで層が浅い生徒ネットワークと称されるネットワークに転移される。従って推論の間に、精度での妥協を最小にしながら、より少数のパラメータを有する圧縮されたネットワークが得られる。KDフレームワークにおいて生徒MLPを訓練するために用いられる損失関数LKDは、次式となる。
重みW、及び重みに関する事前分布p(W)を有するBNNを考える。BNNの訓練は、次式で与えられる変分下限の最適化を含むことが示されている。
事前分布の階層的な設計に起因して、VBDでは、式(2)における変分下限のKL情報量項が
VRを通してスパース性制約を導入すると、損失関数は次式のように得られる。
本開示の修正されたKDフレームワークにおいてBSRの制約を利用する背景にある意図を、以下に説明する。
1.VRが枝刈りを促進し、BSRが枝刈りを抑える:このような場合には、BSRは特定の重みwk,hを非ゼロに維持する。しかしながら推論時に、これらの重みは、VRを通して学習されたドロップアウトパラメータαk,hを通じてフィルタされる。したがって、重みは非ゼロであるにも関わらず枝刈りされる。
2.VRが枝刈りを抑え、BSRが枝刈りを促進する:ドロップアウトパラメータはαk,hを通して重みwk,hを活性化させる。しかしながら、BSRは重みがゼロになるように制限し、結果的に枝刈りが生じる。
実験設定、評価基準、並びにネットワーク及びデータセットの異なるクラスにおいて実行された種々の実験が、本明細書において説明される。
本開示は、8コアのIntel(登録商標) Core(TM) i7−7820HK CPU、32GBメモリ、及びNvidia(登録商標)GeForce GTX 1080 GPUを搭載する計算機を実験に用いた。モデルは、PyTorch v0.4.1を用いて訓練される。MLP及びCNNの訓練及び評価には、既知のデータセット、すなわちMNIST及びCIFAR−10データセットが使用された。訓練データと評価データは、MNIST及びCIFAR−10において、それぞれ1:6及び1:5の比率で分割された。MLPでの全実験について、MNISTデータセットにおいて、Adam最適化手法が学習率10−3で100−150エポックに対して用いられた。CNNでの全実験について、CIFARデータセットにおいて、Adam最適化手法が学習率10−4で100−150エポックに対して用いられた。早期枝刈りの問題に対処するため、当技術分野において知られるウォームアップ技術が本開示及び先行技術アプローチによって利用され、λvの値が設定された。全実験において、λT=2及びλg=0.01が用いられた。本開示を通して、ネットワーク構造の表記a−b−cは、ネットワークの異なる層のノード数を示す。MLPに基づく実験において、構造1200−1200を有する教師T1、及び構造500−50を有する生徒S1が利用された。さらに、CNNに基づく実験において、教師TC1は、VGG−19ネットワークが用いられた。CNNの教師に対する生徒は、LeNet−5−Caffeの構造を有するLe−Cである。Simpleは、独立に訓練されたネットワークを示し、Dは、二値ドロップアウト率0.4で訓練されたネットワークを示し、KDは、教師からのヒントを用いて訓練され、STは、KDフレームワークにおいてBSRを用いて訓練されたネットワークを示す。
モデル圧縮性能が評価され、ネットワークが以下の基準、すなわち、圧縮率、層ごとのスパース性、及びメモリフットプリント圧縮(RAMにおいて占有されたスペース)を用いて比較される。圧縮率Rcは、Rc=pb/pacとして定義され、pb及びpacは、それぞれ圧縮前及び圧縮後の訓練され得るパラメータ数である。本開示は、また、スパース性がもたらす圧縮率Rsを報告する。Rsは、Rs=|W|/|W≠0|として定義され、|W|及び|W≠0|は、それぞれDNNの重みの数、及び非ゼロの重みの数を示す。さらに、本開示は、種々のモデルのメモリフットプリントの圧縮を報告する。また、本開示はNNを分類タスクに用いるので、DNNモデルのトップ1エラー率(推論時)での分類性能も評価された。計算性能を評価するため、種々のモデルの推論時間が計測された。
上述のニューラルネットワークモデル及びデータセットに関する、ネットワーク圧縮及びスパース化の結果を以下に示す。
下記の表2は、CIFARデータセットにおけるCNNの評価を示す。生徒ネットワークのLe−C類は、657,080個のパラメータを有し、212.47倍の圧縮をもたらす。表中の*は、VGG19の全層の代表値である。
図4Aから図4B、及び表1は、図1から図3と関連して、KDフレームワークに変分法を導入することにより、8倍から17倍のスパース性を誘起することを示す。より具体的には、図4Aから図4Bは、図1から図3と関連して、本開示の例示的な実施形態に従い、生徒の重み分布にスパース性を引き起こす変分推論を図示するグラフィカル表現を示す。図4A−図4Bは、種々のネットワークの重み分布(y軸は対数スケール)を表す。図4Aの(a),(b)は、教師及び生徒ネットワークが独立に訓練された場合の各々の重みを示し、図4Aの(c)は、教師ネットワークのヒントを用いて訓練された生徒ネットワークを示し、図4Bの(d)及び(e)は、SVD、VBDがそれぞれ生徒ネットワークに適用され、KDフレームワークにおいて訓練された場合の変分生徒を示す。
表1は、BSRの適用が、変分手法によりスパース性を増加させることを示す。しかしながら、このスパース性が、単に生徒ネットワークの重みに関する変分正則化により生じるのか、または教師ネットワークからのスパース性転移の効果によるのかは、明確ではない。図6から、教師ネットワークの重みがBSRを介して考慮されると、0付近の重みの密度が減少することがわかる。このことは、教師の重みが考慮されると、スパース性が生じることを正当化する。より具体的には、図6は、図1から図5Bまでと関連して、本開示の例示的な実施形態に従い、生徒の重み分布におけるブロックスパース正則化(BSR)技術により引き起こされるスパース性を図示したグラフィカル表現を示す。図6は、(a)生徒及び教師の両ネットワークからの重みからなる連結テンソルにBSRが適用された場合(図6(a)参照)、(b)生徒ネットワークの重みのみにBSRが適用された場合(図6(b)参照)に、結果として得られた生徒MLPの重み分布(y軸は対数スケール)を示す。重みが0付近に集中することに注目されたい。
教師MLPの推論時間は、0.29ミリ秒であり、生徒の変種の推論時間は、0.257−0.470ミリ秒の範囲であった。MLPにおいては、変分生徒及びBSRの変種は、類似する推論時間を有することが観察された。両変種は、訓練時には異なる計算処理を有するが、類似した生徒の構造であるため推論時には同じ操作を有する。さらに、simpleの変種は、αに対する閾値処理、及び結果として得られるマスクに重みを乗じる処理を含む追加の計算処理が必要な他の変種に比べて推論時間が短い。図7から明らかであるように、CNNにおいても同様の傾向がみられる。特に、図7は、図1から図6と関連して、本開示の例示的な実施形態に従った畳み込みニューラルネットワーク(CNN)の種々の変種に関して、速度の向上を図示するグラフィカル表現を示す。
転送することができる任意の装置であってもよい。
Claims (12)
- プロセッサにより実施される方法であって、
1つまたは複数のハードウェアプロセッサにより、複数の重みを有する第1のニューラルネットワークを初期化するステップ(202)と、
1つまたは複数のハードウェアプロセッサにより、第1のニューラルネットワークを訓練するステップと、を備え、
当該訓練するステップは、
第1のニューラルネットワークに、(i)特定のドメインに対応して受け取った入力データの部分集合と(ii)当該入力データの部分集合に対応する正解情報とを渡すステップ(204)、
当該入力データの部分集合に関して、第1のニューラルネットワークにより生成された出力と、対応する正解情報と、の第1の差異に基づき、1つまたは複数のハードウェアプロセッサにより、第1のニューラルネットワークの複数の重みを動的に更新するステップ(206)、
当該部分集合に関して(i)第1のニューラルネットワークにより生成された出力と、(ii)第2のニューラルネットワークにより生成された出力と、の第2の差異に基づき、1つまたは複数のハードウェアプロセッサにより、第1のニューラルネットワークの複数の重みを動的に更新するステップ(208)、及び
ブロックスパース正則化と変分ドロップアウト技術を利用することで、1つまたは複数のハードウェアプロセッサにより、第2のニューラルネットワークの重みの集合に関して、第1のニューラルネットワークの複数の重みにおいて1つまたは複数の重みを無効化する、または維持することを決定するように、第1のニューラルネットワークの複数の重みに1つまたは複数のスパース性制約を適用するステップ(210)
を、訓練され、圧縮され、かつスパース性が高いニューラルネットワークを得るように、最終的な損失関数が予め定義された閾値に収束するまで、繰り返し実行することにより訓練を行う、方法。 - 入力データの部分集合に関する出力と、対応する正解情報と、の第1の差異は、交差エントロピー損失関数を用いて推定される、請求項1に記載の方法。
- 入力データの部分集合に関して(i)第1のニューラルネットワークにより生成された出力と、(ii)第2のニューラルネットワークにより生成された出力と、の第2の差異は、カルバックライブラー(KL)情報量関数により推定される、請求項1に記載の方法。
- 1つまたは複数の重みが無効化されるか、または維持されるかは、最終的な損失関数を解くことにより決定される、請求項1に記載の方法。
- 最終的な損失関数は、訓練され、圧縮され、かつスパース性の高いニューラルネットワークを得るように最適化され、当該ニューラルネットワークは、第2のニューラルネットワークにおける複数の重み未満の、1つまたは複数の決定された重みを有し、第1のニューラルネットワークの選択は、ニューラルネットワークにおける1つまたは複数の層のパラメータ数に基づく、請求項1に記載の方法。
- 第2のニューラルネットワークは、事前訓練済みのニューラルネットワークである、請求項1に記載の方法。
- 命令を記憶するメモリ(102)と、
1つまたは複数の通信インタフェース(106)と、
メモリ(102)に、1つまたは複数の通信インタフェース(106)を介して連結された、1つまたは複数のハードウェアプロセッサ(104)と、を備えるシステム(100)であって、
1つまたは複数のハードウェアプロセッサ(104)は、当該命令により、
メモリに含まれて1つまたは複数のハードウェアプロセッサ(104)により実行される、複数の重みを有する第1のニューラルネットワークを初期化するステップと、
第1のニューラルネットワークを訓練するステップと、
を実行するように構成され、
当該訓練するステップは、
第1のニューラルネットワークに、(i)特定のドメインに対応して受け取った入力データの部分集合と(ii)当該入力データの部分集合に対応する正解情報とを渡すステップ、
当該入力データの部分集合に関して第1のニューラルネットワークにより生成された出力と、対応する正解情報と、の第1の差異に基づき、第1のニューラルネットワークの複数の重みを動的に更新するステップ、
当該部分集合に関して(i)第1のニューラルネットワークにより生成された出力と、(ii)メモリに含まれて1つまたは複数のハードウェアプロセッサにより実行される第2のニューラルネットワークにより生成された出力と、の第2の差異に基づき、第1のニューラルネットワークの複数の重みを動的に更新するステップ、及び
ブロックスパース正則化と変分ドロップアウト技術を利用することで、1つまたは複数のハードウェアプロセッサにより、第2のニューラルネットワークの重みの集合に関して、第1のニューラルネットワークの複数の重みにおいて1つまたは複数の重みを無効化する、または維持することを決定するように、第1のニューラルネットワークの複数の重みに1つまたは複数のスパース性制約を適用するステップ
を、訓練され、圧縮され、かつスパース性が高いニューラルネットワークを得るように、最終的な損失関数が予め定義された閾値に収束するまで、繰り返し実行することにより訓練を行う、システム(100)。 - 入力データの部分集合に関する出力と、対応する正解情報と、の第1の差異は、交差エントロピー損失関数を用いて推定される、請求項7に記載のシステム。
- 入力データの部分集合に関して(i)第1のニューラルネットワークにより生成された出力と、(ii)第2のニューラルネットワークにより生成された出力と、の第2の差異は、カルバックライブラー(KL)情報量関数により推定される、請求項7に記載のシステム。
- 1つまたは複数の重みが無効化されるか、または維持されるかは、最終的な損失関数を解くことにより決定される、請求項7に記載のシステム。
- 最終的な損失関数は、圧縮され、かつスパース性の高い訓練済みニューラルネットワークを得るように最適化され、当該ニューラルネットワークは、第2のニューラルネットワークにおける複数の重み未満の、1つまたは複数の決定された重みを有し、第1のニューラルネットワークの選択は、ニューラルネットワークにおける1つまたは複数の層のパラメータ数に基づく、請求項7に記載のシステム。
- 第2のニューラルネットワークは、事前訓練済みのニューラルネットワークである、請求項7に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201921022724 | 2019-06-07 | ||
IN201921022724 | 2019-06-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021006980A true JP2021006980A (ja) | 2021-01-21 |
JP6959308B2 JP6959308B2 (ja) | 2021-11-02 |
Family
ID=67809244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019174987A Active JP6959308B2 (ja) | 2019-06-07 | 2019-09-26 | スパース性制約及び知識の蒸留に基づくスパースかつ圧縮されたニューラルネットワーク |
Country Status (5)
Country | Link |
---|---|
US (1) | US11403523B2 (ja) |
EP (1) | EP3748545A1 (ja) |
JP (1) | JP6959308B2 (ja) |
AU (1) | AU2019232899B2 (ja) |
CA (1) | CA3056098C (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230034655A (ko) * | 2021-09-03 | 2023-03-10 | 연세대학교 산학협력단 | n차원 텐서 곱 연산을 이용한 합성곱 신경망 압축 방법 및 장치 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020220369A1 (en) | 2019-05-01 | 2020-11-05 | Microsoft Technology Licensing, Llc | Method and system of utilizing unsupervised learning to improve text to content suggestions |
CN110991613B (zh) * | 2019-11-29 | 2022-08-02 | 支付宝(杭州)信息技术有限公司 | 一种训练神经网络的方法及系统 |
US11461645B2 (en) * | 2019-12-02 | 2022-10-04 | International Business Machines Corporation | Initialization of memory networks |
CN111178036B (zh) * | 2019-12-06 | 2023-08-29 | 云知声智能科技股份有限公司 | 一种知识蒸馏的文本相似度匹配模型压缩方法及系统 |
CN111027870A (zh) * | 2019-12-14 | 2020-04-17 | 支付宝(杭州)信息技术有限公司 | 用户风险评估方法及装置、电子设备、存储介质 |
CN111080123A (zh) * | 2019-12-14 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 用户风险评估方法及装置、电子设备、存储介质 |
KR20210092575A (ko) * | 2020-01-16 | 2021-07-26 | 에스케이하이닉스 주식회사 | 목표 성능에 따라 신경망을 압축하는 반도체 장치 |
US11727270B2 (en) * | 2020-02-24 | 2023-08-15 | Microsoft Technology Licensing, Llc | Cross data set knowledge distillation for training machine learning models |
CN111312271B (zh) * | 2020-02-28 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种提高收敛速度和处理性能的模型压缩方法和系统 |
US20210357739A1 (en) * | 2020-05-14 | 2021-11-18 | Micron Technology, Inc. | Memory device to train neural networks |
GB2595236A (en) * | 2020-05-18 | 2021-11-24 | Advanced Risc Mach Ltd | Optimising a neural network |
CN114091665A (zh) * | 2020-07-30 | 2022-02-25 | 北京四维图新科技股份有限公司 | 一种训练深度神经网络的方法及这种网络 |
CN112215353B (zh) * | 2020-09-29 | 2023-09-01 | 电子科技大学 | 一种基于变分结构优化网络的通道剪枝方法 |
CN112148577B (zh) * | 2020-10-09 | 2024-05-07 | 平安科技(深圳)有限公司 | 数据异常检测方法、装置、电子设备及存储介质 |
CN112508062B (zh) * | 2020-11-20 | 2024-07-26 | 普联国际有限公司 | 一种开集数据的分类方法、装置、设备及存储介质 |
CN112465115B (zh) * | 2020-11-25 | 2024-05-31 | 科大讯飞股份有限公司 | Gan网络压缩方法、装置、设备及存储介质 |
CN112508120B (zh) * | 2020-12-18 | 2023-10-10 | 北京百度网讯科技有限公司 | 学生模型训练方法、装置、设备、介质和程序产品 |
US12051237B2 (en) | 2021-03-12 | 2024-07-30 | Samsung Electronics Co., Ltd. | Multi-expert adversarial regularization for robust and data-efficient deep supervised learning |
US11200497B1 (en) * | 2021-03-16 | 2021-12-14 | Moffett Technologies Co., Limited | System and method for knowledge-preserving neural network pruning |
US20220343205A1 (en) * | 2021-04-21 | 2022-10-27 | Microsoft Technology Licensing, Llc | Environment-specific training of machine learning models |
CN113110550B (zh) * | 2021-04-23 | 2022-09-23 | 南京大学 | 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法 |
US11587291B2 (en) * | 2021-06-30 | 2023-02-21 | Tencent America LLC | Systems and methods of contrastive point completion with fine-to-coarse refinement |
CN113554169B (zh) * | 2021-07-28 | 2023-10-27 | 杭州海康威视数字技术股份有限公司 | 模型优化方法、装置、电子设备及可读存储介质 |
US11429864B1 (en) * | 2021-08-16 | 2022-08-30 | Moffett International Co., Limited | System and method for bank-balanced sparse activation and joint-activation-weight-sparse training of neural networks |
CN113704688B (zh) * | 2021-08-17 | 2023-05-05 | 南昌航空大学 | 基于变分贝叶斯平行因子分解的缺失振动信号的恢复方法 |
CN113837308B (zh) * | 2021-09-29 | 2022-08-05 | 北京百度网讯科技有限公司 | 基于知识蒸馏的模型训练方法、装置、电子设备 |
CN113988263A (zh) * | 2021-10-29 | 2022-01-28 | 内蒙古大学 | 工业物联网边缘设备中基于知识蒸馏的空时预测方法 |
CN114168709B (zh) * | 2021-12-03 | 2022-06-03 | 中国人民解放军国防科技大学 | 一种基于轻量化预训练语言模型的文本分类方法 |
CN114627342B (zh) * | 2022-03-03 | 2024-09-06 | 北京百度网讯科技有限公司 | 基于稀疏度的图像识别模型的训练方法、装置和设备 |
CN117236409B (zh) * | 2023-11-16 | 2024-02-27 | 中电科大数据研究院有限公司 | 基于大模型的小模型训练方法、装置、系统和存储介质 |
CN117555489B (zh) * | 2024-01-11 | 2024-06-07 | 烟台大学 | 物联网数据存储交易异常检测方法、系统、设备和介质 |
CN118070876B (zh) * | 2024-04-19 | 2024-07-19 | 智慧眼科技股份有限公司 | 一种大模型知识蒸馏低秩适应联邦学习方法、电子设备及可读存储介质 |
CN118093210B (zh) * | 2024-04-29 | 2024-06-28 | 浙江鹏信信息科技股份有限公司 | 基于模型蒸馏的异构算力调度方法、系统及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130271A1 (en) * | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for block-sparse recurrent neural networks |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9015092B2 (en) * | 2012-06-04 | 2015-04-21 | Brain Corporation | Dynamically reconfigurable stochastic learning apparatus and methods |
US9753959B2 (en) * | 2013-10-16 | 2017-09-05 | University Of Tennessee Research Foundation | Method and apparatus for constructing a neuroscience-inspired artificial neural network with visualization of neural pathways |
US20150324686A1 (en) * | 2014-05-12 | 2015-11-12 | Qualcomm Incorporated | Distributed model learning |
US9916522B2 (en) * | 2016-03-11 | 2018-03-13 | Kabushiki Kaisha Toshiba | Training constrained deconvolutional networks for road scene semantic segmentation |
US10565500B2 (en) * | 2016-12-20 | 2020-02-18 | Intel Corporation | Unsupervised learning using neuromorphic computing |
CN108334934B (zh) | 2017-06-07 | 2021-04-13 | 赛灵思公司 | 基于剪枝和蒸馏的卷积神经网络压缩方法 |
CN107688850B (zh) * | 2017-08-08 | 2021-04-13 | 赛灵思公司 | 一种深度神经网络压缩方法 |
US11144812B2 (en) * | 2017-09-01 | 2021-10-12 | Facebook, Inc. | Mixed machine learning architecture |
US10366322B2 (en) | 2017-10-06 | 2019-07-30 | DeepCube LTD. | System and method for compact and efficient sparse neural networks |
US11836610B2 (en) * | 2017-12-13 | 2023-12-05 | Advanced Micro Devices, Inc. | Concurrent training of functional subnetworks of a neural network |
US11429862B2 (en) * | 2018-03-20 | 2022-08-30 | Sri International | Dynamic adaptation of deep neural networks |
US10832139B2 (en) * | 2018-06-22 | 2020-11-10 | Moffett Technologies Co. Limited | Neural network acceleration and embedding compression systems and methods with activation sparsification |
CN108921294A (zh) | 2018-07-11 | 2018-11-30 | 浙江大学 | 一种用于神经网络加速的渐进式块知识蒸馏方法 |
US11138334B1 (en) * | 2018-10-17 | 2021-10-05 | Medallia, Inc. | Use of ASR confidence to improve reliability of automatic audio redaction |
US11137894B1 (en) * | 2020-05-27 | 2021-10-05 | Microsoft Technology Licensing, Llc | Optimizing content layout on a foldable device |
-
2019
- 2019-08-29 EP EP19194218.4A patent/EP3748545A1/en active Pending
- 2019-09-06 US US16/562,758 patent/US11403523B2/en active Active
- 2019-09-20 CA CA3056098A patent/CA3056098C/en active Active
- 2019-09-20 AU AU2019232899A patent/AU2019232899B2/en active Active
- 2019-09-26 JP JP2019174987A patent/JP6959308B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130271A1 (en) * | 2017-10-27 | 2019-05-02 | Baidu Usa Llc | Systems and methods for block-sparse recurrent neural networks |
Non-Patent Citations (1)
Title |
---|
LIU WENRAN ET AL.: "TRANSFER KNOWLEDGE FOR HIGH SPARSITY IN DEEP NEURAL NETWORKS", PROCEEDINGS OF 2017 IEEE GLOBAL CONFERENCE ON SIGNAL AND INFORMATION PROCESSING, JPN6021037402, 14 November 2017 (2017-11-14), pages 1354 - 1358, XP033327784, ISSN: 0004601139, DOI: 10.1109/GlobalSIP.2017.8309182 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230034655A (ko) * | 2021-09-03 | 2023-03-10 | 연세대학교 산학협력단 | n차원 텐서 곱 연산을 이용한 합성곱 신경망 압축 방법 및 장치 |
KR102597079B1 (ko) | 2021-09-03 | 2023-10-31 | 연세대학교 산학협력단 | n차원 텐서 곱 연산을 이용한 합성곱 신경망 압축 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
US11403523B2 (en) | 2022-08-02 |
AU2019232899A1 (en) | 2020-12-24 |
AU2019232899B2 (en) | 2021-06-24 |
CA3056098A1 (en) | 2019-11-22 |
CA3056098C (en) | 2022-05-17 |
JP6959308B2 (ja) | 2021-11-02 |
EP3748545A1 (en) | 2020-12-09 |
US20200387782A1 (en) | 2020-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6959308B2 (ja) | スパース性制約及び知識の蒸留に基づくスパースかつ圧縮されたニューラルネットワーク | |
CN110929164B (zh) | 一种基于用户动态偏好与注意力机制的兴趣点推荐方法 | |
Bouboulis et al. | Online distributed learning over networks in RKH spaces using random Fourier features | |
Kulkarni et al. | Survey of personalization techniques for federated learning | |
Dao et al. | Pixelated butterfly: Simple and efficient sparse training for neural network models | |
Sau et al. | Deep model compression: Distilling knowledge from noisy teachers | |
Alain et al. | Variance reduction in sgd by distributed importance sampling | |
Atkinson et al. | Structured Bayesian Gaussian process latent variable model: Applications to data-driven dimensionality reduction and high-dimensional inversion | |
EA035114B1 (ru) | Нейронная сеть и способ обучения нейронной сети | |
CN115587633A (zh) | 一种基于参数分层的个性化联邦学习方法 | |
Ju et al. | Dynamic early exit scheduling for deep neural network inference through contextual bandits | |
Sidahmed et al. | Efficient and private federated learning with partially trainable networks | |
Vallapuram et al. | Hidenseek: Federated lottery ticket via server-side pruning and sign supermask | |
Usmanova et al. | Federated continual learning through distillation in pervasive computing | |
Pradier et al. | Projected BNNs: Avoiding weight-space pathologies by learning latent representations of neural network weights | |
Xia et al. | VI-DGP: A variational inference method with deep generative prior for solving high-dimensional inverse problems | |
Javaheripi et al. | Swann: Small-world architecture for fast convergence of neural networks | |
Tieleman et al. | Shaping representations through communication | |
Grigas et al. | Stochastic in-face frank-wolfe methods for non-convex optimization and sparse neural network training | |
Belbahri et al. | Foothill: A quasiconvex regularization for edge computing of deep neural networks | |
CN114445692A (zh) | 图像识别模型构建方法、装置、计算机设备及存储介质 | |
Kim et al. | Optimized quantization for convolutional deep neural networks in federated learning | |
Dong et al. | Graph learning for regularized low-rank matrix completion | |
Causer et al. | Discrete generative diffusion models without stochastic differential equations: a tensor network approach | |
Stephenson et al. | Variational inference for hierarchical Dirichlet process based nonparametric models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201006 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210908 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211007 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6959308 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |