CN111985641B - 一种基于低秩重构的神经网络训练方法 - Google Patents
一种基于低秩重构的神经网络训练方法 Download PDFInfo
- Publication number
- CN111985641B CN111985641B CN202010700083.0A CN202010700083A CN111985641B CN 111985641 B CN111985641 B CN 111985641B CN 202010700083 A CN202010700083 A CN 202010700083A CN 111985641 B CN111985641 B CN 111985641B
- Authority
- CN
- China
- Prior art keywords
- neural network
- matrix
- training
- network structure
- rank
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 63
- 238000012549 training Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 66
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 20
- 238000011478 gradient descent method Methods 0.000 claims abstract description 11
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- MYVIATVLJGTBFV-UHFFFAOYSA-M thiamine(1+) chloride Chemical compound [Cl-].CC1=C(CCO)SC=[N+]1CC1=CN=C(C)N=C1N MYVIATVLJGTBFV-UHFFFAOYSA-M 0.000 claims 1
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000013138 pruning Methods 0.000 description 4
- 230000002040 relaxant effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于低秩重构的神经网络训练方法,其特征在于,包括以下步骤:S1、用随机梯度下降法或其变形对神经网络进行训练;S2、对训练后的神经网络每一层的权重矩阵进行低秩分解,将每一层分解的两个小矩阵转化为级联的两层结构,得到新的神经网络结构;S3、对新的神经网络结构进行训练;S4、根据新结构训练后的权重矩阵重构原神经网络结构的权重矩阵作为初始化,对原神经网络结构进行重训练。本发明利用低秩矩阵分解在原解空间的低维流形上进行搜索,再重构进行重训练,可以减少陷入原解空间局部最优的可能,提升神经网络训练后的性能。
Description
技术领域
本发明属于人工智能领域,涉及机器学习和深度学习,旨在对神经网络进行训练,提升网络性能,具体涉及一种基于低秩重构的神经网络训练方法。
背景技术
近年来,神经网络快速发展,在图像识别、语音识别、自然语言处理等诸多应用中求得突破性的进展。神经网络的强大表达能力和深度分层结构带来过拟合、鞍点扩散等问题,导致训练困难。权重衰减、dropout、参数初始化、批标准化等许多训练技巧被提出,在一定程度上缓解了这些问题,但过拟合、鞍点扩散等问题仍然存在。
由于神经网络往往存在过参数化、网络神经元的功能具有较大重复性的问题,冗余的参数带来不必要的计算和空间浪费。神经网络的压缩也成为一个重要的研究方向。剪枝和低秩分解是两类代表性的神经网络压缩方法。基于剪枝的神经网络压缩本质上是将网络中的冗余参数移除,从而减少网络的参数量和不必要的计算,使得网络的神经元变得稀疏。低秩分解的思想是用一个秩比较低的矩阵去近似原来的矩阵,从而可以将矩阵分解成多个形式更简单、尺寸更小的矩阵,减少存储空间和运算量。
密集-稀疏-密集(Han S,Pool J,Narang S,et al.DSD:Dense-Sparse-DenseTraining for Deep Neural Networks[A].In:Proc.Int.Conf.Learn.Represent.,Toulon,France[C],2017.1-13.)是近来提出的一种将剪枝的思想用于神经网络训练的方法,在利用剪枝进行模型压缩后又放松稀疏的约束对网络进行重训,提升网络训练后的性能。密集-稀疏-密集通过添加约束和放松约束的求解方式,提供了一种逃离鞍点的训练方法。但是,稀疏约束描述的是权重矩阵的局部信息,欠缺考虑全局整体情况。考虑到低秩是描述矩阵全局信息的一种重要性质,本发明提出利用低秩分解和重构的网络训练方法,从融入低维流形约束的角度学习网络权重的整体结构信息,逃离鞍点,提升网络的性能。
发明内容
本发明提出一种基于低秩重构的神经网络训练方法。该方法能在低维流形附近搜索神经网络的解,提升神经网络训练后的性能。
本发明至少通过如下技术方案之一实现。
一种基于低秩重构的神经网络训练方法,包括以下步骤:
S1、用随机梯度下降法或其变形对神经网络进行训练;
S2、对训练后的神经网络每一层的权重矩阵进行低秩分解,将每一层分解的两个小矩阵转化为级联的两层结构,得到新的神经网络结构;
S3、对新的神经网络结构进行训练;
S4、根据新结构训练后的权重矩阵重构原神经网络结构的权重矩阵作为初始化,对原神经网络结构进行重训练。
进一步地,步骤S2的分解包括奇异值分解,具体包括以下步骤:
(1)设权重矩阵W的行数为m,列数为n,计算权重矩阵W的奇异值分解,得到W=U∑VT,其中U是m×m阶酉矩阵,∑是m×n阶非负实数对角矩阵,其对角元素为W的奇异值,V是n×n阶酉矩阵,VT表示V的转置;
(2)对奇异值进行截断;
(3)分解后的两个矩阵分别为其中U1:r和V1:r分别表示矩阵U和矩阵V的前r列,∑1:r表示奇异值矩阵∑的前r个对角元素所构成的方阵。
进一步地,对奇异值进行截断,有以下两种方式:
方式一、按能量比例进行截断;假设σi为∑的第i个对角元素,∑的所有对角元素之和为s,∑的前r个对角元素之和为sr,能量的比例值为α,则选取第一个满足的r作为低秩矩阵的秩,即保留前r个奇异值,剩下的奇异值置0;
方式一、按权重矩阵大小比例进行截断;设权重矩阵W的行数为m,列数为n,截断的比例为β,则保留前r=round(β min(m,n))个奇异值,剩下的奇异值置0,其中,min()表示取两个数的最小值,round()表示四舍五入取整。
进一步地,步骤S2,是根据分解后的结果构造新的神经网络结构,原来的全连接层变为两层较小的全连接层的级联,原来的卷积层变为卷积核大小相同、卷积核数目变小的卷积层和1×1卷积的级联。
进一步地,步骤S3是以分解后的矩阵作为新神经网络结构的初始化,用随机梯度下降法或其变形进行训练。
进一步地,步骤S4是利用新神经网络结构训练得到的权重矩阵去重构对应的原神经网络结构中的权重矩阵,作为原神经网络结构的初始化,再次用随机梯度下降法或其变形(包括SGD with momentum、SGD with Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam)进行训练。
与现有的技术相比,本发明的有益效果为:
通过添加低秩约束,在低维流形上求解网络权重,使得解可以逃离原始空间的鞍点;通过放松约束,使得解可以进一步逃离低维流形上的鞍点。稀疏约束描述的是权重空间的局部信息,与利用稀疏约束和放松约束的训练方法相比,本发明采用低秩约束,可以权重空间的整体结构信息。因此,本发明的训练方法可以在很大程度上逃离解空间的鞍点,使神经网络取得更优越的性能。
附图说明
图1为本实施例一种基于低秩重构的神经网络训练方法训练过程的流程图;
图2为本实施例全连接层低秩分解示意图;
图3为本实施例卷积层低秩分解示意图。
具体实施方式
下面通过具体实施方式对本发明作进一步详细地描述,但本发明的实施方式并不限于此。
本发明的原理包括:随着神经网络层数变深,训练容易陷入鞍点或局部最优,无法得到更优解。利用矩阵分解的形式添加低秩约束可以将解空间限制在低维流形上,但相当于加深了层数也使得训练更加困难。本发明先利用普通的训练方法对网络进行训练,再对训练后的权重进行低秩矩阵分解,得到带低秩约束的新网络结构和其较好的初始化。在此基础上,对新结构进行训练,得到原网络结构在低维流形上的解。最后,为避免低维流形上的局部最优解,用新结构的权重矩阵去重构原结构的权重作为初始化,对原结构进行重训练。
如图1所示,一种基于低秩重构的神经网络训练方法,包括以下步骤:
S1、用随机梯度下降法(Stochastic Gradient Descent,简称SGD)或其变形对神经网络进行训练。
S2、对训练后的神经网络每一层的权重矩阵进行低秩分解。具体地,低秩分解包括以下步骤:
(1)设权重矩阵W的行数为m,列数为n,计算权重矩阵W的奇异值分解,得到W=U∑VT,其中U是m×m阶酉矩阵,∑是m×n阶非负实数对角矩阵,其对角元素为W的奇异值,V是n×n阶酉矩阵,VT表示V的转置;
(2)对奇异值进行截断,有以下两种方法可选:
①按能量比例进行截断。假设σi为奇异值矩阵∑的第i个对角元素,∑的所有对角元素之和为s,∑的前r个对角元素之和为sr,能量的比例值为α,则选取第一个满足的r作为低秩矩阵的秩,即保留前r个奇异值,剩下的奇异值置0。
②按矩阵大小比例进行截断。设权重矩阵W的行数为m,列数为n,截断的比例为β,则保留前r=round(β min(m,n))个奇异值,剩下的奇异值置0。其中,min()表示取两个数的最小值,round()表示四舍五入取整。
(3)分解后的两个矩阵分别为其中U1:r和V1:r分别表示矩阵的前r列,∑1:r表示∑的前r个对角元素所构成的方阵。矩阵A和B的乘积为Frobenius范数下矩阵W的最优秩r近似。
(4)将原神经网络中矩阵W对应的层用级联的两层结构去替代,得到对应的新结构,其权重矩阵分别为矩阵A和矩阵B。对于全连接层,其对应的两层结构均为全连接层,如图2所示。对于卷积层,假设共有n个大小为d×d的卷积核,其对应的两层结构分别包含r个大小为d×d的卷积核和n个大小为1×1的卷积核,如图3所示。
S3、对新的神经网络结构用随机梯度下降法或其变形(包括SGD with momentum、SGD with Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam)进行训练。
S4、根据新神经网络结构的训练结果,计算新构造的两层级联结构的权重矩阵A和B的乘积,作为对原神经网络结构对应层的权重的初始化,对原神经网络结构进行重训练。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种基于低秩重构的神经网络训练方法,其特征在于,包括以下步骤:
S1、输入图像数据,用随机梯度下降法或其变形对神经网络进行训练;
S2、对训练后的神经网络每一层的权重矩阵进行低秩分解,将每一层分解的两个小矩阵转化为级联的两层结构,得到新的神经网络结构;分解包括奇异值分解,具体包括以下步骤:
(1)设权重矩阵W的行数为m,列数为n,计算权重矩阵W的奇异值分解,得到W=U∑VT,其中U是m×m阶酉矩阵,∑是m×n阶非负实数对角矩阵,其对角元素为W的奇异值,V是n×n阶酉矩阵,VT表示V的转置;
(2)对奇异值进行截断;
(3)分解后的两个矩阵分别为其中U1:r和V1:r分别表示矩阵U和矩阵V的前r列,∑1:r表示奇异值矩阵∑的前r个对角元素所构成的方阵;
对奇异值进行截断,有以下两种方式:
方式一、按能量比例进行截断;假设σi为∑的第i个对角元素,∑的所有对角元素之和为s,∑的前r个对角元素之和为sr,能量的比例值为α,则选取第一个满足的r作为低秩矩阵的秩,即保留前r个奇异值,剩下的奇异值置0;
方式一、按权重矩阵大小比例进行截断;设权重矩阵W的行数为m,列数为n,截断的比例为β,则保留前r=round(βmin(m,n))个奇异值,剩下的奇异值置0,其中,min()表示取两个数的最小值,round()表示四舍五入取整;
S3、对新的神经网络结构进行训练;
S4、根据新结构训练后的权重矩阵重构原神经网络结构的权重矩阵作为初始化,对原神经网络结构进行重训练,将训练好的神经网络用于图像识别。
2.根据权利要求1所述的神经网络训练方法,其特征在于,步骤S2,是根据分解后的结果构造新的神经网络结构,原来的全连接层变为两层较小的全连接层的级联,原来的卷积层变为卷积核大小相同、卷积核数目变小的卷积层和1×1卷积的级联。
3.根据权利要求1所述的神经网络训练方法,其特征在于,步骤S3是以分解后的矩阵作为新神经网络结构的初始化,用随机梯度下降法或其变形进行训练。
4.根据权利要求1所述的神经网络训练方法,其特征在于,步骤S4是利用新神经网络结构训练得到的权重矩阵去重构对应的原神经网络结构中的权重矩阵,作为原神经网络结构的初始化,再次用随机梯度下降法或其变形进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010700083.0A CN111985641B (zh) | 2020-07-20 | 2020-07-20 | 一种基于低秩重构的神经网络训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010700083.0A CN111985641B (zh) | 2020-07-20 | 2020-07-20 | 一种基于低秩重构的神经网络训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111985641A CN111985641A (zh) | 2020-11-24 |
CN111985641B true CN111985641B (zh) | 2024-02-13 |
Family
ID=73438746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010700083.0A Active CN111985641B (zh) | 2020-07-20 | 2020-07-20 | 一种基于低秩重构的神经网络训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985641B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503671B (zh) * | 2023-06-25 | 2023-08-29 | 电子科技大学 | 基于有效秩张量近似的残差网络压缩的图像分类方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480777A (zh) * | 2017-08-28 | 2017-12-15 | 北京师范大学 | 基于伪逆学习的稀疏自编码器快速训练方法 |
CN107967516A (zh) * | 2017-10-12 | 2018-04-27 | 中科视拓(北京)科技有限公司 | 一种基于迹范数约束的神经网络的加速与压缩方法 |
CN111079781A (zh) * | 2019-11-07 | 2020-04-28 | 华南理工大学 | 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法 |
-
2020
- 2020-07-20 CN CN202010700083.0A patent/CN111985641B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480777A (zh) * | 2017-08-28 | 2017-12-15 | 北京师范大学 | 基于伪逆学习的稀疏自编码器快速训练方法 |
CN107967516A (zh) * | 2017-10-12 | 2018-04-27 | 中科视拓(北京)科技有限公司 | 一种基于迹范数约束的神经网络的加速与压缩方法 |
CN111079781A (zh) * | 2019-11-07 | 2020-04-28 | 华南理工大学 | 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111985641A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079781B (zh) | 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法 | |
CN109977250B (zh) | 融合语义信息和多级相似性的深度哈希图像检索方法 | |
CN109635935B (zh) | 基于模长聚类的深度卷积神经网络模型自适应量化方法 | |
Idrissi et al. | Genetic algorithm for neural network architecture optimization | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
CN107944545A (zh) | 应用于神经网络的计算方法及计算装置 | |
CN114118369B (zh) | 一种基于群智能优化的图像分类卷积神经网络设计方法 | |
CN113157919B (zh) | 语句文本方面级情感分类方法及系统 | |
CN112861992B (zh) | 基于独立稀疏堆叠自编码器的风电场超短期功率预测方法 | |
CN111985641B (zh) | 一种基于低秩重构的神经网络训练方法 | |
Li et al. | A novel gaussian–bernoulli based convolutional deep belief networks for image feature extraction | |
CN112949610A (zh) | 一种基于降噪算法的改进Elman神经网络的预测方法 | |
CN114970853A (zh) | 一种跨范围量化的卷积神经网络压缩方法 | |
CN112988548A (zh) | 一种基于降噪算法的改进Elman神经网络的预测方法 | |
CN114329233A (zh) | 一种跨区域跨评分协同过滤推荐方法及系统 | |
CN113610227A (zh) | 一种高效的深度卷积神经网络剪枝方法 | |
Qi et al. | Learning low resource consumption cnn through pruning and quantization | |
CN112860856B (zh) | 一种算数应用题智能解题方法及系统 | |
Dai et al. | Fast training and model compression of gated RNNs via singular value decomposition | |
CN113204640A (zh) | 一种基于注意力机制的文本分类方法 | |
Wang et al. | Efficient deep convolutional model compression with an active stepwise pruning approach | |
CN116542315A (zh) | 一种基于张量分解的大规模神经网络参数压缩方法及系统 | |
CN115936073A (zh) | 一种语言导向卷积神经网络及视觉问答方法 | |
CN116303386A (zh) | 一种基于关系图谱的缺失数据智能插补方法和系统 | |
CN106096638B (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |