CN111985641B - 一种基于低秩重构的神经网络训练方法 - Google Patents

一种基于低秩重构的神经网络训练方法 Download PDF

Info

Publication number
CN111985641B
CN111985641B CN202010700083.0A CN202010700083A CN111985641B CN 111985641 B CN111985641 B CN 111985641B CN 202010700083 A CN202010700083 A CN 202010700083A CN 111985641 B CN111985641 B CN 111985641B
Authority
CN
China
Prior art keywords
neural network
matrix
training
network structure
rank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010700083.0A
Other languages
English (en)
Other versions
CN111985641A (zh
Inventor
郭锴凌
陈琦
徐向民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010700083.0A priority Critical patent/CN111985641B/zh
Publication of CN111985641A publication Critical patent/CN111985641A/zh
Application granted granted Critical
Publication of CN111985641B publication Critical patent/CN111985641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于低秩重构的神经网络训练方法,其特征在于,包括以下步骤:S1、用随机梯度下降法或其变形对神经网络进行训练;S2、对训练后的神经网络每一层的权重矩阵进行低秩分解,将每一层分解的两个小矩阵转化为级联的两层结构,得到新的神经网络结构;S3、对新的神经网络结构进行训练;S4、根据新结构训练后的权重矩阵重构原神经网络结构的权重矩阵作为初始化,对原神经网络结构进行重训练。本发明利用低秩矩阵分解在原解空间的低维流形上进行搜索,再重构进行重训练,可以减少陷入原解空间局部最优的可能,提升神经网络训练后的性能。

Description

一种基于低秩重构的神经网络训练方法
技术领域
本发明属于人工智能领域,涉及机器学习和深度学习,旨在对神经网络进行训练,提升网络性能,具体涉及一种基于低秩重构的神经网络训练方法。
背景技术
近年来,神经网络快速发展,在图像识别、语音识别、自然语言处理等诸多应用中求得突破性的进展。神经网络的强大表达能力和深度分层结构带来过拟合、鞍点扩散等问题,导致训练困难。权重衰减、dropout、参数初始化、批标准化等许多训练技巧被提出,在一定程度上缓解了这些问题,但过拟合、鞍点扩散等问题仍然存在。
由于神经网络往往存在过参数化、网络神经元的功能具有较大重复性的问题,冗余的参数带来不必要的计算和空间浪费。神经网络的压缩也成为一个重要的研究方向。剪枝和低秩分解是两类代表性的神经网络压缩方法。基于剪枝的神经网络压缩本质上是将网络中的冗余参数移除,从而减少网络的参数量和不必要的计算,使得网络的神经元变得稀疏。低秩分解的思想是用一个秩比较低的矩阵去近似原来的矩阵,从而可以将矩阵分解成多个形式更简单、尺寸更小的矩阵,减少存储空间和运算量。
密集-稀疏-密集(Han S,Pool J,Narang S,et al.DSD:Dense-Sparse-DenseTraining for Deep Neural Networks[A].In:Proc.Int.Conf.Learn.Represent.,Toulon,France[C],2017.1-13.)是近来提出的一种将剪枝的思想用于神经网络训练的方法,在利用剪枝进行模型压缩后又放松稀疏的约束对网络进行重训,提升网络训练后的性能。密集-稀疏-密集通过添加约束和放松约束的求解方式,提供了一种逃离鞍点的训练方法。但是,稀疏约束描述的是权重矩阵的局部信息,欠缺考虑全局整体情况。考虑到低秩是描述矩阵全局信息的一种重要性质,本发明提出利用低秩分解和重构的网络训练方法,从融入低维流形约束的角度学习网络权重的整体结构信息,逃离鞍点,提升网络的性能。
发明内容
本发明提出一种基于低秩重构的神经网络训练方法。该方法能在低维流形附近搜索神经网络的解,提升神经网络训练后的性能。
本发明至少通过如下技术方案之一实现。
一种基于低秩重构的神经网络训练方法,包括以下步骤:
S1、用随机梯度下降法或其变形对神经网络进行训练;
S2、对训练后的神经网络每一层的权重矩阵进行低秩分解,将每一层分解的两个小矩阵转化为级联的两层结构,得到新的神经网络结构;
S3、对新的神经网络结构进行训练;
S4、根据新结构训练后的权重矩阵重构原神经网络结构的权重矩阵作为初始化,对原神经网络结构进行重训练。
进一步地,步骤S2的分解包括奇异值分解,具体包括以下步骤:
(1)设权重矩阵W的行数为m,列数为n,计算权重矩阵W的奇异值分解,得到W=U∑VT,其中U是m×m阶酉矩阵,∑是m×n阶非负实数对角矩阵,其对角元素为W的奇异值,V是n×n阶酉矩阵,VT表示V的转置;
(2)对奇异值进行截断;
(3)分解后的两个矩阵分别为其中U1:r和V1:r分别表示矩阵U和矩阵V的前r列,∑1:r表示奇异值矩阵∑的前r个对角元素所构成的方阵。
进一步地,对奇异值进行截断,有以下两种方式:
方式一、按能量比例进行截断;假设σi为∑的第i个对角元素,∑的所有对角元素之和为s,∑的前r个对角元素之和为sr,能量的比例值为α,则选取第一个满足的r作为低秩矩阵的秩,即保留前r个奇异值,剩下的奇异值置0;
方式一、按权重矩阵大小比例进行截断;设权重矩阵W的行数为m,列数为n,截断的比例为β,则保留前r=round(β min(m,n))个奇异值,剩下的奇异值置0,其中,min()表示取两个数的最小值,round()表示四舍五入取整。
进一步地,步骤S2,是根据分解后的结果构造新的神经网络结构,原来的全连接层变为两层较小的全连接层的级联,原来的卷积层变为卷积核大小相同、卷积核数目变小的卷积层和1×1卷积的级联。
进一步地,步骤S3是以分解后的矩阵作为新神经网络结构的初始化,用随机梯度下降法或其变形进行训练。
进一步地,步骤S4是利用新神经网络结构训练得到的权重矩阵去重构对应的原神经网络结构中的权重矩阵,作为原神经网络结构的初始化,再次用随机梯度下降法或其变形(包括SGD with momentum、SGD with Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam)进行训练。
与现有的技术相比,本发明的有益效果为:
通过添加低秩约束,在低维流形上求解网络权重,使得解可以逃离原始空间的鞍点;通过放松约束,使得解可以进一步逃离低维流形上的鞍点。稀疏约束描述的是权重空间的局部信息,与利用稀疏约束和放松约束的训练方法相比,本发明采用低秩约束,可以权重空间的整体结构信息。因此,本发明的训练方法可以在很大程度上逃离解空间的鞍点,使神经网络取得更优越的性能。
附图说明
图1为本实施例一种基于低秩重构的神经网络训练方法训练过程的流程图;
图2为本实施例全连接层低秩分解示意图;
图3为本实施例卷积层低秩分解示意图。
具体实施方式
下面通过具体实施方式对本发明作进一步详细地描述,但本发明的实施方式并不限于此。
本发明的原理包括:随着神经网络层数变深,训练容易陷入鞍点或局部最优,无法得到更优解。利用矩阵分解的形式添加低秩约束可以将解空间限制在低维流形上,但相当于加深了层数也使得训练更加困难。本发明先利用普通的训练方法对网络进行训练,再对训练后的权重进行低秩矩阵分解,得到带低秩约束的新网络结构和其较好的初始化。在此基础上,对新结构进行训练,得到原网络结构在低维流形上的解。最后,为避免低维流形上的局部最优解,用新结构的权重矩阵去重构原结构的权重作为初始化,对原结构进行重训练。
如图1所示,一种基于低秩重构的神经网络训练方法,包括以下步骤:
S1、用随机梯度下降法(Stochastic Gradient Descent,简称SGD)或其变形对神经网络进行训练。
S2、对训练后的神经网络每一层的权重矩阵进行低秩分解。具体地,低秩分解包括以下步骤:
(1)设权重矩阵W的行数为m,列数为n,计算权重矩阵W的奇异值分解,得到W=U∑VT,其中U是m×m阶酉矩阵,∑是m×n阶非负实数对角矩阵,其对角元素为W的奇异值,V是n×n阶酉矩阵,VT表示V的转置;
(2)对奇异值进行截断,有以下两种方法可选:
①按能量比例进行截断。假设σi为奇异值矩阵∑的第i个对角元素,∑的所有对角元素之和为s,∑的前r个对角元素之和为sr,能量的比例值为α,则选取第一个满足的r作为低秩矩阵的秩,即保留前r个奇异值,剩下的奇异值置0。
②按矩阵大小比例进行截断。设权重矩阵W的行数为m,列数为n,截断的比例为β,则保留前r=round(β min(m,n))个奇异值,剩下的奇异值置0。其中,min()表示取两个数的最小值,round()表示四舍五入取整。
(3)分解后的两个矩阵分别为其中U1:r和V1:r分别表示矩阵的前r列,∑1:r表示∑的前r个对角元素所构成的方阵。矩阵A和B的乘积为Frobenius范数下矩阵W的最优秩r近似。
(4)将原神经网络中矩阵W对应的层用级联的两层结构去替代,得到对应的新结构,其权重矩阵分别为矩阵A和矩阵B。对于全连接层,其对应的两层结构均为全连接层,如图2所示。对于卷积层,假设共有n个大小为d×d的卷积核,其对应的两层结构分别包含r个大小为d×d的卷积核和n个大小为1×1的卷积核,如图3所示。
S3、对新的神经网络结构用随机梯度下降法或其变形(包括SGD with momentum、SGD with Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam)进行训练。
S4、根据新神经网络结构的训练结果,计算新构造的两层级联结构的权重矩阵A和B的乘积,作为对原神经网络结构对应层的权重的初始化,对原神经网络结构进行重训练。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (4)

1.一种基于低秩重构的神经网络训练方法,其特征在于,包括以下步骤:
S1、输入图像数据,用随机梯度下降法或其变形对神经网络进行训练;
S2、对训练后的神经网络每一层的权重矩阵进行低秩分解,将每一层分解的两个小矩阵转化为级联的两层结构,得到新的神经网络结构;分解包括奇异值分解,具体包括以下步骤:
(1)设权重矩阵W的行数为m,列数为n,计算权重矩阵W的奇异值分解,得到W=U∑VT,其中U是m×m阶酉矩阵,∑是m×n阶非负实数对角矩阵,其对角元素为W的奇异值,V是n×n阶酉矩阵,VT表示V的转置;
(2)对奇异值进行截断;
(3)分解后的两个矩阵分别为其中U1:r和V1:r分别表示矩阵U和矩阵V的前r列,∑1:r表示奇异值矩阵∑的前r个对角元素所构成的方阵;
对奇异值进行截断,有以下两种方式:
方式一、按能量比例进行截断;假设σi为∑的第i个对角元素,∑的所有对角元素之和为s,∑的前r个对角元素之和为sr,能量的比例值为α,则选取第一个满足的r作为低秩矩阵的秩,即保留前r个奇异值,剩下的奇异值置0;
方式一、按权重矩阵大小比例进行截断;设权重矩阵W的行数为m,列数为n,截断的比例为β,则保留前r=round(βmin(m,n))个奇异值,剩下的奇异值置0,其中,min()表示取两个数的最小值,round()表示四舍五入取整;
S3、对新的神经网络结构进行训练;
S4、根据新结构训练后的权重矩阵重构原神经网络结构的权重矩阵作为初始化,对原神经网络结构进行重训练,将训练好的神经网络用于图像识别。
2.根据权利要求1所述的神经网络训练方法,其特征在于,步骤S2,是根据分解后的结果构造新的神经网络结构,原来的全连接层变为两层较小的全连接层的级联,原来的卷积层变为卷积核大小相同、卷积核数目变小的卷积层和1×1卷积的级联。
3.根据权利要求1所述的神经网络训练方法,其特征在于,步骤S3是以分解后的矩阵作为新神经网络结构的初始化,用随机梯度下降法或其变形进行训练。
4.根据权利要求1所述的神经网络训练方法,其特征在于,步骤S4是利用新神经网络结构训练得到的权重矩阵去重构对应的原神经网络结构中的权重矩阵,作为原神经网络结构的初始化,再次用随机梯度下降法或其变形进行训练。
CN202010700083.0A 2020-07-20 2020-07-20 一种基于低秩重构的神经网络训练方法 Active CN111985641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010700083.0A CN111985641B (zh) 2020-07-20 2020-07-20 一种基于低秩重构的神经网络训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010700083.0A CN111985641B (zh) 2020-07-20 2020-07-20 一种基于低秩重构的神经网络训练方法

Publications (2)

Publication Number Publication Date
CN111985641A CN111985641A (zh) 2020-11-24
CN111985641B true CN111985641B (zh) 2024-02-13

Family

ID=73438746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010700083.0A Active CN111985641B (zh) 2020-07-20 2020-07-20 一种基于低秩重构的神经网络训练方法

Country Status (1)

Country Link
CN (1) CN111985641B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503671B (zh) * 2023-06-25 2023-08-29 电子科技大学 基于有效秩张量近似的残差网络压缩的图像分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480777A (zh) * 2017-08-28 2017-12-15 北京师范大学 基于伪逆学习的稀疏自编码器快速训练方法
CN107967516A (zh) * 2017-10-12 2018-04-27 中科视拓(北京)科技有限公司 一种基于迹范数约束的神经网络的加速与压缩方法
CN111079781A (zh) * 2019-11-07 2020-04-28 华南理工大学 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480777A (zh) * 2017-08-28 2017-12-15 北京师范大学 基于伪逆学习的稀疏自编码器快速训练方法
CN107967516A (zh) * 2017-10-12 2018-04-27 中科视拓(北京)科技有限公司 一种基于迹范数约束的神经网络的加速与压缩方法
CN111079781A (zh) * 2019-11-07 2020-04-28 华南理工大学 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法

Also Published As

Publication number Publication date
CN111985641A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111079781B (zh) 基于低秩与稀疏分解的轻量化卷积神经网络图像识别方法
CN109977250B (zh) 融合语义信息和多级相似性的深度哈希图像检索方法
CN109635935B (zh) 基于模长聚类的深度卷积神经网络模型自适应量化方法
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
CN107944545A (zh) 应用于神经网络的计算方法及计算装置
CN113157919B (zh) 语句文本方面级情感分类方法及系统
CN112861992B (zh) 基于独立稀疏堆叠自编码器的风电场超短期功率预测方法
CN111985641B (zh) 一种基于低秩重构的神经网络训练方法
CN112949610A (zh) 一种基于降噪算法的改进Elman神经网络的预测方法
Li et al. A novel gaussian–bernoulli based convolutional deep belief networks for image feature extraction
CN112988548A (zh) 一种基于降噪算法的改进Elman神经网络的预测方法
CN114970853A (zh) 一种跨范围量化的卷积神经网络压缩方法
CN113610227A (zh) 一种高效的深度卷积神经网络剪枝方法
CN114329233A (zh) 一种跨区域跨评分协同过滤推荐方法及系统
CN105260736A (zh) 基于归一化非负稀疏编码器的图像快速特征表示方法
Gou et al. A Novel Spiking Neural P System for Image Recognition.
CN112860856B (zh) 一种算数应用题智能解题方法及系统
Qi et al. Learning low resource consumption cnn through pruning and quantization
CN113204640A (zh) 一种基于注意力机制的文本分类方法
Wang et al. Efficient deep convolutional model compression with an active stepwise pruning approach
CN116542315A (zh) 一种基于张量分解的大规模神经网络参数压缩方法及系统
Chen et al. Compressing fully connected layers using Kronecker tensor decomposition
CN116303386A (zh) 一种基于关系图谱的缺失数据智能插补方法和系统
Xia et al. Efficient synthesis of compact deep neural networks
Zhang et al. Compressing knowledge graph embedding with relational graph auto-encoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant