CN111985641B

CN111985641B - 一种基于低秩重构的神经网络训练方法

Info

Publication number: CN111985641B
Application number: CN202010700083.0A
Authority: CN
Inventors: 郭锴凌; 陈琦; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2024-02-13
Anticipated expiration: 2040-07-20
Also published as: CN111985641A

Abstract

本发明公开了一种基于低秩重构的神经网络训练方法，其特征在于，包括以下步骤：S1、用随机梯度下降法或其变形对神经网络进行训练；S2、对训练后的神经网络每一层的权重矩阵进行低秩分解，将每一层分解的两个小矩阵转化为级联的两层结构，得到新的神经网络结构；S3、对新的神经网络结构进行训练；S4、根据新结构训练后的权重矩阵重构原神经网络结构的权重矩阵作为初始化，对原神经网络结构进行重训练。本发明利用低秩矩阵分解在原解空间的低维流形上进行搜索，再重构进行重训练，可以减少陷入原解空间局部最优的可能，提升神经网络训练后的性能。

Description

一种基于低秩重构的神经网络训练方法

技术领域

本发明属于人工智能领域，涉及机器学习和深度学习，旨在对神经网络进行训练，提升网络性能，具体涉及一种基于低秩重构的神经网络训练方法。

背景技术

近年来，神经网络快速发展，在图像识别、语音识别、自然语言处理等诸多应用中求得突破性的进展。神经网络的强大表达能力和深度分层结构带来过拟合、鞍点扩散等问题，导致训练困难。权重衰减、dropout、参数初始化、批标准化等许多训练技巧被提出，在一定程度上缓解了这些问题，但过拟合、鞍点扩散等问题仍然存在。

由于神经网络往往存在过参数化、网络神经元的功能具有较大重复性的问题，冗余的参数带来不必要的计算和空间浪费。神经网络的压缩也成为一个重要的研究方向。剪枝和低秩分解是两类代表性的神经网络压缩方法。基于剪枝的神经网络压缩本质上是将网络中的冗余参数移除，从而减少网络的参数量和不必要的计算，使得网络的神经元变得稀疏。低秩分解的思想是用一个秩比较低的矩阵去近似原来的矩阵，从而可以将矩阵分解成多个形式更简单、尺寸更小的矩阵，减少存储空间和运算量。

密集-稀疏-密集(Han S,Pool J,Narang S,et al.DSD:Dense-Sparse-DenseTraining for Deep Neural Networks[A].In:Proc.Int.Conf.Learn.Represent.,Toulon,France[C],2017.1-13.)是近来提出的一种将剪枝的思想用于神经网络训练的方法，在利用剪枝进行模型压缩后又放松稀疏的约束对网络进行重训，提升网络训练后的性能。密集-稀疏-密集通过添加约束和放松约束的求解方式，提供了一种逃离鞍点的训练方法。但是，稀疏约束描述的是权重矩阵的局部信息，欠缺考虑全局整体情况。考虑到低秩是描述矩阵全局信息的一种重要性质，本发明提出利用低秩分解和重构的网络训练方法，从融入低维流形约束的角度学习网络权重的整体结构信息，逃离鞍点，提升网络的性能。

发明内容

本发明提出一种基于低秩重构的神经网络训练方法。该方法能在低维流形附近搜索神经网络的解，提升神经网络训练后的性能。

本发明至少通过如下技术方案之一实现。

一种基于低秩重构的神经网络训练方法，包括以下步骤：

S1、用随机梯度下降法或其变形对神经网络进行训练；

S2、对训练后的神经网络每一层的权重矩阵进行低秩分解，将每一层分解的两个小矩阵转化为级联的两层结构，得到新的神经网络结构；

S3、对新的神经网络结构进行训练；

S4、根据新结构训练后的权重矩阵重构原神经网络结构的权重矩阵作为初始化，对原神经网络结构进行重训练。

进一步地，步骤S2的分解包括奇异值分解，具体包括以下步骤：

(1)设权重矩阵W的行数为m，列数为n，计算权重矩阵W的奇异值分解，得到W＝U∑V^T，其中U是m×m阶酉矩阵，∑是m×n阶非负实数对角矩阵，其对角元素为W的奇异值，V是n×n阶酉矩阵，V^T表示V的转置；

(2)对奇异值进行截断；

(3)分解后的两个矩阵分别为其中U_1：r和V_1：r分别表示矩阵U和矩阵V的前r列，∑_1：r表示奇异值矩阵∑的前r个对角元素所构成的方阵。

进一步地，对奇异值进行截断，有以下两种方式：

方式一、按能量比例进行截断；假设σ_i为∑的第i个对角元素，∑的所有对角元素之和为s，∑的前r个对角元素之和为s_r，能量的比例值为α，则选取第一个满足的r作为低秩矩阵的秩，即保留前r个奇异值，剩下的奇异值置0；

方式一、按权重矩阵大小比例进行截断；设权重矩阵W的行数为m，列数为n，截断的比例为β，则保留前r＝round(β min(m，n))个奇异值，剩下的奇异值置0，其中，min()表示取两个数的最小值，round()表示四舍五入取整。

进一步地，步骤S2，是根据分解后的结果构造新的神经网络结构，原来的全连接层变为两层较小的全连接层的级联，原来的卷积层变为卷积核大小相同、卷积核数目变小的卷积层和1×1卷积的级联。

进一步地，步骤S3是以分解后的矩阵作为新神经网络结构的初始化，用随机梯度下降法或其变形进行训练。

进一步地，步骤S4是利用新神经网络结构训练得到的权重矩阵去重构对应的原神经网络结构中的权重矩阵，作为原神经网络结构的初始化，再次用随机梯度下降法或其变形(包括SGD with momentum、SGD with Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam)进行训练。

与现有的技术相比，本发明的有益效果为：

通过添加低秩约束，在低维流形上求解网络权重，使得解可以逃离原始空间的鞍点；通过放松约束，使得解可以进一步逃离低维流形上的鞍点。稀疏约束描述的是权重空间的局部信息，与利用稀疏约束和放松约束的训练方法相比，本发明采用低秩约束，可以权重空间的整体结构信息。因此，本发明的训练方法可以在很大程度上逃离解空间的鞍点，使神经网络取得更优越的性能。

附图说明

图1为本实施例一种基于低秩重构的神经网络训练方法训练过程的流程图；

图2为本实施例全连接层低秩分解示意图；

图3为本实施例卷积层低秩分解示意图。

具体实施方式

下面通过具体实施方式对本发明作进一步详细地描述，但本发明的实施方式并不限于此。

本发明的原理包括：随着神经网络层数变深，训练容易陷入鞍点或局部最优，无法得到更优解。利用矩阵分解的形式添加低秩约束可以将解空间限制在低维流形上，但相当于加深了层数也使得训练更加困难。本发明先利用普通的训练方法对网络进行训练，再对训练后的权重进行低秩矩阵分解，得到带低秩约束的新网络结构和其较好的初始化。在此基础上，对新结构进行训练，得到原网络结构在低维流形上的解。最后，为避免低维流形上的局部最优解，用新结构的权重矩阵去重构原结构的权重作为初始化，对原结构进行重训练。

如图1所示，一种基于低秩重构的神经网络训练方法，包括以下步骤：

S1、用随机梯度下降法(Stochastic Gradient Descent，简称SGD)或其变形对神经网络进行训练。

S2、对训练后的神经网络每一层的权重矩阵进行低秩分解。具体地，低秩分解包括以下步骤：

(2)对奇异值进行截断，有以下两种方法可选：

①按能量比例进行截断。假设σ_i为奇异值矩阵∑的第i个对角元素，∑的所有对角元素之和为s，∑的前r个对角元素之和为s_r，能量的比例值为α，则选取第一个满足的r作为低秩矩阵的秩，即保留前r个奇异值，剩下的奇异值置0。

②按矩阵大小比例进行截断。设权重矩阵W的行数为m，列数为n，截断的比例为β，则保留前r＝round(β min(m，n))个奇异值，剩下的奇异值置0。其中，min()表示取两个数的最小值，round()表示四舍五入取整。

(3)分解后的两个矩阵分别为其中U_1：r和V_1：r分别表示矩阵的前r列，∑_1：r表示∑的前r个对角元素所构成的方阵。矩阵A和B的乘积为Frobenius范数下矩阵W的最优秩r近似。

(4)将原神经网络中矩阵W对应的层用级联的两层结构去替代，得到对应的新结构，其权重矩阵分别为矩阵A和矩阵B。对于全连接层，其对应的两层结构均为全连接层，如图2所示。对于卷积层，假设共有n个大小为d×d的卷积核，其对应的两层结构分别包含r个大小为d×d的卷积核和n个大小为1×1的卷积核，如图3所示。

S3、对新的神经网络结构用随机梯度下降法或其变形(包括SGD with momentum、SGD with Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam)进行训练。

S4、根据新神经网络结构的训练结果，计算新构造的两层级联结构的权重矩阵A和B的乘积，作为对原神经网络结构对应层的权重的初始化，对原神经网络结构进行重训练。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于低秩重构的神经网络训练方法，其特征在于，包括以下步骤：

S1、输入图像数据，用随机梯度下降法或其变形对神经网络进行训练；

S2、对训练后的神经网络每一层的权重矩阵进行低秩分解，将每一层分解的两个小矩阵转化为级联的两层结构，得到新的神经网络结构；分解包括奇异值分解，具体包括以下步骤：

(1)设权重矩阵W的行数为m,列数为n，计算权重矩阵W的奇异值分解，得到W＝U∑V^T，其中U是m×m阶酉矩阵，∑是m×n阶非负实数对角矩阵，其对角元素为W的奇异值，V是n×n阶酉矩阵，V^T表示V的转置；

(2)对奇异值进行截断；

(3)分解后的两个矩阵分别为其中U_1:r和V_1:r分别表示矩阵U和矩阵V的前r列，∑_1:r表示奇异值矩阵∑的前r个对角元素所构成的方阵；

对奇异值进行截断，有以下两种方式：

方式一、按权重矩阵大小比例进行截断；设权重矩阵W的行数为m,列数为n，截断的比例为β，则保留前r＝round(βmin(m,n))个奇异值，剩下的奇异值置0，其中，min()表示取两个数的最小值，round()表示四舍五入取整；

S3、对新的神经网络结构进行训练；

S4、根据新结构训练后的权重矩阵重构原神经网络结构的权重矩阵作为初始化，对原神经网络结构进行重训练，将训练好的神经网络用于图像识别。

2.根据权利要求1所述的神经网络训练方法，其特征在于，步骤S2，是根据分解后的结果构造新的神经网络结构，原来的全连接层变为两层较小的全连接层的级联，原来的卷积层变为卷积核大小相同、卷积核数目变小的卷积层和1×1卷积的级联。

3.根据权利要求1所述的神经网络训练方法，其特征在于，步骤S3是以分解后的矩阵作为新神经网络结构的初始化，用随机梯度下降法或其变形进行训练。

4.根据权利要求1所述的神经网络训练方法，其特征在于，步骤S4是利用新神经网络结构训练得到的权重矩阵去重构对应的原神经网络结构中的权重矩阵，作为原神经网络结构的初始化，再次用随机梯度下降法或其变形进行训练。