CN111967580B

CN111967580B - 基于特征迁移的低比特神经网络训练方法及系统

Info

Publication number: CN111967580B
Application number: CN202010780010.7A
Authority: CN
Inventors: 张娅; 杜昆原; 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2023-09-29
Anticipated expiration: 2040-08-05
Also published as: CN111967580A

Abstract

本发明提供了一种基于迁移学习的低比特神经网络训练方法及系统，包括：低比特特征提取步骤：对训练数据集的图像，使用低比特深度卷积神经网络提取图像的低比特特征图；全精度特征提取步骤：对训练数据集的图像，使用全精度深度卷积神经网络提取图像的全精度特征图；特征对齐步骤：根据低比特特征图和全精度特征图，通过特征迁移，在特征对齐的约束下，协同训练全精度深度卷积神经网络和低比特深度卷积神经网络，使得低比特特征图和全精度特征图对齐；低比特预测步骤：根据训练后的低比特深度卷积神经网络实现图像类型的预测；本发明通过直接对连续空间的全精度特征图进行特征迁移，避免了因量化造成的特征细节损失。

Description

基于特征迁移的低比特神经网络训练方法及系统

技术领域

本发明涉及计算机视觉和图像处理领域，具体地，涉及一种，基于特征迁移的低比特神经网络训练方法及系统，更为具体地，涉及基于特征迁移的低比特神经网络训练框架。

背景技术

深度神经网络模型深度神经网络在各种模式识别任务中的取得了越来越显著的成果，但是，这一进步常常伴随着模型复杂性的急剧增加。为了减轻这个问题，我们可以利用模型量化将全精度的神经网络转化为低比特的神经网络，以实现模型大小的压缩和模型推理的加速。但是，由于低比特神经网络的损失函数表面常常存在很多鞍点，同时在反向传播阶段的梯度中也包含许多噪声，低比特神经网络比全精度神经网络更难训练。幸运的是，我们可以构造一个全精度神经网络作为低比特神经网络的教师网络，在训练时为低比特网络提供额外的指导，以帮助其更好地收敛。

然而，由于低比特神经网络的特征处于离散空间，我们无法利用传统的特征迁移方法来对低比特神经网络进行指导。低比特神经网络的特征迁移框架，就是为了解决传统特征迁移框架中存在的特征空间不匹配问题。

根据全精度神经网络被迁移的特征形式，低比特特征迁移可以分为：输出层迁移，中间层离散空间特征迁移，中间层连续空间特征迁移。对于输出层迁移，全精度神经网络只在网络的输出层指导低比特神经网络的训练。这种训练框架可以使低比特神经网络学习标签之间的相关性，有助于提升网络的泛化能力。对于中间层离散空间特征迁移，全精度神经网络可以在网络的中间层对低比特神经网络进行指导，这有助于低比特神经网络克服梯度中的噪声，实现更好地收敛。对于中间层连续空间特征迁移，低比特网路可以学习更为丰富的特征信息，同时由于其距离函数处于连续空间，低比特网络的学习过程会更为平稳。

经检索，中国发明专利公开号为CN109800865A(申请号：201910068770.2)，公开了一种神经网络生成及图像处理方法和装置、平台、电子设备，其中，神经网络生成方法包括：获取神经网络预期部署的硬件平台的定点运算资源信息；将神经网络包括的至少一个网络单元的网络参数的值的分布调整为均匀型分布；基于样本图像数据对参数调整后的神经网络进行训练；根据定点运算资源信息对训练后的神经网络中的网络参数的值进行定点化调整，调整为均匀型分布的网络参数的值更适合进行定点化调整，减少了从浮点数转换到定点数的精度损失，提高了定点化调整后的神经网络的精度；并且基于硬件平台的定点运算资源信息进行定点化调整，使调整后的神经网络可以在硬件资源有限的平台上运行。但是它没有使用归一化余弦距离作为距离函数，也没有对距离函数的梯队进行相应的缩放。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于迁移学习的低比特神经网络训练方法及系统。

根据本发明提供的一种基于迁移学习的低比特神经网络训练方法，包括：

低比特特征提取步骤：对训练数据集的图像，使用低比特深度卷积神经网络提取图像的低比特特征图；

全精度特征提取步骤：对训练数据集的图像，使用全精度深度卷积神经网络提取图像的全精度特征图；

特征对齐步骤：根据低比特特征图和全精度特征图，通过特征迁移，在特征对齐的约束下，协同训练全精度深度卷积神经网络和低比特深度卷积神经网络，使得低比特特征图和全精度特征图对齐；

低比特预测步骤：根据训练后的低比特深度卷积神经网络实现图像类型的预测；

所述低比特深度卷积神经网络是将低比特深度卷积神经网络中卷积层输出特征和全连接层输出特征被量化到预设比特位，减小低比特深度卷积网络的大小。

优选地，所述低比特特征图包括：低比特特征图张量维度为N×C×H×W，其中N表示批样本中的样本数；C表示通道数；H表示特征图高；W表示特征图宽；

所述低比特特征图中每个元素的值均被量化到离散空间。

优选地，所述特征对齐步骤包括：

特征对齐步骤M1：计算低比特特征图和全精度特征图之间的归一化余弦距离；

特征对齐步骤M2：根据归一化余弦距离得到低比特特征图和全精度特征图之间的梯度值；

特征对齐步骤M3：通过不同的缩放系数对低比特特征图和全精度特征图的梯度值进行缩放；

特征对齐步骤M4：将缩放后的梯度值分别反向传播到低比特深度卷积神经网络和全精度深度卷积神经网络，获得新的低比特深度卷积神经网络和新的全精度深度卷积神经网络；使用新的低比特深度卷积神经网络提取图像的低比特特征图；使用新的全精度深度卷积神经网络提取图像的全精度特征图；重复执行特征对齐步骤M1至特征对齐步骤M4，直至损失函数最小。

优选地，所述归一化余弦距离包括：

其中，f_low代表所述低比特特征图，f₃₂代表所述全精度特征图，代表所述低比特特征图均值，/>代表所述全精度特征图均值，m表示均值，|| ||代表欧式距离。

优选地，所述特征对齐步骤M2包括：

根据归一化余弦距离得到低比特网络分支的梯度包括：

其中，L_cos表示归一化余弦距离；(1-α)表示归一化余弦距离关于低比特网络分支梯度的缩放系数，其中α在0到1之间；f_low是所述低比特特征图；

根据归一化余弦距离得到全精度网络分支的梯度包括：

其中，L_cos表示归一化余弦距离，α表示归一化余弦距离关于全精度网络分支梯度的缩放系数，其中α在0到1之间；f₃₂是所述全精度特征图。

优选地，所述特征对齐步骤M4包括：

根据低比特深度卷积神经网络，计算低比特分类器预测出的类别概率和相应的标注的交叉熵损失：

其中，(X，Y)代表数据集的图像和标签的分布，x_i代表图像，y_i是其类别标签，f_low代表低比特神经网络，H代表交叉熵函数；

对于全精度深度卷积神经网络，计算全精度分类器预测出的类别概率和相应的标注的交叉熵损失：

其中，(X，Y)代表数据集的图像和标签的分布，x_i代表图像，y_i是其类别标签，f₃₂代表全精度神经网络，H代表交叉熵函数；

在所述特征对齐的正则化约束下，最小化的损失函数为：

其中，θ_low表示低比特深度神经网络的参数，θ₃₂表示全精度深度神经网络的参数，L_low表示低比特神经网络的交叉熵损失，L₃₂表示全精度神经网络的交叉熵损失，L_cos表示归一化余弦距离。

根据本发明提供的一种基于迁移学习的低比特神经网络训练系统，包括：

低比特特征提取模块：对训练数据集的图像，使用低比特深度卷积神经网络提取图像的低比特特征图；

全精度特征提取模块：对训练数据集的图像，使用全精度深度卷积神经网络提取图像的全精度特征图；

特征对齐模块：根据低比特特征图和全精度特征图，通过特征迁移，在特征对齐的约束下，协同训练全精度深度卷积神经网络和低比特深度卷积神经网络，使得低比特特征图和全精度特征图对齐；

低比特预测模块：根据训练后的低比特深度卷积神经网络实现图像类型的预测；

所述低比特特征图中每个元素的值均被量化到离散空间。

优选地，所述特征对齐模块包括：

特征对齐模块M1：计算低比特特征图和全精度特征图之间的归一化余弦距离；

特征对齐模块M2：根据归一化余弦距离得到低比特特征图和全精度特征图之间的梯度值；

特征对齐模块M3：通过不同的缩放系数对低比特特征图和全精度特征图的梯度值进行缩放；

特征对齐模块M4：将缩放后的梯度值分别反向传播到低比特深度卷积神经网络和全精度深度卷积神经网络，获得新的低比特深度卷积神经网络和新的全精度深度卷积神经网络；使用新的低比特深度卷积神经网络提取图像的低比特特征图；使用新的全精度深度卷积神经网络提取图像的全精度特征图；重复执行特征对齐模块M1至特征对齐模块M4，直至损失函数最小；

所述归一化余弦距离包括：

优选地，所述特征对齐模块M2包括：

根据归一化余弦距离得到低比特网络分支的梯度包括：

根据归一化余弦距离得到全精度网络分支的梯度包括：

其中，L_cos表示归一化余弦距离，α表示归一化余弦距离关于全精度网络分支梯度的缩放系数，其中α在0到1之间；f₃₂是所述全精度特征图；

所述特征对齐模块M4包括：

在所述特征对齐的正则化约束下，最小化的损失函数为：

与现有技术相比，本发明具有如下的有益效果：

1、本发明通过直接对连续空间的全精度特征图进行特征迁移，避免了因量化造成的特征细节损失；

2、本发明由于训练阶段最小化处在连续空间的距离函数，相比现有技术可以使训练过程更加稳定；

3、本发明通过归一化余弦距离的约束，低比特神经网络会产生更高质量的特征图，且不必考虑与全精度神经网络特征分布不一致的问题。通过梯度缩放和协同训练机制，本发明避免了对低比特网络的过正则化，使其可以更好地对数据集进行拟合；

4、本发明通过归一化余弦距离的约束，各类低比特神经网络在超大型分类数据集ImageNet上实现0.6％-3.4％的分类准确率提升。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于特征迁移的低比特神经网络训练方法流程图；

图2为基于特征迁移的低比特神经网络训练系统原理图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

具体地，所述低比特特征图包括：低比特特征图张量维度为N×C×H×W，其中N表示批样本中的样本数；C表示通道数；H表示特征图高；W表示特征图宽；

所述低比特特征图中每个元素的值均被量化到离散空间。

具体地，所述特征对齐步骤包括：

具体地，所述归一化余弦距离包括：

具体地，所述特征对齐步骤M2包括：

根据归一化余弦距离得到低比特网络分支的梯度包括：

根据归一化余弦距离得到全精度网络分支的梯度包括：

具体地，所述特征对齐步骤M4包括：

在所述特征对齐的正则化约束下，最小化的损失函数为：

所述低比特特征图中每个元素的值均被量化到离散空间。

具体地，所述特征对齐模块包括：

特征对齐模块M4：将缩放后的梯度值分别反向传播到低比特深度卷积神经网络和全精度深度卷积神经网络，获得新的低比特深度卷积神经网络和新的全精度深度卷积神经网络；使用新的低比特深度卷积神经网络提取图像的低比特特征图；使用新的全精度深度卷积神经网络提取图像的全精度特征图；重复执行特征对齐模块M1至特征对齐模块M4，直至损失函数最小。

具体地，所述归一化余弦距离包括：

具体地，所述特征对齐模块M2包括：

根据归一化余弦距离得到低比特网络分支的梯度包括：

根据归一化余弦距离得到全精度网络分支的梯度包括：

具体地，所述特征对齐模块M4包括：

在所述特征对齐的正则化约束下，最小化的损失函数为：

实施例2

实施例2是实施例1的变化例

如图1所示，为本发明基于特征迁移的低比特神经网络训练框架实施例的流程图，该方法通过全精度深度卷积神经网络提取图像的全精度特征，作为低比特神经网络训练时的额外指导，并通过归一化余弦距离作为特征对齐的距离函数。通过梯度缩放步骤，缩放正则化函数关于两支网络的梯度大小，使得训练过程更加稳定。此外，本发明中全精度深度神经网络作为教师网络，其参数并不是固定的，而是以协同训练的形式实现动态调节，这可以有效地避免对低比特神经网络的过正则化。

本发明通过在训练阶段最小化全精度特征图和低比特特征图的归一化余弦距离，迫使低比特神经网络产生质量更高的中间层特征，即和全精度特征图达到更高的相似性。通过协同训练全精度神经网络和低比特神经网络，全精度神经网络可以自适应调节为更适合的教师网络，学生网络则可以在保持原有网络结构的基础上达到更高的分类准确率。

具体地，参照图1，所述方法包括如下步骤：

低比特特征提取步骤：对训练数据集的图像，使用低比特深度卷积神经网络提取图像的低比特特征；

全精度特征提取步骤：对训练数据集的图像，使用全精度深度卷积神经网络提取图像的全精度特征；

特征对齐步骤：通过特征迁移，对所述低比特特征和全精度特征进行对齐，减小两种特征图之间的归一化余弦距离。特征对齐步骤的梯度会分别反向传播到低比特网络和全精度网络中；

梯度缩放步骤：通过不同的缩放系数对来自所述特征对齐步骤的梯度进行缩放，使训练过程更加平稳；

协同训练步骤：在特征对齐的约束下，协同训练低比特神经网络和全精度神经网络，提升低比特神经网络预测精度；

低比特预测步骤：利用所述低比特特征，使用低比特分类器实现图像类别的高效预测。

所述低比特特征提取步骤，其中：利用低比特深度卷积神经网络模型，训练数据集的图像输入低比特特征提取网络，提取低比特特征。低比特深度神经网络的卷积层权重均被量化到了离散空间，目的是减小深度神经网络的模型大小。在低比特深度神经网络中，卷积层的输出特征核全连接层的输出特征均被量化到低比特位，目的使低比特神经网络可以通过高效的定点数运算实现快速推理。所述低比特特征图张量维度为N×C×H×W，其中N为批样本中的样本数，C为通道数，H为特征图高，W为特征图宽。所述低比特特征图中每个元素的值均被量化到离散空间。低比特深度卷积神经网络模型具有快速推理运算的特点

所述全精度特征提取步骤，其中：利用全精度深度卷积神经网络模型提取高质量的全精度特征图。所述全精度深度卷积神经网络和所述低比特深度卷积神经网络有着同样的网络架构，每个网络层输出的特征图的维度也相同，目的是使所示低比特特征图和所述全精度特征图更好地实现对齐。所述全精度特征图和所述低比特特征图均从同样的图像样本中提取，目的是使两者之间有共同的语义信息。所述全精度特征图在训练阶段辅助所述低比特特征图的优化，目的是帮助所述低比特深度神经网络克服训练阶段的量化噪声。

所述特征对齐步骤，其中，在训练阶段，最小化所述全精度特征图和所述低比特特征图之间的归一化余弦距离。所述特征对齐步骤作为模型训练阶段的正则化函数，帮助低比特神经网络产生更高质量的特征图。

具体地，对于所述全精度特征图，与所述低比特特征图的归一化余弦距离为：

其中，f_low代表所述低比特特征图，f₃₂代表所述全精度特征图，代表所述低比特特征图均值，/>代表所述全精度特征图均值，|| ||代表L2-范数。对f₃₂和/>进行归一化的目的是使所述特征对齐步骤不受特征图分布的影响。

所述梯度缩放步骤，其中：被缩放的梯度来自所述归一化余弦距离，所述低比特网络分支和全精度网络分支有着不同的缩放系数。

具体地，归一化余弦距离关于低比特网络分支的梯度大小如下：

其中，L_cos是所述归一化余弦距离，(1-α)是所述归一化余弦距离关于低比特网络分支梯度的缩放系数，其中α在0到1之间。f_low是所述低比特特征图。

归一化余弦距离关于全精度网络分支的梯度大小如下：

其中，L是所述归一化余弦距离，α是所述归一化余弦距离关于低比特网络分支梯度的缩放系数，其中α在0到1之间。f₃₂是所述全精度特征图。

所述低比特分支的梯度缩放系数和全精度分支的梯度缩放系数的和为1，它的目的是使归一化余弦距离在网络训练阶段实现较为稳定的正则化效果。

所述协同训练步骤，其中，在训练阶段，所述低比特深度神经网络和所述全精度网络在特征对齐的约束下协同训练。协同训练使得全精度神经网络可以动态地对低比特神经网络进行指导，防止低比特神经网络在训练阶段被正则化；

具体地，对于低比特神经网络，计算低比特分类器预测出的类别概率和相应的标注的交叉熵损失：

其中，(X，Y)代表数据集的图像和标签的分布，x_i代表图像，y_i是其类别标签，f_low代表低比特神经网络，H代表交叉熵函数。

对于全精度神经网络，计算全精度分类器预测出的类别概率和相应的标注的交叉熵损失：

其中，(X，Y)代表数据集的图像和标签的分布，x_i代表图像，y_i是其类别标签，f₃₂代表低比特神经网络，H代表交叉熵函数。

在所述特征对齐的正则化约束下，两支网络在所述协同训练步骤最小化的损失函数为：

其中，θ_low是低比特深度神经网络的参数，θ₃₂是全精度深度神经网络的参数，L_low是低比特神经网络的交叉熵损失，L₃₂是全精度神经网络的交叉熵损失，L_cos是特征对齐步骤的归一化余弦距离。最小化损失函数是为了提升低比特神经网络的预测精度，第一项是为了让低比特神经网络拟合数据集，第二项是为了让全精度神经网络拟合数据集，以保证其提供的特征图的质量；第三项是通过特征对齐对低比特神经网络进行正则化，提升其预测精度。

所述低比特预测步骤，其中，在测试阶段被运行的网络分支只有低比特深度神经网络分支，而全精度深度神经网络可以直接被移除，目的是节省模型所占的磁盘空间。低比特预测步骤是利用全连接层构造低比特分类器，将低比特特征作为输入，输出对应的预测结果，高效地获取低比特网络的预测结果，使得协同训练步骤可以利用交叉熵损失函数对网络进行优化。

综上，本发明通过全精度深度卷积神经网络提取图像的全精度特征，作为低比特神经网络训练时的额外指导，并通过归一化余弦距离作为特征对齐的距离函数。通过在训练阶段最小化全精度特征图和低比特特征图的归一化余弦距离，迫使低比特神经网络产生质量更高的中间层特征，即和全精度特征图达到更高的相似性。通过梯度缩放步骤，缩放正则化函数关于两支网络的梯度大小，使得训练过程更加稳定。此外，本发明中全精度深度神经网络作为教师网络，其参数并不是固定的，而是以协同训练的形式实现动态调节，这可以有效地避免对低比特神经网络的过正则化。通过协同训练全精度神经网络和低比特神经网络，全精度神经网络可以自适应调节为更适合的教师网络，学生网络则可以在保持原有网络结构的基础上达到更高的分类准确率。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于迁移学习的低比特神经网络训练方法，其特征在于，包括：

所述低比特深度卷积神经网络是将低比特深度卷积神经网络中卷积层输出特征和全连接层输出特征被量化到预设比特位，减小低比特深度卷积网络的大小；

所述特征对齐步骤包括：

2.根据权利要求1所述的基于迁移学习的低比特神经网络训练方法，其特征在于，所述低比特特征图包括：低比特特征图张量维度为，其中N表示批样本中的样本数；C表示通道数；H表示特征图高；W表示特征图宽；

所述低比特特征图中每个元素的值均被量化到离散空间。

3.根据权利要求1所述的基于迁移学习的低比特神经网络训练方法，其特征在于，所述归一化余弦距离包括：

（1）

其中，代表所述低比特特征图，/>代表所述全精度特征图，/>代表所述低比特特征图均值，/>代表所述全精度特征图均值，/>表示均值，/>代表欧式距离。

4.根据权利要求1所述的基于迁移学习的低比特神经网络训练方法，其特征在于，所述特征对齐步骤M2包括：

根据归一化余弦距离得到低比特网络分支的梯度包括：

（2）

其中，表示归一化余弦距离；/>表示归一化余弦距离关于低比特网络分支梯度的缩放系数，其中/>在0到1之间；/>是所述低比特特征图；

根据归一化余弦距离得到全精度网络分支的梯度包括：

（3）

其中，表示归一化余弦距离，/>表示归一化余弦距离关于全精度网络分支梯度的缩放系数，其中/>在0到1之间；/>是所述全精度特征图。

5.根据权利要求1所述的基于迁移学习的低比特神经网络训练方法，其特征在于，所述特征对齐步骤M4包括：

（4）

其中，代表数据集的图像和标签的分布，/>代表图像，/>是其类别标签，/>代表低比特神经网络，/>代表交叉熵函数；

其中，代表数据集的图像和标签的分布，/>代表图像，/>是其类别标签，/>代表全精度神经网络，/>代表交叉熵函数；

在所述特征对齐的正则化约束下，最小化的损失函数为：

其中，表示低比特深度神经网络的参数，/>表示全精度深度神经网络的参数，/>表示低比特神经网络的交叉熵损失，/>表示全精度神经网络的交叉熵损失，/>表示归一化余弦距离。

6.一种基于迁移学习的低比特神经网络训练系统，其特征在于，包括：

所述特征对齐模块包括：

7.根据权利要求6所述的基于迁移学习的低比特神经网络训练系统，其特征在于，所述低比特特征图包括：低比特特征图张量维度为，其中N表示批样本中的样本数；C表示通道数；H表示特征图高；W表示特征图宽；

所述低比特特征图中每个元素的值均被量化到离散空间。

8.根据权利要求6所述的基于迁移学习的低比特神经网络训练系统，其特征在于，

所述归一化余弦距离包括：

（1）

9.根据权利要求6所述的基于迁移学习的低比特神经网络训练系统，其特征在于，所述特征对齐模块M2包括：

根据归一化余弦距离得到低比特网络分支的梯度包括：

（2）

根据归一化余弦距离得到全精度网络分支的梯度包括：

（3）

其中，表示归一化余弦距离，/>表示归一化余弦距离关于全精度网络分支梯度的缩放系数，其中/>在0到1之间；/>是所述全精度特征图；

所述特征对齐模块M4包括：

（4）

在所述特征对齐的正则化约束下，最小化的损失函数为：