CN116681925A

CN116681925A - 一种基于自蒸馏二值神经网络的车辆分类方法

Info

Publication number: CN116681925A
Application number: CN202310551677.3A
Authority: CN
Inventors: 曾凯; 万子鑫; 沈韬
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-09-01

Abstract

本发明涉及一种基于自蒸馏二值神经网络的车辆分类方法，属于模型压缩技术领域。首先获取包含N个相似标签对的车辆图片数据集，按划分比例为(4+N)：1，得到训练集和测试集；将训练集图片输入搭建的动态近似梯度二值神经网络，得到类别输出预测；本轮迭代训练的网络成为教师，对类别输出预测进行筛选和平均，得到指示正确的软标签库；下一轮迭代训练的网络成为学生，软标签库提供软标签教师知识，在二值神经网络的尾部进行自蒸馏；不断迭代师生自蒸馏训练过程，进行蒸馏作用的迭代轮数为2至SumE，以提高二值神经网络的分类精度；根据训练好的二值分类模型对车辆测试集图片进行分类预测，得到分类结果。

Description

一种基于自蒸馏二值神经网络的车辆分类方法

技术领域

本发明涉及一种基于自蒸馏二值神经网络的车辆分类方法，属于模型压缩技术领域。

背景技术

近年来，满足IEC61499标准的PLC设备发展快速，同时深度卷积神经网络在图像分类、目标检测、语义分割等计算机视觉领域都取得了巨大成功，为智能交通系统更有效的应用提供了契机。二值神经网络是参数量化的极致情况，它限制网络中卷积参数的取值为-1和+1，并使用廉价的同或和计数位运算代替昂贵的浮点卷积运算，可以显著提高计算和存储效率。非常适用于计算能力、内存存储等资源都有限的智能交通PLC设备，使高性能的神经网络可以得到有效部署。然而，二值神经网络的精度却显著低于同结构的全精度神经网络，原因是参数的二值化会导致严重的信息丢失。因此，迫切需要提出恰当的方法来为二值神经网络的训练过程提供更多的信息，以提升精度。

发明内容

本发明要解决的技术问题是提供一种基于自蒸馏二值神经网络的车辆分类方法，其能为二值神经网络提供蕴含更多类内和类间相似性知识的信息，使精度低下的二值神经网络获得较好的车辆分类结果。

本发明的技术方案是：一种基于自蒸馏二值神经网络的车辆分类方法，首先获取包含N个相似标签对的车辆图片数据集，按划分比例为(4+N)：1，得到训练集和测试集；将训练集图片输入搭建的动态近似梯度二值神经网络，得到类别输出预测；本轮迭代训练的网络成为教师，对类别输出预测进行筛选和平均，得到指示正确的软标签库；下一轮迭代训练的网络成为学生，软标签库提供软标签教师知识，在二值神经网络的尾部进行自蒸馏；不断迭代师生自蒸馏训练过程，进行蒸馏作用的迭代轮数为2至SumE，以提高二值神经网络的分类精度；根据训练好的二值分类模型对车辆测试集图片进行分类预测，得到分类结果。

具体步骤为：

Step1：获取包含N个相似标签对的车辆图片数据集，按划分比例为(4+N)：1，得到训练集和测试集。

Step2：将训练集图片输入搭建的动态近似梯度二值神经网络，得到类别输出预测。

Step3：本轮迭代训练的网络成为教师，对类别输出预测进行筛选和平均，得到指示正确的软标签库。

Step4：下一轮迭代训练的网络成为学生，软标签库提供软标签教师知识，在二值神经网络的尾部进行自蒸馏。

Step5：不断进行师生自蒸馏训练蒸馏过程，提高二值神经网络的分类精度。

所述的师生自蒸馏过程总是使用本次迭代的网络作为教师，将下一次迭代的网络作为学生，蒸馏作用在学生网络，进行蒸馏作用的迭代轮数为2至SumE，即第一次迭代训练仅产生教师知识。

Step6：根据训练好的二值分类模型对车辆测试集图片进行分类预测，得到分类结果。

所述Step1具体为：

Step1.1：数据集包含M种类型的车辆在特定场景中的图像，需包含以下标签相似对的至少一种，客车-卡车，货车-轿车，电动车-摩托车，其中包含的相似标签对数量设为N。

Step1.2：将训练集和测试集的划分，比例为(4+N)：1，并对原图像和标签进行一对一标注。

所述Step2具体为：

Step2.1：对于搭建好的卷积神经网络，除网络的第一层和最后一层，所有其它卷积层参数都通过Sign函数进行二值化，并使用廉价的同或和计数位运算组成二值卷积运算。代替昂贵的传统浮点全精度卷积运算。

Step2.2：在反向传播期间，用动态近似函数DynamicHardTanh代替Sign函数，将产生的动态近似梯度反向传播给全精度权重，以解决Sign函数的不可微分问题。动态近似函数DynamicHardTanh公式为。

式中，Y为动态阈值，随训练迭代次数的增加而变化，若E为当前迭代次数，SumE为迭代总次数，则：

Y＝0.5+(E/SumE)^1/2*5

反向传播时，由动态近似函数DynamicHardTanh近似Sign函数后的实际回传动态近似梯度DyGradient为：

Step2.3：对于输入图片，通过堆叠N个卷积块和使用最后的线性分类层，得到类别输出预测，过程可以公式化为：

P＝F_c(B_n(...B₁(I)...))

式中，B_n表示第n个卷积块，通常由二值卷积(第一个卷积块除外)批处理归一化、非线性激活函数组成。对于输入图像为I，通过堆叠N个卷积块提取中间特征，最终使用线性分类器F_c获得输出预测P，P指出二值神经网络对于每个类别的置信度，并假设最高的得分是正确类别。

所述Step3具体为：

Step3.1：对输入图片的所有输出预测进行筛选，去除错误的输出预测，只保留正确的输出预测。

Step3.2：对相同类别的正确预测进行平均，最终得到指示正确的软标签库，得到的软标签库大小为M*M，此过程公式化为：

式中，表示筛选后同一类别j中正确的预测输出，N_(j)是它的数量，Ψ(·)是软标签库的组成过程，具体表示为分别对M个类别进行平均后，得到M个由M个元素组成的向量，按照类别顺序堆叠组成最终的软标签库/>随着训练迭代次数的增加，二值神经网络的准确率上升，网络的错误预测越来越少，/>将会在保持正确性的基础上，进一步增强对类别关系知识的概括能力。

5、根据权利要求1所述的基于自蒸馏二值神经网络的车辆分类方法，其特征在于，所述Step4具体为：

Step4.1：按照输入图片的真实类别，抽取软标签库中的对应类别标签，形成一对一的标注，作为软标签教师知识。这意味着一个学生模型变成了一个教师模型，它利用自己的知识形成软标签，补充信息匮乏的真实标签，完成二值神经网络的自蒸馏过程，以便在训练过程中提供更多的信息。

Step4.2：在二值神经网络的尾部，同时使用软标签和真实标签，对网络进行额外的监督训练，软标签对应的损失项为：

L_SL＝KL(δ(P^s/T),δ(SL^t/T))

式中，P^s表示学生网络的输出预测，SL^t表示教师软标签，KL(·)表示Kullback–Leibler散度函数：

δ(·)为Softmax函数：

式中，T为温度系数。当它增大时，Softmax函数产生的软标签分布变软，这有助于在反向传播中向学生网络参数提供更多信息，设置T＝4。

最终总损失函数为：

式中，CE(·)表示交叉熵函数，其使用输出预测P匹配真实标签HardLabel，计算图像分类任务损失项。

交叉熵函数公式为：

CE(p||q)＝-∑p(x)logq(x)

式中，γ是权衡超参数，用于平衡两个损失项。

本发明的有益效果是：本发明使用自身的输出预测生成软标签教师知识，进行自蒸馏监督训练。所提出的软标签库为二值神经网络提供了丰富的类内和类间相似性知识，可以帮助学生模型收敛到最小值，从而导致更好的泛化。还可以防止学生二值神经网络出现梯度消失问题。此外，避免了传统技术中由于外部教师所引发的各种缺点。在没有增加任何额外推理成本的前提下提升了二值神经网络的分类精度，更加高效与实用，缓解了二值神经网络在训练过程中信息匮乏导致精度低下的问题。

附图说明

图1是本发明的流程图；

图2是本发明提供的二值神经网络中二值卷积运算的过程示意图；

图3是本发明的动态近似函数实施直通估计器的过程示意图；

图4是本发明的动态近似函数中动态阈值的变化示意图；

图5是本发明的结构图。

具体实施方式

下面结合附图具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种基于自蒸馏二值神经网络的车辆分类方法，具体步骤为：

Step1.2：将训练集和测试集的划分，比例为(4+N):1，并对原图像和标签进行一对一标注。

Step2.1：对于搭建好的卷积神经网络，除网络的第一层和最后一层，所有其它卷积层参数都通过Sign函数进行二值化，二值化公式为：

式中，W_r表示全精度权重。A_r表示由前网络层计算得到的全精度激活，例如批次归一化层。W_b和A_b表示计算得到的二值权重和二值激活。

使用廉价的同或和计数位运算组成二值卷积运算，代替昂贵的传统浮点全精度卷积运算，具体公式为：

式中，表示使用乘法和加法的传统卷积运算，/>表示使用同或和计数位运算的二值卷积运算。代替后的二值卷积运算如图2所示。

Step2.2：如图3所示，在反向传播期间，用动态近似函数DynamicHardTanh代替Sign函数，将产生的动态近似梯度反向传播给全精度权重，以解决Sign函数的不可微分问题。动态近似函数DynamicHardTanh公式为：

Y＝0.5+(E/SumE)^1/2*5 (4)

具体的函数值变化如图4所示。

P＝F_c(B_n(...B₁(I)...)) (6)

式中，B_n表示第n个卷积块，通常由二值卷积(第一个卷积块除外)，批处理归一化、非线性激活函数组成。对于输入图像为I，通过堆叠N个卷积块提取中间特征，最终使用线性分类器F_c获得输出预测P，P指出二值神经网络对于每个类别的置信度，并假设最高的得分是正确类别。

Step3：如图5所示，本轮迭代训练时刻的网络成为教师，对类别输出预测进行筛选和平均，得到指示正确的软标签库。

Step3.1：对输入图片的所有输出预测进行筛选，去除错误的输出预测，只保留正确的输出预测；

Step3.2：对相同类别的正确预测进行平均，最终得到指示正确的软标签库，得到的软标签库大小为M*M，此过程可以公式化为：

式中表示筛选后同一类别j中正确的预测输出，N_(j)是它的数量。Ψ(·)是软标签库的组成过程，具体表示为分别对M个类别进行平均后，得到M个由M个元素组成的向量，按照类别顺序堆叠组成最终的软标签库/>随着训练迭代次数的增加，二值神经网络的准确率上升，网络的错误预测越来越少，/>将会在保持正确性的基础上，进一步增强对类别关系知识的概括能力。

Step4：如图5所示，下一轮迭代训练的网络成为学生，软标签库提供软标签教师知识，在二值神经网络的尾部进行自蒸馏。

Step4.1：按照输入图片的真实类别，抽取软标签库中的对应类别标签，形成一对一的标注，作为软标签教师知识。这意味着一个学生模型变成了一个教师模型，它利用自己的知识形成软标签，补充信息匮乏的真实标签，完成二值神经网络的自蒸馏过程，以便在训练过程中提供更多的信息。软标签为二值神经网络提供更多的类别关系知识。例如，软标签提示卡车比摩托车更相似于公交车，并给出相似程度(标记为30％的卡车，11％的摩托车，对比于59％的公交车)，而真实标签只指出所属类别公交车，却刻板的认为卡车和摩托车对公交车的相似程度相同。

Step4.2：在二值神经网络的尾部，同时使用软标签和真实标签，对网络进行额外的监督训练。软标签对应的损失项为：

L_SL＝KL(δ(P^s/T),δ(SL^t/T)) (8)

式中，P^s表示学生网络的输出预测，SL^t表示教师软标签。KL(·)表示Kullback–Leibler散度函数：

δ(·)为Softmax函数：

T为温度系数，当它增大时，Softmax函数产生的软标签分布变软，这有助于在反向传播中向学生网络参数提供更多信息，设置T＝4。

最终总损失函数为：

式中，CE(·)表示交叉熵函数，其使用输出预测P匹配真实标签HardLabel，计算图像分类任务损失项。交叉熵函数公式为：

CE(p||q)＝-∑p(x)logq(x) (12)

γ是权衡超参数，用于平衡两个损失项。

Step5：不断进行师生自蒸馏训练蒸馏过程，提高二值神经网络的分类精度。所述的师生自蒸馏过程总是使用本次迭代的网络作为教师，将下一次迭代的网络作为学生，蒸馏作用在学生网络。进行蒸馏作用的迭代轮数为2至SumE，即第一次迭代训练仅产生教师知识。

现有技术中，将二值神经网络与知识蒸馏结合的技术，存在以下两种共同的缺点：在训练开始前，总需要额外预训练一个完整的外部全精度教师模型，造成两阶段训练，时间和内存成本剧增；由于师生之间的架构差异，需要师生间进行能力适配，导致多步骤渐进蒸馏，或增加额外的网络计算分枝，再次急剧增加了训练时间，并造成推理计算成本上升。

本项发明使用二值神经网络自身的输出预测，提供软标签教师知识，形成对自身的自蒸馏过程。不再需要引入外部预训练教师模型，只需要依赖自身输出预测进行单阶段迭代蒸馏，就可以提高分类精度。同时，师生网络的来源相同，存在更强的能力适配性。在二值神经网络推理阶段，我们丢弃附加的软标签库蒸馏损失辅助组件，所以与二值神经网络网络相比，没有增加任何额外的推理成本。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于自蒸馏二值神经网络的车辆分类方法，其特征在于：

Step1：获取包含N个相似标签对的车辆图片数据集，按划分比例为(4+N)：1，得到训练集和测试集；

Step2：将训练集图片输入搭建的动态近似梯度二值神经网络，得到类别输出预测；

Step3：本轮迭代训练的网络成为教师，对类别输出预测进行筛选和平均，得到指示正确的软标签库；

Step4：下一轮迭代训练的网络成为学生，软标签库提供软标签教师知识，在二值神经网络的尾部进行自蒸馏；

Step5：不断进行师生自蒸馏训练蒸馏过程，提高二值神经网络的分类精度；

所述的师生自蒸馏过程总是使用本次迭代的网络作为教师，将下一次迭代的网络作为学生，蒸馏作用在学生网络，进行蒸馏作用的迭代轮数为2至SumE，即第一次迭代训练仅产生教师知识；

2.根据权利要求1所述的基于自蒸馏二值神经网络的车辆分类方法，其特征在于，所述Step1具体为：

Step1.1：数据集包含M种类型的车辆在特定场景中的图像，需包含以下标签相似对的至少一种，客车-卡车，货车-轿车，电动车-摩托车，其中包含的相似标签对数量设为N；

3.根据权利要求1所述的基于自蒸馏二值神经网络的车辆分类方法，其特征在于，所述Step2具体为：

Step2.1：对于搭建好的卷积神经网络，除网络的第一层和最后一层，所有其它卷积层参数都通过Sign函数进行二值化，并使用廉价的同或和计数位运算组成二值卷积运算；

Step2.2：在反向传播期间，用动态近似函数DynamicHardTanh代替Sign函数，将产生的动态近似梯度反向传播给全精度权重，动态近似函数DynamicHardTanh公式为；

Y＝0.5+(E/SumE)^1/2*5

P＝F_c(B_n(...B₁(I)...))

式中，B_n表示第n个卷积块，对于输入图像为I，通过堆叠N个卷积块提取中间特征，最终使用线性分类器F_c获得输出预测P。

4.根据权利要求1所述的基于自蒸馏二值神经网络的车辆分类方法，其特征在于，所述Step3具体为：

式中，表示筛选后同一类别j中正确的预测输出，N_(j)是它的数量，Ψ(·)是软标签库的组成过程，具体表示为分别对M个类别进行平均后，得到M个由M个元素组成的向量，按照类别顺序堆叠组成最终的软标签库/>

5.根据权利要求1所述的基于自蒸馏二值神经网络的车辆分类方法，其特征在于，所述Step4具体为：

Step4.1：按照输入图片的真实类别，抽取软标签库中的对应类别标签，形成一对一的标注，作为软标签教师知识；

L_SL＝KL(δ(P^s/T),δ(SL^t/T))

式中，P^s表示学生网络的输出预测，SL^t表示教师软标签，KL(·)表示Kullback–Leibler散度函数；

最终总损失函数为：