CN116311102B

CN116311102B - 基于改进的知识蒸馏的铁路货车故障检测方法及系统

Info

Publication number: CN116311102B
Application number: CN202310333724.7A
Authority: CN
Inventors: 何鑫淼
Original assignee: Harbin Kejia General Mechanical and Electrical Co Ltd
Current assignee: Harbin Kejia General Mechanical and Electrical Co Ltd
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-12-15
Anticipated expiration: 2043-03-30
Also published as: CN116311102A

Abstract

基于改进的知识蒸馏的铁路货车故障检测方法及系统，本发明涉及铁路货车故障检测方法及系统。本发明的目的是为了解决采用传统的知识蒸馏算法对铁路货车进行检测时，铁路货车检测准确率低的问题。过程为：构建铁路货车图像数据集；使用骨干网络为resnet‑152的faster‑rcnn和骨干网络为darknet‑53的yolov3作为教师网络；使用骨干网络为resnet‑101的faster‑rcnn作为助教网络；使用骨干网络为resnet‑50的faster‑rcnn作为学生网络；使用教师网络训练助教网络，使用助教网络训练学生网络，获得训练好的学生网络；将待测铁路货车图像输入训练好的学生网络，获得检测结果。本发明用于故障检测领域。

Description

基于改进的知识蒸馏的铁路货车故障检测方法及系统

技术领域

本发明涉及铁路货车故障检测方法及系统。

背景技术

在实际应用中，铁路货车检测任务通常具有非常严格的时间要求，如实时性要求等。即对铁路货车检测方法的检测效率有较高的要求。现有的铁路货车检测方法大多采用深度学习算法。在一定范围内，深度学习的准确率与模型复杂程度成正比，即模型的深度越深，模型的准确率越高，相应的模型内部卷积的运算量越大，检测效率越低。

知识蒸馏是一种常用的模型压缩算法。该算法选择结构复杂、准确率高的神经网络作为教师网络，选择结构简单、计算量低的神经网络作为学生网络，通过迭代和反向传播算法让学生网络学习到教师网络的表征能力，使结构简单的小网络具有与结构复杂的大网络相似的准确率，同时极大地降低模型的计算量和参数量，从而实现压缩模型、提升模型识别效率。然而传统的知识蒸馏算法在实现模型压缩的同时也在一定程度上损害了模型的准确率。

发明内容

本发明的目的是为了解决采用传统的知识蒸馏算法对铁路货车进行检测时，在实现模型压缩的同时也在一定程度上损害了模型的准确率，导致铁路货车检测准确率低的问题，而提出基于改进的知识蒸馏的铁路货车故障检测方法及系统。

基于改进的知识蒸馏的铁路货车故障检测方法具体过程为：

步骤一、采集铁路货车图像，构建铁路货车图像数据集；

步骤二、构建教师网络模型；具体过程为：

使用骨干网络为resnet-152的faster-rcnn作为教师网络；

使用骨干网络为darknet-53的yolov3作为教师网络；

对于每一张输入图像，骨干网络为resnet-152的faster-rcnn网络和骨干网络为darknet-53的yolov3网络分别产生对于输入图像中每个物体的预测结果，再将骨干网络为resnet-152的faster-rcnn网络和骨干网络为darknet-53的yolov3网络产生的每个物体的预测结果进行加权和作为教师网络最终的输出结果；

步骤三、构建助教网络模型；具体过程为：

使用骨干网络为resnet-101的faster-rcnn作为助教网络；

步骤四、构建学生网络模型；具体过程为：

使用骨干网络为resnet-50的faster-rcnn作为学生网络；

步骤五、使用教师网络训练助教网络，使用助教网络训练学生网络，获得训练好的学生网络；

步骤六、将待测铁路货车图像输入训练好的学生网络，获得检测结果。

优选地，步骤一中采集铁路货车图像，构建铁路货车图像数据集；具体过程为：

在铁轨底部配备线阵成像设备对货车底部进行拍摄获取线阵图像，并将线阵图像进行存储，构建铁路货车图像数据集。

优选地，步骤二中将骨干网络为resnet-152的faster-rcnn网络和骨干网络为darknet-53的yolov3网络产生的每个物体的预测结果进行加权和作为教师网络最终的输出结果；具体过程为：

其中R为教师网络最终的输出结果，R_faster-rcnn为骨干网络为resnet-152的faster-rcnn网络的输出结果，R_yolo为骨干网络为darknet-53的yolov3网络的输出结果，为权值。

优选地，步骤五中使用教师网络训练助教网络的损失函数为：

L＝αL_hard+β(γL_soft+(1-γ)L_F)

其中L_hard为助教网络的预测结果与真实标签之间的损失值，L_soft为助教网络的预测结果与教师网络的预测结果之间的损失值，α、β、γ为权值；L_F为特征图损失函数。

优选地，步骤五中使用助教网络训练学生网络的损失函数为：

L＝αL_hard+β(γL_soft+(1-γ)L_F)

其中L_hard为学生网络的预测结果与真实标签之间的损失值，L_soft为学生网络的预测结果与教师网络的预测结果之间的损失值，α、β、γ为权值；L_F为特征图损失函数。

优选地，特征图损失函数L_F求解过程为：

记输入图像为I；

将图像I输入到教师网络骨干网络的前4层卷积层中进行特征提取，得到特征图f_t ⁱ，i为第i层卷积层，即i∈{1，2，3，4}；

将图像I输入到学生网络骨干网络的前4层卷积层中进行特征提取，得到特征图f_s ⁱ，i为第i层卷积层，即i∈{1，2，3，4}；

则特征图损失函数L_F为：

其中为二范数的平方。

优选地，权值γ取0.6。

优选地，权值α、β取值为：

设置迭代总次数为E，当迭代次数为e时，有：

β＝1-α。

优选地，权值

基于改进的知识蒸馏的铁路货车故障检测系统用于执行基于改进的知识蒸馏的铁路货车故障检测方法。

本发明的有益效果为：

本发明提出的改进的知识蒸馏方法即能够实现模型压缩，极大的提升模型识别效率；又在一定程度上弥补了学生网络与教师网络的准确率差异，提高学生网络的检测准确率，解决了传统知识蒸馏方法中学生网络相比教师网络检测准确率低的问题。

本发明提出的改进的知识蒸馏方法首先使用模型加权和方法，选择单阶段和多阶段两种目标检测模型进行加权和作为教师网络，防止单一模型的局限性造成学生网络的准确率下降；

本发明提出的改进的知识蒸馏方法在教师网络和学生网络中加入“助教网络”，即加入一个模型结构复杂度处于教师网络和学生网络之间的神经网络，作为辅助学习的中间网络，防止由于学生网络和教师网络的结构复杂性相差过大导致学生网络无法很好地捕获到教师网络的表征能力；

本发明提出的改进的知识蒸馏方法提出了一种新的知识蒸馏损失函数，在原有损失函数的基础上增加了学生网络和教师网络之间图像特征损失函数，弥补了传统知识蒸馏方法中学生网络无法学习到教师网络对于输入图像背景信息的特征提取的问题，让学生网络更好的学习到图像的全局信息；

本发明提出的改进的知识蒸馏方法动态调整知识蒸馏损失函数的权值，使教师网络对学生网络的指导作用逐渐减少，实现独立的完成目标检测任务，避免学生网络过度拟合教师网络。

附图说明

图1为本发明方法流程图。

具体实施方式

具体实施方式一：本实施方式基于改进的知识蒸馏的铁路货车故障检测方法具体过程为：

本发明提出了一种改进的目标检测知识蒸馏方法。通过对多种教师网络进行模型进行加权和，避免由于教师网络的缺陷性导致的学生网络准确率过低；通过加入新的损失函数进一步缩小教师网络与学生网络的差异；通过增加助教网络防止学生网络由于结构过于简单出现欠拟合的现象；通过逐渐更新损失函数的权值，让学生网络更加独立的完成目标检测任务，避免学生网络过度拟合教师网络。

本发明提出的知识蒸馏方法中，使用骨干网络为resnet-152的faster-rcnn和骨干网络为darknet-53的yolov3作为教师网络；

使用骨干网络为resnet-101的faster-rcnn作为助教网络；使用骨干网络为resnet-50的faster-rcnn作为学生网络；

本发明方法的目标是通过教师网络和助教网络训练学生网络，使学生网络的识别准确率不断接近教师网络。

步骤一、采集铁路货车图像，构建铁路货车图像数据集；

步骤二、构建教师网络模型；具体过程为：

使用骨干网络为resnet-152的faster-rcnn作为教师网络；

使用骨干网络为darknet-53的yolov3作为教师网络；

本发明选择单阶段的yolov3网络和两阶段的faster-rcnn网络共同作为知识蒸馏方法的教师网络；

两阶段的faster-rcnn需要人为先验地设计anchor的尺寸和比例，这样就可能会导致两阶段的网络对于特定尺寸的目标(即与人为设计anchor的尺寸和比例相差过大的目标)检测效果下降。为了避免教师网络自身存在的缺陷影响对学生网络的训练，我们选择yolov3作为教师网络的补充。

对于每一张输入图像，骨干网络为resnet-152的faster-rcnn网络和骨干网络为darknet-53的yolov3网络分别产生对于输入图像中每个物体的预测结果(结果包含位置坐标和置信度)，再将骨干网络为resnet-152的faster-rcnn网络和骨干网络为darknet-53的yolov3网络产生的每个物体的预测结果进行加权和作为教师网络最终的输出结果，用于迭代训练学生网络；

将骨干网络为resnet-152的faster-rcnn网络和骨干网络为darknet-53的yolov3网络产生的每个物体的预测结果进行加权指的是：公式计算5次，一次针对框的左上角位置，一次针对框的右上角位置，一次针对框的左下角位置，一次针对框的右下角位置，一次针对类别的置信度；

步骤三、构建助教网络模型；具体过程为：

使用骨干网络为resnet-101的faster-rcnn作为助教网络；

步骤四、构建学生网络模型；具体过程为：

使用骨干网络为resnet-50的faster-rcnn作为学生网络；

为了防止学生网络的结构与教师网络的结构差异过大，学生网络的表征能力太弱以至学生网络难以直接捕获到教师网络中的重要信息，我们在教师网络和学生网络中加入了助教网络，用以辅助学生网络的学习。我们选择骨干网络为resnet-101的faster-rcnn作为助教网络，用以缓解resnet-152和resnet-50两种骨干网络的巨大结构差异。

加入助教网络后，整个知识蒸馏任务可以分解为两个阶梯式子任务：使用教师网络训练助教网络和使用助教网络训练学生网络。这两个子任务都不存在网络结构差异过大的问题，可以更好的完成训练。

具体实施方式二：本实施方式与具体实施方式一不同的是，步骤一中采集铁路货车图像，构建铁路货车图像数据集；具体过程为：

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，步骤二中将骨干网络为resnet-152的faster-rcnn网络和骨干网络为darknet-53的yolov3网络产生的每个物体的预测结果进行加权和作为教师网络最终的输出结果，用于迭代训练学生网络；具体过程为：

由于我们使用的助教网络和学生网络都是二阶段的faster-rcnn，这里我们将yolov3产生的结果作为辅助参考结果，主要用于对教师网络中faster-rcnn检测效果差的物体进行补充，因此这里权值

骨干网络为resnet-152的faster-rcnn网络和骨干网络为darknet-53的yolov3网络输出都是预测框(框四个角的坐标)和类别的置信度信息；

将骨干网络为resnet-152的faster-rcnn网络和骨干网络为darknet-53的yolov3网络产生的每个物体的预测结果进行加权指的是：公式计算5次，一次针对框的左上角位置，一次针对框的右上角位置，一次针对框的左下角位置，一次针对框的右下角位置，一次针对类别的置信度。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，步骤五中使用教师网络训练助教网络的损失函数为：

L＝αL_hard+β(γL_soft+(1-γ)L_F)

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，步骤五中使用助教网络训练学生网络的损失函数为：

L＝αL_hard+β(γL_soft+(1-γ)L_F)

传统的知识蒸馏方法中，损失函数为：

L＝αL_hard(y_true,Ps)+βL_soft(Pt,Ps)

其中L_hard为学生网络的预测结果与真实标签之间的损失值，L_soft为学生网络的预测结果与教师网络的预测结果之间的损失值，α、β为权值；

其中损失值计算分为分类结果的损失计算和回归结果的损失计算，分类一般用交叉熵函数作为损失函数，回归使用IOULoss作为损失函数。

可见在传统的知识蒸馏方法中，教师网络对于学生网络的辅助作用只体现在教师网络输出的预测结果中，忽略了教师网络对输入图像预测过程中产生的有价值的信息。

教师网络与学生网络处理输入图像的过程是相同的。首先网络对输入图像进行特征提取，通过不断卷积和池化等操作并通过图像金字塔得到最终的特征图。

在训练过程中，我们使用教师网络的特征图来对学生网络进行监督学习，使学生网络在训练过程中可以更好的向教师网络收敛，加快训练速度，提高准确率。此外，学生网络还能捕获到教师网络对于背景的处理信息，有助于学生网络更好的理解图像。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，特征图损失函数L_F求解过程为：

记输入图像为I；

则特征图损失函数L_F为：

其中为二范数的平方。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，权值γ取0.6。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是，权值α、β取值为：

动态更新损失函数权值

为了避免学生网络由于教师网络的过度干扰导致过度拟合教师网络，我们在训练过程中动态的调整教师网络的输出信息在损失函数中的权值大小，实现随着网络训练的进行，教师网络对于学生网络的先验信息越来越少，学生网络可以更加独立的完成任务。

设置迭代总次数为E，当迭代次数为e时，有：

β＝1-α

当迭代次数e≤0.5E时，权值α为固定的0.3，此训练阶段过程中，通过教师网络的大量先验对学生网络进行训练，使学生网络初步具有与教师网络相似的能力，也可以理解为“预训练”过程；

当e＞0.5E时，线性的减少教师网络的先验知识在损失函数中的占比，使学生网络逐步趋近于真实数据的分布，能够更加独立的完成任务。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是，权值

其它步骤及参数与具体实施方式一至八之一相同。

具体实施方式十：本实施方式基于改进的知识蒸馏的铁路货车故障检测系统用于执行基于改进的知识蒸馏的铁路货车故障检测方法。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于改进的知识蒸馏的铁路货车故障检测方法，其特征在于：所述方法具体过程为：

步骤一、采集铁路货车图像，构建铁路货车图像数据集；

步骤二、构建教师网络模型；具体过程为：

使用骨干网络为resnet-152的faster-rcnn作为教师网络；

使用骨干网络为darknet-53的yolov3作为教师网络；

步骤三、构建助教网络模型；具体过程为：

使用骨干网络为resnet-101的faster-rcnn作为助教网络；

步骤四、构建学生网络模型；具体过程为：

使用骨干网络为resnet-50的faster-rcnn作为学生网络；

步骤六、将待测铁路货车图像输入训练好的学生网络，获得检测结果；

所述步骤二中将骨干网络为resnet-152的faster-rcnn网络和骨干网络为darknet-53的yolov3网络产生的每个物体的预测结果进行加权和作为教师网络最终的输出结果；具体过程为：

其中R为教师网络最终的输出结果，R_faster-rcnn为骨干网络为resnet-152的faster-rcnn网络的输出结果，R_yolo为骨干网络为darknet-53的yolov3网络的输出结果，为权值；

所述步骤五中使用教师网络训练助教网络的损失函数为：

L＝αL_hard+β(γL_soft+(1-γ)L_F)

其中L_hard为助教网络的预测结果与真实标签之间的损失值，L_soft为助教网络的预测结果与教师网络的预测结果之间的损失值，α、β、γ为权值；L_F为特征图损失函数；

所述步骤五中使用助教网络训练学生网络的损失函数为：

L＝αL′_hard+β(γL′_soft+(1-γ)L_F)

其中L′_hard为学生网络的预测结果与真实标签之间的损失值，L′_soft为学生网络的预测结果与教师网络的预测结果之间的损失值，α、β、γ为权值；L_F为特征图损失函数；

所述特征图损失函数L_F求解过程为：

记输入图像为I；

则特征图损失函数L_F为：

其中为二范数的平方；

所述权值γ取0.6；

所述权值α、β取值为：

设置迭代总次数为E，当迭代次数为e时，有：

β＝1-α。

2.根据权利要求1所述基于改进的知识蒸馏的铁路货车故障检测方法，其特征在于：所述步骤一中采集铁路货车图像，构建铁路货车图像数据集；具体过程为：

3.根据权利要求2所述基于改进的知识蒸馏的铁路货车故障检测方法，其特征在于：所述权值

4.基于改进的知识蒸馏的铁路货车故障检测系统，其特征在于：所述系统用于执行权利要求1至3之一所述的基于改进的知识蒸馏的铁路货车故障检测方法。