CN112560693B

CN112560693B - 基于深度学习目标检测的高速公路异物识别方法和系统

Info

Publication number: CN112560693B
Application number: CN202011499308.7A
Authority: CN
Inventors: 袁烨; 郭裕祺; 董云龙
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2022-06-17
Anticipated expiration: 2040-12-17
Also published as: CN112560693A

Abstract

本发明公开了基于深度学习目标检测的高速公路异物识别方法系统，属于目标检测领域。包括：使用高速公路异物训练集，分别训练N个教师网络，N个教师网络的输出层感受野尺度倍数递减，通过知识蒸馏将N个训练好的教师网络输出的不同尺度感受野信息同时传递给同一个学生网络，使用训练集训练学生网络，得到训练好的学生网络；将被测图像输入至训练好的学生网络，得到识别结果。本发明利用知识蒸馏，将复杂的教师网络学习到的信息传递给结构较为简单的学生网络，使学生网络也能拥有较高的检测精度；通过多个教师网络的知识蒸馏融合了多尺度信息，对高速公路摄像头采集图像中近景与远景处的物体尺寸差异较大的情况有着更高的鲁棒性以及检测精度。

Description

基于深度学习目标检测的高速公路异物识别方法和系统

技术领域

本发明属于智能交通技术以及计算机视觉的目标检测领域，更具体地，涉及基于深度学习目标检测的高速公路异物识别方法系统。

背景技术

高速公路异物是指路面遗落物、抛洒物(高速公路上遗落的石头、货物、轮胎皮、防雨布等障碍物或天桥上抛洒的石头等)、除相关工作人员之外的行人、牲畜以及不该在高速公路上出现的非机动车、拖拉机、轮式专用机械车、铰接式客车、全挂拖斗车以及其他设计最高时速低于七十公里的机动车。

在高速公路上，无论是白天还是夜间，异物经常会出现，易造成重大的安全隐患，一旦发生交通事故，很容易演变成为重大交通事故而造成巨大的人员伤亡、经济与社会损失。因而高速公路异物现象作为一种频发的交通事件，其实时监测、准确预报具有十分重要的意义。

专利CNl12016449A公开了一种基于CenterNet目标检测算法对车辆进行识别检测方法，其主要思想是：输入初始图，通过卷积神经网络获取三种特征图，分别输出目标中心点坐标及类别、目标中心点坐标偏移值和目标边界框宽高偏移值，目标检测算法CenterNet结合锚点思想，在锚点框的基础上通过对目标边界框与锚点框之间宽高偏移值的预测而得到目标边界框宽高值。其针对复杂场景下车辆的识别与检验，提出在算法CenterNet的基础上进行改进搭建了一个卷积神经网络，提高了对车辆的识别准确率。

然而，该方法存在以下缺陷：车辆目标的体积往往大于公路上可能出现的异物的体积，而且异物的形状、尺寸差异较大；异物在监控画面中的尺寸还与其所在位置有关，远景处的异物尺寸在画面中的比例非常小，难以识别。此外，由于终端设备的硬件条件受限，在保证检测精度的同时还需要尽可能地压缩网络结构。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了基于深度学习目标检测的高速公路异物识别方法系统，其目的在于解决高速公路异物自动检测识别任务中异物尺寸差异大的难题，并在检测精度较高的前提下尽可能地降低部署应用的硬件成本。

为实现上述目的，按照本发明的第一方面，提供了一种基于深度学习目标检测的高速公路异物识别方法，该方法包括：

训练阶段：

使用高速公路异物训练集，分别训练N个教师网络，所述N个教师网络的输出层感受野尺度倍数递减，训练样本为高速公路监控图像-异物热图；

通过知识蒸馏将N个训练好的教师网络输出的不同尺度感受野信息同时传递给同一个学生网络，使用高速公路异物训练集训练学生网络，得到训练好的学生网络；

所述教师网络比所述学生网络的特征提取网络结构复杂；

应用阶段：

将被测高速公路监控图像输入至训练好的学生网络，得到高速公路异物识别结果。

优选地，所述高速公路异物训练集是对采集到的高速公路监控视频做以下处理：

(1)对高速公路监控图像中出现的异物进行标注，形成原始数据集；

(2)通过缩放操作对原始数据集进行图像增强，得到不同尺寸的样本，所述尺寸是指目标包围框面积占整个图片的比例；

(3)将增强后的图像做仿射变换，在不改变原始长宽比的情况下变换到统一尺寸。

有益效果：本发明通过缩放操作对原始数据集进行了图像增强，由于缩放操作可以改变异物目标在图像中所占的比例，从而达到了扩充原始数据集的样本容量的目的，可以有效缓解模型过拟合的情况，也可以给模型带来的更强的泛化能力。

优选地，第n个教师网络包括依次串联的：特征提取网络、空洞卷积层和全卷积层；

所述特征提取网络的输入为尺寸为W*H*3的高速公路监控图像，输出为尺寸为

的特征图，用于特征提取，W和H分别为输入图像的宽和高；

所述空洞卷积层输入为尺寸为

的特征图，输出为尺寸为

的上采样图像，用于对特征图进行上采样；

所述全卷积层输入为尺寸为

的上采样图像，输出为尺寸为

的第n输出图像，其包括C通道的异物中心点热图、2通道的异物宽高热图和2通道的偏置补偿热图，r_n为第n个教师网络的下采样倍数，C为异物种类数目，n＝1，…，N，用于提取不同感受野信息。

有益效果：本发明通过在不同的教师网络中采用不同放大倍数的空洞卷积层对特征图进行上采样，得到不同尺寸的输出图像。由于不同尺寸输出图像对应了不同尺度感受野的信息，其中尺寸较小的输出图像对应的感受野比较大，尺寸较大的输出图像对应的感受野比较小。从而实现了提取多尺度感受野信息的目的。

优选地，单个教师网络训练的总损失函数为

L_t＝λ_kL_k+λ_sizeL_size+λ_offsetL_offset

其中，L_k为异物中心点热图损失，L_size为异物宽高热图损失，L_offset为偏置补偿热图损失，λ_k、λ_size和λ_offset分别为对应的三个损失项的比例系数；

比例系数λ_k、λ_size和λ_offset采用自适应调整方式，保证每次迭代不同损失项乘以其对应系数后的值相等，且为f(t)，其中，t为训练的迭代轮次，f(t)为单调递减函数。

有益效果：本发明通过自适应的方式调整不同损失项比例系数。由于不同损失项在迭代过程中的数值波动范围相差很大，所以需要乘以不同的系数来平衡不同损失项对总损失的贡献，以便于模型更快、更稳定的收敛。而训练时设置的学习率的不同会影响不同损失项数值波动范围之间的比例关系。因此，若采用固定的比例系数，当学习率设置变化时，模型的收敛情况会有较大的波动。而通过自适应地调整不同损失项的系数，能够使得模型在不同的学习率设置下都能较稳定的收敛。f(t)设置为单调递减函数，能够模拟训练中损失逐渐下降的过程，逐步减小模型参数更新幅度，减少迭代过程中的震荡，有利于模型收敛。

优选地，所述学生网络包括依次串联的：特征提取网络、空洞卷积层和全卷积层、(N-1)个空洞卷积层；

的特征图，用于特征提取；

所述空洞卷积层的输入为尺寸为

的特征图，输出为尺寸为

的上采样图像，用于上采样；

所述全卷积层的输入为尺寸为

的上采样图像，输出为尺寸为

的head-1图像，其包括C通道的异物中心点热图、2通道的异物宽高热图和2通道的偏置补偿热图；

第n个空洞卷积层的输入为尺寸为

的head-n-1图像，输出尺寸为

的head-n图像，用于上采样，n＝2，…，N。

有益效果：本发明通过串联的空洞卷积层对学生网络的特征图做不同倍数的上采样，得到不同尺寸的输出，与上述不同教师网络的输出相对应，从而在网络结构上满足同时使用N个教师网络对同一个学生网络进行知识蒸馏的条件。

优选地，在head-1至head-N上分别引入对应教师网络输出的不同尺度感受野信息，在head-N上引入数据集样本标注信息，计算相应的损失函数梯度，并做反向传播，训练学生网络。

有益效果：本发明通过知识蒸馏的方式同时引入N个教师网络输出的不同尺度感受野信息，同时在head-N上数据集样本标注信息。由于N个教师网络有不同尺寸的输出，能够提取出不同尺度感受野的信息。其中尺寸较小的输出拥有较大尺度的感受野信息，语义表征能力强，但是其分辨率低，几何表征能力弱，不利于较小尺寸目标的检测；尺寸较大的输出拥有较小尺度的感受野信息，分辨率高，几何细节表征能力强，有利于较小尺寸目标的检测，但是其语义表征能力较弱。利用知识蒸馏同时引入N个教师网络的输出信息，加上数据集样本标注的信息，能够融合多尺度感受野信息，从而提高模型对不同尺度异物目标的检测精度。

优选地，学生网络训练过程的总损失函数

KDLoss_n＝λ_kd-kKDLoss_k+λ_kd-sizeKDLoss_size+λ_kd-offsetKDLoss_offset

KDLoss_k＝MSE(relu(T_k)，rel u(S_k))

L_label＝λ_kL_k+λ_sizeL_size+λ_offsetL_offset

其中，KDLoss_n为第n个教师网络知识蒸馏损失函数，L_label为标注信息损失函数，KDLoss_k为异物中心点热图的知识蒸馏损失项，KDLoss_size为异物宽高热图的知识蒸馏损失项，KDLoss_offset为偏置补偿热图的知识蒸馏损失项，T_k为教师网络中心点热图输出，S_k为学生网络中对应head层的中心点热图输出，MSE为均方误差，T_size为教师网络目标宽高热图输出，S_size为学生网络中对应head层的目标宽高热图输出；MAE为平均绝对误差；relu(T_k)的C个通道的矩阵每个元素对应相加得到单通道的矩阵，再复制扩增为2通道，得到Mask；符号。表示Hadamard积，即每个元素按对应位置相乘，λ_kd-k，λ_kd-size，λ_kd-offset分别为不同损失项的系数。

有益效果：本发明通过精心设计的知识蒸馏损失函数，有效地提取了所有教师网络的输出信息，将N个教师网络对应的知识蒸馏损失函数与标注信息损失函数相加，同时利用教师网络提取到的不同尺度感受野信息以及数据集标注信息对学生网络进行训练更新。其中，KDLoss_k项首先对教师网络中心点热图输出和学生网络中心点热图输出应用relu函数，再计算均方误差，过滤掉小于0的背景部分，引入了一种注意力机制，从而有效的降低了背景信息的干扰。KDLoss_size和KDLoss_offset项对教师网络和学生网络对应输出乘上一个掩码后再计算平均绝对误差，同样引入了注意力机制，从而有效的降低了背景信息的干扰。

优选地，比例系数λ_kd-k，λ_kd-size，λ_kd-offset采用自适应调整方式，保证每次迭代不同损失项乘以其对应系数后的值相等，且为f(t)，其中，t为训练的迭代轮次，f(t)为单调递减函数。

优选地，所述教师网络的特征提取网络为ResNet-50，所述学生网络的特征提取网络为ResNet-18。

有益效果：本发明将ResNet-50作为教师网络的特征提取网络，将ResNet-18作为学生网络的特征提取网络。由于ResNet-50具有强大的特征提取能力，从而使得教师网络能够有效地提取输入图像信息；但ResNet-50网络非常复杂，无法在性能较差的终端设备上实时地运行，所以学生网络需要使用层数更少的ResNet-18作为特征提取网络，从而实现在终端设备上实时运行的需求。

为实现上述目的，按照本发明的第二方面，提供了一种基于深度学习目标检测的高速公路异物识别系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行第一方面所述的基于深度学习目标检测的高速公路异物识别方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

本发明首先训练三个具有不同尺度感受野输出层的教师网络(采用较复杂的特征提取网络)，并通过知识蒸馏将不同教师网络所具有的不同尺度感受野信息同时传递给学生网络(采用较简单的特征提取网络)，最终通过结构相对简单的学生网络完成高速公路异物的检测识别。本发明利用知识蒸馏，将复杂的教师网络学习到的信息传递给结构较为简单的学生网络，使学生网络也能拥有较高的检测精度；通过多个教师网络的知识蒸馏融合了多尺度信息，对高速公路摄像头采集图像中近景与远景处的物体尺寸差异较大的情况有着更高的鲁棒性以及检测精度。

附图说明

图1为本发明提供的一种基于深度学习目标检测的高速公路异物识别方法流程图；

图2(a)为本发明提供的高速公路监控图像；

图2(b)为本发明提供的对应异物标注后的图像；

图2(c)为本发明提供的对应图像增强结果；

图2(d)为本发明提供的对应仿射变换结果；

图2(e)为本发明提供的对应异物热图；

图3为本发明提供的教师网络结构示意图；

图4为本发明提供的学生网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供了一种基于深度学习目标检测的高速公路异物识别方法，该方法包括：

训练阶段：

使用高速公路异物训练集，分别训练N个教师网络，所述N个教师网络的输出层感受野尺度倍数递减，训练样本为高速公路监控图像-异物热图。

(1)对高速公路监控图像中出现的异物进行标注，形成原始数据集。

对异物的类别、中心点位置、包围框宽高进行标注。

(2)通过缩放操作对原始数据集进行图像增强，得到不同尺寸的样本，所述尺寸是指目标包围框面积占整个图片的比例。

图2(a)为高速公路监控图像，图2(b)为对应异物标注后的图像，图2(c)为对应图像增强结果，图2(d)为对应仿射变换结果，图2(e)为对应异物热图。

优选地，如图3所示，第n个教师网络包括依次串联的：特征提取网络、空洞卷积层和全卷积层；

的特征图，用于特征提取，W和H分别为输入图像的宽和高；

所述空洞卷积层输入为尺寸为

的特征图，输出为尺寸为

的上采样图像，用于对特征图进行上采样；

所述全卷积层输入为尺寸为

的上采样图像，输出为尺寸为

本实施例中选用了3个教师网络，三个教师网络的下采样倍数分别为r₁、r₂、r₃，且r₁＝2r₂＝4r₃。三个教师网络各训练多个epoch后停止训练。

优选地，单个教师网络训练的总损失函数为

L_t＝λ_kL_k+λ_sizeL_size+λ_offsetL_offset

其中，L_k为异物中心点热图损失，L_size为异物宽高热图损失，L_offset为偏置补偿热图损失，λ_k、λ_size和λ_offset分别为对应的三个损失项的比例系数。

由于上述三个损失项数值波动范围差异较大，若训练时学习率设置的不合适，总体损失会发生剧烈的波动，阻碍模型收敛。因此，需要设置合适的λ_k、λ_size和λ_offset控制不同损失项对整体反向传播梯度的贡献。本发明采取自适应的方式调整λ_k、λ_size和λ_offset的大小，保证每次迭代不同损失项乘以其对应系数后的值相等，且为f(t)，其中，t为训练的迭代轮次，f(t)为单调递减函数，用于模拟训练时loss平缓下降的情形。本实施例中f(t)选择余弦函数。

通过知识蒸馏将N个训练好的教师网络输出的不同尺度感受野信息同时传递给同一个学生网络，使用高速公路异物训练集训练学生网络，得到训练好的学生网络。

优选地，如图4所示，所述学生网络包括依次串联的：特征提取网络、空洞卷积层和全卷积层、(N-1)个空洞卷积层；

的特征图，用于特征提取；

所述空洞卷积层的输入为尺寸为

的特征图，输出为尺寸为

的上采样图像，用于上采样；

所述全卷积层的输入为尺寸为

的上采样图像，输出为尺寸为

第n个空洞卷积层的输入为尺寸为

的head-n-1图像，输出尺寸为

的head-n图像，用于上采样，n＝2，…，N。

本实施例中，特征图经空洞卷积层与全卷积层后得到下采样倍数为r₁的head-1层，head-1层经空洞卷积层后依次得到下采样倍数为r₂的head-2层以及下采样倍数为r₃的head-3层。head-3层为学生网络的最终输出。

优选地，学生网络训练过程的总损失函数

KDLoss_n＝λ_kd-kKDLoss_k+λ_kd-sizeKDLoss_size+λ_kd-offsetKDLoss_offset

KDLoss_k＝MSE(refu(T_k)，relu(S_k)

L_label＝λ_kL_k+λ_sizeL_size+λ_offsetL_offset

其中，KDLoss_n为第n个教师网络知识蒸馏损失函数，L_label为标注信息损失函数，KDLoss_k为异物中心点热图的知识蒸馏损失项，KDLoss_size为异物宽高热图的知识蒸馏损失项，KDLoss_offset为偏置补偿热图的知识蒸馏损失项，T_k为教师网络中心点热图输出，S_k为学生网络中对应head层的中心点热图输出，MSE为均方误差，relu激活函数的作用是将T_k和S_k中小于0的元素变为0，T_size为教师网络目标宽高热图输出，S_size为学生网络中对应head层的目标宽高热图输出；MAE为平均绝对误差；relu(T_k)的C个通道的矩阵每个元素对应相加得到单通道的矩阵，再复制扩增为2通道，得到Mask；

表示Hadamard积，即每个元素按对应位置相乘，λ_kd-k，λ_kd-size，λ_kd-offset分别为不同损失项的系数。

优选地，比例系数λ_kd-k，λ_kd-size，λ_kd-offsei采用自适应调整方式，保证每次迭代不同损失项乘以其对应系数后的值相等，且为f(t)，其中，t为训练的迭代轮次，f(t)为单调递减函数。

所述教师网络比所述学生网络的特征提取网络结构复杂。

应用阶段：

本实施例根据学生网络head-3层输出计算得到异物目标的中心点位置以及类别概率、中心点位置的偏移、异物目标的宽高，完成检测。

本发明提供了一种基于深度学习目标检测的高速公路异物识别系统，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行上述基于深度学习目标检测的高速公路异物识别方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习目标检测的高速公路异物识别方法，其特征在于，该方法包括：

训练阶段：

使用高速公路异物训练集，分别训练N个教师网络，所述N个教师网络的输出层感受野尺度倍数递减，训练样本为高速公路监控图像—异物热图；

第n个教师网络包括依次串联的：特征提取网络、空洞卷积层和全卷积层；

的特征图，用于特征提取，W和H分别为输入图像的宽和高；

所述空洞卷积层输入为尺寸为

的特征图，输出为尺寸为

的上采样图像，用于对特征图进行上采样；

所述全卷积层输入为尺寸为

的上采样图像，输出为尺寸为

的第n输出图像，其包括C通道的异物中心点热图、2通道的异物宽高热图和2通道的偏置补偿热图，r_n为第n个教师网络的下采样倍数，C为异物种类数目，n＝1,…,N，用于提取不同感受野信息；

所述学生网络包括依次串联的：特征提取网络、空洞卷积层和全卷积层、(N-1)个空洞卷积层；

的特征图，用于特征提取；

所述空洞卷积层的输入为尺寸为

的特征图，输出为尺寸

的上采样图像，用于上采样；

所述全卷积层的输入为尺寸为

的上采样图像，输出为尺寸为

第n个空洞卷积层的输入为尺寸为

的head-(n-1)图像，输出尺寸为

的head-n图像，用于上采样,n＝2,…,N；

单个教师网络训练的总损失函数为：

L_t＝λ_kL_k+λ_sizeL_size+λ_offsetL_offset

学生网络训练过程的总损失函数为：

KDLoss_n＝λ_kd-kKDLoss_k+λ_kd-sizeKDLoss_size+λ_kd-offsetKDLoss_offset

KDLoss_k＝MSE(relu(T_k),relu(S_k)

其中，L_k为异物中心点热图损失，L_size为异物宽高热图损失，L_offset为偏置补偿热图损失，λ_k、λ_size和λ_offset分别为对应的三个损失项的比例系数；KDLoss_n为第n个教师网络知识蒸馏损失函数，L_label为标注信息损失函数，KDLoss_k为异物中心点热图的知识蒸馏损失项，KDLoss_size为异物宽高热图的知识蒸馏损失项，KDLoss_offset为偏置补偿热图的知识蒸馏损失项，T_k为教师网络中心点热图输出，S_k为学生网络中对应head层的中心点热图输出，MSE为均方误差，T_size为教师网络目标宽高热图输出，S_size为学生网络中对应head层的目标宽高热图输出；MAE为平均绝对误差；relu(T_k)的C个通道的矩阵每个元素对应相加得到单通道的矩阵，再复制扩增为2通道，得到Mask；符号

表示Hadamard积，即每个元素按对应位置相乘，λ_kd-k,λ_kd-size,λ_kd-offset分别为不同损失项的系数；

比例系数λ_k、λ_size和λ_offset采用自适应调整方式，保证每次迭代不同损失项乘以其对应系数后的值相等，且为f(t)，其中，t为训练的迭代轮次，f(t)为单调递减函数；

应用阶段：

2.如权利要求1所述的方法，其特征在于，所述高速公路异物训练集是对采集到的高速公路监控视频做以下处理：

3.如权利要求1所述的方法，其特征在于，在head-1至head-N上分别引入对应教师网络输出的不同尺度感受野信息，在head-N上引入数据集样本标注信息，计算相应的损失函数梯度，并做反向传播，训练学生网络。

4.如权利要求1至3任一项所述的方法，其特征在于，所述教师网络的特征提取网络为ResNet-50，所述学生网络的特征提取网络为ResNet-18。

5.一种基于深度学习目标检测的高速公路异物识别系统，其特征在于，包括：计算机可读存储介质和处理器；

所述计算机可读存储介质用于存储可执行指令；

所述处理器用于读取所述计算机可读存储介质中存储的可执行指令，执行权利要求1至4任一项所述的基于深度学习目标检测的高速公路异物识别方法。