CN116189136A

CN116189136A - 一种基于深度学习的雨雪天气下交通信号灯检测方法

Info

Publication number: CN116189136A
Application number: CN202211495391.XA
Authority: CN
Inventors: 陈宇; 王伯首; 王湘萍; 付华烨
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2022-11-27
Filing date: 2022-11-27
Publication date: 2023-05-30

Abstract

本发明属于传感与信号处理技术领域，尤其为一种基于深度学习的雨雪天气下交通信号灯检测方法，S1、构建交通信号灯检测的基准数据集；S2、构件适用于交通信号灯检测的网络模型；S3、数据集预处理，完成模型训练；S4、网络模型测试；S5、采集真实交通信号灯图像数据；S6、数据去噪处理；S7、交通信号灯状态检测。本发明通过改进现有的YOLOv4模型结构，减少主干网络层数，去除对于小目标冗余的深层网络，并利用多尺度特征融合技术增强小目标特征表述能力，采用线性回归算法替代K‑means算法进行锚框选择，对所得线性方程采用等分法选出锚框，在原有的CIoULOSS中加入锚框与真实框对角线相关的惩罚项，使预测框的定位更加准确。

Description

一种基于深度学习的雨雪天气下交通信号灯检测方法

技术领域

本发明涉及传感与信号处理技术领域，具体为一种基于深度学习的雨雪天气下交通信号灯检测方法。

背景技术

近年来，人工智能技术快速发展，无人驾驶领域也逐渐兴起。无人驾驶分为全自动驾驶与半自动驾驶，在全自动驾驶中无人为操作干预，当车辆距离路口一定距离时应当根据交通信号灯的状态做出相应的反应。例如当交通信号灯为红灯时，车辆应当及时减速，而信号灯为绿灯时则应继续保持匀速前进，避免不必要的交通拥堵；当车辆靠近路口时，需根据信号判断能否直行或转弯，避免发生交通事故等。

对于自动驾驶的需求而言，对汽车周围环境的感知是最基本的先决条件之一。对环境的视觉感知方案，在现在的自动驾驶方案中，主要依赖于激光雷达、毫米波雷达和摄像机采取的实时视频流来进行后续的环境感知。激光雷达可以非常详细的方式获得实时3D点云数据，包括目标的3D坐标，距离，方位角，反射激光强度，激光编码，时间等。但是，尽管激光雷达具有稳定性和高稳健性，但其高昂的成本使得许多制造商在实际的量产制造中很难完全采用激光雷达。此外，激光受大气和气象的影响很大。难以搜索目标并用窄激光束捕获目标。一般来说，先使用其他设备实现大空域和快速粗略地捕捉目标，然后再用激光雷达精确跟踪和测量目标是比较实际的。毫米波雷达受光线和天气因素的影响较小，并且具有较高的测距精度，但很难识别诸如车道线，交通标志和交通信号灯等元素。价格方面，激光雷达和毫米波雷达的价格相对于前后装相机来说较贵，量产的话成本开销较大。目前，单目摄像机可用于检测和识别特征符号，如车道线检测，交通标志识别，交通灯识别，行人和车辆检测等。虽然目前视觉检测的可靠性不是很高，但基于深度学习的视觉学习将是自动驾驶时代中不可或缺的一部分。

2009年，Masako Omachi和Shinichiro Omachi提出了一种快速检测场景图像中交通信号灯的方法。通过将待检测图片的颜色空间从RGB转换为标准化RGB，选择一些区域作为交通灯的候选，然后使用基于霍夫变换的方法来检测出精确的区域。

2018年，Yifan Lu等提出了一种基于注意模型的检测框架来解决大分辨率图像中小目标的检测问题，并将此用于街景图像中的交通信号检测。该检测框架由注意提议建模器(APM)和精确定位识别器(ALR)两部分组成。

Behrendt K等人使用YOLO算法进行交通信号灯检测，通过优化网络的损失函数，将网络中的网格单元的数量从7×7增加至11×11，显著地改善了模型对交通信号灯的检测效果。

潘卫国等人用Faster R-CNN算法，使用固定大小窗口在区域建议网络中进行平移计算，计算出区域建议及其得分后，通过ROI池化计算得到其特征，最后输入到全连接层完成信号灯的识别。

Morten B J等人将YOLOv2用于交通信号灯的检测，网络中去除了最后的卷积网络，增加3个维度为3×3的卷积层，使用多尺度同时对LISA和LARA交通信号灯数据集进行训练，最后所得AUC(Area Under PR-Curve)值高达90.49％。

Muller J改进了SSD(Single Shot MultiBox Detector)的结构，使用Inception-v3替换VGG-16作为基础网络，将深层特征与浅层特征相结合，获得准确的位置信息与状态信息，在其公开的Drive U信号灯数据集上获得95％的检测率。

2019年，Possatti L C等人将先验地图信息与YOLOv3算法结合对交通信号灯进行检测，设置网络默认输入大小为608×608，采用多尺度训练，取得理想效果。

2020年，Chen W等人改进了YOLOv3算法，结合上采样操作，完成多次特征融合，最后将融合后的特征送入检测层进行检测，达到较好的检测效果。

以上基于深度学习的目标检测算法虽然可在GPU加速下实现对信号灯的快速检测，但不能保证良好的检测精度，交通信号灯作为小目标，传统的经过YOLOv4的主干网络多层卷积后小目标在特征图中所占比例较小，难以提取到有鉴别力的特征，随着网络的深度加深，浅层特征缺失导致网络对小目标的定位及颜色分辨不再敏感，锚框定位精度差，因此检测难度大。

因此我们提出了一种基于深度学习的雨雪天气下交通信号灯检测方法来解决上述问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于深度学习的雨雪天气下交通信号灯检测方法，解决了现有基于深度学习的雨雪天气下交通信号灯检测方法由于交通信号灯目标小、特征少，经过YOLOv4的主干网络多层卷积后小目标在特征图中所占比例较小，难以提取到有鉴别力的特征，存在网络结构复杂，锚框定位精度差的问题。

(二)技术方案

本发明为了实现上述目的具体采用以下技术方案：

一种基于深度学习的雨雪天气下交通信号灯检测方法，包括以下步骤：

S1、采集Tsinghua-Tencent 100K数据集中的部分信号灯图片，加入部分自制的信号灯图片并对其进行标注，构建为交通信号灯检测的基准数据集；

S2、基于YOLOv4模型，构件利用多尺度特征融合技术增强小目标特征表述能力的适用于交通信号灯检测的网络模型；

所述网络模型包括CSPDarknet53主干网络、SPP模块、PANet模块和预测模块四个模块；

其中，所述CSPDarknet53由一次下采样和多次残差结构堆叠而成，主干网络用于进行初步的特征提取，利用主干特征提取网络，获得三个初步的有效特征层，即为Se_Resblock_body(152，152，128)x2，Se_Resblock_body(76，76，256)x4，Se_Resblock_body(38，38，512)x4三个特征层，作为SPP模块和PANet模块的输入；

所述SPP模块参杂在对CSPdarknet53的最后一个特征层的卷积里，在对CSPdarknet53的最后一个特征层进行三次DarknetConv2D_BN_Leaky卷积后，分别利用四个不同尺度的最大池化进行处理，最大池化的池化核大小分别为13x13、9x9、5x5、1x1；

所述PANet模块通过自底向上的路径增强，利用准确的低层定位信号增强整个特征层次，从而缩短了低层与顶层特征之间的信息路径，设置了自适应特征池，所述自适应特征池将特征网格和所有的特征层连接起来，使每个特征层中的有用信息直接传播到下面的建议子网络；

所述预测模块利用加强特征提取网络获得的有效特征来后的预测结果，在特征利用部分，提取三个特征层，分别位于中间层，中下层，底层，三个特征层的shape分别为(152，152，128)、(76，76，256)、(38，38，512)，输出层的shape分别为(38，38，N)、(76，76，N)、(152，152，N)，最后一个维度为N是因为对于不同数据集N的取值是不同的；其计算方式为：

N＝K*(M+Q)

其中K为先验框数量，M为该数据集中所具有的种类，Q为预测框的位置信息数量，包括中心点的横坐标t_x、纵坐标t_y、高p_h、宽p_w、分类结果；所述预测结果并不对应着最终的预测框在图片上的位置，将每个网格点加上它对应的t_x和t_y，加完后的结果就是预测框的中心，然后再利用先验框和h、w结合计算出预测框的长和宽，得到整个预测框的位置；

所述锚框的选择是根据锚框高宽比例图所称规律，采用线性回归算法进行锚框选择，对所得线性方程采用等分法选出锚框；

线性回归试图学得：

f(x_i)＝wx_i+b

求取上式中的未知参数w和b：

对上式求偏导数可解得：

S3、对数据集进行预处理，将其中的80％作为训练集输入到网络模型中，迭代训练模型参数，完成模型的训练；

S4、对网络模型进行测试，将数据集余下的20％作为测试集输入到训练完成的网络模型中进行测试，根据测试结果判断是否继续改进YOLOv4模型；

S5、当网络模型达到预期性能后，通过道路摄像头采集真实雨雪天气下包含有交通信号灯的图像数据；

S6、对采集到的带有雨水、雪花的图像数据进行去噪处理；

S7、将去噪后的图像数据输入到网络模型中，利用多尺度特征融合技术加强信号灯小目标的特征表述能力，进行高精度锚框定位，快速检测出雨雪天气下的交通信号灯状态。

进一步地，所述Tsinghua-Tencent 100K数据集是选取真实5个城市的街景全景图中创建的一个大型交通标志基准，所述Tsinghua-Tencent 100K数据集由100000幅分辨率为2048像素×2048像素的图像组成，涵盖了不同光线和天气状况；所述Tsinghua-Tencent100K数据集中包含3万个交通标志实例和45个类别，其中每个交通标志都带有一个类别标签、边界框以及像素蒙版。

进一步地，所述步骤S3中模型的训练分为以下三个部分：

S31、数据增强：采用Mosaic数据增强方法，将四张照片进行拼接，分别对四张图片进行翻转、缩放、色域变化等，并且按照四个方向位置摆好，丰富检测物体的背景，且在BN计算时会计算四张图片的数据；

S32、Label Smoothing平滑：平滑公式如下：

其中M为平滑后的新标签，K为原标签，S为平滑值，N为种类个数；

在分类准确中加入锚框与真实框对角线相关的惩罚项，让模型不可以分类的太准确，太准确容易过拟合；

S33、CIOU：CIOU将目标与anchor之间的距离，重叠率、尺度以及惩罚项都考虑进去，使得目标框回归变得更加稳定，不会出现训练过程中发散的问题；而惩罚因子把预测框长宽比拟合目标框的长宽比考虑进去；

CIOU公式如下：

其中ρ²(b，b^gt)分别代表了预测框和真实框的中心点的欧式距离；c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离；

α和v的公式如下：

CIOU得到相应的LOSS：

在损失函数中加入锚框与真实框对角线相关的惩罚项，得到新的损失函数，用于训练模型；

S34、学习率余弦退火衰减：余弦退火衰减法，学习率会先上升再下降，上升的时候使用线性上升，下降的时候模拟cos函数下降，执行多次。

进一步地，所述雨水图像数据去噪是基于深度学习方法进行单幅图像去雨，所述基于深度学习方法的网络结构的训练集是成对的有雨图像和清晰图像，通过网络提取特征加雨线学习实现有雨图像的细节部分和无雨图像的细节部分之间的关系映射。

进一步地，所述雪花图像数据去噪是将带雪的图片经过引导滤波分解为细节部分和低频部分其中细节部分带有大部分的雪花噪声，低频部分带有剩余小部分雪花噪声，利用双边滤波分别对细节部分和低频部分进行滤波去雪；

所述双边滤波方法中，输出像素的值由邻域像素值的加权值组合得到，公式如下：

式中f(k,l)表示图像中的像素值，值域核和定义域核相乘得到加权系数w(i,j,k,l)。像素点(i,j)需要使用图像中其相邻像素对其进行去噪，其中一个相邻像素位于(k,l)，σ_d，σ_x为平滑参数；其中定义域核表示如下：

值域核表示为：

两者相乘，就得到双边滤波的权重系数w(i,j,k,l)：

(三)有益效果

与现有技术相比，本发明提供了一种基于深度学习的雨雪天气下交通信号灯检测方法，具备以下有益效果：

1、针对网络结构复杂，交通信号灯经过深层网络卷积后，特征信息易丢失问题的问题，本发明通过改进现有的YOLOv4模型结构，减少主干网络层数，去除对于小目标冗余的深层网络，并利用多尺度特征融合技术增强小目标特征表述能力，提高模型在整理后的Tsinghua-Tencent 100K数据集上对小目标检测的召回率和精确率(mAP)。

2、针对锚框定位精度问题，本发明首先根据锚框高宽比例图所称规律，采用线性回归算法替代K-means算法进行锚框选择，对所得线性方程采用等分法选出锚框，在原有的CIoU LOSS中加入锚框与真实框对角线相关的惩罚项，使预测框的定位更加准确。

附图说明

图1为本发明不同网络结构检测性能比较示意表；

图2为本发明初始锚框宽高示意表；

图3为本发明不同模型实验对比结果示意表；

图4为本发明模型设计总体方案示意框图；

图5为本发明基于深度学习方法进行单幅图像去雨示意框图；

图6为本发明利用双边滤波方法进行雪花图像数据滤波去雪的示意框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1-6所示，本发明一个实施例提出的一种基于深度学习的雨雪天气下交通信号灯检测方法，包括以下步骤：

网络模型包括CSPDarknet53主干网络、SPP模块、PANet模块和预测模块四个模块；

其中，CSPDarknet53由一次下采样和多次残差结构堆叠而成，主干网络用于进行初步的特征提取，利用主干特征提取网络，获得三个初步的有效特征层，即为Se_Resblock_body(152，152，128)x2，Se_Resblock_body(76，76，256)x4，Se_Resblock_body(38，38，512)x4三个特征层，作为SPP模块和PANet模块的输入；

为了提高目标检测的速度，本实施例提出了一种改进的YOLOv4模型，将原始的骨干网络1、2、8、8、4结构改成1、2、4、4结构，对于一幅640*480的图像来说，其中交通信号灯所占比例约为46*34像素经过多层卷积后其在最后一个残差模块中所占像素仅为1，最后一个残差模块对其检测识别影响结果并不重要，所以去除最后一个残差块；因为YOLOv4主干网络采用的是Darknet-53结构，特征提取器有53个，这种残差块结构也会使得网络的计算瓶颈较高，造成推理时间偏长，或者有些运算单元会闲置，即对于实际场景任务，Darknet-534网络结构进网络结构在应用时是稍显冗余的；在不影响网络性能的前提下，适当地删除主干网络是一种有效的改进方法为了得到最优的网络结构，对YOLOv行了调整；从Tsinghua-Tencent100K数据集上提取出部分图片进行了多次实验并分析了相应修改后网络的检测性能和模型大小，如附图1示意表所示。

在附图1示意表中，P为准确度、R为召回率、F为F1-score，综合考虑P、R、F值，当网络模型被改进为1-2-4-4结构时，网络模型的性能指标最佳。

本实施例采取在CSPDarknet53主干网络中加入注意力机制，通过调整特征图所占重要程度着重突出小目标，增强小目标的语义信息。为后续分类检测提供强特征。

SPP模块参杂在对CSPdarknet53的最后一个特征层的卷积里，在对CSPdarknet53的最后一个特征层进行三次DarknetConv2D_BN_Leaky卷积后，分别利用四个不同尺度的最大池化进行处理，最大池化的池化核大小分别为13x13、9x9、5x5、1x1；

PANet模块通过自底向上的路径增强，利用准确的低层定位信号增强整个特征层次，从而缩短了低层与顶层特征之间的信息路径，设置了自适应特征池，自适应特征池将特征网格和所有的特征层连接起来，使每个特征层中的有用信息直接传播到下面的建议子网络；

预测模块利用加强特征提取网络获得的有效特征来后的预测结果，在特征利用部分，提取三个特征层，分别位于中间层，中下层，底层，三个特征层的shape分别为(152，152，128)、(76，76，256)、(38，38，512)，输出层的shape分别为(38，38，N)、(76，76，N)、(152，152，N)，最后一个维度为N是因为对于不同数据集N的取值是不同的；其计算方式为：

N＝K*(M+Q)

其中K为先验框数量，M为该数据集中所具有的种类，Q为预测框的位置信息数量，包括中心点的横坐标t_x、纵坐标t_y、高p_h、宽p_w、分类结果；预测结果并不对应着最终的预测框在图片上的位置，将每个网格点加上它对应的t_x和t_y，加完后的结果就是预测框的中心，然后再利用先验框和h、w结合计算出预测框的长和宽，得到整个预测框的位置；

本实施例实现了对AnchorBox的调整，VOC数据集中所包含目标种类较多且大小不一，其锚框大小分布范围广泛，通过K-means聚类算法所得聚类结果可以满足其锚框条件；而交通信号灯数据集中所包含目标种类有四种，且其获得方式为行车拍摄，在拍摄所得图像中其锚框宽高比例基本相同；其通过K-means聚类算法聚类结果有重复部分，不满足锚框的选择，所以根据锚框高宽比例图所称规律，采用线性回归算法替代K-means算法进行锚框选择，对所得线性方程采用等分法选出锚框；

线性回归试图学得：

f(x_i)＝wx_i+b

求取上式中的未知参数w和b：

对上式求偏导数可解得：

对得到的直线模型进行等距离采样，获得九个不同的初始锚框；如附图2示意表所示。

S6、对采集到的带有雨水、雪花的图像数据进行去噪处理；

在上述实施方案中，模型训练输入图像尺寸设定为648*480，批量大小设置为64，初始学习率设置为0.001，动量为0.9，权重衰减为0.0005，样本总共进行20000次迭代计算；当训练迭代次数为10000次和15000次时，分别将学习率降低为0.0001和0.00001，使损失函数进一步收敛；改进方法在训练过程中根据Avg Loss曲线可知模型最终达到了收敛效果；整个训练过程中，在训练开始时，Loss迅速降低；经过10000次迭代训练，损失曲线稳定下降；在大约17000次后，损失值有所下降并伴有少许波动，当迭代到20000次时，损失收敛到0.09并结束训练。

通过使用与以往工作相同的标准检测指标：精确率和召回率，对改进方法的性能进行验证。

本实施例改进算法对交通信号灯有更好的检测效果，这表明改进算法对复杂实时环境具有良好的适应性，能更准确地检测目标。

针对测试数据集本文分别使用YOLOv4、YOLOv4-tiny模型与本文模型进行对比，结果如附图3示意表所示；附图3示意表中mAP为平均精度均值(mean average precision)mdr为误检率(missing detection rate)，如表格所示，改进模型的mAP值与YOLOv4相比提高了3.62％，比YOLOv4-tiny提高了22.97％；FPS相比YOLOv4提高了27；本实施例在改进后检测FPS虽然有所提升，但相较于YOLOv4-tiny相差还是较多，其检测精度提升了3.62％。

总体设计方案如图4所示，首先对数据集预处理，将其中的80％作为训练集输入到改进的YOLOv4模型中，迭代训练模型参数，完成模型的训练；其次将余下的20％作为测试集输入到训练完成的模型中进行测试，根据测试结果判断是否继续改进YOLOv4模型。

在一些实施例中，Tsinghua-Tencent 100K数据集是选取真实5个城市的街景全景图中创建的一个大型交通标志基准，Tsinghua-Tencent 100K数据集由100000幅分辨率为2048像素×2048像素的图像组成，涵盖了不同光线和天气状况；Tsinghua-Tencent 100K数据集中包含3万个交通标志实例和45个类别，其中每个交通标志都带有一个类别标签、边界框以及像素蒙版。

在一些实施例中，步骤S3中模型的训练分为以下三个部分：

S32、Label Smoothing平滑：平滑公式如下：

CIOU公式如下：

α和v的公式如下：

CIOU得到相应的LOSS：

如图5所示，在一些实施例中，雨水图像数据去噪是基于深度学习方法进行单幅图像去雨，基于深度学习方法的网络结构的训练集是成对的有雨图像和清晰图像，通过网络提取特征加雨线学习实现有雨图像的细节部分和无雨图像的细节部分之间的关系映射。

如图6所示，在一些实施例中，雪花图像数据去噪是将带雪的图片经过引导滤波分解为细节部分和低频部分其中细节部分带有大部分的雪花噪声，低频部分带有剩余小部分雪花噪声，利用双边滤波分别对细节部分和低频部分进行滤波去雪；

双边滤波方法中，输出像素的值由邻域像素值的加权值组合得到，公式如下：

值域核表示为：

两者相乘，就得到双边滤波的权重系数w(i,j,k,l)：

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的雨雪天气下交通信号灯检测方法，其特征在于：包括以下步骤：

N＝K*(M+Q)

线性回归试图学得：

f(x_i)＝wx_i+b

求取上式中的未知参数w和b：

对上式求偏导数可解得：

S6、对采集到的带有雨水、雪花的图像数据进行去噪处理；

2.根据权利要求1所述的一种基于深度学习的雨雪天气下交通信号灯检测方法，其特征在于：所述Tsinghua-Tencent 100K数据集是选取真实5个城市的街景全景图中创建的一个大型交通标志基准，所述Tsinghua-Tencent 100K数据集由100000幅分辨率为2048像素×2048像素的图像组成，涵盖了不同光线和天气状况；所述Tsinghua-Tencent 100K数据集中包含3万个交通标志实例和45个类别，其中每个交通标志都带有一个类别标签、边界框以及像素蒙版。

3.根据权利要求1所述的一种基于深度学习的雨雪天气下交通信号灯检测方法，其特征在于：所述步骤S3中模型的训练分为以下三个部分：

S32、Label Smoothing平滑：平滑公式如下：

CIOU公式如下：

α和v的公式如下：

CIOU得到相应的LOSS：

4.根据权利要求1所述的一种基于深度学习的雨雪天气下交通信号灯检测方法，其特征在于：所述雨水图像数据去噪是基于深度学习方法进行单幅图像去雨，所述基于深度学习方法的网络结构的训练集是成对的有雨图像和清晰图像，通过网络提取特征加雨线学习实现有雨图像的细节部分和无雨图像的细节部分之间的关系映射。

5.根据权利要求1所述的一种基于深度学习的雨雪天气下交通信号灯检测方法，其特征在于：所述雪花图像数据去噪是将带雪的图片经过引导滤波分解为细节部分和低频部分其中细节部分带有大部分的雪花噪声，低频部分带有剩余小部分雪花噪声，利用双边滤波分别对细节部分和低频部分进行滤波去雪；

值域核表示为：

两者相乘，就得到双边滤波的权重系数w(i,j,k,l)：