CN115546763A

CN115546763A - 基于视觉测距的交通信号灯识别网络训练方法及测试方法

Info

Publication number: CN115546763A
Application number: CN202211263112.7A
Authority: CN
Inventors: 张素民; 白日; 何睿; 武巍
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2022-12-30

Abstract

本发明提供了一种基于视觉测距的交通信号灯识别网络训练方法，包括以下步骤：步骤1、对采集的图像进行标注，制作交通信号灯数据集；步骤2、利用步骤1建立的数据集对信号灯识别网络模型进行训练；步骤3、利用损失函数采用梯度下降法对模型参数进行优化，用trainval子数据集对训练好的网络模型进行网络模型超参数调整，用test子数据集对最终的网络模型进行评价；当训练过程中loss趋于平缓且连续3个训练周期网络性能无提升时，选取最后的训练模型为最优模型，完成训练。本发明还提供了一种基于视觉测距的交通信号灯识别网络测试方法。本发明解决了现有技术中存在的信号灯识别准确率低，计算量大，实时性差等问题。

Description

基于视觉测距的交通信号灯识别网络训练方法及测试方法

技术领域

本发明属于智能交通技术领域，涉及一种基于视觉测距的交通信号灯识别网络训练方法及测试方法。

背景技术

随着无人驾驶技术的快速发展，无人驾驶汽车迫切需要提升对交通信号灯的识别能力。现有交通信号灯识别方法以图像检测技术为主，由于交通信号灯目标小、检测准确率低，识别过程中对图像信息进行了无差别遍历，导致算法计算量大、实时性差。目前的技术方案主要围绕Faster-RCNN、YOLO系列、SSD网络等深度学习算法进行研究。但是传统的网络算法对整个图像进行了无差别搜索，增加了算法的计算量，无法达到无人驾驶系统所需的实时性要求。

“基于深度学习的信号灯识别方法和装置、设备及储存介质”(专利申请号：202010930268.0)通过改进YOLOv3网络结构，引入DIOU损失模块，一定程度上改进了算法检测信号灯的准确性，但未能利用信号灯的先验信息，计算量较大。

“一种基于图像处理和深度学习的交通信号灯识别方法”(专利申请号：202010255239.9)通过结合传统的图像处理方法和深度卷积网络进行交通信号灯识别，该方法融合了传统图像检测方法和深度学习方法，通过分类的方法完成信号灯状态识别，并应用了并行化处理技术，可以有效的缩短检测时间。但该方法仅仅以图像信息为算法输入，在复杂的交通路口极易产生误检。

“实时的交通灯识别方法”(专利申请号：201910354808.2，授权公告号：CN109949594B)提出了基于标注地图的信号灯识别方法，该方法中将信号灯、车道进行联合编码，通过获取信号灯id得到交通灯的状态。该方法需要建立复杂的标注地图，而且对于未进行标注的地图区域，该方法并不适用，因此，该方法有很大的局限性。

发明内容

为实现上述目的，本发明提供了一种基于视觉测距的交通信号灯识别网络训练方法及测试方法，解决了现有技术中存在的信号灯识别准确率低，计算量大，实时性差等问题。

为解决上述技术问题，本发明所采用的技术方案是，一种基于视觉测距的交通信号灯识别网络训练方法，包括以下步骤：

步骤1、对采集的图像进行标注，制作交通信号灯数据集：所述信号灯数据集由信号灯图像、归一化后的ROI区域信息、真实标签信息作为一个基本数据单元；并将数据集按8:1:1比例分为train、trainval、test三个子数据集，其中train、trainval数据集用于训练及训练过程的性能验证；test用于对网络性能进行最终评价；

步骤2、利用步骤1建立的数据集对信号灯识别网络模型进行训练：

步骤21、首先，建立信号灯识别网络模型，信号灯识别网络模型包含主干网络、特征融合网络和特征解码器三部分；

步骤22、将训练集中相机采集到的信号灯图像送入所述信号灯识别网络模型的主干网络中，提取图像特征，获得特征图；然后将提取到的特征图送入所述特征融合网络，获取检测头特征图TC1、TC2、TC3；

步骤23、将步骤1归一化后的ROI区域信息，映射到步骤22得到的检测头特征图中，生成ROI特征图：设检测头特征图高宽尺寸分别为h_ti、w_ti，则ROI区域在对应检测头特征图的位置信息为

截取ROI区域在检测头特征图映射区域的特征图作为ROI特征图；

其中，P_w、P_h分别为图像宽度和高度，X_c为ROI区域中心点的x轴坐标，X_c是以图像中心点横坐标X_中心为采样中心，利用高斯概率密度函数在[0,P_w]范围内采样获得；Y_c为ROI区域中心点的y轴坐标，Y_c的取值在Y_cmax到Y_cmin范围内随机采样获得；ROI区域中心点的y轴坐标值的上下取值边界，分别记为Y_cmax，Y_cmin，其中Y_cmax＝H_板1+αh₁，Y_cmin＝H_板1-αh₁，其中α是自适应系数，

H_板为信号灯板中心点的高度，f为相机焦距，H_板1为H_板在图像坐标系的投影，h₁为信号灯板的垂向长度h在图像坐标系的投影；S_c为车辆与交通信号灯之间的水平距离，R为预设阈值，e为自然常数；

步骤24、将获得的ROI特征图与步骤1中获得的真实标签进行对比，筛选出与真实标签最匹配的ROI特征图作为初始预测框特征图；

步骤25、特征解码器对筛选出的初始预测框特征图进行分类和精调整，获得最终的信号灯预测框信息；

步骤26、通过Loss函数计算信号灯预测框和真实标签之间的损失函数，确定网络参数进化方向，优化信号灯识别网络模型；

步骤3、利用损失函数采用梯度下降法对模型参数进行优化，用trainval子数据集对训练好的网络模型进行网络模型超参数调整，用test子数据集对最终的网络模型进行评价；当训练过程中loss趋于平缓且连续3个训练周期网络性能无提升时，选取最后的训练模型为最优模型，完成训练过程。

进一步地，所述步骤1中ROI区域信息通过ROI提取系统提取获得，所述ROI提取系统包括GPS模块、电子地图模块、测距模块和ROI提取模块；其中，

GPS模块获取车辆实时位置信息(X_1c，Y_1c)，并记录时间戳为Tc；在Tc时刻，电子地图模块根据车辆实时位置信息，提取车辆运动方向上的信号灯位置坐标(X_L，Y_L)；测距模块利用如下公式计算Tc时刻车辆与交通信号灯之间的水平距离Sc；

测距模块判断车辆和交通信号灯之间的距离Sc是否超过预设阈值R：若Sc大于R，ROI提取系统不启动，测距模块进入下一时刻循环，继续检测Sc和R的关系，当Sc小于等于R，说明车辆已经进入交通信号灯识别区域，则启动ROI提取系统；

ROI提取模块用于确定信号灯的ROI区域信息，并对ROI区域特征向量进行归一化，归一化后的ROI区域特征向量表示为:

其中，P_w、P_h分别为图像宽度和高度。

进一步地，所述步骤2中主干网络包括依次交替的3个CRC模块和3个CRT模块，每个CRC模块包括CONV模块、Residual模块和CBAM模块，每个CRT模块包括CONV模块、Residual模块和Transform模块；

其中，CONV模块为卷积下采样模块，对输入的特征图进行二倍率下采样；Residual模块为残差网络结构，通过内部残差块的跳跃连接，降低因网络加深带来的梯度消失问题；Transform模块为注意力网络模型；CBAM模块包括通道注意力和空间注意力两个部分，CBAM模块沿着空间和通道两个维度依次推断注意力权重，能够提取图像信息中的目标信息。

进一步地，所述步骤2中特征融合网络获取检测头特征图的方法为：

首先选择主干网络的第三个CRT模块的输出，记为T3；将T3送入CONV模块进行1×1卷积，然后将输出送入upsample模块，每个upsample模块都会对特征图进行一次上采样，进行两次上采样后，与主干网络的第二个CRT模块输出的特征图采用Concat方法进行特征图拼接，并将输出通过CBAM模块进行进一步的特征提取，记最终输出为T2；其中，Concat是深度学习网络中常用的特征图拼接方法；

将T2送入CONV模块，采用1×1卷积核调整通道数，然后送入upsample模块进行两次上采样，将上采样后的结果与主干网络的第一个CRT模块输出采用Concat方法进行特征拼接，并将输出通过CBAM模块进行进一步的特征提取，记最终的输出结果为T1；

选择主干网络的第一个CRC模块，记为C1，将C1送入CONV模块，采用3×3的卷积核进行两次卷积下采样，然后将下采样输出与主干网络的第二个CRC模块输出采用Concat方法进行拼接，然后采用Transform模块提取有效特征，输出特征图记为C2；将C2送入CONV模块，进行2次下采样，将下采样结果和主干网络的第三个CRC模块输出采用Concat方法进行拼接，然后采用Transform模块进行特征提取，输出特征图记为C3；

获得T1、T2、T3、C1、C2、C3后，将T1输入upsample模块，上采样后与C1采用Concat方法进行拼接，输出特征图，作为检测头，记为TC1；将T2输入upsample模块，上采样后与C2采用Concat方法进行拼接，输出特征图，作为检测头，记为TC2；将T3输入upsample模块，上采样后与C3采用Concat方法进行拼接，输出特征图，作为检测头，记为TC3。

进一步地，所述步骤24具体为：

步骤241、将ROI特征图采用softmax处理，将ROI特征图分为前景图像和后景图像，筛选出属于前景图像的ROI特征图；

步骤242、将每个筛选出的前景图像ROI特征图逐一与对应图像的真实标签进行组合，计算CIOU值；

步骤243、每个前景图像ROI特征图保留一个与之匹配的最佳真实标签，以数组形式储存，记为R_Best，其中R_Best的每一项包括如下内容{I_roi，I_gt，V_ciou}，其中I_roi表示ROI特征图相关信息，I_gt表示与ROI特征图匹配的最佳真实标签，V_ciou表示前景图像ROI特征图和与之匹配最佳真实标签之间的CIOU值；

步骤244、对R_Best数组按V_ciou值大小进行降序排序，然后按V_ciou值从大到小逐个获取R_Best数组的元素；设GT为真实标签与ROI区域特征图最佳匹配数组，初始条件将GT初始化为空，然后判断获取到的R_Best数组元素的I_gt是否已经包含在GT的元素中，若不在，则认为该项数组元素的I_roi、I_gt为最佳匹配关系，将该项数组元素存入GT中；若R_Best数组元素的I_gt在GT的元素中已经存在，说明已经找到了该真实标签的最佳匹配ROI特征图，不对GT数组更新；当GT的长度和图像标签的数量相等时，或R_Best数组全部完成遍历时，停止该过程，最后保存在GT中元素的I_roi即为真实标签的最佳匹配ROI特征图，将GT中元素的I_roi作为初始预测框特征图。

进一步地，所述Loss函数由三部分组成，包括目标框损失函数、置信度损失和分类损失；其中，置信度损失和分类损失使用交叉熵损失函数形式；目标框损失函数公式如下：

其中，NCIoU为目标框损失函数，CIoU目标检测领域常用的目标框损失函数，e为自然常数；宽度因子

其中，w_p是预测框宽度，w_g是标签真实框的宽度；高度因子

其中，h_p是预测框高度，h_g是标签真实框的高度，

表示标签真实框与预测框的面积比。

进一步地，所述步骤25具体为：

将筛选出的初始预测框特征图送入特征解码器的全连接层进行分类，获得预测框类别及置信度，然后通过特征解码器的回归模块对初始预测框特征图尺寸进行修正，获得最终的预测框尺寸信息；将预测框的类别及置信度和预测框尺寸信息合并在一起组成信号灯预测框信息[class,conf,box]，其中class表示预测框类别，conf表示预测框类别的置信度，box表示预测框尺寸信息；所述回归模块采用Faster RCNN网络中的bounding boxregression模块。

本发明还提供了一种基于视觉测距的交通信号灯识别网络测试方法，包括以下步骤：

步骤S1、测试车辆启动相机，并实时通过ROI提取系统获取测试车辆与道路前方信号灯距离，若距离小于阈值，则启动信号灯检测模块，若大于阈值，则继续监测；

步骤S2、将相机采集到的图像按时间戳标记作为网络输入，同时将对应时间戳提取的ROI信息送入训练后的模型中，输出预测框信息[class,conf,box]；其中class表示预测框类别，conf表示预测框类别的置信度，box表示预测框尺寸信息；

步骤S3、将步骤S2输出的预测框进行进一步筛选，保留最合理的预测框组合；

步骤S4、在保留的预测框组合中，计算各保留的预测框组合的平均conf值，保留平均conf最高的预测框组合作为最终的预测框输出。

进一步地，所述步骤S3具体为：

步骤S31、将所有预测框信息以conf为判断依据进行筛选：遍历所有预测框，当conf>T_c时，保留该预测框，否则直接剔除掉该预测框；T_c为类别筛选阈值；

步骤S32、对保留的预测框按类别进行分组，同一类别的预测框作为一组；

步骤S33、对分组后的各类别的预测框分别进行最大值抑制运算，保留各类别最大值抑制后的输出结果；将保留下来的预测框的box分别减去对应类别的相对极大值，恢复各预测框原来的位置信息；

步骤S34、筛选合理的预测框组合。

进一步地，所述步骤S34具体为：

步骤S341、对预测框类别进行归类筛选：

对于同一帧图像，按照各个信号灯真实标签之间存在固定的组合关系进行分组，共有7种组合：1)左转箭头形红灯，直行箭头形红灯或圆形红灯，右转箭头形绿灯；2)左转箭头形红灯，直线箭头形绿灯或圆形绿灯，右转箭头形绿灯；3)左转箭头形绿灯，直线箭头形红灯或圆形红灯，右转箭头形红灯；4)左转箭头形绿灯，直线箭头形绿灯或圆形绿灯，右转箭头形红灯；5)左转箭头形绿灯，直线箭头形绿灯或圆形绿灯，右转箭头形绿灯；6)左转箭头形红灯，直线箭头形红灯或圆形红灯，右转箭头形红灯；7)左转箭头形红灯，直线箭头形绿灯或圆形绿灯，右转箭头形红灯；无论左转、直行还是右转出现黄灯，都是合理的信号灯状态；

将分组后的预测框，分为三大类：1)左转类；左转箭头形红灯、左转箭头形绿灯、左转箭头形黄灯；2)直行类：直行箭头形红灯、直线箭头形绿灯、直行箭头黄灯、圆形红灯、圆形绿灯、圆形黄灯；3)右转类：右转箭头形红灯、右转箭头形绿灯、右转箭头形黄灯；

在各个大类类别内，对预测框采用NMS方法进行筛选，然后按conf大小进行降序排列；然后，对各个大类类别中保留的预测框逐一遍历组合，剔除掉不满足上述7类组合形式的预测框；在组合后的预测框目标中仅包含部分组合目标也认为是合理预测，将预测框保留；

步骤S342、依次遍历保留的预测框组合，对每个预测框组合中的预测框按几何位置关系进行筛选：

各组合预测框信息表示如下：左转类预测框信息表示如下[conf_l,x_1l,y_1l,x_2l,y_2l,]，conf_l表示左转类预测框类别置信度，x_1l表示左转类预测框左上角横坐标值，y_1l表示左转类预测框左上角纵坐标，x_2l表示左转类预测框右下角横坐标值，y_2l表示左转类预测框右下角纵坐标；右转类预测框信息表示如下[conf_r,x_1r,y_1r,x_2r,y_2r]，conf_r表示右转类预测框类别置信度，x_1r表示右转类预测框左上角横坐标值，y_1r表示右转类预测框左上角纵坐标，x_2r表示右转类预测框右下角横坐标值，y_2r表示右转类预测框右下角纵坐标；直行类的预测框信息表示如下[conf_s,x_1s,y_1s,x_2s,y_2s]，conf_s表示直行类预测框类别置信度，x_1s表示直行类预测框左上角横坐标值，y_1s表示直行类预测框左上角纵坐标，x_2s表示直行类预测框右下角横坐标值，y_2s表示直行类预测框右下角纵坐标；对于一个交通路口的交通灯组合，左转类信号灯、直行类信号灯和右转类信号灯在水平方向上等距分布，即左转类预测框和直行类预测框水平距离

右转类预测框和直行类预测框水平距离

当|X_ls-X_rs|≤δ时，保留该预测框组合，否则将该预测框进行剔除，其中δ为距离相似度阈值，缺省值设为max(0.4X_ls，0.4X_rs)，max()表示取两者的最大值。

本发明的有益效果是：

1.提出了一种用于交通信号灯识别的网络模型，在该模型的主干网络中引入了CRC模块和CRT模块，通过CBAM模块、Transform模块提高主干网络的特征提取能力，在特征融合网络中采用跳跃的特征金字塔结构，实现深层特征和浅层特征的充分融合，并使主干网络中不同大小的特征图都直接参与了特征融合过程，使最终的特征图包含更加丰富的图像信息。

2.提出了一种融合视觉测距原理的ROI区域信息提取方法，缩小图像搜索空间，进一步提高信号灯识别准确率和实时性。

3.提出了一种融合视觉测距的交通信号灯识别网络训练方法，并提出了ROI区域和真实标签的匹配方法，改进了训练过程的损失函数，使模型训练过程能够更快收敛。

4.通过对预测框类别进行组合、分类，并考虑了单个图像信号灯目标之间的位置关系，提出了一种合理有效的预测框筛选方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的交通信号灯识别网络训练方法流程图。

图2是本发明实施例的ROI提取系统示意图。

图3是本发明实施例的ROI区域提取流程图。

图4是本发明实施例的基于测距原理提取ROI区域的几何关系图。

图5是本发明实施例的交通信号灯识别网络模型的结构示意图。

图6是本发明实施例的交通信号灯识别网络模型的CRC模块和CRT模块的结构示意图。

图7是本发明实施例的交通信号灯识别网络模型的检测头合并示意图。

图8是本发明实施例的交通信号灯预测框筛选流程图。

图9是本发明实施例的交通信号灯识别网络测试方法流程图。

图10是本发明实施例的交通信号灯识别网络检测效果与现有技术对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于视觉测距的交通信号灯识别网络训练方法，如图1所示，具体步骤如下：

步骤1，对采集的图像进行标注，制作交通信号灯数据集。

在实验车辆前方中心位置安装相机，始终保持相机光轴与地面平行，然后进行信号灯图像采集，并通过ROI提取系统获取信号灯图像的ROI区域信息。

进一步地，该步骤主要涉及一个ROI(Region of Interest)提取系统:采用视觉测距原理，确定信号灯所在区域。

如图2所示，所述ROI提取系统包括GPS模块、电子地图模块、测距模块和ROI提取模块。

如图3所示，GPS模块获取车辆实时位置信息(X_1c，Y_1c)，并记录时间戳为Tc；在Tc时刻，电子地图模块根据车辆实时位置信息，提取车辆运动方向上的信号灯位置坐标(X_L，Y_L)；测距模块利用如下公式计算Tc时刻车辆与交通信号灯之间的水平距离Sc。

进一步地，测距模块判断车辆和交通信号灯之间的距离Sc是否超过预设阈值R：若Sc大于R，ROI提取系统不启动，测距模块进入下一时刻循环，继续检测Sc和R的关系，当Sc小于等于R，说明车辆已经进入交通信号灯识别区域，则启动ROI提取系统，R缺省值取100m。

ROI提取模块根据车辆与交通信号灯之间的水平距离Sc确定信号灯的位置区域，具体工作流程如下：

首先，相机采集在Tc时刻的图像信息；在本实施例中，相机选用LOGI 1080P网络相机。

由图4可知，根据视觉成像原理。设A点为信号灯板最高点，B点为信号灯板最低点，C为信号灯板中心在Y方向(垂向方向)投影与相机光轴交点，O为相机光心，h为信号灯板的垂向长度，w为信号灯板的横向长度；设相机安装高度为H，信号灯板最高点A的高度为H_最高，H_最高和h由相应的国家标准可以确定，可得信号灯板中心点的高度为H_板＝H_最高-0.5h。H_板1、A₁、B₁、C₁、h₁、w₁分别为H_板、A、B、C、h、w在图像坐标系的投影。

三角形OC₁A₁和三角形OCA相似，三角形OC₁B₁和三角形OCB相似，可得：

由上式可得，

由上式可知，三角形OB₁A₁与三角形OBA相似，可得

由图4可知，OC为相机到信号灯之间的水平距离，即OC＝Sc，设OC₁为相机焦距，记为f，由相机内部参数获得；进一步可得

同理

进一步地，确定ROI信息，具体过程如下：为消除图像畸变等因素引起的像素误差的影响，设定ROI区域中心点的y轴坐标值(垂向方向)的上下取值边界，分别记为Y_cmax，Y_cmin，其中Y_cmax＝H_板1+αh₁，Y_cmin＝H_板1-αh₁，设ROI区域中心点的y轴坐标为Y_c，Y_c的取值在Y_cmax到Y_cmin范围内随机采样获得，其中α是自适应系数，

信号灯板与本车距离Sc越远，自适应系数越大，从而改善远距离图像像素误差增大引起的ROI区域内目标漏检问题，提高了ROI区域的距离自适应能力。在横向方向上，信号灯位置没有硬约束，但由于信号灯板往往位于驾驶员视觉的正前方位置，因此信号灯出现在图像中心位置的概率更大。设P_w、P_h分别为图像宽度和高度，ROI区域中心点的x轴坐标为X_c，X_c是以图像中心点横坐标X_中心为采样中心，利用高斯概率密度函数在[0,P_w]范围内采样获得。与传统检测目标不同的是，信号灯形状为圆形或箭头形，高宽比约为1，为了保证ROI区域尽可能和目标框匹配，每个中心点位置设置9个高宽比均为1、但尺寸大小不同的ROI区域。9个ROI区域的高宽信息通过如下方式获取：分别在车辆距离信号灯的距离

时采样信号灯目标的尺寸，记为S_i，i取1-9，S_i即为ROI区域的高宽信息。为了保证ROI区域在较少的数量情况下，尽可能地包含所有的信号灯目标，设X_c的采样点数为N_xc，Y_c的采样点数为N_yc，N_xc、N_yc应满足如下条件：

T₁、T₂、T₃分别为采样点阈值，缺省值分别设为5,10,200。

同时上述设定的X_c、Y_c将ROI区域用向量[X_c Y_c S_i S_i]表示，对ROI区域特征向量进行归一化，归一化后的ROI区域特征向量表示为:

采用lableme软件对采集到的图像进行标注，制作标签文件，采用矩形框的形状指定信号灯区域并标注出信号灯的真实标签类别。标签类别选用常用机动车信号灯类别，包括圆形绿灯(Round Green，记为RG)、圆形黄灯(Round Yollow，记为RY)、圆形红灯(RoundRed，记为RR)、直行箭头形绿灯(Straight Arrow Green，记为SAG)、直行箭头形黄灯(Straight Arrow Yellow，记为SAY)、直行箭头形红灯(Straight Arrow Red，记为SAR)、左转箭头形绿灯(Left Turn Arrow Green，记为LTAG)、左转箭头形黄灯(Left Turn ArrowYellow，记为LTAY)、左转箭头形红灯(Left Turn Arrow Red，记为LTAR)、右转箭头形绿灯(Right Turn Arrow Green，记为RTAG)、右转箭头形黄灯(Right Turn Arrow Yellow，记为RTAY)、右转箭头形红灯(Right Turn Arrow Red，记为RTAR)。

在一些实施方式中，为保证数据的丰富性，对图像进行旋转、裁剪等操作，扩充数据集。

最后，将图像、ROI区域信息、真实标签信息作为一个基本数据单元合成信号灯数据集，并将数据集按8:1:1比例分为train、trainval、test三个子数据集，分别用于信号灯识别网络的训练、测试。其中train、trainval数据集用于训练及训练过程的性能验证。test用于对网络性能进行最终评价。

步骤2，利用步骤1建立的数据集对信号灯识别网络模型进行训练，具体步骤如下：

步骤21，首先，建立一种信号灯识别网络模型，信号灯识别网络模型主要包含主干网络、特征融合网络和特征解码器三部分，主干网络用于提取图像特征；特征融合网络用于对提取到的图像特征进行融合，获取检测头，便于后续基于融合特征进行信号灯检测；特征解码器对检测头进行解码，获取预测框信息。如图5所示，信号灯识别网络模型包括如下步骤：

步骤211，利用主干网络提取图像特征。

具体地，主干网络包括依次交替的3个CRC模块和3个CRT模块。如图6所示，每个CRC模块包括CONV模块、Residual模块和CBAM模块，每个CRT模块包括CONV模块、Residual模块和Transform模块。

其中，CONV模块为卷积下采样模块，对输入的特征图进行二倍率下采样。

其中，Residual模块为残差网络结构，可以通过内部残差块的跳跃连接，降低因网络加深带来的梯度消失问题。

其中，Transform模块为目前现有技术中优秀的注意力网络模型，Transform模块能够提高网络提取有效特征的能力，同时避免网络过拟合。

其中，CBAM模块包括通道注意力和空间注意力两个部分，该模块沿着空间和通道两个维度依次推断注意力权重，能够更好提取图像信息中的目标信息。CBAM是一个轻量级的通用模块，可以“即插即用”地应用到CNN网络结构中。

步骤212，利用特征融合网络获取信号灯检测的检测头。

具体地，如图5所示，首先选择主干网格的第三个CRT模块的输出，记为T3。将T3送入CONV模块进行1×1卷积，然后将输出送入upsample模块(上采样模块)，每个upsample模块都会对特征图进行一次上采样，进行两次上采样后，将输出与第二个CRT模块输出的特征图采用Concat方法进行特征图拼接，并将输出通过CBAM模块进行进一步的特征提取，记最终输出为T2。其中，Concat是深度学习网络中常用的特征图拼接方法。

将T2送入CONV模块，采用1×1卷积核调整通道数，然后送入upsample模块进行两次上采样，将上采样后结果与第一个CRT模块输出采用Concat方法进行特征拼接，并将输出通过CBAM模块进行进一步的特征提取，记最终的输出结果为T1。

进一步地，首先选择主干网络的第一个CRC模块，记为C1，将C1送入CONV模块，采用3×3的卷积核进行两次卷积下采样，然后将下采样输出与第二个CRC模块输出采用Concat方法进行拼接，然后采用Transform模块提取有效特征，输出特征图记为C2。将C2送入CONV模块，进行2次下采样，将下采样结果和第三个CRC模块输出采用Concat方法进行拼接，然后采用Transform模块进行特征提取，输出特征图记为C3。

获得T1、T2、T3、C1、C2、C3后，如图7所示，将T1输入upsample模块，上采样后与C1采用Concat方法进行拼接，输出特征图，作为检测头，记为TC1；将T2输入upsample模块，上采样后与C2采用Concat方法进行拼接，输出特征图，作为检测头，记为TC2；将T3输入upsample模块，上采样后与C3采用Concat方法进行拼接，输出特征图，作为检测头，记为TC3；

步骤22，将相机采集到的图像帧送入步骤211所述信号灯识别网络模型主干网络中，提取图像特征，然后将提取到的特征图送入步骤212所述的特征融合网络，进一步优化特征图，获取检测头特征图TC1、TC2、TC3。

步骤23，将步骤1归一化后的ROI区域信息，映射到步骤22得到的检测头特征图中，生成ROI特征图。具体地，设检测头特征图TCi高宽尺寸分别为h_ti、w_ti，则ROI区域在对应TCi特征图的位置信息为

截取ROI区域在检测头特征图映射区域的特征图作为ROI特征图。

步骤24，将获得的ROI特征图与真实标签进行对比，筛选出与真实标签最匹配的ROI特征图作为初始预测框特征图。

步骤241，首先将ROI特征图采用softmax处理，将ROI特征图分为前景图像和后景图像，筛选出属于前景图像的ROI特征图，其中softmax为现有的二分类方法，可以实现辨别ROI特征图中是否包含目标，当ROI特征图中不包含信号灯时，该ROI特征图归类为后景图像，当该ROI特征图包含信号灯时，该ROI特征图归类为前景图像。

步骤242，将每个筛选出的前景图像ROI特征图逐一与对应图像的真实标签进行组合，计算CIOU值。

其中CIOU为现有的先进IOU算法，该算法可以考虑ROI特征图和真实标签之间的中心点距离、IOU、高宽比相似度等因素，能够较为全面的评价ROI特征图信息和标签信息之间的匹配关系，CIOU越大，ROI特征图和标签越匹配。

步骤243，每个前景图像ROI特征图保留一个与之匹配的最佳真实标签，以数组形式储存，记为R_Best，其中R_Best的每一项包括如下内容{I_roi，I_gt，V_ciou}，其中I_roi包含ROI特征图相关信息，I_gt包含与ROI特征图匹配的最佳真实标签，V_ciou表示前景图像ROI特征图和与之匹配最佳真实标签之间的CIOU值。

步骤244，对R_Best数组按V_ciou值大小进行降序排序。然后按V_ciou值从大到小逐个获取R_Best数组的元素。设GT为真实标签与ROI区域特征图最佳匹配数组，初始条件将GT初始化为空，然后判断获取到的R_Best数组元素的I_gt是否已经包含在GT的元素中，若不在，则认为该项元素的I_roi、I_gt为最佳匹配关系，将该项元素存入GT中；若R_Best数组元素的I_gt在GT的元素中已经存在，说明已经找到了该真实标签的最佳匹配ROI特征图，不对GT数组更新。当GT数组的长度和图像标签的数量相等时或R_Best数组全部完成遍历时，停止该过程，最后保存在GT中元素的I_roi即为真实标签的最佳匹配ROI特征图，将GT中元素的I_roi作为初始预测框特征图。

步骤25，对筛选出的初始预测框特征图进行分类和精调整，获得最终的信号灯预测框信息，具体地，将筛选出的初始预测框特征图送入特征解码器的全连接层进行分类，获得预测框类别及置信度，然后通过特征解码器的回归模块对初始预测框特征图尺寸进行修正，获得最终的预测框尺寸信息。将预测框的类别及置信度和预测框尺寸信息合并在一起组成信号灯预测框信息[class,conf,box]，其中class表示预测框类别，conf表示预测框类别的置信度，box表示预测框尺寸信息。优先地，所述回归模块采用Faster RCNN网络中的bounding box regression模块。

步骤26，通过Loss函数计算信号灯预测框和真实标签之间的损失函数，确定网络参数进化方向，不断优化网络模型。

具体地，Loss函数参考YOLOv5模型损失函数形式，损失函数其中置由三部分组成，包括目标框损失函数、置信度损失和分类损失。置信度损失和分类损失与YOLOv5模型的损失函数一样，使用交叉熵损失函数形式。而目标框损失函数在CIOU基础上进行改进，CIOU损失函数考虑了预测框和标签真实框之间的交并比(IOU)、预测框和标签真实框中心点坐标距离与预测框和标签真实框最小外接矩形对角线长度比、预测框高宽比和标签真实框高宽比的比值。但是CIOU算法没有考虑预测框和标签真实框高度、宽度直接的相似关系，因此本发明在引入了独立的高度项和宽度项。此外，在预测框和标签真实框高宽度相似关系一致的前提下，预测框包围标签真实框比标签真实框包围预测框在主观检测意义上更加容易被接受，为此，本发明引入了面积项，通过标签真实框与预测框的面积比考虑上述情况，特别地，高度项和宽度项都采用平方形式，而面积项采用4次方形式，使面积项对损失贡献更小，而高度项和宽度项对损失贡献更大一些，因为不同预测框和标签真实框高宽度相似关系相同的情况较少出现，故而将面积项损失作为次要损失项。

本发明采用的目标框损失函数公式如下：

其中NCIoU为本发明使用的目标框损失函数，CIoU为目标检测领域常用的目标框损失函数，e为自然常数。θ_w为宽度因子，

其中w_p是预测框宽度，w_g是标签真实框的宽度。

其中h_p是预测框高度，h_g是标签真实框的高度，θ_h为高度因子；

表示标签真实框与预测框的面积比。

步骤3，利用Loss损失函数采用梯度下降法对模型参数进行优化，用trainval子数据集对训练好的网络模型进行网络模型超参数调整，用test子数据集对最终的网络模型进行评价。当训练过程中loss趋于平缓且连续3个训练周期网络性能无提升时，选取最后的训练模型为最优模型，完成训练过程。

另一方面，本发明提供了一种基于视觉测距的交通信号灯识别网络测试方法，如图9所示，具体步骤如下：

步骤S1，首先测试车辆启动相机，并实时通过ROI提取系统获取本车与道路前方信号灯距离，若距离小于阈值，则启动信号灯检测模块，若大于阈值，则继续监测。

步骤S2，将相机采集到的图像帧按时间戳标记作为网络输入，同时将对应时间戳提取的ROI信息送入步骤3获得的最优模型中，输出预测框信息[class,conf,box]。

步骤S3，为了剔除冗余的预测框信息，需要将步骤S2输出的预测框进行进一步筛选，如图8所示，具体步骤如下：

步骤S31，将所有预测框信息以conf为判断依据进行筛选，具体地，遍历所有预测框，当conf>T_c时，保留该预测框，否则直接剔除掉该预测框。T_c为类别筛选阈值，T_c缺省值取0.01。

步骤S32，对保留的预测框按类别进行分组，同一类别的预测框作为一组，在步骤1采集的相机图像中，可能包含所述信号灯类别的一个或多个，分组按每个预测框的信号灯类别进行。具体地，当预测框信息中包含class＝“圆形绿灯”时，预测框信息的box不变；当预测框信息中包含class＝“圆形红灯”时，预测框信息的box每一项都加上一个相对极大值V，保证各类别完全分离，不存在位置干涉；同理，当预测框信息中包含class＝“圆形黄灯”时，预测框信息的box每一项都加上2*V。

依次类推，当预测框信息中包含class＝“直行箭头形黄灯”时，预测框信息的box每一项都加上3*V，当预测框信息中包含class＝“直行箭头形红灯”时，预测框信息的box每一项都加上4*V，当预测框信息中包含class＝“直行箭头形绿灯”时，预测框信息的box每一项都加上5*V，V的缺省值取4096。

当预测框信息中包含class＝“左转箭头形黄灯”时，预测框信息的box每一项都加上6*V，当预测框信息中包含class＝“左转箭头形红灯”时，预测框信息的box每一项都加上7*V，当预测框信息中包含class＝“左转箭头形绿灯”时，预测框信息的box每一项都加上8*V，V的缺省值取4096。

当预测框信息中包含class＝“右转箭头形黄灯”时，预测框信息的box每一项都加上9*V，当预测框信息中包含class＝“右转箭头形红灯”时，预测框信息的box每一项都加上10*V，当预测框信息中包含class＝“右转箭头形绿灯”时，预测框信息的box每一项都加上11*V，V的缺省值取4096。

步骤S33，对分组后的各类别的预测框分别进行最大值抑制运算(NMS)，保留各类别最大值抑制后的输出结果。其中NMS是目标检测算法中常用的预测框筛选方法，NMS通过各预测框之间的交并比，删除冗余的预测框。

将保留下来的预测框的box分别减去对应类别的相对极大值，恢复各预测框原来的位置信息。

步骤S34，筛选合理的预测框组合，具体过程如下：

步骤S341，对预测框类别进行归类筛选。具体地，对于同一帧图像，各个信号灯真实标签之间存在固定组合关系，根据新国标交通灯常见状态共有7种组合：1)左转箭头形红灯，直行箭头形红灯或圆形红灯，右转箭头形绿灯；2)左转箭头形红灯，直线箭头形绿灯或圆形绿灯，右转箭头形绿灯；3)左转箭头形绿灯，直线箭头形红灯或圆形红灯，右转箭头形红灯；4)左转箭头形绿灯，直线箭头形绿灯或圆形绿灯，右转箭头形红灯；5)左转箭头形绿灯，直线箭头形绿灯或圆形绿灯，右转箭头形绿灯；6)左转箭头形红灯，直线箭头形红灯或圆形红灯，右转箭头形红灯；7)左转箭头形红灯，直线箭头形绿灯或圆形绿灯，右转箭头形红灯；特别地，无论左转、直行还是右转出现黄灯，都认为是合理信号灯状态。

首先，在各个大类类别内，对预测框采用NMS方法进行筛选，然后按conf大小进行降序排列。然后，对各个大类类别中保留的预测框逐一遍历组合，剔除掉不满足上述7类组合形式的预测框。特别地，在组合后的预测框目标中仅包含部分组合目标也认为是合理预测，将预测框保留。

步骤S342，依次遍历保留的预测框组合，对每个预测框组合中的预测框按几何位置关系进行筛选。具体地，各组合预测框信息表示如下：左转类预测框信息表示如下[conf_l,x_1l,y_1l,x_2l,y_2l,]，conf_l表示左转类预测框类别置信度，x_1l表示左转类预测框左上角横坐标值，y_1l表示左转类预测框左上角纵坐标，x_2l表示左转类预测框右下角横坐标值，y_2l表示左转类预测框右下角纵坐标；右转类预测框信息表示如下[conf_r,x_1r,y_1r,x_2r,y_2r]，conf_r表示右转类预测框类别置信度，x_1r表示右转类预测框左上角横坐标值，y_1r表示右转类预测框左上角纵坐标，x_2r表示右转类预测框右下角横坐标值，y_2r表示右转类预测框右下角纵坐标；直行类的预测框信息表示如下[conf_s,x_1s,y_1s,x_2s,y_2s]，conf_s表示直行类预测框类别置信度，x_1s表示直行类预测框左上角横坐标值，y_1s表示直行类预测框左上角纵坐标，x_2s表示直行类预测框右下角横坐标值，y_2s表示直行类预测框右下角纵坐标；对于一个交通路口的交通灯组合，左转类信号灯、直行类信号灯和右转类信号灯应该在水平方向上近似等距分布。即左转类预测框和直行类预测框水平距离

右转类预测框和直行类预测框水平距离

步骤S4，在保留的预测框组合中，计算各保留的预测框组合的平均conf值，保留平均conf最高的预测框组合作为最终的预测框输出。

特别地，在上述筛选过程中，若出现无满足条件的预测框信息，直接返回空值，不进行后续筛选。

在一些实施方式中，为保证该系统在各种路况下均有较好的检测性能，测试过程分别在有光照条件良好、雾霾天气、雨雪天气等检测难点工况测试检测效果。

为了测试本发明所述方法在信号灯识别任务的效果，在真实的交通环境中将本发明所述方法与现有技术中的YOLOv3方法进行对比，如图10所示，相对于YOLOv3算法，本发明所述方法检测准确度更高。YOLOv3算法测试效果图中红框包围的信号灯出现了误检(红框I的真值为SAG，误检为LTAG；红框II的真值为RTAY，误检为SAR)，而在本发明所述方法克服了上述问题。此外，通过对YOLOv3算法和本发明所述方法进行对比测试，发现本文所述方法模型复杂度相对较低，显著降低了信号灯目标的搜索空间，保证了算法实时性。在Ubuntu18.04系统、NVIDIA 3060显卡的条件下，本文所述方法的单帧图像检测时间为8ms，而YOLOv3模型的单帧图像检测时间为15ms。可见，采用本发明所述方法缩短了图像的搜索时间，并且能够达到更好的信号灯识别效果。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。