CN110532961B

CN110532961B - 一种基于多尺度注意机制网络模型的语义交通信号灯检测方法

Info

Publication number: CN110532961B
Application number: CN201910817702.1A
Authority: CN
Inventors: 魏平; 冯洋; 杨昊月; 孔德乾; 孙宏滨; 郑南宁
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2022-07-12
Anticipated expiration: 2039-08-30
Also published as: CN110532961A

Abstract

本发明公开一种基于多尺度注意机制网络模型的语义交通信号灯检测方法，采集真实道路上包含各类交通信号灯的图像数据，据构建道路交通信号检测的基准数据集。构建适用于道路交通信号灯检测的多尺度注意机制网络模型。在多尺度注意机制网络模型中，训练采集的各类交通道路信号灯及标注好的语义信息数据，得到训练好的权重。采集真实道路上包含有交通信号灯的图像数据，并输入多尺度注意机制网络模型，利用得到的权重，检测出真实道路上交通信号灯的语义类别。本发明解决了现有有关交通信号灯检测时不能识别交通信号灯语义的局限性，提高了交通信号灯检测场景中检测的成功率和准确性。

Description

一种基于多尺度注意机制网络模型的语义交通信号灯检测方法

技术领域

本发明实施例涉及智能汽车技术领域，涉及一种计算机视觉结合深度学习的特定场景下的目标检测方法，具体是一种基于多尺度注意机制网络模型的语义交通信号灯检测方法。

背景技术

自主驾驶智能汽车是一种集环境感知、规划决策、运动控制功能于一体的智能驾驶平台。无人驾驶汽车在行驶的过程中，对周围环境的感知需求是多方面的，其中对交通信号灯的检测更是尤为重要，车辆往往会根据交通信号灯的检测结果，执行停下、转向或继续前进等命令。因此在无人驾驶技术研究中，对路段中交通信号灯的检测是必不可少的环节。现有技术中，主要利用单目或双目相机作为主要传感器进行检测。

在实际的交通信号灯检测场景中，国内外的研究人员也面临着不少难点。首先，交通信号灯在整个相机取景画面中所占区域比例非常小，有时甚至连人眼都无法准确辨别其信息。其次，交通信号灯的检测很容易受环境影响，像如若复杂照明、遮挡、恶劣天气等情况，检测的成功率和准确性会大打折扣。再者，就是数据集的稀缺，现有的数据集大都只关注到信号灯的颜色，而缺乏对交通信号灯语义的全面具体的归类，找不到合适的公共数据集全面定义交通信号灯的语义。

近些年，随着数据资源和计算机计算水平的不断发展，基于神经网络的方法在目标检测与识别中得到了广泛的应用。这些方法可以提取到复杂又多样的特征，在一般的检测和识别领域取得了举世瞩目的成就。然而，现有的基于神经网络的交通信号灯检测大多都是普通的物体探测器的衍生产物，并没有针对上文所说的信号灯检测的种种难点提出合理的解决方案。

发明内容

本发明的目的在于提出一种基于多尺度注意机制网络模型的语义交通信号灯检测方法，以解决现有有关交通信号灯检测时不能识别交通信号灯语义的局限性，提高交通信号灯检测场景中检测的成功率和准确性。

为实现上述目的，本发明采用的技术方案如下：

一种基于多尺度注意机制网络模型的语义交通信号灯检测方法，包括如下步骤：

S1，采集各类交通道路信号灯的图像数据，在采集的各类交通道路信号灯的图像数据标注含特定语义类别的交通道路信号灯数据，将含特定语义类别的交通道路信号灯数据构建为道路交通信号检测的基准数据集；

S2，构建适用于交通道路信号灯检测的多尺度注意机制网络模型(MSA)；

S3，在S2建立的多尺度注意机制网络模型中，训练S1采集各类交通道路信号灯及标注好的语义信息数据，得到训练好的权重；

S4，采集真实道路上包含有交通信号灯的图像数据，并输入多尺度注意机制网络模型，利用S3得到的权重，检测出真实道路上交通信号灯的语义类别。

S1中，采用多个不同种类的汽车，采集各类交通道路信号灯的图像数据，图像数据涵盖了多条不同的时段以及不同天气下的多样化的城乡道路。

S1中，在采集的各类交通道路信号灯的图像数据标注含特定语义类别的交通道路信号灯数据时，采用标注工具对采集到的各类交通道路信号灯的图像数据进行标注，由矩形选框选定交通信号灯并标注交通信号灯的具体类别。

S1中，交通道路信号灯的予以类别包括：红灯直行箭头、红灯右转箭头、红灯左转箭头、红灯圆圈、红灯调头箭头、绿灯直行箭头、绿灯右转箭头、绿灯左转箭头、绿灯圆圈、绿灯调头箭头及无灯状态。

S2中，多尺度注意机制网络模型MSA包括特征提取模块、注意模块和检测模块；

其中，特征提取模块用于提取输入图像数据的特征，生成特征图；注意模块能够利用特征提取模块提取的特征对图像中监测对象进行突出处理；检测模块用于检测注意模块的处理结果，获取输入图像数据中的交通道路信号灯信息。

特征提取模块提取输入图像数据特征的过程包括：

使用具有三个卷积层的ResNet-101作为主干网络从输入的各类交通道路信号灯的原始图像数据中提取初始特征，并随着不断卷积提取更高层的特征，最终在三个维度形成特征图。

注意模块利用特征提取模块提取的特征对图像中监测对象进行突出处理的过程包括：

将来自上采样层的高层特征图与原始图像中提取的低层特征映射连接起来，组合出多尺度信息。

注意模块分别在三个不同的维度下让特征图中的高层特征与低层特征相乘得到一个突出显示的特征图，并使用一个全局均值池化层和两个完全连接的级联层生成特征掩码，生成注意机制映射图。

检测模块检测注意模块的处理结果，获取输入图像数据中的交通道路信号灯信息的过程包括：

将注意模块得到的注意机制映射图和特征提取模块提取的特征图结合，最终在三个维度输出检测框；再在最终结果中采用非极大抑制算法消除冗余框得到最终检测结果框。

S3中，对多尺度注意机制网络模型训练的过程包括如下步骤：

S3-1，设计一个固定的阈值，将三个维度下输出检测框与真实框进行比较，当检测框与真实框的交并比大于阈值的时候，并输入下一阶段；如果没有超过阈值的结果，选择交并比最大的检测框输入第二阶段，当获得局部最优后，第二阶段采用非极大抑制算法消除冗余框得到最终检测结果框；

S3-2，将检测结果框的坐标数据与标注的真实框的坐标数据进行比较，并建立一个以检测结果框坐标数据为输入的函数，使输出的检测结果框坐标数据等于真实结果框的坐标数据；

S3-3，重复S3-1～S3-2，以优化和调整函数的各个参数，最终得到一个最优解，最优解能够使输出的检测结果框坐标数据等于真实结果框的坐标数据，该最优解作为多尺度注意机制网络模型的权重。

本发明的有益效果如下：

本发明的基于多尺度注意机制网络模型的语义交通信号灯检测方法中，先采集各类交通道路信号灯的图像数据，在采集的各类交通道路信号灯的图像数据标注含特定语义类别的交通道路信号灯数据，将含特定语义类别的交通道路信号灯数据构建为道路交通信号检测的基准数据集；构建适用于交通道路信号灯检测的多尺度注意机制网络模型MSA；在建立的多尺度注意机制网络模型中，训练采集的各类交通道路信号灯及标注好的语义信息数据，得到训练好的权重；采集真实道路上包含有交通信号灯的图像数据，并输入多尺度注意机制网络模型，利用得到的权重，检测出真实道路上交通信号灯的语义类别。本发明利用适用于交通道路信号灯检测的多尺度注意机制网络模型MSA来处理远处小红绿灯问题，与现有法相比，处理性能能够显著的提高。它在特定的语义交通信号灯类别、语义交通信号灯(STL)数据集上建立了一个新的基准数据集，为发展交通信号灯的分类检测提供了基准数据。与现有的交通灯数据集相比，STL包含了对交通信号灯语义状态最全面的理解。因此本发明能够解决现有有关交通信号灯检测时不能识别交通信号灯语义的局限性，提高交通信号灯检测场景中检测的成功率和准确性。

附图说明

图1为本发明交通信号灯语义数据集种类示意图；

图2为本发明的适用于交通道路信号灯检测的多尺度注意机制网络模型的结构示意图；

图3为本发明适用于交通道路信号灯检测的多尺度注意机制网络模型中注意模块的示意图；

图4为本发明训练过程中的分段匹配策略示意图。

具体实施方式

下面将结合附图和实施例，对本发明的技术方案进行更为清楚、完整的描述。然而应当理解，可以以各种形式实现本公开而不应该被这里阐述的实施例所限制，相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整地传达给本领域的技术人员。

多尺度注意机制网络模型MSA，可以在统一的框架下对交通信号灯的位置及其语义状态进行回归。该网络模型利用卷积模块提取特征并使用上采样的方法使其得到的特征图膨胀三次，以生成不同尺度的特征映射。为了解决语义信息和小对象的问题，模型中设计了一种多尺度注意机制来增强三个尺度上的有效信息，更好的突出了信号灯及其周边区域，并用一个包含交通灯位置及其语义状态的联合损失函数训练网络。

为实现上述目的，本发明所述的基于多尺度注意机制网络模型的语义交通信号灯检测方法所采用的技术方案如下：

(1)采集真实道路上包含各类交通信号灯的图像数据，并通过人工标注的方法在采集的各类交通道路信号灯的图像数据标注含特定语义类别的交通道路信号灯数据，将含特定语义类别的交通道路信号灯数据构建为道路交通信号检测的基准数据集。

(2)构建适用于道路交通信号灯检测的多尺度注意机制网络模型(MSA)。

(3)在步骤(2)建立的多尺度注意机制网络模型中，训练步骤(1)采集的各类交通道路信号灯及标注好的语义信息数据，得到训练好的权重。

(4)采集真实道路上包含有交通信号灯的图像数据，并输入多尺度注意机制网络模型，利用步骤(3)得到的权重，检测出真实道路上交通信号灯的语义类别。

作为本发明优选的实施方案，在步骤(1)中，图像数据的采集与标注数据过程如下：

(1-1)对摄像机内外参数进行标定；

(1-2)针对可能出现的天气、光线这些外界环境因素的影响，分别采用多个不同种类的汽车，采集各类交通道路信号灯的图像数据，图像数据涵盖了多条不同的时段以及不同天气下的多样化的城乡道路；其中不同的时段可以划分为早上、中午、晚上；不同天气下指如雨天、雪天、大雾天这些天气；多样化的城乡道路指如土路、水泥路、砂石路这些城乡道路；

(1-3)针对实际道路中可能出现的交通信号灯语义信息，将主要采集并标定如下十一类数据(参照图1)：红灯直行箭头、红灯右转箭头、红灯左转箭头、红灯圆圈、红灯调头箭头、绿灯直行箭头、绿灯右转箭头、绿灯左转箭头、绿灯圆圈、绿灯调头箭头、无灯状态。

(1-4)采用标注工具对采集到的图像进行标注，由矩形选框选定信号灯并标注清具体类别。

作为本发明优选的实施方案，参照图2，在步骤(2)中，多尺度注意机制网络模型MSA包括特征提取模块、注意模块和检测模块；其中，特征提取模块用于提取输入图像数据的特征，生成特征图；注意模块能够利用特征提取模块提取的特征对图像中监测对象进行突出处理；检测模块用于检测注意模块的处理结果，获取输入图像数据中的交通道路信号灯信息。

作为本发明优选的实施方案，特征提取模块提取输入图像数据特征的过程包括：

参照图2，使用具有三个卷积层的ResNet-101作为主干网络从输入的各类交通道路信号灯的原始图像数据中提取初始特征，并随着不断卷积提取更高层的特征，最终在三个维度形成特征图。

作为本发明优选的实施方案，参照图3，注意模块利用特征提取模块提取的特征对图像中监测对象进行突出处理的过程包括：

将来自上采样层的高层特征图与原始图像中提取的低层特征映射连接起来，组合出多尺度信息。注意模块分别在三个不同的维度下让高层特征与低层特征相乘得到一个突出显示的特征映射，并使用一个全局均值池化层和两个完全连接的级联层生成特征掩码，生成注意机制映射图。使用三个不同尺度的特征映射层进行检测，可适应于不同远近的红绿灯，提高检测效率和准确率。

作为本发明优选的实施方案，注意模块分别在三个不同的维度下让特征图中的高层特征与低层特征相乘得到一个突出显示的特征图，并使用一个全局均值池化层和两个完全连接的级联层生成特征掩码，生成注意机制映射图。

运用注意机制将低维度的特征于高维度的特征进行融合，可有效解决小目标的特征丢失问题，提高检测的准确率。

作为本发明优选的实施方案，检测模块检测注意模块的处理结果，获取输入图像数据中的交通道路信号灯信息的过程包括：

作为本发明优选的实施方案，将注意模块得到的注意机制映射图和特征提取模块提取的特征图结合，最终在三个维度输出检测框；再在最终结果中采用非极大抑制算法消除冗余框得到最终检测结果框。

作为本发明优选的实施方案，在步骤(3)中，训练网络模型的过程包括如下步骤：

步骤(3-1)，设计一个固定的阈值，将三个维度下输出检测框与真实框进行比较，当检测框与真实框的交并比大于阈值的时候，并输入下一阶段；如果没有超过阈值的结果，选择交并比最大的检测框输入第二阶段，当获得局部最优后，第二阶段采用非极大抑制算法消除冗余框得到最终检测结果框。以此为内容的新型分段匹配策略，确保了第一阶段至少有一个框有效，加快了收敛速度，也减轻了第二阶段的负担，相应也加快了第二阶段的速度，使模型训练高效又准确。

步骤(3-2)，将检测结果框的坐标数据与标注的真实框的坐标数据进行比较，并建立一个以检测结果框坐标数据为输入的函数，使输出的检测结果框坐标数据等于真实结果框的坐标数据；

步骤(3-3)，重复步骤(3-1)～步骤(3-2)，以优化和调整函数的各个参数，最终得到一个最优解，最优解能够使输出的检测结果框坐标数据等于真实结果框的坐标数据，该最优解作为多尺度注意机制网络模型的权重。

作为本发明优选的实施方案，在步骤(4)中，检测红绿灯的过程包括如下步骤：

步骤(4-1)，检测时，可任意输入含有红绿灯的图片或视频，视频在输入多尺度注意机制网络模型后会转成单帧图片；

步骤(4-2)，将步骤(4-1)得到的图片或单帧图片利用多尺度注意机制网络模型，最终得到检测结果。

实施例

由于考虑现有的数据集类型中并没有合适的包含详细语义信息的红绿灯数据集，结合图1，本实施例建立了一个全新的更为全面的基准数据集，采集真实道路上包含各类交通信号灯的图像数据，并通过人工标注的方法标注含特定语义类别的信号灯数据。

在建立数据集的过程中应当考虑到交通信号灯所包含的语义信息以及外界不同环境对图像数据的影响。所以采集的图像数据涵盖了一天中不同的时段以及不同天气下的400多条多样化的城乡道路，记录了1000分钟的视频数据，包含了14000多帧分辨率为1920*1200的图片。其中交通信号灯语义信息主要包括：红灯直行箭头、红灯右转箭头、红灯左转箭头、红灯圆圈、红灯调头箭头、无灯状态、绿灯直行箭头、绿灯右转箭头、绿灯左转箭头、绿灯圆圈和绿灯调头箭头。

上述数据集将被用于MSA模型的训练。结合图2和图3，MSA模型主要基于YOLO模型并作出了相应的优化，整个模型包括特征提取模块、注意模块和检测模块三部分。特征提取模块提取输入图像数据的特征，注意模块对图像中监测对象进行突出处理，检测模块负责后续检测工作。

使用具有三个卷积层的ResNet-101作为主干网络从输入的原始数据集图像中提取初始特征，并随着不断卷积提取更高层的特征，最终在三个维度形成具有良好深度的特征图。这些提取到的特征将被使用到接下来的模块。整个过程首先使用K均值聚类算法(k-means)获得原始数据集前边界框的宽度和高度作为锚框的尺寸，并基于原始数据的锚框尺寸，将ResNet采集到的特征映射扩大三倍，得到三个维度下的特征信息，最后输出最高层特征层的大小将是原始图像的1/32。如果将输入尺寸设定成512*512，锚点数量设定为M，则整个MSA在一次前向传递中总共将会生成(32*32+64*64+128*128)*M个预测框，模型随后将利用基于锚框的检测机制来预测锚点坐标。

注意模块被添加在原始数据与卷积后得出的三个维度下的高层数据的映射中，该模块将来自上采样层的高层特征映射与原始图像中提取的低层特征映射连接起来，组合出多尺度信息。它分别在三个不同的维度下让高层特征与低层特征相乘得到一个突出显示的特征映射，并使用一个全局均值池化层和两个完全连接的级联层生成特征掩码，特征掩码再乘以低层特征生成突出显示的特征映射。该突出映射可以突出显示交通灯及其周围的区域，在检测模块起到了积极的效果。

下来是检测模块，由注意机制可以将交通灯及其周围突出显示，由此可以将基本模块不相关的锚框进行筛除，提高运算效率。在训练过程中，随后还需要计算锚框与真实框的交并比，设置一个最低值，将低于最低交并比的锚框进行第二次筛除；如果没有锚框交并比达到阈值，则选择交并比最大的锚框，这样可以保证至少有一个锚框被检测到并提高了运算效率。最后再对锚框进行修饰，不断拟合，使检测到的最终锚框不断接近真实值。模型中针对这一过程采用二进制交叉熵计算分类损失，以加快分类的收敛速度；利用均方误差计算包围框的损失和多目标情况下的置信度，最终训练出权重。检测过程则利用权重直接输出检测结果即可。损失函数L如下：

式中，S²表示特征图的尺寸，(x,y,w,h)表示预测框的坐标大小，

表示真实框的坐标大小。我们用

和

来表示预测框和真实框的对应关系，p_i(c)是红绿灯语义信息为C类的概率，

表示归一化后的真实值。

训练过程是将采集到的图片数据和含有图片中红绿灯位置及语义信息的标注数据输入构建的适用于道路交通信号灯检测的多尺度注意机制网络模型中，在检测阶段将检测结果与真实结果的数据信息不断拟合，得到损失函数，最终输出红绿灯检测模型的权重。结合图4，由新型分段匹配策略可以高效并准确的得出训练结果。在训练的前几个阶段，设计一个固定的阈值(在本实施例的训练中阈值设为0.5)，当检测框与真实框的交并比大于阈值的时候，认定检测框是有效的；如果没有超过阈值的结果，那么认为交并比最大的是有效的。这样，确保了第一阶段至少有一个框有效，加快了收敛速度。当获得局部最优后，下一阶段开始降低损失，判断超过阈值并拥有最高交并比的结果是有效的，相应的，第二阶段也采用了更严格的规则来提高检测精度。

检测过程可以将任意含有红绿灯的图片或视频输入网络模型，视频输入后会分割成单帧图片进行后续处理，待检测结果输出后再将图片拼接成视频。每张图片的检测都要通过特征提取模块和注意模块，而在检测模块中，因为已经得到了权重，将权重输入多尺度注意机制网络模型MSA可以直接得到检测结果，即可检测出图片上的红绿灯。

Claims

1.一种基于多尺度注意机制网络模型的语义交通信号灯检测方法，其特征在于，包括如下步骤：

S2，构建适用于交通道路信号灯检测的多尺度注意机制网络模型；

S4，采集真实道路上包含有交通信号灯的图像数据，并输入多尺度注意机制网络模型，利用S3得到的权重，检测出真实道路上交通信号灯的语义类别；

其中，特征提取模块用于提取输入图像数据的特征，生成特征图；注意模块能够利用特征提取模块提取的特征对图像中监测对象进行突出处理；检测模块用于检测注意模块的处理结果，获取输入图像数据中的交通道路信号灯信息；

特征提取模块提取输入图像数据特征，生成特征图的过程包括：

使用具有三个卷积层的ResNet-101作为主干网络从输入的各类交通道路信号灯的原始图像数据中提取初始特征，并随着不断卷积提取更高层的特征，最终在三个维度形成特征图；

将来自上采样层的高层特征图与原始图像中提取的低层特征映射连接起来，组合出多尺度信息，实现对图像中监测对象进行突出处理；

注意模块分别在三个不同的维度下让特征图中的高层特征与低层特征相乘得到一个突出显示的特征图，并使用一个全局均值池化层和两个完全连接的级联层生成特征掩码，生成注意机制映射图；

将注意模块得到的注意机制映射图和特征提取模块提取的特征图结合，最终在三个维度输出检测框；再在最终结果中采用非极大抑制算法消除冗余框得到最终检测结果框；

多尺度注意机制网络模型中，损失函数L如下：

表示真实框的坐标大小，用

和

表示归一化后的真实值；

所述注意模块被添加在原始数据与卷积后得出的三个维度下的高层数据的映射中，所述注意模块将来自上采样层的高层特征映射与原始图像中提取的低层特征映射连接起来，组合出多尺度信息，所述注意模块别在三个不同的维度下让高层特征与低层特征相乘得到一个突出显示的特征映射，并使用一个全局均值池化层和两个完全连接的级联层生成特征掩码，特征掩码再乘以低层特征生成突出显示的特征映射，突出映射能够突出显示交通灯及其周围的区域；

2.根据权利要求1所述的一种基于多尺度注意机制网络模型的语义交通信号灯检测方法，其特征在于，S1中，采用多个不同种类的汽车，采集各类交通道路信号灯的图像数据，图像数据涵盖了多条不同的时段以及不同天气下的多样化的城乡道路。

3.根据权利要求1所述的一种基于多尺度注意机制网络模型的语义交通信号灯检测方法，其特征在于，S1中，在采集的各类交通道路信号灯的图像数据标注含特定语义类别的交通道路信号灯数据时，采用标注工具对采集到的各类交通道路信号灯的图像数据进行标注，由矩形选框选定交通信号灯并标注交通信号灯的具体类别。

4.根据权利要求1所述的一种基于多尺度注意机制网络模型的语义交通信号灯检测方法，其特征在于，S3中，对多尺度注意机制网络模型训练的过程包括如下步骤：