CN110069986B

CN110069986B - 一种基于混合模型的交通信号灯识别方法及系统

Info

Publication number: CN110069986B
Application number: CN201910188244.XA
Authority: CN
Inventors: 潘卫国
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2021-11-02
Anticipated expiration: 2039-03-13
Also published as: CN110069986A

Abstract

本发明提供一种基于混合模型的交通信号灯识别方法及系统，其中方法包括输入交通场景图像，还包括以下步骤：标注数据及模型训练利用“ICNet”获取图像中的语义区域信息，去除掉错检的信号灯位置；训练基于卷积神经网络的交通信号灯细分类模型；输出检测结果。本发明提出一种基于混合模型的交通信号灯识别方法及系统，首先利用交通信号灯定位模型确定交通信号灯在交通场景图像中的位置信息，再利用语义分割模型排除掉一些误判的交通信号灯区域，得到准确的交通信号灯定位信息，利用卷积神经网络对定位得到的图像区域进行识别分类，最后根据信号灯的判别颜色类型(红、黄、绿)细分割出交通信号灯亮灯的区域。

Description

一种基于混合模型的交通信号灯识别方法及系统

技术领域

本发明涉及图像视觉的技术领域，特别是一种基于混合模型的交通信号灯识别方法及系统。

背景技术

道路环境感知是影响车辆驾驶的重要因素，其中交通信号灯能够使车辆在十字路口有序、安全通行，大幅度提高路口的通行效率。因此，准确高效的信号灯识别系统是智能车辆环境感知不可或缺的组成部分。国内外学者已进行了多年交通信号灯识别的研究，取得不少进展及成果。

已有的交通信号灯的识别方法主要分为基于图像处理的方法和基于网络信息传输的方法两类。基于图像处理的方法通常是使用摄像头采集车辆前方的视频图像，然后依靠颜色、形状等信息检测感兴趣区域并提取特征进行类别判定，从而得到交通信号灯的状况。根据交通信号灯的特征属性，信号灯的检测可以分为基于颜色空间的检测方法、基于形状特征的检测方法以及其他一些综合类方法。基于颜色空间检测的算法实时性较好，是目前交通信号灯检测方法中采用较多的方法之一。此种方法对于环境对比强烈、颜色明显的图像能取得比较好的结果，然而单单依靠颜色信息无法应对复杂背景下的信号灯检测。形状检测方法能克服颜色模糊、光照不均匀等问题的影响，但若复杂背景下存在形状相似的干扰物，则会导致信号灯检测的失败。另有一些研究方法将颜色和形状综合考虑。相比于单独利用某种特征，此种方式能进一步减少识别错误率，但在夜晚、恶劣天气等情况下仍无法达到系统的实时性和鲁棒性要求。

公开号为CN108764216A的发明专利公开了一种基于视觉的交通信号灯识别方法及装置，其中，识别方法包括三步，第一步判定交通信号灯类型，第二步图像预处理，第三步深度学习识别模型。该方法提及的交通信号灯识别方法，输入的图像是交通信号灯局部区域图像，再通过阈值判断是什么类型的信号灯(横、竖)，然后经验阈值进行分割，最后再对分割后的图像进行交通信号类别的识别。该方法依赖于经验阈值，很难在实际应用中实施，且该方法没有提及如何对交通信号灯区域进行定位这一关键步骤，更增加了对最后识别结果的不确定性。

发明内容

为了解决上述的技术问题，本发明提出一种基于混合模型的交通信号灯识别方法及系统，首先利用交通信号灯定位模型确定交通信号灯在交通场景图像中的位置信息，再利用语义分割模型排除掉一些误判的交通信号灯区域，得到准确的交通信号灯定位信息，利用卷积神经网络对定位得到的图像区域进行识别分类，最后根据信号灯的判别颜色类型(红、黄、绿)细分割出交通信号灯亮灯的区域。本发明解决交通信号灯识别过程中信号灯的定位问题，通过语义信息解决了周围环境因素的干扰。

本发明的第一目的是提供一种基于混合模型的交通信号灯识别方法，包括输入交通场景图像，还包括以下步骤：

步骤1：标注数据及模型训练；

步骤2：利用“ICNet”获取图像中的语义区域信息，去除掉错检的信号灯位置；

步骤3：训练基于卷积神经网络的交通信号灯细分类模型；

步骤4：输出检测结果。

优选的是，所述模型训练的过程包括以下步骤：

步骤11：用ResNet-50模型初始化RPN网络，然后训练所述RPN网络；

步骤12：用所述ResNet-50模型初始化Fast-rcnn检测网络，再使用训练过的所述RPN网络来计算proposal，将获得的proposal传给Fast-rcnn网络进行训练；

步骤13：使用检测网络模型来初始化所述RPN网络，再次进行模型训练；

步骤14：保持模型的共享卷基层不变，然后微调Fast R-CNN网络的全连接层，得到一个更快的目标检测模型。

在上述任一方案中优选的是，所述RPN网络的损失函数L的公式为

其中，i是anchor索引，p_i表示anchor属于某个目标的概率，

表示ground-truth标签的概率，t_i表示预测的边界框，

表示ground-truth的边框，L_cls是对数损失函数用于对前景和背景的分类；L_reg表示回归的损失函数，

R是平滑的L₁损失函数，N_cls表示批量的数目，N_reg表示定位的所有点的数目。

在上述任一方案中优选的是，在回归阶段，采用以下公式实现对坐标的参数化：

t_x＝(x-t_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)，

其中，x、y、w和h分别表示预测框的中心坐标、宽度和高度，变量x、x_a和x^*表示预测边框、anchor边框和ground-truth边框，t_x和t_y表示平移量，t_w和t_h表示尺度因子，

和

表示ground-truth边框的平移量，

表和

表示ground-truth边框的尺度因子。

在上述任一方案中优选的是，所述步骤2中的训练过程包括以下步骤：

步骤21：待训练的图像分别在三个分支网络下进行下采样，分别是尺度为1/4的低分辨率分支、尺度为1/2的中分辨分支率和尺度为1的高分辨率分支；

步骤22：在每一分支采用级联标签指导策略，使用1/16、1/8和1/4的正确标签指导所述低分辨率分支、所述中分辨率分支和所述高分辨率分支的特征学习。

在上述任一方案中优选的是，所述低分辨率分支的采样方法为低分辨率图像输入到一个基于FCN的PSPNet结构，网络输出为原始输入1/32的特征图。

在上述任一方案中优选的是，所述中分辨率分支的采样方法为中分辨率图像输入得到1/16大小的特征图，将低分辨率的特征图和中分辨的特征图经过级联特征融合模块融合得到1/16的特征图。

在上述任一方案中优选的是，所述高分辨率分支的采样方法为高分辨率图像输入后得到原始图像1/8的特征图，将所述1/16特征图和所述1/8特征图经过级联特征融合模块计算获得原始图像1/8的特征图。

在上述任一方案中优选的是，最小化的损失函数L定义为：

其中，T表示分支的数量，N表示类别数量，F是t分支在分辨率y_t×x_t下的特征图，在(n，y，x)处值为

表示相对应ground-truth(x，y)处的标签，对应的值为

在上述任一方案中优选的是，所述ICNet的辅助过程为通过判断检测到的信号灯位置信息是否与语义区域分割后的区域有重叠，所述判断公式为

A_pixel＝L_pixel∩S_pixel

其中，A_pixel表示信号灯定位区域和语义分割模型检测到目标的区域的重叠区域，L_pixel表示检测定位模型检测到的信号灯区域，S_pixel表示语义分割模型检测到的区域，N_pixel表示A_pixel区域中像素的个数，N_L_pixel表示L_pixel区域的像素个数，Final_res表示交通信号定位区域。

在上述任一方案中优选的是，把最后图像中Final_res＝0的区域为最终的交通信号灯定位结果，得到定位结果图。

在上述任一方案中优选的是，所述步骤3包括以下子步骤：

步骤31：提取交通信号灯细分类的数据，并获取交通场景中的交通信号灯局部图；

步骤32：对交通信号区域进行定位，利用卷积神经网络训练得到的模型进行细分类的判别。

在上述任一方案中优选的是，所述检测结果的输出计算方式为：

其中，Light_area表示检测到的信号灯区域，(x₁，y₁)和(x₂，y₂)分别是最后确定的交通信号灯区域的左上和右下坐标，prdiction表示为经过VGG-16模型识别后的预测结果，red_circle表示红色圆形信号灯，red_arrow表示红色箭头信号灯，green_circle表示绿色圆形信号灯，green_arrow表示绿色箭头信号灯，yellow_circle表示黄色圆形信号灯，yellow_arrow表示黄色箭头信号灯。

本发明的第二目的是提供一种基于混合模型的交通信号灯识别系统，包括用于输入交通场景图像的获取模块，还包括以下模块：

初始训练模块：用于标注数据及模型训练；

筛选模块：用于利用仿射变换矩阵，对所述待检测图片进行位置旋转；

分类模型训练模块：用于训练基于卷积神经网络的交通信号灯细分类模型；

输出模块：输出检测结果。

优选的是，所述模型训练的过程包括以下步骤：

其中，i是anchor索引，p_i表示anchor属于某个目标的概率，

表示ground-truth标签的概率，t_i表示预测的边界框，

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)，

其中，x、y、w和h分别表示两个框的中心坐标、宽度和高度，变量x_a和x^*表示预测边框、anchor边框和ground-truth边框，t_x和t_y表示平移量，t_w和t_h表示尺度因子，

和

表示ground-truth边框的平移量，

表和

表示ground-truth边框的尺度因子。

在上述任一方案中优选的是，所述筛选模块中的训练过程包括以下步骤：

在上述任一方案中优选的是，最小化的损失函数L定义为：

表示相对应ground-truth(x，y)处的标签，对应的值为

在上述任一方案中优选的是，所述ICNet的辅助过程为通过判断检测到的信号灯位置信息是否与语义区域分割后的区域有重叠，所述判断公式为A_pixel＝L_pixel∩S_pixel

在上述任一方案中优选的是，所述步骤3包括以下子步骤：

本发明提出了一种基于混合模型的交通信号灯识别方法及系统，能够快速准确定位出交通场景中交通信号灯区域(去除掉了周围环境因素的干扰)，且定位和识别通过混合模型分步实现，提升了识别速度，同时也利于对各个模型进行训练。

ICNet(Image Cascade Network)是指图像级联网络。

Proposal由一个四维向量表示：(x，y，w，h)，分别表示中心点(x，y)，宽w和高h。

附图说明

图1为按照本发明的基于混合模型的交通信号灯识别方法的一优选实施例的流程图。

图2为按照本发明的基于混合模型的交通信号灯识别系统的一优选实施例的模块图。

图3为按照本发明的基于混合模型的交通信号灯识别方法的另一优选实施例的交通信号灯类别图。

图4为按照本发明的基于混合模型的交通信号灯识别方法的如图3所示实施例的基于级联模型的交通信号灯识别流程图。

图5为按照本发明的基于混合模型的交通信号灯识别方法的如图3所示实施例的图像标注样例图。

图6为按照本发明的基于混合模型的交通信号灯识别方法的如图3所示实施例的细分类样本数据图。

图7为按照本发明的基于混合模型的交通信号灯识别方法的如图3所示实施例的识别效果图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的闸述。

实施例一

如图1、2所示，执行步骤100，获取模块200输入交通场景图像。

执行步骤110，初始训练模块210标注数据及模型训练。

模型训练的过程包括以下步骤：步骤11：用ResNet-50模型初始化RPN网络，然后训练所述RPN网络。RPN网络的损失函数L的公式为

其中，i是anchor索引，p_i表示anchor属于某个目标的概率，

表示ground-truth标签的概率，t_i表示预测的边界框，

R是平滑的L₁损失函数，N_cls表示批量的数目，N_reg表示定位的所有点的数目。在回归阶段，采用以下公式实现对坐标的参数化：

t_x＝(x-x_a)/w_a，t_y，＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)，

和

表示ground-truth边框的平移量，

表和

表示ground-truth边框的尺度因子。步骤12：用所述ResNet-50模型初始化Fast-rcnn检测网络，再使用训练过的所述RPN网络来计算proposal，将获得的proposal传给Fast-rcnn网络进行训练；步骤13：使用检测网络模型来初始化所述RPN网络，再次进行模型训练；步骤14：保持模型的共享卷基层不变，然后微调Fast R-CNN网络的全连接层，得到一个更快的目标检测模型。

执行步骤120，筛选模块220利用“ICNet”获取图像中的语义区域信息，去除掉错检的信号灯位置。其中，训练过程包括以下步骤：步骤21：待训练的图像分别在三个分支网络下进行下采样，分别是尺度为1/4的低分辨率分支、尺度为1/2的中分辨分支率和尺度为1的高分辨率分支；步骤22：在每一分支采用级联标签指导策略，使用1/16、1/8和1/4的正确标签指导所述低分辨率分支、所述中分辨率分支和所述高分辨率分支的特征学习。低分辨率分支的采样方法为低分辨率图像输入到一个基于FCN的PSPNet结构，网络输出为原始输入1/32的特征图；中分辨率分支的采样方法为中分辨率图像输入得到1/16大小的特征图，将低分辨率的特征图和中分辨的特征图经过级联特征融合模块融合得到1/16的特征图；高分辨率分支的采样方法为高分辨率图像输入后得到原始图像1/8的特征图，将所述1/16特征图和所述1/8特征图经过级联特征融合模块计算获得原始图像1/8的特征图。最小化的损失函数L定义为：

表示相对应ground-truth(x，y)处的标签，对应的值为

最小化的损失函数应用于：Faster RCNN模型训练过程中，即交通信号灯位置定位模型训练。

ICNet的辅助过程为通过判断检测到的信号灯位置信息是否与语义区域分割后的区域有重叠，所述判断公式为

A_pixel＝L_pixel∩S_pixel

其中，A_pixel表示信号灯定位区域和语义分割模型检测到目标的区域的重叠区域，L_pixel表示检测定位模型检测到的信号灯区域，S_pixel表示语义分割模型检测到的区域，N_pixel表示A_pixel区域中像素的个数，N_L_pixel表示L_pixel区域的像素个数，Final_res表示交通信号定位区域。把最后图像中Final_res＝0的区域为最终的交通信号灯定位结果，得到定位结果图。

执行步骤130，分类模型训练模块230训练基于卷积神经网络的交通信号灯细分类模型，包括以下子步骤：步骤31：提取交通信号灯细分类的数据，并获取交通场景中的交通信号灯局部图；步骤32：对交通信号区域进行定位，利用卷积神经网络训练得到的模型进行细分类的判别。

执行步骤140，输出模块240输出检测结果。所述检测结果的输出计算方式为：

实施例二

本发明主要利用深度学习的方法识别交通场景中的交通信号灯问题，首先利用训练的深度学习模型进行交通信号灯位置的定位，再根据语义分割模型识别的图像语义信息对定位信息进行判别，最后获得交通信号灯的位置区域；在此基础上根据训练的交通信号细分类模型，对交通信号灯区域进行类别识别，获取信号灯状态信息。针对现有可用训练数据少的问题，在定位模型训练过程中分成三类(红灯、绿灯、黄灯)，这样每一类的数据量就会增加。细分类的模型在上述大类的基础上再细分为12类(如图3所示)：红灯箭头直行、红灯箭头左转、红灯箭头右转，红灯圆形、黄灯箭头直行、黄灯箭头左转、黄灯箭头右转、黄灯圆形、绿灯箭头直行、绿灯箭头左转、绿灯箭头右转、绿灯圆形。

如图4所示的是基于级联模型的交通信号灯识别流程图。

第一步：标注数据及模型训练

交通场景中的信号灯标注框如图5所示，将整个信号灯的区域进行标注如下图所示，而非只是将信号灯区域中亮的部分标注，这样的标注的优点是便于对图像中的信号灯区域进行定位。在标注阶段没有对信号灯的类型进行细分类，只是标注是信号灯区域(红灯、绿灯、黄灯三种类型的交通信号灯)情况下，训练出有效的模型进行交通信号灯区域的定位。

本发明采用基于Faster RCNN的框架进行训练，卷积神经网络选择ResNet-50。

模型训练过程：

1：用ResNet-50模型初始化RPN网络，然后训练RPN，

RPN损失函数：

式中i是anchor索引，p_i表示anchor属于某个目标的概率，

表示ground-truth标签的概率，t_i表示预测的边界框，

R是平滑的L₁损失函数；

在回归阶段，采用以下公式实现对坐标的参数化：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)，

x、y、w和h分别表示两个框的中心坐标、宽度和高度，变量x、x_a和x^*表示预测边框，anchor边框，和ground-truth边框。过程可以理解为从anchor边框回归到近似ground-truth的边框。

2：用所述ResNet-50模型初始化Fast-rcnn检测网络，再使用训练过的RPN来计算proposal，将获得的proposal传给Fast-rcnn网络进行训练；

3：使用检测网络模型来初始化RPN网络，再进行模型训练，在这一步固定共享卷积层并微调RPN网络中独有的层。

4：保持模型的共享卷基层不变，然后微调Fast R-CNN网络的全连接层，得到一个更快的目标检测模型。

训练定位模型的网络关键参数如下所示：

base_lr：0.001

lr_policy：″step″

gamma：0.95

average_loss：100

momentum：0.9

weight_decay：0.0005

iter_size：2

base_size＝4，

scales＝(8，16，32)

第二步：利用“ICNet”获取图像中的语义区域信息，去除掉错检的信号灯位置；

训练过程：

待训练的图像分别在三个分支网络下进行下采样，尺度分别为：1/4，1/2，1，定义为低分辨率、中分辨率，高分辨率；

低分辨率分支：低分辨率图像输入到一个基于FCN的PSPNet结构，网络输出为原始输入1/32的特征图。

中分辨率分支：中分辨率图像输入得到1/16大小的特征图，将低分辨率的特征图和中分辨的特征图经过级联特征融合模块融合得到1/16的特征图。

高分辨率分支：高分辨率图像输入后得到原始图像1/8的特征图，将上一步得到的1/16特征图和该阶段得到的1/8特征图经过级联特征融合模块计算获得原始图像1/8的特征图。

这里使用了3层卷积层，其中每层都是3*3大小，步长为2的卷积核。

为了加强学习过程，在每一分支采用级联标签指导策略，使用1/16，1/8和1/4的正确标签指导低、中、高分辨率的特征学习。最小化的损失函数定义为：

T表示分支的数量，N表示类别数量，F是t分支在分辨率y_t×x_t下的特征图，在(n，y，x)处值为

表示相对应ground-truth(x，y)处的标签。

使用数据集：CITYSCAPES DATASET

ICNet辅助过程：通过判断检测到的信号灯位置信息是否与语义区域分割后的“car”“rider”“bus”“motorcycle”“truck”“building”“vegetation”“fence”“road”区域有重叠(重叠区域阈值为交通信号灯区域的50％)，如果超过阈值，则认为舍弃掉检测到的交通信号区域(上述语义区域内比如汽车的尾灯、建筑物上的红色灯、行人衣服颜色等会对交通信号灯的检测造成干扰)。

公式：

A_pixel＝L_pixel∩S_pixel

式子中A_pixel表示信号灯定位区域和语义分割模型检测到目标(“car”“rider”“bus”“motorcycle”“truck”“building”“vegetation”“fence”“road”)的区域的重叠区域。L_pixel表示检测定位模型检测到的信号灯区域，S_pixel表示语义分割模型检测到的区域(“car”“rider”“bus”“motorcycle”“truck”“building”“vegetation”“fence”“road”)，N_pixel表示A_pixel区域中像素的个数，N_L_pixel表示L_pixel区域的像素个数。

最后图像中Final_res＝0的区域为最终的交通信号灯定位结果，将得到的定位结果图像传入第三步。

第三步：训练基于卷积神经网络的交通信号灯细分类模型，训练的方法如下，先准备交通信号灯细分类的数据，在交通场景中扣出的局部图如图6所示分别表示左转箭头红灯和圆形红灯。

在步骤二的基础上，完成了对交通信号区域的定位，根据得到的交通信号的定位再利用卷积神经网络(VGG-16)训练得到的模型进行细分类的判别，VGG-16模型训练的关键参数如下：

test_iter：1000

test_interval：2500

base_lr：0.001

lr_policy：″step″

Claims

1.一种基于混合模型的交通信号灯识别方法，包括输入交通场景图像，其特征在于，还包括以下步骤：

步骤1：标注数据及模型训练；

步骤2：利用“ICNet”获取图像中的语义区域信息，去除掉错检的信号灯位置；所述ICNet的辅助过程为通过判断检测到的信号灯位置信息是否与语义区域分割后的区域有重叠，所述判断公式为

A_pixel＝L_pixel∩S_pixel

其中，A_pixel表示信号灯定位区域和语义分割模型检测到目标的区域的重叠区域，L_pixel表示检测定位模型检测到的信号灯区域，S_pixel表示语义分割模型检测到的区域，N_pixel表示A_pixel区域中像素的个数，N_L_pixel表示L_pixel区域的像素个数，Final_res表示交通信号定位区域；

步骤3：训练基于卷积神经网络的交通信号灯细分类模型；

步骤4：输出检测结果，所述检测结果的输出计算方式为：