CN110210362A

CN110210362A - 一种基于卷积神经网络的交通标志检测方法

Info

Publication number: CN110210362A
Application number: CN201910443948.7A
Authority: CN
Inventors: 王子磊; 刘芳睿
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-09-06

Abstract

本发明涉及一种基于卷积神经网络的交通标志检测方法，包括如下步骤：步骤1：基于卷积神经网络构建分类与定位分离的交通标志检测网络；步骤2：在训练阶段，采用增强迭代训练方法训练所构建的交通标志检测网络，获得交通标志检测模型；步骤3：在使用阶段，采用分离融合预测方法，对输入图像进行目标检测，获得交通标志检测结果。本发明在复杂的交通监控场景中实现快速准确的交通标志检测，对环境的鲁棒性强，并且对小尺寸交通标志具有较高的检测准确率。

Description

一种基于卷积神经网络的交通标志检测方法

技术领域

本发明涉及计算机视觉和智能交通技术领域，更具体地，涉及一种基于卷积神经网络的交通标志检测方法，可应用于复杂交通街景中的交通标志检测。

背景技术

伴随科学技术的飞速发展，智能交通领域各个系统日趋完善，为人们提供了更加便利、安全的城市交通运输系统。交通标志检测作为智能交通系统的一部分，为智能驾驶提供交通标志的预判信息，进而辅助司机驾驶，是智能交通系统的基础之一。目前交通标志的检测算法主要分为传统的图像检测算法、人工特征检测算法、深度学习检测算法三大类。

传统图像检测算法中，一般是基于图像的颜色、纹理、形状等信息，提取图像的特征进行检测识别。由于交通标志常年处于户外，受自然环境的影响导致标志褪色、形变，传统图像检测算法对检测目标颜色、形状的鲁棒性差；再者，对于行驶的车辆，交通标志易受光照、异物遮挡等影响导致检测准确度较低。

人工特征检测算法中，主要有区域选择、特征提取、分类器分类三个步骤。区域选择是利用不同长宽比的滑动窗口框出候选区域，特征提取是针对不同的检测目标人工设计相关特征，分类器分类是利用分类器训练并识别特征，如SVM、Adaboost。由于交通标志的种类繁多，在区域选择阶段，需要对不同形状的交通标志分别设计对应的模板进行匹配，然后根据交通标志具体的类别设计不同的特征，对于多类别的交通标志检测需要对不同类别分别进行特征设计，带来巨大的工作量，因此该类方法在可检测的交通类别上往往存在局限性；同时，人工设计的特征一般不够理想，导致检测准确率较低；基于滑动窗口的区域选择策略对检测目标的针对性较差，时间复杂度高，导致检测算法对交通标志的检测速度较慢。

深度学习算法中，目标检测算法主要分为两大类：两阶段目标检测算法和端到端的单阶段目标检测算法。在两阶段目标检测算法中，主要以R-CNN系列为主，具备较高的检测准确度，但速度难以达到实时检测的要求；在端到端的单阶段检测算法中，主要以SSD、YOLO系列为主，能够达到实时检测的要求，但检测准确度相对较低。特别地，在专利公开号CN201810261070《基于改进的卷积神经网络的交通标志检测方法》中，检测系统首先对图像进行滤波、压缩动态范围、直方图均衡化、图像锐化等预处理，然后将预处理后的图像输入至训练好的卷积网络进行检测识别，该方法的检测效果依赖于图像预处理的质量，对交通标志的外观、颜色的鲁棒性较差。在专利公开号CN201811109269《基于HOG+CNN的交通标志的实时检测方法》中，基于MSER(最大极值稳定区域)算法分割出交通标志的粗提取区域并计算该区域的HOG特征，通过提取的颜色HOG特征训练SVM分类器并对不同颜色的交通标志进行粗分类识别，然后利用卷积神经网络进一步对交通标志进行内容细分类识别。MSER区域提取方法带来大量的背景框，算法检测效率低；同时，大量的背景框使卷积神经网络不能对交通标志进行充分的学习，导致检测准确率低。在专利公告号CN201610693879《路面交通标志检测与识别方法》中，采用基于VGG16的Faster R-CNN卷积神经网络作为检测框架网络，并根据交通标志的类别修改全连接层的参数，得到交通标志的检测网络并进行模型的训练和测试。采用Faster R-CNN的两阶段检测方法导致网络的检测速度较慢，且局限于较大尺寸的交通标志检测。

上述传统图像检测算法、人工特征检测算法和深度学习检测算法，仍存在较大的技术瓶颈。传统图像检测算法易受交通标志的形变、颜色失真和遮挡等影响，导致算法对于复杂的交通监控场景鲁棒性较差；在人工特征检测算法中，人工设计的特征一般较差，导致算法的检测准确率较低；目前已有的基于深度学习的检测算法检测速度较慢，且对小尺寸的交通标志检测效果较差。

发明内容

本发明技术解决问题：为了解决现有交通标志检测算法中鲁棒性差、检测速度慢、检测准确度低等问题，提供一种基于卷积神经网络的交通标志检测方法，在复杂的交通监控场景中实现快速准确的交通标志检测，对环境的鲁棒性强，并且对小尺寸交通标志具有较高的检测准确率。

本发明技术解决方案：首先，本发明使用卷积神经网络模型对交通标志进行检测，能够提取更为丰富的图像信息，且无需人工进行候选区域的提取及相关特征的设计，能够著提升算法的鲁棒性和检测准确率。然后，本发明提出了一种分类与定位分离的检测网络，对检测框做进一步分类，解决了目前深度学习检测方法中分类正确率低的问题，提升了交通标志的检测准确率；采用端到端的目标检测方法，提升了检测速度。最后，本发明对检测网络的anchor进行针对性设计，并采用增强迭代的方法训练得到检测模型，有效解决了样本类别不均衡导致检测准确率较低的问题，同时提升了对小尺寸交通标志的检测准确率。

本发明具体包括如下三个步骤：

(1)基于卷积神经网络构建分类与定位分离的交通标志检测网络；

(2)在训练阶段，采用增强迭代训练方法训练所构建的交通标志检测网络，获得交通标志检测模型；

(3)在使用阶段，采用分离融合预测方法，对输入图像进行目标检测，获得交通标志检测结果。

所述步骤(1)中的分类与定位分离的交通标志检测网络，其特征在于，它由基础检测网络和目标分类网络两个分支构成，其中，基础检测网络由特征提取模块和目标检测模块构成，负责在输入图像中定位出交通标志的空间位置，即获得定位结果，目标分类网络由特征提取模块和区域分类模块构成，负责对检测出的交通标志进行分类，即获得分类结果，定位结果与分类结果一起构成最终的检测结果。

所述的基础检测网络和目标分类网络，其特征在于，两者共用基于卷积神经网络的特征提取模块，另外，基础检测网络的定位结果映射到特征提取模块的最后一个特征层上构成目标区域，作为目标分类网络中区域分类模块的输入。

所述步骤(2)中的增强迭代训练方法，包括如下步骤：

(a)采用生成式数据增强方法对训练数据进行数据增强，以处理交通标志样本数据的不均衡问题；

(b)对训练用的高清图像分块为更小的裁剪图像,以处理交通标志图像的小尺寸问题；

(c)针对交通标志形状进行基础检测网络anchor设计，以提高网络对特定交通标志的检测准确度；

(d)采用迭代训练方法对基础检测网络和目标分类网络进行训练，收敛后得到完整的交通标志检测模型。

进一步地，所述生成式数据增强方法是指，将交通标志图像和背景图像进行合成，生成大量新图像，以增加较少类别的图像数，进而均衡不同类别交通标志样本数。具体地，首先根据训练集中的样本分布计算不同交通标志类别需要增强的样本数；然后对每一个待增益类别，将对应的交通标志模板图像进行随机数据增强，如亮度调整、对比度调整、图像翻转、图像旋转、透视变换、添加噪声等；最后将处理后的交通标志模板图像随机添加到不含交通标志对象的高清背景图像上，从而生成该类别的合成图像数据。

所述基础检测网络anchor设计是指，采用k-means聚类方法，对训练图像中交通标志的长宽比例和尺寸大小进行聚类，据此设计检测网络的anchor尺寸、比例等，以针对性地提高交通标志的检测效果。

所述的迭代训练方法，是指将分块后的裁剪图像输入到分类与定位分离的交通标志检测网络，按照交替迭代的方式训练网络模型，具体包括如下过程：

(a)首先采用梯度下降算法端到端训练基础检测网络(包括特征提取模块和目标检测模块)，然后利用训练好的基础检测网络计算训练图像上的交通标志定位结果；

(b)将交通标志定位结果映射至对应图像在特征提取模块的最后特征层上，形成ROI区域；

(c)根据输入图像和ROI区域，端到端训练目标分类网络(包括特征提取模块和区域分类模块)，此时不训练基础检测网络的目标检测模块；

(d)固定特征提取模块，端到端训练基础检测网络的目标检测模块，并利用训练好的基础检测网络计算训练图像上的交通标志定位结果；

(e)重复(b)-(d)步骤进行迭代训练，直至基础检测网络的定位损失(如：SmoothL1Loss)和目标分类网络的分类损失(如：Softmax Loss)均稳定后或者迭代次数超过设定阈值后，最终获得分类与定位分离的交通标志检测模型。

所述步骤(3)中的分离融合预测方法，包括如下流程：

(a)首先对输入的高清图像进行分块得到多个裁剪图像，然后将裁剪图像依次输入到分类与定位分离的交通标志检测模型中，得到分块检测结果，每项结果由基础检测网络的定位结果和目标分类网络的分类结果构成；

(b)基于图像分块处理时的裁剪坐标对分块检测结果进行坐标映射，得到检测结果在原始输入图像中的位置坐标，采用非极大值抑制(Non-Maximum Suppression，NMS)方法将原始图像上的检测结果进行融合，去除冗余，获得原始高清图像(即2048x2048分辨率以上)的交通标志检测结果。

本发明与现有技术相比优点在于：

(1)本发明对复杂场景下的交通标志检测具有以下优势：首先，本发明设计了一种分类与定位分离的交通标志检测网络，通过对检测框进一步分类，解决了目前交通标志检测中分类正确率偏低的问题，进而能够显著提高交通标志的检测准确率；然后，本发明对网络的anchor进行针对性设计，有效提升了对特定交通标志的检测准确率；最后，在模型训练阶段，本发明对交通图像进行生成式数据增强和裁剪，有效缓解交通标志类别不均衡的问题，进一步提升了网络对小尺寸交通标志的检测准确率。

(2)本发明能够提取交通图像丰富抽象的数据特征，提高复杂环境中交通标志检测的鲁棒性；构造了一种分类与定位分离的检测网络，通过对检测框的进一步分类，解决了已有交通标志检测方法中分类正确率低的问题，进而显著提升交通标志的检测准确率；对检测网络的anchor进行针对性设计，提升了对特定交通标志的检测准确率；采用增强迭代的方法对网络进行训练，缓解了交通标志样本类别不均衡的问题，并提升网络对小尺寸交通标志的检测准确率。本发明可应用于复杂监控场景中的交通标志检测，作为智能交通系统的一部分。

附图说明

图1为本发明的分类与定位分离的交通标志检测网络；

图2为本发明的交通标志检测模型的训练和使用流程图；

图3TT100K数据库交通标志的尺寸分布示意图；

图4交通标志增益类别的标准模板示意图。

具体实施方式

下面结合说明书附图说明本发明的具体实施方式。

本发明提供了一种基于卷积神经网络的交通标志检测方法，包括构建分类与定位分离的交通标志检测网络、模型的训练和模型的使用三个方面。图1为所构建的分类与定位分离的检测网络，由基础检测网络和目标分类网络构成，分别对交通标志进行检测和识别。图2为交通标志检测方法中模型的训练和使用流程示意图。在模型的训练阶段，首先对高清交通图像进行生成式数据增强，并进行滑动裁剪得到分块图像，以此作为模型的训练数据；然后采用自适应矩估计法对交通标志检测网络进行迭代的训练，得到交通标志的检测模型。在使用阶段，首先按照训练数据的裁剪方法，对输入图像进行滑动裁剪得到分块图像，以此作为交通标志检测模型的输入；然后模型对输入图像进行预测，得到分块图像上交通标志的检测结果；最后将分块图像上的检测结果映射至原高清图像，并对检测框进行融合，得到高清图像上的交通标志检测结果。

作为示例，本实施采用来自于清华大学与腾讯公司合作的交通图像数据库(Tsinghua-Tencent 100K，TT100K)。可由论文《Traffic-sign detection andclassification in the wild》中提供的链接下载获取。TT100K数据库包含十万张2048x2048像素的高清街景图，其中只有一万张图像包含了待检测的类别，构成了模型的训练和测试数据集(训练数据为6105张，测试数据为3071张)，涵盖了30000个交通标志目标，交通标志的尺寸占图比在0.8％-8％之间。

构建分类与定位分离的交通标志检测网络

如图1所示，所述的分类与定位分离的交通标志测网络由基础检测网络与目标分类网络两个分支构成，其中基础检测网络由特征提取模块与目标检测模块构成，负责在输入图像中定位出交通标志的空间位置；目标分类网络由特征提取模块和区域分类模块构成，负责对检测出的交通标志进行分类，定位结果与分类结果一起构成交通标志的检测结果。接下来将对各网络分支及其相应模块展开详细的介绍。

基础检测网络采用基于anchor机制的端到端检测网络，由特征提取模块和目标检测模块构成。在特征提取模块中，采用深层的卷积神经网络对交通图像的特征进行提取，以提取图像丰富的特征；在目标检测模块中，首先对特征提取模块中不同尺度的特征层采用自底向下的方式进行融合，得到不同尺度上融合的特征层。具体地，对高层特征采用最近邻法进行两倍的上采样并与上一层特征相加；然后在融合后的特征层上添加检测和分类分支，进行交通标志的检测和识别，其中检测和分类分支由相同数量的卷积层相连接构成，分别对交通标志进行坐标回归和类别分类；最后采用非极大值抑制法对不同尺度特征层上检测到的交通标志进行融合，得到基础检测网络输出的定位结果。

作为示例，采用Retinanet作为基础检测网络的检测框架，并采用带有残差学习模块的ResNet-152作为网络的特征提取模块。

特别地，本发明对基础检测网络的参数进行调整和替换，其中包括anchor的针对性设计和组归一化的使用。在anchor的针对性设计中，采用k-means聚类方法，对分块图像上交通标志的长宽比例和尺寸大小进行聚类，得到交通标志比例和尺寸的分布簇群得，并根据实验进行微调，使得检测图像中每个交通标志都至少被一个anchor所检测到。作为示例，首先对TT100K数据库中交通标志的尺寸分布情况进行统计，图3是TT1OOK数据库中交通标志在不同尺寸上的数量分布情况，可知交通标志的大小主要分布在16-64像素的范围，在大尺寸上分布较少。因此对上述交通标志的尺寸进行聚类，将anchor的尺寸大小设置为16x16、32x 32、64x 64、128x 128和256x 256，长宽比例设置为0.8、1和1.25，尺度缩放比例设置为0.7、1和1.42。进一步地，将检测网络中的批归一化方法替换为组归一化方法，对特征通道进行组内的归一化，以此提升网络的检测速度。

目标分类网络包括了特征提取模块和区域分类模块。具体地，目标分类网络与基础检测网络共用特征提取模块，基础检测网络输出的定位结果映射至特征提取模块的最后一层特征图上构成目标区域，作为区域分类模块的输入。区域分类模块由一层ROI Pooling层与一层全连接层相连接构成，首先ROI Pooling层对输入的目标区域进行池化得到nxn大小的特征，并对所有池化后的特征进行组合，以此作为全连接层的输入；然后根据交通标志的检测类别设置全连接层的输出神经元数目，进而对输入的特征进行分类，得到交通标志的分类结果。分类结果与基础检测网络输出的定位结果一起构成交通标志最终的检测结果。

作为示例，对ROI Pooling层采用最大池化的方式，并且池化后的特征大小设置为7x7。同时，根据TT100K中交通标志的检测类别数量，将全连接层的输出神经元数目设置为43。

模型的训练

在对分类与定位分离的检测网络进行训练时，包括训练数据的生成式数据增强、高清图像的分块预处理、检测模型的训练三个步骤，接下来将展开详细的介绍。

在生成式数据增强方法中，首先对训练集中类别数量较少的交通标志的标准模板按照一定的概率进行随机数据增强，然后将增强后的标准模板添加至不含交通标志对象的背景图像，得到该类别的合成图像，与原训练集一起作为模型的训练数据，其中每张背景图像添加两类不同的交通标志模板，添加时控制模板之间的重叠率小于0.2。作为示例，对TT100K数据库中类别为“pl20”，“p19”，“w32”，“p6”，“p10”，“w13”，“ph5”，“w55”，“p12”，“pm30”的标准模板(如图4所示)增益至1000张，采用数据增强的方法包括：调整图像亮度与对比度、翻转、旋转、添加高斯或椒盐噪声，因此得到10000张增益后的标准模板；然后对每张背景图赋予两类交通标志，因此总共生成5000张新的交通图像。

在高清图像的分块预处理中，首先对增强后的训练集中高清图像按照固定像素的滑动步长，MxN像素的裁剪窗口，在X和Y方向进行滑动裁剪。每张高清图像通过滑动裁剪的方式生成分块子图，并根据裁剪时的位置坐标信息，将原高清图像中的交通标志位置信息换算至分块图像中的位置信息，同时记录在高清图像上滑动裁剪时的坐标。作为示例，将滑动步长设为256像素，裁剪窗口大小设为512x512像素，因此每张2048x2048像素的高清图像裁剪得到49张512x512像素的分块图像。表1是原始TT100K数据(TT100K)和生成式增强并裁剪得到的数据(TT100K_crop_aug)在训练和测试集上的分布情况。

表1

在训练阶段，按照交替迭代的方式进行模型的训练，采用自适应矩估计法计算网络的损失函数并反向传播进行参数的更新，直至损失函数值稳定或者迭代次数超过规定的阈值，得到收敛后的检测模型。具体的训练流程如下：

1)首先用ImageNet预训练模型对基础检测网络进行初始化，然后在交通图像的训练集上采用自适应矩估计法训练基础检测网络，这其中包括特征提取模块和目标检测模块的训练及其参数更新，最后利用训练好的基础检测模型计算训练图像上的交通标志定位结果；

2)将交通标志定位结果映射至对应图像在特征提取模块的最后一层特征层上，形成ROI特征区域，即构成目标分类网络的输入数据；

3)首先采用ImageNet预训练模型对目标分类网络进行初始化，然后根据输入图像和ROI区域，采用自适应矩估计法端到端地训练目标分类网络，并反向传播更新特征提取模块和区域分类模块的网络参数。此时不训练基础检测网络的目标检测模块；

4)固定特征提取模块，根据输入图像采用自适应矩估计法端到端地训练基础检测网络的目标检测模块，并利用训练好的基础检测网络计算训练图像上的交通标志定位结果；

5)重复(2)-(4)步骤进行迭代训练，直至基础检测网络的定位损失函数(SmoothL1Loss)值降低至0.050以下，目标分类网络的分类损失函数(Soft-max Loss)值降低至0.002以下，获得分类与定位分离的检测模型。

模型的使用

如图2所示，在使用阶段，采用分离融合的预测方法，对输入图像进行交通标志检测。具体地，首先对输入的2048x2048高清图像按照与训练集相同的参数设置进行滑动裁剪，得到分块图像；然后将分块图像依次输入到分类与定位分离的检测模型中进行交通标志的检测。其中基础检测网络提取图像的特征并计算输出交通标志的定位结果，将定位结果映射至目标分类网络中的特征提取模块并进行最大池化，以此作为区域分类模块的输入；随后区域分类模块计算输出交通标志的分类结果，定位结果与分类结果一起构成最终交通标志的检测结果；最后根据高清图像分块处理时在图像上的裁剪坐标(xmin，ymin，xmax，ymax)对分块图像上检测结果的左上角和右下角坐标进行换算，得到高清图像上的检测框坐标，并采用非极大值抑制方法去除冗余的检测框，获得最终的交通标志检测结果。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于卷积神经网络的交通标志检测方法，其特征在于，包括如下步骤：

步骤1：基于卷积神经网络构建分类与定位分离的交通标志检测网络；所述分类与定位分离的交通标志检测网络由基础检测网络和目标分类网络两个分支构成，其中，基础检测网络由特征提取模块和目标检测模块构成，负责在输入图像中定位出交通标志的空间位置，即获得定位结果；目标分类网络由特征提取模块和区域分类模块构成，负责对检测出的交通标志进行分类，即获得分类结果，定位结果与分类结果一起构成最终的检测结果；

步骤2：在训练阶段，采用增强迭代训练方法训练所构建的交通标志检测网络，获得交通标志检测模型；

步骤3：在使用阶段，采用分离融合预测方法，对输入图像进行目标检测，获得交通标志检测结果。

2.根据权利要求1所述的基于卷积神经网络的交通标志检测方法，其特征在于：所述基础检测网络和目标分类网络两者共用基于卷积神经网络的特征提取模块，另外，基础检测网络的定位结果映射到特征提取模块的最后一个特征层上构成目标区域，作为目标分类网络中区域分类模块的输入。

3.根据权利要求1所述的基于卷积神经网络的交通标志检测方法，其特征在于：所述步骤2中，增强迭代训练方法包括如下步骤：

(21)采用生成式数据增强方法对训练数据进行数据增强，以处理交通标志样本数据的不均衡问题；

(22)对训练用的高清图像分块为更小的裁剪图像，以处理交通标志图像的小尺寸问题；

(23)针对交通标志形状进行基础检测网络anchor设计，以提高网络对特定交通标志的检测准确度；

(24)采用迭代训练方法对基础检测网络和目标分类网络进行训练，收敛后得到完整的交通标志检测模型。

4.根据权利要求3所述的基于卷积神经网络的交通标志检测方法，其特征在于：所述生成式数据增强方法是指，将交通标志图像和背景图像进行合成，生成大量新图像，以增加较少类别的图像数，进而均衡不同类别交通标志样本数；具体实现为，首先根据训练集中的样本分布计算不同交通标志类别需要增强的样本数；然后对每一个待增益类别，将对应的交通标志模板图像进行随机数据增强，包括亮度调整、对比度调整、图像翻转、图像旋转、透视变换、添加噪声；最后将处理后的交通标志模板图像随机添加到不含交通标志对象的高清背景图像，即2048x2048分辨率以上，从而生成该类别的合成图像数据。

5.根据权利要求3所述的基于卷积神经网络的交通标志检测方法，其特征在于：所述步骤(23)中，基础检测网络anchor设计是指，采用k-means聚类方法，对训练图像中交通标志的长宽比例和尺寸大小进行聚类，据此设计检测网络的anchor尺寸和比例，以针对性地提高交通标志的检测效果。

6.根据权利要求3所述的基于卷积神经网络的交通标志检测方法，其特征在于：所述步骤(24)中迭代训练方法，是指将分块后的裁剪图像输入到分类与定位分离的交通标志检测网络，按照交替迭代的方式训练网络模型，具体包括如下过程：

(a)首先采用梯度下降算法端到端训练基础检测网络，然后利用训练好的基础检测网络计算训练图像上的交通标志定位结果；

(c)根据输入图像和ROI区域，端到端训练目标分类网络，此时不训练基础检测网络的目标检测模块；

(e)重复(b)-(d)步骤进行迭代训练，直至基础检测网络的定位损失和目标分类网络的分类损失均稳定后或者迭代次数超过设定阈值后，最终获得分类与定位分离的交通标志检测模型。

7.根据权利要求1所述的基于卷积神经网络的交通标志检测方法，其特征在于：所述步骤(3)中的分离融合预测方法，包括如下步骤：

(31)首先对输入的高清图像进行分块得到多个裁剪图像，然后将裁剪图像依次输入到分类与定位分离的交通标志检测模型中，得到分块检测结果，每项结果由基础检测网络的定位结果和目标分类网络的分类结果构成；

(32)基于图像分块处理时的裁剪坐标对分块检测结果进行坐标映射，得到检测结果在原始输入图像中的位置坐标，采用非极大值抑制方法将原始图像上的检测结果进行融合，去除冗余，获得原始高清图像的交通标志检测结果。