CN114550134A

CN114550134A - 基于深度学习的交通标志检测与识别方法

Info

Publication number: CN114550134A
Application number: CN202210143600.8A
Authority: CN
Inventors: 袁丽英; 于文华
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-27

Abstract

本发明公开了基于深度学习的交通标志检测与识别方法，涉及交通标志技术领域；它的方法如下：步骤一：数据增强方法；步骤二：YOLOv4算法；步骤三：YOLOv4算法边界框不确定性预测；步骤四：基于K‑means++聚类算法anchor参数优化方法；步骤五：交通标志检测与识别的流程；本发明有效减少特征提取过程中产生冗余的可能性，能够得到交通标志牌检测与识别模型；提高了对交通信号灯数据的检测精度以及预测边界框可靠性。

Description

基于深度学习的交通标志检测与识别方法

技术领域

本发明属于交通标志技术领域，具体涉及基于深度学习的交通标志检测与识别方法。

背景技术

交通标志识别的过程中影响正确识别的因素较多，主要有以下几个方面：(1)交通标志图像是通过车载摄像头进行采集，采集的是实时路况条件下的交通标志图像，因此会受到尺寸大小变化、各种环境条件、交通标志露天环境的人为涂抹、光照褪色等因素影响；(2)车辆行驶过程中的采集会受到运动模糊、采集角度的不断变化造成拍摄倾斜形变和图片拍摄不完整等影响；(3)雨雪雾等恶劣天气以及树木等障碍物遮挡的影响。

目前交通标志识别是在前一阶段的检测基础上，对标注出来的目标判断其所属的具体类型，检测是对目标类型进行不分类或是粗分类，而识别是完成目标的细分类任务。常用的有模板匹配方法、机器学习方法、深度学习方法。

(1)基于模板匹配的识别方法。模板匹配是图像处理中常用的方法，既可用于图像的检测，也适用于图像的识别。交通标志有固定的类别和对应的特征，模板匹配法利用滑动窗口，衡量目标图像与模板库中信息之间的匹配度，根据匹配度从而判断类别。把待识别的图像输入系统中，将其和标准图像比较，设置识别相似度的阈值，根据相似度和阈值的关系来判断类别，若前者大于后者，则可以判定此图像为该类交通标志。也可以利用ASIFT算子，使用模板匹配方法进行标志识别。模板匹配的方法易操作易实现，但是在实际场景中交通标志处于复杂的环境下，有时会出现破损或者不完整的情况，此时模板匹配的方法则非常局限，难以达到理想的识别准确率和实时性。

(2)基于机器学习的识别方法。机器学习可以减弱模板匹配算法的弊端，将可调节的ULBP特征和ROI区域部分HOG特征结合，再利用SVM分类器进行线性判断，机器学习方法通过对图像进行特征提取，并把这些特征输入分类器进行图像识别。常用的算法有决策树、随机森林等。例如利用HOG和多层感知器构成分类模型进行识别，取得较好的实时性能。还可以使用HOG+SVM结合进行目标识别。另外利用改进的LBP进行局部特征提取，采用离散小波变换的低频系数作为全局信息，再将两种特征级联进行识别。机器学习算法中特征提取作为重点，其通常由人工手动设计，这导致算法识别精确度不够高，且计算数据量大，不能满足交通标志识别的实时性需要。

(3)基于深度学习的识别方法。深度学习通过对图像提取特征，然后模型自主训练学习产生所需要的特征信息，再在不断的训练过程中自我修正。较为经典的算法有：VGG、GoogLeNet、ResNet等。在SSD网络的基础上引入距离因素，达到自适应负采样的目的，在迭代后期通过相近的正负样本来提高识别算法的精度；利用Faster R-CNN对交通标志进行检测，并使用两种CNN网络实现交通标志的识别。在YOLOv3网络的基础上改进FPN，用ADD融合方法取代了concat提高了准确率。通过构建一种新的高效节能的深卷积神经网络结构用于交通标志识别，其中每个卷积层包含不到50个特征，这使得网络即使不用GPU也能得到快速训练。在VGG-16网络基础上删除一些冗余的卷积层，大大减少了参数的数量，进一步优化了整体架构，在不增加参数数量的情况下，在网络中加入BN层和GAP层，提高了网络的精度。在深度学习方法中，一般用于训练的数据越充足、越丰富，得到的模型识别效果就越好。目前基于深度学习的识别算法已成为图像识别领域使用的主流算法，并且在不断地改进、优化，衍生出更加高效的算法；但是还是存在不均衡以及速度慢的现象。

发明内容

为解决背景技术中的问题；本发明的目的在于提供基于深度学习的交通标志检测与识别方法。

本发明的基于深度学习的交通标志检测与识别方法，它的方法如下：

步骤一：数据增强方法：

数据增强是一种数据扩充方法，分为同类增强即对原样本进行简单运算和混类增强即以原样本为基础生成新的虚拟样本两种方式；

(1.1)、Mixup：

Mixup是应用在计算机视觉领域对图像进行混类增强处理的数据增强算法；

(1.2)、Cutout：

Cuout数据增强方法是卷积神经网络的一种简单正则化技术，随机选择出一个固定大小的正方形的区域，使用0对正方形区域进行填充，产生全新数据；通过遮挡现有数据中的一部分，模拟出目标被遮挡的情况，进而提高模型的泛化能力；

(1.3)、Mosaic：

Mosaic随机筛选出四张图片并对其进行剪裁，将剪裁后的四张图片进行色域处理后，将图片从左上开始逆时针放入新图片中，完成拼接形成一张新图片；

步骤二：YOLOv4算法：

(2.1)、YOLOv4网络结构：

YOLOv4网络结构由输入端，Backbone，Neck和Prediction四部分组成，输入端为416*416*3大小的图片；Backbone主干网络为CSPDarknet53网络；在Neck部分，在Backbone和最后输出层之间插入SPP模块和PANet模块；在Prediction部分，先验框与YOLOv3的相同，训练损失函数为CIOU_Loss；

(2.2)、YOLOv4网络结构：

YOLOv4算法将网络输入划分为S*S个网格单元，每个网格单元预测B个边界框、边界框置信度和C个类别概率；若某类目标落入划分的网格单元中，则对该目标进行进一步检测。每个网格单元计算出的B个边界框，用t_x、t_y、t_w、t_h和置信度五个参数来表示；t_x和t_y代表边界框中心点相对于网格单元的坐标，t_w和t_h为预测边界框的宽度和高度，置信度表示该预测边界框中含有某类目标的精确程度；将预测边界框的置信度与设置的阈值进行比较，并对类别置信度高于阈值的边界框使用非极大抑制算法获得最终的预测边界框；预测到的边界框包括t_x、t_y、t_w、t_h四个参数，YOLOv4算法对上述参数进行归一化处理；

(2.3)、CSPDarknet-53特征提取网络：

CSPDarknet-53特征提取网络是以Darknet-53为基础，加入跨阶段特征融合策略优化而来；在拆分与融合的过程中，梯度流被截断，因此不会重复利用梯度信息，最大限度减少冗余信息的产生；主干特征提取网络Darknet53是通过对待检测输入图片特征的集合进行下采样，以此获得更高的语义信息；

(2.4)、Neck网络：

Neck部分主要由SPP和PANet两个模块组成；

步骤三：YOLOv4算法边界框不确定性预测：

在YOLOv4算法中加入边界框不确定性预测机制，预测每个坐标信息的不确定性，预计在置信度的计算中加入了不确定性计算，分别使用t_x、t_y、t_w、t_h的单个高斯模型对预测框的不确定度进行建模，采用的高斯模型为：

p(y|x)＝N(y；μ(x)，∑(x)) (7)

其中，(x)代表均值函数，∑(x)代表均值函数；

步骤四：基于K-means++聚类算法anchor参数优化方法：

K-means++算法是经典的聚类算法，它使用各个样本间的距离作为评判标准，进而实现对样本的聚类；在数据集合中，样本的距离越近则被划分到一个簇心上的概率越大；在对交通信号灯数据进行聚类分析中借鉴K-means++算法思想，使用预测目标框和样本标签目标框的交并比代替K-means++聚类算法的欧式距离作为函数目标参数，目标函数D的计算公式为：

其中，box表示样本标签的目标框，cen为聚类中心的目标框，n为样本总数，k为样本目标类别数；

步骤五：交通标志检测与识别的流程：

使用改进后的YOLOv4算法完成对交通标志牌的检测与识别，具体的流程安排如下：

(5.1)、使用多种数据增强方法对训练集中的交通标志数据进行数据扩充与增强，将增强后的数据进行缩放处理至416*416后，作为整个训练网络的输入；

(5.2)、将处理后的数据输入至CSPDarknet-53特征提取网络，对交通标志数据进行特征提取；

(5.3)、将提取到的特征输入到改进后的YOLOv4网络中，进行训练，得到交通标志牌检测与识别模型；

(5.4)、将测试集图像输入至改进后的同一网络中，调用训练得到的交通标志检测与识别模型对测试集中图像进行检测与识别，并输出检测与识别结果。

作为优选，所述Mixup的原理如下：

λ～Beat(α，β)

mixed_batch_x＝λ*batch_x1+(1-λ)*batch_x2

mixed_batch_y＝λ*batch_y1+(1-λ)*batch_y2 (1)

其中，batch_x1是样本1，batch_y1是样本1对应的标签；batch_x2是样本2，batch_y2是样本2对应的标签，使用参数α，β的贝塔分布计算出新样本的混合系数；Beta为贝塔分布，mixed_batch_x是混合后的样本，mixed_batch_y是混合后的样本对应的标签。

作为优选，所述SPP模块主要是利用K＝{1×1，5×5，9×9，13×13}不同池化核大小的最大池化方法，对输入进来的特征层进行池化后堆叠操作，最大池化采用padding操作，移动步长stride＝1，保证池化后的特征图尺度不变。

作为优选，所述PANet结构由FPN和PAN两部分组成的，FPN提取到的低分辨率特征信息通过上采样的方法得到预测的特征图；PAN是自底向上的网络结构，将FPN得到的特征图进一步通过下采样方法进行传递融合，得到预测的特征图，缩短了顶层与底层特征之间的信息路径，两相结合从不同的主干层对不同的检测层进行特征聚合，进一步加强了特征的提取。

与现有技术相比，本发明的有益效果为：

一、有效减少特征提取过程中产生冗余的可能性，能够得到交通标志牌检测与识别模型。

二、提高了对交通信号灯数据的检测精度以及预测边界框可靠性。

附图说明

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1为本发明中YOLOv4算法网络结构图；

图2为本发明中预测边界框归一化处理示意图；

图3为本发明中主干网络Darknet53结构图；

图4为本发明中SPP网络结构图；

图5为本发明中PANet结构图；

图6为本发明的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

如图1所示，本具体实施方式采用以下技术方案：

一、数据增强方法：

在对训练数据进行训练时，训练样本的多样性可直接影响到训练模型的检测与识别结果，对样本数据进行扩充与增强，可减少训练过程中由于数据不足或是数据样本中各类别数量差异较大导致的模型精度较差的问题，对数据集进行数据增强，可平衡各类别样本之间的数量差异。数据增强是一种数据扩充方法，可分为同类增强(如：翻转、旋转等)即对原样本进行简单运算和混类增强即以原样本为基础生成新的虚拟样本两种方式。

(1)Mixup

Mixup是应用在计算机视觉领域对图像进行混类增强处理的数据增强算法，该算法将不同类别的图像混合成一幅全新的图像，从而实现扩充训练数据集的目的，其对样本泛化能力有着明显的提升。原理如下：

λ～Beat(α，β)

mixed_batch_x＝λ*batch_x1+(1-λ)*batch_x2

mixed_batch_y＝λ*batch_y1+(1-λ)*batch_y2 (1)

(2)Cutout

Cuout数据增强方法是卷积神经网络的一种简单正则化技术，其出发点类似于随机擦除。随机选择出一个固定大小的正方形的区域，使用0对正方形区域进行填充，产生全新数据。通过遮挡现有数据中的一部分，可模拟出目标被遮挡的情况，进而提高模型的泛化能力。

(3)Mosaic

Mosaic随机筛选出四张图片并对其进行剪裁，将剪裁后的四张图片进行色域处理后，将图片从左上开始逆时针放入新图片中，完成拼接形成一张新图片。Mosaic数据增强丰富检测物体的背景，并可在一定程度上解决样本数据不均衡的问题。

二、YOLOv4算法：

2.1、YOLOv4网络结构

YOLOv4网络结构由输入端，Backbone，Neck和Prediction四部分组成，其结构如图1所示。输入端为416*416*3大小的图片；Backbone主干网络为CSPDarknet53网络；在Neck部分，在Backbone和最后输出层之间插入SPP模块和PANet模块；在Prediction部分，先验框与YOLOv3的相同，训练损失函数为CIOU_Loss。

根据特征金字塔(feature pyramid networks)的多尺度变换思想，YOLOv4算法通过3个检测层进行多尺度训练，提升了小目标的检测精度。每个检测层都对目标的边界框坐标位置、目标类别和置信度进行了预测，每个样本经过检测层处理后，最终输出边界框的4个参数，1个目标置信度和目标预测的类别个数，所以最后输出的特征图结构为：

N×N×[3×(5+num_classes)] (2)

其中，N表示各个检测层中的特征图大小，num_classes表示目标检测类的个数。

2.2、YOLOv4网络结构

YOLOv4算法将网络输入划分为S*S个网格单元，每个网格单元预测B个边界框、边界框置信度和C个类别概率。若某类目标落入划分的网格单元中，则对该目标进行进一步检测。每个网格单元计算出的B个边界框，用t_x、t_y、t_w、t_h和置信度五个参数来表示。t_x和t_y代表边界框中心点相对于网格单元的坐标，t_w和t_h为预测边界框的宽度和高度，置信度表示该预测边界框中含有某类目标的精确程度。将预测边界框的置信度与设置的阈值进行比较，并对类别置信度高于阈值的边界框使用非极大抑制算法获得最终的预测边界框。

预测到的边界框包括t_x、t_y、t_w、t_h四个参数，为减少奇异样本对网络带来的影响，YOLOv4算法对上述参数进行归一化处理。如图2所示，网络输入为416×416大小的图像，将输入图像划分为19×19个网格单元，整幅图像的宽高分别为width_img和heigth_img，虚线处为预测到边界框，其中心点坐标为(x₀，y₀)，中心点所在网格位置为(row，col)，边界框的宽度和高度分别为width_img和heigth_img，归一化方式为：

(1)边界框高归一化：

(2)中心点坐标归一化：

置信度是用来表示预测边界框中是否存在某待检测目标，以及该目标存在时所在位置的准确性，其准确性表示为预测边界框和真实边界框的交并比，其计算公式如下：

其中，confidence为边界框的置信度，Pr(object)为所在网格中存在待检测目标的概率。

2.3、CSPDarknet-53特征提取网络：

CSPDarknet-53特征提取网络是以Darknet-53为基础，加入跨阶段特征融合策略优化而来。为防止在不同层得到重复的梯度信息，跨阶段引入拆分与融合思想，使梯度组合的差异最大化。在拆分与融合的过程中，梯度流被截断，因此不会重复利用梯度信息，最大限度减少冗余信息的产生。将跨阶段特征融合策略应用于Darknet-53的局部网络，可减少特征提取网络的计算量，提高网络的推理速度和准确性。主干特征提取网络Darknet53的主要目的是通过对待检测输入图片特征的集合进行下采样，以此获得更高的语义信息，其网络结构如图3所示。为了能够获得更加丰富的特征信息，YOLOv4算法的特征提取网络CSPDarknet53一共有52个卷积层和1个全连接层，除了最后的全连接层外，整个网络都是由1×1和3×3的卷积构成。

2.4、Neck网络：

Neck部分主要由SPP和PANet两个模块组成，主要目的是加强对特征提取网络的分解，是整个网络非常关键的一部分。

SPP模块主要是利用K＝{1×1,5×5,9×9,13×13}不同池化核大小的最大池化方法，对输入进来的特征层进行池化后堆叠操作，如图4所示。最大池化采用padding操作，移动步长stride＝1，保证池化后的特征图尺度不变。

PANet结构由FPN(feature pyramid networks)和PAN(Path AggregationNetwork)两部分组成的，如图5所示。FPN提取到的低分辨率特征信息通过上采样的方法得到预测的特征图；PAN是自底向上的网络结构，将FPN得到的特征图进一步通过下采样方法进行传递融合，得到预测的特征图，缩短了顶层与底层特征之间的信息路径，两相结合可以从不同的主干层对不同的检测层进行特征聚合，进一步加强了特征的提取。

三、YOLOv4算法边界框不确定性预测：

针对线性原始的YOLOv4算法边界框预测只预测了坐标信息，对于边界框的准确性未作处理，无法从结果中判断预测边框坐标的准确性；因此，在YOLOv4算法中加入边界框不确定性预测机制，预测每个坐标信息的不确定性，提升预测边界框准确性，进一步加强YOLOv4算法对交通信号灯的检测能力；预计在置信度的计算中加入了不确定性计算，分别使用t_x、t_y、t_w、t_h的单个高斯模型对预测框的不确定度进行建模，采用的高斯模型为：

p(y|x)＝N(y；μ(x)，∑(x)) (7)

其中，(x)代表均值函数，∑(x)代表均值函数。

四、基于K-means++聚类算法anchor参数优化方法：

K-means++算法是经典的聚类算法，它使用各个样本间的距离作为评判标准，进而实现对样本的聚类。在数据集合中，样本的距离越近则被划分到一个簇心上的概率越大。其初始簇心和聚类类别k的选取至关重要，对算法的聚类效果有着最直接的影响。由于K-means算法在选取初始聚类中心时是随机生成的，所以每次聚类计算得到的结果有可能有较大差距，并非最优结果，进而影响网络的训练效果及检测精度，不能直接用于替换网络默认的anchor参数。因此K-means++算法在初始聚类中心的选择上进行改进，降低了初始聚类中心选择的随机性。

因此在对交通信号灯数据进行聚类分析中借鉴K-means++算法思想，使用预测目标框和样本标签目标框的交并比代替K-means++聚类算法的欧式距离作为函数目标参数，以降低样本标签目标框本身大小带来的误差问题，目标函数D的计算公式为：

其中，box表示样本标签的目标框，cen为聚类中心的目标框，n为样本总数，k为样本目标类别数。

五、交通标志检测与识别的流程：

(1)使用多种数据增强方法对训练集中的交通标志数据进行数据扩充与增强，将增强后的数据进行缩放处理至416*416后，作为整个训练网络的输入。

(2)将处理后的数据输入至CSPDarknet-53特征提取网络，对交通标志数据进行特征提取，由于加入了跨阶段特征融合策略，有效减少特征提取过程中产生冗余的可能性。

(3)将提取到的特征输入到改进后的YOLOv4网络中，进行训练，得到交通标志牌检测与识别模型。

(4)将测试集图像输入至改进后的同一网络中，调用训练得到的交通标志检测与识别模型对测试集中图像进行检测与识别，并输出检测与识别结果。

本具体实施方式针对实际场景中交通标志牌的背景复杂多变、且交通标志数据集中各类标志牌样本数量严重不均衡的问题，深入研究多种数据增强方法，对所用交通标志数据集进行扩充与增强。

本具体实施方式提出适用于YOLOv4算法的浅层特征增强方法，将浅层特征与上采样处理后的深层特征进行融合，实现浅层特征增强，提升YOLOv4算法对小目标的定位及颜色分辨能力。

本具体实施方式在预测边框的过程中，可能会出现无法预测出准确的边界框，为此研究YOLOv4算法边界框左边预测方法，使用高斯模型对预测边界框的坐标进行优化，计算预测边界框坐标的不确定性，提高预测边界框可靠性，进一步提升YOLOv4算法对小目标的检测性能。

本具体实施方式研究并对比anchor参数的计算方法，使用K-means++算法代替K-means算法对交通信号灯数据聚类分析。选择确定的anchor参数及anchor参数的个数，更新YOLOv4算法网络中的anchor参数，提升YOLOv4算法对交通信号灯数据的检测精度。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于深度学习的交通标志检测与识别方法，其特征在于：它的方法如下：

步骤一：数据增强方法：

(1.1)、Mixup：

(1.2)、Cutout：

(1.3)、Mosaic：

步骤二：YOLOv4算法：

(2.1)、YOLOv4网络结构：

(2.2)、YOLOv4网络结构：

YOLOv4算法将网络输入划分为S*S个网格单元，每个网格单元预测B个边界框、边界框置信度和C个类别概率；若某类目标落入划分的网格单元中，则对该目标进行进一步检测；每个网格单元计算出的B个边界框，用t_x、t_y、t_w、t_h和置信度五个参数来表示；t_x和t_y代表边界框中心点相对于网格单元的坐标，t_w和t_h为预测边界框的宽度和高度，置信度表示该预测边界框中含有某类目标的精确程度；将预测边界框的置信度与设置的阈值进行比较，并对类别置信度高于阈值的边界框使用非极大抑制算法获得最终的预测边界框；预测到的边界框包括t_x、t_y、t_w、t_h四个参数，YOLOv4算法对上述参数进行归一化处理；

(2.3)、CSPDarknet-53特征提取网络：

(2.4)、Neck网络：

Neck部分主要由SPP和PANet两个模块组成；

步骤三：YOLOv4算法边界框不确定性预测：

p(y|x)＝N(y；μ(x)，∑(x)) (7)

其中，(x)代表均值函数，∑(x)代表均值函数；

步骤四：基于K-means++聚类算法anchor参数优化方法：

步骤五：交通标志检测与识别的流程：

2.根据权利要求1所述的基于深度学习的交通标志检测与识别方法，其特征在于：所述Mixup的原理如下：

λ～Beat(α，β)

mixed_batch_x＝λ*batch_x1+(1-λ)*batch_x2

mixed_batch_y＝λ*batch_y1+(1-λ)*batch_y2 (1)

3.根据权利要求1所述的基于深度学习的交通标志检测与识别方法，其特征在于：所述SPP模块主要是利用K＝{1×1，5×5，9×9，13×13}不同池化核大小的最大池化方法，对输入进来的特征层进行池化后堆叠操作，最大池化采用padding操作，移动步长stride＝1，保证池化后的特征图尺度不变。

4.根据权利要求1所述的基于深度学习的交通标志检测与识别方法，其特征在于：所述PANet结构由FPN和PAN两部分组成的，FPN提取到的低分辨率特征信息通过上采样的方法得到预测的特征图；PAN是自底向上的网络结构，将FPN得到的特征图进一步通过下采样方法进行传递融合，得到预测的特征图，缩短了顶层与底层特征之间的信息路径，两相结合从不同的主干层对不同的检测层进行特征聚合，进一步加强了特征的提取。