CN113269161A

CN113269161A - 一种基于深度学习的交通标识牌检测方法

Info

Publication number: CN113269161A
Application number: CN202110803552.6A
Authority: CN
Inventors: 申莲莲; 吴彩萍; 邓承刚; 高鹏飞; 叶琳; 龚绍杰
Original assignee: Sichuan Jiutong Zhilu Technology Co ltd
Current assignee: Sichuan Jiutong Zhilu Technology Co ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-08-17

Abstract

本发明公开一种基于深度学习的交通标识牌检测方法，属于计算机视觉图像处理技术领域，其特征在于，包括以下步骤：a、采集多种天气和光照情况下道路上的交通标识牌的图片并进行目标检测和分类的标签标注；b、通过图像处理模块对图像进行数据预处理；c、数据预处理后，采用目标检测中的YOLOv3模型作为检测网络，依次进行模型搭建、模型训练和模型调优完成训练；d、将待检测的图片输入到训练后的模型中得到当前图片中标志牌位置以及分类标签的预测结果。本发明将YOLOv3模型作为检测网络，依次进行模型搭建、模型训练和模型调优，能够实现全天候场景的交通标志牌的精准识别，具有很好的泛化能力。

Description

一种基于深度学习的交通标识牌检测方法

技术领域

本发明涉及到计算机视觉图像处理技术领域，尤其涉及一种基于深度学习的交通标识牌检测方法。

背景技术

随着现在道路上车辆越来越多，在智慧交通领域尤其是自动驾驶领域中，当车辆在道路上行驶时都会遇到交通标识牌，交通标识牌包含有丰富的道路交通信息，为驾驶员提供警示及指示辅助信息，对减轻驾驶员的驾驶压力及降低道路的交通压力起着重要的辅助作用。因此如果能够准确地识别出交通标识牌的话，对于交通安全具有非常重要的意义。在传统的交通标识牌识别检测任务中，主要采用的方法是基于边缘检测加上霍夫变换的方式来提取标志牌上的信息，其中图像的边缘是指图像局部区域亮度变化显著的部分，该区域的灰度剖面一般可以看作是一个阶跃，即从一个灰度值在很小的缓冲区域内急剧变化到另一个灰度相差较大的灰度值，图像的边缘部分集中了图像的大部分信息。而霍夫变换则是利用点与点的对偶性，将原始图像空间中给定的曲线通过曲线表达形式变为参数空间的一个点，这样就把原始图形给定曲线的检测问题转换为了检测参数空间的峰值问题，也就是把检测整体特性转换为检测局部特性，比如直线、椭圆、圆形或弧线。但是往往现实生活中的图像受到光照在内的多种天气影响，这会使得传统算法的整个效果比较差，在检测效果上存在延迟和预测精度较低的情况。

公开号为CN 110032935A，公开日为2019年07月19日的中国专利文献公开了一种基于深度学习级联网络的交通信号标识检测识别方法，其特征在于：本方法首先对训练数据集进行预处理，然后进行模型训练，把训练的交通标识识别模型输出，然后把测试图片输入进行测试，把识别出的目标扣出进行进一步的分类过滤，然后把过滤后的信息融合返还到原图，最后输出信息文件；把准备好的训练样本进行预处理，对训练数据中标定的目标框调整，调整标定目标的名称的错误标定以及目标框在图片边界时位置调整，因为训练时处理数据会出现错误，标定目标的名称会影响目标准确识别；输入训练数据用调整的网络进行初次训练；

(1)训练阶段：A)把对练数据进行预处理，主要是对标记好的目标框进行调整：一是调整框的标签名同一类的大小写格式完全相同；二是调整目标在图片边界处时框的位置，因为在训练时边界上的框处理时会出现loss为nan的现象；B)把处理好的数据输入进行模型训练并进行调参训练，并输出初次检测模型；C)对标定的目标进行抠出，对抠出的目标细致分类过滤的二次模型进行训练，并输出二次分类检测模型；D)编写脚本把两个模型进行两个模型的链接，使测试时测试数据能够没有中间操作，一次性的得出测试结果；

(2)测试阶段：A)输入需要检测的数据，进行初次的检测分类；B)根据初次分类的检测结果数据在图片上抠出对应的位置，连同初次分类结果信息一并输入二次分类模型；C)把抠出的图片放入二次分类模型进行细致的分类，并得到细致的分类检测结果；D)把两次的检测分类结果进行信息融合保存并将融合后的目标标签以及目标的坐标位置返还图片中，显示最终的图片并输出最终识别信息。

该专利文献公开的基于深度学习级联网络的交通信号标识检测识别方法，虽然能够对交通道路场景中的交通信号标识有很好的识别效果，可以很好的识别多尺度目标及特征极为相似的目标。但是，由于是基于级联网络来学习的，无法实现全天候场景的交通标志牌的精准识别，泛化能力较差。

发明内容

本发明为了克服上述现有技术的缺陷，提供一种基于深度学习的交通标识牌检测方法，本发明将YOLOv3模型作为检测网络，依次进行模型搭建、模型训练和模型调优，能够实现全天候场景的交通标志牌的精准识别，具有很好的泛化能力。

本发明通过下述技术方案实现：

一种基于深度学习的交通标识牌检测方法，其特征在于，包括以下步骤：

a、采用中国交通标志检测数据集作为基础数据集，采集多种天气和光照情况下道路上的交通标识牌的图片并进行目标检测和分类的标签标注，用于扩充样本数据集；

b、通过图像处理模块对图像进行数据预处理，数据预处理包括随机裁切、左右翻转、上下翻转、对比度变换、色调变换、饱和度变换和Mosaic图像增强；

c、数据预处理后，采用目标检测中的YOLOv3模型作为检测网络，依次进行模型搭建、模型训练和模型调优完成训练；

d、将待检测的图片输入到训练后的模型中得到当前图片中标志牌位置以及分类标签的预测结果。

所述步骤b中，随机裁切是指在原始大小为608×608的图片上以区域随机的方式对图片进行裁切，根据YOLOv3模型将裁切后的图片尺寸固定在416×416上。

所述步骤b中，左右翻转是指在原始图片上以图片纵向中心线为基础进行翻转，上下翻转是指在原始图片上以图片横向中心线为基础进行翻转。

所述步骤b中，对比度变换是指在原始图片的HSV颜色空间中对亮度以随机的方式进行数值调整，色调变换是指在原始图片的HSV颜色空间中对色调以随机的方式进行数值调整，饱和度变换是指在原始图片的HSV颜色空间中对饱和度以随机的方式进行数值调整。

所述步骤b中，Mosaic图像增强是指每次读取4张图片，进行翻转、缩放以及色域变化处理，并且按照上下左右的位置摆放好，然后将这4张图片拼在一起。

所述步骤c中，模型搭建是指采用YOLOv3模型中的Darknet53首先进行一次卷积核大小为3×3和步长为2的卷积，通过卷积压缩输入进来的特征层的宽和高，获得一个特征层，再对特征层进行一次1×1的卷积和一次3×3的卷积，并把这个结果加上前一层的特征层，构成残差结构，最后通过不断的叠加1×1卷积和3×3卷积以及残差边的叠加加深网络。

所述卷积时进行L2正则化，通过式1进行L2正则化；

式1

其中，

是正则化参数，取值范围在

之间，根据模型的损失函数进行调整；

是神经网络的参数个数；

是第

个网络参数。

所述卷积后进行BatchNormalization标准化和LeakyReLU，对于一个batch的图片数据

进行求解，其公式如下：

式2

式3

式4

式5

通过LeakyReLU给所有负值赋予一个非零斜率，表示为式6；

式6

其中，B是图片数据；

是传入到模型进行训练的数据；

是这一个batch数据的均值；

是传入到模型进行训练的数据与其均值的方差；

是经过运算之后得到的新数据；

是在新的数据上经过线性变换进行微调的数据，用于传入神经网络中新一层的神经元；

是如果；

是误差；

是权重；

是常数；m是数据个数；

是从一个均匀分布

中随机抽取的数值，

且l,u∈[0,1）；

构建特征金字塔进行加强特征提取，通过YoloV3提取三个特征层进行目标检测，三个特征层位于Darknet53的中间层、中下层和底层，三个特征层的shape分别为(52, 52,256)、(26, 26, 512)和(13, 13, 1024)，再进行特征金字塔层的构建，构建方式为：

13×13×1024的特征层进行5次卷积处理，处理完后利用YoloHead获得预测结果，一部分用于进行上采样UmSampling2d后与26×26×512特征层进行结合，结合特征层的shape为(26,26,768)，结合特征层再次进行5次卷积处理，处理完后再次利用YoloHead获得预测结果，一部分用于进行上采样UmSampling2d后与52×52×256特征层进行结合，结合特征层的shape为(52,52,384)，特征金字塔将不同shape的特征层进行特征融合。

所述步骤c中，模型训练是指将数据分别传输到模型当中进行训练，其中数据经过Darknet53之后得到三个特征层，其中的形状为：(N, 13, 13, 13, 255)、(N, 26, 26,255)以及(N, 52, 52, 255)，其中N是每个batch中包含的数据量，N取值为128，经Darknet53训练得到三种不同尺寸的特征图后，再将特征图通过特征金字塔分别进行多次卷积和上采样处理，将提取的特征与Darknet53提取到的特征进行融合，最终得到与Darknet53提取的特征尺寸相同的预测输出数据。

所述步骤c中，模型调优是指采用SGD优化器进行优化，通过式7进行运算；

式7

其中，

是神经网络中的权重参数；

是学习率，控制着模型更新权重参数的步伐是多大，选择的范围是在[0.01，0.1]之间，间隔选择0.01；

是对损失函数进行求导得到的导数，

是数据，

是数据对应的标签，

是第

个数据，

是每个batch包含的数据量；

所述SGD优化器进行优化时，采用学习率衰减进行调整，通过式8进行；

式8

其中，learning_rate是当前学习率，learning_rate_base是基础学习率，decay_rate是衰减系数，global_epoch是整个模型要训练的次数。

所述步骤d，具体是指通过图像检测模块对数据预处理后的图像采用目标检测网络检测出交通标识牌图像，并将交通标识牌图像提取出来，再通过图像分类模块对检测出的交通标识牌图像进行类别分辨。

本发明所述shape是指图片形状。

本发明所述UmSampling2d是指一种上采样方式。

本发明所述YoloHead是指yolo的头部结构。

本发明所述batch是指数据分成的批次。

本发明所述BatchNormalization是指批标准化。

本发明所述LeakyReLU是指激活函数。

本发明所述YOLOv3模型是指一种网络结构。

本发明所述Darknet53是指YOLOv3所使用的主干特征提取网络。

本发明所述Mosaic是指一种图像增强方式。

本发明所述HSV颜色空间是指一种代表颜色的模型。

本发明所述SGD优化器是指随机梯度下降优化器。

本发明所述中国交通标志检测数据集是由长沙理工大学综合交通运输大数据智能处理湖南省重点实验室张建明老师团队制作完成。该数据集目前的上传图像有15734张，其中数据集除了包含有目标检测的标签，也即标注框的长宽和中心坐标点之外，还包含有三类分别标签，分别是：指示标志、禁止标志和警告标志。

本发明的有益效果主要表现在以下方面：

1、本发明，a、采用中国交通标志检测数据集作为基础数据集，采集多种天气和光照情况下道路上的交通标识牌的图片并进行目标检测和分类的标签标注，用于扩充样本数据集；b、通过图像处理模块对图像进行数据预处理，数据预处理包括随机裁切、左右翻转、上下翻转、对比度变换、色调变换、饱和度变换和Mosaic图像增强；c、数据预处理后，采用目标检测中的YOLOv3模型作为检测网络，依次进行模型搭建、模型训练和模型调优完成训练；d、将待检测的图片输入到训练后的模型中得到当前图片中标志牌位置以及分类标签的预测结果；作为一个完整的技术方案，较现有技术而言，YOLOv3模型可移植性强，YOLOv3模型在检测到相应的目标之后会对该目标进行分类，通过YOLOv3模型能够将检测与分类的任务集于一体，因而只需要训练一个网络即可完成两个任务，将YOLOv3模型作为检测网络，依次进行模型搭建、模型训练和模型调优，能够实现全天候场景的交通标志牌的精准识别，具有很好的泛化能力。

2、本发明，步骤b中，Mosaic图像增强是指每次读取4张图片，进行翻转、缩放以及色域变化处理，并且按照上下左右的位置摆放好，然后将这4张图片拼在一起，随机使用4张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，而小目标的检测在目标检测类项目中一直都是一个难点，因此增加小目标的数目来进行网络训练，能够让网络的泛化能力更好；由于是直接计算4张图片的数据，使得每个batch的大小并不需要很大，一个GPU就可以达到比较好的效果，能够有效减少GPU数量，降低成本。

3、本发明，步骤c中，模型搭建是指采用YOLOv3模型中的Darknet53首先进行一次卷积核大小为3×3和步长为2的卷积，通过卷积压缩输入进来的特征层的宽和高，获得一个特征层，再对特征层进行一次1×1的卷积和一次3×3的卷积，并把这个结果加上前一层的特征层，构成残差结构，最后通过不断的叠加1×1卷积和3×3卷积以及残差边的叠加加深网络，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率，其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

4、本发明，卷积时进行L2正则化，通过增加L2正则化能够有效的防止由于模型过于复杂以及模型参数过多情况下导致的泛化能力较弱的问题，利于提高泛化能力。

5、本发明，步骤c中，模型训练是指将数据分别传输到模型当中进行训练，其中数据经过Darknet53之后得到三个特征层，其中的形状为：(N, 13, 13, 13, 255)、(N, 26,26, 255)以及(N, 52, 52, 255)，其中N是每个batch中包含的数据量，N取值为128，特定的将N取值为128，在GPU上进行训练时，能够有效提高效率。

6、本发明，基于深度学习中的目标检测方式，能应对各种不同的道路上交通标志牌的检测和分类，大大覆盖了各种天气和光照情况下交通标志牌需要准确识别的场景，普适性强。

7、本发明，基于深度学习中的目标检测方式，能够有较高的检测分类精度，并且在模型训练完毕之后不需要再进行训练，可直接用于预测使用，保证了在使用阶段的计算量很小，预测精度和效率更高。

8、本发明，基于深度学习，在处理交通标识牌准确识别的问题上有很好的泛化能力，针对各种不同的道路场景都能够很好的进行结果预测，与现有技术相比，受到拍摄图片的影响更小。

附图说明

下面将结合说明书附图和具体实施方式对本发明作进一步的具体说明：

图1为本发明的逻辑框图。

具体实施方式

实施例1

参见图1，一种基于深度学习的交通标识牌检测方法，包括以下步骤：

本实施例为最基本的实施方式，作为一个完整的技术方案，较现有技术而言，YOLOv3模型可移植性强，YOLOv3模型在检测到相应的目标之后会对该目标进行分类，通过YOLOv3模型能够将检测与分类的任务集于一体，因而只需要训练一个网络即可完成两个任务，将YOLOv3模型作为检测网络，依次进行模型搭建、模型训练和模型调优，能够实现全天候场景的交通标志牌的精准识别，具有很好的泛化能力。

实施例2

本实施例为一较佳实施方式，步骤b中，Mosaic图像增强是指每次读取4张图片，进行翻转、缩放以及色域变化处理，并且按照上下左右的位置摆放好，然后将这4张图片拼在一起，随机使用4张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，而小目标的检测在目标检测类项目中一直都是一个难点，因此增加小目标的数目来进行网络训练，能够让网络的泛化能力更好；由于是直接计算4张图片的数据，使得每个batch的大小并不需要很大，一个GPU就可以达到比较好的效果，能够有效减少GPU数量，降低成本。

实施例3

所述卷积时进行L2正则化，通过式1进行L2正则化；

式1

其中，

是正则化参数，取值范围在

之间，根据模型的损失函数进行调整；

是神经网络的参数个数；

是第

个网络参数。

本实施例为又一较佳实施方式，步骤c中，模型搭建是指采用YOLOv3模型中的Darknet53首先进行一次卷积核大小为3×3和步长为2的卷积，通过卷积压缩输入进来的特征层的宽和高，获得一个特征层，再对特征层进行一次1×1的卷积和一次3×3的卷积，并把这个结果加上前一层的特征层，构成残差结构，最后通过不断的叠加1×1卷积和3×3卷积以及残差边的叠加加深网络，残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率，其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

卷积时进行L2正则化，通过增加L2正则化能够有效的防止由于模型过于复杂以及模型参数过多情况下导致的泛化能力较弱的问题，利于提高泛化能力。

实施例4

所述卷积时进行L2正则化，通过式1进行L2正则化；

式1

其中，

是正则化参数，取值范围在

之间，根据模型的损失函数进行调整；

是神经网络的参数个数；

是第

个网络参数。

进行求解，其公式如下：

式2

式3

式4

式5

通过LeakyReLU给所有负值赋予一个非零斜率，表示为式6；

式6

其中，B是图片数据；

是传入到模型进行训练的数据；

是这一个batch数据的均值；

是传入到模型进行训练的数据与其均值的方差；

是经过运算之后得到的新数据；

是如果；

是误差；

是权重；

是常数；m是数据个数；

是从一个均匀分布

中随机抽取的数值，

且l,u∈[0,1）；

本实施例为又一较佳实施方式，步骤c中，模型训练是指将数据分别传输到模型当中进行训练，其中数据经过Darknet53之后得到三个特征层，其中的形状为：(N, 13, 13,13, 255)、(N, 26, 26, 255)以及(N, 52, 52, 255)，其中N是每个batch中包含的数据量，N取值为128，特定的将N取值为128，在GPU上进行训练时，能够有效提高效率。

实施例5

所述卷积时进行L2正则化，通过式1进行L2正则化；

式1

其中，

是正则化参数，取值范围在

之间，根据模型的损失函数进行调整；

是神经网络的参数个数；

是第

个网络参数。

进行求解，其公式如下：

式2

式3

式4

式5

通过LeakyReLU给所有负值赋予一个非零斜率，表示为式6；

式6

其中，B是图片数据；

是传入到模型进行训练的数据；

是这一个batch数据的均值；

是传入到模型进行训练的数据与其均值的方差；

是经过运算之后得到的新数据；

是如果；

是误差；

是权重；

是常数；m是数据个数；

是从一个均匀分布

中随机抽取的数值，

且l,u∈[0,1）；

式7

其中，

是神经网络中的权重参数；

是对损失函数进行求导得到的导数，

是数据，

是数据对应的标签，

是第

个数据，

是每个batch包含的数据量；

式8

本实施例为最佳实施方式，基于深度学习中的目标检测方式，能应对各种不同的道路上交通标志牌的检测和分类，大大覆盖了各种天气和光照情况下交通标志牌需要准确识别的场景，普适性强。

基于深度学习中的目标检测方式，能够有较高的检测分类精度，并且在模型训练完毕之后不需要再进行训练，可直接用于预测使用，保证了在使用阶段的计算量很小，预测精度和效率更高。

基于深度学习，在处理交通标识牌准确识别的问题上有很好的泛化能力，针对各种不同的道路场景都能够很好的进行结果预测，与现有技术相比，受到拍摄图片的影响更小。

Claims

1.一种基于深度学习的交通标识牌检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的交通标识牌检测方法，其特征在于：所述步骤b中，随机裁切是指在原始大小为608×608的图片上以区域随机的方式对图片进行裁切，根据YOLOv3模型将裁切后的图片尺寸固定在416×416上。

3.根据权利要求1所述的一种基于深度学习的交通标识牌检测方法，其特征在于：所述步骤b中，左右翻转是指在原始图片上以图片纵向中心线为基础进行翻转，上下翻转是指在原始图片上以图片横向中心线为基础进行翻转。

4.根据权利要求1所述的一种基于深度学习的交通标识牌检测方法，其特征在于：所述步骤b中，对比度变换是指在原始图片的HSV颜色空间中对亮度以随机的方式进行数值调整，色调变换是指在原始图片的HSV颜色空间中对色调以随机的方式进行数值调整，饱和度变换是指在原始图片的HSV颜色空间中对饱和度以随机的方式进行数值调整。

5.根据权利要求1所述的一种基于深度学习的交通标识牌检测方法，其特征在于：所述步骤b中，Mosaic图像增强是指每次读取4张图片，进行翻转、缩放以及色域变化处理，并且按照上下左右的位置摆放好，然后将这4张图片拼在一起。

6.根据权利要求1所述的一种基于深度学习的交通标识牌检测方法，其特征在于：所述步骤c中，模型搭建是指采用YOLOv3模型中的Darknet53首先进行一次卷积核大小为3×3和步长为2的卷积，通过卷积压缩输入进来的特征层的宽和高，获得一个特征层，再对特征层进行一次1×1的卷积和一次3×3的卷积，并把这个结果加上前一层的特征层，构成残差结构，最后通过不断的叠加1×1卷积和3×3卷积以及残差边的叠加加深网络。

7.根据权利要求6所述的一种基于深度学习的交通标识牌检测方法，其特征在于：所述卷积时进行L2正则化，通过式1进行L2正则化；

式1

其中，

是正则化参数，取值范围在

之间，根据模型的损失函数进行调整；

是神经网络的参数个数；

是第

个网络参数。

8.根据权利要求6所述的一种基于深度学习的交通标识牌检测方法，其特征在于：所述卷积后进行BatchNormalization标准化和LeakyReLU，对于一个batch的图片数据

进行求解，其公式如下：

式2

式3

式4

式5

通过LeakyReLU给所有负值赋予一个非零斜率，表示为式6；

式6

其中，B是图片数据；

是传入到模型进行训练的数据；

是这一个batch数据的均值；

是传入到模型进行训练的数据与其均值的方差；

是经过运算之后得到的新数据；

是如果；

是误差；

是权重；

是常数；m是数据个数；

是从一个均匀分布

中随机抽取的数值，

且l,u∈[0,1）；

9.根据权利要求1所述的一种基于深度学习的交通标识牌检测方法，其特征在于：所述步骤c中，模型训练是指将数据分别传输到模型当中进行训练，其中数据经过Darknet53之后得到三个特征层，其中的形状为：(N, 13, 13, 13, 255)、(N, 26, 26, 255)以及(N,52, 52, 255)，其中N是每个batch中包含的数据量，N取值为128，经Darknet53训练得到三种不同尺寸的特征图后，再将特征图通过特征金字塔分别进行多次卷积和上采样处理，将提取的特征与Darknet53提取到的特征进行融合，最终得到与Darknet53提取的特征尺寸相同的预测输出数据。

10.根据权利要求1所述的一种基于深度学习的交通标识牌检测方法，其特征在于：所述步骤c中，模型调优是指采用SGD优化器进行优化，通过式7进行运算；