CN111291660B

CN111291660B - 一种基于空洞卷积的anchor-free交通标志识别方法

Info

Publication number: CN111291660B
Application number: CN202010072379.2A
Authority: CN
Inventors: 褚晶辉; 黄浩; 吕卫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2022-08-12
Anticipated expiration: 2040-01-21
Also published as: CN111291660A

Abstract

本发明涉及一种基于空洞卷积的anchor‑free交通标志识别神经网络，包括下列步骤：构建交通标志数据集并进行包括剪裁在内的数据预处理；通过深度学习框架PyTorch搭建基于空洞卷积的anchor‑free交通标志识别神经网络；基于空洞卷积的anchor‑free交通标志识别神经网络包括三个部分，分别是由hourglass模块与残差块Residual Block组成的主干路、由特征丰富模块MSCF组成的跳层和输出预测部分；模型训练。

Description

一种基于空洞卷积的anchor-free交通标志识别方法

技术领域

本发明涉及一种基于空洞卷积的交通标志识别方法，主要应用于辅助驾驶系统与目标检测领域。

背景技术

在现实环境中，交通标志的识别是一个具有挑战性的任务。人类驾驶员可以很容易地找出并识别交通标志，是因为交通标志的设计使用了颜色、形状和文本等语义性强、适合人类理解的元素的组合。但对于机器而言，由于交通标志的种类多，类别间的区分度不大，各个国家地区的交通标志不尽相同，以及因光照、模糊、部分遮挡和背景复杂等因素，使得难以从复杂场景中定位、准确识别交通标志区域。交通标志能传达丰富的道路信息且设计简单、一目了然，主要的交通标志可分为：禁令标志、警告标志和指示标志，用文字或符号向驾驶人传递引导、限制、警告或指示信息，其根本目的是保障车辆有序、安全的行驶。因此，如何设计和优化算法提高对交通标志的检测与识别率已经成为自动驾驶系统研究领域的关注重点之一。

卷积神经网络的应用开启了交通标志识别的新篇章，近年来受到了国内外研究学者的广泛关注和研究。目前基于卷积神经网络的常用交通标志识别方法有Faster-RCNN、SSD和YOLO等。SSD和YOLO属于单阶段的目标检测方法，直接产生物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果。Faster-RCNN属于双阶段的目标检测方法，需要先产生目标候选框，也就是需要经过RPN网络做一遍二分类，然后再对候选框做分类与回归。专利“一种基于卷积神经网络的交通标志检测方法”(CN110210362A)设计了一种分类与定位分离的交通标志识别神经网络，采用Retinanet作为基础检测神经网络的检测框架，并采用带有残差学习模块的ResNet-152作为神经网络的特征提取模块。专利“基于F-RCNN的远距离交通标志检测识别方法”(CN110163187A)提出了一种基于F-RCNN的远距离交通标志检测识别方法，它用于解决现有近距离检测识别方法在进行远距离交通标志识别时精度低的问题。

这些技术方法的一个共同组成部分是anchor，它们是包含各种尺寸和宽高比的矩形框，也是用作检测与识别的候选框。交通标志识别的神经网络中通常需要生成一组数量非常大的anchor，但其中只有小部分会与ground truth重叠，这在正负样本之间造成了巨大的不平衡，减慢了训练速度。针对这一缺点，本发明对现有的交通标志识别方法进行了改进，放弃了使用anchor这种检测方式，而是直接生成图像的热图，基于交通标志的关键点进行检测与识别。针对目标检测神经网络CenterNet进行改进，加入了不同扩张率的空洞卷积来丰富多尺度信息，本发明提出了一种新型的anchor-free交通标志识别神经网络。

发明内容

针对anchor引入的正负样本不均衡问题，本发明提出一种基于空洞卷积的anchor-free交通标志识别神经网络，在此基础上，给出识别效果比较好的交通标志识别方法。技术方案如下：

一种基于空洞卷积的anchor-free交通标志识别神经网络，包括下列步骤：

第一步，构建交通标志数据集并进行包括剪裁在内的数据预处理；

第二步，通过深度学习框架PyTorch搭建基于空洞卷积的anchor-free交通标志识别神经网络；基于空洞卷积的anchor-free交通标志识别神经网络包括三个部分，分别是由hourglass模块与残差块ResidualBlock组成的主干路、由特征丰富模块MSCF组成的跳层和输出预测部分：

输入的图像首先经过主干路进行特征提取，主干路由两部分组成，第一部分由三个串联的3*3卷积块、一个残差块Residual Block、一个1*1卷积块和一个hourglass模块组成，对输入的图像进行先编码再解码的过程，用以提取图像中更全面的深层特征并将浅层特征与深层特征融合到一起；第二部分由一个串联的3*3卷积块、一个残差块ResidualBlock、一个1*1卷积块和一个hourglass模块组成，对第一部分输出的特征图再次进行先编码后解码的过程，用以获得尺度变化更大的特征，增强神经网络的表示能力；

主干路上有两个结构相同的跳层，均由一个特征丰富模块MSCF与一个1*1的卷积块构成，分别位于主干路的第一部分与第二部分，特征丰富模块MSCF共包含1个3*3卷积块，5个1*1卷积块和3个扩张率不同的空洞卷积模块，作用是利用不同扩张率的空洞卷积来获得不同大小的感受野，对主干路提取的特征进行补充；

经过了主干路的神经网络之后，特征图恢复到初始图片的尺寸，并包含了多种尺度和深层次的语义特征，这种特征图被称为热图，能够对各种尺寸的交通标志进行预测；将热图送入输出预测部分，进入三条并联支路进行预测，第一条支路在经过两个卷积块后，会预测出交通标志的种类；第二条支路会预测出一个坐标，即交通标志的中心点坐标；最后一条支路会预测出交通标志检测框的宽和高；

第三步，模型训练：

把训练集中的图片输入基于空洞卷积的anchor-free交通标志识别神经网络中，通过正向传播得到交通标志类别与位置信息，与groundtruth中的信息计算误差进行反向传播，不断更新网络参数直至误差不再减小；将训练好的网络参数保存为模型；

第四步，输入带有交通标志的图片，加载第三步训练好的模型，输出交通标志识别结果图。

附图说明

附图1为基于空洞卷积的anchor-free交通标志识别神经网络结构图

附图2为特征丰富模块MSCF

附图3为hourglass模块结构图

附图4为交通标志识别结果图

具体实施方式

一种基于空洞卷积的anchor-free交通标志识别方法，下面将结合附图对实施方式进行详细描述：

第一步，构建数据集并进行数据预处理：

(1)本发明使用的数据来源是清华大学公开的中国交通标志数据集TT100K(Tsinghua-Tencent 100K)，数据集划分为训练集和测试集两部分。训练集包含6107张图片，测试集包含3073张图片，图片的尺寸均为2048*2048像素。TT100K是用腾讯的街景全景图截取的，共涵盖了180多种中国的交通标志类别，但其中许多种类较为少见，在数据集中出现的频次较低。本发明采用数据集中出现频次大于100的45类交通标志进行训练。

(2)由于GPU显存限制，不能直接训练整张图像进行训练，所以对(1)中的图片进行裁剪，将2048*2048的训练集裁剪为512*512像素。然后，对数据集进行处理，转换为标准coco数据格式的json文件以便于网络读取。

第二步，通过深度学习框架PyTorch搭建基于空洞卷积的anchor-free交通标志识别神经网络。基于空洞卷积的anchor-free交通标志识别神经网络包括三个部分，下面将进行详细介绍：

(1)神经网络的主体结构如附图1所示，三个部分是由hourglass模块与残差块Residual Block组成的主干路、由特征丰富模块MSCF组成的跳层和输出预测部分：

a)主干路分为2部分：第一个部分由三个串联的3*3卷积块、一个残差块ResidualBlock、一个1*1卷积块和一个hourglass模块组成，每个3*3卷积块含有1个卷积核大小为3*3、扩张率为1*1、通道数为128的卷积层，1个BatchNorm层以及1个Relu层，其中第一个3*3卷积的步长为2，后两个3*3卷积的步长为1，残差块包含两个串联的帧内卷积，每个帧内卷积块含有1个卷积核大小为3*3、扩张率为1*1、步长为1、通道数为128的卷积层，1个BatchNorm层以及1个Relu层，1*1卷积块含有1个卷积核大小为1*1、扩张率为1*1、步长为1、通道数为128的卷积层，1个BatchNorm层以及1个Relu层，这部分是对输入的图像进行先编码再解码的过程，目的是为了提取图像中更全面的深层特征并将浅层特征与深层特征融合到一起；第二部分由一个串联的3*3卷积块、一个残差块Residual Block、一个1*1卷积块和一个hourglass模块组成，3*3卷积块含有1个卷积核大小为3*3、扩张率为1*1、通道数为128的卷积层，1个Batch Norm层以及1个Relu层，卷积步长为1，残差块包含两个串联的帧内卷积，每个帧内卷积块含有1个卷积核大小为3*3、扩张率为1*1、步长为1、通道数为128的卷积层，1个Batch Norm层以及1个Relu层，1*1卷积块含有1个卷积核大小为1*1、扩张率为1*1、步长为1、通道数为128的卷积层，1个Batch Norm层以及1个Relu层，主干路的第二部分是对第一部分输出的特征图再次进行先编码后解码的过程，目的是获得尺度变化更大的特征，增强神经网络的表示能力。经过了主干路的神经网络之后，特征图已经恢复到了初始图片的尺寸，并包含了多种尺度和深层次的语义特征，这种特征图被称为热图，能够对各种尺寸的交通标志进行预测。

b)两个跳层的结构相同，均由一个特征丰富模块MSCF与一个1*1的卷积块构成，1*1的卷积块含有1个卷积核大小为1*1、扩张率为1*1、步长为1、通道数为128的卷积层，1个Batch Norm层以及1个Relu层。跳层的输出特征会与主干路的输出特征进行元素相加操作，目的是将跳层提取到的有益信息融合到主干支路的特征图中。

c)输出预测部分先经过一个3*3的卷积块，含有1个卷积核大小为3*3、扩张率为1*1、步长为1、通道数为256的卷积层，1个Batch Norm层以及1个Relu层，然后分为三级并联的支路。每条支路均由一个3*3的卷积块与一个1*1的卷积块构成，三条支路的3*3卷积块相同，均含有1个卷积核大小为3*3、扩张率为1*1、通道数为128的卷积层，1个BatchNorm层以及1个Relu层。第一条支路的1*1卷积块含有1个卷积核大小为1*1、扩张率为1*1、步长为1、通道数为45的卷积层，1个Batch Norm层以及1个Relu层，此条支路会预测出交通标志的种类；另外两条支路的1*1卷积块相同，均含有1个卷积核大小为1*1、扩张率为1*1、步长为1、通道数为2的卷积层，1个BatchNorm层以及1个Relu层，这两条支路分别会预测交通标志的中心点坐标和交通标志检测框的宽高信息。通过这三条支路的预测信息，便能识别出交通标志的种类，并计算出交通标志在图片中的位置信息。

(2)特征丰富模块MSCF如附图2所示，共包含1个3*3卷积块，5个1*1卷积块和3个扩张率不同的空洞卷积模块。第一条支路的空洞卷积模块含有1个卷积核大小为3*3、扩张率为1*1、通道数为32的卷积层，1个BatchNorm层以及1个Relu层；第二条支路的空洞卷积模块含有1个卷积核大小为3*3、扩张率为2*2、通道数为32的卷积层，1个BatchNorm层以及1个Relu层；第三条支路的空洞卷积模块含有1个卷积核大小为3*3、扩张率为4*4、通道数为32的卷积层，1个BatchNorm层以及1个Relu层。三条支路的输出会进行通道拼接操作，并将拼接后的特征输出。特征丰富模块MSCF的作用是利用不同扩张率的空洞卷积来获得不同大小的感受野，对主干路提取的特征进行补充。

(3)神经网络中hourglass模块如附图3所示，共包含4个升采样、4个降采样和13个残差块ResidualBlock。这13个残差块的结构相同，均由两个帧内卷积块组成，每个帧内卷积块含有1个卷积核大小为3*3、扩张率为1*1、通道数为128的卷积层，1个BatchNorm层以及1个Relu层。主干路中的hourglass模块通过不断地降采样与上采样，对输入的特征图进行先编码再解码的过程，可以提取图像中更全面的深层特征并将浅层特征与深层特征融合到一起。

第三步，模型训练：

把第一步经过裁剪后的图像输入第二步所搭建的基于空洞卷积的anchor-free交通标志识别神经网络中，通过正向传播得到交通标志的类别信息与检测框的位置信息。计算神经网络预测得到的交通标志类别与位置信息和groundtruth中标签信息的误差，该误差项由输出层向隐藏层逐层的反向传播，更新网络参数直至输入层，使用ADAM优化器不断反馈优化直至误差不再减小。

网络的batch_size设置为4，即每一次训练4张512*512的交通标志图片；epoch设置为120，即整个网络需要训练120轮。将训练好的网络参数保存为模型。

第四步，输入需要进行检测与识别的交通标志图片，加载第三步训练好的模型，即可输出识别的结果图，如附图4所示。

第五步，本发明采用查准率(AP)和查全率(AR)来衡量算法效果。输入3073张测试集图片进行检测与计算后，计算出AP＝95.8，AR＝99.3。

Claims

1.一种基于空洞卷积的anchor-free交通标志识别神经网络，包括下列步骤：

第二步，通过深度学习框架PyTorch搭建基于空洞卷积的anchor-free交通标志识别神经网络；基于空洞卷积的anchor-free交通标志识别神经网络包括三个部分，分别是由hourglass模块与残差块Residual Block组成的主干路、由特征丰富模块MSCF组成的跳层和输出预测部分：

输入的图像首先经过主干路进行特征提取，主干路由两部分组成，第一部分由三个串联的3*3卷积块、一个残差块Residual Block、一个hourglass模块和一个1*1卷积块组成，对输入的图像进行先编码再解码的过程，用以提取图像中更全面的深层特征并将浅层特征与深层特征融合到一起；第二部分由一个串联的3*3卷积块、一个残差块Residual Block、一个hourglass模块和一个1*1卷积块组成，对第一部分输出的特征图再次进行先编码后解码的过程，用以获得尺度变化更大的特征，增强神经网络的表示能力；

主干路上有两个结构相同的跳层，均由一个特征丰富模块MSCF与一个1*1的卷积块构成，两个跳层分别与主干路的第一部分中的一个hourglass模块和一个1*1卷积块并联以及与第二部分中的一个hourglass模块和一个1*1卷积块并联，跳层的输出特征会与主干路的输出特征进行元素相加操作，特征丰富模块MSCF共包含1个3*3卷积块，5个1*1卷积块和3个扩张率不同的空洞卷积模块，作用是利用不同扩张率的空洞卷积来获得不同大小的感受野，对主干路提取的特征进行补充；

第三步，模型训练：

把训练集中的图片输入基于空洞卷积的anchor-free交通标志识别神经网络中，通过正向传播得到交通标志类别与位置信息，与 ground truth中的信息计算误差进行反向传播，不断更新网络参数直至误差不再减小；将训练好的网络参数保存为模型；