CN108647585B

CN108647585B - 一种基于多尺度循环注意力网络的交通标识符检测方法

Info

Publication number: CN108647585B
Application number: CN201810360701.4A
Authority: CN
Inventors: 田彦; 王勋; 吴佳辰
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2020-08-14
Anticipated expiration: 2038-04-20
Also published as: CN108647585A

Abstract

本发明公开了一种基于多尺度循环注意力网络的交通标识符检测方法，该方法首先构建交通标识符检测模型，所述交通标识符检测模型由用于图像特征提取的卷积神经网络特征提取模型和用于提高小目标检测精度的多尺度循环注意力网络模型复合而成；然后利用合格的训练样本对所述的交通标识符检测模型进行训练，得到训练好的交通标识符检测模型；测试时将待检测的图像输入训练好的交通标识符检测模型中，得到检测结果。本发明方法应用编解码器结构加强了取得的特征，用多尺度注意力结构检测小目标，并引用残差结构解决了梯度消失和梯度爆炸问题，本发明方法与其他先进的交通标识符检测方法相比更具有竞争力。

Description

一种基于多尺度循环注意力网络的交通标识符检测方法

技术领域

本发明涉及交通标识符检测技术，具体涉及一种基于多尺度循环注意力网络的交通标识符检测方法。

背景技术

交通标志的检测是学术界和工业界的一个至关重要和具有挑战性的课题，过去十年来一直是研究的热点领域。实时和强大的交通标志检测技术可以减轻驾驶员压力，从而显著提高驾驶安全性和舒适性。例如，它可以提醒驾驶员当前的速度限制，防止他超速驾驶。此外，它还可以集成到自动驾驶系统(ADS)和高级驾驶员辅助系统(ADAS)中，以减轻驾驶压力。

传统交通标志检测有各种各样的算法，包括adaboost、支持向量机、Hough变换等，它们使用颜色，纹理，线条和其他低级特征来检测图像中交通标志的中心或边缘。由于以下原因，基于低级特征的方法不能很好地检测交通标志：1)不同形状或颜色的交通标志(例如，三角形，正方形，圆形以及它们的颜色，黄色，红色或蓝色)；2)树木，车辆等物体可能遮挡交通标志；3)一天内的不同时刻，例如，白天和晚上交通标志的图片是不同的。

近年来，深度学习，特别是卷积神经网络(CNN)在检测任务中得到了成功应用。根据深度学习的理念，提供的训练数据越多，精度将会越高，如果我们有足够的数据进行训练，就能得到近似完美的结果。然而，虽然构建了庞大的交通标志数据集，如Tsinghua-Tencent100K数据集，但深度学习在交通标志检测中并没有表现出明显的优势，部分原因是交通标志尺寸过小和有效的上下文信息没有得到充分利用。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于多尺度循环注意力网络的新型交通标识符检测方法，该方法能够有效提高小目标检测的准确率。

本发明的目的是通过以下技术方案来实现的：一种基于多尺度循环注意力网络的交通标识符检测方法，该方法包括以下步骤：

(1)构建交通标识符检测模型：所述交通标识符检测模型由用于图像特征提取的卷积神经网络特征提取模型和用于提高小目标检测精度的多尺度循环注意力网络模型复合而成；

所述卷积神经网络特征提取模型的构建方法如下：

使用深层残差网络提取原始图像的初始特征并输入编解码器；

编解码器的编码器部分实现下采样、解码器部分实现上采样，通过上、下采样得到不同尺度的特征图X_k，通过残差学习得到每个尺度下的特征；

所述多尺度循环注意力网络模型构建方法如下：

使用通道数为1、卷积核为1×1的卷积层，对该尺度下的特征进行卷积操作，得到每个尺度的初始注意力图；

通过卷积操作分别获得当前尺度初始注意力图

的上采样注意力图

和下采样注意力图

将下采样注意力图

初始注意力图

和上采样注意力图

进行级联，使用通道数为1、卷积核为1×1的卷积层对级联结果进行卷积操作，获得新的当前尺度的非标准化注意力图

将非标准化注意力图

归一化到0-1之间，得到标准化注意力图

循环上述操作，在每次循环开始时，将上一轮循环得到的标准化注意力图

作为该轮循环的初始注意力图

直到获得的注意力图目标区域与原始图像目标区域的误差小于设定门限(比如可取1％)，再将每个尺度的最终注意力图的通道数扩张到该尺度下的卷积特征大小，再与该卷积特征进行Hadamard乘积得到该尺度的环境上下文特征，将所有尺度的环境上下文特征加和，从而得到该原始图像的环境上下文特征c；

建立原始图像的环境上下文特征与感兴趣目标外接框的映射关系；

(2)得到检测结果：利用合格的训练样本对所述的交通标识符检测模型进行训练，得到训练好的交通标识符检测模型；测试时将待检测的图像输入训练好的交通标识符检测模型中，得到检测结果。

在卷积神经网络特征提取模型中，通过深层残差网络和编解码器结构，获得更深层的特征。该部分的网络设置如下：卷积神经网络特征提取模型的基础网络采用经改进的Resnet-101网络，我们将其称为Residual-101；为了得到分辨率更大的特征图，做以下修改：将Resnet-101中conv5_x阶段删除，并且将conv4_x阶段的步长由2修改为1；在基础网络之后，使用步长为2的池化层或卷积层将特征图下采样到低分辨率；在每个下采样步骤中，采用残差学习单元进行信息处理；这个过程将一直进行，直到获得最低的分辨率，之后开始网络的扩展过程，即对满足低分辨率的特征图进行上采样；该网络的结构是对称的，因此，对于在下采样步骤中呈现的每个层，存在相应的上采样层；编解码器结构增加了小目标检测的容量，但是会忽略上下文信息，并且复杂的背景也可能使目标检测任务变得困难。

作为优选，本发明在此基础上引入了第二部分多尺度循环注意力网络模型：

注意力是从图像或视频提取信息的一种机制，它能自适应地选择一系列区域或位置并仅处理所选区域来获取信息。本发明提出了一个多尺度注意力新模型，在多尺度分析中不同尺度的注意力图是相互关联的，它们之间并非相互独立。

用W_k×H_k×D_k定义第k尺度下的特征图，并把它写为X_k，其中W_k，H_k，D_k分别为特征图中的宽、高、通道数目。用编码器来获得第k尺度下的注意力图

以此来衡量第k尺度的重要性。

在注意力图部分，基础结构由3×3×D_k的卷积层在每个尺度下获取激活响应。对于信息向前传播，卷积层的顺序是归一化层-激活层-卷积层。另一个1×1×1的卷积层在每个尺度下被增加，以取得激活图

接下来，在相邻的尺度下使用激活图获得非标准化的注意力图

其中，

分别为前一个尺度激活图、当前尺度激活图、下一个尺度激活图。

作为优选，将softmax函数应用于

以确保所有的注意力权重之和为1。

其中，

表示标准化注意力图。

作为优选，将分支中标准化注意力图

扩展到3维张量

并结合对应的特征图X_k，通过Hadamard乘积生成得到环境上下文特征c∈R^W×H×D：

其中，X_k表示第k个尺度特征图。

本发明通过提出注意力机制，特征图模块可以选择性地关注每个尺度下的局部区域，从而一起训练。输入的注意力机制是一个前馈神经网络，可以和其他组件一起训练。

作为优选，对所述交通标识符检测模型进行训练的过程为：

利用ILSVRCCLS-LOC数据集进行预训练，卷积神经网络的权重和偏置服从标准差为0.01的高斯分布，初始化网络；

之后采用Tsinghua-Tencent 100K和German Traffic Sign DetectionBenchmark数据集对多尺度循环注意力网络模型进行微调。

作为优选，所述的卷积神经网络特征提取模型采用编解码器模型以及跳跃连接的想法，以加强特征；同时添加额外的解卷积层，以连续增加特征图的分辨率。

作为优选，在所述的多尺度循环注意力网络模型中，我们希望找到能够判别含有不同对象情景信息的注意力图，其中所有上下文信息可以从较低感知域获得的注意力图或较高感知域获得的注意力图获得，并且该方法应该是高效且易于训练的。

这种上下文信息获取方法可用一个简单的网络结构实现，即可以通过使用一个新型的循环卷积网络来深入获取。也就是说，在相邻的尺度上，上下文信息可以被选择性地引入到当前的注意力图中。

可采用最新的融合方式，

能被表示为如下和的形式

或者可以表示为级联形式

其中

和

分别为实现注意力图上采样和下采样的网络参数，上采样通过半像素卷积或反卷积实现，下采样通过步长为2的卷积实现，Concate为级联操作，W_k将级联结果返回成通道数为1的注意力图。在实验中，我们发现采取级联方式的效果更好。

与特征组合方法相比，本发明方法应用在二维注意力图而不是三维特征图。因此，局部的上下文信息可以被高效地组合在一起。整个过程完全由数据驱动，可以进行端到端的训练。

作为优选，所述的交通标识符检测模型训练阶段采用GPU进行计算。

相比于现有技术，本发明具有的有益效果为：

(1)在交通标识符检测任务中引入注意力机制，重点关注局部情境信息，提高检测结果。

(2)提出循环注意力模型，相邻尺度中的注意力图是相关联的，可以使用融合的方式来整合这些局部信息。

(3)通过在德国交通标志检测基准(GTSDB)和清华-腾讯100K数据集上的实验结果表明，本发明提出的方法与其他最先进的交通标志检测方法相比更具有竞争力。

附图说明

图1是本发明实施例提供的交通标识符检测模型的框架示意图；

图2是本发明实施例提供的基础网络与编解码器模型结构示意图；

图3是本发明实施例提供的多尺度循环注意力模型结构示意图；

图4是多尺度注意力实例图；

图5是本发明实施在GTSDB数据集的结果实例图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本实施例提供的交通标识符检测方法可以获得一幅图像中非固定数量的交通标识符位置和类别信息，且可以应用到自动驾驶，辅助驾驶等智能交通的方面。

采用本实施方式基于Resnet-101基础网络与编解码器的新型检测方法，对图像中的目标进行检测的过程包括训练和测试两个部分。下面在阐述这两个部分之前会介绍本实施例所采用的检测模型。

图1是本发明实施例提供的交通标识符检测模型结构示意图，该模型框架包括用于图像特征提取的卷积神经网络特征提取模型和用于提高小目标检测精度的多尺度循环注意力网络模型。

在图1中，conv代表卷积操作，conv下方的数字代表卷积核的大小以及通道数，Block表示本实施例提出的残差块结构，Deconv表示半像素卷积，Attention Maps表示注意力图，Attention Features表示注意力特征。我们用预先训练的Residual-101初始化网络。将图像的尺寸调整为1600像素和960像素作为输入。用步长为2的卷积层进行下采样，并且通过半像素卷积来实现上采样。整个网络采用随机梯度下降算法(SGD)进行训练，设置动量为0.9，重量衰减系数为0.0005。每个批次中，从四个训练图中选择32个正样本，从背景中选择96个负样本。当评估结果时，在预测的边界框和真值之间使用0.5作为阈值。

图2所示的是基础网络与编解码器结合网络模型，处理过程如下：基础网络为Resnet-101，我们对它进行了改进，将改进后的网络称为Residual-101，改进过程如下：在基础网络的第一个卷积层中，将conv5_x阶段删除，并将conv4_x阶段的步长由2修改为1，以此增加特征图的分辨率。在基础网络之后，使用步长为2的池化层或卷积层将特征图下采样到低分辨率。在每个下采样步骤中，采用残差块进行信息处理。这个过程将一直进行，直到获得最低的分辨率，之后网络开始扩展过程，即对满足低分辨率的特征图进行上采样。该网络的结构是对称的，因此，对于在下采样步骤中呈现的每个层，存在相应的上采样层。编解码器结构增加了小目标检测的容量，但是会忽略上下文信息，并且复杂的背景也可能使目标检测任务变得困难。

图3所示的是多尺度循环注意力网络模型，在该部分，基础结构由3×3×D_k的卷积层在每个尺度下获取激活响应。对于信息向前传播，卷积层的顺序是归一化层-激活层-卷积层。另一个1×1×1的卷积层在每个尺度下被增加，以取得激活图

其中，

分别为前一个尺度激活图，当前尺度激活图，下一个尺度激活图。

作为优选，将softmax函数应用于

以确保所有的注意力权重之和为1。

其中，

表示标准化注意力图。

作为优选，将分支中标准化注意力图

扩展到3维张量

其中，X_k表示第k个尺度特征图。

对交通标识符检测模型进行训练，训练的过程为：

预训练(Pre-train)阶段：对于卷积神经网络特征提取模型，用ILSVRCCLS-LOC数据集上训练的权值初始化，初始化的权值服从标准差为0.01的高斯分布。

也可以选用一些其他数据集对卷积神经网络检测模型进行训练，确定每一层的权值。

微调(Fine-tuning)阶段：采用Tsinghua-Tencent 100K和German Traffic SignDetection Benchmark数据集对整个多尺度循环注意力网络交通标识符检测模型进行微调。

此处模型训练阶段采用GPU进行计算。

交通标识符检测模型训练好后，对该模型进行测试，获取测试结果。本实施例中测试方法具体为：

给定测试图像，将训练得到的交通标识符检测模型执行一次前向传播得到若干个置信度高的区域候选框，在特定阈值下采用非极大抑制，得到基于本实施例提出的交通标识符检测模型的测试结果。

图4为多尺度注意力实例图。

利用本实施例对图像进行交通标识符检测，在德国交通标志检测基准(GTSDB)上的实验结果如图5所示，白色框为检测结果。结果表明，本实施例提出的方法与其他先进的检测方法相比更具有竞争力。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度循环注意力网络的交通标识符检测方法，其特征在于，该方法包括以下步骤：

所述卷积神经网络特征提取模型的构建方法如下：

所述多尺度循环注意力网络模型构建方法如下：

通过卷积操作分别获得当前尺度初始注意力图

的上采样注意力图

和下采样注意力图

下标k为尺度标号；将下采样注意力图

初始注意力图

和上采样注意力图

将非标准化注意力图

归一化到0-1之间，得到标准化注意力图

作为该轮循环的初始注意力图

直到获得的注意力图目标区域与原始图像目标区域的误差小于设定门限，再将每个尺度的最终注意力图的通道数扩张到该尺度下的卷积特征大小，再与该卷积特征进行Hadamard乘积得到该尺度的环境上下文特征，将所有尺度的环境上下文特征加和，从而得到该原始图像的环境上下文特征c；

(2)得到检测结果：利用训练样本对所述的交通标识符检测模型进行训练，得到训练好的交通标识符检测模型；测试时将待检测的图像输入训练好的交通标识符检测模型中，得到检测结果。

2.如权利要求1所述的基于多尺度循环注意力网络的交通标识符检测方法，其特征在于，所述卷积神经网络特征提取模型的基础网络采用经改进的Resnet-101网络：将conv5_x阶段删除，并将conv4_x阶段的步长由2修改为1。

3.如权利要求1所述的基于多尺度循环注意力网络的交通标识符检测方法，其特征在于，所述卷积神经网络特征提取模型的编解码器采用端到端End-to-End学习模式。

4.如权利要求1所述的基于多尺度循环注意力网络的交通标识符检测方法，其特征在于，所述非标准化注意力图

标准化注意力图

环境上下文特征c的公式分别为：

其中，f为基于后融合(late-fusion)的特征融合函数，X_k表示第k个特征图；将

的通道数扩张到X_k的通道数，得到张量

⊙为Hadamard乘积。

5.如权利要求4所述的基于多尺度循环注意力网络的交通标识符检测方法，其特征在于，采用最新的融合方式，

可以表示为如下和的形式：

或者可以表示为级联形式：

其中

和

分别为实现注意力图上采样和下采样的网络参数，上采样通过半像素卷积或反卷积实现，下采样通过步长为2的卷积实现，Concate为级联操作，W_k将级联结果返回成通道数为1的注意力图。

6.如权利要求1所述的基于多尺度循环注意力网络的交通标识符检测方法，其特征在于，所述卷积神经网络特征提取模型采用编解码器模型以及残差网络的跳跃连接的想法，以加强特征；同时添加额外的反卷积层，以连续增加特征图的分辨率。

7.如权利要求1所述的基于多尺度循环注意力网络的交通标识符检测方法，其特征在于，对交通标识符检测模型进行训练的过程为：

先在ILSVRCCLS-LOC数据集上进行预训练，卷积神经网络的权重和偏置服从标准差为0.01的高斯分布，初始化网络；

之后采用Tsinghua-Tencent 100K和German Traffic Sign Detection Benchmark数据集对多尺度循环注意力网络模型进行微调。

8.如权利要求1所述的基于多尺度循环注意力网络的交通标识符检测方法，其特征在于，所述交通标识符检测模型训练阶段采用GPU进行计算。