CN113361428B

CN113361428B - 一种基于图像的交通标志检测方法

Info

Publication number: CN113361428B
Application number: CN202110654274.2A
Authority: CN
Inventors: 练智超; 潘陶嘉诚; 陈墨
Original assignee: Zhejiang Chengshi Technology Co ltd
Current assignee: Zhejiang Chengshi Technology Co ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2023-03-24
Anticipated expiration: 2041-06-11
Also published as: CN113361428A

Abstract

本发明涉及计算机视觉的深度学习技术领域，具体公开了一种基于图像的交通标志检测方法，所述方法包括对CCTSDB数据集进行数据增强，生成数据集中的正负样本；重新训练骨干网络ResNet‑101，提取卷积网络特征；根据递归FPN结构将FPN模块多尺度融合的特征图再次前向反馈到骨干网络中进行递归处理；基于注意力模块从通道注意力和空间注意力两个方面增强特征图的前景特征；基于Inhibition attention模块抑制SAM模块大目标特征，再进行二次特征提取和递归融合，生成特征图；基于transformer模块对特征图进行序列预测，生成目标框和目标类别。本发明极大的提高了检测精度和准确率，便于推广。

Description

一种基于图像的交通标志检测方法

技术领域

本发明涉及计算机视觉的深度学习领域，具体是一种基于图像的交通标志检测方法。

背景技术

交通标志检测是目标检测的一个子方向，而目标检测是图像处理算法的一个重要分支，目前广泛应用于安防系统(如人脸检测)、交通领域(如人脸检测；行人、车流量统计)、医疗领域(如医学检测、医学图像识别)等等。目标检测任务主要有两个目标：目标框预测、目标框分类。而目标检测算法分为传统检测和深度学习检测两类。传统检测算法常分为三个步骤：手工特征提取，区域选择，目标分类，而常用的特征是HOG和Haar；常用的区域选择是滑动窗口；常用的分类器为SVM、AdaBoost、Cascade。深度学习检测算法分为一步流算法和二步流算法。一步流算法框架为特征提取、FPN特征融合、检测头预测检测框和分类，常用的一步流算法由yolo系列、SSD等。二步流算法框架为特征提取，FPN特征融合、预测检测框、对检测框分类，与一步流相比，二步流算法会进行锚框的预测，而锚框的预测有以下进步：滑动窗口、selective search、RPN模块预测、自学习锚框、无锚框。二步流常用的算法有RCNN、SPPNet、Fast RCNN、Faster RCNN、FPN、Mask RCNN。虽然一步流和二步流算法都取得了良好的效果，但是相对而言二步流的精度高于一步流精度。在实际使用场景中根据具体的需求，需要选择不同的检测算法。

在目标检测领域常用的数据集有ImageNet、Pascal VOC、ILSVRC、MS-COCO等。而在交通标志领域主要有以下6个数据集：KUL Belgium Traffic Sign Dataset、GermanTraffic Sign、STSD、LISA、Tsinghua-Tencent 100K、CCTSDB。KUL Belgium Traffic SignDataset是比利时的交通标志数据集，共含有62种交通信号标志，图像是ppm格式。GTSRB是德国交通标志检测数据，其采集时使用单摄像头，共有900张图像，一般分为训练集600张和测试集300张，共有三个类别。STSD是瑞典交通标志数据集，在20000张图像上标注，包含3488个交通标志，是从350公里的公路视频中抽取的图像。LISA是美国的交通标志数据集，有两个包分别是只有图像、图像和视频都有。TT100K是腾讯基于全景地图抽取的大型交通标志数据集，包含30000个交通标志的10000张图像，有类别标签、边界框和像素掩码信息。CCTSDB是长沙理工大学张建明老师团队制作完成，共有15000多张图像，共有三类交通标志：禁止标志、指示标志和警告标志，本文选用的是CCTSDB。

发明内容

本发明的目的在于提供一种基于图像的交通标志检测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于图像的交通标志检测方法，所述方法包括：

对CCTSDB数据集进行数据增强，生成数据集中的正负样本；

重新训练骨干网络ResNet-101，提取卷积网络特征；

根据递归FPN结构将FPN模块多尺度融合的特征图再次前向反馈到骨干网络中进行递归处理；

基于注意力模块从通道注意力和空间注意力两个方面增强特征图的前景特征；

基于Inhibition attention模块抑制SAM模块大目标特征，再进行二次特征提取和递归融合，生成特征图；

基于transformer模块对特征图进行序列预测，生成目标框和目标类别。

作为本发明技术方案进一步的限定：所述重新训练骨干网络ResNet-101，提取卷积网络特征的具体步骤包括：

读取从CCTSDB数据获取的正负样本；

基于ResNet-101网络对所述正负样本进行训练；

其中，ResNet-101中通过残差网络来解决网络退化的问题，而残差网络由一系列残差单元组成，残差单元的数学表达式如下，其中h(x)是当前层的网络映射，F(x，w)是残差部分。

X_N+1＝h(X_N)+F(X_N，W_N)

ResNet-101中使用的是交叉熵损失函数，p(x)表示标签真值，q(x)表示网络的预测值，通过交叉熵来计算两个概率分布之间的距离，该值越小也就是概率分布越好。其损失函数对应的公式如下：

H(p，q)＝-∑_xp(x)log q(x)。

作为本发明技术方案进一步的限定：所述根据递归FPN结构将FPN模块多尺度融合的特征图再次前向反馈到骨干网络中进行递归处理的步骤包括：

读取FPN融合后输出的结果；

通过反馈连接的方式将检测头的输入梯度特征带回到FPN骨干网络的低层；

再次递归循环，生成第一特征图。

作为本发明技术方案进一步的限定：所述基于注意力模块从通道注意力和空间注意力两个方面增强特征图的前景特征的步骤包括：

基于CAM模块并行处理最大全局池化层和平均池化层，并对并行处理结果进行MLP处理；

对MLP处理后的处理结果进行加和操作和sigmoid激活，并输出通道注意力特征向量；

其中，所述通道注意力用于区分每个通道的重要性，所述重要性是通过全局描述子生成。在全局描述子生成中，平均池化对特征图的每个像素都有表示，最大池化是在计算梯度反向传播时，特征图中响应最大的区域有梯度反馈，其数学表达式如下式：

M_c(F)＝σ(MLP(AvgPool(F)))+MLP(AvgPool(F))。

作为本发明技术方案进一步的限定：所述基于注意力模块从通道注意力和空间注意力两个方面增强特征图的前景特征的步骤还包括：

基于SAM子模块将输入的特征图基于通道做最大池化和平均池化，生成两个W*H*1的输出；

连接两个所述输出，并进行卷积降维，生成W*H*1的特征向量；

对所述特征向量进行sigmoid激活，生成空间特征向量；

其中，卷积核采用7*7，数学表达式如下：

M_c(F)＝σ(f^7*7([AvgPool(F)，MaxPool(F)]))。

与现有技术相比，本发明的有益效果是：本发明根据图像中交通标志远小的特征，增加RecursiveFPN模块，多尺度提取特征，提高远小交通标志的检测精度。通过CBAM模块和Hibition Attention模块，从空间和通道两个方面增强图像的前景特征，从而提高检测精度。通过利用transformer模块替代原本手工设计的RPN、Detect、Regression、NMS等组件，将目标检测和目标分类任务转换成序列预测任务，实现真正的端到端检测，与此同时提高目标检测的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1为基于图像的交通标志检测方法的流程框图。

图2为基于图像的交通标志检测方法的子流程框图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了基于图像的交通标志检测方法的流程框图，本发明实施例中，一种基于图像的交通标志检测方法，所述方法包括步骤S1-步骤S6，具体如下：

步骤S1：对CCTSDB数据集做数据增强，获得数据集中的正负样本；

步骤S2：在数据集上重新训练骨干网络ResNet-101，提升卷积网络特征提取效果；

步骤S3、利用Recursive FPN结构，将普通FPN模块多尺度融合的特征图再次前向反馈到骨干网络中进行递归处理，提高小目标的特征。

步骤S4、利用注意力模块，从通道注意力和空间注意力两个方面增强特征图的前景特征。

步骤S5、利用Inhibition attention模块，通过抑制SAM模块的大目标特征，再进行二次特征提取，递归融合获得特征图。

步骤S6、利用transformer模块对特征图进行序列预测，最终获得目标框和目标类别。

本发明为基于注意力模块和带有自注意力机制的变换模块的目标检测算法，主要分三个组件：第一部分由ResNet-101构成的骨干网络；第二部分将骨干网络输出的特征图进行进一步的多尺度融合和提取，其中包括Rescursive FPN、CBAM注意力模块、InhibitionAttention模块；第三部分为目标框和结果的预测，用transformer模块代替原本的Detection、Regression等模块。

在步骤S2中，在数据集上重新训练骨干网络ResNet-101，提升卷积网络特征提取效果的具体流程如下：

从CCTSDB数据中获取数据集正负样本后，再ResNet-101网络中训练。ResNet-101中通过残差网络来解决网络退化的问题，而残差网络由一系列残差单元组成，残差单元的数学表达式如下，其中h(x)是当前层的网络映射，F(x，w)是残差部分；

X_N+1＝h(X_N)+F(X_N，W_N)。

H(p，q)＝-∑_xp(x)log q(x)。

在步骤S3中，利用Recursive FPN结构，将普通FPN模块多尺度融合的特征图再次前向反馈到骨干网络中进行递归处理，提高小目标的特征的具体详述如下：

与传统的自上而下的FPN融合相比，递归FPN将自上而下的FPN融合后输出的结果再次输入到骨干网络中，再次递归循环，其用反馈连接的方式将检测头的输入梯度特征带回到传统FPN骨干网络的低层中，加快训练的速度，提高检测精度。将一个2次递归的RFP结构展开，就是一个循环两次的FPN结构。前面一半的结构就是传统的FPN结构，然后将FPN生成的{P3，P4，P5}作为下一个FPN结构的输入，用ASPP结构转换成通道数和尺寸{P3’，P4’，P5’}，将其与第二个FPN的数据相加生成{C3，C4，C5}，然后生成{P3”，P4”，P5”}，最后{P3，P4，P5}与{P3”，P4”，P5”}结合输出检测头需要的多尺度特征图。

RFP是递归结构，递归公式如下式，N为超参数，表示递归迭代次数，n表示展开后第n步；i表示FPN结构中的层数，S表示前馈的层数。

在步骤S4中，利用注意力模块，从通道注意力和空间注意力两个方面增强特征图的前景特征的具体流程如下：

在通用的注意力模块中分两块：空间注意力和通道注意力，本文采用CBAM模块，从空间注意力与通道注意力两个方面来增强特征图的前景特征。CBAM模块将输入的特征图先进行通道注意力提取，再进行空间注意力的提取。

通道注意力使用的是CAM子模块，作用与常用的SE模块相同。CAM模块中先并行处理最大全局池化层和平均池化层，然后经过MLP(同SE模块中的Excitation)处理，最后将两个层的数据进行加和操作和sigmoid激活，输出通道注意力特征向量。CAM模块在提取全局描述子时，用最大池化和平均池化来聚合全局描述子。通道注意力就是用来区分每个通道的重要性，而这个重要性是通过全局描述子生成。而全局描述子生成中，平均池化对特征图的每个像素都有表示，而最大池化则是在计算梯度反向传播时，特征图中响应最大的区域有梯度反馈，其数学表达式如下式：

M_c(F)＝σ(MLP(AvgPool(F)))+MLP(AvgPool(F))。

空间注意力使用的是SAM子模块，先将输入的特征图基于通道做最大池化和平均池化，得到2个W*H*1的输出，然后将两个channel做一个连接，经过一个卷积降维后，输出W*H*1的特征向量，再进行sigmoid最终输出空间特征向量。其数学表达式如下式，其中卷积核用的是7*7，其效果比3*3的效果好，感受野大。其数学表达式如下：

M_c(F)＝σ(f^7*7([AvgPool(F)，MaxPool(F)]))。

请参阅图2，图2示出了基于图像的交通标志检测方法的子流程框图，在步骤S5中，利用Inhibition attention模块，通过抑制SAM模块的大目标特征，再进行二次特征提取，递归融合获得特征图的具体流程为：

Inhibition SAM模块结构如上图所示，该模块的目的是抑制大目标的注意力，进行第二次特征提取，从而提升特征图对小目标的注意力。输入特征向量为W’*H’*C，经过骨干网络和FPN获得特征图W*H*C；再经过SAM模块得到注意力向量W*H*1，将注意力向量与特征图相乘得到输出特征图M1。数学表达式如下式：

S＝SAM(Backbone(F))

M₁(F)＝F_scale(Backbone(F)*S)。

获取W*H*1的注意力向量后，进行上采样和取反操作，获取W’*H’*1的注意力向量；然后将注意力向量与输入特征向量相乘，获取第二个输入特征向量W’*H’*C，然后将第二个输入特征向量进行上一步的操作，获得输出特征图2；最后将输出特征图M1和M2连接后进行1*1的卷积，获得最终的输出特征向量W*H*C。数学表达式如下式，其中上采样使用的是双线性插值，获得的为W’*H’*C。

F_Inhibition(F，S)＝F_scale(F*(1-upsample(S)))

M₂(F，S)＝M₁(F_Inhibition(F，S))

M(F)＝σ(f^1*1(M₁(F)，M₂(F)))。

本模块通过第二步，将容易检出的大目标的空间注意力抑制，然后进行第二次特征提取和注意力增强，最后将获取的两次特征图输出进行卷积合成一张特征图。

步骤S6中，利用transformer模块对特征图进行序列预测，最终获得目标框和目标类别的具体流程如下：

本文使用上节提到的ResNet-101作为骨干网络进行特征提取，将输入的图像从W*H*3，提取出特征图W/32*H/32*2048。然后使用Encoder模块和Decoder模块对特征进行编码和解码，最后通过FNN模块预测类别和矩形框的结构。其中Encoder模块，将W*H*C的特征图降维到WH*C的特征图，然后再空间位置编码模块中分别对x、y编码，然后将两个维度的编码拼接到一起，数学表达式如下，将posx代入公式可以获得128维的向量，posy代入公式可以获得128维的向量，将两个向量拼接起来获得一个256维的位置编码。

PE(pos_x，2i)＝sin(pos_x/10000^2i/128)

PE(pos_x，2i+1)＝cos(pos_x/10000^2i/128)

PE(pos_y，2i)＝sin(pos_y/10000^2i/128)

PE(pos_y，2i+1)＝cos(pos_y/10000^2i/128)。

Decoder模块中，将Encoder中的输出和空间位置编码一起输入解码模块，由于这是一个检测任务，所以Decoder最后的结果输出是两个预测，分别是检测框和类别。损失函数使用的是二分图匹配算法，用来将不确定顺序的输出框与真值的序列进行匹配，然后用自定义的损失函数来计算类别和矩形框的误差。

FNN模块是由线性激活层、ReLU层和全连接层组成，最终生成类别和目标框坐标。

上述基于图像的交通标志检测方法所能实现的功能均由计算机设备完成，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现所述基于图像的交通标志检测方法的功能。

处理器从存储器中逐条取出指令、分析指令，然后根据指令要求完成相应操作，产生一系列控制命令，使计算机各部分自动、连续并协调动作，成为一个有机的整体，实现程序的输入、数据的输入以及运算并输出结果，这一过程中产生的算术运算或逻辑运算均由运算器完成；所述存储器包括只读存储器(Read-Only Memory，ROM)，所述只读存储器用于存储计算机程序，所述存储器外部设有保护装置。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

本领域技术人员可以理解，上述服务设备的描述仅仅是示例，并不构成对终端设备的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，上述处理器是上述终端设备的控制中心，利用各种接口和线路连接整个用户终端的各个部分。

上述存储器可用于存储计算机程序和/或模块，上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等；存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例系统中的全部或部分模块/单元，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个系统实施例的功能。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于图像的交通标志检测方法，其特征在于，所述方法包括：

步骤S1：对CCTSDB数据集进行数据增强，生成数据集中的正负样本，重新训练骨干网络ResNet-101；

步骤S2：利用所述骨干网络ResNet-101提取卷积网络特征；

步骤S3：根据递归FPN结构将FPN模块多尺度融合的特征图再次前向反馈到骨干网络中进行递归处理，输出第一特征图；

步骤S4：基于CBAM注意力模块的通道注意力模块和空间注意力模块增强所述第一特征图的前景特征，得到第二特征图；

步骤S5：基于Inhibition attention模块抑制所述空间注意力模块得到的第二特征图的大目标特征，具体为将上述空间注意力模块得到的第一注意力向量进行上采样和取反操作，得到第二注意力向量，将所述第二注意力向量与所述骨干网络的输入特征向量相乘，获得第二个输入特征向量，将所述第二个输入特征向量输入骨干网络，进行所述步骤S2至步骤S4的操作，获得第三特征图，将所述第二特征图和所述第三特征图连接后进行1*1的卷积，得到第四特征图；

步骤S6：基于transformer模块对所述第四特征图进行序列预测，生成目标框和目标类别。

2.根据权利要求1所述的基于图像的交通标志检测方法，其特征在于，所述重新训练骨干网络ResNet-101的具体步骤包括：

读取从CCTSDB数据获取的正负样本；

基于ResNet-101网络对所述正负样本进行训练；

其中，ResNet-101中通过残差网络来解决网络退化的问题，而残差网络由一系列残差单元组成，残差单元的数学表达式如下，其中h(x)是当前层的网络映射，F(x,w)是残差部分；

X_N+1＝h(x_N)+F(x_N)+F(X_N，W_N)

ResNet-101中使用的是交叉熵损失函数，p(x)表示标签真值，q(x)表示网络的预测值，通过交叉熵来计算两个概率分布之间的距离，该值越小也就是概率分布越好；其损失函数对应的公式如下：

h(p，q)＝-∑_xp(x)log q(x)。

3.根据权利要求1所述的基于图像的交通标志检测方法，其特征在于，所述根据递归FPN结构将FPN模块多尺度融合的特征图再次前向反馈到骨干网络中进行递归处理的步骤包括：

读取FPN融合后输出的结果；

通过反馈连接的方式将检测头的输入梯度特征带回到FPN骨干网络的低层；所述检测头为递归FPN结构中的递归头；

再次递归循环，生成第一特征图。

4.根据权利要求1所述的基于图像的交通标志检测方法，其特征在于，所述基于CBAM注意力模块的通道注意力模块和空间注意力模块增强所述第一特征图的前景特征的步骤包括：

其中，所述通道注意力用于区分每个通道的重要性，所述重要性是通过全局描述子生成；在全局描述子生成中，平均池化对特征图的每个像素都有表示，最大池化是在计算梯度反向传播时，特征图中响应最大的区域有梯度反馈，其数学表达式如下式：

M_c(F)＝σ(MLP(AvgPool(F)))+MLP(AvgPool(F))。

5.根据权利要求1所述的基于图像的交通标志检测方法，其特征在于，所述基于CBAM注意力模块的通道注意力模块和空间注意力模块增强所述第一特征图的前景特征的步骤还包括：

对所述特征向量进行sigmoid激活，生成空间特征向量；

其中，卷积核采用7*7，数学表达式如下：

M_c(F)＝σ(f^7*7([AvgPool(F)，MaxPool(F)]))。