CN116189139A

CN116189139A - 一种基于Transformer的交通标志检测方法

Info

Publication number: CN116189139A
Application number: CN202211637313.9A
Authority: CN
Inventors: 易智; 张学旺
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-05-30

Abstract

本发明涉及一种基于Transformer的交通标志检测方法，属于图像处理领域，S1：准备预训练数据集，划分为训练集和测试集；S2：构建基于Transformer的交通标志检测模型，包括信息增强模块：对输入图像进行信息增强，输出特征图A1，A2，A3，A4；Muti‑Scale Transformer模块：对特征图A1，A2，A3，A4进行特征提取与多尺度特征融合，输出特征图B；目标检测模块：融合特征图B，生成特征图F，并对特征图F中交通标志的类别和位置进行检测；S3：训练并测试模型，利用收敛的模型对待检测图像进行目标检测，本发明提升了交通标志中小目标检测的性能。

Description

一种基于Transformer的交通标志检测方法

技术领域

本发明属于图像处理领域，涉及一种基于Transformer的交通标志检测方法。

背景技术

目标检测是计算机视觉领域最基础且最重要的任务之一，其通常利用深度神经网络对视觉数据进行特征提取和建模，并预测目标物体的对应位置和类别。当前的深度学习方法试图解决作为分类问题或回归问题或综合两者的目标检测任务。

Transformer网络最早被提出并用于自然语言处理(NLP，Natural LanguageProcessing)的各个场景和任务，并取得了极大的成功。近年来，Transformer也开始被广泛用于图像分类、语义分割、目标检测等各个视觉任务中，并取得了很好的效果，一定程度上超越了卷积神经网络(CNN，Convolutional Neural Networks)。其中，自注意力(self-attention)机制是Transformer网络的核心组件，其通过度量特征与特征之间的响应并根据响应值重组特征，从而自动化建立特征间的关系。现有基于传统FPN技术的检测方法通常直接通过对特征进行插值并相加来实现跨尺度特征的融合，其对具有不同尺度物体的建模能力仍然有限。

发明内容

有鉴于此，本发明的目的在于提供一种基于Transformer的交通标志检测方法，能够提高小目标检测的性能。

为达到上述目的，本发明提供如下技术方案：

一种基于Transformer的交通标志检测方法，包括以下步骤：

S1：准备预训练数据集，划分为训练集和测试集；

S2：构建基于Transformer的交通标志检测模型，包括信息增强模块、Muti-ScaleTransformer模块、目标检测模块；所述信息增强模块用于对输入图像进行信息增强，输出特征图A1，A2，A3，A4；所述Muti-Scale Transformer模块用于对特征图A1，A2，A3，A4进行特征提取与多尺度特征融合，输出特征图B；所述目标检测模块用于融合特征图B，生成特征图F，并对特征图F中交通标志的类别和位置进行检测；

S3：利用训练集和测试集对所述基于Transformer的交通标志检测模型进行训练和测试，利用收敛的基于Transformer的交通标志检测模型对待检测图像进行目标检测。

进一步，所述步骤S1中，获取公开的交通标志图像数据集TT-100K；再选择TT-100K数据集中的N张图像，100<N<1000，经归一化处理，得到大小统一的图像，作为训练样本集S。

进一步，所述信息增强模块包含三个分支，具体包括：

分支一：通过全局平均池化操作将原有特征转化为一维特征，从而获得单个通道的全局信息，再使用1×1的卷积调整通道数并融合全局信息；

分支二：使用3×3的卷积融合特征图的局部信息；

分支三：使用特征金字塔网络，融合三种不同尺度特征；

最后将三个分支输出的特征相加融合得到增强特征。

进一步，所述分支三中所述特征金字塔网络，分别使用5×5，3×3，1×1的卷积融合三种特征。

进一步，所述Muti-Scale Transformer模块用于对特征图A1，A2，A3，A4进行特征提取与多尺度特征融合，输出特征图B，其实现步骤如下：

首先，对于输入的4个特征图F1，F2，F3，F4，使用位置编码(Position Embeding)与层级位置编码(Level Position Embeding)进行处理，位置编码与Transformer中使用的位置编码相同，用于学习参考点在单个特征图中的位置信息；层级位置编码使用于不同尺度的特征图中，在不同特征图中找到单个参考点的相对位置，实现不同尺度参考点的对齐；对层级位置编码进行归一化，将层级位置编码在特征图的位置进行限制，其公式如下：

lvl_pos_embed＝pos_embed+level_embed

其中，pos_embed表示单层位置嵌入，level_embed表示层间相对嵌入，lvl_pos_embed表示层级位置嵌入；

然后，对于第n个层次的特征f_n，经过线性层将其映射到查询Query，键Key和值Value三个空间，得到三个空间的权值矩阵Q，K，V，将得到的三个权值矩阵进行自注意力计算，得到每个尺度的attention向量，最后将不同尺度计算得到的attention向量求和平均，得到跨尺度的attention向量，其公式如下：

其中，W_m表示每个注意力头的权重，a表示利用Q和K计算的相似度，L代表多尺度特征的层级数，I表示序列长度，i和j分别代表不同Q和K的下标值，MSAttn表示参考点x的attention向量。

进一步，所述目标检测模块将Muti-Scale Transformer模块输出的特征图输入RPN网络进行处理，RPN网络通过锚框和边界回归生成候选框，并得到初步的候选区域；然后通过ROIPooling层归一化候选区域，并使用全连接层和softmax分类器，确定候选特征图是否为交通信号标志，并给出相应的概率，实现交通标志检测。

本发明的有益效果在于：

本发明充分利用分支网络建立全局信息和局部信息之间的信息流动来学习子区域间的相关性并突出包含目标的区域。本发明充分利用了多尺度特征图与Transformer之间的联系，针对Transformer对小目标检测能力不高的缺陷，通过融合不同尺度特征图并且使用高效的自注意力机制，改善了小目标检测的能力。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述的一种基于Transformer的交通标志检测网络模型的结构简化图；

图2为本发明所述的信息增强模块的结构图；

图3为本发明所述的Muti-Scale Transformer模块结构图；

图4为本发明所述的目标检测模块的结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图4，本实施例提供一种基于Transformer的交通标志检测方法，该方法的具体流程如图1所示，该方法包括：

步骤S1、获取数据集，再划分为训练集和测试集；

具体的说，在该步骤S1中，获取的交通标志图像数据集是公开的数据集TT-100K；

再选择TT-100K数据集中的N张图像，100<N<1000，经行归一化处理，将图像大小统一，即高×宽为h×w，作为训练样本集S；

步骤S2、构建一个基于Transformer的交通标志检测模型，该网络模型包括：信息增强模块、Muti-Scale Transformer模块、目标检测模块；该网络模型的训练过程包括以下步骤：

S2-1：所述信息增强模块对输入图像进行信息增强，输出特征图A1，A2，A3，A4；

S2-2：所述Muti-Scale Transformer模块对特征图A1，A2，A3，A4进行特征提取与多尺度特征融合，输出特征图B；

S2-3：所述目标检测模块融合特征图B，生成特征图F，并对特征图F中交通标志的类别和位置进行检测。

具体的说，在本实施例中，该步骤S2包括：

上述的Transformer目标检测模型，其网络结构如图1，其包括：信息增强模块、Muti-Scale Transformer模块、目标检测模块。

上述的信息增强模块，其网络结构如图2，包含三个分支，分支一先进行全局平均池化操作将原有特征转化为一维特征，从而获得单个通道的全局信息，在使用1×1的卷积调整通道数并融合全局信息；分支二使用3×3的卷积融合特征图的局部信息；分支三使用了一个特征金字塔网络，融合三种不同尺度特征，分别使用5×5，3×3，1×1的卷积。将三个分支输出的特征相加融合得到增强特征。

上述的所述Muti-Scale Transformer模块，其网络结构如图3，通过以下步骤实现:

对于输入的4个特征图F1，F2，F3，F4，使用位置编码(Position Embeding)与层级位置编码(Level Position Embeding)，位置编码与Transformer中使用的位置编码相同，用于学习参考点在单个特征图中的位置信息；层级位置编码使用于不同尺度的特征图中，在不同特征图中找到单个参考点的相对位置，实现不同尺度参考点的对齐。同时，对层级位置编码进行归一化，将层级位置编码在特征图的位置进行限制。其公式如下：

lvl_pos_embed＝pos_embed+level_embed

第n个层次的特征f_n，经过线性层将其映射到查询Query，键Key和值Value三个空间，得到三个空间的权值矩阵Q，K，V，将得到的三个权值矩阵进行自注意力计算，得到每个尺度的attention向量，最后将不同尺度计算得到的attention向量求和平均，得到跨尺度的attention向量。其公式如下：

具体的说，在本实施例中，上述的目标检测模块，其网络结构如图4，将Muti-ScaleTransformer模块输出的特征图输入RPN网络进行处理，RPN网络通过锚框和边界回归生成候选框，并得到初步的候选区域。然后通过ROIPooling层归一化候选区域，并使用全连接层和softmax分类器，确定候选特征图是否为交通信号标志，并给出相应的概率，实现精准的交通标志检测。

步骤S3、通过步骤S1中得到的训练集对步骤S2中构建的交通标志检测模型进行训练，进而得到收敛的网络模型，将步骤S1所述待检测图像输入到网络模型中，得到目标检测的结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Transformer的交通标志检测方法，其特征在于：包括以下步骤：

S1：准备预训练数据集，划分为训练集和测试集；

2.根据权利要求1所述的基于Transformer的交通标志检测方法，其特征在于：所述步骤S1中，获取公开的交通标志图像数据集TT-100K；再选择TT-100K数据集中的N张图像，100<N<1000，经归一化处理，得到大小统一的图像，作为训练样本集S。

3.根据权利要求1所述的基于Transformer的交通标志检测方法，其特征在于：所述信息增强模块包含三个分支，具体包括：

分支二：使用3×3的卷积融合特征图的局部信息；

分支三：使用特征金字塔网络，融合三种不同尺度特征；

最后将三个分支输出的特征相加融合得到增强特征。

4.根据权利要求3所述的基于Transformer的交通标志检测方法，其特征在于：所述分支三中所述特征金字塔网络，分别使用5×5，3×3，1×1的卷积融合三种特征。

5.根据权利要求1所述的基于Transformer的交通标志检测方法，其特征在于：所述Muti-Scale Transformer模块用于对特征图A1，A2，A3，A4进行特征提取与多尺度特征融合，输出特征图B，其实现步骤如下：

首先，对于输入的4个特征图F1，F2，F3，F4，使用位置编码与层级位置编码进行处理，位置编码与Transformer中使用的位置编码相同，用于学习参考点在单个特征图中的位置信息；层级位置编码使用于不同尺度的特征图中，在不同特征图中找到单个参考点的相对位置，实现不同尺度参考点的对齐；对层级位置编码进行归一化，将层级位置编码在特征图的位置进行限制，其公式如下：

lvl_pos_embed＝pos_embed+level_embed

6.根据权利要求1所述的基于Transformer的交通标志检测方法，其特征在于：所述目标检测模块将Muti-Scale Transformer模块输出的特征图输入RPN网络进行处理，RPN网络通过锚框和边界回归生成候选框，并得到初步的候选区域；然后通过ROIPooling层归一化候选区域，并使用全连接层和softmax分类器，确定候选特征图是否为交通信号标志，并给出相应的概率，实现交通标志检测。