CN115546468A

CN115546468A - 一种基于transformer的细长类物体目标检测方法

Info

Publication number: CN115546468A
Application number: CN202111675729.5A
Authority: CN
Inventors: 文峰; 王梅; 殷向阳
Original assignee: Shenyang Ligong University
Current assignee: Shenyang Ligong University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-12-30

Abstract

本发明提出了一种基于transformer的细长类物体目标检测方法，涉及目标检测技术领域，通过基于细长类物体的特征，获取细长类物体的数据集，并对提取的数据集进行数据增强操作；构建细长类物体的网络检测架构，网络架构主要包括改进resnet特征提取模块及transformer网络检测模块；在目标检测网络上使用训练集进行模型的训练，并在验证集上进行验证，选出最优的检测模型；基于步骤3中选出的最优检测模型进行测试，对测试集中的图片进行预测，得到最终的检测效果；在改进的resnet特征提取模块之后加入了CBAM注意力机制，更准确的集中于细长物体的特征，增强了特征表达，从而提高了特征提取的能力。

Description

一种基于transformer的细长类物体目标检测方法

技术领域

本发明涉及目标检测技术领域，具体涉及一种基于transformer的细长类物体目标检测方法。

背景技术

随着计算机技术的发展，计算能力的提高和计算机视觉原理的广泛应用，利用计算机图像处理技术实现人类视觉任务成为研究的焦点，目标检测作为计算机视觉中的一项基本任务，近年来取得了实质性的进展，受到了社会各界的广泛关注；目标检测即对图像中目标识别，找出图像中目标物体，包含物体分类和物体定位两个子任务，确定物体的类别和位置；

随着目标检测在现实世界的应用，需求在各种各样的场景中出现，关于特定主题研究的重要性提高了；改进物体检测的特定方面，如检测密集物体和小物体，提高了物体检测的实用价值，并因此激发了进一步的研究；虽然大部分问题已经得到了很好的研究，并且提出了许多新的想法，但是在细长类物体检测仍然存在巨大的挑战；

目前，针对细长类物体的检测往往被我们所忽视，在现实场景以及广泛使用的数据集(如COCO)中，细长类物体实际上非常常见；然而，这种类型的目标在很大程度上被以前的目标检测算法所忽略；根据本发明研究，对于经典的目标检测方法，比如Faster RCNN、RepPoints、FCOS等算法，如果仅在细长类物体上评估，像滑雪板、雪橇、冲浪板、电线杆、棒球棒、刀、叉等细长类物体，观察到COCO数据集中的细长类物体检测精度mAP急剧下降；究其原因：在对细长类物体卷积过程中受背景影响较大，导致目标检测的不充分性；同时，细长类物体的形状用普通卷积提取特征并不能很好的适应其形状，特征提取存在偏差，对细长类物体的检测相当不利，检测效果相对来说比较差。

发明内容

针对现有技术存在的问题，本发明提供了一种基于transformer的细长类物体目标检测方法，并融合了可变形卷积和CBAM注意力机制，旨在提高细长类物体的检测精度；

本发明提供以下的技术方案：

一种基于transformer的细长类物体目标检测方法，包括如下步骤：

步骤1：基于细长类物体的特征，获取细长类物体的数据集，并对提取的数据集进行数据增强操作；

步骤2：构建细长类物体的网络检测架构，网络架构主要包括改进ResNet特征提取模块及transformer网络检测模块；

步骤3：在目标检测网络上使用训练集进行模型的训练，并在验证集上进行验证，选出最优的检测模型；

步骤4：基于步骤3中选出的最优检测模型进行测试，对测试集中的图片进行预测，得到最终的检测效果；

所述步骤1的具体过程：数据集分为训练集、验证集及测试集；

所述步骤2中改进ResNet的特征提取模块：建立骨干网络，以ResNet为基础网络，将ResNet残差块中3×3卷积换成3×3可变形卷积，并生成特征图；

加入CBAM注意力机制模块，将改进的ResNet生成的最后一层特征图输入到CBAM注意力机制模块，使其产生CBAM特征图；

将改进ResNet的特征提取模块生成的第三层、第四层和第五层特征图以及CBAM特征图做进一步的卷积处理得到多尺度特征图；

所述步骤2中transformer的网络检测模块，分别建立transformer编码器、transformer解码器以及FFN前馈神经网络；

将经过卷积处理后的多尺度特征图加上对应像素的位置编码，并将位置编码后的多尺度特征图输入到transformer编码器中，将transformer编码器的结果以及queries传入到transformer解码器中进行解码操作；

所述FFN前馈神经网络是由一个带有ReLU激活函数和隐藏维数d的3层感知器以及一个线性投影层计算的；

将上述解码后的结果输入到FFN前馈神经网络输出分类以及定位结果；

所述步骤3中的具体过程，改进ResNet的特征提取模块使用在ImageNet数据集训练好的ResNet模型，作为骨干的预训练模型，可变形卷积、CBAM注意力机制模块、transformer检测网络模块均采用随机初始化的方式从零开始训练，并通过随机裁剪对数据进行数据增强操作，通过学习率、批量大小、优化方法调整超参数来训练网络；在训练过程中使用匈牙利排序算法将GT和模型预测结果一一对应，使用匈牙利算法(二部图匹配方法)找到能够最小化匹配损失的最优排列方法，得到最优匹配结果；

根据最优匹配结果计算损失函数，整体的损失包含两个部分：一个是分类损失，第二个是回归损失，分类损失采用交叉熵损失，而回归损失是GIOU损失和L1损失的加权和；

根据计算的损失结果反向传播去调整网络的权重参数；

所述步骤4中具体过程：训练过程中，每经过1轮存储一次模型，并将该模型在验证集上验证，根据验证集中细长类物体检测的最高精度mAP值选择最优的模型，用最优的模型检测细长类物体，得到最终的检测结果。

有益技术效果

1、本发明采用了transformer检测技术，使其集中在用户所关注的地方，摆脱了由于细长类物体的独特形状以及尺寸、角度等方面的影响导致普通卷积处理时受图片背景影响较大，卷积出来的物体并不能适应细长类物体形状的缺点；基于transformer的自注意力机制具有良好的全局信息感知性能，根据Attention对象的重要程度，重新分配资源，即权重，突出细长类物体的重要特征，使其注意力集中于所要检测的细长类物体上，从而提升了细长类物体的检测精度；

2、本发明在改进的ResNet特征提取模块之后加入了CBAM注意力机制，更准确的集中于细长类物体的特征，增强了特征表达，从而提高了特征提取的能力；

3、本发明在ResNet特征提取模块中将卷积替换成可变形卷积，可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整，从而，适应细长类物体的形状，更准确地提取所需要的特征。

附图说明

图1为本发明实施例提供的一种基于transformer的细长类物体目标检测方法的流程图；

图2为本发明实施例提供的一种基于transformer的细长类物体目标检测方法的整体网络结构图；

图3为本发明实施例提供的一种基于transformer的细长类物体目标检测方法的可变形卷积结构图；

图4为本发明实施例提供的一种基于transformer的细长类物体目标检测方法的CBAM网络结构图；

图5为本发明实施例提供的一种基于transformer的细长类物体目标检测方法的CAM网络结构图；

图6为本发明实施例提供的一种基于transformer的细长类物体目标检测方法的SAM网络结构图；

图7为本发明实施例提供的一种基于transformer的细长类物体目标检测方法的多尺度特征图；

图8为本发明实施例提供的一种基于transformer的细长类物体目标检测方法的transformer网络结构图。

具体实施方式

下面结合附图说明及实施例对本发明做进一步详细说明；

本发明提供的一种基于transformer的细长类物体目标检测方法，如图1所示，包括以下步骤：

本实施例中，如图2所示，在coco数据集中提取一张滑雪场景下的图片对滑雪板进行目标检测；

步骤1：基于coco数据集中滑雪板的特征，提取滑雪板的数据集，数据集包括训练集、验证集以及测试集；并对提取的数据集进行数据增强操作；

步骤2：构建细长类物体的网络检测架构，网络架构主要包括改进ResNet50特征提取模块及transformer网络检测模块；

所述步骤2中改进ResNet50的特征提取模块：采用ResNet50作为骨干网络并引入可变形卷积的改进点；在原始特征图中将ResNet50残差块中3×3卷积换成3×3可变形卷积，并生成特征图；可变形卷积示意图如图3，可变形卷积摆脱了普通卷积核固定尺寸固定大小的局限性，相较于普通卷积添加了偏移量，通过改变采样的位置，使得卷积核在输入特征图的采样点发生偏移，即改变感受野，从而可以更好的适应滑雪板的形状，其中偏移量是由普通卷积进行线性插值操作得到，并且偏移量可在目标任务中学习得到；

加入CBAM注意力机制模块，将改进的ResNet50产生的最后一层特征层图输入到CBAM注意力机制模块，产生CBAM特征图，使其更好的提取所需要的特征；CBAM网络结构图如图4所示，是一个轻量级的模块，能够轻松融入网络架构中，图中可以看出CBAM模块主要包括两个模块，通道注意力机制和空间注意力机制，两者进行了融合；在网络中，改进的ResNet50输出的最后一层特征图先经过通道注意力机制得到通道的权重，再与原特征图做点乘得到通道注意力特征图；将此特征图输入到空间注意力得到空间注意力的权重，并与通道注意力的特征图做点乘，得到最终的CBAM特征图；

通道注意力模块如图5所示，将输入的特征图，分别经过基于width和height的全局最大池化和全局平均池化，再将它们分别送入一个两层的神经网络(MLP)；将MLP输出的特征进行加和操作，再经过sigmoid激活操作，生成最终的通道注意力特征图，将该通道注意力特征图和输入特征图做乘法操作，生成空间注意力模块需要的输入特征；具体定义如下：

M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)

其中，F表示原始特征图，Mc(F)表示经过通道注意力后生成的特征图，σ为sigmoid激活操作，MLP是一个两层的神经网络操作，AvgPool(F)表示对特征图进行全局平均池化操作，MaxPool(F)表示对特征图进行全局最大池化操作；

空间注意力模块如图6所示，将通道注意力模块输出的特征图作为本模块的输入特征图；首先做一个基于通道的全局最大池化和全局平均池化，然后将这2个结果基于通道做拼接操作；然后经过一个卷积操作，降维为1个通道；再经过sigmoid生成空间注意力特征图；最后将该特征图和该模块的输入特征图做乘法，得到最终生成的CBAM特征图，具体定义如下：

M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)])) (2)

其中，σ为sigmoid激活操作，7*7表示卷积核的大小，Ms(F)表示经过通道注意力后生成的特征图，AvgPool(F)表示对特征图进行全局平均池化操作，MaxPool(F)表示对特征图进行全局最大池化操作；

如图7多尺度特征图所示，将改进的ResNet50生成的第三层、第四层和第五层特征图以及CBAM特征图分别进行卷积处理，第三层、第四层和第五层特征图经过1*1卷积步长为1的卷积操作，CBAM特征图经过3*3卷积步长为2的卷积操作，处理后得到多尺度特征图；

transformer的网络结构图如图8所示，transformer的网络检测模块，分别建立transformer编码器、transformer解码器以及FFN前馈神经网络；将上述多尺度特征图flatten成序列，结合每一个像素做位置编码，将编码后的多尺度特征图传到transformer编码器中经过四个部分分别是：多头注意力机制模块、Add&Norm模块、前向传播模块得到输出的编码值Query、Key、Value；

Transformer中的多头注意力模块：self-attention会计算出三个新的向量，我们把这三个向量分别称为Query、Key、Value，这三个向量是用embedding向量与一个矩阵相乘得到的结果，这个矩阵是随机初始化的，其值在反向传播的过程中会一直进行更新；计算self-attention的分数值，该分数值决定了某个位置的像素点对特征图中其他像素点的关注程度，这个分数值的计算方法是通过Q与K点乘(典型的attention操作)得到V的加权系数，然后对V加权求和；QKV的采样从上述多尺度特征图中分别采样，目的是能够根据多尺度特征图更有效的适应多尺度物体；通过注意力机制能够更好的集中于图片中主要的检测内容，突出滑雪板的某些重要特征；注意力机制的公式如下：

其中，Q表示查询向量，K表示被查询信息与其他信息的相关性的向量，V表示被查询信息的向量，Attention(Q,K,V)是注意力机制；

将transformer编码器的结果以及queries(可以看作是decoder的位置表达)传入到transformer解码器中进行解码操作；transformer解码器在结构上相比transformer编码器每层多了一个多头注意力机制和Add&Norm，目的是对query embeding与query pos进行学习，transformer解码器将N个object queries转换为N个输出embedding，将N个d维的特征嵌入使用多头自注意力机制和transformer编解码机制进行转换，然后独立地解码成box坐标和class标签，得到最终的N个预测结果；使用这些embedding的自注意力机制以及transformer编解码注意力特性，模型能够利用目标之的关系以及整张图像内容全局的推理所有目标；

对上述解码后的结果经过FFN前馈神经网络输出分类以及定位结果；所述前馈神经网络是由一个带有ReLU激活函数和隐藏维数d的3层感知器以及一个线性投影层来计算的；将最后一个transformer解码器的输出输入到前馈神经网络中，得到无序集合，直接预测bbox坐标以及类别；其中预测集合中有些是背景，因此使用空集表示该预测为noobject，即背景区域；

步骤3：在目标检测网络上使用训练集进行模型的训练，通过计算损失进行反向传播调整网络的权重，并在验证集上进行验证，从而选出最优的检测模型；

所述步骤3中的具体过程，改进ResNet50的特征提取模块使用在ImageNet数据集训练好的ResNet50模型，作为骨干的预训练模型，可变形卷积、CBAM注意力机制模块、transformer检测网络模块均采用随机初始化的方式从零开始训练，并通过随机裁剪对数据进行数据增强操作，通过学习率、批量大小、优化方法调整超参数来训练网络；因为骨干网络使用了预训练权重，所以开始只需要较低的学习率即可继续训练网络，而检测部分的网络开始需要较大的学习率，能够使网络尽快收敛，随着训练轮数的增加，学习率会下调直到网络达到收敛状态；在训练过程中使用匈牙利排序算法将GT和模型预测结果一一对应，使用匈牙利算法(二部图匹配方法)找到能够最小化匹配损失的最优排列方法，得到最优匹配结果；匈牙利匹配的策略公式计算如下所示：

求出最小损失的匹配策略

同时考虑了类别预测损失和真实框之间的相似度预测，对于σ(i)，c_i的预测类别置信度为

边界预测为

对于非空的匹配

定义为：

类别预测损失采用的是交叉熵损失，回归损失包括L1损失和GIOU损失的线性组合，回归损失的计算公式如下所示：

GIoU计算公式如下:

L_GIoU＝1-IoU(A，B)+|C-A∪B|/|C| (7)

其中，A是预测框，B是真实框，C是A和B的最小包围框；

其中，A表示预测框，B表示真实框，∩表示A与B的交集(重合部分面积)，∪表示A与B的并集(A与B的总面积，其中重合的部分只算一次)；

根据计算的损失结果反向传播去调整网络的权重参数；

步骤4：最优模型：训练过程中，每经过1轮存储一次模型，并将该模型在验证集上验证，根据验证集中滑雪板检测的最高精度mAP值选择最优的模型，用最优的模型检测细长类物体，得到最终的检测结果；

表1为细长类数据集下基于transformer的网络检测框架加入不同模块对本实施例中检测效果的影响：

表1

Transformer	可变形卷积	CBAM	AP	AP50	AP75	APs	APm	APl
									√			30.8	52.7	30.3	11.5	33.7	53.0
√	√		33.4	54.8	34.3	13.0	37.2	54.5
									√	√	√	35.1	56.6	38.0	14.8	39.2	55.8

实验结果如表1所示，transformer检测框架在细长物体中精度达到了30.8％，在transformer检测框架中嵌入可变形卷积将精度AP提升到33.4％，其中对小目标的细长类物体提升1.5％，中等目标提升3.5％，大目标提升1.5％，表明嵌入可变形卷积对细长类物体的有效性；在上述架构中引入CBAM注意力机制精度提升到了35.1％，同样对于小目标中等目标以及大目标都有所提升，从而也验证了引入CBAM注意力机制的有效性；

表2为细长类物体数据集在本实施例中的测试结果比较：

表2

算法	主干网络	AP	AP50	AP75	Aps	APm	APl
								Transformer	ResNet50	30.8	52.7	30.3	11.5	33.7	53.0
本发明	ResNet50	35.1	56.6	38.0	14.8	39.2	55.8

表2基于transformer的检测框架和本发明的检测框架即加入可变形卷积和CBAM注意力之后的对比，在相同数据集、相同环境配置以及相同骨干网络下进行训练与测试，实验结果如表2所示，基于transformer的检测精度为30.8％，然而本文的检测精度提升到了35.1％，其中在小目标细长物体上提升了3.3％，中等目标提升5.5％，大目标提升2.8％，综上所述，可以验证本发明方法对细长类物体检测的有效性；

表3

算法	主干网络	AP	AP50	AP75	APs	APm	APl
								Faster-RCNN	ResNet101	9.8	20.5	8.5	0.6	8.3	23
RepPoints	ResNet101	16.5	26.3	18.1	1.6	15.9	33.7
								FCOS	ResNet101	25.4	44.9	25.1	9.7	29.8	38.9
Transformer	ResNet101	30.3	51.8	30.2	9.5	34.2	52.3

上述表3验证了transformer的有效性，展示了基于transformer的检测算法与相关其他检测算法的测试对比结果，为了快速验证transformer的有效性，在相同数据集，相同环境配置以及相同骨干网络的条件下，本文不进行训练直接采用原作者的模型测试我们的细长类物体数据集，可以得出基于transformer的检测算法精度最高，从而验证transformer的有效性；

本发明是一种基于transformer的细长类物体目标检测方法，通过构建transformer网络检测模型并结合可变形卷积和CBAM注意力机制，改善普通卷积提取特征的不充分性以及检测的不准确性，从而提高检测精度。

Claims

1.一种基于transformer的细长类物体目标检测方法，其特征在于，包括如下步骤：

步骤4：基于步骤3中选出的最优检测模型进行测试，对测试集中的图片进行预测，得到最终的检测效果。

2.如权利要求1所述的一种基于transformer的细长类物体目标检测方法，其特征在于，所述步骤1的数据集：数据集分为训练集、验证集及测试集。

3.如权利要求1所述的一种基于transformer的细长类物体目标检测方法，其特征在于，所述步骤2中改进ResNet的特征提取模块：建立骨干网络，以ResNet为基础网络，将ResNet残差块中3×3卷积换成3×3可变形卷积，并生成特征图；

将改进ResNet的特征提取模块生成的第三层、第四层和第五层特征图以及CBAM特征图做进一步的卷积处理得到多尺度特征图。

4.如权利要求1所述的一种基于transformer的细长类物体目标检测方法，其特征在于，所述步骤2中transformer的网络检测模块，分别建立transformer编码器、transformer解码器以及FFN前馈神经网络；

将上述解码后的结果输入到FFN前馈神经网络输出分类以及定位结果。

5.如权利要求1所述的一种基于transformer的细长类物体目标检测方法，其特征在于，所述步骤3中的具体过程，改进ResNet的特征提取模块使用在ImageNet数据集训练好的ResNet模型，作为骨干的预训练模型，可变形卷积、CBAM注意力机制模块、transformer检测网络模块均采用随机初始化的方式从零开始训练，并通过随机裁剪对数据进行数据增强操作，通过学习率、批量大小、优化方法调整超参数来训练网络；在训练过程中使用匈牙利排序算法将GT和模型预测结果一一对应，使用匈牙利算法(二部图匹配方法)找到能够最小化匹配损失的最优排列方法，得到最优匹配结果；

根据计算的损失结果反向传播去调整网络的权重参数。

6.如权利要求1所述的一种基于transformer的细长类物体目标检测方法，其特征在于，所述步骤4中具体过程：训练过程中，每经过1轮存储一次模型，并将该模型在验证集上验证，根据验证集中细长类物体检测的最高精度mAP值选择最优的模型，用最优的模型检测细长类物体，得到最终的检测结果。