CN113283409A

CN113283409A - 基于EfficientDet和Transformer的航空图像中的飞机检测方法

Info

Publication number: CN113283409A
Application number: CN202110835879.1A
Authority: CN
Inventors: 王彦锋; 周鑫; 井田; 王涛; 黄美根; 林木; 王维平; 朱一凡; 朱莹莹; 周涛
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-08-20
Anticipated expiration: 2041-07-23
Also published as: CN113283409B

Abstract

本发明公开了基于EfficientDet和Transformer的航空图像中的飞机检测方法,所述TransEffiDet架构包括有建立数据集模块、EfficientDet模块、BiFPN模块、可变形Transformer模块和实施细节模块。本发明通过设置有可变形Transformer模块优化网络结构,引入多尺度可变形自关注MS‑DMSA机制来实现有效的长距离语境建模，通过元素相加将位置编码与扁平化的特征图结合起来，形成Transformer的输入序列，保护空间信息不被丢失。

Description

基于EfficientDet和Transformer的航空图像中的飞机检测方法

技术领域

本发明涉及飞机检测技术领域，具体为基于EfficientDet和Transformer的航空图像中的飞机检测方法。

背景技术

近年来，基于图像数据的分析和优化算法一直是研究热点方向，基于航空图像的飞机检测可以为准确的物体打击提供数据支持，其中卷积CNN神经网络作为较为成熟的算法，其内部含有的卷积层，其内部的每层卷积层由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法优化得到，卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征，因而大量用于航空图像中的飞机检测中。

现有的飞机检测方法存在的缺陷是：

1、目前大多通过CNN的方法来实现图像检测,但是由于CNN的内部含有卷积层,在卷积操作的内在定位性的限制即卷积核不可能覆盖整个高分辨率图像,基于CNN的方法很难捕捉到长距离的信息,导致图像检测结果的精度不高；

2、目前大多采用PANet架构来进行特征网络的构建,但是PANet架构只有一条自上而下和一条自下而上的路径,对特征网络融合不同特征的贡献较小;

3、目前在图像检测过程中，大多将CNN编码器{P5}产生的特征图压扁为一维序列，然而扁平化特征的操作导致了空间信息的丢失，而空间信息对于图像分割是至关重要的影响因素。

发明内容

本发明的目的在于提供基于EfficientDet和Transformer的航空图像中的飞机检测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于EfficientDet和Transformer的航空图像中的飞机检测方法，包括TransEffiDet架构，所述TransEffiDet架构基本遵循单阶段目标检测方法的模式，所述TransEffiDet架构包括有建立数据集、EfficientDet模块、BiFPN模块、可变形Transformer模块和实施细节；

所述建立数据集的输出端连接有EfficientDet模块，所述EfficientDet模块的输入端连接有BiFPN模块，所述BiFPN模块的输出端连接有可变形Transformer模块，所述可变形Transformer模块的输出端连接有实施细节，所述EfficientDet模块包括有P1、P2、P3、P4、P5、P6和P7七级特征；

检测方法工作步骤如下：

步骤一、建立数据集；

步骤二、通过EfficientDet模块建立骨干网络，从骨干网络中提取3—7级特征{P3、P4、P5、P6、P7}，并反复应用自上而下和自下而上的双向特征融合BiFPN网络；

步骤三、通过可变形Transformer模块进行数据处理，实现网络结构优化；

步骤四、其他细节处理；

步骤五、进行结果分析，通过视觉检测和消融研究。

优选的，所述建立数据集模块作为评估所提方法性能的基准，所述EfficientDet模块为主干网络，所述BiFPN模块为特征网络，所述可变形Transformer模块为优化网络。

优选的，所述可变形Transformer模块包括有输入序列转换、可变形Transformer层、MS-DMSA层和特征融合模块。

优选的，所述可变形Transformer层由一个MS-DMSA层和一个前馈网络组成，每个层之后都要进行规范化处理，每个子层中都采用跳过连接策略。

优选的，所述BiFPN模块只拥有一个输入的节点被删除，每个双向即自上而下和自下而上的路径视为一个特征网络层，并多次重复同一层。

优选的，所述输入序列转换包括有编码器和解码器。

优选的，所述实施细节包括有数据增强策略、优化预训练的权重和其他优化方法。

优选的，所述数据集图像的典型分辨率为1600×1024，3500×2280像素，数据集中的每张图像可能包含战斗机、武装直升机、轰炸机、预警机和客运飞机，而且数据集中的每张图像包含不同数量的飞机物体，且飞机图像的标签包含飞机的边界框和飞机的类型。

优选的，所述可变形Transformer模块处理数据的步骤如下：

S1.输入到序列的转换

在编码器和解码器堆栈底部的输入嵌入中加入位置编码，使用不同频率的正弦和余弦函数来计算每个维度pos的位置坐标，如下所示：

其中pos是位置，是CNN特征图的维度,i是控制不同位置的频率,dmodel是特征图的维度,对于每个特征层，我们通过元素相加将位置编码与扁平化的特征图结合起来，形成Transformer的输入序列；

S2.MS-DMSA层

给定一个输入特征图

，让q索引一个具有内容特征

和2维参考点的查询元素

，可变形注意力特征的计算方法是:

其中，m索引注意力头，k索引被采样的键，K是被采样的总键数，M是注意力头的数量。

和分别表

m个注意力头中第k个采样点的采样偏移和注意力权重；

S3.结构优化的特征融合模块

Transformer模块由

（=12)层组成，阶梯长度均匀地取出N个特征作为特征融合模块的输入，本申请中N设置为2，对于可变形Transformer层输出的每个特征序列：

首先将其重塑为一个与P5大小相同的二维特征图，并对每个二维特征图采用核大小的卷积层，该卷积层的输出通道被减半，为了结合Transformer捕获的全局上下文信息和EfficientDet骨干提取的丰富局部语义信息，将所有通道减半的特征图和输入特征图P5连接起来，得到一个特征图；

最后，该特征图被送入具有核大小和相同通道的卷积层，进行特征自适应校准，得到最终的融合特征，将第六层和第十二层Transformer的输出和用来产生{P6}层的输入，这样可以更好地获得不同层的特征，并保持计算和效率的平衡，具体来说，这两张调整后的特征图被串联起来，最后通过卷积函数得到特征。

与现有技术相比，本发明的有益效果是：

1、本发明通过采用可变形Transformer模块优化网络结构,引入多尺度可变形自关注MS-DMSA机制来实现有效的长距离语境建模，通过元素相加将位置编码与扁平化的特征图结合起来，形成Transformer的输入序列，保护空间信息不被丢失，通过只关注参考位置周围的一小部分关键采样位置，而不是所有位置的MS-DMSA层来提高收敛速度，而可变形Transformer层内部每个子层中都采用了跳过连接策略，以避免梯度消失，解决Transformer和CNN骨干的特征图之间的尺寸不一致问题。

2、本发明通过采用BiFPN网络作为特征网络对跨尺度连接进行，第一，与PANet相比，BiFPN网络只拥有一个输入的节点被删除，因为如果一个节点在没有特征融合的情况下只有一个输入，它对特征网络融合不同特征的贡献较小；第二，在每一层中，从输入节点到输出节点增加一条边，这种设置可以在不增加太多额外计算成本的情况下整合更多的特征；第三，与PANet只有一条自上而下和一条自下而上的路径不同，BiFPN网络将每个双向即自上而下和自下而上的路径视为一个特征网络层，并多次重复同一层，以实现更高级的特征融合，使用快速归一化融合，使每个归一化权重的值也在0和1之间，由于快速归一化融合中没有softmax操作，故而效率更高。

3、本发明通过在P5和P6之间添加了12个的可变形Transforme，进而提高了在全局背景下的建模效率。

附图说明

图1为本发明的整体流程结构示意图；

图2为本发明的TransEffiDet的示意图；

图3为本发明的卷积核的接受域示意图；

图4为本发明的Transformer的详细尺寸及变化示意图；

图5为本发明的PANet和BiFPN架构示意图；

图6为本发明的Transformer和特征融合模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图6，本发明提供的一种实施例:基于EfficientDet和Transformer的航空图像中的飞机检测方法，包括TransEffiDet架构，所述TransEffiDet架构基本遵循单阶段目标检测方法的模式，所述TransEffiDet架构包括有建立数据集、EfficientDet模块、BiFPN模块、可变形Transformer模块和实施细节；

检测方法工作步骤如下：

步骤一、建立数据集；

步骤四、其他细节处理；

步骤五、进行结果分析，通过视觉检测和消融研究，视觉检测:在一些典型图像上可看出与EfficientDet方法相比，提出的TransEffiDet可以实现更精确的检测，EfficientDet产生的检测框比真实物体大或小，导致较低的精度,而TransEffiDet产生的检测框可以达到更好的精度,由于某些类型的飞机是相似的,导致EfficientDet方法会产生一些飞机的假阳性结果,从而使得网络很难检测到这些类似的物体,Transformer可以提供对提取的特征图的长距离依赖，并进一步使网络集中于飞机的特征,进而消除假阳性结果,提升精度；

消融研究:其中mAP被用来评估性能，通过使用融合的方法，即连接（Cat），添加（Add），不同层的输入和Transformer的输出Z⁴（Z⁶ ，Z⁸，Z¹²），以获得最佳的融合特征表示，Transformer

的所有输出被送入卷积层（核大小^3*3），其中有（*/半）和没有特征通道减半的操作，*代表输入和不同转化器层的输出，如下表所示：

从上表中模型1、2和8的结果，可以看到一个明显的趋势，即添加的特征图越多，性能越好，与模型1相比，模型2通过添加Transformer中间层的特征图明显提高了性能。模型4通过在最终融合特征中引入输入，获得了进一步提高的性能，此外，为了探索特征融合方式的影响，建立了模型3、4和5，我们可以看到，连接融合方式可以获得相对较好的检测结果，这是由于简单的加法不能很好地整合不同的特征图，最后，构建模型6和7，以进一步证明所提出的特征融合模块的有效性，通过结合Transformer的长期建模能力和输入特征的丰富局部信息，导致模型8的良好表现。

所述建立数据集模块作为评估所提方法性能的基准，所述EfficientDet模块为主干网络，所述BiFPN模块为特征网络，所述可变形Transformer模块为优化网络。

所述可变形Transformer模块包括有输入序列转换、可变形Transformer层、MS-DMSA层和特征融合模块。

所述可变形Transformer层由一个MS-DMSA层和一个前馈网络组成，每个层之后都要进行规范化处理，每个子层中都采用跳过连接策略。

所述BiFPN模块只拥有一个输入的节点被删除，每个双向即自上而下和自下而上的路径视为一个特征网络层，并多次重复同一层。

所述输入序列转换包括有编码器和解码器。

所述实施细节包括有数据增强策略、优化预训练的权重和其他优化方法，其中数据增强策略采用数据增强的方法，通过在图像中加入不同的特征变量来实现不同的特征学习，为了在保留基本特征的同时扩大训练数据集，数据增强被仔细地应用于生成新的图像集，在训练数据集中包含了各种随机变化，包括移动、旋转、缩放和水平或垂直翻转，优化预训练的权重处于高阶特征是在Imagenet数据集上学习的，可能与飞机的检测没有直接关系，因此重新训练了一些卷积块来微调分类任务的权重，加强飞机检测之间的联系，在其他优化方法方面，为了减少内存需求，我们将图像的大小调整为768×768的分辨率进行训练，减少内存需求。

所述数据集图像的典型分辨率为1600×1024，3500×2280像素，数据集中的每张图像可能包含战斗机、武装直升机、轰炸机、预警机和客运飞机，而且数据集中的每张图像包含不同数量的飞机物体，且飞机图像的标签包含飞机的边界框和飞机的类型。

所述可变形Transformer模块处理数据的步骤如下：

S1.输入到序列的转换

S2.MS-DMSA层

给定一个输入特征图

，让q索引一个具有内容特征

和2维参考点的查询元素

，可变形注意力特征的计算方法是:

和分别表

m个注意力头中第k个采样点的采样偏移和注意力权重；

S3.结构优化的特征融合模块

Transformer模块由

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.基于EfficientDet和Transformer的航空图像中的飞机检测方法，包括TransEffiDet架构，其特征在于：所述TransEffiDet架构基本遵循单阶段目标检测方法的模式，所述TransEffiDet架构包括有建立数据集、EfficientDet模块、BiFPN模块、可变形Transformer模块和实施细节；

检测方法工作步骤如下：

步骤一、建立数据集；

步骤四、其他细节处理；

步骤五、进行结果分析，通过视觉检测和消融研究。

2.根据权利要求1所述的基于EfficientDet和Transformer的航空图像中的飞机检测方法，其特征在于：所述建立数据集模块作为评估所提方法性能的基准，所述EfficientDet模块为主干网络，所述BiFPN模块为特征网络，所述可变形Transformer模块为优化网络。

3.根据权利要求1所述的基于EfficientDet和Transformer的航空图像中的飞机检测方法，其特征在于：所述可变形Transformer模块包括有输入序列转换、可变形Transformer层、MS-DMSA层和特征融合模块。

4.根据权利要求3所述的基于EfficientDet和Transformer的航空图像中的飞机检测方法，其特征在于：所述可变形Transformer层由一个MS-DMSA层和一个前馈网络组成，每个层之后都要进行规范化处理，每个子层中都采用跳过连接策略。

5.根据权利要求1所述的基于EfficientDet和Transformer的航空图像中的飞机检测方法，其特征在于：所述BiFPN模块只拥有一个输入的节点被删除，每个双向即自上而下和自下而上的路径视为一个特征网络层，并多次重复同一层。

6.根据权利要求3所述的基于EfficientDet和Transformer的航空图像中的飞机检测方法，其特征在于：所述输入序列转换包括有编码器和解码器。

7.根据权利要求1所述的基于EfficientDet和Transformer的航空图像中的飞机检测方法，其特征在于：所述实施细节包括有数据增强策略、优化预训练的权重和其他优化方法。

8.根据权利要求1所述的基于EfficientDet和Transformer的航空图像中的飞机检测方法，其特征在于：所述数据集图像的典型分辨率为1600×1024，3500×2280像素，数据集中的每张图像可能包含战斗机、武装直升机、轰炸机、预警机和客运飞机，而且数据集中的每张图像包含不同数量的飞机物体，且飞机图像的标签包含飞机的边界框和飞机的类型。

9.根据权利要求1所述的基于EfficientDet和Transformer的航空图像中的飞机检测方法，其特征在于，所述可变形Transformer模块处理数据的步骤如下：

S1.输入到序列的转换