CN118397476A

CN118397476A - 一种遥感图像目标检测模型的改进方法

Info

Publication number: CN118397476A
Application number: CN202410824576.3A
Authority: CN
Inventors: 陈刚; 杨非凡; 段鉴书; 尤香婷; 赵正旭; 徐有恒; 易俊帆
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2024-06-25
Filing date: 2024-06-25
Publication date: 2024-07-26
Anticipated expiration: 2044-06-25
Also published as: CN118397476B

Abstract

本发明公开了一种遥感图像目标检测模型的改进方法，属于遥感图像目标检测技术领域。本发明的改进方法包括S1：搭建基于Transformer架构下的遥感图像目标检测模型；S2：构建轻量化改进模块；S3：将模型解码器中的自注意力模块替换为轻量化改进模块。本发明通过构建轻量化改进模块取代基于Transformer架构的遥感目标检测模型中的解码层中的部分自注意力模块，且随着输入的遥感图像的越大，所带来的计算成本降低效果越好；而且本发明轻量化改进模块可以在降低计算成本的同时，不降低模型的目标检测表现。

Description

一种遥感图像目标检测模型的改进方法

技术领域

本发明属于遥感图像目标检测技术领域，具体涉及一种遥感图像目标检测模型的改进方法。

背景技术

遥感图像，是指利用航空航天设备中的传感器拍摄所获得的图像，通常包括卫星影像、无人机摄影图像，雷达图像等等。使用遥感图像进行目标检测任务，通常可以应用在军事侦测、资源勘探、城市规划和灾害援救等方方面面，是一个热门的研究领域。

在遥感图像处理领域的更上一级的计算机视觉领域中，Detection Transformer(DETR)模型是使用Transformer架构实现目标检测任务的新途径。而在遥感图像的目标检测领域，使用DETR和其派生的模型还未受到太多关注。

但是对于遥感图像上的目标检测任务来说，遥感图像具有图像背景信息复杂，图像覆盖范围大等难题，增加了在遥感图像上目标检测的难度。当前遥感目标检测模型通常是使用卷积神经网络(CNN)模块来实现。但是随着Transformer架构在自然图像上取得十分优秀的表现，遥感领域也开始关注这个新型架构，Transformer中的自注意力模块相比于卷积模块来说，具有更加优秀的学习能力，但是这个自注意力模块相比于卷积模块也需要更多的计算成本。

发明内容

针对背景技术中提及的由于遥感图像背景信息复杂，覆盖范围大，增加了在遥感图像上目标检测的难度的问题，本发明提出了一种遥感图像目标检测模型的改进方法，针对使用Transformer架构的遥感图像目标检测模型的解码器阶段的自注意力模块，使用改进模块取代自注意力模块，可以在不影响模型表现的情况下获得更少的计算成本。

技术方案：为了解决上述技术问题，本发明采用的技术方案如下：

一种遥感图像目标检测模型的改进方法，包括以下步骤：

S1：搭建基于Transformer架构下的遥感图像目标检测模型；

S2：构建轻量化改进模块；

S3：将模型解码器中的自注意力模块替换为轻量化改进模块。

作为优选，在S1中，搭建基于Transformer架构下的遥感图像目标检测模型的具体内容包括：

输入层：将输入的遥感图像进行初步的特征提取，并压缩得到对应的特征图像；

编码器：编码器由多个编码层构成；每个编码层由一个自注意力模块、全连接模块组成；输入图像通过编码器后，会从一张二维特征图像变为由一维特征向量组成的特征序列；

解码器：解码器由多个解码层构成，每个解码层由一个自注意力模块、交叉注意力模块和全连接模块组成；解码器利用编码层提取出来的特征序列做特征解码，不断地迭代学习目标候选框所对应的空间位置和类别；

输出层：包括两个全连接模块，一个全连接模块用于输出目标候选框的空间位置，另一个全连接模块用于输出候选框中包含的目标的类别。

作为优选，在S2中，构建轻量化改进模块的具体内容为：

，

其中，ECA是一个通道注意力模块，用来做不同维度间的信息交换；FC₁是全连接模块，用来将输入数据的维度d扩展到2×d，FC₂是全连接模块，用来将输入数据的维度从2×d还原到d；GeLU是神经网络的激活函数，x是解码层输入的形状为n×d的一维向量序列；Block是弱注意力子模块。

作为优选，弱注意力子模块的计算公式如下：

，

其中，Conv₁是一个二维卷积模块，用来将扩展后的维度2×d通过卷积降维为d；PwC是一个逐点卷积模块，使数据在同一位置上不同维度之间做信息交换；GeLU是神经网络的激活函数；Conv₂是一个二维卷积模块，用来将维度从d还原回2×d；DwC是一个逐通道卷积模块，将同一维度、不同位置的数据做信息交换。

作为优选，在S2中，构建的轻量化改进模块的计算复杂度的具体内容包括：

首先，在解码层中输入n个维度为d的一维向量组成的序列，该一维向量序列在通过解码器的所有解码层后，被输入到最后的输出层模块，从而得到候选目标空间位置和类别；

1）计算一维向量序列数据通过全连接模块FC₁的计算复杂度；

2）计算一维向量序列通过GeLU激活函数的计算复杂度；

3）计算一维向量序列通过弱注意力子模块的计算复杂度；

4）计算一维向量序列通过全连接模块FC₂的计算复杂度；

5）计算一维向量序列通过通道注意力模块的计算复杂度。

作为优选，计算一维向量序列数据通过全连接模块FC₁的计算复杂度的具体内容为：

单个一维向量数据对于全连接模块的计算量取决于输入数据的维度d和输出的维度2×d，其计算复杂度表示为O(2×d×d)，n个一维向量数据的计算复杂度为O(2×n×d×d)；FC₁的计算复杂度为O(d×d×n)；

计算一维向量序列通过GeLU激活函数的计算复杂度的具体内容为：

GeLU激活函数的计算复杂度为O(n×d)；

计算一维向量序列通过弱注意力子模块的计算复杂度的具体内容为：

弱注意力子模块中，两个二维卷积模块Conv₁和Conv₂的计算复杂度都为O(n×d×d)，一个GeLU激活函数的计算复杂度为O(n×d)，PwC和DwC的计算复杂度都为O(n×d×d)；弱注意力子模块的计算复杂度为O(n×d×d)；

计算一维向量序列通过全连接模块FC₂的计算复杂度的具体内容为：

全连接模块FC₂的计算复杂度为O(d×d×n)；

计算一维向量序列通过通道注意力模块的计算复杂度的具体内容为：

通道注意力模块的计算复杂度为O(n×d+d×d)；

轻量化改进模块总的计算复杂度表示为O(n×d×d)的计算量级。

作为优选，在S3中，将模型解码器中的自注意力模块替换为轻量化改进模块的具体内容包括：

在最终的模型组成中，使用构建好的轻量化改进模块分别替换模型解码器中第二个和第三个解码层中的自注意力模块。

一种遥感图像目标检测模型的改进方法的应用，将上述所述的遥感图像目标检测模型的改进方法应用于遥感图像目标检测中。

有益效果：与现有技术相比，本发明具有以下优点：

（1）本发明是基于Transformer架构下的遥感目标检测神经网络模型的改进，通过构建轻量化改进模块取代基于Transformer架构的遥感目标检测模型中的解码层中的部分自注意力模块，且随着输入的遥感图像越大，所带来的计算成本降低效果越好。

（2）遥感图像的数据规模十分巨大，改进自注意力模块可以降低基于Transformer架构的遥感目标检测模型的计算成本，可以为有关部门的大规模遥感图像目标检测任务提供便利；而且本发明轻量化改进模块通常在降低计算成本的同时不会降低模型的目标检测表现。

附图说明

图1是本发明实施例二的遥感图像目标检测模型的改进方法的轻量化改进模块的结构示意图；

图2是本发明实施例二的遥感图像目标检测模型的改进方法的输出结果样例图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

实施例一

现有的基于Transformer架构的目标检测模型解码阶段，通常是使用多头自注意力模块（MSA）、交叉注意力模块（CA）和一个全连接模块构成一个解码层，整个解码阶段就是由六个解码层构成。自注意力模块的理论公式如下：

，

其中，Q、K、V都是指输入到模块中的一维向量序列通过一个变换矩阵后得到的子矩阵，d_k是一个放缩因子，Softmax是一个归一化指数函数；K^T表示K矩阵的转置，Attention表示自注意力机制的结果。

在实际的解码阶段中，通常输入到注意力模块的是一些随机初始化的一维向量序列，序列的长度通常等于候选框的数量，每一个一维向量在通过解码层后，都能学习到一定的空间信息，在通过所有解码层后，最终的向量序列会通过两个全连接层来输出最终的目标位置和类别，以实现在图像上目标检测。

图像上的不同目标通常具有不同的样式，单个注意力机制并不能像卷积神经网络那样学习到不同的样式，所以通用的做法是使用多头注意力机制，具体计算公式如下：

，

其中，head表示前面提及的自注意力机制的结果，Concat表示将不同head串联起来，并乘以权重矩阵W⁰。不同的head学习图像目标不同的样式，最后自注意力机制的结果按照不同权重(W⁰)组合在一起就是多头自注意力机制。

假设想要在图像上识别出n个候选框，那么需要在解码层中输入n个维度为d的一维向量，它们首先通过一个变换矩阵得到Q、K、V三个子矩阵，计算量为O(n×d×d)，如果是设计h个头的话，则是O(h×n×d×d)。然后Q和K两个矩阵的点乘，以及它们结果和V矩阵的点积结果的计算量都是O(h×n×n×d)，所以一个多头自注意力模块的计算量可以看作是O(h×n×d×d + h×n×n×d)。

如果图像上的目标候选框的数量n比较多，则主要计算量取决于n的平方。显然，在遥感图像上，很容易出现密集目标识别的任务，这时候，目标框数量n会带来平方级的计算成本增加。

实施例二

本实施例旨在针对基于Transformer架构下的遥感目标检测神经网络模型的改进，改进模块主要是针对使用Transformer架构的遥感图像目标检测模型的解码器阶段的自注意力模块，使用改进模块取代自注意力模块，可以在不影响模型表现的情况下获得更少的计算成本。

本实施例提供的遥感图像目标检测模型的改进方法，包括以下步骤：

S1：搭建基于Transformer架构下的遥感图像目标检测模型，具体内容包括：

输入层：通常也被叫做骨架（Backbone)，一般选择带有预训练权重的ResNet50神经网络。其主要作用是将输入的遥感图像进行初步的特征提取，并压缩得到一个更小范围的对应的特征图像。

编码器：对输入的特征图像进行特征提取的编码器（Encoder)，编码器是由多个编码层（Encoder Layer）构成，这个层数通常是被人为设定为6层。对于每个编码层，通常是由一个自注意力模块、全连接模块组成。输入图像通过编码器模块后，会从一张二维特征图像变为由一维特征向量组成的特征序列，这些序列数据会被用到解码器（Decoder）中的交叉注意力模块的计算，帮助完成图像上目标的正确检测。

解码器：利用编码层提取出来的特征数据做特征解码，不断地迭代学习目标候选框所对应的空间位置和类别，解码器主要是由多个解码层（Decoder Layer）构成，这个层数通常是被人为设定为6层。对于每个解码层，通常是由一个自注意力模块、交叉注意力模块、全连接模块组成。这一阶段的输入数据，除了前面编码层的输出的特征数据以外，还有一个人为设定数量的可学习的序列数据，这个序列数据的数量，就对应模型需要学习的目标候选框的数量，通常输入遥感图像的大小的越大，所需要的目标候选框的数量就越大。

输出层：这一部分主要包含两个全连接模块，一个全连接模块用于输出目标候选框的空间位置，一个用于输出候选框中所包含的目标的类别。

S2：构建轻量化改进模块，具体为：

如图1所示，本发明的轻量化改进模块被命名为SkipDecoder（SD），主要目的和应用范围是降低计算量但又尽可能不降低模型表现，该模块的定位是一个轻量化的弱注意力模块，其计算公式为：

，

其中，有效通道注意力（Efficient Channel Attention，ECA）是一个利用卷积函数实现的一个通道注意力模块，用来做不同维度间的信息交换；FC₁是全连接模块（FullyConnected Layer），用来将输入数据的维度d扩展到2×d，FC₂是全连接模块，用来将输入数据的维度从2×d还原到d；GeLU是神经网络的激活函数，x是解码层输入的形状为n×d的一维向量序列，Block是弱注意力子模块。

Block的计算公式如下：

，

其中，Conv₁表示为一个输入通道数为2×d，输出通道数为d，卷积核大小为3，填充为1，分组为d的二维卷积模块，主要作用是帮助扩展后的维度2×d通过卷积降维为d，能充当自注意力模块中的通过一个变换矩阵得到Q、K、V三个子矩阵一样的作用。

而PwC（Pointwise Convolution）是一个逐点卷积模块，它能够让数据在同一位置上不同维度之间做信息交换。

Conv₂是一个输入通道为d，输出通道为2×d，卷积核大小为3，填充为1，分组为d的二维卷积模块，它的主要作用是将维度从d还原回2×d。

DwC（Depthwise Convolution）是一个逐通道卷积模块，它是让同一维度，不同位置的数据做信息交换。

GeLU是神经网络的激活函数，用来加入非线性的性质。

通过一个这样的Block，可以实现一个轻量化的自注意力机制的效果。

构建的轻量化改进模块的计算复杂度的具体内容包括：

首先，在解码层中输入n个维度为d的一维向量组成的序列，这个一维向量序列会在通过解码器的所有解码层后，被输入到最后的输出层模块，从而得到候选目标空间位置和类别，而这里序列的一维向量的数量n也代表了候选框的数量。

1）计算一维向量序列数据通过轻量化改进模块的全连接模块FC₁的计算量；

一维向量序列数据会首先通过轻量化改进模块的全连接模块FC₁，单个一维向量序列数据对于全连接模块的计算量取决于输入数据的维度d和指定输出的维度2×d，其计算复杂度表示为O(2×d×d)，n个一维向量序列数据的计算复杂度为O(2×n×d×d)。

而在计算复杂度的表示中，通常会忽略掉常数因子，因为更需要关注的是随着输入规模n和d的增长，计算复杂度如何变化。因此，这里的计算复杂度和后面的计算复杂度都会忽略常数因子，即FC₁的计算复杂度为O(d×d×n)。

2）一维向量序列通过GeLU激活函数的计算复杂度为O(n×d)。

3）计算一维向量序列通过弱注意力子模块的计算复杂度；

弱注意力模块中，两个二维卷积模块Conv₁和Conv₂的计算复杂度都为O(n×d×d)，一个GeLU激活函数的计算复杂度为O(n×d)，PwC和DwC的计算复杂度也都为O(n×d×d)。

即一个弱注意力子模块的计算量约为O(n×d×d+n×d×d+n×d×d+n×d)，忽略掉常数因子，可以简化为O(n×d×d)的计算复杂度；

4）FC₂的计算复杂度和FC₁一样为O(d×d×n)。

5）ECA的计算复杂度为O(n×d+d×d)。

总的来说，轻量化改进模块的最终的总的计算复杂度为O(n×d×d)的计算量级。

与实施例一中的自注意力模块的O(n×n×d)计算量相比，本实施例的轻量化改进模块的计算复杂度为O(n×d×d)，轻量化改进模块的计算量大小，取决于输入到模块的一维向量的维度d（一般设置是d = 256），而候选框n的数量，通常是根据输入图像的大小而设计的，如遥感领域的公共数据集NWPU VHR-10中的400×400像元大小的无人机摄影图像，在模型中候选框n通常是设置至少300个候选框，而如果输入图像更大，像是遥感图像公共数据集DIOR中的图像大小为800×800，则需要更多的候选框数量带来更好的模型表现。

在实际应用中，候选框数量n通常是大于d的，且随着输入图像的大小越大，n越大。所以，随着输入到模型中的被检测遥感图像的大小的增大，轻量化改进模块对比自注意力模块的计算成本，带来的计算成本降低越显著。

在本实施例中，轻量化改进模块SD的计算复杂度表达为O(n×d×d)的计算量级。与现有自注意力模块的O(n×n×d)计算复杂度相比，SD的计算量大小，取决于输入到模块的一维向量的维度d，这通常是一个固定的值，且小于候选框n的数量。候选框数量n的大小通常是根据输入图像的大小而设计的，如果输入图像更大，则需要更多的候选框带来更好的模型表现。

S3：将模型解码器中的自注意力模块替换为轻量化改进模块，具体为：

模型解码器中总共有6个一样组成的解码层，而SD相比于自注意力模块的解码能力来说，在取得了更少计算成本的同时，会损失一定的解码能力，所以SD模块只能取代部分解码层中的自注意力模块，来保证降低计算成本的同时不影响模型的表现。

如图2所示，为模型输出结果样例图，包括目标的所在位置识别框和对应类别的概率。

如下表1所示，为本实施例的遥感目标检测模型对比通用模型在公共数据NWPUVHR-10上的模型表现结果；本实施例选用NWPU VHR-10遥感目标检测公共数据集以及包括DINO和DINO-SD模型，DINO-SD模型是本实施例在DINO模型上替换了SD模块后的模型；检测目标包括飞机、船、油罐、棒球场、网球场、篮球场、田径场、桥、载具。

表1 模型效果对比表

本实施例在基于Transformer的遥感目标检测模型DINO上进行了SD模块的改进，可以看到DINO模型在遥感目标检测公共数据集NWPU VHR-10上的mAP50检测精度没有本实施例使用SD模块后的DINO-SD模型平均精度高，且本申请的DINO-SD模型将DINO模型在遥感目标检测公共数据集NWPU VHR-10上的mAP50检测精度从92.1%提升至92.8%，符合SD模块的定位，即在不影响模型表现的情况下降低计算成本的作用。

实施例三

本实施例提供一种遥感图像目标检测模型的改进方法的应用，将实施例二的遥感图像目标检测模型的改进方法应用于遥感图像目标检测中，使用遥感图像进行目标检测任务，通常可以应用在军事侦测、资源勘探、城市规划和灾害援救方面。

使用实施例二中构建好的轻量化改进模块针对使用Transformer架构的遥感图像目标检测模型的解码器阶段的自注意力模块进行更换，具体是利用构建好的轻量化改进模块分别替换模型解码器中第二个和第三个解码层中的自注意力模块。

本实施例的遥感图像目标检测模型的改进方法的应用通过使用改进模块取代自注意力模块，可以在不影响模型表现的情况下获得更少的计算成本，且随着输入的遥感图像越大，所带来的计算成本降低效果越好，解决了由于遥感图像背景信息复杂，覆盖范围大，在遥感图像上目标检测的难度大、计算成本高的问题。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种遥感图像目标检测模型的改进方法，其特征在于：包括以下步骤：

S1：搭建基于Transformer架构下的遥感图像目标检测模型；

S2：构建轻量化改进模块；

2.根据权利要求1所述的遥感图像目标检测模型的改进方法，其特征在于：在S1中，搭建基于Transformer架构下的遥感图像目标检测模型的具体内容包括：

3.根据权利要求1所述的遥感图像目标检测模型的改进方法，其特征在于：在S2中，构建轻量化改进模块的具体内容为：

，

其中，ECA是一个通道注意力模块，用来做不同维度间的信息交换；FC₁是全连接模块，用来将输入数据的维度d扩展到2×d，FC₂也是一个全连接模块，用来将输入数据的维度从2×d还原到d；GeLU是神经网络的激活函数，x是解码层输入的形状为n×d的一维向量序列；Block是弱注意力子模块。

4.根据权利要求3所述的遥感图像目标检测模型的改进方法，其特征在于：弱注意力子模块的计算公式如下：

，

5.根据权利要求3所述的遥感图像目标检测模型的改进方法，其特征在于：在S2中，构建的轻量化改进模块的计算复杂度的具体内容包括：

2）计算一维向量序列通过GeLU激活函数的计算复杂度；

3）计算一维向量序列通过弱注意力子模块的计算复杂度；

4）计算一维向量序列通过全连接模块FC₂的计算复杂度；

5）计算一维向量序列通过通道注意力模块的计算复杂度。

6.根据权利要求5所述的遥感图像目标检测模型的改进方法，其特征在于：计算一维向量序列数据通过全连接模块FC₁的计算复杂度的具体内容为：

GeLU激活函数的计算复杂度为O(n×d)；

全连接模块FC₂的计算复杂度为O(d×d×n)；

计算一维向量序列通过通道注意力模块ECA的计算复杂度的具体内容为：

通道注意力模块的计算复杂度为O(n×d+d×d)；

轻量化改进模块总的计算复杂度表示为O(n×d×d)的计算量级。

7.根据权利要求1所述的遥感图像目标检测模型的改进方法，其特征在于：在S3中，将模型解码器中的自注意力模块替换为轻量化改进模块的具体内容包括：

8.一种遥感图像目标检测模型的改进方法的应用，其特征在于：将权利要求1-7中任一项所述的遥感图像目标检测模型的改进方法应用于遥感图像目标检测中。