CN116452972B

CN116452972B - 一种基于Transformer端到端的遥感图像车辆目标检测方法

Info

Publication number: CN116452972B
Application number: CN202310260547.4A
Authority: CN
Inventors: 沈瑜; 许佳文; 刘广辉; 梁煜东; 严源; 宋婧; 王海龙; 梁丽
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2024-06-21
Anticipated expiration: 2043-03-17
Also published as: CN116452972A

Abstract

本发明涉及遥感图像处理领域，具体为一种基于Transformer端到端的遥感图像车辆目标检测方法，有效的解决了遥感图像因分辨率较低、背景复杂、检测目标较小且密集而导致的漏检及错检的情况；实现步骤为：首先，首先将数据输入网络中进行数据预处理，通过水平翻转、垂直翻转、随机选取和裁剪等数据增强方式扩充数据训练集。其次，通过在主干网络ResNet采用新的卷积神经网络SPD‑Conv对特征图进行降采样。再次，引入采用了SMU激活函数的轮询采样模块和池化采样模块减少背景区域的空间冗余计算。最后，在Transformer网络中引入残差自注意网络来减轻秩崩溃。本发明可以提高遥感图像车辆目标检测的精度和效率。

Description

一种基于Transformer端到端的遥感图像车辆目标检测方法

技术领域

本发明涉及遥感图像处理领域，具体为一种基于Transformer端到端的遥感图像车辆目标检测方法。

背景技术

随着经济水平和汽车产业的快速发展，道路交通运输车流量大幅度增加，智能交通成为了智慧城市管理的关键组成部分。因遥感图像中具有覆盖范围广、获取的数据丰富、执行效率高，同时可以长时间且跨地域地检测地面车辆目标，使得遥感图像车辆目标检测在城市智能交通领域加具有优势。传统的遥感图像车辆目标检测方法大多是基于手工设计特征的方式，需要先验知识的，可解释性较强,但是特征表达能力弱、鲁棒性差、适应范围小,很难取得较好的检测效果。因此，一种高效准确的目标检测算法来应用于遥感图像车辆目标检测，能使得车辆检测的精度和效率显著提高。但由于遥感图像的覆盖范围都非常广阔，绝大部分都是背景区域且部分遥感图像会因大气失真、照明和视点变化、部分遮挡，而待检测的目标有限，且目标较小且密集、方向多样化、形状差异大等特性，导致检测的精度和效率不够理想以及收敛较慢，存在很多漏检和错检的情况。

发明内容

针对以上技术问题，本发明提出一种基于Transformer端到端的遥感图像车辆目标检测方法。本发明将一种新的卷积神经网络模块SPD-Conv应用到主干网络ResNet50中来提取网络特征图，对提取到的网络特征图经过轮询采样模块和池化采样模块分别提取到精细特征图和粗略特征图，然后在具有直接映射连接结构的Transformers网络中完成信息融合，最后通过前馈神经网络得到检测结果，能够提高小目标、密集目标以及图像分辨率较低的遥感图像中检测车辆的精度和效率，减少漏检和错检的情况。

为了实现所述目的，本发明采用的具体实施方案如下：

一种基于Transformer端到端的遥感图像车辆目标检测方法，包括：

S1、获取待检测的遥感图像，并对所述遥感图像进行数据预处理；

S2、将处理的图像输入到采用新的卷积神经网络模块SPD-Conv的主干网络ResNet50中转换为尺度特征，得到网格结构图像特征图；

S3、将网格结构图像特征图进行离散采样输入到轮询采样模块中，得到精细特征图；

S4、将经过轮询采样模块之后剩余的特征向量在池化采样模块中进行加权池化，得到粗略特征图；

S5、Transformers中具有直接映射连接结构的编码器和解码器对精细和粗略特征图进行信息的融合；

S6、使用损失函数对网络进行调参，当损失函数值最小时，前馈神经网络输出每个目标对象的类别和位置，否则重复步骤S3～S6。

所述目标检测方法的算法网络主干网络ResNet50采用新的卷积神经网络模块SPD-Conv，轮询采样模块和池化采样模块使用SMU激活函数提取精细和粗略特征图，Transformers的编码器和解码器采用残差自注意力网络。

所述数据预处理为归一化处理和数据增强，数据增强操作方式为：水平翻转、垂直翻转、随机选取和裁剪；归一化处理采用最大最小标准化，将数据归一化到[0,1]。

所述S2中，新的卷积神经网络模块SPD-Conv，所有的子特征图切片计算式为：

f_0,scale-1＝X[0:S:scale,scale-1:S:scale],f_1,scale-1,...,f_{scale-1,scale-1}

＝X[scale-1:S:scale,scale-1:S:scale]

式中，特征图X的大小为S×S×C₁，子特征图由X(i,j)组成，i+x和j+y可按比例整除，子特征图按照比例因子向下采样。

所述S3中，轮询采样模块采用平滑最大值技术的SMU激活函数。轮询采样模块计算每个空间特征位置的信息性得分的计算式为：

s_ij＝ScoringNet(f_ij,θ_s)

式中，f_ij是位置(i,j)处的特征向量，s_ij是空间特征位置的得分。所有空间特征位置的分数排序的计算式为：

[s_l,|l＝1,2,...,L],

F_f＝[f_l|l＝1,2,...,N]

式中，是排序顺序；L是图像的空间特征值数量，N是图像形成的精细特征值的数量，N＝αL，其中α为轮询比率。反向传播实现ScoringNet的学习的计算为：

F_f＝[LayerNorm(f_l)*s_l,|l＝1,2,...,N]

所述SMU激活函数，计算式为：

式中，α是超参数且还是可学习参数，erf是高斯误差函数。

所述S4中，池化采样模块同样采用SMU激活函数。池化采样模块的计算式为：

F_r＝F\F_f＝{f_r,|r＝1,2,...,L-N}

式中，F是网格结构的特征向量集合，F_f是精细特征集，F_r是剩余的特征向量。池化采样模块投影具有可学习权重计算式为：

a_r＝f_rW^a

f_r′＝f_rW^v

池化采样模块获得粗略背景上下文特征集的计算式为：

F_c＝{f_m,|r＝1,2,...,M}

所述S5中，Transformers的编码器和解码器引入的残差自注意网络，其计算式为：

||res(X^l+1)||＞||res(X^l+1-X^l)||

式中，X^l表示Transformers网络的输入，X^l+1表示MLP后的输出。

所述S5中，损失函数采用二分匹配算法，计算式：

式中，ci是目标类标签,类ci的概率为预测框为/>

本发明的有益效果在于：针对遥感图像分辨率较低、背景复杂、检测目标较小且密集的问题，采用一种新的卷神经网络SPD-Conv，SPD-Conv可以在不丢失可学习信息的情况下对卷积神经网络的特征图进行降采样，提高特征提取能力。通过轮询采样模块、池采样模块以及SMU激活函数减少遥感图像中背景区域的空间冗余计算。通过在Transformers的编码器和解码器引入残差自注意网络来减轻秩崩溃，抵消特征表达损失。本发明提出的方法可以提高模型检测的精度和效率。

附图说明

图1是本发明的算法流程示意图；

图2是本发明算法遥感图像车辆目标检测对比结果图，其中图2(a)为原算法；图2(b)为本发明改进算法；

具体实施方式

实施例1：

本发明提出了一种基于Transformer端到端的遥感图像车辆目标检测方法，本发明的原理为：首先将数据输入网络中进行数据预处理，通过水平翻转、垂直翻转、随机选取和裁剪等数据增强方式扩充数据训练集。其次，通过在主干网络ResNet50采用新的卷积神经网络SPD-Conv对特征图进行降采样，提高主干网络的特征提取能力。再次，引入采用了SMU激活函数的轮询采样模块和池化采样模块，可以减少遥感图像中背景区域的空间冗余计算，让体系结构可以自适应地在空间上分配计算。最后，在Transformer网络中引入残差自注意网络来减轻秩崩溃，能够抵消特征表达损失。整体方案图如附图1所示。

具体包括以下步骤：

S6、使用损失函数对网络进行调参，当损失函数值最小时，前馈神经网络输出每个目标对象的类别和位置，否则重复步骤S3～S6

1.数据预处理

为了网络模型能够通过自注意力机制更好的捕获全局的上下文信息和实现远距离信息融合来提取更有效的特征，将在训练期间对数据集采取水平翻转、垂直翻转、随机选取和裁剪的方法进行数据增强。另外，为了加速网络的收敛，对数据进行归一化处理。采用最大最小标准化，将数据归一化到[0,1]。

2.主干网络

将ResNet50作为算法的主干网络，提升模型的特征提取能力，同时在ResNet50中采用一种新的卷神经网络SPD-Conv，SPD-Conv可以对对卷积神经网络的特征图进行降采样，在图像分辨率较低或者小目标的情况下可以避免细粒度信息的丢失以及特征提取能力低效。SPD-Conv所有的子特征图切片计算式：

f_0,scale-1＝X[0:S:scale,scale-1:S:scale],f_1,scale-1,...,f_{scale-1,scale-1}

＝X[scale-1:S:scale,scale-1:S:scale]

3.轮询采样模块

轮询采样模块是用来提取精细特征图F_f，通过使用小的元评分网络来预测每个空间特征位置(i,j)的信息性得分，计算式：

s_ij＝ScoringNet(f_ij,θ_s)

式中，f_ij是位置(i,j)处的特征向量。s_ij是空间特征位置的得分。

所述所有的空间特征位置的分数将进行排序，取前N个得分向量来形成精细特征集，计算式：

[s_l,|l＝1,2,...,L],

F_f＝[f_l|l＝1,2,...,N]

式中，是排序顺序；L是图像的空间特征值数量，N是图像形成的精细特征值的数量，N＝αL，其中α为轮询比率，是一个恒定的分数。

所述反向传播实现ScoringNet的学习，将预测的信息性得分作为采样精细特征集的调制因子，在调制之前对特征向量进行归一化，计算式：

F_f＝[LayerNorm(f_l)*s_l,|l＝1,2,...,N]

4.池采样模块

池化采样模块是将剩余特征向量进行加权池化，获得固定数量的M个背景上下文特征向量，并压缩成总结上下文信息的小特征集，计算式：

F_r＝F\F_f＝{f_r,|r＝1,2,...,L-N}

式中，F是网格结构的特征向量集合，F_f是精细特征集，F_r是剩余的特征向量。

所述池化采样模块通过投影具有可学习权重W^a∈R^C×M的特征向量，以获得聚合权重a_r∈R^M，同时投影具有可学习权重W^v∈R^C×C的特征向量以获得投影特征，计算式：

a_r＝f_rW^a

f_r′＝f_rW^v

所述池化采样模块最后使用softmax对所有剩余未采样位置的聚合权重进行归一化，并将归一化的聚合权重对投影的特征向量进行聚合以获得新的特征向量，最后取M个聚合权重进行聚合获得粗略背景上下文特征集，计算式：

F_c＝{f_m,|r＝1,2,...,M}

5.SMU激活函数

SMU激活函数是从最大函数的平滑近似得到的平滑激活函数，用SMU替换ReLU激活函数，模型的检测精度可以有所提升，计算式为：

式中，α是超参数且还是可学习参数，erf是高斯误差函数。

6.残差自注意力网络

为了防止Transformer网络秩崩溃，导致网络深度方面失去表达能力，在Transformer网络的编码器和解码器引入具有直接映射连接结构的残差自注意力网络，该结构能够抵消特征表达损失。Transforme网络包含6层编码器和6层解码器，每一层编码器和解码器都引入残差自注意力网络，表达式为：

||res(X^l+1)||＞||res(X^l+1-X^l)||

式中，X^l表示Transformers网络的输入，X^l+1表示MLP后的输出。

7.损失函数

损失函数采用二分匹配算法，在预测值的和真实值之间产生最佳的二分匹配，然后优化特定物体(边界框)的损失，计算式为：

式中，ci是目标类标签,类ci的概率为预测框为/>

实施例2

本实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例1提供的一种基于Transformer端到端的遥感图像车辆目标检测方法。

实施例3

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明实施例1提供的一种基于Transformer端到端的遥感图像车辆目标检测方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于Transformer端到端的遥感图像车辆目标检测方法，其特征在于，包括：

S2、将处理的图像输入到采用卷积神经网络模块SPD-Conv的主干网络ResNet50中转换为尺度特征，得到网格结构图像特征图；

其中，所述S3中，轮询采样模块采用平滑最大值技术的SMU激活函数，轮询采样模块计算每个空间特征位置的信息性得分的计算式为：

s_ij＝ScoringNet(f_ij,θ_s)

式中，f_ij是位置(i,j)处的特征向量，s_ij是空间特征位置的得分；所有空间特征位置的分数排序的计算式为：

F_f＝[f_l|l＝1,2,...,N]

式中，是排序顺序；L是图像的空间特征值数量，N是图像形成的精细特征值的数量，N＝αL，其中α为轮询比率；反向传播实现ScoringNet的学习的计算为：

F_f＝[LayerNorm(f_l)*s_l,|l＝1,2,...,N]；

S5、利用Transformers中具有直接映射连接结构的编码器和解码器对精细和粗略特征图进行信息的融合；

2.根据权利要求1所述一种基于Transformer端到端的遥感图像车辆目标检测方法，其特征在于：所述目标检测方法的算法网络主干网络ResNet50采用新的卷积神经网络模块SPD-Conv，轮询采样模块和池化采样模块使用SMU激活函数提取精细和粗略特征图，Transformers的编码器和解码器采用残差自注意力网络；

所述数据预处理为归一化处理和数据增强，数据增强操作方式为：水平翻转、垂直翻转、随机选取和裁剪。

3.根据权利要求1所述一种基于Transformer端到端的遥感图像车辆目标检测方法,其特征在于：所述S2中，新的卷积神经网络模块SPD-Conv，所有的子特征图切片计算式为：

f_0,scale-1＝X[0:S:scale,scale-1:S:scale],f_1,scale-1,...,f_{scale-1,scale-1}

＝X[scale-1:S:scale,scale-1:S:scale]

4.根据权利要求2所述一种基于Transformer端到端的遥感图像车辆目标检测方法,其特征在于：所述SMU激活函数，计算式为：

式中，α是超参数且还是可学习参数，erf是高斯误差函数。

5.根据权利要求1所述一种基于Transformer端到端的遥感图像车辆目标检测方法,其特征在于：所述S4中，池化采样模块同样采用SMU激活函数，池化采样模块的计算式为：

F_r＝F\F_f＝{f_r,|r＝1,2,...,L-N}

式中，F是网格结构的特征向量集合，F_f是精细特征集，F_r是剩余的特征向量，采样模块投影具有可学习权重的计算式为：

a_r＝f_rW^a

f_r′＝f_rW^v

池化采样模块获得粗略背景上下文特征集的计算式为：

F_c＝{f_m,|r＝1,2,...,M}。

6.根据权利要求1所述一种基于Transformer端到端的遥感图像车辆目标检测方法,其特征在于：所述S5中，Transformers的编码器和解码器引入的残差自注意网络，其计算式为：

||res(X^l+1)||＞||res(X^l+1-X^l)||

式中，X^l表示Transformers网络的输入，X^l+1表示MLP后的输出。

7.根据权利要求1所述一种基于Transformer端到端的遥感图像车辆目标检测方法,其特征在于：所述S5中，损失函数采用二分匹配算法，计算式：

式中，ci是目标类标签,类ci的概率为预测框为/>

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的一种基于Transformer端到端的遥感图像车辆目标检测方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任一项所述的一种基于Transformer端到端的遥感图像车辆目标检测方法。