CN117372875A

CN117372875A - 一种航空遥感目标识别方法

Info

Publication number: CN117372875A
Application number: CN202311429571.2A
Authority: CN
Inventors: 季长清; 曹吉星; 汪祖民; 高志勇
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-01-09

Abstract

本发明公开了一种航空遥感目标识别方法，包括：获取实时航空遥感图像，并进行图像增强处理；将增强后的航空遥感图像划分为多个不相交的区域，在每个独立的区域内设置全局性的多头自注意力机制；构建航空遥感目标检测模型TF‑BBAVectors；每个区域的像素矩阵表示为一个特征向量，利用多头自注意力机制对特征向量进行计算；通过损失函数训练航空遥感目标检测模型TF‑BBAVectors；使用训练后的航空遥感目标检测模型TF‑BBAVectors进行目标定位，其中热力图用来检测航空图像中倾斜目标的中心点，特征图的通道数对应类别数，每个通道的映射通过一个Sigmoid函数传递。该方法充分利用了图像中的所有信息，提高了密集、倾斜、小目标的检测效果率。

Description

一种航空遥感目标识别方法

技术领域

本发明涉及目标检测技术领域，具体涉及一种航空遥感目标识别方法。

背景技术

在当下计算机技术高速发展的阶段，伴随着愈发先进的光学器件出现、航空技术和无人机巡航技术的快速发展，越来越多的遥感卫星都被发射到太空。高空获取的遥感图像存在尺寸庞大、内容复杂、目标种类繁多、背景复杂度高等问题。能够高效自动地实时精确定位航空遥感图像中的目标位置显得尤为重要。

目标检测是指在图像或视频中，定位出某些特定目标的位置，使用包围框将目标物体进行标记，针对多类目标的应用场景还需要给出每个检出目标的具体类别。当下，在航空遥感图像中通过目标检测技术实现对建筑施工场地、交通道路和工厂等重要场所的监控是较为重要的；此外，目标检测技术在航空遥感图像下对地形勘察中也起到了非常关键的作用。面对众多的应用环境，相关技术的研究工作具有迫切的研究需要和广泛的应用需求。

计算机视觉任务中，目标检测在航空遥感图像下的任务是快速且准确的定位、识别出目标物体。以机器学习为基础的方法，因为在提取图像特征时必须事先依靠人工完成，所以算法效率较低。并且采用滑动窗口的搜索方式和分类器的判决方式对航空、遥感图像进行检测存在使用领域局限性大、识别准确率低以及计算复杂性高等问题，难以满足现如今航空、遥感图像检测的需要。

发明内容

本发明的目的在于，提出一种航空遥感目标识别方法，该方法提取了复杂图像背景的特征，突出了目标的重要特征，充分利用了图像中的所有信息，提高了密集、倾斜、小目标的检测效果率。

为实现上述目的，本申请提出的一种航空遥感目标识别方法，包括：

获取实时航空遥感图像，并进行图像增强处理；

将增强后的航空遥感图像划分为多个不相交的区域，在每个独立的区域内设置全局性的多头自注意力机制；

构建航空遥感目标检测模型TF-BBAVectors，该模型包括主干特征提取网络和BBAVectors预测模块，所述主干特征提取网络包括交替设置的Patch Merging层和SwinTransformer单元；划分区域后的图像通过Patch Merging层进行重新的整合，SwinTransformer单元输出特征通过双线性插值实现上采样的特征图融合；所述BBAVectors预测模块用于预测目标的热力图、中心点偏移量、边界框类型和边界框参数；

每个区域的像素矩阵表示为一个特征向量X₁₁＝[x₁,x₂…x_n]，利用多头自注意力机制对特征向量进行计算；

通过损失函数训练航空遥感目标检测模型TF-BBAVectors；

使用训练后的航空遥感目标检测模型TF-BBAVectors进行目标定位，其中热力图用来检测航空图像中倾斜目标的中心点，特征图的通道数对应类别数，每个通道的映射通过一个Sigmoid函数传递。

进一步地，将航天遥感图像划分成多个不相交的区域，具体为：

X表示航天遥感图像形成的像素矩阵，因为航空遥感图像的分辨率非常大，将其划分为4个不相交的区域，再实际应用中划分区域数可以随任务改变。

其中X₁₁、X₁₂、X₂₁、X₂₂表示划分的4个区域。

进一步地，利用多头自注意力机制对特征向量进行计算，具体方式为：

Z_i＝A_i×V_i

其中Q_i查询向量用于描述位置i处的特征，决定模型将注意力放在输入序列中的哪些部分，以生成与位置i相关的输出；K_i为键向量用于描述其他位置的特征，以便计算位置i与其他位置之间的相关性；A_i表示多头自注意力的第i个分数，由查询向量Q、键向量K_i和值向量V_i计算得来，用于衡量向量之间的关系，从而确定在生成输出时对不同位置的权重；V_i是值向量通常是从输入序列中的不同位置派生出来，以表示不同的特征或信息；A_i是自注意力分数，它度量了位置i与序列中其他位置的相关性。

进一步地，所述损失函数为：

其中p和指的是地面实况和预测的热力图值，i表示特征图上的像素位置，P_i＝1代表在热力图某点处恰是某类别的中心点，τ代表一个极小的正数，Ν是对象的数量，α和β是控制每个点贡献的超参数。

进一步地，在航空遥感目标检测模型TF-BBAVectors中，预测了6个边界框边缘感知向量t，r，b，l，w，h；其中前4个向量分布在笛卡尔坐标系的4个象限中，所有旋转物体都共用一个坐标系。

更进一步地，通过上采样层将低分辨率的特征图恢复到原始图像的分辨率；所述上采样层通过双线性插值法进行执行：

I(x,y)＝(1-w)(1-h)I(x₁,y1)+w(1-h)I(x₂,y₁)+(1-w)hI(x₁,y2)+whI(x₂,y₂)

其中(x₁，y₁)、(x₂，y₁)、(x₁，y₂)和(x₂，y₂)是周围四个像素的坐标，w和h是相对于这四个像素的距离，I代表输入图像或像素值。

更进一步地，所述中心点偏移量获取方式为：

式中c_x、c_y分别代表下采样s倍后的坐标值。

作为更进一步地，所述主干特征提取网络采用2：2：18：2的比例构建。

作为更进一步地，所述主干特征提取网络每一次下采样产生一维特征向量，PatchMerging层根据将一维特征向量重新分解成二维平面图像。

本发明采用的以上技术方案，与现有技术相比，具有的优点是：本方法解决了卷积神经网络模型在特征提取时存在的过拟合等问题，为训练一个泛化能力强的目标检测模型做好了准备。有效的提取了复杂图像背景的特征，突出了目标的重要特征，充分利用了图像中的所有信息。引入注意力机制，提出了TF-BBAVector检测模型，提高了密集、倾斜、小目标的检测效果率。

(1)适用于建筑施工场地监测和安全管理的遥感图像分析

该方法可以应用于建筑施工场地的监测和安全管理。通过分析高空获取的遥感图像，它能够自动检测和定位施工场地中的各种元素，包括建筑结构、设备、工人和安全违规行为。这项技术有助于提高施工场地的效率和安全性，同时减少人工巡视的成本和风险。

(2)适用于自然灾害监测和应对的遥感图像处理

这一方法可用于监测自然灾害，如洪水、森林火灾和地震。它可以自动识别受灾地区，并精确定位灾害点。当自然灾害发生时，相关机构可以使用这一技术来进行实时监测和紧急响应，以及评估受影响区域的损害程度。

(3)适用于环境保护和生态研究的遥感图像分析

该方法可以在环境保护和生态研究领域中应用。它有助于监测自然生态系统的健康状况，包括森林、湖泊和野生动植物。研究人员可以使用这一技术来分析遥感图像，检测植被覆盖变化、野生动物迁徙以及环境污染等因素，以支持环境保护和生态学研究。

(4)适用于农业领域的遥感图像作物检测

本方法基于深度学习，能够分析农田遥感图像，提取不同尺度的视觉特征，包括全局和局部特征。这种方法适用于检测小尺度的作物病害，如农田中孤立的病变或害虫损害。农业领域可以利用这一技术来实时监测农作物健康状况，识别植物疾病，以及采取及时的防治措施。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为航空遥感目标检测模型架构图；

图2为航空遥感目标检测模型检测头部倾斜角度的处理方式原理图；

图3为本方法应用在遥感卫星火灾检测示意图；

图4为本方法应用在施工现场检测示意图；

图5为本方法应用在农田覆盖检测示意图。

具体实施方法

下面将参考附图中示出的若干示例实施例来描述本公开的原理。虽然附图中显示了本公开的优选实施例，但应当理解，描述这些实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。

本实施例提供一种航空遥感目标识别方法，包括：

第一步：获取实时航空遥感图像，并进行图像增强处理；

具体的，航空遥感图像往往包括分辨率低、云层遮挡、图像畸变等问题，对数据进行图像进行增强，以提高可视化和分析的效果。

第二步：将增强后的航空遥感图像划分为多个不相交的区域，在每个独立的区域内设置全局性的多头自注意力机制；

具体的，由于航空图像的分辨率非常大，所以在设计模型时使用了窗口多头自注意力机制(Windows Multi-Head Self-Attention，W-MSA)的方式将图像划分成多个不相交的区域，使得全局性的多头自注意力机制只在每个独立的区域内进行。这样的计算方式利用了卷积神经网络局部性的先验知识，即同一个物体的不同部位或是语义相近的不同物体在图像上大概率会出现在相连的地方。所以即使是在独立的小区域内做自注意力计算，也足以满足视觉任务的需要。

第三步：构建航空遥感目标检测模型TF-BBAVectors，该模型包括主干特征提取网络和BBAVectors预测模块，所述主干特征提取网络包括交替设置的Patch Merging层和Swin Transformer单元；划分区域后的图像通过Patch Merging层进行重新的整合，SwinTransformer单元输出特征通过双线性插值实现上采样的特征图融合；所述BBAVectors预测模块用于预测目标的热力图、中心点偏移量、边界框类型和边界框参数；

具体的，如图1所示，划分后的图像经过Patch Merging层进行重新的整合。由于输入图像分解成小的局部块，这些块通常是正方形或矩形区域。每个块通常包含一些像素，但较小以便在计算上更高效，每个局部块都经过特征提取，通常是通过卷积神经网络CNN或其他特征提取方法来实现，但其存在过拟合的问题。本发明通过Patch Merging层整合，SwinTransformer单元融合，有助于从每个块中提取局部特征，例如颜色、纹理和边缘信息。

对于主干特征网络，使用层级式的设计方式；为了更好的使用到浅层特征的位置细节信息，在模型构建时使用了多特征层融合的策略，分别使用了Swin Transformer单元的输出特征，将它们与通过双线性插值实现上采样的特征图进行融合，用以实现更精确的目标检测。改进后的模型获取了每一次下采样产生的一维特征向量，并且新的PatchMerging层根据实验设置的批量大小将一维特征向量重新分解成二维平面图像，这样做可以达到类似卷积神经网络逐层扩大感受野的效果，便于在此基础上更好的把握图像的多尺度特征生成新的特征图。

由于高分辨率航空图像中的目标尺度变化范围较大,比如较大尺度的飞机和较小尺度的船舶。如果直接使用主干网络提取的特征图，并在同一特征图下对不同尺度的目标进行提取兴趣区域的目标特征时会造成较大的目标损失。融合不同尺度的特征是提高检测性能的一个重要手段，本发明模型使用了特征融合的方式去构建。通过残差连接的方式，将双线性插值上采样得到的深层特征和浅层特征结合起来。这样做既保留了图像的浅层位置细节信息又使用了高层特征图的语义特征，避免了仅使用最后低分辨率特征图带来的几何信息表征能力弱、缺乏空间几何特征细节的缺点。

第四步：每个区域的像素矩阵表示为一个特征向量X₁₁＝[x₁，x₂…x_n]，利用多头自注意力机制对特征向量进行计算；一个物体的不同部位或是语义相近的不同物体，在图像上大概率会出现相连的地方。所以即使是在独立的小区域内做自注意力计算，也足以满足视觉任务的需要。

具体的，相对于Transformer中直接对整个特征图进行多头自注意力机制的方式，使用W-MSA的方式在提取特征时能够大大减少计算量，尤其是在浅层存在较大特征图的时候。由于Transformer隔绝了不同区域之间的信息传递，失去了全局建模的能力，所以模型构建时也使用了窗口转移多头自注意力机制(Shifted Windows Multi-Head Self-Attention，SW-MSA)的方式，这种特征提取的方式能够让信息在相邻的区域中进行传递。使用这两种模块组合构建的Swin Transformer单元可以让模型在进行特征的提取时不仅关注到图像中的每一个像素点，还能降低计算的复杂程度。这种全局性的注意力机制让模型能够很好的处理密集、小目标的问题，可以较好地提取图像中的目标信息。

第五步：为了避免在特征提取时损失函数带来的梯度爆炸问题，通过损失函数训练航空遥感目标检测模型TF-BBAVectors；

具体的，由于在热力图中选取的中心点坐标都为整数，从输入图像到输出热力图按比例缩小一个像素点坐标时会生成一个浮点数。将特征图上的点映射回原输入图像时会造成较大的精度误差。所以通过预测偏移图补偿量化浮动中心点和整数中心点之间的差异。

第六步：使用训练后的航空遥感目标检测模型TF-BBAVectors进行目标定位，其中热力图用来检测航空图像中倾斜目标的中心点，特征图的通道数对应类别数，每个通道的映射通过一个Sigmoid函数传递。

具体的，特定中心点的热力图值被视为物体检测的置信度。

为了得到带方向的包围框去标记任意方向的目标，本发明使用了边界框边缘感知向量的方法预测了6个边界框边缘感知向量t，r，b，l，w，h。其中前4个向量分布在笛卡尔坐标系的4个象限中，所有的旋转物体都共用一个坐标系，这样的方式可以高效的利用特征图中共同的信息，有利于提升模型的泛化能力实现目标识别与定位；有利于提升模型的泛化能力。带方向的包围框的表示方式如图2所示，图2中包围框的参数定义为：Box＝[t，r，b，l，w，h]，获得的边界框边缘感知向量可以很好的表示出目标的倾斜方向。

第七步：通过特征提取后，经过上采样层将低分辨率的特征图恢复到原始图像的分辨率，以便执行目标检测和定位任务。

本发明的主要研究内容是航空、遥感图像场景下的倾斜目标检测。根据该类图像的特点确定了使用旋转矩形框检测的思路。首先，针对当前深度卷积神经网络作为主干特征提取网络时存在网络模型退化、反向传播面临梯度爆炸、消失等的问题，借用Transformer的全局自注意力机制来处理这些问题。随后针对任务场景中目标出现任意旋转角度、尺度大小不一的问题，使用多尺度特征融合的思路对特征图进行优化。提出了一个基于层级式Transformer网络的一阶段航空图像旋转目标检测模型TF-BBAVectors，该模型使用了端到端构造目标检测器的思路，在Transformer网络的基础上，构建主干特征提取网络。也巧妙地使用了特征融合网络的思想，并改进了损失函数的设计，降低了训练模型时过度依赖设备的情况，提升了模型的检测性能。针对航空图像的特性，利用边缘感知向量的检测方式对提取的图像特征进行处理并描述目标位置，实现了对任意方向目标的准确定位。

实施例1森林火灾监控情况

将本实例应用于森林火灾监控系统中，利用模型提取航空遥感图像拍摄到的森林图像，提取植被密度、烟雾、火焰等与火灾检测相关的特征信息，在森林火灾监控方面实现更高效、精确的应用。可以帮助监测员迅速识别火灾风险，以采取及时的应对措施，减少火灾对生态系统和自然资源的影响，火灾监控情况如图3所示。

实施例2施工现场安全监测

将本实例应用于施工现场安全监测系统中，通过航空遥感图像覆盖全面施工区域，包括建筑结构、设备、材料堆放和工人活动。对上述目标进行特征提取，能够检测施工现场中的潜在危险情况，如高风险区域、人员情况等信息。系统可以生成警报，以便相关方能够采取行动。帮助施工方识别潜在的危险情况，降低事故风险，保障工人和设备的安全，监控情况如图4所示。

实施例3农田覆盖情况监控

将本实例应用于农田覆盖监测系统中，利用农田遥感图像，这些图像覆盖不同的农田地块，包括耕地、林地、湿地、建筑区域等，通过提取图像中不同地块的特征信息包括颜色、纹理、形状等。可以准确识别和监测不同农田地块的覆盖情况，有助于农业决策和资源优化，监控情况如图5所示。

以上描述仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

虽然在本申请中权利要求书已针对特征的特定组合而制定，但是应当理解，本公开的范围还包括本文所公开的明确或隐含或对其任何概括的任何新颖特征或特征的任何新颖的组合，不论他是否涉及目前所要求保护的任何权利要求中的相同方案。

Claims

1.一种航空遥感目标识别方法，其特征在于，包括：

获取实时航空遥感图像，并进行图像增强处理；

每个区域的像素矩阵表示为一个特征向量X₁₁＝[x₁，x₂…x_n]，利用多头自注意力机制对特征向量进行计算；

通过损失函数训练航空遥感目标检测模型TF-BBAVectors；

2.根据权利要求1所述一种航空遥感目标识别方法，其特征在于，将航天遥感图像划分成多个不相交的区域，具体为：

X表示航天遥感图像形成的像素矩阵，将其划分为4个不相交的区域为：

其中X₁₁、X₁₂、X₂₁、X₂₂表示划分的4个区域。

3.根据权利要求1所述一种航空遥感目标识别方法，其特征在于，利用多头自注意力机制对特征向量进行计算，具体方式为：

Z_i＝A_i×V_i

其中Q_i查询向量用于描述位置i处的特征，决定模型将注意力放在输入序列中的哪些部分，以生成与位置i相关的输出；K_i为键向量用于描述其他位置的特征；A_i表示多头自注意力的第i个分数，由查询向量Q、键向量K_i和值向量V_i计算得来，用于衡量向量之间的关系，从而确定在生成输出时不同位置的权重；V_i是值向量通常是从输入序列中的不同位置派生出来，以表示不同的特征或信息；A_i是自注意力分数，它度量了位置i与序列中其他位置的相关性。

4.根据权利要求1所述一种航空遥感目标识别方法，其特征在于，所述损失函数为：

5.根据权利要求1所述一种航空遥感目标识别方法，其特征在于，在航空遥感目标检测模型TF-BBAVectors中，预测了6个边界框边缘感知向量t，r，b，l，w，h；其中前4个向量分布在笛卡尔坐标系的4个象限中，所有旋转物体都共用一个坐标系。

6.根据权利要求1所述一种航空遥感目标识别方法，其特征在于，通过上采样层将低分辨率的特征图恢复到原始图像的分辨率；所述上采样层通过双线性插值法进行执行：

I(x，y)＝(1-w)(1-h)I(x₁，y₁)+w(1-h)I(x₂，y₁)+(1-w)hI(₁，y₂)+whI(x₂，y₂)

其中(x₁，y₁)、(x₂,y₁)、(x₁，y₂)和(x₂,y₂)是周围四个像素的坐标，w和h是相对于这四个像素的距离，I代表输入图像或像素值。

7.根据权利要求1所述一种航空遥感目标识别方法，其特征在于，所述中心点偏移量获取方式为：

式中c_x、c_y分别代表下采样s倍后的坐标值。

8.根据权利要求1所述一种航空遥感目标识别方法，其特征在于，所述主干特征提取网络采用2：2：18：2的比例构建。

9.根据权利要求1所述一种航空遥感目标识别方法，其特征在于，所述主干特征提取网络每一次下采样产生一维特征向量，Patch Merging层根据将一维特征向量重新分解成二维平面图像。