CN111626176B

CN111626176B - 一种基于动态注意力机制的遥感目标快速检测方法及系统

Info

Publication number: CN111626176B
Application number: CN202010439450.6A
Authority: CN
Inventors: 孙显; 王佩瑾; 刁文辉; 张义; 闫志远; 冯瑛超; 马益杭; 许滔
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2021-08-06
Anticipated expiration: 2040-05-22
Also published as: CN111626176A

Abstract

本发明涉及一种基于动态注意力机制的遥感目标快速检测方法及系统，包括：将待检测遥感图像输入至预先训练的检测网络，获取所述预先训练的检测网络输出的待检测遥感图像的初始地物目标检测结果；利用非极大值抑制算法对所述初始地物目标检测结果进行筛选，获取所述待检测遥感图像的最终地物目标检测结果；本发明提供的技术方案有效地解决了复杂遥感场景中的小物体检测问题，为不同尺度的物体动态分配注意力，为后续包括但不限于遥感图像目标检测在内的计算机视觉任务提供有效的技术。

Description

一种基于动态注意力机制的遥感目标快速检测方法及系统

技术领域

本发明涉及计算机视觉领域，具体涉及一种基于动态注意力机制的遥感目标快速检测方法及系统。

背景技术

随着深度学习的发展，卷积神经网络在自然场景的图像分类与识别领域取得了突破性进展，和自然场景相比，光学卫星遥感图像尺寸大，背景复杂，包含的对象数量众多，待检测目标尺寸小，有的场景中小目标密集聚在一起难以区分；另外还存在目标旋转与仿射等现象以及云雾、海面波纹、阴影、光照与拍摄角度等影响；在实际应用中，对检测速度要求也较高。这使得在计算机视觉中的深度学习方法不能直接应用于遥感领域。

当前主流的遥感图像目标检测方法大多用来解决较简单的检测问题，无法很好地适应复杂遥感图像的检测场景，对包含小物体较多的复杂场景效果不好。需要为小物体提供更多的权重，进而促进小物体的检测精度。常见的算法大多是融合不同尺度的特征来增强小物体周边的信息，忽略了由于尺寸差异造成的信息缺失。在训练的过程中，将大尺度的物体和小尺度的物体赋予同样的权重会忽略很多小物体的信息。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于动态注意力机制调节的大规模遥感地物目标快速检测方法。

本发明的目的是采用下述技术方案实现的：

一种基于动态注意力机制的遥感目标快速检测方法，其改进之处在于，所述方法包括：

将待检测遥感图像输入至预先训练的检测网络，获取所述预先训练的检测网络输出的待检测遥感图像的初始地物目标检测结果；

利用非极大值抑制算法对所述初始地物目标检测结果进行筛选，获取所述待检测遥感图像的最终地物目标检测结果。

优选的，所述预先训练的检测网络的训练过程包括：

步骤1.对遥感图像数据中的遥感图像进行人工语义标注，并将所述遥感图像数据划分为训练数据、验证数据和测试数据；

步骤2.对所述训练数据进行数据增强；

步骤3.对所述训练数据、验证数据和测试数据进行均值化处理后切片为1024×1024；

步骤4.利用所述训练数据、验证数据和测试数据对初始神经网络模型进行训练，并将训练完成的初始神经网络模型作为所述预先训练的检测网络。

进一步的，所述数据增强包括：平移、旋转、尺度缩放和/或高斯模糊。

进一步的，所述初始神经网络模型包括：基础网络、空间金字塔网络、第一卷积池化层、第二卷积池化层、第三卷积池化层、第四卷积池化层、第五卷积池化层、特征融合单元、区域生成单元和分类回归模块；

所述基础网络，用于提取训练数据中遥感图像下采样16倍的特征图；

所述空间金字塔网络，用于基于所述训练数据中遥感图像下采样16倍的特征图获取具有不同感受野的特征C₁；

所述第一卷积池化层，用于将C₁依次经过卷积层和池化层得到C₂；

所述第二卷积池化层，用于将C₂依次经过卷积层和池化层得到C₃；

所述第三卷积池化层，用于将C₃依次经过卷积层和池化层得到C₄；

所述第四卷积池化层，用于将C₄依次经过卷积层和池化层得到C₅；

所述第五卷积池化层，用于将C₅依次经过卷积层和池化层得到C₆；

所述特征融合单元，用于基于{C₁,C₂,C₃,C₄,C₅,C₆}获取融合特征{P₁,P₂,P₃,P₄,P₅,P₆}；

所述区域生成单元，用于生成{P₁,P₂,P₃,P₄,P₅,P₆}中每个像素点位置上生成预设尺寸和长宽比的初始框；

所述分类回归模块，用于基于初始框生成预测框。

进一步的，所述基础网络为将全连接层替换为卷积层的VGG-16网络。

进一步的，所述基于{C₁,C₂,C₃,C₄,C₅,C₆}获取融合特征{P₁,P₂,P₃,P₄,P₅,P₆}包括：

令n＝1,2,3,4,5或6，并按下式确定P_n：

上式中，Conv_3×3为3×3卷及操作，Upsample为最近邻上采样操作，

为级联操作，Conv_1×1为1×1卷及操作，m＝n+1。

进一步的，所述步骤4包括：

向所述初始神经网络模型的输入层输入所述训练数据，获取所述训练数据对应的预测框；

基于损失函数计算预测框与真实目标的总损失；

基于所述预测框与真实目标的总损失，采用梯度反向传播算法更新所述初始神经网络模型每一层的权重参数，直至所述预测框与真实目标的总损失不变。

进一步的，所述基于损失函数计算预测框与真实目标的总损失，包括：

按下式计算预测框与真实目标的总损失L：

上式中，N为参与计算的正样本数，L_conf为分类损失，α为平衡因子，L_loc为回归损失；

进一步的，按下式确定所述分类损失L_conf：

按下式确定所述回归损失L_conf：

上式中，x_ij ^p为针对第p类第i个正样本预测框对应的第j个目标真实框的匹配系数，x_ij ^p＝{1,0}，area_ij为第i个正样本预测框对应的第j个目标真实框的面积权重，pos为正样本预测框数，neg为负样本预测框数，c_i ^p为第i个正样本预测框关于第p类的预测分数，c_k ⁰为第k个负样本预测框关于背景类的预测分数，cx为检测框的中心点x坐标，cy为检测框的中心点y坐标，w为检测框的宽度，h为检测框的高度，smooth_L1为回归损失函数，l_i ^m为第i个正样本预测框在m上的位置偏移，g_j ^m为第j个目标真实框在m上的位置偏移，p∈[1，P]，P为训练数据中遥感图像的目标总类别数；

其中，按下式确定第j个目标真实框的权重area_j：

上式中，S_j为第j个目标真实框的面积，e为指数函数。

基于同一发明构思，本发明还提供了一种基于动态注意力机制的遥感目标快速检测系统，其改进之处在于，所述系统包括：

检测模块，用于将待检测遥感图像输入至预先训练的检测网络，获取所述预先训练的检测网络输出的待检测遥感图像的初始地物目标检测结果；

获取模块，用于利用非极大值抑制算法对所述初始地物目标检测结果进行筛选，获取所述待检测遥感图像的最终地物目标检测结果。

与最接近的现有技术相比，本发明具有的有益效果：

本发明提供的一种基于动态注意力机制的遥感目标快速检测方法，将待检测遥感图像输入至预先训练的检测网络，获取所述预先训练的检测网络输出的待检测遥感图像的初始地物目标检测结果；利用非极大值抑制算法对所述初始地物目标检测结果进行筛选，获取所述待检测遥感图像的最终地物目标检测结果；该方案通过检测网络提取光学遥感图像的目标，不需要手工设计特征，实现端到端的自动检测，有效地改善多尺度目标检测问题。

进一步的，预先训练的检测网络中使用多尺度融合的空间特征金字塔池化结构，融合低层特征和高层语义信息，提高多尺度目标检测精度。设计基于目标面积的动态注意力调节机制，为不同尺度的目标动态地分配权重，提高小目标的检测效果。

附图说明

图1是本发明提供的一种基于动态注意力机制的遥感目标快速检测方法流程图；

图2是本发明实施例中检测网络的结构示意图；

图3是本发明提供的一种基于动态注意力机制的遥感目标快速检测系统的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供了一种基于动态注意力机制的遥感目标快速检测方法，如图1所示，包括：

101将待检测遥感图像输入至预先训练的检测网络，获取所述预先训练的检测网络输出的待检测遥感图像的初始地物目标检测结果；

102利用非极大值抑制算法对所述初始地物目标检测结果进行筛选，获取所述待检测遥感图像的最终地物目标检测结果。

本发明提供的最优实施例中，具体运行的硬件和编程语言并不受限制，用任何语言编写都可以实现本发明的方法。本发明采用一台具有2.8G赫兹中央处理器和1G字节内存的计算机，网络的训练过程在Pytorch框架下实现，整个网络的训练和测试过程均采用多个NVIDIA TITAN XP GPU并行处理，并用Python语言编制了目标检测技术的工作程序，实现了本发明的方法。

具体的，所述预先训练的检测网络的训练过程包括：

步骤2.对所述训练数据进行数据增强；

其中，所述数据增强包括：平移、旋转、尺度缩放和/或高斯模糊。

例如，在公开数据集DOTA上进行离线采样，随机选取1张原图，对其进行使用平移、旋转、尺度缩放、高斯模糊在内的图像变换操作，构成7万张多分辨率遥感图像。

进一步的，所述初始神经网络模型，如图2所示，包括：基础网络、空间金字塔网络、第一卷积池化层、第二卷积池化层、第三卷积池化层、第四卷积池化层、第五卷积池化层、特征融合单元、区域生成单元和分类回归模块；

所述空间金字塔网络，用于基于所述训练数据中遥感图像下采样16倍的特征图获取具有不同感受野的特征C₁，空间金字塔结构的实现原理是使用不同孔洞率的带孔卷积来提取不同感受野的特征，再结合全局池化得到的图像级特征，将这些特征叠加，就能得到具有不同感受野的特征。

所述分类回归模块，用于基于初始框生成预测框。

进一步的，所述基础网络为将全连接层替换为卷积层的VGG-16网络，VGG-16网络包含13个卷积层，3个全连接层和5个池化层。为了实现任意尺寸图像的输入，将VGG-16中的全连接层改为卷积层。

建立自上而下、反向连接的特征金字塔结构，融合多尺度特征信息，丰富低层特征的语义信息，令n＝1,2,3,4,5或6，并按下式确定P_n：

为级联操作，Conv_1×1为1×1卷及操作，m＝n+1。

在多尺度上得到关于输入图像的初始检测结果，检测结果包含预测的类别和检测框的位置。此外，为了减少模型的参数量，在预测前使用卷积层将所有通道数设置为256；

进一步的，所述步骤4包括：

基于损失函数计算预测框与真实目标的总损失；

其中，所述基于损失函数计算预测框与真实目标的总损失，包括：

按下式计算预测框与真实目标的总损失L：

按下式确定所述分类损失L_conf：

按下式确定所述回归损失L_conf：

其中，按下式确定第j个目标真实框的权重area_j：

上式中，S_j为第j个目标真实框的面积，e为指数函数。

基于同一发明构思，本发明还提供了一种基于动态注意力机制的遥感目标快速检测系统，如图3所示，所述系统包括：

优选的，所述预先训练的检测网络的训练过程包括：

步骤2.对所述训练数据进行数据增强；

所述分类回归模块，用于基于初始框生成预测框。

令n＝1,2,3,4,5或6，并按下式确定P_n：

为级联操作，Conv_1×1为1×1卷及操作，m＝n+1。

进一步的，所述步骤4包括：

基于损失函数计算预测框与真实目标的总损失；

按下式计算预测框与真实目标的总损失L：

进一步的，按下式确定所述分类损失L_conf：

按下式确定所述回归损失L_conf：

其中，按下式确定第j个目标真实框的权重area_j：

上式中，S_j为第j个目标真实框的面积，e为指数函数。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。