CN112800964A

CN112800964A - 基于多模块融合的遥感影像目标检测方法及系统

Info

Publication number: CN112800964A
Application number: CN202110122157.1A
Authority: CN
Inventors: 张永生; 张磊; 于英; 戴晨光; 王涛; 纪松; 李力; 张振超; 李磊; 吕可枫; 闵杰; 王自全
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-14
Anticipated expiration: 2041-01-27
Also published as: CN112800964B

Abstract

本发明属于遥感图像解译技术领域，特别涉及一种基于多模块融合的遥感影像目标检测方法及系统，对遥感影像进行随机数据增广处理，并通过深度卷积神经网络对增广处理后的影像数据进行特征提取，获取兼具语义信息和位置信息的融合特征图；利用空间注意力机制和通道注意力机制对融合特征图进行优化；利用区域生成网络对优化后的特征图进行处理，获取目标候选区域，并提取目标候选区域预设倍数大小的局部信息和上下文信息；利用ROIpooling层获取不同大小候选区域的定长特征，通过对候选框类别分类和边界框回归，获取目标检测结果。本发明通过将多层特征融合、注意力机制、局部上下文信息进行有机地结合，充分提取并优化目标特征，提高遥感影像目标检测精度。

Description

基于多模块融合的遥感影像目标检测方法及系统

技术领域

本发明属于遥感图像解译技术领域，特别涉及一种基于多模块融合的遥感影像目标检测方法及系统。

背景技术

作为计算机视觉的基本问题之一，目标检测是许多其他计算机视觉任务(如实例分割、图像理解、目标跟踪等)的基础。近年来，深度学习技术的快速发展为目标检测注入了新鲜的血液，它也因此成为了当今研究的热点问题。随着遥感平台及遥感传感器的迅速发展，遥感图像的数量日益增长、空间分辨率不断提高、光谱信息更加丰富，为遥感图像处理各领域的研究提供了重要的分析条件和资源，有效地提升了遥感数据的商用和军用价值。遥感图像目标检测是遥感图像处理领域备受关注而又充满挑战的问题之一，它是指在遥感图像中定位出感兴趣目标的所在位置并确定其所属类别的过程。不论是在军事领域还是民用方面，遥感图像的目标检测都扮演着重要的角色。

传统目标检测算法的解决思路主要是结合模板匹配、知识表示、图像目标分析以及机器学习等方法进行检测，这些方法中，模板和先验知识表示依赖于人工设计，且目标专用性太强，不具有普适性，人工设计的底层特征难以表达目标的高层语义信息，导致遥感图像的目标检测性能较差。因此，研究如何将深度学习方法应用于遥感图像的目标检测，以有效提高目标检测正确率和实时性，降低漏警率和虚警率具有重要的意义。尽管遥感图像与自然场景图像在人类的视觉感知上较为一致，但和近距离成像的自然场景图像不同，遥感图像成像尺寸较大，图像中的目标呈现也相应较小。小目标存在的问题主要是分辨率低、图像模糊、携带的信息少，由此导致特征表达能力弱，若将用于自然图像的深度学习目标检测方法直接应用到遥感图像上，可能会出现很多目标漏检错检的情况，亟需提出一种能够有效提取和表示小目标特征的方案，以实现遥感图像小目标的精确检测。

发明内容

为此，本发明提供一种基于多模块融合的遥感影像目标检测方法及系统，通过将多层特征融合、注意力机制、局部上下文信息进行有机地结合，充分提取并优化目标特征，提高遥感影像中目标的检测精度，降低目标的漏检和错检，实现遥感图像小目标的精确检测。

按照本发明所提供的设计方案，一种基于多模块融合的遥感影像目标检测方法，包含：

对遥感影像进行随机数据增广处理，并通过深度卷积神经网络对增广处理后的影像数据进行特征提取，获取兼具语义信息和位置信息的融合特征图；

利用空间注意力机制和通道注意力机制对融合特征图进行优化，以突出图像局部区域与特征图通道；

利用区域生成网络对优化后的特征图进行处理，获取目标候选区域，并提取目标候选区域预设倍数大小的局部信息和上下文信息；

针对目标候选区域及目标候选区域的局部信息和上下文信息，利用ROI pooling层获取不同大小候选区域的定长特征，并通过对候选框类别分类和边界框回归，获取目标检测结果。

作为本发明基于多模块融合的遥感影像目标检测方法，进一步的，将任意尺寸的输入图像统一缩放至固定尺寸，并对图像进行色彩增广和/或几何增广处理。

作为本发明基于多模块融合的遥感影像目标检测方法，进一步地，图像统一缩放过程中，将短边缩放至预定尺寸，保持图像宽高比不变，再缩放相应长边。

作为本发明基于多模块融合的遥感影像目标检测方法，进一步地，对图像以预设概率进行色彩增广和/或几何增广处理，其中，色彩增广处理包括但不限于：色彩抖动、伽马修正、直方图修正及hsv变换，几何增广处理包括但不限于：水平翻转、垂直翻转及随机角度旋转。

作为本发明基于多模块融合的遥感影像目标检测方法，进一步地，通过深度卷积神经网络进行特征提取，对不同的包含语义信息的深层特征图分别进行双线性插值，使得深层特征图大小与包含位置信息的浅层特征图大小一致；将深层特征图和浅层特征图进行元素级相加，得到兼具深层语义信息和浅层位置信息的融合特征图。

作为本发明基于多模块融合的遥感影像目标检测方法，进一步地，融合特征图优化中，借鉴语义分割思想，以标注目标区域为真值，利用监督学习方式调整目标所在区域的权重；利用ECA-Net为融合特征图添加通道注意力机制，并更新各通道权值。

作为本发明基于多模块融合的遥感影像目标检测方法，进一步地，添加通道注意力机制时，首先对输入的特征图进行全局平均池化，然后利用各通道卷积核进行卷积运算；并对卷积运算后的特征图进行softmax操作，使各元素值范围在0～1之间，并通过与输入特征图进行元素级相乘，得到具有不同权值的特征图。

作为本发明基于多模块融合的遥感影像目标检测方法，进一步地，卷积运算中，卷积核大小k为通道C的函数，该函数表示为：

其中，|x|_odd表示距x最近的奇数，α，β为超参数。

作为本发明基于多模块融合的遥感影像目标检测方法，进一步地，针对区域生成网络生成不同大小和不同高宽比的目标候选区域，依据目标候选区域边界框坐标及尺寸并通过预设倍数大小对目标候选区域进行放大处理，得到目标候选区域的预设放大倍数区域作为局部信息和上下文信息区域。

进一步地，本发明还提供一种基于多模块融合的遥感影像目标检测系统，包含：预处理模块、数据优化模块、区域获取模块和目标检测模块，其中，

预处理模块，用于对遥感影像进行随机数据增广处理，并通过深度卷积神经网络对增广处理后的影像数据进行特征提取，获取兼具语义信息和位置信息的融合特征图；

数据优化模块，用于利用空间注意力机制和通道注意力机制对融合特征图进行优化，以突出图像局部区域与特征图通道；

区域获取模块，用于利用区域生成网络对优化后的特征图进行处理，获取目标候选区域，并提取目标候选区域预设倍数大小的局部信息和上下文信息；

目标检测模块，用于针对目标候选区域及目标候选区域的局部信息和上下文信息，利用ROI pooling层获取不同大小候选区域的定长特征，并通过对候选框类别分类和边界框回归，获取目标检测结果。

本发明的有益效果：

本发明通过将富含语义信息的深层特征图与浅层特征图进行融合来增加浅层特征图的语义信息；对融合后的特征图施加空间注意力机制与通道注意力机制，使得图像的局部区域与特征图的重要通道得到突出；结合上下文信息，提取候选区域的预设放大倍数区域，兼顾目标的局部信息与上下文信息；将多层特征融合、注意力机制、局部上下文信息进行有机地结合，充分提取并利用小目标的特征，且同时抑制背景区域，达到提高小目标检测的准确率，减少目标漏检、误检的目的，具有较强的应用价值。

附图说明：

图1为实施例中基于多模块融合的遥感影像目标检测流程示意；

图2为实施例中整体算法结构示意；

图3为实施例中多层特征融合流程示意；

图4为(a)-(d)为实施例中空间注意力机制效果示意；

图5为实施例中通道注意力机制模块示意；

图6为实施例中可视化目标检测结果示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

为满足遥感影像中小目标的检测，本发明实施例中，参见图1所示，提供一种基于多模块融合的遥感影像目标检测方法，具体包含：

S101、对遥感影像进行随机数据增广处理，并通过深度卷积神经网络对增广处理后的影像数据进行特征提取，获取兼具语义信息和位置信息的融合特征图；

S102、利用空间注意力机制和通道注意力机制对融合特征图进行优化，以突出图像局部区域与特征图通道；

S103、利用区域生成网络对优化后的特征图进行处理，获取目标候选区域，并提取目标候选区域预设倍数大小的局部信息和上下文信息；

S104、针对目标候选区域及目标候选区域的局部信息和上下文信息，利用ROIpooling层获取不同大小候选区域的定长特征，并通过对候选框类别分类和边界框回归，获取目标检测结果。

通过将多层特征融合、注意力机制、局部上下文信息进行有机地结合，充分提取并优化目标特征，提高遥感影像中目标的检测精度，降低目标的漏检和错检，实现遥感图像小目标的精确检测。

作为本发明实施例中基于多模块融合的遥感影像目标检测方法，进一步的，将任意尺寸的输入图像统一缩放至固定尺寸，并对图像进行色彩增广和/或几何增广处理。进一步地，图像统一缩放过程中，将短边缩放至预定尺寸，保持图像宽高比不变，再缩放相应长边。进一步地，对图像以预设概率进行色彩增广和/或几何增广处理，其中，色彩增广处理包括但不限于：色彩抖动、伽马修正、直方图修正及hsv变换，几何增广处理包括但不限于：水平翻转、垂直翻转及随机角度旋转。

将任意尺寸图像缩放至统一尺寸的方式为：首先将其短边缩放至800等预先设定数值，然后保持原始图像的宽高比不变，在缩放相应的长边；对图像进行随机增广的方式为：对输入的图像以0.5等预设的概率进行色彩增广和几何增广，其中色彩增广方式包括：色彩抖动、伽马修正、直方图修正、hsv变换，几何增广的方式包括：水平翻转、垂直翻转、随机角度旋转。

作为本发明实施例中基于多模块融合的遥感影像目标检测方法，进一步地，通过深度卷积神经网络进行特征提取，对不同的包含语义信息的深层特征图分别进行双线性插值，使得深层特征图大小与包含位置信息的浅层特征图大小一致；将深层特征图和浅层特征图进行元素级相加，得到兼具深层语义信息和浅层位置信息的融合特征图。

参见图2和3所示，将不同大小的特征图进行融合的方式为：将C4特征图进行两次双线性插值，将C3特征图进行一次双线性插值，使两特征图的大小与C2特征图相同，然后将三个特征图进行元素级相加，得到最终兼具高层语义信息与浅层位置信息的融合特征图F2。

作为本发明实施例中基于多模块融合的遥感影像目标检测方法，进一步地，融合特征图优化中，借鉴语义分割思想，以标注目标区域为真值，利用监督学习方式调整目标所在区域的权重；利用ECA-Net为融合特征图添加通道注意力机制，并更新各通道权值。进一步地，针对区域生成网络生成不同大小和不同高宽比的目标候选区域，依据目标候选区域边界框坐标及尺寸并通过预设倍数大小对目标候选区域进行放大处理，得到目标候选区域的预设放大倍数区域作为局部信息和上下文信息区域。进一步地，添加通道注意力机制时，首先对输入的特征图进行全局平均池化，然后利用各通道卷积核进行卷积运算；并对卷积运算后的特征图进行softmax操作，使各元素值范围在0～1之间，并通过与输入特征图进行元素级相乘，得到具有不同权值的特征图。进一步地，卷积运算中，卷积核大小k为通道C的函数，该函数表示为：

其中，|x|_odd表示距x最近的奇数，α，β为超参数。

借鉴语义分割的思想，以标注的目标区域为真值，利用监督学习的方式，在模型训练中，调整目标所在区域部分的权重，进而增强目标区域在特征图中的响应，达到突出前景，抑制背景的目的；施加通道注意力机制的方式为：使用ECA-Net为融合特征图F2添加通道注意力机制，并在训练的过程中不断更新各通道的权值，该方法与传统的通道注意力方法SE-Net相比，更加高效。

根据原始候选区域计算得到新的候选区域，假设原始候选区域边界框的左上角和右下角坐标分别为(x₁,y₁)和(x₂,y₂)，其宽度和高度分别为w＝x₂-x₁,h＝y₂-y₁，图像的宽、高为W,H，候选区域放大尺度为s，则新的候选区域坐标可由下式计算而得：

公式中，例如，取s＝-0.5和s＝1.0，即可得到原始候选区域0.25倍和4倍大小的候选区域。

通过ROI Pooling的操作中，例如，RoI Pooling层中池化卷积核的大小为14×14，即不同大小的候选区域经过RoI Pooling池化层，其输出为14×14＝196维的定长特征，定长特征随后经过两个全连接层，最终得到相应目标区域的分类结果和定位边界框。

进一步地，基于上述的方法，本发明实施例还提供一种基于多模块融合的遥感影像目标检测系统，包含：预处理模块、数据优化模块、区域获取模块和目标检测模块，其中，

为验证本发明方案有效性，下面结合实验数据做进一步解释说明：

将获取的数据集可按8:1:1的比例划分为训练集、验证集和测试集，划分时尽量保证各样本类别的均衡，其中验证集用于模型训练时调整模型的超参数，测试集用于最终测试模型的性能。将训练集中所有任意尺寸的图像缩放至统一的尺寸大小。本例中，首先比较图像的宽与高，将二者中的较小值放缩至800；然后，保证原始宽高比不变缩放另一边。对缩放后的图像做随机数据增广。预先设定一概率阈值，若随机值小于该阈值则对图像做随机变换。其中随机变换方式包括色彩变换和几何变换，更具体地，色彩变换包括：色彩抖动、伽马修正、直方图修正、hsv变换，几何变换包括：水平翻转、垂直翻转、随机角度旋转(变换范围为-15°～15°)。

将预处理过的图像输入特征提取网络ResNet-101，该网络输出五层通道依次递增，大小依次递减(降采样因子为2)的特征图C1～C5，为兼顾检测率与准确度，本例选择将C2、C3、C4特征层进行融合。

特征层C2、C3、C4的融合方式如图3所示。首先，对各特征层分别进行一次1*1的卷积，使其通道降为统一的大小；然后，分别对C4、C3特征层进行上采样至与C2同一大小，其中上采样方包括最邻近、双线性、双三次卷积三种，权衡其精度与效率，本例中选择双线性插值方法；最后，将具有相同通道和大小的特征图C2、C3、C4进行元素级相加(即对应元素相加)，得到兼具深层语义信息与浅层位置信息的融合特征图F2。

为融合特征图F2施加空间注意力机制。其具体做法是：以标注的目标区域为真值，利用监督学习的方式，在模型训练中，更新目标所在区域部分的权重，进而增强目标区域在特征图中的响应，达到突出前景目标，抑制背景噪声的目的，如图4所示，其中图4(a)为原图及目标标注；图4(b)为施加注意力机制前目标在特征图中的响应，可以看到施加注意力机制后，目标在特征图中的响应明显更强；图4(d)为最终的检测结果。

为融合特征图F2施加通道注意力机制，该步骤与施加空间注意力机制平行同时进行，其流程如图5所示。首先，对输入大小为W×H×C的输入特征图进行全局平均池化，得到1×1×C大小的特征图；然后，对1×1×C大小的特征图进行1*1卷积，其卷积核大小为通道C的函数，具体计算公式为：

式中，|x|_odd表示距x最近的奇数；α，β为超参数，本例中，取α＝1，β＝2.

最后，对卷积后的特征图进行softmax操作，使其各元素值的范围为0～1之间，并将该特征图与输入特征图进行元素级相乘，即可得到具有不同权重的特征图。

在生成的特征图A2之上，利用区域候选网络(RPN)生成具有不同大小和宽高比的候选区域作为原始候选区域，其中，从锚框中筛选候选区域的IoU最高和最低阈值分别设定为0.7和0.3。依据选出的原始候选区域，由公式计算得原始候选区域的0.25倍和4倍大小区域作为局部信息和上下文信息区域，其计算公式为：

式中，(x₁,y₁)和(x₂,y₂)分别为原始候选区域边界框的左上角和右下角坐标，w＝x₂-x₁,h＝y₂-y₁为其宽度和高度，W,H为图像的宽、高，s为候选区域放大的尺度。

将得到的包含目标局部信息和上下文信息的候选区域通过ROI Pooling，以得到不同大小候选区域的定长特征，其中，RoI Pooling层中池化卷积核的大小为14×14，即不同大小的候选区域经过RoI Pooling池化层，其输出为14×14＝196维的定长特征。定长特征随后经过两个全连接层，最终得到相应目标区域的分类结果和定位边界框。如图6所示的可视化目标检测结果，进一步验证，本发明方案能够实现遥感图像小目标的精确检测。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述系统实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于多模块融合的遥感影像目标检测方法，其特征在于，包含如下内容：

2.根据权利要求1所述的基于多模块融合的遥感影像目标检测方法，其特征在于，将任意尺寸的输入图像统一缩放至固定尺寸，并对图像进行色彩增广和/或几何增广处理。

3.根据权利要求2所述的基于多模块融合的遥感影像目标检测方法，其特征在于，图像统一缩放过程中，将短边缩放至预定尺寸，保持图像宽高比不变，再缩放相应长边。

4.根据权利要求2所述的基于多模块融合的遥感影像目标检测方法，其特征在于，对图像以预设概率进行色彩增广和/或几何增广处理，其中，色彩增广处理包括但不限于：色彩抖动、伽马修正、直方图修正及hsv变换，几何增广处理包括但不限于：水平翻转、垂直翻转及随机角度旋转。

5.根据权利要求1所述的基于多模块融合的遥感影像目标检测方法，其特征在于，通过深度卷积神经网络进行特征提取，对不同的包含语义信息的深层特征图分别进行双线性插值，使得深层特征图大小与包含位置信息的浅层特征图大小一致；将深层特征图和浅层特征图进行元素级相加，得到兼具深层语义信息和浅层位置信息的融合特征图。

6.根据权利要求1或5所述的基于多模块融合的遥感影像目标检测方法，其特征在于，融合特征图优化中，借鉴语义分割思想，以标注目标区域为真值，利用监督学习方式调整目标所在区域的权重；利用ECA-Net为融合特征图添加通道注意力机制，并更新各通道权值。

7.根据权利要求6所述的基于多模块融合的遥感影像目标检测方法，其特征在于，添加通道注意力机制时，首先对输入的特征图进行全局平均池化，然后利用各通道卷积核进行卷积运算；并对卷积运算后的特征图进行softmax操作，使各元素值范围在0～1之间，并通过与输入特征图进行元素级相乘，得到具有不同权值的特征图。

8.根据权利要求7所述的基于多模块融合的遥感影像目标检测方法，其特征在于，卷积运算中，卷积核大小k为通道C的函数，该函数表示为：

其中，|x|_odd表示距x最近的奇数，α，β为超参数。

9.根据权利要求1所述的基于多模块融合的遥感影像目标检测方法，其特征在于，针对区域生成网络生成不同大小和不同高宽比的目标候选区域，依据目标候选区域边界框坐标及尺寸并通过预设倍数大小对目标候选区域进行放大处理，得到目标候选区域的预设放大倍数区域作为局部信息和上下文信息区域。

10.一种基于多模块融合的遥感影像目标检测系统，其特征在于，包含：预处理模块、数据优化模块、区域获取模块和目标检测模块，其中，