CN113191208A

CN113191208A - 一种用于遥感图像实例分割的特征提取方法和计算机设备

Info

Publication number: CN113191208A
Application number: CN202110381320.6A
Authority: CN
Inventors: 王改华; 林锦衡; 代迎盈; 程磊; 张天伦
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-07-30
Anticipated expiration: 2041-04-09
Also published as: CN113191208B

Abstract

本发明提供了一种用于遥感图像实例分割的特征提取方法和计算机设备，用于遥感图像实例分割的特征提取方法包括：获取待处理的遥感图像，并将遥感图像输入第一模块，得到第一特征图；将第一特征图输入第二模块得到第二特征图；将第二特征图输入第三模块得到第三特征图；将第三特征图输入第四模块得到第四特征图；将第四特征图输入第五模块得到目标特征图。本发明中，第一结构块、第二结构块和第三结构块均包括并行的若干尺度不同的卷积层，通过引入多尺度卷积，增强了遥感图像中物体与背景之间的对比，保持了细节方面的特征，提高了目标特征图的精度。

Description

一种用于遥感图像实例分割的特征提取方法和计算机设备

技术领域

本申请涉及图像处理领域，特别是涉及一种用于遥感图像实例分割的特征提取方法和计算机设备。

背景技术

遥感图像不仅在军事侦察、攻击评估和其他军事领域起着至关重要的作用，也可以用于民用领域，如灾害控制、土地规划、城市监控、交通规划等。由于遮挡、光照和地形复杂，导致遥感图像本身背景杂乱，现有技术在基于遥感影像提取图像特征时，会提取到很多干扰特征，进而很难从真实场景中高效、准确和可靠地提取实例。

因此，现有技术有待改进。

发明内容

本发明所要解决的技术问题是，现有提取的遥感图像的图像特征，质量不好。提供了一种用于遥感图像实例分割的特征提取方法和计算设备，通过串行的若干第一结构块，串行的若干第二结构块、串行的若干第三结构块，第一结构块中并行的若干尺度不同的卷积层，第二结构块中并行的若干尺度不同的卷积层以及第三结构块中并行的若干尺度不同的卷积层，引入了多尺度卷积，以增强突出遥感图像中物体与背景之间的对比，保持细节方面的特征，提高了遥感图像对应的特征图的精度。

第一方面，本发明实施例提供了一种用于遥感图像实例分割的特征提取方法，包括：

获取待处理的遥感图像，并将所述遥感图像输入第一模块，得到第一特征图；

将所述第一特征图输入第二模块，得到第二特征图，其中，所述第二模块包括串行的若干第一结构块，每个第一结构块均包括第一输入层、第一卷积网络和第一输出层，所述第一卷积网络包括并行的若干尺度不同的卷积层；

将所述第二特征图输入第三模块，得到第三特征图，其中，所述第三模块包括串行的若干第二结构块，每个第二结构块均包括第二输入层、第二卷积网络和第二输出层，所述第二卷积网络包括并行的若干尺度不同的卷积层；

将所述第三特征图输入第四模块，得到第四特征图，其中，所述第四模块包括串行的若干第三结构块，每个第三结构块均包括第三输入层、第三卷积网络和第三输出层，所述第三卷积网络包括并行的若干尺度不同的卷积层；

将所述第四特征图输入第五模块，得到所述遥感图像对应的目标特征图。

作为进一步的改进技术方案，所述第一结构块还包括第一注意力模块；对于串行的若干第一结构块，按照串行顺序，排列在第一位的第一结构块的输入项为所述第一特征图，排列在最后一位的第一结构块的输出项为所述第二特征图任意一个第一结构块的输出项均为排列在该第一结构块下一位的第一结构块的输入项；

所述将所述第一特征图输入第二模块，得到第二特征图，具体包括：

对于每个第一结构块，将该第一结构块对应的输入项输入该第一结构块的第一输入层，得到第一中间特征图；

将所述第一中间特征图划分为若干第一输入张量，其中，所述若干第一输入张量与该第一结构块中第一卷积网络包括的若干卷积层一一对应；

对于每个第一输入张量，将该第一输入张量输入该第一输入张量对应的卷积层，得到该第一输入张量对应第一输出张量；

将所有第一输出张量相加，得到第一相加特征图；

将所述第一中间特征图输入所述第一注意力模块，以得到第一注意力特征图；

将所述第一相加特征图和所述第一注意力特征图相乘，得到第一相乘特征图，并将所述第一相乘特征图输入所述第一输出层，得到所述第一结构块对应的输出项。

作为进一步的改进技术方案，所述第一卷积网络包括并行的9*9的卷积层、7*7的卷积层、5*5的卷积层，以及3*3的卷积层。

作为进一步的改进技术方案，所述第一注意力模块包括：第一最大池化层、第一全连接网络、第一激活层和第一全局平均池化层；所述将所述第一中间特征图输入所述第一注意力模块，以得到第一注意力特征图，具体包括：

对所述第一中间特征图进行转换操作，得到第一滤波特征图；

将所述第一滤波特征图分别输入所述第一最大池化层和所述第一全局平均池化层，通过所述第一最大池化层得到第一最大池化向量，通过所述第一全局平均池化层得到第一平均池化向量；

将所述第一最大池化向量输入所述第一全连接网络，得到第一全连接向量；

将所述第一全连接向量输入所述第一激活层，得到第一激励向量；

将所述第一激励向量和所述第一平均池化向量相加，得到第一注意力特征图。

作为进一步的改进技术方案，所述第二结构块还包括第二注意力模块；对于串行的若干第二结构块，按照串行顺序，排列在第一位的第二结构块的输入项为所述第二特征图，排列在最后一位的第二结构块的输出项为所述第三特征图任意一个第二结构块的输出项均为排列在该第二结构块下一位的第二结构块的输入项；

所述将所述第二特征图输入第三模块，得到第三特征图，具体包括：

对于每个第二结构块，将该第二结构块对应的输入项输入该第二结构块的第二输入层，得到第二中间特征图；

将所述第二中间特征图划分为若干第二输入张量，其中，所述若干第二输入张量与该第二结构块中第二卷积网络包括的若干卷积层一一对应；

对于每个第二输入张量，将该第二输入张量输入该第二输入张量对应的卷积层，得到该第二输入张量对应第二输出张量；

将所有第二输出张量相加，得到第二相加特征图；

将所述第二中间特征图输入所述第二注意力模块，以得到第二注意力特征图；

将所述第二相加特征图和所述第二注意力特征图相乘，得到第二相乘特征图，并将所述第二相乘特征图输入所述第二输出层，得到所述第二结构块对应的输出项。

作为进一步的改进技术方案，所述第二卷积网络包括并行的7*7的卷积层、5*5的卷积层，以及3*3的卷积层。

作为进一步的改进技术方案，所述第三结构块还包括第三注意力模块；对于串行的若干第三结构块，按照串行顺序，排列在第一位的第三结构块的输入项为所述第三特征图，排列在最后一位的第三结构块的输出项为所述第四特征图任意一个第三结构块的输出项均为排列在该第三结构块下一位的第三结构块的输入项；

所述将所述第三特征图输入第四模块，得到第四特征图，具体包括：

对于每个第三结构块，将该第三结构块对应的输入项输入该第三结构块的第三输入层，得到第三中间特征图；

将所述第三中间特征图划分为若干第三输入张量，其中，所述若干第三输入张量与该第三结构块中第三卷积网络包括的若干卷积层一一对应；

对于每个第三输入张量，将该第三输入张量输入该第三输入张量对应的卷积层，得到该第三输入张量对应第三输出张量；

将所有第三输出张量相加，得到第三相加特征图；

将所述第三中间特征图输入所述第三注意力模块，以得到第三注意力特征图；

将所述第三相加特征图和所述第三注意力特征图相乘，得到第三相乘特征图，并将所述第三相乘特征图输入所述第三输出层，得到所述第三结构块对应的输出项。

作为进一步的改进技术方案，所述第三卷积网络包括并行的5*5卷积层和3*3卷积层。

第二方面，本发明提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

与现有技术相比，本发明实施例具有以下优点：

本发明通过串行的若干第一结构块，串行的若干第二结构块、串行的若干第三结构块，第一结构块中并行的若干尺度不同的卷积层，第二结构块中并行的若干尺度不同的卷积层以及第三结构块中并行的若干尺度不同的卷积层，引入了多尺度卷积，以增强突出遥感图像中物体与背景之间的对比，保持细节方面的特征，提高了遥感图像对应的特征图的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种用于遥感图像实例分割的特征提取方法的流程示意图；

图2为本发明实施例中，卷积核不分组卷积、分2组卷积和分4组卷积的示意图；

图3为本发明在一种实现方式中，用于遥感图像实例分割的特征提取方法的流程示意图；

图4为本发明实施例中，遥感图像在现有的Mask R-CNN中不同阶段的特征图，以及根据本发明实施例得到遥感图像对应的目标特征图，再应用于Mask R-CNN中不同阶段的特征图；

图5为本发明实施例中一种计算机设备的内部结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人经过研究发现，遥感图像不仅在军事侦察、攻击评估和其他军事领域起着至关重要的作用，也可以用于民用领域，如灾害控制、土地规划、城市监控、交通规划等。由于遮挡、光照和地形复杂，导致遥感图像本身背景杂乱，现有技术在基于遥感影像提取图像特征时，会提取到很多干扰特征，进而很难从真实场景中高效、准确和可靠地提取实例。

为了解决上述问题，在本发明实施例中，通过串行的若干第一结构块，串行的若干第二结构块、串行的若干第三结构块，第一结构块中并行的若干尺度不同的卷积层，第二结构块中并行的若干尺度不同的卷积层以及第三结构块中并行的若干尺度不同的卷积层，引入了多尺度卷积，以增强突出遥感图像中物体与背景之间的对比，保持细节方面的特征，提高了遥感图像对应的特征图的精度。

本发明提供的一种用于遥感图像实例分割的特征提取方法可以应用于电子设备中，所述电子设备包括硬件资源有限、计算量有限的终端，其中，所述电子设备可以以各种形式来实现，例如，PC机、服务器、手机、平板电脑、掌上电脑、个人数字助理(PersonalDigital Assistant，PDA)等。另外，该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，所述电子设备至少包括处理器和存储介质。

下面结合附图，详细说明本发明的各种非限制性实施方式。

参见图1，示出了本发明实施例中的一种用于遥感图像实例分割的特征提取方法，包括：

S1、获取待处理的遥感图像，并将所述遥感图像输入第一模块，得到第一特征图。

在本发明实施例中，所述用于遥感图像实例分割的特征提取方法应用于多尺度模块，将待处理的遥感图像输入多尺度模块，得到遥感图像的目标特征图。其中，所述多尺度模块包括：第一模块、第二模块、第三模块、第四模块和第五模块。

在本发明实施例中，所述第一模块包括第一网络层和第二网络层，其中，第一网络层是卷积层，卷积核大小为7*7，卷积核个数为64，步长为2；第二网络层是池化层，卷积核大小为3*3，步长为2，通过第二网络层进行最大池化操作。将所述遥感图像输入第一网络层，得到第一网络层的输出结果，将第一网络层的输入结果输入所述第二网络层，得到所述第一特征图。

例如，遥感图像的图像尺寸为：224*224*3，将遥感图像输入第一网络层，第一网络层的输出结果为p1，p1的尺寸为112*112*64；将p1输入第二网络层，第二网络层输出第一特征图p2，第一特征图的尺寸为56*56*64。

S2、将所述第一特征图输入第二模块，得到第二特征图，其中，所述第二模块包括串行的若干第一结构块，每个第一结构块均包括第一输入层、第一卷积网络和第一输出层，所述第一卷积网络包括并行的若干尺度不同的卷积层。

在本发明实施例中，若干第一结构块的网络结构相同，对于串行的若干第一结构块，按照串行顺序，排列在第一位的第一结构块的输入项为所述第一特征图，排列在最后一位的第一结构块的输出项为所述第二特征图，任意一个第一结构块的输出项均为排列在该第一结构块下一位的第一结构块的输入项。

进一步地，第二模块包括串行的三个第一结构块，分别记为第一结构块-1，第一结构块-2和第二结构块-3。按照串行顺序，第一结构块-1排列在第一位，第一结构块-2排列在第二位，第一结构块-3排列在第三位；第一结构块-1的输入项为所述第一特征图，第一结构块-1的输出项为第一结构块-2的输入项，第一结构块-2的输出项为第一结构块-3的输入项，第一结构块-3的输出项为第二特征图。

在本发明实施例中，所述第一结构块还包括第一注意力模块。具体的，步骤S2包括：

S21、对于每个第一结构块，将该第一结构块对应的输入项输入该第一结构块的第一输入层，得到第一中间特征图。

在本发明实施例中，所述第一输入层为卷积层，卷积核的大小为1*1，卷积核的数量为64。以第一结构块-1为例，第一结构块-1中的第一输入层记为：第一输入层-1，第一结构块-1的输入项为第一特征图；将第一特征图输入第一输入层-1，得到第一中间特征图-1。

S22、将所述第一中间特征图划分为若干第一输入张量，其中，所述若干第一输入张量与该第一结构块中所述第一卷积网络包括的若干卷积层一一对应。

在本发明实施例中，所述第一卷积网络包括并行的9*9的卷积层、7*7的卷积层、5*5的卷积层，以及3*3的卷积层，即第一卷积网络包括4个尺度不同的卷积层，则将第一中间特征图划分为4个第一输入张量，具体的，按照第一中间特征图的通道数，将所述第一中间特征图划分为4个第一输入张量。

S23、对于每个第一输入张量，将该第一输入张量输入该第一输入张量对应的卷积层，得到该第一输入张量对应第一输出张量。

在本发明实施例中，当第一卷积网络包括4个尺度不同的卷积层时，将第一中间特征图划分为4个第一输入张量，4个第一输入张量包括T1-1,T1-2,T1-3和T1-4，将T1-1输入9*9的卷积层得到第一输出张量Y1-1，将T1-2输入7*7的卷积层得到第一输出张量Y1-2，将T1-3输入5*5的卷积层得到第一输出张量Y1-3，将T1-4输入3*3的卷积层得到第一输出张量Y1-4。

在本发明实施例中，在第一卷积网络中，9*9的卷积层是卷积核大小为9*9的卷积层，9*9的卷积层的卷积核数量可以为16个，并且将9*9的卷积层中的所有卷积核分为若干组，通过分组之后的卷积核对第一输入张量T1-1进行处理，得到第一输出张量Y1-1。

参见图2，示出了卷积核不分组，卷积核分为2组，卷积核分为4组，三种情况下的卷积运算。相对于未分组的卷积核，分组之后的卷积核可以考虑到更多通道的特征，得到的第一输出张量精确度更高，代表性更强。具体的，可以将9*9的卷积层中的所有卷积核分为16组。

在本发明实施例中，第一卷积网络中的7*7的卷积层是卷积核大小为7*7的卷积层，7*7的卷积层的卷积核数量可以为16个，并且将7*7的卷积层中的所有卷积核分为若干组，通过分组之后的卷积核对第一输入张量T1-2进行处理，得到第一输出张量Y1-2。具体的，可以将7*7的卷积层中的所有卷积核分为8组。

在本发明实施例中，第一卷积网络中的5*5的卷积层是卷积核大小为5*5的卷积层，5*5的卷积层的卷积核数量可以为16个，并且将5*5的卷积层中的所有卷积核分为若干组，通过分组之后的卷积核对第一输入张量T1-3进行处理，得到第一输出张量Y1-3。具体的，可以将5*5的卷积层中的所有卷积核分为4组。

在本发明实施例中，第一卷积网络中的3*3的卷积层是卷积核大小为3*3的卷积层，3*3的卷积层的卷积核数量可以为16个，由于卷积核大小比较小，可以不对3*3的卷积层中的卷积核进行分组。

S24、将所有第一输出张量相加，得到第一相加特征图。

在本发明实施例中，第一卷积网络会输出若干第一输出张量，若干第一输出张量与若干第一输入张量一一对应，同样，若干第一输出张量与第一卷积网络中的若干卷积层一一对应。当第一卷积网络包括4个尺度不同的卷积层时，所有第一输出张量包括：Y1-1，Y1-2，Y1-3和Y1-4，将Y1-1，Y1-2，Y1-3和Y1-4相加，得到第一相加特征图Y1。

S25、将所述第一中间特征图输入所述第一注意力模块，以得到第一注意力特征图。

在本发明实施例中，所述第一注意力模块包括：第一最大池化层、第一全连接网络、第一激活层和第一全局平均池化层。具体的，步骤S25包括：

S251、对所述第一中间特征图进行转换操作，得到第一滤波特征图。

在本发明实施例中，将所述第一中间特征图划分为若干第一注意力张量，对所述若干第一注意力张量进行转换操作，得到第一滤波特征图。具体的，所述转换操作具体为，利用过滤器核进行卷积操作。将若干第一注意力张量记为X∈R^H×W×W，过滤器核的集合记为：V＝[v₁,v₂,…,v_c]，其中，v_c为第c个过滤器，所述第一滤波特征图表示为U＝[u₁,u₂,…,u_c]；其中，u_c的计算过程如公式(2)所示。

其中，*表示卷积，

u_c∈R^H×W,X＝[x¹,x¹,…,x^c′],

是一个二维的空间核，表示v_c的单个通道作用于s组对应的通道上，这种做法可以对通道进行增强，加速网络收敛，从而获得更好的网络性能。因为所有通道都会生成输出，所以通道特征会潜在地嵌入到v_c中，同时，这些通道特征会与滤波器捕获的空间相关性更好地融合。

S252、将所述第一滤波特征图分别输入所述第一最大池化层和所述第一全局平均池化层，通过所述第一最大池化层得到第一最大池化向量，通过所述第一全局平均池化层得到第一平均池化向量。

在本发明实施例中，对于每张第一滤波特征图，所述第一最大池化层对所述第一滤波特征图做最大池化处理，得到第一池化特征向量，最大池化层编码了第一滤波特征图中显著的部分，可以突出遥感图像中物体和背景之间的区别。通过所述第一全局平均池化层对所述第一滤波特征图做全局平均池化处理，得到第一平均池化向量。

S253、将所述第一最大池化向量输入所述第一全连接网络，得到第一全连接向量；

在本发明实施例中，所述第一全连接网络包括两个全连接层，所述两个全连接层中的全连接层-1的输入项为所述第一最大池化向量，所述全连接层-1的输出项为两个全连接层中的全连接层-2的输入项，所述全连接层-2的输出项为所述第一全连接向量。

S254、将所述第一全连接向量输入所述第一激活层，得到第一激励向量。

S255、将所述第一激励向量和所述第一平均池化向量相加，得到第一注意力特征图。

在本发明实施例中，所述第一激活层配置有激活函数，基于所述激活函数和所述第一全连接向量，得到第一激励向量。将第一激励向量和第一平均池化向量相加，得到第一注意力特征图。

在本发明实施例中，所述第一注意力模块是基于SENet改进得到，具体的，将SENet中的全局平均池化层修改为最大池化层，并通过快捷连接的方式引入平均池化的信息，生成一个有效的特征描述符。在引入小计算量的前提下，解决了因维度降低导致的通道信息丢失问题，同时引入了全局的统计信息，在增强相关表征的同时抑制无关表征。

S26、将所述第一相加特征图和所述第一注意力特征图相乘，得到第一相乘特征图，并将所述第一相乘特征图输入所述第一输出层，得到所述第一结构块对应的输出项。

在本发明实施例中，将所述第一相乘特征图输入所述第一输出层，得到所述第一结构块对应的输出项。所述第一输出层为卷积层，第一输出层的卷积核大小为1*1，第一输出层的卷积核个数为256。将第一相加特征图Y1输入第一输出层，得到第一结构块对应的输出项。

对于步骤S22至步骤S26，参见图3，将第一中间特征图输入第一卷积网络100，得到第一相加特征图；并将第一中间特征图输入第一注意力模块200，得到第一注意力特征图。具体的，第一注意力模块200首先对第一中间特征图进行转换操作，得到第一滤波特征图；将第一滤波特征图分别输入第一最大池化层201和第一全局平均池化层202，通过第一最大池化层201得到第一最大池化向量，通过第一全局平均池化层202得到第一平均池化向量；将第一最大池化向量输入第一全连接网络203得到第一全连接向量，将第一全连接向量输入第一激活层204得到第一激励向量，通过相加单元205，将所述第一激励向量和所述第一平均池化向量相加，得到第一注意力特征图，通过相乘单元300，将所述第一相加特征图和所述第一注意力特征图相乘，得到第一相乘特征图。

在本发明实施例中，对于每一个第一结构块，均执行步骤S21至步骤S24，得到该第一结构块对应的输出项。具体的，按照串行顺序，将第一结构块-1对应的输出项记为Yo1-1，将第一结构块-2对应的输出项记为Yo1-2，将第一结构块-3对应的输出项记为Yo1-3，其中，Yo1-1是第一结构块-2的输入项，Yo1-2是第一结构块-3的输入项，将第一结构块-3对应的输出项Yo1-3即第二特征图。

S3、将所述第二特征图输入第三模块，得到第三特征图，其中，所述第三模块包括串行的若干第二结构块，每个第二结构块均包括第二输入层、第二卷积网络和第二输出层，所述第二卷积网络包括并行的若干尺度不同的卷积层。

在本发明实施例中，若干第二结构块的网络结构相同，对于串行的若干第二结构块，按照串行顺序，排列在第一位的第二结构块的输入项为所述第二特征图，排列在最后一位的第二结构块的输出项为所述第三特征图。任意一个第二结构块的输出项均为排列在该第二结构块下一位的第二结构块的输入项。

进一步地，第三模块包括串行的四个第二结构块，分别记为第二结构块-1，第二结构块-2，第二结构块-3和第二结构块-4。按照串行顺序，第二结构块-1排列在第一位，第二结构块-2排列在第二位，第二结构块-3排列在第三位，第二结构块-4排列在第四位；第二结构块-1的输入项是第二特征图，第二结构块-2的输入项是第二结构块-1的输出项，第二结构块-3的输入项是第二结构块-2的输出项，第二结构块-4的输入项是第二结构块-3的输出项，第二结构块-4的输出项是第三特征图。

在本发明实施例中，所述第二结构块还包括第二注意力模块。具体的，步骤S3包括：

S31、对于每个第二结构块，将该第二结构块对应的输入项输入该第二结构块的第二输入层，得到第二中间特征图。

在本发明实施例中，所述第二输入层为卷积层，卷积核的大小为1*1，卷积核的数量为128。以第二结构块-1为例，第二结构块-1中的第二输入层记为：第二输入层-1；第二结构块-1的输入项为第二特征图，将第二特征图输入第二输入层-1，得到第二中间特征图-1。

S32、将所述第二中间特征图划分为若干第二输入张量，其中，所述若干第二输入张量与该第二结构块中所述第二卷积网络包括的若干卷积层一一对应。

在本发明实施例中，所述第二卷积网络包括并行的7*7的卷积层、5*5的卷积层，以及3*3的卷积层，即第二卷积网络包括3个尺度不同的卷积层，则将第二中间特征图划分为3个第二输入张量。

S33、对于每个第二输入张量，将该第二输入张量输入该第二输入张量对应的卷积层，得到该第二输入张量对应第二输出张量。

在本发明实施例中，当第二卷积网络包括3个尺度不同的卷积层时，将第二中间特征图划分为3个第二输入张量，3个第二输入张量包括：T2-1,T2-2和T2-3，将T2-1输入7*7的卷积层，得到第二输出张量Y2-1，将T2-2输入5*5的卷积层，得到第二输出张量Y2-2，将T2-3输入3*3的卷积层，得到第二输出张量Y2-3。

在本发明实施例中，在第二卷积网络中，7*7的卷积层是卷积核大小为7*7的卷积层，7*7的卷积层的卷积核数量可以是64个，并且将7*7的卷积层中的所有卷积核分为若干组，通过分组之后的卷积核对第二输入张量T2-1进行处理，得到第二输出张量Y2-1。相对于未分组的卷积核，分组之后的卷积核可以考虑到更多通道的特征，得到的第二输出张量精确度更高，代表性更强。具体的，可以将7*7的卷积层中的所有卷积核分为8组。

第二卷积网络中，5*5的卷积层是卷积核大小为5*5的卷积层，5*5的卷积层的卷积核数量可以是32，并且将5*5的卷积层中的所有卷积核分为若干组，通过分组之后的卷积核对第二输入张量T2-2进行处理，得到第二输出张量Y2-2。具体的，可以将5*5的卷积层中的所有卷积核分为4组。

第二卷积网络中，3*3的卷积层是卷积核大小为3*3的卷积层，3*3的卷积层的卷积核数量可以是32。由于卷积核大小比较小，可以不对3*3的卷积层中的卷积核进行分组。

S34、将所有第二输出张量相加，得到第二相加特征图。

在本发明实施例中，第二卷积网络会输出若干第二输出张量，若干第二输出张量与若干第二输入张量一一对应，同样，若干第二输出张量与第二卷积网络中的若干卷积层一一对应，当第二卷积网络包括3个尺度不同的卷积层时，所有第二输出张量包括：Y2-1，Y2-2和Y2-3，将Y2-1，Y2-2和Y2-3相加，得到第二相加特征图Y2。

S35、将所述第二中间特征图输入所述第二注意力模块，以得到第二注意力特征图。

在本发明实施例中，所述第二注意力模块包括：第二最大池化层、第二全连接网络、第二激活层和第二全局平均池化层。具体的，步骤S35包括以下步骤：

对第二中间特征图进行转换操作，得到第二滤波特征图；

将第二滤波特征图分别输入所述第二最大池化层和所述第二全局平均池化层，通过所述第二最大池化层得到第二最大池化向量，通过所述第二全局平均池化层得到第二平均池化向量；

将所述第二最大池化向量输入第二全连接网络，得到第二全连接向量；

将所述第二全连接向量输入所述第二激活层，得到第二激励向量；

将所述第二激励向量和所述第二平均池化向量相加，得到第二注意力特征图。

在本发明实施例中，步骤S35包括的步骤，与步骤S251至步骤S255具有相同的过程，进而，关于步骤S35包括的步骤的具体说明，可以参见步骤S251至步骤S255的说明。

S36、将所述第二相加特征图和所述第二注意力特征图相乘，得到第二相乘特征图，并将所述第二相乘特征图输入所述第二输出层，得到所述第二结构块对应的输出项。

在本发明实施例中，将所述第二相加特征图输入所述第二输出层，得到所述第二结构块对应的输出项。所述第二输出层为卷积层，第二输出层的卷积核大小为1*1，卷积核的数量为512。将第二相加特征图Y2输入第二输出层，得到第二结构块对应的输出项。

在本发明实施例中，对于每个第二结构块，均执行步骤S31至步骤S34，得到该第二结构块对应的输出项。具体的，按照串行顺序，将第二结构块-1对应的输出项记为Yo2-1，将第二结构块-2对应的输出项记为Yo2-2，将第二结构块-3对应的输出项记为Yo2-3，将第二结构块-4对应的输出项记为Yo2-4，其中，Yo2-1是第二结构块-2的输入项，Yo2-2是第二结构块-3的输入项，Yo2-3是第二结构块-4的输入项，将第二结构块-4对应的输出项Yo2-4即第二特征图。

S4、将所述第三特征图输入第四模块，得到第四特征图，所述第四模块包括串行的若干第三结构块，每个第三结构块均包括第三输入层、第三卷积网络和第三输出层，所述第三卷积网络包括并行的若干尺度不同的卷积层。

在本发明实施例中，若干第三结构块的网络结构相同，对于串行的若干第三结构块，按照串行顺序，排列在第一位的第三结构块的输入项为所述第三特征图，排列在最后一位的第三结构块的输出项为所述第四特征图。任意一个第三结构块的输出项均为排列在该第三结构块下一位的第三结构块的输入项。

进一步地，第四模块包括串行的六个第三结构块，分别记为第三结构块-1，第三结构块-2，第三结构块-3，第三结构块-4，第三结构块-5和第三结构块-6。按照串行顺序，第三结构块-1排在第一位，第三结构块-2排在第2位，第三结构块-3排在第3位，第三结构块-4排在第4位，第三结构块-5排在第5位，第三结构块-6排在第6位。第三结构块-1的输入项是所述第三特征图，第三结构块-2的输入项是第三结构块-1的输出项，第三结构块-3的输入项是第三结构块-2的输出项，第三结构块-4的输入项是第三结构块-3的输出项，第三结构块-5的输入项是第三结构块-4的输出项，第三结构块-6的输入项是第三结构块-5的输出项，第三结构块-6的输出项是第四特征图。

在本发明实施例中，所述第三结构块还包括第三注意力模块。具体的，步骤S4包括：

S41、对于每个第三结构块，将该第三结构块对应的输入项输入该第三结构块的第三输入层，得到第三中间特征图。

在本发明实施例中，所述第三输入层为卷积层，卷积核的大小为1*1，卷积核的数量为512。以第三结构块-1为例，第三结构块-1中的第三输入层记为：第三输入层-1；第三结构块-1的输入项为第三特征图，将第三特征图输入第三输入层-1，得到第三中间特征图-1。

S42、将所述第三中间特征图划分为若干第三输入张量，其中，所述若干第三输入张量与该第三结构块中所述第三卷积网络包括的若干卷积层一一对应.

在本发明实施例中，所述第三卷积网络包括并行的5*5的卷积层和3*3的卷积层，即第三卷积网络包括2个尺度不同的卷积层，则将第三中间特征图划分为2个第三输入张量。

S43、对于每个第三输入张量，将该第三输入张量输入该第三输入张量对应的卷积层，得到该第三输入张量对应第三输出张量。

在本发明实施例中，当第三卷积网络包括2个尺度不同的卷积层时，将第三中间特征图划分为2个第三输入张量，2个第二输入张量包括：T3-1和T2-2，将T3-1输入5*5的卷积层，得到第三输出张量Y3-1，将T3-2输入3*3的卷积层，得到第三输出张量Y3-2。

在本发明实施例中，在第三卷积网络中，5*5的卷积层是卷积核大小为5*5的卷积层，5*5的卷积层的卷积核数量可以是128，并且将5*5的卷积层中的所有卷积核分为若干组，通过分组之后的卷积核对第三输入张量T3-1进行处理，得到第三输出张量Y3-1，具体的，可以将5*5的卷积层中的所有卷积核分为4组。

在第三卷积网络中，3*3的卷积层是卷积核大小为3*3的卷积层，3*3的卷积层的卷积核数量可以是128。由于卷积核大小比较小，可以不对3*3的卷积层中的卷积核进行分组。

S44、将所有第三输出张量相加，得到第三相加特征图。

在本发明实施例中，第三卷积网络会输出若干第三输出张量，若干第三输出张量与若干第三输入张量一一对应，同样，若干第三输出张量与第三卷积网络中的若干卷积层一一对应，当第三卷积网络包括2个尺度不同的卷积层时，所有第三输出张量包括：Y2-1和Y2-2，将Y2-1和Y2-2相加，得到第三相加特征图Y3。

S45、将所述第三中间特征图输入所述第三注意力模块，以得到第三注意力特征图。

在本发明实施例中，所述第三注意力模块包括：第三最大池化层、第三全连接网络、第三激活层和第三全局平均池化层。具体的，步骤S45包括以下步骤：

对第三中间特征图进行转换操作，得到第三滤波特征图；

将第三滤波特征图分别输入所述第三最大池化层和所述第三全局平均池化层，通过所述第三最大池化层得到第三最大池化向量，通过所述第三全局平均池化层得到第三平均池化向量；

将所述第三最大池化向量输入第三全连接网络，得到第三全连接向量；

将所述第三全连接向量输入所述第三激活层，得到第三激励向量；

将所述第三激励向量和所述第三平均池化向量相加，得到第三注意力特征图。

在本发明实施例中，步骤S45包括的步骤，与步骤S251至步骤S255具有相同的过程，进而，关于步骤S45包括的步骤的具体说明，可以参见步骤S251至步骤S255的说明。

S46、将所述第三相加特征图和所述第三注意力特征图相乘，得到第三相乘特征图，并将所述第三相乘特征图输入所述第三输出层，得到所述第三结构块对应的输出项。

在本发明实施例中，所述第三输出层为卷积层，第三输出层的卷积核大小为1*1，卷积核的数量为1024。将第三相加特征图Y3输入第三输出层，得到第三结构块对应的输出项。

在本发明实施例中，对于每个第三结构块，均执行步骤S41至步骤S44，得到该第三结构块对应的输出项。具体的，按照串行顺序，将第三结构块-1对应的输出项记为Yo3-1，将第三结构块-2对应的输出项记为Yo3-2，将第三结构块-3对应的输出项记为Yo3-3，将第三结构块-4对应的输出项记为Yo3-4，将第三结构块-5对应的输出项记为Yo3-5，将第三结构块-6对应的输出项记为Yo3-6，其中，Yo3-6是第四特征图。

S5、将所述第四特征图输入第五模块，得到所述遥感图像对应的目标特征图。

在本发明实施例中，所述第五模块包括串行的若干第四结构块，每个第四结构块的网络结构相同。对于串行的若干第四结构块，按照串行顺序，排列在第一位的第四结构块的输入项为所述第四特征图，排列在最后一位的第四结构块的输出项为所述目标特征图。任意一个第四结构块的输出项均为排列在该第四结构块下一位的第四结构块的输入项。

进一步地，所述第五模块包括串行的3个第四结构块，分别记为第四结构块-1，第四结构块-2，第四结构块-3。每个第四结构块包括：第四注意力模块、第四输入层、第四卷积网络和第四输出层。具体的，对于每个第四结构块，将该第四结构块对应的输入项输入该第四结构块的第四输入层，得到第四中间特征图；将第四中间特征图分别输入所述第四卷积网络和所述第四注意力模块，通过所述第四卷积网络得到第四相加特征图，通过所述第四注意力模块得到第四注意力特征图；将所述第四注意力特征图和所述第四相加特征图相乘，得到第四相乘特征图，并将所述第四相乘特征图输入所述第四输出层，得到该第四结构块的输出项。其中，第四结构块-1的第四输入层的输入项为所述第四特征图，所述第四结构块-3中的第四输出层的输出项为所述目标特征图。

在本发明实施例中，所述第四输入层为卷积层，第四输入层的卷积核的大小为1*1，卷积和的数量为512；第四卷积网络包括一个卷积层，该卷积层的卷积核大小为3*3，卷积核个数为512；第四输出层的卷积核大小为1*1，卷积核个数为2048。所述第四注意力模块包括：第四最大池化层、第四全连接网络、第四激活层和第四全局平均池化层。

在本发明实施例中，将第四中间特征图输入第四注意力模块，通过所述第四注意力模块得到第四注意力特征图的过程包括：

将第四输入层的输出项分别输入所述第四最大池化层和第四全局平均池化层，通过第四最大池化层得到第四最大池化向量，以及通过第四全局平均池化层得到第四平均池化向量；将第四最大池化向量输入第四全连接网络，得到第四全连接向量；将所述第四全连接向量输入第四激活层，得到第四激励向量；将所述第四激励向量和所述第四平均池化向量相加，得到第四注意力特征图。

在本发明实施例中，将第四中间特征图输入第四注意力模块，通过所述第四注意力模块得到第四注意力特征图的具体过程，与步骤S251至步骤S255具有相同的过程，进而，将第四中间特征图输入第四注意力模块，通过所述第四注意力模块得到第四注意力特征图的具体过程，可以参见步骤S251至步骤S255的说明。

接下来介绍基于中间特征图的卷积网络得到相加特征图的过程，具体的，以步骤S22至S24为参考，介绍基于第一中间特征图和第一卷积网络得到第一相加特征图的过程。

在步骤S22中，在通道维度上，将第一中间特征图划分为G个第一输入张量，由于第一卷积网络包括4个并行的卷积层，将第一中间特征图T1^(h，w，c)划分为4组第一输入张量，分别为：T1-1＝t1^(h，w，c1)，T1-2＝t1^(h，w，c2)，T1-3＝t1^(h，w，c3)，T1-4＝t1^(h，w，c4)，其中，h为T1^(h，w，c)的高度，w为T1^(h，w，c)的宽度，c为T1^(h，w，c)的通道数；c1是t1^(h，w，c1)的通道数，c2是t1^(h，w，c2)的通道数，c3是t1^(h，w，c3)的通道数，c4是t1^(h，w，c4)的通道数，c1+c2+c3+c4＝c。

将t1^(h，w，c1)输入第一卷积网络中的9*9的卷积层，得到Y1-1，将t1^(h，w，c2)输入第一卷积网络中的7*7的卷积层，得到Y1-2，将t1^(h，w，c3)输入第一卷积网络中的5*5的卷积层，得到Y1-3，将t1^(h，w，c4)输入第一卷积网络中的3*3的卷积层，得到Y1-4。

利用公式(1)，可以基于输入张量确定输出张量。

其中，Yⁿ为输出张量，n为输入张量的序号，

是序号为n的输入张量，c_n为输入张量的通道数，

是序号为n的输入张量中坐标为(x+i，y+j)，通道为

的值，z＝1，2，...，m·c_n，m为通道倍增器，

是卷积核，k_n是输入张量对应的卷积层中卷积核的大小，c′_m是输入张量对应的卷积层中卷积核通道数。其中，输入张量对应的卷积层中卷积核通道数与卷积核分组的组数和卷积核的总个数有关，输入张量对应的卷积层中卷积核通道数等于卷积核的总个数除以卷积核分组的组数。

以将第一输入张量T1-1＝t1^(h,w,c1)输入第一卷积网络中的9*9的卷积层，得到第一输出张量Y1-1＝Yⁿ为例，公式(1)中，n等于1，k_n等于9，c_n等于16，c′_n为1(第一卷积网络中的9*9的卷积层中卷积核个数为16，卷积核组数为16，因此卷积核通道数为1)，计算得到的

为Y1-1。

根据上述过程，通过公式(1)还可以确定第一输出张量Y1-2、第一输出张量Y1-3，第一输出张量Y1-4。将Y1-1、Y1-2、Y1-3和Y1-4相加可以得到第一相加特征图Y1。

在本发明实施例中，多尺度模块包括第一模块、第二模块、第三模块、第四模块和第五模块，在一种实现方式中，多尺度模块的结构如表1所示。

表1

例如，第二模块中，第一卷积网络包括：9*9，c1＝16，g1＝16的卷积层，其卷积核大小为9*9，卷积核个数为16，卷积核分组的组数为16；第三模块中，第二卷积网络包括：7*7，c1＝64，g1＝8的卷积层，其卷积核大小为7*7，卷积核个数为64，卷积核分组的组数为8。

公式(1)给出了根据输入张量确定输出张量的计算过程，基于所有第一输入张量、所有第二输入张量、所有第三输入张量、表1的数据和公式(1)可以确定所有第一输出张量、所有第二输出张量和所有第三输出张量。

在本发明实施例中，所述多尺度模块可以是对深度残差模块进行改进得到的，深度残差模块可以是ResNet-50模块。所述ResNet-50模块包括：第一深度残差块、第二深度残差块和第三深度残差块，第一深度残差块、第二深度残差块和第三深度残差块均包括3*3卷积层；参见表2，所述对于深度残差模块改进，具体包括：

表2

如表2所示，采用第一卷积网络和第一注意力模块替换所述第一深度残差块中的3*3卷积层，得到多尺度模块中的第二模块；采用第二卷积网络和第二注意力模块替换所述第二深度残差块中的3*3卷积层，得到多尺度模块中的第三模块，采用第三卷积网络和第三注意力模块替换所述第三深度残差块中的3*3卷积层，得到多尺度模块中的第四模块，采用第四卷积网络和第四注意力模块替换第四深度残差块中的3*3卷积层，得到多尺度模块中的第五模块。

多尺度模块中使用的激活函数、超参数以及归一化操作，可以与ResNet-50中的激活函数、超参数以及归一化操作相同。

在本发明实施例中，得到目标特征图后，可以通过Mask R-CNN确定遥感图像对应的实例分割结果；通过Mask R-CNN确定遥感图像对应的实例分割结果为现有技术，在此不赘述。通过本发明实施例，增强突出了遥感图像中物体与背景之间的对比，保持细节方面的特征，提高了遥感图像对应的目标特征图的精度，进而在后续通过目标特征图和Mask R-CNN确定遥感图像对应的实例分割结果时，可以提高实例分割结果的准确度。

参见图4，示出了遥感图像在现有的Mask R-CNN中不同阶段的特征图，以及根据本发明实施例得到遥感图像对应的目标特征图，再应用于Mask R-CNN中不同阶段的特征图。

为了进一步说明本发明的有益效果，参见表3，在遥感图像数据集xBD上进行了实验，分别列举出ResNet50、添加SENet、添加注意力模块、添加多尺度卷积网络、以及采用多尺度模块后的实验数据，对比实验精度、训练时间、测试时间和运算量。

表3

对于xBD数据集，在Mask R-CNN的基础上引入SENet，训练时间和图片处理速度均超过了原模型，使用xBD数据在相同的ResNet-50-FPN骨干下进行训练，多尺度模块达到58.92％的AP50，相比Mask R-CNN提高了3.27％，在提高精度的同时节省了2.9％的训练时间和3.7％的图片测试时间。引入注意力模块，有效减少了xBD模型训练时间，在背景占据大部分像素的图片中，对于无关特征的抑制效果较好。

本发明通过串行的若干第一结构块，串行的若干第二结构块、串行的若干第三结构块，第一结构块中并行的若干尺度不同的卷积层，第二结构块中并行的若干尺度不同的卷积层以及第三结构块中并行的若干尺度不同的卷积层，引入了多尺度卷积，以增强突出遥感图像中物体与背景之间的对比，保持细节方面的特征；在多尺度模块中增加注意力模块，通过注意力模块增强了有用通道的权重，同时抑制无关通道，得到目标特征图，提高了遥感图像对应的特征图的精度。

本发明实施例还提供了一种计算机设备，该设备可以是终端，内部结构如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于遥感图像实例分割的特征提取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5所示的仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种用于遥感图像实例分割的特征提取方法，其特征在于，包括：

2.根据权利要求1所述的用于遥感图像实例分割的特征提取方法，其特征在于，所述第一结构块还包括第一注意力模块；所述将所述第一特征图输入第二模块，得到第二特征图，具体包括：

将所有第一输出张量相加，得到第一相加特征图；

将所述第一相加特征图和所述第一注意力特征图相乘，得到第一相乘特征图，并将所述第一相乘特征图输入所述第一输出层，得到所述第一结构块对应的输出项，其中，对于串行的若干第一结构块，按照串行顺序，排列在第一位的第一结构块的输入项为所述第一特征图，排列在最后一位的第一结构块的输出项为所述第二特征图，任意一个第一结构块的输出项均为排列在该第一结构块下一位的第一结构块的输入项。

3.根据权利要求2所述的用于遥感图像实例分割的特征提取方法，其特征在于，所述第一卷积网络包括并行的9*9的卷积层、7*7的卷积层、5*5的卷积层，以及3*3的卷积层。

4.根据权利要求2所述的用于遥感图像实例分割的特征提取方法，其特征在于，所述第一注意力模块包括：第一最大池化层、第一全连接网络、第一激活层和第一全局平均池化层；所述将所述第一中间特征图输入所述第一注意力模块，以得到第一注意力特征图，具体包括：

5.根据权利要求1所述的用于遥感图像实例分割的特征提取方法，其特征在于，所述第二结构块还包括第二注意力模块；所述将所述第二特征图输入第三模块，得到第三特征图，具体包括：

将所有第二输出张量相加，得到第二相加特征图；

将所述第二相加特征图和所述第二注意力特征图相乘，得到第二相乘特征图，并将所述第二相乘特征图输入所述第二输出层，得到所述第二结构块对应的输出项，其中，对于串行的若干第二结构块，按照串行顺序，排列在第一位的第二结构块的输入项为所述第二特征图，排列在最后一位的第二结构块的输出项为所述第三特征图，任意一个第二结构块的输出项均为排列在该第二结构块下一位的第二结构块的输入项。

6.根据权利要求5所述的用于遥感图像实例分割的特征提取方法，其特征在于，所述第二卷积网络包括并行的7*7的卷积层、5*5的卷积层，以及3*3的卷积层。

7.根据权利要求1所述的用于遥感图像实例分割的特征提取方法，其特征在于，所述第三结构块还包括第三注意力模块；所述将所述第三特征图输入第四模块，得到第四特征图，具体包括：

将所有第三输出张量相加，得到第三相加特征图；

将所述第三相加特征图和所述第三注意力特征图相乘，得到第三相乘特征图，并将所述第三相乘特征图输入所述第三输出层，得到所述第三结构块对应的输出项，对于串行的若干第三结构块，按照串行顺序，排列在第一位的第三结构块的输入项为所述第三特征图，排列在最后一位的第三结构块的输出项为所述第四特征图，任意一个第三结构块的输出项均为排列在该第三结构块下一位的第三结构块的输入项。

8.根据权利要求7所述的用于遥感图像实例分割的特征提取方法，其特征在于，所述第三卷积网络包括并行的5*5卷积层和3*3卷积层。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一所述的用于遥感图像实例分割的特征提取方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一所述的用于遥感图像实例分割的特征提取方法的步骤。