CN113901972A

CN113901972A - 遥感图像建筑物的检测方法、装置、设备及存储介质

Info

Publication number: CN113901972A
Application number: CN202111495406.8A
Authority: CN
Inventors: 周波; 苗瑞; 邹小刚
Original assignee: Shenzhen HQVT Technology Co Ltd
Current assignee: Shenzhen HQVT Technology Co Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-01-07

Abstract

本申请提供一种遥感图像建筑物的检测方法、装置、设备及存储介质。通过接收待检测遥感图像，采用改进的特征提取模型对遥感图像进行多尺度特征提取，得到多个不同尺度的第一特征图；确定多个不同尺度的第一特征图中前景目标的第一检测框；获取第一检测框对应的第二特征图，对第二特征图进行分类、框回归以及掩膜预测，得到用于指示遥感图像中每种建筑物的类别信息、位置信息以及掩膜信息的检测结果。上述改进的特征提取模型包括多个卷积计算层，每个卷积计算层包括两个Ghost模块层，Ghost模块层是采用一系列线性运算生成特征图的模块层，对模型做了精度和轻量化上的改进，在满足高分遥感图像建筑物检测精度的情况下提升检测效率。

Description

遥感图像建筑物的检测方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种遥感图像建筑物的检测方法、装置、设备及存储介质。

背景技术

随着遥感卫星领域技术的不断发展，遥感影像中建筑物目标自动化精确提取成为数字测图领域重要的研究方向。高分遥感图像数据中存在大量的人工地物，部分人工地物的纹理、材料等特征细节与建筑物极度相似，且与目标建筑物地理位置较近，因此，这些干扰使得建筑物很难从背景中准确且完整地提取出来。

目前，基于深度学习的高分遥感图像建筑物模型大部分依靠语义分割方法或目标检测方法实现。随着遥感图像分辨率的提高，图像中每个像元包含的语义信息较为有限，建筑物占有的像元个数较多，这使得遥感图像中的建筑物的特征变得更加复杂难以学习和识别。

现有模型在数据处理过程有以下问题：提取的特征信息冗余，无法在高分辨率下精确分割建筑物，并且经常产生建筑物检测轮廓不完整的情况，使得高分遥感图像建筑物提取的精度不高。另外由于高分遥感图像数据量庞大，建筑物提取任务工作量巨大，提取特征效率低。

发明内容

本申请实施例提供一种遥感图像建筑物的检测方法、装置、设备及存储介质，在满足检测精度的情况下，提高检测效率。

本申请实施例的第一方面提供一种遥感图像建筑物的检测方法，包括：

接收待检测的遥感图像，所述遥感图像包括建筑物；

采用改进的特征提取模型对所述遥感图像进行多个不同尺度的特征提取，得到多个不同尺度的第一特征图；所述改进的特征提取模型包括多个卷积计算层，每个卷积计算层包括两个Ghost模块层，Ghost模块层是采用一系列线性运算生成特征图的模块层；

确定所述多个不同尺度的第一特征图中前景目标的第一检测框，所述前景目标包括所述建筑物以及除所述建筑物之外的其他目标；

获取所述第一检测框对应的第二特征图，对所述第二特征图进行分类、框回归以及掩膜预测，得到所述遥感图像的建筑物检测结果；所述建筑物检测结果用于指示所述遥感图像中每种建筑物的类别信息、位置信息以及掩膜信息。

本申请第一方面的一个可选实施例中，所述采用改进的特征提取模型对所述遥感图像进行多个不同尺度的特征提取，得到多个不同尺度的第一特征图，包括：

将遥感图像输入所述改进的特征提取模型中的主干网络，得到多个不同尺度的第三特征图；所述主干网络包括所述多个卷积计算层；

将所述多个不同尺度的第三特征图输入所述改进的特征提取模型中的特征融合网络，生成所述多个不同尺度的第一特征图。

本申请第一方面的一个可选实施例中，所述每个卷积计算层包括两个Ghost模块层，分别为第一Ghost模块和第二Ghost模块；

其中，所述第一Ghost模块层用于扩展输入的特征图的通道数，所述第二Ghost模块用于减少输入的特征图的通道数。

本申请第一方面的一个可选实施例中，所述第一Ghost模块的输入包括所述遥感图像，或者，所述第一Ghost模块对应的卷积计算层的前一个卷积计算层输出的特征图；

所述第二Ghost模块层的输入包括对所述第一Ghost模块层输出的特征图进行归一化BN和ReLU非线性激活后的特征图。

本申请第一方面的一个可选实施例中，所述每个卷积计算层还包括连接层，所述连接层是将输入所述第一Ghost模块的特征图与所述第二Ghost模块输出的特征图进行特征叠加的层；其中，输入所述第一Ghost模块的特征图与所述第二Ghost模块输出的特征图的特征通道相匹配。

本申请第一方面的一个可选实施例中，所述确定所述多个不同尺度的第一特征图中前景目标的第一检测框，包括：

将所述多个不同尺度的第一特征图输入区域生成网络RPN，得到所述多个不同尺度的第一特征图中前景目标的第一检测框。

本申请第一方面的一个可选实施例中，所述获取所述第一检测框对应的第二特征图，包括：

将所述第一检测框分割为k×k个单元，k为大于或等于2的整数；

基于双线性插值法确定每个单元中固定的四个坐标位置的像素值，经最大池化操作，获取每个单元对应的像素值；

基于k×k个单元对应的像素值，获取所述第二特征图。

本申请第一方面的一个可选实施例中，所述对所述第二特征图进行分类、框回归以及掩膜预测，得到所述遥感图像的建筑物检测结果，包括：

将所述第二特征图输入至全卷积网络FCN掩膜模块，得到所述遥感图像中每种建筑物的掩膜信息；

将所述第二特征图输入至分类回归模块，得到所述遥感图像中每种建筑物的类别信息以及位置信息。

本申请实施例的第二方面提供一种遥感图像建筑物的检测装置，包括：

接收模块，用于接收待检测的遥感图像，所述遥感图像包括建筑物；

特征提取模块，用于采用改进的特征提取模型对所述遥感图像进行多个不同尺度的特征提取，得到多个不同尺度的第一特征图；所述改进的特征提取模型包括多个卷积计算层，每个卷积计算层包括两个Ghost模块层，Ghost模块层是采用一系列线性运算生成特征图的模块层；

目标检测模块，用于确定所述多个不同尺度的第一特征图中前景目标的第一检测框，所述前景目标包括所述建筑物以及除所述建筑物之外的其他目标；

处理模块，用于获取所述第一检测框对应的第二特征图，对所述第二特征图进行分类、框回归以及掩膜预测，得到所述遥感图像的建筑物检测结果；所述建筑物检测结果用于指示所述遥感图像中每种建筑物的类别信息、位置信息以及掩膜信息。

本申请第二方面的一个可选实施例中，特征提取模块，用于：

本申请第二方面的一个可选实施例中，所述每个卷积计算层包括两个Ghost模块层，分别为第一Ghost模块和第二Ghost模块；其中，所述第一Ghost模块层用于扩展输入的特征图的通道数，所述第二Ghost模块用于减少输入的特征图的通道数。

本申请第二方面的一个可选实施例中，所述第一Ghost模块的输入包括所述遥感图像，或者，所述第一Ghost模块对应的卷积计算层的前一个卷积计算层输出的特征图；所述第二Ghost模块层的输入包括对所述第一Ghost模块层输出的特征图进行归一化BN和ReLU非线性激活后的特征图。

本申请第二方面的一个可选实施例中，所述每个卷积计算层还包括连接层，所述连接层是将输入所述第一Ghost模块的特征图与所述第二Ghost模块输出的特征图进行特征叠加的层；其中，输入所述第一Ghost模块的特征图与所述第二Ghost模块输出的特征图的特征通道相匹配。

本申请第二方面的一个可选实施例中，目标检测模块，用于：

本申请第二方面的一个可选实施例中，处理模块，用于：

基于k×k个单元对应的像素值，获取所述第二特征图。

本申请第二方面的一个可选实施例中，处理模块，用于：

本申请实施例的第三方面提供一种电子设备，包括：存储器；处理器；以及计算机程序；其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如本申请第一方面中任一项所述的方法。

本申请实施例的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如本申请第一方面中任一项所述的方法。

本申请实施例的第五方面提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请第一方面中任一项所述的方法。

本申请实施例提供一种遥感图像建筑物的检测方法、装置、设备及存储介质。该方法包括：接收待检测的遥感图像，采用改进的特征提取模型对遥感图像进行多个不同尺度的特征提取，得到多个不同尺度的第一特征图；确定多个不同尺度的第一特征图中前景目标的第一检测框，前景目标包括建筑物以及除建筑物之外的其他目标；获取第一检测框对应的第二特征图，对第二特征图进行分类、框回归以及掩膜预测，得到遥感图像的建筑物检测结果，其中建筑物检测结果用于指示遥感图像中每种建筑物的类别信息、位置信息以及掩膜信息。上述改进的特征提取模型包括多个卷积计算层，每个卷积计算层包括两个Ghost模块层，Ghost模块层是采用一系列线性运算生成特征图的模块层，对模型做了精度和轻量化上的改进，在满足高分遥感图像建筑物检测精度的情况下，进一步提升检测效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的遥感图像建筑物的检测方法的应用场景示意图；

图2为本申请实施例提供的遥感图像建筑物检测模型的结构示意图；

图3为本申请实施例提供的遥感图像建筑物的检测方法的流程示意图；

图4为本申请实施例提供的改进的特征提取模型的结构示意图；

图5为本申请实施例提供的改进的特征提取模型中Ghost Bottleneck残差块结构的结构示意图；

图6为本申请实施例提供的Ghost Bottleneck残差块结构中Ghost模块的图像数据处理示意图；

图7为现有的卷积层的数据处理示意图；

图8为本申请实施例提供的感兴趣区域ROI Align的数据处理示意图；

图9为本申请实施例提供的遥感图像建筑物检测方法的检测结果示意图；

图10为本申请实施例提供的遥感图像建筑物的检测装置的结构示意图；

图11为本申请实施例提供的电子设备的硬件结构图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例的说明书、权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述之外的顺序实施。

应当理解，本文中使用的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请实施例的描述中，术语“对应”可表示两者之间具有直接对应或间接对应的关系，也可以表示两者之间具有关联关系，也可以是指示与被指示、配置与被配置等关系。

首先对本申请实施例涉及到的专业术语进行简要说明。

1、高分遥感图像（影像）：高分辨率遥感图像（影像），即空间分辨率进入米级、亚米级的遥感卫星图像（影像）。

2、网络：主要指卷积神经网络。

3、实例分割：使用深度学习进行图像分割的一种，与普通分割相比，不仅将目标作为前景与背景进行分离，并且对每个目标进行单独像素级标注，而且对每个目标使用矩形框标注其在图像中的位置。其他基于深度学习的图像分割方法还有语义分割、概率图模型等。

4、Mask RCNN：一种实例分割网络模型。

5、GRF-Mask RCNN：本文在Mask RCNN基础上加入Ghost-ResNet101-FPN特征提取骨架的实例分割模型。其中，G代表Ghost（一种卷积方法），R代表ResNet101残差模型，F代表FPN金字塔结构。

6、ROI Align：一种区域特征聚集方式，可以很好地解决ROI Pooling操作中两次量化造成的区域不匹配的问题。

7、Mask：掩膜，即实例分割网络对输入图像进行处理后输出的结果之一，参照图9中各白色虚线矩形框内的掩膜区域，即实例分割网络所提取到的各建筑物的掩膜。

8、检测框/边界框（box）：参照图9中多个白色虚线矩形框，可以用来表示目标建筑物的位置。

9、特征图（feature map）：即输入图像依次进入网络每一层后输出的图像，可以理解为网络每一层对输入图像学习到的特征内容。

10、FCN Mask：表示采用了FCN网络结构的掩膜提取网络。

11、Classifer-Regression：Classifer表示分类器，即对检测框内的目标进行分类，判断其属于哪一类事物。Regression表示检测框回归器，通过检测框设计的损失函数计算框的中心点x坐标偏移量、中心点y坐标偏移量、高h伸缩量以及宽w伸缩量这四个变量，再使用上述四个变量对检测框的位置及大小进行修正，使其接近真实的检测框。

12、category：分类，即图2中Classifer得到的分类结果。

13、Coordinates：坐标，即图2中Regression得到的坐标结果。

14、Proposals：建议框，即网络对图像中的先验框进行初步筛选后得到的可能存在物体（例如建筑物）的建议检测框。

15、RPN：区域建议网络（Region Proposal Network），该网络对先验框进行初步筛选，最后得到可能存在物体的建议框Proposals。

16、先验框：通过神经网络或其他算法对图像设计最初始的检测框，这些检测框数量多，很多框中并不存在物体，需要后续RPN网络进行筛选，得到可能存在物体的建议框Proposals。

17、ReLU：一种激活函数，用来增加网络层输出结果的非线性。

18、BN：网络权重归一化层。

19、Conv：神经网络中的术语之一，表示卷积层。

20、Pointwise Conv：译为点卷积，深度可分离卷积中的一种卷积。

21、shortcut：残差连接或短路，表示一种特征图之间的跳跃连接方式。

22、

表示第1到第k通道内的线性运算。

23、stride：步长，即卷积算子卷积完图像中一个区域后前往下个区域需要经过的像素点个数。

24、Ghost：指特征图中出现的冗余特征图，即与其他通道特征图学习到的特征相似的多余的特征图。Ghost模块即处理冗余特征图的模块。

在介绍本申请提供的遥感图像建筑物的检测方法之前，首先对该检测方法的应用场景进行简要介绍。

图1为本申请实施例提供的遥感图像建筑物的检测方法的应用场景示意图。如图1所示，本实施例的应用场景包括：卫星终端11（或用户终端12）以及遥感图像建筑物的检测设备13。卫星终端11（或用户终端12）通过无线网络向遥感图像建筑物的检测设备13发送高分遥感图像，遥感图像中包括建筑物。遥感图像建筑物的检测设备13将接收到的高分遥感图像输入预置的检测模型中，通过检测模型的数据处理过程实现对高分遥感图像中建筑物的提取。

图2为本申请实施例提供的遥感图像建筑物检测模型的结构示意图。图2所示的检测模型可称为GRF-Mask-RCNN模型，主要包括五个部分，分别为Ghost-ResNet101-FPN特征提取部分、RPN部分、ROI Align部分、分类回归部分以及掩膜（Mask）分支部分。需要说明的是，Ghost-ResNet101-FPN特征提取部分包括多个卷积计算层，通过对卷积计算层内部结构的改进，降低各卷积计算层的计算量，从而提高特征提取效率。ROI Align部分没有使用量化来进行数据处理，主要通过双线性差值方法确定特征图中各图像块的像素值。Mask分支部分包括全卷积网络（fully convolutional networks，FCN），通过接收来自ROI Align归一化的低分辨率ROI特征图，最终输出每一类检测目标的二分类Mask。

基于上述检测模型，本申请实施例提供一种遥感图像建筑物的检测方法，通过将待检测的遥感图像输入检测模型的特征提取部分，获取多个不同尺度的特征图。通过检测模型的RPN部分对特征图进行建筑物目标检测，获取标记有建筑物检测框的特征图。对建筑物检测框对应的特征图部分进行像素计算，将计算结果分别输入分类回归部分以及Mask分支部分，得到遥感图像的建筑物检测结果，该结果指示了遥感图像中每种建筑物的类别信息、位置信息以及掩膜信息。

上述过程结合了语义分割与目标检测的实例分割方法实现高分遥感图像建筑物的提取。一方面，本申请对检测模型的特征提取部分进行优化，降低卷积计算层的计算次数，在确保特征提取精度的情况下，提高特征提取效率。另一方面，通过分类回归部分与Mask分支部分的数据处理，检测模型可同时输出语义分割与目标检测结果，检测结果更全面。

下面通过具体实施例对本申请实施例提供的技术方案进行详细说明。需要说明的是，本申请实施例提供的技术方案可以包括以下内容中的部分或全部，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图3为本申请实施例提供的遥感图像建筑物的检测方法的流程示意图。本实施例提供的检测方法可应用于图1所示的检测装置或其他任意可执行该方法的设备，对此本实施例不作任何限制。如图3所示，本实施例的检测方法包括以下步骤：

步骤101、接收待检测的遥感图像，遥感图像包括建筑物。

本实施例中，待检测的遥感图像来自于航拍或卫星拍摄，按照空间分辨率可分为高分辨率遥感图像、中分辨率遥感图像以及低分辨率遥感图像，按照光谱分辨率可分为多光谱（高光谱）、全色、可见光、远红外、近红外等遥感图像。可选的，检测装置接收来自卫星终端或用户终端发送的待检测的遥感图像，例如分辨率为1024×1024的遥感图像。

步骤102、采用改进的特征提取模型对遥感图像进行多个不同尺度的特征提取，得到多个不同尺度的第一特征图。

其中，改进的特征提取模型包括多个卷积计算层，每个卷积计算层包括两个Ghost模块层，Ghost模块层是采用一系列线性运算生成特征图的模块层。

本实施例的一个可选实施例中，检测装置将待检测的遥感图像输入改进的特征提取模型中的主干网络，得到多个不同尺度的第三特征图。再将多个不同尺度的第三特征图输入改进的特征提取模型中的特征融合网络，对不同尺度的特征图进行特征融合，生成多个不同尺度的第一特征图。其中，主干网络包括多个卷积计算层。

可选的，在一些实施例中，改进的特征提取模型是采用Ghost-ResNet101-FPN作为初始化模型，对遥感图像进行图像特征提取，获取对应多个不同尺度的特征图。

下面结合图4至图6对上述改进的特征提取模型进行详细说明。

图4为本申请实施例提供的改进的特征提取模型的结构示意图。图5为本申请实施例提供的改进的特征提取模型中Ghost Bottleneck残差块结构的结构示意图。图6为本申请实施例提供的Ghost Bottleneck残差块结构中Ghost模块的图像数据处理示意图。

如图4所示，改进的特征提取模型可以分为两个路线：一个自底向上的线路，一个自顶向下的线路。图4中G1至G5是改进的特征提取模型的主干网络（Ghost-ResNet101），每个G代表一个Ghost Bottleneck残差块结构（即卷积计算层），Ghost Bottleneck残差块结构是主干网络的核心结构，该结构替代ResNet中的基本残差块，集成了多个卷积层和连接层（shortcut，残差连接），可降低数据处理的计算量，提高模型特征提取效率和准确度。图4中P3至P7是改进的特征提取模型的特征融合网络（例如FPN网络），其中P5由G5经过一个1×1的卷积核计算得到，再对P5进行2倍上采样（2×2的卷积核），并与经过1×1卷积的G4相融合得到P4，采用同样的方法可以得到P3。P6由P5下采样（通常使用3×3卷积核）得到，采用同样的方法可以得到P7。其中，1×1卷积主要作用是减少卷积核的个数，即减少特征图的个数，并不改变特征图的尺寸大小。

可选的，在对特征图进行上采样时，可采用最近邻插值法，可最大程度地保留特征图的语义信息（有利于分类），从而与自顶向下过程中相对应的具有丰富的空间信息（高分辨率，有利于定位）的特征图进行融合，从而得到既有良好的空间信息又有较强烈的语义信息的特征图。

下面对上述Ghost Bottleneck残差块结构进行说明。如图5所示，GhostBottleneck包括两个Ghost模块层（多个卷积层）以及连接层shortcut。两个Ghost模块层分别记为第一Ghost模块层和第二Ghost模块层。其中第一个Ghost模块层用于扩展输入的特征图的通道数，第二个Ghost模块层用于减小输入的特征图的通道数，使得其输出特征图的通道数与shortcut路径的通道数（即输入第一Ghost模块的特征图的通道数）匹配，即输入第一Ghost模块的特征图与第二Ghost模块输出的特征图的特征通道相匹配。Shortcut是将输入第一Ghost模块的特征图与第二Ghost模块的特征图进行特征叠加的层，即使用shortcut连接这两个Ghost模块的输入和输出。

需要说明的是，第二个Ghost模块之后不适用非线性激活函数ReLU，其它层在每层之后都应用了归一化（BN）和ReLU。上述Ghost Bottleneck适用于步长stride=1的情况，对于stride=2的情况，shortcut路径可由下采样层和stride=2的深度卷积来实现。

基于上述描述可知，第一Ghost模块的输入包括遥感图像，或者，第一Ghost模块对应的卷积计算层的前一个卷积计算层输出的特征图。第二Ghost模块层的输入包括对第一Ghost模块层输出的特征图进行归一化BN和ReLU非线性激活后的特征图。示例性的，图4所示的G1中的第一个Ghost模块的输入为遥感图像，G1中第二个Ghost模块的输入为G1中第一个Ghost模块输出的特征图进行BN和ReLU后的特征图。图4所示的G2中的第一个Ghost模块的输入为前一个卷积计算层G1输出的特征图，G2中第二个Ghost模块的输入为G2中第一个Ghost模块输出的特征图进行BN和ReLU后的特征图。

下面对上述Ghost模块的数据处理过程进行说明。如图6所示，Ghost模块分为两步操作来获取与普通卷积相同数量的特征图：

步骤1、少量卷积，比如正常用32个卷积核（如图7所示），Ghost模块仅使用16个，从而减小一半的计算量。

步骤2、线性运算（linear operations，或称为cheap operations），如图6中的

，

是诸如3×3或5×5的卷积，并且逐个特征图进行卷积。图6输出的特征图包括两部分，分别记为intrinsic和Ghost，其中Ghost部分的特征图是由intrinsic部分的特征图通过步骤2 运算生成的。

本实施例采用Ghost-ResNet101-FPN模型可以得到深度比较深且尺寸比较大的特征图，不仅可以提高后续的Mask质量，还可以提高对小目标的检测精度。

步骤103、确定多个不同尺度的第一特征图中前景目标的第一检测框。

本实施例的一个可选实施例中，检测装置通过预设的目标检测网络，确定多个不同尺度的第一特征图中前景目标的第一检测框。其中，前景目标包括建筑物以及除建筑物之外的其他目标。

第一检测框也称为感兴趣区域ROI，在本实施例中，感兴趣区域是指包括建筑物在内的区域，该区域中可能存在干扰地物，即除建筑物之外的其他目标（即干扰地物），例如广场、汽车等。通过目标检测网络从第一特征图中选取包括建筑物在内的检测框，剔除无用区域，用于后续的图像处理。

应理解，一张特征图中的每一个特征点为中心均可设定多个ROI，从而得到整张特征图的候选ROI。示例性的，若以建筑物为中心，可以得到该建筑物对应的多个候选ROI，其中每个候选ROI都带有一个分数，根据多个ROI的分数确定最佳ROI。

可选的，目标检测网络包括区域生成网络（region proposal networks，RPN）。相应的，检测装置通过预设的目标检测网络，确定多个不同尺度的第一特征图中前景目标的第一检测框，包括：将多个不同尺度的第一特征图输入RPN，得到多个不同尺度的第一特征图中前景目标的第一检测框。

步骤104、获取第一检测框对应的第二特征图，对第二特征图进行分类、框回归以及掩膜预测，得到遥感图像的建筑物检测结果。

其中，建筑物检测结果用于指示遥感图像中每种建筑物的类别信息、位置信息以及掩膜信息。

本实施例的一个可选实施例中，检测装置通过ROI Align获取第一检测框对应的第二特征图。ROI Align是一种区域特征聚集方式，可以很好地解决ROI Pooling操作中两次量化造成的区域不匹配（mis-alignment）的问题，提升检测模型的准确性。

具体的，通过如下步骤获取第一检测框对应的第二特征图：

步骤1、将第一检测框分割为k×k个单元，k为大于或等于2的整数。

步骤2、基于双线性插值法，确定每个单元中固定的四个坐标位置的像素值。

步骤3、经最大池化操作，获取每个单元对应的像素值。

步骤4、基于k×k个单元对应的像素值，获取第一检测框对应的第二特征图。

步骤1中，保持第一检测框的浮点数边界不做量化，将第一检测框分割为k×k个单元，每个单元的边界也不做量化。步骤2中，固定的坐标位置是指每个矩形单元（bin）中按照固定规则确定的位置。例如，如果采样点数是1，那么固定的坐标位置就是这个单元的中心点。如果采样点是4，那么固定的坐标位置就是把这个单元平均分割成四个小方块后，每个小方块对应的中心点，总计4个中心点，如图8所示。显然这些采样点的坐标通常是浮点数，所以需要使用插值方法确定每个中心点的像素值。

示例性的，图8为本申请实施例提供的感兴趣区域ROI Align的数据处理示意图，如图8所示，将第一检测框（即ROI）划分为2×2个单元，记为单元A、B、C、D，每个单元又划分为4个小方块。通过计算每个小方块的中心点的像素值，确定每个单元的像素值。根据确定的每个单元的像素值，确定第一检测框的像素特征信息（即第二特征图）。例如，单元A的中心点1的像素值是根据中心点1相邻的四个像素点的像素值确定的（采用双线性差值法进行像素值计算），其他中心点的计算方式同中心点1，此处不再赘述。假设单元A中的4个小方块的中心点像素值分别为a1，a2，a3，a4，取这四个像素值中的最大值作为单元A的像素值，其他单元的像素值的计算方式同单元A，此处不再赘述。

在获取第一检测框对应的第二特征图后，可通过如下方式对第二特征图进行分类、框回归以及掩膜预测，得到遥感图像的建筑物检测结果：

将第二特征图输入至FCN掩膜模块，得到遥感图像中每种建筑物的掩膜信息；将第二特征图输入至分类回归模块，得到遥感图像中每种建筑物的类别信息以及位置信息。

其中，掩膜信息包括用于覆盖建筑物的信息，覆盖区域内图像值保持不变，区域外图像值都为0。类别信息是指对遥感图像中每种建筑物进行区分的信息，可通过不同颜色对每种建筑物区分显示。位置信息包括建筑物在遥感图像中的位置坐标，例如建筑物对应的检测框的中心坐标、建筑物的高度和宽度。

图9为本申请实施例提供的遥感图像建筑物检测方法的检测结果示意图。如图9所示，遥感图像上包括5个检测框，以及每个检测框中的掩膜信息，不同检测框中的掩膜信息可通过不同颜色区分显示，例如检测框1至检测框5中的建筑物掩膜分别用红、橙、黄、绿、蓝显示。

上述实施例提供的遥感图像建筑物的检测方法，实际上是一种以目标检测模型为基础的实例分割模型，通过在目标检测模型中添加Mask分支完成对建筑物的检测与分割，同时输出建筑物的语义分割结果以及目标检测结果。上文所述的GRF-Mask-RCNN检测模型，沿用Mask-RCNN模型的损失函数，该损失函数定义为分类损失、检测损失与掩膜损失三项之和，公式表达如下：

式中，

与

分别为利用全连接层进行所属分类和检测框坐标时所产生的误差，同Faster RCNN中的计算方法。

为Mask分支中每个输入ROI经过FCN后输出K×m ×m维度的二值Mask，其中K为总类别数，m×m为二值Mask的尺寸大小。Mask分支的输出结果一共有K层Mask，每层为一类，利用对数输出，以0.5为阈值做前景与背景分割。由于是二分类问题，采用sigmoid函数对分割结果的每个像素进行激活，取ROI上所有像素的交叉熵的均值为最终的

。

本申请实施例提供的遥感图像建筑物的检测方法，通过接收待检测的遥感图像，采用改进的特征提取模型对遥感图像进行多个不同尺度的特征提取，得到多个不同尺度的第一特征图；确定多个不同尺度的第一特征图中前景目标的第一检测框，前景目标包括建筑物以及除建筑物之外的其他目标；获取第一检测框对应的第二特征图，对第二特征图进行分类、框回归以及掩膜预测，得到遥感图像的建筑物检测结果，其中建筑物检测结果用于指示遥感图像中每种建筑物的类别信息、位置信息以及掩膜信息。上述改进的特征提取模型包括多个卷积计算层，每个卷积计算层包括两个Ghost模块层，Ghost模块层是采用一系列线性运算生成特征图的模块层，对模型做了精度和轻量化上的改进，在满足高分遥感图像建筑物检测精度的情况下，进一步提升检测效率。

上文描述了本申请实施例提供的遥感图像建筑物的检测方法，下面将描述本申请实施例提供的遥感图像建筑物的检测装置。

本申请实施例可以根据上述方法实施例对遥感图像建筑物的检测装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现，也可以使用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。

图10为本申请实施例提供的遥感图像建筑物的检测装置的结构示意图。如图10所示，本实施例提供的检测装置200，包括：接收模块201，特征提取模块202，目标检测模块203以及处理模块204。

接收模块201，用于接收待检测的遥感图像，所述遥感图像包括建筑物；

特征提取模块202，用于采用改进的特征提取模型对所述遥感图像进行多个不同尺度的特征提取，得到多个不同尺度的第一特征图；所述改进的特征提取模型包括多个卷积计算层，每个卷积计算层包括两个Ghost模块层，Ghost模块层是采用一系列线性运算生成特征图的模块层；

目标检测模块203，用于确定所述多个不同尺度的第一特征图中前景目标的第一检测框，所述前景目标包括所述建筑物以及除所述建筑物之外的其他目标；

处理模块204，用于获取所述第一检测框对应的第二特征图，对所述第二特征图进行分类、框回归以及掩膜预测，得到所述遥感图像的建筑物检测结果；所述建筑物检测结果用于指示所述遥感图像中每种建筑物的类别信息、位置信息以及掩膜信息。

本实施例的一个可选实施例中，特征提取模块202，用于：

本实施例的一个可选实施例中，所述每个卷积计算层包括两个Ghost模块层，分别为第一Ghost模块和第二Ghost模块；

本实施例的一个可选实施例中，所述第一Ghost模块的输入包括所述遥感图像，或者，所述第一Ghost模块对应的卷积计算层的前一个卷积计算层输出的特征图；

本实施例的一个可选实施例中，所述每个卷积计算层还包括连接层，所述连接层是将输入所述第一Ghost模块的特征图与所述第二Ghost模块输出的特征图进行特征叠加的层；其中，输入所述第一Ghost模块的特征图与所述第二Ghost模块输出的特征图的特征通道相匹配。

本实施例的一个可选实施例中，目标检测模块203，用于：

本实施例的一个可选实施例中，处理模块204，用于：

基于k×k个单元对应的像素值，获取所述第二特征图。

本实施例的一个可选实施例中，处理模块204，用于：

本实施例提供的遥感图像建筑物的检测装置，可以执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图11为本申请实施例提供的电子设备的硬件结构图。如图11所示，本实施例提供的电子设备300，包括：存储器301；处理器302；以及计算机程序；其中，计算机程序存储在存储器301中，并被配置为由处理器302执行以实现上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，存储器301既可以是独立的，也可以跟处理器302集成在一起。当存储器301是独立于处理器302之外的器件时，电子设备300还包括：总线303，用于连接存储器301和处理器302。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器302执行以实现如前述任一方法实施例的技术方案。

本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如前述任一方法实施例的技术方案。

本申请实施例还提供了一种芯片，包括：处理模块与通信接口，该处理模块能执行前述任一方法实施例的技术方案。进一步地，该芯片还包括存储模块（如，存储器），存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例的技术方案。

应理解，上述处理器可以是中央处理单元（英文：Central Processing Unit，简称：CPU），还可以是其他通用处理器、数字信号处理器（英文：Digital Signal Processor，简称：DSP）、专用集成电路（英文：Application Specific Integrated Circuit，简称：ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（Peripheral Component，PCI）总线或扩展工业标准体系结构（ExtendedIndustry Standard Architecture，EISA）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备中。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。

Claims

1.一种遥感图像建筑物的检测方法，其特征在于，包括：

接收待检测的遥感图像，所述遥感图像包括建筑物；

2.根据权利要求1所述的方法，其特征在于，所述采用改进的特征提取模型对所述遥感图像进行多个不同尺度的特征提取，得到多个不同尺度的第一特征图，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述每个卷积计算层包括两个Ghost模块层，分别为第一Ghost模块和第二Ghost模块；

4.根据权利要求3所述的方法，其特征在于，所述第一Ghost模块的输入包括所述遥感图像，或者，所述第一Ghost模块对应的卷积计算层的前一个卷积计算层输出的特征图；

5.根据权利要求3所述的方法，其特征在于，所述每个卷积计算层还包括连接层，所述连接层是将输入所述第一Ghost模块的特征图与所述第二Ghost模块输出的特征图进行特征叠加的层；其中，输入所述第一Ghost模块的特征图与所述第二Ghost模块输出的特征图的特征通道相匹配。

6.根据权利要求1所述的方法，其特征在于，所述确定所述多个不同尺度的第一特征图中前景目标的第一检测框，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取所述第一检测框对应的第二特征图，包括：

基于k×k个单元对应的像素值，获取所述第二特征图。

8.根据权利要求1所述的方法，其特征在于，所述对所述第二特征图进行分类、框回归以及掩膜预测，得到所述遥感图像的建筑物检测结果，包括：

9.一种遥感图像建筑物的检测装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-8中任一项所述的方法。