CN112883887A

CN112883887A - 一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法

Info

Publication number: CN112883887A
Application number: CN202110225303.3A
Authority: CN
Inventors: 李军; 刘小雪; 陈一平; 马凌飞; 李海峰
Original assignee: Central university of finance and economics
Current assignee: Central university of finance and economics
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-01
Anticipated expiration: 2041-03-01
Also published as: CN112883887B

Abstract

本申请属于数据处理技术领域，特别是涉及一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法。目前基于Mask R‑CNN模型相关方法研究通常面临复杂城市环境中建筑物外观和尺度极端变化挑战。本申请提供了一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，所述方法包括如下步骤：1)自动预处理二值标注图像得到COCO注释数据；2)输入光学遥感图像，构建语义特征金字塔；3)根据所述语义特征金字塔筛选有建筑物的区域，对所述区域进行筛选生成候选建筑物边界框；4)根据所述边界框补充全局空间信息，预测建筑物边界框准确位置，预测建筑物掩码覆盖区域。显著提升建筑物实例提取自动进程和泛化能力。

Description

一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法

技术领域

本申请属于数据处理技术领域，特别是涉及一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法。

背景技术

从遥感图像中自动提取大范围、高精度、周期性建筑物屋顶信息是城市规划、人口估计、环境监测、灾害响应等应用研究的迫切需要。鉴于遥感成像原理差异，地物种类和细节丰富，场景结构和分布复杂，建筑外观和尺度多样，如何准确、高效地从高分辨率遥感图像中自动提取建筑物长期是遥感图像分析领域的前沿课题。

传统方法需要专家根据经验设计恰当的建筑特征表示(如边缘和阴影、颜色和形状、光谱和上下文、语义和高度等)再结合相应算法识别和提取屋顶。鉴于许多复杂多变因素(如光照、大气条件、季节、传感器质量、建筑外观和规模、环境等)都可能影响人工设计特征表示，传统方法通常只能处理较小地域范围内的特定数据，其准确性和效率性难以满足不同任务和实际应用需求。

近年深度学习方法凭借卷积神经网络(CNN)自动学习多层特征表示的能力逐渐超越人工设计特征的传统方法，发展成为一种更具自动化和稳健性的建筑物提取方案。大量深度学习文献致力于研究提取像素级建筑物信息的语义分割方法。与只是判断图像中哪些像素属于建筑物的语义分析相比较，精细区分每个建筑物的实例研究具有更多实践应用空间和技术拓展价值。

发明内容

1.要解决的技术问题

获取对象级别信息(如每个建筑物的位置、轮廓、面积等)的建筑物实例自动提取方法亟待关注和发展。目前基于Mask R-CNN模型相关方法研究通常面临复杂城市环境中建筑物外观和尺度极端变化挑战。本申请提供了一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，采用IHTC(Improved Hybrid Task Cascade)模型显著提升建筑物实例提取自动进程和泛化能力。

2.技术方案

为了达到上述的目的，本申请提供了一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，所述方法包括如下步骤：1)自动预处理二值标注图像得到COCO注释数据；2)输入光学遥感图像，构建语义特征金字塔；3)根据所述语义特征金字塔筛选有建筑物的区域，对所述区域进行筛选生成候选建筑物边界框；4)根据所述边界框补充全局空间信息，预测建筑物边界框准确位置，预测建筑物掩码覆盖区域。

本申请提供的另一种实施方式为，所述步骤1)预处理包括将标注图像转化为用来进行图像识别的轻量级的JSON数据，清洗无建筑物的标注图像。

本申请提供的另一种实施方式为，所述步骤2)通过高分辨率网络提取高分辨率特征并构建语义特征金字塔。所述高分辨率网络包括1组高分辨率卷积网络和3组低分辨率卷积网络经4个阶段并行连接，低分辨率特征经双线性插值被上采样为高分辨率特征后，4种分辨率混合特征通过平均池化被下采样到多个层次构建语义特征金字塔。

本申请提供的另一种实施方式为，所述步骤3)在区域建议网络(Region ProposalNetwork,RPN)中利用所述语义特征金字塔输出的每个特征图引导并构造自适应建筑物大小和纵横比的引导锚以筛选有建筑物的图像区域。所述引导锚根据联合条件概率公式构建，包括锚生成模块和特征自适应模块。所述锚生成模块预测锚中心和锚形状，将所述锚中心和所述锚形状结合生成锚；所述特征自适应模块对原始特征图应用带偏移的可变形卷积生成新特征图以适配锚形状变化。所述区域分类、回归以筛选生成候选建筑物边界框时所述分类损失函数为焦点函数(Focal loss)以平衡建筑物和背景像素数量极端差异。

本申请提供的另一种实施方式为，所述步骤4)中将所述边界框与掩码进行多阶段交错级联，预测建筑物边界框准确位置，预测建筑物掩码覆盖区域。

3.有益效果

与现有技术相比，本申请提供的一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法的有益效果在于：

本申请提供的基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，涉及计算机图形学，改善现有技术对建筑外观和尺度的极端变化的适应能力。

本申请提供的基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，采用并行高分辨率网络HRNetV2p提取高分辨率特征表示不但可以明显改善中小规模建筑的识别能力，而且级联学习可以使高分辨率特征表示的收益翻倍，交错执行边界框回归和掩码预测可以平衡高分辨率特征表示在这两个分支中的收益差异。

本申请提供的基于高空间分辨率光学遥感图像的建筑物提取方法，在RPN阶段采用引导锚方式自动生成根据图像特征引导的稀疏且形状可变的锚。一方面可以减少90％的锚，用更少的阈值更高的提议保持较高召回率，并减少计算开销和时间成本。另一方面，自动学习方式比人工预先定义方式可以更有效适应建筑物的尺度和比例。

本申请提供的基于高空间分辨率光学遥感图像的建筑物提取方法，在改进的RPN阶段中，采用Focal损失可以用权重因子平衡正负样本，调制因子可以使训练过程中难分类样本获得更高权重。

本申请提供的基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，将边界框分支和掩码分支多阶段交错级联一方面可以有效促进不同分支信息交互提升效益，一方面掩码分支还可以从更新的边界框分支以及前一阶段掩码分支进一步受益。语义分割需要对全图进行精细的像素级的分类，所以它的特征是具有很强的空间位置信息，同时对前景和背景有很强的辨别能力。引入额外的语义分割分支来补充全局空间信息可以显著提高大规模特征识别的能力。

附图说明

图1是本申请的基于高空间分辨率光学遥感图像的建筑物实例自动提取方法实施例的流程示意图；

图2是本申请采用HRNetV2p网络结构示意图；

图3是本申请的引导锚结构示意图；

图4是本申请的实施例的建筑实例提取结果示意图；

图5是本申请的终端设备结构示意图。

具体实施方式

在下文中，将参考附图对本申请的具体实施例进行详细地描述，依照这些详细的描述，所属领域技术人员能够清楚地理解本申请，并能够实施本申请。在不违背本申请原理的情况下，各个不同的实施例中的特征可以进行组合以获得新的实施方式，或者替代某些实施例中的某些特征，获得其它优选的实施方式。

近年深度学习方法凭借卷积神经网络(CNN)自动学习多层特征表示的能力逐渐超越人工设计特征的传统方法，发展成为一种更具自动化和稳健性的建筑物提取方案。大量深度学习文献致力于研究提取像素级建筑物信息的语义分割方法。这些方法主要改进多尺度推理、丰富上下文信息、缓解数据类不平衡、优化建筑边界、缓解椒盐噪声和填充孔洞、融合多源数据、消除超参调整、指导数据生成过程等策略，使完全卷积网络(FCN)(包括DeconvNet、U-Net,SegNet等变体)、图卷积网络(GCN)和生成对抗网络等框架更适应复杂的遥感图像背景和小型建筑目标。获取对象级别建筑信息(如每个建筑物的位置、轮廓、面积等)的实例分割方法亟待关注和发展。与只是判断图像中哪些像素属于建筑物的语义分析相比较，精细区分每个建筑物的实例研究具有更多实践应用空间和技术拓展价值。这些方法通常基于Mask R-CNN模型以边界框形式定位单体建筑物，并在边界框内部以语义分割方式识别和提取该建筑物的所有前景像素(即掩码)。相关文献研究主要改进建筑物边缘的掩码、正则化掩码轮廓、拓展掩码分支接受域、设计和调整锚的旋转角度和纵横比使Mask R-CNN模型更适应工程应用以及建筑物的外观和尺度变化。

参见图1～5，本申请提供一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，所述方法包括如下步骤：1)自动预处理二值标注图像得到COCO注释数据；2)输入光学遥感图像，构建语义特征金字塔；3)根据所述语义特征金字塔筛选有建筑物的区域，对所述区域进行筛选生成候选建筑物边界框；4)根据所述边界框补充全局空间信息，预测建筑物边界框准确位置，预测建筑物掩码覆盖区域。

具体地，1)、标注图像转化为COCO注释数据；2)、输入图像，并行高分辨率网络HRNetV2p提取高分辨率特征并构造语义特征金字塔；3)、在区域建议网络(RPN)中利用语义特征引导构造自适应建筑物大小和纵横比的引导锚Guided Anchor(初步筛选可能有建筑物的图像区域)，再经进一步分类和回归后筛选生成对应提议(即候选建筑物的边界框)；4)、改进引导锚模块中分类损失为Focal函数以平衡样本难易分类权重；5)、根据提议结果，混合实例分割和语义分割任务补充全局空间信息并分3阶段交错级联训练并细化预测建筑物实例的边界框准确位置和掩码覆盖区域。

进一步地，所述步骤1)建筑标注图像转化为支持本申请的COCO格式注释数据以开展后续深度训练。

具体地，COCO使用python列表和字典编码对有关数据集描述，生成对应JSON(JavaScript对象表示法)文件并清洗无建筑的标注图像。

进一步地，所述步骤2)通过高分辨率网络提取高分辨率特征并构建语义特征金字塔。

具体地，将1组高分辨率卷积和3组低分辨率卷积分4个阶段并行连接以保持高分辨率表示并重复融合高到低分辨率表示。第1阶段是高分辨率卷积，第2、3、4阶段分别由重复的1个、4个、3个多分辨率卷积块组成。4种卷积对应的分辨率和信道数依次递减0.5倍和递增2倍。低分辨率特征表示经双线性插值被上采样为高分辨率特征表示，再经1个1×1卷积融合将高分辨特征表示。混合分辨率特征表示经平均池化被下采样到多个层次构建特征金字塔并传递给RPN阶段的分类器/回归器。

进一步地，所述步骤3)在区域建议网络(Region Proposal Network,RPN)中利用所述语义特征金字塔输出的每个特征图引导并构造自适应建筑物大小和纵横比的引导锚以筛选有建筑物的图像区域。对特征金字塔中输出的每个特征图，根据引导锚联合条件概率公式原理构建引导锚，所述引导锚包括锚生成模块和特征自适应模块。所述锚生成模块预测锚中心和锚形状，将所述锚中心和所述锚形状结合生成锚；所述特征自适应模块对原始特征图进行带偏移的可变形卷积得到新特征图，所述新特征图适配锚形状变化。

具体地，引导锚联合条件概率公式定义为：

p(x,y,w,h|F_I)＝p(x,y|F_I)p(w,h|x,y,F_I)

对于特征金字塔中输出的每个特征图F_I，锚的中心位置(x,y)，锚的形状(w:宽度,h：高度)，根据p(x,y,w,h|F_I)公式原理构建引导锚模块包括锚生成模块和特征自适应模块。锚生成模块中的N_L和N_S分支分别预测锚的中心位置和形状再结合生成锚。锚生成参数在所有涉及的特征级别上共享。特征自适应模块对原始特征图应用带偏移的可变形卷积，使新特征图适配锚形状变化供后续的预测(锚的进一步分类和回归)。

锚的中心位置预测分支N_L(1×1卷积+sigmoid)输出与特征图F_I相同分辨率的单通道映射，表示每一个像素位置是锚中心位置的概率p(·|F_I)。输出位置(i,j)对应原图位置变换公式为：

((i+0.5)s,(j+0.5)s)

其中s是特征图F_I的stride。

锚的形状预测分支N_S(1×1卷积+转换运算)输出与特征图F_I相同分辨率的双通道映射，表示每一个位置与最近的地面真值边界框(ground truth)重叠最多的形状(w,h)。

可变锚与ground truth之间的IOU，记作vIoU:

其中，IoU_mormal为经典的IoU定义，(w,h)为变量。

输出(w,h)需要经过非线性变换以稳定预测值，非线性变换公式为：

w＝σ×s×^dw,h＝σ×s×e^dh

其中s是特征图F_I的stride，σ是一个经验尺度因子。

通过选择预测概率高于某个阈值的位置和每个位置上最可能的形状来生成一组锚。由于锚形状可能不同，不同位置的特征应该捕获不同范围内的视觉内容。特征自适应模块N_T(1×1卷积预测每个位置偏移+3×3可变形卷积附加锚的形状信息)根据基础锚形状预测每一个位置偏移，再对带有偏移量的原始特征图F_I应用可变形卷积附加锚的形状信息输出

供后续对应锚的回归、分类，特征自适应转换公式为：

f_i′＝N_T(f_i,w_i,h_i)

其中，f_i是第i个位置的特征，(w_i,h_i)是对应的锚形状。

RPN阶段除传统的

分类损失和

回归损失以外，还需要额外学习

锚位置损失和

锚形状损失：

其中，

为smooth L1loss，(w,h)和(w_g,h_g)代表预测锚形状和相应的地面实况bbox的形状。λ₁和λ₂是平衡位置和形状预测分支系数。

进一步地，所述步骤3)对所述区域进行分类、回归以筛选生成候选建筑物边界框所述分类损失函数为焦点损失函数(Focal Loss)。在建筑物提取任务中，背景类的像素通常远多于建筑物类的像素，且不同尺度的建筑物样本数量往往存在显著差异，尤其是异构建筑物样本数量少且难以训练。

具体地，在RPN阶段除将传统的

分类损失Cross Entropy Loss(CE)改为FocalLoss(FL)：

Cross Entropy Loss:

Focal Loss：

其中，

α∈[0,1]是平衡正/负样本(前景类和背景类)的权重因子；(1-softmax(x)[class])^γ是减少易分类样本权重的调制因子，γ≥0是平滑权重调整过程的聚焦参数。

进一步地，所述步骤4)中将所述边界框与掩码进行多阶段交错级联，预测建筑物边界框准确位置，预测建筑物掩码覆盖区域。

具体地，提议动态映射到特征金字塔的相应级别特征图提取感兴趣区域(RoIs)。每个RoIs经RoIAlign层池化成固定尺寸特征图(7×7像素或14×14像素)。

完全连接结构的边界框(bbox)分支和完全卷积结构的掩码(mask)分支分3个阶段交错级联训练以预测每个RoI边界框和掩码：(1)第i-1阶段的bbox分支回归结果映射到特征金字塔进而重新生成RoIs。(2)每个RoI经RoIAlign层重新生成7×7和14×14像素特征图以分别训练第i阶段bbox分支和第i-1阶段mask分支。(3)第i-1阶段掩码特征(m_i-1)经4-strided 3×3卷积转换为

弥合语义，

经1个1×1卷积

嵌入第i阶段与主干特征、附加语义分割特征对齐并按元素求和融合。Bi-1的回归结果映射到特征金字塔重新生成RoIs训练Bi和Mi-1。Mi-1的掩码特征经1个1×1卷积

嵌入Mi并与与主干特征对齐后按元素和融合。

语义分割(sseg)分支将额外语义分割任务引入实例分割框架每个阶段mask分支以补充全局空间上下文：(1)特征金字塔中不同层次特征图经1个1×1卷积对齐后采样(stride＝8)到相同空间尺度融合。(2)4个连续3×3卷积弥合语义。(3)语义分割特征复用主框架提议或前一阶段bbox分支回归生成RoIs。(4)具有编码空间上下文的RoIs经RoIAlign层生成固定尺寸特征图，再分别与每个阶段mask分支中相同尺寸的特征图按元素和方式融合。

混合任务级联框架管道设计为：

其中x表示主干特征。

和

分别表示RoIs在第i阶段的边界框(bbox)特征和掩模特征。

表示RoIAlign运算，可以从相应RoI特征中提取小特征块作为表示。

表示sseg头，B_i和M_i分别表示第i阶段的bbox头和mask头。

表示sseg头。b_i和m_i分别表示第i阶段的bbox和mask预测。

表示经

层嵌入到第i阶段的i-1阶段转换的掩码特征

总的来说，该模型架构整合各分支各阶段特征以逐步改善每个RoI边界框回归和掩码预测。

实施例

本实施例的流程示意图可见图1，具体操作过程如下：

1.标注图像转化为COCO注释数据。

遥感建筑数据首先需要将其对应标注图像转化为支持本申请的COCO格式注释数据以开展后续深度训练。COCO使用JSON(JavaScript对象表示法)对有关数据集的信息进行编码。本申请遍历本实施例中标注图像(黑白二值图像，.tif格式)，使用python列表和字典描述数据集，生成对应JSON文件并清洗无建筑的标注图像。

json标注文件的格式：

COCO支持两种类型的注释，它们的格式取决于注释是单个对象还是对象的“crowd”。使用沿其轮廓的点列表对单个对象进行编码，而使用列优先的RLE(行程编码)对人群进行编码。RLE是一种压缩方法，其作用是将重复值替换为重复值。例如0 0 1 1 1 0 1将成为2 31 1。主要列只是意味着，我们不是沿着行从左到右读取二进制掩码数组，而是沿着列从上到下读取它们。

2.并行高分辨率网络HRNetV2p提取高分辨率特征并构造语义特征金字塔。

在建筑物提取任务中，高分辨率特征表示可以更有效地利用高空间分辨率光学遥感图像所表达精细建筑物空间结构与清晰屋顶纹理特征。在本实施例中，HRNetV2p的体系结构如图2所示：(1)将1组高分辨率卷积和3组低分辨率卷积分4个阶段并行连接以保持高分辨率表示并重复融合高到低分辨率表示。第1阶段包含4个残差单元，每个单元由一个宽度为64的瓶颈组成，然后进行一个3×3的卷积，将feature map的宽度减小到32。第2、3、4阶段分别包含1、4、3个多分辨率块。4种分辨率卷积的宽度(通道数)分别为32、64、128、256。多分辨率群卷积中的每个分支包含4个残差单位，每个单位包含2个3×3的卷积。低分辨率表示经双线性插值被上采样(4倍)为高分辨率表示(原始图像大小)，4个表示再经1个1×1卷积融合将高分辨特征的通道数减少为256。混合表示经平均池化被下采样到多个层次构建特征金字塔并传递给具有softmax/MSE损失的分类器/回归器。

3.构建引导锚模块以动态预测锚。

在建筑提取任务中，滑动窗生成的密集锚占用大量计算资源，特别是均匀分布在背景区域(负样本)的锚所生成大量负样本可能会主导梯度导致模型退化，且预先定义的锚形状(尺度和纵横比)不一定适合具有极端的大小或纵横比的建筑物。本申请采用引导锚模块来根据位置生成稀疏的且形状任意的锚以解决上述问题。

给定图像特征F_I，锚的中心位置(x,y)，锚的形状(w:宽度,h：高度)，引导锚联合条件概率公式定义为：

p(x,y,w,h|F_I)＝p(x,y|F_I)p(w,h|x,y,F_I)

对于特征金字塔中输出的每个特征图F_I，根据p(x,y,w,h|F_I)公式原理构建引导锚模块包括锚生成模块和特征自适应模块。锚生成模块中的N_L和N_S分支分别预测锚的中心位置和形状再结合生成锚。锚生成参数在所有涉及的特征级别上共享。特征自适应模块对原始特征图应用带偏移的可变形卷积，使新特征图适配锚形状变化供后续的预测(锚的进一步分类和回归)。在本实施例中，端到端训练的引导锚模块结构示意如图3所示，相比之前只是增加了3个1×1卷积和1个3×3可变卷积，带来的模型参数量变化很小。

(1)将整个feature map的区域分为物体中心区域、外围区域和忽略区域，大致思路就是将groundtruth框的中心一小块对应在feature map上的区域标为物体中心区域，在训练的时候作为正样本，其余区域按照离中心的距离标为忽略或者负样本。最后通过选择对应概率值高于预定阈值的位置来确定可能存在对象活动的区域。对输入的特征图使用1×1的卷积，得到与相同分辨率的输出，得到输出的每个位置的值表示原图I上对应位置出现物体的可能性，也就是概率图p(·|F_I)，最后通过选择对应概率值高于预定阈值的位置来确定可能存在对象活动的区域。

((i+0.5)s,(j+0.5)s)

其中s是特征图F_I的stride。

(2)锚的形状预测分支N_S(1×1卷积+转换运算)输出与特征图F_I相同分辨率的双通道映射，表示每一个位置与最近的地面真值边界框(ground truth)重叠最多的形状(w,h)。为了获得每个锚最合适的目标形状，首先将锚与1个groundtruth框进行匹配，然后通过二者之间的IOU来计算得到最优的，在本实施例中采样了9对不同尺寸及比例的(w,h)变化的锚与ground truth之间的IOU，记作vIoU:

其中，IoU_mormal为经典的IOU定义，(w,h)为变量。

w＝σ×s×e^dw,h＝σ×s×e^dh

其中s是特征图F_I的stride，σ是一个经验尺度因子(在本实施例中σ＝8)。

(3)通过选择预测概率高于某个阈值的位置和每个位置上最可能的形状来生成一组锚。由于锚形状可能不同，不同位置的特征应该捕获不同范围内的视觉内容。特征自适应模块N_T(1×1卷积预测每个位置偏移+3×3可变形卷积附加锚的形状信息)根据基础锚形状预测每一个位置偏移，再对带有偏移量的原始特征图F_I应用可变形卷积附加锚的形状信息输出

供后续对应锚的回归、分类，特征自适应转换公式为：

f_i′＝N_T(f_i,w_i,h_i)

其中，fi_i是第i个位置的特征，(w_i,h_i)是对应的锚形状。

(4)基本的分类损失和回归损失以外，guided anchor需要学习anchor location和anchor shape，因此还有两个额外的损失函数：

在本实施例中，设置λ₁＝15和λ₂＝0.1以平衡位置和形状损失权重。

4.改进引导锚模块中分类损失为Focal函数以平衡样本难易分类权重。

在建筑物提取任务中，背景类的像素通常远多于建筑物类的像素，且不同尺度的建筑物样本数量往往存在显著差异，尤其是异构建筑物样本数量少且难以训练。背景类的像素通常远多于建筑物类的像素。大量容易分类的负样本可能主导梯度进而导致模型退化，是RPN阶段分类性能和速度提升的主要阻碍。本申请将Focalloss作为RPN的分类损失函数不仅可以缓解建筑物类和背景类极端不平衡，而且可以减少易分类样本的权重使模型在训练时更加关注难分类样本。

基于Cross Entropy Loss(CE)改进的Focal Loss(FC)被定义为：

CE(p_t)＝-log(p_t).

FL(p_t)＝-α_t(1-p_t)^γlog(p_t).

其中，y∈{±1}是地面实况类别；p∈[0,1]是类别概率；α∈[0,1]是平衡正/负样本(前景类和背景类)的权重因子；(1-p_t)^γ是减少易分类样本权重的调制因子(当p_t→1时，(1-p_t)^γ→0)，γ≥0是平滑权重调整过程的聚焦参数。在本实施例中，设置α＝0.25和γ＝2以获得最佳性能收益。

5.混合任务级联框架训练并预测建筑物实例的边界框位置和掩码区域。

RPN阶段生成提议动态映射到特征金字塔的相应级别特征图提取感兴趣区域(RoIs)。每个RoIs经RoIAlign层池化成固定尺寸特征图(7×7像素或14×14像素)。

在本实施例中，完全连接结构的边界框(bbox)分支和完全卷积结构的掩码(mask)分支分3个阶段交错级联训练以预测每个RoI边界框和掩码：(1)第i-1阶段的bbox分支回归结果映射到特征金字塔进而重新生成RoIs。(2)每个RoI经RoIAlign层重新生成7×7和14×14像素特征图以分别训练第i阶段bbox分支和第i-1阶段mask分支。(3)第i-1阶段掩码特征(m_i-1)经4-strided 3×3卷积转换为

弥合语义，

经1个1×1卷积

嵌入Mi并与与主干特征对齐后按元素和融合。

在本实施例中，语义分割(sseg)分支将额外语义分割任务引入实例分割框架每个阶段mask分支以补充全局空间上下文：(1)特征金字塔中不同层次特征图经1个1×1卷积对齐后采样(stride＝8)到相同空间尺度融合。(2)4个连续3×3卷积弥合语义。(3)语义分割特征复用主框架提议或前一阶段bbox分支回归生成RoIs。(4)具有编码空间上下文的RoIs经RoIAlign层生成固定尺寸特征图，再分别与每个阶段mask分支中相同尺寸的特征图按元素和方式融合。

总的来说，该模型架构整合各分支各阶段特征以逐步改善每个RoI边界框回归和掩码预测。本实施例中，各种大小、比例和分布建筑物提取结果如图4所示。

图3中(a)为本申请采用引导锚模块结构示意图：(b)为基于特征金字塔多级引导锚模块示意图；图4中(a)为纵横比差异显著的建筑提取结果；(b)为大小差异显著的建筑提取结果；(c)为大小、外观和分布差异显著的建筑提取结果。

本申请实现自动化，实例化，数据预处理清洗无效数据，转换标注数据格式，提取并保持高分辨率表示，锚超参自适应建筑物大小和纵横比，多任务混合补充全局空间信息、多阶段交互增强提取性能。

6.终端设备

本申请还提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

该实施例的终端设备包括：至少一个处理器(图4中仅示出一个)处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现下述任意各个代谢路径预测方法实施例中的步骤。

本申请实施例提供的方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digitalassistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡。

所述终端设备可以是台式计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，仅仅是终端设备的举例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器在一些实施例中可以是所述终端设备的内部存储单元，例如终端设备的硬盘或内存。所述存储器在另一些实施例中也可以是所述终端设备的外部存储设备，例如所述终端设备上配备的插接式硬盘，智能存储卡(Smart Media Card，MC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

1.一种基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，其特征在于，所述方法包括如下步骤：

1)自动预处理二值标注图像得到COCO注释数据；

2)输入光学遥感图像，构建语义特征金字塔；

3)根据所述语义特征金字塔筛选有建筑物的区域，对所述区域进行筛选生成候选建筑物边界框；

4)根据所述边界框补充全局空间信息，预测建筑物边界框准确位置，预测建筑物掩码覆盖区域。

2.如权利要求1所述的基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，其特征在于，所述步骤1)预处理包括将标注图像转化为用来进行图像识别的轻量级JSON数据，清洗无建筑物的标注图像。

3.如权利要求1所述的基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，其特征在于，所述步骤2)通过高分辨率网络提取高分辨率特征并构建语义特征金字塔；所述高分辨率网络包括1组高分辨率卷积网络和3组低分辨率卷积网络经4个阶段并行连接，低分辨率特征经双线性插值被上采样为高分辨率特征后，4种分辨率混合特征通过平均池化被下采样到多个层次构建语义特征金字塔。

4.如权利要求1所述的基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，其特征在于，所述步骤3)在区域建议网络中利用所述语义特征金字塔输出的每个特征图引导并构造自适应建筑物大小和纵横比的引导锚以筛选有建筑物的图像区域；所述引导锚根据联合条件概率公式构建，包括锚生成模块和特征自适应模块；所述锚生成模块预测锚中心和锚形状，将所述锚中心和所述锚形状结合生成锚；所述特征自适应模块对原始特征图应用带偏移的可变形卷积生成新特征图以适配锚形状变化。

5.如权利要求1所述的基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，其特征在于，所述步骤3)所述区域分类、回归以筛选生成候选建筑物边界框时所述分类损失函数为焦点函数以平衡建筑物和背景像素数量极端差异。

6.如权利要求1所述的基于高空间分辨率光学遥感图像的建筑物实例自动提取方法，其特征在于，所述步骤4)中将所述边界框与掩码进行多阶段交错级联，预测建筑物边界框准确位置，预测建筑物掩码覆盖区域。