CN111640116A

CN111640116A - 基于深层卷积残差网络的航拍图建筑物分割方法及装置

Info

Publication number: CN111640116A
Application number: CN202010476182.5A
Authority: CN
Inventors: 许华杰; 张晨强; 苏国韶
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-08
Anticipated expiration: 2040-05-29
Also published as: CN111640116B

Abstract

本发明涉及计算机视觉的图像分割领域，具体涉及基于深层卷积残差网络的航拍图建筑物分割方法及装置，其中，该方法首先用无人机采集城镇建筑物的航拍图，将航拍图中的建筑物对象的轮廓以及五个关键点进行标注，建立训练集和测试集数据；构造E‑DEXTR航拍图分割网络；用训练集数据对E‑DEXTR网络进行训练，并且通过测试集数据对训练好的分割模型进行测试和性能评估，得到最终的航拍图建筑物分割模型；将所获模型应用于用户需要进行处理的建筑物航拍图，得到最终的航拍图建筑物精确分割图。本发明实能够有效提高建筑物航拍图场景下的建筑物分割精度，并且具有较好的抗干扰性和鲁棒性。

Description

基于深层卷积残差网络的航拍图建筑物分割方法及装置

技术领域

本发明涉及计算机视觉的图像分割领域，具体涉及基于深层卷积残差网络的航拍图建筑物分割方法及装置。

背景技术

着我国城市化脚步的加快，各种类型的城镇房屋以及形状各异的功能性建筑物的数量也在突飞猛进。由于近几年城市的规划以及智慧城市的发展，城市建筑物3D建模需求变得越来越大，对一个建筑物的3D建模通常是一个不小的工程，3D建模的人员需要在建模软件中先对一个建筑的整体进行构造，然后对其细节进行修改，最后对建好的模型贴上纹理图片才能真正结束一个建筑物的数字模型构建。在3D建模的第一步，也就是对建筑物主体进行构建往往需要花费大量的时间，所以城市建筑物航拍图的精确实例分割就是探索如何快速从航拍图中得到一个建筑物主体轮廓的俯视平面图，以便后续人员使用每个建筑物的轮廓图和贴图可以快速进行整个城市建筑物主体的建立。另外，伴随着无人机航拍技术的发展，可以更容易地获得大量城镇建筑物的航拍图、俯瞰图。因此，如何从这些建筑物航拍图精确分割出目标建筑物区域具有很高的研究价值。

图像分割算法的研究一直受到人们的重视，目前常见的分割方法有阈值分割方法、边缘检测方法等，但这些方法都存在一定的局限性，如阈值分割方法只能产生二值图像来解决二分类问题，在复杂的高分辨率的航拍图分割任务中无法取得精确的分割效果。

发明内容

本发明的要解决的问题是建筑物3D建模场景下所需的建筑物主体轮廓俯视平面图获取成本比较高、建筑物航拍图的分割精度不高、建筑物屋顶存在干扰物影响分割等问题，本发明对半自动图像分割方法DEXTR进行改进，提出一种基于深层卷积残差网络的航拍图建筑物分割方法和装置以解决上述问题。

为实现上述目的，本发明提供了基于深层卷积残差网络的航拍图建筑物分割方法，所述方法包括以下步骤：

S1：获取建筑物的清晰航拍图，并对其轮廓以及五个关键点的位置进行标注，得到建筑物航拍图精确分割的训练集和测试集；

S2：搭建以五个关键点的位置表示为热图，并作为卷积残差网络额外输入通道的航拍图分割网络(E-DEXTR)结构；所述E-DEXTR网络包括输入数据的预处理部分、以深层卷积残差网络ResNet-101为主体的特征提取部分和金字塔场景解析模块；预处理部分用于对输入图像的裁剪和包含五个关键点位置信息的热图的生成；

S3：将制作好的建筑物训练数据集作为E-DEXTR网络的输入，通过迭代训练得到航拍图分割模型，并且通过测试集数据对训练获得的分割模型进行测试和性能评估，得到最终的航拍图建筑物分割模型；

S4：将所获得的模型应用于用户需要进行处理的建筑物航拍图，得到最终的航拍图建筑物精确分割图。

进一步的，步骤S1制作建筑物航拍图训练集和测试集时的五关键点标注方式为：

使用标注软件打开建筑物航拍图，将建筑物的轮廓用创建多边形工具勾勒出来；然后使用创建点的工具分别选择建筑物对象最上方的点、最底部的点、最左边的点、最右边的点以及位于建筑物对象中间位置的点作为五关键点进行标注，如果建筑物屋顶有明显干扰物，将中间的点位置选择在干扰物上。

进一步的，步骤S2构建的E-DEXTR网络中将五个关键点的位置信息表示为热图作为额外输入通道，与航拍图R、G、B通道一起作为卷积残差网络的输入；对应于所标注的五个关键点，分别以每个点为中心生成高斯分布的概率区域，从而得到包含五个关键点位置信息的热图；E-DEXTR网络中的输入数据的预处理部分的裁剪方式是对输入的图像和热图通过上、下、左、右四个端点生成的矩形边界框进行裁剪；

进一步的，包含五个关键点位置信息的热图矩阵中的值表示所对应像素点属于需分割的某个建筑物的概率，热图的大小与输入图片相同，经过相同矩形框裁剪的图像RGB通道和热图矩阵作为深层卷积残差网络的四通道输入；高斯概率分布的区域中每个点所对应的值由二维高斯函数计算得到，计算公式为：

其中x₀,y₀表示的是中心点的坐标，x,y是高斯概率区域中每个像素的坐标，σ是方差，决定了高斯分布的有效范围。

进一步的，步骤S2中构建的E-DEXTR网络中的特征提取模块的主要部分ResNet-101移除了最后的池化层和全连接层，并且取消第8个和第31个残差块中的下采样操作，将残差块中第一层的1*1卷积操作的步长由2设置为1；在残差块8-30和31-33中引入3*3的空洞卷积层，空洞数分别为2和4；并且在ResNet-101之后连接着金字塔场景解析模块，将全局上下文信息聚合到最终特征图中，以提升卷积残差网络的预测精度。

本发明还提供一种基于深层卷积残差网络的航拍图建筑物分割装置，包括：

输入和预处理模块，用于对用户需要进行处理的航拍图进行预处理，得到预处理数据；

图像深层特征提取模块，用于对经过预处理的输入图像数据进行深层特征提取，得到和特征提取网络输入大小相同的最终特征图，用于进行像素级的预测；

预测和分割结果输出模块，用于对图像深层特征提取模块得到的最终特征图进行分割预测，得到裁剪区域的建筑物区域的形状掩码，并通过形状掩码数据计算得到原图中的建筑物分割区域，并将分割结果输出。

进一步的，所述输入和预处理模块包括：对输入航拍图标注出需要分割的目标建筑物的五个关键点，生成包含五个点位置信息的热图，然后通过上、下、左、右四个端点生成的矩形边界框对输入图像和热图进行裁剪，裁剪结果作为特征提取网络的输入。

进一步的，图像深层特征提取模块包括：通过已经预先训练好的ResNet-101和金字塔场景解析网络对预处理数据进行计算得到最终特征图用于像素级的分割预测；其中的ResNet-101网络移除了最后的池化层和全连接层并且引入了空洞卷积，可以扩大特征图的感受野，更有利于分割。

本发明具有以下技术效果：

(1)本发明首先使用无人机航拍采集城镇建筑物的航拍图，所构建的数据集包括建筑物屋顶无干扰物的图像以及部分屋顶存在干扰物的图像，通过标注轮廓以及五关键点的位置组成训练数据集和测试数据集。然后通过在训练数据集上训练得到模型，在测试集图像上进行分割。本发明通过将人工标注的五关键点与深度残差网络结合起来，在航拍图数据集上进行训练从而拟合模型，可以实现对建筑物轮廓进行精确分割。

(2)本发明针对建筑物3D建模场景下所需的建筑物主体轮廓的俯视平面图获取成本比较高、建筑物航拍图的分割精度不高、建筑物屋顶存在干扰物等技术问题，将人工标注的五关键点与深度残差网络结合起来，仅通过五个点的手工标注即可实现对建筑物航拍图的精确、有效分割。本发明相对其他分割方法，对存在干扰物的建筑物的分割具有更高的准确性和鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于深层残差网络的航拍图建筑物分割方法的流程图；

图2为本发明实施例中步骤1中在Labelme中标注图片关键点的示意图；

图3为本发明实施例中提出的E-DEXTR网络架构示意图；

图4为本发明实施例中步骤1中生成的热图可视化效果图；

图5为本发明实施例中搭建的E-DEXTR网络架构中的ResNet-101和金字塔场景解析网络的结构示意图；

图6为本发明实施例中分割效果对比图；

图7为本发明实施例中基于深层残差网络的航拍图建筑物分割装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于对本发明内容的描述，给出如下的定义描述：

定义1：E-DEXTR为Enhanced--Deep Extreme Cut简称，为本发明对DeepExtremeCut网络结构的改进。

定义2：金字塔场景解析模块，Pyramid Scene parsing Module。

实施例1

请参见图1，基于深层残差网络的航拍图建筑物分割方法，包括以下步骤：

步骤1：获取高清城镇建筑物的清晰航拍图，制作训练数据集和测试数据集。具体地，包括以下步骤：

步骤1.1：通过远程操作利用无人机获取不同城镇建筑物的航拍图，并从中选出成像清晰的、角度适合的300张图像。从其中随机选出200张作为训练数据，从剩余的100张中随机选出40张作为测试数据集test1，再从剩余60张图像中人工挑选出屋顶含有明显干扰物的建筑物图像10张，作为干扰测试数据集test2。

步骤1.2：对建筑物航拍图进行标注。用Labelme标注工具软件打开航拍图，用多边形工具勾勒出建筑物的轮廓并设置标签为building，然后选择创建关键点工具，选择建筑物对象最上方、最底部、最左边、最右边和位于中间的点，如果建筑物屋顶有明显干扰物，将该点位置选择在干扰物上，如图2示，中间的点选择位于屋顶的卫星天线上。分别设置标签为top、bottom、left、right、mid，生成格式为json的Labelme标注文件，并且在PyTorch环境下中使用label_json_to_dataset命令将格式为.json标注文件转换为.yaml格式文件，并存入在相应的文件夹。

步骤2：搭建以五个点的位置表示为热图作为网络额外输入通道的航拍图分割网络E-DEXTR(Enhanced--Deep Extreme Cut)结构，网络结构如图3所示。具体地，包括以下步骤：

步骤2.1：部署深度学习框架PyTorch 1.0的环境，并在该环境下搭建E-DEXTR网络。所搭建的E-DEXTR网络架构以残差网络ResNet-101作为其核心部分，为了更好地提取分割对象的特征，在ResNet-101网络之前连接着图像预处理部分对输入图片进行裁剪，由标注分别是top、bottom、left、right的四个端点位置生成的矩形框确定裁剪区域，建筑物对象包含在其中。为了更好地在裁剪部分中包含背景信息，本发明中采用的具体做法是以周边的四个端点的坐标通过向外扩大10个像素得到矩形框，矩形框需要的参数x_min、x_max分别是left端点的横坐标-10、right端点横坐标+10，y_min、y_max分别是top端点的纵坐标-10、bottom端点的纵坐标+10。

步骤2.2：生成包含五个关键点位置信息的热图。对应于所标注的四个极端点以及一个中间点，分别以每个点为中心生成高斯分布的概率区域，从而得到包含五个点位置信息的热图。所生成的热图的大小与输入图片大小相同，在每个关键点的位置处生成一个成高斯分布的概率区域，热图矩阵中的值表示所对应像素点属于需分割的某个建筑物的概率。在以每个点的位置为中心生成的高斯分布概率区域中，区域的中心(为标注的极端点或者中间点)概率值最大，最接近1；越向四周，概率越小。高斯概率分布区域中每个点所对应的值由二维高斯函数计算得到，计算公式如下：

其中x₀,y₀表示的是中心点的坐标，x,y是高斯概率区域中每个像素的坐标，σ是方差，决定了高斯分布的有效范围。本发明实施例中生成的热图所采用的σ的值10，该值可以根据实际需求来选取。图4示是DEXTR方法与E-DEXTR方法得到的热图可视化效果对比，图中越亮的区域像素值越高，代表该像素点为分割对象的概率值越大，中心点区域的概率值相对较大，接近于1。包含五个点位置信息的热图的裁剪位置和输入图像的裁剪位置一致。在保留DEXTR网络架构将四个端点作为输入的情况下，再通过增加一个额外的中间点，创建含有五个点位置信息的热图有着更多的像素点分类指导信息。另外，在针对一些屋顶有窗户、太阳能热水器或者其他干扰物的情况，可以将中间点的位置选择在这些干扰物上，为模型训练提供更多有用信息，可以得到更好的分割效果。

步骤2.3：图像预处理部分得到的裁剪区域图像的RGB通道与步骤2.2中与热图通道作为接下来卷积神经网络的4通道输入。深度卷积残差网络有多个不同层数的版本，比较常见的有18、34、50、101和152层，本发明E-DEXTR网络选用是深度卷积残差网络ResNet-101作为网络架构的主体部分，ResNet-101各种分割方法中效果较好，在性能和效率方面可以实现兼顾。

本发明中所搭建的ResNet-101网络包括33个残差块，共拥有100个卷积层。如图5左边所示。网络具体包括：1个4通道的输入层、一个卷积层，卷积层连接了一个池化层，池化层之后连接了33个残差块，每个残差块分别包括3个卷积层。

从图中可以看到，网络的输入通道数为4，包括图像的R、G、B通道以及五个标注点生成的热图通道。从输入端开始，网络的第一层为卷积核大小为7*7的卷积层，卷积核数量为64，卷积步长为2，之后连接了一个池化核大小为3*3、池化步长为2的最大池化层，池化层之后连接了33个残差块，残差块连接的使用有助于克服深层网络中出现的梯度消失问题，33个残差块总共99个卷积层，所有的残差块中的3个卷积核大小依次为1*1、3*3、1*1,第1-3个残差块中三个卷积核个数依次为64、64、256，第4-7个残差块中卷积核个数为依次为128、128、512，第8-30个残差块中卷积核个数依次为256、256、1024，第31-33个残差块中卷积核个数依次为512、512、2048。为了输出较高分辨率的特征图以进行像素级的预测，移除ResNet-101的最后的池化层和全连接层，并且取消第8个和第31个残差块中的下采样操作，将残差块中第一层的1*1卷积操作的步长由2设置为1。另外，为了扩大特征图的感受野，分别在残差块8-30和31-33中引入3*3的空洞卷积层，空洞数分别为2和4，通过增大感受野利于语义分割。最后ResNet-101输出的特征图尺寸为输入的1/8。

为了将全局上下文信息聚合到最终特征图中，提升网络的预测精度，在ResNet-101网络后面连接着金字塔场景解析模块(Pyramid Scene Parsing Network)。所采用的金字塔场景解析模块的网络结构如图5右边所示。从图中可以看到，金字塔场景解析模块将ResNet-101输出的特征图作为输入，使用4个不同尺度的池化核对输入特征图进行池化操作，得到四个不同尺度的池化后的特征图，四个特征图大小分别为1*1、2*2、3*3和6*6，；池化后的特征图分别通过卷积核大小为1*1、步长为1的卷积层将通道数降低为输入特征图的1/4；再将这四个低维特征图利用双线性插值法进行上采样得到和输入特征图一样的尺度大小；最后将这四个不同尺度的特征图和输入特征图连接起来，得到最终特征图。最终特征图再通过卷积核大小为1*1、步长为1的卷积层降低通道数，并且经过上采样操作得到与ResNet-101的输入相同的尺寸。

步骤3：将制作好的建筑物训练数据集作为E-DEXTR网络的输入，通过迭代训练得到航拍图分割模型，并且通过测试集数据对训练获得的分割模型进行测试和性能评估，得到最终的航拍图建筑物分割模型。

步骤4：将所获模型应用于用户需要进行处理的建筑物航拍图，得到最终的建筑物的精确分割图。

步骤2中所述E-DEXTR网络架构所使用的激活函数统一为ReLU函数，模型的损失函数使用交叉熵损失函数，公式如下：

其中小写的y表示单个像素，大写的Y表示裁剪区域图中所有像素的集合，y_j表示像素的标签，

表示预测值，C(.)表示像素标签与预测值之间的标准交叉熵损失。采用批梯度下降方法最小化损失函数，即每次将一部分数据作为一批数据输入E-DEXTR网络中，完成该批次数据前向运算后得到其平均的损失函数，然后利用该损失函数进行梯度计算。初始化网络参数使用的DEXTR模型在PASCAL 2012数据集上预训练的模型。本发明实施例中设置训练的batch size为2，学习率为1^e-8，迭代次数设置为100，当达到指定的迭代次数时，网络停止训练，得到航拍图数据集上的模型参数并保存。

本发明实施例采用的评估标准是交并比IoU(Intersection over Union)。IoU是指模型所预测目标区域与标注真实区域之间的交并比，即分割结果与分割标签图的交集比上它们的并集。计算公式为

其中A为真实标签区域，B为模型预测区域。

本发明实施例提供的方法应用在测试集test1和test2中，对比方法采用文献“Deep extreme cut:From extreme points to object segmentation”中的半自动图像分割方法DEXTR以及传统的半自动分割方法Grabcut。三种方法的分割精度对比参见表1和表2所示，分割对比效果图参见图6示，其中图6的(b)图表示采用DEXTR方法后分割效果图，(d)图表示采用本发明实施例提供的方法后的分割效果图。

表1三种方法在航拍图普通测试集test1上的测试结果

方法	IoU/％	单个建筑物的平均分割时间/秒
			Grabcut	70.1	7.0
DEXTR	88.1	1.6
			本发明方法	91.3	1.9

表2在航拍图干扰性强的数据集test2上的测试结果

方法	IoU/％	单个建筑物的平均分割时间/秒
			DEXTR	81.4	1.5
E-DEXTR	88.6	1.9

本发明实施例提供的一种基于深层卷积残差网络的航拍图建筑物分割方法，将建筑物上标注的四个极端点与一个中间位置点表示为热图作为卷积神经网络除图像的RGB通道之外的额外输入通道从而实现对航拍图中的建筑物进行精确分割。相比其他半自动图像分割方法，E-DEXTR方法具有较高的分割精度和较好的抗干扰性，该方法可以为建筑物3D重建任务提供高精度的建筑物俯视轮廓图和建筑物顶部图片，还可以将其用在建筑物航拍图数据集的制作过程中，作为一种准确和有效的掩码注释工具或半自动轮廓标注工具，提高数据集的标注效率。

实施例2

以上详细介绍了一种基于深层卷积残差网络的航拍图建筑物分割方法的流程，该方法也可以通过相应的装置实现，下面详细介绍该装置的结构和功能。

本发明实施例提供的一种基于深层卷积残差网络的航拍图建筑物分割装置，该装置使用了实施例1中的航拍图建筑物分割模型。

该装置示意图如图7示，包括：

图像深层特征提取模块，通过预先训练好的网络模型对经过预处理的输入图像数据进行深层特征提取，得到和特征提取网络输入大小相同的最终特征图，用于进行像素级的预测；

预测和分割结果输出模块，通过对图像深层特征提取模块得到的最终特征图进行分割预测，得到裁剪区域的建筑物区域的形状掩码，并通过形状掩码数据计算得到原图中的建筑物分割区域，并将分割结果输出。

作为本发明实施例的一个可选实施方式，输入和预处理模块包括：对输入航拍图人工标出出需要分割的目标建筑物的五个关键点，可以生成包含五个点位置信息的热图，然后通过上、下、左、右四个端点生成的矩形边界框框对输入图像和热图进行裁剪，裁剪结果作为特征提取网络的输入。

作为本发明实施例的一个可选实施方式，图像深层特征提取模块包括：通过已经预先训练好的ResNet-101和金字塔场景解析网络对预处理数据进行计算得到最终特征图用于像素级的分割预测。其中的ResNet-101网络移除了最后的池化层和全连接层并且引入了空洞卷积，可以扩大特征图的感受野，更有利于分割。

作为本发明实施例的一个可选实施方式，预测和分割结果输出模块包括：预测和输出模块，用于输出航拍图中待分割目标建筑物分割结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.基于深层卷积残差网络的航拍图建筑物分割方法，其特征在于，所述方法包括以下步骤：

S1：获取建筑物的清晰航拍图，并对其轮廓以及五个关键点的位置进行标注，得到航拍图建筑物精确分割的训练集和测试集；

2.根据权利要求1所述的基于深层卷积残差网络的航拍图建筑物分割方法，其特征在于，步骤S1制作建筑物航拍图训练集和测试集时的五关键点标注方式为：

3.根据权利要求1所述的基于深层卷积残差网络的航拍图建筑物分割方法，其特征在于，步骤S2构建的E-DEXTR网络中将五个关键点的位置信息表示为热图作为额外输入通道，与航拍图R、G、B通道一起作为卷积残差网络的输入；对应于所标注的五个关键点，分别以每个点为中心生成高斯分布的概率区域，从而得到包含五个关键点位置信息的热图；E-DEXTR网络中的输入数据的预处理部分的裁剪方式是对输入的图像和热图通过上、下、左、右四个端点生成的矩形边界框进行裁剪。

4.根据权利要求3所述的基于深层卷积残差网络的航拍图建筑物分割方法，其特征在于，

包含五个关键点位置信息的热图矩阵中的值表示所对应像素点属于需分割的某个建筑物的概率，热图的大小与输入图片相同，经过相同矩形框裁剪的图像RGB通道和热图矩阵作为深层卷积残差网络的四通道输入；高斯概率分布的区域中每个点所对应的值由二维高斯函数计算得到，计算公式为：

5.根据权利要求1所述的基于深层卷积残差网络的航拍图建筑物分割方法，其特征在于，步骤S2中构建的E-DEXTR网络中的特征提取模块的主要部分ResNet-101移除了最后的池化层和全连接层，并且取消第8个和第31个残差块中的下采样操作，将残差块中第一层的1*1卷积操作的步长由2设置为1；在残差块8-30和31-33中引入3*3的空洞卷积层，空洞数分别为2和4；并且在ResNet-101之后连接着金字塔场景解析模块，将全局上下文信息聚合到最终特征图中，以提升卷积残差网络的预测精度。

6.基于深层卷积残差网络的航拍图建筑物分割装置，其特征在于，包括：

7.根据权利要求6所述的基于深层卷积残差网络的航拍图建筑物分割装置，其特征在于，所述输入和预处理模块包括：对输入航拍图标注出需要分割的目标建筑物的五个关键点，生成包含五个点位置信息的热图，然后通过上、下、左、右四个端点生成的矩形边界框对输入图像和热图进行裁剪，裁剪结果作为特征提取网络的输入。

8.根据权利要求6所述的基于深层卷积残差网络的航拍图建筑物分割装置，其特征在于，图像深层特征提取模块包括：通过已经预先训练好的ResNet-101和金字塔场景解析网络对预处理数据进行计算得到最终特征图用于像素级的分割预测；其中的ResNet-101网络移除了最后的池化层和全连接层并且引入了空洞卷积，可以扩大特征图的感受野，更有利于分割。