CN115082778B

CN115082778B - 一种基于多分支学习的宅基地识别方法及系统

Info

Publication number: CN115082778B
Application number: CN202210454703.6A
Authority: CN
Inventors: 范蓓蕾; 韦任; 周清波; 王玉庭; 李哲敏
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2023-04-07
Anticipated expiration: 2042-04-28
Also published as: CN115082778A

Abstract

本发明提供一种基于多分支学习的宅基地识别方法及系统，属于建筑识别技术领域，方法包括：提取每张样本遥感影像的初步特征，得到两个初始特征图；提取第二初始特征图的底层细节信息及高层语义信息，根据高分辨率特征图提取第一初始特征图的边界信息，并确定最终边界图；基于边界特征图对最终边界图中的边界进行细化，并确定样本遥感影像中各像素是否为宅基地；根据各像素的预测结果及对应像素的标签信息确定宅基地识别模型；根据待识别遥感影像，基于宅基地识别模型，确定待识别遥感影像中的宅基地。通过提取遥感影像的底层细节信息、高层语义信息以及边界信息，确定遥感影像中各像素是否为宅基地，提高了宅基地的识别效率及精准度。

Description

一种基于多分支学习的宅基地识别方法及系统

技术领域

本发明涉及建筑识别技术领域，特别是涉及一种基于多分支学习的宅基地识别方法及系统。

背景技术

中国农村宅基地范围广，总量大。全面了解宅基地的规模、布局、所有权、利用状况等基本情况，可以为深化农村宅基地制度改革提供支持。目前，农村宅基地相关信息的统计主要采用实地调查、测绘等传统方法。这些方法工作量大、周期长、效率低，难以满足国家对宅基地统计和管理的需要。

近年来，高分辨率遥感影像技术的发展为获取宅基地信息提供了新的手段。低空无人机图像作为一种遥感图像，具有比卫星图像更高的分辨率。这有助于获得关于农村地区无密集劳动力家庭的分布的大规模详细信息。然而，仅仅用目视判读来判读遥感图像也需要大量的人力和时间，这不足以支持成千上万的农村宅基地调查。

基于上述问题，亟需一种新的方法以提高对遥感图像中宅基地的识别效率及精准度。

发明内容

本发明的目的是提供一种基于多分支学习的宅基地识别方法及系统，可提高宅基地的识别效率及精准度。

为实现上述目的，本发明提供了如下方案：

一种基于多分支学习的宅基地识别方法，包括：

获取样本图像集；所述样本图像集中包括多张样本遥感影像及各样本遥感影像中各像素的标签信息；所述标签信息包括0和1；1代表对应的像素是宅基地；0代表对应的像素不是宅基地；

针对每张样本遥感影像，通过stem结构提取所述样本遥感影像的初步特征，得到第一初始特征图和第二初始特征图；

提取所述第二初始特征图的底层细节信息，得到高分辨率特征图；

提取所述第二初始特征图的高层语义信息，得到语义特征图；

根据所述高分辨率特征图，提取所述第一初始特征图的边界信息，得到边界特征图；

根据所述高分辨率特征图、所述语义特征图及所述边界特征图，确定最终边界图；

基于所述边界特征图，对所述最终边界图中的边界进行细化，并确定所述样本遥感影像中各像素的预测结果；所述预测结果包括0和1；0代表对应的像素不是宅基地，1代表对应的像素是宅基地；

根据各样本遥感影像中各像素的预测结果及对应像素的标签信息，确定宅基地识别模型；

根据待识别遥感影像，基于所述宅基地识别模型，确定所述待识别遥感影像中的宅基地。

可选地，所述提取所述样本遥感影像的特征，得到第一初始特征图及第二初始特征图，具体包括：

依次通过两个3×3卷积提取所述样本遥感影像的特征，得到第一初始特征图；

通过最大池化层对所述第一初始特征图进行最大池化操作，得到池化特征图；

通过ResNet-50的第一个瓶颈层对所述池化特征图进行维度变换，得到第二初始特征图。

可选地，所述高分辨率特征图包括第一高分辨率特征图、第二高分辨率特征图及第三高分辨率特征图；所述语义特征图包括第一语义特征图、第二语义特征图、第三语义特征图及第四语义特征图；

所述提取所述第二初始特征图的底层细节信息，得到高分辨率特征图，具体包括：

采用基本块提取所述第二初始特征图的底层细节信息，得到第一细节特征图；

对所述第一语义特征图进行上采样，并与所述第一细节特征图进行拼接，得到第一高分辨率特征图；

采用基本块提取所述第一高分辨率特征图的底层细节信息，得到第二细节特征图；

对所述第二语义特征图进行上采样，并与所述第二细节特征图进行拼接，得到第二高分辨率特征图；

采用基本块提取所述第二高分辨率特征图的底层细节信息，得到第三高分辨率特征图。

可选地，所述语义特征图还包括最终语义特征图；

所述提取所述第二初始特征图的高层语义信息，得到语义特征图，具体包括：

采用基本块提取所述第二初始特征图的语义信息，得到第一语义特征图；

将所述第一细节特征图进行下采样，并与所述第一语义特征图拼接，得到第一语义拼接图；

采用基本块提取所述第一语义拼接图的语义信息，得到第二语义特征图；

将所述第二细节特征图进行下采样，并与所述第二语义特征图拼接，得到第二语义拼接图；

采用基本块提取所述第二语义拼接图的语义信息，得到第三语义特征图；

将所述第三高分辨率特征图进行下采样，并与所述第三语义特征图拼接，得到第三语义拼接图；

对所述第三语义拼接图进行多尺度变换，得到混合尺度特征图；

基于空间注意力机制对所述混合尺度特征图的各像素进行加权，得到最终语义特征图。

可选地，所述对所述第三语义拼接图进行多尺度变换，得到混合尺度特征图，具体包括：

采用扩张率为1的卷积块对所述第三语义拼接图进行尺度变换，得到第一尺度特征图；

采用扩张率为2的卷积块对所述第一尺度特征图进行尺度变换，得到第二尺度特征图；

采用扩张率为4的卷积块对所述第二尺度特征图进行尺度变换，得到第三尺度特征图；

采用扩张率为8的卷积块对所述第三尺度特征图进行尺度变换，得到第四尺度特征图；

将所述第一尺度特征图、所述第二尺度特征图、所述第三尺度特征图及所述第四尺度特征图进行拼接，得到混合尺度特征图。

可选地，所述基于空间注意力机制对所述混合尺度特征图的各像素进行加权，得到最终语义特征图，具体包括：

采用1×1卷积层对所述混合尺度特征图进行尺度变换，得到第一特征图、第二特征图及第三特征图；

对所述第一特征图进行变形并转置，得到第一特征矩阵；

对所述第二特征图变形，得到第二特征矩阵；

将所述第一特征矩阵与所述第二特征矩阵相乘，得到第一注意力特征图；

对所述第三特征图变形，得到第三特征矩阵；

将所述第三特征矩阵与所述第一注意力特征图的转置矩阵相乘，得到第二注意力特征图；

将所述第二注意力特征图中的像素添加到所述混合尺度特征图中，得到最终语义特征图。

可选地，所述根据所述高分辨率特征图，提取所述第一初始特征图的边界信息，得到边界特征图，具体包括：

对所述第一初始特征图进行上采样并降维，得到第一边界特征图；

将所述第一高分辨率特征图的通道降至单通道，并进行上采样，得到第一单通道特征图；

将所述第一边界特征图与所述第一单通道特征图进行拼接，并生成第一边界注意力；

根据所述第一边界特征图及所述第一边界注意力，确定第一阶段边界特征图；

对所述第一阶段边界特征图进行上采样并降维，得到第二边界特征图；

将所述第二高分辨率特征图的通道降至单通道，并进行上采样，得到第二单通道特征图；

将所述第二边界特征图与所述第二单通道特征图进行拼接，并生成第二边界注意力；

根据所述第二边界特征图及所述第二边界注意力，确定第二阶段边界特征图；

对所述第二阶段边界特征图进行上采样并降维，得到第三边界特征图；

将所述第三高分辨率特征图的通道降至单通道，并进行上采样，得到第三单通道特征图；

将所述第三边界特征图与所述第三单通道特征图进行拼接，并生成第三边界注意力；

根据所述第三边界特征图及所述第三边界注意力，确定最终的边界特征图。

为实现上述目的，本发明还提供了如下方案：

一种基于多分支学习的宅基地识别系统，包括：

样本获取单元，用于获取样本图像集；所述样本图像集中包括多张样本遥感影像及各样本遥感影像中各像素的标签信息；所述标签信息包括0和1；1代表对应的像素是宅基地；0代表对应的像素不是宅基地；

训练单元，与所述样本获取单元连接，用于对所述样本图像集进行训练，得到宅基地识别模型；

所述训练单元包括：

初始编码器，与所述样本获取单元连接，用于提取样本遥感影像的初步特征，得到第一初始特征图和第二初始特征图；

细节分支，与所述初始编码器连接，用于提取所述第二初始特征图的底层细节信息，得到高分辨率特征图；

语义分支，与所述初始编码器连接，用于提取所述第二初始特征图的高层语义信息，得到语义特征图；

边界分支，分别与所述初始编码器及所述细节分支连接，用于根据所述高分辨率特征图，提取所述第一初始特征图的边界信息，得到边界特征图；

连接模块，分别与所述细节分支、所述语义分支及所述边界分支连接，用于根据所述高分辨率特征图、所述语义特征图及所述边界特征图，确定最终边界图；

点对点模块，分别与所述边界分支及所述连接模块连接，用于基于所述边界特征图，对所述最终边界图中的边界进行细化，并确定所述样本遥感影像中各像素的预测结果；所述预测结果包括0和1；0代表对应的像素不是宅基地，1代表对应的像素是宅基地；

模型确定模块，分别与所述样本获取单元及所述点对点模块连接，用于根据各样本遥感影像中各像素的预测结果及对应像素的标签信息，确定宅基地识别模型；

识别单元，与所述模型确定模块连接，用于根据待识别遥感影像，基于所述宅基地识别模型，确定所述待识别遥感影像中的宅基地。

可选地，所述初始编码器包括：

第一3×3卷积，与所述样本获取单元连接，用于提取样本遥感影像的特征，得到影像特征图；

第二3×3卷积，与所述第一3×3卷积连接，用于提取所述影像特征图的特征，得到第一初始特征图；

最大池化层，与所述第二3×3卷积连接，用于对所述第一初始特征图进行最大池化操作，得到池化特征图；

瓶颈层，与所述最大池化层连接，用于对所述池化特征图进行维度变换，得到第二初始特征图。

所述细节分支包括：

第一基本块，与所述初始编码器连接，用于提取所述第二初始特征图的底层细节信息，得到第一细节特征图；

第一拼接子模块，分别与所述第一基本块及所述语义分支连接，用于对所述第一语义特征图进行上采样，并与所述第一细节特征图进行拼接，得到第一高分辨率特征图；

第二基本块，与所述拼接子模块连接，用于提取所述第一高分辨率特征图的底层细节信息，得到第二细节特征图；

第二拼接子模块，分别与所述第二基本块及所述语义分支连接，用于对所述第二语义特征图进行上采样，并与所述第二细节特征图进行拼接，得到第二高分辨率特征图；

第三基本块，与所述第二拼接子模块连接，用于提取所述第二高分辨率特征图的底层细节信息，得到第三高分辨率特征图。

根据本发明提供的具体实施例，本发明公开了以下技术效果：首先提取样本遥感影像的特征，得到第一初始特征图和第二初始特征图，然后提取第二初始特征图的底层细节信息和高层语义信息，得到高分辨率特征图和语义特征图，再基于高分辨率特征图提取第一初始特征图的边界信息，对最终边界图中的边界进行细化，确定样本遥感影像中各像素的是否为宅基地，再根据各像素的预测结果及对应像素的标签信息，确定宅基地识别模型，最后基于宅基地识别模型对遥感影像中的宅基地进行识别，通过提取遥感影像的底层细节信息、高层语义信息以及边界信息，确定遥感影像中各像素是否为宅基地，提高了宅基地的识别效率及精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于多分支学习的宅基地识别方法的流程图；

图2为多分支神经网络的结构示意图；

图3为混合尺度模块及空间注意力模块的处理过程示意图；

图4为本发明基于多分支学习的宅基地识别系统的结构示意图；

图5为点对点模块的处理过程示意图。

符号说明：

样本获取单元-1，训练单元-2，初始编码器-21，细节分支-22，语义分支-23，边界分支-24，连接模块-25，点对点模块-26，模型确定模块-27，识别单元-3。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于多分支学习的宅基地识别方法及系统，通过多分支神经网络对遥感影像中各像素的类别进行预测，确定各像素是否是宅基地，以解决现有深度学习模型在遥感图像上提取农村宅基地存在的精度不高、鲁棒性差等问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明基于多分支学习的宅基地识别方法包括：

S1：获取样本图像集。所述样本图像集中包括多张样本遥感影像及各样本遥感影像中各像素的标签信息。所述标签信息包括0和1。1代表对应的像素是宅基地。0代表对应的像素不是宅基地。

S2：对所述样本图像集进行训练，得到宅基地识别模型。具体包括：

S21：针对每张样本遥感影像，通过stem结构提取所述样本遥感影像的初步特征，得到第一初始特征图和第二初始特征图。

S22：提取所述第二初始特征图的底层细节信息，得到高分辨率特征图。

S23：提取所述第二初始特征图的高层语义信息，得到语义特征图。

S24：根据所述高分辨率特征图，提取所述第一初始特征图的边界信息，得到边界特征图。

S25：根据所述高分辨率特征图、所述语义特征图及所述边界特征图，确定最终边界图。

S26：基于所述边界特征图，对所述最终边界图中的边界进行细化，并确定所述样本遥感影像中各像素的预测结果；所述预测结果包括0和1；0代表对应的像素不是宅基地，1代表对应的像素是宅基地。

S27：根据各样本遥感影像中各像素的预测结果及对应像素的标签信息，确定宅基地识别模型。

S3：根据待识别遥感影像，基于所述宅基地识别模型，确定所述待识别遥感影像中的宅基地。

具体地，本发明提供了一种名称为MBN（Multi-Branch Network，多分支神经网络）的神经网络进行样本图像集的训练。如图2所示，多分支神经网络包括初始编码器21、细节分支22、语义分支23、边界分支24及点对点模块26；初始编码器21分别与细节分支22、语义分支23及边界分支24连接；边界分支24还与点对点模块26连接。

初始编码器21包括依次连接的第一3×3卷积、第二3×3卷积、最大池化层和ResNet-50的第一个瓶颈层。步骤S21具体包括：依次通过第一3×3卷积及第二3×3卷积提取所述样本遥感影像的特征，得到第一初始特征图。通过最大池化层对所述第一初始特征图进行最大池化操作，得到池化特征图。通过ResNet-50的第一个瓶颈层对所述池化特征图进行维度变换，得到第二初始特征图。

初始编码器21的主要作用是降低图像分辨率，提取图像初级特征，包括Stem层、步长为2的3×3Maxpool层和ResNet50的第一个瓶颈层，Stem层包括第一3×3卷积和第二3×3卷积。初始编码器21中Stem层采用两个3×3卷积替代了ResNet的7×7下采样卷积模块，在保持相同感受野的同时减少了参数量。其中，第一3×3卷积的步长为2，第二3×3卷积的步长为1。

细节分支22的作用是保持底层信息，例如图像中小对象的边缘和纹理。具体地，所述细节分支22包括第一基本块、第二基本块及第三基本块；所述高分辨率特征图包括第一高分辨率特征图、第二高分辨率特征图及第三高分辨率特征图；所述语义特征图包括第一语义特征图、第二语义特征图、第三语义特征图及第四语义特征图。步骤S22具体包括：

通过所述第一基本块提取所述第二初始特征图的底层细节信息，得到第一细节特征图。对所述第一语义特征图进行上采样，并与所述第一细节特征图进行拼接，得到第一高分辨率特征图。具体地，将第一语义特征图上采样至的第一细节特征图的分辨率。

通过所述第二基本块提取所述第一高分辨率特征图的底层细节信息，得到第二细节特征图。对所述第二语义特征图进行上采样，并与所述第二细节特征图进行拼接，得到第二高分辨率特征图。

通过所述第三基本块提取所述第二高分辨率特征图的底层细节信息，得到第三高分辨率特征图。

基于卷积模的深层神经网络存在一个矛盾：前几个浅层神经网络具有较高的分辨率，可以有效地维持边缘和纹理等低层信息，但感受野狭窄，缺乏图像中的语义信息。随着网络逐渐加深，深层网络感受野增大，语义信息丰富，但图像分辨率低，图像细节信息丢失，边界模糊。对于需要细粒度语义分割的场景来说影响很大。因此，本发明通过细节分支使图像分辨率在下采样四倍后不再降低。通过细节分支与语义分支的交互，可以在维护图像细节信息的同时，充分理解图像的语义信息。

为了降低由于保持图像的高分辨率而导致的计算开销，使用一个简单的步长为1的BasicBlock进行特征提取，即第一基本块、第二基本块和第三基本块均包括多个BasicBlock。

语义分支用于提取图像中的高层信息，从而使算法能够充分理解图像。具体地，所述语义分支包括依次连接的语义特征抽取器、混合尺度模块及空间注意力模块；所述语义特征抽取器包括第四基本块、第五基本块及第六基本块；所述语义特征图还包括最终语义特征图。在本实施例中，语义特征抽取器采用ResNet-34最后三层特征提取的范式，由BasicBlock模块堆叠组成。由于原始的ResNet是为分类任务而设计的，它在最后两层包含全局平均池层和完全连通层，这对基于密集像素的语义分割任务不友好。因此，本发明删除了ResNet-34中最后的全局平均池层和完全连接层，在第四基本块和第五个基本块后连接第六基本块。

具体地，步骤S23具体包括：

通过所述第四基本块提取所述第二初始特征图的语义信息，得到第一语义特征图。将所述第一细节特征图进行下采样，并与所述第一语义特征图拼接，得到第一语义拼接图。具体地，将第一细节特征图下采样到第一语义特征图的分辨率。

通过所述第五基本块提取所述第一语义拼接图的语义信息，得到第二语义特征图。将所述第二细节特征图进行下采样，并与所述第二语义特征图拼接，得到第二语义拼接图。

通过所述第六基本块提取所述第二语义拼接图的语义信息，得到第三语义特征图。将所述第三高分辨率特征图进行下采样，并与所述第三语义特征图拼接，得到第三语义拼接图。具体地，第二初始特征图的大小为512×512，第六基本块输出16倍下采样的特征图，大小为32×32。

通过所述混合尺度模块对第三语义拼接图进行多尺度变换，得到混合尺度特征图。进一步地，如图3所示，所述混合尺度模块包括四组卷积块；第一组卷积块包括一个扩张率r为1的卷积块，相应的感受野为3；第二组卷积块包括扩张率r为1的卷积块及扩张率r为2的卷积块，相应的感受野为7；第三组卷积块包括扩张率r为1的卷积块、扩张率r为2的卷积块及扩张率r为4的卷积块，相应的接收野为15；第四组卷积块包括扩张率r为1的卷积块、扩张率r为2的卷积块、扩张率r为4的卷积块及扩张率r为8的卷积块，相应的感受野为31。具体地，分别通过四组卷积块对所述第三语义拼接图进行尺度变换，得到对应的尺度特征图。将四个尺度特征图进行拼接，得到混合尺度特征图。具体地，将四个尺度特征图进行拼接，用1×1卷积恢复通道数，将1×1卷积后的特征图输入BN层和RELU层，对混合尺度特征进行归一化和激活，得到混合尺度特征图。

通过所述空间注意力模块对所述混合尺度特征图的各像素进行加权，得到最终语义特征图。具体地，将所述混合尺度特征图X∈R^C×H×W输入1×1卷积层，得到第一特征图Q、第二特征图K及第三特征图V。第一特征图Q的通道数为C_q，第二特征图K的通道数为C_k。其中，，。C_q=C_k。第三特征图V的通道数不变，V∈R^C×H×W。 W代表特征的款， H代表特征的高， C代表特征的通道数。

对所述第一特征图Q进行变形并转置，得到第一特征矩阵。首先将第一特征图变形为，然后转置，形状变为 N× C _q。

对所述第二特征图K变形，得到第二特征矩阵，其中， N= H× W。

将所述第一特征矩阵与所述第二特征矩阵相乘，得到第一注意力特征图A。具体地，将第一特征矩阵与第二特征矩阵相乘，通过softmax生成第一注意力特征图。第一注意力特征图A为：。其中，为比例因子，用于防止softmax的反向传播误差为0，以及在方差较大时梯度消失。第一注意力特征图A描述两个空间位置的特征表示的大小，A的值越大，它们之间的相关性就越大。

对所述第三特征图V变形，得到第三特征矩阵。具体地，将第三特征图的形状变为C×N。

将所述第三特征矩阵与所述第一注意力特征图的转置矩阵相乘，得到第二注意力特征图B，B∈R^C×N。

将所述第二注意力特征图中的像素添加到所述混合尺度特征图中，得到最终语义特征图D。具体地，设置一个可学习的参数来调整第二注意力特征图B的权重，并将其形状变为B∈R^C×W×H，将其逐像素添加到混合尺度特征图X中，得到最终语义特征图D，D=×B+X， D∈R^C×W×H。其中，初始化为0，通过不断学习获得最佳值。

注意力机制的灵感来自人类视觉系统，它可以在空间中建立长期依赖关系，被广泛用于计算机视觉任务和自然语言处理任务。自注意力机制是一个起源于自然语言处理的注意力模块，它将不同全局位置的上下文信息关联起来，并通过计算序列中每个位置与其他位置之间的关系来增强信息表示。在计算机视觉中，同样的想法被用来通过自我注意机制聚集图像上下文信息，以突出前景的重要性。由于遥感图像场景复杂，类间相似度高，容易被误分类，而自注意力机制可以有效地解决这一问题。

对于语义分割问题来说，上下文信息对于理解语义信息非常重要。空间注意力机制对混合尺度模块输出的混合尺度特征图的每个位置进行加权，生成最终语义特征图，使模型更加关注前景物体，抑制了背景像素对前景的干扰，增强了目标像素的表示能力，从而实现了对遥感图像中场景环境和语义的理解。

混合尺度模块和空间注意模块均以步长2进行下采样，经过下采样后第六基本块的特征图分辨率是原始图像的1/16倍。最后一个BasicBlock使用步长为1、扩张率为2的空洞卷积来增加感受野，而不降低分辨率。

在本实施例中，细节分支22和语义分支23之间的交互采用简单的maxpool下采样和双线性插值上采样方法。

边界分支24是在细节分支22的基础上，准确提取对象的边界，细化分割结果。边界分支24中保留Stem层的边缘细节信息，使用细节分支22的第一高分辨率特征图、第二高分辨率特征图和第三高分辨率特征图，映射生成边界注意力，并使用边界注意力对Stem的边界特征映射进行加权。步骤S24具体包括：对所述第一初始特征图进行上采样并降维，得到第一边界特征图。具体地，获取Stem层输出的第一初始特征图作为主要特征，向上采样到原始图像大小，并经过1×1卷积层。然后将其输入BasicBlock，并使用1×1卷积将维数降维至原始通道数的一半，得到第一边界特征图。

将所述第一高分辨率特征图的通道降至单通道，并进行上采样到原始图像大小，得到第一单通道特征图。

将所述第一边界特征图与所述第一单通道特征图进行拼接，并生成第一边界注意力。具体地，将第一边界特征图与第一单通道特征图进行拼接，经过BN层和RELU激活后将维度降低至单通道，并使用sigmoid函数生成第一边界注意力 BAM：；其中， x是通道号为1的激活特征图。

根据所述第一边界特征图及所述第一边界注意力，确定第一阶段边界特征图。具体地，根据ResNet的残差范式，从残差函数中提取出当前加权语义信息后的第一阶段边界特征图： R=F( x) *BAM+F( x)。其中， F( x)为第一边界特征图， BAM为第一边界注意力，R是第一阶段边界特征图。

对所述第一阶段边界特征图进行上采样并降维，得到第二边界特征图。将所述第二高分辨率特征图的通道降至单通道，并进行上采样，得到第二单通道特征图。将所述第二边界特征图与所述第二单通道特征图进行拼接，并生成第二边界注意力。根据所述第二边界特征图及所述第二边界注意力，确定第二阶段边界特征图。

对所述第二阶段边界特征图进行上采样并降维，得到第三边界特征图。将所述第三高分辨率特征图的通道降至单通道，并进行上采样，得到第三单通道特征图。将所述第三边界特征图与所述第三单通道特征图进行拼接，并生成第三边界注意力。根据所述第三边界特征图及所述第三边界注意力，确定最终的边界特征图。

语义分割任务中像素的分配是不平衡的。一般来说，位于对象边界上的像素数量较少，且对象主体部分的像素数量远大于边界上的像素数量，这导致语义分割模型缺乏对边界的关注，端到端语义分割模型难以准确识别物体的边缘轮廓。因此，在网络中，仅通过预测主体部分来分割对象是不准确的，本发明提出了一种基于融合模块的边界分支学习算法提高分割对象的准确度。

具体地，步骤S25中，将第三高分辨率特征图及最终语义特征图进行拼接，第三高分辨率特征图的分辨率为4倍分辨率，形成一个特征融合模块，在该模块上学习低层纹理信息和高层语义信息，生成边界特征映射。

步骤S26中，通过点对点模块细化所述最终边界图中的边界，确定所述样本遥感影像中各像素的预测结果。具体地，如图5所示，为了在最终的语义分割结果图上生成更精细的边界，本发明通过PTPM（Point to point module，点对点模块）来细化边界。PTPM的关键是从精确边界中提取预测的准确点与不确定点，并建立这些点与语义分割图的空间关系，得到语义分割图的边界点亲和图。首先从最终边界图中预测的语义边界中选择置信度最高的H个点和另一个置信度最低的H个点，在本实施例中H=2048，然后计算这2H个点的位置坐标，并将它们映射到粗略的语义分割图（最终边界图）上，通过位置坐标进行索引和采样，这样就建立了点对点的空间关系。这些点的矩阵形状为2H×C，其中C是通道数。然后将形状为2H×C的矩阵输入到PTPM中进行重新预测，通过损失函数的反向传播更新MLP的参数，迭代得到边界点的正确类别掩膜图。最后，将正确的边界点重新映射到粗略的语义分割图上，得到精细的结果。需要注意的是，PTPM的优化网络是一个由1×1卷积组成的全连接网络，也可以理解为MLP结构。

步骤S27具体包括：根据各像素的预测结果及对应像素的标签信息，确定损失函数，并根据所述损失函数对语义分支23及边界分支24进行迭代训练，直至损失函数收敛，以得到最优的多分支神经网络，最优的多分支神经网络为宅基地识别模型。

本发明的宅基地识别方法架构属于多任务学习，大致可以分为细节语义任务和边界任务。损失函数由两部分组成：语义损失和边界损失。本发明的损失函数设计在特征图的最后一层。

具体地，采用加权交叉熵损失函数来作为语义损失函数，其公式为：

；

其中， weighted为不同类别的权重， I _bce为交叉熵损失函数值， ω是对正样本加权的参数，1- ω是对负样本加权的参数。 ω=0.85，同时，1- ω=0.15， y _n表示第 n个像素是否属于宅基地。如果属于宅基地，则 y _n=1，否则 y _n=0。 p _n表示预测结果中第 n个像素是宅基地的概率。

边界分支的损失函数由两部分组成：一部分是加权交叉熵损失函数，另一部分是骰子损失，目的是得到一个清晰的边界。边界像素和非边界像素之间存在严重的不平衡。为了避免数据不平衡导致的训练崩溃，加权交叉熵损失函数公式与语义损失函数公式相同，将边界损失的权重设置为：

；

其中， y _n=1表示边界像素， N _{none-boundary}表示非边界像素数， N _all表示总像素数， N _boundary表示边界像素数。

由于边界和非边界的像素数量严重不平衡，以及上采用过程中的最近邻插值，最终预测的边界很粗，不够清晰。理想的边界由单个像素组成，过厚的边界会导致分割结果不准确。本发明将骰子损失添加到边界损失函数中，以确保边界的形状与真实标签一致，从而使预测的边界更细。骰子损失的基本表达式为：

；

其中， I _dice为筛子损失值，N表示图像中的像素总数， y _i表示第 i个像素是否属于宅基地。如果属于宅基地，则 y _i=1，否则 y _i=0。 p _i表示预测结果中第 i个像素是宅基地的概率。

为了约束多分支学习的一致性，本发明为每个损失函数分配权重并将它们相加得到最终的联合损失函数，定义如下：

I _overal= ω ₁ ·I _bce( mask) +ω ₂ ·I _bce( boundary) +ω ₃ ·I _dice；

其中， I _overal为联合损失函数值， ω ₁是语义分支损失的权重， ω ₂和 ω ₃是边界损失的权重。在本实施例中， ω ₁=1， ω ₂=25， ω ₃=1。 I _bce( mask)为语义分支的二分类交叉熵损失函数， I _bce( boundary)表示边界分支的二分类交叉熵损失函数， I _dice为筛子损失值。

以下通过实验验证本发明基于多分支学习的宅基地识别方法的准确度。

样本图像集为0.2米无人机航飞影像，覆盖了德清县全县域。遥感影像具有丰富的地貌特征，包括山地地貌、丘陵地貌和平原地貌。不同地貌下宅基地的分布和特征是不同的。根据地貌特征划分单独的数据集进行分析和比较。原始遥感图像用LabelMe标记生成标签文件。为了训练边界分支，通过距离图变换方法生成真实值。

由于图形处理器内存无法容纳大尺寸的遥感图像和标签，将图像裁剪为512×512像素。考虑到数据集中存在数据不平衡和多尺度问题，为了扩大数据集，裁剪策略分为两个步骤：

1.从图像左上角开始，裁剪滑动步数为256，裁剪到一定区域时，背景像素数/总像素数<=0.92，则减少滑动步数减半，否则滑动步数乘以0.9再向上取整。

2.在图像中随机裁剪，如果背景像素数/总像素数<=0.9，则保留，否则丢弃。

对于每张裁剪后的图像，在训练时按照一定的概率进行数据增强，包括随机缩放、随机水平垂直翻转、随机椒盐噪声、随机颜色抖动等。

本发明所有的实验都是基于Pytorch框架实现的，模型没有经过预训练，而是使用He_normal方法初始化网络。选择带动量的SGD（stochastic gradient descent，随机梯度下降）算法作为优化器，将动量设置为0.9，初始学习率设置为1e-2，学习率衰减遵循以下规则：

；

其中， lr为本次的学习率， base_lr为上次更新的学习率， cur_iters为当前步数， max_iters为总训练步数， power的值设置为0.9。

所有实验均在具有128GB RAM和6×16GB Tesla P100 GPU的Linux服务器上处理。每个图形处理器上的批大小为4，每次训练的批大小为16。

本发明的评价结果mIoU均大于80%，达到了较好的效果。

如图4所示，本发明基于多分支学习的宅基地识别系统包括：样本获取单元1、训练单元2及识别单元3。

其中，所述样本获取单元1用于获取样本图像集。所述样本图像集中包括多张样本遥感影像及各样本遥感影像中各像素的标签信息；所述标签信息包括0和1；1代表对应的像素是宅基地；0代表对应的像素不是宅基地。

所述训练单元2与所述样本获取单元1连接，所述训练单元2用于对所述样本图像集进行训练，得到宅基地识别模型。

在本实施例中，训练单元2即多分支神经网络的训练过程。具体地，训练单元2包括初始编码器21、细节分支22、语义分支23、边界分支24、连接模块25、点对点模块26及模型确定模块27。

其中，所述初始编码器21与所述样本获取单元1连接，所述初始编码器21用于提取样本遥感影像的初步特征，得到第一初始特征图和第二初始特征图。

所述细节分支22与所述初始编码器21连接，所述细节分支22用于提取所述第二初始特征图的底层细节信息，得到高分辨率特征图。

所述语义分支23与所述初始编码器21连接，所述语义分支23用于提取所述第二初始特征图的高层语义信息，得到语义特征图。

所述边界分支24分别与所述初始编码器21及所述细节分支22连接，所述边界分支24用于根据所述高分辨率特征图，提取所述第一初始特征图的边界信息，得到边界特征图。

所述连接模块25分别与所述细节分支22、所述语义分支23及所述边界分支24连接，所述连接模块25用于根据所述高分辨率特征图、所述语义特征图及所述边界特征图，确定最终边界图。

所述点对点模块26分别与所述边界分支24及所述连接模块25连接，所述点对点模块26用于基于所述边界特征图，对所述最终边界图中的边界进行优化，并确定对应的样本遥感影像中各像素的的预测结果；预测结果为0或1，0代表对应的像素不是宅基地，1代表对应的像素是宅基地。

所述模型确定模块27分别与所述样本获取单元1及所述点对点模块26连接，所述模型确定模块27用于根据各样本遥感影像中各像素的预测结果及对应像素的标签信息，确定宅基地识别模型。

所述识别单元3与所述模型确定模块27连接，所述识别单元3用于根据待识别遥感影像，基于所述宅基地识别模型，确定所述待识别遥感影像中的宅基地。

进一步地，所述高分辨率特征图包括第一高分辨率特征图、第二高分辨率特征图及第三高分辨率特征图；所述语义特征图包括第一语义特征图、第二语义特征图、第三语义特征图及第四语义特征图。

在本实施例中，所述细节分支22包括：第一基本块、第一拼接子模块、第二基本块、第二拼接子模块及第三基本块。

所述第一基本块与所述初始编码器21连接，所述第一基本块用于提取所述第二初始特征图的底层细节信息，得到第一细节特征图。

所述第一拼接子模块分别与所述第一基本块及所述语义分支23连接，所述第一拼接子模块用于对所述第一语义特征图进行上采样，并与所述第一细节特征图进行拼接，得到第一高分辨率特征图。

所述第二基本块与所述拼接子模块连接，所述第二基本块用于提取所述第一高分辨率特征图的底层细节信息，得到第二细节特征图。

所述第二拼接子模块分别与所述第二基本块及所述语义分支23连接，所述第二拼接子模块用于对所述第二语义特征图进行上采样，并与所述第二细节特征图进行拼接，得到第二高分辨率特征图。

所述第三基本块与所述第二拼接子模块连接，所述第三基本块用于提取所述第二高分辨率特征图的底层细节信息，得到第三高分辨率特征图。

相对于现有技术，本发明基于多分支学习的宅基地识别系统与上述基于多分支学习的宅基地识别方法的有益效果相同，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多分支学习的宅基地识别方法，其特征在于，所述基于多分支学习的宅基地识别方法包括：

针对每张样本遥感影像，通过stem结构提取所述样本遥感影像的初步特征，得到第一初始特征图和第二初始特征图，具体包括：依次通过两个3×3卷积提取所述样本遥感影像的特征，得到第一初始特征图；通过最大池化层对所述第一初始特征图进行最大池化操作，得到池化特征图；通过ResNet-50的第一个瓶颈层对所述池化特征图进行维度变换，得到第二初始特征图；

2.根据权利要求1所述的基于多分支学习的宅基地识别方法，其特征在于，所述高分辨率特征图包括第一高分辨率特征图、第二高分辨率特征图及第三高分辨率特征图；所述语义特征图包括第一语义特征图、第二语义特征图、第三语义特征图及第四语义特征图；

采用第一基本块提取所述第二初始特征图的底层细节信息，得到第一细节特征图；

采用第二基本块提取所述第一高分辨率特征图的底层细节信息，得到第二细节特征图；

采用第三基本块提取所述第二高分辨率特征图的底层细节信息，得到第三高分辨率特征图；第一基本块、第二基本块和第三基本块均包括多个BasicBlock。

3.根据权利要求2所述的基于多分支学习的宅基地识别方法，其特征在于，所述语义特征图还包括最终语义特征图；

采用第四基本块提取所述第二初始特征图的语义信息，得到第一语义特征图；

采用第五基本块提取所述第一语义拼接图的语义信息，得到第二语义特征图；

采用第六基本块提取所述第二语义拼接图的语义信息，得到第三语义特征图；所述第四基本块、第五基本块及第六基本块均包括多个BasicBlock；

4.根据权利要求3所述的基于多分支学习的宅基地识别方法，其特征在于，所述对所述第三语义拼接图进行多尺度变换，得到混合尺度特征图，具体包括：

依次采用扩张率为1的卷积块及扩张率为2的卷积块对所述第三语义拼接图进行尺度变换，得到第二尺度特征图；

依次采用扩张率为1的卷积块、扩张率为2的卷积块及扩张率为4的卷积块对所述第三语义拼接图进行尺度变换，得到第三尺度特征图；

依次采用扩张率为1的卷积块、扩张率为2的卷积块、扩张率为4的卷积块及扩张率为8的卷积块对所述第三语义拼接图进行尺度变换，得到第四尺度特征图；

5.根据权利要求3所述的基于多分支学习的宅基地识别方法，其特征在于，所述基于空间注意力机制对所述混合尺度特征图的各像素进行加权，得到最终语义特征图，具体包括：

对所述第一特征图进行变形并转置，得到第一特征矩阵；

对所述第二特征图变形，得到第二特征矩阵；

对所述第三特征图变形，得到第三特征矩阵；

6.根据权利要求2所述的基于多分支学习的宅基地识别方法，其特征在于，所述根据所述高分辨率特征图，提取所述第一初始特征图的边界信息，得到边界特征图，具体包括：

7.一种基于多分支学习的宅基地识别系统，其特征在于，所述基于多分支学习的宅基地识别系统包括：

所述训练单元包括：

8.根据权利要求7所述的基于多分支学习的宅基地识别系统，其特征在于，所述初始编码器包括：

9.根据权利要求7所述的基于多分支学习的宅基地识别系统，其特征在于，所述高分辨率特征图包括第一高分辨率特征图、第二高分辨率特征图及第三高分辨率特征图；所述语义特征图包括第一语义特征图、第二语义特征图、第三语义特征图及第四语义特征图；

所述细节分支包括：

第三基本块，与所述第二拼接子模块连接，用于提取所述第二高分辨率特征图的底层细节信息，得到第三高分辨率特征图；第一基本块、第二基本块和第三基本块均包括多个BasicBlock。