CN112232328A

CN112232328A - 基于卷积神经网络的遥感影像建筑区提取方法、装置

Info

Publication number: CN112232328A
Application number: CN202011488322.7A
Authority: CN
Inventors: 陈一祥; 元玉梅; 成行
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-01-15

Abstract

本发明公开了一种基于卷积神经网络的遥感影像建筑区提取方法、装置，包括：获取遥感影像样本数据作为训练集和验证集，样本数据包括网格划分的建筑区标签和非建筑区标签；使用训练集和验证集对遥感影像建筑区识别模型进行训练；遥感影像建筑区识别模型基于密集连接和注意力机制构建的卷积神经网络；采用遥感影像建筑区识别模型，对网格划分后的测试影像进行分类得到建筑区二值图；对测试影像中的网格进行再划分或/和网格平移后重新分类，将得到的建筑区二值图进行融合，得到精细化建筑区结果图。采用上述方案，采用二分类方式对建筑区进行提取，通过减少模型参数量来降低模型训练的复杂度，实现高分辨率遥感影像建筑区的高精度和高效率的提取。

Description

基于卷积神经网络的遥感影像建筑区提取方法、装置

技术领域

本发明涉及遥感影像分类领域，尤其涉及一种基于卷积神经网络的遥感影像建筑区提取方法、装置。

背景技术

建筑区是重要的人工地物目标，是人类从事生产和生活主要场所。及时准确地获取建筑区信息对于城市地理数据库的实时更新、城市动态监测、城市规划等应用具有重要的作用。

现有技术中的建筑区提取方法是先利用人工设计特征，比如建筑区的纹理特征和空间结构特征来实现建筑区的表示，然后利用监督或非监督分类方法实现建筑区的提取。然而，对于高分辨率遥感影像，建筑区的光谱、纹理和空间结构都异常复杂，人为设计有效的特征提取方法不仅困难，也很难适应复杂的影像场景。因此，采用基于底层特征提取的传统建筑区提取方法在准确率和召回率方面都难以获得令人满意的结果。

近年来，深度学习的出现为高分辨率遥感影像建筑区的自动提取提供新的思路。利用深度学习能够从复杂的原始数据中获得目标特征的多层次表示，并将特征学习融入到建立模型的过程中，从而减少了人为设计特征造成的不完备性

尽管目前深度学习已被用于高分辨遥感影像建筑区的检测，但是已有的方法使用的主要是经典的深度学习框架，框架模型主要是针对具有多个类（比如1000个）的自然场景的图像识别而设计，模型参数量巨大，必须需要大规模的训练样本才能对模型进行充分训练，同时模型复杂度较高，训练周期长且效率低，最终的检测结果也不尽如人意。

发明内容

发明目的：本发明旨在提供一种基于卷积神经网络的遥感影像建筑区提取方法、装置，采用二分类方式对建筑区进行提取，通过减少模型参数量来降低模型训练的复杂度，最终实现高分辨率遥感影像建筑区的高精度和高效率的提取。

技术方案：本发明提供一种基于卷积神经网络的遥感影像建筑区提取方法，包括：

获取遥感影像样本数据作为训练集和验证集，样本数据包括网格划分的建筑区标签和非建筑区标签；

使用训练集和验证集对遥感影像建筑区识别模型进行训练；所述遥感影像建筑区识别模型基于密集连接和注意力机制构建的卷积神经网络；

采用所述遥感影像建筑区识别模型，对网格划分后的测试影像进行分类得到建筑区二值图；

对所述测试影像中的网格进行再划分或/和网格平移后重新分类，将得到的建筑区二值图进行融合，得到精细化建筑区结果图。

具体的，若建筑区超过所在网格面积的一半，则所在网格标上建筑区标签；若建筑区没有超过所在网格面积的一半，则所在网格标上非建筑区标签。

具体的，所述遥感影像建筑区识别模型包括：

用于遥感影像预处理的基本卷积操作层包括卷积层、批归一化层和池化层；

用于提取遥感影像图像特征的特征提取模块包括密集连接块、注意力机制块和特征降维块，所述密集连接块包括四个组合函数，每个组合函数依次包括BN、ReLU、1x1 Conv、BN、ReLU和3x3 Conv，每个组合函数中特征图像的增长率为16，所述注意力机制块包括上分支的通道注意力和下分支的空间注意力；特征提取模块设置有三个；

用于图像特征后处理的后处理模块包括批归一化层、全局平均池化层和Softmax分类器。

具体的，将密集连接块得到的特征图像输入通道注意力分支，对输入的特征图像依次进行全局平均池化，两次全连接层分别使用ReLu激活函数进行非线性操作和使用Sigmoid激活函数提取注意力权重，将注意力权重和输入的特征图像相乘，将得到的增强特征图像经过1x1卷积后与输入的特征图像加权融合。

具体的，将密集连接块得到的特征图像输入空间注意力分支，对输入的特征图像依次进行批归一化，使用1x1卷积对局部区域分配权重，通过ReLu激活函数，与输入的特征图像进行矩阵相乘，经过softmax归一化得到每个位置相对于其他位置的注意力图，将注意力图中响应值作为加权对输入的特征图像进行加权融合；

将通道注意力分支得到的结果和空间注意力分支得到的结果相加，作为注意力机制块的最后结果。

具体的，将注意力机制块得到的特征图像输入特征降维块，采用包括BN、ReLU、1x1Conv、2x2 AvgPooling的结构进行压缩，使得输出的特征图像长宽尺寸为输入图像长宽尺寸的一半。

具体的，将特征降维块输出的特征图像再次输入特征提取模块两次，将之后输出的特征图像输入后处理模块。

具体的，对测试影像进行重新网格划分后再次分类得到建筑区二值图，或/和将测试影像进行网格平移后再次分类得到建筑区二值图；

将获取的所有建筑区二值图进行重叠，若重叠部分每个建筑区二值图中的取值不同，取其中占多数的作为重叠部分的取值，确定测试影像中建筑区的区域，形成精细化建筑区结果图。

本发明还提供一种基于卷积神经网络的遥感影像建筑区提取装置，包括：样本获取单元、训练单元、第一测试单元和第二测试单元，其中：

所述样本获取单元，用于获取遥感影像样本数据作为训练集和验证集，样本数据包括网格划分的建筑区标签和非建筑区标签；

所述训练单元，用于使用训练集和验证集对遥感影像建筑区识别模型进行训练；所述遥感影像建筑区识别模型基于密集连接和注意力机制构建的卷积神经网络；

所述第一测试单元，用于采用所述遥感影像建筑区识别模型，对网格划分后的测试影像进行分类得到建筑区二值图；

所述第二测试单元，用于对所述测试影像中的网格进行再划分或/和网格平移后重新分类，将得到的建筑区二值图进行融合，得到精细化建筑区结果图。

具体的，所述遥感影像建筑区识别模型中，用于提取遥感影像图像特征的特征提取模块包括密集连接块、注意力机制块和特征降维块，所述密集连接块包括四个组合函数，每个组合函数依次包括BN、ReLU、1x1 Conv、BN、ReLU和3x3 Conv，每个组合函数中特征图像的增长率为16，所述注意力机制块包括上分支的通道注意力和下分支的空间注意力；

所述训练单元，用于将密集连接块得到的特征图像输入通道注意力分支，对输入的特征图像依次进行全局平均池化，两次全连接层分别使用ReLu激活函数进行非线性操作和使用Sigmoid激活函数提取注意力权重，将注意力权重和输入的特征图像相乘，将得到的增强特征图像经过1x1卷积后与输入的特征图像加权融合；将密集连接块得到的特征图像输入空间注意力分支，对输入的特征图像依次进行批归一化，使用1x1卷积对局部区域分配权重，通过ReLu激活函数，与输入的特征图像进行矩阵相乘，经过softmax归一化得到每个位置相对于其他位置的注意力图，将注意力图中响应值作为加权对输入的特征图像进行加权融合；将通道注意力分支得到的结果和空间注意力分支得到的结果相加，作为注意力机制块的最后结果。

有益效果：与现有技术相比，本发明具有如下显著优点：需要的训练样本数量少，模型参数较少，训练周期短且效率高，但可以实现遥感影像建筑区的高精度和高效率的提取。

附图说明

图1为本发明提供的基于卷积神经网络的遥感影像建筑区提取方法的流程示意图；

图2为本发明提供的注意力机制块的结构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

参阅图1，其为本发明提供的基于卷积神经网络的遥感影像建筑区提取方法的流程示意图。

步骤1，获取遥感影像样本数据作为训练集和验证集，样本数据包括网格划分的建筑区标签和非建筑区标签。

本发明实施例中，若建筑区超过所在网格面积的一半，则所在网格标上建筑区标签；若建筑区没有超过所在网格面积的一半，则所在网格标上非建筑区标签。

在具体实施中，建筑区通常指存在有人工建筑物的区域。可以选用一幅或多副大范围的高分辨率遥感影像，以此生成所需的样本数据。首先，选取包含建筑区和非建筑区地物类的高分辨率遥感影像；接着，对选取的遥感影像进行规则的格网划分，若某网格内建筑区的面积占该网格面积的一半以上，则给该网格打上建筑区标签，否则为非建筑区标签；然后对样本数据通过变换进行扩充，获得容量扩充的样本数据；最后可以将扩充的样本数据按照5：1划分为训练集和验证集，视实际应用场景的不同，划分比例可以变化。

步骤2，使用训练集和验证集对遥感影像建筑区识别模型进行训练；所述遥感影像建筑区识别模型基于密集连接和注意力机制构建的卷积神经网络。

本发明实施例中，所述遥感影像建筑区识别模型包括用于遥感影像预处理的基本卷积操作层包括卷积层、批归一化层和池化层；

用于提取遥感影像图像特征的特征提取模块包括密集连接块、注意力机制块和特征降维块，所述密集连接块包括四个组合函数，每个组合函数依次包括BN、ReLU、1x1 Conv、BN、ReLU和3x3 Conv，每个组合函数中特征图像的增长率为16，所述注意力机制块包括上分支的通道注意力和下分支的空间注意力；在识别模型中可以设置有三个相同的特征提取模块；

本发明实施例中，所述遥感影像建筑区识别模型进行训练的过程包括：

（1）将训练数据输入识别模型，输入RGB图像长宽尺寸定为112×112，经过卷积核大小为3×3的卷积层，批归一化层和池化层进行预处理后，输出的特征图像长宽尺寸为原图像长宽尺寸的1/2；

（2）将输出的特征图像输入到密集连接块，采用四个组合函数，每个组合函数结构中特征图像的增长率为16，使得输出的特征图像个数比输入图像增加64，即每经过一个密集连接块，输出的特征图像个数便比输入图像增加64；提升模型对于样本数据的学习程度，进而可以提升最终的检测结果；

参阅图2，其为本发明提供的注意力机制块的结构示意图。

（3）将密集连接块输出的特征图像输入通道注意力分支，对输入的特征图像依次进行全局平均池化（GAP），两次全连接层（fc）分别使用ReLu激活函数进行非线性操作和使用Sigmoid激活函数提取注意力权重，将注意力权重和输入的特征图像相乘以增强通道信息，将得到的增强特征图像经过1x1卷积（1x1Conv layer）后与输入的特征图像加权融合，使得各个通道之间能产生全局的关联，获得更强的语义响应特征；

将密集连接块输出的特征图像输入空间注意力分支，对输入的特征图像依次进行批归一化（Batch Normalization），使用1x1卷积对不同的局部区域分配不同的权重，通过ReLu激活函数，使其具有非线性特征表示能力，接着与输入的特征图像进行矩阵乘积获得任意两点特征之间的关联强度，经过softmax操作归一化得到每个位置相对于其他位置的注意力图（attention图），将注意力图中响应值作为加权对输入的特征图像进行加权融合；

（4）将经过注意力机制块得到的特征图像输入到特征降维块，采用BN+ReLU+1x1Conv+2x2 AvgPooling结构对模型进行压缩，使得输出的特征图像长宽尺寸为其输入图像长宽尺寸的1/2，即每经过一个特征降维块，输出特征图像长宽尺寸便缩减为输入图像长宽尺寸的1/2；

（5）将输出特征图像依次按照（2）、（3）、（4）经过第二个密集连接块、注意力机制块、特征降维块以及第三个密集连接块、注意力机制块和特征降维块对图像进行特征提取，也即将特征降维块输出的特征图像再次输入特征提取模块两次，将之后输出的特征图像输入后处理模块；

（6）将提取的特征图像进行批归一化及全局平均池化后进行Softmax分类。

在具体实施中，由于模型仅需要进行2种类型的分类，也即建筑区和非建筑区，相比现有技术中针对具有多个类（比如1000个）的自然场景的图像识别而设计，模型参数量巨大，本发明提供的方案用二分类方式对建筑区进行提取，通过减少模型参数量来降低模型训练的复杂度，最终实现高分辨率遥感影像建筑区的高精度和高效率的提取。

在具体实施中，识别模型有效利用了卷积神经网络每个部分产生的特征，并通过双重注意力机制自适应地将局部特征与全局依赖关系相结合。具体来说，空间注意力通过所有位置的特征加权总和选择性地聚集每个位置的特征，无论距离远近，相似的特征都会相互关联，同时，通道注意力通过整合所有通道图中的相关特征，有选择地强调相互关联的通道图，然后将两个注意力分支的输出相加融合，以进一步改进特征表示。通过提取的局部与全局、浅层与深层特征更有效地完成了建筑区分类。

步骤3，采用所述遥感影像建筑区识别模型，对网格划分后的测试影像进行分类得到建筑区二值图。

步骤4，对所述测试影像中的网格进行再划分或/和网格平移后重新分类，将得到的建筑区二值图进行融合，得到精细化建筑区结果图。

本发明实施例中，对所述测试影像中的网格进行再划分或/和网格平移后重新分类，将得到的建筑区二值图进行融合，得到精细化建筑区结果图的过程，包括：

对测试影像进行重新网格划分后再次分类得到建筑区二值图，或/和将测试影像进行网格平移后再次分类得到建筑区二值图；

将获取的所有建筑区二值图进行重叠，若重叠部分每个建筑区二值图中的取值不同，取其中占多数的取值作为重叠部分的取值，确定测试影像中建筑区的区域，形成精细化建筑区结果图。

在具体实施中，可以将测试影像进行至少两个尺寸的网格划分，划分后即可以进行使用模型重新分类，可以对每种网格划分进行至少两次网格平移，平移距离和方向可以依据实际情况确定，根据平移后的网格对测试影像划分得到的网格，对获得的每个网格内的遥感影像进行分类分类，获得每种尺寸和平移下的建筑区二值图，最后按照获得的建筑区二值图重叠部分网格中取值的情况融合不同尺度和平移下的建筑区二值图，确定测试影像中建筑区的区域，仅保留其中建筑区区域的网格边界，获得精细化建筑区结果图。

本发明提供一种基于卷积神经网络的遥感影像建筑区提取装置，包括：样本获取单元、训练单元、第一测试单元和第二测试单元，其中：

本发明实施例中，所述样本获取单元，用于若建筑区超过所在网格面积的一半，则所在网格标上建筑区标签；若建筑区没有超过所在网格面积的一半，则所在网格标上非建筑区标签。

本发明实施例中，所述遥感影像建筑区识别模型包括：

本发明实施例中，所述训练单元，用于所述训练单元，用于将密集连接块得到的特征图像输入通道注意力分支，对输入的特征图像依次进行全局平均池化，两次全连接层分别使用ReLu激活函数进行非线性操作和使用Sigmoid激活函数提取注意力权重，将注意力权重和输入的特征图像相乘，将得到的增强特征图像经过1x1卷积后与输入的特征图像加权融合；将密集连接块得到的特征图像输入空间注意力分支，对输入的特征图像依次进行批归一化，使用1x1卷积对局部区域分配权重，通过ReLu激活函数，与输入的特征图像进行矩阵相乘，经过softmax归一化得到每个位置相对于其他位置的注意力图，将注意力图中响应值作为加权对输入的特征图像进行加权融合；将通道注意力分支得到的结果和空间注意力分支得到的结果相加，作为注意力机制块的最后结果。

本发明实施例中，所述训练单元，用于将注意力机制块得到的特征图像输入特征降维块，采用包括BN、ReLU、1x1 Conv、2x2 AvgPooling的结构进行压缩，使得输出的特征图像长宽尺寸为输入图像长宽尺寸的一半。

本发明实施例中，所述训练单元，用于将特征降维块输出的特征图像再次输入特征提取模块两次，将之后输出的特征图像输入后处理模块。

本发明实施例中，所述第二测试单元，用于对测试影像进行重新网格划分后再次分类得到建筑区二值图，或/和将测试影像进行网格平移后再次分类得到建筑区二值图；

Claims

1.一种基于卷积神经网络的遥感影像建筑区提取方法，其特征在于，包括：

2.根据权利要求1所述的基于卷积神经网络的遥感影像建筑区提取方法，其特征在于，所述样本数据包括网格划分的建筑区标签和非建筑区标签，包括：

若建筑区超过所在网格面积的一半，则所在网格标上建筑区标签；若建筑区没有超过所在网格面积的一半，则所在网格标上非建筑区标签。

3.根据权利要求1所述的基于卷积神经网络的遥感影像建筑区提取方法，其特征在于，所述遥感影像建筑区识别模型基于密集连接和注意力机制构建的卷积神经网络，包括：

4.根据权利要求3所述的基于卷积神经网络的遥感影像建筑区提取方法，其特征在于，所述使用训练集和验证集对遥感影像建筑区识别模型进行训练，包括：

将密集连接块得到的特征图像输入通道注意力分支，对输入的特征图像依次进行全局平均池化，两次全连接层分别使用ReLu激活函数进行非线性操作和使用Sigmoid激活函数提取注意力权重，将注意力权重和输入的特征图像相乘，将得到的增强特征图像经过1x1卷积后与输入的特征图像加权融合。

5.根据权利要求4所述的基于卷积神经网络的遥感影像建筑区提取方法，其特征在于，所述使用训练集和验证集对遥感影像建筑区识别模型进行训练，包括：

将密集连接块得到的特征图像输入空间注意力分支，对输入的特征图像依次进行批归一化，使用1x1卷积对局部区域分配权重，通过ReLu激活函数，与输入的特征图像进行矩阵相乘，经过softmax归一化得到每个位置相对于其他位置的注意力图，将注意力图中响应值作为加权对输入的特征图像进行加权融合；

6.根据权利要求5所述的基于卷积神经网络的遥感影像建筑区提取方法，其特征在于，所述使用训练集和验证集对遥感影像建筑区识别模型进行训练，包括：

将注意力机制块得到的特征图像输入特征降维块，采用包括BN、ReLU、1x1 Conv、2x2AvgPooling的结构进行压缩，使得输出的特征图像长宽尺寸为输入图像长宽尺寸的一半。

7.根据权利要求6所述的基于卷积神经网络的遥感影像建筑区提取方法，其特征在于，所述使用训练集和验证集对遥感影像建筑区识别模型进行训练，包括：

将特征降维块输出的特征图像再次输入特征提取模块两次，将之后输出的特征图像输入后处理模块。

8.根据权利要求1所述的基于卷积神经网络的遥感影像建筑区提取方法，其特征在于，所述对所述测试影像中的网格进行再划分或/和网格平移后重新分类，将得到的建筑区二值图进行融合，得到精细化建筑区结果图，包括：

9.一种基于卷积神经网络的遥感影像建筑区提取装置，其特征在于，包括：样本获取单元、训练单元、第一测试单元和第二测试单元，其中：

10.根据权利要求9所述的基于卷积神经网络的遥感影像建筑区提取装置，其特征在于，所述遥感影像建筑区识别模型中，用于提取遥感影像图像特征的特征提取模块包括密集连接块、注意力机制块和特征降维块，所述密集连接块包括四个组合函数，每个组合函数依次包括BN、ReLU、1x1 Conv、BN、ReLU和3x3 Conv，每个组合函数中特征图像的增长率为16，所述注意力机制块包括上分支的通道注意力和下分支的空间注意力；