CN117612024A

CN117612024A - 一种基于多尺度注意力的遥感图像屋顶识别方法及系统

Info

Publication number: CN117612024A
Application number: CN202311576224.2A
Authority: CN
Inventors: 陈猛; 吴云; 沈玉兰; 周竞; 殷毓灿; 孔赟; 褚鸿飞; 杜杰; 洪艳; 马艺超
Original assignee: Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd
Current assignee: Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-27
Anticipated expiration: 2043-11-23
Also published as: CN117612024B

Abstract

本发明公开了一种基于多尺度注意力的遥感图像屋顶识别方法及系统，包括以下步骤：步骤(1)：对遥感图像进行数据预处理，获取标准化图像数据；步骤(2)：基于标准化图像数据，构建主干网络提取遥感图像的特征；步骤(3)：基于遥感图像的特征，构建空间注意力单元、高频特征单元以及多尺度交互单元；采用U型结构对图像进行逐层的上采样恢复；步骤(4)：基于步骤(1)‑(3)形成遥感图像屋顶识别模型，并利用数据集训练模型；步骤(5)：基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。本发明通过构建遥感图像屋顶识别模型,提高屋顶检测的准确率。

Description

一种基于多尺度注意力的遥感图像屋顶识别方法及系统

技术领域

本发明涉及遥感图像屋顶识别网络，特别是一种基于多尺度注意力的遥感图像屋顶识别方法及系统。

背景技术

建筑物是高分辨率卫星图像中一个突出的人造特征。检测建筑物屋顶的数量、类型和形状是进行各种其他决策任务的先决程序。例如，评估农村地区的屋顶是评估太阳能发电潜力和太阳能光伏系统规模的一项重要任务。但由于航空和卫星图像的质量、照明条件和分辨率存在差异，该项任务非常具有挑战性。此外，屋顶难以被发现的一个重要原因是，它们具有复杂的形状、大小以及颜色，很容易与尘土和未铺砌的道路等特征混淆。

利用遥感技术对建筑物进行自动检测已被广泛认为是一种有效的方法，该类方法能够及时提供大规模的各类建筑物的有效数据。现有的主流方法是通过结合各种图像分割技术来识别真实屋顶类型。机器学习方法在近年来的研究中得到了广泛的应用，例如支持向量机SVM、最大似然分类器MLC和随机森林RF等。然而，随着遥感观测技术的发展，这些方法往往难以用于现有的更复杂、更高维的图像数据上。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

本发明的技术方案是：一种基于多尺度注意力的遥感图像屋顶识别方法，包括以下步骤：

步骤(1)：对遥感图像进行数据预处理，获取标准化图像数据；

步骤(2)：基于标准化图像数据，构建主干网络提取遥感图像的特征；

步骤(3)：基于遥感图像的特征，构建空间注意力单元、高频特征单元以及多尺度交互单元；采用U型结构对图像进行逐层的上采样恢复；

步骤(4)：基于步骤(1)-(3)形成遥感图像屋顶识别模型，并利用数据集训练模型；

步骤(5)：基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。

步骤(1)中：遥感图像包括若干组样本，每组样本包含一幅卫星航拍图像和对应的建筑屋顶标签图；

将每组样本的图像和对应的标签图裁剪成512×512像素大小，采用随机水平翻转、随机竖直翻转和随机旋转操作进行数据增强，并对图像进行归一化，将像素值缩放到0到1之间。

步骤(2)中：构建ResNet34作为主干网络，ResNet34整体架构包括连续的五个阶段，第一阶段采用步长为2的7×7卷积和步长为2的3×3最大池化对输入图像进行4倍快速下采样，后四个阶段包括四个残差层，用于逐层提取图像特征。

步骤(3)中：获取后四个阶段所提取到的图像特征，分别表示为C2、C3、C4和C5；基于后四个阶段的特征表示，构建空间注意力单元、高频特征单元以及多尺度交互单元。

所述空间注意力单元的数学表达式公式(1)所示：

Y＝X⊙σ(Conv3(MP(X)||AP(X))) (1)

其中，X表示输入特征，Y表示输出特征，MP和AP分别表示最大池化操作和平均池化操作，||表示Concat操作，Conv3表示3×3卷积，σ表示Sigmoid激活函数，⊙表示矩阵哈达玛积。

所述高频特征单元的数学表达式如公式(2)-(4)所示：

X_e＝Conv3(X) (2)

X_d＝X_e-Up(MHSA(AP(X_e))) (3)

Y＝Conv3(X_e||X_d) (4)

其中，X表示输入特征，Y表示输出特征，X_e和X_d分别表示浅层特征表示和高频特征表示，Conv3表示3×3卷积，AP表示平均池化操作，MHSA表示多头自注意力机制，Up表示上采样操作，||表示Concat操作。

所述多尺度交互单元的数学表达式如公式(5)-(6)所示：

X_t＝Cp(Conv1(X_C3)，Conv1(X_C4)，Conv1(X_C5)) (5)

Y_C3，Y_C4，Y_C5＝Dcp(MHSA(X_t)) (6)

其中，X_t表示耦合特征，X_C3，X_C4，X_C5分别表示多尺度交互单元的输入特征，来源于主干网络ResNet34后三个阶段的输出特征，Conv1表示1×1卷积，Y_C3，Y_C4，Y_C5分别表示三种输出特征，Cp和Dcp分别表示序列耦合和序列解耦操作，MHSA表示多头自注意力机制。

所述MHSA利用自注意力机制通过计算任意成对像素之间的关系，捕获图像全局空间特征关系，其数学表达式如公式(7)-(8)所示：

MHSA_m(Q，K，V)＝W(SA₁||SA₂||...||SA_m) (8)

其中，MHSA_m表示具有m个注意力头的多头自注意力，SA_k表示第k个自注意力头，Q，K，V分别表示查询、键和值，d表示特征维度，ξ表示Softmax激活函数，W表示线性层，||表示Concat操作。

步骤(4)中，训练过程采用Adam优化器进行梯度更新，权重衰减系数为0.0001，学习率为0.001，交叉熵损失作为损失函数。

步骤(5)中，F1分数和交并比的数学表达式如公式(10)-(11)所示：

其中，F1表示F1分数，IoU表示交并比，Precision和Recall分别表示精确率和召回率，TP，FP，FN分别表示真阳，假阳和假阴。

一种基于多尺度注意力的遥感图像屋顶识别系统，包括：

预处理模块，用于对遥感图像进行数据预处理，获取标准化图像数据；

提取模块，用于基于标准化图像数据，构建主干网络提取遥感图像的特征；

构建模块，用于基于遥感图像的特征，构建空间注意力单元、高频特征单元以及多尺度交互单元；采用U型结构对图像进行逐层的上采样恢复；

训练模块，用于基于预处理模块、提取模块和构建模块形成遥感图像屋顶识别模型，并利用数据集训练模型；

评估模块，用于基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。

本发明在工作中,首先，对遥感图像进行预处理；其次,利用ResNet34对遥感图像进行特征提取；然后采用U型结构进行图像恢复，从而实现构建遥感图像屋顶识别模型。通过引入空间注意力单元，在抑制重要性相对较低的特征的同时，使得模型更加关注更具判别性的特征；通过高频特征单元，保留原图中的细节特征；通过多尺度交互单元，充分地捕获不同尺度的特征间的互补关系，使得模型能够有效识别出各种尺度的建筑屋顶。本发明提高了屋顶检测的准确率。

附图说明

图1为本发明的方法流程图；

图2为本发明中模型的框架示意图；

图3为空间注意力单元的结构示意图；

图4为高频特征单元的结构示意图；

图5为多尺度交互单元的结构示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

本发明如图1-5所示，一种基于多尺度注意力的遥感图像屋顶识别方法，包括以下步骤：

步骤(1)：对遥感图像进行数据预处理，获取标准化图像数据。由于神经网络对数据分布非常敏感，因此在训练模型前需要对原始数据进行数据增强及标准化操作。每组样本包含一幅卫星航拍图像和对应的建筑屋顶标签图。将每组样本的图像和对应的标签图裁剪成512×512像素大小，采用随机水平翻转、随机竖直翻转和随机旋转操作进行数据增强，以增加数据的多样性和鲁棒性，并对图像进行归一化，将像素值缩放到0到1之间，确保更好的处理能力。

由于屋顶数据集具有复杂形状、颜色、大小等的特点，很容易与尘土和未铺砌的道路等特征混淆。本发明首先利用数据增强方式扩充数据和提高后续模型训练的泛化能力，再通过归一化将待处理的原始图像转换成相应的标准形式。Z-score基于原始数据的均值(mean)和标准差(standard deviation)进行数据的归一化，如公式(1)所示：

其意义为数值距离均值有几个标准差，当μ(Z)＝0，σ(Z)＝1，即均值为0，标准差为1，则表示经过处理后的数据符合标准正态分布。

步骤(2)：从步骤(1)获取标准化图像数据；构建ResNet34作为主干网络以提取遥感图像的特征；ResNet34整体架构由连续的五个阶段组成，第一阶段采用步长为2的7×7卷积和步长为2的3×3最大池化对输入图像进行4×快速下采样，后四个阶段主要由残差层构成，用于进一步地逐层提取图像特征，特征每经过一个阶段，其尺度大小都会缩小一半，通道数都会增大一倍，以此捕获更具辨别性的抽象特征；

具体包括：

步骤(2.1)：ResNet34是一种经典的深度卷积神经网络结构，用于提取图像的特征表示。ResNet3中的卷积核权值共享使得其在非线性问题(如目标检测、图像分割等)上能够取得优异的表现。在本发明中，首先利用步长为2的7×7卷积和步长为2的3×3最大池化对输入图像进行4倍快速下采样，以减小图像尺寸。将输出特征馈送入步骤(2.2)。

步骤(2.2)：从步骤(2.1)中获取屋顶图像的空间特征。利用由残差层构成的后四个阶段，进一步逐层提取图像特征，如图2所示。

步骤(2.3)：从步骤(2.2)中获取优化后的空间特征，进一步处理和图像恢复操作。本发明使用三个空间注意力单元来排除背景噪声，使模型更加关注感兴趣的建筑屋顶。空间注意力单元通过池化操作、卷积操作和Sigmoid激活函数来实现。

步骤(2.4)：从步骤(2.3)中获取的优化特征，使用一个U型结构来捕获图像的细节信息，解决下采样过程中信息丢失的问题。高频特征单元结合了平均池化操作、自注意力机制和差分操作，用于提取高频特征表示。

步骤(3)：获取步骤(2)后四个阶段所提取到的图像特征，分别表示为C2、C3、C4和C5；基于四个阶段的特征表示，构建空间注意力单元、高频特征单元以及多尺度交互单元对其进行处理，如图2所示；采用U型结构对图像进行逐层的上采样恢复；

为了实现灵活和通用的模型，首先利用ResNet34对遥感图像进行特征提取，然后采用U型结构进行图像恢复。

步骤(3.1)：搭建空间注意力单元；遥感图像中包含诸多背景噪声，例如尘土，未铺砌的道路等，这些噪声往往会使得模型难以分辨出建筑屋顶，空间注意力单元能够利用空间注意力机制排除背景噪声的干扰，从而使得模型更加关注于所感兴趣的建筑屋顶，如图3所示，其数学表达式如公式(2)所示：

Y＝X⊙σ(Conv3(MP(X)||AP(X))) (2)

其中，X表示输入特征，Y表示输出特征，MP和AP分别表示最大池化操作和平均池化操作，||表示Concat操作，Conv3表示3×3卷积，σ表示Sigmoid激活函数，⊙表示矩阵哈达玛积；

(3.2)搭建高频特征单元；高频特征单元是一种高频感知模块，结合平均池化操作，自注意力机制以及差分操作，它能够有效地捕获到图像特征的细节信息表示，并进一步地输入到图像恢复的过程中，从而解决图像在下采样过程中的信息丢失问题，如图4所示，其数学表达式如公式(3)-(5)所示：

X_e＝Conv3(X) (3)

X_d＝X_e-Up(MHSA(AP(X_e))) (4)

Y＝Conv3(X_e||X_d) (5)

其中，X表示输入特征，Y表示输出特征，X_e和X_d分别表示浅层特征表示和高频特征表示，Conv3表示3×3卷积，AP表示平均池化操作，MHSA表示多头自注意力机制，Up表示上采样操作，||表示Concat操作；MHSA利用自注意力机制通过计算任意成对像素之间的关系，能够充分地捕获图像全局空间特征关系，其数学表达式如公式(6)-(7)所示：

MHSA_m(Q，K，V)＝W(SA₁||SA₂||...||SA_m) (7)

其中，MHSA_m表示具有m个注意力头的多头自注意力，SA_k表示第k个自注意力头，Q，K，V分别表示查询、键和值，d表示特征维度，ξ表示Softmax激活函数，W表示线性层，||表示Concat操作；

(3.3)搭建多尺度交互单元；遥感图像中包含的建筑物尺度差异很大，单一尺度的感受野难以充分地捕获多尺度屋顶特征；多尺度交互单元利用自注意力机制对不同尺度大小的特征图同时进行建模，并充分地进行特征交互，以有效地解决建筑屋顶的多尺度建模问题，如图5所示，其数学表达式如公式(8)-(9)所示：

X_t＝Cp(Conv1(X_C3)，Conv1(X_C4)，Conv1(X_C5)) (8)

Y_C3，Y_C4，Y_C5＝Dcp(MHSA(X_t)) (9)

其中，X_t表示耦合特征，Y_C3，Y_C4，Y_C5分别表示多尺度交互单元的输入特征，其来源于主干网络ResNet34后三个阶段的输出特征，Conv1表示1×1卷积，Y_C3，Y_C4，Y_C5分别表示三种输出特征，Cp和Dcp分别表示序列耦合和序列解耦操作，MHSA表示多头自注意力机制；

为了使模型更有效地关注建筑屋顶，提高模型的预测准确率，本发明在上采样的过程中提出空间注意力单元，在抑制重要性相对较低的特征的同时，使得模型更加关注更具判别性的特征。

鉴于图像在下采样的过程中易产生信息丢失的现象，本发明提出一种高频特征单元，以尽可能地保留原图中的细节特征。

鉴于建筑物屋顶形状大小各异，本发明还提出一种多尺度交互单元，充分地捕获不同尺度的特征间的互补关系，使得模型能够有效识别出各种尺度的建筑屋顶。

步骤(4)：基于步骤(1)-(3)形成遥感图像屋顶识别模型，并利用遥感图像训练模型；在本发明中，采用马萨诸塞州建筑物数据集进行实验，模型基于Pytorch框架进行搭建，在GeForce RTX 3090GPU上进行训练，配备有英特尔i5处理器，64GB RAM和Ubuntu系统；训练过程采用Adam优化器进行梯度更新，权重衰减设置为0.0001，即向损失函数中加入系数为0.0001的正则化项以防止参数过拟合现象，学习率设置为0.001，使得模型参数能够在一定时间内收敛到局部最优值，损失函数采用交叉熵损失，用于约束模型参数的学习过程。

步骤(5)：基于F1分数(F1)和交并比(IoU)两个评价指标对模型性能进行评估，其数学表达式如公式(10)-(11)所示：

其中，Precision和Recall分别表示精确率和召回率，TP，FP，FN分别表示真阳，假阳和假阴。F1值越高，模型的性能越好。交并比反映标注框与预测框的重合程度，用于衡量预测框的正确程度，IoU越高，模型的性能越好。

一种基于多尺度注意力的遥感图像屋顶识别系统，包括：

和现有的遥感图像屋顶识别方法相比，本发明中的模型最终预测准确率有了较大的提升。由于神经网络对数据分布较为敏感，因此首先利用基于数据增强和归一化变换的数据预处理操作对原始数据进行数据标准化处理。其次，空间注意力单元抑制重要性相对较低的特征的同时，使模型更加关注更具判别性的特征；而高频特征单元负责保留原图中的细节特征；多尺度交互单元能够充分地捕获不同尺度的特征间的互补关系，最终经过预测层输出各种尺度的建筑屋顶。通过利用F1和IoU两个评价指标对模型进行性能评估，本发明的基于多尺度注意力的遥感图像屋顶识别方法明显优于现有的算法。

以上仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多尺度注意力的遥感图像屋顶识别方法，其特征在于，包括以下步骤：

步骤(2)：基于标准化图像数据，构建主干网络，提取遥感图像的特征；

2.根据权利要求1所述的一种基于多尺度注意力的遥感图像屋顶识别方法，其特征在于，

3.根据权利要求1所述的一种基于多尺度注意力的遥感图像屋顶识别方法，其特征在于，

4.根据权利要求3所述的一种基于多尺度注意力的遥感图像屋顶识别方法，其特征在于，

5.根据权利要求4所述的一种基于多尺度注意力的遥感图像屋顶识别方法，其特征在于，

所述空间注意力单元的数学表达式公式(1)所示：

Y＝X⊙σ(Conv3(MP(X)||AP(X))) (1)

6.根据权利要求4所述的一种基于多尺度注意力的遥感图像屋顶识别方法，其特征在于，

所述高频特征单元的数学表达式如公式(2)-(4)所示：

X_e＝Conv3(X) (2)

X_d＝X_e-Up(MHSA(AP(X_e))) (3)

Y＝Conv3(X_e||X_d) (4)

7.根据权利要求4所述的一种基于多尺度注意力的遥感图像屋顶识别方法，其特征在于，

所述多尺度交互单元的数学表达式如公式(5)-(6)所示：

X_t＝Cp(Conv1(X_C3)，Conv1(X_C4)，Conv1(X_C5)) (5)

Y_C3，Y_C4，Y_C5＝Dcp(MHSA(X_t)) (6)

8.根据权利要求6或7所述的一种基于多尺度注意力的遥感图像屋顶识别方法，其特征在于，

MHSA_m(Q，K，V)＝W(SA₁||SA₂||...||sA_m) (8)

9.根据权利要求1所述的一种基于多尺度注意力的遥感图像屋顶识别方法，其特征在于，

10.根据权利要求1所述的一种基于多尺度注意力的遥感图像屋顶识别方法，其特征在于，

11.一种基于多尺度注意力的遥感图像屋顶识别系统，其特征在于，包括：