CN117612023A

CN117612023A - 融合注意力机制和卷积神经网络的遥感图像屋顶识别方法

Info

Publication number: CN117612023A
Application number: CN202311575139.4A
Authority: CN
Inventors: 沈玉兰; 吴云; 陈猛; 周竞; 殷毓灿; 孔赟; 任近; 赵军; 胡德权; 王壮
Original assignee: Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd
Current assignee: Yangzhou Power Supply Branch Of State Grid Jiangsu Electric Power Co ltd
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-27

Abstract

本发明公开了一种融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，包括以下步骤：步骤(1)：对遥感图像进行数据预处理；步骤(2)：从步骤(1)获取图像数据进行分块，并将图像输入到ResNet34网络中得到特征图；步骤(3)：基于ResNet34网络输出的特征图，构建分块自注意力模块、滑窗注意力模块和自适应融合模块，对图像进行恢复；步骤(4)：基于步骤(1)‑(3)形成遥感图像屋顶识别模型，并利用数据集训练模型；步骤(5)：基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。本发明通过构建遥感图像屋顶识别模型,提高屋顶检测的准确率。

Description

融合注意力机制和卷积神经网络的遥感图像屋顶识别方法

技术领域

本发明涉及遥感图像屋顶识别网络，特别是一种融合注意力机制和卷积神经网络的遥感图像屋顶识别方法。

背景技术

光伏屋顶是一种创新的建筑结构，利用太阳能光伏技术将建筑屋顶或其他建筑表面转化为发电装置。通过在建筑屋顶安装光伏电池板，光伏屋顶将太阳能转化为电能，为建筑本身提供可持续的电力供应，甚至可以将多余的电能并网输送。然而，光伏屋顶的广泛应用面临着屋顶有效识别的巨大难度。在传统的光伏行业中，通常采用无人机低空拍摄和人工现场勘探的方式，以统计符合屋顶光伏项目建设要求的屋顶数量、面积和屋面障碍物占比等数据。然而，这种方法效率低下且成本巨大。

利用深度学习和图像识别技术结合卫星遥感数据，可以识别城市建筑轮廓，区分屋顶和非屋顶区域，并获取光伏安装区域的面积。近年来一些研究提出了不同的方法来识别真实屋顶面积，例如采用深度学习中的图像语义分割技术自动提取屋顶区域，并使用空间优化采样策略获取训练集；运用深度神经网络(DNN)中的U-Net来识别建筑屋顶，并从而估计建筑物屋顶的实际面积；使用基于ResUNet深度学习方法来提取建筑物的技术，利用卫星图像识别建筑轮廓等。尽管这些方法在识别真实屋顶面积方面取得了一些进展，但它们也可能面临一些潜在的弊端和挑战。基于U-Net、ResUNet等深度学习方法可能涉及到较深的网络结构，这可能导致梯度消失或梯度爆炸等问题，特别是在训练时可能需要更复杂的优化和正则化策略。同时，采用空间优化采样策略可能受到采样偏差的影响，尤其是当建筑物分布不均匀或在特定地区建筑物密度较高或较低的情况下。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。

本发明的技术方案是：融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，包括以下步骤：

步骤(1)：对遥感图像进行数据预处理；

步骤(2)：从步骤(1)获取图像数据进行分块，并将图像输入到ResNet34网络中得到特征图；

步骤(3)：基于ResNet34网络输出的特征图，构建分块自注意力模块、滑窗注意力模块和自适应融合模块，对图像进行恢复；

步骤(4)：基于步骤(1)-(3)形成遥感图像屋顶识别模型，并利用数据集训练模型；

步骤(5)：基于F1分数和交并比两个评价指标对训练后的模型性能进行评估。

步骤(1)中：遥感图像包括若干组样本，每组样本都包括一张卫星航拍图像和对应的建筑屋顶标签图；

在输入图像上用滑动窗口将图像分割成不重叠的图像块，图像块的大小固定为4×4；然后，特征图中的特征值通过线性嵌入层投影到C维度，并对图像进行归一化，将像素值缩放到0到1之间。

步骤(2)包括：

步骤(2.1)：利用大小固定为4×4窗口对图像进行分块；

步骤(2.2)：从步骤(2.1)中获取图像块，连续进行四个阶段的下采样，每个阶段将每组2×2相邻图像块的特征连接起来，图像块完成合并之后，用线性嵌入层将输出维度更改为2C，用于逐层提取图像特征，特征每经过一个阶段，其尺度大小都会缩小一半，通道数都会增大一倍，以获取不同尺度上的抽象特征。

所述分块自注意力模块的数学表达式如公式(1)-(3)所示：

Q^hw×C·K^T＝A^hw×hw (1)

Λ^hw×hw·V^hw×C＝Y^hw×C (3)

其中，Q^hw×C表示输入图像块的查询特征，K^T表示输入图像块的键特征，V^hw×C表示输入图像块重要性值特征，Y^hw×C表示输出图像块特征，B表示可学习的偏置，T表示转置操作，Λ^hw×hw表示经过激活函数后的图像特征，A^hw×hw表示图像块经过自注意力后的特征，h表示图像的高，w表示图像的宽，c表示图像的通道数量，d表示线性变换层的隐藏维度，Softmax表示Softmax激活函数。

所述滑窗注意力模块的数学表达式如公式(4)-(5)所示：

其中，x^l表示输入特征，x^l+1表示输出特征，表示经过滑窗注意力后的特征表示，LN表示层正则化操作，SW-MSA表示滑窗自注意力机制，MLP表示线性映射操作。

所述自适应融合模块的其数学表达式如公式(6)-(8)所示：

x_cs，i＝ReLU(Conv(Interpolate(concat(x_f，i，x_c，i))))) (6)

x_BN，i＝ReLU(BN(Conv(Concat(x_c，i，x_s，i))))) (7)

x_q＝Conv(x_BN，i) (8)

其中，x_f，i表示自适应融合模块的特征矩阵，x_c，i表示卷积神经网络输出的编码特征，x_q表示输出特征，x_s，i和X_BN，i分别表示为自注意力模块的特征矩阵和自适应融合模块的特征融合映射，concat表示张量拼接操作，Interpolate表示插值操作，Conv表示卷积操作，BN表示批正则化操作，ReLU表示Relu激活函数。

步骤(4)中，训练过程采用Adam优化器进行梯度更新，权重衰减系数为0.0001，学习率为0.001，交叉熵损失作为损失函数。

步骤(5)中：F1分数和交并比的数学表达式如公式(9)-(10)所示：

其中，F1表示F1分数，IoU表示交并比，Precision和Recall分别表示精确率和召回率，TP、FP、FN分别表示真阳、假阳和假阴。

本发明在工作中,首先，对遥感图像进行预处理；其次,对图像数据进行分块，并将图像输入到ResNet34网络中得到特征图；然后构建分块自注意力模块、滑窗注意力模块和自适应融合模块进行图像恢复，从而实现构建遥感图像屋顶识别模型。

本发明引入了分块自注意力单元，在减少模型复杂度的同时关注图像的局部信息；提出滑窗注意力单元，通过局部感受野来捕捉全局信息；提出自适应融合模块单元，有效融合卷积神经网络和自注意力机制的编码特征，使得模型更精确地识别出建筑屋顶。本发明提高了屋顶检测的准确率。

附图说明

图1为本发明的方法流程图；

图2为本发明中模型的框架示意图；

图3为分块自注意力模块的结构示意图；

图4为滑窗自注意力模块的结构示意图；

图5为自适应融合模块的结构示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

本发明如图1-5所示，融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，包括以下步骤：

步骤(1)：对遥感图像进行数据预处理；

本发明首先使用基于Transformer的自注意力模型对遥感图像的全局语义信息进行建模。然而，Transformer用于自注意力计算的分片计算方法忽略了每个分片内部的空间信息，从而导致屋顶识别的不准确。因此，本发明提供了一种新的语义分割模型，它是一个结合了Transformer和CNN优点的模型，用于提高各种遥感图像的分割质量。

鉴于图像的局部信息和全局信息可能不能被充分利用，本发明采用分阶段模型来提取各种语义尺度的粗粒度和细粒度特征表示。为了充分利用不同阶段获得的特征，本发明还设计了自适应融合模块，该模块采用自我关注机制自适应地融合不同尺度特征之间的语义信息，使得模型能有效识别出各种建筑物的屋顶。

具体地：

步骤(1)：对遥感图像进行数据预处理。为了训练模型，需要对原始数据进行数据增强和标准化操作，因为神经网络对数据分布非常敏感。每组样本都包括一张卫星航拍图像和对应的建筑屋顶标签图。在输入图像上用滑动窗口将图像分割成不重叠的图像块，图像块的大小固定为4×4。然后，特征图中的特征值通过线性嵌入层投影到C维度。并对图像进行归一化，将像素值缩放到0到1之间，确保更好的处理能力。

由于屋顶数据集具有各种复杂的形状、颜色和大小，这使得它们很容易与尘土和未铺砌的道路等其他特征混淆。为了应对这个问题，首先使用将图像进行分块以便后续模型进行处理。接下来使用归一化方法将原始图像转换为标准形式。

归一化使用Z-score方法，它基于原始数据的均值和标准差来对数据进行标准化处理，如公式(1)所示：

其意义为数值距离均值有几个标准差，X_norm表示经过归一化后的图像，X表示原始图像，σ表示原始图像数据的方差，μ表示原始图像数据的均值。

当μ＝0，σ＝1，即均值为0，标准差为1，则表示经过处理后的数据符合标准正态分布，这样做可以确保数据在处理过程中具有相似的尺度和分布特性。

步骤(2)：从步骤(1)获取图像数据进行分块；将原始图像输入到ResNet34网络中得到特征图。

具体包括：

步骤(2.1)：首先利用大小固定为4×4窗口对图像进行分块，将分块后的图像块馈送入步骤(2.2)。

步骤(2.2)：从步骤(2.1)中获取图像块。连续进行四个阶段的下采样，每个阶段将每组2×2相邻图像块的特征连接起来，图像块完成合并之后，应用线性嵌入层将输出维度更改为2C，用于进一步地逐层提取图像特征，特征每经过一个阶段，其尺度大小都会缩小一半，通道数都会增大一倍，以获取不同尺度上的抽象特征；

获取后四个阶段所提取到的图像特征，并将原始图像输入到ResNet34网络中得到特征图。ResNet34网络包括连续的五个阶段，后四个阶段包括四个残差层。

步骤(3)：基于ResNet34网络输出的特征图，构建分块自注意力模块，滑窗注意力模块和自适应融合模块对其进行处理。ResNet34生成的特征图与自注意力不同阶段生成的特征图合并，以利用自注意力模块收集特征的全局语义上下文信息的能力。最后，将融合后的特征图上采样两次，并将特征图恢复为输入图像的大小。

具体包括：

步骤(3.1)：构建分块自注意力模块；标准Transformer块中使用的自注意力是通过将其中一个令牌与所有其他令牌相关来计算的。这种计算使得网络的计算工作量相对于图像的分辨率大小呈二次方增长，模型将需要高端计算设备。而分块自注意力模块将在当前的窗口中执行自注意力计算，以大幅减少计算时间，其数学表达式如公式(2)-(4)所示：

Q^hw×C·K^T＝A^hw×hw (2)

Λ^hw×hw·V^hw×C＝Y^hw×C (4)其中，Q^hw×C表示输入图像块的查询特征，K^T表示输入图像块的键特征，V^hw×C表示输入图像块重要性值特征，Y^hw×C表示输出图像块特征，B表示可学习的偏置，T表示转置操作，Λ^hw×hw表示经过激活函数后的图像特征，A^hw×hw表示图像块经过自注意力后的特征，h表示图像的高，w表示图像的宽，c表示图像的通道数量，d表示线性变换层的隐藏维度，Softmax表示Softmax激活函数；

步骤(3.2)构建滑窗注意力模块；滑窗注意力机制是一种图像处理方法，结合滑窗操作和自注意力操作，旨在处理大尺寸图像的长距离依赖关系。滑窗注意力操作的目的是通过局部感受野和有限的计算资源来捕捉全局信息，并将这些局部信息整合起来以获得全局上下文。其数学表达式如公式(5)-(6)所示：

其中，x^l表示输入特征，x^l+1表示输出特征，表示经过滑窗注意力后的特征表示，LN表示层正则化操作，SW-MSA表示滑窗自注意力机制，MLP表示线性映射操作；

步骤(3.3)构建自适应融合模块；为了有效融合卷积神经网络和自注意力机制的编码特征，需要通过自注意力计算得到特征权重矩阵，选择性地增强空间细节或抑制其他区域，从而增强密集预测的区分能力，其数学表达式如公式(7)-(9)所示：

x_cs，i＝ReLU(Conv(Interpolate(concat(x_f，i，x_c，i))))) (7)

x_BN，i＝ReLU(BN(Conv(Concat(x_c，i，x_s，i))))) (8)

x_q＝Conv(x_BN，i) (9)其中，x_f，i表示自适应融合模块的特征矩阵，x_c，i表示卷积神经网络输出的编码特征，x_q表示输出特征，x_s，i和x_BN，i分别表示为自注意力模块的特征矩阵和自适应融合模块的特征融合映射，concat表示张量拼接操作，Interpolate表示插值操作，Conv表示卷积操作，BN表示批正则化操作，ReLU表示Relu激活函数；

步骤(4)：基于步骤(1)-(3)形成遥感图像屋顶识别模型，并利用数据集训练模型；在本发明中，采用马萨诸塞州建筑物数据集进行实验，模型基于Pytorch框架进行搭建，在GeForce RTX 3090GPU上进行训练，配备有英特尔i5处理器，64GB RAM和Ubuntu系统；训练过程采用Adam优化器进行梯度更新，权重衰减系数为0.0001，即向损失函数中加入系数为0.0001的正则化项以防止参数过拟合现象，学习率设置为0.001，使得模型参数能够在一定时间内收敛到局部最优值，损失函数采用交叉熵损失，用于约束模型参数的学习过程。

步骤(5)：基于F1分数(F1)和交并比(IoU)两个评价指标对模型性能进行评估，其数学表达式如公式(10)-(11)所示：

其中，Precision和Recall分别表示精确率和召回率，TP，FP，FN分别表示真阳，假阳和假阴。F1值越高，模型的性能越好。交并比反映标注框与预测框的重合程度，用于衡量预测框的正确程度，IoU越高，模型的性能越好。

相较于现有的遥感图像屋顶识别方法，本发明中的模型在最终预测准确率上取得了显著的提升。鉴于神经网络对数据分布的敏感性，本发明首先采用图像分块和归一化变换的数据预处理操作来对原始数据进行预处理。然后，引入了分块自注意力单元，它在减少模型复杂度的同时，使模型更关注遥感图像的局部特征；滑窗注意力单元负责通过局部感受野和有限的计算资源来捕捉全局信息，并将这些局部信息整合起来以获得全局上下文；自适应融合单元能够选择性地增强空间细节或抑制其他区域，从而增强密集预测的区分能力。最终，经过预测层的输出，能够获取各种建筑屋顶的预测标签。通过使用F1和IoU两个评价指标对模型进行性能评估，本发明中的融合注意力机制和卷积神经网络方法明显优于现有算法，并取得了更好的性能表现。

以上仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，其特征在于，包括以下步骤：

步骤(1)：对遥感图像进行数据预处理；

2.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，其特征在于，

3.根据权利要求2所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，其特征在于，

步骤(2)包括：

步骤(2.1)：利用大小固定为4×4窗口对图像进行分块；

4.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，其特征在于，

所述分块自注意力模块的数学表达式如公式(1)-(3)所示：

Q^hw×C·K^T＝A^hw×hw (1)

Λ^hw×hw·V^hw×C＝Y^hw×C (3)

5.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，其特征在于，

所述滑窗注意力模块的数学表达式如公式(4)-(5)所示：

6.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，其特征在于，

所述自适应融合模块的其数学表达式如公式(6)-(8)所示：

x_cs，i＝ReLU(Conv(Interpolate(concat(x_f，i，x_c，i))))) (6)

x_BN，i＝ReLU(BN(Conv(Concat(x_c，i，x_s，i))))) (7)

x_q＝Conv(x_BN，i) (8)

7.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，其特征在于，

8.根据权利要求1所述的融合注意力机制和卷积神经网络的遥感图像屋顶识别方法，其特征在于，

步骤(5)中：F1分数和交并比的数学表达式如公式(9)-(10)所示：