CN113408462B

CN113408462B - 基于卷积神经网络与类别热力图的滑坡遥感信息提取方法

Info

Publication number: CN113408462B
Application number: CN202110731979.XA
Authority: CN
Inventors: 慎利; 邓旭; 鄢薪; 徐柱
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2023-05-02
Anticipated expiration: 2041-06-29
Also published as: CN113408462A

Abstract

本申请涉及一种基于卷积神经网络与类别热力图的滑坡遥感信息提取方法，高分辨率遥感影像中滑坡尺度差异巨大，且与其它地物的光谱混淆问题严重。现有基于卷积神经网络(CNN)的滑坡场景解译方法难以精确定位滑坡边界，基于全卷积神经网络(FCN)的像素级滑坡信息提取方法需要人工勾绘大量的样本。本申请针对以上问题，以类别热力图为桥梁，提出一种弱监督滑坡灾害信息提取框架：首先，本申请设计了一种耦合注意力机制与多层次、多尺度特征的分类网络模型学习滑坡和非滑坡场景，进而获取高质量的滑坡场景类别热力图；其次，利用从类别热力图获取的像素级伪标签训练语义分割网络，进而实现遥感影像中高精度的像素级滑坡灾害信息提取。

Description

基于卷积神经网络与类别热力图的滑坡遥感信息提取方法

技术领域

本发明设计了一种灾害信息提取方法，更具体地说是涉及基于卷积神经网络与类别热力图的滑坡遥感信息提取方法。

背景技术

我国疆域非常辽阔、地形地貌复杂，滑坡等地质灾害每年给重大工程、经济建设和人民生命安全造成严重威胁，精确的滑坡边界可为滑坡灾后救援和灾情评估服务。因此，灾害发生后，快速、准确地获取滑坡灾害信息能够为灾区开展应急救援、决策指挥以及灾后重建等工作提供技术支持和决策依据。遥感技术以其宏观、快速的优势广泛地应用于滑坡灾害的调查，较以前的人工实地调查，大幅度提升了工作效率。特别地，高分辨率遥感影像能够为解译滑坡提供更加精细的纹理和空间信息，并且获取日益便利，为滑坡灾害识别和精准定位提供了重要的数据支撑和保障。而且解译方法也实现了从应用之初的目视解译到自动解译的跨越。以卷积神经网络(Convolutional neural networks,CNN)模型为代表的深度学习方法，其以原始图像块作为输入，能够从大量的监督样本中自动学习到由底层视觉特征到高层语义特征的层次化特征表达，避免了人为特征设计对先验知识的依赖，极大地增强了模型的泛化能力。目前，基于深度学习的方法已经在滑坡灾害提取方面展现出了巨大的潜力，相关研究已成为近年来学术研究的热点。

滑坡场景解译方法难以定位滑坡边界，而像素级滑坡区域提取方法需要完整确切的监督信息，制作这样的样本需要耗费极大的人力、物力。通过利用相对容易获取的场景样本进行像素级信息提取可以大大降低样本的标注难度和所需时间，这为精细化滑坡信息提取提供了新思路。限于类别热力图过于粗糙，后来的大多研究都着重于获得更精细且准确的类别热力图，如利用自监督信息提升类别热力图的准确性，使用随机游走和超像素分割进行优化等等。在遥感领域已经有很多学者从事弱监督分类方法的研究，文章在传统的弱监督框架下提出了针对光学遥感影像的分类与目标检测方法。目前，还没有与滑坡等地质灾害相关的弱监督提取研究，可能的原因是滑坡情况更加复杂以及缺乏能够进行测试的滑坡数据集。

发明内容

基于以上研究，本申请针对高分辨率遥感影像中滑坡尺度差异大、滑坡和其他地物存在光谱混淆的问题，提出一种耦合注意力机制与多层次、多尺度特征的类别热力图精细化方法，用于恢复高精度的像素级滑坡信息。综上所述，本申请针对滑坡场景解译方法难以精确定位滑坡边界以及像素级滑坡信息遥感提取面临的样本标注难的问题，以2017年九寨沟震后无人机影像数据为例，利用场景级标注的滑坡样本进行像素级滑坡灾害信息提取，旨在提升震后快速获取精确滑坡边界信息的能力。

本申请提出一种基于卷积神经网络与类别热力图的滑坡遥感信息提取方法，包括第一步，数据预处理，对原始影像进行裁剪并设置一定的重叠度，根据得到影像场景内是否包含滑坡区域将其分为滑坡和其它两类；第二步，建立场景分类模型，利用图片级标注样本训练进而用于图片分类，从模型输出的概率值节点出发，通过反向传播方式到达指定卷积层，得到该概率值类别对应的热力图进而用于恢复输入场景中地物的像素级信息。

优选的，所述第二步还包括设计耦合注意力机制与多层次、多尺度特征的弱监督分类网络来学习场景影像中的滑坡区域和非滑坡区域；基于此，设计一个包含三阶段的框架，通过易标注的场景级样本进行像素级滑坡灾害信息提取；首先，利用获取的滑坡和非滑坡场景训练场景分类网络，进而获取滑坡场景的类别热力图；其次，结合图像底层特征应用全连接条件随机场算法对边缘进行优化获取像素级滑坡分割掩膜；最后，利用获取的像素级伪标签训练语义分割神经网络，以获得精度更高的像素级信息。

优选的，所述第二步还包括在ResNet50主干网络中4个不同尺度的特征图之后分别嵌入了卷积注意力模块，先后进行通道注意力和空间注意力运算，通道注意力子模块用于计算特征图各通道数据的权重、空间注意力子模块用于计算特征图各空间位置数据的权重，两者串联筛选有用的滑坡特征聚焦滑坡区域。

优选的，所述第二步还包括采用空洞空间金字塔池化方法通过不同扩张率的空洞卷积对特征图并行采样，以此来捕获多个尺度的图像信息；设计一个跳跃连接结构用于融合低层次细节特征与高层次语义特征，为最后卷积层特征图提供细节边缘信息；先将多尺度特征进行4倍上采样然后与低层次细节特征进行拼接，之后通过一个多谱通道注意力机制进行特征融合。

优选的，所述第二步还包括采用全局加权池化的结构加全连接的方式来计算分类得分，无缝集成到现有的主干网；给定输入的特征图，我们首先通过一个1×1卷积预测特征图中每个像素位置的分类得分，而后通过应用一个通道方向上的softmax生成掩膜预测，根据掩膜预测结果对原始分类分数进行加权，最后通过一个全连接层得到输入图像分类类别得分；采用交叉熵损失函数进行分类损失计算和反向传播。

优选的，所述第二步还包括使用条件随机场算法对像素级掩膜的质量和相邻相似像素之间的空间平滑度进行优化。

优选的，所述第二步还包括利用从类别热力图获取滑坡像素级伪标签训练语义分割网络，通过语义分割网络进一步利用影像特征以恢复语义空间信息，从而获得更高精度的像素级信息。

本申请提出了一种高分辨率遥感影像滑坡灾害信息提取方法，其优势在于只需要场景级标注的样本，可以在震后快速获取滑坡边界信息。在本申请的研究中，提出了一种耦合注意力机制与多层次、多尺度特征分类网络模型用于恢复高精度的像素级信息，并利用获取到的伪标签去训练一个语义分割模型，进一步提高滑坡信息的提取精度。通过在九寨沟震后无人机影像数据上的实验表明，我们方法的精度大大优于基准方法并取得接近于强监督方法的结果。同时通过设计一系列的消融实验，验证了不同模块对于优化类别热力图的有效性。通过此研究，证明了通过弱监督手段快速获取震后高分辨率遥感影像中精确滑坡灾害信息的可能性。

说明书附图

图1为研究区无人机影像图；

图2为场景样本示例图；

图3为基于类别热力图的弱监督滑坡信息提取框架图；

图4为特征提取网络结构图；

图5为多层次、多尺度特征融合模块图；

图6为分类得分计算模块图；

图7为类别热力图及边缘优化结果示例图；

图8为测试区域影像及人工目视解译结果图；

图9为自动解译结果图；

图10为不同模型类别热力图结果对比图。

具体实施方式

以下所描述的实施例，并非仅仅是针对某一个具体实施例的描述，而是对于具有某类技术特征的潜在的实施例的选择性描述，某些技术特征并非是必须存在的。具体到某一具体实施例，其是下面某些技术特征的组合，只要这种组合不是逻辑上的相互矛盾，或者无意义。本发明任意位置出现的“可以/可以是”(may，may be，表示选择，暗示可能还存在其它的替代方式；如果语境中表达“能力”的则除外)，是一种优选的实施例的描述方式，其可以是潜在的其它的替代方式。本发明任意位置出现的技术术语“大致”、“近似”“接近”等近似描述词语(如果存在)描述时，其所要表达的含义是并非要求在严格的实际参数测量后，得出的数据严格符合一般的数学定义，因为不存在完全符合数学定义的物理实体，并非含糊其辞、模棱两可从而导致不清楚。

九寨沟地处青藏高原与四川盆地的过渡地带，地质背景复杂，新构造运动强烈,地震及其次生灾害频发。2017年8月8日九寨沟县发生7.0级地震(33.20^°N,103.80^°E)，诱发大量山体滑坡地质灾害，滑坡堆积物掩盖地物造成道路河流堵塞、建筑物损坏，给当地造成巨大的经济财产损失和严重人员伤亡。本申请以九寨沟县为研究区，实验数据为震后获取的九寨沟低空无人机影像(如图1所示)，空间分辨率0.2米，覆盖面积约60平方千米，滑坡区域在影像中清晰可见。高分辨率遥感影像能够提供更加精细的纹理和空间信息，进而精准确定滑坡的空间分布。地震诱发的山体滑坡地质灾害在强降雨作用下极易再次滑动和发生泥石流等次生灾害。通过对震区地质灾害快速解译的研究，可为震后地质灾害排查与防治提供指导，对地震次生山地灾害的防范、防灾减灾措施的制定提供技术支撑。

从无人机影像遥感影像中共解译出滑坡灾害800余处，图1中黄色框标注区域作为测试影像，其余区域用于制作滑坡场景数据集。对原始影像按照512×512像素大小进行裁剪并设置一定的重叠度，如图2所示，根据得到影像场景内是否包含滑坡区域将其分为滑坡和其它两类。剔除过多重复、无意义的背景影像，最终得到滑坡类别场景1757张，其它类别场景3469张，将其作为训练数据，用于模型参数学习。

新生滑坡破坏原有地形，新的滑坡构造面反射率较高，房屋、干涸的河道、道路以及裸地等也容易出现反射效应，为无人机影像滑坡自动提取带来了困难。无人机遥感影像中，滑大小不一，形状复杂，与周围地物混杂交错。滑坡堆积物向下掩盖地物，部分滑坡靠近道路房屋河流，造成道路河流堵塞、建筑物损坏，地物混淆严重，滑坡解译极易产生漏分错分。克服这一挑战的标准方法是采用精细化标注的像素级样本训练语义分割网络，然而标注精细的像素级样本是十分困难的，由于滑坡的复杂性、多样性及其与周围地物的混淆作用也极易造成解译偏差。场景分类模型是利用图片级标注样本训练进而用于图片分类的，从模型输出的概率值节点出发，通过反向传播方式到达指定卷积层，可以得到该概率值类别对应的热力图进而用于恢复输入场景中地物的像素级信息。

为了克服滑坡灾害解译面临的像素级样本标注困难的挑战，本申请设计了耦合注意力机制与多层次、多尺度特征的弱监督分类网络来学习场景影像中的滑坡区域和非滑坡区域。基于此，如图3所示，设计了一个包含三阶段的框架，通过易标注的场景级样本进行像素级滑坡灾害信息提取。首先，利用获取的滑坡和非滑坡场景训练场景分类网络，进而获取滑坡场景的类别热力图；其次，结合图像底层特征应用全连接条件随机场算法对边缘进行优化获取像素级滑坡分割掩膜；最后，利用获取的像素级伪标签训练语义分割神经网络，以获得精度更高的像素级信息。

注意力机制是机器学习中一种常用的数据处理方法，目前已经被广泛应用于计算机视觉领域，用于重点关注图片中特定位置的作用。滑坡发生区域背景复杂，通过注意力机制可以过滤掉不重要的背景区域，关注更加有价值的信息，能够一定程度克服光谱特征近似地物的干扰。此外，相关方法也表明注意力机制对于生成更好的类别热力图也是有益的。注意力模块通常都是以特征图作为输入，通过对特征图加权增强目标特征同时抑制干扰信息。按其作用域不同可以划分为3类，分别是通道域注意力、空间域注意力和混合域注意力。其中，通道域注意力的作用是评价特征图在各个通道维度上数据的重要程度，如SE；空间域注意力的作用是评价特征图在空间维度上各位置数据的重要程度；混合域注意力则既考虑特征图在各个通道维度的重要程度，也考虑空间维度上各位置的重要程度，如卷积块注意力模块(Convolutional block attention module，CBAM)。

ResNet是经典的卷积神经网络主干架构，其跳跃连接结构能够有效抑制梯度消失和梯度爆炸的问题，适合于深层网络训练，也极易对其进行扩展。如图4所示，基于ResNet网络模型的可扩展性，本申请在ResNet50主干网络中4个不同尺度的特征图之后分别嵌入了卷积注意力模块，先后进行通道注意力和空间注意力运算，通道注意力子模块用于计算特征图各通道数据的权重、空间注意力子模块用于计算特征图各空间位置数据的权重，两者串联筛选有用的滑坡特征聚焦滑坡区域。

遥感影像中滑坡尺度差异大，形状复杂，且滑坡内部纹理单一，单一尺度特征难以有效区分滑坡和其它类别地物。提取影像中滑坡的多尺度特征能够有效避免空间信息的损失，提高滑坡识别精度。基于此，本申请采用空洞空间金字塔池化((Atrous spatialpyramid pooling,ASPP)方法通过不同扩张率的空洞卷积对特征图并行采样，以此来捕获多个尺度的图像信息。

此外，目前类别热力图都获取自卷积神经网络最后卷积层输出的特征图进行生成，这是由于该卷积层的特征语义层次高，辨别能力强，而浅卷积层的特征图多包含有许多噪声。与此同时，尽管该层特征表达能力强,但是受限于网络结构不可避免的降采样,该层生成的热力图信息仍然非常粗糙,只能粗略地显示出滑坡区域的大概位置,几乎没有边缘信息。因此，如图5所示，本申请设计了一个跳跃连接结构用于融合低层次细节特征与高层次语义特征，为最后卷积层特征图提供细节边缘信息。具体的，先将多尺度特征进行4倍上采样然后与低层次细节特征进行拼接，之后通过一个多谱通道注意力机制进行特征融合。这是一种基于频率域的通道注意力机制，相较于一般注意力机制能够更好的实现不同层次特征之间的自适应融合。

在得到最后的卷积层特征之后，将其输入到分类器单元，该图像被分类为滑坡或非滑坡类。目前，几乎所有的弱监督网络在最后的分类层都采用全局平均池化(GlobalAverage Pooling)加全连接的方式计算分类得分。然而，它可能造成前景目标与背景的混淆，不利于突出识别目标，从而造成目标像素级精度的损失。

因此，本申请采用了一种全局加权池化(normalised Global Weighted Pooling，nGWP)的新颖结构加全连接的方式来计算分类得分，它可以无缝集成到现有的主干网。具体为，如图6所示，给定输入的特征图，我们首先通过一个1×1卷积预测特征图中每个像素位置的分类得分，而后通过应用一个通道方向上的softmax生成掩膜预测，根据掩膜预测结果对原始分类分数进行加权，最后通过一个全连接层得到输入图像分类类别得分。此外，由于我们是场景类别标注的样本，采用交叉熵损失函数(CrossEntropyLoss())进行分类损失计算和反向传播。

通过上述滑坡场景分类网络所获取的类别热力图，便能够恢复输入场景影像中的像素级滑坡信息。尽管前面我们设计了一种上采样和融合低层次细节信息的结构来提高最终获取的类别热力图的分辨率，但依然与原始输入影像的分辨率存在差异，造成细节信息的损失。如图7所示，我们观察到直接通过类别热力图所得到的阈值分割掩膜虽然能够较好的契合滑坡区域，但仍存在一定程度上的边缘细节上的失真。遥感影像中的新生滑坡区域与背景差异较大，同时滑坡区域内部同质性很高，具有相似的图像底层特征。因此，为了进一步提高像素级掩膜的质量和加强相邻相似像素之间的空间平滑度，我们使用条件随机场(Conditional Random Field，CRF)算法对其进行优化。CRF算法在面临相似问题的几个具有挑战性的数据集上均产生了令人满意的分割结果。实验结果表明，CRF算法能够很好的恢复遥感影像中的滑坡边缘信息，在一定程度上弥补类别热力图的分辨率损失。

语义分割网络由于使用精细化标注的像素级样本，其具有强大的像素级高级语义特征的提取和学习能力。此外，相关实验表明语义分割网络能够容忍少量的错误标注信息，在少量错误标注的情况下依然可以取得不错的训练结果。

因此，本申请利用从类别热力图获取滑坡像素级伪标签训练语义分割网络，通过语义分割网络进一步利用影像特征以恢复语义空间信息，从而获得更高精度的像素级信息。

为了得到更高精度的滑坡提取结果，此处选用当前最经典、效果最好的语义分割模型DeepLabv3+。DeepLabv3+是Google团队于2018年推出的一款经典的语义分割模型。为了使模型能更好地恢复物体的边缘信息，它继承了传统语义分割网络编码-解码(encoder-decoder)的架构体系以及多层次特征融合机制；同时，为使模型能够捕获更多的尺度信息，模型中还引入了空洞空间金字塔池化模块。

(1)对比方法。为了验证本申请弱监督方法的有效性，本申请在九寨沟震后无人机影像数据集上进行实验并与其他方法进行对比。目前，限于还没有针对滑坡灾害信息提取的弱监督方法研究，本申请选取计算机视觉领域的主流弱监督方法以及最先进的强监督方法(DeepLabv3+)进行对比。相关对比方法如下：

①BaselineCAM，该方法以ResNet50作为主干网络进行训练以获取类别热力图(通过全局平均池化方式)，然后通过全连接条件随机场进行优化获取伪像素级标注，并用来训练语义分割网络(DeepLabv3+)。

②本申请通过训练耦合注意力机制与多层次、多尺度特征的弱监督网络以获取类别热力图(通过全局加权池化方式)，然后通过全连接条件随机场进行优化获取伪像素级标注，并用来训练语义分割网络(DeepLabv3+)。

③DeepLabv3+，目前最先进、最具代表性的强监督语义分割方法，采用人工目视解译标注的像素级样本进行训练。

(2)参数设置。所有方法在同一处理阶段均采用完全相同的参数。

场景分类模型将原影像统一降采样为224×224，批处理设置为32，权重衰减为0.0001，使用动量为0.9的随机梯度下降优化器；总共训练迭代24个轮次，初始学习率为0.005，在第16、22轮次学习率降为前移轮次的0.1倍，其它轮次保持不变。

语义分割模型批处理设置为2，权重衰减为0.0001，使用动量为0.9的随机梯度下降优化器；总共训练迭代24个轮次，初始学习率为0.0025，在第16、22轮次学习率将为前移轮次的0.1倍，其它轮次保持不变。

(3)精度评定。定量评价指标选用精确率(P)、召回率(R)、F1分数和总体精度(OA)(式(1)-式(4))，其中F1分数是模型精确率和召回率的一种调和平均。是本申请在分析方法性能时的主要参考指标。需要说明的是，本申请是根据模型在测试区域上的预测结果及人工目视解译结果进行计算所得到的指标值。

P＝TP/(TP+FP) 式(1)

R＝TP/(TP+TN) 式(2)

F1＝2×P×R/(P+R) 式(3)

OA＝(TP+FN)/(TP+FN+TN+FP) 式(4)

式中TP表示正确分类的滑坡像素数量；FN表示正确分类的非滑坡像素数量；TN表示将滑坡错分为非滑坡的像素数量；FP表示将非滑坡错分为滑坡的像素数量。

实验结果分析

(1)定性分析。图8展示了测试区域影像及人工目视解译勾绘的真值结果。图9展示了基准弱监督方法结果、强监督方法结果及本申请方法结果。

从目视上来看BaselineCAM方法提取的滑坡边缘十分模糊，结果也是最差的；本申请方法滑坡提取结果与人工目视解译结果基本相吻合，边缘略显粗糙；此外，三种方法均存在将部分裸地误识别为滑坡的情况。

(2)定量分析。表1展示了三种方法的精度指标。

表1不同方法性能对比

BaselineCAM方法的精度最低，本申请方法相对于BaselineCAM方法有了很大的提升，精度指标接近于强监督的语义分割模型DeepLabv3+。

消融实验分析

(1)类别热力图优化定性分析

本申请设计了一种耦合注意力机制与多层次、多尺度特征的分类网络来获取更优的类别热力图，进而恢复高精度的像素级信息。为验证各个模块的有效性和其最终对类别热力图优化程度的影响，此处对加入不同模块的模型所获取的类别热力图进行可视化以对其影响进行分析。

图10展示了使用不同模块的模型所得到的类别热力图结果，表2对图10中不同模型所对应的方法进行了说明。实验结果说明，三个模块对于类别热力图优化均是有效的：卷积注意力机制能够使类别热力图的位置更集中于滑坡区域，但限于分辨率不高其热力图比较粗糙；多层次、多尺度特征融合模块通过融入低层次细节特征，使得类别热力图边界与真实滑坡区域更为契合；全局加权池化方法则在突出滑坡区域同时抑制了背景区域，类别热力图中的滑坡区域更为明显。

表2图9中不同模型对应方法表

(2)像素级伪标签边缘优化定量分析

此处，如表2所示，我们对采用CRF算法进行像素级伪标签优化对最终滑坡提取性能的影响进行定量分析。由表3可知，未使用CRF的方法具有较高的召回率，可能是由于其将更多的像素分类为滑坡；使用CRF的方法具有更高的精确率，总体来看具有更好的性能。

表3边缘优化性能对比

以上实施例均是对本发明的优选设计描述，根据专利法及其相关的规定，实际保护范围以权利要求所确定的保护范围为准，而说明书的内容则可以用于解释权利要求的具体/更进一步的含义。在不脱离本发明的设计要点/精神的基础上，任何对本发明的润色或修饰，均应落入本发明的保护范围。

Claims

1.一种基于卷积神经网络与类别热力图的滑坡遥感信息提取方法，其特征在于：

首先，在ResNet50主干网络中，4个不同尺度的特征图之后，分别嵌入卷积注意力模块，先后进行通道注意力和空间注意力运算，通道注意力子模块用于计算特征图各通道数据的权重，空间注意力子模块用于计算特征图各空间位置数据的权重，两者串联筛选有用的滑坡特征聚焦滑坡区域；采用空洞空间金字塔池化方法通过不同扩张率的空洞卷积对特征图并行采样，以此来捕获多个尺度的图像信息；设计一个跳跃连接结构用于融合低层次细节特征与高层次语义特征，为最后卷积层特征图提供细节边缘信息，先将多尺度特征进行4倍上采样，然后与低层次细节特征进行拼接，之后通过一个多谱通道注意力机制进行特征融合，实现不同层次特征之间的自适应融合；通过一个1×1卷积预测特征图中每个像素位置的分类得分，而后通过应用一个通道方向上的softmax生成掩膜预测，根据掩膜预测结果对原始分类分数进行加权，最后通过一个全连接层得到输入图像分类类别得分；在得到最后的卷积层特征之后，将其输入到分类器单元，该图像被分类为滑坡或非滑坡类；采用交叉熵损失函数进行分类损失计算和反向传播，利用获取的滑坡和非滑坡场景训练场景分类网络获取滑坡场景的类别热力图；

其次，使用条件随机场算法对像素级掩膜的质量和相邻相似像素之间的空间平滑度进行优化，结合图像底层特征应用全连接条件随机场算法对边缘进行优化获取像素级滑坡分割掩膜；

最后，利用从类别热力图获取滑坡像素级伪标签训练语义分割网络，通过语义分割网络进一步利用影像特征以恢复语义空间信息，从而获得更高精度的像素级信息。