CN113191642A

CN113191642A - 一种基于最优组合策略的区域滑坡敏感性分析方法

Info

Publication number: CN113191642A
Application number: CN202110490738.0A
Authority: CN
Inventors: 魏进兵; 杨仲康; 陈俊衡; 杨浩然; 刘鹏; 雷昌鸿
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-07-30
Anticipated expiration: 2041-05-06
Also published as: CN113191642B

Abstract

本发明公开了一种基于最优组合策略的区域滑坡敏感性分析方法，首先选取线性判别模型(LDA)、二次判别模型(QDA)和逻辑回归模型(LR)等传统滑坡敏感性分析模型，分别得到单模型的滑坡敏感性评价与分级结果；然后在训练阶段和验证阶段对单模型的拟合度、准确率和不确定性进行评价，选取拟合度和准确率高、不确定性低的模型作为优质模型；最后采用逻辑回归方法对优质模型进行组合和滑坡敏感性预测，以降低传统评价模型中的随机性和不确定性，提高滑坡敏感性评价的质量。

Description

一种基于最优组合策略的区域滑坡敏感性分析方法

技术领域

本发明属于滑坡风险评价领域，具体涉及一种滑坡敏感性分析方法。

背景技术

在山区，由于复杂的地形地质背景条件，在降雨、融雪、地震和人类工程活动等外界因子触发下，极易发生滑坡，导致生命财产损失和自然环境的破坏。为了满足区域防灾减灾、国土资源规划利用以及基础设施建设的需求，需要进行区域滑坡敏感性评价。滑坡敏感性评价指根据局部的地域情况得到滑坡在某个区域发生的可能性，即某一个地形单元中受斜坡移动的可能影响程度，用数学语言表述为：在给定的环境因子条件下，滑坡发生的空间可能性。

在过去几十年中，得益于计算机技术的高速发展，滑坡敏感性评价研究得到了快速的发展，已有研究中提出了大量的滑坡敏感性分析模型，最常见的模型类别依次为逻辑回归、神经网络和层次分析法。不同的模型得到的预测结果往往存在差异，如何对这些结果进行评价并组合以得到最优的预测是当前仍未解决的一个技术难题，现有技术在确定区域滑坡敏感性评价的最优策略和最佳方法的操作执行方面仍然十分欠缺。

发明内容

本发明的目的在于针对现有技术的不足，通过对现有滑坡敏感性评价模型进行误差分析和质量评估，提出一种基于最优组合策略的区域滑坡敏感性分析方法，以降低评价模型中的随机性和不确定性，提高滑坡敏感性评价的质量。

本发明提供的基于最优组合策略的区域滑坡敏感性分析方法，包括以下内容：

(1)数据准备

通过资料收集、遥感解译、现场调查等手段收集滑坡敏感性分析区域的地形地貌、地质条件、滑坡分布等数据和信息，获取滑坡样本；采用GIS软件建立区域地质环境条件和滑坡灾害分布数据库；采用栅格单元或斜坡单元对分析区域进行评价单元划分和编号，根据经验和相关性分析选取对滑坡发育影响大的因素作为指标因子(解释变量)，各评价单元的指标因子经归一化处理后作为自变量，每个评价单元的滑坡敏感性作为因变量；每个评价单元作为一个样本，对所有评价单元提取自变量和因变量，形成样本集；采用留出法、按照保留类别比例的采样方式将样本划分为训练样本集和测试样本集。

在进行滑坡敏感性分析之前，需要选择一个合适的评价单元，该单元能将地形进行有效的分割。所述栅格单元为基于像素点单元，所述斜坡单元为通过高分辨率的地形数据分割成不同的水文单元而得到，具有显著的地理空间意义。

所述因变量，又称分组变量，实际意义为该变量是否为滑坡变量，数字1代表为滑坡变量，数字0代表非滑坡变量(滑坡单元赋值为1，非滑坡单元赋值为0)，数据来源于历史滑坡数据库。所述自变量，又称解释变量，表示滑坡孕灾指标因子，主题信息可以分为地貌、水文、地层岩性、地表覆盖、人类活动等信息，数据种类越丰富，越详细，越有利于滑坡敏感性的评价。

所述留出法原理如下：将样本集D划分为两个互斥的集合，其中一个集合作为训练样本集S,另一个集合作为测试样本集T:

式中：

表示为空集，集合S用来训练模型，集合T用来评估误差。

为避免因数据的划分过程引入的偏差对最终结果产生影响，保证数据分布的一致性，按照保留类别比例的采样方式进行“分层采样”。例如从1000个数据里，分层采样获得70％样本的训练样本集S和30％样本的测试样本集T，若D包含500个正例，500个反例，则分层采样得到的S应包含350个正例，350个反例，T应包含150个正例，150个反例。

(2)单模型滑坡敏感性分析

选取单模型包括线性判别模型(LDA)、二次判别模型(QDA)、逻辑回归模型(LRM)等，采用训练样本集分别对每个模型进行训练，确定和量化因变量和自变量的关系；采用测试样本集对训练后的模型进行验证，得到单模型的滑坡敏感性分级结果。

(3)单模滑坡敏感性分析的质量评价

采用四重权重分布图、受试者工作特征曲线(ROC曲线)对单模型的准确率和拟合度进行评价；

采用不确定性量化方法对单模型的不确定性进行评价：采用分层随机抽样技术准备不同的数据集，每一个数据集包一定数量的评价单元，在R语言运行环境中通过独立编写bootstrap_smples_model_variablity命令代码，进行模型不确定评估中的样本选取与参数设置，所述命令代码为：

每一个评价单元分别运行该命令代码数百次，每次采用不同的训练样本；采用统计分析方法计算每一个评价单元发生滑坡概率的均值μ和标准差σ，得到单模型的不确定性分析曲线。

(4)最优组合模型敏感性分析

根据对单模型敏感性分析的质量评价和对比，选取拟合度和准确率高、不确定性低的模型作为优质模型。将优质单模型的滑坡敏感性预测值作为自变量，仍以评价单元是否为滑坡单元作为因变量，使用逻辑回归算法作为组合策略对单个模型预测成果进行集成，得到最优的滑坡敏感性分析结果。

进一步地，为了得到可靠的滑坡敏感性评价结果，步骤(1)采用以下4种方式来进行滑坡样本采集：(1)利用整个滑坡多边形生成的质心作为栅格单元；(2)选取整个滑坡多边形；(3)选取滑坡后缘及其周围的单元；(4)种子细胞方法，选取滑坡后缘上部和两侧周围的缓冲多边形。优选第(4)种方式。

进一步地，步骤(1)中训练样本集的数据量优选为样本总数的2/3。

进一步地，步骤(3)中采用不确定性量化方法对单模型的不确定性进行评价，方法如下：采用分层随机抽样技术，准备100组不同的数据集，每一个数据集包括2000个评价单元，其中包含1000个滑坡单元，1000个非滑坡单元，在R语言运行环境中通过独立编写bootstrap_smples_model_variablity命令代码，进行模型不确定评估中的样本选取与参数设置，每一个单一评价单元分别运行代码200次，每次所采用的训练样本不同。

进一步地，步骤(4)具体算法及实现过程如下：

1)随机采样：使用boostrap抽样得到若干不同的训练样本集，以所得训练样本集分别建立模型，得到一系列的基分类器。这些分类器由于来自不同的训练样本，对同一测试样本集的预测效果不一样。逻辑回归算法在依次构建基分类器的过程中，会根据上一个基分类器对各训练集样本的预测结果自行调整。

2)弱分类器学习：输入样本集D＝{(x₁,y₁),(x₂,y₂),......(x_m,y_m)}，迭代次数为T，对训练样本集进行第t次随机采样，共采集m次，得到包含m个样本的采样集D_m，用采样集D_m训练m个弱学习器G_m(x)。

3)采用逻辑回归算法对T个弱学习器得到的结果进行逻辑回归，所得结果为最终的模型输出。

与现有技术相比，本发明具有以下有益效果：

1.本发明所述方法基于简单高效的多元分类技术，选取了线性判别模型、二次线性判别模型和逻辑回归模型，并筛选出优质模型进行组合。相对单模型，组合模型对于指标因子的三次输入、两次重复训练过程可以显著降低模型的不确定性和变异性，并提高滑坡敏感性评价的质量。

2.本发明组合模型可以整合不同单模型的优点，将经验的主观判断优势和统计模型的客观性特征相结合，提升模型的预测能力，能够提供高质量的滑坡敏感性分级结果，可服务于地区国土资源规划利用和滑坡灾害风险评价与管理，在滑坡灾害发育严重的地区都可以推广应用。

附图说明

图1为本发明所述基于最优组合策略的区域滑坡敏感性分析方法流程图；

图2为基于逻辑回归方法的集成模型流程；

图3为滑坡敏感性分析区域滑坡灾害分布图；

图4为单模型滑坡敏感性分级结果；

图5为单模型训练阶段四重权重分布图；

图6为单模型训练阶段ROC曲线；

图7为单模型训练阶段不确定性曲线；

图8为单模型验证阶段四重权重分布图；

图9为单模型验证阶段ROC曲线；

图10为最优组合模型滑坡敏感性分级结果；

图11为最优组合模型训练阶段质量评价指标；

图12为最优组合模型验证阶段质量评价指标。

具体实施方式

下面通过实施例对本发明做进一步说明。有必要指出，以下实施例只用于对本发明作进一步说明，不能理解为对本发明保护范围的限制，所属领域技术人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，仍属于发明保护的范围。

实施例

选取某流域作为实施例。该区域位于青藏高原东南缘，夹于澜沧江与怒江之间，为典型的高山峡谷地貌。区内山高坡陡、沟谷深切，滑坡灾害分布范围广、爆发频率高，对当地人民生命财产、水电资源开发和基础设施建设造成了严重威胁。该区域滑坡灾害成灾机制复杂，研究基础十分薄弱，开展滑坡敏感性分析的研究，对于该区域国土资源规划利用和滑坡灾害风险评价与管理，具有重大的现实指导意义。

本实施例所述基于最优组合策略的区域滑坡敏感性分析方法，流程如图1所示，包括以下步骤：

(1)数据准备

系统收集分析区域的地形地貌、地质条件、滑坡分布等资料，根据遥感解译和现场验证，共获取滑坡样本976例(图3)。采用GIS软件对获取的现场及室内资料进行整编，建立区域地质环境条件和滑坡灾害分布数据库。根据相关性分析，选取互相独立的14个指标因子作为解释变量用于滑坡敏感性评价，包括6个地形要素、3个地质要素、5个水文要素(见表1)。将研究区划分为12.5m×12.5m的评价单元，共得到11.65万个评价单元。各评价单元的指标因子经归一化处理后作为自变量，每个评价单元的滑坡敏感性作为因变量。每个评价单元作为一个样本，提取每个评价单元的指标因子和滑坡分组变量，形成样本集。采用留出法，按照保留类别比例的采样方式将样本划分为训练样本集和测试样本集，训练样本集占比2/3，测试样本集占比1/3。

表1滑坡敏感性分析指标因子

(2)单模型滑坡敏感性分析

采用训练样本集，即已知的滑坡分组变量(因变量)和孕灾指标因子(自变量)，分别对单模型，即线性判别分析模型(LDA)、二次判别分析(QDA)模型和逻辑回归模型(LRM)进行训练。在训练阶段，确定和量化因变量和自变量的关系，再根据因变量和自变量之间的关系进行建模，从而获取基于全局的滑坡敏感预测结果。在验证阶段，采用测试样本集对训练后的模型进行验证。利用经过训练和验证的模型对所有评价单元进行敏感性计算和分级，得到单模型的区域滑坡敏感性分级结果(图4)。

(3)单模型滑坡敏感性分析的质量评价

分别在步骤(2)的训练阶段和验证阶段对单模型质量进行评价。

1)训练阶段

在训练阶段，采用四重权重分布图和ROC曲线对单模型准确率和拟合度进行评价，衡量模型对输入滑坡/非滑坡样本的学习拟合能力。四重权重分布图为滑坡敏感性预测中滑坡/非滑坡与实际滑坡/非滑坡列联表混淆矩阵，表示样本预测类型(0/1)在实际样本类型(0/1)中所占比重，其中正确预测的滑坡/非滑坡样本比重为准确率。如图5所示，四个象限分别表示预测非滑坡与实际非滑坡比重(正确分类)、预测非滑坡而实际为滑坡比重(错误分类)、预测为滑坡与实际滑坡比重(正确分类)、预测为滑坡实际为非滑坡比重(错误分类)。从正确分类的数量来看，QDA模型是最佳的，将训练样本中84.39％的评价单元进行了正确的分类，其中82.39％为非滑坡单元，2.0％为滑坡单元。

图6为单模型训练阶段的受试者工作特征曲线(ROC曲线)。AUC值为ROC曲线下方与坐标轴构成的面积，值越大表明拟合度越高。LDA、QDA和LRM模型的AUC值准确率分别为0.778、0.819和0.778，可见，QDA模型的表现优于LDA、LRM模型。说明在学习训练阶段，QDA模型具有较强的学习能力，能够正确预测学习样本。

采用不确定性量化方法对单模型的不确定性进行评价，方法如下：采用分层随机抽样技术，准备100组不同的数据集，每一个数据集包括2000个评价单元，其中包含1000个滑坡单元，1000个非滑坡单元，每一个单一评价单元分别运行200次，每次所采用的训练样本不同，在R语言运行环境中通过独立编写bootstrap_smples_model_variablity命令代码，进行模型不确定评估中的样本选取与参数设置，命令代码为：

采用统计分析方法计算每一个评价单元发生滑坡概率的均值μ和标准差σ，得到单模型的不确定性分析曲线。

图7为单模型训练阶段的不确定性统计图，X轴为200次独立运算获取的概率平均值，Y轴为概率的2倍标准差。对于所有分类模型，对被归类为滑坡高度敏感(>0.8)和稳定的区域(<0.2)，变异度量为低值，表明单模型一致地确定了这些区域是滑坡还是非滑坡。对于敏感性概率的中间值，模型估计中的散布变大，表明这些敏感性概率的估计值具有很大的变异性，即不确定性高。LDA模型、QDA模型和LRM模型的平均变异性分别为0.018、0.22、0.009，可见，在训练阶段，尽管QDA模型具有较高的准确率，但是评价结果更加容易受到数值的不确定性影响，而LRM模型的评价结果更加稳定可靠。

2)验证阶段

在验证阶段，采用四重权重分布图和ROC曲线对单模型准确率和拟合度进行评价。图8为单模型验证阶段四重权重分布图，LDA模型和LRM模型准确预测的单元比例分别为84.12％和84.92％，准确率较高；QDA模型准确率较低，为82.81％，并且将14.07％的非滑坡单元划分为滑坡单元，存在过拟合现象。图9为单模型验证阶段ROC曲线，LDA、QDA和LRM模型的AUC值分别为0.78、0.81和0.81。总体而言，LRM模型具有最优的敏感性评价结果。

综上，尽管QDA模型在训练阶段表现出较好的拟合能力，但是这种转换能力较差，AUC值从训练阶段0.82下降为0.81，并且该模型的变异性最大，预测结果对大量非滑坡单元进行了错误划分。因此，在3个模型中，将QDA模型舍弃，留下LRM模型和LDA模型进入到下一段的最优模型组合预测。

(4)最优组合模型滑坡敏感性评价

基于选取的两个最优模型LDA和LRM，将单模型的滑坡敏感性概率预测值作为自变量，仍使用滑坡分组变量作为因变量，使用逻辑回归方法作为组合策略对单模型预测成果进行集成，流程和原理如图2所示，具体包括以下步骤：

1)随机采样：使用boostrap抽样得到若干不同的训练样本集，以所得训练样本集分别建立模型，得到一系列的基分类器。这些分类器由于来自不同的训练样本，对同一测试样本集的预测效果不一样。逻辑回归算法在依次构建基分类器的过程中，根据上一个基分类器对各训练集样本的预测结果自行调整；按照和单一模型滑坡敏感性评价相同的比重进行抽样，训练样本集占比2/3，测试样本集占比1/3。

2)弱分类器学习：输入样本集D＝{(x₁,y₁),(x₂,y₂),......(x_m,y_m)}，迭代次数为100，对训练样本集进行第100次随机采样，共采集2000次，得到包含2000个样本的采样集D_m，用采样集D_m训练3个弱学习器G_m(x)，即选取线性判别、二次判别和逻辑回归模型作为弱学习器的代表。

3)LDA和LRM模型的滑坡敏感性值作为自变量，滑坡样本(0/1)作为因变量，采用逻辑回归算法对2个弱学习器得到的结果进行逻辑回归，所得结果为最终的模型输出。

通过模型集成学习，获取每个评价单元滑坡敏感性值，区间为(0-1)，以0.2等间隔江滑坡敏感性分为5个区间，分别是低(0-0.2)、较低(0.2-0.4)、中等(0.4-0.6)、较高(0.6-0.8)和高(0.8-1.0)，最优的滑坡敏感性分级结果如图10。滑坡敏感性等级较高和高地区主要集中在河流沿岸中段，表明为未来滑坡灾害的高敏感地区。造成这种原因与该区域严重的河流侵蚀、软弱的岩组、高陡的斜坡、密集分布的断层密切相关。相反，滑坡敏感性较低和低的区域主要集中在流域东北部的高海拔地区，这些区域远离断层且岩性坚硬。

图11为最优组合模型训练阶段的敏感性评价性能指标。与单模型相比，最优组合模型将95.55％的评价单元进行了正确分类，高于单模型的准确率(单模型最高为84.39％)；最优组合模型的AUC值为0.88，相比较单模型(0.778、0.819和0.778)，拟合能力也得到了提高。此外，最优组合模型滑坡敏感性模糊不明的中间变量(0.45-0.55)显著降低，整体的不确定水平明显降低，模型变异性问题得到改善。

图12为最优组合模型训验证阶段的敏感性评价性能指标。在验证阶段，最优组合模型对最大数量的评价单元进行了正确分类，正确分类的比例为97.09％，ROC曲线AUC值为0.86。在保证评价模型不确定性较小的前提下，提高了敏感性分析的准确率。

(5)结论

选取典型流域为实施例，利用地质环境和滑坡信息，通过线性判别分析模型(LDA)、二次判别模型(QDA)和逻辑回归模型(LRM)获得了单模型滑坡敏感性分析，并从模型拟合性能、准确率和不确定性对模型评价质量进行多方位评估，选取两个最优敏感性评价结果和滑坡信息进行集成学习，获取了高精度、高稳定性的滑坡敏感性评价结果。

本发明所述方法成功实现了三个目标：(1)多方位评价经典的滑坡敏感性分析模型的多元分类技术：(2)实现了滑坡敏感性评价模型不确定性的量化评估；(3)基于多个单模型构建集成学习模型，并获取最佳滑坡敏感性分区。测试结果表明，使用逻辑回归技术可以成功的组合多个滑坡敏感性模型，与单模型相比，组合模型预测结果显示出更小的不确定性和更高的准确性。

Claims

1.一种基于最优组合策略的区域滑坡敏感性分析方法，其特征在于，包括以下内容：

(1)数据准备

通过资料收集、遥感解译、现场调查等手段收集滑坡敏感性分析区域的地形地貌、地质条件、滑坡分布等数据和信息，获取滑坡样本；采用GIS软件建立区域地质环境条件和滑坡灾害分布数据库；采用栅格单元或斜坡单元对分析区域进行评价单元划分和编号，根据经验和相关性分析选取对滑坡发育影响大的因素作为指标因子，各评价单元的指标因子经归一化处理后作为自变量，每个评价单元的滑坡敏感性作为因变量；每个评价单元作为一个样本，对所有评价单元提取自变量和因变量，形成样本集；采用留出法、按照保留类别比例的采样方式将样本划分为训练样本集和测试样本集、；

(2)单模型滑坡敏感性分析

选取型线性判别模型、二次判别模型、逻辑回归模型三个单模型，采用训练样本集分别对每个模型进行训练，确定和量化因变量和自变量的关系；采用测试样本集对训练后的模型进行验证，得到单模型的滑坡敏感性分级结果；

(3)单模滑坡敏感性分析的质量评价

def ensemble(train_pool,val_pool,num_samples＝10,iters＝1000,lr＝0.2):

ens_preds＝[]

for seed in range(num_samples):

model＝CatBoostRegressor(iterations＝iters,learning_rate＝lr，

loss_function＝'RMSEWithUncertainty',

posterior_sampling＝True,

verbose＝False,random_seed＝seed)

每一个评价单元分别运行该命令代码数百次，每次采用不同的训练样本；

采用统计分析方法计算每一个评价单元发生滑坡概率的均值μ和标准差σ，得到单模型的不确定性分析曲线，根据对单模型敏感性分析的质量评价和对比，选取拟合度和准确率高、不确定性低的模型作为优质单模型；

(4)最优组合模型敏感性分析

将优质单模型的滑坡敏感性预测值作为自变量，以评价单元是否为滑坡单元作为因变量，使用逻辑回归算法作为组合策略对单个模型预测成果进行集成，得到最优的滑坡敏感性分析结果。

2.根据权利要求1所述方法，其特征在于，步骤(1)采用以下4种方式中的一种来进行滑坡样本采集：(1)利用整个滑坡多边形生成的质心作为栅格单元；(2)选取整个滑坡多边形；(3)选取滑坡后缘及其周围的单元；(4)种子细胞方法，选取滑坡后缘上部和两侧周围的缓冲多边形。

3.根据权利要求1所述方法，其特征在于，步骤(1)中训练样本集的数据量占比为样本总数的2/3。

4.根据权利要求1所述方法，其特征在于，步骤(3)采用不确定性量化方法对单模型的不确定性进行评价，方法如下：采用分层随机抽样技术，准备100组不同的数据集，每一个数据集包括2000个评价单元，其中包含1000个滑坡单元，1000个非滑坡单元，在R语言运行环境中通过独立编写bootstrap_smples_model_variablity命令代码，进行模型不确定评估中的样本选取与参数设置，每一个单一评价单元分别运行代码200次，每次所采用的训练样本不同。

5.根据权利要求1所述方法，其特征在于，步骤(4)具体算法及实现过程如下：

1)随机采样：使用boostrap抽样得到若干不同的训练样本集，以所得训练样本集分别建立模型，得到一系列的基分类器；

2)弱分类器学习：输入样本集D＝{(x₁,y₁),(x₂,y₂),......(x_m,y_m)}，迭代次数为T，对训练样本集进行第t次随机采样，共采集m次，得到包含m个样本的采样集D_m，用采样集D_m训练m个弱学习器G_m(x)；