CN116258279B

CN116258279B - 基于综合赋权的滑坡易发性评价方法和装置

Info

Publication number: CN116258279B
Application number: CN202310520309.2A
Authority: CN
Inventors: 张学东; 解昊云
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2024-01-26
Anticipated expiration: 2043-05-10
Also published as: CN116258279A

Abstract

本发明实施例公开了基于综合赋权的滑坡易发性评价方法和装置。所述方法，包括：获取目标区域的滑坡灾害的样本数据集；将样本数据集分别输入至机器学习模型和层次分析模型进行处理，其中，机器学习模型用于根据样本数据集确定多个目标评价因子的客观权重，层次分析模型用于根据样本数据集确定多个目标评价因子的主观权重；根据多个目标评价因子的客观权重和主观权重，确定多个目标评价因子的综合权重；获取目标区域中多个目标评价因子的目标数据；根据多个目标评价因子的目标数据和综合权重，确定目标区域的滑坡易发性评价结果。基于该方法，其可以以主观和客观结合的方式评估评价因子对于滑坡事件的重要程度，提高对于滑坡事件发生的预测精度。

Description

基于综合赋权的滑坡易发性评价方法和装置

技术领域

本发明实施例涉及地质灾害分析技术领域，尤其涉及基于综合赋权的滑坡易发性评价方法、装置、电子设备和存储介质。

背景技术

滑坡是一种全球性的破坏性地质灾害，广泛发生在山地、高原及丘陵地区，通常是由于暴雨、地震等自然因素或开挖山坡等人为活动影响，斜坡上的土体或岩体沿着一定的软弱面或软弱带整体顺坡向下滑动的现象。其分布范围广、发生频率高，在地形起伏较大地区危险性更大。

滑坡易发性模型是评估区域滑坡易发性的主要方法，该方法可以归纳为定性和定量两个类别。常见的定性方法有专家打分法和层次分析法等，其中，专家打分法主要基于研究者的经验积累及主观判断，评价结果具有较强的主观性和不确定性。层次分析模型是典型的经验模型，该模型通过较少的数据样本采用数学化、系统化的方式去解决多层次、多因素的复杂决策问题，被广泛应用于滑坡易发性评价研究领域。层次分析法虽然在地学领域中应用广泛，但由于其依靠专家经验选取评价指标的方式具有较高的主观性，可信度略低。因此，随着研究的深入，定量化方法逐渐成为滑坡易发性评价研究的热点。定量分析法一般是对数据进行客观的理论分析，对数据质量有较强的依赖性，其数据质量的好坏直接决定着预测精度及评价结果。而且，定量分析法缺乏主观判断，导致评价指标的评估结果不能充分反映指标对于滑坡事件的实际影响。综上，单一的定性或定量模型已不能满足人们对于滑坡预测的研究。

发明内容

本发明实施例的一个目的是解决至少上述问题和/或缺陷，并提供至少后面将说明的优点。

本发明实施例提供了基于综合赋权的滑坡易发性评价方法、装置、电子设备和存储介质，可以提高对于评价因子对滑坡事件发生的重要程度的评估的准确性和全面性，进而提高对于滑坡事件发生的预测精度。

第一方面，提供了一种基于综合赋权的滑坡易发性评价方法，包括：

获取目标区域的滑坡灾害的样本数据集，所述样本数据集中以所述目标区域的多个目标评价因子的一组历史数据以及与所述多个目标评价因子的一组历史数据相对应的滑坡事件数据为一个样本数据；

将所述样本数据集分别输入至机器学习模型和层次分析模型进行处理，其中，所述机器学习模型用于根据所述样本数据集确定所述多个目标评价因子的客观权重，所述层次分析模型用于根据所述样本数据集确定所述多个目标评价因子的主观权重；

根据所述多个目标评价因子的客观权重和主观权重，确定所述多个目标评价因子的综合权重；其中，各目标评价因子的综合权重用于指示各目标评价因子对于滑坡事件的重要程度；

获取所述目标区域中所述多个目标评价因子的目标数据；

根据所述多个目标评价因子的目标数据和综合权重，确定所述目标区域的滑坡易发性评价结果。

可选地，所述方法还包括：

选取多个评价因子；

对所述多个评价因子的相关性和关联性分析，选取不存在相关性和关联性的评价因子，作为目标评价因子。

可选地，所述多个目标评价因子包括高程、坡度、坡向、地貌、距水系距离、距断层距离、地层岩性、植被指数、植被类型、降水量、距道路距离以及土地利用。

可选地，所述获取目标区域的滑坡灾害的样本数据集，包括：

将所述目标区域划分为多个评价单元；

通过确定系数法，计算每个评价单元对应的多个目标评价因子的确定性系数，并根据每个评价单元对应的多个目标评价因子的确定性系数，计算每个评价单元的滑坡易发性指数；

从易发性指数低于预设阈值的评价单元中选取负样本数据。

可选地，所述每个评价单元对应的多个目标评价因子的确定性系数的计算过程，包括：

获取所述目标区域的滑坡密度数据；

对于所述多个目标评价因子中的各目标评价因子，执行以下操作：

将各目标评价因子划分为多个取值区间；

根据所述目标区域的滑坡密度数据在各目标评价因子的多个取值区间的分布情况，确定各目标评价因子的各取值区间的滑坡概率；

基于各目标评价因子的多个取值区间的滑坡概率，对各目标评价因子的多个取值区间进行合并，得到多个目标取值区间；

通过确定系数法确定各目标评价因子的各目标取值区间的确定性系数，并根据各目标评价因子的多个目标取值区间的确定性系数，确定各目标评价因子的确定性系数。

可选地，所述机器学习模型为随机森林模型或基于自适应增强算法改进的随机森林模型。

可选地，所述根据所述多个目标评价因子的客观权重和主观权重，确定所述多个目标评价因子的综合权重，通过以下公式实现：

其中，表示第i个目标评价因子的综合权重，/>表示第i个目标评价因子的主观权重，/>表示第i个目标评价因子的客观权重，n表示目标评价因子的个数。

第二方面，提供了一种基于综合赋权的滑坡易发性评价装置，包括：

样本数据集获取模块，用于获取目标区域的滑坡灾害的样本数据集，所述样本数据集中以所述目标区域的多个目标评价因子的一组历史数据以及与所述多个目标评价因子的一组历史数据相对应的滑坡事件数据为一个样本数据；

样本数据集处理模块，用于将所述样本数据集分别输入至机器学习模型和层次分析模型进行处理，其中，所述机器学习模型用于根据所述样本数据集确定所述多个目标评价因子的客观权重，所述层次分析模型用于根据所述样本数据集确定所述多个目标评价因子的主观权重；

综合权重确定模块，用于根据所述多个目标评价因子的客观权重和主观权重，确定所述多个目标评价因子的综合权重；其中，各目标评价因子的综合权重用于指示各目标评价因子对于滑坡事件的重要程度；

目标数据获取模块，用于获取所述目标区域中所述多个目标评价因子的目标数据；

评价结果确定模块，用于根据所述多个目标评价因子的目标数据和综合权重，确定所述目标区域的滑坡易发性评价结果。

第三方面，提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行所述的方法。

第四方面，提供了一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现所述的方法。

本发明实施例至少包括以下有益效果：

本发明实施例提供了基于综合赋权的滑坡易发性评价方法、装置、电子设备和存储介质。所述方法包括：首先获取目标区域的滑坡灾害的样本数据集，所述样本数据集中以所述目标区域的多个目标评价因子的一组历史数据以及与所述多个目标评价因子的一组历史数据相对应的滑坡事件数据为一个样本数据，然后将所述样本数据集分别输入至机器学习模型和层次分析模型进行处理，其中，所述机器学习模型用于根据所述样本数据集确定所述多个目标评价因子的客观权重，所述层次分析模型用于根据所述样本数据集确定所述多个目标评价因子的主观权重，再根据所述多个目标评价因子的客观权重和主观权重，确定所述多个目标评价因子的综合权重，其中，各目标评价因子的综合权重用于指示各目标评价因子对于滑坡事件的重要程度，最后获取所述多个目标评价因子的目标数据，根据所述多个目标评价因子的目标数据和综合权重，确定所述目标区域的滑坡易发性评价结果。基于该方法、装置、电子设备和存储介质，其可以以主观和客观结合的方式评估评价因子对于滑坡事件的重要程度，实现对于评价因子的定量和定性分析，提高对于评价因子对滑坡事件发生的重要程度的评估的准确性和全面性，进而提高对于滑坡事件发生的预测精度。

本发明实施例的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明实施例的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明一个实施例提供的基于综合赋权的滑坡易发性评价方法的流程图。

图2为本发明另一个实施例提供的基于综合赋权的滑坡易发性评价方法的框图。

图3a为本发明另一个实施例提供的滑坡灾害正样本数据分布示意图。

图3b为本发明另一个实施例提供的随机选择非滑坡灾害负样本数据分布示意图。

图3c为本发明另一个实施例提供的基于确定系数法选择的非滑坡灾害负样本数据分布示意图。

图4为本发明另一个实施例提供的基于CF-ADB_RF模型得到的滑坡易发性分析评价结果。

图5为本发明另一个实施例提供的ROC曲线。

图6为本发明一个实施例提供的基于综合赋权的滑坡易发性评价装置的结构示意图。

图7为本发明一个实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图对本发明实施例做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

图1为本发明实施例提供的基于综合赋权的滑坡易发性评价方法的流程图，由具有处理能力的系统、服务端设备或基于综合赋权的滑坡易发性评价装置执行。如图1所示，该方法包括步骤110至步骤150。

步骤110，获取目标区域的滑坡灾害的样本数据集，所述样本数据集中以所述目标区域的多个目标评价因子的一组历史数据以及与所述多个目标评价因子的一组历史数据相对应的滑坡事件数据为一个样本数据。

意义较少的评价因子会降低模型的预测能力。因此，在一些实施例中，所述方法还包括：选取多个评价因子；对所述多个评价因子的相关性和关联性分析，选取不存在相关性和关联性的评价因子，作为目标评价因子。

在一些示例中，可以采用皮尔逊相关性系数（Pearson CorrelationCoefficient，PCC）剔除相关性较高的评价因子。皮尔逊相关系数反映了两个变量x与y之间的线性相关程度，其输出范围为[-1,1]，负值表示自变量x（独立变量）与y（依赖变量）之间呈现负相关，正值表示x与y之间呈现正相关，0则表示因子之间不存在相关性，即绝对值越接近1，样本相关程度越高。相关性划分如表1所示。

表1 评价因子相关性划分表

两个变量之间的皮尔逊相关性系数是指两个变量之间的协方差和标准差的商，如公式（1）所示：

（1）

式中，为变量 />，/>的协方差，分母为两个变量标准差的乘积。/>、/>分别是/>、 />的平均值，/>为期望。通过协方差与标准差，两组样本之间的皮尔逊相关性系数可表示为

（2）

式中，、 />表示样本变量值， />、 />为样本均值，/>为样本数。皮尔逊相关性系数的绝对值越大，说明评价因子之间的相关性越大。

在一些示例中，可以采用多重共线性检核方法分析评价因子之间的关联性。通过剔除共线性较高的评价因子，提升模型的准确度和可靠性。多重共线性是指存在某两个变量或更多变量之间具有关联性。多重线性检核结果有两列值，一列为容忍度（Tolerance），另一列为方差膨胀因子（VIF），两者互为倒数。通常，若方差膨胀因子VIF值>10，则认为因子存在共线性，而VIF值越大，则认为共线性越严重。

经过相关性和关联性分析后，得到多个目标评价因子。在一些实施例中，所述多个目标评价因子包括高程、坡度、坡向、地貌、距水系距离、距断层距离、地层岩性、植被指数、植被类型、降水量、距道路距离以及土地利用。

在一些实施例中，所述获取目标区域的滑坡灾害的样本数据集，包括：将所述目标区域划分为多个评价单元；通过确定系数法，计算每个评价单元对应的多个目标评价因子的确定性系数，并根据每个评价单元对应的多个目标评价因子的确定性系数，计算每个评价单元的滑坡易发性指数；从易发性指数低于预设阈值的评价单元中选取负样本数据。

在现有方法中，通常采用随机正负样本的方式构建样本数据集。然而，该方法存在样本选择合理性差的问题。基于此，本发明实施例从易发性指数低于预设阈值的评价单元中选取负样本数据，以构建更加均衡的样本数据集。

进一步地，所述每个评价单元对应的多个目标评价因子的确定性系数的计算过程，包括：获取所述目标区域的滑坡密度数据；对于所述多个目标评价因子中的各目标评价因子，执行以下操作：将各目标评价因子划分为多个取值区间；根据所述目标区域的滑坡密度数据在各目标评价因子的多个取值区间的分布情况，确定各目标评价因子的各取值区间的滑坡概率；基于各目标评价因子的多个取值区间的滑坡概率，对各目标评价因子的多个取值区间进行合并，得到多个目标取值区间；通过确定系数法确定各目标评价因子的各目标取值区间的确定性系数，并根据各目标评价因子的多个目标取值区间的确定性系数，确定各目标评价因子的确定性系数。

具体地，上述过程中，在确定各目标评价因子的目标取值区间的过程中，首先需要进行取值区间的预划分。对于离散型数据，其本身各个级别代表了明确的物理意义或不同的用途；而对于连续型数据则需要将其离散化，然后再进行等级划分。然后，根据滑坡灾害点及各目标评价因子的各取值区间进行密度分析，验证每平方公里滑坡密度与各目标评价因子的各取值区间之间的分布关系，以确定各评价因子在每平方公里中各取值区间发生滑坡的概率，综合评价各取值区间对于滑坡易发性影响的重要程度，对相近区间进行合并，以期实现各目标评价因子的合理划分。这里，滑坡密度和滑坡概率均可以根据现有的方法实现计算，本发明实施例对此不做具体限定。

在一些示例中，可以将滑坡概率相近的取值区间进行合并。例如，可以设定一个滑坡概率阈值。当相邻两个取值区间的滑坡概率之间的差距小于滑坡概率阈值，则将相邻两个取值区间合并成为一个取值区间。相应地，当相邻两个取值区间的滑坡概率之间的差距大于滑坡概率阈值，则不对相邻两个取值区间进行合并。

经过上述合并处理后得到的目标取值区间，可以更加准确地反映各目标取值区间对于滑坡事件的重要程度，进而构建出更加均衡的样本数据集。

接下来，基于各目标评价因子的多个目标取值区间，通过确定系数法进一步确定各目标评价因子的确定性系数（即CF值）。确定系数法（certainty factor，CF）是一种分析影响事件发生的各种因素敏感性的概率函数，目前在滑坡易发性评价领域中得到了广泛的应用。CF模型的表达式为：

（3）

式中，为滑坡事件在目标评价因子各分级状态（即目标取值区间）下发生的条件概率，即为某目标评价因子各分级状态中含有滑坡灾害的栅格单元数（或面积）与栅格单元总数（或面积）之比； />为整个研究区内滑坡灾害发生的概率，即为整个研究区内滑坡灾害的栅格单元数（或面积）与栅格单元总数（或面积）之比。

利用CF模型计算出各目标评价因子在各分级状态下CF值，进行求和，可得到各目标评价因子的CF值。之后，在此基础上进行加权求和，得到各评价单元的滑坡灾害易发性指数，其表达式为

（4）

式中，为第/>个评价单元的易发性指数；/>为第/>个评价因子的CF值。

为实现模型的运算，可以将目标评价因子的历史数据进行分级处理并标准化，之后再输入至随机森林模型和层次分析模型中进行处理。例如，高程为1180m，落入高程的第2个目标取值区间1168-1446m，则可以向模型中输入数据2。这里，对于目标评价因子的历史数据的分级处理以及标准化处理过程可以采用本领域的常规做法，本发明实施例对此不做具体限定。

步骤120，将所述样本数据集分别输入至机器学习模型和层次分析模型进行处理，其中，所述机器学习模型用于根据所述样本数据集确定所述多个目标评价因子的客观权重，所述层次分析模型用于根据所述样本数据集确定所述多个目标评价因子的主观权重。

本发明实施例可以以主观和客观结合的方式评估评价因子对于滑坡事件的重要程度，实现对于评价因子的定量和定性分析，提高对于评价因子对滑坡事件发生的重要程度的评估的准确性和全面性，进而提高对于滑坡事件发生的预测精度。

具体地，层次分析法（Analytic Hierarchy Process，AHP），是指将与决策有关的评价指标分解为任务、准则、指标等层次并在此基础之上进行赋权的方法。该方法首先将评价指标条理化、层次化，构建一个有层次的结构模型；其次，构造判断矩阵。由于各层次指标所占比重不同，引用Saaty给出的1-9标度法构造出判断矩阵，最终确定各指标的权重；最后，进行一致性检验。判断矩阵的结果需用一致性比率（consistent ratio，CR）来检验，当CR＜0.1时，认为判断矩阵一致性较好，其表达式为

(5)

(6)

式中，为最大特征值； />为判断矩阵的维数；/>为判断矩阵一致性指标；/>为判断矩阵的随机一致性指标。其中/>值规定如表2所示。本发明实施例共有12类目标评价因子，即 />为12，因此， />取值为1.53。

表2 随机一致性指标

本发明实施例采用地形地貌（高程、坡度、坡向、地貌）、岩性构造（距断层距离、岩性）、资源环境（降雨量、植被类型、距水系距离、植被指数）和人类工程活动（距道路距离、土地利用）等4大类12个目标评价因子建立层次结构模型，并据此对指标因子进行两两比较，开展一致性检验，得到权重结果如表3所示。表3中，组合权重即目标评价因子的主观权重。

表3 层次分析法评价因子权重

在一些实施例中，所述机器学习模型为随机森林模型或基于自适应增强算法改进的随机森林模型。

随机森林(Random Forest，RF)是Breiman提出的基于CART决策树(Classification and Regression trees)的袋装(Bagging)集成算法。该算法为保证其随机性，对训练集进行有放回的随机抽样（bootstrap sample），从原始训练集中抽取样本容量与原始训练集大小一致的n个样本，然后随机选取样本特征，并根据特征进行决策树建模，得到n个建模结果，最后通过投票表决出最终的分类结果。随机森林模型相比其他算法预测效率高，准确率高，对异常值和噪声都具有较好的容忍度。

AdaBoost是Adaptive Boosting（自适应增强）的缩写，其自适应于：被前一个基本分类器误分类的样本的权值会增大，而正确分类的样本的权值会减小，并再次用来训练下一个基本分类器。同时，在每一轮迭代中，加入一个新的弱分类器，直到达到某个预定的足够小的错误率或预先指定的最大迭代次数，再确定最后的强分类器。其基本步骤如下：

（a）初始化训练数据的权值分布。假设有/>个训练样本数据，则每一个训练样本最开始时，都会被赋予相同的权值：/>。

（b）训练弱分类器。如果某个训练样本点被弱分类器/>准确的分类，那么构造下一个训练集中它对应的权值则要减小；相反，如果某个训练样本点被错误分类，那么它的权值就应该增大。权值更新过的样本被用于训练下一个弱分类器，整个过程如此反复迭代。

（c）将各个训练得到的弱分类器组合成一个强分类器。各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，使其在最终的分类函数中起着较大的决定作用，而降低分类误差率大的弱分类器的权重，使其在最终的分类函数中起着较小的决定作用。

AdaBoost计算系数表达式为

(7)

式中，表示第 />次分类中错误分类的样本权重之和。

本发明实施例结合AdaBoost算法自适应调整数据分布及随机森林算法较强的分类预测准确性的优点，提出一种基于自适应提升的改进随机森林（ADB_RF）算法，旨在提高易发性分类模型的准确度及可靠性。具体地，随机森林模型原本的各个决策树是等权重的，使用AdaBoost算法调整随机森林模型的决策树，根据正确率高低分配权重而不再是等权重，以此提升分类模型的准确度。由此，本发明实施例采用分类准确度较高、泛化能力较强的自适应提升算法调整随机森林模型中决策树的投票权重，其分类能力越强则权重越高，最后通过投票表决出最终的分类结果，同时可以得到特征的重要性排名，得到一组客观权重，如表4所示。

表4 ADB_RF算法因子客观权重

步骤130，根据所述多个目标评价因子的客观权重和主观权重，确定所述多个目标评价因子的综合权重；其中，各目标评价因子的综合权重用于指示各目标评价因子对于滑坡事件的重要程度。

由于层次分析法是依据背景调查、文献参考及专家经验对各评价指标的重要性进行打分来构建判断矩阵，所以在此过程中存在着一定的主观性。针对此问题，本发明实施例提出了一种基于ADB_RF的赋权层次分析法模型。该模型通过层次分析法确定各目标评价因子的主观权重，与ADB_RF算法得到的客观权重进行组合赋权，得到综合权重，解决了模型定性与定量之间的矛盾，提高了模型的预测精度，使滑坡易发性评价的结果得到了保障。

综合权重计算表达式为

(8)

式中，表示第i个目标评价因子的综合权重， />表示第i个目标评价因子的主观权重，/>表示第i个目标评价因子的客观权重，n表示目标评价因子的个数。

使用综合加权法获得的最终因子权重如表5所示。

表5 综合权重

步骤140，获取所述目标区域中所述多个目标评价因子的目标数据。

目标评价因子的目标数据即目标评价因子的取值。

步骤150，根据所述多个目标评价因子的目标数据和综合权重，确定所述目标区域的滑坡易发性评价结果。

为实现模型的运算，可以将目标评价因子的目标数据进行分级处理并标准化，之后再输入至层次分析模型中进行滑坡易发性评价分析。例如，高程为1180m，落入高程的第2个目标取值区间1168-1446m，则可以向模型中输入数据2。这里，对于目标评价因子的目标数据的分级处理以及标准化处理过程可以采用本领域的常规做法，本发明实施例对此不做具体限定。

在将多个目标评价因子的目标数据经分级处理以及标准化处理后，输入至层次分析模型中，结合模型所确定的多个目标评价因子的综合权重，即可以得到目标区域的滑坡易发性评价结果。具体地，基于多个目标评价因子的综合权重，可以将多个目标评价因子的数据进行加权求和，得到一个滑坡易发性评价数据。将滑坡易发性评价数据与预先设定的滑坡易发性评价等级进行对照，根据滑坡易发性评价数据所符合的等级，确定目标区域属于不易发区、低易发区、中易发区、高易发区或极高易发区。这里，根据所述多个目标评价因子的目标数据和综合权重，确定目标区域的滑坡易发性评价结果，可以采用现有的方法过程加以实现，本发明实施例对此不做具体限定。

综上所述，本发明实施例所提供的基于综合赋权的滑坡易发性评价方法，首先获取目标区域的滑坡灾害的样本数据集，所述样本数据集中以所述目标区域的多个目标评价因子的一组历史数据以及与所述多个目标评价因子的一组历史数据相对应的滑坡事件数据为一个样本数据，然后将所述样本数据集分别输入至机器学习模型和层次分析模型进行处理，其中，所述机器学习模型用于根据所述样本数据集确定所述多个目标评价因子的客观权重，所述层次分析模型用于根据所述样本数据集确定所述多个目标评价因子的主观权重，再根据所述多个目标评价因子的客观权重和主观权重，确定所述多个目标评价因子的综合权重，其中，各目标评价因子的综合权重用于指示各目标评价因子对于滑坡事件的重要程度，最后获取所述多个目标评价因子的目标数据，根据所述多个目标评价因子的目标数据和综合权重，确定所述目标区域的滑坡易发性评价结果。基于该方法，其可以以主观和客观结合的方式评估评价因子对于滑坡事件的重要程度，实现对于评价因子的定量和定性分析，提高对于评价因子对滑坡事件发生的重要程度的评估的准确性和全面性，进而提高对于滑坡事件发生的预测精度。

以下提供一个具体的实施场景，以进一步说明本发明实施例提供的基于综合赋权的滑坡易发性评价方法。图2示出了本发明另一个实施例提供的基于综合赋权的滑坡易发性评价方法的流程图。

本发明实施例使用的历史滑坡灾害数据来自中国科学院地理科学与资源研究所。研究区域内滑坡编目资料中共有滑坡1169处，其中小型滑坡426起、中型滑坡591起、大型滑坡150起、特大型滑坡两起。

1、目标评价因子确定

滑坡易发性评价因子主要包括地形、地质、土地覆盖、生态、气象、地震和人类工程活动等数据。为更好地了解研究区的环境和生态情况，本发明实施例选取地形（高程、坡度、坡向、地貌）、地质（距水系距离、距断层距离、地层岩性）、生态（植被指数、植被类型）、气象（降水量）、人类工程活动（距道路距离、土地利用）等12个指标因子，对滑坡易发性进行评价和分析。所有数据统一分辨率为80m，投影坐标系均为WGS_1984_UTM_Zone_48N。

本发明实施例将1169处滑坡样本点属性值进行皮尔逊相关性系数检验，得到各个目标评价因子之间的皮尔逊相关性系数表，如表6所示。由表6可知，各目标评价因子均具有较高的相互独立性（<0.5），均可参与后续建模过程。

表6 各目标评价因子的皮尔逊相关性系数表

在上述研究基础上，本发明实施例对12类目标评价因子的属性值进行多重共线性检核，得到各因子的共线检验结果，如表7所示。表7显示各目标评价因子之间均满足不共线性，可以用于后续建模。

表7 多重共线性检核表

综上，本发明实施例采用皮尔逊相关性系数及多重共线性检核来分析各评价因子间的相关性，剔除皮尔逊相关性系数大于0.5（ρ>0.5）或VIF值>10的因子，保证各因子之间具有独立性。结合表6和表7可知，选取的12类评价因子（高程、坡度、坡向、降水量、距道路距离、距水系距离、距断层距离、地形地貌、地层岩性、土地利用、植被类型和植被指数）均具有较高的相互独立性，均可参与后续实验研究。

2、样本优化选择

对滑坡灾害点及目标评价因子数据进行密度分析，验证每平方公里滑坡密度与目标评价因子的各目标取值区间之间的关系，确定各目标评价因子各各取值区间之间发生滑坡的概率；再对滑坡概率相近的取值区间进行合并，得到最终的各目标评价因子的分级结果；在此基础上，通过确定系数法得到易发性指数，在易发性指数小于0.4的区域内随机选择与滑坡点数目一致的负样本点，组成负样本数据集。分级结果（即经过合并处理后的目标取值区间）如表8所示。

表8 目标评价因子的分级标准

/>

将滑坡灾害点与各评价因子叠加进行统计分析。

（1）高程：滑坡灾害事件最多发生于高程1676m-1861m间，共291起。在高程2746m-3611m间滑坡灾害数量最低，但滑坡密度较上个区间稍有提升。滑坡密度最大值约为0.06，分布在1446m-1676m之间。

（2）坡度：大多数滑坡发生在坡度8°-24°之间，约占全部滑坡的60.1%。其中，坡度14°-19°间滑坡灾害事件发生最多，共282起，占比约为24.1%。只有3.8%的滑坡事件发生在坡度36°-44°的区间，0.9%的滑坡事件发生在44°以上的坡度内。在滑坡密度分析中，坡度14°-19°间灾害数量最多，同时滑坡密度也最高，约为0.053；坡度30°-36°间灾害数量仅占12.5%，但滑坡密度高居第二位，约为0.046。

（3）坡向：各个类别中滑坡灾害事件分布较为均衡，坡向31°-68°及坡向322°-360°间滑坡事件稍多，分别为132和131起。坡向31°-68°间滑坡密度最高为0.051，其他区间内滑坡密度较为均衡，无太大起伏。

（4）距道路距离：83.7%的滑坡灾害发生在距道路3500米范围外，其他类别中滑坡事件分布大致相等，小于700米范围中滑坡事件稍多，共发生了79起，其他类别中滑坡事件均不超过50起。每平方千米滑坡密度值最高为0.062，分布在距道路小于700米范围区间。

（5）距断层距离：约59.3%的滑坡事件发生在距断层3500米范围外，约30.4%的滑坡事件发生在2100米范围内。其中，700-1400米范围区间滑坡事件稍多，共149起。每平方千米滑坡密度值最高为0.062，分布在距断层小于700米范围内，并且随着距离的增加，滑坡密度大致呈下降趋势。

（6）距水系距离：约86.8%的滑坡事件发生在距水系1000米范围外，在距水系0-200米区间和600-800米区间分别发生滑坡灾害80起和67起，位列第二位和第三位；其他区间灾害发生仅为个位数。每平方千米滑坡密度呈现出波浪形，最高在0-200米范围内，滑坡密度为0.074；最低为400-600米范围内，滑坡密度仅有0.002。

（7）降雨量：90.9%的滑坡事件发生在708.1-904.6mm/yr的区间范围内。其中，758-791.1mm/yr区间发生滑坡事件最多，共320起，此区间中每平方千米滑坡密度也为最高，约为0.063。每平方千米滑坡密度最低为0.017，分布在629.4-708.1mm/yr区间范围中。

（8）地层岩性：大部分滑坡灾害分布在三叠系、侏罗系和白垩系地层岩性中，约占全部灾害的85.2%；青白口系至石炭系8个类别中滑坡灾害共发生19起，占比较少。每平方千米滑坡密度最高为志留系的0.282，其次为二叠系的0.168，其他类别滑坡密度起伏不大，稳定在0.026左右。

（9）地貌：989起滑坡灾害发生在中高海拔中起伏和大起伏山地，占全部滑坡事件的84.6%；中海拔冲击洪积平原、低海拔小起伏山地、中海拔小起伏和中起伏山地共发生滑坡灾害88起，占比较少。每平方千米滑坡密度最高为0.098，分布在中海拔中起伏山地，其他地貌中滑坡密度大致相等，大约在0.037左右。

（10）土地利用：大部分滑坡灾害分布在林地、耕地和草地范围内，共发生1161起，占全部滑坡事件的99.3%。其中，林地发生滑坡灾害最多，共650起，占比55.6%；未利用土地范围中没有滑坡灾害发生。从滑坡密度而言，每平方千米滑坡密度起伏较大，最高为0.061，分布在耕地范围中。

（11）植被类型：97.6%的滑坡事件发生在栽培植被、灌丛、针叶林和草丛范围内，共1141起；草甸和阔叶林发生滑坡灾害占比较少，共28起。每平方千米滑坡密度最高为0.063，主要分布在草甸区；而栽培植被、灌丛、针叶林和草丛滑坡密度相差不大，大约在0.041左右。

（12）植被指数：植被指数在[153,176]范围内滑坡灾害发生最多为314起，约占全部滑坡事件的26.7%；植被指数在[222,250]范围内滑坡灾害发生最少，共发生36起，占比仅为3.1%。每平方千米滑坡密度起伏较大，最高点0.076分布在植被指数[130,153]范围内；最低点0.008分布在植被指数[222,250]范围内。

使用确定系数法按公式（3）和（4）计算各目标评价因子在不同目标取值区间中的CF值及易发性指数，得到滑坡易发性趋势，如表9所示。

表9 目标评价因子CF值

/>

滑坡灾害正样本数据分布如图3a所示（图3a中实心黑点代表滑坡灾害点，即正样本），随机选择非滑坡灾害负样本空间分布如图3b所示（图3b中实心黑点代表非滑坡灾害点，即负样本），CF法（即确定系数法）选择负样本空间分布如图3c所示（图3c中实心黑点代表非滑坡灾害点，即负样本）。从图3b可知，随机选择负样本方法获取的样本不受高程影响，在空间中分布较为均匀；CF法选择的负样本多数分布在区间两端，避开了滑坡灾害多发的中间区段，选取的样本具有较强的稳健性。

3、滑坡易发性分区结果分析

滑坡易发性分区图展示了已知的目标评价因子与滑坡事件之间的定量关系，是预测理论与实际的结合。为了验证确定系数法优化样本的有效性及ADB_RF模型的可靠性，对随机选择生成的样本和CF法选择生成的样本分别利用RF模型和ADB_RF模型进行实验验证，开展了随机选择样本的随机森林模型（RS-RF）、随机选择样本的ADB_RF模型（RS-ADB_RF）、CF法选择样本的随机森林模型（CF-RF）和CF法选择样本的ADB_RF模型（CF-ADB_RF）的相关实验；根据CF-ADB_RF模型得到客观权重与层次分析法得到的主观权重进行加权叠加，得到CF-综合赋权实验结果；最后采用自然间断法将研究区易发性分为不易发区、低易发区、中易发区、高易发区和极高易发区5个等级。基于CF-ADB_RF模型得到的滑坡易发性分析评价结果如图4所示（图4中实心黑点代表滑坡灾害点）。对不同模型各等级分布进行统计，如表10所示。

根据各模型的滑坡易发性分析评价结果以及表10可知，不同模型得到的滑坡易发性分布分区大致相似，趋势大体相同。其中，极高易发区与滑坡灾害点分布较为准确，高易发区、中易发区和低易发区的划分则略有不同，但目视解译区别并不明显。目标区域内全州范围内滑坡极高易发区分布较为分散。从整体来看，西北部地区相比于东南部地区极高易发区较多，与该区域地势大致由西北向东南倾斜相符；而西南地区也有明显的滑坡极高易发区，这与当地山地面积居多有关，山高坡陡、沟谷纵横，从而导致滑坡灾害发生次数多。从县域范围看，A县南部、B县北部、C县东部、D县南部、E市西部以及F县东部都有明显的滑坡极高易发区，尤其是位于南华县南部与E市西北部的交界区域，滑坡极高易发区明显。结合当地环境、降雨量及高程数据来看，该区域降雨量高，礼杜江贯穿群山之间形成峡谷，是典型的滑坡易发区域，因此，各种模型在此地得到的结果均为滑坡极高易发区。与之相反，在G县东南部与H县西北部是明显的滑坡低易发区，这主要与当地降雨较少、地势平缓有关。

表10 滑坡易发性分区百分比(%)

4、滑坡易发性分区统计分析

由于高精度滑坡易发性评价图可清晰显示可能再次发生滑坡的区域，因此，统计各滑坡易发性分区中的滑坡灾害点个数占比及每平方千米滑坡密度。各模型分析的滑坡灾害点占比统计见表11。由表11可知，已发生的滑坡灾害事件多处于高易发区或极高易发区，进一步说明了研究得到的滑坡易发性评价结果的可靠性。

表11 滑坡灾害点占比统计(%)

随着灾害易发性指数的提升，各分区内的滑坡灾害点个数及占比也随之不断增加，在极高易发性分区中达到最大，此分区中各模型滑坡灾害点个数依次为365、658、783、557和687，所占比例依次为31.57%、56.92%、67.73%、48.18%及59.44%；同时在各区域占比大致相似的情况下，RS-ADB_RF模型、CF-RF模型、CF-ADB_RF模型和CF-综合赋权模型的每平方千米滑坡密度都随着灾害易发性指数的升高而增大，四种模型在极高易发区域的滑坡密度依次为0.1757、0.1621、0.1135、0.1252，只有RS-RF模型的滑坡密度最高值在高易发区，为0.0724。从各分区灾害点个数占比、每平方千米滑坡密度的分布情况来看，5种模型方法均能在研究区内对滑坡灾害的易发性进行很好的预测，但相比RS-RF和RS-ADB_RF模型，CF-RF和CF-ADB_RF模型精度更高；且相比RF模型，ADB_RF模型精度更高。所以，CF-ADB_RF赋权层次分析法模型具备相对更高的准确度和预测能力。

5、模型精度验证

为了比较滑坡易发性评价研究中各模型的性能，本发明实施例引入接受者操作特性曲线（ROC）及其线下面积值(AUC)来评价模型的准确性与可靠性。通过统计各模型的敏感性（即预测为滑坡的滑坡样本）和1-特异性（即预测为滑坡的非滑坡样本）生成ROC曲线。ROC曲线是比较二分类模型质量的常用工具之一，它是根据式（9）和式（10）对滑坡易发性模型的敏感性与特异性进行评价，即以假阳性率（FPR）为横坐标，真阳性率（TPR）为纵坐标绘制而成。

（9）

（10）

ROC曲线通过整体精度来表达模型的准确性，通过表达模型正确预测事件发生或者不发生来评价模型的质量。AUC值为ROC曲线下面积，其取值介于[0,1]，取值越接近1，说明模型预测精度越高。各模型的AUC值如表12所示。

表12各模型的AUC值

由表12可知，本发明实施例所构建的五种模型在目标区域内均具有较高的预测精度。其中，CF-综合赋权模型AUC值为0.961，高于其他四种模型；RS-RF模型AUC值最低，仅为0.775；其他模型依次为：CF-ADB_RF模型AUC值为0.927，CF-RF模型AUC值为0.907，RS-ADB_RF模型AUC值为0.863。相比RS-RF模型，CF-RF模型的AUC值提升了0.132，而CF-ADB_RF模型比RS-ADB_RF模型的AUC值同样提升了0.064，这表明使用CF法可以提升样本数据集质量，从而增强了预测结果的准确性。此外，通过图5中的ROC曲线可知，CF-综合赋权模型的曲率最大，表明其性能要优于其他模型。因此，综合上述结果可知，CF-综合赋权模型是此研究区内效果最佳的模型，对滑坡易发性评价分析更加准确可靠，可作为滑坡灾害治理与决策的参考依据。

图6示出了本发明实施例提供的基于综合赋权的滑坡易发性评价装置的结构示意图。如图6所示，该基于综合赋权的滑坡易发性评价装置600，包括：样本数据集获取模块610，用于获取目标区域的滑坡灾害的样本数据集，所述样本数据集中以所述目标区域的多个目标评价因子的一组历史数据以及与所述多个目标评价因子的一组历史数据相对应的滑坡事件数据为一个样本数据；样本数据集处理模块620，用于将所述样本数据集分别输入至机器学习模型和层次分析模型进行处理，其中，所述机器学习模型用于根据所述样本数据集确定所述多个目标评价因子的客观权重，所述层次分析模型用于根据所述样本数据集确定所述多个目标评价因子的主观权重；综合权重确定模块630，用于根据所述多个目标评价因子的客观权重和主观权重，确定所述多个目标评价因子的综合权重；其中，各目标评价因子的综合权重用于指示各目标评价因子对于滑坡事件的重要程度；目标数据获取模块640，用于获取所述目标区域中所述多个目标评价因子的目标数据；评价结果确定模块650，用于根据所述多个目标评价因子的目标数据和综合权重，确定所述目标区域的滑坡易发性评价结果。

在一些实施例中，所述装置还包括：

评价因子选取模块，用于选取多个评价因子；

目标评价因子选取模块，用于对所述多个评价因子的相关性和关联性分析，选取不存在相关性和关联性的评价因子，作为目标评价因子。

在一些实施例中，所述多个目标评价因子包括高程、坡度、坡向、地貌、距水系距离、距断层距离、地层岩性、植被指数、植被类型、降水量、距道路距离以及土地利用。

在一些实施例中，所述样本数据集获取模块，包括：

评价单元划分子模块，用于将所述目标区域划分为多个评价单元；

滑坡易发性指数计算子模块，用于通过确定系数法，计算每个评价单元对应的多个目标评价因子的确定性系数，并根据每个评价单元对应的多个目标评价因子的确定性系数，计算每个评价单元的滑坡易发性指数；

负样本数据选取子模块，用于从易发性指数低于预设阈值的评价单元中选取负样本数据。

在一些实施例中，所述滑坡易发性指数计算子模块，具体用于：

滑坡密度数据获取单元，用于获取所述目标区域的滑坡密度数据；

取值区间划分单元，用于将各目标评价因子划分为多个取值区间；

滑坡概率划分单元，用于根据所述目标区域的滑坡密度数据在各目标评价因子的多个取值区间的分布情况，确定各目标评价因子的各取值区间的滑坡概率；

目标取值区间确定单元，用于基于各目标评价因子的多个取值区间的滑坡概率，对各目标评价因子的多个取值区间进行合并，得到多个目标取值区间；

确定性系数计算单元，用于通过确定系数法确定各目标评价因子的各目标取值区间的确定性系数，并根据各目标评价因子的多个目标取值区间的确定性系数，确定各目标评价因子的确定性系数。

在一些实施例中，所述综合权重确定模块，通过以下公式实现：

图7示出了本发明实施例的电子设备。如图7所示，电子设备700包括：至少一个处理器710，以及与至少一个处理器710通信连接的存储器720，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行的方法。

具体地，上述存储器720和处理器710经由总线730连接在一起，能够为通用的存储器和处理器，这里不做具体限定，当处理器710运行存储器720存储的计算机程序时，能够执行本发明实施例中结合图1至图6所描述的各项操作和功能。

在本发明实施例中，电子设备700可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动计算设备、智能电话、平板计算机、个人数字助理（PDA）、手持装置、消息收发设备、可佩带计算设备等等。

本发明实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现的方法。具体实现可参见方法实施例，在此不再赘述。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该存储介质中的指令。从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的存储介质构成了本发明的一部分。

存储介质包括但不限于软盘、硬盘、磁光盘、光盘、磁带、非易失性存储卡和ROM。还可以通过通信网络从服务器计算机上或者云上下载程序代码。

需要说明的是，上述各流程和各系统结构中，不是所有的步骤和模块都是必须的，可以根据实际需要忽略某些步骤和单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中的描述的装置结构可以是物理结构，也可以是逻辑结构。某个模块或单元可能由同一物理实体实现，某个模块或单元可能由多个物理实体分别实现，某个模块或单元还可以由多个独立设备中的多个部件共同实现。

尽管本发明实施例的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明实施例的领域。对于熟悉本领域的人员而言，可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下，本发明实施例并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于综合赋权的滑坡易发性评价方法，其特征在于，包括：

获取目标区域的滑坡灾害的样本数据集，经过相关性和关联性分析后，得到多个目标评价因子，所述样本数据集中以所述目标区域的多个目标评价因子的一组历史数据以及与所述多个目标评价因子的一组历史数据相对应的滑坡事件数据为一个样本数据；

所述获取目标区域的滑坡灾害的样本数据集，包括：将所述目标区域划分为多个评价单元；通过确定系数法，计算每个评价单元对应的多个目标评价因子的确定性系数，并根据每个评价单元对应的多个目标评价因子的确定性系数，计算每个评价单元的滑坡易发性指数；从易发性指数低于预设阈值的评价单元中选取负样本数据；

所述每个评价单元对应的多个目标评价因子的确定性系数的计算过程，包括：获取所述目标区域的滑坡密度数据；对于所述多个目标评价因子中的各目标评价因子，执行以下操作：将各目标评价因子划分为多个取值区间；根据所述目标区域的滑坡密度数据在各目标评价因子的多个取值区间的分布情况，确定各目标评价因子的各取值区间的滑坡概率；基于各目标评价因子的多个取值区间的滑坡概率，对各目标评价因子的多个取值区间进行合并，得到多个目标取值区间；

通过确定系数法确定各目标评价因子的各目标取值区间的确定性系数，并根据各目标评价因子的多个目标取值区间的确定性系数，确定各目标评价因子的确定性系数；

将所述样本数据集分别输入至机器学习模型和层次分析模型进行处理，其中，所述机器学习模型为基于自适应增强算法改进的随机森林模型，自适应提升算法调整随机森林模型中决策树的投票权重，所述机器学习模型用于根据所述样本数据集确定所述多个目标评价因子的客观权重，所述层次分析模型用于根据所述样本数据集确定所述多个目标评价因子的主观权重；

获取所述目标区域中所述多个目标评价因子的目标数据；

根据所述多个目标评价因子的目标数据和综合权重，将多个目标评价因子的数据进行加权求和，得到一个滑坡易发性评价数据，确定所述目标区域的滑坡易发性评价结果；所述根据所述多个目标评价因子的客观权重和主观权重，确定所述多个目标评价因子的综合权重，通过以下公式实现：

其中，W_hi表示第i个目标评价因子的综合权重，α_i表示第i个目标评价因子的主观权重，β_i表示第i个目标评价因子的客观权重，n表示目标评价因子的个数。

2.如权利要求1所述的基于综合赋权的滑坡易发性评价方法，其特征在于，所述多个目标评价因子包括高程、坡度、坡向、地貌、距水系距离、距断层距离、地层岩性、植被指数、植被类型、降水量、距道路距离以及土地利用。

3.一种基于综合赋权的滑坡易发性评价装置，其特征在于，包括：

样本数据集获取模块，用于获取目标区域的滑坡灾害的样本数据集，经过相关性和关联性分析后，得到多个目标评价因子，所述样本数据集中以所述目标区域的多个目标评价因子的一组历史数据以及与所述多个目标评价因子的一组历史数据相对应的滑坡事件数据为一个样本数据；

样本数据集处理模块，用于将所述样本数据集分别输入至机器学习模型和层次分析模型进行处理，所述机器学习模型为基于自适应增强算法改进的随机森林模型，自适应提升算法调整随机森林模型中决策树的投票权重，所述机器学习模型用于根据所述样本数据集确定所述多个目标评价因子的客观权重，所述层次分析模型用于根据所述样本数据集确定所述多个目标评价因子的主观权重；

评价结果确定模块，用于根据所述多个目标评价因子的目标数据和综合权重，将多个目标评价因子的数据进行加权求和，得到一个滑坡易发性评价数据，确定所述目标区域的滑坡易发性评价结果；

所述根据所述多个目标评价因子的客观权重和主观权重，确定所述多个目标评价因子的综合权重，通过以下公式实现：

4.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-2中任一项所述的方法。

5.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求1-2中任一项所述的方法。