CN116881652B

CN116881652B - 基于优选负样本和随机森林模型的滑坡易发性评价方法

Info

Publication number: CN116881652B
Application number: CN202310762135.0A
Authority: CN
Inventors: 刘栋; 武双斌; 邓辉; 张文江; 郑予; 刘严松
Original assignee: Chengdu Univeristy of Technology
Current assignee: Chengdu Univeristy of Technology
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2024-04-05
Anticipated expiration: 2043-06-26
Also published as: CN116881652A

Abstract

基于优选负样本和随机森林模型的滑坡模型评价方法，包括模型训练方法，所述模型训练方法包括以下步骤：步骤S1.获取历史滑坡数据，作为滑坡正样本数据；步骤S2.收集研究对象区域内的离散型滑坡评价因子数据，各个滑坡评价因子数据组成滑坡评价因子数据集；步骤S3.剔除滑坡评价因子数据集中的不合格因子；步骤S4.经过步骤S3剔除后的滑坡评价因子数据集进行递归特征消除，步骤S5.收集研究对象区域内的待研究数据点作为负样本来源集合，步骤S6.将步骤S1、S4、S5得到的数据进行训练得到最终评价模型。利用最终评价模型进行滑坡易发性评价。本发明能够显著提高滑坡易发性评价精度。

Description

基于优选负样本和随机森林模型的滑坡易发性评价方法

技术领域

本发明属于地质技术领域，涉及地质灾害评估,具体涉及一种基于优选负样本和随机森林模型的滑坡易发性评价方法。

背景技术

在构建基于机器学习算法的滑坡易发性评价模型时，输入的训练数据需包含滑坡与非滑坡两类数据，其中滑坡数据常通过野外调查、遥感解译得到，数据质量有一定保障，而非滑坡数据由于无法直接获取，需在已有滑坡数据区域外采样得到。目前研究中常采用主观推断或者在一定缓冲区外进行随机采样得到。然而在实际环境中，某些尚未发生滑坡灾害的区域同样具有新生滑坡的环境特征，只是缺少诱发条件而未发生滑坡，如果直接在这些区域内进行非滑坡点采样，则得到的非滑坡点样本极有可能包含潜在的滑坡点。非滑坡点的误选会降低整个样本数据集的质量，影响滑坡易发性评价精度。

目前滑坡易发性评价研究主要集中在评价模型、评价影响因子、评价单元问题上，对滑坡样本采样关注较少。所以，如何获取足够多的、具有代表性的非滑坡样本，也是进行滑坡易发性评价需要考虑的问题。

发明内容

为克服现有技术的缺陷，本发明公开了一种基于优选负样本和随机森林模型的滑坡易发性评价方法。

本发明所述基于优选负样本和随机森林模型的滑坡易发性评价方法，包括模型训练方法，所述模型训练方法包括以下步骤：

步骤S1.获取历史滑坡数据，从历史滑坡数据中提取滑坡影响范围，将地理坐标表示的滑坡影响范围划分成多个栅格单元，所述栅格单元及对应的滑坡评价因子的集合作为滑坡正样本数据；

步骤S2.收集研究对象区域内的离散型滑坡评价因子数据，各个滑坡评价因子数据组成滑坡评价因子数据集；

步骤S3.剔除滑坡评价因子数据集中的不合格因子；

步骤S4.经过步骤S3剔除后的滑坡评价因子数据集进行递归特征消除，具体为：

S41.对当前滑坡评价因子数据集的全部滑坡评价因子作为特征，组成初始特征子集{F₁，F₂，F₃，…F_n}，并将其带入随机森林模型进行训练，计算出当前每个特征的重要性f＝{f₁，f₂，f₃，…f_n}；并输出模型精度值；

S42.对当前各个特征的重要性f_k进行排序，并去除值最小的重要性f_k对应的特征F_k，构建新的特征子集{F₁，…，F_k-1，F_k+1，…F_n，}；

S43.重复步骤S41-S42直到特征子集只剩余1个评价因子。

从各个特征子集选择出模型精度值最高的作为最优特征子集；

步骤S5.

S51.收集研究对象区域内的待研究数据点作为负样本来源集合，

S52.采用单分类算法从所述负样本来源集合中获取滑坡负样本数据；具体为：

求解公式1，以求解结果为基础构造分离超平面：

其中，约束条件为：ω^Tφ(x_i)≥ρ-ξ_i，ξ_i＞＞0，i＝1，2，...，m

公式1中，ω为权重向量；上标T表示矩阵的转置；ξ_i为松弛变量；ρ为偏移参数；v为异常值的上限比例；φ(x_i)为输入数据点x_i的特征映射函数；m为训练样本的数量；||·||表示欧几里得范数。

求解公式1的步骤为：

构建拉格朗日函数：

α_i和β_i为拉格朗日乘子，x_i为步骤1中的滑坡正样本数据，对公式2以x_i为变量求导，令导数等于零，得出最佳权重向量ω1和最佳偏移参数ρ1，从而定义一个分离超平面；

S53.对负样本来源集合通过公式3进行分类；

prediction(x)＝sign(w^Tφ(x)-ρ)--公式3

sign()为符号函数，公式3中的ω和ρ即为S52步骤中求得的最佳权重向量ω1和最佳偏移参数ρ1，x为负样本来源集合中的待研究数据点；

根据公式3，求出的预测值prediction(x)如为-1，则表示测试样本点为离群点，如为1表示为正常样本，可作为负样本数据；

S53.确定出与步骤S1中正样本数据数量一致的非滑坡点作为负样本数据；

步骤S6.构建基于随机森林算法的滑坡易发性评价模型，将步骤S1与步骤S5得到的滑坡正样本数据与负样本数据，以及这些样本数据对应并由步骤S4确定的最优特征子集定义的滑坡影响因子数据合并，构成样本集合，利用样本集合对滑坡易发性评价模型，得到最终评价模型，模型训练完成；

所述滑坡易发性评价方法为按照步骤S2至S5对研究对象区域进行负样本数据提取，将负样本数据及其对应的由步骤S4确定的最优特征子集定义的滑坡影响因子数据合并，输入步骤S6得到的最终评价模型，输出评价结果。

优选的，所述步骤S2中若获取的滑坡评价因子数据为连续型数据，应用自然断点法将连续型数据转换为离散型。

优选的，所述步骤S3具体为：利用共线性诊断剔除滑坡评价因子数据集中相关性较大的评价因子，公式如下所示：

容许度

方差膨胀系数VIF＝1/TOL

式中，R_j ²表示滑坡评价因子数据集中第j个滑坡评价因子对其余因子做回归时的相关系数；

设定容许度阈值和方差膨胀系数阈值，评价因子的容许度大于容许度阈值，方差膨胀系数小于方差膨胀系数阈值认为是超过阈值，如果VIF和TOL均超过阈值，则将其剔除。

优选的，所述步骤S3还包括相关性剔除，所述相关性剔除采用皮尔逊系数作为指标，设置相关性阈值，当皮尔逊系数取绝对值后大于所述相关性阈值则剔除该滑坡评价因子。

优选的，所述步骤S6中，在构建之前，利用网格搜索法对于随机森林模型进行参数优化。

优选的，所述步骤S6中评价时，将滑坡易发性按概率大小等间隔分为多个不同等级。

本发明还公开了一种基于优选负样本和随机森林模型的滑坡模型，为如上所述方法中步骤S6得到的最终评价模型。

本发明所述基于优选负样本和随机森林模型的滑坡易发性评价方法，利用优选负样本和随机森林模型结合，区划结果更加合理，能够显著提高滑坡易发性评价精度。

附图说明

图1为本发明所述评价方法的一个具体实施方式流程示意图；

图2是本发明一个具体实施例中滑坡评价因子相关性分析示意图；

图3是本发明一个具体实施例中递归特征消除因子的示意图；

图4是本发明一个具体实施例中提取的非滑坡点分布图；

图5是本发明一个具体实施例中利用现有随机森林模型进行易发性评价结果示意图；

图6是本发明一个具体实施例中利用本发明得到的评价模型进行易发性评价结果示意图；

图7是本发明一个具体实施例现有随机森林模型和本发明的ROC曲线对比示意图；

具体实施方式

下面对本发明的具体实施方式做进一步的详细说明。

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施方式及相应的附图对本发明技术方案进行清楚、完整的阐述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为使本发明的目的、技术方案和有点更加清楚，下面将结合附图对本发明实施方式作进一步描述。

本发明所述基于优选负样本和随机森林模型的滑坡易发性评价方法,需要首先对模型进行训练，训练模型的步骤如图1所示，包括以下步骤：

步骤S1.通过查询相关资料获取历史滑坡数据，将滑坡影响范围转换成多个30m×30m的栅格单元，作为滑坡正样本数据；

步骤S2.收集研究对象区域内滑坡评价因子数据，所述滑坡评价因子包括地形地貌、地质构造、气象水文、人类工程活动等，通常通过GIS平台获取滑坡评价因子数据，各个滑坡评价因子数据组成滑坡评价因子数据集，

若获取的滑坡评价因子数据为连续型数据，应用自然断点法将连续型数据转换为离散型。

在选择滑坡影响因子时，应该考虑各因子的冗余性，所选择的因子之间互不重复，避免重复计算和冗余分析。以下步骤通过共线性诊断与相关性分析可以剔除冗余因子，保证滑坡易发性评价的可靠性。

步骤S3.利用共线性诊断与相关性分析剔除相关性较大的评价因子，二者公式如下所示：

容许度

方差膨胀系数VIF＝1/TOL

式中，R_j ²表示滑坡评价因子数据集中第j个滑坡评价因子对其余因子做回归时的相关系数。

如果VIF和TOL均超过给定阈值，则认为该滑坡评价因子存在多重共线性,将其剔除。

本实施例中设置容许度阈值为0.1，方差膨胀系数阈值为10，若VIF>10和TOL<0.1，认为超过给定阈值。如表1可知，所有因子均通过共线性诊断。

表1滑坡影响因子多重共线性诊断

相关性分析采用皮尔逊系数作为指标，可设置相关性阈值，当皮尔逊系数取绝对值后大于0.5则认为滑坡评价因子之间存在相关性，皮尔逊系数求解为本领域现有技术，在此不再赘述；本实施例中经过分析可知坡度与地形起伏度因子相关性较高，因地形起伏度在共线性诊断中表现较差，故剔除地形起伏度因子。

步骤S4.经过步骤S3剔除后的滑坡评价因子数据集进行递归特征消除S41.对当前滑坡评价因子数据集的全部滑坡评价因子作为特征，组成初始特征子集{F₁，F₂，F₃，…F_n}，并将其带入随机森林模型进行训练，计算出当前每个特征的重要性f＝{f₁，f₂，f₃，…f_n}；并输出模型精度值；

S43.重复步骤S41-S42直到特征子集只剩余1个评价因子。

从各个特征子集选择出模型精度值最高的作为最优特征子集。

如图3所示，利用AOC值，即ROC曲线(受试者工作特征曲线(receiver operatingcharacteristic curve)下的面积，作为模型精度值评价指标，一个具体实施例中所有特征重要性排序为：高程、降雨、距道路距离、土地利用类型、坡向、地形湿度指数(TWI)、归一化植被指数(NDVI)、斜坡结构、工程岩组、坡度、距水系距离、距断层距离、平面曲率、剖面曲率。最终选择12个评价因子(高程、降雨、距道路距离、土地利用类型、坡向、地形湿度指数(TWI)、归一化植被指数(NDVI)、斜坡结构、工程岩组、坡度、距水系距离、距断层距离)作为滑坡易发性评价的最终因子。

步骤S5.确定负样本数据

S52.采用单分类算法(One-Class SVM)从所述负样本来源集合中获取滑坡负样本数据；

单分类算法原理为求解公式1，以求解结果为基础构造分离超平面：

公式1中，ω为权重向量，表示在高维特征空间中用于定义分离超平面的方向向量，上标T表示矩阵的转置，ξ_i为松弛变量，用于允许某些训练样本位于分离超平面错误的一侧，该参数表示对异常样本的一定容忍度；ρ为偏移参数，表示分离超平面与原点之间的距离，偏移参数ρ为它定义了一个用于将新的数据点分类为目标类别或异常值的决策函数。v为异常值的上限比例，指定了期望的训练样本中属于异常类别的最大比例，可以用于控制算法对异常样本的容忍程度；φ(x_i)为输入数据点x_i的特征映射函数，它将原始数据点映射到高维特征空间，以便更容易找到一个能够分离正常样本和异常样本的超平面；m为训练样本的数量，表示用于训练模型的正常样本的数量。||·||表示欧几里得范数。

优化问题的目标是找到权重向量ω、偏移参数ρ和松弛变量ξ_i的最小化正则化项同时确保最多有比例为v的训练样本违反了分离超平面。

求解公式1的步骤为：

构建拉格朗日函数：

α_i和β_i为拉格朗日乘子，x_i为步骤1中的滑坡正样本数据，对公式2以x_i为变量求导，令导数等于零，得出最佳权重向量ω1和最佳偏移参数ρ1，从而定义一个分离超平面。即通过滑坡正样本数据计算出分离超平面

S53.对负样本来源集合通过公式3进行分类；

prediction(x)＝sign(w^Tφ(x)-ρ)--公式3

sign()为符号函数，公式3中的ω和ρ即为S52步骤中求得的最佳权重向量ω1和最佳偏移参数ρ1，x为负样本来源集合中的待研究数据点根据公式3，求出的预测值prediction(x)为-1表示测试样本点为离群点，1表示为正常样本，可作为负样本数据。

并确定出与正样本数据数量一致的65676个非滑坡点作为负样本数据，如图4所示给出本实施例提取的非滑坡点分布示意图。

在构建滑坡易发性评价模型时，输入的训练数据需包含滑坡与非滑坡两类数据，其中滑坡数据常通过野外调查、遥感解译得到，数据质量有一定保障，而非滑坡数据由于无法直接获取，需在已有滑坡数据区域外采样得到。目前研究中常采用主观推断或者在一定缓冲区外进行随机采样得到，非滑坡点的误选会降低整个样本数据集的质量，影响滑坡易发性评价精度。然而在实际环境中，某些尚未发生滑坡灾害的区域同样具有新生滑坡的环境特征，只是缺少诱发条件而未发生滑坡，如果直接在这些区域内进行非滑坡点采样，则得到的非滑坡点样本极有可能包含潜在的滑坡点。本发明通过以上方式获取负样本数据，可以提高滑坡预测精度。

步骤S6.构建基于随机森林算法的滑坡易发性评价模型，滑坡正负样本比例为1：1，总个数为131352个，将步骤S1与步骤S5得到的滑坡正样本数据与负样本数据，以及这些样本数据对应的滑坡影响因子数据合并构成样本集合，之后从合并样本集中随机选择70％的数据作为训练集，剩余作为测试集，以训练集对随机森林模型进行训练，得到最终评价模型。

使用训练好的模型进行滑坡易发性评价，考虑到后续多个模型间的性能对比以及易发性区划结果统计分析，可将易发性等级按等间隔分为将易发性等级的划分区间设为固定等级，分别为极低易发区(0～0.20)、低易发区(0.20～0.45)、中易发区(0.45～0.55)、高易发区(0.55～0.80)、极高易发区(0.80～1)，一个具体实施例中利用现有随机森林模型和本发明所述评价模型进行分区的结果如图5和图6所示。

构建之前，可利用网格搜索法对于随机森林模型算法进行参数优化，本实施例中，优化后的参数决策树数量n_estimators＝200，决策树深度max_depth＝5。

训练后的最终评价模型可采用测试集对训练后的模型进行测试，对测试得到的评价结果可利用Kappa系数、ROC曲线作为精度评价指标，对评价结果进行精度评价和结果分析。

Kappa系数计算公式为：

式中，p₀是模型预测结果中每一类正确分类的样本数量之和除以总样本数，也就是总体分类精度；p_e是期望的一致性比率，由每类预测样本数与真实样本数之和比上总样本数的平方和得到。例如滑坡用1表示，非滑坡用0表示，已知测试集是1，1，0，0，预测结果是1，0，1，0，p_o就是2/4，p_e就是(1*1+1*1)/4²，FPR就是1/(1+1)，TPR就是1/(1+1)。

ROC曲线是以真正类率(True Positive Rate，TPR)为纵轴，以假正类率(FalsePositive Rate，FPR)为横轴所绘制的曲线，AUC(Area Under the ROC Curve)值是ROC曲线下的面积，其值是一种用于衡量二分类模型性能的指标，AUC值越大，说明模型的性能越好，其计算公式如下：

FPR＝FP/(FP+TN)

TPR＝TP/(TP+FN)

上式中TP表示真正例，即模型将正例正确地预测为正例的样本数量；FN表示假反例，即模型将正例错误地预测为负例的样本数量；FP表示假正例，即模型将负例错误地预测为正例的样本数量；TN表示真反例，即模型将负例正确地预测为负例的样本数量。FPR表示假阳性率，TPR表示真阳性率。

如表2所示，采用测试集测试时现有传统的随机森林模型在极高易发区的滑坡面积占比为50.63％，而利用本发明所述最终评价模型在极高易发区的滑坡面积占比为75.92％。

表2不同易发性评价模型易发性分区结果分析表

图7给出本发明和现有模型在本实施例中的ROC曲线图，由表3和图7可知，经过负样本优化后的模型精度与未优化的模型精度有明显的差异。现有模型的Kappa系数和AUC值均低于本发明得到的模型，本发明Kappa系数和AUC值分别为0.87和0.983，较现有模型分别提升了0.13和0.052，表明通过优化负样本选择方法能够显著提高滑坡易发性评价精度，区划结果更加合理。

表3不同易发性评价模型精度检验表

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.基于优选负样本和随机森林模型的滑坡易发性评价方法，其特征在于，包括模型训练方法，所述模型训练方法包括以下步骤：

步骤S3.剔除滑坡评价因子数据集中的不合格因子；

S42.对当前各个特征的重要性f_k进行排序，并去除值最小的重要性f_k对应的特征F_k，构建新的特征子集{F₁，…，F_k-1，F_k+1，…F_n}；

S43.重复步骤S41-S42直到特征子集只剩余1个评价因子；

步骤S5.确定负样本数据；

求解公式1，以求解结果为基础构造分离超平面：

公式1中，ω为权重向量；上标T表示矩阵的转置；ξ_i为松弛变量；ρ为偏移参数；v为异常值的上限比例；φ(x_i)为输入数据点x_i的特征映射函数；m为训练样本的数量；||·||表示欧几里得范数；

求解公式1的步骤为：

构建拉格朗日函数：

S53.对负样本来源集合通过公式3进行分类；

prediction(x)＝sign(w^Tφ(x)-ρ)-公式3

2.如权利要求1所述的滑坡易发性评价方法，其特征在于，所述步骤S2中若获取的滑坡评价因子数据为连续型数据，应用自然断点法将连续型数据转换为离散型。

3.如权利要求1所述的滑坡易发性评价方法，其特征在于，所述步骤S3具体为：利用共线性诊断剔除滑坡评价因子数据集中容许度和方差膨胀系数均超过阈值的评价因子，公式如下所示：

容许度

方差膨胀系数VIF＝1/TOL

4.如权利要求1所述的滑坡易发性评价方法，其特征在于，所述步骤S3还包括相关性剔除，所述相关性剔除采用皮尔逊系数作为指标，设置相关性阈值，当皮尔逊系数取绝对值后大于所述相关性阈值则剔除该滑坡评价因子。

5.如权利要求1所述的滑坡易发性评价方法，其特征在于，所述步骤S6中，在构建之前，利用网格搜索法对于随机森林模型进行参数优化。

6.如权利要求1所述的滑坡易发性评价方法，其特征在于，所述步骤S6中评价时，将滑坡易发性按概率大小等间隔分为多个不同等级。