CN116881652B - 基于优选负样本和随机森林模型的滑坡易发性评价方法 - Google Patents
基于优选负样本和随机森林模型的滑坡易发性评价方法 Download PDFInfo
- Publication number
- CN116881652B CN116881652B CN202310762135.0A CN202310762135A CN116881652B CN 116881652 B CN116881652 B CN 116881652B CN 202310762135 A CN202310762135 A CN 202310762135A CN 116881652 B CN116881652 B CN 116881652B
- Authority
- CN
- China
- Prior art keywords
- landslide
- evaluation
- data
- model
- negative sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 89
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000013210 evaluation model Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000008030 elimination Effects 0.000 claims abstract description 9
- 238000003379 elimination reaction Methods 0.000 claims abstract description 9
- 238000011160 research Methods 0.000 claims abstract description 8
- 238000000926 separation method Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000003745 diagnosis Methods 0.000 claims description 5
- 238000007635 classification algorithm Methods 0.000 claims description 4
- 101100356682 Caenorhabditis elegans rho-1 gene Proteins 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010219 correlation analysis Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Abstract
基于优选负样本和随机森林模型的滑坡模型评价方法,包括模型训练方法,所述模型训练方法包括以下步骤:步骤S1.获取历史滑坡数据,作为滑坡正样本数据;步骤S2.收集研究对象区域内的离散型滑坡评价因子数据,各个滑坡评价因子数据组成滑坡评价因子数据集;步骤S3.剔除滑坡评价因子数据集中的不合格因子;步骤S4.经过步骤S3剔除后的滑坡评价因子数据集进行递归特征消除,步骤S5.收集研究对象区域内的待研究数据点作为负样本来源集合,步骤S6.将步骤S1、S4、S5得到的数据进行训练得到最终评价模型。利用最终评价模型进行滑坡易发性评价。本发明能够显著提高滑坡易发性评价精度。
Description
技术领域
本发明属于地质技术领域,涉及地质灾害评估,具体涉及一种基于优选负样本和随机森林模型的滑坡易发性评价方法。
背景技术
在构建基于机器学习算法的滑坡易发性评价模型时,输入的训练数据需包含滑坡与非滑坡两类数据,其中滑坡数据常通过野外调查、遥感解译得到,数据质量有一定保障,而非滑坡数据由于无法直接获取,需在已有滑坡数据区域外采样得到。目前研究中常采用主观推断或者在一定缓冲区外进行随机采样得到。然而在实际环境中,某些尚未发生滑坡灾害的区域同样具有新生滑坡的环境特征,只是缺少诱发条件而未发生滑坡,如果直接在这些区域内进行非滑坡点采样,则得到的非滑坡点样本极有可能包含潜在的滑坡点。非滑坡点的误选会降低整个样本数据集的质量,影响滑坡易发性评价精度。
目前滑坡易发性评价研究主要集中在评价模型、评价影响因子、评价单元问题上,对滑坡样本采样关注较少。所以,如何获取足够多的、具有代表性的非滑坡样本,也是进行滑坡易发性评价需要考虑的问题。
发明内容
为克服现有技术的缺陷,本发明公开了一种基于优选负样本和随机森林模型的滑坡易发性评价方法。
本发明所述基于优选负样本和随机森林模型的滑坡易发性评价方法,包括模型训练方法,所述模型训练方法包括以下步骤:
步骤S1.获取历史滑坡数据,从历史滑坡数据中提取滑坡影响范围,将地理坐标表示的滑坡影响范围划分成多个栅格单元,所述栅格单元及对应的滑坡评价因子的集合作为滑坡正样本数据;
步骤S2.收集研究对象区域内的离散型滑坡评价因子数据,各个滑坡评价因子数据组成滑坡评价因子数据集;
步骤S3.剔除滑坡评价因子数据集中的不合格因子;
步骤S4.经过步骤S3剔除后的滑坡评价因子数据集进行递归特征消除,具体为:
S41.对当前滑坡评价因子数据集的全部滑坡评价因子作为特征,组成初始特征子集{F1,F2,F3,…Fn},并将其带入随机森林模型进行训练,计算出当前每个特征的重要性f={f1,f2,f3,…fn};并输出模型精度值;
S42.对当前各个特征的重要性fk进行排序,并去除值最小的重要性fk对应的特征Fk,构建新的特征子集{F1,…,Fk-1,Fk+1,…Fn,};
S43.重复步骤S41-S42直到特征子集只剩余1个评价因子。
从各个特征子集选择出模型精度值最高的作为最优特征子集;
步骤S5.
S51.收集研究对象区域内的待研究数据点作为负样本来源集合,
S52.采用单分类算法从所述负样本来源集合中获取滑坡负样本数据;具体为:
求解公式1,以求解结果为基础构造分离超平面:
其中,约束条件为:ωTφ(xi)≥ρ-ξi,ξi>>0,i=1,2,...,m
公式1中,ω为权重向量;上标T表示矩阵的转置;ξi为松弛变量;ρ为偏移参数;v为异常值的上限比例;φ(xi)为输入数据点xi的特征映射函数;m为训练样本的数量;||·||表示欧几里得范数。
求解公式1的步骤为:
构建拉格朗日函数:
αi和βi为拉格朗日乘子,xi为步骤1中的滑坡正样本数据,对公式2以xi为变量求导,令导数等于零,得出最佳权重向量ω1和最佳偏移参数ρ1,从而定义一个分离超平面;
S53.对负样本来源集合通过公式3进行分类;
prediction(x)=sign(wTφ(x)-ρ)--公式3
sign()为符号函数,公式3中的ω和ρ即为S52步骤中求得的最佳权重向量ω1和最佳偏移参数ρ1,x为负样本来源集合中的待研究数据点;
根据公式3,求出的预测值prediction(x)如为-1,则表示测试样本点为离群点,如为1表示为正常样本,可作为负样本数据;
S53.确定出与步骤S1中正样本数据数量一致的非滑坡点作为负样本数据;
步骤S6.构建基于随机森林算法的滑坡易发性评价模型,将步骤S1与步骤S5得到的滑坡正样本数据与负样本数据,以及这些样本数据对应并由步骤S4确定的最优特征子集定义的滑坡影响因子数据合并,构成样本集合,利用样本集合对滑坡易发性评价模型,得到最终评价模型,模型训练完成;
所述滑坡易发性评价方法为按照步骤S2至S5对研究对象区域进行负样本数据提取,将负样本数据及其对应的由步骤S4确定的最优特征子集定义的滑坡影响因子数据合并,输入步骤S6得到的最终评价模型,输出评价结果。
优选的,所述步骤S2中若获取的滑坡评价因子数据为连续型数据,应用自然断点法将连续型数据转换为离散型。
优选的,所述步骤S3具体为:利用共线性诊断剔除滑坡评价因子数据集中相关性较大的评价因子,公式如下所示:
容许度
方差膨胀系数VIF=1/TOL
式中,Rj 2表示滑坡评价因子数据集中第j个滑坡评价因子对其余因子做回归时的相关系数;
设定容许度阈值和方差膨胀系数阈值,评价因子的容许度大于容许度阈值,方差膨胀系数小于方差膨胀系数阈值认为是超过阈值,如果VIF和TOL均超过阈值,则将其剔除。
优选的,所述步骤S3还包括相关性剔除,所述相关性剔除采用皮尔逊系数作为指标,设置相关性阈值,当皮尔逊系数取绝对值后大于所述相关性阈值则剔除该滑坡评价因子。
优选的,所述步骤S6中,在构建之前,利用网格搜索法对于随机森林模型进行参数优化。
优选的,所述步骤S6中评价时,将滑坡易发性按概率大小等间隔分为多个不同等级。
本发明还公开了一种基于优选负样本和随机森林模型的滑坡模型,为如上所述方法中步骤S6得到的最终评价模型。
本发明所述基于优选负样本和随机森林模型的滑坡易发性评价方法,利用优选负样本和随机森林模型结合,区划结果更加合理,能够显著提高滑坡易发性评价精度。
附图说明
图1为本发明所述评价方法的一个具体实施方式流程示意图;
图2是本发明一个具体实施例中滑坡评价因子相关性分析示意图;
图3是本发明一个具体实施例中递归特征消除因子的示意图;
图4是本发明一个具体实施例中提取的非滑坡点分布图;
图5是本发明一个具体实施例中利用现有随机森林模型进行易发性评价结果示意图;
图6是本发明一个具体实施例中利用本发明得到的评价模型进行易发性评价结果示意图;
图7是本发明一个具体实施例现有随机森林模型和本发明的ROC曲线对比示意图;
具体实施方式
下面对本发明的具体实施方式做进一步的详细说明。
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施方式及相应的附图对本发明技术方案进行清楚、完整的阐述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为使本发明的目的、技术方案和有点更加清楚,下面将结合附图对本发明实施方式作进一步描述。
本发明所述基于优选负样本和随机森林模型的滑坡易发性评价方法,需要首先对模型进行训练,训练模型的步骤如图1所示,包括以下步骤:
步骤S1.通过查询相关资料获取历史滑坡数据,将滑坡影响范围转换成多个30m×30m的栅格单元,作为滑坡正样本数据;
步骤S2.收集研究对象区域内滑坡评价因子数据,所述滑坡评价因子包括地形地貌、地质构造、气象水文、人类工程活动等,通常通过GIS平台获取滑坡评价因子数据,各个滑坡评价因子数据组成滑坡评价因子数据集,
若获取的滑坡评价因子数据为连续型数据,应用自然断点法将连续型数据转换为离散型。
在选择滑坡影响因子时,应该考虑各因子的冗余性,所选择的因子之间互不重复,避免重复计算和冗余分析。以下步骤通过共线性诊断与相关性分析可以剔除冗余因子,保证滑坡易发性评价的可靠性。
步骤S3.利用共线性诊断与相关性分析剔除相关性较大的评价因子,二者公式如下所示:
容许度
方差膨胀系数VIF=1/TOL
式中,Rj 2表示滑坡评价因子数据集中第j个滑坡评价因子对其余因子做回归时的相关系数。
如果VIF和TOL均超过给定阈值,则认为该滑坡评价因子存在多重共线性,将其剔除。
本实施例中设置容许度阈值为0.1,方差膨胀系数阈值为10,若VIF>10和TOL<0.1,认为超过给定阈值。如表1可知,所有因子均通过共线性诊断。
表1滑坡影响因子多重共线性诊断
相关性分析采用皮尔逊系数作为指标,可设置相关性阈值,当皮尔逊系数取绝对值后大于0.5则认为滑坡评价因子之间存在相关性,皮尔逊系数求解为本领域现有技术,在此不再赘述;本实施例中经过分析可知坡度与地形起伏度因子相关性较高,因地形起伏度在共线性诊断中表现较差,故剔除地形起伏度因子。
步骤S4.经过步骤S3剔除后的滑坡评价因子数据集进行递归特征消除S41.对当前滑坡评价因子数据集的全部滑坡评价因子作为特征,组成初始特征子集{F1,F2,F3,…Fn},并将其带入随机森林模型进行训练,计算出当前每个特征的重要性f={f1,f2,f3,…fn};并输出模型精度值;
S42.对当前各个特征的重要性fk进行排序,并去除值最小的重要性fk对应的特征Fk,构建新的特征子集{F1,…,Fk-1,Fk+1,…Fn,};
S43.重复步骤S41-S42直到特征子集只剩余1个评价因子。
从各个特征子集选择出模型精度值最高的作为最优特征子集。
如图3所示,利用AOC值,即ROC曲线(受试者工作特征曲线(receiver operatingcharacteristic curve)下的面积,作为模型精度值评价指标,一个具体实施例中所有特征重要性排序为:高程、降雨、距道路距离、土地利用类型、坡向、地形湿度指数(TWI)、归一化植被指数(NDVI)、斜坡结构、工程岩组、坡度、距水系距离、距断层距离、平面曲率、剖面曲率。最终选择12个评价因子(高程、降雨、距道路距离、土地利用类型、坡向、地形湿度指数(TWI)、归一化植被指数(NDVI)、斜坡结构、工程岩组、坡度、距水系距离、距断层距离)作为滑坡易发性评价的最终因子。
步骤S5.确定负样本数据
S51.收集研究对象区域内的待研究数据点作为负样本来源集合,
S52.采用单分类算法(One-Class SVM)从所述负样本来源集合中获取滑坡负样本数据;
单分类算法原理为求解公式1,以求解结果为基础构造分离超平面:
其中,约束条件为:ωTφ(xi)≥ρ-ξi,ξi>>0,i=1,2,...,m
公式1中,ω为权重向量,表示在高维特征空间中用于定义分离超平面的方向向量,上标T表示矩阵的转置,ξi为松弛变量,用于允许某些训练样本位于分离超平面错误的一侧,该参数表示对异常样本的一定容忍度;ρ为偏移参数,表示分离超平面与原点之间的距离,偏移参数ρ为它定义了一个用于将新的数据点分类为目标类别或异常值的决策函数。v为异常值的上限比例,指定了期望的训练样本中属于异常类别的最大比例,可以用于控制算法对异常样本的容忍程度;φ(xi)为输入数据点xi的特征映射函数,它将原始数据点映射到高维特征空间,以便更容易找到一个能够分离正常样本和异常样本的超平面;m为训练样本的数量,表示用于训练模型的正常样本的数量。||·||表示欧几里得范数。
优化问题的目标是找到权重向量ω、偏移参数ρ和松弛变量ξi的最小化正则化项同时确保最多有比例为v的训练样本违反了分离超平面。
求解公式1的步骤为:
构建拉格朗日函数:
αi和βi为拉格朗日乘子,xi为步骤1中的滑坡正样本数据,对公式2以xi为变量求导,令导数等于零,得出最佳权重向量ω1和最佳偏移参数ρ1,从而定义一个分离超平面。即通过滑坡正样本数据计算出分离超平面
S53.对负样本来源集合通过公式3进行分类;
prediction(x)=sign(wTφ(x)-ρ)--公式3
sign()为符号函数,公式3中的ω和ρ即为S52步骤中求得的最佳权重向量ω1和最佳偏移参数ρ1,x为负样本来源集合中的待研究数据点根据公式3,求出的预测值prediction(x)为-1表示测试样本点为离群点,1表示为正常样本,可作为负样本数据。
并确定出与正样本数据数量一致的65676个非滑坡点作为负样本数据,如图4所示给出本实施例提取的非滑坡点分布示意图。
在构建滑坡易发性评价模型时,输入的训练数据需包含滑坡与非滑坡两类数据,其中滑坡数据常通过野外调查、遥感解译得到,数据质量有一定保障,而非滑坡数据由于无法直接获取,需在已有滑坡数据区域外采样得到。目前研究中常采用主观推断或者在一定缓冲区外进行随机采样得到,非滑坡点的误选会降低整个样本数据集的质量,影响滑坡易发性评价精度。然而在实际环境中,某些尚未发生滑坡灾害的区域同样具有新生滑坡的环境特征,只是缺少诱发条件而未发生滑坡,如果直接在这些区域内进行非滑坡点采样,则得到的非滑坡点样本极有可能包含潜在的滑坡点。本发明通过以上方式获取负样本数据,可以提高滑坡预测精度。
步骤S6.构建基于随机森林算法的滑坡易发性评价模型,滑坡正负样本比例为1:1,总个数为131352个,将步骤S1与步骤S5得到的滑坡正样本数据与负样本数据,以及这些样本数据对应的滑坡影响因子数据合并构成样本集合,之后从合并样本集中随机选择70%的数据作为训练集,剩余作为测试集,以训练集对随机森林模型进行训练,得到最终评价模型。
使用训练好的模型进行滑坡易发性评价,考虑到后续多个模型间的性能对比以及易发性区划结果统计分析,可将易发性等级按等间隔分为将易发性等级的划分区间设为固定等级,分别为极低易发区(0~0.20)、低易发区(0.20~0.45)、中易发区(0.45~0.55)、高易发区(0.55~0.80)、极高易发区(0.80~1),一个具体实施例中利用现有随机森林模型和本发明所述评价模型进行分区的结果如图5和图6所示。
构建之前,可利用网格搜索法对于随机森林模型算法进行参数优化,本实施例中,优化后的参数决策树数量n_estimators=200,决策树深度max_depth=5。
训练后的最终评价模型可采用测试集对训练后的模型进行测试,对测试得到的评价结果可利用Kappa系数、ROC曲线作为精度评价指标,对评价结果进行精度评价和结果分析。
Kappa系数计算公式为:
式中,p0是模型预测结果中每一类正确分类的样本数量之和除以总样本数,也就是总体分类精度;pe是期望的一致性比率,由每类预测样本数与真实样本数之和比上总样本数的平方和得到。例如滑坡用1表示,非滑坡用0表示,已知测试集是1,1,0,0,预测结果是1,0,1,0,po就是2/4,pe就是(1*1+1*1)/42,FPR就是1/(1+1),TPR就是1/(1+1)。
ROC曲线是以真正类率(True Positive Rate,TPR)为纵轴,以假正类率(FalsePositive Rate,FPR)为横轴所绘制的曲线,AUC(Area Under the ROC Curve)值是ROC曲线下的面积,其值是一种用于衡量二分类模型性能的指标,AUC值越大,说明模型的性能越好,其计算公式如下:
FPR=FP/(FP+TN)
TPR=TP/(TP+FN)
上式中TP表示真正例,即模型将正例正确地预测为正例的样本数量;FN表示假反例,即模型将正例错误地预测为负例的样本数量;FP表示假正例,即模型将负例错误地预测为正例的样本数量;TN表示真反例,即模型将负例正确地预测为负例的样本数量。FPR表示假阳性率,TPR表示真阳性率。
如表2所示,采用测试集测试时现有传统的随机森林模型在极高易发区的滑坡面积占比为50.63%,而利用本发明所述最终评价模型在极高易发区的滑坡面积占比为75.92%。
表2不同易发性评价模型易发性分区结果分析表
图7给出本发明和现有模型在本实施例中的ROC曲线图,由表3和图7可知,经过负样本优化后的模型精度与未优化的模型精度有明显的差异。现有模型的Kappa系数和AUC值均低于本发明得到的模型,本发明Kappa系数和AUC值分别为0.87和0.983,较现有模型分别提升了0.13和0.052,表明通过优化负样本选择方法能够显著提高滑坡易发性评价精度,区划结果更加合理。
表3不同易发性评价模型精度检验表
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (6)
1.基于优选负样本和随机森林模型的滑坡易发性评价方法,其特征在于,包括模型训练方法,所述模型训练方法包括以下步骤:
步骤S1.获取历史滑坡数据,从历史滑坡数据中提取滑坡影响范围,将地理坐标表示的滑坡影响范围划分成多个栅格单元,所述栅格单元及对应的滑坡评价因子的集合作为滑坡正样本数据;
步骤S2.收集研究对象区域内的离散型滑坡评价因子数据,各个滑坡评价因子数据组成滑坡评价因子数据集;
步骤S3.剔除滑坡评价因子数据集中的不合格因子;
步骤S4.经过步骤S3剔除后的滑坡评价因子数据集进行递归特征消除,具体为:
S41.对当前滑坡评价因子数据集的全部滑坡评价因子作为特征,组成初始特征子集{F1,F2,F3,…Fn},并将其带入随机森林模型进行训练,计算出当前每个特征的重要性f={f1,f2,f3,…fn};并输出模型精度值;
S42.对当前各个特征的重要性fk进行排序,并去除值最小的重要性fk对应的特征Fk,构建新的特征子集{F1,…,Fk-1,Fk+1,…Fn};
S43.重复步骤S41-S42直到特征子集只剩余1个评价因子;
从各个特征子集选择出模型精度值最高的作为最优特征子集;
步骤S5.确定负样本数据;
S51.收集研究对象区域内的待研究数据点作为负样本来源集合,
S52.采用单分类算法从所述负样本来源集合中获取滑坡负样本数据;具体为:
求解公式1,以求解结果为基础构造分离超平面:
其中,约束条件为:ωTφ(xi)≥ρ-ξi,ξi>>0,i=1,2,...,m
公式1中,ω为权重向量;上标T表示矩阵的转置;ξi为松弛变量;ρ为偏移参数;v为异常值的上限比例;φ(xi)为输入数据点xi的特征映射函数;m为训练样本的数量;||·||表示欧几里得范数;
求解公式1的步骤为:
构建拉格朗日函数:
αi和βi为拉格朗日乘子,xi为步骤1中的滑坡正样本数据,对公式2以xi为变量求导,令导数等于零,得出最佳权重向量ω1和最佳偏移参数ρ1,从而定义一个分离超平面;
S53.对负样本来源集合通过公式3进行分类;
prediction(x)=sign(wTφ(x)-ρ)-公式3
sign()为符号函数,公式3中的ω和ρ即为S52步骤中求得的最佳权重向量ω1和最佳偏移参数ρ1,x为负样本来源集合中的待研究数据点;
根据公式3,求出的预测值prediction(x)如为-1,则表示测试样本点为离群点,如为1表示为正常样本,可作为负样本数据;
S53.确定出与步骤S1中正样本数据数量一致的非滑坡点作为负样本数据;
步骤S6.构建基于随机森林算法的滑坡易发性评价模型,将步骤S1与步骤S5得到的滑坡正样本数据与负样本数据,以及这些样本数据对应并由步骤S4确定的最优特征子集定义的滑坡影响因子数据合并,构成样本集合,利用样本集合对滑坡易发性评价模型,得到最终评价模型,模型训练完成;
所述滑坡易发性评价方法为按照步骤S2至S5对研究对象区域进行负样本数据提取,将负样本数据及其对应的由步骤S4确定的最优特征子集定义的滑坡影响因子数据合并,输入步骤S6得到的最终评价模型,输出评价结果。
2.如权利要求1所述的滑坡易发性评价方法,其特征在于,所述步骤S2中若获取的滑坡评价因子数据为连续型数据,应用自然断点法将连续型数据转换为离散型。
3.如权利要求1所述的滑坡易发性评价方法,其特征在于,所述步骤S3具体为:利用共线性诊断剔除滑坡评价因子数据集中容许度和方差膨胀系数均超过阈值的评价因子,公式如下所示:
容许度
方差膨胀系数VIF=1/TOL
式中,Rj 2表示滑坡评价因子数据集中第j个滑坡评价因子对其余因子做回归时的相关系数;
设定容许度阈值和方差膨胀系数阈值,评价因子的容许度大于容许度阈值,方差膨胀系数小于方差膨胀系数阈值认为是超过阈值,如果VIF和TOL均超过阈值,则将其剔除。
4.如权利要求1所述的滑坡易发性评价方法,其特征在于,所述步骤S3还包括相关性剔除,所述相关性剔除采用皮尔逊系数作为指标,设置相关性阈值,当皮尔逊系数取绝对值后大于所述相关性阈值则剔除该滑坡评价因子。
5.如权利要求1所述的滑坡易发性评价方法,其特征在于,所述步骤S6中,在构建之前,利用网格搜索法对于随机森林模型进行参数优化。
6.如权利要求1所述的滑坡易发性评价方法,其特征在于,所述步骤S6中评价时,将滑坡易发性按概率大小等间隔分为多个不同等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310762135.0A CN116881652B (zh) | 2023-06-26 | 2023-06-26 | 基于优选负样本和随机森林模型的滑坡易发性评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310762135.0A CN116881652B (zh) | 2023-06-26 | 2023-06-26 | 基于优选负样本和随机森林模型的滑坡易发性评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116881652A CN116881652A (zh) | 2023-10-13 |
CN116881652B true CN116881652B (zh) | 2024-04-05 |
Family
ID=88265327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310762135.0A Active CN116881652B (zh) | 2023-06-26 | 2023-06-26 | 基于优选负样本和随机森林模型的滑坡易发性评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881652B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094234B (zh) * | 2023-10-19 | 2024-02-02 | 中国测绘科学研究院 | 融合卷积神经网络和自注意力模型的滑坡易发性评价方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107065839A (zh) * | 2017-06-06 | 2017-08-18 | 苏州大学 | 一种基于相异性递归消除特征的故障诊断方法及装置 |
CN110472197A (zh) * | 2019-08-22 | 2019-11-19 | 苏州卡泰里环保能源有限公司 | 基于Binary Logistic模型运用哑变量预测开窗行为的方法 |
CN110781538A (zh) * | 2019-09-29 | 2020-02-11 | 天津大学 | 基于实地监测的开窗仿真算法 |
CN111985796A (zh) * | 2020-08-07 | 2020-11-24 | 华中科技大学 | 基于随机森林和智能算法预测混凝土结构耐久性的方法 |
CN112070356A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 一种基于rf-lssvm模型预测混凝土抗碳化性能的方法 |
CN113822522A (zh) * | 2021-06-23 | 2021-12-21 | 中国科学院空天信息创新研究院 | 一种滑坡易发性评估方法、装置、设备及可读存储介质 |
CN114036841A (zh) * | 2021-11-10 | 2022-02-11 | 云南大学 | 基于半监督支持向量机模型的滑坡易发性预测方法及系统 |
CN114595629A (zh) * | 2022-03-01 | 2022-06-07 | 合肥工业大学 | 基于gbdt-lr和信息量模型的滑坡易发性评价方法 |
CN114707227A (zh) * | 2022-04-28 | 2022-07-05 | 水利部南京水利水文自动化研究所 | 一种基于数字孪生的大坝安全预警消警方法及系统 |
CN114880954A (zh) * | 2022-06-10 | 2022-08-09 | 重庆地质矿产研究院 | 一种基于机器学习的滑坡敏感性的评估方法 |
CN115049053A (zh) * | 2022-06-20 | 2022-09-13 | 航天宏图信息技术股份有限公司 | 基于TabNet网络的黄土地区滑坡易发性评估方法 |
CN115482138A (zh) * | 2022-09-22 | 2022-12-16 | 福州大学 | 基于特征筛选与差分进化算法优化的滑坡危险性评估方法 |
CN115906669A (zh) * | 2022-12-30 | 2023-04-04 | 辽宁工程技术大学 | 一种顾及负样本选取策略的密集残差网络滑坡易发性评价方法 |
CN116070762A (zh) * | 2023-01-29 | 2023-05-05 | 中国地质大学(武汉) | 耦合Smoteenn和Tabtransformer的滑坡易发性预测方法及系统 |
CN116108758A (zh) * | 2023-04-10 | 2023-05-12 | 中南大学 | 滑坡易发性评价方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11263707B2 (en) * | 2017-08-08 | 2022-03-01 | Indigo Ag, Inc. | Machine learning in agricultural planting, growing, and harvesting contexts |
US11202926B2 (en) * | 2018-11-21 | 2021-12-21 | One Concern, Inc. | Fire monitoring |
-
2023
- 2023-06-26 CN CN202310762135.0A patent/CN116881652B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107065839A (zh) * | 2017-06-06 | 2017-08-18 | 苏州大学 | 一种基于相异性递归消除特征的故障诊断方法及装置 |
CN110472197A (zh) * | 2019-08-22 | 2019-11-19 | 苏州卡泰里环保能源有限公司 | 基于Binary Logistic模型运用哑变量预测开窗行为的方法 |
CN110781538A (zh) * | 2019-09-29 | 2020-02-11 | 天津大学 | 基于实地监测的开窗仿真算法 |
CN111985796A (zh) * | 2020-08-07 | 2020-11-24 | 华中科技大学 | 基于随机森林和智能算法预测混凝土结构耐久性的方法 |
CN112070356A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 一种基于rf-lssvm模型预测混凝土抗碳化性能的方法 |
CN113822522A (zh) * | 2021-06-23 | 2021-12-21 | 中国科学院空天信息创新研究院 | 一种滑坡易发性评估方法、装置、设备及可读存储介质 |
CN114036841A (zh) * | 2021-11-10 | 2022-02-11 | 云南大学 | 基于半监督支持向量机模型的滑坡易发性预测方法及系统 |
CN114595629A (zh) * | 2022-03-01 | 2022-06-07 | 合肥工业大学 | 基于gbdt-lr和信息量模型的滑坡易发性评价方法 |
CN114707227A (zh) * | 2022-04-28 | 2022-07-05 | 水利部南京水利水文自动化研究所 | 一种基于数字孪生的大坝安全预警消警方法及系统 |
CN114880954A (zh) * | 2022-06-10 | 2022-08-09 | 重庆地质矿产研究院 | 一种基于机器学习的滑坡敏感性的评估方法 |
CN115049053A (zh) * | 2022-06-20 | 2022-09-13 | 航天宏图信息技术股份有限公司 | 基于TabNet网络的黄土地区滑坡易发性评估方法 |
CN115482138A (zh) * | 2022-09-22 | 2022-12-16 | 福州大学 | 基于特征筛选与差分进化算法优化的滑坡危险性评估方法 |
CN115906669A (zh) * | 2022-12-30 | 2023-04-04 | 辽宁工程技术大学 | 一种顾及负样本选取策略的密集残差网络滑坡易发性评价方法 |
CN116070762A (zh) * | 2023-01-29 | 2023-05-05 | 中国地质大学(武汉) | 耦合Smoteenn和Tabtransformer的滑坡易发性预测方法及系统 |
CN116108758A (zh) * | 2023-04-10 | 2023-05-12 | 中南大学 | 滑坡易发性评价方法 |
Non-Patent Citations (7)
Title |
---|
Slope Unit-Based Landslide Susceptibility Mapping Using Certainty Factor, Support Vector Machine, Random Forest, CF-SVM and CF-RF Models;Zhou Zhao 等;《Frontiers in Earth Science》;1-16 * |
Slope-Unit Scale Landslide Susceptibility Mapping Based on the Random Forest Model in Deep Valley Areas;Hui Deng 等;《remote sensing》;1-18 * |
基于SOM-I-SVM耦合模型的滑坡易发性评价;贾雨霏 等;《水文地质工程地质》;125-137 * |
基于SVM-LR融合模型的滑坡灾害易发性评价——以山阳县为例;李利峰 等;《科学技术与工程》;10618-10625 * |
基于信息量模型和机器学习方法的滑坡易发性评价研究——以四川理县为例;周萍 等;《地理科学》;1665-1675 * |
基于斜坡单元自动划分的滑坡易发性评价;吴先谭 等;《山地学报》;542-556 * |
滑坡易发性预测建模的不确定性:滑坡边界及环境因子误差的影响;严俊;《中国优秀硕士学位论文全文数据库 基础科学辑》;A011-171 * |
Also Published As
Publication number | Publication date |
---|---|
CN116881652A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230141886A1 (en) | Method for assessing hazard on flood sensitivity based on ensemble learning | |
CN110728411B (zh) | 一种基于卷积神经网络的高低空区域联合降雨预测方法 | |
Liu et al. | Uncertainty and confidence in land cover classification using a hybrid classifier approach | |
CN116881652B (zh) | 基于优选负样本和随机森林模型的滑坡易发性评价方法 | |
CN112966722A (zh) | 基于半监督随机森林模型的区域滑坡易发性预测方法 | |
CN116108758B (zh) | 滑坡易发性评价方法 | |
KR102145250B1 (ko) | 머신 러닝 기법을 이용한 산사태 취약성 지도 작성 방법 및 장치 | |
CN111539450A (zh) | 地震区滑坡易发性评价方法 | |
CN117078077A (zh) | 一种高速公路路域的生态脆弱性评价方法 | |
CN117540303A (zh) | 基于交叉半监督机器学习算法的滑坡易发性评估方法及系统 | |
Li et al. | The area prediction of western North Pacific Subtropical High in summer based on Gaussian Naive Bayes | |
CN116882625A (zh) | 一种岩溶山地乡村聚落用地空间脆弱性识别方法 | |
Kumar et al. | Soil suitability evaluation for cotton using analytical hierarchic process | |
CN113779888B (zh) | 地面沉降危险性评估方法、装置、设备及存储介质 | |
Kim et al. | Anomaly pattern detection in streaming data based on the transformation to multiple binary-valued data streams | |
JP3674707B1 (ja) | 防災事業計画支援システムとその方法 | |
CN114880954A (zh) | 一种基于机器学习的滑坡敏感性的评估方法 | |
CN114137915A (zh) | 一种工业设备的故障诊断方法 | |
CN108009510B (zh) | 安保态势分析方法和装置 | |
CN105740600A (zh) | 一种基于l1正则化的土地指标筛选方法 | |
CN113393144B (zh) | 地质滑坡静态要素风险分级的评估方法及评估装置 | |
Fauzi | IMPLEMENTATION OF DECISION TREE ALGORITHM TO IMPROVE ACCURACY OF EARTHQUAKE PREDICTION IN INDONESIA | |
CN117391727B (zh) | 一种负碳排放的碳中和方法及系统 | |
Posada et al. | Artificial Intelligence and machine learning model for spatial and temporal prediction of Drought events in the Magdalena department, Colombia. | |
Liu et al. | Advances in the Quality Control Methods of Air Temperature Data at Surface Automatic Weather Stations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |