CN115470718B - 一种随机森林与逻辑回归组合的滑坡预测方法 - Google Patents

一种随机森林与逻辑回归组合的滑坡预测方法 Download PDF

Info

Publication number
CN115470718B
CN115470718B CN202211419629.0A CN202211419629A CN115470718B CN 115470718 B CN115470718 B CN 115470718B CN 202211419629 A CN202211419629 A CN 202211419629A CN 115470718 B CN115470718 B CN 115470718B
Authority
CN
China
Prior art keywords
landslide
model
cost
random forest
logistic regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211419629.0A
Other languages
English (en)
Other versions
CN115470718A (zh
Inventor
张福浩
赵习枝
仇阿根
陶坤旺
朱月月
朱鹏
何望君
张志然
刘尚钦
陈才
陈颂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy of Surveying and Mapping
Original Assignee
Chinese Academy of Surveying and Mapping
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy of Surveying and Mapping filed Critical Chinese Academy of Surveying and Mapping
Priority to CN202211419629.0A priority Critical patent/CN115470718B/zh
Publication of CN115470718A publication Critical patent/CN115470718A/zh
Application granted granted Critical
Publication of CN115470718B publication Critical patent/CN115470718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种随机森林与逻辑回归组合的滑坡预测方法,具体为:建立滑坡地质灾害预测模型的数据集;构建代价敏感随机森林模型,引入代价基尼指数,对初始特征变量分配权重以获得代价特征变量;组合代价敏感随机森林模型与逻辑回归模型,将代价敏感随机森林算法作为逻辑回归模型的前置预处理系统,将代价特征变量作为逻辑回归算法的输入,计算滑坡预测结果
Figure 646664DEST_PATH_IMAGE002
。本发明在保证整体识别分类准确率的情况下提高不平衡数据中少数类样本的识别准确率,改善单一模型对非线性滑坡数据的预测结果,使滑坡预测模型具有较高的预测精度和较强的可解释性。

Description

一种随机森林与逻辑回归组合的滑坡预测方法
技术领域
本发明涉及人工智能预测领域,具体的,涉及一种随机森林与逻辑回归组合的滑坡预测方法。
背景技术
滑坡等地质灾害在我国分布广泛,是我国最严重的自然灾害之一,其发生原因十分复杂,通常影响滑坡发生的因素既有内部因素,如滑坡发生时的坡度、坡向、土壤湿度、植被覆盖情况等,也有外部因素,如短时间强降雨、人类活动等。近年来,可解释机器学习逐渐成为了机器学习领域的重要研究方向,越复杂的模型,越是需要模型提供它们是如何运作且避免错误的证据。采用相对复杂的机器学习模型可以产生相对准确的预测,但模型可解释性越低。
随机森林等树集成算法通常使用特征重要性排序衡量数据集中每个特征的重要性,可直接反映出哪些特征对模型影响最大,但特征重要性排序不足以各特征是如何影响模型单次的决策,随机森林模型主要优点是预测精度较高,缺点是稳健性和可解释性不强,尤其是可解释性上,整个建模过程基本上是一个“黑箱”。而逻辑回归模型其优点是稳健性较强且模型的可解释性较强,对数据分布也无严格的限制和要求。
因此,如何能够综合算法的优点,提高算法识别准确率,改善单一模型对非线性滑坡数据的预测结果,成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种随机森林与逻辑回归组合的滑坡预测方法,能够针对不平衡数据上对少数类识别能力弱问题,将代价基尼指数引入到随机森林算法中,在保证整体识别分类准确率的情况下提高不平衡数据中少数类样本的识别准确率,并且将随机森林模型和逻辑回归模型组合起来,改善单一模型对非线性滑坡数据的预测结果,使滑坡预测模型具有较高的预测精度和较强的可解释性。
为达此目的,本发明采用以下技术方案:
一种随机森林与逻辑回归组合的滑坡预测方法,包括如下步骤:
数据集获取步骤S110:建立滑坡地质灾害预测模型的数据集,以获得初始特征变量
Figure 407902DEST_PATH_IMAGE002
,所述数据集包含NDVI、高程、坡度、坡向、剖面曲率、土壤湿度和降水影响因子;
随机森林模型构建步骤S120:构建代价敏感随机森林模型,引入代价基尼指数CGini,对初始特征变量
Figure 649046DEST_PATH_IMAGE002
分配权重以获得代价特征变量
Figure 419556DEST_PATH_IMAGE004
模型组合步骤S130:组合代价敏感随机森林模型与逻辑回归模型,将代价敏感随机森林算法作为逻辑回归模型的前置预处理系统,将代价特征变量作为逻辑回归算法的输入,计算滑坡预测结果
Figure 248972DEST_PATH_IMAGE006
可选的,在步骤S110中,所述NDVI通过波段运算,并剔除无效值得到NDVI得到,所述波段运算具体为:NDVI=(近红外波段反射率值-红外波段反射率值)/(近红外波段反射率值+红外波段反射率值),运用ArcMap空间分析工具和提取工具等获取高程、坡度、坡向和剖面曲率;利用ArcMap提取工具获取土壤湿度;运用提取工具从空间分辨率为1°×1°的全球降水量数据中获取降水。
可选的,在步骤S120中,代价基尼指数CGini计算公式为:
Figure 839353DEST_PATH_IMAGE008
其中,
Figure 677996DEST_PATH_IMAGE002
为S110数据集中的初始特征变量,
Figure 37434DEST_PATH_IMAGE010
为特征系数,
Figure 303330DEST_PATH_IMAGE012
为初始特征变量个数,由
Figure 381007DEST_PATH_IMAGE002
取倒数获得,
Figure 23341DEST_PATH_IMAGE014
为每个初始变量权重;
代价特征变量
Figure 502864DEST_PATH_IMAGE016
通过初始特征变量与代价基尼指数相乘获得,计算公式为:
Figure 939662DEST_PATH_IMAGE018
 。
可选的,在步骤S130中,
将代价特征变量
Figure 504635DEST_PATH_IMAGE016
作为逻辑回归模型输入,计算滑坡预测结果
Figure 685081DEST_PATH_IMAGE020
,计算公式如下:
Figure 19110DEST_PATH_IMAGE022
其中,
Figure 361230DEST_PATH_IMAGE016
是代价特征变量,
Figure 410570DEST_PATH_IMAGE024
Figure 129127DEST_PATH_IMAGE016
的权重系数,初始值默认为0.5。当
Figure 583242DEST_PATH_IMAGE026
时,则预测为滑坡。
可选的,在得到预测结果
Figure 361842DEST_PATH_IMAGE006
后,利用ROC曲线评估模型性能,
ROC曲线图横纵坐标分别为假阳性率FPR和真阳性率TPR,ROC曲线面积是指ROC曲线与x轴、(1,0)、(1,1)围绕的面积,FPR 与TPR计算公式如下:
Figure 901408DEST_PATH_IMAGE028
其中,TP为实际滑坡并且模型预测为滑坡,FN为实际滑坡并且模型预测为非滑坡,FP为实际非滑坡并且模型预测为滑坡,TN为实际非滑坡并且模型预测为非滑坡。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的随机森林与逻辑回归组合的滑坡预测方法。
本发明具有如下优点:
1)由于本发明采用代价敏感随机森林算法筛选特征变量,在保证整体识别分类准确率的情况下,提高不平衡数据中少数类样本的识别准确率。
2)由于本发明将代价敏感随机森林模型和逻辑回归模型组合起来,改善单一模型对非线性滑坡数据的预测结果,使滑坡预测模型具有较高的预测精度和较强的可解释性。
附图说明
图1 是根据本发明具体实施例的随机森林与逻辑回归组合的滑坡预测方法的流程图;
图2是根据本发明的随机森林与逻辑回归组合的滑坡预测方法与现有技术其它预测方法实验结果对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明的目的在于提出一种随机森林与逻辑回归组合的滑坡预测方法,针对不平衡数据上对少数类识别能力弱问题,将代价基尼指数引入到随机森林算法中,在保证整体识别分类准确率的情况下,提高不平衡数据中少数类样本的识别准确率,并且将随机森林模型和逻辑回归模型组合起来,使滑坡预测模型具有较高的预测精度和较强的可解释性。
参见图1,示出了本发明具体实施例的随机森林与逻辑回归组合的滑坡预测方法的流程图。
数据集获取步骤S110:建立滑坡地质灾害预测模型的数据集,以获得初始特征变量
Figure 689235DEST_PATH_IMAGE002
,所述数据集包含NDVI、高程、坡度、坡向、剖面曲率、土壤湿度和降水影响因子。
具体的,所述NDVI通过波段运算,并剔除无效值得到NDVI得到,所述波段运算具体为:NDVI=(近红外波段反射率值-红外波段反射率值)/(近红外波段反射率值+红外波段反射率值)。
运用ArcMap空间分析工具和提取工具等获取高程、坡度、坡向和剖面曲率;利用ArcMap提取工具获取土壤湿度;运用提取工具从空间分辨率为1°×1°的全球降水量数据中获取降水。
随机森林模型构建步骤S120:构建代价敏感随机森林模型,引入代价基尼指数CGini,对初始特征变量
Figure 732278DEST_PATH_IMAGE002
分配更合理的权重来获得代价特征变量
Figure 681779DEST_PATH_IMAGE004
,凸显特征间的强弱关系。
在该步骤中,为了保证随机森林算法选择特征时凸显特征间的强弱关系,引入代价基尼指数(Cost Gini index,CGini)并获得代价特征变量。有效的减少了在不平衡数据中特征间无强弱关系带来的影响同时提高了少数类样本整体的识别准确率。
具体的,代价基尼指数CGini计算公式为:
Figure 443062DEST_PATH_IMAGE030
其中,
Figure 769001DEST_PATH_IMAGE002
为S110数据集中初始特征变量,
Figure 666550DEST_PATH_IMAGE032
为特征系数,
Figure 786953DEST_PATH_IMAGE034
为初始特征变量个数,由
Figure 301111DEST_PATH_IMAGE002
取倒数获得,
Figure 165161DEST_PATH_IMAGE014
为每个初始变量权重。
代价特征变量
Figure 182796DEST_PATH_IMAGE004
通过初始特征变量与代价基尼指数相乘获得,计算公式为:
Figure DEST_PATH_IMAGE036
模型组合步骤S130:组合代价敏感随机森林模型与逻辑回归模型,将代价敏感随机森林算法作为逻辑回归模型的前置预处理系统,将代价特征变量作为逻辑回归算法的输入,建立基于随机森林与逻辑回归组合预测滑坡模型。
具体的,将代价特征变量
Figure 223169DEST_PATH_IMAGE004
作为逻辑回归模型输入,计算滑坡预测结果
Figure 959044DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE038
,计算公式如下:
Figure DEST_PATH_IMAGE040
其中,
Figure 830048DEST_PATH_IMAGE004
是代价特征变量,
Figure DEST_PATH_IMAGE042
Figure 905451DEST_PATH_IMAGE004
的权重系数,初始值默认为0.5。当
Figure DEST_PATH_IMAGE044
时,则预测为滑坡。
进一步的,能够利用ROC(receiver operating characteristic curve)曲线评估模型性能。
ROC曲线图横纵坐标分别为假阳性率FPR(False positive rate,FPR)和真阳性率TPR(True positive rate,TPR),ROC曲线下面积越大,说明模型效果越优,ROC曲线面积是指ROC曲线与x轴、(1,0)、(1,1)围绕的面积,FPR 与TPR计算公式如下:
Figure DEST_PATH_IMAGE046
其中,TP为实际滑坡并且模型预测为滑坡,FN为实际滑坡并且模型预测为非滑坡,FP为实际非滑坡并且模型预测为滑坡,TN为实际非滑坡并且模型预测为非滑坡,具体参见表1。
表1 参数表示
Figure DEST_PATH_IMAGE048
参见图2,示出了本发明具体实施例中一种随机森林与逻辑回归组合的滑坡预测方法与现有技术的单纯的随机森林模型以及单纯的逻辑回归的预测方法实验结果对比图。其中,随机森林用RF表示,逻辑回归用LR表示,则随机森林与逻辑回归组合用RF+LR表示。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的随机森林与逻辑回归组合的滑坡预测方法。
本发明提供的一种随机森林与逻辑回归组合的滑坡预测方法,与现有技术相比,具有如下优势:
1)由于本发明采用代价敏感随机森林算法筛选特征变量,在保证整体识别分类准确率的情况下,提高不平衡数据中少数类样本的识别准确率。
2)由于本发明将代价敏感随机森林模型和逻辑回归模型组合起来,改善单一模型对非线性滑坡数据的预测结果,使滑坡预测模型具有较高的预测精度和较强的可解释性。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims (3)

1.一种随机森林与逻辑回归组合的滑坡预测方法,其特征在于,包括如下步骤:
数据集获取步骤S110:建立滑坡地质灾害预测模型的数据集,以获得初始特征变量
Figure 561531DEST_PATH_IMAGE001
, 所述数据集包含NDVI、高程、坡度、坡向、剖面曲率、土壤湿度和降水影响因子;
随机森林模型构建步骤S120:构建代价敏感随机森林模型,引入代价基尼指数CGini, 对初始特征变量
Figure 847019DEST_PATH_IMAGE001
分配权重以获得代价特征变量
Figure 115189DEST_PATH_IMAGE002
模型组合步骤S130:组合代价敏感随机森林模型与逻辑回归模型,将代价敏感随机森 林模型作为逻辑回归模型的前置预处理系统,将代价特征变量作为逻辑回归模型的输入, 计算滑坡预测结果
Figure 169733DEST_PATH_IMAGE003
在步骤S110中,所述NDVI通过波段运算,并剔除无效值得到,所述波段运算具体为:NDVI=(近红外波段反射率值-红外波段反射率值)/(近红外波段反射率值+红外波段反射率值),
运用ArcMap空间分析工具和提取工具获取高程、坡度、坡向和剖面曲率;利用ArcMap提取工具获取土壤湿度;运用提取工具从空间分辨率为1°×1°的全球降水量数据中获取降水;
在步骤S120中,代价基尼指数CGini计算公式为:
Figure 130736DEST_PATH_IMAGE004
其中,
Figure 637940DEST_PATH_IMAGE001
为S110数据集中初始特征变量,
Figure 444222DEST_PATH_IMAGE005
为特征系数,
Figure 415590DEST_PATH_IMAGE006
为初始特征变量个数,由
Figure 281914DEST_PATH_IMAGE001
取倒数获得,
Figure 276415DEST_PATH_IMAGE007
为每个初始变量权重;
代价特征变量
Figure 886388DEST_PATH_IMAGE002
通过初始特征变量与代价基尼指数相乘获得,计算公式为:
Figure 915524DEST_PATH_IMAGE008
在步骤S130中,
将代价特征变量
Figure 15067DEST_PATH_IMAGE002
作为逻辑回归模型输入,计算滑坡预测结果
Figure 517372DEST_PATH_IMAGE003
,计算公式如下:
Figure 931036DEST_PATH_IMAGE009
其中,
Figure 549099DEST_PATH_IMAGE002
是代价特征变量,
Figure 22805DEST_PATH_IMAGE010
Figure 991898DEST_PATH_IMAGE002
的权重系数,初始值默认为0.5,
Figure 740412DEST_PATH_IMAGE011
时,则预测为滑坡。
2.根据权利要求1所述的滑坡预测方法,其特征在于,
在得到预测结果
Figure 744140DEST_PATH_IMAGE003
后,利用ROC曲线评估模型性能,
ROC曲线图横纵坐标分别为假阳性率FPR和真阳性率TPR,ROC曲线面积是指ROC曲线与x轴、(1,0)、(1,1)围绕的面积,FPR 与TPR计算公式如下:
Figure 388748DEST_PATH_IMAGE012
其中,TP为实际滑坡并且模型预测为滑坡,FN为实际滑坡并且模型预测为非滑坡,FP为实际非滑坡并且模型预测为滑坡,TN为实际非滑坡并且模型预测为非滑坡。
3.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1或2所述的随机森林与逻辑回归组合的滑坡预测方法。
CN202211419629.0A 2022-11-14 2022-11-14 一种随机森林与逻辑回归组合的滑坡预测方法 Active CN115470718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211419629.0A CN115470718B (zh) 2022-11-14 2022-11-14 一种随机森林与逻辑回归组合的滑坡预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211419629.0A CN115470718B (zh) 2022-11-14 2022-11-14 一种随机森林与逻辑回归组合的滑坡预测方法

Publications (2)

Publication Number Publication Date
CN115470718A CN115470718A (zh) 2022-12-13
CN115470718B true CN115470718B (zh) 2023-01-20

Family

ID=84338269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211419629.0A Active CN115470718B (zh) 2022-11-14 2022-11-14 一种随机森林与逻辑回归组合的滑坡预测方法

Country Status (1)

Country Link
CN (1) CN115470718B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100750749B1 (ko) * 2005-11-29 2007-08-30 대한민국 Gis를 이용한 식물자원 수량화 방법
CN110210084B (zh) * 2019-05-18 2022-06-28 西南交通大学 基于时间融合的力学变化判断滑坡可能性的方法及系统
CN111047099B (zh) * 2019-12-16 2020-08-21 杭州鲁尔物联科技有限公司 一种区域性山洪风险预测方法及系统

Also Published As

Publication number Publication date
CN115470718A (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
JP6743934B2 (ja) 観測変数間の因果関係を推定するための方法、装置、およびシステム
CN110298235B (zh) 基于流形约束自编码网络的高光谱异常检测方法及系统
CN111027686A (zh) 一种滑坡位移的预测方法、装置及设备
CN108171010B (zh) 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置
CN110533166B (zh) 一种基于时空间融合特征的室内定位方法
CN103365829A (zh) 信息处理装置、信息处理方法和程序
CN113640397B (zh) 一种基于深度网络的遥感影像变化检测方法及系统
CN109446476B (zh) 一种多模式传感器信息解耦方法
CN115858609A (zh) 电动汽车充电桩状态监测方法、故障鉴定方法及电子设备
US20140236871A1 (en) Sparse variable optimization device, sparse variable optimization method, and sparse variable optimization program
CN112437053A (zh) 入侵检测方法及装置
CN112990106B (zh) 水下物体检测方法、装置、计算机设备和存储介质
CN113487223B (zh) 一种基于信息融合的风险评估方法和评估系统
CN112990107B (zh) 高光谱遥感图像水下目标检测方法、装置及计算机设备
CN115470718B (zh) 一种随机森林与逻辑回归组合的滑坡预测方法
WO2021179198A1 (zh) 图像特征可视化方法、图像特征可视化装置及电子设备
US20200279148A1 (en) Material structure analysis method and material structure analyzer
JP7143599B2 (ja) メタデータ評価装置、メタデータ評価方法、およびメタデータ評価プログラム
CN117153297A (zh) 一种水泥混凝土抗压强度检测方法、系统及电子设备
CN114710344B (zh) 一种基于溯源图的入侵检测方法
KR102328566B1 (ko) 산업용 사물인터넷(IIoT) 환경에서의 고장 예측 모델 획득 방법, 장치 및 프로그램
CN114327045A (zh) 基于类别不平衡信号的跌倒检测方法及系统
CN113688773B (zh) 一种基于深度学习的储罐穹顶位移数据修复方法及其装置
Li et al. A Copula-Based Method for Change Detection with Multi-sensor Optical Remote Sensing Images
CN116680662B (zh) 一种基于压缩感知的自动工作模态分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant