CN115470718A - 一种随机森林与逻辑回归组合的滑坡预测方法 - Google Patents
一种随机森林与逻辑回归组合的滑坡预测方法 Download PDFInfo
- Publication number
- CN115470718A CN115470718A CN202211419629.0A CN202211419629A CN115470718A CN 115470718 A CN115470718 A CN 115470718A CN 202211419629 A CN202211419629 A CN 202211419629A CN 115470718 A CN115470718 A CN 115470718A
- Authority
- CN
- China
- Prior art keywords
- landslide
- model
- cost
- logistic regression
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
技术领域
本发明涉及人工智能预测领域,具体的,涉及一种随机森林与逻辑回归组合的滑坡预测方法。
背景技术
滑坡等地质灾害在我国分布广泛,是我国最严重的自然灾害之一,其发生原因十分复杂,通常影响滑坡发生的因素既有内部因素,如滑坡发生时的坡度、坡向、土壤湿度、植被覆盖情况等,也有外部因素,如短时间强降雨、人类活动等。近年来,可解释机器学习逐渐成为了机器学习领域的重要研究方向,越复杂的模型,越是需要模型提供它们是如何运作且避免错误的证据。采用相对复杂的机器学习模型可以产生相对准确的预测,但模型可解释性越低。
随机森林等树集成算法通常使用特征重要性排序衡量数据集中每个特征的重要性,可直接反映出哪些特征对模型影响最大,但特征重要性排序不足以各特征是如何影响模型单次的决策,随机森林模型主要优点是预测精度较高,缺点是稳健性和可解释性不强,尤其是可解释性上,整个建模过程基本上是一个“黑箱”。而逻辑回归模型其优点是稳健性较强且模型的可解释性较强,对数据分布也无严格的限制和要求。
因此,如何能够综合算法的优点,提高算法识别准确率,改善单一模型对非线性滑坡数据的预测结果,成为现有技术亟需解决的技术问题。
发明内容
本发明的目的在于提出一种随机森林与逻辑回归组合的滑坡预测方法,能够针对不平衡数据上对少数类识别能力弱问题,将代价基尼指数引入到随机森林算法中,在保证整体识别分类准确率的情况下提高不平衡数据中少数类样本的识别准确率,并且将随机森林模型和逻辑回归模型组合起来,改善单一模型对非线性滑坡数据的预测结果,使滑坡预测模型具有较高的预测精度和较强的可解释性。
为达此目的,本发明采用以下技术方案:
一种随机森林与逻辑回归组合的滑坡预测方法,包括如下步骤:
可选的,在步骤S110中,所述NDVI通过波段运算,并剔除无效值得到NDVI得到,所述波段运算具体为:NDVI=(近红外波段反射率值-红外波段反射率值)/(近红外波段反射率值+红外波段反射率值),运用ArcMap空间分析工具和提取工具等获取高程、坡度、坡向和剖面曲率;利用ArcMap提取工具获取土壤湿度;运用提取工具从空间分辨率为1°×1°的全球降水量数据中获取降水。
可选的,在步骤S120中,代价基尼指数CGini计算公式为:
可选的,在步骤S130中,
ROC曲线图横纵坐标分别为假阳性率FPR和真阳性率TPR,ROC曲线面积是指ROC曲线与x轴、(1,0)、(1,1)围绕的面积,FPR 与TPR计算公式如下:
其中,TP为实际滑坡并且模型预测为滑坡,FN为实际滑坡并且模型预测为非滑坡,FP为实际非滑坡并且模型预测为滑坡,TN为实际非滑坡并且模型预测为非滑坡。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的随机森林与逻辑回归组合的滑坡预测方法。
本发明具有如下优点:
1)由于本发明采用代价敏感随机森林算法筛选特征变量,在保证整体识别分类准确率的情况下,提高不平衡数据中少数类样本的识别准确率。
2)由于本发明将代价敏感随机森林模型和逻辑回归模型组合起来,改善单一模型对非线性滑坡数据的预测结果,使滑坡预测模型具有较高的预测精度和较强的可解释性。
附图说明
图1 是根据本发明具体实施例的随机森林与逻辑回归组合的滑坡预测方法的流程图;
图2是根据本发明的随机森林与逻辑回归组合的滑坡预测方法与现有技术其它预测方法实验结果对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明的目的在于提出一种随机森林与逻辑回归组合的滑坡预测方法,针对不平衡数据上对少数类识别能力弱问题,将代价基尼指数引入到随机森林算法中,在保证整体识别分类准确率的情况下,提高不平衡数据中少数类样本的识别准确率,并且将随机森林模型和逻辑回归模型组合起来,使滑坡预测模型具有较高的预测精度和较强的可解释性。
参见图1,示出了本发明具体实施例的随机森林与逻辑回归组合的滑坡预测方法的流程图。
具体的,所述NDVI通过波段运算,并剔除无效值得到NDVI得到,所述波段运算具体为:NDVI=(近红外波段反射率值-红外波段反射率值)/(近红外波段反射率值+红外波段反射率值)。
运用ArcMap空间分析工具和提取工具等获取高程、坡度、坡向和剖面曲率;利用ArcMap提取工具获取土壤湿度;运用提取工具从空间分辨率为1°×1°的全球降水量数据中获取降水。
在该步骤中,为了保证随机森林算法选择特征时凸显特征间的强弱关系,引入代价基尼指数(Cost Gini index,CGini)并获得代价特征变量。有效的减少了在不平衡数据中特征间无强弱关系带来的影响同时提高了少数类样本整体的识别准确率。
具体的,代价基尼指数CGini计算公式为:
模型组合步骤S130:组合代价敏感随机森林模型与逻辑回归模型,将代价敏感随机森林算法作为逻辑回归模型的前置预处理系统,将代价特征变量作为逻辑回归算法的输入,建立基于随机森林与逻辑回归组合预测滑坡模型。
进一步的,能够利用ROC(receiver operating characteristic curve)曲线评估模型性能。
ROC曲线图横纵坐标分别为假阳性率FPR(False positive rate,FPR)和真阳性率TPR(True positive rate,TPR),ROC曲线下面积越大,说明模型效果越优,ROC曲线面积是指ROC曲线与x轴、(1,0)、(1,1)围绕的面积,FPR 与TPR计算公式如下:
其中,TP为实际滑坡并且模型预测为滑坡,FN为实际滑坡并且模型预测为非滑坡,FP为实际非滑坡并且模型预测为滑坡,TN为实际非滑坡并且模型预测为非滑坡,具体参见表1。
表1 参数表示
参见图2,示出了本发明具体实施例中一种随机森林与逻辑回归组合的滑坡预测方法与现有技术的单纯的随机森林模型以及单纯的逻辑回归的预测方法实验结果对比图。其中,随机森林用RF表示,逻辑回归用LR表示,则随机森林与逻辑回归组合用RF+LR表示。
本发明进一步公开了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时执行上述的随机森林与逻辑回归组合的滑坡预测方法。
本发明提供的一种随机森林与逻辑回归组合的滑坡预测方法,与现有技术相比,具有如下优势:
1)由于本发明采用代价敏感随机森林算法筛选特征变量,在保证整体识别分类准确率的情况下,提高不平衡数据中少数类样本的识别准确率。
2)由于本发明将代价敏感随机森林模型和逻辑回归模型组合起来,改善单一模型对非线性滑坡数据的预测结果,使滑坡预测模型具有较高的预测精度和较强的可解释性。
显然,本领域技术人员应该明白,上述的本发明的各单元或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定保护范围。
Claims (6)
2.根据权利要求1所述的滑坡预测方法,其特征在于,
在步骤S110中,所述NDVI通过波段运算,并剔除无效值得到NDVI得到,所述波段运算具体为:NDVI=(近红外波段反射率值-红外波段反射率值)/(近红外波段反射率值+红外波段反射率值),
运用ArcMap空间分析工具和提取工具获取高程、坡度、坡向和剖面曲率;利用ArcMap提取工具获取土壤湿度;运用提取工具从空间分辨率为1°×1°的全球降水量数据中获取降水。
6.一种存储介质,用于存储计算机可执行指令,其特征在于:
所述计算机可执行指令在被处理器执行时执行权利要求1-5中任意一项所述的随机森林与逻辑回归组合的滑坡预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211419629.0A CN115470718B (zh) | 2022-11-14 | 2022-11-14 | 一种随机森林与逻辑回归组合的滑坡预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211419629.0A CN115470718B (zh) | 2022-11-14 | 2022-11-14 | 一种随机森林与逻辑回归组合的滑坡预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115470718A true CN115470718A (zh) | 2022-12-13 |
CN115470718B CN115470718B (zh) | 2023-01-20 |
Family
ID=84338269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211419629.0A Active CN115470718B (zh) | 2022-11-14 | 2022-11-14 | 一种随机森林与逻辑回归组合的滑坡预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470718B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070124335A1 (en) * | 2005-11-29 | 2007-05-31 | Park Gwang Woo | Method for quantifying plant resources using gis |
CN110210084A (zh) * | 2019-05-18 | 2019-09-06 | 西南交通大学 | 基于时间融合的力学变化判断滑坡可能性的方法及系统 |
CN111047099A (zh) * | 2019-12-16 | 2020-04-21 | 杭州鲁尔物联科技有限公司 | 一种区域性山洪风险预测方法及系统 |
-
2022
- 2022-11-14 CN CN202211419629.0A patent/CN115470718B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070124335A1 (en) * | 2005-11-29 | 2007-05-31 | Park Gwang Woo | Method for quantifying plant resources using gis |
CN110210084A (zh) * | 2019-05-18 | 2019-09-06 | 西南交通大学 | 基于时间融合的力学变化判断滑坡可能性的方法及系统 |
CN111047099A (zh) * | 2019-12-16 | 2020-04-21 | 杭州鲁尔物联科技有限公司 | 一种区域性山洪风险预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115470718B (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6743934B2 (ja) | 観測変数間の因果関係を推定するための方法、装置、およびシステム | |
CN110298235B (zh) | 基于流形约束自编码网络的高光谱异常检测方法及系统 | |
CN112116001B (zh) | 图像识别方法、装置及计算机可读存储介质 | |
JP2019061577A (ja) | 異常判定方法及びプログラム | |
CN108171010B (zh) | 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 | |
CN111027686A (zh) | 一种滑坡位移的预测方法、装置及设备 | |
CN110717687A (zh) | 一种评价指数获取的方法及系统 | |
CN112633401B (zh) | 一种高光谱遥感图像分类方法、装置、设备及存储介质 | |
CN109446476B (zh) | 一种多模式传感器信息解耦方法 | |
CN112437053A (zh) | 入侵检测方法及装置 | |
CN113487223B (zh) | 一种基于信息融合的风险评估方法和评估系统 | |
CN112990106B (zh) | 水下物体检测方法、装置、计算机设备和存储介质 | |
CN115470718B (zh) | 一种随机森林与逻辑回归组合的滑坡预测方法 | |
US20200279148A1 (en) | Material structure analysis method and material structure analyzer | |
WO2021179198A1 (zh) | 图像特征可视化方法、图像特征可视化装置及电子设备 | |
CN117495640A (zh) | 一种区域碳排放量预测方法及系统 | |
CN117153297A (zh) | 一种水泥混凝土抗压强度检测方法、系统及电子设备 | |
CN114710344B (zh) | 一种基于溯源图的入侵检测方法 | |
CN116415989A (zh) | 千兆潜在客户预测方法、装置、计算机设备及存储介质 | |
CN114513374B (zh) | 一种基于人工智能的网络安全威胁识别方法及系统 | |
JP7143599B2 (ja) | メタデータ評価装置、メタデータ評価方法、およびメタデータ評価プログラム | |
CN113011086B (zh) | 一种基于ga-svr算法森林生物量的估测方法 | |
CN115100528A (zh) | 一种基于卷积神经网络的农作物病虫害识别方法 | |
KR102328566B1 (ko) | 산업용 사물인터넷(IIoT) 환경에서의 고장 예측 모델 획득 방법, 장치 및 프로그램 | |
CN114398228A (zh) | 一种设备资源使用情况的预测方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |