CN114595629A - 基于gbdt-lr和信息量模型的滑坡易发性评价方法 - Google Patents
基于gbdt-lr和信息量模型的滑坡易发性评价方法 Download PDFInfo
- Publication number
- CN114595629A CN114595629A CN202210194277.7A CN202210194277A CN114595629A CN 114595629 A CN114595629 A CN 114595629A CN 202210194277 A CN202210194277 A CN 202210194277A CN 114595629 A CN114595629 A CN 114595629A
- Authority
- CN
- China
- Prior art keywords
- landslide
- model
- evaluation
- gbdt
- susceptibility
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000007477 logistic regression Methods 0.000 claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000002790 cross-validation Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 31
- 238000003066 decision tree Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 11
- 241000282414 Homo sapiens Species 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- -1 hydrogen Chemical class 0.000 claims 1
- 239000001257 hydrogen Substances 0.000 claims 1
- 238000011160 research Methods 0.000 abstract description 25
- 238000013210 evaluation model Methods 0.000 abstract description 11
- 238000011161 development Methods 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 101710154918 Trigger factor Proteins 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 238000012876 topography Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013316 zoning Methods 0.000 description 2
- 201000004384 Alopecia Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 208000024963 hair loss Diseases 0.000 description 1
- 230000003676 hair loss Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000011081 inoculation Methods 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000009991 scouring Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了了一种基于GBDT‑LR和信息量模型的滑坡易发性评价方法,本发明结合研究区域滑坡发育的特点,基于GIS和Python等软件,综合考虑前人研究成果,最终确定13个评价因子,基于信息量模型(I)、梯度提升决策树‑逻辑回归(GBDT‑LR)算法构建滑坡易发性评价模型,采用Borderline‑Smote算法解决滑坡样本的不对称问题,通过频率比、十折线交叉验证和ROC曲线对评价模型进行评估,最终制成贵池区易发性区划图,并结合实际情况分析所制成的滑坡易发性区划图的合理性;为滑坡发生的可能性提供参考,为政府治理滑坡灾害提供科学的参考依据。
Description
技术领域
本发明涉及自然灾害处理技术领域,尤其涉及一种基于GBDT-LR和信息量模型的滑坡易发性评价方法。
背景技术
滑坡、崩塌和泥石流是我国典型的三种地质灾害,其中滑坡是最常见的地质灾害,其特点是分布范围广、发生频率高、移动速度快、破坏性大。中国是世界上受滑坡影响最严重的国家之一。滑坡易发性评价是滑坡预测研究方面的重点,通过研究区域的遥感数据,提取滑坡各个方面(地形地貌、地层岩性、水文等)的影响因子,定量分析影响因子权重,进而预测滑坡在研究区域的空间分布和发生概率,从而为管理部门开展滑坡防治工作提供一定的数据支撑,提前对滑坡发生可能性较大的县镇村庄做好预防措施,减少人员和财产损失,提高滑坡地质灾害的治理效率。
滑坡易发性评价的关键问题在于评价模型的选取,评价模型选取的合理与否,直接影响最终滑坡易发性评价的准确性。针对此问题,国内外学者选取了各种各样的模型进行滑坡易发性评价。目前,国内外学者常用的研究方法包括:逻辑回归、支持向量机、神经网络、机器学习、随机森林、层次分析、信息量等模型。例如,国内学者,罗路广等利用逻辑回归和K折交叉验证法,对九寨沟地区进行滑坡易发性评价和因子重要性进行排序;徐胜华等利用熵指数、支持向量机再结合PSO算法的方法,对陕西省进行滑坡易发生评价;王卫东等利用深度信念网络、逻辑回归、人工神经网,对四川省进行了滑坡敏感性区划,并对比分析了上述三个评价模型;刘渊博等利用旋转森林集成学习模型,对三峡库区万州段进行滑坡易发性评价;刘坚等利用优化随机森林和信息量模型,对三峡库区沙镇溪镇-泄滩乡进行滑坡易发生性评价,并将实验结果与逻辑回归、支持向量机进行对比;许嘉慧等利用改进层次分析法模型,对奉节县进行滑坡易发性区划;国外学者,Ali PoLat等利用频率比、信息量、逻辑回归、随机森林和多层感知机模型,对土耳其的西瓦斯市进行滑坡敏感性预测;SomnathBera等利用深度学习模型,对印度喜马拉雅山进行滑坡敏感性建模。总结得出,基于斜坡单元的滑坡易发性评价一般步骤是先提取研究区的评价因子,再对评价因子进行分级,最后确定合适的模型。当前信息量和逻辑回归模型在滑坡易发性评价过程中,凭借其容易理解、训练速度快、不需要对评价因子进行缩放、可以得到各个评价因子权重等特点被广泛使用。但是存在以下问题:在滑坡发育的实际过程中,受多种地质因子影响,因子间复杂的逻辑关系,仅靠传统信息量和逻辑回归模型很难揭示出其内在的关系,并且模型的泛化能力很差,研究模型只适合当前区域。
发明内容
本发明目的就是为了弥补已有技术的缺陷,提供一种基于GBDT-LR和信息量模型的滑坡易发性评价方法。本发明采用GBDT-LR算法和信息量模型耦合,可以大幅度提升LR模型对非线性模型的拟合能力,降低整体模型的复杂度,提高模型的泛化能力。
本发明是通过以下技术方案实现的:
一种基于GBDT-LR和信息量模型的滑坡易发性评价方法,具体包括如下步骤:
(1)选择研究区域;
(2)评价单元和评价因子的选取;
(3)选择非滑坡样本,采用Borderline-Smote算法进行数据采样,生成和非滑坡样本相同数量的滑坡样本;
(4)采用信息量模型和GBDT-LR算法进行耦合的方法构建滑坡易发性模型;
(5)将样本数据分别从频率比、十折线交叉验证、ROC曲线3个方面对构建的滑坡易发性模型进行评价。
所述的评价单元采用斜坡评价单元;所述的滑坡易发性评价因子包括有坡度、坡向、高程、地形曲率、剖面曲率、平面曲率、地形湿度指数、地形起伏度、年均降雨量、归一化植被指数、距断裂距离、距道路距离和距水系距离。
所述的信息量模型,具体内容如下:
在实验过程中,常用滑坡样本频率计算信息量,如式(1)所示:
式(1)中,I表示评价单元中总信息量;n表示评级因子数量;xi表示当前评价单元内所取的评价因子等级;Y表示滑坡事件;S表示研究区域总面积;Si表示研究区域内含有xi评价因子的总面积;N表示研究区域内滑坡总面积;Ni表示研究区域内含有xi评价因子的滑坡总面积;信息量I作为滑坡评价的综合性指标,其值越大,滑坡发生的可能性越大,反之,发生滑坡的可能性越小。
所述的GBDT-LR算法,具体步骤如下:
(1)将训练样本数据输入GBDT模型进行训练;
(2)用训练好的GBDT模型预测每个样本落在哪个棵树的哪个叶结点上;
(3)将预测结果进行one-hot编码,得到新的离散特征;
(4)将新特征与原特征进行组合,得到新的数据集;
(5)将新数据集输人LR模型进行训练;
(6)用训练好的LR模型进行滑坡预测,得到预测值。
所述的LR模型,具体内容如下:
函数表达式如下:
式(2)中,α代表逻辑回归的常数项;β代表逻辑回归的回归系数;P代表滑坡发生概率,P的值越接近1,表明该斜坡单元发生滑坡的可能性越大,否则,表明发生滑坡的可能性越小。
所述的GBDT模型,具体内容如下:
GBDT模型首先,通过输人的训练样本得到第一棵决策树,训练结果落到某个叶子节点上,同时训练好的第一棵决策树将产生预测值,将实际值与预测值之间的差值称之为残差;然后将残差作为第二棵决策树的实际值,重复上述步骤,反复迭代,直到训练结果达到预先设定的训练次数阈值或精度阈值即停止训练;最后,将所有决策树的预测值加在一起即可得预测值;GBDT模型算法过程如下:
(1)初始化
(2)对m=1,2,…,M
(a)对i=1,2,…,N,计算
(b)对rmi拟合一个回归树,得到第m棵树的叶结点区域Rmj,j=1,2,…,J;
(c)对j=1,2,…,J,计算
θ表示落人当前节点的样本集合;
(3)得到回归树
本发明的优点是:本发明结合研究区域滑坡发育的特点,基于GIS和Python等软件,综合考虑前人研究成果,最终确定13个评价因子,基于信息量模型(I)、梯度提升决策树-逻辑回归(GBDT-LR)算法构建滑坡易发性评价模型,采用Borderline-Smote算法解决滑坡样本的不对称问题,通过频率比、十折线交叉验证和ROC曲线对评价模型进行评估,最终制成贵池区易发性区划图,并结合实际情况分析所制成的滑坡易发性区划图的合理性;为滑坡发生的可能性提供参考,为政府治理滑坡灾害提供科学的参考依据。
附图说明
图1为贵池区地形图与滑坡灾害点示意图;
图2为斜坡单元划分图(左:整个斜坡单元;右:局部展示);
图3为GBDT-LR算法流程图;
图4为贵池区滑坡易发性评价流程图;
图5为地形地貌因子示意图(a为高程;b为坡向;c为地形曲率;d为剖面曲率;e为平面曲率;f为坡度;g为地形起伏度);
图6为地质构造因子示意图(距断裂距离)。
图7为水文地质因子示意图(a为地形湿度指数(TWI);b为距水系距离);
图8为地表覆被因子示意图(归一化植被指数(NDVI));
图9为外界触发因子示意图(a为距道路距离;b为年平均降雨量);
图10为I-GBDT-LR模型贵池区滑坡易发性区划图;
图11为滑坡易发性评价模型的ROC曲线图;
图12为易发性区划与路网、断裂叠加图。
具体实施方式
一种基于GBDT-LR和信息量模型的滑坡易发性评价方法,具体包括如下步骤:
(1)选择研究区域;
(2)评价单元和评价因子的选取;
(3)选择非滑坡样本,采用Borderline-Smote算法进行数据采样,生成和非滑坡样本相同数量的滑坡样本;
(4)采用信息量模型和GBDT-LR算法进行耦合的方法构建滑坡易发性模型;
(5)将样本数据分别从频率比、十折线交叉验证、ROC曲线3个方面对构建的滑坡易发性模型进行评价。
具体如下:
1、研究区概况及数据源
1.1研究区概况
本发明选取安徽贵池区为研究区域,其位于安徽省南部,介于东经117°06′-117°50′、北纬30°15′-30°48′之间,全区面积约2516km2。北接长江,南至黄山、九华山,东北、西北分别与铜陵、安庆毗邻,西南、东南分别与本市东至县、石台县和青阳县相接,图1为研究区域地理位置、地形和滑坡灾害点。贵池区属北亚热带湿润性季风气候区,气候温顺,降雨量适宜,光照充裕,四季分明,地表径流顺畅,水源发达;贵池区地处皖南山地与沿江丘陵平原过渡地带,东南部多为山地,中部以丘陵为主,西北部为平原,整个地势自东南向西北倾斜。九华山西延余脉蜿蜒境区东南,山岭纵横,峰峦绵延,主要山峰海拔高程多在300~1000m,最高峰金家山海拔1025m。贵池区是一个以农业、水产、林木为主,各业综合发展的农业区,特殊的地理环境,再加上不断加剧的人类工程活动,如公路建设、水电工程、建筑工程建设过程中的切坡、毁林垦荒、矿产开发等,都在一定程度上破坏了县境内的生态地质环境,这些都为滑坡的孕育、发展创造了有利条件。
1.2数据来源
本发明研究贵池区滑坡易发性评价的数据主要来源于(1)采用分辨率为15m数字高程模型(即DEM数据),来源于当地有关部门,用于提取坡度、坡向、高程等地形地貌因子,以及斜坡评价单元的划分;(2)30m分辨率的Landsat 8多光谱卫星影像,用于提取研究区域的归一化植被指数(即NDVI);(3)水系、道路数据来源于OpenStreetMap网站的开源数据,用于计算研究区域的距水系距离、距道路距离;(4)年均降雨量、断裂、滑坡灾害点均由当地相关部门提供,用于计算距断裂距离,滑坡点数据用于模型的训练和测试。数据详细信息如表1所示。由于数据来源不同,为了尽可能减少实验误差,在实验之前将所有数据进行预处理,预处理包括:地理坐标系变换、投影变换、图像配准、重采样、栅格矢量化、矢量栅格化等。
表1实验数据来源
1.3评价单元的选取
目前,栅格评价单元和斜坡评价单元是最常被用在滑坡易发性评价过程中。栅格评价单元,是指按照特定大小规格单元划分整个研究区域,再用划分好的栅格单元进行分区统计全部评价因子。斜坡评价单元,将DEM数据进行水文分析,从中提取山脊线、山谷线,两者叠加即可得到斜坡单元,因此,斜坡单元反应的是真实的地形地貌信息。本发明采用在2016年Massimiliano Alvioli提出的基于r.sLopeunits v1.0斜坡单元自动划分方法,通过不断调试,最终将研究区域划分为17950个斜坡单元,如图2所示。利用GIS中的空间分析功能,将含有滑坡点的斜坡单元视为滑坡单元,用“1”表示;不含滑坡点斜坡单元视为非滑坡单元,用“0”表示。
2、滑坡易发性评价模型的构建
2.1信息量(I)模型
滑坡的发生受不同大小、不同性质的评价因子的影响,因此,利用信息量模型评价滑坡易发性的思路是:根据已有评价因子的实际测量值,与滑坡数据结合,将评价因子转化成反映实际滑坡的信息量值。滑坡易发性评价是否准确与评价过程中获取的信息数量和质量密切相关,在实际实验过程中,常用滑坡样本频率计算信息量,如式(1)所示:
式(1)中,I表示评价单元中总信息量;n表示评级因子数量;xi表示当前评价单元内所取的评价因子等级;Y表示滑坡事件;S表示研究区域总面积;Si表示研究区域内含有xi评价因子的总面积;N表示研究区域内滑坡总面积;Ni表示研究区域内含有xi评价因子的滑坡总面积。信息量I作为滑坡评价的综合性指标,其值越大,滑坡发生的可能性越大,反之,发生滑坡的可能性越小。
2.2逻辑回归(LR)模型
逻辑回归(Logistic Regression)模型是线性回归模型的扩展,也是经典的多元统计方法。它有一个因变量和多个自变量,通过分析样本之间的逻辑关系,从而预测未知数据的发生概率。逻辑回归模型的特点是简单明了、物理意义明确,自变量类型可以是连续的也可以是离散的,并且不要求自变量频率分布是正态的。此外,逻辑回归模型预测因变量,得到的是估计概率值,而不用考虑因子或判别分析中的假设。因此,逻辑回归模型被广泛应用于滑坡易发性评价建模中,可以较准确的揭示二元因变量(1表示发生滑坡,0表示未发生滑坡)和自变量(评价因子)之间的逻辑关系。其函数表达式如下:
式(2)中,a代表逻辑回归的常数项;β代表逻辑回归的回归系数;P代表滑坡发生概率,P的值越接近1,表明该斜坡单元发生滑坡的可能性越大,否则,表明发生滑坡的可能性越小。
2.3梯度提升决策树(GBDT)模型
GBDT(Gradient Boosting Decision Tree)是提升算法Boosting的一种,其原理是将Gradient Boosting应用到决策树回归算法迭代的过程中,其主要包括三部分:回归树、梯度迭代、缩减。GBDT是一种加法模型,其核心思想是:首先,通过输入的训练样本得到第一棵决策树,训练结果落到某个叶子节点上,同时训练好的第一棵决策树将产生预测值,将实际值与预测值之间的差值称之为残差。紧接着,将残差作为第二棵决策树的实际值,重复上述步骤,反复迭代,直到训练结果达到预先设定的训练次数阈值或精度阈值即可停止训练。最后,将所有决策树的预测值加在一起即可得预测值。GBDT算法过程如下:
(1)初始化
式中c是一个常数;
(2)对m=1,2,…,M
(a)对i=1,2,…,N,计算
(b)对rmi拟合一个回归树,得到第m棵树的叶结点区域Rmj,j=1,2,…,J。
(c)对j=1,2,…,J,计算
θ表示落人当前节点的样本集合;
(3)得到回归树
2.4 GBDT-LR混合模型
鉴于LR模型的低复杂度和优秀的并行化处理能力的特点,被广泛应用于滑坡易发性评价中,并且取得了良好的效果。但是,LR模型实质只是线性模型的泛化,所以在拟合非线性模型时性能较差,需要人工对特征数据进行预先分析和处理,剔除特征之间高相关性的特征,进而间接增强LR模型对非线性模型的学习能力。若LR模型特征分析过程人工进行,不仅工作量大,而且会受到主观因素的影响,对最终的实验结果产生负面影响。GBDT-LR算法就是基于这个背景产生的,并且在2014年,Xinran He等提出将GBDT模型与LR模型结合的混合模型算法,在广告点击率预测方面表现优秀。
GBDT-LR算法的具体流程(如图3所示)分为以下几个步骤:
(1)将训练样本数据输人GBDT模型进行训练;
(2)用训练好的GBDT模型预测每个样本落在哪个棵树的哪个叶结点上;
(3)将预测结果进行one-hot编码,得到新的离散特征;
(4)将新特征与原特征进行组合,得到新的数据集;
(5)将新数据集输人LR模型进行训练;
(6)用训练好的LR模型进行滑坡预测,得到预测值。
2.5易发性评价流程
本发明从非滑坡单元中随机抽取2000个非滑坡单元作为样本,为了保证抽取的非滑坡样本的可靠性,只从距道路距离、距水系距离、距断裂距离大于500m的非滑坡单元中抽取数据,作为非滑坡样本。由于本发明滑坡点数据较少,为了解决实验中样本不对称的问题,本发明采用Borderline-Smote算法进行数据采样,生成和非滑坡样本相同数量的滑坡样本。然后,将样本数据进行十折线交叉验证,取十次结果的平均值,既能在一定程度上避免模型过拟合,又可以验证模型的鲁棒性。具体的滑坡易发性流程图如图4所示,实验结果采用频率比以及ROC精度曲线,再结合贵池区实际情况评价模型准确性。
3、贵池区滑坡指标因子分析
滑坡的发生受多种环境因素的影响,主要包括:地质因子、地质构造因子、地表覆被因子、地形地貌因子、外部触发因子,合理的选取评价因子,会大幅度提升滑坡灾害评价的准确度。本发明通过对贵池区滑坡发生规律本质的总结,再结合前人对滑坡易发性评价经验,最终选取13个评价因子,分别为:坡度、坡向、高程、地形曲率、剖面曲率、平面曲率、地形湿度指数(TWI)、地形起伏度、年均降雨量、归一化植被指数(NDVI)、距断裂距离、距道路距离、距水系距离。其中地形地貌因子从DEM中提取,距断裂、道路、水系距离是通过ArcGIS中的欧式距离分析得到。
在ArcGIS中,利用分区统计功能,对评价因子中连续类型的评价因子求平均值,例如某个斜坡单元的高程值,是高程因子与该斜坡单元对应位置内所有栅格高程值的平均值;离散类型的评价因子求众数,例如某个斜坡单元的坡向,是坡向因子与该斜坡单元对应位置内所有栅格坡向值的众数;这样即可得到每个斜坡单元对应的评价因子值。然后,对评价因子进行分级,为了避免手动分级所造成的主观因素影响,本发明选用ArcGIS中的自然断点法(Jenks’natural breaks)对评价因子进行分级,它是通过统计类别的方差,对相似值进行最恰当地分组,并可使各类之间的差异最大化。最后,利用频率比和信息量计算每个分级的频率比值和信息量值,结果如表2所示。
3.1地形地貌因子
地形地貌因子包括高程、坡向、地形曲率、剖面曲率、平面曲率、坡度、地形起伏度,均是从贵池区15m分辨率的DEM中提取得到。贵池区的高程(见图5-a)在大于124m后,频率比值均大于1(表2),表明高程值在该范围内有助于滑坡的发育。坡向(见图5-b)为北、东南、南向时,频率比值均大于1(表2),表明这三个坡向较易发生滑坡。地形曲率(见图5-c)是对地形表面一点扭曲变化程度的定量化度量因子,当贵池区地形曲率大于-0.031时,频率比值均大于1(表2),表明地形曲率在该范围对滑坡有正向增益。剖面曲率(见图5-d)是表面沿坡度方向的曲率,平面曲率(见图5-e)是表面垂直于坡度方向的曲率,贵池区剖面曲率在-0.05~0.172和平面曲率在0.067~0.198范围内的频率比值大于1(表2),说明剖面曲率和平面曲率在上述对应范围内有利于滑坡的发育。贵池区坡度(见图5-f)大于15°,频率比值均大于1(表2),且频率比值先增加后减小,在23°~31°范围内频率比值达到最大,表明贵池区坡度在23°~31°范围内较有利于滑坡的发育。地形起伏度(见图5-g)表征的是一定区域范围内最高点海拔和最低点海拔之间的差值,反映了一定范围内海拔的变化程度,贵池区内地形起伏度在大于12m时,频率比值大于1(表2),且呈现先增后减的趋势,当地形起伏度介于19~26m内时,最有可能发生滑坡。
3.2地质构造因子
地质构造因子反映的是坡体内部结构,断裂越少,说明坡体内部结构强度越高,反之,说明坡体内部结构越松散破碎。当距离断裂距离(见图6)小于500m时,频率比值大于1(表2),随着距离断裂的距离的增大,频率比值在逐渐下降,表明距离断裂0~500m范围内的坡体发生滑坡可能性最大。
3.3水文地质因子
坡体距离河流越近,坡脚被河流冲刷侵蚀的越严重,在一定程度上增加了滑坡发生的可能性。贵池区距水系距离如图7-a所示,在0~2199m的范围内,频率比值均大于1(表2),表明在该范围内滑坡易发生;另外,在6656~8944m范围内,频率比值大于2是由贵池区的地形决定的,贵池区西北部毗邻长江,但是西北主要以平原为主,发生滑坡的概率较小,说明滑坡的发生受多种因子的共同作用,仅凭一个因子无法确定滑坡发生与否,只能分析大概情况。地形湿度指数(见图7-b)表征的是地形和土壤特性对土壤水分分布的影响,贵池区在0~5.5和6.5~7.5范围内,频率比值大于1(表2),有利于滑坡的发育。
3.4地表覆被因子
归一化植被指数(NDVI)(见图8)介于0.288~0.575之间时,频率比值大于1(表2),表明贵池区的NDVI在该范围内有助于滑坡的发生,导致这种情况发生的原因是贵池区的地形地貌复杂多样。
3.5外界触发因子
外界触发因子主要包括人类工程活动、降雨量等。根据前人的经验,一般情况下,距离道路越近滑坡的可能性越大,然而贵池区比较特别,如图9-a所示,贵池区西北部是池州市区,虽然拥有大量道路,但是距离实际滑坡点却很远,从而致使0~794m频率比值只是略大于1情况,距离道路远的地区频率比值远高于1,如表2所示。在距离道路0~794m范围内,虽然频率比值只略大于1,但是经统计,其包含的滑坡点占总滑坡点的50%,足以说明在山区的人类活动增加了该地区滑坡发生的风险。年均降雨量,如图9-b所示,在1601~1642mm、1688~1732mm和1732~1781mm范围内的频率比值均大于1,对滑坡发育有正向增益。
表2研究区域滑坡灾害各评价因子指标分级以及信息量
4、实验结果与分析
4.1评价指标因子的共线性判断
在进行逻辑回归之前,需要对评价因子进行多重共线性检验,保证评价因子之间的独立性。如果评价因子之间存在多重共线性,不仅会增加模型复杂度,而且模型结果也不一定可靠。因此,在逻辑回归模型中,多重共线性检验是必不可少的。本发明采用容忍度(Tolerance,TOL)和方差膨胀因子(Variance Inflation Factor,VIF)对13个评价因子进行多重共线性检验:
本发明采用SPSS软件进行多重共线性检验,检验结果如表3所示,从表中可以看出,所选所有评价因子VIF均小于10,说明评价因子之间不存在多重共线性,因此,所有评价因子均可参与后续实验。
表3评价因子多重共线性检验结果
4.2滑坡易发性评价模型结果
频率比,是指不同滑坡易发性等级中滑坡面积占总滑坡面积的值,与该滑坡易发性等级面积占整个研究区面积的值的比值,通过频率比值的结果可以看出,滑坡的分布规律与所划分的滑坡易发性等级是否匹配,确保模型的准确性和可靠性。
利用Python,将训练样本各斜坡单元评价因子的信息量进行归一化,输人到GBDT-LR模型中进行训练,得到贵池区滑坡易发性的概率分布。利用GIS中自然断点法,将贵池区滑坡易发性区划分为4个等级,分别为:极低易发区、低易发区、中易发区以及高易发区,结果如图10和表4所示。极低易发区占整个研究区总面积的61.309%,滑坡面积占比为10.216%;低易发区占整个研究区总面积的15.375%,滑坡面积占比为6.680%;中易发区占整个研究区总面积的13.497%,滑坡面积占比为9.363%;而高易发区仅占整个研究区总面积的9.819%,滑坡面积占比却达到了73.742%。I-GBDT-LR模型所得到的滑坡易发性等级区划的频率比,大致趋势是随着滑坡易发性等级的提升逐渐提升,高易发性等级的频率比占总频率比的85.294%,表明I-GBDT-LR模型能精确的评价贵池区滑坡易发性。
表4 I-GBDT-LR模型贵池区滑坡易发性评价频率比值
4.3滑坡易发性评价模型的ROC精度曲线
ROC(Receiver Operation characteristic curves)曲线又称受试者工作特征曲线,在滑坡易发性模型精度评价中被广泛使用,它是通过ROC曲线下方的面积AUC(AreaUnder ROC)进行评价,AUC的值介于0~1之间,值越大说明模型分类效果越好,精度越高,否则越低。在ROC曲线中横坐标代表假阳率(FPR),其含义是非滑坡测试样本被预测为滑坡的个数;纵坐标代表真阳率(TPR),其含义是滑坡测试样本中被正确预测的滑坡数。
根据图11可以看出,I-GBDT-LR模型进行十折线交叉验证后,每次交叉验证的ROC曲线下方的面积,即AUC值均大于0.8,表明该滑坡易发性评价模型精度较高。十折线交叉验证的结果中,AUC的值最大达到0.8804,最小0.8228,平均AUC值0.854,最大值、最小值与平均值差值较小,方差波动范围也较小,表明模型性能很稳定,实际效果与交叉验证效果吻合度高。
4.4贵池区滑坡易发性分级结果
从贵池区的地形地貌分析可知,贵池区中部、东部多是高丘、低山区,北部、西北部多为平原,整个贵池区自西北向东南海拔逐渐升高。实验所得易发性区划结果,北部、西北部主要为极低易发区和低易发区,中易发区和高易发区主要分布在中部、西南部地区,与贵池区地形地貌的分布规律吻合。从图12可以看出,中易发区和高易发区主要沿路网、断裂、高海拔地区分布,表明人类大量的工程活动破坏了原始平衡状态,诱发了滑坡地质灾害。
本发明以安徽省池州市贵池区为研究区域,基于斜坡评价单元,选取坡度、坡向、高程、曲率、地形湿度指数(TWI)、年均降雨量、归一化植被指数(NDVI)、距断裂距离、距道路距离和距水系距离等13个滑坡易发性评价因子,采用GBDT-LR和信息量模型进行耦合的方法构建模型,再基于GIS技术对滑坡易发性进行评估。实验结果中高易发区频率比占总频率比的85.294%,AUC的平均值达0.854,所得到的滑坡易发性评价结果也与研究区域实际情况相吻合,表明实验所得到的贵池区滑坡易发性等级区划可以为政府部门防灾减灾工作提供有力科学的依据。
Claims (6)
1.一种基于GBDT-LR和信息量模型的滑坡易发性评价方法,其特征在于:具体包括如下步骤:
(1)选择研究区域;
(2)评价单元和评价因子的选取;
(3)选择非滑坡样本,采用Borderline-Smote算法进行数据采样,生成和非滑坡样本相同数量的滑坡样本;
(4)采用信息量模型和GBDT-LR算法进行耦合的方法构建滑坡易发性模型;
(5)将样本数据分别从频率比、十折线交叉验证、ROC曲线3个方面对构建的滑坡易发性模型进行评价。
2.根据权利要求1所述的一种基于GBDT-LR和信息量模型的滑坡易发性评价方法,其特征在于:所述的评价单元采用斜坡评价单元;所述的评价因子包括有坡度、坡向、高程、地形曲率、剖面曲率、平面曲率、地形湿度指数、地形起伏度、年均降雨量、归一化植被指数、距断裂距离、距道路距离和距水系距离。
4.根据权利要求3所述的一种基于GBDT-LR和信息量模型的滑坡易发性评价方法,其特征在于:所述的GBDT-LR算法,具体步骤如下:
(1)将训练样本数据输人GBDT模型进行训练;
(2)用训练好的GBDT模型预测每个样本落在哪个棵树的哪个叶结点上;
(3)将预测结果进行one-hot编码,得到新的离散特征;
(4)将新特征与原特征进行组合,得到新的数据集;
(5)将新数据集输人LR模型进行训练;
(6)用训练好的LR模型进行滑坡预测,得到预测值。
6.根据权利要求4所述的一种基于GBDT-LR和信息量模型的滑坡易发性评价方法,其特征在于:所述的GBDT模型,具体内容如下:
GBDT模型首先,通过输人的训练样本得到第一棵决策树,训练结果落到某个叶子节点上,同时训练好的第一棵决策树将产生预测值,将实际值与预测值之间的差值称之为残差;然后将残差作为第二棵决策树的实际值,重复上述步骤,反复迭代,直到训练结果达到预先设定的训练次数阈值或精度阈值即停止训练;最后,将所有决策树的预测值加在一起即可得预测值;GBDT模型算法过程如下:
(1)初始化
(2)对m=1,2,…,M
(a)对每个样本i=1,2,…,N,计算负梯度rmi作为近似残差;
(b)对rmi拟合一个回归树,得到第m棵树的叶结点区域Rmj,j=1,2,…,J,J为回归树叶节点的个数;
(c)对j=1,2,…,J,计算叶节点区域最佳拟合值cmj
θ表示落人当前节点的样本集合;
(3)得到回归树
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210194277.7A CN114595629A (zh) | 2022-03-01 | 2022-03-01 | 基于gbdt-lr和信息量模型的滑坡易发性评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210194277.7A CN114595629A (zh) | 2022-03-01 | 2022-03-01 | 基于gbdt-lr和信息量模型的滑坡易发性评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114595629A true CN114595629A (zh) | 2022-06-07 |
Family
ID=81807488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210194277.7A Pending CN114595629A (zh) | 2022-03-01 | 2022-03-01 | 基于gbdt-lr和信息量模型的滑坡易发性评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114595629A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818547A (zh) * | 2022-06-10 | 2022-07-29 | 重庆地质矿产研究院 | 一种基于数据模型的浅层滑坡易感性评估方法 |
CN115019476A (zh) * | 2022-06-09 | 2022-09-06 | 贵州大学 | 一种基于多源信息融合的滑坡时空信息监测预警方法 |
CN115049053A (zh) * | 2022-06-20 | 2022-09-13 | 航天宏图信息技术股份有限公司 | 基于TabNet网络的黄土地区滑坡易发性评估方法 |
CN115375131A (zh) * | 2022-08-17 | 2022-11-22 | 中地宝联(北京)国土资源勘查技术开发集团有限公司 | 一种用于重载铁路的地质灾害风险评价方法 |
CN116050120A (zh) * | 2023-01-06 | 2023-05-02 | 中国自然资源航空物探遥感中心 | 一种滑坡隐患活动性遥感评价建模方法、系统和存储介质 |
CN116881652A (zh) * | 2023-06-26 | 2023-10-13 | 成都理工大学 | 基于优选负样本和随机森林模型的滑坡易发性评价方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929939A (zh) * | 2019-11-26 | 2020-03-27 | 电子科技大学 | 一种基于聚类-信息量耦合模型下的滑坡灾害易发性空间预测方法 |
AU2020101854A4 (en) * | 2020-08-17 | 2020-09-24 | China Communications Construction Co., Ltd. | A method for predicting concrete durability based on data mining and artificial intelligence algorithm |
CN111898315A (zh) * | 2020-07-27 | 2020-11-06 | 中国科学院空天信息创新研究院 | 基于分形—机器学习混合模型的滑坡易发性评估方法 |
CN113642849A (zh) * | 2021-07-19 | 2021-11-12 | 北京师范大学 | 考虑空间分布特征的地质灾害危险性综合评价方法及装置 |
-
2022
- 2022-03-01 CN CN202210194277.7A patent/CN114595629A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929939A (zh) * | 2019-11-26 | 2020-03-27 | 电子科技大学 | 一种基于聚类-信息量耦合模型下的滑坡灾害易发性空间预测方法 |
CN111898315A (zh) * | 2020-07-27 | 2020-11-06 | 中国科学院空天信息创新研究院 | 基于分形—机器学习混合模型的滑坡易发性评估方法 |
AU2020101854A4 (en) * | 2020-08-17 | 2020-09-24 | China Communications Construction Co., Ltd. | A method for predicting concrete durability based on data mining and artificial intelligence algorithm |
CN113642849A (zh) * | 2021-07-19 | 2021-11-12 | 北京师范大学 | 考虑空间分布特征的地质灾害危险性综合评价方法及装置 |
Non-Patent Citations (1)
Title |
---|
李利峰;张晓虎;邓慧琳;韩六平;: "基于熵指数与逻辑回归耦合模型的滑坡灾害易发性评价――以蓝田县为例", 科学技术与工程, no. 14, 18 May 2020 (2020-05-18) * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019476A (zh) * | 2022-06-09 | 2022-09-06 | 贵州大学 | 一种基于多源信息融合的滑坡时空信息监测预警方法 |
CN115019476B (zh) * | 2022-06-09 | 2023-10-10 | 贵州大学 | 一种基于多源信息融合的滑坡时空信息监测预警方法 |
CN114818547A (zh) * | 2022-06-10 | 2022-07-29 | 重庆地质矿产研究院 | 一种基于数据模型的浅层滑坡易感性评估方法 |
CN115049053A (zh) * | 2022-06-20 | 2022-09-13 | 航天宏图信息技术股份有限公司 | 基于TabNet网络的黄土地区滑坡易发性评估方法 |
CN115049053B (zh) * | 2022-06-20 | 2023-03-24 | 航天宏图信息技术股份有限公司 | 基于TabNet网络的黄土地区滑坡易发性评估方法 |
CN115375131A (zh) * | 2022-08-17 | 2022-11-22 | 中地宝联(北京)国土资源勘查技术开发集团有限公司 | 一种用于重载铁路的地质灾害风险评价方法 |
CN116050120A (zh) * | 2023-01-06 | 2023-05-02 | 中国自然资源航空物探遥感中心 | 一种滑坡隐患活动性遥感评价建模方法、系统和存储介质 |
CN116050120B (zh) * | 2023-01-06 | 2023-09-01 | 中国自然资源航空物探遥感中心 | 一种滑坡隐患活动性遥感评价建模方法、系统和存储介质 |
CN116881652A (zh) * | 2023-06-26 | 2023-10-13 | 成都理工大学 | 基于优选负样本和随机森林模型的滑坡易发性评价方法 |
CN116881652B (zh) * | 2023-06-26 | 2024-04-05 | 成都理工大学 | 基于优选负样本和随机森林模型的滑坡易发性评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114595629A (zh) | 基于gbdt-lr和信息量模型的滑坡易发性评价方法 | |
Soma et al. | Optimization of causative factors using logistic regression and artificial neural network models for landslide susceptibility assessment in Ujung Loe Watershed, South Sulawesi Indonesia | |
Pourghasemi et al. | Landslide susceptibility mapping by binary logistic regression, analytical hierarchy process, and statistical index models and assessment of their performances | |
Quan et al. | GIS-based landslide susceptibility mapping using analytic hierarchy process and artificial neural network in Jeju (Korea) | |
Song et al. | Differences in extremes and uncertainties in future runoff simulations using SWAT and LSTM for SSP scenarios | |
CN115688404B (zh) | 基于svm-rf模型的降雨型滑坡预警方法 | |
Djan'na et al. | Impact of the accuracy of land cover data sets on the accuracy of land cover change scenarios in the Mono River Basin, Togo, West Africa | |
CN113902580A (zh) | 一种基于随机森林模型的历史耕地分布重建方法 | |
Hong | Assessing landslide susceptibility based on hybrid Best-first decision tree with ensemble learning model | |
CN115236005A (zh) | 一种融合光谱和空间特征的土壤重金属含量反演方法 | |
Gagkas et al. | Downscaling soil hydrological mapping used to predict catchment hydrological response with random forests | |
Huang et al. | Modelling landslide susceptibility prediction: a review and construction of semi-supervised imbalanced theory | |
da Silva Charles et al. | Estimating average annual rainfall by ordinary kriging and TRMM precipitation products in midwestern Brazil | |
Liu et al. | Gully erosion susceptibility assessment based on machine learning-A case study of watersheds in Tuquan County in the black soil region of Northeast China | |
CN117332909B (zh) | 基于智能体的多尺度城市内涝道路交通暴露性预测方法 | |
Zhang et al. | Landslide susceptibility mapping based on landslide classification and improved convolutional neural networks | |
Guo et al. | How do the landslide and non-landslide sampling strategies impact landslide susceptibility assessment?—A catchment-scale case study from China | |
CN117540303A (zh) | 基于交叉半监督机器学习算法的滑坡易发性评估方法及系统 | |
CN113191642A (zh) | 一种基于最优组合策略的区域滑坡敏感性分析方法 | |
CN116258279A (zh) | 基于综合赋权的滑坡易发性评价方法和装置 | |
Yariyan et al. | Evaluating novel hybrid models based on GIS for snow avalanche susceptibility mapping: A comparative study | |
Evora et al. | Combining artificial neural network models, geostatistics, and passive microwave data for snow water equivalent retrieval and mapping | |
Farhadi et al. | Flood Risk Mapping by Remote Sensing Data and Random Forest Technique. Water 2021, 13, 3115 | |
Neshat et al. | Evaluation of the ECMWF precipitation product over various regions of Iran | |
Liu et al. | A National Scale Hybrid Model for Enhanced Streamflow Estimation–Consolidating a Physically Based Hydrological Model with Long Short-term Memory Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |