CN114595629A

CN114595629A - 基于gbdt-lr和信息量模型的滑坡易发性评价方法

Info

Publication number: CN114595629A
Application number: CN202210194277.7A
Authority: CN
Inventors: 董张玉; 张晋; 安森; 许道礼; 于金秋; 李金徽
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-06-07

Abstract

本发明公开了了一种基于GBDT‑LR和信息量模型的滑坡易发性评价方法，本发明结合研究区域滑坡发育的特点，基于GIS和Python等软件，综合考虑前人研究成果，最终确定13个评价因子，基于信息量模型（I）、梯度提升决策树‑逻辑回归（GBDT‑LR）算法构建滑坡易发性评价模型，采用Borderline‑Smote算法解决滑坡样本的不对称问题，通过频率比、十折线交叉验证和ROC曲线对评价模型进行评估，最终制成贵池区易发性区划图，并结合实际情况分析所制成的滑坡易发性区划图的合理性；为滑坡发生的可能性提供参考，为政府治理滑坡灾害提供科学的参考依据。

Description

基于GBDT-LR和信息量模型的滑坡易发性评价方法

技术领域

本发明涉及自然灾害处理技术领域，尤其涉及一种基于GBDT-LR和信息量模型的滑坡易发性评价方法。

背景技术

滑坡、崩塌和泥石流是我国典型的三种地质灾害，其中滑坡是最常见的地质灾害，其特点是分布范围广、发生频率高、移动速度快、破坏性大。中国是世界上受滑坡影响最严重的国家之一。滑坡易发性评价是滑坡预测研究方面的重点，通过研究区域的遥感数据，提取滑坡各个方面(地形地貌、地层岩性、水文等)的影响因子，定量分析影响因子权重，进而预测滑坡在研究区域的空间分布和发生概率，从而为管理部门开展滑坡防治工作提供一定的数据支撑，提前对滑坡发生可能性较大的县镇村庄做好预防措施，减少人员和财产损失，提高滑坡地质灾害的治理效率。

滑坡易发性评价的关键问题在于评价模型的选取，评价模型选取的合理与否，直接影响最终滑坡易发性评价的准确性。针对此问题，国内外学者选取了各种各样的模型进行滑坡易发性评价。目前，国内外学者常用的研究方法包括：逻辑回归、支持向量机、神经网络、机器学习、随机森林、层次分析、信息量等模型。例如，国内学者，罗路广等利用逻辑回归和K折交叉验证法，对九寨沟地区进行滑坡易发性评价和因子重要性进行排序；徐胜华等利用熵指数、支持向量机再结合PSO算法的方法，对陕西省进行滑坡易发生评价；王卫东等利用深度信念网络、逻辑回归、人工神经网，对四川省进行了滑坡敏感性区划，并对比分析了上述三个评价模型；刘渊博等利用旋转森林集成学习模型，对三峡库区万州段进行滑坡易发性评价；刘坚等利用优化随机森林和信息量模型，对三峡库区沙镇溪镇-泄滩乡进行滑坡易发生性评价，并将实验结果与逻辑回归、支持向量机进行对比；许嘉慧等利用改进层次分析法模型，对奉节县进行滑坡易发性区划；国外学者，Ali PoLat等利用频率比、信息量、逻辑回归、随机森林和多层感知机模型，对土耳其的西瓦斯市进行滑坡敏感性预测；SomnathBera等利用深度学习模型，对印度喜马拉雅山进行滑坡敏感性建模。总结得出，基于斜坡单元的滑坡易发性评价一般步骤是先提取研究区的评价因子，再对评价因子进行分级，最后确定合适的模型。当前信息量和逻辑回归模型在滑坡易发性评价过程中，凭借其容易理解、训练速度快、不需要对评价因子进行缩放、可以得到各个评价因子权重等特点被广泛使用。但是存在以下问题：在滑坡发育的实际过程中，受多种地质因子影响，因子间复杂的逻辑关系，仅靠传统信息量和逻辑回归模型很难揭示出其内在的关系，并且模型的泛化能力很差，研究模型只适合当前区域。

发明内容

本发明目的就是为了弥补已有技术的缺陷，提供一种基于GBDT-LR和信息量模型的滑坡易发性评价方法。本发明采用GBDT-LR算法和信息量模型耦合，可以大幅度提升LR模型对非线性模型的拟合能力，降低整体模型的复杂度，提高模型的泛化能力。

本发明是通过以下技术方案实现的：

一种基于GBDT-LR和信息量模型的滑坡易发性评价方法，具体包括如下步骤：

(1)选择研究区域；

(2)评价单元和评价因子的选取；

(3)选择非滑坡样本，采用Borderline-Smote算法进行数据采样，生成和非滑坡样本相同数量的滑坡样本；

(4)采用信息量模型和GBDT-LR算法进行耦合的方法构建滑坡易发性模型；

(5)将样本数据分别从频率比、十折线交叉验证、ROC曲线3个方面对构建的滑坡易发性模型进行评价。

所述的评价单元采用斜坡评价单元；所述的滑坡易发性评价因子包括有坡度、坡向、高程、地形曲率、剖面曲率、平面曲率、地形湿度指数、地形起伏度、年均降雨量、归一化植被指数、距断裂距离、距道路距离和距水系距离。

所述的信息量模型，具体内容如下：

在实验过程中，常用滑坡样本频率计算信息量，如式(1)所示：

式(1)中，I表示评价单元中总信息量；n表示评级因子数量；x_i表示当前评价单元内所取的评价因子等级；Y表示滑坡事件；S表示研究区域总面积；S_i表示研究区域内含有x_i评价因子的总面积；N表示研究区域内滑坡总面积；N_i表示研究区域内含有x_i评价因子的滑坡总面积；信息量I作为滑坡评价的综合性指标，其值越大，滑坡发生的可能性越大，反之，发生滑坡的可能性越小。

所述的GBDT-LR算法，具体步骤如下：

(1)将训练样本数据输入GBDT模型进行训练；

(2)用训练好的GBDT模型预测每个样本落在哪个棵树的哪个叶结点上；

(3)将预测结果进行one-hot编码，得到新的离散特征；

(4)将新特征与原特征进行组合，得到新的数据集；

(5)将新数据集输人LR模型进行训练；

(6)用训练好的LR模型进行滑坡预测，得到预测值。

所述的LR模型，具体内容如下：

函数表达式如下：

式(2)中，α代表逻辑回归的常数项；β代表逻辑回归的回归系数；P代表滑坡发生概率，P的值越接近1，表明该斜坡单元发生滑坡的可能性越大，否则，表明发生滑坡的可能性越小。

所述的GBDT模型，具体内容如下：

GBDT模型首先，通过输人的训练样本得到第一棵决策树，训练结果落到某个叶子节点上，同时训练好的第一棵决策树将产生预测值，将实际值与预测值之间的差值称之为残差；然后将残差作为第二棵决策树的实际值，重复上述步骤，反复迭代，直到训练结果达到预先设定的训练次数阈值或精度阈值即停止训练；最后，将所有决策树的预测值加在一起即可得预测值；GBDT模型算法过程如下：

假设输人训练数据集

损失函数L(y，f(x))；输出回归

(1)初始化

(2)对m＝1，2，…，M

(a)对i＝1，2，…，N，计算

(b)对r_mi拟合一个回归树，得到第m棵树的叶结点区域R_mj，j＝1，2，…，J；

(c)对j＝1，2，…，J，计算

(d)更新

θ表示落人当前节点的样本集合；

(3)得到回归树

本发明的优点是：本发明结合研究区域滑坡发育的特点，基于GIS和Python等软件，综合考虑前人研究成果，最终确定13个评价因子，基于信息量模型(I)、梯度提升决策树-逻辑回归(GBDT-LR)算法构建滑坡易发性评价模型，采用Borderline-Smote算法解决滑坡样本的不对称问题，通过频率比、十折线交叉验证和ROC曲线对评价模型进行评估，最终制成贵池区易发性区划图，并结合实际情况分析所制成的滑坡易发性区划图的合理性；为滑坡发生的可能性提供参考，为政府治理滑坡灾害提供科学的参考依据。

附图说明

图1为贵池区地形图与滑坡灾害点示意图；

图2为斜坡单元划分图(左：整个斜坡单元；右：局部展示)；

图3为GBDT-LR算法流程图；

图4为贵池区滑坡易发性评价流程图；

图5为地形地貌因子示意图(a为高程；b为坡向；c为地形曲率；d为剖面曲率；e为平面曲率；f为坡度；g为地形起伏度)；

图6为地质构造因子示意图(距断裂距离)。

图7为水文地质因子示意图(a为地形湿度指数(TWI)；b为距水系距离)；

图8为地表覆被因子示意图(归一化植被指数(NDVI))；

图9为外界触发因子示意图(a为距道路距离；b为年平均降雨量)；

图10为I-GBDT-LR模型贵池区滑坡易发性区划图；

图11为滑坡易发性评价模型的ROC曲线图；

图12为易发性区划与路网、断裂叠加图。

具体实施方式

(1)选择研究区域；

(2)评价单元和评价因子的选取；

具体如下：

1、研究区概况及数据源

1.1研究区概况

本发明选取安徽贵池区为研究区域，其位于安徽省南部，介于东经117°06′-117°50′、北纬30°15′-30°48′之间，全区面积约2516km²。北接长江，南至黄山、九华山，东北、西北分别与铜陵、安庆毗邻，西南、东南分别与本市东至县、石台县和青阳县相接，图1为研究区域地理位置、地形和滑坡灾害点。贵池区属北亚热带湿润性季风气候区，气候温顺，降雨量适宜，光照充裕，四季分明，地表径流顺畅，水源发达；贵池区地处皖南山地与沿江丘陵平原过渡地带，东南部多为山地，中部以丘陵为主，西北部为平原，整个地势自东南向西北倾斜。九华山西延余脉蜿蜒境区东南，山岭纵横，峰峦绵延，主要山峰海拔高程多在300～1000m，最高峰金家山海拔1025m。贵池区是一个以农业、水产、林木为主，各业综合发展的农业区，特殊的地理环境，再加上不断加剧的人类工程活动，如公路建设、水电工程、建筑工程建设过程中的切坡、毁林垦荒、矿产开发等，都在一定程度上破坏了县境内的生态地质环境，这些都为滑坡的孕育、发展创造了有利条件。

1.2数据来源

本发明研究贵池区滑坡易发性评价的数据主要来源于(1)采用分辨率为15m数字高程模型(即DEM数据)，来源于当地有关部门，用于提取坡度、坡向、高程等地形地貌因子，以及斜坡评价单元的划分；(2)30m分辨率的Landsat 8多光谱卫星影像，用于提取研究区域的归一化植被指数(即NDVI)；(3)水系、道路数据来源于OpenStreetMap网站的开源数据，用于计算研究区域的距水系距离、距道路距离；(4)年均降雨量、断裂、滑坡灾害点均由当地相关部门提供，用于计算距断裂距离，滑坡点数据用于模型的训练和测试。数据详细信息如表1所示。由于数据来源不同，为了尽可能减少实验误差，在实验之前将所有数据进行预处理，预处理包括：地理坐标系变换、投影变换、图像配准、重采样、栅格矢量化、矢量栅格化等。

表1实验数据来源

1.3评价单元的选取

目前，栅格评价单元和斜坡评价单元是最常被用在滑坡易发性评价过程中。栅格评价单元，是指按照特定大小规格单元划分整个研究区域，再用划分好的栅格单元进行分区统计全部评价因子。斜坡评价单元，将DEM数据进行水文分析，从中提取山脊线、山谷线，两者叠加即可得到斜坡单元，因此，斜坡单元反应的是真实的地形地貌信息。本发明采用在2016年Massimiliano Alvioli提出的基于r.sLopeunits v1.0斜坡单元自动划分方法，通过不断调试，最终将研究区域划分为17950个斜坡单元，如图2所示。利用GIS中的空间分析功能，将含有滑坡点的斜坡单元视为滑坡单元，用“1”表示；不含滑坡点斜坡单元视为非滑坡单元，用“0”表示。

2、滑坡易发性评价模型的构建

2.1信息量(I)模型

滑坡的发生受不同大小、不同性质的评价因子的影响，因此，利用信息量模型评价滑坡易发性的思路是：根据已有评价因子的实际测量值，与滑坡数据结合，将评价因子转化成反映实际滑坡的信息量值。滑坡易发性评价是否准确与评价过程中获取的信息数量和质量密切相关，在实际实验过程中，常用滑坡样本频率计算信息量，如式(1)所示：

式(1)中，I表示评价单元中总信息量；n表示评级因子数量；x_i表示当前评价单元内所取的评价因子等级；Y表示滑坡事件；S表示研究区域总面积；S_i表示研究区域内含有x_i评价因子的总面积；N表示研究区域内滑坡总面积；N_i表示研究区域内含有x_i评价因子的滑坡总面积。信息量I作为滑坡评价的综合性指标，其值越大，滑坡发生的可能性越大，反之，发生滑坡的可能性越小。

2.2逻辑回归(LR)模型

逻辑回归(Logistic Regression)模型是线性回归模型的扩展，也是经典的多元统计方法。它有一个因变量和多个自变量，通过分析样本之间的逻辑关系，从而预测未知数据的发生概率。逻辑回归模型的特点是简单明了、物理意义明确，自变量类型可以是连续的也可以是离散的，并且不要求自变量频率分布是正态的。此外，逻辑回归模型预测因变量，得到的是估计概率值，而不用考虑因子或判别分析中的假设。因此，逻辑回归模型被广泛应用于滑坡易发性评价建模中，可以较准确的揭示二元因变量(1表示发生滑坡，0表示未发生滑坡)和自变量(评价因子)之间的逻辑关系。其函数表达式如下：

式(2)中，a代表逻辑回归的常数项；β代表逻辑回归的回归系数；P代表滑坡发生概率，P的值越接近1，表明该斜坡单元发生滑坡的可能性越大，否则，表明发生滑坡的可能性越小。

2.3梯度提升决策树(GBDT)模型

GBDT(Gradient Boosting Decision Tree)是提升算法Boosting的一种，其原理是将Gradient Boosting应用到决策树回归算法迭代的过程中，其主要包括三部分：回归树、梯度迭代、缩减。GBDT是一种加法模型，其核心思想是：首先，通过输入的训练样本得到第一棵决策树，训练结果落到某个叶子节点上，同时训练好的第一棵决策树将产生预测值，将实际值与预测值之间的差值称之为残差。紧接着，将残差作为第二棵决策树的实际值，重复上述步骤，反复迭代，直到训练结果达到预先设定的训练次数阈值或精度阈值即可停止训练。最后，将所有决策树的预测值加在一起即可得预测值。GBDT算法过程如下：

假设输人训练数据集

损失函数L(y，f(x))；输出回归

(1)初始化

式中c是一个常数；

(2)对m＝1，2，…，M

(a)对i＝1，2，…，N，计算

(b)对r_mi拟合一个回归树，得到第m棵树的叶结点区域R_mj，j＝1，2，…，J。

(c)对j＝1，2，…，J，计算

(d)更新

θ表示落人当前节点的样本集合；

(3)得到回归树

2.4 GBDT-LR混合模型

鉴于LR模型的低复杂度和优秀的并行化处理能力的特点，被广泛应用于滑坡易发性评价中，并且取得了良好的效果。但是，LR模型实质只是线性模型的泛化，所以在拟合非线性模型时性能较差，需要人工对特征数据进行预先分析和处理，剔除特征之间高相关性的特征，进而间接增强LR模型对非线性模型的学习能力。若LR模型特征分析过程人工进行，不仅工作量大，而且会受到主观因素的影响，对最终的实验结果产生负面影响。GBDT-LR算法就是基于这个背景产生的，并且在2014年，Xinran He等提出将GBDT模型与LR模型结合的混合模型算法，在广告点击率预测方面表现优秀。

GBDT-LR算法的具体流程(如图3所示)分为以下几个步骤：

(1)将训练样本数据输人GBDT模型进行训练；

(3)将预测结果进行one-hot编码，得到新的离散特征；

(4)将新特征与原特征进行组合，得到新的数据集；

(5)将新数据集输人LR模型进行训练；

(6)用训练好的LR模型进行滑坡预测，得到预测值。

2.5易发性评价流程

本发明从非滑坡单元中随机抽取2000个非滑坡单元作为样本，为了保证抽取的非滑坡样本的可靠性，只从距道路距离、距水系距离、距断裂距离大于500m的非滑坡单元中抽取数据，作为非滑坡样本。由于本发明滑坡点数据较少，为了解决实验中样本不对称的问题，本发明采用Borderline-Smote算法进行数据采样，生成和非滑坡样本相同数量的滑坡样本。然后，将样本数据进行十折线交叉验证，取十次结果的平均值，既能在一定程度上避免模型过拟合，又可以验证模型的鲁棒性。具体的滑坡易发性流程图如图4所示，实验结果采用频率比以及ROC精度曲线，再结合贵池区实际情况评价模型准确性。

3、贵池区滑坡指标因子分析

滑坡的发生受多种环境因素的影响，主要包括：地质因子、地质构造因子、地表覆被因子、地形地貌因子、外部触发因子，合理的选取评价因子，会大幅度提升滑坡灾害评价的准确度。本发明通过对贵池区滑坡发生规律本质的总结，再结合前人对滑坡易发性评价经验，最终选取13个评价因子，分别为：坡度、坡向、高程、地形曲率、剖面曲率、平面曲率、地形湿度指数(TWI)、地形起伏度、年均降雨量、归一化植被指数(NDVI)、距断裂距离、距道路距离、距水系距离。其中地形地貌因子从DEM中提取，距断裂、道路、水系距离是通过ArcGIS中的欧式距离分析得到。

在ArcGIS中，利用分区统计功能，对评价因子中连续类型的评价因子求平均值，例如某个斜坡单元的高程值，是高程因子与该斜坡单元对应位置内所有栅格高程值的平均值；离散类型的评价因子求众数，例如某个斜坡单元的坡向，是坡向因子与该斜坡单元对应位置内所有栅格坡向值的众数；这样即可得到每个斜坡单元对应的评价因子值。然后，对评价因子进行分级，为了避免手动分级所造成的主观因素影响，本发明选用ArcGIS中的自然断点法(Jenks’natural breaks)对评价因子进行分级，它是通过统计类别的方差，对相似值进行最恰当地分组，并可使各类之间的差异最大化。最后，利用频率比和信息量计算每个分级的频率比值和信息量值，结果如表2所示。

3.1地形地貌因子

地形地貌因子包括高程、坡向、地形曲率、剖面曲率、平面曲率、坡度、地形起伏度，均是从贵池区15m分辨率的DEM中提取得到。贵池区的高程(见图5-a)在大于124m后，频率比值均大于1(表2)，表明高程值在该范围内有助于滑坡的发育。坡向(见图5-b)为北、东南、南向时，频率比值均大于1(表2)，表明这三个坡向较易发生滑坡。地形曲率(见图5-c)是对地形表面一点扭曲变化程度的定量化度量因子，当贵池区地形曲率大于-0.031时，频率比值均大于1(表2)，表明地形曲率在该范围对滑坡有正向增益。剖面曲率(见图5-d)是表面沿坡度方向的曲率，平面曲率(见图5-e)是表面垂直于坡度方向的曲率，贵池区剖面曲率在-0.05～0.172和平面曲率在0.067～0.198范围内的频率比值大于1(表2)，说明剖面曲率和平面曲率在上述对应范围内有利于滑坡的发育。贵池区坡度(见图5-f)大于15°，频率比值均大于1(表2)，且频率比值先增加后减小，在23°～31°范围内频率比值达到最大，表明贵池区坡度在23°～31°范围内较有利于滑坡的发育。地形起伏度(见图5-g)表征的是一定区域范围内最高点海拔和最低点海拔之间的差值，反映了一定范围内海拔的变化程度，贵池区内地形起伏度在大于12m时，频率比值大于1(表2)，且呈现先增后减的趋势，当地形起伏度介于19～26m内时，最有可能发生滑坡。

3.2地质构造因子

地质构造因子反映的是坡体内部结构，断裂越少，说明坡体内部结构强度越高，反之，说明坡体内部结构越松散破碎。当距离断裂距离(见图6)小于500m时，频率比值大于1(表2)，随着距离断裂的距离的增大，频率比值在逐渐下降，表明距离断裂0～500m范围内的坡体发生滑坡可能性最大。

3.3水文地质因子

坡体距离河流越近，坡脚被河流冲刷侵蚀的越严重，在一定程度上增加了滑坡发生的可能性。贵池区距水系距离如图7-a所示，在0～2199m的范围内，频率比值均大于1(表2)，表明在该范围内滑坡易发生；另外，在6656～8944m范围内，频率比值大于2是由贵池区的地形决定的，贵池区西北部毗邻长江，但是西北主要以平原为主，发生滑坡的概率较小，说明滑坡的发生受多种因子的共同作用，仅凭一个因子无法确定滑坡发生与否，只能分析大概情况。地形湿度指数(见图7-b)表征的是地形和土壤特性对土壤水分分布的影响，贵池区在0～5.5和6.5～7.5范围内，频率比值大于1(表2)，有利于滑坡的发育。

3.4地表覆被因子

归一化植被指数(NDVI)(见图8)介于0.288～0.575之间时，频率比值大于1(表2)，表明贵池区的NDVI在该范围内有助于滑坡的发生，导致这种情况发生的原因是贵池区的地形地貌复杂多样。

3.5外界触发因子

外界触发因子主要包括人类工程活动、降雨量等。根据前人的经验，一般情况下，距离道路越近滑坡的可能性越大，然而贵池区比较特别，如图9-a所示，贵池区西北部是池州市区，虽然拥有大量道路，但是距离实际滑坡点却很远，从而致使0～794m频率比值只是略大于1情况，距离道路远的地区频率比值远高于1，如表2所示。在距离道路0～794m范围内，虽然频率比值只略大于1，但是经统计，其包含的滑坡点占总滑坡点的50％，足以说明在山区的人类活动增加了该地区滑坡发生的风险。年均降雨量，如图9-b所示，在1601～1642mm、1688～1732mm和1732～1781mm范围内的频率比值均大于1，对滑坡发育有正向增益。

表2研究区域滑坡灾害各评价因子指标分级以及信息量

4、实验结果与分析

4.1评价指标因子的共线性判断

在进行逻辑回归之前，需要对评价因子进行多重共线性检验，保证评价因子之间的独立性。如果评价因子之间存在多重共线性，不仅会增加模型复杂度，而且模型结果也不一定可靠。因此，在逻辑回归模型中，多重共线性检验是必不可少的。本发明采用容忍度(Tolerance，TOL)和方差膨胀因子(Variance Inflation Factor，VIF)对13个评价因子进行多重共线性检验：

式(8)中，

表示第i个评价因子x_i与其余评价因子之间的判定系数；当VIF＞10或TOL＜0.1表明该评价因子存在多重共线性，否则，不存在多重共线性。

本发明采用SPSS软件进行多重共线性检验，检验结果如表3所示，从表中可以看出，所选所有评价因子VIF均小于10，说明评价因子之间不存在多重共线性，因此，所有评价因子均可参与后续实验。

表3评价因子多重共线性检验结果

4.2滑坡易发性评价模型结果

频率比，是指不同滑坡易发性等级中滑坡面积占总滑坡面积的值，与该滑坡易发性等级面积占整个研究区面积的值的比值，通过频率比值的结果可以看出，滑坡的分布规律与所划分的滑坡易发性等级是否匹配，确保模型的准确性和可靠性。

利用Python，将训练样本各斜坡单元评价因子的信息量进行归一化，输人到GBDT-LR模型中进行训练，得到贵池区滑坡易发性的概率分布。利用GIS中自然断点法，将贵池区滑坡易发性区划分为4个等级，分别为：极低易发区、低易发区、中易发区以及高易发区，结果如图10和表4所示。极低易发区占整个研究区总面积的61.309％，滑坡面积占比为10.216％；低易发区占整个研究区总面积的15.375％，滑坡面积占比为6.680％；中易发区占整个研究区总面积的13.497％，滑坡面积占比为9.363％；而高易发区仅占整个研究区总面积的9.819％，滑坡面积占比却达到了73.742％。I-GBDT-LR模型所得到的滑坡易发性等级区划的频率比，大致趋势是随着滑坡易发性等级的提升逐渐提升，高易发性等级的频率比占总频率比的85.294％，表明I-GBDT-LR模型能精确的评价贵池区滑坡易发性。

表4 I-GBDT-LR模型贵池区滑坡易发性评价频率比值

4.3滑坡易发性评价模型的ROC精度曲线

ROC(Receiver Operation characteristic curves)曲线又称受试者工作特征曲线，在滑坡易发性模型精度评价中被广泛使用，它是通过ROC曲线下方的面积AUC(AreaUnder ROC)进行评价，AUC的值介于0～1之间，值越大说明模型分类效果越好，精度越高，否则越低。在ROC曲线中横坐标代表假阳率(FPR)，其含义是非滑坡测试样本被预测为滑坡的个数；纵坐标代表真阳率(TPR)，其含义是滑坡测试样本中被正确预测的滑坡数。

根据图11可以看出，I-GBDT-LR模型进行十折线交叉验证后，每次交叉验证的ROC曲线下方的面积，即AUC值均大于0.8，表明该滑坡易发性评价模型精度较高。十折线交叉验证的结果中，AUC的值最大达到0.8804，最小0.8228，平均AUC值0.854，最大值、最小值与平均值差值较小，方差波动范围也较小，表明模型性能很稳定，实际效果与交叉验证效果吻合度高。

4.4贵池区滑坡易发性分级结果

从贵池区的地形地貌分析可知，贵池区中部、东部多是高丘、低山区，北部、西北部多为平原，整个贵池区自西北向东南海拔逐渐升高。实验所得易发性区划结果，北部、西北部主要为极低易发区和低易发区，中易发区和高易发区主要分布在中部、西南部地区，与贵池区地形地貌的分布规律吻合。从图12可以看出，中易发区和高易发区主要沿路网、断裂、高海拔地区分布，表明人类大量的工程活动破坏了原始平衡状态，诱发了滑坡地质灾害。

本发明以安徽省池州市贵池区为研究区域，基于斜坡评价单元，选取坡度、坡向、高程、曲率、地形湿度指数(TWI)、年均降雨量、归一化植被指数(NDVI)、距断裂距离、距道路距离和距水系距离等13个滑坡易发性评价因子，采用GBDT-LR和信息量模型进行耦合的方法构建模型，再基于GIS技术对滑坡易发性进行评估。实验结果中高易发区频率比占总频率比的85.294％，AUC的平均值达0.854，所得到的滑坡易发性评价结果也与研究区域实际情况相吻合，表明实验所得到的贵池区滑坡易发性等级区划可以为政府部门防灾减灾工作提供有力科学的依据。

Claims

1.一种基于GBDT-LR和信息量模型的滑坡易发性评价方法，其特征在于：具体包括如下步骤：

(1)选择研究区域；

(2)评价单元和评价因子的选取；

2.根据权利要求1所述的一种基于GBDT-LR和信息量模型的滑坡易发性评价方法，其特征在于：所述的评价单元采用斜坡评价单元；所述的评价因子包括有坡度、坡向、高程、地形曲率、剖面曲率、平面曲率、地形湿度指数、地形起伏度、年均降雨量、归一化植被指数、距断裂距离、距道路距离和距水系距离。

3.根据权利要求1所述的一种基于GBDT-LR和信息量模型的滑坡易发性评价方法，其特征在于：所述的信息量模型，具体内容如下：

在实验过程中，用滑坡样本频率计算信息量，如式(1)所示：

式(1)中，I表示评价单元中总信息量；n表示评级因子数量；x_i表示当前评价单元内所取的评价因子等级；Y表示滑坡事件；S表示研究区域总面积；S_i表示研究区域内含有x_i评价因子的总面积；N表示研究区域内滑坡总面积；N_i表示研究区域内含有x_i评价因子的滑坡总面积；信息量l作为滑坡评价的综合性指标，其值越大，滑坡发生的可能性越大，反之，发生滑坡的可能性越小。

4.根据权利要求3所述的一种基于GBDT-LR和信息量模型的滑坡易发性评价方法，其特征在于：所述的GBDT-LR算法，具体步骤如下：

(1)将训练样本数据输人GBDT模型进行训练；

(3)将预测结果进行one-hot编码，得到新的离散特征；

(4)将新特征与原特征进行组合，得到新的数据集；

(5)将新数据集输人LR模型进行训练；

(6)用训练好的LR模型进行滑坡预测，得到预测值。

5.根据权利要求4所述的一种基于GBDT-LR和信息量模型的滑坡易发性评价方法，其特征在于：所述的LR模型，具体内容如下：

函数表达式如下：