CN111898315B

CN111898315B - 基于分形—机器学习混合模型的滑坡易发性评估方法

Info

Publication number: CN111898315B
Application number: CN202010729050.9A
Authority: CN
Inventors: 周艺; 王世新; 王福涛; 胡桥
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2023-08-08
Anticipated expiration: 2040-07-27
Also published as: CN111898315A

Abstract

本发明公开基于分形—机器学习混合模型的滑坡易发性评估方法，滑坡易发性评估因子的选择；基于分形模型来分析实验区中的历史滑坡地质灾害点与滑坡易发性评估因子之间的分形关系，在求解滑坡易发性评估因子与历史地质灾害点之间的分形维度的基础上，计算初步的滑坡易发性指数；构建多场景样本数据集：3种非滑坡样本连同统一的滑坡样本构建3种不同场景的样本数据集；3种场景的样本数据集分别作为NB模型和SVM模型的输入开展滑坡易发性评估研究。基于分形模型定量选择的负样本相对于传统滑坡易发性研究中从低坡度区、无滑坡区产生的负样本能够改善滑坡易发性评估样本的质量，分形—机器学习混合模型的使用能提高滑坡易发性评估的精度。

Description

基于分形—机器学习混合模型的滑坡易发性评估方法

技术领域

本发明涉及机器学习模型的滑坡易发性评估技术领域。具体地说是基于分形—机器学习混合模型的滑坡易发性评估方法。

背景技术

在基于机器学习模型的滑坡易发性评估研究中，正、负样本的选择是影响滑坡易发性评估模型预测性能以及滑坡易发性评估成果精度的重要方面。传统滑坡易发性研究中是从低坡度区、无滑坡区产生的负样本：基于坡度信息产生的负样本会造成最终的易发性评估结果过分依赖于坡度单一信息，而弱化了其他地理—环境因子对滑坡的影响。当使用的坡度地图精度较低时，会直接导致产生于低坡度区的非滑坡样本在空间明显集聚，出现严重的不平衡分布现象，最终导致机器学习模型的泛化能力受到影响；而非滑坡样本的生成方式是纯定性的，仅根据当前研究区的滑坡发生情况，将至今尚未发生滑坡的区域认定为无滑坡区，而这些区域在未来阶段具有发生滑坡地质灾害的可能性，从无滑坡区生成负样本的方式完全忽略了包括坡度信息在内的所有地理—环境因素对滑坡地质灾害的影响。

发明内容

为此，本发明所要解决的技术问题在于提供一种能提高滑坡易发性评估的精度的基于分形—机器学习混合模型的滑坡易发性评估方法，该方法基于分形模型定量选择的负样本相对于传统滑坡易发性研究中从低坡度区、无滑坡区产生的负样本能够改善滑坡易发性评估样本的质量。

为解决上述技术问题，本发明提供如下技术方案：

基于分形—机器学习混合模型的滑坡易发性评估方法，包括如下步骤：

(1)滑坡易发性评估因子的选择；

(2)基于分形模型来分析实验区中的历史滑坡地质灾害点与滑坡易发性评估因子之间的分形关系，在求解滑坡易发性评估因子与历史地质灾害点之间的分形维度的基础上，计算初步的滑坡易发性指数；

(3)构建多场景样本数据集：3种非滑坡样本连同统一的滑坡样本构建3种不同场景的样本数据集；

(4)3种场景的样本数据集分别作为NB模型和SVM模型的输入开展滑坡易发性评估研究。

上述基于分形—机器学习混合模型的滑坡易发性评估方法，在步骤(1)中：选定高程、坡向、坡度变率、坡向变率、地质岩性、土地利用、地面曲率、距断裂距离、降雨、统一化植被指数NDVI 10个弱相关的地理—环境因子作为滑坡易发性评估因子开展滑坡易发性评估研究；

高程、坡向、地面曲率、坡度变率和坡向变率是由地理空间数据云平台(http://www.gscloud.cn)上提供的30m分辨率的DEM数据计算所得；

地质岩性和距断裂距离由中国地质大学(北京)全国矿产资源潜力评价项目组提供；在对断裂构造的分析中，以0.2km缓冲区为间隔，分析了距离断裂构造2km的范围内断裂构造对滑坡地质灾害的影响；

降雨数据来源于中国科学院资源与环境数据云平台(http://www.resdc.cn/)，根据2006年至2015年的年平均降雨量数据绘制了多年平均降雨量图；

NDVI数据是通过Google Eatrh Engine平台，利用2015/1/1～2016/1/1之间的Landsat 8影像计算了实验区的均值NDVI，并采用等间隔分类方法将NDVI划分为12类；

土地利用数据来源于2017年的Global Land 30(http://www.globallandcover.com/)产品。

上述基于分形—机器学习混合模型的滑坡易发性评估方法，10个弱相关的地理—环境因子，在在GIS软件的辅助下将其转换成统一的0.1km×0.1km尺度的规则网格用于的滑坡易发性评估研究。

上述基于分形—机器学习混合模型的滑坡易发性评估方法，在步骤(2)中，通过对滑坡易发性评估因子的累积和变换，将滑坡地质灾害与滑坡易发性评估因子之间的变维分形关系转换成定维分形关系，从而客观评价每个滑坡易发性评估因子对滑坡地质灾害的影响程度；包括如下步骤：

(2-1)对滑坡易发性建模的滑坡易发性评估因子进行分级处理，将滑坡易发性评估因子划分为一定数量的级别或类别，简化滑坡易发性评估因子；

其中：高程、地面曲率、坡度变率、坡向变率、降雨、统一化植被指数NDVI为连续型评估因子；以密度系数划分方法作为级别划分标准；密度系数划分方法是在以“小间距”对评估因子进行等间距分级的前提下，统计滑坡在当前评估因子各区段中的滑坡密度值，滑坡密度值包括滑坡单元比例和网格单元比例，继而将密度相近的相邻区段进行合并，从而合理控制连续型评估因子的级别划分；

坡向、地质岩性、土地利用为离散型评估因子；以离散性的属性信息来作为状态划分的标准，每一“离散”特征均表示为一类；

距断裂距离为线型评估因子；按照一定的间隔对线性评估因子进行缓冲区分析，不同缓冲区距离对应不同的级别；

(2-2)据对不同类型的滑坡易发性评估因子的分级处理结果，分别计算划级后的每个评估因子每个内部级别的滑坡单元密度，如公式5所示：

式中，P_ld表示滑坡易发性评估因子某个级别中包含的滑坡评估单元个数N_l占整个研究区滑坡单元总数N的比率；P_gd表示滑坡易发性评估因子某个级别中的网格单元个数M_g占整个研究区网格单元总数M的比率；P表示该评估因子在当前级别中的滑坡单元密度；

(2-3)参照每个滑坡易发性评估因子对应分级中所计算的滑坡单元密度值，按照滑坡单元密度值的大小进行降序排列，如果某个级别中的P值为0，则该级别不作考虑，然后分别对按照降序排列的滑坡易发性评估因子级别进行数值编号，即按照滑坡单元密度值的由大到小进行数值编号，各滑坡易发性评估因子所对应的级别分别编号r＝0，1，2…；接着，将分型模型的基本数学公式(1-1)以不同级别r及其所对应的P进行对数变换，如式(2-1)所示，得到(ln(r)和ln(P)；并以坐标(ln(r)，ln(P))的坐标点形式进行成图，最后采用线性拟合的方式对一系列坐标点(ln(r)，ln(P))进行线性拟合；

P(r)＝C×r^D (1-1)

ln(P(r))＝-D ln(r)+ln(C) (2-1)

其中，r表示对待测目标进行测量的最小尺度，自变量；P(r)表示在当前测量尺度r下，对目标的测量结果，因变量；D是分形维数；C为常量；

(2-4)基于对ln(P)和ln(r)进行线性拟合的结果：

如果ln(P)和ln(r)之间能够被线性拟合，则将拟合直线的斜率作为分形维数；

如果ln(P)和ln(r)之间不能被线性拟合，则按照公式6对原始的P和r进行“累积和”处理，经“累积和”计算后得到的S值被当作成新的P值，继而进行下一阶的“累积和”计算；

式中，S₁、S₂、S₃……表示对P的1阶、2阶、3阶…累积和处理；

(2-5)在对P和r进行线性拟合和“累积和”计算的过程中，当直线拟合的均方差R²出现下降趋势时，则“累积和”计算停止，从而以最终拟合直线的斜率作为分形维度值。

上述基于分形—机器学习混合模型的滑坡易发性评估方法，在步骤(3)中，

滑坡样本为将获取的历史滑坡地质灾害点信息，按照设定的评估单元的尺寸进行栅格化处理，并将每个滑坡地质灾害点对应位置上的评估单元认定为滑坡样本；

3种非滑坡样本分别为：从易发性指数较低的区域上随机生成非滑坡样本(Scenario-FT)；从坡度<5°的区域上随机生成非滑坡样本(Scenario-SS)；从无滑坡区域随机生成非滑坡样本(Scenario-RS)。

上述基于分形—机器学习混合模型的滑坡易发性评估方法，3种不同场景的样本数据集分别为：

低易发区场景Scenario-FT样本数据集：在分析滑坡与滑坡易发性评估因子之间的分形关系的基础上，以分形模型求解出的分形维度作为每个滑坡易发性评估因子对滑坡地质灾害的影响权值，并结合每个易发性评估因子内部分级上每个子级中归一化后的滑坡密度值来进行该滑坡易发性评估因子的权值分配，然后在GIS软件中综合所有评估因子的分级权重计算初步的易发性指数，并从易发性指数小于3的区域上随机选择出负样本，连同滑坡样本共同构建样本数据集；其中，滑坡密度值包括滑坡单元数目和网格单元数目；

低坡度区场景Scenario-SS样本数据集：以整个研究区的坡度图为参考，以坡度<5°为阈值进行范围约束，并从经坡度阈值约束后的区域中选择出与滑坡样本同等数量的负样本，并连同滑坡样本共同构建样本数据集；

无滑坡区场景Scenario-RS样本数据集：在已知历史灾害点之外的区域全部视为无滑坡区域，从无滑坡区随机生成负样本，再连同滑坡样本同等样本，共同构建样本数据集；

将3种不同场景的样本数据集按照统一的0.6：0.4的比例，划分为训练样本数据集和验证样本数据集，用于机器学习模型的训练和预测结果的验证。

上述基于分形—机器学习混合模型的滑坡易发性评估方法，在步骤(4)中，对NB模型和SVM模型在3种样本场景应用中的参数进行统一设置，利用单阈值统计指标和多阈值指标来评价不同样本场景下SVM模型和NB模型的滑坡易发性评估结果；单阈值统计指标包括精确率、准确率、灵敏度和F1，多阈值指标包括ROC和AUC；

模型训练精度：在模型训练阶段，对比分析三种不同样本场景中SVM和NB模型的ROC曲线以及各类精度评价指标统计结果；

模型验证精度：在模型验证阶段，综合对比三种样本场景下模型的ROC曲线、AUC值以及各类精度评价指标统计结果。

上述基于分形—机器学习混合模型的滑坡易发性评估方法，滑坡易发性评估研究还包括根据不同场景的样本数据集在NB和SVM模型中计算得到的易发性指数；

通过统一的阈值设置将整个研究区的易发性指数划分为5类：

极低易发性区域：阈值为VLS，0～0.40，

低易发性区域：阈值为LS，0.40～0.70，

中等易发性区域：阈值为MS，0.70～0.85，

高易发性区域：阈值为HS，0.85～0.95，

极高易发性区域：阈值为VHS，0.95～1.00，

依据易发性指数来分析三种场景的样本数据集下滑坡易发性指数的空间分布。

上述基于分形—机器学习混合模型的滑坡易发性评估方法，通过对三种样本场景下模型所对应的易发性评估结果中不同易发性区域的面积比例、滑坡比例、滑坡密度、不稳定斜坡的比例和不稳定斜坡密度的统计结果进行分析，评估滑坡的易发性。

本发明的技术方案取得了如下有益的技术效果：

分形—机器学习混合模型是将分形模型和机器学习模型进行联合而通过改善负样本的质量来提升基于机器学习模型的滑坡易发性评估精度。

滑坡易发性评估研究中负样本的生成方式对机器学习模型的预测性能及滑坡易发性评估的精度存在影响。基于分形模型定量选择的负样本相对于传统滑坡易发性研究中从低坡度区、无滑坡区产生的负样本能够改善滑坡易发性评估样本的质量，分形—机器学习混合模型的使用能提高滑坡易发性评估的精度。

基于机器学习模型的滑坡易发性评估研究中负样本的不确定性，以金沙江流域为实验区，对比分析了基于分形模型定量选择的负样本与传统的滑坡易发性评估研究中从低坡度区、无滑坡区生成的负样本对滑坡易发性评估结果的影响，从而论证基于分形—机器学习混合模型的方法对提升滑坡易发性评估精度的有效性。

附图说明

图1本发明滑坡易发性评估样本优化技术路线；

图2a实验区滑坡易发性评估因子：高程；

图2b实验区滑坡易发性评估因子：地面曲率；

图2c实验区滑坡易发性评估因子：坡度变率；

图2d实验区滑坡易发性评估因子：坡向变率；

图2e实验区滑坡易发性评估因子：坡向；

图2f实验区滑坡易发性评估因子：地质岩性；

图2g实验区滑坡易发性评估因子：降雨；

图2h实验区滑坡易发性评估因子：断裂信息；

图2i实验区滑坡易发性评估因子：NDVI；

图2j实验区滑坡易发性评估因子：土地利用；

图3a实验区滑坡易发性评估因子分形分析：坡向；

图3b实验区滑坡易发性评估因子分形分析：距断裂距离；

图3c实验区滑坡易发性评估因子分形分析：曲率；

图3d实验区滑坡易发性评估因子分形分析：坡向变率；

图3e实验区滑坡易发性评估因子分形分析：岩性；

图3f实验区滑坡易发性评估因子分形分析：土地利用；

图3g实验区滑坡易发性评估因子分形分析：高程；

图3h实验区滑坡易发性评估因子分形分析：坡度变率；

图3i实验区滑坡易发性评估因子分形分析：高程；

图3j实验区滑坡易发性评估因子分形分析：NDVI；

图4a滑坡样本数据集；

图4b Scenario-FT场景的非滑坡样本数据集；

图4c Scenario-SS场景的非滑坡样本数据集；

图4d Scenario-RS场景的非滑坡样本数据集；

图5三种样本场景下模型训练阶段的ROC曲线及AUC值；

图6三种样本场景下模型验证阶段的ROC曲线及AUC值；

图7a SVM模型在Scenario-FT场景中的易发性区划结果；

图7b NB模型在Scenario-FT场景中的易发性区划结果；

图7c SVM模型在Scenario-SS场景中的易发性区划结果；

图7d NB模型在Scenario-SS场景中的易发性区划结果；

图7e SVM模型在Scenario-RS场景中的易发性区划结果；

图7f NB模型在Scenario-RS场景中的易发性区划结果。

具体实施方式

本实施例针对基于机器学习模型的滑坡易发性评估研究中负样本的不确定性，以金沙江流域为实验区，对比分析了基于分形模型定量选择的负样本与传统的滑坡易发性评估研究中从低坡度区、无滑坡区生成的负样本对滑坡易发性评估结果的影响，从而论证基于分形—机器学习混合模型的方法对提升滑坡易发性评估精度的有效性。

在基于机器学习模型的滑坡易发性评估研究中，正、负样本的选择是影响滑坡易发性评估模型预测性能以及滑坡易发性评估成果精度的重要方面。分形—机器学习混合模型是将分形模型和机器学习模型进行联合而通过改善负样本的质量来提升基于机器学习模型的滑坡易发性评估精度。分形—机器学习模型的“混合”主要体现在：首先，由分形模型结合滑坡样本开展初步的滑坡易发性评估，从而从划定的滑坡低易发性区域；其次，基于分形模型预测的结果，从低易发性区域中选择可信的非滑坡(负)样本；然后，以经分形模型优化的非滑坡样本连同滑坡样本共同构建样本数据集作为机器学习模型的输入开展滑坡易发性评估，从而实现分形、机器学习模型联合作用下的滑坡易发性评估研究。

此外，为了论证分形模型优化后的负样本相对于传统方法中生成的负样本对机器学习模型的预测性能及滑坡易发性评估精度的积极影响，本章选用朴素贝叶斯模型(NB)和支持向量机模型(SVM)作为滑坡易发性评估模型，通过构建3种不同场景的样本集作为机器学习模型的输入，从而对比分析3种不同方式产生的样本数据对最终滑坡易发性评估结果的影响。实验具体过程如图1所示。

首先，基于分形模型来分析实验区中的历史滑坡地质灾害(点)与滑坡易发性评估因子之间的分形关系，在求解滑坡易发性评估因子与历史地质灾害点之间的分形维度(权重)的基础上，计算初步的滑坡易发性指数；然后，生成3种不同场景的非滑坡样本，分别为：①基于分形模型计算的易发性指数，从易发性指数较低的区域上随机生成非滑坡样本(Scenario-FT)；②基于研究区的坡度信息，从坡度<5°的区域上随机生成非滑坡样本(Scenario-SS)；③从无滑坡(滑坡之外区域)区随机生成非滑坡样本(Scenario-RS)，3种非滑坡样本连同统一的滑坡样本构建3种不同场景的样本集；最后，基于上述3种场景的样本数据集，以NB模型和SVM模型为滑坡易发性评估模型进行滑坡易发性建模，并对比分析不同样本场景下NB模型和SVM模型的预测性能以及滑坡易发性评估结果的精度，从而论证基于分形模型的负样本生成方式能够改善滑坡易发性评估样本的质量、分形—机器学习混合模型能够提升滑坡易发性评估的精度。

一、滑坡易发性评估因子的选择

通过对实验区中滑坡类型的分析以及实验区基础数据的可获取性考虑，基于实验区的地形地质数据、地貌数据、气象数据、影像数据等计算了高程、坡度、坡向、坡度变率、坡向变率、岩性、土地利用、地面曲率、平面曲率、距断裂距离、降雨、NDVI(统一化植被指数)、地貌类型、地形起伏度、距水距离、距道路距离、地表粗糙度共17个地理—环境因子。鉴于实验区的空间范围较大且所使用的数据在空间尺度上的差异性，在提取上述17个滑坡易发性评估因子后，在GIS软件的辅助下将其转换成统一尺度(0.1km×0.1km)的规则网格用于进一步的滑坡易发性评估研究。在此基础上，对解算的17个地理—环境因素进行相关性及主成分分析等优化处理，最终选定高程、坡向、坡度变率、坡向变率、岩性、土地利用、地面曲率、距断裂距离、降雨、NDVI 10个弱相关(如表1)的地理—环境因子作为本实验区滑坡易发性评估因子开展滑坡易发性评估研究。

表1实验区滑坡易发性评估因子相关性分析

在厘定的滑坡易发性评估因子中，高程(图2a)、坡向(图2e)、地面曲率(图2b)、坡度变率(图2c)和坡向变率(图2d)是由地理空间数据云平台(http://www.gscloud.cn)上提供的30m分辨率的DEM数据计算所得；地质岩性(图2f)和断裂信息(图2h)由中国地质大学(北京)全国矿产资源潜力评价项目组提供，根据研究区岩石的物理力学特征，将整个研究区的地质岩性划分为10类(表2)。在对断裂构造的分析中，以0.2km缓冲区为间隔，分析了距离断裂构造2km的范围内断裂构造对滑坡地质灾害的影响；降雨数据来源于中国科学院资源与环境数据云平台(http://www.resdc.cn/)，根据2006年至2015年的年平均降雨量数据绘制了多年平均降雨量图，并使用等间隔法将多年平均降雨重分类成11类(图2g)；NDVI数据是通过Google Eatrh Engine平台，利用2015/1/1～2016/1/1之间的Landsat 8影像计算了实验区的均值NDVI，并采用等间隔分类方法将NDVI划分为12类(图2i)；土地利用(图2j)数据来源于2017年的Global Land 30(http://www.globallandcover.com/)产品。

表2实验区地质岩性分类

二、分形模型及分形维度计算

滑坡作为典型的非线性地质事件，其在动态演化过程中表现出高度的随机性和不确定性。在一定观测尺度下时，滑坡空间特征呈现出普遍的自相似性及分形特性，可以利用分形模型对滑坡空间分布特征展开定量化分析(唐新凯，2014)。

分形模型最早由Mandelbrot(1967)提出用于解决英国海岸线的测量问题。近些年来，分形模型逐渐被引入到地震、滑坡等典型非线性地质现象的研究中(Ge等，2018)。分形维数作为分形集合的复杂性的定量表征，常用来研究如地形地貌、河流水系、断裂构造等不规则、高度分割的但具有自相似性的复杂现象(唐新凯，2014)。相对于其他方法，分形模型具有更强的鲁棒性，其分形维数可以用分数来进行表示，突破了传统研究中维数为整数的限制，极大丰富了分形方法的应用(Lu等，2012；Mandelbrot，1967)。分形模型的基本数学原理(Li等，2012；Agterberg，2012)如公式1所示:

p(r)＝C×r^-D ...(1)

ln(p(r))＝-Dln(r)+ln(C) ...(2)

式中，r表示对待测目标进行测量的最小尺度(自变量)；p(r)表示在当前测量尺度r下，对目标的测量结果(因变量)；D是分形维数；C为常量。如公式2所示，分形维数的求解，是通过对公式1中的幂律等式进行对数变换，从而求取ln(p(r))和ln(r)之间良好的线性关系，并将ln(p(r))和ln(r)之间线性拟合后的斜率作为分形维数，来表征测量尺度r对测量结果p(r)的影响程度。

然而，自然界中并不存在完全的定维分形关系，即在一些复杂非线性问题的研究中，ln(p(r))和ln(r)的关系不能够被严格线性拟合(Lu等，2012)。鉴于此，Newman(2005)提出一种通过对原始数据进行有限次的“累积和”计算的方法(公式3)来深度挖掘数据之间隐藏的分形关系，从而实现复杂非线性问题下分形维数的求解。

式中，r’表示对待测目标进行测量的尺度，P(r)是对p(r)进行有限次“累积和”计算后的结果，R表示测量尺度小于r的所有尺度。

另外，Newman(2005)通过公式4指出经“累积和”计算不会改变原始数据中存在的分形关系，即如果原始数据满足公式1中的幂律(分形)分布关系，那么对经过“累积和”处理后的数据仍然能够满足幂律分布的分形关系，也即通过有限次的“累积和”变换后，自变量r和因变量p(r)之间的分形关系仍然能够被正确地度量。

在本申请中，我们引入分形模型来分析滑坡地质灾害与滑坡易发性评估因子之间的复杂非线性关系。通过对滑坡易发性评估因子的“累积和”变换，将滑坡地质灾害与滑坡易发性评估因子之间的变维分形关系转换成定维分形关系，从而客观评价每个滑坡易发性评估因子对滑坡地质灾害的影响程度。结合本实施例的研究内容，在滑坡易发性评估研究中累积变维分形的具体实现过程为：

①确定参与滑坡易发性建模的地理—环境评估因子的类型，并对各个评估因子(包含连续型、线性、离散型评估因子)进行分级处理；分级处理将滑坡易发性评估因子划分为一定数量的级别(类别)，以实现因子的简化，避免机器学习模型的亢余，这种因子分级的方法其实质就是因子的离散化。滑坡易发性评估因子按照其在空间上表达方式的不同可分为连续型评估因子、离散型评估因子和线型评估因子。

岩性、土地利用、坡向以属性信息进行表示的评估因子被定义为离散型评估因子，每一“离散”特征均表示为一类。对于离散型评估因子的状态划分，一般以其离散性的属性信息来作为状态划分的标准，一类属性信息对应评估因子的一类级别，相似性状的属性信息也可根据研究需要归为一类进行表征；离散型评估因子的表示方法并非是数值，而是以具体的名称(北北向、北东向、东北向…)来表示，比如：坡向经过计算后会得到9种“离散型”结果：Flat、北坡、东北坡、东坡、东南坡、南坡、西南坡、西坡、西北坡，即每一种坡向均被划分为一个类别(级别)。

距断裂距离为线型评估因子；按照一定的间隔对线性评估因子进行缓冲区分析，那么不同缓冲区距离就对应不同的级别。对于线型评估因子的状态划分，一般是线性矢量数据为基础，通过对线性矢量数据的缓冲区分析，将滑坡与线性评估因子之间的关联其转换为滑坡距线性评估因子的距离来进行表示，而距离的划分往往是采用等间距的分级方法实现；比如：以1km对断裂进行缓冲区分析，那么距离断裂1km、距离断裂1-2km、距离断裂2-3km…分别对应一个类别。

对于连续型评估因子，当前尚无统一的方法来实现连续性评估因子的状态划分。高程、地面曲率、坡度变率、坡向变率、降雨、统一化植被指数NDVI以连续数值进行表示的因子被定义为连续型评估因子；就是采用一定的方法(自定义、等间隔、间断点…)将该因子的数值，划分为若干个区间，每个区间对应一个子级。比如，某研究区高程介于100m～1000m之间，那么采用等间隔的方法就可以将高程评估因子划分为100-200；200-300；…；900-1000等若干个子集。

等间距划分法、密度系数划分方法是对连续型评估因子划分的主要方法。其中，等间距划分方法操作简单但主观性较强，当间距设置过小时会造成评估因子划分的状态过多而不利于最终的滑坡易发性评估；密度系数划分方法是在以“小间距”对评估因子进行等间距分级的前提下，统计滑坡在当前评估因子各区段中的滑坡密度值(滑坡单元比例/网格单元比例)，继而将密度相近的相邻区段进行合并，从而合理控制连续型评估因子的级别划分。

②根据对不同类型滑坡易发性评估因子的分级处理结果，分别计算划级后的每个评估因子每个内部级别的滑坡单元密度，如公式5；

式中，P_ld表示滑坡易发性评估因子某个级别中包含的滑坡评估单元个数(N_l)占整个研究区滑坡单元总数(N)的比率；P_gd表示滑坡易发性评估因子某个级别中的网格单元个数(M_g)占整个研究区网格单元总数(M)的比率；P表示该评估因子在当前级别中的滑坡单元密度。

③参照每个滑坡易发性评估因子对应分级中所计算的滑坡密度值，按照滑坡密度值的大小进行降序排列(如果某个级别中的P值为0，则该级别不作考虑)，然后分别对按照降序排列的评估因子级别进行数值编号，即按照滑坡密度的由大到小，各评估因子所对应的级别分别编号r＝0，1，2…。接着，以不同级别r及其所对应的P进行对数变换，并以坐标(ln(r)，ln(P))的坐标点形式进行成图，最后采用线性拟合的方式对一系列坐标点(ln(r)，ln(P))进行线性拟合。

④基于对ln(P)和ln(r)进行线性拟合的结果，如果ln(P)和ln(r)之间能够被线性拟合，则将拟合直线的斜率作为分形维数；如果ln(P)和ln(r)之间不能被线性拟合，则按照公式6对原始的P和r进行“累积和”处理，经“累积和”计算后得到的S值被当作成新的P值，继而进行下一阶的“累积和”计算。

{P}＝{P₁,P₂,P₃,……P_n},(i＝1,2,…n)

{S₁}＝{P₁,P₁+P₂,P₁+P₂+P₃,……,P₁+P₂+P₃+…P_n},(i＝1,2,…n)

{S₂}＝{S₁₁,S₁₁+S₁₂,S₁₁+S₁₂+S₁₃,……,S₁₁+S₁₂+S₁₃…+S_1n},(i＝1,2,…n)

{S₃}＝{S₂₁,S₂₁+S₂₂,S₂₁+S₂₂+S₂₃,……,S₂₁+S₂₂+S₂₃…S_2n},(i＝1,2,…n)

………(6)

式中，S₁、S₂、S₃……表示对P的1阶、2阶、3阶…累积和处理。

⑤在对P和r进行线性拟合和“累积和”计算的过程中，当直线拟合的均方差R2出现下降趋势时，则“累积和”计算停止，从而以最终拟合直线的斜率作为分形维度值。

按照上述计算过程，对10个滑坡易发性评估因子进行分形维度分析(如图3a-图3j)。其中，坡向、距断裂距离、地面曲率以及坡向变率与滑坡灾害之间满足一阶分形关系，高程、降雨等其他6类评估因子与滑坡灾害之间满足2阶分形关系，各滑坡易发性评估因子的分形维度值分别为：坡向变率，1.72；NDVI，1.63；地质岩性，1.62；降雨，1.53；高程，1.50；土地利用，1.29；坡向，0.96；地面曲率，0.93；距断裂距离，0.89；坡向变率，0.87。

四、多场景样本数据集构建

在构建滑坡易发性评估样本数据集的过程中，为了凸显分形模型对滑坡易发性评估负样本的优化效果，不同场景的样本数据集中采用统一的滑坡样本用于机器学习模型的训练和验证。

对于滑坡样本，将获取的历史滑坡地质灾害点信息，按照设定的评估单元的尺寸进行栅格化处理，并将每个滑坡地质灾害点对应位置上的评估单元认定为滑坡样本(如图4a)。

对于负样本，在Scenario-FT(如图4b)中，在分析滑坡与滑坡易发性评估因子之间的分形关系的基础上，以分形模型求解出的分形维度作为每个滑坡易发性评估因子对滑坡地质灾害的影响权值，并结合每个易发性评估因子内部分级上每个子级中归一化后的滑坡密度值(滑坡单元数目/网格单元数目)来进行该滑坡易发性评估因子的权值分配，然后在GIS软件中综合所有评估因子的分级权重计算初步的易发性指数，并从较低(<0.3)易发性指数区域上随机选择出负样本，连同滑坡样本共同构建样本数据集；

在Scenario-SS中(如图4c)，以整个研究区的坡度图为参考，以坡度<5°为阈值(坡度<2°时无法满足样本数量的要求)进行范围约束，并从经坡度阈值约束后的区域中选择出与滑坡样本同等数量的负样本，并连同滑坡样本共同构建样本数据集；

在Scenario-RS中(如图4d)，在已知历史灾害点之外的区域全部视为无滑坡区域，从无滑坡区随机生成负样本，再连同滑坡样本共同构建样本数据集。

经过上述处理后共生成3种场景的样本数据集，在每种场景的样本数据集中，滑坡样本与非滑坡样本的数量均为4556个，并按照统一的0.6：0.4的比例，划分为训练样本数据集和验证样本数据集，用于机器学习模型的训练和预测结果的验证，从而论证分形模型对滑坡易发性评估研究中负样本的优化效果。

五、评估模型的预测性能分析

依据构建的3种场景的样本数据集，按照滑坡易发性建模的流程，将3种场景的样本数据集分别作为NB模型和SVM模型的输入开展滑坡易发性评估研究。在进行滑坡易发性建模过程中，为了避免因模型的参数设置对最终结果的影响而使得不同样本场景下模型预测的结果之间缺乏对比性，在对NB模型和SVM模型在3种样本场景应用中的参数进行统一设置。此外，为了反映机器学习模型在3种样本场景中的预测性能，利用精确率、准确率、灵敏度和F1等单阈值统计指标以及ROC和AUC等多阈值指标来评价不同样本场景下SVM模型和NB模型的滑坡易发性评估结果。

(1)模型训练精度

在模型训练阶段，对比分析不同样本场景中SVM和NB模型的ROC曲线(如图5)以及各类精度评价指标统计结果(如表4)。SVM和NB模型在Scenario-FT中的ROC曲线均明显高于其在Scenario-RS和Scenario-SS样本下的ROC曲线，表明Scenario-FT下机器学习模型的训练精度最高，其次是Scenario-SS和Scenario-RS。NB和SVM模型在Scenario-FT中的各项精度指标的值均在90％以上，其次是Scenario-SS，在Scenario-RS中所使用的精度评价指标值均低于75％，表明SVM和NB模型在Scenario-RS中对样本的拟合效果均为最差。这些精度评价指标的统计结果表明，无论是SVM模型还是NB模型，Scenario-FT场景下模型的训练效果最优，其次是Scenario-SS、Scenario-RS。

表3三种样本场景下模型训练阶段的精度评估

(2)模型验证精度

在模型验证阶段，综合对比三种样本场景下模型的ROC曲线、AUC值(如图6)以及各类精度评价指标统计结果(如表4)。Scenario-FT场景中SVM模型和NB模型的AUC值最高，分别为0.97、0.99，明显高于SVM模型和NB模型在Scenario-SS和Scenario-RS中所对应的AUC值。Scenario-RS场景中机器学习模型的预测性能最差，所对应的AUC值最低，分别为0.70和0.71。另外，参照准确率、准确率、灵敏度以及F1等精度评价指标的统计结果可知，Scenario-FT中SVM模型和NB模型所对应的精度指标在数值上均要高于Scenario-SS和Scenario-RS所对应的指标值，表明Scenario-FT场景下机器学习模型的预测性能最好，Scenario-FT场景的样本能够提升滑坡易发性评估的精度。

表4三种样本场景下模型验证阶段的精度评估

六、滑坡易发性评估

除了采用单阈值与多阈值指标评价3种样本场景下SVM和NB模型的预测性能之外，为了使得不同样本场景下的滑坡易发性评估结果之间具有可比性，根据不同场景的样本数据集在NB和SVM模型中计算得到的易发性指数，通过统一的阈值设置将整个研究区的易发性指数划分为5类：极低易发性区域(VLS，0～0.40)，低易发性区域(LS，0.40～0.70)，中等易发性区域(MS，0.70～0.85)，高易发性区域(HS，0.85～0.95)和极高易发性区域(VHS，0.95～1.00)，依此来分析三种场景的样本数据集下滑坡易发性指数的空间分布(如图7a-图7f)。

由Scenario-SS样本数据集得到的易发性结果中，易发性指数在空间上分布不连续，“椒盐”现象相对由Scenario-FT和Scenario-RS样本数据集得到的结果较明显。另外，Scenario-FT得到的结果中较高易发性区域相对突出，而在Scenario-SS和Scenario-RS中相对突出的区域为中等易发性区域。

此外，通过对三种样本场景下模型所对应的易发性评估结果中不同易发性区域的面积比例、滑坡比例、滑坡密度、不稳定斜坡的比例、不稳定斜坡密度的统计结果(如表5)可知：

表5三种样本场景下滑坡易发性评估结果的分级统计

在Scenario-RS下NB和SVM模型计算的结果中VHS区域的面积比率、滑坡比率、不稳定斜坡比率极小(约为0)。相反，超过75％的滑坡、80％的不稳定斜坡分布在MS和VLS中，表明在Scenario-RS中SVM和NB模型均错误地将极高易发性区域预测成较低易发性区域。

在Scenario-SS中，SVM模型得到的结果中MS区域占据了52％的面积，仅有2％、9％的区域被划分为VHS和VLS。滑坡和不稳定斜坡的比率也呈现出与面积分布相似的特征。在NB模型计算的结果中，约36％的面积被划归为MS区域，其次是HS(31％),VLS(12％)、LS(11％)、VHS(11％)。另外，NB模型计算的结果中MS区域中包含的滑坡和不稳定斜坡的比率最高，分别为38％、30％。通过对MS和HS区域的统计分析，约72％的滑坡及56％的不稳定斜坡分布在MS和HS区域中。就灾害密度而言，基于NB模型的预测结果中的滑坡与不稳定斜坡的密度表现出与SVM模型在不同易发性级别中相似的特征。总体而言，在Scenario-RS中，NB和SVM模型均将较低易发性区域预测为中等易发性区域，使得中等易发性区域上的面积、灾害比例以及灾害密度相对较高。

在Scenario-FT中，分别有38％(SVM)、64％(NB)的滑坡分布在VHS区域中，并且随着易发性等级的降低，各个易发性等级中包含的滑坡比率也随之下降，仅6％(SVM)、8％(NB)的滑坡分布在VLS区域中。对于不稳定斜坡灾害，近43％(SVM)、72％(NB)的不稳定斜坡分布在VHS区域中，而VLS区域中包含的不稳定斜坡比率仅为3％(SVM)、8％(NB)。另外，该样本场景下SVM和NB模型之间的灾害密度差异比较明显，在VHS区域上SVM模型和NB模型滑坡密度值分别为2.17和1.73，而在VLS区域上，其滑坡密度值分别为0.24和0.26。对于不稳定斜坡，在SVM模型计算的结果中VHS和VLS上的不稳定斜坡密度值分别为2.14和0.13，而在NB模型的预测结果中，VHS和VLS上不稳定斜坡密度值分别为1.84和0.17。

通过以上分析，无论是在模型的训练阶段还是模型的验证阶段，本实施例中随机选用的NB和SVM两种模型均在Scenario-FT中取得最高的预测精度，其次是Scenario-SS，模型在Scenario-RS中模型的预测性能最差，其主要原因是由于分形模型是一种定量的方法，根据历史滑坡地质灾害与目标研究区中的地理—环境因子的分形分析结果进行非滑坡样本的选择。该方法综合考虑了目标区域中的地理—环境因素对滑坡地质灾害的综合影响，将非滑坡样本的选择纳入到目标研究区的地理—环境特征空间中，使得被选择的非滑坡样本所对应的空间位置上诱发滑坡发生的条件差，从而保证所选择的负样本所对应的位置能够真正代表滑坡不易发生。在Scenario-SS中，坡度因素被认为决定滑坡是否容易发生的最主要因素，基于坡度信息产生的负样本会造成最终的易发性评估结果过分依赖于坡度单一信息，而弱化了其他地理—环境因子对滑坡的影响。当使用的坡度地图精度较低时，会直接导致产生于低坡度区的非滑坡样本在空间明显集聚，出现严重的不平衡分布现象，最终导致机器学习模型的泛化能力受到影响。另一方面，低坡度区范围的划定是依赖于对坡度信息的阈值设定，从而依据设定的阈值进行评估单元的约束，再从约束后的评估单元中生成非滑坡样本。这种方法中，坡度阈值的设定本身具有极大的不确定性，坡度阈值设置过小时，会导致非滑坡的空间聚集性越明显，且在样本数量较大时，小阈值约束后的评估单元数量上达不到既定要求；当坡度阈值设置过大时，又会受到与Scenario-RS类似的样本随机性的影响。在Scenario-RS中，非滑坡样本的生成方式是纯定性的，仅根据当前研究区的滑坡发生情况，将至今尚未发生滑坡的区域认定为无滑坡区，而这些区域在未来阶段具有发生滑坡地质灾害的可能性，从无滑坡区生成负样本的方式完全忽略了包括坡度信息在内的所有地理—环境因素对滑坡地质灾害的影响。

综上所述，根据上述实验的研究结果，表明了滑坡易发性评估研究中负样本的生成方式对机器学习模型的预测性能及滑坡易发性评估的精度存在影响。基于分形模型定量选择的负样本相对于传统滑坡易发性研究中从低坡度区、无滑坡区产生的负样本能够改善滑坡易发性评估样本的质量，分形—机器学习混合模型的使用能提高滑坡易发性评估的精度。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本专利申请权利要求的保护范围之中。

Claims

1.基于分形—机器学习混合模型的滑坡易发性评估方法，其特征在于，包括如下步骤：

（1）滑坡易发性评估因子的选择；

（2）基于分形模型来分析实验区中的历史滑坡地质灾害点与滑坡易发性评估因子之间的分形关系，在求解滑坡易发性评估因子与历史地质灾害点之间的分形维度的基础上，计算初步的滑坡易发性指数；

（3）构建多场景样本数据集：3种非滑坡样本连同统一的滑坡样本构建3种不同场景的样本数据集；

（4）3种场景的样本数据集分别作为NB模型和SVM模型的输入开展滑坡易发性评估研究。

2.根据权利要求1所述的基于分形—机器学习混合模型的滑坡易发性评估方法，其特征在于，在步骤（1）中：选定高程、坡向、坡度变率、坡向变率、地质岩性、土地利用、地面曲率、距断裂距离、降雨、统一化植被指数NDVI 10个弱相关的地理—环境因子作为滑坡易发性评估因子开展滑坡易发性评估研究；

高程、坡向、地面曲率、坡度变率和坡向变率是由地理空间数据云平台上提供的30m分辨率的DEM数据计算所得；

地质岩性和距断裂距离由中国地质大学（北京）全国矿产资源潜力评价项目组提供；

在对断裂构造的分析中，以0.2 km缓冲区为间隔，分析了距离断裂构造2 km的范围内断裂构造对滑坡地质灾害的影响；

降雨数据来源于中国科学院资源与环境数据云平台，根据2006年至2015年的年平均降雨量数据绘制了多年平均降雨量图；

NDVI数据是通过Google Eatrh Engine平台，利用2015/1/1～2016/1/1之间的Landsat8影像计算了实验区的均值NDVI，并采用等间隔分类方法将NDVI划分为12类；

土地利用数据来源于2017年的Global Land 30产品。

3.根据权利要求2所述的基于分形—机器学习混合模型的滑坡易发性评估方法，其特征在于，10个弱相关的地理—环境因子，在GIS软件的辅助下将其转换成统一的0.1 km×0.1 km尺度的规则网格用于的滑坡易发性评估研究。

4.根据权利要求1所述的基于分形—机器学习混合模型的滑坡易发性评估方法，其特征在于，在步骤（2）中，通过对滑坡易发性评估因子的累积和变换，将滑坡地质灾害与滑坡易发性评估因子之间的变维分形关系转换成定维分形关系，从而客观评价每个滑坡易发性评估因子对滑坡地质灾害的影响程度；包括如下步骤：

（2-1）对滑坡易发性建模的滑坡易发性评估因子进行分级处理，将滑坡易发性评估因子划分为一定数量的级别或类别，简化滑坡易发性评估因子；

（2-2）据对不同类型的滑坡易发性评估因子的分级处理结果，分别计算划级后的每个评估因子每个内部级别的滑坡单元密度，如公式5所示：

（5）；

式中，P _ld表示滑坡易发性评估因子某个级别中包含的滑坡评估单元个数N _l占整个研究区滑坡单元总数N的比率； P _gd表示滑坡易发性评估因子某个级别中的网格单元个数M _g占整个研究区网格单元总数M的比率；P表示该评估因子在当前级别中的滑坡单元密度；

（2-3）参照每个滑坡易发性评估因子对应分级中所计算的滑坡单元密度值，按照滑坡单元密度值的大小进行降序排列，如果某个级别中的P值为0，则该级别不作考虑，然后分别对按照降序排列的滑坡易发性评估因子级别进行数值编号，即按照滑坡单元密度值的由大到小进行数值编号，各滑坡易发性评估因子所对应的级别分别编号r =0，1，2…；接着，将分型模型的基本数学公式（1-1）以不同级别r及其所对应的P进行对数变换，如式（2-1）所示，得到ln(r)和ln(P) ；并以坐标（ln(r)，ln(P)）的坐标点形式进行成图，最后采用线性拟合的方式对一系列坐标点（ln(r)，ln(P)）进行线性拟合；

（1-1）

（2-1）

其中，r表示对待测目标进行测量的最小尺度，自变量；P(r)表示在当前测量尺度r下，对目标的测量结果，因变量；D是分形维数；C为常量；

（2-4）基于对ln(P)和ln(r)进行线性拟合的结果：

如果 ln(P) 和 ln(r) 之间能够被线性拟合，则将拟合直线的斜率作为分形维数；

如果ln(P)和ln(r)之间不能被线性拟合，则按照公式6对原始的P和r进行“累积和”处理，经“累积和”计算后得到的S值被当作成新的P值，继而进行下一阶的“累积和”计算；

（6）

式中，S ₁ 、S ₂ 、S ₃ ……表示对P的1阶、2阶、3阶…累积和处理；

（2-5）在对P和r进行线性拟合和“累积和”计算的过程中，当直线拟合的均方差R²出现下降趋势时，则“累积和”计算停止，从而以最终拟合直线的斜率作为分形维度值。

5.根据权利要求1所述的基于分形—机器学习混合模型的滑坡易发性评估方法，其特征在于，在步骤（3）中，

3种非滑坡样本分别为：从易发性指数较低的区域上随机生成非滑坡样本Scenario-FT；从坡度< 5°的区域上随机生成非滑坡样本Scenario-SS；从无滑坡区域随机生成非滑坡样本Scenario-RS。

6.根据权利要求5所述的基于分形—机器学习混合模型的滑坡易发性评估方法，其特征在于，3种不同场景的样本数据集分别为：

低坡度区场景Scenario-SS样本数据集：以整个研究区的坡度图为参考，以坡度 < 5°为阈值进行范围约束，并从经坡度阈值约束后的区域中选择出与滑坡样本同等数量的负样本，并连同滑坡样本共同构建样本数据集；

7.根据权利要求1所述的基于分形—机器学习混合模型的滑坡易发性评估方法，其特征在于，在步骤（4）中，对NB模型和SVM模型在3种样本场景应用中的参数进行统一设置，利用单阈值统计指标和多阈值指标来评价不同样本场景下SVM模型和NB模型的滑坡易发性评估结果；单阈值统计指标包括精确率、准确率、灵敏度和F1，多阈值指标包括ROC和AUC；

8.根据权利要求6所述的基于分形—机器学习混合模型的滑坡易发性评估方法，其特征在于，滑坡易发性评估研究还包括根据不同场景的样本数据集在NB和SVM模型中计算得到的易发性指数；