CN117540303A

CN117540303A - 基于交叉半监督机器学习算法的滑坡易发性评估方法及系统

Info

Publication number: CN117540303A
Application number: CN202311605169.5A
Authority: CN
Inventors: 赵鹏; 何展昌; 王维; 邓丽娟; 李锐; 曾庆尧; 黄磊; 王发志
Original assignee: Zhaotong Power Supply Bureau of Yunnan Power Grid Co Ltd
Current assignee: Zhaotong Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-02-09

Abstract

本发明涉及地质灾害防灾减灾技术领域，具体地说，涉及基于交叉半监督机器学习算法的滑坡易发性评估方法及系统。基于区域地形地貌、地质条件、水文气象等详细的地理空间信息和历史滑坡编录，应用机器学习模型构建区域滑坡灾害与其多源影响因素的内在联系，采用交叉半监督学习的方式耦合多种不同的机器学习算法，实现区域滑坡样本的二次扩样，基于二次扩样后的样本数据进行机器学习模型训练，最终得到准确度更高的区域滑坡风险等级分布图。本发明设计可以克服乏资料地区滑坡训练样本不足和单一模型扩样过程中误差积累的问题，进一步提高机器学习模型在滑坡易发性预测应用方面的建模性能和准确率，为区域滑坡灾害防治提供技术参考及指导。

Description

基于交叉半监督机器学习算法的滑坡易发性评估方法及系统

技术领域

本发明涉及地质灾害防灾减灾技术领域，具体地说，涉及基于交叉半监督机器学习算法的滑坡易发性评估方法及系统。

背景技术

滑坡是我国山区破坏最为严重的灾害之一，具有同时性、群发性、成灾大和爆发性等特点，严重威胁着当地群众的生命和财产安全，一直是国内外地质灾害防灾减灾技术领域的重点研究对象。我国地质构造复杂，地质灾害种类多样，造成了恶劣的影响。据统计，每年因为地质灾害事件造成的经济损失占总自然灾害损失的20％以上。其中，西南山区地形崎岖，高山陡立，河谷深切，为滑坡的形成提供了有利的自然条件。尤其是滇东北地区，降雨丰富、地质构造活动强烈、生态环境脆弱，且人类工程活动频繁，是我国浅层滑坡灾害的重灾区，严重制约了当地的社会经济发展。同时该地区又是重要的水电基地，库区生态、输电线路、基建路网的安全稳定运行都受到滑坡灾害的严重威胁，亟待有效的滑坡风险评估方法指导该区域的防灾减灾工作。

滑坡易发性是指在地形和环境等条件影响的基础上，某一地区发生滑坡的可能性，也就是给定一定地质环境条件，该区域边坡遭受破坏的概率。滑坡易发性区划是通过分析影响滑坡的内在因素和外在诱发因子，评价潜在滑坡灾害的地理空间分布，区划的核心内容包括滑坡灾害的易发性评价和分级等。滑坡易发性评价和分级有助于滑坡灾害的防治，也有助于城镇和路网、电网、水电站等重要基础设施的建设和规划。因此有必要加强区域滑坡易发性预测研究以指导滑坡高发区的防灾减灾工作。

滑坡易发性评价始于1970年代中期，最早是运用统计学方法，基于地质力学、岩性、结构特征等因子，利用二元判别分析法建立特定小区域的稳定/不稳定滑坡预测模型。随着统计学方法的发展，越来越多的统计学模型被应用于滑坡易发性评价，例如信息量模型、频率比模型、证据权模型和熵指数模型等。例如，He等人以美国南加州某县为研究区域，应用统计学方法分析了10个风险因子(降雨、高程、离海岸线距离、坡度、曲率、离断层距离、离主要道路距离、离水系距离以及土地覆盖)与滑坡发生与否的关系，编制了南加州滑坡易发性地图。然而这类方法特异性强，且缺乏对更大区域滑坡相关影响因子的空间分布数据，在其他区域对滑坡风险进行预测时难以达到相同的准确率。随着地理信息技术和卫星遥感技术的飞速发展，更大尺度区域滑坡相关影响因子的获取(例如土壤类型和厚度分布、植被覆盖率分布、土壤初始含水量分布、降雨分布等)成为可能，统计学模型越来越多地被应用于不同区域的滑坡易发性评价。例如，文海家等应用GIS和遥感技术，提取高程、坡度、坡位、岩性、微地貌、距断层距离、距水系距离、距道路距离、年平均降雨量、归一化植被指数等因子，构建空间数据库，结合层次分析法和逻辑回归等方法对汶川、芦山地震进行了研究，对地震引发的滑坡灾害易发性评价取得了一定的效果。

近年来，越来越多的研究开始应用各种机器学习方法，包括逻辑回归、人工神经网络、支持向量机、决策树、随机森林等。目前机器学习被广泛运用于滑坡易发性预测，其主要是利用滑坡-非滑坡样本及其控制因素等数据展开模型训练和测试，以此实现易发性的计算。针对区域滑坡易发性评价问题，与常用的数理统计法如信息量模型不同，机器学习核心思想为：通过大量训练，从已有数据中获取模式，进而实现基于模式的区域滑坡风险与易发性评估。其优势是能够自动化处理大量数据并通过不断的学习和优化，提高数据处理精度，最终获得较为准确的预测结果。机器学习被认为具有比数理统计模型更好的非线性预测能力，其能预测出更加准确的滑坡易发性。按照是否利用已知样本数据作为模型输出变量，可以将机器学习模型分为无监督和全监督机器学习两大类，根据以往的研究结果，两类模型均存在一些不足。一方面，无监督机器学习模型在训练和测试过程中不需要已知滑坡和非滑坡样本作为模型输出变量，但缺乏滑坡/非滑坡先验知识的引导，导致学习效果较差，滑坡易发性预测的准确率难以得到保证。另一方面，全监督机器学习在进行区域滑坡易发性评价时也存在不足，主要表现为：(1)在很多偏远、条件恶劣区域(例如高海拔、高寒山区、山洪易发区等)，通过野外调查获取用于监督训练的滑坡样本数据难度大、费用高、风险高，很多区域的滑坡样本数据聚焦在城市、基础设施建设区或者人口分布区，难以做到滑坡样本在所有的不同影响因子等级范围内的全覆盖，可见已知在编滑坡样本是有待扩充的；(2)建模过程中在整个研究区内随机选取非滑坡样本的策略会给机器学习模型的训练和测试带来大量误差，因为非滑坡样本在区域内的分布也和该区域的滑坡易发性相关，并非完全随机。两个方面的不足造成了目前机器学习算法对区域滑坡易发性的预测精度尚待提高。因此，已有部分学者尝试开发半监督机器学习模型来对区域滑坡易发性进行预测和评价，以中和上述两类模型的优缺点。此外，目前的研究和应用产品往往只采用一种机器学习模型构建区域滑坡易发性风险图，但是这些方法的基础数学原理和模型构建方法不同，根据研究区不同的地理环境条件，方法的适用性也存在很大差异，容易放大模型算法本身的不确定性和误差。

现有技术中，如专利号为CN202110168854.0的基于半监督随机森林模型的区域滑坡易发性预测方法。该方法包括如下步骤：S1：空间分析研究区内的滑坡编录及相关控制因素筛选出已知滑坡样本；S2：基于频率比和相关性分析，确定最能表征滑坡发育特征的控制因素，建立随机森林模型；S3：基于控制因素的FR值、已知滑坡栅格单元和随机选择的非滑坡栅格单元，对全监督机器学习即随机森林模型，根据步骤S2中的五类滑坡易发性等级进行输出预测出初始滑坡易发性值；S4：扩充已知滑坡样本；S5：从极低易发区中随机选取栅格单元作为非滑坡样本；S6：建立半监督随机森林模型。该发明在全监督机器学习的基础上进一步提高了滑坡易发性预测建模性能。

再如专利号为CN201910745577.8的一种基于空间逻辑回归与地理探测器的滑坡易发性评价方法，该方法主要包括：基础评价单元的提取；评价因子的筛选；建立空间逻辑回归模型；评估空间逻辑回归模型；而且，通过地理探测器计算坡面单元中的影响因子对滑坡空间分布的贡献度，并选取对滑坡空间分布具有显著贡献度的影响因子作为空间逻辑回归模型的自变量，再利用测试数据集，求解空间逻辑回归模型的回归系数。由于该发明在建立空间逻辑回归模型时，选取滑坡空间分布具有显著贡献度的影响因子作为自变量，同时利用了空间数据的属性信息和空间结构信息，将空间自相关效应作为一种潜在信息来源对模型进行改进，使得模型的拟合度、预测精度得到了显著提升。

然而，现有技术中的实现方案还存在不足，如基于数理统计方法或机器学习算法的区域滑坡易发性评价模型，本质上都是数据驱动模型，因其不探究滑坡诱发-演进的物理机理与过程，而是通过历史滑坡数据寻找特定区域滑坡灾害与致灾因子的统计学响应规律，因此对滑坡编录中滑坡样本数量要求较高。实际情况中，野外滑坡调查难以覆盖全时段、全区域，大多数滑坡的发生都未被记录在册，特别是偏远、深山地区。用不完全的滑坡样本进行区域滑坡灾害与致灾因子非线性响应规律的构建容易造成误差，导致易发性风险分级图的准确度不够，难以为区域滑坡灾害防治提供有效指导。

目前有少量研究尝试利用半监督训练的方法克服无监督和全监督机器学习模型的弊端。然而仅仅局限在对单一模型进行半监督训练，扩样过程中潜在滑坡样本和非滑坡样本的产生完全取决于扩样前原模型的参数优化程度，容易积累模型本身的固有误差，造成过拟合或者过度预测，增大了区域滑坡易发性等级图对滑坡高风险区的误报率。鉴于此，我们提出了基于交叉半监督机器学习算法的滑坡易发性评估方法及系统。

发明内容

本发明的目的在于提供基于交叉半监督机器学习算法的滑坡易发性评估方法及系统，以解决上述背景技术中提出的问题。

为实现上述技术问题的解决，本发明的目的之一在于，提供了基于交叉半监督机器学习算法的滑坡易发性评估方法，包括如下步骤：

S1、通过遥感和地理信息系统GIS平台管理和空间分析研究区内滑坡编录及相关的多元控制因素；

S2、基于Spearman相关性分析和地理探测器，合并相关性极高的孕灾因子，剔除相关性极低的孕灾因子，确定最能表征研究区滑坡分布特征的控制因素；

S3、建立初级机器学习模型，进行样本的一次扩样；具体步骤如下：

S3.1、利用ArcGIS在研究区的非滑坡区中随机选取与滑坡样本等比例的非滑坡栅格作为非滑坡样本，与滑坡样本一起组成模型的训练验证数据集，称为初级样本；

S3.2、将上述数据集按一定比例分为用于模型训练的训练样本和用于模型验证的验证样本两组；在初级机器学习模型训练过程中，将正样本已知的滑坡栅格单元用1表示，将负样本随机选择的非滑坡栅格单元用0表示；利用训练样本构建初级机器学习模型，再运用验证样本测试搭建的初级机器学习模型，根据受试者工作特征曲线ROC的面积AUC值评估所建模型的准确率；将采用初级样本训练和验证的初级机器学习模型应用于研究区，对于研究区的每一个栅格单元，模型将输出介于0～1之间的概率值，即得到研究区的每一个栅格的初始滑坡易发性值；在ArcGIS软件中采用自然断点分级法并结合滑坡易发性分布规律将研究区的滑坡易发性等级划分为极低易发性、低易发性、中易发性、高易发性、极高易发性五类，得到研究区初始滑坡易发性等级图；

S3.3、从步骤S3.2中极高易发性区中随机选取栅格单元作为潜在滑坡样本，与初级样本中的滑坡样本构成一次扩样后的滑坡样本；从步骤S3.2中极低易发性和低易发性区中随机选择栅格单元作为非滑坡样本，与初级样本中的非滑坡样本构成一次扩样后的非滑坡样本；两者共同构成了一次扩样样本；

S4、建立中级机器学习模型，进行样本的二次扩样；所述中级机器学习模型选择不同于步骤S3中的机器学习模型；采用一次扩样样本，运用中级机器学习模型重复步骤S3.2、步骤S3.3，获得二次扩样样本；

S5、以二次扩样样本作为训练验证数据集，构建终极机器学习模型，重复步骤S3.2，获得研究区最终的滑坡易发性等级图；

S6、调整上述选用的至少两种机器学习模型使用的顺序，重复以上相应的步骤，同样经过二次扩样后，获得研究区最终的滑坡易发性等级图；

S7、根据ROC曲线和AUC值，最终确定准确度最高的滑坡易发性等级图。

作为本技术方案的进一步改进，所述步骤S1中，所述滑坡编录应包含滑坡点的空间坐标、滑坡发生时间等信息。

作为本技术方案的进一步改进，所述步骤S1中，所述多元控制因素分为地形地貌、地质特征、水文气象、下垫面特征及人类活动五大类；其中，每一类控制因素又包括至少一种该地区主导的潜在孕灾因子。

作为本技术方案的进一步改进，所述步骤S1中，所述空间分析管理的目标为每一个滑坡/非滑坡栅格对应一个(n+1)维数组，其中a₁,a₂,a₃,...,a_n为各种孕灾因子的变量值，a_n+1为二分类值；同时采用自然裂点法或滑坡频率比对变量a₁至a_n分别进行数据分类或分级。

作为本技术方案的进一步改进，所述步骤S3-步骤S5中，构建初级机器学习模型、中级机器学习模型和终极机器学习模型时，可以选用的机器学习模型至少包括逻辑回归、人工神经网络、支持向量机、决策树、随机森林等；其中，初级机器学习模型和中级机器学习模型选用不同的机器学习模型。

作为本技术方案的进一步改进，所述步骤S7中，所述ROC曲线用于衡量模型的分类准确性和区分能力；ROC曲线以真阳率TPR为纵轴，以假阳率FPR为横轴，其中：TPR表示被正确预测为正例的样本占所有正例样本的比例；FPR表示被错误预测为正例的样本占所有负例样本的比例；ROC曲线越靠近左上角，说明模型具有更好的分类准确性和区分能力。

作为本技术方案的进一步改进，所述AUC值为ROC曲线下面积，AUC值的取值范围在0.5到1之间，AUC越接近1表示模型性能越好。

本发明的目的之二在于，提供了基于交叉半监督机器学习算法的滑坡易发性评估系统，用于实现上述的基于交叉半监督机器学习算法的滑坡易发性评估方法的步骤，包括以下模块：

初始数据获取模块：用于获取所研究区域的潜在滑坡因子及已知滑坡样本和相关的控制元素；所述控制因素包括地形地貌、地质特征、水文气象、下垫面特征及人类活动五大类；

数值分析计算模块：用于计算控制因素的相关性程度，确定最能表征研究区滑坡分布特征的控制因素；以及随机选择与已知滑坡样本等比例的非滑坡样本，共同构成初级样本；

初级模型构建模块：将初级样本进行训练及验证，构建初级机器学习模型；

区域划分模块：用于根据确定最能表征研究区滑坡分布特征的控制因素对所述研究区域进行易发性分区，将所述研究区域划分为五类滑坡易发性等级；得到研究区初始滑坡易发性等级图；

样本扩充模块：根据所述初始滑坡易发性等级确定扩充后的滑坡样本，将其与初级样本共同构成一次扩样样本；

中级模型构建模块：将一次扩样样本进行训练及验证，构建中级机器学习模型；

区域划分模块：用于根据确定最能表征研究区滑坡分布特征的控制因素对所述研究区域进行易发性分区，将所述研究区域划分为五类滑坡易发性等级；得到研究区中级滑坡易发性等级图；

样本扩充模块：根据所述初始滑坡易发性等级确定扩充后的滑坡样本，将其与一次扩样样本共同构成二次扩样样本；

终极模型构建模块：将二次扩样样本进行训练及验证，构建终极机器学习模型；

模型预测模块：利用所述终极机器学习模型对所述研究区进行滑坡易发性预测，获得研究区最终的滑坡易发性等级图；

精度验证模块：利用ROC曲线，获取滑坡易发性等级图的AUC值，对比不同路径下滑坡易发性等级图的AUC值，获得研究区最终的滑坡易发性等级图。

作为本技术方案的进一步改进，所述滑坡易发性等级为极低易发性、低易发性、中易发性、高易发性、极高易发性。

与现有技术相比，本发明的有益效果：

1.该基于交叉半监督机器学习算法的滑坡易发性评估方法及系统中，基于区域地形地貌、地质条件、水文气象等详细的地理空间信息和历史滑坡编录，应用机器学习模型构建区域滑坡灾害与其多源影响因素的内在联系，采用交叉半监督学习的方式耦合多种不同的机器学习算法，实现区域滑坡样本的二次扩样，基于二次扩样后的样本数据进行机器学习模型训练，最终得到准确度更高的区域滑坡风险等级分布图；

2.该基于交叉半监督机器学习算法的滑坡易发性评估方法及系统中，可以克服乏资料地区滑坡训练样本不足和单一模型扩样过程中误差积累的问题，进一步提高机器学习模型在滑坡易发性预测应用方面的建模性能和准确率，能够更好地为区域滑坡灾害防治提供技术参考及指导，且通过实验数据可以看出，交叉半监督方案显著优于传统的半监督单一机器学习模型。

附图说明

图1为本发明中示例性的整体方法流程图；

图2为本发明中示例性的整体方法步骤简图；

图3为本发明中示例性的随机森林模型原理图；

图4为本发明中示例性的支持向量机模型原理图；

图5为本发明中示例性的系统结构图；

图6为本发明中示例性的昭通市滑坡易发性评价因子及滑坡点的地理空间分布图；

图7为本发明中示例性的基于交叉半监督机器学习算法的滑坡易发性评估方法应用于昭通市的准确率图；

图8为本发明中示例性的基于交叉半监督机器学习算法(SVM-RF-SVM)的昭通市滑坡易发性等级图；

图9为本发明中示例性的基于交叉半监督机器学习算法(RF-SVM-RF)的昭通市滑坡易发性等级图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1-图4所示，本实施例提供了基于交叉半监督机器学习算法的滑坡易发性评估方法，包括如下步骤：

S1、通过遥感(Remote sensing)和地理信息系统GIS(Geographic InformationSystem)平台管理和空间分析研究区内滑坡编录及相关的多元控制因素；滑坡编录应包含滑坡点的空间坐标、滑坡发生时间等信息；多元控制因素分为地形地貌、地质特征、水文气象、下垫面特征及人类活动五大类；其中，每一类控制因素又包括一种或多种该地区主导的潜在孕灾因子；空间分析管理的目标为每一个滑坡/非滑坡栅格对应一个(n+1)维数组，其中a₁,a₂,a₃,...,a_n为各种孕灾因子的变量值，a_n+1为二分类值(1表示滑坡样本；0表示非滑坡样本)；同时采用自然裂点法或滑坡频率比对变量a₁至a_n分别进行数据分类或分级。

S2、基于Spearman相关性分析和地理探测器(Geo-Detector)，合并相关性极高的孕灾因子，剔除相关性极低的孕灾因子，确定最能表征研究区滑坡分布特征的控制因素。

本步骤中，在进行基于相关性的评价因子筛选时，可以用Pearson相关性分析法代替Spearman相关性分析法，二者都可用于评价各类因子之间的相关性，且均可在SPASS软件中实现。

S3、建立初级机器学习模型，进行样本的一次扩样；初级机器学习模型可选择随机森林模型(Random Forest,RF)或支持向量机模型(Support Vector Machines,SVM)。以初级机器学习模型为随机森林模型为例，具体步骤如下：

S3.2、将上述数据集分为两组，70％的样本用于模型训练，30％用于模型验证。在随机森林模型训练过程中，将正样本已知的滑坡栅格单元用1表示，将负样本随机选择的非滑坡栅格单元用0表示；利用训练样本构建随机森林模型，再运用验证样本测试搭建的随机森林模型，根据受试者工作特征曲线ROC(Receiver Operating Characteristic Curve,ROC)的面积AUC值(Area Under Curve)评估所建模型的准确率；将采用初级样本训练和验证的随机森林模型应用于研究区，对于研究区的每一个栅格单元，模型将输出介于0～1之间的概率值，即得到研究区的每一个栅格的初始滑坡易发性值；在ArcGIS软件中采用自然断点分级法并结合滑坡易发性分布规律将研究区的滑坡易发性等级划分为极低易发性、低易发性、中易发性、高易发性、极高易发性五类，得到研究区初始滑坡易发性等级图；

S3.3、从步骤S3.2中极高易发性区中随机选取栅格单元作为潜在滑坡样本，与初级样本中的滑坡样本构成一次扩样后的滑坡样本；从步骤S3.2中极低易发性和低易发性区中随机选择栅格单元作为非滑坡样本，与初级样本中的非滑坡样本构成一次扩样后的非滑坡样本；两者共同构成了一次扩样样本。

本实施例中，随机森林模型(Random Forest,RF)是一种流行的集成学习算法，用于解决分类和回归问题，已成功应用于许多滑坡易发性评估研究。先前的研究表明，RF具有计算量低、预测精度高的优点，并且在缺失和不平衡数据方面，RF的预测值相对平滑也相对稳定。RF由许多分类和决策树组成。RF的主要步骤如图3所示，总结如下：

(1)对原始数据进行多次重采样，通过自举生成子集；

(2)为每个子集随机选择一组特征(即本研究中的滑坡条件因子)；

(3)利用子集和特征生成分类树和决策树；

(4)对上一步得到的所有分类树和决策树的预测结果进行综合，得到最终的预测结果。

其中每棵决策树的分类误差取决于每一棵树的分类能力和它们之间的相关性。传统决策树在选择划分特征时是在当前结点的特征集合中选择一个最优特征(假设有d个特征)，而在随机森林中，对基决策树的每个结点，先从该结点的特征集中随机选择一个包含k个特征的子集，然后再从这个子集中选择一个最优特征用于划分。通过引入一个参数k来控制随机性的引入程度。若令k＝d，则决策树的构建与传统决策树相同；若令k＝1，则是随机选择一个特征进行划分；一般情况下，推荐值k＝log₂ d。然后根据决策树的预测结果，采用投票法得到最终预测结果。假设集成包含T个基学习器{h₁,h₂,...,h_T}，其中h_i在实例x上输出为h_i(x)。假设类别的集合为{c₁,c₂,...,c_N}，为方便讨论，这里将h_i在样本x上的预测输出表示为一个N维向量其中/>表示h_i在类别c_j上的输出，具体公式如下：

即若某个标记得票过半数，则预测为该类别，否则拒绝。对随机森林来说，模型分类的效果受这么两个因素影响，一个是任意两棵树的相关性，相关性越大，错误率越大；另一个就是每棵树的分类能力，每棵树的分类能力越强，整个森林的错误率越低。总体而言，随机森林模型准确率高、速度快、随机抽取特征和样本、在大量的数据上、在高维的数据有更好的效果。但是在某些噪音较大的分类或回归问题上会过拟合；且对于有不同取值属性的数据，取值划分较多的属性会对随机森林产生更大的误差影响。

S4、建立中级机器学习模型，进行样本的二次扩样；中级机器学习模型选择不同于步骤S3中的机器学习模型；以初级机器学习模型为随机森林模型为例，选择支持向量机模型为中级机器学习模型。采用一次扩样样本，运用支持向量机模型重复步骤S3.2、步骤S3.3，获得二次扩样样本。

其中，支持向量机模型(Support Vector Machines,SVM)是一种先进的分类方法，它的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。通过最大化样本之间的间隔来区分不同的样本，在最大边界中心建立一个分类超平面，如果位于超平面上，则会被分为1，如果不在则分被分为-1，其常用于解决二值化分类问题。其优势在于可以处理非线性、小样本和高维的数据，该算法能够提高模型的泛化能力，在一定程度上避免模型过拟合。由于其优异的分类方法能够有效地捕捉信息特征或属性而被广泛应用于诸多领域，在地质灾害易发性分析中SVM通过选取适当的影响因子建模依然具备较为突出的分类优势。其主要步骤如图4所示：

假设滑坡样本数据集D有一组样本x_i，其中i＝1,2,...,n，x_i为滑坡评价因子的输入向量，y_i∈{-1,1}分别为其对应的两个输出值，在滑坡易发性评价中即为滑坡和非滑坡，n为样本数据集中评价因子的数量。SVM的分类目标是最终找到一个最优的超平面，将样本数据集分为两个输出类。表示为：

ωx+b＝0 (2)

式中，ω表示法向量；x为超平面上的点；b为常数。当ω和b达到最优值时，即表示确定了在二分类中可使滑坡、非滑坡样本间距达到最大的最优分类超平面。通过对以下优化问题进行求解，即可确定最优的分类超平面，其数学表达式如下：

st.y_i(ω^Tx+b)≥1-ζ_i (4)

式中，ξ_i为支持向量权重，其实质为超平面方向的权重向量；b代表位移量，通常情况下为常数；h表示支持向量点的数量；ζ_i代表松弛变量，即允许存在错分的可能性；C>0为惩罚参数。

S5、以二次扩样样本作为训练验证数据集，构建随机森林模型，即终极机器学习模型，重复步骤S3.2，获得研究区最终的滑坡易发性等级图。

其中，机器学习是从已有数据中获取模式，并基于模式进行分析预测。机器学习属于人工智能，它与统计学、数据挖掘、模式识别等相关学科关系紧密，目前，在滑坡易发性评价方面也有很多应用。步骤S3-步骤S5中，构建初级机器学习模型、中级机器学习模型和终极机器学习模型时，可以选用的机器学习模型至少包括逻辑回归、人工神经网络、支持向量机、决策树、随机森林等；其中，初级机器学习模型和中级机器学习模型选用不同的机器学习模型。

S6、调整上述两种机器学习模型使用的顺序，重复以上相应的步骤，同样经过二次扩样后，获得研究区最终的滑坡易发性等级图。

本实施例中，ROC曲线是一种常用的分类模型评价方法，用于衡量模型的分类准确性和区分能力。ROC曲线以真阳率TPR(True Positive Rate，TPR)为纵轴，以假阳率FPR(False Positive Rate，FPR)为横轴，其中：TPR(也称为灵敏度、召回率)表示被正确预测为正例的样本占所有正例样本的比例；FPR(也称为误报率)表示被错误预测为正例的样本占所有负例样本的比例。ROC曲线越靠近左上角(TPR高、FPR低)，说明模型具有更好的分类准确性和区分能力。而AUC值为ROC曲线下面积，AUC值的取值范围在0.5到1之间，AUC越接近1表示模型性能越好。因此，当ROC曲线接近左上角时，精度评价较高，而AUC越接近1，说明模型分类性能越好。

本步骤中，进行精度验证时，还可以用P-R曲线代替ROC曲线，二者均可以在Matlab中实现。P-R曲线也是一种用于评估二分类模型性能的工具，和ROC曲线一样是机器学习和数据挖掘领域评价学习器或分类器泛化性能好坏的常用指标。P-R曲线重点关注的是正例的精确性(Precision)和召回率(Recall)之间的权衡关系。与ROC曲线不同，P-R曲线将真正例率(TPR)和假正例率(FPR)替换为精确性和召回率，较为适合于不平衡类别分布的情况。

如图5所示，本实施例还提供了基于交叉半监督机器学习算法的滑坡易发性评估系统，用于实现上述的基于交叉半监督机器学习算法的滑坡易发性评估方法的步骤，包括以下模块：

初始数据获取模块：用于获取所研究区域的潜在滑坡因子及已知滑坡样本和相关的控制元素；控制因素包括地形地貌、地质特征、水文气象、下垫面特征及人类活动五大类；

区域划分模块：用于根据确定最能表征研究区滑坡分布特征的控制因素对研究区域进行易发性分区，将研究区域划分为五类滑坡易发性等级；滑坡易发性等级为极低易发性、低易发性、中易发性、高易发性、极高易发性，得到研究区初始滑坡易发性等级图；

样本扩充模块：根据初始滑坡易发性等级确定扩充后的滑坡样本，将其与初级样本共同构成一次扩样样本；

区域划分模块：用于根据确定最能表征研究区滑坡分布特征的控制因素对研究区域进行易发性分区，将研究区域划分为五类滑坡易发性等级；滑坡易发性等级为极低易发性、低易发性、中易发性、高易发性、极高易发性，得到研究区中级滑坡易发性等级图；

样本扩充模块：根据初始滑坡易发性等级确定扩充后的滑坡样本，将其与一次扩样样本共同构成二次扩样样本；

模型预测模块：利用终极机器学习模型对研究区进行滑坡易发性预测，获得研究区最终的滑坡易发性等级图；

此外，本技术方案提出的用于解决机器学习算法在缺乏数据条件、单一模型误差累积情况下的滑坡易发性评价方法和系统，即前述的交叉半监督思路。此思路的具体实施也可以不受限于机器学习模型的选择，即耦合其他常用机器学习模型(例如，逻辑回归模型、梯度决策树模型等)来实现此交叉半监督思路，也应属于本技术方案可替换的保护范围。

应用实施例

为了验证上述基于交叉半监督机器学习算法的滑坡易发性评估方法及系统的有效性，采用一个具体实施案例来说明本技术方案的具体实施过程，如图6-图9所示。

以云南省昭通市(面积23000km²)为例，依据该区域滑坡发育特征和影响因素以及该区域的自然地理特征，还有滑坡与其影响因子间确定性系数值的计算结果并考虑相关影响因子获取的难易程度，选择了20种影响因子。

具体实施时，利用ArcGIS软件将所有影响因子转化为栅格格式，遥感影像和控制因素的分辨率均为30m。基于Spearman相关性分析和地理探测器(Geo-Detector)，合并相关性极高的孕灾因子，剔除相关性极低的孕灾因子，确定最能表征昭通市滑坡分布特征的控制因子，共15个，包括坡度、起伏度、坡向、地貌类型、土壤类型、土地利用类型、工程岩组、NDVI、地震、年均降雨量、距水电站距离、距道路距离、距水系距离、距断层距离、土壤可侵蚀因子(图6)。

基于昭通市2009-2021年2369个滑坡实测样本数据，按照1:1的比例，采用随机抽样的方式获取区域内相同数量的非滑坡样本。样本数据的X值为4738×15的二维数组(4738为总样本数，15为孕灾因子数)，Y值为对应4738个样本的一维数据，元素值为0或1，其中滑坡样本为1，非滑坡样本为0，此为初级样本。

具体实施时主要利用Python语言来对滑坡易发性进行预测建模。然后将训练好的随机森林预测得到的昭通市的初始滑坡易发性值导入ArcGIS软件中转为栅格文件，并采用自然间断点分级法并结合滑坡易发性分布规律将昭通市划分为五个滑坡易发性级别：(1)极低易发性、(2)低易发性、(3)中易发性、(4)高易发性、(5)极高易发性。从极高易发性区中随机选取栅格单元作为潜在滑坡样本，从极低易发性和低易发性区中随机选择栅格单元作为非滑坡样本，与初级样本两者共同构成了一次扩样样本。同样将扩充后的滑坡和非滑坡栅格数据随机划分为训练(70％)和测试样本(30％)，用于支持向量机模型的训练和测试等建模过程。

第二次训练测试的支持向量机模型同样利用Python语言进行滑坡易发性预测建模。为了方便模型对比，支持向量机模型也将预测的滑坡易发性按自然间断点分级法分为5个级别。同样也从极高易发性区中随机选取栅格单元作为潜在滑坡样本，从极低易发性和低易发性区中随机选择栅格单元作为非滑坡样本，与一次扩样样本两者共同构成了二次扩样样本。

最终使用随机森林模型，将扩充后的二次扩充样本数据随机划分为训练(70％)和测试样本(30％)进行建模，得到最终的滑坡易发性等级图。

利用同样的数据，交换随机森林模型和支持向量机模型的建模顺序，得到第二个最终的滑坡易发性等级图。

最后，采用受试者工作特征曲线(Receiver Operation Characteristic Curves，ROC)下的面积AUC(Area Under ROC)值分别评价两个模型的精度(如图7所示)，AUC值分别为0.95(SVM-RF-SVM)和0.78(RF-SVM-RF)，两种交叉半监督方案都优于单一模型(支持向量机为0.68，随机森林为0.67)，说明本方案提出的基于交叉半监督机器学习算法的滑坡易发性评估方法在昭通市对于滑坡易发性预测精度更高，且采用SVM-RF-SVM的交叉半监督方案最优。从昭通市滑坡风险易发性等级图和实际滑坡点的空间对比上看，采用SVM-RF-SVM路径的交叉半监督方案(如图8所示)对于滑坡点的准确预报率优于采用RF-SVM-RF路径的交叉半监督方案(如图9所示)。

本领域普通技术人员可以理解，实现上述实施例的全部或部分步骤的过程可以通过硬件来完成，也可以通过程序来指令相关的硬件完成。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于交叉半监督机器学习算法的滑坡易发性评估方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于交叉半监督机器学习算法的滑坡易发性评估方法，其特征在于：所述步骤S1中，所述滑坡编录应包含滑坡点的空间坐标、滑坡发生时间的信息。

3.根据权利要求2所述的基于交叉半监督机器学习算法的滑坡易发性评估方法，其特征在于：所述步骤S1中，所述多元控制因素分为地形地貌、地质特征、水文气象、下垫面特征及人类活动五大类；其中，每一类控制因素又包括至少一种该地区主导的潜在孕灾因子。

4.根据权利要求3所述的基于交叉半监督机器学习算法的滑坡易发性评估方法，其特征在于：所述步骤S1中，所述空间分析管理的目标为每一个滑坡/非滑坡栅格对应一个(n+1)维数组，其中a₁,a₂,a₃,...,a_n为各种孕灾因子的变量值，a_n+1为二分类值；同时采用自然裂点法或滑坡频率比对变量a₁至a_n分别进行数据分类或分级。

5.根据权利要求1所述的基于交叉半监督机器学习算法的滑坡易发性评估方法，其特征在于：所述步骤S3-步骤S5中，构建初级机器学习模型、中级机器学习模型和终极机器学习模型时，可以选用的机器学习模型至少包括逻辑回归、人工神经网络、支持向量机、决策树、随机森林；其中，初级机器学习模型和中级机器学习模型选用不同的机器学习模型。

6.根据权利要求1所述的基于交叉半监督机器学习算法的滑坡易发性评估方法，其特征在于：所述步骤S7中，所述ROC曲线用于衡量模型的分类准确性和区分能力；ROC曲线以真阳率TPR为纵轴，以假阳率FPR为横轴，其中：

TPR表示被正确预测为正例的样本占所有正例样本的比例；FPR表示被错误预测为正例的样本占所有负例样本的比例；

ROC曲线越靠近左上角，模型具有更好的分类准确性和区分能力。

7.根据权利要求6所述的基于交叉半监督机器学习算法的滑坡易发性评估方法，其特征在于：所述AUC值为ROC曲线下面积，AUC值的取值范围在0.5到1之间，AUC越接近1表示模型性能越好。

8.基于交叉半监督机器学习算法的滑坡易发性评估系统，用于实现权利要求1-7任一所述的基于交叉半监督机器学习算法的滑坡易发性评估方法的步骤，其特征在于，包括以下模块：

9.根据权利要求8所述的基于交叉半监督机器学习算法的滑坡易发性评估系统，其特征在于：所述滑坡易发性等级为极低易发性、低易发性、中易发性、高易发性、极高易发性。