CN115270598A

CN115270598A - 一种易发性建模的非滑坡样本选取方法及计算机设备

Info

Publication number: CN115270598A
Application number: CN202210708635.1A
Authority: CN
Inventors: 周超; 甘露露; 曹颖; 吴宏阳; 王悦
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-11-01

Abstract

本发明提供了一种易发性建模的非滑坡样本选取方法，该方法包括：根据历史滑坡编录数据获取滑坡空间分布位置；根据多源数据提取滑坡易发性评价指标并划分评价单元；计算各指标的频率比，按频率比进行分级和归一化处理；根据信息量模型，计算每个指标各个等级的信息量，通过叠加分析得到研究区内每个评价单元的信息量；以信息量0为界限，将非滑坡分为两类，同时利用非滑坡样本指数选取非滑坡样本，通过对比滑坡易发性评价结果的ROC曲线，确定非滑坡样本指数的最佳取值，据此随机选取与滑坡样本等量的非滑坡样本。本发明结合非滑坡样本指数选取非滑坡样本的方法能够为基于机器学习方法的易发性建模提供全面且具有代表性的非滑坡样本。

Description

一种易发性建模的非滑坡样本选取方法及计算机设备

技术领域

本发明涉及地质灾害预测技术领域，具体涉及一种易发性建模的非滑坡样本选取方法及计算机设备。

背景技术

滑坡作为一种主要的地质灾害，具有隐蔽性、突发性、不确定性以及破坏性强等特点。滑坡易发性评价是结合研究区地形地貌等特征来预测研究区内滑坡易发性程度空间分布情况的方法。通过滑坡易发性分区图工作人员可以快速识别出滑坡高发区域，因此，科学、准确地进行滑坡易发性评价，不仅是滑坡监测预警的关键技术，同时也是减灾防灾的基础工作。

滑坡易发性评价的主要研究内容是：在区域范围内，某一确定位置在确定条件下发生滑坡的空间概率。一般认为，滑坡的易发性评价体系包含评价指标的量化和评价模型的选择两个过程。常用的量化方法有信息量法、专家打分法和频率比法等。其中频率比法作为滑坡易发性的指标量化方法，从数据本身的结构信息出发，打破了人为主观给分的限制，实现了滑坡因子二级属性的客观量化。信息量法是通过选取地质灾害的影响因子，分析各因子空间分布特征，计算不同区间各因子的信息量，借助叠加分析方法获得滑坡综合信息量。在评价模型的选择上，常用的模型有机器学习法，比如随机森林和支持向量机等。

当前对滑坡易发性评价的研究大多集中在易发性模型的选择以及量化方法上，而少有对非滑坡样本的选择进行研究。对于机器学习模型而言，样本的选择通常决定了整个模型的精确性和稳定性，若将一些高易发区的点作为非滑坡样本，会对建模精度产生一定影响。为了更加精准的表达滑坡的易发性分区，有必要对机器学习算法建模时样本的选择进行一定程度的研究。

在利用机器学习法进行滑坡易发分区时，一个主要影响因素是非滑坡样本的选取。目前利用机器学习法进行滑坡易发分区，对于非滑坡样本的选取主要有三种方式：从研究区中的非滑坡区域随机抽取；距离已发生滑坡一定缓冲距离外随机选取；从极低易发区中随机选取。但都存在一定的局限性，抽取的非滑坡样本代表性不强，训练后的模型在反映滑坡与评价指标间的非线性函数关系存在一定误差。

发明内容

本发明的目的是解决上述背景技术存在的不足，提供一种易发性建模的非滑坡样本选取方法，为基于机器学习方法的易发性建模提供全面且具有代表性的非滑坡样本。

根据本发明的一个方面，本发明提供了一种易发性建模的非滑坡样本选取方法，包括以下步骤：

S1：根据历史滑坡编录数据得到滑坡的空间分布位置；根据多源数据提取滑坡易发性评价指标并划分为多个评价单元；

S2：计算各评价指标的频率比，按频率比进行分级和归一化处理；

S3：根据信息量模型，计算分级和归一化处理后的每个评价指标各个等级的信息量，通过叠加分析得到研究区内每个评价单元的信息量；

S4：根据每个评价单元的信息量，将非滑坡分为信息量小于或等于0和大于 0两类，同时利用非滑坡样本指数选取非滑坡样本，通过对比滑坡易发性评价结果的ROC曲线，确定非滑坡样本指数的最佳取值，在最佳取值的条件约束下采用随机函数选取与滑坡样本同等数量的非滑坡单元作为最终的非滑坡样本。

优选地，步骤S1中，所述滑坡易发性评价指标包括：数字高程模型DEM、坡度、坡向、径流强度指数、湿度指数、地面粗糙度、地形起伏度、曲率、剖面曲率、平面曲率、断层、工程地质岩组、水系、道路、土地利用和归一化植被指数NDVI。

优选地，步骤S1包括：

S11：将历史滑坡编录数据导入ArcGIS中，确定滑坡点位置，得到滑坡栅格图层；

S12：根据滑坡特征从多源数据中提取滑坡易发性评价指标，将所有评价指标的栅格图层规范成30m*30m的栅格单元集。

优选地，步骤S2包括：

S21：对于连续性评价指标，首先以一定的间隔进行初步的离散化，统计得到该评价指标整体频率比分布曲线，然后以分布曲线的突变点为临界值将连续性评价指标进行再次离散化，把对滑坡发育影响作用相同的分级状态合并为同一类；

其中频率比的计算公式如下：

式中：j表示第j个类别，

为第j个类别中的滑坡单元面积之和，A^j为第j 个类别的评价单元总面积；S₀为含有地质灾害的单元面积之和，S为研究区评价单元总面积，FR指标表征了指标因子各级状态对于滑坡发生的重要程度，FR>1 表明该状态对滑坡的发生具有促进作用，FR≤1表明该状态不利于滑坡发生；

S22：对于离散型评价指标，直接利用原有的指标分级区间；

S23：计算每个评价指标的各个等级的频率比，根据频率比对每个评价指标进行归一化处理。

优选地，步骤S3包括：

根据信息量模型，计算每个评价指标各个等级的信息量，对每个评价指标的信息量栅格图层进行叠加分析，得到总的信息量栅格图层，每个评价单元都有对应的信息量，其中信息量的计算公式为：

式中：I为预测区信息量预测值；m为第m个评价指标，n为评价指标的个数；N^m为因素x_m所占面积；

为因素x中发生地质灾害的面积总和；S为研究区评价单元总面积；S₀为含有地质灾害的单元面积之和。

优选地，步骤S4包括：

S41：根据历史滑坡编录数据中的滑坡确定滑坡样本数量；

S42：将研究区内的非滑坡以信息量值0为界，划分为小于或等于0和大于 0两部分；利用非滑坡样本指数找到非滑坡样本的不同选取范围，其中非滑坡样本指数的计算公式为：

式中：N为非滑坡样本指数；X₁为信息量小于0的非滑坡样本数；X₂为信息量大于0的非滑坡样本数；

S43：非滑坡样本与滑坡样本的比例为1：1，将不同非滑坡样本指数取值下的非滑坡样本与滑坡样本组成数据集，按一定的比例随机划分为训练集和验证集，而测试集为研究区内所有的非滑坡与滑坡样本，将训练集输入逻辑回归模型，得到训练好的逻辑回归模型，将测试集输入训练好的逻辑回归模型中，得到测试集的ROC最高时的非滑坡样本指数，确定非滑坡样本指数的最佳取值，在最佳取值的条件约束下随机抽取与滑坡样本等数量的非滑坡样本。

优选地，步骤S4中：

记滑坡发生的条件概率为P，则逻辑回归模型的数学表达式为：

式中：β₀，β₁，β₂，…，β_i为逻辑回归系数；X₀，X₁，X₂，…，X_i为自变量；对公式的P求解，即得到滑坡发生的概率为：

式中：P为单个评价单元内发生滑坡的概率，P值越大，说明该单元越易发生滑坡，易发性等级越高，可根据P值对研究区域进行滑坡易发性分区。

根据本发明的另一方面，本发明提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行所述的非滑坡样本选取方法。

本发明提供的技术方案具有以下有益效果：

随机选取非滑坡样本作为机器学习模型的训练集和验证集，具有很强的不确定性，导致模型在学习滑坡样本和非滑坡样本特征时存在大量误差，一定程度上降低了滑坡易发性预测建模精度。而基于研究区内非滑坡样本指数的最佳取值提取非滑坡样本，在建模过程中降低了非滑坡样本的不确定性，提高建模精度，使非滑坡样本具有更广泛的代表性，从而使得训练好的模型更准确的反映出滑坡与评价指标之间的非线性函数关系。综上所述，本发明结合非滑坡样本指数选取非滑坡样本的方法能够为基于机器学习方法的易发性建模提供全面且具有代表性的非滑坡样本，可以作为滑坡灾害防治的依据。

附图说明

下面将结合附图及实施例对本发明的具体效果作进一步说明，附图中：

图1为本发明一种易发性建模的非滑坡样本选取方法的流程图；

图2为本发明一种易发性建模的非滑坡样本分布图；

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，本实施例提供了一种易发性建模的非滑坡样本选取方法，包含以下步骤：

进一步地，步骤S1具体步骤如下：

S11：根据历史滑坡编录数据确定滑坡点的空间分布位置，得到滑坡栅格图层；

S12：将需要进行滑坡易发性预测的研究区进行评价单元划分；

S13：根据滑坡特征从多源数据中提取评价指标，包括地形地貌，工程地质，水文环境和地表覆被等方面。将所有评价指标的栅格图规范成30m*30m的栅格单元集。

进一步地，步骤S2具体包括：

S21：对于连续性评价指标，比如DEM和NDVI等指标，首先以一定的极短间隔对其进行初步的离散化，统计得到该指标整体频率比分布曲线，然后以分布曲线的突变点为临界值将连续型指标进行再次离散化，把对滑坡发育影响作用相同的分级状态合并为同一类。

以评价指标坡度为例：坡度在0°到90°之间，先将其以3°为间隔，将其细分为30个等级，得到初步离散化后的频率比分布曲线，再将对滑坡发育影响作用相同的分级状态合并为同一类，进行第二次离散化，最终坡度指标划分为5级。

S22：对于离散型评价指标，如土地利用类型和坡向等指标，直接利用其原有的指标分级区间。

以评价指标坡向为例：坡向共分为平面、北、西北、东北、西、东、东南，西南和南9个类型，可直接统计得到各个类型的频率比，无需再次离散化分级区间。

S23：计算每个评价指标的各个等级的频率比，根据频率比对其进行归一化处理。

进一步地，步骤S3具体包括以下步骤：

根据信息量模型，计算每个评价指标各个等级的信息量，对每个评价指标的信息量栅格图层进行叠加分析，得到总的信息量栅格图层，每个评价单元都有其对应的信息量。

进一步地，步骤S4具体包括以下步骤：

S41：根据历史滑坡编录数据中的滑坡确定滑坡样本数量；

S42：将研究区内的非滑坡以信息量值0为界，划分为小于或等于0和大于 0两部分；利用非滑坡样本指数找到非滑坡样本的不同取值，其中非滑坡样本指数的计算公式为：

以N＝2为例，当非滑坡样本指数N＝2时表示：滑坡样本为93687个；将研究区的“未标记”评价单元，即非滑坡单元划分为两类(信息量小于或等于0与信息量大于0)，从信息量小于或等于0的部分中随机抽取62458个，从信息量大于0中随机抽取31229个，共同组成非滑样本集。

S43：非滑坡样本与滑坡样本的比例为1：1，将不同非滑坡样本指数取值下的非滑坡样本与滑坡样本组成数据集，按7：3的比例随机划分为训练集和验证集，而测试集为研究区内所有的非滑坡与滑坡样本，将训练集输入逻辑回归模型，得到训练好的逻辑回归模型，将测试集输入训练好的逻辑回归模型中，得到测试集的ROC最高时的非滑坡样本指数，确定非滑坡样本指数的最佳取值，在最佳取值的条件约束下随机抽取与滑坡样本等数量的非滑坡样本。

逻辑回归模型是一种广义的线性回归分析模型，可以在一个因变量和多个自变量之间形成多元回归关系，从而预测某一区域某一事件的发生概率。逻辑回归的因变量为分类变量，将滑坡是否发生作为因变量，取值“1”代表发生滑坡，取值“0”代表未发生滑坡。将逻辑回归应用到滑坡易发性评价中属于二元逻辑回归分析。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本实施例的研究区是重庆市奉节县。奉节县位居重庆东北，扼长江上游，居四川台坳、上扬子褶皱带、大巴山台缘褶皱带交接部位。县区内地质条件复杂，属地质灾害重灾区，不稳定高边坡、滑坡、崩塌、滑坡等地质灾害分布广泛。

S1：根据历史滑坡编录数据得到滑坡的空间分布位置；根据多源数据提取滑坡易发性评价指标并划分为多个评价单元，具体为：

根据已有的历史滑坡编录数据，结合同时期的谷歌地图高分辨率影像数据，了解奉节县的地质灾害类型、发育分布和规模等情况，最终确定滑坡1525处，确定滑坡点的空间分布位置，得到滑坡栅格图层。将需要进行滑坡易发性预测的研究区进行评价单元划分，即30m*30m的栅格单元。

根据滑坡特征从多源数据(空间分辨率为30m的Landsat OLI-8遥感影像数据，20m的数字高程模型DEM，地质构造数据，1：10万信息图，10m空间分辨率的土地利用类型图)中提取16项评价指标，分别为数字高程模型DEM、坡度、坡向、径流强度指数、湿度指数、地面粗糙度、地形起伏度、曲率、剖面曲率，平面曲率、断层、工程地质岩组、水系、道路、土地利用和归一化植被指数 NDVI。将所有评价指标的栅格图层规范成30m*30m的栅格单元集。

S3：根据信息量模型，计算每个评价指标各个等级的信息量，通过叠加分析得到研究区内每个评价单元的信息量；

S4：将所有的滑坡都作为样本，非滑坡样本根据非滑坡样本指数选取，通过对比实验，确定在非滑坡样本指数的最佳取值条件下，滑坡易发性预测建模精度最高；具体为：

将研究区内历史滑坡编录数据中的滑坡都作为样本，即1525处滑坡，转换为93687个评价单元。非滑坡样本与滑坡样本的比例为1：1；

利用非滑坡样本指数找到非滑坡样本的最佳取值范围。信息量小于或等于0 与信息量大于0的比例分别取：50：1、40：1、30：1、20：1、10：1、9：1、8： 1、…、1：1、1：2、1：3、…、1：10、…、1：50，即N＝50，40，30，20，10， 9，8，…，1，1/2，1/3，…，1/10，…，1/50，共计27组实验。以信息量小于或等于0：信息量大于0取2：1为例，非滑坡样本数为93687，从研究区内所有信息量小于或等于0的非滑坡栅格中随机抽取62458个，从研究区内所有信息量大于0的非滑坡栅格中随机抽取31229个，共同组成非滑坡样本集。

将不同非滑坡样本指数取值下的非滑坡样本与滑坡样本组成数据集，按7： 3的比例随机划分为训练集和验证集，而测试集为研究区内所有的非滑坡样本与滑坡样本组成。

将训练集输入逻辑回归模型，利用训练好的模型进行滑坡易发性分析，对整个研究区域进行易发性预测，得到研究区内每个评价单元的滑坡易发性概率值。根据受试者工作曲线ROC，得到测试集的ROC最高时的非滑坡样本指数取值为 N＝4。从满足非滑坡样本指数N＝4的条件约束下的非滑坡栅格中，随机抽取与滑坡栅格等量的非滑坡，作为最终的非滑坡样本集，非滑坡样本分布如图2所示。

作为可选地实施方式，本实施例提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行上述的非滑坡样本选取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种易发性建模的非滑坡样本选取方法，其特征在于，包括以下步骤：

S4：根据每个评价单元的信息量，将非滑坡分为信息量小于或等于0和大于0两类，同时利用非滑坡样本指数选取非滑坡样本，通过对比滑坡易发性评价结果的ROC曲线，确定非滑坡样本指数的最佳取值，在最佳取值的条件约束下采用随机函数选取与滑坡样本同等数量的非滑坡单元作为最终的非滑坡样本。

2.根据权利要求1所述的非滑坡样本选取方法，其特征在于，步骤S1中，所述滑坡易发性评价指标包括：数字高程模型DEM、坡度、坡向、径流强度指数、湿度指数、地面粗糙度、地形起伏度、曲率、剖面曲率、平面曲率、断层、工程地质岩组、水系、道路、土地利用和归一化植被指数NDVI。

3.根据权利要求1所述的非滑坡样本选取方法，其特征在于，步骤S1包括：

S12：根据滑坡特征从多源数据中提取滑坡易发性评价指标，将所有评价指标的栅格图层规范成30m*30m的栅格单元集，每个栅格单元为一个评价单元。

4.根据权利要求1所述的非滑坡样本选取方法，其特征在于，步骤S2包括：

其中频率比的计算公式如下：

式中：j表示第j个类别，

为第j个类别中的滑坡单元面积之和，A^j为第j个类别的评价单元总面积；S₀为含有地质灾害的单元面积之和，S为研究区评价单元总面积；FR指标表征了指标因子各级状态对于滑坡发生的重要程度，FR>1表明该状态对滑坡的发生具有促进作用，FR≤1表明该状态不利于滑坡发生；

S22：对于离散型评价指标，直接利用原有的指标分级区间；

5.根据权利要求1所述的非滑坡样本选取方法，其特征在于，步骤S3包括：

6.根据权利要求1所述的非滑坡样本选取方法，其特征在于，步骤S4包括：

S41：根据历史滑坡编录数据中的滑坡确定滑坡样本数量；

S42：将研究区内的非滑坡以信息量值0为界，划分为小于或等于0和大于0两部分；利用非滑坡样本指数找到非滑坡样本的不同选取范围，其中非滑坡样本指数的计算公式为：

式中：N为非滑坡样本指数；X₁为信息量小于或等于0的非滑坡样本数；X₂为信息量大于0的非滑坡样本数；

S43：非滑坡样本与滑坡样本的比例为1：1，将不同非滑坡样本指数取值下的非滑坡样本与滑坡样本组成数据集，按一定比例随机划分为训练集和验证集，而测试集为研究区内所有的非滑坡与滑坡样本，将训练集输入逻辑回归模型，得到训练好的逻辑回归模型，将测试集输入训练好的逻辑回归模型中，得到测试集的ROC最高时的非滑坡样本指数，确定非滑坡样本指数的最佳取值，在最佳取值的条件约束下随机抽取与滑坡样本等数量的非滑坡样本。

7.根据权利要求6所述的非滑坡样本选取方法，其特征在于，步骤S4中：

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机程序，该计算机程序被所述处理器执行时，执行如权利要求1-7任一项所述的非滑坡样本选取方法。