CN114219123A

CN114219123A - 基于频率比-随机森林模型的区域崩岗易发性预测方法

Info

Publication number: CN114219123A
Application number: CN202111322682.4A
Authority: CN
Inventors: 郭飞; 赖鹏; 王秀娟; 黄晓虎; 曹妍
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-03-22

Abstract

本发明涉及一种基于改进频率比‑随机森林模型与地理探测器的区域崩岗易发性预测方法，包括如下步骤：S1：空间分析研究区的崩岗编录及相关影响因子；S2：基于地理探测器计算影响因子对崩岗空间分布的贡献度，选取对崩岗空间分布具有显著贡献度的影响因子为后续的评价指标。S3：基于改进频率比模型，建立初始崩岗易发性级别，并进一步确定非崩岗栅格单元样本；S4：基于各评价指标的改进频率比值、崩岗栅格单元、随机选择的非崩岗栅格单元，建立改进频率比‑随机森林模型。本发明充分利用连续数据，保留了更多评价指标的信息，从而大幅度提高机器学习模型的易发性预测性能。

Description

基于频率比-随机森林模型的区域崩岗易发性预测方法

技术领域

本发明涉及自然灾害的风险管理领域，具体而言涉及一种基于频率比-随机森林模型与地理探测器的区域崩岗易发性预测方法。

背景技术

崩岗灾害严重恶化当地生态环境，还会助长滑坡等地质灾害，严重威胁人类生命财产安全。崩岗易发性研究可以较为准确地预测特定区域崩岗发生的空间概率。因此，开展崩岗易发性空间预测研究具有重要意义。

由于评价指标的选取目前还没有严格的标准，评价指标选取受评价者专业知识影响，让崩岗易发性评价结果存在一定的主观性，一定程度上限制了评价结果的可靠性。而地理探测器是揭示某种现象背后影响因子的一种新的统计方法。由于其无需对数据做任何假设，该方法在遥感和地球科学领域应用十分广泛。此外，由于要统计评价指标属性值不同区间中崩岗栅格单元的数量，传统频率比、信息量、熵指数、证据权等模型需要将连续型属性值的评价指标通过重分类模糊为离散数据，从而降低了数据的精度。而频率比通过引入了邻域的思想很好地解决了上述问题。评价指标的原始属性值大小一般和崩岗是否发生没有直接联系，故需要使用频率比等模型来对原始属性进行重新赋值，用于随机森林等机器学习模型的输入。

随机森林模型(RF)是一种分类方法，它是由多个弱决策树模型组合而成。随机森林模型是一种容易使用且较为优秀的机器学习算法，具有很强的预测精度和稳定性。因此本发明提供一种基于频率比-随机森林模型与地理探测器的区域崩岗易发性预测方法。

发明内容

为了解决现有技术的这些不足，本文提供一种基于频率比-随机森林模型与地理探测器的区域崩岗易发性预测方法。

为实现上述发明目的，本发明的技术方案如下：

一种基于频率比-随机森林模型与地理探测器的区域崩岗易发性预测方法，包括如下步骤：

S1：以栅格单元作为基础评价单元，通过ENVI和ArcGIS平台管理并分析研究区内的崩岗编录及相关影响因子，所述影响因子为地形地貌、基础地质、水文环境、地表覆被四大类；

S2：基于地理探测器计算所述基础评价单元中影响因子对崩岗空间分布的贡献度，选取对崩岗空间分布具有显著贡献度的影响因子作为后续崩岗易发性评价的评价指标；

S3：基于频率比模型，建立初始崩岗易发性级别，并进一步确定非崩岗栅格单元样本；

S4：基于各评价指标的频率比值、崩岗栅格单元、随机选择的非崩岗栅格单元，建立频率比-随机森林模型。

所述步骤S1是根据研究区的基础地质资料，基于ArcGIS、ENVI和奥维地图平台与遥感影像目视解译来获取研究区的地形地貌、水文环境、地层岩性、地表覆被四大类影响因子的。

所述步骤S2中，对所述的基础评价单元的评价指标的属性值按数值大小进行数值范围分区，并计算不同分区内的q值；其中，所述q值的计算公式为：

其中，i为评价指标的分区数量，N为待评估区内基础评价单元的个数，

为第i个分区内崩岗率R的方差，σ²为整个区域内崩岗率R的方差，q值用于表征评价指标对于崩岗空间分布的贡献度，且q值越大表示评价指标对崩岗空间分布的贡献度越大。

所述步骤S3采用频率比模型得到各指标的频率比值；在ArcGIS软件中利用栅格计算器将这些频率比值进行叠加得到初始崩岗易发性值，初始崩岗易发性值越大的区域表示发生崩岗的可能性越大；在ArcGIS软件中采用自然间断点法将初始崩岗易发性值分为5类崩岗易发性级别：1-极低易发区、2-低易发区、3-中易发区、4-高易发区、5-极高易发区；在1-极低易发区和2-低易发区中随机选择与崩岗栅格单元相等的非崩岗栅格单元。

所述步骤S3的频率比法具体方法如下：

(1)归一化处理，将连续性属性值的评价指标进行归一化处理，其归一化公式如下：

value_i＝value_i/(value_max-value_min) (2)

(2)设置归一化后的评价指标属性值保留的小数位数。例如，精度设置为3，则归一化后value_i精确到小数点后3位；

(3)设置0-1以内的邻域宽度，统计落入归一化后评价指标属性值的邻域区间内的崩岗栅格单元个数及该邻域内分布的栅格单元个数，将“二者的比值”除以“研究区崩岗栅格单元总数与研究区栅格单元总数的比值”即为该属性值邻域的频率比值，频率比值计算公式为：

其中，FR_i代表归一化后评价指标中第i个属性值邻域的频率比值，S_Di代表第i个属性值邻域中崩岗栅格单元的个数，S_i代表第i个属性值邻域的栅格单元个数，S_D代表研究区崩岗栅格单元总数，S代表研究区栅格单元总数。

所述步骤S3中采用的自然间断点法分5个等级并不是等距分类，而是基于数据中固有的自然分类，然后对分类间隔加以识别。

所述步骤S4评价指标的频率比值作为频率比-随机森林模型的输入变量X，同时将崩岗栅格单元和随机选择的非崩岗栅格单元组成训练测试数据集用于频率比-随机森林模型的输入y，并进一步将其随机划分为两个部分：70％的数据集用于训练，剩下的30％用于测试；在频率比-随机森林模型训练测试过程中，将正样本已知的崩岗栅格单元用1表示，将负样本随机选择的非崩岗栅格单元用0表示；频率比-随机森林模型的输出变量是各栅格单元位于0～1之间的概率值，且这些0～1概率值分布即反映了区域崩岗易发性的分布规律；用训练测试好的频率比-随机森林模型预测整个研究区的栅格单元得到的整个研究区的初始崩岗易发性值，然后采用ArcGIS软件中中自然间断点分级法将其划分为5类崩岗易发性级别：1-极低易发区、2-低易发区、3-中等易发区、4-高易发区和5-极高易发区；

所述步骤S4中将各评价指标的频率比值作为所述随机森林模型的输入进行崩岗易发性评价，计算ROC曲线和AUC值，并将所述的AUC值用于表征所述随机森林模型的预测准确率。

本发明的有益效果是：

本发明基于频率比-随机森林与地理探测器的崩岗易发性评价方法，通过地理探测器计算栅格单元中影响因子对空间分布的贡献度，并选取了对崩岗空间分布具有显著贡献度的影响因子作为频率比-随机森林模型崩岗易发性评价模型的评价指标。由于考虑了对崩岗具有显著贡献度的影响因子，为后续建模过程中提高了建模精度；另一方面，在频率比的初始崩岗易发性分区结果中的极低、低易发区中选择了可信度更高的非崩岗栅格数据，减少了训练和测试数据集的误差并提高了模型精度；同时使用评价指标的频率比值为随机森林模型的输入，使用了连续数据，进一步提高了崩岗易发性预测模型的可靠度。综上分析可知，地理探测器可以很好地挑选对崩岗分布具有显著贡献度的影响因子，频率比-随机森林模型可以很好地使用连续型数据同时选取可信度更高的非崩岗栅格单元，能够使模型的预测精度显著提升。

附图说明

图1为本发明的方法流程图；

图2为本发明实例中研究区的空间位置图；

图3为本发明实例中19个影响因子对崩岗空间分布的贡献度图；

图4为本发明实例中选中的对崩岗空间分布的贡献度靠前的8个影响因子，作为崩岗易发性评价的评价指标，其中a、b、c、d、e、f、g、h图分别表示各评价指标数值的空间分布；

图5为本发明实例中传统频率比-随机森林模型(a)和频率比-随机森林模型(b)的ROC曲线和AUC值；

图6为本发明实例中传统频率比-随机森林模型(a)和频率比-随机森林模型(b)的永丰乡崩岗易发性分区结果。

具体实施方式

本发明公开了一种基于频率比-随机森林模型与地理探测器的区域崩岗易发性预测方法，包括如下步骤：

本发明的目的是通过一种基于频率比-随机森林模型与地理探测器的区域崩岗易发性预测方法来实现的，包括以下步骤：

崩岗编录数据质量和影响因子分辨率质量对一个研究区崩岗易发性预测性能具有显著影响。崩岗编录有利于了解崩岗位置、规模大小、分析主控因子等信息。

在崩岗易发性预测过程中，应该依据研究区的崩岗孕灾因素来选择具有代表性的地形地貌、基础地质、水文环境和地表覆被等评价指标来进行崩岗易发性预测。

S2：基于地理探测器计算所述基础评价单元中影响因子对崩岗空间分布的贡献度，选取对崩岗空间分布具有显著贡献度的影响因子作为后续崩岗易发性评价的评价指标。

对所述的基础评价单元的评价指标的属性值按数值大小进行数值范围分区，并计算不同分区内的q值；其中，所述q值的计算公式为：

S3：基于频率比模型，建立初始崩岗易发性级别，并进一步确定非崩岗栅格单元：

采用频率比模型得到各指标的频率比值；在ArcGIS软件中利用栅格计算器将这些频率比值进行叠加得到初始崩岗易发性值，初始崩岗易发性值越大的区域表示发生崩岗的可能性越大；在ArcGIS软件中采用自然间断点法将初始崩岗易发性值分为5类崩岗易发性级别：1-极低易发区、2-低易发区、3-中易发区、4-高易发区、5-极高易发区；在1-极低易发区和2-低易发区中随机选择与崩岗栅格单元相等的非崩岗栅格单元。

其频率比的具体方法如下：

(1)归一化处理，将连续性属性值的评价指标(如高程)进行归一化处理，其归一化公式如下：

value_i＝value_i/(value_max-value_min) (2)

(2)设置归一化后的评价指标属性值保留的小数位数。例如，精度设置为3，则归一化后value_i精确到小数点后3位。

(3)设置0-1以内的邻域宽度，统计落入归一化后评价指标属性值的邻域区间内的崩岗栅格单元个数及该邻域内分布的栅格单元个数，将“二者的比值”除以“研究区崩岗栅格单元总数与研究区栅格单元总数的比值”即为该属性值邻域的频率比值。频率比值计算公式为：

S4：基于各评价指标的频率比值、崩岗栅格单元、随机选择的非崩岗栅格单元，建立频率比-随机森林模型：

评价指标的频率比值作为频率比-随机森林模型的输入变量X，同时将崩岗栅格单元和随机选择的非崩岗栅格单元组成训练测试数据集用于频率比-随机森林模型的输入y，并进一步将其随机划分为两个部分：70％的数据集用于训练，剩下的30％用于测试；在频率比-随机森林模型训练测试过程中，将正样本已知的崩岗栅格单元用1表示，将负样本随机选择的非崩岗栅格单元用0表示；频率比-随机森林模型的输出变量是各栅格单元位于0～1之间的概率值，且这些0～1概率值分布即反映了区域崩岗易发性的分布规律；用训练测试好的频率比-随机森林模型预测整个研究区的栅格单元得到的整个研究区的初始崩岗易发性值，然后采用ArcGIS软件中中自然间断点分级法将其划分为5类崩岗易发性级别：1-极低易发区、2-低易发区、3-中等易发区、4-高易发区和5-极高易发区；

将各评价指标的频率比值作为所述随机森林模型的输入进行崩岗易发性评价，计算ROC曲线和AUC值，并将所述的AUC值用于表征所述随机森林模型的预测准确率。

本发明主要利用R语言中的GD函数包来运行地理探测器选取评价指标的；通过ArcGIS和GIS插件ALSA来进行频率比计算和初始崩岗易发性分区同时选择可信度更高的非崩岗栅格单元的；通过Python中的scikit-learn模型库构建的随机森林模型的。

崩岗易发性是指崩岗发生的空间概率，通过已经发生的崩岗极其环境条件来预测未来崩岗事件可能发生的空间位置和分布概率。故评价指标的选取对于可靠的崩岗易发性评价非常重要。

为了使本技术领域的人员更好地理解本发明方案，下面结合图1所示的流程图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，都属于本发明保护的范围。

(1)步骤一：确定10m*10m精度的栅格单元为基础评价单元，选取崩岗易发性评价的影响因子用于后续筛选出对崩岗空间分布贡献度较大的影响因子作为崩岗易发性评价模型的评价指标。

具体实施时，以江西省兴国县永丰乡为例(图2)，依据该区崩岗发育特征和影响因子以及研究区的自然地理特征，选择地形地貌(LS-factor为坡长因子、Slope为坡度、Aspect为坡向、ProfC为剖面曲率、PlanC为平面曲率)、基础地质(Clay为黏土、Sand为砂、GZK为可蚀性)、水文环境(Prec为年平均降雨量、GZR为降雨侵蚀力、SPI为水动力指数、TWI为地形湿度指数)和地表覆被(VH为标准化VH通道后向散射系数、FVCx为植被覆盖度、Lai为叶面积指数、VV为标准化VV通道后向散射系数、CI为着色指数、BI为红边指数、MSAVI为修正土壤调整植被指数)一共19个影响因子作为地理探测器的输入。

(2)步骤二：基于地理探测器计算19个影响因子对崩岗空间分布的贡献度q值，并从中选取前8个影响因子(年平均降雨量(Prec)、降雨侵蚀力(GZR)、可蚀性(GZK)、坡长因子(LS-factor)、黏土(Clay)、坡度(Slope)、砂(Sand)、标准化VH通道后向散射系数(VH))作为后续崩岗易发性评价的评价指标(图4)，各影响因子的q值如图3所示。

具体实施时，利用ArcGIS软件将所有10m精度栅格单元的影响因子按照属性值重分类为8类，分类方法采用自然间断点法；然后依次由低到高赋值为1到8来代表不同的类别；然后创建一个渔网，将重新赋值后的栅格单元影响因子转为点数据后空间连接至渔网；然后再将崩岗栅格单元空间连接至渔网，其中崩岗栅格单元设置为1；最后将渔网文件属性表导出至R语言的GD函数中进行运算。

(3)步骤三：在进行崩岗易发性预测建模之前，需要确定可信的非崩岗栅格单元。

具体实施时，采用频率比模型得到8个评价指标的频率比值；在ArcGIS软件中利用栅格计算器将这些频率比值进行叠加得到初始崩岗易发性值，初始崩岗易发性值越大的区域表示发生崩岗的可能性越大；在ArcGIS软件中采用自然间断点法将初始崩岗易发性值分为5类崩岗易发性级别：1-极低易发区、2-低易发区、3-中易发区、4-高易发区、5-极高易发区；在1-极低易发区和2-低易发区中随机选择与崩岗栅格单元相等的非崩岗栅格单元。

具体实施时，选择前8个q值最大的影响因子(年平均降雨量(Prec)、降雨侵蚀力(GZR)、可蚀性(GZK)、坡长因子(LS-factor)、黏土(Clay)、坡度(Slope)、砂(Sand)、标准化VH通道后向散射系数(VH))作为崩岗易发性评价模型的评价指标，根据公式value_i＝value_i/(value_max-value_min)将评价指标的原始栅格单元属性值归一化，归一化后的精度设置为3，即保留三位有效数字；然后将邻域宽度设置为0.1，根据公式

计算该评价指标不同属性值邻域的频率比值，得到各指标的频率比值，频率比值大于1，表示有利于崩岗的发生，频率比值越大表明对崩岗发育作用越大。

(4)步骤四：基于各评价指标的频率比值、崩岗栅格单元、随机选择的非崩岗栅格单元，建立频率比-随机森林模型。

具体实施时，首先将所选取的8个评价指标的频率比值作为频率比-随机森林模型的输入变量X，同时将兴国县永丰乡已发生的745个崩岗栅格单元与随机选择的745个非崩岗样本作为频率比-随机森林模型的输入变量y；再并进一步将其随机划分为两个部分：70％的数据集用于训练，剩下的30％用于测试；在频率比-随机森林模型训练测试过程中，将正样本已知的崩岗栅格单元用1表示，将负样本随机选择的非崩岗栅格单元用0表示；频率比-随机森林模型的输出变量是各栅格单元位于0～1之间的概率值，且这些0～1概率值分布即反映了区域崩岗易发性的分布规律；用训练测试好的频率比-随机森林模型预测整个研究区1153221个栅格单元得到的整个研究区的崩岗易发性值，然后采用ArcGIS软件中中自然间断点分级法将其划分为5类崩岗易发性级别：1-极低易发区、2-低易发区、3-中等易发区、4-高易发区和5-极高易发区(图6b)；

(5)步骤五：为了比较频率比-随机森林模型的优势，本实例还采用传统频率比-随机森林模型开展了永丰乡的崩岗易发性评价。

具体实施时，首先对8个评价指标采用自然间断点法重分类为5类，再采用公式

统计它们的传统频率比值，将该值作为传统频率比-随机森林模型的输入变量X，同时将兴国县永丰乡已发生的745个崩岗栅格单元与随机选择的745个非崩岗样本作为传统频率比-随机森林模型的输入变量y；再并进一步将其随机划分为两个部分：70％的数据集用于训练，剩下的30％用于测试；在频率比-随机森林模型训练测试过程中，将正样本已知的崩岗栅格单元用1表示，将负样本随机选择的非崩岗栅格单元用0表示；频率比-随机森林模型的输出变量是各栅格单元位于0～1之间的概率值，且这些0～1概率值分布即反映了区域崩岗易发性的分布规律；用训练测试好的频率比-随机森林模型预测整个研究区1153221个栅格单元得到的整个研究区的崩岗易发性值，然后采用ArcGIS软件中中自然间断点分级法将其划分为5类崩岗易发性级别：1-极低易发区、2-低易发区、3-中等易发区、4-高易发区和5-极高易发区(图6a)；

最后，采用受试者工作特征曲线ROC和曲线下面积AUC值分别评价两个模型的精度。频率比-随机森林模型和传统频率比-随机森林模型的AUC值分别为0.8930(图5b)和0.8483(图5a)。表明频率比模型大幅度提高了传统频率比-随机森林模型的崩岗易发性评价精度。进一步表明通过频率比利用连续数据可以保留更多评价指标的信息，从而大幅度提高机器学习模型的易发性预测性能。

Claims

1.基于频率比-随机森林模型的区域崩岗易发性预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于频率比-随机森林模型的区域崩岗易发性预测方法，其特征在于，所述步骤S1是根据研究区的基础地质资料，基于ArcGIS、ENVI和奥维地图平台与遥感影像目视解译来获取研究区的地形地貌、水文环境、地层岩性、地表覆被四大类影响因子的。

3.根据权利要求1所述的基于频率比-随机森林模型的区域崩岗易发性预测方法，其特征在于，步骤S2中，对所述基础评价单元的评价指标的属性值按数值大小进行数值范围分区，并计算不同分区内的q值；其中，所述q值的计算公式为：

式中，i为评价指标的分区数量，N为待评估区内基础评价单元的个数，

4.根据权利要求1所述的基于频率比-随机森林模型的区域崩岗易发性预测方法，其特征在于，所述步骤S3采用频率比模型得到各指标的频率比值；在ArcGIS软件中利用栅格计算器将这些频率比值进行叠加得到初始崩岗易发性值，初始崩岗易发性值越大的区域表示发生崩岗的可能性越大；在ArcGIS软件中采用自然间断点法将初始崩岗易发性值分为5类崩岗易发性级别：1-极低易发区、2-低易发区、3-中易发区、4-高易发区、5-极高易发区；在1-极低易发区和2-低易发区中随机选择与崩岗栅格单元相等的非崩岗栅格单元。

5.根据权利要求1所述的基于频率比-随机森林模型的区域崩岗易发性预测方法，其特征在于，所述步骤S3的频率比法具体方法如下：

value_i＝value_i/(value_max-value_min) (2)

(2)设置归一化后的评价指标属性值保留的小数位数，如果精度设置为3，则归一化后value_i精确到小数点后3位；

6.根据权利要求1所述的基于频率比-随机森林模型的区域崩岗易发性预测方法，其特征在于：所述步骤S3中采用的自然间断点法分5个等级并不是等距分类，而是基于数据中固有的自然分类，然后对分类间隔加以识别。

7.根据权利要求1所述的基于频率比-随机森林模型的区域崩岗易发性预测方法，其特征在于：所述步骤S4评价指标的频率比值作为频率比-随机森林模型的输入变量X，同时将崩岗栅格单元和随机选择的非崩岗栅格单元组成训练测试数据集用于频率比-随机森林模型的输入y，并进一步将其随机划分为两个部分：70％的数据集用于训练，剩下的30％用于测试；在频率比-随机森林模型训练测试过程中，将正样本已知的崩岗栅格单元用1表示，将负样本随机选择的非崩岗栅格单元用0表示；频率比-随机森林模型的输出变量是各栅格单元位于0～1之间的概率值，且这些0～1概率值分布即反映了区域崩岗易发性的分布规律；用训练测试好的频率比-随机森林模型预测整个研究区的栅格单元得到的整个研究区的初始崩岗易发性值，然后采用ArcGIS软件中自然间断点分级法将其划分为5类崩岗易发性级别：1-极低易发区、2-低易发区、3-中等易发区、4-高易发区和5-极高易发区。

8.根据权利要求1所述的基于频率比-随机森林模型的区域崩岗易发性预测方法，其特征在于：所述步骤S4中将各评价指标的频率比值作为所述随机森林模型的输入进行崩岗易发性评价，计算ROC曲线和AUC值，并将所述的AUC值用于表征所述随机森林模型的预测准确率。