CN117540830B - 基于断层分布指数的泥石流易发性预测方法、装置及介质 - Google Patents

基于断层分布指数的泥石流易发性预测方法、装置及介质 Download PDF

Info

Publication number
CN117540830B
CN117540830B CN202410018105.3A CN202410018105A CN117540830B CN 117540830 B CN117540830 B CN 117540830B CN 202410018105 A CN202410018105 A CN 202410018105A CN 117540830 B CN117540830 B CN 117540830B
Authority
CN
China
Prior art keywords
fault
basin
samples
debris flow
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410018105.3A
Other languages
English (en)
Other versions
CN117540830A (zh
Inventor
张佳佳
杨永杰
黄海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Exploration Technology Chinese Academy of Geological Sciences
Original Assignee
Institute of Exploration Technology Chinese Academy of Geological Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Exploration Technology Chinese Academy of Geological Sciences filed Critical Institute of Exploration Technology Chinese Academy of Geological Sciences
Priority to CN202410018105.3A priority Critical patent/CN117540830B/zh
Publication of CN117540830A publication Critical patent/CN117540830A/zh
Application granted granted Critical
Publication of CN117540830B publication Critical patent/CN117540830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Educational Administration (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于断层分布指数的泥石流易发性预测方法、装置及介质。其中方法包括获取流域的评价指标,评价指标包括断层分布指数,断层分布指数是流域内断层的分布面积S与流域面积S的比值,其中断层的分布面积S为断层长度×断层宽度;利用流域的评价指标作为数据集,从数据集中随机采样得到包含多个样本的样本集;基于样本集,构建决策树;重复对数据集进行随机采样,并以随机采样得到的样本集构建决策树以得到多个决策树,以多个决策树组成随机森林模型,将多个决策树预测结果的数据的众数作为所述随机森林模型的预测输出。本发明创新性地引入了断层分布指数作为泥石流易发性预测的评价指标,有效提高了评价结果的准确性。

Description

基于断层分布指数的泥石流易发性预测方法、装置及介质
技术领域
本发明属于地质评价技术领域,更具体地,涉及一种基于断层分布指数的泥石流易发性预测方法、装置及介质。
背景技术
在进行泥石流灾害易发性评价时,评价指标的选择对于模型预测的精度有很大影响。评价指标常围绕泥石流爆发的三个重要条件,即“物源、水文、地形”来选取。在评价指标的选择中,断层是重要的影响因素。究其原因,一是改变地下水分布情况,影响水源分布;二是断层因其本身的力学特性,断层带中的岩体往往经历了一定程度的动力作用,形成大量的节理、裂隙等结构面,降低断层带所在斜坡的岩体强度,成为泥石流沟谷范围内的软弱带,增加松散物源储量;三是改变断层周边地形地貌,影响泥石流的发生。
目前考虑断层影响而选取的评价指标主要有两种,一是流域内断层密度,指流域内断裂总长度与流域面积的比值(侯儒宁,李志,陈宁生,等.基于流域单元和堆叠集成模型的天山地区泥石流易发性评估建模[J].地球科学,2023,48(5):1892-1907);二是流域形心距最近断层距离,指流域形心与最近的断层之间的距离(孟凡奇,高峰,林波,等.基于AHP和信息量模型的地质灾害易发性评价—以鲁东片区为例[J].灾害学,2023,38(3):111-117)。两者均不能非常准确的表征断层对泥石流沟谷的影响,因为断层的规模有差异,因此忽略断层宽度仅用断层长度来表征是不妥的,而形心到最近断层的距离则直接忽略了断层的实际影响宽度和程度。
发明内容
提供了本发明以解决现有技术中存在的上述问题。因此,需要一种基于断层分布指数的泥石流易发性预测方法、装置及介质,创新性地引入了断层分布指数作为泥石流易发性预测的评价指标,有效提高了评价结果的准确性。
根据本发明的第一技术方案,提供了一种基于断层分布指数的泥石流易发性预测方法,所述方法包括:
获取流域的评价指标,所述评价指标包括断层分布指数,所述断层分布指数是流域内断层的分布面积S与流域面积S的比值,其中断层的分布面积S为断层长度×断层宽度;
利用所述流域的评价指标作为数据集,从所述数据集中随机采样得到包含多个样本的样本集;
基于所述样本集,构建一个决策树;
重复对所述数据集进行随机采样,并以随机采样得到的样本集构建决策树以得到多个决策树,以所述多个决策树组成随机森林模型,将多个决策树预测结果的数据的众数作为所述随机森林模型的预测输出,所述预测输出为泥石流易发性概率。
进一步地,所述评价指标还包括物源条件相关因子、水文条件相关因子和地形条件相关因子,所述物源条件相关因子包括流域平均高程、岩性以及冻融侵蚀指数;所述水文条件相关因子包括流域面积、流域延伸率、流域水系密度以及流域平均植被覆盖度;所述地形条件相关因子包括melton比率、流域高差率、流域平均坡度以及沟道纵比降。
进一步地,所述样本集包括行样本集和列样本集,所述行样本集通过对数据集进行行采样得到,所述行样本集中包含的行样本数量与流域的数量相等,所述列样本集通过对数据集中的评价指标进行列取样得到,所述列样本集中包含的列样本数量不超过评价指标的数量。
进一步地,所述基于所述样本集,构建一个决策树,具体包括:
以评价指标作为特征,遍历m个特征,根据基尼系数选择最佳特征进行分裂,以构建决策树,所述基尼系数用于衡量随机选择的两个样本之间的类别标签不一致的概率。
进一步地,所述以评价指标作为特征,遍历m个特征,根据基尼系数选择最佳特征进行分裂,以构建决策树,具体包括:
根据划分阈值,将对应特征的取值小于等于划分阈值的样本分到划分阈值的一侧l,大于划分阈值的样本分到划分阈值的另一侧r,基尼系数分别为,/>是节点l中第j类数据点的概率,发生过泥石流的流域记为1,未发生过泥石流的流域记为2,/>是节点r中第j类数据点的概率,发生过泥石流的流域记为1,未发生过泥石流的流域记为2;
对于每个划分阈值,将两侧的样本分别计算基尼系数,并根据各自的样本数量加权平均得到最终的划分阈值基尼系数;
选择具有最小基尼系数的划分阈值作为连续特征的最佳划分阈值,比较多个连续特征的基尼系数,选取最小的基尼系数的特征向量作为最佳分裂特征,最佳划分阈值作为划分点;
重复上述节点分类选择过程,直到满足内部节点分裂的最小样本数为2或是树的深度达到10停止分裂,决策树构建完成。
进一步地,将所述数据集按照预设比例随机划分,得到训练集和测试集,其中样本集从所述训练集中随机采样得到,所述方法还包括:
将所述测试集输入至所述随机森林模型进行结果预测,利用准确率及ROC曲线和AUC值进行模型精度评价。
根据本发明的第二技术方案,提供一种基于断层分布指数的泥石流易发性预测装置,所述装置包括:
数据获取模块,被配置为获取流域的评价指标,所述评价指标包括断层分布指数,所述断层分布指数是流域内断层的分布面积S与流域面积S的比值,其中断层的分布面积S为断层长度×断层宽度;
随机采样模块,被配置为利用所述流域的评价指标作为数据集,从所述数据集中随机采样得到包含多个样本的样本集;
决策树构建模块,被配置为基于所述样本集,构建一个决策树;
预测模块,被配置为重复对所述数据集进行随机采样,并以随机采样得到的样本集构建决策树以得到多个决策树,以所述多个决策树组成随机森林模型,将多个决策树预测结果的数据的众数作为所述随机森林模型的预测输出,所述预测输出为泥石流易发性概率。
进一步地,所述评价指标还包括物源条件相关因子、水文条件相关因子和地形条件相关因子,所述物源条件相关因子包括流域平均高程、岩性以及冻融侵蚀指数;所述水文条件相关因子包括流域面积、流域延伸率、流域水系密度以及流域平均植被覆盖度;所述地形条件相关因子包括melton比率、流域高差率、流域平均坡度以及沟道纵比降。
进一步地,所述决策树构建模块被进一步配置为:
根据划分阈值,将对应特征的取值小于等于划分阈值的样本分到划分阈值的一侧l,大于划分阈值的样本分到划分阈值的另一侧r,基尼系数分别为,/>是节点l中第j类数据点的概率,发生过泥石流的流域记为1,未发生过泥石流的流域记为2,/>是节点r中第j类数据点的概率,发生过泥石流的流域记为1,未发生过泥石流的流域记为2;
对于每个划分阈值,将两侧的样本分别计算基尼系数,并根据各自的样本数量加权平均得到最终的划分阈值基尼系数;
选择具有最小基尼系数的划分阈值作为连续特征的最佳划分阈值,比较多个连续特征的基尼系数,选取最小的基尼系数的特征向量作为最佳分裂特征,最佳划分阈值作为划分点;
重复上述节点分类选择过程,直到满足内部节点分裂的最小样本数为2或是树的深度达到10停止分裂,决策树构建完成。
根据本发明的第三技术方案,提供一种可读存储介质,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的方法。
本发明至少具有以下有益效果:
本发明提成一种基于断层分布指数的泥石流易发性预测方法,将该方法与以往常用的两种方法进行对比验证。结果表明:在模型精度评价中,通常以测试集的准确率来评价模型的精度。以断层分布指数为断层数据处理方式的随机森林泥石流易发性评价模型准确率为82.1%,比断层密度的处理方式高3.5%,比距最近断层距离处理方式高7.1%。而召回率、精确率和F1值三项断层分布指数均高于另外两种处理方式,证明断层分布指数的处理方式可以明显的提高模型的准确度。
ROC曲线的结果也显示断层分布指数、断层密度和流域形心距最近断层距离三种模型的AUC值分别为0.965、0.949和0.957。三种处理方式下的随机森林模型的性能良好,对于泥石流易发性预测都具有良好的性能。而断层分布指数模型的AUC值明显高于另外两种,证明了断层分布指数的断层数据处理方式可以提高随机森林泥石流易发性预测的模型性能。
附图说明
图1为根据本发明实施例的一种基于断层分布指数的泥石流易发性预测方法的流程图;
图2为根据本发明实施例的断层分布指数计算方法示意图;
图3为根据本发明实施例的模型构建流程图;
图4为根据本发明实施例的断层分布指数泥石流易发性评价结果;
图5为根据本发明实施例的断层密度泥石流易发性评价结果;
图6为根据本发明实施例的距最近断层距离泥石流易发性评价结果;
图7为根据本发明实施例的易发性评价模型ROC曲线图;
图8为根据本发明实施例的一种基于断层分布指数的泥石流易发性预测装置的结构图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。下面结合附图和具体实施例对本发明的实施例作进一步详细描述,但不作为对本发明的限定。本文中所描述的各个步骤,如果彼此之间没有前后关系的必要性,则本文中作为示例对其进行描述的次序不应视为限制,本领域技术人员应知道可以对其进行顺序调整,只要不破坏其彼此之间的逻辑性导致整个流程无法实现即可。
本发明实施例提供一种基于断层分布指数的泥石流易发性预测方法,如图1所示,该方法包括如下步骤:
步骤S100,获取流域的评价指标,所述评价指标包括断层分布指数,所述断层分布指数是流域内断层的分布面积S与流域面积S的比值,其中断层的分布面积S为断层长度×断层宽度。
需要说明的是,流域的评价指标一般为多个,但是现有技术中尚未有将断层分布指数作为泥石流易发性预测的评价指标,本发明的核心创造点在于引入了断层分布指数,如图2所示,为断层分布指数计算方法示意图,断层分布指数是综合考虑了断层的实际规模,具体指流域内断层的分布面积S与流域面积S的比值,用Index表示,其中断层面积S近似为断层长度(L)×宽度(W)(图2),相较以往传统的方法可以更准确的体现断层对泥石流沟谷的影响。
泥石流的爆发需要充足的水源、陡峭的地形以及丰富的碎裂物质,即水文条件、动力条件和物源条件。为了建立合适的评价预测模型,本文结合泥石流爆发需要的条件,综合因子的可获得性和可计算性可以选取更多评价指标,本实施例选取的评价指标物源条件相关因子、水文条件相关因子和地形条件相关因子。
物源条件相关因子:
(1)流域平均高程:指子流域内所有高程栅格的平均值;
(2)主要岩性:指研究区内主要岩性组合;本文根据研究区岩性特点,提取流域内主要岩组,共分为如下5类,即①坚硬块状侵入岩组;②较坚硬层状碳酸盐岩组;③较坚硬层状碎屑岩组;④软硬相间互层状碎屑岩组;⑤第四系松散岩组;
(3)冻融侵蚀指数:指子流域内冻融侵蚀面积与流域面积的比值;
(4)断层参数,本文选取了断层分布指数、断层密度、距最近断层距离三个参数进行对比分析,其中断层分布指数为首创。
水文条件相关因子:
(1)流域面积:指子流域的面积;
(2)流域延伸率:指将流域面积相等的圆直径与流域长轴的比值;
(3)流域水系密度:指流域内一定流量阀值生成的水系面积与流域面积之比。
(4)流域平均植被覆盖度;植被覆盖度(VFC)是指植被的叶、枝、茎等的垂直投影面积占所统计区内面积总和的百分比;平均植被覆盖度是各栅格VFC的平均值。
地形条件相关因子:
(1)melton比率:melton比率是反映一个流域地势的指标,1965年由Melton提出,该值越大则整个流域的地势越陡峻,反之则越平缓;计算公式如下:
式中,A——流域面积/;/>——流域高差/m;
(2)流域高差率:流域高差率是流域高差与流域长轴长度之比值,计算公式如下:
式中,——流域高差/m;/>——流域长轴长度/m;
(3)流域平均坡度:指以DEM计算得到的坡度栅格为基础,求取每个子流域内坡度的平均值;
(4)沟道纵比降:指沟道沿延伸方向的高程差与相应的沟道长度的投影(即水平距离)之比。
步骤S200,利用所述流域的评价指标作为数据集,从所述数据集中随机采样得到包含多个样本的样本集;
步骤S300,基于所述样本集,构建一个决策树;
步骤S400,重复对所述数据集进行随机采样,并以随机采样得到的样本集构建决策树以得到多个决策树,以所述多个决策树组成随机森林模型,将多个决策树预测结果的数据的众数作为所述随机森林模型的预测输出,所述预测输出为泥石流易发性概率。
步骤S200-S400为随机森林模型的构建流程,本实施例利用含有断层分布指数的数据集来构建随机森林模型,随机森林是一种集成学习方法,它由多个决策树构成,每个决策树都是独立训练的,且其输入特征的子集是随机选择的。通过对多个决策树进行投票或取平均值的方式,随机森林能够有效地避免过拟合问题,并具有较好的泛化能力和鲁棒性。
基于随机森林实现预测的基本原理如下:
首先从训练数据集中随机选择一部分样本,用于构建每个决策树。这个过程被称为“自助采样”(bootstrapsampling)或者“袋外采样”(out-of-bagsampling),其中每个样本被选中的概率为1/n,n为总样本数。在每次决策树的节点划分时,随机选取一个特征子集,并从中选择最佳特征进行划分。这个过程可以减少特征间的相关性,增强模型的稳定性和泛化能力。然后基于上述步骤,构建多个决策树,每个决策树都是通过不断地对特征进行二分来生成的,直到满足停止条件。通常情况下,随机森林使用CART算法来构建决策树。最后对于分类任务,随机森林采用投票方式来预测目标变量的类别;对于回归任务,随机森林采用平均值来预测目标变量的值。
随机森林模型精度评价方法有准确率、混淆矩阵(ConfusionMatrix)、ROC曲线和AUC值和交叉验证(Cross-validation)等。本文选取准确率及ROC曲线和AUC值进行模型精度评价。准确率是指预测正确样本占总样本的比例,准确率越大越好。同时通过绘制ROC曲线,可以展示不同阈值下真正例率(TPR)和假正例率(FPR)之间的关系,并计算出曲线下面积(AUC值),用于衡量随机森林模型的分类性能。AUC值越接近1,表示分类器性能越好;反之,AUC值越接近0,表示分类器性能越差。理论上,完美的分类器的AUC值为1,而随机分类器的AUC值为0.5。
下面本发明实施例将结合具体的算例以充分说明本发明的可行性和进步性。
本实施例选取了一块断层和泥石流均发育的区域进行试验研究。研究区为沿马曲和哇曲展布的矩形区域,面积531.70 km2。区域总体位于羌塘地体东西与南北向构造的转折处,断层、褶皱等构造呈北北西向条带状展布。主要出露地层为第四系冲洪积,古近系、三叠系砂泥岩、灰岩地层以及研究区东北局部分布的岩浆岩。区域整体西低东高,最低高程3605m,最高高程4850m,马曲和哇河由南向北贯穿研究区,两侧沟谷纵横。斜坡坡度多在20-40°,局部大于40°。
具体地,以研究区附近185处流域作为研究基础,其中发生过泥石流的流域73处,未发生泥石流流域112处。将发生过泥石流的流域记为“1”,未发生过泥石流的流域记为“2”。训练集与测试集的划分不会影响模型的精度,本研究以7:3的比例划分,其中70%为训练集,30%为测试集。在进行实验时,将断层分布指数、断层密度和流域形心距最近断层距离分别与其他11个评价因子数据组合形成实验样本进行泥石流易发性评价模型的训练与测试。
如图3所示,实验模型构建过程如下:
(1)数据划分,首先将输入总体样本185个按7:3的比例随机划分,其中70%为训练集T(129个样本),30%为测试集C(56个样本);
(2)随机采样模型会对训练集T中的行样本(即129个样本)采取有放回取样129次,有放回取样在采集的行样本数据中会出现有重复的样本。这样使得训练的时候,每一棵决策树的输入样本都不是全部的样本,使得相对不容易出现过拟合(over-fitting)。行取样进行完以后,模型会对特征因子进行列取样,从上述的12个特征因子中随机选取m个样本(m≤12),这样就形成了包含129个行样本和m个列样本的输入样本集;
(3)构建决策树遍历m个特征向量,选取最合适的特征进行分裂,特征选择的方法为基尼系数(Giniimpurity)。模型依据基尼指数进行特征选择,基尼指数是一种衡量数据集纯度的指标,它衡量了从数据集中随机选择两个样本,它们的类别标签不一致的概率。GINI系数的取值范围为0到1,其中0表示数据集的纯度最高,而1表示数据集的纯度最低。例如某次随机采样选取m个列样本为流域面积、冻融侵蚀指数、流域延伸率、流域高差率、流域平均坡度和断层参数6个特征向量。由于该6个特征均为连续特征,针对连续特征模型首先会对所有可能取值进行排序。针对每个可能的划分阈值,将数据集中该特征的取值小于等于划分阈值的样本分到一侧l,大于划分阈值的样本分到另一侧r,其基尼系数分别为和/>。/>是节点l中第j类数据点的概率,/>是节点r中第j类数据点的概率(发生过泥石流的流域记为“1”,未发生过泥石流的流域记为“2”)。对于每个划分阈值,将两侧的样本分别计算基尼系数,并根据各自的样本数量加权平均得到最终的划分阈值基尼系数。选择具有最小基尼系数的划分阈值作为连续特征的最佳划分阈值。之后比较6个特征的基尼系数,选取最小的基尼系数的特征向量作为最佳分裂特征,其最佳划分阈值做为划分点。重复上述节点分类选择过程,直到满足内部节点分裂的最小样本数为2或是树的深度达到10停止分裂,决策树构建完成;
(4)构建随机森林模型:重复(2)(3)过程100次,生成100棵决策树;将100棵构建好的决策树组成随机森林。通过统计100棵决策树预测结果的数据的众数作为最后随机森林的预测模型输出结果;
(5)预测:将(1)中随机划分的测试集C带入到(4)构建好的随机森林预测模型中进行结果预测;
(6)评估模型性能:利用准确率及ROC曲线和AUC值进行模型精度评价。
以断层分布指数、断层密度和流域形心距最近断层距离为试验变量为基础建立三个泥石流易发性评价模型。其中以断层分布指数为基础建立泥石流易发性评价模型的方法即如上描述的实验模型构建过程,以断层密度和流域形心距最近断层距离为试验变量为基础建立泥石流易发性评价模型的方法为现有的方法,具体参考文献1(侯儒宁,李志,陈宁生,等.基于流域单元和堆叠集成模型的天山地区泥石流易发性评估建模[J].地球科学,2023,48(5):1892-1907)和文献2(孟凡奇,高峰,林波,等.基于AHP和信息量模型的地质灾害易发性评价—以鲁东片区为例[J].灾害学,2023,38(3):111-117),本实施例此处不进行展开。
在基于随机森林建立的泥石流易发性评价模型正常运行之后,计算出研究区内每个流域单元易发性指数p,即随机森林模型预测的泥石流发生概率,通过 ArcGIS10.8 软件根据流域单元易发性指数p将泥石流易发性划分为极高易发(p>0.8)、高易发(0.6<p≤0.8)、中易发(0.4<p≤0.6)、低易发(0.2<p≤0.4)、极低易发(p≤0.2)五类,分别生成断层处理方法下研究区泥石流易发性评价图,如图4-图6所示。
为了评价三种处理方式对于随机森林泥石流易发性模型的建模影响,参照如上所述的利用准确率及ROC曲线和AUC值对三种模型进行模型精度评价,三种模型的准确率见下表。
表1模型精度评价表
表1中展示了训练集和测试集的分类评价指标,通过量化指标来衡量随机森林对训练、测试数据的分类效果。其中准确率是预测正确样本占总样本的比例,准确率越大越好。召回率是实际为正样本的结果中,预测为正样本的比例,召回率越大越好。精确率是预测出来为正样本的结果中,实际为正样本的比例,精确率越大越好。F1为精确率和召回率的调和平均,精确率和召回率是互相影响的,虽然两者都高是一种期望的理想情况,然而实际中常常是精确率高、召回率就低,或者召回率低、但精确率高。若需要兼顾两者,那么就可以用F1指标。
在模型精度评价中,通常以测试集的准确率来评价模型的精度。从上表可以看出,以断层分布指数为断层数据处理方式的随机森林泥石流易发性评价模型准确率为82.1%,比断层密度的处理方式高3.5%,比距最近断层距离处理方式高7.1%。而召回率、精确率和F1值三项断层分布指数均高于另外两种处理方式,证明断层分布指数的处理方式可以明显的提高模型的准确度。
ROC 曲线是机器学习中常用的评价分类器表现的曲线。由于 ROC 曲线是逐渐降低泥石流易发性阈值而得到曲线上各个点对应的坐标,曲线越靠近左上方,则越多的泥石流集中于一个等级高且范围小的区间内,曲线下面积(AUC 值)就越大,因此预测效果也就越好。本文三种断层处理方式下随机森林模型的ROC曲线如图7所示。从图中可以看出,图7中a断层分布指数、图7中b断层密度和图7中c最近断层距离三种模型的AUC值分别为0.965、0.949和0.957。三种处理方式下的随机森林模型的性能良好,对于泥石流易发性预测都具有良好的性能。但是,断层分布指数模型的AUC值明显高于另外两种,证明了断层分布指数的断层数据处理方式可以提高随机森林泥石流易发性预测的模型性能。
本发明实施例还提供一种基于断层分布指数的泥石流易发性预测装置,如图8所示,所述装置900包括:
数据获取模块901,被配置为获取流域的评价指标,所述评价指标包括断层分布指数,所述断层分布指数是流域内断层的分布面积S与流域面积S的比值,其中断层的分布面积面积S为断层长度×断层宽度;
随机采样模块902,被配置为利用所述流域的评价指标作为数据集,从所述数据集中随机采样得到包含多个样本的样本集;
决策树构建模块903,被配置为基于所述样本集,构建一个决策树;
预测模块904,被配置为重复对所述数据集进行随机采样,并以随机采样得到的样本集构建决策树以得到多个决策树,以所述多个决策树组成随机森林模型,将多个决策树预测结果的数据的众数作为所述随机森林模型的预测输出,所述预测输出为泥石流易发性概率。
在一些实施例中,所述评价指标还包括物源条件相关因子、水文条件相关因子和水文条件相关因子,所述物源条件相关因子包括流域平均高程、岩性以及冻融侵蚀指数;所述水文条件相关因子包括流域面积、流域延伸率、流域水系密度以及流域平均植被覆盖度;所述水文条件相关因子包括melton比率、流域高差率、流域平均坡度以及沟道纵比降。
在一些实施例中,所述决策树构建模块被进一步配置为:
根据划分阈值,将对应特征的取值小于等于划分阈值的样本分到划分阈值的一侧l,大于划分阈值的样本分到划分阈值的另一侧r,基尼系数分别为,/>是节点l中第j类数据点的概率,发生过泥石流的流域记为1,未发生过泥石流的流域记为2,/>是节点r中第j类数据点的概率,发生过泥石流的流域记为1,未发生过泥石流的流域记为2;
对于每个划分阈值,将两侧的样本分别计算基尼系数,并根据各自的样本数量加权平均得到最终的划分阈值基尼系数;
选择具有最小基尼系数的划分阈值作为连续特征的最佳划分阈值,比较多个连续特征的基尼系数,选取最小的基尼系数的特征向量作为最佳分裂特征,最佳划分阈值作为划分点;
重复上述节点分类选择过程,直到满足内部节点分裂的最小样本数为2或是树的深度达到10停止分裂,决策树构建完成。
在一些实施例中, 所述样本集包括行样本集和列样本集,所述行样本集通过对数据集进行行采样得到,所述行样本集中包含的行样本数量与流域的数量相等,所述列样本集通过对数据集中的评价指标进行列取样得到,所述列样本集中包含的列样本数量不超过评价指标的数量。
在一些实施例中,所述决策树构建模块被进一步配置为:
以评价指标作为特征,遍历m个特征,根据基尼系数选择最佳特征进行分裂,以构建决策树,所述基尼系数用于衡量随机选择的两个样本之间的类别标签不一致的概率。
在一些实施例中,所述随机采样模块被进一步配置为将所述数据集按照预设比例随机划分,得到训练集和测试集,其中样本集从所述训练集中随机采样得到,该装置还包括精度评价模块,所述精度评价模块被配置为将测试集输入至所述随机森林模型进行结果预测,利用准确率及ROC曲线和AUC值进行模型精度评价。
需要说明的是,本实施例所述的装置与在先阐述的方法属于同一技术构思,其能起到同样的技术效果,此处不赘述。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的发明的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的发明的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

Claims (8)

1.一种基于断层分布指数的泥石流易发性预测方法,其特征在于,所述方法包括:
获取流域的评价指标,所述评价指标包括断层分布指数,所述断层分布指数是流域内断层的分布面积S与流域面积S的比值,其中断层的分布面积S为断层长度×断层宽度;
利用所述流域的评价指标作为数据集,从所述数据集中随机采样得到包含多个样本的样本集;
基于所述样本集,构建一个决策树;
重复对所述数据集进行随机采样,并以随机采样得到的样本集构建决策树以得到多个决策树,以所述多个决策树组成随机森林模型,将多个决策树预测结果的数据的众数作为所述随机森林模型的预测输出,所述预测输出为泥石流易发性概率;
所述评价指标还包括物源条件相关因子、水文条件相关因子和地形条件相关因子,所述物源条件相关因子包括流域平均高程、岩性以及冻融侵蚀指数;所述水文条件相关因子包括流域面积、流域延伸率、流域水系密度以及流域平均植被覆盖度;所述地形条件相关因子包括melton比率、流域高差率、流域平均坡度以及沟道纵比降。
2.根据权利要求1所述的方法,其特征在于,所述样本集包括行样本集和列样本集,所述行样本集通过对数据集进行行采样得到,所述行样本集中包含的行样本数量与流域的数量相等,所述列样本集通过对数据集中的评价指标进行列取样得到,所述列样本集中包含的列样本数量不超过评价指标的数量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述样本集,构建一个决策树,具体包括:
以评价指标作为特征,遍历m个特征,根据基尼系数选择最佳特征进行分裂,以构建决策树,所述基尼系数用于衡量随机选择的两个样本之间的类别标签不一致的概率。
4.根据权利要求3所述的方法,其特征在于,所述以评价指标作为特征,遍历m个特征,根据基尼系数选择最佳特征进行分裂,以构建决策树,具体包括:
根据划分阈值,将对应特征的取值小于等于划分阈值的样本分到划分阈值的一侧l,大于划分阈值的样本分到划分阈值的另一侧r,基尼系数分别为,/>是节点l中第j类数据点的概率,发生过泥石流的流域记为1,未发生过泥石流的流域记为2,/>是节点r中第j类数据点的概率,发生过泥石流的流域记为1,未发生过泥石流的流域记为2;
对于每个划分阈值,将两侧的样本分别计算基尼系数,并根据各自的样本数量加权平均得到最终的划分阈值基尼系数;
选择具有最小基尼系数的划分阈值作为连续特征的最佳划分阈值,比较多个连续特征的基尼系数,选取最小的基尼系数的特征向量作为最佳分裂特征,最佳划分阈值作为划分点;
重复上述节点分类选择过程,直到满足内部节点分裂的最小样本数为2或是树的深度达到10停止分裂,决策树构建完成。
5.根据权利要求4所述的方法,其特征在于,将所述数据集按照预设比例随机划分,得到训练集和测试集,其中样本集从所述训练集中随机采样得到,所述方法还包括:
将所述测试集输入至所述随机森林模型进行结果预测,利用准确率及ROC曲线和AUC值进行模型精度评价。
6.一种基于断层分布指数的泥石流易发性预测装置,其特征在于,所述装置包括:
数据获取模块,被配置为获取流域的评价指标,所述评价指标包括断层分布指数,所述断层分布指数是流域内断层的分布面积S与流域面积S的比值,其中断层的分布面积S为断层长度×断层宽度;
随机采样模块,被配置为利用所述流域的评价指标作为数据集,从所述数据集中随机采样得到包含多个样本的样本集;
决策树构建模块,被配置为基于所述样本集,构建一个决策树;
预测模块,被配置为重复对所述数据集进行随机采样,并以随机采样得到的样本集构建决策树以得到多个决策树,以所述多个决策树组成随机森林模型,将多个决策树预测结果的数据的众数作为所述随机森林模型的预测输出,所述预测输出为泥石流易发性概率;
所述评价指标还包括物源条件相关因子、水文条件相关因子和地形条件相关因子,所述物源条件相关因子包括流域平均高程、岩性以及融侵蚀指数;所述水文条件相关因子包括流域面积、流域延伸率、流域水系密度以及流域平均植被覆盖度;所述地形条件相关因子包括melton比率、流域高差率、流域平均坡度以及沟道纵比降。
7.根据权利要求6所述的装置,其特征在于,所述决策树构建模块被进一步配置为:
根据划分阈值,将对应特征的取值小于等于划分阈值的样本分到划分阈值的一侧l,大于划分阈值的样本分到划分阈值的另一侧r,基尼系数分别为,/>是节点l中第j类数据点的概率,发生过泥石流的流域记为1,未发生过泥石流的流域记为2,/>是节点r中第j类数据点的概率,发生过泥石流的流域记为1,未发生过泥石流的流域记为2;
对于每个划分阈值,将两侧的样本分别计算基尼系数,并根据各自的样本数量加权平均得到最终的划分阈值基尼系数;
选择具有最小基尼系数的划分阈值作为连续特征的最佳划分阈值,比较多个连续特征的基尼系数,选取最小的基尼系数的特征向量作为最佳分裂特征,最佳划分阈值作为划分点;
重复上述节点分类选择过程,直到满足内部节点分裂的最小样本数为2或是树的深度达到10停止分裂,决策树构建完成。
8.一种可读存储介质,其特征在于,所述可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的方法。
CN202410018105.3A 2024-01-05 2024-01-05 基于断层分布指数的泥石流易发性预测方法、装置及介质 Active CN117540830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410018105.3A CN117540830B (zh) 2024-01-05 2024-01-05 基于断层分布指数的泥石流易发性预测方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410018105.3A CN117540830B (zh) 2024-01-05 2024-01-05 基于断层分布指数的泥石流易发性预测方法、装置及介质

Publications (2)

Publication Number Publication Date
CN117540830A CN117540830A (zh) 2024-02-09
CN117540830B true CN117540830B (zh) 2024-04-12

Family

ID=89796177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410018105.3A Active CN117540830B (zh) 2024-01-05 2024-01-05 基于断层分布指数的泥石流易发性预测方法、装置及介质

Country Status (1)

Country Link
CN (1) CN117540830B (zh)

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992635A (zh) * 2019-03-19 2019-07-09 成都理工大学 一种震后泥石流早期识别方法
JP2019127818A (ja) * 2018-01-22 2019-08-01 国立大学法人京都大学 土砂災害予測装置、コンピュータプログラム、土砂災害予測方法及び地図情報
CN110955952A (zh) * 2019-04-23 2020-04-03 中国科学院、水利部成都山地灾害与环境研究所 一种多尺度泥石流危险性评价方法
CN111143498A (zh) * 2019-12-25 2020-05-12 中国电建集团中南勘测设计研究院有限公司 小河流洪水预报方法
AU2020100709A4 (en) * 2020-05-05 2020-06-11 Bao, Yuhang Mr A method of prediction model based on random forest algorithm
CN111582386A (zh) * 2020-05-11 2020-08-25 四川师范大学 一种基于随机森林的地质灾害多灾种综合风险评价方法
CN113409550A (zh) * 2021-06-25 2021-09-17 西藏林芝市气象局 基于径流汇流模拟的泥石流灾害预警方法及系统
CN113487123A (zh) * 2021-05-11 2021-10-08 长江水利委员会长江科学院 高光谱监测与gis耦合山洪灾害动态风险评估方法
CN113642849A (zh) * 2021-07-19 2021-11-12 北京师范大学 考虑空间分布特征的地质灾害危险性综合评价方法及装置
CN113762615A (zh) * 2021-09-01 2021-12-07 清华大学 洪水预测方法、装置、计算机设备和存储介质
CN113780174A (zh) * 2021-09-10 2021-12-10 福州大学 结合随机森林算法的高植被台风暴雨型滑坡识别方法
CN114398970A (zh) * 2022-01-07 2022-04-26 清华大学 一种基于河网层次结构的平面形态分类方法和装置
CN114792154A (zh) * 2022-02-18 2022-07-26 北京市地质灾害防治研究所 单沟泥石流预警方法、预警系统
CN114997666A (zh) * 2022-06-08 2022-09-02 成都理工大学 一种区域泥石流易发性评估方法
CN115017791A (zh) * 2021-12-18 2022-09-06 中国铁道科学研究院集团有限公司电子计算技术研究所 隧道围岩级别识别方法和装置
WO2022184088A1 (zh) * 2021-03-02 2022-09-09 河海大学 一种基于集成学习的洪水敏感性风险评估方法
CN115546613A (zh) * 2022-12-01 2022-12-30 成都理工大学 一种基于次声波的泥石流识别方法及装置
CN115659177A (zh) * 2022-10-25 2023-01-31 招联消费金融有限公司 数据推荐模型的生成方法、装置和计算机设备
CN116108758A (zh) * 2023-04-10 2023-05-12 中南大学 滑坡易发性评价方法
CN116189387A (zh) * 2022-12-30 2023-05-30 成都理工大学 一种火后泥石流预警方法
CN117272223A (zh) * 2023-09-07 2023-12-22 安徽中科国金智能科技有限公司 基于大数据和遗传规划的泥石流多因子融合预测系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292186B (zh) * 2016-03-31 2021-01-12 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
US11122981B2 (en) * 2019-05-17 2021-09-21 Massachusehis Institute Of Technology Arterial wall characterization in optical coherence tomography imaging

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019127818A (ja) * 2018-01-22 2019-08-01 国立大学法人京都大学 土砂災害予測装置、コンピュータプログラム、土砂災害予測方法及び地図情報
CN109992635A (zh) * 2019-03-19 2019-07-09 成都理工大学 一种震后泥石流早期识别方法
CN110955952A (zh) * 2019-04-23 2020-04-03 中国科学院、水利部成都山地灾害与环境研究所 一种多尺度泥石流危险性评价方法
CN111143498A (zh) * 2019-12-25 2020-05-12 中国电建集团中南勘测设计研究院有限公司 小河流洪水预报方法
AU2020100709A4 (en) * 2020-05-05 2020-06-11 Bao, Yuhang Mr A method of prediction model based on random forest algorithm
CN111582386A (zh) * 2020-05-11 2020-08-25 四川师范大学 一种基于随机森林的地质灾害多灾种综合风险评价方法
WO2022184088A1 (zh) * 2021-03-02 2022-09-09 河海大学 一种基于集成学习的洪水敏感性风险评估方法
CN113487123A (zh) * 2021-05-11 2021-10-08 长江水利委员会长江科学院 高光谱监测与gis耦合山洪灾害动态风险评估方法
CN113409550A (zh) * 2021-06-25 2021-09-17 西藏林芝市气象局 基于径流汇流模拟的泥石流灾害预警方法及系统
CN113642849A (zh) * 2021-07-19 2021-11-12 北京师范大学 考虑空间分布特征的地质灾害危险性综合评价方法及装置
CN113762615A (zh) * 2021-09-01 2021-12-07 清华大学 洪水预测方法、装置、计算机设备和存储介质
CN113780174A (zh) * 2021-09-10 2021-12-10 福州大学 结合随机森林算法的高植被台风暴雨型滑坡识别方法
CN115017791A (zh) * 2021-12-18 2022-09-06 中国铁道科学研究院集团有限公司电子计算技术研究所 隧道围岩级别识别方法和装置
CN114398970A (zh) * 2022-01-07 2022-04-26 清华大学 一种基于河网层次结构的平面形态分类方法和装置
CN114792154A (zh) * 2022-02-18 2022-07-26 北京市地质灾害防治研究所 单沟泥石流预警方法、预警系统
CN114997666A (zh) * 2022-06-08 2022-09-02 成都理工大学 一种区域泥石流易发性评估方法
CN115659177A (zh) * 2022-10-25 2023-01-31 招联消费金融有限公司 数据推荐模型的生成方法、装置和计算机设备
CN115546613A (zh) * 2022-12-01 2022-12-30 成都理工大学 一种基于次声波的泥石流识别方法及装置
CN116189387A (zh) * 2022-12-30 2023-05-30 成都理工大学 一种火后泥石流预警方法
CN116108758A (zh) * 2023-04-10 2023-05-12 中南大学 滑坡易发性评价方法
CN117272223A (zh) * 2023-09-07 2023-12-22 安徽中科国金智能科技有限公司 基于大数据和遗传规划的泥石流多因子融合预测系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"Debris Flow Susceptibility Assessment and Runout Prediction: A Case Study in Shiyang Gully, Beijing, China";Yongchao Li等;《International Journal of Environmental Research》;20200505;第14卷;第365-383页 *
"Hydrological modeling and field validation of a bioretention basin";Jia Wang等;《J Environ Manage》;20190630;第1-13页 *
"基于FLO-2D数值模拟的工布江达县城泥石流灾害危险性评价";张浩韦等;《地质力学学报》;20220430;第28卷(第2期);第306-318页 *
"基于小流域单元的泥石流易发性评价";陈攀等;《科学技术与工程》;20221231;第22卷(第29期);第12764-12771页 *
"基于沟道形态学变迁理论的泥石流形成影响研究";王泽远等;《湘潭大学学报(自然科学版)》;20190430;第41卷(第2期);第94-102页 *
"基于随机森林的滑坡空间易发性评价:以三峡库区湖北段为例";吴润泽等;《地球科学》;20210131;第46卷(第1期);第321-330页 *

Also Published As

Publication number Publication date
CN117540830A (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
Sun et al. A random forest model of landslide susceptibility mapping based on hyperparameter optimization using Bayes algorithm
Wu et al. Application of alternating decision tree with AdaBoost and bagging ensembles for landslide susceptibility mapping
Sun et al. A hybrid optimization method of factor screening predicated on GeoDetector and Random Forest for Landslide Susceptibility Mapping
Huang et al. Uncertainty study of landslide susceptibility prediction considering the different attribute interval numbers of environmental factors and different data-based models
Zhang et al. Landslide Susceptibility mapping using random forest and extreme gradient boosting: A case study of Fengjie, Chongqing
Sun et al. Assessment of landslide susceptibility along mountain highways based on different machine learning algorithms and mapping units by hybrid factors screening and sample optimization
Tsangaratos et al. Comparison of a logistic regression and Naïve Bayes classifier in landslide susceptibility assessments: The influence of models complexity and training dataset size
CN111582386A (zh) 一种基于随机森林的地质灾害多灾种综合风险评价方法
CN101625755B (zh) 基于分水岭-量子进化聚类算法的图像分割方法
CN111898315B (zh) 基于分形—机器学习混合模型的滑坡易发性评估方法
CN117035465B (zh) 一种评估滑坡易发性的方法和装置
CN114595629A (zh) 基于gbdt-lr和信息量模型的滑坡易发性评价方法
KR20200052398A (ko) 머신 러닝 기법을 이용한 산사태 취약성 지도 작성 방법 및 장치
Liu et al. Gully erosion susceptibility assessment based on machine learning-A case study of watersheds in Tuquan County in the black soil region of Northeast China
Wen et al. Application of machine learning methods for snow avalanche susceptibility mapping in the Parlung Tsangpo catchment, southeastern Qinghai-Tibet Plateau
Conforti et al. Exploring performance and robustness of shallow landslide susceptibility modeling at regional scale using different training and testing sets
Ye et al. Generating accurate negative samples for landslide susceptibility mapping: A combined self-organizing-map and one-class SVM method
Huang et al. Tropical cyclone full track simulation in the western North Pacific based on random forests
Huang et al. Deciphering decision-making mechanisms for the susceptibility of different slope geohazards: A case study on a SMOTE-RF-SHAP hybrid model
CN117540830B (zh) 基于断层分布指数的泥石流易发性预测方法、装置及介质
Wu et al. Identifying the essential influencing factors of landslide susceptibility models based on hybrid-optimized machine learning with different grid resolutions: a case of Sino-Pakistani Karakorum Highway
Beigh et al. Assessment of GIS-based Landslide Susceptibility Using Bivariate and Multivariate Approach-A Case Study of Kashmir Himalayas
CN117010274B (zh) 一种基于集成增量学习的地下水有害元素智能预警方法
CN117540303A (zh) 基于交叉半监督机器学习算法的滑坡易发性评估方法及系统
Woolford et al. Convergent data sharpening for the identification and tracking of spatial temporal centers of lightning activity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant