CN111582386A - 一种基于随机森林的地质灾害多灾种综合风险评价方法 - Google Patents

一种基于随机森林的地质灾害多灾种综合风险评价方法 Download PDF

Info

Publication number
CN111582386A
CN111582386A CN202010390977.4A CN202010390977A CN111582386A CN 111582386 A CN111582386 A CN 111582386A CN 202010390977 A CN202010390977 A CN 202010390977A CN 111582386 A CN111582386 A CN 111582386A
Authority
CN
China
Prior art keywords
disaster
risk
geological disaster
geological
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010390977.4A
Other languages
English (en)
Inventor
彭立
黄佩
潘洪义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Normal University
Original Assignee
Sichuan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Normal University filed Critical Sichuan Normal University
Priority to CN202010390977.4A priority Critical patent/CN111582386A/zh
Publication of CN111582386A publication Critical patent/CN111582386A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于随机森林的地质灾害多灾种综合风险评价方法,包括以下步骤:(1)地质灾害风险评价体系构建;(2)基于地质灾害详查点的样本选择与风险定级;(3)随机森林模型构建与样本训练;(4)模型精度评估与指标贡献度计算;(5)地质灾害风险评价结果。本发明从多灾种视角出发,选取地质灾害多灾种的共同影响因素,从危险性和易损性维度构建指标体系,避免了主观赋权和主观阈值划定,对多灾种综合的地质灾害风险评价具有良好适应性。评价结果更能反映区域实际的灾害风险水平。本发明提出的以点至面的灾害风险评展布价方法,能够有效识别地质灾害风险的主控因子,科学实现区域地质灾害风险分级与区划。

Description

一种基于随机森林的地质灾害多灾种综合风险评价方法
技术领域
本发明涉及地质灾害技术领域,具体是一种基于随机森林的地质灾害多灾种综合风险评价方法。
背景技术
地质灾害是自然灾害的重要种类之一,包括滑坡、泥石流、崩塌、地面塌陷、地面裂缝等。它们的发生直接导致基础设施的破坏、财产损失,甚至危及生命。近年来随着极端气候事件发生频率的提高、区域性强烈地震的影响、工程建设扰动强度的加剧,我国自然灾害,尤其是地质灾害的发生频率与危害明显增加。如2010年“8.17”甘肃舟曲特大泥石流灾害、2019年“8.20”四川汶川强降雨特大山洪泥石流等。未来一段时期,地质灾害将呈高发频发趋势,地质灾害防治工作面临的形式依然严峻。
地质灾害风险评价是对风险区遭受不同强度地质灾害的可能性及其可能造成的灾害损失进行定量分析和评价,是一项有力的防灾减灾非工程性措施,有利于对现在或未来地质灾害防治与管理提供科学依据,对减少人民生命财产损失和促进社会和谐发展具有重要意义。地质灾害风险评价一直是国内外学者和政府机构的关注的重点。我国的地质灾害风险评价研究起步较晚,兴起于20世纪80年代,20世纪90年代以来,随着研究的不断深入以及各种新技术(3S和计算机)的不断应用,地质灾害风险评价在理论与实践方面均取得了丰硕的成果。层次分析法、因子分析法、模糊综合评价法等是地质灾害风险评价的常用方法,但上述方法多基于评价指标阈值划分与权重赋值思想开展风险评价,主观性较强,不同人可能得出不同的结论,尤其是对多灾种综合风险评价的适应性差,且没有结果准确性的有效验证。近年来,随着人工智能技术的飞速发展,众多机器学习的模型,决策树(DT),支持向量机(SVM),人工神经网络(ANN)等模型正被尝试应用于地质灾害风险评价,也取得了良好的评价效果。然而遗憾的是,上述方法忽视了灾害点调查数据在风险评价中的重要作用,也难以直接获取各项指标对于地质灾害风险的贡献度。本研究基于此,提出了一种结合地质灾害点详查数据和灾害危险性、易损性评价指标数据的地质灾害风险评估方法,能够实现区域地质灾害风险分区与验证,为由点到面的灾害风险映射提供了有利工具。
如图2所示,借助3S技术从危险性和易损性的视角构建区域灾害风险评价指标体系,划定指标阈值范围,进而确定指标权重,实现区域地质灾害风险的监测和评价已成为目前应用最为广泛的评价模式。比如目前应用比较广泛的层次分析法、因子分析法、模糊评价法等。这类评价模式主要通过搜集地形起伏度、坡度、降水、植被、断层、河流距离、人口密度、GDP密度等自然要素和社会经济指标,随后对各项评价指标进行主观的阈值的划分。进而采取一定的权重赋值方法(如层次分析法、熵权法、专家打分法、主成分分析法等),根据综合得分分值,采用一定的分级方法(如自然间断点分级法、标准差分级法)对研究区进行灾害风险分区。
上述灾害风险评价方法主要采用阈值划分与权重赋值的思路,这对多灾种风险评价的适应性差。然而,每个灾种对应着不同的影响因子,每类影响因子对于地质灾害风险的作用程度也存在较大差异。因此,不同灾种的同一影响因子的阈值范围存在着不一致性,人为划定统一的阈值范围对于多灾种而言是不科学的。比如,就坡度这一指标而言,因缺乏统一的阈值划分标准,不同学者确定的坡度的划分标准主观性较强,划分结果差异甚大,由此可能导致评价结果的不准确性。此外上述评价指标权重赋值的方法存在过于主观的问题,这对对最终的评价结果也具有重要影响。
近年来,决策树、支持向量机、人工神经网络等机器学习算法是灾害风险评价中运用较多的方法,为地质灾害风险的评估提供了有利工具,也取得了良好的评价效果。这些评价方法较为类似,主要分为模型构建和模型预测两个部分。如图3所示,首先通过研究区的地质灾害危险性和易损性评价指标数据库,选取一定量具有代表性的样本作为模型的训练样本,按照各学习算法原理初步构建地质灾害风险评价模型。其次,开展模型训练学习,通过多次实验,寻求模型的各项最佳参数,构建最终的灾害风险评价模型,迭代逼近风险等级的分类目标,形成灾害风险的分类规则。最后,将研究区余下的所有数据(测试样本)输入学习完毕的地质灾害风险评价模型进行风险等级的预测分类,从而测定出测试样本的地质灾害风险等级。
总体而言,决策树、支持向量机和人工神经网络等算法,忽视了地质灾害点详查数据在风险评价中的重要作用,缺乏基于点的微观尺度的灾害风险属性分解,难以实现基于地质灾害点的多属性的灾害风险评价与验证。而仅有的运用地质灾害点的研究多基于灾害是否发生的属性进行模型训练,忽略了地质灾害点详查数据多风险属性特征。此外,上述方法并不能直接获取各项评价指标对于研究区灾害风险的贡献度,科学确定研究区灾害风险的主控因子仍然是一项挑战。具体而言,上述方法自身也最在着一定不足。如,使用决策树前需要进行大量数据预处理工作,且容易陷入局部最优;支持向量机则因其复杂数学函数而不便应用,且对解决多分类问题存在不足;人工神经网络模型存在过学习、局部最小值和收敛速度慢等问题等。
发明内容
本发明针对上述问题,提供了一种基于随机森林的地质灾害多灾种综合风险评价方法,依据灾害风险理论,充分利用地质灾害点详查数据及其风险属性,并针对不同的地质灾害亚类选取危险性、易损性共性指标构建评价指标体系,避免指标的阈值划分与权重赋值的主观性影响,运用随机森林评价模型,客观评价区域地质灾害风险,实现地质灾害以点至面的风险映射,同时直接获取各项指标对于综合灾害风险的贡献度。
为达到上述目的,本发明采用以下技术方案:
一种基于随机森林的地质灾害多灾种综合风险评价方法,包括以下步骤:
(1)地质灾害风险评价体系构建
从地质灾害主要种类的共性因子入手,针对危险性和易损性的维度选取地形起伏度、坡度、地震烈度、距断层距离、降水、人均GDP、人口密度、路网密度等影响地质灾害风险的13项共性指标,运用ArcGIS软件创建格网,进一步运用空间分析与分区统计工具将各项评价指标统一到格网之中,并进行可视化表达;
(2)基于地质灾害点的样本选择与风险定级
从灾害风险理论视角将地质灾害点详查数据风险属性分解为灾害点规模、灾害点密度、威胁人数、威胁财产、毁坏房屋、毁坏道路、毁坏水渠属性,基于其属性值,运用投影寻踪聚类模型计算格网的地质灾害的影响系数,进一步运用风险映射机制实现了实现格网单元各项评价指标与对灾害风险的对接;
有灾害点分布的格网的影响系数分为高、中、低三类;用ArcGIS的子集要素工具,随机选择风险样本,结合研究区的评价指标、地质灾害野外详查点属性对风险样本进行风险等级赋值。
(3)随机森林模型构建与样本训练
随机森林分类是由多个决策树{h(X,Θk),k=1,…}组成的组合分类模型,参数集{Θk}是独立同分布的随机向量,在给定自变量X下,每个决策树分类模型都通过一票投票来选择最优的分类结果。
首先,利用bootstrap抽样从原始训练集D中抽取k个样本,且每个样本中的特征数(m)都与原始训练集相同;bootstrap抽样为有放回的抽样,提升了训练集的随机性。
然后对k个样本分别建立k个决策树模型,得到k种分类结果{(h1X),h2X,…,hnX};每个样本中随机选取n(n≤m)个特征作为分裂特征集,从中选择最优特征对节点进行生长,当n<m时,每一棵决策树之间又存在差异性。选择最小的基尼值作为最优特征分割标准。
Figure BDA0002485574840000031
式中,Gini(t)为t节点的最小基尼值,p(j|t)为风险j在t节点处的概率。
最后,通过上述步骤形成的随机森林,根据k种分类结果对每个记录进行投票表决以决定其最终分类,公式如下:
f(x1)=m_vote{hi(x)(i=1,2,…,k)
式中:m_vote为投票结果。
将研究区的样本的各项指标数据和地质灾害风险等级数据同时输入到随机森林模型中,对模型进行训练,即可形成地质灾害风险的分类规则。
(4)模型精度评估与指标贡献度计算
模型的精度评估主要依据模型的OBB泛化误差,RF采用Bagging算法集成训练集,在风险分类树生成后,利用OOB数据得出该棵树的错误分类率,即OOB误差。对森林中所有树的OOB误差取平均作为模型的泛化误差。
各评价指标对于评价结果的重要程度(贡献度)可由各指标在节点分割时基尼系数的减少值计算。计算公式为:
Figure BDA0002485574840000041
式中,m、n、t分别为总指标个数、分类树棵数和单棵数的节点数,DGKij为第i棵数第j个节点的基尼系数减少值,Pk为第k个指标在所有指标中的重要程度。
(5)地质灾害风险评价结果
将研究区所有的数据再次输入到随机森林模型中,利用训练样本在模型中训练形成的灾害风险分类规则对所有格网的灾害风险进行预测,从而得到研究区地质灾害风险的区划结果。
本发明依据区域灾害系统理论,综合考虑孕灾环境的复杂性、致灾因子的多元性和承灾体的脆弱性,从灾害危险性和易损性的维度构建评价指标体系,结合地质灾害点详查数据确定样本风险等级,将随机森林模型运用于地质灾害风险评价之中,实现了以点至面的灾害风险映射。
本发明与现有发明相比,具有以下优点及突出性效果:
首先,本发明从多灾种视角出发,选取地质灾害亚类的共同影响因素,从危险性和易损性维度构建评价指标体系,对多灾种的地质灾害风险评价具有良好的适应性。
其次,充分运用了地质灾害点详查数据,依据灾害风险理论将地质灾害点详查数据风险属性分解,有利于灾害点多维属性的风险验证,同时能够实现格网单元的灾害风险等级与风险评价指标的巧妙对接。相比传统仅仅依靠灾害孕育条的灾害风险评价而言,本发明中的评价结果更为准确,更能反映区域实际的灾害风险水平。我国花费了大量的人力,物力和财力构建了地质灾害点详查数据库,然而目前的研究大都忽视了其在地质灾害风险评价中的重要作用。本发明中,充分运用了地质灾害点详查数据,在风险评价中发挥了其应有的价值。
其再次,结合地质灾害点详查数据和多灾种的地质灾害风险评价指标体系,运用随机森林模型开展地质灾害风险评价,避免了评价指标的阈值划分与权重赋值,在一定程度上降低了评价结果的主观性,实现了地质灾害风险的良好验证和分区,直接获取了各项评价指标对于总风险的贡献度,弥补了以往研究方法的不足。
此外,本技术方案还具有以下优点:在灾害点详查数据不完整的情况下也能完成整体区域上的地质灾害综合风险的评价;无需归一化等去量纲的处理,可处理多种形式数据,还能适应部分属性值缺失的情形;处理高维度和庞杂的数据能力强,可以克服数据多重共线性特征;它更能容忍异常值和噪声,而且不太可能出现过拟合问题。
最后,本发明提出的以点至面的灾害风险评价方法,能够科学客观的实现研究区地质灾害风险分级与区划,有效识别地质灾害风险的主控因子,这对政府和相关部门开展地质灾害点的监测与管理,制定区域地质灾害风险的防治和管控措施具有重要作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本发明的技术流程示意图;
图2为现有技术基于传统评价模式地质灾害风险评估流程示意图;
图3为现有技术基于DT、SVM、ANN等模型的地质灾害风险评价流程示意图;
图4a为本发明地质灾害风险评价指标地形起伏度示意图;
图4b为本发明地质灾害风险评价指标地震烈度示意图;
图4c为本发明地质灾害风险评价指标距离断层距离示意图;
图4d为本发明地质灾害风险评价指标植被覆盖度示意图;
图4e为本发明地质灾害风险评价指标坡度示意图;
图4f为本发明地质灾害风险评价指标岩性示意图;
图4g为本发明地质灾害风险评价指标降水量示意图;
图4h为本发明地质灾害风险评价指标距河流距离示意图;
图4i为本发明地质灾害风险评价指标人均GDP示意图;
图4j为本发明地质灾害风险评价指标人口密度示意图;
图4k为本发明地质灾害风险评价指标建筑密度示意图;
图4l为本发明地质灾害风险评价指标耕地密度示意图;
图4m为本发明地质灾害风险评价指标道路密度示意图;
图5为本发明地质灾害风险由点至面映射机制示意图;
图6为本发明风险分级样本点空间分布示意图;
图7为本发明随机森林模型原理示意图;
图8为本发明评价指标贡献度示意图;
图9为实施例什邡市地质灾害风险评价结果示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
以地质灾害多发的四川省德阳市的什邡市为例,如图1所示,主要通过以下步骤实现以点至面的的地质灾害风险评价。
(1)地质灾害风险评价体系构建
地质灾害是一个涵盖了滑坡,崩塌、泥石流、地面塌陷等众多灾害亚类的灾害系统。不同地质灾害亚类的影响因子及其对灾害风险的作用程度也不一样。因此,依据灾害系统理论,从危险性和易损性的维度选取地形起伏度、坡度、地震烈度、距断层距离、降水、人均GDP、人口密度、路网密度等影响地质灾害风险的13项共性指标。运用ArcGIS软件创建格网(300×300m),进一步运用空间分析与分区统计工具将各项评价指标统一到格网之中,并进行可视化表达。各评价指标如图4a-图4m所示:
(2)基于地质灾害点的样本选择与风险定级
从灾害风险理论视角将地质灾害点详查数据风险属性分解为灾害点规模、灾害点密度、威胁人数、威胁财产、毁坏房屋、毁坏道路、毁坏水渠等属性。基于其属性值,运用投影寻踪聚类模型计算格网的地质灾害的影响系数,进一步运用本发明中的风险映射机制(图5)实现了实现格网单元各项评价指标与对灾害风险的巧妙对接。这种处理方式可以实现基于地质灾害点数据的风险属性向格网单元地映射,为区域地质灾害风险的评价与验证提供了有利工具,比以往评价方法更能实现“由点及面”的灾害风险评价。
本发明中将有灾害点分布的格网的影响系数分为高、中、低三类。运用ArcGIS的子集要素工具,随机选择风险样本(综合考虑什邡市实际情况,将地质灾害风险等级划分为高风险、较高风险和中等风险和低风险4级,每类随机选择100个样本,共计400个样本),结合研究区的评价指标、野外调查资料等对风险样本进行风险等级赋值。流程如图5所示:
在此过程中,选取样本的风险赋值主要基于以下原则。首先,采用自然间断点分级法将有灾害点分布格网的灾害影响系数分为,高中低三个等级,分别对应研究区灾害风险的高、较高和中等等级,无灾害点分布的格网划入到低风险区。其次,通过研究区的坡度和人口数据将所选取的样本(格网)进行风险分级,即分为高、较高、中、低风险区。坡度是地质灾害孕育条件中的重要因素之一,以25°的坡度为基准,对大于25°且没有灾害点分布的格网风险等级提升一级。此外,考虑到灾害风险的大小会受到承灾体易损性属性的影响,人口密度和人均GDP越低的区域受灾害影响较小,因此风险越低。而人口密度和人均GDP在空间分布上具有一致性,将研究区的人口密度数据分成高,较高、中、低,按照表1进行风险等级调整。最终可以得到研究区样本的风险级别。如图6所示。
表1基于人口数据的风险等级调整
Figure BDA0002485574840000071
(3)随机森林模型构建与样本训练
随机森林分类是由多个决策树{h(X,Θk),k=1,…}组成的组合分类模型,参数集{Θk}是独立同分布的随机向量,在给定自变量X下,每个决策树分类模型都通过一票投票来选择最优的分类结果。
采首先,利用bootstrap抽样从原始训练集D中抽取k个样本,且每个样本中的特征数(m)都与原始训练集相同;bootstrap抽样为有放回的抽样,提升了训练集的随机性。
然后对k个样本分别建立k个决策树模型,得到k种分类结果{(h1X),h2X,…,hnX};每个样本中随机选取n(n≤m)个特征作为分裂特征集,从中选择最优特征对节点进行生长,当n<m时,每一棵决策树之间又存在差异性。本文选择最小的基尼值作为最优特征分割标准。
Figure BDA0002485574840000072
式中,Gini(t)为t节点的最小基尼值,p(j|t)为风险j在t节点处的概率。
最后,通过上述步骤形成的随机森林,根据k种分类结果对每个记录进行投票表决以决定其最终分类,公式如下:
f(x1)=m_vote{hi(x)(i=1,2,…,k)
式中:m_vote为投票结果。
随机森林原理如图7所示。
依据上述原理,将研究区的样本的各项指标数据和地质灾害风险等级数据同时输入到随机森林模型中,对模型进行训练,即可形成地质灾害风险的分类规则。
(4)模型精度评估与指标贡献度计算
模型的精度评估主要依据模型的OBB泛化误差,RF采用Bagging算法集成训练集,在风险分类树生成后,利用OOB数据得出该棵树的错误分类率,即OOB误差。对森林中所有树的OOB误差取平均作为模型的泛化误差。
各评价指标对于评价结果的重要程度(贡献度)可由各指标在节点分割时基尼系数的减少值计算。如图8所示,计算公式为:
Figure BDA0002485574840000081
式中,m、n、t分别为总指标个数、分类树棵数和单棵数的节点数,DGKij为第i棵数第j个节点的基尼系数减少值,Pk为第k个指标在所有指标中的重要程度。
以什邡为例,从随机森林模型训练结果的OBB误差来看,地质灾害评价模型的OOB泛化误差为3.6%,这表明评价结果具有非常高的精度。
从各项指标对于研究区总风险的贡献度来看,路网密度、地震烈度、岩性、降水对地质灾害风险贡献率最高,均超过10%,表明其对地质灾害风险影响最为显著;距河流距离、人均GDP、建设用地密度、人口密度、耕地密度对地质灾害风险的贡献率最低,均在5%以下,表明这六项指标对于什邡市地质灾害风险影响较弱。前7项指标累积贡献率占总数的80.44%,表明这些指标对研究区的地质灾害风险起决定性作用。
(5)地质灾害风险评价结果
将研究区所有的数据再次输入到随机森林模型中,利用训练样本在模型中训练形成的灾害风险分类规则对所有格网的灾害风险进行预测,从而得到研究区地质灾害风险的区划结果。
如图9所示,什邡市地质灾害风险具有明显的空间分异性,同时各等级灾害风险空间集聚特征比较突出。高风险区分布在什邡市中部中山区和局部低山丘陵区,约占研究区总面积的10.72%;较高风险区主要位于北部局部山区和中部的丘陵地区,约占总面积的13.93%;中风险区于研究区北部山区集中分布,面积比例达28.06%;低风险区集中分布于南部平原区,约占总面积的44.83%。从空间上来看,低风险区与高风险区、较高风险区之间被平原区与低山丘陵区的分界线所分割。这与研究区地质灾害点空间分布以及实际调研结果比较一致,表明基于本发明的技术方案能够实现地质灾害以点至面的风险映射,且取得了良好的评价效果。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (4)

1.一种基于随机森林的地质灾害多灾种综合风险评价方法,其特征在于:包括以下步骤:
(1)地质灾害风险评价体系构建
从地质灾害主要种类的共性因子入手,针对危险性和易损性的维度选取地形起伏度、坡度、地震烈度、距断层距离、降水、人均GDP、人口密度、路网密度等影响地质灾害风险的13项共性指标,运用ArcGIS软件创建格网,进一步运用空间分析与分区统计工具将各项评价指标统一到格网之中,并进行可视化表达;
(2)基于地质灾害点的样本选择与风险定级
从灾害风险理论视角将地质灾害点详查数据风险属性分解为灾害点规模、灾害点密度、威胁人数、威胁财产、毁坏房屋、毁坏道路、毁坏水渠属性,基于其属性值,运用投影寻踪聚类模型计算格网的地质灾害的影响系数,进一步运用风险映射机制实现了实现格网单元各项评价指标与对灾害风险的对接;
(3)随机森林模型构建与样本训练
随机森林分类是由多个决策树{h(X,Θk),k=1,…}组成的组合分类模型,参数集{Θk}是独立同分布的随机向量,在给定自变量X下,每个决策树分类模型都通过一票投票来选择最优的分类结果;
将研究区的样本的各项指标数据和地质灾害风险等级数据同时输入到随机森林模型中,对模型进行训练,即可形成地质灾害风险的分类规则;
(4)模型精度评估与指标贡献度计算
对森林中所有树的OOB误差取平均作为模型的泛化误差;
各评价指标对于评价结果的重要程度(贡献度)可由各指标在节点分割时基尼系数的减少值计算;计算公式为:
Figure FDA0002485574830000011
式中,m、n、t分别为总指标个数、分类树棵数和单棵数的节点数,DGKij为第i棵数第j个节点的基尼系数减少值,Pk为第k个指标在所有指标中的重要程度;
(5)地质灾害风险评价结果
将研究区所有的数据再次输入到随机森林模型中,利用训练样本在模型中训练形成的灾害风险分类规则对所有格网的灾害风险进行预测,从而得到研究区地质灾害风险的区划结果。
2.根据权利要求1所述的一种基于随机森林的地质灾害多灾种综合风险评价方法,其特征在于:步骤(2)中,有灾害点分布的格网的影响系数分为高、中、低三类;用ArcGIS的子集要素工具,随机选择风险样本,结合研究区的评价指标、地质灾害野外详查点属性对风险样本进行风险等级赋值。
3.根据权利要求1所述的一种基于随机森林的地质灾害多灾种综合风险评价方法,其特征在于:步骤(3)中通过一票投票来选择最优的分类结果,包括以下步骤:
首先,利用bootstrap抽样从原始训练集D中抽取k个样本,且每个样本中的特征数(m)都与原始训练集相同;bootstrap抽样为有放回的抽样,提升了训练集的随机性;
然后对k个样本分别建立k个决策树模型,得到k种分类结果{(h1X),h2X,…,hnX};每个样本中随机选取n(n≤m)个特征作为分裂特征集,从中选择最优特征对节点进行生长,当n<m时,每一棵决策树之间又存在差异性;选择最小的基尼值作为最优特征分割标准;
Figure FDA0002485574830000021
式中,Gini(t)为t节点的最小基尼值,p(j|t)为风险j在t节点处的概率;
最后,通过上述步骤形成的随机森林,根据k种分类结果对每个记录进行投票表决以决定其最终分类,公式如下:
f(x1)=m_vote{hi(x)(i=1,2,…,k)
式中:m_vote为投票结果。
4.根据权利要求1所述的一种基于随机森林的地质灾害多灾种综合风险评价方法,其特征在于:步骤(4)中,所述的OOB误差,RF采用Bagging算法集成训练集,在风险分类树生成后,利用OOB数据得出该棵树的错误分类率,即OOB误差。
CN202010390977.4A 2020-05-11 2020-05-11 一种基于随机森林的地质灾害多灾种综合风险评价方法 Pending CN111582386A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010390977.4A CN111582386A (zh) 2020-05-11 2020-05-11 一种基于随机森林的地质灾害多灾种综合风险评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010390977.4A CN111582386A (zh) 2020-05-11 2020-05-11 一种基于随机森林的地质灾害多灾种综合风险评价方法

Publications (1)

Publication Number Publication Date
CN111582386A true CN111582386A (zh) 2020-08-25

Family

ID=72110823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010390977.4A Pending CN111582386A (zh) 2020-05-11 2020-05-11 一种基于随机森林的地质灾害多灾种综合风险评价方法

Country Status (1)

Country Link
CN (1) CN111582386A (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369056A (zh) * 2020-03-04 2020-07-03 四川大汇大数据服务有限公司 地质灾害预测方法及电子设备
CN111967544A (zh) * 2020-10-23 2020-11-20 成都信息工程大学 土质滑坡灾害时空智能预警报方法与系统
CN112230675A (zh) * 2020-10-19 2021-01-15 南京航空航天大学 在协同搜救中考虑运行环境和性能的无人机任务分配方法
CN112232526A (zh) * 2020-09-28 2021-01-15 中山大学 一种基于集成策略的地质灾害易发性评价方法及系统
CN112287018A (zh) * 2020-11-06 2021-01-29 武汉理工大学 一种台风灾害下10kV杆塔受损风险评估方法及系统
CN112561297A (zh) * 2020-12-09 2021-03-26 中南大学 不同地形下邻域影响的地质灾害风险评价方法
CN112819207A (zh) * 2021-01-19 2021-05-18 武汉中地云申科技有限公司 基于相似性度量的地质灾害空间预测方法、系统及存储介质
CN112819208A (zh) * 2021-01-19 2021-05-18 武汉中地云申科技有限公司 一种基于特征子集耦合模型的空间相似性地质灾害预测方法
CN113408917A (zh) * 2021-06-28 2021-09-17 杭州鲁尔物联科技有限公司 自然灾害综合风险评估方法、装置、计算机设备及存储介质
CN113450027A (zh) * 2021-08-30 2021-09-28 南京师范大学 城市内涝灾害的动态暴露性量化方法、装置
CN113537726A (zh) * 2021-06-24 2021-10-22 中国检验检疫科学研究院 跨境隐存高危因子智能风险挖掘方法
CN113538561A (zh) * 2021-07-13 2021-10-22 杭州鲁尔物联科技有限公司 地质灾害危险性评价方法、装置、计算机设备及存储介质
CN113570191A (zh) * 2021-06-21 2021-10-29 天津大学 一种河流凌汛冰塞险情智能诊断方法
CN113592371A (zh) * 2021-10-08 2021-11-02 北京市科学技术研究院城市安全与环境科学研究所 基于多维风险矩阵的综合风险分析系统、方法和设备
CN113642849A (zh) * 2021-07-19 2021-11-12 北京师范大学 考虑空间分布特征的地质灾害危险性综合评价方法及装置
CN113657726A (zh) * 2021-07-29 2021-11-16 广西友迪资讯科技有限公司 基于随机森林的人员的危险性分析方法
CN113705607A (zh) * 2021-07-22 2021-11-26 西安交通大学 一种基于两步法策略的滑坡易发性评价方法
CN113762712A (zh) * 2021-07-26 2021-12-07 广西大学 大数据环境下的小水电清理整改评价指标筛选策略
CN113779888A (zh) * 2021-09-23 2021-12-10 自然资源部第二海洋研究所 地面沉降危险性评估方法、装置、设备及存储介质
CN114091756A (zh) * 2021-11-23 2022-02-25 国家海洋环境预报中心 一种基于泰森多边形的乡镇级海啸风险评估方法
CN114186780A (zh) * 2021-11-04 2022-03-15 河海大学 一种基于机器学习的山洪灾害区划方法
CN114926067A (zh) * 2022-05-31 2022-08-19 山东省地质调查院(山东省自然资源厅矿产勘查技术指导中心) 一种基于信息量模型的层次分析地质灾害风险评价方法
CN115511462A (zh) * 2022-09-29 2022-12-23 国网宁夏电力有限公司经济技术研究院 一种架空线路工程造价水平评价方法、介质及系统
CN115965245A (zh) * 2023-03-13 2023-04-14 华东交通大学 一种基于机器学习的山地果园冻害风险预测方法
CN116258279A (zh) * 2023-05-10 2023-06-13 北京建筑大学 基于综合赋权的滑坡易发性评价方法和装置
CN117540830A (zh) * 2024-01-05 2024-02-09 中国地质科学院探矿工艺研究所 基于断层分布指数的泥石流易发性预测方法、装置及介质
CN117973703A (zh) * 2024-03-29 2024-05-03 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 一种森林生态环境的分级定损方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650618A (zh) * 2016-11-15 2017-05-10 中山大学 一种基于随机森林模型的人口数据空间化方法
CN109858647A (zh) * 2018-12-21 2019-06-07 河海大学 一种耦合gis和gbdt算法的区域洪涝灾害风险评价与预估方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650618A (zh) * 2016-11-15 2017-05-10 中山大学 一种基于随机森林模型的人口数据空间化方法
CN109858647A (zh) * 2018-12-21 2019-06-07 河海大学 一种耦合gis和gbdt算法的区域洪涝灾害风险评价与预估方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
冯茂秋 等: "基于限制因素组合序列的耕地质量提升潜力研究 ——以什邡市为例", 《中国农业资源与区划》 *
吴孝情 等: "基于随机森林权重的滑坡危险性评价:以东江流域为例", 《自然灾害学报》 *
杨璠: "黄土高原洛河流域地质灾害易发性评价", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111369056B (zh) * 2020-03-04 2023-04-25 国能大渡河大数据服务有限公司 地质灾害预测方法及电子设备
CN111369056A (zh) * 2020-03-04 2020-07-03 四川大汇大数据服务有限公司 地质灾害预测方法及电子设备
CN112232526B (zh) * 2020-09-28 2023-10-13 中山大学 一种基于集成策略的地质灾害易发性评价方法及系统
CN112232526A (zh) * 2020-09-28 2021-01-15 中山大学 一种基于集成策略的地质灾害易发性评价方法及系统
CN112230675A (zh) * 2020-10-19 2021-01-15 南京航空航天大学 在协同搜救中考虑运行环境和性能的无人机任务分配方法
CN112230675B (zh) * 2020-10-19 2022-06-24 南京航空航天大学 在协同搜救中考虑运行环境和性能的无人机任务分配方法
CN111967544A (zh) * 2020-10-23 2020-11-20 成都信息工程大学 土质滑坡灾害时空智能预警报方法与系统
CN112287018A (zh) * 2020-11-06 2021-01-29 武汉理工大学 一种台风灾害下10kV杆塔受损风险评估方法及系统
CN112287018B (zh) * 2020-11-06 2024-03-01 武汉理工大学 一种台风灾害下10kV杆塔受损风险评估方法及系统
CN112561297A (zh) * 2020-12-09 2021-03-26 中南大学 不同地形下邻域影响的地质灾害风险评价方法
CN112819207A (zh) * 2021-01-19 2021-05-18 武汉中地云申科技有限公司 基于相似性度量的地质灾害空间预测方法、系统及存储介质
CN112819208A (zh) * 2021-01-19 2021-05-18 武汉中地云申科技有限公司 一种基于特征子集耦合模型的空间相似性地质灾害预测方法
CN112819207B (zh) * 2021-01-19 2024-02-06 武汉中地云申科技有限公司 基于相似性度量的地质灾害空间预测方法、系统及存储介质
CN113570191A (zh) * 2021-06-21 2021-10-29 天津大学 一种河流凌汛冰塞险情智能诊断方法
CN113570191B (zh) * 2021-06-21 2023-10-27 天津大学 一种河流凌汛冰塞险情智能诊断方法
CN113537726A (zh) * 2021-06-24 2021-10-22 中国检验检疫科学研究院 跨境隐存高危因子智能风险挖掘方法
CN113537726B (zh) * 2021-06-24 2024-05-14 中国检验检疫科学研究院 跨境隐存高危因子智能风险挖掘方法
CN113408917A (zh) * 2021-06-28 2021-09-17 杭州鲁尔物联科技有限公司 自然灾害综合风险评估方法、装置、计算机设备及存储介质
CN113538561A (zh) * 2021-07-13 2021-10-22 杭州鲁尔物联科技有限公司 地质灾害危险性评价方法、装置、计算机设备及存储介质
CN113642849B (zh) * 2021-07-19 2023-10-20 北京师范大学 考虑空间分布特征的地质灾害危险性综合评价方法及装置
CN113642849A (zh) * 2021-07-19 2021-11-12 北京师范大学 考虑空间分布特征的地质灾害危险性综合评价方法及装置
CN113705607B (zh) * 2021-07-22 2023-08-22 西安交通大学 一种基于两步法策略的滑坡易发性评价方法
CN113705607A (zh) * 2021-07-22 2021-11-26 西安交通大学 一种基于两步法策略的滑坡易发性评价方法
CN113762712A (zh) * 2021-07-26 2021-12-07 广西大学 大数据环境下的小水电清理整改评价指标筛选策略
CN113762712B (zh) * 2021-07-26 2024-04-09 广西大学 大数据环境下的小水电清理整改评价指标筛选策略
CN113657726B (zh) * 2021-07-29 2023-10-31 广西友迪资讯科技有限公司 基于随机森林的人员的危险性分析方法
CN113657726A (zh) * 2021-07-29 2021-11-16 广西友迪资讯科技有限公司 基于随机森林的人员的危险性分析方法
CN113450027B (zh) * 2021-08-30 2022-02-18 南京师范大学 城市内涝灾害的动态暴露性量化方法、装置
CN113450027A (zh) * 2021-08-30 2021-09-28 南京师范大学 城市内涝灾害的动态暴露性量化方法、装置
CN113779888A (zh) * 2021-09-23 2021-12-10 自然资源部第二海洋研究所 地面沉降危险性评估方法、装置、设备及存储介质
CN113779888B (zh) * 2021-09-23 2023-12-22 自然资源部第二海洋研究所 地面沉降危险性评估方法、装置、设备及存储介质
CN113592371A (zh) * 2021-10-08 2021-11-02 北京市科学技术研究院城市安全与环境科学研究所 基于多维风险矩阵的综合风险分析系统、方法和设备
CN113592371B (zh) * 2021-10-08 2022-01-18 北京市科学技术研究院城市安全与环境科学研究所 基于多维风险矩阵的综合风险分析系统、方法和设备
CN114186780A (zh) * 2021-11-04 2022-03-15 河海大学 一种基于机器学习的山洪灾害区划方法
CN114186780B (zh) * 2021-11-04 2022-07-22 河海大学 一种基于机器学习的山洪灾害区划方法
CN114091756B (zh) * 2021-11-23 2022-07-05 国家海洋环境预报中心 一种基于泰森多边形的乡镇级海啸风险评估方法
CN114091756A (zh) * 2021-11-23 2022-02-25 国家海洋环境预报中心 一种基于泰森多边形的乡镇级海啸风险评估方法
CN114926067B (zh) * 2022-05-31 2024-09-13 山东省地质调查院(山东省自然资源厅矿产勘查技术指导中心) 一种基于信息量模型的层次分析地质灾害风险评价方法
CN114926067A (zh) * 2022-05-31 2022-08-19 山东省地质调查院(山东省自然资源厅矿产勘查技术指导中心) 一种基于信息量模型的层次分析地质灾害风险评价方法
CN115511462A (zh) * 2022-09-29 2022-12-23 国网宁夏电力有限公司经济技术研究院 一种架空线路工程造价水平评价方法、介质及系统
CN115965245A (zh) * 2023-03-13 2023-04-14 华东交通大学 一种基于机器学习的山地果园冻害风险预测方法
CN116258279B (zh) * 2023-05-10 2024-01-26 北京建筑大学 基于综合赋权的滑坡易发性评价方法和装置
CN116258279A (zh) * 2023-05-10 2023-06-13 北京建筑大学 基于综合赋权的滑坡易发性评价方法和装置
CN117540830A (zh) * 2024-01-05 2024-02-09 中国地质科学院探矿工艺研究所 基于断层分布指数的泥石流易发性预测方法、装置及介质
CN117540830B (zh) * 2024-01-05 2024-04-12 中国地质科学院探矿工艺研究所 基于断层分布指数的泥石流易发性预测方法、装置及介质
CN117973703A (zh) * 2024-03-29 2024-05-03 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 一种森林生态环境的分级定损方法及系统
CN117973703B (zh) * 2024-03-29 2024-06-28 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) 一种森林生态环境的分级定损方法及系统

Similar Documents

Publication Publication Date Title
CN111582386A (zh) 一种基于随机森林的地质灾害多灾种综合风险评价方法
CN108280553B (zh) 基于gis-神经网络集成的山洪灾害风险区划及预测方法
CN113642849B (zh) 考虑空间分布特征的地质灾害危险性综合评价方法及装置
CN109508360B (zh) 一种基于元胞自动机的地理多元流数据时空自相关分析方法
CN106780089B (zh) 基于神经网络元胞自动机模型的永久性基本农田划定方法
CN112785450B (zh) 一种土壤环境质量分区方法及系统
CN113487123B (zh) 高光谱监测与gis耦合山洪灾害动态风险评估方法
CN113408917B (zh) 自然灾害风险评估方法、装置、计算机设备及存储介质
Nurkholis et al. Spatial decision tree model for garlic land suitability evaluation
CN112966722A (zh) 基于半监督随机森林模型的区域滑坡易发性预测方法
CN116108758A (zh) 滑坡易发性评价方法
CN112367130B (zh) 一种无线网络信号传输强度计算方法及计算机存储介质
CN117035465B (zh) 一种评估滑坡易发性的方法和装置
CN115222196B (zh) 一种山区道路网脆弱性评估与驱动力探测方法
CN107330734A (zh) 基于Co‑location模式和本体的商业地址选择方法
CN109118004B (zh) 一种工程构筑选址适宜区预测方法
CN112347701A (zh) 一种滑坡发生概率及规模预报方法
CN111445087A (zh) 基于极限学习机的洪水预测方法
CN116129262A (zh) 一种面向宜机化改造的耕地适宜性评价方法及系统
Keshtkar et al. Landscape ecological security response to urban growth in Southern Zagros biome, Iran
CN116934125A (zh) 一种面向能源开发片区的生态承载力评价方法
CN117540303A (zh) 基于交叉半监督机器学习算法的滑坡易发性评估方法及系统
CN117010274B (zh) 一种基于集成增量学习的地下水有害元素智能预警方法
CN112232689A (zh) 一种茶叶连片种植区的生态地质脆弱性评价方法
Liu et al. Big data Analysis of Regional Meteorological Observation Based: on Hierarchical Density Clustering Algorithm HDBSCAN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200825