CN112966926A - 一种基于集成学习的洪水敏感性风险评估方法 - Google Patents

一种基于集成学习的洪水敏感性风险评估方法 Download PDF

Info

Publication number
CN112966926A
CN112966926A CN202110231150.3A CN202110231150A CN112966926A CN 112966926 A CN112966926 A CN 112966926A CN 202110231150 A CN202110231150 A CN 202110231150A CN 112966926 A CN112966926 A CN 112966926A
Authority
CN
China
Prior art keywords
flood
data
risk
sensitivity
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110231150.3A
Other languages
English (en)
Other versions
CN112966926B (zh
Inventor
胡鹤轩
王泽华
胡强
朱跃龙
胡震云
张晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110231150.3A priority Critical patent/CN112966926B/zh
Publication of CN112966926A publication Critical patent/CN112966926A/zh
Priority to PCT/CN2022/078765 priority patent/WO2022184088A1/zh
Priority to US17/995,018 priority patent/US20230141886A1/en
Application granted granted Critical
Publication of CN112966926B publication Critical patent/CN112966926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Biomedical Technology (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)

Abstract

本发明公开了一种基于集成学习的洪水敏感性风险评估方法,包括:收集研究区的地形地貌、水文气象、土壤植被等数据作为特征数据,并将特征数据进行标准化处理;根据历史水位数据和遥感数据提取研究流域历史淹没点与非淹没点;利用拉普拉斯得分选择最优的特征子集;将样本点分为训练集和测试集并对集成学习模型进行训练;利用训练好的模型对整个流域进行洪水风险敏感性计算,生成流域洪水敏感性风险等级分布图。本发明使用研究区各特征数据作为输入,采用了新颖的集成学习模型,提高了流域洪水风险评估的准确性,最后生成流域洪水风险映射图,可直观地展现研究区的洪水风险状况。

Description

一种基于集成学习的洪水敏感性风险评估方法
技术领域
本发明属于洪水灾害风险评估技术领域,尤其涉及一种基于集成学习的洪水敏感性风险评估方法。
背景技术
洪涝灾害是一种破坏性大,突发性强且发生频率高的自然灾害。中国是洪涝灾害发生最频繁的国家之一,每年都会因洪涝灾害而造成大量经济损失和人员伤亡,故在洪水风险敏感性评估领域的研究意义重大。洪水风险敏感性评估是对区域洪水灾害自然属性和社会属性的综合评价,旨在更准确地把握洪水风险的空间分布和其发生规律。由于洪水风险敏感性评估是一个十分复杂的过程,其评估过程涉及多个评价指标,因此一直是国内外灾害研究的难点和热点之一。
随着人工智能技术的发展,将机器学习算法应用于目标评价已成为一种趋势,但仍存在一些不足。例如,在现有技术中,专利申请CN106651211A公开了一种不同尺度区域洪水灾害风险评估的方法,利用AHP层次分析法与熵权法耦合模型评估研究区内洪水灾害风险值并划分风险等级。但是这种方法需要收集大量的自然及社会数据作为输入,一旦数据量偏低或者数据质量不高都会对结果造成比较大的偏差。另一方面,这种方法对操作人员的专业知识要求较高,当洪水影响因子的数量较多时会引起操作人员的判断混乱,从而对评估结果产生影响。
而由赖成光等人于2015年1月在《水利学报》第46卷第一期58页提出的基于随机森林的洪灾风险评估方法,则简化了风险评估过程,但是具有运行时间相对较长,精度不高的问题。
综上所述,现有的洪水敏感性风险评估方法具有以下缺陷:(1)需要大量的自然以及社会数据,数据收集工作量大。(2)对操作人员的专业知识要求较高。(3)操作运行时间长,精度相对不高。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种基于集成学习的洪水敏感性风险评估方法,可有效建立洪水灾害风险评估模型,为气象部门及相关地方政府解决洪水灾害防灾减灾措施。该方法避免了大量的人工数据收集,效率高,便于操作,且操作运行时间短,精度高。
为了解决上述技术问题,本申请采用以下技术方案。
一种基于集成学习的洪水敏感性风险评估方法,包括以下步骤:
步骤一、样本点初始数据的收集与整理:通过使用文献资料和实地调查绘制流域的洪水位置图并创建与洪水有关的空间数据库;并通过从文献中获得的数据以及现场调查,选择调节因素;选择数个洪水调节因子进行敏感性分析,并建立这些因子的空间数据库;
步骤二、对所收集的初始数据进行清洗、标准化处理并赋值给每个评价单元,转换成栅格数据存储格式,所有的数据都经过投影转换与重采样操作;对于每一个研究区域,从它对应的水文站获取历史流量数据,找出每年洪水流量峰值日期,并选择对应日期的MODIS影像来反映该洪水过程的淹没状况;将流量峰值对应的数个影像反映的淹没范围叠置,生成一个合并的最大的淹没范围图,作为流量峰值所对应的淹没范围图,即最大淹没范围;在最大淹没范围内随机选取数量为N的洪水淹没样本点,在非最大洪水淹没范围内随机选取数量为N的非洪水淹没样本点,共同构成总数为2N的样本点;将上述样本点分为训练集和测试集,其中70%的样本点作为训练集,30%的样本点作为测试集;
步骤三、计算拉普拉斯得分确定最后的特征子集:利用拉普拉斯得分对步骤二中所述的训练集样本的特征进行打分,得到每一个特征的分数,最后再取分数最高的k个特征作为选择的特征子集;对步骤二中总数为2N的样本点进行特征子集的抽取,形成新的训练集和测试集;
步骤四、利用步骤三中新的训练集对集成学习LightGBM模型进行训练;得到集成学习LightGBM模型在新的训练集和测试集的准确率;
步骤五、利用训练好的模型对整个流域进行计算,得到整个流域洪水风险敏感性的概率值;
进一步地,步骤一中所述的数个因子包括:大气、蒸发、地形、河网;可从该4项因子中提出10项洪水风险敏感性评估指标包括高程、坡度、曲率、TWI、SPI、距河流距离、土壤、植被、坡向和降雨;根据流域洪水的机理;将这些因素均基于ArcGIS软件进行计算和处理,其中SPI和TWI使用以下公式计算:
TWI=Ln(α/tanβ) (1)
SPI=As tanβ (2)
式中α是通过一个点的累计坡面排水量,As为特定流域面积,tanβ是该点处的坡度角。
进一步地,所述步骤二中初始数据标准化处理,包括:
对样本数据集合S进行数据清洗,去除有缺失和不需要的数据并进行关联性验证;
所有尺度条件因子均使用流行的分位数方法进行分类;准备好数据集后,将每个条件因子转换为m*n大小的网格空间数据库,并构造流域地区的网格图。
进一步地,步骤三中所述的计算拉普拉斯得分确定最后特征子集的过程包括:
针对步骤二中训练集样本,构建一张邻接矩阵G:当type(i)=type(j)时,Gij=1,否则Gij=0),然后对于矩阵中Gij=1的点,令
Figure BDA0002958231250000031
其中t为合适的常数;
由此得到的矩阵就是该训练集的权重矩阵S,其中
Figure BDA0002958231250000032
计算拉普拉斯得分的公式为:
Figure BDA0002958231250000033
其中,Lr为第r个特征的拉普拉斯得分;fri-frj为第i个样本和第j个样本的第r个特征的差值;Sij为权重矩阵中的对应的值;Var(fr)为第r个特征在所有样本上的方差。
进一步地,在所述步骤五中,将洪水灾害风险研究区域等级分为五级:低风险区、较低风险区、中等风险区、高风险和极高风险地区。
与现有技术相比,本发明具有以下优点和有益效果:
(1)采用历史遥感技术提取每年洪水流量峰值日期的MODIS影像来反映该洪水过程的淹没状况,生成最大淹没范围图,具有直观性好,准确性高的优点,同时也避免了大量的人工数据收集工作,大大提高了效率。
(2)利用拉普拉斯得分法可以直观的看出各个洪水影响因子对评估结果影响的重要程度,在整体进行了洪水风险评估之后,操作人员可以直接对对结果影响程度较高的影响因子进行预防,相比于传统的人工判断,使可操作性大大提高。
(3)与传统的集成学习方法相比,本发明采用的LightGBM占用的内存更小,运算的时间更少,精度也越高。
附图说明
图1是本发明的一种实施例的方法流程图。
图2是本发明的一种实施例的计算拉普拉斯得分流程图。
图3是本发明的一种实施验证方法结果图。
具体实施方式
本发明提供了一种基于集成学习的洪水敏感性风险评估方法,包括:收集研究区的地形地貌、水文气象、土壤植被等数据作为特征数据,并将特征数据进行标准化处理;根据历史水位数据和遥感数据提取研究流域历史淹没点与非淹没点;利用拉普拉斯得分选择最优的特征子集;将样本点分为训练集和测试集并对集成学习模型进行训练;利用训练好的模型对整个流域进行洪水风险敏感性计算,生成流域洪水敏感性风险等级分布图。本发明使用研究区各特征数据作为输入,采用了新颖的集成学习模型,提高了流域洪水风险评估的准确性,最后生成流域洪水风险映射图,可直观地展现研究区的洪水风险状况。
下面结合附图对本发明做进一步详细说明。
图1是本发明提供的一种基于集成学习的洪水敏感性风险评估方法流程图。
步骤一、样本点数据的收集与整理。为了估算某个地区未来的洪灾事件,分析其过去的记录非常重要。首先,通过使用文献资料和实地调查绘制流域的洪水位置图并创建与洪水有关的空间数据库。其次通过从文献中获得的数据以及现场调查,选择调节因素。最后选择数个洪水调节因子进行敏感性分析,并建立这些因子的空间数据库。
其中选择用历史遥感抽取历史发生洪水的样本点信息并选取和洪水发生有关的数项因子包括:大气,蒸发,地形,河网,并从该4项因子中提出10项洪水风险敏感性评估指标包括高程,坡度,曲率,TWI,SPI,距河流距离,土壤,植被,坡向和降雨。根据流域洪水的机理,将这些因素均基于ArcGIS软件进行计算和处理。其中SPI和TWI使用以下公式计算:
TWI=Ln(α/tanβ) (1)
SPI=As tanβ (2)
式中α是通过一个点的累计坡面排水量,As为特定流域面积,tanβ是该点处的坡度角。
步骤二、对所收集的初始数据进行清洗并标准化处理,统一坐标系;对步骤一所述原始样本数据进行标准化处理并赋值给每个评价单元,并转换成栅格数据存储格式,所有的数据都经过投影转换与重采样操作。由于流量洪峰是引发洪涝灾害最主要的原因,所以对于每一个研究区域,从它对应的水文站获取历史流量数据后,找出每年的洪水流量峰值日期,并选择对应日期的MODIS影像来反映该洪水过程的淹没状况。利用ENVI5.3提取洪水淹没范围,并将流量峰值对应的数个影像反映的淹没范围叠置,生成一个合并的最大的淹没范围图,作为流量峰值所对应的淹没范围图,即得到最大淹没范围。在最大淹没范围内随机选取数量为N的洪水淹没样本点,在非最大洪水淹没范围内随机选取数量为N的非洪水淹没样本点,共同构成总数为2N的样本点。将上述样本点分为训练集和测试集,其中70%的样本点作为训练集,30%的样本点作为测试集。该样本点选取方法利用了历史遥感技术提取最大淹没范围图,具有直观性好,准确性高的优点,同时也避免了大量的人工数据收集工作,大大提高了效率。
步骤三、计算拉普拉斯得分确定最后的特征子集:利用拉普拉斯得分对步骤二中所述的训练集样本的特征进行打分,得到每一个特征的分数,最后再取分数最高的k个特征作为选择的特征子集;对步骤二中总数为2N的样本点进行特征子集的抽取,形成新的训练集和测试集。如图2所示,是本发明的一种实施例的计算拉普拉斯得分流程图。
其具体方法包括:针对步骤二中训练集样本,构建一张邻接矩阵G(当type(i)=type(j)时,Gij=1,否则Gij=0),然后对于矩阵中Gij=1的点,令
Figure BDA0002958231250000051
(其中t为合适的常数),这样得到的矩阵就是该训练集的权重矩阵S,其中
Figure BDA0002958231250000052
进一步,计算拉普拉斯得分,计算公式为:
Figure BDA0002958231250000053
其中:
Lr为第r个特征的拉普拉斯得分;
fri-frj为第i个样本和第j个样本的第r个特征的差值;
Sij为权重矩阵中的对应的值;
Var(fr)为第r个特征在所有样本上的方差;
至此,每一个特征都会打出一个分数,最后再取分数最高的k个特征作为最后选择的特征子集。利用拉普拉斯得分法可以直观的看出各个洪水影响因子对评估结果影响的重要程度,在整体进行了洪水风险评估之后,操作人员可以直接对对结果影响程度较高的影响因子进行预防,相比于传统的人工判断,拉普拉斯得分法大大降低了操作门槛。
步骤四、利用步骤三中新的训练集对集成学习LightGBM模型进行训练;得到集成学习LightGBM模型在新的训练集和测试集的准确率。LightGBM(轻量级梯度提升树)是一个基于传统机器学习模型GBDT(梯度下降树)的一种集成学习提升方法,它有效的降低了算法运算的复杂度,与传统的集成学习方法相比,LightGBM主要采用了GOSS(单边梯度采样)方法,根据样本采样结果计算梯度。GOSS在对待梯度较大的样本时,保留全部样本,在对待梯度较小的样本时,GOSS对样本进行随机抽样。采用的GOSS算法主要流程如下:
首先GOSS使用决策树学习获得一个将输入空间映射到梯度空间的函数。假设步骤三利用拉普拉斯得分法得到的特征子集共有n个实例,特征维度为s,每次进行梯度迭代时,LightGBM模型损失函数的负梯度方向表示为g1,…,gn,决策树通过最优切分点(最大信息增益点)将样本数据划分到各个叶结点,特征j的分割点d定义为:
Figure BDA0002958231250000054
其中nO=∑I[xi∈O],
Figure BDA0002958231250000055
O表示某个固定节点的训练集。
接着GOSS根据梯度训练降序排序,保留top a个样本实例,作为数据子集A。对剩下的小梯度样本,随机采样大小为b的数据子集B,随后将数据集A和B合并。
最后通过公式(5)估计信息增益:
Figure BDA0002958231250000061
经过一次GOSS计算,训练出一个弱分类器;接着重复GOSS算法训练多个弱分类器,直到公式(5)收敛或到达迭代步数,最后将所有训练好的弱分类器信息增益相加,得到最终的集成学习模型,并且得到集成学习LightGBM模型在新的训练集和测试集的准确率。
步骤五、利用训练好的模型对整个流域进行计算,得到整个流域洪水风险敏感性的概率值,为了对洪水易感位置进行可视化解释,需要将概率图分类为不同区域。为了进行分类,研究中存在各种方法,例如等间隔,分位数,标准差。其中针对洪水流域使用分位数方法一般可获得最佳输出,由此获得洪水风险敏感性图,并将洪水灾害风险研究区域分为五类洪水敏感性:低风险区、较低风险区、中等风险区、高风险和极高风险地区。
为了验证本发明方法的可行性,选取黄河流域的三门峡到花园口为研究区,利用从水文书籍中记载的历史洪水数据获取MODIS遥感图像,从而得到研究区的最大淹没范围,并从中随机取样。研究区总共选取了300个淹没样本点和300个非淹没样本点,其中70%作为训练集,30%作为测试集。研究区选取了高程、坡度、坡向、曲率、SPI、TWI、距河流距离、土壤、植被和降雨量总共10个洪水影响因子,并分别计算了个洪水影响因子的拉普拉斯得分,计算结果如表一所示。
在进行模型训练时,本发明选取了LightGBM和市面上主流的集成学习方法XGBoost进行对比试验,经过对比试验,发现XGBoost的准确率为80.97%,LightGBM的准确率为81.29%,并且运行的速度要远高于XGBoost。
将研究区数据都输入到LightGBM模型中,生成洪水敏感性概率图并按照分位数方法,将概率图分为极高风险、高风险、中风险、低风险和极低风险五类,其试验结果如图3所示。
表1
Figure BDA0002958231250000062

Claims (4)

1.一种基于集成学习的洪水敏感性风险评估方法,其特征在于,包括以下步骤:
步骤一、样本点初始数据的收集与整理:通过使用文献资料和实地调查绘制流域的洪水位置图并创建与洪水有关的空间数据库;并通过从文献中获得的数据以及现场调查,选择调节因素;选择数个洪水调节因子进行敏感性分析,并建立这些因子的空间数据库;
步骤二、对所收集的初始数据进行清洗、标准化处理并赋值给每个评价单元,转换成栅格数据存储格式,所有的数据都经过投影转换与重采样操作;对于每一个研究区域,从它对应的水文站获取历史流量数据,找出每年洪水流量峰值日期,并选择对应日期的MODIS影像来反映该洪水过程的淹没状况;将流量峰值对应的数个影像反映的淹没范围叠置,生成一个合并的最大的淹没范围图,作为流量峰值所对应的淹没范围图,即最大淹没范围;在最大淹没范围内随机选取数量为N的洪水淹没样本点,在非最大洪水淹没范围内随机选取数量为N的非洪水淹没样本点,共同构成总数为2N的样本点;将上述样本点分为训练集和测试集,其中70%的样本点作为训练集,30%的样本点作为测试集;
步骤三、计算拉普拉斯得分确定最后的特征子集:利用拉普拉斯得分对步骤二中所述的训练集样本的特征进行打分,得到每一个特征的分数,最后再取分数最高的k个特征作为选择的特征子集;对步骤二中总数为2N的样本点进行特征子集的抽取,形成新的训练集和测试集;
步骤四、利用步骤三中新的训练集对集成学习LightGBM模型进行训练;得到集成学习LightGBM模型在新的训练集和测试集的准确率;
步骤五、利用训练好的模型对整个流域进行计算,得到整个流域洪水风险敏感性的概率值;
步骤一中所述的数个因子包括:大气、蒸发、地形、河网;可从该4项因子中提出10项洪水风险敏感性评估指标即特征包括高程、坡度、曲率、TWI、SPI、距河流距离、土壤、植被、坡向和降雨;根据流域洪水的机理;将这些因素均基于ArcGIS软件进行计算和处理,其中SPI和TWI使用以下公式计算:
TWI=Ln(α/tanβ) (1)
SPI=As tanβ (2)
式中α是通过一个点的累计坡面排水量,As为特定流域面积,tanβ是该点处的坡度角。
2.根据权利要求1所述的一种基于集成学习的洪水敏感性风险评估方法,其特征在于,所述步骤二中初始数据标准化处理,包括:
对样本数据集合S进行数据清洗,去除有缺失和不需要的数据并进行关联性验证;
所有尺度条件因子均使用流行的分位数方法进行分类;准备好数据集后,将每个条件因子转换为m*n大小的网格空间数据库,并构造流域地区的网格图。
3.根据权利要求1所述的一种基于集成学习的洪水敏感性风险评估方法,其特征在于,步骤三中所述的计算拉普拉斯得分确定最后特征子集的过程包括:
针对步骤二中训练集样本,构建一张邻接矩阵G:当type(i)=type(j)时,Gij=1,否则Gij=0),然后对于矩阵中Gij=1的点,令
Figure FDA0002958231240000021
其中t为合适的常数;
由此得到的矩阵就是该训练集的权重矩阵S,其中
Figure FDA0002958231240000022
计算拉普拉斯得分的公式为:
Figure FDA0002958231240000023
其中,Lr为第r个特征的拉普拉斯得分;fri-frj为第i个样本和第j个样本的第r个特征的差值;Sij为权重矩阵中的对应的值;Var(fr)为第r个特征在所有样本上的方差。
4.根据权利要求1所述的一种基于集成学习的洪水敏感性风险评估方法,其特征在于,在所述步骤五中,将洪水灾害风险研究区域等级分为五级:低风险区、较低风险区、中等风险区、高风险和极高风险地区。
CN202110231150.3A 2021-03-02 2021-03-02 一种基于集成学习的洪水敏感性风险评估方法 Active CN112966926B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110231150.3A CN112966926B (zh) 2021-03-02 2021-03-02 一种基于集成学习的洪水敏感性风险评估方法
PCT/CN2022/078765 WO2022184088A1 (zh) 2021-03-02 2022-03-02 一种基于集成学习的洪水敏感性风险评估方法
US17/995,018 US20230141886A1 (en) 2021-03-02 2022-03-02 Method for assessing hazard on flood sensitivity based on ensemble learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110231150.3A CN112966926B (zh) 2021-03-02 2021-03-02 一种基于集成学习的洪水敏感性风险评估方法

Publications (2)

Publication Number Publication Date
CN112966926A true CN112966926A (zh) 2021-06-15
CN112966926B CN112966926B (zh) 2022-04-22

Family

ID=76276460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110231150.3A Active CN112966926B (zh) 2021-03-02 2021-03-02 一种基于集成学习的洪水敏感性风险评估方法

Country Status (3)

Country Link
US (1) US20230141886A1 (zh)
CN (1) CN112966926B (zh)
WO (1) WO2022184088A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022184088A1 (zh) * 2021-03-02 2022-09-09 河海大学 一种基于集成学习的洪水敏感性风险评估方法
CN115828757A (zh) * 2022-12-12 2023-03-21 福建中锐汉鼎数字科技有限公司 一种流域水位预测的泄洪量滞后特征构造及选择方法
CN116933217A (zh) * 2023-09-19 2023-10-24 广州华水生态科技有限公司 基于数字孪生和ai技术的中小河流洪水预报方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598310B (zh) * 2018-12-25 2023-04-14 核工业北京地质研究院 一种多因子敏感设施识别方法
US20210287136A1 (en) * 2020-03-11 2021-09-16 Synchrony Bank Systems and methods for generating models for classifying imbalanced data
CN113408776B (zh) * 2020-12-21 2023-03-28 电子科技大学 一种基于时间维特征增强的川西野火风险预警方法
CN115730829B (zh) * 2022-12-05 2023-07-25 中国水利水电科学研究院 一种罕遇洪水洪峰流量计算方法
CN115953281A (zh) * 2022-12-19 2023-04-11 贵州大学 一种城市地下空间的内涝灾害动态评估方法及系统
CN116827607A (zh) * 2023-06-02 2023-09-29 广州大学 一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法
CN117131756B (zh) * 2023-06-07 2024-05-24 长安大学 一种基于地表时序形变和孕灾背景的地裂缝易发性评价方法
CN116882741A (zh) * 2023-07-10 2023-10-13 中国水利水电科学研究院 一种超标准洪水灾害动态定量评估方法
CN117010274B (zh) * 2023-07-11 2024-05-10 中国地质科学院水文地质环境地质研究所 一种基于集成增量学习的地下水有害元素智能预警方法
CN116626685B (zh) * 2023-07-20 2023-09-29 山东大禹水务建设集团有限公司 基于机器学习的河道底泥实时监测方法及系统
CN116778395B (zh) * 2023-08-21 2023-10-24 成都理工大学 基于深度学习的山洪漫流视频识别监测方法
CN116776238B (zh) * 2023-08-25 2023-11-03 汇杰设计集团股份有限公司 一种基于多源信息水旱灾害动态风险评估方法和系统
CN117057253B (zh) * 2023-09-28 2023-12-08 中国水利水电科学研究院 基于空间离散洗牌复形进化算法的水文模型参数率定方法
CN117556628B (zh) * 2023-11-23 2024-05-28 郑州大学 一种智慧城市洪涝风险评估系统
CN117436619B (zh) * 2023-12-20 2024-03-15 长江水利委员会水文局 一种基于等效防洪作用的梯级水库防洪库容联合预留方法
CN117540830B (zh) * 2024-01-05 2024-04-12 中国地质科学院探矿工艺研究所 基于断层分布指数的泥石流易发性预测方法、装置及介质
CN117574778B (zh) * 2024-01-12 2024-03-29 河海大学 一种基于机器学习的相似场次洪水模式库构建方法
CN117634325B (zh) * 2024-01-26 2024-04-02 水利部交通运输部国家能源局南京水利科学研究院 资料受限河口区域极值事件识别和复合洪水灾害分析方法和系统
CN117709135B (zh) * 2024-02-06 2024-04-12 水利部交通运输部国家能源局南京水利科学研究院 考虑电厂温排水影响时长权重的热影响分析方法及系统
CN118015220B (zh) * 2024-04-09 2024-06-18 南京师范大学 一种基于多模态数据的城市洪涝快速制图方法
CN118091657B (zh) * 2024-04-28 2024-07-02 水利部交通运输部国家能源局南京水利科学研究院 基于分类三元搭配的流域洪涝淹没范围集成识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651211A (zh) * 2016-12-30 2017-05-10 吉林师范大学 一种不同尺度区域洪水灾害风险评估的方法
CN109858647A (zh) * 2018-12-21 2019-06-07 河海大学 一种耦合gis和gbdt算法的区域洪涝灾害风险评价与预估方法
CN111047099A (zh) * 2019-12-16 2020-04-21 杭州鲁尔物联科技有限公司 一种区域性山洪风险预测方法及系统
CN111507505A (zh) * 2020-03-20 2020-08-07 苏州丰华声赫智能科技有限公司 一种水库日入量预测模型的构建方法
CN111597758A (zh) * 2020-05-14 2020-08-28 河海大学 一种基于负相关学习的中小河流集成预报方法
CN111724033A (zh) * 2020-05-14 2020-09-29 天津大学 一种基于随机集理论的洪灾风险评价与精细区划方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3454285A1 (en) * 2017-09-11 2019-03-13 Fujitsu Limited An apparatus and method for assessing flooding behaviour and an apparatus and method for predicting a flood property
CN108280553B (zh) * 2018-02-24 2020-10-02 中山大学 基于gis-神经网络集成的山洪灾害风险区划及预测方法
CN112966926B (zh) * 2021-03-02 2022-04-22 河海大学 一种基于集成学习的洪水敏感性风险评估方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651211A (zh) * 2016-12-30 2017-05-10 吉林师范大学 一种不同尺度区域洪水灾害风险评估的方法
CN109858647A (zh) * 2018-12-21 2019-06-07 河海大学 一种耦合gis和gbdt算法的区域洪涝灾害风险评价与预估方法
CN111047099A (zh) * 2019-12-16 2020-04-21 杭州鲁尔物联科技有限公司 一种区域性山洪风险预测方法及系统
CN111507505A (zh) * 2020-03-20 2020-08-07 苏州丰华声赫智能科技有限公司 一种水库日入量预测模型的构建方法
CN111597758A (zh) * 2020-05-14 2020-08-28 河海大学 一种基于负相关学习的中小河流集成预报方法
CN111724033A (zh) * 2020-05-14 2020-09-29 天津大学 一种基于随机集理论的洪灾风险评价与精细区划方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022184088A1 (zh) * 2021-03-02 2022-09-09 河海大学 一种基于集成学习的洪水敏感性风险评估方法
CN115828757A (zh) * 2022-12-12 2023-03-21 福建中锐汉鼎数字科技有限公司 一种流域水位预测的泄洪量滞后特征构造及选择方法
CN115828757B (zh) * 2022-12-12 2024-02-23 福建中锐汉鼎数字科技有限公司 一种流域水位预测的泄洪量滞后特征构造及选择方法
CN116933217A (zh) * 2023-09-19 2023-10-24 广州华水生态科技有限公司 基于数字孪生和ai技术的中小河流洪水预报方法
CN116933217B (zh) * 2023-09-19 2024-01-30 广州华水生态科技有限公司 基于数字孪生和ai技术的中小河流洪水预报方法

Also Published As

Publication number Publication date
CN112966926B (zh) 2022-04-22
US20230141886A1 (en) 2023-05-11
WO2022184088A1 (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN112966926B (zh) 一种基于集成学习的洪水敏感性风险评估方法
CN110009226B (zh) 一种场地污染风险等级评测及敏感受体影响识别系统
CN108595414B (zh) 基于源汇空间变量推理的土壤重金属企业污染源识别方法
CN111126511B (zh) 一种基于植被指数融合的lai定量模型建立的方法
CN111079999A (zh) 一种基于cnn和svm的洪水灾害易发性预测方法
CN105808665A (zh) 一种新的基于手绘草图的图像检索方法
CN114611834B (zh) 一种基于多维特征分析的电力发电站选址评估规划方法
CN108876487A (zh) 一种基于大数据及智能决策机制的工业地块估计方法
CN106228136A (zh) 基于聚合通道特征的全景街景隐私保护方法
CN115563493A (zh) 一种基于聚类算法划分乡村景观生态单元的方法
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
CN111476197A (zh) 基于多源卫星遥感影像油棕识别及面积提取的方法和系统
CN115718746A (zh) 基于机器学习的稻田甲烷排放量预测方法
CN116129262A (zh) 一种面向宜机化改造的耕地适宜性评价方法及系统
CN114387261A (zh) 一种适用于铁路钢桥螺栓病害的自动检测方法
CN116662860A (zh) 一种基于能源大数据的用户画像与分类方法
Chou et al. Spatial knowledge databases as applied to the detection of changes in urban land use
CN115457386A (zh) 一种村庄用地信息化生成方法
CN115658772A (zh) 一种无人机光伏巡检数据类资产管理方法及系统
CN113344247B (zh) 一种基于深度学习的电力设施选址预测方法与系统
AU2021100350A4 (en) Method for Predicting Reclamation Potential of Homestead
Cao et al. Vegetation phenology detection of deciduous broad-leaf forest using YOLOv3 from PhenoCam
Zhang et al. A comparison of self-organizing feature map clustering with TWINSPAN and fuzzy C-means clustering in the analysis of woodland communities in the Guancen Mts, China
CN117010274B (zh) 一种基于集成增量学习的地下水有害元素智能预警方法
Hussein Assessment of urban vegetation changes on different scales in a semi-arid region using satellite imageries: a case study of Erbil city, Iraq

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant