CN114493243A - 一种基于岭模型树算法的山洪灾害易发性评估方法 - Google Patents
一种基于岭模型树算法的山洪灾害易发性评估方法 Download PDFInfo
- Publication number
- CN114493243A CN114493243A CN202210078366.5A CN202210078366A CN114493243A CN 114493243 A CN114493243 A CN 114493243A CN 202210078366 A CN202210078366 A CN 202210078366A CN 114493243 A CN114493243 A CN 114493243A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- algorithm
- mountain torrent
- ridge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 51
- 238000011156 evaluation Methods 0.000 title claims description 34
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000011160 research Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000001419 dependent effect Effects 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000004140 cleaning Methods 0.000 claims abstract description 5
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 43
- 238000012795 verification Methods 0.000 claims description 29
- 238000012360 testing method Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 17
- 238000010845 search algorithm Methods 0.000 claims description 10
- 238000003066 decision tree Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000001556 precipitation Methods 0.000 claims description 4
- 230000035945 sensitivity Effects 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000010801 machine learning Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000006424 Flood reaction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Quality & Reliability (AREA)
- Molecular Biology (AREA)
- Primary Health Care (AREA)
- Operations Research (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于岭模型树算法的山洪灾害易发性评估方法,包括如下小流域山洪易发性区划方法步骤:S1、数据收集和数据预处理:收集研究区的小流域属性数据并建立相应的指标体系,数据清洗,数据预处理,并选取样本作为模型输入,S2、山洪风险易发性因子筛选:以各小流域的历史山洪次数为因变量,其余属性为自变量进行计算,并筛选洪水调节因子,本发明通过将机器学习算法与GIS相结合,进行山洪风险易发性的预测和制图研究,相较于传统的空间分析方法和单一的机器学习模型,本发明可以提供更为准确的小流域山洪易发性地图,准确高效地进行小流域山洪灾害易发性评估与制图,能够更加精准的定位灾害,对灾害的易发性进行评估。
Description
技术领域
本发明涉及山洪灾害评估技术领域,具体为一种基于岭模型树算法的山洪灾害易发性评估方法。
背景技术
我国作为一个多山国家,有着典型的东亚季风气候,暴雨引发的山洪灾害发生频繁,且呈现范围广、频率高、历时短、危害大等特点,目前中国山洪灾害发生频繁,对国民生命财产安全造成巨大威胁,对山洪易发区进行风险评估和制图是一种防止山洪灾害的有效手段,目前已有多种专利应用于山洪风险易发性评估和制图的研究,在申请号为201910543954.X的中国专利“一种基于DPSIR模型的沿河村落山洪灾害风险评价方法及系统”中,选用AHP等空间分析方法,构建山洪灾害风险评价体系;
但是传统灾害易发性评估对数据源的要求较高,且泛用性较差,不适用的评估方法使防汛减灾工作的精准度偏低,无法对灾害进行精准定位,使人民的人身和财产安全受到威胁。
发明内容
本发明提供一种基于岭模型树算法的山洪灾害易发性评估方法,可以有效解决上述背景技术中提出传统灾害易发性评估对数据源的要求较高,且泛用性较差,不适用的评估方法使防汛减灾工作的精准度偏低,无法对灾害进行精准定位,使人民的人身和财产安全受到威胁的问题。
为实现上述目的,本发明提供如下技术方案:一种基于岭模型树算法的山洪灾害易发性评估方法,包括如下小流域山洪易发性区划方法步骤:
S1、数据收集和数据预处理:收集研究区的小流域属性数据并建立相应的指标体系,数据清洗,数据预处理,并选取样本作为模型输入;
S2、山洪风险易发性因子筛选:以各小流域的历史山洪次数为因变量,其余属性为自变量进行计算,并筛选洪水调节因子;
S3、建立岭模型树算法模型:首先训练算法,随后使用随机网格搜索算法在验证集上进行超参数优化,最终计算算法评估指标;
S4、进行模型性能评价:将测试集输入训练好的模型,比较预测值和实际值,进行精度评价;
S5、结果输出与山洪易发性制图:将数据集输入精度评价合适的模型中,获得研究区中各小流域的山洪易发性概率预测结果,并绘制山洪易发性图。
根据上述技术方案,所述S1中,数据清洗出属性数据明显异常的对象和山洪历史暴发次数过高的对象,不参与模型训练;
对清洗后的数据中的属性数据进行标准化处理,使其无量纲化,对历史山洪次数数据进行归一化处理;
随机选取样本作为训练集、验证集和测试集,作为模型输入,且训练集、验证集和测试集的比例为6:2:2。
根据上述技术方案,所述S2中,以各小流域的历史山洪次数为因变量,其余属性为自变量计算相关系数、信息熵和信息增益比,以此为依据筛选出对山洪易发性贡献度最高的十个洪水调节因子。
建立山洪灾害风险因子库,将山洪灾害风险因子分为流域几何特征、流域降水特征和流域汇流时间三大类,并存储在山洪灾害风险因子库中。
根据上述技术方案,所述S3中,首先使用训练集初步训练算法,随后采用随机网格搜索算法以及验证集数据,对超参数进行优化,最终使用测试集数据计算算法评估指标,判断模型是否符合要求。
根据上述技术方案,所述S4中,采用均方误差、平均绝对误差、受试者工作特征曲线等作为评价指标。
根据上述技术方案,所述S4中,使用训练集进行模型训练,在测试集上进行精度验证,计算算法评估指标来评估其精度;
算法评估指标包括均方误差、平均绝对误差、准确性、精准度、召回率、敏感度、特异性、ROC曲线和AUC值;
当AUC值大于85%、均方误差与平均绝对误差均低于0.05,准确性大于85%,特异性大于85%且其他指标结果较好时,认为模型训练合格。
根据上述技术方案,所述S5中,将小流域属性数据集输入训练好的模型中,评估各小流域山洪易发性;
按照自然间断点方法将小流域易发性结果分为5类,分别为极低易发性区域、低易发性区域、一般易发性区域、高易发性区域和极高易发性区域;
按照此标准绘制山洪易发性地图,得到基于岭模型树的小流域山洪风险易发性专题图。
根据上述技术方案,所述S3中的岭模型树是一种综合了岭回归算法和决策树算法的集成算法,基本思路如下:
A1、在根节点处利用贪婪规则对输入的初始数据集中的若干个自变量进行特征选择,对贡献度最高的属性进行特征分割,计算最优分割阈值,依照该属性及其最优分割阈值将数据集分割为两个或多个子数据集;
A2、每个数据集对应一个树的节点,在节点处对数据集进行岭回归模型的拟合;
A3、岭回归拟合过程包括超参数优化和模型拟合两部分;
A4、每个节点处的树分割操作与根结点处相同,每个中间节点都有各自的损失值和其子节点的损失值;
A5、岭模型树本身的超参数包含有分割规则、最大深度和最小样本数,需在验证集上作超参数优化。
根据上述技术方案,所述A3中,将数据按照7∶3的比例分割为训练集和验证集,在验证集上利用随机网格搜索算法进行岭回归的超参数优化,使用优化后的超参数在训练集上进行岭回归拟合,不作额外的测试集的测试,计算训练集的均方误差,以此作为节点的损失值;
此超参数是节点上岭回归系数alpha,是树构造中的节点的一部分,这些alpha值不算作岭模型树的超参数。
根据上述技术方案,所述A4中,若中间节点的损失值小于其子节点们的损失值的加权平均值,则认为该次树分割是没有必要的,进行剪枝操作,将该中间节点视为叶子节点,并删除其子节点,在此分支上不再作分割。
与现有技术相比,本发明的有益效果:
1、通过将机器学习算法与GIS相结合,进行山洪风险易发性的预测和制图研究,相较于传统的空间分析方法和单一的机器学习模型,本发明可以提供更为准确的小流域山洪易发性地图,准确高效地进行小流域山洪灾害易发性评估与制图,能够更加精准的定位灾害,对灾害的易发性进行评估,且在评估分析时,将岭回归和决策树相结合,既考虑了山洪风险灾害因子在不同的阈值区间对山洪贡献度不同的特点,又集成了在山洪风险易发性预测中有较好表现的回归模型。
2、通过以小流域为研究单元,将小流域研究、GIS和机器学习技术相结合,证明了在山洪风险性评估和易发区规划制图工作中,以小流域为研究对象,将其与GIS和机器学习技术相结合是切实可行且有效的,为以后的研究提供了更多的思路,促进了对小流域的研究,使研究结果更加精准。
3、通过制作山洪易发性地图和小流域山洪风险易发性专题图的绘制,山洪易发性地图的制图成果亦可以作为数据之一,对该区域的小流域开展相关的空间分析工作。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明小流域山洪易发性区划方法步骤图;
图2是本发明岭模型树的基本思路流程图;
图3是本发明研究岭模型树算法在山洪灾害易发性评估方面效果的技术路线图;
图4是本发明超参数优化的算法流程图;
图5是本发明江西省小流域山洪风险易发性专题图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:如图1-2所示,本发明提供一种技术方案,一种基于岭模型树算法的山洪灾害易发性评估方法,包括如下小流域山洪易发性区划方法步骤:
S1、数据收集和数据预处理:收集研究区的小流域属性数据并建立相应的指标体系,数据清洗,数据预处理,并选取样本作为模型输入;
S2、山洪风险易发性因子筛选:以各小流域的历史山洪次数为因变量,其余属性为自变量进行计算,并筛选洪水调节因子;
S3、建立岭模型树算法模型:首先训练算法,随后使用随机网格搜索算法在验证集上进行超参数优化,最终计算算法评估指标;
S4、进行模型性能评价:将测试集输入训练好的模型,比较预测值和实际值,进行精度评价;
S5、结果输出与山洪易发性制图:将数据集输入精度评价合适的模型中,获得研究区中各小流域的山洪易发性概率预测结果,并绘制山洪易发性图。
根据上述技术方案,S1中,数据清洗出属性数据明显异常的对象和山洪历史暴发次数过高的对象,不参与模型训练;
对清洗后的数据中的属性数据进行标准化处理,使其无量纲化,对历史山洪次数数据进行归一化处理;
随机选取样本作为训练集、验证集和测试集,作为模型输入,且训练集、验证集和测试集的比例为6:2:2。
根据上述技术方案,S2中,以各小流域的历史山洪次数为因变量,其余属性为自变量计算相关系数、信息熵和信息增益比,以此为依据筛选出对山洪易发性贡献度最高的十个洪水调节因子。
建立山洪灾害风险因子库,将山洪灾害风险因子分为流域几何特征、流域降水特征和流域汇流时间三大类,并存储在山洪灾害风险因子库中。
根据上述技术方案,S3中,首先使用训练集初步训练算法,随后采用随机网格搜索算法以及验证集数据,对超参数进行优化,最终使用测试集数据计算算法评估指标,判断模型是否符合要求。
根据上述技术方案,S4中,采用均方误差、平均绝对误差、受试者工作特征曲线等作为评价指标。
根据上述技术方案,S4中,使用训练集进行模型训练,在测试集上进行精度验证,计算算法评估指标来评估其精度;
算法评估指标包括均方误差、平均绝对误差、准确性、精准度、召回率、敏感度、特异性、ROC曲线和AUC值;
当AUC值大于85%、均方误差与平均绝对误差均低于0.05,准确性大于85%,特异性大于85%且其他指标结果较好时,认为模型训练合格。
根据上述技术方案,S5中,将小流域属性数据集输入训练好的模型中,评估各小流域山洪易发性;
按照自然间断点方法将小流域易发性结果分为5类,分别为极低易发性区域、低易发性区域、一般易发性区域、高易发性区域和极高易发性区域;
按照此标准绘制山洪易发性地图,得到基于岭模型树的小流域山洪风险易发性专题图。
根据上述技术方案,S3中的岭模型树是一种综合了岭回归算法和决策树算法的集成算法,基本思路如下:
A1、在根节点处利用贪婪规则对输入的初始数据集中的若干个自变量进行特征选择,对贡献度最高的属性进行特征分割,计算最优分割阈值,依照该属性及其最优分割阈值将数据集分割为两个或多个子数据集;
A2、每个数据集对应一个树的节点,在节点处对数据集进行岭回归模型的拟合;
A3、岭回归拟合过程包括超参数优化和模型拟合两部分;
A4、每个节点处的树分割操作与根结点处相同,每个中间节点都有各自的损失值和其子节点的损失值;
A5、岭模型树本身的超参数包含有分割规则、最大深度和最小样本数,需在验证集上作超参数优化。
根据上述技术方案,A3中,将数据按照7∶3的比例分割为训练集和验证集,在验证集上利用随机网格搜索算法进行岭回归的超参数优化,使用优化后的超参数在训练集上进行岭回归拟合,不作额外的测试集的测试,计算训练集的均方误差,以此作为节点的损失值;
此超参数是节点上岭回归系数alpha,是树构造中的节点的一部分,这些alpha值不算作岭模型树的超参数。
根据上述技术方案,A4中,若中间节点的损失值小于其子节点们的损失值的加权平均值,则认为该次树分割是没有必要的,进行剪枝操作,将该中间节点视为叶子节点,并删除其子节点,在此分支上不再作分割。
实施例2:
本发明提供一种技术方案,如图3所示,以江西省为研究区,使用本方法进行小流域山洪易发性预测和制图工作,本发明旨在研究岭模型树算法在山洪灾害易发性评估方面的效果;
首先收集江西省历史山洪数据点数据,以小流域为单元提取历史山洪发生次数数据;
建立山洪灾害风险因子库及其指标体系,分为流域几何特征、流域降水特征和流域汇流时间三大类,以历史山洪次数为因变量,小流域属性为自变量计算相关系数、信息熵和信息增益比;
以此为依据筛选出对山洪易发性贡献度最高的十个山洪风险因子,分别为平均坡度、流域面积、最大汇流路径、最大高程、流域相对坐标X、流域相对坐标Y、60分钟频率为1%的年最大降雨量、60分钟频率为2%的年最大降雨量、60分钟频率为5%的年最大降雨量和30分钟频率为80%的汇流时间;
山洪风险因子指标体系如下表所示;
山洪风险因子指标体系
实施例3:
本发明提供一种技术方案,在数据进行数据清洗和数据预处理工作中,剔除属性值明显异常和平均坡度小于2度的不属于山丘区的小流域,将历史山洪次数过多的区域视为高偏离值区域,不参与模型训练;
对属性数据进行标准化处理,使其无量纲化,对历史山洪次数数据进行归一化处理,以便直观地表现山洪风险性的高低和便于划分不同的风险等级。
建立岭模型树算法模型,岭模型树是一种综合了岭回归算法和决策树算法的集成算法;
如图4所示,岭模型树的基本思路如下:
A1、在根节点处利用贪婪规则对输入的初始数据集中的若干个自变量进行特征选择,对贡献度最高的属性进行特征分割,计算最优分割阈值,依照该属性及其最优分割阈值将数据集分割为两个或多个子数据集;
A2、每个数据集对应一个树的节点,在节点处对数据集进行岭回归模型的拟合;
A3、岭回归拟合过程包括超参数优化和模型拟合两部分。将数据按照7∶3的比例分割为训练集和验证集,在验证集上利用随机网格搜索算法进行岭回归的超参数优化(此超参数是节点上岭回归系数alpha,这些alpha值不能不算作岭模型树的超参数,实际上它们是树构造中的节点的一部分),使用优化后的超参数在训练集上进行岭回归拟合,不作额外的测试集的测试,计算训练集的均方误差,以此作为节点的损失值;
A4、每个节点处的树分割操作与根结点处相同,每个中间节点都有各自的损失值和其子节点的损失值,若中间节点的损失值小于其子节点们的损失值的加权平均值,则认为该次树分割是没有必要的,进行剪枝操作,将该中间节点视为叶子节点,并删除其子节点,在此分支上不再作分割;
A5、岭模型树本身的超参数包含有分割规则、最大深度、最小样本数等,需在验证集上作超参数优化。
按照6∶2∶2的比例分割数据集为训练集、测试集和验证集,利用随即网格搜索在验证集上进行超参数优化。
优化后的超参数结果如下表所示:
岭模型树超参数表
实施例4:
本发明提供一种技术方案,使用训练集进行模型训练,在测试集上进行精度验证,计算算法评估指标来评估其精度,包括均方误差、平均绝对误差、准确性、精准度、召回率、敏感度、特异性、ROC曲线、AUC值;
当AUC值大于85%、均方误差与平均绝对误差均低于0.05,准确性大于85%,特异性大于85%且其他指标结果较好时,认为模型训练合格。
模型评价结果如下表所示:
模型评价结果
将小流域属性数据集输入训练好的模型中,评估各小流域山洪易发性;
按照自然间断点方法将小流域易发性结果分为5类,分别为极低易发性区域、低易发性区域、一般易发性区域、高易发性区域和极高易发性区域;
如图5所示,按照此标准绘制山洪易发性地图,得出基于岭模型树的江西省小流域山洪风险易发性专题图。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于岭模型树算法的山洪灾害易发性评估方法,其特征在于:包括如下小流域山洪易发性区划方法步骤:
S1、数据收集和数据预处理:收集研究区的小流域属性数据并建立相应的指标体系,数据清洗,数据预处理,并选取样本作为模型输入;
S2、山洪风险易发性因子筛选:以各小流域的历史山洪次数为因变量,其余属性为自变量进行计算,并筛选洪水调节因子;
S3、建立岭模型树算法模型:首先训练算法,随后使用随机网格搜索算法在验证集上进行超参数优化,最终计算算法评估指标;
S4、进行模型性能评价:将测试集输入训练好的模型,比较预测值和实际值,进行精度评价;
S5、结果输出与山洪易发性制图:将数据集输入精度评价合适的模型中,获得研究区中各小流域的山洪易发性概率预测结果,并绘制山洪易发性图。
2.根据权利要求1所述的一种基于岭模型树算法的山洪灾害易发性评估方法,其特征在于,所述S1中,数据清洗出属性数据明显异常的对象和山洪历史暴发次数过高的对象,不参与模型训练;
对清洗后的数据中的属性数据进行标准化处理,使其无量纲化,对历史山洪次数数据进行归一化处理;
随机选取样本作为训练集、验证集和测试集,作为模型输入,且训练集、验证集和测试集的比例为6∶2∶2。
3.根据权利要求1所述的一种基于岭模型树算法的山洪灾害易发性评估方法,其特征在于,所述S2中,以各小流域的历史山洪次数为因变量,其余属性为自变量计算相关系数、信息熵和信息增益比,以此为依据筛选出对山洪易发性贡献度最高的十个洪水调节因子;
建立山洪灾害风险因子库,将山洪灾害风险因子分为流域几何特征、流域降水特征和流域汇流时间三大类,并存储在山洪灾害风险因子库中。
4.根据权利要求1所述的一种基于岭模型树算法的山洪灾害易发性评估方法,其特征在于,所述S3中,首先使用训练集初步训练算法,随后采用随机网格搜索算法以及验证集数据,对超参数进行优化,最终使用测试集数据计算算法评估指标,判断模型是否符合要求。
5.根据权利要求1所述的一种基于岭模型树算法的山洪灾害易发性评估方法,其特征在于,所述S4中,采用均方误差、平均绝对误差、受试者工作特征曲线作为评价指标。
6.根据权利要求1所述的一种基于岭模型树算法的山洪灾害易发性评估方法,其特征在于,所述S4中,使用训练集进行模型训练,在测试集上进行精度验证,计算算法评估指标来评估其精度;
算法评估指标包括均方误差、平均绝对误差、准确性、精准度、召回率、敏感度、特异性、ROC曲线和AUC值。
7.根据权利要求1所述的一种基于岭模型树算法的山洪灾害易发性评估方法,其特征在于,所述S5中,将小流域属性数据集输入训练好的模型中,评估各小流域山洪易发性;
按照自然间断点方法将小流域易发性结果分为5类,分别为极低易发性区域、低易发性区域、一般易发性区域、高易发性区域和极高易发性区域;
按照此标准绘制山洪易发性地图,得到基于岭模型树的小流域山洪风险易发性专题图。
8.根据权利要求1所述的一种基于岭模型树算法的山洪灾害易发性评估方法,其特征在于,所述S3中的岭模型树是一种综合了岭回归算法和决策树算法的集成算法,基本思路如下:
A1、在根节点处利用贪婪规则对输入的初始数据集中的若干个自变量进行特征选择,对贡献度最高的属性进行特征分割,计算最优分割阈值,依照该属性及其最优分割阈值将数据集分割为两个或多个子数据集;
A2、每个数据集对应一个树的节点,在节点处对数据集进行岭回归模型的拟合;
A3、岭回归拟合过程包括超参数优化和模型拟合两部分;
A4、每个节点处的树分割操作与根结点处相同,每个中间节点都有各自的损失值和其子节点的损失值;
A5、岭模型树本身的超参数包含有分割规则、最大深度和最小样本数,需在验证集上作超参数优化。
9.根据权利要求8所述的一种基于岭模型树算法的山洪灾害易发性评估方法,其特征在于,所述A3中,将数据按照7∶3的比例分割为训练集和验证集,在验证集上利用随机网格搜索算法进行岭回归的超参数优化,使用优化后的超参数在训练集上进行岭回归拟合,不作额外的测试集的测试,计算训练集的均方误差,以此作为节点的损失值;
此超参数是节点上岭回归系数alpha,是树构造中的节点的一部分,这些alpha值不算作岭模型树的超参数。
10.根据权利要求8所述的一种基于岭模型树算法的山洪灾害易发性评估方法,其特征在于,所述A4中,若中间节点的损失值小于其子节点们的损失值的加权平均值,则认为该次树分割是没有必要的,进行剪枝操作,将该中间节点视为叶子节点,并删除其子节点,在此分支上不再作分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210078366.5A CN114493243B (zh) | 2022-01-21 | 2022-01-21 | 一种基于岭模型树算法的山洪灾害易发性评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210078366.5A CN114493243B (zh) | 2022-01-21 | 2022-01-21 | 一种基于岭模型树算法的山洪灾害易发性评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114493243A true CN114493243A (zh) | 2022-05-13 |
CN114493243B CN114493243B (zh) | 2023-05-02 |
Family
ID=81473901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210078366.5A Active CN114493243B (zh) | 2022-01-21 | 2022-01-21 | 一种基于岭模型树算法的山洪灾害易发性评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114493243B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227194A1 (en) * | 2015-12-15 | 2019-07-25 | Wuhan University | System and method for forecasting floods |
CN111047099A (zh) * | 2019-12-16 | 2020-04-21 | 杭州鲁尔物联科技有限公司 | 一种区域性山洪风险预测方法及系统 |
CN111079999A (zh) * | 2019-12-04 | 2020-04-28 | 中国地质大学(武汉) | 一种基于cnn和svm的洪水灾害易发性预测方法 |
CN112966856A (zh) * | 2021-02-10 | 2021-06-15 | 四川水利职业技术学院 | 一种山洪风险预测方法及预测系统 |
-
2022
- 2022-01-21 CN CN202210078366.5A patent/CN114493243B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190227194A1 (en) * | 2015-12-15 | 2019-07-25 | Wuhan University | System and method for forecasting floods |
CN111079999A (zh) * | 2019-12-04 | 2020-04-28 | 中国地质大学(武汉) | 一种基于cnn和svm的洪水灾害易发性预测方法 |
CN111047099A (zh) * | 2019-12-16 | 2020-04-21 | 杭州鲁尔物联科技有限公司 | 一种区域性山洪风险预测方法及系统 |
CN112966856A (zh) * | 2021-02-10 | 2021-06-15 | 四川水利职业技术学院 | 一种山洪风险预测方法及预测系统 |
Non-Patent Citations (1)
Title |
---|
邓正波: "岭回归在区域洪水频率分析中的应用" * |
Also Published As
Publication number | Publication date |
---|---|
CN114493243B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280553B (zh) | 基于gis-神经网络集成的山洪灾害风险区划及预测方法 | |
CN113642849B (zh) | 考虑空间分布特征的地质灾害危险性综合评价方法及装置 | |
CN115688404B (zh) | 基于svm-rf模型的降雨型滑坡预警方法 | |
CN110059963A (zh) | 一种基于模糊多态贝叶斯网络的隧道风险评价方法 | |
CN113408917B (zh) | 自然灾害风险评估方法、装置、计算机设备及存储介质 | |
CN105678481A (zh) | 一种基于随机森林模型的管线健康状态评估方法 | |
CN111950585A (zh) | 一种基于XGBoost的地下综合管廊安全状况评估方法 | |
Båserud et al. | TITAN automatic spatial quality control of meteorological in-situ observations | |
CN109472075B (zh) | 一种基站性能分析方法及系统 | |
Li et al. | Research and application of random forest model in mining automobile insurance fraud | |
CN111079999A (zh) | 一种基于cnn和svm的洪水灾害易发性预测方法 | |
CN113378473A (zh) | 一种基于机器学习模型的地下水砷风险预测方法 | |
CN112347652B (zh) | 基于水文气象地区线性矩频率分析的暴雨高风险区划方法 | |
CN116862081B (zh) | 一种污染治理设备运维方法及系统 | |
Risser et al. | Detected changes in precipitation extremes at their native scales derived from in situ measurements | |
CN116739619A (zh) | 一种能源电力碳排放监测分析建模方法及装置 | |
Ghamghami et al. | Modeling a drought index using a nonparametric approach | |
CN107977727B (zh) | 一种基于社会发展和气候因素预测光缆网阻断概率的方法 | |
CN114493243A (zh) | 一种基于岭模型树算法的山洪灾害易发性评估方法 | |
CN115222196B (zh) | 一种山区道路网脆弱性评估与驱动力探测方法 | |
CN113191568B (zh) | 基于气象的城市运行管理大数据分析预测方法和系统 | |
CN114997666A (zh) | 一种区域泥石流易发性评估方法 | |
CN110751398B (zh) | 一种区域生态质量评价方法及装置 | |
CN110674471A (zh) | 基于GIS与Logistic回归模型的泥石流易发性预测方法 | |
CN111160608A (zh) | 极端降水天气指数的应用方法、应用系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |