CN110929956B - 一种基于机器学习的洪水预报方案实时优选方法 - Google Patents

一种基于机器学习的洪水预报方案实时优选方法 Download PDF

Info

Publication number
CN110929956B
CN110929956B CN201911242328.3A CN201911242328A CN110929956B CN 110929956 B CN110929956 B CN 110929956B CN 201911242328 A CN201911242328 A CN 201911242328A CN 110929956 B CN110929956 B CN 110929956B
Authority
CN
China
Prior art keywords
flood
rainfall
time
event
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911242328.3A
Other languages
English (en)
Other versions
CN110929956A (zh
Inventor
王帆
喻海军
张洪斌
张大伟
姜晓明
朴希桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Institute of Water Resources and Hydropower Research
Original Assignee
China Institute of Water Resources and Hydropower Research
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Institute of Water Resources and Hydropower Research filed Critical China Institute of Water Resources and Hydropower Research
Priority to CN201911242328.3A priority Critical patent/CN110929956B/zh
Publication of CN110929956A publication Critical patent/CN110929956A/zh
Application granted granted Critical
Publication of CN110929956B publication Critical patent/CN110929956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的洪水预报方案实时优选方法,包括以下步骤:1)流域水文资料收集及处理;2)降雨、洪水场次划分及关联;3)生成降雨洪水事件样本集合;4)洪水等级划分;5)洪水预报方案的构建;6)基于机器学习的分类器训练;7)基于前期降雨的预报方案实时优选。本发明基于洪水等级将样本集合划分为子集,分别编制洪水预报方案,并通过机器学习方法将其与前期降雨过程相关联,实现实时预报时对洪水预报方案的优选,能够有效提高流域实时洪水预报精度。

Description

一种基于机器学习的洪水预报方案实时优选方法
技术领域
本发明属于水利工程技术领域,尤其涉及洪水预报技术领域,具体为一种基于机器学习的洪水预报方案实时优选方法。
背景技术
洪水预报作为非工程措施的重要组成部分,能够有效提高流域和区域的防灾减灾能力。目前全国共有1700多个国家基本水文站实现预报工作常态化,200多个大江大河大湖控制断面和700多个中型水库实现洪水预报日常化,全国水文系统汛期每天制作、发布重要江河湖库断面洪水预报5800余站次,实现了对七大江河干支流主要控制站、防洪重点地区、重点水库和蓄滞洪区以及中小河流进行不同预见期和精度的洪水预报。为满足这种量级的洪水预报工作,各流域机构和省(区、市)的水文部门以及重点大型水库均需要依赖洪水预报系统或工具进行实时作业预报。为之提供保障的,是针对大江大河、湖泊水库、中小河流所编制的大量的、不同类型的洪水预报方案。
目前的洪水预报方案通常基于概念性模型,如新安江模型、陕北模型等,或基于数据驱动的模型,如神经网络模型、支持向量机等进行构建,且大多对洪水等级不做区分。然而不同等级洪水对应的预报模型参数往往是有所差异的,例如大洪水的汇流时间通常较小洪水的短,过程更为尖瘦,用同一套方案进行预报难免会影响预报精度。用不同类型洪水训练一个数据驱动模型同样也会导致预报精度下降。因而,针对一个流域,只采用一套预报方案是明显不合适的。然而,如何针对同一预报断面构建多个方案以及如何在实时预报中快速地选取适宜的方案是实际应用中尚未被很好解决的问题。
发明内容
本发明的目的在于提出一种基于洪水等级编制洪水预报方案的方法,并通过机器学习方法将其与前期降雨过程相关联,实现实时预报时对洪水预报方案的快速优选,能够有效提高流域实时洪水预报精度。
本发明的目的是通过以下技术方案实现的:
一种基于机器学习的洪水预报方案实时优选方法,包括以下步骤:
1)流域水文资料收集及处理:获得等时段流域面雨量时间序列及流域出口径流时间序列;
2)降雨、洪水场次划分及关联:根据等时段流域面雨量时间序列划分降雨场次,根据流域出口径流时间序列划分洪水场次,将场次降雨与场次洪水进行匹配关联,关联匹配方法为:以场次洪水的开始时间Ti1为基准,设定窗口,设开始时间向前的窗口大小为La,开始时间至洪水事件最后一个峰值的窗口大小为Lb,则最终确定的窗口大小Ln=La+Lb,若降雨事件的质心落入窗口中,则认为降雨事件与洪水事件为关联事件,视为一次雨洪事件;
3)生成降雨洪水事件样本集合:按照步骤2)中的关联匹配方法,依次寻找每个场次洪水序列所关联的降雨事件,筛选掉无法找到关联降雨事件的洪水事件,从而得到元素一一关联的降雨事件集合与洪水事件集合;
4)洪水等级划分:以年为单位,从步骤3)中获得的洪水事件集合中提取年最大洪峰值,获得年最大值洪峰序列,进行频率分析,并推求洪峰重现期;基于洪峰重现期划分洪水等级:洪峰重现期小于5年的洪水,为小洪水;洪峰重现期大于等于5年,小于10年的洪水,为中等洪水;洪峰重现期为大于等于10年,小于50年的洪水,为大洪水;洪峰重现期大于50年的洪水,为特大洪水;
5)洪水预报方案的构建:基于步骤3)中生成的洪水事件集合及步骤4)中基于洪峰划分的洪水等级,根据每个洪水事件的洪峰值判断事件所对应的洪水等级,从而将洪水事件集合划分为特大、大、中、小洪水事件集合,共4个子集;基于4个子集中的洪水事件,分别构建洪水预报方案,所述洪水预报方案采用概念性模型或采用基于数据驱动的水文模型进行构建;
6)基于机器学习的分类器训练:6-1.首先计算流域汇流时间TC;6-2.基于流域汇流时间TC选择降雨特征值并生成特征向量:设洪水事件Ei对应的场次洪水序列为{Qi1,Qi2,...,Qik},场次降雨序列为{Ri1,Ri2,...,Tik},时间标识序列为{Ti1,Ti2,...,Tik},洪水事件Ei洪峰出现时间为TiP,其中i为洪水事件索引,P代表洪峰出现的时刻标识,k为洪水事件的时间索引,即k=P时洪峰出现,则选取降雨序列中的RiP-1,RiP-2,...,RiP-j,...,RiP-Tc及其和值Rsum=RiP-1+RiP-2+…+RiP-j+…+RiP-Tc作为特征值,组成特征向量Si=[RiP-1,RiP-2,...,RiP-j,...,RiP-Tc,Rsum];6-3.生成训练样本集合:按上述方法计算4个洪水事件集合中各洪水事件的特征向量,并根据其所属集合对各特征向量使用特大、大、中、小洪水进行标记,从而得到各洪水事件的特征向量集合{Si,i=1,...,N}及标记向量[Ci,i=1,...,N],N为雨洪事件个数;6-4.基于训练样本合集生成分类器;
7)基于前期降雨的预报方案实时优选:根据当前时间、预报方案时段长以及前期降雨情况构建特征向量,以此特征向量作为步骤6)中所生成分类器的输入,判断所属的洪水等级类别;根据分类器输出的特征向量的等级类别,选择步骤5)中基于该洪水等级类别对应的样本集合所构建的洪水预报方案作为优选方案进行实时洪水预报。
进一步的,步骤2)中降雨场次的划分方法为:设定时间阈值ΔT,当降雨过程的间歇时间Tj-Ti超过阈值ΔT则视为两次降水过程,不足阈值ΔT则视为一次降水过程,从而实现自动连续的降雨场次划分。
进一步的,步骤2)中洪水场次的划分方法为:以洪水的起涨和消落过程作为洪水事件的划分标准将其划分为独立的场次洪水。
进一步的,步骤4)中频率分析采用参数法或非参数法,参数法可先假设总体分布线型为皮尔逊III型、Gumbel分布或正态分布,采用适线法估计参数,进而计算洪峰重现期;非参数法无需假定总体分布类型,根据实测系列与历史数据,基于核估计推求洪峰重现期。
进一步的,步骤6)中汇流时间采用下式进行计算:
Figure BDA0002306609060000051
式中,Tc为汇流时间,单位为h;l为汇流长度,单位为m;Y为流域平均坡度,%;S为最大截留能力。
进一步的,步骤6)中生成的分类器为基于K-NN的分类器、基于分类树的分类器或基于向量机的分类器中任意一种。
进一步的,基于K-NN的分类器,根据距离给定特征向量最近的K个特征向量的标记进行分类判断,采用欧式距离作为特征向量之间距离的度量标准,对于特征向量Si与Sj,欧式距离的计算方法如下:
Figure BDA0002306609060000052
式中,Tc为汇流时间,m为特征向量中特征索引,Sim与Sjm分别为两个特征向量的第m个元素。
对于K值的选择方法:设步骤5)中划分的四个子集中,最小子集所包含元素的个数为Nmin,则K=2Nmin-1。
进一步的,基于分类树的分类器,以训练集为基础,采用贪心策略,自顶而下构建分类树,以基尼指数作为分类树的划分依据,具体步骤为:由根节点出发,递归计算节点样本集合的基尼指数,以基尼指数作为选择最优特征以及该特征的最优二值切分点的指标,依据最优特征和最优切分点将节点集合划分为两个子节点,同时生成子节点样本集合,对子节点递归进行上述计算,直至满足停止条件,从而生成一棵完整的分类树,并对分类树进行剪枝处理。
本发明的有益效果:
本发明通过机器学习方法将分级洪水预报方案与前期降雨过程相关联,实现实时预报时对洪水预报方案的快速优选,解决单一预报方案精度较低,而多预报方案实时预报时难以快速、有效选择适当的方案的矛盾,能够有效提高流域实时洪水预报精度。
下面结合附图及具体实施方式对本发明作进一步详细说明。
附图说明
图1为本发明方法整体流程图;
图2场次洪水划分示意图;
图3降雨洪水关联示意图;
图4洪峰统计图;
图5降雨洪水事件样本示例;
图6流域DEM数据;
图7流域坡度数据;
图8汇流长度数据;
图9土地利用数据;
图10土壤类型数据;
图11洪水量级分类树;
图12剪枝后的洪水量级分类树。
具体实施方式
实施例1
一种基于机器学习的洪水预报方案实时优选方法,包括以下步骤:
1)流域水文资料收集及处理
对于目标流域,需收集不少于30年的降雨、径流资料,并将降雨、径流数据处理成为等时段时间序列。若流域范围内存在多个雨量站,则需要利用多个雨量站的数据计算流域的面雨量,可以采用泰森多边形法或均值法将站点降雨时间序列转化为流域面雨量时间序列。通过流域水文资料收集及处理,获得等时段流域面雨量时间序列{R1,R2,R3,…,Rt}及流域出口径流时间序列{Q1,Q2,Q3,...,Qt},其中t为时间索引。
2)降雨、洪水场次划分及关联
降雨场次划分:
采用以下方法,根据面雨量时间序列所对应的时间标识序列{T1,T2,T3,…,Tt}对面雨量时间序列{R1,R2,R3,…,Rt}进行划分:设定时间阈值ΔT,当降雨过程的间歇时间Tj-Ti超过阈值ΔT则视为两次降水过程,不足阈值ΔT则视为一次降水过程,从而实现自动连续的降雨场次划分,得到n个场次降雨序列{Ri1,Ri2,...,Rik}及其时间标识序列{Ti1,Ti2,...,Tik},其中i=1,...,n,n为降雨场次个数,k为该场降雨对应的时段个数。
洪水场次划分:
以洪水的起涨和消落过程作为洪水事件的划分标准将其划分为独立的场次洪水。采用如下方法进行自动划分:
2-1.基流分割,将径流序列中的基流部分和洪水部分划分开,通过数字滤波法得到流量过程的基流部分,如下式所示。
Figure BDA0002306609060000081
其中bt为时刻t的基流,Qt为时刻t的径流,β为滤波系数,通过滤波次数和滤波系数来控制滤波效果。获得基流序列后,通过下式获得洪水序列{q1,q2,q3,...,qt}。
qt=Qt-bt (2)
2-2.对洪水序列进行平滑处理,消除噪声项和异常点的影响,平滑滤波公式如下:
Figure BDA0002306609060000082
2-3.识别序列中的转折点,具体步骤为:计算洪水序列的一阶差分序列,根据一阶差分序列的正负变换判断序列转折点的位置,并对极大值与极小值加以区分。对序列首尾的处理:若首尾值为极大值,则将其去掉;设定阈值Thmin,若首尾值小于序列均值除以阈值Thmin,则设定其为极小值。记录转折点序列及各值对应的峰(极大值)、谷(极小值)标记。
2-4.识别洪水事件的开始、结束点,具体步骤为:设定阈值Thslp,选定第一个极小值作为开始点并向后搜索另一极小值,依据转折点数组的一阶差分序列进行判断{d1,d2,d3,...,di,...,dt},寻找满足下式要求的极小值点Mini作为结束点:
Mini-Min1<Thslpmax(|d1|,|d2|,|d3|,...,|di|)
2-5.对步骤4)中提取的洪水事件进行筛选与处理,具体步骤为:a.设置阈值Thpeak,对于一次独立的洪水事件,若峰值与序列起始点或结束点的差值小于阈值Thpeak,则认为本次洪水过程量级不足以纳入考虑范围;b.设定动态坡度阈值Thdy,对于一次独立的洪水事件,动态坡度为阈值Thdy与极差的乘积,依据动态坡度删除洪水事件前部与后部的平坦部分;c.设定时间阈值ThΔT,对于一次独立的洪水事件,如持续时间小于阈值ThΔT,则认为本次洪水过程不足以纳入考虑范围,如图2所示,横纵坐标分别代表时间与流量,Q2-Q1大于阈值Thslp·max(|d1|,|d2|,|d3|,...,|di|),则不作为结束点,而Q3-Q1小于阈值Thslp·max(|d1|,|d2|,|d3|,...,|di|)且T3-T1大于时间阈值ThΔT,则认为是一次独立的洪水事件。
依据上述方法,得到n′个场次洪水序列{Qi1,Qi2,...,Qik′}及其时间标识序列{Ti1,Ti2,...,Tik′},其中i=1,...,n′,n′为洪水场次个数,k′为该场洪水对应的时段个数。
将场次降雨与场次洪水进行匹配关联:
以场次洪水的开始时间Ti1为基准,设定窗口,设开始时间向前窗口大小为La,开始时间至洪水事件最后一个峰值(极大值)的窗口大小为Lb,则窗口大小Ln=La+Lb。若降雨事件的质心落入窗口中,则认为降雨事件与洪水事件为关联事件,视为一次雨洪事件,如图3所示,通过调整La及降雨自动划分的阈值ΔT提高匹配关联效果。
3)生成降雨洪水事件样本集合
依次寻找n′个场次洪水序列{Qi1,Qi2,...,Qik}(i=1,...,n′)所关联的降雨事件,视为一次雨洪事件。筛选掉无法找到关联降雨事件的洪水事件,从而得到元素一一关联的降雨事件集合{EP1,EP2,...,EPi,...,EPn}与洪水事件集合{EQ1,EQ2,...,EQi,...,EQn},其中P为降雨的标识,Q为洪水的标识,n为自动划分的并且成功关联的雨洪事件的个数,EPi为第i场降雨事件,为一个降雨时间序列,EQi为第i场洪水事件,为一个洪水时间序列。
4)洪水等级划分
以年为单位,从洪水事件集合{EQ1,EQ2,...,EQi,...,EQn}中提取年最大洪峰值,获得年最大值洪峰序列{Peak1,Peak2,...,Peaki,...,Peakm},其中m代表收集到的径流资料的年数。基于年最大洪峰序列,进行频率分析,并推求洪峰流量重现期。频率分析可以采用参数法或非参数法,参数法可先假设总体分布线型为皮尔逊III型、Gumbel分布或正态分布,采用适线法估计参数,进而计算洪峰重现期;非参数法无需假定总体分布类型,根据实测系列与历史数据,基于核估计推求洪峰重现期。
基于洪峰重现期划分洪水等级:洪峰重现期小于5年的洪水,为小洪水;洪峰重现期大于等于5年,小于10年的洪水,为中等洪水;洪峰重现期为大于等于10年,小于50年的洪水,为大洪水;洪峰重现期大于50年的洪水,为特大洪水。
5)洪水预报方案的构建
基于步骤3)中生成的洪水事件样本集合及步骤4)中基于洪峰划分的洪水等级,根据每个洪水事件EQi的洪峰值PeakQi判断事件所对应的洪水等级,从而将洪水事件集合划分为特大、大、中、小洪水事件集合,共4个子集。
基于四个子集中的洪水事件,构建洪水预报方案,可以采用概念性模型,如新安江模型、陕北模型等构建洪水预报方案,使用四个子集的洪水事件分别率定模型参数,获得四套模型参数;也可以采用基于数据驱动的水文模型,如神经网络模型、支持向量机模型等构建洪水预报方案,使用四个子集的洪水事件分别训练模型,获得四个数据驱动模型。
6)基于机器学习的分类器训练
6-1流域汇流时间计算
计算流域的汇流时间,可以采用美国自然资源保护署提出的SCS滞时法估算流域的汇流时间。SCS滞时法采用以下公式计算流域汇流时间:
Figure BDA0002306609060000111
其中,Tc为汇流时间,单位为h;l为汇流长度,单位为m;Y为流域平均坡度,%;S为最大截留能力,
Figure BDA0002306609060000112
CN值可以根据美国农业部的TR-55报告(USDA Technical Release 55,1986)中提供的方法及表格进行查算。
流域平均坡度可以根据DEM数据分析获得。
汇流长度l指的是流域分水岭至流域出口最远的汇流路径长度,可以通过DEM数据分析获得,或者通过以下经验公式估算:
l=1737A0.6 (5)
其中l为汇流长度,单位为m;A为流域面积,单位为km2
6-2基于汇流时间的降雨特征值选择:
基于6-1中计算的流域汇流时间TC选择降雨特征值并生成特征向量,设洪水事件EQi的洪峰出现时间为TiP,其对应的场次洪水序列为{Qi1,Qi2,...,Qik},场次降雨序列为{Ri1,Ri2,...,Rik},时间标识序列为{Ti1,Ti2,...,Tik},则选取降雨序列中的RiP-1,RiP-2,...,RiP-j,...,RiP-Tc及其和值Rsum=RiP-1+RiP-2+...+RiP-j+...+RiP-Tc作为特征值,组成特征向量Si=[RiP-1,RiP-2,...,RiP-j,...,RiP-Tc,Rsum]。
6-3.生成训练样本集合
按照上述方法,计算四个洪水事件集合中各洪水事件的特征向量,并根据其所属集合对各特征向量使用特大、大、中、小洪水进行标记,从而得到各洪水事件的特征向量集合{Si,i=1,...,N}及标记向量[Ci,i=1,...,N],N为总样本个数,即雨洪事件个数。
6-4.生成分类器
分类器的选择可以为K-NN或分类树、支持向量机等,分别以K-NN与分类树为例介绍分类器的生成方法。
基于K-NN的分类器:
K-NN算法不需要显式的学习过程,也没有显式的模型,而是根据距离给定特征向量最近的K个特征向量的标记进行分类判断。
采用欧式距离作为特征向量之间距离的度量标准,对于特征向量Si与Sj,欧式距离的计算方法如下:
Figure BDA0002306609060000131
式中,Tc为汇流时间,m为特征向量中特征索引,Sim与Sjm分别为两个特征向量的第m个元素。
对于K值的选择方法:设步骤5)中划分的四个子集中,最小子集所包含元素的个数为Nmim,则K=2Nmin-1。
基于分类树的分类器:
以训练集为基础,采用贪心策略,自顶而下构建分类树,以基尼指数作为分类树的划分依据,具体步骤为:由根节点出发,递归计算节点样本集合的基尼指数,以基尼指数作为选择最优特征以及该特征的最优二值切分点的指标,对于特征向量集合,有四类洪水等级标记(即特大、大、中、小),样本属于第k类的概率为pk,则概率分布的基尼指数为:
Figure BDA0002306609060000132
其中K代表类别个数,则对于给定的特征样本集合D,其基尼指数为:
Figure BDA0002306609060000133
其中,Ck为D中属于第k类洪水等级标记的样本子集。
若样本集合D根据某一特征A的取值a可以划分为D1和D2两个部分,则划分后的基尼指数为:
Figure BDA0002306609060000141
对于特征A,计算样本集合在其所有可能取值条件下的基尼指数,其中的最小值为特征A的最优二分方案。对于节点集合D′,计算所有特征的最优二分方案,选取其中的最小值作为样本集合D′的最优切分点,该特征即为最优特征。依据最优特征和最优切分点将节点集合划分为两个子节点,同时生成子节点样本集合。
对子节点递归进行上述计算,直至满足停止条件,从而生成一棵完整的分类树。
为避免过拟合现象,需对前步中生成的分类树进行剪枝,剪枝方法分为预剪枝和后剪枝两类。其中预剪枝通过设定停止条件来进行预剪枝,停止条件为子节点中样本个数小于给定的阈值,或者子节点样本集合的基尼指数小于给定的阈值,或者样本集合中只存在单一标记。后剪枝可以采用错误率降低剪枝(REP)、悲观剪枝(PEP)和代价复杂度剪枝(CCP)等方法。此处以CCP剪枝为例介绍,其方法为:设生成的完整分类树为T0,其子树序列为{T1,T2,T3,...,Ti,…,Tn},其中1,2,3...i...n代表T0的非叶子节点,Ti为以i为根节点的子树。子树序列中的每一子树Ti+1为根据前一棵Ti剪掉其某一个节点得到,因而对于子树序列,T0>T1>T2>...>Tn,Tn即为T0根节点单独组成的子树。子树序列的生成方法具体步骤为:
对于Ti,遍历计算其每个内部节点t由非叶子节点变为叶子节点时整体损失函数减少的程度g(t):
Figure BDA0002306609060000151
其中,C(t)为节点t作为叶子节点时的误差代价,C(t)=r(t)·p(t),r(t)为节点的错误率,p(t)为节点数据量的占比;C(Tt)为节点t作为非叶子节点时的误差代价,
Figure BDA0002306609060000152
其中m为子树Tt对应叶节点个数,ri(t)为叶节点i的错误率,pi(t)为叶节点i数据量的占比。
遍历计算所有非叶子节点后,将g(t)最小的内部节点t的子树Tt剪去,得到Ti+1。由T0出发,循环上述计算至根节点,得到子树序列。
使用子树序列中各分类树分别对验证集进行分类预测,选取误报率最小的子树作为最优子树,以TB表示,即为最终生成的分类器。
7)基于前期降雨的预报方案实时优选
根据当前时间、预报方案时段长以及前期降雨情况构建特征向量,进行预报方案的实时优选。由于目前水文雨量站点通常为整点采集数据,时段长为1小时,因此以时段长为1小时的预报方案为例,以当前时刻或当前时刻向前的第一个整点时刻T作为洪水预报开始时间,生成特征向量S=[RT,RT-1,...,RT-2,...,RT-Tc+1,Rsum],以此特征向量作为步骤6)中所生成分类器的输入,判断所属的洪水等级。
对于基于K-NN生成的分类器,计算特征向量S与各样本特征向量的欧式距离,寻找特征向量S距离最近的2Nmin-1个特征向量,以2Nmin-1个特征向量的洪水等级标记类别中出现次数最多的那个类作为S的预测类别,即采用“多数表决”决定S的类别。
对于基于分类树生成的分类器,依据TB判断特征向量S所属叶子节点,根据叶子节点的标记决定S的类别。
根据分类器输出的特征向量S的类别,选择步骤5)中基于该洪水等级类别对应的样本集合所构建的洪水预报方案作为优选方案进行实时洪水预报。
本实施例中:
收集到某流域出口水文站点以及流域内5个雨量站点的历史水文数据,流量、雨量数据起止时间如表1所示,
表1水文站点流量数据情况
Figure BDA0002306609060000161
将经过插值处理为等时段数据后,根据流量、雨量数据起始时间对时间序列进行截断与补齐,并根据泰森多边形计算权重,将雨量站点时间序列转换为面雨量时间序列。进行场次洪水以及降雨事件的自动提取,并将二者互相关联,共提取118场降雨、洪水事件,对于各场次洪水的洪峰统计如图4所示,降雨洪水事件如图5所示为例。
以年为单位,提取年最大洪峰值,获得年最大洪峰序列如表2所示:表2年最大洪峰序列表
年份 年最大洪峰流量 年份 年最大洪峰流量
1974 188 1994 159
1975 709 1995 185
1976 184 1996 123
1977 118 1997 213
1978 51.8 1998 107
1979 411 1999 293
1980 320.8 2000 142
1981 202.3 2001 341
1982 392 2002 33.8
1983 1090 2003 268
1984 324 2004 252
1985 377 2005 474
1986 315 2006 490
1987 303 2007 148.4
1988 421 2008 232
1989 290 2009 132
1990 185 2010 441
1991 295 2011 270
1992 252 2012 459
1993 472 2013 231
根据年最大洪峰序列,采用Gumbel分布计算洪峰重现期,如表3所示:表3洪峰重现期列表
重现期 洪峰流量
5年一遇 359.9
10年一遇 448
20年一遇 530.6
50年一遇 636.2
100年一遇 714.8
500年一遇 895.6
1000年一遇 973.1
10000年一遇 1230.1
基于重现期对洪水等级进行划分,各等级场次洪水编号如表4所示:
表4洪水场次等级划分表
Figure BDA0002306609060000181
将118场洪水划分为率定期与验证期洪水,基于率定期洪水采用选择新安江模型构建流域洪水预报模型,根据特大、大、中、小四个等级的洪水训练模型,得到分级方案的四套模型参数以及一套不分级方案的模型参数,如表5所示:
表5分级方案新安江模型参数
Figure BDA0002306609060000182
Figure BDA0002306609060000191
使用验证期洪水对参数进行检验,分级方案能够显著提高预报准确率。
收集流域DEM数据以及土地利用、土壤类型数据,依据DEM数据分析流域汇流长度、平均坡度,依据土地利用、土壤类型数据计算CN值。DEM、土地利用、土壤类型、汇流长度、坡度数据如图6~10所示。
通过统计流域坡度栅格数据,得到流域平均坡度为31.78%,通过计算流域汇流长度,得到流域分水岭至流域出口最远的汇流路径长度为52334.9米,通过计算各土地利用类型所占比例,得到流域CN值为89,计算得到Tc=4.2h。
选取各场次洪水峰现时间前4小时逐时段降雨以及前4小时累积雨量组成特征向量,并根据表4中所示场次洪水所属洪水级别对特征向量进行标记,形成分类树训练样本,训练初始分类树及剪枝后的分类树如图11、12所示。
分类树由前100场洪水数据训练,并使用后18场洪水进行验证,结果如表6所示,可见预测成功率为100%。
表6预测结果表
Figure BDA0002306609060000192
Figure BDA0002306609060000201
上述的实施例仅是本发明的部分体现,并不能涵盖本发明的全部,在上述实施例以及附图的基础上,本领域技术人员在不付出创造性劳动的前提下可获得更多的实施方式,因此这些不付出创造性劳动的前提下获得的实施方式均应包含在本发明的保护范围内。

Claims (8)

1.一种基于机器学习的洪水预报方案实时优选方法,其特征在于:包括以下步骤:
1)流域水文资料收集及处理:获得等时段流域面雨量时间序列及流域出口径流时间序列;
2)降雨、洪水场次划分及关联:根据等时段流域面雨量时间序列划分降雨场次,根据流域出口径流时间序列划分洪水场次,将场次降雨与场次洪水进行匹配关联,关联匹配方法为:以场次洪水的开始时间Ti1为基准,设定窗口,设开始时间向前的窗口大小为La,开始时间至洪水事件最后一个峰值的窗口大小为Lb,则最终确定的窗口大小Ln=La+Lb,若降雨事件的质心落入窗口中,则认为降雨事件与洪水事件为关联事件,视为一次雨洪事件;
3)生成降雨洪水事件样本集合:按照步骤2)中的关联匹配方法,依次寻找每个场次洪水序列所关联的降雨事件,筛选掉无法找到关联降雨事件的洪水事件,从而得到元素一一关联的降雨事件集合与洪水事件集合;
4)洪水等级划分:以年为单位,从步骤3)中获得的洪水事件集合中提取年最大洪峰值,获得年最大值洪峰序列,进行频率分析,并推求洪峰重现期;基于洪峰重现期划分洪水等级:洪峰重现期小于5年的洪水,为小洪水;洪峰重现期大于等于5年,小于10年的洪水,为中等洪水;洪峰重现期为大于等于10年,小于50年的洪水,为大洪水;洪峰重现期大于50年的洪水,为特大洪水;
5)洪水预报方案的构建:基于步骤3)中生成的洪水事件集合及步骤4)中基于洪峰划分的洪水等级,根据每个洪水事件的洪峰值判断事件所对应的洪水等级,从而将洪水事件集合划分为特大、大、中、小洪水事件集合,共4个子集;基于4个子集中的洪水事件,分别构建洪水预报方案,所述洪水预报方案采用概念性模型或采用基于数据驱动的水文模型进行构建;
6)基于机器学习的分类器训练:6-1.首先计算流域汇流时间TC;6-2.基于流域汇流时间TC选择降雨特征值并生成特征向量:设洪水事件Ei对应的场次洪水序列为{Qi1,Qi2,...,Qik},场次降雨序列为{Ri1,Ri2,...,Rik},时间标识序列为{Ti1,Ti2,...,Tik},洪水事件Ei洪峰出现时间为TiP,其中i为洪水事件索引,k为洪水事件的时间索引,P代表洪峰出现的时刻标识,即k=P时洪峰出现,则选取降雨序列中的RiP-1,RiP-2,...,RiP-j,...,RiP-Tc及其和值Rsum=RiP-1+RiP-2+...+RiP-j+...+RiP-Tc作为特征值,组成特征向量Si=[RiP-1,RiP-2,...,RiP-j,...,RiP-Tc,Rsum];6-3.生成训练样本集合:按上述方法计算4个洪水事件集合中各洪水事件的特征向量,并根据其所属集合对各特征向量使用特大、大、中、小洪水进行标记,从而得到各洪水事件的特征向量集合{Si,i=1,...,N}及标记向量[Ci,i=1,...,N],N为雨洪事件个数;6-4.基于训练样本合集生成分类器;
7)基于前期降雨的预报方案实时优选:根据当前时间、预报方案时段长以及前期降雨情况构建特征向量,以此特征向量作为步骤6)中所生成分类器的输入,判断所属的洪水等级类别;根据分类器输出的特征向量的等级类别,选择步骤5)中基于该洪水等级类别对应的样本集合所构建的洪水预报方案作为优选方案进行实时洪水预报。
2.根据权利要求1所述的基于机器学习的洪水预报方案实时优选方法,其特征在于:步骤2)中降雨场次的划分方法为:设定时间阈值ΔT,当降雨过程的间歇时间Tj-Ti超过阈值ΔT则视为两次降水过程,不足阈值ΔT则视为一次降水过程,从而实现自动连续的降雨场次划分。
3.根据权利要求1所述的基于机器学习的洪水预报方案实时优选方法,其特征在于:步骤2)中洪水场次的划分方法为:以洪水的起涨和消落过程作为洪水事件的划分标准将其划分为独立的场次洪水。
4.根据权利要求1所述的基于机器学习的洪水预报方案实时优选方法,其特征在于:步骤4)中频率分析采用参数法或非参数法,参数法可先假设总体分布线型为皮尔逊III型、Gumbel分布或正态分布,采用适线法估计参数,进而计算洪峰重现期;非参数法无需假定总体分布类型,根据实测系列与历史数据,基于核估计推求洪峰重现期。
5.根据权利要求1所述的基于机器学习的洪水预报方案实时优选方法,其特征在于:步骤6)中汇流时间采用下式进行计算:
Figure FDA0002495717890000031
式中,Tc为汇流时间,单位为h;l为汇流长度,单位为m;Y为流域平均坡度,%;S为最大截留能力,
Figure FDA0002495717890000041
CN为径流曲线数。
6.根据权利要求1所述的基于机器学习的洪水预报方案实时优选方法,其特征在于:步骤6)中生成的分类器为基于K-NN的分类器、基于分类树的分类器或基于向量机的分类器中任意一种。
7.根据权利要求6所述的基于机器学习的洪水预报方案实时优选方法,其特征在于:基于K-NN的分类器,根据距离给定特征向量最近的K个特征向量的标记进行分类判断,采用欧式距离作为特征向量之间距离的度量标准,对于特征向量Si与Sj,欧式距离的计算方法如下:
Figure FDA0002495717890000042
式中,Tc为汇流时间,单位为h,m为特征向量中特征索引,Sim与Sjm分别为两个特征向量的第m个元素;
对于K值的选择方法:设步骤5)中划分的四个子集中,最小子集所包含元素的个数为Nmin,则K=2Nmin-1。
8.根据权利要求6所述的基于机器学习的洪水预报方案实时优选方法,其特征在于:基于分类树的分类器,以训练集为基础,采用贪心策略,自顶而下构建分类树,以基尼指数作为分类树的划分依据,具体步骤为:由根节点出发,递归计算节点样本集合的基尼指数,以基尼指数作为选择最优特征以及该特征的最优二值切分点的指标,依据最优特征和最优切分点将节点集合划分为两个子节点,同时生成子节点样本集合,对子节点递归进行上述计算,直至满足停止条件,从而生成一棵完整的分类树,并对分类树进行剪枝处理。
CN201911242328.3A 2019-12-06 2019-12-06 一种基于机器学习的洪水预报方案实时优选方法 Active CN110929956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911242328.3A CN110929956B (zh) 2019-12-06 2019-12-06 一种基于机器学习的洪水预报方案实时优选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911242328.3A CN110929956B (zh) 2019-12-06 2019-12-06 一种基于机器学习的洪水预报方案实时优选方法

Publications (2)

Publication Number Publication Date
CN110929956A CN110929956A (zh) 2020-03-27
CN110929956B true CN110929956B (zh) 2020-07-03

Family

ID=69857362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911242328.3A Active CN110929956B (zh) 2019-12-06 2019-12-06 一种基于机器学习的洪水预报方案实时优选方法

Country Status (1)

Country Link
CN (1) CN110929956B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639826A (zh) * 2020-07-06 2020-09-08 贵州东方世纪科技股份有限公司 一种洪水预警等级划分及预警方法
CN112183607B (zh) * 2020-09-23 2023-11-07 浙江水利水电学院 一种基于模糊理论的东南沿海地区洪水分类方法
CN112348246B (zh) * 2020-11-02 2022-09-20 大连理工大学 一种基于ssa的标准化降噪方法及其在山区流域洪水预报中的应用
CN113378484B (zh) * 2021-07-12 2021-12-21 中国水利水电科学研究院 一种基于机器学习的平原河网地区洪水过程预报方法
CN114020975A (zh) * 2021-10-27 2022-02-08 华能西藏雅鲁藏布江水电开发投资有限公司 一种自动筛选洪水场次的方法
CN114154417B (zh) * 2021-12-06 2022-06-07 中国水利水电科学研究院 基于深度学习框架的洪水预报模型及洪水预报方法
CN114240106B (zh) * 2021-12-06 2022-07-01 中国水利水电科学研究院 一种基于水文数据挖掘的流域洪水响应相似性分析方法
CN116796799A (zh) * 2022-02-24 2023-09-22 宝鸡文理学院 无水文资料地区中小流域洪水降雨量阈值模型创建方法
CN115063111B (zh) * 2022-06-24 2023-08-18 中国长江三峡集团有限公司 场次洪水识别方法、装置、电子设备及可读存储介质
CN115099497B (zh) * 2022-06-28 2023-02-17 中国水利水电科学研究院 一种基于cnn-lstm的实时洪水预报智能方法
CN115080556B (zh) * 2022-08-19 2022-11-22 中国水利水电科学研究院 一种降雨监测异常数据检测及插补方法
CN115271255B (zh) * 2022-09-19 2022-12-09 长江水利委员会水文局 基于知识图谱和机器学习的雨洪相似性分析方法和系统
CN115688022B (zh) * 2022-11-11 2023-05-26 中国水利水电科学研究院 一种基于最邻近算法的流域单位线实时优选方法
CN117150282B (zh) * 2023-09-16 2024-01-30 石家庄正和网络有限公司 一种基于预测模型的二手设备回收评估方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100138038A (ko) * 2009-06-24 2010-12-31 한국해양연구원 침수범람 예측 및 재해도 작성을 위한 육도-해도 접합 정밀 지형도 제작방법
KR20140103589A (ko) * 2013-02-18 2014-08-27 아주대학교산학협력단 Maple 기상예보자료를 이용한 홍수예측 방법 및 그 장치
CN104090974B (zh) * 2014-07-18 2016-08-24 河海大学 展延水库后续来水的动态数据挖掘方法及系统
US11107025B2 (en) * 2016-12-13 2021-08-31 STREAM METHODS, Inc. System and method for producing and distributing information relevant to water events
CN106875048A (zh) * 2017-02-07 2017-06-20 南京南瑞集团公司 基于典型经验模式的应急洪水预报方法
CN107730151B (zh) * 2017-11-21 2021-07-23 中国水利水电科学研究院 一种基于概念性水文模型的流域设计洪水推求方法
CN107729695A (zh) * 2017-11-21 2018-02-23 中国水利水电科学研究院 一种用于小流域次洪模拟的水文模型率定方法
CN109829584A (zh) * 2019-02-02 2019-05-31 中国水利水电科学研究院 一种山洪风险动态评估方法

Also Published As

Publication number Publication date
CN110929956A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110929956B (zh) 一种基于机器学习的洪水预报方案实时优选方法
CN108304668B (zh) 一种结合水文过程数据和历史先验数据的洪水预测方法
CN111027763B (zh) 一种基于机器学习的流域洪水响应相似性分析方法
CN111027764B (zh) 一种基于机器学习的适用于径流资料缺乏流域的洪水预报方法
CN111080107B (zh) 一种基于时间序列聚类的流域洪水响应相似性分析方法
CN106485262A (zh) 一种母线负荷预测方法
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
Ouyang et al. Similarity search and pattern discovery in hydrological time series data mining
CN105117810A (zh) 一种阶梯电价机制下居民用电中期负载预测方法
CN106650767A (zh) 基于聚类分析和实时校正的洪水预报方法
CN115271255B (zh) 基于知识图谱和机器学习的雨洪相似性分析方法和系统
CN109345105B (zh) 一种多水源灌区灌溉用水量复核方法
Kovačević et al. Application of artificial neural networks for hydrological modelling in karst
Danandeh Mehr Drought classification using gradient boosting decision tree
Štravs et al. Development of a low-flow forecasting model using the M5 machine learning method
GB2612682A (en) Basin similarity classification method and device
Ahani et al. Assessment of some combinations of hard and fuzzy clustering techniques for regionalisation of catchments in Sefidroud basin
CN116091801B (zh) 一种基于深度学习的降雨图像相似性搜索方法
Parchure et al. Probability distribution analysis of extreme rainfall events in a flood-prone region of Mumbai, India
CN111709586A (zh) 一种水库流域洪水起调水位分型设计与控制的方法
Dubey K-Means based radial basis function neural networks for rainfall prediction
Wu et al. Application of K-means cluster and rough set in classified real-time flood forecasting
Raudsepp et al. A method for assessment of the general circulation model quality using K-means clustering algorithm
Faye et al. Dataclassification techniques and system for predicting discharges in the Gambia river basin
Seethalakshmi et al. Gaussian kernel based HMM for time series data analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant