CN110929956B

CN110929956B - 一种基于机器学习的洪水预报方案实时优选方法

Info

Publication number: CN110929956B
Application number: CN201911242328.3A
Authority: CN
Inventors: 王帆; 喻海军; 张洪斌; 张大伟; 姜晓明; 朴希桐
Original assignee: China Institute of Water Resources and Hydropower Research
Current assignee: China Institute of Water Resources and Hydropower Research
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-07-03
Anticipated expiration: 2039-12-06
Also published as: CN110929956A

Abstract

本发明公开了一种基于机器学习的洪水预报方案实时优选方法，包括以下步骤：1）流域水文资料收集及处理；2）降雨、洪水场次划分及关联；3）生成降雨洪水事件样本集合；4）洪水等级划分；5）洪水预报方案的构建；6）基于机器学习的分类器训练；7）基于前期降雨的预报方案实时优选。本发明基于洪水等级将样本集合划分为子集，分别编制洪水预报方案，并通过机器学习方法将其与前期降雨过程相关联，实现实时预报时对洪水预报方案的优选，能够有效提高流域实时洪水预报精度。

Description

一种基于机器学习的洪水预报方案实时优选方法

技术领域

本发明属于水利工程技术领域，尤其涉及洪水预报技术领域，具体为一种基于机器学习的洪水预报方案实时优选方法。

背景技术

洪水预报作为非工程措施的重要组成部分，能够有效提高流域和区域的防灾减灾能力。目前全国共有1700多个国家基本水文站实现预报工作常态化，200多个大江大河大湖控制断面和700多个中型水库实现洪水预报日常化，全国水文系统汛期每天制作、发布重要江河湖库断面洪水预报5800余站次，实现了对七大江河干支流主要控制站、防洪重点地区、重点水库和蓄滞洪区以及中小河流进行不同预见期和精度的洪水预报。为满足这种量级的洪水预报工作，各流域机构和省(区、市)的水文部门以及重点大型水库均需要依赖洪水预报系统或工具进行实时作业预报。为之提供保障的，是针对大江大河、湖泊水库、中小河流所编制的大量的、不同类型的洪水预报方案。

目前的洪水预报方案通常基于概念性模型，如新安江模型、陕北模型等，或基于数据驱动的模型，如神经网络模型、支持向量机等进行构建，且大多对洪水等级不做区分。然而不同等级洪水对应的预报模型参数往往是有所差异的，例如大洪水的汇流时间通常较小洪水的短，过程更为尖瘦，用同一套方案进行预报难免会影响预报精度。用不同类型洪水训练一个数据驱动模型同样也会导致预报精度下降。因而，针对一个流域，只采用一套预报方案是明显不合适的。然而，如何针对同一预报断面构建多个方案以及如何在实时预报中快速地选取适宜的方案是实际应用中尚未被很好解决的问题。

发明内容

本发明的目的在于提出一种基于洪水等级编制洪水预报方案的方法，并通过机器学习方法将其与前期降雨过程相关联，实现实时预报时对洪水预报方案的快速优选，能够有效提高流域实时洪水预报精度。

本发明的目的是通过以下技术方案实现的：

一种基于机器学习的洪水预报方案实时优选方法，包括以下步骤：

1)流域水文资料收集及处理：获得等时段流域面雨量时间序列及流域出口径流时间序列；

2)降雨、洪水场次划分及关联：根据等时段流域面雨量时间序列划分降雨场次，根据流域出口径流时间序列划分洪水场次，将场次降雨与场次洪水进行匹配关联，关联匹配方法为：以场次洪水的开始时间T_i1为基准，设定窗口，设开始时间向前的窗口大小为L_a，开始时间至洪水事件最后一个峰值的窗口大小为L_b，则最终确定的窗口大小L_n＝L_a+L_b，若降雨事件的质心落入窗口中，则认为降雨事件与洪水事件为关联事件，视为一次雨洪事件；

3)生成降雨洪水事件样本集合：按照步骤2)中的关联匹配方法，依次寻找每个场次洪水序列所关联的降雨事件，筛选掉无法找到关联降雨事件的洪水事件，从而得到元素一一关联的降雨事件集合与洪水事件集合；

4)洪水等级划分：以年为单位，从步骤3)中获得的洪水事件集合中提取年最大洪峰值，获得年最大值洪峰序列，进行频率分析，并推求洪峰重现期；基于洪峰重现期划分洪水等级：洪峰重现期小于5年的洪水，为小洪水；洪峰重现期大于等于5年，小于10年的洪水，为中等洪水；洪峰重现期为大于等于10年，小于50年的洪水，为大洪水；洪峰重现期大于50年的洪水，为特大洪水；

5)洪水预报方案的构建：基于步骤3)中生成的洪水事件集合及步骤4)中基于洪峰划分的洪水等级，根据每个洪水事件的洪峰值判断事件所对应的洪水等级，从而将洪水事件集合划分为特大、大、中、小洪水事件集合，共4个子集；基于4个子集中的洪水事件，分别构建洪水预报方案，所述洪水预报方案采用概念性模型或采用基于数据驱动的水文模型进行构建；

6)基于机器学习的分类器训练：6-1.首先计算流域汇流时间T_C；6-2.基于流域汇流时间T_C选择降雨特征值并生成特征向量：设洪水事件E_i对应的场次洪水序列为{Q_i1，Q_i2，...，Q_ik}，场次降雨序列为{R_i1，R_i2，...，T_ik}，时间标识序列为{T_i1，T_i2，...，T_ik}，洪水事件E_i洪峰出现时间为T_iP，其中i为洪水事件索引，P代表洪峰出现的时刻标识，k为洪水事件的时间索引，即k＝P时洪峰出现，则选取降雨序列中的R_iP-1，R_iP-2，...，R_iP-j，...，R_iP-T_c及其和值R_sum＝R_iP-1+R_iP-2+…+R_iP-j+…+R_iP-Tc作为特征值，组成特征向量S_i＝[R_iP-1，R_iP-2，...，R_iP-j，...，R_iP-Tc，R_sum]；6-3.生成训练样本集合：按上述方法计算4个洪水事件集合中各洪水事件的特征向量，并根据其所属集合对各特征向量使用特大、大、中、小洪水进行标记，从而得到各洪水事件的特征向量集合{S_i，i＝1，...，N}及标记向量[C_i，i＝1，...，N]，N为雨洪事件个数；6-4.基于训练样本合集生成分类器；

7)基于前期降雨的预报方案实时优选：根据当前时间、预报方案时段长以及前期降雨情况构建特征向量，以此特征向量作为步骤6)中所生成分类器的输入，判断所属的洪水等级类别；根据分类器输出的特征向量的等级类别，选择步骤5)中基于该洪水等级类别对应的样本集合所构建的洪水预报方案作为优选方案进行实时洪水预报。

进一步的，步骤2)中降雨场次的划分方法为：设定时间阈值ΔT，当降雨过程的间歇时间T_j-T_i超过阈值ΔT则视为两次降水过程，不足阈值ΔT则视为一次降水过程，从而实现自动连续的降雨场次划分。

进一步的，步骤2)中洪水场次的划分方法为：以洪水的起涨和消落过程作为洪水事件的划分标准将其划分为独立的场次洪水。

进一步的，步骤4)中频率分析采用参数法或非参数法，参数法可先假设总体分布线型为皮尔逊III型、Gumbel分布或正态分布，采用适线法估计参数，进而计算洪峰重现期；非参数法无需假定总体分布类型，根据实测系列与历史数据，基于核估计推求洪峰重现期。

进一步的，步骤6)中汇流时间采用下式进行计算：

式中，T_c为汇流时间，单位为h；l为汇流长度，单位为m；Y为流域平均坡度，％；S为最大截留能力。

进一步的，步骤6)中生成的分类器为基于K-NN的分类器、基于分类树的分类器或基于向量机的分类器中任意一种。

进一步的，基于K-NN的分类器，根据距离给定特征向量最近的K个特征向量的标记进行分类判断，采用欧式距离作为特征向量之间距离的度量标准，对于特征向量S_i与S_j，欧式距离的计算方法如下：

式中，T_c为汇流时间，m为特征向量中特征索引，S_im与S_jm分别为两个特征向量的第m个元素。

对于K值的选择方法：设步骤5)中划分的四个子集中，最小子集所包含元素的个数为N_min，则K＝2N_min-1。

进一步的，基于分类树的分类器，以训练集为基础，采用贪心策略，自顶而下构建分类树，以基尼指数作为分类树的划分依据，具体步骤为：由根节点出发，递归计算节点样本集合的基尼指数，以基尼指数作为选择最优特征以及该特征的最优二值切分点的指标，依据最优特征和最优切分点将节点集合划分为两个子节点，同时生成子节点样本集合，对子节点递归进行上述计算，直至满足停止条件，从而生成一棵完整的分类树，并对分类树进行剪枝处理。

本发明的有益效果：

本发明通过机器学习方法将分级洪水预报方案与前期降雨过程相关联，实现实时预报时对洪水预报方案的快速优选，解决单一预报方案精度较低，而多预报方案实时预报时难以快速、有效选择适当的方案的矛盾，能够有效提高流域实时洪水预报精度。

下面结合附图及具体实施方式对本发明作进一步详细说明。

附图说明

图1为本发明方法整体流程图；

图2场次洪水划分示意图；

图3降雨洪水关联示意图；

图4洪峰统计图；

图5降雨洪水事件样本示例；

图6流域DEM数据；

图7流域坡度数据；

图8汇流长度数据；

图9土地利用数据；

图10土壤类型数据；

图11洪水量级分类树；

图12剪枝后的洪水量级分类树。

具体实施方式

实施例1

1)流域水文资料收集及处理

对于目标流域，需收集不少于30年的降雨、径流资料，并将降雨、径流数据处理成为等时段时间序列。若流域范围内存在多个雨量站，则需要利用多个雨量站的数据计算流域的面雨量，可以采用泰森多边形法或均值法将站点降雨时间序列转化为流域面雨量时间序列。通过流域水文资料收集及处理，获得等时段流域面雨量时间序列{R₁，R₂，R₃，…，R_t}及流域出口径流时间序列{Q₁，Q₂，Q₃，...，Q_t}，其中t为时间索引。

2)降雨、洪水场次划分及关联

降雨场次划分：

采用以下方法，根据面雨量时间序列所对应的时间标识序列{T₁，T₂，T₃，…，T_t}对面雨量时间序列{R₁，R₂，R₃，…，R_t}进行划分：设定时间阈值ΔT，当降雨过程的间歇时间T_j-T_i超过阈值ΔT则视为两次降水过程，不足阈值ΔT则视为一次降水过程，从而实现自动连续的降雨场次划分，得到n个场次降雨序列{R_i1，R_i2，...，R_ik}及其时间标识序列{T_i1，T_i2，...，T_ik}，其中i＝1，...，n，n为降雨场次个数，k为该场降雨对应的时段个数。

洪水场次划分：

以洪水的起涨和消落过程作为洪水事件的划分标准将其划分为独立的场次洪水。采用如下方法进行自动划分：

2-1.基流分割，将径流序列中的基流部分和洪水部分划分开，通过数字滤波法得到流量过程的基流部分，如下式所示。

其中b_t为时刻t的基流，Q_t为时刻t的径流，β为滤波系数，通过滤波次数和滤波系数来控制滤波效果。获得基流序列后，通过下式获得洪水序列{q₁，q₂，q₃，...，q_t}。

q_t＝Q_t-b_t (2)

2-2.对洪水序列进行平滑处理，消除噪声项和异常点的影响，平滑滤波公式如下：

2-3.识别序列中的转折点，具体步骤为：计算洪水序列的一阶差分序列，根据一阶差分序列的正负变换判断序列转折点的位置，并对极大值与极小值加以区分。对序列首尾的处理：若首尾值为极大值，则将其去掉；设定阈值Th_min，若首尾值小于序列均值除以阈值Th_min，则设定其为极小值。记录转折点序列及各值对应的峰(极大值)、谷(极小值)标记。

2-4.识别洪水事件的开始、结束点，具体步骤为：设定阈值Th_slp，选定第一个极小值作为开始点并向后搜索另一极小值，依据转折点数组的一阶差分序列进行判断{d₁，d₂，d₃，...，d_i，...，d_t}，寻找满足下式要求的极小值点Min_i作为结束点：

Min_i-Min₁＜Th_slpmax(|d₁|，|d₂|，|d₃|，...，|d_i|)

2-5.对步骤4)中提取的洪水事件进行筛选与处理，具体步骤为：a.设置阈值Th_peak，对于一次独立的洪水事件，若峰值与序列起始点或结束点的差值小于阈值Th_peak，则认为本次洪水过程量级不足以纳入考虑范围；b.设定动态坡度阈值Th_dy，对于一次独立的洪水事件，动态坡度为阈值Th_dy与极差的乘积，依据动态坡度删除洪水事件前部与后部的平坦部分；c.设定时间阈值Th_ΔT，对于一次独立的洪水事件，如持续时间小于阈值Th_ΔT，则认为本次洪水过程不足以纳入考虑范围，如图2所示，横纵坐标分别代表时间与流量，Q₂-Q₁大于阈值Th_slp·max(|d₁|，|d₂|，|d₃|，...，|d_i|)，则不作为结束点，而Q₃-Q₁小于阈值Th_slp·max(|d₁|，|d₂|，|d₃|，...，|d_i|)且T₃-T₁大于时间阈值Th_ΔT，则认为是一次独立的洪水事件。

依据上述方法，得到n′个场次洪水序列{Q_i1，Q_i2，...，Qi_k′}及其时间标识序列{T_i1，T_i2，...，T_ik′}，其中i＝1，...，n′，n′为洪水场次个数，k′为该场洪水对应的时段个数。

将场次降雨与场次洪水进行匹配关联：

以场次洪水的开始时间T_i1为基准，设定窗口，设开始时间向前窗口大小为L_a，开始时间至洪水事件最后一个峰值(极大值)的窗口大小为L_b，则窗口大小L_n＝L_a+L_b。若降雨事件的质心落入窗口中，则认为降雨事件与洪水事件为关联事件，视为一次雨洪事件，如图3所示，通过调整L_a及降雨自动划分的阈值ΔT提高匹配关联效果。

3)生成降雨洪水事件样本集合

依次寻找n′个场次洪水序列{Q_i1，Q_i2，...，Q_ik}(i＝1，...，n′)所关联的降雨事件，视为一次雨洪事件。筛选掉无法找到关联降雨事件的洪水事件，从而得到元素一一关联的降雨事件集合{E_P1，E_P2，...，E_Pi，...，E_Pn}与洪水事件集合{E_Q1，E_Q2，...，EQ_i，...，E_Qn}，其中P为降雨的标识，Q为洪水的标识，n为自动划分的并且成功关联的雨洪事件的个数，E_Pi为第i场降雨事件，为一个降雨时间序列，E_Qi为第i场洪水事件，为一个洪水时间序列。

4)洪水等级划分

以年为单位，从洪水事件集合{E_Q1，E_Q2，...，E_Qi，...，E_Qn}中提取年最大洪峰值，获得年最大值洪峰序列{Peak₁，Peak₂，...，Peak_i，...，Peak_m}，其中m代表收集到的径流资料的年数。基于年最大洪峰序列，进行频率分析，并推求洪峰流量重现期。频率分析可以采用参数法或非参数法，参数法可先假设总体分布线型为皮尔逊III型、Gumbel分布或正态分布，采用适线法估计参数，进而计算洪峰重现期；非参数法无需假定总体分布类型，根据实测系列与历史数据，基于核估计推求洪峰重现期。

基于洪峰重现期划分洪水等级：洪峰重现期小于5年的洪水，为小洪水；洪峰重现期大于等于5年，小于10年的洪水，为中等洪水；洪峰重现期为大于等于10年，小于50年的洪水，为大洪水；洪峰重现期大于50年的洪水，为特大洪水。

5)洪水预报方案的构建

基于步骤3)中生成的洪水事件样本集合及步骤4)中基于洪峰划分的洪水等级，根据每个洪水事件E_Qi的洪峰值Peak_Qi判断事件所对应的洪水等级，从而将洪水事件集合划分为特大、大、中、小洪水事件集合，共4个子集。

基于四个子集中的洪水事件，构建洪水预报方案，可以采用概念性模型，如新安江模型、陕北模型等构建洪水预报方案，使用四个子集的洪水事件分别率定模型参数，获得四套模型参数；也可以采用基于数据驱动的水文模型，如神经网络模型、支持向量机模型等构建洪水预报方案，使用四个子集的洪水事件分别训练模型，获得四个数据驱动模型。

6)基于机器学习的分类器训练

6-1流域汇流时间计算

计算流域的汇流时间，可以采用美国自然资源保护署提出的SCS滞时法估算流域的汇流时间。SCS滞时法采用以下公式计算流域汇流时间：

其中，T_c为汇流时间，单位为h；l为汇流长度，单位为m；Y为流域平均坡度，％；S为最大截留能力，

CN值可以根据美国农业部的TR-55报告(USDA Technical Release 55，1986)中提供的方法及表格进行查算。

流域平均坡度可以根据DEM数据分析获得。

汇流长度l指的是流域分水岭至流域出口最远的汇流路径长度，可以通过DEM数据分析获得，或者通过以下经验公式估算：

l＝1737A^0.6 (5)

其中l为汇流长度，单位为m；A为流域面积，单位为km²。

6-2基于汇流时间的降雨特征值选择：

基于6-1中计算的流域汇流时间T_C选择降雨特征值并生成特征向量，设洪水事件E_Qi的洪峰出现时间为T_iP，其对应的场次洪水序列为{Q_i1，Q_i2，...，Q_ik}，场次降雨序列为{R_i1，R_i2，...，R_ik}，时间标识序列为{T_i1，T_i2，...，T_ik}，则选取降雨序列中的R_iP-1，R_iP-2，...，R_iP-j，...，R_iP-Tc及其和值R_sum＝R_iP-1+R_iP-2+...+R_iP-j+...+R_iP-Tc作为特征值，组成特征向量S_i＝[R_iP-1，R_iP-2，...，R_iP-j，...，R_iP-Tc，R_sum]。

6-3.生成训练样本集合

按照上述方法，计算四个洪水事件集合中各洪水事件的特征向量，并根据其所属集合对各特征向量使用特大、大、中、小洪水进行标记，从而得到各洪水事件的特征向量集合{S_i，i＝1，...，N}及标记向量[C_i，i＝1，...，N]，N为总样本个数，即雨洪事件个数。

6-4.生成分类器

分类器的选择可以为K-NN或分类树、支持向量机等，分别以K-NN与分类树为例介绍分类器的生成方法。

基于K-NN的分类器：

K-NN算法不需要显式的学习过程，也没有显式的模型，而是根据距离给定特征向量最近的K个特征向量的标记进行分类判断。

采用欧式距离作为特征向量之间距离的度量标准，对于特征向量S_i与S_j，欧式距离的计算方法如下：

对于K值的选择方法：设步骤5)中划分的四个子集中，最小子集所包含元素的个数为N_mim，则K＝2N_min-1。

基于分类树的分类器：

以训练集为基础，采用贪心策略，自顶而下构建分类树，以基尼指数作为分类树的划分依据，具体步骤为：由根节点出发，递归计算节点样本集合的基尼指数，以基尼指数作为选择最优特征以及该特征的最优二值切分点的指标，对于特征向量集合，有四类洪水等级标记(即特大、大、中、小)，样本属于第k类的概率为p_k，则概率分布的基尼指数为：

其中K代表类别个数，则对于给定的特征样本集合D，其基尼指数为：

其中，C_k为D中属于第k类洪水等级标记的样本子集。

若样本集合D根据某一特征A的取值a可以划分为D₁和D₂两个部分，则划分后的基尼指数为：

对于特征A，计算样本集合在其所有可能取值条件下的基尼指数，其中的最小值为特征A的最优二分方案。对于节点集合D′，计算所有特征的最优二分方案，选取其中的最小值作为样本集合D′的最优切分点，该特征即为最优特征。依据最优特征和最优切分点将节点集合划分为两个子节点，同时生成子节点样本集合。

对子节点递归进行上述计算，直至满足停止条件，从而生成一棵完整的分类树。

为避免过拟合现象，需对前步中生成的分类树进行剪枝，剪枝方法分为预剪枝和后剪枝两类。其中预剪枝通过设定停止条件来进行预剪枝，停止条件为子节点中样本个数小于给定的阈值，或者子节点样本集合的基尼指数小于给定的阈值，或者样本集合中只存在单一标记。后剪枝可以采用错误率降低剪枝(REP)、悲观剪枝(PEP)和代价复杂度剪枝(CCP)等方法。此处以CCP剪枝为例介绍，其方法为：设生成的完整分类树为T₀，其子树序列为{T₁，T₂，T₃，...，T_i，…，T_n}，其中1，2，3...i...n代表T₀的非叶子节点，T_i为以i为根节点的子树。子树序列中的每一子树T_i+1为根据前一棵T_i剪掉其某一个节点得到，因而对于子树序列，T₀＞T₁＞T₂＞...＞T_n，T_n即为T₀根节点单独组成的子树。子树序列的生成方法具体步骤为：

对于T_i，遍历计算其每个内部节点t由非叶子节点变为叶子节点时整体损失函数减少的程度g(t):

其中，C(t)为节点t作为叶子节点时的误差代价，C(t)＝r(t)·p(t),r(t)为节点的错误率，p(t)为节点数据量的占比；C(T_t)为节点t作为非叶子节点时的误差代价，

其中m为子树T_t对应叶节点个数，r_i(t)为叶节点i的错误率，p_i(t)为叶节点i数据量的占比。

遍历计算所有非叶子节点后，将g(t)最小的内部节点t的子树T_t剪去，得到T_i+1。由T₀出发，循环上述计算至根节点，得到子树序列。

使用子树序列中各分类树分别对验证集进行分类预测，选取误报率最小的子树作为最优子树，以T_B表示，即为最终生成的分类器。

7)基于前期降雨的预报方案实时优选

根据当前时间、预报方案时段长以及前期降雨情况构建特征向量，进行预报方案的实时优选。由于目前水文雨量站点通常为整点采集数据，时段长为1小时，因此以时段长为1小时的预报方案为例，以当前时刻或当前时刻向前的第一个整点时刻T作为洪水预报开始时间，生成特征向量S＝[R_T，R_T-1，...，R_T-2，...，R_T-Tc+1，R_sum],以此特征向量作为步骤6)中所生成分类器的输入，判断所属的洪水等级。

对于基于K-NN生成的分类器，计算特征向量S与各样本特征向量的欧式距离，寻找特征向量S距离最近的2N_min-1个特征向量，以2N_min-1个特征向量的洪水等级标记类别中出现次数最多的那个类作为S的预测类别，即采用“多数表决”决定S的类别。

对于基于分类树生成的分类器，依据T_B判断特征向量S所属叶子节点，根据叶子节点的标记决定S的类别。

根据分类器输出的特征向量S的类别，选择步骤5)中基于该洪水等级类别对应的样本集合所构建的洪水预报方案作为优选方案进行实时洪水预报。

本实施例中：

收集到某流域出口水文站点以及流域内5个雨量站点的历史水文数据，流量、雨量数据起止时间如表1所示，

表1水文站点流量数据情况

将经过插值处理为等时段数据后，根据流量、雨量数据起始时间对时间序列进行截断与补齐，并根据泰森多边形计算权重，将雨量站点时间序列转换为面雨量时间序列。进行场次洪水以及降雨事件的自动提取，并将二者互相关联，共提取118场降雨、洪水事件，对于各场次洪水的洪峰统计如图4所示，降雨洪水事件如图5所示为例。

以年为单位，提取年最大洪峰值，获得年最大洪峰序列如表2所示：表2年最大洪峰序列表

年份	年最大洪峰流量	年份	年最大洪峰流量
				1974	188	1994	159
1975	709	1995	185
				1976	184	1996	123
1977	118	1997	213
				1978	51.8	1998	107
1979	411	1999	293
				1980	320.8	2000	142
1981	202.3	2001	341
				1982	392	2002	33.8
1983	1090	2003	268
				1984	324	2004	252
1985	377	2005	474
				1986	315	2006	490
1987	303	2007	148.4
				1988	421	2008	232
1989	290	2009	132
				1990	185	2010	441
1991	295	2011	270
				1992	252	2012	459
1993	472	2013	231

根据年最大洪峰序列，采用Gumbel分布计算洪峰重现期，如表3所示：表3洪峰重现期列表

重现期	洪峰流量
		5年一遇	359.9
10年一遇	448
		20年一遇	530.6
50年一遇	636.2
		100年一遇	714.8
500年一遇	895.6
		1000年一遇	973.1
10000年一遇	1230.1

基于重现期对洪水等级进行划分，各等级场次洪水编号如表4所示：

表4洪水场次等级划分表

将118场洪水划分为率定期与验证期洪水，基于率定期洪水采用选择新安江模型构建流域洪水预报模型，根据特大、大、中、小四个等级的洪水训练模型，得到分级方案的四套模型参数以及一套不分级方案的模型参数，如表5所示：

表5分级方案新安江模型参数

使用验证期洪水对参数进行检验，分级方案能够显著提高预报准确率。

收集流域DEM数据以及土地利用、土壤类型数据，依据DEM数据分析流域汇流长度、平均坡度，依据土地利用、土壤类型数据计算CN值。DEM、土地利用、土壤类型、汇流长度、坡度数据如图6～10所示。

通过统计流域坡度栅格数据，得到流域平均坡度为31.78％，通过计算流域汇流长度，得到流域分水岭至流域出口最远的汇流路径长度为52334.9米，通过计算各土地利用类型所占比例，得到流域CN值为89，计算得到T_c＝4.2h。

选取各场次洪水峰现时间前4小时逐时段降雨以及前4小时累积雨量组成特征向量，并根据表4中所示场次洪水所属洪水级别对特征向量进行标记，形成分类树训练样本，训练初始分类树及剪枝后的分类树如图11、12所示。

分类树由前100场洪水数据训练，并使用后18场洪水进行验证，结果如表6所示，可见预测成功率为100％。

表6预测结果表

上述的实施例仅是本发明的部分体现，并不能涵盖本发明的全部，在上述实施例以及附图的基础上，本领域技术人员在不付出创造性劳动的前提下可获得更多的实施方式，因此这些不付出创造性劳动的前提下获得的实施方式均应包含在本发明的保护范围内。

Claims

1.一种基于机器学习的洪水预报方案实时优选方法，其特征在于：包括以下步骤：

6)基于机器学习的分类器训练：6-1.首先计算流域汇流时间T_C；6-2.基于流域汇流时间T_C选择降雨特征值并生成特征向量：设洪水事件E_i对应的场次洪水序列为{Q_i1，Q_i2，...，Q_ik}，场次降雨序列为{R_i1，R_i2，...，R_ik}，时间标识序列为{T_i1，T_i2，...，T_ik}，洪水事件E_i洪峰出现时间为T_iP，其中i为洪水事件索引，k为洪水事件的时间索引，P代表洪峰出现的时刻标识，即k＝P时洪峰出现，则选取降雨序列中的R_iP-1，R_iP-2，...，R_iP-j，...，R_iP-Tc及其和值R_sum＝R_iP-1+R_iP-2+...+R_iP-j+...+R_iP-Tc作为特征值，组成特征向量S_i＝[R_iP-1，R_iP-2，...，R_iP-j，...，R_iP-Tc，R_sum]；6-3.生成训练样本集合：按上述方法计算4个洪水事件集合中各洪水事件的特征向量，并根据其所属集合对各特征向量使用特大、大、中、小洪水进行标记，从而得到各洪水事件的特征向量集合{S_{i，i＝1，...，N}}及标记向量[C_{i，i＝1，...，N}],N为雨洪事件个数；6-4.基于训练样本合集生成分类器；

2.根据权利要求1所述的基于机器学习的洪水预报方案实时优选方法，其特征在于：步骤2)中降雨场次的划分方法为：设定时间阈值ΔT，当降雨过程的间歇时间T_j-T_i超过阈值ΔT则视为两次降水过程，不足阈值ΔT则视为一次降水过程，从而实现自动连续的降雨场次划分。

3.根据权利要求1所述的基于机器学习的洪水预报方案实时优选方法，其特征在于：步骤2)中洪水场次的划分方法为：以洪水的起涨和消落过程作为洪水事件的划分标准将其划分为独立的场次洪水。

4.根据权利要求1所述的基于机器学习的洪水预报方案实时优选方法，其特征在于：步骤4)中频率分析采用参数法或非参数法，参数法可先假设总体分布线型为皮尔逊III型、Gumbel分布或正态分布，采用适线法估计参数，进而计算洪峰重现期；非参数法无需假定总体分布类型，根据实测系列与历史数据，基于核估计推求洪峰重现期。

5.根据权利要求1所述的基于机器学习的洪水预报方案实时优选方法，其特征在于：步骤6)中汇流时间采用下式进行计算：

式中，T_c为汇流时间，单位为h；l为汇流长度，单位为m；Y为流域平均坡度，％；S为最大截留能力，

CN为径流曲线数。

6.根据权利要求1所述的基于机器学习的洪水预报方案实时优选方法，其特征在于：步骤6)中生成的分类器为基于K-NN的分类器、基于分类树的分类器或基于向量机的分类器中任意一种。

7.根据权利要求6所述的基于机器学习的洪水预报方案实时优选方法，其特征在于：基于K-NN的分类器，根据距离给定特征向量最近的K个特征向量的标记进行分类判断，采用欧式距离作为特征向量之间距离的度量标准，对于特征向量S_i与S_j，欧式距离的计算方法如下：

式中，T_c为汇流时间，单位为h，m为特征向量中特征索引，S_im与S_jm分别为两个特征向量的第m个元素；

8.根据权利要求6所述的基于机器学习的洪水预报方案实时优选方法，其特征在于：基于分类树的分类器，以训练集为基础，采用贪心策略，自顶而下构建分类树，以基尼指数作为分类树的划分依据，具体步骤为：由根节点出发，递归计算节点样本集合的基尼指数，以基尼指数作为选择最优特征以及该特征的最优二值切分点的指标，依据最优特征和最优切分点将节点集合划分为两个子节点，同时生成子节点样本集合，对子节点递归进行上述计算，直至满足停止条件，从而生成一棵完整的分类树，并对分类树进行剪枝处理。