CN109816167A

CN109816167A - 径流预报方法及径流预报装置

Info

Publication number: CN109816167A
Application number: CN201910047591.0A
Authority: CN
Inventors: 王浩; 杨明祥; 刘畅
Original assignee: Chongqing Kunlun Shanxia Industrial Co Ltd; Shaanxi Dongfang Xiangyun Technology Co Ltd; Kunlun (chongqing) River And Lake Ecology Research Institute (limited Partnership)
Current assignee: Chongqing Kunlun Shanxia Industrial Co Ltd; Shaanxi Dongfang Xiangyun Technology Co Ltd; Kunlun (chongqing) River And Lake Ecology Research Institute (limited Partnership)
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2019-05-28

Abstract

本发明提供一种径流预报方法及径流预报装置，通过获取待预报时段的属性变量集，按照预设相对误差范围对属性变量集中待预报时段累积降水量进行随机扰动，生成ens个扰动降水量；基于该ens个扰动降水量形成ens个集合样本；获取历史样本集；针对待测样本集中包含的各个集合样本，分别计算其与历史样本集中各历史时段对应的属性变量集之间的相似度；针对每一个集合样本，得到该集合样本的第一预报径流量；最后基于各集合样本的第一预报径流量得到待预报时段的最终预报径流量。充分考虑了径流的连续性，同时对待预报时段的累积降水量进行扰动生成多个集合样本，实现集合预报，在很大程度上降低了由于待预报时段累积降水量预报的不确定性。

Description

径流预报方法及径流预报装置

技术领域

本发明涉及水文预报领域，尤其涉及一种径流预报方法及径流预报装置。

背景技术

月尺度的中长期径流预报是制订水资源长期调度方案的重要基础和依据，对于水资源管理工作意义重大。径流的变化受大量因素的影响，包括降水、大气环流、海温分布、天文活动、陆面状态等，当前主流研究多围绕各类影响因子，试图通过数学方法找到各影响因子与径流过程的相关性，并利用线性或非线性的方法建立高相关因子与径流直接或间接的转化关系式。

当前研究多集中在对关键影响因子的选取和统计规律的建立方面，其本质是希望通过数学方法反映各影响因子与径流的定量转化关系。然而，这种转化关系是通过大量实测数据率定得到的，对于一个维度异常高的实际流域，长度有限、质量有限的实测资料率定得到的转化关系在代表性上必然存在较大缺陷。且水文现象极其复杂，存在明显的非线性特征，利用现有数学手段难以准确对其进行描述，从而导致模型泛化能力有限。

其次，现有方法大多利用某一时刻影响因子序列对未来某一时刻的径流量进行预测，这种简单的对应关系割裂了径流作为连续变量而存在的前后相关，造成预报具有较大的不确定性。此外，径流的不确定性很大程度来自于降水的不确定性。

发明内容

本发明提供的径流预报方法及径流预报装置，主要解决的技术问题是：当前径流预报精度和准确性较差。

为解决上述技术问题，本发明提供一种径流预报方法，包括：

获取待预报时段的属性变量集，所述属性变量集包含所述待预报时段累积降水量、所述待预报时段的上一时段的累积降水量、所述待预报时段的上一时段的平均径流量、所述待预报时段的上一时段的累积降水变化量以及所述待预报时段的上一时段的平均径流变化量；

按照预设相对误差范围对所述待预报时段累积降水量进行随机扰动，生成ens个扰动降水量；所述ens大于等于2；

基于所述ens个扰动降水量形成ens个集合样本，各所述集合样本包括一所述扰动降水量、所述待预报时段的上一时段的累积降水量、所述待预报时段的上一时段的平均径流量、所述待预报时段的上一时段的累积降水变化量以及所述待预报时段的上一时段的平均径流变化量；

获取历史样本集，所述历史样本集包括各历史时段对应的属性变量集，所述历史时段对应的属性变量集包括当前历史时段累积降水量、上一时段累积降水量、上一时段平均径流量、上一时段累积降水变化量以及上一时段平均径流变化量；

针对待测样本集中包含的各所述集合样本，分别计算其与所述历史样本集中各历史时段对应的属性变量集之间的相似度；

针对每一个所述集合样本，选择所述相似度满足预设条件的K个历史时段作为所述集合样本的目标历史时段；并获取各所述目标历史时段对应的实测平均径流量，并基于各所述目标历史时段对应的实测平均径流量得到所述集合样本的第一预报径流量；所述K大于等于1；

基于各所述集合样本的第一预报径流量得到所述待预报时段的最终预报径流量。

可选的，所述ens设定为16；

或，所述ens设定为15，且所述待测样本集还包括所述待预报时段的属性变量集。

可选的，所述选择所述相似度满足预设条件的K个历史时段作为所述集合样本的目标历史时段包括：

针对所述集合样本，按照与各所述历史时段对应的属性变量集之间的相似度大小进行排序，选择相似度较大的K个历史时段作为所述集合样本的目标历史时段。

可选的，所述K设定为7。

可选的，所述基于各所述目标历史时段对应的实测平均径流量得到所述集合样本的第一预报径流量包括：

对各所述目标历史时段对应的实测平均径流量进行算数平均处理，得到所述集合样本的第一预报径流量。

可选的，所述基于各所述集合样本的第一预报径流量得到所述待预报时段的最终预报径流量包括：

对各所述集合样本的第一预报径流量进行加权平均处理，得到所述待预报时段的最终预报径流量。

本发明还提供一种径流预报装置，包括：

第一获取模块，用于获取待预报时段的属性变量集，所述属性变量集包含所述待预报时段累积降水量、所述待预报时段的上一时段的累积降水量、所述待预报时段的上一时段的平均径流量、所述待预报时段的上一时段的累积降水变化量以及所述待预报时段的上一时段的平均径流变化量；

生成模块，用于按照预设相对误差范围对所述待预报时段累积降水量进行随机扰动，生成ens个扰动降水量，并基于所述ens个扰动降水量形成ens个集合样本，各所述集合样本包括一所述扰动降水量、所述待预报时段的上一时段的累积降水量、所述待预报时段的上一时段的平均径流量、所述待预报时段的上一时段的累积降水变化量以及所述待预报时段的上一时段的平均径流变化量；所述ens大于等于2；

第二获取模块，用于获取历史样本集，所述历史样本集包括各历史时段对应的属性变量集，所述历史时段对应的属性变量集包括当前历史时段累积降水量、上一时段累积降水量、上一时段平均径流量、上一时段累积降水变化量以及上一时段平均径流变化量；

计算模块，用于针对待测样本集中包含的各所述集合样本，分别计算其与所述历史样本集中各历史时段对应的属性变量集之间的相似度；

第一处理模块，用于针对每一个所述集合样本，选择所述相似度满足预设条件的K个历史时段作为所述集合样本的目标历史时段；并获取各所述目标历史时段对应的实测平均径流量，并基于各所述目标历史时段对应的实测平均径流量得到所述集合样本的第一预报径流量；所述K大于等于1；

第二处理模块，用于基于各所述集合样本的第一预报径流量得到所述待预报时段的最终预报径流量。

可选的，所述第一处理模块用于针对所述集合样本，按照与各所述历史时段对应的属性变量集之间的相似度大小进行排序，选择相似度较大的K个历史时段作为所述集合样本的目标历史时段。

可选的，所述ens设定为16，且所述K设定为7。

可选的，所述第一处理模块用于针对所述集合样本，对各所述目标历史时段对应的实测平均径流量进行算数平均处理，得到所述集合样本的第一预报径流量；所述第二处理模块用于对各所述集合样本的第一预报径流量进行加权平均处理，得到所述待预报时段的最终预报径流量。

本发明的有益效果是：

根据本发明提供的径流预报方法及径流预报装置，通过获取待预报时段的属性变量集，该属性变量集包含待预报时段累积降水量、待预报时段的上一时段的累积降水量、待预报时段的上一时段的平均径流量、待预报时段的上一时段的累积降水变化量以及待预报时段的上一时段的平均径流变化量；按照预设相对误差范围对待预报时段累积降水量进行随机扰动，生成ens个扰动降水量；其中ens大于等于2；基于该ens个扰动降水量形成ens个集合样本，各集合样本包括一扰动降水量、待预报时段的上一时段的累积降水量、待预报时段的上一时段的平均径流量、待预报时段的上一时段的累积降水变化量以及待预报时段的上一时段的平均径流变化量；获取历史样本集，历史样本集包括各历史时段对应的属性变量集，其中历史时段对应的属性变量集包括当前历史时段累积降水量、当前历史时段的上一时段累积降水量、当前历史时段的上一时段平均径流量、当前历史时段的上一时段累积降水变化量以及当前历史时段的上一时段平均径流变化量；针对待测样本集中包含的各个集合样本，分别计算其与历史样本集中各历史时段对应的属性变量集之间的相似度；针对每一个集合样本，选择相似度满足预设条件的K个历史时段作为该集合样本的目标历史时段；并获取各目标历史时段对应的实测平均径流量，并基于各目标历史时段对应的实测平均径流量得到该集合样本的第一预报径流量；其中K大于等于1；最后基于各集合样本的第一预报径流量得到待预报时段的最终预报径流量。充分考虑了径流的连续性，同时对待预报时段的累积降水量进行扰动生成多个集合样本，并对每一个集合样本得到的第一预报径流量进行加权平均处理后，得到待预报时段的最终预报径流量，实现集合预报，在很大程度上降低了由于待预报时段累积降水量预报的不确定性，给径流预报带来的不利影响，有利于提高径流预报的准确性。

附图说明

图1为本发明实施例一的径流预报方法流程示意图；

图2为本发明实施例一的属性变量集选取示意图；

图3为本发明实施例一的径流预报模型构建流程示意图；

图4为本发明实施例一的不同K值下KNN模型对丹江口水库月尺度径流的预报效果示意图；

图5为本发明实施例一的不同集合样本数量下Ensemble-KNN模型对丹江口水库月尺度径流的预报效果示意图；

图6为本发明实施例一的不同集合样本数量下Ensemble-KNN模型对丹江口水库月尺度径流预报NS值标准差示意图；

图7为本发明实施例二的径流预报装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一：

为了解决当前径流预报方案未充分考虑到径流预报连续性问题，割裂了径流作为连续变量而存在的前后相关，造成径流预报具有较大的不确定性，同时由于降水量预报的不确定性，进一步加剧了径流预报的不确定问题。本实施例提供一种径流预报方法，针对以上存在的问题，构建一种基于数据的可递进演算的中长期预报模型，该模型利用KNN(K-Nearest Neighbors，K-最邻近)在数据挖掘中的优势，实现历史相似样本的提取，并将预报过程中产生的径流预报信息重新引入预报模型，结合降水预报实现下一时刻径流的预报，充分考虑了径流的连续性。此外，利用随机扰动算法对待预报时段累积降水量进行扰动，形成多个待测的集合样本驱动模型，实现集合预报，并根据最终实验数据得到在很大程度上降低了降水预报不确定性对径流预报的影响，提高了径流预报的准确性。

请参见图1，图1为本实施例提供的径流预报方法流程示意图，该方法主要包括如下步骤：

S101、获取待预报时段的属性变量集，该属性变量集包含待预报时段累积降水量、待预报时段的上一时段的累积降水量、待预报时段的上一时段的平均径流量、待预报时段的上一时段的累积降水变化量以及待预报时段的上一时段的平均径流变化量。

本实施例中，待预报时段可以仅包含上述5个属性变量。应当说明的是，在本发明的其他实施例中，还可以包括其他属性变量。

待预报时段的累积降水量，可以通过国家气象局发布的预报数据得到，当然也可以基于其他国家或者地区发布的降水预报得到，例如美国国家气象局发布的降水数据、欧洲气象局发布的降水数据等。

本实施例中，针对待预报时段的属性变量，还包括待预报时段的上一时段的累积降水量、待预报时段的上一时段的平均径流量、待预报时段的上一时段的累积降水变化量、以及待预报时段的上一时段的平均径流变化量。

假设时段以月份为单位，假设当前时间为2020年1月31日，待预报时段可以是2020年2月，那么当对2020年2月的某水域进行径流预报时，则需要获取该水域2020年2月的累积降水量、2020年1月的累积降水量、2020年1月的平均径流量、2020年1月的累积降水变化量(即2020年1月的累积降水量与2019年12月的累积降水量的差值)、以及2020年1月的平均径流变化量(即2020年1月的平均径流量与2019年12月的平均径流量的差值)。

应当理解的是，时段还可以以7天、15天、30天、60天为单位等，本实施例对此不做限制。

应当理解的是，获取待预报时段的属性变量集针对的是某具体水域而言的，不同水域对应的属性变量的数值可能不同；同一水域，不同数据来源可能获取到的累积降水量也可能不同。

应当说明的是，本实施例所选取的属性变量并非是任意选择的，而是具有实际物理意义的，下面对此进行详细说明：

现实世界中必然存在某种确定的“产汇流模型”(自然界本身就是一个极其复杂的模型系统)，只是目前其机理尚未被人类完全掌握，或在相当长的一段时间内人类难以有效刻画这种机理，但这种“模型”是客观存在的，在这样的一个模型系统下，必然存在模型输入、模型结构和模型输出三个部分。不同于传统方法，本专利不着力刻画或间接描述产汇流机理，而认为现实世界中已经客观存在这一模型，且与人类构建的数值模型类似，相同的初始状态和驱动条件将导致相同的产出。因此，本实施例根据资料获取的难易程度，以及变量的物理意义，模型输入的初始条件包括前期下垫面条件、前期径流量、前期雨量等，驱动条件主要包括降水等，对初始条件和驱动条件进行简化。在一定时间段内，下垫面条件对产流的影响，主要表现为土壤含水量的多少对产流系数的影响，如土壤含水量较多，则时段内产流系数则较高，反之较少。因此，选取上一个时段的降水量和上一个时段的径流量来代表前期下垫面条件。众所周知，降水和径流为连续过程，具有一定的持续性。因此，选择上一时段降水变化和上一时段径流变化这两个属性变量参与模型计算。可见，选取的用以反映初始条件的主要属性变量包括上一时段累积降水量P_i-1、上一时段平均径流量Q_i-1、上一时段累积降水量变化量P_i-1_Increment、上一时段平均径流量变化量Q_i-1_Increment。用以反映边界条件的属性变量主要是预报时段的累积降水量P_i，如上图2所示。

其中：P_i-1_Increment＝P_i-1-P_i-2；

Q_i-1_Increment＝Q_i-1-Q_i-2；

这种属性变量集的选取具有一定的物理意义：

P_i-1与Q_i-1：上一时段累积降水和径流可直接作为模型的初始条件，另外，他们的相对多少能够间接反映下垫面的初始条件或流域蓄水情况。

P_i-1_Increment与Q_i-1_Increment：上一时段累积降水变化量和上一时段平均径流变化量代表了降水径流序列的连续性信息。

P_i：预测时段的累积降水量代表了模型的边界信息，配合P_i-1与Q_i-1使模型能够向前计算，完成一个连续序列的预测。

在本发明的其他实施例中，针对待预报时段所需获取的累积降水量，可以同时从多个数据源进行获取，例如同时从中国国家气象局、美国国家气象局、日本气象局、欧洲气象局获取待预报水域待预报时段的累积降水量，这四个气象局所发布的累积降水量很有可能是不同的，因为各个国家或地区所采取的预报技术存在差异。针对从这四个来源得到的累积降水量，假设分别是P_i1、P_i2、P_i3、P_i4，可以形成该待预报时段的四个属性变量集，分别为(P_i1,P_i-1,Q_i-1,ΔP_i-1,ΔQ_i-1)、(P_i2,P_i-1,Q_i-1,ΔP_i-1,ΔQ_i-1)、(P_i3,P_i-1,Q_i-1,ΔP_i-1,ΔQ_i-1)、(P_i4,P_i-1,Q_i-1,ΔP_i-1,ΔQ_i-1)，针对该待预报时段的每一个属性变量集，可分别执行如下步骤S102-S107，得到每一个属性变量集对应的“最终预报径流量”，最后再该每一个属性变量集对应的最终预报径流量进行加权平均处理得到，该待预报时段的最终预报径流量。

其中，P_i-1为待预报时段的上一时段的累积降水量，Q_i-1为待预报时段的上一时段的平均径流量，ΔP_i-1为待预报时段的上一时段的累积降水变化量，ΔQ_i-1为待预报时段的上一时段的平均径流变化量。P_i-1、Q_i-1、ΔP_i-1、ΔQ_i-1都是基于实测数据得到的，因此四个属性变量集中的P_i-1、Q_i-1、ΔP_i-1、ΔQ_i-1一般是相同的。

S102、按照预设相对误差范围对待预报时段累积降水量进行随机扰动，生成ens个扰动降水量；其中ens大于等于2。

由于累积降水量的不稳定性，会对径流预报产生较大影响，为此，本实施例提供一种集合预报方式，通过对待预报时段累积降水量进行随机扰动，生成多个扰动降水量，并基于该多个扰动降水量形成多个集合样本，实现集合预报，以降低降水预报的不稳定性给径流预报带来的影响。

其中，预设相对误差范围可以根据实际情况灵活设置，例如设置为50％、40％、30％、20％、10％、5％等，本实施例对此不做限制。例如，当设置为50％时，即对该累积降水量保持在50％误差范围内进行随机扰动即可。

扰动算法可以采用现有任意算法，包括但不限于蒙特卡洛随机扰动算法。

本实施例中，生成扰动降水量个数ens设定为16。

在本发明的其他实施例中，ens也可以设定为15，且待测样本集还包括待预报时段的属性变量集。也即同时对该待预报时段的属性变量集和对降水量进行随机扰动生成的集合样本军作为待测样本进行计算。

S103、基于所述ens个扰动降水量形成ens个集合样本，各所述集合样本包括一所述扰动降水量、所述待预报时段的上一时段的累积降水量、所述待预报时段的上一时段的平均径流量、所述待预报时段的上一时段的累积降水变化量以及所述待预报时段的上一时段的平均径流变化量。

S104、获取历史样本集，该历史样本集包括各历史时段对应的属性变量集，历史时段对应的属性变量集包括当前历史时段累积降水量、上一时段累积降水量、上一时段平均径流量、上一时段累积降水变化量以及上一时段平均径流变化量。

同样以当前时间是2020年1月31日为例，则历史时段可以是2020年1月及以前的时段均可以作为历史时段，以对待预报时段2020年2月及以后的时段进行径流预报。

各历史时段对应的属性变量集是基于实测数据得到的，因此可以将其作为待测样本相似度计算的唯一标准。

S105、针对待测样本集中包含的各集合样本，分别计算其与历史样本集中各历史时段对应的属性变量集之间的相似度。

本实施例中，待测样本集包括生成的ens个集合样本，针对其中的每一个集合样本，将其与历史样本集中各个历史时段对应的变量集进行相似度计算，得到该集合样本与各个时段时段在上述五个属性上的相似度。基于KNN思想，客观世界具有规律性和重现性，在相似的条件下往往产生相似的结果。因此当集合样本与某一个或几个历史时段在上述五个属性上越相似，说明该集合样本与该历史时段在径流量上越相似。KNN算法直接基于历史样本获取预测信息的特点，使其避开了建立固定的预测模型或回归方程的过程，从而避免了模型结构误差和参数误差，使其在某种情况下具有较好的预报效果。但是由于KNN算法本身对数据比较敏感，因此当获取的待预报时段累积降水量具有较大不确定性时，会导致KNN算法的不稳定性，故当前通过KNN结合降水预报来开展未来中长期径流预报的案例还较少。本实施例通过对不稳定的降水预报进行随机扰动处理，生成多个集合样本，可以很好地利用KNN算法模型结构简单、不存在模型结构误差以及参数误差的问题，同时解决了KNN对数据敏感性的问题，最终使得径流预报准确性较高，便于推广使用，具有较高的实际使用价值。

S106、针对每一个集合样本，选择相似度满足预设条件的K个历史时段作为集合样本的目标历史时段；并获取各目标历史时段对应的实测平均径流量，并基于各目标历史时段对应的实测平均径流量得到该集合样本的第一预报径流量；其中K大于等于1。

假设当前存在16个集合样本，历史样本集包括该待预报月份前100年的每一个月对应的属性变量集，也即包括1200个月的历史样本。

针对第一个集合样本，计算其与这1200个历史样本的相似度，选择相似度最大的7(也即K设定为7)个历史样本作为该第一个集合样本的目标历史时段。应当理解，每一个历史月份都会对应有实测的径流量数据，这些数据可以从水文历史文献中获取得到。将这相似度最大的7个历史月份对应的实测平均径流量进行算数平均处理，得到该第一个集合样本的第一预报径流量。

同理，针对第N(1≤N≤16)个集合样本，可以得到其对应的第一预报径流量。

当完成对这16个集合样本的第一预报径流量的计算后，对各集合样本的第一预报径流量进行加权平均处理，得到该待预报时段的最终预报径流量(也即步骤S107)。

其中每一个集合样本对应的权重可以根据实际情况灵活设置，可以设置为不同，也可以全部设置为相同，例如这里这对这16个集合样本可以全部设置为1/16。

S107、基于各集合样本的第一预报径流量得到待预报时段的最终预报径流量。

为了更好地理解本发明，下面将结合具体的示例继续说明：

本实施例以南水北调中线工程丹江口水库月尺度入库预报为案例作实施例说明，丹江口水库为汉江上游出口。

请参见图3，包括如下步骤：

S301、数据准备。

入库(即实测平均径流量)数据：丹江口水库入库数据来自于水文年鉴，包括1970年1月至2014年12月各月的平均径流值。

面雨量(即累积降水量)数据：汉江上游的雨量站点数据来源于国家气象局共享数据，包括1970年1月至2014年12月各月的累积降水量。汉江上游雨量站密度较大，空间分布较为均匀，因此面雨量的计算采用算数平均的方法，如式(1)所示。

其中：P_j为汉江上游j时段的累积面雨量，单位mm，p_ij为第i个雨量站第j时段的累积面雨量，单位mm，n为雨量站的数量。

S302、构建KNN模型，并选定属性变量集。

虽然构建反映气象水文规律的数学模型或建立多因子回归预报方程是当前中长期预报的主流方法，但由于径流产生机理极其复杂，具有较强的混沌性和非线性特征，因此事实上很难用一个数学模型或一组回归方程对未来较长时间的径流演变过程进行精确描述和模拟。KNN算法是由Hart和Cover于上世纪60年代末首次提出，是一种经典的模式识别方法，也是目前应用最广泛的十大机器学习算法之一。它的核心思想是：客观世界具有规律性和重现性，在相似的条件下往往产生相似的结果。KNN算法直接基于历史样本获取预测信息的特点，使其避开了建立固定的预测模型或回归方程的过程，从而避免了模型结构误差和参数误差，使其在某种情况下具有较好的预报效果。

利用KNN方法开展中长期径流预报的具体步骤如下：假设有一组历史样本集合定义为H。其中，H由n个样本组成，而每个样本由m个属性变量X_ij以及1个目标量T_i构成。其数学表达式如式(2)：

属性变量X_ij分别代表待预报时段累积降水量P_i、待预报时段的上一时段累积降水量P_i-1、待预报时段的上一时段平均径流量Q_i-1、待预报时段的上一时段累积降水变化量P_i-1_Increment、待预报时段的上一时段平均径流变化量Q_i-1_Increment这5个要素组成的5纬向量X_i＝{P_i，P_i-1，Q_i-1，P_i-1_Increment，Q_i-1_Increment}。

利用KNN算法进行月尺度的长期径流预测可以描述为如下数学模型：设待预报月份的5纬向量X_i＝{P_i，P_i-1，Q_i-1，P_i-1_Increment，Q_i-1_Increment}为预测样本；开展月尺度径流预报时，首先在历史样本集H中利用欧式距离法(公式(3))找到与预测样本X_i最相似的K个近邻(K通常为奇数)；

然后找出这K个目标量集合T＝{t₁，t₂，…，t_k}；最后按照式(4)求得最终预报值：

其中，w_k为每个历史样本目标量的权重一般情况取：w_k＝1/K。

S303、确定KNN模型中的重要参数K值。

K值是KNN算法中的重要参数，与具体流域的资料特征相关。针对汉江上游的月尺度预报，采用试算法，将K从1到140逐一做试算。试算过程选取的资料为1971年1月至2014年12月的月尺度降水和径流资料(因每个时段的预报均需要前两个时段的降水和径流信息，同时为了便于比较，选择从1971年3月开始)，模拟精度的评价标准采用纳什效率系数(NS)，计算方法如式(5)：

其中：Q_o指观测值，Q_m指模拟值，t表示某个月，表示观测值的平均值，NS为纳什效率系数，是一种评价两列数接近程度的指标。NS∈(-∞，1]，NS越接近1，表示模拟的效果越好，模型或方法的可信度越高；NS越接近0，表示模拟结果接近观测值的平均值水平，即总体结果可信，但过程模拟误差大；NS远远小于0，则代表方法或模型是不可信的。

具体试算过程采用交叉验证的方式，对于某个确定的K值，逐一在1971年到2014年中试算，当计算某一年各月份预报结果时，其他年份的数据则组成历史样本库，从而获取固定K值下KNN模型在每一年月尺度径流的预报效果(利用纳什效率系数评价)，对某一K值下1971年到2014年的44个评价结果做算数平均，得到该K值的平均表现情况，计算公式如式(6)，结果如表1(仅列出K取值为1-40的情况)以及图4所示。

其中：NS_k是K值取值为k时，1971年至2014年各年模型取得的纳什效率系数的平均值；k为KNN算法中参数K的取值；i为模拟的年份；为i年K值为k时的模拟纳什效率系数值。

表1不同K值下KNN模型对丹江口水库月尺度径流的预报效果

由图4可知，K值的选取与模型的预报效果呈现一定的相关关系，当K值取1时，模型的预报效果较差，平均NS值仅为0.56；当K值增加时(从1增加到7)，NS值呈现了迅速的上升趋势，代表模型的预报效果越来越好；当K值从7逐步增加时，模型的预报效果呈现缓慢的下降趋势。这主要是因为，当K值取值较小时，模型的预报效果容易受到个别历史点的随机干扰，造成预报不确定性较大，从而拉低NS值；当K值逐步增加，各别点的随机干扰逐步降低，模型的预报效果趋于稳定；当K值取为7时，模型的平均表现效果最佳；当K值继续增加，代表相似判定的门槛被降低，由此将会逐步把一些并不相似的样本点引入到模型计算中，从而对模型结果产生一个持续的干扰作用，导致模型预报效果持续下降。综上所述，针对汉江上游丹江口水库入库的月尺度预报模型的K值设置为7。

S304、构建Ensemble-KNN模型。

降水预报的不确定性是影响径流模拟和预报的主要因素，其不确定性主要表现为降水总量的误差、面雨量对降水空间分布的概化以及月尺度累积降水量对降水时程分布的概化。对于短期预测而言，可以通过引入分布式水文模型的方式来改善降水时空分布不均匀带来的问题。但在中长期预测中，受降水预测水平的限制，通过提高模型的精细化程度对于预报精度而言意义较小。为了充分考虑降水预报不确定性对径流预测带来的影响，并在一定程度上对预报误差进行相应的控制，本专利在KNN模型的基础上引入集合预报技术实现月尺度的径流预报。因此，本专利的集合预报策略主要针对降水序列开展，具体手段是采用随机扰动的方式形成若干降水序列，并利用大量的降水序列驱动模型生成相应的径流预报结果，最后采用算术加权平均的方式获取最终的预报结论。具体方法如式(7)所示：

其中：Q为最终径流预报结果，单位：m³/s；Q_k为第k个集合样本下得到的第一预报径流量，单位：m³/s；W_k为Q_k的权重，P为月累积降水序列，P_i为第i个月份的降水量(也即可以通过对多个待预报时段进行计算，例如2020年2月至2020年12月)，单位：mm；dis为扰动量，代表对累积降水量的扰动强度，dis∈[0，1]；P^dis(k)为在扰动强度为dis下生成的第k个降水集合样本，为具体到某个月的值，单位：mm；KNN(*)代表用以开展径流预报的KNN模型。

S305、确定集合样本数量ens。

假设降水预报的相对误差在50％以内，利用蒙特卡洛方法生成随机扰动变量，叠加在实测降水信息上，形成相对误差在50％以内的降水预报序列P^0.5。基于Ensemble-KNN模型，在P^0.5降水序列的驱动下，将集合样本的数量作为变量，计算不同年份(例如1971年至2014年)不同集合样本数量下的模型模拟效果，集合样本数量取值从1到200。利用纳什效率系数分别对每一年特定集合样本数量下的预报效果进行评价，然后利用公式(8)统计不同集合样本数量下的平均纳什效率系数NS_ens，不同集合样本在多年月尺度上预报效果如图5所示。

其中：NS_ens是集合样本数量为ens时，1971年至2014年各年模型取得的纳什效率系数的平均值；ens为集合样本的数量；i为模拟的年份；为i年采用ens个集合，模型取得的纳什效率系数。

由图4可知，当集合样本规模为1，即仅采用之前构建好的KNN模型(K值取为7)，在相对预报误差为50％以内的降水数据P^0.5直接驱动下得到的结果，其NS系数较低，平均值不足0.45，这主要是因为较大的降水误差导致KNN模型无法准确的找到历史相似样本。随着集合样本数量的增加，NS系数呈现近乎直线的上升趋势，当集合样本数量为16时，其NS系数取得最大值，为0.726。当集合样本数量继续增加时，NS的值维持在0.7左右。为了说明某一集合样本规模在预报中的表现的稳定性，计算每个集合规模下各年(1971年至2014年)NS值序列的标准差，计算公式如式(9)所示，并依据集合样本数量对纳什效率系数进行统计(集合样本数量取1到200)，绘制图6。

其中：δ_ens是集合数量为ens时，1971年至2014年各年模拟结果的NS值组成的数字序列的标准差；NS_ens为集合数量为ens时，1971年至2014年各年模型取得的纳什效率系数的平均值；ens为集合样本的数量；i为模拟的年份；为i年采用ens个集合，模型取得的纳什效率系数。

由图6可知，当集合样本的数量为1时，其预报的标准差最大，达到了接近0.5的水平，代表这个集合样本数量下的预报模型的稳定性较差。随着集合样本数量的增加，标准差呈现直线下降的趋势，代表其稳定性得到了明显的改善。当集合样本数量为16时，其稳定性最好，标准差仅为0.121。当集合样本数量继续增加时，标准差维持在0.15附近。可见，当集合样本数量为16时，预报的平均效果最好，且稳定性最高。下表2中分别列举了集合样本数量为16时Ensemble-KNN在降水数据P^0.5驱动下各年月尺度入库预报NS系数、预报降水数据P驱动KNN各年月尺度入库预报NS系数、一个扰动降水P^0.5驱动KNN各年月尺度入库预报NS系数。

表2不同年份不同方法在不同降水数据驱动下对丹江口水库月尺度径流的预报效果

1971年至2014年的月累积降水序列被随机扰动后，其数据误差增大，导致其驱动KNN模型得到的非集合预报NS系数普遍低于实测降水驱动KNN模型得到的NS系数，甚至有8年的NS系数小于零。然而，采用本实施例所述的Ensemble-KNN模型后，即便对降水数据叠加了相对误差达50％的随机扰动，其总体预报效果仍然与真实值驱动KNN模型得到的效果相当，且仅有3年的NS系数小于0。可见，集合预报对于控制降水的随机误差，具有较好的效果。

实施例二：

本实施例在实施例一的基础上，提供一种径流预报装置，用于实现上述实施例一所述的径流预报方法的步骤，请参见图7，该径流预报装置70包括第一获取模块71、生成模块72、第二获取模块73、计算模块74、第一处理模块75以及第二处理模块76，其中：

第一获取模块71用于获取待预报时段的属性变量集，该属性变量集包含待预报时段累积降水量、待预报时段的上一时段的累积降水量、待预报时段的上一时段的平均径流量、待预报时段的上一时段的累积降水变化量以及待预报时段的上一时段的平均径流变化量。

生成模块72用于按照预设相对误差范围对待预报时段累积降水量进行随机扰动，生成ens个扰动降水量，并基于ens个扰动降水量形成ens个集合样本，各集合样本包括一扰动降水量、待预报时段的上一时段的累积降水量、待预报时段的上一时段的平均径流量、待预报时段的上一时段的累积降水变化量以及待预报时段的上一时段的平均径流变化量；ens大于等于2。

第二获取模块73用于获取历史样本集，该历史样本集包括各历史时段对应的属性变量集，历史时段对应的属性变量集包括当前历史时段累积降水量、上一时段累积降水量、上一时段平均径流量、上一时段累积降水变化量以及上一时段平均径流变化量。

计算模块74用于针对待测样本集中包含的各集合样本，分别计算其与历史样本集中各历史时段对应的属性变量集之间的相似度。

第一处理模块75用于针对每一个集合样本，选择相似度满足预设条件的K个历史时段作为该集合样本的目标历史时段；并获取各目标历史时段对应的实测平均径流量，并基于各目标历史时段对应的实测平均径流量得到该集合样本的第一预报径流量；K大于等于1。

可选的，ens设定为16，且K设定为7。

其中，第一处理模块75用于针对集合样本，按照与各历史时段对应的属性变量集之间的相似度大小进行排序，选择相似度较大的K个历史时段作为该集合样本的目标历史时段。

可选的，第一处理模块75用于针对集合样本，对各目标历史时段对应的实测平均径流量进行算数平均处理，得到该集合样本的第一预报径流量；

第二处理模块76用于基于各集合样本的第一预报径流量得到待预报时段的最终预报径流量。

可选的，第二处理模块76用于对各集合样本的第一预报径流量进行加权平均处理，得到待预报时段的最终预报径流量。

具体执行径流预报方法的过程请参见实施例一中的描述，在此不再赘述。

显然，本领域的技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种径流预报方法，其特征在于，所述径流预报方法包括：

2.如权利要求1所述的径流预报方法，其特征在于，所述ens设定为16；

3.如权利要求1所述的径流预报方法，其特征在于，所述选择所述相似度满足预设条件的K个历史时段作为所述集合样本的目标历史时段包括：

4.如权利要求1-3任一项所述的径流预报方法，其特征在于，所述K设定为7。

5.如权利要求1-3任一项所述的径流预报方法，其特征在于，所述基于各所述目标历史时段对应的实测平均径流量得到所述集合样本的第一预报径流量包括：

6.如权利要求1-3任一项所述的径流预报方法，其特征在于，所述基于各所述集合样本的第一预报径流量得到所述待预报时段的最终预报径流量包括：

7.一种径流预报装置，其特征在于，所述径流预报装置包括：

8.如权利要求7所述的径流预报装置，其特征在于，所述第一处理模块用于针对所述集合样本，按照与各所述历史时段对应的属性变量集之间的相似度大小进行排序，选择相似度较大的K个历史时段作为所述集合样本的目标历史时段。

9.如权利要求7所述的径流预报装置，其特征在于，所述ens设定为16，且所述K设定为7。

10.如权利要求7-9任一项所述的径流预报装置，其特征在于，所述第一处理模块用于针对所述集合样本，对各所述目标历史时段对应的实测平均径流量进行算数平均处理，得到所述集合样本的第一预报径流量；所述第二处理模块用于对各所述集合样本的第一预报径流量进行加权平均处理，得到所述待预报时段的最终预报径流量。