CN113705931B

CN113705931B - 一种利用k最邻近法预测径流要素的方法

Info

Publication number: CN113705931B
Application number: CN202111095225.6A
Authority: CN
Inventors: 吴碧琼; 曹辉; 汤正阳; 姚华明; 张海荣; 张东杰; 王骁鹏
Original assignee: China Yangtze Power Co Ltd
Current assignee: China Yangtze Power Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2023-04-18
Anticipated expiration: 2041-09-17
Also published as: CN113705931A

Abstract

本发明公开一种利用K最邻近法预测径流的方法，包括步骤：建立数据集，数据集预处理，根据数据集建立降雨径流预测模型，并利用该预测模型进行径流要素预测和查找历史相似；本发明利用非线性相关性提出一组用于预测径流要素的降雨因子，提出了一种利用K最邻近法预测径流要素的方法，包括洪峰、洪量、三天洪量、两日洪量、降雨径流系数，并得出历史相似过程；本发明所述方法不受流域产汇流时间限制，并在汛期复杂降雨情况下，可以通过较简单操作获取径流信息，具有预见期不受限制、工作量小、参数少、精度高、可靠性高等优点，大大提高了水文预报的效率。

Description

一种利用K最邻近法预测径流要素的方法

技术领域

本发明涉及水文预报领域，具体涉及一种利用K最邻近法预测径流要素的方法。

背景技术

径流中的洪峰、洪量、三天洪量、两日洪量、降雨径流系数要素预报是水文预报中的重要环节，可用于生产实际，在防汛抗旱、水资源开发利用、水库调度都有广泛的应用，尤其洪峰为防汛抢险提供了依据，洪量及降雨径流系数是指导水库调度的决策依据。

大量关于水文预报的研究已经开展，使得我们对径流要素与其影响因素的关系有了初步了解。尽管如此，目前水文预报大多依赖于传统预报模，并且注重“峰”值预报，弱化洪“量”预报，而水量预报在水资源开发利用、大型水库调度中更占主体的指导作用。另外，传统预报模型参数较多，需要耗费大量的时间进行参数率定，并且对历史降雨径流资料要求较高，不能充分利用每一场降雨径流过程资料。

为此，迫切需要从数据挖掘角度出发提出简洁高效的新方法，深入、系统地挖掘已有的降雨径流数据，用较少的参数构建模型，实现径流主要要素的预测；并考虑水文预报不确定性，找出历史相似过程，给出预测值在历史上出现的情况，以供决策参考。

发明内容

本发明目的在于克服上述不足，在利用非线性相关性提出一组用于预测径流要素的降雨因子基础上，提出了一种利用K最邻近法预测径流要素的方法，不仅能准确预测出径流主要要素，而且能快速查找相似降雨径流过程，准确度较高，能够广泛应用于生产实际，尤其是大型水库调度。

本发明为解决上述技术问题，所采用的技术方案是：一种利用K最邻近法预测径流要素的方法，它包括以下步骤：

S1、收集已知流域的场次降雨径流数据；

S2、基于非线性相关，提出一组用于预测径流要素的降雨因子，建立数据集；

S3、对所有数据进行归一化处理，然后将处理后的数据集划分为训练集和测试集两部分；

S4、确定K最邻近回归算法，在整个训练集上建立降雨径流的初始预测模型，并测试该预测模型在测试集上的可靠性，直至预测精度满足要求，得到对应的预测模型；

S5、利用预测模型对未知径流要素预测；

S6、利用降雨因子，快速查找数据集中空间距离最邻近的历史降雨径流过程，作为相似过程，并统计径流要素的最大值、最小值、中位数、均值。

优选地，所述步骤S1包括以下步骤：

S11、选取多场已知降雨径流场次过程，包含大、中、小场次过程；

S12、根据上述过程，提取每一场降雨径流过程的5个径流要素：洪峰、洪量、三天洪量、两日洪量、降雨径流系数。

优选地，所述步骤S2包括以下步骤：

S21、计算降雨因子：提出对径流造成较大影响的四大类降雨因素，降雨量、降雨历时、降雨强度、前期影响雨量；将每一类因素分为较细的因子，降雨量包括累积降雨量、一日降雨量、两日降雨量、多日降雨量；降雨历时包括降雨天数、降雨时数；降雨强度包括：最大日降雨、最大小时降雨、最大三小时降雨；前期影响雨量包括：前10天累积降雨量、前5天累积降雨量、前3天累计降雨量；对每一场次降雨径流过程计算上述12个降雨因子；

S22、筛选降雨因子：计算四类因素中各个因子与径流要素的相关系数，每类因素中取与洪峰、洪量、三天洪量、两日洪量、降雨径流系数平均相关系数排名第一的因子作为计算因子，最终确定为累积降雨量、降雨天数、最大日降雨和前10天累积降雨量4个降雨因子；相关系数采用Spearman秩相关系数，公式如下：

式中，p_s为两组相同个数X,Y数据的Spearman秩相关系数,d_i为两组数据秩次之差，即x_i,y_i按大小排序的序号之差，n为数据的个数；

S23、将降雨因子作为模型输入，径流要素作为模型输出，整理成相应的数据集。

优选地，所述步骤S3中，数据集划分的方法为随机划分或Kennard-Stone划分。

优选地，所述步骤S3中，所述训练集与测试集的比例通过收敛性计算得到。

优选地，所述步骤S4包括步骤：

S41、选择K最邻近回归算法，具体为：寻找目标样本特征空间中距离最近的K个样本，并将K个样本的目标属性通过平均或者加权赋给该样本，以得到目标样本的目标值；

公式如下：

Y＝w₁X₁+w₂X₂……+w_KX_K

式中，Y为目标值，X_i为距离第i个的样本与目标值对应的属性值，w_i为第i个样本权重参数，i取值为1,2……K；

其中，空间距离度量公式为：

假设样本集有n个，X＝{X⁽¹⁾,X⁽²⁾,……，X⁽ⁿ⁾}，其中

即每个样本有m个特征维度，则任意两个样本之间的空间距离L定义为：

p为任意正整数，当p＝1时称为曼哈顿距离，p＝2时称为欧式距离；

w_i权重参数可采用平均或加权，采用平均时w＝1/K；采用加权时，提出一种反距离加权方法，公式如下：

w_i＝(L^max/L_i)/(L^max/L₁+L^max/L₂……+L^max/L_K)

式中，w_i为第i个样本的权重，L^max为K个样本中与目标样本的空间距离最大值，L_i为第i个样本与目标样本的空间距离，i取值为1,2……K；

S42、利用训练集初步确定K最邻近法算法的超参数：距离度量参数p、距离最邻近的个数K值、w赋值方式；

S43、用初步确定超参数后的K最邻近算法在整个测试集上建立径流要素的初始预测模型，并在测试集上测试该预测模型的可靠性；若不满足，则继续调整利用训练集训练模型参数，直至测试集模型精度满足要求，即得到对应的预测模型；

S44、可靠性的评价指标包括可决系数R²或Nash-Sutcliffe效率系数(NSE)，其中，可决系数R²计算公式如下：

Nash-Sutcliffe效率系数(NSE)计算公式如下：

式中，y_i是观测值、

是观测值的均值、

为模型预测值、

为模型预测值。

优选地，所述步骤S5包括步骤：

S51、从未来场次降雨中获取累积降雨量、降雨天数、最大日降雨、前10天累积降雨量，作为预测模型输入；

S52、预测模型即为步骤S4中满足精度要求的预测模型；

S53、进行计算后，模型输出即为预测目标径流要素：洪峰、洪量、三天洪量、两日洪量、降雨径流系数。

优选地，所述步骤S6中查找的历史相似降雨径流过程个数，可以进行自由设定。

本发明的有益效果：本发明首先利用非线性相关性提出一组用于预测径流要素的降雨因子，并利用K最邻近法预测未知降雨径流要素，与传统水文预报模型相比，节省了大量的参数率定工作，并给出历史相似过程进行参考，具有工作量小、参数少、精度高、可靠性高、信息多等优点，可极大提高文预报的效率，而且普适性强，可应用于防汛、水资源利用和大型水库调度。

附图说明

图1为一种利用K最邻近法预测径流要素的方法的方法流程图；

图2为本发明具体实施方式的所选流域示意图；

图3为本发明实施例中K最邻近法模型在训练集和测试集上的洪峰预测情况；

图4为本发明实施例中K最邻近法模型在训练集和测试集上的洪量预测情况；

图5为本发明实施例中K最邻近法模型在训练集和测试集上的三天洪量预测情况；

图6为本发明实施例中K最邻近法模型在训练集和测试集上的两日洪量预测情况；

图7为本发明实施例中K最邻近法模型在训练集和测试集上的降雨径流系数预测情况。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细描述。

如图1所示，一种利用K最邻近法预测径流要素的方法，它包括以下步骤：

S1、收集已知流域的场次降雨径流数据；

S5、利用预测模型对未知径流要素预测；

优选地，所述步骤S1包括以下步骤：

优选地，所述步骤S2包括以下步骤：

优选地，所述步骤S4包括步骤：

公式如下：

Y＝w₁X₁+w₂X₂……+w_KX_K

其中，空间距离度量公式为：

假设样本集有n个，X＝{X⁽¹⁾,X⁽²⁾,……，X⁽ⁿ⁾}，其中

w_i＝(L^max/L_i)/(L^max/L₁+L^max/L₂……+L^max/L_K)

Nash-Sutcliffe效率系数(NSE)计算公式如下：

式中，y_i是观测值、

是观测值的均值、

为模型预测值、

为模型预测值。

优选地，所述步骤S5包括步骤：

S52、预测模型即为步骤S4中满足精度要求的预测模型；

本次实施以长江三峡区间为例，说明该方法的应用。如图2所示，三峡区间指长江干流寸滩水文站和支流武隆水文站到三峡大坝之间的流域，集水面积约6万km²。本实施例利用K最邻近法预测径流要素可以按以下步骤进行实施：

步骤一：建立数据集

收集研究范围三峡区间2014年至2020年，雨量站日降雨量，寸滩、武隆水文站小时流量，三峡水库小时入库流量数据。根据收集的日降雨量计算三峡区间面降雨量，三个站点流量计算三峡区间时段流量。分割每一场次降雨径流过程，计算每一场过程的累积降雨量、降雨天数、最大日降雨、前10天累积降雨量，以及对应的洪峰、洪量、三天洪量、两日洪量、降雨径流系数，形成本实施方式的数据集。在实际应用中，降雨量和流量的时间尺度可以根据具体收集资料进行改变，但至少是日尺度及更短的时间尺度。

步骤二：数据集预处理

将数据根据其最大值与最小值进行归一化处理，使得所有数据处于(0，1)范围中。本实例使用随机划分方法将整个数据集划分为训练集与测试集，二者比例通过收敛性测试确定。本实例中，训练集占总数据集的80％，测试集占总数据集的20％。

步骤三：建立径流要素预测模型

本实例利用K最邻近回归法作为径流要素的预测方法，采用可决系数R²作为判断预测精度的标准，其计算公式如下：

其中，y_i是观测值、

是观测值的均值、

为模型预测值。

利用网格搜索确定K最邻近法回归模型的超参数，其中距离度量确定为欧式距离，K值确定为3，权重确定为反距离加权。使用整个训练集训练最优的K最邻近法回归模型，并检验该模型在该训练集上的表现，其结果如图3至图7所示。经计算，在训练集上使用该K最邻近法回归模型预测的洪峰、洪量、三天洪量、两日洪量、降雨径流系数与观测值之间的可决系数分别高达0.88、0.88、0.9、0.87、0.85，说明该模型在训练集上可行。在实际应用中，交叉验证的折数、超参数优化的方法以及判别标准可以根据数据集的改变进行调整。

步骤四：径流要素预测

使用训练后的K最邻近法回归模型对测试集中的洪峰、洪量、三天洪量、两日洪量、降雨径流系数预测进行预测。经计算，在测试集上使用该方法预测的洪峰、洪量、三天洪量、两日洪量、降雨径流系数预测与观测值之间的可决系数分别高达0.84、0.91、0.9、0.84、0.89，其预测结果如图3至图7所示。可见，预测值与观测值十分接近，说明本方法在测试集上也是可行的，可用于未知降雨径流预测。

步骤五：查找相似过程

以2021年7月6-7日的降雨径流过程为例，利用降雨影响因素：累积降雨量、降雨天数、最大日降雨、前10天累积降雨量(52mm、2天、30mm、84mm)快速查找3个空间距离最邻近的历史降雨径流过程，可作为相似过程，如下表1所示。

表1

从查找结果可以得出洪峰、洪量、三天洪量、两日洪量、降雨径流系数要素的最大值、最小值、中位数、均值，如下表2所示。

表2

本发明在收集已知降雨径流要素及其影响因素的基础上，建立数据集，然后对数据集中的所有数据进行归一化处理，处理后的数据集划分为训练集和测试集两部分，再采用K最邻近法算法在整个训练集上建立径流的初始预测模型，并测试该预测模型在测试集上的可靠性，直至预测精度满足要求，得到对应的目标预测模型，并对未知径流在数据集的基础上查找历史相似过程。该目标预测模型可以对未知降雨径流进行准确的主要要素预测，并提供历史相似过程，进行不确定性参考。与传统的水文预报模型相比，采用所述目标预测模型不仅能快速查找相似降雨径流过程，并且能对径流主要要素进行预测，工作量小、效率高、精度高、可靠性高，而且普适性强，可用于防汛、水资源利用和大型水库调度。

上述的实施例仅为本发明的优选技术方案，而不应视为对于本发明的限制，本申请中的实施例及实施例中的特征在不冲突的情况下，可以相互任意组合。本发明的保护范围应以权利要求记载的技术方案，包括权利要求记载的技术方案中技术特征的等同替换方案为保护范围。即在此范围内的等同替换改进，也在本发明的保护范围之内。

Claims

1.一种利用K最邻近法预测径流要素的方法，其特征在于：它包括以下步骤：

S1、收集已知流域的场次降雨径流数据；

S5、利用预测模型对未知径流要素预测；

S6、利用降雨因子，快速查找数据集中空间距离最邻近的历史降雨径流过程，作为相似过程，并统计径流要素的最大值、最小值、中位数、均值；

所述步骤S1包括以下步骤：

S12、根据上述过程，提取每一场降雨径流过程的5个径流要素：洪峰、洪量、三天洪量、两日洪量、降雨径流系数；

所述步骤S2包括以下步骤：

S23、将降雨因子作为模型输入，径流要素作为模型输出，整理成相应的数据集；

所述步骤S4包括步骤：

公式如下：

Y＝w₁X₁+w₂X₂……+w_KX_K

其中，空间距离度量公式为：

假设样本集有n个，X＝{X⁽¹⁾,X⁽²⁾,……，X⁽ⁿ⁾}，其中即每个样本有m个特征维度，则任意两个样本之间的空间距离L定义为：

w_i＝(L^maxL_i)(L_maxL₁+L_maxL₂……+L_maxL_K)

Nash-Sutcliffe效率系数(NSE)计算公式如下：

式中，y_i是观测值、是观测值的均值、为模型预测值、为模型预测值。

2.根据权利要求1所述的一种利用K最邻近法预测径流要素的方法，其特征在于：所述步骤S3中，数据集划分的方法为随机划分或Kennard-Stone划分。

3.根据权利要求1所述的一种利用K最邻近法预测径流要素的方法，其特征在于：所述步骤S3中，所述训练集与测试集的比例通过收敛性计算得到。

4.根据权利要求1所述的一种利用K最邻近法预测径流要素的方法，其特征在于：所述步骤S5包括步骤：

S52、预测模型即为步骤S4中满足精度要求的预测模型；

5.根据权利要求1所述的一种利用K最邻近法预测径流要素的方法，其特征在于：所述步骤S6中查找的历史相似降雨径流过程个数，进行自由设定。