CN115423146A

CN115423146A - 一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法

Info

Publication number: CN115423146A
Application number: CN202210890499.2A
Authority: CN
Inventors: 高英; 贺亚山; 朱喜; 左天才; 闻昕; 徐伟; 曾体健; 苏华英; 王安东; 冯欢; 王俊莉; 于洁; 雷芳; 周金江; 杜泽新; 简福贵; 胡应权; 先龙忠; 张玉吉; 王珊
Original assignee: Hohai University HHU; Guizhou Wujiang Hydropower Development Co Ltd
Current assignee: Hohai University HHU; Guizhou Wujiang Hydropower Development Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-12-02

Abstract

本发明公开了一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法，包括：对预报断面所在流域的控制性雨量站和水文站的历史实测降雨、径流信息进行异常数据诊断与处理；对处理后的数据进行时空降维，构建历史样本库，识别不同滞时下的降雨与径流、径流与径流的相关关系，初步确定特征矢量维数，筛选并构建特征预报因子集；将不同时期和不同量级的径流分为不同的预报情景，建立适用于不同水雨情的自适应预报模式；构建耦合物理驱动和数据驱动的短期径流预报模型；滚动接入预见期内的降雨预报信息至短期径流预报模型，根据自适应预报模式，更新降雨径流预报信息，实现短期径流滚动预报。本发明参数率定简单，预报精度高。

Description

一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法

技术领域

本发明涉及径流预报技术，特别是涉及一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法。

背景技术

径流预报是水资源调度、水资源保障、水利防汛和抗旱、电力生产等流域管理和调度决策的关键依据，也是水文水资源领域的一个重要组成部分，是建立在分析客观径流产汇流成因，挖掘数据背后普遍规律的基础上，预报未来径流最可能过程线的一项重要技术。径流预报方法很多，可以粗略的分为物理驱动模型与数据驱动模型。

物理驱动模型是以径流物理成因为基础，对径流过程和河道演进过程进行模拟，从而进行径流预报的数学模型。根据不同的流域空间离散程度，可以分为集总式水文模型和分布式水文模型。第一个概念性水文模型Stanford模型由Linsley和Crawford提出，模型耦合了下渗理论、单位线和回归理论，随后Sacrament模型、TANK模型、SMAR模型、SWAT模型相继产生，都标志着水文模型的迅速发展。为了解决不同流域水文模型的适应性不同，徐宗学和罗睿基于集总式水箱模型计算基本原理，提出了基于网格的分布式水箱模型PDTank模型，结合遥感和地理信息系统，在黄河中游三川河流域取得良好的应用效果。

数据驱动模型不考虑各种影响因子之间的相互物理关系和径流产汇流成因，建立以输入和输出数据之间的最优数学函数关系为目标的黑箱子方法。由于数据驱动径流预报模型相对简单，水文数据的获取能力和计算机处理技术的提高，以及计算机技术的发展与进步，数据驱动模型在径流预报中得到了越来越广泛的应用。例如Mahabir等采用模糊逻辑模型进行长期流量预报，取得了良好的成果；邓聚龙教授创立灰色系统理论被迅速引入径流预报领域，并取得了一定的研究成果；屈亚玲等基于改进的Elman神经网络对凤滩水电站的入库径流进行预报，发现Elman神经网络对随机、不确定非线性系统比BP神经网络和多元回归模型具有更好的拟合性。

但是，物理驱动模型通过描述水文循环的通用子过程和物理机制而构建，在资料有限时发掘流域产汇流普遍规律较困难，并且模型计算过程复杂，参数率定困难，容易忽略变量的空间可变性以及降雨径流过程的随机特征。而常规的数据驱动模型不考虑各种影响因子之间的相互物理关系和径流产汇流成因，建立以输入和输出数据之间的最优数学函数关系为目标的黑箱子方法，其预报结果的可解释性较差。

发明内容

发明目的：本发明的目的是提供一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法，接入降雨预报信息，以日为时段单位预报未来7天的水库逐日入库情况，并实现自动切换适用于不同时期不同量级的预报模式的功能。

技术方案：本发明的一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法，包括以下步骤：

S1、收集预报断面所在流域的上游控制性雨量站的历史实测降雨数据、上游水文站以及预报断面的历史实测径流数据，并对收集的降雨径流数据中的异常数据进行诊断与处理，得到完整的历史降雨径流基本数据；

S2、对完整的历史降雨径流基本数据进行时空降维，将时间降维后的日尺度径流数据、以及时空降维后的日尺度面雨量数据构建历史样本库，采用相关分析法识别不同滞时下的历时样本库中的降雨与径流、径流与径流的相关关系，以此确定上游雨量站面雨量、上游水文站径流以及预报断面径流对预报断面径流的响应时间，从而初步确定降雨、径流特征矢量的维数，以此构建以上游雨量站面雨量、上游水文站径流和预报断面径流相应维数的降雨径流数据组成的特征预报因子集；

S3、针对预报断面所在流域不同时期不同量级的产汇流成因特性差异，将不同时期和不同量级的径流分为不同的预报情景，建立适用于不同水雨情的自适应预报模式；

S4、提出耦合多因子最近邻抽样回归模型和支持向量机模型优势的平均组合预测法，根据步骤S2构建的基于历史样本库的特征预报因子集和由待预报的前期降雨径流构成的当前特征预报因子集，构建耦合物理驱动和数据驱动的短期径流预报模型；

S5、滚动接入预见期内的降雨预报信息，并输入耦合物理驱动和数据驱动的短期径流预报模型，根据适用于不同水雨情的自适应预报模式，更新降雨径流预报信息，实现短期径流滚动预报。

进一步的，步骤S1中对异常数据进行诊断与处理，具体为：

对于数据异常率大于3％或缺失率大于3％的时段，对该时段进行标记并不计入完整的历史降雨径流基本数据；

对于数据异常率小于等于3％或缺失率小于等于3％的时段，采用线性插值方法覆盖原有异常数据或补充缺失数据。

进一步的，步骤S2中对完整的历史降雨径流基本数据进行时空降维的方法为：

在时间尺度上的降维：将完整的历史降雨径流基本数据由小时尺度转化为日尺度的时段，实现时间尺度上的降维；

对时间尺度降维后的降雨数据在空间尺度上降维：将预报断面上游所在流域划分为多个子区域，将雨量站雨量数据转化为子区域的面雨量数据，对多个站点的降雨监测数据进行降维，子区域的面雨量是由各雨量站点的降雨数据通过加权平均计算得到，计算公式为：

其中，P_a是子区域的面雨量；k是该子区域所包含的站点个数；

是该子区域第i个站点的点雨量；

是指

对应的权重。

进一步的，步骤S2中不同滞时下的降雨与径流或径流与径流的相关关系的计算公式为：

其中，ρ_i为不同滞时下的降雨与径流或径流与径流的相关性，y为每日径流量，x为不同滞时影响下的每日降雨或径流量，

为径流平均值，

为不同滞时影响下的降雨或者径流的平均值。

进一步的，步骤S3具体为：

分析历史样本库中降雨径流数据的时空分布特征以及规律，找寻预报断面的径流所在流域产汇流特性，将不同时期不同量级的径流分为不同的预报情景：将不同时期的径流分为汛期有洪水时期、汛期无洪水时期和非汛期，将不同量级的径流分为大、中、小流量；分析不同预报情景的降雨径流规律，确定不同预报情景发生的基本条件，从而根据不同水雨情确定预报情景，并进入预报情景对应的模型方案进行预报，以此建立适用于不同水雨情的自适应预报模式。

进一步的，步骤S4具体为：

S41、构建多因子最近邻抽样回归模型，采用欧式距离法定量表征历史样本库中组成特征预报因子集中的降雨径流样本和由待预报的前期降雨径流构成的当前特征预报因子集中的降雨径流样本间的相似程度，降雨径流综合欧氏距离的计算公式为：

其中，P_0j,P_ij分别表示当前特征预报因子集中面雨量样本序列与历史特征预报因子集中的面雨量样本序列中的第j个元素；Q_0j,Q_ij分别表示当前特征预报因子集中的上游水文站径流以及预报断面径流样本序列与历史特征预报因子集中上游水文站径流以及预报断面径流样本序列中的第j个元素；c_m1为降雨特征矢量维数；c_m2为径流特征矢量维数；

为降雨相似性，

为径流相似性，α是为了权衡降雨、径流量级差异的降雨影响权重；

根据当前实际降雨、径流与历史降雨、径流的相似程度进行排序，选出最相近的k个相似样本，计算每个相似性样本对未来径流预报的权重，其预报值即为相似样本与权重的乘积之和；

多因子最近邻抽样回归模型的参数包括特征矢量维数、相似样本个数、降雨影响权重；

S42、构建支持向量机模型，支持向量机模型的函数为：

其中，k为历史样本库中组成特征预报因子集的个数；

为对应x_i的支持向量；K(x,x_i)为核函数，本方法SVM模型构建采用LSSVM工具箱，选用的核函数为RBF核函数，该工具箱中的影响参数包括误差惩罚参数和不敏感损失系数；b为函数纵截距，无特殊含义。

输入由待预报的前期降雨径流构成的当前特征预报因子集中降雨径流数据至函数f(x)，得到相应的预报值；

支持向量机模型的参数包括特征矢量维数、误差惩罚参数和不敏感损失系数；

S43、结合现代启发式优化算法，对多因子最近邻抽样回归模型和支持向量机模型在不同水雨情的预报模式下的参数分别进行率定，以平均相对误差MARE最小为目标的目标函数为：

其中，n为预报时段数；

为第i时段的径流实测值；

为第i时段的径流预报值。

S44、对多因子最近邻抽样回归模型和支持向量机模型按照预报结果精度判定，分别赋予不同的权重，预报结果取两种模型加权平均得到的结果，计算如下：

Q_p＝β·Q_p1+(1-β)·Q_p2

其中，Q_p1为支持向量机模型得到的预报结果；Q_p2为多因子最近邻抽样回归模型得到的预报结果；β为支持向量机模型的影响权重。

进一步的，多因子最近邻抽样回归模型中每个相似性样本对未来径流预报的权重的计算公式为：

其中，k为相似样本个数，w_j为第j个相似样本的权重，1≤j≤k,且

进一步的，步骤S5具体为：

预报t时刻的径流

时，两个模型分别进行滚动预报：输入为前c₁天实测径流

和前c₂天实测降雨

预报t+1时刻的径流

时，输入为径流

和降雨

以此类推，实现滚动预报，再将两个模型的滚动预报结果进行加权平均得到耦合后的滚动预报结果。

本发明的一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报系统，包括：

数据处理模块，用于对预报断面所在流域的上游控制性雨量站的历史实测降雨数据、和上游水文站以及预报断面的历史实测的历史实测降雨、径流数据进行异常数据诊断与处理，得到完整的历史降雨径流基本数据；

特征预报因子集构建模块，用于对完整的历史降雨径流基本数据进行时空降维，将时间降维后的日尺度径流数据、以及时空降维后的日尺度面雨量数据构建历史样本库，采用相关分析法识别不同滞时下的历时样本库中的降雨与径流、径流与径流的相关关系，以此确定上游雨量站面雨量、上游水文站径流以及预报断面径流对预报断面径流的响应时间，从而初步确定降雨、径流特征矢量的维数，以此构建以上游雨量站面雨量、上游水文站径流和预报断面径流相应维数的降雨径流数据组成的特征预报因子集；

自适应预报模式构建模块，用于针对流域不同时期不同量级的产汇流成因特性差异，将不同时期和不同量级的径流分为不同的预报情景，建立适用于不同水雨情的自适应预报模式；

短期径流预报模型构建模块，用于根据耦合多因子最近邻抽样回归模型和支持向量机模型优势的平均组合预测法，构建耦合物理驱动和数据驱动的短期径流预报模型；

短期径流滚动预报模块，用于将预见期内的降雨预报信息滚动接入耦合物理驱动和数据驱动的短期径流预报模型，根据适用于不同水雨情的自适应预报模式，更新降雨径流预报信息，实现短期径流滚动预报。

本发明的一种装置设备，包括存储器和处理器，其中：

存储器，用于存储能够在处理器上运行的计算机程序；

处理器，用于在运行所述计算机程序时，执行如上述一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法的步骤。

有益效果：与现有技术相比，本发明具有以下优点：

(1)本发明克服了传统物理驱动模型参数率定的问题，并且突破了常规数据驱动模型预报过程可视性差的难题。多因子最近邻抽样回归模型涉及的参数远远少于物理驱动径流预报模型，参数率定较为简单；并且多因子最近邻抽样回归模型是通过指标表征实际样本与历史样本之间的相似程度进行预报，预报结果可回溯到历史上真实发生的径流过程并且给调度决策提供历史依据。

(2)在一定程度上克服单一模型进行径流预报存在较大的不确定性的问题。由于水资源系统的复杂性，其变化规律难以用单一的数学模型描述，且单个预报模型选取的预报因子不同，预报方法都有各自的优缺点，依赖一个模型进行的预报存在着较大的不确定性。耦合多因子最近邻抽样回归模型和支持向量机模型优势的平均组合预测法可以最大限度的利用预报当前时刻的所有资料和已知信息(包括来自经验、直觉和判断等的主观知识)做出预报为决策提供依据，能够考虑预报结果的不确定性，在多种预报结果的基础之上提高平均预报精度。

(3)在一定程度上突破了短期径流预报精度较低且预见期短的瓶颈。滚动更新降雨径流信息，实时更新预报信息，可有效延长预见期。对预报对象不同时期不同量级的径流进行分别分析产汇流特性，针对性的对不同模式的径流进行模型参数和方案率定，可有效提高径流预报精度。以乌江干流上游洪家渡水库入库径流为例，基于耦合多因子最近邻抽样回归模型和支持向量机模型优势的平均组合预测法，预期1d预见期的纳什系数0.89，平均相对误差16.8％；7d预见期的纳什系数0.83，平均相对误差25.4％。

附图说明

图1是本发明方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

基于多因子最近邻抽样回归和支持向量机的模型，融合了数据驱动和物理驱动模型的优势，采用数据挖掘手段，分析降雨径流成因，对未来径流进行预测，使预报结果更具有解释性和说服力，在展延径流预报预见期上具有广阔的发展前景。

如图1所示，本发明的一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法，包括以下步骤：

S1、收集预报断面所在流域的上游控制性雨量站的历史实测降雨数据、上游水文站以及预报断面的历史实测径流数据，并对收集的降雨径流数据中的异常数据进行诊断与处理，得到完整的历史降雨径流基本数据；具体的：

预报断面所在流域的基础数据包括降雨数据、径流数据。降雨数据包括：中国气象局发布的格点降雨数据、水情测报系统的实测降雨数据以及滚动7日的预报降雨数据，并分析优选降雨对径流影响相关性大的降雨数据；径流数据包括：收集预报断面的历史实测径流数据以及上游水文站历史实测径流数据。

对于数据异常率大于3％或缺失率大于3％的时段，对该时段进行标记并不计入完整的历史降雨径流基本数据，避免因数据异常导致的预报结果偏差；对于数据异常率小于等于3％或缺失率小于等于3％的时段，采用线性插值方法覆盖原有异常数据或补充缺失数据。

S2、构建特征预报因子集：对完整的历史降雨径流基本数据进行时空降维，将时间降维后的日尺度径流数据、以及时空降维后的日尺度面雨量数据构建历史样本库，采用相关分析法识别不同滞时下的历时样本库中的降雨与径流、径流与径流的相关关系，以此确定上游雨量站面雨量、上游水文站径流以及预报断面水文站径流对预报断面水文站径流的响应时间，从而初步确定降雨、径流特征矢量的维数，以此构建以上游雨量站面雨量、上游水文站径流和预报断面径流相应维数的降雨径流数据组成的特征预报因子集；

S21、历史降雨径流基本数据时空降维；

基于完整的历史降雨径流基本数据，在时间尺度上降维：将完整的历史降雨径流基本数据转化为预报需求的时段，将小时尺度的基础数据进行日尺度的时间降维；

对时间尺度降维后的降雨数据在空间尺度上降维：由于影响某一预报断面的雨量站较多，输入维度过多会导致模型计算速率和精确度下降。故在尽可能完整表现区域的降雨情况的前提下降低降雨预报因子的维度，可有效提高模型预报效率。通过对流域自然地理特征和降雨空间分布规律分析，将流域划分为几个子区域，将雨量站雨量数据转化为子区域的面雨量数据，对多个雨量站的降雨监测数据进行降维，子区域的面雨量是由各雨量站的降雨数据通过加权平均计算得到，计算公式为：

其中，P_a是子区域的面雨量，m；k是该子区域所包含的站点个数；

是该子区域第i个站点的点雨量，m；

是指

对应的权重。

根据区域划分与面雨量的计算方法，雨量从“点”到“面”的映射关系最终确定。

S22、筛选并构建特征预报因子集；

基于降维后的完整的历史降雨径流基本数据，构建历史样本库，历史样本库中的数据包括经时间降维后的日尺度的上游水文站径流数据和预报断面径流数据，以及经过时空降维的日尺度的各子区域的面雨量降雨数据。分析预报断面所在流域的降雨径流的特征与规律，综合利用主成分分析法、相关分析法，结合预报断面所在流域的产流成因，识别在不同时间尺度和不同预报时段的特征矢量；特征矢量维数是指特征矢量(即预报因子)及其滞时的组合。特征矢量为降雨和径流。在寻找降雨、径流相似性样本时，研究将基于初步确定的前期影响滞时，设置考虑不同前期影响滞时的降雨、径流组合作为多因子最近邻抽样回归模型和支持向量机模型的输入因子，对流域短期径流进行预报。相关滞时通过综合利用物理成因和统计分析来确定。分析降雨、径流物理成因，初步判断各雨量站和水文站到达预报断面的相应时间，作为确定滞时的重要依据；运用数理统计方法，分析预报断面的径流自身，以及与上游雨量站降雨、水文站径流在不同滞时影响下的相关性，选出相关性较大的前期影响滞时以此确定上游雨量站面雨量、上游水文站径流以及预报断面水文站径流对预报断面水文站径流的响应时间，从而初步确定降雨、径流特征矢量的维数。基于此，筛选并构建上游雨量站面雨量、上游水文站径流和预报断面径流相应维数的降雨径流数据的特征预报因子集计算不同滞时影响下的降雨、径流数据与径流间的相关性公式为：

为径流平均值，

为不同滞时影响下的降雨或者径流的平均值。

同时，考虑到历史同期的降雨、径流资料系列长度较短，难以满足两个预报模型构建的大样本需求，本研究将历史降雨、径流过程当作连续序列处理，采用滑动窗口取样的方式构建预报因子集，这种取样方式虽然不能每次都能取到对预报有价值的样本，但是能够显著提高历史降雨、径流资料的利用率，在最大程度上增加样本数量。

S3、建立根据流域水雨情自适应切换的预报模式：针对流域不同时期不同量级的产汇流成因特性差异，将不同时期和不同量级的径流分为不同的预报情景，建立适用于不同水雨情的自适应预报模式；

分析历史样本库中降雨径流数据的时空分布特征以及规律，找寻预报断面的径流所在流域产汇流特性，将不同时间不同量级的径流分为不同的预报情景：将不同时期的径流分为汛期有洪水时期(5月-10月，流量大于Am³/s，A为对预报对象径流数据分析确定，本实施例中A取700)、汛期无洪水时期(5月-10月，流量小于Am³/s)和非汛期(11月至次年4月)，将不同量级的径流分为大、中、小流量，分析不同预报情景的降雨径流规律，确定不同预报情景发生的基本条件，从而根据不同水雨情确定预报情景，并进入预报情景对应的模型方案进行预报，以此建立适用于不同水雨情的自适应预报模式，提高径流预报精度。

S4、构建耦合物理驱动和数据驱动的短期径流预报模型：提出耦合多因子最近邻抽样回归模型和支持向量机模型优势的平均组合预测法，利用雨洪相似性和数据挖掘对流域径流进行预测；

包括：构建多因子最近邻抽样回归模型；构建支持向量机模型；结合现代化启发算法，以实现预报效果最优为目标，对模型参数进行优化；提出耦合多因子最近邻抽样回归模型和支持向量机模型优势的平均组合预测法，对流域径流进行预测；具体为：

S41、构建多因子最近邻抽样回归模型；

最近邻抽样回归模型是认为客观世界的发生发展存在一定规律，未来的发展趋势与历史的发生发展具有相似性，可以有历史已知的发生发展过程去找寻未来的发生发展趋势。最近邻抽样回归模型是一类数据驱动的、考虑物理成因的预报模型，无需假定研究对象的相依形式与概率分布形式，各个参数具有明确的定义；

采用欧式距离法作为衡量由待预报的前期降雨径流构成的当前特征预报因子集中的降雨径流样本与历史样本库中组成特征预报因子集中的降雨径流样本相似性的定量指标。当前特征预报因子集中的降雨径流样本与历史特征预报因子集中的降雨径流样本恒等时，欧氏距离为0，相似性为100％。当前特征预报因子集中的降雨径流样本与历史特征预报因子集中的降雨径流样本悬殊越大时，欧氏距离就越大，越不相似。也就是说，欧氏距离相当于相似性之余。当只考虑降雨、径流两种预报影响因子时，建立一个2维欧氏空间，并考虑到降雨与径流数据存在量级差异，因此引入降雨影响权重α，故样本间的距离为：

为降雨相似性，

为径流相似性，α是为了权衡降雨、径流量级差异的降雨影响权重，α∈[1，+∞)；

根据当前实际降雨、径流与历史降雨、径流的相似程度进行排序，选出最相近的k个相似样本，计算每个相似性样本对未来径流预报的权重：

其预报值即为相似样本与权重的乘积之和。

多因子最近邻抽样回归模型涉及的参数包括特征矢量维数、相似样本个数、降雨影响权重。

S42、构建支持向量机模型；

根据支持向量机算法构建支持向量机模型。支持向量机模型的核心思想是将输入因子通过预先选取的非线性关系映射到高维特征空间，将样本通过最优分类超平面有效分成两类，并使得两类样本之间的分隔距离最大，此问题可形式化为一个求解凸二次规划的问题，同时等价于正则化的合页损失函数最小化问题。确定支持向量机模型中核函数、误差惩罚参数和不敏感损失系数的最优值；

历史样本库中组成特征预报因子集的降雨径流数据共有k组，每组输入样本是由c₁滞时下前期面雨量特征矢量和c₂滞时下前期上游水文站径流特征矢量和预报断面径流特征矢量组成，该数据序列记为T_t(代表为t时刻的输入样本的数据序列)，此时输入样本集为A＝(T₁,T₂,...,T_k)，对应的输出样本集为t时刻以后f时段的径流值，该数据序列记为O_t(代表为t时刻的输出样本的数据序列)，此时输出样本集为B＝(O₁,O₂,...,O_k)，训练集为输入样本集和输出样本集之和，表示为：

X＝{(x₁,y₁),(x₂,y₂),...,(x_i,y_i)},i＝1,2,...k,x_i∈A,y_i∈B (6)

其中，x_i为输入样本集A中第i组样本的数据；y_i为输出样本集B中第i组样本的数据；训练集中共有k组数据；

假设训练集在精度ε下无误差的拟合非线性回归函数

即：

其中，x_i为输入样本集A中第i组样本的数据；y_i为输出样本集B中第i组样本的数据；训练集中共有k组数据；ε为精度系数；

此时，这为一个含有不等式约束的凸二次规划问题，此时函数f(x)可表示为：

其中，k为历史样本库中组成特征预报因子集的个数；

最后基于训练集训练出的最优分类超平面，将由待预报的前期降雨径流构成的当前样本的特征预报因子集输入至函数f(x)，即可得到支持向量机模型预测的预报结果。

支持向量机模型涉及的参数包括特征矢量维数、误差惩罚参数和不敏感损失系数。

S43、参数率定；

选取纳什指数NS、平均相对误差MARE、平均绝对误差MAE作为预报结果的评价指标，以此构建预报结果精度评价指标体系，对不同预见期的预报效果进行综合评定。并结合现代启发式优化算法，对多因子最近邻抽样回归模型和支持向量机模型在不同水雨情的预报模式下的参数分别进行率定。多因子最近抽样回归模型涉及的参数包括的特征矢量维数、相似样本个数、降雨影响权重；支持向量机模型涉及的参数包括的特征矢量维数、误差惩罚参数和不敏感损失系数。以平均相对误差MARE最小为目标的目标函数为：

其中，n为预报时段数；

为第i时段的径流实测值，m³/s；

为第i时段的径流预报值，m³/s；

S44、构建耦合多因子最近邻抽样回归模型和支持向量机模型的平均组合预测模型；

由于水资源系统的复杂性，其变化规律难以用单一的数学模型描述，且单个预报模型选取的预报因子不同，预报方法都有各自的优缺点，依赖一个模型进行的预报存在着较大的不确定性。分析多模型各自的适用场景并得出适用条件，提出耦合多因子最近邻抽样回归模型和支持向量机模型优势的平均组合预测法，可以最大限度的利用预报当前时刻的所有资料和已知信息(包括来自经验、直觉和判断等的主观知识)做出预报为决策提供依据，能够考虑预报结果的不确定性，在多种预报结果的基础之上提高平均预报精度。对两种模型按照预报结果精度判定，赋予不同的权重，预报结果取两种模型加权平均得到的结果，计算如下：

Q_p＝β·Q_p1+(1-β)·Q_p2 (10)

其中，Q_p1为支持向量机模型得到的预报结果，m³/s；Q_p2为多因子最近邻抽样回归模型得到的预报结果，m³/s；β为支持向量机模型的影响权重，范围为(0，1)。

S5、短期径流滚动预报

由于径流预报的精度会随着预见期的延长而显著降低，故如何在延长预见期的同时，有效提高预报精度是径流预报的一大难题。为考虑预见期的有效性，本发明分别在1日最优多因子最近邻抽样回归模型和支持向量机模型的基础上，接入降雨预报信息，并不断加入模型预报的径流信息，再将两个模型的滚动预报结果进行加权平均得到耦合后的滚动预报结果。滚动预报的基本原理为：预报t时刻的径流

时，输入为前c₁天实测径流

和前c₂天实测降雨

预报t+1时刻的径流

时，输入为径流

和降雨

(即加入模型预报的t时刻径流预报信息

和接入t时刻降雨预报信息P_t ^p)，预报t+2时刻的径流

时，输入为径流

和降雨

(滚动加入模型预报的t+1时刻径流预报信息

和接入t+1时刻降雨预报信息

)。以此类推，同时更新降雨径流预报信息作为下一时刻的预报输入，进行滚动预报，以此实现在延长预见期的同时，有效提高预报精度的目标。

一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报系统，包括：

数据处理模块，用于对预报断面所在流域的上游控制性雨量站的历史实测降雨信息、和上游水文站以及预报断面的历史实测的历史实测降雨、径流信息进行异常数据诊断与处理，得到完整的历史降雨径流基本数据；

特征预报因子集构建模块，用于对完整的历史降雨径流基本数据进行时空降维，将时间降维后的日尺度径流数据、以及时空降维后的日尺度的面雨量数据构建历史样本库，采用相关分析法识别不同滞时下的历时样本库中的降雨与径流、径流与径流的相关关系，以此确定上游雨量站面雨量、上游水文站径流以及预报断面径流对预报断面径流的响应时间，从而初步确定降雨、径流特征矢量的维数，以此构建以上游雨量站面雨量、上游水文站径流和预报断面径流相应维数的降雨径流数据组成的特征预报因子集；

短期径流滚动预报模块，用于将预见期内的降雨预报信息滚动接入耦合物理驱动和数据驱动的短期径流预报模型，根据适用于不同水雨情的自适应预报模式，更新降雨径流预报信息的滚动预报方式，实现短期径流滚动预报。

一种装置设备，包括存储器和处理器，其中：

存储器，用于存储能够在处理器上运行的计算机程序；

处理器，用于在运行所述计算机程序时，执行如上述一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法的步骤，并能达到如上述方法一致的技术效果。

Claims

1.一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法，其特征在于，包括以下步骤：

S2、对完整的历史降雨径流基本数据进行时空降维，将时间降维后的日尺度径流数据、以及时空降维后的日尺度面雨量数据构建历史样本库，采用相关分析法识别不同滞时下的历时样本库中的降雨与径流、径流与径流的相关关系，以此确定上游雨量站面雨量、上游水文站径流以及预报断面径流对预报断面径流的响应时间，从而初步确定降雨、径流特征矢量的维数，以此构建以上游控制性雨量站面雨量、上游水文站径流和预报断面径流相应维数的降雨径流数据组成的特征预报因子集；

2.根据权利要求1所述的一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法，其特征在于，步骤S1中对异常数据进行诊断与处理，具体为：

3.根据权利要求1所述的一种基于多因子最近邻抽样回归和支持向量机的自适应径流预报方法，其特征在于，步骤S2中对完整的历史降雨径流基本数据进行时空降维的方法为：

在时间尺度上的降维：将完整的历史降雨径流基本数据由小时尺度转化为日尺度时段，实现时间尺度上的降维；