CN111597758A

CN111597758A - 一种基于负相关学习的中小河流集成预报方法

Info

Publication number: CN111597758A
Application number: CN202010409759.0A
Authority: CN
Inventors: 王继民; 李家欢; 曹颖; 张新华
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-08-28

Abstract

本发明公开了一种基于负相关学习的中小河流集成预报方法，首先根据不同的流域特点和预报要求进行具体分析，明确研究内容，对数据进行分析。进行数据预处理，选择与预测结果相关性最高的数据构建模型输入输出数据。基于集成学习的思想，结合目标流域特点和样本数据集复杂度，选择构成集成神经网络的子网络并确定其结构。使用负相关学习方法构建集成预报模型，选用优化算法及损失函数对不同超参数条件下的模型进行训练和调优。应用模型进行洪水预报并计算相应的洪水过程评价指标评估模型预报效果，应用于实际场景时将预处理后的水文历史数据作为集成预报模型的输入，对应预见期时刻的流域出口断面流量作为集成预报模型的输出，进行相应的实时预报。

Description

一种基于负相关学习的中小河流集成预报方法

技术领域

本发明涉及数据驱动洪水预报方法，尤其涉及一种基于负相关学习的中小河流集成预报方法。

背景技术

随着城市化建设的加快，造成对土地资源利用逐步增加以及植被的破坏，导致中小河流洪水发生的频率和强度都有所上升，并且造成的危害和破坏也越来越大。中小河流洪水具有暴雨强度大、洪水历时短、突发性强、难以预报和预防的特点，使得中小河流洪水预报预警成为当前洪水防控重点薄弱环节，加之中小河流历史的水文观测资料相当缺乏，预报预警的精度和预见期的增长是亟待解决的关键问题。

近年来，对于数据驱动模型应用于中小河流洪水预报研究方面，大多使用的是BP神经网络、支持向量机等浅层网络结构，且大多为单一的模型结构，单个模型存在局限且不稳定的缺点。传统集成学习方法应用于中小河流洪水预报时，各个子网在训练时相互孤立没有交互，无法利用其他单个网罗模型获得的特征信息，很难发挥出集成学习真正的优势。我国地域广阔，水文气象分区变化大(包括湿润地区、半湿润地区、干旱地区等)，现有的各种洪水预报模型众多，各种模型适用场合不同，且存在模型泛化能力差、预报范围有限、预报精度不足等问题，在用于突发性强、交汇时间快、预见期短的中小河流流域洪水预报时，模型多样造成选择困难，无法有效为防汛抗灾指挥机构作出决策提供有力支撑。

发明内容

发明目的：针对现有的一些洪水预报方法在用于中小河流流域洪水预报时，存在模型泛化能力差、预报范围有限、预报精度不足的问题，本发明的目的是提供一种性能稳定，泛化能力强，预报精度高，能够有效为防汛抗灾指挥机构作出决策提供有力支撑的中小河流集成预报方法。

技术方案：一种基于负相关学习的中小河流集成预报方法，包括如下步骤：

(1)问题定义与分析。根据不同的流域特点和预报需求进行具体分析，明确研究的内容，进一步针对研究的内容收集实验数据并对收集到的数据进行初步分析。

(2)数据预处理。对步骤(1)的数据进行预处理，包括数据扩增、缺失值补全、数据归一化和数据集划分。

(3)样本生成。根据已有数据，选择与预测结果具相关性的数据构建模型输入输出数据。

(4)模型选择。基于集成学习的思想，结合目标流域特点和样本数据集复杂度，选择构成集成神经网络的子网络，确定子网络结构。

(5)负相关学习法集成。使用负相关学习方法进行训练，对于集成神经网络中的子网络，结合负相关学习的方法，为子网模型设计自定义损失函数。

(6)模型构建与训练。建立基于负相关学习的中小河流集成预报模型。对生成的样本数据，选用合适的优化算法及损失函数对不同超参数条件下的模型进行训练和调优。

(7)模型测试与分析。使用步骤(6)中训练调优后得到的模型在测试集上进行最终的测试，并计算洪水预报评价指标，对模型最终的预测效果进行分析和评价。

(8)模型预报。将预处理后的水文历史数据作为集成预报模型的输入，对应预见期时刻的流域出口断面流量作为集成预报模型的输出，可进行相应的实时预报。

进一步的，所述步骤(1)中，尽可能多的收集所研究的目标流域各站点的水文数据，如出口断面历史流量数据、历史降雨数据、下垫面数据等，数据采集间隔为1小时，将收集到的水文数据存入到历史水文数据库中。

进一步的，所述步骤(2)中，对数据进行预处理，包括如下内容：对于数据较少的流域适当进行数据扩充，对于缺失的数据，采用近距离插补法进行缺失值的补全，对于不同属性和指标间存在的数量及和量纲的差异，采用适当的归一化方法对数据进行标准化。本发明方法中使用min-max方法将原始数据进行线性变化，通过转化公式将原始值映射到[0,1]之间。转化公式如下：

其中，x^*为转换后的值，x为原始值，x_min为x最小值，x_max为x最大值。经过min-max标准化后，原始值被规约到[0,1]之间。将初步预处理后的数据作为模型构建中的输入。

进一步的，所述步骤(3)中，根据步骤(1)中获取的数据，构建样本数据，优选使用对预测断面流量产生影响的历史流量和降雨量数据构成样本数据，具体格式如下。

其中，I表示模型的输入数据矩阵，包含w*(m+k)个元素，其中，w为输入矩阵数据的行数，表示流域内降雨对所预测断面流量的影响时间，q(1)…q(k)为预测断面上游各监测断面的流量序列，d(1)...d(m)为流域内各雨量监测站的降雨序列。输出O为t_k+n时刻的流量。n表示预见期。

输入数据中w为待确定的参数。预测断面的洪水的形成需要时间积累，流域内不同位置的降雨对预测断面流量的影响时间不同，采用皮尔逊相关系数分析不同位置雨量对预测断面流量的影响时间。通过相关度分析确定与预见期流量相关系数最高的对应时刻，选取对应时刻的数据，按S矩阵格式进行整理。再使用留出法将数据划分为训练集和测试集，划分比例优选为7∶3。

进一步的，所述步骤(4)中，基于集成学习的理论，结合目标流域特点和样本数据集复杂度，选择具有高预测精度且互相之间差异性尽可能大的学习器作为子网络，并确定模型结构。

进一步的，所述步骤(5)中，使用负相关学习方法进行训练，为子网模型设计自定义损失函数以使得子网之间可以进行交互。针对不同的预见期，训练不同的轮数使得模型达到收敛。设训练数据集为D＝{(x(1)，d(1))，...，(x(N)，d(N))}，其中x表示样本输入数据，d表示数据的期望值，N表示训练数据的数量。通过集成模型的输出值来不断拟合期望值d。设集成网络输出的集合为各子网输出的平均值即：

其中，M表示集成模型中子网的个数，F_i(n)表示第i个子网在第n次训练结束后的输出值，F(n)表示集成模型的输出即所有子网输出值的平均。根据负相关学习方法，在每个子网的损失函数中加入了一个惩罚项，其中第i个子网的损失函数表示为：

E_i(n)表示在第n次训练过程中第i个子网的损失函数，该损失函数第一项是第i个子网的经验风险函数，即回归任务中使用最多的均方误差，第二项则是加入的惩罚函数，p_i是相关惩罚函数，用于计算每个子网的误差和集成模型中其他子网的误差。参数λ作为惩罚系数，取值为0≤λ≤1，λ的不同取值表示惩罚项p_i每个子网损失函数的影响程度。

为了计算E_i的最小值，计算E_i(n)的偏导数如下：

通过负相关学习方法，模型在训练时，每个子网通过各自损失函数中的惩罚项与其他子网进行信息共享和交互，使整个模型在训练时综合考虑到当前子网自身的损失以及模型中其他子网的损失，每个子网在输出最小化F_i(n)与d(n)之间误差的同时也输出了整个集成模型的的最小化平均F(n)与d(n)之间的误差。

一般使用均方误差(Mean-Squared Error，简称为MSE)作为标准衡量神经网络模型和集成神经网络模型的泛化性能。集成神经网络的均方误差计算公式为：

上式中右边第一项表现为集成神经网络的偏差，第二项和第三项分别表现为集成神经网络的方差和协方差。负相关学习方法通过调节惩罚系数λ来获得偏差、方差和协方差之间的平衡以使得集成神经网络达到较好的泛化性能。

通过上述的迭代，使负相关学习集成神经网络中的每一个子网更有效地学习到整体数据的信息，降低系综网络的整体学习误差。

进一步的，所述步骤(6)中，在步骤(5)的基础上建立基于负相关学习的中小河流集成预报模型。对生成的样本数据，选用合适的优化算法及损失函数对不同超参数条件下的模型进行训练和调优。集成模型为单输入多输出：对于每个子网络，其输入数据相同，针对不同的模型，对输入数据格式作一定的调整。对应k个子网分别产生k个输出，对这k个输出采用平均法或学习法进行组合。

对于集成模型中每个子网，通过梯度下降法对每一次训练得到的误差，使用反向传播算法来更新整个集成模型中个子网的权重和阈值。设置模型达到指定训练次数或误差小于某个预先设定的阈值时，模型训练停止。

进一步的，所述步骤(7)中，使用测试集数据评估基于负相关学习的中小河流集成模型性能，具体为使用五种评价指标对模型预报结果进行评估，分别为纳什效率系数(NSE)、均方根误差(RMSE)、洪峰出现时间误差(PTE)、预报洪峰流量和洪峰相对误差(PRE)和Kling-Gupta efficiency(KGE)。五种评价指标计算公式如下：

1)NSE

2)RMSE

其中y_pi表示第i个预测值，y_oi表示第i个观测值，

表示观测值的平均值，m表示个数。

3)PTE

PTE＝T_p-T_o

4)PRE

5)KGE

其中y_o为实测洪峰流量值，y_p为预报洪峰流量值，T_o为实测峰现时间，T_p为预峰现时间，α_s和α_o分别为预测值和实测值的标准差，μ_s和μ_o分别为预测值和实测值的均值；r为相关系数；α为预测值与实测值的方差之比；β为预测值与实测值的均值之比。

进一步的，所述步骤(8)中，模型预报时对预处理后的历史水文数据通过相关度分析确定与预见期流量相关系数最高的对应时刻，选取对应时刻的数据，按S矩阵格式进行整理作为集成模型的输入，取对应预见期的流域出口断面流量作为模型的输出，可进行实时预报。

本发明的有益效果是：利用深度学习技术和负相关学习法，建立了一种基于负相关学习的中小河流集成预报方法。与传统的方法相比，负相关学习方法在训练单个子网的同时，通过在子网的损失函数中加入惩罚项的信息来实现子网间的交互，使各子网在训练时可以获得与其他子网交互的训练信息，并将该信息加入到自身的训练过程中。通过正则化项实现对各子网误差的方差、偏差、协方差进行有效的折中，从而产生具有较小偏差的单个子网，显著降低了模型整体的偏差和方差，最终提高整体的集成网络的预报精度。侧重于对整体过程误差的估计的同时对单个点的状况可以更好的拟合，尤其是对于洪峰时刻的，峰现时间和洪峰值预报精度有较大提高，模型具有更高的稳定性。

附图说明

图1为本发明的流程示意图；

图2为屯溪流域图；

图3为不同时雨量与t时刻流量之间相关性分布图；

图4为不同取值下的CNN模型损失图；

图5为屯溪流域不同模型1～6h预见期平均NSE图；

图6为屯溪流域不同模型1～6h预见期平均RMSE图；

图7为屯溪流域不同模型1～6h预见期平均KGE图；

图8为NCLMEAN 10场洪水1-6h预见期下预报流量和误差图；

图9为NCLMEAN 10场洪水1-6h预见期下峰现时间误差图。

具体实施方式

如图1所示，首先根据不同的流域特点、预报的要求、预见期长短等进行具体分析，明确研究的内容，针对研究的内容收集实验数据并对收集到的数据进行初步分析后存入历史水文数据库中；其次对数据进行数据扩增、缺失值补全、数据归一化等预处理操作，根据已有数据，结合预见期对预处理后的数据进行相关度分析，分析对预测结果产生影响较大的数据构建模型输入输出数据再按照一定的比例将数据集划分为训练集和测试集。再次，基于集成学习的思想，结合目标流域特点和样本数据集复杂度，选择构成集成神经网络的子网络，确定子网络结构，使用负相关学习方法构建基于负相关学习的中小河流集成预报模型，对集成模型的多个输出采用平均法或学习法进行组合，然后选用合适的优化算法及损失函数对不同超参数条件下的模型进行训练和调优。最后，应用模型进行洪水预报并计算相应的洪水过程评价指标评估模型预报效果，应用于实际场景时将预处理后的水文历史数据作为集成预报模型的输入，对应预见期时刻的流域出口断面流量作为集成预报模型的输出，可进行相应的实时预报。

下面结合实施例和附图对本发明的技术方案作进一步详细说明。

一种基于负相关学习的中小河流集成预报方法，具体实现步骤如下：

步骤一：选择屯溪流域作为实验研究对象，如图2所示为屯溪流域水系和测站分布图，流域内包括11个雨量站，以及1个流域出口断面流量站，选取屯溪流域1981年－2003年汛期总共38场洪水数据，总共25218个时刻监测值作为实验数据，数据时间间隔为1小时，每条数据包括流域内各雨量站雨量和流域出口断面流量，即每条数据包含12维信息，将数据保存到历史水文数据库中。

步骤二：从历史水文数据库中取出数据并对数据进行预处理，包括数据扩增、缺失值补全、数据归一化和数据集划分。本发明数据缺失采取近距离插补法来进行缺失值的补全，即选择缺失值前后两值的平均值来代替缺失值，数据归一化采用min-max对数据进行标准化，将原始数据进行线性变化，公式为

其中x^*为转换后的值，x为原始值，x_min为x最小值，x_max为x最大值。经过min-max标准化后，原始值被规约到[0,1]之间。将归一化后的数据使用留出法按7：3的比例划分为训练集和测试集，其中训练集包括28场洪水，测试集包括10场洪水。训练集包括19969个时刻的监测值，测试集包括5249个时刻监测值。分别建立1h、2h、3h、4h、5h、6h预见期的屯溪流域出口流量预测模型。

步骤三，样本生成。根据已有数据，采用皮尔逊相关系数法，分析不同时间间隔的雨量与流域出口断面流量之间的相关系数，结果如图3所示。可以看出，11个雨量站的雨量与流量之间的相关性随时间偏移呈现出先单调递增再单调递减的趋势，时间偏移最大出现在站点相关系数最高对应的t-11时刻，因此选取t时刻前11个小时的历史数据作为输入数据。以预见期为1h为例，使用滑动窗口方法对数据进行切分，将预见期前11小时断面流量及测站雨量数据作为输入，后1小时断面流量数据作为输出来建立模型。数据格式如表1所示。

表1模型数据格式表

步骤四，模型选择。基于集成学习的思想，结合目标流域特点和样本数据集复杂度，选择构成集成神经网络的子网络，确定子网络结构。本方法构建集成神经网络模型对子网络的选取过程中，考虑到BP神经网络模型结构简单且具有强大的非线性映射能力的特点、卷积神经网络对于网格数据处理的优势，局部连接和权值共享的特性以及长短期记忆网络可以更好的解决较长时间序列依赖问题的优势，结合洪水过程预测和时间序列预测任务的特点，选用BP神经网络、卷积神经网络和长短期记忆网络作为集成模型的子网络。

本发明中BP神经网络参数确定：BP神经网络的隐藏层的数量根据经验公式计算确定为4层，使用人工法和经验法相结合，通过多次实验测试，对实验结果的误差进行分析对比，最终得出4层隐藏层的神经元数目分别为512、256、128、64时，预测数据效果相对较好。

本发明中卷积神经网络参数确定使用强化学习结合神经网络结构搜索方法最终确定三个卷积层三个池化层，通过使用该搜索模型，发现影响模型训练的损失主要由第一层卷积核的数量(num_1)和第三层卷积内核的大小(filter_size_3)决定。其影响如图4所示。通过以上分析，得出了对于屯溪流域的的最佳网络架构如表2所示。

表2 CNN最佳网络结构表

本发明中LSTM参数确定：本发明搭建的LSTM模型各层参数如下：使用前11个历史数据来预测下一时刻的数据，预测步长为11，LSTM层神经元个数为50，全连接层神经元个数为256，输出层神经元个数为1。

本发明中模型均选用ReLU作为激活函数。

步骤五，负相关学习法集成。使用负相关学习方法进行训练，对于集成模型中的子网络，基于负相关学习法，为每个模型损失函数添加惩罚项，损失函数为：

E_i(n)表示在第n次训练过程中第i个子网的损失函数，损失函数第一项是第i个子网的经验风险函数，即均方误差，第二项则是加入的惩罚函数，p_i是相关惩罚函数，用于计算每个子网的误差和集成模型中其他子网的误差。参数λ作为惩罚系数，取值为0≤λ≤1，λ的不同取值表示惩罚项p_i每个子网损失函数的影响程度。其中p_i＝(F_i(n)-F(n))∑_j≠i(F_j(n)-F(n))。

步骤六，模型构建与训练。建立基于负相关学习的中小河流集成预报模型。对生成的样本数据，选用合适的优化算法及损失函数对不同超参数条件下的模型进行训练和调优。集成模型为单输入三输出，输入为132维数据，输出为3维数据，对于每个子网络，其输入数据相同，针对不同的模型，对输入数据格式作一定的调整，当模型为BP神经网络和LSTM时，将S矩阵展开为一维矩阵作为输入，当模型为卷积神经网络时，按照S矩阵转换成对应网格数据作为模型输入，对集成模型的输出分别采用平均法和BP学习法组合作为最终的预报结果。

步骤七，模型测试与分析。使用纳什效率系数(NSE)、均方根误差(RMSE)、洪峰出现时间误差(PTE)、预报洪峰流量和洪峰相对误差(PRE)和Kling-Gupta efficiency(KGE)对模型预报结果进行评价。计算公式如下：

1)NSE

2)RMSE

其中y_pi表示第i个预测值，y_oi表示第i个观测值，

表示观测值的平均值，m表示个数。

3)PTE

PTE＝T_p-T_o

4)PRE

5)KGE

测试数据为屯溪流域1997年6月6日-2002年5月13日共10场洪水过程，实验评估结果表3-5和图5-9所示。

表3不同模型1～6h预见期平均NSE表

表4不同模型1～6h预见期平均RMSE表

表5不同模型1～6h预见期平均KGE表

本发明加入了单个模型预报和使用BP学习法组合的对比实验。以下描述中使用BP学习法组合的基于负相关学习的屯溪流域集成预报模型和使用平均法组合的基于负相关学习的屯溪流域集成预报模型简称为NCLBP和NCLMEAN。

从图5可以看出，对于10场测试洪水，使用了负相关学习方法的NCLMEAN模型在1～6h预见期下，除了3个情形低于0.90，但均高于0.80，剩下的情形确定性系数均高于0.90，达到甲级，且相较于单一的模型，整体的NSE值较高。

从图6可以看出，对于10场测试洪水，使用了负相关学习方法的NCLMEAN模型在1～6h预见期下，对于预见期为1-4h时，除了第6场测试洪水在预见期为4h的情形，其他RMSE值均达到了100.0以下，从整个1-6h预见期来看，除了3个情形，其他的RMSE值均低于150.0，且相较于单一的模型，整体的RMSE值较低。随着预见期的增加RMSE系数都是呈上升趋势。不同模型的RMSE变化趋势各不相同，整体来看，NCLMEAN和NCLBP模型增长幅度较小。

从图7可以看出，对于10场测试洪水，使用了负相关学习方法的NCLMEAN模型在1～6h预见期下，仅有第一场测试洪水在预见期为5h和6h即2个情形对应KGE值低于0.85，且相较于单一的模型，整体的KGE值较高。随着预见期的增加，使用单一模型预测的洪水过程KGE呈现快速下降的趋势，使用基于负相关学习方法的集成模型NCLMEAN和NCLBP优势逐渐凸显，虽也呈现下降趋势，但趋势较缓，且平均KGE均达到了0.9以上。

从图8可以看出，对于10场测试洪水，使用了负相关学习方法的NCLMEAN模型在1h和2h预见期下，除了3个情形(误差分别为5.1％、6.2％和7％)，预报洪峰流量相对误差均小于5％；3h预见期下，除了1个情形(误差为20.1％)预报洪峰流量相对误差均小于20％；4～6h预见期下，有3个情形的预报洪峰流量相对误差大于20％。

从图9可以看出，对于10场测试洪水，NCLMEAN模型在1～3h预见期下，有2个情形，洪峰出现时间误差大于3h。4～6h预见期下，有12个情形不满足误差许可。

可以得出结论：基于负相关学习的屯溪流域集成预报模型NCLMEAN对于洪水过程预报结果的NSE、RMSE、KGE、PTE和PRE均优于现有的一些模型。

步骤八，模型预报。应用到实际预报环节。确定预见期后，将实际流域获取的预处理后的水文历史数据通过相关度分析确定与预见期流量相关系数最高的对应时刻，选取对应时刻的数据，作为集成预报模型的输入，对应预见期时刻的流域出口断面流量作为集成预报模型的输出，即可得到对应的预报结果。可进行相应的实时预报。

Claims

1.一种基于负相关学习的中小河流集成预报方法，其特征在于，包括如下步骤：

(1)根据不同的流域特点和预报需求进行具体分析，明确研究的内容，针对研究的内容收集实验数据并对收集到的数据进行初步分析；

(2)对步骤(1)获取的数据进行预处理；数据扩增、缺失值补全、数据归一化和数据集划分；

(3)根据预处理后的数据，选择与预测结果具有相关性的数据构建模型输入输出数据；

(4)基于集成学习的思想，结合目标流域特点和样本数据集复杂度，选择构成集成神经网络的子网络，确定子网络结构；

(5)使用负相关学习方法进行训练，对于集成神经网络中的子网络，结合负相关学习的方法，为子网络设计自定义损失函数；

(6)建立基于负相关学习的中小河流集成预报模型，对步骤(3)生成的模型输入输出数据，选用优化算法及损失函数对不同超参数条件下的中小河流集成预报模型模型进行训练和调优；

(7)使用步骤(6)中训练调优后得到的中小河流集成预报模型模型在测试集上进行最终的测试，并计算洪水预报评价指标，对模型最终的预测效果进行分析和评价；

(8)将预处理后的水文历史数据作为中小河流集成预报模型的输入，对应预见期时刻的流域出口断面流量作为中小河流集成预报模型的输出，进行相应的实时模型预报。

2.根据权利要求1所述的一种基于负相关学习的中小河流集成预报方法，其特征在于：所述步骤(1)中，收集所研究的目标流域各站点的水文数据，包括出口断面历史流量数据、历史降雨数据和下垫面数据，数据采集间隔为1小时，将收集到的水文数据存入到历史水文数据库中。

3.根据权利要求1所述的一种基于负相关学习的中小河流集成预报方法，其特征在于，所述步骤(2)的数据预处理包括数据扩增、缺失值补全、数据归一化、数据集划分；

所述数据扩增是对于数据较少的流域进行数据扩充；所述缺失值补全是对于缺失的数据，采用近距离插补法进行缺失值的补全；所述数据归一化是对于不同属性和指标间存在的数量及和量纲的差异，采用适当的归一化方法对数据进行标准化。

4.根据权利要求3所述的一种基于负相关学习的中小河流集成预报方法，其特征在于：使用min-max方法将原始数据进行线性变化，通过转化公式将原始值映射到[0,1]之间；转化公式如下：

其中，x^*为转换后的值，x为原始值，x_min为x最小值，x_max为x最大值；经过min-max标准化后，原始值被规约到[0,1]之间；将初步预处理后的数据作为模型构建中的输入。

5.根据权利要求1所述的一种基于负相关学习的中小河流集成预报方法，其特征在于：所述步骤(3)中，使用对预测断面流量产生影响的历史流量和降雨量数据构成样本数据，具体格式如下：

其中，I表示模型的输入数据矩阵，包含w*(m+k)个元素，其中，w为输入矩阵数据的行数，表示流域内降雨对所预测断面流量的影响时间，q(1) … q(k)为预测断面上游各监测断面的流量序列，d(1) … d(m)为流域内各雨量监测站的降雨序列；输出O为t_k+n时刻的流量；n表示预见期；

输入数据中w为待确定的参数；预测断面的洪水的形成需要时间积累，流域内不同位置的降雨对预测断面流量的影响时间不同，采用皮尔逊相关系数分析不同位置雨量对预测断面流量的影响时间；通过相关度分析确定与预见期流量相关系数最高的对应时刻，选取对应时刻的数据，按S矩阵格式进行整理；再使用留出法将数据划分为训练集和测试集。

6.根据权利要求1所述的一种基于负相关学习的中小河流集成预报方法，其特征在于：所述步骤(4)中，基于集成学习的理论，结合目标流域特点和样本数据集复杂度，选择具有互相之间差异性的学习器作为子网络，并确定模型结构。

7.根据权利要求1所述的一种基于负相关学习的中小河流集成预报方法，其特征在于：在所述的步骤五具体包括如下内容：

针对不同的预见期，训练不同的轮数使得模型达到收敛；设训练数据集为D＝{(x(1),d(1)),...,(x(N),d(N))}，其中x表示样本输入数据，d表示数据的期望值，N表示训练数据的数量；通过集成模型的输出值来不断拟合期望值d；设集成网络输出的集合为各子网输出的平均值，即：

其中，M表示集成模型中子网的个数，F_i(n)表示第i个子网在第n次训练结束后的输出值，F(n)表示集成模型的输出即所有子网输出值的平均；根据负相关学习方法，在每个子网的损失函数中加入了一个惩罚项，其中第i个子网的损失函数表示为：

E_i(n)表示在第n次训练过程中第i个子网的损失函数，该损失函数第一项是第i个子网的经验风险函数，即回归任务中使用最多的均方误差，第二项则是加入的惩罚函数，p_i是相关惩罚函数，用于计算每个子网的误差和集成模型中其他子网的误差；参数λ作为惩罚系数，取值为0≤λ≤1，λ的不同取值表示惩罚项p_i每个子网损失函数的影响程度；

为了计算E_i的最小值，计算E_i(n)的偏导数如下：

8.根据权利要求1所述的一种基于负相关学习的中小河流集成预报方法，其特征在于：所述步骤(6)中，中小河流集成预报模型为单输入多输出：对于每个子网络，其输入数据相同，针对不同的模型，对输入数据格式作调整；对应n个子网分别产生n个输出，对这n个输出采用平均法或学习法进行组合；

对于集成模型中每个子网，通过梯度下降法对每一次训练得到的误差，使用反向传播算法来更新整个集成模型中个子网的权重和阈值；设置模型达到指定训练次数或误差小于某个预先设定的阈值时，模型训练停止。

9.根据权利要求1所述的一种基于负相关学习的中小河流集成预报方法，其特征在于：在所述的步骤(7)中，使用测试集数据评估基于负相关学习的中小河流集成模型性能，使用五种评价指标对模型预报结果进行评估：

1)纳什效率系数：

2)均方根误差：

其中y_pi表示第i个预测值，y_oi表示第i个观测值，

表示观测值的平均值,m表示个数；

3)洪峰出现时间误差：

PTE＝T_p-T_o

4)预报洪峰流量和洪峰相对误差：

5)Kling-Gupta efficiency:

其中，y_o为实测洪峰流量值，y_p为预报洪峰流量值，T_o为实测峰现时间，T_p为预峰现时间，α_s和α_o分别为预测值和实测值的标准差，μ_s和μ_o分别为预测值和实测值的均值；r为相关系数；α为预测值与实测值的方差之比；β为预测值与实测值的均值之比。

10.根据权利要求1所述的一种基于负相关学习的中小河流集成预报方法，其特征在于：所述的步骤(8)中，对预处理后的历史水文数据通过相关度分析确定与预见期流量相关系数最高的对应时刻，选取对应时刻的数据，按S矩阵格式进行整理作为集成模型的输入，取对应预见期的流域出口断面流量作为模型的输出，进行实时预报。