CN110765418B

CN110765418B - 一种流域水沙研究模型的智能集合评估方法和系统

Info

Publication number: CN110765418B
Application number: CN201910953930.1A
Authority: CN
Inventors: 徐梦珍; 刘星; 傅旭东; 张晓明; 王紫荆; 赵阳
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2021-07-20
Anticipated expiration: 2039-10-09
Also published as: CN110765418A

Abstract

一种流域水沙研究模型的智能集合评估方法和系统，包括以下步骤：(1)确立研究对象，包括流域、因变量、自变量和时间尺度；(2)筛选最优模型：将确立的流域水沙数据集随机置乱后切分为训练集和测试集，选取不同机器学习方法并在不同的时间尺度和不同的自变量组合下分流出多组以涵盖所有可能的情况，每种情况通过获取参数和筛选得到一组最优模型，每种方法再筛选出一组结果最好的作为最终的最优模型；(3)基于三种不同指标体系评估最终的最优模型，指标体系包括无量纲指标和有量纲指标用于评估模型的优良性和基于最小信息准则的评价指标用于平衡模型拟合结果的优良性和复杂度。用统一的标准对集合的各类型模型的适用性给出定量的评估结果。

Description

一种流域水沙研究模型的智能集合评估方法和系统

技术领域

本发明属于一种集合评估技术体系，具体涉及一种流域水沙研究模型的智能集合评估方法和系统。

背景技术

21世纪以来，黄河的水沙情势发生史无前例的剧烈变化。黄河水沙情势的深入分析意义重大，它关乎黄河下游宽河段治理的方向，关乎黄河水资源的配置和利用策略，关乎水沙调控工程的布局和整体治黄方略的确立。常用的经验模型和基于过程的物理模型等，尽管均能表明黄河水沙变化是人类活动和气候变化综合作用的结果，但不同学者的研究结果差距较大，以黄河中游无定河流域的径流变化研究为例，1972–1996期间，Li et al.(2007)通过弹性系数法分析认为人类活动对流域径流变化的贡献率为87％，Xu(2011)通过多元线性回归法认为人类活动对流域径流变化的贡献率为49.2％。

另外，现有方法均存在一定的局限性，经验模型法存在的缺点是：为了计算简便，经验模型通常只选取与输出(径流或输沙)相关性最大的降水量P或降水量的其他形式作为输入，而忽略了其他因子，导致输入数据的解释性不够；把研究期划分为基准期和人类活动影响期，即假设了在基准期内流域未受人类活动影响，而在人类活动影响期，流域每年均受同等程度的人类活动影响作用，但实际上在不同年份流域的径流或输沙受人类活动影响程度也不一样；得到基准期内的水沙关系模型后，利用归纳和演绎的原理，求出人类活动影响期内径流量或输沙量的计算值，并将计算值和实际值的差值解释为人类活动造成的误差，但实际上还包含了模型结构引起的误差，导致通过经验模型计算出来的人类活动贡献率并不准确。基于过程的物理模型和经验模型相比，虽然在时间和空间分辨率上得到了提高，但由于数据资料的缺陷，未能很好地量化人类活动的影响。

此外，经验模型和基于过程的物理模型具有的一个共同特点是：模型通常选择特定的时期作为率定期。选择固定的率定期，所得到的模型参数在是在率定期最优的参数，但不能保证也是模拟期最优的参数，可能会造成过拟合。因而在使用率定期得到的参数来模拟未来的情况时，可能造成较大的误差。

发明内容

针对不同方法对黄河流域水沙的研究结果差异大且存在一定局限性，无法得知该研究结果的准确性，本发明提出一种流域水沙研究模型的智能集合评估方法和系统，整合流域例如黄河流域现有水沙研究成果，改进了模型的生成方法，集合不同类型的研究方法/模型，用统一的标准对各方法/模型的适用性给出定量的评估结果。

本发明的技术方案：

一种流域水沙研究模型的智能集合评估方法，其特征在于包括以下步骤：

第一步骤，确立研究对象，所述研究对象包括流域、因变量、自变量和时间尺度；

第二步骤，筛选最优模型：首先将确立的流域水沙数据集随机置乱后切分为训练集和测试集，然后选取不同机器学习方法，将每种所述机器学习方法在不同的时间尺度和不同的自变量组合下分流出多组以涵盖所有可能的情况，每种情况通过获取参数和筛选得到一组最优模型，每种机器学习方法从多组最优模型中再筛选出一组结果最好的作为最终的最优模型；

第三步骤，基于三种不同指标体系评估所述最终的最优模型，所述指标体系包括至少一个无量纲指标用于评估模型的优良性、至少一个与实际值相同量纲指标用于评估模型的优良性和至少一个基于最小信息准则的评价指标用于平衡模型拟合结果的优良性和复杂度。

优选的，第二步骤包括以下步骤：

S21:将已确立的流域水沙数据集随机置乱后通过多次划分方法得到多组所述训练集和测试集，所述水沙数据集包括因变量数据和自变量数据；

S22：在模型库中选取不同机器学习方法，将每种所述机器学习方法按照不同的时间尺度和不同的自变量组合分流出多组以涵盖所有可能的情况；

S33：每种情况通过使用多组训练集分别训练获取相应的参数和通过选取获取相应的超参数以生成多组模型，所述模型个数与划分次数相同；

S34：从每种情况的所述多组模型中筛选出一组最优模型，最后从每种机器学习方法的多种情况中再筛选出一组结果最好的作为最终的最优模型；

筛选所述最优模型时，将每种机器学习方法中在训练集上的相关系数的平方和和在测试集上的相关系数的平方和排序，选择最大值对应的模型为该种机器学习方法的最优模型。

使用基于网格搜索方法和K折交叉验证方法确立所述超参数，所述多次划分的次数为80-120次，所述k为3-8。

所述自变量包括至少包括降水因子项、气候因子项和人类活动影响项，所述因变量包括径流量和/或输沙量。

所述机器学习方法选自多元线性回归法、k近邻回归法、支持向量回归法和SWAT。

优选的，第三步骤中，所述无量纲指标包括决定系数和/或校正决定系数，所述决定系数为1减去残差平方和与总离差平方和之比，所述残差平方和表示实际值与计算值之间的误差平方和，所述总离差平方和表示实际值与其平均值之间的误差平方和，所述校正决定系数在所述决定系数的基础上考虑了自变量数目的影响，公式为

其中，n为样本数目，p为自变量数目，R²为决定系数；

所述与实际值相同量纲指标包括平均决定误差和/或均方根误差，所述平均决定误差表示的是计算值和实际值之间的绝对误差之和与样本数目n的比值，所述均方根误差表示的是计算值与实际值之间的误差平方和与样本数目n的比值的平方根；

所述基于最小信息准则的评价指标包括赤池信息准则和/或改进的赤池信息准则和/或贝叶斯信息准则，所述赤池信息准则的公式为AIC＝2k-2In(L)，所述改进的赤池信息准则的公式为

所述贝叶斯信息准则的公式为BIC＝kIn(n)-2In(L)，所述对数函数的计算公式为

k为模型的参数数目，L为似然函数，n为样本数目，SSE为残差平方和。

所述第三步骤具体包括以下步骤：首先选取至少一个所述无量纲指标评估多种所述最优模型的拟合度；其次选取至少一个所述与实际值相同量纲指标评估多种所述最优模型的平均误差；最后选取至少一个所述基于最小信息准则的评价指标在模型的拟合精度和模型复杂度之间找到一种平衡。

一种流域水沙研究模型的集合评估系统，包括依次连接的研究对象确立装置、最优模型筛选装置和模型评估装置，

所述研究对象确立装置确立流域、因变量、自变量和时间尺度；

所述最优模型筛选装置筛选最优模型：首先将确立的流域水沙数据集随机置乱后切分为训练集和测试集，然后选取不同机器学习方法，将每种所述机器学习方法在不同的时间尺度和不同的自变量组合下分流出多组以涵盖所有可能的情况，每种情况通过获取参数和筛选得到一组最优模型，每种机器学习方法从多组最优模型中再筛选出一组结果最好的作为最终的最优模型；

所述模型评估装置基于三种不同指标体系评估所述最优模型，所述指标体系包括至少一个无量纲指标用于评估模型的优良性、至少一个与实际值相同量纲指标用于评估模型的优良性和至少一个基于最小信息准则的评价指标用于平衡模型拟合结果的优良性和复杂度。

所述最优模型筛选装置包括依次连接的数据集划分装置、模型生成装置和模型筛选装置，

所述数据集划分装置与所述研究对象确立装置连接，将被选取流域内的数据集随机置乱，然后通过多次划分方法切分为多组训练集和测试集；

所述模型生成装置选取不同机器学习方法，将每种所述机器学习方法按照不同的时间尺度和不同的自变量组合分流出多组以涵盖所有可能的情况，然后每种情况通过使用多组训练集分别训练获取相应的参数和通过选取获取相应的超参数以生成多组模型，所述模型个数与划分次数相同；

所述模型筛选装置从每种情况的多组模型中筛选出一组最优模型，最后从每种机器学习方法的多种情况中再筛选出一组结果最好的作为最终的最优模型。

所述模型评估装置包括第一指标装置、第二指标装置、第三指标装置和综合评估装置，所述第一指标装置与所述模型筛选装置连接，选取至少一个无量纲衡量指标评估每种机器学习方法的最终的最优模型的模拟结果的好坏程度；所述第二指标装置选取至少一个与实际值相同量纲指标通过比较不同最终的最优模型的标准值以判断模型的优劣；所述第三指标装置基于最小信息准则的评价指标平衡每种机器学习方法的最终的最优模型的模型拟合结果的优良性和模型的复杂度；所述综合评估装置基于三种不同指标体系评估所述最终的最优模型给出评估结果。

本发明的有益技术效果：

本发明的一种流域水沙研究模型的智能集合评估方法，第一步是确立流域、因变量、自变量和时间尺度为建立模型做准备，第二步筛选每种机器学习方法对应的一个最终的最优模型，以机器学习方法中的多元线性回归方法/模型为例，运用该方法在不同的时间尺度、不同的自变量组合下均能得到一个最优模型，在这些最优模型中选取一个最优的结果作为该方法参与集合评估的最终结果/最终的最优模型，选取最优模型时可以选择不同的评价标准，本专利选择使用相关系数的平方值R²来评价模型的好坏，即模型在训练集上的R²值和测试集R²值之和最大，这样确保筛选出的最优模型具有较低的经验风险和较大的预测能力；第三步，基于三种不同指标体系评估所述最终的最优模型，涵盖了评估模型的优良性的无量纲指标、用于评估模型的优良性的有量纲指标和用于平衡模型拟合结果的优良性和复杂度的基于最小信息准则的评价指标，这三类指标的综合将针对模型的模拟精度和模型的复杂度之间进行一个平衡的选择，给出量化结果。综上，本发明的一种流域水沙模型的集合评估方法，针对黄河流域水沙变化的研究众多，从研究对象的确立，到最优模型的确立，再到最优模型的评估，整合流域例如黄河流域现有水沙研究成果，从研究对象和数据来源以及数据处理等多方面优化了模型的生成过程，增强了模型的可解释性和准确性，将集合的不同类型的研究方法/模型用统一的标准对各方法/模型的适用性给出定量的评估结果。

优选的，在选择模型的率定期(测试集)时，将整个研究期的数据进行置乱后，再随机选择一定比例的数据作为率定期样本，更优选的进行80-120次随机切分，避免模型的过拟合。这样最优模型的筛选过程为：对于每种机器学习方法在不同时间尺度和不同自变量组合下的多组模型/多种情况，由于对数据集进行了100次的随机切分后分别训练，因而每种方法的每组模型/每种情况又分出100个模型，通过筛选原则得出一组最优模型，再通过同样的筛选原则每种方法仅保留一个最终的最优模型参与集合评估，筛选时具体的选择方法为：依据在训练集上的R²和测试集上的R²之和从大到小排序，选择最大值对应的模型为(最终的)最优模型。另外，为了保证结果的可重复性，随机置乱后切分都使用相同的随机种子。

在确定模型参数(包括参数和超参数)时，通过将训练集用来训练模型得到参数，通过网格搜索方法和k折交叉验证方法通过验证集用来选择最优的超参数。以支持向量回归模型为例，在进行网格搜索过程中每选择一组超参数，会生成一个与该组超参数对应的支持向量回归模型，通过在模型在验证集上的评分来选择该模型最优的超参数，在进行网格搜索的过程中，本专利使用k折交叉验证的方法，将原始的训练集随机平均划分为k份，每次选取其中k-1份作为训练集，另外1份作为验证集，通过在k个验证集下平均得分最高的模型筛选出最优的超参数组合。

优选的，评估时首先选取2个无量纲的衡量标准：决定系数R²和校正的决定系数Adjusted R²，这两个值均能直接反应出模型模拟结果的好坏程度；其次选取带有和实际值相同量纲的2个标准：平均绝对误差MAE和均方根误差RMSE，通过比较不同模型的两个标准值的大小，来判断模型之间的优劣；最后，基于最小化信息准则，选取了3个不同的指标，该指标能够平衡模型拟合结果的优良性和模型的复杂度。

优选的，自变量考虑多种输入因子，包括降水因子项、气候因子项和人类活动影响项，具有以下优势：第一，增强输入变量对因变量的解释性，同时兼顾了多个因子在量纲上的一致性；第二，通过把人类活动等自变量对径流或输沙等因变量的影响量化为一个时间序列，人类活动的影响直接作为模型的输入因子，使得生成的模型具有更可信的物理意义；第三，在输入因子中考虑了人类活动因子项，因而不需要将研究期划分为基准期和人类活动影响期，避免了这种不确定性。另外，本专利使用的机器学习方法使用水土保持措施面积数据和NDVI数值来反映人类活动对水沙的影响，能有效地避免数据缺陷。

本发明的一种流域水沙研究模型的集合评估系统，该集合评估系统与本发明的集合评估方法相对应，包括依次连接的研究对象确立装置、最优模型筛选装置和模型评估装置，每个装置协同配合实现本发明集合评估系统方法，构建一套水沙变化集合评估框架，将水沙变化研究过程涉及的各个步骤集合考虑，用程序模块化处理。给定必要的输入数据和需要人为确定的变量后，便可以由该集合评估框架给出该条件下最优的模型，具有自动、高效、可解释性高等优势，为学者选用合适的方法研究黄河流域水沙情况提供了客观的参考和极大的便利。

附图说明

图1为本发明的流域水沙研究模型的集合评估方法的一实施例的流程示意图；

图2为本发明的流域水沙研究模型的集合评估方法的另一实施例的流程示意图；

图3为本发明的流域水沙研究模型的集合评估系统的实施例示意图。

具体实施方式

为了更清楚理解本发明内容，将结合附图1-3和具体实施方式详细说明。

如图1所述，一种流域水沙研究模型的智能集合评估方法，包括以下步骤：第一步骤，确立研究对象，所述研究对象包括流域、因变量、自变量和时间尺度；第二步骤，筛选最优模型：首先将确立的流域水沙数据集随机置乱后切分为训练集和测试集，然后选取不同机器学习方法，将每种所述机器学习方法在不同的时间尺度和不同的自变量组合下分流出多组以涵盖所有可能的情况，每种情况通过获取参数和筛选得到一组最优模型，每种机器学习方法从多组最优模型中再筛选出一组结果最好的作为最终的最优模型；第三步骤，基于三种不同指标体系评估所述最终的最优模型给出评估结果，所述指标体系包括至少一个无量纲指标用于评估模型的优良性、至少一个与实际值相同量纲指标用于评估模型的优良性和至少一个基于最小信息准则的评价指标用于平衡模型拟合结果的优良性和复杂度。

一种流域水沙研究模型的智能集合评估方法，具体每一步的流程如图2所示，

所述第一步骤，确立研究对象包括以下步骤：

S11：确立研究流域，本框架主要针对黄河中游的典型流域；

S12：根据确立的研究流域出水口水文站资料情况确立因变量，所述因变量包括径流量和/或输沙量，

由于河道内的径流量和输沙量通常具有较好的线性关系，因而对径流或输沙的研究通常可以选取同样的自变量集合；

S13：选择所述研究流域的因变量的时间尺度，所述时间尺度包括年尺度、月尺度和天尺度；

不同类型的水文模型输入数据的时间精度不同，经验性模型的时间尺度通常为年或者月，而基于过程的物理模型的时间尺度通常为月、天或更精细。

S14：根据与确立的研究流域的因变量的相关关系以同样的时间尺度确立自变量，所述自变量的时间尺度与所述因变量的时间尺度一致，所述自变量包括降雨因子和/或气候因子和/或人类活动影响因子。

对于经验性模型，选取自变量时通常需要考虑能收集到的数据的时间序列长度和因变量应当一致，并确保选取的自变量和因变量之间存在较强的相关关系，对于基于过程的物理模型，则依据模型本身的要求尽可能选取在时间精度和空间精度都较高的数据。

所述第二步骤，筛选最优模型包括以下步骤：

S21：将已确立的流域水沙数据集随机置乱通过多次划分得到多组训练集和测试集，所述水沙数据集包括因变量数据和自变量数据，

切分数据集的原因是：在训练集上得到的最优模型，只能确保该模型的经验误差最小。但通常我们希望得到的是在新样本上表现较好的模型，即模型具有更好的预测能力(也称为泛化能力)。因而，使用模型在测试集上的错误率来衡量模型的好坏，具有更为实际的意义，

不同的划分方法将得到不同的训练集和测试集，从而得到的不同的模型评估结果。为了避免单次划分造成评估结果的不稳定性，本专利对数据集进行多次划分后分别进行训练，选取在训练集和测试集上均表现最优的一组划分，并认为该组划分下得到的模型在所有的划分中最具有代表性；

S22：在模型库中选取适用该流域的机器学习方法，将每种所述机器学习方法在不同的时间尺度和不同的自变量组合下分流出多组以涵盖所有可能的情况；本专利主要采用机器学习方法中的多元线性回归法MLR(Multiple Linear Regression)，k近邻回归法kNNR(k Nearest Neighbors Regression)，支持向量回归法SVR(Support Vector Regression)等研究方法。这类方法的特点时：在考虑物理机理上要优于传统的经验模型，在模型结构上要比基于过程的物理模型简单。同时，这一步中还可以集合其他学者使用不同方法得到的模拟结果，如加入SWAT模型对径流或输沙变化的模拟结果，作为该方法参与集合评估的成员。

S23：每种情况通过使用多组训练集分别训练获取相应的参数和通过选取获取相应的超参数以生成多组模型，所述模型个数与划分次数相同；

S24：从每种情况的所述多组模型中筛选出一组最优模型，最后从每种机器学习方法的多种情况中再筛选出一组结果最好的作为最终的最优模型；

以多元线性回归法为例，运用该方法在不同的时间尺度、不同的自变量组合下均能得到一个最优模型，在这些最优模型中选取最优的结果，作为该方法参与集合评估的最终模型，选取的原则依然是模型在训练集上的R²值和测试集R²值之和最大，同时，由于本实施例对数据集进行了100次随机划分，在这100个同类型的模型中，选择训练集R²值和测试集R²值之和最大的模型作为该方法多种划分方式下的最优模型。

所述第三步骤包括以下步骤：

S31：选取两个无量纲指标评估每种机器学习方法的一个最终的最优模型的模拟结果的好坏程度：决定系数R²和校正的决定系数Adjusted R²；

决定系数R²(coefficient of determination)的意义是：在回归模型中，由自变量导致的变异占因变量变异的比例。其计算公式为1减去残差平方和SSE(Sum of Squarefor Error)与总离差平方和SST(Sum of Square for Total)之比。其值越大，代表模型的拟合程度越高。

其中，y_i为样本的观测值(实际值)，

为模型的预测值(计算值)，

为y_i的平均值，n为样本总数。

水文领域中常用的纳什效率系数NSE(Nash-Sutcliffe efficiencycoefficient)的意义是：实际的序列和模型计算的序列之间的相似程度。其公式定义完全等价于决定系数R²。本实施例采用式(5-1)计算R²值代表NSE值或者R²的值，并在后续的图表中统一写作R²。

在训练集上(率定期内)，R²的取值范围通常为[0,1]；而测试集上(验证期内)NSE的取值范围通常小于1。

当自变量数目增加时，决定系数R²将不断增大，但这种增加的显著性没有在计算公式里得到体现。校正决定系数Adjusted R²在决定系数定义的基础上考虑了自变量数目的影响，增加了一个对自变量数目的惩罚因子，其取值范围为[0,1]，其值通常小于R²。当增加的自变量对因变量的影响不显著时，Adjusted R²值会下降；反之则Adjusted R²值会上升。使用校正决定系数在多元回归分析中更具有参考意义，其计算公式为：

其中，n为样本数目，p为自变量数目，R²为决定系数。

S32：选取两个与实际值相同量纲指标评估每种机器学习方法的一个最终的最优模型的模拟结果的好坏程度：平均绝对误差MAE(Mean Absolute Error)和均方根误差RMSE(Root Mean Squared Error)，通过比较不同模型的两个标准值的大小，来判断模型之间的优劣；

平均绝对误差MAE(Mean Absolute Error)表示的是计算值和实际值之间的绝对误差之和与样本数目n的比值。MAE的值越低，表明模型的计算值越接近实际值，模型模拟的结果越好，其计算公式如下：

均方根误差RMSE(Root Mean Squared Error)表示的是计算值与实际值之间的误差平方和与样本数目n的比值的平方根。同理，RMSE的值越低，表明模型的计算值越接近实际值，其计算公式为：

平均绝对误差MAE和均方根误差RMSE的取值均为正，并带有和实际值一样的量纲。其值越接近0，则表示模型模拟的效果越好。区别在于：前者采用的是L1范数，后者采用的是L2范数。对于L2范数来说，当计算值和实际值的误差较小时，误差值将容易被忽略掉；当计算值和实际值的误差较大时，高次的多项式会将误差放大。因而RMSE对误差较大的值比MAE更为敏感。

S33：选取三个基于最小化信息准则的指标平衡每种机器学习方法的一个最终的最优模型的拟合精度和复杂度；

对于机器学习方法，增加模型参数通常可以提高模拟的拟合精度，但同时也提高了模型本身的复杂度，可能会造成模型的过拟合。为了在模型的拟合精度和模型复杂度之间找到一种平衡，本实施例在模型评价准则中引入最小信息准则，即添加模型复杂度的惩罚项来降低发生过拟合的风险。

赤池信息准则AIC(Akiake Information Criterion)，AIC是由日本统计学家赤池弘次基于熵的概念提出的一种衡量模型优良的标准。AIC的定义如下式所示：

AIC＝2k-2In(L) (5)

其中，k为模型的参数数目，L为似然函数。当k的值增加时，似然函数值L也会相应地增加，从而使得AIC的值减小；当k值继续增加时，似然函数增长缓慢，使得AIC的值增长较快，此时模型很可能产生过拟合现象。因而，将AIC值最小化作目标函数，能够使得模型精度和模型复杂度达到平衡。

当样本数目n较小时，Sugiura et al.(1978)在AIC指标的理论基础上，提出了改进的指标AICc。其中，Burnham和Anderson(2002)的研究表明：当n增加时，AICc将会收敛到AIC，因此AICc指标可以适用于任何大小的样本数目，比AIC指标具有更好的适用性，其计算公式如下：

当样本数目n值很大时，AIC中似然函数提供的信息量会随之增大，但参数数目的惩罚因子恒为2，与样本数目n无关。因而当n值较大时，运用AIC准则选取的模型没有收敛到最优的模型，选取的模型的参数数目k会大于最优的模型。

Schwarz于1978年基于Bayes理论提出的贝叶斯信息准则BIC(BayesianInformation Criterion，也称作施瓦兹准则Schwarz Criterion)弥补了AIC的上述缺点，其计算公式为：

BIC＝kIn(n)-2In(L) (7)

本实施例在采用最小信息准则时，综合采用AIC、AICc和BIC三种指标来综合评价模型，三个指标的值越低，表明模型的模拟效果越好，其取值范围均没有限制。区别在于AICc和BIC均考虑了样本数目n的影响，而AIC的定义中则没有反映。三种指标的计算均需要用到对数似然值In(L)，其计算公式见式(8)。将该公式代入(5)、(6)和(7)中便可求得AIC、AICc和BIC的数值。其中，SSE为残差平方和。

S34：基于三种不同指标体系评估所述最终的最优模型给出评估结果。

实现该方法的一种流域水沙研究模型的集合评估系统，如图3所示，包括依次连接的研究对象确立装置、最优模型筛选装置和模型评估装置。所述研究对象确立装置确立流域、因变量、自变量和时间尺度；所述最优模型筛选装置筛选最优模型：首先将确立的流域水沙数据集随机置乱后切分为训练集和测试集，然后选取不同机器学习方法，将每种所述机器学习方法在不同的时间尺度和不同的自变量组合下分出多组模型，每组所述模型通过获取参数和筛选得到一组最优模型，最后每种机器学习方法的多组最优模型中再筛选出一组结果最好的作为最终的最优模型；所述模型评估装置基于三种不同指标体系评估所述最优模型，所述指标体系包括至少一个无量纲指标用于评估模型的优良性、至少一个与实际值相同量纲指标用于评估模型的优良性和至少一个基于最小信息准则的评价指标用于平衡模型拟合结果的优良性和复杂度。

优选的，所述研究对象确立装置包括依次连接的流域确立装置、因变量确立装置、时间尺度确立装置和自变量确立装置。

优选的，所述最优模型筛选装置包括依次连接的数据集划分装置、模型生成装置和模型筛选装置，所述数据集划分装置与所述研究对象确立装置连接，将被选取流域内的数据集随机置乱，然后通过多次划分方法切分为多组训练集和测试集；所述模型生成装置选取不同机器学习方法，选取不同机器学习方法，将每种所述机器学习方法按照不同的时间尺度和不同的自变量组合分流出多组以涵盖所有可能的情况，然后每种情况通过使用多组训练集分别训练获取相应的参数和通过选取获取相应的超参数以生成多组模型，所述模型个数与划分次数相同；所述模型筛选装置从每种情况的多组模型中筛选出一组最优模型，最后从每种机器学习方法的多种情况中再筛选出一组结果最好的作为最终的最优模型，或者说从所述最优模型中筛选出最终的最优模型。

所述模型评估装置包括第一指标装置、第二指标装置、第三指标装置和综合评估装置，所述第一指标装置与所述模型筛选装置连接，选取至少一个无量纲衡量指标评估每种机器学习方法的最优模型的模拟结果的好坏程度；所述第二指标装置选取至少一个与实际值相同量纲指标通过比较不用最优模型的标准值以判断模型的优劣；所述第三指标装置基于最小信息准则的评价指标平衡每种机器学习方法的最优模型的模型拟合结果的优良性和模型的复杂度；所述综合评估装置基于三种不同指标体系评估最优模型给出评估结果。

实施例1-4以及对比例1-2：皇甫川流域径流变化研究模型的集合评估方法

第一步骤，确立研究对象：针对皇甫川流域1982-2015年间的径流变化研究，共408个样本。本文在年尺度和月尺度上，选取了多元线性回归(MLR)、kNN回归(kNNR)和支持向量回归(SVR)三种方法。输出变量选取为径流，输入变量为降水项、蒸散发项和人类活动影响项共3类变量。时间尺度选择为年尺度和月尺度，确立的研究对象如表1所示。

表1皇甫川流域水沙变化关系变量选择

第二步骤，筛选最优模型：运用三种不同的机器学习方法得到最优的拟合结果获得最优模型，具体如下所述。

将每种所述机器学习方法在不同的时间尺度和不同的自变量组合下分流出4组模型三种方法共训练了12组的径流模型，涵盖了12种情况，如下表2所示。

对于上述12种情况的每种情况共进行了100次随机划分得到训练集，每次划分选取0.2的比例作为测试集，然后通过获取参数得到100个模型。在机器学习模型中需要确定的参数分为两类。第一类参数是由模型从数据中学习得来，如线性回归模型中的各个自变量的系数是通过使用训练集训练模型得到的；第二类参数称为超参数，需要人为确定，本文使用基于网格搜索方法和k折交叉验证方法确定各个模型中的超参数。在进行网格搜索过程中每选择一组超参数，会生成一个与该组超参数对应的模型，通过在模型在验证集上的评分来选择该模型最优的超参数。即在进行网格搜索的过程中，本文使用k折交叉验证的方法，将原始的训练集随机平均划分为k份，每次选取其中k-1份作为训练集，另外1份作为验证集。最优的超参数组合是在k个验证集下平均得分最高的模型。本文中k为5，即5折交叉验证。测试集则用来评估模型泛化能力的大小。

求出这100个模型在训练集R²和测试集R²，选取其中一组在训练集上R²和测试集上R²之和最大的模型作为最优模型，结果见表2右栏所示，按照同样方法分别求出每种机器方法的多种情况的最优模型。

表2皇甫川流域径流变化的多角度集合研究

最后从每种机器学习方法的多种情况中再筛选出一组结果最好的作为最终的最优模型，具体选择如下：

对于作为实施例1的多元线性回归模型，最终的最优模型是R02组第31次切分的结果：年尺度时，自变量选取为P,RH,A_total三个变量。此时训练期R²为0.63，测试期R²为0.92，训练样本37个，测试样本10个。

对于作为实施例2的SVR模型，最终的最优模型是R06组第60次切分的结果：年尺度时，自变量选取为P,RH,P*A_total三个变量，此时训练期R²为0.67，测试期R²为0.76。训练样本37个，测试样本10个。其中，超参数确立为：C＝1000，epsilon＝0.05,gamma＝0.001,kernel＝′sigmoid′。

对于作为实施例3的kNN回归模型，最终的最优模型是R09组第12次切分的结果：月尺度时，自变量选取为P,RH,NDVI三个变量，此时训练期R²为0.70，测试期R²为0.88。训练样本326个，测试样本82个。其中，超参数确立为：n_neighbors＝8,p＝7,weights＝′uniform′。

另外，还选取了作为实施例4的月尺度的SWAT模型，模型的率定期选取为1978-1980年，验证期为1981-2012年。模型的自变量为DEM数据、气象水文数据、土壤数据、土地利用数据等，模型的参数一共有10个，自变量有18个。训练样本36个，测试样本384个。

选取水文法和双累积曲线法作为对比例1-2，采用1954-2015年共62年的样本作为数据集，其中1954-1989年共36年为率定期，1990-2015年共26年为验证期。自变量只有降水量，模型有2个参数，两种方法分别编号为R-LR和R-DMC。

针对皇甫川流域径流变化的研究，每种模型具体信息如表3所示：

表3皇甫川流域径流变化研究选用的6种模型

第三步骤，集合评估，对于选定的6种模型，采用上述一种流域水沙研究模型的集合评估方法，不同模型对应的指标得分结果如表4所示。其中，R²值和Adjusted R²越大，表明模型越优；MAE和RMSE值越小，表明模型的平均误差越小，模型越优；AIC、AICc和BIC的值越小，模型越优。

表4皇甫川流域多种模型径流研究训练集(率定期)指标评分

注：MAE和RMSE指标的单位为：亿m³。

从上表4中可以看出，在率定期的径流变化模型研究中：SWAT模型的R²值和Adjusted R²值最优，kNN回归模型的MAE值、RMSE值、AIC值AICc值和BIC值都是最优的。kNN回归模型和SWAT模型在皇甫川流域的径流变化研究中均表现较优。

验证期的模拟结果表现的是模型的预测能力(泛化能力)的好坏，本实施例选取R²值、MAE值和RMSE值来衡量模型在验证期的表现。对于皇甫川流域，实施例1-4的四中模型在验证期的表现如表5所示。

表5皇甫川流域多种模型径流研究测试集(验证期)指标评分

从表5可以看出：MLR和kNN回归的R²值较优，kNN回归模型的MAE值、RMSE值均为最优。综合而言：kNN模型无论是在率定期还是验证期，在本实施例的指标体系下均表现较优，比较适用于皇甫川流域的径流变化研究。

实施例5-8以及对比例3-4：皇甫川流域输沙变化研究模型的集合评估方法

第一步骤，确立研究对象：研究皇甫川流域的输沙量变化，在年尺度和月尺度上，选取了多元线性回归、kNN回归和支持向量回归三种模型。

第二步骤，筛选最优模型：同时选择了不同类型的自变量组合方式，共训练了12组的输沙模型，涵盖了12种情况，如表6所示。

表6皇甫川流域输沙变化的多角度集合研究

备注：1991-1994年的月输沙量数据缺失。

按照实施例1-4同样的方法生成模型，按照同样的原则筛选出每种情况的一个最优模型。

多元线性回归模型作为实施例5，最优的模型是S02组第96次切分的结果：年尺度时，自变量选取为P,RH,A_total三个变量。此时训练期R²为0.39，测试期R²为0.83。训练样本37个，测试样本10个。

SVR模型作为实施例6，最优的模型组是S05组第次42切分的结果：年尺度时，自变量选取为P,RH,A_total三个变量，此时训练期R²为0.53，测试期R²为0.64。训练样本37个，测试样本10个。其中，超参数确立为：C＝1000,epsilon＝0.2,gamma＝0.01，kernel＝′sigmoid′。

kNN回归模型作为实施例6，最优的模型组是S09组第12次切分的结果：月尺度时，自变量选取为P,RH,NDVI三个变量，此时训练期R²为0.46，测试期R²为0.79。训练样本288个，测试样本72个。其中，超参数确立为：n_neighbors＝9,p＝7,weights＝′uniform′。

月尺度的SWAT模型作为实施例7，模型的率定期选取为1978-1980年，验证期为1981-2012年。模型的自变量为DEM数据、气象水文数据、土壤数据、土地利用数据等，模型的参数一共有20个，自变量有18个。训练样本36个，测试样本384个。

水文法和双累积曲线法作为对比例3-4，本实施例采用1954-2015年共62年的样本作为数据集，其中1954-1989年共36年为率定期，1990-2015年共26年为验证期。自变量只有降水量，模型有2个参数，两种方法分别编号为LR-S和DMC-S。

第三步骤，集合评估，依据上述一种流域水沙研究模型的集合评估方法，皇甫川流域输沙变化研究选用的6种模型的指标体系得分结果，如表7所示：

表7皇甫川流域多种模型输沙研究训练集(率定期)指标评分

注：MAE和RMSE指标的单位为：亿t。

从表7可以看出，在率定期的输沙变化模型研究中：SWAT模型的R²值和Adjusted R²值最优，kNN回归模型的MAE值、RMSE值、AIC值AICc值和BIC值都是最优的。kNN回归模型和SWAT模型在皇甫川流域的径流变化研究中均表现较优，这个结果和径流变化研究的结论完全一致。

本实施例选取R²值、MAE值和RMSE值来衡量模型在验证期的表现。对于皇甫川流域，6种模型在验证期的表现如表8所示。

表8皇甫川流域多种模型输沙研究测试集(验证期)指标评分

从表8中可看出：MLR和kNN回归的R²值均较优，而SWAT模型的R2值最低；kNN回归模型的MAE值、RMSE值均为最优，SWAT模型次之。综合而言：kNN模型在率定期还是验证期，在本实施例的指标体系下均表现较优，同样比较适用于皇甫川流域的输沙变化研究。

结论：

以皇甫川流域为案例，评价了多元线性回归模型、k近邻回归模型、支持向量回归模型和SWAT模型的表现，结果表明：k近邻回归模型在率定期和验证期均表现较优，是研究径流变化和输沙变化较优的方法，SWAT模型次之，多元线性回归模型和支持向量回归模型均表现一般。经验性模型在验证期的表现最差，不适用于模拟未来水沙变化的情况。

综上，本发明通过建立一套完整的模型评价指标体系，对径流和输沙变化研究模型进行集合评估，对不同模型的适用性给出定量指标。

Claims

1.一种流域水沙研究模型的智能集合评估方法，其特征在于包括以下步骤：

第二步骤，筛选最优模型：

S21:将已确立的流域水沙数据集随机置乱后通过多次划分方法得到多组训练集和测试集，所述水沙数据集包括因变量数据和自变量数据；

筛选所述最优模型时，将每种机器学习方法中在训练集上的相关系数的平方和和在测试集上的相关系数的平方和排序，选择最大值对应的模型为该种机器学习方法的最优模型；

2.根据权利要求1所述的方法，其特征在于使用基于网格搜索方法和k折交叉验证方法确立所述超参数，所述多次划分的次数为80-120次，所述k为3-8。

3.根据权利要求1所述的方法，其特征在于所述自变量包括至少包括降水因子项、气候因子项和人类活动影响项，所述因变量包括径流量和/或输沙量。

4.根据权利要求1所述的方法，其特征在于所述机器学习方法选自多元线性回归法、k近邻回归法、支持向量回归法和SWAT。

5.根据权利要求1-4任一所述的方法，其特征在于第三步骤中，所述无量纲指标包括决定系数和/或校正决定系数，所述决定系数为1减去残差平方和与总离差平方和之比，所述残差平方和表示实际值与计算值之间的误差平方和，所述总离差平方和表示实际值与其平均值之间的误差平方和，所述校正决定系数在所述决定系数的基础上考虑了自变量数目的影响，公式为

其中，n为样本数目，p为自变量数目，R²为决定系数；

所述贝叶斯信息准则的公式为BIC＝kIn(n)-2In(L)，对数函数的计算公式为

6.根据权利要求5所述的方法，其特征在于所述第三步骤具体包括以下步骤：首先选取至少一个所述无量纲指标评估多种所述最优模型的拟合度；其次选取至少一个所述与实际值相同量纲指标评估多种所述最优模型的平均误差；最后选取至少一个所述基于最小信息准则的评价指标在模型的拟合精度和模型复杂度之间找到一种平衡。

7.一种流域水沙研究模型的集合评估系统，其特征在于包括依次连接的研究对象确立装置、最优模型筛选装置和模型评估装置，

所述模型评估装置基于三种不同指标体系评估所述最优模型，所述指标体系包括至少一个无量纲指标用于评估模型的优良性、至少一个与实际值相同量纲指标用于评估模型的优良性和至少一个基于最小信息准则的评价指标用于平衡模型拟合结果的优良性和复杂度；

8.根据权利要求7所述的系统，其特征在于所述模型评估装置包括第一指标装置、第二指标装置、第三指标装置和综合评估装置，所述第一指标装置与所述模型筛选装置连接，选取至少一个无量纲衡量指标评估每种机器学习方法的最终的最优模型的模拟结果的好坏程度；所述第二指标装置选取至少一个与实际值相同量纲指标通过比较不同最终的最优模型的标准值以判断模型的优劣；所述第三指标装置基于最小信息准则的评价指标平衡每种机器学习方法的最终的最优模型的模型拟合结果的优良性和模型的复杂度；所述综合评估装置基于三种不同指标体系评估所述最终的最优模型给出评估结果。