CN117131977A

CN117131977A - 一种基于误判风险最小准则的径流预报样本集划分方法

Info

Publication number: CN117131977A
Application number: CN202311002894.3A
Authority: CN
Inventors: 丁小玲; 胡维忠; 罗斌; 陈尚法; 唐海华; 苏培芳; 蔡林杰; 周超; 冯快乐
Original assignee: Changjiang Institute of Survey Planning Design and Research Co Ltd
Current assignee: Changjiang Institute of Survey Planning Design and Research Co Ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-11-28
Anticipated expiration: 2043-08-09
Also published as: CN117131977B

Abstract

一种基于误判风险最小准则的径流预报样本集划分方法，包括：根据选择的数据驱动模型建立预报因子和径流之间的映射关系表达式；采用实测样本集率定数据驱动模型，作为数据驱动模型的总体估计，数据驱动模型对实测样本集的拟合精度即为总体精度的估计；从所估计的总体中进行随机抽样，将样本集划分为训练集和测试集，进行模型率定和检验；给定多组训练集、测试集划分方案，对每个划分方案，到随机抽样的预测精度样本集；计算不同划分方案下的预测精度分布与总体精度的偏离程度，根据偏离程度选择最佳或合理的样本集划分。本发明可有效减小因抽样不确定性而导致的预测精度指标对模型预测效果的误判风险，提高预报模型预测精度检验结果的可靠性。

Description

一种基于误判风险最小准则的径流预报样本集划分方法

技术领域

本发明涉及水文径流预报技术领域，具体是一种基于误判风险最小准则的径流预报样本集划分方法。

背景技术

由于受众多复杂因素的影响，水文径流序列具有较强随机性，且受限于长预见期、观测序列较短等局限，年径流预报一直是水文领域研究的难题。数据驱动模型是实现年径流预报的重要手段，而模型预测性能受到训练样本和模型选择的影响，为了避免出现模型对训练样本的“过拟合”或“欠拟合”的问题，通常在训练集以外余留一部分样本作为测试集以检验模型在未知数据的泛化预测能力。因此，样本集划分是径流预报模型构建的关键环节。

传统预报建模方法的一般思路是将样本数据按照不小于1：1的经验比例划分为训练集和测试集，采用训练集的样本进行模型率定，采用测试集样本进行模型的预测精度检验。在样本集划分方面，训练集与测试集比例范围一般在10:1至1:1之间，4:1、5:1为常用划分比例。然而，若径流观测序列较短，如年径流通常为数十年，预留较小比例的测试样本，可能因样本量过小而导致模型预测精度的评判风险。

实际上，根据数理统计推断理论，训练集和测试集均为来自总体的抽样，训练集或测试集划分比例过小，均会增大预测精度检验结果偏离总体模型精度的不确定性，从而增加预测精度指标对模型预测效果的误判风险。如何有效地利用已知样本进行模型率定，并对模型预测精度给出可靠的评价，是样本集划分亟待解决的难点问题。

发明内容

针对上述存在的难点问题和技术瓶颈，本发明提供一种基于预测精度误判风险最小准则的径流预报样本集划分方法，可有效减小因抽样不确定性而导致的预测精度指标对模型预测效果的误判风险，提高预报模型预测精度检验结果的可靠性。

本发明通过如下技术方案实现：

一种基于预测精度误判风险最小准则的径流预报样本集划分方法，包括如下步骤：

步骤1：根据历史径流数据或气象数据筛选径流的预报因子，根据选择的数据驱动模型建立预报因子和径流之间的映射关系表达式：

y＝f(X；ω)+ε，ε～g(θ) (1)

式中，输入变量X为与径流具有相关性的预报因子；输出变量y为径流；f(X；ω)为具有一定结构特征的模型形式；ω为模型参数，通过历史样本训练得到；ε为分布函数为g(θ)的随机项，θ为分布函数的参数；

步骤2：将样本容量为L的实测样本集记为采用实测样本集/>率定数据驱动模型y＝f(X；ω^*)+ε,ε～g(θ^*)，作为数据驱动模型的总体估计，数据驱动模型对实测样本集/>的拟合精度即为总体精度的估计，记为σ^*；

步骤3：采用蒙特卡洛法从步骤2中所估计的总体中进行C次样本容量为L的随机抽样，一次抽样记为样本集D_L，将样本集D_L划分为样本容量分别为n和m的训练集D_L,n＝(X_n,y_n)和测试集D_L,m＝(X_m,y_m)，记该样本集划分方案为L(n,m)，将训练集D_L,n用于模型参数率定，测试集D_L,m用于模型预测精度的检验；

步骤4：给定多组训练集、测试集划分方案L(n,m)，对每个划分方案L(n,m)，采用步骤3得到的C次抽样进行模型率定和检验，得到C次随机抽样的预测精度样本集；

步骤5：根据各划分方案L(n,m)的预测精度样本集，分别计算不同划分方案L(n,m)下的预测精度σ(n,m)样本分布偏离σ^*的不确定性程度，即偏离程度，代表预测精度σ(n,m)对模型预测精度的误判风险；

步骤6：根据步骤5计算所得预测精度σ(n,m)样本与真实预测精度估计σ^*的偏离程度，基于误判风险最小准则选择最佳的样本集划分L(n^r,m^r)，得到最佳样本集划分容量；若给定某一风险容许阈值，可确定误判风险尽可能小的合理样本集划分范围，得到合理样本集划分容量。

进一步的，步骤2中的拟合精度包括均方根误差、平均绝对误差、相关性系数。

进一步的，步骤4中采用步骤3得到的C次抽样进行模型率定和检验，具体包括：

步骤4.1：预报模型率定

预报模型率定是根据给定的训练样本集，按照有利于减小模型预测误差的目标函数进行模型参数求解的过程，包括目标函数构造和优化目标求解；

目标函数由拟合误差函数和惩罚函数组成，目标函数如下：

式中，L(yⁱ,f(Xⁱ；ω))为模型的拟合误差，代表模型尽可能拟合训练样本；n为训练样本容量；λΩ(ω)为约束模型过拟合而引入的惩罚函数，以提高模型在未知样本集的泛化能力，将采用训练集率定得到的预报模型称为“经验模型”，记为ω^*为目标函数(2)所求解的参数；

步骤4.2：预测精度检验

为检验模型对未知样本的预测性能，采用未用于模型训练的样本作为测试集，对模型的预测精度进行检验，所述测试集的预测精度指标采用均方根误差、平均绝对误差或相关性系数。

进一步的，所述步骤5中的偏离程度采用三种指标进行定义：

5.1平均偏差指标

记样本集划分容量为L(n,m)的预报模型统计试验抽样次数为C，记C次抽样的测试集预测精度样本集为σ_m，其中第c个样本为σ_m(c)，采用均方根距离指标量化σ_m(c∈C)与真实精度σ^*的平均偏离程度，定义平均偏差指标d(n,m,σ^*)，计算公式如下：

式中，平均偏差指标越小反映预测精度分布不确定性越小，误判风险越小；

5.2风险系数指标

若已知样本集划分L(n,m)条件下模型在测试集的预测精度σ(n,m)的概率分布，记给定置信水平1-α下σ(n,m)分布的置信区间宽度为w_α(n,m)，置信区间越窄，预测精度分布的不确定性越小；

记σ(n,m)样本的分布函数为F(σ)，该分布的α/2分位数和1-α/2分位数分别为σ_α/2和σ_1-α/2，又称该分布的α/2下分位数和α/2上分位数，σ(n,m)落在σ_α/2和σ_1-α/2之间的概率P满足以下条件：

P{σ_α/2≤σ(n,m)≤σ_1-α/2}＝1-α (4)

计算置信水平1-α、样本划分L(n,m)下预测精度的置信区间宽度w_α(n,m)为：

w_α(n,m)＝σ_1-α/2-σ_α/2 (5)

定义“预报风险系数”为区间宽度w_α(n,m)与真实精度σ^*的比值，公式如下：

r_α(n,m)＝w_α(n,m)/σ^* (6)

式中，风险系数r_α(n,m)越小，代表模型在样本划分L(n,m)下的预测精度误判风险越小；

5.3误判率指标

记σ(n,m)样本的分布函数为F(σ)，容许区间下限σ^*-δ和上限σ^*+δ在分布F(σ)的分位数分别为p_下和p_上，则σ(n,m)落在容许区间[σ^*-δ,σ^*+δ]的概率P即为置信水平α_δ，满足以下条件：

α_δ＝P{σ^*-δ≤σ(n,m)≤σ^*+δ}＝p_上-p_下 (7)

定义测试精度的“误判率”为σ(n,m)落在容许区间[σ^*-δ,σ^*+δ]以外的概率，误判率β计算公式为：

β＝1-α_δ (8)

式中，误判率β越小，代表模型在样本划分L(n,m)下的预测精度误判风险越小。

本发明的效果与优势：

(1)步骤2～4中考虑样本集划分对预测精度不确定性的影响，采用蒙特卡罗法模拟预测精度的抽样分布；步骤5～6为定义了预测精度的风险评价指标并基于预测精度误判风险最小准则进行样本集划分，有效提高了模型预测精度检验结果的可靠性。如图5所示，本发明方法相较于传统的2：1和4:1等经验比例具有优越性。

(2)本发明考虑样本集划分对不同模型的预测精度不确定性的差异，提供一种具有模型适应性的样本集动态划分方法，为已知样本选择不同模型下的最佳样本划分方案。如实施例中图4所示，不同模型的最佳划分比例为动态变化的。

(3)本发明提供一种误判风险最小的样本集划分准则，是一种用于样本集划分的新思路和框架，步骤5中误判风险及用于计算该风险的预测精度指标均可根据建模者所关心模型预测效果的不同角度进行定义。

附图说明

图1为本发明一种基于误判风险最小准则的径流预报样本集划分方法的实施流程图；

图2为本发明实施例中实测年径流序列变化过程图；

图3为本发明实施例中均值模型的三种误判风险指标随训练集样本容量n的变化曲线对比图；

图4为本发明实施例中样本数据在均值模型、SVR(1)、SVR(2)和SVR(3)模型的最佳样本划分结果对比图；

图5为本发明实施例中均值模型、SVR(1)、SVR(2)和SVR(3)在最佳样本划分与传统经验比例(2:1和4:1)下的预测精度误判风险对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例所提供的基于误判风险最小准则的径流预报样本集划分方法，包括以下步骤：

步骤1：根据历史径流数据或气象数据等筛选径流的预报因子，根据建模者偏好或依据数据特征选择合适的。数据驱动模型的通用表达式如下：

y＝f(X；ω)+ε，ε～g(θ) (1)

式中，输入变量X为与径流具有相关性的预报因子，如自相关因子或外部成因相关因子；输出变量y为径流；f(X；ω)为具有一定结构特征的模型形式；ω为模型参数，通过历史样本训练得到；ε为分布函数为g(θ)的随机项，θ为分布函数的参数。

本实施例收集的1956年至2010年的年径流数据，样本容量为55。径流序列如图2所示，对55年实测径流序列的随机特性进行分析，建立自相关模型。

采用线性相关性系数法检验结果为自相关性不显著，因此可选择均值模型y＝b+ε作为模型表达式，b为样本均值，ε为服从某一分布的纯随机成分。

步骤2：将样本容量为L的实测样本集记为采用实测样本集/>率定数据驱动模型y＝f(X；ω^*)+ε,ε～g(θ^*)，作为数据驱动模型的总体估计，数据驱动模型对实测样本集/>的拟合精度即为总体精度的估计，记为σ^*；精度可选择均方根误差、平均绝对误差、相关性系数等不同指标。

本实施例采用样本容量为55的实测样本对均值模型进行参数率定，均值模型以均方误差(MSE)为目标函数，采用最小二乘法求解；对拟合残差的正态性进行检验，模型的残差均满足正态分布。

通过所率定的经验模型和正态分布残差对总体进行估计，以均方根误差为指标计算拟合精度σ^*＝698，作为对模型真实预测精度的估计。

步骤3：依据步骤2中均值模型估计的总体，采用蒙特卡罗法从总体中进行C＝500次、样本容量为L＝55的随机抽样，一次抽样记为样本集D_L。将一次抽样划分的训练集和测试集样本容量分别为n和m，记为L(n,m)，设置46组L(n,m)方案：n在5～50之间，相应的m在50～5之间变化。

步骤4：对每一组样本集划分方案L(n,m)，进行C＝500次抽样的预报模型试验，即采用样本容量为n的测试集进行参数率定，用样本容量为m的测试集进行预测精度检验，预测精度采用均方根误差指标，得到样本划分容量为(n,m)下的预测精度σ(n,m)样本集；依次得到46组方案的测试集预测精度样本集。

步骤5：根据步骤4中各L(n,m)的σ(n,m)样本集，计算预测精度σ(n,m)样本与真实预测精度估计σ^*的偏离程度，代表σ(n,m)对模型预测精度的误判风险。

基于σ(n,m)样本和的距离，按照公式(2.16)计算平均偏差指标d(n,m,σ^*)；设置显著性水平α＝0.05，按照公式(2.19)计算预报风险系数r_α(n,m)；设置容许区间[σ^*-0.1σ^*,σ^*+0.1σ^*]，按公式(2.21)计算误判率β。绘制平均偏差d(n,m,σ^*)、风险系数r_α(n,m)和误判率β随训练集样本容量n的变化过程如图3所示，相应的测试集样本容量m＝55-n。

步骤6：误判风险指标可选择步骤5中的任一评价指标。基于误判风险最小准则选择最佳样本集划分L(n^r,m^r)，得到最佳样本集划分容量；或根据给定风险容许阈值选择合理的样本集划分范围，得到合理样本集划分容量。

下面给出“最佳样本集划分容量”和“合理样本集划分容量”的定义：

定义1：若d(n,m,σ^*)、β或r_α(n,m)在多组样本集划分方案L(n,m)中取得最小值，将风险最小的样本集划分容量称为“最佳样本集容量”，基于最佳样本容量构建的预报模型可使得预测精度最接近真实σ^*，模型的预报风险最小；

定义2：若给定一个较小的阈值δ，认为d(n,m,σ^*)≤δ时，预报模型的预测精度与σ^*的偏离程度即误判风险是可接受的容许范围，将对应的多个样本集划分方案的样本容量称为“合理样本集容量”。

根据图3中的曲线结果，计算r_α(n,m)、误判率β与d(n,m,σ^*)的皮尔逊相关性系数均超过0.9，变化趋势具有较强的一致性，且三个风险评价指标均在n＝15(m＝40)时取得最小值，可推荐出最佳的样本容量划分方案L(15,40)，此时的测试集预测精度分布不确定性最小。当样本划分比例大于15:40时，三种预报风险指标均随训练集划分比例的增大(测试集划分比例减小)呈递增趋势。若按照传统建模方法中大于1:1的样本划分比例，随着训练集占比的增大，预测精度抽样分布与模型真实精度的偏离逐渐增大，即误判风险增大。

进一步，选取不同的模型，对样本集划分的结果进行比较：

在步骤1中采用“互信息”量化实测径流序列的一阶、二阶和三阶非线性自相关性，互信息计算结果分别为0.26、0.35和0.24，表明径流序列存在一定的非线性自相关性，因此选择支持向量回归(SVR)作为非线性模型假设，考虑自相关阶数p＝1,2,3三种自相关因子，分别将三种模型形式记为SVR(1)、SVR(2)和SVR(3)，选择径向基核函数。

在步骤2中，采用样本容量为55的实测样本对SVR(1)、SVR(2)和SVR(3)模型进行率定，采用拉格朗日乘子法求解。模型的残差均满足正态分布，3个模型的拟合精度分别为679、599和534。

在步骤3中，采用SVR(1)、SVR(2)和SVR(3)模型及正态分布残差进行总体估计。进而，按照步骤4～6，进行基于误判风险最小准则的最佳样本集划分。

对不同模型的最佳样本划分进行对比，绘制4个模型的平均偏差d(n,m,σ^*)随训练集样本容量n的变化过程如图4所示，相应的测试集样本容量m＝55-n。

实施例中实例模型为均值模型时，在样本容量为55的最佳训练样本比例相对较小(训练:检验＝15:40)。6种模型的最佳样本划分在15:40～26:29之间。可以看出，对于相同的实测样本集，当模型形式(复杂度)不同时，基于该准则所寻求的最佳样本划分“均衡点”均可能是变化的。

若设置阈值δ＝min(d)+0.02σ^*可得到合理的样本划分范围，使得误判风险在可接受的容许范围内。其中，min(d)为d(n,m,σ^*)在n＝5～50变化下取得的最小值。4个模型在d(n,m,σ^*)小于阈值δ＝min(d)+0.02σ^*的n取值范围如图4所示。

进一步，将以上提供的样本集划分方法与传统方法进行比较：

根据误判风险最小准则、传统经验划分比例(2:1和4:1)等三种样本集划分方案下的预测精度抽样分布，按照公式(3)、(3)和(7)计算平均偏差指标d(n,m,σ^*)、风险系数r_α(n,m)和误判率β等三种预报风险指标。设置r_α(n,m)显著性水平α＝0.05，误判率的容许区间为[σ^*-0.1σ^*,σ^*+0.1σ^*]。

给出均值模型、SVR(1)、SVR(2)和SVR(3)等4种模型在本发明方法与传统经验比例(2:1和4:1)下的误判风险对比，如图5所示。

由图5的结果可知，基于2:1样本划分方案的d(n,m,σ^*)、r_α(n,m)和误判率β分别增加至最佳样本划分方案的1.18～1.43倍、1.08～1.43倍和1.17～1.6倍，4:1样本划分方案的三种风险指标分别增加至最佳样本划分方案的1.48～1.84倍、1.31～1.83倍和1.17～1.94倍。若以4:1划分比例为比较基准，以误判率β为风险指标，6种模型在最佳样本划分方案的误判风险相较于基准方案分别减小了49％、29％、33％、23％、26％和15％，验证了所提误判风险最小准则在不同模型的样本集划分应用中均具有优越性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何属于本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于误判风险最小准则的径流预报样本集划分方法，其特征在于，包括如下步骤：

y＝f(X；ω)+ε，ε～g(θ) (1)

步骤2：将样本容量为L的实测样本集记为采用实测样本集/>率定数据驱动模型y＝f(X；ω^*)+ε，ε～g(θ^*)，作为数据驱动模型的总体估计，数据驱动模型对实测样本集/>的拟合精度即为总体精度的估计，记为σ^*；

步骤3：采用蒙特卡洛法从步骤2中所估计的总体中进行C次样本容量为L的随机抽样，一次抽样记为样本集D_L，将样本集D_L划分为样本容量分别为n和m的训练集D_L，n＝(X_n，y_n)和测试集D_L，m＝(X_m，y_m)，记该样本集划分方案为L(n，m)，将训练集D_L，n用于模型参数率定，测试集D_L，m用于模型预测精度的检验；

步骤4：给定多组训练集、测试集划分方案L(n，m)，依次对每个划分方案L(n，m)，采用步骤3得到的C次抽样进行模型率定和检验，得到C次随机抽样的预测精度样本集；

步骤5：根据各划分方案L(n，m)的预测精度样本集，分别计算不同划分方案L(n，m)下的预测精度σ(n，m)样本分布偏离σ^*的不确定性程度，即偏离程度，代表预测精度σ(n，m)对模型预测精度的误判风险；

步骤6：根据步骤5计算所得预测精度σ(n，m)样本与真实预测精度估计σ^*的偏离程度，选择最佳样本集划分L(n^r，m^r)，得到最佳样本集划分容量；或给定某一风险容许阈值，确定合理的样本集划分范围，得到合理样本集划分容量。

2.如权利要求1所述的基于误判风险最小准则的径流预报样本集划分方法，其特征在于：步骤2中的拟合精度包括均方根误差、平均绝对误差、相关性系数。

3.如权利要求1所述的基于误判风险最小准则的径流预报样本集划分方法，其特征在于：步骤4采用步骤3得到的C次抽样进行模型率定和检验，具体包括：

步骤4.1：预报模型率定

目标函数由拟合误差函数和惩罚函数组成，目标函数如下：

步骤4.2：预测精度检验

4.如权利要求1所述的基于误判风险最小准则的径流预报样本集划分方法，其特征在于：所述步骤5中的偏离程度采用三种指标进行定义：

5.1平均偏差指标

5.2风险系数指标

P{σ_α/2≤σ(n,m)≤σ_1-α/2}＝1-α (4)

w_α(n,m)＝σ_1-α/2-σ_α/2 (5)

r_α(n,m)＝w_α(n,m)/σ^* (6)

5.3误判率指标

α_δ＝P{σ^*-δ≤σ(n,m)≤σ^*+δ}＝p_上-p_下 (7)

定义测试精度的“误判率”为σ(n，m)落在容许区间[σ^*-δ，σ^*+δ]以外的概率，误判率β计算公式为：

β＝1-α_δ (8)

式中，误判率β越小，代表模型在样本划分L(n，m)下的预测精度误判风险越小。