CN117131977A - 一种基于误判风险最小准则的径流预报样本集划分方法 - Google Patents
一种基于误判风险最小准则的径流预报样本集划分方法 Download PDFInfo
- Publication number
- CN117131977A CN117131977A CN202311002894.3A CN202311002894A CN117131977A CN 117131977 A CN117131977 A CN 117131977A CN 202311002894 A CN202311002894 A CN 202311002894A CN 117131977 A CN117131977 A CN 117131977A
- Authority
- CN
- China
- Prior art keywords
- model
- sigma
- sample
- sample set
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000000638 solvent extraction Methods 0.000 title claims description 12
- 238000012360 testing method Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 19
- 238000007689 inspection Methods 0.000 claims abstract description 5
- 238000013507 mapping Methods 0.000 claims abstract description 3
- 238000005315 distribution function Methods 0.000 claims description 10
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000002349 favourable effect Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims description 2
- 238000000528 statistical test Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 230000001364 causal effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
Abstract
一种基于误判风险最小准则的径流预报样本集划分方法,包括:根据选择的数据驱动模型建立预报因子和径流之间的映射关系表达式;采用实测样本集率定数据驱动模型,作为数据驱动模型的总体估计,数据驱动模型对实测样本集的拟合精度即为总体精度的估计;从所估计的总体中进行随机抽样,将样本集划分为训练集和测试集,进行模型率定和检验;给定多组训练集、测试集划分方案,对每个划分方案,到随机抽样的预测精度样本集;计算不同划分方案下的预测精度分布与总体精度的偏离程度,根据偏离程度选择最佳或合理的样本集划分。本发明可有效减小因抽样不确定性而导致的预测精度指标对模型预测效果的误判风险,提高预报模型预测精度检验结果的可靠性。
Description
技术领域
本发明涉及水文径流预报技术领域,具体是一种基于误判风险最小准则的径流预报样本集划分方法。
背景技术
由于受众多复杂因素的影响,水文径流序列具有较强随机性,且受限于长预见期、观测序列较短等局限,年径流预报一直是水文领域研究的难题。数据驱动模型是实现年径流预报的重要手段,而模型预测性能受到训练样本和模型选择的影响,为了避免出现模型对训练样本的“过拟合”或“欠拟合”的问题,通常在训练集以外余留一部分样本作为测试集以检验模型在未知数据的泛化预测能力。因此,样本集划分是径流预报模型构建的关键环节。
传统预报建模方法的一般思路是将样本数据按照不小于1:1的经验比例划分为训练集和测试集,采用训练集的样本进行模型率定,采用测试集样本进行模型的预测精度检验。在样本集划分方面,训练集与测试集比例范围一般在10:1至1:1之间,4:1、5:1为常用划分比例。然而,若径流观测序列较短,如年径流通常为数十年,预留较小比例的测试样本,可能因样本量过小而导致模型预测精度的评判风险。
实际上,根据数理统计推断理论,训练集和测试集均为来自总体的抽样,训练集或测试集划分比例过小,均会增大预测精度检验结果偏离总体模型精度的不确定性,从而增加预测精度指标对模型预测效果的误判风险。如何有效地利用已知样本进行模型率定,并对模型预测精度给出可靠的评价,是样本集划分亟待解决的难点问题。
发明内容
针对上述存在的难点问题和技术瓶颈,本发明提供一种基于预测精度误判风险最小准则的径流预报样本集划分方法,可有效减小因抽样不确定性而导致的预测精度指标对模型预测效果的误判风险,提高预报模型预测精度检验结果的可靠性。
本发明通过如下技术方案实现:
一种基于预测精度误判风险最小准则的径流预报样本集划分方法,包括如下步骤:
步骤1:根据历史径流数据或气象数据筛选径流的预报因子,根据选择的数据驱动模型建立预报因子和径流之间的映射关系表达式:
y=f(X;ω)+ε,ε~g(θ) (1)
式中,输入变量X为与径流具有相关性的预报因子;输出变量y为径流;f(X;ω)为具有一定结构特征的模型形式;ω为模型参数,通过历史样本训练得到;ε为分布函数为g(θ)的随机项,θ为分布函数的参数;
步骤2:将样本容量为L的实测样本集记为采用实测样本集/>率定数据驱动模型y=f(X;ω*)+ε,ε~g(θ*),作为数据驱动模型的总体估计,数据驱动模型对实测样本集/>的拟合精度即为总体精度的估计,记为σ*;
步骤3:采用蒙特卡洛法从步骤2中所估计的总体中进行C次样本容量为L的随机抽样,一次抽样记为样本集DL,将样本集DL划分为样本容量分别为n和m的训练集DL,n=(Xn,yn)和测试集DL,m=(Xm,ym),记该样本集划分方案为L(n,m),将训练集DL,n用于模型参数率定,测试集DL,m用于模型预测精度的检验;
步骤4:给定多组训练集、测试集划分方案L(n,m),对每个划分方案L(n,m),采用步骤3得到的C次抽样进行模型率定和检验,得到C次随机抽样的预测精度样本集;
步骤5:根据各划分方案L(n,m)的预测精度样本集,分别计算不同划分方案L(n,m)下的预测精度σ(n,m)样本分布偏离σ*的不确定性程度,即偏离程度,代表预测精度σ(n,m)对模型预测精度的误判风险;
步骤6:根据步骤5计算所得预测精度σ(n,m)样本与真实预测精度估计σ*的偏离程度,基于误判风险最小准则选择最佳的样本集划分L(nr,mr),得到最佳样本集划分容量;若给定某一风险容许阈值,可确定误判风险尽可能小的合理样本集划分范围,得到合理样本集划分容量。
进一步的,步骤2中的拟合精度包括均方根误差、平均绝对误差、相关性系数。
进一步的,步骤4中采用步骤3得到的C次抽样进行模型率定和检验,具体包括:
步骤4.1:预报模型率定
预报模型率定是根据给定的训练样本集,按照有利于减小模型预测误差的目标函数进行模型参数求解的过程,包括目标函数构造和优化目标求解;
目标函数由拟合误差函数和惩罚函数组成,目标函数如下:
式中,L(yi,f(Xi;ω))为模型的拟合误差,代表模型尽可能拟合训练样本;n为训练样本容量;λΩ(ω)为约束模型过拟合而引入的惩罚函数,以提高模型在未知样本集的泛化能力,将采用训练集率定得到的预报模型称为“经验模型”,记为ω*为目标函数(2)所求解的参数;
步骤4.2:预测精度检验
为检验模型对未知样本的预测性能,采用未用于模型训练的样本作为测试集,对模型的预测精度进行检验,所述测试集的预测精度指标采用均方根误差、平均绝对误差或相关性系数。
进一步的,所述步骤5中的偏离程度采用三种指标进行定义:
5.1平均偏差指标
记样本集划分容量为L(n,m)的预报模型统计试验抽样次数为C,记C次抽样的测试集预测精度样本集为σm,其中第c个样本为σm(c),采用均方根距离指标量化σm(c∈C)与真实精度σ*的平均偏离程度,定义平均偏差指标d(n,m,σ*),计算公式如下:
式中,平均偏差指标越小反映预测精度分布不确定性越小,误判风险越小;
5.2风险系数指标
若已知样本集划分L(n,m)条件下模型在测试集的预测精度σ(n,m)的概率分布,记给定置信水平1-α下σ(n,m)分布的置信区间宽度为wα(n,m),置信区间越窄,预测精度分布的不确定性越小;
记σ(n,m)样本的分布函数为F(σ),该分布的α/2分位数和1-α/2分位数分别为σα/2和σ1-α/2,又称该分布的α/2下分位数和α/2上分位数,σ(n,m)落在σα/2和σ1-α/2之间的概率P满足以下条件:
P{σα/2≤σ(n,m)≤σ1-α/2}=1-α (4)
计算置信水平1-α、样本划分L(n,m)下预测精度的置信区间宽度wα(n,m)为:
wα(n,m)=σ1-α/2-σα/2 (5)
定义“预报风险系数”为区间宽度wα(n,m)与真实精度σ*的比值,公式如下:
rα(n,m)=wα(n,m)/σ* (6)
式中,风险系数rα(n,m)越小,代表模型在样本划分L(n,m)下的预测精度误判风险越小;
5.3误判率指标
记σ(n,m)样本的分布函数为F(σ),容许区间下限σ*-δ和上限σ*+δ在分布F(σ)的分位数分别为p下和p上,则σ(n,m)落在容许区间[σ*-δ,σ*+δ]的概率P即为置信水平αδ,满足以下条件:
αδ=P{σ*-δ≤σ(n,m)≤σ*+δ}=p上-p下 (7)
定义测试精度的“误判率”为σ(n,m)落在容许区间[σ*-δ,σ*+δ]以外的概率,误判率β计算公式为:
β=1-αδ (8)
式中,误判率β越小,代表模型在样本划分L(n,m)下的预测精度误判风险越小。
本发明的效果与优势:
(1)步骤2~4中考虑样本集划分对预测精度不确定性的影响,采用蒙特卡罗法模拟预测精度的抽样分布;步骤5~6为定义了预测精度的风险评价指标并基于预测精度误判风险最小准则进行样本集划分,有效提高了模型预测精度检验结果的可靠性。如图5所示,本发明方法相较于传统的2:1和4:1等经验比例具有优越性。
(2)本发明考虑样本集划分对不同模型的预测精度不确定性的差异,提供一种具有模型适应性的样本集动态划分方法,为已知样本选择不同模型下的最佳样本划分方案。如实施例中图4所示,不同模型的最佳划分比例为动态变化的。
(3)本发明提供一种误判风险最小的样本集划分准则,是一种用于样本集划分的新思路和框架,步骤5中误判风险及用于计算该风险的预测精度指标均可根据建模者所关心模型预测效果的不同角度进行定义。
附图说明
图1为本发明一种基于误判风险最小准则的径流预报样本集划分方法的实施流程图;
图2为本发明实施例中实测年径流序列变化过程图;
图3为本发明实施例中均值模型的三种误判风险指标随训练集样本容量n的变化曲线对比图;
图4为本发明实施例中样本数据在均值模型、SVR(1)、SVR(2)和SVR(3)模型的最佳样本划分结果对比图;
图5为本发明实施例中均值模型、SVR(1)、SVR(2)和SVR(3)在最佳样本划分与传统经验比例(2:1和4:1)下的预测精度误判风险对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例所提供的基于误判风险最小准则的径流预报样本集划分方法,包括以下步骤:
步骤1:根据历史径流数据或气象数据等筛选径流的预报因子,根据建模者偏好或依据数据特征选择合适的。数据驱动模型的通用表达式如下:
y=f(X;ω)+ε,ε~g(θ) (1)
式中,输入变量X为与径流具有相关性的预报因子,如自相关因子或外部成因相关因子;输出变量y为径流;f(X;ω)为具有一定结构特征的模型形式;ω为模型参数,通过历史样本训练得到;ε为分布函数为g(θ)的随机项,θ为分布函数的参数。
本实施例收集的1956年至2010年的年径流数据,样本容量为55。径流序列如图2所示,对55年实测径流序列的随机特性进行分析,建立自相关模型。
采用线性相关性系数法检验结果为自相关性不显著,因此可选择均值模型y=b+ε作为模型表达式,b为样本均值,ε为服从某一分布的纯随机成分。
步骤2:将样本容量为L的实测样本集记为采用实测样本集/>率定数据驱动模型y=f(X;ω*)+ε,ε~g(θ*),作为数据驱动模型的总体估计,数据驱动模型对实测样本集/>的拟合精度即为总体精度的估计,记为σ*;精度可选择均方根误差、平均绝对误差、相关性系数等不同指标。
本实施例采用样本容量为55的实测样本对均值模型进行参数率定,均值模型以均方误差(MSE)为目标函数,采用最小二乘法求解;对拟合残差的正态性进行检验,模型的残差均满足正态分布。
通过所率定的经验模型和正态分布残差对总体进行估计,以均方根误差为指标计算拟合精度σ*=698,作为对模型真实预测精度的估计。
步骤3:依据步骤2中均值模型估计的总体,采用蒙特卡罗法从总体中进行C=500次、样本容量为L=55的随机抽样,一次抽样记为样本集DL。将一次抽样划分的训练集和测试集样本容量分别为n和m,记为L(n,m),设置46组L(n,m)方案:n在5~50之间,相应的m在50~5之间变化。
步骤4:对每一组样本集划分方案L(n,m),进行C=500次抽样的预报模型试验,即采用样本容量为n的测试集进行参数率定,用样本容量为m的测试集进行预测精度检验,预测精度采用均方根误差指标,得到样本划分容量为(n,m)下的预测精度σ(n,m)样本集;依次得到46组方案的测试集预测精度样本集。
步骤5:根据步骤4中各L(n,m)的σ(n,m)样本集,计算预测精度σ(n,m)样本与真实预测精度估计σ*的偏离程度,代表σ(n,m)对模型预测精度的误判风险。
基于σ(n,m)样本和的距离,按照公式(2.16)计算平均偏差指标d(n,m,σ*);设置显著性水平α=0.05,按照公式(2.19)计算预报风险系数rα(n,m);设置容许区间[σ*-0.1σ*,σ*+0.1σ*],按公式(2.21)计算误判率β。绘制平均偏差d(n,m,σ*)、风险系数rα(n,m)和误判率β随训练集样本容量n的变化过程如图3所示,相应的测试集样本容量m=55-n。
步骤6:误判风险指标可选择步骤5中的任一评价指标。基于误判风险最小准则选择最佳样本集划分L(nr,mr),得到最佳样本集划分容量;或根据给定风险容许阈值选择合理的样本集划分范围,得到合理样本集划分容量。
下面给出“最佳样本集划分容量”和“合理样本集划分容量”的定义:
定义1:若d(n,m,σ*)、β或rα(n,m)在多组样本集划分方案L(n,m)中取得最小值,将风险最小的样本集划分容量称为“最佳样本集容量”,基于最佳样本容量构建的预报模型可使得预测精度最接近真实σ*,模型的预报风险最小;
定义2:若给定一个较小的阈值δ,认为d(n,m,σ*)≤δ时,预报模型的预测精度与σ*的偏离程度即误判风险是可接受的容许范围,将对应的多个样本集划分方案的样本容量称为“合理样本集容量”。
根据图3中的曲线结果,计算rα(n,m)、误判率β与d(n,m,σ*)的皮尔逊相关性系数均超过0.9,变化趋势具有较强的一致性,且三个风险评价指标均在n=15(m=40)时取得最小值,可推荐出最佳的样本容量划分方案L(15,40),此时的测试集预测精度分布不确定性最小。当样本划分比例大于15:40时,三种预报风险指标均随训练集划分比例的增大(测试集划分比例减小)呈递增趋势。若按照传统建模方法中大于1:1的样本划分比例,随着训练集占比的增大,预测精度抽样分布与模型真实精度的偏离逐渐增大,即误判风险增大。
进一步,选取不同的模型,对样本集划分的结果进行比较:
在步骤1中采用“互信息”量化实测径流序列的一阶、二阶和三阶非线性自相关性,互信息计算结果分别为0.26、0.35和0.24,表明径流序列存在一定的非线性自相关性,因此选择支持向量回归(SVR)作为非线性模型假设,考虑自相关阶数p=1,2,3三种自相关因子,分别将三种模型形式记为SVR(1)、SVR(2)和SVR(3),选择径向基核函数。
在步骤2中,采用样本容量为55的实测样本对SVR(1)、SVR(2)和SVR(3)模型进行率定,采用拉格朗日乘子法求解。模型的残差均满足正态分布,3个模型的拟合精度分别为679、599和534。
在步骤3中,采用SVR(1)、SVR(2)和SVR(3)模型及正态分布残差进行总体估计。进而,按照步骤4~6,进行基于误判风险最小准则的最佳样本集划分。
对不同模型的最佳样本划分进行对比,绘制4个模型的平均偏差d(n,m,σ*)随训练集样本容量n的变化过程如图4所示,相应的测试集样本容量m=55-n。
实施例中实例模型为均值模型时,在样本容量为55的最佳训练样本比例相对较小(训练:检验=15:40)。6种模型的最佳样本划分在15:40~26:29之间。可以看出,对于相同的实测样本集,当模型形式(复杂度)不同时,基于该准则所寻求的最佳样本划分“均衡点”均可能是变化的。
若设置阈值δ=min(d)+0.02σ*可得到合理的样本划分范围,使得误判风险在可接受的容许范围内。其中,min(d)为d(n,m,σ*)在n=5~50变化下取得的最小值。4个模型在d(n,m,σ*)小于阈值δ=min(d)+0.02σ*的n取值范围如图4所示。
进一步,将以上提供的样本集划分方法与传统方法进行比较:
根据误判风险最小准则、传统经验划分比例(2:1和4:1)等三种样本集划分方案下的预测精度抽样分布,按照公式(3)、(3)和(7)计算平均偏差指标d(n,m,σ*)、风险系数rα(n,m)和误判率β等三种预报风险指标。设置rα(n,m)显著性水平α=0.05,误判率的容许区间为[σ*-0.1σ*,σ*+0.1σ*]。
给出均值模型、SVR(1)、SVR(2)和SVR(3)等4种模型在本发明方法与传统经验比例(2:1和4:1)下的误判风险对比,如图5所示。
由图5的结果可知,基于2:1样本划分方案的d(n,m,σ*)、rα(n,m)和误判率β分别增加至最佳样本划分方案的1.18~1.43倍、1.08~1.43倍和1.17~1.6倍,4:1样本划分方案的三种风险指标分别增加至最佳样本划分方案的1.48~1.84倍、1.31~1.83倍和1.17~1.94倍。若以4:1划分比例为比较基准,以误判率β为风险指标,6种模型在最佳样本划分方案的误判风险相较于基准方案分别减小了49%、29%、33%、23%、26%和15%,验证了所提误判风险最小准则在不同模型的样本集划分应用中均具有优越性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种基于误判风险最小准则的径流预报样本集划分方法,其特征在于,包括如下步骤:
步骤1:根据历史径流数据或气象数据筛选径流的预报因子,根据选择的数据驱动模型建立预报因子和径流之间的映射关系表达式:
y=f(X;ω)+ε,ε~g(θ) (1)
式中,输入变量x为与径流具有相关性的预报因子;输出变量y为径流;f(X;ω)为具有一定结构特征的模型形式;ω为模型参数,通过历史样本训练得到;ε为分布函数为g(θ)的随机项,θ为分布函数的参数;
步骤2:将样本容量为L的实测样本集记为采用实测样本集/>率定数据驱动模型y=f(X;ω*)+ε,ε~g(θ*),作为数据驱动模型的总体估计,数据驱动模型对实测样本集/>的拟合精度即为总体精度的估计,记为σ*;
步骤3:采用蒙特卡洛法从步骤2中所估计的总体中进行C次样本容量为L的随机抽样,一次抽样记为样本集DL,将样本集DL划分为样本容量分别为n和m的训练集DL,n=(Xn,yn)和测试集DL,m=(Xm,ym),记该样本集划分方案为L(n,m),将训练集DL,n用于模型参数率定,测试集DL,m用于模型预测精度的检验;
步骤4:给定多组训练集、测试集划分方案L(n,m),依次对每个划分方案L(n,m),采用步骤3得到的C次抽样进行模型率定和检验,得到C次随机抽样的预测精度样本集;
步骤5:根据各划分方案L(n,m)的预测精度样本集,分别计算不同划分方案L(n,m)下的预测精度σ(n,m)样本分布偏离σ*的不确定性程度,即偏离程度,代表预测精度σ(n,m)对模型预测精度的误判风险;
步骤6:根据步骤5计算所得预测精度σ(n,m)样本与真实预测精度估计σ*的偏离程度,选择最佳样本集划分L(nr,mr),得到最佳样本集划分容量;或给定某一风险容许阈值,确定合理的样本集划分范围,得到合理样本集划分容量。
2.如权利要求1所述的基于误判风险最小准则的径流预报样本集划分方法,其特征在于:步骤2中的拟合精度包括均方根误差、平均绝对误差、相关性系数。
3.如权利要求1所述的基于误判风险最小准则的径流预报样本集划分方法,其特征在于:步骤4采用步骤3得到的C次抽样进行模型率定和检验,具体包括:
步骤4.1:预报模型率定
预报模型率定是根据给定的训练样本集,按照有利于减小模型预测误差的目标函数进行模型参数求解的过程,包括目标函数构造和优化目标求解;
目标函数由拟合误差函数和惩罚函数组成,目标函数如下:
式中,L(yi,f(Xi;ω))为模型的拟合误差,代表模型尽可能拟合训练样本;n为训练样本容量;λΩ(ω)为约束模型过拟合而引入的惩罚函数,以提高模型在未知样本集的泛化能力,将采用训练集率定得到的预报模型称为“经验模型”,记为ω*为目标函数(2)所求解的参数;
步骤4.2:预测精度检验
为检验模型对未知样本的预测性能,采用未用于模型训练的样本作为测试集,对模型的预测精度进行检验,所述测试集的预测精度指标采用均方根误差、平均绝对误差或相关性系数。
4.如权利要求1所述的基于误判风险最小准则的径流预报样本集划分方法,其特征在于:所述步骤5中的偏离程度采用三种指标进行定义:
5.1平均偏差指标
记样本集划分容量为L(n,m)的预报模型统计试验抽样次数为C,记C次抽样的测试集预测精度样本集为σm,其中第c个样本为σm(c),采用均方根距离指标量化σm(c∈C)与真实精度σ*的平均偏离程度,定义平均偏差指标d(n,m,σ*),计算公式如下:
式中,平均偏差指标越小反映预测精度分布不确定性越小,误判风险越小;
5.2风险系数指标
若已知样本集划分L(n,m)条件下模型在测试集的预测精度σ(n,m)的概率分布,记给定置信水平1-α下σ(n,m)分布的置信区间宽度为wα(n,m),置信区间越窄,预测精度分布的不确定性越小;
记σ(n,m)样本的分布函数为F(σ),该分布的α/2分位数和1-α/2分位数分别为σα/2和σ1-α/2,又称该分布的α/2下分位数和α/2上分位数,σ(n,m)落在σα/2和σ1-α/2之间的概率P满足以下条件:
P{σα/2≤σ(n,m)≤σ1-α/2}=1-α (4)
计算置信水平1-α、样本划分L(n,m)下预测精度的置信区间宽度wα(n,m)为:
wα(n,m)=σ1-α/2-σα/2 (5)
定义“预报风险系数”为区间宽度wα(n,m)与真实精度σ*的比值,公式如下:
rα(n,m)=wα(n,m)/σ* (6)
式中,风险系数rα(n,m)越小,代表模型在样本划分L(n,m)下的预测精度误判风险越小;
5.3误判率指标
记σ(n,m)样本的分布函数为F(σ),容许区间下限σ*-δ和上限σ*+δ在分布F(σ)的分位数分别为p下和p上,则σ(n,m)落在容许区间[σ*-δ,σ*+δ]的概率P即为置信水平αδ,满足以下条件:
αδ=P{σ*-δ≤σ(n,m)≤σ*+δ}=p上-p下 (7)
定义测试精度的“误判率”为σ(n,m)落在容许区间[σ*-δ,σ*+δ]以外的概率,误判率β计算公式为:
β=1-αδ (8)
式中,误判率β越小,代表模型在样本划分L(n,m)下的预测精度误判风险越小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311002894.3A CN117131977B (zh) | 2023-08-09 | 2023-08-09 | 一种基于误判风险最小准则的径流预报样本集划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311002894.3A CN117131977B (zh) | 2023-08-09 | 2023-08-09 | 一种基于误判风险最小准则的径流预报样本集划分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117131977A true CN117131977A (zh) | 2023-11-28 |
CN117131977B CN117131977B (zh) | 2024-01-23 |
Family
ID=88862007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311002894.3A Active CN117131977B (zh) | 2023-08-09 | 2023-08-09 | 一种基于误判风险最小准则的径流预报样本集划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131977B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118080280A (zh) * | 2024-04-24 | 2024-05-28 | 青岛英诺包装科技有限公司 | 一种基于物联网的薄膜加工用监测系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816167A (zh) * | 2019-01-18 | 2019-05-28 | 昆仑(重庆)河湖生态研究院(有限合伙) | 径流预报方法及径流预报装置 |
CN113033081A (zh) * | 2021-03-10 | 2021-06-25 | 中国科学院地理科学与资源研究所 | 一种基于som-bpnn模型的径流模拟方法及系统 |
CN113255986A (zh) * | 2021-05-20 | 2021-08-13 | 大连理工大学 | 一种基于气象信息和深度学习算法的多步日径流预报方法 |
WO2021218457A1 (zh) * | 2020-04-28 | 2021-11-04 | 中国长江三峡集团有限公司 | 一种利用预报误差开展上游水库群影响下径流预报的方法 |
CN115496290A (zh) * | 2022-09-30 | 2022-12-20 | 河海大学 | 一种“输入-结构-参数”全要素分层组合优选的中长期径流时变概率预测方法 |
-
2023
- 2023-08-09 CN CN202311002894.3A patent/CN117131977B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816167A (zh) * | 2019-01-18 | 2019-05-28 | 昆仑(重庆)河湖生态研究院(有限合伙) | 径流预报方法及径流预报装置 |
WO2021218457A1 (zh) * | 2020-04-28 | 2021-11-04 | 中国长江三峡集团有限公司 | 一种利用预报误差开展上游水库群影响下径流预报的方法 |
CN113033081A (zh) * | 2021-03-10 | 2021-06-25 | 中国科学院地理科学与资源研究所 | 一种基于som-bpnn模型的径流模拟方法及系统 |
CN113255986A (zh) * | 2021-05-20 | 2021-08-13 | 大连理工大学 | 一种基于气象信息和深度学习算法的多步日径流预报方法 |
CN115496290A (zh) * | 2022-09-30 | 2022-12-20 | 河海大学 | 一种“输入-结构-参数”全要素分层组合优选的中长期径流时变概率预测方法 |
Non-Patent Citations (1)
Title |
---|
李志新;赖志琴;龙云墨;: "基于GA-Elman神经网络模型的年径流预测", 水利水电技术, no. 08 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118080280A (zh) * | 2024-04-24 | 2024-05-28 | 青岛英诺包装科技有限公司 | 一种基于物联网的薄膜加工用监测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117131977B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113094923B (zh) | 考虑多源不确定性的多参数相关退化产品可靠性评估方法 | |
CN110197020B (zh) | 一种环境变化对水文干旱影响的分析方法 | |
CN117131977B (zh) | 一种基于误判风险最小准则的径流预报样本集划分方法 | |
CN111680870B (zh) | 目标运动轨迹质量综合评估方法 | |
CN107423496B (zh) | 一种新的降雨事件随机生成方法 | |
CN114580260B (zh) | 一种基于机器学习和概率理论的滑坡区间预测方法 | |
CN115495991A (zh) | 一种基于时间卷积网络的降水区间预测方法 | |
CN110598181B (zh) | 一种基于最大熵的极端水文事件风险分析方法和系统 | |
CN111967140B (zh) | 一种考虑混合不确定性的性能退化实验建模与分析方法 | |
CN114564487B (zh) | 预报预测相结合的气象栅格数据更新方法 | |
CN111222095A (zh) | 一种大坝变形监测中的粗差判别方法、装置及系统 | |
CN110633859A (zh) | 一种两阶段分解集成的水文序列预测方法 | |
CN111523727B (zh) | 基于不确定过程的考虑恢复效应的电池剩余寿命预测方法 | |
CN110895626B (zh) | 基于留一交叉验证的性能退化模型精度验证方法 | |
Wu et al. | Remaining useful life estimation based on a nonlinear Wiener process model with CSN random effects | |
CN112100711B (zh) | 一种基于arima和pso-elm的混凝土坝变形组合预报模型构建方法 | |
CN117874655A (zh) | 考虑多重影响因素的动态大坝安全监控指标拟定方法 | |
Warburton et al. | Critical Analysis of Linear and Nonlinear Project Duration Forecasting Methods | |
CN113743022B (zh) | 一种高精度气候变化数据的存储和可视化方法 | |
CN115270637A (zh) | 一种基于gbrt的地下排水管道最大应力预测方法 | |
CN110889190B (zh) | 面向预测精度要求的性能退化建模数据量优化方法 | |
CN113255207A (zh) | 基于迭代多输出-马尔科夫链的空分系统氩馏分变量多步预测方法 | |
CN117494862B (zh) | 一种基于假设检验的有限样本下数据驱动径流预报模型优选方法 | |
CN110895628B (zh) | 一种性能退化模型预测精度验证方法 | |
CN112016034A (zh) | 一种能同时处理数值离散、模型形式和模型预测偏差的不确定度量化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |