CN107704962B - 一种基于不完整训练数据集的蒸汽流量区间预测方法 - Google Patents

一种基于不完整训练数据集的蒸汽流量区间预测方法 Download PDF

Info

Publication number
CN107704962B
CN107704962B CN201710938943.2A CN201710938943A CN107704962B CN 107704962 B CN107704962 B CN 107704962B CN 201710938943 A CN201710938943 A CN 201710938943A CN 107704962 B CN107704962 B CN 107704962B
Authority
CN
China
Prior art keywords
prediction
missing
vector
obs
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710938943.2A
Other languages
English (en)
Other versions
CN107704962A (zh
Inventor
赵珺
陈龙
韩中洋
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710938943.2A priority Critical patent/CN107704962B/zh
Publication of CN107704962A publication Critical patent/CN107704962A/zh
Application granted granted Critical
Publication of CN107704962B publication Critical patent/CN107704962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Manufacturing & Machinery (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

一种基于不完整训练数据集的蒸汽流量区间预测方法。针对含缺失点的蒸汽流量时间序列数据,利用相空间重构技术构造输入输出训练样本集,并建立一个初始相关向量机回归模型。然后通过贝叶斯方法推导出缺失输出的后验概率分布;并由缺失输出的后验概率的均值来填补与输出相对应的缺失输入点,不断迭代上述推导与填补过程来训练预测模型。通过单步迭代预测方法来预测未来一段趋势的预测值,其预测区间边界由预测分布的均值和方差决定。这种预测方法可以很好地应用在含有缺失点时间序列数据集中,其预测结果更好地辅助调度人员进行冶金蒸汽能源系统的平衡优化工作。

Description

一种基于不完整训练数据集的蒸汽流量区间预测方法
技术领域
本发明属于信息技术领域,涉及到相关向量机回归,贝叶斯后验概率推理等技术,是一种基于不完整数据集的冶金企业蒸汽流量区间预测方法。针对含缺失点的蒸汽流量时间序列数据,利用相空间重构技术构造输入输出训练样本集,并建立一个初始相关向量机回归模型。然后通过贝叶斯方法推导出缺失输出的后验概率分布;并由缺失输出的后验概率的均值来填补与输出相对应的缺失输入点,不断迭代上述推导与填补过程来训练预测模型。通过单步迭代预测方法来预测未来一段趋势的预测值,其预测区间边界由预测分布的均值和方差决定。这种预测方法可以很好地应用在含有缺失点时间序列数据集中,其预测结果更好地辅助调度人员进行冶金蒸汽能源系统的平衡优化工作,在冶金工业其他能源介质数据中亦可推广应用。
背景技术
钢铁工业是高能耗产业,一直以来都面临着节能降耗的问题。而蒸汽作为钢铁生产中重要的二次能源,不仅被直接应用到各个环节的生产过程中,还被用来转化为电能以保证钢厂的电能供应。因此,针对蒸汽系统进行合理调度能够最大限度的利用蒸汽资源,而蒸汽流量数据的准确预测对有效调度方案的实施有着重要作用。当预测到蒸汽供应大于蒸汽消耗时,可以及时调整消耗源(如电厂,锅炉等)使其增加对蒸汽的消耗;反之,则减少蒸汽消耗,以达到蒸汽产消平衡,提高蒸汽利用率的目的(Y.Liu,Q.Liu,J.Zhao,et al,(2012).Data-driven based model for flow prediction of steam system in steelindustry[J].Information Sciences,193(11):104-114.)。然而,钢铁工业生产过程环境复杂恶劣,通过工业传感器采集的蒸汽流量数据由于传感器故障等原因常常含有缺失值,进而造成时间序列训练数据集的不完整,采用不完整数据集很难直接构造预测模型进行蒸汽流量预测。
常见的处理含缺失值的方法是数据填补,此方案的思路是先将缺失点进行数据补全,再使用填补后的数据进行预测建模。典型的数据填补方法有单一填补,例如,最临近点填补,样条插值等,以及多重填补方法等。(J.L.Schafer,J.W.Graham.(2002)Missingdata:our view of the state of the art.Psychol Methods,7(2):147.)近年来,有改进的最近邻方法,贝叶斯网方法以及矩阵补全方法等被应用于数据填补。另外,目前针对冶金数据的预测模型包括支持向量机,神经网络等基于数据的机器学习方法。
但是,以上数据填补的方法有如下缺点:数据填补方案会导致原数据集的方差发生变化,从而影响建模的精度;而且不同的数据填补方法的填补效果不同,也会对模型的建立产生不同的影响,且针对不同的数据需要分别确定最优的填补方案,过程繁琐。因此,如果能够将含缺失点的数据集直接用来建模,在建模的过程中去填补缺失点就可以避免提前数据填补的步骤简化方法,并且可以使填补方案适用于提高模型预测精度。另一方面,现有预测模型(如,支持向量机,神经网络等)大多数只能给出预测结果的单一点估计值,并不能给出预测可靠性的度量,而工业应用现场往往需要考虑预测的不确定性的。(J.Zhao,Q.Liu,W.Wang,et al.(2012)Hybrid neural prediction and optimized adjustmentfor coke oven gas system in steel industry[J].IEEE Transactions on NeuralNetworks and Learning Systems,23(3):439.)
发明内容
本发明主要解决基于不完整数据集的冶金企业蒸汽流量区间预测问题。针对从工业现场采集的含缺失点冶金企业蒸汽流量时间序列数据,首先将用0填补后的蒸汽流量数据通过相空间重构技术构造输入输出训练样本集,建立一个初始相关向量机回归模型。并通过贝叶斯方法推导出缺失输出的后验概率分布(多维高斯分布);随后由缺失输出的后验概率分布均值来填补与输出相对应的缺失输入点。迭代上述过程来训练并得出最终的预测模型。
本发明的技术方案:
一种基于不完整训练数据集的蒸汽流量区间预测方法,步骤如下:
1.用0来填补不完整的蒸汽流量训练数据集,再选定一个合适的嵌入维数通过相空间重构方法构造输入输出样本集。这样缺失点分别存在于输入集和输出集中,并且各个缺失点在输入输出中存在相互对应关系,记录下这种一一对应关系。
2.构造初始预测模型。首先由零填补后的输入输出样本集构造一个初始相关向量机回归模型。
3.根据贝叶斯方法,推导出缺失输出的后验概率与模型权值为联合多维高斯分布形式。并由相应的缺失输出后验概率均值来填补训练集中的缺失输入点。
4.计算相关向量机模型的边缘似然度函数值。
5.反复迭代第3和第4步骤,直至边缘似然度函数值收敛为止。输出最终预测模型。
6.预测阶段:当系统采集到新的蒸汽流量数据时,将此数据输入到预测模型中并预测出下一时刻的流量值,以此单补迭代预测未来一段时间的蒸汽流量值。同时由预测值的概率分布构造预测区间的上下限从而得出预测区间。
本发明的有益效果:本发明方法针对含缺失点的蒸汽流量数据采取直接建模的手段。这样即省去了提前数据填补的步骤,减少了挑选最优填补方法的时间;同时由于建模过程的目标是最小化预测误差,并且缺失数据点的处理是与预测建模同时进行,因此本发明的缺失填补过程能够最大程度的提高预测精度。另外,本发明不同于现有大多数预测方法只给出预测值的点估计的方式,它能给出预测精度的可靠性度量(预测区间),从而给现场调度人员更多的分析判别依据。
附图说明
图1(a)是表示含缺失点的蒸汽流量时间序列示意图。
图1(b)是由相空间重构构造的输入输出训练样本集示意图。
图2为本发明应用流程图。
图3(a)为训练集数据在缺失10%时的贝叶斯神经网络方法效果图。
图3(b)为训练集数据在缺失10%时的Bootstrap方法效果图。
图3(c)为本发明的训练集数据在缺失10%时的区间预测效果图。
具体实施方式
为了更好地理解本发明的技术方案与具体实施方式,以下结合附图对本发明的实施方式作进一步描述。由工业现场采集的数据通常都含有高噪声,并且常有缺失值的情况,这样的不完整数据集无法直接用来构造预测模型。如附图1(a)展示了一条含缺失点的时间序列,其中白色方框表示数据缺失点,而灰色填充方框表示观测到的数据点。在现有方法中不得不先通过数据填补使数据集完整,再应用填补后的数据集参与训练预测模型。但这种方案比较繁琐,同时填补方法的选择也对最终预测结果产生很大影响。另一方面,针对工业数据含有高噪声的情况,现场操作人员除了需获得变量的实时预测值之外,对预测精度的可靠性也越来越重视。针对以上情况,本发明构造了一种基于不完整数据集的直接训练相关向量机预测模型的方法,并在预测阶段能够给出预测区间。
本发明的具体实施步骤如下:
步骤1:数据准备与初始填补
从工业现场实时关系数据库提取一段时间的冶金蒸汽流量时间序列数据。检测并记录时间序列中缺失点的位置,并用零值填补所有缺失点。
步骤2:基于相空间重构的输入输出样本集构建
相空间重构是时间序列预测中常用的训练样本集构造方法。假设有一条含缺失点的离散时间序列{u(1),u(2),...,u(k),...,u(Nu)},其中u(k)表示第k个采样时刻的时间序列值,Nu是序列的总长度;由式(1)构造第i个相矢量si(p):
si(p)=[u(i),u(i+τ),u(i+2τ),...,u(i+(p-1)τ)]T (1)
其中i=1,2,...,N,而N=Nu-(p-1)τ/Δt,τ表示延迟时间,Δt表示数据的采样间隔,p是相矢量的嵌入维数,也是矢量si(p)的长度;第i个相矢量si(p)同时表示输入样本集中的第i个输入样本,即xi=si(p),有xi=[xi1,xi2,...,xic,...,xip]T,其中xic是向量xi中的第c个分量,c=1,2,…,p。向量xi对应的目标值ti为式(2)所示:
ti=u(i+p×τ) (2)
此外,N个输入样本的矩阵形式为X=[x1,x2,...,xi,...,xN]T;N个目标值所组成的向量为t=[t1,t2,...,ti,...,tN]T。附图1(b)表示了由相空间重构技术构造的输入输出样本集,延迟时间τ取为1,此样本集对应于图1(a)中所示的含缺失点的时间序列。可以看出,输入和输出中的缺失点相互耦合,如图1(b)中的缺失点“miss k”不管在输入还是输出中它们的值都是相等的。需要事先将这种对应关系记录下来。
步骤3:构建初始相关向量机回归模型
构建初始相关向量机模型即构建输入输出变量之间的函数关系。相关向量机回归模型描述如下。假设第i个目标值ti与第i个输入向量xi有如下的映射关系。
Figure GDA0002833020720000041
其中,j=0,1,2,…,N,xj是第j个输入向量,且规定K(xi,x0)=1。另外,第i个基函数向量φi表示为φi=[1,K(xi,x1),K(xi,x2),...,K(xi,xj),...,K(xi,xN)]T,w=[w0,w1,...,wj,...,wN]T表示权值向量,K(xi,xj)=exp{-||xi-xj||2/2l2}是高斯核函数,其中l≠0是核函数参数;εi表示第i个均值为0,方差为σ2(β≡σ-2)的高斯分布噪声项。将权值向量w视为连续随机变量,假设w中的每一个元素分别服从是均值为0而方差不同的正态分布
Figure GDA0002833020720000042
其中,参数α=[α01,...,αj,...,αN]T,αj是第j个权值wj的先验方差的倒数,且有对角阵A=diag(α)。并且同时将参数α和β视为随机变量,并假设其服从伽马分布。
步骤4:基于不完整数据集的相关向量机回归模型构建
本步骤由步骤2所得输入输出样本集来构建基于不完整数据集的相关向量机回归模型。假设训练输出集由缺失点和可观测点组成,有
Figure GDA0002833020720000051
其中t[m]和t[obs]分别表示输出集中缺失点和可观测点的向量,输出缺失点和观测点的个数分别为N[m]和N[yobs],有N=N[m]+N[yobs]。这两个向量分别对应的输入样本集矩阵是
Figure GDA0002833020720000052
Figure GDA0002833020720000053
而且有
Figure GDA0002833020720000054
此外,所有缺失的和观测到的输入点组成的集合分别表示为向量x[m]和x[obs](需要注意的是,矩阵
Figure GDA0002833020720000055
Figure GDA0002833020720000056
与向量x[m]和x[obs]不同,它们中的元素既包含缺失点也有可观测点)。
本发明将噪声方差向量写为β=[β[m][m],...,β[m][obs],...,β[obs][obs]]T,且有β[obs]≡β≡σ-2。另外,β还可以写成
Figure GDA0002833020720000057
向量β[m]和β[obs]的长度分别为N[m]和N[yobs]。写成对角矩阵的形式是B[m]=diag(β[m]),B[obs]=diag(β[obs])和B=diag(β)。由于t[m]是缺失的,并没有受到测量噪声的干扰,因此本发明将β[m]中的元素β[m]限定为大于108的值以此来保证对应的缺失输出点的噪声方差很小。似然函数表达为如下形式。
Figure GDA0002833020720000058
其中,核函数矩阵Φ=[φ12,...,φi,...,φN]T。将β[obs]的先验概率分布设置为伽马分布。由于
Figure GDA0002833020720000059
和w的先验分布是两个高斯分布的卷积的形式,本发明给出以下联合概率分布。
p(w,t[m],t[obs]|α,βyobs)=N(w,t[m],t[obs][w,m,obs][w,m,obs]) (6)
其中,μ[w,m,obs]=[0 0 0]T
Figure GDA00028330207200000510
而且有
Figure GDA00028330207200000511
由式(6)可以看出t[m],t[obs]和w是联合高斯分布,推导出w和t[m]的联合后验概率分布也是一个多维高斯分布的形式,如下所示。
p(w,t[m]|t[obs],α,β[obs])=N(w,t[m][w,m|obs][w,m|obs]) (7)
其中,
Figure GDA00028330207200000512
Figure GDA0002833020720000061
针对缺失输入点x[m]的优化问题,考虑到相空间重构方法构造的样本集的特点,每一个输入缺失点都有在输出缺失集中相对应的等值缺失点(输入和输出缺失对应点的值相等),因此,本发明将x[m]中每一个元素的后验概率都用由(7-9)式计算出的相应的缺失输出点的后验概率来代替,并将x[m]的后验均值填补到输入缺失点的相应位置,并进一步更新核矩阵Φ。
Figure GDA0002833020720000062
其中,
Figure GDA0002833020720000063
x[m]集合中共有
Figure GDA0002833020720000064
个输入缺失点,x[m],v表示x[m]中的第v个元素,
Figure GDA0002833020720000065
表示x[m],v的后验概率均值;而t[m],corr_v表示第v个缺失输入点在缺失输出集t[m]中的对应变量;t[m],corr_v的后验概率p(t[m],corr_v|t[obs],α,β[obs])由式(8)和(9)得出。
将w和t[m]积分消去,本发明给出对数边缘似然度函数。
Figure GDA0002833020720000066
其中,协方差矩阵
Figure GDA0002833020720000067
矩阵大小为N[yobs]×N[yobs],I是单位矩阵,log(·)表示自然对数运算。通过求偏导最大化
Figure GDA0002833020720000068
来找到α和β[obs]的极值点α*
Figure GDA0002833020720000069
从而得出它们的迭代式如下所示。
Figure GDA00028330207200000610
其中
Figure GDA00028330207200000611
Figure GDA00028330207200000612
Figure GDA00028330207200000613
以下简要整理建模步骤:
①初始化:向量α中的元素初始化为值1/N2,β[obs]初始化为10倍的t[obs]的方差,相关向量集初始化为所有输入样本的集合(此时相关向量集中有N个样本);
②使用(8)和(9)式更新w和t[m]的联合后验概率的均值和协方差矩阵μ[w,m|obs]和Σ[w,m|obs]
③使用(12)和(13)式更新α和β[obs]
④如果αj>M(M是一个大于1010的值),将第j个样本从相关向量集中除去。
⑤通过(10)式来得到x[m]中每一个元素的后验概率均值,并填补到输入缺失点的相应位置,并进一步更新核矩阵Φ。
⑥由(11)式计算对数边缘似然度函数的值。
⑦如果α中有元素相对上次迭代的变化或边缘似然度函数值的变化小于给定的阈值,终止迭代过程,得出最终预测模型,相关向量集中剩余的向量为最终的相关向量;否则,转到第②步。
步骤5:单步迭代预测得出未来一段时间的预测区间
当给定一个新的输入x*(此输入向量中没有缺失点),β[obs]的值使用可
Figure GDA0002833020720000071
来代替。得出对应的输出t*的预测分布近似为一个正态分布
Figure GDA0002833020720000072
其中,
Figure GDA0002833020720000073
φ*=[1,K(x*,x1),K(x*,x2),...,K(x*,xN)]T。μ[w|obs]是权值向量w的后验概率的均值。此时,预测上下限分别表示为
Figure GDA0002833020720000074
Figure GDA0002833020720000075
其中,Ulimit和Llimit分别表示置信区间为(1-χ%)的预测区间上下限,同时
Figure GDA0002833020720000076
是标准高斯分布中对应概率为
Figure GDA0002833020720000077
的分位数。
未来一段时间的预测均值由单步迭代预测的方式给出。在如此的机制下进行预测,每次预测输出的均值是一个点,且下一轮的预测会将上一轮的预测均值结果作为输入,进行循环滚动预测。
附图3(a)、(b)、(c)分别表示训练集数据在缺失10%时的基于Bayesian的神经网络方法,Bootstrap方法和本发明的区间预测效果比较图。对比方法包括常用的基于Bayesian的回声状态网络(ESN,Echo State Network)区间预测,以及基于Bootstrap的ESN区间预测方法。预测结果比较可参见表1,其中RMSE为均方根误差,用来表示预测均值的误差情况,CWC是一种基于预测区间覆盖概率和平均区间宽度的综合指标。
Figure GDA0002833020720000078
其中Yb为第b个真实观测值,Fb为第b个模型输出值,Ntest为被估计的样本点个数。
CWC=NMPIW(1+γ×exp[-η(PICP-μ)]) (18)
其中,
Figure GDA0002833020720000081
而η和μ是两个大于0的超参数。其中,当第b个目标值在预测范围内时cb等于1,反之,cb等于0;而Ub和Lb分别是第b个点的预测上限和下限。PICP表示被预测区间覆盖的真实目标值的个数,NMPIW是归一化的预测区间平均宽度,其中,G是目标值的取值范围。CWC指标值越小区间预测效果越好。并且当PICP值越大且NMPIW值越小时,区间预测的效果越好。
表1三种方法区间预测结果比较(NNI表示最近邻点填补方法;SI表示样条插值填补方法)
Figure GDA0002833020720000082

Claims (1)

1.一种基于不完整训练数据集的蒸汽流量区间预测方法,其特征在于如下步骤:
(1)数据准备与初始填补
从工业现场实时关系数据库提取一段时间的冶金企业蒸汽流量时间序列数据,检测并记录时间序列中缺失点的位置,并用零值填补所有缺失点;
(2)基于相空间重构的输入输出样本集构建
假设有一条含缺失点的离散时间序列{u(1),u(2),...,u(k),...,u(Nu)},其中u(k)表示第k个采样时刻的时间序列值,Nu是序列的总长度;由式(1)构造第i个相矢量si(p):
si(p)=[u(i),u(i+τ),u(i+2τ),...,u(i+(p-1)τ)]T (1)
其中,i=1,2,...,N,而N=Nu-(p-1)τ/Δt,τ表示延迟时间,Δt表示数据的采样间隔,p是相矢量的嵌入维数,也是矢量si(p)的长度;第i个相矢量si(p)同时表示输入样本集中的第i个输入样本,即xi=si(p),有xi=[xi1,xi2,...,xic,...,xip]T,其中xic是向量xi中的第c个分量,c=1,2,…,p;向量xi对应的目标值ti为式(2)所示:
ti=u(i+p×τ) (2)
此外,N个输入样本的矩阵形式为X=[x1,x2,...,xi,...,xN]T;N个目标值所组成的向量为t=[t1,t2,...,ti,...,tN]T;对于由含缺失点的时间序列构造的输入输出样本集,事先记录下输入输出中缺失点的对应关系;
(3)构建初始相关向量机回归模型
假设第i个目标值ti与第i个输入向量xi有如下的映射关系:
Figure FDA0002833020710000011
其中,j=0,1,2,…,N,xj是第j个输入向量,且规定K(xi,x0)=1;另外,第i个基函数向量φi表示为φi=[1,K(xi,x1),K(xi,x2),...,K(xi,xj),...,K(xi,xN)]T,w=[w0,w1,...,wj,...,wN]T表示权值向量,K(xi,xj)=exp{-||xi-xj||2/2l2}是高斯核函数,其中,l≠0是核函数参数;εi表示第i个均值为0,方差为σ2的高斯分布噪声项,β≡σ-2;对w中的每一个元素分别附加均值为0而方差不同的正态先验分布:
Figure FDA0002833020710000012
其中,参数α=[α01,...,αj,...,αN]T,αj是第j个权值wj的先验方差的倒数,且有对角阵A=diag(α);并且同时将参数α和β视为随机变量,并假设它们服从伽马分布;
(4)基于不完整数据集的相关向量机回归模型构建
构建最终预测模型就是要通过输入输出样本集来迭代计算如下变量:
权值向量w;
缺失输出向量t[m],即输出集中所有缺失点组成的向量;
缺失输入向量x[m],即输入集中所有缺失点组成的向量;
噪声方差参数β的点估计值;
具体步骤如下:
①初始化:向量α中的元素初始化为值1/N2,β[obs]初始化为10倍的t[obs]的方差,β[obs]是输出集中可观测点的噪声方差的倒数,有β[obs]≡σ-2;其中,t[obs]表示输出集中所有可观测值组成的向量;相关向量集初始化为所有输入样本的集合,此时相关向量集中有N个样本;
②分别使用式(5)和(6)更新w和t[m]的联合后验概率的均值μ[w,m|obs]和协方差矩阵Σ[w,m|obs]
Figure FDA0002833020710000021
Figure FDA0002833020710000022
其中,β=[β[m][m],...,β[m][obs],...,β[obs][obs]]T,β还可写成
Figure FDA0002833020710000023
写成对角矩阵的形式是B[m]=diag(β[m]),B[obs]=diag(β[obs])和B=diag(β);矩阵B[m]和B[obs]大小分别为N[yobs]×N[yobs]和N[m]×N[m],而N[yobs]和N[m]分别表示输出集中可观测点和缺失点的个数,有N=N[yobs]+N[m],将β[m]设置为不小于108的值;另外,Φ表示核函数矩阵,有Φ=[φ12,...,φi,...,φN]T,并且将Φ表示成分块矩阵的形式为
Figure FDA0002833020710000024
其中
Figure FDA0002833020710000025
Figure FDA0002833020710000026
是由缺失输出点和输出可观测点分别在输出样本集中的位置索引所提取的核矩阵Φ中以行为单位的行向量所组成的各自的新矩阵,大小分别为N[m]×(N+1)和N[yobs]×(N+1);
③采用(7)和(8)式更新αj和β[obs]
Figure FDA0002833020710000027
Figure FDA0002833020710000028
其中,
Figure FDA0002833020710000029
Figure FDA00028330207100000210
Tr(·)表示矩阵的求迹运算;
④如果αj>M,M设置为大于1010的值,将第j个样本从相关向量集中除去;
⑤通过(9)式来计算x[m]中每一个元素的后验概率均值,并填补到输入集中输入缺失点的相应位置,并进一步更新核矩阵Φ;
Figure FDA0002833020710000031
其中,
Figure FDA0002833020710000032
x[m]集合中共有
Figure FDA0002833020710000033
个输入缺失点,x[m],v表示x[m]中的第v个元素,
Figure FDA0002833020710000034
表示x[m],v的后验概率均值;而t[m],corr_v表示第v个缺失输入点在缺失输出集t[m]中的对应变量值;t[m],corr_v的后验概率p(t[m],corr_v|t[obs],α,β[obs])由式(5)和(6)得出;
⑥由(10)式计算对数边缘似然度函数的值;
Figure FDA0002833020710000035
其中,协方差矩阵
Figure FDA0002833020710000036
矩阵大小为N[yobs]×N[yobs],I是单位矩阵,log(·)表示自然对数运算;
⑦如果α中有元素相对上次迭代的变化或边缘似然度函数值的变化小于给定的阈值,终止迭代过程,得出最终预测模型;否则,转到第②步;
(5)单步迭代预测得出未来一段时间的预测区间
给定一个新的输入样本x*,此输入向量中没有缺失点,得出对应的输出t*的预测分布近似为一个正态分布
Figure FDA0002833020710000037
其中,
Figure FDA0002833020710000038
φ*=[1,K(x*,x1),K(x*,x2),...,K(x*,xN)]T,μ[w|obs]是权值向量w的后验概率的均值,
Figure FDA0002833020710000039
由式(8)计算得到;此时,预测上下限分别表示为
Figure FDA00028330207100000310
Figure FDA00028330207100000311
其中,Ulimit和Llimit分别表示置信区间为(1-χ%)的预测区间上下限,同时
Figure FDA00028330207100000312
是标准高斯分布中对应概率为
Figure FDA00028330207100000313
的分位数;未来一段时间的预测均值由单步迭代的方式给出;每一次预测输出的预测均值是一个点,且下一轮的预测会将上一轮的预测结果作为输入,进行循环滚动预测。
CN201710938943.2A 2017-10-11 2017-10-11 一种基于不完整训练数据集的蒸汽流量区间预测方法 Active CN107704962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710938943.2A CN107704962B (zh) 2017-10-11 2017-10-11 一种基于不完整训练数据集的蒸汽流量区间预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710938943.2A CN107704962B (zh) 2017-10-11 2017-10-11 一种基于不完整训练数据集的蒸汽流量区间预测方法

Publications (2)

Publication Number Publication Date
CN107704962A CN107704962A (zh) 2018-02-16
CN107704962B true CN107704962B (zh) 2021-03-26

Family

ID=61184764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710938943.2A Active CN107704962B (zh) 2017-10-11 2017-10-11 一种基于不完整训练数据集的蒸汽流量区间预测方法

Country Status (1)

Country Link
CN (1) CN107704962B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108490782B (zh) * 2018-04-08 2019-04-09 中南大学 一种基于选择性双层集成学习适用于复杂工业过程产品质量指标缺失数据补全的方法及系统
DE102018215061A1 (de) * 2018-09-05 2020-03-05 Robert Bosch Gmbh Verfahren zum sicheren Trainieren eines dynamischen Modells
CN109543263B (zh) * 2018-11-01 2023-04-07 宁波大学 一种集成化常压精馏过程代理模型的建立方法
CN109726503B (zh) * 2019-01-12 2020-12-18 国电联合动力技术有限公司 缺失数据填补方法及装置
CN110222416B (zh) * 2019-06-05 2022-08-23 重庆邮电大学 一种基于大数据的工业蒸汽量预测方法
CN112001596B (zh) * 2020-07-27 2023-10-31 北京科技大学 一种时间序列数据异常点检测方法及系统
CN112699601B (zh) * 2020-12-28 2022-05-31 电子科技大学 一种传感器网络数据的空时重构方法
CN114912335B (zh) * 2021-02-09 2024-04-09 上海梅山钢铁股份有限公司 一种基于缺失数据的煤气发生量预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101541016A (zh) * 2009-05-06 2009-09-23 华为技术有限公司 数据预测方法和设备
CN102288228A (zh) * 2010-06-21 2011-12-21 中国石油化工股份有限公司 透平蒸汽流量的软测量方法
CN102404164A (zh) * 2011-08-09 2012-04-04 江苏欣网视讯科技有限公司 一种基于arma模型和混沌时间序列模型的流量分析方法
CN102830616A (zh) * 2011-06-14 2012-12-19 北京三博中自科技有限公司 一种蒸汽系统的运行优化系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101541016A (zh) * 2009-05-06 2009-09-23 华为技术有限公司 数据预测方法和设备
CN102288228A (zh) * 2010-06-21 2011-12-21 中国石油化工股份有限公司 透平蒸汽流量的软测量方法
CN102830616A (zh) * 2011-06-14 2012-12-19 北京三博中自科技有限公司 一种蒸汽系统的运行优化系统和方法
CN102404164A (zh) * 2011-08-09 2012-04-04 江苏欣网视讯科技有限公司 一种基于arma模型和混沌时间序列模型的流量分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Data-driven based model for flow prediction of steam system;Ying Liu;《Information Sciences》;20121231;第2-3节 *
基于协同量子粒子算法的透平蒸汽流量软测量;汤奇峰等;《化工学报》;20101130;第61卷(第11期);第2节 *
基于粗糙集与最小二乘支持向量回归的汽轮机主蒸汽流量预测;张维平等;《计量学报》;20150131;第36卷(第1期);第2-3节 *
基于软测量技术的蒸汽流量测量;王伟吉等;《中南大学学报(自然科学版)》;20130731;第2-3节 *

Also Published As

Publication number Publication date
CN107704962A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
CN107704962B (zh) 一种基于不完整训练数据集的蒸汽流量区间预测方法
CN111027752B (zh) 一种深度时空特征联合学习的农作物产量估测方法
CN109060001B (zh) 一种基于特征迁移学习的多工况过程软测量建模方法
CN108897286B (zh) 一种基于分散式非线性动态关系模型的故障检测方法
CN108960303B (zh) 一种基于lstm的无人机飞行数据异常检测方法
CN106644162B (zh) 基于邻域保持嵌入回归算法的环网柜线芯温度软测量方法
CN116757534B (zh) 一种基于神经训练网络的智能冰箱可靠性分析方法
CN109472110A (zh) 一种基于lstm网络和arima模型的航空发动机剩余使用寿命预测方法
CN111967688B (zh) 一种基于卡尔曼滤波器与卷积神经网络的电力负荷预测方法
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN109992921B (zh) 一种燃煤电厂锅炉热效率的在线软测量方法及系统
CN113722985B (zh) 航空发动机健康状态评估和剩余寿命预测方法及系统
CN110942194A (zh) 一种基于tcn的风电预测误差区间评估方法
CN112818595B (zh) 一种火电厂蒸发区的数字孪生模型数据的修正方法及系统
CN111144644B (zh) 基于变分异方差高斯过程回归的短期风速预测方法
CN109779791B (zh) 一种固体火箭发动机中异常数据智能诊断方法
Abudu et al. Modeling of daily pan evaporation using partial least squares regression
CN113780420B (zh) 基于gru-gcn的变压器油中溶解气体浓度预测方法
CN113239022B (zh) 医疗诊断缺失数据补全方法及补全装置、电子设备、介质
CN114462718A (zh) 基于时间滑动窗口的cnn-gru风电功率预测方法
CN113850320A (zh) 基于改进支持向量机回归算法的变压器故障检测方法
CN114298134A (zh) 风电功率预测方法及装置、电子设备
CN116578551A (zh) 一种基于gru-gan的电网数据修复方法
CN112232570A (zh) 一种正向有功总电量预测方法、装置及可读存储介质
CN112149896A (zh) 一种基于注意力机制的机械设备多工况故障预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant