CN107704962B - 一种基于不完整训练数据集的蒸汽流量区间预测方法 - Google Patents
一种基于不完整训练数据集的蒸汽流量区间预测方法 Download PDFInfo
- Publication number
- CN107704962B CN107704962B CN201710938943.2A CN201710938943A CN107704962B CN 107704962 B CN107704962 B CN 107704962B CN 201710938943 A CN201710938943 A CN 201710938943A CN 107704962 B CN107704962 B CN 107704962B
- Authority
- CN
- China
- Prior art keywords
- prediction
- missing
- vector
- obs
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000009826 distribution Methods 0.000 claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims description 28
- 239000000126 substance Substances 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000005429 filling process Methods 0.000 abstract description 3
- 238000009795 derivation Methods 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 229910000831 Steel Inorganic materials 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000010959 steel Substances 0.000 description 4
- 108090000672 Annexin A5 Proteins 0.000 description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013531 bayesian neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
一种基于不完整训练数据集的蒸汽流量区间预测方法。针对含缺失点的蒸汽流量时间序列数据,利用相空间重构技术构造输入输出训练样本集,并建立一个初始相关向量机回归模型。然后通过贝叶斯方法推导出缺失输出的后验概率分布;并由缺失输出的后验概率的均值来填补与输出相对应的缺失输入点,不断迭代上述推导与填补过程来训练预测模型。通过单步迭代预测方法来预测未来一段趋势的预测值,其预测区间边界由预测分布的均值和方差决定。这种预测方法可以很好地应用在含有缺失点时间序列数据集中,其预测结果更好地辅助调度人员进行冶金蒸汽能源系统的平衡优化工作。
Description
技术领域
本发明属于信息技术领域,涉及到相关向量机回归,贝叶斯后验概率推理等技术,是一种基于不完整数据集的冶金企业蒸汽流量区间预测方法。针对含缺失点的蒸汽流量时间序列数据,利用相空间重构技术构造输入输出训练样本集,并建立一个初始相关向量机回归模型。然后通过贝叶斯方法推导出缺失输出的后验概率分布;并由缺失输出的后验概率的均值来填补与输出相对应的缺失输入点,不断迭代上述推导与填补过程来训练预测模型。通过单步迭代预测方法来预测未来一段趋势的预测值,其预测区间边界由预测分布的均值和方差决定。这种预测方法可以很好地应用在含有缺失点时间序列数据集中,其预测结果更好地辅助调度人员进行冶金蒸汽能源系统的平衡优化工作,在冶金工业其他能源介质数据中亦可推广应用。
背景技术
钢铁工业是高能耗产业,一直以来都面临着节能降耗的问题。而蒸汽作为钢铁生产中重要的二次能源,不仅被直接应用到各个环节的生产过程中,还被用来转化为电能以保证钢厂的电能供应。因此,针对蒸汽系统进行合理调度能够最大限度的利用蒸汽资源,而蒸汽流量数据的准确预测对有效调度方案的实施有着重要作用。当预测到蒸汽供应大于蒸汽消耗时,可以及时调整消耗源(如电厂,锅炉等)使其增加对蒸汽的消耗;反之,则减少蒸汽消耗,以达到蒸汽产消平衡,提高蒸汽利用率的目的(Y.Liu,Q.Liu,J.Zhao,et al,(2012).Data-driven based model for flow prediction of steam system in steelindustry[J].Information Sciences,193(11):104-114.)。然而,钢铁工业生产过程环境复杂恶劣,通过工业传感器采集的蒸汽流量数据由于传感器故障等原因常常含有缺失值,进而造成时间序列训练数据集的不完整,采用不完整数据集很难直接构造预测模型进行蒸汽流量预测。
常见的处理含缺失值的方法是数据填补,此方案的思路是先将缺失点进行数据补全,再使用填补后的数据进行预测建模。典型的数据填补方法有单一填补,例如,最临近点填补,样条插值等,以及多重填补方法等。(J.L.Schafer,J.W.Graham.(2002)Missingdata:our view of the state of the art.Psychol Methods,7(2):147.)近年来,有改进的最近邻方法,贝叶斯网方法以及矩阵补全方法等被应用于数据填补。另外,目前针对冶金数据的预测模型包括支持向量机,神经网络等基于数据的机器学习方法。
但是,以上数据填补的方法有如下缺点:数据填补方案会导致原数据集的方差发生变化,从而影响建模的精度;而且不同的数据填补方法的填补效果不同,也会对模型的建立产生不同的影响,且针对不同的数据需要分别确定最优的填补方案,过程繁琐。因此,如果能够将含缺失点的数据集直接用来建模,在建模的过程中去填补缺失点就可以避免提前数据填补的步骤简化方法,并且可以使填补方案适用于提高模型预测精度。另一方面,现有预测模型(如,支持向量机,神经网络等)大多数只能给出预测结果的单一点估计值,并不能给出预测可靠性的度量,而工业应用现场往往需要考虑预测的不确定性的。(J.Zhao,Q.Liu,W.Wang,et al.(2012)Hybrid neural prediction and optimized adjustmentfor coke oven gas system in steel industry[J].IEEE Transactions on NeuralNetworks and Learning Systems,23(3):439.)
发明内容
本发明主要解决基于不完整数据集的冶金企业蒸汽流量区间预测问题。针对从工业现场采集的含缺失点冶金企业蒸汽流量时间序列数据,首先将用0填补后的蒸汽流量数据通过相空间重构技术构造输入输出训练样本集,建立一个初始相关向量机回归模型。并通过贝叶斯方法推导出缺失输出的后验概率分布(多维高斯分布);随后由缺失输出的后验概率分布均值来填补与输出相对应的缺失输入点。迭代上述过程来训练并得出最终的预测模型。
本发明的技术方案:
一种基于不完整训练数据集的蒸汽流量区间预测方法,步骤如下:
1.用0来填补不完整的蒸汽流量训练数据集,再选定一个合适的嵌入维数通过相空间重构方法构造输入输出样本集。这样缺失点分别存在于输入集和输出集中,并且各个缺失点在输入输出中存在相互对应关系,记录下这种一一对应关系。
2.构造初始预测模型。首先由零填补后的输入输出样本集构造一个初始相关向量机回归模型。
3.根据贝叶斯方法,推导出缺失输出的后验概率与模型权值为联合多维高斯分布形式。并由相应的缺失输出后验概率均值来填补训练集中的缺失输入点。
4.计算相关向量机模型的边缘似然度函数值。
5.反复迭代第3和第4步骤,直至边缘似然度函数值收敛为止。输出最终预测模型。
6.预测阶段:当系统采集到新的蒸汽流量数据时,将此数据输入到预测模型中并预测出下一时刻的流量值,以此单补迭代预测未来一段时间的蒸汽流量值。同时由预测值的概率分布构造预测区间的上下限从而得出预测区间。
本发明的有益效果:本发明方法针对含缺失点的蒸汽流量数据采取直接建模的手段。这样即省去了提前数据填补的步骤,减少了挑选最优填补方法的时间;同时由于建模过程的目标是最小化预测误差,并且缺失数据点的处理是与预测建模同时进行,因此本发明的缺失填补过程能够最大程度的提高预测精度。另外,本发明不同于现有大多数预测方法只给出预测值的点估计的方式,它能给出预测精度的可靠性度量(预测区间),从而给现场调度人员更多的分析判别依据。
附图说明
图1(a)是表示含缺失点的蒸汽流量时间序列示意图。
图1(b)是由相空间重构构造的输入输出训练样本集示意图。
图2为本发明应用流程图。
图3(a)为训练集数据在缺失10%时的贝叶斯神经网络方法效果图。
图3(b)为训练集数据在缺失10%时的Bootstrap方法效果图。
图3(c)为本发明的训练集数据在缺失10%时的区间预测效果图。
具体实施方式
为了更好地理解本发明的技术方案与具体实施方式,以下结合附图对本发明的实施方式作进一步描述。由工业现场采集的数据通常都含有高噪声,并且常有缺失值的情况,这样的不完整数据集无法直接用来构造预测模型。如附图1(a)展示了一条含缺失点的时间序列,其中白色方框表示数据缺失点,而灰色填充方框表示观测到的数据点。在现有方法中不得不先通过数据填补使数据集完整,再应用填补后的数据集参与训练预测模型。但这种方案比较繁琐,同时填补方法的选择也对最终预测结果产生很大影响。另一方面,针对工业数据含有高噪声的情况,现场操作人员除了需获得变量的实时预测值之外,对预测精度的可靠性也越来越重视。针对以上情况,本发明构造了一种基于不完整数据集的直接训练相关向量机预测模型的方法,并在预测阶段能够给出预测区间。
本发明的具体实施步骤如下:
步骤1:数据准备与初始填补
从工业现场实时关系数据库提取一段时间的冶金蒸汽流量时间序列数据。检测并记录时间序列中缺失点的位置,并用零值填补所有缺失点。
步骤2:基于相空间重构的输入输出样本集构建
相空间重构是时间序列预测中常用的训练样本集构造方法。假设有一条含缺失点的离散时间序列{u(1),u(2),...,u(k),...,u(Nu)},其中u(k)表示第k个采样时刻的时间序列值,Nu是序列的总长度;由式(1)构造第i个相矢量si(p):
si(p)=[u(i),u(i+τ),u(i+2τ),...,u(i+(p-1)τ)]T (1)
其中i=1,2,...,N,而N=Nu-(p-1)τ/Δt,τ表示延迟时间,Δt表示数据的采样间隔,p是相矢量的嵌入维数,也是矢量si(p)的长度;第i个相矢量si(p)同时表示输入样本集中的第i个输入样本,即xi=si(p),有xi=[xi1,xi2,...,xic,...,xip]T,其中xic是向量xi中的第c个分量,c=1,2,…,p。向量xi对应的目标值ti为式(2)所示:
ti=u(i+p×τ) (2)
此外,N个输入样本的矩阵形式为X=[x1,x2,...,xi,...,xN]T;N个目标值所组成的向量为t=[t1,t2,...,ti,...,tN]T。附图1(b)表示了由相空间重构技术构造的输入输出样本集,延迟时间τ取为1,此样本集对应于图1(a)中所示的含缺失点的时间序列。可以看出,输入和输出中的缺失点相互耦合,如图1(b)中的缺失点“miss k”不管在输入还是输出中它们的值都是相等的。需要事先将这种对应关系记录下来。
步骤3:构建初始相关向量机回归模型
构建初始相关向量机模型即构建输入输出变量之间的函数关系。相关向量机回归模型描述如下。假设第i个目标值ti与第i个输入向量xi有如下的映射关系。
其中,j=0,1,2,…,N,xj是第j个输入向量,且规定K(xi,x0)=1。另外,第i个基函数向量φi表示为φi=[1,K(xi,x1),K(xi,x2),...,K(xi,xj),...,K(xi,xN)]T,w=[w0,w1,...,wj,...,wN]T表示权值向量,K(xi,xj)=exp{-||xi-xj||2/2l2}是高斯核函数,其中l≠0是核函数参数;εi表示第i个均值为0,方差为σ2(β≡σ-2)的高斯分布噪声项。将权值向量w视为连续随机变量,假设w中的每一个元素分别服从是均值为0而方差不同的正态分布
其中,参数α=[α0,α1,...,αj,...,αN]T,αj是第j个权值wj的先验方差的倒数,且有对角阵A=diag(α)。并且同时将参数α和β视为随机变量,并假设其服从伽马分布。
步骤4:基于不完整数据集的相关向量机回归模型构建
本步骤由步骤2所得输入输出样本集来构建基于不完整数据集的相关向量机回归模型。假设训练输出集由缺失点和可观测点组成,有其中t[m]和t[obs]分别表示输出集中缺失点和可观测点的向量,输出缺失点和观测点的个数分别为N[m]和N[yobs],有N=N[m]+N[yobs]。这两个向量分别对应的输入样本集矩阵是和而且有此外,所有缺失的和观测到的输入点组成的集合分别表示为向量x[m]和x[obs](需要注意的是,矩阵和与向量x[m]和x[obs]不同,它们中的元素既包含缺失点也有可观测点)。
本发明将噪声方差向量写为β=[β[m],β[m],...,β[m],β[obs],...,β[obs],β[obs]]T,且有β[obs]≡β≡σ-2。另外,β还可以写成向量β[m]和β[obs]的长度分别为N[m]和N[yobs]。写成对角矩阵的形式是B[m]=diag(β[m]),B[obs]=diag(β[obs])和B=diag(β)。由于t[m]是缺失的,并没有受到测量噪声的干扰,因此本发明将β[m]中的元素β[m]限定为大于108的值以此来保证对应的缺失输出点的噪声方差很小。似然函数表达为如下形式。
p(w,t[m],t[obs]|α,βyobs)=N(w,t[m],t[obs]|μ[w,m,obs],Σ[w,m,obs]) (6)
p(w,t[m]|t[obs],α,β[obs])=N(w,t[m]|μ[w,m|obs],Σ[w,m|obs]) (7)
其中,
针对缺失输入点x[m]的优化问题,考虑到相空间重构方法构造的样本集的特点,每一个输入缺失点都有在输出缺失集中相对应的等值缺失点(输入和输出缺失对应点的值相等),因此,本发明将x[m]中每一个元素的后验概率都用由(7-9)式计算出的相应的缺失输出点的后验概率来代替,并将x[m]的后验均值填补到输入缺失点的相应位置,并进一步更新核矩阵Φ。
其中,x[m]集合中共有个输入缺失点,x[m],v表示x[m]中的第v个元素,表示x[m],v的后验概率均值;而t[m],corr_v表示第v个缺失输入点在缺失输出集t[m]中的对应变量;t[m],corr_v的后验概率p(t[m],corr_v|t[obs],α,β[obs])由式(8)和(9)得出。
将w和t[m]积分消去,本发明给出对数边缘似然度函数。
以下简要整理建模步骤:
①初始化:向量α中的元素初始化为值1/N2,β[obs]初始化为10倍的t[obs]的方差,相关向量集初始化为所有输入样本的集合(此时相关向量集中有N个样本);
②使用(8)和(9)式更新w和t[m]的联合后验概率的均值和协方差矩阵μ[w,m|obs]和Σ[w,m|obs]。
③使用(12)和(13)式更新α和β[obs]。
④如果αj>M(M是一个大于1010的值),将第j个样本从相关向量集中除去。
⑤通过(10)式来得到x[m]中每一个元素的后验概率均值,并填补到输入缺失点的相应位置,并进一步更新核矩阵Φ。
⑥由(11)式计算对数边缘似然度函数的值。
⑦如果α中有元素相对上次迭代的变化或边缘似然度函数值的变化小于给定的阈值,终止迭代过程,得出最终预测模型,相关向量集中剩余的向量为最终的相关向量;否则,转到第②步。
步骤5:单步迭代预测得出未来一段时间的预测区间
未来一段时间的预测均值由单步迭代预测的方式给出。在如此的机制下进行预测,每次预测输出的均值是一个点,且下一轮的预测会将上一轮的预测均值结果作为输入,进行循环滚动预测。
附图3(a)、(b)、(c)分别表示训练集数据在缺失10%时的基于Bayesian的神经网络方法,Bootstrap方法和本发明的区间预测效果比较图。对比方法包括常用的基于Bayesian的回声状态网络(ESN,Echo State Network)区间预测,以及基于Bootstrap的ESN区间预测方法。预测结果比较可参见表1,其中RMSE为均方根误差,用来表示预测均值的误差情况,CWC是一种基于预测区间覆盖概率和平均区间宽度的综合指标。
其中Yb为第b个真实观测值,Fb为第b个模型输出值,Ntest为被估计的样本点个数。
CWC=NMPIW(1+γ×exp[-η(PICP-μ)]) (18)
其中,而η和μ是两个大于0的超参数。其中,当第b个目标值在预测范围内时cb等于1,反之,cb等于0;而Ub和Lb分别是第b个点的预测上限和下限。PICP表示被预测区间覆盖的真实目标值的个数,NMPIW是归一化的预测区间平均宽度,其中,G是目标值的取值范围。CWC指标值越小区间预测效果越好。并且当PICP值越大且NMPIW值越小时,区间预测的效果越好。
表1三种方法区间预测结果比较(NNI表示最近邻点填补方法;SI表示样条插值填补方法)
Claims (1)
1.一种基于不完整训练数据集的蒸汽流量区间预测方法,其特征在于如下步骤:
(1)数据准备与初始填补
从工业现场实时关系数据库提取一段时间的冶金企业蒸汽流量时间序列数据,检测并记录时间序列中缺失点的位置,并用零值填补所有缺失点;
(2)基于相空间重构的输入输出样本集构建
假设有一条含缺失点的离散时间序列{u(1),u(2),...,u(k),...,u(Nu)},其中u(k)表示第k个采样时刻的时间序列值,Nu是序列的总长度;由式(1)构造第i个相矢量si(p):
si(p)=[u(i),u(i+τ),u(i+2τ),...,u(i+(p-1)τ)]T (1)
其中,i=1,2,...,N,而N=Nu-(p-1)τ/Δt,τ表示延迟时间,Δt表示数据的采样间隔,p是相矢量的嵌入维数,也是矢量si(p)的长度;第i个相矢量si(p)同时表示输入样本集中的第i个输入样本,即xi=si(p),有xi=[xi1,xi2,...,xic,...,xip]T,其中xic是向量xi中的第c个分量,c=1,2,…,p;向量xi对应的目标值ti为式(2)所示:
ti=u(i+p×τ) (2)
此外,N个输入样本的矩阵形式为X=[x1,x2,...,xi,...,xN]T;N个目标值所组成的向量为t=[t1,t2,...,ti,...,tN]T;对于由含缺失点的时间序列构造的输入输出样本集,事先记录下输入输出中缺失点的对应关系;
(3)构建初始相关向量机回归模型
假设第i个目标值ti与第i个输入向量xi有如下的映射关系:
其中,j=0,1,2,…,N,xj是第j个输入向量,且规定K(xi,x0)=1;另外,第i个基函数向量φi表示为φi=[1,K(xi,x1),K(xi,x2),...,K(xi,xj),...,K(xi,xN)]T,w=[w0,w1,...,wj,...,wN]T表示权值向量,K(xi,xj)=exp{-||xi-xj||2/2l2}是高斯核函数,其中,l≠0是核函数参数;εi表示第i个均值为0,方差为σ2的高斯分布噪声项,β≡σ-2;对w中的每一个元素分别附加均值为0而方差不同的正态先验分布:
其中,参数α=[α0,α1,...,αj,...,αN]T,αj是第j个权值wj的先验方差的倒数,且有对角阵A=diag(α);并且同时将参数α和β视为随机变量,并假设它们服从伽马分布;
(4)基于不完整数据集的相关向量机回归模型构建
构建最终预测模型就是要通过输入输出样本集来迭代计算如下变量:
权值向量w;
缺失输出向量t[m],即输出集中所有缺失点组成的向量;
缺失输入向量x[m],即输入集中所有缺失点组成的向量;
噪声方差参数β的点估计值;
具体步骤如下:
①初始化:向量α中的元素初始化为值1/N2,β[obs]初始化为10倍的t[obs]的方差,β[obs]是输出集中可观测点的噪声方差的倒数,有β[obs]≡σ-2;其中,t[obs]表示输出集中所有可观测值组成的向量;相关向量集初始化为所有输入样本的集合,此时相关向量集中有N个样本;
②分别使用式(5)和(6)更新w和t[m]的联合后验概率的均值μ[w,m|obs]和协方差矩阵Σ[w,m|obs];
其中,β=[β[m],β[m],...,β[m],β[obs],...,β[obs],β[obs]]T,β还可写成写成对角矩阵的形式是B[m]=diag(β[m]),B[obs]=diag(β[obs])和B=diag(β);矩阵B[m]和B[obs]大小分别为N[yobs]×N[yobs]和N[m]×N[m],而N[yobs]和N[m]分别表示输出集中可观测点和缺失点的个数,有N=N[yobs]+N[m],将β[m]设置为不小于108的值;另外,Φ表示核函数矩阵,有Φ=[φ1,φ2,...,φi,...,φN]T,并且将Φ表示成分块矩阵的形式为其中和是由缺失输出点和输出可观测点分别在输出样本集中的位置索引所提取的核矩阵Φ中以行为单位的行向量所组成的各自的新矩阵,大小分别为N[m]×(N+1)和N[yobs]×(N+1);
③采用(7)和(8)式更新αj和β[obs];
④如果αj>M,M设置为大于1010的值,将第j个样本从相关向量集中除去;
⑤通过(9)式来计算x[m]中每一个元素的后验概率均值,并填补到输入集中输入缺失点的相应位置,并进一步更新核矩阵Φ;
其中,x[m]集合中共有个输入缺失点,x[m],v表示x[m]中的第v个元素,表示x[m],v的后验概率均值;而t[m],corr_v表示第v个缺失输入点在缺失输出集t[m]中的对应变量值;t[m],corr_v的后验概率p(t[m],corr_v|t[obs],α,β[obs])由式(5)和(6)得出;
⑥由(10)式计算对数边缘似然度函数的值;
⑦如果α中有元素相对上次迭代的变化或边缘似然度函数值的变化小于给定的阈值,终止迭代过程,得出最终预测模型;否则,转到第②步;
(5)单步迭代预测得出未来一段时间的预测区间
给定一个新的输入样本x*,此输入向量中没有缺失点,得出对应的输出t*的预测分布近似为一个正态分布
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710938943.2A CN107704962B (zh) | 2017-10-11 | 2017-10-11 | 一种基于不完整训练数据集的蒸汽流量区间预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710938943.2A CN107704962B (zh) | 2017-10-11 | 2017-10-11 | 一种基于不完整训练数据集的蒸汽流量区间预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107704962A CN107704962A (zh) | 2018-02-16 |
CN107704962B true CN107704962B (zh) | 2021-03-26 |
Family
ID=61184764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710938943.2A Active CN107704962B (zh) | 2017-10-11 | 2017-10-11 | 一种基于不完整训练数据集的蒸汽流量区间预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704962B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108490782B (zh) * | 2018-04-08 | 2019-04-09 | 中南大学 | 一种基于选择性双层集成学习适用于复杂工业过程产品质量指标缺失数据补全的方法及系统 |
DE102018215061A1 (de) * | 2018-09-05 | 2020-03-05 | Robert Bosch Gmbh | Verfahren zum sicheren Trainieren eines dynamischen Modells |
CN109543263B (zh) * | 2018-11-01 | 2023-04-07 | 宁波大学 | 一种集成化常压精馏过程代理模型的建立方法 |
CN109726503B (zh) * | 2019-01-12 | 2020-12-18 | 国电联合动力技术有限公司 | 缺失数据填补方法及装置 |
CN110222416B (zh) * | 2019-06-05 | 2022-08-23 | 重庆邮电大学 | 一种基于大数据的工业蒸汽量预测方法 |
CN112001596B (zh) * | 2020-07-27 | 2023-10-31 | 北京科技大学 | 一种时间序列数据异常点检测方法及系统 |
CN112699601B (zh) * | 2020-12-28 | 2022-05-31 | 电子科技大学 | 一种传感器网络数据的空时重构方法 |
CN114912335B (zh) * | 2021-02-09 | 2024-04-09 | 上海梅山钢铁股份有限公司 | 一种基于缺失数据的煤气发生量预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101541016A (zh) * | 2009-05-06 | 2009-09-23 | 华为技术有限公司 | 数据预测方法和设备 |
CN102288228A (zh) * | 2010-06-21 | 2011-12-21 | 中国石油化工股份有限公司 | 透平蒸汽流量的软测量方法 |
CN102404164A (zh) * | 2011-08-09 | 2012-04-04 | 江苏欣网视讯科技有限公司 | 一种基于arma模型和混沌时间序列模型的流量分析方法 |
CN102830616A (zh) * | 2011-06-14 | 2012-12-19 | 北京三博中自科技有限公司 | 一种蒸汽系统的运行优化系统和方法 |
-
2017
- 2017-10-11 CN CN201710938943.2A patent/CN107704962B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101541016A (zh) * | 2009-05-06 | 2009-09-23 | 华为技术有限公司 | 数据预测方法和设备 |
CN102288228A (zh) * | 2010-06-21 | 2011-12-21 | 中国石油化工股份有限公司 | 透平蒸汽流量的软测量方法 |
CN102830616A (zh) * | 2011-06-14 | 2012-12-19 | 北京三博中自科技有限公司 | 一种蒸汽系统的运行优化系统和方法 |
CN102404164A (zh) * | 2011-08-09 | 2012-04-04 | 江苏欣网视讯科技有限公司 | 一种基于arma模型和混沌时间序列模型的流量分析方法 |
Non-Patent Citations (4)
Title |
---|
Data-driven based model for flow prediction of steam system;Ying Liu;《Information Sciences》;20121231;第2-3节 * |
基于协同量子粒子算法的透平蒸汽流量软测量;汤奇峰等;《化工学报》;20101130;第61卷(第11期);第2节 * |
基于粗糙集与最小二乘支持向量回归的汽轮机主蒸汽流量预测;张维平等;《计量学报》;20150131;第36卷(第1期);第2-3节 * |
基于软测量技术的蒸汽流量测量;王伟吉等;《中南大学学报(自然科学版)》;20130731;第2-3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107704962A (zh) | 2018-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704962B (zh) | 一种基于不完整训练数据集的蒸汽流量区间预测方法 | |
CN111027752B (zh) | 一种深度时空特征联合学习的农作物产量估测方法 | |
CN109060001B (zh) | 一种基于特征迁移学习的多工况过程软测量建模方法 | |
CN108897286B (zh) | 一种基于分散式非线性动态关系模型的故障检测方法 | |
CN108960303B (zh) | 一种基于lstm的无人机飞行数据异常检测方法 | |
CN106644162B (zh) | 基于邻域保持嵌入回归算法的环网柜线芯温度软测量方法 | |
CN116757534B (zh) | 一种基于神经训练网络的智能冰箱可靠性分析方法 | |
CN109472110A (zh) | 一种基于lstm网络和arima模型的航空发动机剩余使用寿命预测方法 | |
CN111967688B (zh) | 一种基于卡尔曼滤波器与卷积神经网络的电力负荷预测方法 | |
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
CN109992921B (zh) | 一种燃煤电厂锅炉热效率的在线软测量方法及系统 | |
CN113722985B (zh) | 航空发动机健康状态评估和剩余寿命预测方法及系统 | |
CN110942194A (zh) | 一种基于tcn的风电预测误差区间评估方法 | |
CN112818595B (zh) | 一种火电厂蒸发区的数字孪生模型数据的修正方法及系统 | |
CN111144644B (zh) | 基于变分异方差高斯过程回归的短期风速预测方法 | |
CN109779791B (zh) | 一种固体火箭发动机中异常数据智能诊断方法 | |
Abudu et al. | Modeling of daily pan evaporation using partial least squares regression | |
CN113780420B (zh) | 基于gru-gcn的变压器油中溶解气体浓度预测方法 | |
CN113239022B (zh) | 医疗诊断缺失数据补全方法及补全装置、电子设备、介质 | |
CN114462718A (zh) | 基于时间滑动窗口的cnn-gru风电功率预测方法 | |
CN113850320A (zh) | 基于改进支持向量机回归算法的变压器故障检测方法 | |
CN114298134A (zh) | 风电功率预测方法及装置、电子设备 | |
CN116578551A (zh) | 一种基于gru-gan的电网数据修复方法 | |
CN112232570A (zh) | 一种正向有功总电量预测方法、装置及可读存储介质 | |
CN112149896A (zh) | 一种基于注意力机制的机械设备多工况故障预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |