CN103279679A - 一种基于链式可重写窗口的数据流在线预测方法 - Google Patents

一种基于链式可重写窗口的数据流在线预测方法 Download PDF

Info

Publication number
CN103279679A
CN103279679A CN 201310229090 CN201310229090A CN103279679A CN 103279679 A CN103279679 A CN 103279679A CN 201310229090 CN201310229090 CN 201310229090 CN 201310229090 A CN201310229090 A CN 201310229090A CN 103279679 A CN103279679 A CN 103279679A
Authority
CN
China
Prior art keywords
window
data
model
prediction
chain type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201310229090
Other languages
English (en)
Inventor
卢晓伟
张清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN 201310229090 priority Critical patent/CN103279679A/zh
Publication of CN103279679A publication Critical patent/CN103279679A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种基于链式可重写窗口的数据流在线预测方法,通过链式重写窗口模型并利用经验模式分解的方法,列对从窗口中得到数据序列进行分解,然后对不同分量分别建立基于最大Lyapunov指数预测模型,最后将这些模型的预测结果进行组合,获得最终预测结果,内容包括:为了实现在线预测提出链式重写窗口模型代替传统的滑动窗口,该窗口模型采用对窗口内数据的重写完成数据更新,在窗口内数据的更新过程无须数据移动,从而提高了系统的处理效率;不仅提高了在线数据预测方法的处理性能,满足了数据流挖掘的需求,而且能充分利用CPU,降低功耗,减少机房构建成本和管理、运行、维护费用,并且这种方法实现简单,需要的开发成本低。

Description

一种基于链式可重写窗口的数据流在线预测方法
技术领域
本发明涉及计算机技术领域,具体地说是一种基于链式可重写窗口的数据流在线预测方法。 
背景技术
数据流处理模型
数据流是连续到达的、潜在无限的数据项的有序序列,这些数据或其摘要信息只能按照顺序存取并被读取一次或有限次。目前,数据流研究领域存在多种数据流模型,不同的数据流模型有不同的适用范围。根据对数据流的描述方式不同,可将数据流模型分为如下三类:
① 时间序列模型。在时间序列数据流模型中,数据流元素按照下标排序。典型的时间序列数据流模型中数据流元素是形如(时间,元素值)的二元组,时间为离散值并在数据流中按增量排序,例如每分钟的海股票交易所成交量;
② 现金记录模型。该数据流模型类似于收款机记录,数据项值大于等于0,并且数据项只添加不删除的数据;
③ 十字转门模型。该数据流模型类似于十字转门,可以随时进行数据项的动态删除和插入操作。
本发明中预测算法处理的数据流都是以时间序列模型表示的,因为后面两种模型表示的数据流都可转换为时间序列模型。 
由于数据流潜在无限长性,在处理数据流时,并不能将数据流所有数据项作为处理对象,而只能根据需求选取某个时间范围内数据流元素进行处理。按数据流元素选取的时间范围的不同,可将数据流模型分为: 
① 滑动窗口模型。滑动窗口对窗口起点和终点都没有明确给定,只明确给定窗口的长度。窗口保持一定长度在数据流上滑动,处理的数据流范围就由该窗口确定,随着窗口的滑动不断地把得到的结果输出。滑动窗口的长度既可由一个时间区间确定,也可由窗口所包含数据流元素个数确定;
② 界标模型。界标模型有固定起点,而另一端则随着数据流新数据项的到达不断后移,处理的数据流数据范围从某固定的时间戳到当前时间;
③ 快照模型。快照模型有固定的起点和终点,处理的数据流数据范围限制在两个预先设定的时间戳之间。
以上数据流模型只是最基本的数据流模型,随着对数据流认识的深入,一些新的数据流模型被抽象出来,如分布流模型等等,拓展数据流研究和应用范围。 
数据流的基本处理技术
由于数据流数据潜在无限长性,而数据流处理系统的内存等计算资源有限,为了尽量减少算法的时间和空间的开销,现有各种数据挖掘算法都首先应采用一些基本数据流处理技术减少数据流算法处理的数据量。通过对许多数据流挖掘算法的分析,总结了数据流基本处理技术,如下:
 (1) 采样。采样是一种使用了很长时间的统计技术,指以一定概率决定数据项是否被处理的过程,是从数据集中抽取部分能代表数据集基本特征的数据样本。经过采样处理后,数据流挖掘算法就不需要处理全部数据流元素而是数据流的采样样本。采样处理会引入误差,虽然在某些情况可确定采样过程引入误差的置信区间,但是很多情况下,采样方法不能得到可靠的近似保障;
(2) 直方图。直方图使用分箱近似数据分布,是一种常用的数据归约形式。直方图技术是一种将大数据集分割成多个连续不相交的子集,或称为桶。桶放在水平轴上,而桶的高度(或面积)是桶所代表的值的平均频率。直方图可直观表示大数据集的轮廓,已经使用了一个世纪多,应用比较广泛。根据桶的划分不同,直方图被分为:
① 等宽直方图:等宽直方图要求每个桶的宽度区间是一个常数,主要用于数据分布均匀数据集的描述;
②等高直方图:等高直方图要求划分数据集时使每个桶的频率基本相等;
③ V-最优直方图:在桶个数给定时,V-最优直方图具有最小方差。直方图方差是每个桶代表数据的加权和,其中权等于桶中值的个数;
④ 另外还有指数、压缩等直方图,其中V-最优直方图比较精确和实用。对于近似稀疏和稠密数据,以及高倾斜和一致数据,直方图是高度有效的;
(3) 傅立叶变换和小波技术。这两种方法都是基于变换,都是通用信号处理技术; 
① 傅立叶变换。傅立叶变换是一种可以保持信号能量的正交变换,可将输入信号变换成一系列傅立叶系数,并且少数几个傅立叶系数拥有信号大部分能量,因此选择少数几个傅立叶系数可近似还原信号,这样可用少数几个傅立叶系数近似表示原信号,减少需要处理数据量,提高计算效率。但傅立叶变换是一种纯频域分析方法,反映的是信号在全局上的整体频率特征,而不能提供任何局部上的频域特征;
② 小波技术。小波技术是从应用数学发展起来,现在被广泛用于信号分析、图像处理和语音识别等领域。由于克服了傅立叶变换处理非平稳信号的局限性,小波技术在信号处理的时域和频域同时具有较好的局部化性质。小波技术可将输入信号变换成一系列小波系数,并且少数几个小波系数拥有信号大部分能量。根据这一特性,可用少数几个小波系数近似模拟原信号;
 (4) 草图。草图技术是基于随机映射的,即将到达的数据元素在一组随机向量上做投影的过程,投影后得到的值称为草图,虽然该技术可以解决数据流处理许多问题,但是该技术精度不高。草图技术已经被用于各种近似值计算,是目前最有效的处理数据流概要数据结构构造方法;
(5) 卸载。当单位时间输入数据量过大通常会引起系统过载,降低系统负载,研究人员提出卸载方法解决这一问题。卸载是研究如何丢弃一部分数据,以便降低系统负载;
(6) 聚集。聚集是进行数据流汇总,如求取统计信息平均值、方差等,这些统计信息可用于后续挖掘;
(7) 分形。分形技术适用于以简单形式描述自然界中复杂的形状,在信号处理领域己得到广泛应用。
数据流挖掘算法
近些来,数据流挖掘技术受到广泛关注,许多学者已经提出多种从数据流中发现各种潜在有用模式的算法。因为数据流实时、连续、高速、有序到达的特点及需要在线分析的应用要求,所以数据流挖掘对传统数据挖掘算法提出前所未有的挑战,要求数据流挖掘算法满足一下要求:
① 单遍顺序扫描,算法只能按数据的流入顺序依次读取数据一次或有限次;
② 低时间复杂度,数据流挖掘算法是在线算法,所以算法处理速度必须跟得上数据流的流速,对数据项处理时间最好为常数时间;
③ 低空间复杂度,由于内存资源有限而数据流的潜在无限性,因此要求数据流挖掘算法空间复杂度要比较低;
④ 由于数据流挖掘算法对时空复杂度的要求严格,为了设计出满足时空要求的算法,允许算法处理结果为近似值;
⑤ 由于数据流已经被应用到许多领域中,数据流的变化比较大,这种变化可能是流速变化,也可能是数据分布变化,因此数据流挖掘算法要有一定自适应性。近似性和自适应性是数据流挖掘算法两大特点。
经验模式分解方法(EMD)
1998 年,Huang 等人提出了一种具有自适应时频分辨能力的信号分析方法,被称为Hilbert-Huang 变换。该变换的核心包括两部分:EMD和Hilbert 谱分析。该变换首先通过EMD 提取原始复杂信号在局部时间的振荡模式,将原始复杂信号分解为有限固有模式函数(IMF)和一个代表原始复杂信号趋势的余量之和;然后对每个IMF 或余量作Hilbert 变换,从而计算每个IMF 的瞬时频率和振幅(能量);最后形成IMF 的时间、瞬时频率和振幅的关系三维表示,即Hilbert谱。Hilbert 谱不仅具有很好的时频局部性,而且使信号分析还具有很好的物理意义。
EMD算法的流程图如图1,步骤如下: 
假设原始信号为 
Figure 2013102290907100002DEST_PATH_IMAGE001
,对
Figure 401349DEST_PATH_IMAGE001
进行EMD的具体算法如下:
(1) 初始化:令
Figure 883277DEST_PATH_IMAGE002
(2) 筛选(sifting)第i个IMF信号,
Figure 2013102290907100002DEST_PATH_IMAGE003
① 初始化:令
Figure 752007DEST_PATH_IMAGE004
② 获取
Figure 2013102290907100002DEST_PATH_IMAGE005
的极大值和极小值点序列;
③ 用三次样条插值分别拟合的极大值和极小值点序列,获得
Figure 584626DEST_PATH_IMAGE005
的上下包络线
Figure 2013102290907100002DEST_PATH_IMAGE007
④ 计算上下包络线的均值曲线
Figure 6697DEST_PATH_IMAGE008
⑤ 计算
⑥ 如果
Figure 389268DEST_PATH_IMAGE010
满足“筛选停止准则”,则
Figure 2013102290907100002DEST_PATH_IMAGE011
,否则k=k+l并跳转到(2)继续进行筛选;
(3)计算残余信号:
Figure 412194DEST_PATH_IMAGE012
(4)如果
Figure 2013102290907100002DEST_PATH_IMAGE013
的极值点个数大于2,则i=i+l并跳转到(2),否则分解结束,
Figure 399873DEST_PATH_IMAGE013
为残余信号分量。
N.E.Huang同时给出了类似于柯西收敛准则的“筛选停止准则”: 
Figure 813668DEST_PATH_IMAGE014
                     (1.1)
当SDk小于一个预定的值ξ>0时,“筛选”就停止。
传统滑动窗口技术
 (1) 基本思想
当前数据流上的滑动窗口是基于向量模型实现,该模型将滑动窗口建模为一个向量。随着新数据项的到来,靠近向量头端的数据向前移,覆盖它的前驱数据,新的数据则加入到向量尾端完成数据更新;
表1 格局函数定义表
Figure 870486DEST_PATH_IMAGE016
(2) 形式化描述
传统滑动窗口向量模型可以形式化表示为:
VectorSW =<w , length , head , f >,
·w 表示滑动窗口宽度;
·length 表示当前窗口内的数据量;
·head 表示滑动窗口数据末端的标记,新数据放置在该位置;
·f 为窗口的格局变换函数: f ∶P →P’,决定了在新数据到来时滑动窗口中已存在数据的格局变化;
(3) 模型分析
从表3.1 可以看出,传统滑动窗口技术数据更新分为两个阶段:窗口未满阶段和窗口已满阶段。窗口未满阶段,随着新数据元素的到达,窗口无数据移出,新数据被放在窗口的head 位置,同时更新length 和head的值。窗口已满阶段,随着新数据的到达,窗口内的第1 个位置上的数据被移出,窗口内的其它数据全部需要前移一位,覆盖前驱数据,新数据被放在窗口的末端w - 1位置。此时length 值为固定值w ,head固定在w – 1位置,表示新数据都在窗口末端进入窗口。图2显示了传统滑动窗口的滑动窗口格局转换过程。
发明内容
本发明的目的是提供一种时间序列数据流在线预测的高效方法,能够基于经验模式分解的数据流在线预测。。 
本发明的目的是按以下方式实现的,为了解决上述技术问题,本发明提出链式重写窗口模型,并利用经验模式分解方法。列对从窗口中得到数据序列进行分解,然后对不同分量分别建立基于最大Lyapunov指数预测模型,最后将这些模型的预测结果进行组合,获得最终预测结果。该方法包括: 
为了实现在线预测提出链式重写窗口模型代替传统的滑动窗口,该窗口模型采用对窗口内数据的重写完成数据更新,在窗口内数据的更新过程无须数据移动,从而提高了系统的处理效率。
在传统的滑动窗口,进行在线数据预测,需要搭建预测框架模型,同样,在链式重写窗口内,搭建改进的数据预测框架模型。 
进一步地,链式重写窗口模型定义如下, 
(1) 基本思想
传统的滑动窗口技术中,在窗口已满阶段,新数据进入窗口将引起其他已在窗口内的数据发生前移,但是可以通过把要移入的数据覆盖要移出的数据方法代替这种移动,并且需要提供一套机制来维护窗口内部数据的逻辑格局,从而维护逻辑一致性的同时,又避免窗口内部数据的移动。此即为链式可重写窗口技术的思想来源;
(2) 形式化描述
  LRW=<N,length,*head,*rear,f>
- N代表窗口的大小,
- *head 代表窗口的头部标记,指向窗口头,
- length 代表窗口内数据量,初值为0,
- *rear指向最晚进入窗口的元素位置,
- f 为窗口的格局变换函数,通过该函数能够得到窗口内数据的真实顺序。
进一步地,窗口内算法预测框架模型如图3所示, 原始序列经验模式分解,得到有限个具有特征振荡周期的固有模态函数分量和一个代表原始序列平均趋势的余量。尽管有些固态模型模态分量仍然保持着不同程度的非平稳性,但是在它们之间的相互影响却被隔离,利用这种隔离可以尽可能地减少非平稳行为对预测的影响。固有模态分量的频率比原始序列的小得多,这样可以减少各个分量的最大Lyapunov指数,从而大大增长可预测时间达到长期预测的目的。 
进一步地,在链式重写窗口模型中,需要定义数据节点结构,数据存储和更新以及链式可重写窗口格局变换图,如图4所示。定义如下: 
typedef struct LNode{
  ElemType data;
  struct LNode *next;
}LNode,*LinkWindow;
数据存储和更新:
Update(N,length,*head,*rear,ElemType e) {     //窗口未满
  If(N<length){                         
s=(LinkWindow)malloc sizeof(Lnode);
      s->data = e;
      s->next = rear->next;
      rear->next = s;
      length++;
     //窗口已满
} else {
  If(rear->next==null){
     rear = head->next;
}else {
  rear = rear->next;
}
rear->data = e;
}
}
f 定义如下:
- f(N,length,*head,*rear)
  //窗口未满
if(length<N)
  直接返回窗口中的数据
//窗口满
else 
head 和 rear之间数据 和 rear后的数据互换后返回。
图4中第一行表示窗口为空,如果在此阶段没有数据到达时,建立节点挂在链表的最后,length=length+1,rear=rear->next。第三行表示数据恰好满时,如果在此阶段有数据到达时,数据此时不能直接进入窗口,而是新到数据覆盖早进入窗口的数据,即rear=head->next,rear->data=e。第五行表示当窗口满时并且rear->next!=null,则rear=rear->next;rear->data=e。 
进一步地,对于分解后的各个分量分别基于最大Lyapunov指数预测模型进行预测,将各分量的预测值进行合成,得到数据序列的最终预测结果。 
本发明的有益效果是:本发明不仅提高了在线数据预测方法的处理性能,满足了数据流挖掘的需求,而且能充分利用CPU,降低功耗,减少机房构建成本和管理、运行、维护费用,并且这种方法实现简单,需要的开发成本低。 
附图说明
图1是 EMD方法流程图; 
图2是传统滑动窗口变换图;
图3是链式可重写窗口内的数据处理框架;
图4是链式重写窗口模型图;
图5是实验流程图;
图6是2007年1月1-10日数据图;
图7是数据的EMD分解结果图;
图8是各分量的预测结果图;
图9 是预测结果对比图。
具体实施方式
以下结合附图和优选实施例对本发明的方法进行详细地阐述。 
本发明采用电力负荷数据,来考察该模型的预测能力,首先采用本发明提出的模型预测,再采用直接基于最大Lyapunov指数的方法预测,最后采用BP神经网络进行预测。电力负荷数据被公认为是最具代表性的非线性、平稳时间序列,是用于比较和判断预测方法的典型数据。取2007年1月1日~2007年1月10日的电力负荷数据构成时间序列X为X={xi,1<i<960}; 
本发明针对上述分析,提供了一种基于经验模式分解的时间序列数据流在线预测方法的实施例,包括如下步骤:
步骤一:原始序列的经验模式分解
运用经验模式分解方法对其分解,分解步骤如下:
① 确定信号X的所有局部极大值点和极小值点,分别用三次样条曲线合成上下包络线emax(t)和emin(t),得到平均包络线记作m1,第一次计算的包络线均值记为m1,第k次的记为m1k,求出:X-m1=h1  理想地,如果h1是一个IMF,那么h1就是X的第一个分量;
② 如果h1不满足IMF的条件,把h1作为原始数据,重复上述步骤,得到上下包络均值m11。再判断h11= h1- m11是否满足IMF条件,如不满足,则重复循环k次,得到h1(k-1)- m1k= h1k,使得h1k满足IMF的条件。记c1= h1k,则c1为信号X的第一个满足IMF条件的分量;
③ 将c1从X中分离出来,得到:r1= X-c1      (2)
将r1作为原始数据重复以上过程,得到X的第二个满足IMF条件的分量c2,重复循环n次,得到信号X的n个满足IMF条件的分量。这样就有
r1- c2= r2
…                                    
rn-1-cn=rn                                   (3)
本发明中,EMD方法中引进了一个基于2个参数t1和t2的新标准,目的在于在保证全局上的平均小波动的同时,也考虑局部的大的变异。这相当于引进了模振幅a(t):=(emax(t)- emin(t))/2和评估函数b(t):=|m(t)/a(t)|,以便对于整个持续期间的一些规定部分(1-α),如果满足b(t)< t1筛选过程将停止遍历,同时对于剩下部分满足b(t)< t2。我们可以令α≈0.05,t1≈0.05,t2≈10t1作为默认值。这样,由式(4.19)、(4.20)得到
X=
Figure 2013102290907100002DEST_PATH_IMAGE017
+ rn(t)                        (4)
 因此,我们可以把任何一个信号X分解为n个IMF和一个残余量rn之和,其中分量c1,c2,…,cn分别包含了信号从高到低不同频率段的成分,而rn则表示了信号X的平均趋势。
 步骤二:基于EMD的RBF神经网络预测,分解后的每个固有模态分量的预测过程如下: 
① 选择样本集
对于每一个IMF分量,取它的前N-m个数据项为该RBF神经网络模型的训练样本,并且把这N-m项分为n=(N-m/m)组,每相邻两组作为输入输出训练对;最后m个数据项作为预测输入样本(注:合理选择N和m的值时n是整数,m为预测未来值的个数);
② 建立神经网络模型并训练网络
每个IMF建立自己的RBF神经网络,并且运用上面得到的训练样本进行训练。文发明采用上述方法确定神经网络的结构和隐含层的中心。这种方法不是事先确定径向基函数中心及函数个数,而是通过聚类的方法动态的将其确定,因此可以避免计算过程中的病态现象;
③ 预测
每个IMF分量分别运用自己训练好的神经网络模型和步骤1中得到的预测输入样本进行预测。
(3) 步骤三,预测合成 
Figure 775731DEST_PATH_IMAGE018
表示
Figure 2013102290907100002DEST_PATH_IMAGE019
的预测值,则对
Figure 149075DEST_PATH_IMAGE019
的预测转化为求各分量的预测值
Figure 999350DEST_PATH_IMAGE020
Figure 2013102290907100002DEST_PATH_IMAGE021
,即:
Figure 111442DEST_PATH_IMAGE018
 = 
Figure 321844DEST_PATH_IMAGE022
 + 
Figure 2013102290907100002DEST_PATH_IMAGE023
 + … +
Figure 690639DEST_PATH_IMAGE024
 + 
Figure 961084DEST_PATH_IMAGE021
                  (5)
预测值的合成方法有很多,最简单的方式是将各分支预测值直接对应相加, 如果进一步考虑各分支预测值在最终预测中的作用不同,也可以采用神经网络等方式。为简单计算,文发明利用公式5采用对应相加实现合成。
  本文实验的计算机环境为: 
 Pentium(R) Dual-Core CPU T44002.20GHz/2G/250G,在Windows XP的环境下应用Matlab实现了主要的算法。
在实际应用中,某些超大型的静态数据集要求处理算法只能进行一次线性扫描以降低算法的处理代价。此时,算法的输入也可看作是一种数据流,本发明将采用这种数据流进行实验。 
实验数据来自于贵州电网提供的2007年电力有功负荷真实数据集,其中包含35040条记录,每条记录包括采样日期及有功负荷两个属性,采样间隔15min。按照文中第四张提出的模型所设计的算法对以上数据进行分析,首先将35040条记录分为5个子数据集,每个数据集含有7008条记录,节省了内存并提高了EMD分解的效率;再者,由于每个小时只测得4个数据,每天测只测得96个数据,对负荷流进行分析的目的是实现在线日预测,所以文中第3节中的m的大小设为96。链式可重写窗口的大小设为960,那个n等于9。随着新数据的到达和旧数据被替换,用文中方法不断分析当前时间点链式可重写窗口中的数据集,如果加载到内存中的7008条记录全部处理完毕,再重新加载7008条新记录以同样的方式进行处理。 
(1)实验方案 
本文将电力负荷数据流预测实验的整个过程分为五个步骤,即电力负荷值采集、EMD分解、建立RBF神经网络及训练、整合各个神经网络的预测值。图5为整个实验过程的流程图。
其中,电力负荷值的采集即为从电力系统取得负荷值的过程,由于实验室缺乏这样的系统环境,本文通过读取文件中已经存在的数据模拟采集过程。后面的EMD分解过程和RBF神经网络的建立和训练过程在计算机上完成。 
(2)实验过程 
为了考察本文提出的预测模型的真实预测能力,我们共完成3组实验预测2007年1月11日的电力负荷数据。
实验1采用文中提出的模型预测; 
实验2采用单独的RBF神经网络直接预测,网络的参数和学习方法和实验1中RBF神经网络相同。
实验3采用单独的BP神经网络进行预测,BP神经网络选择双层隐层,样本数据等条件与RBF 相同,允许误差为0.001,第1 层和第2 层隐层均采用两个神经元,因为增加隐层中的神经元个数并不能提高预测精度。因为BP 网络的初始化是随机的,因而每次运行结果都不相同,而RBF 网络的每次输出结果都是相同的,这里选择BP 网络最好的结果。 
图6为2007年1月1日到10日的数据图。图7为上述数据经过经验模式分解得到8个IMF分量和1个余量图;图8为8个IMF和余量的预测值;图9为3组实验的预测值和真实数据的比较。 
为了评价文中方法的预测性能,选用预测效果评价指标包括短期预测评价标准:                       
Figure 2013102290907100002DEST_PATH_IMAGE025
           (6) 
预测均方差:                
Figure 539964DEST_PATH_IMAGE026
             (7)
均方百分比误差:                       (8)
    其中
Figure 242471DEST_PATH_IMAGE028
表示时间序列的实际值,
Figure 2013102290907100002DEST_PATH_IMAGE029
表示时间序列的预测值(SRE、MSE、MSPE的值越小表示预测值和实际值越接近)。各种预测方法的比较结果如表2所示。
表2  不同方法准确度比较表 
预测方法 SRE MSE MSPE
BP 0.7658 19.6369 1.9698
RBF 0.5063 8.4351 0.8630
Oline_DSPM 0.1929 2.6998 0.0965
由于时间序列数据流的数据项是不断到达,所以采用窗口技术进行数据更新是有必要的。下面对文中提出的链式可重写窗口模型和传统的传统滑动窗口的响应时间进行比较。设窗口大小为960,一次数据更新的数据项个数为m,比较结果如表3所示。
表3  不同窗口模型相应时间表 
Figure 587478DEST_PATH_IMAGE030
从表3 中可以看出不需要数据项移动的链式可重写窗口模型在响应时间上优于传统滑动窗口,所以该模型可以很好的应用于在线预测。
以上说明仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。 
除说明书所述的技术特征外,均为本专业技术人员的已知技术。 

Claims (1)

1.一种基于链式可重写窗口的数据流在线预测方法, 其特征在于通过链式重写窗口模型并利用经验模式分解的方法,列对从窗口中得到数据序列进行分解,然后对不同分量分别建立基于最大Lyapunov指数预测模型,最后将这些模型的预测结果进行组合,获得最终预测结果,内容包括:
为了实现在线预测提出链式重写窗口模型代替传统的滑动窗口,该窗口模型采用对窗口内数据的重写完成数据更新,在窗口内数据的更新过程无须数据移动,从而提高了系统的处理效率;
在传统的滑动窗口进行在线数据预测,需要搭建预测框架模型,同样,在链式重写窗口内,需要搭建改进的数据预测框架模型;链式重写窗口模型定义如下,
(1) 基本思想
传统的滑动窗口技术中,在窗口已满阶段,新数据进入窗口将引起其他已在窗口内的数据发生前移,但是通过把要移入的数据覆盖要移出的数据方法代替这种移动,并且需要提供一套链式可重写窗口技术来维护窗口内部数据的逻辑格局,从而维护逻辑一致性的同时,又避免窗口内部数据的移动,此即为链式可重写窗口技术的思想来源;
(2) 形式化描述
    LRW=<N,length,*head,*rear,f>
- N代表窗口的大小,
- *head 代表窗口的头部标记,指向窗口头,
- length 代表窗口内数据量,初值为0,
- *rear指向最晚进入窗口的元素位置,
- f 为窗口的格局变换函数,通过该函数能够得到窗口内数据的真实顺序;
窗口内算法预测框架模型:原始序列经验模式分解,得到有限个具有特征振荡周期的固有模态函数分量和一个代表原始序列平均趋势的余量,尽管有些固态模型模态分量仍然保持着不同程度的非平稳性,但是在它们之间的相互影响却被隔离,利用这种隔离尽可能地减少非平稳行为对预测的影响,固有模态分量的频率比原始序列的小得多,这样能减少各个分量的最大Lyapunov指数,从而大大增长可预测时间达到长期预测的目的;
在链式重写窗口模型中,需要定义数据节点结构,数据存储和更新以及链式可重写窗口格局变换图,定义如下:
typedef struct LNode{
    ElemType data;
    struct LNode *next;
}LNode,*LinkWindow;
数据存储和更新:
Update(N,length,*head,*rear,ElemType e) {       //窗口未满
    If(N<length){                             
s=(LinkWindow)malloc sizeof(Lnode);
        s->data = e;
        s->next = rear->next;
        rear->next = s;
        length++;
       //窗口已满
} else {
    If(rear->next==null){
       rear = head->next;
}else {
    rear = rear->next;
}
rear->data = e;
}
}
f 定义如下:
- f(N,length,*head,*rear)
    //窗口未满
if(length<N)
    直接返回窗口中的数据
//窗口满
else 
head 和 rear之间数据 和 rear后的数据互换后返回
第一行表示窗口为空,如果在此阶段没有数据到达时,建立节点挂在链表的最后,length=length+1,rear=rear->next,第三行表示数据恰好满时,如果在此阶段有数据到达时,数据此时不能直接进入窗口,而是新到数据覆盖早进入窗口的数据,即rear=head->next,rear->data=e,第五行表示当窗口满时并且rear->next!=null,则rear=rear->next;rear->data=e;
对于分解后的各个分量分别基于最大Lyapunov指数预测模型进行预测,将各分量的预测值进行合成,得到数据序列的最终预测结果。
CN 201310229090 2013-06-09 2013-06-09 一种基于链式可重写窗口的数据流在线预测方法 Pending CN103279679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201310229090 CN103279679A (zh) 2013-06-09 2013-06-09 一种基于链式可重写窗口的数据流在线预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201310229090 CN103279679A (zh) 2013-06-09 2013-06-09 一种基于链式可重写窗口的数据流在线预测方法

Publications (1)

Publication Number Publication Date
CN103279679A true CN103279679A (zh) 2013-09-04

Family

ID=49062194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201310229090 Pending CN103279679A (zh) 2013-06-09 2013-06-09 一种基于链式可重写窗口的数据流在线预测方法

Country Status (1)

Country Link
CN (1) CN103279679A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090952A (zh) * 2014-07-02 2014-10-08 华中科技大学 一种估算滑动窗口下的数据流平均值的方法与系统
CN105095652A (zh) * 2015-07-10 2015-11-25 东北大学 基于堆叠极限学习机的样品成份测定方法
CN105512330A (zh) * 2015-12-25 2016-04-20 石成富 一种基于大数据的计算机数据挖掘分类方法
CN106649727A (zh) * 2016-12-23 2017-05-10 南京航空航天大学 一种用于无人机飞行控制系统故障检测的数据库构建方法
CN109086370A (zh) * 2018-07-20 2018-12-25 广州市安服星网络科技有限公司 一种互联网数据流处理系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104090952A (zh) * 2014-07-02 2014-10-08 华中科技大学 一种估算滑动窗口下的数据流平均值的方法与系统
CN104090952B (zh) * 2014-07-02 2017-09-26 华中科技大学 一种估算滑动窗口下的数据流平均值的方法与系统
CN105095652A (zh) * 2015-07-10 2015-11-25 东北大学 基于堆叠极限学习机的样品成份测定方法
CN105095652B (zh) * 2015-07-10 2017-10-03 东北大学 基于堆叠极限学习机的样品成份测定方法
CN105512330A (zh) * 2015-12-25 2016-04-20 石成富 一种基于大数据的计算机数据挖掘分类方法
CN106649727A (zh) * 2016-12-23 2017-05-10 南京航空航天大学 一种用于无人机飞行控制系统故障检测的数据库构建方法
CN106649727B (zh) * 2016-12-23 2019-12-24 南京航空航天大学 一种用于无人机飞行控制系统故障检测的数据库构建方法
CN109086370A (zh) * 2018-07-20 2018-12-25 广州市安服星网络科技有限公司 一种互联网数据流处理系统

Similar Documents

Publication Publication Date Title
CN113962364B (zh) 一种基于深度学习的多因素用电负荷预测方法
Oprea et al. Machine learning algorithms for short-term load forecast in residential buildings using smart meters, sensors and big data solutions
Corizzo et al. Anomaly detection and repair for accurate predictions in geo-distributed big data
US20150317589A1 (en) Forecasting system using machine learning and ensemble methods
Kourentzes et al. Improving forecasting by estimating time series structural components across multiple frequencies
Chen et al. TAIEX forecasting based on fuzzy time series, particle swarm optimization techniques and support vector machines
Alekseev et al. A multivariate neural forecasting modeling for air transport–preprocessed by decomposition: a Brazilian application
Mehrmolaei et al. Time series forecasting using improved ARIMA
Massaoudi et al. Convergence of photovoltaic power forecasting and deep learning: State-of-art review
Chai et al. A decomposition–integration model with dynamic fuzzy reconstruction for crude oil price prediction and the implications for sustainable development
CN103279679A (zh) 一种基于链式可重写窗口的数据流在线预测方法
Sengar et al. Ensemble approach for short term load forecasting in wind energy system using hybrid algorithm
Qian et al. Short-term wind speed prediction with a two-layer attention-based LSTM
Qiao et al. Feature selection strategy for machine learning methods in building energy consumption prediction
Fan et al. Adaptive partition intuitionistic fuzzy time series forecasting model
Zougagh et al. Artificial intelligence hybrid models for improving forecasting accuracy
Ho et al. Amic: An adaptive information theoretic method to identify multi-scale temporal correlations in big time series data
Zhang et al. A local semi-supervised ensemble learning strategy for the data‐driven soft sensor of the power prediction in wind power generation
Wan et al. Hydrological big data prediction based on similarity search and improved BP neural network
Somu et al. Evaluation of building energy demand forecast models using multi-attribute decision making approach
Dan et al. Application of machine learning in forecasting energy usage of building design
CN115310355A (zh) 考虑多能耦合的综合能源系统多元负荷预测方法及系统
Wu et al. A prediction model based on time series data in Intelligent Transportation System
Abedinia et al. A hybrid artificial neural network and VEPSO based on day-ahead price forecasting of electricity markets
Candelieri et al. Layered machine learning for short-term water demand forecasting.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130904