CN102801426A - 一种时序数据拟合及压缩方法 - Google Patents

一种时序数据拟合及压缩方法 Download PDF

Info

Publication number
CN102801426A
CN102801426A CN2012101876979A CN201210187697A CN102801426A CN 102801426 A CN102801426 A CN 102801426A CN 2012101876979 A CN2012101876979 A CN 2012101876979A CN 201210187697 A CN201210187697 A CN 201210187697A CN 102801426 A CN102801426 A CN 102801426A
Authority
CN
China
Prior art keywords
weight coefficient
coefficient matrix
sigma
alpha
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101876979A
Other languages
English (en)
Other versions
CN102801426B (zh
Inventor
刘志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201210187697.9A priority Critical patent/CN102801426B/zh
Publication of CN102801426A publication Critical patent/CN102801426A/zh
Application granted granted Critical
Publication of CN102801426B publication Critical patent/CN102801426B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明适用于数据拟合及压缩技术领域,提供了一种时序数据拟合及压缩方法,所述方法包括:将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示;定义t时刻D维时序数据的拟合误差以及定义N个D维时序数据的平均拟合误差平方和εN;根据D维输入数据组成的向量xt、M个基函数
Figure DDA00001742211000011
组成的向量αt以及权系数矩阵W得到以所述权系数矩阵W为函数的平均拟合误差平方和εN(W);使所述平均拟合误差平方和εN(W)最小,得到最优权系数矩阵Wopt。本发明,将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示,使得对压缩的数据的维数没有限制,可以任意扩充。

Description

一种时序数据拟合及压缩方法
技术领域
本发明属于数据拟合及压缩技术领域,尤其涉及一种时序数据拟合及压缩方法。
背景技术
时间、空间、属性是地理信息系统(Geographic Information System,GIS)数据库的三种基本数据组成。“空间”指空间位置数据及其派生数据。“属性”指与空间位置无派生关系的专题属性数据。“时间”则指时间、空间和属性状态的时变信息。随着近年来以空间数据库为基础的GIS研究和应用的不断深入,随时间而变化的信息越来越受到人们的关注,因而提出了时态GIS(TemporalGeographic Information System,TGIS)的概念。时态GIS的组织核心是时空数据库,而时空数据模型是时空数据库的基础。时空数据库的数据一般是多维数据,来自于按照时间周期返回位置及属性等数据的传感器。这类传感器通常会被安装在一些移动的个体上,比如车辆或者个人。通过传感器周期传回的位置及属性数据,接收端系统可以完整的记录下个体的移动轨迹以及对应时间该个体的属性值(如速度、温度等)。当前的应用发展趋势表明,被监测个体的数目正在呈爆炸性的增长,同时随着技术的进步以及应用的需求,传感器数据回传的周期也越来越短。这样接收端系统长时间运行将占用非常庞大的磁盘空间,因而针对这些采集的多维数据进行有效的压缩,能够节约大量的磁盘空间,也能极大的降低系统的建设成本。
另外,从工业现场采集的实时数据也是一种时间序列数据,这些实时数据往往具有总量巨大、数据流量突发性高等特点。如果简单地将所有的数据都保存下来,将占用大量的物理存储空间。
在实际应用中,采集的数据往往允许有一定的误差。比如在时空数据库中记录移动个体坐标位置的数据。另外,工业现场采集的数据在较小范围内变化的数据往往也不是用户关心的,用户可能仅仅需要关注某些变化剧烈的拐点数据。上述这两个方面确定了时空数据压缩完全可以在损失一定的数据精度的情况下来减少对数据存储资源的需求,这就是有损数据压缩方法的范畴。目前此类有损数据压缩方法包括旋转门压缩法、稳态阈值法、线性外插法等。
现有的有损数据压缩方法大多采用直线进行拟合,并且大多数是一维数据的有损压缩方法,不能直接对二维、三维或者更多维数据进行压缩,并且压缩实行性能比较差。
发明内容
本发明实施例提供了一种时序数据拟合及压缩方法,旨在解决现有技术大多采用直线进行拟合,并且大多数是一维数据的有损压缩方法,不能直接对二维、三维或者更多维数据进行压缩以及压缩实时性能差的问题。
一方面,提供一种时序数据拟合及压缩方法,所述方法包括:
将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和 x 1 ( t ) = Σ k = 0 M - 1 w 1 , k f k ( t ) + e 1 ( t ) , t = 0,1,2 , . . . , N - 1 x 2 ( t ) = Σ k = 0 M - 1 w 2 , k f k ( t ) + e 2 ( t ) , t = 0,1,2 , . . . , N - 1 . . . . . . x D ( t ) = Σ k = 0 M - 1 w D , k f k ( t ) + e D ( t ) , t = 0,1,2 , . . . , N - 1 来表示,其中f0(t),f1(t),...,fM-1(t)为M个时间基函数,
Figure BDA00001742210800022
为D×M个权系数,ei(t)为第i个分量的拟合误差,其中,i=1,2,...,D;
定义t时刻D维时序数据的拟合误差e(t)为:
Figure BDA00001742210800023
其中,pi,i=1,2,3,...,D,为正的常数,并且满足:
Figure BDA00001742210800024
定义N个D维时序数据的平均拟合误差平方和εN为:
ϵ N = 1 N Σ t = 0 N - 1 e 2 ( t ) = 1 N Σ t = 0 N - 1 Σ i = 1 D p i [ x i ( t ) - Σ k = 0 M - 1 w i , k f k ( t ) ] 2 , 其中,e(t)为t时刻D维时序数据的拟合误差;
根据D维输入时序数据组成的向量xt=(x1(t),x2(t),...,xD(t))T、M个基函数
Figure BDA00001742210800032
组成的向量αt=(f0(t),f1(t),...,fM-1(t))T以及权系数矩阵 W = w 1,0 w 1,1 . . . w 1 , M - 1 w 2,0 w 2,1 . . . w 2 , M - 1 . . . . . . . . . . . . w D , 0 w D , 1 . . . w D , M - 1 D × M , 得到以所述的权系数矩阵为函数的平均拟合误差平方和εN(W),所述εN(W)为:
ϵ N ( W ) = 1 N Σ t = 0 N - 1 ( x t - Wα t ) T p 1 0 . . . 0 . p 2 . . . 0 . . . . . . . . . . . . 0 0 . . p D ( x t - Wα t ) ;
使所述平均拟合误差平方和εN(W)最小,得到最优权系数矩阵Wopt
在本发明实施例中,将t时刻N个D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示,使得对压缩的数据的维数没有限制,可以任意扩充。
附图说明
图1是本发明实施例一提供的时序数据拟合及压缩方法的实现流程图;
图2是本发明实施例二提供的时序数据拟合及压缩方法的实现流程图;
图3是本发明实施例三提供的时序数据拟合及压缩方法的实现流程图;
图4是本发明实施例三提供的输入时序数据的组成示意图,该输入时序数据由N个D维时序数据组成;
图5是本发明实施例三提供的当前分段的数据点的个数小于等于M时,本实施例输出的数据的格式示意图;
图6是本发明实施例三提供的当前分段的数据点的个数大于M时,本实施例输出的数据的格式示意图;
图7是本发明实施例三提供的三维时序数据及其分段线性拟合结果示意图;
图8是图7中的前500条记录的Z坐标分量及其分段线性拟合结果示意图;
图9是本发明实施例三提供的三维时序数据及其分段二次多项式拟合结果示意图;
图10是图9中的前500条记录的Z坐标分量及其分段二次多项式拟合结果示意图;
图11是本发明实施例三提供的三维时序数据及其分段三次多项式拟合结果示意图;
图12是图11中的前500条记录的Z坐标分量及其分段三次多项式拟合结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示。然后,使以所述的权系数矩阵为函数的平均拟合误差平方和最小,来求得最优权系数矩阵,使得对压缩的时序数据的维数没有限制,可以任意扩充。
以下结合具体实施例对本发明的实现进行详细描述:
实施例一
图1示出了本发明实施例一提供的时序数据拟合及压缩方法的实现流程,本实施例可以适应于任意维时序数据的压缩,既能进行时序线性拟合,亦可进行时序非线性拟合,不失一般性,详述如下:
在步骤S101中,将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示。
在本实施例中,将t时刻D维时序数据{x1(t),x2(t),...,xD(t)},t=0,1,2,...,N-1的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示,即:
x 1 ( t ) = Σ k = 0 M - 1 w 1 , k f k ( t ) + e 1 ( t ) , t = 0,1,2 , . . . , N - 1 x 2 ( t ) = Σ k = 0 M - 1 w 2 , k f k ( t ) + e 2 ( t ) , t = 0,1,2 , . . . , N - 1 . . . . . . x D ( t ) = Σ k = 0 M - 1 w D , k f k ( t ) + e D ( t ) , t = 0,1,2 , . . . , N - 1 - - - ( 1 )
其中,
Figure BDA00001742210800052
为D×M个权系数,ei(t)为第i个分量的拟合误差,其中,i=1,2,...,D。基函数
Figure BDA00001742210800053
可以任选,如果基函数为{tp,tp-1,...,t,1},则对数据进行p次多项式拟合;特别地,当p=1时对数据进行线性拟合。
在步骤S102中,按式(1)定义t时刻D维时序数据的拟合误差e(t)为:
e ( t ) = Σ i = 1 D p i [ e i ( t ) ] 2 - - - ( 2 )
其中,pi,i=1,2,3,...,D,为正的常数,并且满足:
Figure BDA00001742210800055
在步骤S103中,根据式(2)定义N个D维时序数据的平均拟合误差平方和εN为:
ϵ N = 1 N Σ t = 0 N - 1 e 2 ( t ) = 1 N Σ t = 0 N - 1 Σ i = 1 D p i [ x i ( t ) - Σ k = 0 M - 1 w i , k f k ( t ) ] 2 - - - ( 3 )
其中,e(t)为t时刻D维时序数据的拟合误差。
在步骤S104中,根据D维输入时序数据组成的向量xt=(x1(t),x2(t),...,xD(t))T、M个基函数
Figure BDA00001742210800057
组成的向量αt=(f0(t),f1(t),...,fM-1(t))T以及权系数矩阵 W = w 1,0 w 1,1 . . . w 1 , M - 1 w 2,0 w 2,1 . . . w 2 , M - 1 . . . . . . . . . . . . w D , 0 w D , 1 . . . w D , M - 1 D × M , 得到以所述的权系数矩阵W为函数的平均拟合误差平方和εN(W)。
在本实施例中,定义向量xt=(x1(t),x2(t),...,xD(t))T、αt=(f0(t),f1(t),...,fM-1(t))T、权系数矩阵 W = w 1,0 w 1,1 . . . w 1 , M - 1 w 2,0 w 2,1 . . . w 2 , M - 1 . . . . . . . . . . . . w D , 0 w D , 1 . . . w D , M - 1 D × M , 根据所述向量以及权系数矩阵W,将式(3)中的εN表示成以所述的权系数矩阵W为函数的平均拟合误差平方和εN(W),其中,所述εN(W)为:
ϵ N ( W ) = 1 N Σ t = 0 N - 1 ( x t - Wα t ) T p 1 0 . . . 0 . p 2 . . . 0 . . . . . . . . . . . . 0 0 . . p D ( x t - Wα t ) - - - ( 4 )
在步骤S105中,使所述平均拟合误差平方和εN(W)最小,得到最优权系数矩阵Wopt
在本实施例中,拟合的一个目标是从N个给定的D维时序数据中,确定式(1)中的权系数,以使εN(W)最小。
具体的,当N≤M时,可令式(1)中的各个分量的拟合误差为零,通过解线性方程组 x 1 ( t ) = Σ k = 0 M - 1 w 1 , k f k ( t ) + e 1 ( t ) , t = 0,1,2 , . . . , N - 1 x 2 ( t ) = Σ k = 0 M - 1 w 2 , k f k ( t ) + e 2 ( t ) , t = 0,1,2 , . . . , N - 1 . . . . . . x D ( t ) = Σ k = 0 M - 1 w D , k f k ( t ) + e D ( t ) , t = 0,1,2 , . . . , N - 1 , 得到权系数矩阵 { w 1 , k , w 2 , k , . . . , w D , k } k = 0 M - 1 , 此时εN(W)=0;
而当N>M时,可以用最小二乘法确定出最优权系数矩阵,即:使关于权系数矩阵W为函数的平均拟合误差平方和εN(W)最小。具体的,最优权系数矩阵Wopt可以通过解方程
Figure BDA00001742210800071
得到:
W opt = ( Σ t = 0 N - 1 x t α t T ) ( Σ t = 0 N - 1 α t α t T ) - 1 - - - ( 5 )
本实施例,将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示,使得对压缩的数据的维数没有限制,可以任意扩充。
实施例二
图2示出了本发明实施例二提供的时序数据拟合及压缩方法的实现流程,实施例一是一种批处理拟合方法,这种方法的缺点主要有:1)、需要求解逆矩阵;2)、分段拟合时序数据时,需要不断的试探每个分段拟合的数据点的数目来确定该分段的最优权系数矩阵。这两个缺点严重限制了时序数据拟合的实时性能,因此需要将实施例一改造为一种在线时序数据拟合方法以满足实时性的要求,本实施例,实时性能非常优异,并能应用于无限长时间序列的数据拟合,详述如下:
在步骤S201中,将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示。
在步骤S202中,定义t时刻D维时序数据的拟合误差e(t)为:
Figure BDA00001742210800073
其中,pi,i=1,2,3,...,D,为正的常数,并且满足:
在步骤S203中,定义N个D维时序数据的平均拟合误差平方和εN为:
ϵ N = 1 N Σ t = 0 N - 1 e 2 ( t ) = 1 N Σ t = 0 N - 1 Σ i = 1 D p i [ x i ( t ) - Σ k = 0 M - 1 w i , k f k ( t ) ] 2 , 其中,e(t)为t时刻D维数据的拟合误差。
在步骤S204中,根据D维输入时序数据组成的向量xt=(x1(t),x2(t),...,xD(t))T、M个基函数
Figure BDA00001742210800076
组成的向量αt=(f0(t),f1(t),...,fM-1(t))T以及权系数矩阵 W = w 1,0 w 1,1 . . . w 1 , M - 1 w 2,0 w 2,1 . . . w 2 , M - 1 . . . . . . . . . . . . w D , 0 w D , 1 . . . w D , M - 1 D × M , 得到以所述的权系数矩阵W为函数的所述平均拟合误差平方和εN(W),所述εN(W)为:
ϵ N ( W ) = 1 N Σ t = 0 N - 1 ( x t - Wα t ) T p 1 0 . . . 0 . p 2 . . . 0 . . . . . . . . . . . . 0 0 . . p D ( x t - Wα t ) .
在步骤S205中,使所述平均拟合误差平方和εN(W)最小,得到最优权系数矩阵Wopt
在步骤S206中,根据预设的Pk和Qk矩阵以及所述最优权系数矩阵 W opt = ( Σ t = 0 N - 1 x t α t T ) ( Σ t = 0 N - 1 α t α t T ) - 1 , 得到权系数矩阵Wk为: W k = Q k P k - 1 .
在本实施例中,所述权系数矩阵Wk为在获得k个D维时序数据
Figure BDA00001742210800085
后由式(5) W opt = ( Σ t = 0 N - 1 x t α t T ) ( Σ t = 0 N - 1 α t α t T ) - 1 得到的最优权系数矩阵。
在本实施例中,预先定义如下的两个矩阵:
P k = ( Σ t = 0 k - 1 α t α t T ) - - - ( 6 )
Q k = ( Σ t = 0 k - 1 x t α t T ) - - - ( 7 )
则根据公式(5)、(6)和(7),可以得到:
W k = Q k P k - 1 - - - ( 8 )
在步骤S207中,根据所述预设的Pk、Qk矩阵、步骤S206得到的权系数矩阵Wk以及Sherman-Morrison公式,得到权系数矩阵Wk为:
W k = W k - 1 + ( x k - 1 - W k - 1 α k - 1 ) α k - 1 T P k - 1 - 1 1 + α k - 1 T P k - 1 - 1 α k - 1 .
在本实施例中,根据公式(6)和(7),可以得到:
P k = P k - 1 + α k - 1 α k - 1 T - - - ( 9 )
Q k = Q k - 1 + x k - 1 α k - 1 T - - - ( 10 )
再由Sherman-Morrison公式,可以得到:
P k - 1 = ( P k - 1 + α k - 1 α k - 1 T ) - 1 = P k - 1 - 1 - P k - 1 - 1 α k - 1 α k - 1 T P k - 1 - 1 1 + α k - 1 T P k - 1 - 1 α k - 1 - - - ( 11 )
将(9)、(10)、(11)式以及表达式
Figure BDA00001742210800094
代入式(8),并整理可以得到:
W k = W k - 1 + ( x k - 1 - W k - 1 α k - 1 ) α k - 1 T P k - 1 - 1 1 + α k - 1 T P k - 1 - 1 α k - 1 - - - ( 12 )
本实施例,对于当前获取的时序数据xt,能利用公式(12)即刻获取最小二乘拟合的最优权系数矩阵,公式(12)中不需要保存所有获得的时序数据,节省了内存空间的开销;另外,利用公式(11),公式(12)中也不需要求解逆矩阵。因而本实例提供的获取最优权系数矩阵的方法实时性能非常优异,并能应用于无限长时间序列的数据拟合。
实施例三
图3示出了本发明实施例三提供的时序数据拟合及压缩方法的实现流程,在拟合多个数据点时,实施例一和二虽然能保证拟合误差的平方和最小,但并不能保证所有数据点的拟合误差都比较小。事实上,当拟合的数据点的点数较多时,有些点会有很大的拟合误差。因此,为提高数据的拟合精度,本实施例采用分段的方法对多个数据点进行拟合,实现有损压缩的基本原理是:当当前拟合分段的数据点的个数大于M时,输出是两项:1)每个拟合分段的数据点的个数;2)每个拟合分段的最优权系数矩阵。利用这两项数据就能计算出该分段中所有点的拟合数据值,从而实现了有损压缩,详述如下:
在步骤S301中,将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示。
在步骤S302中,定义t时刻D维时序数据的拟合误差e(t)为:其中,pi,i=1,2,3,...,D,为正的常数,并且满足:
Figure BDA00001742210800097
在步骤S303中,定义N个D维时序数据的平均拟合误差平方和εN为:
ϵ N = 1 N Σ t = 0 N - 1 e 2 ( t ) = 1 N Σ t = 0 N - 1 Σ i = 1 D p i [ x i ( t ) - Σ k = 0 M - 1 w i , k f k ( t ) ] 2 , 其中,e(t)为t时刻D维数据的拟合误差。
在步骤S304中,根据D维输入时序数据组成的向量xt=(x1(t),x2(t),...,xD(t))T、M个基函数
Figure BDA00001742210800102
组成的向量αt=(f0(t),f1(t),...,fM-1(t))T以及权系数矩阵 W = w 1,0 w 1,1 . . . w 1 , M - 1 w 2,0 w 2,1 . . . w 2 , M - 1 . . . . . . . . . . . . w D , 0 w D , 1 . . . w D , M - 1 D × M , 得到以所述的权系数矩阵W为函数的所述平均拟合误差平方和εN(W),所述εN(W)为:
ϵ N ( W ) = 1 N Σ t = 0 N - 1 ( x t - Wα t ) T p 1 0 . . . 0 . p 2 . . . 0 . . . . . . . . . . . . 0 0 . . p D ( x t - Wα t ) .
在步骤S305中,使所述平均拟合误差平方和εN(W)最小,得到最优权系数矩阵Wopt
在步骤S306中,根据预设的Pk和Qk矩阵以及所述最优权系数矩阵 W opt = ( Σ t = 0 N - 1 x t α t T ) ( Σ t = 0 N - 1 α t α t T ) - 1 , 得到权系数矩阵Wk为: W k = Q k P k - 1 .
在步骤S307中,根据所述预设的Pk和Qk矩阵、步骤S306得到的权系数矩阵Wk以及Sherman-Morrison公式,得到权系数矩阵Wk为:
W k = W k - 1 + ( x k - 1 - W k - 1 α k - 1 ) α k - 1 T P k - 1 - 1 1 + α k - 1 T P k - 1 - 1 α k - 1 .
在步骤S308中,如果当前分段中的数据点的个数points_num大于M,则检查当前分段的拟合是否满足预设的开辟新分段的条件,如果满足,则输出points_num-1以及所述当前分段的更新前的最优权系数矩阵Wlast,同时使points_num=0。
在本实施例中,所述预设的开辟新分段的条件可以是所述当前分段中存在拟合误差大于emax的数据点,也可以是当前分段的平均拟合误差平方和大于εmax,或者是其他预设的条件;
所述当前分段的最优权系数矩阵W的更新过程为:先保存Wlast=W,然后设置W=Wlast+(x-Wlastα)g,其中,
Figure BDA00001742210800111
P的计算见下面第2、第4段。
特别地,还有一种情况:虽然当前分段中的数据点的个数points_num大于M,但是当前分段的拟合不满足预设的开辟新分段的条件,同时当前数据点是最后一个需要处理的数据点,对这种情况,则输出points_num以及所述当前分段的最优权系数矩阵W,然后退出。
特别地,还有另外一种情况:虽然当前分段中的数据点的个数points_num大于M,但是当前分段的拟合不满足预设的开辟新分段的条件,同时当前数据点不是最后一个需要处理的数据点,则使P=P-Pαg。
另外,作为本实施例的一个优选实施例,如果当前分段中的数据点的个数小于M,则暂存所述当前分段中的时序数据xt,同时如果当前数据点是最后一个需要处理的数据点,则直接输出所述当前分段中所有暂存的时序数据。
另外,作为本实施例的另一个优选实施例,如果当前分段中的数据点的个数等于M,则初始化矩阵P和W,使得
Figure BDA00001742210800113
具体的,本实施例的时序数据压缩方法的过程详述如下:
步骤1、初始化变量:t=0,points_num=0;
步骤2、获取向量:x=(x1(t),x2(t),...,xD(t))T,α=(f0(t),f1(t),...,fM-1(t))T
步骤3、设置points_num=points_num+1;
步骤4、若points_num>M,则转步骤5,否则先后执行(a)和(b);接着如果points_num<M,则执行(d),否则先后执行(c)和(d);
(a)暂存x0,x1,...;
(b)若t=N-1,则直接输出暂存的数据x0,x1,...,退出。
(c)初始化矩阵:
P = ( &Sigma; t = 0 M - 1 &alpha; t &alpha; t T ) - 1 , W = ( &Sigma; t = 0 M - 1 x t &alpha; t T ) P ;
(d)设置t=t+1,再执行步骤2;
步骤5、计算增益矩阵:
Figure BDA00001742210800123
步骤6、权矩阵更新:先保存:Wlast=W,然后设置W=Wlast+(x-Wlastα)g;
步骤7、检查当前分段的拟合是否满足预设的开辟新分段的条件,如:该分段是否存在拟合误差大于emax的数据点,或者该分段的平均拟合误差平方和是否大于εmax。若满足则执行(a)与(b):
(a)输出:points_num-1,Wlast
(b)设置points_num=0,再执行步骤2;
步骤8、若不满足,则若t=N-1,则输出:points_num,W,退出。
步骤9、若不满足,并且t<N-1,则将矩阵P更新:P=P-Pαg;
步骤10、设置t=t+1,再执行步骤2。
具体的,在本实施例中,各个参数的含义如下:
emax:D维数据最大的拟合误差(参见式(2));
εmax:最大的平均拟合误差平方和(参见式(3));
t:代表当前的数据记录号(从0开始计数);
points_num:当前分段的数据点的个数;
N:需要压缩的总的数据记录数;
M:基函数的个数;
D:时序数据的维数。
W:当前拟合分段的最优权系数矩阵;
Wlast:当前拟合分段的更新前的最优权系数矩阵。
图4示出了本实施例提供的输入数据的组成示意图,该输入时序数据由N个D维时序数据组成。
图5示出了本实施例提供的当前分段的数据点的个数n小于等于M时,本实施例输出的数据的格式示意图。
图6示出了本实施例提供的当前分段的数据点的个数大于M时,本实施例输出的数据的格式示意图,图中的W(i,j)代表权系数矩阵W的第i+1行,第j+1列的元素。
本实施例,在分段拟合时序数据时,当当前的拟合分段的数据点的个数大于M时,如果当前分段的拟合满足预设的开辟新分段的条件,则输出points_num-1以及所述当前分段的更新前的最优权系数矩阵Wlast,保证了分段拟合数据的误差控制在预定的范围内。
为更好地说明本实施例的优点,采用实际的5组三维时序数据进行拟合及压缩测试。每组三维时序数据均由6000条记录组成。分别采用基函数{t,1}、{t2,t,1}、{t3,t2,t,1},即线性、二次多项式、三次多项式进行分段拟合。其中一组时序数据的拟合实验的结果如图7至图12所示。在上述实验中,选用拟合误差公式为
Figure BDA00001742210800131
最大的拟合误差所有这些6000个三维时序数据点的拟合误差均不超过设定的emax。三种拟合方法的平均压缩比分别达到:20.02、17.86、16.57。实验结果显示本实施例提出的方法实时性能非常优异,实验结果令人满意,完全适用于处理采自地理信息系统的时序数据以及工业现场大容量的实时数据。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种时序数据拟合及压缩方法,其特征在于,所述方法包括:
将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和 x 1 ( t ) = &Sigma; k = 0 M - 1 w 1 , k f k ( t ) + e 1 ( t ) , t = 0,1,2 , . . . , N - 1 x 2 ( t ) = &Sigma; k = 0 M - 1 w 2 , k f k ( t ) + e 2 ( t ) , t = 0,1,2 , . . . , N - 1 . . . . . . x D ( t ) = &Sigma; k = 0 M - 1 w D , k f k ( t ) + e D ( t ) , t = 0,1,2 , . . . , N - 1 来表示,其中f0(t),f1(t),...,fM-1(t)为M个时间基函数,
Figure FDA00001742210700012
为D×M个权系数,ei(t)为第i个分量的拟合误差,其中,i=1,2,...,D;
定义t时刻D维时序数据的拟合误差e(t)为:
Figure FDA00001742210700013
其中,pi,i=1,2,3,...,D,为正的常数,并且满足:
Figure FDA00001742210700014
定义N个D维时序数据的平均拟合误差平方和εN为:
&epsiv; N = 1 N &Sigma; t = 0 N - 1 e 2 ( t ) = 1 N &Sigma; t = 0 N - 1 &Sigma; i = 1 D p i [ x i ( t ) - &Sigma; k = 0 M - 1 w i , k f k ( t ) ] 2 , 其中,e(t)为t时刻D维时序数据的拟合误差;
根据D维输入时序数据组成的向量xt=(x1(t),x2(t),...,xD(t))T、M个基函数
Figure FDA00001742210700016
组成的向量αt=(f0(t),f1(t),...,fM-1(t))T以及权系数矩阵 W = w 1,0 w 1,1 . . . w 1 , M - 1 w 2,0 w 2,1 . . . w 2 , M - 1 . . . . . . . . . . . . w D , 0 w D , 1 . . . w D , M - 1 D &times; M , 得到以所述的权系数矩阵为函数的平均拟合误差平方和εN(W),所述εN(W)为:
&epsiv; N ( W ) = 1 N &Sigma; t = 0 N - 1 ( x t - W&alpha; t ) T p 1 0 . . . 0 . p 2 . . . 0 . . . . . . . . . . . . 0 0 . . p D ( x t - W&alpha; t ) ;
使所述平均拟合误差平方和εN(W)最小,得到最优权系数矩阵Wopt
2.如权利要求1所述的方法,其特征在于,所述使得所述平均拟合误差平方和εN(W)最小,得到最优权系数矩阵Wopt具体包括:
当N≤M时,使所述平均拟合误差平方和εN(W)=0,通过解线性方程组 x 1 ( t ) = &Sigma; k = 0 M - 1 w 1 , k f k ( t ) + e 1 ( t ) , t = 0,1,2 , . . . , N - 1 x 2 ( t ) = &Sigma; k = 0 M - 1 w 2 , k f k ( t ) + e 2 ( t ) , t = 0,1,2 , . . . , N - 1 . . . . . . x D ( t ) = &Sigma; k = 0 M - 1 w D , k f k ( t ) + e D ( t ) , t = 0,1,2 , . . . , N - 1 , 得到权系数矩阵。
3.如权利要求1所述的方法,其特征在于,所述使得所述平均拟合误差平方和εN(W)最小,得到最优权系数矩阵Wopt具体包括:
当N>M时,使所述平均拟合误差平方和εN(W)最小,根据最小二乘法,得到最优权系数矩阵Wopt,所述最优权系数矩阵为:
Figure FDA00001742210700023
4.如权利要求3所述的方法,其特征在于,在所述当N>M时,使所述平均拟合误差平方和εN(W)最小,根据最小二乘法,得到最优权系数矩阵Wopt之后,所述方法还包括:
根据预设的Pk和Qk矩阵以及所述最优权系数矩阵
Figure FDA00001742210700024
得到权系数矩阵Wk为:
Figure FDA00001742210700025
所述权系数矩阵Wk为在获得k个D维时序数据
Figure FDA00001742210700026
后由 W opt = ( &Sigma; t = 0 N - 1 x t &alpha; t T ) ( &Sigma; t = 0 N - 1 &alpha; t &alpha; t T ) - 1 确定的最优权系数矩阵;
所述预设的Pk和Qk矩阵分别为: P k = ( &Sigma; t = 0 k - 1 &alpha; t &alpha; t T ) , Q k = ( &Sigma; t = 0 k - 1 x t &alpha; t T ) ;
根据所述预设的Pk和Qk矩阵、上述步骤得到的
Figure FDA00001742210700033
以及Sherman-Morrison公式,得到权系数矩阵Wk为:
W k = W k - 1 + ( x k - 1 - W k - 1 &alpha; k - 1 ) &alpha; k - 1 T P k - 1 - 1 1 + &alpha; k - 1 T P k - 1 - 1 &alpha; k - 1 .
5.如权利要求4所述的方法,其特征在于,在所述根据所述预设的Pk和Qk矩阵、上述步骤得到的
Figure FDA00001742210700035
以及Sherman-Morrison公式,得到权系数矩阵Wk之后,所述方法还包括:
如果当前分段中的数据点的个数points_num大于M,则检查当前分段的拟合是否满足预设的开辟新分段的条件,如果满足,则输出points_num-1以及所述当前分段的更新前的最优权系数矩阵Wlast,同时使points_num=0;
所述预设的开辟新分段的条件是:所述当前分段中存在拟合误差大于emax的数据点,或者是当前分段的平均拟合误差平方和大于εmax
所述当前分段的最优权系数矩阵W的更新过程为:先保存Wlast=W,然后设置W=Wlast+(x-Wlastα)g,其中,
Figure FDA00001742210700036
当points_num=M时,确定P与W的初始值为: P = ( &Sigma; t = 0 M - 1 &alpha; t &alpha; t T ) - 1 , W = ( &Sigma; t = 0 M - 1 x t &alpha; t T ) P ;
其中,W为当前拟合分段的最优权系数矩阵,Wlast为当前拟合分段的更新前的最优权系数矩阵。
6.如权利要求4所述的方法,其特征在于,在所述在所述根据所述预设的Pk和Qk矩阵、上述步骤得到的
Figure FDA00001742210700039
以及Sherman-Morrison公式,得到权系数矩阵Wk之后,所述方法还包括:
如果当前分段中的数据点的个数小于M,则暂存所述当前分段中的时序数据xt,同时,如果当前数据点是最后一个数据点,则直接输出当前分段中所有暂存的时序数据。
7.如权利要求4所述的方法,其特征在于,在所述在所述根据所述预设的Pk和Qk矩阵、上述步骤得到的以及Sherman-Morrison公式,得到权系数矩阵Wk之后之后,所述方法还包括:
如果当前分段中的数据点的个数等于M,则初始化矩阵P和W,使得 P = ( &Sigma; t = 0 M - 1 &alpha; t &alpha; t T ) - 1 , W = ( &Sigma; t = 0 M - 1 x t &alpha; t T ) P .
8.如权利要求5所述的方法,其特征在于,如果当前分段的拟合不满足预设的开辟新分段的条件,同时当前数据点是最后一个需要处理的数据点,则输出points_num以及所述当前分段的最优权系数矩阵W,然后退出;
如果当前数据点不是最后一个需要处理的数据点,则使P=P-Pαg。
CN201210187697.9A 2012-06-08 2012-06-08 一种时序数据拟合及压缩方法 Expired - Fee Related CN102801426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210187697.9A CN102801426B (zh) 2012-06-08 2012-06-08 一种时序数据拟合及压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210187697.9A CN102801426B (zh) 2012-06-08 2012-06-08 一种时序数据拟合及压缩方法

Publications (2)

Publication Number Publication Date
CN102801426A true CN102801426A (zh) 2012-11-28
CN102801426B CN102801426B (zh) 2015-04-22

Family

ID=47200411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210187697.9A Expired - Fee Related CN102801426B (zh) 2012-06-08 2012-06-08 一种时序数据拟合及压缩方法

Country Status (1)

Country Link
CN (1) CN102801426B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107147398A (zh) * 2017-05-03 2017-09-08 兰州空间技术物理研究所 利用样条函数进行有损压缩的方法和系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564096B (zh) * 2018-04-26 2019-11-19 电子科技大学 一种邻域拟合rcs序列特征提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040230105A1 (en) * 2003-05-15 2004-11-18 Widemed Ltd. Adaptive prediction of changes of physiological/pathological states using processing of biomedical signals
CN1866241A (zh) * 2006-06-21 2006-11-22 浙江中控软件技术有限公司 一种基于最小二乘线性拟合的实时数据压缩方法
CN101925091A (zh) * 2010-07-29 2010-12-22 中国地质大学(武汉) 一种基于非阈值的无线传感器网络节点数据压缩方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040230105A1 (en) * 2003-05-15 2004-11-18 Widemed Ltd. Adaptive prediction of changes of physiological/pathological states using processing of biomedical signals
CN1866241A (zh) * 2006-06-21 2006-11-22 浙江中控软件技术有限公司 一种基于最小二乘线性拟合的实时数据压缩方法
CN101925091A (zh) * 2010-07-29 2010-12-22 中国地质大学(武汉) 一种基于非阈值的无线传感器网络节点数据压缩方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张洁等: ""基于时间序列线性拟合的色谱数据压缩方法"", 《计算机应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107147398A (zh) * 2017-05-03 2017-09-08 兰州空间技术物理研究所 利用样条函数进行有损压缩的方法和系统

Also Published As

Publication number Publication date
CN102801426B (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
CN103207409B (zh) 一种频率域全波形反演地震速度建模方法
CN101706825B (zh) 一种基于文件内容类型的重复数据删除方法
CN103324724B (zh) 数据处理方法及装置
CN104348490B (zh) 一种基于效果优选的组合数据压缩方法
CN103593430A (zh) 一种基于移动对象时空信息轨迹分段聚类的方法
CN102411616B (zh) 一种数据存储方法和系统及数据管理方法
CN106897930A (zh) 一种信用评估的方法及装置
CN107465413B (zh) 一种自适应数据压缩系统及其方法
CN103336772A (zh) 一种新的单景影像瓦片数据组织方法
CN103491185A (zh) 一种基于影像块组织的遥感数据云存储方法
CN113487730A (zh) 一种基于激光雷达点云数据的城市三维自动建模方法
CN106355031A (zh) 基于层次分析法的数据价值度计算方法
CN102437854A (zh) 一种高压缩比的工业实时数据压缩方法
CN103871088A (zh) 基于图像稀疏特征的空间统计数据分块压缩方法及系统
CN102801426A (zh) 一种时序数据拟合及压缩方法
CN108009290A (zh) 一种轨道交通指挥中心线网大数据的数据建模和存储方法
CN105205247A (zh) 一种基于树结构的仿真路网数据管理方法
CN103605482B (zh) 一种硬盘内数据高性能存储方法
CN117252448B (zh) 基于时空特征提取及二次分解聚合的风电功率预测方法
CN113313830B (zh) 基于多分支图卷积神经网络的编码点云特征提取方法
CN105045891B (zh) 提高顺序表性能方法、系统、架构、优化方法及存储装置
CN109819013A (zh) 一种基于云存储的区块链存储容量优化方法
CN113407542A (zh) 一种城市路网车辆出行轨迹的检索方法及系统
CN102799750B (zh) 几何体表面三角形剖分的公共边和非公共边快速生成方法
CN109671440A (zh) 一种模拟音频失真方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150422