CN102801426A

CN102801426A - 一种时序数据拟合及压缩方法

Info

Publication number: CN102801426A
Application number: CN2012101876979A
Authority: CN
Inventors: 刘志军
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2012-06-08
Filing date: 2012-06-08
Publication date: 2012-11-28
Anticipated expiration: 2032-06-08
Also published as: CN102801426B

Abstract

本发明适用于数据拟合及压缩技术领域，提供了一种时序数据拟合及压缩方法，所述方法包括：将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示；定义t时刻D维时序数据的拟合误差以及定义N个D维时序数据的平均拟合误差平方和ε_N；根据D维输入数据组成的向量x_t、M个基函数

组成的向量α_t以及权系数矩阵W得到以所述权系数矩阵W为函数的平均拟合误差平方和ε_N(W)；使所述平均拟合误差平方和ε_N(W)最小，得到最优权系数矩阵W_opt。本发明，将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示，使得对压缩的数据的维数没有限制，可以任意扩充。

Description

一种时序数据拟合及压缩方法

技术领域

本发明属于数据拟合及压缩技术领域，尤其涉及一种时序数据拟合及压缩方法。

背景技术

时间、空间、属性是地理信息系统（Geographic Information System，GIS）数据库的三种基本数据组成。“空间”指空间位置数据及其派生数据。“属性”指与空间位置无派生关系的专题属性数据。“时间”则指时间、空间和属性状态的时变信息。随着近年来以空间数据库为基础的GIS研究和应用的不断深入，随时间而变化的信息越来越受到人们的关注，因而提出了时态GIS（TemporalGeographic Information System，TGIS）的概念。时态GIS的组织核心是时空数据库，而时空数据模型是时空数据库的基础。时空数据库的数据一般是多维数据，来自于按照时间周期返回位置及属性等数据的传感器。这类传感器通常会被安装在一些移动的个体上，比如车辆或者个人。通过传感器周期传回的位置及属性数据，接收端系统可以完整的记录下个体的移动轨迹以及对应时间该个体的属性值（如速度、温度等）。当前的应用发展趋势表明，被监测个体的数目正在呈爆炸性的增长，同时随着技术的进步以及应用的需求，传感器数据回传的周期也越来越短。这样接收端系统长时间运行将占用非常庞大的磁盘空间，因而针对这些采集的多维数据进行有效的压缩，能够节约大量的磁盘空间，也能极大的降低系统的建设成本。

另外，从工业现场采集的实时数据也是一种时间序列数据，这些实时数据往往具有总量巨大、数据流量突发性高等特点。如果简单地将所有的数据都保存下来，将占用大量的物理存储空间。

在实际应用中，采集的数据往往允许有一定的误差。比如在时空数据库中记录移动个体坐标位置的数据。另外，工业现场采集的数据在较小范围内变化的数据往往也不是用户关心的，用户可能仅仅需要关注某些变化剧烈的拐点数据。上述这两个方面确定了时空数据压缩完全可以在损失一定的数据精度的情况下来减少对数据存储资源的需求，这就是有损数据压缩方法的范畴。目前此类有损数据压缩方法包括旋转门压缩法、稳态阈值法、线性外插法等。

现有的有损数据压缩方法大多采用直线进行拟合，并且大多数是一维数据的有损压缩方法，不能直接对二维、三维或者更多维数据进行压缩，并且压缩实行性能比较差。

发明内容

本发明实施例提供了一种时序数据拟合及压缩方法，旨在解决现有技术大多采用直线进行拟合，并且大多数是一维数据的有损压缩方法，不能直接对二维、三维或者更多维数据进行压缩以及压缩实时性能差的问题。

一方面，提供一种时序数据拟合及压缩方法，所述方法包括：

将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和

\{\begin{matrix} x_{1} (t) = Σ_{k = 0}^{M - 1} w_{1, k} f_{k} (t) + e_{1} (t), t = 0,1,2, . . ., N - 1 \\ x_{2} (t) = Σ_{k = 0}^{M - 1} w_{2, k} f_{k} (t) + e_{2} (t), t = 0,1,2, . . ., N - 1 \\ . . . . . . \\ x_{D} (t) = Σ_{k = 0}^{M - 1} w_{D, k} f_{k} (t) + e_{D} (t), t = 0,1,2, . . ., N - 1 \end{matrix}

来表示，其中f₀(t),f₁(t),...,f_M-1(t)为M个时间基函数，

为D×M个权系数，e_i(t)为第i个分量的拟合误差，其中，i＝1,2,...,D；

定义t时刻D维时序数据的拟合误差e(t)为：

其中，p_i,i＝1,2,3,...,D，为正的常数，并且满足：

定义N个D维时序数据的平均拟合误差平方和ε_N为：

ϵ_{N} = \frac{1}{N} Σ_{t = 0}^{N - 1} e^{2} (t) = \frac{1}{N} Σ_{t = 0}^{N - 1} Σ_{i = 1}^{D} p_{i} {[x_{i} (t) - Σ_{k = 0}^{M - 1} w_{i, k} f_{k} (t)]}^{2},

其中，e(t)为t时刻D维时序数据的拟合误差；

根据D维输入时序数据组成的向量x_t=(x₁(t),x₂(t),...,x_D(t))^T、M个基函数

组成的向量α_t=(f₀(t),f₁(t),...,f_M-1(t))^T以及权系数矩阵

W = {(\begin{matrix} w_{1,0} & w_{1,1} & . . . & w_{1, M - 1} \\ w_{2,0} & w_{2,1} & . . . & w_{2, M - 1} \\ . . . & . . . & . . . & . . . \\ w_{D, 0} & w_{D, 1} & . . . & w_{D, M - 1} \end{matrix})}_{D \times M},

得到以所述的权系数矩阵为函数的平均拟合误差平方和ε_N(W)，所述ε_N(W)为：

ϵ_{N} (W) = \frac{1}{N} Σ_{t = 0}^{N - 1} {(x_{t} - {Wα}_{t})}^{T} (\begin{matrix} p_{1} & 0 & . . . & 0 \\ . & p_{2} & . . . & 0 \\ . . . & . . . & . . . & . . . \\ 0 & 0 & . . & p_{D} \end{matrix}) (x_{t} - {Wα}_{t});

使所述平均拟合误差平方和ε_N(W)最小，得到最优权系数矩阵W_opt。

在本发明实施例中，将t时刻N个D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示，使得对压缩的数据的维数没有限制，可以任意扩充。

附图说明

图1是本发明实施例一提供的时序数据拟合及压缩方法的实现流程图；

图2是本发明实施例二提供的时序数据拟合及压缩方法的实现流程图；

图3是本发明实施例三提供的时序数据拟合及压缩方法的实现流程图；

图4是本发明实施例三提供的输入时序数据的组成示意图，该输入时序数据由N个D维时序数据组成；

图5是本发明实施例三提供的当前分段的数据点的个数小于等于M时，本实施例输出的数据的格式示意图；

图6是本发明实施例三提供的当前分段的数据点的个数大于M时，本实施例输出的数据的格式示意图；

图7是本发明实施例三提供的三维时序数据及其分段线性拟合结果示意图；

图8是图7中的前500条记录的Z坐标分量及其分段线性拟合结果示意图；

图9是本发明实施例三提供的三维时序数据及其分段二次多项式拟合结果示意图；

图10是图9中的前500条记录的Z坐标分量及其分段二次多项式拟合结果示意图；

图11是本发明实施例三提供的三维时序数据及其分段三次多项式拟合结果示意图；

图12是图11中的前500条记录的Z坐标分量及其分段三次多项式拟合结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示。然后，使以所述的权系数矩阵为函数的平均拟合误差平方和最小，来求得最优权系数矩阵，使得对压缩的时序数据的维数没有限制，可以任意扩充。

以下结合具体实施例对本发明的实现进行详细描述：

实施例一

图1示出了本发明实施例一提供的时序数据拟合及压缩方法的实现流程，本实施例可以适应于任意维时序数据的压缩，既能进行时序线性拟合，亦可进行时序非线性拟合，不失一般性，详述如下：

在步骤S101中，将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示。

在本实施例中，将t时刻D维时序数据{x₁(t),x₂(t),...,x_D(t)},t=0,1,2,...,N-1的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示，即：

\{\begin{matrix} x_{1} (t) = Σ_{k = 0}^{M - 1} w_{1, k} f_{k} (t) + e_{1} (t), t = 0,1,2, . . ., N - 1 \\ x_{2} (t) = Σ_{k = 0}^{M - 1} w_{2, k} f_{k} (t) + e_{2} (t), t = 0,1,2, . . ., N - 1 \\ . . . . . . \\ x_{D} (t) = Σ_{k = 0}^{M - 1} w_{D, k} f_{k} (t) + e_{D} (t), t = 0,1,2, . . ., N - 1 \end{matrix} - - - (1)

其中，

为D×M个权系数，e_i(t)为第i个分量的拟合误差，其中，i＝1,2,...,D。基函数

可以任选，如果基函数为{t^p,t^p-1,...,t,1}，则对数据进行p次多项式拟合；特别地，当p=1时对数据进行线性拟合。

在步骤S102中，按式（1）定义t时刻D维时序数据的拟合误差e(t)为：

e (t) = \sqrt{Σ_{i = 1}^{D} p_{i} {[e_{i} (t)]}^{2}} - - - (2)

其中，p_i,i＝1,2,3,...,D，为正的常数，并且满足：

在步骤S103中，根据式（2）定义N个D维时序数据的平均拟合误差平方和ε_N为：

ϵ_{N} = \frac{1}{N} Σ_{t = 0}^{N - 1} e^{2} (t) = \frac{1}{N} Σ_{t = 0}^{N - 1} Σ_{i = 1}^{D} p_{i} {[x_{i} (t) - Σ_{k = 0}^{M - 1} w_{i, k} f_{k} (t)]}^{2} - - - (3)

其中，e(t)为t时刻D维时序数据的拟合误差。

在步骤S104中，根据D维输入时序数据组成的向量x_t=(x₁(t),x₂(t),...,x_D(t))^T、M个基函数

组成的向量α_t=(f₀(t),f₁(t),...,f_M-1(t))^T以及权系数矩阵

W = {(\begin{matrix} w_{1,0} & w_{1,1} & . . . & w_{1, M - 1} \\ w_{2,0} & w_{2,1} & . . . & w_{2, M - 1} \\ . . . & . . . & . . . & . . . \\ w_{D, 0} & w_{D, 1} & . . . & w_{D, M - 1} \end{matrix})}_{D \times M},

得到以所述的权系数矩阵W为函数的平均拟合误差平方和ε_N(W)。

在本实施例中，定义向量x_t=(x₁(t),x₂(t),...,x_D(t))^T、α_t=(f₀(t),f₁(t),...,f_M-1(t))^T、权系数矩阵

W = {(\begin{matrix} w_{1,0} & w_{1,1} & . . . & w_{1, M - 1} \\ w_{2,0} & w_{2,1} & . . . & w_{2, M - 1} \\ . . . & . . . & . . . & . . . \\ w_{D, 0} & w_{D, 1} & . . . & w_{D, M - 1} \end{matrix})}_{D \times M},

根据所述向量以及权系数矩阵W，将式（3）中的ε_N表示成以所述的权系数矩阵W为函数的平均拟合误差平方和ε_N(W)，其中，所述ε_N(W)为：

ϵ_{N} (W) = \frac{1}{N} Σ_{t = 0}^{N - 1} {(x_{t} - {Wα}_{t})}^{T} (\begin{matrix} p_{1} & 0 & . . . & 0 \\ . & p_{2} & . . . & 0 \\ . . . & . . . & . . . & . . . \\ 0 & 0 & . . & p_{D} \end{matrix}) (x_{t} - {Wα}_{t}) - - - (4)

在步骤S105中，使所述平均拟合误差平方和ε_N(W)最小，得到最优权系数矩阵W_opt。

在本实施例中，拟合的一个目标是从N个给定的D维时序数据中，确定式（1）中的权系数，以使ε_N(W)最小。

具体的，当N≤M时，可令式（1）中的各个分量的拟合误差为零，通过解线性方程组

\{\begin{matrix} x_{1} (t) = Σ_{k = 0}^{M - 1} w_{1, k} f_{k} (t) + e_{1} (t), t = 0,1,2, . . ., N - 1 \\ x_{2} (t) = Σ_{k = 0}^{M - 1} w_{2, k} f_{k} (t) + e_{2} (t), t = 0,1,2, . . ., N - 1 \\ . . . . . . \\ x_{D} (t) = Σ_{k = 0}^{M - 1} w_{D, k} f_{k} (t) + e_{D} (t), t = 0,1,2, . . ., N - 1 \end{matrix},

得到权系数矩阵

{w_{1, k}, w_{2, k, . . .,} w_{D, k}}_{k = 0}^{M - 1},

此时ε_N(W)=0；

而当N>M时，可以用最小二乘法确定出最优权系数矩阵，即：使关于权系数矩阵W为函数的平均拟合误差平方和ε_N(W)最小。具体的，最优权系数矩阵W_opt可以通过解方程

得到：

W_{opt} = (Σ_{t = 0}^{N - 1} x_{t} α_{t}^{T}) {(Σ_{t = 0}^{N - 1} α_{t} α_{t}^{T})}^{- 1} - - - (5)

本实施例，将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示，使得对压缩的数据的维数没有限制，可以任意扩充。

实施例二

图2示出了本发明实施例二提供的时序数据拟合及压缩方法的实现流程，实施例一是一种批处理拟合方法，这种方法的缺点主要有：1）、需要求解逆矩阵；2）、分段拟合时序数据时，需要不断的试探每个分段拟合的数据点的数目来确定该分段的最优权系数矩阵。这两个缺点严重限制了时序数据拟合的实时性能，因此需要将实施例一改造为一种在线时序数据拟合方法以满足实时性的要求，本实施例，实时性能非常优异，并能应用于无限长时间序列的数据拟合，详述如下：

在步骤S201中，将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示。

在步骤S202中，定义t时刻D维时序数据的拟合误差e(t)为：

其中，p_i,i＝1,2,3,...,D，为正的常数，并且满足：

在步骤S203中，定义N个D维时序数据的平均拟合误差平方和ε_N为：

ϵ_{N} = \frac{1}{N} Σ_{t = 0}^{N - 1} e^{2} (t) = \frac{1}{N} Σ_{t = 0}^{N - 1} Σ_{i = 1}^{D} p_{i} {[x_{i} (t) - Σ_{k = 0}^{M - 1} w_{i, k} f_{k} (t)]}^{2},

其中，e(t)为t时刻D维数据的拟合误差。

在步骤S204中，根据D维输入时序数据组成的向量x_t=(x₁(t),x₂(t),...,x_D(t))^T、M个基函数

组成的向量α_t=(f₀(t),f₁(t),...,f_M-1(t))^T以及权系数矩阵

W = {(\begin{matrix} w_{1,0} & w_{1,1} & . . . & w_{1, M - 1} \\ w_{2,0} & w_{2,1} & . . . & w_{2, M - 1} \\ . . . & . . . & . . . & . . . \\ w_{D, 0} & w_{D, 1} & . . . & w_{D, M - 1} \end{matrix})}_{D \times M},

得到以所述的权系数矩阵W为函数的所述平均拟合误差平方和ε_N(W)，所述ε_N(W)为：

ϵ_{N} (W) = \frac{1}{N} Σ_{t = 0}^{N - 1} {(x_{t} - {Wα}_{t})}^{T} (\begin{matrix} p_{1} & 0 & . . . & 0 \\ . & p_{2} & . . . & 0 \\ . . . & . . . & . . . & . . . \\ 0 & 0 & . . & p_{D} \end{matrix}) (x_{t} - {Wα}_{t}) .

在步骤S205中，使所述平均拟合误差平方和ε_N(W)最小，得到最优权系数矩阵W_opt。

在步骤S206中，根据预设的P_k和Q_k矩阵以及所述最优权系数矩阵

W_{opt} = (Σ_{t = 0}^{N - 1} x_{t} α_{t}^{T}) {(Σ_{t = 0}^{N - 1} α_{t} α_{t}^{T})}^{- 1},

得到权系数矩阵W_k为：

W_{k} = Q_{k} P_{k}^{- 1} .

在本实施例中，所述权系数矩阵W_k为在获得k个D维时序数据

后由式（5）

W_{opt} = (Σ_{t = 0}^{N - 1} x_{t} α_{t}^{T}) {(Σ_{t = 0}^{N - 1} α_{t} α_{t}^{T})}^{- 1}

得到的最优权系数矩阵。

在本实施例中，预先定义如下的两个矩阵：

P_{k} = (Σ_{t = 0}^{k - 1} α_{t} α_{t}^{T}) - - - (6)

Q_{k} = (Σ_{t = 0}^{k - 1} {x_{t} α}_{t}^{T}) - - - (7)

则根据公式（5）、（6）和（7），可以得到：

W_{k} {= Q}_{k} P_{k}^{- 1} - - - (8)

在步骤S207中，根据所述预设的P_k、Q_k矩阵、步骤S206得到的权系数矩阵W_k以及Sherman-Morrison公式，得到权系数矩阵W_k为：

W_{k} = W_{k - 1} + (x_{k - 1} - W_{k - 1} α_{k - 1}) \frac{α_{k - 1}^{T} P_{k - 1}^{- 1}}{1 + α_{k - 1}^{T} P_{k - 1}^{- 1} α_{k - 1}} .

在本实施例中，根据公式（6）和（7），可以得到：

P_{k} = P_{k - 1} + α_{k - 1} α_{k - 1}^{T} - - - (9)

Q_{k} = Q_{k - 1} + x_{k - 1} α_{k - 1}^{T} - - - (10)

再由Sherman-Morrison公式，可以得到：

P_{k}^{- 1} = {(P_{k - 1} + α_{k - 1} α_{k - 1}^{T})}^{- 1} = P_{k - 1}^{- 1} - \frac{P_{k - 1}^{- 1} α_{k - 1} α_{k - 1}^{T} P_{k - 1}^{- 1}}{1 + α_{k - 1}^{T} P_{k - 1}^{- 1} α_{k - 1}} - - - (11)

将（9）、（10）、（11）式以及表达式

代入式（8），并整理可以得到：

W_{k} = W_{k - 1} + (x_{k - 1} - W_{k - 1} α_{k - 1}) \frac{α_{k - 1}^{T} P_{k - 1}^{- 1}}{1 + α_{k - 1}^{T} P_{k - 1}^{- 1} α_{k - 1}} - - - (12)

本实施例，对于当前获取的时序数据x_t，能利用公式（12）即刻获取最小二乘拟合的最优权系数矩阵，公式（12）中不需要保存所有获得的时序数据，节省了内存空间的开销；另外，利用公式（11），公式（12）中也不需要求解逆矩阵。因而本实例提供的获取最优权系数矩阵的方法实时性能非常优异，并能应用于无限长时间序列的数据拟合。

实施例三

图3示出了本发明实施例三提供的时序数据拟合及压缩方法的实现流程，在拟合多个数据点时，实施例一和二虽然能保证拟合误差的平方和最小，但并不能保证所有数据点的拟合误差都比较小。事实上，当拟合的数据点的点数较多时，有些点会有很大的拟合误差。因此，为提高数据的拟合精度，本实施例采用分段的方法对多个数据点进行拟合，实现有损压缩的基本原理是：当当前拟合分段的数据点的个数大于M时，输出是两项：1）每个拟合分段的数据点的个数；2）每个拟合分段的最优权系数矩阵。利用这两项数据就能计算出该分段中所有点的拟合数据值，从而实现了有损压缩，详述如下：

在步骤S301中，将t时刻D维时序数据的每一个分量用M个时间基函数的线性组合与该分量的拟合误差的和来表示。

在步骤S302中，定义t时刻D维时序数据的拟合误差e(t)为：其中，p_i,i＝1,2,3,...,D，为正的常数，并且满足：

在步骤S303中，定义N个D维时序数据的平均拟合误差平方和ε_N为：

ϵ_{N} = \frac{1}{N} Σ_{t = 0}^{N - 1} e^{2} (t) = \frac{1}{N} Σ_{t = 0}^{N - 1} Σ_{i = 1}^{D} p_{i} {[x_{i} (t) - Σ_{k = 0}^{M - 1} w_{i, k} f_{k} (t)]}^{2},

其中，e(t)为t时刻D维数据的拟合误差。

在步骤S304中，根据D维输入时序数据组成的向量x_t=(x₁(t),x₂(t),...,x_D(t))^T、M个基函数

组成的向量α_t=(f₀(t),f₁(t),...,f_M-1(t))^T以及权系数矩阵

W = {(\begin{matrix} w_{1,0} & w_{1,1} & . . . & w_{1, M - 1} \\ w_{2,0} & w_{2,1} & . . . & w_{2, M - 1} \\ . . . & . . . & . . . & . . . \\ w_{D, 0} & w_{D, 1} & . . . & w_{D, M - 1} \end{matrix})}_{D \times M},

ϵ_{N} (W) = \frac{1}{N} Σ_{t = 0}^{N - 1} {(x_{t} - {Wα}_{t})}^{T} (\begin{matrix} p_{1} & 0 & . . . & 0 \\ . & p_{2} & . . . & 0 \\ . . . & . . . & . . . & . . . \\ 0 & 0 & . . & p_{D} \end{matrix}) (x_{t} - {Wα}_{t}) .

在步骤S305中，使所述平均拟合误差平方和ε_N(W)最小，得到最优权系数矩阵W_opt。

在步骤S306中，根据预设的P_k和Q_k矩阵以及所述最优权系数矩阵

W_{opt} = (Σ_{t = 0}^{N - 1} x_{t} α_{t}^{T}) {(Σ_{t = 0}^{N - 1} α_{t} α_{t}^{T})}^{- 1},

得到权系数矩阵W_k为：

W_{k} = Q_{k} P_{k}^{- 1} .

在步骤S307中，根据所述预设的P_k和Q_k矩阵、步骤S306得到的权系数矩阵W_k以及Sherman-Morrison公式，得到权系数矩阵W_k为：

W_{k} = W_{k - 1} + (x_{k - 1} - W_{k - 1} α_{k - 1}) \frac{α_{k - 1}^{T} P_{k - 1}^{- 1}}{1 + α_{k - 1}^{T} P_{k - 1}^{- 1} α_{k - 1}} .

在步骤S308中，如果当前分段中的数据点的个数points_num大于M，则检查当前分段的拟合是否满足预设的开辟新分段的条件，如果满足，则输出points_num-1以及所述当前分段的更新前的最优权系数矩阵W_last，同时使points_num=0。

在本实施例中，所述预设的开辟新分段的条件可以是所述当前分段中存在拟合误差大于e_max的数据点，也可以是当前分段的平均拟合误差平方和大于ε_max，或者是其他预设的条件；

所述当前分段的最优权系数矩阵W的更新过程为：先保存W_last=W，然后设置W=W_last+(x-W_lastα)g，其中，

P的计算见下面第2、第4段。

特别地，还有一种情况：虽然当前分段中的数据点的个数points_num大于M，但是当前分段的拟合不满足预设的开辟新分段的条件，同时当前数据点是最后一个需要处理的数据点，对这种情况，则输出points_num以及所述当前分段的最优权系数矩阵W，然后退出。

特别地，还有另外一种情况：虽然当前分段中的数据点的个数points_num大于M，但是当前分段的拟合不满足预设的开辟新分段的条件，同时当前数据点不是最后一个需要处理的数据点，则使P＝P-Pαg。

另外，作为本实施例的一个优选实施例，如果当前分段中的数据点的个数小于M，则暂存所述当前分段中的时序数据x_t，同时如果当前数据点是最后一个需要处理的数据点，则直接输出所述当前分段中所有暂存的时序数据。

另外，作为本实施例的另一个优选实施例，如果当前分段中的数据点的个数等于M，则初始化矩阵P和W，使得

具体的，本实施例的时序数据压缩方法的过程详述如下：

步骤1、初始化变量：t=0，points_num=0；

步骤2、获取向量：x=(x₁(t),x₂(t),...,x_D(t))^T,α=(f₀(t),f₁(t),...,f_M-1(t))^T；

步骤3、设置points_num=points_num+1；

步骤4、若points_num＞M，则转步骤5，否则先后执行（a）和（b）；接着如果points_num<M，则执行(d),否则先后执行(c)和(d)；

(a)暂存x₀,x₁，...；

(b)若t=N-1，则直接输出暂存的数据x₀,x₁，...，退出。

(c)初始化矩阵：

P = {(Σ_{t = 0}^{M - 1} α_{t} α_{t}^{T})}^{- 1},

W = (Σ_{t = 0}^{M - 1} x_{t} α_{t}^{T}) P;

(d)设置t=t+1，再执行步骤2；

步骤5、计算增益矩阵：

步骤6、权矩阵更新：先保存：W_last=W，然后设置W=W_last+(x-W_lastα)g；

步骤7、检查当前分段的拟合是否满足预设的开辟新分段的条件，如：该分段是否存在拟合误差大于e_max的数据点，或者该分段的平均拟合误差平方和是否大于ε_max。若满足则执行(a)与(b)：

(a)输出：points_num-1，W_last；

(b)设置points_num=0，再执行步骤2；

步骤8、若不满足，则若t=N-1，则输出：points_num，W，退出。

步骤9、若不满足，并且t<N-1，则将矩阵P更新：P=P-Pαg；

步骤10、设置t=t+1，再执行步骤2。

具体的，在本实施例中，各个参数的含义如下：

e_max：D维数据最大的拟合误差（参见式（2））；

ε_max：最大的平均拟合误差平方和（参见式（3））；

t：代表当前的数据记录号（从0开始计数）；

points_num：当前分段的数据点的个数；

N：需要压缩的总的数据记录数；

M：基函数的个数；

D：时序数据的维数。

W：当前拟合分段的最优权系数矩阵；

W_last：当前拟合分段的更新前的最优权系数矩阵。

图4示出了本实施例提供的输入数据的组成示意图，该输入时序数据由N个D维时序数据组成。

图5示出了本实施例提供的当前分段的数据点的个数n小于等于M时，本实施例输出的数据的格式示意图。

图6示出了本实施例提供的当前分段的数据点的个数大于M时，本实施例输出的数据的格式示意图，图中的W(i，j)代表权系数矩阵W的第i+1行，第j+1列的元素。

本实施例，在分段拟合时序数据时，当当前的拟合分段的数据点的个数大于M时，如果当前分段的拟合满足预设的开辟新分段的条件，则输出points_num-1以及所述当前分段的更新前的最优权系数矩阵W_last，保证了分段拟合数据的误差控制在预定的范围内。

为更好地说明本实施例的优点，采用实际的5组三维时序数据进行拟合及压缩测试。每组三维时序数据均由6000条记录组成。分别采用基函数{t，1}、{t²,t,1}、{t³，t²,t,1}，即线性、二次多项式、三次多项式进行分段拟合。其中一组时序数据的拟合实验的结果如图7至图12所示。在上述实验中，选用拟合误差公式为

最大的拟合误差所有这些6000个三维时序数据点的拟合误差均不超过设定的e_max。三种拟合方法的平均压缩比分别达到：20.02、17.86、16.57。实验结果显示本实施例提出的方法实时性能非常优异，实验结果令人满意，完全适用于处理采自地理信息系统的时序数据以及工业现场大容量的实时数据。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。