CN109684328A

CN109684328A - 一种高维时序数据压缩存储方法

Info

Publication number: CN109684328A
Application number: CN201811508645.0A
Authority: CN
Inventors: 邹天刚; 陈娟; 郭静; 张金乐; 毛飞鸿; 钟薇; 侯威; 桂鹏
Original assignee: China North Vehicle Research Institute
Current assignee: China North Vehicle Research Institute
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-04-26
Anticipated expiration: 2038-12-11
Also published as: CN109684328B

Abstract

本发明涉及一种高维时序数据压缩存储方法，属于计算机软件设计与实现技术领域。本发明根据时序数据的维数和每维数据压缩后的数据点数，对输入的时序数据进行线性扫描。在扫描的过程中，采用区间合并的方法对每一分量数据点进行合并。将合并后的所有分量区间的开始时间和结束时间标签提取出来，进行全局排序，并根据排序后的时间标签重新生成时序数据。最后将生成的时序数据存入关系数据库中。本发明可应用于各类工业控制系统时序数据的压缩存储，适用于数据流量大、采样种类多的情况，可较好地保留原数据的特征，实时性好，压缩比高，实用性强，压缩后的结果可以在关系数据库中存储。

Description

一种高维时序数据压缩存储方法

技术领域

本发明属于计算机软件设计与实现技术领域，具体涉及一种高维时序数据压缩存储方法。

背景技术

为了实现状态监测、故障预警和诊断，车辆传动装置内部安装了大量传感器。在传动装置车载试验过程中，这些传感器采集的数据将持续不断的发送到上位机电脑中。以车辆转向加速试验为例，采集到的数据包括档位及方向、发动机转速、发动机回水温度、风扇转速等多达40个参数变量。以每秒10次的采样速率计算，装置持续运转一个小时会收集到72000条数据记录。在装置长时间运转过程中，会生成总量巨大的数据，如果简单的将所有的数据都保存下来，将占用大量的物理存储空间，且难以检索和使用。

实际观察采样数据会发现，大量的试验数据中存在较多的冗余数据，这是因为设备在运转过程中，某一部件的局部状态经常处于一个稳定状态。例如在高频采样的数据中，“档位及方向”在一段时间内会出现大量的重复数据。从业务角度考虑，工程人员很难从高维海量的时序数据中观察到有用的信息，业务人员更多希望看到数据所展现出来的趋势，以及系统运行过程中是否存在异常数据。采集的数据在较小范围内的变化往往不是用户关心的，用户经常关注的是某些变化剧烈的数据点。因此实际应用中，采集的数据保存时允许有一定的误差。另外，目前众多的应用系统基于关系数据库构建，考虑到使用习惯、迁移成本等问题，目前还无法在短期内实现从关系数据库到海量存储系统的改造工作。因此，如何基于关系数据库实现海量高维时序数据的压缩存储是目前急需解决的问题之一。

目前虽然存在多种压缩方法，例如旋转门压缩法、稳态阈值法、线性外插法等，但是大多数都是一维数据的有损压缩方法，不能直接对二维、三维或者更多维数据进行压缩；其次，压缩算法复杂性高，大批量数据的处理需要较长的时间和计算资源；更为重要的一点，压缩后的数据无法直接在关系数据库中存储和查询，不利于后续业务应用的构建。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何解决现有压缩方法无法高效对高维数据进行压缩及在已有关系数据库中存储的问题。

(二)技术方案

为了解决上述技术问题，本发明提供了一种

(三)有益效果

本发明根据时序数据的维数和每维数据压缩后的数据点数，对输入的时序数据进行线性扫描。在扫描的过程中，采用区间合并的方法对每一分量数据点进行合并。将合并后的所有分量区间的开始时间和结束时间标签提取出来，进行全局排序，并根据排序后的时间标签重新生成时序数据。最后将生成的时序数据存入关系数据库中。本发明可应用于各类工业控制系统时序数据的压缩存储，适用于数据流量大、采样种类多的情况，可较好地保留原数据的特征，实时性好，压缩比高，实用性强，压缩后的结果可以在关系数据库中存储。

附图说明

图1是本发明的方法流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提供了一种传动装置试验产生的高维时序数据压缩存储方法，参见表1，传动装置试验部分数据由Fan,Cb,C1,C2,C3,CL,CH,CR,C3L和CHL共10个分量构成，Time表示时间序列。从中可以看到数据在t₁～t₁₄这个区间内所有分量保持不变，从t₁₅开始，除Fan之外，其他分量都发生了变化，从t₁₉开始，只有C1和C2发生了变化。因此采用区间压缩的方法不仅可以保持数据的特征和趋势，也能够减少数据的存储量。

表1

参见图1，介绍本发明对数据进行压缩的各个操作步骤：

步骤1：设置10维时序数据每一分量的压缩点数分别为CP(D_Fan)＝4，CP(D_Cb)＝8,CP(D_C1)＝8,CP(D_C2)＝8,CP(D_C3)＝8,CP(D_CL)＝8,CP(D_CH)＝8,CP(D_CR)＝8,CP(D_C3L)＝8,CP(D_CHL)＝8。取k值为4，则相应的压缩梯度Grad(D_i)设置为Grad(D_Fan)＝16,Grad(D_Cb)＝32,Grad(D_C1)＝32,Grad(D_C2)＝32,Grad(D_C3)＝32,Grad(D_CL)＝32,Grad(D_CH)＝32,Grad(D_CR)＝32,Grad(D_C3L)＝32,Grad(D_CHL)＝32。压缩点数的设置与用户的经验相关，如果用户已知某个分量的数据稳定性比较好，且对应用的使用产生的影响较小，则可以减少压缩点数，反之增应该增加压缩点数。压缩点数的设置会影响最后压缩后生成的时序数据总量。

步骤2：将D_i的最大值Max(D_i)和最小值Min(D_i)分别设置为第一个数据点的值；例如Max(D_C1)＝Min(D_C1)＝0.25。

步骤3：为每一分量D_i初始化一个区间列表RL(D_i)，用于存储分量D_i已经压缩过的数据区间，列表中的每个元素是一个元组<t_s,t_e,v_max,v_min,v_avg,n>，其中t_s和t_e分别表示区间的开始时间标签和结束时间标签，v_max，v_min和v_avg分别表示区间内数据点的最大值、最小值和平均值，n表示区间内数据点的个数；初始时RL(D_C1)＝{}。

步骤4：顺序读入时序数据，对任意时刻t采样到的D维时序数据，分别对每一分量d_it进行处理，采用区段合并的方法将每个分量数据压缩为一个区段列表RL(D_i)。

步骤4中，分量D_i在t时刻的数据d_it进行数据区段压缩方法，包括以下步骤：

步骤41：比较d_it与Max(D_i)和Min(D_i)的关系，若D_it小于Min(D_i)，则将Min(D_i)设置为d_it，若d_it大于Max(D_i)，则将Max(D_i)设置为d_it；

步骤42：取RL(D_i)中最后一个区间元素R_l＝<t_s,t_e,v_max,v_min,v_avg,n>，若v_min≤d_it≤v_max，则更新R_l为<t_s,t_e,v_max,v_min,(v_avg*n+d_it)/(n+1),n+1>；否则创建一个新的区间R_n＝<t,t,d_it,d_it,d_it,1>，并添加到区间列表RL(D_i)的尾部；

步骤43：检查RL(D_i)中元素的个数，如果超过了指定的压缩点数CP(D_i)，对RL(D_i)中区间进行区间合并。

步骤43中进行分量数据区间合并方法，包括以下步骤：

步骤431：计算R(D_i)＝Max(D_i)-Min(D_i)，将R(D_i)分为Grad(D_i)个区间，每个区间的大小为R(D_i)/Grad(D_i)；

步骤432：顺序扫描RL(D_i)中的元组，检查任意相邻的两个元组R_l＝<t_s,t_e,v_max,v_min,v_avg,n>和R_r＝<t'_s,t'_e,v'_max,v'_min,v'_avg,n'>，根据v_max,v_min,v'_max,v'_min判断是否属于相同的分量区间，如果是，则将R_l和R_r合并为同一个区间，合并后的区间设置为R_lr＝<Min(t_s,t'_s),Max(t_e,t'_e),Max(v_max,v'_max),Min(v_min,v'_min),(v_avg×n+v'_avg×n'),n+n'>；

步骤433：检查RL(D_i)中元素的个数，如果仍然超过了指定的压缩点数CP(D_i)，则将Grad(D_i)设置为Grad(D_i)/2；然后返回步骤431直至所有分离已处理。

以图1中分量C1为例，Grad(D_C1)＝32。开始时R(D_C1)＝Max(D_C1)-Min(D_C1)＝0，将R(D_C1)分为32个区间，每个区间R_j的大小为0。读入第一条数据时，直接新建一个数据区间，RL(D_C1)＝{<1,1,0.25,0.25,0.25,1>}。读入第二条数据时，由于C1的分量为0.25，在RL(D_C1)最后一个区间范围内，则将该数据点直接合并到最后一个区间，RL(D_C1)＝{<1,2,0.25,0.25,0.25,2>}。以此类推，读入第14条数据后，RL(D_C1)＝{<1,14,0.25,0.25,0.25,14>。但是当读入第15条数据后，Max(D_C1)更新为0.25，Min(D_C1)更新为0。由于0不在RL(D_C1)最后一个区间范围内，因此新建一个区间，RL(D_C1)＝{<1,14,0.25,0.25,0.25,14>,<15,15,0,0,0,1>}。依次类推，当到达所有输入数据结束位置时，RL(D_C1)＝{<1,14,0.25,0.25,0.25,14>,<15,18,0,0,0,4>,<19,33,0.7,0.7,0.7,5>}。由于在整个过程中RL(D_C1)中的区间数量都小于CP(D_C1)＝8，因此没有发生区间合并。假设CP(D_C1)＝2，k＝1，则在第三个区间加入到RL(D_C1)中时，会引发一次区间合并，此时R(D_C1)＝Max(D_C1)-Min(D_C1)＝0.7，分量的区段大小R_C1＝0.7/2＝0.35。<1,14,0.25,0.25,0.25,14>,<15,18,0,0,0,4>同属于第一个区段，<19,33,0.7,0.7,0.7,5>属于第二个区段。区段合并之后的结果为RL(D_C1)＝{<1,18,0.25,0,0.194,18>,<19,33,0.7,0.7,0.7,5>}。假设CP(D_C1)＝8，k＝4，则合并之后的区间列表分别为：

RL(D_Fan)＝{<1,33,0,0,0,33>}

RL(D_Cb)＝{<1,14,0.25,0.25,0.25,14>,<15,33,0,0,0,9>}

RL(D_C1)＝{<1,14,0.25,0.25,0.25,14>,<15,18,0,0,0,4>,<19,33,0.7,0.7,0.7,5>}

RL(D_C2)＝{<1,14,0.25,0.25,0.25,14>,<15,18,0,0,0,4>,<19,33,0.7,0.7,0.7,5>}

RL(D_C3)＝{<1,14,0.25,0.25,0.25,14>,<15,33,0,0,0,9>}

RL(D_CL)＝{<1,14,0.25,0.25,0.25,14>,<15,33,0,0,0,9>}

RL(D_CH)＝{<1,14,0.25,0.25,0.25,14>,<15,33,0,0,0,9>}

RL(D_CR)＝{<1,14,0.25,0.25,0.25,14>,<15,33,0,0,0,9>}

RL(D_C3L)＝{<1,14,0.25,0.25,0.25,14>,<15,33,0,0,0,9>}

RL(D_CHL)＝{<1,14,0.25,0.25,0.25,14>,<15,33,0,0,0,9>}

步骤5：对所有分量D_i的区间列表RL(D_i)，取其所有元组的时间标签，并将其放入到同一时间队列TL中；本例中TL＝{1,33,14,15,18,19}。

步骤6：对TL中的时间标签按照升序进行排序；本例中排序后的结果为TL＝{1,14,15,18,19,33}.

步骤7：顺序扫描TL中的每一个时间标签t，根据所有分量的区间列表RL(D_i)重新生成分量数据；步骤7中时序数据重新生成方法，其具体过程为：对每一分量D_i的区间列表RL(D_i)，取t所在区间的四元组<t_s,t_e,v_max,v_min,v_avg,n>，输出D_i在t时刻的数据值v_avg。本例中的生成结果如表2所示。

表2

Time	Fan	Cb	C1	C2	C3	CL	CH	CR	C3L	CHL
											1	0	2.5	2.5	2.5	2.5	2.5	2.5	2.5	2.5	2.5
14	0	2.5	2.5	2.5	2.5	2.5	2.5	2.5	2.5	2.5
											15	0	0	0	0	0	0	0	0	0	0
18	0	0	0	0	0	0	0	0	0	0
											19	0	0	0.01	0.07	0	0	0	0	0	0
33	0	0	0.01	0.07	0	0	0	0	0	0

步骤8：将新生成的时序数据保存到关系数据库中。由于生成的数据仍为二维关系表，因此可以使用目前流行的数据库，例如Oracle,MySql和Sql Server等关系数据库存储。数据的检索仍然可以按照时间和实际值进行操作。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种高维时序数据压缩存储方法，其特征在于，包括以下步骤：

步骤1：设置D维时序数据每一分量D_i的压缩点数CP(D_i)，并将压缩梯度Grad(D_i)设置为CP(D_i)×2^k(k＝1,2,3,...)；

步骤2：将D_i的最大值Max(D_i)和最小值Min(D_i)分别设置为第一个数据点的值；

步骤3：为每一分量D_i初始化一个区间列表RL(D_i)，用于存储分量D_i已经压缩过的数据区间，列表中的每个元素是一个元组<t_s,t_e,v_max,v_min,v_avg,n>，其中t_s和t_e分别表示区间的开始时间标签和结束时间标签，v_max，v_min和v_avg分别表示区间内数据点的最大值、最小值和平均值，n表示区间内数据点的个数；

步骤4：顺序读入时序数据，对任意时刻t采样到的D维时序数据，分别对每一分量d_it进行处理，采用区段合并的方法将每个分量数据压缩为一个区段列表RL(D_i)；

步骤5：对所有分量D_i的区间列表RL(D_i)，取其所有元组的时间标签，并将其放入到同一时间队列TL中；

步骤6：对TL中的时间标签按照升序进行排序；

步骤7：顺序扫描TL中的每一个时间标签t，根据所有分量的区间列表RL(D_i)重新生成分量数据；

步骤8：将新生成的时序数据保存到关系数据库中。

2.如权利要求1所述的方法，其特征在于，步骤4中，分量D_i在t时刻的数据d_it进行数据区段压缩方法，包括以下步骤：

3.如权利要求2所述的方法，其特征在于，步骤43中进行分量数据区间合并方法，包括以下步骤：

步骤433：检查RL(D_i)中元素的个数，如果仍然超过了指定的压缩点数CP(D_i)，则将Grad(D_i)设置为Grad(D_i)/2；然后返回步骤431。

4.如权利要求1所述的方法，其特征在于，步骤7中时序数据重新生成方法，其具体过程为：对每一分量D_i的区间列表RL(D_i)，取t所在区间的四元组<t_s,t_e,v_max,v_min,v_avg,n>，输出D_i在t时刻的数据值v_avg。

5.如权利要求1所述的方法，其特征在于，步骤1中，按照以下原则进行压缩点数的设置：如果用户已知某个分量的数据稳定性越好，且对应用的使用产生的影响越小，则压缩点数越少，反之增加压缩点数。

6.如权利要求1至5中任一项所述的方法，其特征在于，步骤8中，所述数据库为Oracle。

7.如权利要求1至5中任一项所述的方法，其特征在于，步骤8中，所述数据库为MySql。

8.如权利要求1至5中任一项所述的方法，其特征在于，步骤8中，所述数据库为SqlServer。