CN115733498B

CN115733498B - 时序数据的压缩方法、装置、计算机设备及介质

Info

Publication number: CN115733498B
Application number: CN202310032574.6A
Authority: CN
Inventors: 王勇; 姚延栋; 杨渝黔; 于宁; 唐鹏洲; 王昊; 翁岩青; 高小明
Original assignee: Beijing Siweizongheng Data Technology Co ltd
Current assignee: Beijing Siweizongheng Data Technology Co ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-06-16
Anticipated expiration: 2043-01-10
Also published as: CN115733498A

Abstract

本发明实施例提供了一种时序数据的压缩方法、装置、计算机设备及介质，涉及数据处理技术领域，其中，该方法包括：将待压缩的时序数据中的每个时间序列，按照预设时长划分为多个片段；对每个所述片段进行参数化分解，得到每个所述片段对应的参数值；根据不同所述片段对应的参数值之间的相似性，对不同所述片段对应的参数值进行重新排序，生成列数据；根据所述列数据的类型，按列对所述列数据进行压缩。该方案有利于提高压缩率和提高压缩的保真度。

Description

时序数据的压缩方法、装置、计算机设备及介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种时序数据的压缩方法、装置、计算机设备及介质。

背景技术

时序数据因为以较为高频的周期持续生成，使得数据量特别巨大。以车联网为例，每个车有数千指标，每秒生成一次，10万车一天产生的数据量达到数十TB，因此车企一般只保留1个月的在线数据。当今数据化时代，数据是公司的核心资产，其实超过1个月的数据也需要有效保存。

数据的长期保存需要有效地减少数据的体积，目前主要有如下手段：

一种是数据的稀疏化。即将原来秒级粒度的数据以粗的粒度记录，比如以10s为粒度记录，从而将体积降到1/10。对于更长时间的数据还可以进一步稀疏化，以30s，甚至是分钟级的粒度。这种抽样的方式无脑地丢弃了大量的原始数据，甚至是丢弃了一些非常宝贵的异常数据。

另一种常见方式是压缩。它也分两类，无损和有损。前者在不损失任何信息的情况下尽量减少数据的尺寸，它的压缩能力比较有限，一般可以达到10倍左右。时序领域的在线数据一般都采用这类方法缩小数据尺寸，但时序数据很多是数值类型，往往难以有更高程度的压缩。另一种是有损压缩，多用于音视频领域。旋转门是一种常用的时序数据有损压缩方法，它用预先定义阈值形成一个平行四边形而包住可被一次性压缩的点，具有速度快的优点，但也存在拟合度低、无法处理锯齿点，需要人为设置阈值等问题。

根本上讲，现有的算法偏重于极小窗口的相似性，因此无法达到更高效且保真度高的压缩效果。

发明内容

有鉴于此，本发明实施例提供了一种时序数据的压缩方法，以解决现有技术中数据压缩存在压缩率低、保真度低的技术问题。该方法包括：

将待压缩的时序数据中的每个时间序列，按照预设时长划分为多个片段；

对每个所述片段进行参数化分解，得到每个所述片段对应的参数值；

根据不同所述片段对应的参数值之间的相似性，对不同所述片段对应的参数值进行重新排序，生成列数据；

根据所述列数据的类型，按列对所述列数据进行压缩。

本发明实施例还提供了一种时序数据的压缩装置，以解决现有技术中数据压缩存在压缩率低、保真度低的技术问题。该装置包括：

划分片段模块，用于将待压缩的时序数据中的每个时间序列，按照预设时长划分为多个片段；

参数分解模块，用于对每个所述片段进行参数化分解，得到每个所述片段对应的参数值；

排序模块，用于根据不同所述片段对应的参数值之间的相似性，对不同所述片段对应的参数值进行重新排序，生成列数据；

压缩模块，用于根据所述列数据的类型，按列对所述列数据进行压缩。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的时序数据的压缩方法，以解决现有技术中数据压缩存在压缩率低、保真度低的技术问题。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的时序数据的压缩方法的计算机程序，以解决现有技术中数据压缩存在压缩率低、保真度低的技术问题。

与现有技术相比，本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括：提出了将待压缩的时序数据中的每个时间序列，按照预设时长划分为多个片段，进而对每个所述片段进行参数化分解，得到每个所述片段对应的参数值，以实现对每个片段的初步压缩，进一步的根据不同所述片段对应的参数值之间的相似性，对不同所述片段对应的参数值进行重新排序，生成列数据，最后，再根据所述列数据的类型，按列对所述列数据进行压缩。实现了先通过参数化分解对每个片段进行初步的压缩，进而结合不同所述片段对应的参数值之间的相似性对不同所述片段对应的参数值进行重新排序，生成列数据，使得同一列的列数据具有高度相似性，进而按列对所述列数据进行压缩，实现了进一步的压缩，使得有利于提高压缩率和提高压缩的保真度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种时序数据的压缩方法的流程图；

图2是本发明实施例提供的一种计算机设备的结构框图；

图3是本发明实施例提供的一种时序数据的压缩装置的结构框图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中，提供了一种时序数据的压缩方法，如图1所示，该方法包括：

步骤S101：将待压缩的时序数据中的每个时间序列，按照预设时长划分为多个片段；

步骤S102：对每个所述片段进行参数化分解，得到每个所述片段对应的参数值；

步骤S103：根据不同所述片段对应的参数值之间的相似性，对不同所述片段对应的参数值进行重新排序，生成列数据；

步骤S104：根据所述列数据的类型，按列对所述列数据进行压缩。

由图1所示的流程可知，在本发明实施例中，实现了先通过参数化分解对每个片段进行初步的压缩，进而结合不同所述片段对应的参数值之间的相似性对不同所述片段对应的参数值进行重新排序，生成列数据，使得同一列的列数据具有高度相似性，进而按列对所述列数据进行压缩，实现了进一步的压缩，使得有利于提高压缩率和提高压缩的保真度。

具体实施时，和时序数据相关的概念如下：

1）对象。被观测/监控的最小粒度的客体。比如，车、电池、主机等；

2）指标，是指度量对象某方面特征的数值，比如，主机的CPU，它可以包含多个值，如cpu的 idle、sys、usr、wa等指标。为了方便理解，每个指标仅指单个值。

3）时间序列。指标是随时间变化的，某个对象的某个指标在一段时间里的采样值就形成了一系列的(Obj, ts, metrics value)值，称作一个时间序列，其中， Obj 表示对象的ID，一般是系统唯一的；ts 是指时间戳；metrics values 是指采集的指标值，它可以有多个值。

具体实施时，上述待压缩的时序数据中的每个时间序列可以是不同对象、不同指标的时间序列，例如，不同的对象形成集合(O₁, O₂, ....,O_m），指标集合为(M₁, M₂,...,M_n)。

具体实施时，将每个时间序列按照预设时长划分为多个片段TS的过程中，预设时长的具体时长可以根据需求确定，预设时长的时长越短，划分的片段TS越多，越有利于提高压缩的压缩率、保真度。例如，对每个时间序列按小时划分片段，即将一小时内的数据划分为一段片段数据，即可以得到(O_i, M_j, H_k)个时间序列的片段TS，其中，O_i指某一对象，M_j指它的一个指标，H_k是一个时间尺度，比如天。

具体实施时，在对每个所述片段进行参数化分解，得到每个所述片段对应的参数值的过程中，可以采用STL（Seasonal and Trend decomposition using Loess）或其它时间序列分解算法，来对每个所述片段进行参数化分解，从而实现将时间序列的片段简化成少量参数，即用参数化分解得到的每个所述片段对应的参数值来表示每个片段的压缩数据，实现了将每个所述片段简化、压缩成少量参数的形式。其中，STL是使用 Loess 的季节和趋势分解方法， Loess 是一种估算非线性关系的方法。

具体实施时，可以采用ARIMA（集成的自回归和滑动平均）模型对每个所述片段进行参数化分解，得到每个所述片段对应的参数值，所述参数值包括初始值、自回归系数多项式的系数以及滑动平均系数多项式的系数。

例如，采用ARIMA模型对每个所述片段进行参数化分解，得到的每个所述片段对应的参数值如(X₀, α₁,α₂,..,α_p,β₁,β₂,...,β_q）所示，其中，X₀为初始值，α_i是自回归系数多项式的系数，β_j是滑动平均系数多项式的系数。假如采样周期为1s，选择三阶ARIMA模型（即p=q=3），则这一步通过ARIMA模型可以将每个所述片段由3600个值压缩到7个值，达到500倍的压缩比。

具体的，如果原始数据和ARIMA模型拟合的值超过一定阈值，则被视为离群点，需要单独存储。例如，某个片段经过ARIMA模型参数化分解后，得到一个对应的参数值，基于参数值计算拟合的数值，并将计算出的拟合的数值与某个片段的原始数据之间的误差超过误差控制θ（即上述阈值），即该某个片段的参数值则被视为离群点，需要单独存储。注意离群点的比例非常低，否则将被ARIMA模型捕捉到。

需要注意的是，后续压缩处理均是基于每个片段的这一组参数值而进行，后续该参数值可以称为特征值或特征向量。

具体实施时，为了进一步提高数据压缩的压缩率和保真度，在本实施例中，考虑了时序数据的周期性和相似性，提出了将同一指标在时间上存在相似性的参数值按照周期顺序重新排序为列数据，以便于实现基于具备高度相似性的列数据进行列压缩，例如，针对同一对象的同一指标的不同所述片段对应的参数值，按照时间序列的生成周期，确定不同周期内参数值具有相似性的第一时间段；将不同周期内同一第一时间段的所述片段对应的参数值按照周期的先后顺序重新排序，生成列数据。

具体实施时，一般同一指标会存在时间上的相似性，比如，一个时间序列的生成周期为一天，则每天的某些或某个时间段上的数据存在相似性，例如，每天上班族开车的时间段和习惯较为固定的时间段，则这些时间段上指标数据所表现出的特征值也有更好的相似性，因此，可以确定不同周期内参数值具有相似性的第一时间段，在一个周期内可以存在一个或多个这样的第一时间段，进而将不同周期内同一第一时间段的所述片段对应的参数值按照周期的先后顺序重新排序，生成列数据。例如，不同天之间上午9：00至10：00之间的一个小时的时间段上某个指标的数据存在相似性，在将每天的上午9：00至10：00之间的这一个小时确定为上述第一时间段，进而可以将昨天之前的每天上午9：00至10：00之间的某个指标片段的数据、昨天上午9：00至10：00之间的某个指标片段的数据以及今天上午9：00至10：00之间的某个指标片段的数据按照天的先后时间顺序排成一列数据，实现了每一个指标在不同周期内同一第一时间段的片段对应的参数值组成一列数据。

具体实施时，可以通过以下方式确定参数值之间的相似性，进而确定出上述第一时间段，例如，计算不同周期间所述片段对应的参数值之间的曼哈顿距离；将曼哈顿距离小于第一预设阈值且时间上连续的至少一个所述片段所在的时间段确定为第一时间段。

例如，周期以天为例，计算今天和昨天的各个片段对应的参数值之间的曼哈顿距离，并基于曼哈顿距离由小到大的顺序对各个片段对应的参数值先进行排序，以使得相邻两个参数值的各个分量的差距和最小，进而将曼哈顿距离小于第一预设阈值且时间上连续的至少一个所述片段所在的时间段确定为第一时间段。

具体实施时，为了进一步提高压缩的压缩率和保真度，在本实施例中，提出了基于不同指标的重复度来表示相似性，进而基于相似性进行列数据排序，进而提高压缩数据之间的相似性，例如，针对同一对象的不同指标的不同所述片段对应的参数值，计算在所述第一时间段内不同指标对应的列数据之间的重复度；将重复度大于第二预设阈值的两个列数据调整为相邻列。

具体实施时，可以通过以下步骤计算在所述第一时间段内不同指标对应的列数据之间的重复度，计算在所述第一时间段内不同指标对应的列数据（即不同指标的片段对应的参数值组成的列数据）之间的字节重复率，将所述字节重复率确定为所述重复度。例如，列数据之间的相似性度量是字节的相似度，将两个列数据中各个片段的参数值在内存中展开，以字节为单位，计算每两个列数据之间的字节重复率，并将该字节重复率确定为每两个列数据之间的所述重复度。

具体实施时，对不同指标的列数据进行排序后，还可以在元数据文件里记录原始序列中的每一行在新序列中的位置，以便后续解压数据时用于数据还原。

具体实施时，基于相似性对同一指标和不同指标的参数值进行重排后，同一指标在不同周期内同一第一时间段的所述片段对应的参数值生成列数据，每列数据分成独立的列进行存储。即针对同一指标在不同周期内同一第一时间段的所述片段对应的参数值，所有的X₀存成一个数组，每一个α_i组成一列值。

具体实施时，同一列数据类型相同且是更为接近的值域，且相邻列数据有高度的相似性，进而在根据所述列数据的类型，按列对所述列数据进行压缩的过程中，提出了根据所述列数据的类型，采用无损的编码和基于信息熵的压缩算法按列对所述列数据进行压缩，这样可以达到至少10倍的压缩。

具体实施时，通过采用上述时序数据的压缩方法来压缩时序数据，对时序数据总体上可以达到几千倍的压缩率。

在本实施例中，提供了一种计算机设备，如图2所示，包括存储器201、处理器202及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意的时序数据的压缩方法。

具体的，该计算机设备可以是计算机终端、服务器或者类似的运算装置。

在本实施例中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述任意的时序数据的压缩方法的计算机程序。

具体的，计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

基于同一发明构思，本发明实施例中还提供了一种时序数据的压缩装置，如下面的实施例所述。由于时序数据的压缩装置解决问题的原理与时序数据的压缩方法相似，因此时序数据的压缩装置的实施可以参见时序数据的压缩方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是本发明实施例的时序数据的压缩装置的一种结构框图，如图3所示，该装置包括：

划分片段模块301，用于将待压缩的时序数据中的每个时间序列，按照预设时长划分为多个片段；

参数分解模块302，用于对每个所述片段进行参数化分解，得到每个所述片段对应的参数值；

排序模块303，用于根据不同所述片段对应的参数值之间的相似性，对不同所述片段对应的参数值进行重新排序，生成列数据；

压缩模块304，用于根据所述列数据的类型，按列对所述列数据进行压缩。

在一个实施例中，参数分解模块，用于采用ARIMA模型对每个所述片段进行参数化分解，得到每个所述片段对应的参数值，所述参数值包括初始值、自回归系数多项式的系数以及滑动平均系数多项式的系数。

在一个实施例中，排序模块，用于针对同一对象的同一指标的不同所述片段对应的参数值，按照时间序列的生成周期，确定不同周期内参数值具有相似性的第一时间段；将不同周期内同一第一时间段的所述片段对应的参数值按照周期的先后顺序重新排序，生成列数据。

在一个实施例中，排序模块，用于计算不同周期间所述片段对应的参数值之间的曼哈顿距离；将曼哈顿距离小于第一预设阈值且时间上连续的至少一个所述片段所在的时间段确定为第一时间段。

在一个实施例中，排序模块，还用于针对同一对象的不同指标的不同所述片段对应的参数值，计算在所述第一时间段内不同指标对应的列数据之间的重复度；将重复度大于第二预设阈值的两个列数据调整为相邻列。

在一个实施例中，排序模块，还用于计算在所述第一时间段内不同指标对应的列数据之间的字节重复率，将所述字节重复率确定为所述重复度。

在一个实施例中，压缩模块，用于根据所述列数据的类型，采用无损的编码和基于信息熵的压缩算法按列对所述列数据进行压缩。

本发明实施例实现了如下技术效果：实现了先通过参数化分解对每个片段进行初步的压缩，进而结合不同所述片段对应的参数值之间的相似性对不同所述片段对应的参数值进行重新排序，生成列数据，使得同一列的列数据具有高度相似性，进而按列对所述列数据进行压缩，实现了进一步的压缩，使得有利于提高压缩率和提高压缩的保真度。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种时序数据的压缩方法，其特征在于，包括：

根据所述列数据的类型，按列对所述列数据进行压缩；

对每个所述片段进行参数化分解，得到每个所述片段对应的参数值，包括：

采用ARIMA模型对每个所述片段进行参数化分解，得到每个所述片段对应的参数值，所述参数值包括初始值、自回归系数多项式的系数以及滑动平均系数多项式的系数；

根据不同所述片段对应的参数值之间的相似性，对不同所述片段对应的参数值进行重新排序，生成列数据，包括：

针对同一对象的同一指标的不同所述片段对应的参数值，按照时间序列的生成周期，确定不同周期内参数值具有相似性的第一时间段；

将不同周期内同一第一时间段的所述片段对应的参数值按照周期的先后顺序重新排序，生成列数据。

2.如权利要求1所述的时序数据的压缩方法，其特征在于，按照时间序列的生成周期，确定不同周期内参数值具有相似性的第一时间段，包括：

计算不同周期间所述片段对应的参数值之间的曼哈顿距离；

将曼哈顿距离小于第一预设阈值且时间上连续的至少一个所述片段所在的时间段确定为第一时间段。

3.如权利要求1所述的时序数据的压缩方法，其特征在于，还包括：

针对同一对象的不同指标的不同所述片段对应的参数值，计算在所述第一时间段内不同指标对应的列数据之间的重复度；

将重复度大于第二预设阈值的两个列数据调整为相邻列。

4.如权利要求3所述的时序数据的压缩方法，其特征在于，计算在所述第一时间段内不同指标对应的列数据之间的重复度，包括：

计算在所述第一时间段内不同指标对应的列数据之间的字节重复率，将所述字节重复率确定为所述重复度。

5.如权利要求1至4中任一项所述的时序数据的压缩方法，其特征在于，根据所述列数据的类型，按列对所述列数据进行压缩，包括：

根据所述列数据的类型，采用无损的编码和基于信息熵的压缩算法按列对所述列数据进行压缩。

6.一种时序数据的压缩装置，其特征在于，包括：

压缩模块，用于根据所述列数据的类型，按列对所述列数据进行压缩；

所述参数分解模块，用于采用ARIMA模型对每个所述片段进行参数化分解，得到每个所述片段对应的参数值，所述参数值包括初始值、自回归系数多项式的系数以及滑动平均系数多项式的系数；

所述排序模块，用于针对同一对象的同一指标的不同所述片段对应的参数值，按照时间序列的生成周期，确定不同周期内参数值具有相似性的第一时间段；将不同周期内同一第一时间段的所述片段对应的参数值按照周期的先后顺序重新排序，生成列数据。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的时序数据的压缩方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至5中任一项所述的时序数据的压缩方法的计算机程序。