CN111782734B

CN111782734B - 数据压缩、解压方法和装置

Info

Publication number: CN111782734B
Application number: CN201910272327.7A
Authority: CN
Inventors: 司宏杰; 王力; 凌民光; 彭柳青; 邱晨健
Original assignee: Huawei Technical Service Co Ltd
Current assignee: Huawei Technical Service Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2024-04-12
Anticipated expiration: 2039-04-04
Also published as: CN111782734A

Abstract

本申请实施例提供一种数据压缩、解压方法和装置，用于压缩在线分析处理OLAP数据；该方法包括：在OLAP数据的所有维度中确定至少一个第一维度，第一维度上每个关键字对应的度量值之间的差异在预设范围内；所有维度中除第一维度外的维度为第二维度；以第二维度中每个维度的任一关键字作为压缩模型的输入，以第一维度中每个维度的任一关键字以及第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为压缩模型的输出，对压缩模型进行训练，得到训练后的压缩模型；存储训练后的压缩模型以及多个维度中每个维度的关键字。通过存储压缩模块，避免将所有的OLAP数据的度量值进行存储，从而可减少存储空间。

Description

数据压缩、解压方法和装置

技术领域

本申请涉及存储领域，尤其涉及一种数据压缩、解压方法和装置。

背景技术

随着大数据时代的到来，每天产生的数据量可能达到EB(1EB＝10¹⁸字节)级，因此需要存储的数据量十分可观。大数据的价值体现在对其所做的分析和挖掘上，因此，大数据在存储时，通常以在线分析处理(on-line analytical processing，OLAP)数据的形式存储。OLAP数据在存储时，会存储数据的维度信息，因此OLAP数据支持分析人员迅速、一致、交互地在数据库中，从任意多个维度组合下观察、分析OLAP数据，以达到深入理解数据的目的。

由于OLAP数据在存储时，不仅存储了大量的数值(度量值)，还存储了每个数值对应的维度信息，方便分析人员根据不同维度的关键字确定出对应的度量值，因此，OLAP数据占据存储空间较大。而且，大数据的大小与存储设备、存储设备的管理成本之间存在关联，当数据量急剧增长时，存储设备的成本、管理成本呈现几何增长趋势。因此，需要最大程度压缩数据，以减少存储设备的成本，并减少存储设备的管理成本。

传统的数据压缩方法包括字典编码技术、熵编码技术等。当采用字典编码技术对OLAP数据进行压缩时，一旦OLAP数据中不存在连续出现的字符，如OLAP数据为数值型数据时，压缩效果较差，字典编码技术失效。当采用熵编码技术对OLAP数据进行压缩时，当数据分布越均匀，数据的信息熵越大时，每个数据平均压缩后占用的空间越大，压缩效果越差。因此，采用传统的数据压缩方法对OLAP数据进行压缩存在压缩效果差的问题。

发明内容

本申请提供一种数据压缩、解压方法和装置，用以解决采用传统的数据压缩方法对OLAP数据进行压缩存在压缩效果差的问题。

本申请第一方面提供一种数据压缩方法，该方法用于压缩OLAP数据，OLAP数据包括多个度量值以及多个维度中每个维度的关键字，每个维度包括多个关键字，多个度量值中的每个度量值对应一组关键字，一组关键字包括来自多个维度中的每个维度的一个关键字。示例性地，图1为本申请实施例提供的一种可能的OLAP数据的存储形式示意图。如图1所示，OLAP数据可以包括三个维度：日期、基站和业务。每个维度上可以包括多个关键字，例如，基站维度上包括基站1、基站2和基站3共三个关键字。数据B可以为由一组关键字确定，数据B对应的一组关键字为日期1、基站3和业务3。

一种可行的实现方式中，数据压缩方法包括：

在OLAP数据的所有维度中确定至少一个第一维度，第一维度上每个关键字对应的度量值之间的差异在预设范围内；所有维度中除第一维度外的维度为第二维度；以第二维度中每个维度的任一关键字作为压缩模型的输入，以第一维度中每个维度的任一关键字以及第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为压缩模型的输出，对压缩模型进行训练，得到训练后的压缩模型；存储训练后的压缩模型以及多个维度中每个维度的关键字。

示例性地，第一维度可以是业务，第二维度可以是基站和日期，在第二维度的关键字相同时，第一维度上随着关键字的变化，度量值的变化较小；例如，对于图1中的数据组A中的三个度量值数据差异较小。在训练压缩模型时，可以选择基站和日期的关键字组合作为压缩模型的输入，第一维度的关键字业务1对应的所有度量值作为输出，得到训练后的压缩模型。压缩后的OLAP数据包括训练后的压缩模型以及三个维度中每个维度的关键字。

考虑到在多维度的OLAP数据中，存在某些维度上度量值变化较小的情况，因而可采用部分OLAP数据进行训练得到压缩模型，从而将大量的OLAP压缩为压缩模型和多个维度中每个维度的关键字，可减少存储空间，压缩效果较好。

在上述可行的实现方式的基础上，数据压缩方法还包括：

根据OLAP数据中一组关键字对应的度量值以及将一组关键字输入压缩模型输出得到的度量值，计算OLAP数据中每个度量值的残差；存储OLAP数据中的每一组关键字对应的度量值的残差。

通过获取各度量值的残差，可实现对OLAP数据的无损压缩，避免了OLAP数据损失。

示例性地，在存储训练后的压缩模型、残差以及多个维度中每个维度的关键字之前，还可先进行压缩处理，以进一步节约存储空间。此时的压缩处理采用的算法本申请不做限定。

示例性地，在执行上述压缩方法之前，还可先对每个维度的关键字以及度量值进行量化处理，以提高后续压缩处理过程的速度。示例性地，在存储压缩后的OLAP数据时，还存储量化对应关系。

本申请第二方面提供一种数据压缩方法，该方法与第一方面中的压缩方法均用于压缩OLAP数据。一种可行的实现方式中，数据压缩方法包括：

从OLAP数据的多个度量值中确定至少M个度量值作为码本，M为大于1的整数；为OLAP数据的每个度量值，在码本中确定出对应的至少一个第一度量值，计算OLAP数据的每个度量值与对应的至少一个第一度量值的线性变换向量，线性变换向量用于描述OLAP数据的每个度量值与对应的至少一个第一度量值之间的数值关系；存储码本、OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值。

本实现方式中，采用部分度量值作为码本，以描述剩余的度量值，从而在存储时只需存储码本以及描述各度量值的线性变换向量，可减少存储空间，压缩效果较好。且还可实现对OLAP数据的无损压缩，避免了OLAP数据损失。

示例性地，在存储码本等压缩后的OLAP数据之前，还可先进行压缩处理，以进一步节约存储空间。此时的压缩处理采用的算法本申请不做限定。

本申请第三方面提供一种数据压缩方法，该方法与第一方面中的压缩方法均用于压缩OLAP数据。一种可行的实现方式中，数据压缩方法包括：

从OLAP数据的多个度量值中确定至少一个码本，一个码本对应一个度量值；在至少一个码本中，确定OLAP数据的各度量值各自对应的码本的标识；存储至少一个码本以及OLAP数据的每一组关键字对应的码本的标识。

一种可行的实现方式中，确定的多个码本中至少存在一个码本与OLAP数据的任一度量值的距离小于预设阈值。

一种可行的实现方式中，对于OLAP数据的任意度量值，在至少一个码本中，确定与该度量值距离最近的码本，该码本的标识作为该度量值对应的码本的标识。

一种可行的实现方式中，在确定了OLAP数据的各度量值对应的码本后，还根据各度量值以及各度量值各自对应的码本，获取各度量值对应的残差；并存储OLAP数据的每一组关键字对应的残差。

通过在所有度量值中确定多个码本，为每个度量值确定最接近的码本，OLAP数据压缩过程简单，数据压缩速度快，通过存储码本以及每一组关键字对应的码本的标识，可减少存储空间，压缩效果较好。且通过进一步存储每一组关键字对应的残差，还可实现对OLAP数据的无损压缩，避免了OLAP数据损失。

本申请第四方面提供一种数据解压方法，与上述第一方面中的数据压缩方法相对应，具有相对应的技术特征和技术效果。

一种可行的实现方式中，被压缩的OLAP数据包括压缩模型以及被压缩的OLAP数据的多个维度中每个维度的关键字，示例性地，压缩模型即为上述第一方面中的训练后的压缩模型；数据解压方法包括：

将被压缩的OLAP数据的每一组关键字输入压缩模型，获取每一组关键字对应的度量值；每一组关键字包括来自多个维度中的每个维度的一个关键字；存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

进一步的，当被压缩的OLAP数据还包括每一组关键字对应的度量值的残差，数据解压方法还包括：

在存储多个维度中每个维度的关键字以及每一组关键字对应的度量值之前，根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值；存储多个维度中每个维度的关键字以及修正后的每一组关键字对应的度量值。

示例性地，若在压缩过程中还曾对包括压缩模型等的压缩后的OLAP数据进行了压缩处理，则在执行上述解压步骤之前，还需先根据压缩时采用的算法进行解压。

示例性地，在解压缩之后，还可对获取到的每个维度的关键字以及度量值进行逆量化处理。

本申请第五方面提供一种数据解压方法，与上述第二方面中的数据压缩方法相对应，具有相对应的技术特征和技术效果。

一种可行的实现方式中，被压缩的OLAP数据包括码本、被压缩的OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量在码本中对应的至少一个第一度量值，每一组关键字包括来自被压缩的OLAP数据的多个维度中的每个维度的一个关键字；示例性地，码本即为上述第二方面中的码本，数据解压方法包括：

根据被压缩的OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值，获取每一组关键字对应的度量值；存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

示例性地，若在压缩过程中还曾对包括码本等的压缩后的OLAP数据进行了压缩处理，则在执行上述解压步骤之前，还需先根据压缩时采用的算法进行解压。

本申请第六方面提供一种数据解压方法，与上述第三方面中的数据压缩方法相对应，具有相对应的技术特征和技术效果。

一种可行的实现方式中，被压缩的OLAP数据包括至少一个码本以及OLAP数据的每一组关键字对应的码本的标识，每一组关键字包括来自被压缩的OLAP数据的多个维度中的每个维度的一个关键字；示例性地，码本即为上述第三方面中的码本，数据解压方法包括：

根据被压缩的OLAP数据的每一组关键字对应的码本的标识，在至少一个码本中，获取每一组关键字对应的码本；存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

本申请第七方面提供一种数据压缩装置，用于执行上述第一方面任一可能的实现方式中的数据压缩方法，具有相同或相似的技术特征和技术效果。

一种可行的实现方式中，数据压缩装置包括：

第一维度选择模块，用于在OLAP数据的所有维度中确定至少一个第一维度，第一维度上每个关键字对应的度量值之间的差异在预设范围内；所有维度中除第一维度外的维度为第二维度；

压缩模块，用于以第二维度中每个维度的任一关键字作为压缩模型的输入，以第一维度中每个维度的任一关键字以及第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为压缩模型的输出，对压缩模型进行训练，得到训练后的压缩模型；

存储模块，用于存储训练后的压缩模型以及多个维度中每个维度的关键字。

一种可行的实现方式中，数据压缩装置还包括：

残差获取模块，用于根据OLAP数据中一组关键字对应的度量值以及将一组关键字输入压缩模型输出得到的度量值，计算OLAP数据中每个度量值的残差；

存储模块还用于，存储OLAP数据中的每一组关键字对应的度量值的残差。

本申请第八方面提供一种数据压缩装置，用于执行上述第二方面任一可能的实现方式中的数据压缩方法，具有相同或相似的技术特征和技术效果。

一种可能的实现方式中，数据压缩装置包括：

码本获取模块，用于从OLAP数据的多个度量值中确定至少M个度量值作为码本，M为大于1的整数；

线性变换向量获取模块，用于为OLAP数据的每个度量值，在码本中确定出对应的至少一个第一度量值，计算OLAP数据的每个度量值与对应的至少一个第一度量值的线性变换向量，线性变换向量用于描述OLAP数据的每个度量值与对应的至少一个第一度量值之间的数值关系；

存储模块，用于存储码本、OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值。

本申请第九方面提供一种数据压缩装置，用于执行上述第三方面任一可能的实现方式中的数据压缩方法，具有相同或相似的技术特征和技术效果。

一种可能的实现方式中，数据压缩装置包括：

码本获取模块，用于从OLAP数据的多个度量值中确定至少一个码本，一个码本对应一个度量值；

压缩模块，用于在至少一个码本中，确定OLAP数据的各度量值各自对应的码本的标识；

存储模块，用于存储至少一个码本以及OLAP数据的每一组关键字对应的码本的标识。

一种可行的实现方式中，压缩模块，具体用于对于OLAP数据的任意度量值，在至少一个码本中，确定与该度量值距离最近的码本，该码本的标识作为该度量值对应的码本的标识。

一种可行的实现方式中，数据压缩装置还包括：

残差获取模块，用于在确定了OLAP数据的各度量值对应的码本后，还根据各度量值以及各度量值各自对应的码本，获取各度量值对应的残差；

存储模块，还用于存储OLAP数据的每一组关键字对应的残差。

本申请第十方面提供一种数据解压装置，用于执行上述第四方面任一可能的实现方式中的数据解压方法，具有相同或相似的技术特征和技术效果。

一种可行的实现方式中，数据解压装置包括：

解压模块，用于将被压缩的OLAP数据的每一组关键字输入压缩模型，获取每一组关键字对应的度量值；每一组关键字包括来自多个维度中的每个维度的一个关键字；

存储模块，用于存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

一种可行的实现方式中，被压缩的OLAP数据还包括每一组关键字对应的度量值的残差；数据解压装置还包括：

修正模块，用于根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值；

存储模块具体用于，存储多个维度中每个维度的关键字以及修正后的每一组关键字对应的度量值。

本申请第十一方面提供一种数据解压装置，用于执行上述第五方面任一可能的实现方式中的数据解压方法，具有相同或相似的技术特征和技术效果。

一种可行的实现方式中，数据解压装置包括：

解压模块，用于根据被压缩的OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值，获取每一组关键字对应的度量值；

本申请第十二方面提供一种数据解压装置，用于执行上述第六方面任一可能的实现方式中的数据解压方法，具有相同或相似的技术特征和技术效果。

一种可行的实现方式中，数据解压装置包括：

解压模块，用于根据被压缩的OLAP数据的每一组关键字对应的码本的标识，在至少一个码本中，获取每一组关键字对应的码本；

修正模块，用于在存储多个维度中每个维度的关键字以及每一组关键字对应的度量值之前，根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值；

本申请第十三方面提供一种数据压缩装置，用于执行上述第一方面任一可能的实现方式中的数据压缩方法，具有相同或相似的技术特征和技术效果。

一种可行的实现方式中，数据压缩装置包括：

处理器，用于在OLAP数据的所有维度中确定至少一个第一维度，第一维度上每个关键字对应的度量值之间的差异在预设范围内；所有维度中除第一维度外的维度为第二维度；

处理器还用于，以第二维度中每个维度的任一关键字作为压缩模型的输入，以第一维度中每个维度的任一关键字以及第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为压缩模型的输出，对压缩模型进行训练，得到训练后的压缩模型；

存储器，用于存储训练后的压缩模型以及多个维度中每个维度的关键字。

一种可行的实现方式中，处理器还用于，根据OLAP数据中一组关键字对应的度量值以及将一组关键字输入压缩模型输出得到的度量值，计算OLAP数据中每个度量值的残差；

存储器还用于，存储OLAP数据中的每一组关键字对应的度量值的残差。

本申请第十四方面提供一种数据压缩装置，用于执行上述第二方面任一可能的实现方式中的数据压缩方法，具有相同或相似的技术特征和技术效果。

一种可能的实现方式中，数据压缩装置包括：

处理器，用于从OLAP数据的多个度量值中确定至少M个度量值作为码本，M为大于1的整数；

处理器还用于，为OLAP数据的每个度量值，在码本中确定出对应的至少一个第一度量值，计算OLAP数据的每个度量值与对应的至少一个第一度量值的线性变换向量，线性变换向量用于描述OLAP数据的每个度量值与对应的至少一个第一度量值之间的数值关系；

存储器，用于存储码本、OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值。

本申请第十五方面提供一种数据压缩装置，用于执行上述第三方面任一可能的实现方式中的数据压缩方法，具有相同或相似的技术特征和技术效果。

一种可能的实现方式中，数据压缩装置包括：

处理器，用于从OLAP数据的多个度量值中确定至少一个码本，一个码本对应一个度量值；

处理器还用于，在至少一个码本中，确定OLAP数据的各度量值各自对应的码本的标识；

存储器，用于存储至少一个码本以及OLAP数据的每一组关键字对应的码本的标识。

一种可行的实现方式中，处理器具体用于，对于OLAP数据的任意度量值，在至少一个码本中，确定与该度量值距离最近的码本，该码本的标识作为该度量值对应的码本的标识。

一种可行的实现方式中，处理器还用于，在确定了OLAP数据的各度量值对应的码本后，还根据各度量值以及各度量值各自对应的码本，获取各度量值对应的残差；

存储器还用于，存储OLAP数据的每一组关键字对应的残差。

本申请第十六方面提供一种数据解压装置，用于执行上述第四方面任一可能的实现方式中的数据解压方法，具有相同或相似的技术特征和技术效果。

一种可行的实现方式中，数据解压装置包括：

处理器，用于将被压缩的OLAP数据的每一组关键字输入压缩模型，获取每一组关键字对应的度量值；每一组关键字包括来自多个维度中的每个维度的一个关键字；

存储器，用于存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

一种可行的实现方式中，被压缩的OLAP数据还包括每一组关键字对应的度量值的残差；处理器还用于，根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值；

存储器具体用于，存储多个维度中每个维度的关键字以及修正后的每一组关键字对应的度量值。

本申请第十七方面提供一种数据解压装置，用于执行上述第五方面任一可能的实现方式中的数据解压方法，具有相同或相似的技术特征和技术效果。

一种可行的实现方式中，数据解压装置包括：

处理器，用于根据被压缩的OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值，获取每一组关键字对应的度量值；

本申请第十八方面提供一种数据解压装置，用于执行上述第六方面任一可能的实现方式中的数据解压方法，具有相同或相似的技术特征和技术效果。

一种可行的实现方式中，数据解压装置包括：

处理器，用于根据被压缩的OLAP数据的每一组关键字对应的码本的标识，在至少一个码本中，获取每一组关键字对应的码本；

一种可行的实现方式中，被压缩的OLAP数据还包括每一组关键字对应的度量值的残差；处理器还用于，在存储多个维度中每个维度的关键字以及每一组关键字对应的度量值之前，根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值；

本申请第十九方面提供一种电子设备，包括：处理器、存储器和计算机程序；

所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序，使得所述电子设备执行如上述第一方面至第六方面以及各方面中的各可行的实现方式中所提供的方法。

本申请第二十方面提供一种计算机存储介质，所述存储介质包括计算机程序，所述计算机程序用于实现如上述第一方面至第六方面以及各方面中的各可行的实现方式中所提供的方法。

本申请第二十一方面提供一种芯片，包括处理器，所述处理器用于运行计算机程序，以使得安装有所述芯片的电子设备执行如上述第一方面至第六方面以及各方面中的各可行的实现方式中所提供的方法。

本申请第二十二方面提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面至第六方面以及各方面中的各可行的实现方式中所提供的方法。

本申请的在上述各方面提供的实现的基础上，还可以进行进一步组合以提供更多实现。

附图说明

图1为本申请实施例提供的一种可能的OLAP数据的存储形式示意图；

图2为本申请实施例提供的另一种可能的OLAP数据的存储形式示意图；

图3为本申请实施例提供的数据压缩方法的流程示意图一；

图4为本申请实施例提供的数据压缩方法的流程示意图二；

图5为本申请实施例提供的数据压缩方法的流程示意图三；

图6为本申请实施例提供的数据压缩方法的流程示意图四；

图7为本申请实施例提供的数据压缩方法的流程示意图五；

图8为本申请实施例提供的数据压缩方法的流程示意图六；

图9为本申请实施例提供的数据解压方法的流程示意图一；

图10为本申请实施例提供的数据解压方法的流程示意图二；

图11为本申请实施例提供的数据解压方法的流程示意图三；

图12为本申请实施例提供的数据压缩装置的结构示意图一；

图13为本申请实施例提供的数据压缩装置的结构示意图二；

图14为本申请实施例提供的数据压缩装置的结构示意图三；

图15为本申请实施例提供的数据解压装置的结构示意图一；

图16为本申请实施例提供的数据解压装置的结构示意图二；

图17为本申请实施例提供的数据压缩装置的结构示意图四；

图18为本申请实施例提供的数据解压装置的结构示意图三。

具体实施方式

随着物联网迅速崛起，通信系统中的数据规模呈现爆炸式增长，海量数据以及其中蕴含的价值体现在对其所做的分析和挖掘上。越来越多的通信数据采用OLAP数据的形式存储。图1为本申请实施例提供的一种可能的OLAP数据的存储形式示意图，图2为本申请实施例提供的另一种可能的OLAP数据的存储形式示意图。如图1所示，OLAP数据包括多个维度，每个维度包括多个关键字(key)，不同的维度取值组合(一组关键字)对应一个度量值(value)。例如，日期、基站和业务为三个维度。示例性地，日期1、日期2、日期3为日期这一维度可以包括的关键字示例。示例性地，基站1、基站2、基站3为基站这一维度可以包括的关键字示例。示例性地，业务1、业务2、业务3为业务这一维度可以包括的关键字示例。在OLAP数据中，通过一组关键字来确定一个度量值。例如，通过日期1、基站3和业务3，可确定一个数据，如图1所示数据B。还可通过日期1和基站2，确定出一组数据，如图1所示数据组A。

本发明实施例的数据压缩、解压方法和装置用于提供一种针对如图1所示的OLAP数据的压缩和解压方法，具体方案可以详见下面的多个实施例。下面几个具体的实施例中，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本申请一方面提供一种数据压缩方法。图3为本申请实施例提供的数据压缩方法的流程示意图一，图4为本申请实施例提供的数据压缩方法的流程示意图二。该方法可以由数据压缩装置执行，数据压缩装置可以为任意支持OLAP数据存储的设备，例如可以为通信系统中的基站、网关、核心网设备等，即本实施例不对该方法的执行主体做严格限制，可以有多种可能的实施情况，不再列举。如图3和图4所示，数据压缩方法可以包括：

S101、在OLAP数据的所有维度中确定至少一个第一维度。

其中，第一维度上每个关键字对应的度量值之间的差异在预设范围内；所有维度中除第一维度外的维度为第二维度。

可以理解的是，对于具有维度信息的OLAP数据，在某一个维度上，OLAP数据通常具有重复性高、数据变化缓慢等特性。本实施例考虑到上述特性提出OLAP数据的压缩方法。本实施例在对OLAP数据库中的OLAP数据进行压缩之前，需确定一次压缩过程所能压缩的一个OLAP数据单元，称为待压缩的OLAP数据。对于不属于同一单元的OLAP数据，分别采用本实施例提供的数据压缩方法进行压缩。

示例性地，在执行步骤S101之前，可首先在OLAP数据库中确定待压缩的OLAP数据。其中，待压缩的OLAP数据的各度量值对应相同的维度信息。示例性地，对于对应不同维度信息的OLAP数据，可确定不属于同一OLAP数据单元，例如，当OLAP数据库中同时存储有如图1和图2所示的OLAP数据时，可确定图1和图2所示的OLAP数据为不同的OLAP数据单元。

示例性地，当OLAP数据在某一维度上的度量值重复出现和/或变化缓慢时，该维度可记为第一维度，示例性地，可在OLAP数据的所有维度中确定至少一个第一维度。第一维度上每个关键字对应的度量值之间的差异在预设范围内。示例性地，OLAP数据的所有维度中除第一维度外的维度记为第二维度。

例如，OLAP数据记载了一个地区的一个基站上的网络流量在每个工作日内的不同时刻的变化趋势，该变化趋势从周一到周五重复出现，且基本没有变化或者变化非常缓慢，此时可以将时刻、地区、基站作为第一维度，对于不同的天数，如周一至周五，则作为第二维度。

S102、以第二维度中每个维度的任一关键字作为压缩模型的输入，以第一维度中每个维度的任一关键字以及第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为压缩模型的输出，对压缩模型进行训练，得到训练后的压缩模型。

示例性地，在确定了第一维度和第二维度后，对压缩模型进行训练，压缩模型指示了不同组关键字与度量值的对应关系，压缩模型示例性的可以为神经网络模型。压缩模型的训练数据可以为第一维度取任一关键字时对应的所有度量值，以及该些度量值对应的第二维度。压缩模型的输入为第二维度中每个维度的一个关键字，压缩模型的输出为第一维度中每个维度的任一关键字以及第二维度中每个维度的任一关键字形成的一组关键字对应的度量值。

根据压缩模型的输入和输出，使用过拟合训练方法，获取训练后的压缩模型。

S103、存储训练后的压缩模型以及多个维度中每个维度的关键字。

示例性地，压缩后的OLAP数据包括训练后的压缩模型以及多个维度中每个维度的关键字，即在存储时只需存储训练后的压缩模型以及多个维度中每个维度的关键字，无需存储度量值，相比传统OLAP数据存储时，不仅要存储所有度量值，还需存储各度量值对应的关键字，大大节约了存储空间，具有较好的压缩效果。

示例性地，在本实施例的基础上，数据压缩方法还可以包括：

S104、根据OLAP数据中一组关键字对应的度量值以及将一组关键字输入压缩模型输出得到的度量值，计算OLAP数据中每个度量值的残差。

示例性地，考虑到压缩模型为拟合训练得到，在根据压缩模型获取度量值时，可能存在偏差，故可提前获取压缩模型的估计值与真实值之间的偏差，从而实现无损压缩。具体的，可以在获取到训练后的压缩模型后，将OLAP数据的每一组关键字作为压缩模型的输入，输入至压缩模型，从而可得到每一组关键字对应的估计度量值。然后根据每一组关键字对应的估计度量值和真实的度量值，可计算出每一组关键字对应的残差。

其中，每一组关键字对应的估计度量值和真实的度量值之间的差异可以通过做差得到，当度量值为二进制数值时，也可以通过按位异或的方式获取。在进行异或运算时，当两个数值在同一位上的二进制数值相同时，异或结果为0，同一位上的二进制数值不同时，异或结果为1。

S105、存储OLAP数据中的每一组关键字对应的度量值的残差。

可以理解的是，上述S103中的存储动作与S104中的计算动作、S105中的存储动作均没有严格的执行顺序，可以按照图3所示的顺序先后执行，也可以是S103与S104同时执行，或者，S103与S105同时执行。

通过存储OLAP数据中的每一组关键字对应的度量值的残差，可以实现无损压缩。

示例性地，压缩后的OLAP数据包括训练后的压缩模型、多个维度中每个维度的关键字以及每一组关键字对应的度量值的残差。可选的，在存储压缩后的OLAP数据之前，还可采用传统的压缩方法对压缩后的OLAP数据进行二次压缩，以进一步减小压缩后的OLAP数据所需的存储空间。

示例性地，对于待压缩的OLAP数据，待压缩的OLAP数据的维度的关键字可能为字符形式，各度量值的取值范围也可能存在较大差异。例如图1和图2中关键字为可以为“日期1”、“业务1”、“基站1”等，对应的，在存储过程中，可能采用a、b、c或文字字符存储。因此在对待压缩的OLAP数据进行压缩前，可先对待压缩的OLAP数据进行量化处理。示例性地，可根据误差接受范围对待压缩的OLAP数据进行量化处理，获取待压缩的OLAP数据的量化后的维度的关键字和量化后的度量值。

示例性地，在对OLAP数据的维度的关键字进行量化时，具体量化步骤可如下所示，包括：

S11、对待压缩的OLAP数据的维度的关键字进行数值化，得到数值化的待压缩的OLAP数据的维度的关键字。

例如，对待压缩的OLAP数据的每个维度，按照维度的关键字的基(也即每个维度包括的关键字的个数)进行编码，将关键字转化为数值，如int型数据。例如，可将关键字“时间”、“业务”和“基站”转化为二进制数据01、10和11。

S12、将数值化的待压缩的OLAP数据的维度的关键字归一化在预设取值范围内，得到待压缩的OLAP数据的量化后的维度的关键字。

可以理解的是，待压缩的OLAP数据的维度的关键字在量化后，可能存在差值较大的情况，此时，可通过归一化，将待压缩的OLAP数据的维度的关键字的差值限定在预设取值范围内。例如，量化后的关键字的取值可能为1、20、50、80和100，此时，可将关键字的取值范围从[1，100]归一化为[0，1]。一种可行的归一化方式中，当将100归一化为1时，可将80归一化为0.8，可将50归一化为0.5。将转化后的int数据归一化，使得int型数据转换为预设取值范围内的数据，从而完成对OLAP数据的维度的关键字的量化，并记录原始的关键字和量化后的关键字的对应关系，将对应关系记为量化参数。

示例性地，在对待压缩的OLAP数据进行量化时，可仅对第二维度的关键字进行量化。

示例性地，可以理解的是，压缩后的OLAP数据还包括量化参数，量化参数指示了待压缩的OLAP数据的维度的关键字和数值化的关键字的映射关系。

可以理解的是，OLAP数据库中的待压缩的OLAP数据中可能存在数据缺失的情况，即可能存在一组关键字，并没有存储对应的度量值。例如，可能存在日期1可获取所有基站的所有业务的数据，但是在日期2只能获取到部分基站的所有业务的数据的情况。此时，可采用缺失数据指示信息(bitmap)指示是否存在数据缺失。bitmap的尺寸与所述待压缩的OLAP数据的所有维度的取值范围确定的尺寸一致，各维度的取值范围也即各维度包括的关键字的个数。例如，当待压缩的OLAP数据包括三个维度，各维度均包括10个关键字，则待压缩的OLAP数据存在10³组关键字，对应10³个度量值，可确定bitmap的尺寸为10x10x10。具体可以采用不同数值来表示每一组关键字对应的度量值是否缺失。例如，对于bitmap中取值为1的点，可确定该点对应的一组关键字对应的度量值不存在。对于bitmap中取值为0的点，可确定该点对应的一组关键字对应的度量值存在。

示例性地，可以理解的是，待压缩的OLAP数据还包括bitmap；可在对待压缩的OLAP数据进行压缩处理之前，根据待压缩的OLAP数据的度量值情况生成bitmap。

本申请实施例提供的数据压缩方法，考虑到在多维度的OLAP数据中，存在某些维度上度量值变化较小的情况，因而可采用部分OLAP数据进行训练得到压缩模型，从而将大量的OLAP压缩为压缩模型和多个维度中每个维度的关键字，可减少存储空间，压缩效果较好。

在上述实施例的基础上，本申请实施例另一方面还提供一种数据压缩方法。图5为本申请实施例提供的数据处理方法的流程示意图三，图6为本申请实施例提供的数据压缩方法的流程示意图四。与图3和4所示实施例不同的是，本实施例采用码本表示OLAP数据中的度量值。如图5所示，数据压缩方法包括：

S201、从OLAP数据的多个度量值中确定至少M个度量值作为码本。

其中，M为大于1的整数。

示例性地，本实施例中的码本包括多个度量值，在确定码本时，可对所有量化后的度量值使用聚类算法，聚类算法收敛后的类中心即可作为码本，还可计算每个度量值与其他度量值之间的欧式距离或汉明距离，距离最小的一部分度量值可作为码本。

示例性地，当待压缩OLAP数据记载了一个地区的一个基站上的网络流量在每个工作日内的不同时刻的变化趋势，例如，该趋势从周一到周五重复出现，且基本没有变化或者变化非常缓慢，此时可以将一个地区的一个基站上的网络流量在一天内的变化趋势作为码本，也即，选择该地区该基站在任意一个工作日内，不同时刻的度量值作为码本。

S202、为OLAP数据的每个度量值，在码本中确定出对应的至少一个第一度量值，计算OLAP数据的每个度量值与对应的至少一个第一度量值的线性变换向量。

其中，线性变换向量用于描述OLAP数据的每个度量值与对应的至少一个第一度量值之间的数值关系。

示例性地，在确定码本后，对于OLAP数据中的任一度量值可在码本中选择全部或部分度量值来表示，码本中被选择的度量值记为第一度量值。具体可计算码本与度量值之间的线性变换向量，线性变换向量指示了度量值与对应的第一度量值之间的数值关系，也即可通过线性变换向量和第一度量值计算出对应的OLAP数据中的度量值。

示例性地，在计算待压缩的OLAP数据中的度量值与码本之间的线性变换向量时，由于不存在误差，因此避免了残差的计算，提高了压缩准确度和压缩效率，而且同样避免存储所有的度量值，可减少存储空间，压缩效果较好。

S203、存储码本、OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值。

可以理解的是，与图3和图4所示实施例相同，本实施例在对OLAP数据进行压缩之前，还可先对度量值和维度的关键字进行量化处理，在存储压缩后的OLAP数据之前，还可采用传统的压缩方法对压缩后的OLAP数据进行二次压缩。可以理解的是，待压缩的OLAP数据还包括bitmap。

本申请实施例提供的数据处理方法包括：在OLAP数据的所有度量值中确定出码本，获取码本与度量值之间的线性变换向量，从而存储码本、每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值作为压缩后的OLAP数据，可避免存储所有的度量值，可减少存储空间，压缩效果较好，同时通过计算待压缩的OLAP数据中的度量值与码本之间的线性变换向量，可避免残差的计算，提高了压缩准确度和效率。

在上述实施例的基础上，本申请实施例再一方面还提供一种数据压缩方法。图7为本申请实施例提供的数据压缩方法的流程示意图五，图8为本申请实施例提供的数据压缩方法的流程示意图六。与图3、图5所示实施例不同的是，本实施例中为每个度量值确定最接近的码本，存储每个度量值对应的码本，以避免存储所有度量值，从而节约存储空间。如图7所示，数据压缩方法包括：

S301、从OLAP数据的多个度量值中确定至少一个码本。

示例性地，与图5所示实施例不同的是，本实施例中一个码本对应一个度量值。

示例性地，在确定码本时，可对所有度量值使用聚类算法，聚类算法收敛后的类中心即可作为码本，还可计算每个度量值与其他待压缩OLAP数据之间的欧式距离或汉明距离，距离最小的一部分度量值可作为码本。示例性的，确定的多个码本中至少存在一个码本与OLAP数据的任一度量值的距离小于预设阈值。示例性的，上述距离可以为欧式距离或汉明距离。

S302、在至少一个码本中，确定OLAP数据的各度量值各自对应的码本的标识。

示例性的，在至少一个码本中，确定与该度量值距离最近的码本，该码本的标识作为该度量值对应的码本的标识。

S303、存储至少一个码本、以及OLAP数据的每一组关键字对应的码本的标识。

可以理解的是，将压缩后的OLAP数据解压后，解压后的度量值即为该度量值对应的码本。因此，根据本实施例得到的解压后的OLAP数据的度量值与待压缩的OLAP数据的度量值之间可能存在偏差。为实现无损压缩，在本实施例的基础上，数据压缩方法还包括：

根据各度量值以及各度量值各自对应的码本，获取各度量值对应的残差；并存储OLAP数据的每一组关键字对应的残差。

示例性地，获取OLAP数据的每个度量值与各自对应的码本之间的差异，可得到每个度量值各自对应的残差。每个度量值与各自对应的码本之间的差异可以通过做差得到，也可以通过按位异或的方式获取。

本实施例提供的数据压缩方法，通过在所有度量值中确定多个码本，为每个度量值确定最接近的码本，OLAP数据压缩方式计算过程简单，数据压缩速度快，通过存储码本以及每一组关键字对应的码本的标识，可减少存储空间，压缩效果较好。且通过进一步存储每一组关键字对应的残差，还可实现对OLAP数据的无损压缩，避免了OLAP数据损失。

本申请又一方面还提供一种数据解压方法，是与上述图3和图4所示实施例中的OLAP数据压缩过程相对应的数据解压方法，用于对采用上述数据压缩方法压缩后的OLAP数据进行解压，具有相同或相对应的技术特征，以及相应的技术效果，本申请不再赘述。

图9为本申请实施例提供的数据解压方法的流程示意图一。如图9所示，被压缩的OLAP数据包括压缩模型以及被压缩的OLAP数据的多个维度中每个维度的关键字，数据解压方法包括：

S401、将被压缩的OLAP数据的每一组关键字输入压缩模型，获取每一组关键字对应的度量值。

其中，每一组关键字包括来自多个维度中的每个维度的一个关键字。

S402、存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

可以理解的是，当被压缩的OLAP数据还包括每一组关键字对应的度量值的残差，如图9所示，在S402之前，数据解压方法还可包括：

S4021、根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值。

本申请又一方面还提供一种数据解压方法，是与上述图5和图6所示实施例中的OLAP数据压缩过程相对应的数据解压方法，用于对采用上述数据压缩方法压缩后的OLAP数据进行解压，具有相同或相对应的技术特征，以及相应的技术效果，本申请不再赘述。

图10为本申请实施例提供的数据解压方法的流程示意图二。如图10所示，被压缩的OLAP数据包括码本、被压缩的OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量在码本中对应的至少一个第一度量值，每一组关键字包括来自被压缩的OLAP数据的多个维度中的每个维度的一个关键字，数据解压方法包括：

S501、根据被压缩的OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值，获取每一组关键字对应的度量值。

S502、存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

本申请又一方面还提供一种数据解压方法，是与上述图7和图8所示实施例中的OLAP数据压缩过程相对应的数据解压方法，用于对采用上述数据压缩方法压缩后的OLAP数据进行解压，具有相同或相对应的技术特征，以及相应的技术效果，本申请不再赘述。

图11为本申请实施例提供的数据解压方法的流程示意图三。如图11所示，被压缩的OLAP数据包括至少一个码本以及OLAP数据的每一组关键字对应的码本的标识，每一组关键字包括来自被压缩的OLAP数据的多个维度中的每个维度的一个关键字；示例性地，码本即为上述第三方面中的码本，数据解压方法包括：

S601、根据被压缩的OLAP数据的每一组关键字对应的码本的标识，在至少一个码本中，获取每一组关键字对应的码本。

S602、存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

可以理解的是，当被压缩的OLAP数据还包括每一组关键字对应的度量值的残差，如图11所示，在S602之前，数据解压方法还可包括：

S6021、根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值。

本申请还提供一种数据压缩装置，用于执行上述图3和图4所示的实施例中的数据压缩方法，具有相同或相似的技术特征和技术效果。

图12为本申请实施例提供的数据压缩装置的结构示意图一。如图12所示，数据压缩装置包括：

第一维度选择模块11，用于在OLAP数据的所有维度中确定至少一个第一维度，第一维度上每个关键字对应的度量值之间的差异在预设范围内；所有维度中除第一维度外的维度为第二维度；

压缩模块12，用于以第二维度中每个维度的任一关键字作为压缩模型的输入，以第一维度中每个维度的任一关键字以及第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为压缩模型的输出，对压缩模型进行训练，得到训练后的压缩模型；

存储模块13，用于存储训练后的压缩模型以及多个维度中每个维度的关键字。

可选的，如图12所示，数据压缩装置还包括：

残差获取模块14，用于根据OLAP数据中一组关键字对应的度量值以及将一组关键字输入压缩模型输出得到的度量值，计算OLAP数据中每个度量值的残差；

存储模块13还用于，存储OLAP数据中的每一组关键字对应的度量值的残差。

本申请还提供一种数据压缩装置，用于执行上述图5和图6所示的实施例中的数据压缩方法，具有相同或相似的技术特征和技术效果。

图13为本申请实施例提供的数据压缩装置的结构示意图二。如图13所示，数据压缩装置包括：

码本获取模块21，用于从OLAP数据的多个度量值中确定至少M个度量值作为码本，M为大于1的整数；

线性变换向量获取模块22，用于为OLAP数据的每个度量值，在码本中确定出对应的至少一个第一度量值，计算OLAP数据的每个度量值与对应的至少一个第一度量值的线性变换向量，线性变换向量用于描述OLAP数据的每个度量值与对应的至少一个第一度量值之间的数值关系；

存储模块23，用于存储码本、OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值。

本申请还提供一种数据压缩装置，用于执行上述图7和图8所示的实施例中的数据压缩方法，具有相同或相似的技术特征和技术效果。

图14为本申请实施例提供的数据压缩装置的结构示意图三。如图14所示，数据压缩装置包括：

码本获取模块31，用于从OLAP数据的多个度量值中确定至少一个码本，一个码本对应一个度量值；

压缩模块32，用于在至少一个码本中，确定OLAP数据的各度量值各自对应的码本的标识；

存储模块33，用于存储至少一个码本以及OLAP数据的每一组关键字对应的码本的标识。

可选的，确定的多个码本中至少存在一个码本与OLAP数据的任一度量值的距离小于预设阈值。

可选的，压缩模块32，具体用于对于OLAP数据的任意度量值，在至少一个码本中，确定与该度量值距离最近的码本，该码本的标识作为该度量值对应的码本的标识。

可选的，如图14所示，数据压缩装置还包括：

残差获取模块34，用于在确定了OLAP数据的各度量值对应的码本后，还根据各度量值以及各度量值各自对应的码本，获取各度量值对应的残差；

存储模块33，还用于存储OLAP数据的每一组关键字对应的残差。

本申请还提供一种数据解压装置，用于执行上述图9所示的实施例中的数据解压方法，具有相同或相似的技术特征和技术效果。

图15为本申请实施例提供的数据解压装置的结构示意图一。如图15所示，数据解压装置包括：

解压模块41，用于将被压缩的OLAP数据的每一组关键字输入压缩模型，获取每一组关键字对应的度量值；每一组关键字包括来自多个维度中的每个维度的一个关键字；

存储模块42，用于存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

修正模块43，用于根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值；

存储模块42具体用于，存储多个维度中每个维度的关键字以及修正后的每一组关键字对应的度量值。

本申请还提供一种数据解压装置，用于执行上述图10所示的实施例中的数据解压方法，具有相同或相似的技术特征和技术效果。

图16为本申请实施例提供的数据解压装置的结构示意图二。如图16所示，数据解压装置包括：

解压模块51，用于根据被压缩的OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值，获取每一组关键字对应的度量值；

存储模块52，用于存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

本申请还提供一种数据解压装置，用于执行上述图11所示的实施例中的数据解压方法，具有相同或相似的技术特征和技术效果。

如图15所示，数据解压装置包括：

解压模块41，用于根据被压缩的OLAP数据的每一组关键字对应的码本的标识，在至少一个码本中，获取每一组关键字对应的码本；

修正模块43，用于在存储多个维度中每个维度的关键字以及每一组关键字对应的度量值之前，根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值；

本申请还提供一种数据压缩装置，用于执行上述图3至图8所示的实施例中的数据压缩方法，具有相同或相似的技术特征和技术效果。图17为本申请实施例提供的数据压缩装置的结构示意图四。

一种可行的实现方式中，如图17所示，数据压缩装置包括：

处理器61，用于在OLAP数据的所有维度中确定至少一个第一维度，第一维度上每个关键字对应的度量值之间的差异在预设范围内；所有维度中除第一维度外的维度为第二维度；

处理器61还用于，以第二维度中每个维度的任一关键字作为压缩模型的输入，以第一维度中每个维度的任一关键字以及第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为压缩模型的输出，对压缩模型进行训练，得到训练后的压缩模型；

存储器62，用于存储训练后的压缩模型以及多个维度中每个维度的关键字。

示例性地，处理器61还用于，根据OLAP数据中一组关键字对应的度量值以及将一组关键字输入压缩模型输出得到的度量值，计算OLAP数据中每个度量值的残差；

存储器62还用于，存储OLAP数据中的每一组关键字对应的度量值的残差。

另一种可行的实现方式中，如图17所示，数据压缩装置包括：

处理器61，用于从OLAP数据的多个度量值中确定至少M个度量值作为码本，M为大于1的整数；

处理器61还用于，为OLAP数据的每个度量值，在码本中确定出对应的至少一个第一度量值，计算OLAP数据的每个度量值与对应的至少一个第一度量值的线性变换向量，线性变换向量用于描述OLAP数据的每个度量值与对应的至少一个第一度量值之间的数值关系；

存储器62，用于存储码本、OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值。

再一种可行的实现方式中，如图17所示，数据压缩装置包括：

处理器61，用于从OLAP数据的多个度量值中确定至少一个码本，一个码本对应一个度量值；

处理器61还用于，在至少一个码本中，确定OLAP数据的各度量值各自对应的码本的标识；

存储器62，用于存储至少一个码本以及OLAP数据的每一组关键字对应的码本的标识。

示例性地，确定的多个码本中至少存在一个码本与OLAP数据的任一度量值的距离小于预设阈值。

示例性地，处理器61具体用于，对于OLAP数据的任意度量值，在至少一个码本中，确定与该度量值距离最近的码本，该码本的标识作为该度量值对应的码本的标识。

示例性地，处理器61还用于，在确定了OLAP数据的各度量值对应的码本后，还根据各度量值以及各度量值各自对应的码本，获取各度量值对应的残差；

存储器62还用于，存储OLAP数据的每一组关键字对应的残差。

本申请还提供一种数据解压装置，用于执行上述图9至图11所示的实施例中的数据解压方法，具有相同或相似的技术特征和技术效果。图18为本申请实施例提供的数据压缩装置的结构示意图三。

一种可行的实现方式中，如图18所示，数据解压装置包括：

处理器71，用于将被压缩的OLAP数据的每一组关键字输入压缩模型，获取每一组关键字对应的度量值；每一组关键字包括来自多个维度中的每个维度的一个关键字；

存储器72，用于存储多个维度中每个维度的关键字以及每一组关键字对应的度量值。

示例性地，被压缩的OLAP数据还包括每一组关键字对应的度量值的残差；处理器71还用于，根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值；

存储器72具体用于，存储多个维度中每个维度的关键字以及修正后的每一组关键字对应的度量值。

另一种可行的实现方式中，如图18所示，数据解压装置包括：

处理器71，用于根据被压缩的OLAP数据的每一组关键字对应的线性变换向量以及各线性变换向量对应的至少一个第一度量值，获取每一组关键字对应的度量值；

再一种可行的实现方式中，如图18所示，数据解压装置包括：

处理器71，用于根据被压缩的OLAP数据的每一组关键字对应的码本的标识，在至少一个码本中，获取每一组关键字对应的码本；

示例性地，被压缩的OLAP数据还包括每一组关键字对应的度量值的残差；处理器71还用于，在存储多个维度中每个维度的关键字以及每一组关键字对应的度量值之前，根据每一组关键字对应的度量值的残差和每一组关键字对应的度量值，修正每一组关键字对应的度量值；

本申请还提供一种电子设备，包括：处理器、存储器和计算机程序；

计算机程序存储在存储器中，处理器运行计算机程序，使得电子设备执行如上述图3-11所示的任一实施例中的方法。

本申请还提供一种计算机存储介质，存储介质包括计算机程序，计算机程序用于实现如上述图3-11所示的任一实施例中的方法。

本申请还提供一种计算机程序产品，计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行如上述图3-11所示的任一实施例中的方法。

本申请还提供一种芯片，包括处理器，处理器用于运行计算机程序，以使得安装有芯片的电子设备执行如上述图3-11所示的任一实施例中的方法。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

本申请实施例中涉及的处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

本申请实施例中涉及的存储器可以是非易失性存储器，比如硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)等，还可以是易失性存储器(volatilememory)，例如随机存取存储器(random-access memory，RAM)。存储器是能够用于携带或存储具有指令或数据结构发送形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的发送形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的发送形式实现，也可以采用硬件加软件功能单元的发送形式实现。

本领域普通技术人员可以理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在上述各实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的发送形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

Claims

1.一种数据压缩方法，其特征在于，所述方法用于压缩在线分析处理OLAP数据，所述OLAP数据包括多个度量值以及多个维度中每个维度的关键字，所述每个维度包括多个关键字，所述多个度量值中的每个度量值对应一组关键字，所述一组关键字包括来自所述多个维度中的每个维度的一个关键字，所述方法包括：

在所述OLAP数据的所有维度中确定至少一个第一维度，所述第一维度上每个关键字对应的度量值之间的差异在预设范围内；所述所有维度中除所述第一维度外的维度为第二维度；

以所述第二维度中每个维度的任一关键字作为压缩模型的输入，以所述第一维度中每个维度的任一关键字以及所述第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为所述压缩模型的输出，对所述压缩模型进行训练，得到训练后的压缩模型；

存储所述训练后的压缩模型以及所述多个维度中每个维度的关键字。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述OLAP数据中所述一组关键字对应的度量值以及将所述一组关键字输入所述压缩模型输出得到的度量值，计算所述OLAP数据中每个度量值的残差；

存储所述OLAP数据中的每一组关键字对应的度量值的残差。

3.一种数据解压方法，其特征在于，所述方法用于解压被压缩的OLAP数据，所述被压缩的OLAP数据包括压缩模型以及所述被压缩的OLAP数据的多个维度中每个维度的关键字；所述方法包括：

将所述被压缩的OLAP数据的每一组关键字输入所述压缩模型，获取所述每一组关键字对应的度量值；所述每一组关键字包括来自所述多个维度中的每个维度的一个关键字；所述压缩模型是在所述OLAP数据的所有维度中确定至少一个第一维度，所述第一维度上每个关键字对应的度量值之间的差异在预设范围内；所述所有维度中除所述第一维度外的维度为第二维度；以所述第二维度中每个维度的任一关键字作为压缩模型的输入，以所述第一维度中每个维度的任一关键字以及所述第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为所述压缩模型的输出，对所述压缩模型进行训练得到的；

存储所述多个维度中每个维度的关键字以及所述每一组关键字对应的度量值。

4.根据权利要求3所述的方法，其特征在于，所述被压缩的OLAP数据还包括所述每一组关键字对应的度量值的残差；所述存储所述多个维度中每个维度的关键字以及所述每一组关键字对应的度量值之前，所述方法还包括：

根据所述每一组关键字对应的度量值的残差和所述每一组关键字对应的度量值，修正所述每一组关键字对应的度量值；

所述存储所述多个维度中每个维度的关键字以及所述每一组关键字对应的度量值，包括：

存储所述多个维度中每个维度的关键字以及修正后的每一组关键字对应的度量值。

5.一种数据压缩装置，其特征在于，所述装置用于压缩在线分析处理OLAP数据，所述OLAP数据包括多个度量值以及多个维度中每个维度的关键字，所述每个维度包括多个关键字，所述多个度量值中的每个度量值对应一组关键字，所述一组关键字包括来自所述多个维度中的每个维度的一个关键字，所述装置包括：

第一维度选择模块，用于在所述OLAP数据的所有维度中确定至少一个第一维度，所述第一维度上每个关键字对应的度量值之间的差异在预设范围内；所述所有维度中除所述第一维度外的维度为第二维度；

压缩模块，用于以所述第二维度中每个维度的任一关键字作为压缩模型的输入，以所述第一维度中每个维度的任一关键字以及所述第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为所述压缩模型的输出，对所述压缩模型进行训练，得到训练后的压缩模型；

存储模块，用于存储所述训练后的压缩模型以及所述多个维度中每个维度的关键字。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

残差获取模块，用于根据所述OLAP数据中所述一组关键字对应的度量值以及将所述一组关键字输入所述压缩模型输出得到的度量值，计算所述OLAP数据中每个度量值的残差；

所述存储模块还用于，存储所述OLAP数据中的每一组关键字对应的度量值的残差。

7.一种数据解压装置，其特征在于，所述装置用于解压被压缩的OLAP数据，所述被压缩的OLAP数据包括压缩模型以及所述被压缩的OLAP数据的多个维度中每个维度的关键字；所述装置包括：

解压模块，用于将所述被压缩的OLAP数据的每一组关键字输入所述压缩模型，获取所述每一组关键字对应的度量值；所述每一组关键字包括来自所述多个维度中的每个维度的一个关键字；所述压缩模型是在所述OLAP数据的所有维度中确定至少一个第一维度，所述第一维度上每个关键字对应的度量值之间的差异在预设范围内；所述所有维度中除所述第一维度外的维度为第二维度；以所述第二维度中每个维度的任一关键字作为压缩模型的输入，以所述第一维度中每个维度的任一关键字以及所述第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为所述压缩模型的输出，对所述压缩模型进行训练得到的；

存储模块，用于存储所述多个维度中每个维度的关键字以及所述每一组关键字对应的度量值。

8.根据权利要求7所述的装置，其特征在于，所述被压缩的OLAP数据还包括所述每一组关键字对应的度量值的残差；所述装置还包括：

修正模块，用于根据所述每一组关键字对应的度量值的残差和所述每一组关键字对应的度量值，修正所述每一组关键字对应的度量值；

所述存储模块具体用于，存储所述多个维度中每个维度的关键字以及修正后的每一组关键字对应的度量值。

9.一种数据压缩装置，其特征在于，所述装置用于压缩在线分析处理OLAP数据，所述OLAP数据包括多个度量值以及多个维度中每个维度的关键字，所述每个维度包括多个关键字，所述多个度量值中的每个度量值对应一组关键字，所述一组关键字包括来自所述多个维度中的每个维度的一个关键字，所述装置包括：

处理器，用于在所述OLAP数据的所有维度中确定至少一个第一维度，所述第一维度上每个关键字对应的度量值之间的差异在预设范围内；所述所有维度中除所述第一维度外的维度为第二维度；

所述处理器还用于，以所述第二维度中每个维度的任一关键字作为压缩模型的输入，以所述第一维度中每个维度的任一关键字以及所述第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为所述压缩模型的输出，对所述压缩模型进行训练，得到训练后的压缩模型；

存储器，用于存储所述训练后的压缩模型以及所述多个维度中每个维度的关键字。

10.根据权利要求9所述的装置，其特征在于，所述处理器还用于，根据所述OLAP数据中所述一组关键字对应的度量值以及将所述一组关键字输入所述压缩模型输出得到的度量值，计算所述OLAP数据中每个度量值的残差；

所述存储器还用于，存储所述OLAP数据中的每一组关键字对应的度量值的残差。

11.一种数据解压装置，其特征在于，所述装置用于解压被压缩的OLAP数据，所述被压缩的OLAP数据包括压缩模型以及所述被压缩的OLAP数据的多个维度中每个维度的关键字；所述装置包括：

处理器，用于将所述被压缩的OLAP数据的每一组关键字输入所述压缩模型，获取所述每一组关键字对应的度量值；所述每一组关键字包括来自所述多个维度中的每个维度的一个关键字；所述压缩模型是在所述OLAP数据的所有维度中确定至少一个第一维度，所述第一维度上每个关键字对应的度量值之间的差异在预设范围内；所述所有维度中除所述第一维度外的维度为第二维度；以所述第二维度中每个维度的任一关键字作为压缩模型的输入，以所述第一维度中每个维度的任一关键字以及所述第二维度中每个维度的任一关键字形成的一组关键字对应的度量值作为所述压缩模型的输出，对所述压缩模型进行训练得到的；

存储器，用于存储所述多个维度中每个维度的关键字以及所述每一组关键字对应的度量值。

12.根据权利要求11所述的装置，其特征在于，所述被压缩的OLAP数据还包括所述每一组关键字对应的度量值的残差；

所述处理器还用于，根据所述每一组关键字对应的度量值的残差和所述每一组关键字对应的度量值，修正所述每一组关键字对应的度量值；

所述存储器具体用于，存储所述多个维度中每个维度的关键字以及修正后的每一组关键字对应的度量值。

13.一种电子设备，其特征在于，包括：处理器、存储器和计算机程序；

所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序，使得所述电子设备执行如权利要求1或2所述的数据压缩方法。

14.一种电子设备，其特征在于，包括：处理器、存储器和计算机程序；

所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序，使得所述电子设备执行如权利要求3或4所述的数据解压方法。

15.一种计算机存储介质，其特征在于，所述存储介质包括计算机程序，所述计算机程序用于实现如权利要求1或2所述的数据压缩方法。

16.一种计算机存储介质，其特征在于，所述存储介质包括计算机程序，所述计算机程序用于实现如权利要求3或4所述的数据解压方法。

17.一种芯片，其特征在于，包括处理器，所述处理器用于运行计算机程序，以使得安装有所述芯片的电子设备执行如权利要求1或2所述的数据压缩方法。

18.一种芯片，其特征在于，包括处理器，所述处理器用于运行计算机程序，以使得安装有所述芯片的电子设备执行如权利要求3或4所述的数据解压方法。