CN112905551B

CN112905551B - 数据压缩方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN112905551B
Application number: CN201911229310.XA
Authority: CN
Inventors: 汪翔
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2022-04-29
Anticipated expiration: 2039-12-04
Also published as: CN112905551A

Abstract

本发明实施例公开了一种数据压缩方法、装置、电子设备及计算机可读存储介质，所述方法包括：响应于接收到数据压缩指令，获取待压缩数据文件，并对所述待压缩数据文件进行均匀采样，得到采样数据文件；根据所述采样数据文件训练得到数据压缩字典；利用所述数据压缩字典对于所述待压缩数据文件进行压缩，得到压缩数据文件。该技术方案能够有效提升数据压缩率，减少用户的干预，降低对于字典数据的要求，同时由于无需对于数据块进行缓存再训练字典，因此可以大大降低数据内存开销。

Description

数据压缩方法、装置、电子设备及计算机可读存储介质

技术领域

本发明实施例涉及数据处理技术领域，具体涉及一种数据压缩方法、装置、电子设备及计算机可读存储介质。

背景技术

随着数据技术的发展，大量的数据库被广泛使用，为了节省存储空间，很多数据库都会对存储数据文件内的数据使用通用无损压缩算法进行压缩。现有技术中存在以下几种压缩方法：1、使用通用无损压缩算法对数据库中的每个数据块进行独立压缩，该处理方式在每个压缩数据块内独立维护一个压缩字典，由于压缩字典的存储会带来额外的空间开销，而且压缩字典的采样范围局限于单个数据块内部，因此导致该处理方式存储空间成本较高，数据压缩率较低；2、使用用户预先定义的共享字典对数据块进行压缩，该处理方式不需要在数据压缩时进行训练来得到字典，可以节约字典训练时间，但该处理方式的压缩效果完全取决于预先定义的字典数据，因此对于字典数据的要求较高；3、先将数据块缓存在内存中，再对缓存数据块进行字典训练和数据压缩，相对于处理方式1，该处理方式能够有效提升数据压缩率，相对于处理方式2，该处理方式能够减少用户的干预，对于字典数据的要求低，但该处理方式由于需要将数据块全部缓存在内存中再训练字典，因此字典训练的内存开销较大。

发明内容

本发明实施例提供一种数据压缩方法、装置、电子设备及计算机可读存储介质。

第一方面，本发明实施例中提供了一种数据压缩方法。

具体的，所述数据压缩方法，包括：

响应于接收到数据压缩指令，获取待压缩数据文件，并对所述待压缩数据文件进行均匀采样，得到采样数据文件；

根据所述采样数据文件训练得到数据压缩字典；

利用所述数据压缩字典对于所述待压缩数据文件进行压缩，得到压缩数据文件。

结合第一方面，本发明实施例在第一方面的第一种实现方式中，所述待压缩数据文件为树形数据存储结构，其中，所述树形数据存储结构包括作为根存储级和枝存储级的数据索引部分和作为叶存储级的数据部分。

结合第一方面和第一方面的第一种实现方式，本发明实施例在第一方面的第二种实现方式中，所述响应于接收到数据压缩指令，获取待压缩数据文件，并对所述待压缩数据文件进行均匀采样，得到采样数据文件，包括：

响应于接收到数据压缩指令，获取待压缩数据文件；

从所述待压缩数据文件的根存储级开始进行分级均匀采样，直至到达所述数据索引部分的末级存储级，得到采样索引数据；

根据所述采样索引数据在所述作为叶存储级的数据部分确定采样数据，得到采样数据文件。

结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述从所述待压缩数据文件的根存储级开始进行分级均匀采样，直至到达所述数据索引部分的末级存储级，得到采样索引数据，被实施为：

从所述待压缩数据文件的根存储级开始，确定当前存储级数据节点的采样目标总数量x，以及所述当前存储级中待采样的数据节点数量t；

若所述采样目标总数量x小于所述待采样数据节点数量t，从t个待采样数据节点中随机采样r个索引数据，得到当前存储级数据节点的采样索引数据；

若所述采样目标总数量x大于等于所述待采样数据节点数量t，将所述采样目标总数量x除以所述待采样数据节点数量t，得到商b和余数r，从t个待采样数据节点中各采样b个索引数据，从t个待采样数据节点中随机采样r个索引数据，得到当前存储级的采样索引数据；

跳至下一存储级进行均匀采样，直至到达所述数据索引部分的末级存储级，将得到的所述数据索引部分末级存储级采样索引数据确定为所述采样索引数据。

结合第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，所述根据所述采样数据文件训练得到数据压缩字典，包括：

提取所述采样数据文件的特征数据；

根据所述特征数据训练得到所述数据压缩字典。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，还包括：

将所述压缩数据文件和数据压缩字典组合起来得到输出数据，并输出所述输出数据。

第二方面，本发明实施例中提供了一种数据压缩装置。

具体的，所述数据压缩装置，包括：

采样模块，被配置为响应于接收到数据压缩指令，获取待压缩数据文件，并对所述待压缩数据文件进行均匀采样，得到采样数据文件；

训练模块，被配置为根据所述采样数据文件训练得到数据压缩字典；

压缩模块，被配置为利用所述数据压缩字典对于所述待压缩数据文件进行压缩，得到压缩数据文件。

结合第二方面，本发明实施例在第二方面的第一种实现方式中，所述待压缩数据文件为树形数据存储结构，其中，所述树形数据存储结构包括作为根存储级和枝存储级的数据索引部分和作为叶存储级的数据部分。

结合第二方面和第二方面的第一种实现方式，本发明实施例在第二方面的第二种实现方式中，所述采样模块包括：

获取子模块，被配置为响应于接收到数据压缩指令，获取待压缩数据文件；

采样子模块，被配置为从所述待压缩数据文件的根存储级开始进行分级均匀采样，直至到达所述数据索引部分的末级存储级，得到采样索引数据；

确定子模块，被配置为根据所述采样索引数据在所述作为叶存储级的数据部分确定采样数据，得到采样数据文件。

结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式，本公开在第二方面的第三种实现方式中，所述采样子模块被配置为：

结合第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式，本公开在第二方面的第四种实现方式中，所述训练模块包括：

提取子模块，被配置为提取所述采样数据文件的特征数据；

训练子模块，被配置为根据所述特征数据训练得到所述数据压缩字典。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式，本公开在第二方面的第五种实现方式中，还包括：

输出模块，被配置为将所述压缩数据文件和数据压缩字典组合起来得到输出数据，并输出所述输出数据。

第三方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条支持数据压缩装置执行上述第一方面中数据压缩方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述数据压缩装置还可以包括通信接口，用于数据压缩装置与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储数据压缩装置所用的计算机指令，其包含用于执行上述第一方面中数据压缩方法为数据压缩装置所涉及的计算机指令。

本发明实施例提供的技术方案可包括以下有益效果：

上述技术方案通过对于待压缩数据文件进行均匀采样，得到采样数据文件，根据采样数据文件训练得到数据压缩字典，利用所述数据压缩字典对于所述待压缩数据文件进行压缩，最终得到压缩数据文件。该技术方案能够有效提升数据压缩率，减少用户的干预，降低对于字典数据的要求，同时由于无需对于数据块进行缓存再训练字典，因此可以大大降低数据内存开销。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明实施例。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本发明实施例的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本发明一实施方式的数据压缩方法的流程图；

图2是根据本发明一实施方式的数据文件存储结构示意图；

图3示出根据图1所示实施方式的数据压缩方法的步骤S101的流程图；

图4是根据图2所示实施方式的数据采样示意图；

图5示出根据图1所示实施方式的数据压缩方法的步骤S102的流程图；

图6示出根据本发明另一实施方式的数据压缩方法的流程图；

图7示出根据本发明一实施方式的数据压缩装置的结构框图；

图8示出根据图7所示实施方式的数据压缩装置的采样模块701的结构框图；

图9示出根据图7所示实施方式的数据压缩装置的训练模块702的结构框图；

图10示出根据本发明另一实施方式的数据压缩装置的结构框图；

图11示出根据本发明一实施方式的电子设备的结构框图；

图12是适于用来实现根据本发明一实施方式的数据压缩方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本发明实施例的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本发明实施例中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明实施例。

本发明实施例提供的技术方案通过对于待压缩数据文件进行均匀采样，得到采样数据文件，根据采样数据文件训练得到数据压缩字典，利用所述数据压缩字典对于所述待压缩数据文件进行压缩，最终得到压缩数据文件。该技术方案能够有效提升数据压缩率，减少用户的干预，降低对于字典数据的要求，同时由于无需对于数据块进行缓存再训练字典，因此可以大大降低数据内存开销。

图1示出根据本发明一实施方式的数据压缩方法的流程图，如图1所示，所述数据压缩方法包括以下步骤S101-S103：

在步骤S101中，响应于接收到数据压缩指令，获取待压缩数据文件，并对所述待压缩数据文件进行均匀采样，得到采样数据文件；

在步骤S102中，根据所述采样数据文件训练得到数据压缩字典；

在步骤S103中，利用所述数据压缩字典对于所述待压缩数据文件进行压缩，得到压缩数据文件。

上文提及，随着数据技术的发展，大量的数据库被广泛使用，为了节省存储空间，很多数据库都会对存储数据文件内的数据使用通用无损压缩算法进行压缩。现有技术中存在以下几种压缩方法：1、使用通用无损压缩算法对数据库中的每个数据块进行独立压缩，该处理方式在每个压缩数据块内独立维护一个压缩字典，由于压缩字典的存储会带来额外的空间开销，而且压缩字典的采样范围局限于单个数据块内部，因此导致该处理方式存储空间成本较高，数据压缩率较低；2、使用用户预先定义的共享字典对数据块进行压缩，该处理方式不需要在数据压缩时进行训练来得到字典，可以节约字典训练时间，但该处理方式的压缩效果完全取决于预先定义的字典数据，因此对于字典数据的要求较高；3、先将数据块缓存在内存中，再对缓存数据块进行字典训练和数据压缩，相对于处理方式1，该处理方式能够有效提升数据压缩率，相对于处理方式2，该处理方式能够减少用户的干预，对于字典数据的要求低，但该处理方式由于需要将数据块全部缓存在内存中再训练字典，因此字典训练的内存开销较大。

考虑到上述问题，在该实施方式中，提出一种数据压缩方法，该方法通过对于待压缩数据文件进行均匀采样，得到采样数据文件，根据采样数据文件训练得到数据压缩字典，利用所述数据压缩字典对于所述待压缩数据文件进行压缩，最终得到压缩数据文件。该技术方案能够有效提升数据压缩率，减少用户的干预，降低对于字典数据的要求，同时由于无需对于数据块进行缓存再训练字典，因此可以大大降低数据内存开销。

在本发明一实施方式中，所述数据压缩指令指的是启动数据压缩操作的指令，其可由操作人员发出，也可由操作系统或者其他资源发出。

在本发明一实施方式中，所述待压缩数据文件为树形数据存储结构，其中，所述树形存储结构中包括数据索引部分和与所述数据索引部分相对应的数据部分，所述数据索引部分作为所述树形存储结构的根存储级和枝存储级，所述数据部分作为所述树形存储结构的叶存储级，其中，所述枝存储级可以为一级，也可以为多级。

为了节约存储空间，提高数据索引效率，在本发明一实施方式中，所述数据索引部分的各个存储级采用跳表的形式存储索引数据，且以预设顺序和规则置于所述数据部分的头部或尾部。图2是根据本发明一实施方式的数据文件存储结构示意图，如图2所示，该数据文件包括位于文件头部的数据索引部分和位于文件尾部的数据部分，假设数据索引值共有210个，即数据索引值从0至209，所述数据索引部分包括数据索引a、数据索引b、数据索引c、数据索引d和数据索引e五个索引字段，分别两级存储级，其中，数据索引a为根存储级，其存储有贯穿整个数据索引值的跳跃索引值0、20、50和150，数据索引b、数据索引c、数据索引d和数据索引e为枝存储级，其分别与所述跳跃索引值相对应，也就是说，数据索引b中存储有跳跃索引值0至20之间的索引值，即索引值0-19，数据索引c中存储有跳跃索引值20至50之间的索引值，即索引值20-49，数据索引d中存储有跳跃索引值50至150之间的索引值，即索引值50-149，数据索引d中存储有剩下的索引值150-209。为了节约存储空间，提高数据索引效率，处于枝存储级上的数据索引b、数据索引c、数据索引d和数据索引e也采用跳表的形式存储索引数据，即，数据索引b中存储有跳跃索引值0、5和10，数据索引c中存储有跳跃索引值20、40和45，数据索引d中存储有跳跃索引值50和100，数据索引e中存储有跳跃索引值150和180。处于枝存储级上的数据索引b、数据索引c、数据索引d和数据索引e与所述数据部分中存储的数据相对应，这样，通过两级数据索引值的跳跃索引，就可以很快找到相应的数据。

在本发明一实施方式中，所述对待压缩数据文件进行均匀采样指的是对于所述待压缩数据文件中的数据进行采样，使得最终得到的采样数据在所述待压缩数据文件中的位置能够大致服从均匀分布。这样能够使得采样数据的特征在最大程度上代表所述压缩数据文件的数据特征，进而提高后续基于所述采样数据训练得到的压缩字典的准确性。

在本发明一实施方式中，如图3所示，所述步骤S101，即响应于接收到数据压缩指令，获取待压缩数据文件，并对所述待压缩数据文件进行均匀采样，得到采样数据文件的步骤，包括以下步骤S301-S303：

在步骤S301中，响应于接收到数据压缩指令，获取待压缩数据文件；

在步骤S302中，从所述待压缩数据文件的根存储级开始进行分级均匀采样，直至到达所述数据索引部分的末级存储级，得到采样索引数据；

在步骤S303中，根据所述采样索引数据在所述作为叶存储级的数据部分确定采样数据，得到采样数据文件。

上文提及，所述待压缩数据文件为树形数据存储结构，所述树形存储结构中包括数据索引部分和与所述数据索引部分相对应的数据部分，所述数据索引部分作为所述树形存储结构的根存储级和枝存储级，采用跳表的形式存储索引数据，所述数据部分作为所述树形存储结构的叶存储级。因此，在该实施方式中，在对于所述待压缩数据文件进行采样时，需对于所述数据索引部分逐级进行采样。具体地，首先响应于接收到数据压缩指令，获取待压缩数据文件；然后从所述待压缩数据文件的根存储级开始进行分级均匀采样，直至到达所述数据索引部分的末级存储级，得到采样索引数据；最后根据所述采样索引数据与所述数据部分中存储的数据之间的映射关系，在所述作为叶存储级的数据部分中确定采样数据，最终得到采样数据文件。

在本发明一实施方式中，所述步骤S302，即所述从所述待压缩数据文件的根存储级开始进行分级均匀采样，直至到达所述数据索引部分的末级存储级，得到采样索引数据的步骤，可被实施为：

为了有效实现均匀采样，在该实施方式中，根据数据节点采样目标总数量与待采样数据节点数量之间的关系对于每级存储级的索引数据进行采样，具体地，首先，从所述待压缩数据文件的数据索引部分的根存储级开始，确定每一当前存储级数据节点的采样目标总数量x，以及所述当前存储级中待采样的数据节点数量t；然后比较所述采样目标总数量与待采样数据节点数量，若所述采样目标总数量x小于所述待采样数据节点数量t，则直接从t个待采样数据节点中随机采样r个索引数据，作为当前存储级的采样索引数据；若所述采样目标总数量x大于等于所述待采样数据节点数量t，此时若再采用随机采样策略，则将有可能导致采样数据的不均匀分布，因此在该实施方式中，采用平均采样与随机采样相结合的采样方式，即将所述采样目标总数量x除以所述待采样数据节点数量t，得到商b和余数r，从t个待采样数据节点中各采样b个索引数据，然后再从t个待采样数据节点中随机采样剩下的r个索引数据，来得到当前存储级的采样索引数据，这样最终只执行了平均采样的数据节点被采样的数据数量为b，既执行了平均采样又执行了随机采样的数据节点被采样的数据数量为b+r，也就是说，当所述采样目标总数量x大于等于所述待采样数据节点数量t时，各数据节点最终被采样的数据数量相差不大，因此在最大程度上实现了均匀采样；当前存储级采样完成之后跳至下一存储级进行如上所述的均匀采样，直至到达所述数据索引部分的末级存储级，最终将得到的所述数据索引部分末级存储级采样索引数据确定为所述采样索引数据。

在本发明一实施方式中，根存储级数据节点的采样目标总数量x、枝存储级所有数据节点的采样目标总数量x均为其所在数据文件需要进行采样的数据数量，而每一数据文件需要进行采样的数据数量可根据所有数据文件需要进行采样的数据总数量乘以该数据文件的大小占所有数据文件大小总和之间的比例来得到，其中，所有数据文件需要进行采样的数据总数量可根据实际应用的需要进行确定，本公开对其不作具体限定。

图4是根据图2所示实施方式的数据采样示意图，如图4所示，该数据文件需要进行采样的数据数量为5，即，根存储级数据节点的采样目标总数量x以及枝存储级所有数据节点的采样目标总数量x均为5，从根存储级开始依次进行均匀采样。首先对于根存储级来说，其待采样的数据节点数量t为4，5>4，则将采样目标总数量5除以待采样数据节点数量4，得到商1和余数1，那么就从4个待采样数据节点中各采样1个索引数据，得到4个索引数据，再从4个待采样数据节点中随机采样1个索引数据，共5个索引数据，分别为位于索引值区间0-19中的1个索引数据，位于索引值区间20-49中的2个索引数据，位于索引值区间50-149中的1个索引数据，以及位于索引值区间150-209中的1个索引数据。然后再根据根存储级的采样结果进行枝存储级上的均匀采样，比如，对于枝存储级上的索引值区间0-19，其采样目标总数量x为1，待采样的数据节点数量t为4，1<4，那么就直接从4个待采样数据节点中随机采样1个索引数据即可；对于枝存储级上的索引值区间20-49，其采样目标总数量x为2，待采样的数据节点数量t为4，2<4，也是直接从4个待采样数据节点中随机采样1个索引数据即可；对于枝存储级上的索引值区间50-149和150-209，也是相同的道理，分别从4个待采样数据节点中随机采样1个索引数据，最终得到与该数据文件对应的采样索引数据，图4中索引值下方方框中的数字代表该索引值区间存在几个索引数据，比如，方框中的数字若是1，表示该索引值区间存在1个采样索引数据，方框中的数字若是2，表示该索引值区间存在2个采样索引数据，方框中的数字若是0，表示该索引值区间没有被采样到索引数据，以此类推。后续即可根据所述采样索引数据与数据部分存储的数据之间的映射关系来确定采样数据，最终得到采样数据文件。

在本发明一实施方式中，如图5所示，所述步骤S102，即根据所述采样数据文件训练得到数据压缩字典的步骤，包括以下步骤S501-S502：

在步骤S501中，提取所述采样数据文件的特征数据；

在步骤S502中，根据所述特征数据训练得到所述数据压缩字典。

在该实施方式中，为了获得具有普适性的数据压缩字典，在基于上述均匀采样策略采样得到采样数据文件之后，基于所述采样数据文件来训练得到数据压缩字典。具体地，首先提取所述采样数据文件的特征数据；然后再根据所述特征数据训练得到所述数据压缩字典。

需要说明的是，所述特征数据可采用多种特征表示形式，所述数据压缩字典也可采用多种训练方法得到，本领域技术人员可根据实际应用的需要以及待处理数据的特点选择合适的特征数据表示形式以及数据压缩字典训练方法，本公开对其不作具体限定。

在本发明一实施方式中，所述方法还包括将所述压缩数据文件和数据压缩字典组合起来得到输出数据，并输出所述输出数据的步骤，即如图6所示，所述数据压缩方法包括以下步骤S601-S604：

在步骤S601中，响应于接收到数据压缩指令，获取待压缩数据文件，并对所述待压缩数据文件进行均匀采样，得到采样数据文件；

在步骤S602中，根据所述采样数据文件训练得到数据压缩字典；

在步骤S603中，利用所述数据压缩字典对于所述待压缩数据文件进行压缩，得到压缩数据文件；

在步骤S604中，将所述压缩数据文件和数据压缩字典组合起来得到输出数据，并输出所述输出数据。

在得到数据压缩字典且利用所述数据压缩字典对于所述待压缩数据文件进行压缩得到压缩数据文件之后，为了便于数据接收方对于接收到的压缩数据进行解压缩，还将所述数据压缩字典与所述压缩数据文件组合起来得到输出数据进行输出，比如输出到数据接收方，或者输出到磁盘中完成数据持久化操作。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图7示出根据本发明一实施方式的数据压缩装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图7所示，所述数据压缩装置包括：

采样模块701，被配置为响应于接收到数据压缩指令，获取待压缩数据文件，并对所述待压缩数据文件进行均匀采样，得到采样数据文件；

训练模块702，被配置为根据所述采样数据文件训练得到数据压缩字典；

压缩模块703，被配置为利用所述数据压缩字典对于所述待压缩数据文件进行压缩，得到压缩数据文件。

考虑到上述问题，在该实施方式中，提出一种数据压缩装置，该装置通过对于待压缩数据文件进行均匀采样，得到采样数据文件，根据采样数据文件训练得到数据压缩字典，利用所述数据压缩字典对于所述待压缩数据文件进行压缩，最终得到压缩数据文件。该技术方案能够有效提升数据压缩率，减少用户的干预，降低对于字典数据的要求，同时由于无需对于数据块进行缓存再训练字典，因此可以大大降低数据内存开销。

在本发明一实施方式中，如图8所示，所述采样模块701包括：

获取子模块801，被配置为响应于接收到数据压缩指令，获取待压缩数据文件；

采样子模块802，被配置为从所述待压缩数据文件的根存储级开始进行分级均匀采样，直至到达所述数据索引部分的末级存储级，得到采样索引数据；

确定子模块803，被配置为根据所述采样索引数据在所述作为叶存储级的数据部分确定采样数据，得到采样数据文件。

上文提及，所述待压缩数据文件为树形数据存储结构，所述树形存储结构中包括数据索引部分和与所述数据索引部分相对应的数据部分，所述数据索引部分作为所述树形存储结构的根存储级和枝存储级，采用跳表的形式存储索引数据，所述数据部分作为所述树形存储结构的叶存储级。因此，在该实施方式中，在对于所述待压缩数据文件进行采样时，采样模块701需对于所述数据索引部分逐级进行采样。具体地，获取子模块801响应于接收到数据压缩指令，获取待压缩数据文件；采样子模块802从所述待压缩数据文件的根存储级开始进行分级均匀采样，直至到达所述数据索引部分的末级存储级，得到采样索引数据；确定子模块803根据所述采样索引数据与所述数据部分中存储的数据之间的映射关系，在所述作为叶存储级的数据部分中确定采样数据，最终得到采样数据文件。

在本发明一实施方式中，所述采样子模块802可被配置为：

在本发明一实施方式中，如图9所示，所述训练模块702包括：

提取子模块901，被配置为提取所述采样数据文件的特征数据；

训练子模块902，被配置为根据所述特征数据训练得到所述数据压缩字典。

在该实施方式中，为了获得具有普适性的数据压缩字典，在基于上述均匀采样策略采样得到采样数据文件之后，所述训练模块702基于所述采样数据文件来训练得到数据压缩字典。具体地，提取子模块901提取所述采样数据文件的特征数据；训练子模块902再根据所述特征数据训练得到所述数据压缩字典。

在本发明一实施方式中，所述装置还包括将所述压缩数据文件和数据压缩字典组合起来得到输出数据，并输出所述输出数据的部分，即如图10所示，所述数据压缩装置包括：

采样模块1001，被配置为响应于接收到数据压缩指令，获取待压缩数据文件，并对所述待压缩数据文件进行均匀采样，得到采样数据文件；

训练模块1002，被配置为根据所述采样数据文件训练得到数据压缩字典；

压缩模块1003，被配置为利用所述数据压缩字典对于所述待压缩数据文件进行压缩，得到压缩数据文件；

输出模块1004，被配置为将所述压缩数据文件和数据压缩字典组合起来得到输出数据，并输出所述输出数据。

在得到数据压缩字典且利用所述数据压缩字典对于所述待压缩数据文件进行压缩得到压缩数据文件之后，为了便于数据接收方对于接收到的压缩数据进行解压缩，输出模块1004还将所述数据压缩字典与所述压缩数据文件组合起来得到输出数据进行输出，比如输出到数据接收方，或者输出到磁盘中完成数据持久化操作。

本发明实施例还公开了一种电子设备，图11示出根据本发明一实施方式的电子设备的结构框图，如图11所示，所述电子设备1100包括存储器1101和处理器1102；其中，

所述存储器1101用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器1102执行以实现上述任一方法步骤。

图12适于用来实现根据本发明实施方式的数据压缩方法的计算机系统的结构示意图。

如图12所示，计算机系统1200包括处理单元1201，其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行上述实施方式中的各种处理。在RAM1203中，还存储有系统1200操作所需的各种程序和数据。处理单元1201、ROM1202以及RAM1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。其中，所述处理单元1201可实现为CPU、GPU、FPGA、NPU等处理单元。

特别地，根据本发明的实施方式，上文描述的方法可以被实现为计算机软件程序。例如，本发明的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行所述数据压缩方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。

附图中的流程图和框图，图示了按照本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本发明实施例的方法。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据压缩方法，其特征在于，包括：

根据所述采样数据文件训练得到数据压缩字典；

2.根据权利要求1所述的方法，其特征在于，所述待压缩数据文件为树形数据存储结构，其中，所述树形数据存储结构包括作为根存储级和枝存储级的数据索引部分和作为叶存储级的数据部分。

3.根据权利要求2所述的方法，其特征在于，所述响应于接收到数据压缩指令，获取待压缩数据文件，并对所述待压缩数据文件进行均匀采样，得到采样数据文件，包括：

响应于接收到数据压缩指令，获取待压缩数据文件；

4.根据权利要求3所述的方法，其特征在于，所述从所述待压缩数据文件的根存储级开始进行分级均匀采样，直至到达所述数据索引部分的末级存储级，得到采样索引数据，被实施为：

5.根据权利要求1-4任一所述的方法，其特征在于，所述根据所述采样数据文件训练得到数据压缩字典，包括：

提取所述采样数据文件的特征数据；

根据所述特征数据训练得到所述数据压缩字典。

6.根据权利要求1-4任一所述的方法，其特征在于，还包括：

7.一种数据压缩装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述待压缩数据文件为树形数据存储结构，其中，所述树形数据存储结构包括作为根存储级和枝存储级的数据索引部分和作为叶存储级的数据部分。

9.根据权利要求8所述的装置，其特征在于，所述采样模块包括：

10.根据权利要求9所述的装置，其特征在于，所述采样子模块被配置为：

11.根据权利要求7-10任一所述的装置，其特征在于，所述训练模块包括：

提取子模块，被配置为提取所述采样数据文件的特征数据；

12.根据权利要求7-10任一所述的装置，其特征在于，还包括：

13.一种电子设备，其特征在于，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-6任一项所述的方法步骤。

14.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-6任一项所述的方法步骤。