CN110784227B

CN110784227B - 一种对数据集的多路压缩方法、装置及存储介质

Info

Publication number: CN110784227B
Application number: CN201910999070.5A
Authority: CN
Inventors: 杨涛; 阮华斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2021-07-30
Anticipated expiration: 2039-10-21
Also published as: CN110784227A

Abstract

本申请公开了一种对数据集的多路压缩方法、装置及存储介质，该方法包括：预先配置数据集的特征信息和多路压缩策略的对应关系；提取待压缩数据集的特征信息；根据所述对应关系确定待压缩数据集的特征信息对应的多路压缩策略；根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩。本发明能够自适应地根据数据集的具体特征选择合适的多路压缩策略对数据集进行压缩，达到提高数据压缩率的目的。

Description

一种对数据集的多路压缩方法、装置及存储介质

技术领域

本申请涉及海量数据存储技术领域，尤其涉及一种对数据集的多路压缩方法、装置及存储介质。

背景技术

冷冻电镜是用于扫描电镜的超低温冷冻制样及传输技术(Cryo-SEM)，可实现直接观察液体、半液体及对电子束敏感的样品，如生物、高分子材料等。随着硬件技术的进步，应用冷冻电镜技术解析生物大分子的结构正在成为一个崭新的结构生物学研究方向。

为了重构出高精度的分子结构，冷冻电镜需要拍摄大量二维的高分辨率图像，由于冷冻电镜在拍摄过程中很难避免诸如欠焦等问题，从而会导致丢失一些图像信息，为了避免有效信息的丢系，冷冻电镜通常会在不同的欠焦水平和不同的角度下拍摄大量高分辨率的二维图像加以合成，以弥补单一图像丢失的信息，最终利用所拍摄的大量的高分辨率的二维图像，通过相关的三维重构软件如Relion等重构出高分辨率的分子结构。

在重构三维分子结构的过程中，由于冷冻电镜需要从不同的角度拍摄大量的高分辨率的二维图像，细微的角度变化均需要拍摄大量的二维图像，这使得图像之间的数据相似度(可达到60％以上)非常高，存在很高的冗余度。而且，在单副图像内部，数据之间的波动非常的小，例如图1所示的冷冻电镜数据示例图，其最大波动幅度在[0，2]之间。

考虑到冷冻电镜数据通常只在一个较小范围波动，且数据类型为单精度浮点型，如果采用传统的数据压缩工具进行压缩，则很难获得良好的压缩效果，原因在于传统的数据压缩工具在进行数据压缩时，是根据数据在文件中出现的先后顺序进行压缩的，而浮点数在计算机中是按照符号部分、指数部分和尾数部分进行存储的，具体如图2所示。浮点数的这种表示方式使得相差值很小的浮点数，其字节表示存在较大的差异，如图3所示的浮点数124.84和126.82的字节表示对比图，虽然两个数据之间只相差1.98，但是尾数部分对应的字节却存在较大的差异，这种差异决定了相邻浮点数之间的连续字节流很难出现重复度较高的数据，从而导致压缩率较低，甚至会因为添加了大量的元数据而导致压缩文件的大小大于未压缩文件的大小。

发明内容

针对上述现有技术，本发明实施例公开一种对数据集的多路压缩方法、装置及存储介质，可以克服使用传统压缩方法对数据集进行压缩时所存在的缺陷，自适应地根据数据集的具体特征选择合适的多路压缩策略对数据集进行压缩，达到提高数据压缩率的目的。

为了达到上述目的，本发明提供了如下技术方案：

一种对数据集的多路压缩方法，包括：

预先配置数据集的特征信息和多路压缩策略的对应关系；

提取待压缩数据集的特征信息；

根据所述对应关系确定待压缩数据集的特征信息对应的多路压缩策略；

根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩。

一种对数据集的多路压缩装置，包括：

配置单元，用于预先配置数据集的特征信息和多路压缩策略的对应关系；

提取单元，用于提取待压缩数据集的特征信息；

确定单元，用于根据所述对应关系确定待压缩数据集的特征信息对应的多路压缩策略；

压缩单元，用于根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时可实现上述对数据集的多路压缩方法中的步骤。

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

预先配置数据集的特征信息和多路压缩策略的对应关系；

提取待压缩数据集的特征信息；

综上所述，本发明中，通过预先设置数据集的特征信息和多路压缩策略的对应关系，从而在对待压缩数据集进行压缩时，根据待压缩数据集的特征信息，自适应地选择合适的多路压缩策略进行压缩，相对于直接使用现有压缩方法，可以有效提高数据压缩率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术冷冻电镜数据示例图

图2是现有技术单精度浮点型数据在计算机中的存储示意图；

图3是现有技术浮点数124.84和126.82的字节表示对比图；

图4是本发明实施例对数据集的多路压缩方法流程图；

图5是本发明实施例对数据集的二路数据压缩过程示意图；

图6是本发明实施例对数据集的四路数据压缩过程示意图；

图7是本发明实施例对数据集的多路压缩装置的结构示意图；

图8是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

从图3可以看出，两个取值接近的浮点数，尾数部分虽然相差很大，但是部分比特(bit)位的数据却是完全相同或多数相同，重复度较高，因此，本发明实施例中，在对数据集进行压缩时，考虑将数据集的各数据中重复度较高(高于预设阈值)的比特位和重复度较低(低于预设阈值)的比特位区分开来，将数据集的各数据中每一重复度较高的连续M个比特位单独提取出来并拼接成一比特流，并采用压缩率较高的压缩算法对拼接而成的比特流进行压缩；将每一重复度较低的连续N个比特位单独提取出来并拼接成一比特流，并采用压缩速度较快的压缩算法对拼接而成的比特流进行压缩，从而可以在提高压缩率的同时还能够提高压缩速度。这里的M和N的取值均在区间[1，P]中，其中，P是数据集中的数据类型的占用长度。

参见图4，图4是本发明实施例对数据集的多路压缩方法流程图，如图4所示，该方法包括以下步骤：

步骤401、预先配置数据集的特征信息和多路压缩策略的对应关系。

本发明实施例中，数据集的特征信息和多路压缩策略的对应关系，可以根据经验确定，也可以通过分析不同数据集中的数据确定，但其实质均是由数据集中的数据确定数据集的特征信息对应的多路压缩策略，具体地，是通过分析数据集中的数据的各个比特位的取值，并基于各个比特位的取值区分重复度较高的部分比特位和重复度较低的部分比特位，从而进行比特位范围划分并基于比特位范围划分结果确定多路压缩策略。

例如，分析数据集中各数据的连续多个比特位的重复度(连续多个比特位的重复度是指数据集中对应于该连续多个比特位的取值完全相同的数据总量与数据集的总数据量的比值)，例如第1至16个比特位、以及第17至32个比特位的重复度，将重复度较高的连续多个比特位划分到一个比特位范围，将重复度较低的连续多个比特位划分到另一个比特位范围。比如，分析确定数据集中各数据的第17至32个比特位的重复度较高(即数据集中对应于第17至32个比特位的取值相同的数据总量与数据集的总数据量的比值超过一定阈值，例如超过95％)，则可以将这连续16个比特位划分到一个比特位范围，即[17，32]；数据集中各数据的第1至16个比特位的重复度较低，则可以将这连续16个比特位划分到一个比特位范围，即[1，16]。基于此比特位范围划分结果，可确定对应的多路压缩策略，具体确定方法后续将进行详细介绍。

本发明实施例中，所述数据集的特征信息包括数据集的数据类型和最大波动幅度，其中，数据集的数据类型即数据集中的数据所属数据类型，数据集的最大波动幅度即数据集中的最大数据和最小数据的差值。需要说明的是，同一数据集中的各数据均属于同一数据类型，且数据集中的数据所属数据类型是基本数据类型，例如整形(int)、单精度浮点型(float)、双精度浮点型(double)等。

本发明实施例中，所述多路压缩策略包括比特位范围和每一比特位范围对应的压缩算法；例如上述划分了比特位范围[17，32]和[1，16]之后，由于数据集中各数据对应于比特位范围[17，32]的取值的重复度较高，因此可以采用压缩率较高的压缩算法作为其对应的压缩算法，如zlib算法、gzip算法等，而数据集中各数据对应于比特位范围[1，16]的取值的重复度较低，因此可以采用压缩速度较快的压缩算法作为其对应的压缩算法，如哈夫曼编码算法、lz4算法等，确定了数据集中数据的比特位范围划分和各比特位范围对应压缩算法，即确定了具体的多路压缩策略。需要说明的是，这里的各比特位范围的并集中包括的比特位数，与特征信息对应于所述多路压缩策略的数据集的数据类型占用的比特位数相同，例如数据集中的数据所属数据类型是单精度浮点型，占用32bit(比特)，而该数据集对应的多路压缩策略中包括两个比特位范围[17，32]和[1，16]，两个比特位范围的并集是[1，32]，即包括32个比特位。

步骤402、提取待压缩数据集的特征信息。

本发明实施例中，提取待压缩数据集的特征信息的方法如下：

将待压缩数据集中的数据所属数据类型确定为待压缩数据集的数据类型；

将待压缩数据集的最大数据取值与最小数据取值之差确定为待压缩数据集的最大波动幅度。

步骤403、根据所述对应关系确定待压缩数据集的特征信息对应的多路压缩策略。

本发明实施例中，通过将待压缩数据集的特征信息与各对应关系中的数据集的特征信息进行比较，找到与待压缩数据集的特征信息匹配的数据集的特征信息，此数据集的特征信息对应的多路压缩策略即为待压缩数据集的特征信息对应的多路压缩策略。

步骤404、根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩。

本发明实施例中，所述根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩，具体包括：针对所述多路压缩策略中的每一比特位范围，将待压缩数据集中每一数据中对应于该比特位范围的比特位数据提取出来，将提取出的各比特位数据拼接起来形成一比特流，将该比特流按照该比特位范围对应的压缩算法进行压缩。

例如，待压缩数据集的特征信息对应的多路压缩策略中，包括两个比特位范围[17，32]和[1，16]，则在对待压缩数据集进行压缩时，可以：

针对比特位范围[17，32]，将数据集中每个数据的第17至32个比特提取出来作为一个比特位数据，然后将这些比特位数据拼接起来形成一比特流，并使用比特位范围[17，32]对应的压缩算法对此比特流进行压缩。

以及，

针对比特位范围[1，16]，将数据集中每个数据的第1至16个比特提取出来作为一个比特位数据，然后将这些比特位数据拼接起来形成一比特流，并使用比特位范围[1，16]对应的压缩算法对此比特流进行压缩。

以下以冷冻电镜数据的数据集为例，对本发明实施例提供的方法进行举例说明。

在实际应用中，冷冻电镜数据的数据类型是单精度浮点型，而且冷冻电镜数据的数据集的波动幅度较小。下面以最大波动幅度位于取值区间[0，64]和[0，2]为例，对相应数据集的多路压缩过程进行举例说明。

当冷冻电镜数据的数据集中数据的取值较大，并且波动范围相对较大，例如最大波动幅度位于区间[0，64]时，数据集中各数据的指数部分基本相同，重复度较高，而尾数部分的3个字节的差异较大，重复度较低。对于这种特点的数据集，可以考虑用2路进行压缩，具体如图5所示，将数据集中的每个数据的指数部分和尾数部分分别作为一路数据进行压缩，即：

将每个数据的尾数部分(第1至24比特)的24个比特提取出来，各数据的尾数部分被拼接成一个比特流并使用合适的压缩算法进行压缩；

将每个数据的指数部分(第25至32比特)的8个比特提取出来，各数据的指数部分被拼接成一个比特流并使用合适的压缩算法进行压缩。

在图5的示例中，由于各数据的指数部分重复度较高，因此都可以采用压缩率较高的压缩算法，例如zlib算法或gzip算法，而尾数部分重复度较低，因此可采用压缩速度快的压缩算法，例如lz4算法或哈夫曼编码算法。

当冷冻电镜数据的数据集中数据的取值较小，波动幅度也比较小，例如最大波动幅度位于取值区间[0，2]时，数据集中各数据的指数部分基本相同，重复度较高，而尾数部分的3个字节中，高位的字节大部分也基本相同，重复度较高，区别仅在于最低位的字节不同。对于这种特点的数据集，可以考虑用4路进行压缩，具体如图6所示，将数据集中的每个数据的每一字节作为一路数据进行压缩，即：

将每个数据的第一字节(第1至8比特)的8个比特提取出来，各数据的第一字节被拼接成一个比特流并使用合适的压缩算法进行压缩；

将每个数据的第二字节(第9至16比特)的8个比特提取出来，各数据的第二字节被拼接成一个比特流并使用合适的压缩算法进行压缩；

将每个数据的第三字节(第17至24比特)的8个比特提取出来，各数据的第三字节被拼接成一个比特流并使用合适的压缩算法进行压缩；

将每个数据的第四字节(第25至32比特)的8个比特提取出来，各数据的第四字节被拼接成一个比特流并使用合适的压缩算法进行压缩。

在图6的示例中，由于各数据的高位的第二字节、第三字节、第四字节的重复度较高，因此都可以采用压缩率较高的压缩算法，例如zlib算法或gzip算法，而低位的第一字节的重复度较低，因此可采用压缩速度快的压缩算法，例如lz4算法或哈夫曼编码算法。

基于以上举例可以看出，本发明实施例中，至少可以配置出以下两种数据集的特征信息与多路压缩策略关系：

1、数据集的数据类型为单精度浮点型，且数据集的最大波动幅度位于取值区间[2，64]内。

这种数据集的特征信息对应的多路压缩策略中，包括第一比特位范围和第二比特位范围；其中，第一比特位范围为单精度浮点型的第25至32位，对应的压缩算法为zlib算法；第二比特位范围为单精度浮点型的第1至24位，对应的压缩算法为lz4算法。

2、数据集的数据类型为单精度浮点型，且所述数据集的最大波动幅度位于取值区间[0，2]内；

这种数据集的特征信息对应的多路压缩策略中，包括第三比特位范围、第四比特位范围、第五比特位范围、第六比特位范围；其中，第三比特位范围、第四比特位范围、第五比特位范围、第六比特位范围分别是单精度浮点型的第25至32位、第17至24位，第9至16位、第1至8位；第三比特位范围、第四比特位范围、第五比特位范围对应的压缩算法均为gzip算法；第六比特位范围对应的压缩算法为哈夫曼编码算法。

以上对本发明实施例对数据集的多路压缩方法进行了详细说明，本发明实施例还提供了一种对数据集的多路压缩装置，以下结合图7进行详细说明。

参见图7，图7是本发明实施例对数据集的多路压缩装置的结构示意图，如图7所示，该装置包括：

配置单元701，用于预先配置数据集的特征信息和多路压缩策略的对应关系；

提取单元702，用于提取待压缩数据集的特征信息；

确定单元703，用于根据所述对应关系确定待压缩数据集的特征信息对应的多路压缩策略；

压缩单元704，用于根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩。

图7所示装置中，

所述数据集特征信息包括数据集的数据类型和最大波动幅度；

每一数据集中的各数据属于同一基本数据类型；

所述提取单元702，提取待压缩数据集的特征信息时，用于：

图7所示装置中，

所述多路压缩策略包括比特位范围和每一比特位范围对应的压缩算法；各比特位范围的并集中的比特位数与特征信息对应于所述多路压缩策略的数据集的数据类型占用的比特位数相同；

所述压缩单元704，根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩，包括：

针对所述多路压缩策略中的每一比特位范围，将待压缩数据集中每一数据中对应于该比特位范围的比特位数据提取出来，将提取出的各比特位数据拼接起来形成一比特流，将该比特流按照该比特位范围对应的压缩算法进行压缩。

图7所示装置中，

所述数据集为冷冻电镜数据的数据集；

所述数据集的数据类型为单精度浮点型，且所述数据集的最大波动幅度位于取值区间[2，64]内；

所述多路压缩策略中包括第一比特位范围和第二比特位范围；其中，第一比特位范围为单精度浮点型的第25至32位，对应的压缩算法为zlib算法；第二比特位范围为单精度浮点型的第1至24位，对应的压缩算法为lz4算法。

图7所示装置中，

所述数据集为冷冻电镜数据的数据集；

所述数据集的数据类型为单精度浮点型，且所述数据集的最大波动幅度位于取值区间[0，2]内；

所述多路压缩策略中包括第三比特位范围、第四比特位范围、第五比特位范围、第六比特位范围；其中，第三比特位范围、第四比特位范围、第五比特位范围、第六比特位范围分别是单精度浮点型的第25至32位、第17至24位，第9至16位、第1至8位；第三比特位范围、第四比特位范围、第五比特位范围对应的压缩算法均为gzip算法；第六比特位范围对应的压缩算法为哈夫曼编码算法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时可实现如图4所示的对数据集的多路压缩方法中的步骤。实际应用中，所述的计算机可读存储介质可以是上述实施例中描述的装置中所包含的，也可以是单独存在，而未装配入该装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，实现图4所示的对数据集的多路压缩方法中的步骤。

根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

本发明实施例还提供了一种电子设备，如图8所示，该电子设备包括计算机可读存储介质801、处理器802以及存储在计算机可读存储介质801上并可在处理器802上运行的计算机程序，所述处理器802执行所述程序时实现以下步骤：

预先配置数据集的特征信息和多路压缩策略的对应关系；

提取待压缩数据集的特征信息；

实际应用中，图8所示电子设备可以是一台或多台计算机，只要包括上述计算机可读存储介质和处理器即可。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种对数据集的多路压缩方法，其特征在于，该方法包括：

预先配置数据集的特征信息和多路压缩策略的对应关系；

提取待压缩数据集的特征信息；

根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩；

其中，

每一数据集中的各数据属于同一基本数据类型；

提取待压缩数据集的特征信息的方法为：

2.根据权利要求1所述的方法，其特征在于，

根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩，包括：

3.根据权利要求2所述的方法，其特征在于，

所述数据集为冷冻电镜数据的数据集；

4.根据权利要求2所述的方法，其特征在于，

所述数据集为冷冻电镜数据的数据集；

5.一种对数据集的多路压缩装置，其特征在于，该装置包括：

提取单元，用于提取待压缩数据集的特征信息；

压缩单元，用于根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩；

其中，

每一数据集中的各数据属于同一基本数据类型；

所述提取单元，提取待压缩数据集的特征信息时，用于：

6.根据权利要求5所述的装置，其特征在于，

所述压缩单元，根据待压缩数据集的特征信息对应的多路压缩策略，对待压缩数据集进行多路压缩，包括：

7.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时可实现权利要求1至4任一项所述的对数据集的多路压缩方法中的步骤。

8.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

预先配置数据集的特征信息和多路压缩策略的对应关系；

提取待压缩数据集的特征信息；

其中，

每一数据集中的各数据属于同一基本数据类型；

所述处理器，提取待压缩数据集的特征信息时，用于：