CN111010189B

CN111010189B - 一种对数据集的多路压缩方法、装置及存储介质

Info

Publication number: CN111010189B
Application number: CN201910999289.5A
Authority: CN
Inventors: 阮华斌; 杨涛
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2021-10-26
Anticipated expiration: 2039-10-21
Also published as: CN111010189A

Abstract

本申请公开了一种对数据集的多路压缩方法、装置及存储介质，该方法包括：预先获取数据集与多路压缩策略的对应关系，对获取的各数据集与多路压缩策略的对应关系进行训练，得到一分类模型；将待压缩数据集输入所述分类模型，得到待压缩数据集对应的多路压缩策略；根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩。本发明能够自适应地为待压缩数据集确定合适的多路压缩策略进行压缩，达到提高数据压缩率的目的。

Description

一种对数据集的多路压缩方法、装置及存储介质

技术领域

本申请涉及海量数据存储技术领域，尤其涉及一种对数据集的多路压缩方法、装置及存储介质。

背景技术

冷冻电镜是用于扫描电镜的超低温冷冻制样及传输技术(Cryo-SEM)，可实现直接观察液体、半液体及对电子束敏感的样品，如生物、高分子材料等。随着硬件技术的进步，应用冷冻电镜技术解析生物大分子的结构正在成为一个崭新的结构生物学研究方向。

为了重构出高精度的分子结构，冷冻电镜需要拍摄大量二维的高分辨率图像，由于冷冻电镜在拍摄过程中很难避免诸如欠焦等问题，从而会导致丢失一些图像信息，为了避免有效信息的丢系，冷冻电镜通常会在不同的欠焦水平和不同的角度下拍摄大量高分辨率的二维图像加以合成，以弥补单一图像丢失的信息，最终利用所拍摄的大量的高分辨率的二维图像，通过相关的三维重构软件如Relion等重构出高分辨率的分子结构。

在重构三维分子结构的过程中，由于冷冻电镜需要从不同的角度拍摄大量的高分辨率的二维图像，细微的角度变化均需要拍摄大量的二维图像，这使得图像之间的数据相似度(可达到60％以上)非常高，存在很高的冗余度。而且，在单副图像内部，数据之间的波动相对较小，对于取值较小的数据，其波动范围通常在[0，2]之间，如图1所示，对于取值较大的数据，其波动范围通常在[0,64]之间，如图2所示。

考虑到冷冻电镜数据通常只在一个较小范围波动，且数据类型为单精度浮点型，如果采用传统的数据压缩工具进行压缩，则很难获得良好的压缩效果，原因在于传统的数据压缩工具在进行数据压缩时，是根据数据在文件中出现的先后顺序进行压缩的，而浮点数在计算机中是按照符号部分、指数部分和尾数部分进行存储的，具体如图3所示。浮点数的这种表示方式使得相差值很小的浮点数，其字节表示存在较大的差异，这种差异决定了相邻浮点数之间的连续字节流很难出现重复度较高的数据，从而导致压缩率较低，甚至会因为添加了大量的元数据而导致压缩文件的大小大于未压缩文件的大小。

发明内容

针对上述现有技术，本发明实施例公开一种对数据集的多路压缩方法、装置及存储介质，可以克服使用传统压缩方法对数据集进行压缩时所存在的缺陷，自适应地为数据集确定合适的多路压缩策略进行压缩，达到提高数据压缩率的目的。

为了达到上述目的，本发明提供了如下技术方案：

一种对数据集的多路压缩方法，包括：

预先获取数据集与多路压缩策略的对应关系，对获取的各数据集与多路压缩策略的对应关系进行训练，得到一分类模型；

将待压缩数据集输入所述分类模型，得到待压缩数据集对应的多路压缩策略；

根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩。

一种对数据集的多路压缩装置，包括：

获取单元，用于预先获取数据集与多路压缩策略的对应关系；

学习单元，用于对获取单元获取的各数据集与多路压缩策略的对应关系进行训练，得到一分类模型；

分类单元，用于将待压缩数据集输入所述分类模型，得到待压缩数据集对应的多路压缩策略；

压缩单元，用于根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时可实现上述对数据集的多路压缩方法中的步骤。

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

综上所述，本发明中，通过预先获取数据集和多路压缩策略的对应关系，并对获取的各对应关系进行训练得到分类模型，从而可以在进行数据集压缩时，根据分类模型自适应确定待压缩数据集对应的多路压缩策略，并根据此多路压缩策略对待压缩数据集进行压缩，相对于现有实现中不区分数据集而直接使用传统压缩方法进行压缩，可以有效提高数据压缩率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术冷冻电镜数据示例图；

图2是现有技术另一冷冻电镜数据示例图；

图3是现有技术单精度浮点型数据在计算机中的存储示意图；

图4是现有技术浮点数124.84和126.82的字节表示对比图；

图5是本发明实施例对数据集的多路压缩方法流程图；

图6是本发明实施例对数据集的二路数据压缩过程示意图；

图7是本发明实施例对数据集的四路数据压缩过程示意图；

图8是本发明实施例对数据集的多路压缩装置的结构示意图；

图9是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

参见图4，图4是浮点数124.84和126.82的字节表示对比图，从图4可以看出，两个取值接近的浮点数，其尾数部分虽然相差很大，但是部分比特(bit) 位的数据却是完全相同或多数相同，重复度较高。

基于在数据波动幅度较小的数据集中，各数据中会有部分比特位的重复度较高的特点，本发明实施例中，在对数据集进行压缩时，考虑将数据集的各数据中重复度较高(高于预设阈值)的部分比特位和重复度较低(低于预设阈值) 的部分比特位区分开来，将数据集的各数据中每一重复度较高的连续多个比特位单独提取出来并拼接成一比特流，并采用压缩率较高的压缩算法对拼接而成的比特流进行压缩；将每一重复度较低的连续多个比特位单独提取出来并拼接成一比特流，并采用压缩速度较快的压缩算法对拼接而成的比特流进行压缩，从而可以在提高压缩率的同时还能够提高压缩速度。

在实际应用中，对于每一数据集，在对该数据集进行压缩之前，需要先分析确定该数据集中数据的哪些比特位范围的重复度较高，哪些比特位范围的重复度较低，然后才可以将数据集中各数据的对应于这些比特位范围的比特位数据提取出来并分别进行拼接和压缩。分析确定该数据集中数据的哪些比特位范围的重复度较高，哪些比特位范围的重复度较低的过程需要进行大量的数据计算，所需花费的时间非常大，因此，如果每次对数据集进行压缩之前都先执行一次上述操作(即确定数据集中数据的哪些比特位范围的重复度较高，哪些比特位范围的重复度较低)之后再根据分析结果进行数据压缩，则会使整个压缩过程花费时间过长，这显然是不可接受的。

为此，本发明实施例中，提出了一种深度学习方法，通过预先获取大量的数据集与多路压缩策略的对应关系，并将获取的对应关系进行训练生成分类模型，从而在进行数据集压缩时，只需通过分类模型即可确定待压缩数据集对应的多路压缩策略，从而减少分析确定数据集中数据的那些比特位范围的重复度较高，哪些比特位范围的重复度较低的过程中花费的时间，进而缩短整个压缩过程。

参见图5，图5是本发明实施例对数据集的多路压缩方法流程图，如图5所示，该方法包括以下步骤：

步骤501、预先获取数据集与多路压缩策略的对应关系，对获取的各数据集与多路压缩策略的对应关系进行训练，得到一分类模型。

本发明实施例中，同一数据集中的数据均属于同一基本数据类型，例如整形(int)、单精度浮点型(float)、双精度浮点型(double)等。数据集中的数据所属基本数据类型即为该数据集的数据类型。

本发明实施例中，所述多路压缩策略包括多个比特位范围和每一比特位范围对应的压缩算法；所述多个比特位范围的并集中的比特位数与对应于所述多路压缩策略的数据集的数据类型占用的比特位数一致(相同)。例如，某数据集的数据类型为单精度浮点型，该数据集对应的多路压缩策略中包括两个比特位范围，分别是第1至16比特位和第17至32比特位，两个比特位范围的并集为第1至32比特位，这与该数据集的数据类型(即单精度浮点型)占用32个比特位是一致的。

在实际实现中，数据集和多路压缩策略的对应关系，可以根据以往的数据集压缩经验获取，例如在以往对数据集进行压缩时，已经积累了大量数据集及适用于每一数据集的多路压缩策略，则可以将每一数据集与适用于该数据集的多路压缩策略建立起对应关系；也可以通过获取大量数据集并对每一数据集中的数据进行分析来获取，具体是通过分析每一数据集中的数据的各个比特位的取值，找出重复度较高的部分比特位和重复度较低的部分比特位，从而进行比特位范围划分并确定各比特位范围对应的压缩算法以得到该数据集对应的多路压缩策略。

本发明实施例中，通过获取大量数据集并对每一数据集中的数据进行分析来获取数据集与多路压缩策略的对应关系的方法具体包括以下步骤：

S1、获取数据集，并针对获取的每一数据集执行以下操作，以确定该数据集对应的多路压缩策略：

S2、确定该数据集中各数据的重复度高于预设阈值的连续多个比特位和重复度不高于预设阈值的连续多个比特位；

S3、将每一重复度高于预设阈值的连续多个比特位作为一个比特位范围，并确定该比特位范围对应的压缩算法为第一压缩算法；

S4、将每一重复度不高于预设阈值的连续比特位也作为一个比特位范围，并确定该比特位范围对应的压缩算法为第二压缩算法。

其中，上述步骤S2主要是通过将数据集中各数据的各比特位进行对比分析，找出重复度(连续多个比特位的重复度是指数据集中对应于该连续多个比特位的取值完全相同的数据总量与数据集的总数据量的比值)高于预设阈值的连续多个比特位和重复度不高于预设阈值的连续多个比特位，从而划分出多个比特位范围。例如，分析确定数据集中各数据的第17至32个比特位的重复度较高 (即数据集中对应于第17至32个比特位的取值相同的数据总量与数据集的总数据量的比值超过预设阈值，如超过95％)，则可以将这连续16个比特位划分到一个比特位范围，即[17，32]；数据集中各数据的第1至16个比特位的重复度较低(即数据集中对应于第1至16个比特位的取值相同的数据总量与数据集的总数据量的比值不超过预设阈值)，则可以将这连续16个比特位划分到一个比特位范围，即[1，16]。

本发明实施例中，对于重复度高于预设阈值的连续多个比特位，可采用压缩率较高的第一压缩算法，如gzip算法、zlib算法等进行压缩，例如，对于上述比特位范围[17，32]，由于数据集中各数据对应于该比特位范围[17，32]的重复度较高，因此可选择将gzip算法或zlib算法作为该比特位范围对应的压缩算法。对于重复度不高于预设阈值的连续多个比特位，可采用压缩速度较快的第二压缩算法，如lz4算法、哈夫曼编码算法等进行压缩。例如，对于上述比特位范围[1，16]，由于数据集中各数据对应于该比特位范围[1，16]的重复度较低，因此可选择将lz4算法或哈夫曼编码算法作为该比特位范围对应的压缩算法。本发明中，通过对重复度高的连续多个比特位和重复度低的连续多个比特位分别采用不用的压缩算法，可以兼顾到对数据集的压缩率和压缩速度。

本发明实施例中，通过上述步骤S1-S4可以确定获取的每一数据集对应的比特位范围划分，以及每一比特位范围对应的压缩算法，这些比特位范围和每一比特位范围对应的压缩算法即构成了该数据集对应的多路压缩策略。最终可得到大量的数据集与多路压缩策略的对应关系，并作为训练样本参与分类模型的训练。

步骤502、将待压缩数据集输入所述分类模型，得到待压缩数据集对应的多路压缩策略。

本发明中，由于所述分类模型是使用了大量的数据集与多路压缩策略的对应关系训练得到的，因此，在对某一待压缩数据集进行压缩之前，可以根据所述分类模型确定待压缩数据集对应的多路压缩策略。

步骤503、根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩。

本发明实施例中，所述根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩，具体包括：针对所述多路压缩策略中的每一比特位范围，将待压缩数据集中每一数据中对应于该比特位范围的比特位数据提取出来，将提取出的各比特位数据拼接起来形成一比特流，将该比特流按照该比特位范围对应的压缩算法进行压缩。

例如，待压缩数据集的特征信息对应的多路压缩策略中，包括两个比特位范围[17，32]和[1，16]，且比特位范围[17，32]和[1，16]对应的压缩算法分别是 gzip算法和lz4算法，则在对待压缩数据集进行压缩时，可以：

针对比特位范围[17，32]，将数据集中每个数据的第17至32个比特提取出来作为一个比特位数据，然后将这些比特位数据拼接起来形成一比特流，并使用比特位范围[17，32]对应的压缩算法，即gzip算法对此比特流进行压缩。

以及，

针对比特位范围[1，16]，将数据集中每个数据的第1至16个比特提取出来作为一个比特位数据，然后将这些比特位数据拼接起来形成一比特流，并使用比特位范围[1，16]对应的压缩算法，及lz4算法对此比特流进行压缩。

以下以冷冻电镜数据的数据集为例，对本发明实施例提供的方法进行举例说明。

在实际应用中，冷冻电镜数据的数据类型是单精度浮点型，而且冷冻电镜数据的数据集中数据的波动幅度较小。下面以最大波动幅度位于取值区间[0，64] 和[0，2]为例，对相应数据集的多路压缩过程进行举例说明。

冷冻电镜数据的数据集中数据的取值较大，并且波动范围相对较大，例如最大波动幅度位于区间[0，64]时，这种数据集中各数据的指数部分基本相同，重复度较高，而尾数部分的3个字节的差异较大，重复度较低，经过分类模型分类以后，其输出结果即该数据集对应的多路压缩策略中，包括两个比特位范围[25，32]和[1，24]，且比特位范围[25，32]和[1，24]对应的压缩算法分别为zlib 算法和lz4算法，输出结果表明需要对该数据集进行2路压缩，整个压缩过程如图6所示，将数据集中的每个数据的指数部分和尾数部分分别作为一路数据进行压缩，即：

将每个数据的尾数部分(第1至24比特)的24个比特提取出来，各数据的尾数部分被拼接成一个比特流并使用lz4压缩算法进行压缩；

将每个数据的指数部分(第25至32比特)的8个比特提取出来，各数据的指数部分被拼接成一个比特流并使用zlib压缩算法进行压缩。

当冷冻电镜数据的数据集中数据的取值较小，波动幅度也比较小，例如最大波动幅度位于取值区间[0，2]时，这种数据集中各数据的指数部分基本相同，重复度较高，而尾数部分的3个字节中，高位的字节大部分也基本相同，重复度较高，区别仅在于最低位的字节不同，经过分类模型分类以后，其输出结果即该数据集对应的多路压缩策略中，包括四个比特位范围[25，32]、[17，24]、 [9，16]和[1，8]，且比特位范围[25，32]、[17，24]、[9，16]对应的压缩算法是 zlib算法，比特位范围[1，8]对应的压缩算法是lz4算法，输出结果表明需要对该数据集进行4路压缩，整个压缩过程具体如图7所示，将数据集中的每个数据的每一字节作为一路数据进行压缩，即：

将每个数据的第一字节(第1至8比特)的8个比特提取出来，各数据的第一字节被拼接成一个比特流并使用lz4压缩算法进行压缩；

将每个数据的第二字节(第9至16比特)的8个比特提取出来，各数据的第二字节被拼接成一个比特流并使用zlib压缩算法进行压缩；

将每个数据的第三字节(第17至24比特)的8个比特提取出来，各数据的第三字节被拼接成一个比特流并使用zlib压缩算法进行压缩；

将每个数据的第四字节(第25至32比特)的8个比特提取出来，各数据的第四字节被拼接成一个比特流并使用zlib压缩算法进行压缩。

以上对本发明实施例对数据集的多路压缩方法进行了详细说明，本发明实施例还提供了一种对数据集的多路压缩装置，以下结合图8进行详细说明。

参见图8，图8是本发明实施例对数据集的多路压缩装置的结构示意图，如图8所示，该装置包括：

获取单元801，用于预先获取数据集与多路压缩策略的对应关系；

学习单元802，用于对获取单元801获取的各数据集与多路压缩策略的对应关系进行训练，得到一分类模型；

分类单元803，用于将待压缩数据集输入所述分类模型，得到待压缩数据集对应的多路压缩策略；

压缩单元804，用于根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩。

图8所示装置中，

所述多路压缩策略包括比特位范围和每一比特位范围对应的压缩算法；

所述获取单元801，获取数据集与多路压缩策略的对应关系，包括：

获取数据集，并针对获取的每一数据集执行以下操作，以确定该数据集对应的多路压缩策略：

确定该数据集中各数据的重复度高于预设阈值的连续多个比特位和重复度不高于预设阈值的连续多个比特位；

将每一重复度高于预设阈值的连续多个比特位作为一个比特位范围，并确定该比特位范围对应的压缩算法为第一压缩算法；

将每一重复度不高于预设阈值的连续比特位也作为一个比特位范围，并确定该比特位范围对应的压缩算法为第二压缩算法。

图8所示装置中，

所述第一压缩算法为gzip算法或zlib算法；

所述第二压缩算法为lz4算法或哈夫曼编码算法。

图8所示装置中，

所述压缩单元804，根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩，包括：

针对所述多路压缩策略中的每一比特位范围，将待压缩数据集中每一数据中对应于该比特位范围的比特位数据提取出来，将提取出的各比特位数据拼接起来形成一比特流，将该比特流按照该比特位范围对应的压缩算法进行压缩。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时可实现如图5所示的对数据集的多路压缩方法中的步骤。实际应用中，所述的计算机可读存储介质可以是上述实施例中描述的装置中所包含的，也可以是单独存在，而未装配入该装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，实现图5所示的对数据集的多路压缩方法中的步骤。

根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

本发明实施例还提供了一种电子设备，如图9所示，该电子设备包括计算机可读存储介质901、处理器902以及存储在计算机可读存储介质901上并可在处理器902上运行的计算机程序，所述处理器902执行所述程序时实现以下步骤：

实际应用中，图9所示电子设备可以是一台或多台计算机，只要包括上述计算机可读存储介质和处理器即可。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本申请公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种对数据集的多路压缩方法，其特征在于，该方法包括：

根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩；

其中，所述多路压缩策略包括比特位范围和每一比特位范围对应的压缩算法；

所述根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩，包括：

2.根据权利要求1所述的方法，其特征在于，

获取数据集与多路压缩策略的对应关系，包括：

3.根据权利要求2所述的方法，其特征在于，

所述第一压缩算法为gzip算法或zlib算法；

所述第二压缩算法为lz4算法或哈夫曼编码算法。

4.一种对数据集的多路压缩装置，其特征在于，该装置包括：

压缩单元，用于根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩；

所述压缩单元，根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩，包括：

5.根据权利要求4所述的装置，其特征在于，

所述获取单元，获取数据集与多路压缩策略的对应关系，包括：

6.根据权利要求5所述的装置，其特征在于，

所述第一压缩算法为gzip算法或zlib算法；

所述第二压缩算法为lz4算法或哈夫曼编码算法。

7.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时可实现权利要求1至3中任一项所述的对数据集的多路压缩方法中的步骤。

8.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

所述处理器，根据待压缩数据集对应的多路压缩策略，对待压缩数据集进行多路压缩，包括：