CN112527752A

CN112527752A - 数据压缩方法、装置、计算机可读存储介质及电子设备

Info

Publication number: CN112527752A
Application number: CN202011420383.XA
Authority: CN
Inventors: 王振江; 李建军; 赵卓然; 黄畅
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-19
Anticipated expiration: 2040-12-08
Also published as: US20220182072A1; CN112527752B; US11581903B2

Abstract

本公开实施例公开了一种数据压缩方法、装置、计算机可读存储介质及电子设备，其中，该方法包括：将待压缩数据集合中的数据转换为预设格式的二进制数据；基于二进制数据的各个比特位的排列顺序，从待压缩数据集合中的数据中确定待压缩位和有效位；基于有效位的位宽，确定待压缩数据集合对应的压缩位宽；基于压缩位宽，对待压缩数据集合中的数据进行压缩，得到压缩后数据集合；生成压缩后数据集合的属性信息。本公开实施例可以实现无需对二进制数据的各个比特位的顺序进行调整，按照各个比特位的排列顺序即可确定出有效位，简化了数据压缩的过程，提高了数据压缩的效率。

Description

数据压缩方法、装置、计算机可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种数据压缩方法、装置、计算机可读存储介质及电子设备。

背景技术

随着计算机技术的发展，大批量数据处理的场景越来越多，增大了对数据存储空间的需求。基于此，在进行数据存储时，通常需要对数据进行压缩处理。数据压缩是指在不丢失有用信息的前提下，缩减数据量以减少存储空间，以提高数据的传输效率，或者，按照一定的算法对数据进行重新组织，减少数据的冗余和存储的空间的一种技术方法。

例如目前的神经网络模型在处理数据的过程中，会生成大量的特征图(featuremap)，并且模型包含的权重、偏置量等参数的数据量也很大。因此，有必要对特征图和参数进行压缩。

发明内容

本公开的实施例提供了一种数据压缩方法、装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种数据压缩方法，该方法包括：将待压缩数据集合中的数据转换为预设格式的二进制数据；基于二进制数据的各个比特位的排列顺序，从待压缩数据集合中的数据中确定待压缩位和有效位；基于有效位的位宽，确定待压缩数据集合对应的压缩位宽；基于压缩位宽，对待压缩数据集合中的数据进行压缩，得到压缩后数据集合；生成压缩后数据集合的属性信息，其中，属性信息用于表征压缩后数据集合与待压缩数据集合的关联关系。

根据本公开实施例的另一个方面，提供了一种数据压缩装置，该装置包括：转换模块，用于将待压缩数据集合中的数据转换为预设格式的二进制数据；第一确定模块，用于基于二进制数据的各个比特位的排列顺序，从待压缩数据集合中的数据中确定待压缩位和有效位；第二确定模块，用于基于有效位的位宽，确定待压缩数据集合对应的压缩位宽；压缩模块，用于基于压缩位宽，对待压缩数据集合中的数据进行压缩，得到压缩后数据集合；第一生成模块，用于生成压缩后数据集合的属性信息，其中，属性信息用于表征压缩后数据集合与待压缩数据集合的关联关系。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述数据压缩方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述数据压缩方法。

基于本公开上述实施例提供的数据压缩方法、装置、计算机可读存储介质及电子设备，通过将待压缩数据集合中的数据转换为预设格式的二进制数据，基于二进制数据的各个比特位的排列顺序，从各个数据中确定待压缩位和有效位，基于各个有效位的位宽，确定待压缩数据集合对应的压缩位宽，基于压缩位宽进行数据压缩，得到压缩后数据集合并生成压缩后数据集合的属性信息，从而实现了无需对二进制数据的各个比特位的顺序进行调整，按照各个比特位的排列顺序即可确定出有效位，简化了数据压缩的过程，提高了数据压缩的效率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的数据压缩方法的流程示意图。

图3是本公开另一示例性实施例提供的数据压缩方法的流程示意图。

图4是本公开又一示例性实施例提供的数据压缩方法的流程示意图

图5是本公开一示例性实施例提供的数据压缩装置的结构示意图。

图6是本公开另一示例性实施例提供的数据压缩装置的结构示意图。

图7是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

目前的数据压缩方法包括：

1、基于掩码数据的压缩方法。该方法设置一个掩码数据zeromask。对于M字节的数据，用zeromask中的M个比特位标记为0的数据，只保存不是0的数据。该方法无法对不是0的数据进行进一步压缩。

2、短整数压缩方法。它的原理是feature map里的数值大多绝对值比较小。例如int8的feature map，有很多数字都在[-15，15]之间，那么可以只用5bit保存这些数据，不必采用8bit。该方法通常需要将符号位移动到最低位，造成压缩过程复杂，效率较低。

示例性系统

图1示出了可以应用本公开的实施例的数据压缩方法或数据压缩装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如图像处理应用、视频播放应用、搜索类应用、网页浏览器应用、购物类应用、即时通信工具等。

终端设备101可以是各种电子设备，包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的图像、文本等各类数据进行处理的后台服务器。后台服务器可以对接收到的数据进行各种方式的处理，在处理过程中将获得的数据(例如神经网络生成的特征图、神经网络的参数)进行压缩，得到压缩后的数据。

需要说明的是，本公开的实施例所提供的数据压缩方法可以由服务器103执行，也可以由终端设备101执行，相应地，数据压缩装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在待压缩数据集合不需要从远程获取的情况下，上述系统架构可以不包括网络，只包括服务器或终端设备。

示例性方法

图2是本公开一示例性实施例提供的数据压缩方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：

步骤201，将待压缩数据集合中的数据转换为预设格式的二进制数据。

在本实施例中，电子设备可以将待压缩数据集合中的数据转换为预设格式的二进制数据。其中，待压缩数据集合中的数据可以是各种类型的数据。例如神经网络运行过程中产生的特征数据，或者神经网络包括的各种参数等。上述预设格式可以是各种格式，例如，可以是补码形式的二进制数据。

步骤202，基于二进制数据的各个比特位的排列顺序，从待压缩数据集合中的数据中确定待压缩位和有效位。

在本实施例中，电子设备可以基于二进制数据的各个比特位的排列顺序，从待压缩数据集合中的数据中确定待压缩位和有效位。其中，有效位是可以表示真实数值的比特位。作为示例，待压缩位可以是从最高位开始连续排列且数值相同的比特位。例如十进制数字9，其补码形式的二进制数据为00001001，高3位都是0，则可以将0省略，保留低5位01001为有效位，其中最高位上的0为符号位。再例如，十进制数字-3，其补码形式的二进制数据为11111101，高5位都是1，则可以将1省略，保留低3位101为有效位，其中最高位1为符号位。

步骤203，基于有效位的位宽，确定待压缩数据集合对应的压缩位宽。

在本实施例中，电子设备可以基于有效位的位宽，确定待压缩数据集合对应的压缩位宽。通常，可以从确定的各个有效位的位宽中，将最大位宽确定为待压缩数据集合对应的压缩位宽。例如，十进制数字9的有效位为01001，该有效位的位宽是各个数据对应的有效位的位宽中的最大位宽，则待压缩数据集合对应的压缩位宽为5。

步骤204，基于压缩位宽，对待压缩数据集合中的数据进行压缩，得到压缩后数据集合。

在本实施例中，电子设备可以基于压缩位宽，对待压缩数据集合中的数据进行压缩，得到压缩后数据集合。例如，如果某个数据的有效位的位宽小于压缩位宽，可以在该数据的有效位前补若干个符号位，使新的二进制数据的位宽等于上述压缩位宽。例如，假设压缩位宽为5，对于十进制数-3对应的有效位101，可以在其最高位前补2个符号位，得到压缩后数据11101。

步骤205，生成压缩后数据集合的属性信息。

在本实施例中，电子设备可以生成压缩后数据集合的属性信息。其中，属性信息用于表征压缩后数据集合与待压缩数据集合的关联关系。电子设备可以基于属性信息，对压缩后数据集合进行解压缩，得到原始数据集合(即上述待压缩数据集合)。

可选的，属性信息可以包括上述压缩位宽，即步骤205可以包括：生成表征压缩位宽的第一属性信息。作为示例，可以根据压缩位宽，确定记录压缩位宽的数据占用的比特位数，在该占用的比特位上设置压缩位宽。例如，压缩位宽为5，则设置三个比特位用于记录压缩位宽，即二进制数101。通过将压缩位宽设置为第一属性信息，可以在对压缩后数据集合解压缩时，根据压缩位宽从压缩后数据集合中确定每个数据的边界，从而有助于准确地得到还原后的数据。

本公开的上述实施例提供的方法，通过将待压缩数据集合中的数据转换为预设格式的二进制数据，基于二进制数据的各个比特位的排列顺序，从各个数据中确定待压缩位和有效位，基于各个有效位的位宽，确定待压缩数据集合对应的压缩位宽，基于压缩位宽进行数据压缩，得到压缩后数据集合并生成压缩后数据集合的属性信息，从而实现了无需对二进制数据的各个比特位的顺序进行调整，按照各个比特位的排列顺序即可确定出有效位，简化了数据压缩的过程，提高了数据压缩的效率。

在一些可选的实现方式中，上述步骤202可以如下执行：

对于待压缩数据集合中的数据，基于该数据对应的二进制数据的各个比特位的排列顺序，从该数据中依次确定符合预设的压缩条件的比特位作为待压缩位，将该数据对应的二进制数据中的除待压缩位以外的比特位确定为有效位。例如，可以从二级制数据的最高位开始，依次确定每个比特位是否满足压缩条件。上述压缩条件用于确定哪些比特位可以被去除。压缩条件可以任意设置，例如根据待压缩数据集合中是否均为非负数，设置不同的压缩条件。例如待压缩数据集合中均为非负数时，确定与符号位相同且位于符合位之后连续排列的各个比特位符合压缩条件。通过设置压缩条件，可以更灵活地确定二进制数据中哪些是有效位，哪些是可以压缩的位，从而提高了数据压缩的灵活性，使数据压缩方法可以适应更多的应用场景。

在一些可选的实现方式中，电子设备可以按照如下步骤描述的压缩条件确定待压缩位和有效位：

如果待压缩数据集合的类型为第一类型，根据预设遍历顺序，依次将该数据对应的二进制数据的各个比特位与目标比特位比较，将与目标比特位相同的比特位确定为待压缩位，直到当前比特位与目标比特位不同时，将当前位之后的比特位确定为有效位。

其中，第一类型表示待压缩数据集合中的每个数据无需使用符号位表示。目标比特位可以是最高位。例如，十进制数字9的二进制补码为00001001，从最高位开始，依次将数值为0的比特位确定为待压缩位，直到当前比特位为0，且0之后为1时，将当前比特位0之后的比特位1001确定为有效位。当待压缩数据集合为第一类型时，无需使用符号位，可以使压缩后数据占用的存储空间更小。

如果待压缩数据集合的类型为第二类型，根据预设遍历顺序，依次将该数据对应的二进制数据的各个比特位与目标比特位比较，将与目标比特位相同的比特位确定为待压缩位，直到位于当前比特位之后且与当前比特位相邻的比特位与目标比特位不同时，将当前比特位和当前比特位之后比特的位确定为有效位。

其中，第二类型表示待压缩数据集合中的每个数据需要使用符号位表示。目标比特位可以是最高位。例如，十进制数字-3的二进制补码为11111101，从最高位开始，依次将数值为1的比特位确定为待压缩位，直到当前比特位为1，且1之后为0时，将当前比特位1和当前比特位之后的比特位01确定为有效位，即101。

需要说明的是，对于十进制数字0，无论待压缩数据集合属于何种类型，其有效位均为0，有效位的位宽为1。

作为示例，假设待压缩数据集合包括8个数据，分别是0，1，-3，0，-2，9，0，-7，则待压缩数据集合的类型为第二类型，对这些数据压缩的形式如下表所示：

数字	补码表示	有效位	有效位的位宽
				0	0000 0000	0	1
1	0000 0001	01	2
				-3	1111 1101	101	3
0	0000 0000	0	1
				-2	1111 1110	10	2
9	0000 1001	01001	5
				0	0000 0000	0	1
-7	1111 1001	1001	4

本实现方式通过对不同类型的待压缩数据集合设置不同的压缩条件，可以对不同类型的待压缩数据集合进行不同方式的压缩，从而实现了更灵活地数据压缩，在待压缩数据集合为第一类型的情况下，可以进一步降低压缩后的数据占用的存储空间。

在一些可选的实现方式中，如图3所示，在上述步骤201之后，电子设备还可以基于如下步骤确定待压缩数据集合的类型：

步骤2011，确定待压缩数据集合中的数据是否为无符号数据。

其中，无符号数据为无需使用符号位表示数据的正负的数据。如果确定待压缩数据集合中的数据是无符号数据，执行步骤2012。如果确定待压缩数据集合中的数据是有符号数据，执行步骤2013。

步骤2012，确定待压缩数据集合的类型为第一类型。

即，待压缩数据集合中的每个数据为无符号数据时，无需使用符号位，此时的有效位无需包括符号位，压缩后数据占用的存储空间更小。

步骤2013，确定待压缩数据集合中的数据的符号位是否相同。

如果相同，执行步骤2014，如果不同，执行步骤2015。

步骤2014，确定待压缩数据集合的类型为第一类型。

此时待压缩数据集合中的数据虽然是有符号数据，但由于各个数据的符号位均相同，因此，有效位可以不包括符号位，压缩后数据占用的存储空间更小。例如，当待压缩数据集合中的数据均为正数时，有效位可以不包括符号位0。例如，十进制数字9对应的压缩后数据为1001。

步骤2015，确定待压缩数据集合的类型为第二类型。

此时待压缩数据集合中的数据需要保留符号位。例如，十进制数字9对应的压缩后数据为01001。

本实现方式通过确定待压缩数据集合中的数据是否为无符号数据，可以实现基于数据的符号对待压缩数据集合进行分类，从而有助于更灵活地进行数据压缩，进一步降低压缩后数据占用的存储空间。

在一些可选的实现方式中，电子设备可以进一步生成用于表征待压缩数据集合的类型的第二属性信息，即，第二属性信息用于表征待压缩数据集合的类型。作为示例，可以用数字0表示第一类型，即有效位可以不包括符号位，数字1表示第二类型，即有效位需要包括符号位。本实现方式提供的第二属性信息，可以在对压缩后数据集合解压缩时，根据第二属性信息确定压缩后数据是否包括符号位，从而有助于更准确地将压缩后数据还原为原始数据。

在一些可选的实现方式中，如果所述待压缩数据集合的类型为第一类型且为有符号数，且没有预先指定所述第一类型对应的符号，生成用于表征所述第一类型对应的符号位的第五属性信息。作为示例，如果预先没有指定第一类型对应的符号位，即第一类型对应的符号可能为0，也可能为1，则二进制数据00000001和11111101在压缩位宽是2的情况下，均被压缩成01，为了能够区别数据的正负，则可以进一步生成第五属性信息(例如用数字0表示第一类型对应的符号位为0，用数字1表示第一类型对应的符号位为1)。

如果所述待压缩数据集合的类型为第一类型且为有符号数，且预先指定了所述第一类型对应的符号位，省略所述第五属性信息。作为示例，如果预先指定了：在待压缩数据集合中的数据均为有符号数据且为非负数时，符号位被压缩。则此时可以将第五属性信息省略，默认被压缩的符号位为0，从而可以进一步使属性信息包括的内容更少提高数据的压缩比例。

进一步参考图4，示出了数据压缩方法的又一个实施例的流程示意图。如图4所示，该数据压缩方法还可以包括如下步骤：

步骤401，确定待压缩数据集合是否符合预设的掩码设置条件。

其中，掩码设置条件用于确定待压缩数据集合中哪些数据被去除。

步骤402，如果符合，生成掩码数据。

其中，掩码数据用于标记待压缩数据集合中的预设值数据。作为示例，预设值数据可以为0，掩码数据中的每个比特位对应于一个数据，用于表示对应的数据是否为0。例如，掩码数据为11111100，其中的两个0表示则待压缩数据中有两个数据为0。

步骤403，基于掩码数据，将待压缩数据集合中的预设值数据去除。

继续上述示例，掩码数据中的两个0对应的数据可以从待压缩数据集合中去除。

需要说明的是，当待压缩数据集合不符合掩码设置条件时，待压缩数据集合中的预设值数据需要保留且被压缩，例如十进制数据0的二进制形式为00000000，其有效位为0，有效位的位宽为1。

图4对应实施例描述的方法，通过设置掩码数据，可以将待压缩数据集合中的预设值数据去除，从而可以进一步对数据进行压缩，进一步降低压缩后数据占用的存储空间。

在一些可选的实现方式中，在上述步骤401中，电子设备可以基于如下两种方式中的至少一种，确定待压缩数据集合是否符合掩码设置条件：

方式一，确定待压缩数据集合中的预设值数据的数量，基于数量和预设数量，确定待压缩数据集合是否符合预设的掩码设置条件。

其中，预设值可以是任意指定的数值，通常，预设值可以为0，即确定待压缩数据中数值为0的数据的数量。预设数量可以是基于待压缩数据集合包括的数据的总字节数确定的。作为示例，预设数量可以为M/8，其中，M为待压缩数据集合包括的数据的总字节数。掩码设置条件为：数据0的数量大于M/8。假设M＝64，则需要8字节的掩码数据。当数据0的数量大于8个时，符合掩码设置条件，此时可以设置掩码。若数据0的数量小于或等于8个，则去除数据0后节省下来的存储空间小于或等于掩码数据占用的存储空间，此时没有必要设置掩码数据。

方式二，根据预先生成的用于表征是否生成掩码数据的指令，确定是否符合预设的掩码设置条件。其中，指令是在得到待压缩数据集合之前，对待压缩数据中的预设值数据进行预估而生成的。

作为示例，当待压缩数据集合为神经网络生成的特征图中的数据时，如果待压缩数据为经过诸如ReLU、LeakyReLU等激活函数生成的，则可以在生成待压缩数据前(例如在编译时)生成用于指示生成掩码数据的指令。电子设备如果检测到该指令，确定符合掩码设置条件。具体地，诸如ReLU这种激活函数，是把所有负数都变成0，那么其中0的个数必然很多，若待压缩数据集合由这种激活函数得到，则需要设置掩码数据。再例如LeakyReLU激活函数，负数不是直接改成0，而是乘一个[0,1]区间的小数，那么也同样会使得若干负数变成0，可以依据0的数量确定是否需要设置掩码数据。

本实现方式提供的两种掩码设置条件，可以根据待压缩数据集合中的预设值数据的数量或在生成待压缩数据集合之前对预设值的数量进行预估，从而灵活地确定是否需要设置掩码数据，有助于根据待压缩数据集合的实际情况，灵活地对数据进行压缩。

在一些可选的实现方式中，在上述方式一中，电子设备还可以生成表征压缩后数据集合是否具有对应的掩码数据的第三属性信息，即，第三属性信息用于表示压缩后数据集合是否具有对应的掩码数据。作为示例，可以用数字1表示需要使用掩码数据，数字0表示不需要使用掩码数据。需要说明的是，如果是根据上述方式二中的指令确定是否需要生成掩码数据时，由于指令是在生成待压缩数据集合之前生成的，因此，在解压缩时根据指令即可判断是否使用了掩码数据，无需生成第三属性信息。

本实现方式提供的第三属性信息，可以在对压缩后数据集合解压缩时，根据第三属性信息确定压缩后数据是否包括掩码数据，从而可以在使用掩码数据的情况下，准确地从压缩后数据中提取掩码数据进行解压缩，从而有助于更准确地将压缩后数据还原为原始数据。

在一些可选的实现方式中，在步骤402之后，电子设备还可以基于掩码数据确定待压缩数据的第四属性信息。具体地，可以将掩码数据确定为第四属性信息，从而在对压缩后数据解压缩时，根据第四属性信息将预设值数据还原，有助于更准确地将压缩后数据还原为原始数据。

在一些可选的实现方式中，在上述图2对应实施例的步骤205之后，电子设备还可以基于压缩后数据集合和属性信息，生成压缩后数据包。其中，压缩后数据包可以用于对压缩后数据集合的存储或传输，当需要对压缩后数据集合解压时，可以从压缩后数据包中提取属性信息，基于属性信息对压缩后数据解压。

作为示例，压缩后数据包的形式可以如下表所示：

本实现方式生成的压缩后数据包，可以便于压缩后数据的存储或传输，可以在对压缩后数据解压时，基于属性信息准确地将数据还原，在提高数据压缩性能的基础上，保证解压缩的准确性。

示例性装置

图5是本公开一示例性实施例提供的数据压缩装置的结构示意图。本实施例可应用在电子设备上，如图5所示，数据压缩装置包括：转换模块501，用于将待压缩数据集合中的数据转换为预设格式的二进制数据；第一确定模块502，用于基于二进制数据的各个比特位的排列顺序，从待压缩数据集合中的数据中确定待压缩位和有效位；第二确定模块503，用于基于有效位的位宽，确定待压缩数据集合对应的压缩位宽；压缩模块504，用于基于压缩位宽，对待压缩数据集合中的数据进行压缩，得到压缩后数据集合；第一生成模块505，用于生成压缩后数据集合的属性信息，其中，属性信息用于表征压缩后数据集合与待压缩数据集合的关联关系。

在本实施例中，转换模块501可以将待压缩数据集合中的数据转换为预设格式的二进制数据。其中，待压缩数据集合中的数据可以是各种类型的数据。例如神经网络运行过程中产生的特征数据，或者神经网络包括的各种参数等。上述预设格式可以是各种格式，例如，可以是补码形式的二进制数据。

在本实施例中，第一确定模块502可以基于二进制数据的各个比特位的排列顺序，从待压缩数据集合中的数据中确定待压缩位和有效位。其中，有效位是可以表示真实数值的比特位。作为示例，待压缩位可以是从最高位开始连续排列且数值相同的比特位。例如十进制数字9，其补码形式的二进制数据为00001001，高3位都是0，则可以将0省略，保留低5位01001为有效位，其中最高位上的0为符号位。再例如，十进制数字-3，其补码形式的二进制数据为11111101，高5位都是1，则可以将1省略，保留低3位101为有效位，其中最高位1为符号位。

在本实施例中，第二确定模块503可以基于有效位的位宽，确定待压缩数据集合对应的压缩位宽。通常，可以从确定的各个有效位的位宽中，将最大位宽确定为待压缩数据集合对应的压缩位宽。例如，十进制数字9的有效位为01001，该有效位的位宽是各个数据对应的有效位的位宽中的最大位宽，则待压缩数据集合对应的压缩位宽为5。

在本实施例中，压缩模块504可以基于压缩位宽，对待压缩数据集合中的数据进行压缩，得到压缩后数据集合。例如，如果某个数据的有效位的位宽小于压缩位宽，可以在该数据的有效位前补若干个符号位，使新的二进制数据的位宽等于上述压缩位宽。例如，假设压缩位宽为5，对于十进制数-3对应的有效位101，可以在其最高位前补2个符号位，得到压缩后数据11101。

在本实施例中，第一生成模块505可以生成压缩后数据集合的属性信息。其中，属性信息用于表征压缩后数据集合与待压缩数据集合的关联关系。第一生成模块505可以基于属性信息，对压缩后数据集合进行解压缩，得到原始数据集合(即上述待压缩数据集合)。

参照图6，图6是本公开另一示例性实施例提供的数据压缩装置的结构示意图。

在一些可选的实现方式中，第一确定模块502可以包括：确定单元5021，用于对于待压缩数据集合中的数据，基于该数据对应的二进制数据的各个比特位的排列顺序，从该数据中依次确定符合预设的压缩条件的比特位作为待压缩位，将该数据对应的二进制数据中的除待压缩位以外的比特位确定为有效位。

在一些可选的实现方式中，第一生成模块505可以进一步用于：生成表征压缩位宽的第一属性信息。

在一些可选的实现方式中，确定单元5021可以包括：第一确定子单元50211，用于如果待压缩数据集合的类型为第一类型，根据预设遍历顺序，依次将该数据对应的二进制数据的各个比特位与目标比特位比较，将与目标比特位相同的比特位确定为待压缩位，直到当前比特位与目标比特位不同时，将当前位之后的比特位确定为有效位；第二确定子单元50212，用于如果待压缩数据集合的类型为第二类型，根据预设遍历顺序，依次将该数据对应的二进制数据的各个比特位与目标比特位比较，将与目标比特位相同的比特位确定为待压缩位，直到位于当前比特位之后且与当前比特位相邻的比特位与目标比特位不同时，将当前比特位和当前比特位之后比特的位确定为有效位。

在一些可选的实现方式中，该装置还可以包括：第三确定模块506，用于确定待压缩数据集合中的数据是否为无符号数据；第四确定模块507，用于如果待压缩数据集合中的数据为无符号数据，确定待压缩数据集合的类型为第一类型；第五确定模块508，用于如果待压缩数据集合中的数据为有符号数据，且待压缩数据集合中的数据的符号位不同，确定待压缩数据集合的类型为第二类型；第六确定模块509，用于如果待压缩数据集合中的数据为有符号数据，且待压缩数据集合中的数据的符号位相同，确定待压缩数据集合的类型为第一类型。

在一些可选的实现方式中，第一生成模块505可以进一步用于：生成用于表征待压缩数据集合的类型的第二属性信息。

在一些可选的实现方式中，如果待压缩数据集合的类型为第一类型且为有符号数，且没有预先指定第一类型对应的符号位，生成用于表征第一类型对应的符号的第五属性信息；如果待压缩数据集合的类型为第一类型且为有符号数，且预先指定了第一类型对应的符号位，省略第五属性信息。

在一些可选的实现方式中，该装置还可以包括：第七确定模块510，用于确定待压缩数据集合是否符合预设的掩码设置条件；第二生成模块511，用于如果符合，生成掩码数据，其中，掩码数据用于标记待压缩数据集合中的预设值数据；去除模块512，用于基于掩码数据，将待压缩数据集合中的预设值数据去除。

在一些可选的实现方式中，第七确定模块510可以包括：第一确定单元5101，用于确定待压缩数据集合中的预设值数据的数量，基于数量和预设数量，确定待压缩数据集合是否符合预设的掩码设置条件；第二确定单元5102，用于根据预先生成的用于表征是否生成掩码数据的指令，确定是否符合预设的掩码设置条件，其中，指令是在得到待压缩数据集合之前，对待压缩数据中的预设值数据进行预估而生成的。

在一些可选的实现方式中，第一生成模块505可以进一步用于：生成表征压缩后数据集合是否具有对应的掩码数据的第三属性信息。

在一些可选的实现方式中，第一生成模块505可以进一步用于：基于掩码数据确定待压缩数据的第四属性信息。

在一些可选的实现方式中，该装置还可以包括：第三生成模块513，用于基于压缩后数据集合和属性信息，生成压缩后数据包。

本公开上述实施例提供的数据压缩装置，通过将待压缩数据集合中的数据转换为预设格式的二进制数据，基于二进制数据的各个比特位的排列顺序，从各个数据中确定待压缩位和有效位，基于各个有效位的位宽，确定待压缩数据集合对应的压缩位宽，基于压缩位宽进行数据压缩，得到压缩后数据集合并生成压缩后数据集合的属性信息，从而实现了无需对二进制数据的各个比特位的顺序进行调整，按照各个比特位的排列顺序即可确定出有效位，简化了数据压缩的过程，提高了数据压缩的效率。

示例性电子设备

下面，参考图7来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图7图示了根据本公开实施例的电子设备的框图。

如图7所示，电子设备700包括一个或多个处理器701和存储器702。

处理器701可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备700中的其他组件以执行期望的功能。

存储器702可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器701可以运行程序指令，以实现上文的本公开的各个实施例的数据压缩方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如待压缩数据集合等各种内容。

在一个示例中，电子设备700还可以包括：输入装置703和输出装置704，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置703可以是鼠标、键盘等设备，用于输入待压缩数据集合。在该电子设备是单机设备时，该输入装置703可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的待压缩数据集合。

该输出装置704可以向外部输出各种信息，包括压缩后数据集合。该输出设备704可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备700中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备700还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据压缩方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的数据压缩方法中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种数据压缩方法，包括：

将待压缩数据集合中的数据转换为预设格式的二进制数据；

基于所述二进制数据的各个比特位的排列顺序，从所述待压缩数据集合中的数据中确定待压缩位和有效位；

基于所述有效位的位宽，确定所述待压缩数据集合对应的压缩位宽；

基于所述压缩位宽，对所述待压缩数据集合中的数据进行压缩，得到压缩后数据集合；

生成所述压缩后数据集合的属性信息，其中，所述属性信息用于表征所述压缩后数据集合与所述待压缩数据集合的关联关系。

2.根据权利要求1所述的方法，其中，所述基于所述二进制数据的各个比特位的排列顺序，从所述待压缩数据集合中的数据中确定待压缩位和有效位，包括：

对于所述待压缩数据集合中的数据，基于该数据对应的二进制数据的各个比特位的排列顺序，从该数据中依次确定符合预设的压缩条件的比特位作为待压缩位，将该数据对应的二进制数据中的除待压缩位以外的比特位确定为有效位。

3.根据权利要求1所述的方法，其中，所述生成所述压缩后数据集合的属性信息，包括：

生成表征所述压缩位宽的第一属性信息。

4.根据权利要求2所述的方法，其中，所述基于该数据对应的二进制数据的各个比特位的排列顺序，从该数据中依次确定符合预设的压缩条件的比特位作为待压缩位，将该数据对应的二进制数据中的除待压缩位以外的比特位确定为有效位，包括：

如果所述待压缩数据集合的类型为第一类型，根据预设遍历顺序，依次将该数据对应的二进制数据的各个比特位与目标比特位比较，将与所述目标比特位相同的比特位确定为待压缩位，直到当前比特位与所述目标比特位不同时，将所述当前位之后的比特位确定为有效位；

如果所述待压缩数据集合的类型为第二类型，根据预设遍历顺序，依次将该数据对应的二进制数据的各个比特位与目标比特位比较，将与所述目标比特位相同的比特位确定为待压缩位，直到位于当前比特位之后且与所述当前比特位相邻的比特位与所述目标比特位不同时，将所述当前比特位和所述当前比特位之后比特的位确定为有效位。

5.根据权利要求4所述的方法，其中，在所述将待压缩数据集合中的数据转换为预设格式的二进制数据之后，所述方法还包括：

确定所述待压缩数据集合中的数据是否为无符号数据；

如果所述待压缩数据集合中的数据为无符号数据，确定所述待压缩数据集合的类型为第一类型；

如果所述待压缩数据集合中的数据为有符号数据，且所述待压缩数据集合中的数据的符号位不同，确定所述待压缩数据集合的类型为第二类型；

如果待压缩数据集合中的数据为有符号数据，且所述待压缩数据集合中的数据的符号位相同，确定所述待压缩数据集合的类型为第一类型。

6.根据权利要求1所述的方法，其中，所述方法还包括：

确定所述待压缩数据集合是否符合预设的掩码设置条件；

如果符合，生成掩码数据，其中，所述掩码数据用于标记所述待压缩数据集合中的预设值数据；

基于所述掩码数据，将所述待压缩数据集合中的预设值数据去除。

7.根据权利要求6所述的方法，其中，所述确定所述待压缩数据集合是否符合预设的掩码设置条件，包括：

确定所述待压缩数据集合中的预设值数据的数量，基于所述数量和预设数量，确定所述待压缩数据集合是否符合预设的掩码设置条件；和/或

根据预先生成的用于表征是否生成掩码数据的指令，确定是否符合预设的掩码设置条件，其中，所述指令是在得到所述待压缩数据集合之前，对所述待压缩数据中的预设值数据进行预估而生成的。

8.一种数据压缩装置，包括：

转换模块，用于将待压缩数据集合中的数据转换为预设格式的二进制数据；

第一确定模块，用于基于所述二进制数据的各个比特位的排列顺序，从所述待压缩数据集合中的数据中确定待压缩位和有效位；

第二确定模块，用于基于所述有效位的位宽，确定所述待压缩数据集合对应的压缩位宽；

压缩模块，用于基于所述压缩位宽，对所述待压缩数据集合中的数据进行压缩，得到压缩后数据集合；

第一生成模块，用于生成所述压缩后数据集合的属性信息，其中，所述属性信息用于表征所述压缩后数据集合与所述待压缩数据集合的关联关系。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的方法。