CN112559462A

CN112559462A - 一种数据压缩方法、装置、计算机设备和存储介质

Info

Publication number: CN112559462A
Application number: CN202011467509.9A
Authority: CN
Inventors: 傅川岳; 邱凯翔; 张书辉; 徐刚; 黄楷敏; 严亮
Original assignee: Shenzhen Power Supply Co ltd
Current assignee: Shenzhen Power Supply Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-26
Anticipated expiration: 2040-12-14
Also published as: CN112559462B

Abstract

本申请涉及一种数据压缩方法、装置、计算机设备和存储介质。所述方法包括：获取待压缩的初始源文件；按照初始源文件中的多条源数据中出现的各键名的频次，分别对各条源数据的键名进行编码，将相应的键名转化为对应的编码序列；基于编码序列对初始源文件进行更新，得到第一中间压缩文件；对第一中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件；采用串表压缩方式对第二中间压缩文件进行编码压缩处理，得到与初始源文件对应的目标压缩文件。本方法采用串表压缩方式对第二中间压缩文件做进一步的压缩，基于串表压缩方式的加密性质，在兼顾压缩率的同时，也能够保证数据私密性。

Description

一种数据压缩方法、装置、计算机设备和存储介质

技术领域

本申请涉及字符串数据处理技术领域，特别是涉及一种数据压缩方法、装置、计算机设备和存储介质。

背景技术

无人机因其携带方便、操作简单、反应迅速、载荷丰富、任务用途广泛、起飞降落对环境的要求低和自主飞行等几大优点，近年来愈发广泛的应用于变电站设备的巡检场景中。然而，由于上述巡检场景所需用到的巡检系统，该系统构件复杂，组成该系统的相关智能硬件数量往往达到数十个之多。并且，为了达到更好的巡检效果，还需要保持高频次的巡检。另外，为了使得记录得到的巡检设备信息能够保持可追溯状态，需要以较小的时间粒度记录详尽的设备信息，如此带来的就是海量高密度数据的快速累计。因此，为上述巡检场景设计一套特定的数据处理协议、压缩算法，以减小存储、传输成本的需求就很有必要，但在此场景下，由于变电站数据量庞大、且对安全性要求较高，传统的压缩算法往往无法同时兼顾压缩率和安全性的相关要求。

发明内容

基于此，有必要针对上述技术问题，提供一种能够同时兼顾压缩率和安全性的数据压缩方法、装置、计算机设备和存储介质。

一种数据压缩方法，所述方法包括：

获取待压缩的初始源文件，所述初始源文件中包括有多条源数据，每条源数据均通过键值对的格式进行存储；

按照所述初始源文件中的多条源数据中出现的各键名的频次，分别对各条源数据的键名进行编码，且编码过程中，按照相应键名的频次所对应的编码长度，将相应的键名转化为对应的编码序列；

基于所述编码序列对所述初始源文件进行更新，得到第一中间压缩文件；

对所述第一中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件；

采用串表压缩方式对所述第二中间压缩文件进行编码压缩处理，得到与所述初始源文件对应的目标压缩文件。

在其中一个实施例中，所述按照所述初始源文件中的多条源数据中出现的各键名的频次，分别对各条源数据的键名进行编码，且编码过程中，按照相应键名的频次所对应的编码长度，将相应的键名转化为对应的编码序列，包括：

对所述初始源文件中存储的各条源数据进行遍历，并在遍历结束后，针对遍历到的各项键名，分别计算相应键名的总遍历次数；

分别对遍历到的各项键名进行编码处理，且编码的过程中，基于所述总遍历次数进行编码长度的设置；

按照对应设置的编码长度将相应键名转化为编码序列；其中，每个编码序列中均包括多个编码字符，所述编码字符的个数与预设的编码长度相适应。

在其中一个实施例中，所述对所述中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件，包括：

对所述中间压缩文件中存储的各项数据均采用以下步骤进行遍历：

将当前遍历的数据与上次遍历的数据进行键值比对，基于键与键，以及值与值之间的差异，确定两条数据之间的不同键值对数；

当所述不同键值对数小于等于预设的合并阈值时，则确定当前遍历的数据与上次遍历的数据为重复数据，并进行重复数据的合并；否则，进入到下一次的遍历过程，直到完成对所述中间压缩文件中所有重复数据的去重合并处理。

在其中一个实施例中，所述采用串表压缩方式对所述第二中间压缩文件进行编码压缩处理，得到与所述初始源文件对应的目标压缩文件，包括：

基于ASCII表-单字节字符编码表进行第一初始表的创建；

基于所述第二中间压缩文件中各键名与相应编码序列之间的映射关系，建立映射表；

将所述映射表合并到所述第一初始表中，得到第二初始表；

采用串表压缩方式，并基于所述第二初始表对所述第二中间压缩文件进行编码压缩处理，得到目标压缩文件。

在其中一个实施例中，所述目标压缩文件用于传输至客户端，所述方法还包括：

通过所述客户端获取利用公钥加密后的第二初始表以及目标压缩文件；

通过所述客户端使用与所述公钥相适应的私钥对当前获取到的第二初始表进行解密；

通过所述客户端基于解密后的第二初始表，按照目标压缩文件的压缩逆过程，对所述目标压缩文件进行解密，以进行初始源文件的还原。

在其中一个实施例中，所述采用串表压缩方式对所述第二中间压缩文件进行编码压缩处理，得到与所述初始源文件对应的目标压缩文件之前，所述方法还包括：

当所述第二中间压缩文件中存在冗余数据时，进行冗余数据的去除。

在其中一个实施例中，所述初始源文件为无人机在电力巡检区域进行电力设备巡检的过程中，记录生成的设备状态文件。

一种数据压缩装置，所述装置包括：

数据获取模块，用于获取待压缩的初始源文件，所述初始源文件中包括有多条源数据，每条源数据均通过键值对的格式进行存储；

编码模块，用于按照所述初始源文件中的多条源数据中出现的各键名的频次，分别对各条源数据的键名进行编码，且编码过程中，按照相应键名的频次所对应的编码长度，将相应的键名转化为对应的编码序列；

更新模块，用于基于所述编码序列对所述初始源文件进行更新，得到第一中间压缩文件；

合并去重模块，用于对所述第一中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件；

编码压缩模块，用于采用串表压缩方式对所述第二中间压缩文件进行编码压缩处理，得到与所述初始源文件对应的目标压缩文件。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述数据压缩方法、装置、计算机设备和存储介质，一方面基于初始源文件中的多条源数据中出现的各键名的频次，将相应的键名转化为占用字节更短的编码序列，通过合理的分配源数据所占用的内存空间，最大程度的减少内存的使用。另一方面，通过对满足键值重复条件的数据进行合并去重，提高了数据文件的可读性。且，采用串表压缩方式对已完成编码和重复数据合并的压缩数据进行进一步的压缩，基于串表压缩方式的加密性质，使得在兼顾压缩率的同时，也能够保证数据的私密性。

附图说明

图1为一个实施例中数据压缩方法的应用环境图；

图2为一个实施例中数据压缩方法的流程示意图；

图3为另一个实施例中数据压缩方法的流程示意图；

图4为客户端与计算机设备之间进行加、解密交互的通信流程图；

图5为一个实施例中数据压缩装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据压缩方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102和服务器104可分别单独用于执行本申请中的数据压缩方法，或者协同用于执行本申请中的数据压缩方法。比如，由终端102通过网络将待压缩的初始源文件传输到服务器104。由服务器104获取待压缩的初始源文件，其中，初始源文件中包括有多条源数据，每条源数据均通过键值对的格式进行存储。由服务器104按照初始源文件中的多条源数据中出现的各键名的频次，分别对各条源数据的键名进行编码，且编码过程中，按照相应键名的频次所对应的编码长度，将相应的键名转化为对应的编码序列。由服务器104基于编码序列对初始源文件进行更新，得到第一中间压缩文件；对第一中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件；采用串表压缩方式对第二中间压缩文件进行编码压缩处理，得到与初始源文件对应的目标压缩文件。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种数据压缩方法，以该方法应用于图1中的计算机设备(该计算机设备具体可以是图1中的终端或服务器)为例进行说明，包括以下步骤：

步骤S202，获取待压缩的初始源文件，初始源文件中包括有多条源数据，每条源数据均通过键值对的格式进行存储。

其中，初始源文件为无人机在电力巡检区域进行电力设备巡检的过程中，记录生成的设备状态文件，该设备状态文件将经由终端上运行的客户端进行获取，并将其发送到计算机设备，由计算机设备对接收到的设备状态文件进行编码压缩处理。需要说明的是，在通过键值对的格式进行源数据存储的时候，可以参考以下形式：

{A:0}；

其中，A即为键名，“0”即为值。需要说明的是，键名往往是为了表意而进行命名的，例如在基于初始源文件进行温度数据的存储时，可以将该温度数据的键名命名为“temperature”。当计算机设备基于初始源文件获取到键名命名为“temperature”的数据时，即可确定该数据为温度数据。

步骤S204，按照初始源文件中的多条源数据中出现的各键名的频次，分别对各条源数据的键名进行编码，且编码过程中，按照相应键名的频次所对应的编码长度，将相应的键名转化为对应的编码序列。

具体的，由计算机设备针对获取到的源文件进行全文扫描处理，并统计各键名对应出现的频次。根据计算得到的相应键名的频次，确定相应键名对应的编码长度，即确定分配给相应键名的字节数，该字节数将进一步反映相应键名所占用的内存空间。在一个实施例中，通过以下公式进行编码长度k的计算：

2^k≧n； (1)

其中，n为初始源文件中存储的键名的总数量。当确定了k的取值范围之后，根据编码长度与相应键名出现的频次成反比这一变化规律，针对出现频次最高的键名，确定其编码长度为k_min1；针对出现频次次高的键名，确定其编码长度为k_min2；其中，k_min1、k_min2分别为编码长度k取到的最低值以及次低值。假设k最多只能取到3，则针对出现频次最低的键名，确定其编码长度为3。

举例来说，若一份初始源文件中包含的键名的总数量为13294个，根据上述公式(1)，将公式(1)转换为下述不等式：

2^k≧13294； (2)

其中，基于上述的公式(2)可以解出k≧14，若需要进行固定编码长度的分配，则分配到每个键名的编码长度为14bit，但，为每一个键名分配固定的编码长度并不是最优方案，在此基础上，需要进行编码长度的合理分配。现将公式(1)进行展开，得到以下展开形式：

2^1+(2^2-2^1)……+(2^k-(2^k-1))＝2^k≧n (3)

其中，上述公式(3)表达的含义是：对于特定的k，可以表达“2^k”个bit数进行编码序列的表达，但其中占用“2^(k-1)”个bit数的编码序列，只需使用“k-1”个bit数即可表达，例如，3个bit位可以表达0～7之间的数字，但对于0～3之间的数，实际上使用2个bit位便足够表达了。当选取完k之后，所得的k与其所对应的表达的数之间的关系如表1所示：

表1

k	表达的数
		1	0～1
2	2～3
		3	3～7
4	7～15
		…	…
n	2^n-2^(n-1)

此时基于表1所示的内容，便可制定如下的分配策略：“分配的编码长度与键名出现的频率成反比”。该分配策略的原理为：当k＝1时，由于其仅能表达占用两个字符内存空间的编码序列，因此，但将其分配给出现频率最高的键，便可最大程度的节省内存空间。

在其中一个实施例中，由计算机设备将相应的键名转化为对应的编码序列，包括：对初始源文件中存储的各条源数据进行遍历，并在遍历结束后，针对遍历到的各项键名，分别计算相应键名的总遍历次数；分别对遍历到的各项键名进行编码处理，且编码的过程中，基于总遍历次数进行编码长度的设置；按照对应设置的编码长度将相应键名转化为编码序列；其中，每个编码序列中均包括多个编码字符，编码字符的个数与预设的编码长度相适应。

上述实施例中，基于键名出现的频次，进行键命名的缩短，有效的降低了相应的源数据所占用的内存空间。另外，根据编码长度与相应键名出现的频次成反比这一变化规律，为分配到不同的编码序列的编码长度进行优化，相比于分配固定的编码长度给对应的编码序列，最大程度的节省了内存空间。

步骤S206，基于编码序列对初始源文件进行更新，得到第一中间压缩文件。

其中，在进行初始源文件更新的时候，即对初始源文件中存储的各项键名基于步骤S204的方式进行重命名，将初始源文件中的各项键名更新为相应编码序列，并在更新完成之后，由计算机设备输出相应的第一中间压缩文件。

步骤S208，对第一中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件。

具体的，由计算机设备对中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件，包括：对中间压缩文件中存储的各项数据均采用以下步骤进行遍历：将当前遍历的数据与上次遍历的数据进行键值比对，基于键与键，以及值与值之间的差异，确定两条数据之间的不同键值对数；当不同键值对数小于等于预设的合并阈值时，则确定当前遍历的数据与上次遍历的数据为重复数据，并进行重复数据的合并；否则，进入到下一次的遍历过程，直到完成对中间压缩文件中所有重复数据的去重合并处理。需要说明的是，由于由于合并阈值的取值越大，代表合并的数据间的差异也就越大，当前情况下虽然能够提升数据压缩率，但另一方面，由于合并后的数据阅读需要进行不同位置值的配对，这也将导致文件的可读性逐步变差。因此，本申请的实施例中，默认合并阈值取值为1。

在其中一个实施例中，由计算机设备进行初始合并条件的设定，包括：假设存在n条数据；对这n条数据进行合并后，剩下了k条数据；当前遍历的数据与上次遍历的数据之间的合并数量阈值为m。遍历的过程中，包括以下步骤：

(1)选取上次遍历到的数据为目标合并对象。

(2)进入下一次的遍历过程，基于键与键，以及值与值之间的差异，计算当前遍历的数据与上次遍历的数据之间的不同键值对数z。

(3)若有m大于等于z，则将当前以及上次遍历到的两条数据进行合并，合并规则为：

{A:0,B:1},{A:0,B:2}--->{A:[0,0],B:[1,2]}；

其中，“{A:0,B:1}”为上次遍历的数据包括的键值对象，“{A:0,B:2}”为当前遍历的数据包括的键值对象，“{A:[0,0],B:[1,2]}”为合并后的数据，即将键A以及键B分别对应的值进行合并。

(4)若有m小于z，则表明当前以及上次遍历到的两条数据之间存在的差异过大，即可确定无需进行数据合并，进而对目标合并对象进行更新，选取当前遍历到的数据为目标合并对象，并返回到步骤(2)。

(5)当遍历至最后一条数据时，则结束合并去重处理过程。

基于上述的步骤(1)-(5)，需要说明的是，由于获取到的初始源文件中，往往存在着上万条数据，而这些数据通常基于极小粒度的时间间隔被记录下来的，且，在极小粒度的时间间隔内记录的邻近数据之间，往往只有部分数据存在键值的不同，且不同的邻近数据之间具有这样的特性：“键必定相同，但值可能不同”。基于这个角度，由计算机设备对第一中间压缩文件中满足键值重复条件的数据进行合并去重处理，通过上述处理方式进一步提高文件的可读性。可以看到，合并数量阈值m的大小，最终将影响合并后的数据条数k，经过多次的实验测试，当m＝1时，k/n≈＝0.13，即10000条数据，最终将被压缩到1300条左右，且，由于两条数据之间的时间戳必定不同，因此当m＝1时，往往只是对除时间不同以外的各个键值相同数据条目进行合并，除时间不同，各键值相同的数据对于用户来说，并无太大意义，而未合并的数据由于必定存在除时间以外的不同之处，这对于追溯设备状态变化的时刻是很有意义的，甚至可以说是提升了原数据文件的可读性。因此，基于上述内容可得到以下规律：当m>1时，随着m的增大，虽然可以继续提升文件的压缩率，但最终将导致文件的可读性也逐步变差。因此，为了保证文件的可读性，本申请实施例中默认m值取为1。

在另一个实施例中，经过前述步骤S202-步骤S208的处理后，将得到一份键值经过编码、重复数据进行合并后的第二中间压缩文件，此时的文件压缩率已经相当可观，但仍是存在大量“空格、空行”等对于存储来说不需要的冗余数据，因此，当前实施例中，当第二中间压缩文件中存在冗余数据时，还需要进行冗余数据的去除，在将这些冗余数据去除后，便能够基于步骤S210对去除冗余数据的第二中间压缩文件进行最终的压缩。

上述实施例中，通过对除时间不同，但键值相同的邻近数据进行合并，有利于对设备状态的变化进行追溯，提高了文件的可读性；且通过对合并阈值进行合理的设置，在提高压缩率的同时，能够进一步保证第二中间压缩文件的可读性。

步骤S210，采用串表压缩方式对第二中间压缩文件进行编码压缩处理，得到与初始源文件对应的目标压缩文件。

其中，串表压缩方式基于LZW算法-串表压缩算法的基本思想，通过建立一个初始表，基于该初始表将基于待压缩文件输入的字符串映射成定长码长的码字进行输出，从而实现数据压缩，通常码长设置为l2bit。

具体的，由计算机设备采用串表压缩方式对第二中间压缩文件进行编码压缩处理。其中，当利用串表压缩方式进行编码压缩处理时，需要基于ASCII表-单字节字符编码表进行第一初始表的创建，通过将待压缩的文件中包括的各项第一字符与初始表中的第二字符进行匹配，在匹配成功的情况下，则将匹配到的第一字符，以初始表中定义的第二字符所对应的二进制的形式存储与待压缩的文件中，从而达到字符转化为机器码的目的。在匹配失败的情况下，则针对匹配失败的第一字符创建新的映射，并将其扩展到初始表中。需要说明的是，基于ASCII表-单字节字符编码表进行第一初始表的创建，已经利用了0～255之间的编码空间，即共占据了8个bit的空间，为了避免重复占用，步骤S204中，将编码长度k的初始值设为9。

在一个实施例中，采用串表压缩方式对第二中间压缩文件进行编码压缩处理，得到与初始源文件对应的目标压缩文件，包括：基于ASCII表-单字节字符编码表进行第一初始表的创建；基于第二中间压缩文件中各键名与相应编码序列之间的映射关系，建立映射表；将映射表合并到第一初始表中，得到第二初始表；采用串表压缩方式，并基于第二初始表对第二中间压缩文件进行编码压缩处理，得到目标压缩文件。其中，建立的映射表可参考表2：

表2

键名	频次	映射字符
			apply	50	0
cherry	40	1
			grape	30	10
mango	20	11
			banana	10	100

基于表2可确定的是，针对键名为“apply”的源数据，由于其出现的频次数最高为50，因此，在进行编码长度分配的时候，使用1个bit位进行编码序列的表达，可完成对键名“apply”的编码。另外，根据表2还能够确定的是，对键名为“apply”的源数据进行映射后，得到映射字符(机器码)为“0”。针对键名为“cherry”、“grape”等的源数据，采用上述思想，也能够分别确定相应的编码长度和映射字符，本申请实施例对比不作详细的说明。

在另一个实施例中，引入LRU-页面置换策略，当第二初始表中存储的数据量较大时，从第二初始表中删除最近最少使用到的数据，以此来降低第二初始表的存储空间，提高压缩效率。另外，当第二初始表中为存储的各项键值均分配固定长度字节时，基于步骤S204采用的相同技术手段，为上述各项键值所占用的字节数进行合理的分配，在最大程度的减少内存的使用的情况下，进一步的提高数据压缩效率。

上述实施例中，通过将映射表合并到第一初始表中，使得所得的第二初始表中存储的大量子串具有可预见性，在匹配失败的情况下，减少了扩展相应字符所需用到的时间，提高了数据压缩效率。

上述数据压缩方法中，一方面基于初始源文件中的多条源数据中出现的各键名的频次，将相应的键名转化为占用字节更短的编码序列，通过合理的分配源数据所占用的内存空间，最大程度的减少内存的使用。另一方面，通过对满足键值重复条件的数据进行合并去重，提高了数据文件的可读性。且，采用串表压缩方式对已完成编码和重复数据合并的压缩数据进行进一步的压缩，基于串表压缩方式的加密性质，使得在兼顾压缩率的同时，也能够保证数据的私密性。

在另一个实施例中，如图3所示，提供了一种数据压缩方法，以该方法应用于客户端为例进行说明，包括以下步骤：

步骤S302，通过客户端获取利用公钥加密后的第二初始表以及目标压缩文件。

其中，请参考图4，在通过客户端获取加密后的第二初始表以及目标压缩文件之前，还需要由图4中所示的数据中心(该数据中心可以理解为本申请实施例应用到的计算机设备)事先收集客户端使用到的公钥。其次，由客户端发送请求数据指令，且，该请求数据指令中携带有客户端使用到的公钥。其次，由数据中心进行请求数据指令的接收以及解析，并基于解析得到的公钥，判断该公钥与事先收集到的公钥是否匹配，当匹配成功时，则由数据中心向客户端传输利用公钥加密后的第二初始表以及目标压缩文件，由客户端进行对应传输文件的接收。

步骤S304，通过客户端使用与公钥相适应的私钥对当前获取到的第二初始表进行解密。

其中，当客户端接收到数据中心回传的数据之后，则基于RSA-非对称加密算法，利用与公钥相适应的私钥进行第二初始表的解密。需要说明的是，经过串表压缩方式处理得到的压缩文件，本身即具备加密性质，可以理解的是，第二初始表作为解密的“钥匙”，由于，在步骤S210中已经完成将映射表合并到第一初始表这一步骤，这一步骤的完成相当于在原有初始表的基础上，对该原有初始表进行了进一步的改造。

步骤S306，通过客户端基于解密后的第二初始表，按照目标压缩文件的压缩逆过程，对目标压缩文件进行解密，以进行初始源文件的还原。

其中，在通过客户端进行目标压缩文件的解密时，是基于解密后的第二初始表，结合目标压缩文件的压缩逆过程，实现对目标压缩文件的解密，可以理解的是，解密的过程即为由编码至源数据的替换，且，在数据替换完成之后，还需要对解密后的文档进行格式化处理，便于用户进行直接查看。

本实施例中，在串并压缩方式的基础上结合RSA算法，使得本申请能够在安全性上达到巡检场景中对于安全性的要求，且，由于利用RSA算法进行数据加密的运算时间较慢，而基于本实施例公开的技术方案，能够极大地减小待加密文件的大小，当利用RSA算法对上述待加密文件进行加密时，能够进一步的提高整个加密过程的加密效率。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种数据压缩装置500，包括：数据获取模块501、编码模块502、更新模块503、合并去重模块504和编码压缩模块505，其中：

数据获取模块501，用于获取待压缩的初始源文件，初始源文件中包括有多条源数据，每条源数据均通过键值对的格式进行存储。

编码模块502，用于按照初始源文件中的多条源数据中出现的各键名的频次，分别对各条源数据的键名进行编码，且编码过程中，按照相应键名的频次所对应的编码长度，将相应的键名转化为对应的编码序列。

更新模块503，用于基于编码序列对初始源文件进行更新，得到第一中间压缩文件。

合并去重模块504，用于对第一中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件。

编码压缩模块505，用于采用串表压缩方式对第二中间压缩文件进行编码压缩处理，得到与初始源文件对应的目标压缩文件。

在一个实施例中，编码模块502，还用于对初始源文件中存储的各条源数据进行遍历，并在遍历结束后，针对遍历到的各项键名，分别计算相应键名的总遍历次数；分别对遍历到的各项键名进行编码处理，且编码的过程中，基于总遍历次数进行编码长度的设置；按照对应设置的编码长度将相应键名转化为编码序列；其中，每个编码序列中均包括多个编码字符，编码字符的个数与预设的编码长度相适应。

在一个实施例中，合并去重模块504，还用于对中间压缩文件中存储的各项数据均采用以下步骤进行遍历：将当前遍历的数据与上次遍历的数据进行键值比对，基于键与键，以及值与值之间的差异，确定两条数据之间的不同键值对数；当不同键值对数小于等于预设的合并阈值时，则确定当前遍历的数据与上次遍历的数据为重复数据，并进行重复数据的合并；否则，进入到下一次的遍历过程，直到完成对中间压缩文件中所有重复数据的去重合并处理。

在一个实施例中，编码压缩模块505，还用于基于ASCII表-单字节字符编码表进行第一初始表的创建；基于第二中间压缩文件中各键名与相应编码序列之间的映射关系，建立映射表；将映射表合并到第一初始表中，得到第二初始表；采用串表压缩方式，并基于第二初始表对第二中间压缩文件进行编码压缩处理，得到目标压缩文件。

在一个实施例中，通过该装置500将目标压缩文件传输至客户端，该装置500还用于通过客户端获取利用公钥加密后的第二初始表以及目标压缩文件；通过客户端使用与公钥相适应的私钥对当前获取到的第二初始表进行解密；通过客户端基于解密后的第二初始表，按照目标压缩文件的压缩逆过程，对目标压缩文件进行解密，以进行初始源文件的还原。

在一个实施例中，请参考图5，该装置500还包括冗余去除模块506，其中：

冗余去除模块506，用于当第二中间压缩文件中存在冗余数据时，进行冗余数据的去除。

上述数据压缩装置，一方面基于初始源文件中的多条源数据中出现的各键名的频次，将相应的键名转化为占用字节更短的编码序列，通过合理的分配源数据所占用的内存空间，最大程度的减少内存的使用。另一方面，通过对满足键值重复条件的数据进行合并去重，提高了数据文件的可读性。且，采用串表压缩方式对已完成编码和重复数据合并的压缩数据进行进一步的压缩，基于串表压缩方式的加密性质，使得在兼顾压缩率的同时，也能够保证数据的私密性。

关于数据压缩装置的具体限定可以参见上文中对于数据压缩方法的限定，在此不再赘述。上述数据压缩装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储初始源文件、第一中间压缩文件、第二中间压缩文件以及经过编码压缩处理得到的目标压缩文件。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据压缩方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待压缩的初始源文件，初始源文件中包括有多条源数据，每条源数据均通过键值对的格式进行存储；按照初始源文件中的多条源数据中出现的各键名的频次，分别对各条源数据的键名进行编码，且编码过程中，按照相应键名的频次所对应的编码长度，将相应的键名转化为对应的编码序列；基于编码序列对初始源文件进行更新，得到第一中间压缩文件；对第一中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件；采用串表压缩方式对第二中间压缩文件进行编码压缩处理，得到与初始源文件对应的目标压缩文件。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对初始源文件中存储的各条源数据进行遍历，并在遍历结束后，针对遍历到的各项键名，分别计算相应键名的总遍历次数；分别对遍历到的各项键名进行编码处理，且编码的过程中，基于总遍历次数进行编码长度的设置；按照对应设置的编码长度将相应键名转化为编码序列；其中，每个编码序列中均包括多个编码字符，编码字符的个数与预设的编码长度相适应。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对中间压缩文件中存储的各项数据均采用以下步骤进行遍历：将当前遍历的数据与上次遍历的数据进行键值比对，基于键与键，以及值与值之间的差异，确定两条数据之间的不同键值对数；当不同键值对数小于等于预设的合并阈值时，则确定当前遍历的数据与上次遍历的数据为重复数据，并进行重复数据的合并；否则，进入到下一次的遍历过程，直到完成对中间压缩文件中所有重复数据的去重合并处理。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于ASCII表-单字节字符编码表进行第一初始表的创建；基于第二中间压缩文件中各键名与相应编码序列之间的映射关系，建立映射表；将映射表合并到第一初始表中，得到第二初始表；采用串表压缩方式，并基于第二初始表对第二中间压缩文件进行编码压缩处理，得到目标压缩文件。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过客户端获取利用公钥加密后的第二初始表以及目标压缩文件；通过客户端使用与公钥相适应的私钥对当前获取到的第二初始表进行解密；通过客户端基于解密后的第二初始表，按照目标压缩文件的压缩逆过程，对目标压缩文件进行解密，以进行初始源文件的还原。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当第二中间压缩文件中存在冗余数据时，进行冗余数据的去除。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：初始源文件为无人机在电力巡检区域进行电力设备巡检的过程中，记录生成的设备状态文件。

上述计算机设备，一方面基于初始源文件中的多条源数据中出现的各键名的频次，将相应的键名转化为占用字节更短的编码序列，通过合理的分配源数据所占用的内存空间，最大程度的减少内存的使用。另一方面，通过对满足键值重复条件的数据进行合并去重，提高了数据文件的可读性。且，采用串表压缩方式对已完成编码和重复数据合并的压缩数据进行进一步的压缩，基于串表压缩方式的加密性质，使得在兼顾压缩率的同时，也能够保证数据的私密性。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待压缩的初始源文件，初始源文件中包括有多条源数据，每条源数据均通过键值对的格式进行存储；按照初始源文件中的多条源数据中出现的各键名的频次，分别对各条源数据的键名进行编码，且编码过程中，按照相应键名的频次所对应的编码长度，将相应的键名转化为对应的编码序列；基于编码序列对初始源文件进行更新，得到第一中间压缩文件；对第一中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件；采用串表压缩方式对第二中间压缩文件进行编码压缩处理，得到与初始源文件对应的目标压缩文件。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对初始源文件中存储的各条源数据进行遍历，并在遍历结束后，针对遍历到的各项键名，分别计算相应键名的总遍历次数；分别对遍历到的各项键名进行编码处理，且编码的过程中，基于总遍历次数进行编码长度的设置；按照对应设置的编码长度将相应键名转化为编码序列；其中，每个编码序列中均包括多个编码字符，编码字符的个数与预设的编码长度相适应。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对中间压缩文件中存储的各项数据均采用以下步骤进行遍历：将当前遍历的数据与上次遍历的数据进行键值比对，基于键与键，以及值与值之间的差异，确定两条数据之间的不同键值对数；当不同键值对数小于等于预设的合并阈值时，则确定当前遍历的数据与上次遍历的数据为重复数据，并进行重复数据的合并；否则，进入到下一次的遍历过程，直到完成对中间压缩文件中所有重复数据的去重合并处理。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于ASCII表-单字节字符编码表进行第一初始表的创建；基于第二中间压缩文件中各键名与相应编码序列之间的映射关系，建立映射表；将映射表合并到第一初始表中，得到第二初始表；采用串表压缩方式，并基于第二初始表对第二中间压缩文件进行编码压缩处理，得到目标压缩文件。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过客户端获取利用公钥加密后的第二初始表以及目标压缩文件；通过客户端使用与公钥相适应的私钥对当前获取到的第二初始表进行解密；通过客户端基于解密后的第二初始表，按照目标压缩文件的压缩逆过程，对目标压缩文件进行解密，以进行初始源文件的还原。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当第二中间压缩文件中存在冗余数据时，进行冗余数据的去除。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：初始源文件为无人机在电力巡检区域进行电力设备巡检的过程中，记录生成的设备状态文件。

上述存储介质，一方面基于初始源文件中的多条源数据中出现的各键名的频次，将相应的键名转化为占用字节更短的编码序列，通过合理的分配源数据所占用的内存空间，最大程度的减少内存的使用。另一方面，通过对满足键值重复条件的数据进行合并去重，提高了数据文件的可读性。且，采用串表压缩方式对已完成编码和重复数据合并的压缩数据进行进一步的压缩，基于串表压缩方式的加密性质，使得在兼顾压缩率的同时，也能够保证数据的私密性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据压缩方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述按照所述初始源文件中的多条源数据中出现的各键名的频次，分别对各条源数据的键名进行编码，且编码过程中，按照相应键名的频次所对应的编码长度，将相应的键名转化为对应的编码序列，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述中间压缩文件中满足键值重复条件的数据进行合并去重处理，得到第二中间压缩文件，包括：

4.根据权利要求1所述的方法，其特征在于，所述采用串表压缩方式对所述第二中间压缩文件进行编码压缩处理，得到与所述初始源文件对应的目标压缩文件，包括：

基于ASCII表-单字节字符编码表进行第一初始表的创建；

将所述映射表合并到所述第一初始表中，得到第二初始表；

5.根据权利要4所述的方法，其特征在于，所述目标压缩文件用于传输至客户端，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述采用串表压缩方式对所述第二中间压缩文件进行编码压缩处理，得到与所述初始源文件对应的目标压缩文件之前，所述方法还包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述初始源文件为无人机在电力巡检区域进行电力设备巡检的过程中，记录生成的设备状态文件。

8.一种数据压缩装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。