CN113687773A

CN113687773A - 数据压缩模型训练方法及装置、存储介质

Info

Publication number: CN113687773A
Application number: CN202110812042.5A
Authority: CN
Inventors: 白智德; 白志得; 哈米德; 黄坤; 殷燕
Original assignee: Shenzhen Zhihuilin Network Technology Co ltd
Current assignee: Shenzhen Zhihuilin Network Technology Co ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-11-23
Anticipated expiration: 2041-07-16
Also published as: WO2023284851A1; CN113687773B

Abstract

本申请公开了一种数据压缩模型训练方法及装置、存储介质。该方法包括：读取设定大小的数据块；分析在所述数据块中增加冗余的可能性；确定在所述数据块中生成冗余数据的函数的索引号；以及采用所述索引号对应的函数在所述数据块中生成冗余数据。采用本申请的方案，与传统的直接寻址冗余数据的压缩算法不同，通过分析在数据块中增加冗余的可能性，采用对应压缩算法在数据块中生成冗余数据，可以获得超出现有可能性的压缩比，提高了压缩性能。

Description

数据压缩模型训练方法及装置、存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据压缩模型训练方法及装置、存储介质。

背景技术

目前存在的压缩技术是利用传统信息理论得到的算法。这导致压缩，尤其是无损压缩的结果就是查找和移除文件中的冗余数据。传统的压缩算法，即使是那些利用AI和ML的新的压缩算法，均聚焦于冗余。发现的冗余越多，压缩比会更好。

例如，哈夫曼(Huffman)和行程长度(Run-length)算法倾向于发现纯粹的冗余，意味着它们倾向于注意到一块数据(例如文本的特征)，从而在更大块的数据中尽可能地发现大量的和该块数据完全相同的复制的数据。那些算法在某种程度上执行得较好，但是它们的主要的问题是它们已经发展到压缩的瓶颈，所有那些基于冗余的算法不能发现新的产生冗余的方式。

已有的方法都是基于去除或减少选出的数据块中存在的冗余。除了专注于存在的冗余，而不是产生更多的冗余，传统的压缩算法的问题实质在于它们均考虑了具有固定大小的或一定大小可变的数据块，或者考虑了仅存在于一个文件中的包含的所有的大量的数据块。并且大部分的传统的压缩算法仅执行检查小数据块中的冗余，也就是2的指数(即4,8,16,32,63,128,256字节)。

仅依赖于已有的在小块数据中发现冗余，限制了那些传统的压缩算法的性能。

发明内容

本申请提供一种数据压缩模型训练方法及装置、存储介质，以提供高比例的数据块压缩。

第一方面，提供了一种数据压缩模型训练方法，所述方法包括：

读取设定大小的数据块；

分析在所述数据块中增加冗余的可能性；

确定在所述数据块中生成冗余数据的函数的索引号；

采用所述索引号对应的函数在所述数据块中生成冗余数据。

在一种可能的实现中，所述分析在所述数据块中增加冗余的可能性，包括：

根据所述数据块的数据类型，分析在所述数据块中增加冗余的可能性。

在另一种可能的实现中，所述方法还包括：

生成第一热图，所述第一热图包括在所述数据块中冗余的m位长的高值数字，m为正整数。

在又一种可能的实现中，所述方法还包括：

将所述冗余数据存储在所述数据块中。

在又一种可能的实现中，所述方法还包括：

根据概率预测算法，预测压缩的数据块的数量。

在又一种可能的实现中，所述方法还包括：

对设定数量的数据块进行压缩，所述数据块来源于一个或多个文件；

生成第二热图，所述第二热图包括在所述数据块中的n位长的高值数字，n∠m，n为正整数。

在又一种可能的实现中，所述方法还包括：

当检测到包含冗余数据的数据块不适合永久存储，则删除所述包含冗余数据的数据块。

第二方面，提供了一种数据压缩模型训练装置，所述装置包括：

读取单元，用于读取设定大小的数据块；

分析单元，用于分析在所述数据块中增加冗余的可能性；

确定单元，用于确定在所述数据块中生成冗余数据的函数的索引号；

第一生成单元，用于采用所述索引号对应的函数在所述数据块中生成冗余数据。

在一种可能的实现中，所述分析单元，用于根据所述数据块的数据类型，分析在所述数据块中增加冗余的可能性。

在另一种可能的实现中，所述装置还包括：

第二生成单元，用于生成第一热图，所述第一热图包括在所述数据块中冗余的m位长的高值数字，m为正整数。

在又一种可能的实现中，所述装置还包括：

存储单元，用于将所述冗余数据存储在所述数据块中。

在又一种可能的实现中，所述装置还包括：

预测单元，用于根据概率预测算法，预测压缩的数据块的数量。

在又一种可能的实现中，所述装置还包括：

压缩单元，用于对设定数量的数据块进行压缩，所述数据块来源于一个或多个文件；

第三生成单元，用于生成第二热图，所述第二热图包括在所述数据块中的n位长的高值数字，n∠m，n为正整数。

在又一种可能的实现中，所述存储单元，还用于当检测到包含冗余数据的数据块不适合永久存储，则删除所述包含冗余数据的数据块。

第三方面，提供了一种数据压缩模型训练装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种实现所述的方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第一方面的任一种实现所述的方法。

采用本申请的数据压缩模型训练方案，具有如下有益效果：

与传统的直接寻址冗余数据的压缩算法不同，通过分析在数据块中增加冗余的可能性，采用对应压缩算法在数据块中生成冗余数据，可以获得超出现有可能性的压缩比，提高了压缩性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据压缩模型训练方法的流程示意图；

图2为本申请实施例提供的又一种数据压缩模型训练方法的流程示意图；

图3为本申请实施例提供的数据压缩模型训练系统示意图；

图4为本申请实施例提供的一种数据压缩模型训练装置的结构示意图；

图5为本申请实施例提供的又一种数据压缩模型训练装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供一种数据压缩训练方案，与传统的直接寻址冗余数据的压缩算法不同，通过分析在数据块中增加冗余的可能性，采用对应压缩算法在数据块中生成冗余数据，可以获得超出现有可能性的压缩比，提高了压缩性能。

如图1所示，为本申请实施例提供的一种数据压缩模型训练方法的流程示意图，该方法可以包括以下步骤：

S101、读取设定大小的数据块。

S102、分析在所述数据块中增加冗余的可能性。

S103、确定在所述数据块中生成冗余数据的函数的索引号。

S104、采用所述索引号对应的函数在所述数据块中生成冗余数据。

冗余生成算法(redundancy generator algorithm，RGA)负责通过操作数据块来生成冗余，该操作将增加某个数据块中重复值的数量。与直接寻找冗余数据的传统压缩算法不同，RGA创建尽可能多的冗余数据块。

RGA的一般目的是将数据交给与此相关的其他压缩算法，以提供超出现有可能性的压缩比。RGA可以读取任意大小的特定数据块，分析在数据的几个较小部分中增加冗余的可能性。

RGA利用基本和高级数学公式的清单来找出如何在给定的数据块中创建更多的冗余数据。

存储的该部分的数据具有如下特性：

A)RGA数据类型，这是一个介于0到8之间的数字(为3比特)，表明冗余是如何在给定的数据块中产生的。数值越高，RGA对其对应数据块的冗余生成越好。

B)热图，它实际上是一种类似热图的地图，展示了给定数据块的区域之间产生的冗余。例如，在一个给定的数据块中，RGA可以检测到n位长的数字，其冗余度比m位长的数字更大。这将生成一个在数据块中更冗余的高值数字的热图。

C)用于在给定数据块中生成冗余的RGA函数的索引号如下表1所示:

表1

当然，生成冗余的RGA函数与其索引号的对应关系不限于表1，本申请对该对应关系不作限制。此外，还可以包含更多的RGA函数。

D)数据存储，必要时将冗余数据存储在实际数据块中。存储实际数据块的生命力是由人工智能算法决定的，该算法扫描RGA部分中先前记录的数据，以查看输入的实际数据块是否会增加RGA库存。

本申请提供一种数据压缩训练方法，与传统的直接寻址冗余数据的压缩算法不同，通过分析在数据块中增加冗余的可能性，采用对应压缩算法在数据块中生成冗余数据，可以获得超出现有可能性的压缩比，提高了压缩性能。

如图2所示，为本申请实施例提供的又一种数据压缩模型训练方法的流程示意图。

模型训练负责记录以各种方式进行的压缩过程。它的最终目标是使得训练后的模型增加整个压缩和解压缩进程的整体性能和比例。

该方法可以应用于如图3所示的数据压缩模型训练系统，该系统包括：

1、批量相同类型的数据分析器(the bulk same-type data analyzer，BSTDA)301；

2、概率预测算法(the probability predictor algorithm，PPA)302；

3、冗余生成算法(redundancy generator algorithm，RGA)303；

4、临时数据存储(缓存)304；

5、永久性数据存储305。

具体地，该方法可以包括以下步骤：

S201、对设定数量的数据块进行压缩，所述数据块来源于一个或多个文件。

S202、生成第二热图，所述第二热图包括在所述数据块中的n位长的高值数字，n∠m，n为正整数。

具体地，可以通过BSTDA对设定数量的数据块进行压缩，并生成第二热图。BSTDA是一种不是在某个具体的数据上、而是在大量的数据块上运用RGA和PPA的算法，其中，大量的数据块中每个数据块属于独立或非独立的文件。

不像传统的压缩技术进行压缩，每一步操作都在一个文件内进行，BSTDA倾向于对相同的具体形式的大量文件进行研究、分析和训练。

当处理大数据和大量数据压缩时，BSTDA更有用。这样可以大大提高压缩效率。

来自BSTDA的数据表示具有相同类型的文件中的数据具有相同的压缩参数。

这部分存储的数据有如下特性：

A)数据类型，即来自位图(bitmap，BMP)文件的数据。

B)索引，即每个文件形式的索引数据/值。

C)第二热图，它实际上是一种类似于热图的地图，显示给定值(二进制或十六进制)的浓度，正态分布在相同文件格式的文件中。例如，BSTDA可以在大多数.mp4文件(不包括它们的头文件)的开头检测到n位长的高值数字。这将生成一个在数据块开始时更加密集的高值数字的热图。

D)数据存储，如果需要，将输入的数据存储在实际的数据块中。存储实际数据块的生命力是由一个人工智能算法决定的，它扫描BSTDA部分中先前记录的数据，以查看输入的实际数据块是否会增加BSTDA库存。

S203、根据概率预测算法，预测压缩的数据块的数量。

具体地，可以采用PPA算法预测压缩的数据块的数量。

PPA是一种算法，预测可能压缩多少使用RGA的数据块，使用一系列大-长度变量，往往将其调查结果存储作为下一个输入数据的新的训练模式。

PPA就像一个活的有机体，它监控输入的数据块，并增加它如何能在下一次表现得更好的知识。该算法的主要目的是保证数据在下次压缩时能够以更少的时间和资源被计算机消耗。

这部分存储的数据有如下特性：

A)PPA数据类型，它是一个介于0到8之间的数字(为3个比特)，表明在给定的数据块中发生的概率预测有多好。数值越高，说明PPA对其对应数据块的概率预测越好。

B)数据存储，如果需要，将输入的数据存储在实际的数据块中。存储实际数据块的生命力是由人工智能算法决定的，该算法扫描RGA部分中先前记录的数据，以查看输入的实际数据块是否会增加RGA库存。

S204、读取设定大小的数据块。

S205、根据所述数据块的数据类型，分析在所述数据块中增加冗余的可能性。

S206、确定在所述数据块中生成冗余数据的函数的索引号。

S207、采用所述索引号对应的函数在所述数据块中生成冗余数据。

S208、生成第一热图，所述第一热图包括在所述数据块中冗余的m位长的高值数字，m为正整数。

RGA负责通过操作数据块来生成冗余，该操作将增加某个数据块中重复值的数量。与直接寻找冗余数据的传统压缩算法不同，RGA创建尽可能多的冗余数据块。

存储的该部分的数据具有如下特性：

B)第一热图，它实际上是一种类似热图的地图，展示了给定数据块的区域之间产生的冗余。例如，在一个给定的数据块中，RGA可以检测到n位长的数字，其冗余度比m位长的数字更大。这将生成一个在数据块中更冗余的高值数字的热图。

C)用于在给定数据块中生成冗余的RGA函数的索引号如上述表1所示。

S209、检测包含冗余数据的数据块是否适合永久存储。若是，则进行到步骤S210；否则，进行到步骤S211。

S210、将所述冗余数据存储在所述数据块中。

永久性数据存储部分用于存储BSTDA、PPA和RGA的数据存储部分中描述的数据，存储由人工智能驱动的算法确定的数据。

该数据用于保存实际数据的记录，以由本申请描述的压缩算法集合完成下一个压缩过程。

S211、删除所述包含冗余数据的数据块。

临时数据存储(缓存)部分用于存储需要首先分析然后转换为其他值的数据。如BSTDA、PPA和RGA的数据存储章节所描述的，人工智能算法将检测实际数据是否更适合存储。如果确定实际数据不存储，则应将其删除。

同时人工智能驱动的算法决定了数据是否应该永久存储，临时数据存储(缓存)是人工智能驱动的算法以及与此压缩技术相关的其他算法存储和分析实际数据的地方。

本申请描述的压缩算法可以与其它压缩算法并行存在，也可以整体或部分地合并执行，取决于输入的数据。该压缩算法旨在提供数据块的高比例压缩。

本申请提供一种数据压缩训练方法，与传统的直接寻址冗余数据的压缩算法不同，通过分析在数据块中增加冗余的可能性，采用对应压缩算法在数据块中生成冗余数据，可以获得超出现有可能性的压缩比，提高了压缩性能；

且通过对大量数据或大数据进行压缩，提高了压缩效率。

可以理解的是，为了实现上述实施例中的功能，数据压缩模型训练装置包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的单元及方法步骤，本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用场景和设计约束条件。

如图4所示，为本申请提供的一种数据压缩模型训练装置的结构示意图，该装置400可包括：

读取单元44，用于读取设定大小的数据块；

分析单元45，用于分析在所述数据块中增加冗余的可能性；

确定单元46，用于确定在所述数据块中生成冗余数据的函数的索引号；

第一生成单元47，用于采用所述索引号对应的函数在所述数据块中生成冗余数据。

在一种可能的实现中，所述分析单元45，用于根据所述数据块的数据类型，分析在所述数据块中增加冗余的可能性。

在另一种可能的实现中，所述装置还包括：

第二生成单元48，用于生成第一热图，所述第一热图包括在所述数据块中冗余的m位长的高值数字，m为正整数。

在又一种可能的实现中，所述装置还包括：

存储单元49，用于将所述冗余数据存储在所述数据块中。

在又一种可能的实现中，所述装置还包括：

预测单元43，用于根据概率预测算法，预测压缩的数据块的数量。

在又一种可能的实现中，所述装置还包括：

压缩单元41，用于对设定数量的数据块进行压缩，所述数据块来源于一个或多个文件；

第三生成单元42，用于生成第二热图，所述第二热图包括在所述数据块中的n位长的高值数字，n∠m，n为正整数。

在又一种可能的实现中，所述存储单元49，还用于当检测到包含冗余数据的数据块不适合永久存储，则删除所述包含冗余数据的数据块。

有关上述各单元的具体实现可参考图1～图3中的相应描述，在此不再赘述。

上述压缩单元41、第三生成单元42、预测单元43、第二生成单元48和存储单元49为可选的单元，图中以虚线表示和连接。

需要说明的是，以上单元或单元的一个或多个可以软件、硬件或二者结合来实现。当以上任一单元或单元以软件实现的时候，所述软件以计算机程序指令的方式存在，并被存储在存储器中，处理器可以用于执行所述程序指令并实现以上方法流程。该处理器可以内置于片上系统(system on chip，SoC)或ASIC，也可是一个独立的半导体芯片。该处理器内处理用于执行软件指令以进行运算或处理的核外，还可进一步包括必要的硬件加速器，如现场可编程门阵列(field programmable gate array，FPGA)、可编程逻辑器件(programmable logic device，PLD)、或者实现专用逻辑运算的逻辑电路。

当以上单元或单元以硬件实现的时候，该硬件可以是CPU、微处理器、数字信号处理(digital signal processing，DSP)芯片、微控制单元(microcontroller unit，MCU)、人工智能处理器、ASIC、SoC、FPGA、PLD、专用数字电路、硬件加速器或非集成的分立器件中的任一个或任一组合，其可以运行必要的软件或不依赖于软件以执行以上方法流程。

根据本申请实施例提供的一种数据压缩模型训练装置，与传统的直接寻址冗余数据的压缩算法不同，通过分析在数据块中增加冗余的可能性，采用对应压缩算法在数据块中生成冗余数据，可以获得超出现有可能性的压缩比，提高了压缩性能。

如图5所示，为本申请提供的又一种数据压缩模型训练装置的结构示意图，该装置500可包括：

输入装置51、输出装置52、存储器53和处理器54(装置中的处理器54的数量可以一个或多个，图5中以一个处理器为例)。在本申请的一些实施例中，输入装置51、输出装置52、存储器53和处理器54可通过总线或其它方式连接，其中，图5中以通过总线连接为例。

其中，处理器54用于执行以下步骤：

读取设定大小的数据块；

分析在所述数据块中增加冗余的可能性；

确定在所述数据块中生成冗余数据的函数的索引号；

采用所述索引号对应的函数在所述数据块中生成冗余数据。

在一种可能的实现中，所述处理器54执行所述分析在所述数据块中增加冗余的可能性的步骤，包括：

在另一种可能的实现中，所述处理器54还用于执行如下步骤：

在又一种可能的实现中，所述处理器54还用于执行如下步骤：

将所述冗余数据存储在所述数据块中。

根据概率预测算法，预测压缩的数据块的数量。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit，CPU)，还可以是其它通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器、闪存、只读存储器、可编程只读存储器、可擦除可编程只读存储器、电可擦除可编程只读存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于数据压缩装置中。当然，处理器和存储介质也可以作为分立组件存在于数据压缩装置中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、基站、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘；还可以是半导体介质，例如，固态硬盘。

在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

应理解，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；其中A，B可以是单数或者复数。并且，在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。同时，在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念，便于理解。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

Claims

1.一种数据压缩模型训练方法，其特征在于，所述方法包括：

读取设定大小的数据块；

分析在所述数据块中增加冗余的可能性；

确定在所述数据块中生成冗余数据的函数的索引号；

采用所述索引号对应的函数在所述数据块中生成冗余数据。

2.根据权利要求1所述的方法，其特征在于，所述分析在所述数据块中增加冗余的可能性，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述冗余数据存储在所述数据块中。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据概率预测算法，预测压缩的数据块的数量。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1、2、4～6中任一项所述的方法，其特征在于，所述方法还包括：

8.一种数据压缩模型训练装置，其特征在于，所述装置包括：

读取单元，用于读取设定大小的数据块；

分析单元，用于分析在所述数据块中增加冗余的可能性；

9.一种数据压缩模型训练装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1～7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7中任一项所述的方法。