CN117579079A

CN117579079A - 一种数据压缩的处理方法、装置、设备及介质

Info

Publication number: CN117579079A
Application number: CN202410051716.8A
Authority: CN
Inventors: 陈建斌; 严立青; 邹柯; 邱章志; 刘汉兴
Original assignee: Merit Interactive Co Ltd
Current assignee: Merit Interactive Co Ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-02-20
Anticipated expiration: 2044-01-15
Also published as: CN117579079B

Abstract

本申请涉及电数字数据处理技术领域，特别是涉及一种数据压缩的处理方法、装置、设备及介质。该方法包括：获取目标数据，所述目标数据包括目标设备的标签、特征和向量，目标设备的特征包括目标设备的第一类特征和第二类特征，所述第二类特征对应有特征值；根据目标设备的标签和第一类特征获取目标设备的编码结果；编码结果包括若干位，每一位为0或1，1用于标志目标设备存在对应的标签或第一类特征；采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩，得到目标设备的压缩结果；目标设备对应的压缩方式为预设的若干压缩方式中的一种；将目标设备的编码结果和压缩结果进行传输；本发明能够减少单个设备的数据量。

Description

一种数据压缩的处理方法、装置、设备及介质

技术领域

本发明涉及电数字数据处理技术领域，特别是涉及一种数据压缩的处理方法、装置、设备及介质。

背景技术

目前的应用场景存在将单个设备的标签、特征和向量进行传输的需求，现有技术中通常采用多个字符来表示一个设备具有的标签或离散的特征，例如，用fta1_3来表示一个设备具有某一标签，用f46-314来表示某一设备具有某一离散的特征，fta1_3具体表示的标签和f46-314具体表示的离散的特征可以通过查表的方式知晓。现有技术中这种采用多个字符来表示的方式会导致单个设备的数据量增大，有时单个设备的数据量可达几十到几百KB，如何减少单个设备的数据量，进而减少单个设备的数据量对应的传输成本和存储成本，是亟待解决的问题。

发明内容

本发明目的在于，提供一种数据压缩的处理方法、装置、设备及介质，以减少单个设备的数据量，进而减少单个设备的数据量对应的传输成本和存储成本。

根据本发明的第一方面，提供了一种数据压缩的处理方法，所述方法包括以下步骤：

获取目标数据，所述目标数据包括目标设备的标签、特征和向量，目标设备的特征包括目标设备的第一类特征和第二类特征，所述第二类特征对应有特征值。

根据目标设备的标签和第一类特征获取目标设备的编码结果；所述编码结果包括若干位，每一位为0或1，1用于标志目标设备存在对应的标签或第一类特征，0用于标志目标设备不存在对应的标签或第一类特征。

采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩，得到目标设备的压缩结果；目标设备对应的压缩方式为预设的若干压缩方式中的一种。

将所述目标设备的编码结果和压缩结果进行传输。

进一步的，预设的压缩方式包括第一压缩方式和第二压缩方式，所述目标设备对应的压缩方式根据经训练的目标神经网络模型的推理结果得到，所述推理结果包括目标设备对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时，所述耗时包括压缩时长和传输时长。

进一步的，所述目标设备对应的压缩方式的获取过程包括：

获取目标设备对应的第一序列，所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。

将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理，得到推理结果。

根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式。

进一步的，目标神经网络模型的训练过程包括：

获取训练序列集，所述训练序列集包括若干训练序列，每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。

遍历训练序列集，获取每一训练序列对应的压缩序列，每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时。

将每一训练序列作为训练样本，将每一训练序列对应的压缩序列作为对应训练样本的标签，对目标神经网络模型进行训练。

进一步的，根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式包括：

获取用户的需求，所述用户的需求包括第一阈值和第二阈值。

如果目标设备对应的第一压缩方式能够满足用户的需求且目标设备对应的第二压缩方式不能满足用户的需求，则将第一压缩方式确定为目标设备对应的压缩方式；如果目标设备对应的第一压缩方式不能满足用户的需求且目标设备对应的第二压缩方式能够满足用户的需求，则将第二压缩方式确定为目标设备对应的压缩方式。

根据本发明的第二方面，提供了一种数据压缩的处理装置，所述装置包括：

第一获取模块，用于获取目标数据，所述目标数据包括目标设备的标签、特征和向量，目标设备的特征包括目标设备的第一类特征和第二类特征，所述第二类特征对应有特征值。

第一编码模块，用于根据目标设备的标签和第一类特征获取目标设备的编码结果；所述编码结果包括若干位，每一位为0或1，1用于标志目标设备存在对应的标签或第一类特征，0用于标志目标设备不存在对应的标签或第一类特征。

第一压缩模块，用于采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩，得到目标设备的压缩结果；目标设备对应的压缩方式为预设的若干压缩方式中的一种。

第一传输模块，用于将所述目标设备的编码结果和压缩结果进行传输。

进一步的，第一压缩模块包括：

第二获取模块，用于获取目标设备对应的第一序列，所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。

第一推理模块，用于将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理，得到推理结果。

第一确定模块，用于根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式。

进一步的，第一推理模块包括：

第三获取模块，用于获取训练序列集，所述训练序列集包括若干训练序列，每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。

第一遍历模块，用于遍历训练序列集，获取每一训练序列对应的压缩序列，每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时。

第一训练模块，用于将每一训练序列作为训练样本，将每一训练序列对应的压缩序列作为对应训练样本的标签，对目标神经网络模型进行训练。

进一步的，第一确定模块包括：

第四获取模块，用于获取用户的需求，所述用户的需求包括第一阈值和第二阈值。

第二确定模块，用于如果目标设备对应的第一压缩方式能够满足用户的需求且目标设备对应的第二压缩方式不能满足用户的需求，则将第一压缩方式确定为目标设备对应的压缩方式；如果目标设备对应的第一压缩方式不能满足用户的需求且目标设备对应的第二压缩方式能够满足用户的需求，则将第二压缩方式确定为目标设备对应的压缩方式。

根据本发明的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的数据压缩的处理方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的数据压缩的处理方法。

本发明与现有技术相比至少具有以下有益效果：

本发明将目标设备对应的目标数据进行了划分，具体是划分为两部分，第一部分是目标设备的标签和第一类特征，第二部分是目标设备的第二类特征和向量，第二类特征对应有特征值；对于目标设备的第一部分数据，本发明对其采用的是编码处理，得到的编码结果只包括0和1，一个0或1就可以表示目标设备是否存在对应的标签或第一类特征，编码结果相较于编码之前占用空间有所减小；对于目标设备的第二部分数据，本发明采用目标设备对应的压缩方式对第二类特征对应的特征值和向量进行压缩，压缩后的数据相较于压缩之前占用空间也有所减小；由此，本发明将目标设备对应的目标数据转换为了占用空间较小的编码结果和压缩结果，即减少了目标设备的标签、特征和向量对应的数据量，进而减少了目标设备的标签、特征和向量对应的数据量对应的传输成本和存储成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的数据压缩的处理方法的流程图；

图2为本发明实施例一提供的目标设备对应的压缩方式的获取过程的流程图；

图3为本发明实施例一提供的目标神经网络模型的训练过程的流程图；

图4为本发明实施例一提供的确定目标设备对应的压缩方式的步骤的流程图；

图5为本发明实施例二提供的数据压缩的处理装置的示意图；

图6为本发明实施例二提供的第一压缩模块的示意图；

图7为本发明实施例二提供的第一推理模块的示意图；

图8为本发明实施例二提供的第一确定模块的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

如图1所示，本实施例提供了一种数据压缩的处理方法，包括以下步骤：

S100，获取目标数据，所述目标数据包括目标设备的标签、特征和向量，目标设备的特征包括目标设备的第一类特征和第二类特征，所述第二类特征对应有特征值。

本实施例中，目标设备对应的目标数据包括标签tag、特征fea和向量T，其中，tag=(tag₁,tag₂,…,tag_r,…,tag_R)，tag_r为目标设备对应的目标数据包括的第r个标签，r的取值范围为1到R，R为目标设备对应的目标数据包括的标签的数量；特征fea又分为第一类特征fea₁和第二类特征fea₂，fea₁=(fea_1,1,fea_1,2,…,fea_1,f1,…,fea_1,F1)，fea_1,f1为目标设备对应的目标数据包括的第f1个第一类特征，f1的取值范围为1到F1，F1为目标设备对应的目标数据包括的第一类特征的数量；fea₂=(fea_2,1,fea_2,2,…,fea_2,f2,…,fea_2,F2)，fea_2,f2为目标设备对应的目标数据包括的第f2个第二类特征，f2的取值范围为1到F2，F2为目标设备对应的目标数据包括的第二类特征的数量；每一第二类特征fea_2,f2对应有特征值value_f2，value_f2为目标设备与fea_2,f2的相关程度。可选的，目标设备为某一移动终端。

本实施例中，目标设备的标签一般用于表征使用目标设备的用户的属性，目标设备的标签可以通过分析使用目标设备的用户访问某些客户端的记录得到；例如，使用目标设备的用户经常访问某购物网站的女性用品和化妆品，那么判定该目标设备的标签可为女性和20-35岁等。本实施例中目标设备的标签是已知的。

本实施例中，目标设备的特征用于表征使用目标设备的用户的行为。例如，使用目标设备的用户特别喜欢购物，在外吃饭的频次较高，偶尔去旅行，没有到访过X城市但到访过Y城市，那么目标设备对应于购物特征的特征值为0.9、对应于美食特征的特征值为0.7和对应于旅行特征的特征值为0.3，目标用户不具有到访过X城市的特征，但具有访过Y城市的特征。其中，购物特征、美食特征和旅行特征均属于第二类特征，到访过X城市和到访过Y城市均属于第一类特征。本实施例中目标设备的特征是已知的，哪些特征是第一类特征还是第二类特征也是已知的。

本实施例中，目标设备的向量为一串数字，目标设备的向量为目标设备的特征转化后的向量，可选的，目标向量为128维的向量。本实施例中目标设备的向量是已知的。

S200，根据目标设备的标签和第一类特征获取目标设备的编码结果；所述编码结果包括若干位，每一位为0或1，1用于标志目标设备存在对应的标签或第一类特征，0用于标志目标设备不存在对应的标签或第一类特征。

本实施例中根据目标设备的标签和第一类特征获取目标设备的编码结果，可选的，分别对目标设备的标签和第一类特征进行编码处理，其中，对目标设备的标签进行编码处理时，先获取预设标签序列A1，A1=(a_1,1,a_1,2,…,a_1,n1,…,a_1,N1)，a_1,n1为预设的第n1个标签，n1的取值范围为1到N1，N1为预设的标签数量，N1≥R；获取对目标设备的标签进行编码处理得到的标签编码结果c₁，c₁=(c_1,1,c_1,2,…,c_1,n1,…,c_1,N1)，c_1,n1为标签编码结果中第n1个编码值，当a_1,n1存在于tag中时，c_1,n1=1；当a_1,n1不存在于tag中时，c_1,n1=0。对目标设备的第一类特征进行编码处理时，先获取预设第一类特征序列A2，A2=(a_2,1,a_2,2,…,a_2,n2,…,a_2,N2)，a_2,n2为预设的第n2个第一类特征，n2的取值范围为1到N2，N2为预设的第一类特征的数量，N2≥F1；获取对目标设备的第一类特征进行编码处理得到的第一类特征编码结果c₂，c₂=(c_2,1,c_2,2,…,c_2,n2,…,c_2,N2)，c_2,n2为第一类特征编码结果中第n2个编码值，当a_2,n2存在于fea₁中时，c_2,n2=1；当a_2,n2不存在于fea₁中时，c_2,n2=0。

本实施例中编码结果由0和1构成，例如N1=8，根据目标设备的标签得到的标签编码结果为：11000111，其中第n1位的值用于表示目标设备是否存在预设的第n1个标签，当第n1位的值为1时，表示目标设备存在预设的第n1个标签；当第n1位的值为0时，表示目标设备不存在预设的第n1个标签。例如N2=8，根据目标设备的第一类特征得到的第一类特征编码结果为：01010111，其中第n2位的值用于表示目标设备是否存在预设的第n2个第一类特征，当第n2位的值为1时，表示目标设备存在预设的第n2个第一类特征；当第n2位的值为0时，表示目标设备不存在预设的第n2个第一类特征。

S300，采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩，得到目标设备的压缩结果；目标设备对应的压缩方式为预设的若干压缩方式中的一种。

本实施例中，目标设备的第二类特征对应的特征值为value，

value=(value₁,value₂,…,value_f2,…,value_F2)，value_f2为fea_2,f2对应的特征值。

作为一种优选的实施方式，预设的压缩方式包括第一压缩方式和第二压缩方式，所述目标设备对应的压缩方式根据经训练的目标神经网络模型的推理结果得到，所述推理结果包括目标设备对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时，所述耗时包括压缩时长和传输时长。

本领域技术人员知悉，现有技术中任何压缩方式和具有推理功能的神经网络模型均落入本发明的保护范围。可选的，第一压缩方式为gz压缩方式，第二压缩方式为xz压缩方式，目标神经网络模型为神经元模型。

具体的，如图2所示，所述目标设备对应的压缩方式的获取过程包括：

S310，获取目标设备对应的第一序列，所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。

本实施例中目标设备对应的第一序列为seq1，seq1=[ele₁,ele₂,F2,ele₃]，ele₁为目标设备对应的第二类特征对应的特征值和向量的总大小，ele₂为目标设备对应的第二类特征对应的特征值的大小和向量的大小的比例，ele₃为目标设备对应的第二类特征对应的特征值的重复率。本实施例中ele₃=1-rep/F2，rep为fea₂中存在的独立特征值的数量，如果fea₂中除fea_2,f2以外的特征值均不与fea_2,f2相等，则判定fea_2,f2为fea₂中存在的独立特征值；如果fea₂中除fea_2,f2以外的特征值中存在特征值与fea_2,f2相等，则判定fea_2,f2不为fea₂中存在的独立特征值。

S320，将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理，得到推理结果。

本实施例中，推理结果为zip’=[com’₁,met’₁,com’₂,met’₂]，

其中，com’₁为目标设备对应的第一序列对应的第一压缩方式对应的压缩率，met’₁为目标设备对应的第一序列对应的第一压缩方式对应的耗时，com’₂为目标设备对应的第一序列对应的第二压缩方式对应的压缩率，met’₂为目标设备对应的第一序列对应的第二压缩方式对应的耗时。

具体的，如图3所示，目标神经网络模型的训练过程包括：

S321，获取训练序列集，所述训练序列集包括若干训练序列，每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。

本实施例中训练序列集为seq’，seq’=(seq’₁,seq’₂,…,seq’_i,…,seq’_Q)，

seq’_i为第i个训练序列，i的取值范围为1到Q，Q为训练序列的数量。seq’_i=[ele’_i,1,ele’_i,2,ele’_i,3,ele’_i,4]，ele’_i,1为第i个训练序列对应的第二类特征对应的特征值和向量的总大小，ele’_i,2为第i个训练序列对应的第二类特征对应的特征值的大小和向量的大小的比例，ele’_i,3为第i个训练序列对应的第二类特征的数量，ele’_i,4为第i个训练序列对应的第二类特征对应的特征值的重复率。

S322，遍历训练序列集，获取每一训练序列对应的压缩序列，每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时。

本实施例中，seq’_i对应的压缩序列为zip_i，zip_i=[com_i,1,met_i,1,com_i,2,met_i,2]，

com_i,1为第i个训练序列对应的第一压缩方式对应的压缩率，也即使用第一压缩方式对seq’_i对应的待压缩数据进行压缩对应的压缩率；met_i,1为第i个训练序列对应的第一压缩方式对应的耗时，也即使用第一压缩方式对seq’_i对应的待压缩数据进行压缩对应的耗时；com_i,2为第i个训练序列对应的第二压缩方式对应的压缩率，也即使用第二压缩方式对seq’_i对应的待压缩数据进行压缩对应的压缩率；met_i,2为第i个训练序列对应的第二压缩方式对应的耗时，也即使用第二压缩方式对seq’_i对应的待压缩数据进行压缩对应的耗时。

S323，将每一训练序列作为训练样本，将每一训练序列对应的压缩序列作为对应训练样本的标签，对目标神经网络模型进行训练。

本领域技术人员知悉，在训练样本和对应的标签确定的情况下，现有技术中任何的训练方法均落入本发明的保护范围。

S330，根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式。

具体的，如图4所示，S330包括：

S331，获取用户的需求，所述用户的需求包括第一阈值和第二阈值。

本实施例中，第一阈值是压缩结果的大小对应的阈值，第二阈值是耗时对应阈值。

S332，如果目标设备对应的第一压缩方式能够满足用户的需求且目标设备对应的第二压缩方式不能满足用户的需求，则将第一压缩方式确定为目标设备对应的压缩方式；如果目标设备对应的第一压缩方式不能满足用户的需求且目标设备对应的第二压缩方式能够满足用户的需求，则将第二压缩方式确定为目标设备对应的压缩方式。

本实施例中判断目标设备对应的第一压缩方式是否能够满足用户的需求的过程包括：如果dat₂×com’₁≤dat₀且met’₁≤t₀，则判定目标设备对应的第一压缩方式能够满足用户的需求；否则，判定目标设备对应的第一压缩方式不能满足用户的需求；dat₂为value和T的总大小，dat₀为第一阈值，t₀为第二阈值。

本实施例中判断目标设备对应的第二压缩方式是否能够满足用户的需求的过程包括：如果dat₂×com’₂≤dat₀且met’₂≤t₀，则判定目标设备对应的第二压缩方式能够满足用户的需求；否则，判定目标设备对应的第二压缩方式不能满足用户的需求。

本实施例中，S332还包括：如果目标设备对应的第一压缩方式和第二压缩方式均能够满足用户的需求，则进入S3321；如果目标设备对应的第一压缩方式和第二压缩方式均能够满足用户的需求，则进入S3322。

S3321，如果

(dat₀-dat₂×com’₁)/dat₀+(t₀-met’₁)/t₀≥(dat₀-dat₂×com’₂)/dat₀+(t₀-met’₂)/t₀，

则将第一压缩方式确定为目标设备对应的压缩方式；否则，将第二压缩方式确定为目标设备对应的压缩方式。

本实施例基于S3321实现了在第一压缩方式和第二压缩方式均能够满足用户需求的情况下对压缩方式的选择，选择的压缩方式对压缩结果的大小和时间方面的整体提升较好。

S3322，如果

dat₂×com’₁≤dat₀、met’₁>t₀、dat₂×com’₂≤dat₀、met’₂>t₀且met’₁>met’₂，

则将第二压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁≤dat₀、met’₁>t₀、dat₂×com’₂≤dat₀、met’₂>t₀且met’₁≤met’₂，则将第一压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁>dat₀、met’₁≤t₀、dat₂×com’₂>dat₀、met’₂≤t₀且com’₁≥com’₂，则将第二压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁>dat₀、met’₁≤t₀、dat₂×com’₂>dat₀、met’₂≤t₀且com’₁<com’₂，则将第一压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁≤dat₀、met’₁>t₀、dat₂×com’₂>dat₀、met’₂≤t₀且(met’₁-t₀)/t₀≤(dat₂×com’₂-dat₀)/dat₀，则将第一压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁≤dat₀、met’₁>t₀、dat₂×com’₂>dat₀、met’₂≤t₀且(met’₁-t₀)/t₀>(dat₂×com’₂-dat₀)/dat₀，则将第二压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁>dat₀、met’₁≤t₀、dat₂×com’₂≤dat₀、met’₂>t₀且(met’₂-t₀)/t₀≤(dat₁×com’₁-dat₀)/dat₀，则将第二压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁>dat₀、met’₁≤t₀、dat₂×com’₂≤dat₀、met’₂>t₀且(met’₂-t₀)/t₀>(dat₁×com’₁-dat₀)/dat₀，则将第一压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁>dat₀、met’₁>t₀、dat₂×com’₂>dat₀且met’₂>t₀，进入S3323。

S3323，如果

(dat₂×com’₁-dat₀)/dat₀+(met’₁-t₀)/t₀≥(dat₂×com’₂-dat₀)/dat₀+(met’₂-t₀)/t₀，

则将第二压缩方式确定为目标设备对应的压缩方式；否则，将第一压缩方式确定为目标设备对应的压缩方式。

本实施例基于S3322-S3323实现了在第一压缩方式和第二压缩方式均不能够满足用户需求的情况下对压缩方式的选择，选择的压缩方式能最大程度地满足用户对压缩结果的大小和时间的要求。

S400，将所述目标设备的编码结果和压缩结果进行传输。

本实施例将目标设备对应的目标数据进行了划分，具体是划分为两部分，第一部分是目标设备的标签和第一类特征，第二部分是目标设备的第二类特征和向量，第二类特征对应有特征值；对于目标设备的第一部分数据，本实施例对其采用的是编码处理，得到的编码结果只包括0和1，一个0或1就可以表示目标设备是否存在对应的标签或第一类特征，编码结果相较于编码之前占用空间有所减小；对于目标设备的第二部分数据，本实施例采用目标设备对应的压缩方式对第二类特征对应的特征值和向量进行压缩，压缩后的数据相较于压缩之前占用空间也有所减小；由此，本实施例将目标设备对应的目标数据转换为了占用空间较小的编码结果和压缩结果，即减少了目标设备的标签、特征和向量对应的数据量，进而减少了目标设备的标签、特征和向量对应的数据量对应的传输成本和存储成本。

实施例二：

如图5所示，本实施例提供了一种数据压缩的处理装置，包括：

第一获取模块100，用于获取目标数据，所述目标数据包括目标设备的标签、特征和向量，目标设备的特征包括目标设备的第一类特征和第二类特征，所述第二类特征对应有特征值。

本实施例中，目标设备的向量为一串数字，目标设备的向量为目标设备的特征转化后的向量，可选的，目标向量为128维的向量。本实施例中目标设备的向量是已知的，本领域技术人员知悉，现有技术中任何的转化向量的方法均落入本发明的保护范围。

第一编码模块200，用于根据目标设备的标签和第一类特征获取目标设备的编码结果；所述编码结果包括若干位，每一位为0或1，1用于标志目标设备存在对应的标签或第一类特征，0用于标志目标设备不存在对应的标签或第一类特征。

第一压缩模块300，用于采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩，得到目标设备的压缩结果；目标设备对应的压缩方式为预设的若干压缩方式中的一种。

本实施例中，目标设备的第二类特征对应的特征值为value，value=(value₁,value₂,…,value_f2,…,value_F2)，value_f2为fea_2,f2对应的特征值。

具体的，如图6所示，第一压缩模块300包括：

第二获取模块310，用于获取目标设备对应的第一序列，所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。

第一推理模块320，用于将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理，得到推理结果。

本实施例中，推理结果为zip’=[com’₁,met’₁,com’₂,met’₂]，其中，com’₁为目标设备对应的第一序列对应的第一压缩方式对应的压缩率，met’₁为目标设备对应的第一序列对应的第一压缩方式对应的耗时，com’₂为目标设备对应的第一序列对应的第二压缩方式对应的压缩率，met’₂为目标设备对应的第一序列对应的第二压缩方式对应的耗时。

具体的，如图7所示，第一推理模块320包括：

第三获取模块321，用于获取训练序列集，所述训练序列集包括若干训练序列，每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。

本实施例中训练序列集为seq’，seq’=(seq’₁,seq’₂,…,seq’_i,…,seq’_Q)，seq’_i为第i个训练序列，i的取值范围为1到Q，Q为训练序列的数量。seq’_i=[ele’_i,1,ele’_i,2,ele’_i,3,ele’_i,4]，ele’_i,1为第i个训练序列对应的第二类特征对应的特征值和向量的总大小，ele’_i,2为第i个训练序列对应的第二类特征对应的特征值的大小和向量的大小的比例，ele’_i,3为第i个训练序列对应的第二类特征的数量，ele’_i,4为第i个训练序列对应的第二类特征对应的特征值的重复率。

第一遍历模块322，用于遍历训练序列集，获取每一训练序列对应的压缩序列，每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时。

本实施例中，seq’_i对应的压缩序列为zip_i，zip_i=[com_i,1,met_i,1,com_i,2,met_i,2]，com_i,1为第i个训练序列对应的第一压缩方式对应的压缩率，也即使用第一压缩方式对seq’_i对应的待压缩数据进行压缩对应的压缩率；met_i,1为第i个训练序列对应的第一压缩方式对应的耗时，也即使用第一压缩方式对seq’_i对应的待压缩数据进行压缩对应的耗时；com_i,2为第i个训练序列对应的第二压缩方式对应的压缩率，也即使用第二压缩方式对seq’_i对应的待压缩数据进行压缩对应的压缩率；met_i,2为第i个训练序列对应的第二压缩方式对应的耗时，也即使用第二压缩方式对seq’_i对应的待压缩数据进行压缩对应的耗时。

第一训练模块323，用于将每一训练序列作为训练样本，将每一训练序列对应的压缩序列作为对应训练样本的标签，对目标神经网络模型进行训练。

第一确定模块330，用于根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式。

具体的，如图8所示，第一确定模块330包括：

第四获取模块331，用于获取用户的需求，所述用户的需求包括第一阈值和第二阈值。

第二确定模块332，用于如果目标设备对应的第一压缩方式能够满足用户的需求且目标设备对应的第二压缩方式不能满足用户的需求，则将第一压缩方式确定为目标设备对应的压缩方式；如果目标设备对应的第一压缩方式不能满足用户的需求且目标设备对应的第二压缩方式能够满足用户的需求，则将第二压缩方式确定为目标设备对应的压缩方式。

本实施例中，第二确定模块332还用于如果目标设备对应的第一压缩方式和第二压缩方式均能够满足用户的需求，则进入第三确定模块3321；如果目标设备对应的第一压缩方式和第二压缩方式均能够满足用户的需求，则进入第四确定模块3322。

第三确定模块3321，用于如果

本实施例基于第三确定模块3321实现了在第一压缩方式和第二压缩方式均能够满足用户需求的情况下对压缩方式的选择，选择的压缩方式对压缩结果的大小和时间方面的整体提升较好。

第四确定模块3322，用于如果

则将第二压缩方式确定为目标设备对应的压缩方式；如果

dat₂×com’₁≤dat₀、met’₁>t₀、dat₂×com’₂≤dat₀、met’₂>t₀且met’₁≤met’₂，

则将第一压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁>dat₀、met’₁≤t₀、dat₂×com’₂>dat₀、met’₂≤t₀且com’₁≥com’₂，则将第二压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁>dat₀、met’₁≤t₀、dat₂×com’₂>dat₀、met’₂≤t₀且com’₁<com’₂，则将第一压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁≤dat₀、met’₁>t₀、dat₂×com’₂>dat₀、met’₂≤t₀且(met’₁-t₀)/t₀≤(dat₂×com’₂-dat₀)/dat₀，则将第一压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁≤dat₀、met’₁>t₀、dat₂×com’₂>dat₀、met’₂≤t₀且(met’₁-t₀)/t₀>(dat₂×com’₂-dat₀)/dat₀，则将第二压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁>dat₀、met’₁≤t₀、dat₂×com’₂≤dat₀、met’₂>t₀且(met’₂-t₀)/t₀≤(dat₁×com’₁-dat₀)/dat₀，则将第二压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁>dat₀、met’₁≤t₀、dat₂×com’₂≤dat₀、met’₂>t₀且(met’₂-t₀)/t₀>(dat₁×com’₁-dat₀)/dat₀，则将第一压缩方式确定为目标设备对应的压缩方式；如果dat₂×com’₁>dat₀、met’₁>t₀、dat₂×com’₂>dat₀且met’₂>t₀，进入第五确定模块3323。

第五确定模块3323，用于如果

本实施例基于第四确定模块3322和第五确定模块3323实现了在第一压缩方式和第二压缩方式均不能够满足用户需求的情况下对压缩方式的选择，选择的压缩方式能最大程度地满足用户对压缩结果的大小和时间的要求。

第一传输模块400，用于将所述目标设备的编码结果和压缩结果进行传输。

实施例三：

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

将所述目标设备的编码结果和压缩结果进行传输。

实施例四：

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

将所述目标设备的编码结果和压缩结果进行传输。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种数据压缩的处理方法，其特征在于，所述方法包括以下步骤：

获取目标数据，所述目标数据包括目标设备的标签、特征和向量，目标设备的特征包括目标设备的第一类特征和第二类特征，所述第二类特征对应有特征值；

根据目标设备的标签和第一类特征获取目标设备的编码结果；所述编码结果包括若干位，每一位为0或1，1用于标志目标设备存在对应的标签或第一类特征，0用于标志目标设备不存在对应的标签或第一类特征；

采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩，得到目标设备的压缩结果；目标设备对应的压缩方式为预设的若干压缩方式中的一种；

将所述目标设备的编码结果和压缩结果进行传输。

2.根据权利要求1所述的数据压缩的处理方法，其特征在于，预设的压缩方式包括第一压缩方式和第二压缩方式，所述目标设备对应的压缩方式根据经训练的目标神经网络模型的推理结果得到，所述推理结果包括目标设备对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时，所述耗时包括压缩时长和传输时长。

3.根据权利要求2所述的数据压缩的处理方法，其特征在于，所述目标设备对应的压缩方式的获取过程包括：

获取目标设备对应的第一序列，所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率；

将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理，得到推理结果；

4.根据权利要求3所述的数据压缩的处理方法，其特征在于，目标神经网络模型的训练过程包括：

获取训练序列集，所述训练序列集包括若干训练序列，每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率；

遍历训练序列集，获取每一训练序列对应的压缩序列，每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时；

5.根据权利要求3所述的数据压缩的处理方法，其特征在于，根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式包括：

获取用户的需求，所述用户的需求包括第一阈值和第二阈值；

6.一种数据压缩的处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标数据，所述目标数据包括目标设备的标签、特征和向量，目标设备的特征包括目标设备的第一类特征和第二类特征，所述第二类特征对应有特征值；

第一编码模块，用于根据目标设备的标签和第一类特征获取目标设备的编码结果；所述编码结果包括若干位，每一位为0或1，1用于标志目标设备存在对应的标签或第一类特征，0用于标志目标设备不存在对应的标签或第一类特征；

第一压缩模块，用于采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩，得到目标设备的压缩结果；目标设备对应的压缩方式为预设的若干压缩方式中的一种；

7.根据权利要求6所述的数据压缩的处理装置，其特征在于，预设的压缩方式包括第一压缩方式和第二压缩方式，所述目标设备对应的压缩方式根据经训练的目标神经网络模型的推理结果得到，所述推理结果包括目标设备对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时，所述耗时包括压缩时长和传输时长。

8.根据权利要求7所述的数据压缩的处理装置，其特征在于，第一压缩模块包括：

第二获取模块，用于获取目标设备对应的第一序列，所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率；

第一推理模块，用于将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理，得到推理结果；

9.根据权利要求8所述的数据压缩的处理装置，其特征在于，第一推理模块包括：

第三获取模块，用于获取训练序列集，所述训练序列集包括若干训练序列，每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率；

第一遍历模块，用于遍历训练序列集，获取每一训练序列对应的压缩序列，每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时；

10.根据权利要求8所述的数据压缩的处理装置，其特征在于，第一确定模块包括：

第四获取模块，用于获取用户的需求，所述用户的需求包括第一阈值和第二阈值；

11.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的数据压缩的处理方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的数据压缩的处理方法。