CN117579079A - 一种数据压缩的处理方法、装置、设备及介质 - Google Patents

一种数据压缩的处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN117579079A
CN117579079A CN202410051716.8A CN202410051716A CN117579079A CN 117579079 A CN117579079 A CN 117579079A CN 202410051716 A CN202410051716 A CN 202410051716A CN 117579079 A CN117579079 A CN 117579079A
Authority
CN
China
Prior art keywords
compression
compression mode
feature
target
target equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410051716.8A
Other languages
English (en)
Other versions
CN117579079B (zh
Inventor
陈建斌
严立青
邹柯
邱章志
刘汉兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Merit Interactive Co Ltd
Original Assignee
Merit Interactive Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Merit Interactive Co Ltd filed Critical Merit Interactive Co Ltd
Priority to CN202410051716.8A priority Critical patent/CN117579079B/zh
Publication of CN117579079A publication Critical patent/CN117579079A/zh
Application granted granted Critical
Publication of CN117579079B publication Critical patent/CN117579079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请涉及电数字数据处理技术领域,特别是涉及一种数据压缩的处理方法、装置、设备及介质。该方法包括:获取目标数据,所述目标数据包括目标设备的标签、特征和向量,目标设备的特征包括目标设备的第一类特征和第二类特征,所述第二类特征对应有特征值;根据目标设备的标签和第一类特征获取目标设备的编码结果;编码结果包括若干位,每一位为0或1,1用于标志目标设备存在对应的标签或第一类特征;采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩,得到目标设备的压缩结果;目标设备对应的压缩方式为预设的若干压缩方式中的一种;将目标设备的编码结果和压缩结果进行传输;本发明能够减少单个设备的数据量。

Description

一种数据压缩的处理方法、装置、设备及介质
技术领域
本发明涉及电数字数据处理技术领域,特别是涉及一种数据压缩的处理方法、装置、设备及介质。
背景技术
目前的应用场景存在将单个设备的标签、特征和向量进行传输的需求,现有技术中通常采用多个字符来表示一个设备具有的标签或离散的特征,例如,用fta1_3来表示一个设备具有某一标签,用f46-314来表示某一设备具有某一离散的特征,fta1_3具体表示的标签和f46-314具体表示的离散的特征可以通过查表的方式知晓。现有技术中这种采用多个字符来表示的方式会导致单个设备的数据量增大,有时单个设备的数据量可达几十到几百KB,如何减少单个设备的数据量,进而减少单个设备的数据量对应的传输成本和存储成本,是亟待解决的问题。
发明内容
本发明目的在于,提供一种数据压缩的处理方法、装置、设备及介质,以减少单个设备的数据量,进而减少单个设备的数据量对应的传输成本和存储成本。
根据本发明的第一方面,提供了一种数据压缩的处理方法,所述方法包括以下步骤:
获取目标数据,所述目标数据包括目标设备的标签、特征和向量,目标设备的特征包括目标设备的第一类特征和第二类特征,所述第二类特征对应有特征值。
根据目标设备的标签和第一类特征获取目标设备的编码结果;所述编码结果包括若干位,每一位为0或1,1用于标志目标设备存在对应的标签或第一类特征,0用于标志目标设备不存在对应的标签或第一类特征。
采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩,得到目标设备的压缩结果;目标设备对应的压缩方式为预设的若干压缩方式中的一种。
将所述目标设备的编码结果和压缩结果进行传输。
进一步的,预设的压缩方式包括第一压缩方式和第二压缩方式,所述目标设备对应的压缩方式根据经训练的目标神经网络模型的推理结果得到,所述推理结果包括目标设备对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时,所述耗时包括压缩时长和传输时长。
进一步的,所述目标设备对应的压缩方式的获取过程包括:
获取目标设备对应的第一序列,所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。
将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理,得到推理结果。
根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式。
进一步的,目标神经网络模型的训练过程包括:
获取训练序列集,所述训练序列集包括若干训练序列,每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。
遍历训练序列集,获取每一训练序列对应的压缩序列,每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时。
将每一训练序列作为训练样本,将每一训练序列对应的压缩序列作为对应训练样本的标签,对目标神经网络模型进行训练。
进一步的,根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式包括:
获取用户的需求,所述用户的需求包括第一阈值和第二阈值。
如果目标设备对应的第一压缩方式能够满足用户的需求且目标设备对应的第二压缩方式不能满足用户的需求,则将第一压缩方式确定为目标设备对应的压缩方式;如果目标设备对应的第一压缩方式不能满足用户的需求且目标设备对应的第二压缩方式能够满足用户的需求,则将第二压缩方式确定为目标设备对应的压缩方式。
根据本发明的第二方面,提供了一种数据压缩的处理装置,所述装置包括:
第一获取模块,用于获取目标数据,所述目标数据包括目标设备的标签、特征和向量,目标设备的特征包括目标设备的第一类特征和第二类特征,所述第二类特征对应有特征值。
第一编码模块,用于根据目标设备的标签和第一类特征获取目标设备的编码结果;所述编码结果包括若干位,每一位为0或1,1用于标志目标设备存在对应的标签或第一类特征,0用于标志目标设备不存在对应的标签或第一类特征。
第一压缩模块,用于采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩,得到目标设备的压缩结果;目标设备对应的压缩方式为预设的若干压缩方式中的一种。
第一传输模块,用于将所述目标设备的编码结果和压缩结果进行传输。
进一步的,预设的压缩方式包括第一压缩方式和第二压缩方式,所述目标设备对应的压缩方式根据经训练的目标神经网络模型的推理结果得到,所述推理结果包括目标设备对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时,所述耗时包括压缩时长和传输时长。
进一步的,第一压缩模块包括:
第二获取模块,用于获取目标设备对应的第一序列,所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。
第一推理模块,用于将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理,得到推理结果。
第一确定模块,用于根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式。
进一步的,第一推理模块包括:
第三获取模块,用于获取训练序列集,所述训练序列集包括若干训练序列,每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。
第一遍历模块,用于遍历训练序列集,获取每一训练序列对应的压缩序列,每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时。
第一训练模块,用于将每一训练序列作为训练样本,将每一训练序列对应的压缩序列作为对应训练样本的标签,对目标神经网络模型进行训练。
进一步的,第一确定模块包括:
第四获取模块,用于获取用户的需求,所述用户的需求包括第一阈值和第二阈值。
第二确定模块,用于如果目标设备对应的第一压缩方式能够满足用户的需求且目标设备对应的第二压缩方式不能满足用户的需求,则将第一压缩方式确定为目标设备对应的压缩方式;如果目标设备对应的第一压缩方式不能满足用户的需求且目标设备对应的第二压缩方式能够满足用户的需求,则将第二压缩方式确定为目标设备对应的压缩方式。
根据本发明的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的数据压缩的处理方法。
根据本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据压缩的处理方法。
本发明与现有技术相比至少具有以下有益效果:
本发明将目标设备对应的目标数据进行了划分,具体是划分为两部分,第一部分是目标设备的标签和第一类特征,第二部分是目标设备的第二类特征和向量,第二类特征对应有特征值;对于目标设备的第一部分数据,本发明对其采用的是编码处理,得到的编码结果只包括0和1,一个0或1就可以表示目标设备是否存在对应的标签或第一类特征,编码结果相较于编码之前占用空间有所减小;对于目标设备的第二部分数据,本发明采用目标设备对应的压缩方式对第二类特征对应的特征值和向量进行压缩,压缩后的数据相较于压缩之前占用空间也有所减小;由此,本发明将目标设备对应的目标数据转换为了占用空间较小的编码结果和压缩结果,即减少了目标设备的标签、特征和向量对应的数据量,进而减少了目标设备的标签、特征和向量对应的数据量对应的传输成本和存储成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的数据压缩的处理方法的流程图;
图2为本发明实施例一提供的目标设备对应的压缩方式的获取过程的流程图;
图3为本发明实施例一提供的目标神经网络模型的训练过程的流程图;
图4为本发明实施例一提供的确定目标设备对应的压缩方式的步骤的流程图;
图5为本发明实施例二提供的数据压缩的处理装置的示意图;
图6为本发明实施例二提供的第一压缩模块的示意图;
图7为本发明实施例二提供的第一推理模块的示意图;
图8为本发明实施例二提供的第一确定模块的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1所示,本实施例提供了一种数据压缩的处理方法,包括以下步骤:
S100,获取目标数据,所述目标数据包括目标设备的标签、特征和向量,目标设备的特征包括目标设备的第一类特征和第二类特征,所述第二类特征对应有特征值。
本实施例中,目标设备对应的目标数据包括标签tag、特征fea和向量T,其中,tag=(tag1,tag2,…,tagr,…,tagR),tagr为目标设备对应的目标数据包括的第r个标签,r的取值范围为1到R,R为目标设备对应的目标数据包括的标签的数量;特征fea又分为第一类特征fea1和第二类特征fea2,fea1=(fea1,1,fea1,2,…,fea1,f1,…,fea1,F1),fea1,f1为目标设备对应的目标数据包括的第f1个第一类特征,f1的取值范围为1到F1,F1为目标设备对应的目标数据包括的第一类特征的数量;fea2=(fea2,1,fea2,2,…,fea2,f2,…,fea2,F2),fea2,f2为目标设备对应的目标数据包括的第f2个第二类特征,f2的取值范围为1到F2,F2为目标设备对应的目标数据包括的第二类特征的数量;每一第二类特征fea2,f2对应有特征值valuef2,valuef2为目标设备与fea2,f2的相关程度。可选的,目标设备为某一移动终端。
本实施例中,目标设备的标签一般用于表征使用目标设备的用户的属性,目标设备的标签可以通过分析使用目标设备的用户访问某些客户端的记录得到;例如,使用目标设备的用户经常访问某购物网站的女性用品和化妆品,那么判定该目标设备的标签可为女性和20-35岁等。本实施例中目标设备的标签是已知的。
本实施例中,目标设备的特征用于表征使用目标设备的用户的行为。例如,使用目标设备的用户特别喜欢购物,在外吃饭的频次较高,偶尔去旅行,没有到访过X城市但到访过Y城市,那么目标设备对应于购物特征的特征值为0.9、对应于美食特征的特征值为0.7和对应于旅行特征的特征值为0.3,目标用户不具有到访过X城市的特征,但具有访过Y城市的特征。其中,购物特征、美食特征和旅行特征均属于第二类特征,到访过X城市和到访过Y城市均属于第一类特征。本实施例中目标设备的特征是已知的,哪些特征是第一类特征还是第二类特征也是已知的。
本实施例中,目标设备的向量为一串数字,目标设备的向量为目标设备的特征转化后的向量,可选的,目标向量为128维的向量。本实施例中目标设备的向量是已知的。
S200,根据目标设备的标签和第一类特征获取目标设备的编码结果;所述编码结果包括若干位,每一位为0或1,1用于标志目标设备存在对应的标签或第一类特征,0用于标志目标设备不存在对应的标签或第一类特征。
本实施例中根据目标设备的标签和第一类特征获取目标设备的编码结果,可选的,分别对目标设备的标签和第一类特征进行编码处理,其中,对目标设备的标签进行编码处理时,先获取预设标签序列A1,A1=(a1,1,a1,2,…,a1,n1,…,a1,N1),a1,n1为预设的第n1个标签,n1的取值范围为1到N1,N1为预设的标签数量,N1≥R;获取对目标设备的标签进行编码处理得到的标签编码结果c1,c1=(c1,1,c1,2,…,c1,n1,…,c1,N1),c1,n1为标签编码结果中第n1个编码值,当a1,n1存在于tag中时,c1,n1=1;当a1,n1不存在于tag中时,c1,n1=0。对目标设备的第一类特征进行编码处理时,先获取预设第一类特征序列A2,A2=(a2,1,a2,2,…,a2,n2,…,a2,N2),a2,n2为预设的第n2个第一类特征,n2的取值范围为1到N2,N2为预设的第一类特征的数量,N2≥F1;获取对目标设备的第一类特征进行编码处理得到的第一类特征编码结果c2,c2=(c2,1,c2,2,…,c2,n2,…,c2,N2),c2,n2为第一类特征编码结果中第n2个编码值,当a2,n2存在于fea1中时,c2,n2=1;当a2,n2不存在于fea1中时,c2,n2=0。
本实施例中编码结果由0和1构成,例如N1=8,根据目标设备的标签得到的标签编码结果为:11000111,其中第n1位的值用于表示目标设备是否存在预设的第n1个标签,当第n1位的值为1时,表示目标设备存在预设的第n1个标签;当第n1位的值为0时,表示目标设备不存在预设的第n1个标签。例如N2=8,根据目标设备的第一类特征得到的第一类特征编码结果为:01010111,其中第n2位的值用于表示目标设备是否存在预设的第n2个第一类特征,当第n2位的值为1时,表示目标设备存在预设的第n2个第一类特征;当第n2位的值为0时,表示目标设备不存在预设的第n2个第一类特征。
S300,采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩,得到目标设备的压缩结果;目标设备对应的压缩方式为预设的若干压缩方式中的一种。
本实施例中,目标设备的第二类特征对应的特征值为value,
value=(value1,value2,…,valuef2,…,valueF2),valuef2为fea2,f2对应的特征值。
作为一种优选的实施方式,预设的压缩方式包括第一压缩方式和第二压缩方式,所述目标设备对应的压缩方式根据经训练的目标神经网络模型的推理结果得到,所述推理结果包括目标设备对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时,所述耗时包括压缩时长和传输时长。
本领域技术人员知悉,现有技术中任何压缩方式和具有推理功能的神经网络模型均落入本发明的保护范围。可选的,第一压缩方式为gz压缩方式,第二压缩方式为xz压缩方式,目标神经网络模型为神经元模型。
具体的,如图2所示,所述目标设备对应的压缩方式的获取过程包括:
S310,获取目标设备对应的第一序列,所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。
本实施例中目标设备对应的第一序列为seq1,seq1=[ele1,ele2,F2,ele3],ele1为目标设备对应的第二类特征对应的特征值和向量的总大小,ele2为目标设备对应的第二类特征对应的特征值的大小和向量的大小的比例,ele3为目标设备对应的第二类特征对应的特征值的重复率。本实施例中ele3=1-rep/F2,rep为fea2中存在的独立特征值的数量,如果fea2中除fea2,f2以外的特征值均不与fea2,f2相等,则判定fea2,f2为fea2中存在的独立特征值;如果fea2中除fea2,f2以外的特征值中存在特征值与fea2,f2相等,则判定fea2,f2不为fea2中存在的独立特征值。
S320,将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理,得到推理结果。
本实施例中,推理结果为zip’=[com’1,met’1,com’2,met’2],
其中,com’1为目标设备对应的第一序列对应的第一压缩方式对应的压缩率,met’1为目标设备对应的第一序列对应的第一压缩方式对应的耗时,com’2为目标设备对应的第一序列对应的第二压缩方式对应的压缩率,met’2为目标设备对应的第一序列对应的第二压缩方式对应的耗时。
具体的,如图3所示,目标神经网络模型的训练过程包括:
S321,获取训练序列集,所述训练序列集包括若干训练序列,每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。
本实施例中训练序列集为seq’,seq’=(seq’1,seq’2,…,seq’i,…,seq’Q),
seq’i为第i个训练序列,i的取值范围为1到Q,Q为训练序列的数量。seq’i=[ele’i,1,ele’i,2,ele’i,3,ele’i,4],ele’i,1为第i个训练序列对应的第二类特征对应的特征值和向量的总大小,ele’i,2为第i个训练序列对应的第二类特征对应的特征值的大小和向量的大小的比例,ele’i,3为第i个训练序列对应的第二类特征的数量,ele’i,4为第i个训练序列对应的第二类特征对应的特征值的重复率。
S322,遍历训练序列集,获取每一训练序列对应的压缩序列,每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时。
本实施例中,seq’i对应的压缩序列为zipi,zipi=[comi,1,meti,1,comi,2,meti,2],
comi,1为第i个训练序列对应的第一压缩方式对应的压缩率,也即使用第一压缩方式对seq’i对应的待压缩数据进行压缩对应的压缩率;meti,1为第i个训练序列对应的第一压缩方式对应的耗时,也即使用第一压缩方式对seq’i对应的待压缩数据进行压缩对应的耗时;comi,2为第i个训练序列对应的第二压缩方式对应的压缩率,也即使用第二压缩方式对seq’i对应的待压缩数据进行压缩对应的压缩率;meti,2为第i个训练序列对应的第二压缩方式对应的耗时,也即使用第二压缩方式对seq’i对应的待压缩数据进行压缩对应的耗时。
S323,将每一训练序列作为训练样本,将每一训练序列对应的压缩序列作为对应训练样本的标签,对目标神经网络模型进行训练。
本领域技术人员知悉,在训练样本和对应的标签确定的情况下,现有技术中任何的训练方法均落入本发明的保护范围。
S330,根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式。
具体的,如图4所示,S330包括:
S331,获取用户的需求,所述用户的需求包括第一阈值和第二阈值。
本实施例中,第一阈值是压缩结果的大小对应的阈值,第二阈值是耗时对应阈值。
S332,如果目标设备对应的第一压缩方式能够满足用户的需求且目标设备对应的第二压缩方式不能满足用户的需求,则将第一压缩方式确定为目标设备对应的压缩方式;如果目标设备对应的第一压缩方式不能满足用户的需求且目标设备对应的第二压缩方式能够满足用户的需求,则将第二压缩方式确定为目标设备对应的压缩方式。
本实施例中判断目标设备对应的第一压缩方式是否能够满足用户的需求的过程包括:如果dat2×com’1≤dat0且met’1≤t0,则判定目标设备对应的第一压缩方式能够满足用户的需求;否则,判定目标设备对应的第一压缩方式不能满足用户的需求;dat2为value和T的总大小,dat0为第一阈值,t0为第二阈值。
本实施例中判断目标设备对应的第二压缩方式是否能够满足用户的需求的过程包括:如果dat2×com’2≤dat0且met’2≤t0,则判定目标设备对应的第二压缩方式能够满足用户的需求;否则,判定目标设备对应的第二压缩方式不能满足用户的需求。
本实施例中,S332还包括:如果目标设备对应的第一压缩方式和第二压缩方式均能够满足用户的需求,则进入S3321;如果目标设备对应的第一压缩方式和第二压缩方式均能够满足用户的需求,则进入S3322。
S3321,如果
(dat0-dat2×com’1)/dat0+(t0-met’1)/t0≥(dat0-dat2×com’2)/dat0+(t0-met’2)/t0
则将第一压缩方式确定为目标设备对应的压缩方式;否则,将第二压缩方式确定为目标设备对应的压缩方式。
本实施例基于S3321实现了在第一压缩方式和第二压缩方式均能够满足用户需求的情况下对压缩方式的选择,选择的压缩方式对压缩结果的大小和时间方面的整体提升较好。
S3322,如果
dat2×com’1≤dat0、met’1>t0、dat2×com’2≤dat0、met’2>t0且met’1>met’2
则将第二压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1≤dat0、met’1>t0、dat2×com’2≤dat0、met’2>t0且met’1≤met’2,则将第一压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1>dat0、met’1≤t0、dat2×com’2>dat0、met’2≤t0且com’1≥com’2,则将第二压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1>dat0、met’1≤t0、dat2×com’2>dat0、met’2≤t0且com’1<com’2,则将第一压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1≤dat0、met’1>t0、dat2×com’2>dat0、met’2≤t0且(met’1-t0)/t0≤(dat2×com’2-dat0)/dat0,则将第一压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1≤dat0、met’1>t0、dat2×com’2>dat0、met’2≤t0且(met’1-t0)/t0>(dat2×com’2-dat0)/dat0,则将第二压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1>dat0、met’1≤t0、dat2×com’2≤dat0、met’2>t0且(met’2-t0)/t0≤(dat1×com’1-dat0)/dat0,则将第二压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1>dat0、met’1≤t0、dat2×com’2≤dat0、met’2>t0且(met’2-t0)/t0>(dat1×com’1-dat0)/dat0,则将第一压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1>dat0、met’1>t0、dat2×com’2>dat0且met’2>t0,进入S3323。
S3323,如果
(dat2×com’1-dat0)/dat0+(met’1-t0)/t0≥(dat2×com’2-dat0)/dat0+(met’2-t0)/t0
则将第二压缩方式确定为目标设备对应的压缩方式;否则,将第一压缩方式确定为目标设备对应的压缩方式。
本实施例基于S3322-S3323实现了在第一压缩方式和第二压缩方式均不能够满足用户需求的情况下对压缩方式的选择,选择的压缩方式能最大程度地满足用户对压缩结果的大小和时间的要求。
S400,将所述目标设备的编码结果和压缩结果进行传输。
本实施例将目标设备对应的目标数据进行了划分,具体是划分为两部分,第一部分是目标设备的标签和第一类特征,第二部分是目标设备的第二类特征和向量,第二类特征对应有特征值;对于目标设备的第一部分数据,本实施例对其采用的是编码处理,得到的编码结果只包括0和1,一个0或1就可以表示目标设备是否存在对应的标签或第一类特征,编码结果相较于编码之前占用空间有所减小;对于目标设备的第二部分数据,本实施例采用目标设备对应的压缩方式对第二类特征对应的特征值和向量进行压缩,压缩后的数据相较于压缩之前占用空间也有所减小;由此,本实施例将目标设备对应的目标数据转换为了占用空间较小的编码结果和压缩结果,即减少了目标设备的标签、特征和向量对应的数据量,进而减少了目标设备的标签、特征和向量对应的数据量对应的传输成本和存储成本。
实施例二:
如图5所示,本实施例提供了一种数据压缩的处理装置,包括:
第一获取模块100,用于获取目标数据,所述目标数据包括目标设备的标签、特征和向量,目标设备的特征包括目标设备的第一类特征和第二类特征,所述第二类特征对应有特征值。
本实施例中,目标设备对应的目标数据包括标签tag、特征fea和向量T,其中,tag=(tag1,tag2,…,tagr,…,tagR),tagr为目标设备对应的目标数据包括的第r个标签,r的取值范围为1到R,R为目标设备对应的目标数据包括的标签的数量;特征fea又分为第一类特征fea1和第二类特征fea2,fea1=(fea1,1,fea1,2,…,fea1,f1,…,fea1,F1),fea1,f1为目标设备对应的目标数据包括的第f1个第一类特征,f1的取值范围为1到F1,F1为目标设备对应的目标数据包括的第一类特征的数量;fea2=(fea2,1,fea2,2,…,fea2,f2,…,fea2,F2),fea2,f2为目标设备对应的目标数据包括的第f2个第二类特征,f2的取值范围为1到F2,F2为目标设备对应的目标数据包括的第二类特征的数量;每一第二类特征fea2,f2对应有特征值valuef2,valuef2为目标设备与fea2,f2的相关程度。可选的,目标设备为某一移动终端。
本实施例中,目标设备的标签一般用于表征使用目标设备的用户的属性,目标设备的标签可以通过分析使用目标设备的用户访问某些客户端的记录得到;例如,使用目标设备的用户经常访问某购物网站的女性用品和化妆品,那么判定该目标设备的标签可为女性和20-35岁等。本实施例中目标设备的标签是已知的。
本实施例中,目标设备的特征用于表征使用目标设备的用户的行为。例如,使用目标设备的用户特别喜欢购物,在外吃饭的频次较高,偶尔去旅行,没有到访过X城市但到访过Y城市,那么目标设备对应于购物特征的特征值为0.9、对应于美食特征的特征值为0.7和对应于旅行特征的特征值为0.3,目标用户不具有到访过X城市的特征,但具有访过Y城市的特征。其中,购物特征、美食特征和旅行特征均属于第二类特征,到访过X城市和到访过Y城市均属于第一类特征。本实施例中目标设备的特征是已知的,哪些特征是第一类特征还是第二类特征也是已知的。
本实施例中,目标设备的向量为一串数字,目标设备的向量为目标设备的特征转化后的向量,可选的,目标向量为128维的向量。本实施例中目标设备的向量是已知的,本领域技术人员知悉,现有技术中任何的转化向量的方法均落入本发明的保护范围。
第一编码模块200,用于根据目标设备的标签和第一类特征获取目标设备的编码结果;所述编码结果包括若干位,每一位为0或1,1用于标志目标设备存在对应的标签或第一类特征,0用于标志目标设备不存在对应的标签或第一类特征。
本实施例中根据目标设备的标签和第一类特征获取目标设备的编码结果,可选的,分别对目标设备的标签和第一类特征进行编码处理,其中,对目标设备的标签进行编码处理时,先获取预设标签序列A1,A1=(a1,1,a1,2,…,a1,n1,…,a1,N1),a1,n1为预设的第n1个标签,n1的取值范围为1到N1,N1为预设的标签数量,N1≥R;获取对目标设备的标签进行编码处理得到的标签编码结果c1,c1=(c1,1,c1,2,…,c1,n1,…,c1,N1),c1,n1为标签编码结果中第n1个编码值,当a1,n1存在于tag中时,c1,n1=1;当a1,n1不存在于tag中时,c1,n1=0。对目标设备的第一类特征进行编码处理时,先获取预设第一类特征序列A2,A2=(a2,1,a2,2,…,a2,n2,…,a2,N2),a2,n2为预设的第n2个第一类特征,n2的取值范围为1到N2,N2为预设的第一类特征的数量,N2≥F1;获取对目标设备的第一类特征进行编码处理得到的第一类特征编码结果c2,c2=(c2,1,c2,2,…,c2,n2,…,c2,N2),c2,n2为第一类特征编码结果中第n2个编码值,当a2,n2存在于fea1中时,c2,n2=1;当a2,n2不存在于fea1中时,c2,n2=0。
本实施例中编码结果由0和1构成,例如N1=8,根据目标设备的标签得到的标签编码结果为:11000111,其中第n1位的值用于表示目标设备是否存在预设的第n1个标签,当第n1位的值为1时,表示目标设备存在预设的第n1个标签;当第n1位的值为0时,表示目标设备不存在预设的第n1个标签。例如N2=8,根据目标设备的第一类特征得到的第一类特征编码结果为:01010111,其中第n2位的值用于表示目标设备是否存在预设的第n2个第一类特征,当第n2位的值为1时,表示目标设备存在预设的第n2个第一类特征;当第n2位的值为0时,表示目标设备不存在预设的第n2个第一类特征。
第一压缩模块300,用于采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩,得到目标设备的压缩结果;目标设备对应的压缩方式为预设的若干压缩方式中的一种。
本实施例中,目标设备的第二类特征对应的特征值为value,value=(value1,value2,…,valuef2,…,valueF2),valuef2为fea2,f2对应的特征值。
作为一种优选的实施方式,预设的压缩方式包括第一压缩方式和第二压缩方式,所述目标设备对应的压缩方式根据经训练的目标神经网络模型的推理结果得到,所述推理结果包括目标设备对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时,所述耗时包括压缩时长和传输时长。
本领域技术人员知悉,现有技术中任何压缩方式和具有推理功能的神经网络模型均落入本发明的保护范围。可选的,第一压缩方式为gz压缩方式,第二压缩方式为xz压缩方式,目标神经网络模型为神经元模型。
具体的,如图6所示,第一压缩模块300包括:
第二获取模块310,用于获取目标设备对应的第一序列,所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。
本实施例中目标设备对应的第一序列为seq1,seq1=[ele1,ele2,F2,ele3],ele1为目标设备对应的第二类特征对应的特征值和向量的总大小,ele2为目标设备对应的第二类特征对应的特征值的大小和向量的大小的比例,ele3为目标设备对应的第二类特征对应的特征值的重复率。本实施例中ele3=1-rep/F2,rep为fea2中存在的独立特征值的数量,如果fea2中除fea2,f2以外的特征值均不与fea2,f2相等,则判定fea2,f2为fea2中存在的独立特征值;如果fea2中除fea2,f2以外的特征值中存在特征值与fea2,f2相等,则判定fea2,f2不为fea2中存在的独立特征值。
第一推理模块320,用于将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理,得到推理结果。
本实施例中,推理结果为zip’=[com’1,met’1,com’2,met’2],其中,com’1为目标设备对应的第一序列对应的第一压缩方式对应的压缩率,met’1为目标设备对应的第一序列对应的第一压缩方式对应的耗时,com’2为目标设备对应的第一序列对应的第二压缩方式对应的压缩率,met’2为目标设备对应的第一序列对应的第二压缩方式对应的耗时。
具体的,如图7所示,第一推理模块320包括:
第三获取模块321,用于获取训练序列集,所述训练序列集包括若干训练序列,每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率。
本实施例中训练序列集为seq’,seq’=(seq’1,seq’2,…,seq’i,…,seq’Q),seq’i为第i个训练序列,i的取值范围为1到Q,Q为训练序列的数量。seq’i=[ele’i,1,ele’i,2,ele’i,3,ele’i,4],ele’i,1为第i个训练序列对应的第二类特征对应的特征值和向量的总大小,ele’i,2为第i个训练序列对应的第二类特征对应的特征值的大小和向量的大小的比例,ele’i,3为第i个训练序列对应的第二类特征的数量,ele’i,4为第i个训练序列对应的第二类特征对应的特征值的重复率。
第一遍历模块322,用于遍历训练序列集,获取每一训练序列对应的压缩序列,每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时。
本实施例中,seq’i对应的压缩序列为zipi,zipi=[comi,1,meti,1,comi,2,meti,2],comi,1为第i个训练序列对应的第一压缩方式对应的压缩率,也即使用第一压缩方式对seq’i对应的待压缩数据进行压缩对应的压缩率;meti,1为第i个训练序列对应的第一压缩方式对应的耗时,也即使用第一压缩方式对seq’i对应的待压缩数据进行压缩对应的耗时;comi,2为第i个训练序列对应的第二压缩方式对应的压缩率,也即使用第二压缩方式对seq’i对应的待压缩数据进行压缩对应的压缩率;meti,2为第i个训练序列对应的第二压缩方式对应的耗时,也即使用第二压缩方式对seq’i对应的待压缩数据进行压缩对应的耗时。
第一训练模块323,用于将每一训练序列作为训练样本,将每一训练序列对应的压缩序列作为对应训练样本的标签,对目标神经网络模型进行训练。
本领域技术人员知悉,在训练样本和对应的标签确定的情况下,现有技术中任何的训练方法均落入本发明的保护范围。
第一确定模块330,用于根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式。
具体的,如图8所示,第一确定模块330包括:
第四获取模块331,用于获取用户的需求,所述用户的需求包括第一阈值和第二阈值。
本实施例中,第一阈值是压缩结果的大小对应的阈值,第二阈值是耗时对应阈值。
第二确定模块332,用于如果目标设备对应的第一压缩方式能够满足用户的需求且目标设备对应的第二压缩方式不能满足用户的需求,则将第一压缩方式确定为目标设备对应的压缩方式;如果目标设备对应的第一压缩方式不能满足用户的需求且目标设备对应的第二压缩方式能够满足用户的需求,则将第二压缩方式确定为目标设备对应的压缩方式。
本实施例中判断目标设备对应的第一压缩方式是否能够满足用户的需求的过程包括:如果dat2×com’1≤dat0且met’1≤t0,则判定目标设备对应的第一压缩方式能够满足用户的需求;否则,判定目标设备对应的第一压缩方式不能满足用户的需求;dat2为value和T的总大小,dat0为第一阈值,t0为第二阈值。
本实施例中判断目标设备对应的第二压缩方式是否能够满足用户的需求的过程包括:如果dat2×com’2≤dat0且met’2≤t0,则判定目标设备对应的第二压缩方式能够满足用户的需求;否则,判定目标设备对应的第二压缩方式不能满足用户的需求。
本实施例中,第二确定模块332还用于如果目标设备对应的第一压缩方式和第二压缩方式均能够满足用户的需求,则进入第三确定模块3321;如果目标设备对应的第一压缩方式和第二压缩方式均能够满足用户的需求,则进入第四确定模块3322。
第三确定模块3321,用于如果
(dat0-dat2×com’1)/dat0+(t0-met’1)/t0≥(dat0-dat2×com’2)/dat0+(t0-met’2)/t0
则将第一压缩方式确定为目标设备对应的压缩方式;否则,将第二压缩方式确定为目标设备对应的压缩方式。
本实施例基于第三确定模块3321实现了在第一压缩方式和第二压缩方式均能够满足用户需求的情况下对压缩方式的选择,选择的压缩方式对压缩结果的大小和时间方面的整体提升较好。
第四确定模块3322,用于如果
dat2×com’1≤dat0、met’1>t0、dat2×com’2≤dat0、met’2>t0且met’1>met’2
则将第二压缩方式确定为目标设备对应的压缩方式;如果
dat2×com’1≤dat0、met’1>t0、dat2×com’2≤dat0、met’2>t0且met’1≤met’2
则将第一压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1>dat0、met’1≤t0、dat2×com’2>dat0、met’2≤t0且com’1≥com’2,则将第二压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1>dat0、met’1≤t0、dat2×com’2>dat0、met’2≤t0且com’1<com’2,则将第一压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1≤dat0、met’1>t0、dat2×com’2>dat0、met’2≤t0且(met’1-t0)/t0≤(dat2×com’2-dat0)/dat0,则将第一压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1≤dat0、met’1>t0、dat2×com’2>dat0、met’2≤t0且(met’1-t0)/t0>(dat2×com’2-dat0)/dat0,则将第二压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1>dat0、met’1≤t0、dat2×com’2≤dat0、met’2>t0且(met’2-t0)/t0≤(dat1×com’1-dat0)/dat0,则将第二压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1>dat0、met’1≤t0、dat2×com’2≤dat0、met’2>t0且(met’2-t0)/t0>(dat1×com’1-dat0)/dat0,则将第一压缩方式确定为目标设备对应的压缩方式;如果dat2×com’1>dat0、met’1>t0、dat2×com’2>dat0且met’2>t0,进入第五确定模块3323。
第五确定模块3323,用于如果
(dat2×com’1-dat0)/dat0+(met’1-t0)/t0≥(dat2×com’2-dat0)/dat0+(met’2-t0)/t0
则将第二压缩方式确定为目标设备对应的压缩方式;否则,将第一压缩方式确定为目标设备对应的压缩方式。
本实施例基于第四确定模块3322和第五确定模块3323实现了在第一压缩方式和第二压缩方式均不能够满足用户需求的情况下对压缩方式的选择,选择的压缩方式能最大程度地满足用户对压缩结果的大小和时间的要求。
第一传输模块400,用于将所述目标设备的编码结果和压缩结果进行传输。
本实施例将目标设备对应的目标数据进行了划分,具体是划分为两部分,第一部分是目标设备的标签和第一类特征,第二部分是目标设备的第二类特征和向量,第二类特征对应有特征值;对于目标设备的第一部分数据,本实施例对其采用的是编码处理,得到的编码结果只包括0和1,一个0或1就可以表示目标设备是否存在对应的标签或第一类特征,编码结果相较于编码之前占用空间有所减小;对于目标设备的第二部分数据,本实施例采用目标设备对应的压缩方式对第二类特征对应的特征值和向量进行压缩,压缩后的数据相较于压缩之前占用空间也有所减小;由此,本实施例将目标设备对应的目标数据转换为了占用空间较小的编码结果和压缩结果,即减少了目标设备的标签、特征和向量对应的数据量,进而减少了目标设备的标签、特征和向量对应的数据量对应的传输成本和存储成本。
实施例三:
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标数据,所述目标数据包括目标设备的标签、特征和向量,目标设备的特征包括目标设备的第一类特征和第二类特征,所述第二类特征对应有特征值。
根据目标设备的标签和第一类特征获取目标设备的编码结果;所述编码结果包括若干位,每一位为0或1,1用于标志目标设备存在对应的标签或第一类特征,0用于标志目标设备不存在对应的标签或第一类特征。
采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩,得到目标设备的压缩结果;目标设备对应的压缩方式为预设的若干压缩方式中的一种。
将所述目标设备的编码结果和压缩结果进行传输。
实施例四:
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标数据,所述目标数据包括目标设备的标签、特征和向量,目标设备的特征包括目标设备的第一类特征和第二类特征,所述第二类特征对应有特征值。
根据目标设备的标签和第一类特征获取目标设备的编码结果;所述编码结果包括若干位,每一位为0或1,1用于标志目标设备存在对应的标签或第一类特征,0用于标志目标设备不存在对应的标签或第一类特征。
采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩,得到目标设备的压缩结果;目标设备对应的压缩方式为预设的若干压缩方式中的一种。
将所述目标设备的编码结果和压缩结果进行传输。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims (12)

1.一种数据压缩的处理方法,其特征在于,所述方法包括以下步骤:
获取目标数据,所述目标数据包括目标设备的标签、特征和向量,目标设备的特征包括目标设备的第一类特征和第二类特征,所述第二类特征对应有特征值;
根据目标设备的标签和第一类特征获取目标设备的编码结果;所述编码结果包括若干位,每一位为0或1,1用于标志目标设备存在对应的标签或第一类特征,0用于标志目标设备不存在对应的标签或第一类特征;
采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩,得到目标设备的压缩结果;目标设备对应的压缩方式为预设的若干压缩方式中的一种;
将所述目标设备的编码结果和压缩结果进行传输。
2.根据权利要求1所述的数据压缩的处理方法,其特征在于,预设的压缩方式包括第一压缩方式和第二压缩方式,所述目标设备对应的压缩方式根据经训练的目标神经网络模型的推理结果得到,所述推理结果包括目标设备对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时,所述耗时包括压缩时长和传输时长。
3.根据权利要求2所述的数据压缩的处理方法,其特征在于,所述目标设备对应的压缩方式的获取过程包括:
获取目标设备对应的第一序列,所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率;
将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理,得到推理结果;
根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式。
4.根据权利要求3所述的数据压缩的处理方法,其特征在于,目标神经网络模型的训练过程包括:
获取训练序列集,所述训练序列集包括若干训练序列,每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率;
遍历训练序列集,获取每一训练序列对应的压缩序列,每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时;
将每一训练序列作为训练样本,将每一训练序列对应的压缩序列作为对应训练样本的标签,对目标神经网络模型进行训练。
5.根据权利要求3所述的数据压缩的处理方法,其特征在于,根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式包括:
获取用户的需求,所述用户的需求包括第一阈值和第二阈值;
如果目标设备对应的第一压缩方式能够满足用户的需求且目标设备对应的第二压缩方式不能满足用户的需求,则将第一压缩方式确定为目标设备对应的压缩方式;如果目标设备对应的第一压缩方式不能满足用户的需求且目标设备对应的第二压缩方式能够满足用户的需求,则将第二压缩方式确定为目标设备对应的压缩方式。
6.一种数据压缩的处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标数据,所述目标数据包括目标设备的标签、特征和向量,目标设备的特征包括目标设备的第一类特征和第二类特征,所述第二类特征对应有特征值;
第一编码模块,用于根据目标设备的标签和第一类特征获取目标设备的编码结果;所述编码结果包括若干位,每一位为0或1,1用于标志目标设备存在对应的标签或第一类特征,0用于标志目标设备不存在对应的标签或第一类特征;
第一压缩模块,用于采用目标设备对应的压缩方式对目标设备的第二类特征对应的特征值和向量进行压缩,得到目标设备的压缩结果;目标设备对应的压缩方式为预设的若干压缩方式中的一种;
第一传输模块,用于将所述目标设备的编码结果和压缩结果进行传输。
7.根据权利要求6所述的数据压缩的处理装置,其特征在于,预设的压缩方式包括第一压缩方式和第二压缩方式,所述目标设备对应的压缩方式根据经训练的目标神经网络模型的推理结果得到,所述推理结果包括目标设备对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时,所述耗时包括压缩时长和传输时长。
8.根据权利要求7所述的数据压缩的处理装置,其特征在于,第一压缩模块包括:
第二获取模块,用于获取目标设备对应的第一序列,所述目标设备对应的第一序列包括目标设备对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率;
第一推理模块,用于将所述目标设备对应的第一序列输入所述经训练的目标神经网络模型进行推理,得到推理结果;
第一确定模块,用于根据所述推理结果将第一压缩方式或第二压缩方式确定为目标设备对应的压缩方式。
9.根据权利要求8所述的数据压缩的处理装置,其特征在于,第一推理模块包括:
第三获取模块,用于获取训练序列集,所述训练序列集包括若干训练序列,每一训练序列包括对应的第二类特征对应的特征值和向量的总大小、第二类特征对应的特征值的大小和向量的大小的比例、第二类特征的数量和第二类特征对应的特征值的重复率;
第一遍历模块,用于遍历训练序列集,获取每一训练序列对应的压缩序列,每一压缩序列包括对应的第一压缩方式对应的压缩率、第一压缩方式对应的耗时、第二压缩方式对应的压缩率和第二压缩方式对应的耗时;
第一训练模块,用于将每一训练序列作为训练样本,将每一训练序列对应的压缩序列作为对应训练样本的标签,对目标神经网络模型进行训练。
10.根据权利要求8所述的数据压缩的处理装置,其特征在于,第一确定模块包括:
第四获取模块,用于获取用户的需求,所述用户的需求包括第一阈值和第二阈值;
第二确定模块,用于如果目标设备对应的第一压缩方式能够满足用户的需求且目标设备对应的第二压缩方式不能满足用户的需求,则将第一压缩方式确定为目标设备对应的压缩方式;如果目标设备对应的第一压缩方式不能满足用户的需求且目标设备对应的第二压缩方式能够满足用户的需求,则将第二压缩方式确定为目标设备对应的压缩方式。
11.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的数据压缩的处理方法。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的数据压缩的处理方法。
CN202410051716.8A 2024-01-15 2024-01-15 一种数据压缩的处理方法、装置、设备及介质 Active CN117579079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410051716.8A CN117579079B (zh) 2024-01-15 2024-01-15 一种数据压缩的处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410051716.8A CN117579079B (zh) 2024-01-15 2024-01-15 一种数据压缩的处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117579079A true CN117579079A (zh) 2024-02-20
CN117579079B CN117579079B (zh) 2024-03-29

Family

ID=89864610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410051716.8A Active CN117579079B (zh) 2024-01-15 2024-01-15 一种数据压缩的处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117579079B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162993A (zh) * 2018-07-17 2019-08-23 腾讯科技(深圳)有限公司 脱敏处理方法、模型训练方法、装置和计算机设备
CN110808738A (zh) * 2019-09-16 2020-02-18 平安科技(深圳)有限公司 数据压缩方法、装置、设备及计算机可读存储介质
CN111626411A (zh) * 2019-02-27 2020-09-04 莫维迪乌斯有限公司 压缩数据的方法和装置
CN112534424A (zh) * 2018-08-03 2021-03-19 脸谱公司 在线系统中基于神经网络的内容分发
CN112994701A (zh) * 2019-12-02 2021-06-18 阿里巴巴集团控股有限公司 数据压缩方法、装置、电子设备及计算机可读介质
WO2021244105A1 (zh) * 2020-06-03 2021-12-09 深信服科技股份有限公司 一种特征向量维度压缩方法、装置、设备、介质
CN115276662A (zh) * 2022-07-27 2022-11-01 杭州跃马森创信息科技有限公司 一种微服务用户信息高效压缩传输方法
CN115599757A (zh) * 2021-07-08 2023-01-13 华为技术有限公司(Cn) 数据压缩方法、装置、计算设备及存储系统
CN116795808A (zh) * 2023-07-24 2023-09-22 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 数据处理方法以及相关设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162993A (zh) * 2018-07-17 2019-08-23 腾讯科技(深圳)有限公司 脱敏处理方法、模型训练方法、装置和计算机设备
CN112534424A (zh) * 2018-08-03 2021-03-19 脸谱公司 在线系统中基于神经网络的内容分发
CN111626411A (zh) * 2019-02-27 2020-09-04 莫维迪乌斯有限公司 压缩数据的方法和装置
CN110808738A (zh) * 2019-09-16 2020-02-18 平安科技(深圳)有限公司 数据压缩方法、装置、设备及计算机可读存储介质
WO2021051532A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 数据压缩方法、装置、设备及计算机可读存储介质
CN112994701A (zh) * 2019-12-02 2021-06-18 阿里巴巴集团控股有限公司 数据压缩方法、装置、电子设备及计算机可读介质
WO2021244105A1 (zh) * 2020-06-03 2021-12-09 深信服科技股份有限公司 一种特征向量维度压缩方法、装置、设备、介质
CN115599757A (zh) * 2021-07-08 2023-01-13 华为技术有限公司(Cn) 数据压缩方法、装置、计算设备及存储系统
CN115276662A (zh) * 2022-07-27 2022-11-01 杭州跃马森创信息科技有限公司 一种微服务用户信息高效压缩传输方法
CN116795808A (zh) * 2023-07-24 2023-09-22 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 数据处理方法以及相关设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
D. LEE, K. ROY: "Viterbi-Based Efficient Test Data Compression", 《IEEE TRANSACTIONS ON COMPUTER-AIDED DESIGN OF INTEGRATED CIRCUITS AND SYSTEMS》, 19 March 2012 (2012-03-19), pages 610 - 619 *
郭雷勇: "基于特征向量的物联网大数据压缩算法", 《通信技术》, 10 February 2018 (2018-02-10), pages 326 - 330 *

Also Published As

Publication number Publication date
CN117579079B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN110705592B (zh) 分类模型训练方法、装置、设备及计算机可读存储介质
CN109887562B (zh) 电子病历的相似度确定方法、装置、设备和存储介质
CN112925940B (zh) 一种相似图像检索方法、装置、计算机设备及存储介质
CN110489622B (zh) 对象信息的分享方法、装置、计算机设备和存储介质
CN110636445B (zh) 基于wifi的室内定位方法、装置、设备及介质
CN113538070A (zh) 用户生命价值周期检测方法、装置和计算机设备
CN114707041B (zh) 消息推荐方法、装置、计算机可读介质及电子设备
CN116977001A (zh) 地质灾害防治工程造价管理系统及其方法
CN117579079B (zh) 一种数据压缩的处理方法、装置、设备及介质
CN114445121A (zh) 一种广告点击率预测模型构建及广告点击率预测方法
CN116992946B (zh) 模型压缩方法、装置、存储介质和程序产品
CN117971821A (zh) 数据存储方法、数据读取方法、设备、存储介质
CN110502635B (zh) 信息质量评价方法及装置
CN112749557A (zh) 文本处理模型的构建方法和文本处理方法
CN115860802A (zh) 产品价值预测方法、装置、计算机设备和存储介质
CN116012066A (zh) 广告转化率的预测方法、装置、可读存储介质
CN116257704A (zh) 一种基于用户时空行为与社交信息的兴趣点推荐方法
CN113626483B (zh) 一种填写表单的前端缓存方法、系统、设备及存储介质
CN115496175A (zh) 新建边缘节点接入评估方法、装置、终端设备及产品
CN112989788A (zh) 关系三元组的提取方法、装置、设备及介质
CN112633285A (zh) 领域适应方法、装置、电子设备及存储介质
CN112101121B (zh) 人脸敏感识别方法及装置、存储介质及计算机设备
CN113326359A (zh) 一种对话应答及应答策略匹配模型的训练方法和装置
CN111178630A (zh) 一种负荷预测方法及装置
CN112417094B (zh) 基于网络文本的答案选择方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant