CN112181919A - 一种压缩方法、系统及电子设备和存储介质 - Google Patents
一种压缩方法、系统及电子设备和存储介质 Download PDFInfo
- Publication number
- CN112181919A CN112181919A CN201910604989.XA CN201910604989A CN112181919A CN 112181919 A CN112181919 A CN 112181919A CN 201910604989 A CN201910604989 A CN 201910604989A CN 112181919 A CN112181919 A CN 112181919A
- Authority
- CN
- China
- Prior art keywords
- data
- compressed
- size
- data size
- data block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007906 compression Methods 0.000 title claims abstract description 116
- 230000006835 compression Effects 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000005070 sampling Methods 0.000 claims abstract description 92
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000013144 data compression Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0625—Power saving in storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种压缩方法、系统及一种电子设备和计算机可读存储介质,该方法包括:获取待压缩数据块,并确定所述待压缩数据块的数据大小级别;其中,所述数据大小级别与所述待压缩数据块的数据大小呈负相关;若所述数据大小级别为一级,则确定抽样点数量和抽样区域大小;根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;计算所述抽样数据的信息熵,当所述信息熵小于信息熵阈值时对所述待压缩数据块进行压缩。由此可见,本申请提供的压缩方法通过识别和避免压缩不可压缩数据,在不显著增加存储开销的条件下,提升压缩吞吐率,降低资源开销。
Description
技术领域
本申请涉及存储技术领域,更具体地说,涉及一种压缩方法、系统及一种电子设备和一种计算机可读存储介质。
背景技术
随着数据总量的爆炸式增长,大规模数据存储成为挑战,同时企业购买存储设备的成本也不断增加。由于数据压缩技术能够消除冗余数据,进而减少磁盘等存储设备的I/O(中文全称:输入/输出,英文全称:Input/Output)时间和增加缓存数据的容量,因此数据压缩已经广泛地应用到各级存储系统中。
然而,压缩算法需要消耗系统资源,如果压缩空间节省能带来的优势超过压缩开销,系统的整体性能能够提升。相反,如果压缩率低甚至增加存储开销,压缩就会降低性能和浪费资源。为了降低压缩的资源开销,需要识别可压缩与不可压缩数据,避免压缩不可压缩的数据。
在现有技术中,可以基于前缀预测,即通过压缩局部数据块来推测整体的压缩率。当数据冗余度较低且缺乏局部性时,基于前缀预测的压缩方案存在误判和预测不准确的问题,导致损失较多的压缩率。
因此,如何以较低的压缩率损失为代价,降低压缩的资源开销是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种压缩方法、系统及一种电子设备和一种计算机可读存储介质,以较低的压缩率损失为代价,降低了压缩的资源开销。
为实现上述目的,本申请提供了一种压缩方法,包括:
获取待压缩数据块,并确定所述待压缩数据块的数据大小级别;其中,所述数据大小级别与所述待压缩数据块的数据大小呈负相关;
若所述数据大小级别为一级,则确定抽样点数量和抽样区域大小;
根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;
计算所述抽样数据的信息熵,若所述信息熵小于信息熵阈值则对所述待压缩数据块进行压缩。
其中,所述确定所述待压缩数据块的数据大小级别,包括:
判断所述待压缩数据块的数据大小是否小于第一数据大小阈值;
若所述数据大小小于所述第一数据大小阈值,则将所述待压缩数据块的数据大小级别确定为一级;
若所述数据大小大于或等于所述第一数据大小阈值,则将所述数据大小级别确定为二级。
其中,所述判断所述数据大小是否小于第一数据大小阈值之前,还包括:
判断所述待压缩数据块的数据大小是否小于第二数据大小阈值;其中,所述第一数据大小阈值大于所述第二数据大小阈值;
若所述数据大小小于所述第二数据大小阈值,则将所述数据大小级别确定为三级,并对所述待压缩数据块进行压缩;
若所述数据大小大于或等于所述第二数据大小阈值,则执行所述判断所述数据大小是否小于第一数据大小阈值的步骤。
其中,还包括:
若所述数据大小级别为二级,则根据预设前缀大小读取所述待压缩数据块的前缀数据;
对所述前缀数据进行压缩,并计算压缩率;
若所述压缩率小于压缩率阈值,则对所述待压缩数据块进行压缩。
其中,所述计算所述抽样数据的信息熵,包括:
根据所述抽样数据的符号总数和所述抽样数据中每个独立符号的计数计算所述抽样数据的信息熵。
其中,所述计算所述抽样数据的信息熵之前,还包括:
统计所述抽样数据中的独立符号数量,并判断所述独立符号数量是否小于第一符号总数阈值;
若所述独立符号数量小于所述第一符号总数阈值,则对所述待压缩数据块进行压缩;
若所述独立符号数量大于或等于所述第一符号总数阈值,则执行所述计算所述抽样数据的信息熵的步骤。
其中,所述计算所述抽样数据的信息熵之前,还包括:
判断所述独立符号数量是否大于第二符号总数阈值;
若所述独立符号数量大于所述第二符号总数阈值,则直接存储所述待压缩数据块;
若所述独立符号数量小于或等于所述第二符号总数阈值,则执行所述计算所述抽样数据的信息熵的步骤。
为实现上述目的,本申请提供了一种压缩系统,包括:
获取模块,用于获取待压缩数据块,并确定所述待压缩数据块的数据大小级别;其中,所述数据大小级别与所述待压缩数据块的数据大小呈负相关;
确定模块,用于若所述数据大小级别为一级,则确定抽样点数量和抽样区域大小;
抽样模块,用于根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;
第一压缩模块,用于计算所述抽样数据的信息熵,当所述信息熵小于信息熵阈值时对所述待压缩数据块进行压缩。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述压缩方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述压缩方法的步骤。
通过以上方案可知,本申请提供的一种压缩方法,包括:获取待压缩数据块,并确定所述待压缩数据块的数据大小级别;其中,所述数据大小级别与所述待压缩数据块的数据大小呈负相关;若所述数据大小级别为一级,则确定抽样点数量和抽样区域大小;根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;计算所述抽样数据的信息熵,当所述信息熵小于信息熵阈值时对所述待压缩数据块进行压缩。
本申请提供的压缩方法,对于待压缩数据块,采用全局的随机抽样方式,通过计算抽样数据的信息熵来评估待压缩数据块是否可压缩。基于抽样预测的方法预测准确度更高,且由于抽样区域大小与待压缩数据块的数据大小无关,因此可以提升数据压缩的吞吐率。由此可见,本申请提供的压缩方法通过识别和避免压缩不可压缩数据,在不显著增加存储开销的条件下,提升压缩吞吐率,降低资源开销。本申请还公开了一种压缩系统及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的第一种压缩方法的流程图;
图2为根据一示例性实施例示出的第二种压缩方法的流程图;
图3为根据一示例性实施例示出的第三种压缩方法的流程图;
图4为根据一示例性实施例示出的第四种压缩方法的流程图;
图5为根据一示例性实施例示出的一种压缩系统的结构图;
图6为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种压缩方法,以较低的压缩率损失为代价,降低了压缩的资源开销。
参见图1,根据一示例性实施例示出的第一种压缩方法的流程图,如图1所示,包括:
S101:获取待压缩数据块,并确定所述待压缩数据块的数据大小级别;其中,所述数据大小级别与所述待压缩数据块的数据大小呈负相关;
本实施例的执行主体可以为用于数据压缩的处理器。在具体实施中,写缓存模块接收业务的I/O请求,将该I/O请求对应的数据切分成数据块,即本步骤中的待压缩数据块。
在本实施例中,根据数据块的数据大小将其划分为不同的数据大小级别,其中,数据大小级别与数据大小呈负相关,即数据大小越小,数据大小级别越大。对于数据大小较小的待压缩数据块,即对于数据大小级别较大的数据块,为了提高压缩效率,可以对其进行直接压缩或直接存储,将在后续实施例进行详细介绍。
S102:若所述数据大小级别为一级,则确定抽样点数量和抽样区域大小;
在具体实施中,对该待压缩数据块进行压缩之前,需要预测其是否为可压缩数据块。本实施例基于全局的随机抽样方式进行预测,首先在本步骤中确定抽样点数量和抽样区域大小,抽样点数量即在待压缩数据块中抽取的样本数量,抽样区域大小即每个样本的大小。本领域技术人员可以根据实际情况设置不同的抽样点数量和抽样区域大小,在此不进行具体限定。
S103:根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;
在本步骤中,根据上一步骤中确定的抽样点数量和抽样区域大小对待压缩数据块进行抽样得到抽样数据,组成抽样缓冲区(buf),该抽样数据可以用于预测待压缩数据块是否为可压缩数据块。
S104:计算所述抽样数据的信息熵,当所述信息熵小于信息熵阈值时对所述待压缩数据块进行压缩。
在本步骤中,首先计算抽样数据的信息熵。具体的,可以根据所述抽样数据的符号总数和所述抽样数据中每个独立符号的计数计算所述抽样数据的信息熵,信息熵计算公式具体为:
其中,E为所述信息熵,C为所述抽样数据中的符号总数,即抽样数据中包含的ASCII(中文全称:美国信息交换标准代码,英文全称:American Standard Code forInformation Interchange)的总数,C2为所述抽样数据中每个独立符号的计数,每个独立符号为不同的ASCII码。
当抽样数据的信息熵小于信息熵阈值时,说明待压缩数据块的冗余度较高,为可压缩数据块,调用压缩算法压缩该待压缩数据块。否则,说明待压缩数据块为不可压缩数据块,直接存储待压缩数据块。可以理解的是,信息熵阈值为信息熵阈值,本领域技术人员可以根据实际情况进行灵活设置。
本申请实施例提供的压缩方法,对于待压缩数据块,采用全局的随机抽样方式,通过计算抽样数据的信息熵来评估待压缩数据块是否可压缩。基于抽样预测的方法预测准确度更高,且由于抽样区域大小与待压缩数据块的数据大小无关,因此可以提升数据压缩的吞吐率。由此可见,本申请实施例提供的压缩方法通过识别和避免压缩不可压缩数据,在不显著增加存储开销的条件下,提升压缩吞吐率,降低资源开销。
本申请实施例公开了一种压缩方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图2,根据一示例性实施例示出的第二种压缩方法的流程图,如图2所示,包括:
S201:获取待压缩数据块,并判断所述待压缩数据块的数据大小级别,若所述数据大小级别为一级,则确定抽样点数量和抽样区域大小;
S202:根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;
S203:统计所述抽样数据中的独立符号数量,并判断所述独立符号数量是否小于第一符号总数阈值;若是,则进入S206;若否,则进入S204;
在本实施例中,在利用信息熵确定抽样数据的冗余度之前,首先利用独立符号数量确定抽样数据的冗余度,独立符号的数量为抽样数据中包含的不同的ASCII码数量。在抽样点数量和抽样区域大小确定的情况下,抽样数据的大小一定,即抽样数据中的符号总数一定,独立符号数量较小(小于第一符号总数阈值时)说明抽样数据的冗余度较高,进而说明待压缩数据块的冗余度较高,为可压缩数据块,进入S206。
S204:判断所述独立符号数量是否大于第二符号总数阈值;若是,则进入S207;若否,则进入S205;
在本步骤中,抽样数据中的符号总数一定,独立符号数量较大(大于第二符号总数阈值时)说明抽样数据的冗余度较低,进而说明待压缩数据块的冗余度较低,为不可压缩数据块,进入S207。可以理解的是,第一符号总数阈值和第二符号总数阈值为独立符号数量阈值,本领域技术人员可以根据实际情况进行灵活设置。
S205:计算所述抽样数据的信息熵,判断所述信息熵是否小于信息熵阈值;若是,则进入S206;否则进入S207;
S206:对所述待压缩数据块进行压缩;
S207:直接存储所述待压缩数据块。
由此可见,在本实施例中,首先利用独立符号数量确定抽样数据的冗余度,当独立符号数量小于第一符号总数阈值或大于第二符号总数阈值时,可直接确定对待压缩数据块执行的操作,压缩或直接存储,省略了计算抽样数据信息熵的步骤,进一步降低了资源消耗。
本申请实施例公开了一种压缩方法,相对于第一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图3,根据一示例性实施例示出的第三种压缩方法的流程图,如图3所示,包括:
S301:获取待压缩数据块,并确定所述待压缩数据块的数据大小级别;
具体的,确定所述待压缩数据块的数据大小级别可以包括:判断所述待压缩数据块的数据大小是否小于第一数据大小阈值;若所述数据大小小于所述第一数据大小阈值,则将所述待压缩数据块的数据大小级别确定为一级;若所述数据大小大于或等于所述第一数据大小阈值,则将所述数据大小级别确定为二级。
优选的,判断所述数据大小是否小于第一数据大小阈值之前,还包括:判断所述待压缩数据块的数据大小是否小于第二数据大小阈值;其中,所述第一数据大小阈值大于所述第二数据大小阈值;若是,则进入S306,若否,则执行所述判断所述数据大小是否小于第一数据大小阈值的步骤。即当待压缩数据块的数据大小很小(小于第二数据大小阈值)时,可直接对该待压缩数据块进行压缩,省略了后续步骤,进一步降低了资源消耗。
在本实施例中,对于不同数据大小的数据块采用不同的策略进行预测。具体的,对于小块数据块(数据大小小于第一数据大小阈值的数据块),采用压缩数据前缀进行预测,进入S303,对于大块数据块(数据大小大于或等于第一数据大小阈值的数据块),采用全局的随机抽样方式进行预测。可以理解的是,此处不对第一数据大小阈值进行具体限定,例如,第一数据大小阈值可以为32KB,小块数据块为数据大小为0-32KB的数据块,大块数据块为数据大小为32KB-128KB的数据块(此时写缓存模块最大以128KB为单位对数据进行切分)。
S302:判断所述数据大小级别是否为一级,若是,则进入S304;若否,则进入S303;
S303:根据预设前缀大小读取所述待压缩数据块的前缀数据,对所述前缀数据进行压缩,并计算压缩率,判断所述压缩率是否小于压缩率阈值;若是,则进入S307;否则进入S308;
在本步骤中,对于小块数据块,根据预设前缀大小读取前缀数据,例如对于数据大小为8KB数据块,预设前缀大小可以为1KB,前缀数据为数据块中前1KB的数据。通过压缩前缀数据计算压缩率,若压缩率小于压缩率阈值时,说明待压缩数据块为可压缩数据块,进入S307,否则待压缩数据块为不可压缩数据块,进入S308。
S304:确定抽样点数量和抽样区域大小;
S305:根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;
S306:计算所述抽样数据的信息熵,判断所述信息熵是否小于信息熵阈值;若是,则进入S307;否则进入S308;
S307:对所述待压缩数据块进行压缩;
S308:直接存储所述待压缩数据块。
由此可见,本实施例针对小块数据块基于压缩数据前缀进行预测,针对大块数据块基于抽样进行预测。由于前缀数据的大小较小,压缩效率较高,消耗的系统资源较少,因此本实施例实现了针对不同数据大小的数据块采用不同的策略预测其是否为可压缩数据块,实现了自适应压缩预测,进一步降低了资源消耗。
本申请实施例公开了一种压缩方法,相对于第一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图4,根据一示例性实施例示出的第四种压缩方法的流程图,如图4所示,包括:
S401:获取待压缩数据块,确定所述待压缩数据块的数据大小;
S402:判断所述数据大小是否小于第二数据大小阈值;若是,则进入S410;若否,则进入S403;
S403:判断所述数据大小是否小于第一数据大小阈值;若是,则进入S404;若否,则进入S405;
S404:根据预设前缀大小读取所述待压缩数据块的前缀数据,对所述前缀数据进行压缩,并计算压缩率,判断所述压缩率是否小于压缩率阈值;若是,则进入S410;否则进入S411;
S405:确定抽样点数量和抽样区域大小;
S406:根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;
S407:统计所述抽样数据中的独立符号数量,并判断所述独立符号数量是否小于第一符号总数阈值;若是,则进入S410;若否,则进入S408;
S408:判断所述独立符号数量是否大于第二符号总数阈值;若是,则进入S411;若否,则进入S409;
S409:计算所述抽样数据的信息熵,判断所述信息熵是否小于信息熵阈值;若是,则进入S410;否则进入S411;
S410:对所述待压缩数据块进行压缩;
S411:直接存储所述待压缩数据块。
由此可见,本实施例实现了基于预测的自适应压缩方法,可以根据数据的I/O特征和用户实际需要调整数据大小阈值(第一数据大小阈值和第二数据大小阈值)、压缩率阈值、独立符号数量阈值(第一符号总数阈值和第二符号总数阈值)和信息熵阈值,从而以最小的存储开销来获得最大的吞吐率提升。
下面对本申请实施例提供的一种压缩系统进行介绍,下文描述的一种压缩系统与上文描述的一种压缩方法可以相互参照。
参见图5,根据一示例性实施例示出的一种压缩系统的结构图,如图5所示,包括:
获取模块501,用于获取待压缩数据块,并确定所述待压缩数据块的数据大小级别;其中,所述数据大小级别与所述待压缩数据块的数据大小呈负相关;
确定模块502,用于若所述数据大小级别为一级,则确定抽样点数量和抽样区域大小;
抽样模块503,用于根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;
第一压缩模块504,用于计算所述抽样数据的信息熵,当所述信息熵小于信息熵阈值时对所述待压缩数据块进行压缩。
本申请实施例提供的压缩系统,对于待压缩数据块,采用全局的随机抽样方式,通过计算抽样数据的信息熵来评估待压缩数据块是否可压缩。基于抽样预测的方法预测准确度更高,且由于抽样区域大小与待压缩数据块的数据大小无关,因此可以提升数据压缩的吞吐率。由此可见,本申请实施例提供的压缩系统通过识别和避免压缩不可压缩数据,在不显著增加存储开销的条件下,提升压缩吞吐率,降低资源开销。
在上述实施例的基础上,作为一种优选实施方式,所述获取模块501包括:
获取单元,用于获取待压缩数据块;
第一判断单元,用于判断所述数据大小是否小于第一数据大小阈值;若是,则启动第一确定单元的工作流程;若否,则启动第二确定单元的工作流程;
所述第一确定单元,用于将所述待压缩数据块的数据大小级别确定为一级;
所述第二确定单元,用于将所述数据大小级别确定为二级。
在上述实施例的基础上,作为一种优选实施方式,所述获取模块501还包括:
第二判断单元,用于判断所述待压缩数据块的数据大小是否小于第二数据大小阈值;若是,则启动第一压缩单元的工作流程;若否,则启动所述第一判断单元的工作流程;
所述第一压缩单元,用于将所述数据大小级别确定为三级,并对所述待压缩数据块进行压缩。
在上述实施例的基础上,作为一种优选实施方式,还包括:
读取模块,用于若所述数据大小级别为二级,则根据预设前缀大小读取所述待压缩数据块的前缀数据;
计算模块,用于对所述前缀数据进行压缩,并计算压缩率;
第二压缩模块,用于当所述压缩率小于压缩率阈值时,对所述待压缩数据块进行压缩。
在上述实施例的基础上,作为一种优选实施方式,所述第一压缩模块504包括:
计算单元,用于根据所述抽样数据的符号总数和所述抽样数据中每个独立符号的计数计算所述抽样数据的信息熵;
第二压缩单元,用于当所述信息熵小于信息熵阈值时对所述待压缩数据块进行压缩。
在上述实施例的基础上,作为一种优选实施方式,还包括:
统计模块,用于统计所述抽样数据中的独立符号数量,并判断所述独立符号数量是否小于第一符号总数阈值;若是,则对所述待压缩数据块进行压缩;若否,则启动所述第一压缩模块504的工作流程。
在上述实施例的基础上,作为一种优选实施方式,还包括:
判断模块,用于判断所述独立符号数量是否大于第二符号总数阈值;若是,则直接存储所述待压缩数据块;若否,则启动所述第一压缩模块504的工作流程。
关于上述实施例中的系统,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请还提供了一种电子设备,参见图6,本申请实施例提供的一种电子设备600的结构图,如图6所示,可以包括处理器11和存储器12。该电子设备600还可以包括多媒体组件13,输入/输出(I/O)接口14,以及通信组件15中的一者或多者。
其中,处理器11用于控制该电子设备600的整体操作,以完成上述的压缩方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备600的操作,这些数据例如可以包括用于在该电子设备600上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备600与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件15可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的压缩方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述压缩方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器12,上述程序指令可由电子设备600的处理器11执行以完成上述的压缩方法。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种压缩方法,其特征在于,包括:
获取待压缩数据块,并确定所述待压缩数据块的数据大小级别;其中,所述数据大小级别与所述待压缩数据块的数据大小呈负相关;
若所述数据大小级别为一级,则确定抽样点数量和抽样区域大小;
根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;
计算所述抽样数据的信息熵,若所述信息熵小于信息熵阈值则对所述待压缩数据块进行压缩。
2.根据权利要求1所述压缩方法,其特征在于,所述确定所述待压缩数据块的数据大小级别,包括:
判断所述待压缩数据块的数据大小是否小于第一数据大小阈值;
若所述数据大小小于所述第一数据大小阈值,则将所述待压缩数据块的数据大小级别确定为一级;
若所述数据大小大于或等于所述第一数据大小阈值,则将所述数据大小级别确定为二级。
3.根据权利要求2所述压缩方法,其特征在于,所述判断所述数据大小是否小于第一数据大小阈值之前,还包括:
判断所述待压缩数据块的数据大小是否小于第二数据大小阈值;其中,所述第一数据大小阈值大于所述第二数据大小阈值;
若所述数据大小小于所述第二数据大小阈值,则将所述数据大小级别确定为三级,并对所述待压缩数据块进行压缩;
若所述数据大小大于或等于所述第二数据大小阈值,则执行所述判断所述数据大小是否小于第一数据大小阈值的步骤。
4.根据权利要求2或3所述压缩方法,其特征在于,还包括:
若所述数据大小级别为二级,则根据预设前缀大小读取所述待压缩数据块的前缀数据;
对所述前缀数据进行压缩,并计算压缩率;
若所述压缩率小于压缩率阈值,则对所述待压缩数据块进行压缩。
5.根据权利要求1所述压缩方法,其特征在于,所述计算所述抽样数据的信息熵,包括:
根据所述抽样数据的符号总数和所述抽样数据中每个独立符号的计数计算所述抽样数据的信息熵。
6.根据权利要求1所述压缩方法,其特征在于,所述计算所述抽样数据的信息熵之前,还包括:
统计所述抽样数据中的独立符号数量,并判断所述独立符号数量是否小于第一符号总数阈值;
若所述独立符号数量小于所述第一符号总数阈值,则对所述待压缩数据块进行压缩;
若所述独立符号数量大于或等于所述第一符号总数阈值,则执行所述计算所述抽样数据的信息熵的步骤。
7.根据权利要求6所述压缩方法,其特征在于,所述计算所述抽样数据的信息熵之前,还包括:
判断所述独立符号数量是否大于第二符号总数阈值;
若所述独立符号数量大于所述第二符号总数阈值,则直接存储所述待压缩数据块;
若所述独立符号数量小于或等于所述第二符号总数阈值,则执行所述计算所述抽样数据的信息熵的步骤。
8.一种压缩系统,其特征在于,包括:
获取模块,用于获取待压缩数据块,并确定所述待压缩数据块的数据大小级别;其中,所述数据大小级别与所述待压缩数据块的数据大小呈负相关;
确定模块,用于若所述数据大小级别为一级,则确定抽样点数量和抽样区域大小;
抽样模块,用于根据所述抽样点数量和所述抽样区域大小对所述待压缩数据块进行抽样得到抽样数据;
第一压缩模块,用于计算所述抽样数据的信息熵,当所述信息熵小于信息熵阈值时对所述待压缩数据块进行压缩。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述压缩方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述压缩方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910604989.XA CN112181919A (zh) | 2019-07-05 | 2019-07-05 | 一种压缩方法、系统及电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910604989.XA CN112181919A (zh) | 2019-07-05 | 2019-07-05 | 一种压缩方法、系统及电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112181919A true CN112181919A (zh) | 2021-01-05 |
Family
ID=73915360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910604989.XA Pending CN112181919A (zh) | 2019-07-05 | 2019-07-05 | 一种压缩方法、系统及电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112181919A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590051A (zh) * | 2021-09-29 | 2021-11-02 | 阿里云计算有限公司 | 数据存储和读取方法、装置、电子设备及介质 |
CN113609429A (zh) * | 2021-08-10 | 2021-11-05 | 广州至真信息科技有限公司 | 一种基于消息队列的数据处理方法、装置、计算机设备和存储介质 |
CN113659992A (zh) * | 2021-07-16 | 2021-11-16 | 深圳智慧林网络科技有限公司 | 数据压缩方法及装置、存储介质 |
CN113872947A (zh) * | 2021-09-15 | 2021-12-31 | 珠海格力电器股份有限公司 | 数据上报方法及装置、电子设备和计算机可读存储介质 |
CN117473300A (zh) * | 2023-11-08 | 2024-01-30 | 广州筑鼎建筑与规划设计院有限公司 | 一种基于大数据的城市建设规划方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140195498A1 (en) * | 2013-01-10 | 2014-07-10 | International Business Machines Corporation | Real-time reduction of cpu overhead for data compression |
CN107241608A (zh) * | 2017-05-05 | 2017-10-10 | 北京普及芯科技有限公司 | 一种用于帧缓存解压的硬件容错方法和装置 |
CN107665093A (zh) * | 2016-07-29 | 2018-02-06 | 深圳市深信服电子科技有限公司 | 数据存储方法及装置 |
US20180309841A1 (en) * | 2017-04-24 | 2018-10-25 | International Business Machines Corporation | Apparatus, method, and computer program product for heterogenous compression of data streams |
CN109075798A (zh) * | 2016-03-31 | 2018-12-21 | 零点科技公司 | 可变大小符号基于熵的数据压缩 |
-
2019
- 2019-07-05 CN CN201910604989.XA patent/CN112181919A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140195498A1 (en) * | 2013-01-10 | 2014-07-10 | International Business Machines Corporation | Real-time reduction of cpu overhead for data compression |
CN103929185A (zh) * | 2013-01-10 | 2014-07-16 | 国际商业机器公司 | 实时减少数据压缩的中央处理单元开销的方法和系统 |
CN109075798A (zh) * | 2016-03-31 | 2018-12-21 | 零点科技公司 | 可变大小符号基于熵的数据压缩 |
CN107665093A (zh) * | 2016-07-29 | 2018-02-06 | 深圳市深信服电子科技有限公司 | 数据存储方法及装置 |
US20180309841A1 (en) * | 2017-04-24 | 2018-10-25 | International Business Machines Corporation | Apparatus, method, and computer program product for heterogenous compression of data streams |
CN107241608A (zh) * | 2017-05-05 | 2017-10-10 | 北京普及芯科技有限公司 | 一种用于帧缓存解压的硬件容错方法和装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113659992A (zh) * | 2021-07-16 | 2021-11-16 | 深圳智慧林网络科技有限公司 | 数据压缩方法及装置、存储介质 |
CN113659992B (zh) * | 2021-07-16 | 2023-08-11 | 深圳智慧林网络科技有限公司 | 数据压缩方法及装置、存储介质 |
CN113609429A (zh) * | 2021-08-10 | 2021-11-05 | 广州至真信息科技有限公司 | 一种基于消息队列的数据处理方法、装置、计算机设备和存储介质 |
CN113609429B (zh) * | 2021-08-10 | 2024-04-05 | 广州至真信息科技有限公司 | 一种基于消息队列的数据处理方法、装置、计算机设备和存储介质 |
CN113872947A (zh) * | 2021-09-15 | 2021-12-31 | 珠海格力电器股份有限公司 | 数据上报方法及装置、电子设备和计算机可读存储介质 |
CN113590051A (zh) * | 2021-09-29 | 2021-11-02 | 阿里云计算有限公司 | 数据存储和读取方法、装置、电子设备及介质 |
CN117473300A (zh) * | 2023-11-08 | 2024-01-30 | 广州筑鼎建筑与规划设计院有限公司 | 一种基于大数据的城市建设规划方法 |
CN117473300B (zh) * | 2023-11-08 | 2024-09-03 | 广州筑鼎建筑与规划设计院有限公司 | 一种基于大数据的城市建设规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112181919A (zh) | 一种压缩方法、系统及电子设备和存储介质 | |
US11429880B2 (en) | Methods and systems for preloading applications and generating prediction models | |
CN109756230B (zh) | 数据压缩存储方法、数据压缩方法、装置、设备及介质 | |
EP3514684B1 (en) | Memory recovery method and apparatus | |
CN110764906B (zh) | 内存回收处理方法、装置、电子设备以及存储介质 | |
US10811031B2 (en) | Method and device for obtaining amplitude of sound in sound zone | |
CN110765031B (zh) | 数据存储方法、装置、移动终端及存储介质 | |
CN110377527B (zh) | 一种内存管理的方法以及相关设备 | |
CN109101524B (zh) | 存储驱动器及其上的压缩系统及压缩其上的数据的方法 | |
CN110018902B (zh) | 内存处理方法和装置、电子设备、计算机可读存储介质 | |
CN109033247B (zh) | 一种应用程序的管理方法、装置、存储介质及终端 | |
CN108255673B (zh) | 应用程序占用资源的检测方法、装置和存储介质 | |
CN109002424B (zh) | 文件格式转换方法、装置、计算机设备及存储介质 | |
CN109947496A (zh) | 应用程序预加载方法、装置、存储介质及移动终端 | |
CN110209348B (zh) | 数据存储方法、装置、电子设备及存储介质 | |
CN112445725A (zh) | 预读取文件页的方法、装置和终端设备 | |
US20190370009A1 (en) | Intelligent swap for fatigable storage mediums | |
CN109150642B (zh) | 应用内存错误检测方法、检测装置及存储介质 | |
CN112559390B (zh) | 一种数据写入控制方法及存储设备 | |
CN106502833B (zh) | 数据备份方法及装置 | |
CN111311014B (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
CN110780820A (zh) | 一种连续存储空间确定方法、装置及电子设备和存储介质 | |
CN115023689A (zh) | 分流方法、装置、服务器以及存储介质 | |
CN103957307B (zh) | 一种信息处理方法及电子设备 | |
CN111258754A (zh) | 一种基于时间窗口的资源处理方法、装置、介质以及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |