CN111277274A - 数据压缩方法、装置、设备及存储介质 - Google Patents

数据压缩方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111277274A
CN111277274A CN202010031597.1A CN202010031597A CN111277274A CN 111277274 A CN111277274 A CN 111277274A CN 202010031597 A CN202010031597 A CN 202010031597A CN 111277274 A CN111277274 A CN 111277274A
Authority
CN
China
Prior art keywords
compressed
data
date
compression
partition table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010031597.1A
Other languages
English (en)
Other versions
CN111277274B (zh
Inventor
黄一格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010031597.1A priority Critical patent/CN111277274B/zh
Publication of CN111277274A publication Critical patent/CN111277274A/zh
Application granted granted Critical
Publication of CN111277274B publication Critical patent/CN111277274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据存储领域,公开了一种数据压缩方法、装置、设备及存储介质,所述方法包括:获取数据表的元数据;根据数据表的存储大小和日期分区表标识对数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表;按照第一分级规则对待压缩的非日期分区表进行冷热分级,以获得待压缩的非日期分区表的使用等级;按照第二分级规则对待压缩的日期分区表中的各分区进行冷热分级,以获得待压缩的日期分区表的各分区的使用等级;根据使用等级按照预设压缩规则确定待压缩的日期分区表和非日期分区表的各分区的目标压缩等级;按照目标压缩等级对待压缩的日期分区表和非日期分区表的各分区进行数据压缩。对数据表进行分类压缩,优化数据表的存储。

Description

数据压缩方法、装置、设备及存储介质
技术领域
本申请涉及数据存储领域,尤其涉及一种数据压缩方法、装置、设备及存储介质。
背景技术
目前,随着计算机技术的发展,为了便于数据的调用和查询,大部分企业的企业数据都保存在数据库中,而随着企业的不断发展,数据库中的数据量逐渐增加,企业需要花费大量的硬盘资源去储存这些数据,增加了企业的负担,因此,可以对数据库中的数据进行数据压缩,以减小数据表占用硬盘的大小。目前的数据压缩大多是对数据表进行主观的分类,然后对部分数据表进行全部压缩,但是,依靠主观因素进行压缩的分类可能会导致分类不够合理,并且在分类不合理的情况下,在使用数据表时,需要先对已经压缩了的数据表进行解压操作,不仅消耗资源并且也增加了使用数据表前的等待时间,使用不便。
因此,如何对数据表进行分类压缩,以降低数据表占用硬盘的大小,优化数据表的存储成为亟待解决的问题。
发明内容
本申请提供了一种数据压缩方法、装置、设备及存储介质,以对数据表进行分类压缩,降低数据表占用硬盘的大小,优化数据表的存储。
第一方面,本申请提供了一种数据压缩方法,所述方法包括:
获取数据表的元数据,所述元数据包括所述数据表的存储大小和日期分区表标识;
根据所述数据表的存储大小和日期分区表标识对所述数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表;
按照第一分级规则对所述待压缩的非日期分区表进行冷热分级,以获得所述待压缩的非日期分区表的使用等级;
按照第二分级规则对所述待压缩的日期分区表中的各分区进行冷热分级,以获得所述待压缩的日期分区表的各分区的使用等级;
根据所述使用等级按照预设压缩规则确定所述待压缩的日期分区表和待压缩的非日期分区表的各分区的目标压缩等级;
按照所述目标压缩等级对所述待压缩的日期分区表和待压缩的非日期分区表的各分区进行数据压缩。
第二方面,本申请还提供了一种数据压缩装置,所述装置包括:
元数据模块,用于获取数据表的元数据,所述元数据包括所述数据表的存储大小和日期分区表标识;
表分类模块,用于根据所述数据表的存储大小和日期分区表标识对所述数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表;
非日期分级模块,用于按照第一分级规则对所述待压缩的非日期分区表进行冷热分级,以获得所述待压缩的非日期分区表的使用等级;
日期分级模块,用于按照第二分级规则对所述待压缩的日期分区表中的各分区进行冷热分级,以获得所述待压缩的日期分区表的各分区的使用等级;
压缩等级模块,用于根据所述使用等级按照预设压缩规则确定所述待压缩的日期分区表和待压缩的非日期分区表的各分区的目标压缩等级;
数据压缩模块,用于按照所述目标压缩等级对所述待压缩的日期分区表和待压缩的非日期分区表的各分区进行数据压缩。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的数据压缩方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的数据压缩方法。
本申请公开了一种数据压缩方法、装置、设备及存储介质,通过从元数据中获取数据表的存储大小和日期分区表标识,并根据数据表的存储大小和日期分区表标识对数据表进行分类,得到待压缩的日期分区表和待压缩的非日期分区表,对于待压缩的日期分区表和待压缩的非日期分区表分别采用不同的分级规则进行冷热分级,从而分别获得待压缩的日期分区表和待压缩的非日期分区表的使用等级,最终根据使用等级按照预设压缩规则确定待压缩的日期分区表和待压缩的非日期分区表的目标压缩等级,并根据确定的目标压缩等级进行数据压缩。根据数据表的类型采取不同的分级规则,并根据数据表的使用等级确定相应的目标压缩等级,从而实现对数据表进行分类压缩,优化数据表的存储。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据压缩方法的示意流程图;
图2是本申请实施例提供的对数据表进行分类的步骤示意流程图;
图3是本申请实施例提供的对待压缩的非日期分区表进行冷热分级的步骤示意流程图;
图4是本申请实施例提供的对待压缩的日期分区表中的各分区进行冷热分级的步骤示意流程图;
图5为本申请实施例提供的一种数据压缩装置的示意性框图;
图6为本申请一实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种数据压缩方法、装置、计算机设备及存储介质。该数据压缩方法可用于对数据库中的数据表进行分类压缩,从而优化数据表的存储,降低数据表占用硬盘的大小。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种数据压缩方法的示意流程图。该数据压缩方法通过对数据库中的数据表进行类型和使用次数的分类,对于不同类别的数据表采取不同的压缩方法,以优化数据表的存储。
如图1所示,该数据压缩方法,具体包括:步骤S101至步骤S106。
S101、获取数据表的元数据。
其中,所述元数据是指数据表的数据,包括数据表的存储大小和日期分区表标识等信息。其中,数据表的存储大小是指数据库中的每个数据表所占用磁盘空间的大小,日期分区表标识是指标识该数据表是否是按照日期将数据进行分区储存的数据表的标识。
示例性的,获取到的数据表的存储大小可以分别记为:st1、st2、st3……stn,其中,stn对应的是表tn的存储大小。将获取到的数据表的日期分区表标识分别记为:p1、p2、p3……pn,pn对应的是表tn的日期分区表标识。
S102、根据所述数据表的存储大小和日期分区表标识对所述数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表。
具体地,根据数据表的存储大小将数据表划分为待压缩的数据表和非待压缩的数据表,并根据日期分区表标识对数据表进行日期分区表和非日期分区表的分类,以完成对数据表的分类。
在一些实施例中,请参考图2,对数据表进行分类的步骤包括步骤S1021和步骤S1022。
S1021、根据所述数据表的存储大小将所述数据表按照存储阈值进行分类,以将所述数据表分为待压缩数据表和非待压缩数据表。
具体地,存储阈值可以为一个,也可以为多个,在本实施例中,以存储阈值为一个为例进行详细说明。
在获取到数据表的存储大小后,判断数据表的存储大小是否大于预设的存储阈值,若数据表的存储大小大于或等于预设的存储阈值,则说明数据表的数据存储量较大,确定该数据表为待压缩数据表;若数据表的存储大小小于预设的存储阈值,则说明数据表的数据存储量较小,确定该数据表为非待压缩数据表。
按照预设存储阈值将数据表进行分类,是为了区分出数据存储量较大的数据表和数据存储量较小的数据表,从而只对数据存储量较大的数据表进行压缩。这是因为对数据存储量较大的数据表进行压缩能够节省更多的磁盘空间,而对数据存储量较小的数据表进行压缩时,节省磁盘空间的效果不明显且会产生大量的压缩任务。
例如,预设的存储阈值为10M,若0≤stn<10,则确定该表为非待压缩数据表;若stn≥10,则确定该表为待压缩数据表。
S1022、根据日期分区表标识将所述待压缩数据表分为待压缩的日期分区表和待压缩的非日期分区表。
具体地,在对数据表进行分类得到待压缩数据表后,获取每个待压缩数据表的日期分区表标识,根据该日期分区表标识将待压缩数据表分为日期分区表和非日期分区表。
例如,当pn的值为1时,表示表tn是日期分区表,当pn的值为0时,表示表tn是非日期分区表。
需要说明的是,在另外一些实施例中,还可以首先根据日期分区表标识将数据表分为日期分区表和非日期分区表,再根据日期分区表和非日期分区表的存储大小,从日期分区表和非日期分区表中区分出待压缩的日期分区表和待压缩的非日期分区表。
S103、按照第一分级规则对所述待压缩的非日期分区表进行冷热分级,以获得所述待压缩的非日期分区表的使用等级。
具体地,第一分级规则是指将待压缩的非日期分区表按照访问次数进行冷热分级的规则。将待压缩的非日期分区表按照访问次数进行冷热分级,从而将待压缩的非日期分区表分为两个或两个以上的使用等级。例如,可以设置待压缩的非日期分区表的访问次数越多,其使用等级越高。
在一些实施例中,请参考图3,对待压缩的非日期分区表进行冷热分级包括步骤S1031和步骤S1032。
S1031、获取所述待压缩的非日期分区表在预设时段内的访问次数。S1032、根据所述访问次数和第一分级阈值对所述待压缩的非日期分区表进行分级。
具体地,预设时段可以是由操作人员根据实际情况进行设置的。第一分级阈值可以是一个值,也可以是多个值,第一分级阈值划分出两个以上的数值区间。在具体实施过程中,第一分级阈值也可以由操作人员根据实际情况进行设置,例如,若磁盘资源比较紧张,可以调整第一分级阈值的值,使得更多的数据落在较冷区间,最终将使更多数据被压缩。
本申请以第一分级阈值为多个值为例进行详细说明。在从元数据中获取到一段时间内各个待压缩的非日期分区表的访问次数后,判断该访问次数落入哪一个数值区间内,从而完成对待压缩的非日期分区表的分级。
例如,从元数据中获取pn为0的数据表tn在最近3个月内的访问次数,并分别记为:q1、q2、q3……qn,其中,qn对应的是表tn在最近3个月内的访问次数。第一分级阈值有四个,分别为3、50、100和500,分别将非日期分区表分为五个使用等级hn,如下所示:
Figure BDA0002364510860000061
当数据表t1在最近3个月内的访问次数为150时,则数据表t1的使用等级h1为4级。
S104、按照第二分级规则对所述待压缩的日期分区表中的各分区进行冷热分级,以获得所述待压缩的日期分区表的各分区的使用等级。
具体地,第二分级规则是指将待压缩的日期分区表内的各个分区按照访问次数进行冷热分级的规则。将待压缩的日期分区表内的各个分区按照访问次数进行冷热分级,从而将待压缩的日期分区表内的分区根据其使用情况的不同分为不同的使用等级。例如,可以设置待压缩的日期分区表内的分区的访问次数越多,其使用等级越高。
在一些实施例中,请参考图4,对待压缩的日期分区表中的各分区进行冷热分级,包括步骤S1041和步骤S1042。
S1041、获取所述待压缩的日期分区表中的各分区在预设时段内的访问次数。S1042、根据所述访问次数和第二分级阈值对所述待压缩的日期分区表中的各分区进行分级。
具体地,预设时段可以是由操作人员根据实际情况进行设置的。第二分级阈值可以是一个值,也可以是多个值。
本申请以第二分级阈值为多个值为例进行详细说明。第二分级阈值划分出两个以上的数值区间,在从元数据中获取到一段时间内待压缩的日期分区表中的各分区的访问次数后,判断该访问次数落入哪一个数值区间内,从而完成对待压缩的日期分区表中的各分区的分级。
例如,从元数据中获取pn为1的数据表tn内的所有分区在最近3个月内的访问次数,并分别记为:tnp1、tnp2、tnp3……tnpn,其中,tnpn对应的是表tn中的n个分区在最近3个月内的访问次数。第二分级阈值有四个,分别为3、10、30和100,分别将日期分区表中的分区分为五个使用等级tnhn,如下所示:
Figure BDA0002364510860000071
当数据表t2内的分区t2p2在最近3个月内的访问次数为150时,则该分区t2p2的使用等级t2h2为5级。
S105、根据所述使用等级按照预设压缩规则确定所述待压缩的日期分区表和待压缩的非日期分区表的各分区的目标压缩等级。
具体地,预设压缩规则可以是指对使用等级高的待压缩的日期分区表和待压缩的非日期分区表采用低的压缩等级进行压缩,对使用等级低的待压缩的日期分区表和待压缩的非日期分区表采用高的压缩等级进行压缩。
因为数据的压缩等级越高,说明数据的压缩率越高,越消耗压缩和解压缩资源,为了在节省磁盘空间的同时不增加从数据表中调用数据的时间,因此使用等级越低的数据的压缩率应该越高。
例如,数据的压缩等级可以分为五级:一级压缩,不进行压缩,压缩率为0%;二级压缩,进行压缩,压缩率为20%左右;三级压缩,进行压缩,压缩率为40%左右;四级压缩,进行压缩,压缩率为60%左右;五级压缩,最大程度进行压缩,压缩率为85%以上。
具体的压缩示例如下表所示:
Figure BDA0002364510860000081
S106、按照所述目标压缩等级对所述待压缩的日期分区表和待压缩的非日期分区表的各分区进行数据压缩。
具体地,在确定待压缩的日期分区表和待压缩的非日期分区表的各分区对应的目标压缩等级后,即可根据目标压缩等级对数据表进行数据压缩。
在一些实施例中,步骤S106可以包括:判断所述待压缩的日期分区表和所述待压缩的非日期分区表的实际可压缩等级;若所述实际可压缩等级小于目标压缩等级,则按照所述实际可压缩等级对所述待压缩的日期分区表和所述待压缩的非日期分区表的各分区进行数据压缩。
具体地,判断待压缩的日期分区表和待压缩的非日期分区表的实际可压缩等级,如果实际可压缩等级小于目标压缩等级,则说明此时该待压缩的日期分区表或待压缩的非日期分区表的压缩等级无法达到目标压缩等级,则按照其所能达到的最大的压缩等级,也即实际可压缩等级进行数据压缩。若实际可压缩等级大于或等于目标压缩等级,则按照目标压缩等级对待压缩的日期分区表和待压缩的非日期分区表进行数据压缩。
例如,若待压缩的非日期分区表按照预设压缩规则应该采用五级压缩,但由于该待压缩的非日期分区表中数据的原因,导致采用五级压缩时,其压缩率并不能达到85%,那么按照该待压缩的非日期分区表所能够达到的最高的压缩率进行压缩。
在一些实施例中,在步骤S106之后,还可以包括:根据预设检测时间间隔对已完成数据压缩的数据表进行压缩状态检查,并根据所述检查结果调整所述已完成数据压缩的数据表的压缩状态。
具体地,在对数据表完成数据压缩后,对已完成数据压缩的数据表进行定期检查,具体是指检查该数据表在预设的检测时间间隔内的访问次数和存储大小,并根据检查结果判断其压缩状态是否与当前的实际压缩等级相同,若不同,则根据检查结果调整已完成数据压缩的数据表的压缩状态。其中,预设检测时间间隔可以由用户自由设定。
在一些实施例中,该步骤具体可以包括:经过预设检测时间间隔后,获取已完成数据压缩的数据表在预设时段内的存储大小和访问次数;根据所述存储大小和访问次数判断所述已完成数据压缩的数据表的预压缩等级;若所述已完成数据压缩的数据表的预压缩等级与所述目标压缩等级不同,则对所述已完成数据压缩的数据表进行压缩或解压缩,以根据所述预压缩等级调整所述已完成数据压缩的数据表的压缩等级。
具体地,预压缩等级是指已完成数据压缩的数据表在经过预设检测时间间隔后所应当进行压缩的压缩等级。
每经过一定的检测时间间隔,则获取已经完成数据压缩的数据表在预设检测时间间隔内的存储大小和访问次数,并根据存储大小和访问次数判断其预压缩等级。若判断出该数据表预压缩等级低于当前的实际压缩等级,则对该数据表进行数据的解压缩,并对解压缩后的数据表按照预压缩等级重新压缩,并将新的压缩等级更新到元数据。若判断出该数据表预压缩等级高于当前的实际压缩等级,则对该数据表再次进行数据的压缩,使其压缩等级调整为预压缩等级,并将新的压缩等级更新到元数据。
在经过一段时间后对已经完成数据压缩的数据表进行状态检查,能够根据数据表在最近一段时间内的使用情况调整其压缩率,在节约磁盘资源的同时,提高数据表的调用速度,提高了数据压缩的灵活性。
上述实施例提供的数据压缩方法,通过获取数据表的存储大小和日期分区表标识,并根据存储大小和日期分区表标识对数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表;然后按照第一分级规则对待压缩的非日期分区表进行冷热分级,获得待压缩的非日期分区表的使用等级,按照第二分级规则对待压缩的日期分区表中的各分区进行冷热分级,以获得待压缩的日期分区表的各分区的使用等级。最终根据待压缩的日期分区表和待压缩的非日期分区表的各分区的使用等级按照预设压缩规则对待压缩的日期分区表和待压缩的非日期分区表的各分区分别进行不同压缩等级的数据压缩。将数据表按照数据表类型和数据表的冷热程度进行分类,从而对于不同冷热程度的数据表采取不同的压缩等级,一方面节省了磁盘资源,另一方面也提高了调用数据表的速度。
请参阅图5,图5是本申请的实施例还提供一种数据压缩装置的示意性框图,该数据压缩装置用于执行前述的数据压缩方法。其中,该数据压缩装置可以配置于服务器或终端中。
其中,服务器可以为独立的服务器,也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
如图5所示,数据压缩装置200包括:元数据模块201、表分类模块202、非日期分级模块203、日期分级模块204、压缩等级模块205和数据压缩模块206。
元数据模块201,用于获取数据表的元数据,所述元数据包括所述数据表的存储大小和日期分区表标识。
表分类模块202,用于根据所述数据表的存储大小和日期分区表标识对所述数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表。
在一些实施例中,表分类模块202包括大小分类子模块2021和日期分类子模块2022。
具体地,大小分类子模块2021,用于根据所述数据表的存储大小将所述数据表按照存储阈值进行分类,以将所述数据表分为待压缩数据表和非待压缩数据表。日期分类子模块2022,用于根据日期分区表标识将所述待压缩数据表分为待压缩的日期分区表和待压缩的非日期分区表。
非日期分级模块203,用于按照第一分级规则对所述待压缩的非日期分区表进行冷热分级,以获得所述待压缩的非日期分区表的使用等级。
在一些实施例中,非日期分级模块203包括访问次数子模块2031和分级确定子模块2032。
具体地,访问次数子模块2031,用于获取所述待压缩的非日期分区表在预设时段内的访问次数。分级确定子模块2032,用于根据所述访问次数和第一分级阈值对所述待压缩的非日期分区表进行分级。
日期分级模块204,用于按照第二分级规则对所述待压缩的日期分区表中的各分区进行冷热分级,以获得所述待压缩的日期分区表的各分区的使用等级。
在一些实施例中,日期分级模块204包括访问次数子模块2041和分级确定子模块2042。
具体地,访问次数子模块2041,用于获取所述待压缩的日期分区表中的各分区在预设时段内的访问次数。分级确定子模块2042,用于根据所述访问次数和第二分级阈值对所述待压缩的日期分区表中的各分区进行分级。
压缩等级模块205,用于根据所述使用等级按照预设压缩规则确定所述待压缩的日期分区表和待压缩的非日期分区表的各分区的目标压缩等级。
数据压缩模块206,用于按照所述目标压缩等级对所述待压缩的日期分区表和待压缩的非日期分区表的各分区进行数据压缩。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的数据压缩装置和各模块的具体工作过程,可以参考前述数据压缩方法实施例中的对应过程,在此不再赘述。
上述的数据压缩装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
参阅图6,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种数据压缩方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种数据压缩方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取数据表的元数据,所述元数据包括所述数据表的存储大小和日期分区表标识;
根据所述数据表的存储大小和日期分区表标识对所述数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表;
按照第一分级规则对所述待压缩的非日期分区表进行冷热分级,以获得所述待压缩的非日期分区表的使用等级;
按照第二分级规则对所述待压缩的日期分区表中的各分区进行冷热分级,以获得所述待压缩的日期分区表的各分区的使用等级;
根据所述使用等级按照预设压缩规则确定所述待压缩的日期分区表和待压缩的非日期分区表的各分区的目标压缩等级;
按照所述目标压缩等级对所述待压缩的日期分区表和待压缩的非日期分区表的各分区进行数据压缩。
在一个实施例中,所述处理器在实现所述根据所述数据表的存储大小和日期分区表标识对所述数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表时,用于实现:
根据所述数据表的存储大小将所述数据表按照存储阈值进行分类,以将所述数据表分为待压缩数据表和非待压缩数据表;
根据日期分区标识将所述待压缩数据表分为待压缩的日期分区表和待压缩的非日期分区表。
在一个实施例中,所述处理器在实现所述按照第一分级规则对所述待压缩的非日期分区表进行冷热分级时,用于实现:
获取所述待压缩的非日期分区表在预设时段内的访问次数;
根据所述访问次数和第一分级阈值对所述待压缩的非日期分区表进行分级。
在一个实施例中,所述处理器在实现所述按照第二分级规则对所述待压缩的日期分区表中的各分区进行冷热分级时,用于实现:
获取所述待压缩的日期分区表中的各分区在预设时段内的访问次数;
根据所述访问次数和第二分级阈值对所述待压缩的日期分区表中的各分区进行分级。
在一个实施例中,所述处理器在实现所述按照所述目标压缩等级对所述待压缩的日期分区表和待压缩的非日期分区表的各分区进行数据压缩时,用于实现:
判断所述待压缩的日期分区表和所述待压缩的非日期分区表的实际可压缩等级;
若所述实际可压缩等级小于目标压缩等级,则按照所述实际可压缩等级对所述待压缩的日期分区表和所述待压缩的非日期分区表的各分区进行数据压缩。
在一个实施例中,所述处理器还用于实现:
根据预设检测时间间隔对已完成数据压缩的数据表进行压缩状态检查,并根据所述检查结果调整所述已完成数据压缩的数据表的压缩状态。
在一个实施例中,所述处理器在实现所述根据预设检测时间间隔对已完成数据压缩的数据表进行状态检查,并根据所述检查结果调整所述已完成数据压缩的数据表的压缩状态时,用于实现:
经过预设检测时间间隔后,获取已完成数据压缩的数据表在预设时段内的存储大小和访问次数;
根据所述存储大小和访问次数判断所述已完成数据压缩的数据表的预压缩等级;
若所述已完成数据压缩的数据表的预压缩等级与所述目标压缩等级不同,则对所述已完成数据压缩的数据表进行压缩或解压缩,以根据所述预压缩等级调整所述已完成数据压缩的数据表的压缩等级。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项数据压缩方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据压缩方法,其特征在于,包括:
获取数据表的元数据,所述元数据包括所述数据表的存储大小和日期分区表标识;
根据所述数据表的存储大小和日期分区表标识对所述数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表;
按照第一分级规则对所述待压缩的非日期分区表进行冷热分级,以获得所述待压缩的非日期分区表的使用等级;
按照第二分级规则对所述待压缩的日期分区表中的各分区进行冷热分级,以获得所述待压缩的日期分区表的各分区的使用等级;
根据所述使用等级按照预设压缩规则确定所述待压缩的日期分区表和待压缩的非日期分区表的各分区的目标压缩等级;
按照所述目标压缩等级对所述待压缩的日期分区表和待压缩的非日期分区表的各分区进行数据压缩。
2.根据权利要求1所述的数据压缩方法,其特征在于,所述根据所述数据表的存储大小和日期分区表标识对所述数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表,包括:
根据所述数据表的存储大小将所述数据表按照存储阈值进行分类,以将所述数据表分为待压缩数据表和非待压缩数据表;
根据日期分区标识将所述待压缩数据表分为待压缩的日期分区表和待压缩的非日期分区表。
3.根据权利要求1所述的数据压缩方法,其特征在于,所述按照第一分级规则对所述待压缩的非日期分区表进行冷热分级,包括:
获取所述待压缩的非日期分区表在预设时段内的访问次数;
根据所述访问次数和第一分级阈值对所述待压缩的非日期分区表进行分级。
4.根据权利要求1所述的数据压缩方法,其特征在于,所述按照第二分级规则对所述待压缩的日期分区表中的各分区进行冷热分级,包括:
获取所述待压缩的日期分区表中的各分区在预设时段内的访问次数;
根据所述访问次数和第二分级阈值对所述待压缩的日期分区表中的各分区进行分级。
5.根据权利要求1所述的数据压缩方法,其特征在于,所述按照所述目标压缩等级对所述待压缩的日期分区表和待压缩的非日期分区表的各分区进行数据压缩,包括:
判断所述待压缩的日期分区表和所述待压缩的非日期分区表的实际可压缩等级;
若所述实际可压缩等级小于目标压缩等级,则按照所述实际可压缩等级对所述待压缩的日期分区表和所述待压缩的非日期分区表的各分区进行数据压缩。
6.根据权利要求1所述的数据压缩方法,其特征在于,还包括:
根据预设检测时间间隔对已完成数据压缩的数据表进行压缩状态检查,并根据所述检查结果调整所述已完成数据压缩的数据表的压缩状态。
7.根据权利要求6所述的数据压缩方法,其特征在于,所述根据预设检测时间间隔对已完成数据压缩的数据表进行状态检查,并根据所述检查结果调整所述已完成数据压缩的数据表的压缩状态,包括:
经过预设检测时间间隔后,获取已完成数据压缩的数据表在预设时段内的存储大小和访问次数;
根据所述存储大小和访问次数判断所述已完成数据压缩的数据表的预压缩等级;
若所述已完成数据压缩的数据表的预压缩等级与所述目标压缩等级不同,则对所述已完成数据压缩的数据表进行压缩或解压缩,以根据所述预压缩等级调整所述已完成数据压缩的数据表的压缩等级。
8.一种数据压缩装置,其特征在于,包括:
元数据模块,用于获取数据表的元数据,所述元数据包括所述数据表的存储大小和日期分区表标识;
表分类模块,用于根据所述数据表的存储大小和日期分区表标识对所述数据表进行分类,以得到待压缩的日期分区表和待压缩的非日期分区表;
非日期分级模块,用于按照第一分级规则对所述待压缩的非日期分区表进行冷热分级,以获得所述待压缩的非日期分区表的使用等级;
日期分级模块,用于按照第二分级规则对所述待压缩的日期分区表中的各分区进行冷热分级,以获得所述待压缩的日期分区表的各分区的使用等级;
压缩等级模块,用于根据所述使用等级按照预设压缩规则确定所述待压缩的日期分区表和待压缩的非日期分区表的各分区的目标压缩等级;
数据压缩模块,用于按照所述目标压缩等级对所述待压缩的日期分区表和待压缩的非日期分区表的各分区进行数据压缩。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的数据压缩方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的数据压缩方法。
CN202010031597.1A 2020-01-13 2020-01-13 数据压缩方法、装置、设备及存储介质 Active CN111277274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010031597.1A CN111277274B (zh) 2020-01-13 2020-01-13 数据压缩方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010031597.1A CN111277274B (zh) 2020-01-13 2020-01-13 数据压缩方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111277274A true CN111277274A (zh) 2020-06-12
CN111277274B CN111277274B (zh) 2024-07-16

Family

ID=71003041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010031597.1A Active CN111277274B (zh) 2020-01-13 2020-01-13 数据压缩方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111277274B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112433996A (zh) * 2020-11-23 2021-03-02 维沃移动通信有限公司 数据处理方法、装置和电子设备
CN112527786A (zh) * 2020-12-17 2021-03-19 平安银行股份有限公司 数据表分区新增方法、装置、计算机设备及存储介质
CN112600938A (zh) * 2020-12-30 2021-04-02 江门市国科禾路信息科技有限公司 一种企业通讯数据压缩系统
CN113659992A (zh) * 2021-07-16 2021-11-16 深圳智慧林网络科技有限公司 数据压缩方法及装置、存储介质
CN114356225A (zh) * 2021-12-17 2022-04-15 得一微电子股份有限公司 存储器的数据存储方法、装置、终端设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105322969A (zh) * 2015-12-09 2016-02-10 北京奇虎科技有限公司 数据压缩及解压的方法及装置
US20170177602A1 (en) * 2015-12-16 2017-06-22 International Business Machines Corporation Compressed data layout with variable group size
CN107589910A (zh) * 2017-09-01 2018-01-16 厦门集微科技有限公司 用户定制策略的云端数据管理的方法及系统
CN108242931A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种数据压缩提供方法
CN108897808A (zh) * 2018-06-16 2018-11-27 王梅 一种在云存储系统中进行数据存储的方法及系统
CN109558088A (zh) * 2018-12-03 2019-04-02 郑州云海信息技术有限公司 一种压缩方法、系统、设备及计算机可读存储介质
CN109802684A (zh) * 2018-12-26 2019-05-24 华为技术有限公司 进行数据压缩的方法和装置
CN110543281A (zh) * 2019-07-19 2019-12-06 苏州浪潮智能科技有限公司 一种存储压缩实现方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105322969A (zh) * 2015-12-09 2016-02-10 北京奇虎科技有限公司 数据压缩及解压的方法及装置
US20170177602A1 (en) * 2015-12-16 2017-06-22 International Business Machines Corporation Compressed data layout with variable group size
CN108242931A (zh) * 2016-12-23 2018-07-03 航天星图科技(北京)有限公司 一种数据压缩提供方法
CN107589910A (zh) * 2017-09-01 2018-01-16 厦门集微科技有限公司 用户定制策略的云端数据管理的方法及系统
CN108897808A (zh) * 2018-06-16 2018-11-27 王梅 一种在云存储系统中进行数据存储的方法及系统
CN109558088A (zh) * 2018-12-03 2019-04-02 郑州云海信息技术有限公司 一种压缩方法、系统、设备及计算机可读存储介质
CN109802684A (zh) * 2018-12-26 2019-05-24 华为技术有限公司 进行数据压缩的方法和装置
CN110543281A (zh) * 2019-07-19 2019-12-06 苏州浪潮智能科技有限公司 一种存储压缩实现方法、装置、设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112433996A (zh) * 2020-11-23 2021-03-02 维沃移动通信有限公司 数据处理方法、装置和电子设备
CN112527786A (zh) * 2020-12-17 2021-03-19 平安银行股份有限公司 数据表分区新增方法、装置、计算机设备及存储介质
CN112527786B (zh) * 2020-12-17 2024-07-05 平安银行股份有限公司 数据表分区新增方法、装置、计算机设备及存储介质
CN112600938A (zh) * 2020-12-30 2021-04-02 江门市国科禾路信息科技有限公司 一种企业通讯数据压缩系统
CN112600938B (zh) * 2020-12-30 2022-01-11 深圳市蓝硕通讯设备有限公司 一种企业通讯数据压缩系统
CN113659992A (zh) * 2021-07-16 2021-11-16 深圳智慧林网络科技有限公司 数据压缩方法及装置、存储介质
CN113659992B (zh) * 2021-07-16 2023-08-11 深圳智慧林网络科技有限公司 数据压缩方法及装置、存储介质
CN114356225A (zh) * 2021-12-17 2022-04-15 得一微电子股份有限公司 存储器的数据存储方法、装置、终端设备以及存储介质

Also Published As

Publication number Publication date
CN111277274B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
CN111277274B (zh) 数据压缩方法、装置、设备及存储介质
US20150324221A1 (en) Techniques to manage virtual classes for statistical tests
CN111913955A (zh) 数据的排序处理装置、方法和存储介质
CN110928739B (zh) 一种进程监控方法、装置以及计算设备
CN110069495A (zh) 数据存储方法、装置和终端设备
WO2017148327A1 (zh) 一种业务参数选取方法及相关设备
CN111310834B (zh) 数据处理方法及装置、处理器、电子设备、存储介质
WO2020029400A1 (zh) 项目推荐方法、装置、计算机设备及存储介质
CN113485999A (zh) 数据清理方法、装置和服务器
CN111507090A (zh) 摘要提取方法、装置、设备及计算机可读存储介质
CN112948460A (zh) 网络流量数据的筛选方法及装置、计算机可读存储介质
CN115729687A (zh) 任务调度方法、装置、计算机设备、存储介质
CN109885384B (zh) 任务并行度优化方法、装置、计算机设备及存储介质
CN110543426A (zh) 一种软件性能风险检测方法及装置
CN113434471A (zh) 数据处理方法、装置、设备及计算机存储介质
CN113010310A (zh) 作业数据的处理方法、装置和服务器
CN115129791A (zh) 一种数据压缩存储方法、装置及设备
CN109002446B (zh) 一种智能排序方法、终端与计算机可读存储介质
CN111858542B (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN114282603A (zh) 一种告警信息聚类方法、装置及存储介质
CN109299112B (zh) 用于处理数据的方法和装置
CN112764935A (zh) 大数据处理方法、装置、电子设备及存储介质
CN111563250A (zh) 权限管理方法、装置、计算机设备和存储介质
CN111104527A (zh) 一种富媒体文件解析方法
CN113392208A (zh) It运维故障处理经验积累的方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant