CN115129791A - 一种数据压缩存储方法、装置及设备 - Google Patents
一种数据压缩存储方法、装置及设备 Download PDFInfo
- Publication number
- CN115129791A CN115129791A CN202110265351.5A CN202110265351A CN115129791A CN 115129791 A CN115129791 A CN 115129791A CN 202110265351 A CN202110265351 A CN 202110265351A CN 115129791 A CN115129791 A CN 115129791A
- Authority
- CN
- China
- Prior art keywords
- data
- data table
- hbase
- target
- target hbase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据压缩存储方法、装置及设备,用于解决现有的HBASE数据库中数据压缩存储方式会占用较多的存储量,且压缩存储成本较高的问题。所述方法包括:获取HBASE数据库中的目标HBASE数据表;将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
Description
技术领域
本发明实施例涉及数据库技术领域,尤其涉及一种数据压缩存储方法、装置及设备。
背景技术
目前,随着HBASE数据库中HBASE数据表的保存周期越来越长,有些HBASE数据表甚至可能会保存至永久,HBASE数据库中也就产生了越来越多的历史表(也叫冷备表)。现有HBASE数据库中的压缩存储方法在对数据进行压缩存储时,对所有数据通常都采用相同的压缩存储方式,导致压缩存储的成本较高。与此同时随着越来越多的历史表需要永久保存,这给集群存储也带来了不小的压力。
为了解决这一问题,现有技术中通常通过对集群扩容来提高压缩存储率,然而,如果只是一味的增加集群数量只会给带来更多的硬件开销。此外,越来越多的历史表也会在HBASE数据库中占用更多的存储量。
因此,亟需一种数据压缩存储方法以应对现有的HBASE数据库中数据压缩存储方式会占用较多的存储量,且压缩存储成本较高的问题。
发明内容
本发明实施例提供一种数据压缩存储方法、装置及设备,用于解决现有的HBASE数据库中数据压缩存储方式会占用较多的存储量,且压缩存储成本较高的问题。
本发明实施例采用下述技术方案:
第一方面,提供了一种数据压缩存储方法,包括:
获取HBASE数据库中的目标HBASE数据表;
将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
第二方面,提供了一种数据压缩存储装置,包括:
获取模块,用于获取HBASE数据库中的目标HBASE数据表;
数据分类模块,用于将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
压缩方式确定模块,用于确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
压缩存储模块,用于按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如下操作:
获取HBASE数据库中的目标HBASE数据表;
将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下操作:
获取HBASE数据库中的目标HBASE数据表;
将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
本发明实施例采用的上述至少一个技术方案能够达到以下有益效果:
本发明实施例提供的数据压缩存储方法,通过获取HBASE数据库中的目标HBASE数据表,并能够将目标HBASE数据表输入到冷热数据分类模型中,以输出目标HBASE数据表的数据类别;其中,冷热数据分类模型为基于决策树模型建立得到的,再确定与目标HBASE数据表的数据类别相匹配的数据压缩方式,最后能够按照与目标HBASE数据表的数据类别相匹配的数据压缩方式,对目标HBASE数据表进行压缩存储。一方面引入了冷热数据分类模型对待压缩的目标HBASE数据表进行数据类别的识别,提高了数据类别识别的准确度;另一方面也在确定待压缩的目标HBASE数据表的数据类别的基础上,对目标HBASE数据表进行压缩存储,也提高了数据压缩存储的效率,对冷热数据区分压缩存储方式,降低了压缩存储的成本。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书的一个实施例提供的一种数据压缩存储方法流程示意图;
图2为本说明书的一个实施例提供的一种数据压缩存储装置的结构示意图;
图3为本说明书的另一个实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为解决现有的HBASE数据库中数据压缩存储方式会占用较多的存储量,且压缩存储成本较高的问题,本说明书实施例提供一种数据压缩存储方法。本说明书实施例提供的方法的执行主体可以但不限于个人电脑、服务器等能够被配置为执行本发明实施例提供的该方法装置中的至少一种。
为便于描述,下文以该方法的执行主体为能够执行该方法的服务器为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为服务器只是一种示例性的说明,并不应理解为对该方法的限定。
具体地,本说明书一个或多个实施例提供的一种数据压缩存储方法的实现流程示意图如图1所示,包括:
步骤110,获取HBASE数据库中的目标HBASE数据表。
应理解,HBASE数据库中存储的数据类别可分为热数据和冷数据,其中,热数据的访问频率较高、冷数据的访问频率较低,有些冷数据甚至可能不被用户所访问,也就是访问频率接近于零。随着HBASE数据库中存储的冷数据的增加,这些冷数据所占用的HBASE数据库中的存储空间也越来越大。而热数据由于其访问频率较高,还需要不断被用户所访问,因此,在整理HBASE数据库中的数据表时,可以针对数据表所属的数据类别,对所属不同数据类别的数据表进行区分处理。
步骤120,将目标HBASE数据表输入到冷热数据分类模型中,以输出目标HBASE数据表的数据类别。
其中,冷热数据分类模型为基于决策树模型建立得到的。该冷热数据分类模型的建立过程可包括:
首先,获取数据样本集合,该数据样本集合的每个数据样本可能的数据访问频率属性集合X={数据冷热属性,热数据}。
然后,判断每个数据样本可能的数据访问频率属性集合是否都处理完毕,如果未处理完,则继续执行如下步骤:
1)计算出信息增益最大的属性a,把该属性作为一个节点。如果仅凭属性a就可以对样本集合s进行分类,则结束流程;否则执行如下步骤:
2)对属性a的每一个可能的取值v,执行以下操作:
A,将所有属性a的值是v的样本作为S的一个子集Sv;
B,生成属性集合AT=A-{a};
C,以样本集合Sv和属性集合AT为输入,递归执行判断每个数据样本可能的数据访问频率属性集合是否都处理完毕,直到生成冷热数据分类模型。
基于以上算法得出的数学计算分类模型中,根节点代表划分冷热数据的属性,根节点的一个子节点是对热数据进行划分的访问频率属性,余下的叶节点是划分之后的分类结果。
其中,上述计算出信息增益最大的属性a的过程如下:
S1,在冷热数据分类模型的每个节点使用信息增益度量各个节点的测试属性,信息增益的定义如公式(1):
Gain(X)=I(S1,……,Sm)-E(X) (1)
其中,S1,…,Sm为m个数据样本,每个数据样本可能为冷数据也可能为热数据,X为数据样本的数据访问频率属性。
S2,找出一个包含s个数据样本的集合S,S的具体值应由待分类的数据集的大小决定,与数据集的大小成正比,假定类标号属性具有m个不同的值,定义m个不同类Ci,设定Si是类Ci中的样本数。对于一个给定的样本分类计算所需要的期望信息,公式为(2):
其中,Pi是任意样本属于类Ci的概率,具体可用Si/s来估计。
S3,设数据访问频率属性X具有v个不同值{a1,a2,……,av}。在这里,数据访问频率属性X可以指文件系统中一段时间内数据表的平均访问次数,用K表示,K=C/t,其中C指一段时间内数据表的访问次数,t是相应的时间段。利用数据访问频率属性X将S划分为V个子集{S1,S2,……,Sv}。其中,Sj包含S中这样一些样本,它们在X上具有值ai。如果X选作测试属性,则这些子集对应由包含集合S的节点生长出来的分支。设Sij是子集Sj中类Ci的样本数。数据访问频率属性X划分子集的熵或期望信息公式为(3):
S4,计算每个数据访问频率属性的信息增益,将具有最高信息增益的属性选作给定集合S的测试属性。
步骤130,确定与目标HBASE数据表的数据类别相匹配的数据压缩方式。
应理解,为了提高所属不同数据类别的HBASE数据表的数据压缩效率,可预先为所属不同数据类别的HBASE数据表设置对应的数据压缩方式。
步骤140,按照与目标HBASE数据表的数据类别相匹配的数据压缩方式,对目标HBASE数据表进行压缩存储。
可选地,由于GZIP数据压缩方式的压缩率往往较高,对于冷数据这种访问频率较低的数据,可以选用GZIP这种压缩率较高的数据压缩方式,以节省冷数据在HBASE数据库中占用的存储空间。具体地,按照与目标HBASE数据表的数据类别相匹配的数据压缩方式,对目标HBASE数据表进行压缩存储,包括:
如果目标HBASE数据表为冷数据,则按照预设的GZIP数据压缩方式对目标HBASE数据表进行压缩;
将压缩后的目标HBASE数据表存储到第三方存储设备中。
可选地,为了减少HBASE数据库的数据库的数据处理压力,可设定每日的某个预设时间段对目标HBASE数据表进行压缩。具体地,如果目标HBASE数据表为冷数据,则按照预设的GZIP数据压缩方式对目标HBASE数据表进行压缩,包括:
如果目标HBASE数据表为冷数据,则在预设时间段按照预设的GZIP数据压缩方式对目标HBASE数据表进行压缩。
可选地,为了减少HBASE数据库的数据库的数据处理压力,上述预设时间段为HBASE数据库中设定的每日数据处理的空闲时间段。比如,在每日的上班时间段和下班时间段,HBASE数据库需要处理的用户业务往往较多,而在每日的深夜时间段,HBASE数据库需要处理的用户业务则较少,因此,可以在每日的深夜时间段,比如凌晨2点到凌晨5点,设置为HBASE数据库中每日数据处理的空闲时间段。
应理解,当目标HBASE数据表为冷数据时,由于冷数据的访问频率较低,甚至很多冷数据不被访问,为了节省冷数据占用HBASE数据库中的存储空间,本说明书实施例在将压缩后的目标HBASE数据表备份存储到第三方存储设备中之后,便可以将目标HBASE数据表从HBASE数据库中删除。具体地,将压缩后的目标HBASE数据表存储到第三方存储设备中之后,本说明书实施例提供的方法还包括:
将目标HBASE数据表从HBASE数据库中删除。
可选地,虽然冷数据的访问频率较低,但有些冷数据的访问频率并不完全为零,因此,为了便于这部分冷数据被用户访问读取,本说明书实施例可以设置一个冷数据的访问频率阈值,将低于该冷数据的访问频率阈值的目标HBASE数据表被备份到第三方存储设备之后,将该目标HBASE数据表从HBASE数据库中删除。
应理解,为了减少HBASE数据库的数据处理压力,可在HBASE数据库的每日数据处理空闲时间段执行将目标HBASE数据表从HBASE数据库中删除的操作。
可选地,按照与待压缩的HBASE数据表的数据类别相匹配的数据压缩方式,对待压缩的HBASE数据表进行压缩存储,包括:
如果目标HBASE数据表为热数据,则按照预设的snappy数据压缩方式对目标HBASE数据表进行压缩;
将压缩后的目标HBASE数据表存储到预设的固态硬盘设备中。
其中,snappy是一个压缩/解压缩库。它不旨在最大程度地压缩,也不旨在与任何其他压缩库兼容。相反,它的目标是非常高的速度和合理的压缩。本说明书实施例为了提高热数据的压缩速度,采用预设的snappy数据压缩方式对目标HBASE数据表进行压缩;并将压缩后的目标HBASE数据表存储到预设的固态硬盘设备中。
可选地,当目标HBASE数据表为热数据时,由于热数据的访问频率较高,如果对其进行压缩存储,则会造成目标HBASE数据表的不可读,因此,本说明书实施例为了便于目标HBASE数据表为热数据时被快速读取,在目标HBASE数据表为热数据时,不对目标HBASE数据表进行压缩处理,直接将目标HBASE数据表存储到预设的固态硬盘设备中。具体地,按照与待压缩的HBASE数据表的数据类别相匹配的数据压缩方式,对待压缩的HBASE数据表进行压缩存储,包括:
如果目标HBASE数据表为热数据,则将目标HBASE数据表存储到预设的固态硬盘设备中。
本发明实施例提供的数据压缩存储方法,通过获取HBASE数据库中的目标HBASE数据表,并能够将目标HBASE数据表输入到冷热数据分类模型中,以输出目标HBASE数据表的数据类别;其中,冷热数据分类模型为基于决策树模型建立得到的,再确定与目标HBASE数据表的数据类别相匹配的数据压缩方式,最后能够按照与目标HBASE数据表的数据类别相匹配的数据压缩方式,对目标HBASE数据表进行压缩存储。一方面引入了冷热数据分类模型对待压缩的目标HBASE数据表进行数据类别的识别,提高了数据类别识别的准确度;另一方面也在确定待压缩的目标HBASE数据表的数据类别的基础上,对目标HBASE数据表进行压缩存储,也提高了数据压缩存储的效率,对冷热数据区分压缩存储方式,降低了压缩存储的成本。
图2是本说明书提供的数据压缩存储装置200的结构示意图。请参考图2,在一种软件实施方式中,数据压缩存储200可包括获取模块201、第一确定单元202、压缩方式确定模块203和压缩存储模块204,其中:
获取模块201,用于获取HBASE数据库中的目标HBASE数据表;
数据分类模块202,用于将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
压缩方式确定模块203,用于确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
压缩存储模块204,用于按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
可选地,在一种实施方式中,所述压缩存储模块204,用于:
如果所述目标HBASE数据表为冷数据,则按照预设的GZIP数据压缩方式对所述目标HBASE数据表进行压缩;
将压缩后的所述目标HBASE数据表存储到第三方存储设备中。
可选地,在一种实施方式中,所述压缩存储模块204,用于:
基于所述现有网络的网络覆盖数据、所述待测量网络的部分网络区域的网如果所述目标HBASE数据表为冷数据,则在预设时间段按照所述预设的GZIP数据压缩方式对所述目标HBASE数据表进行压缩。
可选地,在一种实施方式中,所述预设时间段为HBASE数据库中设定的每日数据处理的空闲时间段。
可选地,在一种实施方式中,所述压缩存储模块204将压缩后的所述目标HBASE数据表存储到第三方存储设备中之后,所述装置还包括:
删除模块,用于将所述目标HBASE数据表从所述HBASE数据库中删除。
可选地,在一种实施方式中,所述压缩存储模块204,用于:
如果所述目标HBASE数据表为热数据,则按照预设的snappy数据压缩方式对所述目标HBASE数据表进行压缩;
将压缩后的所述目标HBASE数据表存储到预设的固态硬盘设备中。
数据压缩存储装置200能够实现图1的方法实施例的方法,具体可参考图1所示实施例的数据压缩存储方法,不再赘述。
图3是本说明书的一个实施例提供的电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据压缩存储装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取HBASE数据库中的目标HBASE数据表;
将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
本发明实施例提供的网络覆盖情况的预测方法,一方面引入了冷热数据分类模型对待压缩的目标HBASE数据表进行数据类别的识别,提高了数据类别识别的准确度;另一方面也在确定待压缩的目标HBASE数据表的数据类别的基础上,对目标HBASE数据表进行压缩存储,也提高了数据压缩存储的效率,对冷热数据区分压缩存储方式,降低了压缩存储的成本。
上述如本说明书图1所示实施例揭示的数据压缩存储方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的数据压缩存储方法,本说明书在此不再赘述。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
获取HBASE数据库中的目标HBASE数据表;
将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (10)
1.一种数据压缩存储方法,其特征在于,包括:
获取HBASE数据库中的目标HBASE数据表;
将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
2.如权利要求1所述的方法,其特征在于,按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储,包括:
如果所述目标HBASE数据表为冷数据,则按照预设的GZIP数据压缩方式对所述目标HBASE数据表进行压缩;
将压缩后的所述目标HBASE数据表存储到第三方存储设备中。
3.如权利要求2所述的方法,其特征在于,如果所述目标HBASE数据表为冷数据,则按照预设的GZIP数据压缩方式对所述目标HBASE数据表进行压缩,包括:
如果所述目标HBASE数据表为冷数据,则在预设时间段按照所述预设的GZIP数据压缩方式对所述目标HBASE数据表进行压缩。
4.如权利要求3所述的方法,其特征在于,所述预设时间段为HBASE数据库中设定的每日数据处理的空闲时间段。
5.如权利要求2所述的方法,其特征在于,将压缩后的所述目标HBASE数据表存储到第三方存储设备中之后,所述方法还包括:
将所述目标HBASE数据表从所述HBASE数据库中删除。
6.如权利要求1所述的方法,其特征在于,按照与所述待压缩的HBASE数据表的数据类别相匹配的数据压缩方式,对所述待压缩的HBASE数据表进行压缩存储,包括:
如果所述目标HBASE数据表为热数据,则按照预设的snappy数据压缩方式对所述目标HBASE数据表进行压缩;
将压缩后的所述目标HBASE数据表存储到预设的固态硬盘设备中。
7.如权利要求1所述的方法,其特征在于,按照与所述待压缩的HBASE数据表的数据类别相匹配的数据压缩方式,对所述待压缩的HBASE数据表进行压缩存储,包括:
如果所述目标HBASE数据表为热数据,则将所述目标HBASE数据表存储到预设的固态硬盘设备中。
8.一种数据压缩存储装置,其特征在于,包括:
获取模块,用于获取HBASE数据库中的目标HBASE数据表;
数据分类模块,用于将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
压缩方式确定模块,用于确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
压缩存储模块,用于按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如下步骤:
获取HBASE数据库中的目标HBASE数据表;
将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取HBASE数据库中的目标HBASE数据表;
将所述目标HBASE数据表输入到冷热数据分类模型中,以输出所述目标HBASE数据表的数据类别;其中,所述冷热数据分类模型为基于决策树模型建立得到的;
确定与所述目标HBASE数据表的数据类别相匹配的数据压缩方式;
按照与所述目标HBASE数据表的数据类别相匹配的数据压缩方式,对所述目标HBASE数据表进行压缩存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110265351.5A CN115129791A (zh) | 2021-03-11 | 2021-03-11 | 一种数据压缩存储方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110265351.5A CN115129791A (zh) | 2021-03-11 | 2021-03-11 | 一种数据压缩存储方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115129791A true CN115129791A (zh) | 2022-09-30 |
Family
ID=83374110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110265351.5A Pending CN115129791A (zh) | 2021-03-11 | 2021-03-11 | 一种数据压缩存储方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115129791A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905168A (zh) * | 2022-11-15 | 2023-04-04 | 本原数据(北京)信息技术有限公司 | 自适应压缩方法和压缩装置、计算机设备、存储介质 |
CN116185307A (zh) * | 2023-04-24 | 2023-05-30 | 之江实验室 | 一种模型数据的存储方法、装置、存储介质及电子设备 |
-
2021
- 2021-03-11 CN CN202110265351.5A patent/CN115129791A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115905168A (zh) * | 2022-11-15 | 2023-04-04 | 本原数据(北京)信息技术有限公司 | 自适应压缩方法和压缩装置、计算机设备、存储介质 |
CN115905168B (zh) * | 2022-11-15 | 2023-11-07 | 本原数据(北京)信息技术有限公司 | 基于数据库的自适应压缩方法和装置、设备、存储介质 |
CN116185307A (zh) * | 2023-04-24 | 2023-05-30 | 之江实验室 | 一种模型数据的存储方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110874440B (zh) | 一种信息推送及其模型训练的方法、装置及电子设备 | |
CN108763952B (zh) | 一种数据分类方法、装置及电子设备 | |
CN110751515A (zh) | 一种基于用户消费行为的决策方法和装置、电子设备及存储介质 | |
CN115129791A (zh) | 一种数据压缩存储方法、装置及设备 | |
CN109918678B (zh) | 一种字段含义识别方法和装置 | |
CN111858520A (zh) | 一种区块链节点数据分离存储的方法和装置 | |
CN109271453B (zh) | 一种数据库容量的确定方法和装置 | |
CN116108150A (zh) | 一种智能问答方法、装置、系统及电子设备 | |
CN109345081B (zh) | 一种数据采集方法、装置及电子设备 | |
WO2021103594A1 (zh) | 一种默契度检测方法、设备、服务器及可读存储介质 | |
CN113064930A (zh) | 数据仓库的冷热数据识别方法、装置及电子设备 | |
CN110866085A (zh) | 数据反馈方法与装置 | |
CN113849524B (zh) | 一种数据处理方法及装置 | |
CN110634018A (zh) | 一种流失用户的特征刻画方法、识别方法及相关装置 | |
CN114840762A (zh) | 推荐内容确定方法、装置和电子设备 | |
CN107368281B (zh) | 一种数据处理方法及装置 | |
CN110032564B (zh) | 一种数据表关联关系的确定方法和装置 | |
CN113342813A (zh) | 键值数据处理方法、装置、计算机设备及可读存储介质 | |
CN113742344A (zh) | 电力系统数据的索引方法及装置 | |
CN110955812B (zh) | 一种敏感案件识别方法及装置 | |
CN113283978B (zh) | 基于生物基础与行为特征及业务特征的金融风险评估方法 | |
CN114185890B (zh) | 一种数据库检索方法、装置、存储介质及电子设备 | |
CN116107761B (zh) | 性能调优方法、系统、电子设备及可读存储介质 | |
CN110704690B (zh) | 一种数据处理方法、设备及存储介质 | |
CN111274118B (zh) | 一种应用优化处理方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |