CN112965665A - 一种基于sas和ssd的gp数据库数据存储方法 - Google Patents

一种基于sas和ssd的gp数据库数据存储方法 Download PDF

Info

Publication number
CN112965665A
CN112965665A CN202110252745.7A CN202110252745A CN112965665A CN 112965665 A CN112965665 A CN 112965665A CN 202110252745 A CN202110252745 A CN 202110252745A CN 112965665 A CN112965665 A CN 112965665A
Authority
CN
China
Prior art keywords
data
data table
stored
called
storage space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110252745.7A
Other languages
English (en)
Other versions
CN112965665B (zh
Inventor
王俊
李健华
李英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huatai Securities Co ltd
Original Assignee
Huatai Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huatai Securities Co ltd filed Critical Huatai Securities Co ltd
Priority to CN202110252745.7A priority Critical patent/CN112965665B/zh
Publication of CN112965665A publication Critical patent/CN112965665A/zh
Application granted granted Critical
Publication of CN112965665B publication Critical patent/CN112965665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0626Reducing size or complexity of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于SAS和SSD的GP数据库数据存储方法,旨在解决GP数据库的存储性能和数据有效存储难以均衡的技术问题。其包括:获取待存储的数据表;基于存储空间划分原则将待存储的数据表存入GP数据库的不同存储空间中;周期性的获取GP数据库不同存储空间中已存储的数据表;基于存储空间划分原则对已存储的数据表进行存储空间检验,并根据存储空间检验结果进行数据表迁移;其中,GP数据库的存储空间包括挂载在一个目录下的SSD和挂载在另一个目录下的SAS。本发明能够实现较高的IO性能和较好的存储效率。

Description

一种基于SAS和SSD的GP数据库数据存储方法
技术领域
本发明涉及一种基于SAS和SSD的GP数据库数据存储方法,属于数据库技术领域。
背景技术
以Greenplum为基础搭建的数据仓库,其存储量较大、对存储性能的要求较高,如果采用纯SAS作为数据库存储空间,很可能存在IO性能不足的情况,但是如果全部使用SSD盘作为数据库存储空间,又存在建设费用过高、资源浪费的情况。
一般情况下,Greenplum数据库这类数据仓库存在着大量的历史数据,这部分数据的查询频率较低,因此市面上出现了利用混用盘进行数据存储的情况,混用盘在一定程度上可以利用较小的成本实现较好的IO性能,但是市面上的混用盘存储方法并没有对各类数据的具体存储空间进行较好的划分,也没有给出保证混用盘性能水平和数据有效存储的均衡规则,在长期使用中,随着数据的不断增加,这种数据存储方法难以做到存储性能和数据有效存储的均衡,可能出现IO性能下降等问题。
发明内容
为了解决现有技术中Greenplum数据库的存储性能和数据有效存储难以均衡的问题,本发明提出了一种基于SAS和SSD的GP数据库数据存储方法,利用存储空间划分原则对新生成的数据表和已存储的数据表进行空间划分,确保使用频率高的数据表存储在热盘中,其他数据表存储在温盘中,既减小了数据存储成本,又实现了较高的IO性能和较好的存储效率。
为解决上述技术问题,本发明采用了如下技术手段:
本发明提出了一种基于SAS和SSD的GP数据库数据存储方法,包括如下步骤:
实时获取待存储的数据表;
基于存储空间划分原则将待存储的数据表存入预先构建的GreenPlum数据库的不同存储空间中;
周期性的获取GreenPlum数据库不同存储空间中已存储的数据表;
基于存储空间划分原则对已存储的数据表进行存储空间检验,并根据存储空间检验结果进行数据表迁移;
所述预先构建的GreenPlum数据库的存储空间包括热盘和温盘,其中,热盘为挂载在一个目录下的SSD,温盘为挂载在另一个目录下的SAS。
进一步的,所述存储空间划分原则包括表类型划分原则和调用次数划分原则。
进一步的,将待存储的数据表依次存入GreenPlum数据库的存储空间中的具体操作如下:
设共有n个待存储的数据表,构成待存储数据表集合N,依次获取每个待存储的数据表的表类型和被调用的次数;
根据待存储的数据表的表类型获取满足表类型划分原则的m个待存储的数据表,构成一次数据表集合M,并获得其对应的存储空间,进行第一次数据表存储,其中,m=0,1,2,L,n;
获取二次数据表集合L=N-M,根据二次数据表集合中每个待存储的数据表被调用的次数计算最小被调用次数阈值和最大被调用次数阈值;
根据待存储的数据表被调用的次数、最小被调用次数阈值、最大被调用次数阈值和调用次数划分原则获取二次数据集合中每个待存储的数据表对应的存储空间,进行第二次数据表存储。
进一步的,存储空间检验的具体操作如下:
设共有k个已存储的数据表,构成已存储数据表集合K,获取每个已存储的数据表的原始存储空间、表类型和被调用的次数;
根据已存储的数据表的表类型获取满足表类型划分原则的s个已存储的数据表,构成一次检验集合S,并获得其对应的实时存储空间,其中,s=0,1,2,…,k;
获取二次检验集合T=K-S,根据二次检验集合中每个已存储的数据表被调用的次数计算最小被调用次数阈值和最大被调用次数阈值;
根据已存储的数据表被调用的次数、最小被调用次数阈值、最大被调用次数阈值和调用次数划分原则获取二次检验集合中每个已存储的数据表对应的实时存储空间;
将每个已存储的数据表的实时存储空间与原始存储空间进行一致性检验,获得存储空间检验结果;
将存储空间检验结果为不通过的已存储的数据表迁移到实时存储空间中,完成数据表迁移。
进一步的,所述表类型划分原则的具体内容如下:
当数据表的表类型为维度表,将该数据表存储到热盘中;
当数据表的表类型为分区表,获取该数据表中分区数据的分区时间,并将分区时间与时间阈值比较,当分区时间小于时间阈值,将该数据表存储到热盘中,否则,将该数据表存储到温盘中。
进一步的,所述表依赖关系划分原则的具体内容如下:
将数据表被调用的次数分别与最大被调用次数阈值和最小被调用次数阈值比较;
当数据表被调用的次数大于最大被调用次数阈值,则将该数据表存储到热盘中;
当数据表被调用的次数小于最小被调用次数阈值,则将该数据表存储到温盘中;
当数据表被调用的次数位于区间[最小被调用次数阈值,最大被调用次数阈值]内,通过查询命令获取热盘的空间使用率,当热盘空间使用率小于70%,将该数据表存储到热盘中,否则,将该数据表存储到温盘中。
进一步的,所述最大被调用次数阈值和最小被调用次数阈值的计算方法如下:
设共有l个数据表,根据每个数据表被调用的次数分别计算l个数据表被调用次数的算术平均数和标准差:
Figure BDA0002966706590000041
Figure BDA0002966706590000042
其中,u表示l个数据表被调用次数的算术平均数,xi表示第i个数据表被调用的次数,i=1,2,…,l,σ表示l个数据表被调用次数的标准差;
利用u-σ作为最小被调用次数阈值,u+σ作为最大被调用次数阈值。
进一步的,所述GreenPlum数据库的构建方法包括如下步骤:
将SAS和SSD分别挂载在目录/data1和目录/data2下;
利用目录/data1作为默认文件空间进行GreenPlum数据库程序安装,并利用脚本在默认文件空间上创建GreenPlum数据库的默认表空间;
利用gpfilespace命令将目录/data2设置为GreenPlum数据库的新文件空间,并将事务文件空间和临时文件空间从目录/data1迁移到目录/data2;
利用脚本在新文件空间上创建GreenPlum数据库的新表空间;
利用默认表空间作为GreenPlum数据库的温盘,利用新表空间作为GreenPlum数据库的热盘,完成GreenPlum数据库的构建。
采用以上技术手段后可以获得以下优势:
本发明提出了一种基于SAS和SSD的GP数据库数据存储方法,利用SAS和SSD作为GP数据库的两个存储空间,同时给出了存储空间划分原则,一方面对待存储的数据表进行存储空间划分,另一方面对已经存储到数据库中的数据表进行存储空间检验,从而确保使用频率高的数据表存储在热盘中,使用频率相对较低的数据表(如历史分区数据)存储在温盘中。本发明不仅能够准确的对新数据表进行存储,还可以通过周期性的数据表迁移令GP数据库在长期使用中都能保持较高的IO性能,实现了存储性能和数据有效存储的均衡,且存储成本较低、自动化程度较高。
本发明的存储空间划分原则进一步的分为表类型划分原则和调用次数划分原则,表类型划分原则给定了GP数据库中常见的几种数据表的存储空间,而调用次数划分原则能够根据数据表被调用的次数来进行存储空间划分,其划分结果更加贴合实际需求,能够有效提高存储性能。
附图说明
图1为本发明一种基于SAS和SSD的GP数据库数据存储方法的步骤流程图。
图2为本发明实施例中GreenPlum数据库的扩展脚本示意图。
图3为本发明实施例中GreenPlum数据库的物理机示意图。
图4为本发明实施例中分区表迁移前目录/data1和/data2的空间使用率示意图。
图5为本发明实施例中分区表迁移后目录/data1和/data2的空间使用率示意图。
图6为本发明实施例中非分区表迁移前目录/data1和/data2的空间使用率示意图。
图7为本发明实施例中非分区表迁移后目录/data1和/data2的空间使用率示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明:
本发明提出了一种基于SAS和SSD的GP数据库数据存储方法,如图1所示,具体包括以下步骤:
步骤A、实时获取待存储的数据表;
步骤B、基于存储空间划分原则将待存储的数据表存入预先构建的GreenPlum数据库的不同存储空间中;
步骤C、周期性的获取GreenPlum数据库不同存储空间中已存储的数据表;
步骤D、基于存储空间划分原则对已存储的数据表进行存储空间检验,并根据存储空间检验结果进行数据表迁移。
在本发明方法中,预先构建的GreenPlum数据库的存储空间包括热盘和温盘,其中,热盘为挂载在一个目录下的SSD,温盘为挂载在另一个目录下的SAS。
GreenPlum数据库的构建方法包括如下步骤:
S1、将SAS和SSD分别挂载在目录/data1和目录/data2下。
S2、利用目录/data1作为默认文件空间进行GreenPlum数据库程序安装,安装过程中利用脚本在默认文件空间上创建GreenPlum数据库的默认表空间。
S3、利用gpfilespace命令生成扩展脚本,如图2所示,将目录/data2设置为GreenPlum数据库的新文件空间,脚本代码如下:
gpfilespace-config/data2/gpfilespace_config_20181101_143033
再利用gpfilespace命令生成扩展脚本,将安装过程中默认存储在目录/data1上的transfilespace(事务文件空间)和tempfilespace(临时文件空间)迁移到目录/data2,从而提高任务执行速度。
S4、利用脚本在新文件空间上创建GreenPlum数据库的新表空间ssd_tablespace,脚本代码如下:
CREATE TABLESPACE ssd_tablespace FILESPACE ssd_filespace
S5、利用默认表空间作为GreenPlum数据库的温盘,利用新表空间作为GreenPlum数据库的热盘,完成GreenPlum数据库的构建。
在完成了GreenPlum数据库的构建后,本发明还可以进行表空间迁移验证,即将一个存储空间中的数据表迁移到另一个存储空间中,通过观察存储空间使用率来验证迁移是否成功,进而确定GreenPlum数据库的构建是否有问题。
本发明方法中的存储空间划分原则包括表类型划分原则和调用次数划分原则,其中,表类型划分原则的具体内容如下:
当数据表的表类型为维度表,将该数据表存储到热盘中;
当数据表的表类型为分区表,获取该数据表中分区数据的分区时间,并将分区时间与时间阈值比较,当分区时间小于时间阈值,将该数据表存储到热盘中,否则,将该数据表存储到温盘中,其中,时间阈值通常是人为设置的;
根据GP数据库对应的不同系统的业务特点,识别出需要重点保障的核心ETL任务流,基于数据产出及时性,其数据表需要存放在热盘。
调用次数划分原则是基于最大被调用次数阈值和最小被调用次数阈值进行存储空间划分的,最大被调用次数阈值和最小被调用次数阈值的计算方法如下:
设共有l个数据表要通过被调用次数划分原则进行存储空间划分,根据GP数据库对应的不同系统架构的特点,通过不同的获取途径获得数据表存在依赖关系的次数,进而获得每个数据表被调用的次数。
根据每个数据表被调用的次数计算l个数据表被调用次数的算术平均数和标准差:
Figure BDA0002966706590000091
Figure BDA0002966706590000092
其中,u表示l个数据表被调用次数的算术平均数,xi表示第i个数据表被调用的次数,i=1,2,…,l,σ表示l个数据表被调用次数的标准差。
利用u-σ作为最小被调用次数阈值,u+σ作为最大被调用次数阈值。
调用次数划分原则的具体内容如下:
将第i个数据表被调用次数xi分别与最大被调用次数阈值u+σ和最小被调用次数阈值u-σ比较;当xi大于u+σ,则将第i个数据表存储到热盘中;当xi小于u-σ,则将第i个数据表存储到温盘中;当xi位于区间[u-σ,u+σ]内,通过查询命令获取热盘的空间使用率,当热盘空间使用率小于70%,说明热盘预留了数据库备份以及下次数据表迁移前的自然增长所需要的空间,此时就可以将第i个数据表存储到热盘中,否则,将第i个数据表存储到温盘中,以此来尽可能的提高存储性能。
本发明实施例中,步骤B的具体操作如下:
设共有n个待存储的数据表,构成待存储数据表集合N,依次获取每个待存储的数据表的表类型和被调用的次数。
根据待存储的数据表的表类型获取满足表类型划分原则的m个待存储的数据表,构成一次数据表集合M,并获得其对应的存储空间,根据每个待存储的数据表对应的存储空间进行第一次数据表存储,其中,m=0,1,2,…,n。
由于表类型划分原则是针对固定表类型的存储空间划分的原则,所以在实际操作中,可能会出现所有待存储的数据表都不满足表类型划分原则或者只有一部分满足的情况,这种时候就需要进行第二次数据表存储。
获取二次数据表集合L=N-M,根据二次数据表集合中每个待存储的数据表被调用的次数计算最小被调用次数阈值和最大被调用次数阈值。
根据二次数据表集合中每个待存储的数据表被调用的次数、最小被调用次数阈值、最大被调用次数阈值和调用次数划分原则获取二次数据集合中每个待存储的数据表对应的存储空间,进行第二次数据表存储。
本发明实施例中,步骤D的具体操作如下:
设共有k个已存储的数据表,构成已存储数据表集合K,获取每个已存储的数据表的原始存储空间、表类型和被调用的次数。
根据已存储的数据表的表类型获取满足表类型划分原则的s个已存储的数据表,构成一次检验集合S,并获得其对应的实时存储空间,其中,s=0,1,2,…,k。
获取二次检验集合T=K-S,根据二次检验集合中每个已存储的数据表被调用的次数计算最小被调用次数阈值和最大被调用次数阈值。
根据二次检验集合中每个已存储的数据表被调用的次数、最小被调用次数阈值、最大被调用次数阈值和调用次数划分原则获取二次检验集合中每个已存储的数据表对应的实时存储空间。
将每个已存储的数据表的实时存储空间与原始存储空间进行一致性检验,获得存储空间检验结果,如果实时存储空间和原始存储空间一样,则存储空间检验通过,否则,检验不通过;其中,原始存储空间即为当前时刻已存储的数据表所在的存储空间,实时存储空间指根据表类型划分原则或者表被调用次数划分原则获得的存储空间。
将存储空间检验结果为不通过的已存储的数据表迁移到实时存储空间中,完成数据表迁移。
GreenPlum是一个计算集群,在实际使用中往往需要配置多个计算机,且集群中的sgement节点需要有一样的配置,如图3所示,本发明实施例在两台物理机(mdw_gp5,sdw1_gp5)上各部署6个GreenPlum的Segment节点,并将Master节点也部署在mdw_gp5上;两台物理机分别都挂载了两个目录/data1和/data2。本发明实施例在图3的基础上分别对分区表和非分区表进行迁移,以验证本发明方法的效果:
(1)分区表迁移
通过执行迁移命令对GreenPlum数据库中表ms_cust_tran_index_pdt_d的分区p201807进行迁移,迁移命令如下:
alter table easyetl.ms_cust_tran_index_pdt_d alter partition p201807set tablespace ssd_tablespace;
GreenPlum数据库中该分区的大小为52G,分到两个物理机上,每个物理机上分区的大小约为27G。图4是分区表迁移前mdw_gp5的目录/data1和/data2的空间使用率,其中,/data1的空间使用率为74%,/data2的空间使用率为1%;图5为分区表迁移后mdw_gp5的目录/data1和/data2的空间使用率,其中,/data1减少了27G,空间使用率为70%,/data2增加了27G,空间使用率为6%,由此可知,分区表迁移成功,数据已经从SAS盘迁移到SSD盘。
(2)非分区表迁移
通过执行迁移命令对GreenPlum数据库中的表fsp_first_page_index进行迁移,该表的大小为3G,分到每个物理机上,每个物理机上该表的大小约为1.5G,迁移命令如下:
alter table easyetl.fsp_first_page_index set tablespace ssd_tablespace;
图6为非分区表迁移前mdw_gp5的目录/data1和/data2的空间使用率,其中,/data1的空间使用率为70%,/data2的空间使用率为6%;图7为非分区表迁移后mdw_gp5的目录/data1和/data2的空间使用率,从图片中可以看出,/data1减少了1.4G左右,/data2增加了1.4G左右,由此可知,分区表迁移成功,数据已经从SAS盘迁移到SSD盘。
与现有技术相比,本发明不仅利用了SAS和SSD作为GP数据库的两个存储空间,还给出了具体的存储空间划分原则,一方面对待存储的数据表进行存储空间划分,另一方面周期性的对已经存储到数据库中的数据表进行存储空间检验,通过不断的数据表存储和数据表迁移来实现长期保持较高IO性能的效果,实现了存储性能和数据有效存储的均衡,且存储成本较低、自动化程度较高。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种基于SAS和SSD的GP数据库数据存储方法,其特征在于,包括如下步骤:
实时获取待存储的数据表;
基于存储空间划分原则将待存储的数据表存入预先构建的GreenPlum数据库的不同存储空间中;
周期性的获取GreenPlum数据库不同存储空间中已存储的数据表;
基于存储空间划分原则对已存储的数据表进行存储空间检验,并根据存储空间检验结果进行数据表迁移;
所述预先构建的GreenPlum数据库的存储空间包括热盘和温盘,其中,热盘为挂载在一个目录下的SSD,温盘为挂载在另一个目录下的SAS。
2.根据权利要求1所述的一种基于SAS和SSD的GP数据库数据存储方法,其特征在于,所述存储空间划分原则包括表类型划分原则和调用次数划分原则。
3.根据权利要求2所述的一种基于SAS和SSD的GP数据库数据存储方法,其特征在于,将待存储的数据表依次存入GreenPlum数据库的存储空间中的具体操作如下:
设共有n个待存储的数据表,构成待存储数据表集合N,依次获取每个待存储的数据表的表类型和被调用的次数;
根据待存储的数据表的表类型获取满足表类型划分原则的m个待存储的数据表,构成一次数据表集合M,并获得其对应的存储空间,进行第一次数据表存储,其中,m=0,1,2,…,n;
获取二次数据表集合L=N-M,根据二次数据表集合中每个待存储的数据表被调用的次数计算最小被调用次数阈值和最大被调用次数阈值;
根据待存储的数据表被调用的次数、最小被调用次数阈值、最大被调用次数阈值和调用次数划分原则获取二次数据集合中每个待存储的数据表对应的存储空间,进行第二次数据表存储。
4.根据权利要求2所述的一种基于SAS和SSD的GP数据库数据存储方法,其特征在于,存储空间检验的具体操作如下:
设共有k个已存储的数据表,构成已存储数据表集合K,获取每个已存储的数据表的原始存储空间、表类型和被调用的次数;
根据已存储的数据表的表类型获取满足表类型划分原则的s个已存储的数据表,构成一次检验集合S,并获得其对应的实时存储空间,其中,s=0,1,2,…,k;
获取二次检验集合T=K-S,根据二次检验集合中每个已存储的数据表被调用的次数计算最小被调用次数阈值和最大被调用次数阈值;
根据已存储的数据表被调用的次数、最小被调用次数阈值、最大被调用次数阈值和调用次数划分原则获取二次检验集合中每个已存储的数据表对应的实时存储空间;
将每个已存储的数据表的实时存储空间与原始存储空间进行一致性检验,获得存储空间检验结果;
将存储空间检验结果为不通过的已存储的数据表迁移到实时存储空间中,完成数据表迁移。
5.根据权利要求3或4所述的一种基于SAS和SSD的GP数据库数据存储方法,其特征在于,所述表类型划分原则的具体内容如下:
当数据表的表类型为维度表,将该数据表存储到热盘中;
当数据表的表类型为分区表,获取该数据表中分区数据的分区时间,并将分区时间与时间阈值比较,当分区时间小于时间阈值,将该数据表存储到热盘中,否则,将该数据表存储到温盘中。
6.根据权利要求3或4所述的一种基于SAS和SSD的GP数据库数据存储方法,其特征在于,所述表依赖关系划分原则的具体内容如下:
将数据表被调用的次数分别与最大被调用次数阈值和最小被调用次数阈值比较;
当数据表被调用的次数大于最大被调用次数阈值,则将该数据表存储到热盘中;
当数据表被调用的次数小于最小被调用次数阈值,则将该数据表存储到温盘中;
当数据表被调用的次数位于区间[最小被调用次数阈值,最大被调用次数阈值]内,通过查询命令获取热盘的空间使用率,当热盘空间使用率小于70%,将该数据表存储到热盘中,否则,将该数据表存储到温盘中。
7.根据权利要求3或4所述的一种基于SAS和SSD的GP数据库数据存储方法,其特征在于,所述最大被调用次数阈值和最小被调用次数阈值的计算方法如下:
设共有l个数据表,根据每个数据表被调用的次数分别计算l个数据表被调用次数的算术平均数和标准差:
Figure FDA0002966706580000041
Figure FDA0002966706580000042
其中,u表示l个数据表被调用次数的算术平均数,xi表示第i个数据表被调用的次数,i=1,2,…,l,σ表示l个数据表被调用次数的标准差;
利用u-σ作为最小被调用次数阈值,u+σ作为最大被调用次数阈值。
8.根据权利要求1所述的一种基于SAS和SSD的GP数据库数据存储方法,其特征在于,所述GreenPlum数据库的构建方法包括如下步骤:
将SAS和SSD分别挂载在目录/data1和目录/data2下;
利用目录/data1作为默认文件空间进行GreenPlum数据库程序安装,并利用脚本在默认文件空间上创建GreenPlum数据库的默认表空间;
利用gpfilespace命令将目录/data2设置为GreenPlum数据库的新文件空间,并将事务文件空间和临时文件空间从目录/data1迁移到目录/data2;
利用脚本在新文件空间上创建GreenPlum数据库的新表空间;
利用默认表空间作为GreenPlum数据库的温盘,利用新表空间作为GreenPlum数据库的热盘,完成GreenPlum数据库的构建。
CN202110252745.7A 2021-03-09 2021-03-09 一种基于sas和ssd的gp数据库数据存储方法 Active CN112965665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110252745.7A CN112965665B (zh) 2021-03-09 2021-03-09 一种基于sas和ssd的gp数据库数据存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110252745.7A CN112965665B (zh) 2021-03-09 2021-03-09 一种基于sas和ssd的gp数据库数据存储方法

Publications (2)

Publication Number Publication Date
CN112965665A true CN112965665A (zh) 2021-06-15
CN112965665B CN112965665B (zh) 2023-09-26

Family

ID=76277268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110252745.7A Active CN112965665B (zh) 2021-03-09 2021-03-09 一种基于sas和ssd的gp数据库数据存储方法

Country Status (1)

Country Link
CN (1) CN112965665B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110138148A1 (en) * 2009-12-04 2011-06-09 David Friedman Dynamic Data Storage Repartitioning
CN102436419A (zh) * 2010-09-29 2012-05-02 三星电子株式会社 非易失性存储器系统及管理其电源的方法
CN108255855A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 数据存储方法和装置
CN108829782A (zh) * 2018-05-31 2018-11-16 平安科技(深圳)有限公司 数据表清理方法、服务器及计算机可读存储介质
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
WO2019148722A1 (zh) * 2018-02-01 2019-08-08 平安科技(深圳)有限公司 电子装置、数据迁移及调用方法及存储介质
CN111597201A (zh) * 2020-04-23 2020-08-28 南京聚力云成电子科技有限公司 一种基于Greenplum大规模并行处理数据库的内容快速压缩方法
CN111694505A (zh) * 2019-03-15 2020-09-22 北京京东尚科信息技术有限公司 数据存储管理方法、装置和计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110138148A1 (en) * 2009-12-04 2011-06-09 David Friedman Dynamic Data Storage Repartitioning
CN102436419A (zh) * 2010-09-29 2012-05-02 三星电子株式会社 非易失性存储器系统及管理其电源的方法
CN108255855A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 数据存储方法和装置
WO2019148722A1 (zh) * 2018-02-01 2019-08-08 平安科技(深圳)有限公司 电子装置、数据迁移及调用方法及存储介质
CN108829782A (zh) * 2018-05-31 2018-11-16 平安科技(深圳)有限公司 数据表清理方法、服务器及计算机可读存储介质
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN111694505A (zh) * 2019-03-15 2020-09-22 北京京东尚科信息技术有限公司 数据存储管理方法、装置和计算机可读存储介质
CN111597201A (zh) * 2020-04-23 2020-08-28 南京聚力云成电子科技有限公司 一种基于Greenplum大规模并行处理数据库的内容快速压缩方法

Also Published As

Publication number Publication date
CN112965665B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
EP3238106B1 (en) Compaction policy
US8150836B2 (en) System, method, and computer-readable medium for reducing row redistribution costs for parallel join operations
CN103077197A (zh) 一种数据存储方法装置
EP3575968A1 (en) Method and device for synchronizing active transaction lists
US20130332446A1 (en) Efficient partitioning techniques for massively distributed computation
US10509803B2 (en) System and method of using replication for additional semantically defined partitioning
CN111104457A (zh) 基于分布式数据库的海量时空数据管理方法
Silberstein et al. Efficient bulk insertion into a distributed ordered table
CN107070645A (zh) 比较数据表的数据的方法和系统
CN107480254B (zh) 适用于分布式内存数据库的在线负载均衡方法
CN114936188A (zh) 数据处理方法、装置、电子设备及存储介质
CN113111038A (zh) 文件存储方法、装置、服务器及存储介质
CN106973091B (zh) 分布式内存数据重分布方法及系统、主控服务器
CN111680019A (zh) 一种区块链的数据扩容方法及其装置
CN103365740A (zh) 一种数据冷备方法及装置
US11449521B2 (en) Database management system
CN112965665A (zh) 一种基于sas和ssd的gp数据库数据存储方法
CN103473368A (zh) 一种基于计数排序的虚拟机实时迁移方法及系统
US8290935B1 (en) Method and system for optimizing database system queries
CN115686342A (zh) 存储系统中的数据存储方法以及装置
CN113836238A (zh) 数据命令的批量处理方法及装置
Wang et al. Efficient spatial big data storage and query in HBase
KR102054068B1 (ko) 그래프 스트림에 대한 실시간 분산 저장을 위한 분할 방법 및 분할 장치
US11036678B2 (en) Optimizing files stored in a distributed file system
CN111143324B (zh) 一种kudu的基于大小的数据库数据均衡系统及实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant