CN112965665A

CN112965665A - 一种基于sas和ssd的gp数据库数据存储方法

Info

Publication number: CN112965665A
Application number: CN202110252745.7A
Authority: CN
Inventors: 王俊; 李健华; 李英杰
Original assignee: Huatai Securities Co ltd
Current assignee: Huatai Securities Co ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-15
Anticipated expiration: 2041-03-09
Also published as: CN112965665B

Abstract

本发明公开了一种基于SAS和SSD的GP数据库数据存储方法，旨在解决GP数据库的存储性能和数据有效存储难以均衡的技术问题。其包括：获取待存储的数据表；基于存储空间划分原则将待存储的数据表存入GP数据库的不同存储空间中；周期性的获取GP数据库不同存储空间中已存储的数据表；基于存储空间划分原则对已存储的数据表进行存储空间检验，并根据存储空间检验结果进行数据表迁移；其中，GP数据库的存储空间包括挂载在一个目录下的SSD和挂载在另一个目录下的SAS。本发明能够实现较高的IO性能和较好的存储效率。

Description

一种基于SAS和SSD的GP数据库数据存储方法

技术领域

本发明涉及一种基于SAS和SSD的GP数据库数据存储方法，属于数据库技术领域。

背景技术

以Greenplum为基础搭建的数据仓库，其存储量较大、对存储性能的要求较高，如果采用纯SAS作为数据库存储空间，很可能存在IO性能不足的情况，但是如果全部使用SSD盘作为数据库存储空间，又存在建设费用过高、资源浪费的情况。

一般情况下，Greenplum数据库这类数据仓库存在着大量的历史数据，这部分数据的查询频率较低，因此市面上出现了利用混用盘进行数据存储的情况，混用盘在一定程度上可以利用较小的成本实现较好的IO性能，但是市面上的混用盘存储方法并没有对各类数据的具体存储空间进行较好的划分，也没有给出保证混用盘性能水平和数据有效存储的均衡规则，在长期使用中，随着数据的不断增加，这种数据存储方法难以做到存储性能和数据有效存储的均衡，可能出现IO性能下降等问题。

发明内容

为了解决现有技术中Greenplum数据库的存储性能和数据有效存储难以均衡的问题，本发明提出了一种基于SAS和SSD的GP数据库数据存储方法，利用存储空间划分原则对新生成的数据表和已存储的数据表进行空间划分，确保使用频率高的数据表存储在热盘中，其他数据表存储在温盘中，既减小了数据存储成本，又实现了较高的IO性能和较好的存储效率。

为解决上述技术问题，本发明采用了如下技术手段：

本发明提出了一种基于SAS和SSD的GP数据库数据存储方法，包括如下步骤：

实时获取待存储的数据表；

基于存储空间划分原则将待存储的数据表存入预先构建的GreenPlum数据库的不同存储空间中；

周期性的获取GreenPlum数据库不同存储空间中已存储的数据表；

基于存储空间划分原则对已存储的数据表进行存储空间检验，并根据存储空间检验结果进行数据表迁移；

所述预先构建的GreenPlum数据库的存储空间包括热盘和温盘，其中，热盘为挂载在一个目录下的SSD，温盘为挂载在另一个目录下的SAS。

进一步的，所述存储空间划分原则包括表类型划分原则和调用次数划分原则。

进一步的，将待存储的数据表依次存入GreenPlum数据库的存储空间中的具体操作如下：

设共有n个待存储的数据表，构成待存储数据表集合N，依次获取每个待存储的数据表的表类型和被调用的次数；

根据待存储的数据表的表类型获取满足表类型划分原则的m个待存储的数据表，构成一次数据表集合M，并获得其对应的存储空间，进行第一次数据表存储，其中，m＝0,1,2,L,n；

获取二次数据表集合L＝N-M，根据二次数据表集合中每个待存储的数据表被调用的次数计算最小被调用次数阈值和最大被调用次数阈值；

根据待存储的数据表被调用的次数、最小被调用次数阈值、最大被调用次数阈值和调用次数划分原则获取二次数据集合中每个待存储的数据表对应的存储空间，进行第二次数据表存储。

进一步的，存储空间检验的具体操作如下：

设共有k个已存储的数据表，构成已存储数据表集合K，获取每个已存储的数据表的原始存储空间、表类型和被调用的次数；

根据已存储的数据表的表类型获取满足表类型划分原则的s个已存储的数据表，构成一次检验集合S，并获得其对应的实时存储空间，其中，s＝0,1,2,…,k；

获取二次检验集合T＝K-S，根据二次检验集合中每个已存储的数据表被调用的次数计算最小被调用次数阈值和最大被调用次数阈值；

根据已存储的数据表被调用的次数、最小被调用次数阈值、最大被调用次数阈值和调用次数划分原则获取二次检验集合中每个已存储的数据表对应的实时存储空间；

将每个已存储的数据表的实时存储空间与原始存储空间进行一致性检验，获得存储空间检验结果；

将存储空间检验结果为不通过的已存储的数据表迁移到实时存储空间中，完成数据表迁移。

进一步的，所述表类型划分原则的具体内容如下：

当数据表的表类型为维度表，将该数据表存储到热盘中；

当数据表的表类型为分区表，获取该数据表中分区数据的分区时间，并将分区时间与时间阈值比较，当分区时间小于时间阈值，将该数据表存储到热盘中，否则，将该数据表存储到温盘中。

进一步的，所述表依赖关系划分原则的具体内容如下：

将数据表被调用的次数分别与最大被调用次数阈值和最小被调用次数阈值比较；

当数据表被调用的次数大于最大被调用次数阈值，则将该数据表存储到热盘中；

当数据表被调用的次数小于最小被调用次数阈值，则将该数据表存储到温盘中；

当数据表被调用的次数位于区间[最小被调用次数阈值，最大被调用次数阈值]内，通过查询命令获取热盘的空间使用率，当热盘空间使用率小于70％，将该数据表存储到热盘中，否则，将该数据表存储到温盘中。

进一步的，所述最大被调用次数阈值和最小被调用次数阈值的计算方法如下：

设共有l个数据表，根据每个数据表被调用的次数分别计算l个数据表被调用次数的算术平均数和标准差：

其中，u表示l个数据表被调用次数的算术平均数，x_i表示第i个数据表被调用的次数，i＝1,2,…,l，σ表示l个数据表被调用次数的标准差；

利用u-σ作为最小被调用次数阈值，u+σ作为最大被调用次数阈值。

进一步的，所述GreenPlum数据库的构建方法包括如下步骤：

将SAS和SSD分别挂载在目录/data1和目录/data2下；

利用目录/data1作为默认文件空间进行GreenPlum数据库程序安装，并利用脚本在默认文件空间上创建GreenPlum数据库的默认表空间；

利用gpfilespace命令将目录/data2设置为GreenPlum数据库的新文件空间，并将事务文件空间和临时文件空间从目录/data1迁移到目录/data2；

利用脚本在新文件空间上创建GreenPlum数据库的新表空间；

利用默认表空间作为GreenPlum数据库的温盘，利用新表空间作为GreenPlum数据库的热盘，完成GreenPlum数据库的构建。

采用以上技术手段后可以获得以下优势：

本发明提出了一种基于SAS和SSD的GP数据库数据存储方法，利用SAS和SSD作为GP数据库的两个存储空间，同时给出了存储空间划分原则，一方面对待存储的数据表进行存储空间划分，另一方面对已经存储到数据库中的数据表进行存储空间检验，从而确保使用频率高的数据表存储在热盘中，使用频率相对较低的数据表(如历史分区数据)存储在温盘中。本发明不仅能够准确的对新数据表进行存储，还可以通过周期性的数据表迁移令GP数据库在长期使用中都能保持较高的IO性能，实现了存储性能和数据有效存储的均衡，且存储成本较低、自动化程度较高。

本发明的存储空间划分原则进一步的分为表类型划分原则和调用次数划分原则，表类型划分原则给定了GP数据库中常见的几种数据表的存储空间，而调用次数划分原则能够根据数据表被调用的次数来进行存储空间划分，其划分结果更加贴合实际需求，能够有效提高存储性能。

附图说明

图1为本发明一种基于SAS和SSD的GP数据库数据存储方法的步骤流程图。

图2为本发明实施例中GreenPlum数据库的扩展脚本示意图。

图3为本发明实施例中GreenPlum数据库的物理机示意图。

图4为本发明实施例中分区表迁移前目录/data1和/data2的空间使用率示意图。

图5为本发明实施例中分区表迁移后目录/data1和/data2的空间使用率示意图。

图6为本发明实施例中非分区表迁移前目录/data1和/data2的空间使用率示意图。

图7为本发明实施例中非分区表迁移后目录/data1和/data2的空间使用率示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明：

本发明提出了一种基于SAS和SSD的GP数据库数据存储方法，如图1所示，具体包括以下步骤：

步骤A、实时获取待存储的数据表；

步骤B、基于存储空间划分原则将待存储的数据表存入预先构建的GreenPlum数据库的不同存储空间中；

步骤C、周期性的获取GreenPlum数据库不同存储空间中已存储的数据表；

步骤D、基于存储空间划分原则对已存储的数据表进行存储空间检验，并根据存储空间检验结果进行数据表迁移。

在本发明方法中，预先构建的GreenPlum数据库的存储空间包括热盘和温盘，其中，热盘为挂载在一个目录下的SSD，温盘为挂载在另一个目录下的SAS。

GreenPlum数据库的构建方法包括如下步骤：

S1、将SAS和SSD分别挂载在目录/data1和目录/data2下。

S2、利用目录/data1作为默认文件空间进行GreenPlum数据库程序安装，安装过程中利用脚本在默认文件空间上创建GreenPlum数据库的默认表空间。

S3、利用gpfilespace命令生成扩展脚本，如图2所示，将目录/data2设置为GreenPlum数据库的新文件空间，脚本代码如下：

gpfilespace-config/data2/gpfilespace_config_20181101_143033

再利用gpfilespace命令生成扩展脚本，将安装过程中默认存储在目录/data1上的transfilespace(事务文件空间)和tempfilespace(临时文件空间)迁移到目录/data2，从而提高任务执行速度。

S4、利用脚本在新文件空间上创建GreenPlum数据库的新表空间ssd_tablespace，脚本代码如下：

CREATE TABLESPACE ssd_tablespace FILESPACE ssd_filespace

S5、利用默认表空间作为GreenPlum数据库的温盘，利用新表空间作为GreenPlum数据库的热盘，完成GreenPlum数据库的构建。

在完成了GreenPlum数据库的构建后，本发明还可以进行表空间迁移验证，即将一个存储空间中的数据表迁移到另一个存储空间中，通过观察存储空间使用率来验证迁移是否成功，进而确定GreenPlum数据库的构建是否有问题。

本发明方法中的存储空间划分原则包括表类型划分原则和调用次数划分原则，其中，表类型划分原则的具体内容如下：

当数据表的表类型为维度表，将该数据表存储到热盘中；

当数据表的表类型为分区表，获取该数据表中分区数据的分区时间，并将分区时间与时间阈值比较，当分区时间小于时间阈值，将该数据表存储到热盘中，否则，将该数据表存储到温盘中，其中，时间阈值通常是人为设置的；

根据GP数据库对应的不同系统的业务特点，识别出需要重点保障的核心ETL任务流，基于数据产出及时性，其数据表需要存放在热盘。

调用次数划分原则是基于最大被调用次数阈值和最小被调用次数阈值进行存储空间划分的，最大被调用次数阈值和最小被调用次数阈值的计算方法如下：

设共有l个数据表要通过被调用次数划分原则进行存储空间划分，根据GP数据库对应的不同系统架构的特点，通过不同的获取途径获得数据表存在依赖关系的次数，进而获得每个数据表被调用的次数。

根据每个数据表被调用的次数计算l个数据表被调用次数的算术平均数和标准差：

其中，u表示l个数据表被调用次数的算术平均数，x_i表示第i个数据表被调用的次数，i＝1,2,…,l，σ表示l个数据表被调用次数的标准差。

调用次数划分原则的具体内容如下：

将第i个数据表被调用次数x_i分别与最大被调用次数阈值u+σ和最小被调用次数阈值u-σ比较；当x_i大于u+σ，则将第i个数据表存储到热盘中；当x_i小于u-σ，则将第i个数据表存储到温盘中；当x_i位于区间[u-σ，u+σ]内，通过查询命令获取热盘的空间使用率，当热盘空间使用率小于70％，说明热盘预留了数据库备份以及下次数据表迁移前的自然增长所需要的空间，此时就可以将第i个数据表存储到热盘中，否则，将第i个数据表存储到温盘中，以此来尽可能的提高存储性能。

本发明实施例中，步骤B的具体操作如下：

设共有n个待存储的数据表，构成待存储数据表集合N，依次获取每个待存储的数据表的表类型和被调用的次数。

根据待存储的数据表的表类型获取满足表类型划分原则的m个待存储的数据表，构成一次数据表集合M，并获得其对应的存储空间，根据每个待存储的数据表对应的存储空间进行第一次数据表存储，其中，m＝0,1,2,…,n。

由于表类型划分原则是针对固定表类型的存储空间划分的原则，所以在实际操作中，可能会出现所有待存储的数据表都不满足表类型划分原则或者只有一部分满足的情况，这种时候就需要进行第二次数据表存储。

获取二次数据表集合L＝N-M，根据二次数据表集合中每个待存储的数据表被调用的次数计算最小被调用次数阈值和最大被调用次数阈值。

根据二次数据表集合中每个待存储的数据表被调用的次数、最小被调用次数阈值、最大被调用次数阈值和调用次数划分原则获取二次数据集合中每个待存储的数据表对应的存储空间，进行第二次数据表存储。

本发明实施例中，步骤D的具体操作如下：

设共有k个已存储的数据表，构成已存储数据表集合K，获取每个已存储的数据表的原始存储空间、表类型和被调用的次数。

根据已存储的数据表的表类型获取满足表类型划分原则的s个已存储的数据表，构成一次检验集合S，并获得其对应的实时存储空间，其中，s＝0,1,2,…,k。

获取二次检验集合T＝K-S，根据二次检验集合中每个已存储的数据表被调用的次数计算最小被调用次数阈值和最大被调用次数阈值。

根据二次检验集合中每个已存储的数据表被调用的次数、最小被调用次数阈值、最大被调用次数阈值和调用次数划分原则获取二次检验集合中每个已存储的数据表对应的实时存储空间。

将每个已存储的数据表的实时存储空间与原始存储空间进行一致性检验，获得存储空间检验结果，如果实时存储空间和原始存储空间一样，则存储空间检验通过，否则，检验不通过；其中，原始存储空间即为当前时刻已存储的数据表所在的存储空间，实时存储空间指根据表类型划分原则或者表被调用次数划分原则获得的存储空间。

GreenPlum是一个计算集群，在实际使用中往往需要配置多个计算机，且集群中的sgement节点需要有一样的配置，如图3所示，本发明实施例在两台物理机(mdw_gp5，sdw1_gp5)上各部署6个GreenPlum的Segment节点，并将Master节点也部署在mdw_gp5上；两台物理机分别都挂载了两个目录/data1和/data2。本发明实施例在图3的基础上分别对分区表和非分区表进行迁移，以验证本发明方法的效果：

(1)分区表迁移

通过执行迁移命令对GreenPlum数据库中表ms_cust_tran_index_pdt_d的分区p201807进行迁移，迁移命令如下：

alter table easyetl.ms_cust_tran_index_pdt_d alter partition p201807set tablespace ssd_tablespace；

GreenPlum数据库中该分区的大小为52G，分到两个物理机上，每个物理机上分区的大小约为27G。图4是分区表迁移前mdw_gp5的目录/data1和/data2的空间使用率，其中，/data1的空间使用率为74％，/data2的空间使用率为1％；图5为分区表迁移后mdw_gp5的目录/data1和/data2的空间使用率，其中，/data1减少了27G，空间使用率为70％，/data2增加了27G，空间使用率为6％，由此可知，分区表迁移成功，数据已经从SAS盘迁移到SSD盘。

(2)非分区表迁移

通过执行迁移命令对GreenPlum数据库中的表fsp_first_page_index进行迁移，该表的大小为3G，分到每个物理机上，每个物理机上该表的大小约为1.5G，迁移命令如下：

alter table easyetl.fsp_first_page_index set tablespace ssd_tablespace；

图6为非分区表迁移前mdw_gp5的目录/data1和/data2的空间使用率，其中，/data1的空间使用率为70％，/data2的空间使用率为6％；图7为非分区表迁移后mdw_gp5的目录/data1和/data2的空间使用率，从图片中可以看出，/data1减少了1.4G左右，/data2增加了1.4G左右，由此可知，分区表迁移成功，数据已经从SAS盘迁移到SSD盘。

与现有技术相比，本发明不仅利用了SAS和SSD作为GP数据库的两个存储空间，还给出了具体的存储空间划分原则，一方面对待存储的数据表进行存储空间划分，另一方面周期性的对已经存储到数据库中的数据表进行存储空间检验，通过不断的数据表存储和数据表迁移来实现长期保持较高IO性能的效果，实现了存储性能和数据有效存储的均衡，且存储成本较低、自动化程度较高。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于SAS和SSD的GP数据库数据存储方法，其特征在于，包括如下步骤：

实时获取待存储的数据表；

2.根据权利要求1所述的一种基于SAS和SSD的GP数据库数据存储方法，其特征在于，所述存储空间划分原则包括表类型划分原则和调用次数划分原则。

3.根据权利要求2所述的一种基于SAS和SSD的GP数据库数据存储方法，其特征在于，将待存储的数据表依次存入GreenPlum数据库的存储空间中的具体操作如下：

根据待存储的数据表的表类型获取满足表类型划分原则的m个待存储的数据表，构成一次数据表集合M，并获得其对应的存储空间，进行第一次数据表存储，其中，m＝0,1,2,…,n；

4.根据权利要求2所述的一种基于SAS和SSD的GP数据库数据存储方法，其特征在于，存储空间检验的具体操作如下：

5.根据权利要求3或4所述的一种基于SAS和SSD的GP数据库数据存储方法，其特征在于，所述表类型划分原则的具体内容如下：

当数据表的表类型为维度表，将该数据表存储到热盘中；

6.根据权利要求3或4所述的一种基于SAS和SSD的GP数据库数据存储方法，其特征在于，所述表依赖关系划分原则的具体内容如下：

7.根据权利要求3或4所述的一种基于SAS和SSD的GP数据库数据存储方法，其特征在于，所述最大被调用次数阈值和最小被调用次数阈值的计算方法如下：

8.根据权利要求1所述的一种基于SAS和SSD的GP数据库数据存储方法，其特征在于，所述GreenPlum数据库的构建方法包括如下步骤：

将SAS和SSD分别挂载在目录/data1和目录/data2下；

利用脚本在新文件空间上创建GreenPlum数据库的新表空间；