CN114706861A

CN114706861A - 一种在列存储引擎中按列动态分组存储的方法

Info

Publication number: CN114706861A
Application number: CN202210638950.1A
Authority: CN
Inventors: 赵春泽; 李卓印; 李宇豪
Original assignee: Tianjin Nankai University General Data Technologies Co ltd
Current assignee: Tianjin Nankai University General Data Technologies Co ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-07-05
Anticipated expiration: 2042-06-08
Also published as: CN114706861B

Abstract

本发明提供了一种在列存储引擎中按列动态分组存储的方法，将数据表中所有列数据按照预设的行数切分成若干个DC行，按照顺序进行编号，同时生成对应的描述信息BSI。将描述信息存储到元数据中；数据按照列分组定义进行切分，分别存储到不同的数据文件中；读取数据时，存储单元首先预加载数据表的元数据信息，基于元数据找到对应的数据文件，读取对应的数据块。本发明所述的一种在列存储引擎中按列动态分组存储的方法，在通过列分组在写入数据时规避写放大问题，在读取数据时解决读放大问题，进而提升列存数据库的读写性能。

Description

一种在列存储引擎中按列动态分组存储的方法

技术领域

本发明属于数据分组存储领域，尤其是涉及一种在列存储引擎中按列动态分组存储的方法。

背景技术

在GBase云原生数据库中，为了实现共享存储、弹性扩容、存算分离等功能点，系统架构选择对象存储作为存储媒介。但是对象存储具有网络访问延时高，只支持一次性写入、不支持追加写和修改等缺点，给需要高效读写访问的数据库系统带来了挑战。传统列存数据库的数据存储一般采用两种模式，第一种模式是每列单独存储，第二种模式是所有列共同存储。第一种单列模式的优点是只读取目标列的数据文件，缺点是多列数据查询时需要数据重建，写数据存在写放大问题（例如，一个表有100列，插入一条数据，就会产生100个小数据文件）。第二种多列共存模式的优点是同一行数据存储在一个文件中，有利于整行数据读取，缺点是无法避免读取不必要的列，存在读放大问题（例如，一个表有100列，只读取1列数据，就需要遍历所有数据文件）。

发明内容

有鉴于此，本发明旨在提出一种在列存储引擎中按列动态分组存储的方法，以解决数据库每列单独存储时出现多列数据查询时写放大，多列共存存储时出现读放大的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一方面，本申请提出一种在列存储引擎中按列动态分组存储的方法，具体方法如下，

S1、在数据库中创建表语句中加入列分组定义，列分组定义基于用户业务采用谱聚类算法实现列分组；

S2、数据写入数据库表，并统计写入的数据行数；

S3、当写入的行数达到预设的数据块DC划分行数，将数据表中所有列数据按照预设的数据块DC划分行数切分成若干个数据块DC，按照顺序进行编号，同时生成对应的描述信息BSI，所述BSI包括DC编号、DC存储位置，并根据数据行号和DC预设行数设置BSI编号；所述DC为列数据按照预设的行数切分成若干个数据块，单个数据块称为DC，所述BSI为每一个数据块具对应的描述信息；

S4、将表中各列编号相同的DC组成一个DC行，表中各列编号相同的BSI组成一个BSI行，DC行与BSI行一一对应；

S5、将每组固定数量的BSI行对应存储到一个数据元数据PFile中；

S6、将每组固定数量的DC行，按照列分组定义进行列切分，分别存储到对应的数据文件PCFile中，在BSI中记录DC存储的PCFile地址；

S7、存储单元预加载数据表的元数据PFile文件，生成各列的BSI列表；

S8、根据数据行号计算得到BSI编号，进而找到对应的PCFile，读取对应的DC数据。

进一步的，若用户业务需求后续更新调整，历史数据与新数据处理方法如下：

对于历史数据，历史数据不需要根据新的列分组重写，读取时也不依赖S1中根据列分组定义进行的列分组；

对于新数据，具体方法如下：

基于更新的用户业务需求，采用谱聚类算法重新获得新的列分组定义；

执行步骤S2-S6，新数据按照新的列分组定义写入新的数据文件；

执行步骤S7-S8，进行新数据读取。

进一步的，步骤S1中，列分组定义基于用户业务采用谱聚类算法实现列分组，具体方法如下：

S11、获取用户查询语句，对应用户每条查询语句建立一个语句查询涉及到的相关列集合；

S12、统计每列分别与其余各列出现在同一相关列集合中的次数，统计出列与列之间的聚合程度，两条列同时出现在一条查询语句中，定义为列与列相关，记录为1次；

S13、基于聚合程度，将列与列之间相关次数较多的列划分为一组，相关次数较少的组断开两组，从而将列划分为不同的分组。

进一步的，步骤S2中，根据数据行号和DC预设行数设置BSI编号，具体方法为，BSI编号为数据行号除以DC预设的行数后取整。

进一步的，步骤S5中，BSI中存储内容包括BSI编号、PCFile地址、DC数据大小、DC在PCFile中的偏移地址。

第二方面，本申请还提出一种电子设备，包括处理器以及与处理器通信连接，且用于存储所述处理器可执行指令的存储器，所述处理器用于执行上述的一种在列存储引擎中按列动态分组存储的方法。

第三方面本申请还提出一种服务器，包括至少一个处理器，以及与所述处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，以使所述至少一个处理器执行上述的一种在列存储引擎中按列动态分组存储的方法。

第四方面，本申请还提出一种存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种在列存储引擎中按列动态分组存储的方法。

相对于现有技术，本发明所述的一种在列存储引擎中按列动态分组存储的方法具有以下有益效果：

本发明所述的一种在列存储引擎中按列动态分组存储的方法，将数据表中所有列数据按照预设的行数切分成若干个DC行，按照顺序进行编号，同时生成对应的描述信息BSI，通过列分组，在写入数据时规避写放大问题；将描述信息存储到元数据中；数据按照列分组定义进行切分，分别存储到不同的数据文件中；读取数据时，存储单元首先预加载数据表的元数据信息，基于元数据找到对应的数据文件，读取对应的数据块，保证查询只读取有效数据，避免读放大。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的一种在列存储引擎中按列动态分组存储的方法示意图；

图2为本发明实施例所述的列和列之间的关系转换示意图；

图3为本发明实施例所述的数据写入流程示意图；

图4为本发明实施例所述的数据读取流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

如图1、图3、图4所示，一种在列存储引擎中按列动态分组存储的方法，具体方法如下，

S1、在数据库中创建表语句中加入列分组定义，列分组定义基于用户业务采用谱聚类算法实现；

在数据库中创建表语句中加入列分组定义，用于定义哪些列属于一个组。基于聚合程度划分若干分组，采用谱聚类算法实现。

S2、数据写入数据库表，并统计写入的数据行数；

S3、当写入的行数达到预设的数据块DC划分行数，将数据表中所有列数据按照预设的数据块DC划分行数切分成若干个数据块DC，按照顺序进行编号，同时生成对应的描述信息BSI，所述BSI包括DC编号、DC存储位置，并根据数据行号和DC预设行数设置BSI编号；

S4、将表中各列编号相同的DC组成一个DC行，表中各列编号相同的BSI组成一个BSI行；

S6、将每组固定数量的DC行，按照列分组定义进行切分，分别存储到对应的数据文件PCFile中，在BSI中记录DC存储的PCFile地址；

首先在数据库中创建表语句中加入列分组定义，用于定义哪些列属于一个组。之后，数据库接收用户的插入数据任务，计算单元处理后，发给存储单元，存储单元将列数据按照分组定义存储在不同的数据文件中，减少写文件数量，降低写放大风险。同时将元数据存储在元数据文件中。最后，数据库接收用户的查询数据任务，计算单元根据查询列向存储单元请求读取列数据，存储单元根据请求列首先加载所有元数据信息，基于元数据信息读取数据文件返回列数据，保证查询只读取有效数据，避免读放大。

如图3、图4所示，若用户业务需求后续更新调整，历史数据与新数据处理方法如下：

对于历史数据，历史数据不需要根据新的列分组重写，读取时也不依赖S1表结构中的列分组定义；

对于新数据，具体方法如下：

执行步骤S7-S8，进行新数据读取。

如图1、图2所示，步骤S1中，列分组定义基于用户业务采用谱聚类算法实现，具体方法如下：

例如，设定一个数据表表1有5列，分别有列1、列2、列3、列4和列5。用户作业链设有的所有查询语句与表1相关的查询业务包含的相关列集合如下：

{列1，列2，列3}，{列1，列2，列3}，{列1，列2，列3}，{列1，列2，列3}，{列1，列2，列3}，{列1，列4，列5}，{列4，列5}，{列4，列5}，{列4，列5}，{列4，列5}。

根据上述相关列集合，统计列和列的相关次数，记录表格如下所示。

	列1	列2	列3	列4	列5
						列1	-	5	5	1	1
列2	5	-	5	0	0
						列3	5	5	-	0	0
列4	1	0	0	-	5
						列5	1	0	0	0	-

将列和列之间的关系转换为图2，即所有的列看做空间中的点，点点之间用边相连，边的权重值表示列与列的相关次数。距离较远的两个点，它们之间边的权重值较低，距离较近的两点之间边的权重值较高。

对图2进行切图形成多个子图，目标是要让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高。即子图间距离尽量较远，子图内部尽量相似。这样就完成了将列划分为不同分组的过程，列1与列4之间的相关次数较少（边权重小），进行切分，最终得到分组为：组1{列1，列2，列3}，组2{列4，列5}。

步骤S2中，根据数据行号和DC预设行数设置BSI编号，具体方法为，BSI编号为数据行号除以DC预设的行数后取整。

步骤S5中，BSI中存储内容包括BSI编号、PCFile地址、DC数据大小、DC在PCFile中的偏移地址。

BSI与DC一一对应，可以通过BSI找到DC。

第二方面，本申请还提出一种电子设备，包括处理器以及与处理器通信连接，且用于存储所述处理器可执行指令的存储器，所述处理器用于执行上述权利要求1-5任一所述的一种在列存储引擎中按列动态分组存储的方法。

第三方面，本申请还提出一种服务器，包括至少一个处理器，以及与所述处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，以使所述至少一个处理器执行如权利要求1-5任一所述的一种在列存储引擎中按列动态分组存储的方法。

第四方面，本申请还提出一种计算机可读取存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种在列存储引擎中按列动态分组存储的方法。

GBase云原生数据库：GBASE公司开发的云原生数据库。Coordinator: GBase云原生数据库中的协调节点，用户访问的入口，负责解析用户发送的命令，并下发到具体执行节点。DC：列数据按照预设的行数切分成若干个数据块，单个数据块称为DC。BSI：每一个数据块具有对应的描述信息，称为BSI。BSI中存储了编号、PCFile地址、DC大小、及DC在PCFile中的偏移地址，可以通过BSI找到DC。PFile：存储BSI的元数据文件称为PFile。PCFile：存储DC的数据文件称为PCFile。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在列存储引擎中按列动态分组存储的方法，其特征在于，具体方法如下，

S2、数据写入数据库表，并统计写入的数据行数；

2.根据权利要求1所述的一种在列存储引擎中按列动态分组存储的方法，其特征在于：若用户业务需求后续更新调整，历史数据与新数据处理方法如下：

对于新数据，具体方法如下：

执行步骤S7-S8，进行新数据读取。

3.根据权利要求1所述的一种在列存储引擎中按列动态分组存储的方法，其特征在于：步骤S1中，列分组定义基于用户业务采用谱聚类算法实现列分组，具体方法如下：

4.根据权利要求1所述的一种在列存储引擎中按列动态分组存储的方法，其特征在于：步骤S2中，根据数据行号和DC预设行数设置BSI编号，具体方法为，BSI编号为数据行号除以DC预设的行数后取整。

5.根据权利要求1所述的一种在列存储引擎中按列动态分组存储的方法，其特征在于：步骤S5中，BSI中存储内容包括BSI编号、PCFile地址、DC数据大小、DC在PCFile中的偏移地址。

6.一种电子设备，包括处理器以及与处理器通信连接，且用于存储所述处理器可执行指令的存储器，其特征在于：所述处理器用于执行上述权利要求1-5任一所述的一种在列存储引擎中按列动态分组存储的方法。

7.一种服务器，其特征在于：包括至少一个处理器，以及与所述处理器通信连接的存储器，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，以使所述至少一个处理器执行如权利要求1-5任一所述的一种在列存储引擎中按列动态分组存储的方法。

8.一种计算机可读取存储介质，存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种在列存储引擎中按列动态分组存储的方法。