CN102156714A

CN102156714A - 实现自适应垂直划分的关系型数据库的方法及系统

Info

Publication number: CN102156714A
Application number: CN2011100693552A
Authority: CN
Inventors: 曾春; 邢春晓; 张勇; 李超; 白立宏; 李毅
Original assignee: GAUNGDONG HUANTIAN ELECTRONIC TECHNOLOGY DEVELOPEMNT; Tsinghua University
Current assignee: GAUNGDONG HUANTIAN ELECTRONIC TECHNOLOGY DEVELOPEMNT; Tsinghua University
Priority date: 2011-03-22
Filing date: 2011-03-22
Publication date: 2011-08-17
Anticipated expiration: 2031-03-22
Also published as: CN102156714B

Abstract

本发明公开了一种实现自适应垂直划分的关系型数据库的方法，属于关系型数据库领域。包括以下步骤：S1、对于一个表，先基于列存储结构不断收集并统计用户查询所涉及的相关列出现的次数，并基于预设时间窗口中的历史数据计算相关列出现次数的阈值，然后导出大于所述阈值的相关列进行垂直划分，并得到垂直划分的相关列集合；S2、基于垂直划分的相关列集合建立连接数据；S3、基于所述垂直划分的相关列集合，采用预设策略将表的不同相关列分配到不同的分区上，从而实现查询的并行执行。本发明能够提高存储结构合理性，能实现并行查询处理并可提高可扩展性。

Description

实现自适应垂直划分的关系型数据库的方法及系统

技术领域

本发明涉及关系型数据库领域，具体涉及一种实现自适应垂直划分的关系型数据库的方法及系统。

背景技术

传统的关系型数据库系统都是基于行存储，记录的数据存放在相同数据块内，这种方式非常适合于读写操作，满足短事务频繁的应用场景。缺点是可能会读取额外的列，复杂查询缓慢，索引开销较大，系统维护复杂，需要不断进行系统优化。而基于列存储的数据库系统(简称列数据库)的特点是将记录的列分开存储，然后利用连接数据来重构记录。列存储的设计带来很多优点，比如可以对同列数据进行数据压缩和索引优化处理等，这种方式极大地优化了读操作，满足复杂查询的应用场景，系统维护简单。缺点是数据更新性能较低，不适合更新事务频繁的应用场景。

中国专利申请(公开号CN101751406A，公开日为2010年6月23日)提出了一种实现基于列存储的关系型数据库的方法及装置，该专利申请提出了一种新的列存储方法，记录的列分开存储，在值数据块中存放列值和记录号，列值排序存储，在连接数据块中存放记录号和值数据块序列号，记录号排序存储，在数据插入时，尽管列值的位置会发生变化，只要它仍然在同一个值数据块中，连接数据块就不需要更新，图1是该专利描述的列存储示例图。这种方法有三个问题，第一个问题是所有列都是分开存储，尽管能对所有列值排序并建索引，但在重构记录时会影响性能；第二个问题是存储值数据块的序列号尽管能缓解列存储的更新问题，但影响了读操作的性能，由于只存储了值数据块的序列号，在查询列值的时候还需要进行二分查找；第三个问题是没有考虑表数据的分区与分布处理，影响了系统的并行查询能力和可扩展性。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何提供一种能够提高存储结构合理性，能实现并行查询处理并可提高可扩展性的关系型数据库的方法及系统。

(二)技术方案

为解决上述技术问题，本发明提供了一种实现自适应垂直划分的关系型数据库的方法，包括以下步骤：

S1、对于一个表，先基于列存储结构不断收集并统计用户查询所涉及的相关列出现的次数，并基于预设时间窗口中的历史数据计算相关列出现次数的阈值，然后导出大于所述阈值的相关列进行垂直划分，并得到垂直划分的相关列集合；

S2、基于垂直划分的相关列集合建立连接数据；

S3、基于所述垂直划分的相关列集合，采用预设策略将表的不同相关列分配到不同的分区上，从而实现查询的并行执行。

其中，步骤S1中，基于预设时间窗口中的历史数据计算相关列出现次数的阈值具体为利用下式计算所述阈值：

阈值＝(1-w)×Count_max+w×Count_min

其中，w为计划导出的相关列的比例，Count_max表示相关列出现的最大次数，Count_min表示相关列出现的最小次数。

步骤S1中，在计算阈值之后还包括判断初始的垂直划分的相关列集合是否为空的步骤，如果初始的垂直划分的相关列集合为空，则直接导出大于阈值的相关列进行垂直划分；否则先合并现有垂直划分的相关列集合中的相关列，并折算在合并时相关列出现的次数，在得到在合并时相关列出现的次数后，再导出大于阈值的相关列进行垂直划分。

进一步，利用下式计算在合并时相关列出现的次数：

相关列出现的次数＝Count_old×d+Count_new

其中，Count_old为相关列出现的现有次数，Count_new为新出现的次数，d为折算系数。

其中，步骤S1中，在得到垂直划分的相关列集合的过程中，定时清除出现次数少于一定值的相关列。

在步骤S1之前还包括建立所述列存储结构的步骤，在建立所述列存储结构时，将所记录的列分开存储，若列值的属性一致则将列值排序存储，且将表的记录存储在分区中，每个分区中存储有多个表段，每个表段中存放的记录的数量有一个上限。

其中，步骤S2中，在建立连接数据时不仅存储值数据块序列号，还存储列值在所述值数据块中排序的位置。

本发明还提供一种基于所述的方法建立的关系型数据库管理系统，包括：

列存储管理器，用于实现记录的列存储机制；

信息采集器，用于采集用户查询所涉及的相关列出现的次数和时间；

垂直划分管理器，用于控制整个关系型数据库的垂直划分，根据采集的信息计算相关列出现次数的阈值并导出大于所述阈值的相关列为垂直划分，并发起相关列读优化连接的创建；所述采集的信息包括计划导出的相关列的比例，相关列出现的最大次数，相关列出现的最小次数；

分区管理器，用于根据节点的负载信息调整并均衡表中数据的分布；

并行查询处理引擎，用于实现基于列存储机制的分布式查询处理。

其中，所述列存储机制为：在建立所述列存储结构时，将所记录的列分开存储，若列值的属性一致则将列值排序存储，且将表的记录存储在分区中，每个分区中存储有多个表段，每个表段中存放的记录的数量有一个上限。

(三)有益效果

本发明的优点在于：1)通过实现基于列存储的动态垂直划分，可以导出更加合理的存储结构；2)可以动态进行调整，实现系统的自动调优；3)基于垂直划分建立读优化连接，可以加速列值的读取和记录重构；4)兼顾数据更新的性能和读的优化；5)通过自适应的数据分区和分布，实现了并行查询处理并可提高可扩展性。

附图说明

图1是现有技术中的列存储示例图；

图2是动态垂直划分导出流程图；

图3是基于垂直划分创建的读优化连接结构示意图；

图4是读优化连接数据的索引结构示意图；

图5是一种简单的垂直数据分区示意图；

图6是一种混合的数据分区示意图；

图7是基于本发明的方法建立的关系型数据库管理系统的实施例示意图；

图8是本发明的方法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

鉴于现有列数据库技术的缺点，本方法提出了一种动态垂直划分的方法，将相关的列逻辑划分在一起，这样可以加速记录的重构。对于读操作性能的问题，本方法提出针对读的优化连接结构，也就是对垂直划分的相关列建立连接数据时直接存储列值在值数据块中排序的位置，这样可以在读取列值时快速定位。由于对数据进行了垂直划分，可以进行自适应的数据分区(或简称为分区)和分布，从而可以实现并行查询处理并提高可扩展性。下面参考图8介绍本发明的方法。

S0：建立列存储结构

图1中展示了所建立的列存储的结构。列存储结构中所记录的列分开存储，由于列值的属性一致且排序存储，所以可以应用一些有效的数据压缩技术进行存储。表的记录存储在分区中，每个分区有多个表段，每个表段中存放的记录数量有一个上限。数据块的类型有两种，一种是值数据块，存放列值和记录号，列值排序存储，每个列值可能对应多个记录号；另一种是连接数据块，存放记录号和值数据块序列号，记录号排序存储，用于重构记录。然后，可以基于值数据块的列值建立索引，由于列值已排序存储，可以对索引进行简化：在索引块中只存放值数据块的第一个列值和值数据块的序列号。接着基于连接数据块的记录号建立索引，同样，由于记录号已排序存储，可以对索引进行简化：在索引块中只存放连接数据块的第一个记录号和连接数据块的序列号。

S1、动态垂直划分步骤

物理的存储对于用户来说是透明的，一般垂直划分都是在模式建立的时候定义的，在系统运行的时候是很难改变。另一种简单的方式是让用户先准备好应用软件可能需要的查询语句，系统会基于查询语句生成合理的存储结构，比如分析语句所涉及的列，然后导出合适的列存储结构。不过这种方式假设应用软件的查询语句是不变的，所以这种方式仍然是静态的。对于列数据库来说，列的划分是很自然的事情，本方法提出一种自适应的调节机制，能有效进行动态垂直划分。

动态的垂直划分方法，简单地说，就是先不考虑优化，将表的所有列都分开存储，通过不断统计相关列出现的次数(包括被读取和更新的次数)，然后判定次数是否超过某个阈值，超过就可以考虑将相关列进行垂直划分。这里需要解决的一个问题是相关列的导出问题，相关列不是随意定义，在一个查询中出现过的列才会作为相关列记录下来，然后基于这些相关列进行统计，随着系统的运行，会出现更多的查询操作，查询中出现的相关列会反映到统计中。在一个时间窗口内，当一个相关列出现的次数超过阈值的时候，系统就会导出相关列进行一个垂直划分。垂直划分的相关列集合(也简称为垂直划分集合)会不断调整并维护在一个稳定的状态，系统会定时清除出现次数太少的相关列。阈值是基于时间窗口内的历史数据来进行计算，最新出现的次数会优先考虑。

图2展示了进行动态垂直划分的流程。首先初始化垂直划分的的相关列集合，然后对一个表来说，先基于现有列存储结构不断收集并统计用户查询所涉及的相关列出现的次数，这个过程需要积累一段时间，直到满足统计所要求的时间窗口，然后基于时间窗口中的历史数据计算相关列出现次数的阈值：

阈值＝(1-w)×Count_max+w×Count_min

其中，w为计划导出的相关列的比例，比如0.2，w为1意味着导出所有相关列。Count_max表示相关列出现的最大次数，Count_min表示相关列出现的最小次数。

在得到阈值以后，如果初始的垂直划分的相关列集合为空，可以直接导出大于阈值的相关列为垂直划分。如果垂直划分的相关列集合不为空，需要合并现有垂直划分的相关列集合中的相关列，由于垂直划分的相关列已存在一段时间，因此还要折算在合并时相关列出现的次数：

相关列出现的次数＝Count_old×d+Count_new

其中，Count_old为现有次数，Count_new为新出现的次数，d为折算系数，比如0.8，现有次数为0意味着是新出现的相关列。

在得到所有相关列出现的次数后，可以导出大于阈值的相关列为垂直划分。系统会定时清除出现次数太少的相关列，以使得垂直划分的相关列集合会不断调整并维护在一个稳定的状态。

S2、建立读优化连接

存储数据块的序列号能缓解列存储的更新问题，由于数据块中的列值是排序存储，其索引只存储数据块的第一个值和数据块的序列号，所以只要第一个值不变，索引也就不需要更新。在数据插入时，尽管数据块中列值的位置会发生变化，只要它仍在同一个数据块中，连接数据也就不需要更新。这种结构尽管能缓解列存储的更新问题，但影响了读操作的性能，由于只存储了数据块的序列号，在查询值的时候还需要进行二分查找。

前面提到垂直划分的方法，如果能导出系统目前相关列的集合，就可以基于相关列建立读优化的连接结构，也就是对垂直划分的相关列建立连接数据时除了存储值数据块序列号，还存储列值在值数据块中排序的位置，这样就可以在读取列值时快速定位，而且能加速记录的重构。这里有一个问题是连接数据的更新性能问题，所以，读优化连接并不会在模式创建的时候就建立，而是在导出垂直划分的时候再动态创建。在连接数据创建后，如果有批量数据导入，可以先将受影响的连接数据块置为失效，后续的查询会基于连接数据中值数据块的序列号进行定位然后进行二分查找，在系统空闲时再重构受影响的连接数据块。

在导出垂直划分的相关列集合后，就可以基于相关列建立读优化的连接，图3展示了读优化连接结构的示意图。对垂直划分的相关列建立连接数据时不仅存储值数据块序列号，还存储列值在值数据块中排序的位置，这样就可以在读取列值时快速定位，而且能加速记录的重构。图4展示了读优化连接数据的索引结构示意图，其中索引数据只存放其它数据块的第一个记录号和数据块的序列号。

在查询的时候，查询引擎会选择与当前查询最匹配的垂直划分，进而选择相应连接数据来定位相关列和数据。在连接数据创建后，如果有批量数据导入，可以先将受影响的连接数据块置为失效，后续的查询会基于连接数据中值数据块的序列号进行定位，这时连接数据退化成原有连接机制，在查询值的时候还需要进行二分查找。在系统空闲时会重构受影响的连接数据块，连接数据块会重新置为有效，进而加速值的定位与记录重构。

S3、数据分区和分布

将表中数据进行分区的目的是进行分布式处理，从而实现并行查询，而且与单个文件系统分区相比，单个表可以存储更多的数据。此外，对于条件查询语句，可以得到更大的优化，只需要查询某些分区，而不用扫描全部分区，对于聚合函数能够很容易地实现并行执行，通过并行I/O，可以大大提高查询的吞吐量。

分区可以进行水平分区和垂直分区，水平分区通常是依据记录的特征进行划分，而垂直分区是依据相关列的特征进行划分。传统数据库最常见是的水平分区，而列存储不仅支持水平分区，而且很自然地支持垂直分区，自适应地将表的不同相关列分配到不同的物理分区上，部分列可以冗余，从而提高并行查询的效率。对于超大型数据表，可以先进行水平分区，然后根据相关列的集合进行垂直分区，提高并行处理的效率。

本步骤中，基于前面导出的垂直划分的集合，可以基于一些策略将表的不同相关列分配到不同的物理分区上，部分列可以冗余，从而提高并行查询的效率。所述策略例如为按照出现次数多的相关列与出现次数少的相关列平均搭配。分配示例：相关列的出现次数：1、2、3、4、5、6、7、8，将其分为两部分：(1，4，5，8)；(2，3，6，7)，分别分配到不同的分区上。图5展示了一种简单的垂直数据分区示意图，其中对于关联的数据表可以在不同节点上复制，比如表2和表3，以提高并行查询的效率。

对于超大型数据表，可以先按记录特征进行水平分区，然后根据相关列的集合进行垂直分区，以提高并行处理的效率。水平分区通常是为了将记录进行分布，缓解记录数量带来的压力，其中范围划分是一种常用的策略，但存在执行偏差的问题，一些节点可能在某些范围的记录较多，负载较重。所以，有必要对重负载的节点再进行垂直划分，比较简单的情况是垂直划分的节点内容保持一致，也可以基于垂直划分的相关列来自适应地进行划分，从而提高并行查询的效率。图6展示了一种混合的数据分区示意图，其中节点1和其它节点组成水平分区，节点2和节点3组成一个垂直分区，其它关联的数据表可以在所有节点复制。

对于条件查询语句，通过分区可以得到更大的优化，可能只需要查询某些分区，而不用扫描全部分区。此外，对于聚合函数(比如SUM、COUNT)能够很容易地实现并行执行，通过并行I/O，可以大大提高查询的吞吐量。

根据上述四个步骤的说明，可以基于现有列存储结构实现动态垂直划分并建立读优化连接，通过自适应的数据分区与分布处理实现查询的并行执行，提高查询的处理效率。

图7展示了基于本方法建立的关系型数据库管理系统的实施例示意图。该系统主要包括：列存储管理器(图7中为列存储)，实现记录的列存储机制，支持有效的数据压缩和读优化技术；信息采集器，用于采集用户查询所涉及的相关列出现的次数和时间；垂直划分管理器，用于管理整个数据库的垂直划分，根据采集的信息计算阈值并导出垂直划分，发起相关列读优化连接的创建；分区管理器，管理数据分区的配置信息，支持水平划分和垂直划分，根据节点负载信息自适应调整并均衡表数据的分布；并行查询处理引擎，支持基于列存储的分布式查询处理。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种实现自适应垂直划分的关系型数据库的方法，其特征在于，包括以下步骤：

S2、基于垂直划分的相关列集合建立连接数据；

2.如权利要求1所述的方法，其特征在于，步骤S1中，基于预设时间窗口中的历史数据计算相关列出现次数的阈值具体为利用下式计算所述阈值：

阈值＝(1-w)×Count_max+w×Count_min

3.如权利要求1所述的方法，其特征在于，步骤S1中，在计算阈值之后还包括判断初始的垂直划分的相关列集合是否为空的步骤，如果初始的垂直划分的相关列集合为空，则直接导出大于阈值的相关列进行垂直划分；否则先合并现有垂直划分的相关列集合中的相关列，并折算在合并时相关列出现的次数，在得到在合并时相关列出现的次数后，再导出大于阈值的相关列进行垂直划分。

4.如权利要求3所述的方法，其特征在于，利用下式计算在合并时相关列出现的次数：

相关列出现的次数＝Count_old×d+Count_new

5.如权利要求1所述的方法，其特征在于，步骤S1中，在得到垂直划分的相关列集合的过程中，定时清除出现次数少于一定值的相关列。

6.如权利要求1所述的方法，其特征在于，在步骤S1之前还包括建立所述列存储结构的步骤，在建立所述列存储结构时，将所记录的列分开存储，若列值的属性一致则将列值排序存储，且将表的记录存储在分区中，每个分区中存储有多个表段，每个表段中存放的记录的数量有一个上限。

7.如权利要求1～6任一项所述的方法，其特征在于，步骤S2中，在建立连接数据时不仅存储值数据块序列号，还存储列值在所述值数据块中排序的位置。

8.一种基于权利要求1～6任一项所述的方法建立的关系型数据库管理系统，其特征在于，包括：

列存储管理器，用于实现记录的列存储机制；

9.如权利要求8所述的系统，其特征在于，所述列存储机制为：在建立所述列存储结构时，将所记录的列分开存储，若列值的属性一致则将列值排序存储，且将表的记录存储在分区中，每个分区中存储有多个表段，每个表段中存放的记录的数量有一个上限。