CN110502582A

CN110502582A - 一种分布式数据库的在线扩容方法

Info

Publication number: CN110502582A
Application number: CN201910794674.6A
Authority: CN
Inventors: 赵伟; 李宇豪
Original assignee: Jiangsu Huaku Data Technology Co Ltd
Current assignee: Jiangsu Huaku Data Technology Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-11-26
Anticipated expiration: 2039-08-27
Also published as: CN110502582B

Abstract

本发明公开了一种分布式数据库的在线扩容方法，包含以下步骤：用户执行扩容命令，开启对一个表的扩容任务；数据库系统接收扩容命令，并把扩容任务记录在任务列表中；扩容任务管理模块，读取任务列表中的任务，并依赖优先级开始启动扩容任务；扩容任务启动后，先收集表类型信息和表分片分布信息，由扩容策略生成模块依据这些信息决策出扩容策略；扩容策略生成后，扩容任务执行模块将依据扩容策略开始执行扩容，执行过程中如果遇到有节点故障，扩容任务执行模块会重新获取分布式数据库的节点状态，并继续在好的节点上完成扩容任务。该方法保证分布式数据库在进行扩容时还可以在线提供服务。该方法保证分布式数据库在扩容时的高可用性。

Description

一种分布式数据库的在线扩容方法

技术领域

本发明属于分布式数据库技术领域，具体涉及一种分布式数据库的在线扩容方法。

背景技术

当前分布式数据库主要应用领域是大数据分析。分布式数据库处理的数据量已经达到PB级，且数据量还在以惊人的速度增长。已有的分布式数据库系统总会面临计算能力和数据存储能力的瓶颈。

现有的分布式数据库大多会采用hash分布或者随机分布技术把数据分布到各个节点上。对于已经在运行的分布式数据库系统，数据的hash分布方式已经是固定的。在这种场景下增加节点就需要修改hash分布方式，对已有数据重新做hash分布，让数据分布在新增节点上。因为分布式数据库系统扩容时涉及的数据量巨大，所以扩容的时间一般都是比较长。分布式数据库一般都会要求扩容过程中分布式数据库系统在线，并且扩容时间最短。

发明内容

本发明的目的在于提供一种分布式数据库的在线扩容方法，以满足分布式数据库在线扩容的需求，降低扩容过程对数据库的影响，缩减扩容的时间。

为实现上述目的，本发明提供如下技术方案：一种分布式数据库的在线扩容方法包括如下步骤：

步骤1、用户执行扩容命令，开启对一个表的扩容任务；

步骤2、数据库系统接收扩容命令，并把扩容任务记录在任务列表中；

步骤3、扩容任务管理模块，读取任务列表中的任务，并依赖优先级开始启动扩容任务；

步骤4、扩容任务启动后，先收集表类型信息和表分片分布信息，由扩容策略生成模块依据这些信息决策出扩容策略；扩容策略生成模块决策逻辑具体步骤如下：

步骤4-1、如果新的数据分布规则和老的数据分布规则的分片数相同，那么对表进行扩容时将采用分片移动策略。分片移动策略直接移动表的分片，有速度快的特点；

步骤4-2、如果新的数据分布规则与老的数据分布规则的分片数不同，那么对该类表进行扩容时将采用数据重分布策略。数据重分布策略对把已有数据重分布。如果是hash分布表，将会按照新的数据分布规则重分布数据；如果是随机分布表，将会把已有数据平均分布到所有节点上(包含新增节点)；

步骤4-3、如果表类型是随机分布表并且新的数据分布规则包含老的分布规则，那么对该类表进行扩容时将采用快速扩容策略。快速扩容策略不移动已有数据位置，只在新增节点上创建分片；

步骤4-4、如果表类型是复制表，那么对该类表进行扩容时采用增加或减少分片策略；

步骤5、扩容策略生成后，扩容任务执行模块将依据扩容策略开始执行扩容，扩容策略由具体的步骤组成，扩容任务执行模块会读取每个步骤并顺序执行，执行过程中如果遇到有节点故障，扩容任务执行模块会重新获取分布式数据库的节点状态，并继续在好的节点上完成扩容任务；

作为优选，所述的步骤1中数据库响应用户下发的在线扩容命令时，只返回给用户在线扩容命令下发成功，用户可以随时在系统表中查看该表扩容的进度。

作为优选，所述的步骤2中对表增加了一种锁，该锁允许在表扩容期间对表进行查询、追加写和DDL操作。

作为优选，所述的步骤3中依据表类型和新老数据分布规则的分片分布信息选择对表的扩容策略。

作为优选，所述步骤4中在表扩容期间容忍有数据库节点故障，且不影响扩容的进度。

与现有技术相比，本发明的有益效果是：该方法提供异步执行方式；该方法保证分布式数据库在进行扩容时还可以在线提供服务。该方法保证分布式数据库在扩容时的高可用性；该方法有多种策略对表进行扩容。

附图说明

图1是扩容任务管理模块示意图。

图2是分片移动策略示意图。

图3是数据重分布策略示意图。

图4是快速扩容策略示意图。

图5是增加或减少分片策略示意图。

图6是扩容执行模块的高可用逻辑流程图。

图7是有节点故障时扩容执行模块重新获取可用节点示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参阅图1-7，本实施例提供一种技术方案：图1所示当用户发起扩容命令时，数据库系统接收扩容命令后在一个任务列表中增加一条扩容任务记录。扩容任务管理模块定期扫描任务列表，并从中选择处于STARTING状态的任务开始在后台执行。

扩容任务开始在数据库系统后台执行的整体工作流程，具体步骤如下所示：

步骤1、数据库系统收集表类型和新老数据分布规则信息后，从图2、图3、图4和图5所示的策略中选择出一种策略。

扩容执行模块从策略中读取步骤信息，顺序执行每一个步骤。在执行步骤过程中如果有节点故障，扩容执行模块会调整策略(图6)并且选择可用节点(图7)继续完成扩容。

本发明有多种扩容方式，其中分片移动策略、快速扩容策略和增加或减少分片策略极大的优化了扩容性能。数据重分布策略在进行数据重分布时仍可以使用数据库在线提供服务，并且满足了高可用性要求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种分布式数据库的在线扩容方法，其特征在于：具体方法包括如下步骤：

步骤1、用户执行扩容命令，开启对一个表的扩容任务；

步骤4-1、如果新的数据分布规则和老的数据分布规则的分片数相同，那么对表进行扩容时将采用分片移动策略；

步骤4-2、如果新的数据分布规则与老的数据分布规则的分片数不同，那么对该类表进行扩容时将采用数据重分布策略，数据重分布策略对把已有数据重分布，如果是hash分布表，将会按照新的数据分布规则重分布数据；如果是随机分布表，将会把已有数据平均分布到所有节点上；

步骤4-3、如果表类型是随机分布表并且新的数据分布规则包含老的分布规则，那么对该类表进行扩容时将采用快速扩容策略，快速扩容策略不移动已有数据位置，只在新增节点上创建分片；

步骤5、扩容策略生成后，扩容任务执行模块将依据扩容策略开始执行扩容，扩容策略由具体的步骤组成，扩容任务执行模块会读取每个步骤并顺序执行，执行过程中如果遇到有节点故障，扩容任务执行模块会重新获取分布式数据库的节点状态，并继续在好的节点上完成扩容任务。

2.根据权利要求1所述的一种分布式数据库的在线扩容方法，其特征在于：所述的步骤1中数据库响应用户下发的在线扩容命令时，只返回给用户在线扩容命令下发成功，用户可以随时在系统表中查看该表扩容的进度。

3.根据权利要求1所述的一种分布式数据库的在线扩容方法，其特征在于：所述的步骤2中对表增加了一种锁，该锁允许在表扩容期间对表进行查询、追加写和DDL操作。

4.根据权利要求1所述的一种分布式数据库的在线扩容方法，其特征在于：所述的步骤3中依据表类型和新老数据分布规则的分片分布信息选择对表的扩容策略。

5.根据权利要求1所述的一种分布式数据库的在线扩容方法，其特征在于：所述步骤4中在表扩容期间容忍有数据库节点故障，且不影响扩容的进度。