CN111124757A

CN111124757A - 一种分布式事务数据库的数据节点心跳检测算法

Info

Publication number: CN111124757A
Application number: CN201911361034.2A
Authority: CN
Inventors: 金官丁
Original assignee: Shanghai Hotpu Network Technology Co ltd
Current assignee: Shanghai Hotpu Network Technology Co ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-08

Abstract

本发明公开了一种分布式事务数据库的数据节点心跳检测算法，步骤如下：步骤1、分布式事务数据库计算节点的存储节点主库和存储节点备库上有一张心跳检测表heartbeat；步骤2、分布式事务数据库计算节点的计算节点主服务，默认设置每隔1秒钟向存储节点主库发送一条UPDATE操作判断是否能正常数据访问服务；步骤3、当分布式事务数据库计算节点的计算节点主服务发送给存储节点主库的第一条UPDATE操作在默认设置的间隔1秒内未得到返回结果；步骤4、分布式事务数据库计算节点的计算节点主服务降级当下的存储节点主库为故障状态；步骤5、存储节点主库和存储节点备库之间的故障恢复完毕。本发明能够保障数据服务的可用性以及保障数据安全的可靠性得到较大的提高。

Description

一种分布式事务数据库的数据节点心跳检测算法

技术领域

本发明涉及信息技术领域，特别涉及一种分布式事务数据库的数据节点心跳检测算法。

背景技术

随着信息技术的快速发展，信息系统数据库中的数据量越来越大。为了满足大数据量的存储需求，在多台服务器上运行的分布式存储系统得到了广泛的应用。在分布式存储系统中，多台服务器上分别运行了多个数据库系统。数据进行存储时，需要先将数据进行分片(sharding)，再将不同的数据分片交由不同的服务器进行存储。分片是一种水平扩展(horizontal scaling)的方式，把一个大的数据集分散到多个数据节点上，所有的数据节点将组成一个逻辑上的数据库来存储这个大的数据集。分片对用户(应用层)是透明的，用户不会知道数据很被存放到哪个片服务器上。采用数据分片进行数据存储，可以突破单节点服务器的I/O能力限制，解决数据库拓展性的问题。

同时，为了保证数据和服务的高可用性，往往需要为分布式数据库提供必要的容错机制，对各个数据分片进行冗余备份。通过将同一数据分片的多个副本存储在不同的服务器上，可以避免由于单个服务器不可用时造成的数据分片丢失。

但是目前的数据服务的可用性以及数据安全的可靠性较低，难以满足使用的要求。

发明内容

本发明的目的在于提供一种分布式事务数据库的数据节点心跳检测算法，保障数据服务的可用性达到99.99％，保障数据安全的可靠性达到99.99％及以上，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种分布式事务数据库的数据节点心跳检测算法，包括如下步骤：

步骤1、分布式事务数据库计算节点的存储节点主库和存储节点备库上有一张心跳检测表heartbeat，各自有一条数据代表主库和备库；

步骤2、分布式事务数据库计算节点的计算节点主服务，默认设置每隔1秒钟(可根据网络环境自定义时间)向存储节点主库发送一条UPDATE操作判断是否能正常数据访问服务；

步骤3、当分布式事务数据库计算节点的计算节点主服务发送给存储节点主库的第一条UPDATE操作在默认设置的间隔1秒内未得到返回结果；

步骤4、分布式事务数据库计算节点的计算节点主服务降级当下的存储节点主库为故障状态，提升当下的存储节点备库为主库，确保存储节点备库上的中继日志全部解析执行完毕后，解除存储节点数据访问的HOLD住功能，将数据访问操作发往新的存储节点主库；

步骤5、至此，存储节点主库和存储节点备库之间的故障恢复完毕，待故障的存储节点主库服务恢复正常后，分布式事务数据库计算节点的计算节点主服务会自动检测到和降级曾经故障的存储节点主库为备库。

进一步地，步骤3包括如下步骤：

第一步：计算节点主服务发送第二条UPDATE操作给存储节点主库，在默认设置的间隔500毫秒内未得到返回结果，则触发计算节点主服务对该存储节点主库的数据访问请求HOLD住机制；

第二步：计算节点主服务同时向存储节点主库和存储节点备库发送UPDATE操作，在默认设置的间隔10毫秒内未得到存储节点主库返回结果，且存储节点备库返回结果，则触发存储节点主库和存储节点备库见的数据服务切换机制。

进一步地，用户可根据自身网络状态进行监测时间配置，适应自身网络环境不产生误判情况。

进一步地，单个存储节点的服务故障及恢复过程对应用程序端透明。

进一步地，分布式事务数据库计算节点的内置算法检测、判断和决策。

进一步地，中间件的主备库常规部署方式为双主在线热备，中间件服务的运行状态由KEEPALIVED软件自动检测，采用特殊定制的脚本以固定频率进行检测和判断是否存在故障，无需引入外部程序进行控制，减少运维风险。

与现有技术相比，本发明的有益效果是：本发明HotDB具有中间件服务、数据源、配置库的高可用及切换机制。有完善的心跳检测机制、故障切换对数据源同步追平判断机制、全局自增序列在故障时自动跳号机制、且可以通过Hold住功能避免业务在数据切换过程中受到影响，MySQL数据库服务多采用在线双主或双主多从架构部署，中间件服务程序实施MySQL数据库服务的高可用检测算法控制，数据节点的数据源故障对应用程序端透明，故障判断及切换服务恢复的总时长小于3秒，故障发生至切换成功(含数据追平)实测在1.8秒-2.2秒之间，保障数据服务的可用性达到99.99％，保障数据安全的可靠性达到99.99％及以上。

附图说明

图1为本发明的集群概览图；

图2为本发明的相应的架构演示效果图；

图3为本发明的详细架构演示效果图；

图4为本发明的HotDB数据节点心跳逻辑图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤2、分布式事务数据库计算节点的计算节点主服务，默认设置每隔1秒钟向存储节点主库发送一条UPDATE操作判断是否能正常数据访问服务；

步骤3、当分布式事务数据库计算节点的计算节点主服务发送给存储节点主库的第一条UPDATE操作在默认设置的间隔1秒内未得到返回结果。第一步：计算节点主服务发送第二条UPDATE操作给存储节点主库，在默认设置的间隔500毫秒内未得到返回结果，则触发计算节点主服务对该存储节点主库的数据访问请求HOLD住机制；第二步：计算节点主服务同时向存储节点主库和存储节点备库发送UPDATE操作，在默认设置的间隔10毫秒内未得到存储节点主库返回结果，且存储节点备库返回结果，则触发存储节点主库和存储节点备库见的数据服务切换机制；

HotDB采用keepalived检测技术保证HotDB-Server服务的高可用，并控制主备之间故障切换。可通过管理平台对已经搭建完成的HotDB高可用集群进行主备切换，也可以在HotDB高可用发生故障切换之后，重建高可用关系，保证下次故障可正常切换。经测试HotDB的故障判断及切换服务恢复总时长小于7秒，最佳实践是5秒左右。

HotDB具有中间件服务、数据源、配置库的高可用及切换机制。有完善的心跳检测机制、故障切换对数据源同步追平判断机制、全局自增序列在故障时自动跳号机制、且可以通过Hold住功能保障数据一致性。

HotDB-Server提供数据节点内的MySQL高可用，当主数据源不可用时，HotDB将自动切换到优先级最高的备数据源上，且保证主从数据同步追平；若要使用数据节点高可用，必须在数据节点内配置主从数据源与故障切换，并在HotDB-Server中开启心跳功能。MySQL同步模式上HotDB支持普通Replication与MGR(MySQL Group Replication)模式。

HotDB支持配置库高可用功能，防止配置库实例出现故障，HotDB无法正常提供服务且故障信息也无法记入配置库的问题，同时辅助提升HotDB的高可靠性。同时，HotDB管理平台首页大屏中可以直观看到集群的年度故障恢复时间，当前可用性为100％。集群概览如图1。

HotDB提供底层数据源和配置库的高可用。

底层数据源通常配置双主热备模式，通过中间件高可用实现主备高可用，当主数据库出现异常，自动切换到备数据库，支持MGR(MySQL Group Replication)高可用。

配置库数据实现主备高可用，防止配置库不可用时，整个HotDB-Server配置的参数无法获取而无法正常提供服务。

HotDB具备前端连接限制和后端并发限制，对前端连接数总数和用户连接数进行限制，当连接数超过限制时拒绝连接操作并给出错误提示；对后端执行的DML\DDL\COMMIT\ROLLBACK\SHOW\PROCESSLIST\STATUS\SELECT\INFORMATION_SCHEMA等SQL语句进行并发控制；控制HotDB发往数据源执行的SQL并发量，保护数据源之间负载平衡，防止某一个数据源因压力过大而宕机。

HotDB支持自动重连等机制，当出现例如网络中断时MySQL连接断开时，HotDB会通过自动重连MySQL数据库进行故障自动恢复，且重连时间非常短，对业务无影响。

HotDB提供中间件的主备故障自动切换和底层数据库的主备故障自动切换。中间件的主备库常规部署方式为双主在线热备，中间件服务的运行状态由KEEPALIVED软件自动检测，采用特殊定制的脚本以固定频率进行检测和判断是否存在故障。脚本内设置的时间间隔、检测方法、判断逻辑等，可自动控制从检测到故障、确认故障、服务切换和服务恢复，时间长度在3秒到7秒之间。实测时长为5秒以内。业务系统的应用程序服务有重连机制的情况下，可较易地保障数据服务的可用性达到99.99％。相应的架构演示如图2。MySQL数据库服务采用在线双主或双主多从架构部署，中间件服务程序实施MySQL数据库服务的高可用检测算法控制，数据节点的数据源故障对应用程序端透明，故障判断及切换服务恢复的总时长小于3秒，故障发生至切换成功(含数据追平)实测在1.8秒-2.2秒之间，保障数据服务的可用性达到99.99％，保障数据安全的可靠性达到99.99％及以上。详细架构演示如图3。

数据分片采用两副本的存储节点，则为双主半同步归档日志复制。

单个存储节点的服务故障及恢复过程对应用程序端透明，故障判断及切换服务恢复的总时长在秒级。

分布式事务数据库计算节点的内置算法检测、判断和决策。

中间件的主备库常规部署方式为双主在线热备，中间件服务的运行状态由KEEPALIVED软件自动检测，采用特殊定制的脚本以固定频率进行检测和判断是否存在故障。

HotDB数据节点心跳逻辑图如图4所示。

本发明HotDB具有中间件服务、数据源、配置库的高可用及切换机制。有完善的心跳检测机制、故障切换对数据源同步追平判断机制、全局自增序列在故障时自动跳号机制、且可以通过Hold住功能保障数据一致性，MySQL数据库服务采用在线双主或双主多从架构部署，中间件服务程序实施MySQL数据库服务的高可用检测算法控制，数据节点的数据源故障对应用程序端透明，故障判断及切换服务恢复的总时长小于3秒，故障发生至切换成功(含数据追平)实测在1.8秒-2.2秒之间，保障数据服务的可用性达到99.99％，保障数据安全的可靠性达到99.99％及以上。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种分布式事务数据库的数据节点心跳检测算法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种分布式事务数据库的数据节点心跳检测算法，其特征在于，步骤3包括如下步骤：

3.根据权利要求1所述的一种分布式事务数据库的数据节点心跳检测算法，其特征在于，用户可根据自身网络状态进行监测时间配置，适应自身网络环境不产生误判情况。

4.根据权利要求3所述的一种分布式事务数据库的数据节点心跳检测算法，其特征在于，单个存储节点的服务故障及恢复过程对应用程序端透明。

5.根据权利要求1所述的一种分布式事务数据库的数据节点心跳检测算法，其特征在于，分布式事务数据库计算节点的内置算法检测、判断和决策。

6.根据权利要求1所述的一种分布式事务数据库的数据节点心跳检测算法，其特征在于，中间件的主备库常规部署方式为双主在线热备，中间件服务的运行状态由KEEPALIVED软件自动检测，采用特殊定制的脚本以固定频率进行检测和判断是否存在故障，无需引入外部程序进行控制，减少运维风险。