CN111597079A - 针对MySQL Galera集群故障的检测和恢复方法及系统 - Google Patents

针对MySQL Galera集群故障的检测和恢复方法及系统 Download PDF

Info

Publication number
CN111597079A
CN111597079A CN202010434125.0A CN202010434125A CN111597079A CN 111597079 A CN111597079 A CN 111597079A CN 202010434125 A CN202010434125 A CN 202010434125A CN 111597079 A CN111597079 A CN 111597079A
Authority
CN
China
Prior art keywords
cluster
mysql
node
data
wsrep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010434125.0A
Other languages
English (en)
Other versions
CN111597079B (zh
Inventor
宋伟
蔡卫卫
谢涛涛
李敏
申嘉童
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Huimao Electronic Port Co Ltd
Original Assignee
Shandong Huimao Electronic Port Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Huimao Electronic Port Co Ltd filed Critical Shandong Huimao Electronic Port Co Ltd
Priority to CN202010434125.0A priority Critical patent/CN111597079B/zh
Publication of CN111597079A publication Critical patent/CN111597079A/zh
Application granted granted Critical
Publication of CN111597079B publication Critical patent/CN111597079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种针对MySQL Galera集群故障的检测和恢复方法及系统,属于云计算技术领域,包括1)采集MySQL Galera集群各个节点监控数据;2)分析监控数据判定MySQL Galera集群是否异常;3)接收MySQL Galera异常告警;4)根据告警类型触发恢复处理程序;5)检查恢复后MySQL Galera集群可用性;6)检测组件服务可用性。借助分析grastate.dat文件及wsrep_cluster_size参数值的变化来判定集群是否正常;并通过恢复程序恢复数据库集群,保证MySQL Galera集群的服务可用性。

Description

针对MySQL Galera集群故障的检测和恢复方法及系统
技术领域
本发明涉及云计算技术,尤其涉及一种针对MySQL Galera集群故障的检测和恢复方法及系统。
背景技术
MySQL在互联网时代,是深受世人瞩目的明星数据库软件。给社会创造了无限价值,随之而来的是,在MySQL基础之上,产生了形形色色的使用方法、架构及周边产品,比如MHA、MMM等传统架构模式。然而MySQL的主从模式,天生的不能完全保证数据一致性,很多公司会花很大人力物力去解决这个问题,而效果却一般,可以说,只能是通过牺牲性能,来获得数据一致性,但也只是在降低数据不一致性的可能性而已。所以现在就急需一种新型架构,从根本上解决这样的问题,天生的摆脱掉主从复制模式这样的“美中不足”之处了。Galera Cluster的出现就是来解决以上描述的问题;Galera解决的最核心问题是,在三个实例(节点)之间(奇数节点扩展),它们的关系是对等的,multi-master架构的,在多节点同时写入的时候,能够保证整个集群数据的一致性、完整性与正确性。
数据库服务无论是在云计算时代还是在传统的IT系统中都是一项基本核心功能服务,负责业务数据的存储服务。MySQL是最流行的关系型数据库管理系统之一,且开源免费,大量Web应用选择其作为数据存储应用软件。MySQL Galera集群的多主对等架构,在多节点同时写入的时候,能够保证整个集群数据的一致性、完整性与正确性,此种架构得到广泛应用。因此,确保MySQL Galera数据库集群的异常及时发现和异常恢复,对保障应用持续提供服务有现实意义。
MySQL Galera Cluster在网络抖动、网卡MTU不一致、节点选举异常等情况下会引起集群数据的不一致性,且存在不能自动恢复正常的问题。出现此情形时,依赖MySQL数据库的业务应用会出现连接数据库异常,无法进行数据读写。
发明内容
为了解决以上技术问题,本发明提供了一种针对MySQL Galera集群故障的检测和恢复方法,通过检测程序自动发现MySQL Galera集群异常并能进行自修复,保障数据库服务的业务连续性。
本发明的技术方案是:
针对MySQL Galera集群故障的检测和恢复方法,包括以下步骤:
(1)MySQL Galera集群节点运行监测采集程序,同时监测服务端有针对MySQL集群各节点的数据网连通探测。
(2)每3秒采集周期采集监测指标数据上报监控服务端。
(3)通过对采集数据分析判断出故障类型并触发告警。
(4)通过Restful API调用传递到故障分类处理模块,判断出对节点的处理动作包括网络持续丢包或不通,告警运维人员;集群数据不一致则根据判定出的节点进行逐步处理。若MySQL数据库节点系统异常则进行节点的机器的重启。
(5)在故障处理完成后,对MySQL Galera集群的可用性进行验证,包括:wsrep_cluster_size=3、wsrep_cluster_status=Primary、wsrep_ready=On数据值是否正常,集群节点间uuid、seqno是否一致。
(6)验证服务组件连接数据库是否正常,包括对数据库进行查询及测试数据写入验证。
进一步的,所述步骤(1)中代理程序特指针对MySQL Galera集群节点关键指标数据的采集程序。
进一步的,所述步骤(2)采集数据特指针对MySQL Galera集群状态参数及可用性的关键指标(MySQL服务状态、网络连通性、MySQL进程状态、wsrep_cluster_size、wsrep_cluster_status、wsrep_ready uuid、seqno)。
进一步的,所述步骤(3)异常检测,包括:MySQL服务是否正常、进程ID是否存在、wsrep_cluster_size、wsrep_cluster_status、wsrep_ready数据值是否正常、集群各节点uuid、seqno是否一致。
进一步的,所述步骤(4)故障分类处理,对运行MySQL Galera服务的节点进行重启、集群不一致时按照恢复程序进行节点重启操作(程序主要实现步骤:停止集群所有MySQL服务;备份seqno的值最大的节点的my.cnf文件;修改seqno的值最大的节点的my.cnf的wsrep_cluster_address="gcomm://"值,启动seqno值最大的节点MySQL服务,启动正常后逐个启动剩余节点;最后关闭seqno的值最大的节点,恢复my.cnf文件,启动MySQL服务。)。
进一步的,所述步骤(5)恢复检测,指对MySQL Galera集群的MySQL数据库状态、集群数据的一致性进行检测,确保MySQL Galera集群恢复正常且可用。
进一步的,所述步骤(6)服务检测验证,指对使用MySQL作为数据库存储系统的业务应用进行数据库查询及数据写入操作,保障业务应用持续可用。
本发明还提供了一种云计算环境下云管理平台使用的MySQL Galera集群故障时的自动检测和恢复系统,具体包括采集代理模块、异常检测判定模块、告警接收模块、故障处理模块、恢复核查模块。
1、信息采集代理模块运行在各个MySQL节点,周期性(3s)采集MySQL服务状态、集群指标数据(网络连通性、MySQL进程状态、wsrep_cluster_size、wsrep_cluster_status、uuid、seqno),上报监控服务端。
2、异常检测判定模块分析采集的MySQL Galera的指标数据,来判定MySQLGalera集群是否发生脑裂、数据不一致。
3、异常检测模块对分析的异常结果产生告警并发送到告警接收模块。
4、故障处理模块根据分析告警信息来判定对MySQL Galera集群的故障处理:若节点丢包率高,告警通知运维人员排查丢包原因;若运行的MySQL Galera节点系统Crash则重启MySQL节点;若数据库数据不一致则根据seqno的值最大的节点为最新数据节点进行数据库的恢复操作,具体为:停止集群所有MySQL服务;修改seqno的值最大的节点的my.cnf的wsrep_cluster_address="gcomm://"值,启动seqno值最大的节点MySQL服务,启动正常后逐个启动剩余节点;最后关闭seqno的值最大的节点,恢复my.cnf,启动MySQL服务。
5、故障处理后调用恢复核查模块检查MySQL Galera集群状态是否正常,数据是否一致,业务应用连接数据库是否正常、数据是否可正常读写。
在上述1、2、4阶段是MySQL Galera集群故障检测及恢复的核心部分,本发明具体实现了:对MySQL Galera集群关键服务指标进行采集存储,检测分析模块对数据进行加工处理判定出集群是否异常,故障处理模块会根据告警类型进行对应处理,特别是当数据库集群节点间数据不一致时,可在5分钟内对集群进行恢复(网络恢复正常的前提下,数据量少于)。
本发明的有益效果是
本发明进一步完善了MySQL Galera集群异常时靠集群自身的恢复机制不能恢复到正常状态的监控及处理,增强了MySQL Galera集群服务可用性的能力。MySQLGalera集群本身有一定的恢复能力,但在网络异常后也存在数据的不一致性,导致数据库服务不能提供服务。本发明增强了MySQL Galera集群的故障检测及恢复方法,是对MySQL Galera集群故障恢复的补充完善。具体益处:1)准实时性的进行MySQL Galera集群数据一致的检测,能及时发现数据不一致的异常并进行相应的告警及自动处理。2)把传统的手动修复模式转化为处理程序,提高了处理的及时性和效率,也避免的人为手动处理误操作的风险。3)关键服务连接数据库状态监测能有效发现是否由于数据库异常导致的服务异常。
附图说明
图1是MySQL Galera集群逻辑架构图;
图2是针对MySQL Galera集群故障的检测和恢复方法逻辑结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
Galera Cluster是MySQL封装了具有高一致性,支持多点写入的同步通信模块Galera而做的,它是建立在MySQL同步基础之上的,使用Galera Cluster时,应用程序可以直接读、写某个节点的最新数据,并且可以在不影响应用程序读写的情况下,下线某个节点,因为支持多点写入,使得Failover变得非常简单。
所有的Galera Cluster,都是对Galera所提供的接口API做了封装,这些API为上层提供了丰富的状态信息及回调函数,通过这些回调函数,做到了真正的多主集群,多点写入及同步复制,这些API被称作是Write-Set Replication API,简称为wsrep API。
通过这些API,Galera Cluster提供了基于验证的复制,是一种乐观的同步复制机制,一个将要被复制的事务(称为写集),不仅包括被修改的数据库行,还包括了这个事务产生的所有Binlog,每一个节点在复制事务时,都会拿这些写集与正在APPLY队列的写集做比对,如果没有冲突的话,这个事务就可以继续提交,或者是APPLY,这个时候,这个事务就被认为是提交了,然后在数据库层面,还需要继续做事务上的提交操作。
这种方式的复制,也被称为是虚拟同步复制,实际上是一种逻辑上的同步,因为每个节点的写入和提交操作还是独立的,更准确的说是异步的,GaleraCluster是建立在一种乐观复制的基础上的,假设集群中的每个节点都是同步的,那么加上在写入时,都会做验证,那么理论上是不会出现不一致的,当然也不能这么乐观,如果出现不一致了,比如主库(相对)插入成功,而从库则出现主键冲突,那说明此时数据库已经不一致,这种时候GaleraCluster采取的方式是将出现不一致数据的节点踢出集群,其实是自己shutdown了。
而通过使用Galera,它在里面通过判断键值的冲突方式实现了真正意义上的multi-master,Galera Cluster在MySQL生态中,在高可用方面实现了非常重要的提升,目前Galera Cluster具备的功能包括如下几个方面:
多主架构:真正的多点读写的集群,在任何时候读写数据,都是最新的。
同步复制:集群不同节点之间数据同步,没有延迟,在数据库挂掉之后,数据不会丢失。
并发复制:从节点在APPLY数据时,支持并行执行,有更好的性能表现。
故障切换:在出现数据库故障时,因为支持多点写入,切的非常容易。
热插拔:在服务期间,如果数据库挂了,只要监控程序发现的够快,不可用服务时间就会非常少。在节点故障期间,节点本身对集群的影响非常小。
自动节点克隆:在新增节点,或者停机维护时,增量数据或者基础数据不需要人工手动备份提供,Galera Cluster会自动拉取在线节点数据,最终集群会变为一致。
对应用透明:集群的维护,对应用程序是透明的,几乎感觉不到。以上几点,足以说明Galera Cluster是一个既稳健,又在数据一致性、完整性及高性能方面有出色表现的高可用解决方案,因此应用非常广泛。
MySQL Galera Cluster自身虽有较好的故障切换及恢复能力,但在实际使用中也存在由于网络异常导致的MySQL数据库服务不可用,因此通过对MySQL GaleraCluster涉及的关键指标进行监控,及时发现问题,并通过恢复程序恢复MySQL服务可用性,对保障业务持续运行有着现实意义。
本发明借助分析grastate.dat文件及wsrep_cluster_size参数值的变化来判定集群是否正常;并通过恢复程序恢复数据库集群,保证MySQL Galera集群的服务可用性。主要通过以下步骤:
(1)MySQL Galera集群节点运行监测采集程序,同时监测服务端有针对MySQL集群各节点的数据网连通探测。
(2)每3秒采集周期采集监测指标数据(MySQL服务状态、网络连通性、MySQL进程状态、wsrep_cluster_size、wsrep_cluster_status、wsrep_ready uuid、seqno)上报监控服务端。
(3)异常检测模块通过对采集数据分析判断出故障类型并触发告警。
(4)告警模块通过Restful API调用传递到故障分类处理模块,判断出对节点的处理动作包括网络持续丢包或不通,告警运维人员;集群数据不一致则根据判定出的节点进行逐步处理;若MySQL数据库节点系统异常则进行节点的机器的重启。
(5)恢复检测模块会在故障处理完成后,对MySQL Galera集群的可用性进行验证,包括:wsrep_cluster_size=3、wsrep_cluster_status=Primary、wsrep_ready=On数据值是否正常,集群节点间uuid、seqno是否一致。
(6)集群检测模块验证服务组件连接数据库是否正常,包括对数据库进行查询及测试数据写入验证。
图1展现了MySQL Galera集群的总体结构。当一个事务在当前写入的节点提交后,通过wsrep API(write set replication API)将这个事务变成写集(writeset)广播到同集群的其他节点中,其他节点收到写集事务后,对这个事务进行可行性检查,并返回结果给wsrep API。若大多数节点都预估自己可以成功执行这个事务,则wsrep API会做出仲裁,通知所有可以成功执行这个事务的节点提交这个事务,并将事务成功提交的消息返回给客户端,同时根据需要剔除没有成功执行事务的节点。
如图2所示,信息采集代理模块运行在各个MySQL节点,周期性(3s)采集MySQL服务状态、集群指标数据(网络连通性、MySQL进程状态、wsrep_cluster_size、wsrep_cluster_status、uuid、seqno),上报监控服务端。
异常检测判定模块分析采集的MySQL Galera的指标数据,来判定MySQL Galera集群是否发生脑裂、数据不一致。
异常检测模块对分析的异常结果产生告警并发送到告警接收模块。
故障处理模块根据分析告警信息来判定对MySQL Galera集群的故障处理:若节点丢包率高,告警通知运维人员排查丢包原因;若运行的MySQL Galera节点系统Crash则重启MySQL节点;若数据库数据不一致则根据seqno的值最大的节点为最新数据节点进行数据库的恢复操作,具体为:停止集群所有MySQL服务;修改seqno的值最大的节点的my.cnf的wsrep_cluster_address="gcomm://"值,启动seqno值最大的节点MySQL服务,启动正常后逐个启动剩余节点;最后关闭seqno的值最大的节点,恢复my.cnf,启动MySQL服务。
故障处理后调用恢复核查模块检查MySQL Galera集群状态是否正常,数据是否一致,业务应用连接数据库是否正常、数据是否可正常读写。
图2展示了针对MySQL Galera集群故障,特别由于网络异常导致的集群数据不一致问题的检测和恢复;通过监测数据采集、监控端采集数据存储、异常检测判定、故障分类处理、恢复核查来实现对MySQL Galera集群故障的判定及处理,相比人工运维对MySQLGalera集群故障的判定和恢复,本发明对MySQL Galera集群故障的检测和恢复方法有较好的处理及时性,提高运维自动化水平。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.针对MySQL Galera集群故障的检测和恢复方法,其特征在于,
包括以下步骤:
(1)MySQL Galera集群节点运行监测采集程序,同时监测服务端有针对MySQL集群各节点的数据网连通探测;
(2)每3秒采集周期采集监测指标数据上报监控服务端;
(3)对采集数据分析判断出故障类型并触发告警;
(4)通过Restful API调用传递到故障分类处理,判断出对节点的处理动作包括网络持续丢包或不通,发出告警;集群数据不一致则根据判定出的节点进行逐步处理;若MySQL数据库节点系统异常则进行节点的机器的重启;
(5)在故障处理完成后,对MySQL Galera集群的可用性进行验证,包括:wsrep_cluster_size=3、wsrep_cluster_status=Primary、wsrep_ready=On数据值是否正常,集群节点间uuid、seqno是否一致;
(6)验证服务组件连接数据库是否正常,包括对数据库进行查询及测试数据写入验证。
2.根据权利要求1所述的方法,其特征在于,
所述步骤(2)采集数据特指针对MySQL Galera集群状态参数及可用性的关键指标,包括MySQL服务状态、网络连通性、MySQL进程状态、wsrep_cluster_size、wsrep_cluster_status、wsrep_ready uuid、seqno。
3.根据权利要求1所述的方法,其特征在于,
所述步骤(3)异常检测,包括:MySQL服务是否正常、进程ID是否存在、wsrep_cluster_size、wsrep_cluster_status、wsrep_ready数据值是否正常、集群各节点uuid、seqno是否一致。
4.根据权利要求1所述的方法,其特征在于,
所述步骤(4)故障分类处理,对运行MySQL Galera服务的节点进行重启、集群不一致时按照恢复程序进行节点重启操作的步骤如下:
停止集群所有MySQL服务;备份seqno的值最大的节点的my.cnf文件;修改seqno的值最大的节点的my.cnf的wsrep_cluster_address="gcomm://"值,启动seqno值最大的节点MySQL服务,启动正常后逐个启动剩余节点;最后关闭seqno的值最大的节点,恢复my.cnf文件,启动MySQL服务。
5.根据权利要求1所述的方法,其特征在于,
所述步骤(5)恢复检测,指对MySQL Galera集群的MySQL数据库状态、集群数据的一致性进行检测,确保MySQL Galera集群恢复正常且可用。
6.根据权利要求1所述的方法,其特征在于,
所述步骤(6)服务检测验证,指对使用MySQL作为数据库存储系统的业务应用进行数据库查询及数据写入操作。
7.针对MySQL Galera集群故障的检测和恢复系统,其特征在于,
包括信息采集代理模块、异常检测判定模块、告警接收模块、故障处理模块、恢复核查模块;
其中,
信息采集代理模块运行在各个MySQL节点,周期性(3s)采集MySQL服务状态、集群指标数据(网络连通性、MySQL进程状态、wsrep_cluster_size、wsrep_cluster_status、uuid、seqno),上报监控服务端;
异常检测判定模块分析采集的MySQL Galera的指标数据,来判定MySQL Galera集群是否发生脑裂、数据不一致;
异常检测模块对分析的异常结果产生告警并发送到告警接收模块;
故障处理模块根据分析告警信息来判定对MySQL Galera集群的故障处理:若节点丢包率高,告警通知运维人员排查丢包原因;若运行的MySQL Galera节点系统Crash则重启MySQL节点;若数据库数据不一致则根据seqno的值最大的节点为最新数据节点进行数据库的恢复操作;
故障处理后调用恢复核查模块检查MySQL Galera集群状态是否正常,数据是否一致,业务应用连接数据库是否正常、数据是否可正常读写。
8.根据权利要求7所述的系统,其特征在于,
所述信息采集代理模块采集的状态、数据包括网络连通性、MySQL进程状态、wsrep_cluster_size、wsrep_cluster_status、uuid、seqno。
9.根据权利要求7所述的系统,其特征在于,
所述异常检测模块检测的内容包括:MySQL服务是否正常、进程ID是否存在、wsrep_cluster_size、wsrep_cluster_status、wsrep_ready数据值是否正常、集群各节点uuid、seqno是否一致。
10.根据权利要求7所述的系统,其特征在于,
所述故障处理模块对MySQL Galera集群的故障处理具体为:
停止集群所有MySQL服务;修改seqno的值最大的节点的my.cnf的wsrep_cluster_address="gcomm://"值,启动seqno值最大的节点MySQL服务,启动正常后逐个启动剩余节点;最后关闭seqno的值最大的节点,恢复my.cnf,启动MySQL服务。
CN202010434125.0A 2020-05-21 2020-05-21 针对MySQL Galera集群故障的检测和恢复方法及系统 Active CN111597079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010434125.0A CN111597079B (zh) 2020-05-21 2020-05-21 针对MySQL Galera集群故障的检测和恢复方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010434125.0A CN111597079B (zh) 2020-05-21 2020-05-21 针对MySQL Galera集群故障的检测和恢复方法及系统

Publications (2)

Publication Number Publication Date
CN111597079A true CN111597079A (zh) 2020-08-28
CN111597079B CN111597079B (zh) 2023-12-05

Family

ID=72183116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010434125.0A Active CN111597079B (zh) 2020-05-21 2020-05-21 针对MySQL Galera集群故障的检测和恢复方法及系统

Country Status (1)

Country Link
CN (1) CN111597079B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849351A (zh) * 2021-09-30 2021-12-28 紫光云技术有限公司 一种MySQL高可用性的实现方法
CN113986618A (zh) * 2021-11-08 2022-01-28 苏州浪潮智能科技有限公司 集群脑裂自动修复方法、系统、装置及存储介质
CN114785789A (zh) * 2022-04-26 2022-07-22 平安普惠企业管理有限公司 数据库故障管理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657382A (zh) * 2013-11-21 2015-05-27 阿里巴巴集团控股有限公司 用于MySQL主从服务器数据一致性检测的方法和装置
CN108845865A (zh) * 2018-06-28 2018-11-20 郑州云海信息技术有限公司 一种监控服务部署方法、系统和存储介质
CN110290012A (zh) * 2019-07-03 2019-09-27 浪潮云信息技术有限公司 RabbitMQ集群故障的检测恢复系统及方法
CN110532278A (zh) * 2019-10-30 2019-12-03 上海爱可生信息技术股份有限公司 声明式的MySQL数据库系统高可用方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657382A (zh) * 2013-11-21 2015-05-27 阿里巴巴集团控股有限公司 用于MySQL主从服务器数据一致性检测的方法和装置
CN108845865A (zh) * 2018-06-28 2018-11-20 郑州云海信息技术有限公司 一种监控服务部署方法、系统和存储介质
CN110290012A (zh) * 2019-07-03 2019-09-27 浪潮云信息技术有限公司 RabbitMQ集群故障的检测恢复系统及方法
CN110532278A (zh) * 2019-10-30 2019-12-03 上海爱可生信息技术股份有限公司 声明式的MySQL数据库系统高可用方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849351A (zh) * 2021-09-30 2021-12-28 紫光云技术有限公司 一种MySQL高可用性的实现方法
CN113986618A (zh) * 2021-11-08 2022-01-28 苏州浪潮智能科技有限公司 集群脑裂自动修复方法、系统、装置及存储介质
CN113986618B (zh) * 2021-11-08 2023-11-10 苏州浪潮智能科技有限公司 集群脑裂自动修复方法、系统、装置及存储介质
CN114785789A (zh) * 2022-04-26 2022-07-22 平安普惠企业管理有限公司 数据库故障管理方法、装置、电子设备及存储介质
CN114785789B (zh) * 2022-04-26 2024-01-16 永诚恒易网络科技股份有限公司 数据库故障管理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111597079B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN110209726B (zh) 分布式数据库集群系统、数据同步方法及存储介质
CN108234170B (zh) 一种服务器集群的监控方法和装置
CN111597079B (zh) 针对MySQL Galera集群故障的检测和恢复方法及系统
US9619544B2 (en) Distributed state management using dynamic replication graphs
US9529882B2 (en) Coordinated suspension of replication groups
US10282228B2 (en) Log-based transaction constraint management
US9098439B2 (en) Providing a fault tolerant system in a loosely-coupled cluster environment using application checkpoints and logs
JP2018156683A (ja) マルチアイテムトランザクションサポートを有するマルチデータベースログ
CN108628717A (zh) 一种数据库系统及监控方法
CN110895488B (zh) 任务调度方法及装置
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN102394914A (zh) 集群脑裂处理方法和装置
CN113312153B (zh) 一种集群部署方法、装置、电子设备及存储介质
Lu et al. Cloud API issues: an empirical study and impact
Mendizabal et al. High performance recovery for parallel state machine replication
CN114116912A (zh) 一种基于Keepalived实现数据库高可用的方法
CN114064217B (zh) 一种基于OpenStack的节点虚拟机迁移方法及装置
CN113986450A (zh) 一种虚拟机备份方法及装置
CN111124724B (zh) 一种分布式块存储系统的节点故障测试方法及装置
CN109117317A (zh) 一种集群故障恢复方法和相关装置
CN116668269A (zh) 一种用于双活数据中心的仲裁方法、装置及系统
CN116781488A (zh) 数据库高可用实现方法、装置、数据库架构、设备和产品
JPH07183891A (ja) 計算機システム
CN113672452A (zh) 一种数据采集任务的运行监控方法、系统
CN111970329A (zh) 一种集群服务的部署方法、系统、设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant