CN107153595A - 分布式数据库系统的故障检测方法及其系统 - Google Patents

分布式数据库系统的故障检测方法及其系统 Download PDF

Info

Publication number
CN107153595A
CN107153595A CN201610124346.1A CN201610124346A CN107153595A CN 107153595 A CN107153595 A CN 107153595A CN 201610124346 A CN201610124346 A CN 201610124346A CN 107153595 A CN107153595 A CN 107153595A
Authority
CN
China
Prior art keywords
node
detection
result
database
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610124346.1A
Other languages
English (en)
Other versions
CN107153595B (zh
Inventor
刘德建
陈小钟
贾玉博
陈霖
吴拥民
陈宏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian TQ Digital Co Ltd
Original Assignee
Fujian TQ Digital Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian TQ Digital Co Ltd filed Critical Fujian TQ Digital Co Ltd
Priority to CN201610124346.1A priority Critical patent/CN107153595B/zh
Publication of CN107153595A publication Critical patent/CN107153595A/zh
Application granted granted Critical
Publication of CN107153595B publication Critical patent/CN107153595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种分布式数据库系统的故障检测方法及其系统,方法包括:HA组件集群中的主节点按照预设的时间周期探测数据库节点,得到第一探测结果;若所述第一探测结果为失败的次数大于等于预设值,则所述主节点发送所述数据库节点故障确认的通知;HA组件集群中的至少一个从节点接收所述故障确认的通知后对所述数据库节点进行探测,得到第二探测结果;所述从节点将第二探测结果反馈给主节点;所述主节点根据所述第二探测结果,判断所述数据库节点是否故障。采用主节点进行故障探测,从节点辅助故障确认的故障检测策略,能有效降低因网络抖动引起的误检测,提高了故障检测的准确性,保证了数据库服务的高可用性。

Description

分布式数据库系统的故障检测方法及其系统
技术领域
本发明涉及分布式数据库领域,尤其涉及一种分布式数据库系统的故障检测方法及其系统。
背景技术
大数据时代,分布式数据库成为数据存储的必要基础设施。分布式数据库系统存在一些问题,其中,对于大多数应用服务来说,可用性问题是一个基本问题。提供一定程度高可用性服务,是分布式数据库系统必备的特征之一。
目前有很多分布式数据库系统的高可用性方案,常采用单节点高可用性组件(HA组件)进行故障检测和故障处理。该方案存在单点故障,在高可用性组件本身异常时,将无法提供高可用性服务。
对于高可用性组件多节点部署的分布式高可用性系统,可以解决单点问题。但是,多个高可用性组件节点之间必须确定主备关系,只有主节点可以对故障进行处理,否则多个高可用性节点的操作很容易造成冲突。
在申请号为201210148938.9的专利公开文件中,提出了一种数据库集群单点故障的监控系统及方法,应用于若干个数据库的数据库集群中,所述数据库包括主库或从库,监控系统包括:若干个数据库代理,至少三个基于分布式协调机制相互通信的协调终端,其中至少三个协调终端中包括一个领导协调终端;一个数据库代理与数据库集群中的一个数据库对应设置在一台服务器上,每个数据库代理中均保存各个协调终端的地址;通过数据库代理定时检测对应数据库的读写状态,领导协调终端根据来自数据库代理的数据库读写状态信息,对数据库集群中的单点故障进行识别,能够解决现有技术中,分布式MySQL数据库单点故障的解决方案中存在的效率低下的问题。但该方法只有通过领导协调终端进行故障检测处理,在网络抖动的情况下容易出现误检测。
发明内容
本发明所要解决的技术问题是:提供一种分布式数据库系统的故障检测方法及其系统,提高故障检测的准确性,防止出现误检测。
为了解决上述技术问题,本发明采用的技术方案为:一种分布式数据库系统的故障检测方法,包括:
HA组件集群中的主节点按照预设的时间周期探测数据库节点,得到第一探测结果;
若所述第一探测结果为失败的次数大于等于预设值,则所述主节点发送所述数据库节点故障确认的通知;
HA组件集群中的至少一个从节点接收所述通知后对所述数据库节点进行探测,得到第二探测结果;
所述从节点将第二探测结果反馈给主节点;
所述主节点根据所述第二探测结果,判断所述数据库节点是否故障。
本发明还涉及一种分布式数据库系统的故障检测系统,包括:
第一探测模块,用于HA组件集群中的主节点按照预设的时间周期探测数据库节点,得到第一探测结果;
第一发送模块,用于若所述第一探测结果为失败的次数大于等于预设值,则所述主节点发送所述数据库节点故障确认的通知;
第二探测模块,用于HA组件集群中的至少一个从节点接收所述通知后对所述数据库节点进行探测,得到第二探测结果;
反馈模块,用于所述从节点将第二探测结果反馈给主节点;
第一判断模块,用于所述主节点根据所述第二探测结果,判断所述数据库节点是否故障。
本发明的有益效果在于:同一时刻只有主节点和数据库节点交互,可有效保证数据库集群状态数据的一致性;采用主节点进行故障探测,从节点辅助故障确认的故障检测策略,能有效防止发生误检测,提高了故障检测的准确性。
附图说明
图1为本发明一种分布式数据库系统的故障检测方法的流程图;
图2为本发明实施例一的分布式数据库系统的架构示意图;
图3为本发明实施例一的方法流程图;
图4为本发明一种分布式数据库系统的故障检测系统的结构示意图;
图5为本发明实施例二的系统结构示意图。
标号说明:
1、数据库集群;2、HA组件集群;3、数据库代理;4、协调组件;
101、第一探测模块;102、第一发送模块;103、第二探测模块;104、反馈模块;105、第一判断模块;106、第二判断模块;107、第一处理模块;108、第二处理模块;
1021、第一发送单元;1022、第二发送单元;
1041、第一反馈单元;1042、第二反馈单元;
1051、第一判定单元;1052、第二判定单元。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图详予说明。
本发明最关键的构思在于:主节点进行故障探测,从节点辅助故障确认,提高故障检测的准确性。
请参阅图1,一种分布式数据库系统的故障检测方法,包括:
HA组件集群中的主节点按照预设的时间周期探测数据库节点,得到第一探测结果;
若所述第一探测结果为失败的次数大于等于预设值,则所述主节点发送所述数据库节点故障确认的通知;
HA组件集群中的至少一个从节点接收所述通知后对所述数据库节点进行探测,得到第二探测结果;
所述从节点将第二探测结果反馈给主节点;
所述主节点根据所述第二探测结果,判断所述数据库节点是否故障。
从上述描述可知,本发明的有益效果在于:采用主节点进行故障探测,从节点辅助故障确认的故障检测策略,可提高了故障检测的准确性。
进一步地,所述“所述主节点根据所述第二探测结果,判断所述数据库节点是否故障”具体为:若所述从节点反馈的第二探测结果均为异常,则判定所述数据库节点故障;若至少一个从节点反馈的第二探测结果为正常,则判定所述数据库节点正常。
由上述描述可知,根据所有从节点反馈的第二探测结果来判断数据库节点是否故障,极大降低因网络抖动引起的误检测,保证了数据库服务的高可用性。
进一步地,所述“所述主节点根据所述第二探测结果,判断所述数据库节点是否故障”之后,进一步包括:
若故障的数据库节点为主数据库节点,则在可用的备数据库节点中选取一个新的主数据库节点。
由上述描述可知,若主数据库节点故障则选取新的主数据库节点,继续提供服务,进一步保证了数据库服务的高可用性。
进一步地,所述“所述主节点发送所述数据库节点故障确认的通知”具体为:
所述主节点发送所述数据库节点故障确认的通知给协调组件;
协调组件将所述通知发送给HA组件集群中的所有从节点。
进一步地,所述“所述从节点将第二探测结果反馈给主节点”具体为:
所述从节点将第二探测结果反馈给协调组件;
协调组件将第二探测结果反馈给所述主节点。
由上述描述可知,通过协调组件实现主节点和从节点之间的相互通信,提高了主节点和从节点的效率。
请参照图4,本发明还提出一种分布式数据库系统的故障检测系统,包括
第一探测模块,用于HA组件集群中的主节点按照预设的时间周期探测数据库节点,得到第一探测结果;
第一发送模块,用于若所述第一探测结果为失败的次数大于等于预设值,则所述主节点发送所述数据库节点故障确认的通知;
第二探测模块,用于HA组件集群中的至少一个从节点接收所述通知后对所述数据库节点进行探测,得到第二探测结果;
反馈模块,用于所述从节点将第二探测结果反馈给主节点;
第一判断模块,用于所述主节点根据所述第二探测结果,判断所述数据库节点是否故障。
进一步地,所述第一判断模块包括:
第一判定单元,用于若所述从节点反馈的第二探测结果均为异常,则判定所述数据库节点故障;
第二判定单元,用于若至少一个从节点反馈的第二探测结果为正常,则判定所述数据库节点正常。
进一步地,还包括:
第一处理模块,用于若故障的数据库节点为主数据库节点,则在可用的备数据库节点中选取一个新的主数据库节点。
进一步地,所述第一发送模块包括:
第一发送单元,用于所述主节点发送所述数据库节点故障确认的通知给协调组件;
第二发送单元,用于协调组件将所述通知发送给HA组件集群中的所有从节点。
进一步地,所述反馈模块包括:
第一反馈单元,用于所述从节点将第二探测结果反馈给协调组件;
第二反馈单元,用于协调组件将第二探测结果反馈给所述主节点。
实施例一
请参照图1,本发明的实施例一为:一种分布式数据库系统的故障检测方法,请参照图2,所述分布式数据库系统包括数据库集群1、HA组件集群2、数据库代理3和协调组件4。所述数据库集群1由至少一个数据库组构成,一个数据库组包含一个主数据库节点和至少一个备数据库节点。所述HA组件集群2中的HA组件提供数据库集群1的高可用性功能。所述协调组件4保存数据库集群1信息,包括所有的数据库组和其中的数据库节点的主备信息等,当数据库集群1信息发生改变时,主动通知数据库代理3和HA组件。所述数据库代理3从协调组件4读取整个数据库集群1信息,根据一定的分片规则,将客户端的请求路由到对应的数据库节点。当数据库集群1信息发生变化时,由协调组件4通知数据库代理3更新信息。HA组件从协调组件4读取数据库集群1信息,随后定期对数据库节点进行故障检测,若有故障发生,则进行相应的故障处理。
所述HA组件采用分布式多节点部署,避免单点问题。每个HA组件有两种角色状态,主节点和从节点。在一个分布式部署的HA组件集群2中,同一时刻有且只有一个HA组件节点是主节点,其它HA组件节点均是从节点。HA组件都具有故障处理和故障确认的功能,但只有主节点能够对数据库节点进行探测和故障处理,从节点只进行辅助的故障确认。
所述协调组件4可多节点分布式部署,且应具有如下特征:
顺序一致性,按照客户端发送请求的顺序更新数据;
原子性,更新要么成功,要么失败,不会出现部分更新;
单一性,无论客户端连接哪个节点,都会看到同一个视图;
可靠性,一旦数据更新成功,将一直保持,直到新的更新;
及时性,客户端会在一个确定的时间内得到最新的数据。
图2中的实线表示数据传输,点划线表示心跳,虚线表示监听。
所述协调组件4可以自主开发,也可以使用如zookeeper、ETCD等开源的分布式应用程序协调服务软件。
请参照图3,所述方法包括如下步骤:
S1:HA组件集群中的主节点按照预设的时间周期探测数据库节点,判断所述数据库节点是否能够正常提供服务,例如,使用ping数据库命令进行探测,得到第一探测结果。
S2:判断第一探测结果为失败的次数是否大于等于预设,若否,则继续执行S1,若是,则执行S3。
S3:主节点发送对所述数据库节点进行故障确认的通知给从节点;优选地,通过协调组件发送给从节点,即主节点发送所述通知给协调组件;协调组件将所述通知发送给HA组件集群中的所有从节点。
S4:HA组件集群中的至少一个从节点接收所述通知后对所述数据库节点进行一次性的状态探测,得到第二探测结果;
S5:所述从节点将第二探测结果反馈给主节点;优选地,通过协调组件反馈给主节点,即从节点将第二探测结果反馈给协调组件;协调组件将第二探测结果反馈给所述主节点。
S6:判断从节点反馈的第二探测结果是否均为异常,若否,执行S7,若是,执行S8。
S7:判定所述数据库节点能够正常提供服务,执行S1。
S8:判定所述数据库节点故障,执行S9。
S9:判断所述故障的数据库节点是否为主数据库节点,若是,执行S10,若否,执行S11。
S10:进行主备节点的切换,在可用的备数据库节点中选取一个新的主数据库节点,继续提供服务。
S11:根据预设流程对所述故障的备数据库节点进行处理,如重启所述数据库节点或发送邮件通知等。
本实施例采用主节点进行故障探测,从节点辅助故障确认的故障检测策略,主节点可根据所有从节点反馈的第二探测结果来判断数据库节点是否故障,能有效降低因网络抖动引起的误检测,提高了故障检测的准确性,保证了数据库服务的高可用性。
实施例二
请参照图5,本实施例为一种分布式数据库系统的故障检测系统,包括:
第一探测模块101,用于HA组件集群中的主节点按照预设的时间周期探测数据库节点,得到第一探测结果;
第一发送模块102,用于若所述第一探测结果为失败的次数大于等于预设值,则所述主节点发送所述数据库节点故障确认的通知;
第二探测模块103,用于HA组件集群中的至少一个从节点接收所述通知后对所述数据库节点进行探测,得到第二探测结果;
反馈模块104,用于所述从节点将第二探测结果反馈给主节点;
第一判断模块105,用于所述主节点根据所述第二探测结果,判断所述数据库节点是否故障。
所述第一判断模块105包括:
第一判定单元1051,用于若所述从节点反馈的第二探测结果均为异常,则判定所述数据库节点故障;
第二判定单元1052,用于若至少一个从节点反馈的第二探测结果为正常,则判定所述数据库节点正常。
所述第一发送模块102包括:
第一发送单元1021,用于若所述第一探测结果为失败的次数大于等于预设值,所述主节点发送所述数据库节点故障确认的通知给协调组件;
第二发送单元1022,用于协调组件将所述通知发送给HA组件集群中的所有从节点。
所述反馈模块104包括:
第一反馈单元1041,用于所述从节点将第二探测结果反馈给协调组件;
第二反馈单元1042,用于协调组件将第二探测结果反馈给所述主节点。
该系统还包括:
第二判断模块106,用于判断故障的数据库节点为是否为主数据库节点,得到第二判断结果;
第一处理模块107,用于若第二判断结果为是,则在可用的备数据库节点中选取一个新的主数据库节点。
第二处理模块108,用于若第二判断结果为否,则根据预设流程对所述数据库节点进行处理。
综上所述,本发明提供的一种分布式数据库系统的故障检测方法及其系统,同一时刻只有主节点和数据库节点交互,可有效保证数据库集群状态数据的一致性;采用主节点进行故障探测,从节点辅助故障确认的故障检测策略,能有效防止发生误检测,提高了故障检测的准确性;根据所有从节点反馈的第二探测结果来判断数据库节点是否故障,极大降低因网络抖动引起的误检测,保证了数据库服务的高可用性;通过协调组件实现主节点和从节点之间的相互通信,提高了主节点和从节点的效率。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种分布式数据库系统的故障检测方法,其特征在于:包括:
HA组件集群中的主节点按照预设的时间周期探测数据库节点,得到第一探测结果;
若所述第一探测结果为失败的次数大于等于预设值,则所述主节点发送所述数据库节点故障确认的通知;
HA组件集群中的至少一个从节点接收所述通知后对所述数据库节点进行探测,得到第二探测结果;
所述从节点将第二探测结果反馈给主节点;
所述主节点根据所述第二探测结果,判断所述数据库节点是否故障。
2.根据权利要求1所述的分布式数据库系统的故障检测方法,其特征在于:所述“所述主节点根据所述第二探测结果,判断所述数据库节点是否故障”具体为:若所述从节点反馈的第二探测结果均为异常,则判定所述数据库节点故障;若至少一个从节点反馈的第二探测结果为正常,则判定所述数据库节点正常。
3.根据权利要求1所述的分布式数据库系统的故障检测方法,其特征在于:所述“所述主节点根据所述第二探测结果,判断所述数据库节点是否故障”之后,进一步包括:
若故障的数据库节点为主数据库节点,则在可用的备数据库节点中选取一个新的主数据库节点。
4.根据权利要求1所述的分布式数据库系统的故障检测方法,其特征在于:所述“所述主节点发送所述数据库节点故障确认的通知”具体为:
所述主节点发送所述数据库节点故障确认的通知给协调组件;
协调组件将所述通知发送给HA组件集群中的所有从节点。
5.根据权利要求1所述的分布式数据库系统的故障检测方法,其特征在于:所述“所述从节点将第二探测结果反馈给主节点”具体为:
所述从节点将第二探测结果反馈给协调组件;
协调组件将第二探测结果反馈给所述主节点。
6.一种分布式数据库系统的故障检测系统,其特征在于:包括
第一探测模块,用于HA组件集群中的主节点按照预设的时间周期探测数据库节点,得到第一探测结果;
第一发送模块,用于若所述第一探测结果为失败的次数大于等于预设值,则所述主节点发送所述数据库节点故障确认的通知;
第二探测模块,用于HA组件集群中的至少一个从节点接收所述通知后对所述数据库节点进行探测,得到第二探测结果;
反馈模块,用于所述从节点将第二探测结果反馈给主节点;
第一判断模块,用于所述主节点根据所述第二探测结果,判断所述数据库节点是否故障。
7.根据权利要求6所述的分布式数据库系统的故障检测系统,其特征在于:所述第一判断模块包括:
第一判定单元,用于若所述从节点反馈的第二探测结果均为异常,则判定所述数据库节点故障;
第二判定单元,用于若至少一个从节点反馈的第二探测结果为正常,则判定所述数据库节点正常。
8.根据权利要求6所述的分布式数据库系统的故障检测系统,其特征在于:还包括
第一处理模块,用于若故障的数据库节点为主数据库节点,则在可用的备数据库节点中选取一个新的主数据库节点。
9.根据权利要求6所述的分布式数据库系统的故障检测系统,其特征在于:所述第一发送模块包括:
第一发送单元,用于所述主节点发送所述数据库节点故障确认的通知给协调组件;
第二发送单元,用于协调组件将所述通知发送给HA组件集群中的所有从节点。
10.根据权利要求6所述的分布式数据库系统的故障检测系统,其特征在于:所述反馈模块包括
第一反馈单元,用于所述从节点将第二探测结果反馈给协调组件;
第二反馈单元,用于协调组件将第二探测结果反馈给所述主节点。
CN201610124346.1A 2016-03-04 2016-03-04 分布式数据库系统的故障检测方法及其系统 Active CN107153595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610124346.1A CN107153595B (zh) 2016-03-04 2016-03-04 分布式数据库系统的故障检测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610124346.1A CN107153595B (zh) 2016-03-04 2016-03-04 分布式数据库系统的故障检测方法及其系统

Publications (2)

Publication Number Publication Date
CN107153595A true CN107153595A (zh) 2017-09-12
CN107153595B CN107153595B (zh) 2020-03-17

Family

ID=59792433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610124346.1A Active CN107153595B (zh) 2016-03-04 2016-03-04 分布式数据库系统的故障检测方法及其系统

Country Status (1)

Country Link
CN (1) CN107153595B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990183A (zh) * 2019-12-04 2020-04-10 腾讯科技(深圳)有限公司 数据库集群的异常检测方法、装置、计算机可读存储介质
CN111277551A (zh) * 2018-12-05 2020-06-12 中国移动通信集团四川有限公司 一种应用服务器as系统内部检测方法、装置、设备及介质
CN111460039A (zh) * 2020-04-07 2020-07-28 中国建设银行股份有限公司 关系型数据库处理系统、客户端、服务器及方法
CN112100004A (zh) * 2020-08-12 2020-12-18 福建天泉教育科技有限公司 Redis集群节点的管理方法、存储介质
CN112702209A (zh) * 2020-12-28 2021-04-23 紫光云技术有限公司 一种实现mysql高可用架构哨兵监控的方法
CN113254245A (zh) * 2020-02-13 2021-08-13 北京沃东天骏信息技术有限公司 一种存储集群的故障检测方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030214953A1 (en) * 2002-05-14 2003-11-20 Ge Medical Systems Global Technology Company, Llc Networked magnetic resonance imaging system and method incorporating same
US20070006015A1 (en) * 2005-06-29 2007-01-04 Rao Sudhir G Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance
US20070220064A1 (en) * 2006-03-17 2007-09-20 Microsoft Corporation Fault tolerance scheme for distributed hyperlink database
CN103129750A (zh) * 2013-01-25 2013-06-05 航天东方红卫星有限公司 基于状态感知的分离模块航天器系统和自组网方法
CN104408071A (zh) * 2014-10-30 2015-03-11 北京思特奇信息技术股份有限公司 一种基于集群管理器的分布式数据库高可用方法及系统
CN105141490A (zh) * 2015-08-14 2015-12-09 深圳市家信信息科技开发有限公司 一种基于485总线的电动车控制系统及地址分配方法
WO2016025333A1 (en) * 2014-08-13 2016-02-18 Microsoft Technology Licensing, Llc Fault tolerant federation of computing clusters
CN106445781A (zh) * 2016-09-27 2017-02-22 北京航空航天大学 基于消息传递的hpc大规模并行程序异常自动监测及软硬件原因判断的检测系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030214953A1 (en) * 2002-05-14 2003-11-20 Ge Medical Systems Global Technology Company, Llc Networked magnetic resonance imaging system and method incorporating same
US20070006015A1 (en) * 2005-06-29 2007-01-04 Rao Sudhir G Fault-tolerance and fault-containment models for zoning clustered application silos into continuous availability and high availability zones in clustered systems during recovery and maintenance
US20070220064A1 (en) * 2006-03-17 2007-09-20 Microsoft Corporation Fault tolerance scheme for distributed hyperlink database
CN103129750A (zh) * 2013-01-25 2013-06-05 航天东方红卫星有限公司 基于状态感知的分离模块航天器系统和自组网方法
WO2016025333A1 (en) * 2014-08-13 2016-02-18 Microsoft Technology Licensing, Llc Fault tolerant federation of computing clusters
US20160050123A1 (en) * 2014-08-13 2016-02-18 Microsoft Corporation Fault tolerant federation of computing clusters
CN104408071A (zh) * 2014-10-30 2015-03-11 北京思特奇信息技术股份有限公司 一种基于集群管理器的分布式数据库高可用方法及系统
CN105141490A (zh) * 2015-08-14 2015-12-09 深圳市家信信息科技开发有限公司 一种基于485总线的电动车控制系统及地址分配方法
CN106445781A (zh) * 2016-09-27 2017-02-22 北京航空航天大学 基于消息传递的hpc大规模并行程序异常自动监测及软硬件原因判断的检测系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277551A (zh) * 2018-12-05 2020-06-12 中国移动通信集团四川有限公司 一种应用服务器as系统内部检测方法、装置、设备及介质
CN110990183A (zh) * 2019-12-04 2020-04-10 腾讯科技(深圳)有限公司 数据库集群的异常检测方法、装置、计算机可读存储介质
CN110990183B (zh) * 2019-12-04 2022-05-17 腾讯科技(深圳)有限公司 数据库集群的异常检测方法、装置、计算机可读存储介质
CN113254245A (zh) * 2020-02-13 2021-08-13 北京沃东天骏信息技术有限公司 一种存储集群的故障检测方法和系统
CN111460039A (zh) * 2020-04-07 2020-07-28 中国建设银行股份有限公司 关系型数据库处理系统、客户端、服务器及方法
CN112100004A (zh) * 2020-08-12 2020-12-18 福建天泉教育科技有限公司 Redis集群节点的管理方法、存储介质
CN112702209A (zh) * 2020-12-28 2021-04-23 紫光云技术有限公司 一种实现mysql高可用架构哨兵监控的方法

Also Published As

Publication number Publication date
CN107153595B (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN107153595A (zh) 分布式数据库系统的故障检测方法及其系统
US7787388B2 (en) Method of and a system for autonomously identifying which node in a two-node system has failed
CN105095001B (zh) 分布式环境下虚拟机异常恢复方法
US8688780B2 (en) Peer-to-peer exchange of data resources in a control system
CN107480014B (zh) 一种高可用设备切换方法及装置
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
US20040205414A1 (en) Fault-tolerance framework for an extendable computer architecture
CN107153660A (zh) 分布式数据库系统的故障检测处理方法及其系统
US9164864B1 (en) Minimizing false negative and duplicate health monitoring alerts in a dual master shared nothing database appliance
US20080288812A1 (en) Cluster system and an error recovery method thereof
CN104408071A (zh) 一种基于集群管理器的分布式数据库高可用方法及系统
US20140157041A1 (en) Distributed avionics system and method for backup handling in an avionics system
CN112558997A (zh) 一种部署应用的方法及装置
US10102088B2 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
CN109922070A (zh) 一种自动回复方法及装置
JP4612714B2 (ja) データ処理方法、クラスタシステム、及びデータ処理プログラム
CN117435405A (zh) 双机热备和故障切换系统和方法
CN109510730A (zh) 分布式系统及其监控方法、装置、电子设备及存储介质
CN110321261B (zh) 一种监控系统及监控方法
CN114301763B (zh) 分布式集群故障的处理方法及系统、电子设备及存储介质
CN115686368A (zh) 区块链网络的节点的存储扩容的方法、系统、装置和介质
CN110620684A (zh) 一种存储双控防脑裂方法、系统、终端及存储介质
CN110650059B (zh) 故障群集检测方法、装置、计算机设备和存储介质
CN114844807A (zh) 系统检测方法、装置、设备、存储介质、车辆和云控平台
CN106777238B (zh) 一种hdfs分布式文件系统的自适应容错调节方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant