CN103716182A - 一种面向实时云平台的故障检测与容错方法及系统 - Google Patents

一种面向实时云平台的故障检测与容错方法及系统 Download PDF

Info

Publication number
CN103716182A
CN103716182A CN201310681028.1A CN201310681028A CN103716182A CN 103716182 A CN103716182 A CN 103716182A CN 201310681028 A CN201310681028 A CN 201310681028A CN 103716182 A CN103716182 A CN 103716182A
Authority
CN
China
Prior art keywords
node
task
global state
fault
working
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310681028.1A
Other languages
English (en)
Other versions
CN103716182B (zh
Inventor
张闯
李钊
徐克付
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201310681028.1A priority Critical patent/CN103716182B/zh
Publication of CN103716182A publication Critical patent/CN103716182A/zh
Application granted granted Critical
Publication of CN103716182B publication Critical patent/CN103716182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种面向实时云平台的故障检测与容错方法及系统,包括发送命令,提交任务,并将分配给工作节点的任务存储在相应路径下的客户端;用于监控各工作节点的运行状态,根据工作节点上传的心跳信息进行节点级故障检测与容错,执行故障节点中任务的迁移的全局状态监控模块;用于存储全局状态监控模块和各个工作节点的工作状态及心跳信息的全局状态存储模块;用于执行任务,运行守护进程来守护工作进程,并执行程序级故障检测与容错的工作节点;本发明中使整个集群的状态信息全部存储在Zookeeper系统中,实现节点的无状态架构,节点故障不会造成状态丢失,具有完善的故障检测与容错机制,实现多级容错,保障实时业务的不间断运行。

Description

一种面向实时云平台的故障检测与容错方法及系统
技术领域
本发明涉及实时云计算领域,尤其涉及一种面向实时云平台的故障检测与容错方法及系统。
背景技术
随着云计算、物联网等技术的兴起,数据正以前所未有的速度不断地增长和积累,并且越来越多地以大规模、连续的流的形式出现在应用程序中,其中最典型的应用就是监控应用,例如金融市场监控、网络监控、移动对象监控、入侵检查和生态系统监控等,实时应用对故障检测恢复及容错有着更高的需求。
为此工业界和学术界开发了很多数据流处理系统,包括斯坦福大学的STREAM、施乐公司的Tapestry、加州大学伯克利分校的Telegraph、布朗大学和麻省理工学院合作的Aurora,Apache的Hadoop Online以及Yahoo的S4。
低延迟数据流处理的新需求,给程序级及节点级的故障检测与恢复带来了新的挑战,目前主流云平台存在以下一些问题:
1、无法完全克服节点故障时的状态丢失,通常在节点上保存着状态信息,以及配置信息,业务程序文件等,一旦节点发生故障,将丢失状态信息。
2、无法完全消除主节点依赖。如twitter storm,虽然主节点故障时,工作节点依然可以运行,但大部分功能将会失效,如提交任务、故障检测等。
3、缺少一套全面、整体的故障检测与容错机制,使得程序级与节点级故障都能够及时检测与修复。
因此,我们需要一种面向实时云平台的多级故障检测与容错机制,以保障实时云平台的高可用性。
发明内容
本发明所要解决的技术问题是提供一种面向实时云平台的故障检测与容错方法及系统,实现所有节点无状态,能够及时准确的检测平台程序级与节点级故障,并采用相应策略进行故障恢复。
本发明解决上述技术问题的技术方案如下:一种面向实时云平台的故障检测与容错方法包括如下步骤:
步骤1:客户端向全局状态存储模块发送待处理的任务,并将将分配给各个工作节点的任务存储到全局状态存储模块的相应路径下;
步骤2:所述各工作节点每隔心跳时间到全局状态存储模块相应路径下,检测是否有待执行的任务,一旦发现新任务,便启动工作进程运行相应任务;
步骤3:所述每个工作节点内运行一个守护进程来守护在执行任务的工作进程,并执行程序级故障检测与容错;
步骤4:全局状态监控模块每隔心跳时间到全局状态存储模块中检查每个工作节点上传的心跳信息,并根据心跳信息进行节点级故障检测与容错。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述全局状态监控模块和各个工作节点本地不保存状态信息,所有状态信息都保存全局状态存储模块中;所述全局状态监控模块与各工作节点间的通信,各工作节点间的通信,以及各工作节点的本地动作都是依靠全局状态存储模块中的全局状态来进行的。
进一步,步骤3中所述执行程序级故障检测与容错的具体实现为:
步骤3.1:守护进程每隔心跳时间检查在执行任务的工作进程的运行状态;
步骤3.2:检查是否有意外崩溃的工作进程,如果有则立即重新启动该工作进程,恢复其工作状态。
进一步,步骤4中所述执行节点级故障检测与容错的具体实现为:
步骤4.1:当检测到某节点上传心跳信息超时,进一步检测是网络故障还是该节点故障,
步骤4.2:判断同一时段内上传心跳信息超时的节点个数是否大于预设阈值,如果大于则认为是网络故障,节点内任务不迁移;如果小于则是该节点单独故障,将该节点内的任务迁移到其他空闲节点中运行。
进一步,步骤4.2中将故障节点中任务迁移到其他空闲节点继续运行的具体步骤为:
步骤4.2.1:通过节点选举算法给故障节点选一个空闲节点,如果找到空闲节点,执行步骤4.2.2;否则执行步骤4.2.5;
步骤4.2.2:更新上游相关节点和该故障节点存储于全局状态存储模块中的目的地址表,将目的地址更新为所选的空闲节点;
步骤4.2.3:将更新的目的地址表发送给上游相关节点,上游相关节点根据新目的地址向所选空闲节点发送数据;
步骤4.2.4:所选空闲节点向全局状态存储模块发送心跳信息时发现有需要执行的任务,所述空闲节点接收上游相关节点发送的数据,并启动工作进程执行该任务,结束;
步骤4.2.5:更新上游相关节点存储于全局状态存储模块中的目的地址表,将目的地址置为空;
步骤4.2.6:将更新的目的地址表发送给上游相关节点,上游相关节点检测到新目的地址为空,则停止向下游发送数据。
进一步,所述全局状态监控模块包括若干个主节点,并采用Zookeeper互斥锁实现多机热备,当正在工作的主节点出错后,自动释放互斥锁及对整个集群各个工作节点工作状态的监控,由竞争到互斥锁的主节点接管任务。
本发明解决上述技术问题的技术方案如下:一种面向实时云平台的故障检测与容错系统,包括客户端、全局状态监控模块、全局状态存储模块和若干个工作节点;
所述客户端,其用于向全局状态存储模块发送命令,提交任务,为各工作节点分配任务,并将分配给各个工作节点的任务存储到全局状态存储模块的相应路径下;
所述全局状态监控模块,其用于监控各工作节点的运行状态,根据工作节点上传的心跳信息进行节点级故障检测与容错;
所述全局状态存储模块,其用于将客户端分配给工作节点的任务存储在相应路径下,还用于存储全局状态监控模块和各个工作节点的工作状态及心跳信息;
所述工作节点,其用于每隔心跳时间到全局状态存储模块相应路径下,检测是否有待执行的任务,一旦发现新任务,便启动其内的工作进程运行相应任务;且每个工作节点内运行一个守护进程来守护在执行任务的工作进程,并执行程序级故障检测与容错。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述全局状态监控模块包括若干个主节点,并采用Zookeeper互斥锁实现多机热备,当正在工作的主节点出错后,自动释放互斥锁及对整个集群各个工作节点工作状态的监控,由竞争到互斥锁的主节点接管任务。
进一步,所述全局状态存储模块包括若干个Zookeeper节点,每个Zookeeper节点上运行一个守护进程,当守护进程检测到Zookeeper节点上的Zookeeper进程错误退出后,立即重新启动。
进一步,所述每个工作节点中还运行的守护进程为supervisor,其每隔心跳时间检查工作进程的运行状态,一旦发现工作进程意外崩溃,便重启该工作进程,恢复其原有工作状态。
本发明的有益效果是:
1.节点的无状态架构
整个集群的状态信息全部存储在可靠的Zookeeper系统中,节点本地没有状态存储,各节点间没有控制消息通信,节点间无相互依赖,节点故障不会造成状态丢失,节点故障也不会影响其他节点,节点由于无状态,故障替换时无需做IP欺骗;
2.完善的故障检测与容错机制
无论业务程序、平台程序或者物理节点的故障,都能及时通过心跳信息反映到Zookeeper系统中,并被平台发现;通过Supervisor->Worker->Task多级容错,保障实时业务的不间断运行;通过Master多机热备,实现主节点的容错;
3.摆脱对物理节点的依赖
当工作节点故障时,工作节点中的任务可自动迁移到其他空闲节点中;当主节点故障时,热备主节点自动接管Master工作;Zookeeper系统中只要有半数节点工作,系统就可正常运行。
附图说明
图1为本发明所述一种面向实时云平台的故障检测与容错系统框图;
图2为本发明所述一种面向实时云平台的故障检测与容错方法流程图;
图3为本发明所述步骤3的具体实现流程图;
图4为本发明所述步骤4的具体实现流程图;
图5为本发明所述步骤4.2的具体实现流程图;
图6为本发明所述全局状态存储模块(Zookeeper系统)中状态存储路径示意图;
图7为工作节点中的工作进程Worker的状态转移示意图;
图8为程序级和节点级故障检测与容错机制示意图。
附图中,各标号所代表的部件列表如下:
1、客户端,2、全局状态监控模块,3、全局状态存储模块,4、工作节点。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明可以应用在诸如实时云平台、流计算平台等分布式结构的平台中,用于完成实时云平台的故障检测与容错功能。
如图1所示,一种面向实时云平台的故障检测与容错系统,包括客户端1、全局状态监控模块2、全局状态存储模块3和若干个工作节点4;
所述客户端1,其用于向全局状态存储模块2发送命令,提交任务,为各工作节点分配任务,并将分配给各个工作节点的任务存储到全局状态存储模块3;
所述全局状态监控模块2,用于监控各工作节点4的运行状态,根据工作节点上传的心跳信息进行节点级故障检测与容错;
所述全局状态存储模块3,其用于将客户端1分配给工作节点的任务存储在相应路径下,还用于存储全局状态监控模块2和各个工作节点4的工作状态及心跳信息;
所述工作节点4,其用于每隔心跳时间到全局状态存储模块3相应路径下,检测是否有待执行的任务,一旦发现新任务,便启动其内的工作进程运行相应任务;且每个工作节点内运行一个守护进程来守护在执行任务的工作进程,并执行程序级故障检测与容错。
本实施例中使用一台服务器作为Client客户端,负责向集群发布命令、提交Job及可执行程序等;并使用千兆网卡与交换机提供集群网络通信;使用两台服务器作为Master节点,一台监控整个集群工作状态,提供故障恢复与任务迁移功能,另一台作为热备使用;使用三台服务器作为Zookeeper节点,负责全局状态存储并负责与其他模块通信;使用五台服务器作为工作节点;每个工作节点上运行一个Supervisor进程,负责监控及控制Worker进程工作。
其中,所述全局状态监控模块2和各个工作节点4本地不保存状态信息,所有状态信息都保存全局状态存储模块3中;所述全局状态监控模块2与各工作节点4间的通信,各工作节点4间的通信,以及各工作节点4的本地动作都是依靠全局状态存储模块3中的全局状态来进行的。因此,任何节点故障都不会造成全局状态丢失。全局状态存储模块3(Zookeeper系统)中的状态是全局一致的,所以不会由于消息的丢失造成节点的不一致。
所述全局状态监控模块2包括若干个主节点,每个主节点上运行一个Master进程来对全局状态存储模块3进行监控,并采用Zookeeper互斥锁实现多机热备,同时启动多个Master程序,只有一个能获得互斥锁,当正在工作的主节点出错后,自动释放互斥锁及对整个集群各个工作节点工作状态的监控,由竞争到互斥锁的主节点接管任务。
所述全局状态存储模块3包括若干个Zookeeper节点,每个Zookeeper节点上运行一个守护进程,当守护进程检测到Zookeeper节点上的Zookeeper进程错误退出后,立即重新启动。
由于各个节点和各个任务都有状态需要存储,且彼此需要交互,为了保证存储信息的可靠性,因此采用Zookeeper系统作为存储系统,且各节点间的信息交互都通过Zookeeper系统完成。Zookeeper是一个高可用性的存储系统,以Fast Paxos算法为基础改进而来,在分布式环境中确保文件写入的一致性问题,并且能够保证只要Zookeeper系统中有半数以上节点工作正常,整个Zookeeper系统就能够正常工作;此外,Zookeeper系统采用Fail-fast策略,即遇到错误即退出,因此,在每台Zookeeper节点上运行一个守护进程,当此节点上的Zookeeper进程错误退出后,立即重新启动,实现双重保护。因此,采用Zookeeper系统作为状态存储系统可用性很高。
所述每个工作节点4中还运行的守护进程为supervisor,其每隔心跳时间检查执行任务的工作进程Worker的运行状态,一旦发现有工作进程Worker意外崩溃,便重启该工作进程,恢复其原有工作状态。
如图2所示,一种面向实时云平台的故障检测与容错方法包括如下步骤:
步骤1:客户端向全局状态存储块发送待处理的任务,并将分配给各个工作节点的任务存储到全局状态存储模块的相应路径下;
步骤2:所述各工作节点每隔心跳时间到全局状态存储模块相应路径下,检测是否有待执行的任务,一旦发现新任务,便启动工作进程运行相应任务;
步骤3:所述每个工作节点内运行一个守护进程来守护在执行任务的工作进程,并执行程序级故障检测与容错;
步骤4:全局状态监控模块每隔心跳时间到全局状态存储模块中检查每个工作节点上传的心跳信息,并根据心跳信息进行节点级故障检测与容错。
如图3所示,步骤3中所述执行程序级故障检测与容错的具体实现为:
步骤3.1:守护进程每隔心跳时间检查在执行任务的工作进程的运行状态;
步骤3.2:检查是否有意外崩溃的工作进程,如果有则立即重新启动该工作进程,恢复其工作状态。
如图4所示,步骤4中所述执行节点级故障检测与容错的具体实现为:
步骤4.1:当检测到某节点上传心跳信息超时,进一步检测是网络故障还是该节点故障,
步骤4.2:判断同一时段内上传心跳信息超时的节点个数是否大于预设阈值,如果大于则认为是网络故障,节点内任务不迁移;如果小于则认为是该节点单独故障,将该节点内的任务迁移到其他空闲节点中运行。
如图5所示,步骤4.2中将故障节点中任务迁移到其他空闲节点继续运行的具体步骤为:
步骤4.2.1:通过节点选举算法给故障节点选一个空闲节点,如果找到空闲节点,执行步骤4.2.2;否则执行步骤4.2.5;
步骤4.2.2:更新上游相关节点和该故障节点存储于全局状态存储模块中的目的地址表,将目的地址更新为所选的空闲节点;
步骤4.2.3:将更新的目的地址表发送给上游相关节点,上游相关节点根据新目的地址向所选空闲节点发送数据;
步骤4.2.4:所选空闲节点向全局状态存储模块发送心跳信息时发现有需要执行的任务,所述空闲节点接收上游相关节点发送的数据,并启动工作进程执行该任务,结束;
步骤4.2.5:更新上游相关节点存储于全局状态存储模块中的目的地址表,将目的地址置为空;
步骤4.2.6:将更新的目的地址表发送给上游相关节点,上游相关节点检测到新目的地址为空,则停止向下游发送数据。
本发明可实现程序级和节点级故障检测与容错
1.程序级故障检测与容错机制
业务程序为用户提供的独立的可执行程序或动态库;Worker为工作进程,每个Worker每隔心跳时间便检查Zookeeper系统中相应Znode信息,一旦发现有新任务,便启动进程运行业务程序;Supervisor为Worker的守护进程,Supervisor每隔心跳时间便检查Worker的运行状态,一旦发现有Worker意外崩溃,便重启该Worker进程,恢复其原有工作状态。
2.节点级故障检测与容错机制
Master每隔心跳时间便到Zookeeper系统中检查各个工作节点上传的心跳信息是否超时,进一步判断是网络故障还是该节点故障;如果同一时段超时节点个数大于某阈值,则认为整个通信系统瘫痪,节点中任务不做迁移;如果同一时段超时节点数小于阈值,则将故障节点中的所有Worker中的任务迁移到其他空闲节点中继续运行。
图6为Zookeeper系统中状态存储路径,其中节点、Job、Worker、Task、程序、节点心跳、Task心跳、Worker状态及全局标志位,分别存于图中对应的Znode中。
如图7所示,为Worker状态转移示意图,Worker启动后,会定时向Zookeeper系统中相应Znode发送心跳,并检查其在Zookeeper中的状态,以此判断Worker下一步动作。Worker有两种稳定状态和四种中间状态,当Worker处于稳定状态时,表示Worker与相应Znode中的状态已同步,当Worker处于中间状态时,表示Worker与相应Znode中的状态未同步,需要达到某种稳定状态。条纹背景为稳定状态,白色背景为中间状态,直线指示Worker自行状态流动,虚线指示外部命令状态流动:
1.STAT_VOID(waiting):稳定状态,表示Worker中无Task,且相应Znode中的状态信息也为STAT_VOID;
2.STAT_VOID(running):中间状态,表示Worker中有Task,且相应Znode中的状态信息为STAT_VOID;
3.STAT_STANDBY(waiting):中间状态,表示Worker中无Task,且相应Znode中的状态信息为STAT_STANDBY;
4.STAT_STANDBY(running):中间状态,表示Worker中有Task,且相应Znode中的状态信息为STAT_STANDBY;
5.STAT_LIVE_ING(waiting):中间状态,表示Worker中无Task,且相应Znode中的状态信息为STAT_LIVE_ING;
6.STAT_LIVE_ING(running):稳定状态,表示Worker中有Task,且相应Znode中的状态信息为STAT_LIVE_ING;
状态之间的转换称为动作,图中实线为Worker自行状态流动动作,虚线为外部命令状态流动动作,具体为:
1.当Worker处于STAT_VOID(waiting)状态时,如无其他命令动作,则循环保持KEEP_STATUS动作,表示持续该稳定状态;
2.当Worker处于STAT_VOID(waiting)状态时,如有submit_job命令动作,则状态转移到STAT_STANDBY(waiting),表示Znode上有新任务需要执行,但Worker并未开始执行;
3.当Worker处于STAT_STANDBY(waiting)状态时,执行NEW_TASK动作,本地运行handle_local_tasks方法,则状态转移到STAT_LIVE_ING(running),表示Znode上的新任务Worker开始执行;
4.当Worker处于STAT_LIVE_ING(running)状态时,如无其他动作,则循环保持KEEP_STATUS动作,表示持续该稳定状态;
5.当Worker处于STAT_LIVE_ING(running)状态时,执行外部命令re-submit-job,则状态保持,表示重新提交job信息;
6.当Worker处于STAT_LIVE_ING(running)状态时,执行CODE_CHANGDE动作,本地执行restart_local_tasks方法,则状态保持,表示检测到程序改变,执行新程序;
7.当Worker处于STAT_LIVE_ING(running)状态时,执行外部命令migrate topology,则状态转移到STAT_STANDBY(running),表示正在进行任务迁移;
8.当Worker处于STAT_STANDBY(running)状态时,执行TASK_CHANGED动作,本地执行change_local_tasks方法,则状态转移到STAT_LIVE_ING(running),表示任务迁移完成;
9.当Worker处于STAT_LIVE_ING(running)状态时,执行外部命令killjob,则状态转移到STAT_VOID(running),表示相应Znode上任务结束,但Worker上还没有结束任务;
10.当Worker处于STAT_VOID(running)状态时,执行TASK_GONE动作,本地执行exit_local_tasks方法,则状态转移到STAT_VOID(waiting),表示Worker上的任务已经结束。
如上,通过Worker的多种状态及相互之间的转换动作,即可完成Worker的相关工作,如启动任务、重启任务、迁移任务、结束任务等。
如图8所示,为程序级和节点级故障检测与容错机制示意图。
1.程序级故障检测与容错实现。
Worker为工作进程,通过Worker状态检测及转移实现故障检测与容错,具体方法如下:
每个Worker每隔心跳时间便检查Zookeeper中相应Znode信息中的Worker状态,路径为/root/nodes/nodeX/status,无变更则执行KEEP_STATUS动作,保持原状态;
一旦接收到submit job命令,则状态由STAT_VOID(waiting)转移到STAT_STANDBY(waiting);
继续执行NEW_TASK动作,本地运行handle_local_tasks方法,将状态转移到STAT_LIVE_ING(running),此时进入稳定状态;
Worker在稳定状态中通过心跳,监控是否有新的动作或命令。如,遇到业务程序Task崩溃,则自动执行NEW_TASK动作,本地执行handle_local_tasks方法重启业务程序;或遇到需要迁移业务的情况,执行migrate job命令,将状态转移到STAT_STANDBY(running);
Supervisor为Worker的守护进程,Supervisor每隔心跳时间便检查其Worker的状态,通过linux ps命令监控Worker进程号,一旦发现Worker意外崩溃,便重启该Worker进程,恢复其原有工作状态。
Master程序采用Zookeeper互斥锁实现多机热备功能,同时启动多个Master程序,只有一个能获得互斥锁,当此Master程序意外出错后,自动释放锁及对集群的状态监控,由竞争到锁的热备Master接管任务。
Zookeeper锁实现方式如下:想获得锁的Master在Znode路径/root/tags/master_lock下创建临时节点,节点名为前缀+编号。竞争锁的时候,检查是否有编号小于自己的锁存在,若存在则对编号刚好小于自己的锁节点进行监听,直到监听的锁被撤销,便可获得锁;撤销锁只需删除临时节点即可。
2.节点级故障检测与容错
Master每隔心跳时间便到Zookeeper中检查各个节点上传的心跳信息(即/root/nodes/nodeX/heartbeat)是否超时,如果存在超时现象,则进一步判断是网络故障还是该节点故障,如果同一时段超时节点个数大于某阈值,则认为整个通信系统瘫痪,节点中的任务不做迁移;如果同一时段超时节点数小于阈值,则将故障节点中的所有Worker中的Task迁移到其他空闲节点中继续运行。
1)上述执行过程的运行结果如下:
1.使用Client客户端配置Job信息,使得五台Supervisor工作节点中每个Worker进程中运行一个Task线程,Task线程中的程序为简单的控制台循环输出“hello world!”;
2.使用linux kill命令结束业务Task线程,控制台不再输出;经过心跳时间后,Worker自动重启Task线程,控制台重新输出“hello world!”;
3.使用linux kill命令结束Worker进程,则Task进程同时结束,控制台不再输出;经过心跳时间后,Supervisor守护进程自动重启Worker进程,Worker启动后自动重启Task线程,控制台重新输出“hello world!”;
4.关闭某节点或使用linux kill命令结束Supervisor进程模仿某节点故障,心跳超时后,认为该节点故障,开始迁移,将故障节点中的Worker中的Task迁移到其他空闲节点中继续运行,通过Worker选举算法给故障Worker找到一个空闲Worker,并将上游Task的目的地址改为新的空闲Worker,将需迁移的Task的地址改为新Worker地址,迁移完成,业务在新节点中继续运行,观察新节点中输出“hello world”;
5.关闭Master所在节点,释放Zookeeper锁,则热备节点获得锁,接管Master工作。
6.关闭Zookeeper某节点,Zookeeper存储系统继续无缝运行。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向实时云平台的故障检测与容错方法,其特征在于,包括如下步骤:
步骤1:客户端向全局状态存储模块发送待处理的任务,并将分配给各个工作节点的任务存储到全局状态存储模块的相应路径下;
步骤2:所述各工作节点每隔心跳时间到全局状态存储模块相应路径下,检测是否有待执行的任务,一旦发现新任务,便启动工作进程运行相应任务;
步骤3:所述每个工作节点内运行一个守护进程来守护在执行任务的工作进程,并执行程序级故障检测与容错;
步骤4:全局状态监控模块每隔心跳时间到全局状态存储模块中检查每个工作节点上传的心跳信息,并根据心跳信息进行节点级故障检测与容错。
2.根据权利要求1所述一种面向实时云平台的故障检测与容错方法,其特征在于,所述全局状态监控模块和各个工作节点本地不保存状态信息,所有状态信息都保存全局状态存储模块中;所述全局状态监控模块与各工作节点间的通信,各工作节点间的通信,以及各工作节点的本地动作都是依靠全局状态存储模块中的全局状态来进行的。
3.根据权利要求1所述一种面向实时云平台的故障检测与容错方法,其特征在于,步骤3中所述执行程序级故障检测与容错的具体实现为:
步骤3.1:守护进程每隔心跳时间检查在执行任务的工作进程的运行状态;
步骤3.2:检查是否有意外崩溃的工作进程,如果有则立即重新启动该工作进程,恢复其工作状态。
4.根据权利要求1所述一种面向实时云平台的故障检测与容错方法,其特征在于,步骤4中所述执行节点级故障检测与容错的具体实现为:
步骤4.1:当检测到某节点上传心跳信息超时,进一步检测是网络故障还是该节点故障,
步骤4.2:判断同一时段内上传心跳信息超时的节点个数是否大于预设阈值,如果大于则认为是网络故障,节点内任务不迁移;如果小于则是该节点单独故障,将该节点内的任务迁移到其他空闲节点中运行。
5.根据权利要求4所述一种面向实时云平台的故障检测与容错方法,其特征在于,步骤4.2中将故障节点中任务迁移到其他空闲节点继续运行的具体步骤为:
步骤4.2.1:通过节点选举算法给故障节点选一个空闲节点,如果找到空闲节点,执行步骤4.2.2;否则执行步骤4.2.5;
步骤4.2.2:更新上游相关节点和该故障节点存储于全局状态存储模块中的目的地址表,将目的地址更新为所选的空闲节点;
步骤4.2.3:将更新的目的地址表发送给上游相关节点,上游相关节点根据新目的地址向所选空闲节点发送数据;
步骤4.2.4:所选空闲节点向全局状态存储模块发送心跳信息时发现有需要执行的任务,所述空闲节点接收上游相关节点发送的数据,并启动工作进程执行该任务,结束;
步骤4.2.5:更新上游相关节点存储于全局状态存储模块中的目的地址表,将目的地址置为空;
步骤4.2.6:将更新的目的地址表发送给上游相关节点,上游相关节点检测到新目的地址为空,则停止向下游发送数据。
6.根据权利要求1所述一种面向实时云平台的故障检测与容错方法,其特征在于,所述全局状态监控模块包括若干个主节点,并采用Zookeeper互斥锁实现多机热备,当正在工作的主节点出错后,自动释放互斥锁及对整个集群各个工作节点工作状态的监控,由竞争到互斥锁的主节点接管任务。
7.一种面向实时云平台的故障检测与容错系统,其特征在于,包括客户端、全局状态监控模块、全局状态存储模块和若干个工作节点;
所述客户端,其用于向全局状态存储模块发送命令,提交任务,为各工作节点分配任务,并将分配给各个工作节点的任务存储到全局状态存储模块的相应路径下;
所述全局状态监控模块,用于监控各工作节点的运行状态,根据工作节点上传的心跳信息进行节点级故障检测与容错;
所述全局状态存储模块,其用于将客户端分配给工作节点的任务存储在相应路径下,还用于存储全局状态监控模块和各个工作节点的工作状态及心跳信息;
所述工作节点,其用于每隔心跳时间到全局状态存储模块相应路径下,检测是否有待执行的任务,一旦发现新任务,便启动其内的工作进程运行相应任务;且每个工作节点内运行一个守护进程来守护在执行任务的工作进程,并执行程序级故障检测与容错。
8.根据权利要求7所述一种面向实时云平台的故障检测与容错系统,其特征在于,所述全局状态监控模块包括若干个主节点,并采用Zookeeper互斥锁实现多机热备,当正在工作的主节点出错后,自动释放互斥锁及对整个集群各个工作节点工作状态的监控,由竞争到互斥锁的主节点接管任务。
9.根据权利要求7所述一种面向实时云平台的故障检测与容错系统,其特征在于,所述全局状态存储模块包括若干个Zookeeper节点,每个Zookeeper节点上运行一个守护进程,当守护进程检测到Zookeeper节点上的Zookeeper进程错误退出后,立即重新启动。
10.根据权利要求7所述一种面向实时云平台的故障检测与容错系统,其特征在于,所述每个工作节点中还运行的守护进程为supervisor,其每隔心跳时间检查工作进程的运行状态,一旦发现工作进程意外崩溃,便重启该工作进程,恢复其原有工作状态。
CN201310681028.1A 2013-12-12 2013-12-12 一种面向实时云平台的故障检测与容错方法及系统 Active CN103716182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310681028.1A CN103716182B (zh) 2013-12-12 2013-12-12 一种面向实时云平台的故障检测与容错方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310681028.1A CN103716182B (zh) 2013-12-12 2013-12-12 一种面向实时云平台的故障检测与容错方法及系统

Publications (2)

Publication Number Publication Date
CN103716182A true CN103716182A (zh) 2014-04-09
CN103716182B CN103716182B (zh) 2016-08-31

Family

ID=50408788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310681028.1A Active CN103716182B (zh) 2013-12-12 2013-12-12 一种面向实时云平台的故障检测与容错方法及系统

Country Status (1)

Country Link
CN (1) CN103716182B (zh)

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038366A (zh) * 2014-05-05 2014-09-10 深圳市中博科创信息技术有限公司 集群节点失效检测方法和系统
CN104391777A (zh) * 2014-11-12 2015-03-04 中标软件有限公司 基于Linux操作系统的云平台及其运行监控方法和装置
CN104486108A (zh) * 2014-12-08 2015-04-01 畅捷通信息技术股份有限公司 基于Zookeeper的节点配置方法和基于Zookeeper的节点配置系统
CN104794031A (zh) * 2015-04-16 2015-07-22 上海交通大学 结合自调整策略和虚拟化技术的云系统故障检测方法
CN105005509A (zh) * 2015-07-07 2015-10-28 北京大学 一种基于运行时模型的云计算容错机制配置方法
CN105049549A (zh) * 2015-08-07 2015-11-11 北京思特奇信息技术股份有限公司 一种实现浮动ip地址自动漂移的方法和系统
CN105187482A (zh) * 2015-07-20 2015-12-23 深圳供电局有限公司 一种PaaS平台故障自愈实现的方法及消息服务器
CN105553760A (zh) * 2015-12-11 2016-05-04 中国科学院信息工程研究所 一种基于心跳的软件模块故障处理方法及系统
CN105677538A (zh) * 2016-01-11 2016-06-15 中国科学院软件研究所 一种基于故障预测的云计算系统自适应监测方法
CN105703940A (zh) * 2015-12-10 2016-06-22 中国电力科学研究院 一种面向多级调度分布式并行计算的监控系统及监控方法
CN105824618A (zh) * 2016-03-10 2016-08-03 浪潮软件集团有限公司 一种关于Storm使用的实时消息处理方法
CN106155802A (zh) * 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 任务调度方法、装置及控制节点
WO2017032212A1 (zh) * 2015-08-27 2017-03-02 华为技术有限公司 一种数据流处理方法和装置
CN106708678A (zh) * 2016-12-13 2017-05-24 郑州云海信息技术有限公司 一种模拟应用程序智能诊断系统及诊断检测方法
CN106789350A (zh) * 2017-01-23 2017-05-31 郑州云海信息技术有限公司 一种支持服务器虚拟化系统主节点高可用的方法及装置
CN106850260A (zh) * 2016-12-23 2017-06-13 曙光云计算技术有限公司 一种虚拟化资源管理平台的部署方法和装置
CN106874142A (zh) * 2015-12-11 2017-06-20 华为技术有限公司 一种实时数据容错处理方法及系统
CN107070753A (zh) * 2017-06-15 2017-08-18 郑州云海信息技术有限公司 一种分布式集群系统的数据监控方法、装置及系统
CN107395379A (zh) * 2016-05-16 2017-11-24 北京京东尚科信息技术有限公司 一种集群巡检系统及方法
CN107480005A (zh) * 2017-07-31 2017-12-15 惠州华阳通用电子有限公司 一种Linux系统进程守护方法
CN107545178A (zh) * 2016-06-23 2018-01-05 华为技术有限公司 一种云应用的检测方法及云应用检测装置
CN107612787A (zh) * 2017-11-06 2018-01-19 南京易捷思达软件科技有限公司 一种基于Openstack开源云平台的云主机故障检测方法
CN108134702A (zh) * 2017-12-26 2018-06-08 北京科来数据分析有限公司 一种数据采集器故障解决方法
CN108809768A (zh) * 2018-06-30 2018-11-13 甘肃万维信息技术有限责任公司 一种共享交换平台的故障监控和恢复系统
CN108819884A (zh) * 2018-05-30 2018-11-16 江铃汽车股份有限公司 一种车联网终端电源控制方法
CN109191636A (zh) * 2018-08-23 2019-01-11 广东汇泰龙科技有限公司 一种云锁的错误自检方法
CN109246167A (zh) * 2017-07-11 2019-01-18 阿里巴巴集团控股有限公司 一种容器调度方法及装置
CN109257396A (zh) * 2017-07-12 2019-01-22 阿里巴巴集团控股有限公司 一种分布式锁调度方法及装置
CN109669820A (zh) * 2018-12-24 2019-04-23 广州君海网络科技有限公司 基于Kettle的任务监管方法和装置
CN109885414A (zh) * 2019-02-21 2019-06-14 北京宝兰德软件股份有限公司 基于ZooKeeper的分布式事件通知方法及装置
CN109992436A (zh) * 2017-12-29 2019-07-09 华为技术有限公司 线程阻塞检测方法及设备
CN110213213A (zh) * 2018-05-30 2019-09-06 腾讯科技(深圳)有限公司 应用的定时任务处理方法及系统
CN110233791A (zh) * 2019-06-06 2019-09-13 北京百度网讯科技有限公司 数据去重方法和装置
CN110262882A (zh) * 2019-06-17 2019-09-20 北京思特奇信息技术股份有限公司 一种分布式的通讯命令调度系统及方法
CN110362362A (zh) * 2019-07-24 2019-10-22 北京明略软件系统有限公司 任务调度方法及装置、存储介质、电子装置
CN110474787A (zh) * 2018-05-11 2019-11-19 华为技术有限公司 一种节点故障检测方法和装置
CN110618996A (zh) * 2019-08-07 2019-12-27 北京东方国信科技股份有限公司 一种应用于分布式数据库的函数库热更新方法
CN110691120A (zh) * 2019-09-10 2020-01-14 威富通科技有限公司 一种定时任务状态检测方法、服务器及检测系统
CN110798339A (zh) * 2019-10-09 2020-02-14 国电南瑞科技股份有限公司 一种基于分布式任务调度框架的任务容灾方法
CN110807133A (zh) * 2019-11-05 2020-02-18 山东交通学院 一种智能船舶中传感监测数据处理方法及装置
CN111143318A (zh) * 2019-12-24 2020-05-12 北京奇艺世纪科技有限公司 一种信息处理方法、装置、电子设备及存储介质
CN111193759A (zh) * 2018-11-15 2020-05-22 中国电信股份有限公司 分布式计算系统、方法和设备
CN111343260A (zh) * 2020-02-19 2020-06-26 北京航空航天大学 一种用于多云部署的流处理系统容错方法
CN111400138A (zh) * 2020-03-17 2020-07-10 中国建设银行股份有限公司 基于双层守护机制的客户端监控方法、装置及系统
CN111459642A (zh) * 2020-04-08 2020-07-28 广州欢聊网络科技有限公司 一种分布式系统中故障处理和任务处理方法及装置
CN111930563A (zh) * 2020-07-15 2020-11-13 中国人民解放军陆军工程大学 云仿真系统中的容错方法
CN112367386A (zh) * 2020-10-30 2021-02-12 中国平安人寿保险股份有限公司 基于Ignite的自动化运维方法、装置及计算机设备
CN112506710A (zh) * 2020-12-16 2021-03-16 深信服科技股份有限公司 分布式文件系统数据修复方法、装置、设备及存储介质
CN112653574A (zh) * 2020-12-11 2021-04-13 邦彦技术股份有限公司 基于ims集群应用的业务容灾方法和系统
CN112702209A (zh) * 2020-12-28 2021-04-23 紫光云技术有限公司 一种实现mysql高可用架构哨兵监控的方法
CN114326727A (zh) * 2021-12-24 2022-04-12 广州小鹏自动驾驶科技有限公司 一种驾驶方法和系统
CN114553878A (zh) * 2022-02-23 2022-05-27 南京南瑞信息通信科技有限公司 一种基于lvs的工控系统主备运行电力监控系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153703A1 (en) * 2002-04-23 2004-08-05 Secure Resolutions, Inc. Fault tolerant distributed computing applications
CN102402395A (zh) * 2010-09-16 2012-04-04 上海中标软件有限公司 基于仲裁磁盘的高可用系统不间断运行方法
CN102413019A (zh) * 2011-12-21 2012-04-11 广东宏海讯科科技发展有限公司 一种基于云计算的网络实时监控系统方法
CN102779258A (zh) * 2012-07-06 2012-11-14 苏州阔地网络科技有限公司 一种软件有效期控制方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153703A1 (en) * 2002-04-23 2004-08-05 Secure Resolutions, Inc. Fault tolerant distributed computing applications
CN102402395A (zh) * 2010-09-16 2012-04-04 上海中标软件有限公司 基于仲裁磁盘的高可用系统不间断运行方法
CN102413019A (zh) * 2011-12-21 2012-04-11 广东宏海讯科科技发展有限公司 一种基于云计算的网络实时监控系统方法
CN102779258A (zh) * 2012-07-06 2012-11-14 苏州阔地网络科技有限公司 一种软件有效期控制方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄大川: "数据中心Hadoop部署与追踪系统研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038366A (zh) * 2014-05-05 2014-09-10 深圳市中博科创信息技术有限公司 集群节点失效检测方法和系统
CN104391777A (zh) * 2014-11-12 2015-03-04 中标软件有限公司 基于Linux操作系统的云平台及其运行监控方法和装置
CN104486108A (zh) * 2014-12-08 2015-04-01 畅捷通信息技术股份有限公司 基于Zookeeper的节点配置方法和基于Zookeeper的节点配置系统
CN106155802A (zh) * 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 任务调度方法、装置及控制节点
CN106155802B (zh) * 2015-03-30 2020-03-13 阿里巴巴集团控股有限公司 任务调度方法、装置及控制节点
CN104794031A (zh) * 2015-04-16 2015-07-22 上海交通大学 结合自调整策略和虚拟化技术的云系统故障检测方法
CN105005509A (zh) * 2015-07-07 2015-10-28 北京大学 一种基于运行时模型的云计算容错机制配置方法
CN105005509B (zh) * 2015-07-07 2018-08-14 北京大学 一种基于运行时模型的云计算容错机制配置方法
CN105187482A (zh) * 2015-07-20 2015-12-23 深圳供电局有限公司 一种PaaS平台故障自愈实现的方法及消息服务器
CN105187482B (zh) * 2015-07-20 2018-09-28 深圳供电局有限公司 一种PaaS平台故障自愈实现的方法及消息服务器
CN105049549B (zh) * 2015-08-07 2018-12-28 北京思特奇信息技术股份有限公司 一种实现浮动ip地址自动漂移的方法和系统
CN105049549A (zh) * 2015-08-07 2015-11-11 北京思特奇信息技术股份有限公司 一种实现浮动ip地址自动漂移的方法和系统
WO2017032212A1 (zh) * 2015-08-27 2017-03-02 华为技术有限公司 一种数据流处理方法和装置
CN106487694A (zh) * 2015-08-27 2017-03-08 华为技术有限公司 一种数据流处理方法和装置
CN106487694B (zh) * 2015-08-27 2020-03-27 华为技术有限公司 一种数据流处理方法和装置
CN105703940A (zh) * 2015-12-10 2016-06-22 中国电力科学研究院 一种面向多级调度分布式并行计算的监控系统及监控方法
CN105703940B (zh) * 2015-12-10 2021-08-20 中国电力科学研究院有限公司 一种面向多级调度分布式并行计算的监控系统及监控方法
CN106874142B (zh) * 2015-12-11 2020-08-07 华为技术有限公司 一种实时数据容错处理方法及系统
CN106874142A (zh) * 2015-12-11 2017-06-20 华为技术有限公司 一种实时数据容错处理方法及系统
CN105553760B (zh) * 2015-12-11 2019-03-22 中国科学院信息工程研究所 一种基于心跳的软件模块故障处理方法及系统
CN105553760A (zh) * 2015-12-11 2016-05-04 中国科学院信息工程研究所 一种基于心跳的软件模块故障处理方法及系统
CN105677538A (zh) * 2016-01-11 2016-06-15 中国科学院软件研究所 一种基于故障预测的云计算系统自适应监测方法
CN105677538B (zh) * 2016-01-11 2018-01-26 中国科学院软件研究所 一种基于故障预测的云计算系统自适应监测方法
CN105824618A (zh) * 2016-03-10 2016-08-03 浪潮软件集团有限公司 一种关于Storm使用的实时消息处理方法
CN107395379A (zh) * 2016-05-16 2017-11-24 北京京东尚科信息技术有限公司 一种集群巡检系统及方法
US11176244B2 (en) 2016-06-23 2021-11-16 Huawei Technologies Co., Ltd. Cloud application detection method and cloud application detection apparatus
CN107545178A (zh) * 2016-06-23 2018-01-05 华为技术有限公司 一种云应用的检测方法及云应用检测装置
CN107545178B (zh) * 2016-06-23 2021-01-15 华为技术有限公司 一种云应用的检测方法及云应用检测装置
CN106708678B (zh) * 2016-12-13 2019-12-17 苏州浪潮智能科技有限公司 一种模拟应用程序智能诊断系统及诊断检测方法
CN106708678A (zh) * 2016-12-13 2017-05-24 郑州云海信息技术有限公司 一种模拟应用程序智能诊断系统及诊断检测方法
CN106850260A (zh) * 2016-12-23 2017-06-13 曙光云计算技术有限公司 一种虚拟化资源管理平台的部署方法和装置
CN106789350A (zh) * 2017-01-23 2017-05-31 郑州云海信息技术有限公司 一种支持服务器虚拟化系统主节点高可用的方法及装置
CN107070753A (zh) * 2017-06-15 2017-08-18 郑州云海信息技术有限公司 一种分布式集群系统的数据监控方法、装置及系统
CN109246167A (zh) * 2017-07-11 2019-01-18 阿里巴巴集团控股有限公司 一种容器调度方法及装置
CN109257396A (zh) * 2017-07-12 2019-01-22 阿里巴巴集团控股有限公司 一种分布式锁调度方法及装置
CN109257396B (zh) * 2017-07-12 2021-07-09 阿里巴巴集团控股有限公司 一种分布式锁调度方法及装置
CN107480005A (zh) * 2017-07-31 2017-12-15 惠州华阳通用电子有限公司 一种Linux系统进程守护方法
CN107612787B (zh) * 2017-11-06 2021-01-12 南京易捷思达软件科技有限公司 一种基于Openstack开源云平台的云主机故障检测方法
CN107612787A (zh) * 2017-11-06 2018-01-19 南京易捷思达软件科技有限公司 一种基于Openstack开源云平台的云主机故障检测方法
CN108134702A (zh) * 2017-12-26 2018-06-08 北京科来数据分析有限公司 一种数据采集器故障解决方法
CN108134702B (zh) * 2017-12-26 2021-01-01 北京科来数据分析有限公司 一种数据采集器故障解决方法
CN109992436A (zh) * 2017-12-29 2019-07-09 华为技术有限公司 线程阻塞检测方法及设备
CN110474787A (zh) * 2018-05-11 2019-11-19 华为技术有限公司 一种节点故障检测方法和装置
CN110213213A (zh) * 2018-05-30 2019-09-06 腾讯科技(深圳)有限公司 应用的定时任务处理方法及系统
CN108819884A (zh) * 2018-05-30 2018-11-16 江铃汽车股份有限公司 一种车联网终端电源控制方法
CN110213213B (zh) * 2018-05-30 2021-08-03 腾讯科技(深圳)有限公司 应用的定时任务处理方法及系统
CN108809768A (zh) * 2018-06-30 2018-11-13 甘肃万维信息技术有限责任公司 一种共享交换平台的故障监控和恢复系统
CN109191636A (zh) * 2018-08-23 2019-01-11 广东汇泰龙科技有限公司 一种云锁的错误自检方法
CN111193759A (zh) * 2018-11-15 2020-05-22 中国电信股份有限公司 分布式计算系统、方法和设备
CN111193759B (zh) * 2018-11-15 2023-08-01 中国电信股份有限公司 分布式计算系统、方法和设备
CN109669820A (zh) * 2018-12-24 2019-04-23 广州君海网络科技有限公司 基于Kettle的任务监管方法和装置
CN109885414A (zh) * 2019-02-21 2019-06-14 北京宝兰德软件股份有限公司 基于ZooKeeper的分布式事件通知方法及装置
CN110233791A (zh) * 2019-06-06 2019-09-13 北京百度网讯科技有限公司 数据去重方法和装置
CN110262882A (zh) * 2019-06-17 2019-09-20 北京思特奇信息技术股份有限公司 一种分布式的通讯命令调度系统及方法
CN110362362A (zh) * 2019-07-24 2019-10-22 北京明略软件系统有限公司 任务调度方法及装置、存储介质、电子装置
CN110618996A (zh) * 2019-08-07 2019-12-27 北京东方国信科技股份有限公司 一种应用于分布式数据库的函数库热更新方法
CN110618996B (zh) * 2019-08-07 2023-08-22 北京东方国信科技股份有限公司 一种应用于分布式数据库的函数库热更新方法
CN110691120A (zh) * 2019-09-10 2020-01-14 威富通科技有限公司 一种定时任务状态检测方法、服务器及检测系统
CN110798339A (zh) * 2019-10-09 2020-02-14 国电南瑞科技股份有限公司 一种基于分布式任务调度框架的任务容灾方法
CN110807133A (zh) * 2019-11-05 2020-02-18 山东交通学院 一种智能船舶中传感监测数据处理方法及装置
CN111143318A (zh) * 2019-12-24 2020-05-12 北京奇艺世纪科技有限公司 一种信息处理方法、装置、电子设备及存储介质
CN111143318B (zh) * 2019-12-24 2023-10-27 北京奇艺世纪科技有限公司 一种信息处理方法、装置、电子设备及存储介质
CN111343260A (zh) * 2020-02-19 2020-06-26 北京航空航天大学 一种用于多云部署的流处理系统容错方法
CN111400138A (zh) * 2020-03-17 2020-07-10 中国建设银行股份有限公司 基于双层守护机制的客户端监控方法、装置及系统
CN111459642A (zh) * 2020-04-08 2020-07-28 广州欢聊网络科技有限公司 一种分布式系统中故障处理和任务处理方法及装置
CN111459642B (zh) * 2020-04-08 2023-04-28 广州欢聊网络科技有限公司 一种分布式系统中故障处理和任务处理方法及装置
CN111930563A (zh) * 2020-07-15 2020-11-13 中国人民解放军陆军工程大学 云仿真系统中的容错方法
CN112367386A (zh) * 2020-10-30 2021-02-12 中国平安人寿保险股份有限公司 基于Ignite的自动化运维方法、装置及计算机设备
CN112367386B (zh) * 2020-10-30 2023-05-30 中国平安人寿保险股份有限公司 基于Ignite的自动化运维方法、装置及计算机设备
CN112653574A (zh) * 2020-12-11 2021-04-13 邦彦技术股份有限公司 基于ims集群应用的业务容灾方法和系统
CN112653574B (zh) * 2020-12-11 2023-07-04 邦彦技术股份有限公司 基于ims集群应用的业务容灾方法和系统
CN112506710B (zh) * 2020-12-16 2024-02-23 深信服科技股份有限公司 分布式文件系统数据修复方法、装置、设备及存储介质
CN112506710A (zh) * 2020-12-16 2021-03-16 深信服科技股份有限公司 分布式文件系统数据修复方法、装置、设备及存储介质
CN112702209A (zh) * 2020-12-28 2021-04-23 紫光云技术有限公司 一种实现mysql高可用架构哨兵监控的方法
CN114326727A (zh) * 2021-12-24 2022-04-12 广州小鹏自动驾驶科技有限公司 一种驾驶方法和系统
CN114553878A (zh) * 2022-02-23 2022-05-27 南京南瑞信息通信科技有限公司 一种基于lvs的工控系统主备运行电力监控系统
CN114553878B (zh) * 2022-02-23 2024-04-02 南京南瑞信息通信科技有限公司 一种基于lvs的工控系统主备运行电力监控系统

Also Published As

Publication number Publication date
CN103716182B (zh) 2016-08-31

Similar Documents

Publication Publication Date Title
CN103716182A (zh) 一种面向实时云平台的故障检测与容错方法及系统
EP3014446B1 (en) Asynchronous message passing for large graph clustering
US10983880B2 (en) Role designation in a high availability node
Xu et al. Survivable virtual infrastructure mapping in virtualized data centers
US20180091586A1 (en) Self-healing a message brokering cluster
CN108270726B (zh) 应用实例部署方法及装置
CN103457775B (zh) 一种基于角色的高可用虚拟机池化管理系统
CN110795503A (zh) 分布式存储系统的多集群数据同步方法及相关装置
CN105554106A (zh) 一种memcache分布式缓存系统
US20110173616A1 (en) Determination and management of virtual networks
JP4491482B2 (ja) 障害回復方法、計算機、クラスタシステム、管理計算機及び障害回復プログラム
CN105871603A (zh) 一种基于内存数据网格的实时流式数据处理失效恢复系统及方法
CN111460039A (zh) 关系型数据库处理系统、客户端、服务器及方法
US10892940B2 (en) Scalable statistics and analytics mechanisms in cloud networking
Mitrović et al. Improving fault-tolerance of distributed multi-agent systems with mobile network-management agents
Riabko et al. Cluster fault tolerance model with migration of virtual machines.
CN109725916A (zh) 流处理的拓扑结构更新系统和方法
US10645163B2 (en) Site-aware cluster management
Ooi et al. Dynamic service placement and redundancy to ensure service availability during resource failures
Kumari et al. Topology-aware virtual machine replication for fault tolerance in cloud computing systems
CN105007293A (zh) 双主控网络系统及该系统中业务请求的双写方法
CN105282230A (zh) 一种强实时计算机集群动态调度系统
RU2675050C1 (ru) Способ и устройство выбора адреса управления доступом к среде mac
Patil et al. Fault Tolerance in Cluster Computing System
CN115150466B (zh) 一种数据分发的实现方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant