CN102231681B - 一种高可用集群计算机系统及其故障处理方法 - Google Patents

一种高可用集群计算机系统及其故障处理方法 Download PDF

Info

Publication number
CN102231681B
CN102231681B CN201110180749.5A CN201110180749A CN102231681B CN 102231681 B CN102231681 B CN 102231681B CN 201110180749 A CN201110180749 A CN 201110180749A CN 102231681 B CN102231681 B CN 102231681B
Authority
CN
China
Prior art keywords
service node
node
subsequent use
heartbeat detection
application server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110180749.5A
Other languages
English (en)
Other versions
CN102231681A (zh
Inventor
卜天奇
周子坚
胡宏
杜永健
杨志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN201110180749.5A priority Critical patent/CN102231681B/zh
Publication of CN102231681A publication Critical patent/CN102231681A/zh
Application granted granted Critical
Publication of CN102231681B publication Critical patent/CN102231681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种高可用集群计算机系统,所述系统包括管理节点和服务节点,其中管理节点包括服务器端和代理端,服务节点包括综合前端应用服务器,所述服务器端根据安装在所述应用服务器的代理端收集的状态信息进行故障监控,并根据监控得到的服务节点的状态信息控制主服务节点和备用服务节点进行切换。相应地,本发明还提供了应用所述高可用集群计算机系统进行故障处理的方法。本发明的集群系统的冗余度仅取决于备用服务节点的数目,而且应用系统与故障监控及切换处理相关模块为松耦合,对系统的性能影响较小,并且系统部署方便,成本较低。

Description

一种高可用集群计算机系统及其故障处理方法
技术领域
本发明涉及银行数据处理领域,尤其涉及一种高可用集群计算机系统及应用所述系统进行故障处理的方法。
背景技术
在全球经济和金融一体化进程中,面对国内外金融机构的挑战,商业银行正逐步向综合化、全能化的金融服务方向发展。银行业面临的最突出问题之一就是综合业务系统的统一,特别是综合前端系统平台的管理与维护。业界通常采用平均无故障时间(MTTF)和平均维修时间(MTTR)来评估上述综合前端系统可用性,具体为MTTF/(MTTF+MTTR)*100%,高可用性是银行服务追求的目标之一。高可用可采用主从工作方式、双机双工工作方式和集群工作方式来实现。
目前计算机业界实现高可用集群的方法主要有资源共享模式、资源转移模式和资源非共享模式,但是仅资源转移模式和资源非共享模式的集群部署方案适合综合前端应用。由于资源转移集群部署方案中的节点冗余只能做到服务器一级,粒度太粗,而非共享集群部署方案虽然可以做到粒度较细,但是该方案对数据一致性要求较高,而数据一致性通常依赖共享数据库和共享存储实现,同时由于服务请求转发器与系统的耦合度非常高,一旦发生问题,就会影响业务的连续性,从而使得基于资源非共享模式的集群部署方案的冗余度取决于共享数据库、共享存储和服务请求转发器的冗余度。一般而言,这些节点基本采用双机冗余,如果要提高整体冗余度,就必须为共享数据库、共享存储和服务请求转发器分别设计集群方案,不但增加技术复杂度,而且明显影响应用系统的总体性能。
发明内容
本发明提供了一种高可用集群计算机系统以及应用所述集群计算机系统进行故障处理的方法,本发明的集群计算机系统的冗余程度取决于备机数量,而不是取决于数据库、共享设备以及转发服务器等节点的冗余度,而且该集群系统中故障监控及切换处理模块和应用系统为松耦合,因而无需考虑冗余度对性能的影响,部署方便,成本较低。
根据本发明的第一方面,提供了一种高可用集群计算机系统,所述系统包括管理节点和服务节点,其中服务节点包括综合前端应用服务器,管理节点包括服务器端和代理端,其中,
所述服务器端,用于根据安装在所述应用服务器的代理端收集的状态信息进行故障监控,并根据监控得到的服务节点的状态信息控制主服务节点和备用服务节点进行切换。
根据本发明的第二方面,提供了一种应用所述高可用集群计算机系统进行故障处理的方法,所述方法包括以下步骤:
所述服务器根据安装在所述应用服务器的代理端收集的状态信息进行故障监控;
根据监控得到的服务节点的状态信息控制主服务节点和备用服务节点进行切换。
本发明的高可用集群计算机系统以及应用所述高可用集群计算机系统进行故障处理的方法,通过管理节点的服务器端进行故障监控处理和控制主备服务节点的切换,利用安装于应用服务器的代理端采集服务节点的状态信息并执行所述服务器端发出的指令,应用资源与数据资源独立部署在各服务节点,使得集群系统的冗余度取决于备机的数量,而且故障监控及切换处理相关模块与应用系统松耦合,所述处理模块出现问题后也并不影响系统业务处理的性能。
附图说明
图1为根据本发明实施例的高可用集群计算机系统的结构框架。
图2为根据本发明实施例的高可用集群计算机系统的服务器端的第一结构。
图3为根据本发明实施例的高可用集群计算机系统的服务器端的第二结构。
图4为根据本发明实施例的应用高可用计算机系统进行故障处理的方法流程示意图。
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面进一步结合附图对本发明进行详细描述。
参见图1,图示了根据本发明实施例的高可用集群计算机系统的结构框架,所述高可用集群计算机系统包括管理节点和服务节点,其中服务节点包括综合前端应用服务器,管理节点包括服务器端和代理端,其中,
所述服务器端,用于根据安装在所述应用服务器的代理端收集的状态信息进行故障监控,并根据监控得到的服务节点的状态信息控制主服务节点和备用服务节点进行切换。
本发明的实施例中,服务节点具体可分为主服务节点和备用服务节点,即主服务器和备用服务器,简称主机和备机。在此需要说明的是,在本发明的说明书中主服务节点、主服务器及主机表示同一事物,可交互使用,同样适用于备用服务节点、备用服务器和备机。
服务节点可包括综合前端应用服务器硬件及软件,包含综合前端软件应用和数据。本发明高可用集群计算机系统部署中应用资源和数据资源均不共享,具体地,即数据与应用均独立地部署在各服务器上。各个服务节点均可承担一部分业务,并且备用服务节点中的每个节点都可以备份全部业务,系统的冗余度完全取决于备机数量,即有几个备机节点,就有几套系统冗余。
参见图2,图示了根据本发明实施例的高可用集群计算机系统的服务器端的第一结构,所述管理节点的服务器端1包括:
故障监控模块10,用于根据所述代理端上进行的心跳检测和健康检查采集的状态信息进行故障监控,其中心跳检测用于检查所述应用服务器的基础环境是否处于正常状态,健康检查用于检查所述应用服务器应用是否处于正常状态。
在本发明的实施例中,管理节点的服务器端1根据安装在各个服务节点的代理端采集的服务节点的状态信息进行故障监控,故障监控的依据为代理端上进行的心跳检测和健康检查所采集的服务节点的状态信息,即服务节点是否处于正常工作的状态。心跳检测用于检查应用服务器的基础环境是否处于正常状态,其中应用服务器的基础环境包括服务器的硬件和操作系统。具体地,故障监控模10块包括:
检测线程创建单元101,用于创建心跳检测线程,并为所述代理端分配心跳检测线程;
检测线程处理单元102,用于利用所述心跳检测线程定时检测所述应用服务器的基础环境的状态。
本发明的实施例中,心跳检测具体的检测流程如下:通过检测线程创建单元101创建心跳检测线程,并为每个代理端分配一个心跳检测线程进行心跳检测;通过检测线程处理单元102进行如下控制操作:控制线程每间隔一定时间使用snmpset命令检测代理端的snmp服务和端口161,例如每间隔5秒钟使用snmpset命令检测代理端的snmp服务和端口,当命令返回true时,表示心跳检测正常,当命令返回false时,再使用“ping”命令对代理端网络进行一次检查,如果ping正常,则表示snmp代理服务异常,且连续出现异常的次数大于预先设定的心跳检测阈值,则表示心跳检测线程异常,需要检测心跳检测线程是否正常执行;如果ping异常,则判定应用服务器异常,且连续出现异常的次数大于预先设定的阈值,则确定心跳检测异常,表明服务节点的状态信息为应用服务器异常,显示报警信息“心跳检测异常,请切换”提示管理节点控制主服务节点和备用服务节点进行切换。上述预先设定的心跳检测阈值可以为3次,如果连续出现3次异常,则判定心跳检测线程异常。在此需要说明的是,本领域技术人员可根据具体的应用条件预先设定心跳检测阈值。
进一步地,根据本发明实施例的故障监控模块10包括:
请求发起单元103,用于在所述应用服务器上发起模拟HTTP请求的线程;
请求处理单元104,用于利用所述模拟HTTP请求的线程定时检测所述应用服务器应用的状态。
在本发明的实施例中,故障监控模块10采用健康检查来检查综合前端应用是否正常,具体的过程为:通过请求发起单元103每间隔一定时间在应用服务器上发起一个模拟超文本传输协议(Hyper Text Transport Protocol,HTTP)请求的线程,例如可以每间隔40秒;请求处理单元104进行如下控制操作:根据能否返回预期结果来检测综合前端应用是否正常,如果返回OK,则表示综合前端应用正常,如果返回除OK之外的其他值连续出现的次数超出预定的阈值或者回应的时间超出预定的期限,则判定健康检查异常,表示服务节点的状态信息为综合前端应用异常,显示报警信息“健康检查异常,请切换”提示管理节点控制主服务节点和备用服务节点进行切换。值得指出的是,本领域的技术人员可根据具体的应用条件确定返回其他值判断为异常的连续出现次数的阈值。
根据本发明实施例的故障监控主要采用心跳检测和健康检查获取的服务节点的状态信息来确定是否进行主服务节点和备用服务节点的切换。根据本发明实施例的主服务节点需要配置3个IP地址,分别为固定IP(boot IP)地址、浮动IP(service IP)地址和底层控制台IP(ilo IP)地址,备用服务节点需要配置2个IP地址,分别为固定IP和底层控制台IP。采用此种IP配置进行漂浮IP地址的主备切换模式有利于提高主备切换的可靠性,这是由于为解决服务器发生故障而有可能导致操作系统挂起无法执行命令的问题,需要调用服务器远程管理控制的底层控制台,即综合前端使用的HP服务器的ilo管理命令来确保关闭服务器的可靠性。
参见图3,图示了根据本发明实施例的高可用集群计算机系统的服务器端的第二结构,所述管理节点的服务器端除了包含图2所示的功能模块之外,还包括控制主服务节点和备用服务节点进行切换的主备切换模块20和回切模块30,具体地,
主备切换模块20,当所述主服务节点故障时,用于实现如下功能:
通过底层控制台IP关闭所述故障服务节点,通过备用服务节点的固定IP登录到备用服务节点,启动所述故障服务节点的浮动IP完成主备切换,并记录该备用服务节点所接管的故障服务节点的固定IP;
回切模块30,当所述故障服务节点恢复时,用于实现如下功能:
根据所述故障服务节点的固定IP查找所述主备切换对应的备用服务节点,在所述备用服务节点上关闭所述浮动IP,并在恢复的所述故障服务节点重启所述浮动IP以重新开始运作。
在本发明的实施例中,当所述服务节点故障,即心跳检测或健康检查异常时,管理节点根据监控得到的报警信息控制主服务节点和备用服务节点的切换。切换除了可以采用上述的主备切换模块和回切模块进行自动处理之外,还可以在心跳检测异常或健康检查异常报警信息显示之后,采用人工干预的方式进行切换处理。
根据本发明实施例的管理节点还可以包括客户端,该客户端可安装在个人电脑(personal computer,PC)机器上,用于显示所述服务器端和代理端的处理结果,并提供管理人员进行操作的操作界面。例如,在心跳检测进行的过程中,可通过管理节点的客户端显示心跳检测中服务节点的状态信息是处于正常状态还是处于故障/异常状态;在主备切换的过程中,客户端可通过显示报警信息提示管理人员进行相应的人工切换操作。
以上结合具体实施例阐述了根据本发明的高可用集群计算机系统的结构,下面将结合具体实施例描述应用具有上述功能模块的高可用集群计算机系统进行故障处理的方法。
参见图4,图示了根据本发明实施例的应用高可用计算机系统进行故障处理的方法流程示意图,所述方法包括:
S101,所述服务器端根据安装在所述应用服务器的代理端收集的状态信息进行故障监控;
S102,根据监控得到的服务节点的状态信息控制主服务节点和备用服务节点进行切换。
在本发明的实施例中,步骤S101中管理节点的服务器端根据安装在综合前端应用服务器的代理端收集的状态信息进行故障监控,故障监控的方法包括:
根据所述代理端上进行的心跳检测和健康检查采集的状态信息进行故障监控,其中心跳检测用于检查应用服务器的基础环境是否处于正常状态,健康检查用于检查应用服务器的应用是否处于正常状态。
在本发明的实施例中,管理节点的服务器端根据部署在应用服务器上的代理端所进行的心跳检测和健康检查来监控服务节点的状态信息,其中心跳检测用于检查应用服务器的基础环境是否正常,其中应用服务器的基础环境具体包括应用服务器的硬件和操作系统,而健康检查用于检查应用服务器应用是否正常。心跳检测具体的检测流程如下:创建心跳检测线程,并为每个代理端分配一个心跳检测线程进行心跳检测;心跳检测线程间隔一定时间(例如5秒钟)使用snmpset命令检测代理端的snmp服务和端口161,当命令返回true时,表示心跳检测正常,当命令返回false时,再使用“ping”命令对代理端网络进行一次检查,如果ping正常,则表示snmp代理服务异常,且连续3次出现异常,则表示心跳检测线程异常,需要检测心跳检测线程是否正常执行;如果ping异常,则判定应用服务器异常,且连续出现异常次数大于预先设定的阈值,则确定心跳检测异常,表明服务节点的状态信息为应用服务器异常,显示报警信息“心跳检测异常,请切换”提示管理节点控制主服务节点和备用服务节点进行切换。健康检查的具体流程为::每间隔一定时间(例如40秒)在应用服务器上发起一个模拟HTTP请求的线程,根据能否返回预期结果来检测综合前端应用是否正常,如果返回OK,则表示综合前端应用正常,如果连续返回除OK之外的其他值的次数大于预先设定的阈值或者回应的时间超出预定的期限,则判定健康检查异常,表示服务节点的状态信息为综合前端应用异常,显示报警信息“健康检查异常,请切换”提示管理节点控制主服务节点和备用服务节点进行切换。需要说明的是,本领域的技术人员可根据应用需要设定连续返回其他值的次数判定为异常的阈值以及回应的预定的期限。
根据本发明实施例的主服务节点配置有3个IP地址,分别为固定IP地址、浮动IP地址和底层控制台IP地址,备用服务节点配置有2个IP地址,分别为固定IP和底层控制台IP。采用此种IP配置进行漂浮IP地址的主备切换模式提高了主备服务节点切换的可靠性,这是因为为了解决服务器发生故障而有可能导致操作系统挂起无法执行命令的问题,需要调用服务器远程管理控制的底层控制台,即综合前端使用的HP服务器的ilo管理命令来确保关闭服务器的可靠性。
在本发明的实施例中,当心跳检测或健康检查异常报警时,管理节点将控制主服务节点和备用服务节点进行主备切换,其中主服务节点(即故障服务节点)到备用服务节点切换的具体步骤包括:
通过底层控制台IP关闭所述故障服务节点,通过备用服务节点的固定IP登录到备用服务节点,启动所述故障服务节点的浮动IP完成主备切换,并记录该备用服务节点所接管的故障服务节点的固定IP。
本发明的实施过程中,当主服务节点心跳检测或健康检查异常时,管理节点的服务器端控制备用服务节点接管故障的主服务节点以使本发明的集群计算机系统能够为客户提供连续的服务。当所述故障服务节点恢复时,管理节点的服务器端将控制备用服务节点到恢复的主服务节点的切换的具体处理流程如下:
根据所述故障服务节点的固定IP查找进行主备切换对应的备用服务节点,在所述备用服务节点上关闭所述浮动IP,并在恢复的所述故障服务节点重启所述浮动IP以重新开始运作。
本发明的实施过程中,当故障服务节点恢复时,管理节点服务器端根据所述故障服务节点的固定IP地址查找其对应的浮动IP地址,然后进一步根据查找到的浮动IP地址查找在主服务节点切换到备用服务节点过程中接管的备用服务节点,然后在所述备用服务节点上关闭所述浮动IP,并在恢复的故障服务节点上重启所述浮动IP以重新开始运作。
进一步地,根据本发明实施例的应用高可用集群计算机系统进行故障处理的方法还包括:
通过所述管理节点的客户端将所述服务器端和代理端的处理结果显示给管理人员,并为管理人员提供进行操作的操作界面。
在此需要说明的是,所述管理节点还包括安装于PC机的客户端,该客户端可显示服务器端和代理端监控和检测的处理结果,并为管理人员提供进行操作的操作界面,以满足管理人员对监控维护处理操作适当进行人工处理的需要。
综上所述,本发明提供的高可用集群计算机系统和应用所述高可用集群计算机系统进行故障处理的方法,本发明的高可用集群计算机系统的冗余程度取决于备机数量,而且应用系统与故障监控模块及切换处理相关模块为松耦合,因而无需考虑冗余度对系统性能的影响,而且部署中仅需配置服务节点的IP地址即可,部署方便,成本较低。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所公开的仅为本发明的一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (12)

1.一种高可用集群计算机系统,其特征在于,所述系统包括管理节点和服务节点,其中服务节点包括综合前端应用服务器,所述服务节点分为一个以上主服务节点和一个以上备用服务节点,管理节点包括服务器端和代理端,其中,
所述服务器端,用于根据安装在所述应用服务器的代理端收集的状态信息进行故障监控,并根据监控得到的服务节点的状态信息控制主服务节点和备用服务节点进行切换,
其中,所述状态信息为在所述代理端上进行的心跳检测和健康检查所采集的服务节点的状态信息,所述心跳检测用于检查应用服务器的基础环境是否处于正常状态,所述健康检查用于检查综合前端应用是否正常,
其中,所述主服务节点配置有固定IP、浮动IP和底层控制台IP,所述备用服务节点配置有固定IP和底层控制台IP,
所述服务器端包括:
主备切换模块,当所述主服务节点故障时,用于实现如下功能:
通过底层控制台IP关闭所述故障服务节点,通过备用服务节点的固定IP登录到备用服务节点,启动所述故障服务节点的浮动IP完成主备切换,并记录该备用服务节点所接管的故障服务节点的固定IP,其中通过底层控制台IP关闭所述故障服务节点是通过HP服务器的ilo管理命令;
回切模块,当所述故障服务节点恢复时,用于实现如下功能:
根据所述故障服务节点的固定IP查找所述主备切换对应的备用服务节点,在所述备用服务节点上关闭所述浮动IP,并在恢复的所述故障服务节点重启所述浮动IP以重新开始运作。
2.如权利要求1所述的系统,其特征在于,所述服务器端包括:
故障监控模块,用于根据所述代理端上进行的心跳检测和健康检查采集的状态信息进行故障监控,其中心跳检测用于检查所述应用服务器的基础环境是否处于正常状态,健康检查用于检查所述应用服务器应用是否处于正常状态。
3.如权利要求2所述的系统,其特征在于,所述故障监控模块包括:
检测线程创建单元,用于创建心跳检测线程,并为所述代理端分配心跳检测线程;
检测线程处理单元,用于利用所述心跳检测线程定时检测所述应用服务器的基础环境的状态。
4.如权利要求2所述的系统,其特征在于,所述故障监控模块包括:
请求发起单元,用于在所述应用服务器上发起模拟HTTP请求的线程;
请求处理单元,用于利用所述模拟HTTP请求的线程定时检测所述应用服务器应用的状态。
5.如权利要求2至4任意一项所述的系统,其特征在于,所述服务节点的状态信息包括心跳检测异常和健康检查异常。
6.如权利要求1所述的系统,其特征在于,所述管理节点还包括:
客户端,用于显示所述服务器端和代理端的处理结果,并提供管理人员进行操作的操作界面。
7.一种应用高可用集群计算机系统进行故障处理的方法,其特征在于,所述高可用集群计算机系统包括管理节点和服务节点,其中服务节点包括综合前端应用服务器,所述服务节点分为一个以上主服务节点和一个以上备用服务节点,管理节点包括服务器端和代理端,所述方法包括以下步骤:
所述服务器端根据安装在所述应用服务器的代理端收集的状态信息进行故障监控;
根据监控得到的服务节点的状态信息控制主服务节点和备用服务节点进行切换,其中,所述状态信息为在所述代理端上进行的心跳检测和健康检查所采集的服务节点的状态信息,所述心跳检测用于检查应用服务器的基础环境是否处于正常状态,所述健康检查用于检查综合前端应用是否正常,
所述主服务节点配置有固定IP、浮动IP和底层控制台IP,所述备用服务节点配置有固定IP和底层控制台IP,
所述主服务节点和备用服务节点进行切换的步骤包括:
通过底层控制台IP关闭所述故障服务节点,通过备用服务节点的固定IP登录到备用服务节点,启动所述故障服务节点的浮动IP完成主备切换,并记录该备用服务节点所接管的故障服务节点的固定IP,其中通过底层控制台IP关闭所述故障服务节点是通过HP服务器的ilo管理命令;
所述主服务节点和备用服务节点进行切换的步骤还包括:
根据所述故障服务节点的固定IP查找进行主备切换对应的备用服务节点,在所述备用服务节点上关闭所述浮动IP,并在恢复的所述故障服务节点重启所述浮动IP以重新开始运作。
8.如权利要求7所述的方法,其特征在于,所述故障监控包括:
根据所述代理端上进行的心跳检测和健康检查采集的状态信息进行故障监控,其中心跳检测用于检查所述应用服务器的基础环境是否处于正常状态,健康检查用于检查所述应用服务器的应用是否处于正常状态。
9.如权利要求8所述的方法,其特征在于,所述心跳检测的步骤包括:
创建心跳检测线程,并为所述代理端分配心跳检测线程;
利用所述心跳检测线程定时检测所述应用服务器的基础环境的状态。
10.如权利要求8所述的方法,其特征在于,所述健康检查的步骤包括:
在所述应用服务器上发起模拟HTTP请求的线程;
利用所述模拟HTTP请求的线程定时检测所述应用服务器应用的状态。
11.如权利要求8至10任意一项所述的方法,其特征在于,所述服务节点的状态信息包括心跳检测异常和健康检查异常。
12.如权利要求7所述的方法,其特征在于,所述方法还包括:
通过所述管理节点的客户端将所述服务器端和代理端的处理结果显示给管理人员,并为管理人员提供进行操作的操作界面。
CN201110180749.5A 2011-06-27 2011-06-27 一种高可用集群计算机系统及其故障处理方法 Active CN102231681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110180749.5A CN102231681B (zh) 2011-06-27 2011-06-27 一种高可用集群计算机系统及其故障处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110180749.5A CN102231681B (zh) 2011-06-27 2011-06-27 一种高可用集群计算机系统及其故障处理方法

Publications (2)

Publication Number Publication Date
CN102231681A CN102231681A (zh) 2011-11-02
CN102231681B true CN102231681B (zh) 2014-07-30

Family

ID=44844221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110180749.5A Active CN102231681B (zh) 2011-06-27 2011-06-27 一种高可用集群计算机系统及其故障处理方法

Country Status (1)

Country Link
CN (1) CN102231681B (zh)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102510343A (zh) * 2011-11-16 2012-06-20 广东新支点技术服务有限公司 基于远程检测和电源管理的高可用集群系统假死解决方法
CN102420868B (zh) * 2011-12-01 2018-10-09 南京中兴软件有限责任公司 服务的提供方法、装置及系统
CN102523127A (zh) * 2011-12-30 2012-06-27 网宿科技股份有限公司 主备服务器切换方法和系统
JP6007522B2 (ja) * 2012-03-09 2016-10-12 日本電気株式会社 クラスタシステム
JP5998577B2 (ja) * 2012-03-29 2016-09-28 日本電気株式会社 クラスタ監視装置、クラスタ監視方法、及びプログラム
CN102694805A (zh) * 2012-05-30 2012-09-26 北京像素软件科技股份有限公司 一种游戏服务器维护的方法及系统
WO2014026387A1 (zh) * 2012-08-17 2014-02-20 华为技术有限公司 一种云环境下虚拟应用双机的切换方法、装置及系统
CN102902598B (zh) * 2012-09-10 2015-08-19 曙光信息产业(北京)有限公司 一种与作业调度系统相结合的资源检测预处理方法
CN102938705B (zh) * 2012-09-25 2015-03-11 上海证券交易所 一种高可用多机备份路由表管理与切换方法
CN103036744B (zh) * 2012-12-19 2016-01-20 北京搜房网络技术有限公司 一种监控多机分布式复制块设备的方法及装置
CN103067740B (zh) * 2012-12-31 2015-08-12 浙江元亨通信技术股份有限公司 视频监控设备故障智能检测方法及其检测系统
CN103152405B (zh) * 2013-02-19 2017-05-03 浪潮电子信息产业股份有限公司 一种高可用集群对于存储池资源的应用方法
CN103931139B (zh) * 2013-03-19 2017-02-15 华为技术有限公司 一种冗余保护方法、装置、设备及系统
CN103235752A (zh) * 2013-04-02 2013-08-07 浪潮电子信息产业股份有限公司 一种保证服务器管理系统服务可用性的方法
CN103297502B (zh) * 2013-05-08 2016-03-23 青岛海信传媒网络技术有限公司 一种负载均衡系统及方法
CN103257908A (zh) * 2013-05-24 2013-08-21 浪潮电子信息产业股份有限公司 一种软硬件协同的多控制器磁盘阵列设计方法
CN103401712B (zh) * 2013-07-31 2016-09-07 北京华易互动科技有限公司 一种基于内容分发的智能高可用任务处理方法和系统
CN103475696A (zh) * 2013-08-23 2013-12-25 汉柏科技有限公司 云计算集群服务器状态监控系统和方法
CN103607297B (zh) * 2013-11-07 2017-02-08 上海爱数信息技术股份有限公司 一种计算机集群系统的故障处理方法
CN103746829B (zh) * 2013-12-20 2017-04-05 中国科学院计算技术研究所 一种基于集群的故障感知系统及其方法
CN103995901B (zh) * 2014-06-10 2018-01-12 北京京东尚科信息技术有限公司 一种确定数据节点失效的方法
CN104468242A (zh) * 2014-12-29 2015-03-25 同方威视技术股份有限公司 自动切换方法及系统
CN104579791A (zh) * 2015-01-26 2015-04-29 浪潮电子信息产业股份有限公司 一种实现k-db主备自动切换容灾集群的方法
CN104917827A (zh) * 2015-05-26 2015-09-16 浪潮电子信息产业股份有限公司 一种实现oracle负载均衡集群的方法
CN106327168A (zh) * 2015-06-16 2017-01-11 阿里巴巴集团控股有限公司 业务的异常恢复检测方法及装置
CN105162632A (zh) * 2015-09-15 2015-12-16 浪潮集团有限公司 一种服务器集群故障自动处理系统
CN105391574A (zh) * 2015-10-28 2016-03-09 曙光云计算技术有限公司 一种服务器地址设置方法及装置
CN105471622B (zh) * 2015-11-12 2019-03-01 武汉噢易云计算股份有限公司 一种基于Galera的控制节点主备切换的高可用方法及系统
CN106789142B (zh) * 2015-11-25 2019-10-25 北京国双科技有限公司 资源配置的方法和装置
CN105262633B (zh) * 2015-11-27 2019-03-12 中国建设银行股份有限公司 一种应用级容灾方法及应用级容灾系统
CN106856489B (zh) 2015-12-08 2020-09-08 阿里巴巴集团控股有限公司 一种分布式存储系统的服务节点切换方法和装置
CN107294799B (zh) * 2016-03-31 2020-09-01 阿里巴巴集团控股有限公司 一种分布式系统中节点的处理方法和装置
CN105933407B (zh) * 2016-04-20 2019-12-06 中国银联股份有限公司 一种实现Redis集群高可用的方法及系统
CN105978721B (zh) * 2016-05-11 2019-04-12 中国农业银行股份有限公司 一种集群系统中监控服务运行状态的方法、装置和系统
CN106254114A (zh) * 2016-05-13 2016-12-21 江苏云途腾科技有限责任公司 云主机故障迁移方法及系统
CN106412011A (zh) * 2016-08-30 2017-02-15 广州鼎甲计算机科技有限公司 一种多节点间无共享存储的高可用集群系统和实现
CN106385334B (zh) * 2016-09-20 2019-06-18 携程旅游信息技术(上海)有限公司 呼叫中心系统及其异常检测及自恢复方法
CN106789155A (zh) * 2016-11-16 2017-05-31 深圳市中博睿存科技有限公司 元数据仲裁服务器、控制方法和通讯系统
CN106789246A (zh) * 2016-12-22 2017-05-31 广西防城港核电有限公司 一种主备服务器的切换方法及装置
CN106713036B (zh) * 2016-12-27 2020-06-30 中国建设银行股份有限公司 一种移动终端支付系统的故障处理方法及系统
CN106850269A (zh) * 2016-12-29 2017-06-13 曙光信息产业(北京)有限公司 一种云平台的管理系统
CN107094182A (zh) * 2017-06-01 2017-08-25 云南电网有限责任公司信息中心 一种采用sso单点认证系统检测服务节点健康度的负载均衡方法
CN107276828A (zh) * 2017-07-26 2017-10-20 郑州云海信息技术有限公司 一种集群中节点的调度方法及装置
CN108021486B (zh) * 2017-11-21 2019-07-16 平安科技(深圳)有限公司 电子装置、征信数据处理的方法及存储介质
CN108023772B (zh) * 2017-12-07 2021-02-26 海能达通信股份有限公司 一种异常节点修复方法、装置及相关设备
CN110519112A (zh) * 2018-05-22 2019-11-29 山东数盾信息科技有限公司 一种实现集群存储系统中动态连续高可用的方法
CN111131361B (zh) * 2018-10-31 2023-03-24 北京国双科技有限公司 集群查询系统中连接节点的处理方法及装置
CN109495298B (zh) * 2018-11-06 2022-06-07 郑州云海信息技术有限公司 在OpenStack系统中管理节点的方法和装置
CN109768896B (zh) * 2018-12-14 2022-03-18 平安普惠企业管理有限公司 监控服务器环境状态的方法、装置和计算机设备
CN111367202B (zh) * 2018-12-26 2022-12-13 华为云计算技术有限公司 监控实例的方法、监控节点和监控集群
CN109547271B (zh) * 2019-01-06 2020-01-03 广州泳泳信息科技有限公司 一种基于大数据的网络状态实时监控警报系统
US11099974B2 (en) 2019-05-23 2021-08-24 International Business Machines Corporation Cognitive analytics for high-availability application-performance management
CN110333986B (zh) * 2019-06-19 2023-12-29 上海二三四五网络科技有限公司 一种保障redis集群可用性的方法
CN112199240B (zh) * 2019-07-08 2024-01-30 华为云计算技术有限公司 一种节点故障时进行节点切换的方法及相关设备
CN110784350B (zh) * 2019-10-25 2022-04-05 北京计算机技术及应用研究所 一种实时高可用集群管理系统的设计方法
CN110855494B (zh) * 2019-11-18 2022-10-04 上海新炬网络信息技术股份有限公司 基于分布式监控系统实现代理高可用的方法
CN110890988B (zh) * 2019-12-02 2022-04-22 安徽三实信息技术服务有限公司 一种服务器集群运行监控系统
CN111338871A (zh) * 2020-02-27 2020-06-26 苏州浪潮智能科技有限公司 分布式文件系统Qzone高可用性测试方法、系统、设备及存储介质
CN111651291B (zh) * 2020-04-23 2023-02-03 国网河南省电力公司电力科学研究院 一种共享存储集群防脑裂的方法、系统、计算机存储介质
CN111474885A (zh) * 2020-04-29 2020-07-31 江苏建筑职业技术学院 一种太阳能无线智能化联网控制平台
CN112787855B (zh) * 2020-12-29 2022-07-26 中国电力科学研究院有限公司 一种面向广域分布式服务的主备管理系统及管理方法
CN114764380A (zh) * 2021-01-15 2022-07-19 国电南瑞科技股份有限公司 一种基于etcd的分布式集群控制方法和装置
CN112732465A (zh) * 2021-01-20 2021-04-30 北京高码科技有限公司 一种基于配置调度实现自动化远程执行的方法
CN112990867A (zh) * 2021-03-11 2021-06-18 北京明略昭辉科技有限公司 一种实现文档平台服务高可用的方法、系统及设备
CN113313571A (zh) * 2021-05-28 2021-08-27 中国农业银行股份有限公司 风险测算方法和风险测算系统
CN113904802B (zh) * 2021-09-06 2023-08-11 河南信大网御科技有限公司 拟态云应用管理方法、通信代理模块及云应用管理模块
CN114257500B (zh) * 2021-12-24 2023-06-09 苏州浪潮智能科技有限公司 一种超融合集群内部网络的故障切换方法、系统及装置
CN114661688B (zh) * 2022-03-25 2023-09-19 马上消费金融股份有限公司 地址纠错方法及装置
CN116112500B (zh) * 2023-02-08 2023-08-15 北京志凌海纳科技有限公司 一种基于故障探测和路由策略的nfs高可用系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101060391A (zh) * 2007-05-16 2007-10-24 华为技术有限公司 主备服务器切换方法及系统及主用服务器、备用服务器
US7886294B2 (en) * 2004-12-28 2011-02-08 Sap Ag Virtual machine monitoring

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7886294B2 (en) * 2004-12-28 2011-02-08 Sap Ag Virtual machine monitoring
CN101060391A (zh) * 2007-05-16 2007-10-24 华为技术有限公司 主备服务器切换方法及系统及主用服务器、备用服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Linux的高可用集群系统的设计及实现;孟相武,程劲,罗克露,韩淙;《电子科技大学学报》;20080830;第34卷(第4期);第529页第26行-第530页第4行,第530页第8行-第16行,第25行-第31行,第531页第12行-第24行,图1-3 *
孟相武,程劲,罗克露,韩淙.基于Linux的高可用集群系统的设计及实现.《电子科技大学学报》.2008,第34卷(第4期),第529页第26行-第530页第4行,第530页第8行-第16行,第25行-第31行,第531页第12行-第24行,图1-3.

Also Published As

Publication number Publication date
CN102231681A (zh) 2011-11-02

Similar Documents

Publication Publication Date Title
CN102231681B (zh) 一种高可用集群计算机系统及其故障处理方法
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
Chen et al. Towards intelligent incident management: why we need it and how we make it
US8782472B2 (en) Troubleshooting system using device snapshots
US8799446B2 (en) Service resiliency within on-premise products
CN108632057A (zh) 一种云计算服务器的故障恢复方法、装置及管理系统
KR20160044484A (ko) 클라우드 배치 기반구조 검증 엔진
CN103812699A (zh) 基于云计算的监控管理系统
Panda et al. {IASO}: A {Fail-Slow} Detection and Mitigation Framework for Distributed Storage Services
CN102394914A (zh) 集群脑裂处理方法和装置
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN102591717B (zh) 外接设备和虚拟设备的业务信息处理方法、装置和系统
CN102437935B (zh) Web应用监控方法及设备
US9256489B2 (en) Synchronized debug information generation
CN103607296A (zh) 一种虚拟机故障处理方法和设备
CN112073262B (zh) 一种云平台监控方法、装置、设备及系统
CA2976618A1 (en) System for network incident management
CN104570831A (zh) 过程控制系统和方法
EP2885710B1 (en) Comparing redundancy models for determination of an availability management framework (amf) configuration and runtime assignment of a high availability system
CN102902615A (zh) 一种Lustre并行文件系统错误报警方法及其系统
CN113825164A (zh) 网络故障修复方法、装置、存储介质及电子设备
Di Sanzo et al. Machine learning for achieving self-* properties and seamless execution of applications in the cloud
CN105068763A (zh) 一种针对存储故障的虚拟机容错系统和方法
CN114064217B (zh) 一种基于OpenStack的节点虚拟机迁移方法及装置
CN107291589A (zh) 在机器人操作系统中提升系统可靠性的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant