CN104077199A - 基于共享磁盘的高可用集群的隔离方法和系统 - Google Patents

基于共享磁盘的高可用集群的隔离方法和系统 Download PDF

Info

Publication number
CN104077199A
CN104077199A CN201410247809.4A CN201410247809A CN104077199A CN 104077199 A CN104077199 A CN 104077199A CN 201410247809 A CN201410247809 A CN 201410247809A CN 104077199 A CN104077199 A CN 104077199A
Authority
CN
China
Prior art keywords
node
shared disk
order
cluster
malfunctioning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410247809.4A
Other languages
English (en)
Other versions
CN104077199B (zh
Inventor
刘明
高雪洁
梁昕
李奇
徐晓娟
王阳利
刘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Standard Software Co Ltd
Original Assignee
China Standard Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Standard Software Co Ltd filed Critical China Standard Software Co Ltd
Priority to CN201410247809.4A priority Critical patent/CN104077199B/zh
Publication of CN104077199A publication Critical patent/CN104077199A/zh
Application granted granted Critical
Publication of CN104077199B publication Critical patent/CN104077199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于共享磁盘的高可用集群的隔离方法和系统,属于高可用集群技术领域,能够以低成本实现高可用集群的隔离。该基于共享磁盘的高可用集群的隔离方法,包括:步骤1,划分共享磁盘;步骤2,将所述集群中的每个节点的节点信息写入所述共享磁盘中;步骤3,通过查看所述共享磁盘中的各个节点的节点信息,进而判断是否存在故障节点;步骤4,在判断存在故障节点时,向所述共享磁盘发送隔离故障节点的命令;步骤5,根据所述命令,对所述故障节点进行隔离。本发明可用于中小企业的高可用集群中。

Description

基于共享磁盘的高可用集群的隔离方法和系统
技术领域
本发明涉及高可用集群技术领域,具体地说,涉及一种基于共享磁盘的高可用集群的隔离方法和系统。
背景技术
高可用集群由多个节点组成,是集群中较为常见的一种。在高可用集群中,通过节点的心跳网络连接状况决定节点是否活跃。当某一节点的心跳出现故障,运行在该节点的服务迁移到其他的健康节点,从而使高可用集群能够对外提供不间断的可用服务。
当高可用集群中各节点的网络心跳正常,而某一节点由于程序故障或恶意插件导致内存或CPU耗尽时,不能针对集群的策略引擎发出的服务迁移指令作出正确反应,导致应用服务滞留在内存耗尽的故障节点上,不能迁移到健康节点,使集群对外提供的服务瘫痪。
针对上述问题,目前的解决方法是使用串行或者基于网络的电源切换设备作为隔离(fencing)资源,添加到集群中。这种设备采用STONITH(Shoot The OtherNode In The Head)机制,主要是使出现问题的节点从集群环境中脱离,即对故障节点进行关机或重启。
上述解决方法需要向集群中添加额外的隔离设备,来保证集群的不间断服务。但是,由于这种隔离设备价格昂贵,很多高可用集群中,特别是中小企业中没有配备隔离设备。因此,现有的隔离方法存在成本较高的问题。
发明内容
本发明的目的在于提供一种基于共享磁盘的高可用集群的隔离方法和系统,能够以低成本实现高可用集群的隔离。
本发明提供一种基于共享磁盘的高可用集群的隔离方法,包括:
步骤1,划分共享磁盘;
步骤2,将所述集群中的每个节点的节点信息写入所述共享磁盘中;
步骤3,通过查看所述共享磁盘中的各个节点的节点信息,进而判断是否存在故障节点;
步骤4,在判断存在故障节点时,向所述共享磁盘发送隔离故障节点的命令;
步骤5,根据所述命令,对所述故障节点进行隔离。
进一步,该隔离方法还包括:
步骤6,查看所述共享磁盘中更新的节点信息,判断故障节点是否存在于当前集群中,若不存在,则删除所述命令。
进一步,在所述步骤2中:
所述节点信息包括时间戳、节点ID、节点状态和节点状态持续时间;
进一步,在所述步骤3中:
如果某一节点的节点状态持续不变,且节点状态持续时间达到预设时间,则判断该节点为故障节点。
进一步,在所述步骤4中:
所述命令的内容包括命令接收节点,所述命令接收节点为故障节点;
进一步,在所述步骤5中:
使所述集群中的每个节点读取所述共享磁盘中的命令,并判断所述命令中的命令接收节点是否为其自身,如果是,则执行所述命令。
优选的,在所述步骤1中:
在所述集群中的任意一个节点中划分所述共享磁盘,并进行共享磁盘初始化。
优选的,所述共享磁盘中包括共享磁盘头、节点ID与节点磁盘ID映射表、命令区和节点信息区。
本发明还提供一种基于共享磁盘的高可用集群的隔离系统,包括:
划分模块,用于划分共享磁盘;
还包括设置于所述集群中每个节点中的写入模块、判断模块、发送模块和隔离模块;
所述写入模块,用于将节点信息写入所述共享磁盘中;
所述判断模块,用于通过查看所述共享磁盘中的各个节点的节点信息,进而判断是否存在故障节点;
所述发送模块,用于在判断存在故障节点时,向所述共享磁盘发送隔离故障节点的命令;
所述隔离模块,用于根据所述命令,对所述故障节点进行隔离。
进一步,所述判断模块,还用于查看所述共享磁盘中更新的节点信息,判断故障节点是否存在于当前集群中,若不存在,则删除所述命令。
进一步,所述节点信息包括时间戳、节点ID、节点状态和节点状态持续时间;
进一步,所述判断模块,用于如果某一节点的节点状态持续不变,且节点状态持续时间达到预设时间,则判断该节点为故障节点。
进一步,所述命令的内容包括命令接收节点,所述命令接收节点为故障节点;
进一步,所述隔离模块,用于读取所述共享磁盘中的命令,并判断所述命令中的命令接收节点是否为其自身,如果是,则执行所述命令。
优选的,所述划分模块,用于在所述集群中的任意一个节点中划分所述共享磁盘,并进行共享磁盘初始化。
优选的,所述共享磁盘中包括共享磁盘头、节点ID与节点磁盘ID映射表、命令区和节点信息区。
本发明带来了以下有益效果:本发明提供的基于共享磁盘的高可用集群的隔离方法及系统中,通过划分共享磁盘,监控各节点的运行状况,并且以向共享磁盘发送命令的方式,实现故障节点的隔离。因此,利用本发明提供的隔离方法及系统,不需要在高可用集群中增设隔离设备,从而能够以低成本实现高可用集群的隔离。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要的附图做简单的介绍:
图1是本发明实施例一提供的高可用集群的隔离方法的流程图;
图2是本发明实施例二提供的高可用集群的隔离方法的流程图;
图3是本发明实施例二中共享磁盘的示意图;
图4是本发明实施例二提供的高可用集群的隔离方法的另一流程图
图5是本发明实施例三提供的高可用集群的隔离系统的示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
实施例一:
本发明实施例提供一种基于共享磁盘的高可用集群的隔离方法,可应用于高可用集群环境中。如图1所示,该隔离方法包括:
S1:搭建高可用集群,该高可用集群包括至少两个节点。
S2:划分共享磁盘。
S3:集群中的每个节点向共享磁盘中写入各自的节点信息。
S4:集群中的节点查看共享磁盘中的节点信息,判断是否存在故障节点。
S5:集群中的健康节点向共享磁盘发送隔离故障节点的命令。
S6:根据所述命令,对故障节点进行隔离。
本发明实施例提供的基于共享磁盘的高可用集群的隔离方法中,通过划分共享磁盘,监控各节点的运行状况,并且以向共享磁盘发送命令的方式,实现故障节点的隔离。因此,利用本发明实施例提供的隔离方法,不需要在高可用集群中增设隔离设备,从而能够以低成本实现高可用集群的隔离。
实施例二:
本发明实施例提供一种基于共享磁盘的高可用集群的隔离方法,可应用于高可用集群环境中。如图2和图3所示,该隔离方法包括:
S1:搭建高可用集群。
具体的,高可用集群包括至少两个节点,每个节点中包括服务器(或PC)和存储设备。服务器上具备双网卡,并且都可以连接到存储设备。每个服务器上安装相同的操作系统和高可用软件,每组网卡互相连通,一组网络地址供心跳连接使用,另一组网络地址提供对外服务使用,并且各服务器的系统上可共享存储设备的分区。
S2:划分共享磁盘。
具体的,在各节点上安装高可用软件之后,启动集群服务。在集群的任意一个节点上划分共享磁盘,并且共享磁盘的容量优选为10Mb以上。然后可以在每个节点中启动一守护进程,守护进程可以进行共享磁盘初始化及配置工作。可由管理员选择一个节点进行共享磁盘初始化,将共享磁盘标签等配置内容写入集群配置文件,在配置节点上将指定的共享设备初始化为可用的磁盘分区,使用的标签为配置文件中指定的标签。
如图4所示,共享磁盘中包括共享磁盘头、节点ID与节点磁盘ID映射表、命令区和节点信息区等。
S3:将集群中的每个节点的节点信息写入共享磁盘中。
每个节点中的守护进程之间可进行信息交互,具体的交互方法与集群的实现方式有关。一般来说,都采用进程间通讯方法完成,具体方法有本地套接字(socket)方式、corosync的ipc等。一个节点的守护进程从集群中其他节点的守护进程获取的信息,主要包括节点是否为主控(DC)节点、节点队列长度、节点连接个数等。一个节点的守护进程发送给其他节点的守护进程的信息,主要有节点获得共享磁盘或节点没有获得共享磁盘。
每个节点的守护进程获取本节点的工作状态等节点信息,并将该节点信息写入共享磁盘中相应的节点磁盘ID对应的节点信息区。节点信息具体可包括时间戳、节点ID、节点名称、是否为主控节点、节点状态、节点状态持续时间等。
S4:通过查看共享磁盘中的各个节点的节点信息,进而判断是否存在故障节点。
每个节点的节点信息都写入共享磁盘之后,集群中各节点的守护进程获取共享磁盘中的其他节点的节点信息,各节点信息经处理后放入节点信息结构数组中。若守护进程获取到集群中其他节点的节点信息,则还可以向集群中的其它相关进程发送磁盘初始化成功的消息。若守护进程未能获取集群中其他节点的节点信息,则还可以向集群中的其它相关进程发送磁盘初始化失败的消息。
守护进程通过查看某一节点的节点信息中的时间戳、节点状态、节点状态持续时间,可判断该节点是否存健康。如果某一节点的节点状态持续不变,且节点状态持续时间达到预设时间,则判断该节点为故障节点,应当对该故障节点进行隔离。
S5:在判断存在故障节点时,向共享磁盘发送隔离故障节点的命令。
当集群中的健康节点判断出某一节点为故障节点时,就向共享磁盘的命令区发送隔离故障节点的命令,并设置时间戳。命令的内容包括命令发送节点、命令内容、命令接收节点。其中,命令发送节点为该健康节点,命令内容为对故障节点进行隔离等,命令接收节点为该故障节点。
S6:根据所述命令,对故障节点进行隔离。
集群中的每个节点的守护进程均定时读取共享磁盘的命令区中的命令,并判断命令中的命令接收节点是否为其自身。
如果命令中的命令接收节点的ID与自身的节点ID相同,就表示其自身为故障节点,则执行命令,自行重启或关闭以实现隔离,从而将该故障节点上的服务切换到其他的健康节点,保证集群的正常工作。
如果命令中的命令接收节点的ID与自身的节点ID不同,就表示其自身为健康节点,则不执行命令。
进一步,本发明实施例提供的隔离方法还可以包括:
S7:查看共享磁盘中更新的节点信息,判断故障节点是否存在于当前集群中,若不存在,则删除命令。
具体的,每个节点的守护进程接收当前集群的其他节点发送的节点信息,并判断故障节点是否还存在于当前的集群中。
如果故障节点已经不存在于当前的集群中,就表示故障节点已经成功隔离,则将共享磁盘的命令区置0,即清空共享磁盘的命令区。
如果故障节点还存在于当前的集群中,就表示故障节点还没有隔离,则向共享磁盘的命令区重新写入命令。
各节点中的守护进程持续进行,并且循环进行上述步骤S3至S7,其中步骤S4、S5、S6可以同时进行。这样就能够时时将故障节点隔离,保证高可用集群能够对外提供不间断的可用服务。
本发明实施例提供的基于共享磁盘的高可用集群的隔离方法中,通过划分共享磁盘,监控各节点的运行状况,而每个节点的守护进程只获取各节点的节点状态、节点状态持续时间等及节点信息,不会对集群的服务发生改变和影响。当某一节点发生内存或CPU耗尽时,健康节点通过向共享磁盘发送命令的方式,使故障节点重启或关闭,实现故障节点的隔离。因此,利用本发明实施例提供的隔离方法,不需要在高可用集群中增设隔离设备,从而能够以低成本实现高可用集群的隔离。
实施例三:
如图5所示,本发明实施例提供一种基于共享磁盘的高可用集群的隔离系统,该高可用集群包括至少两个节点1。
该隔离系统包括设置在某一节点中的划分模块11,用于划分共享磁盘10。
具体的,在各节点上安装高可用软件之后,启动集群服务。在集群的任意一个节点中设置有划分模块11,并在该节点上划分共享磁盘10,共享磁盘10的容量优选为10Mb以上。然后可以在每个节点中启动一守护进程,守护进程可以进行共享磁盘初始化及配置工作。在该节点上共享磁盘初始化,将共享磁盘标签等配置内容写入集群配置文件,在配置节点上将指定的共享设备初始化为可用的磁盘分区,使用的标签为配置文件中指定的标签。
共享磁盘10中包括共享磁盘头、节点ID与节点磁盘ID映射表、命令区和节点信息区等(如图4所示)。
该隔离系统还包括设置于集群中每个节点中的写入模块12、判断模块13、发送模块14和隔离模块15。
写入模块12用于将节点信息写入所述共享磁盘10中。
每个节点中的守护进程之间可进行信息交互,具体的交互方法与集群的实现方式有关。一般来说,都采用进程间通讯方法完成,具体方法有本地套接字(socket)方式、corosync的ipc等。一个节点的守护进程从集群中其他节点的守护进程获取的信息,主要包括节点是否为主控(DC)节点、节点队列长度、节点连接个数等。一个节点的守护进程发送给其他节点的守护进程的信息,主要有节点获得共享磁盘10或节点没有获得共享磁盘10。
每个节点的守护进程获取本节点的工作状态等节点信息,并通过写入模块12将该节点信息写入共享磁盘10中相应的节点磁盘ID对应的节点信息区。节点信息具体可包括时间戳、节点ID、节点名称、是否为主控节点、节点状态、节点状态持续时间等。
判断模块13用于通过查看共享磁盘10中的各个节点的节点信息,进而判断是否存在故障节点。
每个节点的节点信息都写入共享磁盘10之后,集群中各节点的守护进程获取共享磁盘10中的其他节点的节点信息,各节点信息经处理后放入节点信息结构数组中。若守护进程获取到集群中其他节点的节点信息,则还可以向集群中的其它相关进程发送磁盘初始化成功的消息。若守护进程未能获取集群中其他节点的节点信息,则还可以向集群中的其它相关进程发送磁盘初始化失败的消息。
守护进程通过判断模块13查看某一节点的节点信息中的时间戳、节点状态、节点状态持续时间,可判断该节点是否存健康。如果某一节点的节点状态持续不变,且节点状态持续时间达到预设时间,则判断该节点为故障节点,应当对该故障节点进行隔离。
发送模块14用于在判断存在故障节点时,向共享磁盘10发送隔离故障节点的命令。
当集群中的健康节点判断出某一节点为故障节点时,该健康节点中的发送模块14就向共享磁盘10的命令区发送隔离故障节点的命令,并设置时间戳。命令的内容包括命令发送节点、命令内容、命令接收节点。其中,命令发送节点为该健康节点,命令内容为对故障节点进行隔离等,命令接收节点为该故障节点。
隔离模块15,用于根据所述命令,对故障节点进行隔离。
集群中的每个节点的守护进程均定时读取共享磁盘10的命令区中的命令,并判断命令中的命令接收节点是否为其自身。
如果命令中的命令接收节点的ID与自身的节点ID相同,就表示其自身为故障节点,则由隔离模块15执行命令,自行重启或关闭以实现隔离,从而将该故障节点上的服务切换到其他的健康节点,保证集群的正常工作。
如果命令中的命令接收节点的ID与自身的节点ID不同,就表示其自身为健康节点,则不执行命令。
进一步,判断模块13还用于查看共享磁盘10中更新的节点信息,判断故障节点是否存在于当前集群中,若不存在,则删除所述命令。
具体的,每个节点的守护进程接收当前集群的其他节点发送的节点信息,并由判断模块13判断故障节点是否还存在于当前的集群中。
如果故障节点已经不存在于当前的集群中,就表示故障节点已经成功隔离,则将共享磁盘10的命令区置0,即清空共享磁盘10的命令区。
如果故障节点还存在于当前的集群中,就表示故障节点还没有隔离,则向共享磁盘10的命令区重新写入命令。
本发明实施例提供的基于共享磁盘的高可用集群的隔离系统,与实施例一和实施例二提供的基于共享磁盘的高可用集群的隔离方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种基于共享磁盘的高可用集群的隔离方法,包括:
步骤1,划分共享磁盘;
步骤2,将所述集群中的每个节点的节点信息写入所述共享磁盘中;
步骤3,通过查看所述共享磁盘中的各个节点的节点信息,进而判断是否存在故障节点;
步骤4,在判断存在故障节点时,向所述共享磁盘发送隔离故障节点的命令;
步骤5,根据所述命令,对所述故障节点进行隔离。
2.如权利要求1所述的方法,其特征在于,还包括:
步骤6,查看所述共享磁盘中更新的节点信息,判断故障节点是否存在于当前集群中,若不存在,则删除所述命令。
3.如权利要求1所述的方法,其特征在于,在所述步骤2中:
所述节点信息包括时间戳、节点ID、节点状态和节点状态持续时间;
进一步,在所述步骤3中:
如果某一节点的节点状态持续不变,且节点状态持续时间达到预设时间,则判断该节点为故障节点。
4.如权利要求1所述的方法,其特征在于,在所述步骤4中:
所述命令的内容包括命令接收节点,所述命令接收节点为故障节点;
进一步,在所述步骤5中:
使所述集群中的每个节点读取所述共享磁盘中的命令,并判断所述命令中的命令接收节点是否为其自身,如果是,则执行所述命令。
5.如权利要求1所述的方法,其特征在于,在所述步骤1中:
在所述集群中的任意一个节点中划分所述共享磁盘,并进行共享磁盘初始化。
6.如权利要求1所述的方法,其特征在于,所述共享磁盘中包括共享磁盘头、节点ID与节点磁盘ID映射表、命令区和节点信息区。
7.一种基于共享磁盘的高可用集群的隔离系统,包括:
划分模块,用于划分共享磁盘;
还包括设置于所述集群中每个节点中的写入模块、判断模块、发送模块和隔离模块;
所述写入模块,用于将节点信息写入所述共享磁盘中;
所述判断模块,用于通过查看所述共享磁盘中的各个节点的节点信息,进而判断是否存在故障节点;
所述发送模块,用于在判断存在故障节点时,向所述共享磁盘发送隔离故障节点的命令;
所述隔离模块,用于根据所述命令,对所述故障节点进行隔离。
8.如权利要求7所述的系统,其特征在于,
所述判断模块,还用于查看所述共享磁盘中更新的节点信息,判断故障节点是否存在于当前集群中,若不存在,则删除所述命令。
9.如权利要求7所述的系统,其特征在于,
所述节点信息包括时间戳、节点ID、节点状态和节点状态持续时间;
进一步,所述判断模块,用于如果某一节点的节点状态持续不变,且节点状态持续时间达到预设时间,则判断该节点为故障节点。
10.如权利要求7所述的系统,其特征在于,
所述命令的内容包括命令接收节点,所述命令接收节点为故障节点;
进一步,所述隔离模块,用于读取所述共享磁盘中的命令,并判断所述命令中的命令接收节点是否为其自身,如果是,则执行所述命令。
CN201410247809.4A 2014-06-06 2014-06-06 基于共享磁盘的高可用集群的隔离方法和系统 Active CN104077199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410247809.4A CN104077199B (zh) 2014-06-06 2014-06-06 基于共享磁盘的高可用集群的隔离方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410247809.4A CN104077199B (zh) 2014-06-06 2014-06-06 基于共享磁盘的高可用集群的隔离方法和系统

Publications (2)

Publication Number Publication Date
CN104077199A true CN104077199A (zh) 2014-10-01
CN104077199B CN104077199B (zh) 2016-03-16

Family

ID=51598468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410247809.4A Active CN104077199B (zh) 2014-06-06 2014-06-06 基于共享磁盘的高可用集群的隔离方法和系统

Country Status (1)

Country Link
CN (1) CN104077199B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106657390A (zh) * 2017-01-22 2017-05-10 郑州云海信息技术有限公司 集群文件系统目录隔离方法、装置及系统
CN106874126A (zh) * 2017-01-24 2017-06-20 厦门天锐科技股份有限公司 一种软件开发中主进程异常检测方法
CN106990919A (zh) * 2017-03-04 2017-07-28 郑州云海信息技术有限公司 自动隔离故障磁盘的存储管理方法及装置
CN107147540A (zh) * 2017-07-19 2017-09-08 郑州云海信息技术有限公司 高可用性系统中的故障处理方法和故障处理集群
CN107229539A (zh) * 2017-05-31 2017-10-03 郑州云海信息技术有限公司 一种用于磁盘镜像高可用集群diskless的处理方法和系统
CN107947976A (zh) * 2017-11-20 2018-04-20 新华三云计算技术有限公司 故障节点隔离方法及集群系统
CN108449200A (zh) * 2018-02-02 2018-08-24 云宏信息科技股份有限公司 一种基于控制节点的屏蔽信息写入方法及装置
CN109460315A (zh) * 2018-12-20 2019-03-12 华迪计算机集团有限公司 共享磁盘故障节点的处理方法、装置、计算机设备
CN109815064A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 节点隔离方法、装置、节点设备及计算机可读存储介质
CN110908609A (zh) * 2019-11-22 2020-03-24 苏州浪潮智能科技有限公司 一种磁盘处理的方法、系统、设备及可读存储介质
CN112003764A (zh) * 2020-08-07 2020-11-27 苏州浪潮智能科技有限公司 一种分布式存储节点网络错包检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741489A (zh) * 2005-09-01 2006-03-01 西安交通大学 构建多机系统高可用的自愈合逻辑环故障检测与容忍方法
CN101154237A (zh) * 2006-09-28 2008-04-02 国际商业机器公司 限制故障节点的访问的方法和系统
CN102402395A (zh) * 2010-09-16 2012-04-04 上海中标软件有限公司 基于仲裁磁盘的高可用系统不间断运行方法
US20120303594A1 (en) * 2010-11-05 2012-11-29 Ibm Corporation Multiple Node/Virtual Input/Output (I/O) Server (VIOS) Failure Recovery in Clustered Partition Mobility

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741489A (zh) * 2005-09-01 2006-03-01 西安交通大学 构建多机系统高可用的自愈合逻辑环故障检测与容忍方法
CN101154237A (zh) * 2006-09-28 2008-04-02 国际商业机器公司 限制故障节点的访问的方法和系统
CN102402395A (zh) * 2010-09-16 2012-04-04 上海中标软件有限公司 基于仲裁磁盘的高可用系统不间断运行方法
US20120303594A1 (en) * 2010-11-05 2012-11-29 Ibm Corporation Multiple Node/Virtual Input/Output (I/O) Server (VIOS) Failure Recovery in Clustered Partition Mobility

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106657390A (zh) * 2017-01-22 2017-05-10 郑州云海信息技术有限公司 集群文件系统目录隔离方法、装置及系统
CN106874126A (zh) * 2017-01-24 2017-06-20 厦门天锐科技股份有限公司 一种软件开发中主进程异常检测方法
CN106990919A (zh) * 2017-03-04 2017-07-28 郑州云海信息技术有限公司 自动隔离故障磁盘的存储管理方法及装置
CN107229539A (zh) * 2017-05-31 2017-10-03 郑州云海信息技术有限公司 一种用于磁盘镜像高可用集群diskless的处理方法和系统
CN107147540A (zh) * 2017-07-19 2017-09-08 郑州云海信息技术有限公司 高可用性系统中的故障处理方法和故障处理集群
CN107947976B (zh) * 2017-11-20 2020-02-18 新华三云计算技术有限公司 故障节点隔离方法及集群系统
CN107947976A (zh) * 2017-11-20 2018-04-20 新华三云计算技术有限公司 故障节点隔离方法及集群系统
CN108449200A (zh) * 2018-02-02 2018-08-24 云宏信息科技股份有限公司 一种基于控制节点的屏蔽信息写入方法及装置
CN109460315A (zh) * 2018-12-20 2019-03-12 华迪计算机集团有限公司 共享磁盘故障节点的处理方法、装置、计算机设备
CN109815064A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 节点隔离方法、装置、节点设备及计算机可读存储介质
CN109815064B (zh) * 2019-01-04 2023-10-27 平安科技(深圳)有限公司 节点隔离方法、装置、节点设备及计算机可读存储介质
CN110908609A (zh) * 2019-11-22 2020-03-24 苏州浪潮智能科技有限公司 一种磁盘处理的方法、系统、设备及可读存储介质
CN110908609B (zh) * 2019-11-22 2021-09-17 苏州浪潮智能科技有限公司 一种磁盘处理的方法、系统、设备及可读存储介质
CN112003764A (zh) * 2020-08-07 2020-11-27 苏州浪潮智能科技有限公司 一种分布式存储节点网络错包检测方法及装置
CN112003764B (zh) * 2020-08-07 2021-10-22 苏州浪潮智能科技有限公司 一种分布式存储节点网络错包检测方法及装置

Also Published As

Publication number Publication date
CN104077199B (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
CN104077199B (zh) 基于共享磁盘的高可用集群的隔离方法和系统
CN108270726B (zh) 应用实例部署方法及装置
CN110784350B (zh) 一种实时高可用集群管理系统的设计方法
US20170277556A1 (en) Distribution system, computer, and arrangement method for virtual machine
CN103778031A (zh) 一种云环境下的分布式系统多级故障容错方法
CN105357296A (zh) 一种Docker云平台下弹性缓存系统
CN102394774A (zh) 云计算操作系统的控制器服务状态监控和故障恢复方法
CN106201527B (zh) 一种基于逻辑分区的应用程序容器系统
CN111124277A (zh) 一种深度学习数据集缓存方法、系统、终端及存储介质
CN112527310A (zh) 多租户数据隔离方法、装置、计算机设备及存储介质
CN105095103A (zh) 用于云环境下的存储设备管理方法和装置
CN102929769A (zh) 一种基于代理服务的虚拟机内部数据采集方法
CN104168326A (zh) 一种服务器均衡负载的方法及系统
CN109799998A (zh) OpenStack集群配置及批量部署方法及系统
CN106603319A (zh) 一种故障处理的方法、管理服务器以及逻辑服务器
CN105553732B (zh) 一种分布式网络模拟方法及系统
CN106612314A (zh) 基于虚拟机实现软件定义存储的系统
CN110286852A (zh) 双控构架分布式存储系统、数据读取方法、装置和存储介质
CN114565502A (zh) Gpu资源管理方法、调度方法、装置、电子设备及存储介质
CN107528871A (zh) 存储系统中的数据分析
CN104052799B (zh) 一种利用资源环实现高可用存储的方法
CN109783026A (zh) 一种自动化配置服务器raid的方法及装置
CN116010111B (zh) 一种跨集群资源调度方法、系统及终端设备
CN105022779A (zh) 一种利用Filesystem API实现HDFS文件存取方法
CN104657240B (zh) 多内核操作系统的失效控制方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant