CN107257298A - 一种故障处理方法及装置 - Google Patents

一种故障处理方法及装置 Download PDF

Info

Publication number
CN107257298A
CN107257298A CN201710624419.8A CN201710624419A CN107257298A CN 107257298 A CN107257298 A CN 107257298A CN 201710624419 A CN201710624419 A CN 201710624419A CN 107257298 A CN107257298 A CN 107257298A
Authority
CN
China
Prior art keywords
node controller
node
information
group system
communication failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710624419.8A
Other languages
English (en)
Inventor
王佳琪
李美欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710624419.8A priority Critical patent/CN107257298A/zh
Publication of CN107257298A publication Critical patent/CN107257298A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Small-Scale Networks (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本发明提出一种故障处理方法,应用于集群系统的仲裁盘,该方法包括:接收节点控制器发送的通信故障报告信息;根据所述通信故障报告信息,确认发生故障的节点控制器;如果所述发生故障的节点控制器为主节点控制器,则将所述集群系统中的任一正常工作的普通节点控制器设置为主节点控制器;如果所述发生故障的节点控制器为普通节点控制器,则控制所述集群系统的主节点控制器在所述集群系统中广播表征所述发生故障的节点控制器发生故障的信息。上述方法实现了集群系统自动处理通信故障,保证了集群系统的正常工作。

Description

一种故障处理方法及装置
技术领域
本发明涉及集群通信技术领域,尤其涉及一种故障处理方法及装置。
背景技术
由多个节点控制器组成的集群系统,在性能上可以满足大量数据快速处理的需求。集群系统作为一个整体为用户提供应用服务的过程中,需要对集群中各个节点控制器进行统筹管理。
其中,在集群系统工作过程中,由于各种各样的原因,集群内的节点控制器不可避免的会出现故障。当节点控制器出现故障,尤其是集群系统中的主节点控制器出现故障时,集群系统应该有一套完善的故障处理机制,将故障节点控制器的工作转移给正常的节点控制器,保证集群系统正常工作。
在现有的集群系统中,主要依靠人工处理系统故障,尚且没有完善的故障处理机制,能够在节点控制器出现故障时,及时处理故障,或及时完成工作转移。
发明内容
基于上述现有技术的缺陷和不足,本发明提出一种故障处理方法及装置,能够在集群系统中的节点控制器出现故障时,自动地进行相应的故障处理。
一种故障处理方法,应用于集群系统的仲裁盘,该方法包括:
接收节点控制器发送的通信故障报告信息;
根据所述通信故障报告信息,确认发生故障的节点控制器;
如果所述发生故障的节点控制器为主节点控制器,则将所述集群系统中的任一正常工作的普通节点控制器设置为主节点控制器;
如果所述发生故障的节点控制器为普通节点控制器,则控制所述集群系统的主节点控制器在所述集群系统中广播表征所述发生故障的节点控制器发生故障的信息。
优选地,所述接收节点控制器发送的通信故障报告信息,包括:
接收主节点控制器发送的通信故障报告信息,和/或接收普通节点控制器发送的通信故障报告信息。
一种故障处理方法,应用于集群系统的节点控制器,该方法包括:
检测所述节点控制器与连接所述节点控制器的其它节点控制器之间,是否发生通信故障;
如果所述节点控制器与连接所述节点控制器的其它节点控制器之间发生通信故障,则向仲裁盘发送通信故障报告信息,使所述仲裁盘根据所述通信故障报告信息完成故障处理。
优选地,在向仲裁盘发送通信故障报告信息后,该方法还包括:
如果所述节点控制器被所述仲裁盘设置为主节点控制器,则在所述集群系统中广播表征所述节点控制器为主节点控制器的信息。
优选地,在所述集群系统中广播表征所述节点控制器为主节点控制器的信息后,该方法还包括:
接收与所述节点控制器连接的其它节点控制器发送的事件信息;
在所述集群系统中广播所述事件信息。
一种故障处理装置,应用于集群系统的仲裁盘,该装置包括:
信息接收单元,用于接收节点控制器发送的通信故障报告信息;
分析单元,用于根据所述通信故障报告信息,确认发生故障的节点控制器;
故障处理单元,用于当所述分析单元确认所述发生故障的节点控制器为主节点控制器时,将所述集群系统中的任一正常工作的普通节点控制器设置为主节点控制器;如果所述发生故障的节点控制器为普通节点控制器,则控制所述集群系统的主节点控制器在所述集群系统中广播表征所述发生故障的节点控制器发生故障的信息。
优选地,所述信息接收单元接收节点控制器发送的通信故障报告信息时,具体用于:
接收主节点控制器发送的通信故障报告信息,和/或接收普通节点控制器发送的通信故障报告信息。
一种故障处理装置,应用于集群系统的节点控制器,该装置包括:
故障检测单元,用于检测所述节点控制器与连接所述节点控制器的其它节点控制器之间,是否发生通信故障;
信息发送单元,用于当所述故障检测单元检测所述节点控制器与连接所述节点控制器的其它节点控制器之间发生通信故障时,向仲裁盘发送通信故障报告信息,使所述仲裁盘根据所述通信故障报告信息完成故障处理。
优选地,该装置还包括:
信息广播单元,用于当所述节点控制器被所述仲裁盘设置为主节点控制器时,在所述集群系统中广播表征所述节点控制器为主节点控制器的信息。
优选地,该装置还包括:
事件信息接收单元,用于接收与所述节点控制器连接的其它节点控制器发送的事件信息;并控制所述信息广播单元在所述集群系统中广播所述事件信息。
本发明提出的故障处理方法应用于集群系统的仲裁盘,当仲裁盘接收到节点控制器发送的通信故障报告信息时,根据所述通信故障报告信息,确认发生故障的节点控制器;如果所述发生故障的节点控制器为主节点控制器,则将所述集群系统中的任一正常工作的普通节点控制器设置为主节点控制器;如果所述发生故障的节点控制器为普通节点控制器,则控制所述集群系统的主节点控制器在所述集群系统中广播表征所述发生故障的节点控制器发生故障的信息。采用上述技术方案,当集群系统中的节点控制器发送故障时,仲裁盘能够根据节点控制器类型,自动执行相应的故障处理方法,或完成工作转移,保证集群系统正常工作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例提供的一种故障处理方法的流程示意图;
图2是本发明实施例提供的另一种故障处理方法的流程示意图;
图3是本发明实施例提供的又一种故障处理方法的流程示意图;
图4是本发明实施例提供的一种故障处理装置的结构示意图;
图5是本发明实施例提供的另一种故障处理装置的结构示意图;
图6是本发明实施例提供的另一种故障处理装置的结构示意图;
图7是本发明实施例提供的另一种故障处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种故障处理方法,应用于集群系统的仲裁盘,参见图1所示,该方法包括:
S101、接收节点控制器发送的通信故障报告信息;
具体的,上述集群系统为由多个节点控制器组成的集群通信系统。集群系统中的节点控制器分为主节点控制器和普通节点控制器。主节点控制器负责集群统筹管理,普通节点控制器负责具体事件处理。任何时候,主节点控制器只有一个,剩余控制器为普通节点控制器。集群系统中的主节点控制器与普通节点控制器的交互过程具体为:当集群系统中有数据输入时,或硬件环境发生变化时,普通节点控制器检测到这种变化,就会产生一个事件。普通节点控制器将该事件发送给主节点控制器,再由主节点控制器统一将事件进行编号,并在集群系统中广播发送,即广播给各个普通节点控制器。集群系统中的每个普通节点控制器都会接收到集群系统中按顺序编号的所有事件,然后根据事件的信息,确定是否执行动作,及如何执行事件动作。
在本发明实施例中,集群系统内的各个节点控制器通过物理链路与后端的共享存储盘连接,该共享存储盘称为仲裁盘。
当集群系统中的节点控制器发现与自身连接的节点控制器之间的通信发生通信故障时,节点控制器通过与仲裁盘之间的物理链路,向仲裁盘发送通信故障报告信息。上述节点控制器包括主节点控制器,和普通节点控制器。通常情况下,主节点控制器与普通节点控制器之间容易发生通信故障。当主节点控制器与某一个普通节点控制器之间的通信发生故障时,主节点控制器和该普通节点控制器都可能向仲裁盘发送通信故障报告信息。
S102、根据所述通信故障报告信息,确认发生故障的节点控制器;
具体的,主节点控制器与普通节点控制器之间的通信故障,分为主节点控制器故障与普通节点控制器故障两种情况。当仲裁盘接收到主节点控制器或普通节点控制器发送的通信故障报告信息后,需要进一步区分到底是主节点控制器故障,还是普通节点控制器故障。
具体的确认方法是,通过通信故障报告信息,确认发生故障的通信链路所涉及的节点控制器。然后,根据节点控制器与仲裁盘之间的物理链路,检测上述所涉及的所有的节点控制器的工作状态。如果节点控制器的工作状态不正常,则确认该工作不正常的节点控制器发生了故障,导致与其连接的节点控制器之间的通信发生故障。
如果所述发生故障的节点控制器为主节点控制器,则执行步骤S103、将所述集群系统中的任一正常工作的普通节点控制器设置为主节点控制器;
具体的,如果集群系统中的主节点控制器发生了故障,那么仲裁盘立即将系统中的任意一个工作正常的普通节点控制器指定为新的主节点控制器,并控制新的主节点控制器将新的主节点控制器信息广播到系统中。基于步骤S101中介绍的主节点控制器与普通节点控制器之间的交互过程,新的主节点控制器中记录了集群系统中按顺序编号的所有事件,即新的主节点控制器具备作为主节点控制器的条件。因此,只需要其它的普通节点控制器都与上述新的主节点控制器连接,即可保证集群系统正常工作。
如果所述发生故障的节点控制器为普通节点控制器,则执行步骤S104、控制所述集群系统的主节点控制器在所述集群系统中广播表征所述发生故障的节点控制器发生故障的信息。
具体的,如果发生故障的节点控制器为普通节点控制器,而主节点控制器工作正常,则仲裁盘不用采取必要的处理措施,因为普通节点控制器退出系统,并不会影响集群系统的正常工作。此时,仲裁盘需要做的只是通知主节点控制器哪个普通节点控制器发生了故障,使主节点控制器广播发生故障的普通节点控制器的信息,告诉所有的节点控制器,该普通节点控制器发生故障,取消与该普通节点控制器相关的事件。
需要说明的是,如果上述通信故障报告信息涉及的节点控制器都没有发生故障,则在通过本发明实施例排除节点控制器故障后,可以执行其它的故障处理策略,处理通信故障。
本发明实施例提出的故障处理方法应用于集群系统的仲裁盘,当仲裁盘接收到节点控制器发送的通信故障报告信息时,根据所述通信故障报告信息,确认发生故障的节点控制器;如果所述发生故障的节点控制器为主节点控制器,则将所述集群系统中的任一正常工作的普通节点控制器设置为主节点控制器;如果所述发生故障的节点控制器为普通节点控制器,则控制所述集群系统的主节点控制器在所述集群系统中广播表征所述发生故障的节点控制器发生故障的信息。采用上述技术方案,当集群系统中的节点控制器发送故障时,仲裁盘能够根据节点控制器类型,自动执行相应的故障处理方法,或完成工作转移,保证集群系统正常工作。
可选的,在本发明的另一个实施例中,所述接收节点控制器发送的通信故障报告信息,包括:
接收主节点控制器发送的通信故障报告信息,和/或接收普通节点控制器发送的通信故障报告信息。
具体的,在本发明实施例中,可以灵活设定当节点控制器之间发生通信故障时,是由主节点控制器发送通信故障报告信息,还是由普通节点控制器发送通信故障报告信息。可选的方式是,由主节点控制器发送,或者由普通节点控制器发送,或者由主节点控制器和普通节点控制器同时发送。
相应的,仲裁盘可能收到主节点控制器发送的通信故障报告信息,或者接收普通节点发送的通信故障报告信息,或者接收主节点控制器和普通节点控制器同时发送的通信故障报告信息。
本发明实施例公开了另一种故障处理方法,应用于集群系统的节点控制器,参见图2所示,该方法包括:
S201、检测所述节点控制器与连接所述节点控制器的其它节点控制器之间,是否发生通信故障;
具体的,实施本发明实施例技术方案的上述节点控制器,包括主节点控制器和普通节点控制器,即本发明实施例技术方案适用于主节点控制器和普通节点控制器。
在集群系统正常工作过程中,各个节点控制器分别检测与自身相连的其它节点控制器之间的通信是否故障,如果没有故障,则执行正常的集群通信。
如果所述节点控制器与连接所述节点控制器的其它节点控制器之间发生通信故障,则执行步骤S202、向仲裁盘发送通信故障报告信息,使所述仲裁盘根据所述通信故障报告信息完成故障处理。
具体的,如果上述节点控制器检测发现与连接上述节点控制器的其它节点控制器之间的通信发生了故障,则上述节点控制器将故障信息以通信故障报告信息的形式,发送给仲裁盘,使仲裁盘根据上述通信故障报告信息,作出处理决策,处理故障。
仲裁盘在接收到通信故障报告信息后,按照上一实施例介绍的技术方案处理故障,具体过程请参见上一实施例,此处不再赘述。
采用本发明实施例提出的故障处理方法,集群系统中的节点控制器自主检测与连接自身的其它节点控制器之间是否发生通信故障,如果发生了通信故障,则向仲裁盘发送通信故障报告信息,使仲裁盘根据通信故障报告信息处理故障。上述过程实现了集群系统自动地检测及处理故障,保证了集群系统的正常工作。
可选的,在本发明的另一个实施例中,参见图3所示,在向仲裁盘发送通信故障报告信息后,该方法还包括:
如果所述节点控制器被所述仲裁盘设置为主节点控制器,则执行步骤S303、在所述集群系统中广播表征所述节点控制器为主节点控制器的信息。
具体的,当节点控制器将通信故障报告信息发送给仲裁盘后,如果仲裁盘根据通信故障报告信息判断发生故障的是主节点控制器,那么在本发明实施例中,仲裁盘将正常工作的普通节点控制器设置为新的主节点控制器,以保证集群系统的正常工作。
当本发明实施例中所述的发送通信故障报告信息的普通节点控制器被仲裁盘设置为新的主节点控制器时,新的主节点控制器在集群系统中广播自身为主节点控制器的信息,使其它的普通节点控制器都与自身连接,从而使集群系统继续执行正常的事件处理。
本实施例中的步骤S301、S302分别对应图2所示的方法实施例中的步骤S201、S202,其具体内容请参见图2所示的方法实施例的内容,此处不再赘述。
可选的,在本发明的另一个实施例中,在所述集群系统中广播表征所述节点控制器为主节点控制器的信息后,该方法还包括:
接收与所述节点控制器连接的其它节点控制器发送的事件信息;
在所述集群系统中广播所述事件信息。
具体的,在本发明实施例中,普通节点控制器被仲裁盘设置为新的主节点控制器后,其余的各个普通节点控制器分别连接新的主节点控制器,继续执行集群系统事件处理。
新的主节点控制器的节点与集群系统原来的主节点控制器执行相同的工作,即通过与普通节点控制器之间的交互,完成事件处理。具体的交互过程为:当集群系统中有数据输入时,或硬件环境发生变化时,普通节点控制器检测到这种变化,就会产生一个事件。普通节点控制器将该事件发送给新的主节点控制器,再由新的主节点控制器统一将事件进行编号,并在集群系统中广播发送,即广播给各个普通节点控制器。集群系统中的每个普通节点控制器都会接收到集群系统中按顺序编号的所有事件,然后根据事件的信息,确定是否执行动作,及如何执行事件动作。
本发明实施例公开了一种故障处理装置,应用于集群系统的仲裁盘,参见图4所示,该装置包括:
信息接收单元401,用于接收节点控制器发送的通信故障报告信息;
分析单元402,用于根据所述通信故障报告信息,确认发生故障的节点控制器;
故障处理单元403,用于当分析单元402确认所述发生故障的节点控制器为主节点控制器时,将所述集群系统中的任一正常工作的普通节点控制器设置为主节点控制器;如果所述发生故障的节点控制器为普通节点控制器,则控制所述集群系统的主节点控制器在所述集群系统中广播表征所述发生故障的节点控制器发生故障的信息。
具体的,本实施例中的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
可选的,在本发明的另一个实施例中,信息接收单元401接收节点控制器发送的通信故障报告信息时,具体用于:
接收主节点控制器发送的通信故障报告信息,和/或接收普通节点控制器发送的通信故障报告信息。
具体的,本实施例中的信息接收单元401的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
本发明实施例公开了另一种故障处理装置,应用于集群系统的节点控制器,参见图5所示,该装置包括:
故障检测单元501,用于检测所述节点控制器与连接所述节点控制器的其它节点控制器之间,是否发生通信故障;
信息发送单元502,用于当所述故障检测单元检测所述节点控制器与连接所述节点控制器的其它节点控制器之间发生通信故障时,向仲裁盘发送通信故障报告信息,使所述仲裁盘根据所述通信故障报告信息完成故障处理。
具体的,本实施例中的各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
可选的,在本发明的另一个实施例中,参见图6所示,该装置还包括:
信息广播单元503,用于当所述节点控制器被所述仲裁盘设置为主节点控制器时,在所述集群系统中广播表征所述节点控制器为主节点控制器的信息。
具体的,本实施例中的信息广播单元503的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
可选的,在本发明的另一个实施例中,参见图7所示,该装置还包括:
事件信息接收单元504,用于接收与所述节点控制器连接的其它节点控制器发送的事件信息;并控制信息广播单元503在所述集群系统中广播所述事件信息。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种故障处理方法,其特征在于,应用于集群系统的仲裁盘,该方法包括:
接收节点控制器发送的通信故障报告信息;
根据所述通信故障报告信息,确认发生故障的节点控制器;
如果所述发生故障的节点控制器为主节点控制器,则将所述集群系统中的任一正常工作的普通节点控制器设置为主节点控制器;
如果所述发生故障的节点控制器为普通节点控制器,则控制所述集群系统的主节点控制器在所述集群系统中广播表征所述发生故障的节点控制器发生故障的信息。
2.根据权利要求1所述的方法,其特征在于,所述接收节点控制器发送的通信故障报告信息,包括:
接收主节点控制器发送的通信故障报告信息,和/或接收普通节点控制器发送的通信故障报告信息。
3.一种故障处理方法,其特征在于,应用于集群系统的节点控制器,该方法包括:
检测所述节点控制器与连接所述节点控制器的其它节点控制器之间,是否发生通信故障;
如果所述节点控制器与连接所述节点控制器的其它节点控制器之间发生通信故障,则向仲裁盘发送通信故障报告信息,使所述仲裁盘根据所述通信故障报告信息完成故障处理。
4.根据权利要求3所述的方法,其特征在于,在向仲裁盘发送通信故障报告信息后,该方法还包括:
如果所述节点控制器被所述仲裁盘设置为主节点控制器,则在所述集群系统中广播表征所述节点控制器为主节点控制器的信息。
5.根据权利要求4所述的方法,其特征在于,在所述集群系统中广播表征所述节点控制器为主节点控制器的信息后,该方法还包括:
接收与所述节点控制器连接的其它节点控制器发送的事件信息;
在所述集群系统中广播所述事件信息。
6.一种故障处理装置,其特征在于,应用于集群系统的仲裁盘,该装置包括:
信息接收单元,用于接收节点控制器发送的通信故障报告信息;
分析单元,用于根据所述通信故障报告信息,确认发生故障的节点控制器;
故障处理单元,用于当所述分析单元确认所述发生故障的节点控制器为主节点控制器时,将所述集群系统中的任一正常工作的普通节点控制器设置为主节点控制器;如果所述发生故障的节点控制器为普通节点控制器,则控制所述集群系统的主节点控制器在所述集群系统中广播表征所述发生故障的节点控制器发生故障的信息。
7.根据权利要求6所述的装置,其特征在于,所述信息接收单元接收节点控制器发送的通信故障报告信息时,具体用于:
接收主节点控制器发送的通信故障报告信息,和/或接收普通节点控制器发送的通信故障报告信息。
8.一种故障处理装置,其特征在于,应用于集群系统的节点控制器,该装置包括:
故障检测单元,用于检测所述节点控制器与连接所述节点控制器的其它节点控制器之间,是否发生通信故障;
信息发送单元,用于当所述故障检测单元检测所述节点控制器与连接所述节点控制器的其它节点控制器之间发生通信故障时,向仲裁盘发送通信故障报告信息,使所述仲裁盘根据所述通信故障报告信息完成故障处理。
9.根据权利要求8所述的装置,其特征在于,该装置还包括:
信息广播单元,用于当所述节点控制器被所述仲裁盘设置为主节点控制器时,在所述集群系统中广播表征所述节点控制器为主节点控制器的信息。
10.根据权利要求9所述的装置,其特征在于,该装置还包括:
事件信息接收单元,用于接收与所述节点控制器连接的其它节点控制器发送的事件信息;并控制所述信息广播单元在所述集群系统中广播所述事件信息。
CN201710624419.8A 2017-07-27 2017-07-27 一种故障处理方法及装置 Pending CN107257298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710624419.8A CN107257298A (zh) 2017-07-27 2017-07-27 一种故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710624419.8A CN107257298A (zh) 2017-07-27 2017-07-27 一种故障处理方法及装置

Publications (1)

Publication Number Publication Date
CN107257298A true CN107257298A (zh) 2017-10-17

Family

ID=60026461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710624419.8A Pending CN107257298A (zh) 2017-07-27 2017-07-27 一种故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN107257298A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109257221A (zh) * 2018-09-27 2019-01-22 北京金茂绿建科技有限公司 一种数据管理控制方法、网络控制器以及系统
CN117155938A (zh) * 2023-10-30 2023-12-01 北京腾达泰源科技有限公司 集群节点故障上报方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512376A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 大型机群系统的集中控制方法
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
CN104283948A (zh) * 2014-09-26 2015-01-14 东软集团股份有限公司 服务器集群系统及其负载均衡实现方法
CN104378232A (zh) * 2014-11-10 2015-02-25 东软集团股份有限公司 主备集群组网模式下的脑裂发现、恢复方法及装置
CN104780511A (zh) * 2014-03-26 2015-07-15 海能达通信股份有限公司 扩展式集群通信系统的异常保护方法及中转台
CN106330531A (zh) * 2016-08-15 2017-01-11 东软集团股份有限公司 节点故障记录和处理的方法以及装置
CN106953914A (zh) * 2017-03-20 2017-07-14 郑州云海信息技术有限公司 一种用于控制器集群的仲裁方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1512376A (zh) * 2002-12-31 2004-07-14 联想(北京)有限公司 大型机群系统的集中控制方法
CN103607297A (zh) * 2013-11-07 2014-02-26 上海爱数软件有限公司 一种计算机集群系统的故障处理方法
CN104780511A (zh) * 2014-03-26 2015-07-15 海能达通信股份有限公司 扩展式集群通信系统的异常保护方法及中转台
CN104283948A (zh) * 2014-09-26 2015-01-14 东软集团股份有限公司 服务器集群系统及其负载均衡实现方法
CN104378232A (zh) * 2014-11-10 2015-02-25 东软集团股份有限公司 主备集群组网模式下的脑裂发现、恢复方法及装置
CN106330531A (zh) * 2016-08-15 2017-01-11 东软集团股份有限公司 节点故障记录和处理的方法以及装置
CN106953914A (zh) * 2017-03-20 2017-07-14 郑州云海信息技术有限公司 一种用于控制器集群的仲裁方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109257221A (zh) * 2018-09-27 2019-01-22 北京金茂绿建科技有限公司 一种数据管理控制方法、网络控制器以及系统
CN109257221B (zh) * 2018-09-27 2022-05-17 北京金茂绿建科技有限公司 一种数据管理控制方法、网络控制器以及系统
CN117155938A (zh) * 2023-10-30 2023-12-01 北京腾达泰源科技有限公司 集群节点故障上报方法、装置、设备及存储介质
CN117155938B (zh) * 2023-10-30 2024-01-12 北京腾达泰源科技有限公司 集群节点故障上报方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
EP3214891B1 (en) Switching-on method, base station and storage medium
CN102904818A (zh) 一种arp信息表项更新方法及装置
CN110891063B (zh) 一种基于安全智能控制器的安全工业控制系统
CN110808873B (zh) 一种检测链路故障的方法及装置
CN102882704B (zh) 一种issu的软重启升级过程中的链路保护方法和设备
CN103399546A (zh) 三冗余控制方法及系统
WO2018233642A1 (zh) 列车网络节点和基于CANopen协议的列车网络节点监测方法
US10044580B2 (en) Redundantly operable industrial communication system, communication device and method for redundantly operating an industrial communication system
CN102025562A (zh) 一种路径检测方法及装置
CN104038376A (zh) 一种管理真实服务器的方法、装置及lvs集群系统
CN109104348A (zh) 基于CANopen协议的列车网络数据传输方法、系统及其装置
CN107257298A (zh) 一种故障处理方法及装置
WO2016095344A1 (zh) 链路切换方法、装置及线卡
CN102594643A (zh) 一种控制器局域网总线通讯控制方法、装置及系统
US20160226980A1 (en) Method for Setting Up an Uninterrupted Communication Connection and Communication Device
CN103441878A (zh) Vcf网络中pe设备的归属处理方法及设备
CN102957565B (zh) 一种多主用设备冲突的处理方法和装置
CN104270452A (zh) 一种远程医疗数据管理系统及其无线网络通信方法
CN104158714A (zh) 过程现场总线分布式外围设备的主设备
CN108667640B (zh) 通信方法及设备、网络接入系统
CN102546304A (zh) 一种检测双向转发检测的方法、设备和系统
US20060182044A1 (en) Method of managing interruptions in an ethernet ring
KR102018225B1 (ko) 연결 방법
CN105450790A (zh) 用于建立安全通讯连接的方法、通讯设备和连接控制单元
CN104283739A (zh) 一种基于分布式issu升级的检测方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171017

RJ01 Rejection of invention patent application after publication