CN111884924B - 冗余化装置、冗余化系统以及冗余化方法 - Google Patents
冗余化装置、冗余化系统以及冗余化方法 Download PDFInfo
- Publication number
- CN111884924B CN111884924B CN202010851984.XA CN202010851984A CN111884924B CN 111884924 B CN111884924 B CN 111884924B CN 202010851984 A CN202010851984 A CN 202010851984A CN 111884924 B CN111884924 B CN 111884924B
- Authority
- CN
- China
- Prior art keywords
- redundancy
- communication paths
- communication
- unit
- normal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/22—Alternate routing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1608—Error detection by comparing the output signals of redundant hardware
- G06F11/1616—Error detection by comparing the output signals of redundant hardware where the redundant component is an I/O device or an adapter therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2033—Failover techniques switching over of hardware resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2038—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2041—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2048—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3419—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/40—Bus networks
- H04L12/40169—Flexible bus arrangements
- H04L12/40176—Flexible bus arrangements involving redundancy
- H04L12/40182—Flexible bus arrangements involving redundancy by using a plurality of communication lines
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/40—Bus networks
- H04L12/40169—Flexible bus arrangements
- H04L12/40176—Flexible bus arrangements involving redundancy
- H04L12/40195—Flexible bus arrangements involving redundancy by using a plurality of nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/24—Multipath
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/24—Multipath
- H04L45/245—Link aggregation, e.g. trunking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/28—Routing or path finding of packets in data switching networks using route fault recovery
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/40—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/81—Threshold
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Hardware Redundancy (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Safety Devices In Control Systems (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Veterinary Medicine (AREA)
- Heart & Thoracic Surgery (AREA)
- Public Health (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Physiology (AREA)
- Small-Scale Networks (AREA)
Abstract
一种冗余化装置,其与冗余化目标装置通信而进行冗余化动作,其中,该冗余化装置具备:多个接收部,它们分别接收从所述冗余化目标装置发送的多个HB信号;计数部,其基于所述接收部的接收结果,对所述多个HB信号的通信路径之中正常的通信路径的数量进行计数;比较部,其对所述计数部的计数结果和预先设定的阈值进行比较;以及切换部,其根据所述计数部的计数结果以及所述比较部的比较结果,将所述冗余化装置从待机状态切换至运转状态、或者从待机状态切换至将所述冗余化动作解除后的解除状态。
Description
本申请是基于2017年3月29日提出的中国国家申请号2017101966910申请(冗余化装置、冗余化系统以及冗余化方法)的分案申请,以下引用其内容。
技术领域
本发明涉及冗余化装置、冗余化系统以及冗余化方法。
本申请针对2016年4月1日申请的日本专利申请第2016-074730号而主张优先权,并在这里引用其内容。
背景技术
为了即使在系统中发生故障也能够使业务持续进行,使用利用多台计算机而实现了冗余化的冗余化系统。在例如图10所示的冗余化系统100中,PC1中具备HB(心跳)发送部100a~100c,PC2中具备HB接收部101a~101c。在正常时,PC1成为Active侧而进行业务处理,并且HB发送部100a~100c将HB信号分别发送至HB接收部101a~101c。PC2在正常时作为StandBy侧进行待机(冗余化)以备用于PC1的异常时。此时,PC2未被目标设备识别。在全部HB接收部101a~101c都无法接收到来自PC1的HB信号的情况下,PC2判断为PC1宕机,PC2切换至Active侧而持续进行业务处理。
但是,在这种冗余化系统中,例如在因HB通信路径的线缆切断等而使得HB信号不通畅的情况下,有时产生所谓的网络分区症状(split brain syndrome,下面记作SB),即,尽管PC1未宕机,PC2也切换至Active侧而进行业务处理。如果发生SB,则PC1和PC2中的例如IP地址、MAC地址等标识符重复,与目标计算机的通信有可能变得不稳定。或者,由于目标设备针对标识符重复的PC1以及PC2误识别为1台PC而进行通信,因此不仅在PC1和PC2之间争夺来自目标设备的通信数据,而且目标设备发生通信混乱,有可能对系统整体造成不良影响。
如果系统内的冗余化的1组装置停止动作,则虽然无法将装置的重要的功能(服务)提供给目标设备,但是由于停止的检测明确而能够迅速地进行装置的复原。另一方面,在发生SB时,有可能保持通信不稳定的状态而持续进行动作。在该情况下,目标设备无法判断该装置的异常,有可能交换错误的信息。因此,从系统整体来看,根据防止冗余化动作停止的对策,避免SB的对策需要具有非常高的可靠性(优先级)。
为了避免这种SB的发生,例如国际公开第2015/098589号中提出有一种冗余化系统,该冗余化系统具有:信号接收部,其对HB信号进行接收;可靠性判定部;以及处理管理部。在该系统中,在信号接收部无法接收到来自其他计算机的HB信号的情况下,可靠性判定部对HB通信路径的可靠性进行判定。在可靠性判定部判定为HB通信路径的可靠性较低的情况下,处理管理部使执行中的业务处理停止。
国际公开第2015/098589号所记载的冗余化系统,在判断为HB通信路径的可靠性较低的情况下,为了避免SB而使执行中的业务处理停止。因此,在该冗余化系统用于例如车间的过程控制系统等、业务处理的持续性的系统的情况下,有可能无法使业务处理持续。
发明内容
为了解决上述问题,本发明的冗余化装置与冗余化目标装置通信而进行冗余化动作,在该冗余化装置中,具备:多个接收部,它们分别接收从所述冗余化目标装置发送的多个HB信号;计数部,其基于所述接收部的接收结果,对所述多个HB信号的通信路径之中正常的通信路径的数量进行计数;比较部,其对所述计数部的计数结果和预先设定的阈值进行比较;以及切换部,其根据所述计数部的计数结果以及所述比较部的比较结果,将所述冗余化装置从待机状态切换至运转状态、或者从待机状态切换至将所述冗余化动作解除的解除状态。
本发明的进一步的特征以及方式通过参照附图并在下面叙述的实施方式的详细的说明而明确。
附图说明
图1是表示第1实施方式的冗余化系统的结构的一个例子的图。
图2是表示第1实施方式的冗余化系统的动作的一个例子的流程图。
图3是表示第2实施方式的冗余化系统的结构的一个例子的图。
图4是表示第3实施方式的冗余化系统的结构的一个例子的图。
图5A是表示第3实施方式中的HB通信路径的结构例的图。
图5B是表示第3实施方式中的HB通信路径的结构例的图。
图5C是表示第3实施方式中的HB通信路径的结构例的图。
图5D是表示第3实施方式中的HB通信路径的结构例的图。
图6是表示第4实施方式的冗余化系统的动作的一个例子的流程图。
图7是表示第5实施方式的冗余化系统的结构的一个例子的图。
图8是表示第5实施方式的冗余化系统的动作的一个例子的流程图。
图9是表示第6实施方式的冗余化系统的结构的一个例子的图。
图10是表示当前的冗余化系统的结构的一个例子的图。
具体实施方式
参照优选的实施方式对本发明的实施方式进行说明。本领域技术人员利用本发明的教导能够实现本实施方式的多种替代方法,本发明并不限定于这里所说明的优选的本实施方式。
本发明的一个方式提供能够防止SB的发生而不使执行中的处理停止的冗余化装置、冗余化系统、以及冗余化方法。
(第1实施方式)
下面,参照图1对第1实施方式所涉及的冗余化系统1的结构进行说明。
如图1所示,本实施方式所涉及的冗余化系统1具有计算机PC1(第1装置)、计算机PC2(第2装置)以及HB通信路径31~33(通信路径)。计算机PC1是冗余化目标装置。计算机PC2是执行冗余化动作的冗余化装置。
PC1以及PC2例如是通用计算机,经由网络而分别与目标设备等连接。
HB通信路径31~33例如使用专用的NIC(Network Interface Card)端口而将PC1和PC2连接。可以利用专用的网络网(L2SW等)而构成HB通信路径31~33。
PC1在正常时处于Active侧(运转状态),被目标设备识别、且对目标设备提供服务等。PC2在正常时处于StandBy侧,不被目标设备识别、且不对目标设备提供服务等。
在PC2正常时,在PC1宕机的情况下,PC2从StandBy侧向Active侧切换而进行待机(冗余化)。在本说明书中将该状态记作“待机状态”。另外,在本说明书将冗余化被解除后的状态记作“解除状态”。
在PC2处于待机状态的情况下,例如在Checkpoint/Restart(内存复制)方式的情况下,如果PC1的内存、磁盘所存储的内容被变更,则将其变更部位复制至PC2,对PC2的数据和PC1的数据进行等值化。或者,在Lockstep(并行执行)方式的情况下,PC2以与PC1的动作同步的方式进行同样的动作。但是,此时,PC2不进行针对目标设备的输出。这样,在PC1宕机的情况下,PC2能够从StandBy侧切换至Active侧而持续提供针对目标设备的服务等。
在本说明书中,如上述PC2那样,将在一者的计算机宕机的情况下另一者的计算机能够从StandBy侧切换至Active侧而持续进行处理的状态下的系统的动作称为“冗余化动作”。
与此相对,将在一者的计算机宕机的情况下另一者的计算机无法持续进行处理的状态下的系统的动作称为“单独动作”。
下面,对冗余化系统1的各部分的具体结构进行说明。
PC1具备HB发送部11a~11c以及处理部12。HB发送部11a~11c分别以恒定的周期(下面,记作HB发送周期)将PC1的HB信号发送至PC2。HB发送周期例如为100ms左右。处理部12具有CPU、内存等,对目标设备提供通过应用程序、OS(Operating System)等实现的服务。
PC2具有HB接收部21a~21c(接收部)、处理部22、HB通信状态判定部23、正常HB通信路径计数部24(计数部)、阈值比较/动作判定部25(比较部)、存储部26、StandBy/Active切换部27(切换部)、以及冗余化/单独动作切换部28(切换部)。
HB接收部21a~21c经由HB通信路径31~33而分别接收由PC1的HB发送部11a~11c发送的HB信号。HB接收部21a以与HB发送部11a的HB发送周期相同的周期从休眠状态启动,接收从HB发送部11a发送的HB信号,将其接收结果输出至HB通信状态判定部23。对于HB接收部21b、21c也一样,将从HB发送部11b、11c发送的HB信号的接收结果分别输出至HB通信状态判定部23。
HB通信状态判定部23基于从HB接收部21a~21c输出的HB信号的接收结果而判定HB通信路径31~33是正常还是不通畅。例如,在经过了HB发送部11a的HB发送周期的3个周期的期间而HB接收部21a仍未接收到HB信号的情况下,HB通信状态判定部23判定为HB通信路径31不通畅。在除此之外的情况下,HB通信状态判定部23判定为HB通信路径31正常。HB通信状态判定部23同样地判定HB通信路径32、33是正常还是不通畅。HB通信状态判定部23将上述判定结果输出至正常HB通信路径计数部24。
正常HB通信路径计数部24对由HB通信状态判定部23判定为正常的HB通信路径的数量(下面,记作正常HB通信路径数)进行计数。各HB接收部21a~21c接收各HB信号的定时未必一致,每当HB通信状态判定部23接收各HB信号时都判定是正常还是不通畅。因此,在HB发送周期的期间,正常HB通信路径计数部24保存基于HB通信状态判定部23的判定结果、并对正常HB通信路径数进行计数。
存储部26对预先设定的规定的阈值进行存储。阈值根据能够允许故障同时发生的HB通信路径的数量而决定。例如图1所示,在共具有3条HB通信路径的情况下,对阈值设定为2的情况进行说明。在3条HB通信路径全部正常的情况下,即使其中的2条HB通信路径同时发生故障,正常的HB通信路径也剩下1条。因此,PC2能够识别出PC1的HB信号。因此,能够避免发生无论PC1是否宕机PC2都变为Active侧的SB。在该情况下,能够允许故障同时发生的最大的HB通信路径的数量为2,因此作为阈值而能够设定小于或等于2的正的整数值。
另一方面,例如在HB通信路径的数量为4的情况下,如果同时发生的故障的HB通信路径小于或等于3条,则能够避免SB的发生。即,能够允许故障同时产生的最大的HB通信路径的数量为3。在该情况下,作为阈值而能够设定小于或等于3的正的整数值。
在如后所述那样判定是否将PC2从待机状态切换至解除状态(失效转移)时使用阈值。
阈值比较/动作判定部25对由正常HB通信路径计数部24保存的最新的正常HB通信路径数(计数结果)、和存储于存储部26的阈值进行比较,基于比较的结果,对冗余化/单独动作切换部28以及StandBy/Active切换部27发出指示。
StandBy/Active切换部27基于阈值比较/动作判定部25的指示而将PC2从StandBy侧切换至Active侧。
冗余化/单独动作切换部28基于阈值比较/动作判定部25的指示而将PC2从待机状态切换至解除状态。由此,冗余化系统1从冗余化动作切换至单独动作。在切换至单独动作以后,即使在正常HB通信路径数变为零的情况下,PC2也不会处于Active侧。
StandBy/Active切换部27和冗余化/单独动作切换部28可以是相同的结构要素。
利用图2所示的流程图对上述的本实施方式的冗余化系统1的动作进行说明。
在初始状态下,PC1处于Active侧,PC2处于StandBy侧(待机状态),冗余化系统1执行冗余化动作(步骤S1)。
然后,HB通信状态判定部23判定各HB通信路径31~33是正常还是不通畅(步骤S2)。
然后,正常HB通信路径计数部24对正常HB通信路径数进行计数并保存其计数结果(步骤S3)。
然后,阈值比较/动作判定部25对正常HB通信路径数和阈值进行比较(步骤S4)。在比较的结果为正常HB通信路径数比阈值大的情况下,PC2的待机状态持续而返回至步骤S2。
在步骤S4的比较的结果为正常HB通信路径数大于或等于1而小于或等于阈值的情况下,阈值比较/动作判定部25对冗余化/单独动作切换部28进行驱动,将PC2从待机状态切换至解除状态,由此将冗余化系统1从冗余化动作切换至单独动作(步骤S5)。由此,执行使PC1处于Active侧的单独动作(步骤S6),然后,即使在HB通信路径发生超过阈值的数量的故障,也能够避免发生SB。
在步骤S4的比较的结果为正常HB通信路径数为0(零)的情况下,判断为PC1已宕机,因此阈值比较/动作判定部25对StandBy/Active切换部27进行驱动,将PC2从StandBy侧切换至Active侧(运转状态)(步骤S7)。由此,执行使PC2处于Active侧的单独动作(步骤S8)。
通过与图10所示的当前的冗余化系统100的比较而对以上所示的本实施方式的冗余化系统1的效果进行说明。
在正常HB通信路径数变为0的情况下,图10所示的当前的冗余化系统100判断为PC1已宕机,将PC2切换至Active侧。另一方面,在正常HB通信路径数大于或等于1的情况下,冗余化系统100判断为PC1未宕机而使冗余化动作持续。在该情况下,例如即使在正常HB通信路径数为1的情况下,也使冗余化动作持续。因此,如果在该状态下在HB通信路径发生故障,则无论PC1是否未宕机,PC2都有可能切换至Active侧而发生SB。
另一方面,在本实施方式的冗余化系统1中,正常HB通信路径计数部24对正常HB通信路径数进行监视。在正常HB通信路径数出现变动的情况下,冗余化系统1通过对正常HB通信路径数和阈值的比较而判断是使冗余化动作持续、还是切换至单独动作。例如在阈值设定为2的情况下,如果正常HB通信路径数变得小于或等于2,则冗余化系统1从冗余化动作切换(后退)至单独动作。因此,即使此后在2条HB通信路径同时发生故障,也能够避免发生SB。
优选作为阈值而设定大于或等于1而比HB通信路径的数量小的值。将阈值设定得越大,越能够提高冗余化系统1的避免SB的可靠性。
例如在用于车间等的过程控制系统中,有时如反馈控制等那样在下一个处理周期的输入中使用直至上一个周期为止的处理数据。在这种情况下,要求无缺失地将直至上一个周期为止的处理数据反映到下一个处理周期的处理中。在因Active侧的计算机宕机等而使得StandBy侧的计算机切换至Active侧并持续进行处理时,为了防止处理数据缺失,要求在控制处理周期内进行处于待机状态的计算机从StandBy侧向Active侧的切换(实时性)。
根据本实施方式的冗余化系统1,能够确保上述实时性。例如在HB发送周期为100ms的情况下,如果将由HB通信状态判定部23判定HB通信路径31~33是正常还是不通畅所需的时间设为HB发送周期的3个周期则达到300ms。正常HB通信路径计数部24对正常HB通信路径数的计数所需的时间、阈值比较/动作判定部25对正常HB通信路径数和阈值的比较所需的时间、以及StandBy/Active切换部27使PC2从StandBy侧向Active侧切换所需的时间分别小于或等于1ms。因此,这一系列动作所需的时间为300ms左右。
即使将车间等的过程控制系统的控制处理周期设为1秒左右,由于上述一系列动作所需的时间充分短于该控制处理周期,因此也能够确保实时性。例如即使PC1宕机,通过在控制处理周期内将PC2从StandBy侧切换至Active侧,也能够防止处理数据的缺失。
通过将阈值设定为较大的值,能够使能够允许故障同时发生的HB通信路径数增加,因此能够提供进一步提高了避免SB的可靠性的冗余化系统1。
PC2可以具有通知部,在检测出HB通信路径不通畅的情况下,该通知部利用其他HB通信路径将针对变得不通畅的HB通信路径的信息通知给PC1。基于从通知部通知的信息而对在正常HB通信路径数小于或等于阈值之前变得不通畅的HB通信路径进行修复,由此能够降低切换至单独动作的频率。
(第2实施方式)
下面,对本发明所涉及的第2实施方式进行说明,基本结构与第1实施方式相同。因此,对与第1实施方式的各部分相对应的部分标注相同的标号并将其说明省略。
在本实施方式中,HB通信路径的结构与第1实施方式不同。
利用图3第2实施方式所涉及的冗余化系统2进行说明。如图3所示,冗余化系统2中的PC1具有HB发送部11n。与HB发送部11a、11b以及11c相同地,HB发送部11n以恒定的周期将PC1的HB信号发送至PC2。
冗余化系统2中的PC2具有HB接收部21n。HB接收部21n经由应用程序用途的已有的NIC、已有的网络网(L2SW等)而接收从PC1的HB发送部11n发送的HB信号。
HB通信路径不需要特殊的网络标准,也不需要将信息加载至HB数据包的数据部。因此,如上所述,能够在HB发送部11n与HB接收部21n之间的通信中使用已有的装置。
(第3实施方式)
下面,对本发明所涉及的第3实施方式进行说明,基本结构与第1实施方式相同。因此,对与第1实施方式的各部分相对应的部分标注相同的标号并将其说明省略。
在第1实施方式中,示出了多条HB通信路径31~33相互独立的情况。即,示出了HB通信路径31~33相互不共享NIC、网络仪器等,而是物理性地独立的情况。这样,在HB通信路径相互独立的情况下,在HB通信路径中发生故障、人为的失误等故障不会对其他HB通信路径造成影响。
另一方面,在实际构建HB通信路径时,存在多条HB通信路径共享1个网络开关的情况等。在这种情况下,有可能因该网络开关本身的故障、不慎将该网络开关的电源断开等人为的失误而使得多条HB通信路径的通信中断。这样,在因与1个开关等相关的故障而使得多条HB通信路径变得不通畅的情况下,在本说明书中记作该多条HB通信路径中存在“故障的关联”。即,故障的关联表示由于多条HB通信路径相互共享网络仪器等而因该网络仪器的故障、人为的失误使得多条HB通信路径同时变得不畅通的情况下的各HB通信路径彼此的相关性。
在第3实施方式中,示出了冗余化系统中包含存在故障的关联的HB通信路径的情况。
利用图4对第3实施方式所涉及的冗余化系统3进行说明。PC1的HB发送部11a~11d分别经由HB通信路径41~44而将HB信号发送至PC2的HB接收部21a~21d。HB通信路径41以及HB通信路径44相对于其他HB通信路径而独立,但HB通信路径42、43通过共用的SW而被进行中继。SW是L2SW、L3SW等开关。如果该SW发生故障,则HB通信路径42、43同时变得不通畅。因此,HB通信路径42、43互相存在故障的关联。
冗余化系统3具有4条HB通信路径41~44,如果发生3个故障(HB通信路径41的故障、SW的故障、HB通信路径44的故障),则全部的HB通信路径41~44变得不通畅。这样,在本说明书中,将与独立的正常HB通信路径数相当的实质上正常的通信路径的数量记作“有效HB通信路径数”。例如,冗余化系统3的有效HB通信路径数为3。
如图4所示,冗余化系统3的PC2具有列表存储部29。该列表存储部29对与上述故障的关联相关的信息即有效HB通信路径列表(列表信息)进行存储。利用表1对该有效HB通信路径列表进行说明。
如表1所示,有效HB通信路径列表中列举出了与HB通信路径41~44分别相关的故障的关联的有无、设想的故障的种类(发生部位)。例如,设想在HB通信路径41的路径内发生与HB通信路径41有关的故障,设想在SW发生与HB通信路径42、43有关的故障。关于HB通信路径42、43,还想到了并非在SW而是在各HB通信路径内分别发生故障,但在各HB通信路径内分别发生的故障包含在HB通信路径42、43同时变得不通畅的SW的故障中。在这样的包含关系的情况下,因故障而变得不通畅的范围较大的条件(最差情况)记载于有效HB通信路径列表中。在表1所示的例子中,记载了有效HB通信路径No.1~No.3,在有效HB通信路径No.2中包含HB通信路径42、43。
【表1】
图4的HB通信路径中的有效HB通信路径列表
关于以上述的方式构成的冗余化系统3的作用,对与第1实施方式不同之处进行说明。
正常HB通信路径计数部24参照在列表存储部29中存储的有效HB通信路径列表(表1)而对正常的有效HB通信路径数进行计数。具体而言,正常HB通信路径计数部24分别判定该时刻下的HB通信路径41~44是正常还是不通畅,将判定结果记录于有效HB通信路径列表中的相应的HB通信路径是否良好这一栏。正常HB通信路径计数部24基于该结果而判定有效HB通信路径No.1~3是正常还是不通畅,将判定结果记录于相应的是否良好这一栏,对判断为正常的有效HB通信路径的数量进行计数。
此时,在具有大于或等于1条的有效HB通信路径正常的HB通信路径的情况下,判断为该有效HB通信路径正常。例如,在表1所示的例子中,只要HB通信路径42、43中的1条正常,就判定为有效HB通信路径No.2正常。在HB通信路径42、43二者都不通畅的情况下,判断为有效HB通信路径No.2不通畅。即,正常的有效HB通信路径数是指在有效HB通信路径列表中具有大于或等于1条的正常的HB通信路径的有效HB通信路径的路径数。其中,在正常的有效HB通信路径的路径数超过正常HB通信路径数的情况下,将正常HB通信路径数设为正常的有效HB通信路径的路径数。例如,在图5C所示的例子中,在只有HB通信路径53b正常的情况下,即使正常HB通信路径数为1,正常的有效HB通信路径的路径数也仍然变为2。在这种情况下,将正常HB通信路径数(=1)设为正常的有效HB通信路径的路径数。
阈值比较/动作判定部25对正常的有效HB通信路径数和阈值进行比较。以有效HB通信路径数为基准对阈值进行设定。阈值比较/动作判定部25基于比较的结果,对StandBy/Active切换部27以及冗余化/单独动作切换部28发出的指示与第1实施方式相同。
本实施方式的冗余化系统3能够将与某个特定的故障相关联的通信路径汇集,集中将它们作为独立的1个通信路径(有效HB通信路径)而处理。
在图4所示的例子中,HB通信路径的数量为4,但HB通信路径42以及43共享SW,因此有效HB通信路径的数量为3。这里,在将阈值设定为2的情况下,如果3条有效HB通信路径中的2条有效HB通信路径在同一时期变得不通畅,则PC2以避免发生SB的方式进行动作(PC2从“待机状态”转换为“解除状态”)。
PC2在3条有效HB通信路径均正常的情况下持续进行冗余化动作。然而,例如如果HB通信路径41和SW变得不通畅,则2条有效HB通信路径在同一时期变得不通畅(即,与阈值=2等同的状态),PC2转换为“解除状态”(切换至单独运转)。
通过该动作,即使在此后在HB通信路径44中发生故障的情况下,PC2也能够避免SB而不转换至Active侧。
这里,利用图5A~图5D以及表2~表5有效HB通信路径列表的变形例对进行说明。
如图5A所示,在例1的HB通信路径中,在HB通信路径51b内包含SW,但HB通信路径51b和HB通信路径51a相互独立。因此,在HB通信路径51a与HB通信路径51b之间不存在故障的关联。在该情况下,如表2中示出的有效HB通信路径列表所示,HB通信路径数和有效HB通信路径数相等,二者均为2。
【表2】
例1的HB通信路径中的有效HB通信路径列表
如图5B所示,在例2的HB通信路径中,HB通信路径52a独立,但HB通信路径52b、52c共享1个SW。如果该SW中发生故障,则HB通信路径52b、52c同时变得不通畅。因此,这2条HB通信路径52b、52c相互存在故障的关联。在该情况下,如表3中示出的有效HB通信路径列表所示,HB通信路径数为3,有效HB通信路径数为2。
【表3】
例2的HB通信路径中的有效HB通信路径列表
如图5C所示,在例3的HB通信路径中,HB通信路径53a、53b共享SW1,HB通信路径53b、53c共享SW2,HB通信路径53c、53d共享SW3。因此,如果SW1中发生故障,则HB通信路径53a、53b同时变得不通畅。如果SW2中发生故障,则HB通信路径53b、53c同时变得不通畅。如果SW3中发生故障,则HB通信路径53c、53d同时变得不通畅。在该情况下,如表4中示出的有效HB通信路径列表那样,有效HB通信路径数为3。
【表4】
例3的HB通信路径中的有效HB通信路径列表
如图5D所示,在例4的HB通信路径中,HB通信路径54a、54b共享SW1,HB通信路径54a、54b、54c共享SW2,HB通信路径54c、54d共享SW3。因此,因SW1发生故障而HB通信路径54a、54b同时变得不通畅的故障,包含在因SW2发生故障而HB通信路径54a、54b、54c同时变得不通畅的故障中。在该情况下,如表5所示的有效HB通信路径列表那样,并未列举因SW1发生故障而HB通信路径54a、54b同时变得不通畅的故障,有效HB通信路径数为2。这样,在有效HB通信路径数只有2条的情况下,为了假设即使SW2或者SW3中发生异常也不发生SB而将阈值设定为1。由此,例如在SW2或者SW3的任一者发生了异常的情况下,有效HB通信路径数变为1(=阈值),因此PC2转换为“解除状态”(切换为单独运转)。
通过该动作,即使在此后产生了剩余的SW的故障的情况下,PC2也能够避免SB而不转换至Active侧。
【表5】
例4的HB通信路径中的有效HB通信路径列表
(第4实施方式)
下面,对本发明所涉及的第4实施方式进行说明,基本结构与第1实施方式相同。因此,对与第1实施方式的各部分相对应的部分标注相同的标号并将其说明省略。
在第1实施方式中,示出了如下结构,即,在正常HB通信路径数小于或等于阈值时,PC2从待机状态切换至解除状态,冗余化系统1切换(后退)至单独动作,由此避免SB的发生。
在第4实施方式中,冗余化系统能够自动地从单独动作修复为冗余化动作。
利用图6所示的流程图对第4实施方式的冗余化系统的动作进行说明。
关于步骤S6之前的动作,与图2所示的第1实施方式的步骤S1~步骤S6的动作相同,因此将说明省略。
在第4实施方式中,在步骤S6中将PC2从待机状态切换至解除状态而执行了单独动作之后,HB通信状态判定部23持续判定HB通信路径31~33是正常还是不通畅,掌握正常的HB通信路径以及变得不通畅的HB通信路径(步骤S9)。
正常HB通信路径计数部24对正常HB通信路径数进行计数(步骤S10)。
然后,阈值比较/动作判定部25对正常HB通信路径数和阈值进行比较(步骤S11)。在比较的结果为正常HB通信路径数小于或等于阈值的情况下返回至步骤S9。在比较的结果是正常HB通信路径数变为比阈值大的值的情况下,阈值比较/动作判定部25对冗余化/单独动作切换部28进行驱动而将PC2从解除状态切换至待机状态。由此,将冗余化系统1从单独动作切换至冗余化动作(步骤S12)而执行冗余化动作(步骤S13)。
由此,例如即使在HB通信路径因一部分开关等的故障、线缆的脱落·切断等而变得不通畅,正常HB通信路径数暂时性地小于或等于阈值而使得冗余化系统切换至单独动作的情况下,也能够在此后对变得不通畅的部位进行修复而使得正常HB通信路径数恢复为超过阈值的数量的情况下,自动地使系统的冗余化动作复原。
在步骤S6中将PC2切换至解除状态之后,也使PC2持续进行与PC1的数据的等值化等。由此,在HB通信路径数恢复为超过阈值的数量的情况下,能够讯速地使系统的冗余化动作复原。
可以对本实施方式和第3实施方式进行组合,通过对有效HB通信路径数和阈值的比较而使冗余化系统3从单独动作自动地复原为冗余化动作。
(第5实施方式)
下面,对本发明所涉及的第5实施方式进行说明,基本结构与第1实施方式相同。因此,对与第1实施方式的各部分相对应的部分标注相同的标号并将其说明省略。
在第1实施方式中,PC2中具有阈值比较/动作判定部25等用于实现后退功能的结构要素。然而,在第5实施方式中,PC1中也具有这些结构要素。在因PC1宕机等而冗余化系统执行使PC2处于Active侧的单独动作之后,在PC1复原后的情况下自动地进行冗余化动作的复原。
如图7所示,本实施方式的冗余化系统4中的PC1具有HB接收部19a~19c、HB通信状态判定部13、正常HB通信路径计数部14、阈值比较/动作判定部15、存储部16、StandBy/Active切换部17以及冗余化/单独动作切换部18。这些结构要素的动作与PC2中的相对应的结构要素的动作相同,因此将详细的说明省略。
冗余化系统4具有HB通信路径34~36。HB通信路径34~36将由PC2的HB发送部29a~29c发送的HB信号分别传递至PC1的HB接收部19a~19c。
此外,HB通信路径31以及34可以是物理性相同的路径,HB通信路径32以及35可以是物理性相同的路径,HB通信路径33以及36可以是物理性相同的路径。在该情况下,HB发送部11a以及HB接收部19a可以作为HB发送接收部而构成,HB发送部11b以及HB接收部19b可以作为HB发送接收部而构成,HB发送部11c以及HB接收部19c可以作为HB发送接收部而构成。
利用图8所示的流程图对本实施方式所涉及的冗余化系统4的作用进行说明。关于步骤S8以前的动作,与图2所示的第1实施方式的步骤S1~S4以及步骤S7、步骤S8相同,因此将说明省略。
在PC2执行Active侧的单独动作(步骤S8)之后,PC1的HB通信状态判定部13对HB通信路径34~36是正常还是不通畅进行判定(步骤S14)。
然后,正常HB通信路径计数部14对HB通信路径34~36中的正常HB通信路径数进行计数(步骤S15)。
然后,阈值比较/动作判定部15对正常HB通信路径数、和存储于存储部16的阈值进行比较(步骤S16)。在比较的结果是正常HB通信路径数小于或等于阈值的情况下返回至步骤S14。在比较的结果是正常HB通信路径数比阈值大的情况下,阈值比较/动作判定部15将用于使PC1从解除状态切换至待机状态的指示输出至冗余化/单独动作切换部18。冗余化/单独动作切换部18根据来自阈值比较/动作判定部15的指示而将冗余化系统4从单独动作切换至冗余化动作(步骤S17)。由此,使PC2处于Active侧且使PC1处于StandBy侧的、冗余化系统4的冗余化动作自动地复原(步骤S18)。
这样,在PC2因例如PC1宕机而处于Active侧之后,在PC1复原后的情况下,能够使冗余化系统4自动地从单独动作复原为冗余化动作。
(第6实施方式)
下面,对本发明所涉及的第6实施方式进行说明。在第1实施方式~第5实施方式中,对基于2台PC的双重化运转进行了说明。然而,在本实施方式中,对基于大于或等于3台的PC的多重化运转进行说明。
如图9所示,本实施方式的冗余化系统5具有1台Active侧的PC即PC1、以及2台StandBy侧的PC即PC2以及PC3(第3装置)。本实施方式的PC1具有与第5实施方式中示出的PC1(参照图7)相同的结构,与PC2以及PC3彼此对HB信号进行发送接收。与此相同,PC2与PC1以及PC3彼此对HB信号进行发送接收,PC3与PC1以及PC2彼此对HB信号进行发送接收。PC1~PC3分别通过与图2所示的流程图相同的步骤对与其他2台PC之间的正常HB通信路径数进行计数,对正常HB通信路径数和阈值进行比较。由此,能够进行冗余化/单独动作的切换以及StandBy/Active的切换。
在图9所示的例子中,PC1-PC2之间的HB通信路径数为4,PC1-PC3之间的HB通信路径数为4,PC2-PC3之间的HB通信路径数为4,任意的HB通信路径均通过各SW1~4进行中继。这样,使冗余化系统5进行3重化运转。StandBy侧的PC可以大于或等于3台。
在PC1-PC2之间的阈值、PC1-PC3之间的阈值、PC2-PC3之间的阈值分别设定为3的情况下,如果各PC之间的正常的HB通信路径大于或等于4条,则持续进行3重化运转。假设即使在该状态下在同一时期发生3个(阈值设定值)的HB通信路径的异常,正常的HB通信路径也残留有大于或等于1条的路径。因此,能够通过正常的路径而确认Active侧的PC1的生存。如果在该条件下后退(变换为单独动作),则能够避免发生SB。
在所述第1实施方式~第5实施方式中,作为“后退”而对冗余化系统从冗余化动作切换至单独动作的情况进行了说明。然而,本实施方式中的后退还包括从3重化运转切换至双重化运转的情况。
例如,如图9所示,在利用3台PC执行3重化运转的情况下,PC2以及PC3分别对来自PC1的HB信号进行确认。例如,在由PC2确认的PC1-PC2之间的正常HB通信路径数大于或等于1且小于或等于阈值的情况下,PC2从待机状态切换至解除状态。另一方面,在由PC3确认的PC1-PC3之间的正常HB通信路径数比阈值大的情况下,PC3持续处于待机状态。其结果,3重化运转后退至双重化运转。PC2以及PC3的阈值可以分别设定为不同的值。
在PC1~PC3分别具有本发明的第5实施方式中示出的结构(参照图7)的情况下,能够自动地从2重化运转复原为3重化运转。
例如,PC1-PC2之间的正常HB通信路径数在3重化运转中变得大于或等于1且小于或等于阈值,在PC2从待机状态切换至解除状态之后,并且在PC1发生故障而PC3切换至Active侧的情况下,如果正常则冗余化系统5使PC3单独地执行单独动作。
这里,在处于解除状态的PC2、与处于Active侧的PC3之间的正常HB通信路径数比阈值大的情况下,PC2切换至待机状态,执行PC2以及PC3的冗余化动作。
由此,即使在发生PC1-PC2之间的正常HB通信路径数的减少以及PC1的故障这样的多重故障的情况下,也能够防止冗余化系统5切换至单独动作而持续进行基于PC2以及PC3的冗余化动作,能够维持系统整体的可靠性。
如以上说明,根据第6实施方式的冗余化系统5,即使在大于或等于3台的PC中的处于Active侧的PC改变了的情况下,各PC也参照在与Active侧的PC之间设定的阈值,在与Active侧的PC之间自动地切换至解除状态或者复原为待机状态。由此,第6实施方式的冗余化系统5能够自动地执行与其条件相应的台数的冗余化动作(主动地变化)。
在如冗余化系统5那样利用大于或等于2台的StandBy侧的PC实施冗余化的情况下,各PC的HB接收部以及HB发送部可以使用共用的结构。例如,在PC1~PC3分别使用1个共用HB接收部的情况下,HB通信部可以具有如下功能,即,根据由上述共用HB接收部接收到的、PC1~PC3各自的HB数据包中所包含的发送源地址而判断是来自哪个PC的HB信号。在PC1~PC3分别使用1个共用HB发送部的情况下,该共通HB发送部可以通过经由SW等分支的HB通信路径而与各PC连接。
上述的第1~第6实施方式及其变形例能够应用于使用例如https://www.yokogawa.co.jp/rd/pdf/tr/rd-tr-r05402-005.pdf所示那样的控制器、网关装置等的车间的过程控制系统。
在这种过程控制系统中,要求高可靠性/实时性。然而,通过应用上述各实施方式并利用多台PC进行冗余化动作,能够应对这些要求。
下面,重新对本发明的概念(理念)进行整理记述。
在包含冗余化装置的冗余化系统中,在一部分冗余化装置发生故障的情况下,其他装置(目标设备等)能够掌握发生了该故障的情况,还能够采取对策。另一方面,如果冗余化装置中发生SB,则其他装置无法检测出冗余化装置的异常,有可能使用因通信的不稳定而引起的错误的数据。因此,从系统整体来看,重要的是通过避免冗余化装置的故障而避免发生SB。
本发明的基本理念在于,作为使冗余化装置的(有效)HB通信路径至少剩余1条路径(即,略微降低可执行冗余化动作条件)的补偿,实施后退(停止冗余化动作而变换至单独动作),进行避免SB的动作。
为了与冗余化装置的结构(HB通信路径数等)相应地且适当地设定后退的条件,提出了阈值这一概念。
考虑到多条HB通信路径内存在单个故障点(故障的关联)的情况,提出了有效HB通信路径数这一概念。
还针对使后退的冗余化装置临时复原为冗余化动作的手段、方法提出了解决方案。
在由多台PC构成的冗余化装置中,针对如下方式而提出了方案,根据将各PC之间连接的HB通信路径的状况,使进行冗余化动作的PC的台数主动地变化而确保可靠性,并且实现对SB的避免。
发生SB的概率越低越优选,通过将SB的发生概率设定为比系统从冗余化动作切换至单独动作的概率低,能够在发生SB之前使成为SB的原因的冗余化动作停止。因此,在要求较高的可靠性的车间的过程控制系统等中,可以以使得SB发生概率比系统从冗余化动作切换至单独动作的概率低的方式对冗余化系统的结构(PC的台数、HB通信路径数、以及阈值等)进行设定。
在本说明书中,“前、后、上、下、右、左、垂直、水平、下、横、行以及列”等表示方向的词语是指本发明的装置中的这些方向。因此,应当在本发明的装置中相对地对本发明的说明书中的这些词语进行解释。
为了表示用于执行本发明的功能而构成、或者表示装置的结构、要素、部分而使用“构成”这一词语。
并且,在权利要求中作为“手段和功能”而表述的词语,应当包含为了执行本发明中所包含的功能而能够利用的全部构造。
为了表示用于结构要素、单元、硬件、用于执行所期望的功能而编制的软件的一部分而使用“单元”这一词语。硬件的典型例是装置、电路,但并不局限于此。
以上对本发明的优选的实施例进行了说明,但本发明并不限定于这些实施例。在不脱离本发明的主旨的范围内,能够进行结构的附加、省略、置换以及其他变更。本发明并不限定于前述的说明,仅由附件的权利要求书来进行限定。
Claims (1)
1.一种冗余化系统,其具备第1装置和第2装置,该第2装置与该第1装置通信而进行冗余化动作,其中,
所述第2装置具备:
多个接收部,其分别接收从所述第1装置发送的多个HB信号;
计数部,其基于所述接收部的接收结果对所述多个HB信号的通信路径之中正常的通信路径的数量进行计数;
比较部,其对所述计数部的计数结果和设定为大于或等于1且比所述多个HB信号的通信路径的数量小的值的阈值进行比较;以及
切换部,其在所述计数部的计数结果为零的情况下,将所述第2装置从待机状态切换至运转状态,在所述计数部的计数结果大于或等于1且小于或等于所述阈值的情况下,将所述第2装置从所述待机状态切换至将所述冗余化动作解除后的解除状态,
所述冗余化系统还具备第3装置,该第3装置与所述第1装置及第2装置通信而进行冗余化动作,
所述第2装置基于从所述第3装置发送的多个HB信号的接收结果而进行所述解除状态或者所述待机状态的维持、或者进行从所述解除状态向所述待机状态的切换。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016074730A JP6409812B2 (ja) | 2016-04-01 | 2016-04-01 | 冗長化装置、冗長化システム、及び冗長化方法 |
JP2016-074730 | 2016-04-01 | ||
CN201710196691.0A CN107276731B (zh) | 2016-04-01 | 2017-03-29 | 冗余化装置、冗余化系统以及冗余化方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710196691.0A Division CN107276731B (zh) | 2016-04-01 | 2017-03-29 | 冗余化装置、冗余化系统以及冗余化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111884924A CN111884924A (zh) | 2020-11-03 |
CN111884924B true CN111884924B (zh) | 2022-10-04 |
Family
ID=58489489
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010851984.XA Active CN111884924B (zh) | 2016-04-01 | 2017-03-29 | 冗余化装置、冗余化系统以及冗余化方法 |
CN201710196691.0A Active CN107276731B (zh) | 2016-04-01 | 2017-03-29 | 冗余化装置、冗余化系统以及冗余化方法 |
CN202010850710.9A Active CN111884923B (zh) | 2016-04-01 | 2017-03-29 | 冗余化装置、冗余化系统以及冗余化方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710196691.0A Active CN107276731B (zh) | 2016-04-01 | 2017-03-29 | 冗余化装置、冗余化系统以及冗余化方法 |
CN202010850710.9A Active CN111884923B (zh) | 2016-04-01 | 2017-03-29 | 冗余化装置、冗余化系统以及冗余化方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10339018B2 (zh) |
EP (1) | EP3226485B1 (zh) |
JP (1) | JP6409812B2 (zh) |
CN (3) | CN111884924B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108964978B (zh) * | 2018-06-05 | 2021-03-16 | 北京空间飞行器总体设计部 | 一种基于三机通信有限状态机模型的三机表决方法 |
CN110488597B (zh) * | 2019-08-18 | 2021-06-22 | 中车永济电机有限公司 | 机车主处理单元双冗余控制方法 |
CN113472641B (zh) * | 2020-03-31 | 2023-07-07 | 中国电信股份有限公司 | 链路控制方法、装置、系统、协同业务编排器及存储介质 |
CN114384793B (zh) * | 2022-03-24 | 2022-06-07 | 成都万创科技股份有限公司 | 一种多智能设备的监控系统及其控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1667600A (zh) * | 2004-03-12 | 2005-09-14 | 东芝解决方案株式会社 | 分布式系统和冗余控制方法 |
CN101227319A (zh) * | 2007-01-15 | 2008-07-23 | 日立通讯技术株式会社 | 冗余切换方法 |
CN102684929A (zh) * | 2012-06-06 | 2012-09-19 | 广东威创视讯科技股份有限公司 | 一种双机热冗余备份方法和系统 |
CN102984059A (zh) * | 2012-11-22 | 2013-03-20 | 中国电子科技集团公司第三十二研究所 | 千兆以太网冗余网卡及其链路切换条件判定结果控制方法 |
CN103955188A (zh) * | 2014-04-24 | 2014-07-30 | 清华大学 | 支持冗余切换功能的控制系统及方法 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6324161B1 (en) * | 1997-08-27 | 2001-11-27 | Alcatel Usa Sourcing, L.P. | Multiple network configuration with local and remote network redundancy by dual media redirect |
CN1109416C (zh) * | 2000-04-25 | 2003-05-21 | 华为技术有限公司 | 交换机的主备倒换方法及其实现装置 |
JP2002123406A (ja) * | 2000-10-17 | 2002-04-26 | Pfu Ltd | 高信頼性システム |
US6785678B2 (en) * | 2000-12-21 | 2004-08-31 | Emc Corporation | Method of improving the availability of a computer clustering system through the use of a network medium link state function |
US6782489B2 (en) * | 2001-04-13 | 2004-08-24 | Hewlett-Packard Development Company, L.P. | System and method for detecting process and network failures in a distributed system having multiple independent networks |
CN100388218C (zh) * | 2002-06-27 | 2008-05-14 | 中兴通讯股份有限公司 | 一种在服务器之间实现备份的方法 |
US20040153700A1 (en) * | 2003-01-02 | 2004-08-05 | Nixon Mark J. | Redundant application stations for process control systems |
US7330999B2 (en) * | 2003-04-23 | 2008-02-12 | Dot Hill Systems Corporation | Network storage appliance with integrated redundant servers and storage controllers |
US7627780B2 (en) * | 2003-04-23 | 2009-12-01 | Dot Hill Systems Corporation | Apparatus and method for deterministically performing active-active failover of redundant servers in a network storage appliance |
US7284147B2 (en) * | 2003-08-27 | 2007-10-16 | International Business Machines Corporation | Reliable fault resolution in a cluster |
EP1538812A1 (en) * | 2003-12-01 | 2005-06-08 | Alcatel | System for redundantly exchanging information parts |
JP2005196467A (ja) | 2004-01-07 | 2005-07-21 | Hitachi Ltd | ストレージシステム、ストレージシステムの制御方法、及びストレージ制御装置 |
US8543781B2 (en) * | 2004-02-06 | 2013-09-24 | Vmware, Inc. | Hybrid locking using network and on-disk based schemes |
US7603480B2 (en) * | 2004-09-16 | 2009-10-13 | Nec Corporation | System using pseudo redundant configurator to switch network devices between operating and standby states |
US20060056285A1 (en) * | 2004-09-16 | 2006-03-16 | Krajewski John J Iii | Configuring redundancy in a supervisory process control system |
WO2008038710A1 (fr) * | 2006-09-28 | 2008-04-03 | Mitsubishi Electric Corporation | Détecteur de défauts, procédé et programme de détection de défauts |
WO2008086077A1 (en) * | 2007-01-03 | 2008-07-17 | Raytheon Company | Computer storage system |
US8498967B1 (en) * | 2007-01-30 | 2013-07-30 | American Megatrends, Inc. | Two-node high availability cluster storage solution using an intelligent initiator to avoid split brain syndrome |
CN101291243B (zh) * | 2007-04-16 | 2012-10-10 | 广东新支点技术服务有限公司 | 高可用集群系统的裂脑预防方法 |
US8122283B2 (en) * | 2008-05-07 | 2012-02-21 | Padcom Holdings Inc. | Communications path status detection system |
US8006129B2 (en) * | 2008-10-03 | 2011-08-23 | Cisco Technology, Inc. | Detecting and preventing the split-brain condition in redundant processing units |
CN101378359A (zh) * | 2008-10-06 | 2009-03-04 | 中兴通讯股份有限公司 | 一种强制链路主备切换的方法和装置 |
JP5392034B2 (ja) * | 2009-12-01 | 2014-01-22 | 富士通株式会社 | 通信装置および通信方法 |
US8108715B1 (en) * | 2010-07-02 | 2012-01-31 | Symantec Corporation | Systems and methods for resolving split-brain scenarios in computer clusters |
JP5558279B2 (ja) * | 2010-09-13 | 2014-07-23 | 株式会社東芝 | 監視制御システム、およびこれに利用する監視制御装置、監視制御方法 |
CN103001787B (zh) * | 2011-09-16 | 2016-08-03 | 中国银联股份有限公司 | 用于数据处理中心容灾备份的系统及方法 |
CN102394787B (zh) * | 2011-12-14 | 2015-09-30 | 重庆邮电大学 | 基于epa交换机的双链路冗余控制方法 |
CN103297396B (zh) * | 2012-02-28 | 2016-05-18 | 国际商业机器公司 | 群集系统中管理故障转移的装置和方法 |
CN102799394B (zh) * | 2012-06-29 | 2015-02-25 | 华为技术有限公司 | 一种实现高可用集群的心跳服务的方法及装置 |
CN103780413B (zh) * | 2012-10-22 | 2017-05-17 | 北京临近空间飞行器系统工程研究所 | 一种无缝冗余切换数据传输系统及其实现方法 |
CN103077091B (zh) * | 2012-12-28 | 2015-09-23 | 瑞斯康达科技发展股份有限公司 | 一种主备倒换的管理方法和系统 |
US10614816B2 (en) * | 2013-10-11 | 2020-04-07 | Qualcomm Incorporated | Systems and methods of communicating redundant frame information |
JP6183931B2 (ja) * | 2013-12-25 | 2017-08-23 | Necソリューションイノベータ株式会社 | クラスタシステム、サーバ装置、クラスタシステムの管理方法、及びプログラム。 |
CN103780365B (zh) * | 2014-01-26 | 2017-03-29 | 中国神华能源股份有限公司 | 动态的多链路冗余数据传输方法 |
-
2016
- 2016-04-01 JP JP2016074730A patent/JP6409812B2/ja active Active
-
2017
- 2017-03-28 EP EP17163202.9A patent/EP3226485B1/en active Active
- 2017-03-28 US US15/470,976 patent/US10339018B2/en active Active
- 2017-03-29 CN CN202010851984.XA patent/CN111884924B/zh active Active
- 2017-03-29 CN CN201710196691.0A patent/CN107276731B/zh active Active
- 2017-03-29 CN CN202010850710.9A patent/CN111884923B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1667600A (zh) * | 2004-03-12 | 2005-09-14 | 东芝解决方案株式会社 | 分布式系统和冗余控制方法 |
CN101227319A (zh) * | 2007-01-15 | 2008-07-23 | 日立通讯技术株式会社 | 冗余切换方法 |
CN102684929A (zh) * | 2012-06-06 | 2012-09-19 | 广东威创视讯科技股份有限公司 | 一种双机热冗余备份方法和系统 |
CN102984059A (zh) * | 2012-11-22 | 2013-03-20 | 中国电子科技集团公司第三十二研究所 | 千兆以太网冗余网卡及其链路切换条件判定结果控制方法 |
CN103955188A (zh) * | 2014-04-24 | 2014-07-30 | 清华大学 | 支持冗余切换功能的控制系统及方法 |
Non-Patent Citations (1)
Title |
---|
千兆冗余以太网链路状态检测技术;伍新维等;《计算机工程》;20131215(第12期);81-84 * |
Also Published As
Publication number | Publication date |
---|---|
EP3226485B1 (en) | 2019-01-09 |
JP2017187868A (ja) | 2017-10-12 |
CN111884923A (zh) | 2020-11-03 |
CN111884924A (zh) | 2020-11-03 |
US20170286242A1 (en) | 2017-10-05 |
EP3226485A1 (en) | 2017-10-04 |
CN111884923B (zh) | 2022-08-30 |
JP6409812B2 (ja) | 2018-10-24 |
US10339018B2 (en) | 2019-07-02 |
CN107276731B (zh) | 2021-03-26 |
CN107276731A (zh) | 2017-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111884924B (zh) | 冗余化装置、冗余化系统以及冗余化方法 | |
US5983371A (en) | Active failure detection | |
US8006129B2 (en) | Detecting and preventing the split-brain condition in redundant processing units | |
US7623444B2 (en) | Apparatus and method for redundancy control of duplex switch board | |
EP0649092A1 (en) | Method and apparatus for fault tolerant connection of a computing system to local area networks | |
US20140185427A1 (en) | Dual-ring switch for rstp networks | |
JP2006260259A (ja) | 情報処理システムの制御方法、情報処理システム、情報処理システムの制御プログラム、冗長構成制御装置 | |
US20100290339A1 (en) | Fault-Tolerant Ethernet Network | |
US20020120884A1 (en) | Multi-computer fault detection system | |
US20050177766A1 (en) | Systems and methods for fault-tolerant processing with processor regrouping based on connectivity conditions | |
JP7503679B2 (ja) | 受信盤 | |
US20060274646A1 (en) | Method and apparatus for managing network connection | |
US7210069B2 (en) | Failure recovery in a multiprocessor configuration | |
JP5176914B2 (ja) | 伝送装置及び冗長構成部の系切替え方法 | |
JP2001344125A (ja) | 2重化ノードシステム | |
US11954509B2 (en) | Service continuation system and service continuation method between active and standby virtual servers | |
JP6654662B2 (ja) | サーバ装置およびサーバシステム | |
KR102386978B1 (ko) | 이더넷 경로 페일오버 장치 및 방법 | |
EP4084492A1 (en) | A method, system and olt for dual-parenting pon protection | |
JPH1196033A (ja) | 情報処理装置 | |
KR960010879B1 (ko) | 공통의 버스 자원을 공유한 다수 프로세서의 버스 이중화 제어 및 버스 이상 상태 발생시 복구 처리방법 | |
JP4431262B2 (ja) | 制御装置 | |
CN117560268A (zh) | 集群管理方法及相关装置 | |
JP3800931B2 (ja) | 分散型自動火災報知システム | |
JP2003114833A (ja) | インタフェース制御装置および記憶装置ならびにインタフェース制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |