CN109714198A - 一种混合结构网络分布式容错计算机系统容错管理方法 - Google Patents

一种混合结构网络分布式容错计算机系统容错管理方法 Download PDF

Info

Publication number
CN109714198A
CN109714198A CN201811533404.1A CN201811533404A CN109714198A CN 109714198 A CN109714198 A CN 109714198A CN 201811533404 A CN201811533404 A CN 201811533404A CN 109714198 A CN109714198 A CN 109714198A
Authority
CN
China
Prior art keywords
domain
computer
node
running status
domains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811533404.1A
Other languages
English (en)
Other versions
CN109714198B (zh
Inventor
刘帅
程俊强
解文涛
王博
周青
张楠楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN201811533404.1A priority Critical patent/CN109714198B/zh
Publication of CN109714198A publication Critical patent/CN109714198A/zh
Application granted granted Critical
Publication of CN109714198B publication Critical patent/CN109714198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明属于计算机系统可靠性设计技术,是一种混合结构网络的分布式容错计算机系统节点容错管理方法,首先将分布式容错计算机系统根据网络构型的不同,分为多个子系统域,每个域内网络构型一致;域之间的容错计算机系统运行状态由中转计算机节点进行转发,域内计算机节点在接收到中转计算机节点转发的其他域内的节点计算机运行状态表时,根据预先配置的优先级和本域内的中转计算机节点运行状态来选择其他域的运行状态表来源;域内计算机节点之间的运行状态表维护由本域内计算机节点按序相互确认来实现。本发明解决分布式计算机系统的分布式容错管理问题,能够可靠地对系统各子系统域内的计算机节点运行状态进行管理。

Description

一种混合结构网络分布式容错计算机系统容错管理方法
技术领域
本发明属于分布式容错计算机系统容错设计技术领域,是一种混合结构网络的分布式容错计算机系统容错管理方法。
背景技术
计算机的容错能力对于其在安全关键领域的应用具有非常重要的意义。硬件冗余技术是一种有效提高计算机系统容错能力的技术,通过引入多重硬件部件完成同一任务,当系统中的某个冗余部件出现故障,系统将重新组织余下的正常部件继续完成任务。传统基于通道交叉传输、表决监控的容错方式对系统的耦合度要求更高,系统升级扩展性较差,节点故障后对应用任务不透明,增加了应用任务的容错管理复杂度。
随着容错计算机系统体系结构的发展,其容错策略也在不断发展。传统集中式容错计算机系统采用表决监控、故障屏蔽、资源切换等容错策略,而新型分布式容错计算机系统则采用高完整性计算资源、节点故障静默、成员一致性协议、功能备份等方式完成系统管理功能。
混合结构网络的分布式容错计算机系统容错管理方法是在以混合结构网络为核心的分布式容错计算机系统中,通过域内系统运行状态表相互确认、域间系统运行状态表交换等方式,实现了混合结构网络分布式容错计算机系统各计算节点对系统内所有计算机节点的运行状态的一致性相应功能,并对运行状态有问题的节点对自身进行故障静默提供了支撑,有效支撑了新型分布式计算机系统的容错管理方法问题,提升了系统安全性和可靠性。
发明内容
本发明的目的是:提供一种混合结构网络的分布容错计算机系统的容错管理方法。可实现分布式容错计算机系统中各计算机节点的运行状态一致性相应,适用于航空、航天、工业控制领域的新型分布式容错计算机的容错管理。
本发明的技术方案是:
(1)将分布式计算机系统按照网络构型(总线型、交换式网络型等,如:总线型TTP、交换式网络TTE、菊花链总线型1394B总线等)和交联关系(同一种总线构型但该构型下节点间无直接交联关系的根据该构型系统各独立区域划分为独立的子系统域,具有直接交联关系的同一构型总线的子系统划分为一个子系统域)分为多个子系统域,每个子系统域内都由多个独立的分布式计算机节点组成,系统内每个计算机节点都维护一个系统内该节点所关注的所有计算机节点组成的运行状态表,一个子系统域内的计算机节点通过本域内的所有计算机节点之间的相互确认来实现本域内及整个系统的运行状态表管理,各子系统域之间通过同时处于两个域内的中转计算机节点转发系统各计算机节点运行状态表。
在该中转计算机节点所处的两个域间,中转计算机节点和域内其他计算机节点的角色不同,中转计算机维护一个由该节点所处的两个域的两个运行状态表、其他域内的运行状态表共三个表组成的系统运行状态总表;在该中转计算机节点所处的两个域内,中转计算机节点和域内其他计算机节点的角色是相同的,与域内其他计算机节点共同通过域内相互确认的方式维护本域内的子系统域运行状态表。该中转计算机节点在两个域内分别按照各域内的通信时间窗口接收域内其他节点发送的域内运行状态表和其他域的运行状态表,并通过该中转计算机节点按预先配置的通信时间窗口跨域转发其他子系统域的运行状态表。
域内计算机节点维护一个由域内运行状态表、其他域运行状态表共两个表组成的系统运行状态总表。其中域内运行状态表通过本域内的所有计算机节点之间的相互确认实现,域内的所有计算机节点按照预先配置的通信窗口,分别依次向域内所有计算机节点广播本地维护的系统运行状态表,并依次接收域内其他计算机节点广播的(包括本节点)运行状态表,依据运行状态表的情况,采用决策算法和隐含确认算法进行相互确认,实现域内所有计算机节点对域内运行状态有一致性的相应。其他域运行状态表来自于本域内的中转计算机节点,当有多个中转计算机节点时,根据预先配置的中转计算机节点优先级选择其他域运行状态表对本地的系统运行状态总表中的其他域运行状态表进行更新。
本发明的优点是:
1)实现了混合结构网络分布式容错计算机运行状态管理功能,技术扩展性强,能够对新型开放式架构的分布式容错计算机系统的容错管理提供有效技术支撑。
2)能够有效避免分布式架构中计算机节点的节点结党问题,该技术可靠性、安全性高。
3)能够使系统所有计算机节点对故障计算机节点做出及时一致性地响应,并有较大的灵活性和扩展性,为分布式容错计算机的新型容错策略提供了有效支持。
附图说明:
图1是本发明的域分配架构示意图,
图2是本发明的管理过程流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
一种混合结构网络分布式容错计算机系统容错管理方法,所应用的系统为有多个计算机节点、多种构型的网络/总线组成的分布式计算机系统,基于分布式多中心分布管理,支持系统构型的变化,实现灵活。
一种混合结构网络分布式容错计算机系统容错管理方法,其域分配架构示例如图1所示。
系统根据网络构型和交联关系分为三个子系统域分为三个子系统域,域1由7个计算机节点(计算机1-计算机7)、交换式时间触发网络组成;域2由5个计算机节点(计算机4-5、计算机8-10)、总线型时间触发总线组成;域3由5个计算机节点(计算机6-7、计算机11-13)、总线型时间触发总线组成;域2和域3的总线构型相同但无直接交联关系,系统共13个计算机节点。分布式系统的每一个节点上都保存着一个节点运行状态总表。表中记录了所有节点的运行状态,在每个周期中,任一节点在收到消息时都会根据接收到的信息更新本地的节点运行状态列表,并在指定时间窗口内发送本地运行状态表,通过节点间相互的确认保证了所有节点运行状态表的一致性。
2.每个计算机节点用1bit数据来表征该节点的运行状态,以该系统为例,共采用24bit数据表示整个系统各计算机节点的运行状态,每个域由8bit数据表征(如高8位表示域1,中8位表示域2,低8位表示域3)。其中1代表该节点运行正常,0表示该节点运行故障。
3.对于同时处于域1、域2的中转计算机节点4、中转计算机节点5来说,该中转计算机节点向域1内的计算机节点转发其他域数据时,主要包含域1、域2的运行状态数据(高、中8位数据,其中高8位数据为域内相互确认数据,中8位为其他域转发数据);该中转计算机节点向域2内的计算机节点转发其他域数据时,则主要包含域1(高8位数据,其他域转发数据)、域2(中8位数据,域内相互确认数据)、域3(低8位数据,其他域转发数据)。
4.任意一个域内的8位数据均有本域内所有节点运行状态相互确认后得到。相互确认方法如下:
4.1容错计算机节点运行状态的初始化。域内N节点的容错计算机,初始状态设置为(Ai,N+1-i,0,A1A2…AN),Ai为第i个节点,N+1-i为初始证实计数器(AV)值,0为初始失败计数器(FV)值,A1A2…AN为初始节点运行状态列表,即初始状态下每个节点的节点运行状态列表中包含系统所有节点。
4.2节点Ai按顺序向所有节点广播数据帧。Ai节点运行状态列表记为mem(Ai),下同。Ai判断本地AV是否大于FV,若结果为真,节点Ai清零本地AV和FV,使用本地节点运行状态列表与待发送数据合并计算校验和,得到后将其与待发数据组成数据帧,将该数据帧广播给所有节点(包括自身);若结果为假,节点反馈错误给上层应用并进入冻结状态。
4.3节点Ak接收并解码数据帧。节点Ak接收Ai发送来的数据帧,使用本地节点运行状态列表对接收数据帧进行解码及校验。校验成功的节点认为数据正确接收,校验失败的节点认为数据帧接收失败。若节点Ak正确接收数据,则Ak将Ai加入本地节点运行状态列表,并累加AV;若节点Ak接收数据失败,则Ak将Ai从本地节点运行状态列表删除,并累加FV;若节点Ak没有在预期时间点接收到Ai发送的数据帧,则将Ai从本地节点运行状态列表删除,但不累加任何计数器。
4.4节点Ai发送数据后寻找第一证实节点。节点Ai发送数据后,等待下一节点在预期时间段发送来的正确数据帧。判断是否满足:mem(Ai)=mem(Aj),结果为真则Aj为Ai的第一证实节点,Ai被证实(即Ai正确),证实算法结束;若{mem(Aj),Ai}=mem(Ai)为真,则Aj为Ai的第一证实节点,但Ai未被证实;其他(非空帧)情况将累加FV。
4.5节点Ai找到第一证实节点但未被证实时,寻找第二证实节点。若Ai在Aj之后的预期时间段正确接收到节点Am发送的数据帧,判断若Ai∈mem(Am)和Aj∈mem(Am)仅且仅有一个为真,且{mem(Am)-Ai-Aj}={mem(Ai)-Ai-Aj}为真,Ai将Am作为Ai的第二证实节点。
4.6根据第二证实节点判断Ai和Aj状态的正确性。若Ai∈mem(Am),Ai被证实(即Ai正确),Aj错误,Ai累加其AV,并将Aj从Ai的节点运行状态列表中删除,证实算法结束;若Aj∈mem(Am),则Ai错误,Aj正确,Ai将自身从节点运行状态列表删除,并将Aj和Am加入本地节点运行状态列表,证实算法结束。

Claims (7)

1.一种混合结构网络分布式容错计算机系统容错管理方法,其特征在于,1)将分布式容错计算机系统根据网络构型的不同,分为多个子系统域,每个域内网络构型一致,任意两个域之间由同时接入两个网络域的中转计算机节点进行中转通信;2)域之间的容错计算机系统运行状态由中转计算机节点进行转发,域内计算机节点在接收到中转计算机节点转发的其他域内的节点计算机运行状态表时,根据预先配置的优先级和本域内的中转计算机节点运行状态来选择其他域的运行状态表来源;3)域内计算机节点之间的运行状态表维护由本域内计算机节点按序相互确认来实现。
2.根据权利要求1所述的容错管理方法,其特征在于:在中转计算机节点所处的两个域间,中转计算机节点和域内其他计算机节点的角色不同,中转计算机维护一个由该节点所处的两个域的两个运行状态表、其他域内的运行状态表共三个表组成的系统运行状态总表;在该中转计算机节点所处的两个域内,中转计算机节点和域内其他计算机节点的角色是相同的,与域内其他计算机节点共同通过域内相互确认的方式维护本域内的子系统域运行状态表。
3.根据权利要求2所述的容错管理方法,其特征在于:所述的中转计算机节点在两个域内分别按照各域内的通信时间窗口接收域内其他节点发送的域内运行状态表和其他域的运行状态表,并通过该中转计算机节点按预先配置的通信时间窗口跨域转发其他子系统域的运行状态表。
4.根据权利要求1所述的容错管理方法,其特征在于:域内计算机节点维护一个由域内运行状态表、其他域运行状态表共两个表组成的系统运行状态总表。
5.根据权利要求4所述的容错管理方法,其特征在于:域内运行状态表通过本域内的所有计算机节点之间的相互确认实现,其他域运行状态表来自于本域内的中转计算机节点,当有多个中转计算机节点时,根据预先配置的中转计算机节点优先级选择其他域运行状态表对本地的系统运行状态总表中的其他域运行状态表进行更新。
6.根据权利要求1所述的容错管理方法,其特征在于:域内的所有计算机节点按照预先配置的通信窗口,分别依次向域内所有计算机节点广播本地维护的系统运行状态表,并依次接收域内其他计算机节点广播的运行状态表,依据运行状态表的情况进行相互确认,实现域内所有计算机节点对域内运行状态有一致性的相应。
7.根据权利要求1所述的容错管理方法,其特征在于:所述网络构型包括总线型、交换式网络型。
CN201811533404.1A 2018-12-14 2018-12-14 一种混合结构网络分布式容错计算机系统容错管理方法 Active CN109714198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811533404.1A CN109714198B (zh) 2018-12-14 2018-12-14 一种混合结构网络分布式容错计算机系统容错管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811533404.1A CN109714198B (zh) 2018-12-14 2018-12-14 一种混合结构网络分布式容错计算机系统容错管理方法

Publications (2)

Publication Number Publication Date
CN109714198A true CN109714198A (zh) 2019-05-03
CN109714198B CN109714198B (zh) 2022-03-15

Family

ID=66256441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811533404.1A Active CN109714198B (zh) 2018-12-14 2018-12-14 一种混合结构网络分布式容错计算机系统容错管理方法

Country Status (1)

Country Link
CN (1) CN109714198B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130326038A1 (en) * 2012-06-05 2013-12-05 Microsoft Corporation Management of datacenters for fault tolerance and bandwidth
CN104483828A (zh) * 2014-12-04 2015-04-01 中国航空工业集团公司第六三一研究所 一种分布式容错计算机成员一致性保证方法
CN105550053A (zh) * 2015-12-09 2016-05-04 中国航空工业集团公司西安航空计算技术研究所 一种提升可用性的监控对容错系统余度管理方法
CN106575247A (zh) * 2014-08-13 2017-04-19 微软技术许可有限责任公司 计算集群的容错联盟

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130326038A1 (en) * 2012-06-05 2013-12-05 Microsoft Corporation Management of datacenters for fault tolerance and bandwidth
CN106575247A (zh) * 2014-08-13 2017-04-19 微软技术许可有限责任公司 计算集群的容错联盟
CN104483828A (zh) * 2014-12-04 2015-04-01 中国航空工业集团公司第六三一研究所 一种分布式容错计算机成员一致性保证方法
CN105550053A (zh) * 2015-12-09 2016-05-04 中国航空工业集团公司西安航空计算技术研究所 一种提升可用性的监控对容错系统余度管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘双与 等: ""TTP/C协议的一致性机制研究"", 《计算机工程》 *
解文涛 等: ""高可靠分布式容错计算机架构的研究"", 《计算机测量与控制》 *

Also Published As

Publication number Publication date
CN109714198B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN201075870Y (zh) 多机架路由器
CN101820435B (zh) 分布式网络处理系统的mac地址表项信息同步方法及装置
CN102082695B (zh) 热备冗余网络系统及其冗余实现方法
CN102904818A (zh) 一种arp信息表项更新方法及装置
WO2012086019A1 (ja) 通信装置、通信システムおよび通信方法
CN105471995A (zh) 基于SOA的大规模Web服务机群高可用实现方法
Ramanathan et al. Delivery of time-critical messages using a multiple copy approach
Álvarez et al. Towards a time redundancy mechanism for critical frames in time-sensitive networking
CN100435524C (zh) 堆叠系统中设备的拓扑结构形成方法
WO2009111969A1 (zh) 以太环网中边缘端口阻塞的方法、以太环网系统和设备
CN109391526B (zh) 一种网络环路的检测方法及装置
CN114422513A (zh) 一种基于Raft-PBFT的区块链共识方法
CN112423365A (zh) 一种用于配电台区设备LoRa通讯的MESH组网通讯方法
CN111865704A (zh) 数据传输方法、系统和网络设备
KR101270637B1 (ko) 어드레스 리프레시의 방법 및 시스템
CN101442465A (zh) 一种以太环网故障切换中的地址更新方法
CN107547374B (zh) 一种聚合路由处理方法和装置
CN102215165B (zh) 一种相切环网的报文处理方法及以太网交换机
CN109714198A (zh) 一种混合结构网络分布式容错计算机系统容错管理方法
CN104483828A (zh) 一种分布式容错计算机成员一致性保证方法
CN101883045B (zh) 一种堆叠系统的合并方法、系统及装置
CN102111299A (zh) 冗余网络系统及其冗余实现方法
CN102307152B (zh) 一种域间资源推送方法和装置
CN115801798A (zh) 一种支持主节点动态切换的多层共识方法
TW201023563A (en) Processing method of ring network redundancy checking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant