CN110704250A - 一种分布式系统的热备份装置 - Google Patents

一种分布式系统的热备份装置 Download PDF

Info

Publication number
CN110704250A
CN110704250A CN201910899646.0A CN201910899646A CN110704250A CN 110704250 A CN110704250 A CN 110704250A CN 201910899646 A CN201910899646 A CN 201910899646A CN 110704250 A CN110704250 A CN 110704250A
Authority
CN
China
Prior art keywords
main processing
module
management module
processing modules
rapidio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910899646.0A
Other languages
English (en)
Other versions
CN110704250B (zh
Inventor
赵昶宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinhang Computing Technology Research Institute
Original Assignee
Tianjin Jinhang Computing Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Jinhang Computing Technology Research Institute filed Critical Tianjin Jinhang Computing Technology Research Institute
Priority to CN201910899646.0A priority Critical patent/CN110704250B/zh
Publication of CN110704250A publication Critical patent/CN110704250A/zh
Application granted granted Critical
Publication of CN110704250B publication Critical patent/CN110704250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种分布式系统的热备份装置,涉及分布式系统和RapidIO技术领域。本发明在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式系统中的多个设备热备份。本发明不需要采用仲裁机构,易于实现,具有成本低,可靠性高,具有多机间相互热备份等优点,既保证了DDS的通信质量,又能充分发挥RapidIO总线技术的通信效率,最大限度的保证了分布式系统网络的实时性、可用性和可靠性。

Description

一种分布式系统的热备份装置
技术领域
本发明涉及分布式系统和RapidIO技术领域,具体涉及一种分布式系统的热备份装置。
背景技术
热备份是容错系统中的一个重要机制,利用故障点转移的方式保障分布式系统业务的不间断运行。
目前最常见的热备份技术是双机热备系统,通常采用如下两种方案:
采用第三方仲裁机构实现故障检测和双机切换;
不用第三方仲裁机构,通过主备机身份识别,建立主备机之间的心跳通信,在主备机同步工作的前提下,实现主备机故障检测和切换。
上述两种方法均能实现双机热备功能,但是也都存在不足之处。
第一种双机容错技术的缺点是若第三方仲裁机构出现故障,则无法实现双机故障检测;第二种双机容错技术虽然没有利用第三方仲裁机构,但是其只能勉强应付软件接口和设备个数较少的系统,一旦系统较为庞大,或是软件接口较多时,系统实现的复杂性会增加,而可靠性会降低,不适用于分布式系统的热备份。
为了解决上述热备份技术存在的不足,提高系统的可靠性,需要设计一种分布式系统的热备份装置。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种分布式系统的热备份装置。
(二)技术方案
为了解决上述技术问题,本发明提供了一种分布式系统的热备份装置,该装置在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式系统中多个设备的热备份。
优选地,所述分布式系统的热备份装置包括主处理模块、管理模块、网络交换模块及电源模块组成,共有四块主处理模块和一块管理模块,均采用龙芯3A3000处理器,网络交换模块集成RapidIO交换芯片,主处理模块和管理模块之间采用RapidIO和DDS相结合的通讯方式,管理模块用于实时监控其余四块主处理模块的运行状态,若某个主处理模块出现故障,通过IPMB总线禁止故障主处理模块工作,并由自身接替故障主处理模块当前的工作。
优选地,所述装置还包括计算机机箱,所述计算机机箱采用VPX总线架构,四块主处理模块、一块管理模块、网络交换模块和电源模块通过计算机机箱内部的背板插槽通信;四块主处理模块和一块管理模块这五个模块上均运行VxWorks 6.9操作系统,并搭载了DDS中间件软件;网络交换模块上集成了RapidIO接口,五个模块之间通过RapidIO构成了通信网络。
优选地,在装置加电后,四块主处理模块和一块管理模块通过DDS中间件软件匹配各自的主题、数据类型和服务质量策略,如果匹配成功,则四块主处理模块和一块管理模块之间开始通信。
优选地,四块主处理模块和一块管理模块之间通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态。
优选地,四块主处理模块和一块管理模块之间具体按照以下方式通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态每个域参与者通过内置数据写入者发送心跳报文给远程域参与者:通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限。
优选地,每一块主处理模块周期性地向管理模块发布关键的系统状态信息,管理模块也实时订阅每一块主处理模块发布的主题消息。
优选地,当分布式系统中一块主处理模块在工作时出现故障导致其自身不再处于存活时,此时管理模块通过IPMB总线禁止故障主处理模块工作,并将自身的IP地址设置为故障主处理模块的IP地址,接管故障主处理模块的功能,成为新的主处理模块,同时通过DDS机制发送消息通知其余主处理模块,完成设备的热备份工作。
优选地,所述装置还包括总线底板。
(三)有益效果
本发明在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式系统中的多个设备热备份。本发明不需要采用仲裁机构,易于实现,具有成本低,可靠性高,具有多机间相互热备份等优点,既保证了DDS的通信质量,又能充分发挥RapidIO总线技术的通信效率,最大限度的保证了分布式系统网络的实时性、可用性和可靠性。
附图说明
图1是本发明的分布式系统热备份装置的系统连接图;
图2是本发明的分布式系统热备份装置的系统总体架构图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为实现分布式系统中多个设备的热备份,本发明提出了一种分布式系统的热备份装置。为实现在分布式系统中多个设备的热备份,必须保证各设备节点在动态的加入和退出时不影响其它设备节点的功能,DDS(Data Distribution Service)中参与通信的所有实体间能够动态地发现对方,然后根据主题、数据类型以及服务质量策略进行匹配,只有匹配成功后才会建立通信连接。利用DDS的自动发现机制,一旦检测到系统中某个设备节点不可用时,用备用设备节点替换当前故障设备节点,重新匹配和建立通信连接,从而实现设备节点的热备份。
为提高系统的整体性能,该装置在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式系统中多个设备的热备份。
如图1、图2所示,本发明的分布式系统的热备份装置由计算机机箱、总线底板、主处理模块、管理模块、网络交换模块及电源模块组成。系统中共有四块主处理模块和一块管理模块,均采用龙芯3A3000处理器,网络交换模块集成RapidIO交换芯片。主处理模块和管理模块之间采用RapidIO和DDS相结合的通讯方式,管理模块用于实时监控其余四块主处理模块的运行状态,若某个主处理模块出现故障,通过IPMB(Intelligent PlatformManagementBus)总线禁止故障主处理模块工作,并由自身接替故障主处理模块当前的工作。
计算机机箱采用VPX总线架构,四块主处理模块、一块管理模块、网络交换模块和电源模块通过机箱内部的背板插槽通信;四块主处理模块和一块管理模块这五个模块上均运行VxWorks 6.9操作系统,并搭载了DDS中间件软件;网络交换模块上集成了RapidIO接口,五个模块之间通过RapidIO构成了通信网络;
装置加电后,四块主处理模块和一块管理模块通过DDS匹配各自的主题、数据类型和服务质量策略,如果匹配成功,则四块主处理模块和一块管理模块之间开始通信;
四块主处理模块和一块管理模块之间通过DDS的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态:每个域参与者通过内置数据写入者发送心跳报文给远程域参与者,通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限;
每一块主处理模块周期性地向管理模块发布关键的系统状态信息,管理模块也实时订阅每一块主处理模块发布的主题消息;
当分布式系统中一块主处理模块在工作时出现故障导致其自身不再处于存活时,此时管理模块通过IPMB总线禁止故障主处理模块工作,并将自身的IP地址设置为故障主处理模块的IP地址,接管故障主处理模块的功能,成为新的主处理模块,同时通过DDS机制发送消息通知其余主处理模块,完成设备的热备份工作。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (9)

1.一种分布式系统的热备份装置,其特征在于,该装置在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式系统中多个设备的热备份。
2.如权利要求1所述的装置,其特征在于,所述分布式系统的热备份装置包括主处理模块、管理模块、网络交换模块及电源模块组成,共有四块主处理模块和一块管理模块,均采用龙芯3A3000处理器,网络交换模块集成RapidIO交换芯片,主处理模块和管理模块之间采用RapidIO和DDS相结合的通讯方式,管理模块用于实时监控其余四块主处理模块的运行状态,若某个主处理模块出现故障,通过IPMB总线禁止故障主处理模块工作,并由自身接替故障主处理模块当前的工作。
3.如权利要求2所述的装置,其特征在于,所述装置还包括计算机机箱,所述计算机机箱采用VPX总线架构,四块主处理模块、一块管理模块、网络交换模块和电源模块通过计算机机箱内部的背板插槽通信;四块主处理模块和一块管理模块这五个模块上均运行VxWorks 6.9操作系统,并搭载了DDS中间件软件;网络交换模块上集成了RapidIO接口,五个模块之间通过RapidIO构成了通信网络。
4.如权利要求3所述的装置,其特征在于,在装置加电后,四块主处理模块和一块管理模块通过DDS中间件软件匹配各自的主题、数据类型和服务质量策略,如果匹配成功,则四块主处理模块和一块管理模块之间开始通信。
5.如权利要求4所述的装置,其特征在于,四块主处理模块和一块管理模块之间通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态。
6.如权利要求5所述的装置,其特征在于,四块主处理模块和一块管理模块之间具体按照以下方式通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态每个域参与者通过内置数据写入者发送心跳报文给远程域参与者:通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限。
7.如权利要求6所述的装置,其特征在于,每一块主处理模块周期性地向管理模块发布关键的系统状态信息,管理模块也实时订阅每一块主处理模块发布的主题消息。
8.如权利要求6所述的装置,其特征在于,当分布式系统中一块主处理模块在工作时出现故障导致其自身不再处于存活时,此时管理模块通过IPMB总线禁止故障主处理模块工作,并将自身的IP地址设置为故障主处理模块的IP地址,接管故障主处理模块的功能,成为新的主处理模块,同时通过DDS机制发送消息通知其余主处理模块,完成设备的热备份工作。
9.如权利要求2所述的装置,其特征在于,所述装置还包括总线底板。
CN201910899646.0A 2019-09-23 2019-09-23 一种分布式系统的热备份装置 Active CN110704250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910899646.0A CN110704250B (zh) 2019-09-23 2019-09-23 一种分布式系统的热备份装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910899646.0A CN110704250B (zh) 2019-09-23 2019-09-23 一种分布式系统的热备份装置

Publications (2)

Publication Number Publication Date
CN110704250A true CN110704250A (zh) 2020-01-17
CN110704250B CN110704250B (zh) 2023-03-03

Family

ID=69194627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910899646.0A Active CN110704250B (zh) 2019-09-23 2019-09-23 一种分布式系统的热备份装置

Country Status (1)

Country Link
CN (1) CN110704250B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511394A (zh) * 2020-11-05 2021-03-16 中国航空工业集团公司西安航空计算技术研究所 一种RapidIO总线系统的管理维护方法
CN113741280A (zh) * 2021-09-03 2021-12-03 天津津航计算技术研究所 一种国产化的vpx架构的智能管理控制装置
CN115150322A (zh) * 2022-09-06 2022-10-04 中勍科技股份有限公司 多通道RapidIO分发系统及其故障自我隔离方法
CN116032731A (zh) * 2023-03-28 2023-04-28 井芯微电子技术(天津)有限公司 RapidIO网络系统热备份的实现方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001867A (zh) * 2012-12-27 2013-03-27 中航(苏州)雷达与电子技术有限公司 一种主备双机热备份系统及方法
CN107065830A (zh) * 2017-05-03 2017-08-18 北京电子工程总体研究所 一种基于仲裁方式的双冗余热备份系统
WO2018166308A1 (zh) * 2017-03-13 2018-09-20 中兴通讯股份有限公司 一种分布式nat双机热备份流量切换系统和方法
CN109981160A (zh) * 2019-02-27 2019-07-05 中国电子科技集团公司第五十四研究所 一种基于vpx的卫星通信数据处理模块

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001867A (zh) * 2012-12-27 2013-03-27 中航(苏州)雷达与电子技术有限公司 一种主备双机热备份系统及方法
WO2018166308A1 (zh) * 2017-03-13 2018-09-20 中兴通讯股份有限公司 一种分布式nat双机热备份流量切换系统和方法
CN107065830A (zh) * 2017-05-03 2017-08-18 北京电子工程总体研究所 一种基于仲裁方式的双冗余热备份系统
CN109981160A (zh) * 2019-02-27 2019-07-05 中国电子科技集团公司第五十四研究所 一种基于vpx的卫星通信数据处理模块

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"《通信技术》2001年总目次", 《通信技术》 *
吕云飞等: "基于DDS技术的舰船平台综合管理系统", 《舰船科学技术》 *
李杰: "一种基于ATCA架构的高可用性系统设计与实现", 《中国新通信》 *
梁慧: "基于高速串行总线的可重构信号处理机", 《现代雷达》 *
黄泳铭等: "基于VPX总线的车载计算平台设计", 《测控技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511394A (zh) * 2020-11-05 2021-03-16 中国航空工业集团公司西安航空计算技术研究所 一种RapidIO总线系统的管理维护方法
CN113741280A (zh) * 2021-09-03 2021-12-03 天津津航计算技术研究所 一种国产化的vpx架构的智能管理控制装置
CN115150322A (zh) * 2022-09-06 2022-10-04 中勍科技股份有限公司 多通道RapidIO分发系统及其故障自我隔离方法
CN115150322B (zh) * 2022-09-06 2022-11-25 中勍科技股份有限公司 多通道RapidIO分发系统及其故障自我隔离方法
CN116032731A (zh) * 2023-03-28 2023-04-28 井芯微电子技术(天津)有限公司 RapidIO网络系统热备份的实现方法和装置
CN116032731B (zh) * 2023-03-28 2023-08-18 井芯微电子技术(天津)有限公司 RapidIO网络系统热备份的实现方法和装置

Also Published As

Publication number Publication date
CN110704250B (zh) 2023-03-03

Similar Documents

Publication Publication Date Title
CN110704250B (zh) 一种分布式系统的热备份装置
CN110677282B (zh) 一种分布式系统的热备份方法及分布式系统
US20030005350A1 (en) Failover management system
US20070220301A1 (en) Remote access control management module
US20070183313A1 (en) System and method for detecting and recovering from virtual switch link failures
JP2004519024A (ja) 多数のノードを含むクラスタを管理するためのシステム及び方法
CN102710457B (zh) 一种跨网段的n+1备份方法及装置
CN103019889A (zh) 分布式文件系统及其故障处理方法
CN102916825A (zh) 一种双机热备系统的管理设备、管理方法及双机热备系统
CN101594383B (zh) 一种双控制器存储系统的服务和控制器状态监控方法
CN101984573A (zh) 分布式实现lacp标准状态机的方法及系统
CN101841735B (zh) 框式交换机及堆叠系统以及堆叠后故障处理方法
CN102843259A (zh) 集群内中间件自管理热备方法及系统
CN106850255A (zh) 一种多机备份的实现方法
CN107040403A (zh) 基于dds技术提高分布式系统可靠性的方法
MXPA04006830A (es) Deteccion remota de estados de suministro de energia.
CN103107906A (zh) 一种板卡间通信方法、板卡及通信机框设备
EP1712067B1 (en) A method, apparatus and system of organizing servers
WO1997049034A1 (fr) Systeme de prise en charge de taches
CN109245911B (zh) 一种bras热备的实现方法、设备及计算机可读存储介质
CN111262745A (zh) 信息处理平台冗余系统设计
CN110716827B (zh) 适用于分布式系统的热备份方法及分布式系统
CN113742142B (zh) 存储系统管理sata硬盘的方法及存储系统
KR100832543B1 (ko) 계층적 다중 백업 구조를 갖는 고가용성 클러스터 시스템및 이를 이용한 고가용성 구현 방법
CN107888491A (zh) Hsb备份系统及基于二层组网vrrp协议的ac双机热备方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant