CN110704250B - 一种分布式系统的热备份装置 - Google Patents

一种分布式系统的热备份装置 Download PDF

Info

Publication number
CN110704250B
CN110704250B CN201910899646.0A CN201910899646A CN110704250B CN 110704250 B CN110704250 B CN 110704250B CN 201910899646 A CN201910899646 A CN 201910899646A CN 110704250 B CN110704250 B CN 110704250B
Authority
CN
China
Prior art keywords
main processing
module
management module
processing module
rapidio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910899646.0A
Other languages
English (en)
Other versions
CN110704250A (zh
Inventor
赵昶宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinhang Computing Technology Research Institute
Original Assignee
Tianjin Jinhang Computing Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Jinhang Computing Technology Research Institute filed Critical Tianjin Jinhang Computing Technology Research Institute
Priority to CN201910899646.0A priority Critical patent/CN110704250B/zh
Publication of CN110704250A publication Critical patent/CN110704250A/zh
Application granted granted Critical
Publication of CN110704250B publication Critical patent/CN110704250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及一种分布式系统的热备份装置,涉及分布式系统和RapidIO技术领域。本发明在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式系统中的多个设备热备份。本发明不需要采用仲裁机构,易于实现,具有成本低,可靠性高,具有多机间相互热备份等优点,既保证了DDS的通信质量,又能充分发挥RapidIO总线技术的通信效率,最大限度的保证了分布式系统网络的实时性、可用性和可靠性。

Description

一种分布式系统的热备份装置
技术领域
本发明涉及分布式系统和RapidIO技术领域,具体涉及一种分布式系统的热备份装置。
背景技术
热备份是容错系统中的一个重要机制,利用故障点转移的方式保障分布式系统业务的不间断运行。
目前最常见的热备份技术是双机热备系统,通常采用如下两种方案:
采用第三方仲裁机构实现故障检测和双机切换;
不用第三方仲裁机构,通过主备机身份识别,建立主备机之间的心跳通信,在主备机同步工作的前提下,实现主备机故障检测和切换。
上述两种方法均能实现双机热备功能,但是也都存在不足之处。
第一种双机容错技术的缺点是若第三方仲裁机构出现故障,则无法实现双机故障检测;第二种双机容错技术虽然没有利用第三方仲裁机构,但是其只能勉强应付软件接口和设备个数较少的系统,一旦系统较为庞大,或是软件接口较多时,系统实现的复杂性会增加,而可靠性会降低,不适用于分布式系统的热备份。
为了解决上述热备份技术存在的不足,提高系统的可靠性,需要设计一种分布式系统的热备份装置。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种分布式系统的热备份装置。
(二)技术方案
为了解决上述技术问题,本发明提供了一种分布式系统的热备份装置,该装置在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式系统中多个设备的热备份。
优选地,所述分布式系统的热备份装置包括主处理模块、管理模块、网络交换模块及电源模块组成,共有四块主处理模块和一块管理模块,均采用龙芯3A3000处理器,网络交换模块集成RapidIO交换芯片,主处理模块和管理模块之间采用RapidIO和DDS相结合的通讯方式,管理模块用于实时监控其余四块主处理模块的运行状态,若某个主处理模块出现故障,通过IPMB总线禁止故障主处理模块工作,并由自身接替故障主处理模块当前的工作。
优选地,所述装置还包括计算机机箱,所述计算机机箱采用VPX总线架构,四块主处理模块、一块管理模块、网络交换模块和电源模块通过计算机机箱内部的背板插槽通信;四块主处理模块和一块管理模块这五个模块上均运行VxWorks 6.9操作系统,并搭载了DDS中间件软件;网络交换模块上集成了RapidIO接口,五个模块之间通过RapidIO构成了通信网络。
优选地,在装置加电后,四块主处理模块和一块管理模块通过DDS中间件软件匹配各自的主题、数据类型和服务质量策略,如果匹配成功,则四块主处理模块和一块管理模块之间开始通信。
优选地,四块主处理模块和一块管理模块之间通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态。
优选地,四块主处理模块和一块管理模块之间具体按照以下方式通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态每个域参与者通过内置数据写入者发送心跳报文给远程域参与者:通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限。
优选地,每一块主处理模块周期性地向管理模块发布关键的系统状态信息,管理模块也实时订阅每一块主处理模块发布的主题消息。
优选地,当分布式系统中一块主处理模块在工作时出现故障导致其自身不再处于存活时,此时管理模块通过IPMB总线禁止故障主处理模块工作,并将自身的IP地址设置为故障主处理模块的IP地址,接管故障主处理模块的功能,成为新的主处理模块,同时通过DDS机制发送消息通知其余主处理模块,完成设备的热备份工作。
优选地,所述装置还包括总线底板。
(三)有益效果
本发明在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式系统中的多个设备热备份。本发明不需要采用仲裁机构,易于实现,具有成本低,可靠性高,具有多机间相互热备份等优点,既保证了DDS的通信质量,又能充分发挥RapidIO总线技术的通信效率,最大限度的保证了分布式系统网络的实时性、可用性和可靠性。
附图说明
图1是本发明的分布式系统热备份装置的系统连接图;
图2是本发明的分布式系统热备份装置的系统总体架构图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为实现分布式系统中多个设备的热备份,本发明提出了一种分布式系统的热备份装置。为实现在分布式系统中多个设备的热备份,必须保证各设备节点在动态的加入和退出时不影响其它设备节点的功能,DDS(Data Distribution Service)中参与通信的所有实体间能够动态地发现对方,然后根据主题、数据类型以及服务质量策略进行匹配,只有匹配成功后才会建立通信连接。利用DDS的自动发现机制,一旦检测到系统中某个设备节点不可用时,用备用设备节点替换当前故障设备节点,重新匹配和建立通信连接,从而实现设备节点的热备份。
为提高系统的整体性能,该装置在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式系统中多个设备的热备份。
如图1、图2所示,本发明的分布式系统的热备份装置由计算机机箱、总线底板、主处理模块、管理模块、网络交换模块及电源模块组成。系统中共有四块主处理模块和一块管理模块,均采用龙芯3A3000处理器,网络交换模块集成RapidIO交换芯片。主处理模块和管理模块之间采用RapidIO和DDS相结合的通讯方式,管理模块用于实时监控其余四块主处理模块的运行状态,若某个主处理模块出现故障,通过IPMB(Intelligent PlatformManagementBus)总线禁止故障主处理模块工作,并由自身接替故障主处理模块当前的工作。
计算机机箱采用VPX总线架构,四块主处理模块、一块管理模块、网络交换模块和电源模块通过机箱内部的背板插槽通信;四块主处理模块和一块管理模块这五个模块上均运行VxWorks 6.9操作系统,并搭载了DDS中间件软件;网络交换模块上集成了RapidIO接口,五个模块之间通过RapidIO构成了通信网络;
装置加电后,四块主处理模块和一块管理模块通过DDS匹配各自的主题、数据类型和服务质量策略,如果匹配成功,则四块主处理模块和一块管理模块之间开始通信;
四块主处理模块和一块管理模块之间通过DDS的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态:每个域参与者通过内置数据写入者发送心跳报文给远程域参与者,通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限;
每一块主处理模块周期性地向管理模块发布关键的系统状态信息,管理模块也实时订阅每一块主处理模块发布的主题消息;
当分布式系统中一块主处理模块在工作时出现故障导致其自身不再处于存活时,此时管理模块通过IPMB总线禁止故障主处理模块工作,并将自身的IP地址设置为故障主处理模块的IP地址,接管故障主处理模块的功能,成为新的主处理模块,同时通过DDS机制发送消息通知其余主处理模块,完成设备的热备份工作。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (2)

1.一种分布式系统的热备份装置,其特征在于,该装置在VPX总线架构下利用RapidIO和DDS数据分发服务实现对分布式系统中多个设备的热备份;
所述分布式系统的热备份装置包括主处理模块、管理模块、网络交换模块及电源模块组成,共有四块主处理模块和一块管理模块,均采用龙芯3A3000处理器,网络交换模块集成RapidIO交换芯片,主处理模块和管理模块之间采用RapidIO和DDS相结合的通讯方式,管理模块用于实时监控其余四块主处理模块的运行状态,若某个主处理模块出现故障,通过IPMB总线禁止故障主处理模块工作,并由自身接替故障主处理模块当前的工作;
所述装置还包括计算机机箱,所述计算机机箱采用VPX总线架构,四块主处理模块、一块管理模块、网络交换模块和电源模块通过计算机机箱内部的背板插槽通信;四块主处理模块和一块管理模块这五个模块上均运行VxWorks 6.9操作系统,并搭载了DDS中间件软件;网络交换模块上集成了RapidIO接口,五个模块之间通过RapidIO构成了通信网络;
在装置加电后,四块主处理模块和一块管理模块通过DDS中间件软件匹配各自的主题、数据类型和服务质量策略,如果匹配成功,则四块主处理模块和一块管理模块之间开始通信;
四块主处理模块和一块管理模块之间通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态;
四块主处理模块和一块管理模块之间具体按照以下方式通过DDS中间件软件的数据写入者和数据读取者机制互相发送心跳报文的方式彼此监控对方的活跃状态每个域参与者通过内置数据写入者发送心跳报文给远程域参与者:通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限;
每一块主处理模块周期性地向管理模块发布关键的系统状态信息,管理模块也实时订阅每一块主处理模块发布的主题消息;
当分布式系统中一块主处理模块在工作时出现故障导致其自身不再处于存活时,此时管理模块通过IPMB总线禁止故障主处理模块工作,并将自身的IP地址设置为故障主处理模块的IP地址,接管故障主处理模块的功能,成为新的主处理模块,同时通过DDS机制发送消息通知其余主处理模块,完成设备的热备份工作。
2.如权利要求1所述的装置,其特征在于,所述装置还包括总线底板。
CN201910899646.0A 2019-09-23 2019-09-23 一种分布式系统的热备份装置 Active CN110704250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910899646.0A CN110704250B (zh) 2019-09-23 2019-09-23 一种分布式系统的热备份装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910899646.0A CN110704250B (zh) 2019-09-23 2019-09-23 一种分布式系统的热备份装置

Publications (2)

Publication Number Publication Date
CN110704250A CN110704250A (zh) 2020-01-17
CN110704250B true CN110704250B (zh) 2023-03-03

Family

ID=69194627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910899646.0A Active CN110704250B (zh) 2019-09-23 2019-09-23 一种分布式系统的热备份装置

Country Status (1)

Country Link
CN (1) CN110704250B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112511394B (zh) * 2020-11-05 2022-02-11 中国航空工业集团公司西安航空计算技术研究所 一种RapidIO总线系统的管理维护方法
CN113741280A (zh) * 2021-09-03 2021-12-03 天津津航计算技术研究所 一种国产化的vpx架构的智能管理控制装置
CN115150322B (zh) * 2022-09-06 2022-11-25 中勍科技股份有限公司 多通道RapidIO分发系统及其故障自我隔离方法
CN116032731B (zh) * 2023-03-28 2023-08-18 井芯微电子技术(天津)有限公司 RapidIO网络系统热备份的实现方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001867A (zh) * 2012-12-27 2013-03-27 中航(苏州)雷达与电子技术有限公司 一种主备双机热备份系统及方法
CN107065830A (zh) * 2017-05-03 2017-08-18 北京电子工程总体研究所 一种基于仲裁方式的双冗余热备份系统
WO2018166308A1 (zh) * 2017-03-13 2018-09-20 中兴通讯股份有限公司 一种分布式nat双机热备份流量切换系统和方法
CN109981160A (zh) * 2019-02-27 2019-07-05 中国电子科技集团公司第五十四研究所 一种基于vpx的卫星通信数据处理模块

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001867A (zh) * 2012-12-27 2013-03-27 中航(苏州)雷达与电子技术有限公司 一种主备双机热备份系统及方法
WO2018166308A1 (zh) * 2017-03-13 2018-09-20 中兴通讯股份有限公司 一种分布式nat双机热备份流量切换系统和方法
CN107065830A (zh) * 2017-05-03 2017-08-18 北京电子工程总体研究所 一种基于仲裁方式的双冗余热备份系统
CN109981160A (zh) * 2019-02-27 2019-07-05 中国电子科技集团公司第五十四研究所 一种基于vpx的卫星通信数据处理模块

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《通信技术》2001年总目次;《通信技术》;20010930(第09期);全文 *
一种基于ATCA架构的高可用性系统设计与实现;李杰;《中国新通信》;20131020(第20期);全文 *
基于DDS技术的舰船平台综合管理系统;吕云飞等;《舰船科学技术》;20110515(第05期);全文 *
基于VPX总线的车载计算平台设计;黄泳铭等;《测控技术》;20110418(第04期);全文 *
基于高速串行总线的可重构信号处理机;梁慧;《现代雷达》;20110515(第05期);全文 *

Also Published As

Publication number Publication date
CN110704250A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110704250B (zh) 一种分布式系统的热备份装置
CN110677282B (zh) 一种分布式系统的热备份方法及分布式系统
US20030005350A1 (en) Failover management system
US7130899B1 (en) Robust indication processing
US7526549B2 (en) Cluster data port services for clustered computer system
US6918051B2 (en) Node shutdown in clustered computer system
US7370223B2 (en) System and method for managing clusters containing multiple nodes
US20030097610A1 (en) Functional fail-over apparatus and method of operation thereof
US20070220301A1 (en) Remote access control management module
CN103019889A (zh) 分布式文件系统及其故障处理方法
CN101984573A (zh) 分布式实现lacp标准状态机的方法及系统
CN101841735B (zh) 框式交换机及堆叠系统以及堆叠后故障处理方法
CN105553682B (zh) 事件通知方法及用于事件通知的系统
CN106850255A (zh) 一种多机备份的实现方法
CN107040403A (zh) 基于dds技术提高分布式系统可靠性的方法
CN102843259A (zh) 集群内中间件自管理热备方法及系统
CN103107906A (zh) 一种板卡间通信方法、板卡及通信机框设备
CN110958151B (zh) 保活检测方法、装置、节点、存储介质及通信系统
WO1997049034A1 (fr) Systeme de prise en charge de taches
CN109245911B (zh) 一种bras热备的实现方法、设备及计算机可读存储介质
CN110716827B (zh) 适用于分布式系统的热备份方法及分布式系统
CN111262745A (zh) 信息处理平台冗余系统设计
CN114553900B (zh) 一种分布式块存储管理系统、方法及电子设备
CN113220509B (zh) 一种双组合交替倒班系统及方法
CN113742142B (zh) 存储系统管理sata硬盘的方法及存储系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant