CN110677282B - 一种分布式系统的热备份方法及分布式系统 - Google Patents

一种分布式系统的热备份方法及分布式系统 Download PDF

Info

Publication number
CN110677282B
CN110677282B CN201910899055.3A CN201910899055A CN110677282B CN 110677282 B CN110677282 B CN 110677282B CN 201910899055 A CN201910899055 A CN 201910899055A CN 110677282 B CN110677282 B CN 110677282B
Authority
CN
China
Prior art keywords
node
distributed system
slave
master
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910899055.3A
Other languages
English (en)
Other versions
CN110677282A (zh
Inventor
赵昶宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Jinhang Computing Technology Research Institute
Original Assignee
Tianjin Jinhang Computing Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Jinhang Computing Technology Research Institute filed Critical Tianjin Jinhang Computing Technology Research Institute
Priority to CN201910899055.3A priority Critical patent/CN110677282B/zh
Publication of CN110677282A publication Critical patent/CN110677282A/zh
Application granted granted Critical
Publication of CN110677282B publication Critical patent/CN110677282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种分布式系统的热备份方法及分布式系统,涉及分布式系统和以太网技术领域。该方法通过以太网和DDS中间件技术,使得分布式系统中所有设备节点能够动态地发现彼此,根据主题、数据类型以及服务质量策略进行匹配,只有匹配成功后才会建立通信连接。一旦检测到系统中某个主设备节点不可用时,用从设备节点替换当前故障的主设备节点,重新匹配和建立通信连接,从而实现主设备节点的热备份。本发明提出的方法不需要采用仲裁机构,易于实现,具有成本低,可靠性高,具有多机间相互热备份等优点,降低了分布式系统的冗余度,最大限度的保证了分布式系统网络的实时性、可用性和可靠性。

Description

一种分布式系统的热备份方法及分布式系统
技术领域
本发明涉及分布式系统和以太网技术领域,具体涉及一种分布式系统的热备份方法及分布式系统。
背景技术
热备份是容错系统中的一个重要机制,利用故障点转移的方式保障分布式系统业务的不间断运行。
目前最常见的热备份技术是双机热备系统,通常采用如下两种方案:
采用第三方仲裁机构实现故障检测和双机切换;
不用第三方仲裁机构,通过主备机身份识别,建立主备机之间的心跳通信,在主备机同步工作的前提下,实现主备机故障检测和切换。
上述两种方法均能实现双机热备功能,但是也都存在不足之处。
第一种双机容错技术的缺点是若第三方仲裁机构出现故障,则无法实现双机故障检测;第二种双机容错技术虽然没有利用第三方仲裁机构,但是其只能勉强应付软件接口和设备个数较少的系统,一旦系统较为庞大,或是软件接口较多时,系统实现的复杂性会增加,而可靠性会降低,不适用于分布式系统的热备份。
为了解决上述热备份技术存在的不足,提高系统的可靠性,需要提出一种适用于分布式系统的热备份方法。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何实现一种适用于分布式系统的热备份方法。
(二)技术方案
为了解决上述技术问题,本发明提供了一种分布式系统的热备份方法,该方法适用于分布式系统中多个设备之间存在主从设备之分的情况,利用DDS数据分发服务实现对分布式系统中多个设备的热备份。
优选地,该方法包括以下步骤:分布式系统中的每个主设备节点和每个从设备节点都是域参与者,系统上电后,每个域参与者通过内置数据写入者发送发布数据包和订阅数据包,通过内置数据读取者接收远程域参与者发送的发布数据包和订阅数据包,当发现一个远程的数据写入者或数据读取者时,DDS中间件决策本设备节点上是否有匹配的数据读取者或数据写入者,只有当数据写入者或数据读取者有相同的主题、数据类型以及兼容的服务质量策略时,本设备节点与远程设备节点才能进行匹配,分布式系统中的主设备节点和从设备节点通过上述方式匹配成功后才能进行相互通信;
在分布式系统中使用DDS的LIVELINESS服务质量策略,从设备节点通过该服务质量策略判决主设备节点是否仍处于存活状态,当分布式系统中有主设备节点在工作时出现故障导致其自身不再处于存活状态时,意味着该主设备节点的数据写入者未能在规定的时间内向其它设备节点发送自己的心跳信号,此时从设备节点将自身的IP 地址设置为主设备节点的IP地址,接管主设备节点的功能,成为新的主设备节点,完成了设备的热备份工作。
优选地,分布式系统中的主设备节点和从设备节点通过如下的互发心跳报文的方式监视彼此的活跃状态:每个域参与者通过内置数据写入者发送心跳报文给远程域参与者,通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过高效组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限;每个主设备节点都将自己的数据读取者和数据写入者信息发送给从设备节点,每个从设备节点都存储系统中主设备节点的数据读取者和数据写入者信息,当从设备节点替换主设备节点时,DDS机制将会发送消息给系统内所有设备节点。
优选地,分布式系统内的所有设备节点开始正常通信后,系统内的主设备节点周期性地向从设备节点发布关键的系统状态信息,从设备节点也实时订阅主设备节点发布的主题消息。
优选地,采用如下方法监测主设备节点是否处于存活状态:假设从设备节点发送心跳报文的周期为T,若系统内从设备节点在超时时间T内未接收到主设备节点的心跳报文,从设备节点向主设备节点发起询问,询问的超时时间减半变为T/2,若又一次询问超时则超时时间再减半变为T/4,再次询问,如此反复,直到超时时间小于预设临界值t时,才认为主设备节点不处于存活状态。
优选地,t>0。
本发明还提供了一种基于主从设备关系的分布式系统,包括所述的方法中涉及的主设备节点和从设备节点。
优选地,所述主设备节点和从设备节点组成系统的应用层。
优选地,所述系统还包括中间件层,
优选地,所述系统还包括支撑层。
(三)有益效果
本发明通过以太网和DDS中间件技术,使得分布式系统中所有设备节点能够动态地发现彼此,根据主题、数据类型以及服务质量策略进行匹配,只有匹配成功后才会建立通信连接。一旦检测到系统中某个主设备节点不可用时,用从设备节点替换当前故障的主设备节点,重新匹配和建立通信连接,从而实现主设备节点的热备份。这种方法适用于分布式系统中存在主从设备关系的多个设备节点热备份,本发明提出的方法不需要采用仲裁机构,易于实现,具有成本低,可靠性高,具有多机间相互热备份等优点,降低了分布式系统的冗余度,最大限度的保证了分布式系统网络的实时性、可用性和可靠性。
附图说明
图1为本发明的基于主从设备关系的分布式系统框架示意图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明设计一种适用于分布式系统的热备份方法,该方法适用于分布式系统中多个设备之间存在主从设备之分的情况,通过以太网实现对分布式系统中的多个设备热备份,为实现在分布式系统中多个设备的热备份,必须保证各设备节点在动态地加入和退出时不影响其它设备节点的功能,DDS中参与通信的所有实体间能够动态地发现对方,然后根据主题、数据类型以及服务质量策略进行匹配,只有匹配成功后才会建立通信连接。如果分布式系统中的多个设备之间有主设备和从设备之分,从设备作为主设备的热备份,利用DDS的自动发现机制,一旦检测到系统中某个主设备节点不可用时,用从设备节点替换当前故障的主设备节点,重新匹配和建立通信连接,从而实现主设备节点的热备份。
该方法利用DDS(Data Distribution Service)数据分发服务实现对分布式系统中多个设备的热备份,具体包括以下步骤:分布式系统中的每个设备都是域参与者,系统上电后,每个域参与者(包括主设备节点和从设备节点)通过内置数据写入者发送发布数据包和订阅数据包,通过内置数据读取者接收远程域参与者发送的发布数据包和订阅数据包。当发现一个远程的数据写入者或数据读取者时,DDS中间件决策本设备节点上是否有匹配的数据读取者或数据写入者,只有当数据写入者或数据读取者有相同的主题、数据类型以及兼容的服务质量策略时,本设备节点与远程设备节点才能进行匹配。分布式系统中的主设备节点和从设备节点通过上述方式匹配成功后才能进行相互通信;
在分布式系统中使用DDS的LIVELINESS服务质量策略,从设备节点通过该服务质量策略判决主设备节点是否仍处于存活状态,当分布式系统中有主设备节点在工作时出现故障导致其自身不再处于存活状态时,意味着该主设备节点的数据写入者未能在规定的时间内向其它设备节点发送自己的心跳信号,此时从设备节点将自身的IP 地址设置为主设备节点的IP地址,接管主设备节点的功能,成为新的主设备节点,完成了设备的热备份工作;
分布式系统中的主设备节点和从设备节点通过如下的互发心跳报文的方式监视彼此的活跃状态:每个域参与者通过内置数据写入者发送心跳报文给远程域参与者,通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过高效组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限;每个主设备节点都将自己的数据读取者和数据写入者信息发送给从设备节点,每个从设备节点都存储系统中主设备节点的数据读取者和数据写入者信息,当从设备节点替换主设备节点时,DDS机制将会发送消息给系统内所有设备节点;
分布式系统内的所有设备节点开始正常通信后,系统内的主设备节点周期性地向从设备节点发布关键的系统状态信息,从设备节点也实时订阅主设备节点发布的主题消息;
在监测主设备节点是否处于存活状态时,采用了如下方法:假设从设备节点发送心跳报文的周期为T,若系统内从设备节点在T(T 为超时时间)内未接收到主设备节点的心跳报文,从设备节点向主设备节点发起询问,询问的超时时间减半(超时时间为T/2),若又一次询问超时则超时时间再减半(超时时间为T/4),再次询问,如此反复,直到超时时间小于预设临界值t(t>0)时,才认为主设备节点不处于存活状态。这样做的好处是避免了网络丢包和网络传输延迟等不确定因素,减低了误判的概率,提高了节点监测的准确性和实时性。
基于主从设备关系的分布式系统框架示意图如图1所示。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (9)

1.一种分布式系统的热备份方法,其特征在于,该方法适用于分布式系统中多个设备之间存在主从设备之分的情况,利用DDS数据分发服务实现对分布式系统中多个设备的热备份;
该方法包括以下步骤:分布式系统中的每个主设备节点和每个从设备节点都是域参与者,系统上电后,每个域参与者通过内置数据写入者发送发布数据包和订阅数据包,通过内置数据读取者接收远程域参与者发送的发布数据包和订阅数据包,当发现一个远程的数据写入者或数据读取者时,DDS中间件决策本设备节点上是否有匹配的数据读取者或数据写入者,只有当数据写入者或数据读取者有相同的主题、数据类型以及兼容的服务质量策略时,本设备节点与远程设备节点才能进行匹配,分布式系统中的主设备节点和从设备节点通过这种方式匹配成功后进行相互通信;
在分布式系统中使用DDS的LIVELINESS服务质量策略,从设备节点通过该服务质量策略判决主设备节点是否仍处于存活状态,当分布式系统中有主设备节点在工作时出现故障导致其自身不再处于存活状态时,意味着该主设备节点的数据写入者未能在规定的时间内向其它设备节点发送自己的心跳信号,此时从设备节点将自身的IP地址设置为主设备节点的IP地址,接管主设备节点的功能,成为新的主设备节点,完成了设备的热备份工作。
2.如权利要求1所述的方法,其特征在于,分布式系统中的主设备节点和从设备节点通过如下的互发心跳报文的方式监视彼此的活跃状态:每个域参与者通过内置数据写入者发送心跳报文给远程域参与者,通过内置数据读取者接收远程域参与者的心跳报文,用于发现其它域参与者的信息,每个本地域参与者通过组播传输方式周期性地向远程域参与者发送心跳报文,用于刷新其自身活跃状态;每个本地域参与者都会在本地数据库中维护着远程参与者的心跳信息,并监视它们的活跃期限;每个主设备节点都将自己的数据读取者和数据写入者信息发送给从设备节点,每个从设备节点都存储系统中主设备节点的数据读取者和数据写入者信息,当从设备节点替换主设备节点时,DDS机制将会发送消息给系统内所有设备节点。
3.如权利要求2所述的方法,其特征在于,分布式系统内的所有设备节点开始正常通信后,系统内的主设备节点周期性地向从设备节点发布关键的系统状态信息,从设备节点也实时订阅主设备节点发布的主题消息。
4.如权利要求2所述的方法,其特征在于,采用如下方法监测主设备节点是否处于存活状态:假设从设备节点发送心跳报文的周期为T,若系统内从设备节点在超时时间T内未接收到主设备节点的心跳报文,从设备节点向主设备节点发起询问,询问的超时时间减半变为T/2,若又一次询问超时则超时时间再减半变为T/4,再次询问,如此反复,直到超时时间小于预设临界值t时,才认为主设备节点不处于存活状态。
5.如权利要求4所述的方法,其特征在于,t>0。
6.一种基于主从设备关系的分布式系统,其特征在于,包括如权利要求1至5中任一项所述的方法中涉及的主设备节点和从设备节点。
7.如权利要求6所述的系统,其特征在于,所述主设备节点和从设备节点组成系统的应用层。
8.如权利要求6所述的系统,其特征在于,所述系统还包括中间件层。
9.如权利要求6所述的系统,其特征在于,所述系统还包括支撑层。
CN201910899055.3A 2019-09-23 2019-09-23 一种分布式系统的热备份方法及分布式系统 Active CN110677282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910899055.3A CN110677282B (zh) 2019-09-23 2019-09-23 一种分布式系统的热备份方法及分布式系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910899055.3A CN110677282B (zh) 2019-09-23 2019-09-23 一种分布式系统的热备份方法及分布式系统

Publications (2)

Publication Number Publication Date
CN110677282A CN110677282A (zh) 2020-01-10
CN110677282B true CN110677282B (zh) 2022-05-17

Family

ID=69077229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910899055.3A Active CN110677282B (zh) 2019-09-23 2019-09-23 一种分布式系统的热备份方法及分布式系统

Country Status (1)

Country Link
CN (1) CN110677282B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111818159B (zh) * 2020-07-08 2024-04-05 腾讯科技(深圳)有限公司 数据处理节点的管理方法、装置、设备及存储介质
CN112650630B (zh) * 2020-12-31 2022-02-01 广州技象科技有限公司 一种智能电表运行参数的分布式备份方法及装置
CN113050407B (zh) * 2021-03-04 2022-11-22 中国航空工业集团公司西安航空计算技术研究所 一种分布式处理系统主备控制器确定及切换方法
CN112910717A (zh) * 2021-03-10 2021-06-04 奥特酷智能科技(南京)有限公司 一种基于dds的冗余管理系统模型

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337768A (zh) * 2015-10-16 2016-02-17 中国舰船研究设计中心 一种应用级分布系统综合集成方法
CN107040403A (zh) * 2016-12-30 2017-08-11 中国舰船研究设计中心 基于dds技术提高分布式系统可靠性的方法
CN108040034A (zh) * 2017-11-15 2018-05-15 中国航空无线电电子研究所 分布式实时通信中间件

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101656749B (zh) * 2009-09-17 2012-12-05 中国船舶重工集团公司第七0九研究所 一种实时系统下无中心节点的发布者/订阅者实时互发现方法
WO2017064565A1 (en) * 2015-10-13 2017-04-20 Schneider Electric Industries Sas Software defined automation system and architecture

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337768A (zh) * 2015-10-16 2016-02-17 中国舰船研究设计中心 一种应用级分布系统综合集成方法
CN107040403A (zh) * 2016-12-30 2017-08-11 中国舰船研究设计中心 基于dds技术提高分布式系统可靠性的方法
CN108040034A (zh) * 2017-11-15 2018-05-15 中国航空无线电电子研究所 分布式实时通信中间件

Also Published As

Publication number Publication date
CN110677282A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110677282B (zh) 一种分布式系统的热备份方法及分布式系统
CN101478435B (zh) 一种堆叠系统的拓扑收集方法和双控制板设备
CN110704250B (zh) 一种分布式系统的热备份装置
CN110601903B (zh) 一种基于消息队列中间件的数据处理方法及装置
CN100369413C (zh) 代理响应设备及用于代理响应设备的方法
TWI364218B (en) Real-time image monitoring and recording system and method
CN102045332B (zh) 智能弹性架构中处理控制报文的方法和线卡板
CN106330475B (zh) 一种通信系统中管理主备节点的方法和装置及高可用集群
CN102355366B (zh) 堆叠分裂时管理堆叠成员设备的方法和堆叠成员设备
CN106850255A (zh) 一种多机备份的实现方法
CN102394914A (zh) 集群脑裂处理方法和装置
CN101984573A (zh) 分布式实现lacp标准状态机的方法及系统
CN103856760A (zh) 一种视频监控设备间纵向虚拟化装置
CN109639512B (zh) 一种vts多传感器信息综合处理系统的热备份方法
CN104506372A (zh) 一种实现主备服务器切换的方法及系统
CN103702065A (zh) 一种视频会议系统的备份系统及方法
CN102984174B (zh) 一种发布订阅系统中可靠性保障方法及系统
CN100563263C (zh) 在网络存储业务中实现系统高可用性的方法和系统
CN111262892B (zh) 一种多ros的服务发现系统
CN105490847B (zh) 一种私有云存储系统中节点故障实时检测及处理方法
CN110716827B (zh) 适用于分布式系统的热备份方法及分布式系统
CN109245911B (zh) 一种bras热备的实现方法、设备及计算机可读存储介质
CN102255716B (zh) 一种对协议状态的设备间备份的方法及系统
CN114598593B (zh) 消息处理方法、系统、计算设备及计算机存储介质
CN114090342A (zh) 存储容灾的链路管理方法及消息执行节点、存储控制集群

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant