CN104113428B - 一种设备管理装置和方法 - Google Patents

一种设备管理装置和方法 Download PDF

Info

Publication number
CN104113428B
CN104113428B CN201310135893.6A CN201310135893A CN104113428B CN 104113428 B CN104113428 B CN 104113428B CN 201310135893 A CN201310135893 A CN 201310135893A CN 104113428 B CN104113428 B CN 104113428B
Authority
CN
China
Prior art keywords
member device
heartbeat message
main member
standby
itself
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310135893.6A
Other languages
English (en)
Other versions
CN104113428A (zh
Inventor
胡滕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou DPTech Technologies Co Ltd
Original Assignee
Hangzhou DPTech Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou DPTech Technologies Co Ltd filed Critical Hangzhou DPTech Technologies Co Ltd
Priority to CN201310135893.6A priority Critical patent/CN104113428B/zh
Publication of CN104113428A publication Critical patent/CN104113428A/zh
Application granted granted Critical
Publication of CN104113428B publication Critical patent/CN104113428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种设备管理装置和方法,应用在虚拟网络设备中的成员设备上,所述虚拟网络设备中的成员设备包括主成员设备以及多个备成员设备,各成员设备之间通过级联端口之间的级联链路连接,该装置执行以下处理流程:A、主成员设备通过自身的级联端口发送第一心跳报文,通过自身预设的业务端口发送第二心跳报文;B、与主成员设备直接级联的备成员设备接收所述第一和第二心跳报文;C、所述备成员设备在预定的时间内没有接收到所述第一和第二心跳报文时,则确定主成员设备处于故障状态,触发重新选取主成员设备。通过本发明的技术方案,有效解决了现有技术中在主成员设备正常运行的情况下,重新选取主成员设备进而出现的网络故障等问题。

Description

一种设备管理装置和方法
技术领域
本发明涉及网络技术,尤其涉及一种设备管理装置和方法。
背景技术
目前,网络设备的虚拟化管理技术已经广泛应用在各种组网环境中,在虚拟化管理技术中,各成员设备之间需要通过预定的交互机制选举出一台用于管理的主成员设备,其他成员设备就是用于备份的备成员设备。在正常情况下,主成员设备能够很好的运行在组网环境中,但是当主成员设备和备成员设备之间级联的物理链路出现故障断开的时候,如何处理该故障,对网络的正常运行有着很大的影响。
现有技术中,各成员设备间互发心跳报文,以此来检测其他设备是否正常在线。对主成员设备的故障与否是通过备成员设备对心跳报文接收超时来检测。具体地,主成员设备通过级联线发送心跳报文给备成员设备,如果备成员设备在预定的时间内没有接收到所述心跳报文,则认为主成员设备出现故障,此时,备成员设备会重新选举出一个新的主成员设备。然而,当备成员设备没有收到心跳报文的时候,可能只是其和主成员设备级联的物理链路出现了故障,而主成员设备还在正常的运行。此时,根据现有技术,会重新选举出一个新的主成员设备,那么在虚拟设备中就同时出现了两个主成员设备,这两个主成员设备作为两个独立的个体运行在现有的组网环境中,而且这两个主成员设备MAC地址以及配置信息都是一样的,这样就会导致网络混乱,甚至网络业务中断等严重故障。
发明内容
有鉴于此,本发明提供一种设备管理装置和方法,以解决现有技术中的不足。
具体地,所述装置应用在虚拟网络设备中的成员设备上,所述虚拟网络设备中的成员设备包括主成员设备以及多个备成员设备,各成员设备之间通过级联端口之间的级联链路连接。该装置包括:
发送模块,用于当本机是主成员设备时,通过自身的级联端口发送第一心跳报文,通过自身预设的业务端口发送第二心跳报文给备成员设备;
监测模块,用于当本机是与主成员设备直接级联的备成员设备时,通过自身的级联端口接收所述第一心跳报文,通过预设的业务端口接收所述第二心跳报文,并进一步用于在预定的时间内没有接收到所述第一和第二心跳报文时,则确定主成员设备处于故障状态,触发重新选取主成员设备。
所述方法包括:
A、主成员设备通过自身的级联端口发送第一心跳报文,通过自身预设的业务端口发送第二心跳报文给备成员设备;
B、与主成员设备直接级联的备成员设备通过自身的级联端口接收所述第一心跳报文,通过预设的业务端口接收所述第二心跳报文;
C、所述备成员设备在预定的时间内没有接收到所述第一和第二心跳报文时,则确定主成员设备处于故障状态,触发重新选取主成员设备。
由以上技术方案可见,本发明中的备成员设备通过第一和第二心跳报文两种监测机制对虚拟网络设备中的主成员设备进行监控,能够正确的判断主成员设备的运行情况,避免出现现有技术中在主成员设备运行正常的情况下又重新选取主成员设备,进而发生的网络故障等问题。
附图说明
图1是本发明一种实施方式中设备管理装置的逻辑结构图;
图2是本发明一种实施方式中设备管理方法的流程图。
具体实施方式
在网络设备虚拟化技术中,通常将多个网络设备虚拟化为一台虚拟网络设备,也就是说在网络上其他设备来看,这些网络设备在逻辑上是一台设备,或者对于网管来说,这台设备逻辑上也是一台设备。网络设备虚拟化目前已经演化出各种技术分支,比如堆叠以及集群等。以堆叠为例,在堆叠设备的管理中,首先各个成员设备之间需要通过预定的交互机制选举出一台用于管理的主成员设备,其他成员设备就是用于备份的备成员设备,其中主成员设备在系统中处于主用的状态,负责管理整个系统,备成员设备依据主成员设备的协调控制处理业务。通过这虚拟化管理,整个系统对外呈现出一个设备,拥有一个对外的MAC地址以及IP地址的组合,但却可以给用户提供更多的业务端口。所述备成员设备中还保存有主成员设备发送的其自身运行状态信息,这些自身运行状态信息包括主成员设备的配置信息以及协议状态信息等,以便当主成员设备出现故障的时候,备成员设备可以根据所述自身运行状态信息将自己升级为新的主成员设备。
针对现有技术中备成员设备无法准确判断主成员设备是否故障的问题,本发明的设计思路是采用两种心跳报文来监视主成员设备的运行情况。为了使本领域技术人员更加清楚和明白,以下结合附图和实施例详细介绍本发明的具体实现。
本发明提供一种设备管理装置和方法,应用在虚拟网络设备中的成员设备上,所述虚拟网络设备中的成员设备包括主成员设备以及多个备成员设备,各成员设备之间通过级联端口之间的级联链路连接,所述主成员设备和备成员设备是角色的概念,事实上每个设备在不同的角色下都能执行本发明的技术方案。请参考图1,该装置包括,发送模块以及监测模块。该装置在实现本发明时,执行如下处理流程:
步骤101,主成员设备发送第一心跳报文和第二心跳报文给备成员设备。本步骤由发送模块执行。
具体地,本步骤中,为实现本发明,对每一台接入到虚拟网络设备中的成员设备都预设一个专门的业务端口,各设备上该预设的业务端口接入到同一个局域网中。所述第二心跳报文是以目的MAC地址为全F的广播报文,该第二心跳报文通过主成员设备的该预设业务端口发送,正常情况下虚拟网络设备中的所有成员设备都可以收到所述第二心跳报文。所述第一心跳报文通过主成员设备的级联端口发送,正常情况下,与主成员设备直接相连的备成员设备都能够接收到所述主成员设备发送的第一心跳报文。需要注意的是,在实际实现中,第一心跳报文是组网内成员设备间相互发送的,目的是检测其他设备是否在线,而本发明所要解决的技术问题是检测主成员设备的在线情况,所以主成员设备接收备成员设备的第一心跳报文与本申请所要解决的技术问题无关,进而在本申请中不再赘述。
步骤102,与主成员设备直接相连的备成员设备在预定的时间内判断是否接收到主成员设备发送的所述第一心跳报文和所述第二心跳报文。本步骤由监测模块执行。
本步骤中,所述预定的时间就是心跳报文发送的间隔时间的整数倍,其可以由用户自行设置。假设用户设置第一心跳报文的发送的间隔时间是T1,第二心跳报文发送的间隔时间是T2,在一种优选的实施方式中,为了在第一心跳报文超时的时候,可以更快地检测到主成员设备的存在,可以设置T2大于等于T1,而所述预定的时间可以设置为T2的三倍到五倍。如果网络及各级联链路都正常的话,系统中的所有与主成员设备直接相连的备成员设备在所述预定的时间内都会收到所述第一和第二心跳报文。但在实际应用中,所述备成员设备接收第一和第二心跳报文时会产生以下三种情况:
一、所述备成员设备在该预定的时间内既接收到第一心跳报文,也接收到第二心跳报文,这说明主成员设备在系统中正常运行。备成员设备无需做特别处理。
二、所述备成员设备在该预定的时间内只接收到一种心跳报文。备成员设备接收到心跳报文,不管是第一心跳报文还是第二心跳报文,都说明此时发送心跳报文的主成员设备运行正常。进一步地,所述备成员设备可以通过接收到的报文类型来确认主、备成员设备间的级联链路是否故障。具体地:
所述备成员设备接收到的是第一心跳报文。由于所述第一心跳报文是通过设备间的级联端口发送的,备成员设备能够成功接收到所述第一心跳报文,说明主、备成员设备间的级联链路运行正常,此时即便没有接收到第二心跳报文,备成员设备仍然可以通过级联链路与主成员设备交互,进而为用户提供服务。所以,这种情况下备成员设备无需做特别处理。备成员设备没有收到第二心跳报文往往是由于网络繁忙或者故障等原因造成的,其不影响备成员设备与主成员设备之间的交互。
所述备成员设备接收到的是第二心跳报文。这种情况下,备成员设备没有接收到第一心跳报文,就说明主、备成员设备间的级联链路发生了故障,可能是级联线断开了或者是级联端口关闭,不管是哪种情况都意味着备成员设备不能与主成员设备通过级联链路进行交互。在这种情况下,如果此时备成员设备遇到没有权限或者无法处理某些业务,备成员设备就会上报主成员设备,由于级联链路故障,备成员设备无法和主成员设备交互,依据虚拟网络设备的运行机制,备成员设备会认为是主成员设备故障,进而选举出一个新的主成员设备,由于主成员设备事实上依然能够工作,那么会导致一个虚拟网络设备分裂为多个虚拟网络设备,并且它们采用相同的地址配置,于是冲突产生。正因如此,本发明设定出现这种情况的时候,备成员设备并不是重新选举主成员设备而是关闭自身除监测模块以外的其他业务模块。
由于第一心跳报文是通过级联链路发送的,所以只有和主成员设备直连的备成员设备才能在正常的情况下收到所述第一心跳报文。当与主成员设备直连的备成员设备确定级联链路故障的时候,该备成员设备进一步地通知其他没有与主成员设备直连的备成员设备所述级联链路的故障,其他备成员设备接收到主、备成员设备间级联链路故障的通知后,也会关闭自身除监测模块以外的其他业务模块。进一步地,在所述备成员设备关闭除监测模块以外的其他业务模块后,重新接收到第一心跳报文时,则说明级联链路故障已恢复,此时重启关闭的业务模块,同样,该备成员设备也会通知其他没有与主成员设备直连的备成员设备链路故障恢复。
三、所述备成员设备在该预定的时间内既没有接收到第一心跳报文,也没有接收到第二心跳报文。此时,备成员设备确认主成员设备故障,进而重新选取主成员设备。
通过以上描述可以看出,本发明提供的技术方案通过设置双层监测机制,使得虚拟网络设备中的备成员设备能够正确判断主成员设备的运行情况,并在主、备成员设备间的物理级联链路故障时采取有效措施以保证网络的正常运行,大大提高了用户体验。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种设备管理装置,应用在虚拟网络设备中的成员设备上,所述虚拟网络设备中的成员设备包括主成员设备以及多个备成员设备,各成员设备之间通过级联端口之间的级联链路连接,其特征在于,该装置包括:
发送模块,用于当本机是主成员设备时,通过自身的级联端口发送第一心跳报文,通过自身预设的业务端口发送第二心跳报文给备成员设备;
监测模块,用于当本机是与主成员设备直接级联的备成员设备时,通过自身的级联端口接收所述第一心跳报文,通过预设的业务端口接收所述第二心跳报文,并进一步用于在预定的时间内没有接收到所述第一和第二心跳报文时,则确定主成员设备处于故障状态,触发重新选取主成员设备;在预定的时间内接收到所述第二心跳报文但未接收到所述第一心跳报文时,确定与主成员设备相连的级联链路或者级联端口故障;在预定的时间内接收到所述第一心跳报文但未接收到所述第二心跳报文时,确定与主成员设备相连的级联链路运行正常。
2.根据权利要求1所述的装置,其特征在于,所述监测模块进一步用于确定与主成员设备相连的级联链路或者级联端口故障时,关闭自身除监测模块以外的其他业务模块。
3.根据权利要求2所述的装置,其特征在于,所述监测模块进一步用于在关闭自身除监测模块以外的其他业务模块后重新接收到所述第一心跳报文时,重启被关闭的业务模块。
4.根据权利要求2所述的装置,其特征在于,所述监测模块进一步用于在确定与主成员设备相连的级联链路或者级联端口故障时,通知其他备成员设备。
5.根据权利要求1所述的装置,其特征在于,各成员设备预设的业务端口在到同一个局域网内。
6.一种设备管理方法,应用在虚拟网络设备中的成员设备上,所述虚拟网络设备中的成员设备包括主成员设备以及多个备成员设备,各成员设备之间通过级联端口之间的级联链路连接,其特征在于,该方法包括:
A、主成员设备通过自身的级联端口发送第一心跳报文,通过自身预设的业务端口发送第二心跳报文给备成员设备;
B、与主成员设备直接级联的备成员设备通过自身的级联端口接收所述第一心跳报文,通过预设的业务端口接收所述第二心跳报文;
C、所述备成员设备在预定的时间内没有接收到所述第一和第二心跳报文时,则确定主成员设备处于故障状态,触发重新选取主成员设备;
D、所述备成员设备在预定的时间内接收到所述第二心跳报文但未接收到所述第一心跳报文时,确定与主成员设备相连的级联链路或者级联端口故障;
E、所述备成员设备在预定的时间内接收到所述第一心跳报文但未接收到所述第二心跳报文时,确定与主成员设备相连的级联链路运行正常。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
确定与主成员设备相连的级联链路或者级联端口故障时,关闭自身除监测模块以外的其他业务模块。
8.根据权利要求7所述的方法,其特征在于,在步骤D之后还包括:
D1、所述备成员设备在关闭自身除监测模块以外的其他业务模块后,重新接收到所述第一心跳报文时,重启被关闭的业务模块。
9.根据权利要求7所述的方法,其特征在于,在步骤D之后还包括:
E、在确定与主成员设备相连的级联链路或者级联端口故障时,通知其他备成员设备。
10.根据权利要求6所述的方法,其特征在于,各成员设备预设的业务端口在到同一个局域网内。
CN201310135893.6A 2013-04-18 2013-04-18 一种设备管理装置和方法 Active CN104113428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310135893.6A CN104113428B (zh) 2013-04-18 2013-04-18 一种设备管理装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310135893.6A CN104113428B (zh) 2013-04-18 2013-04-18 一种设备管理装置和方法

Publications (2)

Publication Number Publication Date
CN104113428A CN104113428A (zh) 2014-10-22
CN104113428B true CN104113428B (zh) 2018-04-06

Family

ID=51710065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310135893.6A Active CN104113428B (zh) 2013-04-18 2013-04-18 一种设备管理装置和方法

Country Status (1)

Country Link
CN (1) CN104113428B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105656715B (zh) * 2015-12-30 2019-06-18 中国银联股份有限公司 用于监测云计算环境下网络设备的状态的方法和装置
CN105871716B (zh) * 2016-05-26 2022-04-15 北京博维亚讯技术有限公司 基于vrrp的链路监测方法及系统
CN109286514A (zh) * 2017-07-20 2019-01-29 中兴通讯股份有限公司 一种堆叠系统保活方法和堆叠系统
CN108959170B (zh) * 2018-07-10 2022-06-21 迈普通信技术股份有限公司 虚拟设备管理方法、装置、堆叠系统及可读存储介质
CN110635968A (zh) * 2019-09-27 2019-12-31 深信服科技股份有限公司 堆叠双活检测通道的监控方法、装置、设备及存储介质
CN111490903B (zh) * 2020-04-14 2022-08-09 广州汇智通信技术有限公司 一种网络数据采集处理方法和装置
CN112636955A (zh) * 2020-12-10 2021-04-09 锐捷网络股份有限公司 堆叠双挂处理方法及装置
CN113345149B (zh) * 2021-05-31 2023-01-06 杭州海康威视数字技术股份有限公司 道闸控制方法、装置、系统和服务器
CN115134219A (zh) * 2022-06-29 2022-09-30 北京飞讯数码科技有限公司 设备资源管理方法及装置、计算设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127653A (zh) * 2006-08-14 2008-02-20 中兴通讯股份有限公司 设置有备份的以太网环网设备及其主设备备份的实现方法
WO2012109941A1 (zh) * 2011-02-15 2012-08-23 中兴通讯股份有限公司 一种trill网络的冗余备份方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101127653A (zh) * 2006-08-14 2008-02-20 中兴通讯股份有限公司 设置有备份的以太网环网设备及其主设备备份的实现方法
WO2012109941A1 (zh) * 2011-02-15 2012-08-23 中兴通讯股份有限公司 一种trill网络的冗余备份方法及系统

Also Published As

Publication number Publication date
CN104113428A (zh) 2014-10-22

Similar Documents

Publication Publication Date Title
CN104113428B (zh) 一种设备管理装置和方法
CN102223258B (zh) 一种防止bfd会话中断的方法和设备
CN102315975B (zh) 一种基于irf系统的故障处理方法及其设备
CN103825766B (zh) 一种bfd链路检测装置和方法
CN104104570A (zh) Irf系统中的聚合处理方法及装置
CN106533736B (zh) 一种网络设备重启方法和装置
CN109088794A (zh) 一种节点的故障监测方法和装置
CN103973560A (zh) 一种irf系统中堆叠链路故障处理的方法和装置
US10341138B2 (en) Spanning tree protocol enabled N-node link aggregation system
US10785100B2 (en) Interconnecting networks
US9231779B2 (en) Redundant automation system
CN102255751A (zh) 一种堆叠冲突的处理方法和设备
WO2016095344A1 (zh) 链路切换方法、装置及线卡
CN109088818A (zh) 一种设备联动切换的方法及装置
CN112527567A (zh) 系统容灾方法、装置、设备以及存储介质
CN103220189B (zh) 一种mad检测备份方法和设备
US11258666B2 (en) Method, device, and system for implementing MUX machine
JP4724763B2 (ja) パケット処理装置およびインタフェースユニット
US20130090760A1 (en) Apparatus and method for managing robot components
WO2014060465A1 (en) Control system and method for supervisory control and data acquisition
CN103944781B (zh) 一种防止堆叠系统单边分裂的方法及系统
CN102638369B (zh) 一种主备倒换的仲裁方法、装置和系统
CN115484208A (zh) 一种基于云安全资源池的分布式引流系统和方法
CN105376130B (zh) 中继系统以及中继装置
CN102946321B (zh) 一种基于irf网络的故障处理方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Binjiang District and Hangzhou city in Zhejiang Province Road 310051 No. 68 in the 6 storey building

Applicant after: Hangzhou Dipu Polytron Technologies Inc

Address before: Binjiang District and Hangzhou city in Zhejiang Province Road 310051 No. 68 in the 6 storey building

Applicant before: Hangzhou Dipu Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant