CN110830324B - 一种检测数据中心网络连通性的方法、装置及电子设备 - Google Patents

一种检测数据中心网络连通性的方法、装置及电子设备 Download PDF

Info

Publication number
CN110830324B
CN110830324B CN201911032483.2A CN201911032483A CN110830324B CN 110830324 B CN110830324 B CN 110830324B CN 201911032483 A CN201911032483 A CN 201911032483A CN 110830324 B CN110830324 B CN 110830324B
Authority
CN
China
Prior art keywords
node
switch
server
slave
reply message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911032483.2A
Other languages
English (en)
Other versions
CN110830324A (zh
Inventor
艾敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN201911032483.2A priority Critical patent/CN110830324B/zh
Publication of CN110830324A publication Critical patent/CN110830324A/zh
Application granted granted Critical
Publication of CN110830324B publication Critical patent/CN110830324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种检测数据中心网络连通性的方法、装置及电子设备,该方法包括:将数据中心的每个交换机及其直连的所有节点服务器配置为一个子网络资源池;选举至少两个所述子网络资源池作为主控节点,剩余的子网络资源池作为从属节点;控制所述主控节点分别向每一个所述从属节点发送数据请求包,并监听主控节点接收各从属节点响应于所述数据请求包生成的回复报文,根据所述回复报文的接收结果定位发生故障的交换机或其所在链路;本发明能够在数据中心发生故障时准确定位出具体的交换机接口或节点服务器接口,定位精度高,有效缩短运维人员定位时间,使业务快速恢复。

Description

一种检测数据中心网络连通性的方法、装置及电子设备
技术领域
本发明属于数据中心网络技术领域,更具体地,涉及一种检测数据中心网络连通性的方法、装置及电子设备。
背景技术
云计算的核心思想是将大量计算资源通过网络连接的方式进行统一的管理和调度,从而构成一个整体的计算资源池,根据用户的需求提供对应的服务,其中网络是作为这些服务的桥梁与通道。目前大多数的云计算平台分三个网络层面:管理网、存储网及业务网。管理网承载着云平台各组件间、管理员的管理数据包,存储网承载这存储节点与控制节点、计算节点、虚拟机张的存储数据包,业务网包含了虚拟机之间、应用服务器之间,以及虚机与外部的交换数据包。只有在保证各节点服务器的管理网、存储网及同一个租户的业务网之间的链路互通,才能保障租户服务正常运行。
随着云化网络的规模越来越大,数据中心中的网络设备也随之增加,网络模型也愈加复杂,能够保障网络的正常运行,避免网络故障导致用户服务的中断变得至关重要。而如何更为及时、更为准确的检测出网络故障也给网络运维带来更大的难度。
传统的网络检测手段只能检测到某一个网络平面的故障,一个网络平面往往包含很多个服务器、交换机、或路由器等数通设备,检测粒度太大,故障定位精度不高,不利于运维人员快速地定位并解决故障问题,因此无法为用户提供高质量服务。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种检测数据中心网络连通性的方法、装置及电子设备,其目的在于解决传统的网络检测手段存在的故障定位精度不高、不利于运维人员快速定位故障链路的问题。
为实现上述目的,按照本发明的第一个方面,提供了一种检测数据中心网络连通性的方法,该方法用于定位数据中心中发生故障的交换机,具体包括以下步骤:
S101:将数据中心的每个交换机及其直连的所有节点服务器配置为一个子网络资源池;
S102:选举至少两个所述子网络资源池作为主控节点,剩余的子网络资源池作为从属节点;
S103:控制所述主控节点分别向每一个所述从属节点发送数据请求包,并监听主控节点接收各从属节点响应于所述数据请求包生成的回复报文,根据所述回复报文的接收结果定位发生故障的交换机或其所在链路。
优选的,上述检测数据中心网络连通性的方法,根据所述回复报文的接收结果定位发生故障的交换机或其所在链路具体包括:
若各主控节点均未收到其中一个从属节点的回复报文,则判定该从属节点中的交换机或其所在链路发生故障并生成告警信息;
若至少一个主控节点收到回复报文而其它主控节点未收到回复报文,则判定未收到回复报文的主控节点中的交换机或其所在链路发生故障并生成告警信息;
所述告警信息中包括对应交换机的标识信息。
优选的,上述检测数据中心网络连通性的方法,所述故障定位还包括:
若全部主控节点均未收到回复报文,则从所述从属节点重新选举至少两个主控节点,重复步骤S102-S103。
优选的,上述检测数据中心网络连通性的方法,该方法还用于定位数据中心中发生故障的节点服务器,具体包括以下步骤:
S201:在每个子网络资源池中选举至少两个节点服务器作为主服务器,该子网络资源池中剩余的节点服务器作为从属服务器;
S202:控制所述主服务器分别向每一个所述从属服务器发送数据请求包,并监听主服务器接收各从属服务器响应于所述数据请求包生成的回复报文,根据所述回复报文的接收结果定位发生故障的节点服务器或其所在链路。
优选的,上述检测数据中心网络连通性的方法,根据所述回复报文的接收结果定位发生故障的节点服务器或其所在链路具体包括:
若各主服务器均未收到其中一个从属服务器的回复报文,则判定该从属服务器与交换机所在链路发生故障并生成告警信息;
若至少一个主服务器收到回复报文而其它主服务器未收到回复报文,则判定未收到回复报文的主服务器与交换机所在链路发生故障并生成告警信息;
所述告警信息中包括对应节点服务器的标识信息。
优选的,上述检测数据中心网络连通性的方法,所述故障定位还包括:
若全部主服务器均未收到回复报文,则从所述从属服务器重新选举至少两个主服务器,重复步骤S201-S202。
优选的,上述检测数据中心网络连通性的方法,所述主控节点或主服务器的选举采用分布式一致性算法实现。
按照本发明的第二个方面,还提供了一种检测数据中心网络连通性的装置,该装置用于定位数据中心中发生故障的交换机,包括:
配置单元,用于通过链路发现协议将数据中心的每个交换机及其直连的所有节点服务器配置为一个子网络资源池;
定位单元,用于选举至少两个所述子网络资源池作为主控节点,剩余的子网络资源池作为为从属节点;控制所述主控节点分别向每一个所述从属节点发送数据请求包,并监听主控节点接收各从属节点响应于所述数据请求包生成的回复报文,根据所述回复报文的接收结果定位发生故障的交换机或其所在链路。
优选的,上述检测数据中心网络连通性的装置,该装置还用于定位数据中心中发生故障的节点服务器,具体的:
所述定位单元在每个子网络资源池中选举至少两个节点服务器作为主服务器,该子网络资源池中剩余的节点服务器作为从属服务器;控制所述主服务器分别向每一个所述从属服务器发送数据请求包,并监听主服务器接收各从属服务器响应于所述数据请求包生成的回复报文,根据所述回复报文的接收结果定位发生故障的节点服务器或其所在链路。
优选的,上述检测数据中心网络连通性的装置,所述定位单元包括告警模块和故障检测模块;所述故障检测模块配置在节点服务器上,每个节点服务器对应一个故障检测模块;
故障检测模块用于:通过随机算法选举至少两个子网络资源池作为主控节点,并用于控制所述主控节点分别向每一个所述从属节点发送数据请求包,并监听主控节点接收各从属节点响应于所述数据请求包生成的回复报文;根据所述回复报文的接收结果定位发生故障的交换机或其所在链路并通知所述告警模块生成告警信息,所述告警信息中包括对应交换机的标识信息;
或者,通过随机算法在每个子网络资源池中选举至少两个节点服务器作为主服务器,控制所述主服务器分别向每一个所述从属服务器发送数据请求包,并监听主服务器接收各从属服务器响应于所述数据请求包生成的回复报文;根据所述回复报文的接收结果定位发生故障的交换机或其所在链路并通知所述告警模块生成告警信息,所述告警信息中包括对应节点服务器的标识信息。
按照本发明的第三个方面,还提供了一种电子设备,其包括至少一个处理单元、以及至少一个存储单元,
其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行上述任一项所述检测数据中心网络连通性的方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的检测数据中心网络连通性的方法、装置及电子设备,将数据中心的每个交换机及其直连的所有节点服务器配置为一个子网络资源池;选举至少两个子网络资源池作为主控节点,剩余的子网络资源池作为从属节点;控制主控节点分别向每一个从属节点发送数据请求包,并监听主控节点接收各从属节点反馈的回复报文,根据回复报文的接收结果即可准确定位出数据中心中发生故障的交换机所在链路,显著减小的检测粒度,定位准确性高,便于网络运维人员及时修复故障链路。
(2)本发明提供的检测数据中心网络连通性的方法、装置及电子设备,在每个子网络资源池中选举至少两个节点服务器作为主服务器,该子网络资源池中剩余的节点服务器作为从属服务器;控制主服务器分别向每一个从属服务器发送数据请求包,并监听主服务器接收各从属服务器反馈的回复报文,根据回复报文的接收结果可以定位数据中心中发生故障的节点服务器,进一步提高定位精度,识别出具体故障点,缩短运维人员定位时间,使业务快速恢复。
附图说明
图1是本发明实施例提供的第一种检测数据中心网络连通性的方法的流程图;
图2是本发明实施例提供的第二种检测数据中心网络连通性的方法的流程图;
图3是本发明实施例提供的检测数据中心网络连通性的装置的逻辑框图;
图4是本发明实施例提供的检测数据中心网络连通性的信号交互示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例一
为了使网络运维能够更准确更快速的定位网络连通性故障问题,本实施例提供了一种检测数据中心网络连通性的方法:在云数据中心管理面、存储面或者业务面发生链路不通故障时,能够快速的定位出具体是哪个交换机接口或节点服务器接口故障导致的链路不通,从而迅速地通知运维人员进行对应的修复。
图1是本实施例提供的检测数据中心网络连通性的方法的流程图,该方法用于定位数据中心中发生故障的交换机,参见图1所示,该方法具体包括以下步骤:
S101:将数据中心的每个交换机及其直连的所有节点服务器配置为一个子网络资源池;
根据数据中心的网络拓扑结构,数据中心中的网络设备一般包括多个交换机,每个交换器上联服务器机柜中的服务器端口EOR,下联多个节点服务器;当数据中心出现网络故障时,如果能够精确定位到故障发生的具体链路,比如某一交换机与其上联的EOR之间的链路发生了故障;或者某一节点服务器与其上联的交换机之间的链路发生了故障,则网络运维人员将能够更加准确、更加快速地进行故障修复。
为了实现这一目的,本实施例中,首先将每个交换机及其直连的所有节点服务器配置为一个子网络资源池,具体的,每个交换机及其直连下的节点服务器通过LLDP等链路发现协议即可形成一个子网络资源池。
S102:随机选举至少两个子网络资源池作为主控节点,剩余的子网络资源池作为从属节点;
主控节点的选取方式本实施例不作具体限制,采用RAFT随机选举算法或其他分布式一致性算法即可实现;主控节点选取之后,数据中心中剩余的其它子网络资源池即作为主控节点的从属节点。
S103:控制主控节点分别向每一个从属节点发送数据请求包,并监听主控节点接收各从属节点响应于数据请求包生成的回复报文,根据回复报文的接收结果定位发生故障的交换机或其所在链路。
选举出来的各个主控节点分别向每一个从属节点发送数据请求包,各从属节点收到数据请求包后,构造相应的回复报文分别回复给每一个主控节点;监听各主控节点的回复报文接收情况即可确定当前的网络链路是否发生故障,如果发生故障,还可以定位出出现故障的交换机所在链路,具体的:
(1)如果一个主控节点收到了所有从属节点的回复报文,则表示所有的子网络资源池之间的链路是互通的,各子网络资源池中的交换机与其上联EOR之间的接口配置都是正确的;
(2)如果全部主控节点均收不到某一个从属节点的回复包,则表示该从属节点的交换机与上联EOR之间是断开的;此时产生表征该从属节点发生故障的告警信息,通知运维人员检测告警信息中的从属节点的交换机与上联EOR的配置;
(3)若至少一个主控节点收到回复报文而其它主控节点未收到回复报文,则表示未收到回复报文的主控节点中交换机所在链路发生故障,产生相应的告警信息,通知运维人员检测告警信息中的主控节点的交换机与上联EOR的配置;
(4)若全部主控节点均未收到回复报文,则表示两个主控节点所在链路均发生故障,产生相应的告警信息,通知运维人员检测告警信息中两个主控节点的交换机与上联EOR的配置;
另外,由于两个主控节点均出现故障,需要选举产生新的主控节点;整个数据中心重新选举,从目前的从属节点中推选产生至少两个主控节点,并按照步骤S102-S103所述的方法执行后续的故障定位操作。
上述告警信息中包括出现故障的主控节点或从属节点中的对应交换机的标识信息,该标识信息可以是交换机的配置端口,或者是其它人为编码产生的编号信息,本实施例不作具体限制。
通过上述检测数据中心网络连通性的方法即可准确定位出数据中心中发生故障的交换机所在链路,便于网络运维人员及时修复故障链路。
为了进一步减小检测粒度,提高定位精度,本实施例还提供了一种可以定位数据中心中发生故障的节点服务器的网络连通性检测方法,参见图2所示,该方法还包括以下步骤:
S201:在每个子网络资源池中选举至少两个节点服务器作为主服务器,该子网络资源池中剩余的节点服务器作为从属服务器;
主服务器的选取方式本实施例不作具体限制,采用RAFT随机选举算法或其他分布式一致性算法即可实现;主服务器选取之后,子网络资源池中剩余的其它节点服务器即作为主服务器的从属服务器。
S202:控制主服务器分别向每一个从属服务器发送数据请求包,并监听主服务器接收各从属服务器响应于数据请求包生成的回复报文,根据回复报文的接收结果定位发生故障的节点服务器或其所在链路。
选举出来的各个主服务器分别向每一个从属服务器发送数据请求包,各从属服务器收到数据请求包后,构造相应的回复报文分别回复给每一个主服务器;监听各主服务器的回复报文接收情况即可确定当前的网络链路是否发生故障,如果发生故障,还可以定位出出现故障的交换机所在链路,具体的:
(1)如果一个主服务器收到了所有从属服务器的回复报文,则表示该子网络资源池中各节点服务器之间的链路是互通的,各节点服务器与其上联的交换机之间的接口配置都是正确的;
(2)如果全部主服务器均收不到某一个从属服务器的回复包,则表示该从属服务器与上联的交换机之间是断开的;此时产生表征该从属服务器发生故障的告警信息,通知运维人员检测告警信息中的从属服务器与上联交换机之间的配置;
(3)若至少一个主服务器收到回复报文而其它主服务器未收到回复报文,则表示未收到回复报文的主服务器所在链路发生故障,产生相应的告警信息,通知运维人员检测告警信息中的主服务器与上联交换机之间的配置;
(4)若全部主服务器均未收到回复报文,则表示两个主服务器所在链路均发生故障,产生相应的告警信息,通知运维人员检测告警信息中两个主服务器与上联交换机之间的配置;
另外,由于两个主服务器均出现故障,需要选举产生新的主服务器;整个子网络资源池重新选举,从目前的从属服务器中推选产生至少两个主服务器,并按照步骤S201-S202所述的方法执行后续的故障定位操作。
上述告警信息中包括出现故障的主服务器或从属服务器的标识信息,该标识信息可以是节点服务器的配置端口信息,或者是其它人为编码产生的编号信息,本实施例不作具体限制。
通过本实施例提供的检测数据中心网络连通性的方法,即可准确的检测出数据中心内所有交换机及节点服务器之间的链路状态,实现故障精确定位。
实施例二
本实施例提供了一种检测数据中心网络连通性的方法的装置,该装置用于定位数据中心中发生故障的交换机,该装置可以采用软件和/或硬件的方式实现,并可集成在电子设备上。
参见图3所示,该装置包括配置单元和定位单元,其中:
配置单元用于通过链路发现协议将数据中心的每个交换机及其直连的所有节点服务器配置为一个子网络资源池;
定位单元用于选举至少两个子网络资源池作为主控节点,剩余的子网络资源池作为为从属节点;控制主控节点分别向每一个从属节点发送数据请求包,并监听主控节点接收各从属节点响应于数据请求包生成的回复报文,根据回复报文的接收结果定位发生故障的交换机或其所在链路。
本实施例中,定位单元包括告警模块和故障检测模块,故障检测模块配置在节点服务器上,每个节点服务器对应一个故障检测模块;本实施例中,故障检测模块可以是云平台自带的虚拟交换机或其他可实现相似功能的软件模块;
故障检测模块配置完成后,可通过随机算法选举至少两个子网络资源池作为主控节点,然后控制对应的主控节点分别向每一个从属节点发送数据请求包,从属节点接收到数据请求包之后,构造相应的回复报文分别回复给各主控节点;故障检测模块监听主控节点接收的回复报文,并根据该回复报文的接收结果定位发生故障的交换机或其所在链路,然后通知告警模块生成告警信息,该告警信息中包括对应交换机的标识信息。故障定位的具体方法参见上文方法中所述,此处不再赘述。
本实施例提供的检测数据中心网络连通性的装置还可以用于定位数据中心中发生故障的节点服务器,进而减小检测粒度,提高定位精度;具体的:
故障检测模块在每个子网络资源池中选举至少两个节点服务器作为主服务器,该子网络资源池中剩余的节点服务器作为从属服务器;然后控制主服务器分别向每一个从属服务器发送数据请求包,从属服务器接收到数据请求包之后,构造相应的回复报文分别回复给各主服务器;故障检测模块监听主服务器接收的回复报文,根据回复报文的接收结果定位发生故障的节点服务器或其所在链路。然后通知告警模块生成告警信息,该告警信息中包括对应节点服务器的标识信息。故障定位的具体方法参见上文方法中所述,此处不再赘述。
本实施例中,故障检测模块具有良好的可扩缩性,可随节点服务器的扩容或缩容进行动态增加或删除,不影响现网业务。
实施例三
图4是本实施例提供的检测数据中心网络连通性的信号交互示意图;参见图4,本实施例提供的检测数据中心网络连通性的方法的实现过程包括以下步骤:
(1)在数据中心的每个节点服务器上部署故障检测模块,该故障检测模块包含云平台自带的虚拟交换机或其他实现相似功能的软件模块。
(2)部署在所有节点服务器上的故障检测模块接收告警模块下发的监控策略,该告警模块可以采用云平台自带的监控组件Prometheus;监控策略可以是手动开启检测,或是自动定时检测等;故障检测模块能够依据监控策略进行针对性检测或定时检测,不影响现网业务。
(3)故障检测模块按照收到的策略信息监听数据中心相应的网络平面,本实施例可通过告警模块设置监控策略监控多个网络平面的故障,不局限于管理、存储、业务平面;以下以管理平面为例进行说明。
(4)数据中心内所有的故障检测模块在管理平面已配置完成且链路互通,与数据中心各网络设备形成一个整体的网络资源池Net Pool。
(5)每个交换机及其直连下的节点服务器通过LLDP等链路发现协议形成一个子网络资源池Subnet Pool。
(6)数据中心内所有故障检测模块通过RAFT随机选举算法或其他分布式一致性算法选举产生两个Subnet Pool Master,剩下的子网络资源池为Subnet Pool Slave。
(7)随机选举的两个Subnet Pool Master分别向其他所有Subnet Pool发送数据请求包,发送路径如图中标记③所示。
(8)Subnet Pool Slave收到Subnet Pool Master的请求包后,构造相应的回复报文分别回复给两个Subnet Pool Master。
(9)若Subnet Pool Master收到所有Subnet Pool Slave的回复包,则表示所有Subnet Pool之间的链路是互通的,交换机与上联EOR之间接口配置都是正确的;
若两个Subnet Pool Master同时收不到某一个Subnet Pool Slave的回复包,则表示该Subnet Pool Slave的交换机与上联EOR之间是断开的,此时Subnet Pool Master中的任一故障检测模块会通知告警模块产生相应告警信息,通知运维人员检测报警中的Subnet Pool Slave的交换机与上联EOR的配置,告警信息的发送路径如图中标记⑤所示;
若一个Subnet Pool Master收到,另一个Subnet Pool Master没有收到,则收不到的Subnet Pool Master链路故障,产生相应告警;
若两个Subnet Pool Master均收不到Subnet Pool Slave信息,则整个Net Pool重新选举,推选另外两个Subnet Pool Master,重新按照步骤(7)-(9)进行操作。
按上述步骤操作能够检测出数据中心每个交换机与上联EOR之间的链路故障,但每个交换机下联的节点服务器之间的链路故障还需重新检测。
(10)与步骤6相似,由故障检测模块在一个Subnet Pool里推举产生两个服务器节点master,与步骤9类似,两个服务器节点master分别向每一个服务器节点slave发送数据请求包,发送路径如图中标记④所示。
(11)服务器节点slave收到服务器节点master的请求包后,构造相应的回复报文分别回复给两个服务器节点master。
(12)若服务器节点master收到所有服务器节点slave的回复包,则表示所有节点服务器之间的链路是互通的,节点服务器与上联交换机之间接口配置都是正确的;
若两个服务器节点master同时收不到某一个服务器节点slave的回复包,则表示该服务器节点slave与上联交换机之间是断开的,此时服务器节点master对应的故障检测模块会通知告警模块产生相应告警信息,通知运维人员检测报警中的服务器节点slave与上联交换机的配置;
若一个服务器节点master收到,另一个服务器节点master没有收到,则收不到的服务器节点master链路故障,产生相应告警;
若两个服务器节点master均收不到服务器节点Slave信息,则整个Net Pool重新选举,推选另外两个服务器节点master,重新按照步骤(10)-(12)进行操作。
按照步骤(4)-(12),能够准确的检测出数据中心内所有交换机及服务器节点之间的链路状态,识别出具体故障点,缩短运维人员定位时间,使业务快速恢复。
实施例四
本实施例还提供了一种电子设备,其包括至少一个处理器、以及至少一个存储器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行上述检测数据中心网络连通性的方法的步骤,此处不再赘述;处理器和存储器的类型不作具体限制,例如:处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等;存储器可以是易失性存储器、非易失性存储器或者它们的组合等。
该电子设备也可以与一个或多个外部设备(如键盘、指向终端、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的终端通信,和/或与使得该电子设备能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种检测数据中心网络连通性的方法,其特征在于,该方法用于定位数据中心中发生故障的交换机或其所在链路,具体包括以下步骤:
S101:将数据中心的每个交换机及其直连的所有节点服务器配置为一个子网络资源池;
S102:选举至少两个所述子网络资源池作为主控节点,剩余的子网络资源池作为从属节点;
S103:控制所述主控节点分别向每一个所述从属节点发送数据请求包,并监听主控节点接收各从属节点响应于所述数据请求包生成的回复报文,根据所述回复报文的接收结果定位发生故障的交换机或其所在链路。
2.如权利要求1所述的方法,其特征在于,根据所述回复报文的接收结果定位发生故障的交换机或其所在链路具体包括:
若各主控节点均未收到其中一个从属节点的回复报文,则判定该从属节点中的交换机或其所在链路发生故障并生成告警信息;
若至少一个主控节点收到回复报文而其它主控节点未收到回复报文,则判定未收到回复报文的主控节点中的交换机或其所在链路发生故障并生成告警信息;
所述告警信息中包括对应交换机的标识信息。
3.如权利要求2所述的方法,其特征在于,根据所述回复报文的接收结果定位发生故障的交换机或其所在链路还包括:
若全部主控节点均未收到回复报文,则从所述从属节点重新选举至少两个主控节点,重复步骤S102-S103。
4.如权利要求1或3所述的方法,其特征在于,该方法还用于定位数据中心中发生故障的节点服务器或其所在链路,具体包括以下步骤:
S201:在每个子网络资源池中选举至少两个节点服务器作为主服务器,该子网络资源池中剩余的节点服务器作为从属服务器;
S202:控制所述主服务器分别向每一个所述从属服务器发送数据请求包,并监听主服务器接收各从属服务器响应于所述数据请求包生成的回复报文,根据所述回复报文的接收结果定位发生故障的节点服务器或其所在链路。
5.如权利要求4所述的方法,其特征在于,根据所述回复报文的接收结果定位发生故障的节点服务器或其所在链路具体包括:
若各主服务器均未收到其中一个从属服务器的回复报文,则判定该从属服务器与交换机所在链路发生故障并生成告警信息;
若至少一个主服务器收到回复报文而其它主服务器未收到回复报文,则判定未收到回复报文的主服务器与交换机所在链路发生故障并生成告警信息;
所述告警信息中包括对应节点服务器的标识信息。
6.如权利要求5所述的方法,其特征在于,根据所述回复报文的接收结果定位发生故障的节点服务器或其所在链路还包括:
若全部主服务器均未收到回复报文,则从所述从属服务器重新选举至少两个主服务器,重复步骤S201-S202。
7.一种检测数据中心网络连通性的装置,其特征在于,该装置用于定位数据中心中发生故障的交换机或其所在链路,包括:
配置单元,用于通过链路发现协议将数据中心的每个交换机及其直连的所有节点服务器配置为一个子网络资源池;
定位单元,用于选举至少两个所述子网络资源池作为主控节点,剩余的子网络资源池作为从属节点;控制所述主控节点分别向每一个所述从属节点发送数据请求包,并监听主控节点接收各从属节点响应于所述数据请求包生成的回复报文,根据所述回复报文的接收结果定位发生故障的交换机或其所在链路。
8.如权利要求7所述的装置,其特征在于,该装置还用于定位数据中心中发生故障的节点服务器或其所在链路,具体的:
所述定位单元在每个子网络资源池中选举至少两个节点服务器作为主服务器,该子网络资源池中剩余的节点服务器作为从属服务器;控制所述主服务器分别向每一个所述从属服务器发送数据请求包,并监听主服务器接收各从属服务器响应于所述数据请求包生成的回复报文,根据所述回复报文的接收结果定位发生故障的节点服务器或其所在链路。
9.如权利要求7或8所述的装置,其特征在于,所述定位单元包括告警模块和故障检测模块;所述故障检测模块配置在节点服务器上,每个节点服务器对应一个故障检测模块;
该故障检测模块用于根据回复报文的接收结果定位发生故障的交换机或其所在链路并通知所述告警模块生成告警信息,所述告警信息中包括对应交换机的标识信息;
或者,根据回复报文的接收结果定位发生故障的交换机或其所在链路并通知所述告警模块生成告警信息,所述告警信息中包括对应节点服务器的标识信息。
10.一种电子设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,
其中,所述存储单元存储有计算机程序,当所述程序被所述处理单元执行时,使得所述处理单元执行权利要求1~6任一项所述方法的步骤。
CN201911032483.2A 2019-10-28 2019-10-28 一种检测数据中心网络连通性的方法、装置及电子设备 Active CN110830324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911032483.2A CN110830324B (zh) 2019-10-28 2019-10-28 一种检测数据中心网络连通性的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911032483.2A CN110830324B (zh) 2019-10-28 2019-10-28 一种检测数据中心网络连通性的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110830324A CN110830324A (zh) 2020-02-21
CN110830324B true CN110830324B (zh) 2021-09-03

Family

ID=69551265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911032483.2A Active CN110830324B (zh) 2019-10-28 2019-10-28 一种检测数据中心网络连通性的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110830324B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475386B (zh) * 2020-06-05 2024-01-23 中国银行股份有限公司 一种故障预警方法及相关装置
CN112260971B (zh) * 2020-10-21 2021-11-16 湖南大学 网络设备系统的容错方法、装置、计算机设备和存储介质
CN114629819A (zh) * 2020-12-10 2022-06-14 中移(苏州)软件技术有限公司 一种网络检测方法及装置、电子设备及存储介质
CN114338275B (zh) * 2021-12-31 2023-09-19 北京神经元网络技术有限公司 一种autbus总线网络节点的管理方法、装置、设备及存储介质
CN114448773A (zh) * 2022-01-19 2022-05-06 江苏太湖慧云数据系统有限公司 一种云计算数据中心资源的智能调度方法
CN115065586A (zh) * 2022-05-30 2022-09-16 齐鲁中科电工先进电磁驱动技术研究院 控制系统故障检测及数据通道切换方法、装置及电子设备

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667980A (zh) * 2009-09-30 2010-03-10 杭州华三通信技术有限公司 实现Internet数据中心城域互联的方法和系统
CN101800653A (zh) * 2010-03-23 2010-08-11 烽火通信科技股份有限公司 兼容以太网tx和fx接口的以太网盘pcb及制作方法
CN102238067A (zh) * 2010-04-28 2011-11-09 杭州华三通信技术有限公司 一种快速环网保护协议环上的切换方法和装置
US8165014B2 (en) * 2007-06-19 2012-04-24 Commscope, Inc. Of North Carolina Methods and systems for using managed port circuitry to map connections among structured cabling apparatus and network devices
CN103281212A (zh) * 2013-06-21 2013-09-04 武汉烽火网络有限责任公司 监控城域以太网性能的方法
CN103326884A (zh) * 2013-05-30 2013-09-25 烽火通信科技股份有限公司 Sdn网络中结合流检测和包检测的业务流感知系统及方法
KR20130107113A (ko) * 2012-03-21 2013-10-01 네이버 주식회사 네트워크 스위치를 이용한 캐시 시스템 및 캐시 서비스 제공 방법
CN103914482A (zh) * 2013-01-07 2014-07-09 上海宝信软件股份有限公司 基于cmdb的集中监控事件影响性确定方法
CN104469699A (zh) * 2014-11-27 2015-03-25 华为技术有限公司 集群仲裁方法和多集群配合系统
CN104601394A (zh) * 2014-11-26 2015-05-06 华为技术有限公司 一种业务链连通性检测的方法、装置及系统
CN105897508A (zh) * 2016-04-01 2016-08-24 锐捷网络股份有限公司 一种分布式数据中心业务处理的方法和核心交换机
CN106160864A (zh) * 2016-08-05 2016-11-23 王楚 大数据交换平台网络架构
CN106170782A (zh) * 2013-04-26 2016-11-30 华为技术有限公司 用于在网络中的机器的大规模并行处理集群中创建高度可扩展的高可用性集群的系统和方法
CN107612614A (zh) * 2017-10-09 2018-01-19 郑州云海信息技术有限公司 一种分布式集装箱数据中心动环监控环网及故障修复方法
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及系统
EP3312866A4 (en) * 2015-06-22 2019-01-23 Hyosung Heavy Industries Corporation DIRECT CURRENT CIRCUIT BREAKER

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9100298B2 (en) * 2011-05-23 2015-08-04 Cisco Technology, Inc. Host visibility as a network service
WO2016048084A1 (en) * 2014-09-26 2016-03-31 Lg Electronics Inc. Method and apparatus for configuring user equipment initiated messages for dual connectivity in wireless communication system
CN107659423A (zh) * 2016-07-25 2018-02-02 南京中兴新软件有限责任公司 业务处理方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165014B2 (en) * 2007-06-19 2012-04-24 Commscope, Inc. Of North Carolina Methods and systems for using managed port circuitry to map connections among structured cabling apparatus and network devices
CN101667980A (zh) * 2009-09-30 2010-03-10 杭州华三通信技术有限公司 实现Internet数据中心城域互联的方法和系统
CN101800653A (zh) * 2010-03-23 2010-08-11 烽火通信科技股份有限公司 兼容以太网tx和fx接口的以太网盘pcb及制作方法
CN102238067A (zh) * 2010-04-28 2011-11-09 杭州华三通信技术有限公司 一种快速环网保护协议环上的切换方法和装置
KR20130107113A (ko) * 2012-03-21 2013-10-01 네이버 주식회사 네트워크 스위치를 이용한 캐시 시스템 및 캐시 서비스 제공 방법
CN103914482A (zh) * 2013-01-07 2014-07-09 上海宝信软件股份有限公司 基于cmdb的集中监控事件影响性确定方法
CN106170782A (zh) * 2013-04-26 2016-11-30 华为技术有限公司 用于在网络中的机器的大规模并行处理集群中创建高度可扩展的高可用性集群的系统和方法
CN103326884A (zh) * 2013-05-30 2013-09-25 烽火通信科技股份有限公司 Sdn网络中结合流检测和包检测的业务流感知系统及方法
CN103281212A (zh) * 2013-06-21 2013-09-04 武汉烽火网络有限责任公司 监控城域以太网性能的方法
CN104601394A (zh) * 2014-11-26 2015-05-06 华为技术有限公司 一种业务链连通性检测的方法、装置及系统
CN104469699A (zh) * 2014-11-27 2015-03-25 华为技术有限公司 集群仲裁方法和多集群配合系统
EP3312866A4 (en) * 2015-06-22 2019-01-23 Hyosung Heavy Industries Corporation DIRECT CURRENT CIRCUIT BREAKER
CN105897508A (zh) * 2016-04-01 2016-08-24 锐捷网络股份有限公司 一种分布式数据中心业务处理的方法和核心交换机
CN106160864A (zh) * 2016-08-05 2016-11-23 王楚 大数据交换平台网络架构
CN107612614A (zh) * 2017-10-09 2018-01-19 郑州云海信息技术有限公司 一种分布式集装箱数据中心动环监控环网及故障修复方法
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Remote Monitoring System of IDC Room Based on ZigBee Wireless Sensor Networks;Shuchao Ma;《2009 Eighth IEEE International Conference on Dependable, Autonomic and Secure Computing》;20100115;全文 *
面向云计算的数据中心网络体系结构设计;王聪;《计算机研究与发展》;20120215;全文 *

Also Published As

Publication number Publication date
CN110830324A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110830324B (zh) 一种检测数据中心网络连通性的方法、装置及电子设备
CN100555948C (zh) 一种用于在堆栈交换机系统内耦合的交换设备
JP5249950B2 (ja) ユーティリティ・ネットワーク機能停止検出のための方法とシステム
US9788218B2 (en) Alarm processing method and device, alarm associated information setting method
EP2681870B1 (en) Technique for determining correlated events in a communication system
US20120209989A1 (en) Method for Dynamic Migration of a Process or Services from One Control Plane Processor to Another
CN105099789A (zh) 一种网元升级方法及设备
CN106487578A (zh) 错误恢复方法及应用其的物联网系统与充电系统
CN103067206A (zh) 物联网跨机房分布式全自动热备用服务器切换系统
CN110661641B (zh) 一种虚拟网络功能vnf部署方法及装置
CN108616367B (zh) 故障定位方法和网络设备
CN108259193A (zh) 一种网络管理方法、网络管理系统和网元管理系统
CN103119400B (zh) 用于跨ip网络连接的串行数据链路会话的状态同步的方法和设备
CN106713132B (zh) 用于更新转发表项的方法和装置
CN107231208A (zh) 一种时钟同步方法及系统
CN105577444A (zh) 一种无线控制器管理方法及无线控制器
CN102006202A (zh) 一种路由器标识冲突检测方法及路由设备
KR101075462B1 (ko) 서브넷에서 마스터 노드를 선출하는 방법
US7646729B2 (en) Method and apparatus for determination of network topology
CN112218321A (zh) 主备链路切换方法、装置、通信设备和存储介质
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
CN115152192B (zh) Pce受控网络可靠性
CN105681187A (zh) 一种虚拟路由器冗余协议vrrp备份组管理方法及相关设备
CN112968725B (zh) 卫星链路切换方法及装置
EP2958270A1 (en) Direct-link quality monitoring method, communications device, and system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant