CN109450666A - 分布式系统网络管理方法及装置 - Google Patents

分布式系统网络管理方法及装置 Download PDF

Info

Publication number
CN109450666A
CN109450666A CN201811191291.1A CN201811191291A CN109450666A CN 109450666 A CN109450666 A CN 109450666A CN 201811191291 A CN201811191291 A CN 201811191291A CN 109450666 A CN109450666 A CN 109450666A
Authority
CN
China
Prior art keywords
network
network port
port
distributed node
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811191291.1A
Other languages
English (en)
Other versions
CN109450666B (zh
Inventor
李航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd Chengdu Branch
Original Assignee
New H3C Technologies Co Ltd Chengdu Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd Chengdu Branch filed Critical New H3C Technologies Co Ltd Chengdu Branch
Priority to CN201811191291.1A priority Critical patent/CN109450666B/zh
Publication of CN109450666A publication Critical patent/CN109450666A/zh
Application granted granted Critical
Publication of CN109450666B publication Critical patent/CN109450666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例涉及网络通信技术领域,提供一种分布式系统网络管理方法及装置,所述方法包括:按照预设检测策略对第一分布式节点的多个网络端口中的第一网络端口进行状态检测;在检测到第一网络端口的状态异常时,将第一网络端口隔离出集群网络,以使第一网络端口不进行网络数据传输。与现有技术相比,本发明实施例可以提前检测出状态异常的网络端口,并将状态异常的网络端口从集群网络中隔离,从而保证网络数据均由正常的网络端口进行传输,提高了集群网络的稳定性。

Description

分布式系统网络管理方法及装置
技术领域
本发明实施例涉及网络通信技术领域,具体而言,涉及一种分布式系 统网络管理方法及装置。
背景技术
互联网技术日新月异,极大丰富了人们的生活。随着访问量加大,互 联网服务大多采用分布式系统方式对外提供服务,这样既提高并发性能又 提高服务可靠性。作为互联网服务的传输工具,网络的稳定性极大的影响 了互联网服务的质量,实际应用中,一些网络异常情况,如线路老化、虚 接、交换系统异常等导致的网络状态不稳定、时延加长等故障,由于不能 提前识别,故会严重影响分布式系统的网络稳定性。
发明内容
本发明实施例的目的在于提供一种分布式系统网络管理方法及装置, 用以提高分布式系统的网络稳定性。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种分布式系统网络管理方法,应用 于分布式系统中的第一分布式节点,所述第一分布式节点包括多个网络端 口,所述多个网络端口与所述分布式系统中的至少一个第二分布式节点的 目标网络端口进行通信,所述方法包括:按照预设检测策略对所述第一分 布式节点的多个网络端口中的第一网络端口进行状态检测;在检测到所述 第一网络端口的状态异常时,将所述第一网络端口隔离出集群网络,以使 所述第一网络端口不进行网络数据传输。
第二方面,本发明实施例还提供了一种分布式系统网络管理装置,部 署于分布式系统中的第一分布式节点,所述第一分布式节点包括多个网络 端口,所述多个网络端口与所述分布式系统中的至少一个第二分布式节点 的目标网络端口进行通信,所述装置包括第一检测模块及隔离模块。其中, 第一检测模块用于按照预设检测策略对所述第一分布式节点的多个网络端 口中的第一网络端口进行状态检测;隔离模块用于在检测到所述第一网络 端口的状态异常时,将所述第一网络端口隔离出集群网络,以使所述第一 网络端口不进行网络数据传输。
相对现有技术,本发明实施例提供的一种分布式系统网络管理方法及 装置,首先,按照预设检测策略对第一分布式节点的多个网络端口中的第 一网络端口进行状态检测;然后,在检测到第一网络端口的状态异常时, 将第一网络端口从集群网络中隔离,使得第一网络端口不参与网络数据传 输。与现有技术相比,本发明实施例可以提前检测出状态异常的网络端口, 并将状态异常的网络端口从集群网络中隔离,从而保证网络数据均由正常 的网络端口进行传输,提高了集群网络的稳定性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实 施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需 要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些 实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1示出了本发明实施例提供的分布式系统的架构图。
图2示出了本发明实施例提供的分布式系统的第一示例图。
图3示出了本发明实施例提供的分布式系统的第二示例图。
图4示出了本发明实施例提供的分布式系统网络管理方法流程图。
图5示出了本发明实施例提供的分布式系统的第三示例图。
图6示出了本发明实施例提供的第一分布式节点的方框示意图。
图7示出了本发明实施例提供的网络管理装置的方框示意图。
图标:10-分布式系统;100-第一分布式节点;101-处理器;102-存储器; 103-总线;104-通信接口;200-网络管理装置;201-第一检测模块;202-隔 离模块;203-第二检测模块;204-执行模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例, 而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组 件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本 发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅 仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护 的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一 旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步 定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分 描述,而不能理解为指示或暗示相对重要性。
在对本发明实施例进行详细解释说明之前,先对本发明实施例的分布 式系统10架构进行介绍。如图1所示,本发明实施例提供的分布式系统10 包括多个分布式节点和客户端,该多个分布式节点之间通过网络连接,该 多个分布式节点可以是计算机,且该多个分布式节点可以组成一个分布式 集群,该分布式集群可以作为服务器侧来为该客户端提供数据,该客户端 可以安装在该分布式节点中的任一个分布式节点上,也可以安装于该多个 分布式节点之外的计算机上,并且该计算机可以与该多个分布式节点通过 网络连接。
分布式系统10包括多个分布式节点,例如,分布式节点1、分布式节 点2、分布式节点3、分布式节点4等,该多个分布式节点之间通过交换机 进行网络数据传输。每个分布式节点均包括多个网卡每个网卡对应一个网 络端口,即,每个分布式节点均包括多个网络端口。每个分布式节点均部 署有网络管理装置200,网络管理装置200用于管理对应的分布式节点上的 网卡健康度检测、将故障网卡隔离出集群网络及将恢复正常的网卡重新加 入集群网络,即用于管理对应的分布式节点的网络端口的状态检测、将异 常网络端口隔离出集群网络及将恢复正常的网络端口重新加入集群网络。 每个分布式节点上的多个网卡可以是聚合网卡也可以是非聚合网卡,接下 来进行详细说明。
为了在网络端口故障时可以及时进行故障切换,通常采用网络聚合技 术将多张网卡绑定为一张网卡,例如,将两张网卡绑定的bond技术和将多 张网卡绑定的teaming技术。在实际应用中将多张网卡虚拟为一张网卡使 用,可以根据算法做共享带宽、链路冗余或负载分担的功能,其中最重要 的功能就是当其中一个网卡端口出现故障时,网络聚合技术可以将业务路 径自动迁移到其它正常路径,起到提供持续可靠服务的作用。
在网络聚合技术的基础上引入网络管理装置200,在每个分布式节点上 均部署网络管理装置200,网络管理装置200用于管理对应的分布式节点的 网络端口的状态检测、将异常网络端口隔离出集群网络及将恢复正常的网 络端口重新加入集群网络。每个分布式节点的网络管理装置200均可以从 该分布式节点的集群管理接口获取分布式系统10中其它分布式节点的网络 信息,如IP地址、MAC地址等。例如,请参照图2,分布式节点1、分布 式节点2、分布式节点3及分布式节点4均包括聚合网卡且部署有网络管理 装置200,网络管理装置200可以对其所在的分布式节点1、分布式节点2、 分布式节点3及分布式节点4上的网卡进行管理。
另外,采用冗余路径提供上层服务的方式也可以在网络端口故障时及 时进行故障切换,冗余路径方式可以使一个分布式节点上的两张网卡到其 它分布式节点就有四条路径可选,在一条路径故障的情况下,可以立刻切 换到另一条路径继续提供服务。在冗余路径方式的基础上引入网络管理装 置200,同样用于管理对应的分布式节点的网络端口的状态检测、将异常网 络端口隔离出集群网络及将恢复正常的网络端口重新加入集群网络。例如, 请参照图3,分布式节点1、分布式节点2及分布式节点3均包括冗余网卡 且部署有网络管理装置200,网络管理装置200可以对其所在的分布式节点 1、分布式节点2及分布式节点3上的网卡进行管理。
网络管理装置200在分布式系统10的每个分布式节点上均有部署,使 用该分布式节点的集群管理接口接收其它分布式节点的链接,以保证该分 布式节点上网络的可靠性。同时,每个分布式节点上的网络管理装置200 与分布式系统10的其它分布式节点发生心跳操作,用于检测对应的分布式 节点的网络端口状态。在下述实施例中,以采用聚合网卡的分布式系统10 中的任意一个分布式节点为例进行详细说明。
第一实施例
请参照图4,图4示出了本发明实施例提供的应用于第一分布式节点 100的分布式系统网络管理方法流程图。应用于第一分布式节点100的分布 式系统网络管理方法包括以下步骤:
步骤S101,按照预设检测策略对第一分布式节点的多个网络端口中的 第一网络端口进行状态检测。
在本发明实施例中,第一分布式节点100可以是分布式系统10中的任 意一个分布式节点,第一分布式节点100包括多个网络端口且部署有网络 管理装置200,网络管理装置200用于管理第一分布式节点100的网络端口 的状态检测、将异常网络端口隔离出集群网络及将恢复正常的网络端口重 新加入集群网络。第一网络端口可以是第一分布式节点100上多个网络端 口中的任一个,例如,图2中分布式节点1上网卡1对应的网络端口。第 二分布式节点可以是分布式系统10中除第一分布式节点100之外的其它分 布式节点,目标网络端口可以是第二分布式节点的网络端口,第一分布式 节点100的多个网络端口与分布式系统10中的至少一个第二分布式节点的 目标网络端口进行通信。
在本发明实施例中,预设检测策略包括网络正常标准、网络中断标准、 网络震荡标准及网络时延标准。网络正常标准包括在预设时间内第一网络 端口与至少两个目标网络端口的心跳连接均正常,预设时间可以是3s,心 跳间隔可以是500ms。按照预设检测策略对第一分布式节点100的第一网 络端口进行状态检测的步骤,包括:检测第一网络端口是否满足网络正常 标准,当第一网络端口满足网络正常标准时,判定第一网络端口的状态正常。例如,图2中分布式节点1上网络管理装置200与分布式节点2、分布 式节点3及分布式节点4上网络管理装置200均有心跳连接,分布式节点1 上网络管理装置200与分布式节点2、分布式节点3上网络管理装置200在 3秒内心跳连接均正常,但与分布式节点4上网络管理装置200心跳连接异 常,则可以判定分布式节点1上聚合网卡正常,即第一网络端口的状态正 常。
网络中断标准包括第一网络端口向多个目标网络端口发送数据均未收 到响应,第一分布式节点100除第一网络端口之外的其它网络端口向同一 目标网络端口发送数据收到响应。按照预设检测策略对第一分布式节点100 的第一网络端口进行状态检测的步骤,包括:检测第一网络端口是否满足 网络中断标准,当第一网络端口满足网络中断标准时,判定第一网络端口 的状态异常。例如,图2中分布式节点1上网卡1对应的网络端口为第一 网络端口,分布式节点2上网卡1对应的网络端口、分布式节点3上网卡1 对应的网络端口、分布式节点4上网卡1对应的网络端口为多个目标网络 端口,第一网络端口向多个目标网络端口发送数据均未收到响应,分布式 节点1上网卡2对应的网络端口向分布式节点2上网卡1对应的网络端口 发送数据收到响应,则可以判定第一网络端口的状态异常。
网络震荡标准包括第一网络端口向多个目标网络端口发送数据收到的 响应不一致,再次向同一目标网络端口发送数据收到不同响应;或者第一 网络端口向多个目标网络端口多次发送数据收到的响应不一致。按照预设 检测策略对第一分布式节点100的第一网络端口进行状态检测的步骤,包 括:检测第一网络端口是否满足网络震荡标准,当第一网络端口满足网络 震荡标准时,判定第一网络端口的状态异常。例如,图2中分布式节点1 上网卡1对应的网络端口为第一网络端口,分布式节点2上网卡1对应的 网络端口、分布式节点3上网卡1对应的网络端口、分布式节点4上网卡1 对应的网络端口为多个目标网络端口,第一网络端口向多个目标网络端口3 次发送数据收到的响应不一致,再次向分布式节点2上网卡1对应的网络 端口发送数据收到不同响应,则可以判定第一网络端口的状态异常。
网络时延标准包括第一网络端口向目标网络端口发送数据与接收目标 网络端口的响应之间的第一时间高于除第一网络端口之外的其它网络端口 向同一目标网络端口发送数据与接收同一目标网络端口的响应之间的第二 时间,其中第一时间和第二时间的差值大于预设阈值,预设阈值可以是 30ms。按照预设检测策略对第一分布式节点100的第一网络端口进行状态 检测的步骤,包括:检测第一网络端口是否满足网络时延标准,当第一网 络端口满足网络时延标准时,判定第一网络端口的状态异常。例如,图2 中分布式节点1上网卡1对应的网络端口为第一网络端口,分布式节点2 上网卡1对应的网络端口为目标网络端口,第一时间和第二时间的差值大 于30ms,则可以判定第一网络端口的状态异常。
需要指出的是,可以按照预设时间间隔(例如,1分钟)对第一网络端 口进行状态检测,先检测第一网络端口是否满足网络正常标准,当第一网 络端口正常时,不再进行其它检测,1分钟以后再次检测第一网络端口是否 满足网络正常标准,当第一网络端口不正常时,进行第一网络端口中断、 震荡、高时延检测,检测顺序在此不做限定;也可以在全部完成第一网络 端口正常、中断、震荡、高时延检测之后,再确定第一网络端口的状态。 另外,在检测出第一网络端口的状态异常之后,可以将第一网络端口的状 态(中断、震荡或高时延)发送至客户端,以使用户知悉第一网络端口被 隔离出集群网络的原因。
步骤S102,在检测到第一网络端口的状态异常时,将第一网络端口隔 离出集群网络,以使第一网络端口不进行网络数据传输。
在本发明实施例中,在检测到第一网络端口的状态异常时,将第一网 络端口隔离出集群网络,具体来说,如果第一分布式节点100包括聚合网 卡,则将第一网络端口从聚合网卡端口中删除掉,这样第一网络端口将不 再参与网络数据传输,例如,在检测到eth0网络端口状态异常,则可以采 用命令echo-eth0>/sys/class/net/bond0/bonding/slaves将eth0网络端口从聚 合网卡端口bond0中剥离。如果第一分布式节点100包括非聚合网卡,则将第一网络端口从冗余路径中删除,这样第一网络端口将不再参与网络数 据传输。
在本发明实施例中,在检测出第一网络端口状态异常并隔离出集群网 络之后,需要继续检测隔离后的第一网络端口是否恢复正常。此时由于第 一网络端口被隔离出集群网络无IP地址,只能由网络管理装置200以二层 报文方式主动发送心跳检测报文进行检测,故网络管理装置200需要具备 以下功能:首先,可以获取分布式系统10中其它分布式节点网络端口的 MAC地址和IP地址;其次,作为echo服务的服务端需要绑定聚合网卡接 收二层和三层心跳报文,作为echo服务的客户端需要绑定聚合网卡发送二 层和三层心跳报文。
另外,为了确保心跳检测报文能以二层报文方式从隔离后的第一网络 端口发送至至少两个目标网络端口,故在将第一网络端口隔离出集群网络 的步骤之前,需要先关闭第一网络端口,并将第一网络端口的MAC地址修 改为第一分布式节点100上除第一网络端口之外的其它网络端口的MAC地 址。
步骤S103,检测隔离后的第一网络端口是否恢复正常。
在本发明实施例中,网络管理装置200检测隔离后的第一网络端口是 否恢复正常的方法可以是:通过修改MAC地址后的第一网络端口向至少两 个目标网络端口发送心跳检测报文,由于心跳检测报文没有IP地址只有 MAC地址,故以二层转发报文方式发送心跳检测报文,若在预设时间内(例 如,60s)心跳检测报文均正常发送,则判定隔离后的第一网络端口恢复正 常。
步骤S104,在检测到第一网络端口的状态恢复正常时,将第一网络端 口重新加入集群网络,以使第一网络端口重新进行网络数据传输。
在本发明实施例中,如果第一分布式节点100包括聚合网卡,网络管 理装置200在检测到第一网络端口的状态恢复正常时,将第一网络端口重 新加入聚合网卡重新进行网络数据传输。例如,请参照图5,分布式节点1 的网络管理装置200在检测到网卡2状态异常时将网卡2从聚合网卡中删 除,分布式节点1的网络管理装置200在检测到第一网络端口的状态恢复 正常时,将第一网络端口重新加入集群网络,使得第一网络端口重新进行 网络数据传输。
在本发明实施例中,网络管理装置200用于管理对应的分布式节点的 网络端口的状态检测、将异常网络端口隔离出集群网络及将恢复正常的网 络端口重新加入集群网络。网络管理装置200具体的作用包括以下四个方 面:
首先,网络端口状态检测,第一分布式节点100上的网络管理装置200 通过与分布式系统10的第二分布式节点发生心跳连接,来检测第一分布式 节点100上网络端口的状态;
其次,隔离异常网络端口,当第一分布式节点100上的网络管理装置 200检测到第一网络端口状态异常,及时将第一网络端口隔离出集群网络, 以使第一网络端口不进行网络数据传输;
第三,恢复正常的网络端口重新加入,当第一分布式节点100上的网 络管理装置200检测到第一网络端口恢复正常时,将第一网络端口重新加 入集群网络,重新利用网络资源;
最后,网络状态查询,在检测出第一网络端口的状态异常之后,可以 将第一网络端口的状态(中断、震荡或高时延)发送至客户端,以使用户 知悉第一网络端口被隔离出集群网络的原因,另外,上行管理模块(例如, web网页)可以通过第一分布式节点100的集群管理接口进行网络管理装 置200管理的网络端口状态查询。
本发明实施例提供的分布式系统网络管理方法,具有以下有益效果:
首先,通过在分布式节点上部署网络管理装置200,使其可以提前检测 出分布式节点上状态异常的网络端口,保证网络数据传输不受影响;
其次,当网络管理装置200检测到其所在的分布式节点的网络端口状 态异常,则将异常的网络端口隔离出集群网络,保证集群网络稳定健康;
最后,当网络管理装置200检测到被隔离的网络端口恢复正常后,将 恢复正常的网络端口重新加入集群网络,保证网络资源的有效利用。
第二实施例
请参照图6,图6示出了本发明实施例提供的第一分布式节点100的方 框示意图。第一分布式节点100包括处理器101、存储器102、总线103和 通信接口104,所述处理器101、存储器102和通信接口104通过总线103 连接;处理器101用于执行存储器102中存储的可执行模块,例如计算机 程序。
其中,存储器102可能包括高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至 少一个磁盘存储器。通过至少一个通信接口104(可以是有线或者无线)实 现该第一分布式节点100与至少一个其它网元之间的通信连接。
总线103可以是ISA总线、PCI总线或EISA总线等。图6中仅用一个 双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器102用于存储程序,例如图7所示的网络管理装置200。 网络管理装置200包括至少一个可以软件或固件(firmware)的形式存储于 所述存储器102中或固化在所述第一分布式节点100的操作系统(operating system,OS)中的软件功能模块。所述处理器101在接收到执行指令后, 执行所述程序以实现发明第一实施例揭示的分布式系统网络管理方法。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现 过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路 或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中 央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路 (ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门 或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机 程序,计算机程序被处理器101执行时实现上述第一实施例揭示的分布式 系统网络管理方法。
第三实施例
请参照图7,图7示出了本发明实施例提供的网络管理装置200的方框 示意图。网络管理装置200部署于第一分布式节点100,网络管理装置200 包括第一检测模块201、隔离模块202、第二检测模块203及执行模块204。
第一检测模块201,用于按照预设检测策略对第一分布式节点的多个网 络端口中的第一网络端口进行状态检测。
隔离模块202,用于在检测到第一网络端口的状态异常时,将第一网络 端口隔离出集群网络,以使第一网络端口不进行网络数据传输。
在本发明实施例中,隔离模块202还用于在检测到第一网络端口的状 态异常时,将第一网络端口的MAC地址修改为除第一网络端口之外的其它 网络端口的MAC地址,将第一网络端口隔离出集群网络,以使第一网络端 口不进行网络数据传输。
第二检测模块203,用于检测隔离后的第一网络端口是否恢复正常。
在本发明实施例中,第二检测模块203具体用于通过修改MAC地址后 的第一网络端口向至少两个目标网络端口发送心跳检测报文;若在预设时 间内心跳检测报文均正常发送,则判定隔离后的第一网络端口恢复正常。
执行模块204,用于在检测到第一网络端口的状态恢复正常时,将第一 网络端口重新加入集群网络,以使第一网络端口重新进行网络数据传输。
综上所述,本发明实施例提供的一种分布式系统网络管理方法及装置, 所述分布式系统网络管理方法应用于分布式系统中的第一分布式节点,第 一分布式节点包括多个网络端口,多个网络端口与分布式系统中的至少一 个第二分布式节点的目标网络端口进行通信,所述方法包括:按照预设检 测策略对第一分布式节点的多个网络端口中的第一网络端口进行状态检 测;在检测到第一网络端口的状态异常时,将第一网络端口隔离出集群网 络,以使第一网络端口不进行网络数据传输。与现有技术相比,本发明实 施例通过在第一分布式节点上部署网络管理装置,使其可以提前检测出状 态异常的网络端口,并将状态异常的网络端口从集群网络中隔离,从而保 证网络数据均由正常的网络端口进行传输,提高了集群网络的稳定性。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法, 也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的, 例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方 法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流 程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所 述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标 注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方 框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依 所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及 框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的 基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个 独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集 成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使 用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发 明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储 介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服 务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步 骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光 盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一 和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操 作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实 际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设 备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包 括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情 况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、 方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于 本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明 的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似 项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对 其进行进一步定义和解释。

Claims (10)

1.一种分布式系统网络管理方法,其特征在于,应用于分布式系统中的第一分布式节点,所述第一分布式节点包括多个网络端口,所述多个网络端口与所述分布式系统中的至少一个第二分布式节点的目标网络端口进行通信,所述方法包括:
按照预设检测策略对所述第一分布式节点的多个网络端口中的第一网络端口进行状态检测;
在检测到所述第一网络端口的状态异常时,将所述第一网络端口隔离出集群网络,以使所述第一网络端口不进行网络数据传输。
2.如权利要求1所述的方法,其特征在于,所述预设检测策略包括网络正常标准,所述按照预设检测策略对所述第一分布式节点的第一网络端口进行状态检测的步骤,包括:
检测所述第一网络端口是否满足所述网络正常标准,其中,所述网络正常标准包括在预设时间内所述第一网络端口与至少两个所述目标网络端口的心跳连接均正常;
当所述第一网络端口满足所述网络正常标准时,判定所述第一网络端口的状态正常。
3.如权利要求1所述的方法,其特征在于,所述预设检测策略包括网络中断标准,所述按照预设检测策略对所述第一分布式节点的第一网络端口进行状态检测的步骤,包括:
检测所述第一网络端口是否满足所述网络中断标准,其中,所述网络中断标准包括所述第一网络端口向多个所述目标网络端口发送数据均未收到响应,所述第一分布式节点除所述第一网络端口之外的其它网络端口向同一所述目标网络端口发送数据收到响应;
当所述第一网络端口满足所述网络中断标准时,判定所述第一网络端口的状态异常。
4.如权利要求1所述的方法,其特征在于,所述预设检测策略包括网络震荡标准,所述按照预设检测策略对所述第一分布式节点的第一网络端口进行状态检测的步骤,包括:
检测所述第一网络端口是否满足所述网络震荡标准,其中,所述网络震荡标准包括所述第一网络端口向多个所述目标网络端口发送数据收到的响应不一致,再次向同一所述目标网络端口发送数据收到不同响应;或者所述第一网络端口向多个所述目标网络端口多次发送数据收到的响应不一致;
当所述第一网络端口满足所述网络震荡标准时,判定所述第一网络端口的状态异常。
5.如权利要求1所述的方法,其特征在于,所述预设检测策略包括网络时延标准,所述按照预设检测策略对所述第一分布式节点的第一网络端口进行状态检测的步骤,包括:
检测所述第一网络端口是否满足所述网络时延标准,其中,所述网络时延标准包括所述第一网络端口向所述目标网络端口发送数据与接收所述目标网络端口的响应之间的第一时间高于除所述第一网络端口之外的其它网络端口向同一所述目标网络端口发送数据与接收同一所述目标网络端口的响应之间的第二时间,其中所述第一时间和所述第二时间的差值大于预设阈值;
当所述第一网络端口满足所述网络时延标准时,判定所述第一网络端口的状态异常。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
检测隔离后的所述第一网络端口是否恢复正常;
在检测到所述第一网络端口的状态恢复正常时,将所述第一网络端口重新加入集群网络,以使所述第一网络端口重新进行网络数据传输。
7.如权利要求5所述的方法,其特征在于,所述将所述第一网络端口进行隔离的步骤之前还包括:将所述第一网络端口的MAC地址修改为除所述第一网络端口之外的其它网络端口的MAC地址;
所述检测隔离后的所述第一网络端口是否恢复正常的步骤,包括:
通过修改MAC地址后的第一网络端口向至少两个所述目标网络端口发送心跳检测报文;
若在预设时间内所述心跳检测报文均正常发送,则判定隔离后的所述第一网络端口恢复正常。
8.一种分布式系统网络管理装置,其特征在于,部署于分布式系统中的第一分布式节点,所述第一分布式节点包括多个网络端口,所述多个网络端口与所述分布式系统中的至少一个第二分布式节点的目标网络端口进行通信,所述装置包括:
第一检测模块,用于按照预设检测策略对所述第一分布式节点的多个网络端口中的第一网络端口进行状态检测;
隔离模块,用于在检测到所述第一网络端口的状态异常时,将所述第一网络端口隔离出集群网络,以使所述第一网络端口不进行网络数据传输。
9.如权利要求8所述的装置,其特征在于,所述装置还包括:
第二检测模块,用于检测隔离后的所述第一网络端口是否恢复正常;
执行模块,用于在检测到所述第一网络端口的状态恢复正常时,将所述第一网络端口重新加入集群网络,以使所述第一网络端口重新进行网络数据传输。
10.如权利要求9所述的装置,其特征在于,所述隔离模块具体用于:
在检测到所述第一网络端口的状态异常时,将所述第一网络端口的MAC地址修改为除所述第一网络端口之外的其它网络端口的MAC地址,将所述第一网络端口隔离出集群网络,以使所述第一网络端口不进行网络数据传输;
所述第二检测模块具体用于:
通过修改MAC地址后的第一网络端口向至少两个所述目标网络端口发送心跳检测报文;
若在预设时间内所述心跳检测报文均正常发送,则判定隔离后的所述第一网络端口恢复正常。
CN201811191291.1A 2018-10-12 2018-10-12 分布式系统网络管理方法及装置 Active CN109450666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811191291.1A CN109450666B (zh) 2018-10-12 2018-10-12 分布式系统网络管理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811191291.1A CN109450666B (zh) 2018-10-12 2018-10-12 分布式系统网络管理方法及装置

Publications (2)

Publication Number Publication Date
CN109450666A true CN109450666A (zh) 2019-03-08
CN109450666B CN109450666B (zh) 2022-06-10

Family

ID=65546329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811191291.1A Active CN109450666B (zh) 2018-10-12 2018-10-12 分布式系统网络管理方法及装置

Country Status (1)

Country Link
CN (1) CN109450666B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110062410A (zh) * 2019-03-28 2019-07-26 东南大学 一种基于自适应谐振理论的小区中断检测定位方法
CN111510338A (zh) * 2020-03-09 2020-08-07 苏州浪潮智能科技有限公司 一种分布式块存储网络亚健康测试方法、装置及存储介质
CN111585845A (zh) * 2020-05-15 2020-08-25 苏州浪潮智能科技有限公司 一种网卡节点性能的检测方法、装置、设备及可读介质
CN112213965A (zh) * 2019-07-10 2021-01-12 佛山市顺德区美的电热电器制造有限公司 端口检测装置、方法及烹饪电器
CN112995070A (zh) * 2021-05-21 2021-06-18 湖南兴天电子科技有限公司 一种双卡切换系统及方法
WO2021224717A1 (en) * 2020-05-08 2021-11-11 International Business Machines Corporation Fencing non-responding ports in a network fabric
CN113824796A (zh) * 2021-10-22 2021-12-21 杭州宏杉科技股份有限公司 令牌传递方法及装置
CN114095341A (zh) * 2021-11-19 2022-02-25 深信服科技股份有限公司 网络恢复方法、装置、计算机设备和存储介质
CN114124666A (zh) * 2021-11-19 2022-03-01 深信服科技股份有限公司 网络处置方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1893371A (zh) * 2005-07-05 2007-01-10 合勤科技股份有限公司 利用端口隔离以进行安全性封包转传的网络装置
US20070260904A1 (en) * 2006-05-08 2007-11-08 Akross Silicon System and method to detect power distribution fault conditions and distribute power to a network attached power device
CN105515180A (zh) * 2015-07-14 2016-04-20 国家电网公司 一种智能变电站通信网络动态监控系统及其监控方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1893371A (zh) * 2005-07-05 2007-01-10 合勤科技股份有限公司 利用端口隔离以进行安全性封包转传的网络装置
US20070260904A1 (en) * 2006-05-08 2007-11-08 Akross Silicon System and method to detect power distribution fault conditions and distribute power to a network attached power device
CN105515180A (zh) * 2015-07-14 2016-04-20 国家电网公司 一种智能变电站通信网络动态监控系统及其监控方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110062410A (zh) * 2019-03-28 2019-07-26 东南大学 一种基于自适应谐振理论的小区中断检测定位方法
CN110062410B (zh) * 2019-03-28 2021-09-28 东南大学 一种基于自适应谐振理论的小区中断检测定位方法
CN112213965A (zh) * 2019-07-10 2021-01-12 佛山市顺德区美的电热电器制造有限公司 端口检测装置、方法及烹饪电器
CN111510338A (zh) * 2020-03-09 2020-08-07 苏州浪潮智能科技有限公司 一种分布式块存储网络亚健康测试方法、装置及存储介质
US11226879B2 (en) 2020-05-08 2022-01-18 International Business Machines Corporation Fencing non-responding ports in a network fabric
WO2021224717A1 (en) * 2020-05-08 2021-11-11 International Business Machines Corporation Fencing non-responding ports in a network fabric
GB2610528A (en) * 2020-05-08 2023-03-08 Ibm Fencing non-responding ports in a network fabric
CN111585845A (zh) * 2020-05-15 2020-08-25 苏州浪潮智能科技有限公司 一种网卡节点性能的检测方法、装置、设备及可读介质
US11722392B2 (en) 2020-05-15 2023-08-08 Inspur Suzhou Intelligent Technology Co., Ltd. Network adapter node performance detection method and apparatus, device, and readable medium
CN111585845B (zh) * 2020-05-15 2021-08-31 苏州浪潮智能科技有限公司 一种网卡节点性能的检测方法、装置、设备及可读介质
WO2021227556A1 (zh) * 2020-05-15 2021-11-18 苏州浪潮智能科技有限公司 一种网卡节点性能的检测方法、装置、设备及可读介质
CN112995070A (zh) * 2021-05-21 2021-06-18 湖南兴天电子科技有限公司 一种双卡切换系统及方法
CN112995070B (zh) * 2021-05-21 2021-08-10 湖南兴天电子科技有限公司 一种双卡切换系统及方法
CN113824796A (zh) * 2021-10-22 2021-12-21 杭州宏杉科技股份有限公司 令牌传递方法及装置
CN113824796B (zh) * 2021-10-22 2023-06-30 杭州宏杉科技股份有限公司 令牌传递方法及装置
CN114095341A (zh) * 2021-11-19 2022-02-25 深信服科技股份有限公司 网络恢复方法、装置、计算机设备和存储介质
CN114124666A (zh) * 2021-11-19 2022-03-01 深信服科技股份有限公司 网络处置方法、装置、计算机设备和存储介质
CN114124666B (zh) * 2021-11-19 2024-02-23 深信服科技股份有限公司 网络处置方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109450666B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN109450666A (zh) 分布式系统网络管理方法及装置
US10917322B2 (en) Network traffic tracking using encapsulation protocol
Bailis et al. The network is reliable: An informal survey of real-world communications failures
US8352953B2 (en) Dynamically provisioning virtual machines
JP5742486B2 (ja) 通信装置及びパケット振分方法
CN103944750B (zh) 一种绑定网卡故障处理方法及装置
CN105122730A (zh) 用于快速链路故障处理的系统和方法
US10033602B1 (en) Network health management using metrics from encapsulation protocol endpoints
US8976681B2 (en) Network system, network management server, and OAM test method
US20140010110A1 (en) Preventing loss of virtual machine network profiles
EP3232620B1 (en) Data center based fault analysis method and device
CN106959820A (zh) 一种数据提取方法和系统
US8131871B2 (en) Method and system for the automatic reroute of data over a local area network
CN111176888A (zh) 云存储的容灾方法、装置及系统
CN109639488A (zh) 一种多外网分流加速方法及系统
CN109982034A (zh) 视频监控系统中的访问请求处理方法及装置
US11153173B1 (en) Dynamically updating compute node location information in a distributed computing environment
US6778504B2 (en) Dynamic soft permanent virtual circuit bulk connection tracing
CN113949649A (zh) 故障检测协议的部署方法、装置、电子设备及存储介质
CN109120449A (zh) 一种链路故障的检测方法及装置
US8208370B1 (en) Method and system for fast link failover
CN106534399A (zh) Vsm分裂的检测方法和装置
CN108512698B (zh) 一种网络容灾方法、装置及电子设备
CN115378853B (zh) 一种网络监控方法、装置和设备
US11683273B2 (en) Endpoint notification of storage area network congestion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant