CN109450666A

CN109450666A - 分布式系统网络管理方法及装置

Info

Publication number: CN109450666A
Application number: CN201811191291.1A
Authority: CN
Inventors: 李航
Original assignee: New H3C Technologies Co Ltd Chengdu Branch
Current assignee: New H3C Technologies Co Ltd Chengdu Branch
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2019-03-08
Anticipated expiration: 2038-10-12
Also published as: CN109450666B

Abstract

本发明实施例涉及网络通信技术领域，提供一种分布式系统网络管理方法及装置，所述方法包括：按照预设检测策略对第一分布式节点的多个网络端口中的第一网络端口进行状态检测；在检测到第一网络端口的状态异常时，将第一网络端口隔离出集群网络，以使第一网络端口不进行网络数据传输。与现有技术相比，本发明实施例可以提前检测出状态异常的网络端口，并将状态异常的网络端口从集群网络中隔离，从而保证网络数据均由正常的网络端口进行传输，提高了集群网络的稳定性。

Description

分布式系统网络管理方法及装置

技术领域

本发明实施例涉及网络通信技术领域，具体而言，涉及一种分布式系统网络管理方法及装置。

背景技术

互联网技术日新月异，极大丰富了人们的生活。随着访问量加大，互联网服务大多采用分布式系统方式对外提供服务，这样既提高并发性能又提高服务可靠性。作为互联网服务的传输工具，网络的稳定性极大的影响了互联网服务的质量，实际应用中，一些网络异常情况，如线路老化、虚接、交换系统异常等导致的网络状态不稳定、时延加长等故障，由于不能提前识别，故会严重影响分布式系统的网络稳定性。

发明内容

本发明实施例的目的在于提供一种分布式系统网络管理方法及装置，用以提高分布式系统的网络稳定性。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种分布式系统网络管理方法，应用于分布式系统中的第一分布式节点，所述第一分布式节点包括多个网络端口，所述多个网络端口与所述分布式系统中的至少一个第二分布式节点的目标网络端口进行通信，所述方法包括：按照预设检测策略对所述第一分布式节点的多个网络端口中的第一网络端口进行状态检测；在检测到所述第一网络端口的状态异常时，将所述第一网络端口隔离出集群网络，以使所述第一网络端口不进行网络数据传输。

第二方面，本发明实施例还提供了一种分布式系统网络管理装置，部署于分布式系统中的第一分布式节点，所述第一分布式节点包括多个网络端口，所述多个网络端口与所述分布式系统中的至少一个第二分布式节点的目标网络端口进行通信，所述装置包括第一检测模块及隔离模块。其中，第一检测模块用于按照预设检测策略对所述第一分布式节点的多个网络端口中的第一网络端口进行状态检测；隔离模块用于在检测到所述第一网络端口的状态异常时，将所述第一网络端口隔离出集群网络，以使所述第一网络端口不进行网络数据传输。

相对现有技术，本发明实施例提供的一种分布式系统网络管理方法及装置，首先，按照预设检测策略对第一分布式节点的多个网络端口中的第一网络端口进行状态检测；然后，在检测到第一网络端口的状态异常时，将第一网络端口从集群网络中隔离，使得第一网络端口不参与网络数据传输。与现有技术相比，本发明实施例可以提前检测出状态异常的网络端口，并将状态异常的网络端口从集群网络中隔离，从而保证网络数据均由正常的网络端口进行传输，提高了集群网络的稳定性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1示出了本发明实施例提供的分布式系统的架构图。

图2示出了本发明实施例提供的分布式系统的第一示例图。

图3示出了本发明实施例提供的分布式系统的第二示例图。

图4示出了本发明实施例提供的分布式系统网络管理方法流程图。

图5示出了本发明实施例提供的分布式系统的第三示例图。

图6示出了本发明实施例提供的第一分布式节点的方框示意图。

图7示出了本发明实施例提供的网络管理装置的方框示意图。

图标：10-分布式系统；100-第一分布式节点；101-处理器；102-存储器； 103-总线；104-通信接口；200-网络管理装置；201-第一检测模块；202-隔离模块；203-第二检测模块；204-执行模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在对本发明实施例进行详细解释说明之前，先对本发明实施例的分布式系统10架构进行介绍。如图1所示，本发明实施例提供的分布式系统10 包括多个分布式节点和客户端，该多个分布式节点之间通过网络连接，该多个分布式节点可以是计算机，且该多个分布式节点可以组成一个分布式集群，该分布式集群可以作为服务器侧来为该客户端提供数据，该客户端可以安装在该分布式节点中的任一个分布式节点上，也可以安装于该多个分布式节点之外的计算机上，并且该计算机可以与该多个分布式节点通过网络连接。

分布式系统10包括多个分布式节点，例如，分布式节点1、分布式节点2、分布式节点3、分布式节点4等，该多个分布式节点之间通过交换机进行网络数据传输。每个分布式节点均包括多个网卡每个网卡对应一个网络端口，即，每个分布式节点均包括多个网络端口。每个分布式节点均部署有网络管理装置200，网络管理装置200用于管理对应的分布式节点上的网卡健康度检测、将故障网卡隔离出集群网络及将恢复正常的网卡重新加入集群网络，即用于管理对应的分布式节点的网络端口的状态检测、将异常网络端口隔离出集群网络及将恢复正常的网络端口重新加入集群网络。每个分布式节点上的多个网卡可以是聚合网卡也可以是非聚合网卡，接下来进行详细说明。

为了在网络端口故障时可以及时进行故障切换，通常采用网络聚合技术将多张网卡绑定为一张网卡，例如，将两张网卡绑定的bond技术和将多张网卡绑定的teaming技术。在实际应用中将多张网卡虚拟为一张网卡使用，可以根据算法做共享带宽、链路冗余或负载分担的功能，其中最重要的功能就是当其中一个网卡端口出现故障时，网络聚合技术可以将业务路径自动迁移到其它正常路径，起到提供持续可靠服务的作用。

在网络聚合技术的基础上引入网络管理装置200，在每个分布式节点上均部署网络管理装置200，网络管理装置200用于管理对应的分布式节点的网络端口的状态检测、将异常网络端口隔离出集群网络及将恢复正常的网络端口重新加入集群网络。每个分布式节点的网络管理装置200均可以从该分布式节点的集群管理接口获取分布式系统10中其它分布式节点的网络信息，如IP地址、MAC地址等。例如，请参照图2，分布式节点1、分布式节点2、分布式节点3及分布式节点4均包括聚合网卡且部署有网络管理装置200，网络管理装置200可以对其所在的分布式节点1、分布式节点2、分布式节点3及分布式节点4上的网卡进行管理。

另外，采用冗余路径提供上层服务的方式也可以在网络端口故障时及时进行故障切换，冗余路径方式可以使一个分布式节点上的两张网卡到其它分布式节点就有四条路径可选，在一条路径故障的情况下，可以立刻切换到另一条路径继续提供服务。在冗余路径方式的基础上引入网络管理装置200，同样用于管理对应的分布式节点的网络端口的状态检测、将异常网络端口隔离出集群网络及将恢复正常的网络端口重新加入集群网络。例如，请参照图3，分布式节点1、分布式节点2及分布式节点3均包括冗余网卡且部署有网络管理装置200，网络管理装置200可以对其所在的分布式节点 1、分布式节点2及分布式节点3上的网卡进行管理。

网络管理装置200在分布式系统10的每个分布式节点上均有部署，使用该分布式节点的集群管理接口接收其它分布式节点的链接，以保证该分布式节点上网络的可靠性。同时，每个分布式节点上的网络管理装置200 与分布式系统10的其它分布式节点发生心跳操作，用于检测对应的分布式节点的网络端口状态。在下述实施例中，以采用聚合网卡的分布式系统10 中的任意一个分布式节点为例进行详细说明。

第一实施例

请参照图4，图4示出了本发明实施例提供的应用于第一分布式节点 100的分布式系统网络管理方法流程图。应用于第一分布式节点100的分布式系统网络管理方法包括以下步骤：

步骤S101，按照预设检测策略对第一分布式节点的多个网络端口中的第一网络端口进行状态检测。

在本发明实施例中，第一分布式节点100可以是分布式系统10中的任意一个分布式节点，第一分布式节点100包括多个网络端口且部署有网络管理装置200，网络管理装置200用于管理第一分布式节点100的网络端口的状态检测、将异常网络端口隔离出集群网络及将恢复正常的网络端口重新加入集群网络。第一网络端口可以是第一分布式节点100上多个网络端口中的任一个，例如，图2中分布式节点1上网卡1对应的网络端口。第二分布式节点可以是分布式系统10中除第一分布式节点100之外的其它分布式节点，目标网络端口可以是第二分布式节点的网络端口，第一分布式节点100的多个网络端口与分布式系统10中的至少一个第二分布式节点的目标网络端口进行通信。

在本发明实施例中，预设检测策略包括网络正常标准、网络中断标准、网络震荡标准及网络时延标准。网络正常标准包括在预设时间内第一网络端口与至少两个目标网络端口的心跳连接均正常，预设时间可以是3s，心跳间隔可以是500ms。按照预设检测策略对第一分布式节点100的第一网络端口进行状态检测的步骤，包括：检测第一网络端口是否满足网络正常标准，当第一网络端口满足网络正常标准时，判定第一网络端口的状态正常。例如，图2中分布式节点1上网络管理装置200与分布式节点2、分布式节点3及分布式节点4上网络管理装置200均有心跳连接，分布式节点1 上网络管理装置200与分布式节点2、分布式节点3上网络管理装置200在 3秒内心跳连接均正常，但与分布式节点4上网络管理装置200心跳连接异常，则可以判定分布式节点1上聚合网卡正常，即第一网络端口的状态正常。

网络中断标准包括第一网络端口向多个目标网络端口发送数据均未收到响应，第一分布式节点100除第一网络端口之外的其它网络端口向同一目标网络端口发送数据收到响应。按照预设检测策略对第一分布式节点100 的第一网络端口进行状态检测的步骤，包括：检测第一网络端口是否满足网络中断标准，当第一网络端口满足网络中断标准时，判定第一网络端口的状态异常。例如，图2中分布式节点1上网卡1对应的网络端口为第一网络端口，分布式节点2上网卡1对应的网络端口、分布式节点3上网卡1 对应的网络端口、分布式节点4上网卡1对应的网络端口为多个目标网络端口，第一网络端口向多个目标网络端口发送数据均未收到响应，分布式节点1上网卡2对应的网络端口向分布式节点2上网卡1对应的网络端口发送数据收到响应，则可以判定第一网络端口的状态异常。

网络震荡标准包括第一网络端口向多个目标网络端口发送数据收到的响应不一致，再次向同一目标网络端口发送数据收到不同响应；或者第一网络端口向多个目标网络端口多次发送数据收到的响应不一致。按照预设检测策略对第一分布式节点100的第一网络端口进行状态检测的步骤，包括：检测第一网络端口是否满足网络震荡标准，当第一网络端口满足网络震荡标准时，判定第一网络端口的状态异常。例如，图2中分布式节点1 上网卡1对应的网络端口为第一网络端口，分布式节点2上网卡1对应的网络端口、分布式节点3上网卡1对应的网络端口、分布式节点4上网卡1 对应的网络端口为多个目标网络端口，第一网络端口向多个目标网络端口3 次发送数据收到的响应不一致，再次向分布式节点2上网卡1对应的网络端口发送数据收到不同响应，则可以判定第一网络端口的状态异常。

网络时延标准包括第一网络端口向目标网络端口发送数据与接收目标网络端口的响应之间的第一时间高于除第一网络端口之外的其它网络端口向同一目标网络端口发送数据与接收同一目标网络端口的响应之间的第二时间，其中第一时间和第二时间的差值大于预设阈值，预设阈值可以是 30ms。按照预设检测策略对第一分布式节点100的第一网络端口进行状态检测的步骤，包括：检测第一网络端口是否满足网络时延标准，当第一网络端口满足网络时延标准时，判定第一网络端口的状态异常。例如，图2 中分布式节点1上网卡1对应的网络端口为第一网络端口，分布式节点2 上网卡1对应的网络端口为目标网络端口，第一时间和第二时间的差值大于30ms，则可以判定第一网络端口的状态异常。

需要指出的是，可以按照预设时间间隔(例如，1分钟)对第一网络端口进行状态检测，先检测第一网络端口是否满足网络正常标准，当第一网络端口正常时，不再进行其它检测，1分钟以后再次检测第一网络端口是否满足网络正常标准，当第一网络端口不正常时，进行第一网络端口中断、震荡、高时延检测，检测顺序在此不做限定；也可以在全部完成第一网络端口正常、中断、震荡、高时延检测之后，再确定第一网络端口的状态。另外，在检测出第一网络端口的状态异常之后，可以将第一网络端口的状态(中断、震荡或高时延)发送至客户端，以使用户知悉第一网络端口被隔离出集群网络的原因。

步骤S102，在检测到第一网络端口的状态异常时，将第一网络端口隔离出集群网络，以使第一网络端口不进行网络数据传输。

在本发明实施例中，在检测到第一网络端口的状态异常时，将第一网络端口隔离出集群网络，具体来说，如果第一分布式节点100包括聚合网卡，则将第一网络端口从聚合网卡端口中删除掉，这样第一网络端口将不再参与网络数据传输，例如，在检测到eth0网络端口状态异常，则可以采用命令echo-eth0>/sys/class/net/bond0/bonding/slaves将eth0网络端口从聚合网卡端口bond0中剥离。如果第一分布式节点100包括非聚合网卡，则将第一网络端口从冗余路径中删除，这样第一网络端口将不再参与网络数据传输。

在本发明实施例中，在检测出第一网络端口状态异常并隔离出集群网络之后，需要继续检测隔离后的第一网络端口是否恢复正常。此时由于第一网络端口被隔离出集群网络无IP地址，只能由网络管理装置200以二层报文方式主动发送心跳检测报文进行检测，故网络管理装置200需要具备以下功能：首先，可以获取分布式系统10中其它分布式节点网络端口的 MAC地址和IP地址；其次，作为echo服务的服务端需要绑定聚合网卡接收二层和三层心跳报文，作为echo服务的客户端需要绑定聚合网卡发送二层和三层心跳报文。

另外，为了确保心跳检测报文能以二层报文方式从隔离后的第一网络端口发送至至少两个目标网络端口，故在将第一网络端口隔离出集群网络的步骤之前，需要先关闭第一网络端口，并将第一网络端口的MAC地址修改为第一分布式节点100上除第一网络端口之外的其它网络端口的MAC地址。

步骤S103，检测隔离后的第一网络端口是否恢复正常。

在本发明实施例中，网络管理装置200检测隔离后的第一网络端口是否恢复正常的方法可以是：通过修改MAC地址后的第一网络端口向至少两个目标网络端口发送心跳检测报文，由于心跳检测报文没有IP地址只有 MAC地址，故以二层转发报文方式发送心跳检测报文，若在预设时间内(例如，60s)心跳检测报文均正常发送，则判定隔离后的第一网络端口恢复正常。

步骤S104，在检测到第一网络端口的状态恢复正常时，将第一网络端口重新加入集群网络，以使第一网络端口重新进行网络数据传输。

在本发明实施例中，如果第一分布式节点100包括聚合网卡，网络管理装置200在检测到第一网络端口的状态恢复正常时，将第一网络端口重新加入聚合网卡重新进行网络数据传输。例如，请参照图5，分布式节点1 的网络管理装置200在检测到网卡2状态异常时将网卡2从聚合网卡中删除，分布式节点1的网络管理装置200在检测到第一网络端口的状态恢复正常时，将第一网络端口重新加入集群网络，使得第一网络端口重新进行网络数据传输。

在本发明实施例中，网络管理装置200用于管理对应的分布式节点的网络端口的状态检测、将异常网络端口隔离出集群网络及将恢复正常的网络端口重新加入集群网络。网络管理装置200具体的作用包括以下四个方面：

首先，网络端口状态检测，第一分布式节点100上的网络管理装置200 通过与分布式系统10的第二分布式节点发生心跳连接，来检测第一分布式节点100上网络端口的状态；

其次，隔离异常网络端口，当第一分布式节点100上的网络管理装置 200检测到第一网络端口状态异常，及时将第一网络端口隔离出集群网络，以使第一网络端口不进行网络数据传输；

第三，恢复正常的网络端口重新加入，当第一分布式节点100上的网络管理装置200检测到第一网络端口恢复正常时，将第一网络端口重新加入集群网络，重新利用网络资源；

最后，网络状态查询，在检测出第一网络端口的状态异常之后，可以将第一网络端口的状态(中断、震荡或高时延)发送至客户端，以使用户知悉第一网络端口被隔离出集群网络的原因，另外，上行管理模块(例如， web网页)可以通过第一分布式节点100的集群管理接口进行网络管理装置200管理的网络端口状态查询。

本发明实施例提供的分布式系统网络管理方法，具有以下有益效果：

首先，通过在分布式节点上部署网络管理装置200，使其可以提前检测出分布式节点上状态异常的网络端口，保证网络数据传输不受影响；

其次，当网络管理装置200检测到其所在的分布式节点的网络端口状态异常，则将异常的网络端口隔离出集群网络，保证集群网络稳定健康；

最后，当网络管理装置200检测到被隔离的网络端口恢复正常后，将恢复正常的网络端口重新加入集群网络，保证网络资源的有效利用。

第二实施例

请参照图6，图6示出了本发明实施例提供的第一分布式节点100的方框示意图。第一分布式节点100包括处理器101、存储器102、总线103和通信接口104，所述处理器101、存储器102和通信接口104通过总线103 连接；处理器101用于执行存储器102中存储的可执行模块，例如计算机程序。

其中，存储器102可能包括高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口104(可以是有线或者无线)实现该第一分布式节点100与至少一个其它网元之间的通信连接。

总线103可以是ISA总线、PCI总线或EISA总线等。图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器102用于存储程序，例如图7所示的网络管理装置200。网络管理装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器102中或固化在所述第一分布式节点100的操作系统(operating system，OS)中的软件功能模块。所述处理器101在接收到执行指令后，执行所述程序以实现发明第一实施例揭示的分布式系统网络管理方法。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路 (ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器101执行时实现上述第一实施例揭示的分布式系统网络管理方法。

第三实施例

请参照图7，图7示出了本发明实施例提供的网络管理装置200的方框示意图。网络管理装置200部署于第一分布式节点100，网络管理装置200 包括第一检测模块201、隔离模块202、第二检测模块203及执行模块204。

第一检测模块201，用于按照预设检测策略对第一分布式节点的多个网络端口中的第一网络端口进行状态检测。

隔离模块202，用于在检测到第一网络端口的状态异常时，将第一网络端口隔离出集群网络，以使第一网络端口不进行网络数据传输。

在本发明实施例中，隔离模块202还用于在检测到第一网络端口的状态异常时，将第一网络端口的MAC地址修改为除第一网络端口之外的其它网络端口的MAC地址，将第一网络端口隔离出集群网络，以使第一网络端口不进行网络数据传输。

第二检测模块203，用于检测隔离后的第一网络端口是否恢复正常。

在本发明实施例中，第二检测模块203具体用于通过修改MAC地址后的第一网络端口向至少两个目标网络端口发送心跳检测报文；若在预设时间内心跳检测报文均正常发送，则判定隔离后的第一网络端口恢复正常。

执行模块204，用于在检测到第一网络端口的状态恢复正常时，将第一网络端口重新加入集群网络，以使第一网络端口重新进行网络数据传输。

综上所述，本发明实施例提供的一种分布式系统网络管理方法及装置，所述分布式系统网络管理方法应用于分布式系统中的第一分布式节点，第一分布式节点包括多个网络端口，多个网络端口与分布式系统中的至少一个第二分布式节点的目标网络端口进行通信，所述方法包括：按照预设检测策略对第一分布式节点的多个网络端口中的第一网络端口进行状态检测；在检测到第一网络端口的状态异常时，将第一网络端口隔离出集群网络，以使第一网络端口不进行网络数据传输。与现有技术相比，本发明实施例通过在第一分布式节点上部署网络管理装置，使其可以提前检测出状态异常的网络端口，并将状态异常的网络端口从集群网络中隔离，从而保证网络数据均由正常的网络端口进行传输，提高了集群网络的稳定性。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种分布式系统网络管理方法，其特征在于，应用于分布式系统中的第一分布式节点，所述第一分布式节点包括多个网络端口，所述多个网络端口与所述分布式系统中的至少一个第二分布式节点的目标网络端口进行通信，所述方法包括：

按照预设检测策略对所述第一分布式节点的多个网络端口中的第一网络端口进行状态检测；

在检测到所述第一网络端口的状态异常时，将所述第一网络端口隔离出集群网络，以使所述第一网络端口不进行网络数据传输。

2.如权利要求1所述的方法，其特征在于，所述预设检测策略包括网络正常标准，所述按照预设检测策略对所述第一分布式节点的第一网络端口进行状态检测的步骤，包括：

检测所述第一网络端口是否满足所述网络正常标准，其中，所述网络正常标准包括在预设时间内所述第一网络端口与至少两个所述目标网络端口的心跳连接均正常；

当所述第一网络端口满足所述网络正常标准时，判定所述第一网络端口的状态正常。

3.如权利要求1所述的方法，其特征在于，所述预设检测策略包括网络中断标准，所述按照预设检测策略对所述第一分布式节点的第一网络端口进行状态检测的步骤，包括：

检测所述第一网络端口是否满足所述网络中断标准，其中，所述网络中断标准包括所述第一网络端口向多个所述目标网络端口发送数据均未收到响应，所述第一分布式节点除所述第一网络端口之外的其它网络端口向同一所述目标网络端口发送数据收到响应；

当所述第一网络端口满足所述网络中断标准时，判定所述第一网络端口的状态异常。

4.如权利要求1所述的方法，其特征在于，所述预设检测策略包括网络震荡标准，所述按照预设检测策略对所述第一分布式节点的第一网络端口进行状态检测的步骤，包括：

检测所述第一网络端口是否满足所述网络震荡标准，其中，所述网络震荡标准包括所述第一网络端口向多个所述目标网络端口发送数据收到的响应不一致，再次向同一所述目标网络端口发送数据收到不同响应；或者所述第一网络端口向多个所述目标网络端口多次发送数据收到的响应不一致；

当所述第一网络端口满足所述网络震荡标准时，判定所述第一网络端口的状态异常。

5.如权利要求1所述的方法，其特征在于，所述预设检测策略包括网络时延标准，所述按照预设检测策略对所述第一分布式节点的第一网络端口进行状态检测的步骤，包括：

检测所述第一网络端口是否满足所述网络时延标准，其中，所述网络时延标准包括所述第一网络端口向所述目标网络端口发送数据与接收所述目标网络端口的响应之间的第一时间高于除所述第一网络端口之外的其它网络端口向同一所述目标网络端口发送数据与接收同一所述目标网络端口的响应之间的第二时间，其中所述第一时间和所述第二时间的差值大于预设阈值；

当所述第一网络端口满足所述网络时延标准时，判定所述第一网络端口的状态异常。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

检测隔离后的所述第一网络端口是否恢复正常；

在检测到所述第一网络端口的状态恢复正常时，将所述第一网络端口重新加入集群网络，以使所述第一网络端口重新进行网络数据传输。

7.如权利要求5所述的方法，其特征在于，所述将所述第一网络端口进行隔离的步骤之前还包括：将所述第一网络端口的MAC地址修改为除所述第一网络端口之外的其它网络端口的MAC地址；

所述检测隔离后的所述第一网络端口是否恢复正常的步骤，包括：

通过修改MAC地址后的第一网络端口向至少两个所述目标网络端口发送心跳检测报文；

若在预设时间内所述心跳检测报文均正常发送，则判定隔离后的所述第一网络端口恢复正常。

8.一种分布式系统网络管理装置，其特征在于，部署于分布式系统中的第一分布式节点，所述第一分布式节点包括多个网络端口，所述多个网络端口与所述分布式系统中的至少一个第二分布式节点的目标网络端口进行通信，所述装置包括：

第一检测模块，用于按照预设检测策略对所述第一分布式节点的多个网络端口中的第一网络端口进行状态检测；

隔离模块，用于在检测到所述第一网络端口的状态异常时，将所述第一网络端口隔离出集群网络，以使所述第一网络端口不进行网络数据传输。

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

第二检测模块，用于检测隔离后的所述第一网络端口是否恢复正常；

执行模块，用于在检测到所述第一网络端口的状态恢复正常时，将所述第一网络端口重新加入集群网络，以使所述第一网络端口重新进行网络数据传输。

10.如权利要求9所述的装置，其特征在于，所述隔离模块具体用于：

在检测到所述第一网络端口的状态异常时，将所述第一网络端口的MAC地址修改为除所述第一网络端口之外的其它网络端口的MAC地址，将所述第一网络端口隔离出集群网络，以使所述第一网络端口不进行网络数据传输；

所述第二检测模块具体用于：