CN114124666A

CN114124666A - 网络处置方法、装置、计算机设备和存储介质

Info

Publication number: CN114124666A
Application number: CN202111375986.7A
Authority: CN
Inventors: 周玉坤; 王正; 古亮
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-03-01
Anticipated expiration: 2041-11-19
Also published as: CN114124666B

Abstract

本申请提出一种网络处置方法、装置、计算机设备和存储介质，该方法包括：获取集群的网络聚合模式信息，网络聚合模式信息用于确定集群的网络聚合模式；获取在网络聚合模式下第一主机的多个第一网口对应的网络分析数据和处置条件信息；根据网络分析数据确定第一主机是否符合处置条件信息所指示的处置条件；若符合处置条件，则将多个第一网口中处于亚健康状态的目标网口隔离出集群网络。本申请保证了在不中断网络和不影响业务性能的前提下，实现亚健康链路隔离，确保业务性能恢复到正常水平。

Description

网络处置方法、装置、计算机设备和存储介质

技术领域

本申请涉及通信技术领域，尤其涉及一种网络处置方法、装置、计算机设备和存储介质。

背景技术

在公有云和私有云场景中，分布式存储系统承载着客户核心业务运行。通常为了保证分布式网络可靠性，采用聚合网络提供可靠性和双倍网络传输带宽。分布式存储网络聚合配置方案中支持单交换机链路聚合和双交换机链路聚合，目的是解决端口冗余和负载均衡的需求。正常的业务场景中，链路聚合后存在单链路异常导致网络性能受到影响，例如单网口物理亚健康状态(受电压、电流和温度等影响)，光模块故障和光纤线接触不良等原因。链路聚合单条链路异常会导致IO延时大，影响范围是集群中有数据的所有虚拟机，进而导致客户业务性能下降，出现卡顿等问题。

对网络健康状态进行分析可以获取网口及对应网络的健康状态。但是当前超融合平台在满足了性能和可靠性等要求后，对于网络亚健康对超融合平台潜在的非完全破坏性的网络故障提出了更高的要求。例如网口亚健康导致的网络亚健康对平台的高可用性有威胁，如何在网络亚健康对业务产生较大影响的情况下，能够实现超融合平台主动解决网络问题以恢复业务、而不需要人员介入是目前亟需解决的问题。

发明内容

为了解决现有技术中在网络出现亚健康时无法主动解决网络问题的技术问题。本申请提供了一种网络处置方法、装置、计算机设备和存储介质，其主要目的在于保证在不中断网络和不影响业务性能的前提下，自动实现亚健康链路隔离，确保业务性能恢复到正常水平。

为实现上述目的，本申请提供了一种网络处置方法，该方法包括：

获取集群的网络聚合模式信息，网络聚合模式信息用于确定集群的网络聚合模式；

获取在网络聚合模式下第一主机的多个第一网口对应的网络分析数据和处置条件信息；

根据网络分析数据确定第一主机是否符合处置条件信息所指示的处置条件；

若符合处置条件，则将多个第一网口中的目标网口隔离出集群网络，其中，目标网口处于亚健康状态。

此外，为实现上述目的，本申请还提供了一种网络处置装置，该装置包括：

第一数据获取模块，用于获取集群的网络聚合模式信息，网络聚合模式信息用于确定集群的网络聚合模式；

第二数据获取模块，用于获取在网络聚合模式下第一主机的多个第一网口对应的网络分析数据和处置条件信息；

处置条件确定模块，用于根据网络分析数据确定第一主机是否符合处置条件信息所指示的处置条件；

隔离模块，用于若符合处置条件，则将多个第一网口中的目标网口隔离出集群网络，其中，目标网口处于亚健康状态。

为实现上述目的，本申请还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时执行如前面任一项的网络处置方法的步骤。

为实现上述目的，本申请还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行如前面任一项的网络处置方法的步骤。

本申请提出的网络处置方法、装置、计算机设备和存储介质，根据网络聚合模式获取对应的网络分析数据和处置条件信息，并根据网络分析数据确定是否可以处置主机的亚健康网口，避免盲目处置对网络造成负影响。在满足处置条件时才处置亚健康网口，实现了通过处置网口达到对网络处置的目的，保证了在不中断网络和不影响业务性能的前提下，实现亚健康链路隔离，确保业务性能恢复到正常水平。

附图说明

图1为本申请一实施例中网络处置方法的应用场景图；

图2为本申请一实施例中网络处置方法的流程示意图；

图3为本申请一实施例中单交换机链路聚合模式下主机之间网口通信的示意图；

图4为本申请一实施例中双交换机链路聚合模式下主机之间网口通信的示意图；

图5为本申请一实施例中网络分析数据的获取方法的流程示意图；

图6为本申请另一实施例中网络分析数据的获取方法的流程示意图；

图7为本申请一实施例中网络处置装置的结构框图；

图8为本申请一实施例中计算机设备的内部结构框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的网络处置方法可应用在如图1的应用环境中，其中，主机121、主机122和主机123位于同一个集群中，且集群中包括至少两个主机，主机之间通过网络通信。主机可以是终端也可以是服务器。终端可以但不限于各种个人计算机、笔记本电脑等。

主机121、主机122、主机123中任意一个主机都可以作为第一主机、其他主机作为第二主机。且，两两主机之间有存在至少一条链路。每条链路除了包括两个主机之外，还包括交换机(图中未示出)。

以主机121为第一主机、主机122和主机123为第二主机为例，主机121根据预设探测频率通过第一主机和第二主机之间的至少一条链路向集群内对应的第二主机(主机122、主机123等第二主机)发送多个探测包，获得探测周期内主机121的第一网口的每条链路的探测数据；主机121根据探测周期内第一网口的所有链路的丢包率和第一时延确定第一网口的健康状态及第一网口与集群中第二主机的第二网口对应链路的链路状态，健康状态包括亚健康状态和正常状态，链路状态包括正常状态和非正常状态。

主机121获取集群的网络聚合模式信息，网络聚合模式信息用于确定集群的网络聚合模式；获取在网络聚合模式下主机121的多个第一网口对应的网络分析数据和处置条件信息；根据网络分析数据确定主机121是否符合处置条件信息所指示的处置条件；若符合处置条件，则将主机121的多个第一网口中的目标网口隔离出集群网络，其中，目标网口处于亚健康状态，网络分析数据是根据前面探测分析获取到的。

图2为本申请一实施例中网络处置方法的流程示意图。参考图2，以该方法应用在图1中的主机为例进行说明。该网络处置方法包括以下步骤S100-S400。

S100：获取集群的网络聚合模式信息，网络聚合模式信息用于确定集群的网络聚合模式。

具体地，本实施例的网络聚合模式包括单交换机链路聚合模式和双交换机链路聚合模式。单交换机链路聚合模式是指一个主机的多个网口连接在同一个交换机上，且同一个交换机上可连接多个主机的网口；双交换机链路聚合模式是指一个主机的多个网口分布连接在两个交换机上，且同一个交换机上可连接多个主机的网口。

S200：获取在网络聚合模式下第一主机的多个第一网口对应的网络分析数据和处置条件信息。

具体地，在不同的网络聚合模式下获取的网络分析数据不同，对应的处置条件也不同。网络分析数据是根据探测分析获取到的，网络分析数据至少包括第一主机的多个第一网口的健康状态。第一网口的健康状态的确定方法具体为：第一主机根据预设探测频率通过第一主机和第二主机之间的至少一条链路向集群内对应的第二主机发送多个探测包，获得探测周期内第一主机的第一网口的每条链路的探测数据，根据探测数据确定探测周期内每条链路对应的丢包率和第一时延；第一主机根据探测周期内第一网口的所有链路的第一时延和丢包率确定第一网口的健康状态。

更具体地，若在探测周期内第一网口的所有链路的第一时延均超过第一阈值，或者，第一网口的所有链路的丢包率均超过第二阈值，则确定第一网口的健康状态为亚健康状态。

在探测周期内第一网口的所有链路的第一时延均小于第一阈值且丢包率均小于第二阈值的情况下，若第一网口的所有链路的第一时延均超过第三阈值，或者，第一网口的所有链路的丢包率均超过第四阈值，则确定第一网口的健康状态为亚健康状态，其中，第三阈值小于第一阈值，第四阈值小于第二阈值。

若在探测周期内第一网口的所有链路中存在第一时延小于第三阈值且链路的丢包率小于第四阈值的链路，则确定第一网口的健康状态为正常状态。

通过获取到的第一主机的第一网口的网口状态确定第一网口是否为可用网口，网口状态包括连接状态和无连接状态，若第一网口的网口状态为无连接状态，则确定第一网口的健康状态为无连接状态。

通过获取到的第一主机的第一网口的网口状态确定第一网口是否为可用网口，网口状态包括连接状态和无连接状态，获取可用网口的协商带宽和额定带宽，若协商带宽小于对应的额定带宽，则确定对应的可用网口协商带宽降级，若第一网口协商带宽降级，则确定第一网口的健康状态为亚健康状态。

处置条件具体为网口的处置条件，通过判断第一主机是否满足处置条件来确定是否处置第一主机中可处置的网口。

单交换机链路聚合模式和双交换机链路聚合模式由于不同的topo结构导致这两种不同部署方式在进行主动网络处置时约束条件不同。

S300：根据网络分析数据确定第一主机是否符合处置条件信息所指示的处置条件。

具体地，处置条件至少包括该第一主机同时存在健康状态为亚健康状态的亚健康网口和健康状态为正常状态的正常网口，根据亚健康网口和正常网口以及网络聚合模式来确定第一主机是否符合处置条件。

S400：若符合处置条件，则将多个第一网口中的目标网口隔离出集群网络，其中，目标网口处于亚健康状态。

具体地，本实施例具体是根据第一主机的多个第一网口的网络分析数据来确定该第一主机是否满足处置条件，当满足处置条件时，则将目标网口即亚健康网口隔离出集群网络。隔离出集群网络的目标网口的健康状态由亚健康状态变为被隔离状态(evicted)。被隔离的目标网口或亚健康在处置后通过监测网络带宽和系统性能，在满足恢复条件的情况可以被解除隔离。

集群是由一些主机组成的分布式存储聚合网络，由聚合网络的特性可知，同一个主机的多个网口中，如果其中一个网口被隔离，则该主机所有收发包和网络流量都自动通过另外未隔离且正常的网口来处理，从而保证网络的可用性。将亚健康网口或目标网口隔离出集群网络具体是指使健康状态为亚健康状态的第一网口的所有亚健康链路断开，使得第一主机不能通过该亚健康状态的第一网口与其他主机或外部通信，第一主机通过未隔离的正常网口与其他主机或外部通信。

如果链路聚合中第一主机的部分第一网口的链路出现亚健康且部分第一网口的链路正常，则隔离掉为亚健康的第一网口，只使用正常网口对应的正常的链路，可以降低客户业务因为网络亚健康受到的影响。

本实施例通过网口的健康状态和网口对应链路的链路状态来确定是否可以处置亚健康网口，避免盲目处置对网络造成负影响。在满足处置条件时才处置亚健康网口，保证了在不中断网络和不影响业务性能的前提下，实现亚健康链路隔离，确保业务性能恢复到正常水平，降低了因网络亚健康导致业务性能下降的可能。

在一个实施例中，网络聚合模式包括单交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态，步骤S300具体包括：若第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，则确定第一主机符合处置条件。

具体地，如图3所示为单交换机链路聚合模式下主机之间网口通信的示意图。

图3示出了第一主机的多个第一网口与第二主机的多个第二网口通信的示意图。第一主机A包含第一网口1和第一网口2两个第一网口，第二主机B包含第二网口1和第二网口2。第一网口1通过交换机与第二网口1通信形成第一链路，第一网口2通过交换机与第二网口2通信形成第二链路，第一网口1通过交换机与第二网口2通信形成第三链路，第一网口2通过交换机与第二网口1通信形成第四链路。

正常情况下，第一主机A可以通过第一链路、第二链路、第三链路、第四链路中的任意一条链路与第二主机B通信。第一链路、第二链路、第三链路、第四链路中的每条链路除了包括两个主机之外，还包括交换机等转发设备。

但是，如果第一主机A的第一网口1的健康状态为亚健康状态，即第一网口1的健康状态为亚健康状态，第一网口1为亚健康网口，且，第一主机A的第一网口2的健康状态为正常状态，即第一网口2为正常网口，则将第一网口1从集群网络中隔离，使得第一主机无法通过第一网口1与主机B通信，而通过未隔离的正常网口第一网口2与主机B通信。

其中，第一网口1和第一网口2为第一主机的两个从网口(slave网口)，通过网口绑定技术，第一网口1和第一网口2绑定(bonding)成一个主网口(master口)，master口是基于三层进行收发数据的。2个slave口基于2层被master口进行调度，所以允许其中一个slave口不提供调度，只由另一个slave口承接整个master口的所有数据，因此需要保证至少一个slave口可以正常服务。因此，在单交换机链路聚合模式下处置亚健康网口之前需要判断bonding的另一个slave口是否正常，正常才进行处置。这样第一主机可以通过另外一个正常的slave口与其他主机进行通信。例如，本例子中第一主机通过第一网口2(slave口)与其他主机或外部通信。这样聚合链路在1个网口被隔离后，所有收发包和网络流量都自动通过另1个网口处理，从而保证网络的可用性。

在一个实施例中，网络聚合模式包括双交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态及多个第一网口与集群中第二主机的第二网口之间的链路的链路状态，步骤S300具体包括：若第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，且，存在至少一个正常网口与连接于同一个交换机的第二网口之间的链路的链路状态均为正常状态，则确定第一主机符合处置条件。

具体地，在存在亚健康网口的情况下，如果第一主机存在至少一个健康状态为正常状态的第一网口，即存在至少一个正常网口，且，存在至少一个正常状态的第一网口与连接在同一个交换机的第二网口对应链路的链路状态均为正常，即正常的第一网口通过其连接的交换机能够与同样连接与该交换机上的其他主机的第二网口正常通信，才确定满足网络处置条件。

如图4所示为双交换机链路聚合模式下主机之间网口通信的示意图。图4示出了第一主机的多个第一网口与第二主机的多个第二网口通信的示意图。第一主机A包含第一网口1和第一网口2两个第一网口，第二主机B包含第二网口1和第二网口2，第二主机C包括第二网口3和第二网口4。第一网口1通过交换机1与第二网口1通信形成第一链路，第一网口2通过交换机2与第二网口2通信形成第二链路，第一网口1通过交换机1与第二网口3通信形成第三链路，第一网口2通过交换机2与第二网口4通信形成第四链路，第二网口1通过交换机1与第二网口3通信形成第五链路，第二网口2通过交换机2与第二网口4通信形成第六链路。

正常情况下，第一主机A可以通过第一链路或第二链路与第二主机B通信，第一主机A通过第三链路或第四链路与第二主机B通信，第一主机A通第三链路或第四链路与第二主机C通信，第二主机B通过第五链路或第六链路与第二主机C通信。其中，第一链路、第二链路、第三链路、第四链路、第五链路和第六链路中的每条链路除了包括两个主机之外，还包括交换机等转发设备。

如果第一主机A的第一网口1的健康状态为亚健康状态，即第一网口1为亚健康网口，且，第一主机A的第一网口2的健康状态为正常状态，即第一网口2为正常网口，则如果将第一网口1隔离掉，那么要使业务正常即第一主机A能分别与第二主机B和第二主机C通信，则需要第一网口2通过交换机2与第二网口2形成的第二链路以及第一网口2通过交换机2与第二网口4形成的第四链路的链路状态均正常。这样可以在第一网口1即使隔离出集群网络的情况下，也不影响第一主机A与集群中其他主机的通信，保证了在不中断网络和不影响业务性能的前提下，实现亚健康网口对应的亚健康链路的隔离，确保业务性能恢复到正常水平。

将第一网口1从集群网络中隔离，使得第一主机无法通过第一网口1与主机B和主机C通信，而通过未隔离的正常网口第一网口2与主机B和主机C通信。由于聚合网络的特性，在1个网口被隔离后，所有收发包和网络流量都自动通过另1个网口处理，从而保证了网络的可用性。

在一个实施例中，网络聚合模式包括单交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态，该网络处置方法还包括：获取第一主机的多个第一网口的总带宽和多个第一网口中健康状态为正常状态的正常网口的正常网口带宽；

步骤S300具体包括：若第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，且，多个第一网口的总带宽与正常网口的正常网口带宽之比不超过第一预设比例，则确定第一主机满足处置条件，其中，第一预设比例小于或等于1。

具体地，第一主机包括至少2个第一网口，总带宽为第一主机中已上线或已启用的第一网口的带宽之和，这其中包括了健康状态为亚健康状态和正常状态的第一网口。理论上，同一个主机如果网口都正常，总带宽比正常网口带宽高越多，那么网口带宽利用率越高。反之，如果总带宽与正常网口带宽差距不大，那么说明在多个网口都启用的情况下部分网口(例如亚健康网口)的带宽利用率低，并没有对带宽利用率有贡献。因此，本实施例通过比较总带宽与正常网口带宽与第一预设比例的乘积的大小，来确定如果隔离亚健康网口后，会不会导致剩下的未隔离的正常网口的带宽较未隔离之前的总带宽下降太多。如果多个第一网口的总带宽与正常网口的正常网口带宽之比不超过第一预设比例，则代表即使隔离掉亚健康网口，仍然能够确保网口切换后带宽不下降，正常网口的带宽仍然能够满足正常网络通信。其中，第一预设比例可以为80％或90％等不局限于此。

本实施例在单交换机链路聚合模式且存在亚健康网口的的情况下，同时满足存在至少一个健康状态为正常状态的第一网口或正常网口，且，多个第一网口的总带宽与正常网口的正常网口带宽之比不超过第一预设比例，才确定将亚健康网口隔离出集群网络，保证了在不中断网络、不影响业务性能以及确保网口切换后带宽不下降的前提下，实现亚健康链路隔离，确保业务性能恢复到正常水平。

在一个实施例中，网络聚合模式包括双交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态及多个第一网口与集群中第二主机的第二网口之间的链路的链路状态，该网络处置方法还包括：获取第一主机的多个第一网口的总带宽和多个第一网口中健康状态为正常状态的正常网口的正常网口带宽；

步骤S300具体包括：若第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，且，存在至少一个正常网口与连接于同一个交换机的第二网口之间的链路的链路状态均为正常状态，且，多个第一网口的总带宽与正常网口的正常网口带宽之比不超过第二预设比例，则确定第一主机满足处置条件，其中，第二预设比例小于或等于1。

具体地，第一主机包括至少2个第一网口，总带宽为第一主机中已上线或已启用的第一网口的带宽之和，这其中包括了健康状态为亚健康状态和正常状态的第一网口。理论上，同一个主机如果网口都正常，总带宽比正常网口带宽高越多，那么网口带宽利用率越高。反之，如果总带宽与正常网口带宽差距不大，那么说明在多个网口都启用的情况下部分网口(亚健康网口)的带宽利用率低，并没有对带宽利用率有贡献。因此，本实施例通过比较总带宽与正常网口带宽与第二预设比例的乘积的大小，来确定如果隔离亚健康网口后，会不会导致剩下的未隔离的正常网口的带宽较未隔离之前的总带宽下降太多。如果多个第一网口的总带宽与正常网口的正常网口带宽之比不超过第二预设比例，则代表即使隔离掉亚健康网口，仍然能够确保网口切换后带宽不下降，正常网口的带宽仍然能够满足正常网络通信。其中，第二预设比例可以为80％或90％等不局限于此。

本实施例在双交换机链路聚合模式且存在亚健康网口的情况下，同时满足第一主机存在至少一个健康状态为正常状态的正常网口与连接于同一个交换机的第二网口对应链路的链路状态均为正常状态，且，多个第一网口的总带宽与正常网口的正常网口带宽之比不超过第二预设比例，才确定将亚健康网口隔离出集群网络，保证了在不中断网络、不影响业务性能以及确保网口切换后带宽不下降的前提下，实现亚健康链路隔离，确保业务性能恢复到正常水平。

上述各个实施例中，将多个第一网口中的目标网口隔离出集群网络，具体包括：

调用网口停用指令，停用目标网口。

具体地，网口停用指令用于将亚健康网口即目标网口下线使其掉线(down)，这样第一主机就不能再通过已停用网口与集群中其他主机通信，而是通过未停用的正常网口与其他主机或外部通信，相当于停用了已停用网口对应的所有链路网络。网口停用指令例如为ifconfig down命令；如果要停用网口名称为eth0的第一网口，则完整的指令为ifconfigeth0 down。

本实施例通过调用网口停用指令的方式来隔离亚健康网口，确保业务性能恢复到正常水平。

上述各个实施例中，将多个第一网口中的目标网口隔离出集群网络，包括：

将目标网口从第一主机对应的绑定组中移除。

具体地，端口聚合用于将设备的多个网口当作一个单一的逻辑接口来处理，他允许多个端口并行连接同时传输数据以提供更高的带宽、更大的吞吐量。端口聚合适用于链路带宽扩容和冗余场景，解决链路吞吐瓶颈和单链路故障。第一主机有多个网口时会使用端口聚合或端口绑定技术将多个第一网口绑定为一个绑定组使成为一个逻辑网口，绑定组中包括了第一主机中加入到绑定组的第一网口。对外而言，是这个逻辑网口与第一主机之外的设备通信，对内而言，第一主机会根据不同的网口bond模式来选择工作的第一网口。

本实施例将亚健康网口即目标网口从第一主机的绑定组中移除(从聚合口bonding中移除)，使得被移除的第一网口不能被选择为工作的网口，即第一主机不能再通过已被移除的网口与集群中其他主机通信，相当于移除了已被移除的网口对应的所有链路网络，进而使得被移除的第一网口被隔离出集群网络，确保业务性能恢复到正常水平。

在一个实施例中，网络聚合模式包括单交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态，图5为本申请一实施例中网络分析数据的获取方法的流程示意图，步骤S200中获取在网络聚合模式下第一主机的多个第一网口对应的网络分析数据，具体包括：

S210：根据预设探测频率通过第一主机和第二主机之间的至少一条链路向集群内对应的第二主机发送多个探测包，获得探测周期内第一主机的第一网口的每条链路的探测数据，根据探测数据确定探测周期内每条链路对应的丢包率和第一时延；

S220：根据探测周期内第一网口的所有链路的第一时延和丢包率确定第一网口的健康状态，其中，健康状态包括正常状态和亚健康状态。

具体地，本实施例以集群中某个主机作为第一主机，其他主机作为第二主机，以第一主机作为本地主机和执行主体来进行说明。集群中每个主机都可以作为执行主体主动向其他主机发送探测包，即，集群内各主机之间互相主动探测发包，以检测自身网口是否正常。本实施例采用raw socket二层通信，直接通过Mac地址在主机网口间发包和收包。

第一主机包含至少一个第一网口，集群包括至少一个第二主机，每个第二主机包括至少一个第二网口，网口具体为物理网络接口。第一主机通过第一网口向任意一个第二主机对应的第二网口发送多个探测包，并根据第二主机通过对应的第二网口返回的回复包获取到接收时间戳等数据。本实施例实现了通过主机之间互发探测包收集每个主机对应的链路的探测数据，其中，链路为第一主机的第一网口与一个第二主机中对应的第二网口之间的通信通道。

第一主机的每个第一网口与不同第二主机对应的第二网口形成不同的链路，因此，每个第一网口可能有多条链路。

探测数据为第一主机可用的第一网口向对应的第二网口发送探测包到接收第二网口返回的回复包的整个事件所对应的数据。同一个第一网口会根据预设探测频率向对应的第二网口发送探测包，因此，每条链路对应的探测数据包括了所有次探测对应产生的数据或累计数据。

每次探测时每条链路的子探测数据包括对应的第一网口的网口信息及第二网口的网口信息、对应第一网口每次探测的发包数和收包数及每次探测的第二时延。

每次探测每条链路的第二时延的计算公式为：T＝(T4-T1)-(T3-T2)。其中，T1为在端到端主机通信中，第一主机通过第一网口向第二主机对应的第二网口发送数据包P时的第一发送时间戳T1，T2为第二主机的第二网口收到数据包P的第一接收时间戳，T3为第二主机通过第二网口向第一主机的第一网口返回回复包H的第二发送时间戳，T4为第一主机通过第一网口接收到回复包H的第二接收时间戳。

本实施例具体基于滑动窗口协议和预设探测频率来控制第一主机的第一网口向第二主机对应的第二网口发送探测包，以收集获取探测数据。

滑动窗口协议用于在任意时刻维护一个连续且定长的发送数据包序号，用于网络数据传输时的流量控制，以避免拥塞的发生。该协议允许发送方在停止并等待确认前发送多个数据分组，可以加速数据的传输，提高网络吞吐量。本实施例通过滑动窗口协议协调第一主机向第二主机发送探测包的发送速度，同时根据预设探测频率进一步约束发包频率，使得探测操作既能满足一定的网络健康分析需求，又尽量避免了网络阻塞。

另外，网口信息具体可以包括网口的Mac地址，也可以包括网口的Mac地址、交换机与之连接的端口等不局限于此。

探测周期具体为网络健康分析的时间间隔。第一主机向第二主机发送探测包获取探测数据，但是获取到的探测数据不需要实时处理，而是每间隔一个探测周期提取一个探测周期的探测数据分析一次网口及对应网络的健康状态。

探测周期内每条链路的丢包率＝(该链路网口发包数-该链路网口收包数)/该链路网口发包数*100％。

链路网口发包数为在探测周期内该链路的第一网口发送的探测包的数量，链路网口收包数为该链路的第一网口接收到该链路的第二网口返回的回复包的数量。

在一个探测周期内，每条链路会有多次探测，即，某条链路的第一网口会按照预设探测频率向对应的第二网口多次发送探测包，每次探测每条链路都会产生第二时延，因此，在一个探测周期内同一条链路会对应有多个第二时延。且，该链路的第一网口的发包数和收包数分别是多次探测发包和收包的累加。每个第一网口可能与不同第二主机对应的第二网口通信形成不同链路，第一时延是根据探测周期内对应链路的所有第二时延计算得到的。本申请的第一时延为探测周期内对应链路对应的P99时延或平均时延等不局限于此。链路的丢包率具体为一条链路在一个探测周期内对应的丢包率。

第一主机有至少一个第一网口，每个第一网口及对应网络的健康状态都是通过该第一网口的所有链路的第一时延和丢包率综合评判得到的。第一网口的健康状态可能为正常状态，也可能为亚健康状态，还可能为无连接状态等不局限于此。其中，第一网口的健康状态为亚健康状态时，其对应的网络的健康状态也为亚健康状态；第一网口的健康状态为无连接状态时，其对应的网络的健康状态也为无连接状态；第一网口的健康状态为正常状态时，其对应的网络的健康状态可能为正常状态可能为亚健康状态，此时亚健康导致的原因不是该第一网口引起的，可能是与第一网口通信的第二网口引起的。另外，亚健康状态也可能由不同的原因造成。同一个主机的所有第一网口中不同的第一网口及对应网络的健康状态可能相同也可能不同。本实施例通过判断网口的健康状态来判断对应网络的健康状态。

系统可以根据网络链路的亚健康状态进行告警和处置，从而解决网络亚健康状态导致业务性能下降问题。

本实施例通过确定集群内主机端口到端口链路，主动发送探测包收集指定链路的时延、丢包率得到探测数据；并根据探测数据分析集群内所有链路的状态，采用经验阈值来判断网络链路的亚健康状态；准确识别分析出网络亚健康状态所导致的原因。且兼容各种不同的应用场景，对于快速恢复网络健康状态提供有力依据。

在一个实施例中，步骤S220具体包括：

若在探测周期内第一网口的所有链路的第一时延均超过第一阈值，和/或，第一网口的所有链路的丢包率均超过第二阈值，则确定第一网口及对应网络的健康状态为亚健康状态；

记录亚健康状态对应的第一原因信息。

具体地，第一阈值和第二阈值都可以为灵敏值(根据实际情况可调整的值)或迟钝值(固定值)，且第一阈值为时延对应异常的上限取值，第二阈值为丢包率对应异常的上限取值。本实施例在所有链路的第一时延均超过第一阈值的情况下确定第一网口的健康状态为亚健康状态，即该第一网口为亚健康网口，以及确定该亚健康网口对应网络的健康状态为亚健康状态；在所有链路的丢包率均超过第二阈值的情况下，也确定第一网口的健康状态为亚健康状态，即该第一网口为亚健康网口，以及确定该亚健康网口对应网络的健康状态为亚健康状态；在所有链路的第一时延均超过第一阈值且所有链路的丢包率均超过第二阈值的情况下，也确定该第一网口的健康状态为亚健康状态，即该第一网口为亚健康网口，以及确定该亚健康网口对应网络的健康状态为亚健康状态。

第一原因信息具体可以为链路故障。网络亚健康状态是指vs聚合网络单条链路出现丢包、延时大和协商成低带宽等问题时网络的状态；虽然以上问题不会导致网络中断，但是会不同程度影响网络传输性能。网口处于亚健康状态时其对应网络也处于亚健康状态仍然可以工作，但是效率低性能差。

在一个实施例中，探测数据包括对应链路的发包数和收包数及多个探测包对应的的多个第二时延；

步骤S200还包括：

根据第一网口所有链路对应的第二时延计算在探测周期内第一网口的平均时延，以及根据第一网口所有链路的发包数和收包数计算在探测周期内第一网口的丢包率。

具体地，第一网口的平均时延可以为探测周期内该第一网口所有链路对应的所有第二时延的均值，也可以是在一个探测周期内该第一网口所有链路的P99时延的均值。P99时延的计算方式为：将一个探测周期内任意一条链路的第二时延按照升序排列，在排序中顺序处于99％位置的第二时延即为该链路的P99时延。对该第一网口所有链路的P99时延求均值得到该第一网口的平均时延。或者，P99时延的计算方式为：对多个第二时延进行降序排序，将排序后的多个第二时延中前1％的第二时延作为P99时延。

第一网口的丢包率为在一个探测周期内该第一网口所有链路的发包数之和与所有链路的收包数之和的差值除以所有链路的发包数之和得到的。

当然，还可以记录在该探测周期内该第一网口每条链路的丢包率及所有的第二时延、第一时延。

在一个实施例中，步骤S220还包括：

在探测周期内第一网口的所有链路的第一时延均小于第一阈值且丢包率均小于第二阈值的情况下，若第一网口的所有链路的第一时延均超过第三阈值，和/或，第一网口的所有链路的丢包率均超过第四阈值，则确定第一网口及对应网络的健康状态为亚健康状态，记录亚健康状态对应的第二原因信息，其中，第三阈值小于第一阈值，第四阈值小于第二阈值；

步骤S200还包括：

具体地，在探测周期内第一网口的所有链路的第一时延均小于第一阈值且丢包率均小于第二阈值的情况下，如果满足第一网口的所有链路的第一时延均超过第三阈值、第一网口的所有链路的丢包率均超过第四阈值中的至少一个条件，则确定该第一网口及对应网络的健康状态为亚健康状态。且，前面实施例中第一网口的所有链路的第一时延均超过第一阈值和/或所有链路的丢包率均超过第二阈值的情况下确定的亚健康状态比本实施例的亚健康状态较严重些。

在第一网口的所有链路中存在第一时延小于第三阈值且链路的丢包率小于第四阈值的链路的情况下，则表明该第一网口存在链路状态为正常状态的链路。即，在探测周期内第一网口的所有链路中非所有链路的第一时延均超过第一阈值，且，非所有链路的第一时延均超过第三阈值且小于第一阈值，且，第一网口的所有链路中非所有链路的丢包率均超过第二阈值，且，非所有链路的丢包率均超过第四阈值且小于第二阈值，此情况下该第一网口存在链路状态为正常状态的链路，该第一网口是正常的，而引起该第一网口存在不正常的链路的原因是其他网口或其他原因导致第一网口部分链路出现问题。因此，确定并记录第一网口的健康状态为正常状态。

第一阈值、第二阈值、第三阈值和第四阈值都可以为灵敏值(根据实际情况可调整的值)或迟钝值(固定值)。第三阈值为时延对应异常的下限取值，第四阈值为丢包率对应异常的下限取值。第二原因信息具体可以为超过阈值。

若第一网口的健康状态判定为正常，则其状态原因可以记录为未知或Null。当第一网口的健康状态为正常时，此时第一网口对应的所有链路中存在部分链路的第一时延小于第三阈值且丢包率小于第四阈值，且这部分链路是正常的，之所以会引起部分链路的第一时延或丢包率过大可能是其他主机的第二网口或交换机故障等原因导致的。

在一个实施例中，探测数据包括探测周期内对应链路的发包数和收包数及对应链路中多个探测包对应的多个第二时延，步骤S200还包括：根据探测数据确定在探测周期内第一网口的平均时延，以及根据探测数据确定在探测周期内第一网口的丢包率。

具体地，第一网口被判定为正常或为亚健康状态时，都可以计算该第一网口在该探测周期内的平均时延，以及计算该第一网口在该探测周期内的丢包率。

第一网口的平均时延可以为在探测周期内该第一网口对应的所有链路的所有第二时延的均值，也可以是在一个探测周期内所有链路的P99时延的均值。P99时延的计算方式为：将一个探测周期内任意一条链路的第二时延按照升序排列，在排序中顺序处于99％位置的第二时延即为该链路的P99时延。对该第一网口所有链路的P99时延求均值得到该第一网口的平均时延。或者，P99时延的计算方式为：对多个第二时延进行降序排序，将排序后的多个第二时延中前1％的第二时延作为P99时延。

第一网口的丢包率为在一个探测周期内该第一网口所有链路的发包数之和与所有链路的收包数之和的差值除以所有链路的发包数之后得到的。

得到的探测周期内第一网口的平均时延和/或在探测周期内第一网口的所有第二时延，以及在探测周期内第一网口的丢包率可以记录到日志文件中输出，方便工程人员根据输出的日志文件快速排除并定位到发生网络故障的原因。

在一个实施例中，在步骤S210之前，步骤S200还包括：

基于第一主机与集群中第二主机之间的网络聚合模式信息，通过集群拓扑生成探测列表，探测列表包括第一主机与集群中第二主机之间每条链路的链路信息，链路信息包括第一主机的第一网口的网口信息、与第一网口对应的用于收包的第二主机的第二网口的网口信息。

具体地，网络聚合模式信息包括单交换机链路聚合模式和双交换机链路聚合模式。在单交换机链路聚合模式下，集群中的主机之间通过同一个交换机进行通信，且，任意两个主机之间通过该交换机的链路包括至少一条。在双交换机链路聚合模式下，集群中的任意两个主机之间可以通过两个交换机进行通信，且对于这两个主机来说，不同交换机所对应的链路不同。

具体地，第一主机分别向集群中每个第二主机发送集群拓扑探测请求，根据第二主机返回的的主机信息生成探测列表。主机信息包括主机名、IP地址、该主机所包含的网口及网口的Mac地址。

每个第二主机包括至少一个第二网口。

步骤S210具体包括：

根据探测列表和预设探测频率，通过第一主机的第一网口向对应的第二网口发送多个探测包。

具体地，在单交换机链路聚合模式下，两个网口Mac地址不同，通过目标端(第二主机)的Mac地址来确定第二主机的哪个第二网口来收包。在双交换机链路聚合模式下，两个网口Mac地址相同，两条链路不同，指定网口发包，则对方一定是固定网口收包。具体而言，主机A在发包时指定第一网口A-eth3发包，则第一网口A-eth3对应的主机B的第二网口一定是B-eth3收包；主机B的第二网口B-eth3收到探测包后，通过第二网口B-eth3向第一网口A-eth3回复数据包。

在一个实施例中，在步骤S210之前，步骤S200还包括：

通过获取到的第一主机的第一网口的网口状态确定第一网口是否为可用网口，网口状态包括连接状态和无连接状态。

步骤S210具体包括：

根据预设探测频率通过可用网口与对应的第二网口形成的链路向集群内对应的第二主机发送多个探测包。

具体地，检测第一网口的网口状态link status即检测第一网口的网络连通性。第一主机通过检查连通性命令：realethtool eth4|grep"Link detected"|awk-F:'{print$2}'来获取第一网口的网口状态。如果第一主机调用检测连通性命令后，返回结果为yes，则第一网口的网口状态为连接状态，判定该第一网口为可用网口。如果第一主机调用检测连通性命令后，返回结果为no，则第一网口的网口状态为无连接状态，判定该第一网口为不可用网口。

本实施例提前检测网口的连通性，只调用为可用网口的第一网口向第二主机对应的第二网口发送探测包，对于为不可用网口的第一网口则无需发送探测包，不仅减少了无效探测，且减少了不可用网口或连通性对网口健康分析的干扰。同时，也可以提前对各个第一网口进行初步的网口健康诊断。

在一个实施例中，在步骤S210之前，步骤S200还包括：

通过获取到的第一主机的第一网口的网口状态确定第一网口是否为可用网口，网口状态包括连接状态和无连接状态，

获取可用网口的协商带宽和额定带宽，若协商带宽小于对应的额定带宽，则确定对应的可用网口协商带宽降级。

步骤S210具体包括：

根据预设探测频率通过协商带宽未降级的可用网口与对应的第二网口形成的链路向集群内对应的第二主机发送多个探测包。

具体地，在检测到第一网口的网口状态为连接状态，即该第一网口为可用网口后，还需要检测该第一网口的协商带宽是否正常。获取网口协商带宽命令为以下任意一种：

realethtool eth4|grep Speed|awk-F:'{print$2}'，

realethtool eth4|grep Duplex|awk-F:'{print$2}'。

如果获取到的第一网口的协商带宽小于对应的额定带宽，则判定该第一网口带宽协商异常或协商带宽降级，该第一网口属于故障网口。故障网口也不能用来发送探测包，最后只能同时满足为可用网口写协商带宽没有降级的第一网口才能向对应的第二网口发送探测包。其中，额定带宽为lspci物理网卡带宽。本实施例提前检测第一网口的连通性和协商带宽，进一步排除了连通性和协商带宽对网口健康诊断的干扰。

在一个实施例中，步骤S200还包括：

若第一网口的网口状态为无连接，则确定第一网口及对应网络的健康状态为无连接状态，确定无连接状态对应的第三原因信息。

在一个实施例中，步骤S200还包括：若第一网口协商带宽降级，则确定第一网口及对应网络的健康状态为亚健康状态，确定亚健康状态对应的第四原因信息。

具体地，对于为不可用网口的第一网口，由于不会向第二网口发送探测包，且可以直接判定其网口对应网络的健康状态，因此，直接记录第一网口及对应网络的健康状态为无连接(no link)状态，第三原因具体可以为无连接(no link)。

如果第一网口为可用网口但协商带宽降级，则直接记录第一网口及对应网络的健康状态为亚健康状态，无需向第二网口发送探测包。并记录亚健康状态对应的第四原因信息为速率协商失败(SpeedNegotiation Failed)。

在一个实施例中，步骤S200还包括：

若第一网口及对应网络的健康状态为亚健康状态，则监控第一网口的网口运行数据；

根据网口运行数据确定在预设时间段内网口运行数据中的各个运行指标是否增加，网口运行数据的运行指标包括第一错误包数量和第二错误包数量，第一错误包数量为多种原因产生的错误包的总数量，第二错误包数量为同一个原因产生的错误包的数量；

若在预设时间段内网口运行数据中存在数值增加的运行指标，则将亚健康状态对应的第一原因信息更新为第五原因信息。

具体地，如果第一网口及对应网络的健康状态为亚健康状态，则继续深层次的分析挖掘导致第一网口亚健康状态的原因。

第一错误包数量包括fifo_errors，即包括统计的缓冲区错误包的总数量，第一错误包数量包括rx_fifo_errors(接收队列统计到的错误收包的数量)和tx_fifo_errors(发送队列统计到的错误发包的数量)。这包括由too-long-frames错误、Ring Buffer溢出错误、crc校验错误、帧同步错误、fifo overruns以及missedpkg等等原因产生的错误包。

第二错误包数量为某个原因产生的错误包的数量，例如overruns。Overruns：表示fifo的overruns，即，接收队列溢出产生错误，当抵达的包多于内核可以处理的包时，计算机会产生漫溢(overruns)。更具体地，这个数据包还没有被进入到网卡的接收缓存fifo队列就被丢掉，因为此时网卡的fifo是满的。因为系统繁忙，来不及响应网卡中断，导致网卡里的数据包没有及时的拷贝到系统内存，fifo是满的就导致后面的数据包进不来，即这个数据包被网卡硬件丢掉。这是由于Ring Buffer(aka Driver Queue)传输的IO大于kernel能够处理的IO导致的，而Ring Buffer则是指在发起IRQ请求之前的那块buffer。很明显，overruns的增大意味着数据包没到Ring Buffer就被网卡物理层给丢弃了，而CPU无法及时的处理中断是造成Ring Buffer满的原因之一。

第一主机通过ethtool或/proc/net/dev可以查看丢弃的包统计，在统计项中以errors标识：

realethtool-S eth4|grep tx_fifo|awk-F:'{print$1}'，

realethtool-S eth4|grep rx_fifo|awk-F:'{print$2}'。

第一主机通过以下命令可以获取到overruns值。

for i in`seq 1100`；do ifconfig ethX|grep RX|grep overruns|awk‘{print$3}’|awk-F:‘{print$2}’；sleep 1；done，

for i in`seq 1100`；do ifconfig ethX|grep TX|grep overruns|awk‘{print$3}’|awk-F:‘{print$2}’；sleep 1；done。

预设时间段可以设置为2s、1分钟、2分钟等不局限于此。

如果在预设时间段内至少一个运行指标的数值增加，则将引起该第一网口对应网络的亚健康的原因由第一原因信息更新为第五原因信息，第五原因信息具体可以为网口故障(interface fault)。

在一个实施例中，步骤S200还包括：

若在预设时间段内网口运行数据中不存在数值增加的运行指标，则检测第一网口是否包含对应的光模块；

若第一网口包含对应的光模块，则检测光模块的温度、输入功率和输出功率是否正常；

若光模块的温度、输入功率和输出功率中至少一个异常，则将亚健康状态对应的第五原因信息更新为第六原因信息。

具体地，如果第一网口的运行指标在预设时间段内没有增加，则继续深层次的分析挖掘导致第一网口不健康的原因。

第一主机自动检测第一网口是否包含光模块以及光模块的多个运行参数。

第一主机侧检测光模块信息，两端光模块类型是否匹配，使用以下命令：

realethtool-m ethX|grep"Transceiver type"，此命令用于检查光模块传输类型。

realethtool-m ethX|grep"Length(OM3)"，此命令用于检查传输距离。

realethtool-m ethX|grep"Laserwavelength"，此命令用于检查光模块波长。

如果输出为error，则表示没有光模块，相反，则存在光模块。如果没有光模块，则记录第一网口对应网络的健康状态仍然为亚健康，第五原因信息不变。

如果存在光模块，则通过ethtool-m命令可以获取光模块温度、输入功率和输出功率。判断该光模块的温度、输入功率和输出功率是否正常，如果至少其中一个不正常，则第一网口对应网络的健康状态仍然为亚健康状态，以及将第五原因信息更新为第六原因信息。第六原因信息具体为光模块异常(optical module fault)。

如果存在光模块，且光模块的温度、输入功率和输出功率都正常，则记录第一网口对应网络的健康状态仍然为亚健康状态，以及记录此时亚健康状态对应的第七原因信息，第七原因信息具体可以为链路故障(link fault)。

在一个实施例中，步骤S200还包括：

统计第一主机中对应网络状态为亚健康状态的第一网口的故障网口数量；

在集群的网络聚合模式为单交换机链路聚合模式且网口的绑定模式为第七种模式的情况下，若故障网口数量为第一主机所包含的第一网口的总数量，则更新亚健康状态对应的原因信息为单交换机故障；

在集群的网络聚合模式为双交换机链路聚合模式且网口的绑定模式为第一种模式的情况下，若故障网口数量小于第一主机所包含的第一网口的总数量，则更新亚健康状态对应的原因信息为双交换机模式下单交换机故障，

若故障网口数量为第一主机所包含的第一网口的总数量，则更新亚健康状态对应的原因信息为双交换机模式下双交换机故障。

具体地，第一种模式：mod＝0，即：(balance-rr)Round-robin policy(平衡抡循环策略)。特点：传输数据包顺序是依次传输(即：第1个包走eth0，下一个包就走eth1….一直循环下去，直到最后一个传输完毕)，此模式提供负载平衡和容错能力；但是我们知道如果一个连接或者会话的数据包从不同的接口发出的话，中途再经过不同的链路，在客户端很有可能会出现数据包无序到达的问题，而无序到达的数据包需要重新要求被发送，这样网络的吞吐量就会下降。第七种模式：mod＝6，即：(balance-alb)Adaptive load balancing(适配器适应性负载均衡)。特点：该模式包含了balance-tlb模式，同时加上针对IPV4流量的接收负载均衡(receive load balance,rlb)，而且不需要任何switch(交换机)的支持。接收负载均衡是通过ARP协商实现的。bonding驱动截获本机发送的ARP应答，并把源硬件地址改写为bond中某个slave的唯一硬件地址，从而使得不同的对端使用不同的硬件地址进行通信。

在一个实施例中，网络聚合模式包括双交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态及多个第一网口与集群中第二主机的第二网口之间的链路的链路状态，图6为本申请另一实施例中网络分析数据的获取方法的流程示意图，步骤S200中获取在网络聚合模式下第一主机的多个第一网口对应的网络分析数据，具体包括：

S220：根据探测周期内第一网口的所有链路的第一时延和丢包率确定第一网口的健康状态，其中，健康状态包括正常状态和亚健康状态；

S230：根据对应链路的第一时延和丢包率确定对应链路的链路状态，其中，链路状态包括正常状态和非正常状态。

具体地，步骤S210-S220具体参见上述步骤，此处不再赘述。步骤S230具体包括：若对应链路的第一时延小于第三阈值且链路对应的丢包率小于第四阈值，则确定该链路的链路状态为正常状态；若对应链路的第一时延不小于第三阈值，和/或，链路对应的丢包率不小于第四阈值，则确定该链路的链路状态为非正常状态。

在一个实施例中，该网络处置方法还包括：

获取并输出第一主机的网络日志并发出第一告警信息，其中，网络日志包括第一主机的第一网口及对应网络的健康状态及对应的原因信息。

具体地，确定亚健康状态或无连接状态对应的原因信息参见前面步骤，此处不再赘述。本实施例通过输出日志和告警，提醒网络运维人员介入。通过日志分析和原因输出帮助运维人员快速定位故障问题，然后解决问题，例如更换或重新配置网卡、光模块或者交换机，网络重新上线等。

第一告警信息具体为向集群对应的管理端发送告警提示，以提醒网络运维人员及时处理修复健康状态为亚健康状态的第一网口或亚健康网口对应的亚健康网络。第一告警信息更具体可以为终端设备上的文本提示信息和/或语音提示信息。

在一个实施例中，该网络处置方法还包括：

若第一主机存在健康状态为亚健康状态的目标网口，且，第一主机不满足处置条件，则发出第二告警信息。

具体地，如果第一主机存在亚健康网口，但是却不满足处置条件，则发出第二告警信息。第二告警信息用于向网络运维人员汇报无法处置的原因。例如，无法处置的原因为无可用链路，即隔离掉亚健康网口后，第一主机不能通过未隔离的第一网口与集群中所有第二主机正常通信。通过第二告警信息也可以为运维人员提供更多的网络亚健康的相关信息，以指引运维人员快速恢复网络。

另外，在集群对应的管理端设置有集群管理界面，集群管理界面上设置有隔离按钮，用户通过触发隔离按钮向第一主机发送隔离指令实现手动隔离。

为了解决因网络亚健康可能导致业务性能下降的问题，本申请提出了一种适合于分布式存储聚合网络的网络处置方法。具体而言，通过准确识别所有链路并主动发探测包，获取链路对应的探测数据以分析判断网口的健康状态或断网口的健康状态以及网口每条链路的链路状态。然后根据分析结果，当存在亚健康网口且满足处置条件时对亚健康网口进行处置。处置方法包括自动隔离亚健康网口即隔离亚健康网口对应的亚健康链路，确保网络和业务性能恢复到正常状态，输出日志并告警。隔离的方法有两种：(1)将亚健康网口关闭(ifconfig down)；(2)将亚健康网口从聚合网口(绑定组)bonding中剔除，剔除后bonding只留可用的正常网口，使得第一主机通过正常网口对应的正常链路发包，不再从亚健康链路发包。通过日志和告警，可以对亚健康原因进行输出帮助运维人员快速定位故障问题，提醒网络运维人员介入。运维人员例如更换或重新配置网卡、光模块或者交换机、网络重新上线等不局限于此。

本申请针对分布式存储网络中存在的单链路时延大、丢包率高和协商带宽降级等问题，提出了一种网络处置方法，该网络处置方法应用于分布式存储网络亚健康的处置。针对单交换机和双交换机链路聚合的特殊场景，通过主动探测得当网口连通性、链路的时延和丢包率，并据此分析出各个第一网口及对应网络的健康状态及亚健康产生原因和第一网口每条链路的链路状态；根据第一网口的健康状态和链路状态确定第一主机是否满足处置条件，在满足处置条件时才对亚健康网口进行处置。在保证不中断网络和不影响业务性能前提下，能快速自动实现亚健康链路告警和链路隔离，确保业务性能恢复到正常水平。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图7为本申请一实施例中网络处置装置的结构框图。参考图7，该网络处置装置包括：

第一数据获取模块100，用于获取集群的网络聚合模式信息，网络聚合模式信息用于确定集群的网络聚合模式；

第二数据获取模块200，用于获取在网络聚合模式下第一主机的多个第一网口对应的网络分析数据和处置条件信息；

处置条件确定模块300，用于根据网络分析数据确定第一主机是否符合处置条件信息所指示的处置条件；

隔离模块400，用于若符合处置条件，则将多个第一网口中的目标网口隔离出集群网络，其中，目标网口处于亚健康状态。

在一个实施例中，网络聚合模式包括单交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态，处置条件确定模块300具体用于：若第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，则确定第一主机符合处置条件。

在一个实施例中，网络聚合模式包括双交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态及多个第一网口与集群中第二主机的第二网口之间的链路的链路状态，处置条件确定模块300具体用于：若第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，且，存在至少一个正常网口与连接于同一个交换机的第二网口之间的链路的链路状态均为正常状态，则确定第一主机符合处置条件。

在一个实施例中，网络聚合模式包括单交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态，该装置还包括：

带宽获取模块，用于获取第一主机的多个第一网口的总带宽和多个第一网口中健康状态为正常状态的正常网口的正常网口带宽；

处置条件确定模块300具体用于：若第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，且，多个第一网口的总带宽与正常网口的正常网口带宽之比不超过第一预设比例，则确定第一主机满足处置条件，其中，第一预设比例小于或等于1。

在一个实施例中，网络聚合模式包括双交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态及多个第一网口与集群中第二主机的第二网口之间的链路的链路状态，该装置还包括：

处置条件确定模块300具体用于：若第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，且，存在至少一个正常网口与连接于同一个交换机的第二网口之间的链路的链路状态均为正常状态，且，多个第一网口的总带宽与正常网口的正常网口带宽之比不超过第二预设比例，则确定第一主机满足处置条件，其中，第二预设比例小于或等于1。

在一个实施例中，隔离模块400具体用于：调用网口停用指令，停用目标网口；或者，将目标网口从第一主机对应的绑定组中移除。

在一个实施例中，网络聚合模式包括单交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态，第二数据获取模块200具体包括：

探测模块，用于根据预设探测频率通过第一主机和第二主机之间的至少一条链路向集群内对应的第二主机发送多个探测包，获得探测周期内第一主机的第一网口的每条链路的探测数据，根据探测数据确定探测周期内每条链路对应的丢包率和第一时延；

分析模块，用于根据探测周期内第一网口的所有链路的第一时延和丢包率确定第一网口的健康状态，其中，健康状态包括亚健康状态和正常状态。

在一个实施例中，网络聚合模式包括双交换机链路聚合模式，网络分析数据包括第一主机中多个第一网口的健康状态及多个第一网口与集群中第二主机的第二网口之间的链路的链路状态，第二数据获取模块200具体包括：

第一分析模块，用于根据探测周期内第一网口的所有链路的第一时延和丢包率确定第一网口的健康状态，其中，健康状态包括亚健康状态和正常状态；

第二分析模块，用于根据对应链路的第一时延和丢包率确定对应链路的链路状态，其中，链路状态包括正常状态和非正常状态。

在一个实施例中，该装置还包括：

第一输出模块，用于获取并输出第一主机的网络日志并发出第一告警信息，其中，网络日志包括第一主机的第一网口及对应网络的健康状态及为非正常状态时对应的原因信息。

在一个实施例中，该装置还包括：

第二输出模块，用于若第一主机存在健康状态为亚健康状态的目标网口，且，第一主机不满足处置条件，则发出第二告警信息。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于网络处置装置的具体限定可以参见上文中对于网络处置方法的限定，在此不再赘述。上述网络处置装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图8为本申请一实施例中计算机设备的内部结构框图。该计算机设备具体可以是图1中的任意一个主机。如图8所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，该计算机设备的处理器用于提供计算和控制能力。存储器包括存储介质和内存储器。存储介质可以是非易失性存储介质，也可以是易失性存储介质。存储介质存储有操作系统，还可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器实现网络处置方法。该内存储器为存储介质中的操作系统和计算机可读指令的运行提供环境。该内存储器中也可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行网络处置方法。该计算机设备的网络接口用于与外部服务器通过网络连接通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令(例如计算机程序)，处理器执行计算机可读指令时实现上述实施例中网络处置方法的步骤，例如图2所示的步骤S100至步骤S400及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机可读指令时实现上述实施例中网络处置装置的各模块/单元的功能，例如图7所示模块100至模块400的功能。为避免重复，这里不再赘述。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机可读指令和/或模块，处理器通过运行或执行存储在存储器内的计算机可读指令和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

存储器可以集成在处理器中，也可以与处理器分开设置。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述实施例中网络处置方法的步骤，例如图2所示的步骤S100至步骤S400及该方法的其它扩展和相关步骤的延伸。或者，计算机可读指令被处理器执行时实现上述实施例中网络处置装置的各模块/单元的功能，例如图7所示模块100至模块400的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指示相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种网络处置方法，应用于为本地主机的第一主机，其特征在于，所述方法包括：

获取集群的网络聚合模式信息，所述网络聚合模式信息用于确定所述集群的网络聚合模式；

获取在所述网络聚合模式下所述第一主机的多个第一网口对应的网络分析数据和处置条件信息；

根据所述网络分析数据确定所述第一主机是否符合所述处置条件信息所指示的处置条件；

若符合所述处置条件，则将所述多个第一网口中的目标网口隔离出集群网络，其中，所述目标网口处于亚健康状态。

2.根据权利要求1所述的方法，其特征在于，所述网络聚合模式包括单交换机链路聚合模式，所述网络分析数据包括所述第一主机中多个第一网口的健康状态，所述根据所述网络分析数据确定所述第一主机是否符合所述处置条件信息所指示的处置条件，包括：

若所述第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，则确定所述第一主机符合所述处置条件。

3.根据权利要求1所述的方法，其特征在于，所述网络聚合模式包括双交换机链路聚合模式，所述网络分析数据包括所述第一主机中多个第一网口的健康状态及所述多个第一网口与集群中第二主机的第二网口之间的链路的链路状态，所述根据所述网络分析数据确定所述第一主机是否符合所述处置条件信息所指示的处置条件，包括：

若所述第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，且，存在至少一个正常网口与连接于同一个交换机的第二网口之间的链路的链路状态均为正常状态，则确定所述第一主机符合所述处置条件。

4.根据权利要求1所述的方法，其特征在于，所述网络聚合模式包括单交换机链路聚合模式，所述网络分析数据包括所述第一主机中多个第一网口的健康状态，所述方法还包括：获取所述第一主机的多个第一网口的总带宽和多个第一网口中健康状态为正常状态的正常网口的正常网口带宽；

所述根据所述网络分析数据确定所述第一主机是否符合所述处置条件信息所指示的处置条件，包括：

若所述第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，且，所述多个第一网口的总带宽与所述正常网口的正常网口带宽之比不超过第一预设比例，则确定所述第一主机满足处置条件，其中，所述第一预设比例小于或等于1。

5.根据权利要求1所述的方法，其特征在于，所述网络聚合模式包括双交换机链路聚合模式，所述网络分析数据包括所述第一主机中多个第一网口的健康状态及所述多个第一网口与集群中第二主机的第二网口之间的链路的链路状态，所述方法还包括：获取所述第一主机的多个第一网口的总带宽和多个第一网口中健康状态为正常状态的正常网口的正常网口带宽；

若所述第一主机的多个第一网口包括健康状态为亚健康状态的目标网口和至少一个健康状态为正常状态的正常网口，且，存在至少一个正常网口与连接于同一个交换机的第二网口之间的链路的链路状态均为正常状态，且，所述多个第一网口的总带宽与所述正常网口的正常网口带宽之比不超过第二预设比例，则确定所述第一主机满足处置条件，其中，所述第二预设比例小于或等于1。

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述将所述多个第一网口中的目标网口隔离出集群网络，包括：

调用网口停用指令，停用所述目标网口；

或者，

将所述目标网口从所述第一主机对应的绑定组中移除。

7.根据权利要求1所述的方法，其特征在于，所述网络聚合模式包括单交换机链路聚合模式，所述网络分析数据包括所述第一主机中多个第一网口的健康状态，所述获取在所述网络聚合模式下所述第一主机的多个第一网口对应的网络分析数据，包括：

根据预设探测频率通过所述第一主机和第二主机之间的至少一条链路向集群内对应的所述第二主机发送多个探测包，获得探测周期内所述第一主机的第一网口的每条链路的探测数据，根据所述探测数据确定所述探测周期内每条所述链路对应的丢包率和第一时延；

根据所述探测周期内所述第一网口的所有链路的第一时延和丢包率确定所述第一网口的健康状态，其中，所述健康状态包括亚健康状态和正常状态。

8.根据权利要求1所述的方法，其特征在于，所述网络聚合模式包括双交换机链路聚合模式，所述网络分析数据包括所述第一主机中多个第一网口的健康状态及所述多个第一网口与集群中第二主机的第二网口之间的链路的链路状态，所述获取在所述网络聚合模式下所述第一主机的多个第一网口对应的网络分析数据，包括：

根据所述探测周期内所述第一网口的所有链路的第一时延和丢包率确定所述第一网口的健康状态，其中，所述健康状态包括亚健康状态和正常状态；

根据对应链路的第一时延和丢包率确定对应链路的链路状态，其中，所述链路状态包括正常状态和非正常状态。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取并输出所述第一主机的网络日志并发出第一告警信息，其中，所述网络日志包括所述第一主机的第一网口及对应网络的健康状态及为非正常状态时对应的原因信息。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述第一主机存在健康状态为亚健康状态的目标网口，且，所述第一主机不满足所述处置条件，则发出第二告警信息。

11.一种网络处置装置，应用于为本地主机的第一主机，其特征在于，所述装置包括：

第一数据获取模块，用于获取集群的网络聚合模式信息，所述网络聚合模式信息用于确定所述集群的网络聚合模式；

第二数据获取模块，用于获取在所述网络聚合模式下所述第一主机的多个第一网口对应的网络分析数据和处置条件信息；

处置条件确定模块，用于根据所述网络分析数据确定所述第一主机是否符合所述处置条件信息所指示的处置条件；

隔离模块，用于若符合所述处置条件，则将所述多个第一网口中的目标网口隔离出集群网络，其中，所述目标网口处于亚健康状态。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时执行如权利要求1-10任一项所述的网络处置方法的步骤。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时，使得所述处理器执行如权利要求1-10任一项所述的网络处置方法的步骤。