CN114095401B

CN114095401B - 超融合系统的网络状态监控方法、装置、设备及存储介质

Info

Publication number: CN114095401B
Application number: CN202111376373.5A
Authority: CN
Inventors: 杜英杰
Original assignee: SmartX Inc
Current assignee: Beijing Zhiling Haina Technology Co ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-10-21
Anticipated expiration: 2041-11-19
Also published as: CN114095401A

Abstract

本发明公开了一种超融合系统的网络状态监控方法、装置、设备及存储介质，针对现有的超融合集群网络状态监控方法依赖于监控系统和集群整体通信网络的正常运行，导致网络状态监测组件与监控系统耦合度较高，当集群通信网络异常时，监控系统将无法感知到网络异常，造成网络异常信息丢失的问题，通过一个独立的、与告警系统解耦的服务(后台守护进程)非侵入地定时对集群网络状态进行采集、处理、缓存并对外提供查询接口，即使若干个节点的网络状态出现异常，仍可以将网络异常数据记录在本地，并且可通过其他节点与此节点的网络链接异常触发相应告警，使得网络异常情况及时被开发与维护人员注意到。

Description

超融合系统的网络状态监控方法、装置、设备及存储介质

技术领域

本发明属于网络监控的技术领域，尤其涉及一种超融合系统的网络状态监控方法、装置、设备及存储介质。

背景技术

超融合集群往往由较多数量的节点组成，各个节点可能物理上处于不同的机柜，甚至不同地点的IDC(Internet Data Center)，节点与节点、节点所在机柜之间、机柜所在IDC之间往往通过高速互联网链接，集群的正常运行依赖于整体网络的状态健康。节点间网络的连接状态通过采集到的各种数据来衡量，并且正确的数据采集、聚合方法对于准确地衡量连接状态具有至关重要的作用。

目前超融合集群网络状态监控措施有两种方法，一是利用已有监控工具例如prometheus，直接采集集群各节点的网络状态，这种方法依赖于监控系统的正常运行和集群整体网络状态正常。另一种方法为集群内所有节点周期互相通过ping来获取各节点的各个网口之间的网络状态，然后通过取平均值等计算方法取得最终需要呈现的网络状态。

上述超融合集群网络状态监控方法存在以下缺点：

1.依赖于监控系统和集群整体通信网络的正常运行，导致网络状态监测组件与监控系统耦合度较高，当集群通信网络异常时，将无法感知到网络异常，造成网络异常信息丢失。

2.当前网络延迟大多取一段时间内间隔获取到的延迟数值的平均值，这在现实中可能因为采集间隔不合理或者计算方式不够严谨而遗漏真正的网络异常或者过于敏感而误触发网络延迟较高的警报。

发明内容

本发明的目的是提供一种超融合系统的网络状态监控方法、装置、设备及存储介质，通过一个独立的、与告警系统解耦的服务非侵入地监测集群各个节点自身网口与节点间的网络状态，即使若干个节点的网络状态出现异常，仍可以将网络异常数据记录在本地，并且可通过其他节点与此节点的网络链接异常触发相应告警，使得网络异常情况及时被开发与维护人员注意到。

为解决上述问题，本发明的技术方案为：

一种超融合系统的网络状态监控方法，包括：

以独立的后台守护进程定时采集超融合集群的网络状态数据，所述网络状态数据包括集群内各节点之间网口收发包数量、各节点之间的连通性和网络延迟；

将网络状态数据按预设时间段，以网口粒度聚合网口间的丢包率，生成网口间的延迟分布位图；

将网络状态数据中的异常队列、延迟分布位图及延迟队列缓存于后台守护进程的内存空间；

配置查询异常数据、延迟分布位图、网口丢包率的对外接口。

根据本发明一实施例，所述以独立的后台守护进程定时采集超融合集群的网络状态数据进一步包括：

获取超融合集群的网络拓扑信息；

基于所述网络拓扑信息，获取各网口的硬件状态信息；

通过网络工具获取集群内各节点之间的网络状态数据。

根据本发明一实施例，缓存于后台守护进程的内存空间的网络状态数据进一步包括：

通过ping获取并进行聚合的网络状态数据，以及通过解析目录/proc并聚合得到的网络状态数据。

根据本发明一实施例，所述通过ping获取并进行聚合的网络状态数据进一步包括：

将ping所用的延迟超过预设时间或者丢包的数据点，记为异常点；

将延迟数据按数值所处的区间记录在延迟分布位图内；

将ping获取的数据记录在延迟队列中。

根据本发明一实施例，预设时间段内的网口/网卡丢包率的计算公式为：

Loss Rate＝(RXDropped2-RXDropped1)+(RXOverrun2-RXOverrun1)+(TXDropped2-TXDropped1)+(TXOverrun2-TXOverrun1)(RX2-RX1)+(TX2-TX1)

其中，

RXDropped2-RXDropped1：预设时间段内包已存在Ring Buffer但是由于内存不够导致DMA拷贝至内存失败的包数；

RXOverrun2-RXOverrun1：预设时间段内内核处理包速度慢于网卡的Ring buffer中传输包的速度的包数；

TXDropped2-TXDropped1：预设时间段内内核从内存向网卡的Ring Buffer中复制数据失败的包数；

TXOverrun2-TXOverrun1：预设时间段内由于发包时队列满了，但IP层仍继续将包添加到队列中导致丢失的包数；

RX2-RX1：预设时间段内网卡接收的包数；

TX2-TX1：预设时间段内网卡传输的包数。

根据本发明一实施例，预设时间段内的网口/网卡丢包率超过预设阈值时，触发报警。

一种超融合系统的网络状态监控装置，包括：

数据采集模块，用于以独立的后台守护进程定时采集超融合集群的网络状态数据，所述网络状态数据包括集群内各节点之间网口收发包数量、各节点之间的连通性和网络延迟；

数据处理模块，用于将网络状态数据按预设时间段，以网口粒度聚合网口间的丢包率，生成网口间的延迟分布位图；

数据缓存模块，用于将网络状态数据中的异常队列、延迟分布位图及延迟队列缓存于后台守护进程的内存空间；

接口模块，用于配置查询异常数据、延迟分布位图、网口丢包率的对外接口。

一种超融合系统的网络状态监控设备，包括：

存储器和处理器，所述存储器中存储有指令，所述存储器和所述处理器通过线路互连；

所述处理器调用所述存储器中的所述指令，实现本发明一实施例中的超融合系统的网络状态监控方法。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明一实施例中的超融合系统的网络状态监控方法。

本发明由于采用以上技术方案，使其与现有技术相比具有以下的优点和积极效果：

1)本发明一实施例中的超融合系统的网络状态监控方法，针对现有的超融合集群网络状态监控方法依赖于监控系统和集群整体通信网络的正常运行，导致网络状态监测组件与监控系统耦合度较高，当集群通信网络异常时，监控系统将无法感知到网络异常，造成网络异常信息丢失的问题，通过一个独立的、与告警系统解耦的服务(后台守护进程)非侵入地监测集群各个节点自身网口与节点间的网络状态，即使若干个节点的网络状态出现异常，仍可以将网络异常数据记录在本地，并且可通过其他节点与此节点的网络链接异常触发相应告警，使得网络异常情况及时被开发与维护人员注意到。

2)本发明一实施例中的超融合系统的网络状态监控方法，同时考虑到了丢包率与网络延迟，并且在计算网络延迟时并不是简单地采用一段时间内的数据的均值，而是构建了延迟数据的分布图，能更准确地反应实际的网络延迟。

附图说明

图1为本发明一实施例中的超融合系统的网络状态监控方法流图；

图2为本发明一实施例中的后台守护进程监控网络状态的流程图；

图3为本发明一实施例中的异常数据返回结果；

图4为本发明一实施例中的延迟分布位图返回结果；

图5为本发明一实施例中的当前时刻当前节点ping其他节点的延迟返回结果；

图6为本发明一实施例中的网卡丢包率的返回结果；

图7为本发明一实施例中的超融合系统的网络状态监控装置框图；

图8为本发明一实施例中的超融合系统的网络状态监控设备的示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的一种超融合系统的网络状态监控方法、装置、设备及存储介质作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。

实施例一

由于现有的超融合集群网络状态监控方法依赖于监控系统和集群整体通信网络的正常运行，导致网络状态监测组件与监控系统耦合度较高，当集群通信网络异常时，监控系统将无法感知到网络异常，造成网络异常信息丢失；以及当前网络延迟大多取一段时间内间隔获取到的延迟数值的平均值，这在现实中可能因为采集间隔不合理或者计算方式不够严谨而遗漏真正的网络异常或者过于敏感而误触发网络延迟较高的警报等问题，本实施例提供了一种超融合系统的网络状态监控方法，以独立的后台守护进程非侵入式地获取集群网络状态，因此即使若干个节点的网络状态出现异常，仍可以将网络异常数据记录在本地，并且可通过其他节点与此节点的网络链接异常触发相应告警，使得网络异常情况及时被开发与维护人员注意到；并且，对网络状态数据进行处理时，同时考虑到了丢包率与网络延迟，并且在计算网络延迟并不是简单地采用一段时间内的数据的均值，而是构建了延迟数据的分布位图，能更准确地反应实际的网络延迟。

请参看图1，该超融合系统的网络状态监控方法，包括以下步骤：

S1：以独立的后台守护进程定时采集超融合集群的网络状态数据，该网络状态数据包括集群内各节点之间网口收发包数量、各节点之间的连通性和网络延迟；

S2：将网络状态数据按预设时间段，以网口粒度聚合网口间的丢包率，生成网口间的延迟分布位图；

S3：将网络状态数据中的异常队列、延迟分布位图及延迟队列缓存于后台守护进程的内存空间；

S4：配置查询异常数据、延迟分布位图、网口丢包率的对外接口。

在步骤S1中，请参看图2，以独立的后台守护进程定时采集超融合集群的网络状态数据进一步包括：

获取超融合集群的网络拓扑信息；

基于所述网络拓扑信息，获取各网口的硬件状态信息；

通过网络工具获取集群内各节点之间的网络状态数据。

该后台守护进程可以运行在集群内的每台运行Linux操作系统的主机，超融合集群的网络状态包括各个节点之间管理、存储网络的丢包率、连通性和延迟，其采集方法包括两种，一种是从/proc/net/dev获取，另一种是周期获取最新的网络拓扑信息，然后周期通过网络工具来获取集群各个节点之间的网络状态。网络拓扑信息包括各主机、各网口的IP地址与链接关系。采集的网络状态数据包括网口收发包数量、网口丢包率、一段时间范围内的节点之间的网络延迟、节点之间的网络连通性。

在步骤S2中，将网络状态数据按预设时间段，以网口粒度聚合网口间的丢包率，生成网口间的延迟分布位图。

网口/网卡获取的数据为本主机接收包的情况，例如内核的网络模块，网卡驱动等，用于反应主机本身的网口健康状态。

网卡/网口上这里有几个字段需要明确一下各自的意义：

RX：从该网卡接收的包总数。

RX Dropped：包已存在Ring Buffer但是由于内存不够等原因导致DMA拷贝至内存失败。

RX Overruns：内核处理包速度慢于网卡的Ring buffer中传输包的速度。

TX：从该网卡传输的包的总数。

TX Dropped：类似因为内核从内存向网卡的Ring Buffer中复制数据失败。

TX Overruns:发包时队列满了，但IP层仍继续将包添加到队列中，这时包会丢失。

TX Frame:常由于数据包帧数无法和8对齐，导致发送失败。

TX Errors：同样也是关于帧数的长度，太长或者太短导致。

网卡丢包率的计算公式如下：

即区间内总丢包数量/(总发包数+收包数)。

其中，

RX2-RX1：预设时间段内网卡接收的包数；

TX2-TX1：预设时间段内网卡传输的包数。

网卡数据每分钟被采集一次，同样存储在内存中的一个队列中，此队列保存最近5分钟的数据，即最近五组数据，当外部通过接口获取网口丢包率相关数据时，监控程序计算队列中最新和最旧数据的差值，prometheus metric聚合的时间区间为5分钟，当最近五分钟某个网口的丢包率大于5％时会触发报警。

在生成网口间的延迟分布位图时，可对ping获取的网络状态数据做以下聚合处理：

如果某个ping的延迟超过了100ms或者丢包，将此数据点记录为一个异常点，并将一分钟以内的数据点记录为一个点。

将延迟数据按照数值处在的区间记录在延迟分布位图内；

延迟分布位图的粒度如下表1所示：

表1

0.05

0.1

0.2

1

2

3

4

5

10

50

+∞

Unit:ms

其中每个格子代表一个延迟范围，例如在30个点中，有10个数据点的延迟在0.05ms之内，10个在0.05-0.1ms之内，10个在0.2-1ms之间，那么分布位图如下表2所示，其中每个数字代表对应区间内的数据点数量：

表2

10

20

30

在步骤S3中，将网络状态数据中的异常队列、延迟分布位图及延迟队列缓存于后台守护进程的内存空间。

缓存是指在后台守护进程内存空间维护3个常驻的数据结构：异常队列、延迟分布图、延迟队列，来存储需要一段时间内获取到的数据。其中，异常队列为用于记录12小时内异常的数据点；延迟分布图用于统计所有收集到的数据点的分布情况，用于提供给prometheus计算分布位图；延迟队列记录最近30个数据点的延迟。

缓存数据分为两类，一类是通过ping获取、聚合的数据，另一类是解析目录/proc，并聚合得到的数据，ping获取到的数据为每隔15秒，节点对集群内所有其他节点进行30次ping，一次ping为一个包的收发。

其中，通过ping获取的数据可做以下处理：

将延迟数据按数值所处的区间记录在延迟分布位图内；

将ping获取的数据记录在延迟队列中。

在步骤S4中，配置查询异常数据、延迟分布位图、网口丢包率的对外接口。本实施例中的后台守护进程对外提供4个接口，分别用于查询网络状态中的异常数据点、延迟分布位图、当前时刻当前节点ping其他节点的延迟或是否丢包、网卡丢包率。

在实际应用中，异常数据点可通过以下方式获取：

API GET:/api/v2/network_monitor/get_abnormal_points？range＝3(last xhours default＝1h)&target_ip＝x,xl(default:all)

其返回结果请参看图3。

网络延迟数据延迟分布位图可通过以下方式获取：

API GET:/api/v2/network_monitor/get_ping_stat

其返回结果请参看图4。

当前时刻该节点ping其他节点的延迟或者是否丢包可通过以下方式获取：

API GET:/api/v2/network_monitor/get_current_latencies？target_ips＝x/all(default)

其返回结果请参看图5。

网卡丢包率可通过以下方式获取：

API GET:/api/v2/network_monitor/get_iface_loss_rate

其返回结果请参看图6。

综上，本实施例提供的超融合系统的网络状态监控方法，通过一个独立的、与告警系统解耦的服务非侵入地监测集群各个节点自身网口与节点间的网络状态，当集群内单个节点或若干个节点的网络状态出现异常时，仍可以将网络异常数据记录在本地，并且可通过其他节点与此节点的网络链接异常触发相应告警，使得网络异常情况及时被开发与维护人员注意到。这里的非侵入是指相比Netbouncer这类使用了IP-in-IP隧道技术，通过修改传输数据报文来找出集群中故障的网络设备的方法。本方法不会改变集群内网络传输的数据，通过独立的网络状态监测进程来监测集群内各节点之间的网络状态。另外，对网络状态数据的处理同时考虑到了丢包率与网络延迟，并且在计算网络延迟并不是简单地采用一段时间内的数据的均值，而是构建了延迟数据的分布图，用于更准确地反应实际的网络延迟。

实施例二

本实施例提供了一种超融合系统的网络状态监控装置，请参看图7，该网络状态监控装置包括：

数据采集模块1，用于以独立的后台守护进程定时采集超融合集群的网络状态数据，所述网络状态数据包括集群内各节点之间网口收发包数量、各节点之间的连通性和网络延迟；

数据处理模块2，用于将网络状态数据按预设时间段，以网口粒度聚合网口间的丢包率，生成网口间的延迟分布位图；

数据缓存模块3，用于将网络状态数据中的异常队列、延迟分布位图及延迟队列缓存于后台守护进程的内存空间；

接口模块4，用于配置查询异常数据、延迟分布位图、网口丢包率的对外接口。

该超融合系统的网络状态监控装置是与实施例一中的超融合系统的网络状态监控方法相应的产品，上述数据采集模块1、数据处理模块2、数据缓存模块3及接口模块4的功能及实现方式均如上述实施例一所述，在此不再赘述。

实施例三

本实施例提供了一种超融合系统的网络状态监控设备。请参看图8，该超融合系统的网络状态监控设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对超融合系统的网络状态监控设备500中的一系列指令操作。

进一步地，处理器510可以设置为与存储介质530通信，在超融合系统的网络状态监控设备500上执行存储介质530中的一系列指令操作。

超融合系统的网络状态监控设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve、Vista等等。

本领域技术人员可以理解，图8示出的超融合系统的网络状态监控设备结构并不构成对超融合系统的网络状态监控设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质。该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行实施例一中的超融合系统的网络状态监控方法的步骤。

实施例二中的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件的形式体现出来，该计算机软件存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-only memory，ROM)、随机存取存储器(Random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置及设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式。即使对本发明作出各种变化，倘若这些变化属于本发明权利要求及其等同技术的范围之内，则仍落入在本发明的保护范围之中。

Claims

1.一种超融合系统的网络状态监控方法，其特征在于，包括：

以独立的后台守护进程定时采集超融合集群的网络状态数据，所述网络状态数据包括集群内各节点之间网口收发包数量、各节点之间的连通性和网络延迟；所述后台守护进程运行在集群内的每台运行Linux操作系统的主机上；

配置查询异常队列中的异常数据、延迟分布位图及网口丢包率的对外接口；所述异常数据是指网络状态中的异常数据点的数据。

2.如权利要求1所述的超融合系统的网络状态监控方法，其特征在于，所述以独立的后台守护进程定时采集超融合集群的网络状态数据进一步包括：

获取超融合集群的网络拓扑信息；

基于所述网络拓扑信息，获取各网口的硬件状态信息；

通过ping获取集群内各节点之间的网络状态数据。

3.如权利要求1所述的超融合系统的网络状态监控方法，其特征在于，缓存于后台守护进程的内存空间的网络状态数据进一步包括：

4.如权利要求3所述的超融合系统的网络状态监控方法，其特征在于，所述通过ping获取并进行聚合的网络状态数据进一步包括：

将延迟数据按数值所处的区间记录在延迟分布位图内；

将数据点的延迟数据记录在延迟队列中。

5.如权利要求1所述的超融合系统的网络状态监控方法，其特征在于，预设时间段内的网口/网卡丢包率的计算公式为：

Loss Rate＝((RXDropped2-RXDropped1)+(RXOverrun2-RXOverrun1)+(TXDropped2-TXDropped1)+(TXOverrun2-TXOverrun1))/((RX2-RX1)+(TX2-TX1))

其中，

RX2-RX1：预设时间段内网卡接收的包数；

TX2-TX1：预设时间段内网卡传输的包数。

6.如权利要求5所述的超融合系统的网络状态监控方法，其特征在于，预设时间段内的网口/网卡丢包率超过预设阈值时，触发报警。

7.一种超融合系统的网络状态监控装置，其特征在于，包括：

数据采集模块，用于以独立的后台守护进程定时采集超融合集群的网络状态数据，所述网络状态数据包括集群内各节点之间网口收发包数量、各节点之间的连通性和网络延迟；所述后台守护进程运行在集群内的每台运行Linux操作系统的主机上；

接口模块，用于配置查询异常队列中的异常数据、延迟分布位图及网口丢包率的对外接口；所述异常数据是指网络状态中的异常数据点的数据。

8.一种超融合系统的网络状态监控设备，其特征在于，包括：

所述处理器调用所述存储器中的所述指令，实现如权利要求1-6中任意一项所述的超融合系统的网络状态监控方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任意一项所述的超融合系统的网络状态监控方法。