CN115002001A

CN115002001A - 一种检测集群网络亚健康的方法、装置、设备及介质

Info

Publication number: CN115002001A
Application number: CN202210180129.XA
Authority: CN
Inventors: 余治
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-09-02
Anticipated expiration: 2042-02-25
Also published as: CN115002001B

Abstract

本发明提供了一种检测集群网络亚健康的方法、装置、设备及可读介质，该方法包括：获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号；检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通；响应于节点与其他节点的连通率小于预设值，确定节点的网络状态为异常状态并发出告警信息；将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口，继续检测其他节点的网络状态。通过使用本发明的方案，能够减少网络消耗，高效探测集群中有网络故障的节点，能够及时通知管理员查看对应的部件，有效防止因网络故障导致业务或者系统不可用的情况发生。

Description

一种检测集群网络亚健康的方法、装置、设备及介质

技术领域

本发明涉及计算机领域，并且更具体地涉及一种检测集群网络亚健康的方法、装置、设备及可读介质。

背景技术

当前大数据、云计算已经广泛深入到企业应用，分布式存储系统也逐渐的被应用到各个领域，在分布式存储系统中，众多节点间的通信依靠稳定可靠的网络环境，当网络出现问题时，集群需要能够及时的感知到，并自我修复，自动上报相关告警，才能有效保障业务的稳定。传统的检测方法会增加大量的网络消耗，导致集群的链路性能降低。

发明内容

有鉴于此，本发明实施例的目的在于提出一种检测集群网络亚健康的方法、装置、设备及可读介质，通过使用本发明的技术方案，能够减少网络消耗，高效探测集群中有网络故障的节点，能够及时通知管理员查看对应的部件，有效防止因网络故障导致业务或者系统不可用的情况发生。

基于上述目的，本发明的实施例的一个方面提供了一种检测集群网络亚健康的方法，包括以下步骤：

获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号；

检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通；

响应于节点与其他节点的连通率小于预设值，确定节点的网络状态为异常状态并发出告警信息；

将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口，继续检测其他节点的网络状态。

根据本发明的一个实施例，检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通包括：

使用公式：A+1+K/M*(N-1)计算其他节点的编号，其中A为当前节点的编号，K为所有节点的数量，M为其他节点的总个数，M小于K，K/M 取整数，N的取值为1至M，当公式计算的数值大于K时，从第一个节点开始取值；

分别检测节点到计算得到的编号对应的节点的时延和丢包率；

响应于时延大于10毫秒和/或丢包率大于5％，确定节点到编号对应的节点不连通。

根据本发明的一个实施例，响应于节点与其他节点的连通率小于预设值，确定节点的网络状态为异常状态并发出告警信息包括：

使用公式：连通节点的个数/其他节点总个数计算节点与其他节点的连通率；

响应于节点与其他节点的连通率小于90％，确定节点的网络状态为异常状态并发出告警信息。

根据本发明的一个实施例，检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通较包括：

在所有节点中随机选择节点总数的30％的节点作为其他节点；

分别检测节点到其他节点的时延和丢包率；

响应于时延大于10毫秒和/或丢包率大于5％，确定节点到对应的节点不连通。

本发明的实施例的另一个方面，还提供了一种检测集群网络亚健康的装置，装置包括：

获取模块，获取模块配置为获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号；

比较模块，比较模块配置为检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通；

警告模块，警告模块配置为响应于节点与其他节点的连通率小于预设值，确定节点的网络状态为异常状态并发出告警信息；

切换模块，切换模块配置为将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口，继续检测其他节点的网络状态。

根据本发明的一个实施例，比较模块还配置为：

使用公式：A +1+K/M*(N-1)计算其他节点的编号，其中A为当前节点的编号，K为所有节点的数量，M为其他节点的总个数，M小于K，K/M 取整数，N的取值为1至M，当公式计算的数值大于K时，从第一个节点开始取值；

根据本发明的一个实施例，警告模块还配置为：

根据本发明的一个实施例，比较模块还配置为：

分别检测节点到其他节点的时延和丢包率；

本发明的实施例的另一个方面，还提供了一种计算机设备，该计算机设备包括：

至少一个处理器；以及

存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行时实现上述任意一项方法的步骤。

本发明的实施例的另一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意一项方法的步骤。

本发明具有以下有益技术效果：本发明实施例提供的检测集群网络亚健康的方法，通过获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号；检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通；响应于节点与其他节点的连通率小于预设值，确定节点的网络状态为异常状态并发出告警信息；将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口，继续检测其他节点的网络状态的技术方案，能够减少网络消耗，高效探测集群中有网络故障的节点，能够及时通知管理员查看对应的部件，有效防止因网络故障导致业务或者系统不可用的情况发生。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为根据本发明一个实施例的检测集群网络亚健康的方法的示意性流程图；

图2为根据本发明一个实施例的检测集群网络亚健康的装置的示意图；

图3为根据本发明一个实施例的计算机设备的示意图；

图4为根据本发明一个实施例的计算机可读存储介质的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

基于上述目的，本发明的实施例的第一个方面，提出了一种检测集群网络亚健康的方法的一个实施例。图1示出的是该方法的示意性流程图。

如图1中所示，该方法可以包括以下步骤：

S1获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号。

获取集群中所有节点的信息，根据每个节点相同网段的IP从小到大将节点进行排序，并为每个节点进行编号，例如集群中有100个节点，节点1、节点2，……，节点100。

S2检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通。

可以使用公式：A+1+K/M*(N-1)计算其他节点的编号，其中A为当前节点的编号，K为所有节点的数量，M为其他节点的总个数，M小于K， K/M取整数，N的取值为1至M，当公式计算的数值大于K时，从第一个节点开始取值，例如，A为节点1，则A＝1，K＝100，M的值可以自行设定，也就是检测每个节点到其他M个节点的连通性，例如M取值20，则N的取值为1至20，然后开始计算其他节点的编号，例如N＝1时，计算值为2，则检测节点1到节点2的连通性，当N＝2时，计算值为7，则检测节点1 到节点7的连通性，以此类推。如果计算在检测其他节点时，计算值超过了100，例如计算值为105，则从101开始从节点1开始计数，105则为节点5。连通性的检测为检测节点到计算得到的编号对应的节点的时延和丢包率，当时延大于10毫秒和/或丢包率大于5％，确定节点到编号对应的节点不连通。

S3响应于节点与其他节点的连通率小于预设值，确定节点的网络状态为异常状态并发出告警信息。

使用公式：连通节点的个数/其他节点总个数计算节点与其他节点的连通率，如果节点与其他节点的连通率小于90％，确定节点的网络状态为异常状态并发出告警信息，例如，节点1与15个节点连通，则连通率为 15/20＝75％，小于90％，则确定节点1的网络状态为异常。

S4将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口，继续检测其他节点的网络状态。

通过本发明的技术方案，能够减少网络消耗，高效探测集群中有网络故障的节点，能够及时通知管理员查看对应的部件，有效防止因网络故障导致业务或者系统不可用的情况发生。

在本发明的一个优选实施例中，检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通包括：

响应于时延大于10毫秒和/或丢包率大于5％，确定节点到编号对应的节点不连通。其中M的值以及时延的阈值和丢标率的阈值可以根据需要进行设定。

在本发明的一个优选实施例中，响应于节点与其他节点的连通率小于预设值，确定节点的网络状态为异常状态并发出告警信息包括：

在本发明的一个优选实施例中，检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通较包括：

分别检测节点到其他节点的时延和丢包率；

本发明的技术方案根据预先设置的阈值，如果相关的性能指标不在阈值范围之内，则判断网口出现了故障，自动切换到备用网口，并上报相关的告警。使用此种方法检测网口健康状况，可以减少网络消耗，高效探测集群中有网络故障的节点，及时通知管理员及时查看对应的部件，查明原因，有效防止因网络故障导致业务或者系统不可用的情况发生。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器 (Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory， RAM)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。

基于上述目的，本发明的实施例的第二个方面，提出了一种检测集群网络亚健康的装置，如图2所示，装置200包括：

获取模块，获取模块配置为获取集群中所有节点的信息并根据节点的 IP将节点进行排序并编号；

在本发明的一个优选实施例中，比较模块还配置为：

在本发明的一个优选实施例中，警告模块还配置为：

在本发明的一个优选实施例中，比较模块还配置为：

分别检测节点到其他节点的时延和丢包率；

基于上述目的，本发明实施例的第三个方面，提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示，本发明实施例包括如下装置：至少一个处理器21；以及存储器22，存储器 22存储有可在处理器上运行的计算机指令23，指令由处理器执行时实现以下方法：

分别检测节点到其他节点的时延和丢包率；

基于上述目的，本发明实施例的第四个方面，提出了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示，计算机可读存储介质31存储有被处理器执行时执行如下方法的计算机程序32：

分别检测节点到其他节点的时延和丢包率；

此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种检测集群网络亚健康的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通包括：

使用公式：A+1+K/M*(N-1)计算其他节点的编号，其中A为当前节点的编号，K为所有节点的数量，M为其他节点的总个数，M小于K，K/M取整数，N的取值为1至M，当公式计算的数值大于K时，从第一个节点开始取值；

3.根据权利要求1所述的方法，其特征在于，响应于节点与其他节点的连通率小于预设值，确定节点的网络状态为异常状态并发出告警信息包括：

4.根据权利要求1所述的方法，其特征在于，检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通较包括：

分别检测节点到其他节点的时延和丢包率；

5.一种检测集群网络亚健康的装置，其特征在于，所述装置包括：

获取模块，所述获取模块配置为获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号；

比较模块，所述比较模块配置为检测节点到其他节点的连通性，并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通；

警告模块，所述警告模块配置为响应于节点与其他节点的连通率小于预设值，确定节点的网络状态为异常状态并发出告警信息；

切换模块，所述切换模块配置为将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口，继续检测其他节点的网络状态。

6.根据权利要求5所述的装置，其特征在于，所述比较模块还配置为：

7.根据权利要求5所述的装置，其特征在于，所述警告模块还配置为：

8.根据权利要求5所述的装置，其特征在于，所述比较模块还配置为：

分别检测节点到其他节点的时延和丢包率；

9.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机指令，所述指令由所述处理器执行时实现权利要求1-4任意一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任意一项所述方法的步骤。