CN115002001B - 一种检测集群网络亚健康的方法、装置、设备及介质 - Google Patents
一种检测集群网络亚健康的方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115002001B CN115002001B CN202210180129.XA CN202210180129A CN115002001B CN 115002001 B CN115002001 B CN 115002001B CN 202210180129 A CN202210180129 A CN 202210180129A CN 115002001 B CN115002001 B CN 115002001B
- Authority
- CN
- China
- Prior art keywords
- nodes
- node
- network
- detecting
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000002159 abnormal effect Effects 0.000 claims abstract description 35
- 238000004891 communication Methods 0.000 claims abstract description 34
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 230000004044 response Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0811—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0663—Performing the actions predefined by failover planning, e.g. switching to standby network elements
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种检测集群网络亚健康的方法、装置、设备及可读介质,该方法包括:获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号;检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通;响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息;将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口,继续检测其他节点的网络状态。通过使用本发明的方案,能够减少网络消耗,高效探测集群中有网络故障的节点,能够及时通知管理员查看对应的部件,有效防止因网络故障导致业务或者系统不可用的情况发生。
Description
技术领域
本发明涉及计算机领域,并且更具体地涉及一种检测集群网络亚健康的方法、装置、设备及可读介质。
背景技术
当前大数据、云计算已经广泛深入到企业应用,分布式存储系统也逐渐的被应用到各个领域,在分布式存储系统中,众多节点间的通信依靠稳定可靠的网络环境,当网络出现问题时,集群需要能够及时的感知到,并自我修复,自动上报相关告警,才能有效保障业务的稳定。传统的检测方法会增加大量的网络消耗,导致集群的链路性能降低。
发明内容
有鉴于此,本发明实施例的目的在于提出一种检测集群网络亚健康的方法、装置、设备及可读介质,通过使用本发明的技术方案,能够减少网络消耗,高效探测集群中有网络故障的节点,能够及时通知管理员查看对应的部件,有效防止因网络故障导致业务或者系统不可用的情况发生。
基于上述目的,本发明的实施例的一个方面提供了一种检测集群网络亚健康的方法,包括以下步骤:
获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号;
检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通;
响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息;
将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口,继续检测其他节点的网络状态。
根据本发明的一个实施例,检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通包括:
使用公式:A+1+K/M*(N-1)计算其他节点的编号,其中A为当前节点的编号,K为所有节点的数量,M为其他节点的总个数,M小于K,K/M取整数,N的取值为1至M,当公式计算的数值大于K时,从第一个节点开始取值;
分别检测节点到计算得到的编号对应的节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到编号对应的节点不连通。
根据本发明的一个实施例,响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息包括:
使用公式:连通节点的个数/其他节点总个数计算节点与其他节点的连通率;
响应于节点与其他节点的连通率小于90%,确定节点的网络状态为异常状态并发出告警信息。
根据本发明的一个实施例,检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通较包括:
在所有节点中随机选择节点总数的30%的节点作为其他节点;
分别检测节点到其他节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到对应的节点不连通。
本发明的实施例的另一个方面,还提供了一种检测集群网络亚健康的装置,装置包括:
获取模块,获取模块配置为获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号;
比较模块,比较模块配置为检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通;
警告模块,警告模块配置为响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息;
切换模块,切换模块配置为将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口,继续检测其他节点的网络状态。
根据本发明的一个实施例,比较模块还配置为:
使用公式:A+1+K/M*(N-1)计算其他节点的编号,其中A为当前节点的编号,K为所有节点的数量,M为其他节点的总个数,M小于K,K/M取整数,N的取值为1至M,当公式计算的数值大于K时,从第一个节点开始取值;
分别检测节点到计算得到的编号对应的节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到编号对应的节点不连通。
根据本发明的一个实施例,警告模块还配置为:
使用公式:连通节点的个数/其他节点总个数计算节点与其他节点的连通率;
响应于节点与其他节点的连通率小于90%,确定节点的网络状态为异常状态并发出告警信息。
根据本发明的一个实施例,比较模块还配置为:
在所有节点中随机选择节点总数的30%的节点作为其他节点;
分别检测节点到其他节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到对应的节点不连通。
本发明的实施例的另一个方面,还提供了一种计算机设备,该计算机设备包括:
至少一个处理器;以及
存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任意一项方法的步骤。
本发明的实施例的另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意一项方法的步骤。
本发明具有以下有益技术效果:本发明实施例提供的检测集群网络亚健康的方法,通过获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号;检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通;响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息;将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口,继续检测其他节点的网络状态的技术方案,能够减少网络消耗,高效探测集群中有网络故障的节点,能够及时通知管理员查看对应的部件,有效防止因网络故障导致业务或者系统不可用的情况发生。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的检测集群网络亚健康的方法的示意性流程图;
图2为根据本发明一个实施例的检测集群网络亚健康的装置的示意图;
图3为根据本发明一个实施例的计算机设备的示意图;
图4为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例的第一个方面,提出了一种检测集群网络亚健康的方法的一个实施例。图1示出的是该方法的示意性流程图。
如图1中所示,该方法可以包括以下步骤:
S1获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号。
获取集群中所有节点的信息,根据每个节点相同网段的IP从小到大将节点进行排序,并为每个节点进行编号,例如集群中有100个节点,节点1、节点2,……,节点100。
S2检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通。
可以使用公式:A+1+K/M*(N-1)计算其他节点的编号,其中A为当前节点的编号,K为所有节点的数量,M为其他节点的总个数,M小于K,K/M取整数,N的取值为1至M,当公式计算的数值大于K时,从第一个节点开始取值,例如,A为节点1,则A=1,K=100,M的值可以自行设定,也就是检测每个节点到其他M个节点的连通性,例如M取值20,则N的取值为1至20,然后开始计算其他节点的编号,例如N=1时,计算值为2,则检测节点1到节点2的连通性,当N=2时,计算值为7,则检测节点1到节点7的连通性,以此类推。如果计算在检测其他节点时,计算值超过了100,例如计算值为105,则从101开始从节点1开始计数,105则为节点5。连通性的检测为检测节点到计算得到的编号对应的节点的时延和丢包率,当时延大于10毫秒和/或丢包率大于5%,确定节点到编号对应的节点不连通。
S3响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息。
使用公式:连通节点的个数/其他节点总个数计算节点与其他节点的连通率,如果节点与其他节点的连通率小于90%,确定节点的网络状态为异常状态并发出告警信息,例如,节点1与15个节点连通,则连通率为15/20=75%,小于90%,则确定节点1的网络状态为异常。
S4将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口,继续检测其他节点的网络状态。
通过本发明的技术方案,能够减少网络消耗,高效探测集群中有网络故障的节点,能够及时通知管理员查看对应的部件,有效防止因网络故障导致业务或者系统不可用的情况发生。
在本发明的一个优选实施例中,检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通包括:
使用公式:A+1+K/M*(N-1)计算其他节点的编号,其中A为当前节点的编号,K为所有节点的数量,M为其他节点的总个数,M小于K,K/M取整数,N的取值为1至M,当公式计算的数值大于K时,从第一个节点开始取值;
分别检测节点到计算得到的编号对应的节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到编号对应的节点不连通。其中M的值以及时延的阈值和丢标率的阈值可以根据需要进行设定。
在本发明的一个优选实施例中,响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息包括:
使用公式:连通节点的个数/其他节点总个数计算节点与其他节点的连通率;
响应于节点与其他节点的连通率小于90%,确定节点的网络状态为异常状态并发出告警信息。
在本发明的一个优选实施例中,检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通较包括:
在所有节点中随机选择节点总数的30%的节点作为其他节点;
分别检测节点到其他节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到对应的节点不连通。
本发明的技术方案根据预先设置的阈值,如果相关的性能指标不在阈值范围之内,则判断网口出现了故障,自动切换到备用网口,并上报相关的告警。使用此种方法检测网口健康状况,可以减少网络消耗,高效探测集群中有网络故障的节点,及时通知管理员及时查看对应的部件,查明原因,有效防止因网络故障导致业务或者系统不可用的情况发生。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存取存储器(Random AccessMemory,RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
基于上述目的,本发明的实施例的第二个方面,提出了一种检测集群网络亚健康的装置,如图2所示,装置200包括:
获取模块,获取模块配置为获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号;
比较模块,比较模块配置为检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通;
警告模块,警告模块配置为响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息;
切换模块,切换模块配置为将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口,继续检测其他节点的网络状态。
在本发明的一个优选实施例中,比较模块还配置为:
使用公式:A+1+K/M*(N-1)计算其他节点的编号,其中A为当前节点的编号,K为所有节点的数量,M为其他节点的总个数,M小于K,K/M取整数,N的取值为1至M,当公式计算的数值大于K时,从第一个节点开始取值;
分别检测节点到计算得到的编号对应的节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到编号对应的节点不连通。
在本发明的一个优选实施例中,警告模块还配置为:
使用公式:连通节点的个数/其他节点总个数计算节点与其他节点的连通率;
响应于节点与其他节点的连通率小于90%,确定节点的网络状态为异常状态并发出告警信息。
在本发明的一个优选实施例中,比较模块还配置为:
在所有节点中随机选择节点总数的30%的节点作为其他节点;
分别检测节点到其他节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到对应的节点不连通。
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示,本发明实施例包括如下装置:至少一个处理器21;以及存储器22,存储器22存储有可在处理器上运行的计算机指令23,指令由处理器执行时实现以下方法:
获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号;
检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通;
响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息;
将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口,继续检测其他节点的网络状态。
在本发明的一个优选实施例中,检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通包括:
使用公式:A+1+K/M*(N-1)计算其他节点的编号,其中A为当前节点的编号,K为所有节点的数量,M为其他节点的总个数,M小于K,K/M取整数,N的取值为1至M,当公式计算的数值大于K时,从第一个节点开始取值;
分别检测节点到计算得到的编号对应的节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到编号对应的节点不连通。
在本发明的一个优选实施例中,响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息包括:
使用公式:连通节点的个数/其他节点总个数计算节点与其他节点的连通率;
响应于节点与其他节点的连通率小于90%,确定节点的网络状态为异常状态并发出告警信息。
在本发明的一个优选实施例中,检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通较包括:
在所有节点中随机选择节点总数的30%的节点作为其他节点;
分别检测节点到其他节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到对应的节点不连通。
基于上述目的,本发明实施例的第四个方面,提出了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示,计算机可读存储介质31存储有被处理器执行时执行如下方法的计算机程序32:
获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号;
检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通;
响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息;
将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口,继续检测其他节点的网络状态。
在本发明的一个优选实施例中,检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通包括:
使用公式:A+1+K/M*(N-1)计算其他节点的编号,其中A为当前节点的编号,K为所有节点的数量,M为其他节点的总个数,M小于K,K/M取整数,N的取值为1至M,当公式计算的数值大于K时,从第一个节点开始取值;
分别检测节点到计算得到的编号对应的节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到编号对应的节点不连通。
在本发明的一个优选实施例中,响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息包括:
使用公式:连通节点的个数/其他节点总个数计算节点与其他节点的连通率;
响应于节点与其他节点的连通率小于90%,确定节点的网络状态为异常状态并发出告警信息。
在本发明的一个优选实施例中,检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通较包括:
在所有节点中随机选择节点总数的30%的节点作为其他节点;
分别检测节点到其他节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到对应的节点不连通。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (6)
1.一种检测集群网络亚健康的方法,其特征在于,包括以下步骤:
获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号;
检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通,其中,检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通包括使用公式:A + 1 + K/M * (N-1)计算其他节点的编号,其中A为当前节点的编号,K为所有节点的数量,M为其他节点的总个数,M小于K,K/M取整数,N的取值为1至M,当公式计算的数值大于K时,从第一个节点开始取值,分别检测节点到计算得到的编号对应的节点的时延和丢包率,响应于时延大于10毫秒和/或丢包率大于5%,确定节点到编号对应的节点不连通;
响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息,其中,响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息包括,使用公式:连通节点的个数/其他节点总个数计算节点与其他节点的连通率,响应于节点与其他节点的连通率小于90%,确定节点的网络状态为异常状态并发出告警信息;
将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口,继续检测其他节点的网络状态。
2.根据权利要求1所述的方法,其特征在于,检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通较包括:
在所有节点中随机选择节点总数的30%的节点作为其他节点;
分别检测节点到其他节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到对应的节点不连通。
3.一种检测集群网络亚健康的装置,其特征在于,所述装置包括:
获取模块,所述获取模块配置为获取集群中所有节点的信息并根据节点的IP将节点进行排序并编号;
比较模块,所述比较模块配置为检测节点到其他节点的连通性,并将检测结果与预设阈值进行比较以判断节点与其他节点是否能够连通,所述比较模块还配置为使用公式:A +1 + K/M * (N-1)计算其他节点的编号,其中A为当前节点的编号,K为所有节点的数量,M为其他节点的总个数,M小于K,K/M取整数,N的取值为1至M,当公式计算的数值大于K时,从第一个节点开始取值,分别检测节点到计算得到的编号对应的节点的时延和丢包率,响应于时延大于10毫秒和/或丢包率大于5%,确定节点到编号对应的节点不连通;
警告模块,所述警告模块配置为响应于节点与其他节点的连通率小于预设值,确定节点的网络状态为异常状态并发出告警信息,所述警告模块还配置为使用公式:连通节点的个数/其他节点总个数计算节点与其他节点的连通率,响应于节点与其他节点的连通率小于90%,确定节点的网络状态为异常状态并发出告警信息;
切换模块,所述切换模块配置为将异常状态的节点的网络隔离出集群并将节点的网口切换到备用网口,继续检测其他节点的网络状态。
4.根据权利要求3所述的装置,其特征在于,所述比较模块还配置为:
在所有节点中随机选择节点总数的30%的节点作为其他节点;
分别检测节点到其他节点的时延和丢包率;
响应于时延大于10毫秒和/或丢包率大于5%,确定节点到对应的节点不连通。
5. 一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-2任意一项所述方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-2任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210180129.XA CN115002001B (zh) | 2022-02-25 | 2022-02-25 | 一种检测集群网络亚健康的方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210180129.XA CN115002001B (zh) | 2022-02-25 | 2022-02-25 | 一种检测集群网络亚健康的方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115002001A CN115002001A (zh) | 2022-09-02 |
CN115002001B true CN115002001B (zh) | 2023-08-04 |
Family
ID=83024365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210180129.XA Active CN115002001B (zh) | 2022-02-25 | 2022-02-25 | 一种检测集群网络亚健康的方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115002001B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116506281B (zh) * | 2023-05-04 | 2024-02-06 | 合芯科技(苏州)有限公司 | 居家办公环境下的智能网络质量检测方法、系统及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111130899A (zh) * | 2019-12-30 | 2020-05-08 | 威创集团股份有限公司 | 一种分布式系统的业务恢复方法及系统 |
CN111510345A (zh) * | 2020-04-03 | 2020-08-07 | 网宿科技股份有限公司 | 一种边缘节点异常检测的方法及装置 |
CN111651291A (zh) * | 2020-04-23 | 2020-09-11 | 国网河南省电力公司电力科学研究院 | 一种共享存储集群防脑裂的方法、系统、计算机存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9842033B2 (en) * | 2014-11-12 | 2017-12-12 | Netapp, Inc. | Storage cluster failure detection |
-
2022
- 2022-02-25 CN CN202210180129.XA patent/CN115002001B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111130899A (zh) * | 2019-12-30 | 2020-05-08 | 威创集团股份有限公司 | 一种分布式系统的业务恢复方法及系统 |
CN111510345A (zh) * | 2020-04-03 | 2020-08-07 | 网宿科技股份有限公司 | 一种边缘节点异常检测的方法及装置 |
CN111651291A (zh) * | 2020-04-23 | 2020-09-11 | 国网河南省电力公司电力科学研究院 | 一种共享存储集群防脑裂的方法、系统、计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115002001A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108989135B (zh) | 网络设备故障检测方法及装置 | |
CN113259168B (zh) | 一种故障根因分析方法及装置 | |
CA2768220A1 (en) | Method and apparatus for telecommunications network performance anomaly events detection and notification | |
JPH08307524A (ja) | 通信ネットワークの構成要素の異常状態のリスクを識別する方法と装置 | |
US9030928B2 (en) | Communication system, communication method and network management apparatus | |
CN111104283B (zh) | 一种分布式存储系统的故障检测方法、装置、设备及介质 | |
CN115002001B (zh) | 一种检测集群网络亚健康的方法、装置、设备及介质 | |
CN106878096B (zh) | Vnf状态检测通告方法、装置以及系统 | |
US20160191359A1 (en) | Reactive diagnostics in storage area networks | |
CN113381884B (zh) | 用于监控告警系统的全链路监控方法及装置 | |
CN109510730B (zh) | 分布式系统及其监控方法、装置、电子设备及存储介质 | |
CN113162797B (zh) | 一种分布式集群的主节点故障的切换方法、系统及介质 | |
CN102334315B (zh) | 端口阻断方法和路由设备 | |
EP1653662A2 (en) | Protection switch logging methods and systems | |
CN110224872B (zh) | 一种通信方法、装置及存储介质 | |
CN111865659A (zh) | 主备控制器的切换方法和装置、控制器、网络设备 | |
CN109815080A (zh) | 计算机设备的三维监控方法及其装置 | |
CN114296979A (zh) | 一种检测物联网设备异常状态的方法及装置 | |
CN108880882B (zh) | 一种基于健康检查改进机制的gslb处理方法 | |
CN112181780A (zh) | 容器化平台核心组件的检测及告警方法、装置及设备 | |
CN115174356B (zh) | 一种集群告警上报方法、装置、设备及介质 | |
CN115378795B (zh) | 服务器网络质量监控方法、装置和电子设备及存储介质 | |
JP2005252765A (ja) | ネットワーク故障判定装置及びネットワーク保守システム及びネットワーク故障判定方法及びプログラム | |
CN110795263B (zh) | 一种硬盘链路保护方法以及相关装置 | |
CN116841834A (zh) | 状态调节方法和装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |