CN113190405A - 一种节点健康检测方法、装置及电子设备和存储介质 - Google Patents

一种节点健康检测方法、装置及电子设备和存储介质 Download PDF

Info

Publication number
CN113190405A
CN113190405A CN202110475984.9A CN202110475984A CN113190405A CN 113190405 A CN113190405 A CN 113190405A CN 202110475984 A CN202110475984 A CN 202110475984A CN 113190405 A CN113190405 A CN 113190405A
Authority
CN
China
Prior art keywords
state
node
health
target node
state data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110475984.9A
Other languages
English (en)
Other versions
CN113190405B (zh
Inventor
张烨
贺计文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110475984.9A priority Critical patent/CN113190405B/zh
Publication of CN113190405A publication Critical patent/CN113190405A/zh
Application granted granted Critical
Publication of CN113190405B publication Critical patent/CN113190405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本申请公开了一种节点健康检测方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取分布式存储集群中目标节点的状态数据;将所述状态数据输入训练完成的决策树模型中,以得到所述目标节点对应的健康状态。本申请提供的节点健康检测方法,通过分布式存储集群中目标节点的状态数据,作为决策树模型的特征输入,经过决策树模型计算输出目标节点的健康状态。由于决策树模型不需要先验概率的输入,因此预测结果的准确性较高。由此可见,本申请提供的节点健康检测方法,提高了节点健康检测的准确性。

Description

一种节点健康检测方法、装置及电子设备和存储介质
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种节点健康检测方法、装置及一种电子设备和一种计算机可读存储介质。
背景技术
分布式存储集群中的各个节点都运行着存储程序,当一个或几个节点出现CPU、内存、网络或磁盘处于一种正常状态与故障状态之间的亚健康状态时,则这些节点会成为整个分布式存储系统的性能瓶颈。
随着存储系统的日益完善,很多存储系统开始关注节点的亚健康状态。在相关技术中,基于贝叶斯算法预测节点的健康状态,但是,贝叶斯算法需要先验概率,必然导致后续的预测步骤错误率较高。
因此,如何提高节点健康检测的准确性是本领域技术人员需要解决的技术问题。
发明内容
本申请的目的在于提供一种节点健康检测方法、装置及一种电子设备和一种计算机可读存储介质,提高了节点健康检测的准确性。
为实现上述目的,本申请提供了一种节点健康检测方法,包括:
获取分布式存储集群中目标节点的状态数据;
将所述状态数据输入训练完成的决策树模型中,以得到所述目标节点对应的健康状态。
其中,所述获取分布式存储集群中目标节点的状态数据,包括:
每隔预设时间段获取分布式存储集群中目标节点的状态数据,并将每个时间段对应的状态数据存储至缓存队列中;其中,所述缓存队列中的每个元素对应一个时间段内的状态数据;
相应的,将所述状态数据输入训练完成的决策树模型中,以得到所述目标节点对应的健康状态,包括:
若所述缓存队列已满,则将所述缓存队列中的每个元素顺序输入训练完成的决策树模型中,以得到对应的每个时间段内的状态数据对应的健康状态;
若处于非正常状态的状态数据的数量大于或等于第一预设值,则判定所述目标节点为亚健康状态;
若处于非正常状态的状态数据的数量大于或等于第二预设值,则判定所述目标节点为故障状态;
其中,所述第一预设值小于所述第二预设值,所述第二预设值小于或等于所述缓存队列的队列深度。
其中,所述状态数据包括CPU占用率、内存占用率、Swap占用率、网络时延、网络丢包率、磁盘信息中任一项或任几项的组合。
其中,得到所述目标节点对应的健康状态之后,还包括:
基于所述健康状态对所述目标节点进行处理。
其中,所述基于所述健康状态对所述目标节点进行处理,包括:
若所述健康状态为亚健康状态,则对所述目标节点进行修复处理;
若所述健康状态为故障状态,则对所述目标节点进行隔离处理。
其中,对所述目标节点进行修复处理,包括:
若内存占用率大于第一阈值或Swap占用率大于第二阈值,则重启所述目标节点中内存占用率大于第三阈值的进程;其中,所述第一阈值大于所述第三阈值;
若网络时延大于第四阈值或网络丢包率大于第五阈值,则重启所述目标节点的网络连接;
若磁盘信息异常,则将所述目标节点的磁盘挂起。
其中,还包括:
构建训练状态数据和对应的健康状态;
基于所述训练状态数据和对应的健康状态训练决策树模型。
为实现上述目的,本申请提供了一种节点健康检测装置,包括:
获取模块,用于获取分布式存储集群中目标节点的状态数据;
输入模块,用于将所述状态数据输入训练完成的决策树模型中,以得到所述目标节点对应的健康状态。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述节点健康检测方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述节点健康检测方法的步骤。
通过以上方案可知,本申请提供的一种节点健康检测方法,包括:获取分布式存储集群中目标节点的状态数据;将所述状态数据输入训练完成的决策树模型中,以得到所述目标节点对应的健康状态。
本申请提供的节点健康检测方法,通过分布式存储集群中目标节点的状态数据,作为决策树模型的特征输入,经过决策树模型计算输出目标节点的健康状态。由于决策树模型不需要先验概率的输入,因此预测结果的准确性较高。由此可见,本申请提供的节点健康检测方法,提高了节点健康检测的准确性。本申请还公开了一种节点健康检测装置及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为根据一示例性实施例示出的一种节点健康检测方法的流程图;
图2为根据一示例性实施例示出的另一种节点健康检测方法的流程图;
图3为根据一示例性实施例示出的又一种节点健康检测方法的流程图;
图4为根据一示例性实施例示出的一种节点健康检测装置的结构图;
图5为根据一示例性实施例示出的一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例公开了一种节点健康检测方法,提高了节点健康检测的准确性。
参见图1,根据一示例性实施例示出的一种节点健康检测方法的流程图,如图1所示,包括:
S101:获取分布式存储集群中目标节点的状态数据;
本实施例的目的在于检测分布式存储集群中目标节点的健康状态,可以包括正常状态、亚健康状态和故障状态等,本实施例不进行具体限定。在本步骤中,获取目标节点的状态数据,此处的状态数据可以包括CPU(中文全称:中央处理器,英文全称:centralprocessing unit)占用率、内存占用率、Swap(交换区)占用率、网络时延、网络丢包率、磁盘信息等,在此不进行具体限定,其中,磁盘信息可以具体为磁盘smart信息。
S102:将所述状态数据输入训练完成的决策树模型中,以得到所述目标节点对应的健康状态。
在本步骤中,将目标节点的状态数据输入训练完成的决策树模型,训练完成的决策树模型用于预测目标节点的健康状态。
本申请实施例提供的节点健康检测方法,通过分布式存储集群中目标节点的状态数据,作为决策树模型的特征输入,经过决策树模型计算输出目标节点的健康状态。由于决策树模型不需要先验概率的输入,因此预测结果的准确性较高。由此可见,本申请实施例提供的节点健康检测方法,提高了节点健康检测的准确性。
本申请实施例公开了一种节点健康检测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
参见图2,根据一示例性实施例示出的另一种节点健康检测方法的流程图,如图2所示,包括:
S201:每隔预设时间段获取分布式存储集群中目标节点的状态数据,并将每个时间段对应的状态数据存储至缓存队列中;其中,所述缓存队列中的每个元素对应一个时间段内的状态数据;
在本实施例中,通过系统命令每隔预设时间段获取目标节点的状态数据,并记录至缓存队列中,例如,每隔1分钟时间获取目标节点的CPU占用率、内存占用率、Swap占用率、网络时延、网络丢包及磁盘的smart信息。缓存队列中的每个元素对应一个时间段内的状态数据,例如,缓存队列队列长度为10,则第一个元素对应第1分钟采集的状态数据,第二个元素对应第2分钟采集的状态数据,以此类推,第十个元素对应第10分钟采集的状态数据。
S202:若所述缓存队列已满,则将所述缓存队列中的每个元素顺序输入训练完成的决策树模型中,以得到对应的每个时间段内的状态数据对应的健康状态;
在具体实施中,当缓存队列满时,开始进入检测阶段,即将缓存队列中的每个元素按顺序输入训练完成的决策树模型中,训练完成的决策树模型用于预测每组状态数据对应的健康状态。
S203:若处于非正常状态的状态数据的数量大于或等于第一预设值,则判定所述目标节点为亚健康状态;
S204:若处于非正常状态的状态数据的数量大于或等于第二预设值,则判定所述目标节点为故障状态;
其中,所述第一预设值小于所述第二预设值,所述第二预设值小于或等于所述缓存队列的队列深度。
在本实施例中,通过第一预设值和第二预设值确定目标节点的健康状态。具体的,若处于正常状态的状态数据的数量大于或等于第一预设值,则目标节点为正常状态,若处于非正常状态的状态数据的数量大于或等于第一预设值,则目标节点为亚健康状态,若处于非正常状态的状态数据的数量大于或等于第二预设值,则目标节点为故障状态。例如,缓存队列队列长度为10,若存在大于或等于7个状态数据的健康状态为亚健康状态,则判定目标节点为亚健康状态,即第一预设值为7,若存在10个状态数据的健康状态为故障状态,则判定目标节点为故障状态,即第二预设值为10,其他场景下判定目标节点为正常状态,则第一预设值为4。
作为一种优选实施方式,在得到目标节点对应的健康状态之后,还包括:基于所述健康状态对所述目标节点进行处理。具体的,若所述健康状态为亚健康状态,则对所述目标节点进行修复处理;若所述健康状态为故障状态,则对所述目标节点进行隔离处理。
在具体实施中,如果目标节点处于正常状态则结束流程,如果目标节点处于亚健康状态,则对目标节点进行修复处理后结束流程,如果目标节点处于故障状态,则对目标节点进行隔离操作,当然,还可以对处于故障状态或亚健康状态的目标节点进行告警。对故障节点进行告警和隔离,保障存储集群业务稳定进行,减少了人力投入和提高了预测节点状态的准确性。
进一步的,对所述目标节点进行修复处理,包括:若内存占用率大于第一阈值或Swap占用率大于第二阈值,则重启所述目标节点中内存占用率大于第三阈值的进程;其中,所述第一阈值大于所述第三阈值;若网络时延大于第四阈值或网络丢包率大于第五阈值,则重启所述目标节点的网络连接;若磁盘信息异常,则将所述目标节点的磁盘挂起。在具体实施中,若目标节点的内存占用率或Swap占用率异常,则可以通过重启内存占用率大的进程来对其进行修复,若目标节点的网络时延或网络丢包率异常,则可以通过重启网络连接来对其进行修复,若磁盘信息异常,则可以通过挂起异常磁盘进行修复。例如,修复策略如表1所示:
表1
Figure BDA0003047116450000071
下面介绍决策树模型的训练过程,具体的:
参见图3,根据一示例性实施例示出的又一种节点健康检测方法的流程图,如图3所示,包括:
S301:构建训练状态数据和对应的健康状态;
S302:基于所述训练状态数据和对应的健康状态训练决策树模型。
本实施例的目的在于训练决策树模型,训练完成的决策树模型用于预测目标节点的健康状态。在具体实施中,首先构建训练状态数据和对应的健康状态,此处的状态数据同样可以包括CPU占用率、内存占用率、Swap占用率、网络时延、网络丢包率、磁盘的IO速率等,健康状态同样可以包括正常状态、亚健康状态和故障状态等,在此不进行具体限定。例如,构建的训练状态数据和对应的健康状态如表2所示:
表2
Figure BDA0003047116450000072
其中,40%的Swap占用率、100ms的网络时延、5%的网络丢包和100%的网络丢包为构建的异常数据。
其次,基于训练状态数据和对应的健康状态训练决策树模型,即决策树模型对训练状态数据和对应的健康状态进行学习,得到训练完成的决策树模型。
下面对本申请实施例提供的一种节点健康检测装置进行介绍,下文描述的一种节点健康检测装置与上文描述的一种节点健康检测方法可以相互参照。
参见图4,根据一示例性实施例示出的一种节点健康检测装置的结构图,如图4所示,包括:
获取模块401,用于获取分布式存储集群中目标节点的状态数据;
输入模块402,用于将所述状态数据输入训练完成的决策树模型中,以得到所述目标节点对应的健康状态。
本申请实施例提供的节点健康检测装置,通过分布式存储集群中目标节点的状态数据,作为决策树模型的特征输入,经过决策树模型计算输出目标节点的健康状态。由于决策树模型不需要先验概率的输入,因此预测结果的准确性较高。由此可见,本申请实施例提供的节点健康检测装置,提高了节点健康检测的准确性。
在上述实施例的基础上,作为一种优选实施方式,获取模块401具体为每隔预设时间段获取分布式存储集群中目标节点的状态数据,并将每个时间段对应的状态数据存储至缓存队列中的模块;其中,所述缓存队列中的每个元素对应一个时间段内的状态数据;
相应的,所述输入模块402包括:
输入单元,用于若所述缓存队列已满,则将所述缓存队列中的每个元素顺序输入训练完成的决策树模型中,以得到对应的每个时间段内的状态数据对应的健康状态;
第一判定单元,用于若处于非正常状态的状态数据的数量大于或等于第一预设值,则判定所述目标节点为亚健康状态;
第二判定单元,用于若处于非正常状态的状态数据的数量大于或等于第二预设值,则判定所述目标节点为故障状态;
其中,所述第一预设值小于所述第二预设值,所述第二预设值小于或等于所述缓存队列的队列深度。
在上述实施例的基础上,作为一种优选实施方式,所述状态数据包括CPU占用率、内存占用率、Swap占用率、网络时延、网络丢包率、磁盘信息中任一项或任几项的组合。
在上述实施例的基础上,作为一种优选实施方式,还包括:
处理模块,用于基于所述健康状态对所述目标节点进行处理。
在上述实施例的基础上,作为一种优选实施方式,所述处理模块包括:
修复单元,用于当所述健康状态为亚健康状态时,对所述目标节点进行修复处理;
隔离单元,用于当所述健康状态为故障状态时,对所述目标节点进行隔离处理。
在上述实施例的基础上,作为一种优选实施方式,所述修复单元包括:
第一重启子单元,用于若内存占用率大于第一阈值或Swap占用率大于第二阈值,则重启所述目标节点中内存占用率大于第三阈值的进程;其中,所述第一阈值大于所述第三阈值;
第二重启子单元,用于若网络时延大于第四阈值或网络丢包率大于第五阈值,则重启所述目标节点的网络连接;
挂起子单元,用于若磁盘信息异常,则将所述目标节点的磁盘挂起。
在上述实施例的基础上,作为一种优选实施方式,还包括:
构建模块,用于获取训练节点的状态数据和健康状态;
训练模块,用于基于所述训练状态数据和对应的健康状态训练决策树模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于上述程序模块的硬件实现,且为了实现本申请实施例的方法,本申请实施例还提供了一种电子设备,图5为根据一示例性实施例示出的一种电子设备的结构图,如图5所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的节点健康检测方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统4。
本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器2旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种节点健康检测方法,其特征在于,包括:
获取分布式存储集群中目标节点的状态数据;
将所述状态数据输入训练完成的决策树模型中,以得到所述目标节点对应的健康状态。
2.根据权利要求1所述节点健康检测方法,其特征在于,所述获取分布式存储集群中目标节点的状态数据,包括:
每隔预设时间段获取分布式存储集群中目标节点的状态数据,并将每个时间段对应的状态数据存储至缓存队列中;其中,所述缓存队列中的每个元素对应一个时间段内的状态数据;
相应的,将所述状态数据输入训练完成的决策树模型中,以得到所述目标节点对应的健康状态,包括:
若所述缓存队列已满,则将所述缓存队列中的每个元素顺序输入训练完成的决策树模型中,以得到对应的每个时间段内的状态数据对应的健康状态;
若处于非正常状态的状态数据的数量大于或等于第一预设值,则判定所述目标节点为亚健康状态;
若处于非正常状态的状态数据的数量大于或等于第二预设值,则判定所述目标节点为故障状态;
其中,所述第一预设值小于所述第二预设值,所述第二预设值小于或等于所述缓存队列的队列深度。
3.根据权利要求1所述节点健康检测方法,其特征在于,所述状态数据包括CPU占用率、内存占用率、Swap占用率、网络时延、网络丢包率、磁盘信息中任一项或任几项的组合。
4.根据权利要求1所述节点健康检测方法,其特征在于,得到所述目标节点对应的健康状态之后,还包括:
基于所述健康状态对所述目标节点进行处理。
5.根据权利要求4所述节点健康检测方法,其特征在于,所述基于所述健康状态对所述目标节点进行处理,包括:
若所述健康状态为亚健康状态,则对所述目标节点进行修复处理;
若所述健康状态为故障状态,则对所述目标节点进行隔离处理。
6.根据权利要求5所述节点健康检测方法,其特征在于,对所述目标节点进行修复处理,包括:
若内存占用率大于第一阈值或Swap占用率大于第二阈值,则重启所述目标节点中内存占用率大于第三阈值的进程;其中,所述第一阈值大于所述第三阈值;
若网络时延大于第四阈值或网络丢包率大于第五阈值,则重启所述目标节点的网络连接;
若磁盘信息异常,则将所述目标节点的磁盘挂起。
7.根据权利要求1至6中任一项所述节点健康检测方法,其特征在于,还包括:
构建训练状态数据和对应的健康状态;
基于所述训练状态数据和对应的健康状态训练决策树模型。
8.一种节点健康检测装置,其特征在于,包括:
获取模块,用于获取分布式存储集群中目标节点的状态数据;
输入模块,用于将所述状态数据输入训练完成的决策树模型中,以得到所述目标节点对应的健康状态。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述节点健康检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述节点健康检测方法的步骤。
CN202110475984.9A 2021-04-29 2021-04-29 一种节点健康检测方法、装置及电子设备和存储介质 Active CN113190405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110475984.9A CN113190405B (zh) 2021-04-29 2021-04-29 一种节点健康检测方法、装置及电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110475984.9A CN113190405B (zh) 2021-04-29 2021-04-29 一种节点健康检测方法、装置及电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN113190405A true CN113190405A (zh) 2021-07-30
CN113190405B CN113190405B (zh) 2022-08-19

Family

ID=76980823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110475984.9A Active CN113190405B (zh) 2021-04-29 2021-04-29 一种节点健康检测方法、装置及电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113190405B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822441A (zh) * 2021-09-29 2021-12-21 平安付科技服务有限公司 决策模型训练方法、装置、终端设备及存储介质
CN113852507A (zh) * 2021-09-29 2021-12-28 济南浪潮数据技术有限公司 一种预测网络健康状态的方法、系统、设备和存储介质
CN114328098A (zh) * 2021-12-23 2022-04-12 北京百度网讯科技有限公司 一种慢节点检测方法、装置、电子设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060048019A1 (en) * 2004-08-26 2006-03-02 Canon Kabushiki Kaisha Image input/output device, information processing method, storage medium stored with program readable by computer, and program
US20080250265A1 (en) * 2007-04-05 2008-10-09 Shu-Ping Chang Systems and methods for predictive failure management
US20090193436A1 (en) * 2008-01-30 2009-07-30 Inventec Corporation Alarm display system of cluster storage system and method thereof
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统
WO2017129030A1 (zh) * 2016-01-29 2017-08-03 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107040391A (zh) * 2015-07-28 2017-08-11 北京华为数字技术有限公司 一种故障检测方法及转发设备
US20170293514A1 (en) * 2016-04-12 2017-10-12 International Business Machines Corporation Handling repaired memory array elements in a memory of a computer system
CN107659459A (zh) * 2017-11-02 2018-02-02 郑州云海信息技术有限公司 分布式集群管理软件容灾管理方法、系统、介质及设备
WO2019012726A1 (en) * 2017-07-14 2019-01-17 Kabushiki Kaisha Toshiba ANOMALY DETECTION DEVICE, ANOMALY DETECTION METHOD, AND NON-TRANSIENT COMPUTER READABLE MEDIUM
CN109522287A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 分布式文件存储集群的监控方法、系统、设备及介质
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质
US20190377625A1 (en) * 2018-06-08 2019-12-12 Microsoft Technology Licensing, Llc Computing node failure and health prediction for cloud-based data center
US20200210270A1 (en) * 2017-09-18 2020-07-02 Huawei Technologies Co., Ltd. Memory evaluation method and apparatus
CN111507490A (zh) * 2020-05-09 2020-08-07 武汉数字化设计与制造创新中心有限公司 基于多源数据驱动的数控机床主轴预测性维护方法及系统
CN111984513A (zh) * 2020-08-25 2020-11-24 浙江天垂科技有限公司 一种预测性维护方法、装置、设备以及存储介质
US20200409810A1 (en) * 2019-06-26 2020-12-31 Vmware, Inc. Failure analysis system for a distributed storage system

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060048019A1 (en) * 2004-08-26 2006-03-02 Canon Kabushiki Kaisha Image input/output device, information processing method, storage medium stored with program readable by computer, and program
US20080250265A1 (en) * 2007-04-05 2008-10-09 Shu-Ping Chang Systems and methods for predictive failure management
US20090193436A1 (en) * 2008-01-30 2009-07-30 Inventec Corporation Alarm display system of cluster storage system and method thereof
CN107040391A (zh) * 2015-07-28 2017-08-11 北京华为数字技术有限公司 一种故障检测方法及转发设备
WO2017129030A1 (zh) * 2016-01-29 2017-08-03 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
US20170293514A1 (en) * 2016-04-12 2017-10-12 International Business Machines Corporation Handling repaired memory array elements in a memory of a computer system
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统
WO2019012726A1 (en) * 2017-07-14 2019-01-17 Kabushiki Kaisha Toshiba ANOMALY DETECTION DEVICE, ANOMALY DETECTION METHOD, AND NON-TRANSIENT COMPUTER READABLE MEDIUM
US20200210270A1 (en) * 2017-09-18 2020-07-02 Huawei Technologies Co., Ltd. Memory evaluation method and apparatus
CN107659459A (zh) * 2017-11-02 2018-02-02 郑州云海信息技术有限公司 分布式集群管理软件容灾管理方法、系统、介质及设备
US20190377625A1 (en) * 2018-06-08 2019-12-12 Microsoft Technology Licensing, Llc Computing node failure and health prediction for cloud-based data center
CN109522287A (zh) * 2018-09-18 2019-03-26 平安科技(深圳)有限公司 分布式文件存储集群的监控方法、系统、设备及介质
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质
US20200409810A1 (en) * 2019-06-26 2020-12-31 Vmware, Inc. Failure analysis system for a distributed storage system
CN111507490A (zh) * 2020-05-09 2020-08-07 武汉数字化设计与制造创新中心有限公司 基于多源数据驱动的数控机床主轴预测性维护方法及系统
CN111984513A (zh) * 2020-08-25 2020-11-24 浙江天垂科技有限公司 一种预测性维护方法、装置、设备以及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822441A (zh) * 2021-09-29 2021-12-21 平安付科技服务有限公司 决策模型训练方法、装置、终端设备及存储介质
CN113852507A (zh) * 2021-09-29 2021-12-28 济南浪潮数据技术有限公司 一种预测网络健康状态的方法、系统、设备和存储介质
CN113822441B (zh) * 2021-09-29 2023-06-30 平安付科技服务有限公司 决策模型训练方法、装置、终端设备及存储介质
CN114328098A (zh) * 2021-12-23 2022-04-12 北京百度网讯科技有限公司 一种慢节点检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113190405B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN113190405B (zh) 一种节点健康检测方法、装置及电子设备和存储介质
CN108153849B (zh) 一种数据库表切分方法、装置、系统和介质
EP2901286B1 (en) Techniques associated with a read and write window budget for a two level memory system
US20180246751A1 (en) Techniques to select virtual machines for migration
JP2009205254A (ja) 計算機、ダンププログラムおよびダンプ方法
CN113886182A (zh) 一种告警收敛方法、装置及电子设备和存储介质
CN113900941A (zh) 一种微服务处理方法、微服务系统及电子设备和存储介质
CN112468361A (zh) 一种网络连接状态监控方法、装置及电子设备和存储介质
CN112328202B (zh) 一种流量控制方法、装置及电子设备和存储介质
JP2022500768A (ja) 熱負荷予測方法、装置、読み取り可能な媒体及び電子機器
US20170344431A1 (en) Methods for proactive prediction of disk failure in a raid group and devices thereof
CN110737924B (zh) 一种数据保护的方法和设备
CN110069217B (zh) 一种数据存储方法及装置
CN108205588B (zh) 基于主从结构的数据同步方法及装置
CN113760619A (zh) 一种存储设备测试方法、装置及电子设备和存储介质
CN112231403B (zh) 数据同步的一致性校验方法、装置、设备和存储介质
CN111382179B (zh) 数据处理方法、装置及电子设备
CN114064717A (zh) 数据处理方法、装置、设备及存储介质
CN110716692B (zh) 读取性能提升方法、装置、存储节点及数据读取方法
CN113254269A (zh) 一种存储系统异常事件修复的方法、系统、设备和介质
CN115618219A (zh) 模型训练方法、装置、电子设备及存储介质
US8891515B2 (en) Method for node communication
CN117311994B (zh) 一种处理核心隔离方法、装置及电子设备和存储介质
CN115858251B (zh) 一种基板控制单元控制方法、装置及电子设备和存储介质
US20070179635A1 (en) Method and article of manufacure to persistently deconfigure connected elements

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant