CN110740061A

CN110740061A - 故障预警方法、装置及计算机存储介质

Info

Publication number: CN110740061A
Application number: CN201910995452.0A
Authority: CN
Inventors: 张健; 田泱; 龙佳文; 张昊阳; 陈凯鑫
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-01-31
Anticipated expiration: 2039-10-18
Also published as: CN110740061B

Abstract

本申请公开了一种故障预警方法、装置及计算机存储介质，属于数据处理领域。所述方法包括：获取目标服务节点的多项监测指标的指标值，将多项监测指标的指标值与已存储的多种故障类别的关键影响指标的指标值进行比较，若根据比较结果确定目标服务节点符合多种故障类别中的任一种故障类别的故障预警条件，则对目标服务节点进行该故障类别的故障预警。本申请中故障预警依据是对历史故障数据进行统计得到，并非人为预测的节点状态的故障报警阈值，故障预警依据更加准确，提高了故障报警的准确性。此外，还可以对故障进行更细粒度的划分，对节点状态和运行项目等原因导致的多种故障类别进行预警，提高了故障预警的精度。

Description

故障预警方法、装置及计算机存储介质

技术领域

本申请涉及数据处理领域，特别涉及一种故障预警方法、装置及计算机存储介质。

背景技术

随着互联网技术的发展，越来越多的网络应用型企业开始采用自己的云服务平台或租用云服务平台来处理企业数据，云服务平台包括多个服务节点。云服务提供商通常采用虚拟机技术将物理机虚拟成虚拟机，除此以外，还可以把每一个虚拟机按照运行空间最小化的原则切分成多个容器，以隔离运行在虚拟机上的不同应用，因此，每个服务节点可以为虚拟机或容器。此外，在云服务平台运行的过程中，为了保障云服务平台的稳定性，还需要对各个服务节点进行监控，以便对各个服务节点进行故障预警。

相关技术中，通常对云服务平台中的每个服务节点的节点状态指标进行监测，并由技术人员根据人为经验预测服务节点的承载极限，根据预测的承载极限设置节点状态指标的故障预警阈值。其中，节点状态指标包括服务节点的内存占用率和CPU(CentralProcessing Unit，中央处理器)占用率等。在云服务平台运行的过程中，如果检测到任一服务节点的节点状态指标的指标值超过了预先设置的故障预警阈值，或者有超过故障预警阈值的趋势，则确定该服务节点可能发生故障，并对该服务节点进行故障预警。

由于在进行故障预警时，是将人为预测的节点状态指标的故障报警阈值作为故障预警的判断依据，因此故障预警的准确性较低，而且仅能对因超过节点承载极限导致的故障进行预警，具有一定的局限性。

发明内容

本申请实施例提供了一种故障预警方法，可以提高故障预警的准确性和故障预警的精度。所述技术方案如下：

第一方面，提供了一种故障预警方法，所述方法包括：

获取目标服务节点的多项监测指标的指标值，所述多项监测指标包括所述目标服务节点的节点状态指标以及所述目标服务节点所运行项目的项目监测指标，所述目标服务节点为云服务平台中的任一服务节点；

将所述多项监测指标的指标值与已存储的多种故障类别的关键影响指标的指标值进行比较，所述关键影响指标为所述多项监测指标中的至少一项，所述多种故障类别的关键影响指标的指标值是对所述云服务平台中的多个服务节点在发生故障之前的预设时长内的所述多项监测指标的指标值进行统计得到；

若根据比较结果确定所述目标服务节点符合第一故障类别的故障预警条件，则对所述目标服务节点进行所述第一故障类别的故障预警，所述第一故障类别为所述多种故障类别中的任一种。

可选地，所述节点状态指标包括内存占用率和中央处理器CPU占用率中的至少一种，所述项目监测指标包括运行的每个项目的项目完成时长和项目请求分发时长，以及运行的所有项目的平均请求数据大小和平均响应数据大小中的至少一种；

其中，所述项目完成时长是指从接收到项目请求到返回响应数据之间的时长，所述平均请求数据大小是指所述所有项目的项目请求的平均数据包大小，所述平均响应数据大小是指针对所述所有项目的项目请求返回的响应数据的平均数据包大小。

可选地，所述对所述目标服务节点进行所述第一故障类别的故障预警之前，还包括：

若根据比较结果确定所述多项监测指标中的参考监测指标的指标值与所述第一故障类别的关键影响指标的指标值之间的差值在预设数值范围内，则确定所述目标服务节点符合所述第一故障类别的故障预警条件，所述参考监测指标是指所述多项监测指标中与所述第一故障类别的关键影响指标相同的监测指标。

可选地，所述对所述目标服务节点进行所述第一故障类别的故障预警，包括：

显示故障报警信息，或者向参考设备发送所述故障报警信息，所述故障报警信息用于指示所述目标服务节点发生所述第一故障类别的故障。

可选地，所述将所述多项监测指标的指标值与已存储的多种故障类别的关键影响指标的指标值进行比较之前，还包括：

获取所述多个服务节点发生的多个历史故障的故障数据，每个历史故障的故障数据包括在每个历史故障发生之前的预设时长内采集的所述多项监测指标的指标值；

对所述多个历史故障进行分类，得到多种故障类别，每个故障类别包括至少一个历史故障；

对于所述多种故障类别中的第二故障类别，根据所述多项监测指标，对所述第二故障类别的故障数据中的指标值进行分组，得到与所述多项监测指标一一对应的多个指标值组，所述第二故障类别为所述多种故障类别中的任一个；

针对所述多个指标值组，对同一指标值组中的指标值进行聚类，根据聚类结果，从所述多个指标值组中确定所述第二故障类别的关键影响指标的指标值。

可选地，所述对同一指标值组中的指标值进行聚类，包括：

对同一指标值组中的指标值进行K均值聚类，得到K个聚类簇，每个聚类簇包含一个聚类中心。

可选地，所述聚类结果包括每个指标值组对应的至少一个聚类簇，每个聚类簇包含一个聚类中心；

所述根据聚类结果，从所述多个指标值组中确定所述第二故障类别的关键影响指标的指标值，包括：

从聚类得到的所有聚类簇中，确定聚类离散度最小的聚类簇；

将所述聚类离散度最小的聚类簇对应的监测指标确定为所述第二故障类别的关键影响指标；

将所述聚类离散度最小的聚类簇的聚类中心，确定为所述第二故障类别的关键影响指标的指标值。

第二方面，提供了一种故障预警装置，所述装置包括：

第一获取模块，用于获取目标服务节点的多项监测指标的指标值，所述多项监测指标包括所述目标服务节点的节点状态指标以及所述目标服务节点所运行项目的项目监测指标，所述目标服务节点为云服务平台中的任一服务节点；

比较模块，用于将所述多项监测指标的指标值与已存储的多种故障类别的关键影响指标的指标值进行比较，所述关键影响指标为所述多项监测指标中的至少一项，所述多种故障类别的关键影响指标的指标值是对所述云服务平台中的多个服务节点在发生故障之前的预设时长内的所述多项监测指标的指标值进行统计得到；

预警模块，用于若根据比较结果确定所述目标服务节点符合第一故障类别的故障预警条件，则对所述目标服务节点进行所述第一故障类别的故障预警，所述第一故障类别为所述多种故障类别中的任一种。

可选地，所述装置还包括：

第一确定模块，用于若根据比较结果确定所述多项监测指标中的参考监测指标的指标值与所述第一故障类别的关键影响指标的指标值之间的差值在预设数值范围内，则确定所述目标服务节点符合所述第一故障类别的故障预警条件，所述参考监测指标是指所述多项监测指标中与所述第一故障类别的关键影响指标相同的监测指标。

可选地，所述预警模块，具体用于：

可选地，所述装置还包括：

第二获取模块，用于获取所述多个服务节点发生的多个历史故障的故障数据，每个历史故障的故障数据包括在每个历史故障发生之前的预设时长内采集的所述多项监测指标的指标值；

分类模块，用于对所述多个历史故障进行分类，得到多种故障类别，每个故障类别包括至少一个历史故障；

分组模块，用于对于所述多种故障类别中的第二故障类别，根据所述多项监测指标，对所述第二故障类别的故障数据中的指标值进行分组，得到与所述多项监测指标一一对应的多个指标值组，所述第二故障类别为所述多种故障类别中的任一个；

第二确定模块，用于针对所述多个指标值组，对同一指标值组中的指标值进行聚类，根据聚类结果，从所述多个指标值组中确定所述第二故障类别的关键影响指标的指标值。

可选地，所述第二确定模块，具体用于：

所述第二确定模块，包括：

第一确定子模块，用于从聚类得到的所有聚类簇中，确定聚类离散度最小的聚类簇；

第二确定子模块，用于将所述聚类离散度最小的聚类簇对应的监测指标确定为所述第二故障类别的关键影响指标；

第三确定子模块，用于将所述聚类离散度最小的聚类簇的聚类中心，确定为所述第二故障类别的关键影响指标的指标值。

第三方面，提供了一种故障预警装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述第一方面所述任一方法的步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述第一方面所述任一方法的步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述任一方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，可以对云服务平台中的多个服务节点在发生故障前的的多项监测指标的指标值进行统计，得到多种故障类别的关键影响指标的指标值，将此作为故障预警依据，然后获取目标服务节点的多项监测指标的指标值，将多项监测指标的指标值与已存储的多种故障类别的关键影响指标的指标值进行比较，来对目标服务节点进行故障预警。在上述故障预警过程中，故障预警依据是对历史故障数据进行统计得到，并非人为预测的节点状态的故障报警阈值，故障预警依据更加准确，提高了故障预警的准确性。此外，由于统计的历史故障数据不仅包括故障发生前的节点状态指标，还包括所运行项目的项目监测指标，因此可以对故障进行更细粒度的划分，并对节点状态和运行项目等原因导致的多种故障类别进行预警，提高了故障预警的精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种云服务平台的系统架构图；

图2是本申请实施例提供的另一种云服务平台的系统架构图；

图3是本申请实施例提供的一种确定多种故障类别的关键影响指标的指标值的方法流程图；

图4是本申请实施例提供的一种故障预警方法的方法流程图；

图5是本申请实施例提供的一种故障预警装置的装置框图；

图6是本申请实施例提供的一种故障预警装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的一种故障预警方法进行解释说明之前，先对本申请实施例的应用场景进行解释说明。

目前，故障预警监测的一般为服务节点的内存占用率或CPU占用率等节点状态，但无法确定服务节点中运行项目的项目监测指标，故障报警很难进行很细粒度的分类，只能基于服务节点的节点承载极限作为故障预警的判断依据，因此只能对因超过节点承载极限导致的故障进行预警，故障预警的准确性和精度较低。

在本申请中，为了提高故障预警的准确性和精度，提供了一种对云服务平台中的多个服务节点在发生故障前的节点状态指标和所运行项目的项目监测指标的指标值进行统计，将统计得到的多种故障类别的关键影响指标的指标值作为故障预警依据的故障预警方法。由于统计的历史故障数据不仅包括故障发生前的节点状态指标，还包括所运行项目的项目监测指标，因此可以对故障进行更细粒度的划分，对节点状态和运行项目等原因导致的多种故障类别进行预警。

需要说明的是，本申请实施例中的云服务平台可以采用Serverless(无服务)架构，也可以采用其他服务架构，本申请实施例对此不做限定。

示例性地，为了监测每个服务节点运行项目的项目监测指标，可以基于上述云服务平台上托管的容器构建不用管理任何运行环境、仅需编写核心代码的Serverless架构。Serverless架构将云服务平台上多个容器切分至容器中所运行的项目，让运行效率更高，让硬件软件维护更简单。基于Serverless架构进行故障预警有如下优势：

1)基于Serverless架构，可以监测云服务平台上的每个服务节点的节点状态指标，以及所运行项目的项目监测指标。而且，Serverless中运行的项目可以符合特定的规则，例如HTTP(HyperText Transfer Protocol，超文本传输协议)服务规则，定时任务规则，或内容规则等。项目符合一定的规则可以对故障进行更细粒度的划分，也能更好的对故障进行分类，总结故障出现时的一些规律。

2)因为Serverless架构可以监测服务节点所运行项目的项目监测指标，关注的维度较现有监控更广，因此在对因超过节点承载极限导致的故障进行预警外，还可以对因服务节点运行的项目所导致的故障进行预警，预警更精准。

因此，基于上述的云服务平台，本申请提供的故障预警方法是通过获取故障发生前的节点状态指标以及所运行项目的项目监测指标的指标值，得到每个故障类的关键影响指标的指标值，将得到的多个故障类的关键影响指标的指标值作为预警判断依据，依据上述预警判断依据进行故障预警。同时，也可以根据确定的每个故障类的关键影响指标分析每类故障的发生原因，总结故障的发生规律。

接下来，对本申请实施例涉及的实施环境进行解释说明。

图1是本申请实施例提供的一种云服务平台的系统架构图，如图1所示，该云服务平台的系统架构100包括管理器101和多个服务节点102，每个服务节点102可以运行项目，也可以监测自身的节点状态指标以及运行项目的项目监测指标，并将监测的指标值上报给管理器。管理器101用于对多个服务节点进行监测和管理。比如，可以获取每个服务节点102发生故障前的多项监测指标的指标值，并对获取的数据进行统计，得到多个故障类别的关键影响指标的指标值，然后根据多个故障类别的关键影响指标的指标值，对各个服务节点进行故障预警。每个服务节点102和管理器101之间通过有线或无线方式连接以进行通信。其中，每个服务节点可以为云服务平台托管的虚拟机或容器等。

图2是本申请实施例提供的另一种云服务平台的系统架构图，如图2所示，该云服务平台的系统架构200包括多个服务节点201，每个服务节点201可以运行项目，且每个服务节点201可以监测自身的节点状态指标以及运行项目的项目监测指标，还可以获取多个故障类别的关键影响指标的指标值，根据监测的指标值和多个故障类别的关键影响指标的指标值机进行故障预警。其中，多个故障类别的关键影响指标的指标值可以由服务节点自身根据历史故障数据进行统计得到，也可以从其他设备获取得到，本申请实施例对此不做限定。作为一个示例，每个服务节点201之间通过有线或无线方式连接以进行通信，以便于实现各个服务节点201进行数据共享。

需要说明的是，在本申请实施例中，对服务节点的数目不做限制，图1和图2中仅仅是以包含有6个服务节点的故障预警系统举例进行说明，并不构成对本申请实施例的限定。

本申请实施例中，可以对多个服务节点在发生故障之前的多项监测指标的指标值进行统计，得到多个故障类别的关键影响指标的指标值，并将此作为故障预警依据，下面先对故障预警依据的统计分析过程进行解释说明。

图3是本申请实施例提供的一种确定多种故障类别的关键影响指标的指标值的方法流程图，该方法应用于图1所示的管理器或图2所示的任一服务节点，该方法包括如下步骤：

步骤301：获取多个服务节点发生的多个历史故障的故障数据，每个历史故障的故障数据包括在每个历史故障发生之前的预设时长内采集的多项监测指标的指标值。

需要说明的是，多项监测指标包括云服务平台上发生对应历史故障的服务节点的节点状态指标以及服务节点所运行项目的项目监测指标。节点状态指标包括内存占用率和CPU占用率中的至少一种，项目监测指标包括运行的每个项目的项目完成时长和项目请求分发时长，以及运行的所有项目的平均请求数据大小和平均响应数据大小中的至少一种。

其中，项目请求分发时长也可以表示为proxy到worker的时长。其中，proxy指运行项目的一个服务节点，worker就是指每个项目的实例，proxy到worker的时长即为服务节点接收到请求的时候将该请求分发到这个请求对应的项目实例上所用的时间。

其中，项目完成时长是指从接收到项目请求到返回响应数据之间的时长，平均请求数据大小是指所有项目的项目请求的平均数据包大小，平均响应数据大小是指针对所有项目的项目请求返回的响应数据的平均数据包大小。

作为一个示例，可以获取每个服务节点所运行项目的项目请求的数据包大小，并对所有的项目请求的数据包大小求取平均值，得到平均请求数据大小。同理，可以获取每个服务节点针对所运行项目的项目请求返回的响应数据包大小，并针对所有的项目请求返回的数据包大小求取平均值，得到平均响应数据大小。

需要说明的是，多项监测指标的指标值包括但不限于上述节点状态指标和项目监测指标，还可以根据实际需求设置其他监测指标，本申请实施例对此不作限定。

其中，该预设时长可以预先设定，比如，预设时长可以为10分钟，20分钟，30分钟。预设时长内的多项监测指标的指标值可以反映该故障发生之前的指标值变化情况。

在一种可能的实现方式中，步骤301的实现过程可以为：服务节点监测所有历史故障发生之前的预设时长内采集的多项监测指标的指标值，并将监测得到的多项监测指标的指标值按照预设上报时间间隔上报到管理器。

其中，预设上报时间间隔可以预先设置，比如可以设置为1周或2周等。

示例性地，当预设时长为20分钟，预设上报时间间隔为1周，在这种情况下，管理器每周获取一次多个服务节点上报的指标值数据，该指标值数据是多个服务节点监测的所有历史故障发生之前的20分钟内采集的多项监测指标的指标值。管理器按照下述步骤302对获取的多项监测指标的指标值进行分类。

在另一种可能的实现方式中，步骤301的实现过程可以为：管理器监测多个服务节点在历史故障发生之前的预设时长内采集的多项监测指标的指标值。

步骤302：对多个历史故障进行分类，得到多种故障类别，每个故障类别包括至少一个历史故障。

对于云服务平台中的多个服务节点，每个服务节点可以在每次发生故障时产生本次故障对应的错误标识，因此可以基于多个历史故障对应的错误标识来对多个历史故障进行分类。其中，错误标识用于指示对应历史故障的故障类别，示例的，错误标识可以为错误码或错误名称，其中，错误码是发生故障时云服务平台的云函数根据发生的故障类型生成的用于表示该故障类别的编码。

在一种可能的实现方式中，步骤302的实现过程可以为：获取多个历史故障中每个历史故障对应的错误标识，根据错误标识对多个历史故障进行分类，将错误标识相同的历史故障划分为一个故障类别，以此确定多个故障类别。

示例性地，假设存在多个历史故障：故障A、故障B、故障C、故障D、故障E、故障F、故障G、故障H。获取的历史故障和错误标识的对应关系如下述表1所示。

表1

如表1所示，故障A和故障H的错误标识均为错误标识1，所以将故障A和故障H确定为第一类故障。同理，将故障B、故障D、故障E和故障G确定为第二类故障，将故障C和故障F确定为第三类故障。

步骤303：对于多种故障类别中的第二故障类别，根据多项监测指标，对第二故障类别的故障数据中的指标值进行分组，得到与多项监测指标一一对应的多个指标值组，第二故障类别为多种故障类别中的任一个。

由于每个监测指标的指标值变化都可能导致故障发生，因此对于获取的故障数据包含的多个指标值，需要确定这些指标值所属的监测指标，根据所属的监测指标进行分组。

在一种可能的实现方式中，步骤303的实现过程可以为：确定多个故障类别中每个故障类别所对应的故障数据，确定每个故障类别的所有故障数据中的指标值，按照对应的监测指标对每个故障类别包含的故障数据中的指标值进行分组，得到多个指标值组。每个指标值组包含同一监测指标对应的多个指标值。

示例性地，假设第二故障类别中包含有故障B、故障D、故障E和故障G。其中，故障B的故障数据中的指标值包括：第一监测指标的指标值a、第二监测指标的指标值数据b和第三监测指标的指标值数据c；故障D的故障数据中的指标值包括：第一监测指标的指标值d、第二监测指标的指标值数据e和第三监测指标对应的指标值f；故障E的故障数据中的指标值包括：第一监测指标的指标值g、第二监测指标的指标值h和第三监测指标的指标值i；故障G的故障数据中的指标值包括：第一监测指标的指标值j、第二监测指标的指标值k和第三监测指标的指标值l。

因此获取的第二故障类别的所有故障数据包括指标值a、指标值b、指标值c、指标值d、指标值e、指标值f、指标值g、指标值h、指标值i、指标值j、指标值k和指标值l。其中，指标值a、指标值d、指标值g和指标值j均为第一个监测指标对应的指标值，则将指标值a、指标值d、指标值g和指标值j分为一组，得到第一监测指标对应的指标值组；指标值b、指标值e、指标值h和指标值k均为第二个监测指标对应的指标值，则将指标值b、指标值e、指标值h和指标值k分为一组，得到第二监测指标对应的标值组；同理，指标值c、指标值f、指标值i和指标值l均为第三个监测指标对应的指标值，则将指标值c、指标值f、指标值i和指标值l分为一组，得到第三监测指标对应的标值组。通过上述操作将故障数据按照所属的监测指标分为三个指标值组，每组包括同一监测指标所对应的多个指标值。

步骤304：针对多个指标值组，对同一指标值组中的指标值进行聚类，根据聚类结果，从多个指标值组中确定第二故障类别的关键影响指标的指标值。

其中，针对划分后的多个指标值组，可以对每个指标值组中所有的指标值进行聚类，得到至少一个聚类簇，每个聚类簇对应有一个聚类中心，每个聚类中心为一个指标值。

其中，对同一指标值组中的指标值进行聚类所采用的聚类算法可以为K均值聚类算法，也可以为其他聚类算法，本申请实施例对此不做限定。

示例性地，可以对同一指标值组中的指标值进行K均值聚类，得到K个聚类簇，每个聚类簇包含一个聚类中心。其中，进行K均值聚类时所设定的K值可以为1，也可以为大于1的任一值，本申请实施例对此不做限定。比如，在进行K均值聚类时设定K＝1，则对同一指标值组中的多个指标值经过聚类后得到一个聚类簇，该聚类簇对应有一个聚类中心。

在一种可能的实现方式中，根据聚类结果，从多个指标值组中确定第二故障类别的关键影响指标的指标值的实现过程可以为：从聚类得到的所有聚类簇中，确定聚类离散度最小的聚类簇，将聚类离散度最小的聚类簇对应的监测指标确定为第二故障类别的关键影响指标。将聚类离散度最小的聚类簇的聚类中心确定为第二故障类别的关键影响指标的指标值。

其中，聚类离散度是进行聚类时根据聚类的数据确定聚类中心时计算得到的一个数值，用于指示聚类簇的聚类效果。而且，聚类簇的聚类离散度越小，聚类效果越好。

对应于图1所示的云服务平台的系统架构，管理器可以对每个服务节点在故障发生之前的多项监测指标的指标值进行统计，得到多个故障类别的关键影响指标的指标值。在统计得到多个故障类别的关键影响指标的指标值之后，可以将多个故障类别对应的关键影响指标的指标值进行存储，由管理器根据存储的多个故障类别的关键影响指标的指标值对各个服务节点进行故障预警，也可以将统计得到的多个故障对应的关键影响指标的指标值发送至各个服务节点，由服务节点根据接收的多个故障类别的关键影响指标的指标值进行故障预警。

对应于图2所示的云服务平台的系统架构，也可以由各个服务节点对故障发生之前的多项监测指标的指标值进行统计，得到多个故障类别的关键影响指标的指标值，并将该服务节点确定的关键影响指标的指标值同步至其他服务节点，保证每个服务节点均存储所有服务节点确定的关键影响指标的指标值。

在本申请实施例中，可以统计每个服务节点在故障发生之前的预设时长内的每个服务节点的节点状态指标的指标值，以及每个服务节点所运行项目的项目监测指标的指标值，并对这些指标值进行聚类分析最终得到每个故障类别的关键影响指标的指标值，将得到的关键影响指标的指标值作为故障预警依据。如此，可以对发生的故障进行更细粒度的划分，能够对发生的故障进行分类，以及总结每个故障类别发生时的一些规律，得到每个故障类别的关键影响指标和具体的指标值，便于后续对每个故障类别进行准确预警。

基于上述确定的每个故障类别的关键影响指标和具体的指标值，可以以此作为故障报警依据在对服务节点进行监测时进行故障预警，下面对该过程进行解释说明。

图4本申请实施例提供的一种故障预警的方法流程图，该方法应用于云服务系统架构中图1所示的管理器或图2所示的任一服务节点，该方法包括如下步骤：

步骤401：获取目标服务节点的多项监测指标的指标值，多项监测指标包括目标服务节点的节点状态指标以及目标服务节点所运行项目的项目监测指标，目标服务节点为云服务平台中的任一服务节点。

需要说明的是，节点状态指标包括内存占用率和CPU占用率中的至少一种，项目监测指标包括运行的每个项目的项目完成时长和项目请求分发时长，以及运行的所有项目的平均请求数据大小和平均响应数据大小中的至少一种。

需要说明的是，步骤401中获取目标服务节点的多项监测指标的指标值的实现方式可以参考图3实施例的步骤301中的相关描述，本申请实施例在此不再赘述。

步骤402：将多项监测指标的指标值与已存储的多种故障类别的关键影响指标的指标值进行比较，关键影响指标为多项监测指标中的至少一项，多种故障类别的关键影响指标的指标值是对云服务平台中的多个服务节点在发生故障之前的预设时长内的多项监测指标的指标值进行统计得到。

在一种可能的实现方式中，步骤402的实现过程为：将多项监测指标的指标值依次与存储的关键影响指标值进行比较，确定监测指标的指标值与关键影响指标值的差值。

对于多种故障类别中的第一故障类别，如果根据比较结果确定多项监测指标中的参考监测指标的指标值与第一故障类别的关键影响指标的指标值之间的差值在预设数值范围内，则确定目标服务节点符合第一故障类别的故障预警条件；如果根据比较结果确定多项监测指标中的参考监测指标的指标值与第一故障类别的关键影响指标的指标值之间的差值不在预设数值范围内，则确定目标服务节点不符合第一故障类别的故障预警条件。

其中，参考监测指标是指多项监测指标中与第一故障类别的关键影响指标相同的监测指标。预设数值范围可以预先设置，可以为0，也可以为其他数值。示例的，预设数值范围为：内存占用上升≥200MB，CPU占用率≥10％，项目完成时长和项目请求分发时长上升≥20％。

步骤403：若根据比较结果确定目标服务节点符合第一故障类别的故障预警条件，则对目标服务节点进行第一故障类别的故障预警，第一故障类别为多种故障类别中的任一种。

在一种可能的实现方式中，在对目标服务节点进行第一故障类别的故障预警时，可以显示故障报警信息，或者向参考设备发送故障报警信息，其中，故障报警信息用于指示目标服务节点发生第一故障类别的故障。比如，该故障报警信息为：“xx服务节点发生xx故障！”。其中，参考设备可以为管理人员端或者开发人员端的电子设备。

另外，在显示故障报警信息，或者向参考设备发送故障报警信息时，还可以发出报警声音，以提示管理人员及时处理故障报警信息。当然，也可以采用其他方式进行故障预警，本申请实施例对所采用的故障预警方式不做限定。

上述所有可选技术方案，均可按照任意结合形成本申请的可选实施例，本申请实施例对此不再一一赘述。

图5是本申请实施例提供的一种故障预警装置的结构示意图，应用于云服务平台的系统架构中，该故障预警装置可以由软件、硬件或者两者的结合实现，该故障预警装置500包括：

第一获取模块501，用于获取目标服务节点的多项监测指标的指标值，多项监测指标包括目标服务节点的节点状态指标以及目标服务节点所运行项目的项目监测指标，目标服务节点为云服务平台中的任一服务节点；

比较模块502，用于将多项监测指标的指标值与已存储的多种故障类别的关键影响指标的指标值进行比较，关键影响指标为多项监测指标中的至少一项，多种故障类别的关键影响指标的指标值是对云服务平台中的多个服务节点在发生故障之前的预设时长内的多项监测指标的指标值进行统计得到；

预警模块503，用于若根据比较结果确定目标服务节点符合第一故障类别的故障预警条件，则对目标服务节点进行第一故障类别的故障预警，第一故障类别为多种故障类别中的任一种。

可选地，节点状态指标包括内存占用率和中央处理器CPU占用率中的至少一种，项目监测指标包括运行的每个项目的项目完成时长和项目请求分发时长，以及运行的所有项目的平均请求数据大小和平均响应数据大小中的至少一种；

可选地，装置还包括：

第一确定模块，用于若根据比较结果确定多项监测指标中的参考监测指标的指标值与第一故障类别的关键影响指标的指标值之间的差值在预设数值范围内，则确定目标服务节点符合第一故障类别的故障预警条件，参考监测指标是指多项监测指标中与第一故障类别的关键影响指标相同的监测指标。

可选地，预警模块503，具体用于：

显示故障报警信息，或者向参考设备发送故障报警信息，故障报警信息用于指示目标服务节点发生第一故障类别的故障。

可选地，装置还包括：

第二获取模块，用于获取多个服务节点发生的多个历史故障的故障数据，每个历史故障的故障数据包括在每个历史故障发生之前的预设时长内采集的多项监测指标的指标值；

分类模块，用于对多个历史故障进行分类，得到多种故障类别，每个故障类别包括至少一个历史故障；

分组模块，用于对于多种故障类别中的第二故障类别，根据多项监测指标，对第二故障类别的故障数据中的指标值进行分组，得到与多项监测指标一一对应的多个指标值组，第二故障类别为多种故障类别中的任一个；

第二确定模块，用于针对多个指标值组，对同一指标值组中的指标值进行聚类，根据聚类结果，从多个指标值组中确定第二故障类别的关键影响指标的指标值。

可选地，第二确定模块，具体用于：

可选地，聚类结果包括每个指标值组对应的至少一个聚类簇，每个聚类簇包含一个聚类中心；

第二确定模块，包括：

第二确定子模块，用于将聚类离散度最小的聚类簇对应的监测指标确定为第二故障类别的关键影响指标；

第三确定子模块，用于将聚类离散度最小的聚类簇的聚类中心，确定为第二故障类别的关键影响指标的指标值。

需要说明的是：上述实施例提供的故障预警装置在进行故障预警时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将故障预警装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的故障预警装置与故障预警方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是本发明实施例提供的一种故障预警装置600的结构示意图，该故障预警装置600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)601和一个或一个以上的存储器602，其中，存储器602中存储有至少一条指令，至少一条指令由处理器601加载并执行以实现上述各个方法实施例提供的故障预警方法。当然，该故障预警装置600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该故障预警装置600还可以包括其他用于实现设备功能的部件，在此不做赘述。其中，该故障预警装置可以为管理器，也可以为任一服务节点。

在另一实施例中，还提供了一种非临时性计算机可读存储介质，当该存储介质中的指令由故障预警装置的处理器执行时，使得故障预警装置能够执行上述实施例提供的故障预警方法。

在另一实施例中，还提供了一种包含指令的计算机程序产品，当其在故障预警装置上运行时，使得故障预警装置执行上述实施例提供的故障预警方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种故障预警方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述节点状态指标包括内存占用率和中央处理器CPU占用率中的至少一种，所述项目监测指标包括运行的每个项目的项目完成时长和项目请求分发时长，以及运行的所有项目的平均请求数据大小和平均响应数据大小中的至少一种；

3.根据权利要求1所述的方法，其特征在于，所述对所述目标服务节点进行所述第一故障类别的故障预警之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述目标服务节点进行所述第一故障类别的故障预警，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述将所述多项监测指标的指标值与已存储的多种故障类别的关键影响指标的指标值进行比较之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述对同一指标值组中的指标值进行聚类，包括：

7.根据权利要求5所述的方法，其特征在于，所述聚类结果包括每个指标值组对应的至少一个聚类簇，每个聚类簇包含一个聚类中心；

8.一种故障预警装置，其特征在于，所述装置包括：

9.一种故障预警装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述权利要求1至权利要求7中的任一项权利要求所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述权利要求1至权利要求7中的任一项权利要求所述的方法的步骤。