CN105243004A

CN105243004A - 一种故障资源检测方法及装置

Info

Publication number: CN105243004A
Application number: CN201510585262.3A
Authority: CN
Inventors: 张兰英; 刘俊朋; 刘成平
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-09-15
Filing date: 2015-09-15
Publication date: 2016-01-13

Abstract

本发明提供了一种故障资源检测方法及装置，其中，所述方法包括：S0：分别设置每一个资源产生告警信息的告警策略；S1：获取至少两个目标资源之间的依赖关系；S2：获取每一个目标资源根据对应的告警策略产生的告警信息；S3：根据获取的每一个告警信息以及所述依赖关系，确定所述至少两个目标资源中的故障资源。通过本发明的技术方案，可准确定位故障资源，以使对该故障资源进行相应的处理，可相应解决其他产生告警信息的目标资源存在的问题，进而减轻运维人员的工作量。

Description

一种故障资源检测方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种故障资源检测方法及装置。

背景技术

云资源是指云环境下可从动态虚拟化的资源池中向用户按需提供计算能力、存储能力或者虚拟机服务等的应用服务程序以及装置等。

目前，对云环境下的资源进行故障检测时，需要对每一个资源进行分别检测，当任一资源出现非正常工作现象或资源的任一参数达到预先设置的对应该资源的告警阀值时，则会产生对应该资源的告警信息，运维工作人员即可确定产生该告警信息的资源为故障资源，进而对该资源进行相应的处理。

但是，云环境下的很多资源存在依赖关系，被依赖资源非正常工作可直接导致依赖于该被依赖资源的每一个资源均出现非正常工作，依赖于该被依赖资源的每一个资源自身并没有发生故障；而在该技术方案中，运维人员需要根据每一个告警信息对每一个产生告警信息的资源均进行相应的处理，运维人员的工作量较高。

发明内容

有鉴于此，本发明提供了一种故障资源检测方法及装置，可减轻运维人员的工作量。

第一方面，本发明提供了一种故障资源检测方法，包括：

S0：分别设置每一个资源产生告警信息的告警策略；

S1：获取至少两个目标资源之间的依赖关系；

S2：获取每一个目标资源根据对应的告警策略产生的告警信息；

S3：根据获取的每一个告警信息以及所述依赖关系，确定所述至少两个目标资源中的故障资源。

进一步的，所述分别设置每一个资源产生告警信息的告警策略，包括：

针对所有资源设置至少一个告警等级；

针对每一个当前资源，设置当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件，以使每一个资源满足告警条件时产生对应的告警信息，其中，所述告警信息包括告警等级。

进一步的，

所述资源包括：集群、主机、虚拟机、存储设备、服务器、操作系统、数据库和web服务中的一个或多个；

在所述资源包括集群时，设置所述集群需要监控的项目至少包括以下项目中的一项：cpu利用率、内存利用率、存储利用率、网络接口流量；

在所述资源包括主机时，设置所述主机需要监控的项目至少包括以下项目中的一项：cpu利用率、内存利用率、存储利用率、网络接口流量；

在所述资源包括虚拟机时，设置所述虚拟机需要监控的项目至少包括以下项目中的一项：cpu利用率、内存利用率、存储利用率、网络接口流量；

在所述资源包括存储设备时，设置所述存储设备需要监控的项目包括：存储利用率；

在所述资源包括服务器时，设置所述服务器需要监控的项目包括：电压传感器的工作电压；

在所述资源包括操作系统时，设置所述操作系统需要监控的项目包括：能否ping通；

在所述资源包括数据库时，设置所述数据库需要监控的项目至少包括以下项目中的一项:连接响应时间、数据库表空间利用率、日志缓冲区重试率；

在所述资源包括web服务时，设置所述web服务需要监控的项目包括：流量传输速率。

进一步的，所述根据获取的每一个告警信息以及所述依赖关系，确定所述至少两个目标资源中的故障资源，包括：

根据所述依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表；

根据所述有向链表以及每一个告警信息，确定最高告警等级对应目标资源所在的目标分支链路；将目标分支链路中最高告警等级对应的目标资源中优先级最高的目标资源确定为故障资源；

其中，所述有向链表中，被依赖资源的优先级高于依赖资源的优先级。

进一步的，所述步骤S1之前还包括：

根据用户业务需求自定义需要检测的至少两个目标资源。

第二方面，本发明提供了一种故障资源检测装置，包括：

存储单元，用于分别存储每一个资源产生告警信息的告警策略；

第一获取单元，用于获取至少两个目标资源之间的依赖关系；

第二获取单元，用于获取每一个目标资源根据对应的告警策略产生的告警信息；

确定单元，用于根据获取的每一个告警信息以及所述依赖关系，确定所述至少两个目标资源中的故障资源。

进一步的，

所述存储单元，用于存储针对所有资源设置的至少一个告警等级；存储针对每一个当前资源，设置的当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件，以使每一个资源满足告警条件时产生对应的告警信息，其中，所述告警信息包括告警等级。

进一步的，

所述存储单元，用于在所述资源包括主机时，设置所述主机需要监控的项目至少包括以下项目中的一项：cpu利用率、内存利用率、存储利用率、网络接口流量；

进一步的，

所述确定单元，用于根据所述依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表；

进一步的，还包括：

处理单元，用于根据用户业务需求自定义需要检测的至少两个目标资源。

通过本发明的一种故障资源检测方法及装置，预先设置每一个资源产生告警信息的告警策略，获取每一个目标资源之间的依赖关系，当目标资源根据对应的告警策略产生告警信息时，根据产生的每一个告警信息分别对应的目标资源之间的依赖关系准确定位产生告警信息的目标资源中包括的故障资源，以使对该故障资源进行相应的处理，可相应解决其他产生告警信息的目标资源存在的问题，进而减轻运维人员的工作量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种故障资源检测方法的流程图；

图2是本发明一实施例提供的另一种故障资源检测方法的流程图；

图3时本发明一实施例中建立的有向链表示意图；

图4是本发明一实施例提供的故障资源检测装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种故障资源检测方法，该方法可以包括以下步骤：

S0：分别设置每一个资源产生告警信息的告警策略；

S1：获取至少两个目标资源之间的依赖关系；

通过本发明的一种故障资源检测方法，预先设置每一个资源产生告警信息的告警策略，获取每一个目标资源之间的依赖关系，当目标资源根据对应的告警策略产生告警信息时，根据产生的每一个告警信息分别对应的目标资源之间的依赖关系准确定位产生告警信息的目标资源中包括的故障资源，以使对该故障资源进行相应的处理，可相应解决其他产生告警信息的目标资源存在的问题，进而减轻运维人员的工作量。

进一步的，由于各个资源的特性并不相同，同时，各个资源出现非正常工作现象时，对应的待解决的问题的重要程度也并不相同，因此，可根据每一个资源本身的特性设置需要监控的项目，以及当前需要监控的项目具体的工作参数对应相应告警等级的标准，以使运维人员可优先处理告警信息中对应的重要程度较高的问题，具体地，本发明一个优选实施例中，所述分别设置每一个资源产生告警信息的告警策略，包括：针对所有资源设置至少一个告警等级；针对每一个当前资源，设置当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件，以使每一个资源满足告警条件时产生对应的告警信息，其中，所述告警信息包括告警等级。

其中，所述资源包括但不限于集群、主机、虚拟机、存储设备、服务器、操作系统、数据库、web服务；

需要说明的是，云环境下的资源包括但不限于上述资源，且上述各个资源对应的需要监控的项目还可以包括其他项目，比如，web服务对应的监控项目还可以包括：交互信息的数量，可结合实际需求合理设置云环境下每一个资源对应的需要监控的项目。

进一步的，由于云环境下的资源之间存在一定的依赖关系，比如，数据库依赖于存储设备，当存储设备非正常工作时，可直接导致依赖于该存储设备的数据库也出现非正常工作现象，该存储设备以及对应的数据库均会产生告警信息，这时，运维人员并不能准确定位故障源为该存储设备，需要对产生告警信息的每一个目标资源进行相应的处理以确定故障源，运维人员的工作量比较高，因此，为了准确定位故障源，以便运维工作人员可直接对故障源进行相应的处理，本发明一个优选实施例中，所述根据获取的每一个告警信息以及所述依赖关系，确定所述至少两个目标资源中的故障资源，包括：

需要说明的是，针对产生告警信息的目标资源进行建立有向链表时，可以包括多个有向链表，且每一个有向链表中可以包括多个分支链路。

本实施例中，还可以针对全部目标资源建立有向链表。

进一步的，由于上述实施例中将告警等级高且依赖关系优先级最高的目标资源确定为故障源，运维工作人员对该故障源进行相应的处理后，可相应的解决其他产生告警信息的目标资源中，依赖于该故障资源的目标资源存在的问题，进一步节省了运维人员的工作量，但是，对确定的故障源进行相应的处理并不能保证其他产生告警信息的目标资源存在的问题被完全解决；因此，为了保证每一个告警信息对应的目标资源存在的问题都可以被解决，本发明一个优选实施例中，所述步骤S3之后还可以包括：对步骤S3中确定的故障资源进行相应的处理，然后重新执行步骤S2。

进一步的，由于云环境下的资源较多，对每一个资源进行分别监控时，成本较高，而对于云环境下没有进行相应工作的资源，没有必要进行相应的监控；因此，为了节约成本，实现按需监控，本发明一个优选实施例中，所述步骤S1之前还包括：根据用户业务需求自定义需要检测的至少两个目标资源。

本发明实施例中，还可以通过工作人员根据管理需求自定义至少两个存在依赖关系的资源为目标资源。

为使本发明的目的、技术方案和优点更加清楚，下面结合附图及具体实施例对本发明作进一步地详细描述。

如图2所示，本发明实施例提供了另一种故障资源检测方法，该方法可以包括以下步骤：

步骤201，针对每一个资源分别设置至少一个告警等级。

步骤202，针对每一个当前资源，设置当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件。

步骤201至步骤202中，针对云环境下的每一个资源，分别根据当前资源的特性设置对应的需要监控的项目以及告警等级，比如，告警等级包括以下三个等级：轻微告警、中度告警、严重告警，其中严重告警的告警等级最高，轻微告警的告警等级最低，需要说明的是，告警等级数量的设置可根据管理需求进行合理设置。

本实施例中，云环境下的资源可以包括：集群、主机、虚拟机、存储设备、服务器、操作系统、数据库、web服务。

其中，集群需要监控的项目至少包括以下项目中的一项：cpu利用率、内存利用率、存储利用率、网络接口流量；

针对每一个需要监控的项目，可以分别设置为如下工作参数以及对应的告警等级：

A、cpu利用率：CPU利用率大于70％，且不大于80％时，对应告警等级为轻微告警；CPU利用率大于80％，且不大于90％时，对应告警等级为中度告警；当CPU利用率大于90％时，对应告警等级为严重告警；

B、内存利用率：当内存利用率大于70％，且不大于80％时，对应告警等级为轻微告警；当内存利用率大于80％，且不大于90％时，对应告警等级为中度告警；当内存利用率大于90％时，对应告警等级为严重告警；

C、网络接口流量：当网络接口流量大于800000KBps，且不大于1000000KBps时，对应告警等级为轻微告警；当网络接口流量大于1000000KBps，且不大于1200000KBps时，对应告警等级为中度告警；当网络接口流量大于1200000KBps时，对应告警等级为严重告警。

需要说明的是，主机、虚拟机与上述集群需要监控的项目及工作参数对应的告警等级相同或相似，本实施例在此不再具体赘述。

存储设备需要监控的项目可以包括：存储利用率；

该项目可以设置为如下工作参数以及对应的告警等级：

存储利用率：当存储利用率大于70％，且不大于80％时，对应告警等级为轻微告警；当存储利用率大于80％，且不大于90％时，对应告警等级为中度告警；当存储利用率大于90％时，对应告警等级为严重告警。

服务器需要监控的项目可以包括：电压传感器的工作电压；

这里，电压传感器的工作电压范围包括：2V—14V；

该项目可以设置为如下工作参数以及对应的告警等级：

电压传感器的工作电压：当工作电压大于10.4V，且不大于11.6V时，对应告警等级为轻微告警；当工作电压大于11.6V，且不大于12.8V时，对应告警等级为中度告警；当工作电压大于12.8V时，对应告警等级为严重告警。

操作系统需要监控的项目可以包括：能否ping通；

该项目可以设置为如下工作参数以及对应的告警等级：

如果不能ping通，则对应告警等级为严重告警；如果能ping通，则不产生告警信息。

虚拟机需要监控的项目可以包括以下项目中的一项或多项:连接响应时间、数据库表空间利用率、日志缓冲区重试率；

A、连接响应时间：当连接响应时间大于10s，且不大于20s时，对应告警等级为轻微告警；当连接响应时间大于20s，且不大于50s时，对应告警等级为中度告警；当连接响应时间大于50s时，对应告警等级为严重告警；

B、数据库表空间利用率：当数据库表空间利用率大于70％，且不大于80％时，对应告警等级为轻微告警；当数据库表空间利用率大于80％，且不大于90％时，对应告警等级为中度告警；当数据库表空间利用率大于90％时，对应告警等级为严重告警。

C、日志缓冲区重试率：当日志缓冲区重试率大于5％，且不大于10％时，对应告警等级为轻微告警；当日志缓冲区重试率大于10％，且不大于20％时，对应告警等级为中度告警；当日志缓冲区重试率大于20％时，对应告警等级为严重告警。

web服务需要监控的项目可以包括：流量情况；

该项目可以设置为如下工作参数以及对应的告警等级：

流量情况：当流量大于800000KBps，且不大于1000000KBps时，对应告警等级为轻微告警；当流量大于1000000KBps，且不大于1200000KBps时，对应告警等级为中度告警；当流量大于1200000KBps时，对应告警等级为严重告警。

需要说明的是，云环境下的资源包括但不限于上述资源，针对每一个资源分别设置对应的需要检测的项目以及具体的工作参数对应的告警等级，可结合每一个资源各自的特性以及实际需求合理设置。

步骤203，自定义需要监控的目标资源。

本实施例中，为了节约成本，不必对云环境的每一个资源均进行相应的监控，可根据用户业务需求或者工作人员的管理需求结合各个资源之间的依赖关系自定义需要监控的目标资源，进而实现按需监控。

步骤204，获取每一个目标资源之间的依赖关系。

步骤205，获取每一个目标资源产生的告警信息。

本实施例中，获取到的告警信息包括对应的告警等级。

需要说明的是，如果当前目标资源存在多个被监控的项目时，获取到的告警信息中包括的告警等级为：当前目标资源的各个被监控项目中对应的最高告警等级；同时，对应的告警信息中还可以包括对应该最高告警等级的被监控项目的信息，以便运维工作人员可根据该被监控项目的信息进行相应的处理。

步骤206，根据依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表。

需要说明的是，本实施例中，还可以针对全部目标资源建立有向链表。

本实施例中，根据依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表时，可以包括多个有向链表，且每一个有向链表中可以包括多个分支链路；如图3所示的一个有向链表，包括产生相应告警信息的目标资源：A1、A2、A3、B1、B2、C，其中，有向链表中各个目标资源的依赖关系为：有向链表起始方向对应的目标资源为依赖资源，有向链表终止方向对应的目标资源为被依赖资源，被依赖资源的优先级高于依赖资源的优先级。

步骤207，确定最高告警等级对应目标资源所在的目标分支链路；将目标分支链路中最高告警等级对应的目标资源中优先级最高的目标资源确定为故障资源。

由于运维工作人员根据相应的告警信息对产生告警信息的目标资源进行相应的处理时，通常需要优先处理严重程度较高的问题，因此，确定的故障资源应为对应告警等级最高的目标资源。

比如，每一个产生告警信息的目标资源分别对应的告警等级如下：

目标资源A1对应告警等级为：严重告警；

目标资源A2对应告警等级为：严重告警；

目标资源A3对应告警等级为：轻微告警；

目标资源B1对应告警等级为：轻微告警；

目标资源B2对应告警等级为：严重告警；

目标资源C对应告警等级为：轻微告警；

则，首先确定告警等级最高的资源包括A1、A2、B2；结合步骤206中所建立的有向链表，确定A1、A2、B2所在的分支链路；目标资源A1、B1、C构成的分支链路中，只有A1对应的告警等级最高，因此，确定A1为故障资源；目标资源A2、B2、C构成的分支链路中，A2、B2对应的告警等级最高，且B2依赖于A2，即A2的优先级高于B2，因此，确定A2为故障资源。

步骤208，对步骤207中确定的故障资源进行相应的处理，然后返回步骤204。

本实施例中，对步骤207中确定的故障资源进行相应的处理，可相应的解决依赖于确定的故障资源的目标资源存在的问题；比如，故障资源A2为存储设备，B2为建立在存储设备A2上的数据库，当存储设备A2故障致无法正常工作时，可同时导致数据库B2无法正常工作，这时存储设备A2、数据库B2均会产生相应的告警信息，运维人员通过步骤207确定故障资源为存储设备A2后，可直接对存储设备A2进行相应的处理以使存储设备A2恢复正常工作；由于数据库B2无法正常工作的原因是其依赖的存储设备A2无法正常工作，数据库B2自身并没出现故障，因此，对A2进行相应的处理以恢复正常工作后，B2也可相应的恢复正常工作。

但是，数据库B2产生告警信息的原因也可能是其本身发生故障，而与存储设备A2无关，相应的，对故障资源A1、A2进行相应的处理以恢复正常工作后，可能并没有解决数据库B2存在的问题，因此，可重新执行步骤204，直到解决每一个故障资源存在的问题为止。

如图4所示，本发明实施例提供的一种故障资源检测装置，可以包括：

存储单元401，用于分别存储每一个资源产生告警信息的告警策略；

第一获取单元402，用于获取至少两个目标资源之间的依赖关系；

第二获取单元403，用于获取每一个目标资源根据对应的告警策略产生的告警信息；

确定单元404，用于根据获取的每一个告警信息以及所述依赖关系，确定所述至少两个目标资源中的故障资源。

进一步的，由于各个资源的特性并不相同，同时，各个资源出现非正常工作现象时，对应的待解决的问题的重要程度也并不相同，为了使运维人员可优先处理告警信息中对应的重要程度较高的问题，需要预先设置相应的规则并进行存储，目标资源可根据相应的规则产生告警信息以使运维人员根据相应的告警信息对产生告警信息的目标资源进行相应的处理；在一种可能实现的方式中，

所述存储单元401，用于存储针对所有资源设置的至少一个告警等级；存储针对每一个当前资源，设置的当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件，以使每一个资源满足告警条件时产生对应的告警信息，其中，所述告警信息包括告警等级。

具体地，所述存储单元401，用于在所述资源包括主机时，设置所述主机需要监控的项目至少包括以下项目中的一项：cpu利用率、内存利用率、存储利用率、网络接口流量；

进一步的，为了准确定位故障源，以便运维工作人员可直接对故障源进行相应的处理，在一中可能实现的方式中，

所述确定单元404，用于根据所述依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表；

进一步的，为了节约成本，实现按需监控，在一种可能实现的方式中，还包括：

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例至少具有如下有益效果：

1、预先设置每一个资源产生告警信息的告警策略，获取每一个目标资源之间的依赖关系，当目标资源根据对应的告警策略产生告警信息时，根据产生的每一个告警信息分别对应的目标资源之间的依赖关系准确定位产生告警信息的目标资源中包括的故障资源，以使对该故障资源进行相应的处理，可相应解决其他产生告警信息的目标资源存在的问题，进而减轻运维人员的工作量。

2、结合用户业务需求和/或管理需求合理设置需要监控的目标资源，实现按需监控，节约成本。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种故障资源检测方法，其特征在于，包括：分别设置每一个资源产生告警信息的告警策略，还包括：

S1：获取至少两个目标资源之间的依赖关系；

2.根据权利要求1所述的方法，其特征在于，所述分别设置每一个资源产生告警信息的告警策略，包括：

针对所有资源设置至少一个告警等级；

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求2所述的方法，其特征在于，所述根据获取的每一个告警信息以及所述依赖关系，确定所述至少两个目标资源中的故障资源，包括：

5.根据权利要求1-4中任一所述的方法，其特征在于，所述步骤S1之前还包括：

根据用户业务需求自定义需要检测的至少两个目标资源。

6.一种故障资源检测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，

8.根据权利要求7所述的装置，其特征在于，

9.根据权利要求7所述的装置，其特征在于，

10.根据权利要求6-9中任一所述的装置，其特征在于，还包括：