CN105243004A - 一种故障资源检测方法及装置 - Google Patents

一种故障资源检测方法及装置 Download PDF

Info

Publication number
CN105243004A
CN105243004A CN201510585262.3A CN201510585262A CN105243004A CN 105243004 A CN105243004 A CN 105243004A CN 201510585262 A CN201510585262 A CN 201510585262A CN 105243004 A CN105243004 A CN 105243004A
Authority
CN
China
Prior art keywords
resource
project
monitoring
warning information
needs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510585262.3A
Other languages
English (en)
Inventor
张兰英
刘俊朋
刘成平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510585262.3A priority Critical patent/CN105243004A/zh
Publication of CN105243004A publication Critical patent/CN105243004A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种故障资源检测方法及装置,其中,所述方法包括:S0:分别设置每一个资源产生告警信息的告警策略;S1:获取至少两个目标资源之间的依赖关系;S2:获取每一个目标资源根据对应的告警策略产生的告警信息;S3:根据获取的每一个告警信息以及所述依赖关系,确定所述至少两个目标资源中的故障资源。通过本发明的技术方案,可准确定位故障资源,以使对该故障资源进行相应的处理,可相应解决其他产生告警信息的目标资源存在的问题,进而减轻运维人员的工作量。

Description

一种故障资源检测方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种故障资源检测方法及装置。
背景技术
云资源是指云环境下可从动态虚拟化的资源池中向用户按需提供计算能力、存储能力或者虚拟机服务等的应用服务程序以及装置等。
目前,对云环境下的资源进行故障检测时,需要对每一个资源进行分别检测,当任一资源出现非正常工作现象或资源的任一参数达到预先设置的对应该资源的告警阀值时,则会产生对应该资源的告警信息,运维工作人员即可确定产生该告警信息的资源为故障资源,进而对该资源进行相应的处理。
但是,云环境下的很多资源存在依赖关系,被依赖资源非正常工作可直接导致依赖于该被依赖资源的每一个资源均出现非正常工作,依赖于该被依赖资源的每一个资源自身并没有发生故障;而在该技术方案中,运维人员需要根据每一个告警信息对每一个产生告警信息的资源均进行相应的处理,运维人员的工作量较高。
发明内容
有鉴于此,本发明提供了一种故障资源检测方法及装置,可减轻运维人员的工作量。
第一方面,本发明提供了一种故障资源检测方法,包括:
S0:分别设置每一个资源产生告警信息的告警策略;
S1:获取至少两个目标资源之间的依赖关系;
S2:获取每一个目标资源根据对应的告警策略产生的告警信息;
S3:根据获取的每一个告警信息以及所述依赖关系,确定所述至少两个目标资源中的故障资源。
进一步的,所述分别设置每一个资源产生告警信息的告警策略,包括:
针对所有资源设置至少一个告警等级;
针对每一个当前资源,设置当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件,以使每一个资源满足告警条件时产生对应的告警信息,其中,所述告警信息包括告警等级。
进一步的,
所述资源包括:集群、主机、虚拟机、存储设备、服务器、操作系统、数据库和web服务中的一个或多个;
在所述资源包括集群时,设置所述集群需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括主机时,设置所述主机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括虚拟机时,设置所述虚拟机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括存储设备时,设置所述存储设备需要监控的项目包括:存储利用率;
在所述资源包括服务器时,设置所述服务器需要监控的项目包括:电压传感器的工作电压;
在所述资源包括操作系统时,设置所述操作系统需要监控的项目包括:能否ping通;
在所述资源包括数据库时,设置所述数据库需要监控的项目至少包括以下项目中的一项:连接响应时间、数据库表空间利用率、日志缓冲区重试率;
在所述资源包括web服务时,设置所述web服务需要监控的项目包括:流量传输速率。
进一步的,所述根据获取的每一个告警信息以及所述依赖关系,确定所述至少两个目标资源中的故障资源,包括:
根据所述依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表;
根据所述有向链表以及每一个告警信息,确定最高告警等级对应目标资源所在的目标分支链路;将目标分支链路中最高告警等级对应的目标资源中优先级最高的目标资源确定为故障资源;
其中,所述有向链表中,被依赖资源的优先级高于依赖资源的优先级。
进一步的,所述步骤S1之前还包括:
根据用户业务需求自定义需要检测的至少两个目标资源。
第二方面,本发明提供了一种故障资源检测装置,包括:
存储单元,用于分别存储每一个资源产生告警信息的告警策略;
第一获取单元,用于获取至少两个目标资源之间的依赖关系;
第二获取单元,用于获取每一个目标资源根据对应的告警策略产生的告警信息;
确定单元,用于根据获取的每一个告警信息以及所述依赖关系,确定所述至少两个目标资源中的故障资源。
进一步的,
所述存储单元,用于存储针对所有资源设置的至少一个告警等级;存储针对每一个当前资源,设置的当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件,以使每一个资源满足告警条件时产生对应的告警信息,其中,所述告警信息包括告警等级。
进一步的,
所述存储单元,用于在所述资源包括主机时,设置所述主机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括虚拟机时,设置所述虚拟机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括存储设备时,设置所述存储设备需要监控的项目包括:存储利用率;
在所述资源包括服务器时,设置所述服务器需要监控的项目包括:电压传感器的工作电压;
在所述资源包括操作系统时,设置所述操作系统需要监控的项目包括:能否ping通;
在所述资源包括数据库时,设置所述数据库需要监控的项目至少包括以下项目中的一项:连接响应时间、数据库表空间利用率、日志缓冲区重试率;
在所述资源包括web服务时,设置所述web服务需要监控的项目包括:流量传输速率。
进一步的,
所述确定单元,用于根据所述依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表;
根据所述有向链表以及每一个告警信息,确定最高告警等级对应目标资源所在的目标分支链路;将目标分支链路中最高告警等级对应的目标资源中优先级最高的目标资源确定为故障资源;
其中,所述有向链表中,被依赖资源的优先级高于依赖资源的优先级。
进一步的,还包括:
处理单元,用于根据用户业务需求自定义需要检测的至少两个目标资源。
通过本发明的一种故障资源检测方法及装置,预先设置每一个资源产生告警信息的告警策略,获取每一个目标资源之间的依赖关系,当目标资源根据对应的告警策略产生告警信息时,根据产生的每一个告警信息分别对应的目标资源之间的依赖关系准确定位产生告警信息的目标资源中包括的故障资源,以使对该故障资源进行相应的处理,可相应解决其他产生告警信息的目标资源存在的问题,进而减轻运维人员的工作量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种故障资源检测方法的流程图;
图2是本发明一实施例提供的另一种故障资源检测方法的流程图;
图3时本发明一实施例中建立的有向链表示意图;
图4是本发明一实施例提供的故障资源检测装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种故障资源检测方法,该方法可以包括以下步骤:
S0:分别设置每一个资源产生告警信息的告警策略;
S1:获取至少两个目标资源之间的依赖关系;
S2:获取每一个目标资源根据对应的告警策略产生的告警信息;
S3:根据获取的每一个告警信息以及所述依赖关系,确定所述至少两个目标资源中的故障资源。
通过本发明的一种故障资源检测方法,预先设置每一个资源产生告警信息的告警策略,获取每一个目标资源之间的依赖关系,当目标资源根据对应的告警策略产生告警信息时,根据产生的每一个告警信息分别对应的目标资源之间的依赖关系准确定位产生告警信息的目标资源中包括的故障资源,以使对该故障资源进行相应的处理,可相应解决其他产生告警信息的目标资源存在的问题,进而减轻运维人员的工作量。
进一步的,由于各个资源的特性并不相同,同时,各个资源出现非正常工作现象时,对应的待解决的问题的重要程度也并不相同,因此,可根据每一个资源本身的特性设置需要监控的项目,以及当前需要监控的项目具体的工作参数对应相应告警等级的标准,以使运维人员可优先处理告警信息中对应的重要程度较高的问题,具体地,本发明一个优选实施例中,所述分别设置每一个资源产生告警信息的告警策略,包括:针对所有资源设置至少一个告警等级;针对每一个当前资源,设置当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件,以使每一个资源满足告警条件时产生对应的告警信息,其中,所述告警信息包括告警等级。
其中,所述资源包括但不限于集群、主机、虚拟机、存储设备、服务器、操作系统、数据库、web服务;
在所述资源包括集群时,设置所述集群需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括主机时,设置所述主机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括虚拟机时,设置所述虚拟机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括存储设备时,设置所述存储设备需要监控的项目包括:存储利用率;
在所述资源包括服务器时,设置所述服务器需要监控的项目包括:电压传感器的工作电压;
在所述资源包括操作系统时,设置所述操作系统需要监控的项目包括:能否ping通;
在所述资源包括数据库时,设置所述数据库需要监控的项目至少包括以下项目中的一项:连接响应时间、数据库表空间利用率、日志缓冲区重试率;
在所述资源包括web服务时,设置所述web服务需要监控的项目包括:流量传输速率。
需要说明的是,云环境下的资源包括但不限于上述资源,且上述各个资源对应的需要监控的项目还可以包括其他项目,比如,web服务对应的监控项目还可以包括:交互信息的数量,可结合实际需求合理设置云环境下每一个资源对应的需要监控的项目。
进一步的,由于云环境下的资源之间存在一定的依赖关系,比如,数据库依赖于存储设备,当存储设备非正常工作时,可直接导致依赖于该存储设备的数据库也出现非正常工作现象,该存储设备以及对应的数据库均会产生告警信息,这时,运维人员并不能准确定位故障源为该存储设备,需要对产生告警信息的每一个目标资源进行相应的处理以确定故障源,运维人员的工作量比较高,因此,为了准确定位故障源,以便运维工作人员可直接对故障源进行相应的处理,本发明一个优选实施例中,所述根据获取的每一个告警信息以及所述依赖关系,确定所述至少两个目标资源中的故障资源,包括:
根据所述依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表;
根据所述有向链表以及每一个告警信息,确定最高告警等级对应目标资源所在的目标分支链路;将目标分支链路中最高告警等级对应的目标资源中优先级最高的目标资源确定为故障资源;
其中,所述有向链表中,被依赖资源的优先级高于依赖资源的优先级。
需要说明的是,针对产生告警信息的目标资源进行建立有向链表时,可以包括多个有向链表,且每一个有向链表中可以包括多个分支链路。
本实施例中,还可以针对全部目标资源建立有向链表。
进一步的,由于上述实施例中将告警等级高且依赖关系优先级最高的目标资源确定为故障源,运维工作人员对该故障源进行相应的处理后,可相应的解决其他产生告警信息的目标资源中,依赖于该故障资源的目标资源存在的问题,进一步节省了运维人员的工作量,但是,对确定的故障源进行相应的处理并不能保证其他产生告警信息的目标资源存在的问题被完全解决;因此,为了保证每一个告警信息对应的目标资源存在的问题都可以被解决,本发明一个优选实施例中,所述步骤S3之后还可以包括:对步骤S3中确定的故障资源进行相应的处理,然后重新执行步骤S2。
进一步的,由于云环境下的资源较多,对每一个资源进行分别监控时,成本较高,而对于云环境下没有进行相应工作的资源,没有必要进行相应的监控;因此,为了节约成本,实现按需监控,本发明一个优选实施例中,所述步骤S1之前还包括:根据用户业务需求自定义需要检测的至少两个目标资源。
本发明实施例中,还可以通过工作人员根据管理需求自定义至少两个存在依赖关系的资源为目标资源。
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述。
如图2所示,本发明实施例提供了另一种故障资源检测方法,该方法可以包括以下步骤:
步骤201,针对每一个资源分别设置至少一个告警等级。
步骤202,针对每一个当前资源,设置当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件。
步骤201至步骤202中,针对云环境下的每一个资源,分别根据当前资源的特性设置对应的需要监控的项目以及告警等级,比如,告警等级包括以下三个等级:轻微告警、中度告警、严重告警,其中严重告警的告警等级最高,轻微告警的告警等级最低,需要说明的是,告警等级数量的设置可根据管理需求进行合理设置。
本实施例中,云环境下的资源可以包括:集群、主机、虚拟机、存储设备、服务器、操作系统、数据库、web服务。
其中,集群需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
针对每一个需要监控的项目,可以分别设置为如下工作参数以及对应的告警等级:
A、cpu利用率:CPU利用率大于70%,且不大于80%时,对应告警等级为轻微告警;CPU利用率大于80%,且不大于90%时,对应告警等级为中度告警;当CPU利用率大于90%时,对应告警等级为严重告警;
B、内存利用率:当内存利用率大于70%,且不大于80%时,对应告警等级为轻微告警;当内存利用率大于80%,且不大于90%时,对应告警等级为中度告警;当内存利用率大于90%时,对应告警等级为严重告警;
C、网络接口流量:当网络接口流量大于800000KBps,且不大于1000000KBps时,对应告警等级为轻微告警;当网络接口流量大于1000000KBps,且不大于1200000KBps时,对应告警等级为中度告警;当网络接口流量大于1200000KBps时,对应告警等级为严重告警。
需要说明的是,主机、虚拟机与上述集群需要监控的项目及工作参数对应的告警等级相同或相似,本实施例在此不再具体赘述。
存储设备需要监控的项目可以包括:存储利用率;
该项目可以设置为如下工作参数以及对应的告警等级:
存储利用率:当存储利用率大于70%,且不大于80%时,对应告警等级为轻微告警;当存储利用率大于80%,且不大于90%时,对应告警等级为中度告警;当存储利用率大于90%时,对应告警等级为严重告警。
服务器需要监控的项目可以包括:电压传感器的工作电压;
这里,电压传感器的工作电压范围包括:2V—14V;
该项目可以设置为如下工作参数以及对应的告警等级:
电压传感器的工作电压:当工作电压大于10.4V,且不大于11.6V时,对应告警等级为轻微告警;当工作电压大于11.6V,且不大于12.8V时,对应告警等级为中度告警;当工作电压大于12.8V时,对应告警等级为严重告警。
操作系统需要监控的项目可以包括:能否ping通;
该项目可以设置为如下工作参数以及对应的告警等级:
如果不能ping通,则对应告警等级为严重告警;如果能ping通,则不产生告警信息。
虚拟机需要监控的项目可以包括以下项目中的一项或多项:连接响应时间、数据库表空间利用率、日志缓冲区重试率;
针对每一个需要监控的项目,可以分别设置为如下工作参数以及对应的告警等级:
A、连接响应时间:当连接响应时间大于10s,且不大于20s时,对应告警等级为轻微告警;当连接响应时间大于20s,且不大于50s时,对应告警等级为中度告警;当连接响应时间大于50s时,对应告警等级为严重告警;
B、数据库表空间利用率:当数据库表空间利用率大于70%,且不大于80%时,对应告警等级为轻微告警;当数据库表空间利用率大于80%,且不大于90%时,对应告警等级为中度告警;当数据库表空间利用率大于90%时,对应告警等级为严重告警。
C、日志缓冲区重试率:当日志缓冲区重试率大于5%,且不大于10%时,对应告警等级为轻微告警;当日志缓冲区重试率大于10%,且不大于20%时,对应告警等级为中度告警;当日志缓冲区重试率大于20%时,对应告警等级为严重告警。
web服务需要监控的项目可以包括:流量情况;
该项目可以设置为如下工作参数以及对应的告警等级:
流量情况:当流量大于800000KBps,且不大于1000000KBps时,对应告警等级为轻微告警;当流量大于1000000KBps,且不大于1200000KBps时,对应告警等级为中度告警;当流量大于1200000KBps时,对应告警等级为严重告警。
需要说明的是,云环境下的资源包括但不限于上述资源,针对每一个资源分别设置对应的需要检测的项目以及具体的工作参数对应的告警等级,可结合每一个资源各自的特性以及实际需求合理设置。
步骤203,自定义需要监控的目标资源。
本实施例中,为了节约成本,不必对云环境的每一个资源均进行相应的监控,可根据用户业务需求或者工作人员的管理需求结合各个资源之间的依赖关系自定义需要监控的目标资源,进而实现按需监控。
步骤204,获取每一个目标资源之间的依赖关系。
步骤205,获取每一个目标资源产生的告警信息。
本实施例中,获取到的告警信息包括对应的告警等级。
需要说明的是,如果当前目标资源存在多个被监控的项目时,获取到的告警信息中包括的告警等级为:当前目标资源的各个被监控项目中对应的最高告警等级;同时,对应的告警信息中还可以包括对应该最高告警等级的被监控项目的信息,以便运维工作人员可根据该被监控项目的信息进行相应的处理。
步骤206,根据依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表。
需要说明的是,本实施例中,还可以针对全部目标资源建立有向链表。
本实施例中,根据依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表时,可以包括多个有向链表,且每一个有向链表中可以包括多个分支链路;如图3所示的一个有向链表,包括产生相应告警信息的目标资源:A1、A2、A3、B1、B2、C,其中,有向链表中各个目标资源的依赖关系为:有向链表起始方向对应的目标资源为依赖资源,有向链表终止方向对应的目标资源为被依赖资源,被依赖资源的优先级高于依赖资源的优先级。
步骤207,确定最高告警等级对应目标资源所在的目标分支链路;将目标分支链路中最高告警等级对应的目标资源中优先级最高的目标资源确定为故障资源。
由于运维工作人员根据相应的告警信息对产生告警信息的目标资源进行相应的处理时,通常需要优先处理严重程度较高的问题,因此,确定的故障资源应为对应告警等级最高的目标资源。
比如,每一个产生告警信息的目标资源分别对应的告警等级如下:
目标资源A1对应告警等级为:严重告警;
目标资源A2对应告警等级为:严重告警;
目标资源A3对应告警等级为:轻微告警;
目标资源B1对应告警等级为:轻微告警;
目标资源B2对应告警等级为:严重告警;
目标资源C对应告警等级为:轻微告警;
则,首先确定告警等级最高的资源包括A1、A2、B2;结合步骤206中所建立的有向链表,确定A1、A2、B2所在的分支链路;目标资源A1、B1、C构成的分支链路中,只有A1对应的告警等级最高,因此,确定A1为故障资源;目标资源A2、B2、C构成的分支链路中,A2、B2对应的告警等级最高,且B2依赖于A2,即A2的优先级高于B2,因此,确定A2为故障资源。
步骤208,对步骤207中确定的故障资源进行相应的处理,然后返回步骤204。
本实施例中,对步骤207中确定的故障资源进行相应的处理,可相应的解决依赖于确定的故障资源的目标资源存在的问题;比如,故障资源A2为存储设备,B2为建立在存储设备A2上的数据库,当存储设备A2故障致无法正常工作时,可同时导致数据库B2无法正常工作,这时存储设备A2、数据库B2均会产生相应的告警信息,运维人员通过步骤207确定故障资源为存储设备A2后,可直接对存储设备A2进行相应的处理以使存储设备A2恢复正常工作;由于数据库B2无法正常工作的原因是其依赖的存储设备A2无法正常工作,数据库B2自身并没出现故障,因此,对A2进行相应的处理以恢复正常工作后,B2也可相应的恢复正常工作。
但是,数据库B2产生告警信息的原因也可能是其本身发生故障,而与存储设备A2无关,相应的,对故障资源A1、A2进行相应的处理以恢复正常工作后,可能并没有解决数据库B2存在的问题,因此,可重新执行步骤204,直到解决每一个故障资源存在的问题为止。
如图4所示,本发明实施例提供的一种故障资源检测装置,可以包括:
存储单元401,用于分别存储每一个资源产生告警信息的告警策略;
第一获取单元402,用于获取至少两个目标资源之间的依赖关系;
第二获取单元403,用于获取每一个目标资源根据对应的告警策略产生的告警信息;
确定单元404,用于根据获取的每一个告警信息以及所述依赖关系,确定所述至少两个目标资源中的故障资源。
进一步的,由于各个资源的特性并不相同,同时,各个资源出现非正常工作现象时,对应的待解决的问题的重要程度也并不相同,为了使运维人员可优先处理告警信息中对应的重要程度较高的问题,需要预先设置相应的规则并进行存储,目标资源可根据相应的规则产生告警信息以使运维人员根据相应的告警信息对产生告警信息的目标资源进行相应的处理;在一种可能实现的方式中,
所述存储单元401,用于存储针对所有资源设置的至少一个告警等级;存储针对每一个当前资源,设置的当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件,以使每一个资源满足告警条件时产生对应的告警信息,其中,所述告警信息包括告警等级。
具体地,所述存储单元401,用于在所述资源包括主机时,设置所述主机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括虚拟机时,设置所述虚拟机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括存储设备时,设置所述存储设备需要监控的项目包括:存储利用率;
在所述资源包括服务器时,设置所述服务器需要监控的项目包括:电压传感器的工作电压;
在所述资源包括操作系统时,设置所述操作系统需要监控的项目包括:能否ping通;
在所述资源包括数据库时,设置所述数据库需要监控的项目至少包括以下项目中的一项:连接响应时间、数据库表空间利用率、日志缓冲区重试率;
在所述资源包括web服务时,设置所述web服务需要监控的项目包括:流量传输速率。
进一步的,为了准确定位故障源,以便运维工作人员可直接对故障源进行相应的处理,在一中可能实现的方式中,
所述确定单元404,用于根据所述依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表;
根据所述有向链表以及每一个告警信息,确定最高告警等级对应目标资源所在的目标分支链路;将目标分支链路中最高告警等级对应的目标资源中优先级最高的目标资源确定为故障资源;
其中,所述有向链表中,被依赖资源的优先级高于依赖资源的优先级。
进一步的,为了节约成本,实现按需监控,在一种可能实现的方式中,还包括:
处理单元,用于根据用户业务需求自定义需要检测的至少两个目标资源。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例至少具有如下有益效果:
1、预先设置每一个资源产生告警信息的告警策略,获取每一个目标资源之间的依赖关系,当目标资源根据对应的告警策略产生告警信息时,根据产生的每一个告警信息分别对应的目标资源之间的依赖关系准确定位产生告警信息的目标资源中包括的故障资源,以使对该故障资源进行相应的处理,可相应解决其他产生告警信息的目标资源存在的问题,进而减轻运维人员的工作量。
2、结合用户业务需求和/或管理需求合理设置需要监控的目标资源,实现按需监控,节约成本。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种故障资源检测方法,其特征在于,包括:分别设置每一个资源产生告警信息的告警策略,还包括:
S1:获取至少两个目标资源之间的依赖关系;
S2:获取每一个目标资源根据对应的告警策略产生的告警信息;
S3:根据获取的每一个告警信息以及所述依赖关系,确定所述至少两个目标资源中的故障资源。
2.根据权利要求1所述的方法,其特征在于,所述分别设置每一个资源产生告警信息的告警策略,包括:
针对所有资源设置至少一个告警等级;
针对每一个当前资源,设置当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件,以使每一个资源满足告警条件时产生对应的告警信息,其中,所述告警信息包括告警等级。
3.根据权利要求2所述的方法,其特征在于,
所述资源包括:集群、主机、虚拟机、存储设备、服务器、操作系统、数据库和web服务中的一个或多个;
在所述资源包括集群时,设置所述集群需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括主机时,设置所述主机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括虚拟机时,设置所述虚拟机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括存储设备时,设置所述存储设备需要监控的项目包括:存储利用率;
在所述资源包括服务器时,设置所述服务器需要监控的项目包括:电压传感器的工作电压;
在所述资源包括操作系统时,设置所述操作系统需要监控的项目包括:能否ping通;
在所述资源包括数据库时,设置所述数据库需要监控的项目至少包括以下项目中的一项:连接响应时间、数据库表空间利用率、日志缓冲区重试率;
在所述资源包括web服务时,设置所述web服务需要监控的项目包括:流量传输速率。
4.根据权利要求2所述的方法,其特征在于,所述根据获取的每一个告警信息以及所述依赖关系,确定所述至少两个目标资源中的故障资源,包括:
根据所述依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表;
根据所述有向链表以及每一个告警信息,确定最高告警等级对应目标资源所在的目标分支链路;将目标分支链路中最高告警等级对应的目标资源中优先级最高的目标资源确定为故障资源;
其中,所述有向链表中,被依赖资源的优先级高于依赖资源的优先级。
5.根据权利要求1-4中任一所述的方法,其特征在于,所述步骤S1之前还包括:
根据用户业务需求自定义需要检测的至少两个目标资源。
6.一种故障资源检测装置,其特征在于,包括:
存储单元,用于分别存储每一个资源产生告警信息的告警策略;
第一获取单元,用于获取至少两个目标资源之间的依赖关系;
第二获取单元,用于获取每一个目标资源根据对应的告警策略产生的告警信息;
确定单元,用于根据获取的每一个告警信息以及所述依赖关系,确定所述至少两个目标资源中的故障资源。
7.根据权利要求6所述的装置,其特征在于,
所述存储单元,用于存储针对所有资源设置的至少一个告警等级;存储针对每一个当前资源,设置的当前资源需要监控的至少一个项目对应所述至少一个告警等级的告警条件,以使每一个资源满足告警条件时产生对应的告警信息,其中,所述告警信息包括告警等级。
8.根据权利要求7所述的装置,其特征在于,
所述存储单元,用于在所述资源包括主机时,设置所述主机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括虚拟机时,设置所述虚拟机需要监控的项目至少包括以下项目中的一项:cpu利用率、内存利用率、存储利用率、网络接口流量;
在所述资源包括存储设备时,设置所述存储设备需要监控的项目包括:存储利用率;
在所述资源包括服务器时,设置所述服务器需要监控的项目包括:电压传感器的工作电压;
在所述资源包括操作系统时,设置所述操作系统需要监控的项目包括:能否ping通;
在所述资源包括数据库时,设置所述数据库需要监控的项目至少包括以下项目中的一项:连接响应时间、数据库表空间利用率、日志缓冲区重试率;
在所述资源包括web服务时,设置所述web服务需要监控的项目包括:流量传输速率。
9.根据权利要求7所述的装置,其特征在于,
所述确定单元,用于根据所述依赖关系建立每一个告警信息对应的目标资源之间依赖关系的有向链表;
根据所述有向链表以及每一个告警信息,确定最高告警等级对应目标资源所在的目标分支链路;将目标分支链路中最高告警等级对应的目标资源中优先级最高的目标资源确定为故障资源;
其中,所述有向链表中,被依赖资源的优先级高于依赖资源的优先级。
10.根据权利要求6-9中任一所述的装置,其特征在于,还包括:
处理单元,用于根据用户业务需求自定义需要检测的至少两个目标资源。
CN201510585262.3A 2015-09-15 2015-09-15 一种故障资源检测方法及装置 Pending CN105243004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510585262.3A CN105243004A (zh) 2015-09-15 2015-09-15 一种故障资源检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510585262.3A CN105243004A (zh) 2015-09-15 2015-09-15 一种故障资源检测方法及装置

Publications (1)

Publication Number Publication Date
CN105243004A true CN105243004A (zh) 2016-01-13

Family

ID=55040657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510585262.3A Pending CN105243004A (zh) 2015-09-15 2015-09-15 一种故障资源检测方法及装置

Country Status (1)

Country Link
CN (1) CN105243004A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741125A (zh) * 2016-03-07 2016-07-06 成都亿信标准认证集团有限公司 网站维护辅助系统
CN106649054A (zh) * 2016-12-29 2017-05-10 郑州云海信息技术有限公司 一种资源告警方法和装置
CN106844165A (zh) * 2016-12-16 2017-06-13 华为技术有限公司 告警方法及装置
CN107102929A (zh) * 2017-05-23 2017-08-29 郑州云海信息技术有限公司 故障的检测方法及装置
CN107562601A (zh) * 2017-09-12 2018-01-09 郑州云海信息技术有限公司 一种告警方法及装置
CN107612755A (zh) * 2017-10-31 2018-01-19 郑州云海信息技术有限公司 一种云资源的管理方法及其装置
CN107729068A (zh) * 2017-09-30 2018-02-23 上海联影医疗科技有限公司 一种设备管理方法和系统
CN109164750A (zh) * 2018-08-28 2019-01-08 中铁工程服务有限公司 一种盾构机运行故障的诊断和处理方法
CN109656700A (zh) * 2018-12-17 2019-04-19 广州市玄武无线科技股份有限公司 多租户下分布式链路跟踪方法、系统、设备以及存储介质
CN110071828A (zh) * 2019-04-11 2019-07-30 中国移动通信集团内蒙古有限公司 告警方法、装置、设备及存储介质
CN110213071A (zh) * 2018-04-16 2019-09-06 腾讯科技(深圳)有限公司 数据核对方法、装置、系统、计算机设备和存储介质
CN111404740A (zh) * 2020-03-12 2020-07-10 中国铁塔股份有限公司 故障分析方法、装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571413A (zh) * 2011-12-02 2012-07-11 曙光信息产业(北京)有限公司 一种集群环境下资源管理的方法
CN103152438A (zh) * 2013-04-09 2013-06-12 上海理想信息产业(集团)有限公司 一种云计算环境下业务健康度获取方法
CN103475544A (zh) * 2013-09-18 2013-12-25 浪潮电子信息产业股份有限公司 一种基于云资源监控平台的业务监控方法
US20140075005A1 (en) * 2011-09-07 2014-03-13 Accenture Global Services Limited Cloud service monitoring system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075005A1 (en) * 2011-09-07 2014-03-13 Accenture Global Services Limited Cloud service monitoring system
CN102571413A (zh) * 2011-12-02 2012-07-11 曙光信息产业(北京)有限公司 一种集群环境下资源管理的方法
CN103152438A (zh) * 2013-04-09 2013-06-12 上海理想信息产业(集团)有限公司 一种云计算环境下业务健康度获取方法
CN103475544A (zh) * 2013-09-18 2013-12-25 浪潮电子信息产业股份有限公司 一种基于云资源监控平台的业务监控方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105741125A (zh) * 2016-03-07 2016-07-06 成都亿信标准认证集团有限公司 网站维护辅助系统
CN106844165A (zh) * 2016-12-16 2017-06-13 华为技术有限公司 告警方法及装置
CN106844165B (zh) * 2016-12-16 2020-09-29 华为技术有限公司 告警方法及装置
CN106649054A (zh) * 2016-12-29 2017-05-10 郑州云海信息技术有限公司 一种资源告警方法和装置
CN107102929A (zh) * 2017-05-23 2017-08-29 郑州云海信息技术有限公司 故障的检测方法及装置
CN107562601A (zh) * 2017-09-12 2018-01-09 郑州云海信息技术有限公司 一种告警方法及装置
CN107729068A (zh) * 2017-09-30 2018-02-23 上海联影医疗科技有限公司 一种设备管理方法和系统
CN107612755A (zh) * 2017-10-31 2018-01-19 郑州云海信息技术有限公司 一种云资源的管理方法及其装置
CN110213071A (zh) * 2018-04-16 2019-09-06 腾讯科技(深圳)有限公司 数据核对方法、装置、系统、计算机设备和存储介质
CN110213071B (zh) * 2018-04-16 2021-11-02 腾讯科技(深圳)有限公司 数据核对方法、装置、系统、计算机设备和存储介质
CN109164750A (zh) * 2018-08-28 2019-01-08 中铁工程服务有限公司 一种盾构机运行故障的诊断和处理方法
CN109164750B (zh) * 2018-08-28 2020-10-27 中铁工程服务有限公司 一种盾构机运行故障的诊断和处理方法
CN109656700A (zh) * 2018-12-17 2019-04-19 广州市玄武无线科技股份有限公司 多租户下分布式链路跟踪方法、系统、设备以及存储介质
CN110071828A (zh) * 2019-04-11 2019-07-30 中国移动通信集团内蒙古有限公司 告警方法、装置、设备及存储介质
CN111404740A (zh) * 2020-03-12 2020-07-10 中国铁塔股份有限公司 故障分析方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN105243004A (zh) 一种故障资源检测方法及装置
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
WO2021196521A1 (zh) 远程运维管理系统及方法
US10095576B2 (en) Anomaly recovery method for virtual machine in distributed environment
US8677191B2 (en) Early detection of failing computers
US10177984B2 (en) Isolation of problems in a virtual environment
CN103812699A (zh) 基于云计算的监控管理系统
US9122784B2 (en) Isolation of problems in a virtual environment
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
WO2016183967A1 (zh) 一种关键组件的故障告警方法、装置及大数据管理系统
CN105183619A (zh) 一种系统故障预警方法和系统
CN105162632A (zh) 一种服务器集群故障自动处理系统
CN106130778A (zh) 一种处理集群故障的方法及一种管理节点
CN114024834A (zh) 故障定位方法、装置、电子设备及可读存储介质
CN114816820A (zh) chproxy集群故障修复方法、装置、设备及存储介质
CN107548087A (zh) 一种告警关联分析的方法及装置
CN113407374A (zh) 故障处理方法、装置、故障处理设备及存储介质
CN111240936A (zh) 一种数据完整性校验的方法及设备
CN108021463B (zh) 一种基于有限状态机的gpu故障管理方法
CN206237424U (zh) 一种用于监控中心站的双机热备系统
CN114385453A (zh) 数据库集群异常处理方法、装置、设备及介质
CN105511952A (zh) 基于云计算平台的资源自迁移方法及系统
CN110618884A (zh) 故障监控方法、虚拟化的网络功能模块管理器和存储介质
CN104346233A (zh) 一种用于计算机系统的故障恢复方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160113