CN104486109B

CN104486109B - 一种故障检测、恢复方法及装置

Info

Publication number: CN104486109B
Application number: CN201410748994.5A
Authority: CN
Inventors: 陈怡�; 赵晗
Original assignee: Datang Mobile Communications Equipment Co Ltd
Current assignee: Datang Mobile Communications Equipment Co Ltd
Priority date: 2014-12-09
Filing date: 2014-12-09
Publication date: 2018-02-23
Anticipated expiration: 2034-12-09
Also published as: CN104486109A

Abstract

本发明实施例提供了一种故障检测、恢复方法及装置，用以在网管系统中，针对数据库的应用类故障进行自动检测、上报告警及故障恢复，降低了网管系统的复杂度。所述一种故障检测方法，针对预设的每一类型的故障检测，该方法包括：在该类型的故障检测周期内，确定该类型预设的所有检测对象的相关信息；针对该类型的每一检测对象：根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障；对于发生该类型的故障的检测对象，确定该检测对象的故障告警信息，并上报给管理站。

Description

一种故障检测、恢复方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种故障检测、恢复方法及装置。

背景技术

故障管理作为现代通信网络管理系统中的一个重要组成部分，能够保证网络的正常运行。由于通信网络的迅速发展，网络结构越来越复杂，网络出现故障的可能性也越来越大。

在大型的网管系统中一般均使用数据库作为系统底层应用的数据库系统，为系统提供数据的存储、计算等数据的基础服务，同时数据库本身从业务角度分析，是作为系统的被管理元素存在。所以管理站要实时关注数据库的运行情况，尤其是出现“表空间不足”、“挂死进程”、“锁定对象”、“任务执行失败”、“低效结构化查询语言(Structured QueryLanguage，SQL)”这五类问题时，管理站需要及时发现并处理以保证系统的正常高效运行。

在现有技术中，网管系统中的管理站与被管元素之间均采用简单网络管理协议(Simple Network Management Protocol，SNMP)进行通信，被管元素通过SNMP陷阱(SNMPTrap)消息来主动上报告警信息给管理站。现有技术中，如图1所示，在管理站一侧的边界上会部署一个协议代理子系统或者子模块用以完成“管理站内部协议”到“SNMP协议”的双向配置工作。从图1中可以看出管理站与被管理元素之间是使用SNMP消息完成业务交互的，并由“SNMP协议代理”来完成边界内外的协议转换以及适配。但是在网管系统中内部数据库是作为内部元素存在，“SNMP协议代理”并不负责直接与数据库进行协议交互。这样需要使用数据库系统自带的SNMP服务网管通过Trap消息上报告警。

然而，实际网管系统中每类网管产品均针对特定的网络元素以及管理特性进行针对性的管理和实现，例如，如果系统中应用Oracle数据库作为系统底层应用的数据库系统，则需要针对Oracle数据库实现一套标准的管理机制，对网管系统自身而言需要增加很多额外的功能，而影响网管对于本职业务的实现和关注。具体表现在：1、对于Oracle数据库而言还需要打开数据库的SNMP服务，以及获取SNMP消息的格式来才能使用网管所需的业务；2、Oracle数据库只能上报告警信息，而对于故障的恢复或者是如何恢复还必须根据系统的物理硬件配置环境人工进行干预处理；3、Oracle数据库上报告警信息时，相应告警的级别以及告警所包含内容必须是使用Oracle数据库预设置的值，无法在上报时就根据实际的影响性来定义级别以及设置内容的取舍。

总之，在网管系统中，现有技术不能针对数据库的应用类故障进行自动检测、上报告警及故障恢复，增加了网管系统的复杂度。

发明内容

本发明实施例提供了一种故障检测、恢复方法及装置，用以在网管系统中，针对数据库的应用类故障进行自动检测、上报告警及故障恢复，降低了网管系统的复杂度。

本发明实施例提供的一种故障检测方法，针对预设的每一类型的故障检测，该方法包括：

在该类型的故障检测周期内，确定该类型预定义的所有检测对象的相关信息；

针对该类型的每一检测对象：根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障；对于发生该类型的故障的检测对象，确定该检测对象的故障告警信息，并上报给管理站。

本发明实施例中，预设的每一类型的故障，包括：表空间不足故障、挂死进程故障、锁定对象故障、任务执行失败故障以及低效SQL故障。通过该故障检测方法，使得在网管系统中，不用依赖SNMP方式和数据库的自身网管特性，利用网管系统内部的业务接口以及数据库脚本和任务方式来实现针对这五类故障，甚至类似故障进行自动检测以及上报管理站。其中，故障告警信息中携带该故障的相关信息，为工作人员提供方便，降低了网管系统的复杂度。

较佳地，该方法还包括：

对于没有发生该类型的故障的检测对象，则查询该检测对象上一次是否有告警记录，若有，则生成该检测对象的清除告警信息，并上报给管理站。

较佳地，

当故障检测的类型为预设的表空间不足的故障检测，预定义的所有检测对象为所有表空间时，该类型的所有检测对象的相关信息包括：每一表空间名称，该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小；

当故障检测的类型为预设的挂死进程的故障检测，预定义的所有检测对象为所有进程时，该类型的所有检测对象的相关信息包括：每一进程的进程号和该进程执行时长；

当故障检测的类型为预设的锁定对象的故障检测，预定义的所有检测对象为所有对象时，该类型的所有检测对象的相关信息包括：每一对象的对象名和锁定该对象的用户名；

当故障检测的类型为预设的任务执行失败的故障检测，预定义的所有检测对象为所有任务时，该类型的所有检测对象的相关信息包括：每一任务执行失败的次数和每一次的执行时长；

当故障检测的类型为预设的低效结构化查询语言SQL的故障检测，预定义的所有检测对象为所有SQL时，该类型的所有检测对象的相关信息包括：每一SQL的执行时长、输入输出消耗、CPU消耗以及该SQL的物理磁盘消耗。

较佳地，当故障检测的类型为预设的表空间不足的故障检测时，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，包括：

针对该类型的每一表空间，根据该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小计算该表空间的表空间占用率，当该表空间的占用率大于或等于预设的表空间占用率故障门限值时，确定该表空间发生表空间不足故障。

较佳地，对于发生表空间不足故障的表空间，该表空间的故障告警信息包括：该表空间的故障级别、告警类型、该表空间所在数据库的IP地址、对该表空间进行故障检测的开始时间、确定该表空间发生表空间不足故障的时间、该表空间的故障告警信息的上报时间、该表空间的名称和该表空间的相关信息。

较佳地，当故障检测的类型为预设的挂死进程的故障检测时，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，包括：

针对该类型的每一进程，当进程执行时长大于或等于预设的进程执行时长故障门限值时，确定该进程发生挂死进程故障。

较佳地，对于发生挂死进程故障的进程，该进程的故障告警信息包括：该进程的故障级别、告警类型、该进程所在数据库的IP地址、对该进程进行故障检测的开始时间、确定该进程发生挂死进程故障的时间、该进程的故障告警信息的上报时间、该进程的进程号和该进程的相关信息。

较佳地，当故障检测的类型为预设的锁定对象的故障检测时，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，包括：

针对该类型的每一对象，根据该对象的对象名和锁定该对象的用户名，查询上一次和本次该对象被同一用户名锁定的时间，并根据所述时间计算该对象的锁定时长，当该对象的锁定时长大于或等于预设的锁定时长故障门限值时，确定该对象发生锁定对象故障。

较佳地，对于发生锁定对象故障的对象，该对象的故障告警信息包括：该对象的故障级别、告警类型、该对象所在数据库的IP地址、对该对象进行故障检测的开始时间、确定该对象发生锁定对象故障的时间、该对象的故障告警信息的上报时间、该对象的对象名、锁定该对象的用户名和该对象的相关信息。

较佳地，当故障检测的类型为预设的任务执行失败的故障检测时，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，包括：

针对该类型的每一任务，当该任务的执行失败次数大于或等于预设的任务执行失败次数故障门限值时，确定该任务发生任务执行失败故障。

较佳地，对于发生任务执行失败故障的任务，该任务的故障告警信息包括：该任务的故障级别、告警类型、该任务所在数据库的IP地址、对该任务进行故障检测的开始时间、确定该任务发生任务执行失败故障的时间、该任务的故障告警信息的上报时间、该任务的任务标识、该任务的开始时间、该任务的结束时间和该任务的相关信息。

较佳地，当故障检测的类型为预设的低效SQL的故障检测时，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，包括：

针对该类型的每一SQL，当该SQL的执行时长大于或等于预设的SQL的执行时长故障门限值时，确定该SQL发生低效SQL故障。

较佳地，对于发生低效SQL故障的SQL，该SQL的故障告警信息包括：该SQL的故障级别、告警类型、该SQL所在数据库的IP地址、对该SQL进行故障检测的开始时间、确定该SQL发生低效SQL故障的时间、该SQL的故障告警信息的上报时间、该SQL的内容、该SQL占用资源类型、该SQL占用比率和该SQL的相关信息。

本发明实施例提供的一种与上述所述的任一故障检测方法相对应的故障恢复方法，该方法包括：

获取服务器上报的检测对象的故障告警信息；

根据所述故障告警信息对该检测对象进行故障恢复处理。

本发明实施例中，针对预设的故障类型为表空间不足的故障、挂死进程的故障或锁定对象的故障，根据获取服务器上报的检测对象的故障告警，判断所述故障告警信息的告警类型以及该故障告警信息的故障类型，确定该检测对象的告警类型为上报告警，并且该检测对象发生的故障所属类型为表空间不足的故障、挂死进程的故障或锁定对象的故障时，查询该检测对象发生的故障所属类型对应的故障恢复配置参数；根据查询到的故障恢复配置参数以及所述故障告警信息，判断是否对该检测对象进行故障恢复。使得在网管系统中，针对数据库的应用类故障完成故障恢复，降低了网管系统的复杂度。

较佳地，根据所述故障告警信息对该检测对象进行故障恢复处理包括：

当根据所述故障告警信息，确定该检测对象的告警类型为上报告警，并且该检测对象发生的故障所属类型为表空间不足的故障、挂死进程的故障或锁定对象的故障时，查询该检测对象发生的故障所属类型对应的故障恢复配置参数；

根据查询到的故障恢复配置参数以及所述故障告警信息，判断是否对该检测对象进行故障恢复。

较佳地，当该检测对象发生的故障所属类型为表空间不足的故障时，所述故障恢复配置参数包括：发生表空间不足故障的表空间所在服务器剩余的物理磁盘空间大小；所述故障告警信息包括该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小；

根据查询到的故障恢复配置参数以及所述故障告警信息，判断是否对该检测对象进行故障恢复包括：

根据该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小计算该表空间的表空间占用率；

当根据该表空间所在服务器剩余的物理磁盘空间大小，该表空间的表空间占用率，以及预设的表空间占用率恢复门限值，确定能够对该表空间进行故障恢复时，向所述服务器发送该检测对象的故障恢复指令。

较佳地，当该检测对象发生的故障所属类型为挂死进程的故障时，所述故障恢复配置参数包括：发生挂死进程故障的进程在所述服务器中仍然处于挂死状态的确认信息；所述故障告警信息包括该挂死进程的进程号；

当收到发生挂死进程故障的进程在所述服务器中仍然处于挂死状态的确认信息后，向所述服务器发送该检测对象的故障恢复指令。

较佳地，当该检测对象发生的故障所属类型为锁定对象的故障时，所述故障恢复配置参数包括：发生锁定对象故障的对象在所述服务器中仍然处于锁定状态的确认信息；所述故障告警信息包括该锁定对象的对象名和锁定此对象的进程号；

当收到发生锁定对象故障的对象在所述服务器中仍然处于锁定状态的确认信息后，向所述服务器发送该检测对象的故障恢复指令。

本发明实施例提供的一种故障检测装置，该装置包括：

数据字典表模块，用于存储每一类型预定义的所有检测对象的相关信息；

检测任务模块，用于针对预设的每一类型的故障检测，从数据字典表模块中获取该检测对象的相关信息，并根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障；对于发生该类型的故障的检测对象，确定该检测对象的故障告警信息，并上报给上报处理模块；

上报处理模块，用于将所述该检测对象的故障告警信息上报给管理站。

较佳地，所述检测任务模块，还用于：

对于没有发生该类型的故障的检测对象，则查询该检测对象上一次是否有告警记录，若有，则生成该检测对象的清除告警信息，并上报给上报处理模块。

当故障检测的类型为预设的低效结构化查询语言SQL的故障检测，预定义的所有检测对象为所有SQL时，该类型的所有检测对象的相关信息包括：每一SQL的执行时长、输入输出消耗、CPU消耗以及该SQL的物理磁盘消耗。较佳地，当故障检测的类型为预设的表空间不足的故障检测时，所述检测任务模块，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障时，具体用于：

较佳地，当故障检测的类型为预设的挂死进程的故障检测时，所述检测任务模块，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，具体用于：

较佳地，当故障检测的类型为预设的锁定对象的故障检测时，所述检测任务模块，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，具体用于：

较佳地，当故障检测的类型为预设的任务执行失败的故障检测时，所述检测任务模块，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，具体用于：

较佳地，当故障检测的类型为预设的低效SQL的故障检测时，所述检测任务模块，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，具体用于：

附图说明

图1为现有技术中故障检测方法的示意图；

图2为本发明实施例提供的一种故障检测方法的流程示意图；

图3为本发明实施例提供的一种故障恢复方法的流程示意图；

图4为本发明实施例提供的一种故障检测装置的结构示意图；

图5为本发明实施例提供的一种故障恢复装置的结构示意图。

具体实施方式

本发明实施例中提供了一种故障告警的定义，具体地，故障类型可以分别是“表空间不足”、“挂死进程”、“锁定对象”、“任务执行失败”和“低效SQL”这五类故障，或者其他类型的故障也可以类似地定义。本发明实施例仅以“表空间不足”、“挂死进程”、“锁定对象”、“任务执行失败”和“低效SQL”这五种故障告警为例，说明故障检测及故障恢复的技术方案。

以下首先介绍本发明实施例预设的每一类型的故障告警信息列表。

关于“表空间不足”类型故障告警信息列表，参见下面的表一。

表一

告警内容字段	内容含义描述或取值
		告警源	出现故障的数据库的IP地址
告警级别	根据故障的严重程度定义故障的级别
		检测任务开始时间	检测任务开始检测的时间
告警识别时间	检测任务实际检测到故障的时间
		上报时间	检测任务实际上报该告警时间
告警类型	上报告警或清除告警
		表空间名称	表空间不足的表空间的名称
额外信息	从数据字典表中检测到的该表空间的相关信息

其中，“告警源”是指出现表空间不足故障的数据库所在的服务器上的IP地址，不同的数据库可以分别存储在不同的服务器上，每个服务器有相应的IP地址，所以从IP地址中可以看出是哪个服务器中的数据库出现表空间不足故障。

“告警级别”是指根据网管系统中预设的表空间占用率故障的门限值来定义告警级别，例如，当预设表空间的占用率达到60％就确定为发生表空间不足故障，则可以预先定义为当表空间占用率在60％-70％之间时对应的告警级别是一级告警，当表空间占用率在70％-80％之间时对应的告警级别是二级告警，当表空间占用率在80％-100％之间时对应的告警级别是三级告警，则告警级别越高，表空间不足的故障越严重。

“检测任务开始时间”是指表空间不足故障检测任务的开始时间。

“告警识别时间”是指表空间不足故障检测任务实际检测到表空间不足故障的时间。

“上报时间”是指表空间不足故障检测任务实际上报该故障告警信息列表的时间。

“告警类型”为上报告警或清除告警，所述上报告警是指若该表空间属于故障，则该表空间的告警类型为上报告警，所述清除告警是指表空间不属于故障，但上次告警记录中有告警信息，则该表空间的告警类型为清除告警。

例如，上报告警可以用1标识，清除告警可以用2标识。

“表空间名称”是指出现表空间不足的表空间的名称。

“额外信息”是指发生表空间不足故障的表空间的相关信息，例如包括：表空间名称、该表空间中的数据文件个数、每一数据文件大小、每一数据文件的名称、以及该表空间中的剩余物理磁盘空间大小。

关于“挂死进程”类型的故障告警信息列表，参见下面的表二。

表二

告警内容字段	内容含义描述或取值
		告警源	出现故障的数据库的IP地址
告警级别	根据故障的严重程度定义故障的级别
		检测任务开始时间	检测任务开始检测的时间

告警识别时间	检测任务实际检测到故障的时间
		上报时间	检测任务实际上报该告警的时间
告警类型	上报告警或清除告警
		问题进程号	挂死进程的进程ID号
额外信息	从数据字典表中检测到的该进程的相关信息

其中，“告警源”是指出现挂死进程故障的数据库所在的服务器的IP地址，不同的数据库可以分别存储在不同的服务器上，每个服务器有相应的IP地址，所以从IP地址中可以看出是哪个服务器中的数据库出现“挂死进程”故障。

“告警级别”是指根据预设的进程执行时长故障的门限值来定义告警级别，例如，当预先设定进程时长达2秒确定为该进程发生挂死进程故障，则可以预先定义为当进程执行时长为2秒至3秒之间时是一级告警，当进程执行时长为3秒以上时是二级告警，则故障级别越高，挂死进程的故障越严重。

“检测任务开始时间”是指挂死进程的故障检测任务的开始时间。

“告警识别时间”是指挂死进程的故障检测任务实际检测到挂死进程故障的时间。

“上报时间”是指挂死进程的故障检测任务实际上报该故障告警信息列表的时间。

“告警类型”为上报告警或清除告警，所述上报告警是指，若该进程属于故障，则该进程的告警类型为上报告警，所述清除告警是指若该进程不属于故障，但上次告警记录中有告警信息，则该进程的告警类型为清除告警。

例如，上报告警可以用1标识，清除告警可以用2标识。

“问题进程号”是指出现挂死进程的进程ID。

“额外信息”是指发生挂死进程故障的进程的相关信息，例如包括：挂死的进程号和调用此进程的用户名。

关于“锁定对象”类型的故障告警信息列表，参见下面的表三。

表三

告警内容字段

内容含义描述或取值

告警源	出现故障的数据库的IP地址
		告警级别	根据该故障严重程度定义告警级别
检测任务开始时间	检测任务开始检测的时间
		告警识别时间	检测任务实际检测到故障的时间
上报时间	检测任务实际上报该告警时间
		告警类型	上报告警或清除告警
被锁定对象类型	被锁定对象的类型
		锁定对象	锁的持有者信息
额外信息	从数据字典表中查询到的该故障的相关信息

其中，“告警源”是指出现锁定对象故障的数据库所在的服务器的IP地址，不同的数据库可以分别存储在不同的服务器上，每个服务器有相应的IP地址，所以从IP地址中可以看出是哪个服务器中的数据库出现锁定对象故障。

“告警级别”是指根据预设的锁定时长故障的门限值来定义告警级别，例如，当预先设定锁定时长达到5秒就确定为该对象发生锁定对象故障，则可以预先设定为当锁定时长在5秒至8秒之间时对应的告警级别是一级告警，当锁定时长在8秒以上时对应的告警级别是二级告警，则告警级别越高，锁定对象的故障越严重。

“检测任务开始时间”是指锁定对象故障检测任务的开始时间。

“告警识别时间”是指锁定对象故障检测任务实际检测到锁定对象故障的时间。

“上报时间”是指锁定对象故障检测任务实际上报该故障告警信息列表的时间。

“告警类型”为上报告警和清除告警，所述上报告警是指该对象属于故障，则该对象的告警类型为上报告警，所述清除告警是锁定对象不属于故障，但上次告警记录中有告警信息，则该表空间的告警类型为清除告警。

例如，上报告警可以用1标识，清除告警可以用2标识。

“被锁定对象类型”是指被锁定对象的类型。

“锁定对象”是指被锁定对象的锁的持有者。

“额外信息”是指发生锁定对象故障的锁定对象的相关信息，例如，被锁定对象类型、被锁定对象名称、锁定进程号、锁定对象的用户名以及SQL语句。

关于“任务执行失败”类型的故障告警信息列表，参见下面的表四。

表四

告警内容字段	内容含义描述或取值
		告警源	出现故障的数据库的IP地址
告警级别	根据该故障严重程度定义告警级别
		检测任务开始时间	检测任务开始检测的时间
告警识别时间	检测任务实际检测到故障的时间
		上报时间	检测任务实际上报该告警时间
告警类型	上报告警或清除告警
		任务标识	执行失败任务的任务标识
任务执行开始时间	执行失败的任务的开始时间
		任务执行结束时间	执行失败的任务的结束时间
额外信息	从数据字典表中查询到的该任务的相关信息

其中，“告警源”是指出现任务执行失败故障的数据库所在的服务器的IP地址，不同的数据库可以分别存储在不同的服务器上，每个服务器有相应的IP地址，所以从IP地址中可以看出是哪个服务器中的数据库出现“任务执行失败”故障。

“告警级别”是指根据预设的任务执行失败次数故障的门限值来定义告警级别。例如，当预先设定任务执行失败次数达到5次就确定为该任务发生任务执行失败故障时，则可以预先设定为当任务执行失败次数在5次-8次之间时对应的告警级别是一级告警，当任务执行失败次数达到8次及8次以上时对应的告警级别是二级告警。

“检测任务开始时间”是指任务执行失败故障检测任务的开始时间。

“告警识别时间”是指任务执行失败故障检测任务实际检测到任务执行失败故障的时间。

“上报时间”是指任务执行失败故障检测任务实际上报该故障告警信息列表的时间。

“告警类型”为上报告警和清除告警，所述上报告警是指该任务为执行任务失败故障，则该任务的告警类型为上报告警，所述清除告警是指任务不属于故障，但上次告警记录中有告警信息，则该表空间的告警类型为清除告警。

例如，上报告警可以用1标识，清除告警可以用2标识。

“任务标识”是指执行失败任务的任务标识，例如执行失败任务的ID号。

“额外信息”是指任务执行失败故障的任务的相关信息，例如包括：任务的内容、任务失败的次数、任务每次执行时长以及任务执行间隔。

关于“低效SQL”类型的故障告警信息列表，参见下面的表五。

表五

告警内容字段	内容含义描述或取值
		告警源	出现故障的数据库的IP地址
告警级别	根据该故障严重程度定义告警级别
		检测任务开始时间	检测任务开始检测的时间
告警识别时间	检测任务实际检测到故障的时间
		上报时间	检测任务实际上报该告警时间
告警类型	上报告警或清除告警
		SQL信息	低效的SQL内容
占用资源类型	CPU和/或IO和/或内存
		占用比率	SQL执行中所占用资源的百分比
额外信息	从数据字典表中查询到的该故障的相关信息

其中，“告警源”是指出现低效SQL故障的数据库所在服务器的IP地址，不同的数据库可以分别存储在不同的服务器上，每个服务器有相应的IP地址，所以从IP地址中可以看出是哪个服务器中的数据库出现低效SQL故障。

“告警级别”是指根据预设的SQL执行时长故障的门限值来定义告警级别，例如，当预先设定SQL执行时长达10秒就确定为该SQL发生“低效SQL”故障时，则可以预先定义为SQL执行时长在10秒至12秒之间时对应的告警级别是一级告警，当SQL执行时长在12秒以及12秒时对应的告警级别为二级告警。

“检测任务开始时间”是指低效SQL故障检测任务的开始时间。

“告警识别时间”是指低效SQL故障检测任务实际检测到低效SQL故障的时间。

“上报时间”是指低效SQL故障检测任务实际上报该故障告警信息列表的时间。

“告警类型”为上报告警和清除告警，所述上报告警是指该SQL属于低效SQL故障，则该SQL的告警级别为上报告警，所述清除告警是指任务不属于故障，但上次告警记录中有告警信息，则该SQL的告警类型为清除告警。

例如，上报告警可以用1标识，清除告警可以用2标识。

“SQL信息”是指低效SQL故障检测到的低效的SQL的语句。

“占用资源类型”是指SQL执行时占用的资源类型，为CPU和/或输入输出(IO)和/或物理磁盘。

例如，当SQL执行时占用的资源类型是CPU时，可以标识为1，当占用资源类型是IO时，可以标识为2，占用资源类型是物理磁盘时，可以标识为3。

“占用比率”是指占用不用资源类型的比率。

例如，当SQL执行时占用CPU为30％，占用IO为60％，占用物理磁盘为10％。

“额外信息”是指低效SQL故障的SQL的相关信息，例如，SQL的执行时长、IO消耗、CPU消耗和物理磁盘消耗。

另外，新定义的五类故障，分别用不同的标识来表示五类故障的类型，例如a标识表空间不足告警，b标识挂死进程告警，c标识锁定对象告警，d标识任务执行失败告警，e标识低效SQL告警。将这些标识和所述标识对应的五类故障以TXT文档形成，和定义的告警信息列表一起存储。

参见见图2，本发明实施例提供了一种故障检测方法，针对预设的每一类型的故障检测，该方法包括：

S201、在该类型的故障检测周期内，确定该类型预定义的所有检测对象的相关信息；

S202、针对该类型的每一检测对象：根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障；对于发生该类型的故障的检测对象，确定该检测对象的故障告警信息，并上报给管理站。

其中，预设的每一类型的故障，包括：表空间不足的、挂死进程、锁定对象、任务执行失败以及低效SQL。

当故障检测的类型为表空间不足的故障检测，预定义的所有检测对象为所有表空间时，该类型的所有检测对象的相关信息包括：每一表空间名称，该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小；

当故障检测的类型为挂死进程的故障检测，预定义的所有检测对象为所有进程时，该类型的所有检测对象的相关信息包括：每一进程的进程号和该进程执行时长；

当故障检测的类型为锁定对象的故障检测，预定义的所有检测对象为所有对象时，该类型的所有检测对象的相关信息包括：每一对象的对象名和锁定该对象的用户名；

当故障检测的类型为任务执行失败的故障检测，预定义的所有检测对象为所有任务时，该类型的所有检测对象的相关信息包括：每一任务执行失败的次数和每一次的执行时长；

当故障检测的类型为低效结构化查询语言SQL的故障检测，预定义的所有检测对象为所有SQL时，该类型的所有检测对象的相关信息包括：每一SQL的执行时长、输入输出消耗、CPU消耗以及该SQL的物理磁盘消耗。

以下是针对这五类故障的检测方法的详细描述，本实施例中以用Oracle数据库作为系统底层应用的数据库系统为例进行详细说明。

本发明实施例提供的一种“表空间不足”故障的检测方法，包括：

步骤一，检测任务模块向数据字典表模块发送表空间信息的查询请求。

步骤二，数据字典表模块接收检测任务模块发送的关于表空间信息的查询请求后，数据字典表模块查询每一表空间并上报给检测任务模块。

其中，数据字典表中存储有很多表空间，所述数据字典表查询表空间的信息，包括：

针对每一表空间，查询该表空间的表空间名称、该表空间中的数据文件个数、每一数据文件的大小、每一数据文件的名称、以及该表空间的剩余物理磁盘空间大小。

步骤三，检测任务模块接收数据字典表模块上报的每一表空间信息，该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小计算该表空间的表空间占用率，当该表空间的占用率大于或等于预设的表空间占用率故障门限值时，确定该表空间发生表空间不足故障，然后根据预先定义的表空间不足故障级别范围进行匹配，确定该表空间的故障级别，并生成该表空间的故障告警信息，并将该故障告警信息发送给上报处理模块；如果该表空间的占用率小于预设的表空间占用率故障门限值时，则该表空间没有发生表空间不足故障，则比较该表的上一次上报告警记录，若上一次有上报告警记录，则生成该表空间的清除告警信息，并发送给上报处理。

其中，该表空间的故障告警信息包括：该表空间的故障级别、告警类型、该表空间所在数据库的IP地址、对该表空间进行故障检测的开始时间、确定该表空间发生表空间不足故障的时间、该表空间的故障告警信息的上报时间、该表空间的名称和该表空间的相关信息。

所述对该表空间进行故障检测的开始时间、确定该表空间发生表空间不足故障的时间、以及该表空间的故障告警信息的上报时间，都是为工作人员提供方便，本发明实施例不体现具体用在何处。

具体地，针对每一表空间：

用数据字典表模块上报的表空间信息中的表空间中的数据文件个数、每一数据文件的大小以及该表空间的剩余物理磁盘空间大小，确定表空间占用率；其中，该表空间的其他相关信息，例如，该表空间的每一数据文件名称可以为工作人员查询该表空间信息时提供方便。

例如，预设的表空间不足故障门限值为60％，预设表空间不足故障的告警级别为，当表空间占用率在60％-70％之间为一级告警，当表空间占用率在70％-80％之间为二级告警，当表空间占用率在80％-100％之间为三级告警。

例如，表空间中的数据文件个数是3，每一数据文件的大小分别是400kb，700kb以及900kb，该表空间中剩余的物理磁盘空间大小是1000kb，则表空间占用率＝该表空间中所有数据文件大小的总和/(该表空间中剩余的物理磁盘空间大小+该表空间中所有数据文件大小的总和)，则该表的表空间占用率＝66％。因为表空间占用率66％大于表空间不足故障门限值60％，所以该表空间发生表空间不足故障；表空间占用率66％在60％-70％之间，所以该表空间的故障级别属于一级告警。同时，该表空间的故障类型属于上报告警。最后生成该表空间的故障告警信息，并上报该故障告警信息到上报处理模块。

若表空间占用率为50％，则该表空间没有发生表空间不足故障，同时比较上一次该表的告警记录，若上一次告警记录为一级告警，则发送该表空间的清除告警信息到上报处理模块。

步骤四，上报处理模块通过网管内部消息Java消息服务(Java Message Service，JMS)将故障告警信息发送给管理站中的告警接收模块。

本发明实施例提供了一种“挂死进程”故障的检测方法，包括：

步骤一，检测任务模块向数据字典表模块发送进程信息的查询请求。

步骤二，数据字典表模块接收检测任务模块发送的关于进程信息的查询请求后，数据字典表模块查询每一进程并上报给检测任务模块。

其中，数据字典表中存储有很多进程，所述数据字典表查询进程的信息，包括：

针对每一进程，查询每一进程的进程号和该进程执行时长。

步骤三，检测任务模块接收数据字典表模块上报的每一进程信息，并将获取的每一进程的执行时长与预设的进程执行时长故障门限值进行比较，若大于或等于，则确定该进程发生挂死进程故障，然后将该进程的执行时长与预先定义的挂死进程故障级别范围进行匹配，确定该进程的故障级别，并生成该进程的故障告警信息，将该进程的故障告警信息上报给上报处理模块；如果该进程没有发生故障，则比较该进程的上一次上报告警记录，若上一次有上报告警记录，则生成该进程的清除告警信息，并发送给上报处理。

其中，该进程的故障告警信息，包括：该进程的故障级别、告警类型、该进程所在数据库的IP地址、对该进程进行故障检测的开始时间、确定该进程发生挂死进程故障的时间、该进程的故障告警信息的上报时间、该进程的进程号和该进程的相关信息。

所述对该进程进行故障检测的开始时间、确定该进程发生挂死进程故障的时间、以及该进程的故障告警信息的上报时间，都是为工作人员提供方便，本发明实施例不体现具体用在何处。

具体地，例如，预设的进程执行时长故障门限值为进程执行时长为2秒，预设挂死进程故障的告警级别为当进程执行时长为2秒至3秒之间时，属于是一级告警，当进程执行时长为3秒以上时，属于二级告警。

如果某一进程的进程执行时长为2.5秒，判断该进程的执行时长大于进程执行时长故障门限值，则该进程发生挂死进程故障，然后对照该进程的进程执行时长在2秒至3秒之间，所以，该进程的故障级别属于一级告警，并且该进程的告警类型属于上报告警，并生成该进程的故障告警信息，然后将该进程的故障告警信息发送给上报处理模块。

如果某一进程执行时长为1.5秒，则该进程没有发生挂死进程故障，同时比较上一次该进程的告警记录，若有告警记录，则发送该进程的清除告警信息给上报处理。

步骤四，上报处理模块通过网管内部消息Java消息服务将该进程的告警信息发送给管理站中的告警接收模块。

本发明实施例提供了一种“锁定对象”故障的检测方法，包括：

步骤一，检测任务模块向数据字典表模块发送每一对象信息的查询请求。

步骤二，数据字典表模块接收检测任务模块发送的关于每一对象的查询请求后，数据字典表模块查询每一对象并上报给检测任务模块。

其中，所述数据字典表查询每一对象的信息，包括：

每一对象的对象名、对象类型、锁定此对象的用户名以及SQL语句。

步骤三，检测任务模块接收数据字典表模块上报的每一对象信息，根据该对象的对象名和锁定该对象的用户名，查询上一次和本次该对象被同一用户名锁定的时间，并根据所述时间计算该对象的锁定时长，当该对象的锁定时长大于或等于预设的锁定时长故障门限值时，确定该对象发生锁定对象故障，然后对照预先定义的锁定对象故障的故障级别范围，确定该对象的故障级别，生成该对象的故障告警信息，并将该故障告警信息发送给上报处理模块；如果所述对象的锁定时长小于预设的锁定时长故障门限值时，则该对象没有发生锁定对象的故障，则比较该对象的上一次上报告警记录，若上一次有上报告警记录，则发送该对象的清除告警信息给上报处理模块。

其中，该对象的故障告警信息包括：该对象的故障级别、告警类型、该对象所在数据库的IP地址、对该对象进行故障检测的开始时间、确定该对象发生锁定对象故障的时间、该对象的故障告警信息的上报时间、该对象的对象名、锁定该对象的用户名和该对象的相关信息。

所述对该对象进行故障检测的开始时间、确定该对象发生锁定对象故障的时间、以及该对象的故障告警信息的上报时间，都是为工作人员提供方便，本发明实施例不体现具体用在何处。

针对每一对象的相关信息中，利用该对象的对象名和锁定该对象的用户名确定该对象的锁定时长；相关信息中的其他信息，例如该对象的类型以及SQL语句为工作人员工作提供方便。

例如，预设的锁定对象故障的锁定时长门限值为5秒，预设锁定对象故障的告警级别为当锁定对象时长为5秒至8秒之间时是一级告警，当挂死进程时长为8秒以上时是二级告警。

如果某一对象的锁定时长是7秒，则该对象发生锁定对象的故障，然后确定7秒对应5秒至8秒之间，所以该对象的故障级别为一级告警，生成该对象的故障告警信息，其中，告警类型为上报告警。；

如果某一对象的锁定时长为4秒，则该对象没有发生锁定对象的故障，同时比较上一次该对象的告警记录，若有告警记录，则发送清除告警信息给上报处理模块。

步骤四，上报处理模块通过网管内部消息Java消息服务将该对象的故障告警信息发送给管理站中的告警接收模块。

本发明实施例提供了一种“任务执行失败”故障的检测方法，包括：

步骤一，检测任务模块向数据字典表模块发送任务的查询请求。

步骤二，数据字典表模块接收检测任务模块发送的关于任务的相关信息的查询请求后，数据字典表模块查询每一任务的相关信息并上报给检测任务模块。

其中，所述数据字典表查询每一任务的相关信息，包括：

针对每一任务，查询每一任务的内容、每一次任务执行失败的次数和每一次的执行时长以及执行间隔。

步骤三，检测任务模块接收到数据字典表模块上报的每一任务的相关信息后，针对每一任务，当该任务的执行失败次数大于或等于预设的任务执行失败次数故障门限值时，确定该任务发生任务执行失败故障，然后对照预先定义的任务执行失败的故障级别范围，确定该任务的故障级别，生成该任务的故障告警信息，并将该故障告警信息上报给上报处理模块；如果该任务的执行失败次数小于预设的任务执行失败次数故障门限值时，确定该任务没有发生任务执行失败故障，则比较该任务的上一次上报告警记录，若上一次有上报告警记录，则发送该任务的清除告警信息给上报处理模块。

其中，该任务的故障告警信息包括：该任务的故障级别、告警类型、该任务所在数据库的IP地址、对该任务进行故障检测的开始时间、确定该任务发生任务执行失败故障的时间、该任务的故障告警信息的上报时间、该任务的任务标识、该任务的开始时间、该任务的结束时间和该任务的相关信息。

所述对该任务进行故障检测的开始时间、确定该任务发生任务执行失败故障的时间、以及该任务的故障告警信息的上报时间，都是为工作人员提供方便，本发明实施例不体现具体用在何处。

针对每一任务的相关信息中，每一任务的内容、每一任务的执行时长以及执行间隔，是为工作人员查询该任务提供方便，本发明实施例里没有体现具体用处。

例如，预设的任务执行失败故障的任务执行失败次数门限值为5次，预先设定当任务执行失败次数在5次至8次之间时为一级告警，当任务执行失败次数达到8次及8次以上时为二级告警。

如果某一任务的任务执行失败次数为10次时，则判断该任务发生任务执行失败的故障，然后对照10次在任务执行失败次数达到8次及8次以上的范围，所以该任务的故障级别为二级告警，其告警类型为上报告警，并生成该任务的故障告警信息，并将该故障告警信息上报给上报处理模块。

如果某一任务的任务执行失败次数为4次，则该任务每一发生任务执行失败的故障，同时比较上一次该任务的告警记录，若有告警记录，则发送该任务的清除告警信息。

步骤四，上报处理模块通过网管内部消息Java消息服务将该任务的故障告警信息发送给管理站中的告警接收模块。

本发明实施例提供的一种“低效SQL”故障的检测方法，包括：

步骤一，检测任务模块向数据字典表模块发送SQL信息的查询请求。

步骤二，数据字典表模块接收检测任务模块发送的关于SQL信息的查询请求后，数据字典表模块查询每一SQL信息并上报给检测任务模块。

其中，数据字典表中存储有很多SQL信息，所述数据字典表模块查询每一SQL信息，包括：

查询每一SQL的SQL执行时长、该SQL的IO消耗、该SQL的CPU消耗以及物理磁盘消耗。

步骤三，检测任务模块接收数据字典表模块上报的每一SQL的相关信息，并根据该SQL的相关信息，以及预设的低效SQL的故障门限值，判断该SQL是否发生低效SQL的故障；如果发生低效SQL的故障，则对照预先定义的低效SQL的故障告警级别范围，确定该SQL的故障级别，并生成该SQL的故障告警信息，并将该故障告警信息上报给上报处理模块；如果没有发生低效SQL的故障，则比较该SQL的上一次上报告警记录，若上一次有上报告警记录，则发送清除告警信息给上报处理模块。

其中该SQL的故障告警信息，包括：

该SQL的故障级别、告警类型、该SQL所在数据库的IP地址、对该SQL进行故障检测的开始时间、确定该SQL发生低效SQL故障的时间、该SQL的故障告警信息的上报时间、该SQL的内容、该SQL占用资源类型、该SQL占用比率和该SQL的相关信息。

具体地，数据字典表模块上报的每一SQL的SQL执行时长，用于判断所述SQL是否属于故障，所述该SQL的IO消耗、该SQL的CPU消耗以及物理磁盘消耗，用于当所述SQL出现故障以后，判断所述SQL出现故障的原因，并确定该SQL占用资源比率，有利于工作人员对该故障的恢复。

例如，预设的低效SQL故障门限值是SQL执行时长为10秒，预先定义“低效SQL”故障的告警级别为：当SQL执行时长在10秒至12秒之间时为一级告警，当SQL执行时长在12秒以上时为二级告警。

如果某一SQL执行时长为11秒，判断该SQL的执行时长大于预设的低效SQL故障门限值，则确定该SQL发生低效SQL故障；然后与预先定义的低效SQL故障的告警级别范围进行匹配，确定该SQL的故障告警级别为一级告警。生成该SQL的故障告警信息，并上报给上报处理模块。其中，告警类型为上报告警，告警级别为一级告警。

如果某一SQL执行时长为9秒，则该SQL没有发生低效SQL故障，同时比较上一次该表的告警记录，若有告警记录，则发送该SQL的清除告警信息给上报处理模块。

步骤四，上报处理模块通过网管内部消息Java消息服务将该SQL故障告警信息发送给管理站中的告警接收模块。

参见图3、本发明实施例提供了一种故障恢复方法，该方法包括：

S301、获取服务器上报的检测对象的故障告警信息；

S302、根据所述故障告警信息对该检测对象进行故障恢复处理。

具体地，当根据所述故障告警信息，确定该检测对象的告警类型为上报告警，并且该检测对象发生的故障所属类型为表空间不足的故障、挂死进程的故障或锁定对象的故障时，查询该检测对象发生的故障所属类型对应的故障恢复配置参数；

以下是针对表空间不足故障、挂死进程故障或锁定对象故障的故障恢复方法的详细描述。

本发明实施例提供的一种“表空间不足”故障的恢复方法，包括：

步骤一，告警接收模块接收到的表空间的故障告警信息后，通过该故障告警信息中告警类型的标识位辨别出告警类型是属于上报告警或者清除告警。

若是上报告警，则将该故障告警信息发送给恢复故障模块以及通用处理模块；

若是清除告警，则将该故障告警信息发送给通用处理模块。

其中，通用处理用现有技术中的两种流程处理这两类告警。

针对上报告警，主要是通过声、光、图方式呈现到管理站界面，然后由人工干预或派单处理；针对清除告警，主要是将管理站上对应的告警消除掉。

步骤二，故障恢复模块接收到该表空间不足的故障告警信息后，发送用于获取该表空间恢复配置参数的指令给系统配置检测模块。

其中，恢复配置参数的指令中包括：查询发生该表空间不足故障的表空间所在服务器剩余的物理磁盘空间大小的信息。

步骤三，系统配置检测模块收到故障恢复模块发送的用于获取恢复配置参数的指令后，检测该表空间所在服务器剩余的物理磁盘空间大小，并将参数反馈给故障恢复模块。

步骤四，故障恢复模块判断该故障表空间所在服务器剩余的物理磁盘空间大小是否满足，使该故障表空间的占用率小于或等于表空间占用率恢复门限值，如果满足，则利用Java数据库连接接口(Java Database Connectivity，JDBC)发送恢复指令给Oracle数据库中的故障恢复任务模块，然后由故障恢复任务完成；如果不满足，则故障恢复模块会将该表空间恢复失败的信息记录反馈给通用处理模块。

具体地，根据该表空间故障告警信息列表中，该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小，计算出该表空间的表空间占用率，然后和预设的该表空间占用率恢复门限值比较，如果该表空间所在服务器剩余的物理磁盘空间大小能满足，使该表空间占用率减小到表空间占用率恢复门限值以下，则利用JDBC接口发送该表空间的恢复指令给Oracle数据库中的故障恢复任务模块；如果不满足，则故障恢复模块会将恢复失败的信息记录反馈给通用处理模块。

例如，根据预设的表空间占用率恢复门限值为40％，则当该表空间的表空间占用率为66％时(其中，表空间中的数据文件个数是3，每一数据文件的大小分别是400kb，700kb以及900kb，该表空间中剩余的物理磁盘空间大小是1000kb)，需要使该表空间的占用率减小到40％以下，那么需要物理磁盘大小为2000kb。如果获取该表空间所在服务器剩余的物理磁盘空间大小为4000kb，则该表空间所在服务器剩余的物理磁盘满足，使该表空间的故障恢复的条件，所以发送该表空间故障恢复的指令给数据库的故障恢复任务模块，其中指令中携带给该表空间增加物理磁盘大小的信息。

另外，检测任务模块定时查询表空间信息，当下次检测任务开始时，检测任务模块会通过数据字典表查询到该表空间恢复的信息，即该表空间的表空间不足故障解除，则检测模块发送该表空间的清除告警给上报处理模块。

本发明实施例提供的一种“挂死进程”故障的恢复方法，包括：

步骤一，告警接收模块根据接收到进程的故障告警信息后，根据该进程的故障告警信息中告警类型的标识位辨别出该故障告警信息是属于上报告警或者清除告警。

若是上报告警，则将该告警信息发送给恢复故障模块以及通用处理模块；

若是清除告警，则将该告警信息发送给通用处理模块。

其中，通用处理用现有技术中的两种流程处理这两类告警。

针对上报告警，主要是通过声、光、图方式呈现到管理站界面，然后由人工干预或派单处理；针对清除告警，主要是则将管理站上对应的告警消除掉。

步骤二，故障恢复模块收到该进程的故障告警信息后，发送用于获取恢复配置参数的指令给系统配置检测模块。

其中，恢复配置参数的指令中包括：发生挂死进程故障的进程在所述服务器中仍然处于挂死状态的确认信息，其中确认消息中携带该进程的进程号。

步骤三，系统配置检测模块收到故障恢复模块发送的用于获取恢复配置参数的指令后，根据该进程的进程号检测该进程所在服务器中是否存在该进程仍然挂死，如果存在，则将此确认消息发送给故障恢复模块；如果不存在所述进程挂死状态，则发送清除告警信息给通用处理模块。

步骤四，故障恢复模块收到发生挂死进程的故障的进程在所述服务器中仍然处于挂死状态的确认信息，利用JDBC接口发送恢复指令给Oracle数据库中的清理挂死进程的故障恢复任务，其中该恢复指令携带该挂死进程的进程号。

另外，检测任务模块定时查询挂死进程信息，当下次检测任务开始时，检测任务模块会通过数据字典表查询到该挂死进程恢复的信息，即该进程的挂死进程故障解除，则检测模块发送该进程的清除告警信息给上报处理模块。

本发明实施例提供的一种“锁定对象”故障的恢复方法，包括：

步骤一，告警接收模块接收到锁定对象的故障告警信息后，通过该告警信息中告警类型的标识位辨别出该对象的告警类型是属于上报告警或者清除告警。

若是清除告警，则将该告警信息发送给通用处理模块。

其中，通用处理用现有技术中的两种流程处理这两类告警。

步骤二，故障恢复模块收到锁定对象的故障告警信息后，发送用于获取恢复配置参数的指令给系统配置检测模块。

其中，恢复配置参数的指令中包括：发生锁定对象故障的对象在所述服务器中仍然处于锁定状态的确认信息，其中确认消息中携带该对象的对象名和锁定该对象的用户名。

步骤三，系统配置检测模块收到故障恢复模块发送的用于获取恢复配置参数的指令后，查询该指令中该对象所在数据库中是否存在此对象仍然处于被所述用户名锁定的状态，如果是，则发送该对象仍然处于锁定状态的确认信息给故障恢复模块；如果该对象所在数据库中不存在此对象仍然处于被所述用户名锁定的状态，则发送该对象的清除告警信息给告警接收模块。

步骤四，故障恢复模块在接收到发生锁定对象故障的对象在所述服务器中仍然处于锁定状态的确认信息后，根据锁定对象的对象编号和锁定此对象的进程号，利用JDBC接口发送恢复指令调用Oracle数据库中清理锁定对象的故障恢复任务，恢复任务模块完成锁定对象的解锁工作。

当下次检测任务开始时，检测任务会通过数据字典表查询到数据文件恢复的信息，即锁定对象故障解除，则发送清除告警信息。

参见图4、本发明实施例提供了一种故障检测装置，该装置包括：

数据字典模块41，用于存储每一类型预定义的所有检测对象的相关信息；

检测任务模块42，用于针对预设的每一类型的故障检测，从数据字典模块中获取该检测对象的相关信息，并根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障；对于发生该类型的故障的检测对象，确定该检测对象的故障告警信息，并上报给上报处理模块；

上报处理模块43，用于将所述该检测对象的故障告警信息上报给管理站。

参见图5、本发明实施例提供了一种与上述所述的故障检测装置相对应的故障恢复装置，该装置包括：

告警接收模块51，用于获取服务器上报的检测对象的故障告警信息；

故障恢复模块52，用于根据所述故障告警信息对该检测对象进行故障恢复处理。

数据字典模块41、检测任务模块42、上报处理模块43、告警接收模块51、故障恢复模块52都可以由处理器等实体装置实现。

综上所述，本发明实施例中，针对预设的每一类型的故障检测和故障恢复时，先确定该类型的预定义的所有检测对象的相关信息，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障；对于发生该类型的故障的检测对象，确定该检测对象的故障告警信息，并上报给管理站；管理站获取服务器上报的该检测对象的故障告警信息后，判断所述故障告警信息的告警类型以及该故障告警信息的故障类型，确定该检测对象的告警类型为上报告警，并且该检测对象发生的故障所属类型为表空间不足的故障、挂死进程的故障或锁定对象的故障时，查询该检测对象发生的故障所属类型对应的故障恢复配置参数；根据查询到的故障恢复配置参数以及所述故障告警信息，判断是否对该检测对象进行故障恢复。使得在网管系统中，针对数据库的应用类故障完成自动检测、上报告警及故障恢复，降低了网管系统的复杂度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种故障检测方法，其特征在于，针对预设的每一类型的故障检测，该方法包括：

针对该类型的每一检测对象：根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障；对于发生该类型的故障的检测对象，确定该检测对象的故障告警信息，并上报给管理站；

其中，当故障检测的类型为预设的表空间不足的故障检测，预定义的所有检测对象为所有表空间时，该类型的所有检测对象的相关信息包括：每一表空间名称，该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小；

2.根据权利要求1所述方法，其特征在于，该方法还包括：

3.根据权利要求1所述方法，其特征在于，当故障检测的类型为预设的表空间不足的故障检测时，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，包括：

4.根据权利要求3所述方法，其特征在于，对于发生表空间不足故障的表空间，该表空间的故障告警信息包括：该表空间的故障级别、告警类型、该表空间所在数据库的IP地址、对该表空间进行故障检测的开始时间、确定该表空间发生表空间不足故障的时间、该表空间的故障告警信息的上报时间、该表空间的名称和该表空间的相关信息。

5.根据权利要求1所述方法，其特征在于，当故障检测的类型为预设的挂死进程的故障检测时，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，包括：

6.根据权利要求5所述方法，其特征在于，对于发生挂死进程故障的进程，该进程的故障告警信息包括：该进程的故障级别、告警类型、该进程所在数据库的IP地址、对该进程进行故障检测的开始时间、确定该进程发生挂死进程故障的时间、该进程的故障告警信息的上报时间、该进程的进程号和该进程的相关信息。

7.根据权利要求1所述方法，其特征在于，当故障检测的类型为预设的锁定对象的故障检测时，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，包括：

8.根据权利要求7所述方法，其特征在于，对于发生锁定对象故障的对象，该对象的故障告警信息包括：该对象的故障级别、告警类型、该对象所在数据库的IP地址、对该对象进行故障检测的开始时间、确定该对象发生锁定对象故障的时间、该对象的故障告警信息的上报时间、该对象的对象名、锁定该对象的用户名和该对象的相关信息。

9.根据权利要求1所述方法，其特征在于，当故障检测的类型为预设的任务执行失败的故障检测时，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，包括：

10.根据权利要求9所述的方法，其特征在于，对于发生任务执行失败故障的任务，该任务的故障告警信息包括：该任务的故障级别、告警类型、该任务所在数据库的IP地址、对该任务进行故障检测的开始时间、确定该任务发生任务执行失败故障的时间、该任务的故障告警信息的上报时间、该任务的任务标识、该任务的开始时间、该任务的结束时间和该任务的相关信息。

11.根据权利要求1所述方法，其特征在于，当故障检测的类型为预设的低效SQL的故障检测时，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，包括：

12.根据权利要求11所述的方法，其特征在于，对于发生低效SQL故障的SQL，该SQL的故障告警信息包括：该SQL的故障级别、告警类型、该SQL所在数据库的IP地址、对该SQL进行故障检测的开始时间、确定该SQL发生低效SQL故障的时间、该SQL的故障告警信息的上报时间、该SQL的内容、该SQL占用资源类型、该SQL占用比率和该SQL的相关信息。

13.一种与上述权利要求1-12任一权项所述的故障检测方法相对应的故障恢复方法，其特征在于，该方法包括：

获取服务器上报的检测对象的故障告警信息；

根据所述故障告警信息对该检测对象进行故障恢复处理；

其中，根据所述故障告警信息对该检测对象进行故障恢复处理包括：

14.根据权利要求13所述的方法，其特征在于，当该检测对象发生的故障所属类型为表空间不足的故障时，所述故障恢复配置参数包括：发生表空间不足的故障的表空间所在服务器剩余的物理磁盘空间大小；所述故障告警信息包括该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小；

15.根据权利要求13所述的方法，其特征在于，当该检测对象发生的故障所属类型为挂死进程的故障时，所述故障恢复配置参数包括：发生挂死进程故障的进程在所述服务器中仍然处于挂死状态的确认信息；所述故障告警信息包括该挂死进程的进程号；

16.根据权利要求13所述的方法，其特征在于，当该检测对象发生的故障所属类型为锁定对象的故障时，所述故障恢复配置参数包括：发生锁定对象故障的对象在所述服务器中仍然处于锁定状态的确认信息；所述故障告警信息包括该锁定对象的对象名和锁定此对象的进程号；

17.一种故障检测装置，其特征在于，该装置包括：

上报处理模块，用于将所述该检测对象的故障告警信息上报给管理站；

其中，当故障检测的类型为预设的表空间不足的故障检测时，预定义的所有检测对象为所有表空间时，该类型的所有检测对象的相关信息包括：每一表空间名称，该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小；

当故障检测的类型为预设的挂死进程的故障检测，预定义的所有检测对象为所有进程时，该类型的所有检测对象的相关信息包括：每一进程的进程号和执行时长；

18.根据权利要求17所述的装置，其特征在于，所述检测任务模块，还用于：

19.根据权利要求17所述的装置，其特征在于，当故障检测的类型为预设的表空间不足的故障检测时，所述检测任务模块，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障时，具体用于：

20.根据权利要求19所述的装置，其特征在于，对于发生表空间不足故障的表空间，该表空间的故障告警信息包括：该表空间的故障级别、告警类型、该表空间所在数据库的IP地址、对该表空间进行故障检测的开始时间、确定该表空间发生表空间不足故障的时间、该表空间的故障告警信息的上报时间、该表空间的名称和该表空间的相关信息。

21.根据权利要求17所述的装置，其特征在于，当故障检测的类型为预设的挂死进程的故障检测时，所述检测任务模块中，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，具体用于：

22.根据权利要求21所述的装置，其特征在于，对于发生挂死进程故障的进程，该进程的故障告警信息包括：该进程的故障级别、告警类型、该进程所在数据库的IP地址、对该进程进行故障检测的开始时间、确定该进程发生挂死进程故障的时间、该进程的故障告警信息的上报时间、该进程的进程号和该进程的相关信息。

23.根据权利要求17所述的装置，其特征在于，当故障检测的类型为预设的锁定对象的故障检测时，所述检测任务模块中，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，具体用于：

24.根据权利要求23所述的装置，其特征在于，对于发生锁定对象故障的对象，该对象的故障告警信息包括：该对象的故障级别、告警类型、该对象所在数据库的IP地址、对该对象进行故障检测的开始时间、确定该对象发生锁定对象故障的时间、该对象的故障告警信息的上报时间、该对象的对象名、锁定该对象的用户名和该对象的相关信息。

25.根据权利要求17所述的装置，其特征在于，当故障检测的类型为预设的任务执行失败的故障检测时，所述检测任务模块，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，具体用于：

26.根据权利要求25所述的装置，其特征在于，对于发生任务执行失败故障的任务，该任务的故障告警信息包括：该任务的故障级别、告警类型、该任务所在数据库的IP地址、对该任务进行故障检测的开始时间、确定该任务发生任务执行失败故障的时间、该任务的故障告警信息的上报时间、该任务的任务标识、该任务的开始时间、该任务的结束时间和该任务的相关信息。

27.根据权利要求17所述的装置，其特征在于，当故障检测的类型为预设的低效SQL的故障检测时，所述检测任务模块，针对该类型的每一检测对象，根据该检测对象的相关信息，以及预设的该类型的故障条件，判断该检测对象是否发生该类型的故障，具体用于：

28.根据权利要求27所述的装置，其特征在于，对于发生低效SQL故障的SQL，该SQL的故障告警信息包括：该SQL的故障级别、告警类型、该SQL所在数据库的IP地址、对该SQL进行故障检测的开始时间、确定该SQL发生低效SQL故障的时间、该SQL的故障告警信息的上报时间、该SQL的内容、该SQL占用资源类型、该SQL占用比率和该SQL的相关信息。