CN103412805A - 一种it故障源诊断方法及系统 - Google Patents

一种it故障源诊断方法及系统 Download PDF

Info

Publication number
CN103412805A
CN103412805A CN2013103285766A CN201310328576A CN103412805A CN 103412805 A CN103412805 A CN 103412805A CN 2013103285766 A CN2013103285766 A CN 2013103285766A CN 201310328576 A CN201310328576 A CN 201310328576A CN 103412805 A CN103412805 A CN 103412805A
Authority
CN
China
Prior art keywords
performance index
model
anomalous event
source
trouble
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013103285766A
Other languages
English (en)
Inventor
郑仕辉
李晋晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of Communications Co Ltd
Original Assignee
Bank of Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of Communications Co Ltd filed Critical Bank of Communications Co Ltd
Priority to CN2013103285766A priority Critical patent/CN103412805A/zh
Publication of CN103412805A publication Critical patent/CN103412805A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一种IT故障源诊断方法及系统,该方法包括:预定义IT系统的性能指标模型;采集性能指标模型中的各个性能数据,生成性能指标值;计算性能指标值的性能均值;判断某一时点的监控的性能指标值与预定义指标值或的性能均值的差值是否超过预设的阈值,如果是,定义为性能指标的异常事件,并将同一时点发生的多个异常事件定义为异常事件集合;利用关联规则FP-树频集算法计算异常事件集合中多个异常事件之间的关联关系,生成关联规则特征模型;分析关联规则特征模型中的同一时点发生的异常事件是否是由IT故障源产生的,如果是,将关联规则特征模型定义为IT故障源的特征模型;将IT系统运行过程中实时采集的性能指标与特征模型中的异常事件集合进行匹配。

Description

一种IT故障源诊断方法及系统
技术领域
本发明是关于IT系统故障诊断技术,特别是关于一种IT故障源诊断方法及系统。
背景技术
一个完整的IT系统架构由多个IT组件构成,传统的IT监控主要是采用在各组件层部署对应的专业监控系统,来监控各自对应的IT组件。市场上的监控工具,每个工具只针对一个部件,如操作系统、数据库、中间件、网络、服务器硬件、存储硬件、带库硬件、数据传输工具、备份工具等等各自有其专业的监控系统。
由多个IT组件构成的IT系统架构,当IT组件发生故障时,只有故障导致的IT架构异常触发了特定专业监控系统已预先设置好的监控场景(监控场景:根据经验,针对某IT组件运行时可能发生的异常情况,在专业监控系统中预先定义出某类特定的监控指标、以及触发告警事件的对应阈值),才会触发对应的告警事件。但现在的IT系统架构非常复杂,当IT组件异常属于其对应的专业监控尚未支持的监控点、或者在专业监控中没有定义对应的监控点及监控阀值时,各专业监控系统可能无法发出对应的告警事件;即使达到专业监控系统阀值,产生了告警事件,通常也只能说明某IT组件运行出现异常,并不指向真正的故障源,此时监控告警在帮助技术人员准确分析和快速定位真正故障原因所起到的作用有限,有时可能导致误判,导致技术人员进行故障定位非常困难。
发明内容
本发明提供一种IT故障源诊断方法及系统,以利用关联规则模型,汇总监控数据,快速诊断IT故障源。
为了实现上述目的,本发明提供一种IT故障源诊断方法,所述IT故障源诊断方法包括:
预定义IT系统的性能指标模型,所述性能指标模型包括:操作系统层性能指标模型、中间件工具层性能指标模型、数据库层性能指标模型、应用层性能指标模型;
实时采集所述性能指标模型中的各个性能数据,并根据时间点切片生成所述性能数据的性能指标值;
实时计算所述性能指标值的性能均值;
判断某一时点的监控的性能指标值与预定义指标值或所述的性能均值的差值是否超过预设的阈值,如果是,定义为所述性能指标的异常事件,并将同一时点发生的多个异常事件定义为异常事件集合;
根据设定的最小支持度及最小可信度,定期利用关联规则FP-树频集算法计算所述异常事件集合中多个所述异常事件之间的关联关系,生成关联规则特征模型;
分析所述关联规则特征模型中的同一时点发生的所述异常事件是否是由IT故障源产生的,如果是,将所述关联规则特征模型定义为IT故障源的特征模型;
在IT系统运行过程中实时采集所述的性能指标模型中的性能指标,并将所述性能指标与所述特征模型中的异常事件集合进行匹配,并生成匹配结果信息。
进一步地,所述定期利用关联规则FP-树频集算法计算所述异常事件集合中多个所述异常事件之间的关联关系,生成关联规则特征模型,包括:
利用关联规则FP-树频集算法计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率是否超过所述的最小支持度;
如果是,计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率占所述多个所述异常事件中的其中一个异常事件发生的概率的比值是否超过所述的最小可信度;
如果是,将异常事件集合生成关联规则特征模型。
在一实施例中,所述生成匹配结果信息,包括:如果匹配成功,生成IT故障源告警信息。
在一实施例中,所述操作系统层性能指标模型中的性能指标包括:CPU使用率、CPUwait I/O使用率、虚拟内存使用率、内存交换空间使用率、磁盘IO。
在一实施例中,所述中间件工具层性能指标模型中的性能指标包括:jdbcpool使用率、threadpool使用率、JC time、活动会话、Jvm内存使用率、MQ队列深度、MQ死信队列深度。
在一实施例中,所述数据库层性能指标模型中的性能指标包括:日志空间使用率、锁等待数、锁超时数、锁升级数、死锁数、应用连接数。
在一实施例中,所述应用层性能指标模型中的性能指标包括:交易响应时间、交易并发数、交易量失败率。
为了实现上述目的,本发明提供一种IT故障源诊断系统,所述IT故障源诊断系统包括:
模型定义单元,用于预定义IT系统的性能指标模型,所述性能指标模型包括:操作系统层性能指标模型、中间件工具层性能指标模型、数据库层性能指标模型、应用层性能指标模型;
性能指标值生成单元,用于实时采集所述性能指标模型中的各个性能数据,并根据时间点切片生成所述性能数据的性能指标值;
性能均值计算单元,用于实时计算所述性能指标值的性能均值;
异常事件判断单元,用于判断某一时点的监控的性能指标值与预定义指标值或所述的性能均值的差值是否超过预设的阈值,如果是,定义为所述性能指标的异常事件,并将同一时点发生的多个异常事件定义为异常事件集合;
关联规则特征模型生成单元,用于根据设定的最小支持度及最小可信度,定期利用关联规则FP-树频集算法计算所述异常事件集合中多个所述异常事件之间的关联关系,生成关联规则特征模型;
IT故障源分析单元,分析所述关联规则特征模型中的同一时点发生的所述异常事件是否是由IT故障源产生的,如果是,将所述关联规则特征模型定义为IT故障源的特征模型;
匹配单元,用于在IT系统运行过程中实时采集所述的性能指标模型中的性能指标,并将所述性能指标与所述特征模型中的异常事件集合进行匹配,并生成匹配结果信息。
进一步,所述关联规则特征模型生成单元包括:
支持度判断模块,用于利用关联规则FP-树频集算法计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率是否超过所述的最小支持度;
可信度判断模块,用于计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率占所述多个所述异常事件中的其中一个异常事件发生的概率的比值是否超过所述的最小可信度;
关联规则特征模型生成模块,将异常事件集合生成关联规则特征模型。
在一实施例中,所述匹配结果信息,包括:IT故障源告警信息。
本发明实施例的有益效果在于,本发明建立了性能指标模型,通过采集性能指标模型中各性能指标的性能指标数据建立关联规则模型,利用关联规则模型汇总监控数据,能够快速预警、诊断IT故障源。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的IT故障源诊断方法流程图;
图2为本发明实施例以交换机的异常为例诊断的IT故障源的方法流程示意图;
图3为本发明实施例的故障源诊断系统结构框图;
图4为本发明实施例的关联规则特征模型生成单元305的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本发明实施例提供一种IT故障源诊断方法,所述IT故障源诊断方法包括:
步骤S101:预定义IT系统的性能指标模型,所述性能指标模型包括:操作系统层性能指标模型、中间件工具层性能指标模型、数据库层性能指标模型、应用层性能指标模型;
步骤S102:实时采集所述性能指标模型中的各个性能数据,并根据时间点切片生成所述性能数据的性能指标值;
步骤S103:实时计算所述性能指标值的性能均值;
步骤S104:判断某一时点的监控的性能指标值与预定义指标值或所述的性能均值的差值是否超过预设的阈值,如果是,定义为所述性能指标的异常事件,并将同一时点发生的多个异常事件定义为异常事件集合;
步骤S105:根据设定的最小支持度及最小可信度,定期利用关联规则FP-树频集算法计算所述异常事件集合中多个所述异常事件之间的关联关系,生成关联规则特征模型;
步骤S106:分析所述关联规则特征模型中的同一时点发生的所述异常事件是否是由IT故障源产生的,如果是,将所述关联规则特征模型定义为IT故障源的特征模型;
步骤S107:在IT系统运行过程中实时采集所述的性能指标模型中的性能指标,并将所述性能指标与所述特征模型中的异常事件集合进行匹配,并生成匹配结果信息。
由图1所示的流程可以得知,本发明实施例中,在IT系统运维过程中,实时收集各专业监控系统可监控的IT系统架构相关的性能异常事件,存入历史数据库,应用关联规则算法(关联规则FP-树频集算法)进行数据统计分析,自动挖掘出各专业监控指标异常事件的关联规则特征模型,分析关联规则特征与具体IT故障间关系;然后在集中监控平台中将关联规则特征模型定义为IT故障源的特征模型,在IT系统运行中,实时收集多个专业监控系统的性能指标数据,上送到集中监控告警平台,按照关联规则特征模型的特征规则进行判断,实时匹配已建立的关联规则特征模型,如果对应的性能指标数据匹配,则产生对应的IT故障事件或潜在风险提示,达到提前预警并快速定位IT故障源的目的。
上述的专业监控系统是在现有软件产品市场上,针对IT架构中特定的IT组件(如操作系统、数据库、网络、服务器硬件、存储硬件等)开发设计的,用以监控此IT组件运行状态的软件工具产品或功能模块。
上述的集中监控平台可集中管理数据中心现有的各专业监控系统,收集数据中心所有专业监控系统实时发出的性能指标数据及告警事件,建立跨IT组件的性能指标历史数据库,自动挖掘跨IT组件的专业监控指标异常事件之间的关联规则特征,通过分析这些有关联关系的异常事件所对应的IT故障源,建立IT故障源的特征模型,在集中监控平台对性能指标数据进行实时处理,匹配IT故障源的特征模型,并及时发出告警通知,提醒技术人员并帮助进行问题诊断及故障定位。
步骤S101及步骤S102具体实施时,在集中告警平台中预先定义操作系统、中间件工具、数据库、应用层等的性能指标模型,实时收集各IT组件对应的专业监控系统产生的各个性能数据,按时间点切片记录各性能指标值(如:每分钟1次),存入集中监控平台的性能指标历史数据库中,主要的性能指标模型包括:操作系统层性能指标模型,中间件工具层性能指标模型,数据库层性能指标模型,应用层性能指标模型,网络层性能指标模型及设备层性能指标模型。
操作系统层性能指标模型中的性能指标包括:SYS的CPU使用率、CPUwait I/O使用率、虚拟内存使用率、内存交换空间使用率、磁盘IO等。上述性能指标的具体数据(比如CPU使用率为80%)即为性能数据。
中间件工具层性能指标模型中的性能指标包括:MID的jdbcpool使用率、threadpool使用率、JC time、活动会话、Jvm内存使用率、MQ队列深度、MQ死信队列深度等。
数据库层性能指标中的性能指标包括:DB的日志空间使用率、锁等待数、锁超时数、锁升级数、死锁数、应用连接数等。
应用层性能指标中的性能指标包括:APP的交易响应时间、交易并发数、交易量失败率等。
网络层性能指标中的性能指标包括:NET的中断、丢包、错包、线路利用率等。
设备层性能指标中的性能指标包括:HD的物理CPU、物理内存、磁盘通道等。
步骤S103具体实施时,在集中监控平台的性能指标历史数据库中实时按时间点计算性能均值(可以分工作日及非工作日),如:在工作日的某时点T,某操作系统的性能指标CPU利用率,在前一周此时间点T的指标值分别为C1、C2、C3、C4、C5,则简单的计算CPU利用率的性能均值的公式为:T_SYSCpuA=(C1+C2+C3+C4+C5)/5;同理其他性能指标模型性能指标的性能均值可分别计算出如:T_MIDJvmA(中间件Jvm内存使用率)、T_DBLogA(数据库日志使用率)、T_DBlockWA(数据库锁等待数)、T_APPResT(应用交易响应时间),如考虑到业务量有一定趋势变化,也可选用线性回归等函数公式计算性能均值。
步骤S104具体实施时,当某一时点的监控的性能指标值与预定义指标值或所述的性能均值的差值超过预设的阈值(如20%,此阀值可根据各专业监控指标情况具体定义及调整),定义为所述性能指标的异常事件,并将同一时点发生的多个异常事件定义为异常事件集合,如同一时间点发生多个专业监控系统的多个事件异常,则定义这些异常事件的集合,并记录在性能指标历史数据库中。
步骤S105具体实施时,定期(每月)用关联规则FP-树频集算法挖掘异常事件集合中各个专业监控指标异常事件之间的关联关系。因大型银行后台IT架构组件复杂,按上述标准定义的异常事件类型较为分散,本系统采用关联规则算法时设置的最小支持度定义为2%,最小可信度定义为30%,2%及30%仅为本发明的较佳实施例,本发明不以此为限。
定义了上述最小支持度及最小可信度后,需要利用关联规则FP-树频集算法计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率是否超过所述的最小支持度。如果所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率超过所述的最小支持度,计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率占所述多个所述异常事件中的其中一个异常事件发生的概率的比值是否超过所述的最小可信度。如果所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率占所述多个所述异常事件中的其中一个异常事件发生的概率的比值超过所述的最小可信度,将异常事件集合生成关联规则特征模型。举例说明如下:
如某一异常事件集合中包括:某分区CPU高、某交换机端口丢包率超过均值、某应用系统交易响应时间偏长三个异常事件,如果三个异常事件的记录集合在统计区间内时发生的概率超过2%(支持度);则在此项集基础上进一步挖掘,当包含某应用系统交易响应时间偏长、某分区CPU高、某交换机端口丢包率超过均值的记录集合占包含某应用系统交易响应时间偏长记录集合的概率超过30%(置信度)时,则取此三项异常事件的集合作为关联规则特征模型。
步骤S106具体实施时,需要分析通过关联算法自动挖掘出的异常事件集合(可能有多个异常事件集合),当这些异常事件同时发生的情况是由某特定IT故障源导致,则将此关联规则特征模型定义为对应某特定IT故障源的特征模型。在此需要特别说明书的是,当关联规则特征模型中出现应用监控指标异常事件(如交易量、交易响应时间、交易失败率等)时,作为与业务应用可用率相关的关联特征进行重点分析。
在IT系统运行过程中,步骤S107具体实施时,通过专业监控系统实时收集所述的性能指标模型中的各性能指标上送到集中监控平台,实时比对采集的性能指标IT故障源的特征模型库中的性能指标值,当出现匹配情况时,生成IT故障源告警信息,发出告警通知,并指明对应的IT故障源或潜在性能风险。
下面结合具体的例子说明本发明的故障源诊断方法。
实践运维中,根据关联特征模型,可匹配特定应用交易压力大、服务器HANG、服务器异常、系统进程HANG、特定应用宕、特定应用HANG、网络交换机异常等多种异常事件类型,在日常运维中,实时收集IT组件对应的专业监控系统监控的性能指标,按规则匹配已有的关联特征模型,当此类故障事件真实发生时,可立刻产生故障事件告警,并指明IT故障源。
如图2所示,以交换机异常为例进行说明。
如果某重要应用系统突然爆发大规模故障,应用交易缓慢,应用层、操作系统层、网络层出现多个性能告警,但操作系统、应用层、设备层、网络层均无明显的故障情况,无法快速定位故障原因,多次重启应用以及操作系统均无明显改善。逐段排查分析后发现此问题故障源主要是由某网络交换机异常导致,同时交易量大导致的CPU资源紧张及JVM内存使用率高加剧了问题的影响程度,重启后可以得到解决。但事件解决时间很长,对业务客户影响很大。
应用集中监控平台的异常事件关联规则分析后,发现此系统的APP分区CPU使用率、JVM内存使用率、某网络交换机一分钟内member Down up次数、应用交易失败率的异常事件存在较大概率同时发生的关联关系。
在集中监控平台上将上述此四项指标的异常事件集合定义为网络交换机异常导致特定应用故障的关联特征模型,当此后类似故障再次发生,集中监控平台直接产生预警事件,技术人员确认告警情况后,及时进行网络交换机主备切换后系统迅速恢复正常。
本实施例的有益效果在于,本发明实施例的有益效果在于,本发明建立了性能指标模型,通过采集性能指标模型中各性能指标的性能指标数据建立关联规则模型,利用关联规则模型汇总监控数据,能够快速预警、诊断IT故障源。
实施例二
如图3所示,本实施例提供一种IT故障源诊断系统,所述IT故障源诊断系统包括:模型定义单元301,性能指标值生成单元302,性能均值计算单元303,异常事件判断单元304,关联规则特征模型生成单元305,IT故障源分析单元306,匹配单元307。
模型定义单元301用于预定义IT系统的性能指标模型,所述性能指标模型包括:操作系统层性能指标模型、中间件工具层性能指标模型、数据库层性能指标模型、应用层性能指标模型。
操作系统层性能指标模型中的性能指标包括:SYS的CPU使用率、CPUwait I/O使用率、虚拟内存使用率、内存交换空间使用率、磁盘IO等。上述性能指标的具体数据(比如CPU使用率为80%)即为性能数据。
中间件工具层性能指标模型中的性能指标包括:MID的jdbcpool使用率、threadpool使用率、JC time、活动会话、Jvm内存使用率、MQ队列深度、MQ死信队列深度等。
数据库层性能指标中的性能指标包括:DB的日志空间使用率、锁等待数、锁超时数、锁升级数、死锁数、应用连接数等。
应用层性能指标中的性能指标包括:APP的交易响应时间、交易并发数、交易量失败率等。
网络层性能指标中的性能指标包括:NET的中断、丢包、错包、线路利用率等。
设备层性能指标中的性能指标包括:HD的物理CPU、物理内存、磁盘通道等。
性能指标值生成单元302用于实时采集所述性能指标模型中的各个性能数据,并根据时间点切片生成所述性能数据的性能指标值,存入集中监控平台的性能指标历史数据库中。
性能均值计算单元303用于实时计算所述性能指标值的性能均值,如:在工作日的某时点T,某操作系统的性能指标CPU利用率,在前一周此时间点T的指标值分别为C1、C2、C3、C4、C5,则简单的计算CPU利用率的性能均值的公式为:T_SYSCpuA=(C1+C2+C3+C4+C5)/5;同理其他性能指标模型性能指标的性能均值可分别计算出如:T_MIDJvmA(中间件Jvm内存使用率)、T_DBLogA(数据库日志使用率)、T_DBlockWA(数据库锁等待数)、T_APPResT(应用交易响应时间)。
异常事件判断单元304用于判断某一时点的监控的性能指标值与预定义指标值或所述的性能均值的差值是否超过预设的阈值,如果是,定义为所述性能指标的异常事件,并将同一时点发生的多个异常事件定义为异常事件集合。该阈值例如可以设为20%,此阀值可根据各专业监控指标情况具体定义及调整。
关联规则特征模型生成单元305用于根据设定的最小支持度及最小可信度,定期利用关联规则FP-树频集算法计算所述异常事件集合中多个所述异常事件之间的关联关系,生成关联规则特征模型。
如图4所示,所述关联规则特征模型生成单元305包括:支持度判断模块401,可信度判断模块402及关联规则特征模型生成模块403。
支持度判断模块401用于利用关联规则FP-树频集算法计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率是否超过所述的最小支持度;可信度判断模块402用于计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率占所述多个所述异常事件中的其中一个异常事件发生的概率的比值是否超过所述的最小可信度;关联规则特征模型生成模块403将异常事件集合生成关联规则特征模型。举例说明如下:
如某一异常事件集合中包括:某分区CPU高、某交换机端口丢包率超过均值、某应用系统交易响应时间偏长三个异常事件,如果三个异常事件的记录集合在统计区间内时发生的概率超过2%(支持度);则在此项集基础上进一步挖掘,当包含某应用系统交易响应时间偏长、某分区CPU高、某交换机端口丢包率超过均值的记录集合占包含某应用系统交易响应时间偏长记录集合的概率超过30%(置信度)时,则取此三项异常事件的集合作为关联规则特征模型。
IT故障源分析单元306用于分析所述关联规则特征模型中的同一时点发生的所述异常事件是否是由IT故障源产生的,如果所述关联规则特征模型中的同一时点发生的所述异常事件是否是由IT故障源产生的,将所述关联规则特征模型定义为IT故障源的特征模型。
匹配单元307用于将IT系统运行过程中实时采集的性能指标与所述特征模型中的异常事件集合进行匹配,并生成匹配结果信息。具体地,在IT系统运行过程中,专业监控系统实时收集所述的性能指标模型中的各性能指标上送到集中监控平台,实时比对采集的性能指标IT故障源的特征模型库中的性能指标值,当出现匹配情况时,生成IT故障源告警信息,发出告警通知,并指明对应的IT故障源或潜在性能风险。
本发明实施例的有益效果在于,本发明建立了性能指标模型,通过采集性能指标模型中各性能指标的性能指标数据建立关联规则模型,利用关联规则模型汇总监控数据,能够快速预警、诊断IT故障源。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种IT故障源诊断方法,其特征在于,所述IT故障源诊断方法包括:
预定义IT系统的性能指标模型,所述性能指标模型包括:操作系统层性能指标模型、中间件工具层性能指标模型、数据库层性能指标模型、应用层性能指标模型;
实时采集所述性能指标模型中的各个性能数据,并根据时间点切片生成所述性能数据的性能指标值;
实时计算所述性能指标值的性能均值;
判断某一时点的监控的性能指标值与预定义指标值或所述的性能均值的差值是否超过预设的阈值,如果是,定义为所述性能指标的异常事件,并将同一时点发生的多个异常事件定义为异常事件集合;
根据设定的最小支持度及最小可信度,定期利用关联规则FP-树频集算法计算所述异常事件集合中多个所述异常事件之间的关联关系,生成关联规则特征模型;
分析所述关联规则特征模型中的同一时点发生的所述异常事件是否是由IT故障源产生的,如果是,将所述关联规则特征模型定义为IT故障源的特征模型;
在IT系统运行过程中实时采集所述的性能指标模型中的性能指标,并将所述性能指标与所述特征模型中的异常事件集合进行匹配,并生成匹配结果信息。
2.根据权利要求1所述的IT故障源诊断方法,其特征在于,所述定期利用关联规则FP-树频集算法计算所述异常事件集合中多个所述异常事件之间的关联关系,生成关联规则特征模型,包括:
利用所述关联规则FP-树频集算法计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率是否超过所述的最小支持度;
如果是,计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率占所述多个所述异常事件中的其中一个异常事件发生的概率的比值是否超过所述的最小可信度;
如果是,将异常事件集合生成关联规则特征模型。
3.根据权利要求1所述的IT故障源诊断方法,其特征在于,所述生成匹配结果信息,包括:如果匹配成功,生成IT故障源告警信息。
4.根据权利要求1所述的IT故障源诊断方法,其特征在于,所述操作系统层性能指标模型中的性能指标包括:CPU使用率、CPUwait I/O使用率、虚拟内存使用率、内存交换空间使用率、磁盘IO。
5.根据权利要求1所述的IT故障源诊断方法,其特征在于,所述中间件工具层性能指标模型中的性能指标包括:jdbcpool使用率、threadpool使用率、JC time、活动会话、Jvm内存使用率、MQ队列深度、MQ死信队列深度。
6.根据权利要求1所述的IT故障源诊断方法,其特征在于,所述数据库层性能指标模型中的性能指标包括:日志空间使用率、锁等待数、锁超时数、锁升级数、死锁数、应用连接数。
7.根据权利要求1所述的IT故障源诊断方法,其特征在于,所述应用层性能指标模型中的性能指标包括:交易响应时间、交易并发数、交易量失败率。
8.一种IT故障源诊断系统,其特征在于,所述IT故障源诊断系统包括:
模型定义单元,用于预定义IT系统的性能指标模型,所述性能指标模型包括:操作系统层性能指标模型、中间件工具层性能指标模型、数据库层性能指标模型、应用层性能指标模型;
性能指标值生成单元,用于实时采集所述性能指标模型中的各个性能数据,并根据时间点切片生成所述性能数据的性能指标值;
性能均值计算单元,用于实时计算所述性能指标值的性能均值;
异常事件判断单元,用于判断某一时点的监控的性能指标值与预定义指标值或所述的性能均值的差值是否超过预设的阈值,如果是,定义为所述性能指标的异常事件,并将同一时点发生的多个异常事件定义为异常事件集合;
关联规则特征模型生成单元,用于根据设定的最小支持度及最小可信度,定期利用关联规则FP-树频集算法计算所述异常事件集合中多个所述异常事件之间的关联关系,生成关联规则特征模型;
IT故障源分析单元,分析所述关联规则特征模型中的同一时点发生的所述异常事件是否是由IT故障源产生的,如果是,将所述关联规则特征模型定义为IT故障源的特征模型;
匹配单元,用于在IT系统运行过程中实时采集所述的性能指标模型中的性能指标,并将所述性能指标与所述特征模型中的异常事件集合进行匹配,并生成匹配结果信息。
9.根据权利要求8所述的IT故障源诊断系统,其特征在于,所述关联规则特征模型生成单元包括:
支持度判断模块,用于利用关联规则FP-树频集算法计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率是否超过所述的最小支持度;
可信度判断模块,用于计算所述异常事件集合中的多个所述异常事件在统计区间内同时发生的概率占所述多个所述异常事件中的其中一个异常事件发生的概率的比值是否超过所述的最小可信度;
关联规则特征模型生成模块,将异常事件集合生成关联规则特征模型。
10.根据权利要求9所述的IT故障源诊断系统,其特征在于,所述匹配结果信息,包括:IT故障源告警信息。
CN2013103285766A 2013-07-31 2013-07-31 一种it故障源诊断方法及系统 Pending CN103412805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013103285766A CN103412805A (zh) 2013-07-31 2013-07-31 一种it故障源诊断方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013103285766A CN103412805A (zh) 2013-07-31 2013-07-31 一种it故障源诊断方法及系统

Publications (1)

Publication Number Publication Date
CN103412805A true CN103412805A (zh) 2013-11-27

Family

ID=49605818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013103285766A Pending CN103412805A (zh) 2013-07-31 2013-07-31 一种it故障源诊断方法及系统

Country Status (1)

Country Link
CN (1) CN103412805A (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104639368A (zh) * 2015-01-13 2015-05-20 中国联合网络通信集团有限公司 通信网络设备的故障处理方法及装置
CN104811344A (zh) * 2014-01-23 2015-07-29 阿里巴巴集团控股有限公司 网络动态业务监控方法及装置
CN105183612A (zh) * 2015-09-25 2015-12-23 携程计算机技术(上海)有限公司 服务器可用内存异常增长及运行状况的评估方法
CN105320585A (zh) * 2014-07-08 2016-02-10 北京启明星辰信息安全技术有限公司 一种实现应用故障诊断的方法及装置
CN105550100A (zh) * 2015-12-11 2016-05-04 国家电网公司 一种信息系统故障自动恢复的方法及系统
CN105590245A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 定位电子交易的故障成因的计算机实施方法和数据处理方法
CN105653430A (zh) * 2016-01-04 2016-06-08 山东超越数控电子有限公司 一种处理服务器管理信息的方法、装置及系统
CN106327323A (zh) * 2016-08-19 2017-01-11 清华大学 银行频繁项模式挖掘方法及挖掘系统
CN106502815A (zh) * 2016-10-20 2017-03-15 北京蓝海讯通科技股份有限公司 一种异常原因定位方法、装置和计算设备
CN106649043A (zh) * 2016-12-28 2017-05-10 深圳新基点智能股份有限公司 一种运维系统故障自动诊断方法及系统
CN106951465A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 系统故障定位用数据分析方法及装置
CN107370618A (zh) * 2017-06-05 2017-11-21 北京奇艺世纪科技有限公司 故障排查方法、装置及电子设备
CN107480703A (zh) * 2017-07-21 2017-12-15 阿里巴巴集团控股有限公司 交易故障检测方法及装置
CN107707376A (zh) * 2017-06-09 2018-02-16 贵州白山云科技有限公司 一种监控和告警的方法和系统
CN107704387A (zh) * 2017-09-26 2018-02-16 恒生电子股份有限公司 用于系统预警的方法、装置、电子设备及计算机可读介质
CN107863755A (zh) * 2016-09-21 2018-03-30 通用电器技术有限公司 机器保护和诊断系统和方法
CN108009283A (zh) * 2017-12-22 2018-05-08 无线生活(杭州)信息科技有限公司 一种问题分析方法及装置
CN108053095A (zh) * 2017-11-22 2018-05-18 全球能源互联网研究院有限公司 一种电能质量扰动事件特征提取方法及系统
WO2018103453A1 (zh) * 2016-12-07 2018-06-14 华为技术有限公司 检测网络的方法和装置
CN108416042A (zh) * 2018-03-14 2018-08-17 贵州电网有限责任公司 基于指标库数据源映射实现信息化的数据分析管理系统
CN109358595A (zh) * 2018-09-30 2019-02-19 南方电网科学研究院有限责任公司 一种it运维风险预警方法及相关装置
CN109462494A (zh) * 2018-09-29 2019-03-12 深圳市云来网络科技有限公司 云服务器监控报警实时智能分析诊断方法及系统
CN109633351A (zh) * 2018-12-13 2019-04-16 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质
CN109726048A (zh) * 2018-12-13 2019-05-07 中国银联股份有限公司 一种交易系统中数据恢复方法及装置
CN109886292A (zh) * 2019-01-09 2019-06-14 同济大学 一种基于异常关联图的异常原因诊断方法
CN109995547A (zh) * 2017-12-29 2019-07-09 中国移动通信集团甘肃有限公司 一种故障诊断方法及设备
CN110008096A (zh) * 2018-11-29 2019-07-12 阿里巴巴集团控股有限公司 数据监测方法、装置、电子设备及计算机可读存储介质
CN110245053A (zh) * 2019-06-20 2019-09-17 中国工商银行股份有限公司 故障预测诊断方法及系统
CN110474799A (zh) * 2019-07-31 2019-11-19 中国联合网络通信集团有限公司 故障定位方法及装置
CN111241050A (zh) * 2020-01-06 2020-06-05 浪潮软件集团有限公司 一种用于大数据平台的联动分析系统及方法
WO2020233252A1 (zh) * 2019-05-23 2020-11-26 深圳前海微众银行股份有限公司 一种诊断Spark应用的方法及装置
CN112383421A (zh) * 2020-11-03 2021-02-19 中国联合网络通信集团有限公司 一种故障定位方法及装置
CN112486780A (zh) * 2020-12-17 2021-03-12 中职物联(湖北)信息科技有限公司 一种基于消息中间件的数据库性能实时监控和诊断方法和系统
CN112948187A (zh) * 2021-01-04 2021-06-11 杭州恒朴电子科技有限公司 一种卷包生产环节多指标波动关联分析方法
CN113138872A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 数据库系统的异常处理装置及方法
CN113162810A (zh) * 2021-05-14 2021-07-23 中央军委后勤保障部信息中心 事件数据处理方法及设备
CN113485901A (zh) * 2021-07-06 2021-10-08 中国工商银行股份有限公司 基于日志和指标的系统评价方法、装置、设备和介质
CN113778738A (zh) * 2021-09-18 2021-12-10 上海中通吉网络技术有限公司 数据库故障快速定位方法及装置
CN114201231A (zh) * 2021-11-29 2022-03-18 江苏金农股份有限公司 一种分布式的微服务编排系统及方法
CN117743098A (zh) * 2023-12-25 2024-03-22 深圳市朝阳辉科技有限公司 智慧能源大数据监控系统的故障定位方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984415A (zh) * 2010-11-02 2011-03-09 中兴通讯股份有限公司 一种设定监控指标阈值的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101984415A (zh) * 2010-11-02 2011-03-09 中兴通讯股份有限公司 一种设定监控指标阈值的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GZH0222: "性能测试指标及常用的监测工具", 《HTTP://BLOG.CSDN.NET/GZH0222/ARTICLE/DETAILS/7258661》, 14 February 2012 (2012-02-14), pages 1 *
刘强 等: "一种基于相关度统计的告警事件关联算法", 《计算机应用与软件》, no. 6, 30 June 2010 (2010-06-30) *
孙斌: "基于关联规则的某银行网管系统中通信网告警相关性分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 May 2013 (2013-05-15) *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104811344A (zh) * 2014-01-23 2015-07-29 阿里巴巴集团控股有限公司 网络动态业务监控方法及装置
CN105320585A (zh) * 2014-07-08 2016-02-10 北京启明星辰信息安全技术有限公司 一种实现应用故障诊断的方法及装置
CN105320585B (zh) * 2014-07-08 2019-04-02 北京启明星辰信息安全技术有限公司 一种实现应用故障诊断的方法及装置
CN105590245A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 定位电子交易的故障成因的计算机实施方法和数据处理方法
CN104639368A (zh) * 2015-01-13 2015-05-20 中国联合网络通信集团有限公司 通信网络设备的故障处理方法及装置
CN105183612A (zh) * 2015-09-25 2015-12-23 携程计算机技术(上海)有限公司 服务器可用内存异常增长及运行状况的评估方法
CN105183612B (zh) * 2015-09-25 2017-11-21 携程计算机技术(上海)有限公司 服务器可用内存异常增长及运行状况的评估方法
CN105550100A (zh) * 2015-12-11 2016-05-04 国家电网公司 一种信息系统故障自动恢复的方法及系统
CN105653430A (zh) * 2016-01-04 2016-06-08 山东超越数控电子有限公司 一种处理服务器管理信息的方法、装置及系统
CN106327323A (zh) * 2016-08-19 2017-01-11 清华大学 银行频繁项模式挖掘方法及挖掘系统
CN107863755A (zh) * 2016-09-21 2018-03-30 通用电器技术有限公司 机器保护和诊断系统和方法
CN106502815A (zh) * 2016-10-20 2017-03-15 北京蓝海讯通科技股份有限公司 一种异常原因定位方法、装置和计算设备
CN106502815B (zh) * 2016-10-20 2019-08-02 北京蓝海讯通科技股份有限公司 一种异常原因定位方法、装置和计算设备
CN108173670B (zh) * 2016-12-07 2020-06-02 华为技术有限公司 检测网络的方法和装置
CN108173670A (zh) * 2016-12-07 2018-06-15 华为技术有限公司 检测网络的方法和装置
WO2018103453A1 (zh) * 2016-12-07 2018-06-14 华为技术有限公司 检测网络的方法和装置
CN106649043A (zh) * 2016-12-28 2017-05-10 深圳新基点智能股份有限公司 一种运维系统故障自动诊断方法及系统
CN106649043B (zh) * 2016-12-28 2020-03-27 深圳新基点智能股份有限公司 一种运维系统故障自动诊断方法及系统
CN106951465A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 系统故障定位用数据分析方法及装置
CN107370618A (zh) * 2017-06-05 2017-11-21 北京奇艺世纪科技有限公司 故障排查方法、装置及电子设备
CN107707376A (zh) * 2017-06-09 2018-02-16 贵州白山云科技有限公司 一种监控和告警的方法和系统
CN107707376B (zh) * 2017-06-09 2018-08-03 贵州白山云科技有限公司 一种监控和告警的方法和系统
CN107480703A (zh) * 2017-07-21 2017-12-15 阿里巴巴集团控股有限公司 交易故障检测方法及装置
CN107704387A (zh) * 2017-09-26 2018-02-16 恒生电子股份有限公司 用于系统预警的方法、装置、电子设备及计算机可读介质
CN107704387B (zh) * 2017-09-26 2021-03-16 恒生电子股份有限公司 用于系统预警的方法、装置、电子设备及计算机可读介质
CN108053095B (zh) * 2017-11-22 2024-03-19 全球能源互联网研究院有限公司 一种电能质量扰动事件特征提取方法及系统
CN108053095A (zh) * 2017-11-22 2018-05-18 全球能源互联网研究院有限公司 一种电能质量扰动事件特征提取方法及系统
CN108009283A (zh) * 2017-12-22 2018-05-08 无线生活(杭州)信息科技有限公司 一种问题分析方法及装置
CN109995547A (zh) * 2017-12-29 2019-07-09 中国移动通信集团甘肃有限公司 一种故障诊断方法及设备
CN109995547B (zh) * 2017-12-29 2022-04-29 中国移动通信集团甘肃有限公司 一种故障诊断方法及设备
CN108416042B (zh) * 2018-03-14 2021-08-03 贵州电网有限责任公司 基于指标库数据源映射实现信息化的数据分析管理系统
CN108416042A (zh) * 2018-03-14 2018-08-17 贵州电网有限责任公司 基于指标库数据源映射实现信息化的数据分析管理系统
CN109462494A (zh) * 2018-09-29 2019-03-12 深圳市云来网络科技有限公司 云服务器监控报警实时智能分析诊断方法及系统
CN109358595A (zh) * 2018-09-30 2019-02-19 南方电网科学研究院有限责任公司 一种it运维风险预警方法及相关装置
CN110008096A (zh) * 2018-11-29 2019-07-12 阿里巴巴集团控股有限公司 数据监测方法、装置、电子设备及计算机可读存储介质
CN110008096B (zh) * 2018-11-29 2024-02-06 创新先进技术有限公司 数据监测方法、装置、电子设备及计算机可读存储介质
CN109726048A (zh) * 2018-12-13 2019-05-07 中国银联股份有限公司 一种交易系统中数据恢复方法及装置
CN109633351A (zh) * 2018-12-13 2019-04-16 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质
CN109633351B (zh) * 2018-12-13 2021-10-22 平安普惠企业管理有限公司 智能it运维故障定位方法、装置、设备及可读存储介质
CN109886292A (zh) * 2019-01-09 2019-06-14 同济大学 一种基于异常关联图的异常原因诊断方法
WO2020233252A1 (zh) * 2019-05-23 2020-11-26 深圳前海微众银行股份有限公司 一种诊断Spark应用的方法及装置
CN110245053A (zh) * 2019-06-20 2019-09-17 中国工商银行股份有限公司 故障预测诊断方法及系统
CN110474799B (zh) * 2019-07-31 2022-03-25 中国联合网络通信集团有限公司 故障定位方法及装置
CN110474799A (zh) * 2019-07-31 2019-11-19 中国联合网络通信集团有限公司 故障定位方法及装置
CN111241050B (zh) * 2020-01-06 2024-03-08 浪潮软件集团有限公司 一种用于大数据平台的联动分析系统及方法
CN111241050A (zh) * 2020-01-06 2020-06-05 浪潮软件集团有限公司 一种用于大数据平台的联动分析系统及方法
CN113138872A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 数据库系统的异常处理装置及方法
CN112383421B (zh) * 2020-11-03 2023-03-24 中国联合网络通信集团有限公司 一种故障定位方法及装置
CN112383421A (zh) * 2020-11-03 2021-02-19 中国联合网络通信集团有限公司 一种故障定位方法及装置
CN112486780A (zh) * 2020-12-17 2021-03-12 中职物联(湖北)信息科技有限公司 一种基于消息中间件的数据库性能实时监控和诊断方法和系统
CN112948187B (zh) * 2021-01-04 2023-03-24 杭州恒朴电子科技有限公司 一种卷包生产环节多指标波动关联分析方法
CN112948187A (zh) * 2021-01-04 2021-06-11 杭州恒朴电子科技有限公司 一种卷包生产环节多指标波动关联分析方法
CN113162810A (zh) * 2021-05-14 2021-07-23 中央军委后勤保障部信息中心 事件数据处理方法及设备
CN113485901A (zh) * 2021-07-06 2021-10-08 中国工商银行股份有限公司 基于日志和指标的系统评价方法、装置、设备和介质
CN113485901B (zh) * 2021-07-06 2022-11-22 中国工商银行股份有限公司 基于日志和指标的系统评价方法、装置、设备和介质
CN113778738A (zh) * 2021-09-18 2021-12-10 上海中通吉网络技术有限公司 数据库故障快速定位方法及装置
CN114201231A (zh) * 2021-11-29 2022-03-18 江苏金农股份有限公司 一种分布式的微服务编排系统及方法
CN117743098A (zh) * 2023-12-25 2024-03-22 深圳市朝阳辉科技有限公司 智慧能源大数据监控系统的故障定位方法及系统
CN117743098B (zh) * 2023-12-25 2024-08-27 深圳市朝阳辉科技有限公司 智慧能源大数据监控系统的故障定位方法及系统

Similar Documents

Publication Publication Date Title
CN103412805A (zh) 一种it故障源诊断方法及系统
CN108763957B (zh) 一种数据库的安全审计系统、方法及服务器
CN105071969B (zh) 基于jmx的定制化实时监控及自动化异常处理的系统及方法
US8375251B2 (en) Monitoring and healing a computing system
CN102447570B (zh) 一种基于健康度分析的监控装置及方法
CN101197621B (zh) 一种对网管系统故障进行远程诊断定位的方法及其系统
CN103491354A (zh) 一种系统运行监控可视化平台
CN110175451A (zh) 一种基于电力云的安全监控方法和系统
US20090063509A1 (en) Method and Apparatus for Monitoring Network Servers
US20120054331A1 (en) Correlation of metrics monitored from a virtual environment
WO2011083687A1 (ja) 運用管理装置、運用管理方法、及びプログラム記憶媒体
CN102624554B (zh) 一种结合了设备管理和业务管理的综合网络管理方法
WO2013165536A1 (en) Automated analysis system for modeling online business behavior and detecting outliers
CN106487596A (zh) 分布式服务跟踪实现方法
CN103490917B (zh) 故障处理情况的检测方法及装置
CN104699807A (zh) 一种oracle数据表空间的自动监控扩容方法
US20130339801A1 (en) System and method for log and trace diagnostics and analytics
US9176807B2 (en) Random event capturing mechanism for application systems
CN105306272A (zh) 信息系统故障场景信息收集方法及系统
CN108762966A (zh) 系统异常拦截方法、装置、计算机设备及存储介质
WO2009149078A1 (en) Method and apparatus for monitoring the performance of a power delivery control system
CN113419935B (zh) 移动端性能监控方法、装置、设备及存储介质
CN108664346A (zh) 分布式存储系统的节点异常的定位方法、装置和系统
CN107171861A (zh) 一种信息处理方法、电子设备和计算机存储介质
CN109861841A (zh) 一种对处理设备进行运维的方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20131127