CN103986625A

CN103986625A - 一种基于统计监测的云应用故障诊断系统

Info

Publication number: CN103986625A
Application number: CN201410234588.7A
Authority: CN
Inventors: 王焘; 魏峻; 张文博; 钟华
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2014-05-29
Filing date: 2014-05-29
Publication date: 2014-08-13
Anticipated expiration: 2034-05-29
Also published as: CN103986625B

Abstract

一种基于统计监测的云应用故障诊断系统，包括：监测代理、运行状态跟踪器、故障检测与定位器，其中，监测代理：用于搜集云应用运行时的监测信息；运行状态跟踪器：用于将系统运行状态抽象为局部离群因子与关联系数；故障检测与定位器：用于根据运行状态跟踪器提供的监测数据分析系统运行状态以检测故障并定位问题原因。本发明根据监测数据利用局部离群因子与核典型关联分析的方法从系统资源利用和性能表现方面刻画系统运行状态，利用控制图检测系统故障，利用特征选择的方法定位异常度量。本发明具有无需软件体系结构和参数估算等应用相关知识，简单易于实施，适用范围广的优点。能够无需人工参与的自动检测云应用的多种故障，并量化度量的异常程度。

Description

一种基于统计监测的云应用故障诊断系统

技术领域

本发明属于软件技术领域，具体涉及基于统计监测的云应用故障诊断系统。

背景技术

近年来，云计算技术飞速发展，已经广泛应用于诸多领域，成为当前信息技术产业发展和应用创新的热点。国内外大型IT企业纷纷推出云计算平台(如，Amazon EC2、Google App Engine、Microsoft Azure、IBM SmartCloud、盛大云、阿里云、新浪云)，同时，开源云计算平台(如，Eucalyptus、OpenStack)的出现也促进了云计算技术研究与应用的发展。目前，电子邮件、电子商务、网上银行、社交网络等在线服务已经成为人们日常工作和生活中不可或缺的一部分，这些互联网应用中相当大一部分已经部署在云计算平台。此外，众多的商业应用也依托于云服务(如，Saleforce CRM、Google Docs)。然而，云应用(部署于云计算平台的应用)的多样性以及部署环境的动态性使得云计算系统时常会出现故障，而云应用故障将会严重影响人们正常的工作生活，甚至在商业方面造成巨大的经济损失。及时检测云应用故障并准确诊断问题原因，是确保云应用性能与可靠性的关键之一。云应用故障通常是由运行时复杂原因所造成的(如，资源竞争、配置错误、软件缺陷、硬件失效)，具有不确定性，难以重现，无法在软件开发和测试过程中完全消除，因而，系统管理员难以人工跟踪系统运行状态并及时检测故障。

云应用本质上是一种分布式系统，针对此类系统的故障检测与诊断已经成为了热点问题，存在较多的研究工作，大概可归为以下几类方法。基于信号的方法事先定义故障发生时出现的信号，在运行过程中将观测到的状态与故障信号进行匹配(Chen H,Jiang G,Kenji Y,et al.Invariants based failure diagnosis in distributed computing systems[C].In:IEEE29th symposium on reliable distributed systems.2010.160-166；Ghanbari S,Amza C.Semantic-driven model composition for accurate anomaly diagnosis[C].In:internationalconference on autonomic computing.2008.35-44.)。这种方法对于已知故障较为有效，但是描述系统故障及其表现通常较为困难，特别是无法识别此前未曾出现的故障。基于执行路径的方法通过监测框架跟踪请求的处理路径，当其偏离正常路径即检测为故障(Barham P,Donnelly A,Isaacs R,et al.Using Magpie for request extraction and workloadmodelling[C].In:the6th conference on symposium on opearting systems design&implementation.2004.1-14；Kiciman E,Fox A.Detecting application-level failures incomponent-based Internet services[J].IEEE transactions on neural networks.2005,16(5):1027-1041)。这种方法能够发现应用层故障，但用户访问模式不断变化会导致组件交互行为的改变，从而造成在运行环境动态变化的应用场景中准确率较低。基于度量的方法首先建立度量值的分布，检测监测值是否符合该分布(Bodic P,Friedman G,Biewald L,etal.Combining visualization and statistical analysis to improve operator confidence andefficiency for failure detection and localization[C].In:IEEE second international conferenceon automatic computing.2005.89-100.)；或者建立度量之间存在的稳定关联性，检测关联是否打破(Jiang G,Chen H,Kenji Y.Modeling and tracking of transaction flow dynamicsfor fault detection in complex systems[J].IEEE transactions on dependable and securecomputing.2006,3(4):312-326；Munawar M A,Ward P A S.A comparative study ofpairwise regression techniques for problem determination[C].In:ACM conference of thecenter for advanced studies on collaborative research.2007.152-166.)。部分研究关注于系统性能表现，建立度量值与性能间的关联模型，检测系统性能表现是否符合预测的结果(Cherkasova L,Ozonat K,Mi N,et al.Automated anomaly detection and performancemodeling of enterprise applications[J].ACM transactions on computer systems.2009,27(3):1-32；Cohen I,Goldszmidt M,Kelly T,et al.Correlating instrumentation data to systemstates:a building block for automated diagnosis and control[C].In:the6th conference onsymposium on operating systems design&implementation.2004.1-16.)。这类方法通用性较好，然而随着运行时间的增长，应用场景的变化或系统的演化升级，这种度量值分布和度量关联性也会发生改变，因此该方法并不能适应负载动态变化的需要。

云应用巨大的部署规模、复杂的拓扑结构、动态的负载变化以及多样的应用类型给传统分布式系统故障诊断方法带来了巨大的挑战，主要体现在以下几个方面。首先，云应用通常部署在大规模数据中心，成千上万的节点以及众多层次(如，网络层、硬件层、虚拟机层、操作系统层、中间件层、应用层)的大量属性需要监测，系统管理员无法手动制定预警规则，因此，需要提供自动化的故障检测与诊断方法。其次，云应用通常对平台提供者和管理者是透明的，难以通过侵入的方法获得应用细粒度的监测数据，这就使得通过对应用的软件体系结构建模分析以进行故障检测与诊断的方法变得不可行，因此，需要在无需应用相关领域知识的情况下及时准确的发现并定位问题。

发明内容

本发明的技术解决问题：针对现有技术在云计算环境下所存在的难以获取应用相关知识，且难以人工设定检测规则的问题，提出一种基于统计监测的云应用故障诊断系统及方法，具有无需软件体系结构和参数估算等应用相关知识，简单易于实施，适应范围广的优点。能够无需人工参与的自动检测云应用的多种故障，并量化度量的异常程度。

本发明的技术方案：一种基于统计监测的云应用故障诊断系统，包括：监测代理、运行状态跟踪器、故障检测与定位器，其中：

监测代理：用于搜集云应用运行时的监测信息，每个服务器节点上均需要部署一个监测代理，从系统层和应用层分别对系统进行监测，并将监测信息发送至运行状态跟踪器；监测代理包括系统监测模块和应用监测模块；系统监测模块利用操作系统所提供的接口获取各种资源利用信息；应用监测模块利用中间件所提供的接口获得应用性能信息，应用性能信息包括负载变化和性能属性信息；

运行状态跟踪器：用于将系统运行状态抽象为局部离群因子(LOF，Local OutlierFactor)与关联系数；运行状态跟踪器包括系统资源跟踪模块和应用性能跟踪模块；在系统层，系统资源跟踪模块根据从监测代理的系统监测模块得到的资源利用信息，计算LOF值以量化运行时资源的异常程度；在应用层，应用性能跟踪模块根据从监测代理的应用监测模块得到的应用性能信息，利用核典型关联分析方法计算负载信息与性能信息之间的关联系数以量化运行时性能的异常程度；

故障检测与定位器：用于根据运行状态跟踪器提供的监测数据分析系统运行状态以检测故障并定位问题原因；故障检测与定位器包括故障检测模块和问题定位模块；所述故障检测模块周期性监测LOF值与关联系数的变化，建立控制图，并动态更新，以检测系统故障的发生；所述问题定位模块量化度量异常程度以定位故障原因，利用特征选择的方法分析故障发生前后值发生较大变化的系统度量，这些度量则可以判定为产生故障的可疑度量。

所述系统资源跟踪模块根据监测代理的系统监测模块得到的资源利用信息，计算LOF值得到运行时状态的异常程度的过程实现如下：

(1)所述系统资源跟踪模块从监测代理的系统监测模块得到监测度量向量MV＝{m₁,m₂,…,m_L}，L为监测度量数量，m_i为第i种监测度量，建立L个长度为n的滑动窗口，n为大于100的正整数，每种监测度量对应一个滑动窗口，每进行一次监测，则将每个监测度量值放入对应的滑动窗口，直到窗口满；

(2)窗口满后，新监测度量值m_i到来时，则删除最旧监测度量值并加入m_i；根据窗口中记录的监测度量值集合计算均值A与标准差C，计算m_i的Z值Z(m_i)＝(m_i-A)/C。这样就得到由L个Z值构成的Z向量：Z(MV)＝{Z(m₁),Z(m₂),…,Z(m_L)}；

(3)根据L个滑动窗口记录的n个度量向量，计算得到n个Z向量构成Z向量集合，根据文献(Breunig MM,Kriegel HP,Ng RT,Sander J.LOF:identifying density-based localoutliers[C].In:Proceedings of ACM SIGMOD international conference on management ofdata.2000,93-104.)的方法计算新到的Z向量的LOF值，并将这个Z向量加入到Z向量集合中。

所述应用性能跟踪模块根据监测代理中应用监测模块得到的应用性能信息，利用核典型关联分析方法计算负载与性能的关联系数的过程实现如下：

(1)所述应用性能跟踪模块从监测代理的应用监测模块得到负载向量(或事务型负载向量)和性能向量，建立2个长度为n的滑动窗口，n为大于100的正整数，负载向量(或事务型负载向量)对应一个滑动窗口，性能向量对应一个滑动窗口，每进行一次监测，则将负载向量(或事务型负载向量)和性能向量分别放入对应的滑动窗口，直到窗口满；

所述负载向量为：wv＝{c₁,c₂,...,c_i,...,c_n}，其中，c_i为组件i的调用频率，n为应用组件数量；

所述事务型负载向量为：twv＝{i₁₁,i₁₂,...,i_1n,...,i_m1,i_m2,...,i_mn,...,i_n1,i_n2,...,i_nn},其中，i_ab为会话中用户调用组件a后调用组件b的频率，n为系统中组件总数；

所述性能向量为：pv＝{p₁,p₂,...,p_i,...,p_n}，其中，p_i为应用第i个性能属性，n为性能属性数量；

(2)窗口满后，新负载向量(或事务型负载向量)和性能向量到来时，则删除最旧向量并加入新的向量。负载向量(或事务型负载向量)滑动窗口中的向量和性能向量滑动窗口中的向量分别构成负载向量集合(WS)和性能向量集合(PS)；

(3)根据文献(Lai PL,Fyfe C,Kernel and nonlinear canonical correlation analysis[J],In:international journal of neural systems,2000,365-377.)的方法计算这个此时WS和PS的关联系数集合，R＝{r₁,r₂,…,r_m}，对r_i从大到小进行排序，将最大值作为此时WS与PS的关联系数。

所述故障检测模块周期性监测LOF值与关联系数的变化，建立X-mR控制图，并动态更新，X-mR控制图由X控制图和mR控制图两部分构成，其中，X控制图用以跟踪LOF值和关联系数值的变化，mR控制图用以跟踪LOF值和关联系数波动幅度的变化，在X-mR图的基础上检测系统故障，具体实现过程如下：

(1)建立2个长度为n的滑动窗口，n为大于100的正整数，LOF值对应一个滑动窗口，关联系数对应一个滑动窗口。周期性监测，每进行一次监测，则将LOF值和关联系数分别放入对应的滑动窗口，直到窗口满；窗口满后，新LOF值和关联系数到来时，则删除最旧LOF值和关联系数并加入新的LOF值和关联系数；根据滑动窗口中LOF值集合和关联系数集合分别进行计算，构建各自的X-mR控制图；

(2)计算LOF值和关联系数的总体均值：

\overset{&OverBar;}{x} = (x_{1} + x_{2} + . . . {+ x}_{n}) / n,

其中，x_i是周期内第i个LOF值和关联系数；n是周期内LOF值和关联系数的数量；

(3)计算LOF值和关联系数的移动范围(Moving Range)均值：

\overset{&OverBar;}{mR} = ({mR}_{1} + {mR}_{2} + . . . + {mR}_{n}) / n,

mR_i＝|x_i+1–x_i|，

其中，为LOF值和关联系数的移动范围均值；mR_i为LOF值和关联系数的移动范围；

(4)计算LOF值和关联系数的上限(UCL，Up Control Limit)与下限(LCL，Low ControlLimit)，以建立X控制图；

{UCL}_{x} = \overset{&OverBar;}{x} + α \overset{&OverBar;}{mR},

{LCL}_{x} = \bar{x} - α \overset{&OverBar;}{mR};

(5)计算LOF值和关联系数的移动范围的上限(UCL，Up Control Limit)与下限(LCL，Low Control Limit)以建立mR控制图；

{UCL}_{mR} = β \overset{&OverBar;}{mR},

LCL_mR＝None；

其中，根据统计学理论，α和β分别取常数2.66和3.268；

(6)根据以上步骤，LOF值和关联系数各自建立X和mR两个控制图，将根据当前监测数据计算得到的LOF值和关联系数分别放到各自的X图中，将LOF值和关联系数的移动范围值(mR)放到mR图中，X-mR控制图上限和下限之间的部分为正常区域，当高于上限或低于下限则判定为故障的发生。

所述问题定位模块量化度量异常程度以定位故障原因，利用特征选择以获得检测故障发生前后值发生较大变化的系统度量，这些度量则可以判定为产生故障的可疑度量，具体实现过程如下：

(1)将所有度量m_i的权值w(m_i)初始化为零，并随机选取L个监测数据实例进行遍历(L为大于3小于数据实例数量的正整数)。

(2)对于每个实例，找到k个与其属于同一个类的距离最近的实例：h₁,h₂,…,h_k，k为大于1小于L的正整数：

(3)找到k个与其属于不同类的距离最近的实例：g₁,g₂,…,g_k；

(4)遍历每个监测度量，计算各度量的Z值以规范化，计算在该度量上的距离distance(m_i,h_i)与distance(m_i,g_i)，距离计算采用Euclidean距离(Mahalanobis PC.On thegeneralized distance in statistics[J].In:national institute of sciences of india.1936.35-49.)；

(5)对距离加权求和得到各度量的权重：

w (m_{i}) = w (m_{i}) - 1 / k Σ_{i = 1}^{k} dis \tan ce (m_{i}, h_{i}) + 1 / k Σ_{i = 1}^{k} dis \tan ce (m_{i}, g_{i}),

其中，distance(m_i,h_i)为所选取实例与实例h_i在度量m_i上的距离。

对各度量的权值由大到小进行排列，度量的权值越大成为故障原因的可能性就越大。

本发明对云应用实时监测获得监测数据(包括，系统资源、性能表现和工作负载)，在此基础上，利用LOF值与关联系数分别刻画运行状态与性能表现的健康程度，进而利用控制图监测LOF值与关联系数的波动以检测系统故障，最后利用特征选择通过分析度量在故障发生前后的变化幅度以定位异常资源。

如图1所示，具体实现步骤如下：

1.系统监测

(1)系统资源监测

主要用于搜集系统层的资源信息，如CPU占用率、CPU用户态占用率、内存空闲率、JVM页失效率、磁盘读取、磁盘读取字节、磁盘写入、磁盘写入字节、网络接收字节、网络发送字节等。

(2)应用性能监测

主要用于搜集云应用的性能信息，如响应时间、吞吐量等。响应时间指一个应用的请求处理阶段所经历的时间，表现应用处理用户请求的及时性；吞吐量指单位时间处理请求的数量，表现应用处理请求的能力。本发明利用性能向量(pv，performance vector)对应用性能进行刻画：

pv＝{p₁,p₂,...,p_i,...,p_n}，

其中，p_i为应用第i个性能属性，n为性能属性数量。

(3)应用负载监测

主要用于搜集工作负载，如请求类型、请求密度、访问序列等。云计算环境下，负载的类型以及数量处于动态变化的过程中，而负载变化会改变系统度量及其关联性。因此，故障检测需要考虑负载因素，能够实时监测负载状况。本发明提供了以下2种负载模式监测方式：

1)基于组件调用的负载监测。由于单纯通过监测网络流量无法考虑到应用的特点(如请求类型)，而负载可以反映为调用应用组件的类型和频率等因素，因此，本发明利用负载向量(wv，workload vector)对负载进行刻画：

wv＝{c₁,c₂,...,c_i,...,c_n}，

其中，c_i为组件i的调用频率，n为应用组件数量。

2)基于用户会话的负载监测。在事务型应用中，工作负载通常由会话组成，即访问站点的过程中由一个用户发起的不同类型请求的序列。不同的客户将会表现出不同的访问模式，应用组件的资源利用率在不同模式下也是不同的。因此，本发明考虑到了用户访问的特点，利用事务型负载向量(twv，transactional workload vector)对负载进行刻画：

twv＝{i₁₁,i₁₂,...,i_1n,...,i_m1,i_m2,...,i_mn,...,i_n1,i_n2,...,i_nn},

其中，i_ab为会话中用户调用组件a后调用组件b的频率，n为系统中组件总数。

2.运行状态刻画

(1)系统层资源利用

现有故障检测方法通常刻画故障表现或者建模系统状态，基于此检测故障的发生。而云应用呈现多样性，部署环境具有复杂性，因而，故障类型不确定难以刻画，且系统状态复杂难以建模。因此，本发明利用LOF(Breunig MM,Kriegel HP,Ng RT,Sander J.LOF:identifying density-based local outliers[C].In:Proceedings of ACM SIGMODinternational conference on management of data.2000,93-104.)，从系统资源利用的角度进行考察，刻画系统运行状态。LOF是一种基于局部密度的k-nn方法，LOF值等于与数据实例距离最近的k个邻居所在区域的密度与数据实例所在区域密度的比例。对于一个正常的监测数据实例，其局部密度与其邻居的密度相似。然而，对于异常的监测数据实例，其局部密度低于最近邻居，而得到较高的LOF值。LOF值的计算无需领域知识对系统进行建模，通过监测LOF值的变化即可从系统层资源利用角度检测系统故障，具有广泛的适用性。

(2)应用层性能表现

应用性能受负载变化影响，可以通过刻画建立负载与性能二者间的关联性来表现系统性能状态。由于负载和性能都是多维向量，两组向量内的多变量间又存在复杂关联性，使建立关联模型变得复杂。本发明利用核典型关联分析(KCCA，Kernel CanonicalCorrelation Analysis)(Lai P,Fyfe C.Kernel and nonlinear canonical correlation analysis[J].In:international journal of neural systems,2000,365-377.)自动发现负载与性能间潜在的关联性。典型关联分析研究两组变量间关联性，对成对的多维变量进行线性转换，使得关联系数最大化。通过核函数的引入，向量空间上的非线性问题转化为特征空间上的线性问题。KCCA不仅能够反映请求数量，而且可以表现各请求类型间的关联性，以更全面的表现负载类型，同时可以综合考察多个性能属性及其关联。在运行过程中，周期性监测得到负载与性能向量，KCCA用以建立两个向量间关联性模型以自动表现负载与性能间潜在的复杂关联性。关联系数的计算无需领域知识对系统进行建模，通过监测关联系数的变化即可从应用层性能表现方面检测系统故障，具有广泛的适用性。

3.故障检测

在正常状态下，LOF值和关联系数保持稳定，但当故障发生时，它们将出现较大波动，由此可以检测到故障的发生。对于如何检测其波动是正常现象还是故障发生，本发明采用控制图监测其波动是否稳定。稳定是关联系数在现在和过去是一致的，并且期望将来也会是一致。控制图监测其变化情况，如果偏离标准值表现出不稳定状态，就会自动产生警告信息。如图2所示，每个控制图中有三个基准线，控制上限线，控制下限线和中值线，这些基准线在可控环境下由监测度量值动态计算出来。通常在控制上限之上，或是控制下限之下的度量值为异常。本发明利用X-mR(individual X and moving Range)控制图(Barnard GA.Control Charts and Stochastic Processes[J].In:journal of the royalstatistical society,1959,239-271.)监测LOF值及关联系数的变化趋势以检测故障。

4.故障定位

检测到故障发生之后，量化度量异常程度以定位故障原因。如图3所示，将检测到故障前后监测到的数据实例标记为正例和反例，而后利用特征选择(Igor K.Estimatingattributes:analysis and extensions of RELIEF[C].in:Proceedings of the europeanconference on machine learning,1994,171-182.)以获得检测故障发生前后值发生较大变化的系统度量，这些度量则可以判定为产生故障的可疑度量。

本发明与现有技术相比的优点在于：

(1)基于监测数据利用LOF与核典型关联分析的方法从系统资源利用和性能表现方面刻画系统运行状态。与基于阈值的方法相比，本发明与部署环境无关，从而减少了人工设定阈值的工作量。与基于模型的方法相比，本发明无需系统结构和参数估算，方法简单，更易实施。

(2)利用控制图监测LOF值与关联系数的变化以检测系统故障。本发明优点在于无需领域知识，且无需人工参与，能够自动检测故障，并预测故障的发生。

(3)利用特征选择的方法定位异常度量。本发明优点在于考虑到系统度量间存在的关联性，并能够量化各度量的异常程度。

附图说明

图1为本发明云应用故障诊断系统结构示意图；

图2为本发明中基于控制图的故障检测示例图；

图3为本发明中基于特征选择的问题定位示例图。

具体实施方式

下面结合附图1，对本发明的具体实施方案做详细说明：

本发明提出的基于统计监测的云应用故障诊断方法通过收集物理资源、中间件以及云应用的相关监测数据，刻画系统运行状态，分析监测数据，实现故障检测与问题定位。

作为本发明实施例的使用环境，所述云应用采用一个简单的Java EE应用。Java EE(Java^TMPlatform,Enterprise Edition)是Oracle公司提出的开发、部署、运行和管理Java分布式应用的标准技术体系结构，它包括一系列应用组件模型和标准服务。本实施例采用的Java EE应用主要使用了Servlet组件模型和数据库连接服务。Servlet是一种Java EEWeb组件，它与客户端采用“请求/响应”的通信模式，当客户端请求某一Servlet组件时，该组件可以产生动态网页内容并作为响应返回客户端。数据库连接服务提供标准的数据库编程接口，为应用组件调用和执行SQL语句提供支持。

本发明实施例所采用Java EE应用是一个简单的网上购物系统，包括商品浏览、商品订购、订单确认等功能。上述功能分别由Search、ShoppingCart、Order三个Servlet组件完成，用户通过客户端浏览器请求Search组件进行商品浏览和查询，通过请求ShoppingCart组件将商品加入购物篮，通过请求Order组件完成订单的确认。上述三个组件都需要利用数据库连接服务进行数据库操作，Search组件需要进行数据库查询操作，ShoppingCart组件和Order组件需要进行数据库写操作。

作为本发明实施例的使用环境，所述中间件采用Java EE应用服务器。Java EE应用服务器是开发、配置和管理Java EE应用的标准平台，它通过容器来支持分层体系结构。容器提供了对Java EE应用组件的运行时支持，其中，Servlet组件由Servlet容器进行管理。Servlet容器封装了Web服务器与表示层逻辑的功能，负责Servlet组件与客户的通信以及Servlet组件方法的调用。同时，Java EE应用服务器还提供了一系列的底层服务(如数据库连接服务等)为容器提供底层功能支持。

本发明实施例首先对系统的物理资源、应用的工作负载，以及应用的性能进行监测；而后根据系统物理资源度量值计算运行时LOF值；并且根据工作负载和应用性能属性计算运行时的关联系数；进而通过控制图监测LOF值和关联系数的变化，判断上述系统是否出现故障；最后利用特征选择通过对故障发生前后度量变化进行分析以定位问题原因。

1.系统资源监测

监测代理从系统资源、性能表现和工作负载等三个方面进行监测。

(1)系统资源监测

使用Sigar(Hyperic SIGAR API.2012,http://www.hyperic.com/products/sigar)来实现系统资源度量的获取，可以通过多种操作系统所提供的接口获取CPU、内存、进程、文件、网络、路由和链接表的各种静态和动态信息。监测的度量分为两类，一种是采样度量，一种是累积度量。采样度量是可以周期性监测到的度量，包括CPU占用率、CPU用户态占用率、内存空闲率等。本发明使用采样线程定期对这些度量的值进行采样，采样周期小于诊断线程获取系统度量的周期，在获取系统度量时将这些采样的平均值返回，并清空采样结果列表。累积度量是一段时间内获得相关事件或操作的总和，包括JVM页失效率、磁盘读取、磁盘读取字节、磁盘写入、磁盘写入字节、网络接收字节、网络发送字节等。本发明利用Sigar API可以获得这些度量的积累值，在获取系统度量的方法中调用Sigar API获取这些度量的当前值，再减去上次获取系统度量时的值，再除以两次获取的间隔时间，就得到单位时间内的度量值。

(2)应用性能监测

为了降低监测代理与中间件平台的耦合，本发明采用面向方面的编程技术，应用AspectJ框架向中间件平台的代码中动态植入监测点，以监测应用组件执行轨迹，分析处理客户请求的会话。本发明获取处理HTTP请求的入口方法，用切点截获该方法的执行，并添加周围通知。在继续执行切点后的代码之前，获取系统时间，在切点后的代码执行完之后，再一次获取系统时间。将这两个系统时间的差作为该次请求的响应时间，并用响应时间总和除以总请求数量作为该段时间的平均响应时间，用请求数量除以该段时间的长度作为平均吞吐量。

(3)应用负载监测

本发明同样采用面向方面的编程技术，应用AspectJ框架向中间件平台的代码中动态植入监测点，以监测应用组件执行轨迹，分析处理客户请求的组件与会话。本发明将Servlet作为Web组件，JSP页面和静态内容以其在应用服务器中的入口Servlet来标识。本发明用切点截获Servlet调用时应用服务器进行初始化操作的方法，从该方法的调用目标和参数中可以得到Web应用和Servlet名称。将这两个值加入记录结构中，这样在部署完成时就获得了Web组件的数量。而后，用切点截获所有Servlet的执行，并获得调用目标和作为参数的请求对象，通过它们可以获得Servlet名称和会话对象。在会话对象中记录当前访问的Servlet类名，这样在下一次访问时，就可以知道访问序列的上一个请求组件。通过这种方式，就可以得到各应用组件的调用频率，以及应用组件间的跳转频率。

2.运行状态刻画

周期性获取监测数据(周期设为20秒)，建立滑动窗口(窗口大小设为150)，每获得一个监测数据点，根据滑动窗口中的监测数据，在系统层从资源利用角度计算LOF值，在应用层从性能角度计算关联系数。

(1)系统层资源利用

资源跟踪模块从监测代理系统监测模块得到包括4种资源(包括，CPU利用率、内存占用率、磁盘利用率、网络带宽占用率)的监测度量向量MV＝{m₁,m₂,…,m₄}，则建立4个长度为150的滑动窗口，每种监测度量对应一个滑动窗口。每进行一次监测，则将每个监测度量值放入对应的滑动窗口，直到窗口满。窗口满后，新监测度量值m_i到来时，则删除最旧监测度量值并加入m_i，根据窗口中记录的监测度量值集合计算均值A与标准差C，计算m_i的Z值Z(m_i)＝(m_i-A)/C。这样就得到4个Z值构成的Z向量：Z(MV)＝{Z(m₁),Z(m₂),…,Z(m₄)}。当新Z向量到来时，根据文献(Breunig MM,Kriegel HP,Ng RT,SanderJ.LOF:identifying density-based local outliers[C].In:Proceedings of ACM SIGMODinternational conference on management of data.2000,93-104.)的方法计算这个Z向量的LOF值。

(2)应用层性能表现

应用性能跟踪模块从监测代理应用监测模块得到负载向量和性能向量。建立2个长度为150的滑动窗口，负载向量对应一个滑动窗口，性能向量对应另一个滑动窗口。每进行一次监测，则将负载向量和性能向量分别放入对应的滑动窗口，直到窗口满。窗口满后，新负载向量和性能向量到来时，则删除最旧向量并加入新的向量。负载向量滑动窗口中的向量，和性能向量滑动窗口中的向量分别构成负载向量集合(WS)和性能向量集合(PS)。根据文献(Lai P,Fyfe C,Kernel and nonlinear canonical correlation analysis[J],In:international journal of neural systems,2000,365-377.)的方法计算此时WS和PS的关联系数集合，R＝{r₁,r₂,…,r_m}，对r_i从大到小进行排序，将最大值作为此时WS与PS的关联系数。

3.故障检测

建立2个长度为n＝150的滑动窗口，LOF值对应一个滑动窗口，关联系数对应另一个滑动窗口。周期性监测，每进行一次监测，则将计算得到的LOF值和关联系数分别放入对应的滑动窗口，直到窗口满。窗口满后，LOF值和关联系数到来时，则删除最旧LOF值和关联系数并加入新的LOF值和关联系数。根据滑动窗口中LOF值集合和关联系数集合分别进行计算，构建各自的X-mR控制图。

计算LOF值和关联系数的总体均值：其中，是LOF值和关联系数均值，x_i是周期内第i个LOF值和关联系数，n是周期内LOF值和关联系数的数量；

计算LOF值和关联系数的移动范围(Moving Range)均值，将其作为LOF值和关联系数的控制图的中值线，mR_i＝|x_i+1–x_i|，其中，为LOF值和关联系数的移动范围均值，mR_i为LOF值和关联系数的移动范围；

计算LOF值和关联系数的上限(UCL，Up Control Limit)与下限(LCL，Low ControlLimit)，：

{UCL}_{x} = \overset{&OverBar;}{x} + α \overset{&OverBar;}{mR}, {LCL}_{x} = \overset{&OverBar;}{x} - α \overset{&OverBar;}{mR};

计算LOF值和关联系数的移动范围的上限(UCL，Up Control Limit)与下限(LCL，Low Control Limit)以建立mR控制图：LCL_mR＝None，其中，根据统计学理论，α和β分别取常数2.66和3.268；

LOF值和关联系数各自建立X和mR两个控制图，将根据当前监测数据计算得到的LOF值和关联系数分别放到各自的X图中，将LOF值和关联系数的移动范围值(mR)放到mR图中。如图2所示，X-mR控制图上限和下限之间的部分为正常区域，当高于上限或低于下限则判定为故障的发生。

4.故障定位

检测到故障发生之后，量化度量异常程度以定位故障原因。将检测到故障前后监测到的数据实例标记为正例和反例，而后就需要分析引起故障的度量，本发明将其抽象为特征选择问题,利用特征选择的方法以获得故障发生前后分布发生较大变化的系统度量，这些度量则判定为产生故障的可疑度量。

如图3所示，在检测到故障发生前的监测实例标记为True，故障发生后的监测实例标记为False，则各度量异常程度集合S为：

S＝F(P，N)，

其中，P为标记为True的监测数据实例集合；N为标记为False的监测数据实例集合；F为特征选择方法。

具体步骤如下：

(1)将所有度量mi的权值w(m_i)初始化为零，并随机选取10个监测数据实例进行遍历；

(2)对于每个实例，找到10个与其属于同一个类的距离最近的实例：h₁,h₂,…,h₁₀；

(3)找到10个与其属于不同类的距离最近的实例：g₁,g₂,…,g₁₀；

(4)对于每个实例h_i和g_i遍历每个监测度量m_i，计算各度量的Z值以规范化，计算在该度量上的距离distance(m_i,h_i)与distance(m_i,g_i)，距离计算采用Euclidean距离(Mahalanobis PC.On the generalized distance in statistics[J].In:national institute ofsciences of India.1936.35-49.)；

(5)对距离加权求和得到各度量的权重：

w (m_{i}) = w (m_{i}) - 1 / 10 Σ_{i = 1}^{10} dis \tan ce (m_{i}, h_{i}) + 1 / 10 Σ_{i = 1}^{10} dis \tan ce (m_{i}, g_{i}) .

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于统计监测的云应用故障诊断系统，其特征在于包括：监测代理、运行状态跟踪器、故障检测与定位器，其中：

运行状态跟踪器：用于将系统运行状态抽象为局部离群因子(LOF，Local OutlierFactor)与关联系数，这样故障检测与定位器只需监测LOF值与关联系数，即可检测系统健康状况；运行状态跟踪器包括系统资源跟踪模块和应用性能跟踪模块；在系统层，系统资源跟踪模块根据从监测代理的系统监测模块得到的资源利用信息，计算LOF值以量化运行时资源的异常程度；在应用层，应用性能跟踪模块根据从监测代理的应用监测模块得到的应用性能信息，利用核典型关联分析方法计算负载信息与性能信息之间的关联系数以量化运行时性能的异常程度；

故障检测与定位器：用于根据运行状态跟踪器提供的监测数据分析系统运行状态以检测故障并定位问题原因；故障检测与定位器包括故障检测模块和问题定位模块；所述故障检测模块周期性监测LOF值与关联系数的变化，建立控制图，并动态更新，以检测系统故障的发生；所述问题定位模块量化度量异常程度以定位故障原因，利用特征选择的方法分析故障发生前后值发生较大变化的系统度量，这些度量则判定为产生故障的可疑度量，从而辅助分析故障原因。

2.根据权利要求1所述基于统计监测的云应用故障诊断系统，其特征在于：所述系统资源跟踪模块根据监测代理的系统监测模块得到的资源利用信息，计算LOF值得到运行时状态的异常程度的过程实现如下：

(1)所述系统资源跟踪模块从监测代理的系统监测模块得到监测度量向量MV＝{m₁,m₂,…,m_L}，其中，L为监测度量数量，m_i为第i种监测度量；建立L个长度为n的滑动窗口，n为大于100的正整数；每种监测度量对应一个滑动窗口，每进行一次监测，则将每个监测度量值放入对应的滑动窗口，直到窗口满；

(2)窗口满后，新监测度量值m_i到来时，则删除最旧监测度量值并加入m_i；根据窗口中记录的监测度量值集合计算均值A与标准差C，计算m_i的Z值：Z(m_i)＝(m_i-A)/C；这样就得到由L个Z值构成的Z向量：Z(MV)＝{Z(m₁),Z(m₂),…,Z(m_L)}；

(3)计算滑动窗口中已记录的所有监测数据的Z向量构成集合，根据Z向量集合计算新到Z向量的LOF值。

3.根据权利要求1所述基于统计监测的云应用故障诊断系统，其特征在于：所述应用性能跟踪模块根据监测代理中应用监测模块得到的应用性能信息，利用核典型关联分析方法计算负载与性能的关联系数的过程实现如下：

(2)窗口满后，新负载向量(或事务型负载向量)和性能向量到来时，则删除最旧向量并加入新的向量；负载向量(或事务型负载向量)滑动窗口中的向量和性能向量滑动窗口中的向量分别构成负载向量集合(WS)和性能向量集合(PS)；

(3)利用核典型关联分析，计算这个此时WS和PS的关联系数集合，R＝{r₁,r₂,…,r_m}，对r_i从大到小进行排序，将最大值作为此时WS与PS的关联系数。

4.根据权利要求1所述基于统计监测的云应用故障诊断系统，其特征在于：所述故障检测模块周期性监测LOF值与关联系数的变化，建立X-mR控制图，并动态更新，X-mR控制图由X控制图和mR控制图两部分构成，其中，X控制图用以跟踪LOF值和关联系数值的变化，mR控制图用以跟踪LOF值和关联系数波动幅度的变化，在X-mR图的基础上检测系统故障，具体实现过程如下：

(1)建立2个长度为n的滑动窗口，n为大于100的正整数，LOF值对应一个滑动窗口，关联系数对应一个滑动窗口；周期性监测，每进行一次监测，则将LOF值和关联系数分别放入对应的滑动窗口，直到窗口满；窗口满后，新LOF值和关联系数到来时，则删除最旧LOF值和关联系数并加入新的LOF值和关联系数；根据滑动窗口中LOF值集合和关联系数集合分别进行计算，构建各自的X-mR控制图；

(2)计算LOF值和关联系数的总体均值：

\overset{&OverBar;}{x} = (x_{1} + x_{2} + . . . {+ x}_{n}) / n,

(3)计算LOF值和关联系数的移动范围(mR，moving Range)均值：

\overset{&OverBar;}{mR} = ({mR}_{1} + {mR}_{2} + . . . + {mR}_{n}) / n,

mR_i＝|x_i+1–x_i|，

{UCL}_{x} = \overset{&OverBar;}{x} + α \overset{&OverBar;}{mR},

{LCL}_{x} = \bar{x} - α \overset{&OverBar;}{mR};

{UCL}_{mR} = β \overset{&OverBar;}{mR},

LCL_mR＝None；

其中，根据统计学理论，α和β分别取常数2.66和3.268；

5.根据权利要求1所述基于统计监测的云应用故障诊断系统，其特征在于：所述问题定位模块量化度量异常程度以定位故障原因，利用特征选择以获得检测故障发生前后值发生较大变化的系统度量，这些度量则判定为产生故障的可疑度量，具体实现过程如下：

(1)将所有度量m_i的权值w(m_i)初始化为零，并随机选取L个监测数据实例进行遍历，L为大于3小于数据实例数量的正整数；

(4)遍历每个监测度量，计算各度量的Z值以规范化，计算当前选取实例与实例h_i和g_i在度量m_i上的距离分别为：distance(m_i,h_i)与distance(m_i,g_i)；

(5)对距离加权求和得到各度量的权重：

w (m_{i}) = w (m_{i}) - 1 / k Σ_{i = 1}^{k} dis \tan ce (m_{i}, h_{i}) + 1 / k Σ_{i = 1}^{k} dis \tan ce (m_{i}, g_{i});