CN110990236A

CN110990236A - 一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法

Info

Publication number: CN110990236A
Application number: CN201910949267.8A
Authority: CN
Inventors: 王蕊; 应时; 石永奎; 贾顺; 孙承爱; 李美燕
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2020-04-10

Abstract

本发明公开了一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法，研究基于隐马尔科夫随机场HMRF的SaaS软件性能问题识别模型，利用HMRF构建性能问题的最大后验概率MAP估计模型；建立MAP估计和HNN能量的关系，并提供一个更新规则以保证收敛；设计基于期望最大EM的算法获得估计模型的最优参数，基于观察数据在EM框架中递归估计模型参数。本发明的有益效果在于：系统开销小，能够准确识别出性能问题，确实能够协助运维管理人员恢复SaaS软件的服务能力。

Description

一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法

技术领域

本发明属于性能分析技术领域，具体涉及针对面向服务软件运行时产生的性能问题提出了一种基于隐马尔科夫随机场(HMRF)的识别方法。

背景技术

SaaS软件将软件以服务的方式提供给用户使用，服务质量(QoS) 无疑是决定用户满意度的决定性因素。性能作为SaaS软件的一种重要服务质量属性，直接影响了用户的体验。在云计算所提供的可动态伸缩的运行环境中，如果SaaS软件响应各种服务请求，特别是响应来自租户的服务请求的平均时间过长，软件服务没有满足服务水平目标(ServiceLevel Objective,SLO)，并丧失可用性时，可称服务出现了性能问题。当服务出现性能问题时，往往会引发用户不满，严重者会造成用户流失，使得服务商的业务受损。

因此，在SaaS软件运行过程中，需要运维管理人员能及时、无遗漏、准确地发现性能问题，并找到其出现的原因，以采取相应的措施保障系统能够及时将失效服务还原到可用状态，并持续提供高性能的服务。这种情况下，通过相应的设施不间断地监控并实时地识别与诊断性能问题，成为实现这种需求的必要条件。

SaaS软件的运行日志是在软件运行时，记录软件自身及其运行支撑环境的状态、事件、过程或变化踪迹，记录用户的使用行为、发生的事件、交互的消息等方面信息的数据。软件运行日志被广泛应用于软件系统管理的各种任务，如软件失效分析、环境分析、用户使用行为分析等。而当SaaS软件出现性能问题时，被日志记录着的性能状态信息常常是能够用于分析问题根本原因的重要手段。

然而，利用运行日志识别SaaS软件性能问题，仍然面临着挑战：

(1)SaaS软件及其环境记录的日志中，用于识别性能问题的信息严重不足。SaaS软件性能问题可能来源于软件本身的缺陷，也可能来源于运行环境的资源不足，还可能来源于用户的爆炸性的突发请求，甚至来源于软件所依赖的第三方服务。为了识别性能问题，需要获取软件和环境各方面信息来综合判断。目前，真实的软件环境中能够提供的信息常常会有欠缺，影响了性能问题识别的及时性和准确性。

(2)现有的性能问题分析方法在及时性和准确性方面常常难以达到SaaS软件的要求。传统的基于日志进行性能问题识别和诊断的方法，一般是依靠运维管理人员从大量且复杂的日志中抽出与性能问题相关的信息，根据经验对相关日志进行分析，发现系统的运行瓶颈，并对性能问题进行检测、诊断、定位。然而，由于SaaS软件部署在云平台环境里，各层次间的应用软件或服务交互频繁，从而导致系统中各个组件产生海量的日志数据，并且很多是充斥着噪音的多维数据，这不仅加大了传统方式对SaaS软件性能问题进行识别的难度，而且降低了识别的及时性和准确性。

为解决上述问题，本发明将针对SaaS软件及其所处云计算环境的特点，结合对性能问题进行识别和诊断的特定需求，研究一种基于运行日志分析以自动识别SaaS软件性能问题的方法。该方法是面向运维管理人员的黑盒式在线性能分析方法，它不需要了解系统代码、结构和开发情况，就能对运行性能进行管理，及时发现并诊断性能问题，持续保障SaaS软件的服务质量。

发明内容

本发明的目的在于提供一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法，本发明以面向服务的SaaS软件为研究目标，构建了SaaS软件性能问题识别模型，将HMRF算法引入面向服务的软件性能问题识别问题之中，具体内容包括：1)研究基于隐马尔科夫随机场HMRF的SaaS软件性能问题识别(二分类)模型，利用HMRF 构建性能问题的最大后验概率MAP估计模型；2)研究SaaS软件性能问题识别模型的智能求解算法，考虑使用Hopfield神经网络HNN 获得MAP估计，建立MAP估计和HNN能量的关系，并提供一个更新规则以保证收敛；3)设计基于期望最大EM的算法获得估计模型的最优参数，基于观察数据在EM框架中递归估计模型参数。基于上述过程，实现性能问题识别算法，对系统当前的状态做出判断，以达到帮助运维管理人员及时准确地发现性能问题的目的。本发明的有益效果在于：提出的方法1)系统开销小，2)能够准确识别出性能问题，3)确实能够协助运维管理人员恢复SaaS软件的服务能力，4) 对比其它方法，能够更好地识别系统的性能问题。

为实现本发明所述目的采用的技术方案是：基于隐马尔科夫随机场的SaaS软件性能问题识别方法，包括以下步骤：

步骤1：SaaS软件性能问题识别问题形式化

使S_t＝{0,1}表示系统t时刻的SLO({compliance,violation})性能状态，

表示t时刻n个收集的性能指标向量，其中，m_i是第i个指标。在SaaS软件复杂的运行环境下，软件出现性能问题往往是不可观测的，但是可以通过系统特征参数(低级指标，比如CPU、内存)来推断当前系统的性能状态。这和隐马尔科夫模型(HiddenMarkovModel,HMM)的隐藏状态一致，将系统的SLO状态S＝{0,1}可以表示为HMM的隐藏状态。此外，为了合理地推断隐藏状态，有必要分析其引起的可观测系统特征参数的变化，将系统的可观测变量

可以表示为HMM的可观测参数。

步骤2：针对第1步对SaaS软件性能问题识别问题的形式化，设计基于隐马尔科夫随机场的SaaS软件性能问题识别方法 HMRF-PII

(1)通过HMRF构建MAP估计模型。

利用HMRF构建MAP估计模型的过程如下：

1)定义先验势函数

以得到

L表示

的HMRF模型，根据Hammersley-Clifford定理，

的先验概率可以表示为Gibbs分布

其中，Z₂是正态常数，

表示总体势函数，是所有邻域系统

上势

的总和，

是标签配置

在邻域系统

上的势函数。每个邻域系统

内的每一对相邻记录倾向于分到同一个性能问题类簇。由此，

可以定义为

其中，变量

表示指示函数

w_p为邻域系统

中总邻域约束违反的正态权重，对于没有分到同一类簇的相邻记录给予更多的权重。

2)导出似然概率函数

似然函数

建模可观测随机场的条件独立性，具有 Gaussian分布

每个类可以由其均值向量μ_l和方差

表示。根据HMRF模型的特征，

χ的条件概率可以表示为

在公式(3)中，

分别表示性能问题类和正常类的方差。同样地，μ_l∈{μ_v,μ_c}分别表示性能问题类和正常类的均值。这里，考虑把

作为和概率密度函数(Probability Density Function,PDF)相关联的参数向量。

3)

和

相乘，得到后验概率

不能确定地从x获得，而是估计得到。一种估计

的方式是，基于统计的MAP准则。这种情况的目标是，有一个估计规则产生

使下面的后验概率分布

最大。考虑HMRF的先验概率(1)和条件概率(3)，可以从公式(4)推导出

其中，

是常数。通过最小化公式(5)，优化并得到

(2)通过HNN获得MAP估计。

把性能问题识别问题看作MAP估计问题，利用Hopfield神经网络(HopfieldNeural Network,HNN)对其进行求解，只需建立公式(5) 与HNN能量之间的关系，并提供更新规则以保证收敛。把公式(5) 中的团势函数

视为

其中，

和

分别表示第s个和第q个神经元的输出，

是它们之间的连接权重，取决于

连接强度的取值为

其中，w_p是和团势函数关联的参数，也是HMRF模型参数。

把公式(7)代入公式(6)，得到

考虑Potts模型，即Ising模型的泛化，将公式(1)重写为

为了用HNN实现HMRF模型，将x解释为网络的初始化(把每个指标当作是一个神经元)。同样地，可以将μ_l理解为网络的现状。因此，可以重写公式(5)为

现在问题就变成最小化公式(10)。建立公式(10)和HNN的能量函数E之间的关系，并提供更新规则以达到E的最小值。为了用HNN实现公式(10)，它的能量函数E可以描述为

其中，最后一项是能量损失项，在高增益限制下，可以将其排除，因此公式(11)可以写成

通过适当的系数调整，公式(10)可以等价于最小化E(v^t)。

(3)通过EM估计模型参数。

设计基于期望最大(Expectation Maximum,EM)的算法1。在 EM框架中，对HMRF模型参数进行递归估计，以从一组性能指标数据中得到HRMF模型的最优参数。在HMRF-MAP框架中，x是可观测数据，

是需要估计的不可观测数据。为了估计

可观测数据x用 HMRF建模。算法1的目的是基于可观测数据x估计

算法从时刻0处最初的任意参数θ⁰开始，在时刻t处使用参数θ^t估计性能指标数据的标签。

步骤3：根据第2步，对HMRF-PII算法进行完整描述

通过对性能问题识别模型的构建、求解以及参数估计等关键部分的分析和设计，对性能问题识别算法进行完整的描述。

步骤4：对第3步得到的HMRF-PII算法进行实验验证

(1)评估发明的SaaS软件性能问题识别方法1)是否引入了大量的系统开销。2)能否准确地识别出性能问题。3)能否帮助运维管理人员及时做出回应并采取相应的措施以恢复服务能力。

(2)将基于HMRF的性能问题识别方法与基于其它5种常用分类算法，包括朴素贝叶斯分类器(Naive Bayes,NB)、支持向量机 (Support Vector Machine,SVM)、近邻分类器(KNeighbors Classifier, KNC)、最近质心分类器(Nearest Centroid,NC)以及逻辑回归(Logistic Regression,LR)的性能问题识别方法进行比较。

附图说明

附图1性能问题识别方法框架；

附图2性能问题识别方法的步骤；

附图3性能问题识别方法的系统开销；

附图4HMRF-PII算法的MAP输出；

附图5HMRF-PII方法和人工排查方法的系统响应时间对比。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合定义 /表示/公式及实施示例对本发明作进一步的详细描述。

一、定义SaaS软件性能问题

SaaS软件的性能可以使用一些关键性能指标KPIs来度量，它与满足用户偏好的服务质量水平有关。KPI可以通过跟踪服务器端用户请求或测量客户端端到端的响应时间来计算。对于每个KPI，定义一个服务水平目标(Service Level Objective,SLO)阈值来检查系统是否健康。SLOs是服务水平协议(Service Level Agreement,SLA)的特定可度量特征，如响应时间、吞吐量、频率、可用性或质量。这些SLOs 一起用于定义提供者和用户之间的预期服务，并根据服务的紧急程度、资源和预算而有所不同。SLOs提供了一种定量的方法来定义用户可以期望从提供者那里得到的服务水平。

通常持续监控在线服务的性能以检查它是否偏离了预定义的服务水平目标SLO。SLO合规(SLO compliance)表示KPI正常，系统在相应的时间段内没有性能问题；SLO偏离(SLO violation)表示 KPI超过预定义的SLO阈值，系统被认为已经发生了性能问题。为了识别和诊断在线服务系统(SaaS软件)的性能问题，在其运行期间常常收集大量的系统级指标(即低级指标)。通过监控系统来收集这些低级指标数据，例如CPU利用率、磁盘I/O、网络以及内存使用。监控通常是周期性的(例如，1min间隔)。监控的每条状态日志记录都与SLO状态相关联。

对性能问题进行定义，通过度量以下两个指标来完成：

1、平均响应时间

平均响应时间(Average Response Time,ART)反映了用户对软件响应请求的时间期望。ART越长，服务处理请求越慢，性能越低。 ART计算如下：

其中，T_rΔt是时间间隔Δt内请求r的响应时间；n是Δt内的请求数目； t_ri和t_si分别表示第i个的请求的到达时间和服务响应时间。但是，像平均响应时间这样的度量只在较长的时间段内有效，因为在使用短时间间隔时，它受到响应时间高的批处理操作(比如报告生成)的影响较大。因此，本发明寻找一个(1)能够适应用户和操作之间的差异， (2)独立于时间间隔长度的度量。

2、SARatio_Δt度量

为了确定服务对请求的响应是否慢了，即是否超出了用户的期望，本发明为每个服务s计算其在时间段Δt上的一个请求r_i的响应时间 T_rΔt的平均ART_Δt和标准差σ_Δt。每当服务s的请求r_i的T_rΔt大于 ART_Δt+σ_Δt时，它被标记为慢，或者：

对于这样的定义，本发明构建了一个符合上述描述的性能表征的度量，即时间间隔Δt上慢请求数目Slow_Δt和请求总数目的比率， SARatio_Δt(Slow-to-All-requests-ratio)：

当SARatio_Δt>5％时，这意味着，在Δt内，5％的请求的响应时间，超过了请求总数的响应时间均值和标准差之和，则认为SLO处于偏离状态，表示软件发生了性能问题。否则，则认为SLO处于合规状态，表示软件是健康的。

二、根据第一步对SaaS软件性能问题的定义，对性能问题识别问题进行形式化

使S_t＝{0,1}表示系统t时刻的SLO({compliance,violation})性能状态，

可以表示为HMM的可观测参数。以下是性能问题识别问题的形式化定义：

定义1 X和L是两个随机场，它们的状态空间分别是

和

表示时刻索引，对

有

和

定义2可观测数据集合X＝(x₁,…,x_i,…,x_n)对应于收集的性能指标值的集合，随机变量x_i表示指标m_i在t时刻的值。使χ作为X的一个可观测实例，

是所有可能实例的集合，有

其中，x_t表示t时刻n个收集的性能指标值的向量。

定义3隐藏标签集合L＝(l₁,…,l_i,…,l_n)对应于隐藏的性能状态，随机变量l_i表示和指标m_i在t时刻的度量值相关的SLO状态。使

作为 L的一个配置，

是所有可能配置的集合，有

其中，l_t表示t时刻和X相关的系统性能状态。

定义4邻域约束，意味着每一对相邻的性能状态日志记录

倾向于表现相同的SLO性能状态(S)，并且独立于过去的、非近邻的记录。每个隐藏变量l_i仅和一个SLO性能状态类型内的它的近邻相关。隐藏状态通过一个邻域系统

相互关联。

隐马尔科夫随机场(Hidden Markov Random Field,HMRF)的概念来源于HMM。HMM可以定义为由马尔可夫链产生的随机过程，它的状态序列不能直接观测，只能通过观测值序列来推断。假设每个观测值都是状态序列的随机函数。本发明考虑HMM的一种特殊情况，即潜在的随机过程是一个马尔科夫随机场(Markov Random Field, MRF)而不是一个马尔科夫链，这种情况不再限于一维数据。这种特殊情况被称为隐马尔科夫随机场。数学上，HMRF模型的特征如下：

(1)可观测随机场。随机场

具有有限状态空间

给定任意特定的配置

每个X_t服从一个已知的条件概率分布 p(x_t|l_t)，和

有相同的函数形式，其中

是涉及到的参数。

(2)隐藏随机场。随机场

是一种潜在的MRF，假设有限状态空间

中的配置l∈L具有先验概率分布P(l)，L的状态是不可观测的。

(3)条件独立性。对任意的

随机变量X_t是条件独立的

基于以上，写出(L,X)的联合概率分布

根据MRF的局部特征，给定L_t的邻域配置

则任意一对 (L_t,X_t)的联合概率分布是

由此，基于参数集合θ和

计算X_t的边缘概率分布

其中，

这就是隐马尔科夫随机场。

三、针对第二步对SaaS软件性能问题识别问题的形式化，设计基于隐马尔科夫随机场的SaaS软件性能问题识别方法HMRF-PII

1、通过HMRF构建MAP估计模型

利用HMRF构建MAP估计模型的过程如下：

(1)定义先验势函数

以得到

L表示

的HMRF模型，根据Hammersley-Clifford定理，

的先验概率可以表示为Gibbs分布

其中，Z₂是正态常数，

表示总体势函数，是所有邻域系统

上势

的总和，

是标签配置

在邻域系统

上的势函数。每个邻域系统

可以定义为

其中，变量

表示指示函数

w_p为邻域系统

(2)导出似然概率函数

似然函数

建模可观测随机场的条件独立性，具有Gaussian分布

每个类可以由其均值向量μ_l和方差

表示。根据HMRF模型的特征，

χ的条件概率可以表示为

在公式(10)中，

(3)

和

相乘，得到后验概率

不能确定地从x获得，而是估计得到。一种估计

使下面的后验概率分布

最大。考虑HMRF的先验概率(8)和条件概率(10)，可以从公式(11)推导出

其中，

是常数。通过最小化公式(12)，优化并得到

2、通过HNN获得MAP估计

把性能问题识别问题看作MAP估计问题，利用Hopfield神经网络(HopfieldNeural Network,HNN)对其进行求解，只需建立公式(12) 与HNN能量之间的关系，并提供更新规则以保证收敛。把公式(12) 中的团势函数

视为

其中，

和

分别表示第s个和第q个神经元的输出，

是它们之间的连接权重，取决于

连接强度的取值为

其中，w_p是和团势函数关联的参数，也是HMRF模型参数。

把公式(14)代入公式(13)，得到

考虑Potts模型，即Ising模型的泛化，将公式(8)重写为

为了用HNN实现HMRF模型，将x解释为网络的初始化(把每个指标当作是一个神经元)。同样地，可以将μ_l理解为网络的现状。因此，可以重写公式(12)为

现在问题就变成最小化公式(17)。建立公式(17)和HNN的能量函数E之间的关系，并提供更新规则以达到E的最小值。为了用HNN实现公式(17)，它的能量函数E可以描述为

其中，最后一项是能量损失项，在高增益限制下，可以将其排除，因此公式(18)可以写成

通过适当的系数调整，公式(17)可以等价于最小化E(v^t)。

3、通过EM估计模型参数

是需要估计的不可观测数据。为了估计

算法从时刻0处最初的任意参数θ⁰开始，在时刻 t处使用参数θ^t估计性能指标数据的标签。

四、根据第三步，对HMRF-PII算法进行完整描述

附图2描述了实现性能问题识别方法所需的所有步骤。第1步，通过训练历史数据得到性能问题识别模型，历史数据是通过监控系统收集的系统状态数据，处理后满足模型的输入要求；第2步，持续监控系统状态，在系统运行过程中根据最新数据动态更新模型，使模型更符合系统当前运行状态；第3步，计算并输出系统当前状态的概率，如果通过HNN获得的MAP估计值输出“1”，则可以将当前时刻的性能状态日志记录判别为性能问题。输出结果之后，更新历史性能状态日志记录空间。

算法2通过对性能问题识别模型的构建、求解以及参数估计等关键部分的分析和设计，对性能问题识别算法进行了完整的描述。

五、对HMRF-PII算法进行实验验证

1、实验设计

实验主要关注以下四个研究问题：

RQ1：提出的性能问题识别方法是否引入了大量的系统开销？

这个RQ评估性能问题识别方法的开销。该方法需要实时获取系统状态，并根据历史状态信息计算当前系统状态的概率。因此，所提出的识别方法会带来一些开销。本实验是为了验证性能问题识别方法本身的开销实际上很小。

RQ2：提出的性能问题识别方法能否准确地识别出性能问题？

这个RQ评估性能问题识别方法识别性能问题的能力。在这次评估中，重点是评估a)所识别的性能问题是否是一个真实的性能问题， b)实际的性能问题是否是由性能问题识别算法识别出来的。本实验是为了验证性能问题识别方法识别性能问题的能力较强。

RQ3：提出的性能问题识别方法能否帮助运维管理人员及时做出回应并采取相应的措施以恢复服务能力？

这个RQ通过与人工排查性能问题的方法比较来检验性能问题识别方法的有效性。这与通过识别方法及时地判别系统当前状况，协助运维管理人员及时发觉性能问题并采取措施相关。本实验是为了验证性能问题识别方法在及时恢复服务能力方面占有优势。

RQ4：提出的性能问题识别方法是否比其它方法更有效？

将基于HMRF的性能问题识别方法与基于其它5种常用分类算法，包括朴素贝叶斯分类器(Naive Bayes,NB)、支持向量机(Support Vector Machine,SVM)、近邻分类器(KNeighbors Classifier,KNC)、最近质心分类器(Nearest Centroid,NC)以及逻辑回归(Logistic Regression,LR)的性能问题识别方法进行比较。

2、实验结果

RQ1：提出的性能问题识别方法是否引入了大量的系统开销？

为了分析性能问题识别方法的系统开销，评估它对系统服务性能和CPU资源的影响。随着并发请求的数量从1增加到200，服务的响应时间逐渐增加，如附图3(a)左图所示。当请求数大于100时，服务的响应时间会突然增加。相应地，如附图3(b)左图所示的CPU利用率上升到88％，表明节点A不能同时处理这么多请求。事实是节点A的性能瓶颈导致BOM服务的响应时间发生了巨大的变化。但是识别方法导致的服务响应时间约为5-15ms，如附图3(a)右图所示，表明识别方法对服务性能的影响很小(3.5％或更少)。同时，识别方法占用的CPU约为5％，如附图3(b)右图所示，表明识别方法对CPU 资源的占用也很小。

RQ2：提出的性能问题识别方法能否准确地识别出性能问题？

本实验的目的是验证性能问题识别算法识别系统性能状态的能力。基于HMRF的性能问题识别模型实现了对系统当前健康状态的实时性能分析，并输出系统性能状态的分类结果。附图4为性能问题识别模型对IDRAS总数据集中随机样本的识别概率输出。当性能问题识别模型的概率输出为“1”时，表示当前系统正处于性能出错状态，给出运维管理人员从哪里开始诊断的意见。

识别结果由IDRAS的性能专家进行评估，该专家具有8年SaaS 软件性能分析经验，对IDRAS基础设施有深入的了解。在本次评估中，专家着重于评估由本文提出的性能问题识别方法生成的结果数据是否真实反映了系统存在性能问题，评估结果如表1所示。此外，性能专家为5个通过SARatio识别的性能问题进一步执行这个评估过程，以继续验证性能问题识别方法的能力。

表1识别的性能问题评估

在评估过程中，注意到所识别的性能问题中有很大一部分是由相同的事件引起的。这与定义4(时间邻近约束)是一致的。比如，当来自多个终端用户的合成请求增长，从而导致数据库连接增长时，就会发生这种情况。本发明的性能问题识别方法对于识别性能问题具有较高的精确度(88％)。本发明的性能问题识别方法识别的假阳性数量很低，事实上，它比SARatio识别的假阳性数量要低。此外，SARatio 的通知时间间隔比本发明的性能问题识别方法长，所以它对性能问题发生的时间范围的指示不太准确。经过评估，专家指出本发明的性能问题识别方法有足够的能力识别性能问题。

同时，由于没有提供完整的性能问题列表，假阴性分析(即，漏查的性能问题)是困难的。但是，这对于运维管理人员来说很重要，因为如果不能及时采取措施来解决漏查的性能问题，可能会导致SaaS 软件服务的失效。幸运的是，本发明的性能问题识别方法识别出的假阴性数量很低，在识别性能问题(SLO偏离)方面的召回率达到94％。

本实验的目的是验证性能问题识别方法对运维管理人员及时发现性能问题确实有效。实验结果如附图5所示。当系统遭遇性能问题时，它的平均响应时间具有较大值。在不使用本发明的性能问题识别方法的情况下，由于人工排查问题的时间消耗，会导致降低平均响应时间的延迟。例如，在2017-11-31 14:49:12,2017-11-31 15:00:23, 2017-11-31 15:08:09,2017-11-31 15:39:35,2017-11-31 15:57:15，响应时间突然增加，人工排错在降低响应时间上有延迟。在使用本发明的性能问题识别方法的情况下，系统的平均响应时间能够及时地降低，并及时地恢复系统的服务能力。

RQ4：提出的性能问题识别方法是否比其他方法更有效？

将基于HMRF的性能问题识别算法，与通过NB，SVM，KNC 以及NC方法实现的性能问题识别算法做对比。为了防止实验结果过拟合，对IDRAS数据集进行交叉验证，对其进行多次划分，然后根据不同的比例将其划分为5个不同的训练集和测试集，对其分别进行实验，计算评估指标F1-score，以5个实验的平均值作为最终评估指标。评估结果如表2所示，表的最后一行为5次划分得到的数据集的 F1平均值，粗体数据表示最优F1值。

表2识别算法HMRF-PII和其它算法的F1值对比

朴素贝叶斯包括高斯朴素贝叶斯(GaussianNB,GNB)、多项式朴素贝叶斯(MultinomialNB,MNB)以及伯努利朴素贝叶斯 (BernoulliNB,BNB)。从表中可以看出，高斯朴素贝叶斯比多项式和伯努利朴素贝叶斯更有效，本发明的性能问题识别算法是受高斯贝叶斯和最近质心的启发，算法的效率确实提高了。结果表明，本发明的性能问题识别算法能更有效地识别系统中的性能问题。这些结果也证明了本发明的性能问题识别方法作为对IDRAS有用的性能识别工具的有效性。

本发明中附图1为性能问题识别方法框架；附图2为性能问题识别方法的步骤；附图3为性能问题识别方法的系统开销；附图4为 HMRF-PII算法的MAP输出；附图5为HMRF-PII方法和人工排查方法的系统响应时间对比。

本发明的性能问题识别方法：1)具有比较小的系统开销；2)能够准确地识别一个性能问题发生的时间范围；3)能够协助运维管理人员恢复SaaS软件的服务能力；4)比基于其它算法的性能问题识别方法能够更好地识别本文中真实系统的性能问题。

Claims

1.一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法，其特征在于按照以下步骤进行：

步骤1：SaaS软件性能问题识别问题形式化

使S_t＝{0,1}表示系统t时刻的SLO性能状态，

表示t时刻n个收集的性能指标向量，其中，m_i是第i个指标，将系统的SLO状态S＝{0,1}表示为HMM的隐藏状态，将系统的可观测变量

表示为HMM的可观测参数；

步骤2：设计基于隐马尔科夫随机场的SaaS软件性能问题识别方法HMRF-PII

(1)通过HMRF构建MAP估计模型；

利用HMRF构建MAP估计模型的过程如下：

1)定义先验势函数

以得到

L表示

的HMRF模型，

的先验概率表示为Gibbs分布

其中，Z₂是正态常数，

表示总体势函数，是所有邻域系统

上势

的总和，

是标签配置

在邻域系统

上的势函数，每个邻域系统

内的每一对相邻记录倾向于分到同一个性能问题类簇；由此，

定义为

其中，变量

表示指示函数

w_p为邻域系统

中总邻域约束违反的正态权重；

2)导出似然概率函数

似然函数

建模可观测随机场的条件独立性，具有Gaussian分布

每个类由其均值向量μ_l和方差

表示，根据HMRF模型的特征，

χ的条件概率表示为

在公式(3)中，

表示性能问题类和正常类的方差，μ_l∈{μ_v,μ_c}表示性能问题类和正常类的均值，这里，考虑把

作为和概率密度函数ProbabilityDensity Function,PDF相关联的参数向量；

3)

和

相乘，得到后验概率

不能确定地从x获得，而是估计得到，一种估计

的方式是，基于统计的MAP准则，这种情况的目标是，有一个估计规则产生

使下面的后验概率分布

其中，

是常数，通过最小化公式(5)，优化并得到

(2)通过HNN获得MAP估计

把性能问题识别问题看作MAP估计问题，利用Hopfield神经网络Hopfield NeuralNetwork,HNN对其进行求解，只需建立公式(5)与HNN能量之间的关系，并提供更新规则以保证收敛，把公式(5)中的团势函数

视为

其中，

和

分别表示第s个和第q个神经元的输出，

是它们之间的连接权重，取决于

连接强度的取值为

其中，w_p是和团势函数关联的参数，也是HMRF模型参数；

把公式(7)代入公式(6)，得到

考虑Potts模型，即Ising模型的泛化，将公式(1)重写为

为了用HNN实现HMRF模型，将x解释为网络的初始化，把每个指标当作是一个神经元，同样地，将μ_l理解为网络的现状，因此，可以重写公式(5)为

现在问题就变成最小化公式(10)，建立公式(10)和HNN的能量函数E之间的关系，并提供更新规则以达到E的最小值，为了用HNN实现公式(10)，它的能量函数E描述为

其中，最后一项是能量损失项，在高增益限制下，将其排除，因此公式(11)可以写成

通过适当的系数调整，公式(10)可以等价于最小化E(v^t)；

(3)通过EM估计模型参数

设计基于期望最大(Expectation Maximum,EM)的算法1，在EM框架中，对HMRF模型参数进行递归估计，以从一组性能指标数据中得到HRMF模型的最优参数，在HMRF-MAP框架中，x是可观测数据，

是需要估计的不可观测数据，为了估计

可观测数据x用HMRF建模，算法1的目的是基于可观测数据x估计

算法从时刻0处最初的任意参数θ⁰开始，在时刻t处使用参数β^t估计性能指标数据的标签；

步骤3：对HMRF-PII算法进行完整描述

通过对性能问题识别模型的构建、求解以及参数估计等关键部分的分析和设计，对性能问题识别算法进行完整的描述；

步骤4：对第3步得到的HMRF-PII算法进行实验验证

(1)评估发明的SaaS软件性能问题识别方法；

(2)将基于HMRF的性能问题识别方法与基于其它5种常用分类算法，包括朴素贝叶斯分类器、支持向量机、近邻分类器、最近质心分类器以及逻辑回归的性能问题识别方法进行比较。

2.按照权利要求1所述一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法，其特征在于：所述算法1

输入：训练集D＝{(X₁,l₁),…,(X_i,l_j),…,(X_k,l_k)},

输出：

1.选择任意初始参数集β⁰；

2.使用SARatio_Δt指标初始化类别标签；

3.E-step：计算似然概率分布

并通过HNN获得MAP估计

4.M-step：计算后验概率分布并更新参数

5.重复3-5步，直到满足停止条件，即在连续的迭代中参数的变化值落在一个预先定义的正常数∈内。