CN104794031A

CN104794031A - 结合自调整策略和虚拟化技术的云系统故障检测方法

Info

Publication number: CN104794031A
Application number: CN201510181845.XA
Authority: CN
Inventors: 唐飞龙; 栾志坤; 王斌; 张健桐; 张杨; 顾轶平; 王玉凤; 房新宇; 柳萌宇; 唐灿; 过敏意
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-04-16
Filing date: 2015-04-16
Publication date: 2015-07-22

Abstract

本发明提供了一种结合自调整策略和虚拟化技术的云系统故障检测方法，包括自调整策略步骤和虚拟化步骤。本发明通过结合自调整策略和虚拟化技术，使得主控结点对其他被控结点进行状态检测和故障检测，虚拟化步骤可以保证被控结点的具体故障类型能够被检测出来，并且得以诊断和恢复。这样就克服了传统的只针对相应的结点进行故障检测或者只针对一个应用进行检测的局限性，从而使得使用一个主控检点就可以对云计算环境中的全局状态进行监控和检测，并且可以通过相关的策略库对其进行诊断和恢复操作，这样使得维修的成本大大降低，有利于企业进行系统级的维护。

Description

结合自调整策略和虚拟化技术的云系统故障检测方法

技术领域

本发明属于计算机技术领域，尤其是应用于对云计算(分布式系统)中的结点和具体应用进行故障检测，从而来对系统进行恢复，具体涉及一种结合自调整策略和虚拟化技术的云系统故障检测方法。

背景技术

现有的故障检测方法中主要是分为几种：chen FD、Bertier FD、一级方程式FD。一系列的用来量化FD的服务质量的指标被陈等人提出来，比如：检测实际故障的速度，避免故障检测失败的程度。为了提高一个FD的服务质量，很多可适应的故障检测方法已经被提出来了，如chen FD、Bertier FD、一级方程式FD。Chen等人提出了依赖于网络系统的可能行为的多种实现方法。该协议使用采样中的过去最近的到达时间去计算下一个心跳的到达时间的评估值。然而，在不能很好地匹配动态网络行为的时候，一个超时是用这个评估值加上一个恒定的安全余量设置。接着，Bertier FD提供的安全余量为chen FD的优化。它采用了不同的计算函数，组合了chen和Jacobsons的往返时间(RTT)的评估。Bertier FD的设计主要是在消息很少会有丢失的有线局域网(LAN)中使用的。自调整故障检测方法(SFD)依赖于使用先前观察到的通信延迟的统计数据，不断地调整超时。换句话说，他们认为在通信史上这些值是薄弱的，不可被依赖的。这三个故障检测方法基于观察到的通信延迟去动态地预测新的延时值，从而提高了协议的性能。

故障检测主要分为电路级、系统级和应用程序级。

冗余频繁地出现在电路级故障检测，如冗余晶体管和局部复制，其目标是出现在逻辑电路的故障。在系统级的检测技术中具有不需要修改底层硬件的特点，其主要方法是复制和在操作系统或编译器里面进行再执行操作。此外，基于软件的症状检测技术被提出用来降低基于复制技术的性能开销，我们取的权衡点是这些技术能够实现更低的故障覆盖。应用程序级的检测技术可以很方便地获取应用程序的信息，从而共同的检测方法是分析目标应用程序的运行状态。此外，存在着两种不同的检测技术，其中一个是粗粒度的检测技术，其目的只是为了检测故障的出现而忽略这些故障具体是什么类型，心跳就是一种典型的情况。另一种是细粒度的技术，其目的是探测确切类型的故障。

发明内容

针对现有技术中的缺陷，本发明的目的在于，既可以对每一个被控制的结点进行故障检测，又可以对相关结点中的应用进行检测，这样就克服了传统的只针对相应的结点进行故障检测或者只对一个结点中的一个应用进行检测的局限性，从而使得使用一个主控检点就可以对云计算环境中的全局状态进行监控和检测，并且可以通过相关的策略库对其进行诊断和恢复操作，这样使得维修的成本大大降低，有利于企业进行系统级的维护。

根据本发明提供的一种结合自调整策略和虚拟化技术的云系统故障检测方法，包括如下步骤：

步骤1：自调整策略步骤

令主控结点对被控结点的状态信息进行收集，从而根据被控结点的状态信息检测被控结点的系统级故障情况；

步骤2：虚拟化步骤

令被控结点根据主控结点检测到的系统级故障情况，对自身中的应用级故障类型进行检测、诊断和恢复。

优选地，在步骤1中采用自适应故障检测算法SFD(Self-tuning failuredetection)来检测被控结点的故障情况，其中，将服务质量QoS(Quality of service)用如下三个变量来定义：

-检测时间；

-错误率；

-查询准确率。

优选地，所述自适应故障检测算法SFD，具体包括如下步骤：

步骤1.1：在一个特定的时隙，调整SFD的参数仅仅一次，基于反馈信息，来提高SFD的QoS输出去关闭

步骤1.2：经常我们不得不反复调整SFD的参数中的多个时隙来逐步提高输出的QoS，并最终发现合适的参数去满足

假定条件：实验时间足够长，让SFD输出的QoS去满足应用程序和已经存在并且可用的合理的控制参数

优选地，所述步骤2包括如下步骤：

步骤2.1：定义相关系数集合R和F；

步骤2.2：根据得到的集合和和检测策略进行匹配；

步骤2.3：根据匹配的情况来确定应用的故障是处于正常的状态还是故障的状态，如果处于故障状态，我们就用相应的故障状态库来对其进行诊断和恢复。

优选地，自调整策略步骤包括如下内容：

定量评价故障检索方法的服务质量，我们使用三种主要的独立的QoS指标(即检测时间，错误率，准确查询的概率)。第一指标测量基于故障检测的速度的模型的影响，而其他两个度量涉及准确性。详细地说，考虑到两个过程p和q，其中q用来监测p，在FD中对q的服务质量(fdq)可以从它的“信任”状态到“可疑”状态之间的转换来确定(参见图1)。

与现有技术相比，本发明具有如下的有益效果：

本发明运用自调整策略运用主控结点来检测每个被控制结点的系统级的故障检测，然后运用虚拟化技术来检测相对应的结点里面的应用级的故障检测，这样就可以通过主控结点来对每一个出故障的机器的相关应用来进行检测，并且将出现的问题进行排查。这样整个系统就可以有一个主控结点进行全盘掌控。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为作为FD服务质量评价的基本指标。

图2为基本心跳故障检测模型。

图3为自整定故障检测参数的关系

图4为故障检测的流程图。

图5为主控结点对云计算环境中的全局状态进行监控和检测。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

步骤1：自调整策略步骤

步骤2：虚拟化步骤

优选地，在步骤1中采用自适应故障检测算法SFD(Self-tuning failure detection)来检测被控结点的故障情况，其中，将服务质量QoS(Quality of service)用如下三个变量来定义：

-检测时间；

-错误率；

-查询准确率。

优选地，所述自适应故障检测算法SFD，具体包括如下步骤：

优选地，所述步骤2包括如下步骤：

步骤2.1：定义相关系数集合R和F；

步骤2.2：根据得到的集合和和检测策略进行匹配；

优选地，自调整策略步骤包括如下内容：

检测时间(Td)：这是一个代表当p开始崩溃，到q开始永久怀疑p通过fdq的时间长度的随机变量。

错误率(MR)：这是一个随机变量，代表故障检测器在一个单位时间的错误数，即它代表故障检测器犯错的频繁程度。

查询准确性概率(QAP)：这是一个概率，在一个随机的时间，FD在q意味着程序p正在up。

故障检测QoS的定义，特定的FD(Fault Diagnosis，故障检测)表现在它的完整性和准确性的属性来定义，并通过它的每一个组成部分的故障检测模块提供的服务质量是一个元组：

QoS＝(Td，MR，QAP)

QoS量化两者如何快速检测怀疑有故障以及它如何避免误检。

用户p希望FD在过程q检测p带有一定的QoS需求。此外，SFD在q中可以通过自身调节其参数来满足

我们将展示SFD(在图2)中，其中公式是目标的QoS心跳的反馈架构。最初的QoS要求(Td，MR，QAP)和是已知的并且发送到SFD，网络的行为(例如，心跳信息：到达时间，心跳发送间隔时间配方)也被发送到的SFD。从输出组合的反馈信息中，SFD可以调整其参数以匹配目标公式的要求。

如果SFD的输出的QoS不满足目标的(例如，我们可以将其定义为〉)，则反馈信息()返回到SFD。基于所述反馈信息，SFD调整其参数(例如，超时T为基于超时的模式)。然后，最终的SFD能满足(如果存在一定范围内的SFD，其中SFD能满足)。否则，如果是太高了，这SFD找不到合适的参数，然后在SFD将给予回应：“这SFD不能满足公式的应用”。

对于更多的细节，如果我们专注于QoS的三个主要参数：Td,MR和QAP(性能参数为一个周期的实验，不为一个时隙)，然后SFD的输出的QoS是基于所有前的时间段。

(图3)，我们表明自调整故障检测，其中目标和应该比MR和Td所需的值小,且应该比QAP的所需的值要大。

实际上，在一个特定的时隙，我们调整SFD的参数仅仅一次，基于反馈信息，来提高SFD的QoS输出去关闭经常我们不得不反复调整SFD的参数中的多个时隙来逐步提高输出的QoS，并最终发现合适的参数去满足假定条件：实验时间足够长，让SFD输出的QoS去满足应用程序和已经存在并且可用的合理的控制参数

步骤二：虚拟化技术步骤：

VMM位于客户机操作系统和硬件之间，它可以隔离每个客户机操作系统之上，并有洞察客户机操作系统的详细的工作，甚至还可以与客户机操作系统的操作干扰。通过使用这些功能，对客户正在运行的程序进行监控。而客户机操作系统执行特权指令，它与VMM，而不是与硬件直接交互，因此，响应客户机操作系统的要求时，VMM可以记录客户机操作系统的行为，我们可以通过增加规则到VMM中来决定VMM如何响应。vMON是一个针对虚拟机的过程监控器。它可以通过监测识别不同的客户机操作系统版本的客户机操作系统的IDT和SCT的入口地址。更重要的是，vMON先后获得修改客户机操作系统的内核数据结构的值，通过它可以使用户控制在虚拟机范围之外的过程。因此，vMON是一个典型的利用VMM优点的案例。然而，即使我们能够实现对虚拟机方便地监控，监控过程却对虚拟机的性能有一定的负面影响。原因是VMM必须每次从虚拟机捕获信息或控制虚拟机的运行时间中断虚拟机的指令正常执行。

我们开发了基于VMM的细粒度应用程序故障检测技术，用它来监视应用程序的系统调用，并且从统计角度分析这些监测的数据，然后建立了检测策略来检测应用程序的故障，而这种做法可以适用到不同的应用程序。

1.添加监视功能到KVM VMM和开发接口来控制监测，诸如启动/暂停监控和获取监测数据。并且监视功能是独立于目标应用。

2.使用统计方法来分析监测数据和相关分析确定故障检测策略。我们实现了快速，准确的故障检测针对在某一故障集的故障。

3.开发基于QEMU-KVM-0.12.5细粒度的应用程序故障检测系统。

本发明提供一种结合自调整策略和虚拟化技术的故障检测方法，包括自调整策略和虚拟化方法。其中自调整策略用于主控结点对其他被控结点的检测，虚拟化技术用于对出现故障的结点进行那一种类型的故障进行检测，诊断和恢复的操作。

自调整策略：

基于上述普通自调整故障检测方法，在这里我们提出一个重要的SFD(self-tuningfailure detection)的工程应用，这也优化了现有的故障检测器。

在这里，我们结合了chen-FD和一级方程式FD的模式。由于chen-FD有一个广泛的性能范围，它可以在一个保守的范围内实现更好的性能相对于一级方程式FD和Bertier FD来说，同时也实现了一个积极的范围内类似的性能。一级方程式FD仅在积极的范围内使用，因为它的舍入误差防止在保守的区间内进行计算。Bertier FD没有动态参数，并且只有一个积极的性能值。此外，一级方程式FD输出一个连续的范围(而不是传统的二进制信息)怀疑的水平，并可以提供不同的故障检测QoS来触发不同的反应。

SFD调整基于所述反馈信息的下一个预测的新鲜点T(k+1)。因此，我们有

T(k+1)＝SM(k+1)+EA(k+1)， (1)

其中EA(k+1)是chen-FD中相同的的参数，而SM是动态安全余量，并可以调整以满足预定义的在这里，我们有

SM (k + 1) = SM (k) + Sat (k) {QoS, \overset{&OverBar;}{QoS}} * a; - - - (2)

a(a∈(0,1))是在chen-FD中相同的恒定的安全余量，我们设定

Sat (k) {QoS, \overset{&OverBar;}{QoS}} = &PlusMinus; β, QoS > \overset{&OverBar;}{QoS}

Sat (k) {QoS, \overset{&OverBar;}{QoS}} = 0, QoS < = \overset{&OverBar;}{QoS} - - - (3)

其中β是一个恒定值β∈(0,1)，并基于特定输出的QoS状态，Sat(k){QoS，}可以设定为+β，-β或0。β的值用于调整率，并能由用户动态选择。

从函数(3)，较大的a值将导致更大的Td，更短的MR和较大的QAP(因为一个更大的a值提供较大的安全余量)。对于这一点，我们的方案是类似chen-FD。为了选择公式Sat(k){QoS，}，我们把重点放在两个方面：响应时间Td和检测准确率(MR和QAP)。我们要在响应时间和检测精度中取一个折中以符合目标的QoS：例如，如果我们试图缩短响应时间，然后调整将会使得检测精度降低，反之亦然。

从理论的观点，SFD满足累积故障检测器的属性，并且也属于一种通式(计提属性和上限属性)。

(1)SFD的结构

从概念上讲，SFD的实施可以分解为三个基本部分组成：监控，解释和操作。

在传统的基于超时的故障检测方法(chen-FD和Bertier FD)，监视和解释都将FD内组合，并且输出是二进制的。然而，SFD，作为自然增长的FD，提供了一个低级别的抽象，避免了监控信息的解释。一些值，其中每个进程关联的可疑级别，被应用程序留下来来解释。

应用程序根据自己的QoS要求设置一个可疑的门槛：门槛低会产生很多错误的怀疑，但很快就检测到一个实际的崩溃。相反，较高的门槛产生较少错误，但需要更多的时间来检测实际的崩溃。

(2)SFD的实现

作为自然增长的FD，在SFD使用的方法是相当简单的。预热期间之后，当一个新的心跳到达时，到达时间间隔放入取样滑动窗口，并在同一时间，先前的最老的被压出采样窗口。然后，在采样窗口的到达时间被用来计算的到达间隔时间分布，并得到了平均到达间隔时间△t在滑动窗口。在这之后，根据公式(3)，我们计算超时T，这使在下一个新鲜点的电流值(参照图2)。应用程序将执行一些动作，或者开始怀疑过程通过比较公式的T值和它的当前心跳到达时间(参照图2)。

我们无法得到从发送者到当它被丢失的接收器的通信延迟(从图2可知)。为了保证该方法的有效性，并考虑消息丢失的影响，我们使用了时间序列的理论来填充间隙。详细地说，我们填补空白，计算出的值。其中是观测到的相邻间隙的平均数。

对SFD的执行情况的详细算法如下：

1.我们先设置一些初始参数，包括SM1的初始安全边际值。

2.在这之后，SFD以得到的反馈信息：

2.1如果SM1是正确的参数为SFD以获得预期的输出的QoS，则该反馈信息是0，而SFD是稳定的，这意味着在当前的参数是正确的网络系统；

2.2如果SM1是不为SFD获得所期望的输出的QoS和QoS相匹配的控制规则，则该反馈信息是根据特定的输出QoS状态方程式的输出的准确适当的参数±β；

2.3如果SM1是不准确的适当参数为SFD获得预期的输出的QoS和输出的QoS不匹配的控制规则，则SFD得到有关此错误响应。

3.最后，如果SFD不显示“作出反应”，SFD调整参数的SM，直到获得预期输出的QoS。

Chen-FD，他们要找到确切的合适的参数值进行初始安全余量，以达到预期的输出的QoS(因为他们无法自动调整参数)；否则，输出的QoS不能满足式(用户要求)。式FD和Bertier FD也有同样的缺点，这是由我们的SFD解决。

虚拟化技术：

故障检测模块的功能是根据一组特定的应用的故障，以减少检测范围。相同的应用程序可以包含一个或多个可执行文件，在不同的导致系统调用的相关性的执行流之间交互和同步，因此我们使用系统的多个统计关系调用，以反映该应用程序的状态。

正如我们已经发现了一些系统调用是密切相关的，由于监测实验中，我们考虑采取相关系数的统计模式，并尝试根据计算结果量，建立检测策略。相关系数是两个随机变量，它的定义如下之间的线性相关性的指标：

R_{xy} = \frac{Σ_{i = 1}^{N} (Xi - \overset{&OverBar;}{X}) (Yi - \overset{&OverBar;}{Y})}{\sqrt{Σ_{i = 1}^{N} {(Xi - \overset{&OverBar;}{X})}^{2}} \sqrt{Σ_{i = 1}^{N} {(Yi - \overset{&OverBar;}{Y})}^{2}}} - - - (1)

公式取值范围为[-1,1]，Rxy>0表示成正相关，而Rxy<0表示成负相关。|Rxy|表示的相关性的水平，典型的|Rxy|>0.8意味着两个变量之间存在很强的线性关系。

我们以开发故障集中区分单个故障的具体模型，分析监测数据，所以这是检测到故障类型的方式。对于应用程序故障集F，我们试图获得一个一对一的映射集合R，其中的元素是一组或多组相关系数Ri，Ri意味着F中确定的故障fi。因此，对于任何公式Ri∈R，Rj∈R并且i≠j我们有因此，一定的相关性系数R意味着特定的故障f。我们分析，这是很难做出的故障集合F涵盖所有可能发生在目标应用程序的故障，首先，我们可能不知道一些很少见故障，其次，在多种类型的故障，我们考虑到检测，越有可能有不同的故障之间的干扰，从而导致检测的战略应是非常复杂的。因为我们正在尝试验证检测故障没有内部逻辑分析的有效性，我们使得故障集F成为一个小集合，以减少检测的难度和复杂性。

首先，我们在修改后的KVM模块启动虚拟机后，我们开始在虚拟机中的目标应用程序。我们的目标应用购物卡应用程序，其主要功能是用户注册，登录该网站，选择商品，添加到购物车，等等。

然后，我们开始在KVM模块的监控功能，并使用LoadRunner来模拟100个虚拟用户并发访问的Rails应用程序。

当Rails应用程序是在正常的服务，我们记录系统调用的数据。此外，我们选择三个断层组成的故障集合F：Apache服务器的端口不在服务区，MySQL的停止服务和数据库表的意外删除。我们模拟实验中这三个断层通过的办法，从其他人的工作了解到，如表1所示。

表1：故障模拟

根据前面描述的方法中，我们需要计算设定的相关系数R＝{r1,r2,r3}查明故障集的唯一故障F＝{f1,f2,f3}。在进行大量的计算后，我们发现，在正常情况下，系统调用读取的Apache和Apache的系统调用关闭之间的相关系数仍然稳定在0.8以上，这意味着这两个变量有很强的线性相关性。但是，该值将大幅下降到低于0.2只要Apache服务器停止侦听端口80，这意味着这两个变量有微弱的线性相关性。同样地，我们发现在另外两个故障情况类似的规则。事实上，我们不知道成对的系统调用在内部应用程序是否相关的，我们也没有必要去分析的内部关系。表2列出了监视对象的三种不同的故障，我们的实验表明，这些监控对象的值迅速改变当唯一对应的故障发生时。

表2：故障检测模型

对图1的说明：详细地说，考虑到两个过程p和q，其中q用来监测p，在FD中对q的服务质量(fdq)可以从它的“信任”状态到“可疑”状态之间的转换来确定(参见图1)。TD为检测时间，

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种结合自调整策略和虚拟化技术的云系统故障检测方法，其特征在于，包括如下步骤：

步骤1：自调整策略步骤

步骤2：虚拟化步骤

2.根据权利要求1所述的结合自调整策略和虚拟化技术的云系统故障检测方法，其特征在于，

在步骤1中采用自适应故障检测算法SFD来检测被控结点的故障情况，其中，将服务质量QoS用如下三个变量来定义：

-检测时间；

-错误率；

-查询准确率。