CN105511944A

CN105511944A - 一种云系统内部虚拟机的异常检测方法

Info

Publication number: CN105511944A
Application number: CN201610008093.1A
Authority: CN
Inventors: 韩德志; 毕坤; 谢柏林; 王军; 黄利利; 陈付梅
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2016-01-07
Filing date: 2016-01-07
Publication date: 2016-04-20
Anticipated expiration: 2036-01-07
Also published as: US20180309770A1; WO2017118133A1; US10616268B2; CN105511944B

Abstract

本发明涉及一种云系统内部虚拟机的异常检测方法，通过搜集云系统中正常虚拟机的状态信息来训练隐半马尔可夫模型HsMM，并设计相应算法来检测并计算云系统中各虚拟机在线时资源动态变化行为的或然概率和马氏距离。若对某一虚拟机在线检测结果的马氏距离大于预设门限值，说明该虚拟机的活动情况异常，则启动云系统内部的异常检测和处理系统对该虚拟机进行异常检测和处理。若检测到某虚拟机的异常率小于异常检测和处理的最大门限值时，消除异常后向该虚拟的云租户发警告提示；否则，向该虚拟机的云租户报警并关闭该虚拟机。本发明能实时检测云系统内部虚拟机的异常行为，占用系统资源少，能充分保证云系统内部虚拟机的高可用性和安全性。

Description

一种云系统内部虚拟机的异常检测方法

技术领域

本发明涉及网络技术领域，具体涉及一种云系统内部虚拟机的异常检测方法。

背景技术

越来越多的公司和企业通过迁移其部分的信息技术基础设施到云服务供应商来降低他们的成本，例如含有分布式存储基础设施的数据中心和其他类型的云计算系统的广泛使用。云服务提供商使用Vmware、vSphere等商用虚拟化软件来建立各种不同类型的虚拟基础设施，包括私有云和公有云系统，这些云系统的数据可能分布在数百个相互连接的计算机，存储设备和其他物理机器上。

在公有云系统或私有云系统中，企业是租用云服务提供商的计算资源和存储资源，即云租户。当企业把他们的数据存放到云系统时，他们的数据己处于潜在的安全威胁之中。例如，云服务提供商在云系统的某一台物理主机中为不同用户建有多个虚拟机，这多个虚拟机只要有一个虚拟机异常(有病毒或被外部攻击)，处于同一台物理云主机的其他虚拟的数据就存在安全威胁；

异常虚拟机的存在对于与之共享同一物理主机的其他虚拟机的正常运行构成很大的威胁，它将阻碍云系统为正常虚拟机提供的服务。检测异常虚拟机的存在对云安全提出了挑战，目前针对云系统内虚拟机的异常检测和处理方法比较少，并且现有的防御技术也没有考虑到云系统内部虚拟机的活动动态变化情况，因此存在一定的局限性。

保证云系统对正常虚拟机的可用性具有十分重要，它包括两方面的内容：一是正常情况下为虚拟机的正常使用提供合理的资源分配服务；二是异常情况下云系统内其他正常虚拟机的可用性，即通过检测方法检测出异常虚拟机并消除异常，保证其他虚拟机的正常使用。

发明内容

本发明提供的一种云系统内部虚拟机的异常检测方法，保障了云存储系统中异常虚拟机判断的实时性和可靠性，减少了异常检测对整个系统性能的影响，确保云系统正常虚拟机对用户的可用性。

为了达到上述目的，本发明的技术方案是提供一种云系统内部虚拟机的异常检测方法：

通过虚拟机状态属性信息搜索模块搜集云系统内部的各虚拟机的状态属性信息，实时传给隐半马尔可夫模型HsMM在线检测模块进行检测；

所述隐半马尔可夫模型HsMM在线检测模块检测出行为异常的虚拟机，并将行为异常的虚拟机的状态属性信息传给虚拟机异常检测和处理系统；

所述虚拟机异常检测和处理系统对行为异常的虚拟机进行检测，对异常程度没有达到所设异常指标的行为异常虚拟机，消除异常并向对应的云租户发出警告提示；对异常程度达到所设异常指标的行为异常虚拟机，则向对应的云租户发出报警并关闭该虚拟机。

所述云系统内部虚拟机的异常检测方法，包含以下过程：

步骤1、虚拟机状态信息搜集模块搜集云系统内部各虚拟机在正常状态下的状态属性值项；所述正常状态是指虚拟机内部没有病毒和外部没有各种攻击的状态；

步骤2、将虚拟机在正常状态下的状态属性值项作为观测序列，训练隐半马尔可夫模型HsMM并设计隐半马尔可夫模型HsMM在线检测算法；

步骤3、虚拟机状态信息搜集模块按事先设置的时间间隔，搜集各虚拟机在线工作时的状态信息，并实时传给隐半马尔可夫模型HsMM在线检测模块；

步骤4、隐半马尔可夫模型HsMM在线检测模块基于步骤2中得到的相应算法，在线检测各虚拟机的状态行为，计算其状态行为的或然概率和马氏距离，以此判断虚拟机的行为异常情况；

步骤5、将根据每个虚拟机在线行为计算得到的马氏距离与预设门限值Q比对，判断虚拟机在线行为的马氏距离是否大于预设门限值Q：

若是，则转到步骤6；若否，则转到步骤3；

步骤6、启动云系统异常检测和处理系统，对检测结果大于预设门限值Q的虚拟机进行异常检测；

步骤7、判断步骤6中异常检测的虚拟机的异常指标是否大于异常检测和处理的最大门限值E_max：

若异常指标大于等于E_max，则转步骤8；

若异常指标小于E_max，则异常检测和处理系统消除异常并向云租户发警告提示后转步骤3；

步骤8、异常检测和处理系统向异常率大于E_max的虚拟机的云租户报警并关闭该虚拟机。

本发明具有以下优点及效果：

1、保障了云系统内异常虚拟机判断的实时性。通过轻量级的虚拟机状态信息搜集软件实时搜集并传递虚拟机的状态信息，轻量级的隐半马尔可夫模型HsMM在线检测算法能快速检测状态行为异常的虚拟机。其检测速度远远快于常用的虚拟机异常检测软件。因为传统的异常检测方法是定期或发现有虚拟机异常后再检测。

2、提高了云系统内部异常虚拟机判断的准确性。通过轻量级的隐半马尔可夫模型在线软件检测出行为异常的虚拟机后，再启动由多种异构检测引擎组成的异常检测和处理系统对行为异常的虚拟机进行检测，双重异常检测大大提高了云系统内部异常虚拟机判断的准确性。

3、充分保证了正常虚拟机的可用性。一方面使用轻量级的虚拟机状态信息搜集软件和轻量级的隐半马尔可夫模型HsMM在线检测算法，对正常虚拟机的工作没有影响；另一方面使用异常检测和处理系统只对行为异常的虚拟机进行检测，不会占用正常虚拟机的资源和时间，所以本发明充分保证了正常虚拟机的可用性。

附图说明

为了更完全地理解本发明及其优点，现在结合附图参照一下描述，其中：

图1是本发明的一个整体流程图。

图2是云系统结构图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合图示与具体实施例，进一步阐述本发明提出的一种云系统内部虚拟机异常检测方法。

图1所示是本发明提供的一种云系统内部虚拟机的异常检测方法的流程图；图2所示是本发明中云系统的结构图。

本发明所述的云系统，包括应用服务器集群和各种类型的存储设备。应用服务器集群中安装有云操作系统、虚拟化软件、虚拟机状态属性信息搜集模块、隐半马尔可夫模型HsMM在线检测模块、异常检测和处理系统，以及为云租户建立的虚拟机等。

所述的云操作系统是以云计算、云存储技术作为支撑的操作系统，是云计算后台数据中心的整体管理运营系统，它是指构架于服务器、存储、网络等基础硬件资源和单机操作系统、中间件、数据库等基础软件之上的、管理海量的基础硬件、软件资源的云平台综合管理系统。

所述的虚拟化软件是可以让一部主体服务器建立与执行一至多个虚拟化环境，如VMware,Xen等虚拟化软件。

所述的虚拟机状态信息搜集模块是通过调用云系统中的虚拟机状态信息搜集功能而实现的轻量级软件模块；所述的轻量级软件模块是指运行时占用较少系统资源并对整个系统影响很小的应用软件。

所述的隐半马尔可夫模型HsMM在线检测模块，其内部包含有能检测虚拟机在线行为异常的隐半马尔可夫模型HsMM在线检测算法。

所述的异常检测和处理系统，是由不同厂家生产的异构检测引擎组成，能高效检测行为异常虚拟机的内部病毒和外部攻击，包括开源的和非开源的检测引擎。

本发明中的虚拟机异常检测和处理过程，包括：

(1)虚拟机状态属性信息搜索模块搜集各虚拟机的状态属性信息，实时传给隐半马尔可夫模型HsMM在线检测模块；

(2)隐半马尔可夫模型HsMM在线检测模块基于相应的算法，快速检测出行为异常的虚拟机，并将相关信息传给虚拟机异常检测和处理系统；

(3)虚拟机异常检测和处理系统对行为异常的虚拟机进行检测，对异常较轻的虚拟机消除异常并向对应的云租户发警报信息，对严重异常的虚拟机发出报警并关闭。

从上面的处理过程可知，本发明采用双重异常检测大大提高了云系统内部异常虚拟机异常判断的准确性，同时充分保证了正常虚拟机的高可用性。

如图1所示，本发明所述云系统内部虚拟机的异常检测方法，包含以下步骤：

步骤1、虚拟机状态信息搜集模块搜集云系统内部各虚拟机在正常状态下的状态信息。

所述的正常状态是指虚拟机内部没有病毒和外部没有各种攻击的状态。

所述虚拟机的状态信息，是由能反映虚拟机工作正常或异常的属性值项组成，包括虚拟机的CPU利用率、GPU的利用率、I/O等待时间和内存利用率等，以及他们随时间的动态变化情况。

步骤2、用虚拟机在正常状态下的状态属性值项作为观测序列，训练隐半马尔可夫模型HsMM并设计隐半马尔可夫模型HsMM在线检测算法(下文详述)。

步骤3、虚拟机状态信息搜集模块按事先设置的时间间隔，搜集云系统内部各虚拟机在线工作时的状态信息，并实时传给隐半马尔可夫模型HsMM在线检测模块。

步骤4、隐半马尔可夫模型HsMM在线检测模块基于步骤2中得到的相应算法，在线检测云系统各虚拟机的状态行为，计算其状态行为的或然概率和马氏距离，以此判断虚拟机的行为异常情况。

所述虚拟机的行为异常情况，是指虚拟机的CPU利用率、GPU的利用率、I/O等待时间以及内存利用率等性能指标变化出现异常，或出现虚拟机资源耗尽或性能逐步恶化的情况。

步骤5、将根据每个虚拟机在线行为计算的马氏距离与预设门限值Q比对，判断虚拟机在线行为的马氏距离是否大于预设门限值Q：若是，则转到步骤6；若否，则转到步骤3。所述的预设门限值Q为云系统虚拟机行为异常检测结果被接受的最低标准。

步骤6、启动云系统异常检测和处理系统，对检测结果大于门限Q的虚拟机进行异常检测。所述的异常检测是对行为异常的虚拟机进行全面的内部病毒检测和外部攻击检测。

步骤7、判断步骤6中得到的虚拟机异常指标是否大于异常检测和处理的最大门限值E_max：若大于等于E_max，则转步骤8；若小于E_max，则异常检测和处理系统消除异常并向云租户发警告提示后转步骤3。所述的异常检测和处理的最大门限值E_max是异常检测和处理系统能处理的最大异常指标。

以下对训练隐半马尔可夫模型HsMM，得到隐半马尔可夫模型HsMM在线算法的过程进行说明。

所述的隐半马尔可夫模型用λ＝{S,π,A,B,P}来表示，其各个参数定义如下：

S为模型状态集合，S＝{s₁,s₂,…,s_G}，其中s_g(1≤g≤G)表示隐马尔可夫模型在第t个时刻可能所处的状态，G为模型状态(State)的总个数；

π为初始状态概率矩阵，π＝{π_g}，π_g＝Pr[q₁＝s_g]，1≤g≤G，其中∑_gπ_g＝1。π_g表示隐马尔可夫模型在第1个时刻处于状态s_g的概率；

A为状态转移概率矩阵，A＝{a_gi}，a_gi＝Pr[q_t+1＝s_i|q_t＝s_g]，1≤g,i≤G，其中∑_ia_gi＝1，q_t表示隐马尔可夫模型在第t个时刻所处的状态，a_gi表示隐马尔可夫模型在第t个时刻从状态s_g跳转到状态s_i的概率；

B为观测值概率矩阵，B＝{b_g(v_k)}，b_g(v_k)＝Pr[O_t＝V_k|q_t＝s_g]，1≤k≤K，1≤g≤G，其中o_t表示隐马尔可夫模型在第t个时刻的观测量，b_g(v_k)表示当隐马尔可夫模型在第t个时刻处于状态s_g下，观测量O_t＝V_k的概率；

P为状态持续概率矩阵，P＝{p_g(d)；1≤d≤D,1≤g≤G}，p_g(d)＝Pr[τ_t＝d|q_t＝s_g]表示模型在第t个时刻处于状态s_g，且还将在状态s_g下持续d个时刻的概率，其中D表示状态持续的最大时间。

其中，云系统内部的各虚拟机的属性值状态包括：

状态①：各虚拟机的CPU、GPU和内存的利用率低于30％，I/O等待时间较短；

状态②：各虚拟机的CPU、GPU和内存的利用率有一种或多种高于30％但低于50％，其余低于30％，I/O等待时间正常；

状态③：各虚拟机的CPU、GPU和内存的利用率有一种或多种高于50％但低于80％，其余低于50％，I/O等待时间正常；

状态④：各虚拟机的CPU、GPU和内存的利用率有一种高于80％但低于90％，其余低于80％，并且变化正常，I/O等待时间较长；

状态⑤：各虚拟机的CPU、GPU和内存的利用率有一种或多种高于80％但低于90％，其余低于80％，并且变化出现异常，I/O等待时间较长或超长；

状态⑥：各虚拟机的CPU、GPU和内存的利用率有一种或多种高于90％，其余低于80％，并且变化异常，I/O等待时间超长；

所述的状态①②③④属于正常状态，状态⑤⑥属于异常状态。

本发明中用虚拟机正常状态下的属性值状态观测序列来训练隐半马尔可夫模型HsMM的过程，包括：

S1、计算出每个虚拟机的状态信息观测序列O^(h)(1≤h≤H)的前向变量它表示虚拟机在前t个观测量到达虚拟机状态信息搜集模块时，虚拟机在状态s_g持续停留d个时刻的概率，其中1≤t≤T^*，前向变量的定义式如(1)所示：

α_{t}^{(h)} (g, d) = P_{r} [{(o_{1}^{t})}_{h}, (q_{t}, τ_{t}) = (s_{g}, d)] - - - (1)

其中，H为虚拟机状态观测值序列的总个数，T^*为相应观测序列的长度。

S2、根据公式(2)计算出每个正常虚拟机的观测序列相对于HsMM的或然对数概率P_h，1≤h≤H；同理，可以根据公式(3)求出在线虚拟机的或然对数概率在此基础上可以根据公式(4)计算出所有正常虚拟机的观测序列相对于HsMM的或然对数概率P_H，这里的P_H即为正常虚拟机的或然对数概率值构成的初始或然对数概率分布，

P_{h} = l n (P (O^{(h)} | λ)) = l n (Σ_{g = 1}^{G} Σ_{d = 1}^{D} α_{T^{*}}^{h} (g, d)) - - - (2)

P_{h *} = l n (P (O^{(h^{*})} | λ)) = l n (Σ_{g = 1}^{G} Σ_{d = 1}^{D} α_{T^{*}}^{h^{*}} (g, d)) - - - (3)

P_{H} = Π_{h = 1}^{H} l n (P (O^{(h)} | λ)) = Π_{h = 1}^{H} P_{h} - - - (4)

其中G为模型状态的总个数，D为状态持续的最大时间，H为虚拟机状态观测值序列的总个数，T^*为相应序列的长度。

S3、根据式(5)、(6)所示，分别计算出正常虚拟机的初始或然对数概率分布P_H的平均值μ和标准差σ：

μ = \frac{P_{H}}{H} - - - (5)

σ = \sqrt{\frac{1}{H - 1} Σ_{h = 1}^{H} {(P_{h} - μ)}^{2}} - - - (6)

S4、求出每个虚拟机观测序列O^(h)(1≤h≤H)的后向变量它表示虚拟机的第t个观测量到达虚拟机状态信息搜集模块时，虚拟机在状态s_g持续停留d个时刻的情况下，产生的概率，后向变量的定义式如式(7)所示：

β_{t}^{(h)} (g, d) = P_{r} [{(o_{t + 1}^{T^{*}})}_{h} | (q_{t}, τ_{t}) = (s_{g}, d)] - - - (7)

S5、由前向变量和后向变量我们可以得到状态跳转联合概率状态持续联合概率状态和观测值联合概率它们的定义式分别如式(8)、(9)、(10)所示：

ξ_{t}^{(h)} (g, i) = P_{r} [O^{(h)}, q_{t - 1} = s_{g}, q_{t} = s_{i}] - - - (8)

η_{t}^{(h)} (g, d) = P_{r} [O^{(h)}, q_{t - 1} &NotEqual; s_{g}, q_{t} = s_{g}, τ_{t} = d] - - - (9)

γ_{t}^{(h)} = P_{r} [O^{(h)}, q_{t} = s_{g}] - - - (10)

S6、训练HsMM的模型参数：在训练模型参数之前，要给HsMM的模型参数赋初值，由于模型参数A,P,B,π的初值对模型训练的影响比较小，所以可令a_gi＝1/(G‐1)，π_g＝1/G，p_g(d)＝1/D，b_g(v_k)＝1/(G‐1)，另外令状态自跳转概率a_gg＝0，然后根据下式(11)‐(14)进行模型参数的更新，在公式(15)中，当o_t＝v_k时，δ(o_t-v_k)＝1，否则δ(o_t-v_k)＝0，

π_{g} = \frac{Σ_{h = 1}^{H} \frac{1}{P_{h}} γ_{1}^{(h)} (g)}{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{g = 1}^{G} γ_{1}^{(h)} (g)} - - - (11)

a_{g i} = \frac{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{t = 2}^{T^{*}} ξ_{t}^{(h)} (g, i)}{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{g = 1}^{G} Σ_{t = 2}^{T^{*}} ξ_{t}^{(h)} (g, i)} - - - (12)

b_{g} (v_{k}) = \frac{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{t}^{T^{*}} γ_{t}^{(t)} (g) δ (o_{t} - v_{k})}{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{k = 1}^{K} Σ_{t}^{T^{*}} γ_{t}^{(t)} (g) δ (o_{t} - v_{k})} - - - (13)

p_{g} (d) = \frac{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{t = 1}^{T^{*}} η_{t}^{(h)} (g, d)}{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{d = 1}^{D} Σ_{t = 1}^{T^{*}} η_{t}^{(h)} (g, d)} - - - (14)

S7、判断第S2项中求到的P_H是否趋向于一个稳定的值，若是，则得到HsMM的模型参数集λ，模型训练结束；否则的话，重复以上第S1项到第S6项的过程。

根据模型训练得到了正常虚拟机的初始或然对数概率分布和在线虚拟机的或然对数概率计算公式，就可以用简化的马氏距离来衡量正常虚拟机的初始或然对数概率分布和云系统中在线虚拟机的或然对数概率之间的距离，简化的马氏距离如公式(15)所示：

d = Σ_{h^{*} = 1}^{H} | \frac{P_{h^{*}} - μ}{σ} | - - - (15)

公式(15)中d的取值反映了云系统中虚拟机在线状态行为的异常程度，这里可以定义一个代表虚拟机正常行为的阈值Q，当d≤Q时，可以判断虚拟机的状态行为是正常的；当d>Q时，则可以判断该虚拟机的状态行为异常，即可能出现病毒或遭受外部攻击。所述的马氏距离是由印度数学家马哈拉诺比斯(P.C.Mahalanobis)提出的一种计算具有相关性两点之间距离的方法。

得到行为异常的虚拟机后，启动云系统中异常检测和处理系统进行异常检测，根据对第i个异常虚拟机内部病毒检测结果和外部攻击检测结果进行评估，得出该虚拟机行为异常的严重程度指数E_i，E_i＝p₁+p₂；p₁是反映异常虚拟机内部病毒可处理的指标，如果异常虚拟机内部病毒可处理，p₁取值0，如果异常虚拟机内部病毒不可处理p₁取值1；p₂是反映异常虚拟机外部攻击可处理的指标，如果异常虚拟机外部攻击可处理，p₂取值0，如果异常虚拟机外部攻击不可处理p₂取值1。

若虚拟机行为异常的严重程度指数E_i<E_max＝1，则消除异常后给异常虚拟机的云租户发警告通知；虚拟机行为异常的严重程度指数E_i≥E_max＝1则会给异常虚拟机的云租户发报警并关闭该虚拟机。

下面用一个实例来阐述本发明所述的方法。

假设云系统设置有100台虚拟机，其中1台由于病毒引起虚拟机工作状态异常，另两台由于外部攻击引起虚拟机工作状态异常。轻量级的虚拟机状态属性信息搜索模块搜集各虚拟机的状态信息并传给隐半马尔可夫模型HsMM模块后，后者基于隐半马尔可夫模型HsMM在线检测算法很快检测出这3台虚拟机的状态行为异常，并启动虚拟机异常检测和处理模块对3台虚拟机进行异常检测和处理。

轻量级的虚拟机状态属性信息搜索模块和隐半马尔可夫模型HsMM在线检测算法工作对所有虚拟机几乎没有影响，在这里我们忽略其影响。我们还假设由病毒和外攻击引起的虚拟机异常是可以消除而不需要关闭，并且每台虚拟机异常消除需要时间为10分钟，则3台虚拟机消除异常需要：3×10＝30分钟。

传统的虚拟机异常消除方法是启动云系统的异常检测和处理系统对所有虚拟机进行检测，则消除3台虚拟机异常需要的总时间为：100×10＝1000分钟。

另外，本发明只需要对3台异常虚拟机进行检测和消除异常，而传统的方法需要对所有的虚拟机，包括实际正常和实际异常的虚拟机进行异常检测。异常检测和处理需要占用虚拟机的资源和工作时间。

从上面实例看，本发明与传统方法相比，可充分保证云系统虚拟机异常检测和处理的实时性和准确性，并保证正常虚拟机的可用性。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种云系统内部虚拟机的异常检测方法，其特征在于，

2.如权利要求1所述云系统内部虚拟机的异常检测方法，其特征在于，包含以下过程：

若是，则转到步骤6；若否，则转到步骤3；

若异常指标大于等于E_max，则转步骤8；

3.如权利要求2所述云系统内部虚拟机的异常检测方法，其特征在于，

所述虚拟机的状态属性值项，包括虚拟机的CPU利用率、GPU的利用率、I/O等待时间和内存利用率，以及他们随时间的动态变化情况；

虚拟机处在第一状态到第四状态中任意一种状态时属于正常状态，处在第五状态或第六状态时属于异常状态，其中：

第一状态时，虚拟机的CPU、GPU和内存的利用率低于30％，具有比正常I/O等待时间短的第一I/O等待时间；

第二状态时，虚拟机的CPU、GPU和内存的利用率有一种或多种高于30％但低于50％，其余低于30％，并具有处于正常I/O等待时间的第二I/O等待时间；

第三状态时，虚拟机的CPU、GPU和内存的利用率有一种或多种高于50％但低于80％，其余低于50％，并具有第二I/O等待时间；

第四状态时，虚拟机的CPU、GPU和内存的利用率有一种高于80％但低于90％，其余低于80％，且变化正常，并具有比正常I/O等待时间长的第三I/O等待时间；

第五状态时，虚拟机的CPU、GPU和内存的利用率有一种或多种高于80％但低于90％，其余低于80％，且变化异常，并具有第三I/O等待时间或具有比第三I/O等待时间长的第四I/O等待时间；

第六状态时，虚拟机的CPU、GPU和内存的利用率有一种或多种高于90％，其余低于80％，且变化异常，并具有第四I/O等待时间。

4.如权利要求2或3所述云系统内部虚拟机的异常检测方法，其特征在于，

所述隐半马尔可夫模型用λ＝{S,π,A,B,P}来表示，其各个参数定义如下：

S为模型状态集合，S＝{s₁,s₂,…,s_G}，其中s_g(1≤g≤G)表示隐马尔可夫模型在第t个时刻可能所处的状态，G为模型状态的总个数；

π为初始状态概率矩阵，π＝{π_g}，π_g＝Pr[q₁＝s_g]，1≤g≤G，其中∑_gπ_g＝1；π_g表示隐马尔可夫模型在第1个时刻处于状态s_g的概率；

A为状态转移概率矩阵，A＝{a_gi}，a_gi＝Pr[q_t+1＝s_i|q_t＝s_g]，1≤g，i≤G，其中∑_ia_gi＝1，q_t表示隐马尔可夫模型在第t个时刻所处的状态，a_gi表示隐马尔可夫模型在第t个时刻从状态s_g跳转到状态s_i的概率；

P为状态持续概率矩阵，P＝{p_g(d)；1≤d≤D，1≤g≤G}，p_g(d)＝Pr[τ_t＝d|q_t＝s_g]表示模型在第t个时刻处于状态s_g，且还将在状态s_g下持续d个时刻的概率，其中D表示状态持续的最大时间。

5.如权利要求4所述云系统内部虚拟机的异常检测方法，其特征在于，

通过虚拟机在正常状态下的状态属性值项的观测序列，来训练隐半马尔可夫模型HsMM的过程，包括：

S1、计算出每个虚拟机的状态信息观测序列O^(h)(1h≤H)的前向变量它表示虚拟机在前t个观测量到达虚拟机状态信息搜集模块时，虚拟机在状态s_g持续停留d个时刻的概率，其中1≤t≤^*，前向变量的定义式为：

α_{t}^{(h)} (g, d) = P_{γ} [{(o_{1}^{t})}_{h,} (q_{t}, τ_{t}) = (s_{g}, d)] - - - (1)

其中，H为虚拟机状态观测值序列的总个数，T^*为相应观测序列的长度；

S2、分别计算出每个正常虚拟机的观测序列相对于HsMM的或然对数概率P_h，1≤h≤H，在线虚拟机的或然对数概率以及所有正常虚拟机的观测序列相对于HsMM的或然对数概率P_H，这里的P_H即为正常虚拟机的或然对数概率值构成的初始或然对数概率分布：

P_{h} = l n (P (O^{(h)} | λ)) = l n (Σ_{g = 1}^{G} Σ_{d = 1}^{D} α_{T^{*}}^{h} (g, d)) - - - (2)

P_{h^{*}} = l n (P (O^{(h^{*})} | λ)) = l n (Σ_{g = 1}^{G} Σ_{d = 1}^{D} α_{T^{*}}^{h^{*}} (g, d)) - - - (3)

P_{H} = Π_{h = 1}^{H} l n (P (O^{(h)} | λ)) = Π_{h = 1}^{H} P_{h} - - - (4)

S3、分别计算出正常虚拟机的初始或然对数概率分布P_H的平均值μ和标准差σ：

μ = \frac{P_{H}}{H} - - - (5)

σ = \sqrt{\frac{1}{H - 1} Σ_{h = 1}^{H} {(P_{h} - μ)}^{2}} - - - (6)

S4、求出每个虚拟机观测序列O^(h)(1≤h≤H)的后向变量它表示虚拟机的第t个观测量到达虚拟机状态信息搜集模块时，虚拟机在状态s_g持续停留d个时刻的情况下，产生的概率，后向变量的定义式：

β_{t}^{(h)} (g, d) = P_{r} [{(o_{t + 1}^{T^{*}})}_{h} | (q_{t}, τ_{t}) = (s_{g}, d)] - - - (7)

S5、根据前向变量和后向变量分别求出状态跳转联合概率状态持续联合概率状态和观测值联合概率

ξ_{t}^{(h)} (g, i) = P_{r} [O^{(h)}, q_{t - 1} = s_{g}, q_{t} = s_{i}] - - - (8)

η_{t}^{(h)} (g, d) = P_{r} [O^{(h)}, q_{t - 1} &NotEqual; s_{g}, q_{t} = s_{g}, τ_{t} = d] - - - (9)

γ_{t}^{(h)} = P_{r} [O^{(h)}, q_{t} = s_{g}] - - - (10)

S6、给HsMM的模型参数赋初值，令a_gi＝1/(G‐1)，π_g＝1/G，p_g(d)＝1/D，b_g(v_k)＝1/(G‐1)，另外令状态自跳转概率a_gg＝0，然后根据下式进行模型参数的更新；当o_t＝v_k时，δ(o_t-v_k)＝1，否则δ(o_t-v_k)＝0；

π_{g} = \frac{Σ_{h = 1}^{H} \frac{1}{P_{h}} γ_{1}^{(h)} (g)}{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{g = 1}^{G} γ_{1}^{(h)} (g)} - - - (11)

a_{g i} = \frac{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{t = 2}^{T^{*}} ξ_{t}^{(h)} (g, i)}{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{g = 1}^{G} Σ_{t = 2}^{T^{*}} ξ_{t}^{(h)} (g, i)} - - - (12)

b_{g} (v_{k}) = \frac{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{t}^{T^{*}} γ_{t}^{(h)} (g) δ (o_{t} - v_{k})}{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{k = 1}^{K} Σ_{t}^{T^{*}} γ_{t}^{(h)} (g) δ (o_{t} - v_{k})} - - - (13)

p_{g} (d) = \frac{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{t = 1}^{T^{*}} η_{t}^{(h)} (g, d)}{Σ_{h = 1}^{H} \frac{1}{P_{h}} Σ_{d = 1}^{D} Σ_{t = 1}^{T^{*}} η_{t}^{(h)} (g, d)} - - - (14)

S7、判断第S2项中求到的P_H是否趋向于一个稳定的值：

若是，则得到HsMM的模型参数集λ，模型训练结束；若否，重复以上第S1项到第S6项的过程。

6.如权利要求5所述云系统内部虚拟机的异常检测方法，其特征在于，

通过简化的马氏距离来衡量正常虚拟机的初始或然对数概率分布和云系统中在线虚拟机的或然对数概率之间的距离，简化的马氏距离为：

d = Σ_{h * = 1}^{H} | \frac{P_{h *} - μ}{σ} | - - - (15)

其中，d的取值反映了云系统中虚拟机在线状态行为的异常程度；定义代表虚拟机正常行为的预设门限值Q，当d≤Q时，判断虚拟机的状态行为是正常的；当d>Q时，判断该虚拟机的状态行为异常，即可能出现病毒或遭受外部攻击。

7.如权利要求6所述云系统内部虚拟机的异常检测方法，其特征在于，

检测出行为异常的虚拟机后，启动云系统中异常检测和处理系统进行异常检测，根据对第i个行为异常的虚拟机内部病毒检测结果和外部攻击检测结果进行评估，得出该虚拟机行为异常的严重程度指数E_i，E_i＝p₁+p₂；

其中，p₁是反映异常虚拟机内部病毒可处理的指标，如果异常虚拟机内部病毒可处理，p₁取值0；如果异常虚拟机内部病毒不可处理p₁取值1；

p₂是反映异常虚拟机外部攻击可处理的指标，如果异常虚拟机外部攻击可处理，p₂取值0；如果异常虚拟机外部攻击不可处理，p₂取值1；

若虚拟机行为异常的严重程度指数E_i<E_max＝1，则消除异常后给行为异常的虚拟机的云租户发警告提示；若虚拟机行为异常的严重程度指数E_i≤E_max＝1，则给行为异常的虚拟机的云租户发报警并关闭该虚拟机。