CN103957116B

CN103957116B - 一种云故障数据的决策方法及系统

Info

Publication number: CN103957116B
Application number: CN201410125387.3A
Authority: CN
Inventors: 姜瑛; 黄婕; 丁家满; 刘英莉; 李凌宇; 汪海涛
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2014-03-31
Filing date: 2014-03-31
Publication date: 2017-12-01
Anticipated expiration: 2034-03-31
Also published as: CN103957116A

Abstract

本发明涉及一种云故障数据的决策方法及系统，属于云故障领域。本发明文件操作模块，用于对云故障数据文件的打开、分析：文件打开模块，用于选择打开云故障数据文件；文件分析模块，用于获取云故障数据文件的特征属性和类别属性；决策结果生成模块，用于根据打开的云故障数据文件生成决策图；检测结果显示模块，用于显示云故障检测的结果：当遍历到决策图中类别属性表示的节点时，计数器加1，并记录下该节点的值，直至整张图遍历完毕，再将记录下的节点值显示给用户。本发明结合传统故障分类及云计算环境的特点，建立云故障的分类；使新算法适应云计算环境下软件故障的类别多样化特征；通过遍历得到的决策图，能够得出检测到的云故障列表。

Description

一种云故障数据的决策方法及系统

技术领域

本发明涉及一种云故障数据的决策方法及系统，属于云故障领域。

背景技术

关于软件故障的分类和故障模型的建立已经较为成熟，已经有研究从故障发生阶段、故障引起的后果、错误性质、错误类型等方面建立软件故障模型。朱荣等人主要针对科学计算程序建立了计算型、分支型、循环型、功能型、死锁型、测试型6种可以覆盖相当数量故障的故障模型，以便管理和标准化这些故障；聂林波等人在考察了国内外关于软件缺陷错误分类方法的基础上，提出了基于过程的缺陷分类方法；曾福萍等人在缺陷模式所属分类中引入了“层次原理”，即分层思想，通过分析积累的软件缺陷数据对缺陷模式的所属分类进行划分，在此基础上进一步给出了软件需求分析、设计和编码各阶段的软件缺陷模式。上述研究都是针对传统运行环境下的软件故障，我们将之称为传统软件故障，这些故障的分类、检测如果用于云计算环境下，可能会出现偏差。此外，云环境中也出现了一些传统软件环境下没有的故障。

云计算是一种利用互联网实现随时随地、按需、便捷地访问共享资源池（如计算设施、存储设备、应用程序等）的计算模式。通过云计算，用户可以根据其业务负载快速申请或释放资源，并以按需支付的方式对所使用的资源付费，在提高服务质量的同时减低运维成本。虽然有些研究开始针对在线测试、云计算环境下的软件故障进行研究，但是没有体现云环境资源众多、调度策略复杂多变所导致的故障的特征。

决策树是一种简单有效并被广泛认可和使用的分类技术，通常用来解决多属性数据的分类问题。C4.5 算法是J.R.Quinlan 于1993 年提出的一种对ID3 的改进算法，C4.5算法采用信息增益率来选择属性，避免了选择属性时偏向选择取值多的属性的现象，并能处理连续属性。但是C4.5算法的类别属性只有一个，即分类是从一个角度展开的，然后分成不同的类别。比如说，一个学校的校奖学金制度，分为一等奖学金、二等奖学金、三等奖学金和无奖学金，那么根据学生的表现，仅可以得到四种情况中的一种。云计算环境下的故障有其特殊性，传统的C4.5算法并不能满足云故障的决策分类。

发明内容

本发明提供了一种云故障数据的决策方法及系统，以用于解决云计算环境下故障来源多样、特征复杂及云故障难以决策分类的问题。

本发明的技术方案是：一种云故障数据的决策方法，包括：

文件操作模块，用于对云故障数据文件的打开、分析：文件打开模块，用于选择打开云故障数据文件；文件分析模块，用于获取云故障数据文件的特征属性和类别属性；

决策结果生成模块，用于根据打开的云故障数据文件生成决策图；

检测结果显示模块，用于显示云故障检测的结果：当遍历到决策图中类别属性表示的节点时，计数器加1，并记录下该节点的值，直至整张图遍历完毕，再将记录下的节点值显示给用户。

所述决策结果生成模块的具体步骤如下：

S1、训练集中云故障数据的处理（当第一次执行时训练集指的是云故障数据文件，当递归执行时训练集指的是非空子集）：

如果训练集中的特征属性及类别属性值为空，则返回null；

如果训练集中每一个实例都属于相同的类别C ₁~C ₄，创建4个节点并返回，分别以C ₁~C ₄标记节点；

如果训练集中的特征属性为空，那么创建4个节点并返回，分别用训练集中多数实例所在的类标记节点；

如果训练集中每一个实例都属于相同的类别C _i（1≤i≤4），创建节点并以C _i标记；

其中，训练集的数据包括云故障的特征属性和类别属性；

特征属性指云计算环境下软件在运行中与故障相关的属性；

类别属性C ₁、C ₂、C ₃、C ₄分别表示按故障所属层次分类、按故障来源分类、按故障所属服务阶段分类、按故障影响范围分类：

所述按故障所属层次分类包括基础设施即服务层故障、平台即服务层故障和软件即服务层故障；

所述按故障来源分类包括硬件故障和软件故障，所述硬件故障包括存储区域网络故障、主机故障和网络设备故障，所述软件故障包括云计算系统软件故障、用户应用软件故障和第三方软件故障，所述云计算系统软件故障包括虚拟机故障、监控软件故障、数据库软件故障、安全相关软件故障以及计价收费软件故障；

所述按故障所属服务阶段分类包括服务查找阶段故障、服务请求阶段故障和服务提供阶段故障；

所述按故障影响范围分类包括仅影响自身故障、影响其他部分故障和影响服务结果故障；

S2、对云故障数据源进行预处理：对于训练集中的云故障数据，若存在连续型的属性，则将其离散化；如果没有连续取值的属性则忽略这一步骤；

S3、针对每一种分类，计算所有属性的信息增益率：要获得信息增益率最大的属性，需要对每一个特征属性在每一种类别属性情况下进行信息增益率的计算；

S4、选择信息增益率最大的特征属性，创建节点并标记为该属性：根据计算的信息增益率选择属性，创建新的节点，以该属性的属性名进行标记；

S5、根据特征属性的取值划分相应的子集：得到信息增益率最大的属性并创建节点之后，根据该属性的取值采用步骤S2的计算结果划分相应的子集：

如果为空子集，则生成标记属性值的节点；

如果为非空子集，则对每个非空子集执行步骤S1~S5的操作；

S6、整合生成的节点：如果得到的节点存在重复，则对重复的节点进行合并，否则结束。

所述步骤S2中，若存在连续型的属性，则将其离散化为：对于所有连续属性，其分支都是2条，分支分别对应着“≤θ”和“＞θ”，θ代表分支阈值；把需要处理的样本或样本子集按照连续属性的大小从小到大进行排序，假设该属性对应的不同的属性值一共有N个，那么总共有N-1个可能的候选分支阈值点；其中，每个候选的分支阈值点的值为上述排序后的属性值链表中两两前后连续元素的中点，N-1个候选分支阈值点中使信息增益最大的点作为分支阈值。

所述信息增益的定义过程为：

设S代表训练集，由k个样本组成；C _i（i=1,2,3,4）是S的类别属性，具有j个不同的取值为C _ji（j=1,2,...,v）；设属于类别C _ji的样本的个数为|S _j|，那么训练集S对于C _i的熵为：

，其中p _j=|S _j|/k是任意样本属于类别C _ji的概率；lb=log₂，是求2为底的对数；

设D是S的某个连续型属性，根据离散化的过程，对于某一C _i（i=1,2,3,4），将S划分为2个子集，S ₁代表“≤θ”的集合，S ₂代表“＞θ”的集合，|S _t|表示子集S _t中的样本数量，那么在分裂为2个子集之后，任意一个子集S _t（t=1,2）的熵为：

，其中|S _jt|（j=1,2,...,v）是子集S _t中属于C _i的第j种类别的样本数量，|S _t|是子集S _t中的样本数量，|S _jt|/|S _t|表示S _t中的样本属于C _i中第j种类别的比例；

S针对C _i按照属性D划分的2个子集的熵的加权和为：

，其中是子集S _t的权重，等于子集S _t中的样本数量除以S中的样本总数；

按照属性D把S分裂，得到的信息增益为：

。

所述步骤S3中信息增益率的定义为：

式中，Gain(S,D)指的是按照属性D把训练集S分裂后所得到的信息增益；Split_ Info(S,D)为训练集S关于属性D的熵。

所述Split_Info(S,D)定义为：

设S 代表训练集，由k个样本组成；D是S的某个属性，有m个不同的取值，根据这些取值把S划分为m个子集，S _z表示第z个子集（z=1,2,…m），|S _z|表示子集S _z中的样本数量，那么：

；其中，lb=log₂。

一种云故障数据的决策系统，包括：

本发明的有益效果是：

1）基于传统故障分类，结合云计算环境的特点，从所属分类、来源、所属服务阶段、影响范围4个角度建立云故障的分类；

2）在C4.5算法的基础上进行改进，使新的算法适应云计算环境下软件故障的类别多样化特征，实现了针对云故障数据的分析和决策，最终产生一张决策图；

3）通过遍历2）得到的决策图，能够得出检测到的云故障列表。

附图说明

图1为本发明的流程图；

图2为本发明的结构框图；

图3为本发明的实施例3的云故障决策的示意图；

图4为本发明的实施例4的云故障决策的示意图；

图5为本发明的实施例5的云故障整合节点前决策示意图；

图6为本发明的实施例5的云故障决策的示意图。

具体实施方式

实施例1：如图1-6所示，一种云故障数据的决策方法，包括：

所述决策结果生成模块的具体步骤如下：

S1、训练集中云故障数据的处理：

如果训练集中的特征属性及类别属性值为空，则返回null；

其中，训练集的数据包括云故障的特征属性和类别属性；

特征属性指云计算环境下软件在运行中与故障相关的属性；

所述信息增益的定义过程为：

S针对C _i按照属性D划分的2个子集的熵的加权和为：

按照属性D把S分裂，得到的信息增益为：

。

所述信息增益率的定义为：

所述Split_Info(S,D)定义为：

；其中，lb=log₂。

如果为空子集，则生成标记属性值的节点；

如果为非空子集，则对每个非空子集执行步骤S1~S5的操作；

一种云故障数据的决策系统，包括：

实施例2：如图1-6所示，

文件操作模块中的文件打开模块可以选择和打开云故障数据文件，文件分析模块可以读取云故障数据文件并展示给用户，同时可以对该文件进行简单的分析，获得文件的特征属性和类别属性。

决策结果生成模块，其决策过程如下：

训练集中云故障数据处理。本实例中，训练集中存在特殊情况，即训练集中的特征属性及类别属性值为空，此时返回null，不产生决策图。

实施例3：如图1-6所示，如表1所示，为本实施例的云故障数据，包括6个特征属性和4个类别属性，6个特征属性分别是：MIPS（Microprocessor without Interlocked PipedStages，无内部互锁流水级的微处理器）使用率、存储器占用率、RAM（Random AccessMemory，随机存储器）使用率、宽带使用率、响应时间（单位：秒）和节点平均负载率。4个类别属性是指云计算中故障的四个分类角度，类别1对应按故障所属层次分类，类别2对应按故障来源分类，类别3对应按故障所属服务阶段分类，而类别4对应按故障影响范围分类。

打开云故障分析系统之后，文件操作模块中的文件打开模块可以实现云故障数据文件的选择和打开，文件分析模块可以读取云故障数据文件并展示给用户，同时可以对该文件进行简单的分析，获得文件的特征属性和类别属性。

决策结果生成模块，其决策过程如下：

训练集中云故障数据处理。本实例中，训练集中存在特殊情况，即训练集中每一个实例都属于相同的类别，在表1中，所有的实例都属于“IaaS层故障”、“主机故障”、“服务提供阶段故障”和“影响服务结果故障”，因此，创建4个节点，分别以“IaaS层故障”、“主机故障”、“服务提供阶段故障”和“影响服务结果故障”标记并返回这4个节点，得到如图3所示的云故障数据决策图，决策完成。

实施例4：如图1-6所示，如表2所示，为本实施例的云故障数据，包括6个特征属性和4个类别属性，6个特征属性分别是：MIPS（Microprocessor without Interlocked PipedStages，无内部互锁流水级的微处理器）使用率、存储器占用率、RAM（Random AccessMemory，随机存储器）使用率、宽带使用率、响应时间（单位：秒）和节点平均负载率。4个类别属性是指云计算中故障的四个分类角度，类别1对应按故障所属层次分类，类别2对应按故障来源分类，类别3对应按故障所属服务阶段分类，而类别4对应按故障影响范围分类。

决策结果生成模块，其决策过程如下：

训练集中云故障数据处理。本实例中，训练集中存在特殊情况，即6个特征属性中没有属性值来进一步划分训练集。此时创建4个节点，分别用训练集中多数实例所在的类标记。根据表2类别1的值，16个实例中，有13个实例都属于“IaaS层故障”，仅有2个实例属于“SaaS层故障”，1个实例属于“PaaS层故障”。因此，创建的第一个节点应该以“IaaS层故障”标记。同理，根据表2中类别2、类别3以及类别4中的值，另外的3个节点应该分别以“VM故障”、“服务查找阶段故障”和“影响服务结果故障”标记，最后返回这4个节点，得到如图4所示的云故障数据决策图，决策完成。

实施例5：如图1-6所示，如表3所示，为本实施例的云故障数据，主要包括6个特征属性和4个类别属性，6个特征属性分别是：MIPS（Microprocessor without InterlockedPiped Stages，无内部互锁流水级的微处理器）使用率、存储器占用率、RAM（Random AccessMemory，随机存储器）使用率、宽带使用率、响应时间（单位：秒）和节点平均负载率。4个类别属性是指云计算中故障的四个分类角度，类别1对应按故障所属层次分类，类别2对应按故障来源分类，类别3对应按故障所属服务阶段分类，而类别4对应按故障影响范围分类。

决策结果生成模块，其决策过程如下：

S1、训练集中云故障数据处理。本实例中，训练集中存在特殊情况，即训练集中每一个实例都属于一个相同的类别——类别3，所有的实例都显示属于“服务提供阶段故障”，故此时创建一个节点并以“服务提供阶段故障”标记。

S2、对云故障数据源进行预处理，将连续型的属性进行离散化。在本实例的训练集中，所有的特征属性都是连续型属性，因此，需要将6个特征属性都进行离散化处理，每次离散化的结果都将连续型属性划分为两个区间。

以“MIPS使用率”这一特征属性为例，训练集中共有16个实例，对于类别1共有3个不同的取值，那么可以得到训练集的熵为：

该属性为连续型属性，所以将16个实例中“MIPS使用率”的值按从小到大的顺序排序，得到{0.1，0.2，0.2，0.23，0.3，0.3，0.43，0.45，0.5，0.56，0.7，0.8，0.8，0.8，0.87，0.9}，其中不同的属性值一共有12个，则共有11个可能的候选分割阈值点，其序列为{0.15，0.215，0.265，0.365，0.44，0.475，0.53，0.63，0.75，0.835，0.885}。分别对这11个候选分割阈值点进行信息增益的计算。以第一个候选分割阈值点0.15对类别1的信息增益计算为例，通过0.15将训练集划分成两个集合S ₁（MIPS使用率<=0.15）和S ₂（MIPS使用率>0.15），其中S ₁中共有1个实例，对应的类别1只有一个值。S ₂中有15个实例，对于类别1，其中8个实例的值是“IaaS层故障”，5个实例的值是“SaaS层故障”，2个实例值为“PaaS层故障”，所以此时得到S ₁和S ₂的熵分别为：

训练集按照“MIPS使用率”划分的S ₁和S ₂的熵的加权和为：

此时得到的信息增益为：

按照以上计算过程计算所有分割阈值点的信息增益，直至找到信息增益最大的那个阈值，据此将连续型属性划分为两个区间。

S3、针对每一种分类，计算所有属性的信息增益率。由于所有的实例都属于类别3，因此不再对类别3进行其他操作，对于类别1、类别2和类别4，分别计算在这三个类别下6个特征属性的信息增益率，得到的信息增益率的值如表4所示：

S4、选择信息增益率最大的特征属性，创建节点并标记为该属性。通过计算，特征属性“带宽使用率”的信息增益率最大，因此，创建节点，并以“带宽使用率”标记。特征属性节点用圆圈表示，类别属性用方框表示。

S5、根据特征属性的取值划分相应的子集。按照步骤S2进行计算，“带宽使用率”共划分了两个分支，即“<=0.6”和“>0.6”，共得到两个子集S ₁和S ₂，S ₁代表了“宽带使用率<=0.6”的实例集合，S ₂代表了“宽带使用率>0.6”的实例集合。此时S ₁中的数据如表5所示，因为S ₁不为空，因此建立“<=0.6”的分支指向S ₁，并对S ₁执行步骤S1~ S5的操作。重新选择特征属性的分支阈值点，实现连续型属性的离散化，再针对类别1、类别2和类别4分别计算每个特征属性的信息增益率，找到信息增益率最大的特征属性作为下一个分裂属性，将S ₁再划分成两个子集，依次操作下去，直至某个新子集为空。

S ₂中的实例都属于“网络设备故障”，因此建立“>0.6”的分支，并创建新的节点以“网络设备故障”标记，此节点不再有分支。需要说明的是，在决策过程中，不可能所有的实例都能完全符合决策规则，允许错误率的存在。例如表3中的第8个实例，其“宽带使用率”的值为0.76，按照决策规则，应划分为“网络设备故障”，但表3中其类别2属于“VM故障”，这种情况表明此实例没有被正确决策。

S6、整合生成的节点。所有的属性都操作完成后，将生成如图5所示的决策图。查找是否有重复存在的节点，其中以“SaaS层故障”标记的节点存在重复，删除多余的重复节点，这些节点上的分支划到仅留的节点上。

经过以上过程，可以得到如图6所示的云故障数据决策图。

接下来检测结果显示模块将遍历图6的决策图，只要遍历到图中方框表示的节点时，计数器加1，并记录下该节点的值，直至整张图遍历完毕。最后将记录下的节点值显示给用户，即实例中能够被检测出来的云故障。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种云故障数据的决策方法，其特征在于：包括：

检测结果显示模块，用于显示云故障检测的结果：当遍历到决策图中类别属性表示的节点时，计数器加1，并记录下该节点的值，直至整张图遍历完毕，再将记录下的节点值显示给用户；

所述决策结果生成模块的具体步骤如下：

S1、训练集中云故障数据的处理：

如果训练集中的特征属性及类别属性值为空，则返回null；

如果训练集中每一个实例都属于相同的类别C₁～C₄，创建4个节点并返回，分别以C₁～C₄标记节点；

如果训练集中每一个实例都属于相同的类别C_i,1≤i≤4，创建节点并以C_i标记；

其中，训练集的数据包括云故障的特征属性和类别属性；

特征属性指云计算环境下软件在运行中与故障相关的属性；

类别属性C₁、C₂、C₃、C₄分别表示按故障所属层次分类、按故障来源分类、按故障所属服务阶段分类、按故障影响范围分类：

如果为空子集，则生成标记属性值的节点；

如果为非空子集，则对每个非空子集执行步骤S1～S5的操作；

2.根据权利要求1所述的云故障数据的决策方法，其特征在于：所述步骤S2中，若存在连续型的属性，则将其离散化为：对于所有连续属性，其分支都是2条，分支分别对应着“≤θ”和“＞θ”，θ代表分支阈值；把需要处理的样本或样本子集按照连续属性的大小从小到大进行排序，假设该属性对应的不同的属性值一共有N个，那么总共有N-1个可能的候选分支阈值点；其中，每个候选的分支阈值点的值为上述排序后的属性值链表中两两前后连续元素的中点，N-1个候选分支阈值点中使信息增益最大的点作为分支阈值。

3.根据权利要求2所述的云故障数据的决策方法，其特征在于：所述信息增益的定义过程为：

设S代表训练集，由k个样本组成；C_i,i＝1,2,3,4是S的类别属性，具有j个不同的取值为C_ji,j＝1,2,...,v；设属于类别C_ji的样本的个数为|S_j|，那么训练集S对于C_i的熵为：

其中p_j＝|S_j|/k是任意样本属于类别C_ji的概率；lb＝log₂，是求2为底的对数；

设D是S的某个连续型属性，根据离散化的过程，对于某一C_i,i＝1,2,3,4，将S划分为2个子集，S₁代表“≤θ”的集合，S₂代表“＞θ”的集合，|S_t|表示子集S_t中的样本数量，那么在分裂为2个子集之后，任意一个子集S_t,t＝1,2的熵为：

其中|S_jt|,j＝1,2,...,v是子集S_t中属于C_i的第j种类别的样本数量，|S_t|是子集S_t中的样本数量，|S_jt|/|S_t|表示S_t中的样本属于C_i中第j种类别的比例；

S针对C_i按照属性D划分的2个子集的熵的加权和为：

其中是子集S_t的权重，等于子集S_t中的样本数量除以S中的样本总数；

按照属性D把S分裂，得到的信息增益为：

Gain(S，D)＝I(S₁，S₂，...，S_v)-E(S，D)。

4.根据权利要求1所述的云故障数据的决策方法，其特征在于：所述信息增益率的定义为：

式中，Gain(S,D)指的是按照属性D把训练集S分裂后所得到的信息增益；Split_Info(S,D)为训练集S关于属性D的熵。

5.根据权利要求4所述的云故障数据的决策方法，其特征在于：所述Split_Info(S,D)定义为：

设S代表训练集，由k个样本组成；D是S的某个属性，有m个不同的取值，根据这些取值把S划分为m个子集，S_z表示第z个子集,z＝1,2,…m，|S_z|表示子集S_z中的样本数量，那么：

其中，lb＝log₂。

6.一种采用权利要求1所述决策方法的云故障数据的决策系统，其特征在于：包括：