CN107391365B

CN107391365B - 一种面向软件缺陷预测的混合特征选择方法

Info

Publication number: CN107391365B
Application number: CN201710547660.5A
Authority: CN
Inventors: 余啸; 刘进; 马子逸; 崔晓晖; 井溢洋; 张建升
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-07-06
Filing date: 2017-07-06
Publication date: 2020-10-13
Anticipated expiration: 2037-07-06
Also published as: CN107391365A

Abstract

本发明涉及一种面向软件缺陷预测的混合特征选择方法，首先从原始特征集中选择最相关的m个特征，丢弃掉不相关特征；随后根据特征与特征之间的关联性，对这m个特征进行聚类，将相互之间冗余度高的特征聚类到同一个簇中。最后利用包裹式特征选择的思想，从当前特征子集中删除每个簇中一个最不相关的特征，形成新的特征子集，然后用准确率这个评价函数对该特征子集进行评价，本发明得到的最终特征子集既排除了不相关特征，又降低了特征之间的冗余度。同时，从不同簇里删除一个最不相关的特征形成新的特征子集，可以有效减少被搜索的特征子集的数量。

Description

一种面向软件缺陷预测的混合特征选择方法

技术领域

本发明属于特征选择领域，特别是涉及一种面向软件缺陷预测的混合特征选择方法。

背景技术

(1)软件缺陷预测技术

软件缺陷是计算机软件或程序中存在的某个破坏正常运行能力的问题、错误以及隐藏的功能缺陷。随着软件系统在工程应用中的不断扩大，软件缺陷导致的经济损失日益增加。软件缺陷预测技术是软件质量保证中的一项重要技术。软件缺陷预测通过分析软件历史仓库，建立缺陷预测模型，对新的软件模块进行缺陷预测。对预测出潜在缺陷的新的软件模块分配更多的测试资源，可以达到合理分配测试和维护资源的目的。目前为止，已有很多高效的软件缺陷方法被提出。

软件缺陷预测过程的第一步是收集和标注软件模块。一个软件模块能够被标记为有缺陷和无缺陷。第二步，抽取软件模块的度量属性。到目前为止，研究人员从不同的角度提出了许多软件度量属性，而与软件缺陷预测密切相关的度量属性主要有代码度量、McCabe度量和Halstead度量三种。代码度量是最直接、应用最普遍的度量属性。通过对程序进行简单的计数，我们可以得到相关代码的度量值。它包含总行数(LOC)、空白行数目(LOCb)、注释行数目(LOCc)、代码行数目(LOCe)和代码和注释总数目(LOCec)。软件复杂性通过程序结构的复杂性表现出来，而程序结构的复杂性主要指的是模块内部程序的复杂性。MaCabe度量正是模块内部程序的复杂性。它由三种度量组成，分别为环形复杂度(Cyclomatic Complexity)、基本复杂度(Essential Complexity)和设计复杂度(DessignComplexity)。Halstead度量不仅度量了程序长度，还描述了程序的最小实现和实际实现之间的关系，并据此阐述程序语言的等级高低。Halstead度量方法充分考虑了程序中出现的算子和操作数，它包括软件长度(N)、容量(V)、级别(L)、难度(D)、工作量(E)、时间(T)、误差估计(B)、程序消息(I)等度量。第三步，建立缺陷预测模型，缺陷预测模型本质上属于模式识别的范畴。而缺陷预测模型的建立过程就是通过一定的机器学习算法来搭建模型结构并确定度量属性之间依赖强度的过程，即为模型的结构学习和参数学习过程。第四步，通过训练好的模型预测待预测的软件模块是否有缺陷，由于建立好的缺陷预测模型可以通过自身模型结构和模型参数来量化描述度量属性与预测结果之间的因果关系，这样给定一个软件模块的度量属性数据，使用训练好的预测模型就可以得到该模块是否存在缺陷，即完成软件缺陷预测的过程。

(2)朴素贝叶斯模型

朴素贝叶斯是机器学习算法的一种，由于其算法原理较简单，且计算量不大，所以应用较为广泛。朴素贝叶斯算法的工作流程如下：

设D＝{X₁,X₂,…,X_k}是训练数据集，X_i＝{x_i1,x_i2,…,x_in}是一个实例，每一个实例由n个特征来描述。假定有m个类C₁,C₂,…,C_m。给出一个待预测的实例X，朴素贝叶斯方法将X归结为后验概率最高的一个类。根据贝叶斯定理

由于P(X)对所有类为常数，所以只需要P(X|C_i)P(C_i)最大即可。给定元组的类标号，假定属性值在满足条件的情况下相互独立(即属性之间无依赖关系)，于是，

其中x_k表示元组X在属性A_k的值。因此该步即为朴素贝叶斯算法的训练步，需要计算每个属性的均值μ和标准差σ。为了预测待预测的实例X的类标号，需要对每个类C_i计算P(X|C_i)P(C_i)。朴素贝叶斯分类方法预测X属于类C_i，当且仅当P(C_i|X)>P(C_j|X)1≤j≤m,j≠i。

(3)特征选择技术

在构建软件缺陷预测模型时，与软件缺陷相关的大量特征中不可避免会产生冗余特征和不相关特征。冗余特征指的是该特征所包含的信息能从其他特征中推演出来的特征。无关特征则是对采用的机器学习算法不能提供任何的帮助的特征。这些特征的存在会严重影响软件缺陷预测模型的准确率，因此，使用特征选择方法去除这类特征是十分必要的。目前已有一些研究者将特征选择的方法应用到软件缺陷预测中。

目前特征选择的主流方法有两类：基于过滤式的特征选择方法和基于包裹式的特征选择方法。基于过滤式的特征选择方法计算每个特征的重要性，并指定一个阈值，重要性大于阈值的特征被选取。基于过滤式的方法先对软件缺陷数据集进行特征选择，之后才训练学习器，特征选择过程与后续工作无关，所以计算开销小，但精准度不尽人意。基于包裹式的特征选择方法与基于过滤式的方法相反，首先训练学习器，并搜索特征集，得到大量的特征子集，然后对每个特征子集进行效果评价，最后筛选出一个效果最好的特征子集。这种方式虽然提高了精准度，但同时也大大增加了计算开销。因此本发明结合过滤式特征选择方法和包裹式特征选择方法的优点，提出了一种面向软件缺陷预测的混合特征选择方法。

发明内容

本发明提供的技术方案是一种面向软件缺陷预测的混合特征选择方法，包括以下步骤：

步骤1，挖掘软件历史数据，从中抽取出有用的软件模块。软件模块粒度可根据实际应用场景，可设置为文件、包、类或函数。然后标记这些软件模块的类标号：标记有缺陷的软件模块的类标号为Y，标记无缺陷的软件模块的类标号为N。

步骤2，提取软件模块中与软件缺陷有关的特征，提取了19个度量属性：加权方法数(wmc)，继承树深度(dit)，孩子数(noc)，对象类之间的耦合度(cbo)，类的响应(rfc)，内聚缺乏度(lcom)，传入耦合(ca)，传出耦合(ce)，公开方法数(npm)，代码行数(loc)，数据访问度量(dam)，聚合度量(moa)，功能抽象度量(mfa)，方法间的内聚度(cam)，继承耦合(ic)，方法间耦合(cbm)，平均方法复杂度(amc)，最大McCabe环形复杂度(max_cc)，平均McCabe环形复杂度(avg_cc)。这19个特征形成了原始的特征集。

定义提取模块特征和标记软件模块是否有缺陷后形成了包含有n个软件模块的软件缺陷数据集D。

步骤3，利用互信息计算原始特征集中每个特征与类标号之间的相关性，对原始特征集中的特征进行排序，选出相关性最高的m个特征。互信息的计算公式为

其中I_i为特征f_i与类标号之间的相关性，P(f_ij,Y)是类标号为Y且特征f_i的特征值为f_ij的软件模块的数目与类标号为Y的软件模块的数目的比值，P(f_ij)是特征f_i的特征值为f_ij的软件模块的数目与软件缺陷数据集中包含的软件模块的数目的比值，P(f_ij,N)是类标号为N且特征f_i的特征值为f_ij的软件模块的数目与类标号为N的软件模块的数目的比值，P(Y)是类标号为Y的软件模块的数目与软件缺陷数据集中包含的软件模块的数目的比值，P(N)是类标号为N的软件模块的数目与软件缺陷数据集中包含的软件模块的数目的比值。

步骤4，根据特征之间的关联性利用K-means算法对步骤3中选出的相关性最大的m个特征进行聚类，形成k个簇，具体包括：

步骤4.1，利用互信息计算特征f_i与特征f_j之间的关联性。其计算公式为

其中P(f_im,f_jm)为特征f_j的特征值为f_jm且特征f_i的特征值为f_im的软件模块数目与软件缺陷数据集中包含的软件模块的数目之比，P(f_im)为特征f_i的特征值为f_im的软件模块数目与软件缺陷数据集中包含的软件模块的数目之比，P(f_jm)为特征f_j的特征值为f_jm的软件模块数目与软件缺陷数据集中包含的软件模块的数目之比。I_ij的值越接近于1，代表特征f_i和特征f_j之间的关联性越高。

步骤4.2，首先从m个相关性最高的特征中随机的选择k个特征，每个特征代表一个簇的初始中心。对于剩下的(m-k)个特征，根据步骤4.1中计算的特征关联性，将其分配到最相近的簇中。

步骤4.3，迭代地改变簇内变差，即对于每个簇，使用上次迭代分配到该簇的特征，计算新的均值，使用更新后的均值作为新的簇中心，重新分配所有特征。

步骤4.4，继续迭代，直到分配稳定，分配稳定指的是经过当前迭代次数W后形成的簇与前一迭代次数W-1形成的簇相同。

步骤5，基于包裹式特征选择，从当前特征子集中删除每个簇中一个最不相关的特征，形成新的特征子集，然后用准确率这个评价函数对该特征子集进行评价。若删除每个簇中一个最不相关的特征后形成的特征子集的准确率比之前的特征子集的准确率更大，则将该特征子集保留，继续从当前特征子集中删除每个簇中一个最不相关的特征，形成新的特征子集。否则停止迭代，上一次迭代产生的特征子集即为最终的特征子集。

步骤5.1，基于步骤3中选出的相关性最高的m个特征组成的特征子集训练出朴素贝叶斯分类模型，然后利用该模型对软件缺陷数据集D中n个软件模块进行预测，计算出准确率。

步骤5.2，从当前特征子集中删除每个簇中最不相关的一个特征，形成新的特征子集，基于这个特征子集训练出朴素贝叶斯分类模型，然后利用该模型对软件缺陷数据集D中n个软件模块进行预测，计算出准确率。

步骤5.3，如果基于当前产生的特征子集上训练得出的朴素贝叶斯分类模型的准确率高于基于上一轮迭代产生的特征子集上训练得出的朴素贝叶斯分类模型的准确率，则说明当前产生的特征子集比上一轮迭代产生的特征子集更有用。因此，则保留当前产生的特征子集，然后重复步骤5.2。如果当前产生的特征子集上训练得出的朴素贝叶斯分类模型的准确率低于上一轮迭代产生的特征子集上训练得出的朴素贝叶斯分类模型的准确率，则说明上一轮迭代产生的特征子集比当前产生的特征子集更有用，则停止迭代，得到最终的特征子集。

本发明具有如下优点：设计了合理的特征选择策略，该方法首先利用过滤式特征选择的思想，从原始特征集中选择最相关的m个特征，丢弃掉不相关特征，避免了不相关特征对特征聚类产生影响，同时缩短了聚类所需的时间。随后根据特征与特征之间的关联性，对这m个特征进行聚类，将相互之间冗余度高的特征聚类到同一个簇中。最后基于包裹式特征选择，从当前特征子集中删除每个簇中一个最不相关的特征，形成新的特征子集，然后用准确率这个评价函数对该特征子集进行评价。若删除每个簇中一个最不相关的特征后形成的特征子集的预测误差比之前的特征子集的预测误差更小，则将该特征子集保留，继续从当前特征子集中删除每个簇中一个最不相关的特征，形成新的特征子集。否则停止迭代，上一次迭代产生的特征子集即为最终的特征子集。这样得到的最终特征子集既排除了不相关特征，又降低了特征之间的冗余度。同时，从不同簇里删除一个最不相关的特征形成新的特征子集，可以有效减少被搜索的特征子集的数量。

附图说明

图1本发明的流程图。

图2本发明实施例的结果图。

具体实施方式

本发明设计的一种面向软件缺陷预测的特征选择方法具体实现过程如下：

步骤2，提取软件模块中与软件缺陷有关的特征，这些特征形成原始的特征集。为了方便阐述，本实施例假设提取了10个特征{f₀,f₁,f₂,f₃,f₄,f₅,f₆,f₇,f₈,f₉}。

在经过了步骤1-2后，本实施例假设在提取模块特征和标记软件模块的是否有缺陷后形成了包含有10个软件模块的软件缺陷数据集D：

X₁＝{3.0,1.0,0.0,8.0,14.0,3.0,3.0,5.0,3.0,2.0,‘Y’},

X₂＝{13.0,1.0,0.0,1.0,17.0,64.0,0.0,1.0,12.0,0.917,‘N’}，

X₃＝{4.0,1.0,0.0,4.0,4.0,6.0,2.0,2.0,4.0,2.0,‘N’},

X₄＝{10.0,1.0,0.0,6.0,31.0,1.0,0.0,6.0,9.0,0.5,‘Y’},

X₅＝{7.0,1.0,0.0,6.0,19.0,7.0,0.0,6.0,6.0,0.75,‘N’}，

X₆＝{38.0,1.0,0.0,30.0,155.0,485.0,0.0,30.0,34.0,0.9,‘Y’},

X₇＝{25.0,1.0,0.0,13.0,74.0,0.0,0.0,13.0,23.0,0.444,‘Y’},

X₈＝{13.0,1.0,0.0,19.0,56.0,54.0,0.0,19.0,11.0,0.9,‘Y’}，

X₉＝{7.0,4.0,4.0,48.0,12.0,19.0,47.0,1.0,6.0,0.94,‘N’},

X₁₀＝{7.0,1.0,0.0,4.0,7.0,21.0,2.0,2.0,7.0,2.0,‘Y’}。

其中I_i为特征f_i与类标号之间的相关性，P(f_ij,Y)是类标号为Y且特征f_i的特征值为f_ij的软件模块的数目与类标号为Y的软件模块的数目的比值，P(f_ij)是特征f_i的特征值为f_ij的软件模块的数目与软件缺陷数据集中包含的软件模块的数目的比值，P(f_ij,N)是类标号为N且特征f_i的特征值为f_ij的软件模块的数目与类标号为N的软件模块的数目的比值，P(Y)是类标号为Y的软件模块的数目与软件缺陷数据集中包含的软件模块的数目的比值，P(N)是类标号为N的软件模块的数目与软件缺陷数据集中包含的软件模块的数目的比值。本实施例中，计算得I₀＝0.27,I₁＝0.20,I₂＝0.20,I₃＝0.29,I₄＝0.45,I₅＝0.45,I₆＝0.17,I₇＝0.31,I₈＝0.47,I₉＝0.38。本实施例取m＝7,故从原始的特征集中选择出相关性最大的7个特征为f₀,f₃,f₄,f₅,f₇,f₈,f₉。

其中P(f_im,f_jm)为特征f_j的特征值为f_jm且特征f_i的特征值为f_im的软件模块数目与软件缺陷数据集中包含的软件模块的数目之比，P(f_im)为特征f_i的特征值为f_im的软件模块数目与软件缺陷数据集中包含的软件模块的数目之比，P(f_jm)为特征f_j的特征值为f_jm的软件模块数目与软件缺陷数据集中包含的软件模块的数目之比。I_ij的值越接近于1，代表特征f_i和特征f_j之间的关联性越高。在本实施例中，计算得特征f₀,f₃,f₄,f₅,f₇,f₈,f₉两两之间的关联性为：I₀₃＝0.81，I₀₄＝0.89，I₀₅＝0.89，I₀₇＝0.76，I₀₈＝0.92，I₀₉＝0.74，I₃₄＝0.94，I₃₅＝0.94，I₃₇＝0.96，I₃₈＝0.90，I₃₉＝0.88，I₄₅＝1.00，I₄₇＝0.90，I₄₈＝0.97，I₄₉＝0.89，I₅₇＝0.90，I₅₈＝0.97，I₅₉＝0.89，I₇₈＝0.86，I₇₉＝0.84，I₈₉＝0.85。

本实施例中取k＝3，随机地选择了f₄,f₇和f₉三个特征作为初始的簇中心，根据特征之间的关联性将f₀，f₅和f₈分配到了特征f₄所在的簇中，f₃分配到了特征f₇所在的簇。然后迭代地改变簇内变差，直到分配稳定，最终本实施例将这7个特征划分为三个簇，它们分别是C₀＝{f₄,f₈}，C₁＝{f₀,f₃,f₇}，C₂＝{f₅,f₉}。

在本实施例中，基于步骤3中选出的相关性最高的7个特征组成的特征子集{f₀,f₃,f₄,f₅,f₇,f₈,f₉}训练出朴素贝叶斯分类模型，假设训练出的朴素贝叶斯分类模型对软件模块X₁，X₃，X₅预测错误，其它7个软件模块预测正确，即准确率为70％。从当前特征子集{f₀,f₃,f₄,f₅,f₇,f₈,f₉}中删除这三个簇中最不相关的一个特征，即删除C₀这个簇中的特征f₄，删除C₁这个簇中的特征f₀，删除C₂这个簇中的特征f₉，得到新的当前特征子集为{f₃,f₅,f₇,f₈}，基于这个特征子集训练出朴素贝叶斯分类模型，假设训练出的朴素贝叶斯分类模型对软件模块X₁，X₃预测错误，其它8个软件模块预测正确，即准确率为80％，说明当前产生的特征子集比上一轮迭代产生的特征子集更有用，因此保留当前产生的特征子集，重复步骤5.2。从当前特征子集{f₃,f₅,f₇,f₈}中删除这三个簇中最不相关的一个特征，即删除C₀这个簇中的特征f₈，删除C₁这个簇中的特征f₃，删除C₂这个簇中的特征f₅，得到新的当前特征子集为{f₇}，基于这个特征子集训练出朴素贝叶斯分类模型，假设训练出的朴素贝叶斯分类模型对软件模块X₁，X₃，X₅，X₇，X₉预测错误，其它5个软件模块预测正确，即准确率为50％，说明上一轮迭代产生的特征子集{f₃,f₅,f₇,f₈}比当前产生的特征子集{f₇}更有用，则停止迭代，得到最终的特征子集{f₃,f₅,f₇,f₈}。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。本说明书中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种面向软件缺陷预测的混合特征选择方法，其特征是，包括以下步骤：

步骤1，挖掘软件历史数据，从中抽取出有用的软件模块；软件模块粒度根据实际应用场景，设置为文件、包、类或函数；然后标记这些软件模块的类标号：标记有缺陷的软件模块的类标号为Y，标记无缺陷的软件模块的类标号为N；

步骤2，提取软件模块中与软件缺陷有关的特征，提取了19个度量属性：加权方法数(wmc)，继承树深度(dit)，孩子数(noc)，对象类之间的耦合度(cbo)，类的响应(rfc)，内聚缺乏度(lcom)，传入耦合(ca)，传出耦合(ce)，公开方法数(npm)，代码行数(loc)，数据访问度量(dam)，聚合度量(moa)，功能抽象度量(mfa)，方法间的内聚度(cam)，继承耦合(ic)，方法间耦合(cbm)，平均方法复杂度(amc)，最大McCabe环形复杂度(max_cc)，平均McCabe环形复杂度(avg_cc)；这19个特征形成了原始的特征集；

定义提取模块特征和标记软件模块是否有缺陷后形成了包含有n个软件模块的软件缺陷数据集D；

步骤3，利用互信息计算原始特征集中每个特征与类标号之间的相关性，对原始特征集中的特征进行排序，选出相关性最高的m个特征；互信息的计算公式为

其中I_i为特征f_i与类标号之间的相关性，P(f_ij,Y)是类标号为Y且特征f_i的特征值为f_ij的软件模块的数目与类标号为Y的软件模块的数目的比值，P(f_ij)是特征f_i的特征值为f_ij的软件模块的数目与软件缺陷数据集中包含的软件模块的数目的比值，P(f_ij,N)是类标号为N且特征f_i的特征值为f_ij的软件模块的数目与类标号为N的软件模块的数目的比值，P(Y)是类标号为Y的软件模块的数目与软件缺陷数据集中包含的软件模块的数目的比值，P(N)是类标号为N的软件模块的数目与软件缺陷数据集中包含的软件模块的数目的比值；

步骤4.1，利用互信息计算特征f_i与特征f_j之间的关联性；其计算公式为I_ij＝I(f_i；

其中P(f_im,f_jm)为特征f_j的特征值为f_jm且特征f_i的特征值为f_im的软件模块数目与软件缺陷数据集中包含的软件模块的数目之比，P(f_im)为特征f_i的特征值为f_im的软件模块数目与软件缺陷数据集中包含的软件模块的数目之比，P(f_jm)为特征f_j的特征值为f_jm的软件模块数目与软件缺陷数据集中包含的软件模块的数目之比；I_ij的值越接近于1，代表特征f_i和特征f_j之间的关联性越高；

步骤4.2，首先从m个相关性最高的特征中随机的选择k个特征，每个特征代表一个簇的初始中心；对于剩下的(m-k)个特征，根据步骤4.1中计算的特征关联性，将其分配到最相近的簇中；

步骤4.3，迭代地改变簇内变差，即对于每个簇，使用上次迭代分配到该簇的特征，计算新的均值，使用更新后的均值作为新的簇中心，重新分配所有特征；

步骤4.4，继续迭代，直到分配稳定，分配稳定指的是经过当前迭代次数W后形成的簇与前一迭代次数W-1形成的簇相同；

步骤5，基于包裹式特征选择，从当前特征子集中删除每个簇中一个最不相关的特征，形成新的特征子集，然后用准确率评价函数对该特征子集进行评价；若删除每个簇中一个最不相关的特征后形成的特征子集的准确率比之前的特征子集的准确率更大，则将该特征子集保留，继续从当前特征子集中删除每个簇中一个最不相关的特征，形成新的特征子集；否则停止迭代，上一次迭代产生的特征子集即为最终的特征子集；

步骤5.1，基于步骤3中选出的相关性最高的m个特征组成的特征子集训练出朴素贝叶斯分类模型，然后利用该模型对软件缺陷数据集D中n个软件模块进行预测，计算出准确率；

步骤5.2，从当前特征子集中删除每个簇中最不相关的一个特征，形成新的特征子集，基于这个特征子集训练出朴素贝叶斯分类模型，然后利用该模型对软件缺陷数据集D中n个软件模块进行预测，计算出准确率；

步骤5.3，如果基于当前产生的特征子集上训练得出的朴素贝叶斯分类模型的准确率高于基于上一轮迭代产生的特征子集上训练得出的朴素贝叶斯分类模型的准确率，则说明当前产生的特征子集比上一轮迭代产生的特征子集更有用；因此，则保留当前产生的特征子集，然后重复步骤5.2；如果当前产生的特征子集上训练得出的朴素贝叶斯分类模型的准确率低于上一轮迭代产生的特征子集上训练得出的朴素贝叶斯分类模型的准确率，则说明上一轮迭代产生的特征子集比当前产生的特征子集更有用，则停止迭代，得到最终的特征子集。