CN111338950A

CN111338950A - 一种基于谱聚类的软件缺陷特征选择方法

Info

Publication number: CN111338950A
Application number: CN202010116211.7A
Authority: CN
Inventors: 严亮; 许嘉熙; 艾骏
Original assignee: Beijing High Quality System Technology Co ltd; Beihang University
Current assignee: Beijing High Quality System Technology Co ltd; Beihang University
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-26

Abstract

本发明公开了一种基于谱聚类的软件缺陷特征选择方法，包括如下步骤：导入待进行特征选择的软件缺陷数据集，并提取软件缺陷预测特征集；剔除软件缺陷预测特征集中的无关特征；建立特征间相关性矩阵；基于谱聚类对特征集进行聚类分析，得到若干组高内聚低耦合的特征簇；计算出特征簇中每个特征的质量系数，依照特征质量系数对特征进行排序，将排序结果作为特征前项选择的搜索顺序，并选择机器学习性能最佳的特征子集作为软件缺陷特征集。该方法解决了主流特征选择方法无法兼顾无关特征和冗余特征排除、特征选择算法性能随特征数量增加而迅速下降、选择出的特征子集通用性不强、用于预测效果不好等缺陷。

Description

一种基于谱聚类的软件缺陷特征选择方法

技术领域

本发明涉及软件缺陷预测及软件可靠性技术领域，特别涉及一种基于谱聚类的软件缺陷特征选择方法。

背景技术

21世纪以来，软件在社会生活中的地位日益提升，无处不在，已经不仅仅局限于工程、科研、经济等专业领域，更是走进了千家百户，成为了人们生活中举足轻重的工具。随着软件系统规模日益增加，复杂程度呈几何式提升，软件的缺陷也与日俱增，而软件缺陷导致的影响也辐射到了人民生活的方方面面。

软件缺陷数据是软件可靠性相关研究和应用的基础。长期以来，软件可靠性领域使用的缺陷数据主要来自于有限的软件测试数据和使用中故障的分析数据。虽然这类缺陷数据相对完整，但是缺陷数据量太少、覆盖面不足、涉及软件类型有限，已经成为了软件可靠性研究和应用的瓶颈。互联网的出现，使我们进入了大数据的时代，目前最大的开源项目网站GitHub.com已经拥有了数千万个开源软件项目，GitHub的发展使我们利用互联网获得海量的软件缺陷数据成为了可能。但是GitHub并非为软件缺陷采集而设立，其设立的主要目的还是为了实现开源软件的协同开发和共享，因此直接从中获得有价值的缺陷信息并非易事，主要面临着缺陷信息不完整、描述不规范、缺陷代码不突出、开发分支过多、开发代码和缺陷修改代码混杂等多种不利因素。

在软件的全寿命周期当中，如何提高软件的质量，对软件的缺陷进行识别和修复已经成为一个重要的研究命题。由于相当一部分的软件缺陷有其独有特征，根据历史缺陷信息，可以提取出相应的软件缺陷代码特征及其相关的上下文环境特征，在出现软件失效之前尽早地识别软件可能存在的影响其可靠性、安全性、可用性、兼容性等软件质量特性的缺陷模块，从而达到缺陷预测和预防的效果。

随着机器学习技术和深度学习技术的出现和不断推进，软件缺陷预测技术从一开始的人工学习为主逐步转向以机器学习作为重要工具。由于学习能力和数据处理能力的大幅度提高，学习更加庞大的软件缺陷数据集，从而利用机器学习中的关联规则、分类器算法、聚类算法等对软件的缺陷特征进行分析和预测成为了主流趋势。

高维数据给机器学习模型带来了挑战，特征集中往往存在着冗余、不相关特征，特征选择工程可以提升软件缺陷预测模型的准确性，降低算法的时间和空间复杂度，提高模型解释力。目前主流的特征选择方法有两种：过滤式特征选择方法按照内部特征或者相关性对各个特征进行评分，设定阈值或者选择阈值的个数选择特征。包裹式特征选择方法对于每一个的特征子集，均训练一个分类器，根据分类器的性能对该特征子集进行评价，在选择分类器性能最好对应的最优特征子集。

然而，当前主流的这两种特征选择方法都有其显著的缺陷。由于过滤式特征选择方法的评价标准独立于特定的学习算法，所选分类准确率较低，另外过滤式特征选择方法没有考虑特征内部的相关性，如果两个内部关联性较强的特征与软件缺陷的相关性都比较强，过滤式特征选择方法产生的特征子集将会存在很强的冗余信息，对于预测性能和精度都有一定的影响。包裹式特征选择方法特征通用性不强，当改变学习算法时，需要针对该学习算法重新进行特征选择，另外子集空间随着特征数量的增加呈指数爆炸，算法性能随之下降。

因此，如何结合特征内部相关性和特征-缺陷相关性，降低特征数量带来指数爆炸的影响，实现一种通用性高、准确率指标好的软件缺陷特征选择方法称为了软件缺陷预测领域需要解决的问题。

发明内容

本发明的目的是提供一种基于谱聚类的软件缺陷特征选择方法，以解决目前软件缺陷预测领域中数据维度过高，包含大量冗余特征和缺陷不相关特征等问题及其带来的维度灾难问题。本发明提供的方法能够解决主流特征选择方法中存在的去冗余特征效果不强、对机器学习算法通用性不强、难以考虑特征间相关性等问题。

为此，本发明技术方案如下：

一种基于谱聚类的软件缺陷特征选择方法，包括如下步骤：

1)导入待进行特征选择的软件缺陷数据集，从该数据集中提取所有特征作为软件缺陷预测特征集；

2)针对软件缺陷预测特征集中的每一个特征建立单变量逻辑回归模型，分析该特征与软件缺陷分布的相关性，并将无关特征从特征集中剔除；

3)对步骤2)删除无关特征后特征集中的特征两两计算Pearson相关系数，并根据Pearson相关系数建立特征间相关性矩阵；

4)根据得到的特征间的相关性矩阵W，基于谱聚类对特征集进行聚类分析，得到若干组高内聚低耦合的特征簇；

5)计算出特征簇中每个特征的质量系数，依照特征质量系数对特征进行排序，将排序结果作为特征前项选择的搜索顺序，并选择机器学习性能最佳的特征子集作为软件缺陷特征集。

进一步的，所述的步骤1)中的软件缺陷数据集中的数据均设有缺陷标记。

进一步的，所述的步骤2)中无关特征剔除的方法为：对每个特征进行单变量逻辑回归分析，计算每个特征比值比OR，将OR值属于特定区间的特征从特征集中删除。

进一步的，所述的OR值特定区间为大于0.67且小于1.5。

进一步的，所述的步骤3)中特征间相关性矩阵W为对称矩阵，对角线上的元素均为1，相关性矩阵中的第i行第j列的元素W_ij是第i个特征和第j个特征的Pearson相关系数。

进一步的，所述的步骤4)中特征簇的形成方法为：

4-1)根据特征间相关性矩阵W计算度矩阵D；

4-2)根据W和D计算未标准化的拉普拉斯矩阵L，L的计算公式为：

L＝D-W；

4-3)计算标准化的拉普拉斯矩阵L_rw。标准化的拉普拉斯矩阵L_rw的计算公式为：

L_rw＝D^-1L＝I-D^-1W

4-4)计算L的前k个广义特征向量u₁…,u_k，即L_rw的前k个特征向量，定义U∈R_nxk为以特征向量u₁…,u_k为列向量的矩阵，使y_i∈R_k为U的第i行行向量，i＝1,…,n；

4-5)通过KMeans聚类算法将点(y_i)_i＝1,…,n进行聚类，得到聚类簇C₁,...,C_k；

4-6)对步骤4-5)中得到的聚类结果，计算平均轮廓系数和内聚度，对求取到的每一组平均轮廓系数和内聚度求积，取积最大的一组结果的聚类簇数K作为最终的聚类簇数，将该组聚类的特征子集作为聚类结果输出。

进一步的，所述的步骤5)中特征质量系数的计算方法为：

Qi＝FTCi/(exp(θ(FFCi-0.8))+1)

其中，其中θ为缩放系数，FTCi为特征-类标度量值，FFCi为特征间度量值。

进一步的，所述的特征间度量值FFCi的计算方法为：

FFCi＝cor(fi,corej)

其中，Corej为特征fi所在的簇的簇心。

进一步的，所述的特征-类标度量值FTCi的计算方法为：

FTCi＝cor(fi,target)

其中，target为缺陷情况。

进一步的，所述的步骤5)中特征前项选择的方法为：

从特征序列中依次选择一个特征加入特征子集，若软件缺陷预测的机器学习模型的AUC指标值提高，则保留该特征，否则舍弃此特征，按次序选择下一个特征，直至排序最后的特征，返回特征子集。

与现有技术相比，该基于谱聚类的软件缺陷特征选择方法利用逻辑回归模型实现了无关特征剔除，利用基于Pearson相关系数的特征间相关性矩阵作为依据进行谱聚类分析，得到若干簇相关性较为紧密的特征簇用于减少冗余特征，最后使用特征前项选择的方法选择出最优特征子集。该方法解决了主流特征选择方法无法兼顾无关特征和冗余特征排除、特征选择算法性能随特征数量增加而迅速下降、选择出的特征子集通用性不强、用于预测效果不好等缺陷。

附图说明

图1为本发明提供的基于谱聚类的软件缺陷特征选择方法的示意图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

本发明提供一种基于谱聚类的软件缺陷特征选择方法，谱聚类是一种基于图论的聚类方法，具体将每个特征都作为图中的一个节点，将特征间的相关性作为节点边的权重，因此所构成的是一个完全图。相关性比较强的两个点之间边的相关性较大，相关性比较弱的两个点之间边的相关性较小。尝试将整个图划分为若干个子图，使得每个子图的内部权重最大，子图间的边的权重最小，以获得聚类的结果。通过使用谱聚类方法可以有效获得特征间相关性高的特征用于排除冗余特征，提高软件缺陷数据质量，实现数据降维。具体包括如下步骤：

1)导入待进行特征选择的软件缺陷数据集，并从该数据集中提取所有特征作为软件缺陷预测特征集；

步骤1-1：导入待进行特征选择的软件缺陷数据集。由于要使用逻辑回归模型，因此要求数据集中的数据都有缺陷标记(以一条数据代表一个模块为例，所述缺陷标记指标记该模块是否是一个缺陷模块)；

步骤1-2：将数据集向量化并提取特征集。软件缺陷特征的样本空间X为有限特征的非空集合，样本x是包含若干特征的特征向量，表示为{x₁,x₂,…,x_n}，其中n为特征的个数，x_i为模块的各个特征值。Y＝{y₁,y₂,…,y_m,}，m为标记的类别数。对于缺陷预测研究，Y＝{0,1}，其中Y＝1表示模块存在缺陷，Y＝0表示模块中没有缺陷。

步骤2-1：对软件缺陷预测特征集中的样本进行逻辑回归拟合。当存在缺陷时，多变量逻辑回归模型为：

其中θ_i(i＝1,2,..,n)是通过对模型进行似然最大化得到的回归系数，Pr(Y＝1|x₁,x₂,…,x_n)代表模块在样本{x₁,x₂,…,x_n}存在缺陷的条件概率，当概率大于某一阈值时，即认为该模块为缺陷模块。当软件模块的特征数为1时，多变量逻辑回归可以转化为单变量逻辑回归。

步骤2-2：对每个特征进行单变量逻辑回归分析，计算每个特征比值比OR，OR是逻辑回归模型常用的指标，反映了自变量和因变量之间的关联强度，OR>1表示该特征与软件缺陷呈正相关，OR<1表示该特征与软件缺陷呈负相关，OR＝1表示特征与软件缺陷无关。OR的计算方法为：

对于特征x的任意两个取值x1和x2：

OR的计算公式为：

实际上，用于拟合逻辑回归模型分析的软件(SPSS、Python等)都已附带了自动计算OR值的功能。

步骤2-3：根据步骤2-2计算得到的OR值剔除无关变量。软件特征集中的特征与软件缺陷大部分呈弱相关，将当OR值属于区间(0.67,1.50)的特征视作与软件缺陷无明显相关性并将其从特征集中删除。

步骤3-1：输入待进行特征间相关性分析的特征集和数据集。所述特征集是经过步骤2)的无关特征剔除的。同时所述数据集中也移除了无关特征的列。

步骤3-2：对每个特征两两计算Pearson相关系数。Pearson相关系数评估两个连续变量之间的线性关系。当一个变量中的变化与另一个变量中的成比例变化相关时，这两个变量具有线性关系。对于两个变量x和y，x_i和y_i是第i个样本中的x和y的值。Pearson相关系数的计算公式：

步骤3-3：建立特征间相关性矩阵W。相关性矩阵中的第i行第j列的元素W_ij是步骤2-2计算得到的第i个特征和第j个特征的Pearson相关系数。显然，相关性矩阵是一个对称矩阵，其对角线上的元素均为1。

4)根据得到的特征间的相关性矩阵W，基于谱聚类对特征集进行聚类分析，得到若干组高内聚低耦合的特征簇；具体包括如下步骤：

步骤4-1：输入特征间相关型矩阵W。

步骤4-2：根据相关性矩阵W计算度矩阵D。每个特征和其他所有特征权重之和为：D_i＝∑W_ij；D_i组成一个对角矩阵，即度矩阵D。

步骤4-3：根据特征间相关型矩阵W和度矩阵D计算未标准化的拉普拉斯矩阵L，L的计算公式为：L＝D-W。

步骤4-4：计算标准化的拉普拉斯矩阵L_rw，标准化的拉普拉斯矩阵L_rw的计算公式为：L_rw＝D^-1L＝I-D^-1W。

步骤4-5：计算L的前k个广义特征向量u₁…,u_k，即L_rw的前k个特征向量。

步骤4-6：定义U∈R_nxk为以特征向量u₁…,u_k为列向量的矩阵。

步骤4-7：使y_i∈R_k为U的第i行行向量，i＝1,…,n。

步骤4-8：通过KMeans聚类算法将点(y_i)_i＝1,…,n进行聚类，得到聚类簇C₁,...,C_k。其中，K取从1到n的每一个自然数。

步骤4-9：对步骤4-8)中得到的n个聚类结果，计算平均轮廓系数(SilhouetteCoefficient)和内聚度。平均轮廓系数是聚类效果好坏的一种常用评价方式，它结合内聚度和分离度两种因素，可以在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。定义样本i到同簇其他样本的平均距离为簇内不相似度，样本i到其他某簇的所有样本的平均距离簇间不相似度，则平均轮廓系数为：

其中，s(i)为样本i的平均轮廓系数；a(i)为簇内不相似度；b(i)为簇间不相似度。

步骤4-10：对步骤4-9中求取到的每一组平均轮廓系数和内聚度求积，取积最大的一组结果的聚类簇数K作为最终的聚类簇数，将该组聚类的特征子集作为聚类结果输出。

5)计算出特征簇中每个特征的质量系数，依照特征质量系数对特征进行排序，将排序结果作为特征前项选择的搜索顺序，并选择机器学习性能最佳的特征子集作为软件缺陷特征集。具体包括如下步骤：

步骤5-1：计算特征间度量参数以表示该特征的冗余程度。聚类的每一个簇中包含若干特征，选取一个与缺陷相关性最大的特征作为聚类簇心，特征间度量使用簇内各个特征与簇心之间的相关性度量，可以表示该特征的冗余程度。为此，定义特征fi的特征间度量参数FFCi＝cor(fi,corej)，其中Corej为特征fi所在的簇的簇心。

步骤5-2：计算特征-类标度量参数以表示特征-缺陷相关性。特征与缺陷之间的相关性可以表示特征对缺陷预测的贡献大小。定义特征fi的特征-类标度量参数FTCi＝cor(fi,target)，其中target为缺陷情况。

步骤5-3：计算特征质量系数以综合衡量特征的冗余程度和对缺陷预测的贡献程度。为了获得预测效果好、特征冗余低的特征子集，首先获取特征序列。综合考虑特征与缺陷相关性和特征之间相关性，提出特征质量系数作为特征排序的依据，特征质量系数可以定义为：Qi＝FTCi/(exp(θ(FFCi-0.8))+1)，其中θ为缩放系数。根据特征质量系数大小对特征集中的特征进行排序，注意所述特征集已经剔除无关特征。

步骤5-4：以步骤5-3的特征排序作为搜索顺序进行特征前项选择(SFS,Sequential Forward Selection)，生成最优特征子集。具体方法为从特征序列中依次选择一个特征加入特征子集，若软件缺陷预测的机器学习模型的AUC指标值提高，则保留该特征，否则舍弃此特征，按次序选择下一个特征，直至排序最后的特征，返回特征子集。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于谱聚类的软件缺陷特征选择方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于谱聚类的软件缺陷特征选择方法，其特征在于，所述的步骤1)中的软件缺陷数据集中的数据均设有缺陷标记。

3.根据权利要求2所述的基于谱聚类的软件缺陷特征选择方法，其特征在于，所述的步骤2)中无关特征剔除的方法为：对每个特征进行单变量逻辑回归分析，计算每个特征比值比OR，将OR值属于特定区间的特征从特征集中删除。

4.根据权利要求3所述的基于谱聚类的软件缺陷特征选择方法，其特征在于，所述的OR值特定区间为大于0.67且小于1.5。

5.根据权利要求1所述的基于谱聚类的软件缺陷特征选择方法，其特征在于，所述的步骤3)中特征间相关性矩阵W为对称矩阵，对角线上的元素均为1，相关性矩阵中的第i行第j列的元素W_ij是第i个特征和第j个特征的Pearson相关系数。

6.根据权利要求1所述的基于谱聚类的软件缺陷特征选择方法，其特征在于，所述的步骤4)中特征簇的形成方法为：

4-1)根据特征间相关性矩阵W计算度矩阵D；

4-2)根据相关性矩阵W和度矩阵D计算未标准化的拉普拉斯矩阵L，拉普拉斯矩阵L的计算公式为：

L＝D-W；

4-3)计算标准化的拉普拉斯矩阵L_rw，计算公式为：

L_rw＝D^-1L＝I-D^-1W

7.根据权利要求1所述的基于谱聚类的软件缺陷特征选择方法，其特征在于，所述的步骤5)中特征质量系数的计算方法为：

Qi＝FTCi/(exp(θ(FFCi-0.8))+1)

8.根据权利要求7所述的基于谱聚类的软件缺陷特征选择方法，其特征在于，所述的特征间度量值FFCi的计算方法为：

FFCi＝cor(fi,corej)

其中，Corej为特征fi所在的簇的簇心。

9.根据权利要求8所述的基于谱聚类的软件缺陷特征选择方法，其特征在于，所述的特征-类标度量值FTCi的计算方法为：

FTCi＝cor(fi,target)

其中，target为缺陷情况。

10.根据权利要求1～9中任意一项权利要求所述的基于谱聚类的软件缺陷特征选择方法，其特征在于，所述的步骤5)中特征前项选择的方法为：