CN104699614A

CN104699614A - 一种软件缺陷组件预测的方法

Info

Publication number: CN104699614A
Application number: CN201510139774.7A
Authority: CN
Inventors: 徐玲; 杨梦宁; 葛永新; 洪明坚; 张小洪; 刘海林; 鄢萌
Original assignee: Chongqing University
Current assignee: Chongqing Younikong Technology Co Ltd
Priority date: 2015-03-27
Filing date: 2015-03-27
Publication date: 2015-06-10
Anticipated expiration: 2035-03-27
Also published as: CN104699614B

Abstract

本发明涉及一种软件缺陷组件预测的方法，该方法通过定义主题缺陷密度来兼顾源代码语义信息和历史缺陷信息，然后根据版本之间主题的关联信息进行缺陷组件预测，得到组件缺陷数目。本发明提供的方法简单有效，通过定义主题缺陷密度来兼顾源代码语义信息和历史缺陷信息，通过定义相似关系矩阵考虑不同版本间的主题关联信息，从而预测准确率高，可达77.8％，预测结果经过验证，预测精度也很高。

Description

一种软件缺陷组件预测的方法

技术领域

本发明涉及软件安全领域，特别涉及一种软件缺陷组件预测的方法。

背景技术

软件缺陷是指计算机软件或程序中存在的某种破坏正常运行能力的问题、错误，或者隐藏的功能缺陷。软件缺陷产生主要是由软件本身的特点和开发过程决定的，如何控制软件缺陷对于生产高质量的软件是非常关键的。

软件缺陷预测通过对软件或软件度量相关数据进行统计或数学分析，预测软件中缺陷的分布情况和可能的数量。缺陷预测技术通过找到有出错倾向的实体并给出相应的解决方案，可以帮助管理人员和开发人员重点关注容易出现缺陷的实体，降低了软件开发和维护的成本，提高了软件可靠性。

近年来关于缺陷预测的研究主要关注在两个方面，其一是缺陷历史，其二是软件源代码本身。Nagappan等人通过研究发现如果一个实体在过去几个版本中很容易引进缺陷，那么这个实体在未来也很容易出现缺陷。他们将历史缺陷信息作为选择度量元的一个依据，然后用选择的度量元来进行缺陷组件的预测研究。但是Gill等人在论文中阐述了基于组件的软件特征并指出传统的度量元用来描述基于组件的软件是不合适的。他们认为语义信息和源代码复杂度等信息应该被考虑到组件缺陷预测的研究中。

与此同时，一种基于上下文语义相关的度量元(基于主题的度量元)被大量应用到软件缺陷预测的工作中，并被证明在缺陷预测研究中具有较好的效果。这些研究中大多数用LDA来进行主题提取和构建工作。Nguyen等人就是较早就使用主题模型研究软件缺陷问题。在他的研究中给出了基于主题的度量元与软件缺陷数目之间具有强烈关系，并断言基于主题度量元的缺陷预测效果将会优于其他传统度量元。Chen利用主题模型来描述带有缺陷的源代码。在他的实验中先定义缺陷主题，并通过缺陷主题来描述源代码缺陷情况。结果表明缺陷主题可以很好的描述软件源代码缺陷程度。但是，Chen在他的研究中主要关注的是缺陷与单个文件的缺陷关系，而没有分析缺陷主题与组件的关系，也没有很好的证明缺陷主题与缺陷预测的关系。

发明内容

针对现有技术存在的上述问题，本发明的目的是提供一种综合考虑源代码缺陷信息和语义信息、源代码不同版本间主题的关联信息的软件缺陷组件预测的方法。

为实现上述目的，本发明采用如下技术方案：一种软件缺陷组件预测的方法，具体包括如下步骤：

S1:数据抽取与预处理：提取源代码，对所提取的源代码进行去噪处理。

S2：定义组件缺陷密度：

将组件缺陷数与组件文件个数的比值定义为组件缺陷密度FD(com)如式(1)所示：

FD ({com}_{j}) = \frac{Failure ({com}_{j})}{File ({com}_{j})}, - - - (1);

其中com_j表示第j组件，FD(com_j)为第j组件缺陷密度，Failure(com_j)为组件j包含的缺陷总数，File(com_j)表示组件j包含的文件总数；

S3：定义主题缺陷密度：

组件主题和组件缺陷密度均来自于软件源代码，定义主题缺陷密度TFD(Z)如式(7)所示：

TFD (Z_{i}) = Σ_{j = 0}^{n} θ_{ij} (FD ({com}_{j})), - - - (7);

其中Z_i表示第i个主题，TFD(Z_i)表示第i个主题的主题缺陷密度，θ_ij为主题分布矩阵，n表示组件个数；

S4：缺陷组件预测：

S4a：定义相似关系，如式(8)：

Similarity = \frac{HighestWordfrom T_{i} \cap HighestWordfrom T_{k}}{NumberofHighestWord}, - - - (8);

其中HighestWordfromT_i表示第i个主题下的高频词汇，HighestWordfromT_k表示第k个主题下的高频词汇，NumberofHighestWord表示第i个主题或第k个主题下的总的高频词汇个数，Similarity表示第i个主题与第k个主题的相似关系；使i和k遍历其取值范围，得到主题相似矩阵；

S4b：通过主题相似矩阵构建不同版本间主题的演化公式如式(9)：

TFD (z_{i}, v_{(r + 1)}) = Σ_{k = 0}^{[k]} μ_{ik} TFD (z_{k}, v_{r}), - - - (9);

其中v_r表示第r个版本，v_(r+1)表示第r+1个版本，z_k表示第k个主题，z_i表示第i个主题，TFD(z_k,v_r)表示第r个版本中第k个主题的主题缺陷密度，TFD(z_i,v_(r+1))表示第r+1个版本中第i个主题的主题缺陷密度，[k]为第r个版本中总的主题个数，μ_ik是主题相似矩阵中的元素，表示第个i主题和第个k主题之间的相似度。

相对于现有技术，本发明具有如下优点：本发明提供的方法简单有效，通过定义主题缺陷密度来兼顾源代码语义信息和历史缺陷信息，通过定义相似关系挖掘不同版本间的主题关联信息，并以此作为预测依据。实验结果表明该预测方法准确率高，可达77.8％，预测结果经过验证，预测精度也较高。

本文运用主题模型来解决软件缺陷预测方面的问题，其考虑到语义信息在软件缺陷预测工作中的重要作用。传统的缺陷预测技术主要从源代码基本信息入手(通过定义一些度量元来进行缺陷预测)，忽视了源代码中的语义信息。

附图说明

图1为实施例中各项目的主题个数选择图。

图2为实施例各项目中主题-组件关系值。

图3为实施例各项目主题缺陷密度的分布图。

图4为实施例中各项目缺陷模块预测值与实际模块缺陷数，图4(a)指项目Mylyn，图4(b)指项目Ant，图4(c)指项目Platform。

图5为实施例各项目组件排序图。

具体实施方式

下面对本发明作进一步详细说明。

一种软件缺陷组件预测的方法，具体包括如下步骤：

S1:数据抽取与预处理：提取源代码，对所提取的源代码进行去噪处理；

预处理即指去噪处理，主要包括如下步骤，(1)分离注释和标识符；(2)处理语法结构去除JAVA关键字；(3)分词；(4)去除停顿词a、the、an；(5)提取词干；(6)删减高频、低频词汇。在选用的数据为Java语言开发的项目，预处理过程中能删除出现率90％以上的词汇以及出现率低于5％的词汇，这样有利于减少主题噪声。

S2：定义组件缺陷密度：

在系统实际开发中，软件设计人员将系统划分为多个组件，每个组件包含诸多文件。例如，在Bugzilla中，缺陷收集是以组件为单位的。组件内缺陷数量与组件内文件数量存在着一定联系，往往文件个数越多缺陷数目也越多。不同组件内文件个数不一，缺陷数目也具有较大的差异。本发明中将组件缺陷数与组件文件个数的比值定义为组件缺陷密度FD(com)如式(1)所示：

FD ({com}_{j}) = \frac{Failure ({com}_{j})}{File ({com}_{j})}, - - - (1);

其中com_j表示第j组件，FD(com_j)为第j组件缺陷密度，即组件内平均每个文件包含的缺陷数，Failure(com_j)为组件j包含的缺陷总数，File(com_j)表示组件j包含的文件总数；组件缺陷密度反映组件内文件的平均缺陷数目。

S3：定义主题缺陷密度：

LDA是一种概率生成模型，它认为一个文本是一系列服从一定概率分布的词项的样本集合。从生成模型的视角来看，源代码中词的概率定义为：

p (w_{j} | d_{i}) = Σ_{k = 1}^{k} p (w_{j} | z_{k}) p (z_{k} | d_{i}), - - - (2);

其中p(w_j|z_k)表示主题z_k中出现词w_j的概率，p(z_k|d_i)表示组件d_i中出现主题z_k的概率。

假设k维向量α是主题的先验分布的参数，k×m的矩阵β是主题中词的分布的参数(m为词的总数)，即β_ij＝p(w_j|z_i)，那么生成一个软件组件文档的主题分布、再生成N个主题、进而得到源代码内N个词的概率可以表示为：

p (θ, z, w | α, β) = p (θ | α) Π_{n = 1}^{N} p (z_{n} | θ) p (w_{n} | z_{n}, β), - - - (3);

其中θ表示源代码组件-主题分布向量，z是N维的主题向量，w是N个词组成的向量p(θ,z,w|α,β)表示主题、单词、文档-主题分布的联合概率，p(θ|α)文档-主题分布，p(z_n|θ)表示主题zn的概率，p(w_n|z_n,β)表示w_n在主题z_n中出现的概率。由于θ和z是训练数据中的潜在变量，求边缘分布时将其从左边消掉，得到公式(5)

p (w | α, β) = &Integral; p (θ | α) (Π_{n = 1}^{N} p (z_{n} | θ) p (w_{n} | z_{n}, β)) d θ, - - - (4);

对含有M篇文档的语料库D来说，p(D|α,β)＝∏_d＝1..Mp(w_d|α,β)，所以

p (D | α, β) = Π_{d = 1}^{M} &Integral; p (θ_{d} | α) (Π_{n = 1}^{N_{d}} \underset{z_{dn}}{Σ} p (z_{dn} | θ_{d}) p (w_{dn} | z_{dn}, β)) d θ_{d}, - - - (5);

其中，p(z_dn|θ_d)表示d篇文档中主题z_n的概率，p(w_dn|z_dn,β)表示第n篇文档中w_n在主题z_n中出现的概率。通过训练使得p(D|α,β)最大，求得α和β。根据公式(6)可以得到源代码组件的主题分布矩阵θ以及主题相关信息。

p (θ, z | w, α, β) = \frac{p (θ, z, w | α, β)}{p (w | α, β)}, - - - (6);

结合公式(2)可知，组件缺陷密度由组件缺陷数和组件内文件数决定，公式反映了组件包含的缺陷信息。组件主题和组件缺陷密度均来自于软件源代码，定义主题缺陷密度TFD(Z)如式(7)所示：

TFD (Z_{i}) = Σ_{j = 0}^{n} θ_{ij} (FD ({com}_{j})), - - - (7);

S4：缺陷组件预测：

S4a：定义相似关系如式(8)：

Hindle认为两个主题中前10个高频词汇中有8个相同则这两个主题相同。本发明在这种思想基础上，将其进一步细化，通过计算主题中高频词汇的具体相似值来刻画主题的相似程度。定义相似关系如式(8)：

Similarity = \frac{HighestWordfrom T_{i} \cap HighestWordfrom T_{k}}{NumberofHighestWord}, - - - (8);

其中HighestWordfromT_i表示第i个主题下的高频词汇，HighestWordfromT_k表示第k个主题下的高频词汇，NumberofHighestWord表示第i个主题或第k个主题下的总的词汇个数，第i个主题或第k个主题下总的词汇个数相等，Similarity表示第i个主题与第k个主题的相似关系；使i和k遍历其取值范围，取值范围即主题的总个数，得到主题相似矩阵；

TFD (z_{i}, v_{(r + 1)}) = Σ_{k = 0}^{[k]} μ_{ik} TFD (z_{k}, v_{r}), - - - (9);

其中v_r表示第r个版本，v_(r+1)表示第r+1个版本，z_k表示第k个主题，z_i表示第i个主题，

TFD(z_k,v_r)表示第r个版本中第k个主题的主题缺陷密度，TFD(z_i,v_(r+1))表示第r+1个版本中第i个主题的主题缺陷密度，[k]为第r个版本中总的主题个数，μ_ik是主题相似矩阵中的元素，表示第个i主题和第个k主题之间的相似度。

实施例：参见图1至图5，本次实验主要针对java项目，实验数据来自开源项目Platform(Eclipse的一个子项目)、Ant和Mylyn。每一个项目选取三个版本的缺陷报告及对应版本源代码(分别为Platform3.2，Platform3.3，Platform3.4；Ant1.6.0，Ant1.7.0，Ant1.8.0；Mylyn3.5，Mylyn3.6，Mylyn3.7)。三个项目的缺陷报告数据来自于Bugzilla和Findbugs。三个项目的基本信息如表1所示。

表1

数据抽取与预处理：提取源代码，对所提取的源代码进行去噪处理。

运用LDA主题模型进行主题的挖掘，主题的个数选取没有统一的标准，不同语料库选用不同个数的主题计算得到的效果也有较大的差异。结合项目规模的大小和每个项目中组件数目，本实施例对三个项目分别选取10到100个主题数目进行预测效果对比实验，结果如图2所示。

从图1可以发现同一项目取不同的主题数目其结果有着明显的差别，Ant、Platform项目的预测效果随着主题数目的增加表现良好，但主题在30到40个时预测效果开始下降。Mylyn项目选取的主题个数在20时预测效果最好，随后降低并保持平衡。本实施例为每个项目选取20个主题，计算并统计出每个主题关联的组件。

用LDA提取三个项目三个版本的主题，得到组件的主题-文档分布矩阵。我们比较相邻版本间主题分布矩阵发现同一个项目的相邻版本间的主题有一定的联系。比如Mylyn 3.5版本中的主题8(记为T_3.58)、Mylyn3.6版本的主题1(记为T_3.61)与Mylyn中11个组件的关系值几乎相同(见图3)，两个主题只在Bugzilla组件的关联程度略微不同(T_3.58与Bugzilla组件的关系程度值为0.8988，T_3.61与Bugzilla组件的关联程度值为0.8545)。通过分析Mylyn 3.5版本和Mylyn3.6版本的源代码发现这些差异主要来自于Mylyn3.6版本对Bugzilla组件代码进行了修订。同样的，我们也发现T_3.58和T_3.63几乎没有关系。

我们分别提取出这三个主题的高频词汇(表2)。通过表2可以发现T_3.58和T_3.61的高频词汇排序几乎一样，只有第9个高频词汇不同。而T_3.58和T_3.63的高频词汇没有相同的。我们认为这就是为什么图3中T_3.58和T_3.61与组件的关系度几乎相同(T_3.58和T_3.63完全不同)的直接原因。这也是我们前面为什么用主题下高频词汇的相似性来描述主题相似性的原因。为此，我们用主题相似矩阵来描述这种主题与主题之间的相关性(表3)。我们的研究也发现并不是每一个主题都能在下一个版本中找到相关性较高的主题，即出现一些“游离”的主题，但是这在一定程度上符合主题的演化规则。

表2部分主题高频词汇信息(Mylyn 3.5)

表3主题相似矩阵

根据公式(9)分别计算Ant、Platform、Mylyn三个项目的主题缺陷密度。为了更好的描述预测得到的主题缺陷密度与版本之间的关系，这里用盒图表示。盒图由美国的统计学家约翰·图基(John Tukey)发明的，用来显示数据的离散分布。图3为Ant、Platform、Mylyn三个项目主题缺陷密度的盒图表示。

结合表1和图3可以发现同一项目内主题缺陷密度对应的盒图长度越小表示缺陷数目越少，盒图长度越大缺陷数目越多。从图上可知，Ant1.8主题缺陷密度值对应的盒图长度几乎为0，对应表2中的缺陷数目只有5个；Ant1.7的缺陷有104个。根据公式(7)，主题缺陷密度由主题分布矩阵和组件缺陷密度决定，当文件个数和主题分布矩阵变化一定时，缺陷数目越多，主题缺陷密度值越大。图3表明主题缺陷密度的分布反映了项目中各版本的缺陷分布。

通过上面的实验我们很容易可以发现高频词汇的相似性可以用来描述主题的相似性。同时，主题缺陷密度能够很好的反应组件的缺陷分布。下面我们将运用缺陷组件预测模型预测下一个版本主题缺陷密度，并根据主题分布矩阵得到缺陷组件。

图4(a)可以看出预测得到的缺陷系数与Mylyn3.6真实计算得到的缺陷数目基本上正相关，这表明预测得到的组件缺陷数目能够较好的模拟真实的组件缺陷情况。从图4(b)中同样可以看出预测数目与Ant1.8中真实缺陷数目具有较大的关联，且缺陷数目最多的模块保持一致，但是部分模块的缺陷数目与真实缺陷数目并没有保持一致(例如Build Process、Net和Optional task)。分析源代码可以发现Ant1.8中这几个模块内的源代码与Ant1.7模块中源代码有较大的差别(主要是Ant1.8中新增了多个java文件)。同样的图4(c)的结果要更为理想，主要是Platform3.4与Platform3.3各个模块内的源代码相似度较高。

我们将组件按照预测得到的缺陷数目进行排序，并与按照真实的缺陷数目排序的组件序列进行对比(图5)。我们比较序列中的前三个和后三个组件，其正确率为77.8％。这意味着通过我们的预测我们可以较好的发现下一个版本中高缺陷组件和低缺陷组件，从而大大缩短质量管理人员在缺陷定位上花费的时间。

验证：

为了更好评估预测得到的主题缺陷密度值与Mylyn3.6真实计算得到的主题缺陷密度之间的相关度，引用了Spearman(斯皮尔曼)相关系数。Spearman相关系数利用单调方程评价两个统计变量的相关性，是衡量两个变量的依赖性的非参数指标。

斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本，n个原始数据X_i,Y_i被转换成等级数据x_i,y_i相关系数ρ为，如公式(10)：

ρ = \frac{Σ_{i} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ_{i} {(x_{i} - \overset{&OverBar;}{x})}^{2} Σ_{i} {(y_{i} - \overset{&OverBar;}{y})}^{2}}}, - - - (10);

在本文中X_i是真实主题缺陷密度集合，Y_i预测得到的主题缺陷密度集合。

根据公式(10)，计算Mylyn3.6版本中主题缺陷密度与通过Mylyn3.5版本预测得到的主题缺陷密度的Spearman系数值为0.5505。

重复上述实验步骤，分别计算Ant、Platform两个项目的主题缺陷密度和缺陷数目，并计算两类数据与真实数据的Spearman系数，结果如表4所示。

表4 Spearman系数比较

Spearman系数是衡量两个变量的依赖性的非参数指标。如果数据中没有重复值，并且当两个变量完全单调相关时，斯皮尔曼相关系数则为+1或-1。+1表示完全正相关，-1表示完全负相关，0表示不相关。通过表4可以发现预测得到的缺陷个数与真实的缺陷个数之间的Spearman系数值为0.5342到0.8513之间，故可知预测得到的数据具有较高的精确度。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种软件缺陷组件预测的方法，其特征在于：具体包括如下步骤：

S2：定义组件缺陷密度：

FD ({com}_{j}) = \frac{Failure ({com}_{j})}{File ({com}_{j})}, - - - (1);

S3：定义主题缺陷密度：

TFD (Z_{i}) = Σ_{j = 0}^{n} θ_{ij} (FD ({com}_{j})) - - - (7);

S4：缺陷组件预测：

S4a：定义相似关系，如式(8)：

Similarity = \frac{HighestWordfrom T_{i} \cap HighestWordfrom T_{k}}{NumberofHighestWord}, - - - (8);

TFD (z_{i}, v_{(r + 1)}) = Σ_{k = 0}^{[k]} μ_{ik} TFD (z_{k}, v_{r}), - - - (9);