CN114564410A

CN114564410A - 基于类级别源代码相似度的软件缺陷预测方法

Info

Publication number: CN114564410A
Application number: CN202210277028.4A
Authority: CN
Inventors: 文万志; 朱宁波; 沈陈强; 张苏川; 陈励文; 程帆; 吴佳俊; 张瑞年; 王则林
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-05-31

Abstract

本发明提供一种基于类级别源代码相似性的软件缺陷预测方法，包括如下步骤：S1、构建数据集；S2、构建源码节点集BAset；S3、构建量化源码节点集DTset；S4、构建相似度值集合BCset；S5、获取最优的类实例数方法GMmethod；S6、构建基于类级别源代码相似性的软件缺陷预测方法CL‑SCS。本发明提出细粒度级别的源项目选择方法，可为后续得数据训练提供更好的源项目，该方法能够有效提升软件缺陷预测效果。

Description

基于类级别源代码相似度的软件缺陷预测方法

技术领域

本发明提供一种基于类级别源代码相似度的软件缺陷预测方法，主要以细粒度级别缩短跨项目之间的数据分布差异，进一步提高软件缺陷预测结果。属于软件缺陷预测的技术领域。

背景技术

软件缺陷在开发阶段不可避免，缺陷程度决定软件质量，缺陷过多会导致软件不可用；且近些年，随着互联网技术，软件功能愈渐复杂，缺陷问题也越发严重，不仅对开发商造成经济损失，甚至会导致安全问题。因此，尽可能减少缺陷导致的各类问题，对于软件的缺陷预测十分必要。

最近，关于软件缺陷预测的研究开始盛行，研究人员提出许多方法来提升软件缺陷预测的质量。而在跨项目缺陷预测方面，其难点在于数据分布差异较大，且多数研究大都基于文件级别的预测，在缺陷预测的方面效果不佳。

为了能够缩小基于文件级别的粗粒度缺陷预测所带来的分布偏差，本发明提出了细粒度级别的源项目选择方法，以类级别的视角，通过确定类实例的量取值选择出高质量的源项目，极大提高软件缺陷预测的效果。

发明内容

本发明要解决的技术问题是提供一种基于类级别源代码相似度的软件缺陷预测方法，提高软件缺陷预测的准确性，能够有效辅助开发人员使用该模型来尽早发现软件缺陷问题，进而减少软件开发过程中的缺陷，具有较高的准确率和效率。

为解决上述技术问题，本发明的实施例提供一种基于类级别源代码相似度的软件缺陷预测方法，包括如下步骤：

S1、构建数据集；

S2、构建源码节点集BAset；

S3、构建量化源码节点集DTset；

S4、构建相似度值集合BCset；

S5、获取最优的类实例数方法GMmethod；

S6、构建基于类级别源代码相似性的软件缺陷预测方法CL-SCS。

其中，所述步骤S1的步骤如下：

S1.1、基于开源网站获取软件项目集合；

S1.2、以项目类作为实例构建项目实例集合；

S1.3、基于开源数据历史记录、项目源代码语法结构、源代码抽象语法树构建特征集{WMC，DIT，NOC，CBO，RFC，LCOM，Ca，Ce，NPM，LCOM3，DAM，MOA，MFA，CAM，IC，CBM，AMC，Max(CC)，Avg(CC)}，其中，WMC代表每个类的加权方法，DIT代表继承深度，NOC代表孩子的数量，CBO代表对象类之间的耦合，RFC代表对一个类的响应，LCOM和LCOM3代表方法中缺乏的内聚性，Ca代表传入联轴器，Ce代表传出联轴器，NPM代表公共方法的数量，LOC代表代码行数，DAM代表数据访问度量，MOA代表聚集措施，MFA代表功能抽象度的测量，CAM代表分类方法之间的凝聚力，IC代表继承耦合，CBM代表方法之间的耦合，AMC代表平均方法复杂度，Max(CC)代表给定类中方法CC的最大值，Avg(CC)代表给定类方法中CC值的算术平均值；

S1.4、基于实例和特征，形成缺陷预测数据集DATASET。

其中，所述步骤S2的步骤如下：

基于AST(语法抽象树)提取每个项目版本类实例源码节点转换成相关向量，将每个源代码文件解析为一颗AST，节点类型定义分别为：classDeclaration(类定义)、expressionStatement(表达式定义)，VariableDeclaration(变量定义)，methodDeclaration(方法定义)。

4.根据权利要求1所述的基于类级别源代码相似度的软件缺陷预测方法，其特征在于，所述步骤S3的步骤如下：

S3.1、创建字典：根据源代码中所出现的语法单词进行频次计算，为保证字典准确度，规定出现频次大于1的词进行收录，舍去小于1的词；词典的构建为单词key和编号value，类似[“key”,value]；

S3.2、词袋表示向量：根据步骤S3.1所创建的字典，使用doc2bow词袋模型对每个不同单词的词频进行统计，且用词袋的表示方法转为向量；

S3.3、建立语料库：基于步骤S3.2中的词袋表示向量，构建语料库corpus；

S3.4、初始化TF-IDF模型：基于步骤S3.3建立的语料库，建立TF-IDF模型，并生成TF-IDF向量；

其中，步骤S3.1～S3.4基于Doc2Bow模型和TF-IDF模型构建量化源码节点集DTset。

其中，所述步骤S4的步骤为：

余弦相似度公式：根据余弦相似度公式计算目标项目中每个类文件所对应训练项目所有类之间的相似度值。

其中，所述步骤S5的步骤为：

确定最优的类实例数量：根据步骤S4中所计算的相似度值集合，对相似度值进行排序，选取相似度最高的n个类实例，为了确定最优类实例数量n值，其中n＝2,3,…,20等整数值，最终确定n个训练项目的类实例，并对选取的n个类实例进行相似度累加，作为该源项目选取的指标。

其中，所述步骤S6的步骤如下：

S6.1、从步骤步骤S1构建的数据集中选择任一项目作为训练集；

S6.2、若在项目内的实验，则从步骤S6.1中选择同一项目内的另一个版本作为测试集；若跨项目之间的实验，则从步骤S6.1中选择不同项目的任一版本作为测试集；

S6.3、选择步骤S6.2中的测试集中一个类实例，根据步骤S4计算测试集中的一个类实例与步骤S6.1所选的训练集中所有类实例相似度，根据S5选取n个相似度最高的类实例，并将选取的类实例相似度进行累加，作为该源项目选择的指标；

S6.4、模型训练所选的n个类实例，以预测所选测试集的类实例情况缺陷；

S6.5、重复步骤S6.3～S6.4的过程直至测试集的所有类实例预测完成，获取最终的缺陷情况；

S6.6、预测缺陷情况与实际缺陷的情况进行对比，得出实验指标；

S6.7、重复步骤S6.2～S6.6的过程直至所有源项目对测试集的所有类实例预测情况完成；

S6.8、根据步骤S6.3获取所有源项目选择的指标进行排序，选取当前训练集所对应指标的最高源项目；

S6.9、重复步骤S6.1～S6.8的过程直至选取所有训练集对应的指标最高源项目，完成相似度最高的源项目选择。

进一步，步骤S6.6在软件预测的研究中，使用F-measure指标来衡量特征方法的效率，而F-measure指标采用Precision和Recall两个参数：

Precision表示的是实例被正确划分为clean的个数占所有实例的百分比；其中，TP表示将有缺陷模块预测为有缺陷模块的个数、TN表示将无缺陷模块预测为无缺陷模块的个数、FP表示将无缺陷模块预测为有缺陷模块的个数、FN表示将有缺陷模块预测为无缺陷模块的个数：

Recall表示的是实例被正确划分为缺陷模块的个数占所有缺陷模块的百分比，该值越高，表明模型能正确识别缺陷的概率越大，能够识别更多的缺陷模块：

Accuracy表示的正确划分的模块个数占所有模块个数的比例，比越高说明模型分类的准确度越高，反之准确度越低：

F-measure是P和CRR两种测量参数的复合方法，值越高，那么该方法就表现的越好：

F-measure的值在0～1之间，值越高表明模型性能越好。

本发明的上述技术方案的有益效果如下：

1、本发明提出了细粒度级别的源项目选择方法，以类级别的视角，通过确定类实例的量取值选择出高质量的源项目，极大提高软件缺陷预测的效果。

2、本发明能够有效辅助开发人员使用该模型来尽早发现软件缺陷问题，进而减少软件开发过程中的缺陷，具有较高的准确率和效率。

附图说明

图1是本发明的流程图；

图2是本发明中基于类级别源代码相似性的软件缺陷预测CL-SCS方法图；

图3是本发明中CL-SCS方法与k近邻比较的实验结果箱线图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明提供一种基于源代码相似性的源项目选择方法，包括如下步骤：

S1、构建数据集；

S2、构建源码节点集BAset；

S3、构建量化源码节点集DTset；

S4、构建相似度值集合BCset；

S5、获取最优的类实例数方法GMmethod；

步骤S1、数据集构建具体步骤如下：

以promise数据集为例，从promise数据集中选取项目进行测试，数据集主要包含数据集名称、缺陷模块个数、模块的总个数、模块特征的个数、错误实例所占总实例数的百分比等几个方面的内容。

步骤S2、构建源码节点集BAset具体步骤如下：

基于AST(语法抽象树)提取每个项目版本类实例源码节点转换成相关向量，将每个源代码文件解析为一颗AST，节点类型定义分别为：

classDeclaration(类定义)，

expressionStatement(表达式定义)，

VariableDeclaration(变量定义)，

methodDeclaration(方法定义)等。

步骤S3、构建量化源码节点集DTset具体步骤如下：

根据上述所构建的源码节点集，首先创建源码单词频次字典，其次根据doc2bow词袋模型对每个不同单词的词频进行统计，用磁带的表示方法转为向量；然后所表示的向量，构建语料库corpus；最后通过TF-IDF模型生成所量化的源码节点集。

步骤S4、构建相似度值集合BCset具体步骤如下：

Similarity表示的是目标项目中某个类实例向量V1与训练项目中某个类实例向量V2的余弦相似度，其中θ表示两个向量的夹角：

步骤S5、获取最优的类实例数方法GMmethod：

确定最优的类实例数量：根据S4中所计算的相似度值集合，对相似度值进行排序，选取相似度最高的n个类实例，为了确定最优类实例数量n值，其中n＝2,3,…,20等整数值，最终确定n个训练项目的类实例，并对选取的n个类实例进行相似度累加，作为该源项目选取的指标。

步骤S6、构建基于类级别源代码相似性的软件缺陷预测方法CL-SCS具体步骤如下，该步骤如图2所示：

使用CL-SCS方法与K近邻方法进行对比，在recall值方面比k近邻平均高出11.3％，在F1-score值方面比k近邻平均高出8.8％，accuracy的最高值、precision值、recall值和f1累加后的总值除了n＝3，均有所提高，且当n＝12时，四指标总值提高到23.7％，如图3所示，CL-SCS方法能够提高跨项目软件缺陷预测。

确定n＝12时，基于CL-SCS方法所选的类实例与过目类实例相似度的top(12)进行累加，表示该源项目类实例与目标项目类实例相似度值，计算出所有源项目类实例与目标项目类实例相似度，得到与目标项目整体的相似度，针对每个目标项目，根据源项目相似度值所选择出的源项目，对recall和f1值进行分析：排名方面，ant-1.7项目，所选出的源项目recall和f1值排名都是第一；synapse-1.2项目，所选出的源项目recall值排名第一，f1值排名第二；lucene-2.4项目，所选出的源项目recall和f1值排名都是第一；poi-3.0项目，所选出的源项目recall值排名第三，f1值排名第三；xalan-2.6项目，所选出的源项目recall和f1值排名都是第一；xerces-1.4项目，所选出的源项目recall和f1值排名都是第三；camel-1.6项目，所选出的源项目recall值排名第一，f1值排名第二。平均值方面，与未进行选择源项目相比，accuracy值和precision值有所下降外，recall值和F1值都是提高的。总的来说，CL-SCS方法能够较好地选取源项目，提高缺陷预测性能。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。