CN112000802A

CN112000802A - 基于相似度集成的软件缺陷定位方法

Info

Publication number: CN112000802A
Application number: CN202010720348.3A
Authority: CN
Inventors: 燕雪峰; 程莎莎
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-27

Abstract

本发明公开了基于相似度集成的软件缺陷定位方法，包括以下步骤：输入待测软件的源文件与缺陷报告；对源文件与缺陷报告进行数据预处理；计算源文件与缺陷报告的表面文本相似度；计算源文件与缺陷报告的语义相似度；分析源文件与缺陷报告的文本属性；构建特征矩阵，将特征矩阵输入DNN进行相似度集成，对DNN模型进行训练；对于新的缺陷报告，获得表面文本相似度、语义相似度和文本属性，构建特征矩阵，利用训练好的DNN模型，得出含有缺陷的源文件列表。本发明解决源文件和缺陷报告中噪声过滤不完整以及两者之间存在的词汇不匹配导致基于信息检索的软件缺陷定位中相似度计算困难问题；提高了软件缺陷定位的准确性，具有较强的普适性。

Description

基于相似度集成的软件缺陷定位方法

技术领域

本发明涉及软件缺陷定位，特别涉及基于相似度集成的软件缺陷定位方法。

背景技术

软件缺陷定位是根据源文件与给定缺陷报告的相关性对源文件进行排序，开发人员通过排序列表逐一核查来找到含有缺陷的源文件，然而软件在开发生命周期中会产生大量的缺陷报告，所以缺陷定位的有效性和及时性将会影响软件的可靠性和可用性。

目前通常利用基于信息检索的软件缺陷进行定位分析，这类方法主要依赖源代码的文本信息，利用缺陷报告来定位相关源文件。这类方法侧重于自然语言文本的术语权重，没有考虑到源代码和缺陷报告语料中存在大量无语义词汇噪声，会导致经过向量表示的代码向量纬度高、稀疏性强的问题；同时，这类方法没有分析缺陷报告与源文件之间的语义相似性，忽略了自然语言描写的缺陷报告和编程语言编写的源文件之间存在的词汇不匹配问题。

发明内容

发明目的：针对以上问题，本发明目的是提供一种准确度高、普适性强的基于相似度集成的软件缺陷定位方法。

技术方案：本发明所述的一种基于相似度集成的软件缺陷定位方法，包括以下步骤：

(1)输入待测软件的源文件与缺陷报告；

(2)对源文件与缺陷报告进行数据预处理；

(3)计算源文件与缺陷报告的表面文本相似度；

(4)计算源文件与缺陷报告的语义相似度；

(5)分析源文件与缺陷报告的文本属性；

(6)结合表面文本相似度、语义相似度和文本属性，建立特征矩阵，将特征矩阵输入深度神经网络(DNN)进行相似度集成，对DNN模型进行训练；

(7)对于新的缺陷报告，通过步骤3-5获得表面文本相似度、语义相似度和文本属性，构建特征矩阵，利用步骤6中训练好的DNN模型，得出含有缺陷的源文件列表。

所述步骤(2)过程如下：首先，提取缺陷报告中的摘要、详细描述和已修复的源文件，利用抽象语法树(AST)提取源文件中的类名、方法名、变量、注释信息，然后对缺陷报告与源文件进行文本规范化、去除停用词、获取词根，对源文件和缺陷报告的术语进行词性标注(POS)，仅保留词性为名词、动词、形容词、副词的词汇。

所述步骤(3)过程如下：

收集预处理后的源文件与缺陷报告，利用词频-逆文档频率计算每个单词的权重，表达式为：

式中，tf_i,s是指源文件s中出现术语i的次数，#src_files是指语料库中源文件个数，df_i是指含有术语i的文档数量；

由于较大的源文件有更高的出错概率，源文件长度计算公式为：

式中λ参数用于调整对较大文件的偏爱程度，λ>0；|s|为源文件中术语个数；

利用余弦距离与源文件长度计算源文件与缺陷报告表面文本相似度：

其中，b为缺陷报告；

利用缺陷报告与所有函数和整个源文件表面文本相似度的最大值来表示缺陷报告与源文件的表面文本相似性，公式如下：

SurfaceSim＝max({VSMSim(b,s)}∪{VSMSim(b,m)|m∈s})

m表示源文件中的函数。

所述步骤(4)过程如下：

首先采用google开源的Word2vec作为训练工具，将维基语料库中文本分为训练数据和测试数据，用Skip-gram模型进行训练；利用已经训练好的Skip-gram模型将源文件和缺陷报告中的每个单词表示为300维的向量，公式分别为：

式中w_i,s为使用Skip-gram模型获得源文件s中某一术语i的单词向量；s^*为源文件的向量表示；b^*为缺陷报告的向量表示；

根据以上获取的向量，利用余弦距离表示源文件与缺陷报告的语义相似度，同时利用缺陷报告与所有函数和整个源文件语义相似度的最大值来表示缺陷报告与源文件的语义相似性，公式如下：

SemanticSim＝max({cos(b^*,s^*)}∪{cos(b^*,m^*)|m∈s})。

所述步骤(5)过程如下：文本属性包括令牌匹配、堆栈信息和已修复的缺陷报告，利用源文件中文件名、方法名、类名和注释分别与缺陷报告中摘要和详细描述进行令牌匹配，令牌匹配个数表示源文件与缺陷报告的相似度；利用正则表达式((.*？)\((.*？)\))来提取缺陷报告详细描述中堆栈信息，源文件在堆栈中排名的倒数来衡量源文件与缺陷报告相似度；对每个缺陷报告使用多标签分类算法，仅对历史缺陷报告进行分类，从而对待定位缺陷报告相关的源文件进行评分。

所述步骤(6)过程如下：所有相应的含有缺陷的源文件以及所有的已修复缺陷报告创建正样本，选择在表面文本相似度中排名前几百的且不含有缺陷的源文件作为负样本；对这些正、负样本利用信息检索和词嵌入计算缺陷报告和源文件的表面文本相似度和语义相似度，同时分析这些样本的文本属性；将缺陷报告按照提交时间进行排序，把以上正、负样本分成两个部分，其中80％作为训练集，另外20％作为测试集；将以上特征构成的特征矩阵作为DNN的输入，进行非线性组合，对DNN模型进行训练。

有益效果：本发明与现有技术相比，其显著优点是：

1、解决源代码和缺陷报告中噪声过滤不完整以及两者之间存在词汇不匹配导致基于信息检索的软件缺陷定位中相似度计算困难问题；

2、提高软件缺陷定位的准确性，具有较强的普适性。

附图说明

图1为本发明的流程示意图；

图2为实施例中对缺陷报告摘要进行Stanford Tagger POS标注的示例图；

图3为实施例中对缺陷报告中描述部分转换为300维数字向量的示例图；

图4为相似度集成的深度神经网络结构图。

具体实施方式

本实施例所述的基于相似度集成的软件缺陷定位方法，流程示意图如图1所示，包括以下步骤：

(1)输入待测软件的源文件与缺陷报告，待测软件为：AspectJ。

(2)对源文件与缺陷报告进行数据预处理，将源代码文件转换成AST，类名、方法名、变量、注释文本信息被直接提取；提取缺陷报告中摘要和详细描述内容，使用CamelCase分割原则对组合词进行分割："EventMouse"分割成"Event"和"Mouse"；去除缺陷报告和源文件中"is"、"the"英文停用词，对于源文件而言，还要移除"private"、"public"关键字；使用标准的Porter Stemmer来执行词干提取，将衍生词还原为词根形式，处理后相似的词以相同形式出现。

图2显示AspectJ项目中编号为80120的缺陷报告摘要进行Stanford Tagger POS标注结果，看出"CTabFolder"，"layout"，"pixel"和"righ"为名词；从提取的名词中，"CTabFolder"直接与"CTabFolder.java"这个含有缺陷的源文件相匹配。因此增加源文件与缺陷报告中词性为名词的词汇权重，并且仅保留词性为名词、动词、形容词、副词的词汇。

(3)根据信息检索中的向量空间模型(VSM)，利用源文件的长度对VSM进行修正，计算源文件与缺陷报告的表面文本相似度：首先收集预处理后的源文件与缺陷报告，利用词频-逆文档频率(TFIDF)计算每个单词的权重：

式中，tf_i,s是指源文件s中出现术语i的次数，#src_files是指语料库中源文件个数，df_i是指含有术语i的文档数量。

由于较大的源文件有更高的出错概率，源文件长度得分计算公式为：

λ参数用于调整对较大文件的偏爱程度，λ>0，通过设置此参数，在增加大型文件和减少大型文件中的噪音之间获得更好的平衡；|s|为源文件中术语个数；然后利用余弦距离与源文件长度表示源文件与缺陷报告文本相似度：

缺陷通常被定位在代码的一小部分，在某一函数中，当源文件很大时，相应的范数也会很大，尽管文件中的某一函数实际上与缺陷报告非常相关，也会导致其与缺陷报告的余弦相似度较小，无法有效地衡量源文件与缺陷报告的表面文本相似度。因此，使用AST从源代码中取出一个个函数，将每个函数m作为一个单独的文档，使用余弦距离表示其与缺陷报告之间的相似性；然后使用缺陷报告与所有函数相似性和整个文件相似性的最大值来表示表面文本相似性，公式如下：

SurfaceSim＝max({VSMSim(b,s)}∪{VSMSim(b,m)|m∈s})

(4)将TFIDF和词嵌入中的Skip-gram模型相结合，得到源文件与缺陷报告的向量表示，利用余弦距离表示两者的语义相似度。

由于缺陷报告中摘要和详细描述是由自然语言组成，使用Skip-gram模型将摘要和详细描述转成数字向量表示。图3显示了将AspectJ项目中编号为29769的缺陷报告中的描述转换为300维数字向量的示例。

源文件是由编程语言中各种代码令牌组成，不同于由自然语言组成的缺陷报告，一些关键字经常出现在源代码中，会影响Word2vec的性能，为了减轻源代码中频繁出现的关键字影响，采用TFIDF与词嵌入模型相结合，基于Word2Vec模型的向量化表示方法挖掘出词汇之间的关联属性，从而提高向量语义上的准确度；TFIDF对文档中具有高频率并且出现在少量文档中具有重要意义的词汇，具有高鉴别性，过滤掉一些常见却无关紧要的词汇，同时保留影响整个文本的重要词汇；结合Word2vec和TFIDF将源文件和缺陷报告转成向量表示，公式如下：

式中w_i,s为使用Skip-gram模型获得源文件s中某一术语i的单词向量；s^*为源文件的向量表示；b^*为缺陷报告的向量表示。采用google开源的Word2vec作为训练工具，将维基语料库中文本分为训练数据和测试数据，用Skip-gram模型对训练数据进行训练，分别得到训练数据中每个词维数为100、200、300的词向量，最终实验选取向量维数为300，达到计算相似度的最好效果；然后根据以上获取的向量，利用余弦距离表示源文件与缺陷报告的语义相似度，同时利用缺陷报告与所有函数和整个源文件语义相似度的最大值来表示缺陷报告与源文件的语义相似度，公式如下所示：

SemanticSim＝max({cos(b^*,s^*)}∪{cos(b^*,m^*)|m∈s})

(5)分析源文件与缺陷报告文本属性：

令牌匹配：通过在源文件和缺陷报告的特定部分中找到精确匹配的令牌来提高缺陷定位的性能，利用源文件中文件名、方法名、类名和注释等信息分别与缺陷报告中摘要和详细描述进行令牌匹配，令牌匹配个数MatchedCount表示源文件与缺陷报告的相似度，通过这样给在缺陷报告中具有精确匹配的术语的源文件赋予更多的权重，最后使用最小-最大归一化来缩放匹配个数的范围至0到1。

堆栈信息：利用正则表达式((.*？)\((.*？)\))来提取缺陷报告详细描述中堆栈信息，rank是源文件f在堆栈跟踪中的排名，公式如下：

已修复的缺陷报告：由于经常被修改的源代码文件，含缺陷概率越高，对每个缺陷报告使用多标签分类算法，仅对历史缺陷报告进行分类，从而对待定位缺陷报告相关的源文件进行评分；使用缺陷报告中的术语作为输入，并使用它们的定位的源文件作为标签；然后，输出待定位源文件的概率分数。

(6)结合表面文本相似度、语义相似度和文本属性，构建特征矩阵，将特征矩阵输入深度神经网络进行相似度集成，获得训练好的DNN模型。

由于线性模型难以捕捉特征之间的非线性关系，限制缺陷定位的性能，用DNN进行相似度集成，利用足够的训练数据，从非线性函数中学习特征的权重，在DNN中隐藏层具有抽象效果，隐藏层的数量决定了网络提取特征的处理能力，在实验中发现DNN中隐藏层越多，使用的计算资源就越多，因此本实施例将DNN模型中隐藏层数设为1000，节点数设为1000-1100。

本实施例通过所有相应的含有缺陷的源文件以及所有的已修复缺陷报告来创建正样本，通过为每个缺陷报告选择在文本上相似且不是含有缺陷的源文件来创建负样本。对于每一对缺陷报告和源文件，从它们中提取以上五种特性构建特征矩阵如下所示，其中b_i表示某一缺陷报告,s₁～s₃₀₀为选择的源文件样本：

以上特征矩阵作为DNN的输入，标签为缺陷报告是否与源文件相关，通过隐藏层中的非线性函数转换输入的特征，然后通过输出层中的线性函数进行分类，从而得到训练好的DNN模型。

(7)对于AspectJ中某一缺陷报告，计算其与源文件之间的表面文本相似度、语义相似性和文本属性来构建特征向量，将其输入步骤(6)中训练好的DNN模型，输出为与该缺陷报告相关的源文件排序列表，图4为相似度集成的DNN整体结构图。

Claims

1.基于相似度集成的软件缺陷定位方法，其特征在于，包括以下步骤：

(1)输入待测软件的源文件与缺陷报告；

(2)对源文件与缺陷报告进行数据预处理；

(3)计算源文件与缺陷报告的表面文本相似度；

(4)计算源文件与缺陷报告的语义相似度；

(5)分析源文件与缺陷报告的文本属性；

(6)结合表面文本相似度、语义相似度和文本属性，构建特征矩阵，将特征矩阵输入深度神经网络进行相似度集成，对深度神经网络模型进行训练；

(7)对于新的缺陷报告，通过步骤(3)-(5)获得表面文本相似度、语义相似度和文本属性，构建特征矩阵，利用步骤(6)中训练好的深度神经网络模型，得出含有缺陷的源文件列表。

2.根据权利要求1所述的基于相似度集成的软件缺陷定位方法，其特征在于，所述步骤(2)过程如下：提取缺陷报告中的摘要、详细描述和已修复的源文件，利用抽象语法树提取源文件中的类名、方法名、变量、注释信息；对缺陷报告与源文件进行文本规范化、去除停用词、获取词根，对源文件和缺陷报告的术语进行词性标注，仅保留词性为名词、动词、形容词、副词的词汇。

3.根据权利要求1所述的基于相似度集成的软件缺陷定位方法，其特征在于，所述步骤(3)过程如下：

其中，b为缺陷报告；

SurfaceSim＝max({VSMSim(b,s)}∪{VSMSim(b,m)|m∈s})

其中m表示源文件中的函数。

4.根据权利要求1所述的基于相似度集成的软件缺陷定位方法，其特征在于，所述步骤(4)过程如下：

采用google开源的Word2vec作为训练工具，将维基语料库中文本分为训练数据和测试数据，用Skip-gram模型进行训练；利用已经训练好的Skip-gram模型将源文件和缺陷报告中的每个单词表示为300维的向量，公式分别为

SemanticSim＝max({cos(b^*,s^*)}∪{cos(b^*,m^*)|m∈s})。

5.根据权利要求1所述的基于相似度集成的软件缺陷定位方法，其特征在于，所述步骤(5)过程如下：文本属性包括令牌匹配、堆栈信息和已修复的缺陷报告，利用源文件中文件名、方法名、类名和注释分别与缺陷报告中摘要和详细描述进行令牌匹配，令牌匹配个数表示源文件与缺陷报告的相似度；利用正则表达式((.*？)\((.*？)\))来提取缺陷报告详细描述中堆栈信息，源文件在堆栈中排名的倒数来衡量源文件与缺陷报告相似度；对每个缺陷报告使用多标签分类算法，仅对历史缺陷报告进行分类，从而对待定位缺陷报告相关的源文件进行评分。

6.根据权利要求1所述的基于相似度集成的软件缺陷定位方法，其特征在于，所述步骤(6)过程如下：将所有相应的含有缺陷的源文件以及所有的已修复缺陷报告创建正样本，选择在表面文本相似度中排名前几百的且不含有缺陷的源文件作为负样本；对这些正、负样本利用信息检索和词嵌入计算缺陷报告和源文件的表面文本相似度和语义相似度，同时分析这些样本的文本属性；将缺陷报告按照提交时间进行排序，把正、负样本分成两个部分，其中80％作为训练集，另外20％作为测试集；将以上特征构成的特征矩阵作为深度神经网络的输入，进行非线性组合，对深度神经网络模型进行训练。