CN110825381A

CN110825381A - 一种结合源代码语义与语法特征的基于CNN的bug定位方法

Info

Publication number: CN110825381A
Application number: CN201910951999.0A
Authority: CN
Inventors: 房春荣; 蒋燕; 史洋洋; 陈振宇; 李玉莹
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-02-21

Abstract

一种结合源代码语义与语法特征的基于卷积神经网络的bug定位方法，其特征是提出一种根据用户提交的bug报告定位到产生bug的源代码文件的方法，该方法使用CNN分别对bug报告、源代码语义以及源代码语法进行特征提取，再对这些特征进行融合并提取出统一的特征，最后使用CNN对bug报告和源代码进行相关性预测，得到与bug报告相关的TopK份源代码文件。从而使得当用户提交新的bug报告时，维护人员能及时定位到相关源代码文件并通知开发人员进行修复，从而提高修复bug以及项目维护的效率。该方法的整体流程如摘要附图所示。

Description

一种结合源代码语义与语法特征的基于CNN的bug定位方法

技术领域

本发明属于软件维护领域，特别是软件缺陷进行定位并修复的测试领域，用于当用户提交bug报告时及时定位到相关的源代码文件，以便开发人员或维护人员进行bug修复。

背景技术

软件质量保障对一个软件系统的成功与否至关重要。但是往往由于紧张的开发计划以及有限的测试资源，在软件系统正式发布之前基本上不可能在越来越大型、越来越复杂的软件系统中找到每一个存在的bug。因此，软件系统总是带着潜在的bug被发布，这意味着软件系统的后期维护也至关重要，而bug定位是软件系统维护过程中重要的一环。

软件系统被使用过程中，用户发现bug后会产生相应的bug报告并提交到软件系统的维护团队；一旦维护人员接收到这个bug，他们会根据bug报告对bug的文字描述人工定位到可能对应的源代码文件部分，再指派相关的开发人员对该bug进行修复。但是，对于大型复杂的软件系统来说，维护人员可能会在一段时间内接收到用户提交的大量bug报告，而根据这些bug报告人工定位可能的对应源代码文件是非常耗费时间和精力的。为了减少软件系统的维护成本以及提高整个软件团队的效率和生产力，各界学者专家已经提出了一些自动bug 定位的方法和工具。

大部分现存的方法是基于信息检索(IR-based)的，这些方法将bug报告和源代码文件都当作自然语言处理，运行词袋模型对bug报告和源代码进行特征展示，再在同一个特征空间上测量二者的相似度，最后返回相似度最高的TopK个源代码文件。这些方法只是考虑了源代码的文字信息，却没有考虑到源代码独有的语义信息与语法结构信息。然而，bug报告与源代码在这两个方面的特征却有很大区别，因此，仅仅依靠信息检索是无法进一步提高bug 定位的准确性的，我们需要一种综合考虑到源代码语义与语法信息的方法。

尽管也有一些基于机器学习的方法被提出来解决bug定位问题，但是这些方法仍然是将 bug报告与源代码当作相同的普通文本进行处理，并没有提取出源代码特有的语义与语法信息。本专利提出一种基于CNN的bug定位方法，该方法利用不同的CNN分别处理bug报告和源代码文件，以提取出源代码的语义与语法信息，从而提高bug定位的准确性。

发明内容

本发明要解决的问题是：在软件系统维护过程中，维护团队会根据用户提交的bug报告定位到相关的源代码文件，并将修复任务分配给相应的开发人员，然而人工bug定位的成本非常大。我们的发明提出一种结合源代码语义与语法特征的基于CNN的bug定位方法，当有用户提交新的bug报告时，能自动定位到相关的源代码文件，减少维护团队的维护成本，节省项目的时间消耗，从而提高维护效率。

本发明的技术方案为：一种结合源代码语义与语法特征的基于卷积神经网络的bug定位方法，其特征是提出一种更加用户提交的bug报告定位到产生bug的源代码文件的方法，该方法使用不同的CNN分别对bug报告和源代码文件进行特征提取，再对这些特征进行融合并提取出统一的特征，最后使用CNN对bug报告和源代码文件进行相关性评分，得到与bug报告相关的Top K份源代码文件，从而训练出一种预测模型。该模型将bug报告与源代码文件看作不同空间的文本，提取各自的代表性特征，从而当用户提交新bug报告时，维护人员可以通过该模型及时快速定位到相关的源代码文件并进行相应修复工作，以提高定位并修复bug 的效率。该基于CNN的bug定位方法步骤如下：

1)对bug报告与源代码文件进行预处理：使用工具NLTK分别对bug报告和源代码文件进行预处理，其中对bug报告进行将bug总结与具体描述结合、去除停用词、拆分由多个单词组合的单个单词、全部转换成小写等操作；对源代码进行拆分驼峰式命名、全部转换成小写等操作；同时从每个源代码文件中提取出能反映程序语法结构的AST(抽象语法树)。

2)提取特征：使用基于Wikipedia语料库预先训练好的Skip-gram模型对bug报告进行 word2vec操作，将bug报告转换成词向量；同样使用基于Wikipedia语料库预先训练好的 Skip-gram模型对源代码文件进行word2vec操作，将编程语言转换成词向量；使用word2vec 中的Skip-gram模型将源代码的AST转换成向量。分别使用具有不同特性的CNN对bug报告转换成的词向量、源代码转换成的词向量以及源代码AST转换成的向量进行特征提取，得到三组特征，分别表示bug报告的特征、源代码的语义特征以及源代码的语法特征。

3)特征融合：使用一种全连通的网络将步骤2)中得到的三组特征进行融合，得到三者的统一特征。该步骤将三种不同空间上的特征映射到一个统一空间上，方便之后的模型训练。

4)构建模型：搜集bug报告、源代码文件以及bug报告和源代码文件与历史相关性信息作为训练集，使用本专利提出的基于CNN的特征抽取方法得到bug报告、源代码文件以及源代码文件的AST的统一特征，并将bug报告与源代码文件的相关性信息作为标签加入模型；使用CNN对训练集进行训练，同时加入dropout层正规化这个CNN并使用梯度下降算法来优化这个模型，最终得到训练好的CNN预测模型。

5)使用模型：维护使用上述方法对维护的项目构建模型，当用户提交一个新的bug报告时，将这个bug报告输入到训练好的CNN模型中，模型将为这个bug报告与所有源代码文件进行相关性预测，最终输出TopK份最相关的源代码文件。

本发明的特点在于：1、构建一种结合源代码语义与语法特征的基于CNN的bug定位模型； 2、考虑到源代码不同于自然语言的独特语义特征；3、结合源代码的语法特征；4、将三种特征映射到统一特征空间上。将这四点结合，本发明可以对特定的项目进行bug报告与源代码文件分析，从而基于CNN建立bug定位预测模型，当用户提交新的bug报告时，能快速自动定位到与bug相关的源代码文件中，从而提高维护效率。

本发明的有益效果是：可以训练出针对特定项目的bug定位模型，快速自动定位到与bug 相关的源代码文件，减少维护人员人工定位bug的时间成本，促进项目的整体维护水平的提高，从而提高维护效率。

附图说明

图1为本发明方法的整体流程图

图2为本发明bug报告特征提取流程

图3为本发明源代码特征提取流程

图4为本发明预测CNN模型的大致结构图

具体实施方式

本发明中涉及的几项关键技术是word2vec词向量模型、卷积神经网络、自然语言处理技术、梯度下降算法以及抽象语法树提取的相关知识与技术。

1、word2vec词嵌入模型

词向量是用来表示词的向量，也可被认为是词的特征向量，把词映射为实数域向量的技术也叫词嵌入。word2vec将每个词表示成一个定长的向量，并使得这些向量能较好地表达不同词之间的相似和类比关系。word2vec包含了两个模型：Skip-gram和CBOW(continuousbagofwords)。本发明中，主要使用word2vec中的Skip-gram模型对bug报告和源代码进行词嵌入。

2、自然语言处理工具与技术

自然语言处理(NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言处理包括多方面和步骤，基本有认知、理解、生成等部分。本发明中，主要使用NLTK工具对bug报告与源代码进行如去除停用词之类的预处理。

3、梯度下降算法

梯度下降法是一个一阶最优化算法，通常也称为最速下降法。要是用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度的反方向的规定步长距离点进行迭代搜索。本发明中，梯度下降算法主要运用于CNN训练中，以寻求最优解。

4、抽象语法树

抽象语法树(AST)是源代码语法结构的一种抽象表示。它以树状的形式表示编程语言的语法结构，树上的每个节点都表示源代码中的一种结构；之所以说语法是“抽象”的，是因为这里的语法并不会表示出真实语法中出现的每个细节。本发明中，抽象语法树主要用来表示源代码的语法结构特征。

5、卷积神经网络

卷积神经网络是一种前馈神经网络，由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成，同时也包括关联权重和池化层。相比于其他深度、前馈神经网络，卷积神经网络需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。本发明中，卷积神经网络主要用来提取bug报告、源代码语义以及源代码语法特征，并且用来进行预测模型的训练。

接下来，将对本发明所提出的bug定位方法的整体流程进行阐述，并对方法实施的具体过程进行详细说明。

1、方法整体流程阐述

当用户提交新bug报告时，维护人员若手动定位源代码文件，则维护成本很高。本发明中提出了中结合源代码语义与语法特征的基于CNN的bug定位方法来解决这个问题，该方法的整体流程如图1所示，大致理解就是，针对特定项目，搜集项目源代码文件以及历史提交并解决的bug报告，使用CNN分别对bug报告和源代码进行特征提取，再对这些特征进行融合并提取出统一的特征，最后使用CNN对bug报告和源代码进行相关性评分，得到与bug报告相关的TopK份源代码文件。通过这种模型，用户新提交的bug报告可以快速自动定位到相应的源代码文件，从而提高维护效率。

该模型的构建步骤如下：

1)分别对bug报告和源代码进行自然语言相关以及编程语言相关的预处理，同时提取源代码的AST；使用基于Wikipedia语料库的Skip-gram模型分别对上述三种源进行word2vec。

2)使用不同的CNN分别对步骤1)中得到的三组词向量进行特征提取，得到bug报告特征、源代码的语义特征以及源代码的语法特征这三组特征。

3)通过一个全连通的神经网络将步骤2)中得到的三组特征融合成一个统一的特征。

4)加入历史bug报告与源代码的相关性标签构建训练集，并使用CNN对该训练集进行训练，最终训练出一个bug定位的预测模型。

5)当用户提交新的bug报告时，利用步骤4)中训练出的模型对该bug报告与所有源代码文件进行相关性预测，最终得到与该bug报告最相关的TopK份源代码文件。

2、具体实施过程：

1)数据预处理：

1.1)bug报告一般由概述与具体描述组成，但概述一般信息很少甚至没有信息，故首先将每份bug报告的概述与具体描述抽取出并拼接成一条完整信息。

1.2)抽象语法树可以表示源代码的语法结构，所以提取出源代码的抽象语法树。

1.3)使用NLTK工具分别对bug报告与源代码进行相关的文本预处理操作，如去除停用词、分词以及拆分驼峰式命名等。

1.4)最后将上述步骤的文本全部转换成小写。

2)词嵌入：

使用基于Wikipedia语料库预先训练好的Skip-gram模型对bug报告、源代码、源代码 AST进行word2vec操作，得到三组词向量。对于Wikipedia语料库中没有的单词，本发明中随机初始化一个词向量并在训练过程进行优化调整。

3、特征提取

分别使用具有不同特性的CNN对bug报告转换成的向量、源代码转换成的向量以及源代码AST转换成的向量进行特征提取，得到三组特征，分别表示bug报告的特征、源代码的语义特征以及源代码的语法特征。其中图2描述了使用有2个过滤器的CNN对bug报告进行特征提取的流程；图3描述了使用m个过滤器的CNN对源代码进行特征提取的流程。

4、特征融合

使用一种全连通的神经网络对从bug报告、源代码以及源代码AST中提取的三组特征进行融合，得到这三者的统一特征。

5、训练与预测

加入bug报告与源代码文件的相关性信息作为标签，以此构建训练集。使用CNN对该训练集进行训练，CNN包括卷积层与一个最大池化层，同时增加一个dropout层来规范化CNN，该模型使用梯度下降算法来训练。图4描述了该CNN的大致结构，其中“sentence”包含之前得到的bug报告、源代码语义与源代码AST特征。

模型训练完成后，当用户提交新的bug报告时，该bug报告与所有源代码文件匹配并使用模型进行相关性预测，最终得到最相关的TopK份源代码文件。

Claims

1.一种结合源代码语义与语法特征的基于卷积神经网络(CNN)的bug定位方法，其特征是提出一种根据用户提交的bug报告定位到产生bug的源代码文件的方法，该方法使用CNN分别对bug报告和源代码进行特征提取，再对这些特征进行融合提取出统一的特征，最后使用CNN对bug报告和源代码进行相关性评分，得到与bug报告相关的TopK源代码文件，从而使得当用户提交bug报告时，开发人员能及时定位到相关源代码并进行修改，以提高修复bug的效率，该基于CNN的bug定位方法步骤如下：

1)将bug报告当作自然语言进行去掉停用词等预处理，并使用word2vec将bug报告转换成向量，以方便之后的特征提取；

2)使用word2vec将源代码转换成向量，以便提取出源代码的语义特征；

3)首先从源代码文件中提取出AST(抽象语法树)，再使用word2vec将AST转换成向量，以便提取出源代码的语法特征；

4)使用不同的CNN分别对步骤1)、2)、3)中的三个向量进行各自特征的提取；

5)通过一个全连通的神经网络将步骤4)中得到的三种特征融合成一个统一的特征；

6)加入已知的bug报告与源代码的关联标签，使用CNN对步骤5)中得到的统一特征进行训练，训练出一个对bug报告和源代码进行相关性评分的模型；

7)将新提交的bug报告输入步骤6)中得到的模型，模型产生与该bug报告最相关的TopK个源代码文件。

2.根据权利要求1描述的bug报告和源代码的特征提取，其特征是使用不同的CNN分别对bug报告和源代码进行特征提取，其相关步骤如下：

1)使用工具NLTK(NaturalLanguageToolkit)对bug报告和源代码文件进行预处理，如去除停用词、拆分由多个单词组合的单个单词、拆分驼峰式命名；

2)使用基于Wikipedia语料库预先训练好的Skip-gram模型对bug报告和源代码进行word2vec操作，将自然语言和编程语言转换成词向量；

3)从每个源代码文件中提取出能反映程序语法结构的AST，使用word2vec中的Skip-gram模型将AST转换成向量；

4)分别使用具有不同特性的CNN对bug报告转换成的向量、源代码转换成的向量以及源代码AST转换成的向量进行特征提取，得到三组特征，分别表示bug报告的特征、源代码的语义特征以及源代码的语法特征。

3.根据权利要求1描述的特征融合成统一特征，其特征是使用一种全连通的神经网络对从bug报告、源代码以及源代码AST中的三组特征进行融合，得到这三者的统一特征。

4.根据权利要求1描述的使用CNN对bug报告和源代码进行相关性评分，其特征是构建一个CNN对训练集进行训练，得到bug定位的预测模型，其操作步骤如下：

1)搜集bug报告、源代码文件以及bug报告与源代码文件的相关性信息作为训练集，使用本专利提出的基于CNN的特征提取方法得到bug报告、源代码文件以及源代码AST的统一特征，将bug报告与源代码的相关性信息作为标签加入模型；

2)使用CNN对1)中获得的训练集进行训练，同时加入dropout层正规化这个CNN并使用梯度下降算法来优化这个模型，最终得到训练好的CNN预测模型；

3)当用户提交一个新的bug报告时，将这个bug报告输入到训练好的CNN模型中，模型将为这个bug报告与所有源代码文件进行相关性预测，最终输出TopK个最相关的源代码文件。