CN115982037A

CN115982037A - 一种基于抽象语法树的软件缺陷预测方法

Info

Publication number: CN115982037A
Application number: CN202211735838.6A
Authority: CN
Inventors: 鲁书勉; 刘一非; 刘宏志
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-04-18

Abstract

本发明提供了一种基于抽象语法树的软件缺陷预测方法，属于深度学习领域和软件缺陷预测领域。本发明通过将源代码转换为抽象语法树的形式，保留其定义良好的结构信息与语义信息，使用图卷积网络(GCN)来学习语法树结构中的节点的特征和网络结构的信息；使用词嵌入将抽象语法树的节点序列转换成文本向量，然后使用BiGRU网络来学习上下文直接的语义关系以提取语义特征，最后将得到的两类特征基于注意力机制进行聚合得到代码的特征，将其输入分类器中以预测缺陷率。本发明充分利用了代码的语义和语法特征使用注意力机制为不同变量赋予不同的权重，减少了噪声干扰，提高了软件缺陷预测的准确率。

Description

一种基于抽象语法树的软件缺陷预测方法

技术领域

本发明涉及深度学习领域和软件缺陷预测领域，可以帮助软件工程师和测试人员合理分配资源来定位错误，快速缩小软件代码库中最有可能存在缺陷的部分。

背景技术

随着软件系统在社会各个领域扮演着重要的角色，软件产生的缺陷对商业和人们的生活产生了重大的影响。然而，由于软件代码库在规模和复杂性上的显著增长，识别软件代码中的缺陷变得越来越困难。传统软件缺陷预测是以手工获取软件度量特征的基础进行分类学习,如机器学习技术已被广泛用于建立缺陷预测模型，这些技术从软件代码中提取出许多特征，并将它们输入到常见的分类器中，比较有代表性的如SVM支持向量机、随机森林、朴素贝叶斯和逻辑回归等。但是传统软件缺陷预测方法使用静态代码度量作为特征，这些特性并不能真正反映代码的语法和语义，这无疑会对缺陷预测造成影响。

随着深度学习的发展，人们发现它在捕获源代码的语法和语义特征方面表现的很好。前人大量的实验已经证明，将代码转换成抽象语法树的形式能够很好的保留代码的结构，目前主流的软件缺陷预测模型都有这一步，该类方法的关键思想是将源代码的抽象语法树中提取的token向量用来生成源代码的语义特征表示，并利用生成的特征建立更精确的分类模型。然而要获取更精准的语义特征以使模型更准确，还需要一种方法来更好的利用抽象语法树中定义良好的结构信息和丰富的语义。

发明内容

本发明基于抽象语法树的表现形式，提供一种基于GCN网络和双向GRU网络结合的方法获取源代码的语义特征，并加入了注意力机制来提高模型的性能。

本发明提供的技术方案如下：

一种基于抽象语法树的软件缺陷预测方法，包括如下步骤：

1)解析源代码为抽象语法树；

2)使用深度遍历算法将抽象语法树转换成文本向量，如果抽象语法树的大小为n，则获得一个关于Y的文本向量：

Y＝[Y₁ ,Y₂ ,Y₃,...,Yn ] (1)

3)为抽象语法树的每个代码片段生成节点关系图，AST上的每个节点都有自己的特征，设这些节点的特征组成一个n×D维的矩阵,然后各个节点间的关系也会形成一个n×n维的邻接矩阵A:

图用G＝(S,E)表示，其中S中元素为顶点，E中元素为边；

4)词嵌入过程。使用Gensim库将文本向量转换为可以输入GRU的数字向量，建立一个映射字典表，将向量中的每个文本元素链接到一个整数，这些整数充当标记，唯一地标识AST中的每个文本元素。通过这种方法，可以将节点序列中的每个元素都被替换成数字符号，并且保持它们的顺序不变。通过步骤(2)给定的文本向量，最终可以得到相应的嵌入矩阵x。

x＝[x₁,x₂,x₃,...xn] (3)

对于数据中的类不平衡问题，使用随机过采样-SMOTE方法来处理。

5)将步骤3)中得到的数据输入图卷积网络中，在GCN网络中，节点关系图和相对应的节点作为其输入，对于GCN网络中的每个节点，需要考虑其所有邻居以及自身所包含的特征信息。它的层与层之间的传播方式是：

其中hl为GCN网络每一层生成的隐藏表示，

I为单位矩阵，

是

的度矩阵，σ为非线性激活函数，wl是第l层神经网络的权重矩阵,bl为偏置矩阵，通过层与层之间的传播最后得到GCN网络的输出表示

6)

是BiGRU网络每一层生成的隐藏表示，它使用步骤4)中得到的嵌入矩阵x作为输入：

BiGRU可以表示为两个单向的GRU网络，BiGRU()函数是对输入的嵌入矩阵x的非线性变换，将其编码成BiGRU网络的输出表示hc。

7)获得了GCN层的输出表示

和BiGRU网络的输出表示hc，然后使用注意力机制来聚合获取的两种特征，从源代码中捕获着重的情感特征：

公式(6)为计算注意力系数，||表示向量拼接操作，旨在将获取的两种特征进行拼接，W表示权重矩阵。其中

是隐藏状态的第i个节点，

是图隐藏表示的第j个节点，a为非线性激活函数LeakyReLU。

因此，经过对数据的一系列处理，最终可以得到源代码的表达形式为：

8)将源代码的表达形式r输入分类器，使用逻辑回归算法得到软件缺陷预测，即逻辑回归是一种预测二元结果的算法，得到的结果为Negative和Positive两种，在软件缺陷预测中应用非常广泛。它使用交叉熵作为损失函数，计算每个类别对应的两个标签的概率，对应类别的预测标签即为有高概率得分的标签。

本发明的技术效果是：

本发明考虑到使用传统机器学习方法来预测软件缺陷问题的不足，难以获取代码真正的语义和语法特征，使用了抽象语法树方法来获取代码特征。本发明以图卷积网络(GCN)和双向GRU网络为核心模型，将抽象语法树转换为向量节点后，利用GCN通过整合每个节点自身及其邻居节点包含的特征信息来获取本节点的隐藏表示。利用BiGRU将通过词嵌入获取的数字向量转换成节点的隐藏表示，以此来捕捉序列之间的关系特征，解决了RNN不能长期记忆和反向传播的梯度问题。同时将两种网络得到的特征进行聚合，使用了注意力机制来为不同特征赋予不同的权重，从而体现不同特征的重要性。并在此基础上对得到的源代码特征进行计算，预测其缺陷率。

附图说明：

图1为本发明的系统框架图；

图2为本发明中简要的节点关系图；

图3为本发明中GRU网络的模型图；

图4为采用本发明和其它预测方法的预测结果示意图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明基于抽象语法树的表现形式，提供一种基于GCN网络和双向GRU网络结合的方法获取源代码的语义特征，并加入了注意力机制来提高模型的性能。如图1所示，本发明基于抽象语法树的软件缺陷预测方法，包括如下步骤：

1)使用python的javalang库，将源代码转换为抽象语法树；

2)获取解析的AST后，为了能更好的反映AST节点的层次关系，使用深度遍历算法(DFT)对向量的元素进行标记，这样每一个AST节点都会变成向量的元素，使用这种方法将抽象语法树转换成文本向量，如果抽象语法树的大小为n，可以获得一个关于Y的文本向量：

Y＝[Y₁ ,Y₂ ,Y₃,...,Yn ] (1)

3)为抽象语法树的每个代码片段生成节点关系图，简要关系图如图2所示，邻接矩阵为n阶方阵，n为顶点数量，S_iSj表示节点关系图中的边。AST上的每个节点都有自己的特征，设这些节点的特征组成一个n×D维的矩阵,然后各个节点间的关系也会形成一个n×n维的邻接矩阵A:

图用G＝(S,E)表示，其中S中元素为顶点，E中元素为边，

4)词嵌入过程。使用Gensim库将文本向量转换为可以输入GRU的数字向量，它使用无监督的方式从原始的非结构化文本当中来学习到文本隐藏层的主题向量表达，建立一个映射字典表，将向量中的每个文本元素链接到一个整数，使用这些整数充当标记，可以让AST中的每个文本元素都只对应一个数字符号。例如将static对应1，public对应2。通过这种方法，可以将节点序列中的每个元素都被替换成数字符号，并且保持它们的顺序不变。通过步骤(2)给定的文本向量，最终可以得到相应的嵌入矩阵x。

x＝[x₁,x₂,x₃,...xn] (3)

在软件中无缺陷的模块一般都会多于有缺陷的模块，对源数据直接进行训练的话容易偏向多数的部分，对模型预测结果造成影响，因此使用随机过采样-SMOTE方法来处理数据中的类不平衡问题。

5)将步骤(3)中得到的数据输入图卷积网络中，在GCN网络中，节点关系图和相对应的节点作为其输入，每一层的输出都作为下一层的输入，对于GCN网络中的每个节点，需要考虑其所有邻居以及自身所包含的特征信息。它的层与层之间的传播方式是：

其中hl为GCN网络每一层生成的隐藏表示，

I为单位矩阵，

是

由于A是没有归一化的矩阵，与特征矩阵相乘时会改变特征的分布且会遗漏A本身的信息，可能会导致梯度爆炸或者梯度消失，所以对A进行标准化处理，让矩阵A加上单位矩阵后再乘以度矩阵的逆，最终得到一个对称且归一化的矩阵。

hc是双向GRU网络每一层生成的隐藏表示，它使用步骤四中得到的嵌入矩阵x作为输入：

BiGRU层用于提取输入文本向量的文本深层特征，BiGRU模型由一个前向的GRU和一个反向GRU组成，GRU模型如图3所示，输入为步骤(4)中获得的词向量矩阵xt和从上一个节点传输下来的隐状态ht^-1,通过更新门z和重置门r来得到传递给下一节点的隐状态ht。通过BiGRU特征提取后，可以更加充分的学习文本中的上下文之间的关系。

最终获得了GCN层的输出表示

是隐藏状态的第i个节点，

是图隐藏表示的第j个节点，a为非线性激活函数LeakyReLU。

6)最后将源代码的表达形式r输入分类器，使用逻辑回归算法得到软件缺陷预测，逻辑回归是一种预测二元结果的算法，得到的结果为Negative和Positive两种，在软件缺陷预测中应用非常广泛。它使用交叉熵作为损失函数，计算每个类别对应的两个标签的概率，对应类别的预测标签即为有高概率得分的标签。

7)选用比较常用的准确率(Precision)，召回率(Recall)和F1分数(F1-score)来衡量预测的结果。

Precision＝TP/(TP+FP) (9)

Recall＝TP/(TP+FN) (10)

TP表示实际有缺陷样本被预测为有缺陷；TN表示实际无缺陷样本被预测为无缺陷；FP表示实际无缺陷样本被预测为有缺陷；FN为实际有缺陷样本被预测为无缺陷。

准确率为实际缺陷样本占预测为缺陷样本的比例；召回率为被预测为有缺陷的样本占实际缺陷样本的比例；F1为准确率和召回率的调和平均值。参考图4，AUC被定义为ROC曲线下与坐标轴围成的面积，ROC为接收者操作特征曲线，该曲线的横坐标是FP，纵坐标是TP。这个面积的数值不会大于1，AUC越接近1，检测方法真实性越高。本发明以camel、jedit、log4j、lucence、poi、synapse、velocity和xalan等数据集为例，采用现有的预测方法如DT、DBN、CNN、LSTM等方法来和本方法来进行实验比较，从本发明GCRU(基于GCN网络和双向GRU网络结合)得到的结果来看，采用本发明预测效果优于其它预测方法。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。