CN114528221A

CN114528221A - 一种基于异质图神经网络的软件缺陷预测方法

Info

Publication number: CN114528221A
Application number: CN202210173406.4A
Authority: CN
Inventors: 姜博; 熊扬帆; 高小鹏; 王世海; 孙海龙
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-24
Anticipated expiration: 2042-02-24
Also published as: CN114528221B

Abstract

本发明公开了一种基于异质图神经网络的软件缺陷预测方法，属于软件缺陷测试领域：首先，针对已有的软件仓库和软件缺陷日志数据，通过相应的解析将它们转化为对应的代码图和缺陷链；并根据缺陷描述信息的内容，通过带状态机的前缀树将代码图中的节点与缺陷图中的节点进行跨域关联；分别对代码节点和缺陷节点生成表示向量后，送入到异质图神经网络中进行多层次的注意力聚合，得到内容和语义路径的信息传递，并得到连接的代码节点和缺陷节点；使用知识图谱表示学习方法对连接节点进行解码，将解码得分归一化后即得到代码节点是否存在缺陷；本发明从新的方式开展软件缺陷预测，提高了软件缺陷预测工具的精确性。

Description

一种基于异质图神经网络的软件缺陷预测方法

技术领域

本发明属于软件缺陷测试领域，具体是一种基于异质图神经网络的软件缺陷预测方法。

背景技术

软件开发的过程中，不可避免的会引入软件缺陷，而软件缺陷对于软件质量有重要的影响。

伴随着移动互联网、云计算、区块链和人工智能的兴起，软件质量保证的使用范围也从传统软件行业拓宽至新兴软件领域内，并且对于软件质量保证提出了更高的需求。多样化的软件应用已经覆盖到各行各业，在不断的迭代和更新软件技术的同时，软件的复杂度也越来越高，此时软件系统的可靠性和稳定性是一个不容忽视的问题，它与国防安全、工业生产、人民群众的生命财产安全息息相关。尤其在国防、工业生产等领域，因为软件缺陷导致的事故一般会带来重大的伤亡并伴随着巨额的经济财产损失。如此高昂的代价需要所有的软件从业人员重视软件质量问题，并尽可能的降低由软件质量问题带来的损失。

根据IEEE标准，在软件生命周期中，软件缺陷导致软件无法满足需求和规格要求，需要进行修复的瑕疵和问题，是软件程序在开发、执行期间表达的信息与软件需求之间的冲突。软件缺陷预测则是利用已有的软件缺陷领域知识与软件文档、仓库，源代码相关信息结合，通过算法，在软件项目的源代码中预测出尚未被发现的缺陷。

当前的软件缺陷预测技术面对复杂度高的软件开发形势存在局限性。通过数据驱动的方式，缺陷预测技术使用人工设计的度量元或者机器学习特征提取技术，并结合相关的分类算法或者网络模型进行缺陷的预测和等级分类。在实际应用中，基于机器学习驱动的软件缺陷预测技术面临着冷启动和缺少标注数据的问题，这使得人工设计特征或者机器学习方法的软件缺陷预测技术的实际应用价值受到较多的限制。同时，进行跨项目的软件缺陷预测是一个比较困难的点：不同项目间的差异性较大，开发的需求、应用的场景等软件开发背景和实际的开发内容、开发管理流程都无法直接迁移。

发明内容

针对上述问题，本发明提出了一种基于异质图神经网络的软件缺陷预测方法，以软件代码和缺陷报告数据为基础，将它们转化为图结构，并通过构建异质图神经网络进行代码到缺陷的链接预测，实现了项目内和项目间的软件缺陷预测和定位。

具体步骤如下：

步骤一、针对软件仓库，将该软件仓库的原始源代码转换成抽象语法树，进行数据解析，抽取内容节点并保留各节点在抽象语法树的上下位关系，得到代码精简图；

具体为：

首先，将源代码通过clang编译器的语法分析器转换成对应的抽象语法树结构，忽略抽象语法树内置的相关系统库文件和外部引入的第三方链接库，保留编写的代码内容。

随后，从根节点开始进行代码内容的深度优先遍历，抽取内容中的名字空间、类、结构体、函数、statement等类型节点，并根据抽象语法树的节点上下文信息保留各节点之间对应的具体关联。

步骤二、从软件缺陷追溯系统的问题列表Issues List中，获取被标记为Bug类型的所有缺陷问题，并解析各缺陷对应的细节信息、缺陷总结、缺陷描述以及修复的补丁，保留缺陷追溯系统中各缺陷与其他已有缺陷的关联信息，从而构建得到缺陷链；

步骤三、将缺陷链中各缺陷节点的描述与代码精简图中各节点的内容匹配，进行跨域的关联链接；

具体过程为：

首先，将代码精简图中各节点的内容分别作为一个模式串，所有模式串构建成代码内容文本的前缀树，在前缀树上通过构建状态机进行失配跳转，跳转回上一个最长前缀节点。

然后，将每个缺陷节点的缺陷描述分别作为一个文本串，在前缀树上对已有的所有模式串分别进行匹配，如果文本串A与模式串B匹配成功，则将文本串A对应的缺陷节点与模式串对应的代码精简图的节点进行跨域的链接；如果文本串A与模式串B匹配不成功，继续选择下一个模式串重新匹配，直至成功；如果整个前缀树中都没有模式串与文本串A匹配成功，则在前缀树中加入新的模式串并建立相应的状态机。

所述在前缀树上构建状态机的步骤如下：

首先，检测前缀树上是否存在已有模式的前缀，如果存在，则记录当前模式的信息到已有模式前缀的结尾；若不存在，利用当前模式的信息创建新的前缀树分支；在构建新的前缀树中，当前分支的叶节点状态机的失配状态连接到上一个最长对称子序列的末端节点；若到达模式串结尾，则在处理好失配状态机后转跳回前缀树的根部。

步骤四、在代码精简图上针对各个节点的代码内容片段构建表示模型，获取各节点对应的表示向量；

具体为：

首先，从代码精简图对应的抽象语法树上，获取从一个叶节点跨越根节点到达另一端叶节点的深度关键路径，获取的关键路径数量与语法树的深度相同；

然后，将抽象语法树的节点类型作为序列的token，给出对应token的初始化表示，并在同一个深度下，将各关键路径之间进行注意力聚合；随后在不同深度内的关键路径之间进行注意力聚合，将多条路径汇聚为该抽象语法树的表示向量信息。

接着，对抽象语法树遍历的各节点抽取时划分的类型进行分类，得到代码节点的表示向量信息。

使用结合softmax的交叉熵函数作为损失函数对分类过程进行训练，损失收敛后得到的表示向量即为各代码节点的表示信息；

步骤五、对缺陷链各个缺陷节点的缺陷描述做Seq2Seq处理，将得到的总结序列与原有的缺陷总结通过Rouge指标进行评估训练，得到各缺陷节点对应的表示向量；

具体为：

首先，对缺陷链各节点的缺陷描述视为各节点的长文本，对应于各缺陷节点的总结信息。

然后，逐个将长文本送入T5模型中，通过自监督的破坏部分内容随后还原的预训练方法，获取各长文本对应的摘要总结文本；

最终，通过Rouge将各长文本对应的总结信息的向量表示与摘要总结文本的向量表示进行有监督的学习，获取到摘要文本中[CLS]位置的向量作为缺陷描述的表示向量信息，即得到各缺陷节点的表示向量信息；

步骤六、将代码精简图的各节点表示向量和缺陷链的各节点表示向量，输入面向异质图的神经网络中，进行节点自身的内容信息和节点间的消息传递；利用代码精简图和缺陷链中各节点匹配后跨域的关联，将潜在缺陷的代码节点与缺陷库中的节点连接起来；

该异质图神经网络从节点端和语义路径端对节点的领域和远端语义路径进行信息的传递。

节点端：

通过在邻域进行图采样获取N阶邻居节点，随后逐阶通过自注意力机制将高阶邻居节点的信息汇聚到低阶邻居节点上，对于不同类型的节点，使用线性变换将它们从自身特有的表示空间转换到对应目标节点类型的表示空间中。

节点端汇聚的函数为：

对节点v_i一共进行

阶邻居采样，对第

阶上有邻居节点v_k进行自注意力的聚合；

是第

阶上的所有邻居节点集合；

是节点v_k自注意力的查询向量，

是节点v_k自注意力的键向量，

是自注意力的值向量。d是自注意力向量的维度数，σ为激活函数；

同时，节点端汇聚能够融入多头注意力机制，实现多头自注意力机制，此时对应的汇聚函数为：

H为多头注意力机制的头数；

从而得到一个包含节点自身内容及其邻域的汇聚信息的表示向量。

语义路径端：

语义路径间聚合是对代码精简图和缺陷链中各节点匹配后跨域的连接边进行聚合，由于存在多种不同类型的连接边，因此通过不同特征空间的边向量空间加以区别。

将不同的语义路径进行聚合，从语义路径的远端将代码或缺陷的内容信息传递到另一端，利用多头的自注意力将各种不同的语义路径进行聚合，从而为软件缺陷的理解和检测提供了相关数据。

步骤七、将异质图神经网络作为图编码器，使用DisMult表示方法作为解码器，计算连接的潜在缺陷的代码节点与缺陷库中的节点之间连接边的得分，并判断得到是否超过0.5，如果是，则判定两者存在关联，即代码存在当前缺陷，反之，代码不存在当前缺陷；

得分计算公式为：

f(h,r,t)＝||h^TM_rt||

本发明在此处设计的间距损失函数为：

γ为对应的预设间隔，M_r为特定关系对应的参数矩阵，S⁺对应正样本集，S^-则对应于构造的负样本集合。

间隔约束条件如下：

(1)在正样本得分与负样本得分的差，添加上设定的预定间隔之后，若大于0，则保留原计算值；

(2)若正样本得分与负样本得分的差，添加上设定的预定间隔后小于0，则统一保留归为0；

(3)计算得到的得分需要统一进行sigmoid归一化；

步骤八、对于新输入到代码或软件仓库，返回步骤一进行相关原始数据的处理，得到新的代码图和缺陷图融入到当前的图中。

本发明的优点在于：

1)、一种基于异质图神经网络的软件缺陷预测方法，能够帮助程序开发者、软件测试人员和软件管理人员简单高效地了解软件项目中的代码缺陷情况，提高了软件项目的可靠性和稳定性。

2)、一种基于异质图神经网络的软件缺陷预测方法，将代码转换为较细粒度的精简抽象语法树，通过在代码图中对缺陷节点进行链接预测，做到缺陷预测的同时，能够天然对缺陷的位置进行定位，定位到具体连接的代码节点内容。

3)、一种基于异质图神经网络的软件缺陷预测方法，将缺陷检测与已有缺陷库关联，使得在给出代码缺陷链接的同时，给出缺陷库内已有的相关缺陷解决方法，有助于开发测试人员快速解决已有缺陷。

附图说明

图1是本发明基于异质图神经网络进行软件缺陷预测的整体分层架构图；

图2是本发明一种基于异质图神经网络的软件缺陷预测方法的流程图；

图3是本发明中关于代码节点的内容表示向量获取方法示意图；

图4是本发明中关于异质图神经网络双层聚合示意图；

图5是本发明实现的编码器-解码器进行软件缺陷预测的结构示意图；

图6是本发明实现的代码转换图结构工具得到的MESOS仓库部分代码图示意图；

图7是本发明使用两种负采样容量下进行缺陷链接预测实验对比图；

图8是本发明对比使用异质图神经网络和不使用的情况下进行缺陷链接预测实验对比图；

具体实施方式

下面将结合附图和实施示例对本发明作进一步的详细说明，但不构成对本发明的限制。

本发明一种基于异质图神经网络的软件缺陷预测方法，通过对软件仓库的源代码和缺陷报告转化为对应的图结构，基于异质图神经网络计算图中节点的向量表示，进行节点间链接预测的软件缺陷预测；通过包含具体的代码缺陷内容以及语义路径信息，提高软件缺陷检测的信息量及精确性，为复杂的跨软件缺陷检测中的缺陷预测和定位工作提供帮助，以便于后期修复。

该软件缺陷预测方法的整体架构如图1所示，首先对软件仓库源代码数据进行解析抽取，转为抽象语法树进行树上节点的化简，并解析软件缺陷报告中存在的缺陷内容和缺陷关联，随后通过附有状态机的前缀树，对代码和缺陷进行跨域的关联；

然后，通过对语法树的深度路径抽取和多层的序列聚合得到代码节点的内容表示，通过缺席描述的摘要生成和原有总结进行有监督训练得到缺陷节点的表示；

并将计算得到的代码节点表示和缺陷节点表示作为异质图神经网络的输入，通过领域的自注意力聚合和语义路径的聚合，学习到节点的最终表示，并利用解码器对节点对进行解码，得到存在链接的得分，以便软件开发人员和软件测试人员发现程序的缺陷并修复。

本发明以新的视角进行软件缺陷预测任务，通过代码内容和缺陷的信息传递，提升了软件缺陷预测效果，并天然能够做到对代码的精确定位。

所述的一种基于异质图神经网络的软件缺陷预测方法，如图2所示，具体步骤如下：

具体为：

步骤二、利用软件缺陷追溯系统(Issue Tracking System)获取问题列表(IssuesList)中，被标记为Bug类型的所有缺陷问题，并解析各缺陷对应的细节信息、缺陷总结、缺陷描述以及修复的补丁，保留缺陷追溯系统中各缺陷的关联信息，例如与其他已有缺陷相关，从而构建得到缺陷链；

缺陷追溯系统是现有的一类系统，用来管理软件中缺陷维护工作，里面包含问题列表issues list。

具体过程为：

所述在前缀树上构建状态机的步骤如下：

检测前缀树上是否存在已有模式的前缀，如果存在，则记录当前模式的信息到已有模式的前缀结尾；若不存在，则利用当前模式的信息创建新的前缀树分支；在构建新的前缀树中，当前分支的叶节点状态机的失配状态连接到上一个最长对称子序列的末端节点；若到达模式串结尾，则在处理好失配状态机后转跳回前缀树的根部。

步骤四、在步骤一中得到的代码精简图上针对各个节点的代码内容片段构建表示模型，获取各节点对应的表示向量；

如图3所示，具体为：

然后，将抽象语法树的节点类型作为序列的token，给出对应token的初始化表示，并在同一个深度下，将各关键路径内部进行软注意力聚合，得到各个路径自身的表示向量；随后在不同深度内的关键路径之间进行注意力聚合，将多条路径汇聚为该抽象语法数的表示向量，即当前代码节点的表示向量。

通过对抽象语法树遍历的各节点抽取时划分的类型进行分类，得到代码节点的表示向量信息。代码节点的类型对应于节点的语法含义，例如函数、类等代码语义层面的信息作为节点的类型，共有5种语义标签，而分类则使用结合softmax的交叉熵函数作为损失函数对整个过程进行训练，损失收敛后得到的模型计算出的表示向量即为使用所需的代码节点表示信息；

具体为：

首先，对缺陷链各节点的描述信息分别视作长文本，对应于各缺陷节点的总结信息。

然后，逐个选择长文本，并送入T5(Text-to-Text Transfer Transformer)模型中，通过自监督的破坏部分内容随后还原的预训练方法，获取该长文本对应的摘要总结文本；

最终通过Rouge将各长文本对应的总结信息的向量表示与摘要总结文本的向量表示，进行有监督的学习，获取到摘要文本中[CLS]位置的向量作为缺陷描述的表示向量信息，即得到各缺陷节点的表示向量信息；

步骤六、将代码精简图的各节点表示向量和缺陷链的各节点表示向量，输入面向异质图的神经网络中，进行节点自身的内容信息和节点间的消息传递；利用代码精简图和缺陷链中各节点匹配后跨域的关联，通过链接预测的任务训练，将潜在缺陷的代码节点与缺陷库中的节点连接起来；

异质图是指图中节点或边的类型不止一种的图，通过在该图上设计一个能够将代码图和缺陷图之间的语义结构化信息在两边进行传递的图神经网络；该异质图神经网络将从节点端和语义路径端对节点的领域和远端语义路径进行信息的传递，如图4所示。

在节点端通过在邻域进行图采样获取N阶邻居节点，随后逐阶通过自注意力机制将高阶邻居节点的信息汇聚到低阶邻居节点上，对于不同类型的节点，使用线性变换将它们从自身的特有的表示空间转换到对应目标节点类型的表示空间中。

在本发明中，节点端汇聚的函数为：

对节点v_i一共进行

阶邻居采样，对第

阶上有邻居节点v_k进行自注意力的聚合；

是第

阶上的所有邻居节点集合；

是节点v_k自注意力的查询向量，

是节点v_k自注意力的键向量，

是节点v_k自注意力的值向量。d是自注意力向量的维度数，σ为激活函数。

H为多头注意力机制的头数；

在语义路径间聚合则是对代码精简图和缺陷链中各节点匹配后，所有的跨域代码和缺陷连接边进行聚合，由于存在多种不同类型的连接边，因此通过不同特征空间的边向量空间加以区别。

将不同的语义路径进行聚合，从语义路径的远端将代码或缺陷的内容信息传递到另一端，利用多头的自注意力将各种不同的语义路径进行聚合，让模型能够兼容各种类型的节点进行跨域的信息交互，从而为软件缺陷的理解和检测提供了相关数据。

链接预测的训练通过负样本构造，随后区别正负样本的方式进行。为此，对每一个正样本构造的1000个节点类型相同的负样本，并使用贝叶斯个性化排序作为训练的损失函数：

γ为对应的预设间隔。

通过该损失函数进行异质图神经网络的训练，本发明得到一个直推式的图中节点的表示方法。

步骤七、将异质图神经网络作为图编码器，使用DisMult表示方法作为解码器，计算连接的潜在缺陷的代码节点与缺陷库中的节点之间连接边的得分，并判断得到是否超过0.5，如果是，则判定两者存在关联，即代码存在当前缺陷；反之，代码不存在当前缺陷；

如图5所示，通过负采样进行学习，将该得分作为代码与缺陷之间是否存在连接的依据；

DisMult是从矩阵分解的角度将节点对和对应的边进行分解，它对应的得分函数为：

f(h,r,t)＝||h^TM_rt||

本发明在此处设计的间距损失函数为：

间隔约束条件如下：

(3)计算得到的得分需要统一进行sigmoid归一化；

具体实例：

使用本发明所述方法对Apache组织维护的8个软件仓库进行软件缺陷预测，如图6所示为生成的MESOS软件对应的代码图结构，如图7所示为软件缺陷预测方法在小的负样本采样下和较大负样本采样下的预测效果，发现预测的数据能够有效的在大量的缺陷样本中将正确的缺陷样本排在前列，图8所示为对比使用该基于异质图神经网络的方法与不使用异质图神经网络时的预测性能比较。通过结果分析可得本发明的软件缺陷预测方法能够精确、准确地发现软件中潜在的相关缺陷。

Claims

1.一种基于异质图神经网络的软件缺陷预测方法，其特征在于，具体步骤如下：

针对软件仓库，首先，将该软件仓库的原始源代码转换成抽象语法树，进行数据解析抽取内容节点构建代码精简图；同时、从软件缺陷追溯系统的问题列表Issues List中，获取被标记为Bug类型的所有缺陷问题，并解析构建得到缺陷链；

然后、将缺陷链中各缺陷节点的描述与代码精简图中各节点的内容匹配，进行跨域的关联链接；

接着、获取代码精简图上各个节点和缺陷链各个缺陷节点分别对应的表示向量，输入面向异质图的神经网络中，进行节点自身的内容信息和节点间的消息传递；利用代码精简图和缺陷链中各节点匹配后跨域的关联，将潜在缺陷的代码节点与缺陷库中的节点连接起来；

最后、将异质图神经网络作为图编码器，使用DisMult表示方法作为解码器，计算连接的潜在缺陷的代码节点与缺陷库中的节点之间连接边的得分，并判断得到是否超过0.5，如果是，则判定两者存在关联，即代码存在当前缺陷，反之，代码不存在当前缺陷；

对于新输入到代码或软件仓库，返回相关原始数据的处理，得到新的代码图和缺陷图融入到当前的图中。

2.如权利要求1所述的一种基于异质图神经网络的软件缺陷预测方法，其特征在于，所述构建代码精简图，具体过程为：

首先，将软件仓库的源代码通过clang编译器的语法分析器转换成对应的抽象语法树结构，忽略抽象语法树内置的相关系统库文件和外部引入的第三方链接库，保留编写的代码内容；

随后，从根节点开始进行代码内容的深度优先遍历，抽取内容中的名字空间、类、结构体、函数和statement的类型节点，并根据抽象语法树的节点上下文信息保留各节点之间对应的具体关联。

3.如权利要求1所述的一种基于异质图神经网络的软件缺陷预测方法，其特征在于，所述解析各缺陷问题对应的细节信息、缺陷总结、缺陷描述以及修复的补丁，保留缺陷追溯系统中各缺陷与其他已有缺陷的关联信息，从而构建得到缺陷链。

4.如权利要求1所述的一种基于异质图神经网络的软件缺陷预测方法，其特征在于，所述将缺陷链中各缺陷节点与代码精简图中各节点进行跨域的关联链接，具体过程为：

首先，将代码精简图中各节点的内容分别作为一个模式串，所有模式串构建成代码内容文本的前缀树，在前缀树上通过构建状态机进行失配跳转，跳转回上一个最长前缀节点；

然后，将每个缺陷节点的缺陷描述分别作为一个文本串，在前缀树上对已有的所有模式串分别进行匹配，如果文本串A与模式串B匹配成功，则将文本串A对应的缺陷节点与模式串对应的代码精简图的节点进行跨域的链接；如果文本串A与模式串B匹配不成功，继续选择下一个模式串重新匹配，直至成功；如果整个前缀树中都没有模式串与文本串A匹配成功，则在前缀树中加入新的模式串并建立相应的状态机；

所述在前缀树上构建状态机的步骤如下：

5.如权利要求1所述的一种基于异质图神经网络的软件缺陷预测方法，其特征在于，所述获取代码精简图各节点对应的表示向量，具体为：

然后，将抽象语法树的节点类型作为序列的token，给出对应token的初始化表示，并在同一个深度下，将各关键路径之间进行注意力聚合；随后在不同深度内的关键路径之间进行注意力聚合，将多条路径汇聚为该抽象语法树的表示向量信息；

接着，对抽象语法树遍历的各节点抽取时划分的类型进行分类，得到代码节点的表示向量信息；

使用结合softmax的交叉熵函数作为损失函数对分类过程进行训练，损失收敛后得到的表示向量即为各代码节点的表示信息。

6.如权利要求1所述的一种基于异质图神经网络的软件缺陷预测方法，其特征在于，所述获取缺陷链各缺陷节点对应的表示向量，具体为：

首先，对缺陷链各节点的缺陷描述视为各节点的长文本，对应于各缺陷节点的总结信息；

最终，通过Rouge将各长文本对应的总结信息的向量表示与摘要总结文本的向量表示进行有监督的学习，获取到摘要文本中[CLS]位置的向量作为缺陷描述的表示向量信息，即得到各缺陷节点的表示向量信息。

7.如权利要求1所述的一种基于异质图神经网络的软件缺陷预测方法，其特征在于，所述面向异质图的神经网络从节点端和语义路径端对节点的领域和远端语义路径进行信息的传递；

节点端：

通过在邻域进行图采样获取N阶邻居节点，随后逐阶通过自注意力机制将高阶邻居节点的信息汇聚到低阶邻居节点上，对于不同类型的节点，使用线性变换将它们从自身特有的表示空间转换到对应目标节点类型的表示空间中；

节点端汇聚的函数为：