CN111858323B

CN111858323B - 一种基于代码表示学习的即时软件缺陷预测方法

Info

Publication number: CN111858323B
Application number: CN202010665255.5A
Authority: CN
Inventors: 祝永滕; 刘望舒; 刘学军
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2020-07-11
Filing date: 2020-07-11
Publication date: 2021-06-01
Anticipated expiration: 2040-07-11
Also published as: CN111858323A

Abstract

本发明涉及一种基于代码表示学习的即时软件缺陷预测方法，借助自然语言模型思想，解决了传统神经网络无法解决长距离依赖的问题；首先审查代码变更信息，分解成提交信息和代码变更两部分；接着编码代码变更信息，得到基于单词嵌入、段落嵌入和位置嵌入等词向量序列；然后利用注意力机制构建Transformer编码器模型；最后预训练之前的编码序列，构建基于代码表示学习的代码缺陷预测模型。本发明相较现有技术，应用注意力机制的优势，构造出Transformer编码器作为模型进行两项预训练任务，使得生成的语言模型更加健壮，能更好地表示代码变更信息，进而提高软件缺陷的检测率。

Description

一种基于代码表示学习的即时软件缺陷预测方法

技术领域

本发明涉及一种基于代码表示学习的即时软件缺陷预测方法，属于软件工程中的软件分析及缺陷预测技术领域。

背景技术

软件缺陷预测技术诞生于20世纪70年代，主要作用是为了降低软件的测试成本，同时进一步保障软件的开发质量。近些年来，软件领域发展迅速，国内外对高质量软件的需求也大幅增长。随着软件的开发越来越复杂，软件开发过程中耦合度急速增长也产生了极大的隐患。软件系统作为推动我国经济和社会发展的重要组成部分，在面临上述隐患时将会对企业和人民产生巨大影响。为了提高软件系统的质量，开发人员需要在测试或调试过程中投入大量的精力。然而，在大多数情况下，开发人员精力有限而且他们的测试成本高昂，因此直接通过人工审查的方式，已难以保证软件测试的及时性和准确性。于是学者们提出了软件缺陷预测技术来帮助开发人员确定软件中是否存在可能的缺陷问题。与软件缺陷预测相关的专利主要有：基于深度神经网络和概率决策森林的软件缺陷预测模型(公开号CN 109446090)；一种基于卷积神经网络的软件缺陷预测方法(公开号CN 108829607)等。

在之前的研究中，机器学习技术已广泛应用于软件的缺陷预测任务中，相关工作大都集中于设计并提取软件系统中的度量特征，例如用于度量代码复杂程度的McCabe度量特征，以此构建基于软件度量特征的预测分类模型。为了在开发过程中更早地预测软件项目模块内是否存在缺陷，一种在代码变更提交时就能进行软件缺陷预测的方法被提出，一般称其为即时软件缺陷预测。即时软件缺陷预测可以帮助软件开发人员快速缩小软件系统中最可能包含缺陷的代码搜索范围。2013年Kamei等人在代码变更级别上从五个角度手动提取了14个人工特征，包括修改子系统、文件或目录的数量、添加或删除的代码行数、当前和上次修改某些文件的平均时间间隔等，并采用逻辑回归来做软件缺陷预测任务，实验结果表明代码变更提交后进行的缺陷预测也同样有效，大大节约了软件的测试时间和成本。但是现有传统深度学习的软件缺陷预测方法中，存在着无法处理长距离依赖性的问题，该问题在软件系统中，特别是单个源代码文件内常常出现，例如方法的调用可能相隔上千行代码，由此便导致了长距离依赖问题。

发明内容

本发明所要解决的技术问题是提供一种基于代码表示学习的即时软件缺陷预测方法，借助自然语言模型思想，缓解代码中经常存在的长距离现象，能够有效提升即时软件缺陷预测的准确率。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于代码表示学习的即时软件缺陷预测方法，用于针对对应代码库中各软件源代码的各变更修改，实现代码缺陷预测；包括代码缺陷预测模型构建方法，以及应用代码缺陷预测模型针对待检测变更修改实现缺陷检测；其中，代码缺陷预测模型构建方法包括如下步骤：

步骤A.选择预设数量的各类型代码缺陷、并将已提交至代码库的各个变更修改，作为各个变更修改样本，并分别针对各个变更修改样本，将变更修改样本分解为提交信息与各个代码变更信息，进而获得各变更修改样本分别所对应的提交信息与各个代码变更信息，然后进入步骤B；

步骤B.分别针对各个变更修改样本，针对变更修改样本所对应的提交信息与各个代码变更信息进行编码，获得提交信息与各个代码变更信息分别所对应的单词序列，进而获得各变更修改样本分别所对应的各个单词序列，然后进入步骤C；

步骤C.分别针对各变更修改样本所对应各个单词序列，获得单词序列分别对应单词嵌入处理、段落嵌入处理、位置嵌入处理的各个词向量，即单词序列所对应的三个词向量，进而获得各单词序列分别所对应的三个词向量，然后进入步骤D；

步骤D.应用各单词序列分别所对应的三个词向量，针对Transformer编码器模型进行构建，获得构建好的Transformer编码器模型，然后进入步骤E；

步骤E.基于各个单词序列，针对构建好的Transformer编码器模型执行预训练任务，获得训练好的Transformer编码器模型，并执行预设参数项的设定，即获得代码缺陷预测模型；

基于代码缺陷预测模型的构建，按如下步骤I至步骤III，实现应用代码缺陷预测模型针对待检测变更修改的缺陷检测；

步骤I.针对待检测变更修改执行代码审查，审查通过则进入步骤II，否则判定该待检测变更修改不符合规范；

步骤II.按步骤B至步骤C的方法，针对待检测变更修改所对应的各个单词序列，获得各单词序列分别所对应的三个词向量，然后进入步骤III；

步骤III.应用代码缺陷预测模型接收各单词序列分别所对应的三个词向量，执行针对待检测变更修改的缺陷检测。

作为本发明的一种优选技术方案：所述步骤B中，分别针对变更修改样本所对应的提交信息与各个代码变更信息，按如下步骤B1至步骤B2进行编码，获得提交信息与各个代码变更信息分别所对应的单词序列；

步骤B1.应用NLTK工具提取提交信息中的单词序列，并根据预设停止词词库，删除该单词序列中的停止词、以及出现次数未超过预设次数阈值的单词，更新该单词序列，即获得该提交信息所对应的单词序列；

步骤B2.分别针对各个代码变更信息，应用NLTK工具提取代码变更信息中的单词序列，并首先根据预设停止词词库，删除该单词序列中的停止词；接着针对该单词序列中的各数字，应用预设第三标记进行替代；然后根据预设已知代码词词库，针对该单词序列中的未知单词、以及出现次数未超过预设次数阈值的单词，采用预设第四标记进行替代；最后根据该单词序列的功能目的，针对该单词序列的开头添加其功能目的标记，由此更新该单词序列，即获得该代码变更信息所对应的单词序列；进而获得各代码变更信息分别所对应的单词序列。

作为本发明的一种优选技术方案，所述步骤D包括步骤D1至步骤D5如下：

步骤D1.应用注意力机制，构建位于Transformer编码器模型中的多头注意力层，并将各单词序列分别所对应的三个词向量输入至多头注意力层中，然后进入步骤D2；

步骤D2.根据多头注意力层中的头数I，随机初始化多头注意力层中的权重矩阵W^o，以及各头注意力分别所对应的矩阵W_i ^q、W_i ^k、W_i ^v，然后进入步骤D3；其中，i∈{1、…、I}；

步骤D3.分别针对各个单词序列，应用单词序列分别对应单词嵌入处理、段落嵌入处理、位置嵌入处理的词向量，依次乘以各头注意力所对应的矩阵W_i ^q、W_i ^k、W_i ^v，获得该单词序列分别对应各头注意力的查询矩阵Q_i、键码矩阵K_i、数值矩阵V_i，并根据如下公式：

获得该单词序列分别对应各头注意力的head_i，其中，

表示键码矩阵K_i的维度，softmax(·)表示softmax函数；进而获得各单词序列分别所对应的head_i，然后进入步骤D4；

步骤D4.分别针对各个单词序列，按如下公式：

MultiHead＝Concatenate(head₁,…,head_I)W^o

获得各单词序列分别所对应多头注意力层的输出MultiHead，其中，Concatenate(·)表示Concatenate函数，然后进入步骤D5；

步骤D5.分别针对各个单词序列所对应多头注意力层的输出MultiHead，以及该单词序列分别对应单词嵌入处理、段落嵌入处理、位置嵌入处理的词向量进行求和，并针对该求和结果进行层规范化操作获得A，然后针对A经过前馈神经网络的结果，结合A进行求和，最后针对此求和结果进行层规范化操作；如此分别完成各单词序列的操作，实现对Transformer编码器模型的初始化，然后进入步骤E。

作为本发明的一种优选技术方案，所述步骤E包括步骤E1至步骤E3如下：

步骤E1.针对全部单词序列中的各个词，随机选取预设数量的词，并分别针对该各个词，针对该词替换为预设第一标记的概率定义为第一预设比例概率，针对该词替换为任意随机词的概率定义为第二预设比例概率，保留该词的概率定义为预设第三预设比例概率，并应用构建好的Transformer编码器模型完成上述缺词预测训练任务，然后进入步骤E2；

步骤E2.随机选取预设数量的相邻单词序列的序列组合，应用预设第二标记对序列组合中相邻两个单词序列进行分隔，以预设第一概率由全部单词序列中抽取一个单词序列作为序列组合中的第二个单词序列；然后应用构建好的Transformer编码器模型完成上述各序列组合中第二个单词序列的预测训练任务，然后进入步骤E3；

步骤E3.针对训练好的Transformer编码器模型进行预设参数项的设定，即获得代码缺陷预测模型。

作为本发明的一种优选技术方案：所述步骤E3中，针对训练好的Transformer编码器模型，将Transformer编码器模型的层数L设定为12，将其中注意力的头数I设为12；将要学习的参数数量设为110M。

作为本发明的一种优选技术方案，所述步骤I包括步骤I1至步骤I3如下：

步骤I1.应用程序语法检查工具针对待检测变更修改进行验证，判断是否符合编码规范，是则进入步骤I2；否则判定该待检测变更修改不符合规范，退回至该待检测变更修改的提交者进行修改；

步骤I2.基于代码审查工具Gerrit，针对待检测变更修改实现多审阅者的共同审核，若审核不通过，退回至该待检测变更修改的提交者进行修改；若审核通过，则进入步骤I3；

步骤I3.执行待检测变更修改与代码库中相应软件源代码版本之间的集成测试，若测试不通过，则退回至该待检测变更修改的提交者进行修改；若待测试通过，由代码审查工具Gerrit将待检测变更修改提交至代码库中。

作为本发明的一种优选技术方案：所述提交信息中包括变更修改的提交序号、变更修改的提交者姓名、变更修改的日期；所述代码变更信息为修正后的代码。

本发明所述一种基于代码表示学习的即时软件缺陷预测方法，采用以上技术方案与现有技术相比，具有以下技术效果：

本发明所设计基于代码表示学习的即时软件缺陷预测方法，借助自然语言模型思想，解决了传统神经网络无法解决长距离依赖的问题，并应用注意力机制的优势，构造出Transformer编码器作为模型进行两项预训练任务，使得生成的语言模型更加健壮，其中，注意力机制相比于卷积神经网络、循环神经网络，可以解决长距离依赖性、以及难于并行化的问题，能够有效提升即时软件缺陷预测的准确率，并且为软件开发团队在项目质量评估和测试资源分配上提供了重要的参考依据。

附图说明

图1是本发明所设计基于代码表示学习的即时软件缺陷预测方法的流程图；

图2是代码表示序列中第1个token注意力值的计算流程图；

图3是Transformer模型编码器的流程图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明所设计一种基于代码表示学习的即时软件缺陷预测方法，用于针对对应代码库中各软件源代码的各变更修改，实现代码缺陷预测；包括代码缺陷预测模型构建方法，以及应用代码缺陷预测模型针对待检测变更修改实现缺陷检测；其中，代码缺陷预测模型构建方法在实际应用当中，如图1所示，具体执行如下步骤A至步骤E。

步骤A.选择预设数量的各类型代码缺陷、并将已提交至代码库的各个变更修改，作为各个变更修改样本，并分别针对各个变更修改样本，将变更修改样本分解为提交信息与各个代码变更信息，进而获得各变更修改样本分别所对应的提交信息与各个代码变更信息，然后进入步骤B。

实际应用当中，提交信息中包括变更修改的提交序号、变更修改的提交者姓名、变更修改的日期；所述代码变更信息为修正后的代码。

由于程序代码不同于普通的自然语言文本，本发明必须将其设计成为语言模型能够识别的有效编码序列，因此继续执行如下步骤B。

步骤B.分别针对各个变更修改样本，针对变更修改样本所对应的提交信息与各个代码变更信息进行编码，获得提交信息与各个代码变更信息分别所对应的单词序列，进而获得各变更修改样本分别所对应的各个单词序列，然后进入步骤C。

实际应用当中，步骤B中分别针对变更修改样本所对应的提交信息与各个代码变更信息，按如下步骤B1至步骤B2进行编码，获得提交信息与各个代码变更信息分别所对应的单词序列。

步骤B1.应用NLTK工具提取提交信息中的单词序列，并根据预设停止词词库，删除该单词序列中的停止词、以及出现次数未超过预设次数阈值的单词，更新该单词序列，即获得该提交信息所对应的单词序列。

步骤C.分别针对各变更修改样本所对应各个单词序列，获得单词序列分别对应单词嵌入处理、段落嵌入处理、位置嵌入处理的各个词向量，即单词序列所对应的三个词向量，进而获得各单词序列分别所对应的三个词向量，然后进入步骤D。

步骤D.应用各单词序列分别所对应的三个词向量，针对Transformer编码器模型进行构建，获得构建好的Transformer编码器模型，然后进入步骤E。

步骤D在实际应用执行当中，如图2和图3所示，具体执行如下步骤D1至步骤D5。

步骤D1.应用注意力机制，构建位于Transformer编码器模型中的多头注意力层，并将各单词序列分别所对应的三个词向量输入至多头注意力层中，然后进入步骤D2。

注意力机制能够有效解决代码中大量存在的长距离依赖性问题，同时能够避免传统自然语言处理中循环和卷积会导致序列固化的问题，从而更好的实现模型并行化。在步骤D1中，利用多头注意力机制构造的Transformer编码器模型，不同于受序列长度影响的循环神经网络，可以直接获取全局与局部的关系，并且每一步的结果不依赖于之前的结果，因此能实现并行化。

获得该单词序列分别对应各头注意力的head_i，其中，

表示键码矩阵K_i的维度，softmax(·)表示softmax函数；进而获得各单词序列分别所对应的head_i，然后进入步骤D4。

步骤D4.分别针对各个单词序列，按如下公式：

MultiHead＝Concatenate(head₁,…,head_I)W^o

获得各单词序列分别所对应多头注意力层的输出MultiHead，其中，Concatenate(·)表示Concatenate函数，然后进入步骤D5。

由于注意力机制的并行化，会自动忽略序列中标记位置的影响，本发明利用位置嵌入信息重新对标记位置进行表示说明，即在Transformer中位置嵌入是基于正弦或余弦函数形成的固定值。

步骤E.基于各个单词序列，针对构建好的Transformer编码器模型执行预训练任务，获得训练好的Transformer编码器模型，并执行预设参数项的设定，即获得代码缺陷预测模型。

在实际操作中，大部分软件项目的缺陷率都是处于较低水平(20％以下)，所以类不平衡现象是领域内的常见问题。类不平衡问题会给机器学习带来一定的困难，因为训练出来的分类器倾向于将样本标记成多数类，并且通常对少数类的分类能力较弱。为了缓解这个问题，很多解决类不平衡的方法被提了出来并得到了广泛使用。在本发明中，采用Focalloss损失函数，该函数通过减少易分类样本的权重，使得模型在训练时更专注于难分类的样本。

在实际此步骤的训练过程中，采用Focal loss损失函数，以解决在缺陷预测领域中缺陷样本和非缺陷样本(也称为正负样本)比例严重失调的问题，该损失函数可以减少易分类样本的权重，使得模型在训练时更专注于难分类的样本。

Focal loss损失函数：

L_fl＝-α(1-y′)^γlogy′

此处的参数y’是样本存在软件缺陷的预测概率。参数γ用来平滑权重曲线的陡度，当γ大于0时，对于易分类的正样本或负样本权重小，而对于难区分的样本则权重大，避免让易分类的样本主导结果。γ越大，难分类的样本权重就越大。另一个参数α用来平衡正负样本之间的比例不均，本发明设定为γ＝2，α＝0.25。

上述步骤E在实际执行当中，具体执行如下步骤E1至步骤E3。

步骤E1.针对全部单词序列中的各个词，随机选取预设数量的词，并分别针对该各个词，针对该词替换为预设第一标记的概率定义为第一预设比例概率，针对该词替换为任意随机词的概率定义为第二预设比例概率，保留该词的概率定义为预设第三预设比例概率，并应用构建好的Transformer编码器模型完成上述缺词预测训练任务，然后进入步骤E2。

步骤E2.随机选取预设数量的相邻单词序列的序列组合，应用预设第二标记对序列组合中相邻两个单词序列进行分隔，以预设第一概率由全部单词序列中抽取一个单词序列作为序列组合中的第二个单词序列；然后应用构建好的Transformer编码器模型完成上述各序列组合中第二个单词序列的预测训练任务，然后进入步骤E3。

步骤E3.针对训练好的Transformer编码器模型进行预设参数项的设定，诸如将Transformer编码器模型的层数L设定为12，将其中注意力的头数I设为12；将要学习的参数数量设为110M；然后即获得代码缺陷预测模型。

基于代码缺陷预测模型的构建，进一步执行如下步骤I至步骤III，实现应用代码缺陷预测模型针对待检测变更修改的缺陷检测。

步骤I.针对待检测变更修改执行代码审查，审查通过则进入步骤II，否则判定该待检测变更修改不符合规范。

具体的实际应用当中，上述步骤I包括步骤I1至步骤I3如下。

步骤I1.应用程序语法检查工具针对待检测变更修改进行验证，判断是否符合编码规范，是则进入步骤I2；否则判定该待检测变更修改不符合规范，退回至该待检测变更修改的提交者进行修改。

步骤I2.基于代码审查工具Gerrit，针对待检测变更修改实现多审阅者的共同审核，若审核不通过，退回至该待检测变更修改的提交者进行修改；若审核通过，则进入步骤I3。

步骤II.按步骤B至步骤C的方法，针对待检测变更修改所对应的各个单词序列，获得各单词序列分别所对应的三个词向量，然后进入步骤III。

上述技术方案所设计基于代码表示学习的即时软件缺陷预测方法，借助自然语言模型思想，解决了传统神经网络无法解决长距离依赖的问题，并应用注意力机制的优势，构造出Transformer编码器作为模型进行两项预训练任务，使得生成的语言模型更加健壮，其中，注意力机制相比于卷积神经网络、循环神经网络，可以解决长距离依赖性、以及难于并行化的问题，能够有效提升即时软件缺陷预测的准确率，并且为软件开发团队在项目质量评估和测试资源分配上提供了重要的参考依据。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于代码表示学习的即时软件缺陷预测方法，用于针对对应代码库中各软件源代码的各变更修改，实现代码缺陷预测；其特征在于：包括代码缺陷预测模型构建方法，以及应用代码缺陷预测模型针对待检测变更修改实现缺陷检测；其中，代码缺陷预测模型构建方法包括如下步骤：

2.根据权利要求1所述一种基于代码表示学习的即时软件缺陷预测方法，其特征在于：所述步骤B中，分别针对变更修改样本所对应的提交信息与各个代码变更信息，按如下步骤B1至步骤B2进行编码，获得提交信息与各个代码变更信息分别所对应的单词序列；

步骤B2.分别针对各个代码变更信息，应用NLTK工具提取代码变更信息中的单词序列，并首先根据预设停止词词库，删除该单词序列中的停止词；接着针对该单词序列中的各数字，应用预设第三标记进行替代；然后根据预设已知代码词词库，针对该单词序列中的未知单词、以及出现次数未超过预设次数阈值的单词，采用预设第四标记进行替代；最后根据该单词序列的功能目的，针对该单词序列的开头添加其功能目的标记，由此更新该单词序列，即获得该代码变更信息所对应的单词序列，进而获得各代码变更信息分别所对应的单词序列。

3.根据权利要求1所述一种基于代码表示学习的即时软件缺陷预测方法，其特征在于，所述步骤D包括步骤D1至步骤D5如下：

获得该单词序列分别对应各头注意力的head_i，其中，

步骤D4.分别针对各个单词序列，按如下公式：

MultiHead＝Concatenate(head₁,…,head_I)W^o

4.根据权利要求1所述一种基于代码表示学习的即时软件缺陷预测方法，其特征在于，所述步骤E包括步骤E1至步骤E3如下：

5.根据权利要求4所述一种基于代码表示学习的即时软件缺陷预测方法，其特征在于：所述步骤E3中，针对训练好的Transformer编码器模型，将Transformer编码器模型的层数L设定为12，将其中注意力的头数I设为12；将要学习的参数数量设为110M。

6.根据权利要求1所述一种基于代码表示学习的即时软件缺陷预测方法，其特征在于，所述步骤I包括步骤I1至步骤I3如下：

7.根据权利要求1至6中任意一项所述基于代码表示学习的即时软件缺陷预测方法，其特征在于：所述提交信息中包括变更修改的提交序号、变更修改的提交者姓名、变更修改的日期；所述代码变更信息为修正后的代码。