CN116302953A

CN116302953A - 一种基于增强嵌入向量语义表示的软件缺陷定位方法

Info

Publication number: CN116302953A
Application number: CN202310034262.9A
Authority: CN
Inventors: 鞠小林; 石翔宇; 王皓晨; 陈翔; 彭志娟; 周建美
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-06-23

Abstract

本发明提供了一种基于增强嵌入向量语义表示的软件缺陷定位方法，属于计算机技术领域，解决了多模态嵌入向量语义信息表示不足的技术问题。其技术方案为：包括以下步骤：S1：对源代码进行数据增强；S2：构造模态之间和模态内部的正负样本对；S3：对缺陷报告进行文本预处理，得到文本序列；S4：文本序列输入CodeBert预训练模型得到嵌入向量表示；S5：学习模态内部和模态之间的相似性；S6：联合检索任务和二元分类任务微调预训练模型。S7:对源代码文件进行排序得到预测结果。本发明的有益效果为：通过对比学习，获得更好的嵌入向量表示，联合检索模型和分类模型对源代码文件进行排序，进一步提高缺陷定位的有效性。

Description

一种基于增强嵌入向量语义表示的软件缺陷定位方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于增强嵌入向量语义表示的软件缺陷定位方法。

背景技术

缺陷定位是指在给定缺陷报告的软件项目中定位潜在的有错误的源代码文件的任务。开发人员必须仔细分析错误报告并检查大量的源代码文件，手动识别所有传入的错误报告需要花费巨大的人力物力。因此，缺陷文件的自动定位可以显著提高软件缺陷修复的效率，以及软件维护的效率。

许多用于生成文本嵌入向量的技术被提出，但是这些方法无论是在表示自然语言编写的缺陷报告，还是程序语言编写的源代码文件时，总是把他们当作同一个模态(自然语言文本)处理。实际上程序语言有着不同于自然语言的书写风格，其中，包含大量的结构性信息，不应当被看作与自然语言共同处于同一个模态。目前的一些缺陷定位方法，通过使用大型的预训练模型来获得高质量的嵌入向量表示，但是如何进一步的微调预训练模型，在自己的任务上获得更可靠的嵌入表示还未被广泛研究。

如何解决上述技术问题成为本发明面临的课题。

发明内容

本发明的目的在于提供一种基于增强嵌入向量语义表示的软件缺陷定位方法，该方法可以根据缺陷报告描述的内容标记出对应的缺陷文件，解决了无法充分表示程序语言特有的语义信息的问题。

本发明的思想为：本发明提出了一种基于增强嵌入向量语义表示的软件缺陷定位方法，即通过对比学习的目标函数，学习自然语言和程序语言之间以及自然语言和程序语言内部的相似性，进一步微调预训练模型CodeBERT的模型参数，从而得到语义信息更丰富的嵌入向量表示，然后联合检索模型和二元分类模型，加权检索分数和分类分数得到相似度评分，对源代码文件进行相关性排序。

本发明是通过如下措施实现的：一种基于增强嵌入向量语义表示的软件缺陷定位方法，其中，包括以下步骤：

(1)对源代码文件进行数据增强，具体包括如下步骤：

(1-1)首先将源代码文件s中的函数依次转换为抽象语法树AST；

(1-2)然后遍历抽象语法树中的节点，找到函数定义和变量赋值的节点；

(1-3)找到目标节点之后，用func标记替换函数名，用var_i标记替换函数中出现的第i个变量名得到增强后的源代码文件s′

(2)将缺陷报告和源代码文件以及数据增强后的源代码文件配对，构造模态之间和模态内部的正负样本对，具体包括如下步骤：

(2-1)将缺陷报告b_i及其对应的源代码文件s_i，缺陷报告b_i及其对应的增强之后的源代码文件s_i'视为模态之间的正样本对(b_i,s_i)，(b_i,s_i′)；

(2-2)将缺陷报告b_i及其不对应的源代码文件s_j视为模态之间的负样本对(b_i,s_j)，其中下标i≠j；

(2-3)将源代码文件s_i和它增强之后的源代码文件s_i'视为模态内部的正样本对(s_i,s_i′)；

(2-4)将源代码文件s_i和batch中出现的其他源代码文件s_j，缺陷报告b_i和batch中的缺陷报告b_j视为模态内部的负样本对(s_i,s_j)，(b_i,b_j)，其中Batch大小设置为16；

(3)对构造的正负样本训练数据对做文本预处理操作生成文本序列，具体包括如下步骤：

(3-1)使用RobertaTokenizer分词器将缺陷报告，源代码文件以及增强的源代码文件分割成标记序列，每一个标记序列是用空格分隔开的单词组成的列表；

(3-2)在token序列的开头位置插入一个[CLS]标记，在标记序列的末尾位置连接一个[SEP]标记得到新的{b_i}，{s_i}，{s_i′}序列；

(4)将预处理生成的文本序列输入CodeBERT预训练模型，获得包含上下文语义信息的词嵌入向量表示，具体包括如下步骤：使用CodeBERT预训练模型将{b_i}，{s_i}，{s_i′}序列编码到嵌入空间中，取[CLS]标记的嵌入向量作为整个序列的嵌入向量，其中嵌入向量的维度是1×768。

(5)根据对比学习的目标函数，学习模态内部和模态之间的相似性，微调CodeBERT预训练模型的参数，具体包括如下步骤：首先定义单个缺陷报告b_i的跨模态对比损失函数为：

定义单个源代码文件s_i的跨模态对比损失函数为：

其中，分子是与当前b_i或者s_i相关的正样本数据对，分母是所有正样本和负样本的数据对，λ和μ为权重参数，

t为标量温度参数。最终的跨模态对比学习损失函数是所有缺陷报告和源代码文件的损失值的算术平均，定义为：

其中N为batch size的大小。

(6)联合检索任务和二元分类任务微调预训练模型，具体包括如下步骤：

(6-1)在检索任务中，通过向量点积计算缺陷报告与源代码文件之间的相似度得分。检索模型训练的最终目标是最大化正样本对之间的点积，同时最小化负样本对之间的点积。

信息检索模型训练的损失函数定义为：

其中N为batch size的大小，exp(·)表示指数函数。

(6-2)分类任务中，首先将缺陷报告b_i和源代码文件s_i进行向量拼接，然后将向量差b_i-s_i和向量积b_i⊙s_i也一起拼接到原始向量上，然后再输入一层前馈神经网络，公式如下：

r_i＝tanh(W₁·concat(b_i,s_i,b_i-s_i,b_i⊙s_i))

其中W₁为前馈神经网络的参数，tanh(·)为激活函数。再把输出r_i输入一层感知机分类器：

s_i＝sigmoid(W₂·r_i)

其中W₂为一层感知机分类器的参数。最后用于分类的训练目标函数被定义为二元交叉熵损失函数：

其中N为batch size的大小。

(6-3)在优化阶段，将7.1中得到的检索模型训练目标、7.2中得到的分类模型训练目标和6.1中得到的跨模态对比学习训练目标结合起来。得到最终的微调目标函数，定义如下：L＝αL_检索模型+βL_对比学习+γL_分类模型

其中，α，β，γ为不同损失的权重系数。

(7)根据检索分数和分类分数加权得到的相似度评分，对源代码文件进行相关性排序，具体包括如下步骤：在预测阶段，使用检索分数和分类分数加权的相似性分数对候选源代码文件按照由大到小排序，得到最终预测结果，最终相似度得分计算如下:sim(b_i,s_i)＝ω₁·sim₁(b_i,s_i)+ω₂·sim₂(b_i,s_i)

其中sim₁为检索相似度，sim₂为分类相似度，ω₁和ω₂为权重参数。

与现有技术相比，本发明的有益效果为：

(1)使用包含上下文语义信息的预训练模型CodeBERT，来提供缺陷报告和源代码文件的嵌入向量表示，丰富的上下文信息可以帮助学习缺陷报告和源代码文件之间的相关性。

(2)为了减轻函数和变量名编辑的敏感性，使用代码增强，来将函数和变量重命名为无意义的标记；生成更多的代码片段，同时尽可能保持代码片段的功能不变，组建跨模态的正负训练样本对用于学习模态内部和模态之间的相似性。

(3)构建对比学目标函数，通过拉近正样本之间的距离，推开负样本之间的距离来微调预训练模型的嵌入向量，以获得更好的嵌入表示。

(4)在微调阶段，结合了检索训练目标、分类目标和跨模态对比学习目标，使用检索分数和分类分数加权的相似分数对源代码文件进行排名，进一步提高缺陷定位的有效性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提供的一种基于增强嵌入向量语义表示的软件缺陷定位方法的框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1所示，本发明提供了一种基于增强嵌入向量语义表示的软件缺陷定位方法，具体包括以下内容：

(1)从原始数据集中取出一个batch数量的源代码文件进行代码的数据增强：

(1-1)首先将源代码文件s中的函数转换为抽象语法树(AST)；

(1-2)然后遍历AST中的节点，找到函数定义和变量赋值的节点；

(2)将一个batch中的缺陷报告b_i,其中i∈(1，batch)，和源代码文件s_i以及数据增强后的源代码文件s_i'配对，构造模态之间和模态内部的正负样本对。

(2-4)将源代码文件s_i和batch中出现的其他源代码文件s_j，缺陷报告b_i和batch中的缺陷报告b_j视为模态内部的负样本对(s_i,s_j)，(b_i,b_j)；

(3)将文本数据预处理成可以输入预训练模型的格式。

(3-1)将b_i,s_i,s_i′使用分词器模块分割成单词的token序列。

(3-2)在token序列的开头位置连接一个[CLS]标记，在token序列的末尾位置连接一个[SEP]标记得到{b_i}，{s_i}，{s_i′}序列。

(4)将新生成的token序列输入预训练模型，取出[CLS]标记的词嵌入向量作为整个序列的此嵌入向量表示。

(5)将嵌入向量输入对比学习模块，通过最小化对比学习损失函数进行对比学习。

(6)联合检索任务和二元分类任务进一步微调预训练模型

(6-1)在检索任务中，计算缺陷报告与源代码文件之间的向量点积作为相似度得分。检索模型训练的最终目标是最大化正样本对之间的点积，同时最小化负样本对之间的点积。

信息检索模型训练的损失函数定义为：

其中N为batch size的大小。

(6-2)在分类任务中，首先将缺陷报告b_i和源代码文件s_i进行向量拼接，然后将向量差b_i-s_i和向量积b_i⊙s_i也一起拼接到原始向量上，然后再输入一层前馈神经网络，公式如下：

r_i＝tanh(W₁·concat(b_i,s_i,b_i-s_i,b_i⊙s_i))

s_i＝sigmoid(W₂·r_i)

其中，N为batch size的大小。

(6-3)在优化阶段，将7.1中得到的检索模型训练目标、7.2中得到的分类模型训练目标和6.1中得到的跨模态对比学习训练目标结合起来。得到最终的微调目标函数，定义如下：

L＝αL_检索模型+βL_对比学习+γL_分类模型

其中，α，β，γ为不同损失的权重系数。

(7)在预测阶段，使用检索分数和分类分数加权的相似性分数对候选源代码文件按照由大到小排序，得到最终预测结果，最终相似度得分计算如下:

sim(b_i,s_i)＝ω₁·sim₁(b_i,s_i)+ω₂·sim₂(b_i,s_i)

(9)在相同的数据集上对本发明方法和已有缺陷方法进行评估，使用信息检索任务经常使用的的三个性能指标(即Accuracy、MAP和MRR)来自动评估本方法的质量：

表1本发明方法和其余方法的结果对照表

经实验表明，本发明提出的基于增强嵌入向量语义表示的软件缺陷定位方法相较于baseline方法，能实现更高准确率的缺陷定位。具体来说，本发方法通过对比学习，微调预训练模型的参数，同时融合检索模型和二元分类模型，可以在性能上超过这些Baseline方法。其中，对于Accuracy@1而言,本发明方法在各软件项目上能提高17％～20％的性能；对于MAP而言，本发明方法提高了8％～17％的性能；对于MRR而言，本发明方法至少可以提高3％～11％的性能；实验结果表明了本发明方法的有效性。这些结果表明了本发明所提方法具有较高的竞争力和优势。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于增强嵌入向量语义表示的软件缺陷定位方法，其特征在于，包括以下步骤：

1.1：对源代码文件进行数据增强；

1.2：将缺陷报告和源代码文件以及数据增强后的源代码文件配对，构造模态之间和模态内部的正负样本对；

1.3：对构造的正负样本训练数据对做文本预处理操作生成文本序列；

1.4：将预处理生成的文本序列输入CodeBert预训练模型，获得包含上下文语义信息的词嵌入向量表示；

1.5：设计用于对比学习的目标函数，使得在微调预训练模型的过程中，能够同时考虑模态内部和模态之间的相似性；

1.6：联合检索任务和二元分类任务微调预训练模型；

1.7：根据检索分数和分类分数加权得到的相似度评分，对源代码文件进行相关性排序。

2.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法，其特征在于，所述步骤1.1对源代码文件进行数据增强，具体包括如下步骤：

2.1：首先将源代码文件s中的函数转换为抽象语法树AST；

2.2：然后遍历AST中的节点，找到函数定义和变量赋值的节点；

2.3：找到目标节点之后，用func标记替换函数名，用var_i标记替换函数中出现的第i个变量名得到增强后的源代码文件s′。

3.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法，其特征在于，所述步骤1.2构造模态之间和模态内部的正负样本对，具体包括如下步骤：

3.1：将缺陷报告b_i及其对应的源代码文件s_i，缺陷报告b_i及其对应的增强之后的源代码文件s_i'视为模态之间的正样本对(b_i,s_i)，(b_i,s_i′)；

3.2：将缺陷报告b_i及其不对应的源代码文件s_j视为模态之间的负样本对(b_i,s_j)，其中下标i≠j；

3.3：将源代码文件s_i和它增强之后的源代码文件s_i'视为模态内部的正样本对(s_i,s_i′)；

3.4：将源代码文件s_i和batch中出现的其他源代码文件s_j，缺陷报告b_i和batch中的缺陷报告b_j视为模态内部的负样本对(s_i,s_j)，(b_i,b_j)。

4.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法，其特征在于，所述步骤1.3对训练数据做文本预处理操作，具体包括如下步骤：

4.1：使用RobertaTokenizer分词器将缺陷报告，源代码文件以及增强的源代码文件分割成token序列；

4.2：在token序列的开头位置连接一个[CLS]标记，在token序列的末尾位置连接一个[SEP]标记得到{b_i}，{s_i}，{s_i′}序列。

5.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法，其特征在于，所述步骤1.4送入CodeBERT以获得词嵌入向量表示，具体包括如下步骤：使用CodeBERT预训练模型将{b_i}，{s_i}，{s_i′}序列编码到嵌入空间中，取[CLS]标记的嵌入向量作为整个序列的嵌入向量。

6.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法，其特征在于，所述步骤1.5通过对比学习的目标函数来跨模态微调预训练模型，具体包括如下步骤：

6.1：为了更好地表示缺陷报告和源代码文件，需要考虑缺陷报告和源代码文件之间的相似性和缺陷报告及源代码文件内部的相似性；

定义单个缺陷报告b_i的跨模态对比损失函数为：

其中，λ和μ为权重参数，

t为标量温度参数；

定义单个源代码文件s_i的跨模态对比损失函数为：

t为标量温度参数，最终的跨模态对比学习损失函数是所有缺陷报告和源代码文件的损失值的算术平均，定义为：

其中N为batch size的大小。

7.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法，其特征在于，所述步骤1.7联合检索任务和二元分类任务微调预训练模型，具体包括如下步骤：

7.1：在检索任务中，通过向量点积计算缺陷报告与源代码文件之间的相似度得分，检索模型训练的最终目标是最大化正样本对之间的点积，同时最小化负样本对之间的点积；

信息检索模型训练的损失函数定义为：

其中N为batch size的大小；

7.2：在分类任务中，首先将缺陷报告b_i和源代码文件s_i进行向量拼接，然后将向量差b_i-s_i和向量积b_i⊙s_i一起拼接到原始向量上，然后再输入一层前馈神经网络，公式如下：

r_i＝tanh(W₁·concat(b_i，s_i，b_i-s_i，b_i⊙s_i))

其中，W₁为前馈神经网络的参数，⊙为向量点乘，tanh(·)为激活函数，再把输出r_i输入一层感知机分类器：

s_i＝sigmoid(W₂·r_i)

其中，W₂为一层感知机分类器的参数，sigmoid为激活函数；

最后用于分类的训练目标函数被定义为二元交叉熵损失函数：

其中，N为batch size的大小；

7.3：在优化阶段，将步骤7.1中得到的检索模型训练目标、步骤7.2中得到的分类模型训练目标和步骤6.1中得到的跨模态对比学习训练目标结合起来，得到最终的微调目标函数，定义如下：

L＝αL_检索模型+βL_对比学习+γL_分类模型

其中，α，β，γ为不同损失的权重系数。

8.根据权利要求1所述的基于增强嵌入向量语义表示的软件缺陷定位方法，其特征在于，所述步骤1.7根据检索分数和分类分数加权得到的相似度评分对源代码文件进行相关性排序，具体包括如下步骤：在预测阶段，使用检索分数和分类分数加权的相似性分数对候选源代码文件按照由大到小排序，得到最终预测结果，最终相似度得分计算如下：

sim(b_i,s_i)＝ω₁·sim₁(b_i,s_i)+ω₂·sim₂(b_i,s_i)

其中，sim₁为检索相似度，sim₂为分类相似度，ω₁和ω₂为权重参数。