CN112286799B

CN112286799B - 结合句嵌入和粒子群优化算法的软件缺陷定位方法

Info

Publication number: CN112286799B
Application number: CN202011118127.5A
Authority: CN
Inventors: 陈信; 俞东进; 范旭麟; 郭世明
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2024-03-12
Anticipated expiration: 2040-10-19
Also published as: CN112286799A

Abstract

本发明公开了一种结合句嵌入和粒子群优化算法的软件缺陷定位方法。本发明提出使用句嵌入技术构建软件缺陷报告与源代码文件之间的相似度计算模型，同时计算平滑逆频率分数、表面词汇相似度分数、缺陷修复记录分数、缺陷修复频率分数以及协同过滤分数，最后用粒子群优化算法计算出五种分数的线性组合权重，从而获得缺陷报告与所有源代码文件的最终积分。本发明利用句嵌入技术(SIF)获取软件缺陷报告与源代码文件之间的语义信息，使得相似度的计算更加合理；本发明使用粒子群优化算法优化线性权重得到最优综合分值能够提高软件缺陷定位的准确性。

Description

结合句嵌入和粒子群优化算法的软件缺陷定位方法

技术领域

本发明涉及软件维护领域，尤其涉及一种结合句嵌入和粒子群优化算法的软件缺陷定位方法。

背景技术

软件缺陷指的是软件或程序在运行的过程中出现了异常行为，这些行为可能会破坏软件或程序的正常运行，甚至出现崩溃现象。在软件开发中，缺陷是不可避免的，缺陷管理与求解是软件维护中一项十分重要的活动。为了有效的管理和维护软件缺陷，许多公司或组织采用缺陷追踪系统(如Bugzilla和JIRA)来收集终端用户、软件测试者或开发者提交的缺陷报告。通常，一个缺陷报告中会包含缺陷相关信息，主要涉及软件在特定场景下出现的异常的行为，能够有效地帮助开发者理解软件缺陷并进行修复。

缺陷定位是缺陷修复过程中一个重要环节。通常，开发者需要审查缺陷报告并根据缺陷报告中的描述信息重现揭露的缺陷，从而定位软件中可能出现缺陷的位置。然而，人工地审查缺陷报告，可能会花费大量时间和精力。其主要原因在于开发人员可能需要检查大量的源代码文件以找到目标缺陷。通过自动化技术定位缺陷可能出现的位置，能够加快缺陷定位的过程，帮助开发者提高软件维护的效率，降低软件维护代价。当前，许多研究者尝试借助缺陷报告中的缺陷信息，通过对源程序进行对比分析，找到可能出现缺陷的位置。但是由于缺陷报告中的文本信息与源代码文件中的单词之间存在词汇差异，增加了缺陷定位的难度。

近来，许多研究聚焦在通过缺陷报告来实现软件缺陷定位，通过利用软件缺陷报告的摘要和描述信息来找到相关源代码文件。现有的基于缺陷报告的软件缺陷定位方法可以分为两类：第一类是基于信息检索(Information Retrieval)的方法，这些方法计算给定的软件缺陷报告与源代码文件内容之间的文本相似度并对源代码文件进行排序，找到最相似的源代码文件。第二类，就是基于机器学习或深度学习方法进行软件缺陷定位，这些方法首先利用数据(缺陷报告和源代码文件)来训练模型，然后再利用训练完成的模型来匹配缺陷报告与源代码文件的主题或计算缺陷报告-源代码对的相似度以进行排序推荐。

发明内容

为了克服现有技术的不足，本发明提供一种结合句嵌入和粒子群优化算法的软件缺陷定位方法，可有效解决上述问题。

本发明具体采用的技术方案如下：

步骤(1)给定n个软件缺陷报告集合R＝(R₁,R₂,…,R_n)，将其中每个缺陷报告表示成R_i＝<reportId,description,summary>，i＝1,2…,n，其中reportId表示缺陷报告编号，description表示缺陷报告的详细描述信息，summary表示缺陷报告的摘要信息；

步骤(2)给定m个源代码文件集合S＝(S₁,S₂,…,S_m)，利用JDT解析每一个源代码文件，将每一个源代码文件处理成S_j＝<className,method,property,comment>形式，j＝1,2,…,m，其中className表示源代码文件的类名，method表示每个源代码文件的方法集合，property表示源代码文件的属性名集合，comment表示源代码文件的注释集合；

步骤(3)对每一个缺陷报告R_i和源代码文件S_j进行预处理：

首先对R_i中的description和summary以及S_j中的所有元素进行提取，然后用空格对R_i和S_j中提取的信息初步区分成单词，并删除其中的符号；

然后基于停用词列表移除其中的停用词，将初步区分后单词中的组合词再次进行分离，得到最终的单词集合；

最后将单词集合中的每个单词转为原型；

经过预处理后，每个缺陷报告为R_i＝<reportId,preDescription,preSummary>,每个源代码文件为S_j＝<preClassName,preMehtod,preProperty,preComment>；

步骤(4)将经过预处理后所有的缺陷报告和所有的源代码文件组成一个语料库Q＝(R₁,R₂…,R_n,S₁,S₂,…,S_m)，并用l表示语料库中包含的单词个数，然后将每个缺陷报告与每个源代码文件组对，即pair＝<R_i,S_j>；

步骤(5)构建平滑逆频率(Smooth Inverse Frequency,SIF)模型：

首先使用GloVe词嵌入技术对语料库Q中的单词进行训练，得到每个单词W_k(k＝1,2,…,l)的词向量然后计算每个单词的权重ω(W_k)；在此基础上分别计算R_i和S_j对应的句向量/>和/>最后计算每一组句向量/>之间的余弦相似度作为平滑逆频率模型的分数值SIFScore；

步骤(6)计算表面词汇相似度分数：

首先利用TF-IDF(Term Frequency-Inverse Document Frequency)计算每一个R_i和S_j在语料库中第k(k＝1,2,…,l)个单词的权重tfidf_i,k和tfidf_j,k，从而R_i的句向量表示为S_j的句向量表示为/>

然后计算每一组句向量对之间的余弦相似度作为VSMScore；

步骤(7)计算缺陷的修复历史记录分数RScore：

由于源代码的更改历史记录有助于预测易错文件，所以最近经常被修改的源代码文件比过去长时间未被修改或从未被修改的文件更可能产生软件缺陷，令SR_month为最新的修复时间，R_month为当前软件缺陷报告的创建时间，缺陷的修复历史记录分数定义为：

步骤(8)计算缺陷修复频率分数：

一个源代码文件如果经常被修复，那么这个文件可能是容易发生故障的文件，将软件缺陷报告提交之前源代码文件被修复的次数记为FScore，考虑到FScore的取值不在0到1之间，采用线性归一化处理；

步骤(9)计算协同过滤分数CFScore：

如果一个缺陷报告和另外一个缺陷报告相似，那么可能是由相同的源代码文件导致的；BRS_i(BR,BS)为第i条记录R_i创建之前的所有已修复的软件缺陷报告BR以及对应的源代码文件BS的集合，若S_j∈BS，则对应存在缺陷报告P_k∈BR；软件缺陷报告R_i与源代码文件S_j的协同过滤分数CFScore定义为R_i与R_k的相似度；

步骤(10)有了多个不同层面的缺陷报告与源代码文件的分数，将他们进行线性组合形成一个最终得分，然后根据每个缺陷报告相关的最终得分，对源代码文件进行排序，其中线性组合公式如下所示：

finalScoree＝α₁*SIFScore+α₂*VSMScore+α₃*RScrore+

α₄*FScore+α₅*CFScore

其中，α₁、α₂、α₃、α₄、α₅为线性权重。

步骤(11)利用粒子群优化算法优化5个分数的线性权重α₁、α₂、α₃、α₄、α₅，优化的具体步骤如下：

首先确定粒子群优化算法的适应度函数ObjectFun＝MAP+MRR，其中MAP是广泛用于信息检索的标准度量，即平均准确率，MRR是每个软件缺陷报告的第一个正确定位的缺陷源代码文件的排名倒数累加的平均值；

然后设置种群数量P，随机初始化每个个体的速度V_i＝(v_i1,v_i2,…,v_id)和位置X_i＝(x_i1,x_i2,…,x_id)，其中d＝5为需要优化的权重的个数，并根据适应度函数确定每个个体的当前最优位置pbest_i和种群的全局最优位置gbest；

之后，在第t次迭代时，更新每个粒子的速度和位置，并更新每个个体的当前最优位置gbest_i和种群的全局最优位置gbest；

重复执行上述操作，直至达到最大迭代次数MaxIter，设定为1000，获得最优的权重组合α₁,α₂,α₃,α₄,α₅；

步骤(12)根据得到的最优权重α₁,α₂,α₃,α₄,α₅计算目标缺陷报告和所有的源代码文件的finalScore并进行排序，finalScore最高的源代码文件最可能是导致该缺陷出现的源代码文件。

本发明提出使用句嵌入技术构建软件缺陷报告与源代码文件之间的相似度计算模型，同时计算平滑逆频率分数、表面词汇相似度分数、缺陷修复记录分数、缺陷修复频率分数以及协同过滤分数，最后用粒子群优化算法计算出五种分数的线性组合权重，从而获得缺陷报告与所有源代码文件的最终积分。相比于传统的软件缺陷定位方法，本发明具有如下收益：

1、利用句嵌入技术(SIF)获取软件缺陷报告与源代码文件之间的语义信息，使得相似度的计算更加合理；

2、使用粒子群优化算法优化线性权重得到最优综合分值能够提高软件缺陷定位的准确性。

附图说明

图1为本发明结合句嵌入技术和粒子群优化算法的缺陷定位方法的流程图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

为叙述方便，定义相关符号如下：

S：源代码文件集合。

r：缺陷报告集合。

Q：源代码文件和缺陷报告组成的语料库。

pair：软件缺陷报告与源代码文件对组成的集合。

第i个个体在t时刻的速度。

第i个个体在t时刻的位置。

P：初始种群大小。

MacIter：迭代次数大小。

c₁和c₂：学习因子。

w：线性权重。

数据源获取：本实验所用的原始数据来自由Ye整理的公开数据集。该数据集是从三个开源项目Tomcat、JDT和SWT中提取的，并根据相关操作获取相应的源代码文件。每个缺陷报告由以下几部分组成：缺陷报告编号、缺陷报告的详细描述信息、缺陷报告的摘要信息以及缺陷报告所对应的源代码文件等等。

以下结合附图1，对本发明专利提供的结合一种句嵌入和粒子群优化算法的软件缺陷报告定位方法进行详细说明，包括以下步骤：

步骤(3)对每一个缺陷报告R_i和源代码文件S_j进行预处理：

然后基于停用词列表移除其中的停用词，并将组合词进行分离，最后将每个单词转为原型；经过预处理后每个缺陷报告表示为R_i＝<reportId,preDescription,preSummary>,每个源代码文件表示为S_j＝<preClassName,preMehtod,perProperty,preComment>；

步骤(4)将所有的缺陷报告和所有的源代码文件组成一个语料库Q＝(R₁,R₂…,R_n,S₁,S₂,…,S_m)，并用l表示语料库中包含的单词个数，然后将每个缺陷报告与每个源代码文件组成对，即pair＝<R_i,S_j>；

步骤(5)构建平滑逆频率(Smooth Inverse Frequency,SIF)模型：

5-1.使用GloVe词嵌入技术对语料库中的单词进行训练，得到每个单词W_k(k＝1,2,…,l)的词向量其中GloVe是一个基于全局词频统计的词表征工具，它可以把一个单词表示成一个由实数组成的向量，这些向量能捕捉单词之间一些语义特性，比如相似性、类比性等；

5-2.计算每个单词W_k的权重ω(W_k)：

其中，α为常数，通常设置为0.0001，p(W_k)表示单词W_k出现的概率；

5-3.句向量计算，分别计算R_i和S_j对应的句向量和/>并去除非信息噪音(最大主成分)，以/>为例：

其中，为去除最大主成分前的句向量，|R_i|表示R_i中包含的单词个数，μ为/>经过奇异值分解得到的特征矩阵，μ^T为μ的转置矩阵，/>为/>的最大主成分向量；

5-4.计算每一组句向量之间的余弦相似度作为SIFScore：

步骤(6)计算表面词汇相似度分数：

6-1.利用TF-IDF(Term Frequency-Inverse Document Frequency)计算语料库中每一个R_i和S_j中第k(k＝1,2,…,l)个单词的权重tfidf_i,k和tfidf_j,k：

其中，tf_i,k和tf_j,k分别表示R_i和S_j中第k个单词的频率，df_k表示包含第k个单词的文档(测试报告或者源代码文件)的数量；从而R_i的句向量表示为S_j的句向量表示为/>R_i句向量中的权重值为0时，说明该权重对应的单词不属于该R_i；同理S_j句向量中的权重值为0时，说明该权重对应的单词不属于该S_j；

6-2.计算每一组句向量之间的余弦相似度作为VSMScore：

步骤(7)计算缺陷的修复历史记录分数RScore：由于源代码的更改历史记录有助于预测易错文件，所以最近经常被修改的源代码文件比过去长时间未被修改或从未被修改的文件更可能产生软件缺陷，令SR_month为最新的修复时间，R_month为当前软件缺陷报告的创建时间，缺陷的修复历史记录分数定义为：

步骤(8)计算缺陷修复频率分数：一个源代码文件如果经常被修复，那么这个文件可能是容易发生故障的文件，将软件缺陷报告提交之前源代码文件被修复的次数记为FScore，考虑到FScore的取值不在0到1之间，采用线性归一化处理；

步骤(9)计算协同过滤分数CFScore：如果一个缺陷报告和另外一个缺陷报告相似，那么可能是由相同的源代码文件导致的；BRS_i(BR,BS)为第i条记录R_i创建之前的所有已修复的软件缺陷报告BR以及对应的源代码文件BS的集合，若S_j∈BS，则对应存在缺陷报告R_k∈BR，软件缺陷报告R_i与S_j的协同过滤分数CFScore定义为R_i与R_k的相似度：

其中，和/>分别表示R_i和R_k经过SIF计算出的句向量；

finalScore＝α₁*SIFScore+α₂*VSMScore+α₃*RScrore+α₄*FScore+α₅*CFScore 公式10

步骤(11)利用粒子群优化算法优化五个分数的线性权重α₁、α₂、α₃、α₄、α₅，优化的具体步骤如下：

11-1.确定粒子群优化算法的适应度函数，使用两个评估指标：

ObjectFun＝MAP+MRR 公式11

其中MAP是广泛用于信息检索的标准度量，即平均准确率；MRR是每个软件缺陷报告的第一个正确定位的缺陷源代码文件的排名倒数累加的平均值；

11-2.设置种群数量P(P＝20)，随机初始化每个个体的速度V_i＝(v_i1,v_i2,…,v_id)和位置X_i＝(x_i1,x_i2,…,x_id)，其中d＝5为需要优化的权重的个数；根据适应度函数确定每个个体的当前最优位置pbest_i和种群的全局最优位置gbest；

11-3.在第t+1次迭代时，更新每个粒子的速度和位置，公式如下：

其中w为惯性权重w∈0.1,0.9，c₁和c₂是学习因子，通常设置为2，rand₁和rand₂为两个随机值，在[0,1]范围内取值；

11-4.计算每个个体的适应度函数值，并更新每个个体的当前最优位置pbest_i和种群的全局最优位置gbest；

11-5.重复执行上述操作，直至达到最大迭代次数MaxIter，设定为1000；最后，获得最优的权重组合α₁,α₂,α₃,α₄,α₅；

步骤(12)根据得到的最优权重α₁,α₂,α₃,α₄,α₅计算目标缺陷报告和项目中所有的源代码文件的finalScore并进行排序，得分最高的源代码文件最可能是导致该缺陷出现的源代码文件。

Claims

1.结合句嵌入和粒子群优化算法的软件缺陷定位方法，其特征在于包括如下步骤：

步骤(1)给定n个软件缺陷报告集合R＝(R₁，R₂，...，R_n)，将其中每个缺陷报告表示成R_i＝<reportId，description，summary>，i＝1，2...，n，其中reportId表示缺陷报告编号，description表示缺陷报告的详细描述信息，summary表示缺陷报告的摘要信息；

步骤(2)给定m个源代码文件集合S＝(S₁，S₂，...，S_m)，利用JDT解析每一个源代码文件，将每一个源代码文件处理成S_j＝<className，method，property，comment>形式，j＝1，2，...，m，其中className表示源代码文件的类名，method表示每个源代码文件的方法集合，property表示源代码文件的属性名集合，comment表示源代码文件的注释集合；

步骤(3)对每一个缺陷报告R_i和源代码文件S_j进行预处理；

步骤(4)将经过预处理后所有的缺陷报告和所有的源代码文件组成一个语料库Q＝(R₁，R₂...，R_n，S₁，S₂，...，S_m)，并用l表示语料库中包含的单词个数，然后将每个缺陷报告与每个源代码文件组对，即pair＝<R_i，S_j>；

步骤(5)构建平滑逆频率模型，得到平滑逆频率模型的分数值SIFScore；

首先使用GloVe词嵌入技术对语料库Q中的单词进行训练，得到每个单词W_k，k＝1，2，...，l的词向量

然后计算每个单词的权重ω(W_k)；在此基础上分别计算R_i和S_j对应的句向量和/>

最后计算每一组句向量之间的余弦相似度作为平滑逆频率模型的分数值SIFScore；

步骤(6)计算表面词汇相似度分数VSMScore；

步骤(7)计算缺陷的修复历史记录分数RScore；

步骤(8)计算缺陷修复频率分数：将软件缺陷报告提交之前源代码文件被修复的次数记为FScore；

步骤(9)计算协同过滤分数CFScore；

步骤(10)将多个不同层面的缺陷报告与源代码文件的分数进行线性组合形成一个最终得分；

步骤(11)利用粒子群优化算法优化5个分数的线性权重；

步骤(12)根据得到的最优权重计算目标缺陷报告和所有的源代码文件的finalScore并进行排序，finalScore最高的源代码文件最可能是导致该缺陷出现的源代码文件；

步骤(6)具体实现如下：

首先利用TF-IDF计算每一个R_i和S_j在语料库中第k个单词的权重tfidf_i，k和tfidf_j，k，从而R_i的句向量表示为 S_j的句向量表示为/>

然后计算每一组句向量对之间的余弦相似度作为VSMScore；

步骤(7)具体实现如下

令SR_month为最新的修复时间，R_month为当前软件缺陷报告的创建时间，缺陷的修复历史记录分数定义为：

步骤(9)具体实现如下：

设BRS_i(BR，BS)为第i条记录R_i创建之前的所有已修复的软件缺陷报告BR以及对应的源代码文件BS的集合，若S_j∈BS，则对应存在缺陷报告R_k∈BR，软件缺陷报告R_i与S_j的协同过滤分数CFScore定义为R_i与R_k的相似度：

其中，和/>分别表示R_i和R_k经过SIF计算出的句向量。

2.根据权利要求1所述的结合句嵌入和粒子群优化算法的软件缺陷定位方法，其特征在于步骤(3)具体实现如下：

最后将单词集合中的每个单词转为原型。

3.根据权利要求1所述的结合句嵌入和粒子群优化算法的软件缺陷定位方法，其特征在于步骤(11)具体优化实现如下：

ObjectFun＝MAP+MRR 公式11

11-2.设置种群数量P，P＝20，随机初始化每个个体的速度V_i＝(v_i1，v_i2，…，v_id)和位置X_i＝(x_i1，x_i2，…，x_id)，其中d＝5为需要优化的权重的个数；根据适应度函数确定每个个体的当前最优位置pbest_i和种群的全局最优位置gbest；

其中w为惯性权重w∈[0.1，0.9]，c₁和c₂是学习因子，设置为2，rand₁和rand₂为两个随机值，在[0，1]范围内取值；

11-5.重复执行步骤11-1到步骤11-4，直至达到最大迭代次数MaxIter，设定为1000；最后获得最优的权重组合α₁，α₂，α₃，α₄，α₅。

4.根据权利要求3所述的结合句嵌入和粒子群优化算法的软件缺陷定位方法，其特征在于步骤(5)具体实现如下：

5-1.使用GloVe词嵌入技术对语料库中的单词进行训练，得到每个单词W_k，k＝1，2，...，l的词向量

5-2.计算每个单词W_k的权重ω(W_k)：

其中，α为常数，设置为0.0001，p(W_k)表示单词W_k出现的概率；

5-3.句向量计算，分别计算R_i和S_j对应的句向量和/>并去除最大主成分，/>的实现形式如下：

5-4.计算每一组句向量之间的余弦相似度作为SIFScore：

5.根据权利要求4所述的结合句嵌入和粒子群优化算法的软件缺陷定位方法，其特征在于步骤(6)具体实现如下：

6-1.利用TF-IDF计算语料库中每一个R_i和S_j中第k，k＝1，2，...，l个单词的权重tfidf_i，k和tfidf_j，k：

tfidf_i或j，k＝tf_i或j，k*idf_k 公式5

其中，tf_i，k和tf_j，k分别表示R_i和S_j中第k个单词的频率，df_k表示包含第k个单词的文档的数量；从而R_i的句向量表示为 S_j的句向量表示为 R_i句向量中的权重值为0时，说明该权重对应的单词不属于该R_i；同理S_j句向量中的权重值为0时，说明该权重对应的单词不属于该S_j；

6-2.计算每一组句向量之间的余弦相似度作为VSMScore：