CN112527769B

CN112527769B - 一种针对软件变更日志生成方法的自动化质量保证框架

Info

Publication number: CN112527769B
Application number: CN202011426108.9A
Authority: CN
Inventors: 鄢萌; 王备; 刘忠鑫; 徐玲; 夏鑫; 张小洪; 付春雷
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2023-05-16
Anticipated expiration: 2040-12-09
Also published as: CN112527769A

Abstract

本发明公开了一种针对软件变更日志生成方法的自动化质量保证框架。包括如下步骤：基于软件历史变更数据，生成diff^h的单词w_d和msg^ref的单词w_m的单词向量

和

基于协同过滤算法，计算单词w_d和w_m之间的关联性Rel(w_d,w_m)；构建单词w_d的单词映射表

基于已构建的单词映射表，分别计算两个质量分数Precision_i和Recall_i；基于词频‑逆文档频率(TF‑IDF)，生成变更差异向量

d_i；计算待测软件变更日志和历史软件变更之间的相似程度

选择与待测软件变更C_i相似度最高的前n个历史软件变更

至

计算相关性分数RetScore_i；设置阈值Prec_t、Rec_t和Ret_t，对待测软件变更C_i的生成日志

的语义相关性进行预测；基于预测结果对软件变更日志进行过滤或者保留。

Description

一种针对软件变更日志生成方法的自动化质量保证框架

技术领域

本发明涉及软件质量保证，尤其涉及一种针对软件变更日志生成方法的自动化质量保证框架。

背景技术

目前，在软件开发和维护期间，开发人员不断地将软件更改diff软件变更到版本控制系统，如Git，以修复缺陷、添加/增强特性或重构，它列出了存储仓库更改前和更改后版本之间的差异。此外，开发人员可以将一个名为软件变更日志(commit message)的自然语言文本附加到每个软件更改中，该文本通常会总结在此更改中发生了什么，以及为什么作此更改，高质量的软件变更日志可以促进对软件变更和软件演进历史的理解。

现有技术存在的不足是：由于训练使用数据的局限性和任务的复杂性，也可能产生不令人满意的软件变更日志。根据之前的研究和人工验证，现软件变更日志生成方法生成的日志中，大约有50％以上是与它们的参考日志在语义上无关的，这种生成的日志称为语义无关的日志。这样语义无关的日志可能会误导开发人员，需要额外的精力来确认和过滤，因此可能会降低开发人员对软件变更日志自动化生成工具的信心，阻碍了软件变更日志自动化生成工具的实际使用。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：自动生成软件变更日志生成的软件变更日志中，存在大量语义无关的日志。

为解决上述技术问题，本发明采用如下技术方案：软件变更日志生成方法的自动化质量保证框架，包括如下步骤：

S100:构建两个组件，分别是基于协同过滤的组件和基于检索的组件；

通过基于协同过滤的组件，对于待测软件变更C_i的生成日志

并分别计算两个质量分数Precision_i和Recall_i；

通过基于检索的组件计算对于一个待测软件变更C_i与历史软件变更

的相关性分数RetScore_i；

S200:设置阈值Prec_t、Rec_t和Ret_t，预测软件变更C_i的生成日志

是否为语义无关的日志；

分别比较Precision_i、Recall_i和RetScore_i与相应阈值的大小，Precision_i＜Prec_t，或者Recall_i＜Rec_t，或RetScore_i＜Ret_t，当三个条件中满足任一条件，则预测软件变更C_i的生成日志

被预测为语义无关的日志；当三个条件都不满足，则预测软件变更C_i的生成日志

被预测为语义相关的日志。

作为优选的，所述S100中通过基于协同过滤的组件，对于待测软件变更C_i的生成日志

并分别计算两个质量分数Precision_i和Recall_i的具体步骤为：

S110：获取历史软件变更数据和待测软件变更数据，每条历史软件变更数据和每条待测软件变更数据均由变更差异diff^h、参考日志msg^ref和生成日志msg^gen组成；

S111：从历史软件变更的变更差异diff^h中选出包含单词w的软件变更数据记为w_d，所有的w_d构建成N维的变更差异单词向量

从历史软件变更的参考日志msg^ref中选出包含单词w的软件变更数据记为w_m，所述所有的w_m构建成N维的参考日志单词向量

N为历史软件变更数据的数量；

所述变更差异单词向量

定义为：

表示单词w_d在第j个历史软件变更

中是否存在；即如果历史软件变更

的变更差异

包含单词w_d，则

否则

所述参考日志单词向量

定义为：

表示单词w_m在第j个历史软件变更

中是否存在；若历史软件变更

的参考日志

包含单词w_m，则

否则

S112：通过协同过滤算法，基于变更差异单词向量

和参考日志单词向量

利用余弦相似度公式计算单词w_d和单词w_m之间的关联性Rel(w_d,w_m)，计算公式如下：

S113：利用Rel(w_d,wm)构建单词w_d的单词映射表

定义如下：

为了减小M的大小，从而加快计算速度，我们默认设置k为10；

S114：设置阈值Ignore-rate对无用的单词进行过滤，利用步骤S113所得单词映射表

计算得到待测软件变更C_i中的一个生成日志

的两个质量分数Precision_i和Recall_i；

阈值Ignore-rate表示为单词可以被忽略的概率，若单词对应的出错概率超过该阈值，则认为是无用单词，对其进行过滤；质量分数Precision_i定义为：

质量分数Recall_i定义为：

其中|·|表示一个集合的长度。

作为优选，所述S100中通过基于检索的组件计算对于一个待测软件变更C_i与历史软件变更的相关性分数RetScore_i的具体步骤为：

S120：使用词频-逆文档频率，将历史软件变更

的变更差异

表示为历史软件变更差异向量

将待测软件变更C_i的变更差异diff_i表示为待测软件变更差异向量d_i，

和d_i分别定义如下：

其中，#w表示单词的总数量；

表示历史软件变更包含单词w_d的变更差异diff的数量；#diff_i|w_d∈diff_i表示待测软件变更包含单词w_d的变更差异diff的数量；

S121：利用历史软件变更差异向量

和待测软件变更差异向量d_i，基于余弦相似度计算得到待测软件变更C_i和历史软件变更

之间的相似程度

定义为：

其中，

表示为

和d_i之间的余弦相似度，

待测软件变更差异向量，

历史软件变更差异向量；

S122：根据步骤S121得到的相似程度

将历史软件变更与待测软件变更C_i进行比较，按照相似度高到低排序，选出前n个历史软件变更，记为

S123：利用步骤S122得到的n个历史软件变更

计算得到待测软件变更C_i与n个历史软件变更的相关性分数RetScore_i，计算公式如下：

其中，RetScore_i表示待测软件变更C_i与n个历史软件变更数据的相关性分数，d_i为待测软件变更C_i的变更差异向量，

为历史软件变更

的变更差异向量，其中，j＝top₁,top₂,……,top_n，默认设置n为5。

相对于现有技术，本发明至少具有如下优点：

本发明提出的用于软件变更日志生成方法的自动化质量保证框架(QAcom)能够有效地过滤掉语义不相关的日志，保留语义相关的日志，并通过保证软件变更日志生成方法生成的软件变更日志的质量，可以运用至实际的工作场景。

附图说明

图1为本发明的整体框架图。

具体实施方式

下面对本发明作进一步详细说明。

本发明描述了一种用于软件变更日志生成方法的自动化质量保证框架。该发明是应用于现有的基于神经机器翻译和基于检索的软件变更日志生成方法的插件，具体来说，就是给定一个变更差异diff和其对应的生成日志，通过计算质量分数，用以估计生成的日志和参考日志(估计时未知)之间的语义相关性，并通过过滤低质量分数的生成日志来保证生成的软件变更日志的质量。

本发明中，基于协同过滤组件和检索组件来计算质量分数。首先，基于历史软件变更数据，生成diff^h的单词w_d和msg^ref的单词w_m的单词向量

和

基于已构建的单词映射表，分别计算两个质量分数Precision_i和Recall_i；基于词频-逆文档频率(TF-IDF)，生成变更差异向量

d_i；计算待测软件变更和历史软件变更之间的相似程度

选择与待测软件变更C_i相似度最高的前n个历史软件变更

至

的语义相关性进行预测；基于预测结果对生成日志进行过滤或者保留。

一种针对软件变更日志生成方法的自动化质量保证框架，其特征在于：包括如下步骤：

通过基于协同过滤的组件，对于待测软件变更C_i的生成日志

并分别计算两个质量分数Precision_i和Recall_i；

所述S100中通过基于协同过滤的组件，对于待测软件变更C_i的生成日志

并分别计算两个质量分数Precision_i和Recall_i的具体步骤为：

S111：从历史软件变更的变更差异diff^h中选出包含单词w的软件变更数据记为w_d，所述所有的w_d构建成N维的变更差异单词向量

N为历史软件变更数据的数量；

所述变更差异单词向量

定义为：

表示单词w_d在第j个历史软件变更

中是否存在，即如果历史软件变更

的变更差异

包含单词w_d，则

否则

所述参考日志单词向量

定义为：

表示单词w_m在第j个历史软件变更

中是否存在，若历史软件变更

的参考日志

包含单词w_m，则

否则

S112：通过协同过滤算法，基于变更差异单词向量

和参考日志单词向量

S113：利用Rel(w_d,w_m)构建单词w_d的单词映射表

定义如下：

为了减小M的大小，从而加快计算速度，我们默认设置k为10；

计算得到待测软件变更C_i中的一个生成日志

的两个质量分数Precision_i和Recall_i；

质量分数Recall_i定义为：

其中|·|表示一个集合的长度。

的相关性分数RetScore_i；

所述S100中通过基于检索的组件计算对于一个待测软件变更C_i与历史软件变更的相关性分数RetScore_i的具体步骤为：

S120：使用词频-逆文档频率，将历史软件变更

的变更差异

表示为历史软件变更差异向量

和d_i分别定义如下：

其中，#表示单词的总数量；

S121：利用历史软件变更差异向量

之间的相似程度

定义为：

其中，

表示为

和d_i之间的余弦相似度，

待测软件变更差异向量，

历史软件变更差异向量；

S122：根据步骤S121得到的相似程度

S123：利用步骤S122得到的n个历史软件变更

为历史软件变更

S200:设置阈值Prec_t、Rec_t和Ret_t，预测软件变更C_i的生成日志

是否为语义无关的日志；

分别比较Precision_i、Recall_i和RetScore_i与相应阈值的大小，_i＜Prec_t，或者Recall_i＜Rec_t，或RetScore_i＜Ret_t，当三个条件中满足任一条件，则预测软件变更C_i的生成日志

被预测为语义相关的日志。

实验验证：

本发明选择了三种最先进的软件变更日志生成方法，来验证本发明在预测生成日志的语义相关性方面的性能，分别是NMT、NNGen和PtrGNCMsg。NMT采用神经机器翻译模型，将变更差异diff自动转化为简洁的软件变更日志；NNGen通过使用最近邻算法从历史软件变更中检索软件变更日志；PtrGNCMsg通过指针生成器网络改进了神经机器翻译模型。本发明提出的用于软件变更日志生成方法的自动化质量保证框架称作QAcom。

本发明选择的数据来自网站Github，包含三个公共数据集：Top1000，Cleaned和Top2000。Top1000数据集由NMT方法的作者构建，包含Github上前1000个高星Java项目的软件变更，训练集、验证集和测试集中分别有26208、3000和3000个软件变更数据；Cleaned数据集是由NNGen方法的作者从Top1000数据集中删除了一些有噪声的软件变更之后构建而成的，训练集、验证集和测试集分别包含了22112、2511和2511个软件变更数据；Top2000数据集由PtrGNCMsg方法的作者构建，收集自GitHub上前1001-2081的高星Java项目，其训练集、验证集和测试集中分别有23623、5051和3989个软件变更数据。

本发明同时采用了自动评价方法和人工评价方法：

自动评价：给定软件变更日志生成方法(例如NMT)和数据集，首先在不集成QAcom的情况下训练、验证和测试该方法；通过计算自动评价指标，来度量测试集上的所有生成日志的整体质量。然后在验证集上调整QAcom的阈值；通过这些阈值，应用QAcom来预测和过滤这些生成的日志中语义无关的日志；最后，使用相同的自动化评价指标来评价QAcom保留的日志的整体质量，这也被认为是该方法在QAcom集成下(如NMT+QAcom)的性能。测试集中被QAcom保留的生成日志与所有生成日志的比例，即保留比例也被保留以对比性能。此外，为了保证对比的公平性，本发明添加了一个特殊的对照组，该对照组随机保留生成的日志以满足相同的保留比例，然后计算评价指标。这个随机选择对照组(RS)过程执行10次，然后记录平均性能。自动评价指标为BLEU、METEOR和ROUGE-L。BLEU分数基于公式

其中

表示文本块的修正后的n_gram精确度，而惩罚因子

c是生成日志长度，r是参考日志长度；METEOR＝(1-pen)×F_means，其中pen为惩罚因子，惩罚的是候选翻译中的词序与参考翻译中的词序不同，

为可调控的参数，

m为候选生成日志中能够被匹配的一元组数量，c和r同BLEU；ROUGE-L计算的是生成日志与参考日志的最长公共子序列长度，长度越长，得分越高，基于F值，

其中

X表示生成日志，Y表示参考日志，LCS(X,Y)表示生成日志与参考日志的最长公共子序列的长度，m表示参考日志的长度，n表示候选日志的长度。

人工评价：同时，本发明邀请了6位参与者(2位博士研究生和4为硕士研究生)对实验结果进行人工评价。所有参与者的专业都是软件工程，并且有4至7年的Java编程经验。他们被要求通过检查参考日志和NMT、NNGen和PtrGNCMsg的生成日志之间的语义相关性，来评价生成日志的质量。具体来说，从每个数据集中随机选择200个软件变更，并将它们随机分成两组。6名参与者也被平均分成两组。每个参与者小组被要求评估来自每个数据集的100个软件变更，即总共300个软件变更。因此，每一个软件变更将被3个参与者打分。参与者被要求对每个生成的日志给出1到5的质量分数，以衡量该日志和参考日志之间的语义相关性。1分表示两个日志之间没有语义关联，5分表示两个日志语义相同。其中，我们认为得分为4分或5分的日志是语义相关的，其余的日志是语义无关的。

为了使得本发明的性能达到最优，首先采用差分进化算法，对Ignore-rate、Prec_t、Rec_t和Ret_t进行调优，其中用于调优的数据集同样为历史软件变更数据，调优约束为(1)保留的生成日志的BLEU分数不低于0.4(2)保留的日志数量尽可能多。对于不同的方法和不同的数据集，最优的阈值如表1所示。

表1.QAcom应用三种日志软件变更方法、三种数据集上的最优阈值

人工评价实验结果如表2所示，以NMT方法为例，“NMT”行表示NMT在所有测试集上的性能，即所有的生成日志的总体质量，保留比例为100％。“NMT+RS”行表示随机选择的生成日志的整体质量，其保留比例和QAcom的结果保持一致。“NMT+QAcom”行表示QAcom保留的生成日志的总体质量。在表1中有四个发现：

①在所有情况下，所有的生成日志的整体质量与随机选取的生成日志的质量几乎没有差别，这说明随机选择的操作对生成日志的质量影响不大。

②QAcom保留的生成日志的整体质量明显优于随机选取。例如，在Cleaned数据集中，NMT+QAcom可将NMT+RS的BLEU、METEOR和ROUGE平均提高177％，134％和96％。分别。通过发现①可以推断，相比过滤语义相关信息，QAcom可以过滤出更多的语义无关信息。

③三种集成QAcom的软件变更日志生成方法的BLEU得分都接近或超过阈值调优时使用的约束(1)(即BLEU不低于0.4)，这表明QAcom保留的生成日志的整体质量良好。因此，QAcom能够成功地保证其所保留的生成日志的整体质量。

④QAcom的保留比例随着使用的数据集和软件变更日志生成方法的不同而变化。以Top2000数据集为例，在三种软件变更日志生成方法中，PtrGNCMsg+QAcom的保留比例最高。在Cleaned数据集上，PtrGNCMsg+QAcom只保留了16.66％的生成日志，而NMT和NNGen的保留比例分别为24.12％和32.17％。原因可能是PtrGNCMsg的有效性在已清理的数据集上受到了限制。换句话说，PtrGNCmsg无法在Cleaned数据集上生成足够多的语义相关日志。

表2-OAcom在三个数据集上与三种最先进的软件变更日志生成方法集成时的自动评价结果

人工评估结果如表3所示，“1”到“5”的表示每种软件变更日志生成方法在每个数据集上的最终质量分数的分布。“#保留”列表示保留的日志数量，“平均分数”列表示质量分数的平均分数。首先“#保留”与表2所示的保留比例基本一致。例如，Top1000数据集上NNGen的保留比例为96.13％，NNGen的“#保留”为200中的189。在所有情况下，QAcom都比随机选择(RS)能够过滤出更多语义上不相关的信息，并保留更多语义上相关的信息。此外，在所有情况下，QAcom保留的生成日志中语义相关日志的比率都大于所有生成日志中语义相关日志的比率。此外，QAcom保留的生成日志的平均得分高于原始数据集的平均得分，也高于随机选择对照组的平均得分

表3-OAcom在三个数据集上与三种最先进的软件变更日志生成方法集成时的人工评价结果

简而言之，实验结果证明，本发明提出的用于软件变更日志生成方法的自动化质量保证框架(QAcom)能够有效地过滤掉语义不相关的日志，保留语义相关的日志，并通过保证软件变更日志生成方法生成的软件变更日志的质量，可以运用至实际的工作场景，为提高现有软件变更日志生成方法的实用性做出贡献。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种针对软件变更日志生成方法的自动化质量保证方法，其特征在于：包括如下步骤：

通过基于协同过滤的组件，对于待测软件变更C_i的生成日志并分别计算两个质量分数Precision_i和Recall_i，具体步骤为：

S111：从历史软件变更的变更差异diff^h中选出包含单词w的软件变更数据记为w_d，所有的w_d构建成N维的变更差异单词向量从历史软件变更的参考日志msg^ref中选出包含单词w的软件变更数据记为w_m，所有的w_m构建成N维的参考日志单词向量N为历史软件变更数据的数量；

所述变更差异单词向量定义为：表示单词w_d在第j个历史软件变更中是否存在；

所述参考日志单词向量定义为：表示单词w_m在第j个历史软件变更中是否存在；

S112：通过协同过滤算法，基于变更差异单词向量和参考日志单词向量利用余弦相似度公式计算单词w_d和单词w_m之间的关联性Rel(w_d,w_m)，计算公式如下：

S113：利用Rel(w_d,w_m)构建单词w_d的单词映射表定义如下：

S114：设置阈值Ignore-rate对无用的单词进行过滤，利用步骤S113所得单词映射表计算得到待测软件变更C_i中的一个生成日志的两个质量分数Precision_i和Recall_i；Ignore-rate表示单词可以被忽略的概率；质量分数Precision_i定义为：质量分数Recall_i定义为：其中|·|表示一个集合的长度；

通过基于检索的组件计算对于一个待测软件变更C_i与历史软件变更的相关性分数RetScore_i，具体步骤为：

S120：使用词频-逆文档频率，将历史软件变更的变更差异表示为历史软件变更差异向量将待测软件变更C_i的变更差异diff_i表示为待测软件变更差异向量d_i，和d_i分别定义如下：

其中，#w表示单词的总数量；表示历史软件变更包含单词w_d的变更差异diff的数量；#diffi_i|w_d∈diffi_i表示待测软件变更包含单词w_d的变更差异diff的数量；

S121：利用历史软件变更差异向量和待测软件变更差异向量d_i，基于余弦相似度计算得到待测软件变更C_i和历史软件变更之间的相似程度定义为：

其中，表示为和d_i之间的余弦相似度，待测软件变更差异向量，历史软件变更差异向量；

S122：根据步骤S121得到的相似程度将历史软件变更与待测软件变更C_i进行比较，按照相似度高到低排序，选出前n个历史软件变更，记为

S123：利用步骤S122得到的n个历史软件变更计算得到待测软件变更C_i与n个历史软件变更的相关性分数RetScore_i，计算公式如下：

其中，RetScore_i表示待测软件变更C_i与n个历史软件变更数据的相关性分数，d_i为待测软件变更C_i的变更差异向量，为历史软件变更的变更差异向量，其中，j＝top₁,top₂,……,top_n；

S200:设置阈值Prec_t、Rec_t和Ret_t，预测软件变更C_i的生成日志是否为语义无关的日志；

分别比较Precision_i、Recall_i和RetScore_i与相应阈值的大小，Precision_i<Prec_t，或者Recall_i<Rec_t，或RetScore_i<Ret_t，当三个条件中满足任一条件，则预测软件变更C_i的生成日志被预测为语义无关的日志；当三个条件都不满足，则预测软件变更C_i的生成日志被预测为语义相关的日志。