CN111090460B

CN111090460B - 一种基于最近邻算法的代码变更日志自动生成方法

Info

Publication number: CN111090460B
Application number: CN201910967684.5A
Authority: CN
Inventors: 蔡亮; 张洋; 鄢萌; 刘忠鑫; 夏鑫; 李善平; 王新宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2021-05-04
Anticipated expiration: 2039-10-12
Also published as: CN111090460A

Abstract

本发明公开了一种基于最近邻算法的代码变更日志自动生成方法，属于代码变更日志自动生成领域。该方法包括：输入数据的预处理、训练集数据预处理、通过词袋模型获取词频向量对的集合、通过KNN算法计算候选中间结果、计算BLEU‑4值，最终获得输出结果。该方法具有模型结构简单，解释性强，模型不需要训练，实际运行时间较NMT大大缩减，对噪声不敏感，鲁棒性强的特点。

Description

一种基于最近邻算法的代码变更日志自动生成方法

技术领域

本发明属于代码变更日志自动生成领域，具体地涉及一种基于最近邻算法的代码变更日志自动生成方法。

背景技术

目前，代码变更日志的技术已被广泛研究。DeltaDoc是将源代码的变更作为输入，通过符号执行的方法来获得路径谓词，然后使用一组预定义的规则和转换生成提交消息。ChangeScribe首先通过分析相应的源代码的变更和抽象语法树，以提取必要信息。然后它用提取的信息填充预定义的模板来作为本次提交的日志。 NMT则首先将深度神经网络运用到其该领域，其做法是使用神经机器翻译算法自动从源码中生成精简的代码变更日志。

但是目前代码克隆检测工具中普遍存在以下问题：

(1)模型结构复杂，缺乏可解释性；

(2)模型训练和运行时间花费大；

(3)对噪声敏感，鲁棒性不强。

发明内容

本发明的对现有技术进行改进的目的，提供一种基于最近邻算法的代码变更日志自动生成方法。

本发明是通过以下技术方案实现的：一种基于最近邻算法的代码变更日志自动生成方法，具体包括以下步骤：

步骤一：输入数据的预处理：每一个原始数据的提交都对应于一个diff文件，所述diff文件通过Git原生命令git diff获得，所述diff文件保存工作区中的当前文件和历史版本文件的差异内容。

步骤二：训练集数据预处理：对步骤一所得diff文件进行训练，所述diff文件中包含工程的commit对，通过正则表达式过滤掉所述diff文件中的由集成开发工具自动生成的冗余信息的commit对或者缺失信息的commit对，最终获得训练集数据。每个commit对由diff文件和与之对应的commit message组成。

步骤三：通过词袋模型获取词频向量对的集合：将待生成日志diff文件通过词袋模型建立所述diff文件的词频向量对的集合。所述词频向量对表示为<d,t_i>，其中d表示diff文件生成的词向量，t_i表示训练集中第i个数据对应的词向量；词向量的维度记为n，diff文件的词汇表集合记为D,第i个数据对应词词频向量对的集合记为T_i，n＝|D∪T_i|。

步骤四：KNN算法计算候选中间结果：对步骤三中获得的词频向量对的集合分别做余弦相似度计算，获得相似度值，将相似度值最大的5个词频向量对作为候选中间结果：

其中，

为t_i向量的第j个分量，d_j为diff文件生成的词向量的第j个分量。

步骤五：计算BLEU-4值：对步骤四中得到的候选中间结果所对应的词频向量对<d,t_i>，分别计算BLEU-4值，将其中BLEU-4值最大的词频向量对所对应的commit message文件作为最终的结果输出。

进一步地，步骤5中所述BLEU-4值的计算方法如下：

首先计算修正的n个连续的单词片段精确度，对于任意的n，所述单词片段精确度通过以下计算得到：

Cnt_clip(n-gram)＝min(Cnt_gen(n-gram)，Cnt_ref(n-gram)) (3)

其中，gen是t_i中所有的不同的n-grams组成的集合；Cnt_clip由方程(3)定义； Cnt_gen为某一个n-gram在t_i中出现的次数；Cnt_ref为某一个n-gram在d中出现的次数。

其次，BLEU的定义如下：

其中，N是最长的连续单词片段，此处选择经验值4；p_n是由方程(2)计算而得；BP由方程(5)定义；r是d所对应的diff语句的长度，c是t_i所对应的commit message的长度。

与现有技术相比，本发明具有如下有益效果：本发明采用的是简单高效的机器学习模型KNN代替现有技术中复杂的深度学习网络模型。KNN模型本身不需要模型训练阶段，实际运行阶段只需要计算待测样本和所有训练样本的余弦距离，故运行时间相比现有技术也大幅度减少，同时利用余弦函数计算相似性的方法本身也十分易于理解，便于解释。最后，本发明增加了训练数据的预处理阶段，故可以排除训练样本中噪声的干扰，具有很强的鲁棒性。本发明的方法具有模型结构简单，解释性强；模型不需要训练，实际运行时间较NMT大大缩减；对噪声不敏感，鲁棒性强的特点。

附图说明

图1为代码变更日志自动生成流程图。

具体实施方式

如图1所示，为本发明代码变更日志自动生成流程图，该方法具体包括以下步骤：

步骤二：训练集数据预处理：对步骤一所得diff文件进行训练，所述diff文件中包含工程的commit对，通过正则表达式过滤掉所述diff文件中的由集成开发工具自动生成的冗余信息的commit对或者缺失信息的commit对，最终获得训练集数据。每个commit对由diff文件和与之对应的commit message组成。通过对训练数据的预处理，排除无效信息，可以大幅度提升模型的鲁棒性。

步骤三：通过词袋模型获取词频向量对：将待生成日志diff文件通过词袋模型建立diff文件的词频向量对的集合。词袋模型只考虑每个句子中词语出现的频率，忽略其语法以及词语的顺序。所述词频向量对表示为<d,t_i>，其中d表示 diff文件生成的词向量，t_i表示训练集中第i个数据对应的词向量；词向量的维度记为dim，diff文件的词汇表集合记为D,第i个数据对应词词频向量对的集合记为T_i，dim＝|D∪T_i|。词向量每一维度代表当前单词在当前句子中出现的频数。词袋模型的作用是简化模型输入的复杂度，即将自然语言序列直接映射为词频向量对，相比于深度学习网络中方法中将单个单词映射为独立向量，可以极大减少运算过程中的复杂度，减少运算时间。

其中，

为t_i向量的第j个分量。

所述BLEU-4值的计算方法如下：

Cnt_clip(n-gram)＝min(Cnt_gen(n-gram)，Cnt_ref(n-gram)) (3)

其中，gen是t_i中所有的不同的n-grams组成的集合；Cnt_clip由方程(3)定义； Cnt_gen则是某一个n-gram在t_i中出现的次数；Cnt_ref是某一个n-gram在d中出现的次数。步骤四和五是该方法的核心，步骤四通过计算余弦距离来确定K(根据经验值K取5)个候选结果，而不是将所有的结果都输入第步骤五，由此进一步减少了计算代价；最后步骤五通过计算每个候选结果和输入向量的BLEU-4值，最后将于输入结果最想的候选结果作为预测结果输出。整个运算流程利用简单的KNN和BLEU-4算法组合运用，拥有很强的可解释性。

其次，BLEU的定义如下：

其中，N是最长的连续单词片段，此处选择经验值4；p_n是由方程(2)计算而得；BP由方程(5)定义；r是d所对应的diff语句的长度，c是t_i所对应的 commit message的长度。

实施例

给定一个从Git仓库提取出的原始的代码变更日志(commit message)，记为OCM(original commit message)，同时利用git diff命令获得与之对应的diff信息，记为OF(original diff)。将OF作为NNGen(最近邻算法的代码仓库提交信息生成算法)的输入,输出结果MG(massage generated)。该方法的性能参数如表1所示。

对比例

首先将一个待生成代码日志的diff文件和一个训练集输入GenNN模型， GenNN会从训练集中提取diff文件。接下来，训练diff文件和待生成代码日志的diff文件利用词袋模型生成为一个词向量对集合(如具体实施方式中步骤三)。然后，GenNN计算词向量对集合中每个向量对之间的余弦相似度，并选择出相似度得分最高的5个向量对所对应的diff文件。然后，计算待生成代码日志的 diff文件和Top-5(相似度最高的5个向量对)训练diff文件之间的bleu-4得分。并将bleu-4得分最高的训练diff视为待生成代码日志的diff文件的最近邻。最后， GenNN方简单地输出得分最高的训练diff文件所对应的提交代码日志作为最后输出的代码日志文件。对于NMT模型，输入同样的待生成代码日志的diff文件，最后获得其生成的代码日志diff文件。两者对比试验结果如下：

表1 实际生成提交日志比较

表2 NMT和GenNN的评估结果

表3 NMT和GenNN时间消耗对比

^*GTX 1080是Nvidia GeForce GTX 1080显卡，GPU采用的是Intel Core i52.5GHz。

如表1所示，输入相同的diff文件，最后分别生成的提交日志，GenNN的生成结果要比NMT更接近真实的提交日志，由此直观显示GenNN效果要优于NMT。

如表2所示，给出了NMT和GenNN的在原始数据集(original)以及清洗过数据集(cleaned)上的评估结果，GenNN的BLEU值获得了从16％到21％不等的提升。此外，GenNN所有修正N-gram精度(表2中的p₁-p₄)都高于NMT。结果则定量地表明GenNN算法的效果要优于NMT，同时可以看到GenNN方法在每个数据集上的BLEU-4得分都优于NMT，这在表明了GenNN方法有更高的鲁棒性，噪声对其影响更小。

如表3所示，对于相同的输入diff文件，NMT相比较于GenNN的时间成本大大减少。可以看到，训练NMT需要24到34小时，测试这两个数据集需要4.5到17 分钟。然而GenNN不需要训练，因此其训练时间标记为N/A。其测试过程的时间成本只有23到30秒。这意味着GenNN在两个数据集上比NMT快得多(超过2600 倍)。

Claims

1.一种基于最近邻算法的代码变更日志自动生成方法，其特征在于，具体包括以下步骤：

步骤一：输入数据的预处理：每一个原始数据的提交都对应于一个diff文件，所述diff文件通过Git原生命令git diff获得，所述diff文件保存工作区中的当前文件和历史版本文件的差异内容；

步骤二：训练集数据预处理：对步骤一所得diff文件进行训练，所述diff文件中包含工程的commit对，通过正则表达式过滤掉所述diff文件中的由集成开发工具自动生成的冗余信息的commit对或者缺失信息的commit对，最终获得训练集数据；每个commit对由diff文件和与之对应的commit message组成；

步骤三：通过词袋模型获取词频向量对的集合：将待生成日志diff文件通过词袋模型建立所述diff文件的词频向量对的集合；所述词频向量对表示为<d，t_i>，其中d表示diff文件生成的词向量，t_i表示训练集中第i个数据对应的词向量；词向量的维度记为n，diff文件的词汇表集合记为D，第i个数据对应词词频向量对的集合记为T_i，n＝|D∪T_i|；

其中，t_ij为t_i向量的第j个分量，d_j为diff文件生成的词向量的第j个分量；

步骤五：计算BLEU-4值：对步骤四中得到的候选中间结果所对应的词频向量对<d，t_i>，分别计算BLEU-4值，将其中BLEU-4值最大的词频向量对所对应的commit message文件作为最终的结果输出；

步骤五中所述BLEU-4值的计算方法如下：

Cnt_clip(n-gram)＝min(Cnt_gen(n-gram)，Cnt_ref(n-gram)) (3)

其中，gen是t_i中所有的不同的n-grams组成的集合；Cnt_clip由方程(3)定义；Cnt_gen为某一个n-gram在t_i中出现的次数；Cnt_ref为某一个n-gram在d中出现的次数；

其次，BLEU的定义如下：