CN110399162A

CN110399162A - 一种源代码注释自动生成方法

Info

Publication number: CN110399162A
Application number: CN201910613270.2A
Authority: CN
Inventors: 王旭; 孙海龙; 张建; 刘旭东
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beihang University; Beijing University of Aeronautics and Astronautics
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-11-01
Anticipated expiration: 2039-07-09
Also published as: CN110399162B

Abstract

本发明提出一种源代码注释自动生成方法，包括离线阶段和测试阶段，在离线阶段，首先收集训练语料训练注意力机制的编码器‑解码器模型，然后利用训练语料的代码构造代码检索库，所述训练语料包含源代码片段以及其对应的注释；所述线测试阶段，对于输入的代码片段，首先在所述代码检索库搜索出语法级别和语义级别相似的两个已有代码片段，然后将相似的两个已有代码片段与输入的代码片段作为基于检索的神经注释生成模块的输入，生成所述输入代码片段对应的注释。

Description

一种源代码注释自动生成方法

技术领域

本发明涉及一种自动生成方法，尤其涉及一种源代码注释自动生成方法。

背景技术

源代码摘要(代码注释生成)目的在于对给定的代码生成简短的摘要信息，通常以注释的形式呈现。这种摘要对于理解与维护源代码是非常重要的。在缺乏文档的情况下，开发者往往花费很长时间阅读和理解程序代码。同时，在代码被修改时，代码的注释也必须随之更新，这就增加了维护的成本。因此，探索自动生成代码注释的技术能够有效帮助开发者进行软件开发活动。

早期的技术大多基于信息检索的方法。大多数研究通常从代码片段中抽取一些关键词作为对应代码的摘要。比如，采用潜在语义分析(Latent Semantic Indexing)和向量空间模型(Vector Space Model)来从源代码中选择一些好的术语作其摘要。同时，也有一些研究采用代码克隆检测(Code Clone Detection)的方法检索与给定代码最相似的现有代码，之后将其注释作为给定代码的摘要。

近年来的技术大多基于神经机器翻译(Neural Machine Translation)。最早的模型是编码器-解码器模型，该模型以词嵌入(Word Embedding)技术对源代码进行编码，并使用长短时记忆网络(Long Short Term Memory)与注意力机制(Attention Mechanism)生成句子级别的摘要。此外，也有研究引入源代码的其他信息，比如API序列或者抽象语法树(Abstract Syntax Tree)，并且使用额外的编码器来获取其语义。此外，也有通过深度强化学习(Deep Reinforcement Learning)的方法来解决解码时存在的曝光偏差(ExposureBias)问题。

现有技术中存在以下问题：

1.由于现有的基于信息检索的方法大多抽取部分术语词汇，无法生成可阅读的摘要。此外，仅仅检索已有摘要的方法无法生成新的句子。

2.由于基于神经机器翻译的方法在训练时采用最大似然Maximum Loglikehood的策略，因此更倾向于生成出现频率较高的词语，而忽略在原始注释中出现次数低但同样重要的词语，如互联网基本服务“IIS”。

发明内容

基于现有技术存在的问题，本发明提出一种源代码注释自动生成方法，包括离线阶段和测试阶段，在离线阶段，首先收集训练语料训练注意力机制的编码器-解码器模型，然后利用训练语料的代码构造代码检索库，所述训练语料包含源代码片段以及其对应的注释；所述线测试阶段，对于输入的代码片段，首先在所述代码检索库搜索出语法级别和语义级别相似的两个已有代码片段，然后将相似的两个已有代码片段与输入的代码片段作为基于检索的神经注释生成模块的输入，生成所述输入代码片段对应的注释。

附图说明

图1为本发明的整体框架图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提出一种源代码注释自动生成方法，包括离线阶段和测试阶段，在离线阶段，首先收集训练语料训练注意力机制的编码器-解码器模型，然后利用训练语料的代码构造代码检索库，所述训练语料包含源代码片段以及其对应的注释；所述线测试阶段，对于输入的代码片段，首先在所述代码检索库搜索出语法级别和语义级别相似的两个已有代码片段，然后将相似的两个已有代码片段与输入的代码片段作为基于检索的神经注释生成模块的输入，生成所述输入代码片段对应的注释

在离线阶段，首先收集了大量训练语料，包含源代码片段以及其对应的注释。这些语料用于训练一个注意力机制的编码器-解码器模型。训练完成后，构造代码检索库。一方面，对代码用AST解析器将其解析成抽象语法树的形式，之后遍历该树得到对应的节点序列；另一方面，借助于训练好的编码器，将代码编码成语义向量。这两种表示形式连同代码一起形成多个映射对，存储到代码检索库中，用于之后的搜索。

在测试阶段，对于一个新的代码片段，首先基于Lucene以及向量之间的余弦相似度搜索出在语法级别和语义级别相似的两个已有代码片段，然后将它们与输入的代码片段作为基于检索的神经注释生成模块的输入，最后生成该代码片段对应的注释。

注意力机制的编码器-解码器模型用于编码并解码输入的代码片段，同时也用于检索在语义级别最相似的代码。该模型主要包含两个部分：编码器与解码器。

对于编码器，假定有一个代码片段c，由一个词语(关键字或标识符)序列w₁，...，w_n组成。本发明首先用一个词嵌入层来将这些词语表示成词向量的形式：

x_i＝W_e ^Tw_i，i∈[1，n].

这里n是该代码片段的长度，W_e是词嵌入矩阵。然后使用LSTM对该序列进行编码，得到一系列隐藏状态向量：h₁，…，h_n.该计算过程可简单表述成下式：

h_t＝LSTM(x_t，h_t-1).

为了更好地捕获代码的语义信息，使用了双向的LSTM。

在解码时，使用带注意力机制的LSTM作为解码器。当生成注释的第i个词的时候，首先需要利用注意力机制对上面得到的隐藏状态向量序列进行加权求和，也就是：

其中，a_ij代表h_j的注意力权重，并且由以下公式产生：

e_ij＝a(s_i-1，h_j).

这里s_i-1表示解码器的上一个时间步的状态，a表示对齐模型，使用了多层感知层(Multi-Layer Perception)。接下来，第i个时间步的状态s_i便可以由下式更新：

s_i＝LSTM(s_i-1，y_i-1).

其中，y_i-1表示上一个时间步生成的词对应的词向量。同时，为了更好地获取先前时间步得到的信息，把y_i-1与v_i-1连接成一个向量作为LSTM的输入。此时便可以得到第i个词语的概率分布，也就是：

p(y_i|y₁，…，y_i-1，c)＝g(y_i-1，s_i，v_i)，

这里g是经过softmax函数激活的多层感知层。根据此概率分布，通过采用集束搜索算法(Beam Search Algorithm)来选择每一个时间步生成的词语。最后，通过最优化如下的损失函数，以训练该模型：

不同于普通文本，代码有着独特的语法结构，并且对于理解代码语义很重要。为了能捕获这部分信息，同时考虑到检索的时间效率，本发明首先利将代码解析成抽象语法树的形式，然后通过前序遍历得到一个语法序列。基于这些序列，对于一个测试代码，利用Lucene来从训练集中搜索出最相似的代码片段。

语义级代码搜索是利用先前训练好的编码器来完成的，其过程如下。给定一个代码片c，首先用双向LSTM将其编码，得到一个隐藏状态序列：h₁，...，h_n。然后对其进行池化操作，得到一个单独的向量r_c，其维度为1×2k，也就是

r_c＝[max(h_i ¹)，…，max(h_i ^2k)]，i＝1，…，n.

当有一个测试代码c_test时，对于训练集中的任一代码c_i，它们的相似度由以下公式产生：

这里M表示训练集的大小。最后，相似度最大的代码被认为是检索出的语义最相似的代码。

对于需要生成注释的测试代码c_test，首先检索出两个在语法和语义方面与之相似的代码c_syn和c_sem。然后利用训练好的编码器对这三个代码进行编码，得到三个不同的隐藏状态序列H_test，H_syn以及H_sem。接下来，在解码的第t个时间步的时候分别对这三个向量序列利用注意力机制得到语境向量(Context Vector)，之后得到对应的概率分布，分别简写成P_test(y_t|y_＜t)，P_syn(y_t|y_＜t)和P_sem(y_t|y_＜t)。接下来就是将这个三个概率分布融合成一个最终的概率分布，也就是

P_final(y_i|y_＜t)＝P_test(y_t|y_＜t)+

λ·Sim(c_test，c_syn)P_syn(y_t|y_＜t)+

λ·Sim(c_test，c_sem)P_sem(y_t|y_＜t)).

其中，Sim表示测试代码C_test与搜索出的相似代码c_ret之间的相似度归一化函数，即：

这里d表示两者的文本编辑距离。|c|表示对应的代码长度。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种源代码注释自动生成方法，其特征在于，包括离线阶段和测试阶段，在离线阶段，首先收集训练语料训练注意力机制的编码器-解码器模型，然后利用训练语料的代码构造代码检索库，所述训练语料包含源代码片段以及其对应的注释；所述线测试阶段，对于输入的代码片段，首先在所述代码检索库搜索出语法级别和语义级别相似的两个已有代码片段，然后将相似的两个已有代码片段与输入的代码片段作为基于检索的神经注释生成模块的输入，生成所述输入代码片段对应的注释。

2.如权利要求1所述的方法，其特征在于，所述构造代码检索库的方式为，对所述源代码片段，用AST解析器解析成抽象语法树的形式，然后遍历该语法树得到对应的节点序列；使用编码器将所述源代码片段编码成语义向量；所述节点序列和语义两项与代码形成多个映射对，存储到代码检索库中。

3.如权利要求1所述的方法，其特征在于，所述注意力机制的编码器-解码器模型包含编码器与解码器，所述编码器中，对于代码片段c，由词语序列w₁，...，w_n组成，首先用词嵌入层来将这些词语表示成词向量的形式：

所述n是该代码片段的长度，W_e是词嵌入矩阵；

然后使用LSTM对该词语序列进行编码，得到一系列隐藏状态向量：h₁，...，h_n，所述编码过程为：

h_t＝LSTM(x_t，h_t-1).，所述t∈(1，n]

所述解码器中，使用带注意力机制的LSTM作为解码器，当生成注释的第i个词时，首先利用注意力机制对得到的所述隐藏状态向量序列进行加权求和：

其中，a_ij代表h_j的注意力权重，其产生方式为：

e_ij＝a(s_i-1，h_j).

所述s_i-1表示解码器的上一个时间步的状态，a为对齐模型，第i个时间步的状态s_i更新方式为：

s_i＝LSTM(s_i-1，y_i-1).

其中，y_i-1为上一个时间步生成的词对应的词向量，y_i-1与v_i-1连接成向量作为LSTM的输入，第i个词语的概率分布为：

p(y_i|y₁，...，y_i-1，c)＝g(y_i-1，s_i，v_i)，

所述g是经过softmax函数激活的多层感知层；最后，使用最优化损失函数训练该模型，所述损失函数为：

4.如权利要求3所述的方法，其特征在于，所述测试阶段中的语法级别代码检索方式为，先将所述输入的代码片段解析成抽象语法树的形式，然后通过前序遍历得到一个语法序列，基于所述语法序列从训练集中搜索出最相似的代码片段。

5.如权利要求2所述的方法，其特征在于，所述语义级代码搜索具体方式为，首先用双向LSTM将所述输入的代码片段编码，得到一个隐藏状态序列：h₁，...，h_n，然后进行池化操作，得到一个单独的向量rc，其维度为1×2k：

r_c＝[max(h_i ¹)，...，max(h_i ^2k]，i＝1，...，n.

所述K为向量的维度，表示特征数，测试代码c_test对于训练集中的任一代码c_i的相似度为：

所述n为正整数，M为训练集的大小，相似度最大的代码为检索出的语义最相似的代码。

6.如权利要求5所述的方法，其特征在于，基于检索的神经注释生成模块处理进行处理的方式为，对于需要生成注释的测试代码C_test，首先检索出两个在语法和语义方面与之相似的代码c_syn和c_sem，然后利用编码器对该三个代码进行编码，得到三个隐藏状态序列H_test，H_syn以及H_sem；在解码的第t个时间步的时候分别对这三个向量序列利用注意力机制得到语境向量，得到其对应的概率分布P_test(y_t|y_＜t)、P_syn(y_t|y_＜t)、P_sem(y_t|y_＜t)；然后将所述三个概率分布进行融合：

P_final(y_t|y_＜t)＝P_test(y_t|y_＜t)+

λ·Sim(c_test，c_syn)P_syn(y_t|y_＜t)+

λ·Sim(c_test，c_sem)P_sem(y_t|y_＜t))).

其中，Sim表示测试代码c_test与搜索出的相似代码c_ret之间的相似度归一化函数：

所述d表示两者的文本编辑距离，|c_test|和|c_ret|表示对应的代码长度。