CN110018820A

CN110018820A - 一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法

Info

Publication number: CN110018820A
Application number: CN201910277000.9A
Authority: CN
Inventors: 李莹; 高建伟; 张凌飞
Original assignee: Binhai Industrial Technology Research Institute of Zhejiang University
Current assignee: Binhai Industrial Technology Research Institute of Zhejiang University
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-07-16
Anticipated expiration: 2039-04-08
Also published as: CN110018820B

Abstract

本发明提供了一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法。在编码器端，通过将代码首先转化为代码图的形式，利用图结构来表达出代码的结构化信息，再使用图神经网络(Graph Neural Network)对程序图进行编码得到代码的结构化语义信息。在解码器端，本发明使用基于深度强化学习框架改进的解码器得到其对应的自然语言注释内容，解决了传统方法中在推理阶段没有真实序列单词指导导致的高偏差问题，从而实现代码注释自然生成的准确和自然。

Description

一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法

技术领域

本发明属于Java代码注释自动生成技术领域，尤其是涉及一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法。

背景技术

随着互联网的高速发展，计算机软件，手机应用等已经成为互联网时代的支柱性产物，它已经广泛的应用在人们生活的方方面面，无数优秀的开发人员参与其中贡献了大量高水平的代码。代码是一种接近于机器语言，具有抽象性、复杂性和可变性的语言，本身具有难以理解的特点。伴随着现在软件的规模也在急剧扩大，而与日俱增的代码开发和维护工作已经成为程序员面临的问题。如何能够辅助开发人员理解代码，以帮助他们更好地完成开发流程，已经成为软件工程领域的研究热点。

据统计，在软件开发的生命周期中，将近60％的工作是用于维护工作，其中大部分的工作用在理解维护任务和相关软件源代码。软件维护需要代码理解，因为程序的阅读和理解是任何代码修改的先决条件。程序理解是意见非常耗时间的任务，会花费程序员大量的时间。在尝试对代码系统进行修改之前，开发人员必须了解即将修改的代码的意义。两种常见的理解代码的方法是搜索和浏览源代码，通常开发人员只浏览源代码(例如，只阅读函数的头部)，当这种方法还不能够理解代码功能的时候，他们需要更加详细的阅读代码(例如，阅读函数体部分)。这是两个极端的策略：前者非常快，但是往往会产生误解，而后者非常耗时，理解代码会更加准确。一种显而易见的选择是为开发人员提供源代码的描述，帮助他们更快速的读取和理解代码内容。

开发人员经常使用集成开发环境，调试器和工具来进行代码搜索，测试和程序理解，以减少繁琐的任务。尽管有了很多的技术帮助程序员实现和测试开发的软件，但是在开发过程中保证高质量的代码注释是一项劳动密集型的任务，但是，实际上，因为项目工期十分紧张或者其他原因，代码标注往往会出现不匹配，错误或者更新不及时的问题，导致了在后期维护阶段，开发人员不得不花费大量时间用来去理解代码的功能。所以通过模型自动生成代码的注释不仅可以减少开发人员的写注释的时间，同时可以用来帮助理解代码，这个方法具有非常大的应用价值。

发明内容

有鉴于此，本发明旨在提出一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，通过将代码首先转化为代码图的形式，利用图结构来表达出代码的结构化信息，再使用图神经网络(Graph Neural Network)对程序图进行编码得到代码的结构化语义信息，通过基于强化学习的解码器得到其对应的自然语言注释内容，实现代码注释自然生成的准确和自然。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，包括以下步骤：

(1)数据获取，获取大量Java代码数据；

(2)数据预处理，从上述大量Java代码数据中筛选高质量的Java代码片段，并通过该代码片段生成以代码-注释对作为模型的训练数据集；

(3)代码转化为代码图，将训练数据集中的代码片段通过抽象语法树(AST)转化成代码图结构(Graph)；

(4)模型搭建，构建基于门控机制的图神经网络的图编码器和基于深度强化学习的解码器，即基于深度强化学习的Graph2Seq模型(图编码器-解码器)，并将步骤(2)中的Java代码图输入该基于深度强化学习的Graph2Seq模型，则该基于深度强化学习的Graph2Seq模型输出对应Java代码图的自然语言注释；

(5)模型训练：通过交叉验证的方法训练得到性能表现最好的模型。

进一步的，所述步骤(1)中大量Java代码数据获取过程包括以下步骤：

(1-1)撰写爬虫程序，从github中爬取点赞数靠前的多个Java项目代码，保存到本地；

(1-2)对数据进行初步的清洗，去除其中非Java的代码文件。

进一步的，所述多个Java项目代码优选为十个。

进一步的，所述步骤(2)中从大量Java代码数据中筛选高质量的Java代码片段，并通过该代码片段生成以代码-注释对作为模型的训练数据集的过程包括以下步骤：

(2-1)对Java代码数据使用Eclipse的JDT编译器将Java方法解析为AST并提取相应的Javadoc注释，这些注释是Java方法的标准注释；

(2-2)对上述注释内容进行清洗和预处理，保留其中代码注释质量较高的代码片段，进而生成以代码-注释对作为模型的训练数据集。

进一步的，所述步骤(2-2)中对注释内容进行清洗和预处理过程如下：

忽略没有javadoc的Java代码方法；

对于带注释的函数方法，使用其javadoc描述中的第一个句子作为注释，因为这个句子通常是用来描述Java方法的功能，本发明的训练数据中的代码注释即是这部分；

过滤空注释和只有一个单词的注释，因为这些注释不能够表达出Java函数的具体功能细节。

进一步的，所述步骤(2-1)中的Java代码数据为去除了setter，getter，构造函数以及测试函数的数据集，因为这些代码能够非常容易生成对应的注释，容易导致模型过拟合。

进一步的，所述步骤(3)中将训练数据集中的代码片段通过抽象语法树(AST)转化成代码图结构(Graph)的具体步骤为：

(3-1)代码图的主干是代码的抽象语法树(AST)，由语法节点(对应于编程语言语法树的非终端节点)和语法标识(对应于终端节点)组成，在图(Graph)中，对语法节点标记为程序语法树中的非终端节点，语法标记是使用它们标识的字符串作为标记的，代码图(Code Graph)使用AST边来链接AST树中的节点，同时添加一个NEXT_TOKEN标识符的边来连接每个语法标记的后继，来表达一个语法节点的孩子的顺序，

(3-2)代码图还需要添加连接不同用途的附加边以及与变量对应的语法标记的更新，使用LastLexicalUse(源代码与源代码文本中最后一次发生连接的“LastLexicalUse”边)边连接相同变量的所有用法，同时，使用ReturnsTo的边连接函数声明中的返回标识(Return To)(这将会创建其名称和类型的“快捷方式”)；

(3-3)代码图将AST中的开放性单词使用字节对编码的方式拆分成子单词的形式，然后将其添加到代码图中，这些子单词和AST树进行连接，连接的边类型设置为SUB_WORD，进一步的对程序图进行了拓展；

(3-4)对于所有类型的边，我们添加它们各自的后向边(转置邻接矩阵)，使边和边类型的数量加倍，后向边有助于在图编码器中更快地传播信息，并使模型更具表现力。

进一步的，所述步骤(4)中构建基于深度强化学习的Graph2Seq模型的具体步骤如下：

(4-1)搭建基于门控图神经网络的编码器：Graph2Seq的编码器是基于门控机制的图神经网络，它输入是代码图节点的嵌入向量，并使用图结构之间的边的作用，当遍历到图中某个节点的时候，图神经网络会将与此节点相连接的所有的边的信息(正向和反向)汇总到一起，生产一个“消息向量”的综合，用来更新节点的向量，我们会设置一个迭代次数的超参数T用来控制每个节点被遍历到的次数，通过T轮迭代，生成对应节点的隐藏状态；

(4-2)搭建基于深度强化学习的解码器：在编码器模块中，我们使用LSTM做解码，生成代码对应的自然语言序列，LSTM在预测i时刻对应的标识符y_i的时候，通过输入所有的历史标识符y_＜i＝y₁,...,y_i-1，以及通过注意力机制得到的上下文向量c_i，可以计算得到当前时刻的隐藏状态s_i，然后，根据隐藏状态向量预测i时刻的单词，同时会有一个Critic网络用来Critic当前生成结果的价值，并极大化这种价值。然后，生成一个自然语言序列作为模型预测的代码注释序列。

进一步的，所述步骤(4-1)中代码图中对应节点隐藏状态即表示向量计算过程如下：

(4-11)初始化图顶点的隐藏向量表示，选择使用随机初始化Embedding层的的方法进行初始化，使用函数S表示，即：

(4-12)对于T轮更新的每一轮t来说：

a)每个顶点v∈V可以得到接受向量这个向量是通过将邻接的节点的“消息”相加得到的，消息向量又是通过一个生产函数M_t得到：

b)每个节点v∈V会根据消息通过一个函数U_t更新它的隐藏状态：

从而得到了图节点每个节点的表示向量。

进一步的，所述步骤(4-2)中，所述上下文向量c_i是根据编码器编码节点的向量表达(z₁,z₂,...,z_V)得到的，每个节点表达z_i包含了第i个节点在整个图中关注部分的信息，上下文向量是通过这些节点表示的加权和得到的，每个节点表示的权值a_ij是通过步骤(4-11)和步骤(4-12)中的公式计算得到的：

其中，a表示用来计算第j个输入节点和第i个输出序列匹配的对齐模型，匹配的得分值是基于解码器上一时刻的隐藏状态s_i-1和编码器编码的第j个节点的表达向量计算得到的。

基于深度强化学习的Graph2Seq模型中的注意力机制是使用一个前馈神经网络进行参数化训练得到，该网络与模型的其他部分共同训练，整个模型是联合训练，目标是对于给定的图，最大化其正确的自然语言描述的条件对数概率。在推理阶段，使用集束搜索的算法生成代码的描述，其中设置的集束大小(beam size)为5。

在解码器生成结果之后，Critic网络会对生成的结果评估其价值，价值是通过以下公式计算得到：

其中，π表示策略，s_t表示时间步t的状态。Critic网络会优化其损失函数，本发明采用平均均方误差损失函数，即：

其中，V^π(s_t)表示目标价值，表示预测价值。φ是Critic网络的参数。

模型在训练过程中，是同时优化Actor网络和Critic网络。

L(Θ)＝L(θ)+L(φ)

其中，L(θ)表示Actor网络的损失函数，θ表示Actor网络的参数。

进一步的，所述步骤(5)中的模型训练的具体步骤为：

(5-1)通过步骤(4)搭建好Java代码注释模型的解码器和编码器之后，将二者进行结合，采用端到端的训练方法进行训练；

(5-2)对需要设置的模型的参数，包括了选择优化器、学习率大小、图神经网络的层数、编码器的向量空间维度、嵌入层的维度以及解码器LSTM的输出维度，多个参数进行交叉验证，采用机器翻译质量评测算法BLEU-4作为性能指标，选择表现性能最好的训练参数下的模型。

相对于现有技术，本发明所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法具有以下优势：

(1)本发明所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，通过将代码的抽象语法树和数据流结合，将代码的树结构拓展成代码图结构，采用了图结构的数据结构存储代码的结构化语义信息，图结构的优势在于能够表达复杂的代码节点关系信息，使得代码注释更加准确。

(2)本发明所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，同时创新性的提出了采用图神经网络编码图结构的代码图的每个节点，然后使用基于深度强化学习的解码器进行解码的模型结构，相比较于传统的方法，生成的自然语言注释更加准确和自然，更具有鲁棒性。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的基于深度强化学习的Graph2Seq自动生成Java代码注释方法的模型示意图；

图2为本发明实施例所述的图编码器示意图；

图3为本发明实施例所述的基于深度强化学习的解码器示意图。

图4为本发明的框架示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

本发明利用深度学习领域的Seq2Seq方法，在其基础上进行了拓展，采用了图神经网络编码代码图，提出了基于深度强化学习的Graph2Seq的Java代码注释方法，能够自动生成给定的Java代码的注释描述。具体步骤为：

(1)数据获取：从github网站中爬取Java代码数据，对数据进行预处理。

(2)数据预处理：对代码数据使用Eclipse的JDT编译器进行注释内容的清洗和预处理，保留其中代码注释质量较高的代码片段。保留代码-注释对作为模型的训练数据集。

(3)代码转化为代码图：对训练数据集中的代码部分，使用Javaparser对其进行处理，将其转化为抽象语法树(AST)，在其节点上增加不同类型的边，用这些边来表示数据流和控制流等语义信息。从而将AST树(Tree)拓展成一个图结构(Graph)，称之为代码图。

(4)模型搭建：构建基于深度强化学习的Graph2Seq(图编码器-解码器)模型，模型的输入是训练数据得到的Java代码图，输出是对应的自然语言注释。

(5)模型训练：根据上述步骤得到的训练模型的数据和模型，通过交叉验证的方法训练得到性能表现最好的模型。

(1-2)对数据进行初步的清洗，去除其中非Java的代码文件。

进一步的，所述多个Java项目代码优选为十个。

忽略没有javadoc的Java代码方法；

数据集示例如下：

(3-2)代码图还需要添加连接不同用途的附加边以及与变量对应的语法标记的更新，使用LastLexicalUse(源代码与源代码文本中最后一次发生连接的“LastLexicalUse”边)边连接相同变量的所有用法，同时，使用ReturnsTo的边连接函数声明中的返回标识(Return To)(这将会创建其名称和类型的“快捷方式”)。

本发明定义的边类型包括：

(4-2)搭建基于深度强化学习的解码器：采用Actor-Critic强化学习算法，在编码器模块中，使用LSTM做解码，生成代码对应的自然语言序列，LSTM在预测i时刻对应的标识符y_i的时候，通过输入所有的历史标识符y_＜i＝y₁,...,y_i-1，以及通过注意力机制得到的上下文向量c_i，可以计算得到当前时刻的隐藏状态s_i，然后，根据隐藏状态向量预测i时刻的单词,在此步骤前的网络模型包括解码器端可以看做是一个Actor网络，在生成第i个公式过程中，设计了Critic网络来估计时间步i生产行为的价值，该Critic网络会在每个解码步骤都会输出单个值，而不是概率；具体的Actor-Critic网络策略梯度算法如下所示，经过多个时间步之后，生成一个自然语言序列作为模型预测的代码注释序列，如图3所示。

Actor-Critic网络策略梯度算法属于现有技术，如下：

function QAC:

(4-12)对于T轮更新的每一轮t来说：

从而得到了图节点每个节点的表示向量。

其中，V^π(s_t)表示目标价值，表示预测价值。φ是Critic网络的参数。模型在训练过程中，是同时优化Actor网络和Critic网络。

L(Θ)＝L(θ)+L(φ)

基于深度强化学习的Graph2Seq模型中的注意力机制是使用一个前馈神经网络进行参数化训练得到，该网络与模型的其他部分共同训练，整个模型是联合训练，目标是对于给定的图，最大化其正确的自然语言描述的条件对数概率，且在推理阶段，使用集束搜索的算法生成代码的描述，其中设置的集束大小(beam size)为5。

进一步的，所述步骤(5)中的模型训练的具体步骤为：

本发明提供了一种有效的自动生成未知Java代码的自然语言注释，可以有效帮助程序员完成维护代码工作，具有很大的应用价值。本发明理论上来说，可以通过更换训练数据集的方法推广到其他语言的自动代码生成。经过数据获取，数据预处理，模型搭建和模型训练之后，获取到性能表现优良的模型，用于辅助开发人员更好的理解工作中的代码。

本发明的创新点在于，代码是一种强结构化的语言，而自然语言是一种弱结构化的语言，为了解决传统方法中将代码当作文本来直接转换为自然语言而没有利用到代码的结构化语义信息的弊端，本发明提出将代码首先转化为代码图的形式，利用图结构来表达出代码的结构化信息，再使用图神经网络对程序图进行编码得到代码的结构化语义信息，通过基于强化学习的解码器得到其对应的自然语言注释内容。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，其特征在于：包括以下步骤：

(1)数据获取，获取大量Java代码数据；

(3)代码转化为代码图，将训练数据集中的代码片段通过抽象语法树AST转化成代码图结构Graph；

(4)模型搭建，构建基于门控机制的图神经网络的图编码器和基于深度强化学习框架的解码器，即基于深度强化学习的Graph2Seq模型图编码器-深度强化学习解码器，并将步骤(2)中的Java代码图输入该基于深度强化学习的Graph2Seq模型，输出Java代码的自然语言注释；

2.根据权利要求1所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，其特征在于：所述步骤(2)中从大量Java代码数据中筛选高质量的Java代码片段，并通过该代码片段生成以代码-注释对作为模型的训练数据集的过程包括以下步骤：

(2-1)对Java代码数据使用Eclipse的JDT编译器将Java方法解析为AST并提取相应的Javadoc注释；

3.根据权利要求2所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，其特征在于：所述步骤(2-2)中对注释内容进行清洗和预处理过程如下：

忽略没有javadoc的Java代码方法；

对于带注释的函数方法，使用其javadoc描述中的第一个句子作为注释；

过滤空注释和只有一个单词的注释。

4.根据权利要求2所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，其特征在于：所述步骤(2-1)中的Java代码数据为去除了setter，getter，构造函数以及测试函数的数据集。

5.根据权利要求1所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，其特征在于：所述步骤(3)中将训练数据集中的代码片段通过抽象语法树AST转化成代码图结构Graph的具体步骤为：

(3-1)代码图的主干是代码的抽象语法树AST，由语法节点和语法标识组成，在代码图结构Graph中，对语法节点标记为程序语法树中的非终端节点，语法标记是使用它们标识的字符串作为标记的，代码图结构Graph使用AST边来链接AST树中的节点，同时添加一个NEXT_TOKEN标识符的边来连接每个语法标记的后继；

(3-2)代码图还需要添加连接不同用途的附加边以及与变量对应的语法标记的更新，使用LastLexicalUse边连接相同变量的所有用法，同时，使用ReturnsTo的边连接函数声明中的返回标识ReturnTo；

(3-3)代码图将AST中的开放性单词使用字节对编码的方式拆分成子单词的形式，然后将其添加到代码图中，这些子单词和AST树进行连接，连接的边类型设置为SUB_WORD；

(3-4)对于所有类型的边，我们添加它们各自的后向边转置邻接矩阵，使边和边类型的数量加倍。

6.根据权利要求1所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，其特征在于：所述步骤(4)中构建基于深度强化学习的Graph2Seq模型的具体步骤如下：

(4-1)搭建基于门控图神经网络的编码器：Graph2Seq的编码器是基于门控机制的图神经网络，它输入是代码图节点的嵌入向量，并使用图结构之间的边的作用，当遍历到图中某个节点的时候，图神经网络会将与此节点相连接的所有的边的信息汇总到一起，生产一个“消息向量”的综合，用来更新节点的向量，设置一个迭代次数的超参数T用来控制每个节点被遍历到的次数，通过T轮迭代，生成对应节点的隐藏状态；

(4-2)搭建基于深度强化学习的解码器：采用Actor-Critic强化学习算法，在编码器模块中，使用LSTM做解码，生成代码对应的自然语言序列，LSTM在预测i时刻对应的标识符y_i的时候，通过输入所有的历史标识符y_＜i＝y₁,...,y_i-1，以及通过注意力机制得到的上下文向量c_i，可以计算得到当前时刻的隐藏状态s_i，然后，根据隐藏状态向量预测i时刻的单词,在此步骤前的网络模型包括解码器端可以看做是一个Actor网络，在生成第i个公式过程中，设计了Critic网络来估计时间步i生产行为的价值，该Critic网络会在每个解码步骤都会输出单个值，而不是概率；经过多个时间步之后，生成一个自然语言序列作为模型预测的代码注释序列。

7.根据权利要求6所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，其特征在于：所述步骤(4-1)中代码图中对应节点隐藏状态即表示向量计算过程如下：

(4-12)对于T轮更新的每一轮t来说：

从而得到了图节点每个节点的表示向量。

8.根据权利要求6所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，其特征在于：所述步骤(4-2)中，所述上下文向量c_i是根据编码器编码节点的向量表达(z₁,z₂,...,z_V)得到的，每个节点表达z_i包含了第i个节点在整个图中关注部分的信息，上下文向量是通过这些节点表示的加权和得到的，每个节点表示的权值a_ij是通过以下公式计算得到的：

9.根据权利要求6所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，其特征在于：所述步骤(4-2)中，Critic网络中的价值是通过以下公式计算得到：

其中，π表示策略，s_t表示时间步t的状态，Critic网络会优化其损失函数，采用平均均方误差损失函数，即：

其中，V^π(s_t)表示目标价值，表示预测价值。φ是Critic网络的参数；模型在训练过程中，是同时优化Actor网络和Critic网络；

L(Θ)＝L(θ)+L(φ)

10.根据权利要求1所述的基于深度强化学习的Graph2Seq自动生成Java代码注释的方法，其特征在于：所述步骤(5)中的模型训练的具体步骤为：