CN117573096B

CN117573096B - 一种融合抽象语法树结构信息的智能代码补全方法

Info

Publication number: CN117573096B
Application number: CN202410065078.5A
Authority: CN
Inventors: 朱林波; 刘淇; 苏喻; 胡瑞; 汤进; 吕博文
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-04-09
Anticipated expiration: 2044-01-17
Also published as: CN117573096A

Abstract

本发明涉及代码大数据技术领域，公开了一种融合抽象语法树结构信息的智能代码补全方法，将上文代码输入到完成训练的代码补全模型，预测得到当前位置的代码以及代码的类型，代码补全模型的训练过程包括：使用抽象语法树拆分算法，在基于通用数据集生成的抽象语法树的特定位置，对所述抽象语法树进行拆分，得到子树；将子树输入到基于树的深度神经网络模型中，捕获子树的结构信息，输出子树每个节点的隐藏状态向量；将子树每个节点的隐藏状态向量输入到GPT‑2深度神经网络中，实现对GPT‑2深度神经网络的训练。相比仅使用源代码的代码补全方法，本发明提高了代码补全代码预测的准确率和代码类型预测的准确率。

Description

一种融合抽象语法树结构信息的智能代码补全方法

技术领域

本发明涉及代码大数据技术领域，具体涉及一种融合抽象语法树结构信息的智能代码补全方法。

背景技术

智能代码补全（Intelligent Code Completion）是一种自动化编程辅助技术，它利用已有的代码片段来智能预测下一个可能的代码符号或语句。它是一项在计算机编程领域具有重要价值的工具，旨在提高程序员的工作效率和代码质量，减少错误和拼写问题。近年来，这类技术备受关注。出色的代码补全工具可以确保在推荐列表中迅速找到用户所需的代码，如果用户检查推荐列表花费较长时间，则会影响他们对代码补全建议的信任度以及编写代码的速度。因此，在推荐列表尽可能保持简洁的情况下，找到用户所需的补全建议至关重要。

目前，关于智能代码补全方法主要有以下方法：

1）基于传统算法的代码补全方法：

传统的代码补全方法主要通过人工定义启发式规则进行预测和补全，该方法通常利用代码的类型信息和语法规则，很少考虑上下文语义信息，并且推荐结果经常以字母顺序为依据进行推荐排序，导致在许多应用场景无法根据开发人员的需求高效推荐正确代码。传统方法的限制促使研究学者们利用机器学习进行代码预测。例如基于n-gram模型的分析和计数需要分析和计数大量的代码存储库的语料库，以获得n-gram的概率分布。

2）基于深度学习的代码补全方法：

基于深度学习的代码补全方法根据代码的不同特征，将深度学习应用于代码补全。常见的神经网络模型有循环神经网络，循环神经网络是一种能够处理序列数据的神经网络。它们利用隐藏状态向量来存储和更新历史信息，捕捉长程依赖关系。随着计算机算力的逐渐增加，大型预训练模型在代码补全任务中也取得了很好的效果，常用的预训练模型有Bert、GPT-2等，模型利用具有掩盖机制的多头自注意力机制，掩盖当前预测位置以后的信息，更加符合代码补全任务场景。

尽管近年来提出了许多工作，但目前大多数工作都是采用源代码作直接进行分析工作，即使利用抽象语法树，也会破坏结构信息形成序列化，对于代码预测的类型准确率也并不高。然而，抽象语法树已经在代码摘要任务中证明了其有效性，但鲜有能够充分利用抽象语法树结构信息的方法。因此，提出一种能够充分利用抽象语法树结构信息方法是十分重要的。

发明内容

为解决上述技术问题，本发明提供一种融合抽象语法树结构信息的智能代码补全方法，利用了GPT-2作为底层架构，并提出了一种算法，用于分割抽象语法树，同时保留其结构特征；使用Tree-LSTM深度神经网络模型来提取抽象语法树的结构信息。相比仅使用源代码的代码补全方法，本发明提高了代码补全代码预测的准确率和代码类型预测的准确率。

为解决上述技术问题，本发明采用如下技术方案：

一种融合抽象语法树结构信息的智能代码补全方法，将上文代码输入到完成训练的代码补全模型，预测得到当前位置的代码以及代码的类型，预测代码时仅对抽象语法树的叶子节点的代码信息进行预测，预测代码的类型时仅对抽象语法树的非叶子节点的类型信息进行预测；代码补全模型的训练过程，包括：

使用抽象语法树拆分算法，在基于通用数据集生成的抽象语法树的特定位置，对所述抽象语法树进行拆分，得到子树；所述抽象语法树的叶子节点存在代码信息，非叶子节点存在类型信息；

将子树输入到基于树的深度神经网络模型中，捕获子树的结构信息，输出子树每个节点的隐藏状态向量；

将子树每个节点的隐藏状态向量输入到GPT-2深度神经网络中，使用增加了掩盖机制的多头自注意力机制进行代码补全，实现对GPT-2深度神经网络的训练。

进一步地，所述将子树输入到基于树的深度神经网络模型中，捕获子树的结构信息，输出子树每个节点的隐藏状态向量，具体包括：

所述基于树的深度神经网络模型为Tree-LSTM模型；对于Tree-LSTM模型的节点，表示节点/>的子节点的集合，/>，其中/>表示节点/>的第/>个子节点，/>表示节点/>的子节点总数；

将子树输入到适配子树大小的Tree-LSTM模型，编码得到子树的每个节点的隐藏状态向量，包括：

初始化输入：子树的节点数与Tree-LSTM模型的节点数相同，且子树的节点与Tree-LSTM模型的节点一一对应；对于Tree-LSTM模型的每个节点，将节点i对应的子树的节点通过词嵌入方式，映射为输入特征/>，再将输入特征/>转化成节点/>的初始的隐藏状态向量/>和细胞状态/>；

计算子节点的汇总信息：对于每个节点，将节点/>的子节点/>的细胞状态/>进行非线性变换，得到子节点/>的隐藏状态向量/>：/>；将节点/>的子节点/>的隐藏状态向量/>汇总起来，得到节点/>的子节点汇总向量/>：/>；

更新节点的细胞状态：使用节点的子节点汇总向量/>和节点/>的细胞状态/>，得到新的细胞状态/>：

；

其中，表示sigmoid激活函数；/>表示逐元素乘法；/>和/>均为可学习的参数；

更新节点的隐藏状态向量：使用新的细胞状态和节点/>的输入特征/>来更新隐藏状态向量，得到节点/>新的隐藏状态向量/>：/>；/>和/>均为可学习的参数；

将节点新的隐藏状态向量/>作为与节点i对应的子树的节点的隐藏状态向量。

进一步地，所述Tree-LSTM模型具体采用Child-Sum Tree-LSTMs模型。

进一步地，计算子节点的汇总信息时，加入节点的子节点的位置编码信息，用于融入代码的位置信息；使用绝对位置编码或者正余弦位置编码得到所述的子节点的位置编码信息。

进一步地，所述特定位置为含有复合结构关键字的抽象语法树的节点。

进一步地，所述复合结构包括while结构、if结构。

与现有技术相比，本发明的有益技术效果是：

本发明采用独特的抽象语法树分割算法对数据集的抽象语法树进行分割处理，并且使用基于树的深度神经网络模型，捕获了代码更多的结构信息，从而提高了代码补全的准确度。本发明全面考虑了抽象语法树在智能代码补全方法中的融合，可以提高智能代码补全结果和类型预测的准确性。

附图说明

图1为本发明实施例中的代码补全方法的流程图；

图2为抽象语法树的示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

如图1所示，为了在有上文的情况下预测当前位置的可能代码，本发明中的一种融合抽象语法树结构信息的智能代码补全方法，包括以下步骤：

步骤一、抽象语法树的拆分：

根据给出的源代码，使用库函数或转换工具，将源代码转换成抽象语法树，经过抽象语法树切割算法，得到抽象语法树的子树。

具体地，库函数为数据集语言自带或编写的开源库方法函数，例如Python语言内置的ast模块，可将Python源代码直接转为抽象语法树。

具体地，转换工具为一些独立的转换工具，例如AST快捷分析工具codesensor，可以在不需要库支撑的情况下将源代码转换成抽象语法树。

抽象语法树切割算法能够将每个抽象语法树切割成可以重新组成原抽象语法树的子树，以保持树的结构信息。

具体地，抽象语法树切割算法首先初始化给定的树结构。然后遍历树中的每个节点，并为每个节点分配一个子树标识符。需要分割的节点根据特定条件进行标记。最后，算法保存需要分割的标记节点，并在这些标记节点上执行分割操作。分割完成后，更新父节点和子节点的标识符，以便进一步处理。

具体地，需要分割的标记节点通常为含有复合结构的关键字，如while结构的关键字（while）、if结构的关键字（if）等。

步骤二、子树的结构信息提取：

利用基于树的深度神经网络，将子树的每个节点转化为隐藏状态向量。

本发明采用的基于树的深度神经网络为基于树的长短记忆神经网络（Tree-LSTM）。

给定一个Tree-LSTM模型，对于节点，/>表示其子节点的集合，，其中/>表示节点/>的第/>个子节点。子树的节点数与Tree-LSTM模型的节点数相同，且子树的节点与Tree-LSTM模型的节点一一对应。

Tree-LSTM模型的前向传播过程包括初始化输入、计算子节点的汇总信息、更新节点的细胞状态、更新节点的隐藏状态向量。

初始化输入：对于每个节点，将输入特征/>转化成初始的隐藏状态向量/>和细胞状态/>。其中，将节点i对应的子树的节点通过词嵌入方式，例如，预训练的Word2Vec模型，映射为输入特征/>。

计算子节点的汇总信息：对于每个节点，将节点/>的子节点/>的细胞状态/>进行非线性变换，得到子节点/>的隐藏状态向量/>：/>；将节点/>的子节点/>的隐藏状态向量/>汇总起来，得到节点/>的子节点汇总向量/>，可以用以下公式表示：

。

更新节点的细胞状态：使用子节点汇总向量和节点/>的细胞状态/>，得到新的细胞状态/>来对细胞状态/>进行更新，这个更新过程由以下公式完成：

。

表示sigmoid激活函数；/>表示逐元素乘法；/>和/>是可学习的参数。

更新节点的隐藏状态向量：使用新的细胞状态和节点/>的输入特征/>，来更新隐藏状态向量/>，得到新的隐藏状态向量/>。这个更新过程由以下公式完成：

。

可选地，Tree-LSTM模型具体采用Child-Sum Tree-LSTMs模型。

可选地，计算子节点的汇总信息时，子节点的隐藏状态向量可加上子节点的位置编码后进行计算，位置编码的方式包括绝对位置编码、正余弦位置编码等。具体地，以绝对位置编码为例，子节点组成的序列中的每个位置分配一个唯一的整数值，通常从1开始，直到序列的长度为止。对每个位置，将其整数编码转换为一个固定长度的二进制编码，与隐藏状态向量相加，用于后续的计算。

步骤三、将得到的每个节点隐藏状态向量输入到GPT-2深度神经网络中，对GPT-2深度神经网络进行训练。完成对GPT-2深度神经网络的训练，即完成了对代码补全模型的训练。

如图2所示，代码解析成抽象语法树后，叶子节点包含代码信息，而叶子的父节点（即非叶子节点）包含类型信息，本发明会将叶子节点及非叶子节点进行屏蔽（如图2中的“7”节点和“Num”节点），让代码补全模型进行预测，以此来训练代码补全模型，最终让代码补全模型获得预测代码和该代码类型的能力。

GPT-2深度神经网络是以自注意力机制为核心，只使用了Transformer解码器部分，由多个相同的层组成，每个层都由多头自注意力机制和前馈神经网络组成。这些层堆叠在一起，形成了深层的模型。

步骤四，代码补全模型训练完成后，将上文代码输入至代码补全模型中，预测得到当前位置的代码以及代码的类型。

具体地，预测的代码的类型包括变量、数字、函数名字和属性等。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种融合抽象语法树结构信息的智能代码补全方法，将上文代码输入到完成训练的代码补全模型，预测得到当前位置的代码以及代码的类型，预测代码时仅对抽象语法树的叶子节点的代码信息进行预测，预测代码的类型时仅对抽象语法树的非叶子节点的类型信息进行预测；代码补全模型的训练过程，包括：

将子树输入到基于树的深度神经网络模型中，捕获子树的结构信息，输出子树每个节点的隐藏状态向量；具体包括：

所述基于树的深度神经网络模型为Tree-LSTM模型；对于Tree-LSTM模型的节点，/>表示节点/>的子节点的集合，/>，其中/>表示节点/>的第/>个子节点，/>表示节点/>的子节点总数；

；

将节点新的隐藏状态向量/>作为与节点i对应的子树的节点的隐藏状态向量；

2.根据权利要求1所述的融合抽象语法树结构信息的智能代码补全方法，其特征在于，所述Tree-LSTM模型具体采用Child-Sum Tree-LSTMs模型。

3.根据权利要求1所述的融合抽象语法树结构信息的智能代码补全方法，其特征在于，计算子节点的汇总信息时，加入节点的子节点的位置编码信息，用于融入代码的位置信息；使用绝对位置编码或者正余弦位置编码得到所述的子节点的位置编码信息。

4.根据权利要求1所述的融合抽象语法树结构信息的智能代码补全方法，其特征在于：所述特定位置为含有复合结构关键字的抽象语法树的节点。

5.根据权利要求4所述的融合抽象语法树结构信息的智能代码补全方法，其特征在于：所述复合结构包括while结构、if结构。