CN116225525A

CN116225525A - 一种结合用户反馈和深度学习的代码补全方法

Info

Publication number: CN116225525A
Application number: CN202310237978.9A
Authority: CN
Inventors: 周宇; 金浩南
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-06-06

Abstract

本发明属于智能化软件开发领域，公开了一种结合用户反馈和深度学习的代码补全方法。包括步骤如下：使用代码补全模型CodeGRU，生成初始推荐列表；使用通过反馈库中的历史数据实时训练的深度神经网络模型LSTM，生成另一个推荐列表；将两个列表按模型输出的概率降序合并；将待补全代码段和合并列表中的推荐项，分别拼接输入到用反馈库中的历史数据实时微调的预训练模型Bert中；通过模型输出的分类结果对合并列表进行重新排序并返回给用户，实现代码补全，同时将用户的选择记录在反馈库中。本发明从用户反馈的角度，通过深度学习模型LSTM和Bert，将用户反馈信息有效地集成到代码补全任务中，从而构建了一个更加精准的代码补全系统。

Description

一种结合用户反馈和深度学习的代码补全方法

技术领域

本发明属于智能化软件开发领域，具体涉及一种结合用户反馈和深度学习的代码补全方法。

背景技术

当今的软件生态正在发生着持续、深刻的变革，软件的规模及数量也在以惊人的速度日益膨胀和扩张，而在软件开发过程中，为了提高开发效率，开发人员往往会使用集成开发环境中的代码补全功能，此时便需要一个精准而高效的代码补全系统。

代码补全通常从代码搜索开始。当面临编程问题时，开发人员通常会向互联网寻求帮助。事实上，谷歌最近进行的一项案例研究证实，开发人员非常频繁地搜索代码。此类别的工作通常利用开源项目的代码，有时会用各种软件工件来提高补全的准确度。例子包括Strathcona，Portfolio，SENSORY以及Aroma。Strathcona通过比较代码存储库中的结构相似性，为开发人员推荐代码示例；Portfol io主要结合NLP、PageRank和扩展激活网络算法，以找到与用户最相关的代码；SENSORY考虑语句序列信息，并使用BurrowsWheelerTransform算法在代码存储库中搜索，然后根据结构信息对结果进行重新排序；Aroma将部分代码片段作为查询，并返回一组代码片段作为建议。上述方法主要依靠代码信息来补全代码。

另一种重要的实现方法主要基于深度学习相关技术。White等人根据实证研究证明，相对简单的RNN模型在某些软件工程任务(如代码补全)中的表现可以优于n-gram模型。Raychev等人结合3-gram和RNN模型来合成代码片段，该片段可以完成方法调用，包括调用参数。Hussain等人提出了一种新的源代码建模方法，该方法可以通过利用token类型信息捕获源代码上下文，除此之外，还提出了一种可以学习源代码可变大小上下文的新方法。

这些基于搜索的代码补全相关研究工作以及基于上下文分析和深度神经网络技术进行生成的代码补全相关研究工作，它们补全结果的精确度和范围皆有限。如果在代码补全中引入人工智能领域中的反馈机制，便可以使用户与补全系统进行交互成为可能。

在代码补全中，反馈信息可以揭示，例如用户的编程习惯。此外，在许多情况下，用户的反馈信息在一定程度上反映了补全的正确答案，并且在将来处理类似的补全和提高代码补全程序的性能方面将发挥重要作用。这突出了用户反馈在代码补全系统中的作用，可能比传统的推荐系统更明显。

所以，在当今信息化、开源化的大数据时代背景下，如何将用户反馈信息有效地集成至代码补全任务中，构建更加精准的代码补全系统，从而进一步提升软件生产力，减少时间开销，成为一个非常具有现实意义的问题。

发明内容

本发明的目的在于提出一种结合用户反馈和深度学习的代码补全方法，通过深度学习模型，将用户反馈信息有效地集成至代码补全任务中，从而构建更加精准的代码补全系统，进一步提升软件生产力，减少时间开销。

本发明为了实现上述目的，采用如下技术方案：

结合用户反馈和深度学习的代码补全方法，包括步骤如下：

步骤1.使用代码补全模型CodeGRU，对待补全代码段生成初始代码推荐列表；同时使用通过反馈库中的历史数据实时训练的深度神经网络模型LSTM对待补全代码段生成另一个代码推荐列表；

步骤2.将两个代码推荐列表按照模型输出的概率值进行降序合并，生成合并列表；

步骤3.将待补全代码段和合并列表中的每个推荐项分别拼接，输入到通过反馈库中的历史数据实时微调的预训练模型Bert；经过微调后的预训练模型，能够根据它的两个输入的相似程度或匹配程度进行分类，根据分类结果对合并列表进行重排序，并将重排序后的列表返回给用户，从而完成代码补全。

步骤4.根据用户的最终选择，将此次代码补全的结果记录在反馈库中。

本发明具有如下优点：

如上所述，本发明述及了一种结合用户反馈和深度学习的代码补全方法，该代码补全方法通过使用深度学习模型，有效地将用户反馈信息集成至代码补全任务中，从而构建了一个更加精准的代码补全系统；此外，本发明方法通过选用预训练模型Bert，使得模型能够在训练数据较少的情况下，也能有很好的效果，并且提高运行效率，进而保证了软件质量以及软件的可追溯性，降低了软件维护成本。本发明使得用户在代码补全任务中与补全系统交互成为可能，大大地提高了补全结果的精确度和范围，提升了软件生产力，减少了时间开销。

附图说明

图1为结合用户反馈和深度学习的代码补全方法框架的原理示意图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实例与附图对本发明作进一步的说明：

参照图1所示，本发明提供一种结合用户反馈和深度学习的代码补全方法，包括步骤如下：

所述步骤1具体包括：

步骤1.1.使用代码补全模型CodeGRU，对待补全代码段生成初始代码推荐列表L1，包含15个推荐项，同时也得到了模型输出的对应每个推荐项的概率值；

步骤1.2.选用LSTM模型作为深度神经网络模型；

步骤1.3.使用反馈库中的历史数据实时训练LSTM模型；

步骤1.4.将待补全代码段输入到训练好的LSTM模型中，会得到到多个推荐项以及对应的概率值，按概率从大到小排序，得到同样含有15个推荐项的另一个代码推荐列表L2。

所述步骤2具体包括：

步骤2.1.同时遍历L1、L2两个列表，按各自列表中每个推荐项对应的概率值，进行降序合并；

步骤2.2.当合并列表的推荐项数目达到15个时，合并结束。

所述步骤3具体包括：

步骤3.1.选用目前在自然语言处理(Natural Language Processing，NLP)领域具有出色表现的Bert模型作为预训练模型，该模型使用基于多层Transformer的神经架构构建而成，在大量自然语言上进行训练得到预训练模型，能够有效地捕捉到句子对之间的语义连接；

步骤3.2.使用反馈库中的历史数据对Bert进行实时微调；

步骤3.3.将待补全代码段和合并列表中的每个推荐项，进行两两拼接，作为Bert的输入，经过微调后的Bert能根据两个输入的相似程度或匹配程度得到对应的CLS聚合向量以表征输入之间的关系；

步骤3.4.将合并列表中每个推荐项对应的CLS聚合向量输入到全连接层进行分类，通过Softmax激活函数完成二分类；其中Softmax激活函数的计算公式如下：

其中x_i为神经网络中第i个节点的输出值，C为分类类别数量，此处为二分类，C＝2；

步骤3.5.根据分类结果，对合并列表进行重排序：将分类结果为1的推荐项在保持相对顺序不变的前提下移到分类结果为0的推荐项之前，并将重排序后的合并列表返回给用户。

所述步骤4具体包括记录下此次代码补全流程中的待补全代码段、中间生成的合并列表、最终返回给用户的重排序列表、用户最终选择的推荐项等等信息，将这些数据存储在反馈库中，为下一次LSTM模型和Bert模型的训练提供更多的信息。

本发明通过深度学习模型，将用户反馈信息有效地集成至代码补全任务中，从而构建了更加精准的代码补全系统，进一步提升了软件生产力，减少了时间开销。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.结合用户反馈和深度学习的代码补全方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的结合用户反馈和深度学习的代码补全方法，其特征在于，所属步骤1具体为：

步骤1.2.选用LSTM模型作为深度神经网络模型；

步骤1.3.使用反馈库中的历史数据实时训练LSTM模型；

3.根据权利要求1所述的结合用户反馈和深度学习的代码补全方法，其特征在于，所属步骤2具体为：

步骤2.2.当合并列表的推荐项数目达到15个时，合并结束。

4.根据权利要求1所述的结合用户反馈和深度学习的代码补全方法，其特征在于，所属步骤3具体为：

步骤3.1.选用Bert模型作为预训练模型；

步骤3.2.使用反馈库中的历史数据对Bert进行实时微调；

5.根据权利要求1所述的结合用户反馈和深度学习的代码补全方法，其特征在于，所属步骤4具体为：记录下此次代码补全流程中的待补全代码段、中间生成的合并列表、最终返回给用户的重排序列表、用户最终选择的推荐项等等信息，将这些数据存储在反馈库中，为下一次LSTM模型和Bert模型的训练提供更多的信息。