CN112860879A

CN112860879A - 一种基于联合嵌入模型的代码推荐方法

Info

Publication number: CN112860879A
Application number: CN202110251408.6A
Authority: CN
Inventors: 文万志; 王仕强; 王楚越; 周杰; 郭逸飞; 赵甜; 程实
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-05-28

Abstract

本发明提供一种基于联合嵌入模型的代码推荐方法，包括：S1、从GitHub帖子的评论中提取对问题的补充性问题；S2、将<问题，补充性问题>用来训练sequence‑to‑sequence模型，并保存为问题提升模型；S3、从GitHub上收集带有注释的Java开源项目数据集，并对其预处理；S4、建立联合嵌入模型，进行向量化处理；S5、从GitHub中收集至少有20个stars的Java开源项目来构建代码库，将所有的代码段嵌入到向量中；S6、将查询问题输入到问题提升模型中，将得到的结果输入到联合嵌入模型中进行向量化；S7、计算查询问题的向量和代码向量的相似度得分来推荐Top‑k代码段。本发明解决了自然语言查询中反映的高级意图与源代码中低级实现细节之间不匹配的问题，以及深度学习方法中缺乏不可扩展性的问题。

Description

一种基于联合嵌入模型的代码推荐方法

技术领域

本发明属于信息检索技术领域，具体涉及一种基于联合嵌入模型的代码推荐方法，主要用于解决在软件开发中向用户推荐代码段的问题。

背景技术

为了实现程序功能，开发人员可以通过搜索大量的代码库来重用以前编写的代码片段。然而随着互联网相关技术的不断发展，从海量数据中找到有价值的信息变得越来越困难，用户面临严重的信息过载问题。为了使开发人员从耗时的软件开发中解脱出来，提出了根据软件需求自动生产源代码的方法，即代码检索技术。代码检索技术在帮助软件开发人员在给定用户查询(例如，描述检索特定代码片段的功能的简短自然语言文本)的可用开源数据库中检索现有代码片段方面发挥了关键作用。

目前已经提出了很多代码搜索方法，其中大多数是基于信息检索技术的，也有基于深度学习的方法被提出从自然语言描述中生产源代码的。基于信息检索技术的代码搜索方法的一个基本问题是源代码和自然语言查询是异构的，自然语言查询中反映的高级意图与源代码中低级实现细节之间是不匹配的；基于深度学习翻译的方法是在相当小、缺乏多样性、与实际软件需求显著不同的数据集上进行评的，不具有可扩展性。

发明内容

本发明要解决的技术问题是提供一种基于联合嵌入模型的代码推荐方法，能够有效地帮助软件开发人员通过文本查询来搜索和重用以前编写的代码段，具有较高的精确率和效率。

为解决上述技术问题，本发明的实施例提供一种基于联合嵌入模型的代码推荐方法，包括如下步骤：

S1、从GitHub帖子的评论中提取对问题的补充性问题；

S2、将<问题，补充性问题>用来训练sequence-to-sequence模型，并保存为问题提升模型；

S3、从GitHub上收集带有注释的Java开源项目数据集，并对其预处理；

S4、建立联合嵌入模型，将数据集进行向量化处理；

S5、从GitHub中收集至少有20个stars的Java开源项目来构建代码库，然后将所有的代码段嵌入到向量中；

S6、将查询问题输入到问题提升模型中，然后将得到的结果输入到联合嵌入模型中进行向量化；

S7、计算查询问题的向量和代码向量的相似度得分来推荐Top-k代码段。

其中，步骤S1中，所述补充性问题的定义为：在一篇文章的评论中的问题，该问题是给定帖子的缺失信息，从GitHub帖子的评论中提取对问题的补充性问题。

其中，步骤S2中，sequence-to-sequence模型的主流是编码器-解码器架构，编码器是一个两层双向LSTM网络，解码器是一个单层LSTM网络，在训练时，解码器将前一个词嵌入向量和前一个状态作为输入，并将其连接生成LSTM网络输入。

其中，步骤S3的具体步骤为：首先注释选取第一句话，在收集了注释代码片段的语料库之后，提取方法名、API序列、token和注释元组，其中，

方法名提取：对于每个Java方法，提取它的名称并将其解析为tokens序列；

API序列提取：使用Eclipse JDT编译器解析AST并遍历AST来提取API序列，API序列如下所示：对于每个构造函数调用new C()，生成C.new并将其添加到API序列中；对于每个方法调用o.m()，其中o是类C的一个实例，生成C.m并将其附加到API序列；对于while(s1){s2；}这样的循环语句，生成一个序列a1-a2，其中a1和a2分别是从语句s1和s2中提取的API序列；

token提取：要从Java方法提取tokens，要标记化方法体，使用camel case分类每个token并删除重复的token，同时删除停止词(如：and in)和Java关键词；

注释提取：使用Eclipse JDT编译器从Java方法解析AST，并从AST提取JavaDoc注释。

其中，步骤S4包括如下步骤：

S4.1、建立联合嵌入模型：联合嵌入，将异构数据(如代码和自然语言描述)联合嵌入/关联到统一向量空间，使得语义上相似的概念在相同的空间附近占据；

S4.2、训练联合嵌入模型：使用大量带有文档注释的Java方法段作为训练语料库，在训练时，将每个训练实例构造为<C,D+,D->：对于每个代码片段C，有一个正确描述D+，和一个错误描述D-，每训练一组<C,D+,D->，都会预测<C,D+>，<C,D->的余弦相似性并最小化the ranking loss，目的就是让代码片段与其正确描述之间的余弦相似性上升，而代码片段与其错误描述之间的余弦相似性下降。

进一步，所述联合嵌入模型分为三个部分：

(1)将源代码嵌入向量的代码嵌入网络：提取源代码方法名、API序列和token三个方面的信息，每一个单独嵌入成向量，然后组合成一个表示整个代码的向量；

(2)描述嵌入网络：使用RNN将自然语言描述嵌入到向量中；

(3)衡量代码和描述之间的相似度。

其中，步骤S5的具体步骤为：从GitHub中收集至少有20个stars的Java开源项目来构建代码库，然后通过联合嵌入模型以离线的方式将代码库中的所有代码段嵌入到向量中。

其中，步骤S6的具体步骤为：开发人员输入一个自然语言查询，首先自然语言查询会作为问题提升模型的输入，输出为提升过后的问题，然后结果作为联合嵌入模型的输入，联合嵌入模型使用RNN将其嵌入到向量中。

其中，步骤S7的具体步骤为：联合嵌入模型计算查询向量和步骤S5所述的代码库中所有代码段向量之间的余弦相似度，余弦相似度计算公式如下：

其中，a为代码段向量，b为查询向量；

最后根据余弦相似度分数高低返回与查询向量最相似的前K个代码段作为搜索结果。

本发明的上述技术方案的有益效果如下：本发明提供了一种基于联合嵌入模型的代码推荐方法，解决了自然语言查询中反映的高级意图与源代码中低级实现细节之间不匹配的问题，以及深度学习方法中缺乏不可扩展性的问题。

附图说明

图1为本发明的总体框架图；

图2为本发明中问题提升模型的示意图；

图3为本发明中联合嵌入模型的示意图；

图4为本发明中离线训练算法流程图；

图5为本发明中在线推荐算法流程图；

图6为本发明中输入查询示意图；

图7为本发明的结果推荐图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明提供一种基于联合嵌入模型的代码推荐方法，包括如下步骤：

S1、从GitHub帖子的评论中提取对问题的补充性问题；

在GitHub中，专家们经常对帖子的评论提出补充性问题，以便他们理解问题并帮助发帖者。将“补充性问题”定义为：在一篇文章的评论中的问题，该问题是给定帖子的缺失信息，从GitHub帖子的评论中提取对问题的补充性问题。

S2、将<问题，补充性问题>用来训练sequence-to-sequence模型，并保存为问题提升模型。sequence-to-sequence模型的主流是编码器-解码器架构，编码器是一个两层双向LSTM网络，解码器是一个单层LSTM网络，在训练时，解码器将前一个词嵌入向量和前一个状态作为输入，并将其连接生成LSTM网络输入。

S3、从GitHub上收集带有注释的Java开源项目数据集，并对其预处理；具体步骤为：首先注释选取第一句话，因为第一句话一般是对该方法的总结。在收集了注释代码片段的语料库之后，提取方法名、API序列、token和注释等元组，其中，

方法名提取：对于每个Java方法，提取它的名称并将其解析为tokens序列；例如，方法名listFiles将被解析为list和files。

API序列提取：使用Eclipse JDT编译器解析AST并遍历AST来提取API序列，API序列如下所示：对于每个构造函数调用new C()，生成C.new并将其添加到API序列中；对于每个方法调用o.m()，其中o是类C的一个实例，生成C.m并将其附加到API序列；对于while(s1){s2；}这样的循环语句，生成一个序列a1-a2，其中a1和a2分别是从语句s1和s2中提取的API序列。

token提取：要从Java方法提取tokens，要标记化方法体，使用camel case分类每个token并删除重复的token，同时删除停止词(如：and in)和Java关键词，因为它们经常出现在源代码中，而且没有区别。

注释提取：为了提取Java注释，使用Eclipse JDT编译器从Java方法解析AST，并从AST提取JavaDoc注释。

S4、建立联合嵌入模型，将数据集进行向量化处理；包括如下步骤：

S4.1、建立联合嵌入模型：联合嵌入，是一种将异构数据(如代码和自然语言描述)联合嵌入/关联到统一向量空间，使得语义上相似的概念在相同的空间附近占据。联合嵌入模型分为三个部分：

(2)描述嵌入网络：使用RNN将自然语言描述嵌入到向量中；

(3)衡量代码和描述之间的相似度。

S5、从GitHub中收集至少有20个stars的Java开源项目来构建代码库，然后将所有的代码段嵌入到向量中。具体步骤为：从GitHub中收集至少有20个stars的Java开源项目来构建代码库，然后通过联合嵌入模型以离线的方式将代码库中的所有代码段嵌入到向量中。

S6、将查询问题输入到问题提升模型中，然后将得到的结果输入到联合嵌入模型中进行向量化。具体步骤为：开发人员输入一个自然语言查询，首先自然语言查询会作为问题提升模型的输入，输出为提升过后的问题，然后结果作为联合嵌入模型的输入，联合嵌入模型使用RNN将其嵌入到向量中。

S7、计算查询问题的向量和代码向量的相似度得分来推荐Top-k代码段。具体步骤为：联合嵌入模型计算查询向量和步骤S5所述的代码库中所有代码段向量之间的余弦相似度，余弦相似度计算公式如下：

其中，a为代码段向量，b为查询向量；

下面结合说明书附图进一步阐述本发明的技术方案。

本发明的总体框架如图1所示，其遵循两个阶段的过程：问题提升和代码推荐。在问题提升中给出一个问题，首先提出一个补充性的问题，以此来促进该问题的提升。在代码推荐时，通过联合嵌入模型计算出相似性分数来对候选代码进行排序。

问题提升的任务是为问题自动生成一个补充性问题，使用sequence-to-sequence模型，如图2所示。从GitHub帖子的评论中提取对问题的补充性问题，首先通过提取对问题的所有评论，删除对答案的评论来构造一个问题评论集。然后，对于问题评论集中的每个评论，采用NLTK包将评论分解为多个句子。然后使用sentence tokenization方法将每个句子分隔成一个标记和符号列表。如果提取的标记包含问号标记‘？’，把这个句子删节到问号‘？’来作为问题的补充性问题。然后将提取到的<问题,补充性问题>数据集用来训练sequence-to-sequence模型，并保存为问题提升模型。

建立联合嵌入模型，如图3所示。联合嵌入，是一种将异构数据(如代码和自然语言描述)联合嵌入/关联到统一向量空间的技术，使得语义上相似的概念在相同的空间附近占据。这就弥补了问题和答案之间的空白性。从GitHub上收集带有注释的Java开源项目数据集，并对其预处理。

进一步，离线训练的算法流程如图4所示。在线推荐的算法流程如图5所示。

用户在系统上输入一个查询问题：“read an xml object”，如图6所示。点击查询，得到代码推荐结果，如图7所示，返回的代码推荐结果是准确的，符合软件开发人员的期望。此外，此发明不仅可搜索与查询问题具有匹配关键字的代码段，而且还推荐那些没有匹配关键字但语义相关的代码段，这一点很重要，因为它显著地增加了搜索范围，尤其是当代码库很小的时候。

本发明的目标是提高在GitHub上的代码搜索的性能，因此训练和搜索都是在GitHub语料库上执行的，然而这可能造成训练和搜索代码库之间存在重叠的威胁，为了减轻这种威胁，训练和搜索的代码库被构造成显著不同的。训练代码库只包含具有相应描述的代码，而搜索的代码库是孤立的，包含所有的代码(包括那些没有描述的代码)。这种重叠的过度拟合造成的威胁并不严重，因为我们的训练代码库考虑了Github上绝大多数的代码

本发明仅考虑了结果的语义向量来推荐代码段，在未来的工作中，可以作出一些改进，可以在在发明中考虑更多的代码特性(如代码上下文)，以进一步使结果更精确。

本发明解决了自然语言查询中反映的高级意图与源代码中低级实现细节之间不匹配的问题，以及深度学习方法中缺乏不可扩展性的问题。

Claims

1.一种基于联合嵌入模型的代码推荐方法，其特征在于，包括如下步骤：

S1、从GitHub帖子的评论中提取对问题的补充性问题；

S4、建立联合嵌入模型，将数据集进行向量化处理；

2.根据权利要求1所述的基于联合嵌入模型的代码推荐方法，其特征在于，步骤S1中，所述补充性问题的定义为：在一篇文章的评论中的问题，该问题是给定帖子的缺失信息，从GitHub帖子的评论中提取对问题的补充性问题。

3.根据权利要求1所述的基于联合嵌入模型的代码推荐方法，其特征在于，步骤S2中，sequence-to-sequence模型的主流是编码器-解码器架构，编码器是一个两层双向LSTM网络，解码器是一个单层LSTM网络，在训练时，解码器将前一个词嵌入向量和前一个状态作为输入，并将其连接生成LSTM网络输入。

4.根据权利要求1所述的基于联合嵌入模型的代码推荐方法，其特征在于，步骤S3的具体步骤为：首先注释选取第一句话，在收集了注释代码片段的语料库之后，提取方法名、API序列、token和注释元组，其中，

token提取：要从Java方法提取tokens，要标记化方法体，使用camel case分类每个token并删除重复的token，同时删除停止词和Java关键词；

5.根据权利要求1所述的基于联合嵌入模型的代码推荐方法，其特征在于，步骤S4包括如下步骤：

S4.1、建立联合嵌入模型：联合嵌入，将异构数据联合嵌入/关联到统一向量空间，使得语义上相似的概念在相同的空间附近占据；

S4.2、训练联合嵌入模型：使用大量带有文档注释的Java方法段作为训练语料库，在训练时，将每个训练实例构造为<C,D+,D->：对于每个代码片段C，有一个正确描述D+，和一个错误描述D-，每训练一组<C,D+,D->，都会预测<C,D+>，<C,D->的余弦相似性并最小化theranking loss，目的就是让代码片段与其正确描述之间的余弦相似性上升，而代码片段与其错误描述之间的余弦相似性下降。

6.根据权利要求5所述的基于联合嵌入模型的代码推荐方法，其特征在于，所述联合嵌入模型分为三个部分：

(2)描述嵌入网络：使用RNN将自然语言描述嵌入到向量中；

(3)衡量代码和描述之间的相似度。

7.根据权利要求1所述的基于联合嵌入模型的代码推荐方法，其特征在于，步骤S5的具体步骤为：从GitHub中收集至少有20个stars的Java开源项目来构建代码库，然后通过联合嵌入模型以离线的方式将代码库中的所有代码段嵌入到向量中。

8.根据权利要求1所述的基于联合嵌入模型的代码推荐方法，其特征在于，步骤S6的具体步骤为：开发人员输入一个自然语言查询，首先自然语言查询会作为问题提升模型的输入，输出为提升过后的问题，然后结果作为联合嵌入模型的输入，联合嵌入模型使用RNN将其嵌入到向量中。

9.根据权利要求1所述的基于联合嵌入模型的代码推荐方法，其特征在于，步骤S7的具体步骤为：联合嵌入模型计算查询向量和步骤S5所述的代码库中所有代码段向量之间的余弦相似度，余弦相似度计算公式如下：

其中，a为代码段向量，b为查询向量；