CN109522011A

CN109522011A - 一种基于编程现场上下文深度感知的代码行推荐方法

Info

Publication number: CN109522011A
Application number: CN201811206811.1A
Authority: CN
Inventors: 陶传奇; 包盼盼; 黄志球; 李伟湋; 张智轶; 周宇; 王铁鑫
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2019-03-26
Anticipated expiration: 2038-10-17
Also published as: CN109522011B

Abstract

本发明公开了一种基于编程现场上下文深度感知的代码行推荐方法，利用了深度学习技术在编程语言处理中的作用及其在上下文隐含模式感知中的优势。基于已有的海量源码数据，利用深度学习析取代码行的相关上下文因子，挖掘隐含上下文信息，为精准推荐提供基础。利用编程现场已有的源码数据和任务数据对当前代码行进行预测，并推荐最准确的、由高到低排好序的N个代码行。本方法不仅能够推荐准确度较高的代码行，还具有较好的自动性，不需要手动输入查询，实现自动检测已有的代码行上文。

Description

一种基于编程现场上下文深度感知的代码行推荐方法

技术领域

本发明属于无查询的代码推荐的技术领域，具体涉及一种基于编程现场上下文深度感知的代码行推荐方法。

背景技术

由于人们对于软件的功能需求日益丰富，软件的规模越来越大，结构日益复杂。在这样的情况下，程序开发人员很可能遇到一些软件编写困难的情况，比如某些不常见的功能如何实现。此时，如果开发人员能够获得当前代码行的可能情况，就能进行参考、改进或直接复用。这样就能够给开发人员节省大量时间和精力。在软件开发过程中，开发者通常会选择搜索引擎查询需要的代码。但是利用搜索引擎搜索通常需要确切的功能性描述，而对一个单一代码行而言并不具备一个完整功能。

在软件开发的编程现场，有大量与当前开发任务相关的信息，比如代码上下文信息、用户开发意图等。因此，在开发过程中，如果开发人员能够充分利用编程现场的已有信息，对提高程序编写的准确率和效率会有很大的帮助。近年来，由于深度学习的广泛应用，语言处理领域也取得了突破性进展，使得对编程语言进行代码行上下文隐含模式挖掘也能取得很好的效果。所以，将深度学习技术与编程现场相结合进行代码推荐是一种新型有效的推荐方法。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种基于编程现场上下文深度感知的代码行推荐方法，使用深度学习技术和编程现场信息支持面向无查询的代码行推荐；本发明能够根据已有的海量源码数据，利用深度学习析取代码行的相关上下文因子，挖掘隐含上下文信息；然后，利用编程现场抽取的任务数据和源码数据，推荐最匹配的代码行。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种基于编程现场上下文深度感知的代码行推荐方法，包括如下步骤：

步骤1)：对收集到的代码进行统一化处理，处理完成后得到代码段集S1；

步骤2)：抽取代码段集S1中每个代码段的类名、方法名和注释信息，以类名#方法名#注释信息的形式保存在磁盘中，得到数据集D1；

步骤3)：利用代码段集S1中每个方法块，构建训练数据集S2；

步骤4)：以训练数据集S2中每个代码行上下文实例作为输入和输出，训练得到Encoder-Decoder代码行生成器模型M；

步骤5)：根据实时采集到的编程现场数据，利用模型M预测得到根据优先级排好序的N个推荐结果。

进一步地，所述步骤1)具体包括：

11)从开源软件平台获取具体项目，所述具体项目为Java项目或Android项目，对具体项目中源代码文件以方法为单位进行切割，得到代码段集S1，每个代码段的名称形式为类名&方法名。

进一步地，所述步骤1)具体还包括：

12)为Java项目时，对于同一个类的不同对象，用对应类的类型替换所有的对象类型，用类名的小写形式替换不同的对象名；

13)为Java项目时，对于基本数据类型，即byte、short、int、long、float、double、char和boolean，对其变量名和值都进行统一化处理。

进一步地，所述步骤5)具体包括：

51)采集开发人员已键入的代码行上文，并按照上述步骤12和13中统一化规则进行处理，并将其作为模型输入，利用训练好的模型M预测最可能的当前N个代码行；

52)采集用户当前的任务数据，包括类名、方法名及注释信息，以获取开发人员当前可能的开发意图，并以类名#方法名#注释信息的格式保存；

53)利用已有的类名#方法名#注释信息和数据集D1中的数据进行相似度比较，若存在相似度高于指定阈值的代码段，且该代码段中含有推荐结果中优先级为k的推荐结果，则将该推荐结果重新排序为第一优先级结果，相似度越高，优先级越高。

进一步地，所述步骤53)中的相似度比较使用LSA潜在语义分析。

进一步地，所述步骤3)具体包括：

31)对代码段集S1中每个方法块，忽略其第一行的方法声明，从第n+1行开始，以前n行为代码行上文、第n+1行为代码行下文，n≥1，且为变量参数，构建一个代码行上下文实例；依次向下直至方法块最后一行，构建训练数据集S2。

本发明的有益效果：

本发明利用深度学习技术在语言处理中的作用，以及其在隐含上下文信息挖掘中的优势，用于解决如何根据已有的编程现场数据推荐高质量的代码行问题，具有以下优点：

(1)利用深度学习能够真正析取代码行的相关上下文因子，挖掘隐含上下文信息，为精准推荐提供基础，而不是仅仅利用文本关键词进行匹配，提高了推荐的准确性。

(2)利用编程现场任务数据捕捉开发者意图，并利用语义相似度匹配对推荐结果进行优先级调整，更好地对推荐结果进行排序，使得开发人员需要的推荐项在n个推荐结果中更加靠前的位置。

附图说明

图1为本发明的整体结构图。

图2为本发明中所使用的Encoder-Decoder模型应用于代码行的示例图。

图3为本发明中所使用编程现场数据处理模块结构图。

图4为本发明的流程图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

下面结合附图1-图4以Java代码段推荐为例对发明的技术方案进行详细说明：

步骤1：构造大规模的、每个代码段具有独立完整功能的代码段集S’；其中，

11)在开源的软件平台(比如GitHub)上获取Java项目，对项目中Java文件按照方法为单位进行切割，写入类名&方法名为文件名的文件中；

12)对初步得到的带方法描述信息的代码段集S进行筛选，将劣质(比如没有完整功能)或无用(比如测试方法)代码段删除，得到精简的代码段集S’。

步骤2：对代码段集S’进行统一化处理，处理完成之后得到代码段集S1；其中，

21)以Java为例；对于同一个类的不同对象，用对应类的类型替换所有的对象类型，用类名的小写形式替换不同的对象名；

22)对于基本数据类型，即byte、short、int、long、float、double、char和boolean，对其变量名和值进行统一化处理得到代码段集S1，具体规则见表1，其为Java基本数据类型的统一化处理规则，如下：

表1

步骤3：抽取代码段数据集S1中每个代码段的类名、方法名和注释信息，以类名#方法名注释信息的形式保存在磁盘中，得到数据集D1；

步骤4：对代码段数据集S1中每个方法块，忽略其第一行的方法声明，从第n+1行开始，以前n行为代码行上文、第n+1行为代码行下文，n≥1，且为变量参数；构建一个代码行上下文实例，依次向下直至方法块最后一行(忽略无意义代码行及符号)，构建训练数据集S2；

步骤5：以练数据集S2中每个代码行上下文实例作为输入和输出，训练得到Encoder-Decoder代码行生成器模型M；

步骤6：根据实时采集到的编程现场数据，利用模型M预测得到根据优先级排好序的N个推荐结果，根据采集到的当前任务数据对推荐结果的优先级进行二次排序。其中，

61)采集开发人员已经键入的代码行上文，并按照前述步骤中21和22中统一化规则进行处理；并将其作为模型输入，利用训练好的模型M预测最可能的当前N个代码行；

62)采集用户当前的任务数据，以获取开发人员当前可能的开发意图，主要包括类名、方法名以及注释信息，以类名#方法名#注释信息的格式保存；

63)利用已有的类名#方法名#注释信息和数据集D1中数据进行相似度比较，如果有相似度高于指定阈值(根据经验0.7-0.8较为合适)的代码段，并且该代码段中含有推荐结果中优先级为k的推荐结果，则将该推荐结果重新排序为第一优先级结果，相似度越高，优先级越高；

64)相似度衡量使用LSA潜在语义分析。

实施例：

首先对开源的软件平台GitHub上获取的Java项目进行切割，得到具有独立完整功能的代码段，并将其写入文件。以项目ASTGeneration为例，切割后得到单个代码段形式如下：

在利用上述步骤2所述的对象处理方法以及表1给出的基本数据类型的处理方式对源码进行处理之后，得到具有统一化格式的代码段集S1。

抽取代码段集S1中每个代码段的类名、方法名和注释信息，以类名#方法名注释信息的形式保存在磁盘中，得到数据集D1。

从上述代码段集S1中获取已经处理完成、具有同一格式的每个方法块，忽略其第一行的方法声明，从第n+1行开始，以前n行为代码行上文、第n+1行为代码行下文，构建一个代码行上下文实例。依次向下直至方法块最后一行。取代码行上文数n为3，从上述getMostList方法构建训练实例数据集S2，实例如下：

1：<int int_type＝1int int_type＝1for int int_type＝1int_type<list<integer>.size()int_type++,if int_type<list<integer>.get(int_type)>

2：<int int_type＝1for int int_type＝1int_type<list<integer>.size()int_type++if int_type<list<integer>.get(int_type),int_type＝list<integer>.get(int_type)>

3：<for int int_type＝1int_type<list<integer>.size()int_type++if int_type<list<integer>.get(int_type)int_type＝list<integer>.get(int_type)，int_type＝int_type>

4：<int_type<list<integer>.size()int_type++if int_type<list<integer>.get(int_type)int_type＝list<integer>.get(int_type)int_type＝int_type，returnint_type>

实例数据集构建完成后，以一对代码行上下文分别作为输入和输出训练编码器—解码器模型，即Encoder-Decoder代码行生成器模型M。

推荐阶段，首先利用开发现场数据采集模块(其结构如图3)的采集器采集源代码数据，即开发人员已经键入的代码行上文，现场数据清洗模块按照前述步骤中统一化规则对其进行处理。处理完成后如下：

String string＝list<string>.get(int_type)

if(string.equals("stringValue"))

将其作为模型输入，利用训练好的模型预测最可能的当前N个代码行。为了得到N个优先级最高的代码行，具体使用的算法是集束搜索。为了方便表示，这里指定推荐代码行数目N为2，如下所示：

1、continue

2、string＝string+string.trim()+"stringValue"

推荐代码行优先级调整阶段，利用开发现场数据采集模块(结构如图3)的采集器实时捕获用户当前的软件任务数据，获取开发人员当前可能的开发意图，主要包括类名、方法名以及注释信息，现场数据组织管理模块处理之后以类名#方法名#注释信息的格式将其保存。将其和已有的数据集D1中的类名#方法名#注释信息数据进行相似度比较，如果存在相似度高于阈值为0.7的代码段，并且该代码段中含有推荐结果中优先级为k的推荐结果，则将该推荐结果重新排序为第一优先级结果，相似度越高，优先级越高。相似度衡量使用LSA潜在语义分析。重排后推荐结果被最终推荐给用户。如下：

1、string＝string+string.trim()+"stringValue"

2、continue

此外，为了不断的对代码行生成器模型M进行优化，会将用户对推荐结果的接受情况进行收集，用户成功采纳的代码行连同其对应上文会以个人数据的形式添加到数据库中，为定期改进模型M提供数据支撑。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于编程现场上下文深度感知的代码行推荐方法，其特征在于，包括如下步骤：

步骤3)：利用代码段集S1中每个方法块，构建训练数据集S2；

2.根据权利要求1所述的基于编程现场上下文深度感知的代码行推荐方法，其特征在于，所述步骤1)具体包括：

3.根据权利要求2所述的基于编程现场上下文深度感知的代码行推荐方法，其特征在于，所述步骤1)具体包括：

4.根据权利要求3所述的基于编程现场上下文深度感知的代码行推荐方法，其特征在于，所述步骤5)具体包括：

5.根据权利要求4所述的基于编程现场上下文深度感知的代码行推荐方法，其特征在于，所述步骤53)中的相似度比较使用LSA潜在语义分析。

6.根据权利要求1所述的基于编程现场上下文深度感知的代码行推荐方法，其特征在于，所述步骤3)具体包括：