CN109670022B

CN109670022B - 一种基于语义相似度的Java应用程序接口使用模式推荐方法

Info

Publication number: CN109670022B
Application number: CN201811526803.5A
Authority: CN
Inventors: 周宇; 张云帆; 陶传奇; 张智轶; 李伟湋; 黄志球
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2023-09-29
Anticipated expiration: 2038-12-13
Also published as: CN109670022A

Abstract

本发明公开一种基于语义相似度的Java应用程序接口使用模式推荐方法，包括如下步骤：提取项目中的Java文件中的注释信息、应用程序接口调用序列和方法签名，构成元数据结构；对元数据结构使用层次聚类算法，提取应用程序接口使用模式；基于语义相似度，进行应用程序接口使用模式推荐。此种方法提出了通过语义相似度，推荐Java应用程序接口使用模式的方法，提高了Java应用程序接口使用模式的推荐准确率，减少了开发人员的编程时间，提高了开发人员的开发效率。

Description

一种基于语义相似度的Java应用程序接口使用模式推荐方法

技术领域

本发明属于计算机技术领域，特别涉及一种基于语义相似度的Java应用程序接口使用模式推荐方法。

背景技术

随着计算机应用领域的不断扩大，软件的使用已经逐渐渗透和融合到人们生活的各个组成部分，新的软件形态和开发模式不断涌现，其规模和数量正在以惊人的速度膨胀和扩大。有效的复用是提高软件开发效率、降低开发成本的重要方式，早期的软件复用偏重于方法学层面，这些潜在的复用实体往往属于开发者较为熟悉(如内部私有函数库)或较为知名的第三方库(如JDK中的应用程序接口、函数库等)，种类和数量均较为有限。

然而在软件开发过程中，开发人员常常要实现不熟悉的编程任务，他们要么通过查询和搜索代码示例进行代码重用，要么学习使用不熟悉的应用程序接口的使用方法，并依赖于代码示例。但由于传统的搜索引擎并不是为搜索程序而设计的，所以搜索结果通常包括许多不相关的、不精确的或意外的结果。从这些结果中进行合理的选择和研究通常会花费大量的额外时间，从而降低开发效率。能够针对程序员的编程要求进行合理的接口推荐便成为了提高软件开发效率的重要途径之一。

为此我们展开相关的研究工作，主要致力通过开发人员的自然语言查询，向其推荐可以直接使用的应用程序接口使用模式。其中应用程序接口使用模式是指，能够实现一个功能所需要的一组应用程序接口调用序列。

在下文中，总结了推荐应用程序接口使用模式的相关研究，这些相关研究均为国际上高水平会议或期刊的研究，具有较高的参考价值。

Xie等人最先提出了挖掘应用程序接口使用模式的经典算法MAPO。MAPO通过代码搜索引擎找到大量相似的代码片段,通过解析Java源文件并抽取应用程序接口调用序列，再使用SPAM算法挖掘出应用程序接口的使用模式。

Wang等人在2013年的MSR会议上提出的UP-Miner扩展了MAPO算法。UP-Miner试图降低MAPO结果的冗余性,挖掘出更加简明准确的应用程序接口使用模式。UP-Miner进行了三个方面的优化:(1)使用BIDE闭合频繁序列挖掘算法来挖掘应用程序接口使用模式；(2)根据两个应用程序接口使用模式的子项的重复性来度量相似性；(3)采用概率图模型来表示应用程序接口使用模式，同时根据出现的频次进行排名。

Niu等人在2018年的《Journal of Systems and Software》(CCF推荐B类期刊)上提出一种不依赖频繁模式挖掘的情况下挖掘应用程序接口使用模式的方法，通过将源代码表示为Object对象的网络，其中Object对象是在单个应用程序接口中的一组方法调用。再根据Object对象之间的共存关系对数据进行聚类，从而自动提取使用模式。

通过对相关研究的了解发现，国内外对应用程序接口推荐的关注度越来越高，已经有很多研究投入到应用程序接口推荐上，并且针对开发人员的不同使用场景，已经提出了很多推荐方法，且已经取得了较好的效果，但我们认为这些工作仍然在一定程度上有改进的空间。(1)以往工作并未很好地针对用户输入的自然语言查询，进行个性化接口推荐，存在推荐精度较低、搜索效率低等问题。(2)大部分应用程序接口搜索推荐技术都是通过关键词搜索或者文本匹配，并未考虑搜索内容与语料库之间语义相似度关系，推荐出的应用程序接口往往并不能很好的满足用户对某一模块功能的使用需求。

发明内容

本发明的目的，在于提供一种基于语义相似度的Java应用程序接口使用模式推荐方法，以解决开发人员在编程过程中遇到不熟悉的任务时，查询学习并理解应用程序接口所耗费的大量时间问题。

为了达成上述目的，本发明的解决方案是：

一种基于语义相似度的Java应用程序接口使用模式推荐方法，包括如下步骤：

(1)元数据结构提取：通过对大型开源代码库中的Java语言源代码进行抽象语法树构建和调用关系分析，对每一个方法提取出一个<注释信息，应用程序接口调用序列，方法签名>的元数据结构，其中存入的注释信息和方法签名为经过自然语言处理后的信息；

(2)应用程序接口使用模式提取：利用层次聚类算法，定义一个聚类簇之间的相似度计算法则，通过使用该相似度计算法则并对上述提取到的元数据结构进行层次聚类。将相似度小于一定阈值的元数据结构聚合成一个簇，剔除冗余的簇。将最终过滤后的簇中的应用程序接口作为给用户推荐的，能完成一定功能的应用程序接口使用模式；

(3)基于语义相似度的应用程序接口使用模式推荐：该步骤分为两个部分，一是对用户输入的自然语言查询使用自然语言处理的方式进行语义提取，二是将提取后的用户输入的自然语言查询和使用模式中的注释信息构建为词袋模型，计算二者的语义相似度。最终推荐语义相似度排名前十的应用程序接口使用模式。

上述步骤1中，注释信息指每个Java方法对应的Javadoc Annotation信息，这是一种具有半结构特征的信息。

上述步骤1中，应用程序接口调用序列指该Java方法中的应用程序接口调用序列。

上述步骤1中，方法签名指该Java方法的方法名和参数信息。

上述步骤(1)中的自然语言处理方法，包括：拆分驼峰式命名词汇、小写化、去除停止词和词干提取4个步骤。

上述步骤(2)中的层次聚类簇之间的相似度计算法则：具体公式如下：

其中Score_name是两个元数据结构的方法名相似度得分，Score_api是两个元数据结构的应用程序接口调用序列相似度得分，α₁和α₂为两个得分的权重，我们在这里将他们经验性的设置为0.375和0.742，代表得分X通过归一化计算后的值。其中方法名相似度得分Score_name的计算方式如下所示：

其中n代表方法名中出现的单词的个数，S_w代表这两个单词的MongeElkan相似度得分。

应用程序接口调用序列相似度得分Score_api的计算方式如下所示：

其中A₁和A₂代表各个应用程序接口调用序列中应用程序接口的集合，A₁∪A₂表示两个应用程序接口调用序列中应用程序接口的并集，A₁∪A₂表示两个应用程序接口调用序列中应用程序接口的交集。

上述步骤(2)中的层次聚类的阈值设定，经过大量实验标明，将阈值设置为0.65能达到最佳的聚类效果。

上述步骤(3)中的自然语言查询使用自然语言处理的方式进行语义提取方法，包括：拆分驼峰式命名词汇、小写化、去除停止词和词干提取4个步骤。

上述步骤(3)中的，计算提取后的用户输入的自然语言查询和用模式中的注释信息的语义相似度：具体包括将提取后的用户输入的自然语言查询构建成为词袋模型，将使用模式中的注释信息构建成为词袋模型，计算二者的语义相似度，相似度计算规则如下。

其中Q代表提取后的用户输入的自然语言查询的词袋模型，P代表使用模式中的注释信息的词袋模型。Q_i和P_i分别代表二者词袋模型中的单词权重之和。权重Weight_t的计算方式如下所示：

Weight_t＝TF_t,D×IDF_t,D

其中TF_t,D表示词袋模型t在文档D中的词频，IDF_t,D表示词袋模型t在文档D中的逆文本频率指数。其中文档D为所有应用程序接口使用模式的注释信息词袋模型之和。词频的计算方式如下所示：

其中，t代表一个词袋模型。n代表这个词袋模型中不同词汇出现的数量，T_t代表词袋模型t在整个文档中出现的频率。

逆文本频率指数的计算方式如下所示：

其中|D|代表整个文档中不同词汇出现的数量，|{j:t_i∈d_j}|整个文档中包含词袋模型t的数量。

采用上述方案后，本发明通过对编程任务的理解和分析，了解用户的编程习惯和用户需求，针对不同的用户查询需求，提供不同的应用程序接口使用模式推荐。通过多方位、多层次的应用程序接口模式推荐推荐，力争构建一套完整的推荐方法，完善面向互联网大数据的应用程序接口推荐技术体系，实现并提供一个功能全面的应用程序接口推荐工具集，提升软件开发效率。

本发明的步骤是：提取项目中的Java文件中的注释信息、应用程序接口调用序列和方法签名，构成元数据结构；对元数据结构使用层次聚类算法，提取应用程序接口使用模式；基于语义相似度，进行应用程序接口使用模式推荐。本发明提出了通过语义相似度，推荐Java应用程序接口使用模式的方法，提高了Java应用程序接口使用模式的推荐准确率，减少了开发人员的编程时间，提高了开发人员的开发效率。

附图说明

图1是本发明的流程图。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

如图1所示，本发明提供一种基于语义相似度的Java应用程序接口使用模式推荐方法，包括如下步骤：

步骤(1)具体包括：

1)首先使用并改进Eclipse Call Hierarchy插件中的调用关系分析模块，来解析工作区中的项目。然后，分析每个项目是否是Java项目。并对每个项目中的每个Java类的每个方法进行分析和提取调用关系。忽略调用这个项目内部方法的调用，因为这样的方法调用不能被其他开发人员使用。我们只保留JDK和第三方应用程序接口库的应用程序接口调用序列。

2)通过提取每个方法的文档注释信息，来获得应用程序接口调用序列的注释信息。根据Javadoc，可以得知每个方法文档注释的第一个句子是该方法的功能的总结。再通过基于Eclipse的JDT编译器，将Java代码抽象为语法树并提取JavaDoc节点。我们忽略没有文档注释的方法，并使用：拆分驼峰式命名词汇、小写化、去除停止词和词干提取4个步骤的自然语言处理方法，来处理注释信息和方法签名信息。最后，我们得到一个由190393<注释信息，应用程序接口调用序列，方法签名>组成的元数据结构语料库，作为我们推荐的语料库，所有的数据存储在MySQL数据库中。

步骤(2)具体包括：

为了从应用程序接口调用序列中提取应用程序接口使用模式，我们使用广泛用于提取应用程序接口使用模式的聚类算法。聚类算法是一种无监督的机器学习算法，它计算数据之间的相似度，将未标记的数据分组成有意义的簇。相似度计算法则决定了聚类结果的质量。因此，在对元数据结构进行聚类之前，我们需要定义相似度计算法则。我们的相似度计算法则公式如下：

步骤(3)具体包括：

1)对用户输入的自然语言查询进行：拆分驼峰式命名词汇、小写化、去除停止词和词干提取4个步骤的自然语言处理方法，进行语义提取。

2)将提取后的用户输入的自然语言查询构建成为词袋模型，将使用模式中的注释信息构建成为词袋模型，计算二者的语义相似度，相似度计算规则如下。

Weight_t＝TF_t,D×IDF_t,D

其中TF_t,D表示词袋模型t在文档D中的词频，IDF_t,D表示词袋模型t在文档D中的逆文本频率指数。其文档D为所有应用程序接口使用模式的注释信息词袋模型之和。词频的计算方式如下所示：

其中t代表一个词袋模型。n代表这个词袋模型中不同词汇出现的数量，T_t代表词袋模型t在整个文档中出现的频率。

逆文本频率指数的计算方式如下所示：

以下采用实验的方式来体现本发明方法的性能：

实验的主要内容为：对广泛使用的十个第三方应用程序接口库，进行相应的应用程序接口使用模式推荐，采用计算Top-10准确率方式，来显示本发明方法的性能。表1为提取到的十个第三方应用程序接口库的应用程序接口使用模式数量。

表1

方法评价的计算方式是Top-k准确率，k分别取1、5、10，实验中的测试数据为提取到的各个第三方应用程序接口库的应用程序接口使用模式中的注释信息，见表2。实验表明本发明方法在推荐的准确率上已经取到较高的结果，其中Top-1准确率波动较大，最低是34.55％，最高则可达到63.87％，但整体效果较好，可以达到50％以上。在Top-5准确率上，基本可以达到平均75％以上的效果。而在Top-10准确率方面可以达到平均85％以上，已经展现出了较高的实用性。该实验结果表明，本发明方法可以有效地为开发人员推荐应用程序接口使用模式，节省开发人员开发时所需的学习和理解时间。

表2

需要说明的是，本实施例中提及的应用程序接口，均指Java应用程序接口。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于语义相似度的Java应用程序接口使用模式推荐方法，其特征在于包括如下步骤：

步骤1，对大型开源代码库中的Java语言源代码进行抽象语法树构建和调用关系分析，对每一个方法提取出一个<注释信息，应用程序接口调用序列，方法签名>的元数据结构，其中存入的注释信息和方法签名为经过自然语言处理后的信息；

步骤2，利用层次聚类算法，定义一个聚类簇之间的相似度计算法则，通过使用该相似度计算法则并对步骤1提取的元数据结构进行层次聚类；将相似度小于阈值的元数据结构聚合成一个簇，剔除冗余的簇；将最终过滤后的簇中的应用程序接口作为能完成一定功能的应用程序接口使用模式推荐给用户；

所述步骤2中，相似度计算法则的公式如下：

其中，Score_name是两个元数据结构的方法名相似度得分，Score_api是两个元数据结构的应用程序接口调用序列相似度得分，α₁和α₂为两个得分的权重，代表得分X通过归一化计算后的值；

所述方法名相似度得分Score_name的计算方式如下所示：

其中，n代表方法名中出现的单词的个数，S_w代表这两个单词的MongeElkan相似度得分；

其中，A₁和A₂代表各个应用程序接口调用序列中应用程序接口的集合，A₁∪A₂表示A₁和A₂的并集，A₁∩A₂表示A₁和A₂的交集；

步骤3，对用户输入的自然语言查询使用自然语言处理的方式进行语义提取，再将提取后的用户输入的自然语言查询和使用模式中的注释信息构建为词袋模型，计算二者的语义相似度，最终推荐语义相似度排名前十的应用程序接口使用模式；

所述步骤3中，语义相似度的计算规则如下：

其中，Q代表提取后的用户输入的自然语言查询的词袋模型，P代表使用模式中的注释信息的词袋模型，Q_i和P_i分别代表二者词袋模型中的单词权重之和。

2.如权利要求1所述的一种基于语义相似度的Java应用程序接口使用模式推荐方法，其特征在于：所述步骤1中，注释信息指每个Java方法对应的Javadoc Annotation信息。

3.如权利要求1所述的一种基于语义相似度的Java应用程序接口使用模式推荐方法，其特征在于：所述步骤1中，方法签名指Java方法的方法名和参数信息。

4.如权利要求1所述的一种基于语义相似度的Java应用程序接口使用模式推荐方法，其特征在于：所述步骤1中，自然语言处理方法包括拆分驼峰式命名词汇、小写化、去除停止词和词干提取4个步骤。

5.如权利要求1所述的一种基于语义相似度的Java应用程序接口使用模式推荐方法，其特征在于：所述步骤2中，相似度的阈值设为0.65。

6.如权利要求1所述的一种基于语义相似度的Java应用程序接口使用模式推荐方法，其特征在于：所述步骤3中，自然语言处理方法包括拆分驼峰式命名词汇、小写化、去除停止词和词干提取4个步骤。

7.如权利要求1所述的一种基于语义相似度的Java应用程序接口使用模式推荐方法，其特征在于：所述权重Weight_t的计算方式如下所示：

Weight_t＝TF_t,×IDF_t,

其中，TF_t,表示词袋模型t在文档D中的词频，词袋模型t指Q或P；IDF_t,表示词袋模型t在文档D中的逆文本频率指数，其中文档D为所有应用程序接口使用模式的注释信息词袋模型之和；词频的计算方式如下所示：

其中，t代表一个词袋模型，m代表这个词袋模型中不同词汇出现的数量，T_t代表词袋模型t在整个文档中出现的频率；

逆文本频率指数的计算方式如下所示：

其中，|D|代表整个文档中不同词汇出现的数量，|{j:t_k∈d_j}|代表整个文档中包含词袋模型t的数量。