CN114297479B

CN114297479B - 一种结合LDA主题模型和GloVe词向量技术的API推荐方法

Info

Publication number: CN114297479B
Application number: CN202111543829.2A
Authority: CN
Inventors: 俞东进; 范旭麟; 陈信; 殷嘉铖
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2023-03-21
Anticipated expiration: 2041-12-16
Also published as: CN114297479A

Abstract

本发明公开了一种结合LDA主题模型和GloVe词向量技术的API推荐方法。本发明通过挖掘语料库中的全局统计信息，利用LDA主题模型获得单词和API的主题概率分布；同时基于语料库中的局部上下文信息，利用GloVe词向量技术生成单词和API的词向量。最后综合主题概率分布之间的相似度和词向量之间的相似度计算出单词和API之间的相关性，并根据相关性从大到小排序得到API推荐列表。本发明同时使用语料库的全局统计信息和局部上下文信息来获取语义信息，使得相似度的计算更加准确；本发明使用随机打乱策略打乱文档中的单词和API，提高单词和API出现在一个窗口中的概率，有效提高从局部上下文信息中获取语义信息的能力，提高API推荐的准确性。

Description

一种结合LDA主题模型和GloVe词向量技术的API推荐方法

技术领域

本发明涉及代码搜索领域，尤其涉及一种结合LDA主题模型和GloVe词向量技术的API推荐方法。

背景技术

在软件开发中，开发者在编码实现某些特定功能时往往会使用已有的API(Application Programming Interface)，然而有时候他们并不清楚使用什么API以及如何使用这些API。在这种情况下，开发者通常会使用搜索工具来检索相关的API。目前主流的搜索工具大多采用信息检索技术，如空间向量模型(Space Vector Model,SVM)，将开发者的查询和API转化为单词集合，然后利用文本匹配的方式来寻找需要的API。然而，自然语言和程序语言之间的语义不匹配现象严重地影响了搜索工具的性能，从而导致返回的API大多是不相关的，而API的错误使用往往会带来大量的软件缺陷。已有的研究表明，开发人员的查询返回的前10个结果中，仅有25.7％到38.4％是真正相关的。

近年来，许多研究聚焦自然语言与API之间的语义不匹配问题，通过构建方法注释和API的配对，分析单词和API之间的关系来提升API推荐的效率。现有的方法主要分为两类：第一类是基于共现(Co-occurrence)的方法，如潜在语义分析、共现分析和语义词典分析等，其基本思想是通过构建共现矩阵分析单词和API的共现关系，即分析单词和API出现在同一个配对中的概率，从而计算出两者之间的相似度，并依据相似度进行排序，形成最终的API推荐列表。第二类，就是基于机器学习或深度学习的方法，首先利用方法注释和对应代码段的配对来训练模型，然后再利用训练好的模型来对输入的查询词匹配适合的API。其中比较有代表性的是词嵌入技术，通过将单词或API转换为低维向量来进行相关性度量。

已有研究主要利用单一信息来度量单词和API之间的语义相关性，并没有充分考虑不同种类的信息，如全局统计信息、局部上下文信息、词语序列信息等的作用。因此，很难准确地度量单词和API之间的语义相关性，从而导致推荐的API往往是不相关的。

发明内容

为了有效实现API推荐，本发明提供一种结合LDA主题模型和GloVe词向量技术的API推荐方法，通过挖掘单词和API之间的全局统计信息和局部上下文信息，有效实现单词和API之间的语义相关性评估。

本发明具体采用的技术方案如下：

步骤(1)从开源软件仓库中筛选出其中的Java文件，这些文件都以“.java”结尾；

步骤(2)从Java文件中抽取出所有的方法和对应的方法注释，并将每一个方法和对应的方法注释组成一个配对pair＝＜method，comment>，其中method表示方法，comment表示对应的方法注释；所有的配对组成集合P＝(pair₁，pair₂，...pair_n)；

步骤(3)使用JDT工具将每一个配对pair_i(i＝1，2，...，n)中的方法method转化为AST，然后遍历AST得到其中method类型为实例创建和方法调用的API组成的API调用序列APISequence；

步骤(4)对每一个配对pair_i中的方法注释comment进行预处理：

步骤(5)对于每一个配对pair_i，将其中所包含的词项随机打乱，生成s个新的副本，随机打乱后生成的所有副本表示为集合RSpair_i＝(pair_i ¹，pair_i ²，...，pair_i ^s)，其中pair_i ¹，pair_i ²，...，pair_i ^s均作为一个独立样本且互相为不重复的全排列；

步骤(6)将所有集合RSpair_i合并组成一个语料库Q＝(RSpair₁，RSpair₂，...，RSpair_n)，集合RSpair_i中的所有副本均作为语料库中的文档，其数量为n*s；

步骤(7)训练LDA模型，将LDA的主题数设置为K；

步骤(8)计算任意两个词项t_x和t_y之间的主题相似度sim_topic：

步骤(9)使用GloVe词嵌入技术对语料库Q中的所有的词项进行训练，得到每个词项t_j的词向量

步骤(10)计算任意两个词项t_x和t_y之间的词向量相似度sim_vector：根据GloVe模型，得到词项t_x和t_y对应的词向量

和

计算

和

之间的余弦相似度得到词向量相似度sim_vector：

步骤(11)计算任意两个词项t_x和t_y之间的最终相似度sim_final：将主题相似度sim_topic和词向量相似度sim_vector相乘得到最终相似度sim_final；

步骤(12)输入一个查询词，计算查询词和语料库中的每一个词项t_j的最终相似度sim_final，并将所有词项按sim_final从大到小进行排序，最后将其中的单词去除，仅保留API作为最终的API推荐列表。

进一步的，步骤(4)对每一个配对pair_i中的方法注释comment进行预处理，具体实现如下：

4-1.删除方法注释中包含的历史版本记录，该历史版本记录通常表示为“xx-xx-xx：text”，其中“xx-xx-xx”表示日期，“text”表示历史记录；

4-2.删除方法注释中包含的数字、标点、URL、源代码等噪音信息，并把所有单词转换为小写字母形式；

4-3.根据通用停用词表删除方法注释中含有的停用词；

4-4.将屈折词和派生词还原到基本形式。

进一步的，将经过步骤(4)预处理后的comment表示为precomment；经过对method和comment的处理后，每一个配对表示为pair_i＝<APISequence，precomment>，其中APISequence中所有的API和precomment中所有的单词统称为词项；集合P中所有配对包含的全部词项的集合表示为T＝(t₁，t₂，...，t_l)，其中l表示全部词项的数量。

进一步的，步骤(7)训练LDA模型，将LDA的主题数K设置为300，具体训练步骤如下：

7-1.为每个词项t_j随机赋予一个主题编号topic_k，将语料库Q作为LDA模型的输入；j＝1，2，...，l；k＝1，2，...，K；

7-2.重新扫描语料库Q；对每个词项t_j和每篇文档m_μ，μ＝1，2，...，n*s；使用GibbsSampling对

和θ(mμ，topic_k)采样预估，计算t_j属于topic_k的概率以及topic_k属于m_μ的概率，并在语料库中更新：

其中

表示主题topick包含词项t_j的概率，θ(m_μ，topic_k)表示文档m_μ包含主题topic_k的概率，

表示topic_k主题中出现词项t_j的次数，

是词项t_j的Dirichlet先验，

表示文档m_μ中出现主题topic_y的次数，

是主题topic_k的Dirichlet先验；

7-3.重复步骤7-2，直到

和θ(m_μ，topic_k)收敛；

通过训练LDA模型，最终得到主题-单词的概率矩阵，每一个词项t_j对应的主题概率分布表示为

p()表示条件概率。

进一步的，步骤(8)计算任意两个词项t_x和t_y之间的主题相似度sim_topic，具体实现如下：

8-1.从LDA模型获取词项t_x和t_y主题概率分布

和

8-2.计算概率分布

和

之间的距离度量指标Jensen-Shannon散度

8-3.将Jensen-Shannon散度转化为相似度度量指标得到词项t_x和t_y之间的主题相似度sim_topic：

进一步的，步骤(11)计算任意两个词项t_x和t_y之间的最终相似度sim_final：将主题相似度sim_topic和词向量相似度sim_vector相乘得到最终相似度sim_final：

sim_final＝sim_topic*sim_vector(7)。

本发明提出一种结合LDA主题模型和GloVe词向量技术的API推荐方法，通过挖掘全局统计信息训练LDA主题模型并使用局部上下文信息训练GloVe模型，获取单词和API之间的相关性。相比于传统的API推荐方法，本发明具有如下收益：

1、同时使用语料库的全局统计信息和局部上下文信息来获取语义信息，使得相似度的计算更加准确；

2、使用随机打乱策略打乱文档中的单词和API，提高单词和API出现在一个窗口中的概率，有效提高从局部上下文信息中获取语义信息的能力，提高API推荐的准确性。

附图说明

图1为本发明结合LDA主题模型和GloVe词向量技术的API推荐方法的流程图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

数据源获取：本实验所用的原始数据集来自于开源软件仓库Github。该数据集采集了2020年1月1日到2020年6月30日Github中所有的Java项目，并且根据星数对项目进行过滤，去除了所有0星项目。每个Java项目包含一定数量的Java文件，每个Java文件中又包含一定数量的方法和对应的方法注释。本数据集最终包含26,805个Java项目，从中抽取了899,556个方法和对应的方法注释。

以下结合附图1，对本发明专利提供的一种结合LDA主题模型和GloVe词向量技术的API推荐方法进行详细说明，包括以下步骤：

步骤(2)从Java文件中抽取出所有的方法和对应的方法注释，并将每一个方法和对应的方法注释组成一个配对pair＝<method，comment>，其中method表示方法，comment表示对应的方法注释；所有的配对组成集合P＝(pair₁，pair₂，...pair_n)；

步骤(3)使用JDT工具将每一个配对pair_i(i＝1，2，...，n)中的方法method转化为AST，然后遍历AST得到其中method类型为实例创建和方法调用的API组成的API调用序列APISequence。

步骤(4)对每一个配对pair_i中的方法注释comment进行预处理：

4-3.根据通用停用词表删除方法注释中含有的停用词；

4-4.将屈折词和派生词还原到基本形式；

将经过预处理后的comment表示为precomment；

经过对method和comment的处理后，每一个配对表示为pair_i＝<APISequence，precomment>，其中APISequence中所有的API和precomment中所有的单词统称为词项；集合P中所有配对包含的全部词项的集合表示为T＝(t₁，t₂，...，t_l)，其中l表示全部词项的数量；

步骤(5)对于每一个配对pair_i，将其中所包含的词项随机打乱，生成s个新的副本，随机打乱后生成的所有副本表示为集合RSpair_i＝(pair_i ¹，pair_i ²，...，pair_i ^s)，其中pair_i ¹，pair_i ²，...，pair_i ^s均作为一个独立样本且互相为不重复的全排列；本发明中，将s设置为10；

步骤(7)训练LDA模型，将LDA的主题数K设置为300，具体训练步骤如下：

7-1.为每个词项t_j(j＝1，2，...，l)随机赋予一个主题编号topic_k(k＝1，2，...，K)，将语料库Q作为LDA模型的输入；

7-2.重新扫描语料库Q；对每个词项t_j和每篇文档m_u(μ＝1，2，...，n*s)，使用GibbsSampling对

和θ(m_μ，topic_k)采样预估，计算t_j属于topic_k的概率以及topic_k属于m_μ的概率，并在语料库中更新：

其中

表示主题topic_k包含词项t_j的概率，θ(m_μ，topic_k)表示文档m_μ包含主题topic_k的概率，

表示topic_k主题中出现词项t_j的次数，

是词项t_j的Dirichlet先验，

表示文档m_μ中出现主题topic_y的次数，

是主题topic_k的Dirichlet先验；

7-3.重复步骤7-2，直到

和θ(m_μ，topic_k)收敛；

通过训练LDA模型，最终可以得到主题-单词的概率矩阵，每一个词项t_j对应的主题概率分布表示为

p()表示条件概率。

步骤(8)计算任意两个词项t_x和t_y之间的主题相似度sim_topic：

8-1.从LDA模型获取词项t_x和t_y主题概率分布

和

8-2.计算概率分布

和

之间的距离度量指标Jensen-Shannon散度

本发明中，将学习曲率(learning rate)设置为0.05，词向量维度设置为300维，迭代次数设置为100代；

和

计算

和

之间的余弦相似度得到词向量相似度sim_vector：

其中，

和

分别表示对

和

取模。

步骤(11)计算任意两个词项t_x和t_y之间的最终相似度sim_final：将主题相似度sim_topic和词向量相似度sim_vector相乘得到最终相似度sim_final：

sim_finaf＝sim_topic*sim_vector

Claims

1.一种结合LDA主题模型和GloVe词向量技术的API推荐方法，其特征在于包括如下步骤：

步骤(2)从Java文件中抽取出所有的方法和对应的方法注释，并将每一个方法和对应的方法注释组成一个配对pair＝<method,comment>，其中method表示方法，comment表示对应的方法注释；所有的配对组成集合P＝(pair₁,pair₂,…pair_n)；

步骤(3)使用JDT工具将每一个配对pair_i(i＝1,2,…,n)中的方法method转化为AST，然后遍历AST得到其中method类型为实例创建和方法调用的API组成的API调用序列APISequence；

步骤(4)对每一个配对pair_i中的方法注释comment进行预处理：

步骤(5)对于每一个配对pair_i，将其中所包含的词项随机打乱，生成s个新的副本，随机打乱后生成的所有副本表示为集合RSpair_i＝(pair_i ¹,pair_i ²,…,pair_i ^s)，其中pair_i ¹,pair_i ²,…,pair_i ^s均作为一个独立样本且互相为不重复的全排列；

步骤(6)将所有集合RSparir_i合并组成一个语料库Q＝(RSpair₁,RSpair₂,…,RSpair_n)，集合RSpair_i中的所有副本均作为语料库中的文档，其数量为n*s；

步骤(7)训练LDA模型，将LDA的主题数设置为K；

步骤(8)计算任意两个词项t_x和t_y之间的主题相似度sim_topic：

和

计算

和

之间的余弦相似度得到词向量相似度sim_vector：

2.根据权利要求1所述的一种结合LDA主题模型和GloVe词向量技术的API推荐方法，其特征在于步骤(4)对每一个配对pair_i中的方法注释comment进行预处理，具体实现如下：

4-1.删除方法注释中包含的历史版本记录，该历史版本记录通常表示为“xx-xx-xx:text”，其中“xx-xx-xx”表示日期，“text”表示历史记录；

4-2.删除方法注释中包含的数字、标点、URL、源代码噪音信息，并把所有单词转换为小写字母形式；

4-3.根据通用停用词表删除方法注释中含有的停用词；

4-4.将屈折词和派生词还原到基本形式。

3.根据权利要求2所述的一种结合LDA主题模型和GloVe词向量技术的API推荐方法，其特征在于步骤(4)将经过预处理后的comment表示为precomment；经过对method和comment的处理后，每一个配对表示为pair_i＝<APISequence,precomment>，其中APISequence中所有的API和precomment中所有的单词统称为词项；集合P中所有配对包含的全部词项的集合表示为T＝(t₁,t₂,…,t_l)，其中l表示全部词项的数量。

4.根据权利要求2所述的一种结合LDA主题模型和GloVe词向量技术的API推荐方法，其特征在于步骤(7)训练LDA模型，将LDA的主题数K设置为300，具体训练步骤如下：

7-1.为每个词项t_j随机赋予一个主题编号topic_k，将语料库Q作为LDA模型的输入；j＝1,2,…,l；k＝1,2,…,K；

7-2.重新扫描语料库Q；对每个词项t_j和每篇文档m_μ，μ＝1,2,…,n*s；使用GibbsSampling对