CN110297628B

CN110297628B - 一种基于同源相关性的api推荐方法

Info

Publication number: CN110297628B
Application number: CN201910502764.3A
Authority: CN
Inventors: 李必信; 李慧丹; 孔祥龙; 王璐璐; 廖力; 周颖
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2023-07-21
Anticipated expiration: 2039-06-11
Also published as: CN110297628A

Abstract

本发明公开了一种基于同源相关性的API(Application Programming Interface，应用程序接口)推荐方法，在得到新的API推荐需求之后，首先，根据余弦相似度从历史信息库中筛选出前k个相似的历史信息，提取这k个历史信息所对应的API，根据这些API出现频率计算推荐分数Score1。其次，按照推荐分数Score1的大小对API标记权重，计算同一第三方库中API总权重，通过归一化得到API同源影响分数Score2。最后，API推荐分数Score1和同源影响分数Score2进行求和，获得API推荐分数Score，进行API推荐。本推荐技术考虑API同源相关性，更符合实际编程场景需要，提高开发和维护效率，系统安全性更高。

Description

一种基于同源相关性的API推荐方法

技术领域

本发明涉及评估方法，具体涉及一种基于同源相关性的API推荐方法，属于API推荐技术领域。

背景技术

API(Application Programming Interface，即应用程序编程接口)推荐是代码推荐领域的一个重要部分，随着第三方库的增多，其包含的功能也越来越丰富，在开发项目的过程中，第三方库的使用可以减少项目中的代码量，进而减少代码测试的工作量。但是由于第三方库中庞大的API数量，开发人员在选择合适的API方法时需要阅读相关介绍文档以及查看相关示例代码，需要花费大量的时间来选择合适的API方法，因此自动API推荐对提高软件开发效率，增加第三方库的有效使用具有重要意义。

API推荐的方法主要有利用k近邻或者循环神经网络或者其他机器学习方法进行训练，这种方法是通过把代码中的方法转化为API向量，通过机器学习后进行推荐。另外针对在项目测试演进过程中，根据需求进行API推荐，也有根据历史信息和API文档描述进行API推荐的方法，但其在基于需求推荐的过程中并没有考虑同源API的使用，忽视了编程人员习惯使用同一第三方库API的问题，使得开发效率降低，维护成本较高。

发明内容

本发明正是针对现有技术中存在的问题，提供一种基于同源相关性的API推荐方法，该方法利用余弦相似度，进行历史信息对应方法推荐分析和同源API对推荐过程影响分析。结合API同源相关性对API进行推荐，解决API推荐中第三方库引用较多的问题，提高开发效率，降低维护成本，系统安全性更高。

为了实现上述目的，本发明的技术方案如下，一种基于同源相关性的API推荐方法，包括如下步骤：

步骤1)获得相似历史信息：通过余弦相似度计算获得新需求和历史信息之间的相似度值，获取相似度排名前k的历史信息；

步骤2)获得API推荐分数Score1：在排名前k的历史信息中，计算每个API的推荐分数Score1；

步骤3)获得API同源影响分数Score2：根据步骤2)的推荐分数Score1对API进行排序，并标记每个API权重，根据API找到对应第三方库，计算同一第三方库(即同源)中API的总权重，通过归一化得到API同源影响分数Score2；

步骤4)API推荐：将步骤2)得到的API的推荐分数Score1和步骤3)得到的API同源影响分数Score2进行求和得到API推荐分数Score。根据得到的推荐分数Score进行API推荐，推荐分数越高越优先推荐。

公式：Score＝Score1+Score2。

本发明首先根据余弦相似度从历史信息库中筛选出前k个相似的历史信息，提取这k个历史信息所对应的API，根据这些API出现频率计算推荐分数Score1。其次，按照推荐分数Score1的大小对API标记权重，计算同一第三方库中API总权重，通过归一化得到API同源影响分数Score2。最后，API推荐分数Score1和同源影响分数Score2进行求和，获得API推荐分数Score，进行API推荐。

本发明方法所述步骤1)中，新需求来自用户输入，用符号NewQ表示，NewQ中包含字段{new_description}，new_description代表新需求对应描述。历史信息库来自项目与事务跟踪工具，历史信息的集合{Q₁,Q₂,…,Q_m},Q_i中的字段为{description，methods},(1≤i≤m)。description代表历史信息对应描述，methods代表历史信息对应方法的集合。通过计算new_description和所有历史信息的description之间的余弦相似度，获得相似度排名前k的历史信息(k>0，k为整数，k为用户输入)。

本发明方法所述步骤2)中对于名为m的API，其推荐分数Score1(m)的计算方法为：

公式：

其中，Count_m表示前k个相似历史信息中m出现的次数，k表示选择相似历史信息的数目。

本发明方法所述步骤3)中API同源影响分数Score2具体计算流程为：

(a)根据推荐分数Score1从大到小将API进行排序，标记其权重为n，n-1……(逐次减一)，n为API总个数。如果API对应的Score1相同则权重也标记相同。

(b)计算相同第三方库(即同源)的API权重之和，将得到的所有权重之和进行归一化，得到同源影响分数Score2。

相同第三方库(即同源)的API权重之和计算方法为：

公式：Sum_tt＝∑Weight_tt

其中，Sum_tt表示名为tt的第三方库中API权重之和，Weight_tt表示tt中每个API的权重

同源影响分数Score2计算方法为：

公式：

其中，Score2(m)表示名为m的API的同源影响分数Score2，Sum_libm中libm表示m所在的第三方库，Sum_libm表示该第三方库中API的权重之和，∑Sum_lib表示所有第三方库的总权重。

相对于现有技术，本发明具有如下优点，本发明结合历史信息对应方法推荐分析和同源API对推荐过程影响分析，具体优点如下：

(1)推荐过程更严谨合理，推荐结果更符合编程人员习惯。编程人员在使用API时习惯使用相同第三方库的API，因此在推荐过程中结合API同源相关性的影响进行API推荐，推荐结果更准确，也更利于编程人员使用API；

(2)提高开发和维护效率，因为同源API之间契合度高、兼容性好，所以基于同源相关性的API推荐方法，在开发过程中可以有效提高开发效率，更易于测试和维护；

(3)系统的安全性更高，同源API内聚度更高，而且可避免引入过多的第三方库，数据对象更多的在同源API中流动，信息泄露可能性降低，可提高系统安全性。

附图说明

图1是本发明方法的流程图。

具体实施方式：

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1，一种基于同源相关性的API推荐方法，所述方法包括以下步骤：

步骤1)获得相似历史信息：通过余弦相似度计算获得新需求和历史信息之间的相似度值，获取相似度排名前k的历史信息。新需求来自用户输入，用符号NewQ表示，NewQ中包含字段{new_description}，new_description代表新需求对应描述。历史信息库来自项目与事务跟踪工具，历史信息的集合{Q₁,Q₂,…,Q_m},Q_i中的字段为{description，methods},(1≤i≤m)。description代表历史信息对应描述，methods代表历史信息对应方法的集合。通过计算new_description和所有历史信息的description之间的余弦相似度，获得相似度排名前k的历史信息(k>0，k为整数，k为用户输入)。相似度计算如下，通过TF-IDF计算将新需求new_description和历史信息description转化成向量表示，即V_{new_description}(NewQ)，V_description(Qi)，然后计算两者的余弦相似度即Sim^HISTORY(NewQ,Qi)；

公式：Sim^HISTORY(NewQ,Qi)＝Cosine(V_{new_description}(NewQ),V_Description(Qi),)

步骤2)获得API推荐分数Score1：在排名前k的历史信息中，计算每个API的推荐分数Score1。对于名为m的API，其推荐分数Score1(m)的计算方法为：

公式：

步骤3)获得API同源影响分数Score2：根据步骤2)的推荐分数Score1对API进行排序，并标记每个API权重，根据API找到对应第三方库，计算同一第三方库(即同源)中API的总权重，通过归一化得到API同源影响分数Score2。API同源影响分数Score2具体计算流程为：

相同第三方库(即同源)的API权重之和计算方法为：

公式：Sum_tt＝∑Weight_tt

同源影响分数Score2计算方法为：

公式：

公式：Score＝Score1+Score2。

具体应用实施例：

为了方便描述，我们假定有如下简化的应用实例：新需求和历史信息如下所示：

新需求NewQ：

{description：KMS client/server should implement support forgenerating encrypted keys and decrypting them via the REST API beingintroduced by HADOOP-10719.}

历史信息库：

根据我们前面提到的推荐步骤，依次实施：

第一步，计算新需求和历史信息的余弦相似度，得到相似度排名前k的历史信息，本例中得到的排名前三的历史信息为：

第二步，获得API推荐分数Score1，API m的推荐分数Score1(m)的计算方法为：

公式：

按此方法计算得到的API对应Score1如表1。

表1.API及对应Score1值

API	Score1
		LogFactory.getLog	1
Response.ok	1
		Base64.encodeBase64String	0.67
Base64.decodeBase64	0.67
		Preconditions.checkArgument	0.67
FilterConfig.getServletContext	0.33
		Preconditions.checkNotNull	0.33
IOUtils.copy	0.33

第三步：获得API同源影响分数Score2。

首先，根据第二步的推荐分数Score1对API进行排序，标记其权重为n，n-1……逐次减一，n为API总个数。如果API对应的Score1相同则权重也标记相同，根据此方法得到的权重为：

表2.API及对应权重

API	权重
		LogFactory.getLog	8
Response.ok	8
		Base64.encodeBase64String	7
Base64.decodeBase64	7
		Preconditions.checkArgument	7
FilterConfig.getServletContext	6
		Preconditions.checkNotNull	6
IOUtils.copy	6

然后，根据API找到对应第三方库，计算相同第三方库中API的权重之和，将得到的所有权重之和进行归一化，得到同源影响分数Score2。

按照此方法得到相同第三方库中API的权重之和及归一化结果为：

表3.API、API权重及对应第三方库

第三方库	API	权重
			commons-logging	LogFactory.getLog	8
servlet-api	Response.ok	8
			commons-codec	Base64.encodeBase64String	7
commons-codec	Base64.decodeBase64	7
			guava	Preconditions.checkArgument	7
servlet-api	FilterConfig.getServletContext	6
			guava	Preconditions.checkNotNull	6
commons-io	IOUtils.copy	6

表4.第三方库及对应权重

第三方库	权重之和	归一化
			commons-logging	8	0.15
servlet-api	14	0.25
			commons-codec	14	0.25
guava	13	0.24
			commons-io	6	0.11

根据上述步骤得到同源影响大小Score2。按照此方法得到API对应分数Score2为：

表5.API及对应Score2值

第四步：根据第二步得到的推荐分数Score1和第三步得到的API同源影响分数Score2进行API推荐，推荐分数越高越优先推荐。

将Score1和Score2之和作为最后API的推荐分数Score。

公式：Score＝Score1+Score2

根据此方法得到API对应推荐分数Score为：

表6.API及对应推荐分数Score值

API	Score1	Score2	Score
				LogFactory.getLog	1	0.15	1.15
Response.ok	1	0.25	1.25
				Base64.encodeBase64String	0.67	0.25	0.92
Base64.decodeBase64	0.67	0.25	0.92
				Preconditions.checkArgument	0.67	0.24	0.91
FilterConfig.getServletContext	0.33	0.25	0.58
				Preconditions.checkNotNull	0.33	0.24	0.57
IOUtils.copy	0.33	0.11	0.44

按照此方法推荐的API序列为：

Response.ok

LogFactory.getLog

Base64.encodeBase64String

Base64.decodeBase64

Preconditions.checkArgument

FilterConfig.getServletContext

Preconditions.checkNotNull

IOUtils.copy

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种基于同源相关性的API推荐方法，其特征在于，所述方法包括以下步骤：

步骤1)获得相似历史信息，通过余弦相似度计算获得新需求和历史信息之间的相似度值，获取相似度排名前k的历史信息；

步骤2)获得API推荐分数Score1：在排名前k的历史信息中，提取历史信息中的API，根据API出现频率，计算每个API的推荐分数Score1；

步骤3)获得API同源影响分数Score2：根据步骤2)的推荐分数Score1对API进行排序，并标记每个API权重，根据API找到对应第三方库，计算同一第三方库(即同源)中API的总权重，通过归一化得到每个API的同源影响分数Score2；

步骤4)API推荐：将步骤2)得到的API的推荐分数Score1和步骤3)得到的API同源影响分数Score2进行求和得到API推荐分数Score；根据得到的推荐分数Score进行API推荐，推荐分数越高越优先推荐：

公式：Score＝Score1+Score2,

所述步骤1)中，新需求来自用户输入，用符号NewQ表示，NewQ中包含字段{new_description}，new_description代表新需求对应描述，历史信息库来自项目与事务跟踪工具，历史信息的集合{Q₁,Q₂,…,Q_m},Q_i中的字段为{description，methods},(1≤i≤m)，description代表历史信息对应描述，methods代表历史信息对应方法的集合，通过计算new_description和所有历史信息的description之间的余弦相似度，获得相似度排名前k的历史信息，其中，k>0，k为整数，k为用户输入；

所述步骤2)中对于名为m的API，其推荐分数Score1(m)的计算方法为：公式：

其中，Count_m表示前k个相似历史信息中m出现的次数，k表示选择相似历史信息的数目；

所述步骤3)中API同源影响分数Score2具体计算流程为：

(a)根据推荐分数Score1从大到小将API进行排序，标记其权重为n,n-1,……(逐次减一)，n为API总个数，如果API对应的Score1相同则权重也标记相同；

(b)计算相同第三方库(即同源)的API权重之和，将得到的所有权重之和进行归一化，得到同源影响分数Score2；

相同第三方库(即同源)的API权重之和计算方法为：

公式：Sum_tt＝∑Weight_tt

同源影响分数Score2计算方法为：

公式：