CN108717467A

CN108717467A - 一种基于主题关联关系分析的开源软件推荐方法

Info

Publication number: CN108717467A
Application number: CN201810580303.3A
Authority: CN
Inventors: 郑智文; 汪亮; 陶先平; 吕建
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-06-07
Filing date: 2018-06-07
Publication date: 2018-10-30
Anticipated expiration: 2038-06-07
Also published as: CN108717467B

Abstract

本发明提供了一种基于主题关联关系分析的开源软件推荐方法。所述基于主题关联关系分析的开源软件推荐方法包括以下步骤：对开源软件的主题提取步骤：使用LDA主题模型对开源软件的项目文档进行主题提取，并用提取得到的主题特征对开源软件进行刻画；对开源软件的关系建模步骤：使用概率矩阵分解方法计算任意两个开源软件之间的关系强度，并根据计算得到的关系强度来为某个特定的开源软件做出推荐。本发明的有益效果是：所述基于主题关联关系分析的开源软件推荐方法具有高效、实用、稳定的优点，可以帮助开发人员更好地实现代码复用、快速原型构建以及寻找替代实现等。

Description

一种基于主题关联关系分析的开源软件推荐方法

技术领域

本发明属于计算机科学技术领域，具体地涉及一种基于主题关联关系分析的开源软件推荐方法。

背景技术

随着互联网的出现和普及，开源社区也得到了极大的发展，人们围绕开源社区展开的一系列协作活动促进了开源软件的不断出现和迭代更新。开源软件的开放性和自由性，使得人们能够以较低的成本获得开源软件的源代码、得知技术细节以及学习领域知识等等。因此，在一个开源软件的开发过程中，人们通常会借助其它的一些开源软件，通过代码复用、功能添加、实现替代等操作，从而更好地对这个开源软件进行设计和开发。

在某个特定的开源软件的开发过程中，人们想要知道能够对开发过程产生帮助的开源软件具体有哪些开源软件。一个简单的方法是通过搜索，但是，想要从海量的开源软件中找到这些具体的开源软件是十分费时费力的。另外一种比搜索更好的方法是推荐，也就是为某个特定的开源软件推荐可能对其产生帮助的其它开源软件。因此，如何为某个特定的开源软件推荐可能对其产生帮助的其它开源软件也成为了一项有意义的研究工作。

发明内容

本发明的目的在于针对现有技术的缺陷或问题，提供一种基于主题关联关系分析的开源软件推荐方法。

本发明的技术方案如下：一种基于主题关联关系分析的开源软件推荐方法，其特征在于：包括以下步骤：对开源软件的主题提取步骤：使用LDA主题模型对开源软件的项目文档进行主题提取，并用提取得到的主题特征对开源软件进行刻画；对开源软件的关系建模步骤：使用概率矩阵分解方法计算任意两个开源软件之间的关系强度，并根据计算得到的关系强度来为某个特定的开源软件做出推荐。

优选地，具体包括如下步骤：

步骤1：从开源软件仓库获取需要的开源软件的数据，假设从开源软件仓库获取得到了N个开源软件的数据，这N个开源软件的集合用P表示，P＝{p₁,p₂,…,p_N}，其中，N为正整数，p_i表示获取得到的第i个开源软件；

步骤2：获取集合P中的开源软件p_i的项目文档，把集合P中所有的开源软件的项目文档组成一个语料库W；

步骤3：对由N个开源软件的项目文档组成的语料库W，使用LDA主题模型对其进行主题提取，假设LDA主题模型提取出k个主题，那么对P中的任意一个开源软件p_i，使用LDA主题模型提取得到的p_i的主题特征θ_i是一个长度为k的列向量，因此，P中N个开源软件的主题特征就构成一个k行N列的主题矩阵Θ；

步骤4：对P中的每个开源软件p_i，获取p_i的项目持有者提供的主题列表，如果p_i的项目持有者没有提供主题列表，则为p_i设置一个空的主题列表，p_i的主题列表用t_i表示，把P中所有的开源软件的主题列表组成一个集合T；

步骤5：对由N个开源软件的主题列表组成的集合T，对T中任意两个主题列表t_i和t_j，t_i是开源软件p_i的主题列表，t_j是开源软件p_j的主题列表，p_i和p_j之间的关系强度r_ij等于t_i和t_j的交集大小比上t_i和t_j的并集大小；计算得到P中每一对开源软件之间的关系强度之后，把得到的关系强度组成一个N行N列的观测矩阵O，O中第i行第j列的元素表示开源软件p_i和p_j之间的关系强度的观测值；

步骤6：把由LDA主题模型提取得到的主题特征组成的主题矩阵Θ和由开源软件持有者提供的主题列表计算得到的观测矩阵O输入给关系模型，则关系模型输出一个N行N列的近似矩阵E，E中第i行第j列的元素表示开源软件p_i和p_j之间的关系强度的预测值；

步骤7：对于P中任意两个开源软件p_i和p_j，如果p_i和p_j的持有者都提供了主题列表，则p_i和p_j之间的关系强度用观测值表示；如果p_i和p_j中至少有一个持有者未提供主题列表，则p_i和p_j之间的关系强度用预测值表示；

步骤8：对P中任意一个开源软件p_i，按照p_i与其它N-1个开源软件之间的关系强度为p_i做出推荐。

优选地，所述的步骤1的具体包括如下步骤：

步骤1.1：从开源软件仓库获取需要的开源软件的数据，获取得到的每个开源软件的数据都必须包括项目文档，如果开源软件的项目持有者提供了主题列表，那么也应该获取项目持有者提供的主题列表的数据信息；

步骤1.2：对获取得到的每个开源软件的项目文档进行过滤和合并，如果开源软件没有用英文书写的项目文档，则不考虑所述开源软件；如果开源软件有多份文档，则把这些文档合并成一份文档作为相应的开源软件的项目文档；

步骤1.3：如果开源软件的项目持有者提供了一个主题列表，则获取所述的开源软件的主题列表；如果开源软件的项目持有者没有提供主题列表，则为所述开源软件设置一个空的主题列表。

优选地，所述的步骤2的具体包括如下步骤：

步骤2.1：对P中的每个开源软件p_i，获取p_i的项目文档，这个项目文档必须是用英文书写的；

步骤2.2：对P中的每个开源软件p_i，排除p_i的项目文档中常见的停词以及与软件功能无关的描述文本，其中，停词包括介词、冠词、代词等，与软件功能无关的描述文本包括软件安装指导、使用样例、致谢和许可证信息等；

步骤2.3：把P中所有的开源软件的项目文档组成一个语料库W，所述语料库W包括N个开源软件的项目文档，所述语料库W中第i份项目文档所属的开源软件是p_i。

优选地，所述的步骤3的具体包括如下步骤：

步骤3.1：对由N个开源软件的项目文档组成的语料库W，使用LDA主题模型对其进行主题提取；

步骤3.2：把语料库W输入给LDA主题模型，LDA主题模型会把语料库W转换成单词集合，并会记录每份文档中出现的单词及所述单词的出现次数；

步骤3.3：设置LDA主题模型需要提取的主题数目k，所述主题数目k表示每份文档中最多只能含有k个主题；

步骤3.4：LDA主题模型输出每个主题的单词分布以及每篇文档的主题分布，LDA得到的主题用单词的概率分布表示，所述单词的概率分布中每个单词对应的分布概率表示所述单词出现在主题中的概率；每篇文档用主题的概率分布表示，所述主题的概率分布中每个主题对应的分布概率表示所述主题出现在文档中的概率；

步骤3.5：LDA提取得到的每篇文档的主题分布为所述文档所属的开源软件的主题特征，所述主题特征是一个长度为k的列向量，列向量中的第i个元素表示第i个主题出现在所述文档中的概率，也就是开源软件包含的第i个主题的概率；把P中所有的开源软件的主题特征组成一个主题矩阵Θ，Θ是k行N列的矩阵，Θ的第i列是开源软件p_i的主题特征θ_i，其中，k、i均为正整数。

优选地，所述的步骤4的具体包括如下步骤：

步骤4.1：对P中的每个开源软件p_i，如果p_i的项目持有者提供了主题列表，则获取所述主题列表；如果p_i的项目持有者没有提供主题列表，则为p_i设置一个空的主题列表；

步骤4.2：把P中所有开源软件的主题列表组成一个集合T，T中包含N个开源软件的主题列表，主题列表是项目持有者提供的主题列表或空的主题列表。

优选地，所述的步骤5的具体包括如下步骤：

步骤5.1：对由N个开源软件的主题列表组成的集合T，对T中任意两个主题列表t_i和t_j，t_i是开源软件p_i的主题列表，t_j是开源软件p_j的主题列表；

步骤5.2：如果t_i和t_j都是项目持有者提供的主题列表，则p_i和p_j之间的关系强度是已知的，并且关系强度的观测值r_ij等于t_i和t_j的交集大小比上t_i和t_j的并集大小，即r_ij＝(t_i∩t_j)/(t_i∪t_j)；

步骤5.3：如果t_i和t_j中至少有一个是空的主题列表，则p_i和p_j之间的关系强度是未知的，需要经过关系建模对其进行预测，在预测前则把p_i和p_j之间的关系强度的观测值预设为0；

步骤5.4：计算得到P中每一对开源软件之间关系强度的观测值之后，把得到的关系强度的观测值组成一个观测矩阵O，观测矩阵O是一个N行N列的矩阵，O中第i行第j列的元素表示开源软件p_i和p_j之间的关系强度的观测值，所有关系强度的取值都在闭区间0到1中，观测矩阵O是一个对称矩阵，并且对角线上的元素全为1。

优选地，所述的步骤6的具体包括如下步骤：

步骤6.1：利用开源软件的主题特征和开源软件之间已知的关系强度对开源软件之间未知的关系强度进行预测，其中，开源软件的主题特征是步骤3得到的主题矩阵Θ，开源软件之间已知和未知的关系强度都包含在步骤5中得到的观测矩阵O中；

步骤6.2：把主题矩阵Θ和观测矩阵O输入给关系模型，这个关系模型使用概率矩阵分解方法把观测矩阵O分解成两个隐含矩阵U和V，并用主题矩阵Θ对隐含矩阵U和V进行训练，矩阵U和V的内积得到近似矩阵E，当近似矩阵收敛到某个阈值时，训练停止，此时关系模型输出最终得到的近似矩阵E；

步骤6.3：得到的近似矩阵E是一个N行N列的矩阵，矩阵E中的第i行第j列的元素是开源软件p_i和p_j之间关系强度的预测值。

优选地，所述的步骤7的具体包括如下步骤：

步骤7.1：对于P中任意两个开源软件p_i和p_j，p_i和p_j之间的关系强度有观测值和预测值两个数值，其中，观测值是观测矩阵O中第i行第j列的元素，预测值是近似矩阵E中第i行第j列的元素；

步骤7.2：如果p_i和p_j之间的关系强度是通过观测得到的，则用观测矩阵O中第i行第j列的数值表示开源软件p_i和p_j之间的关系强度；

步骤7.3：如果p_i和p_j之间的关系强度是通过预测得到的，则用近似矩阵E中第i行第j列的数值表示开源软件p_i和p_j之间的关系强度。

优选地，所述的步骤8的具体包括如下步骤：

步骤8.1：对P中任意一个开源软件p_i，p_i与其它N-1个开源软件之间的关系强度分别是r_i1,…,r_ii-1,r_ii+1,…,r_iN；

步骤8.2：从r_i1,…,r_ii-1,r_ii+1,…,r_iN中选出最大的m个关系强度，找到这些关系强度对应的开源软件，把这些开源软件推荐给pi，其中，m的数值根据不同需求进行设定。

本发明提供的技术方案具有如下有益效果：

所述基于主题关联关系分析的开源软件推荐方法包括对开源软件的主题提取和对开源软件的关系建模两部分。其中，对开源软件的主题提取使用LDA主题模型对开源软件的项目文档进行主题提取，并用提取得到的主题特征对开源软件进行刻画；对开源软件的关系建模使用概率矩阵分解方法计算任意两个开源软件之间的关系强度，并根据计算得到的关系强度来为某个特定的开源软件做出推荐。本发明具有高效、实用、稳定的优点，可以帮助开发人员更好地实现代码复用、快速原型构建以及寻找替代实现等等。

附图说明

图1为本发明实施例提供的基于主题关联关系分析的开源软件推荐方法的工作原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

如图1所示，本发明的一种基于主题关联关系分析的开源软件推荐方法包括对开源软件的主题提取步骤和对开源软件的关系建模步骤。

其中，在对开源软件的主题提取步骤中，使用LDA主题模型对开源软件的项目文档进行主题提取，并用提取得到的主题特征对开源软件进行刻画。在对开源软件的关系建模步骤中，使用概率矩阵分解方法计算任意两个开源软件之间的关系强度，即用开源软件之间已知的关系强度和LDA主题模型提取得到的开源软件的主题特征对开源软件之间未知的关系强度进行预测，并根据计算得到的关系强度来为某个特定的开源软件做出推荐。

需要说明的是，本发明的硬件环境包括：能够正常接入广域网的路由器或交换机，以及能够正常使用的计算机。软件环境包括：JDK1.8和JRE。

具体地，本发明实施例提供的基于主题关联关系分析的开源软件推荐方法包括如下步骤：

步骤1：从开源软件仓库(如GitHub、SourceForge等)获取需要的开源软件的数据，假设从GitHub获取得到了N个开源软件的数据，这N个开源软件的集合用P表示，P＝{p₁,p₂,…,p_N}，其中，p_i表示获取得到的第i个开源软件；

步骤7：对于P中任意两个开源软件p_i和p_j，如果p_i和p_j的持有者都提供了主题列表，则p_i和p_j之间的关系强度用观测值表示；如果p_i和p_j中至少有一个没有项目持有者提供的主题列表，则p_i和p_j之间的关系强度用预测值表示；

步骤8：对P中任意一个开源软件p_i，按照p_i与其它N-1个开源软件之间的关系强度为p_i做出推荐，具体操作是把与p_i关系强度最大的前m个不同于p_i的开源软件推荐给p_i，m的值通常是1、3、5、10等等。

也就是说，在应用本发明所公开的基于主题关联关系分析的开源软件推荐方法时，首先，每个开源软件都必须至少有一份英文书写的项目文档，并且这份项目文档中包含对软件功能的描述文本。然后，使用LDA主题模型对开源软件的项目文档进行主题提取，提取得到的主题特征会被用于对相应的开源软件进行刻画。接着，对所有具有项目持有者提供的主题列表的开源软件，计算得到开源软件之间已知的关系强度。最后，使用概率矩阵分解方法，用开源软件之间已知的关系强度和LDA主题模型提取得到的开源软件的主题特征对开源软件之间未知的关系强度进行预测，并用计算得到的关系强度为某个特定的开源软件做出推荐。

其中，所述的步骤1的具体包括如下步骤：

步骤1.3：如果开源软件的项目持有者提供一个主题列表，则使用项目持有者提供的主题列表展示相应的开源软件；如果开源软件的项目持有者没有提供主题列表，则为所述开源软件设置一个空的主题列表。

所述的步骤2的具体包括如下步骤：

所述的步骤3的具体包括如下步骤：

所述的步骤4的具体包括如下步骤：

步骤4.1：对P中的每个开源软件p_i，如果p_i的项目持有者提供主题列表，则获取所述主题列表；如果p_i的项目持有者没有提供主题列表，则为p_i设置一个空的主题列表；

所述的步骤5的具体包括如下步骤：

所述的步骤6的具体包括如下步骤：

步骤6.2：把主题矩阵Θ和观测矩阵O输入给关系模型，这个关系模型为使用概率矩阵分解方法把观测矩阵O分解成两个隐含矩阵U和V，并用主题矩阵Θ对隐含矩阵U和V进行训练，矩阵U和V的内积得到近似矩阵E，当近似矩阵收敛到某个阈值时，训练停止，此时关系模型输出最终得到的近似矩阵E；

所述的步骤7的具体包括如下步骤：

所述的步骤8的具体包括如下步骤：

本发明的一个典型应用场景是为某个特定的开源软件寻找更优的替代实现。例如：对于某个依赖于深度学习方法库的开源应用软件，可以以每天、每周、每月的频率为这个应用软件推荐新的深度学习方法库，如果推荐的某个新的深度学习方法库比当前使用的深度学习方法库具有更多的方法或者更优的性能，那么就可以把这个新的深度学习方法库作为依赖导入到这个应用软件中，而去除或者保留原来的深度学习方法库。基于主题相关程度为开源软件做出推荐，能够在软件开发过程中更好的实现代码复用、功能添加、实现优化等操作，从而为开源软件的开发过程提供帮助。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于主题关联关系分析的开源软件推荐方法，其特征在于：包括以下步骤：

对开源软件的主题提取步骤：使用LDA主题模型对开源软件的项目文档进行主题提取，并用提取得到的主题特征对开源软件进行刻画；

对开源软件的关系建模步骤：使用概率矩阵分解方法计算任意两个开源软件之间的关系强度，并根据计算得到的关系强度来为某个特定的开源软件做出推荐。

2.根据权利要求1所述的一种基于主题关联关系分析的开源软件推荐方法，其特征在于，具体包括如下步骤：

3.根据权利要求2所述的一种基于主题关联关系分析的开源软件推荐方法，其特征在于，所述的步骤1的具体包括如下步骤：

4.根据权利要求2所述的一种基于主题关联关系分析的开源软件推荐方法，其特征在于，所述的步骤2的具体包括如下步骤：

5.根据权利要求2所述的一种基于主题关联关系分析的开源软件推荐方法，其特征在于，所述的步骤3的具体包括如下步骤：

6.根据权利要求2所述的一种基于主题关联关系分析的开源软件推荐方法，其特征在于，所述的步骤4的具体包括如下步骤：

7.根据权利要求2所述的一种基于主题关联关系分析的开源软件推荐方法，其特征在于，所述的步骤5的具体包括如下步骤：

8.根据权利要求2所述的一种基于主题关联关系分析的开源软件推荐方法，其特征在于，所述的步骤6的具体包括如下步骤：

9.根据权利要求2所述的一种基于主题关联关系分析的开源软件推荐方法，其特征在于，所述的步骤7的具体包括如下步骤：

10.根据权利要求2所述的一种基于主题关联关系分析的开源软件推荐方法，其特征在于，所述的步骤8的具体包括如下步骤：