CN107808278B

CN107808278B - 一种基于稀疏自编码器的Github开源项目推荐方法

Info

Publication number: CN107808278B
Application number: CN201710940238.6A
Authority: CN
Inventors: 张鹏程; 熊芳; 张雷; 程坤; 周学武; 金惠颖; 贾旸旸; 赵齐
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2021-09-24
Anticipated expiration: 2037-10-11
Also published as: CN107808278A

Abstract

本发明公开了一种基于稀疏自编码器的Github开源项目推荐方法，分别从项目、用户、项目‑用户三个维度进行数据预处理，得到用户关联度矩阵、项目关联度矩阵、用户‑项目关联度矩阵；对文本信息进行提取，通过分析文本相似度对项目进行聚类。结合协同过滤模型和稀疏自编码器帮助开发者找到合适的开源项目。将数据预处理所得的三个矩阵作为输入，通过神经网络迭代学习，得到两个潜在因子向量，通过潜在因子向量的内积预测出用户‑项目关联度矩阵中的缺失项，根据开源项目的聚类信息，将同一类中分值较高的前N项进行推荐。推荐合适的项目给开发者，节省了开发者在海量开源项目中寻找自己感兴趣的项目的时间，有效地提高了开发者参与开源项目的性能。

Description

一种基于稀疏自编码器的Github开源项目推荐方法

技术领域

本发明涉及一种基于稀疏自编码器的Github开源项目推荐方法，属于软件工程推荐系统及数据挖掘技术领域。

背景技术

Github是当今最大的面向开源及私有软件项目的托管平台，开发者通过它实现了社交化编程。Githhub的开放性与灵活性，使得越来越来的软件开发爱好者加入到这个社区，形成了巨大的软件生产力。在Github开源社区中，开发者可以关注其他开发者，收藏或关注自己感兴趣的开源项目，并且可以克隆项目到本地进行修改和更新。使得在不同时间不同区域也能实现代码的协同合作。随着开源资源的不断增长，为软件开发带来了许多的可复用软件。但同时带来了信息过载问题。因此，如何使开发者兴趣偏好与开源项目技术需求相吻合，成为了涉及软件工程的推荐系统领域中的一个重要问题。

目前，解决上述问题的一种有效途径是量化开发者与开源项目之间的网络关联关系，通过开发者之间的相似度或开源项目之间的相似度进行top-N推荐。但是没有进一步挖掘开发者之间的社交关联，对开发者与开源项目关联的特征属性的考虑也相对单一，没有充分利用用户历史行为数据中有价值的特征。

同时，利用传统的推荐算法来为开发者推荐合适的开源项目并不合适。首先，Github中的数据极度稀疏，就开源项目而言，大部分的开源项目仅仅有个别的开发者参与其中，许多开源项目难以被开发者发现；就开发者而言，由于时间和精力的限制，开发者能参与的开源项目也就非常有限，开发者需要花费大量的时间和精力从海量的开源项目中找到自己感兴趣的项目。其次，Github中的评论及描述等语义信息没有明显的情感倾向，难以通过语义信息来确定用户偏好，所以，单纯地通过语义信息来为开发者推荐开源项目是不可取的。

因此，本发明考虑了用户关联度、项目关联度、用户-项目关联度三个维度的特征属性。结合协同过滤模型和稀疏自编码器(SAE)帮助开发者找到合适的开源项目，一方面对数据进行处理及筛选得到三个维度的矩阵(用户-项目关联度矩阵、用户关联度、项目关联度矩阵)；另一方面对文本信息进行提取，通过分析文本相似度对项目进行聚类。为了解决Github社区原始数据的稀疏性，本方法通过利用矩阵分解特性，构建了稀疏自动编码器对原始数据进行降维处理，降低原始数据稀疏性。通过梯度下降法对稀疏自编码器进行优化，得出最优的潜在因子特征向量，提高模型预测的准确率。通过神经网络不断的迭代学习，最后得到两个潜在因子向量，通过潜在因子向量的内积预测出用户-项目关联度矩阵中的缺失项，根据开源项目的聚类信息，将同一类中分值较高的前N项进行推荐。推荐合适的项目给开发者，节省了开发者在海量开源项目中寻找自己感兴趣的项目的时间，有效地提高了开发者参与开源项目的性能。

发明内容

发明目的：针对现有技术中存在的问题，为了提高开源项目推荐的准确率和召回率，考虑用户行为数据中的多维特征属性以及文本信息，提出了一种基于稀疏自编码器的Github开源项目推荐方法。

技术方案：一种基于稀疏自编码器的Github开源项目推荐方法，包括以下步骤：

步骤1：数据收集及数据预处理，构建用户关联度矩阵U、项目关联度矩阵I、用户-项目关联度矩阵R；

步骤2：根据开源项目描述信息，对项目进行聚类；

步骤3：建立基于稀疏自编码器的协同过滤模型；

步骤4：根据训练样本对稀疏自编码器进行训练，确定稀疏自编码器中的权重矩阵；

步骤5：利用稀疏自编码器，学习并提取潜在因子向量，预测矩阵R缺失值；为每一个用户生成推荐列表。

所述步骤1进一步为：

步骤1.1:从Github社交编程网站中首先整体获取该网站的用户历史行为数据，该数据包括针对开发者的关注(follow)信息、针对开源项目的语言类型(language)信息以及开发者对开源项目的关注(watch)、复刻(fork)、提交评论(pull-request comment)、问题评论(issue comment)信息。通过对数据进行分析得到，一些项目信息量较低，受众较少，推荐意义低，若不去除，还会影响模型的拟合速度。因此需要对数据集进行筛选，主要是去除无人涉及或者是较少涉及的项目，筛选标准为：

用户：关注(follow)过5-20个开发者；

项目：拥有3个关注(watch)，1个复刻(fork)；

通过分析和筛选，将分散的开发历史数据以开发者和开源项目为中心进行聚合。

步骤1.2:根据开发者对项目的watch、fork、pull-request comment、issuecomment等操作构建一个m×n用户-项目关联度矩阵作为主矩阵R。矩阵的行代表用户(开发者)，列代表项目，其中m代表开发者的个数，n代表项目的个数，第i行第j列的值r_ij代表开发者对项目的感兴趣程度。不同的用户行为代表着用户不同的偏好，将用户行为量化标准得到实际评分矩阵。量化标准为：o₁(watch)＝1、o₂(fork)＝2、o₃(pull-request comment)＝3、o₄(issue comment)＝4，函数即用户对项目的行为的评分之和，主矩阵R中各项的取值为r_ij＝∑o_i(i≤4)，即开发者对开源项目关注(watch)、复刻(fork)、提交评论(pull-requestcomment)、问题评论(issue comment)的行为所得到的评分之和。

步骤1.3:在社交网络中，通常认为相互关注的用户会具有相似的偏好，因此可以根据开发者的关注(follow)情况得到开发者与某一项目的间接关系，从而构建与步骤1.2得到的主矩阵对应的一个m×n用户关联度矩阵U。矩阵构建进一步为：若用户i与某个项目j存在着间接关系，则矩阵U中的第i行j列项的取值为U_i,j＝n(n∈Z)。

步骤1.4:同理，使用相同的编程语言的开发者存在着一定程度上的相同技术偏好，通过项目的编程语言(language)属性找到用户与这些项目编程语言相同的项目，从而构建一个与步骤1.2得到的主矩阵对应的一个m×n项目关联度矩阵I。矩阵构建进一步为：若用户i与项目j存在间接关系，则矩阵U中的第i行j列项的取值为U_i,j＝k(k∈Z)；合并矩阵U、I。

合并后的附加矩阵M计算公式为：

M_i,j＝η*U_i,j+Γ*I_ij(其中η、Γ∈(0,1))

U_i,j为矩阵U中第i行j列的值，I_i,j为矩阵I中第i行j列的值，η、Γ为权重参数。

所述步骤2主要是根据开源项目描述信息，对项目进行聚类，具体步骤如下：

步骤2.1：利用开源项目的描述信息，对于Github数据集中的描述信息来说，编程语言例如java、c++等的重要程度和信息量等高于其他词，需要使用TF-IDF将文本特征的重要程度量化，提取重要程度高的、信息量大的特征，这里重要程度高的、信息量大的词主要是指编程语言。

步骤2.2：利用word2vec将提取出来的特征表示成词向量的形式。

步骤2.3：计算词向量之间的余弦相似度，通过K-means算法对文本向量进行聚类。

余弦相似度计算公式为：

其中A、B为两个n维的词向量，n为词的长度，i为词的下标。

根据上述得到的矩阵，建立基于稀疏自编码器的协同过滤模型。所述步骤3进一步为：

建立三层结构的SAE神经网络，包括输入层、隐含层和输出层；所述的输入层的输入x_t包括用户关联度矩阵U、项目关联度矩阵I、用户-项目关联度矩阵R，将矩阵的一列或一行作为输入；所述隐含层的输出为h_t，输出层输出为y_t。

在模型中，用户-项目关联度矩阵为构建的用户-项目评分矩阵，当矩阵作为输入时，分值缺失项用0补全，即：

所述输入层的输入与隐含层的输出之间存在下列函数关系：

h_i＝s_f(Wx_i+p)

y_i＝s_g(Ph_i+q)

其中，x_i为输入层的输入，h_i为第i层的输出，y_i为输出层的输出，W为输入层到隐含层的权重矩阵，P为隐含层到下一个隐含层的权重矩阵，p、q为偏置项。

所述步骤4进一步为：

步骤4.1：随机初始化权重矩阵W、P，用反向传播算法BP训练权重矩阵和偏执项p、q；

步骤4.2：利用梯度下降法对反向传播算法BP训练权重矩阵和偏置值进行更新。检查参数的迭代次数是否达到上限，且目标函数的值是否不再减小(即收敛条件)，若均满足，则说明该稀疏自编码器的权重矩阵被确定；若不满足，则进入步骤4.3；

稀疏自编码添加了稀疏性惩罚项，所述目标函数为：

其中J(W,b)为损失函数，W为权重矩阵，b为偏置项；

为稀疏惩罚项，β为权重参数，s₂表示的是隐含层节点的个数，j表示第j个神经元，KL即KL离散(相对熵)，

代表实际激活度，ρ代表期望激活度。

步骤4.3：根据每一个用户的训练样本对稀疏自编码器进行训练。

通过对稀疏自编码器模型的训练，生成两个不同的潜在因子向量。通过计算预测出矩阵中缺失项的值，所述步骤5进一步为：

步骤5.1：稀疏编码器所生成的两个潜在因子向量u、v满足：

其中u_i为潜在因子矩阵u的第i行，v_i为潜在因子矩阵v的第j列，R_ij为用户-项目关联度矩阵R中开发者i对于项目j的值(R_ij≠0)，

新得到的开发者i对于项目j的预测值。

步骤5.2：利用生成的两个潜在因子向量的内积去拟合用户-项目关联度矩阵R中存在的值，直到值达到最优解。否则返回步骤4。

步骤5.3：根据步骤2所得到的聚类值，从同属一类的开源项目中进行top-N推荐。

有益效果：与现有的技术相比，本发明所提供的基于稀疏自编码器的Github开源项目推荐方法。根据Github开源社区上特有的开发者与开源项目特征属性，建立了涉及开发者、开源项目三个维度的特征矩阵，并利用文本信息将项目进行聚类，充分地考虑了用户历史行为数据。通过利用矩阵分解特性，构建了稀疏自动编码器对原始数据进行降维处理，降低原始数据稀疏性。通过梯度下降法对稀疏自编码器进行优化，得出最优的潜在因子特征向量，提高模型预测的准确率。节省了开发者在海量开源项目中寻找自己感兴趣的项目的时间，有效地提高了开发者参与开源项目的性能。

附图说明

图1为本发明提出的基于稀疏自编码器的Github开源项目推荐方法的原理图；

图2为稀疏自编码器SAE结构图；

图3为本发明提出的基于稀疏自编码器的Github开源项目推荐方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，一种基于稀疏自编码器的Github开源项目推荐方法，包括以下步骤：

步骤2：根据开源项目描述信息，对项目进行聚类；

步骤3：建立基于稀疏自编码器的协同过滤模型；

具体如图3所示，包括：

步骤101:从Github社交编程网站中首先整体获取该网站的用户历史行为数据，该数据包括针对开发者的关注(follow)信息、针对开源项目的语言类型(language)信息以及开发者对开源项目的关注(watch)、复刻(fork)、提交评论(pull-request comment)、问题评论(issue comment)信息。通过对数据进行分析得到，一些项目信息量较低，受众较少，推荐意义低，若不去除，还会影响模型的拟合速度。因此需要对数据集进行筛选，主要是去除无人涉及或者是较少涉及的项目，筛选标准为：

用户：关注(follow)过5-20个开发者；

项目：拥有3个关注(watch)，1个复刻(fork)；

步骤102:根据开发者对项目的watch、fork、pull-request comment、issuecomment等操作构建一个m×n用户-项目关联度矩阵作为主矩阵R。矩阵的行代表用户(开发者)，列代表项目，其中m代表开发者的个数，n代表项目的个数，第i行第j列的值r_ij代表开发者对项目的感兴趣程度。不同的用户行为代表着用户不同的偏好，将用户行为量化标准得到实际评分矩阵。量化标准为：o₁(watch)＝1、o₂(fork)＝2、o₃(pull-request comment)＝3、o₄(issue comment)＝4，函数即用户对项目的行为的评分之和，主矩阵R中各项的取值为r_ij＝∑o_i(i≤4)，即开发者对开源项目关注(watch)、复刻(fork)、提交评论(pull-requestcomment)、问题评论(issue comment)的行为所得到的评分之和。

步骤103:在社交网络中，通常认为相互关注的用户会具有相似的偏好，因此可以根据开发者的关注(follow)情况得到开发者与某一项目的间接关系，从而构建与步骤1.2得到的主矩阵对应的一个m×n用户关联度矩阵U。矩阵构建进一步为：若用户i与某个项目j存在着间接关系，则矩阵U中的第i行j列项的取值为U_i,j＝n(n∈Z)。

步骤104:同理，使用相同的编程语言的开发者存在着一定程度上的相同技术偏好，通过项目的编程语言(language)属性找到用户与这些项目编程语言相同的项目，从而构建一个与步骤1.2得到的主矩阵对应的一个m×n项目关联度矩阵I。矩阵构建进一步为：若用户i与项目j存在间接关系，则矩阵U中的第i行j列项的取值为U_i,j＝k(k∈Z)；合并矩阵U、I。

合并后的附加矩阵M计算公式为：

M_i,j＝η*U_i,j+Γ*I_ij(其中η、Γ∈(0,1))

步骤105：利用开源项目的描述信息，对于Github数据集中的描述信息来说，编程语言例如java、c++等的重要程度和信息量等高于其他词，需要使用TF-IDF将文本特征的重要程度量化，提取重要程度高的、信息量大的特征，这里重要程度高的、信息量大的词主要是指编程语言。

步骤106：利用word2vec将提取出来的特征表示成词向量的形式。

步骤107：计算词向量之间的余弦相似度，通过K-means算法对文本向量进行聚类。

余弦相似度计算公式为：

其中A、B为两个n维的词向量，n为词的长度，i为词的下标。

步骤108：建立三层结构的SAE神经网络，包括输入层、隐含层和输出层；所述的输入层的输入x_t包括用户关联度矩阵U、项目关联度矩阵I、用户-项目关联度矩阵R，将矩阵的一列或一行作为输入；所述隐含层的输出为h_t，输出层输出为y_t。

所述输入层的输入与隐含层的输出之间存在下列函数关系：

h_i＝s_f(Wx_i+p)

y_i＝s_g(Ph_i+q)

步骤109：随机初始化权重矩阵W、P，用反向传播算法BP训练权重矩阵和偏执项p、q；

步骤110：利用梯度下降法对反向传播算法BP训练权重矩阵和偏置值进行更新。检查参数的迭代次数是否达到上限，且目标函数的值是否不再减小(即收敛条件)，若均满足，则说明该稀疏自编码器的权重矩阵被确定；若不满足，则进入步骤111；

稀疏自编码添加了稀疏性惩罚项，所述目标函数为：

其中J(W,b)为损失函数，W为权重矩阵，b为偏置项；

代表实际激活度，ρ代表期望激活度。

步骤111：根据每一个用户的训练样本对稀疏自编码器进行训练。

步骤112：稀疏编码器所生成的两个潜在因子向量u、v满足：

新得到的开发者i对于项目j的预测值。

步骤113：利用生成的两个潜在因子向量的内积去拟合用户-项目关联度矩阵R中存在的值，直到值达到最优解。否则返回步骤109。

步骤114：根据步骤107所得到的聚类值，从同属一类的开源项目中进行top-N推荐。

Claims

1.一种基于稀疏自编码器的Github开源项目推荐方法，其特征在于，包括以下步骤：

步骤2：根据开源项目描述信息，对项目进行聚类；

步骤3：建立基于稀疏自编码器的协同过滤模型；

步骤5：利用稀疏自编码器，学习并提取潜在因子向量，预测关联度矩阵R缺失值；为每一个用户生成推荐列表；

所述步骤1进一步为：

步骤1.1:从Github社交编程网站中首先整体获取该网站的用户历史行为数据，将分散的开发历史数据以开发者和开源项目为中心进行聚合；

步骤1.2:根据开发者对项目的watch、fork、pull-request comment、issue comment操作构建一个m×n用户-项目关联度矩阵R作为主矩阵，其中m为用户数量，n为项目数量；

步骤1.3:根据开发者的follow情况计算开发者与其他开发者的相似度，构建与步骤1.2得到的主矩阵对应的一个m×n用户关联度矩阵U；

步骤1.4:根据每个开源项目都具有的language属性找到各项目之间的语义关系，构建一个与步骤1.2得到的主矩阵对应的一个m×n项目关联度矩阵I；合并矩阵U、I；

所述步骤3进一步为：

建立三层结构的SAE神经网络，包括输入层、隐含层和输出层；所述的输入层的输入x_t包括用户关联度矩阵U、项目关联度矩阵I、用户-项目关联度矩阵R，将矩阵的一列或一行作为输入；所述隐含层的输出为h_t，输出层输出为y_t；

所述步骤4进一步为：

步骤4.2：利用梯度下降法对反向传播算法BP训练权重矩阵和偏置值进行更新；检查参数的迭代次数是否达到上限，或目标函数的值是否不再减小，若均满足，则说明该稀疏自编码器的权重矩阵被确定；若不满足，则进入下一步骤；

步骤4.3：根据每一个用户的训练样本对稀疏自编码器进行训练；

所述步骤5进一步为：

步骤5.1：通过对稀疏自编码器模型的训练，生成两个不同的潜在因子向量，用户潜在因子向量和项目潜在因子向量；

步骤5.2：利用生成的两个潜在因子向量的内积去拟合用户-项目关联度矩阵R中存在的值，直到值达到最优解；否则返回步骤4；

2.如权利要求1所述的基于稀疏自编码器的Github开源项目推荐方法，其特征在于，所述步骤2进一步为：

步骤2.1：利用开源项目的描述信息，使用TF-IDF将文本特征的重要程度量化，提取重要程度高的、信息量大的特征；

步骤2.2：利用word2vec将提取出来的特征表示成词向量的形式；

步骤2.3：计算余弦相似度，通过K-means算法对文本向量进行聚类。