CN105913323A

CN105913323A - 一种GitHub开源社区的PullRequest评审者推荐方法

Info

Publication number: CN105913323A
Application number: CN201610299280.XA
Authority: CN
Inventors: 吴健; 应豪超; 熊郁文; 陈亮; 梁婷婷; 高维; 万瑶; 韩玉强; 王皓然; 邓水光; 李莹; 尹建伟; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-05-06
Filing date: 2016-05-06
Publication date: 2016-08-31

Abstract

本发明公开了一种GitHub开源社区的Pull Request评审者推荐方法，该方法通过衡量开发者的专业性和权威性自动地帮助管理者找到合适的评审者(专业性是指开发者对新提交PR内容的了解程度，权威性是指开发者相对于其他开发者的权威性)，推荐合适的评审者给新提交的PR，加速其评审过程，有效地提高对PR推荐评审者的性能，保证开源项目的迭代更新和功能扩展。

Description

一种GitHub开源社区的Pull Request评审者推荐方法

技术领域

本发明属于软件工程及数据挖掘技术领域，具体涉及一种GitHub开源社区的PullRequest评审者推荐方法。

背景技术

GitHub作为当今最大的代码托管的网上开源社区，为开发者提供了十分便捷的协同开发服务。与传统的诸如补丁提交、邮件列表等方式相比，GitHub支持的基于PullRequest(以下简称PR)的软件开发模式更具弹性和高效。据统计，在GitHub网站上有超过一半的协作项目都使用PR机制进行协同开发。在热度排名前90的流行项目中，几乎有45％提交的PR最终被合并到项目中。所以，在这些热门项目中，管理者每天会从外部开发者中国收到上十条递交的PR进行审阅。因此，PR已经成为一种主流的开发者提供代码贡献的方式，用来提高项目的质量和扩展性。

然而，在GitHub网站上只有核心开发者即管理员才能将审核通过的PR合并到项目中，同时任何的一位开发者在克隆项目后都可以创造新的PR提交代码表达改进项目的诉求。例如，在homebrew项目中，已经有超过12000条PR被提交。所以，正因为成千上万个开发者利用这种机制表达他们的意见，管理者承担了很大的压力来判断一条新的PR是否应该合并到项目中，特别是大型项目。

目前，解决上述问题有效地一种途径就是加速与项目迭代和质量密切相关的PR评审过程。不幸地是，评审者之间的讨论是耗时的以及在GitHub上评审者是人工分配的。据2014年Minig Software Repositories会议上公开的挑战数据统计发现，一条PR平均需要17天才能够关闭。更糟糕地是，一些相关的评审者并没有及时地关注感兴趣的PR。所以，及时地为每条新的PR推荐合适的评审者能够快速地收集到有用的评论，帮助管理者做决策。

然而，直接利用传统的推荐算法推荐合适的评审者并不合适。与传统的推荐场景相比，评审者推荐主要有两大特性：(1)数据极度稀疏性；据统计，95％的PR被少于4个评审者讨论。(2)信息缺失；PR的语义信息十分缺失，甚至有些时候是毫无意义。所以，单纯的利用PR语义信息进行推荐是十分不准确的。目前已经有一些技术为PR推荐合适的评审者。诸如，有学者通过构建评审者之间的评论网络进行推荐。然而，此类方法要么只考虑了评审者之间的关系导致推荐准确度并不高。

发明内容

针对现有技术所存在的上述技术问题，本发明提供了一种GitHub开源社区的PullRequest评审者推荐方法，其通过衡量开发者的专业性和权威性自动地帮助管理者找到合适的评审者，推荐合适的评审者给新提交的PR，加速其评审过程，有效地保证开源项目的迭代更新和功能扩展。

一种GitHub开源社区的Pull Request评审者推荐方法，包括如下步骤：

(1)从历史PR数据库中提取开发者对于PR的评论情况，根据共同评论过的PR个数构建开发者之间的社交网络，且定时更新该社交网络；

(2)对于新提交的PR，计算其与历史PR数据库中每个PR的语义相似度，进而在所述的社交网络中增加新提交的PR与各开发者之间的网络关系；

(3)根据所述的社交网络构建其对应的权重矩阵，并对该权重矩阵进行归一化处理；

(4)根据归一化后的权重矩阵利用具有重启概率的随机游走算法(Random Walkwith Restart，RWR)计算出新提交的PR到达每个开发者的跳转概率，并对跳转概率从高到低排序，进而选取跳转概率最高的前若干个开发者推荐给新提交的PR。

所述的社交网络包含m个开发者节点，m为开发者总数；任意两个开发者节点之间均存在连线，该连线的权值即为这两个开发者节点所对应的开发者共同评论过的PR个数。

所述的步骤(2)中计算新提交的PR与历史PR数据库中每个PR的语义相似度，具体过程如下：

2.1对于历史PR数据库中的任一PR，根据其标题和描述信息构建该PR的词向量；进而根据所有PR的词向量，构建t×d维的词矩阵A_t×d，d为词库中的总词量且为词向量的维度，t为历史PR数据库中的PR总数；

2.2根据以下公式对所述的词矩阵A_t×d进行奇异值分解：

A_{t \times d} = T_{t \times k} S_{k \times k} D_{d \times k}^{T}

其中：T_t×k为奇异值分解得到的t×k维的正交矩阵，D_d×k为奇异值分解得到的d×k维的正交矩阵，S_k×k为奇异值分解得到的k×k维的对角矩阵，^T表示转置，k为大于1且远小于d的自然数；

2.3从正交矩阵T_t×k中提取历史PR数据库中每个PR的低维词向量；然后根据步骤2.1构建新提交PR的词向量z_NPR，进而通过以下公式将其转换成对应的低维词向量

z_{N P R}^{^} = z_{N P R}^{T} T_{t \times k} S_{k \times k}^{- 1}

2.4对于历史PR数据库中的任一PR，通过以下公式计算其与新提交PR的语义相似度SIM(PR_i，NPR)：

S I M ({PR}_{i}, N P R) = \frac{z_{{PR}_{i}}^{^} z_{N P R}^{^}}{| | z_{{PR}_{i}}^{^} | | | | z_{N P R}^{^} | |}

其中：为历史PR数据库中第i个PR的低维词向量，i为自然数且1≤i≤t。

所述步骤2.1中构建PR的词向量的方法为：对于词库中的第p个词，若其在PR的标题和描述信息中出现过，则将该PR的词向量中第p个元素值置1，否则置0，p为自然数且1≤p≤d，依此遍历。

所述的步骤(2)中在社交网络中增加新提交的PR与各开发者之间的网络关系，具体方法如下：

首先，将新提交的PR在社交网络中映射成为一个PR节点，使该PR节点与每个开发者节点均连线；

然后，通过以下公式计算该PR节点与每个开发者节点连线的权值：

w (R_{x}, N P R) = \frac{Σ_{j = 1}^{m_{R_{x}}} n_{{PR}_{j}^{x}} S I M ({PR}_{j}^{x}, N P R)}{Σ_{j = 1}^{m_{R_{x}}} n_{{PR}_{j}^{x}}}

其中：为新提交的PR与第x个开发者所评论过PR中的第j个PR的语义相似度，为第x个开发者所评论过的PR总数，为第x个开发者参与其所评论过PR中的第j个PR的评论次数，w(R_x，NPR)为新提交PR的PR节点与第x个开发者所对应开发者节点连线的权值，j和x均为自然数且 1≤x≤m。

所述步骤(3)中的权重矩阵为m+1维的方阵，其中第x行第y列的元素值为社交网络中第x个开发者节点与第y个开发者节点的连线权值，x和y均为自然数且1≤x≤m，1≤y≤m；若x＝y，则对应的元素值为0；其中第m+1行第y列的元素值为社交网络中新提交PR的PR节点与第y个开发者节点的连线权值，第x行第m+1列的元素值为社交网络中新提交PR的PR节点与第x个开发者节点的连线权值，第m+1行第m+1列的元素值为0。

所述的步骤(4)中利用具有重启概率的随机游走算法基于以下迭代方程计算新提交的PR到达每个开发者的跳转概率：

{\overset{&RightArrow;}{p}}_{N P R} (n + 1) = (1 - λ) W^{'} {\overset{&RightArrow;}{p}}_{N P R} (n) + λ {\overset{&RightArrow;}{q}}_{N P R}

其中：和分别为第n次迭代和第n+1次迭代的概率向量，概率向量为m+1维向量且初始该向量中各元素值均为1/(m+1)；为m+1维向量且其中前m个元素值均为0，最后一个元素值为1；W′为归一化后的权重矩阵，λ比例系数，n为迭代次数；待迭代收敛或达到最大迭代次数时的概率向量中前m个元素值即对应新提交的PR到达各开发者的跳转概率。

本发明通过衡量开发者的专业性和权威性自动地帮助管理者找到合适的评审者(专业性是指开发者对新提交PR内容的了解程度，权威性是指开发者相对于其他开发者的权威性)，推荐合适的评审者给新提交的PR，加速其评审过程，有效地提高对PR推荐评审者的性能，保证开源项目的迭代更新和功能扩展。

附图说明

图1为本发明PR评审者推荐体系的架构示意图。

图2为本发明PR评审者推荐方法的流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明目的是为了推荐合适的评审者给新提交的PR，加速其评审过程，有效地保证开源项目的迭代更新和功能扩展，故本发明通过衡量开发者的专业性和权威性自动地帮助管理者找到合适的评审者。专业性是指开发者对新提交PR内容的了解程度，权威性是指开发者相对于其他开发者的权威性。

为了模型化开发者的专业性和权威性，本发明首先构造一张开发者和开发者、开发者和新提交PR的图，通过利用潜语义索引模型LSI计算新提交的PR和开发者历史参与的PR的文本相似度度量开发者的专业性。因为开发者之前评审过很多与新提交的PR很相似的PR，那么他对该领域更加了解。具体地，假设开发者r_i参与讨论过的PR集合为其中m_pri代表开发者r_i评论过的PR个数。那么，pr_i和新递交的PR(用iPR表示)的语义相似度就是开发者r_i与iPR的边的权重。权重具体计算方式如下：将每条PR的描述信息和标题视作一个文档，那么所有PR集合的文本信息可以看作一个词-文档矩阵A_t×d，然后用奇异值分解方法分解矩阵A_t×d：

A_{t \times d} = T_{k} S_{k} D_{k}^{T} - - - (1)

其中：k代表映射空间的维度即主题数，T_k，D_k是一个t×k和d×k的矩阵，分别代表潜语义空间的词向量和文档向量。在进行相似度计算之前，需要将新提交的iPR映射到k维潜语义空间中：然后利用余弦相似度计算和iPR的相似度：

s i m ({pr}_{i}^{j}, i P R) = \frac{t_{{pr}_{i}^{j}} \cdot t_{i P R}^{^}}{| t_{{pr}_{i}^{j}} | \times | t_{i P R}^{^} |} - - - (2)

其中：和分别代表和iPR的词向量。除了考虑PR之间的相似度之外，本发明还考虑了开发者对PR的讨论次数。因为开发者对某条PR讨论的次数越多，那么他对该PR所包含的主题更加感兴趣。最终，新提交iPR与开发者r_i的边权重W计算公式如下：

w_{r_{i}, i P R} = \frac{Σ_{j = 1}^{m_{{pr}_{i}}} n_{{pr}_{i}^{j}} s i m ({pr}_{i}^{j}, i P R)}{Σ_{j = 1}^{m_{{pr}_{i}}} n_{{pr}_{i}^{j}}} - - - (3)

其中：代表开发者r_i参与讨论的次数，m_pri代表开发者r_i参与讨论的PR总数。

除了要计算开发者和新提交的PR边的权重外，开发者和开发者之间边的权重w_ij有开发者r_i和r_j共同评论过的PR的个数决定。因为如果一个开发者与其他许多开发者产生过关系，那么他可以被认为是一位有经验的评审者。另外，如果边的权重越大，那么这两个开发者之间爱好的相似性也越高。

构建好开发者和开发者、开发者和新提交的PR图后，本发明利用具有重启概率的随机游走方法RWR(Random Walk with Restart)对开发者进行排序，从而在网络传播的过程中同时找到具备专业性和权威性的开发者作为评审者。为了计算开发者的得分用于排序，首先假设是n×1的起始向量，其中代表新提交PR的第i个元素等于1，代表开发者的其他值等于0；向量是n×1的排序向量，其中p_i，j代表从新提交PR到达开发者j的跳转概率。然后利用如下方式对边权重矩阵W进行行归一化：

整个PWR传播过程如下：假设有个从节点i开始的随机游走者，根据邻接矩阵W′的跳转概率，随机选择游走到下一个节点。除此之外，每一步他都有一定的概率λ跳转回起始节点i。那么，经过多步迭代后，可以得到一个稳定状态概率p_ij，代表每一个开发者相对于新提交PR的概率得分。整个过程可以用如下公式表示：

{\overset{&RightArrow;}{p}}_{i} = (1 - λ) W^{'} {\overset{&RightArrow;}{p}}_{i} + λ {\overset{&RightArrow;}{q}}_{i} - - - (5)

其中：λ∈(0，1)，平衡开发者专业性和权威性的比例。也就说，随着λ的增加，权威性占据着更大的重要性。通过迭代计算公式(5)，设置的阀值或者最大迭代次数，便能够计算出最终的p_ij，最后选取概率最高的前N个开发者作为评审者推荐给新提交的PR即可。

如图1所示，本实施方式涉及PR评审者推荐体系架构主要包括以下几个流程：

开发者提交新PR：开发者克隆项目到自己的仓库后，若发现项目有bug或者代码有提高的地方，可以向原项目仓库提交新的PR。

评审者推荐：是整个体系的重要组成部分。若开发者提交一个新PR后触发评审者推荐模块，通过读取历史PR数据库，构建网络图，然后通过随机游走算法向PR推荐具备专业性和权威性的开发者作为评审者；当开发者没有提交新PR时，评审者模块会定时更新数据库。

管理者管理PR：当评审者、其他感兴趣的开发者对新提交PR进行讨论后，管理者根据这些有用的评论信息进行决策：合并到项目中或者关闭拒绝。

下面结合图2对评审者推荐过程进行具体介绍：

①从历史PR数据库中提取开发者在PR下的评论情况，根据共同评论的PR个数构建开发者与开发者的社交网络；

②若系统在一定时间内没有接受到新提交PR，根据这段时间PR被评论的情况，定时更新数据库，并转到第①步；若系统在这段时间内接受到了新提交PR，则转到第③步；

③将新提交PR的标题、描述信息映射到向量空间中，根据公式(1)(2)计算其与历史PR的语义相似度；

④增加新提交PR与开发者的网络关系，根据公式(3)计算边权重；并将网络中所有的权重根据公式(4)进行行归一化；

⑤利用具重启概率的随机游走方法RWR对概率进行网络传播，对公式(5)进行迭代求解后，计算出游走者最终到达每个节点的概率；

⑥对概率进行从高到低的排序，选取对应的前几位开发者推荐给新提交的PR。

本发明通过结合开发者的专业性和权威性，能够有效地提高对PR推荐评审者的性能。表1呈现了与现有的推荐热门的评审者和构造评论网络推荐评审者两大技术相比，在准确率和召回率两个指标下，本发明在Github上的九大热门项目中推荐top1-5的开发者在绝大多数情况下效果最佳。

表1

Claims

1.一种GitHub开源社区的Pull Request评审者推荐方法，包括如下步骤：

(4)根据归一化后的权重矩阵利用具有重启概率的随机游走算法计算出新提交的PR到达每个开发者的跳转概率，并对跳转概率从高到低排序，进而选取跳转概率最高的前若干个开发者推荐给新提交的PR。

2.根据权利要求1所述的Pull Request评审者推荐方法，其特征在于：所述的社交网络包含m个开发者节点，m为开发者总数；任意两个开发者节点之间均存在连线，该连线的权值即为这两个开发者节点所对应的开发者共同评论过的PR个数。

3.根据权利要求1所述的Pull Request评审者推荐方法，其特征在于：所述的步骤(2)中计算新提交的PR与历史PR数据库中每个PR的语义相似度，具体过程如下：

2.2根据以下公式对所述的词矩阵A_t×d进行奇异值分解：

A_{t \times d} = T_{t \times k} S_{k \times k} D_{d \times k}^{T}

其中：T_t×k为奇异值分解得到的t×k维的正交矩阵，D_d×k为奇异值分解得到的d×k维的正交矩阵，S_k×k为奇异值分解得到的k×k维的对角矩阵，T表示转置，k为大于1且远小于d的自然数；

z_{N P R}^{^} = z_{N P R}^{T} T_{t \times k} S_{k \times k}^{- 1}

S I M ({PR}_{i}, N P R) = \frac{z_{{PR}_{i}}^{^} z_{N P R}^{^}}{| | z_{{PR}_{i}}^{^} | | | | z_{N P R}^{^} | |}

4.根据权利要求3所述的Pull Request评审者推荐方法，其特征在于：所述步骤2.1中构建PR的词向量的方法为：对于词库中的第p个词，若其在PR的标题和描述信息中出现过，则将该PR的词向量中第p个元素值置1，否则置0，p为自然数且1≤p≤d，依此遍历。

5.根据权利要求2所述的Pull Request评审者推荐方法，其特征在于：所述的步骤(2)中在社交网络中增加新提交的PR与各开发者之间的网络关系，具体方法如下：

w (R_{x}, N P R) = \frac{Σ_{j = 1}^{m_{R_{x}}} n_{{PR}_{j}^{x}} S I M ({PR}_{j}^{x}, N P R)}{Σ_{j = 1}^{m_{R_{x}}} n_{{PR}_{j}^{x}}}

6.根据权利要求2所述的Pull Request评审者推荐方法，其特征在于：所述步骤(3)中的权重矩阵为m+1维的方阵，其中第x行第y列的元素值为社交网络中第x个开发者节点与第y个开发者节点的连线权值，x和y均为自然数且1≤x≤m，1≤y≤m；若x＝y，则对应的元素值为0；其中第m+1行第y列的元素值为社交网络中新提交PR的PR节点与第y个开发者节点的连线权值，第x行第m+1列的元素值为社交网络中新提交PR的PR节点与第x个开发者节点的连线权值，第m+1行第m+1列的元素值为0。

7.根据权利要求2所述的Pull Request评审者推荐方法，其特征在于：所述的步骤(4)中利用具有重启概率的随机游走算法基于以下迭代方程计算新提交的PR到达每个开发者的跳转概率：

{\overset{&RightArrow;}{p}}_{N P R} (n + 1) = (1 - λ) W^{'} {\overset{&RightArrow;}{p}}_{N P R} (n) + λ {\overset{&RightArrow;}{q}}_{N P R}