CN111523037A

CN111523037A - 一种开源软件开发中Pull Request的评审者推荐方法

Info

Publication number: CN111523037A
Application number: CN202010338549.7A
Authority: CN
Inventors: 赵海燕; 李敏
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-11
Anticipated expiration: 2040-04-26
Also published as: CN111523037B

Abstract

本发明涉及一种开源软件开发中Pull Request的评审者推荐方法，该推荐方法包括以下步骤：步骤1：提取计算Pull Request与评审者的相关性因素；步骤2：基于历史数据利用贝叶斯个性化排序模型优化确定每个评审者于步骤1中的各个相关性因素的权重；步骤3：对于当前Pull Request及每个评审者，利用各个相关性因素基于各自权重的得分进行加权，按照加权后的分数排序并进行推荐。该方法考虑了评审者与Pull Request内容的兴趣相关性、活跃度、社交关系影响程度及文件路径相关性四个方面的因素，通过贝叶斯个性化排序方法对四方面因素进行个性化加权，从而为Pull Request推荐合适的评审者。

Description

一种开源软件开发中Pull Request的评审者推荐方法

技术领域

本发明涉及计算机技术领域，尤其是涉及一种开源软件开发中Pull Request的评审者推荐方法。

背景技术

Pull Request是开源软件社区大部分开发者提供代码的主要方式，为了保证软件项目的质量，对Pull Request评审是开源软件开发中必不可少的一部分。在Pull Request评审中，自动推荐合适的代码评审人员，能够有效为代码评审降低成本和节约时间。

Pull Request的评审者推荐受到了广泛的关注。目前的方法以粗粒度的模式对代码评审人员进行推荐。例如，基于文件路径相似度、基于社交关系、基于信息检索及基于活跃度等进行评审者推荐。这些方法归根到底，是以不同方面的相似度作为推荐的最终条件，但并没有考虑到不同候选评审用户在选择Pull Request进行评审时有不同的选择偏好。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种开源软件开发中Pull Request的评审者推荐方法，在实际应用中，将相关因素与评审者本身的选择偏好相结合，有助于提高推荐效果，

本发明的目的可以通过以下技术方案来实现：

一种开源软件开发中Pull Request的评审者推荐方法，该推荐方法包括以下步骤：

步骤1：提取计算Pull Request与评审者的相关性因素；

步骤2：基于历史数据利用贝叶斯个性化排序模型优化确定每个评审者于步骤1中的各个相关性因素的权重；

步骤3：对于当前Pull Request及每个评审者，利用各个相关性因素基于各自权重的得分进行加权，按照加权后的分数排序并进行推荐。

进一步地，所述的步骤1包括以下分步骤：

步骤101：提取计算Pull Request的内容与评审者的兴趣相关性；

步骤102：提取计算评审者的当前活跃度；

步骤103：提取计算开发人员与Pull Request提交人员的社交相关性；

步骤104：提取计算当前Pull Request所涉及的文件路径与开发人员之前评审过的Pull Request的文件路径的相似性。

进一步地，所述的步骤101中的Pull Request的内容与评审者的兴趣相关性，其计算公式为：

式中，Sim_Cont(Reviewer_i,p_new)为Pull Request的内容与评审者的兴趣相关性，PR_i为第i个评审者Reviewer_i以前审核过的Pull Request集合，similarity(p_new,p')为开发人员之前评审过的Pull Request与目标Pull Request之间的相似性。

进一步地，所述的开发人员之前评审过的Pull Request与目标Pull Request之间的相似性，其计算公式为：

式中，v_new和v'分别为p_new和p'各自对应的向量，p_new和p'分别为目标Pull Request和历史记录中的Pull Request。

进一步地，所述的步骤102中的评审者的当前活跃度，其计算公式为：

式中，Act(Reviewer_i,p_new)为评审者的当前活跃度，ComS_i为第i个评审者Reviewer_i各个Pull Request中的所有评论集合，γ为时间窗口的长度，λ为时间衰减因子，

为新Pull Request的创建时间，

为第i个评审者Reviewer_i的某条评论C_j的创建时间。

进一步地，所述的步骤103中的开发人员与Pull Request提交人员的社交相关性，其计算公式为：

式中，PR_submitter为贡献者submitter提交且处于新Pull Request之前的所有PullRequest集合，n_ij为第i个评审者Reviewer_i在Pull Request p_j中留下的第n_ij条评论，β为调节参数，SocRel(Reviewer_i,p_new)为开发人员与Pull Request提交人员的社交相关性。

进一步地，所述的步骤104中的当前Pull Request所涉及的文件路径与开发人员之前评审过的Pull Request的文件路径的相似性，其计算公式为：

式中，F_p'为历史记录中的Pull Request更改的相关文件，

为目标PullRequest更改的相关文件，similarity(f,f')为历史记录中的Pull Request和目标PullRequest各自更改的相关文件之间相似度，FileRel(Reviewer_i,p_new)为当前Pull Request所涉及的文件路径与开发人员之前评审过的Pull Request的文件路径的相似性。

进一步地，所述的历史记录中的Pull Request和目标Pull Request各自更改的相关文件之间相似度，其计算公式为：

式中，commonPath(f,f')为两个文件路径中的公共目录的数量，max(Length(f),Length(f'))为两个文件的长度的最大值。

进一步地，所述的步骤2中利用贝叶斯个性化排序模型优化确定每个评审者于步骤1中的各个相关性因素的权重，该过程中对应的迭代求解的计算公式为：

式中，W'和W分别为迭代后和迭代前的用户的偏好用权重矩阵，α和λ为超参数，

和

分别为第u个用户Reviewer_u对第i或第j个Pull Request的评审倾向得分，W_u为偏好用权重矩阵第u列元素构成的列向量，

和

分别为第u个用户Reviewer_u与第i或第j个PullRequest之间的相关性用词向量的转置矩阵。

进一步地，所述的步骤3中的加权后的分数，即每个评审者对当前目标PullRequest的得分，其计算公式为：

式中，S_upred为每个评审者对当前目标Pull Request的得分，

为第u个用户Reviewer_u与第p个Pull Request之间的相关性用词向量的转置矩阵。

与现有技术相比，本发明具有以下优点：

(1)本发明方法作为一种基于贝叶斯个性化排序方法，对评审者与Pull Request内容的兴趣相关性、活跃度、社交关系影响程度及文件路径相关性四个方面的因素的权重进行学习，从而能够为每一个Pull Request推荐合适的评审人员，推荐更加精准。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

具体实施例；

(1)Pull Request与评审者的相关性因素度量

第一步，Pull Request的内容与评审者的兴趣相关性提取。将Pull Request历史数据作为输入，并提取出每个Pull Request的描述及标题并形成语料库，然后使用TF-IDF算法将Pull Request向量化处理，其中TF-IDF算法如下所示：

式中，t是某个Pull Request中抽取的技术术语，pr为某个Pull Request，corpus_PR是由历史数据的Pull Request的描述及标题形成的语料库，n_t为技术术语t在pr中出现的总次数，N_pr为技术术语在语料库中出现的总的次数。

利用余弦相似度衡量开发人员之前评审过的Pull Request与目标Pull Request之间的相似性公式如下所示：

式中，v_new和v分别为p_new和p各自对应的向量，p_new和p′分别为目标Pull Request和历史记录中的Pull Request。

则Pull Request的内容与评审者的兴趣相关性，其计算公式为：

第二步，评审者活跃度提取。据调查显示，候选评审者的积极性会随时间的变化而变化，某些代码评审者可能不活跃或短期时间内不活跃，最近活跃的代码评审者倾向于对新的Pull Request做出评论。本发明方法中使用最近的评论来衡量用户的活跃度，如下所示：

为新Pull Request的创建时间，

为第i个评审者Reviewer_i的某条评论C_j的创建时间。

第三步，社交关系影响程度的提取。通过社交关系可以快速获取具有参考价值的候选代码评审者。开发人员之间的社交关系紧密程度可直接通过评审者和贡献者之间的评论关系来体现，其社交关系影响程度如下所示：

式中，PR_submitter为贡献者submitter提交且处于新Pull Request之前的所有PullRequest集合，n_ij为第i个评审者Reviewer_i在Pull Request p_j中留下的第n_ij条评论，β为调节参数，经实验将值设置为0.8最为合适，SocRel(Reviewer_i,p_new)为开发人员与PullRequest提交人员的社交相关性。

第四步，Pull Request文件路径相关性。基于同一个目录下的文件密切相关且代码功能相关的思想，计算用户评审过的Pull Request与新Pull Request的文件路径相关性如下：

式中，F_p'为历史记录中的Pull Request更改的相关文件，

历史记录中的Pull Request和目标Pull Request各自更改的相关文件之间相似度，具体如下式所示：

式中，commonPath(f,f')为两个文件路径中的公共目录的数量，max(Length(f),Length(f'))为两个文件的长度的最大值，其中，两个文件路径中的公共目录的数量，具体计算方法如下：首先，根据文件路径，将路径字符串其目录分隔符进行切分，得到该文件所处位置的目录层次列表；然后比较两文件的目录前缀，取重合的公共目录数为得到的结果。例如，对于某安卓项目，有以下两个文件，分别为/src/camera/photo/a.java和/src/camera/video/a.java，则可得两者公共祖先目录为/src/camera文件夹，因而两路径的公共目录数量为2。

对于用户集U和Pull Request集PR，其中的第u个用户Reviewer_u与某一PullRequest p，将Reviewer_u与p之间的相关性用向量s_pu表示，由上文中的Pull Request的文本特征相似度、评审者活跃度、社交关系影响程度及文件路径相似性值组成，具体表达式如下所示：

(2)提取评审者的选择偏好

评审者选择偏好模型为：

式中，将用户的偏好用权重矩阵记作W，其维度为4×||U||，4代表评审者特征维数。W_u为偏好用权重矩阵第u列元素构成的列向量(u＝1,2,3,…,||U||)，表示Reviewer_u在本特征相似度、评审者活跃度、社交关系影响程度及文件路径相似性值四个维度上的权重，具体表示如下所示：

其中，代码评审者的偏好权重，属于评审者的自身属性，不会因Pull Request的更改发生相应的变化。

评审者的偏好信息可从评审者是否参与评审的行为直接体现。因此，在求解用户偏好向量前，需对评审者的行为进行记录，用来作为求解模型参数。具体记录方式为当评审者参与过目标Pull Request的评审，记为数字1，反之记为0，整个记录用矩阵A表示，该矩阵是一个||PR||×||U||的二维矩阵，其值由0、1组成。使用变量S代表评审者对不同Pull请求之间的关系矩阵，其维度为||PR||×||U||×4，具体表达式形式如下所示：

其中，各个元素代表Pull请求和用户Reviewer_u之间的特征向量，定义于s_pu。

是衡量代码评审者的得分排序矩阵，参与过评审的评审者得分越高，反之越低，具体形式表示如下：

其中，各个元素代表用户Reviewer_u对Pull请求的评审得分，其计算可以由下式定义：

针对某个特定的Pull Request，需满足评审者分数高于未评审者分数，这里借助贝叶斯个性化排序思想，从已记录的矩阵A中将评审者对Pull Request的评论进行标记，如果评审者Reviewer_u同时面对pr_i和pr_j时，评论了pr_i却没有评论pr_j，则记录一个三元组<u,i,j>,其含义针对评审者Reviewer_u来说，pr_i的排序要比pr_j靠前。如果针对评审者Reviewer_u，这样的反馈有m组，则可得到m组评审者Reviewer_u对应的训练样本。

基于最大后验估计P(w_u|>_u)，用>_u表示候选代码评审者Reviewer_u对应的所有PullRequest的全序关系，则优化目标是P((w_u|>_u)。根据贝叶斯公式可知如下公式：

由每个代码评审者的偏好行为相互独立，则对于任意一位代码评审者Reviewer_u来说，P(＞_u)对所有的Pull Request一样，则有如下公式：

P(w_u|＞_u)∝P(＞_u|w_u)P(w_u)

根据上式可将优化目标转化为两部分。第一部分和样本数据集D有关，第二部分和样本数据集D无关。针对第一部分，根据代码评审者的偏好行为相互独立及同一候选评审者对不同Pull Request的偏序相互独立，可推导如下公式：

其中δ(b)公式如下：

由排序关系满足的完整性和反对称性，将第一部分优化目标简化为：

为进一步优化计算，将优化目标转化为：

其中，σ(x)是逻辑回归函数，如果j＞_ui时，

反之i＞_uj时，

这里的

和

用来表示候选评审者Reviewer_u与pr_i与pr_j之间的潜在关系，即根据Reviewer_u对所有Pull Request评审情况，组建所有的偏序对。所以进一步将优化目标转化为：

基于贝叶斯假设，可知第二部分P(w_u)符合正态分布，其均值为0，协方差矩阵是λ_WS，

是模型中的正则化参数，如下所示：

P(w_u)～N(0，λ_WS)

P(w_u)的对数和||w_u||²成正比，如下所示：

lnP(w_u)＝λ||w_u||²

最终根据最大对数后验估计函数将优化目标成：

将优化目标函数推导之后，使用梯度上升法求解参数，对用户的偏好用权重矩阵求导：

由于

其中，

表示Reviewer_u针对Pull请求i评分,

表示Reviewer_u针对Pull请求j评分,w_u表示Reviewer_u的权重向量，s_iu表示Reviewer_u对Pull Request i之间的关系向量，s_ju表示Reviewer_u对Pull Request j之间的关系向量，可以得出：

在优化过程中，对偏好用权重矩阵进行随机初始化，并迭代更新模型参数，当偏好用权重矩阵达到收敛状态可得用户的偏好用权重矩阵W，由以上推导可得偏好用权重矩阵参数梯度迭代如下所示：

和

和

(3)对当前Pull Request，进行评审者推荐

从训练阶段可得评审者的偏好向量，针对模型预测阶段，本发明方法使用预测阶段的数据集作为模型的输入，从输入的数据集中提取出评审者与目标Pull Request之间的相似向量，则评审者对目标Pull Request的得分为：

式中，S_upred为每个评审者对当前目标Pull Request的得分，

通过对所有的评审者计算该得分，分数越高的评审者越适合作为被推荐人员，最终使用降序排序，取前K名作为推荐候选人选。

综上所述，本发明方法流程如图1所示，包括以下步骤：

步骤1：提取计算Pull Request与评审者的相关性因素；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种开源软件开发中Pull Request的评审者推荐方法，其特征在于，该推荐方法包括以下步骤：

步骤1：提取计算Pull Request与评审者的相关性因素；

2.根据权利要求1所述的一种开源软件开发中Pull Request的评审者推荐方法，其特征在于，所述的步骤1包括以下分步骤：

步骤101：提取计算Pull Request的内容与评审者的兴趣相关性；

步骤102：提取计算评审者的当前活跃度；

3.根据权利要求2所述的一种开源软件开发中Pull Request的评审者推荐方法，其特征在于，所述的步骤101中的Pull Request的内容与评审者的兴趣相关性，其计算公式为：

4.根据权利要求3所述的一种开源软件开发中Pull Request的评审者推荐方法，其特征在于，所述的开发人员之前评审过的Pull Request与目标Pull Request之间的相似性，其计算公式为：

5.根据权利要求2所述的一种开源软件开发中Pull Request的评审者推荐方法，其特征在于，所述的步骤102中的评审者的当前活跃度，其计算公式为：

为新Pull Request的创建时间，

为第i个评审者Reviewer_i的某条评论C_j的创建时间。

6.根据权利要求2所述的一种开源软件开发中Pull Request的评审者推荐方法，其特征在于，所述的步骤103中的开发人员与Pull Request提交人员的社交相关性，其计算公式为：

7.根据权利要求2所述的一种开源软件开发中Pull Request的评审者推荐方法，其特征在于，所述的步骤104中的当前Pull Request所涉及的文件路径与开发人员之前评审过的Pull Request的文件路径的相似性，其计算公式为：

式中，F_p'为历史记录中的Pull Request更改的相关文件，

为目标Pull Request更改的相关文件，similarity(f,f')为历史记录中的Pull Request和目标Pull Request各自更改的相关文件之间相似度，FileRel(Reviewer_i,p_new)为当前Pull Request所涉及的文件路径与开发人员之前评审过的Pull Request的文件路径的相似性。

8.根据权利要求7所述的一种开源软件开发中Pull Request的评审者推荐方法，其特征在于，所述的历史记录中的Pull Request和目标Pull Request各自更改的相关文件之间相似度，其计算公式为：

9.根据权利要求1所述的一种开源软件开发中Pull Request的评审者推荐方法，其特征在于，所述的步骤2中利用贝叶斯个性化排序模型优化确定每个评审者于步骤1中的各个相关性因素的权重，该过程中对应的迭代求解的计算公式为：

和

和

10.根据权利要求1所述的一种开源软件开发中Pull Request的评审者推荐方法，其特征在于，所述的步骤3中的加权后的分数，即每个评审者对当前目标Pull Request的得分，其计算公式为：

式中，S_upred为每个评审者对当前目标Pull Request的得分，