CN103530428A

CN103530428A - 一种基于开发者实践技能相似性的同行推荐方法

Info

Publication number: CN103530428A
Application number: CN201310538491.0A
Authority: CN
Inventors: 李兵; 何鹏; 杨习辉; 汪文娟
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2013-11-04
Filing date: 2013-11-04
Publication date: 2014-01-22
Anticipated expiration: 2033-11-04
Also published as: CN103530428B

Abstract

本发明公开了一种基于开发者实践技能相似性的同行推荐方法，本发明通过结合Sourceforge.net社区开发者的实践技能相似性与共同开发者数，计算两个开发者之间的得分，并通过对实践技能与共同开发者数之间的比重系数，以及表示开发者实践技能的各属性的比重系数分配情况进行分析，最终确定为社区开发者提供潜在合作同行推荐的最佳方案。本方法具有如下优点：（1）没有局限于单个开源项目下开发者社区推荐，而是以整个社区为推荐对象(如sourceforge.net)，从一个更大的视角审视知识共享与群体智能优势；（2）不仅考虑了共同开发者数，还引入了开发者的实践技能相似性，确保在具有相同的共同开发者数情况下，实践技能越相似的开发者优先推荐。

Description

一种基于开发者实践技能相似性的同行推荐方法

技术领域

本发明属于群体软件工程领域，涉及一种基于开发者实践技能相似性的同行推荐方法，尤其涉及一种基于开发者实践技能相似性与共同开发者数的潜在合作同行推荐方法。

背景技术

信息推荐是一种支持在大量信息中为用户提供可供决策参考的有用信息。它根据用户的历史数据或用户的偏好向用户推荐可能感兴趣的人或物，已经被广泛应用于不同领域。常见的推荐系统例如Amazon、Netflix、淘宝、Movielens等。随着社交网络的流行，人-人推荐也备受关注。通过朋友推荐用户可以结识更多的新朋友，扩大自己的交际圈，如国内的微博、朋友网、人人网；国外的Facebook、MySpace、LinkedIn等。

电子商务推荐系统的目的是为用户推送最可能感兴趣的产品，而社交网络推荐系统主要是为用户推荐最可能发生交互的其他用户。各种推荐系统都有助于用户在缺乏经验或无法考虑周全手上所有数据的情况下获取所需信息，做出相应决策。人们在大量信息空间中导航所面临的挑战，在群体软件开发过程中同样存在，尤其是当前流行的开源社区，对于一个软件开发团队，领导者更希望知道“谁知道什么”，有利于他们寻找合适的团队成员。一个开发者遇到问题时，更想知道“谁能帮忙处理这个问题”。如果缺乏这些信息，开发者需要花费精力在大量的人员中进行查找，这无疑是软件工程实践中需要极力避免的情况。为协助开发者从代码重用到合作关系选择的各种行为，提出软件工程推荐系统（RecommendationSystems for Software Engineering，简称RSSE）。

开源社区（SourceForge.net）作为一类典型的在线虚拟群体开发社区，它是一个自组织的合作网络，有着成千上百万来自不同国家，不同文化与专业知识背景的开发者。开发者自愿加入社区与其他开发者建立互惠合作关系，不断地相互学习，共享知识，加强团队开发管理经验，提高自身的专业技能或丰富业余时间，且这些开源开发者在现实生活中往往很少能够面对面的交流。然而，据统计在SourceForge.net社区中，90%以上的项目只有不足5个开发者，其中很多项目因未能及时找到合适的开发人选而被延时或停滞；同时，95%以上的开发者也只参与了不超过5个项目，大量的人力处于空闲状态，整个社区开发者的合作关系表现为一个稀疏的网络。为此，我们提出一种为开发者推荐潜在合作对象的方法。

发明内容

本发明主要是针对各大开源社区（如SourceForge.net）中开发者合作稀疏性，开发者实践技能的表示，人力资源和项目资源的有效利用等问题，提出一种基于开发者实践技能相似性的同行推荐方法。

本发明所采用的技术方案是：一种基于开发者实践技能相似性的同行推荐方法，其特征在于，包括以下步骤：

步骤1：计算开发者间实践技能相似性，其具体实现包括以下子步骤，

步骤1.1：根据获得的社区数据，从中提取用于表示开发者实践技能的各种属性信息，将开发者实践技能Expertise表示为由开发者在项目中担任的角色AT_p、项目的状态AT_s、项目的主题AT_t、项目的开发语言AT_lan、项目的目标受众AT_ia和项目的认证AT_lic六个属性构成的向量，即Expertise=(AT_p,AT_s,AT_t,AT_lan,AT_ia,AT_lic)，其中每一个属性又表示为AT_i=(w_i1,w_i2,w_i3,...,w_in)，n为每个属性中所涉及的元素个数，w_ij为第i个属性的第j个元素的权值；

步骤1.2：采用文本挖掘方法中的TF-IDF公式，经对数变换处理得到一个开发者d在第i个属性的元素j上的权重w_dij与属性向量|AT|标准化的表达式为：

w_{dij} = (\log f_{dij} + 1) \log \frac{# devs}{# {dev}_{j}}

| AT | = \frac{1}{\sqrt{Σ_{j &Element; d_{i}} {((\log f_{dij} + 1) \cdot \log \frac{# devs}{# {dev}_{j}})}^{2}}}

对于开发者d，如果第i个属性的第j个元素在他参与的项目中出现的次数f_dij越多，且参与含有属性元素j的项目开发的开发者数#dev_j与总开发者数#devs的比值越小，则这个开发者在该属性元素上的实践技能越高；

步骤1.3：采用余弦相似性计算两个开发者A和B的实践技能相似性Sim(A,B)，两个开发者A和B在第i个属性上的实践技能相似性为：

\cos (A_{A T_{i}}, B_{{AT}_{i}}) = \frac{Σ_{j &Element; {AT}_{i} \cap {BT}_{i}} (\log f_{Aij} + 1) (\log f_{Bij} + 1) {(\log \frac{# devs}{# {dev}_{j}})}^{2}}{\sqrt{Σ_{j &Element; {AT}_{i}} {((\log f_{Aij} + 1) \cdot \log \frac{# devs}{# {dev}_{j}})}^{2}} \cdot \sqrt{Σ_{j &Element; {BT}_{i}} {((\log f_{Bij} + 1) \cdot \log \frac{# devs}{# {dev}_{j}})}^{2}}}

则，两个开发者A和B的实践技能相似性Sim(A,B)为：

Sim (A, B) = Σ_{i = 1}^{n} α_{i} \cos (A_{{AT}_{i}}, B_{{AT}_{i}}), n = 6

其中，α_i依次为六个属性对应的比重系数，且α_i满足∑α_i=1,(i=1,2,...6)；

步骤2：计算开发者间共同开发者数，其具体实现包括以下子步骤，

步骤2.1：根据开发者与项目的隶属关系，构建开发者-项目二分网络BDEV_Net=(N_d,N_p,E_dp),N_d表示开发者的节点集，N_p表示项目的节点集，E_dp为开发者与项目之间的隶属关系集；

步骤2.2：根据上述的BDEV_Net网络投影得到开发者合作网络DEV_Net=(N_d,E_d)，即

如果两个开发者参与了同一个项目的开发，则视为他们之间存在一条合作连边，N_d表示开发者的节点集，E_d为开发者合作连边集；

步骤2.3：基于开发者合作网络DEV_Net，网络中最短路径为2的两个开发者A,B之间存在共同的合作同行，路径条数便为开发者间共同开发者数CD_AB；

步骤2.4：为标准化开发者间共同开发者数的影响，采用平方根函数处理CD_AB，得到标准

化后的两个开发者A和B的共同开发者数：

F ({CD}_{AB}) = 1 - \frac{1}{\sqrt{{CD}_{AB} + 1}};

步骤3：开发者潜在合作同行推荐，其具体实现包括以下子步骤，

步骤3.1：给定任意一个开发者，结合该开发者与其他开发者的实践技能相似性与共同开发者数，计算开发者之间的得分Score(A,B)：

\begin{matrix} Score (A, B) = (1 - E_{ab}) (βSim (A,B) + (1 - β) F ({CD}_{AB})) \\ = (1 - E_{ab}) (β Σ_{i = 1}^{n} α_{i} \cos (A_{{AT}_{i}}, B_{{AT}_{i}}) + (1 - β) (1 - \frac{1}{\sqrt{{CD}_{AB} + 1}})) \end{matrix}

其中，β用来权衡实践技能相似性与共同开发者数的影响比重，β满足0≤β≤1；在开发者合作网络DEV_Net的E_d集中，若开发者A,B有合作，则E_ab=1，否则为E_ab=0；

步骤3.2：根据开发者间的得分情况，对潜在的合作同行按照得分降序排列，最后为开发者返回前10个最可能建立合作的同行；

步骤3.3：将推荐的结果与之后一年内开发者的实际合作情况进行对比，推荐的十个同行中，开发者只要与其中的任何一个建立了合作，则推荐成功，然后采用平均排序倒数MRR和平均准确率MAP进行评价推荐效果。

作为优选，步骤3.1所述的β用来权衡实践技能相似性与共同开发者数的影响比重，其具体实现包括以下子步骤：

步骤3.1.1：首先，设定属性的比重系数分布如下：

（1）比重系数平均分配，即α₁=α₂=α₃=α₄=α₅=α₆=16；

（2）比重系数非平均分配，设定主题的属性系数α₃=0.4其他5个属性的系数α₁=α₂=α₄=α₅=α₆=0.12；

（3）比重系数独立分配，设α_i=1,α_k≠i=0，即每次只考虑一个属性与共同开发者数的作用；

步骤3.1.2：对比三种情况下，β在[0,1]变化时推荐成功的开发者数与平均排序倒数MRR，平均准确率MAP精度；

步骤3.1.3：根据步骤C1.2得知项目主题比重系数α₃与目标受众比重系数α₅在β=0.2或0.3时，推荐效果最好，进一步分析当β=0.2或0.3时，两者比重系数在满足α₃+α₅=1的何种情况能使推荐效果最佳。

本发明通过结合Sourceforge.net社区开发者的实践技能相似性与共同开发者数，计算两个开发者之间的得分，并通过对实践技能与共同开发者数之间的比重系数，以及表示开发者实践技能的各属性的比重系数分配情况进行分析，最终确定为社区开发者提供潜在合作同行推荐的最佳方案。本方法具有如下优点：（1）没有局限于单个开源项目下开发者社区推荐，而是以整个社区为推荐对象(如sourceforge.net)，从一个更大的视角审视知识共享与群体智能优势；（2）不仅考虑了共同开发者数，还引入了开发者的实践技能相似性，确保在具有相同的共同开发者数情况下，实践技能越相似的开发者优先推荐。

附图说明

图1：是本发明实施例的数据表之间的关联关系。

图2：是本发明实施例中表示开发者实践技能的关系网络与开发者-项目二分网络及其对应的开发者合作网络示意图。

具体实施方式

以下结合实施例和附图对本发明做进一步的阐述。

实施例是基于Sourceforge.net，本实施例选取Sourceforge.ne上的开发者为研究对象，除了因为它是目前最大的开源软件开发社区，拥有大量的开源项目信息之外，还考虑了它的知名度和数据的易获取性。到2013年2月止已部署了40多万个开源项目和拥有上百万的开发者或用户。为便于开发者间的协调合作，社区为每个开源项目都提供了多种交互渠道，包括邮件列表、bug追踪库、SVN/CVS、论坛等。同时，每个项目在存储过程中都提供各种属性信息，因此满是本发明的研究需求。

选自以Sourceforge.net上至2007年4月份的开发者/项目数据为载体，可以根据开发者的需要提供潜在合作同行推荐。本实施例选取了所有属性中常接触的6个属性展开分析。具体实施时，可以通过开发专门的网络爬虫从网上收集开发者与项目的信息，也可以直接与FLOSSmole组织联系，从该组织提供的平台上下载相关信息，所有数据共涉及9张表包括：开发者表、项目表、5个项目属性表、开发者-项目表、以及项目在数据收集时前两个月的动态表，根据数据表之间的关联关系做相应的处理，尽量减少数据中的错误，并将存在信息缺少的开发者/项目过滤掉；另外，对于那些在数据收集时前两个月内没有变化的项目，被视为已停止开发，这类数据也被排除在外。

最终，满足要求的数据集中包含6171个开发者和3186个开源项目，其中有403个开发者在接下来的一年内与其他开发者建立了合作，对应的项目数为327个，开发者在项目中担任的角色有22种，项目的主题、项目的目标受众、项目的开发语言、项目的状态、项目的认证5个属性分别涉及217、19、61、7、37种。

本发明所采用的技术方案是：一种基于开发者实践技能相似性的同行推荐方法，包括以下步骤：

请见图1，在本实施例中，首先根据数据表之间的关联关系，从中提取表示开发者实践技能的各种属性信息，请见图2，开发者1（开发者代号）参与了两个项目，其中一个项目的主题-Site Management、目标受众-Developers、开发语言-JAVA、状态-pre-Alpha、认证-BSDLicense、角色-Developer；另一个项目的主题-Site Management、目标受众-Administrator、开发语言-PHP、状态-Alpha、认证-BSD License、角色-No specific role。因此，该开发者的实践技能可简单描述为Expertise₁=(Developer/No specific role,pre-Alpha/Alpha，SiteManagement，PHP/JAVA，Developers/Administrator，BSD License)，在表示开发者实践技能的每一个属性向量时，如果某一个属性的某个元素存在，则该属性向量上该元素对应的值为出现的次数，其他元素值为0，即Status=(0,0,0,...,f_dj,...,0)，开发者1适应的状态有两种，对应的状态向量

Status=(Planning,Pre-Alpha,Alpha,Beta,Stable,Mature,Inactive)=(0,1,1,0,0,0,0)；

w_{dij} = (\log f_{dij} + 1) \log \frac{# devs}{# {dev}_{j}}

| AT | = \frac{1}{\sqrt{Σ_{j &Element; d_{i}} {((\log f_{dij} + 1) \cdot \log \frac{# devs}{# {dev}_{j}})}^{2}}}

对于开发者1：

角色-Developer/No specific role，

w₁₁₁=(log1+1)*0.5793=0.5793,w₁₁₂=(log1+1)*0.3016=0.3016，

状态-pre-Alpha/Alpha，

w₁₂₂=(log1+1)*0.1248=0.1248,w₁₂₃=(log1+1)*0.1437=0.1437,

主题-Site Management，

w₁₃₄=(log2+1)*0.1433=0.1864；

开发语言-PHP/JAVA，

w₁₄₁=(log1+1)*0.4014=0.4014,w₁₄₂=(log1+1)*0.3591=0.3591

目标受众-Developers/Administrator，

w₁₅₁=(log1+1)*0.5599=0.5599，w₁₄₃=(log1+1)*0.2583=0.2583，

认证-BSD License，

w₁₆₃=(log1+1)*0.0890=0.0890，

其它位置上的权重均为0，因此AT_s=(0,0.1248,0.1437,0,0,0,0)，其他属性向量表示类似，这里不再给予列举；

步骤1.3：采用余弦相似性计算两个开发者A和B的实践技能相似性Sim(A,B)，由于开发者实践技能涉及6个属性，每个属性本身又是一个向量，以至在计算向量相似性时，需要先计算每个属性间的相似性，最后再综合六个属性的相似性，为了表示不同属性的重要性，给每个属性赋予一个比重系数，此时n=6；

两个开发者A和B在第i个属性上的实践技能相似性为：

\cos (A_{A T_{i}}, B_{{AT}_{i}}) = \frac{Σ_{j &Element; {AT}_{i} \cap {BT}_{i}} (\log f_{Aij} + 1) (\log f_{Bij} + 1) {(\log \frac{# devs}{# {dev}_{j}})}^{2}}{\sqrt{Σ_{j &Element; {AT}_{i}} {((\log f_{Aij} + 1) \cdot \log \frac{# devs}{# {dev}_{j}})}^{2}} \cdot \sqrt{Σ_{j &Element; {BT}_{i}} {((\log f_{Bij} + 1) \cdot \log \frac{# devs}{# {dev}_{j}})}^{2}}}

则，两个开发者A和B的实践技能相似性Sim(A,B)为：

Sim (A, B) = Σ_{i = 1}^{n} α_{i} \cos (A_{{AT}_{i}}, B_{{AT}_{i}}), n = 6

在给定的几种比重系数α_i分配情况下，每一个开发者根据与其他开发者的实践技能相似性，对其潜在的合作同行进行降序排序，请见图2，开发者1与开发者6之间的三种分配情况下的相似性：

(1) Sim (1,6) = Σ_{i = 1}^{6} α_{i} \cos (A_{A T_{i}}, B_{A T_{i}}) = \frac{1}{6} (0.8870 + 0 + 1 + 0.6667 + 0 + 0) = 0.4256

(2) Sim (1,6) = Σ_{i=1}^{6} α_{i} \cos (A_{A T_{i}}, B_{{AT}_{i}}) = {0.12}^{*} (0.8870 + 0 + 0.6667 + 0 + 0) + 0 . 4^{*} 1 = 0.5976

步骤2.1：请见图2，根据开发者与项目的隶属关系，构建开发者-项目二分网络BDEV_Net=(N_d,N_p,E_dp),N_d表示开发者的节点集，N_p表示项目的节点集，E_dp为开发者与项目之间的隶属关系集；整个二分网络中开发者节点数为6171，项目节点数为3184，是一个无向非加权的稀疏网络，且包含多个连通子图；

步骤2.2：根据上述的BDEV_Net网络投影得到开发者合作网络DEV_Net=(N_d,E_d)，即如果两个开发者参与了同一个项目的开发，则视为他们之间存在一条合作连边，N_d表示开发者的节点集，E_d为开发者合作连边集；请见图2，开发者1参与了项目p1，p2的开发，参与这两个项目开发的其他开发者有2、3、4、5，则在得到的开发者合作网络中，开发者1与其他四个开发者之间都有一条合作连边；整个网络也是一个无向非加权的稀疏网络，且包含多个连通子图；

步骤2.3：基于开发者合作网络DEV_Net，网络中最短路径为2的两个节点A,B之间存在共同的合作同行，路径条数便为开发者间共同开发者数CD_AB；请见图2，开发者对(1,6)、(2,3)、(2,4)、(4,5)、(5,6)之间都没有直接合作，他们之间的共同开发者数CD_AB依次为1、2、1、2、

1，因此，(2,3)与(4,5)之间建立合作的潜在性越大；

步骤2.4：为标准化开发者间共同开发者数的影响，采用平方根函数处理CD_AB，得到标准化后的两个开发者A和B的共同开发者数：

F ({CD}_{AB}) = 1 - \frac{1}{\sqrt{{CD}_{AB} + 1}};

经处理后开发者对(1,6)、(2,3)、(2,4)、(4,5)、(5,6)之间合作的可能性分别为：0.2929、0.4227、0.2929、0.4227、0.2929；

再以前面提到的403个开发者为计算对象，对他们可能合作的同行按共同开发者数降序排序。

\begin{matrix} Score (A, B) = (1 - E_{ab}) (βSim (A,B) + (1 - β) F ({CD}_{AB})) \\ = (1 - E_{ab}) (β Σ_{i = 1}^{n} α_{i} \cos (A_{{AT}_{i}}, B_{{AT}_{i}}) + (1 - β) (1 - \frac{1}{\sqrt{{CD}_{AB} + 1}})) \end{matrix}

其中，β用来权衡实践技能相似性与共同开发者数的影响比重，β满足0≤β≤1；在开发者合作网络DEV_Net的E_d集中，若开发者A，B有合作，则E_ab=1，否则为E_ab=0；所以，1-E_ab用于表示只保存未曾合作的开发者之间相似性；

β用来权衡实践技能相似性与共同开发者数的影响比重，其具体实现包括以下子步骤：

步骤3.1.1：首先，设定属性的比重系数分布如下：

（1）比重系数平均分配，即α₁=α₂=α₃=α₄=α₅=α₆=16，表示开发者实践技能的六个属性同等重要；

（2）比重系数非平均分配，设定主题的属性系数α₃=0.4其他5个属性的系数α₁=α₂=α₄=α₅=α₆=0.12；采用这种分配的主观原因是在sourceforge.net主页查找一个开源项目时，优先提供按主题搜索，其次通过高级设置可以实现其他几个属性的并行搜索，因此我们将主题的属性设置的更高，其他几个属性赋予相同的系数；

（3）比重系数独立分配，设α_i=1,α_k≠i=0，即每次只考虑一个属性与共同开发者数的作用，便于观察哪几个属性表现更明显，哪些属性表现不突出；

当β=0.2时，开发者1与6的得分：

（1）Score(1,6)=0.2*0.4256+0.8*0.2929=0.3194

（2）Score(1,6)=0.2*0.5796+0.8*0.2929=0.3538

(3) Score (1,6) = \{\begin{matrix} {0.2}^{*} 0.8870 + {0.8}^{*} 0.2929 = 0.4117 \\ {0.2}^{*} + {0.8}^{*} 0.2929 = 0.4343 \\ {0.2}^{*} 0.6667 + {0.8}^{*} 0.2929 = 0.3677 \\ {0.2}^{*} 0 + {0.8}^{*} 0.2929 = 0.2343 \end{matrix}

步骤3.1.2：以0.1为单位，调整β使其在[0,1]区间变化，对比三种情况下，β在[0,1]变化时推荐成功的开发者数与平均排序倒数MRR，平均准确率MAP精度；在这个过程中，涉及两个问题，（1）以只考虑共同开发者数为基线，对比引入开发者实践技能对推荐的影响，在测试的403个开发者中，存在16个开发者当只考虑共同开发者数时推荐的10个同行中，开发者只与其中不超过3个同行合作，但引入开发者实践技能后，16个开发者中有6个开发者与推荐的Top10个开发者均建立了合作；（2）对比独立分配下，六个属性当中哪些属性对推荐有正作用，哪些属性起负作用或不起作用，其中很明显项目主题比重系数α₃与目标受众比重系数α₅两个系数在β=0.2或0.3时推荐效果明显突然，推荐成功的开发者数与推荐精度都有较大的提高；

步骤3.1.3：根据步骤C1.2得知项目主题比重系数α₃与目标受众比重系数α₅在β=0.2或0.3时，推荐效果最好，在保持β=0.2与0.3时，两者比重系数在满足α₃+α₅=1的情况下，不断以0.1为单位调整两者的比例，统计每种情况，试图找到一个能使推荐效果最佳的分布，在α₃=0.8(0.4),α₅=0.2(0.6)时，能保证推荐成功的开发者数与推荐精度都最好；

步骤3.2：根据开发者间的得分情况，对潜在的合作同行按照得分降序排列，最后为开发者返回前10个最可能建立合作的同行；在实验之前，本实施例事先统计了合作网络中开发者的平均度为6.8，即开发者之间的平均合作同行数，为此，多种属性比重系数分配下，当β在[0,1]区间变化时，为每个测试开发者返回前10个最可能建立合作的同行；

步骤3.3：将推荐的前10个结果与推荐之后一年内开发者的实际合作情况进行对比，分别采用平均排序倒数(Mean Reciprocal Rank,MRR）和平均准确率(Mean Average Precision，MAP)计算开发者在推荐的10个同行中的推荐效果：

MRR = \frac{1}{Q} Σ_{i = 1}^{| Q |} \max (\frac{1}{{rank}_{ij}}), 1 \leq j \leq 10, MAP = \frac{1}{Q} Σ_{i = 1}^{| Q |} {AveP}_{i} = \frac{1}{Q} Σ_{i = 1}^{| Q |} \frac{Σ_{r = 1}^{N} (P (r) \times rel (r))}{m},

其中，MRR为首次被接纳的同行位置的倒数的平均值，rank_ij为被接纳的同行位置，Q为总查询次数，

为每个查询首次被接纳的开发者位置的倒数;MAP则为每个开发者推荐准确率的平均值的算术平均值，N=10为推荐的同行数，m为开发者i接纳的同行数，rel(r)表示处在r位置的同行是否被接纳，如果被接纳则为1，否则为0；P(r)为处在当前位置时的准确率，可采用公式

计算，r'表示到当前位置r为止，被接纳的同行数（r'≤r）。在评价过程中，同时统计推荐的前10个同行被开发者在每个位置接纳的情况。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于开发者实践技能相似性的同行推荐方法，其特征在于，包括以下步骤：

步骤1：计算开发者间的实践技能相似性，其具体实现包括以下子步骤，

w_{dij} = (\log f_{dij} + 1) \log \frac{# devs}{# {dev}_{j}}

| AT | = \frac{1}{\sqrt{Σ_{j &Element; d_{i}} {((\log f_{dij} + 1) \cdot \log \frac{# devs}{# {dev}_{j}})}^{2}}}

步骤1.3：采用余弦相似性计算两个开发者A和B的实践技能相似性Sim(A,B)，则开发者A和B在第i个属性上的实践技能相似性为：

\cos (A_{A T_{i}}, B_{{AT}_{i}}) = \frac{Σ_{j &Element; {AT}_{i} \cap {BT}_{i}} (\log f_{Aij} + 1) (\log f_{Bij} + 1) {(\log \frac{# devs}{# {dev}_{j}})}^{2}}{\sqrt{Σ_{j &Element; {AT}_{i}} {((\log f_{Aij} + 1) \cdot \log \frac{# devs}{# {dev}_{j}})}^{2}} \cdot \sqrt{Σ_{j &Element; {BT}_{i}} {((\log f_{Bij} + 1) \cdot \log \frac{# devs}{# {dev}_{j}})}^{2}}}

因此，两个开发者A和B的实践技能相似性Sim(A,B)为：

Sim (A, B) = Σ_{i = 1}^{n} α_{i} \cos (A_{{AT}_{i}}, B_{{AT}_{i}}), n = 6

步骤2.2：根据上述的BDEV_Net网络投影得到开发者合作网络DEV_Net=(N_d,E_d)，即如果两个开发者参与了同一个项目的开发，则视为他们之间存在一条合作连边，N_d表示开发者的节点集，E_d为开发者合作连边集；

F ({CD}_{AB}) = 1 - \frac{1}{\sqrt{{CD}_{AB} + 1}};

\begin{matrix} Score (A, B) = (1 - E_{ab}) (βSim (A,B) + (1 - β) F ({CD}_{AB})) \\ = (1 - E_{ab}) (β Σ_{i = 1}^{n} α_{i} \cos (A_{{AT}_{i}}, B_{{AT}_{i}}) + (1 - β) (1 - \frac{1}{\sqrt{{CD}_{AB} + 1}})) \end{matrix}

其中，β用来权衡实践技能相似性与共同开发者数的影响比重，β满足0≤β≤1；在开发者合作网络DEV_Net的E_d集中，若开发者A，B有合作，则E_ab=1，否则为E_ab=0；

2.根据权利要求1所述基于开发者实践技能相似性的同行推荐方法，其特征在于：步骤3.1所述的β用来权衡实践技能相似性与共同开发者数的影响比重，其具体实现包括以下子步骤：

步骤3.1.1：首先，设定属性的比重系数分布如下：

（1）比重系数平均分配，即α₁=α₂=α₃=α₄=α₅=α₆=16；

（2）比重系数非平均分配，设定主题的属性系数α₃=0.4，其他5个属性的系数α₁=α₂=α₄=α₅=α₆=0.12；