CN107767058B

CN107767058B - 一种众包软件开发者推荐方法

Info

Publication number: CN107767058B
Application number: CN201711013436.4A
Authority: CN
Inventors: 孙海龙; 王旭; 符阳; 夏正林
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2021-03-19
Anticipated expiration: 2037-10-26
Also published as: CN107767058A

Abstract

本发明的一种众包软件开发者推荐方法。首先，该算法对数据集进行预处理，选取信息较为完善的任务，并进一步提取选取的任务特征信息(如任务开发时间、报酬、需求描述、所需技能、发布时间、发布平台等)构造任务的特征向量；然后对任务进行聚类，将相似的任务聚集一起；然后，对于新的众包任务同样提取任务的特征，并得出与之相似的聚类任务，进一步在相似的任务间通过机器学习分类算法将获胜率高的开发者作为初步推荐的开发者候选集；最后，在开发者候选集中计算开发者的可靠性，并剔除部分可靠性低的开发者，根据开发者参与历史任务情况分析开发者之间的关联关系，建立开发者竞争网络。

Description

一种众包软件开发者推荐方法

技术领域

本发明涉及一种系统推荐方法，尤其涉及一种众包软件开发者推荐方法。

背景技术

众包这种创新模式被广泛应用于传统的各个行业,软件开发也毫不例外。众包与软件工程的结合给传统的软件开发带来新的机遇，越来越多的软件开发任务在众包平台发布、完成。众包软件开发是把企业内部由员工执行的开发任务，以自由自愿形式发布于大众网络中，个体间往往以竞争或竞价的形式完成开发任务。众包软件开发相比传统的企业内部开发有众多的优势，其中主要的特点有：①低成本：节省了长期雇佣程序员的开销，充分利用互联网上开发者群体资源，极大降低了软件开发的成本②短周期：充分利用分布在不同地理、时区的开发者，并行完成任务，加快软件开发速度，③高创新：充分利用群体智慧，汇聚群体的新颖想法，有较高的创新性。随着众包软件开发的发展，国内外存在着众多的商业软件开发平台，其中有包含完整软件开发流程的Topcoder、Upwork平台，小型任务发布平台AMT，软件测试平台Utest，以及国内的百度数据众包、阿里众包、腾讯众测等。

众包软件开发在带来低成本、快速、创新等优势的同时，也存在众多的问题，其中最主要的是项目质量控制问题。众包软件开发中任务提交来源于互联网上众多的开发者，但开发者的可靠性、能力、兴趣信息都无法直接获取。以Topcoder为例，在2006～2016时间段内约有87.4％(47万次任务参与中有41万次缺少交付)的任务注册缺少交付，35.4％(6万次提交中有2.1万质量不达标)的代码质量不达标，12％(2.7万个任务中有3200个任务失败)任务由于无可靠交付被取消。因而针对不同的任务，为其推荐能力信息匹配的开发者至关重要。所以需要对任务进行分析，考虑任务之间的不同特点，并根据开发者完成任务情况分析开发者能力信息，最后为任务推荐能力较匹配的开发者。

复杂网络关系是现实世界中复杂系统的一种抽象表现形式，网络中的节点是复杂系统中的个体，节点之间的边则是系统中个体之间按照某种规则而自然形成或人为构造的一种关系。复杂网络聚类方法的研究对分析复杂网络的拓扑结构、理解复杂网络的功能、发现复杂网络中的隐藏规律以及预测复杂网络的行为不仅具有十分重要的理论意义,而且已成为解决图论、复杂网络、数据挖掘中问题的常用方法。

在众包软件开发中，大多数的众包平台基于竞争的模式。开发者之间由于存在竞争关系往往有着不同的策略行为。一部分开发者为了获胜，往往衡量比较对手的能力水平，以此来避免与高水平开发者竞争，从而提升自己获胜概率；而另一部分开发者积极参与比赛，并不关注对手的实力强弱以及输赢结果；有些开发者甚至积极与高水平开发者竞争，在激烈竞争中提升自己能力。因而，为众包任务推荐开发者时，开发者之间的竞争关系也影响着推荐准确性，不同开发者对竞争关系的决策也不同，对开发者之间的竞争关系进行分析至关重要，合理利用竞争关系提升推荐的准确性。

针对众包软件开发中的开发者和任务匹配问题，现有的方法主要从开发者的能力和任务本身的内容出发。通过分析任务本身的属性(需求、语言、技能、周期等)及开发者的兴趣和特长信息来进行推荐。然而，众包软件中任务存在明显“偏置”现象，不同的任务需求、技能信息各不相同，同时开发者也存在着不同的活跃时间段。而现有的方法忽略了众包任务的“偏置”特点以及开发者之间的关联关系，推荐的准确率差，导致出现众包开发过程中出现任务注册缺少交付、代码质量指标不达标、任务由于无可靠交付被取消等技术问题，严重影响整体的项目质量。

发明内容

为了更好的解决开发者推荐问题，本发明设计了一种众包软件开发者推荐方法，该方法一方面对众包平台上开发任务进行分析，另一方面对开发者之间的竞争关系进行分析，使得任务与开发者匹配度较高，从而保证任务完成质量较高。本发明提供了一种众包软件开发者推荐方法，包括基于内容的推荐方法以及开发者关联关系优化方法。该框架适用于基于竞争模式的众包软件开发平台，并可以根据开发者之间具体关系优化推荐结果。实现基于内容的开发者推荐算法，该算法考虑开发任务之间的内容相似性和时间局部特点，采用了聚类算法对任务进行初步分类，然后利用分类器进一步对任务进行分类实现开发者之间的关联关系分析算法，建立开发者之间的关系网络，并利用该竞争关系优化初步推荐结果，达到减少众包开发时的注册缺少交付的比重、提高代码质量指标、减少任务由于无可靠交付被取消的比例，有效提高整体项目质量的技术效果。

附图说明

图1为本发明的整体框架图；

图2为本发明中任务的特征向量的构成图；

图3为本发明一实施例的开发者竞争网络的有向边图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出的一种众包软件开发者推荐方法，整个方法对系统处理的框架由三部分组成，分别为：任务预处理和特征提取模块、基于聚类的分类模块、开发者竞争关系分析模块。其整体框架如图1所示。首先，该算法对数据集进行预处理，选取信息较为完善的任务，并进一步提取选取的任务特征信息(如任务开发时间、报酬、需求描述、所需技能、发布时间、发布平台等)构造任务的特征向量；然后采用K-means对任务进行聚类，将相似的任务聚集一起；然后，对于新的众包任务同样提取任务的特征，并得出与之相似的聚类任务，进一步在相似的任务间通过机器学习分类算法将获胜率高的开发者作为初步推荐的开发者候选集；最后，在开发者候选集中计算开发者的可靠性，并剔除部分可靠性低的开发者，根据开发者参与历史任务情况分析开发者之间的关联关系，建立开发者竞争网络。

在提取众包任务的特征基础上，进一步采用训练模型，为新任务推荐开发者。由于软件开发领域存在着“偏置”现象，即不同的开发任务类型所需语言、技能、平台各不相同，为建立更准确推荐模型，我们首先对任务进行聚类，将相似的任务聚集一起，然后在相似任务内建立分类器。在聚类时，首先考虑任务自身的内容相似性(任务的需求相似性、所需开发技能、平台)，此外开发者往往存在明显的活动规律，时间作为一个重要的因素影响开发者参与任务，所以综合任务的相似性和时间局部性特点，聚类算法的距离公式如下所示：

其中，t_a,t_b表示两个不同任务a和b，N表示技能集合的总数量，x_a,K表示任务a是否需要第K个技能，若需要为1，否则为0，所以该部分用余弦相似度计算任务间内容相似性；date_a表示任务a的发布时间，所述m为常数，该部分反映了任务之间的时间距离。在聚类时，首先通过大量实验计算确定了最优的聚类数目k，然后将所有任务聚成k类，这样相似的任务属于同一类内部。在聚类后，对于新的任务选取与之最相似的聚类任务进行分类，这一方面使得分类训练样本减少，提升了效率，另一方面也解决了任务的“偏置”现象。对任务进行分类时的主要流程如下：分析任务的需求描述、构建任务的特征向量、使用机器学习分类器进行推荐。其中提取任务特征时主要考虑的信息有：任务标题，任务需求描述、开发语言、所需技能、框架、运行平台、开发周期、任务的奖金等。其中标题和需求是自然语言文本描述，语言、技能、框架是固定的集合，周期，奖金是数值信息。为了能统一处理这些信息，我们进行了数字化处理。对于标题和需求描述信息，首先对于开发语言、技能、平台等信息采用了分词技术，去除停用词(the、a、an等)、标点等无用词，然后使用公式(2)每个词的权重。

所述x表示一个众包任务，所述s表示技能集合中的一个具体技能。对于任务开发周期、奖金数值信息，不同的任务差别较大，为了减少因为取值范围不同产生的分类偏差，采用公式(3)处理将数值归一化到[0,1]区间，归一化过程如公式3所示：

其中max与min分别表示所有任务中该属性的最大值与最小值，x表示当前任务该属性值，x′表示归一化后的属性值大小。进一步我们将这些特征构建成特征向量，该向量包含三个部分，如图2所示为众包任务的特征向量，所述向量由以下信息组成：文本信息(标题、需求描述)、技能信息(开发语言、框架、平台)、数值信息(周期、奖金)。

最后，对任务进行分类，将每一个任务的获胜者作为分类标签，对于新的开发任务要识别它所在类别即某一开发者，该问题本质是一个多分类问题。本发明采用了朴素贝叶斯(NaiveBayes)、支持向量机(SVM)、决策树(J48)等方法来进行分类，将推荐的开发者按照其获胜概率进行排序。

在基于内容的推荐基础上，对开发者进行了初步匹配和筛选，这一过程主要考虑了开发者的能力特点，而开发者的竞争关系也与开发者推荐结果息息相关。

在利用开发者关联关系前，我们首先对开发者的可靠性进行了分类。因为在众包软件平台上，开发者的可靠性与开发者的交付质量息息相关，它反应了开发者完成的历史任务质量情况。经常获胜的开发者往往具有较高的可靠性，开发者的可靠性表示了开发者在最近一段时间内，在一些相似任务上的可靠性，根据前文任务聚类结果，可以得出开发者候选集中每一位开发者在相似任务上的可靠性。而开发者的可靠性主要体现在开发者的获胜率和提交率上，对历史任务进行获胜者的分类，将所述获胜者分为二类：1)高获胜率：该类型开发者只参与擅长的任务，获胜率较高；2)高提交率：该类型开发者积极参与任务，有较高的提交率。为了过滤掉可靠性较低的开发者，首先对每一个开发者di由其参与任务数ri,提交任务数si，以及获胜任务数wi。得到开发者候选集中开发者的平均提交率和获胜率，如公式4，5所示：

其中n表示开发者候选集的数量，avgsub与avgwin分别为计算后的平均提交率和获胜率，然后过滤掉提交率和获胜率都低于阈值值的开发者。

在基于竞争的模式下，开发者往往有着不同的策略行为。开发者可以浏览其竞争者的个人主页，其中包含了开发者的历史完成任务及相应得分、获胜次数、积分、擅长技能等，这些数据可以用于评估开发者的能力水平。因此，一部分开发者为了获取胜利，会放弃与高水平的开发者竞争而放弃比赛；同样一部分开发者为了获胜更倾向于与能力水平低于自己的开发者竞争；但这并不是全部情况，也有一部分开发者并不考虑对手信息，仅仅参与自己感兴趣的任务，甚至有些开发者热衷与高水平开发者竞争，希望在竞争中提升自己能力。所以我们可以利用这种竞争关系来增强推荐的准确性。如果一个开发者A经常输给另一个开发者B，这一方面表明开发者B的能力水平要高于开发者A；同时另一方面说明开发者A，B经常相互竞争，即A并没有因为B水平较高而放弃比赛，B也经常与A进行竞争，所以在该情况下A参与了比赛，B也有较大可能性参与比赛，并且B的获胜概率要高于A。为了利用上述假设，我们首先建立了开发者之间的竞争关系网络，构建过程如下所示：

对于基于内容推荐的开发者候选集，在每一个历史任务中，建立从参与者到获胜者的有向边。见图3所示为建立候选者的有向边的实施例，该例中开发者d1和d2竞争了12次，其中开发者d1获胜了10次，而开发者d2获胜了2次。

基于开发者竞争网络，为了利用开发者之间的竞争关系，我们定义了一种“吸引力”关系attraction，attraction一方面反映了开发者之间的能力强弱，另一方面体现了开发者之间的竞争的频繁程度。首先用edge(di，dj)来表示开发者dj和di竞争中dj的获胜次数，deg(di)表示开发者di参与任务数。开发者di，dj之间的吸引力定义如公式6所示：

其中分子表示了开发者dj相对di的获胜次数，分母表示开发者di，dj参与任务的总数目，所以attraction(di，dj)越大，一方面表明dj相对di获胜次数多，能力水平更强，另一方面也表明dj，di共同参与的任务数多，因此dj，di有较大可能性共同参与任务，并且dj比di有更高获胜可能性。对每一个开发者di,我们计算k个吸引力最大的开发者attracter(di),其计算过程如公式7所示：

其中dj为开发者di的竞争者，k为常数，最终为每一个开发者di选取了k个最强吸引力的竞争者。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种众包软件开发者推荐方法，其特征在于，步骤1，对数据集进行预处理，选取信息完善的任务，并提取选取的任务特征信息构造任务的特征向量；步骤2，采用K-means聚类算法对任务进行聚类，将相似的任务聚集一起；步骤3，对于新的众包任务同样提取任务的特征，得到与之前的任务相似的聚类任务；步骤4，在相似的任务间通过分类得到获胜率较高的开发者作为初步推荐的开发者候选集；步骤5，在开发者候选集中得到可靠性高的开发者，并剔除可靠性较低的开发者，并根据开发者参与历史任务情况分析开发者之间的关联关系，建立开发者竞争网络；

所选取的任务特征信息包括任务标题、任务需求描述、开发语言、所需技能、框架、运行平台、开发周期、任务的奖金，所述标题和需求是自然语言文本描述，语言、技能、框架是固定的集合，周期，奖金是数值信息；对任务特征信息进行数字化处理，采用了分词技术处理标题和需求描述信息，去除停用词，包括the、a、an、标点，然后使用公式

得到每个词的权重，其中x，s为自然数；对于任务开发周期、奖金数值信息，采用公式

进行处理将数值归一化到[0,1]区间；

将推荐的开发者按照其获胜概率进行排序，针对每一个开发者由其参与任务数ri,提交任务数si，以及获胜任务数wi，根据公式

分别得到开发者候选集中开发者的平均提交率和获胜率，过滤掉低于所述平均提交率和平均获胜率的开发者，其中n为开发者的个数，i为开发者的序号；

在所述步骤5中，基于内容推荐的开发者候选集，建立从参与者到获胜者的有向边，设置edge(di，dj)表示开发者dj和di竞争中dj的获胜次数，deg(di)表示开发者di参与任务数，开发者di，dj之间的吸引力公式为

其中分子表示了开发者dj相对di的获胜次数，分母表示di，dj参与任务的总数目，attraction(di，dj)越大，一方面表明dj相对di获胜次数多，能力水平更强，另一方面也表明dj，di共同参与的任务数多；对每一个开发者di,获取k个吸引力最大的开发者attracter(di)的方法为

所述i，j为自然数。

2.如权利要求1所述的方法，其特征在于，在所述步骤4中，对相似的任务进行分类时，首先分析任务的需求描述，然后构建任务的特征向量，最后使用机器学习分类器进行推荐。

3.如权利要求1所述的方法，其特征在于，还包括，在所述步骤2和所述步骤3进行聚类时，选取时间作为影响因素按照公式

处理得到聚类距离，所述t_a，t_b表示两个不同任务a和b，N表示技能集合的总数量，x_a,K表示任务a是否需要第K个技能，若需要为1，否则为0，所述date_a表示任务a的发布时间，所述m为常数。

4.如权利要求1所述的方法，其特征在于，所述构建的特征向量包含三个部分，第一部分是文本信息，所述文本信息包括标题、需求描述，第二部分是技能信息，所述技能信息包括开发语言、框架、平台，第三部分是数值信息周期、奖金。