CN116594627A

CN116594627A - 一种基于多标签学习的群体软件开发中服务匹配方法

Info

Publication number: CN116594627A
Application number: CN202310565767.8A
Authority: CN
Inventors: 何鹏; 和诗雨; 熊定坤; 马菊; 陈劲超
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-08-15
Anticipated expiration: 2043-05-18
Also published as: CN116594627B

Abstract

本发明公开了一种基于多标签学习的群体软件开发中服务匹配方法，涉及群体软件工程的项目开发信息分析技术领域，在数据嵌入层，开发者和项目的上下文属性以分类变量的形式出现，设置嵌入工作将这些显式变量映射到分布式表示，以捕获隐含语义；建立交互感知层对特征进行池化操作减少模型参数；捕获多个标签公共因素的影响，并学习特征之间的高阶交互；最后，在模型中建立多标签任务层，通过添加独立的感知模块完成不同的预测任务，当多个标签同时达到最优值时实现匹配。本发明采用上述方法的一种基于多标签学习的群体软件开发中服务匹配方法，在上下文信息的利用取得了显著效果，实现开源社区中服务的精准匹配。

Description

一种基于多标签学习的群体软件开发中服务匹配方法

技术领域

本发明涉及群体软件工程的项目开发信息分析技术领域，尤其是涉及一种基于多标签学习的群体软件开发中服务匹配方法。

背景技术

信息匹配在很多领域都普遍存在，如人员识别、智能合约、社交媒体等。信息匹配能够帮助用户在海量的信息中快速、准确地找到所需的信息。在软件智能化开发领域，开发者能力和项目质量评价的研究和应用开始受到关注。随着软件演化节奏的加快与软件规模的扩大，开源社区的用户数量可能会激增。可以利用传统的检索技术确定满足开发者实践技能的项目。然而，面对大量描述相似的项目，用户可能会觉得很难判断哪些候选项目符合个人需求。为了确保更好的选择，有必要进一步比较候选项目的质量。因此，开发项目的评估和选择显然是开源社区领域中开发者和项目提供者所关心的基本问题。

为了获得准确和个性化的项目标签值，通常需要对项目进行评估。然而，由于时间、成本和其他因素的限制，开发者不能在海量的数据中对比每个项目。为了获得项目的个性化标签，帮助开发者匹配合适的项目，借鉴推荐系统，提出协同标签预测来应对这一问题。协同预测的主要思想是分析开发者和项目的历史数据，进一步利用协同智能来预测未知的标签值。通过区分候选项目的标签值，开发者可以决定是否选择合适的项目。这样就可以避免直接度量标签值，从而为项目提供者和开发者节省时间和经济成本。

随着深度学习的蓬勃发展，深度神经网络在计算机视觉、自然语言处理等许多应用领域取得了重大突破。深度神经网络可以通过多层表征有效地提取特征，因为较高的表征层放大了对识别很重要的输入方面，并抑制了不相关的变化。此外，深度神经网络具有非线性建模能力，可以近似任何复杂函数，为复杂任务建立复杂的预测模型，并达到预期的精度。此外，分层结构使我们更容易处理多任务学习的参数共享。

因此，本发明提出一种多标签深度神经模型(DNM2L)实现群体软件开发中服务匹配。

发明内容

本发明的目的是提供一种基于多标签学习的群体软件开发中服务匹配方法，结合一阶特征和二阶交叉特征对嵌入向量进行训练，在上下文信息的利用取得了显著效果。通过多标签组合预测的策略，实现群体软件开发中服务的精准匹配。

为实现上述目的，本发明提供了一种基于多标签学习的群体软件开发中服务匹配方法，包括以下步骤：

S1、数据嵌入层

S11、输入开发者、项目数据，分别包含开发者实践技能和项目基本属性，所有开发者的语言和角色、项目的主题和受众均视为特征，每个特征通过全局标识符x_i指示向量中的位置；

S12、将每个特征映射到一个密集向量上进行分布式表示，令e_i∈R^d为一个d维向量，嵌入工作完成后，得到一组大小为d×n对应于x的嵌入向量E_x，公式如下：

E_x＝{x₁e₁,…,x_ie_i}(1≤i≤n)；

S2、交互感知层，包括交互组和感知组两部分

S21、交互组由求和与乘积/>两部分组成，在求和部分，将所有嵌入向量相加，得到：

为一阶特征；

在乘积部分，将嵌入向量上的元素相乘，把嵌入集E_x送入交互组，并把一组嵌入向量转换成一个向量，如下：

其中,特征分为开发者和项目两个子集:C_dev和C_pro，“·”表示两个向量的元素相乘,如下:

(e_i·e_j)_k＝e_ike_jk(1≤k≤d)

此时得到一个d维向量，编码R^d中特征之间的二阶交互；

S22、将一阶特征和二阶交叉特征结合，两部分进一步合并为E'_x，并完全连接到感知组中，如下：

S23、感知组r_L是一个全连接层的堆栈，其公式如下：

r₁＝ω₁(W₁E'_x+b₁)

r₂＝ω₂(W₂r₁+b₂)

…

r_L＝ω_L(W_Lr_L-1+b_L)

其中，L为隐含层数，W_L、b_L、ω_L分别为第L层的权矩阵、偏置向量和激活函数；

S3、多标签任务层，包括以下子步骤

S31、首先为每个标签添加独立的感知模块，如下：

…

其中y_n、PL_n、分别为标签预测函数、感知模块、感知模块对第n个预测标签的神经元权重；

S32、根据模型输出结果，对所有预测值进行排序，当每个标签均达到最优值时，完成此次开发者和项目的匹配；

S33、验证匹配结果，采用平均绝对误差、均方根误差和归一化平均绝对误差进行评价，如下：

其中，y(x)和分别为真实值和预测值，N为测试用例的数量；y_max和y_min分别是数据集中观察到的最大值和最小值，MAE表示平均绝对误差，RMSE表示均方根误差，NMAE表示归一化平均绝对误差。

优选的，所述步骤S11中提取开发者实践技能时，选用开发者实践技能和项目基本属性数据，对开发者实践技能和项目基本属性进行区分，分成两部分后作为数据输入集。

优选的，所述步骤S11中的特征共有n个，当第i个特征存在时，令x_i＝1，否则x_i＝0，得到输入向量x＝[101…001]，特征标识符记为[1,2,…,i]。

优选的，所述步骤S12中仅保留非零的特征作为嵌入向量，即E_x＝{x_ie_i|x_i≠0}。

优选的，所述步骤S21中的求和部分计算开发者项目一阶特征，所述步骤S21中的乘积部分计算开发者项目二阶交叉特征，所述步骤S22整合交互组。

优选的，所述步骤S23中的堆栈为全连接层、学习属性之间高阶交互的堆栈。

因此，本发明采用上述一种基于多标签学习的群体软件开发中服务匹配方法，具有以下有益效果：

(1)它为实现多标签的群体软件开发中服务匹配提供了一个强有力的框架。

(2)通过多标签组合预测的策略，实现了群体软件开发中服务的精准匹配，有效减少干扰项目。

(3)结合一阶特征和二阶交叉特征、预训练嵌入向量等策略，在利用上下文信息方面取得了显著的效果。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明一种基于多标签学习的群体软件开发中服务匹配方法数据表之间的关联关系；

图2为本发明一种基于多标签学习的群体软件开发中服务匹配方法开发者与项目匹配的交互示例图；

图3为基于多标签学习的群体软件开发中服务匹配模型图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

实施例：

本发明的具体实施例选取Sourceforge.net为研究对象，它是目前最大的开源软件开发社区，拥有大量的开源项目信息，知名度高和数据易获取性大。为便于开发者间的协调合作，社区为每个开源项目都提供了多种交互渠道，包括邮件列表、bug追踪库、SVN/CVS、论坛等。同时，每个项目在存储过程中都提供各种属性信息，因此满足本发明的研究需求。

以Sourceforge.net上至2007年4月份的开发者/项目数据为载体，可以根据开发者的需要提供潜在合作同行推荐。本发明选取了所有属性中常接触的6个属性展开分析。具体实施时，可以通过开发专门的网络爬虫从网上收集开发者与项目的信息，也可以直接与FLOSSmole组织联系，从该组织提供的平台上下载相关信息，所有数据共涉及9张表包括：开发者表、项目表、5个项目属性表、开发者-项目表、以及项目在数据收集时前两个月的动态表，根据数据表之间的关联关系做相应的处理，尽量减少数据中的错误，并将存在信息缺少的开发者/项目过滤掉；另外，对于那些在数据收集时前两个月内没有变化的项目，被视为已停止开发，这类数据也被排除在外。

最终，满足要求的数据集中包含开发者11710名，项目17236个，涉及属性受众(audience)19种、主题(topic)240种、状态(status)7种、协议(license)60种、角色(position)22种、系统(system)59种、语言(language)72种。

基于上述介绍，本发明的具体实施例如下：

S1、数据嵌入层

S11、输入开发者、项目数据，分别包含开发者实践技能和项目基本属性，在提取开发者实践技能时，选用开发者实践技能和项目基本属性数据，对开发者实践技能和项目基本属性进行区分，分成两部分后作为数据输入集。

本实例中开发者具有语言(Java)和角色(Tester)两种属性，项目具有主题(Library)和受众(Education)两种属性，如果开发者1与项目2存在历史匹配记录，那么该记录可以被存储为一个元组：[developer,language,position,project,topic,audience]＝[DEV1,DLA1,DPO3,PRO2,STO2,SAU3]。

为了对输入定义，我们将所有开发者的语言和角色、项目的主题和受众都视为特征，每个特征分配一个全局标识符，每个特征通过全局标识符x_i指示在输入向量中的位置。在这种情况下，总共有n＝22个不同的特征，则元组中特征标识符记为:[1,4,10,13,16,21]。如果第i个特征存在，则令x_i＝1；否则x_i＝0。相应地，我们得到输入向量：x＝[10010000001001001000010]

S12、接下来，将每个特征映射到一个密集向量上进行分布式表示。其表示形式上，从语义上刻画了一个潜在空间中开发者或项目的第i个特征。令e_i∈R^d是一个d维向量。嵌入工作完成后，我们得到一组大小为d×n对应于x的嵌入向量E_x，如下：

E_x＝{x₁e₁,…,x_ie_i}(1≤i≤n)；

特征向量由稀疏转化为稠密形式，为了缓解x的稀疏表示，仅保留非零的特征作为嵌入向量，有效缓解了输入数据稀疏问题，公式为E_x＝{x_ie_i|x_i≠0}。这里使用符号x和E_x将输入到嵌入的转化过程形象化。

在实例中，嵌入向量记为：E_x＝{x₁e₁,x₄e₄,x₁₀e₁₀,x₁₃e₁₃,x₁₆e₁₆,x₂₁e₂₁}。向量表示序号为1的开发者与序号为2的项目存在历史匹配。开发者使用Java作为编程语言，扮演测试员的角色。

S2、交互感知层，包括交互组和感知组两部分

S21、交互组由求和与乘积/>两部分组成，在求和部分，将所有嵌入向量相加用于保留一阶特征的影响，得到：

在乘积部分，用于编码二阶交叉特征，将嵌入向量上的元素相乘，把嵌入集E_x送入交互组，并把一组嵌入向量转换成一个向量，

在生成二阶交叉特征时，将特征分为开发者和项目两个子集:C_dev和C_pro，交互组只对开发者和项目两个子集特征之间的相互作用进行计算和编码。交互组的处理可以减少交叉特征的冗余，并降低因参数数量较多而导致的过拟合风险，该操作的时间复杂度为O[d(|C_dev|+|C_pro|)]。

当x＝[10010000001001001000010]时，C_dev为{1,4,10}，C_pro为{13,16,21}，则有E_1x＝(x₁e₁+x₄e₄+x₁₀e₁₀)·(x₁₃e₁₃+x₁₆e₁₆+x₂₁e₂₁)。

S22、将一阶特征和二阶交叉特征结合，一阶特征和二阶交叉特征的结合有利于增强神经网络的建模能力，两部分进一步合并为E'_x，并完全连接到感知组中，如下：

S23、感知组r_L是一个全连接层的堆栈，能够学习属性之间的高阶交互，并捕获具有多个标签的公共因素的影响，感知组计算为：

r₁＝ω₁(W₁E'_x+b₁)

r₂＝ω₂(W₂r₁+b₂)

同时，使用ReLU来避免消失梯度的问题。

S3、多标签任务层，包括以下子步骤

S31、首先为每个标签添加独立的感知模块，不同的情境因素对开发者和项目匹配有不同的影响，例如开发者的扮演角色、开发语言，软件的受众目标、开发主题、使用协议、开发状态、系统环境等特征均对匹配结果的敏感程度不一。为了解决这个问题并使多标签匹配模型成为可能，本实例考虑历史匹配与活跃度两个标签，本方法为每个标签添加独立的感知模块：

感知模块PL可以通过补充非线性变换，在感知层之上提供不同的任务，并具有相应的特征选择和加权功能。该深度神经模型可以很容易地适应不同标签预测任务，多标签任务层的结构也可以根据掌握数据灵活选择。

S32、根据模型输出结果，对所有预测值进行排序，当每个标签都达到最优值时，完成此次开发者和项目的匹配；

S33、验证匹配结果，采用平均绝对误差、均方根误差和归一化平均绝对误差进行评价。

本实例采用平均绝对误差(MAE)和均方根误差(RMSE)和归一化平均绝对误差(NMAE)进行评价。

考虑数据稀疏性对实验的影响，首先将数据按照给定的开发者项目矩阵比例(MD＝2.5％、MD＝5％、MD＝7.5％、MD＝10％)进行划分，随机划分为训练集和测试集。然后对每种方法的实验结果进行三折交叉验证，用以评价预测的性能和参数影响分析。DNM2L模型交互感知层的神经网络层数设置为两层，多标签任务层的神经网络层数设置为一层。神经元数量分别为128个和64个。损失函数分别设置为L1-Loss和L2-Loss。初始失活率设置为0.2。对于多标签预测任务用Y1表示历史匹配(开发者是否参与过项目的开发)，Y2表示活跃度(项目的下载量等级)。损失函数的权重设置为Y1＝0.95，Y2＝0.05用于实验评估。优化器设置为AdamOptimizer。初始的学习率设置为0.01。

得到如下实验数据表：

通过比较两个标签的实验结果，L2对于多标签学习效果明显好于L1。对于MAE指标，Y1|Y2-DNM2L(L2)的表现比Y1|Y2-DNM2L(L1)好2.96％-26.80％。比较不同标签的评价指标，L2损失函数总是优于L1损失函数的实验效果。L2损失函数对数据集中的离群值更为敏感，因此更适合于具有尺度的多标签模型。实验结果符合预期。在MAE指标度量中，DNM2L(L2)历史匹配的表现比Y1-DNM1L(L2)好4.37％-31.07％，活跃度的表现比Y2-DNM1L(L2)好1.56％-4.78％。特别地，当矩阵密度变得更小时，DNM2L(L2)产生了比DNM1L(L2)更好的性能。

因此，本发明采用上述一种基于多标签学习的群体软件开发中服务匹配方法，结合一阶特征和二阶交叉特征对嵌入向量进行训练，在上下文信息的利用取得了显著效果。通过多标签组合预测的策略，实现服务的精准匹配。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于多标签学习的群体软件开发中服务匹配方法，包括以下步骤：

S1、建立数据嵌入层；

S2、建立交互感知层，包括交互组和感知组两部分；

S3、构建多标签任务层。

2.根据权利要求1所述的一种基于多标签学习的群体软件开发中服务匹配方法，其特征在于：所述S1的具体步骤如下：

E_x＝{x₁e₁，...x_ie_i}(1≤i≤n)。

3.根据权利要求2所述的一种基于多标签学习的群体软件开发中服务匹配方法，其特征在于：所述S2的具体步骤如下：

为一阶特征；

(e_i·e_j)_k＝e_ike_jk(1≤k≤d)

此时得到一个d维向量，编码R^d中特征之间的二阶交互；

S22、将一阶特征和二阶交叉特征结合，两部分进一步合并为E′_x，并完全连接到感知组中，如下：

S23、感知组r_L是一个全连接层的堆栈，其公式如下：

r₁＝ω₁(W₁E′_x+b₁)

r₂＝ω₂(W₂r₁+b₂)

…

r_L＝ω_L(W_Lr_L-1+b_L)

其中，L为隐含层数，W_L、b_L、ω_L分别为第L层的权矩阵、偏置向量和激活函数。

4.根据权利要求3所述的一种基于多标签学习的群体软件开发中服务匹配方法，其特征在于：所述S3的具体步骤如下：

S31、首先为每个标签添加独立的感知模块，如下：

…

5.根据权利要求4所述的一种基于多标签学习的群体软件开发中服务匹配方法，其特征在于：所述步骤S11中提取开发者实践技能时，选用开发者实践技能和项目基本属性数据，对开发者实践技能和项目基本属性进行区分，分成两部分后作为数据输入集。

6.根据权利要求5所述的一种基于多标签学习的群体软件开发中服务匹配方法，其特征在于：所述步骤S11中的特征共有n个，当第i个特征存在时，令x_i＝1，否则x_i＝0，得到输入向量x＝[101…001]，特征标识符记为[1,2,…,i]。

7.根据权利要求6所述的一种基于多标签学习的群体软件开发中服务匹配方法，其特征在于：所述步骤S12中保留非零的特征作为嵌入向量，公式为E_x＝{x_ie_i|x_i≠0}。

8.根据权利要求7所述的一种基于多标签学习的群体软件开发中服务匹配方法，其特征在于：所述步骤S21中的求和部分计算开发者项目一阶特征，所述步骤S21中的乘积部分计算开发者项目二阶交叉特征，所述步骤S22整合交互组。

9.根据权利要求8所述的一种基于多标签学习的群体软件开发中服务匹配方法，其特征在于：所述步骤S23中的堆栈为全连接层、学习属性之间高阶交互的堆栈。