CN116594627A - 一种基于多标签学习的群体软件开发中服务匹配方法 - Google Patents
一种基于多标签学习的群体软件开发中服务匹配方法 Download PDFInfo
- Publication number
- CN116594627A CN116594627A CN202310565767.8A CN202310565767A CN116594627A CN 116594627 A CN116594627 A CN 116594627A CN 202310565767 A CN202310565767 A CN 202310565767A CN 116594627 A CN116594627 A CN 116594627A
- Authority
- CN
- China
- Prior art keywords
- project
- developer
- group
- software development
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000008447 perception Effects 0.000 claims abstract description 22
- 230000003993 interaction Effects 0.000 claims abstract description 19
- 230000002452 interceptive effect Effects 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 8
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101100137546 Arabidopsis thaliana PRF2 gene Proteins 0.000 description 1
- 101100366935 Caenorhabditis elegans sto-2 gene Proteins 0.000 description 1
- 102100024827 Dynamin-1-like protein Human genes 0.000 description 1
- 101000909218 Homo sapiens Dynamin-1-like protein Proteins 0.000 description 1
- 101150004094 PRO2 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 101150002273 dpo3 gene Proteins 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/43—Checking; Contextual analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种基于多标签学习的群体软件开发中服务匹配方法,涉及群体软件工程的项目开发信息分析技术领域,在数据嵌入层,开发者和项目的上下文属性以分类变量的形式出现,设置嵌入工作将这些显式变量映射到分布式表示,以捕获隐含语义;建立交互感知层对特征进行池化操作减少模型参数;捕获多个标签公共因素的影响,并学习特征之间的高阶交互;最后,在模型中建立多标签任务层,通过添加独立的感知模块完成不同的预测任务,当多个标签同时达到最优值时实现匹配。本发明采用上述方法的一种基于多标签学习的群体软件开发中服务匹配方法,在上下文信息的利用取得了显著效果,实现开源社区中服务的精准匹配。
Description
技术领域
本发明涉及群体软件工程的项目开发信息分析技术领域,尤其是涉及一种基于多标签学习的群体软件开发中服务匹配方法。
背景技术
信息匹配在很多领域都普遍存在,如人员识别、智能合约、社交媒体等。信息匹配能够帮助用户在海量的信息中快速、准确地找到所需的信息。在软件智能化开发领域,开发者能力和项目质量评价的研究和应用开始受到关注。随着软件演化节奏的加快与软件规模的扩大,开源社区的用户数量可能会激增。可以利用传统的检索技术确定满足开发者实践技能的项目。然而,面对大量描述相似的项目,用户可能会觉得很难判断哪些候选项目符合个人需求。为了确保更好的选择,有必要进一步比较候选项目的质量。因此,开发项目的评估和选择显然是开源社区领域中开发者和项目提供者所关心的基本问题。
为了获得准确和个性化的项目标签值,通常需要对项目进行评估。然而,由于时间、成本和其他因素的限制,开发者不能在海量的数据中对比每个项目。为了获得项目的个性化标签,帮助开发者匹配合适的项目,借鉴推荐系统,提出协同标签预测来应对这一问题。协同预测的主要思想是分析开发者和项目的历史数据,进一步利用协同智能来预测未知的标签值。通过区分候选项目的标签值,开发者可以决定是否选择合适的项目。这样就可以避免直接度量标签值,从而为项目提供者和开发者节省时间和经济成本。
随着深度学习的蓬勃发展,深度神经网络在计算机视觉、自然语言处理等许多应用领域取得了重大突破。深度神经网络可以通过多层表征有效地提取特征,因为较高的表征层放大了对识别很重要的输入方面,并抑制了不相关的变化。此外,深度神经网络具有非线性建模能力,可以近似任何复杂函数,为复杂任务建立复杂的预测模型,并达到预期的精度。此外,分层结构使我们更容易处理多任务学习的参数共享。
因此,本发明提出一种多标签深度神经模型(DNM2L)实现群体软件开发中服务匹配。
发明内容
本发明的目的是提供一种基于多标签学习的群体软件开发中服务匹配方法,结合一阶特征和二阶交叉特征对嵌入向量进行训练,在上下文信息的利用取得了显著效果。通过多标签组合预测的策略,实现群体软件开发中服务的精准匹配。
为实现上述目的,本发明提供了一种基于多标签学习的群体软件开发中服务匹配方法,包括以下步骤:
S1、数据嵌入层
S11、输入开发者、项目数据,分别包含开发者实践技能和项目基本属性,所有开发者的语言和角色、项目的主题和受众均视为特征,每个特征通过全局标识符xi指示向量中的位置;
S12、将每个特征映射到一个密集向量上进行分布式表示,令ei∈Rd为一个d维向量,嵌入工作完成后,得到一组大小为d×n对应于x的嵌入向量Ex,公式如下:
Ex={x1e1,…,xiei}(1≤i≤n);
S2、交互感知层,包括交互组和感知组两部分
S21、交互组由求和与乘积/>两部分组成,在求和部分,将所有嵌入向量相加,得到:
为一阶特征;
在乘积部分,将嵌入向量上的元素相乘,把嵌入集Ex送入交互组,并把一组嵌入向量转换成一个向量,如下:
其中,特征分为开发者和项目两个子集:Cdev和Cpro,“·”表示两个向量的元素相乘,如下:
(ei·ej)k=eikejk(1≤k≤d)
此时得到一个d维向量,编码Rd中特征之间的二阶交互;
S22、将一阶特征和二阶交叉特征结合,两部分进一步合并为E'x,并完全连接到感知组中,如下:
S23、感知组rL是一个全连接层的堆栈,其公式如下:
r1=ω1(W1E'x+b1)
r2=ω2(W2r1+b2)
…
rL=ωL(WLrL-1+bL)
其中,L为隐含层数,WL、bL、ωL分别为第L层的权矩阵、偏置向量和激活函数;
S3、多标签任务层,包括以下子步骤
S31、首先为每个标签添加独立的感知模块,如下:
…
其中yn、PLn、分别为标签预测函数、感知模块、感知模块对第n个预测标签的神经元权重;
S32、根据模型输出结果,对所有预测值进行排序,当每个标签均达到最优值时,完成此次开发者和项目的匹配;
S33、验证匹配结果,采用平均绝对误差、均方根误差和归一化平均绝对误差进行评价,如下:
其中,y(x)和分别为真实值和预测值,N为测试用例的数量;ymax和ymin分别是数据集中观察到的最大值和最小值,MAE表示平均绝对误差,RMSE表示均方根误差,NMAE表示归一化平均绝对误差。
优选的,所述步骤S11中提取开发者实践技能时,选用开发者实践技能和项目基本属性数据,对开发者实践技能和项目基本属性进行区分,分成两部分后作为数据输入集。
优选的,所述步骤S11中的特征共有n个,当第i个特征存在时,令xi=1,否则xi=0,得到输入向量x=[101…001],特征标识符记为[1,2,…,i]。
优选的,所述步骤S12中仅保留非零的特征作为嵌入向量,即Ex={xiei|xi≠0}。
优选的,所述步骤S21中的求和部分计算开发者项目一阶特征,所述步骤S21中的乘积部分计算开发者项目二阶交叉特征,所述步骤S22整合交互组。
优选的,所述步骤S23中的堆栈为全连接层、学习属性之间高阶交互的堆栈。
因此,本发明采用上述一种基于多标签学习的群体软件开发中服务匹配方法,具有以下有益效果:
(1)它为实现多标签的群体软件开发中服务匹配提供了一个强有力的框架。
(2)通过多标签组合预测的策略,实现了群体软件开发中服务的精准匹配,有效减少干扰项目。
(3)结合一阶特征和二阶交叉特征、预训练嵌入向量等策略,在利用上下文信息方面取得了显著的效果。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明一种基于多标签学习的群体软件开发中服务匹配方法数据表之间的关联关系;
图2为本发明一种基于多标签学习的群体软件开发中服务匹配方法开发者与项目匹配的交互示例图;
图3为基于多标签学习的群体软件开发中服务匹配模型图。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
实施例:
本发明的具体实施例选取Sourceforge.net为研究对象,它是目前最大的开源软件开发社区,拥有大量的开源项目信息,知名度高和数据易获取性大。为便于开发者间的协调合作,社区为每个开源项目都提供了多种交互渠道,包括邮件列表、bug追踪库、SVN/CVS、论坛等。同时,每个项目在存储过程中都提供各种属性信息,因此满足本发明的研究需求。
以Sourceforge.net上至2007年4月份的开发者/项目数据为载体,可以根据开发者的需要提供潜在合作同行推荐。本发明选取了所有属性中常接触的6个属性展开分析。具体实施时,可以通过开发专门的网络爬虫从网上收集开发者与项目的信息,也可以直接与FLOSSmole组织联系,从该组织提供的平台上下载相关信息,所有数据共涉及9张表包括:开发者表、项目表、5个项目属性表、开发者-项目表、以及项目在数据收集时前两个月的动态表,根据数据表之间的关联关系做相应的处理,尽量减少数据中的错误,并将存在信息缺少的开发者/项目过滤掉;另外,对于那些在数据收集时前两个月内没有变化的项目,被视为已停止开发,这类数据也被排除在外。
最终,满足要求的数据集中包含开发者11710名,项目17236个,涉及属性受众(audience)19种、主题(topic)240种、状态(status)7种、协议(license)60种、角色(position)22种、系统(system)59种、语言(language)72种。
基于上述介绍,本发明的具体实施例如下:
S1、数据嵌入层
S11、输入开发者、项目数据,分别包含开发者实践技能和项目基本属性,在提取开发者实践技能时,选用开发者实践技能和项目基本属性数据,对开发者实践技能和项目基本属性进行区分,分成两部分后作为数据输入集。
本实例中开发者具有语言(Java)和角色(Tester)两种属性,项目具有主题(Library)和受众(Education)两种属性,如果开发者1与项目2存在历史匹配记录,那么该记录可以被存储为一个元组:[developer,language,position,project,topic,audience]=[DEV1,DLA1,DPO3,PRO2,STO2,SAU3]。
为了对输入定义,我们将所有开发者的语言和角色、项目的主题和受众都视为特征,每个特征分配一个全局标识符,每个特征通过全局标识符xi指示在输入向量中的位置。在这种情况下,总共有n=22个不同的特征,则元组中特征标识符记为:[1,4,10,13,16,21]。如果第i个特征存在,则令xi=1;否则xi=0。相应地,我们得到输入向量:x=[10010000001001001000010]
S12、接下来,将每个特征映射到一个密集向量上进行分布式表示。其表示形式上,从语义上刻画了一个潜在空间中开发者或项目的第i个特征。令ei∈Rd是一个d维向量。嵌入工作完成后,我们得到一组大小为d×n对应于x的嵌入向量Ex,如下:
Ex={x1e1,…,xiei}(1≤i≤n);
特征向量由稀疏转化为稠密形式,为了缓解x的稀疏表示,仅保留非零的特征作为嵌入向量,有效缓解了输入数据稀疏问题,公式为Ex={xiei|xi≠0}。这里使用符号x和Ex将输入到嵌入的转化过程形象化。
在实例中,嵌入向量记为:Ex={x1e1,x4e4,x10e10,x13e13,x16e16,x21e21}。向量表示序号为1的开发者与序号为2的项目存在历史匹配。开发者使用Java作为编程语言,扮演测试员的角色。
S2、交互感知层,包括交互组和感知组两部分
S21、交互组由求和与乘积/>两部分组成,在求和部分,将所有嵌入向量相加用于保留一阶特征的影响,得到:
在乘积部分,用于编码二阶交叉特征,将嵌入向量上的元素相乘,把嵌入集Ex送入交互组,并把一组嵌入向量转换成一个向量,
在生成二阶交叉特征时,将特征分为开发者和项目两个子集:Cdev和Cpro,交互组只对开发者和项目两个子集特征之间的相互作用进行计算和编码。交互组的处理可以减少交叉特征的冗余,并降低因参数数量较多而导致的过拟合风险,该操作的时间复杂度为O[d(|Cdev|+|Cpro|)]。
当x=[10010000001001001000010]时,Cdev为{1,4,10},Cpro为{13,16,21},则有E1x=(x1e1+x4e4+x10e10)·(x13e13+x16e16+x21e21)。
S22、将一阶特征和二阶交叉特征结合,一阶特征和二阶交叉特征的结合有利于增强神经网络的建模能力,两部分进一步合并为E'x,并完全连接到感知组中,如下:
S23、感知组rL是一个全连接层的堆栈,能够学习属性之间的高阶交互,并捕获具有多个标签的公共因素的影响,感知组计算为:
r1=ω1(W1E'x+b1)
r2=ω2(W2r1+b2)
同时,使用ReLU来避免消失梯度的问题。
S3、多标签任务层,包括以下子步骤
S31、首先为每个标签添加独立的感知模块,不同的情境因素对开发者和项目匹配有不同的影响,例如开发者的扮演角色、开发语言,软件的受众目标、开发主题、使用协议、开发状态、系统环境等特征均对匹配结果的敏感程度不一。为了解决这个问题并使多标签匹配模型成为可能,本实例考虑历史匹配与活跃度两个标签,本方法为每个标签添加独立的感知模块:
感知模块PL可以通过补充非线性变换,在感知层之上提供不同的任务,并具有相应的特征选择和加权功能。该深度神经模型可以很容易地适应不同标签预测任务,多标签任务层的结构也可以根据掌握数据灵活选择。
S32、根据模型输出结果,对所有预测值进行排序,当每个标签都达到最优值时,完成此次开发者和项目的匹配;
S33、验证匹配结果,采用平均绝对误差、均方根误差和归一化平均绝对误差进行评价。
本实例采用平均绝对误差(MAE)和均方根误差(RMSE)和归一化平均绝对误差(NMAE)进行评价。
考虑数据稀疏性对实验的影响,首先将数据按照给定的开发者项目矩阵比例(MD=2.5%、MD=5%、MD=7.5%、MD=10%)进行划分,随机划分为训练集和测试集。然后对每种方法的实验结果进行三折交叉验证,用以评价预测的性能和参数影响分析。DNM2L模型交互感知层的神经网络层数设置为两层,多标签任务层的神经网络层数设置为一层。神经元数量分别为128个和64个。损失函数分别设置为L1-Loss和L2-Loss。初始失活率设置为0.2。对于多标签预测任务用Y1表示历史匹配(开发者是否参与过项目的开发),Y2表示活跃度(项目的下载量等级)。损失函数的权重设置为Y1=0.95,Y2=0.05用于实验评估。优化器设置为AdamOptimizer。初始的学习率设置为0.01。
得到如下实验数据表:
通过比较两个标签的实验结果,L2对于多标签学习效果明显好于L1。对于MAE指标,Y1|Y2-DNM2L(L2)的表现比Y1|Y2-DNM2L(L1)好2.96%-26.80%。比较不同标签的评价指标,L2损失函数总是优于L1损失函数的实验效果。L2损失函数对数据集中的离群值更为敏感,因此更适合于具有尺度的多标签模型。实验结果符合预期。在MAE指标度量中,DNM2L(L2)历史匹配的表现比Y1-DNM1L(L2)好4.37%-31.07%,活跃度的表现比Y2-DNM1L(L2)好1.56%-4.78%。特别地,当矩阵密度变得更小时,DNM2L(L2)产生了比DNM1L(L2)更好的性能。
因此,本发明采用上述一种基于多标签学习的群体软件开发中服务匹配方法,结合一阶特征和二阶交叉特征对嵌入向量进行训练,在上下文信息的利用取得了显著效果。通过多标签组合预测的策略,实现服务的精准匹配。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (9)
1.一种基于多标签学习的群体软件开发中服务匹配方法,包括以下步骤:
S1、建立数据嵌入层;
S2、建立交互感知层,包括交互组和感知组两部分;
S3、构建多标签任务层。
2.根据权利要求1所述的一种基于多标签学习的群体软件开发中服务匹配方法,其特征在于:所述S1的具体步骤如下:
S11、输入开发者、项目数据,分别包含开发者实践技能和项目基本属性,所有开发者的语言和角色、项目的主题和受众均视为特征,每个特征通过全局标识符xi指示向量中的位置;
S12、将每个特征映射到一个密集向量上进行分布式表示,令ei∈Rd为一个d维向量,嵌入工作完成后,得到一组大小为d×n对应于x的嵌入向量Ex,公式如下:
Ex={x1e1,...xiei}(1≤i≤n)。
3.根据权利要求2所述的一种基于多标签学习的群体软件开发中服务匹配方法,其特征在于:所述S2的具体步骤如下:
S21、交互组由求和与乘积/>两部分组成,在求和部分,将所有嵌入向量相加,得到:
为一阶特征;
在乘积部分,将嵌入向量上的元素相乘,把嵌入集Ex送入交互组,并把一组嵌入向量转换成一个向量,如下:
其中,特征分为开发者和项目两个子集:Cdev和Cpro,“·”表示两个向量的元素相乘,如下:
(ei·ej)k=eikejk(1≤k≤d)
此时得到一个d维向量,编码Rd中特征之间的二阶交互;
S22、将一阶特征和二阶交叉特征结合,两部分进一步合并为E′x,并完全连接到感知组中,如下:
S23、感知组rL是一个全连接层的堆栈,其公式如下:
r1=ω1(W1E′x+b1)
r2=ω2(W2r1+b2)
…
rL=ωL(WLrL-1+bL)
其中,L为隐含层数,WL、bL、ωL分别为第L层的权矩阵、偏置向量和激活函数。
4.根据权利要求3所述的一种基于多标签学习的群体软件开发中服务匹配方法,其特征在于:所述S3的具体步骤如下:
S31、首先为每个标签添加独立的感知模块,如下:
…
其中yn、PLn、分别为标签预测函数、感知模块、感知模块对第n个预测标签的神经元权重;
S32、根据模型输出结果,对所有预测值进行排序,当每个标签均达到最优值时,完成此次开发者和项目的匹配;
S33、验证匹配结果,采用平均绝对误差、均方根误差和归一化平均绝对误差进行评价,如下:
其中,y(x)和分别为真实值和预测值,N为测试用例的数量;ymax和ymin分别是数据集中观察到的最大值和最小值,MAE表示平均绝对误差,RMSE表示均方根误差,NMAE表示归一化平均绝对误差。
5.根据权利要求4所述的一种基于多标签学习的群体软件开发中服务匹配方法,其特征在于:所述步骤S11中提取开发者实践技能时,选用开发者实践技能和项目基本属性数据,对开发者实践技能和项目基本属性进行区分,分成两部分后作为数据输入集。
6.根据权利要求5所述的一种基于多标签学习的群体软件开发中服务匹配方法,其特征在于:所述步骤S11中的特征共有n个,当第i个特征存在时,令xi=1,否则xi=0,得到输入向量x=[101…001],特征标识符记为[1,2,…,i]。
7.根据权利要求6所述的一种基于多标签学习的群体软件开发中服务匹配方法,其特征在于:所述步骤S12中保留非零的特征作为嵌入向量,公式为Ex={xiei|xi≠0}。
8.根据权利要求7所述的一种基于多标签学习的群体软件开发中服务匹配方法,其特征在于:所述步骤S21中的求和部分计算开发者项目一阶特征,所述步骤S21中的乘积部分计算开发者项目二阶交叉特征,所述步骤S22整合交互组。
9.根据权利要求8所述的一种基于多标签学习的群体软件开发中服务匹配方法,其特征在于:所述步骤S23中的堆栈为全连接层、学习属性之间高阶交互的堆栈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310565767.8A CN116594627B (zh) | 2023-05-18 | 2023-05-18 | 一种基于多标签学习的群体软件开发中服务匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310565767.8A CN116594627B (zh) | 2023-05-18 | 2023-05-18 | 一种基于多标签学习的群体软件开发中服务匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116594627A true CN116594627A (zh) | 2023-08-15 |
CN116594627B CN116594627B (zh) | 2023-12-12 |
Family
ID=87600334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310565767.8A Active CN116594627B (zh) | 2023-05-18 | 2023-05-18 | 一种基于多标签学习的群体软件开发中服务匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116594627B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977677A (zh) * | 2017-11-27 | 2018-05-01 | 深圳市唯特视科技有限公司 | 一种应用于大规模城区重建中的多标签像素分类方法 |
WO2018212710A1 (en) * | 2017-05-19 | 2018-11-22 | National University Of Singapore | Predictive analysis methods and systems |
CN109117781A (zh) * | 2018-08-07 | 2019-01-01 | 北京飞搜科技有限公司 | 多属性识别模型的建立方法、装置及多属性识别方法 |
CN109165666A (zh) * | 2018-07-05 | 2019-01-08 | 南京旷云科技有限公司 | 多标签图像分类方法、装置、设备及存储介质 |
WO2019161611A1 (zh) * | 2018-02-24 | 2019-08-29 | 乐普(北京)医疗器械股份有限公司 | 心电信息处理方法和心电工作站 |
CN110377727A (zh) * | 2019-06-06 | 2019-10-25 | 深思考人工智能机器人科技(北京)有限公司 | 一种基于多任务学习的多标签文本分类方法和装置 |
WO2020093435A1 (zh) * | 2018-11-08 | 2020-05-14 | 上海市第六人民医院 | 腹部图像分割方法、计算机设备及存储介质 |
CN111274494A (zh) * | 2020-01-20 | 2020-06-12 | 重庆大学 | 结合深度学习和协同过滤技术的复合标签推荐方法 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN115392474A (zh) * | 2022-06-14 | 2022-11-25 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
-
2023
- 2023-05-18 CN CN202310565767.8A patent/CN116594627B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212710A1 (en) * | 2017-05-19 | 2018-11-22 | National University Of Singapore | Predictive analysis methods and systems |
CN107977677A (zh) * | 2017-11-27 | 2018-05-01 | 深圳市唯特视科技有限公司 | 一种应用于大规模城区重建中的多标签像素分类方法 |
WO2019161611A1 (zh) * | 2018-02-24 | 2019-08-29 | 乐普(北京)医疗器械股份有限公司 | 心电信息处理方法和心电工作站 |
CN109165666A (zh) * | 2018-07-05 | 2019-01-08 | 南京旷云科技有限公司 | 多标签图像分类方法、装置、设备及存储介质 |
CN109117781A (zh) * | 2018-08-07 | 2019-01-01 | 北京飞搜科技有限公司 | 多属性识别模型的建立方法、装置及多属性识别方法 |
WO2020093435A1 (zh) * | 2018-11-08 | 2020-05-14 | 上海市第六人民医院 | 腹部图像分割方法、计算机设备及存储介质 |
CN110377727A (zh) * | 2019-06-06 | 2019-10-25 | 深思考人工智能机器人科技(北京)有限公司 | 一种基于多任务学习的多标签文本分类方法和装置 |
CN111274494A (zh) * | 2020-01-20 | 2020-06-12 | 重庆大学 | 结合深度学习和协同过滤技术的复合标签推荐方法 |
CN112214599A (zh) * | 2020-10-20 | 2021-01-12 | 电子科技大学 | 基于统计学和预训练语言模型的多标签文本分类方法 |
CN115392474A (zh) * | 2022-06-14 | 2022-11-25 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
Non-Patent Citations (4)
Title |
---|
HE PENG 等: "QoS Prediction of Web Services Based on Reputation-Aware Network Embedding", 《IEEE ACCESS》, vol. 8, pages 161498, XP011808572, DOI: 10.1109/ACCESS.2020.3020825 * |
JIANG HONGYANG 等: "Multi-Label Deep Learning Model with Interpretable Grad-CAM for Diabetic Retinopathy Classification", 《2020 42ND ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE & BIOLOGY SOCIETY》, pages 1 - 4 * |
何鹏 等: "面向群体协作开发的开源软件峭壁分析", 《计算机科学》, vol. 47, no. 6, pages 51 - 58 * |
赵立娇: "基于层次化多标签分类的文本情感分析关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 138 - 622 * |
Also Published As
Publication number | Publication date |
---|---|
CN116594627B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tyagi et al. | Artificial intelligence and machine learning algorithms | |
Barga et al. | Predictive analytics with Microsoft Azure machine learning | |
CN112528110A (zh) | 确定实体业务属性的方法及装置 | |
Kaluža | Machine Learning in Java | |
Li et al. | Explain graph neural networks to understand weighted graph features in node classification | |
Kim | Implementation of artificial intelligence system and traditional system: a comparative study | |
Quan et al. | Comparative study of CNN and LSTM based attention neural networks for aspect-level opinion mining | |
Sumathi et al. | Machine learning for decision sciences with case studies in Python | |
Pinheiro et al. | Introduction to Statistical and Machine Learning Methods for Data Science | |
Kotsiantis et al. | Efficiency of machine learning techniques in bankruptcy prediction | |
CN116594627B (zh) | 一种基于多标签学习的群体软件开发中服务匹配方法 | |
Liu et al. | Incorporating heterogeneous user behaviors and social influences for predictive analysis | |
Dessureault et al. | DPDR: A novel machine learning method for the Decision Process for Dimensionality Reduction | |
Mejia-Escobar et al. | Towards a Better Performance in Facial Expression Recognition: A Data‐Centric Approach | |
Johnpaul et al. | General representational automata using deep neural networks | |
CN115545833A (zh) | 一种基于用户社交信息的推荐方法及系统 | |
Föhr et al. | Deep Learning Meets Risk-Based Auditing: A Holistic Framework for Leveraging Foundation and Task-Specific Models in Audit Procedures | |
Chaudhry et al. | Artificial Intelligence with Streamlining Payments and Lending for a Simpler Financial Ecosystem | |
Lamaazi et al. | Comprehensive comparative analysis of artificial intelligence, machine learning, and deep learning | |
Sarraf | An End-To-End Cloud-Based Solution for Optimal Attention Network Topology in Real-Time Applications | |
Ge | Knowledge graphs and its applications in finance | |
Ahamed et al. | Fundamentals of Artificial Intelligence & Machine Learning | |
Sajja et al. | Examples and Applications on Artificial Neural Networks | |
Poola | The best of the machine learning algorithms used in artificial intelligence | |
Mangat et al. | Relevance of data mining techniques in real life |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |