CN114357284A - 基于深度学习的众包任务个性化推荐方法和系统 - Google Patents

基于深度学习的众包任务个性化推荐方法和系统 Download PDF

Info

Publication number
CN114357284A
CN114357284A CN202111556219.6A CN202111556219A CN114357284A CN 114357284 A CN114357284 A CN 114357284A CN 202111556219 A CN202111556219 A CN 202111556219A CN 114357284 A CN114357284 A CN 114357284A
Authority
CN
China
Prior art keywords
task
crowdsourcing
data
personalized recommendation
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111556219.6A
Other languages
English (en)
Inventor
彭张林
万德全
王安宁
张强
陆效农
丁贾明
杨威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202111556219.6A priority Critical patent/CN114357284A/zh
Publication of CN114357284A publication Critical patent/CN114357284A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于深度学习的众包任务个性化推荐方法和系统,涉及任务推荐技术领域。本发明利用Attention机制的选择性关注隐层状态和LSTM网络对时间序列预测的准确性等优势,能够实现有效获取数据中的关键信息,从而得到众包工人对任务选择的兴趣变化和核心关注点,实现对用户整个行为序列变化的动态因素捕捉,再通过引入Word2Vec词向量模型,计算众包工人与任务之间的相似关联度,精准地向众包工人推荐众包任务。同时,本发明将众包数据切分为结构化数据和非结构化数据,从中得到历史行为信息的显式特征和隐式特征,以挖掘更有价值的潜在特征信息,进一步提高推荐精准度。

Description

基于深度学习的众包任务个性化推荐方法和系统
技术领域
本发明涉及任务推荐技术领域,具体涉及一种基于深度学习的众包任务个性化推荐方法和系统。
背景技术
随着互联网技术的快速发展以及网络用户规模的爆发式增长,通过群体智慧来解决问题的众包模式应运而生。在这种群体智能的独特性下,任务不再局限于特定、孤立的工作社区,而是以众包的方式在平台上发布,以竞争和合作的方式完成众包任务,这种跨地域、跨时间的新兴开发方式已经成为普遍的一种解决方案,近几年众包在计算机领域的学术界和工业界也都得到了非常广泛的关注。
现有的考虑总包工人的众包任务推荐方法类似于针对用户推荐的方法:先观察用户历史的任务信息,以及用户的关联用户的信息,进而将与用户历史任务相似的任务推荐给与用户关联的用户。
然而,这种方法缺乏对动态网络信息变化的分析处理,导致现有的众包任务推荐方法的推荐结果不精准。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于深度学习的众包任务个性化推荐方法和系统,解决了现有的众包任务推荐方法的推荐结果不精准的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供一种基于深度学习的众包任务个性化推荐方法,包括以下步骤:
S1、获取众包数据,并将所述众包数据分解为结构化数据和非结构化数据;
S2、基于预先构建的众包任务个性化推荐模型对所述结构化数据和非结构化数据进行处理,得到概率分布,对所述概率分布进行排序,得到所述推荐概率列表;其中,所述众包任务个性化推荐模型包括融入注意力层的长短期记忆神经网络通道、Word2Vec通道、全连接层和 softmax函数层,所述融入注意力层的长短期记忆神经网络通道对所述结构化数据进行处理,所述Word2Vec通道对所述非结构化数据进行处理。
优选的,所述结构化数据包括:
众包工人ID、类型、评级、信誉分数、证件信息、交易总金额、雇主好评率、所在城市、完成总任务量、总中标数、任务类型、任务价格、任务关注人数、任务投标人数、任务中标人数、任务发布时间、任务截止时间、历史任务信息和交易模式。
优选的,所述非结构化数据包括:
任务名称、任务需求、擅长技能和个人描述。
优选的,所述预先构建的众包任务个性化推荐模型的构建过程包括:
A1、获取众包数据,对总包数据进行预处理,将众包数据分解为结构化数据和非结构化数据,并构建包括训练集和测试集的数据集;
A2、基于数据集对初始众包任务个性化推荐模型进行训练和测试,得到众包任务个性化推荐模型。
优选的,所述融入注意力层的长短期记忆神经网络通道对所述结构化数据进行处理,包括:
其中,融入注意力层的长短期记忆神经网络通道包括Encoding层、 LSTM层和Attention层;
将结构化数据中与众包工人交互的所有历史众包任务按照众包工人ID和众包任务点击时间排序进行分组,得到这个任务点击的时间戳和第i个任务点击的时间戳之间的时间间隔Ti,依照间隔时间 [T1,T2,T3,……,Tn]排列,经过Encoding层得到的历史众包任务结构化序列特征[e1,e2,e3,……,en]作为LSTM的输入,目标任务的结构化数据和众包工人结构化数据经过Encoding层分别得到目标任务结构化特征向量和众包工人结构化特征向量;
LSTM层在处理时间序列特征后,每个LSTM单元可以得到当前时间步长t的隐藏状态输出;
在Attention层利用隐藏状态输出进行权重计算,将权重值与注意层的每个输入相乘得到具有注意力权重的特征向量,所述权重值基于当前时间步长t的隐藏状态输出和目标任务结构化特征向量计算得到。
优选的,所述方法还包括,
将众包工人结构化特征向量、目标任务结构化特征向量、具有注意力权重的特征向量以及Word2Vec通道输入的相似度联合,得到整体特征向量。
优选的,所述方法还包括:
将整体特征向量中输入到全连接层,全连接层每个神经元的激励函数采用ReLU函数,得到加权特征向量。
第二方面,本发明提供一种基于深度学习的众包任务个性化推荐系统,包括:
数据获取模块,用于获取众包数据,并将所述众包数据分解为结构化数据和非结构化数据;
推荐模块,用于基于预先构建的众包任务个性化推荐模型对所述结构化数据和非结构化数据进行处理,得到概率分布,对所述概率分布进行排序,得到所述推荐概率列表;其中,所述众包任务个性化推荐模型包括融入注意力层的长短期记忆神经网络通道、Word2Vec通道、全连接层和softmax函数层,所述融入注意力层的长短期记忆神经网络通道对所述结构化数据进行处理,所述Word2Vec通道对所述非结构化数据进行处理。
第三方面,本发明提供一种计算机可读存储介质,其存储用于基于深度学习的众包任务个性化推荐的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于深度学习的众包任务个性化推荐方法。
第四方面,本发明提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于深度学习的众包任务个性化推荐方法。
(三)有益效果
本发明提供了一种基于深度学习的众包任务个性化推荐方法和系统。与现有技术相比,具备以下有益效果:
本发明通过获取众包数据,并将众包数据分解为结构化数据和非结构化数据;基于预先构建的众包任务个性化推荐模型对所述结构化数据和非结构化数据进行处理,得到概率分布,对所述概率分布进行排序,得到所述推荐概率列表;其中,所述众包任务个性化推荐模型包括融入注意力层的长短期记忆神经网络通道、Word2Vec通道、全连接层和softmax函数层,所述融入注意力层的长短期记忆神经网络通道对所述结构化数据进行处理,所述Word2Vec通道对所述非结构化数据进行处理。本发明利用Attention机制的选择性关注隐层状态和LSTM 网络对时间序列预测的准确性等优势,能够实现有效获取数据中的关键信息,从而得到众包工人对任务选择的兴趣变化和核心关注点,实现对用户整个行为序列变化的动态因素捕捉,精准地向众包工人推荐众包任务。同时,本发明将众包数据切分为结构化数据和非结构化数据,从中得到历史行为信息的显式特征和隐式特征,以挖掘更有价值的潜在特征信息,进一步提高推荐精准度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的众包任务个性化推荐模型的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于深度学习的众包任务个性化推荐方法和系统,解决了现有的众包任务推荐方法的推荐结果不精准的技术问题,实现对用户整个行为序列变化的动态因素捕捉,精准地向众包工人推荐众包任务。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
现有的考虑总包工人的众包任务推荐方法类似于针对用户推荐的方法:先观察用户历史的任务信息,以及用户的关联用户的信息,进而将与用户历史任务相似的任务推荐给与用户关联的用户。这种方法存在以下问题:其一、这对于任务相似性的衡量标准较为粗糙,与用户关联的用户涉及的范围较小,众包工人之间往往是竞争的态势,没有较强的关联程度,无法观察到更多适合的任务;其二、传统推荐对于用户和任务的特征属性获取有限,不能有效的衡量用户或任务的性质;其三、缺乏对于动态网络信息变化的分析处理,没有聚焦在用户整体历史行为的动态变化过程,找到用户兴趣变化、内在因素,形成更有效益的推荐方法。
本发明通过对众包工人的特征数据以及历史任务信息进行建模,将结构化数据和非结构化数据进行多源数据融合,利用Attention机制的选择性关注隐层状态和LSTM网络对时间序列预测的准确性等优势,能够实现有效获取数据中的关键信息,从而得到众包工人对任务选择的兴趣变化和核心关注点,实现对于用户整个行为序列变化的动态因素捕捉;同时结合考虑传统基于任务的协同过滤推荐方法,利用 Word2Vec词向量的方法优化模型,得到更为准确的推荐算法,有效实现对众包工人的个性化任务推荐。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种基于深度学习的众包任务个性化推荐方法,包括:
S1、获取众包数据,并将众包数据分解为结构化数据和非结构化数据;
S2、基于预先构建的众包任务个性化推荐模型对所述结构化数据和非结构化数据进行处理,得到概率分布,对所述概率分布进行排序,得到所述推荐概率列表;其中,所述众包任务个性化推荐模型包括融入注意力层的长短期记忆神经网络通道、Word2Vec通道、全连接层和 softmax函数层,所述融入注意力层的长短期记忆神经网络通道对所述结构化数据进行处理,所述Word2Vec通道对所述非结构化数据进行处理。
本发明实施例利用Attention机制的选择性关注隐层状态和LSTM 网络对时间序列预测的准确性等优势,能够实现有效获取数据中的关键信息,从而得到众包工人对任务选择的兴趣变化和核心关注点,实现对用户整个行为序列变化的动态因素捕捉,精准地向众包工人推荐众包任务。同时,考虑众包推荐过程中,众包任务分配是具有约束性和能力壁垒的,往往众包任务的完成需要很强的专业能力知识的适配,对于LSTM-Attention通道训练过程中,兴趣点会集中在部分属性特征上,而忽略众包推荐本身的特殊性,通过引入Word2Vec通道,有效地从大量文本预料中以无监督方式学习语义知识,实现对非结构化数据地分析计算,得到众包工人和任务文本特征属性的相似度,从而修正众包工人与任务的适配性,优化推荐效果。
下面结合具体实施例对各个步骤进行详细说明:
在步骤S1中,获取众包数据,并将众包数据分解为结构化数据和非结构化数据。具体实施过程如下:
S101、获取众包数据,具体为:
使用基于Python的轻量级爬虫框架scrapy为基础,通过XPath、 CSS表达式进行网页数据提取解析,利用Redis数据库作为分布式共享爬虫队列,MongoDB数据库作为数据存储库,集成Selenium自动化测试工具、同时使用随机User-Agent、阿里云代理IP和自建代理IP池等中间件,并部署至云服务器,实现对一品威客平台的众包工人和众包任务数据的大规模实时增量爬取。具体主要爬取的数据包括:众包工人ID、类型、所在城市、评级、信誉分数、证件信息、个人描述、交易总金额、完成总任务量、雇主好评率、总中标数、擅长技能、历史任务信息、任务发布时间、任务截止时间、任务名称、任务需求、任务类型、任务价格、任务关注人数、任务投标人数,任务中标人数,交易模式等。
S102、对众包数据进行预处理,具体为:
获得爬取的数据之后,在输入到模型之前,要经过各种预处理的过程对数据进行清洗,以获得更高质量且有效的数据。预处理过程主要包括数据清洗和数据筛选。
对众包工人的历史任务数据,进行无意义任务的剔除,无意义任务包括不真实的任务数据、线下签订合同在众包平台过渡完成任务,比如刷单,任务测试等。
剔除众包工人任务投标记录小于或等于M条的众包数据,保留众包工人任务投标记录大于M条的众包数据;剔除众包工人任务投标记录时间很久没有更新的众包数据,投标更新时间阈值设定为t,如M设置为3,t设置为60天。
S103、将预处理后的数据拆分为结构化数据和非结构化数据,具体为:
结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。主要包括:众包工人ID、类型、评级、信誉分数、证件信息、交易总金额、雇主好评率、所在城市、完成总任务量、总中标数、任务类型、任务价格、任务关注人数、任务投标人数、任务中标人数,任务发布时间、任务截止时间、历史任务信息和交易模式。
非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。主要包括:任务名称、任务需求、擅长技能、个人描述。
表1:结构化数据和非结构化数据
Figure RE-GDA0003514661080000101
Figure RE-GDA0003514661080000111
在步骤S2中,基于预先构建的众包任务个性化推荐模型对所述结构化数据和非结构化数据进行处理,得到概率分布,对所述概率分布进行排序,得到所述推荐概率列表;其中,所述众包任务个性化推荐模型包括融入注意力层的长短期记忆神经网络通道、Word2Vec通道、全连接层和softmax函数层,所述融入注意力层的长短期记忆神经网络通道对所述结构化数据进行处理,所述Word2Vec通道对所述非结构化数据进行处理,具体实施过程如下:
在本发明实施例中,众包任务个性化推荐模型是预先构建训练的,众包任务个性化推荐模型的结构如图1所示,其训练过程如下:
A1、获取众包数据,对总包数据进行预处理,将众包数据分解为结构化数据和非结构化数据,并构建数据集。具体为:
获取众包数据,对总包数据进行预处理,将众包数据分解为结构化数据和非结构化数据,这些过程和步骤S1一致,具体参见步骤S1,此处不再赘述。
将处理后的众包数据按照众包工人的时序行为序列8:2的比例分成训练集和测试集,形成数据集。
A2、基于数据集对初始众包任务个性化推荐模型进行训练,得到众包任务个性化推荐模型。具体为:
本发明实施例的众包任务个性化推荐模型如图1所示。LSTM-Attention主要包括Embedding输入层、LSTM网络层、Attention 层。
将处理好的结构化数据通过Embedding层转化为向量序列表示,具体为:
对结构化数据采用相应的编码方式,对分类分级的数据采用标签编码,使每种类型能被一个数字所描述;对具体数值的数据直接编码,对含有高基数类别的数据采用特征哈希编码,将原始的高维特征向量压缩成较低维特征向量,保证输出的向量长度固定且尽量不损失原始特征的表达能力;还需要对其进行归一化处理,因为样本特征数据之间的类型和量纲不同,绝对值相差很大,会导致某些值域范围较小的特征被忽视,同时数据进行归一化提升模型的收敛速度和模型精度。
为了获取时间序列特征作为LSTM的输入,将结构化数据中与众包工人交互的所有历史众包任务按照众包工人ID和众包任务点击时间排序进行分组,得到这个任务点击的时间戳和第i个任务点击的时间戳之间的时间间隔Ti,依照间隔时间[T1,T2,T3,……,Tn]排列,经过 Encoding层得到的历史众包任务结构化序列特征[e1,e2,e3,……,en]作为LSTM的输入,目标任务的结构化数据和众包工人结构化数据经过 Encoding层分别得到目标任务结构化特征向量ea和众包工人结构化特征向量u。
利用LSTM层将每个时间序列的输出连接,学习上下文的信息传递,具体为:
LSTM层在处理时间序列特征后,每个LSTM单元可以得到当前时间步长t的隐藏状态输出ht,以学习和存储长期和短期的序列相关信息。
另外通过3个计算门来缓解长序列遗忘问题,分别为遗忘门f、输入门i、输出门o。具体的计算公式如下:
ft=σ(Wfht-1+Ufxt+bf)
it=σ(Wiht-1+Uixt+bi)
ot=σ(Woht-1+Uoxt+bo)
Figure RE-GDA0003514661080000131
Figure RE-GDA0003514661080000132
ht=ot⊙tanh(ct)
其中,Wf、Uf、Wi、Ui、Wo、Uo、Wc、Uc表示相应门的权重矩阵; bf、bi、bo、bc相应门的偏置向量;σ是sigmoID激活函数;⊙为点乘运算;
Figure RE-GDA0003514661080000133
是当前t时刻的细胞单元ct状态候选值;这三个门的状态取决于当前t时刻的输入xt和上一时刻的输出ht-1。遗忘门ft决定允许通过的先前状态ht-1的信息,输入门it决定从输入中添加到状态的新信息。输出门ot根据单元状态决定输出信息。
在Attention机制的处理下得到对于不同特征的注意力分配概率,有助于更好地优化模型,从而区分特征的影响,完成信息过滤,获得兴趣特征,具体为:
通过保持LSTM层对输入序列建模时每一步的中间输出结果,并将它们与输出序列的值联系起来,从而训练模型学习如何选择性地关注输入数据,为相关性更高的输入向量赋予更高的权重。即利用隐藏状态输出进行权重计算,将权重值at与注意层的每个输入相乘,有选择地学习这些输入,序列模型中不同的中间输出特征对下一层的贡献可能不同,注意权重使用的计算公式为:
Figure RE-GDA0003514661080000141
Figure RE-GDA0003514661080000142
其中:at为t时刻的权重值;ea为目标任务结构化特征向量的串联;
Figure RE-GDA0003514661080000143
nH为隐藏状态的维数;nA是任务嵌入向量的维数,*表示标量向量积,at,j是t时刻的第j个特征的权重值;ht,j是t时刻的第j个特征;
Figure RE-GDA0003514661080000144
表示具有注意力权重的特征向量。注意得分可以反映任务与输入 ht的关系,强相对性导致注意得分较大。
在本发明实施例中通过LSTM-Attention模型得到有注意力权重的特征向量,对于在不同维度上特征的注意力得分,反馈的就是众包工人历史行为变化的偏好。
通过Word2Vec通道对非结构化数据采用文本相似度计算的方式,获取任务兴趣关联的权重。
基于Word2Vec通道,通过Skip-gram算法每个文本映射到词向量,该词向量可用于表示文本和文本之间的关系。采用python的jieba分词对数据集中的非结构化数据进行分词,根据需要过滤掉的字词和标点符号建立停用词语料库,在分词之后,根据所述停用词语料库将分词结果中的停用词过滤掉;将过滤后的数据词袋化,统计词频并建立词典;对预处理后的数据进行词向量化,即将预处理后的数据映射为词向量,再根据生成的词向量构建词向量语料库;根据词向量语料库,对文本信息转化,将转换后的目标任务和历史任务文本进行计算余弦相似度s:
Figure RE-GDA0003514661080000151
其中,A目标任务文本转换后的向量;B表示历史任务文本转换后的向量;Ai目标任务文本中词汇转换后的向量;B表示历史任务文本中词汇转换后的向量。
将众包工人结构化特征向量u、目标任务结构化特征向量ea与上述模型运算得到的向量
Figure RE-GDA0003514661080000152
s联合到整体特征向量v中:
Figure RE-GDA0003514661080000153
将v中输入到全连接层,全连接层每个神经元的激励函数采用 ReLU函数,得到加权特征向量v’:
v’=ReLU(vW’+b’)
其中,W′和b′表示全连接层的网络参数。
最后一层全连接层的输出值被传递给一个输出,采用softmax函数作为网络目标函数来指导分类,对向量v’进行归一化得到概率分布y’:
y’=tanh(v’W”+b”)
其中:W″和b″表示模型可以学习的网络参数。通过输出层输出概率分布y’,对y’排序,进行一步得到推荐概率列表。
通过数据集中训练集对初始众包任务个性化推荐模型中的参数等进行训练,然后用测试集对众包任务个性化推荐模型进行测试优化,最后得到训练好的众包任务个性化推荐模型。
将步骤S1中得到的结构化数据和非结构化数据输入到训练好的众包任务个性化推荐模型中,输出概率分布,对概率分布进行排序,得到推荐概率列表。
本发明实施例还提供一种基于深度学习的众包任务个性化推荐系统,包括:
总包数据模块,用于获取众包数据,并将众包数据分解为结构化数据和非结构化数据;
任务推荐模块,用于基于预先构建的众包任务个性化推荐模型对所述结构化数据和非结构化数据进行处理,得到概率分布,对所述概率分布进行排序,得到所述推荐概率列表;其中,所述众包任务个性化推荐模型包括融入注意力层的长短期记忆神经网络通道、Word2Vec 通道、全连接层和softmax函数层,所述融入注意力层的长短期记忆神经网络通道对所述结构化数据进行处理,所述Word2Vec通道对所述非结构化数据进行处理。
本发明实施例还提供一种计算机可读存储介质,其存储用于基于深度学习的众包任务个性化推荐的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于深度学习的众包任务个性化推荐方法。
本发明实施例还提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于深度学习的众包任务个性化推荐方法。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明利用Attention机制的选择性关注隐层状态和LSTM网络对时间序列预测的准确性等优势,能够实现有效获取数据中的关键信息,从而得到众包工人对任务选择的兴趣变化和核心关注点,实现对用户整个行为序列变化的动态因素捕捉,精准地向众包工人推荐众包任务。同时,精准地向众包工人推荐众包任务能客观有效地度量众包工人和任务推荐关联,满足众包平台三方地效益。
2、本发明将众包数据切分为结构化数据和非结构化数据,从中得到历史行为信息的显式特征和隐式特征,以挖掘更有价值的潜在特征信息,进一步提高推荐精准度。
3、考虑众包推荐过程中,众包任务分配是具有约束性和能力壁垒的,往往众包任务的完成需要很强的专业能力知识的适配,对于 LSTM-Attention通道训练过程中,兴趣点会集中在部分属性特征上,而忽略众包推荐本身的特殊性,通过引入Word2Vec通道,有效地从大量文本预料中以无监督方式学习语义知识,实现对非结构化数据地分析计算,得到众包工人和任务文本特征属性的相似度,从而修正众包工人与任务的适配性,优化推荐效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度学习的众包任务个性化推荐方法,其特征在于,包括以下步骤:
S1、获取众包数据,并将所述众包数据分解为结构化数据和非结构化数据;
S2、基于预先构建的众包任务个性化推荐模型对所述结构化数据和非结构化数据进行处理,得到概率分布,对所述概率分布进行排序,得到所述推荐概率列表;其中,所述众包任务个性化推荐模型包括融入注意力层的长短期记忆神经网络通道、Word2Vec通道、全连接层和softmax函数层,所述融入注意力层的长短期记忆神经网络通道对所述结构化数据进行处理,所述Word2Vec通道对所述非结构化数据进行处理。
2.如权利要求1所述的基于深度学习的众包任务个性化推荐方法,其特征在于,所述结构化数据包括:
众包工人ID、类型、评级、信誉分数、证件信息、交易总金额、雇主好评率、所在城市、完成总任务量、总中标数、任务类型、任务价格、任务关注人数、任务投标人数、任务中标人数、任务发布时间、任务截止时间、历史任务信息和交易模式。
3.如权利要求2所述的基于深度学习的众包任务个性化推荐方法,其特征在于,所述非结构化数据包括:
任务名称、任务需求、擅长技能和个人描述。
4.如权利要求1~3任一所述的基于深度学习的众包任务个性化推荐方法,其特征在于,所述预先构建的众包任务个性化推荐模型的构建过程包括:
A1、获取众包数据,对总包数据进行预处理,将众包数据分解为结构化数据和非结构化数据,并构建包括训练集和测试集的数据集;
A2、基于数据集对初始众包任务个性化推荐模型进行训练和测试,得到众包任务个性化推荐模型。
5.如权利要求1~3任一所述的基于深度学习的众包任务个性化推荐方法,其特征在于,所述融入注意力层的长短期记忆神经网络通道对所述结构化数据进行处理,包括:
其中,融入注意力层的长短期记忆神经网络通道包括Encoding层、LSTM层和Attention层;
将结构化数据中与众包工人交互的所有历史众包任务按照众包工人ID和众包任务点击时间排序进行分组,得到这个任务点击的时间戳和第i个任务点击的时间戳之间的时间间隔Ti,依照间隔时间[T1,T2,T3,……,Tn]排列,经过Encoding层得到的历史众包任务结构化序列特征[e1,e2,e3,……,en]作为LSTM的输入,目标任务的结构化数据和众包工人结构化数据经过Encoding层分别得到目标任务结构化特征向量和众包工人结构化特征向量;
LSTM层在处理时间序列特征后,每个LSTM单元可以得到当前时间步长t的隐藏状态输出;
在Attention层利用隐藏状态输出进行权重计算,将权重值与注意层的每个输入相乘得到具有注意力权重的特征向量,所述权重值基于当前时间步长t的隐藏状态输出和目标任务结构化特征向量计算得到。
6.如权利要求5所述的基于深度学习的众包任务个性化推荐方法,其特征在于,所述方法还包括,
将众包工人结构化特征向量、目标任务结构化特征向量、具有注意力权重的特征向量以及Word2Vec通道输入的相似度联合,得到整体特征向量。
7.如权利要求6所述的基于深度学习的众包任务个性化推荐方法,其特征在于,所述方法还包括:
将整体特征向量中输入到全连接层,全连接层每个神经元的激励函数采用ReLU函数,得到加权特征向量。
8.一种基于深度学习的众包任务个性化推荐系统,其特征在于,包括:
数据获取模块,用于获取众包数据,并将所述众包数据分解为结构化数据和非结构化数据;
推荐模块,用于基于预先构建的众包任务个性化推荐模型对所述结构化数据和非结构化数据进行处理,得到概率分布,对所述概率分布进行排序,得到所述推荐概率列表;其中,所述众包任务个性化推荐模型包括融入注意力层的长短期记忆神经网络通道、Word2Vec通道、全连接层和softmax函数层,所述融入注意力层的长短期记忆神经网络通道对所述结构化数据进行处理,所述Word2Vec通道对所述非结构化数据进行处理。
9.一种计算机可读存储介质,其特征在于,其存储用于基于深度学习的众包任务个性化推荐的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~7任一项所述的基于深度学习的众包任务个性化推荐方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~7任一项所述的基于深度学习的众包任务个性化推荐方法。
CN202111556219.6A 2021-12-17 2021-12-17 基于深度学习的众包任务个性化推荐方法和系统 Pending CN114357284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111556219.6A CN114357284A (zh) 2021-12-17 2021-12-17 基于深度学习的众包任务个性化推荐方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111556219.6A CN114357284A (zh) 2021-12-17 2021-12-17 基于深度学习的众包任务个性化推荐方法和系统

Publications (1)

Publication Number Publication Date
CN114357284A true CN114357284A (zh) 2022-04-15

Family

ID=81099281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111556219.6A Pending CN114357284A (zh) 2021-12-17 2021-12-17 基于深度学习的众包任务个性化推荐方法和系统

Country Status (1)

Country Link
CN (1) CN114357284A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994675A (zh) * 2023-03-22 2023-04-21 北京语言大学 一种面向文本序列的高性价比众包工人选择方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994675A (zh) * 2023-03-22 2023-04-21 北京语言大学 一种面向文本序列的高性价比众包工人选择方法及装置

Similar Documents

Publication Publication Date Title
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN110188272B (zh) 一种基于用户背景的社区问答网站标签推荐方法
CN111506732B (zh) 一种文本多层次标签分类方法
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN109190109B (zh) 融合用户信息生成评论摘要的方法及装置
CN112579778A (zh) 基于多层次的特征注意力的方面级情感分类方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN111079985A (zh) 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN111078847A (zh) 电力用户意图识别方法、装置、计算机设备和存储介质
CN113051916A (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
CN112989761B (zh) 文本分类方法及装置
CN111382573A (zh) 用于答案质量评估的方法、装置、设备和存储介质
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN114492423A (zh) 基于特征融合及筛选的虚假评论检测方法、系统及介质
CN114331122A (zh) 重点人员风险等级评估方法及相关设备
CN114662652A (zh) 一种基于多模态信息学习的专家推荐方法
CN114357284A (zh) 基于深度学习的众包任务个性化推荐方法和系统
CN116342167B (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN114942991B (zh) 一种基于隐喻识别的情感分类模型构建方法
CN113821571B (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN110334189B (zh) 基于长短时和自注意力神经网络的微博话题标签确定方法
CN114020901A (zh) 一种结合主题挖掘和情感分析的金融舆情分析方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination