CN110909880A

CN110909880A - 一种基于深度知识追踪的众包工人表现预测方法

Info

Publication number: CN110909880A
Application number: CN201911139173.0A
Authority: CN
Inventors: 孙海龙; 刘旭东; 王子哲
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2020-03-24
Anticipated expiration: 2039-11-20
Also published as: CN110909880B

Abstract

本发明提出一种基于深度知识追踪的众包工人表现预测方法，包括以下步骤，步骤1，数据预处理，将知识密集型众包任务的任务数据形式进行转换，转换为可以用于训练知识追踪模型的数据，具体分为任务结果二元化和数据拆分；步骤2，模型训练，用转换形式后的数据对深度知识追踪模型进行训练，得到一个工人表现预测模型；步骤3，工人表现预测，用训练得到的模型对工人表现进行预测。

Description

一种基于深度知识追踪的众包工人表现预测方法

技术领域

本发明涉及一种预测方法，尤其涉及一种基于深度知识追踪的众包工人表现预测方法。

背景技术

知识密集型众包是一种新兴的众包形式。知识密集型众包的形式与传统众包相似，其主要形式是在互联网平台上发布特定任务，由工人来接受任务并完成获得报酬，一个任务往往会由多人完成，最终由平台或任务发布者通过特定方法选出最优结果。与传统众包不同的是，知识密集型众包专注于处理更加复杂的任务，而不是传统众包中的微任务。微任务即一些简单的图片标注，常识性的问答等不需要专业知识与技能即可完成的任务。而知识密集型众包任务对工人能力的要求更高，往往要求工人具有一种乃至多种的专业技能。常见的知识密集型众包任务有众包软件开发、维基百科、问答社区。工人表现预测在任务推荐、任务分配、恶意工人检测等场景中起着十分关键的作用。但由于传统众包任务简单，工人的能力往往被设定为单一、静态的，这与知识密集型众包的情况不符。所以对于知识密集型众包任务，我们需要为其设计专门的工人表现预测模型。

现有技术主要从两个方面来对知识密集型众包中的工人能力进行估计。第一种方法就是直接建立多维能力模型，用多个维度来对工人的能力进行表示，根据工人在不同任务上的表现对各维度的值进行估计。第二种方法就是采用积分系统来估计工人能力。积分系统是一种常用于竞技体育的能力估计方法，通过每场比赛中不同选手的胜负情况来对选手的能力进行更新。由于知识密集型众包任务通常通过打分等方式来评估工人的完成情况，并选出最佳答案，故其中也存在明显的胜负关系，可以引入积分系统来对工人的能力进行更新。

现有技术包括多维能力模型和积分系统，使用的模型都相对简单，对真实情况的拟合能力不足。积分系统更是只采用一个维度的数据来表示工人能力，在多样的任务下很难做出准确的任务分配或推荐。

深度知识追踪方法通过引入深度学习，由于智能导学系统与知识密集型众包存在差异，导致深度知识追踪方法不能够直接运用到知识密集型众包上来。其主要问题包括：(1)目前的深度知识追踪方法只考虑需要单一技能的任务，也即只涉及单个知识点的题目；(2)深度知识追踪方法需要二元的任务结果(即答对答错)来训练模型，由于这些习题都有标准答案，故二元任务结果很容易获得，但知识密集型任务的结果往往是一个分值或一个排名，而非二元数据，这导致无法直接使用任务数据训练深度知识追踪模型。

发明内容

本发明针对知识密集型众包任务中工人能力的估计问题，旨在提出一种基于深度知识追踪的众包工人表现预测方法，解决深度知识追踪方法不能够在工人表现预测中直接使用的问题。该方法通过对深度知识追踪输入和输出数据的调整，解决了两个主要难题：(1)深度知识追踪模型需要使用单一技能/知识点的任务进行训练，而知识密集型众包任务通常都需要多种技能；(2)深度知识追踪模型需要使用二元的任务结果进行训练，而知识密集型众包任务的任务结果非二元结果。

本发明提出的一种基于深度知识追踪的众包工人表现预测方法，包括以下步骤，步骤1，数据预处理，将知识密集型众包任务的任务数据形式进行转换，转换为可以用于训练知识追踪模型的数据，具体分为任务结果二元化和数据拆分；步骤2，模型训练，用转换形式后的数据对深度知识追踪模型进行训练，得到一个工人表现预测模型；步骤3，工人表现预测，用训练得到的模型对工人表现进行预测。

附图说明

图1为本发明的整体流程图；

图2为结果数据预处理的具体流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提出的一种基于深度知识追踪的众包工人表现预测方法，包括以下步骤，步骤1，数据预处理，将知识密集型众包任务的任务数据形式进行转换，转换为可以用于训练知识追踪模型的数据，所述转换的过程包括任务结果二元化和数据拆分；步骤2，模型训练，用转换形式后的数据对深度知识追踪模型进行训练，得到工人表现预测模型；步骤3，工人表现预测，用训练得到的模型对工人表现进行预测。

步骤1中，所述任务结果二元化的过程为：

步骤1-1，对于每一个已完成的知识密集型众包任务，获取每个参与工人的得分数据(在Topcoder上为分数，在知乎、Quora上为点赞数)，根据数据对每个任务结果进行排名，当分数相同时取获得的最高排名；

步骤1-2，统计所有的任务结果中出现的分数和排名的分布。

步骤1-3，根据分数和排名的分布确定分数线S和排名线R，S和R需满足的条件为，分数大于或等于S且排名高于或等于R的任务结果数不超过总任务结果数的20％，S和R可在该范围内任取。

步骤1-4，将分数大于S且排名大于R的任务结果记为1，其余任务结果记为0。

所述数据拆分的具体方式为，对于需要多技能的任务T，其特征为F，F＝{f₁,f₂,…,f_n}表示所需技能的集合，将其拆分为多个单一技能的任务{T₁,T₂,…,T_n}，其中任务T_i仅需要技能f_i，每个任务的技能与原任务的技能一一对应。当工人w执行任务T并取得结果a后，将数据对(F,a)拆分为{(f₁,a),(f₂,a),…,(f_n,a)}，即所有子任务共享原任务执行结果，拆分之后，结合在结果二元化中已经转化为0和1的任务结果，就得到了可以用于训练深度知识追踪模型的数据，所述i,n均为正整数，且i∈n。

如图2所示，步骤2中模型训练的具体方式为，对于一个共有L条数据的数据集A，其中包含N名工人在M个任务下的执行结果以及这些任务分别涉及到的技能，每条数据所包含信息为任务名，工人名，工人的执行结果，以及任务涉及的技能。先采用步骤1中方法对该数据集进行预处理，然后将一个工人执行过的所有任务按照时间排序得到序列，每个执行过的任务有一个标签和一个结果，其中所述标签为该拆分后任务涉及到的技能，所述结果为0或1，这样处理后得到了N个不等长的序列，设训练集比例为r_train，验证集比例为r_valid，测试集比例为r_test，随机取出r_train*N条序列作为训练集，剩下的序列中随机取出r_valid*N作为验证集，剩下的序列作为测试集，并将训练集和验证集输入至深度知识追踪模型中进行训练得到工人表现预测模型。接下来用测试集估计模型精读，其具体过程为，将测试集输入到训练好的模型中，模型会对每条序列中的每个任务进行预测，将根据步骤1从同一个任务中拆分出来的任务分为一组，对每组的预测结果进行majority voting，得到对原任务的预测，并与原任务的真实结果进行比较，计算预测准确率，召回率，F1-Score等指标。

步骤3中，用所述工人表现预测模型对工人表现进行预测的具体方式为，假设我们需要预测工人w在M'个任务下的表现，先将这M'个任务按照时间排序，然后采用步骤1中方法将任务拆分为多个单技能的子任务，将该序列输入到模型中，模型将预测每一个子任务的任务结果并输出，然后将同一个任务中拆分出来的任务分为一组，对每组的预测结果进行majority voting，得到对原任务的预测。

一实施例预测一个众包工人一系列任务的完成结果，首先将这些任务按照时间排序，然后将每个任务按照其所需的技能拆分成多个子任务，每个任务只有一个技能标签。然后使用训练好的模型对这些拆分后的任务结果进行预测，最后采用majority voting算法对子任务的预测结果进行汇聚，得到对原任务的预测。Majority voting即当预测为1的子任务数量大于预测为0的子任务数量时，原任务预测结果为正，否则为负。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度知识追踪的众包工人表现预测方法，其特征在于，包括步骤1，数据预处理，将知识密集型众包任务的任务数据形式进行转换，转换为可以用于训练知识追踪模型的数据，所述转换的过程包括任务结果二元化和数据拆分；步骤2，模型训练，用转换形式后的数据对深度知识追踪模型进行训练，得到工人表现预测模型；步骤3，工人表现预测，用所述工人表现预测模型对工人表现进行预测。

2.如权利要求1所述的方法，其特征在于，所述步骤1中，所述任务结果二元化的过程为：

步骤1-1，对于每一个已完成的知识密集型众包任务，获取每个参与工人的得分数据，根据数据对每个任务结果进行排名，当分数相同时取获得的最高排名；

步骤1-2，统计所有的任务结果中出现的分数和排名的分布。

步骤1-3，根据分数和排名的分布确定分数线S和排名线R，确定分数线和排名线的方式为，分数大于或等于S且排名高于或等于R的任务结果数不超过总任务结果数的20％。

3.如权利要求2所述的方法，其特征在于，所述步骤1中数据拆分的具体方式为，对于需要多技能的任务T，其特征为F＝{f₁,f₂,…f_n}，所述F表示所需技能的集合，所述f_i为对应的技能，将F拆分为多个单一技能的任务{T₁,T₂,…,T_n}，其中任务T_i仅需要技能f_i，所述任务T_i的技能与原任务的技能f_i一一对应，当工人执行任务T并取得结果a后，将数据对(F,a)拆分为{(f₁,a),(f₂,a),…,(f_n,a)}，拆分之后，结合在所述结果二元化中已经转化为0和1的任务结果，得到用于训练深度知识追踪模型的数据，所述i,n均为正整数，且i∈n。

4.如权利要求3所述的方法，其特征在于，所述步骤2中模型训练的具体方式为，对于一个共有L条数据的数据集A，其中包含N名工人在M个任务下的执行结果以及这些任务分别涉及到的技能，每条数据所包含信息为任务名，工人名，工人的执行结果，以及任务涉及的技能，先对该数据集进行预处理，然后将一个工人执行过的所有任务按照时间排序得到序列，每个执行过的任务有一个标签和一个结果，其中所述标签为该拆分后任务涉及到的技能，所述结果为0或1，并得到了N个不等长的序列，训练集比例为r_train，验证集比例为r_valid，测试集比例为r_test，随机取出r_train*N条序列作为训练集，剩下的序列中随机取出r_valid*N作为验证集，其余的序列作为测试集，并将训练集和验证集输入至深度知识追踪模型中进行训练得到所述工人表现预测模型，然后用测试集估计模型精读，所述估计模型的具体过程为，将测试集输入到训练好的模型中，模型对每条序列中的每个任务进行预测，从同一个任务中拆分出来的任务分为一组，对每组的预测结果进行多数投票，得到对原任务的预测，并与原任务的真实结果进行比较，计算预测准确率，召回率指标。

5.如权利要求4所述的方法，其特征在于，所述步骤3中，用所述工人表现预测模型对工人表现进行预测的具体方式为，先将任务按照时间排序，然后拆分为多个单技能的子任务，用所述工人表现预测模型将预测每一个子任务的任务结果并输出，然后将同一个任务中拆分出来的任务分为一组，对每组的预测结果进行多数投票，得到对原任务的预测。