CN113379392A

CN113379392A - 一种众包场景中针对数值任务获取高质量数据的方法

Info

Publication number: CN113379392A
Application number: CN202110727017.7A
Authority: CN
Inventors: 李向阳; 史专; 张兰
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-10

Abstract

本发明公开了一种众包场景中针对数值任务获取高质量数据的方法，包括：步骤1，建立用户的初始主题级可靠性：确定包括样本数值任务和目标数值任务的数值任务集中每个数值任务的潜在主题，步骤2，依据用户的初始主题级可靠性进行真值推断；步骤3，通过激励机制进行在线任务分配：根据任务需求方提供的答案范围和精度要求，对任务的连续数值答案进行离散化得到离散化后的候选答案和离散化后的回答集；根据用户的主题级可靠性和针对任务的回答建立任务的分布矩阵，并依据分布矩阵计算任务的真值分布；当需要给到达的某一用户分配任务时，选取不确定性减少量最多的任务分配给该用户。能提高众包任务结果的质量。

Description

一种众包场景中针对数值任务获取高质量数据的方法

技术领域

本发明涉及众包获取数据的领域，尤其涉及一种收集数据的众包场景中针对数值任务获取高质量数据的方法。

背景技术

随着传感器技术和无线通信技术日新月异的发展，各类智能移动终端已经逐步发展为人们日常生活中的主流计算和通信设备。这些快速普及的移动设备，结合日益完善的Android、iOS等移动操作系统以及3G/4G/5G通信技术的发展，共同为众包这一快速、成本低廉的数据收集方式的兴起提供了基础。

目前，众包场景中通过激励机制获取高质量数据已有一系列方法，但这些方法主要针对的是分类任务，并不适用于数值任务。在分类任务(Categorical tasks)中，现有方法通常使用用户概率模型、混淆矩阵模型以及潜在领域模型来评估用户回答的可靠程度，并在此可靠性基础上通过相应的真值推断的算法和基于激励机制的在线任务分配算法，但现有方法都不能直接用于数值任务中，主要因为：1)现有的这些可靠性模型是为分类任务而设计的，是依据用户回答的准确性来建模的，而在数值任务中，需要依据用户回答的误差来对用户可靠性建模；2)现有的工作没有考虑到数值任务存在一些潜在的聚类，用户在不同任务类别上具有不同的可靠性。

发明内容

针对现有技术所存在的问题，本发明的目的是提供一种众包场景中针对数值任务获取高质量数据的方法，能解决现有收集数据的众包场景中，获取高质量数据的方法都是针对分类任务的，但由于分类任务与数值任务存在建模依据不同以及的数值任务存在一些潜在聚类的区别，使得现有的方法存在并不能适用于数值任务的问题。

本发明的目的是通过以下技术方案实现的：

本发明实施方式提供一种众包场景中针对数值任务获取高质量数据的方法，包括：

步骤1，建立用户的初始可靠性：确定数值任务集中每个数值任务的潜在主题，其中，所述数值任务集中的数值任务包括已知答案的样本数值任务和待回答的目标数值任务；

根据用户对样本数值任务的回答集和真值，初始化所述用户对样本数值任务的潜在主题的主题级可靠性，得到所述用户的初始主题级可靠性；

步骤2，依据用户的初始主题级可靠性进行真值推断：根据所述用户的初始主题级可靠性和每个目标数值任务的回答集推断得出每个目标数值任务的真值和主题分布，根据推断得出的每个目标数值任务的真值、主题分布和每个目标数值任务的回答集，迭代更新得出用户的主题级可靠性；

步骤3，通过激励机制进行在线任务分配：

根据任务需求方提供的答案范围和精度要求，对所述任务需求方给出的目标数值任务的连续数值答案进行离散化得到离散化后的候选答案和离散化后的回答集，用离散化后的候选答案和离散化后的回答集建立目标数值任务的分布矩阵；

根据所建立的目标数值任务的分布矩阵和用户的主题级可靠性计算目标数值任务的真值分布；

当需要给到达的某一用户分配目标数值任务时，通过熵衡量目标数值任务真值分布的不确定性，并根据该用户对目标数值任务可能的回答，计算出当目标数值任务分配给该用户时的不确定性，选取单位报价内不确定性减少量最多的目标数值任务分配给该用户。

由上述本发明提供的技术方案可以看出，本发明实施例提供的收集数据的众包场景中针对数值任务获取高质量数据的方法，其有益效果为：

通过为参与众包场景中数值任务的用户建立准确的用户可靠性，并依据用户可靠性设置相应的真值推断和基于激励机制的在线任务分配方式，从而提高众包收集结果的质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的众包场景中针对数值任务获取高质量数据的方法的流程图；

图2为本发明实施例提供的众包场景中针对数值任务获取高质量数据的方法的具体流程图；图2中：①目标数值任务、目标数值任务的范围和精度；②可完成任务数和报价集合；③样本数值任务；④样本数值任务的回答；⑤用户的主题级可靠性；⑥目标数值任务；⑦目标数值任务的回答；⑧主题分布；⑨预估的真值。

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

参见图1，本发明实施例提供一种众包场景中针对数值任务获取高质量数据的方法，包括：

步骤3，通过激励机制进行在线任务分配：

上述方法的步骤1中，按以下方式建立用户的初始可靠性，包括：

步骤11，确定潜在主题：将存在多个主题的数值任务中，属于同一主题的一组数值任务设为数值任务集群，以数值任务对所述数值任务集群的隶属度作为一位用户在该数值任务集群的各数值任务上的可靠性；

步骤12，确定用户的主题级可靠性：通过高斯分布将所述用户对样本数值任务回答的误差和所述用户的初始化主题级可靠性建模为概率图模型；

步骤13，估计得出用户的初始主题级可靠性：依据所述概率图模型，通过Gibbs-EM算法计算样本数值任务对各潜在主题的隶属度并优化样本数值任务主题的先验参数，同时计算得到用户的初始主题级可靠性。

上述的步骤11中，用Dirichlet分布和Multinomial分布描述数值任务集群以及数值任务对数值任务集群的隶属度。

上述方法的步骤2中，按以下方式依据用户的主题级可靠性进行真值推断，包括：

步骤21，推断任务的真值和主题分布：

对于目标数值任务当前参数下的真值和主题分布的潜在变量分布，计算最大后验概率的对数似然函数的期望；对所述最大后验概率的对数似然函数的期望求导得出所述目标数值任务的真值和主题分布；

步骤22，更新用户的主题级可靠性：

根据估计出的目标数值任务的真值和主题分布，结合当前目标数值任务的回答集，采用Gibbs-EM算法迭代更新用户的主题级可靠性。

上述方法的步骤3中，按以下方式通过激励机制进行在线任务分配，包括：

步骤31，预处理：

通过函数

离散化目标数值任务t的答案，其中，a_i表示任务需求方给出的目标数值任务t的回答集A_t中任意一个答案，当

则a_i是一个无效值；[e_t，min，e_t，max]表示任务需求方给出的目标数值任务t的答案范围；δ_t表示任务需求方给出的目标数值任务t的精度要求；

用

表示对任务需求方给出的目标数值任务t离散化后的候选答案，B_t表示对任务需求方给出的目标数值任务t离散化后的回答集；

步骤32，建立分布矩阵：

建立分布矩阵M_t存储目标数值任务t的主题和真值分布，所述分布矩阵中的元素m_t，k，l表示目标数值任务t属于主题k且真值是c_t，l的概率；

用

计算当前目标数值任务t的分布矩阵，之后用

对分布矩阵进行正则化；

用

表示目标数值任务t的分布矩阵，其中

步骤33，基于激励机制的在线任务分配：

用熵

表示目标数值任务t真值分布的不确定性；

当用户w到达时，获取用户w此次能完成的最大任务数S_W和对于所有目标数值任务的报价集合；当目标数值任务t分配给用户w时，遍历用户w可能的回答，用加权平均计算此时目标数值任务t真值分布不确定性

根据真值分布不确定性

计算对于目标数值任务t单位报价内真值分布不确定性的减少量

采用贪心算法从S_W个单位报价内选取真值分布不确定性减少最多的任务分配给用户w，由所述用户w为所分配的目标数值任务t提供相应的回答并接收对应的报酬b_t。

本发明的方法通过为参与众包场景中数值任务(Numerical tasks)的用户设计准确的用户可靠性模型，并依据用户可靠性模型设计相应的真值推断算法和基于激励机制的在线任务算法，从而提高众包收集结果的质量。

下面对本发明实施例具体作进一步地详细描述。

实施例

参见图1、2，本发明实施例的众包场景中针对数值任务获取高质量数据的方法，是一种基于激励机制的获取高质量数据的方法，主要分为以下步骤：用户可靠性建模、基于用户可靠性的真值推断和基于激励机制的在线任务分配；其中，

步骤1，用户可靠性建模：针对现有的可靠性模型不能分辨具备相同描述和真值任务之间差异的缺陷，利用用户在不同任务上可靠性的差异，利用用户行为构建任务特征，并据此构建任务间潜在的集群结构(主题)；

具体的，上述步骤1包括：

步骤11，确定潜在主题：假设任务间存在K个主题，而一位用户在一组属于同一主题的任务上表现出一致的可靠性。使用Dirichlet分布和Multinomial分布描述任务集群以及任务对任务集群的隶属度；

步骤12，用户主题级可靠性：用高斯分布来为用户回答的误差以及他们的主题级可靠性建模；

步骤13，参数估计：基于该概率图模型，使用Gibbs-EM方法在学习用户主题级可靠性的同时估计任务对各主题的隶属度并优化任务主题的先验参数；

步骤2，基于用户可靠性的真值推断：基于用户可靠性的真值推断主要由两个部分组成，一是根据当前用户的主题级可靠性和任务t的回答集进行真值和主题分布推断；二是根据推断好的真值和主题分布，结合任务的回答集，更新用户的主题级可靠性。

具体的，上述步骤2包括：

步骤21，真值和主题分布推断：

基于用户的主题级可靠性以及用户对于任务t的回答，需要估计出任务t的真值和主题分布；由于直接计算最大后验概率

是很困难的，因此采用EM算法(期望最大化算法)来计算，在E步骤(即期望步骤)中，针对当前参数

下的潜在变量Z的分布，计算

的对数似然函数的期望。在M步骤(即极大步骤)中，利用求导分别计算出

步骤22，更新用户的主题级可靠性：

在估计出任务t的真值和主题分布后，采用用户可靠性模型中参数估计的算法，实现对用户主题级可靠性的更新；

步骤3，基于激励机制的在线任务分配：

在线任务分配包含三个步骤，首先根据任务需求方提供的答案范围和精度要求，对连续数值答案进行离散化；而后依据用户的主题级可靠性和针对任务t的回答建立任务t的分布矩阵，并依据分布矩阵计算任务t的真值分布；最后，用熵来衡量任务t真值分布的不确定性，当用户w到达时，用户w会对平台现有任务集中的所有任务提供报价，例如对任务t的报价为b_t。在平台预算范围内，考虑若任务t分配给用户w后，计算任务t单位报价内真值分布不确定性的减少，采用贪心算法依次选取不确定性减少最多的任务分配给用户w。在任务t分配给用户w后，用户w提供相应的回答给平台，平台给用户w报酬b_t；

具体的，上述步骤3包括：

步骤31，预处理过程：

对于每一个目标任务t，用[e_t，min，e_t，max]来表示任务t的回答范围，a_i表示任务t的精度要求。而后对于任务t的回答集A_t中任意一个回答a_i，用函数

完成对任务t回答的离散化，注意当，认为a_i是一个无效值。用

来表示目标任务t离散化后的候选答案，用B_t来表示对目标任务t离散化后的回答集；

步骤32，分布矩阵的建立：

对于每一个目标数值任务t，建立一个分布矩阵M_t来存储该目标数值任务t的主题和真值的分布，该分布矩阵中的元素m_t，k，l表示目标数值任务t属于主题k且真值是c_t，l的概率；

采用

来计算该目标数值任务t的分布矩阵，之后用

对分布矩阵进行正则化，用

表示目标数值任务t的真值分布，真值分布由分布矩阵中的元素计算得出，其中

步骤33，在线任务分配：

对于目标任务t，用熵

来表示真值分布的不确定性。当用户w到达时，获取用户w此次能完成的最大任务数S_W以及对于平台任务库所有任务的报价集合，考虑当目标数值任务t分配给用户w时，遍历用户w可能的回答，用加权平均计算此时真值分布的不确定性

而后计算对于目标数值任务t单位报价真值分布不确定性的减少

采用贪心的算法选取S_W个单位报价内真值分布不确定性减少最多的任务分配给用户w，在目标数值任务t分配给用户w后，用户w提供相应的回答给平台，平台给用户w报酬b_t。

本发明的方法，通过对众包场景中数值任务建立用户可靠性模型，并根据该可靠性模型，设置相应的真值推断和基于激励机制的在线任务分配算法，提高众包任务结果的质量。该方法由于考虑了数值任务存在潜在聚类的现象，采用了回答误差来衡量用户可靠性，准确的刻画了用户的可靠性模型；同时基于设计的用户可靠性模型，设计出了一种新的基于EM(Expectation-Maximization)的真值推断的算法，提升了推断的准确性；另外，采用熵来衡量每个任务真值分布的不确定性，综合考虑用户对于每个任务的报价以及平台的预算，通过在线任务分配算法使得单位报价内不确定性能最大化减少，提升了分配效率。

本领域普通技术人员可以理解：实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。