CN109063043A

CN109063043A - 一种数据处理方法、装置、介质和设备

Info

Publication number: CN109063043A
Application number: CN201810786759.5A
Authority: CN
Inventors: 武冰冰; 侯昕杰; 王晓鹏; 王薇
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-12-21
Anticipated expiration: 2038-07-17
Also published as: CN109063043B

Abstract

本发明涉及数据处理技术领域，特别涉及一种数据处理方法、装置、介质和设备。包括：在接收到数据任务请求时，可以确定对应的数据，返回至客户端进行处理。在接收到客户端返回的数据处理结果时，可以根据用户标识对应的数据处理的准确率，来确定处理结果是否有效。从而在接收到处理结果时，根据用户标识对应的数据处理的准确率，来判断处理结果的有效性，保证数据处理的准确性。

Description

一种数据处理方法、装置、介质和设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种数据处理方法、装置、介质和设备。

背景技术

大数据时代，人工智能领域需要对海量的数据进行标注，以用于训练模型。为了提高数据标注的效率，可以考虑通过众包模式进行数据标注。众包指的是一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。

在通过众包模式进行数据标注时，如何获得准确的数据处理结果成为目前亟需解决的问题。

发明内容

本发明实施例提供一种数据处理方法、装置、介质和设备，用于解决如何获得准确的数据处理结果的问题。

本发明提供一种数据处理方法，所述方法包括：

接收客户端发送的数据任务请求，所述数据任务请求中携带用户标识；

确定向所述客户端返回的第一类数据，并返回至所述客户端；

接收所述客户端返回的对所述第一类数据的处理结果，并根据所述用户标识当前对应的数据处理的准确率，确定所述处理结果是否为有效数据。

根据本发明提供的方案，在接收到数据任务请求时，可以确定对应的数据，返回至客户端进行处理。在接收到客户端返回的数据处理结果时，可以根据用户标识对应的数据处理的准确率，来确定处理结果是否有效。从而在接收到处理结果时，根据用户标识对应的数据处理的准确率，来判断处理结果的有效性，保证数据处理的准确性。

确定向所述客户端返回的第一类数据，包括：

确定所述用户标识当前对应的用户等级；

根据所述用户等级对应的数据库优先级排序，按照优先级由高到低的顺序，选择一个数据库，其中，不同数据库中包含的第一类数据已经被处理的次数不同；

从所选择的数据库中，确定向所述客户端返回的第一类数据。

进一步的，还可以根据用户等级确定对应的数据库优先级，并从中确定出第一类数据向客户端返回，从而向不同用户等级用户返回不同的数据，进一步保证数据处理的准确性。

同时，通过优先级排序的数据库，来确定数据向客户端返回，还可以保证有充足的数据向客户端返回，避免单一数据库存在的数据不足的问题。

所述用户标识当前对应的数据处理的准确率，通过以下方式确定：

根据所述用户标识对应的已完成的第一类数据处理结果的准确率，和/或所述用户标识对应的已完成的第二类数据处理结果的准确率，确定所述用户标识对应的数据处理的准确率，其中，所述第二类数据为已知处理结果的数据。

进一步的，可以通过多种方式来实时确定所述用户标识当前对应的数据处理的准确率，以更准确地确定所述用户标识当前对应的数据处理的准确率，从而更准确地确定处理结果是否为有效数据。

所述方法还包括：

为所述客户端返回设定数量的第二类数据；或者

按照设定数量比例，为所述客户端返回所述第一类数据和所述第二类数据。

为了确定所述用户标识对应的已完成的第二类数据处理结果的准确率，可以为所述客户端返回设定数量的第二类数据。

更具体的，如果还需要返回第二类数据，可以按照设定数量比例返回的方式，为所述客户端返回所述第一类数据和所述第二类数据。

根据所述用户标识对应的数据处理的准确率，确定所述处理结果是否为有效数据，包括：

若所述用户标识对应的数据处理的准确率满足设定的准确率条件，且所述处理结果满足设定的拟合条件，则确定所述处理结果为有效数据；其中：

所述设定的准确率条件为：不低于与所述处理结果对应的第一类数据所属的数据库对应的准确率门限值；

所述设定的拟合条件为：与所述处理结果对应的第一类数据被处理了N次，且N次处理结果相同，其中所述N为正整数。

较优的，在确定处理结果是否为有效数据时，可以通过准确率条件和拟合条件双重判断的方式来确定，如果既满足准确率条件，又满足拟合条件，则确定处理结果为有效数据。

所述方法还包括：

若所述用户标识对应的数据处理的准确率满足设定的准确率条件，但所述处理结果不满足设定的拟合条件，确定所述处理结果为无效数据，并将所述处理结果对应的第一类数据转至专业处理数据库。

如果满足准确率条件，但不满足拟合条件，则确定处理结果为无效数据。

所述方法还包括：

若所述用户标识对应的数据处理的准确率不满足设定的准确率条件，且所述处理结果对应的第一类数据被处理次数未达到最大次数，将所述处理结果及其对应的第一类数据加入对应的数据库；或者

若所述用户标识对应的数据处理的准确率不满足设定的准确率条件，且所述处理结果对应的第一类数据被处理次数已达到最大次数，确定所述处理结果为无效数据，并将所述处理结果对应的第一类数据转至专业处理数据库。

如果不满足准确率条件，则可以判断处理结果对应的第一类数据被处理次数是否达到最大次数，从而判断是否需要将第一类数据继续加入其它数据库。

本发明还提供一种数据处理装置，所述装置包括：

接收模块，用于接收客户端发送的数据任务请求，所述数据任务请求中携带用户标识；

确定模块，用于确定向所述客户端返回的第一类数据；

返回模块，用于将所述数据库确定模块确定出的第一类数据返回至所述客户端；

所述接收模块，还用于接收所述客户端返回的对所述第一类数据的处理结果；

准确率确定模块，用于确定所述用户标识当前对应的数据处理的准确率；

处理模块，用于根据所述用户标识当前对应的数据处理的准确率，确定所述接收模块接收到的所述处理结果是否为有效数据。

所述确定模块，具体用于确定所述用户标识当前对应的用户等级；根据所述用户等级对应的数据库优先级排序，按照优先级由高到低的顺序，选择一个数据库，其中，不同数据库中包含的第一类数据已经被处理的次数不同；从所选择的数据库中，确定向所述客户端返回的第一类数据。

所述准确率确定模块，具体用于根据所述用户标识对应的已完成的第一类数据处理结果的准确率，和/或所述用户标识对应的已完成的第二类数据处理结果的准确率，确定所述用户标识对应的数据处理的准确率，其中，所述第二类数据为已知处理结果的数据。

所述返回模块，还用于为所述客户端返回设定数量的第二类数据；或者

所述处理模块，具体用于若所述用户标识对应的数据处理的准确率满足设定的准确率条件，且所述处理结果满足设定的拟合条件，则确定所述处理结果为有效数据；其中：

所述处理模块，还用于若所述用户标识对应的数据处理的准确率满足设定的准确率条件，但所述处理结果不满足设定的拟合条件，确定所述处理结果为无效数据，并将所述处理结果对应的第一类数据转至专业处理数据库。

所述处理模块，还用于若所述用户标识对应的数据处理的准确率不满足设定的准确率条件，且所述处理结果对应的第一类数据被处理次数未达到最大次数，将所述处理结果及其对应的第一类数据加入对应的数据库；或者

本发明还提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述方法的步骤。

本发明还提供一种数据处理设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述程序时实现如上所述方法的步骤。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的数据处理方法的流程示意图；

图2为本发明实施例二提供的数据处理方法的流程示意图；

图3为本发明实施例三提供的数据处理方法的流程示意图；

图4为本发明实施例四提供的数据处理装置的结构示意图；

图5为本发明实施例五提供的数据处理设备的结构示意图。

具体实施方式

在本发明实施例提供的方案中，可以向各等级用户返回不同的数据使得各等级用户完成对应的数据任务，如，数据标注任务。较优的，可以为各等级用户确定不同的数据库派题优先级，保证有充足的数据向用户返回。

在用户执行数据任务的同时，还可以实时确定用户执行数据任务的可信度。在每次接收到客户端返回的对一条数据的处理结果时，可以根据对应的用户标识对应的数据处理的准确率，来确定对处理结果的处理方式。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实施例一提供一种数据处理方法，该方法的步骤流程可以如图1所示，包括：

步骤001、接收数据任务请求。

在本步骤中，可以接收客户端发送的数据任务请求，所述数据任务请求中携带用户标识。

步骤002、确定用户等级。

在本步骤中，可以确定接收到的数据任务请求中，携带的用户标识对应的用户等级。

具体的，可以根据保存的用户标识和用户等级的对应关系，确定用户等级。当然，用户等级可以是实时更新的。

所述用户等级可以通过任意方式确定。例如，可以根据一个用户标识对应的已完成的第二类数据处理结果的准确率，确定对应的用户等级，例如，将准确率高于98％的，确定对应的用户等级为A。将准确率高于80％，不高于98％的，确定对应的用户等级为B。将准确率高于60％的，不高于80％的，确定对应的用户等级为C。将准确率不高于60％的，确定对应的用户等级为D。其中，所述第二类数据为已知处理结果的数据。

所述用户标识对应的已完成的第二类数据处理结果的准确率，可以但不限于理解为根据以下至少一种方式确定：

方式一、根据所述用户标识对应的最近完成的设定数量的第二类数据处理结果的准确率确定，例如，根据所述用户标识对应的最近完成的80条第二类数据处理结果的准确率确定；

方式二、根据所述用户标识对应的设定时间内完成的第二类数据处理结果的准确率确定，例如，根据所述用户标识对应的一天内完成的第二类数据处理结果的准确率确定；

方式三、根据所述用户标识对应的历史已完成的所有第二类数据处理结果的准确率确定，例如，根据所述用户标识对应的历史已完成的所有第二类数据，如共30条，处理结果的准确率确定。

需要说明的是，以上三种方式还可以以任意方式进行结合，例如，方式一和方式二可以结合，具体的，可以但不限于将最近完成的设定数量的第一类数据处理结果的准确率，和设定时间内完成的第一类数据处理结果的准确率的平均值，确定为所述用户标识对应的已完成的第二类数据处理结果的准确率。

本步骤是一个优选步骤。在步骤001之后，可以直接执行步骤003。

步骤003、确定对应的第一类数据并返回。

在本步骤中，可以确定向所述客户端返回的第一类数据，并返回至所述客户端。

具体的，还可以根据用户等级确定向所述客户端返回的第一类数据。从而可以根据用户等级确定对应的第一类数据并返回，保证数据处理的准确性。

较优的，根据所述用户等级，确定向所述客户端返回的第一类数据，包括：

根据所述用户等级对应的数据库优先级排序，按照优先级由高到低的顺序，选择一个数据库，其中，不同数据库中包含的第一类数据已经被处理的次数不同；从所选择的数据库中，确定向所述客户端返回的第一类数据。

步骤004、确定处理结果是否为有效数据。

在本步骤中，可以接收所述客户端返回的对所述第一类数据的处理结果，并根据所述用户标识当前对应的数据处理的准确率，确定所述处理结果是否为有效数据。

具体的，可以但不限于根据所述用户标识对应的已完成的第一类数据处理结果的准确率，和/或所述用户标识对应的已完成的第二类数据处理结果的准确率，确定所述用户标识对应的数据处理的准确率，其中，所述第二类数据为已知处理结果的数据。

所述用户标识对应的已完成的第一类数据处理结果的准确率，可以但不限于为理解为根据以下至少一种方式确定：

方式一、根据所述用户标识对应的最近完成的设定数量的第一类数据处理结果的准确率确定，例如，根据所述用户标识对应的最近完成的100条第一类数据处理结果的准确率确定；

方式二、根据所述用户标识对应的设定时间内完成的第一类数据处理结果的准确率确定，例如，根据所述用户标识对应的一周内完成的第一类数据处理结果的准确率确定；

方式三、根据所述用户标识对应的历史已完成的所有第一类数据处理结果的准确率确定，例如，根据所述用户标识对应的历史已完成的所有第一类数据，如共120条，处理结果的准确率确定。

需要说明的是，以上三种方式还可以以任意方式进行结合，例如，方式一和方式二可以结合，具体的，可以但不限于将最近完成的设定数量的第一类数据处理结果的准确率，和设定时间内完成的第一类数据处理结果的准确率的平均值，确定为所述用户标识对应的已完成的第一类数据处理结果的准确率。

方式一、根据所述用户标识对应的最近完成的设定数量的第二类数据处理结果的准确率确定，例如，根据所述用户标识对应的最近完成的100条第二类数据处理结果的准确率确定；

方式二、根据所述用户标识对应的设定时间内完成的第二类数据处理结果的准确率确定，例如，根据所述用户标识对应的一周内完成的第二类数据处理结果的准确率确定；

方式三、根据所述用户标识对应的历史已完成的所有第二类数据处理结果的准确率确定，例如，根据所述用户标识对应的历史已完成的所有第二类数据，如共120条，处理结果的准确率确定。

当然，以上三种方式也可以以任意方式进行结合，以确定所述用户标识对应的已完成的第二类数据处理结果的准确率。

根据所述用户标识对应的已完成的第一类数据处理结果的准确率，和所述用户标识对应的已完成的第二类数据处理结果的准确率，确定所述用户标识对应的数据处理的准确率，可以通过任意方式实现。例如，将根据所述用户标识对应的已完成的第一类数据处理结果的准确率，和所述用户标识对应的已完成的第二类数据处理结果的准确率的平均值，确定为所述用户标识对应的数据处理的准确率。

为了确定所述用户标识对应的已完成的第二类数据处理结果的准确率，可以为所述客户端返回设定数量的第二类数据。还可以按照设定数量比例(例如9：1)，为所述客户端返回所述第一类数据和所述第二类数据。

具体的，根据所述用户标识对应的数据处理的准确率，确定所述处理结果是否为有效数据，包括：

进一步的，还可以包括：若所述用户标识对应的数据处理的准确率满足设定的准确率条件，但所述处理结果不满足设定的拟合条件，确定所述处理结果为无效数据，并将所述处理结果对应的第一类数据转至专业处理数据库。

更进一步的，还可以包括：

若所述用户标识对应的数据处理的准确率不满足设定的准确率条件，且所述处理结果对应的第一类数据被处理次数未达到最大次数，将所述处理结果及其对应的第一类数据加入对应的数据库，可以理解为若所述处理结果对应的第一类数据被处理次数为M次，则可以将所述处理结果及其对应的第一类数据加入已处理次数为M+1的数据库；或者

实施例二

本发明实施例二提供一种数据处理方法，以数据任务为数据标注任务为例，对本发明实施例一提供的方案进行说明，该方法的步骤流程可以如图1所示，包括：

步骤101、接收数据标注请求。

在本步骤中，可以接收客户端发送的数据标注请求，所述数据标注请求中携带用户标识。

可以但不限于理解为，所述客户端通过用户的登录信息确定用户的用户标识。

步骤102、确定用户等级。

在本步骤中，可以确定接收到的数据标注请求中，携带的用户标识对应的用户等级。

步骤103、确定对应的待标注数据库。

在本步骤中，可以根据确定出的用户等级，确定对应的优先级排序的至少一个待标注数据库，在本实施例中，可以理解为，每个待标注数据库包括的待标注数据(待标注数据可以理解为第一类数据)已经被标注的次数不同。

在本实施例中，可以理解为可以根据用户等级，确定用户的可信度。可以但不限于认为，用户等级越高的用户，可信度越高，其数据标注的准确性越高。例如，假设用户等级包括四个等级，依次表示为A等级、B等级、C等级和D等级，且A等级高于B等级，B等级高于C等级，C等级高于D等级，则，可以认为A等级用户数据标注的准确性最高，其次是B等级用户，再次是C等级用户，最后是D等级用户。

为了提高数据标注的准确性，对于可信度较低的用户等级，可以根据至少两个用户的标注结果，来确定一条待标注数据对应的最终标注结果。

例如，对于A等级用户，可以将一个A等级用户的标注结果，作为一条待标注数据的最终标注结果。而对于B等级用户，可以根据两个B等级用户的标注结果，确定一条待标注数据的最终标注结果。对于C(或D)等级用户，由于其可信度较B等级用户更低，可以根据三个C(或D)等级用户的标注结果，确定一条待标注数据的最终标注结果。

则与之对应的，待标注数据库可以包括一次待标注数据库、二次待标注数据库和三次待标注数据库。可以理解为一次待标注数据库中，一条待标注数据已经被标注的次数为0次(可以理解为，任意一条初始的待标注数据(未经标注的数据)都可以存放在一次待标注数据库中，以等待标注)，二次待标注数据库中，一条待标注数据已经被标注的次数为1次(可以理解为，将经过一个B等级用户标注的数据存放在二次待标注数据库中，以等待第二次标注)，三次待标注数据库中，一条待标注数据已经被标注的次数为2次(可以理解为，将经过两个C(或D)等级用户标注的数据存放在三次待标注数据库中，以等待第三次标注)。

对于A等级用户，对应的优先级按照从高到低排序的待标注数据库可以依次为：一次待标注数据库、二次待标注数据库和三次待标注数据库。

即，对于一个A等级用户，首先从一次待标注数据库中提取待标注数据，通过客户端返回给A等级用户。由于A等级用户的标注结果可以直接作为最终的标注结果，因此，可以直接将未经标注的待标注数据返回给A等级用户，这样，该A等级用户标注后，即可以确定最终的标注结果，从而尽快确定一条待标注数据的最终标注结果。如果一次待标注数据库中数据不足，则从二次待标注数据库提取待标注数据返回，即如果数据不足，可以将A等级用户视为B等级用户参与数据标注。如果二次待标注数据库中数据不足，则从三次待标注数据库提取待标注数据返回，即如果数据仍然不足，可以将A等级用户视为C等级用户参与数据标注。

对于B等级用户，对应的优先级按照从高到低排序的待标注数据库可以依次为二次待标注数据库、一次待标注数据库和三次待标注数据库。

可以理解为，由于需要对两个B等级用户的标注结果进行拟合，才能得到一条待标注数据的最终标注结果。因此，对于一个B等级用户，可以首先从二次待标注数据库中提取待标注数据，通过客户端返回给B等级用户，由于返回的待标注数据已经经过一次标注，这样，该B等级用户标注后，即可以拟合确定最终的标注结果，从而尽快确定一条待标注数据的最终标注结果。如果二次待标注数据库中数据不足，则可以从一次待标注数据库提取待标注数据返回，这样可以经B等级用户标注，继续产生新的数据加入二次待标注数据库。如果一次待标注数据库中数据不足，则可以从三次待标注数据库提取待标注数据返回，即如果无法继续产生数据加入二次待标注数据库，可以将B等级用户视为C等级用户参与数据标注。

对于C(或D)等级用户，对应的优先级按照从高到低排序的待标注数据库可以依次为三次待标注数据库、二次待标注数据库和一次待标注数据库。

可以理解为，由于需要对三个C(或D)等级用户的标注结果进行拟合，才能得到一条待标注数据的最终标注结果。因此，对于一个C(或D)等级用户，可以首先从三次待标注数据库中提取待标注数据，通过客户端返回给C(或D)等级用户，由于返回的待标注数据已经经过两次标注，这样，该C(或D)等级用户标注后，即可以拟合确定最终的标注结果，从而尽快确定一条待标注数据的最终标注结果。如果三次待标注数据库中数据不足，则可以从二次待标注数据库提取待标注数据返回，这样可以经C(或D)等级用户标注，继续产生新的数据加入三次待标注数据库。如果二次待标注数据库中数据不足，无法产生新的数据加入三次待标注数据库，则可以从一次待标注数据库提取待标注数据返回，将C(或D)等级用户暂时作为B等级用户进行标注，这样可以经C(或D)等级用户标注，继续产生新的数据加入二次待标注数据库。

需要说明的是，在本实施例中，用户等级不限于包括四个等级，也不限于根据一个A等级用户、两个B等级用户、三个C(或D)等级用户的标注结果，来确定一条待标注数据的最终标注结果。对应的，待标注数据库也不限于包括一次待标注数据库、二次待标注数据库和三次待标注数据库，当然，每个用户等级对应的待标注数据库优先级也不限于上述方式。

步骤104、提取待标注数据，返回至客户端。

在本步骤中，可以按照优先级由高到低的顺序选择一个待标注数据库，若选择出的待标注数据库中存在待标注数据，则从该待标注数据库中提取一条待标注数据，返回至所述客户端进行标注，否则，选择下一个待标注数据库，直至向所述客户端返回的待标注数据达到设定数量。

步骤105、接收标注结果。

进一步的，将一条待标注数据返回至客户端之后，可以接收客户端返回的对该条待标注数据的标注结果。

需要说明的是，较优的，在用户执行数据标注任务的同时，还可以进一步向用户返回沙子题目，用于实时确定用户进行数据标注的可信度，以进一步确定对客户端返回的标注结果的处理方式。即在本实施例中，以用户标识对应的数据处理的准确率，通过沙子数据(即第二类数据)处理的准确率来确定为例进行说明。

具体的，在将设定数量的待标注数据，逐一返回至所述客户端的过程中，可以从沙子数据库提取指定数量的沙子数据，逐一返回至所述客户端进行标注，所述沙子数据可以理解为已知标注结果的数据。并可以根据已知标注结果，确定所述客户端返回的、所述用户标识对应的对沙子数据的标注结果是否准确。

更具体的，沙子数据和待标注数据的数量可以存在一定的比例关系，例如，沙子数据的指定数量，与待标注数据的设定数量之间的比例为1:9。且指定数量的沙子数据和设定数量的待标注数据可以按照设定方式，如随机方式，又如，每N条待标注数据，一条沙子数据的方式，向客户端返回。

假设用户标识对应的已完成的沙子数据处理结果的准确率，根据最近完成的设定数量的沙子数据处理结果的准确率确定。那么需要说明的是，如果所述用户标识对应的对沙子数据的标注数量没有达到门限数量(即设定数量)，则可以但不限于认为准确率不低于所述用户等级对应的准确率门限值。进一步的，所述用户等级的初始评定也可以是基于沙子数据的，例如，基于一个用户对一定数量(如100条)的沙子数据标注结果的正确率，确定一个用户的用户等级。若用户等级的初始评定也是基于沙子数据的，则可以将初始用于评定用户等级的，用户对沙子数据的标注也用于统计准确率。

另外，所述用户标识对应的对门限数量的沙子数据标注结果的准确率，可以但不限于为接收到所述客户端返回的对一条待标注数据的标注结果时，用户标识对应的对最近返回的门限数量的沙子数据标注结果的准确率。

在本步骤中，接收到所述客户端返回的对一条待标注数据的标注结果时，可以确定所述用户标识对应的对门限数量的沙子数据标注结果的准确率。

若该待标注数据被标注了一次，且所述准确率不低于该待标注数据被标注次数对应的准确率门限值，则将该待标注数据及对应的标注结果确定为一个训练样本(可以理解为确定为有效数据)；若该待标注数据被标注了至少两次，所述准确率不低于该待标注数据被标注次数对应的准确率门限值，且所述至少两次标注结果完全相同，则将该待标注数据及对应的标注结果确定为一个训练样本。当然，若所述至少两次标注结果不完全相同，则可以确定所述处理结果为无效数据，将该待标注数据确定为需专业标注数据，转至专业处理数据库，以准确确定标注结果。

更进一步的，如果标注结果为“正确”，可以直接将待标注数据及对应的标注结果确定为一个训练样本。而如果标注结果为“错误”，还可以进一步进行专业标注，以确定错误原因等。

因此更具体的，若该待标注数据被标注了一次，且所述准确率不低于该待标注数据被标注次数对应的准确率门限值，则将该待标注数据及对应的标注结果确定为一个训练样本，包括：

若该待标注数据被标注了一次，所述准确率不低于该待标注数据被标注次数对应的准确率门限值，且标注结果为“正确”，则将该待标注数据及对应的标注结果确定为一个训练样本；

当然，如果标注结果为“错误”，还可以将该待标注数据及对应的标注结果确定为需继续标注数据，以继续进行标注，确定错误原因等。

若该待标注数据被标注了至少两次，所述准确率不低于该待标注数据被标注次数对应的准确率门限值，且所述至少两次标注结果完全相同，则将该待标注数据及对应的标注结果确定为一个训练样本，包括：

若该待标注数据被标注了至少两次，所述准确率不低于该待标注数据被标注次数对应的准确率门限值，所述至少两次标注结果完全相同，且标注结果为“正确”，则将该待标注数据及对应的标注结果确定为一个训练样本。

当然，如果标注结果均为“错误”，也可以将该待标注数据及对应的标注结果确定为需继续标注数据，以继续进行标注，确定错误原因等。

当然，在所述准确率低于该待标注数据被标注次数对应的准确率门限值时，可以认为本次数据标注不可靠，若所述待标注数据的标注次数没有达到设定次数，将该待标注数据加入对应的待标注数据库(可以理解为，根据该待标注数据已经被标注的次数，加入对应的待标注数据库)，以等待再次标注，并记录对该待标注数据的标注结果。若待标注数据的标注次数达到设定次数，将该待标注数据确定为需专业标注数据，以等待专业人员重新标注。

以待标注数据库包括一次待标注数据库、二次待标注数据库和三次待标注数据库为例，对应的，一条待标注数据被标注的设定次数可以理解为3次，此时可以理解为，一条待标注数据最多被标注3次。

下面通过一个具体的实例，对本发明实施例一、二提供的方案进行说明。

实施例三

在本发明实施例三中，可以假设用户等级包括A等级、B等级、C等级和D等级。

可以理解为A等级用户的数据标注准确性较高，在本实施例中，可以假设一个A等级用户的数据标注结果即直接认为是最终的标注结果。

B等级用户的数据标注准确性低于A等级用户，在本实施例中，可以假设两个B等级用户的数据标注结果，共同决定一条待标注数据的最终标注结果。即需要对两个B等级用户的数据标注结果进行拟合，来确定一条待标注数据的最终标注结果。

C等级用户的数据标注准确性低于B等级用户，在本实施例中，可以假设三个C等级用户的数据标注结果，共同决定一条待标注数据的最终标注结果。即需要对三个C等级用户的数据标注结果进行拟合，来确定一条待标注数据的最终标注结果。

D等级用户的数据标注准确性低于C等级用户，在本实施例中，D等级用户也可以像C等级用户一样，参与数据标注。较优的，可以通过奖励政策对D等级用户和C等级用户进行区分。

对应的，待标注数据库可以包括一次待标注数据库、二次待标注数据库和三次待标注数据库。对应的，一条待标注数据被标注的设定次数为3次。

在本实施例中，对于A等级用户，对应的优先级按照从高到低排序的待标注数据库可以依次为：一次待标注数据库、二次待标注数据库和三次待标注数据库。

需要说明的是，由于未经标注的数据可以实时加入，因此，在根据优先级排序向用户返回数据进行标注的情况下，不会存在无数据可返回的情况。

对于C等级用户，对应的优先级按照从高到低排序的待标注数据库可以依次为三次待标注数据库、二次待标注数据库和一次待标注数据库。

实施例三提供的数据处理方法的步骤流程可以如图3所示，仍以数据任务为数据标注任务为例进行说明，包括：

步骤201、接收数据标注请求。

在本步骤中，用户可以通过客户端发起数据标注请求，数据标注请求中可以携带该用户的用户标识。

步骤202、确定用户等级。

在本步骤中，可以根据用户标识确定对应的用户等级。

如果用户等级为A，则可以执行：

步骤203、判断一次待标注数据库中是否存在待标注数据，如果存在，则执行步骤204。如果不存在执行步骤203’。

步骤204、从一次待标注数据库中提取待标注数据，向客户端返回。并继续执行步骤205。

步骤205、接收客户端返回的对该待标注数据的标注结果。

如果接收到客户端返回的对该待标注数据的标注结果，则执行步骤206。

步骤206、判断用户当前数据处理正确率。

例如，判断所述用户标识对应的，对最近向其对应的客户端返回的100条沙子数据(可以简单记为，近100条沙子数据)的标注结果的正确率是否不小于95％(95％可以理解为待标注数据被标注一次对应的准确率门限值)，如果是，则认为本次标注可靠，执行步骤207。

如果正确率小于95％，则认为本次标注不可靠，且由于数据标注次数没有达到3次，可以记录本次标注结果，将该待标注数据加入二次待标注数据库，等待第二次标注。

并可以继续返回执行步骤203，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据，例如，用户退出登录等等。

步骤207、进行模型训练。

将该待标注数据和对应的标注结果作为一个训练样本，进行模型训练。

然后也可以继续返回执行步骤203，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤203’、判断二次待标注数据库中是否存在待标注数据。

如果一次待标注数据库中不存在待标注数据，则根据A等级对应的待标注数据库优先级顺序，判断二次待标注数据库中是否存在待标注数据。如果存在，执行步骤204’。如果不存在执行步骤203”。

步骤204’、从二次待标注数据库中提取待标注数据，向客户端返回。并继续执行步骤205’。

步骤205’、接收客户端返回的对该待标注数据的标注结果。

如果接收到客户端返回的对该待标注数据的标注结果，则执行步骤206’。

步骤206’、判断正确率。

判断所述用户标识对应的近100条沙子数据的标注结果的正确率是否不小于75％(75％可以理解为待标注数据被标注两次对应的准确率门限值，由于会对二次待标注数据库中的待标注数据的两次标注结果进行拟合，因此对用户标注沙子数据的准确率的要求略低)，如果是，则认为本次标注可靠，执行步骤207’。

如果正确率小于75％，则认为本次标注不可靠，且由于数据标注次数没有达到3次，可以记录本次标注结果，将该待标注数据加入三次待标注数据库，等待第三次标注。

并可以继续返回执行步骤203，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤207’、进行模型训练。

若该待标注数据对应的两次标注结果完全相同，将该待标注数据和对应的标注结果作为一个训练样本，进行模型训练。当然，若两次标注结果不完全相同，则可以将该待标注数据确定为需专业标注数据，加入专业标注库，以准确确定标注结果。

然后可以继续返回执行步骤203，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤203”、判断三次待标注数据库中是否存在待标注数据。

如果二次待标注数据库中不存在待标注数据，则根据A等级对应的待标注数据库优先级顺序，判断三次待标注数据库中是否存在待标注数据。如果存在，执行步骤204”。

步骤204”、从三次待标注数据库中提取待标注数据，向客户端返回。并继续执行步骤205”。

步骤205”、接收客户端返回的对该待标注数据的标注结果。

如果接收到客户端返回的对该待标注数据的标注结果，则执行步骤206”。

步骤206”、判断正确率。

判断所述用户标识对应的近100条沙子数据的标注结果的正确率是否不小于60％(60％可以理解为待标注数据被标注三次对应的准确率门限值，由于会对三次待标注数据库中的待标注数据的三次标注结果进行拟合，因此对用户标注沙子数据的准确率的要求更低)，如果是，则认为本次标注可靠，执行步骤207”。

如果正确率小于60％，则认为本次标注不可靠，且由于数据标注次数达到3次，可以将该待标注数据确定为需专业标注数据，加入专业标注库，以等待专业人员重新标注。

并可以返回执行步骤203，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤207”、进行模型训练。

若该待标注数据对应的三次标注结果完全相同，将该待标注数据和对应的标注结果作为一个训练样本，进行模型训练。当然，若三次标注结果不完全相同，则可以将该待标注数据确定为需专业标注数据，加入专业标注库，以准确确定标注结果。

类似的，如果用户等级为B，则可以执行：

步骤303、判断二次待标注数据库中是否存在待标注数据，如果存在，则执行步骤304。如果不存在执行步骤303’。

步骤304、从二次待标注数据库中提取待标注数据，向客户端返回。并继续执行步骤305。

步骤305、接收客户端返回的对该待标注数据的标注结果。

如果接收到客户端返回的对该待标注数据的标注结果，则执行步骤306。

步骤306、判断正确率。

判断所述用户标识对应的近100条沙子数据的标注结果的正确率是否不小于75％，如果是，则认为本次标注可靠，执行步骤307。

并可以继续返回执行步骤303，，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤307、进行模型训练。

然后可以继续返回执行步骤303，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤303’、判断一次待标注数据库中是否存在待标注数据。

如果二次待标注数据库中不存在待标注数据，则根据B等级对应的待标注数据库优先级顺序，判断一次待标注数据库中是否存在待标注数据。如果存在，执行步骤304’。如果不存在执行步骤303”。

步骤304’、从一次待标注数据库中提取待标注数据，向客户端返回。并继续执行步骤305’。

步骤305’、接收客户端返回的对该待标注数据的标注结果。

如果接收到客户端返回的对该待标注数据的标注结果，则执行步骤306’。

步骤306’、判断正确率。

判断所述用户标识对应的近100条沙子数据的标注结果的正确率是否不小于95％，如果是，则认为本次标注可靠，执行步骤307’。

并可以继续返回执行步骤303，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤307’、进行模型训练。

步骤303”、判断三次待标注数据库中是否存在待标注数据。

如果一次待标注数据库中不存在待标注数据，则根据B等级对应的待标注数据库优先级顺序，判断三次待标注数据库中是否存在待标注数据。如果存在，执行步骤304”。

步骤304”、从三次待标注数据库中提取待标注数据，向客户端返回。并继续执行步骤305”。

步骤305”、接收客户端返回的对该待标注数据的标注结果。

如果接收到客户端返回的对该待标注数据的标注结果，则执行步骤306”。

步骤306”、判断正确率。

判断所述用户标识对应的近100条沙子数据的标注结果的正确率是否不小于60％，如果是，则认为本次标注可靠，执行步骤307”。

并可以返回执行步骤303，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤307”、进行模型训练。

类似的，如果用户等级为C(或D)，则可以执行：

步骤403、判断三次待标注数据库中是否存在待标注数据，如果存在，则执行步骤404。如果不存在执行步骤403’。

步骤404、从三次待标注数据库中提取待标注数据，向客户端返回。并继续执行步骤405。

步骤405、接收客户端返回的对该待标注数据的标注结果。

如果接收到客户端返回的对该待标注数据的标注结果，则执行步骤406。

步骤406、判断正确率。

判断所述用户标识对应的近100条沙子数据的标注结果的正确率是否不小于60％，如果是，则认为本次标注可靠，执行步骤407。

并可以返回执行步骤403，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤407、进行模型训练。

然后可以继续返回执行步骤403，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤403’、判断二次待标注数据库中是否存在待标注数据。

如果三次待标注数据库中不存在待标注数据，则根据C(或D)等级对应的待标注数据库优先级顺序，判断二次待标注数据库中是否存在待标注数据。如果存在，执行步骤404’。如果不存在执行步骤403”。

步骤404’、从二次待标注数据库中提取待标注数据，向客户端返回。并继续执行步骤405’。

步骤405’、接收客户端返回的对该待标注数据的标注结果。

如果接收到客户端返回的对该待标注数据的标注结果，则执行步骤406’。

步骤406’、判断正确率。

判断所述用户标识对应的近100条沙子数据的标注结果的正确率是否不小于75％，如果是，则认为本次标注可靠，执行步骤407’。

并可以继续返回执行步骤403，以继续向客户端返回待标注数据，直至达到设定数量，或者用户停止接收待标注数据。

步骤407’、进行模型训练。

步骤403”、判断一次待标注数据库中是否存在待标注数据。

如果二次待标注数据库中不存在待标注数据，则根据C(或D)等级对应的待标注数据库优先级顺序，判断一次待标注数据库中是否存在待标注数据。如果存在，执行步骤404”。

步骤404”、从一次待标注数据库中提取待标注数据，向客户端返回。并继续执行步骤405”。

步骤405”、接收客户端返回的对该待标注数据的标注结果。

如果接收到客户端返回的对该待标注数据的标注结果，则执行步骤406”。

步骤406”、判断正确率。

判断所述用户标识对应的近100条沙子数据的标注结果的正确率是否不小于95％，如果是，则认为本次标注可靠，执行步骤407”。

步骤407”、进行模型训练。

需要说明的是，为简便描述，在图2中，用“一次”表示“一次待标注数据库”，用“二次”表示“二次待标注数据库”，用“三次”表示“三次待标注数据库”。

另外，将步骤207、步骤207’和步骤207”统一用步骤207表示，将步骤307、步骤307’和步骤307”统一用步骤307表示，将步骤407、步骤407’和步骤407”统一用步骤407表示。

与实施例一～三基于同一发明构思，提供以下的装置。

实施例四

本发明实施例四提供一种数据处理装置，该装置的结构可以如图4所示，包括：

接收模块11用于接收客户端发送的数据任务请求，所述数据任务请求中携带用户标识；

确定模块12用于确定向所述客户端返回的第一类数据；

返回模块13用于将所述数据库确定模块确定出的第一类数据返回至所述客户端；

所述接收模块11还用于接收所述客户端返回的对所述第一类数据的处理结果；

准确率确定模块14用于确定所述用户标识当前对应的数据处理的准确率；

处理模块15用于根据所述用户标识当前对应的数据处理的准确率，确定所述接收模块接收到的所述处理结果是否为有效数据。

所述确定模块12具体用于确定所述用户标识当前对应的用户等级；根据所述用户等级对应的数据库优先级排序，按照优先级由高到低的顺序，选择一个数据库，其中，不同数据库中包含的第一类数据已经被处理的次数不同；从所选择的数据库中，确定向所述客户端返回的第一类数据。

所述准确率确定模块14具体用于根据所述用户标识对应的已完成的第一类数据处理结果的准确率，和/或所述用户标识对应的已完成的第二类数据处理结果的准确率，确定所述用户标识对应的数据处理的准确率，其中，所述第二类数据为已知处理结果的数据。

所述返回模块13还用于为所述客户端返回设定数量的第二类数据；或者

所述处理模块15具体用于若所述用户标识对应的数据处理的准确率满足设定的准确率条件，且所述处理结果满足设定的拟合条件，则确定所述处理结果为有效数据；其中：

所述处理模块15还用于若所述用户标识对应的数据处理的准确率满足设定的准确率条件，但所述处理结果不满足设定的拟合条件，确定所述处理结果为无效数据，并将所述处理结果对应的第一类数据转至专业处理数据库。

所述处理模块15还用于若所述用户标识对应的数据处理的准确率不满足设定的准确率条件，且所述处理结果对应的第一类数据被处理次数未达到最大次数，将所述处理结果及其对应的第一类数据加入对应的数据库；或者

所述数据确定模块13具体用于根据所述用户等级对应的数据库优先级排序，按照优先级由高到低的顺序，选择一个数据库，其中，不同数据库中包含的第一类数据已经被处理的次数不同；从所选择的数据库中，确定向所述客户端返回的第一类数据。

所述准确率确定模块15具体用于根据所述用户标识对应的已完成的第一类数据处理结果的准确率，和/或所述用户标识对应的已完成的第二类数据处理结果的准确率，确定所述用户标识对应的数据处理的准确率，其中，所述第二类数据为已知处理结果的数据。

所述返回模块14还用于为所述客户端返回设定数量的第二类数据；或者按照设定数量比例，为所述客户端返回所述第一类数据和所述第二类数据。

所述处理结果分类模块16具体用于若所述用户标识对应的数据处理的准确率满足设定的准确率条件，且所述处理结果满足设定的拟合条件，则确定所述处理结果为有效数据。

所述设定的准确率条件为：所述用户标识对应的数据处理的准确率，不低于所述处理结果对应的第一类数据被处理次数对应的准确率门限值；

所述设定的拟合条件为：所述处理结果对应的第一类数据被处理了N次，且每次处理结果完全相同，其中所述N为正整数。

所述处理结果分类模块16还用于若所述用户标识对应的数据处理的准确率满足设定的准确率条件，但所述处理结果不满足设定的拟合条件，确定所述处理结果对应的第一类数据为需继续处理数据。

若所述用户标识对应的数据处理的准确率不满足设定的准确率条件，所述处理结果分类模块16还用于若所述处理结果对应的第一类数据被处理的次数没有达到设定次数，将该第一类数据加入对应的数据库，并记录所述处理结果；若该第一类数据被处理的次数达到设定次数，将该第一类数据确定为需继续处理数据。

基于同一发明构思，本发明实施例提供以下的设备和介质。

实施例五

本发明实施例五提供一种数据处理设备，该设备的结构可以如图5所示，包括存储器21、处理器22及存储在存储器上的计算机程序，所述处理器22执行所述程序时实现本发明实施例一～三所述方法的步骤。

可选的，所述处理器22具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC，application specific integrated circuit)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(FPGA，field programmable gate array)开发的硬件电路，可以是基带处理器。

可选的，所述处理器22可以包括至少一个处理核心。

可选的，所述存储器21可以包括只读存储器(ROM，read only memory)、随机存取存储器(RAM，random access memory)和磁盘存储器。存储器21用于存储至少一个处理器22运行时所需的数据。存储器21的数量可以为一个或多个。

本发明实施例六提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，当可执行程序被处理器执行时，实现本发明实施例一～三提供的方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus flash drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。

而前述的存储介质包括：通用串行总线闪存盘(universal serial bus flashdrive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，确定向所述客户端返回的第一类数据，包括：

确定所述用户标识当前对应的用户等级；

3.如权利要求1或2所述的方法，其特征在于，所述用户标识当前对应的数据处理的准确率，通过以下方式确定：

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

为所述客户端返回设定数量的第二类数据；或者

5.如权利要求2所述的方法，其特征在于，根据所述用户标识对应的数据处理的准确率，确定所述处理结果是否为有效数据，包括：

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

7.如权利要求5或6所述的方法，其特征在于，所述方法还包括：

8.一种数据处理装置，其特征在于，所述装置包括：

确定模块，用于确定向所述客户端返回的第一类数据；

9.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～7任一所述方法的步骤。

10.一种数据处理设备，其特征在于，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述程序时实现权利要求1～7任一所述方法的步骤。