CN107256428A

CN107256428A - 数据处理方法、数据处理装置、存储设备及网络设备

Info

Publication number: CN107256428A
Application number: CN201710378502.1A
Authority: CN
Inventors: 何卓略
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2017-10-17
Anticipated expiration: 2037-05-25
Also published as: WO2018214895A1; CN107256428B

Abstract

本发明公开一种数据处理方法、装置、存储设备及网络设备，其中的方法可包括：获取验证系统中待处理的目标样本数据；向进入所述验证系统的至少一个目标用户输出所述目标样本数据，以使所述至少一个目标用户对所述目标样本数据进行标注；采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据；采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理，获得所述目标样本数据的标注结果。本发明能够降低样本数据的标注成本，扩充互联网中样本数据的数量。

Description

数据处理方法、数据处理装置、存储设备及网络设备

技术领域

本发明涉及互联网技术领域，具体涉及基于机器学习的数据处理技术领域，尤其涉及一种数据处理方法、一种数据处理装置、一种存储设备及一种网络设备。

背景技术

带标注结果的样本数据如标注了人脸位置的图像数据，或标注了人脸表情的图像数据，或标注了人物年龄的语音数据等是用于机器进行训练学习的对象，是机器学习的基础。随着机器学习技术的发展，基于机器学习的各类互联网系统对样本数据的需求日益增大；例如：随着深度神经网络的层级数量的增加，深度神经网络需要的样本数据的数量可能达到数亿；再如：社交推荐系统为了获得较为精准有效的社交推荐，其可能需要的样本数据的数量甚至可达数千亿。然而，与大需求相矛盾的互联网现状则是普遍缺乏样本数据，造成此矛盾问题的主要原因，是目前样本数据的标注过程由专门的标注人员人工完成，成本较高且使得互联网中的样本数据稀缺匮乏。

发明内容

本发明实施例提供一种数据处理方法、数据处理装置、存储设备及网络设备，能够降低样本数据的标注成本，扩充互联网中样本数据的数量。

一方面，本发明实施例提供一种数据处理方法，可包括：

获取验证系统中待处理的目标样本数据；

向进入所述验证系统的至少一个目标用户输出所述目标样本数据，以使所述至少一个目标用户对所述目标样本数据进行标注；

采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据；

采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理，获得所述目标样本数据的标注结果。

优选地，所述验证系统包括标注模式和验证模式，且所述验证系统包含样本库和素材库；

所述样本库包括至少一条样本数据，所述样本数据包括以下任一种：图像、语音和文本；所述素材库包括至少一个素材数据，所述素材数据包括以下任一种：图像、语音和文本；

所述标注模式用于对所述样本库中的各样本数据进行标注；所述验证模式用于采用所述素材库中的各素材数据对进入验证系统的用户进行身份验证。

优选地，所述获取验证系统中待处理的目标样本数据之前，还包括：

当检测到任一用户进入验证系统时，判断进入验证系统的用户是否为目标用户；

若进入验证系统的用户为目标用户，则启动验证系统的标注模式，并在所述标注模式下获取验证系统中待处理的目标样本数据；

若进入验证系统的用户为普通用户，则启动验证系统的验证模式，并在所述验证模式下从所述素材库中选取一个素材数据对所述进入验证系统的用户进行身份验证。

优选地，所述当检测到任一用户进入验证系统时，判断进入验证系统的用户是否为目标用户，包括：

当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的历史标注信息，所述历史标注信息记录了所述进入验证系统的用户在验证系统的标注模式下对所述样本库中的样本数据进行标注的频次；

若所述频次小于预设第一阀值，则确定所述进入验证系统的用户为目标用户；

若所述频次大于或等于第一预设阀值，则确定所述进入验证系统的用户为普通用户。

当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的标识；

若所述标识为预设的备选用户标识，则确定所述进入验证系统的用户为目标用户；

若所述标识并非预设的备选用户标识，则确定所述进入验证系统的用户为普通用户。

当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的历史验证信息，所述历史验证信息记录所述进入验证系统的用户在验证系统的验证模式下进行身份验证的成功率；

若所述成功率大于或等于第二预设阀值，则确定所述进入验证系统的用户为目标用户；

若所述成功率小于第二预设阀值，则确定所述进入验证系统的用户为普通用户。

优选地，所述向进入所述验证系统的至少一个目标用户输出所述目标样本数据，以使所述至少一个目标用户对所述目标样本数据进行标注，包括：

为所述目标样本数据设置标注方式，所述标注方式包括以下任一种：选择方式和输入方式；

若所述目标样本数据的标注方式为选择方式，向所述至少一个目标用户输出所述目标样本数据，并将所述目标样本数据对应的至少一个待选标注数据输出至所述至少一个目标用户进行选择；

若所述目标样本数据的标注方式为输入方式，向所述至少一个目标用户输出所述目标样本数据，并显示输入框以使所述至少一个目标用户在所述输入框输入所述目标样本数据对应的标注数据。

优选地，所述采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据之后，还包括：

向所述至少一个目标用户输出验证失败提示信息，并从所述标注模式切换至所述验证模式；

在所述验证模式下从所述素材库中选取一个素材数据对所述至少一个目标用户进行身份验证。

优选地，所述采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理，获得所述目标样本数据的标注结果之后，还包括：

将所述目标样本数据及其标注结果作为新的素材数据添加至所述素材库中。

另一方面，本发明实施例提供一种数据处理装置，可包括：

获取单元，用于获取验证系统中待处理的目标样本数据；

输出单元，用于向进入所述验证系统的至少一个目标用户输出所述目标样本数据，以使所述至少一个目标用户对所述目标样本数据进行标注；

采集单元，用于采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据；

学习单元，用于采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理，获得所述目标样本数据的标注结果。

优选地，该数据处理装置还包括：

判断单元，用于当检测到任一用户进入验证系统时，判断进入验证系统的用户是否为目标用户；

处理单元，用于若进入验证系统的用户为目标用户，则启动验证系统的标注模式，并在所述标注模式下通知所述获取单元获取验证系统中待处理的目标样本数据；或者用于若进入验证系统的用户为普通用户，则启动验证系统的验证模式，并在所述验证模式下从所述素材库中选取一个素材数据对所述进入验证系统的用户进行身份验证。

优选地，在一种实施方式中，所述判断单元包括：

第一信息获取单元，用于当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的历史标注信息，所述历史标注信息记录了所述进入验证系统的用户在验证系统的标注模式下对所述样本库中的样本数据进行标注的频次；

第一确定单元，用于若所述频次小于预设第一阀值，则确定所述进入验证系统的用户为目标用户；或用于若所述频次大于或等于第一预设阀值，则确定所述进入验证系统的用户为普通用户。

优选地，在另一种实施方式中，所述判断单元包括：

标识获取单元，用于当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的标识；

第二确定单元，用于若所述标识为预设的备选用户标识，则确定所述进入验证系统的用户为目标用户；或用于若所述标识并非预设的备选用户标识，则确定所述进入验证系统的用户为普通用户。

优选地，在又一种实施方式中，所述判断单元包括：

第二信息获取单元，用于当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的历史验证信息，所述历史验证信息记录所述进入验证系统的用户在验证系统的验证模式下进行身份验证的成功率；

第三确定单元，用于若所述成功率大于或等于第二预设阀值，则确定所述进入验证系统的用户为目标用户；或用于若所述成功率小于第二预设阀值，则确定所述进入验证系统的用户为普通用户。

优选地，所述输出单元包括：

方式设置单元，用于为所述目标样本数据设置标注方式，所述标注方式包括以下任一种：选择方式和输入方式；

数据输出单元，用于若所述目标样本数据的标注方式为选择方式，向所述至少一个目标用户输出所述目标样本数据，并将所述目标样本数据对应的至少一个待选标注数据输出至所述至少一个目标用户进行选择；或用于若所述目标样本数据的标注方式为输入方式，向所述至少一个目标用户输出所述目标样本数据，并显示输入框以使所述至少一个目标用户在所述输入框输入所述目标样本数据对应的标注数据。

优选地，该数据处理装置还包括：

提示单元，用于向所述至少一个目标用户输出验证失败提示信息，并从所述标注模式切换至所述验证模式，并通知所述处理单元在所述验证模式下从所述素材库中选取一个素材数据对所述至少一个目标用户进行身份验证。

优选地，该数据处理装置还包括：

添加单元，用于将所述目标样本数据及其标注结果作为新的素材数据添加至所述素材库中。

再一方面，本发明实施例提供一种存储设备，所述存储设备存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行本发明实施例所述的数据处理方法。

再一方面，本发明实施例提供一种网络设备，包括：

处理器，适于实现一条或一条以上指令；以及，

存储设备，所述存储设备存储有一条或一条以上指令，所述一条或一条以上指令适于由所述处理器加载并执行本发明实施例所述的数据处理方法。

本发明实施例可挖掘利用互联网用户在验证过程中碎片化的短暂的注意力，大规模、分散地借助用户实现样本数据的标注，扩充互联网样本数据的数量；进一步，带标注结果的样本数据又可以作为已知答案的验证素材，扩充互联网验证系统中素材数据的数量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种标注页面的示意图；

图2为本发明实施例提供的一种数据处理方法的流程图；

图3为本发明实施例提供的另一种数据处理方法的流程图；

图4a为本发明实施例提供的另一种标注页面的示意图；

图4b为本发明实施例提供的另一种标注页面的示意图；

图4c为本发明实施例提供的又一种标注页面的示意图；

图5为本发明实施例提供的一种数据处理装置的结构示意图；

图6为本发明实施例提供的一种网络设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

机器学习是一种涉及多领域交叉学科的技术，主要涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，其用于专门研究机器如何模拟或实现人类的学习行为以获取新知识或新技能，重新组织已有的知识结构使之不断改善自身的性能。此处的机器可指计算机、电子计算机、神经计算机等等设备。目前，机器学习被广泛应用于各类互联网场景中，例如可应用于：数据挖掘场景、计算机视觉场景、自然语言处理场景、神经网络的构建场景、信息推荐场景等等。带标注结果的样本数据是用于机器进行训练学习的对象，是机器学习的基础，例如：标注了人脸位置的图像数据可作为机器学习的样本数据；或者，标注了人脸表情的图像数据可作为机器学习的样本数据；或者，标注了人物年龄的语音数据可作为机器学习的样本数据；等等。随着机器学习技术的发展，基于机器学习的各类互联网系统对样本数据的需求日益增大；例如：随着深度神经网络的层级数量的增加，深度神经网络需要的样本数据的数量可能达到数亿；再如：社交推荐系统为了获得较为精准有效的社交推荐，其可能需要的样本数据的数量甚至可达数千亿。然而，与大需求相矛盾的互联网现状则是普遍缺乏样本数据，这主要表现为两方面，一方面是样本数据的种类匮乏；例如：互联网中可能存在关于人脸位置的样本数据，但是关于人脸性别、人脸年龄、人脸表情、人脸姿势等样本数据却十分缺乏。另一方面是样本数据的数量严重不足；例如：目前存在于互联网中的关于语音、物体、动物、自动驾驶等各类样本数据的量较少。造成此矛盾问题的主要原因，是目前样本数据的标注过程由专门的标注人员人工完成，成本较高且使得互联网中的样本数据稀缺匮乏。

实际上，一个样本数据的一次标注过程需要的是“短暂的注意力”；例如：针对某张照片或者某段语音体现出的情绪指数进行标注时，假设情绪指数设置如下：1、沮丧；2、一般沮丧；3、平和；4、开心；5、很开心；此标注过程仅需要标注人员在该照片或语音持续数秒的注意力即可完成。仔细分析可知，互联网本身即可提供大量这类“短暂的注意力”，例如：为了保证互联网用户在应用登录、电子商务过程或其他应用场景中的安全性，互联网场景通常设有验证系统，该验证系统要求用户进行诸如输入验证码等身份验证步骤，此类验证步骤需要用户付出“短暂的注意力”认真看验证码图片、认真输入正确结果以便尽快通过验证。基于此，本发明实施例利用互联网所提供的大量“短暂的注意力”，收集多个互联网用户在身份验证过程中通过“短暂的注意力”所产生的较为可靠的输出来实现样本数据的标注，并且基于机器学习获得样本数据的标注结果，大大降低样本数据的标注成本，扩充互联网中样本数据的数量。本发明实施例的主要思想如下：传统的验证系统仅包含验证模式，也就是说用户进入验证系统即在验证模式下执行身份验证的步骤，例如：某用户进入验证系统时，在验证模式下向用户输出验证码图片，要求用户填写并提交正确的验证码以通过验证。本发明实施例的验证系统在验证模式的基础上增加标注模式，例如：用户进入验证系统时，首先在标注模式下完成对样本数据的标注，再切换至验证模式下向用户输出验证码图片要求用户填写并提交正确的验证码以通过验证。

下面结合图1对本发明实施例的方案进行简单阐述。假设要对图1所示人脸照片体现出的情绪指数进行标注，并设置情绪指数如下：1、沮丧；2、一般沮丧；3、平和；4、开心；5、很开心；那么，本发明实施例的方案如下：当互联网中的用户A进入验证系统时，首先在标注模式下对用户A展示该人脸照片及情绪指数选项要求用户A选择；同理，对进入验证系统的互联网的用户B、用户C、用户D等其他用户在标注模式下展示同一张人脸照片及情绪指数要求其进行情绪指数的选择；可以理解的是，用户对情绪指数的选择可能是真实的、随意的，甚至是无意义的。本发明实施例一方面收集所有用户对同一张人脸照片所选择的情绪指数，这些选择数据必然具有一定的分布规律，采用机器学习方法识别其中的有效数据，最后得到该人脸照片关于情绪指数的标注结果。另一方面在收集到各用户所选择的情绪指数之后，分别向各用户输出如“错误，请重新选择”类似的验证失败提示信息，然后从标注模式切换至验证模式并在验证模式下采用互联网已有的素材数据对各用户进行重新验证，例如向用户输出验证码图片要求用户填写并提交正确的验证码以通过验证。由上述例子可知，本发明实施例可挖掘利用互联网用户在验证过程中碎片化的短暂的注意力，大规模、分散地借助用户实现样本数据的标注，扩充互联网样本数据的数量；进一步，带标注结果的样本数据又可以作为已知答案的验证素材，扩充互联网验证系统中素材数据的数量。

基于上述描述，本发明实施例提供一种数据处理方法，请参见图2，该方法可包括以下步骤S101-步骤S104。

S101，获取验证系统中待处理的目标样本数据。

传统的验证系统是提供身份验证服务的系统，例如：互联网用户进行应用登录、电子商务等过程中会进入验证系统进行身份验证，如输出验证码图片要求用户填写并提交正确验证码以确认为非机器操作，以保证登录或交易安全。本发明实施例的验证系统在提供身份验证服务的同时，还提供样本标注服务；按照上述例子：在互联网用户进行应用登录、电子商务等过程中进入验证系统进行身份验证之前，首先让互联网用户完成对样本数据的标注并收集互联网用户的标注数据，然后再对互联网用户执行如输出验证码图片要求用户填写并提交正确验证码的验证步骤。本发明实施例中，所述验证系统包括标注模式和验证模式，且所述验证系统包含样本库和素材库；所述样本库包括至少一条样本数据，所述样本数据包括以下任一种：图像、语音和文本；所述素材库包括至少一个素材数据，所述素材数据包括以下任一种：图像、语音和文本。所述标注模式用于对所述样本库中的各样本数据进行标注；所述验证模式用于采用所述素材库中的各素材数据对进入验证系统的用户进行身份验证。本步骤中，可从样本库中随机选取一个样本数据作为目标样本数据，或者，根据实际需要从样本库中指定一个样本数据作为目标样本数据。

S102，向进入所述验证系统的至少一个目标用户输出所述目标样本数据，以使所述至少一个目标用户对所述目标样本数据进行标注。

可按照一定的格式输出目标样本数据，例如：可以在输出目标样本数据的同时输出该目标样本数据的一些可选的标注数据，这样目标用户可以通过选择一个标注数据来完成对目标样本数据的标注；或者，可以在输出目标样本数据的同时显示输入框，这样目标用户可以通过手动输入标注数据来完成对目标样本数据的标注。

S103，采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据。

每个目标用户对目标样本数据进行标注会产生标注数据，如图1所示，假设用户A选择“3、平和”，那么“3、平和”即为用户A对人脸照片进行标注产生的标注数据；同理，用户B选择“2、一般沮丧”，那么“2、一般沮丧”为用户B对人脸照片标注产生的标注数据。本步骤S103收集每一个目标用户分别对目标样本数据进行标注所产生的标注数据。

S104，采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理，获得所述目标样本数据的标注结果。

目标样本数据的各标注数据可能是真实的、随意的，甚至是无意义的，但是这些标注数据必然具有一定的分布规律，可以采用机器学习算法对这些标注数据进行学习处理，得到目标样本数据的标注结果；此处，机器学习算法可以包括但不限于：异常检测算法、协同过滤算法、决策树算法、最优化算法等等。

本发明实施例可挖掘利用互联网用户在验证过程中碎片化的短暂的注意力，大规模、分散地借助用户实现样本数据的标注，扩充互联网样本数据的数量。

本发明实施例提供另一种数据处理方法，请参见图3，该方法可包括以下步骤S201-步骤S208。

S201，当检测到任一用户进入验证系统时，判断进入验证系统的用户是否为目标用户；若判断结果为是，确定进入验证系统的用户为目标用户，进而转入执行S202；若判断结果为否，确定进入验证系统的用户为普通用户，进入转入执行S208。

本发明实施例可以借助于所有互联网用户对样本数据进行标注；但为了提升用户体验，优选地，可选取一部分互联网用户作为目标用户来对样本数据进行标注；步骤S201的判断过程即是确定目标用户的过程；具体实现中，步骤S201至少包括以下三种可行的实施方式：

在一种可行的实施方式中，步骤S201可包括以下步骤s11-s13：

s11，当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的历史标注信息，所述历史标注信息记录了所述进入验证系统的用户在验证系统的标注模式下对所述样本库中的样本数据进行标注的频次。

s12，若所述频次小于预设第一阀值，则确定所述进入验证系统的用户为目标用户。

s13，若所述频次大于或等于第一预设阀值，则确定所述进入验证系统的用户为普通用户。

步骤s11-s13采用的是随机方式确定目标用户，即根据历史标注的频次随机选取目标用户。其中，一个用户的历史标注信息记录了该用户在预定周期内执行标注操作的总次数；比如：某用户A在最近一个小时内分别对样本数据a进行一次标注，对样本数据b进行两次标注，对样本数据c进行一次标注；那么，用户A的历史标注信息记录该用户A的标注频次为4次/小时。一个用户对应一个历史标注信息，各用户的历史标注信息可存储至本地或云端存储空间中，并根据用户的标注操作进行实时更新，因此可以从本地或云端存储空间中获得用户的历史标注信息。第一预设阀值可以根据实际需要进行确定，例如：该第一预设阀值可以为5次/小时，2次/分钟等等。如果某用户的标注频次大于或等于第一预设阀值，表明该用户在预设周期内已经进行过多次样本数据的标注操作，若验证过程中过于频繁要求该用户进行标注操作可能会影响该用户的使用体验，因此可将该用户确定为普通用户，当前预设周期内不再进行标注操作；反之，如果某用户的标注频次小于第一预设阀值，表明该用户在预设周期内进行样本数据的标注操作次数较少，若验证过程中再次要求该用户进行标注操作并不会影响该用户的使用体验，因此可将该用户确定为目标用户进入后续流程执行标注操作。

在另一种可行的实施方式中，该S201可包括以下步骤s21-s23。

s21，当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的标识。

s22，若所述标识为预设的备选用户标识，则确定所述进入验证系统的用户为目标用户。

s23，若所述标识并非预设的备选用户标识，则确定所述进入验证系统的用户为普通用户。

步骤s21-s23采用的是定向方式确定目标用户，即预先选定一些目标用户。其中，预设的备选用户标识是预先选取的目标用户的标识；此处的标识可以包括但不限于：即时通讯标识(如QQ号、微信号等)、SNS标识(如微博号、博客号等)、通信标识(如手机号、座机号等)、email号等等。如果进入验证系统的用户标识是预设的备选用户标识，则可确定该用户为目标用户；否则确定该用户为普通用户。

在又一种可行的实施方式中，该S201可包括以下步骤s31-s33。

s31，当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的历史验证信息，所述历史验证信息记录所述进入验证系统的用户在验证系统的验证模式下进行身份验证的成功率。

s32，若所述成功率大于或等于第二预设阀值，则确定所述进入验证系统的用户为目标用户。

s33，若所述成功率小于第二预设阀值，则确定所述进入验证系统的用户为普通用户。

步骤s31-s33采用的是筛选方式确定目标用户，即根据历史验证的成功率筛选符合条件的目标用户。其中，一个用户的历史验证信息记录所述进入验证系统的用户在验证系统的验证模式下进行身份验证的成功率；比如：某用户A在以验证码进行身份验证的过程中，第1次至第N-1次所提交的验证码均错误，在第N次提交正确验证码，那么用户A的成功率为1/N(N为正整数)。一个用户对应一个历史验证信息，各用户的历史验证信息可存储至本地或云端存储空间中，并根据用户的验证过程进行实时更新，因此可以从本地或云端存储空间中获得用户的历史验证信息。第二预设阀值可以根据实际需要进行确定，例如：该第二预设阀值可以为1/2，1/3等等。如果某用户的验证成功率大于或等于第二预设阀值，表明该用户通常较为认真的完成验证过程，其提交的数据较为真实且可信度较高，适于将该用户确定为目标用户以进行样本数据的标注操作。反之如果某用户的验证成功率小于第二预设阀值，表明该用户在验证过程通常表现得较为随意，其提交的数据真实性较低且可信度较低，不适于让该用户来执行样本数据的标注操作，因此可将该用户确定为普通用户。

实际应用中，上述三种实施方式可灵活选择，如果确定目标用户进入验证系统，则转入步骤S202在标注模式下执行后续对目标样本数据的标注过程；如果确定是普通用户进入验证系统，那么转入步骤S208在验证模式下对该普通用户进行身份验证。

S202，启动验证系统的标注模式，并在所述标注模式下获取验证系统中待处理的目标样本数据。

本步骤S202可参见图2所示的步骤S101，在此不赘述。其中，目标样本数据是样本库中的任一个样本数据，其可以为图像，例如：人脸图像、动物图像等等；其也可以是语音，例如：一段人说话的语音、一段歌曲等等；其还可以是文本，例如：一句话、一个单词等等。

S203，向进入所述验证系统的至少一个目标用户输出所述目标样本数据，以使所述至少一个目标用户对所述目标样本数据进行标注。

根据目标样本数据的类型可灵活选择输出方式，例如：若目标样本数据为图像、文本，那么可以通过显示方式进行输出；再如：若目标样本数据为语音，那么可通过喇叭播放方式进行输出。输出目标样本数据的目的在于让目标用户通过感官系统(眼、耳、口、鼻)认知目标样本数据，并通过听说读写完成对目标样本数据的标注。具体实现中，步骤S203可具体包括以下步骤s41-s43。

s41，为所述目标样本数据设置标注方式，所述标注方式包括以下任一种：选择方式和输入方式。

s42，若所述目标样本数据的标注方式为选择方式，向所述至少一个目标用户输出所述目标样本数据，并将所述目标样本数据对应的至少一个待选标注数据输出至所述至少一个目标用户进行选择。

s43，若所述目标样本数据的标注方式为输入方式，向所述至少一个目标用户输出所述目标样本数据，并显示输入框以使所述至少一个目标用户在所述输入框输入所述目标样本数据对应的标注数据。

步骤s41-s43定义了目标用户采用何种方式对目标样本数据进行标注；具体地，若目标样本数据的标注方式为选择方式，则在输出目标样本数据的同时显示至少一个待选标注数据，目标用户直接选择一个标注数据即可完成对目标样本数据的标注；此处，至少一个待选标注数据既可以被封装为选项(如图1所示)，此时目标用户可点击选项从而选中一个标注数据。至少一个待选标注数据也可以被封装至滑动区域(如图4a所示)，此时目标用户通过在滑动区域操作滑块来选中一个标注数据。若目标样本数据的标注方式为为输入方式，则在输出目标样本数据的同时显示输入框，由目标用户在输入框中直接输入标注数据完成标注；此处，输入框可以是文本输入框(如图4b所示)，也可以是语音输入框(如图4c所示)。

S204，采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据；之后，转入执行步骤S205-S206；并且，转入执行步骤S207-S208。

S205，采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理，获得所述目标样本数据的标注结果。

步骤S204-S205可以参见图2所示实施例的步骤S103-S104，在此不赘述。

S206，将所述目标样本数据及其标注结果作为新的素材数据添加至所述素材库中。

S207，向所述至少一个目标用户输出验证失败提示信息，并从所述标注模式切换至所述验证模式。

S208，启动验证系统的验证模式，并在所述验证模式下从所述素材库中选取一个素材数据对所述进入验证系统的用户进行身份验证。

本发明实施例中，步骤S204收集到至少一个目标用户的标注数据之后，会进入两个处理逻辑，其中一个处理逻辑为步骤S205-S206；另一个处理逻辑为步骤S207-S208。一方面，如果步骤S204收集到的标注数据达到预设数量之后，此处的预设数量可根据实际需要进行设定，为了保证准确性，通常可将预设数量设置较大，如几百、几千、几万等，以保证有足够数量的标注数据；然后进入步骤S205-S206通过机器学习算法对至少一个标注数据进行学习得到目标样本数据的标注结果，至此获得了一个带标注结果的、可用于机器学习训练的样本数据；最后将该带有标注结果的目标样本数据作为素材数据添加至素材库中，这样既扩充了互联网中用于训练学习的样本数据，又扩充了互联网验证系统中用于身份验证的素材数据。另一方面，步骤S204收集到各目标用户的标注数据之后，会进入步骤S207-S208分别向各目标用户输出诸如“错误，请重新选择”，或者“错误，请重新输入”等验证失败提示信息，以提醒目标用户重新在验证模式下进行身份验证。

本发明实施例可挖掘利用互联网用户在验证过程中碎片化的短暂的注意力，大规模、分散地借助用户实现样本数据的标注，扩充互联网样本数据的数量；进一步，带标注结果的样本数据又可以作为已知答案的验证素材，扩充互联网验证系统中素材数据的数量。基于上述方法实施例的描述，本发明实施例还公开了一种数据处理装置，该数据处理装置可以是一个计算机程序(包括程序代码)，且该计算机程序可以运行于终端(如PC(PersonalComputer，个人计算机)、手机等)、单个服务器或集群服务设备等网络设备中以用来执行图2-图3任一实施例所示的数据处理方法。请一并参见图5，该数据处理装置运行如下单元：

获取单元101，用于获取验证系统中待处理的目标样本数据。

输出单元102，用于向进入所述验证系统的至少一个目标用户输出所述目标样本数据，以使所述至少一个目标用户对所述目标样本数据进行标注。

采集单元103，用于采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据。

学习单元104，用于采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理，获得所述目标样本数据的标注结果。

具体实现中，所述验证系统包括标注模式和验证模式，且所述验证系统包含样本库和素材库；

具体实现中，该该数据处理装置还运行如下单元：

判断单元105，用于当检测到任一用户进入验证系统时，判断进入验证系统的用户是否为目标用户。

处理单元106，用于若进入验证系统的用户为目标用户，则启动验证系统的标注模式，并在所述标注模式下通知所述获取单元获取验证系统中待处理的目标样本数据；或者用于若进入验证系统的用户为普通用户，则启动验证系统的验证模式，并在所述验证模式下从所述素材库中选取一个素材数据对所述进入验证系统的用户进行身份验证。

在一种可行的实施方式中，该数据处理装置在运行所述判断单元105的过程中具体运行如下单元：

第一信息获取单元1001，用于当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的历史标注信息，所述历史标注信息记录了所述进入验证系统的用户在验证系统的标注模式下对所述样本库中的样本数据进行标注的频次。

第一确定单元1002，用于若所述频次小于预设第一阀值，则确定所述进入验证系统的用户为目标用户；或用于若所述频次大于或等于第一预设阀值，则确定所述进入验证系统的用户为普通用户。

在另一种可行的实施方式中，该数据处理装置在运行所述判断单元105的过程中具体运行如下单元：

标识获取单元1011，用于当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的标识。

第二确定单元1012，用于若所述标识为预设的备选用户标识，则确定所述进入验证系统的用户为目标用户；或用于若所述标识并非预设的备选用户标识，则确定所述进入验证系统的用户为普通用户。

在又一种可行的实施方式中，该数据处理装置在运行所述判断单元105的过程中具体运行如下单元：

第二信息获取单元1111，用于当检测到任一用户进入验证系统时，获取所述进入验证系统的用户的历史验证信息，所述历史验证信息记录所述进入验证系统的用户在验证系统的验证模式下进行身份验证的成功率。

第三确定单元1112，用于若所述成功率大于或等于第二预设阀值，则确定所述进入验证系统的用户为目标用户；或用于若所述成功率小于第二预设阀值，则确定所述进入验证系统的用户为普通用户。

具体实现中，该数据处理装置在运行所述输出单元102的过程中具体运行如下单元：

方式设置单元2001，用于为所述目标样本数据设置标注方式，所述标注方式包括以下任一种：选择方式和输入方式。

数据输出单元2002，用于若所述目标样本数据的标注方式为选择方式，向所述至少一个目标用户输出所述目标样本数据，并将所述目标样本数据对应的至少一个待选标注数据输出至所述至少一个目标用户进行选择；或用于若所述目标样本数据的标注方式为输入方式，向所述至少一个目标用户输出所述目标样本数据，并显示输入框以使所述至少一个目标用户在所述输入框输入所述目标样本数据对应的标注数据。

具体实现中，该数据处理装置还运行如下单元：

提示单元107，用于向所述至少一个目标用户输出验证失败提示信息，并从所述标注模式切换至所述验证模式，并通知所述处理单元在所述验证模式下从所述素材库中选取一个素材数据对所述至少一个目标用户进行身份验证。

具体实现中，该数据处理装置还运行如下单元：

添加单元108，用于将所述目标样本数据及其标注结果作为新的素材数据添加至所述素材库中。

根据本发明的一个实施例，图2所示的数据处理方法涉及的各步骤可以是由图5所示的数据处理装置中的各个单元来执行的。例如，图2中所示的步骤S101-S104可以分别由图5中所示的获取单元101、输出单元102、采集单元103和学习单元104来执行。

根据本发明的另一个实施例，图3所示的数据处理方法涉及的各步骤也可以是由图5所示的数据处理装置中的各个单元来执行的。例如，图3中所示的步骤S201-S208可以由图5中所示的判断单元105、获取单元101、输出单元102、采集单元103、学习单元104、处理单元106、添加单元108和提示单元107来执行；其中，图3中所示的步骤s11，s12-s13可以由图5中所示的第一信息获取单元1001和第一确定单元1002来执行；步骤s21，s22-s23可以由图5中所示的标识获取单元1011和第二确定单元1012来执行；步骤s31，s32-s33可以由图5中所示的第二信息获取单元1111和第三确定单元1112来执行；步骤s41-s42可以由图5中所示的方式设置单元2001和数据输出单元2002来执行。

根据本发明的再一个实施例，图5所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的又一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储设备(RAM)、只读存储设备(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图3中所示的数据处理方法，来构造如图5中所示的数据处理装置设备，以及来实现根据本发明的实施例的数据处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本发明实施例还提供了一种网络设备，该网络设备可以是诸如PC(PersonalComputer，个人计算机)、手机、PDA(平板电脑)等终端设备，也可以是诸如应用服务器、集群服务器等服务设备。请参见图6，该网络设备的内部结构可包括但不限于：处理器、网络接口及存储器。其中，网络设备内的处理器、网络接口及存储器可通过总线或其他方式连接，在本发明实施例所示图6中以通过总线连接为例。

其中，处理器(或称CPU(Central Processing Unit，中央处理器))是网络设备的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。存储设备(Memory)是网络设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储设备可以是高速RAM存储设备，也可以是非不稳定的存储设备(non-volatile memory)，例如至少一个磁盘存储设备；可选的还可以是至少一个位于远离前述处理器的存储装置。存储设备提供存储空间，该存储空间存储了网络设备的操作系统，可包括但不限于：Windows系统(一种操作系统)、Linux(一种操作系统)、Android(安卓，一种移动操作系统)系统、IOS(一种移动操作系统)系统等等，本发明对此并不作限定；并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。

在本发明实施例中，处理器加载并执行存储设备中存放的一条或一条以上指令，以实现上述图2-图3所示方法流程的相应步骤；具体实现中，存储设备中的一条或一条以上指令由处理器加载并执行如下步骤：

获取验证系统中待处理的目标样本数据；

所述验证系统包括标注模式和验证模式，且所述验证系统包含样本库和素材库；

具体实现中，存储设备中的一条或一条以上指令由处理器加载并执行所述获取验证系统中待处理的目标样本数据的步骤之前，还执行如下步骤：

具体实现中，存储设备中的一条或一条以上指令由处理器加载并执行所述当检测到任一用户进入验证系统时，判断进入验证系统的用户是否为目标用户的步骤时，具体执行如下步骤：

具体实现中，存储设备中的一条或一条以上指令由处理器加载并执行所述向进入所述验证系统的至少一个目标用户输出所述目标样本数据，以使所述至少一个目标用户对所述目标样本数据进行标注的步骤时，具体执行如下步骤：

具体实现中，存储设备中的一条或一条以上指令由处理器加载并执行所述采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据步骤之后，还执行如下步骤：

具体实现中，存储设备中的一条或一条以上指令由处理器加载并执行所述采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理，获得所述目标样本数据的标注结果的步骤之后，还执行如下步骤：

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取验证系统中待处理的目标样本数据；

2.如权利要求1所述的数据处理方法，其特征在于，所述验证系统包括标注模式和验证模式，且所述验证系统包含样本库和素材库；

3.如权利要求2所述的数据处理方法，其特征在于，所述获取验证系统中待处理的目标样本数据之前，还包括：

4.如权利要求3所述的数据处理方法，其特征在于，所述当检测到任一用户进入验证系统时，判断进入验证系统的用户是否为目标用户，包括：

5.如权利要求3所述的数据处理方法，其特征在于，所述当检测到任一用户进入验证系统时，判断进入验证系统的用户是否为目标用户，包括：

6.如权利要求3所述的数据处理方法，其特征在于，所述当检测到任一用户进入验证系统时，判断进入验证系统的用户是否为目标用户，包括：

7.如权利要求2-6任一项所述的数据处理方法，其特征在于，所述向进入所述验证系统的至少一个目标用户输出所述目标样本数据，以使所述至少一个目标用户对所述目标样本数据进行标注，包括：

8.如权利要求7所述的数据处理方法，其特征在于，所述采集所述至少一个目标用户对所述目标样本数据进行标注所产生的至少一个标注数据之后，还包括：

9.如权利要求7所述的数据处理方法，其特征在于，所述采用机器学习算法对所述目标样本数据的至少一个标注数据进行学习处理，获得所述目标样本数据的标注结果之后，还包括：

10.一种数据处理装置，其特征在于，包括：

获取单元，用于获取验证系统中待处理的目标样本数据；

11.如权利要求10所述的数据处理装置，其特征在于，还包括：

处理单元，用于若进入验证系统的用户为目标用户，则启动验证系统的标注模式，并在所述标注模式下通知所述获取单元获取验证系统中待处理的目标样本数据；或者用于若进入验证系统的用户为普通用户，则启动验证系统的验证模式，并在所述验证模式下从所述素材库中选取一个素材数据对所述进入验证系统的用户进行身份验证；

提示单元，用于向所述至少一个目标用户输出验证失败提示信息，并从所述标注模式切换至所述验证模式，并通知所述处理单元在所述验证模式下从所述素材库中选取一个素材数据对所述至少一个目标用户进行身份验证；或者，

添加单元，用于将所述目标样本数据及其标注结果作为新的素材数据添加至所述素材库中；

其中，所述验证系统包括标注模式和验证模式，且所述验证系统包含样本库和素材库；所述样本库包括至少一条样本数据，所述样本数据包括以下任一种：图像、语音和文本；所述素材库包括至少一个素材数据，所述素材数据包括以下任一种：图像、语音和文本；所述标注模式用于对所述样本库中的各样本数据进行标注；所述验证模式用于采用所述素材库中的各素材数据对进入验证系统的用户进行身份验证。

12.如权利要求11所述的数据处理装置，其特征在于，所述判断单元包括：

第一确定单元，用于若所述频次小于预设第一阀值，则确定所述进入验证系统的用户为目标用户；或用于若所述频次大于或等于第一预设阀值，则确定所述进入验证系统的用户为普通用户；或者，所述判断单元包括：

第二确定单元，用于若所述标识为预设的备选用户标识，则确定所述进入验证系统的用户为目标用户；或用于若所述标识并非预设的备选用户标识，则确定所述进入验证系统的用户为普通用户；或者，所述判断单元包括：

13.如权利要求11或12所述的数据处理装置，其特征在于，所述输出单元包括：

14.一种存储设备，其特征在于，所述存储设备存储有一条或一条以上指令，所述一条或一条以上指令适于由处理器加载并执行如权利要求1-9任一项所述的数据处理方法。

15.一种网络设备，其特征在于，包括：

处理器，适于实现一条或一条以上指令；以及，

存储设备，所述存储设备存储有一条或一条以上指令，所述一条或一条以上指令适于由所述处理器加载并执行如权利要求1-9任一项所述的数据处理方法。