CN111382263B

CN111382263B - 数据处理方法、装置和系统

Info

Publication number: CN111382263B
Application number: CN201811611850.XA
Authority: CN
Inventors: 薛研歆; 赵振财; 林鹏; 周康
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2023-05-02
Anticipated expiration: 2038-12-27
Also published as: CN111382263A

Abstract

本发明公开了一种数据处理方法、装置和系统。其中，该方法包括：确定目标题目的答案样本，其中，答案样本包括多个备选答案；从多个备选答案中选取多个聚类中心，其中，每个聚类中心对应多个备选答案中的一个答案；基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇；从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案，其中，目标题目的答案用于确定虚拟资源的接收设备。本发明解决了现有技术对开放性题目答案进行验证的验证效率低的技术问题。

Description

数据处理方法、装置和系统

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据处理方法、装置和系统。

背景技术

随着计算机技术发展，人工智能领域的相关技术也正在蓬勃发展。其中，人工智能准确度的提升不仅依赖于算法优化，同时也依赖于训练数据集的大小。相关研究指出，人工智能领域中，大规模的数据有助于表征学习，数据规模压制了标签中存在的噪声。随着训练数据数量级的增加，任务性能呈线性上升。然而，由于标签标注数量和质量存在一些问题，导致目前没有较好的针对开放性题目答案的验证和聚合机制，从而无法生成较好的语义模型和体验评分。目前主要采用以下两种方式对开放性题目答案进行验证：

方式一：采用埋雷题的方式进行验证。该方式首先生成具有标准答案的题目，然后在投放题目的过程中，随机将具有标准答案的题目发给用户，并根据用户答案的正确性来推送用户在整个问题答复过程中的准确率，然后舍弃准确率较低的用户的答案，对准确率达标的用户的答案进行聚合。该方式需要生产较多的校验题目，以保证在任务投放过程中能够及时推算出用户答案的准确率。另外，该方式在判断用户答案的准确性的过程中，当用户答案和正确答案完全一致时才确定用户答案正确，然而，在实际生活中，相似但不相同的语句表达意思相同，例如，用户答案中使用了语气词本不会影响回答结果，但常常被判断为错误答案，从而使得用户答案的准确性存在偏差。最后，在任务进行过程中，对于存在标准答案的问题用户不需要回答，但投放问题的投放者仍需向用户支付回答这些问题的费用，从而导致用户奖励分配不合理。

方式二：采用特定标注人员与事后质检的方式进行验证。该方式是在标注前，选取问题回答较好的用户回答问题(即进行数据标注)。在用户完成数据标注后，选择有经验的标注人员进行二次复查。该方式的可操作性较高，但由于不同标注人员对不同的标注样本集合的理解不同，从而导致第一次标注时正确率较高，在第二次标注时正确率较低。另外，在进行数据标注的过程中，基于标注人员的维度权重易受到标注人员的情绪、心理活动的影响，从而导致数据标注的稳定性较差。高级标注人员在标注过程中的标注效率较高，从而可以提高整体的标注效率，但雇佣较多的高级标注人员需要较高的费用，从而增加了标注预算。如果高级标注人员的数量较少，虽可节省开支，但会对整体回收销量产生较大的影响。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理方法、装置和系统，以至少解决现有技术对开放性题目答案进行验证的验证效率低的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：确定目标题目的答案样本，其中，答案样本包括多个备选答案；从多个备选答案中选取多个聚类中心，其中，每个聚类中心对应多个备选答案中的一个答案；基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇；从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案，其中，目标题目的答案用于确定虚拟资源的接收设备。

根据本发明实施例的另一方面，还提供了一种数据处理装置，包括：第一确定模块，用于确定目标题目的答案样本，其中，答案样本包括多个备选答案；选择模块，用于从多个备选答案中选取多个聚类中心，其中，每个聚类中心对应多个备选答案中的一个答案；分析模块，用于基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇；第二确定模块，用于从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案，其中，目标题目的答案用于确定虚拟资源的接收设备。

根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行数据处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行数据处理方法。

根据本发明实施例的另一方面，还提供了一种数据处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：确定目标题目的答案样本，其中，答案样本包括多个备选答案；从多个备选答案中选取多个聚类中心，其中，每个聚类中心对应多个备选答案中的一个答案；基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇；从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案，其中，目标题目的答案用于确定虚拟资源的接收设备。

在本发明实施例中，采用聚类算法确定目标题目的答案的方式，通过在确定目标题目的答案样本之后，从答案样本包括的多个备选答案中选取多个聚类中心，并基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇，最后从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案。其中，每个聚类中心对应多个备选答案中的一个答案，目标题目的答案用于确定虚拟资源的接收设备。

在上述过程中，采用聚类的方法可以将语义相近的答案进行聚合，提高目标题目的答案验证的准确性，避免了现有技术由于语气词等的干扰导致答案误判的问题。另外，采用聚类的方式对目标题目的答案进行验证，避免了由于标注人员数量较少，导致答案回收速度较慢的问题，提高了验证答案的验证效率。

由此可见，本申请所提供的方案可以解决现有技术对开放性题目答案进行验证的验证效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本发明实施例的一种数据处理方法的流程图；

图3是根据本发明实施例的一种可选的目标簇的示意图；

图4是根据本发明实施例的一种可选的目标簇的示意图；

图5是根据本发明实施例的一种可选的数据处理方法流程图；

图6是根据本发明实施例的一种数据处理装置的示意图；以及

图7是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

众包，指公司或结构将过去由员工执行的工作任务，以自由自愿的形式外包给非特定的大众网络的方式，例如，通过网络对产品的开发需求的调研方式。

埋雷题，指已知正确答案的题目，在本申请中，埋雷题用于判断用户是否正确标注。

实施例1

根据本发明实施例，还提供了一种数据处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的数据处理方法。图2是根据本发明实施例一的数据处理方法的流程图，由图2可知，该方法包括如下步骤：

步骤S202，确定目标题目的答案样本，其中，答案样本包括多个备选答案。

需要说明的是，众包平台可将目标题目随机分发给多个不同的用户，并收集多个不同用户根据目标题目进行回答的答案，其中，上述目标题目优选为主观题目，多个不同用户的答案组成的集合即为上述答案样本。另外，众包平台可以以众包的方式将产品开发需求的调研报告分发至各个用户，并收集各个用户针对调研报告进行答复的答案。其中，众包平台可以为但不限于客户端。

在一种可选的方案中，调研公司(即题目提供方)将需要用户回答的题目或者调研报告通过众包平台随机分发至各个用户(即答案提供方)所使用的终端，各个用户对题目进行答复，或者填写调研报告，并将题目对应的答案或者填写后的调研报告反馈至众包平台。由于用户在答复问题时，用户积极性可能较差，从而导致题目答案的有效性较差，例如，用户不认真答题，随便填写答案等，使得有效答案的数量较少。为保证目标题目的答案的有效性，在得到用户发送的答案之后，众包平台对得到的多个用户的答案进行进一步地筛选，从多个用户的答案中确定答案样本。

可选的，众包平台可以根据多个用户的历史答复问题的情况来确定多个用户的优先级，并采用优先级较高的用户所提供的答案作为答案样本。

此外，还需要说明的是，众包平台为多个用户分发的题目的内容一致，其中，多个用户的数量大于预设数量，优选的，预设数量为3，即提供答案的答案提供方的数量大于3。

步骤S204，从多个备选答案中选取多个聚类中心，其中，每个聚类中心对应多个备选答案中的一个答案。

需要说明的是，在得到多个备选答案之后，众包平台可以随机从多个备选答案中确定聚类中心。其中，多个备选答案为同一个目标题目的答案，例如，题目1由5个用户回答，五个用户给出了五个答案，分别为A、B、C、D和E，则众包平台从A、B、C、D和E五个备选答案中随机确定聚类中心。

在一种可选的方案中，众包平台还可以按照预设顺序来确定聚类中心。可选的，众包平台可以根据用户答复题目的时间先后顺序来确定聚类中心，例如，将最先答复问题的前10个用户的备选答案作为聚类中心。可选的，众包平台还可以设置用户的优先级，并根据用户的优先级来确定聚类中心，例如，众包平台将优先级最高的三个用户的备选答案作为聚类中心。

步骤S206，基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇。

需要说明的是，通过步骤S204确定了聚类中心之后，众包平台需要确定以该聚类中心为中心的目标簇，该目标簇中包含了多个备选样本。可选的，众包平台可以基于k-medoids聚类方法(一种无监督学习聚类算法)对备选答案进行聚类得到目标簇，其中，每个目标簇对应一个聚类中心。

步骤S208，从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案。

需要说明的是，上述目标题目的答案用于确定虚拟资源的接收设备，其中，虚拟资源可以为题目资源，例如，网页形式的题目资源或者客户端形式的题目资源，虚拟资源的接收设备为能够接收上述题目资源的设备。可选的，在确定目标题目的答案之后，众包平台根据目标题目的答案确定每个用户答题的准确度，并将题目资源发给答题准确度大于预设准确度的用户的接收设备，以使用户对题目资源进行答复。容易注意到的是，由于接收设备对应的用户的答案的准确率较高，因此，将题目资源发放给接收设备，众包平台能够回收到参考价值较大的答案。

在一种可选的方案中，在得到多个目标簇之后，众包平台从多个目标簇中确定候选簇。可选的，众包平台可以随机从多个目标簇中选择候选簇，还可以根据每个目标簇中所包含的答案数量来选择候选簇，例如，选择目标簇中所包含的答案数量最多的目标簇作为候选簇。此外，众包平台还可根据每个目标簇所对应的答案提供方的优先级别来选择候选簇，例如，目标簇1中包含优先级别在前10的答案提供方的答案的数量为5个，目标簇2中包含优先级别在前10的答案提供方的答案的数量为3个，目标簇,3中包含优先级别在前10的答案提供方的答案的数量为2个，则将选择目标簇1作为候选簇。

进一步地，在从多个目标簇中确定候选簇之后，众包平台将候选簇所包含的备选答案作为目标题目的答案。

基于上述步骤S202至步骤S208所限定的方案，可以获知，采用聚类算法确定目标题目的答案的方式，通过在确定目标题目的答案样本之后，从答案样本包括的多个备选答案中选取多个聚类中心，并基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇，最后从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案。其中，每个聚类中心对应多个备选答案中的一个答案。

容易注意到的是，采用聚类的方法可以将语义相近的答案进行聚合，提高目标题目的答案验证的准确性，避免了现有技术由于语气词等的干扰导致答案误判的问题。另外，采用聚类的方式对目标题目的答案进行验证，避免了由于标注人员数量较少，导致答案回收速度较慢的问题，提高了验证答案的验证效率。

在一种可选的方案中，众包平台可以通过如下方式确定目标题目的答案样本。具体的，众包平台首先收集来自多个答案提供方的备选答案，然后确定多个答案提供方的优先级，最后从优先级最高的答案提供方所提供的预设数量个答案中选择多个备选答案。

可选的，众包平台可获取每个答案提供方的历史答题记录，其中，历史答题记录中记载由每个答案提供方答题的准确率。众包平台根据答案提供方的历史答题准确率来确定每个答案提供方的优先级，例如，历史答题准确率越高的答案提供方的优先级越高。

可选的，众包平台还可根据每个答案提供方每次答题的答题准确率来确定该答案提供方的信用值，并将答案提供方的标识(例如，账号)以及信用值进行存储。当答案提供方再次答题时，众包平台结合答案提供方的历史答题次数以及信用值来确定答案提供方的优先级，并结合本次答题的准确率对其信用值进行更新。

进一步地，在确定了答案提供方的优先级之后，众包平台根据从优先级最高的提供方所提供的预设数量个答案中选择多个备选答案。例如，众包平台将优先级最高的前10位答案提供方所提供的答案作为备选答案。

在一种可选的方案中，在从答案提供方得到答案样本之后，众包平台从答案样本包含的多个备选答案中确定聚类中心，其中，聚类中心的选取方法可以为随机选取，也可以为按照预设顺序进行选择。进一步地，确定聚类中心之后，众包平台还基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇。具体的，众包平台首先计算多个备选答案中与聚类中心的距离最近的至少一个样本点，得到多个第一簇，其中，每个样本点对应一个备选答案，距离包括文本编辑距离。然后再计算每个第一簇中除聚类中心之外的任意一个样本点与其他样本点的距离之和，将最小距离之和对应的样本点作为第二聚类中心，并基于第二聚类中心确定目标簇。

需要说明的是，上述文本编辑距离，又称Levenshtein距离，是指两个样本点之间，由一个样本点转换为另一个样本点所需要的最少编辑操作次数，其中，编辑操作包括但不限于替换、插入以及删除。

可选的，在确定多个聚类中心之后，众包平台计算除聚类中心之外的其他样本点到聚类中心的距离，例如，存在100个备选答案，从100个备选答案中确定了三个聚类中心，分别为A、B和C，如图3所示的示意图，则众包平台计算除聚类中心A、B和C之外的其他备选答案分别到聚类中心A、B和C的距离，例如，备选答案D(或者样本点D)分别到聚类中心A、B和C的距离，如果备选答案D到聚类中心A的距离最短，备选答案E到聚类中心B的距离最短，备选答案F到聚类中心C的距离最短，则将备选答案D聚类至聚类中心A所在的第一簇中，将备选答案E聚类至聚类中心B所在的第一簇中，将备选答案F聚类至聚类中心C所在的第一簇中。重复上述操作，直至确定上述97个样本点所对应的第一簇为止。在得到了第一簇之后，众包平台进一步再确定每个第一簇对应的聚类中心，在包含聚类中心A的第一簇中，众包平台计算每个样本点(除聚类中心A之外)到其他样本点距离之和，例如，如图4所示，包含聚类中心A的第一簇中包含样本点D1、D2、D3和D4，则众包平台计算D1到A、D2、D3和D4的距离之和(第一距离之和)，D2到A、D1、D3和D4的距离之和(第二距离之和)，D3到A、D1、D2和D4的距离之和(第三距离之和)，D4到A、D1、D2和D3的距离之和(第四距离之和)。然后从第一距离之和、第二距离之和、第三距离之和以及第四距离之和中确定最小的距离之和，如果第一距离之和最小，则讲D1作为该簇的聚类中心，即得到第二聚类中心。

进一步地，在得到第二聚类中心之后，众包平台重复计算第一簇中任意一个样本点与其他样本点的距离之和，直到得到的第二聚类中心不变，将第二聚类中心不变时得到的簇作为目标簇。然后，众包平台比较多个目标簇中各个目标簇包含的答案数量，得到多个目标簇中答案数量最多的簇，并将答案数量最多的簇作为候选簇。

更进一步地，在确定候选簇之后，众包平台可基于以下任意一种方式来确定目标题目的答案：

方式一：将候选簇中的所有备选答案作为目标题目的答案。即在该方式中，众包平台判定所有在候选簇中的答案为正确答案，其余目标簇中所包含的答案为错误答案。

方式二：从候选簇中的所有备选答案中选择与候选簇中的聚类中心相似度最高的备选答案，将与候选簇中的聚类中心相似度最高的备选答案作为目标题目的答案。可选的，在该方式中，众包平台可以通过计算候选簇中备选答案与聚类中心的文本编辑距离的方式来计算候选簇中备选答案与聚类中心的相似度，其中，文本编辑距离越短，则该备选答案与聚类中心的相似度越高。例如，众包平台可计算候选簇中除聚类中心之外的所有备选答案与聚类中心的文本编辑距离，并按照文本编辑距离的大小进行排序，选取文本编辑距离最小的备选答案作为目标题目的答案。例如，候选簇为图4所示的聚类中心为A的簇，其中，备选答案D1与聚类中心A的文本编辑距离最小，则备选答案D1为该目标题目的答案。

在一种可选的方案中，从多个目标簇中选取候选簇之后，众包平台还确定候选簇中各个备选答案对应的答案提供方，并为答案提供方分配奖励资源。其中，众包平台可通过比较候选簇中各个备选答案与候选簇的聚类中心相似度大小，并按照相似度大小确定为答案提供方分配的奖励资源数量，其中，相似度越大，分配的奖励资源数量越多。例如，仍以图4为例进行说明，备选答案D1与聚类中心A的文本编辑距离最小，备选答案D1与聚类中心A的相似度最大，则众包平台为提供备选答案D1的答案提供方分配较多的奖励资源。

可选的，图5示出了一种可选的数据处理方法流程图，由图5可知，本申请所提供的数据处理方法主要包括四个步骤，即题目分发、答案分析、答案聚合以及奖励发放。具体的，在题目分发阶段，众包平台分发目标题目至各个用户，并收集每个用户回答的答案，然后再确定每个题目所对应的用户的答案，例如，从所有用户的答案中提取出题目1的答案。进一步地，在答案分析阶段，众包平台从用户的答案中随机选取多个聚类中心，并使用文本编辑距离的方式计算除聚类中心之外的样本点与聚类中心的距离，并将样本点归类至距离聚类中心最近的样本点中，从而得到第一簇。然后，众包平台计算每个第一簇中除聚类中心之外的任意一个样本点与其他样本点的距离之和，从而得到第二聚类中心。如果第二聚类中心仍发生变化，则重复执行上述过程，直至第二聚类中心不再发生变化，此时，进入答案聚合阶段，在该答案聚合阶段中，众包平台选取包含答案数量最多的目标簇作为候选簇，并从候选簇中选择与聚类中心相似度最高的答案作为最终答案。在确定目标题目的最终答案之后，众包平台进入奖励发放阶段。在奖励发放阶段，众包平台对用户的答案进行标记，并对为标记正确的用户发放奖励。

需要说明的是，通过上述过程可知，本申请所提供的方案无需预先投放埋雷题，从而减少了投放题目的用户的工作量。同时，使用聚类方法还可将语义相近的答案聚合成同样的内容，避免了现有技术对检验题目验证严格的问题。此外，本申请所提供的方案使用普通的众包用户即可得到想要的结果，准确率也得到了保障，避免使用较多的高级标注人员导致增加预算的问题。最后，在用本申请所提供的方案可以提升任务数据回收销量，避免了高级用户人员数量较少所导致的任务的回收速度缓慢的问题。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的数据处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，如图6所示，该装置60包括：第一确定模块601、选择模块603、分析模块605以及第二确定模块607。

其中，第一确定模块601，用于确定目标题目的答案样本，其中，答案样本包括多个备选答案；选择模块603，用于从多个备选答案中选取多个聚类中心，其中，每个聚类中心对应多个备选答案中的一个答案；分析模块605，用于基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇；第二确定模块607，用于从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案，其中，目标题目的答案用于确定虚拟资源的接收设备。

此处需要说明的是，上述第一确定模块601、选择模块603、分析模块605以及第二确定模块607对应于实施例1中的步骤S202至步骤S208，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。

在一种可选的方案中，分析模块包括：第一计算模块、第二计算模块以及第三确定模块。其中，第一计算模块，用于计算多个备选答案中与聚类中心的距离最近的至少一个样本点，得到多个第一簇，其中，每个样本点对应一个备选答案，距离包括文本编辑距离；第二计算模块，用于计算每个第一簇中除聚类中心之外的任意一个样本点与其他样本点的距离之和，将最小距离之和对应的样本点作为第二聚类中心；第三确定模块，用于基于第二聚类中心确定目标簇。

在一种可选的方案中，第三确定模块包括：第三计算模块以及第四确定模块。其中，第三计算模块，用于重复计算第一簇中任意一个样本点与其他样本点的距离之和，直到得到的第二聚类中心不变；第四确定模块，用于将第二聚类中心不变时得到的簇作为目标簇。

在一种可选的方案中，第二确定模块包括：第一比较模块。其中，第一比较模块，用于比较多个目标簇中各个目标簇包含的答案数量，得到多个目标簇中答案数量最多的簇，并将答案数量最多的簇作为候选簇。

在一种可选的方案中，第二确定模块包括：第五确定模块以及第一选择模块。其中，第五确定模块，用于将候选簇中的所有备选答案作为目标题目的答案；或者第一选择模块，用于从候选簇中的所有备选答案中选择与候选簇中的聚类中心相似度最高的备选答案，将与候选簇中的聚类中心相似度最高的备选答案作为目标题目的答案。

在一种可选的方案中，数据处理装置还包括：第六确定模块以及分配模块。其中，第六确定模块，用于确定候选簇中各个备选答案对应的答案提供方；分配模块，用于为答案提供方分配奖励资源。

在一种可选的方案中，分配模块包括：第二比较模块以及第七确定模块。其中，第二比较模块，用于比较候选簇中各个备选答案与候选簇的聚类中心相似度大小；第七确定模块，用于按照相似度大小确定为答案提供方分配的奖励资源数量，其中，相似度越大，分配的奖励资源数量越多。

在一种可选的方案中，第一确定模块包括：收集模块、第八确定模块以及第二选择模块。其中，收集模块，用于收集来自多个答案提供方的备选答案；第八确定模块，用于确定多个答案提供方的优先级；第二选择模块，用于从优先级最高的答案提供方所提供的预设数量个答案中选择多个备选答案。

实施例3

根据本发明实施例，还提供了一种用于实施上述数据处理方法的数据处理系统，该系统包括：处理器以及存储器。

其中，存储器与处理器连接，用于为处理器提供处理以下处理步骤的指令：确定目标题目的答案样本，其中，答案样本包括多个备选答案；从多个备选答案中选取多个聚类中心，其中，每个聚类中心对应多个备选答案中的一个答案；基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇；从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案，其中，目标题目的答案用于确定虚拟资源的接收设备。

由上可知，采用聚类算法确定目标题目的答案的方式，通过在确定目标题目的答案样本之后，从答案样本包括的多个备选答案中选取多个聚类中心，并基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇，最后从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案。其中，每个聚类中心对应多个备选答案中的一个答案。

此外，还需要说明的是，本实施例中的处理器可执行实施例1中所提供的数据处理方法。

实施例4

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行数据处理方法中以下步骤的程序代码：确定目标题目的答案样本，其中，答案样本包括多个备选答案；从多个备选答案中选取多个聚类中心，其中，每个聚类中心对应多个备选答案中的一个答案；基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇；从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案。

可选地，图7是根据本发明实施例的一种计算机终端的结构框图。如图7所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器702、存储器704以及传输装置706。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的数据处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：确定目标题目的答案样本，其中，答案样本包括多个备选答案；从多个备选答案中选取多个聚类中心，其中，每个聚类中心对应多个备选答案中的一个答案；基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇；从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案，其中，目标题目的答案用于确定虚拟资源的接收设备。

可选的，上述处理器还可以执行如下步骤的程序代码：计算多个备选答案中与聚类中心的距离最近的至少一个样本点，得到多个第一簇，其中，每个样本点对应一个备选答案，距离包括文本编辑距离；计算每个第一簇中除聚类中心之外的任意一个样本点与其他样本点的距离之和，将最小距离之和对应的样本点作为第二聚类中心；基于第二聚类中心确定目标簇。

可选的，上述处理器还可以执行如下步骤的程序代码：重复计算第一簇中任意一个样本点与其他样本点的距离之和，直到得到的第二聚类中心不变；将第二聚类中心不变时得到的簇作为目标簇。

可选的，上述处理器还可以执行如下步骤的程序代码：比较多个目标簇中各个目标簇包含的答案数量，得到多个目标簇中答案数量最多的簇，并将答案数量最多的簇作为候选簇。

可选的，上述处理器还可以执行如下步骤的程序代码：将候选簇中的所有备选答案作为目标题目的答案；或者从候选簇中的所有备选答案中选择与候选簇中的聚类中心相似度最高的备选答案，将与候选簇中的聚类中心相似度最高的备选答案作为目标题目的答案。

可选的，上述处理器还可以执行如下步骤的程序代码：确定候选簇中各个备选答案对应的答案提供方；为答案提供方分配奖励资源。

可选的，上述处理器还可以执行如下步骤的程序代码：比较候选簇中各个备选答案与候选簇的聚类中心相似度大小；按照相似度大小确定为答案提供方分配的奖励资源数量，其中，相似度越大，分配的奖励资源数量越多。

可选的，上述处理器还可以执行如下步骤的程序代码：收集来自多个答案提供方的备选答案；确定多个答案提供方的优先级；从优先级最高的答案提供方所提供的预设数量个答案中选择多个备选答案。

本领域普通技术人员可以理解，图7所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：确定目标题目的答案样本，其中，答案样本包括多个备选答案；从多个备选答案中选取多个聚类中心，其中，每个聚类中心对应多个备选答案中的一个答案；基于多个聚类中心对多个备选答案进行聚类分析，得到多个目标簇；从多个目标簇中选取候选簇，并基于候选簇从答案样本中确定目标题目的答案，其中，目标题目的答案用于确定虚拟资源的接收设备。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：计算多个备选答案中与聚类中心的距离最近的至少一个样本点，得到多个第一簇，其中，每个样本点对应一个备选答案，距离包括文本编辑距离；计算每个第一簇中除聚类中心之外的任意一个样本点与其他样本点的距离之和，将最小距离之和对应的样本点作为第二聚类中心；基于第二聚类中心确定目标簇。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：重复计算第一簇中任意一个样本点与其他样本点的距离之和，直到得到的第二聚类中心不变；将第二聚类中心不变时得到的簇作为目标簇。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：比较多个目标簇中各个目标簇包含的答案数量，得到多个目标簇中答案数量最多的簇，并将答案数量最多的簇作为候选簇。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将候选簇中的所有备选答案作为目标题目的答案；或者从候选簇中的所有备选答案中选择与候选簇中的聚类中心相似度最高的备选答案，将与候选簇中的聚类中心相似度最高的备选答案作为目标题目的答案。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：确定候选簇中各个备选答案对应的答案提供方；为答案提供方分配奖励资源。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：比较候选簇中各个备选答案与候选簇的聚类中心相似度大小；按照相似度大小确定为答案提供方分配的奖励资源数量，其中，相似度越大，分配的奖励资源数量越多。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：收集来自多个答案提供方的备选答案；确定多个答案提供方的优先级；从优先级最高的答案提供方所提供的预设数量个答案中选择多个备选答案。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

确定目标题目的答案样本，其中，所述答案样本包括多个备选答案；

从所述多个备选答案中选取多个聚类中心，其中，每个聚类中心对应所述多个备选答案中的一个答案；

基于所述多个聚类中心对所述多个备选答案进行聚类分析，得到多个目标簇；

从所述多个目标簇中选取候选簇，并基于所述候选簇从所述答案样本中确定所述目标题目的答案，其中，所述目标题目的答案用于确定虚拟资源的接收设备；

其中，基于所述多个聚类中心对所述多个备选答案进行聚类分析，得到多个目标簇，包括：计算所述多个备选答案中与所述聚类中心的距离最近的至少一个样本点，得到多个第一簇，其中，每个样本点对应一个备选答案，所述距离包括文本编辑距离；计算每个所述第一簇中除所述聚类中心之外的任意一个样本点与其他样本点的距离之和，将最小距离之和对应的样本点作为第二聚类中心；重复计算所述第一簇中所述任意一个样本点与其他样本点的距离之和，直到得到的第二聚类中心不变；将第二聚类中心不变时得到的簇作为所述目标簇；

从所述多个目标簇中选取候选簇，包括：比较所述多个目标簇中各个目标簇包含的答案数量，得到所述多个目标簇中答案数量最多的簇，并将所述答案数量最多的簇作为所述候选簇。

2.根据权利要求1所述的方法，其特征在于，基于所述候选簇确定所述目标题目的答案，包括：

将所述候选簇中的所有备选答案作为所述目标题目的答案；或者

从所述候选簇中的所有备选答案中选择与所述候选簇中的聚类中心相似度最高的备选答案，将与所述候选簇中的聚类中心相似度最高的备选答案作为所述目标题目的答案。

3.根据权利要求1所述的方法，其特征在于，从所述多个目标簇中选取候选簇之后，所述方法还包括：

确定所述候选簇中各个备选答案对应的答案提供方；

为所述答案提供方分配奖励资源。

4.根据权利要求3所述的方法，其特征在于，为所述答案提供方分配奖励资源，包括：

比较所述候选簇中各个备选答案与所述候选簇的聚类中心相似度大小；

按照所述相似度大小确定为所述答案提供方分配的奖励资源数量，其中，相似度越大，分配的奖励资源数量越多。

5.根据权利要求1至4中任意一项所述的方法，其特征在于，确定目标题目的答案样本，包括：

收集来自多个答案提供方的备选答案；

确定所述多个答案提供方的优先级；

从优先级最高的答案提供方所提供的预设数量个答案中选择所述多个备选答案。

6.一种数据处理装置，其特征在于，包括：

第一确定模块，用于确定目标题目的答案样本，其中，所述答案样本包括多个备选答案；

选择模块，用于从所述多个备选答案中选取多个聚类中心，其中，每个聚类中心对应所述多个备选答案中的一个答案；

分析模块，用于基于所述多个聚类中心对所述多个备选答案进行聚类分析，得到多个目标簇；所述分析模块计算所述多个备选答案中与所述聚类中心的距离最近的至少一个样本点，得到多个第一簇，其中，每个样本点对应一个备选答案，所述距离包括文本编辑距离；计算每个所述第一簇中除所述聚类中心之外的任意一个样本点与其他样本点的距离之和，将最小距离之和对应的样本点作为第二聚类中心；重复计算所述第一簇中所述任意一个样本点与其他样本点的距离之和，直到得到的第二聚类中心不变；将第二聚类中心不变时得到的簇作为所述目标簇；

第二确定模块，用于从所述多个目标簇中选取候选簇，并基于所述候选簇从所述答案样本中确定所述目标题目的答案，其中，所述目标题目的答案用于确定虚拟资源的接收设备；所述第二确定模块比较所述多个目标簇中各个目标簇包含的答案数量，得到所述多个目标簇中答案数量最多的簇，并将所述答案数量最多的簇作为所述候选簇。

7.一种数据处理系统，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

确定目标题目的答案样本，其中，所述答案样本包括多个备选答案；从所述多个备选答案中选取多个聚类中心，其中，每个聚类中心对应所述多个备选答案中的一个答案；基于所述多个聚类中心对所述多个备选答案进行聚类分析，得到多个目标簇；从所述多个目标簇中选取候选簇，并基于所述候选簇从所述答案样本中确定所述目标题目的答案，其中，所述目标题目的答案用于确定虚拟资源的接收设备；

其中，基于所述多个聚类中心对所述多个备选答案进行聚类分析，得到多个目标簇，包括：计算所述多个备选答案中与所述聚类中心的距离最近的至少一个样本点，得到多个第一簇，其中，每个样本点对应一个备选答案，所述距离包括文本编辑距离；计算每个所述第一簇中除所述聚类中心之外的任意一个样本点与其他样本点的距离之和，将最小距离之和对应的样本点作为第二聚类中心；重复计算所述第一簇中所述任意一个样本点与其他样本点的距离之和，直到得到的第二聚类中心不变；将第二聚类中心不变时得到的簇作为所述目标簇；从所述多个目标簇中选取候选簇，包括：比较所述多个目标簇中各个目标簇包含的答案数量，得到所述多个目标簇中答案数量最多的簇，并将所述答案数量最多的簇作为所述候选簇。