CN110019703B

CN110019703B - 数据标记方法及装置、智能问答方法及系统

Info

Publication number: CN110019703B
Application number: CN201710861110.0A
Authority: CN
Inventors: 张雨洵
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2022-09-30
Anticipated expiration: 2037-09-21
Also published as: CN110019703A

Abstract

本申请实施例公开了数据标记方法及装置、智能问答方法及系统，该数据标记方法包括：依据预先设置的关键词从原始数据中提取出待标记数据；采用基于密度的聚类算法对待标记数据进行聚类，得到聚类后的各聚类集；其中，聚类后的各聚类集与待标记数据的大小比值不大于预设大小比值；获取对各聚类集进行人工标记的标记结果；依据标记结果对待标记数据中还未标记的剩余数据进行标记。采用本申请实施例，不仅可以用更少的人力物力成本来实现人工标注，而且使得聚类集中的数据可以获得精确的标注结果。进一步的，对于待标注数据中剩余未被标记的数据，还可以依据对聚类集的人工标注结果进行标注，还能提高未被标注过的剩余数据的标注结果的精确度。

Description

数据标记方法及装置、智能问答方法及系统

技术领域

本申请涉及互联网数据处理技术领域，特别涉及一种对互联网业务中的问句数据标记方法及装置，一种基于数据标记的智能问答方法及系统，一种基于数据标记的答案获取方法及客户端，以及，一种服务器。

背景技术

目前，很多公司都存在一定数量的工单，例如：对于互联网交易来说，用户会向客服提问，客服会针对客户的问题进行回复，而用户向客户提问可以理解为求助工单。这些工单对于产品的改进和自主服务机器人的训练都可以起到很重要的作用。但是，这些工单中原始数据的存在形式都是自然语言形式，因而无法被机器所使用，例如：工单中的原始数据无法直接作为机器学习的训练样本被使用。因此，需要对这些原始数据进行标注，从而生成机器可以使用的数据。

发明内容

发明人在研究过程中发现，在现有技术中，由于工单中的原始数据涉及到用户的隐私等，因此，一般都是通过技术人员对所有原始数据人工进行标注，这样不仅会耗费大量的人力和财力，而且标记效率和准确度都很低。

基于此，本申请提供了一种数据标记方法，用以采用基于密度的聚类算法，对原始数据进行聚类，得到大小小于原始数据的预设大小比值的聚类集，这类聚类集采用人工标注得到标注结果，从而利用聚类集的标注结果再对其他原始数据进行标记。因为人工标注的数据不需要覆盖全部原始数据，只需要对小于原始数据的预设大小比值的聚类集中的问句数据进行标记，从而减少了人力物力财力的消耗，也提高了标记数据的效率和准确度。

本申请还提供了一种数据标记装置，用以保证上述方法在实际中的实现及应用。

为了解决上述问题，本申请公开了一种数据标记方法，该方法包括：

依据预先设置的关键词从原始数据中提取出待标记数据；

采用基于密度的聚类算法对所述待标记数据进行聚类，得到聚类后的各聚类集；其中，聚类后的各聚类集与所述待标记数据的大小比值不大于预设大小比值；

获取对所述各聚类集进行人工标记的标记结果；

依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记。

其中，所述依据预先设置的关键词从原始数据中提取出待标记数据，包括：

从数据源获取原始数据，所述原始数据包括：用户标识、客服标识、各条原始数据的数据标识和各原始数据的内容；所述用户标识为提出问题的提问用户的标识，所述客服标识为回答问题的客服的标识；

按照预设的问句关键词，从所述原始数据中抽取出各提问用户的问句数据；

判断各问句数据的长度是否大于预设的长度阈值，如果是，则从大于所述长度阈值的各问句数据中，删除满足预设删除条件的问句数据，得到所述待标记数据；所述预设删除条件为：涉及用户的账号、密码和/或无意义的独立字符。

其中，所述删除满足预设删除条件的问句数据之后，还包括：

将各删除后的问句数据转化成相同维度的各问句向量，并将所述各问句向量作为所述待标记数据。

其中，所述采用基于密度的聚类算法对所述待标记数据进行聚类，得到聚类后的各聚类集，包括：

设置基于密度的聚类算法的距离阈值和密度阈值，所述预设的大小比值由所述距离阈值和所述密度阈值确定，所述距离阈值用于表示聚类后每一类聚类集中各待标记数据之间的最大距离，所述密度阈值用于表示：每一类聚类集中各待标记数据的总个数的最大值；

依据设置了距离阈值和密度阈值的聚类算法，对所述待标记数据进行聚类，得到聚类后的各聚类集。

其中，所述依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记，包括：

依据所述标记结果训练数据标记模型，所述数据标记模型为递归神经网络模型，训练样本为：所述各聚类集中的各问句数据及每个问句所属的聚类集对应的各标记结果；

依据所述训练好的数据标记模型，对所述待标记数据中还未标记的剩余数据进行标记。

其中，所述依据所述训练好的数据标记模型，对所述待标记数据中还未标记的剩余数据进行标记，包括：

将待标记数据中还未标记的剩余数据作为所述数据标记模型的输入，获取所述数据标记模型输出的、各剩余数据关于标记结果的概率分布值；

判断各剩余数据的概率分布值是否大于预设概率阈值，如果是，则针对概率分布值大于预设概率阈值的剩余数据，直接依据该概率分布值对应的标记结果标记该剩余数据。

其中，所述依据所述训练好的数据标记模型，对所述待标记数据中还未标记的剩余数据进行标记，还包括：

针对概率分布值小于或等于预设概率阈值的剩余数据，获取该部分剩余数据在输入所述数据标记模型后且输出概率分布值之前，对应的内部状态向量数据；

将所述内部状态向量数据作为待标记数据，执行所述采用基于密度的聚类算法对所述待标记数据进行聚类，得到聚类后的各聚类集的步骤，以便对所述内部状态向量数据进行标记。

本申请实施例还公开了一种基于数据标记的智能问答方法，该方法应用于智能问答系统中的服务器上，所述服务器对应保存有：各个聚类集、标记结果和答案，所述标记结果表示一个聚类集归属的一类问题；该方法包括：

响应于客户端发送的、需要客服回答的待回答问句，基于密度的聚类算法对所述待回答问句进行聚类，得到所述待回答问句所属的目标聚类集；

将所述目标聚类集对应的标记结果，确定为所述待回答问句的目标标记结果；

将所述目标标记结果对应的答案确定为所述待回答问句的目标答案，并将所述目标答案发送至客户端以便显示。

本申请实施例还公开了一种基于数据标记的答案获取方法，该方法应用于客户端上，该方法包括：

响应于提问用户输入问题，获取所述问题作为待回答问句；

将所述待回答问句发送至服务器，并接收服务器返回的、所述待回答问句的目标答案；

所述答案由所述服务器通过以下方式得到：所述服务器基于密度的聚类算法对所述待回答问句进行聚类，得到所述待回答问句所属的目标聚类集；将所述目标聚类集对应的标记结果，确定为所述待回答问句的目标标记结果；以及，将所述目标标记结果对应的答案确定为所述待回答问句的目标答案。

本申请实施例还公开了一种数据标记装置，该装置集成于服务器上，该标记装置包括：

提取单元，用于依据预先设置的关键词从原始数据中提取出待标记数据；

聚类单元，用于采用基于密度的聚类算法对所述待标记数据进行聚类，得到聚类后的各聚类集；其中，聚类后的各聚类集与所述待标记数据的大小比值不大于预设大小比值；

获取单元，用于获取对所述各聚类集进行人工标记的标记结果；

标记单元，用于依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记。

其中，所述提取单元，包括：

第一获取子单元，用于从数据源获取原始数据，所述原始数据包括：用户标识、客服标识、各条原始数据的数据标识和各原始数据的内容；

抽取子单元，用于按照预设的问句关键词，从所述原始数据中抽取出为各提问用户的问句数据；

判断子单元，用于判断各问句数据的长度是否大于预设的长度阈值；

删除子单元，用于在所述判断子单元的结果为是的情况下，从大于所述长度阈值的各问句数据中，删除满足预设删除条件的问句数据，得到所述待标记数据；所述预设删除条件为：涉及用户的账号、密码和/或无意义的独立字符。

其中，所述提取单元还包括：

转化子单元，用于将各删除后的问句数据转化成相同维度的问句向量，并将所述各问句向量作为所述待标记数据。

其中，所述聚类单元，包括：

设置子单元，用于设置基于密度的聚类算法的距离阈值和密度阈值，所述预设大小比值由所述距离阈值和所述密度阈值确定，所述距离阈值用于表示聚类后每一类聚类集中各待标记数据之间的最大距离，所述密度阈值用于表示：每一类聚类集中各待标记数据的总个数的最大值；

聚类子单元，用于依据设置了距离阈值和密度阈值的聚类算法，对所述待标记数据进行聚类，得到聚类后的各聚类集。

其中，所述标记单元，包括：

训练子单元，用于依据所述标记结果训练数据标记模型，所述数据标记模型为递归神经网络模型，训练样本为：所述各聚类集中的各问句数据及每个问句所述的聚类集对应的各标记结果；

第一标记子单元，用于依据所述训练好的数据标记模型，对所述待标记数据中还未标记的剩余数据进行标记。

其中，所述第一标记子单元，包括：

第二获取子单元，用于将标记数据中还未标记的剩余数据作为所述数据标记模型的输入，获取所述数据标记模型输出的、各剩余数据关于标记结果的概率分布值；

判断子单元，用于判断各剩余数据的概率分布值是否大于预设的概率阈值；

第二标记子单元，用于在所述判断子单元的结果为是的情况下，针对概率分布值大于预设概率阈值的剩余数据，直接依据该概率分布值对应的标记结果标记该剩余数据。

其中，所述第一标记子单元还包括：

第三获取子单元，用于针对概率分布值小于或等于预设概率阈值的剩余数据，获取该部分剩余数据在输入所述数据标记模型后且输出概率分布值之前，对应的内部状态向量数据；

第三标记子单元，用于将所述内部状态向量数据作为待标记数据，执行所述采用基于密度的聚类算法对所述待标记数据进行聚类，得到聚类后的各聚类集的步骤，以便对所述内部状态向量数据进行标记。

本申请实施例还公开了一种智能问答系统，所述智能问答系统包括：服务器和客户端，所述服务器对应保存有：各个聚类集、标记结果和答案，所述标记结果表示一个聚类集归属的一类问题；所述服务器包括：

聚类单元，用于响应于所述客户端发送的、需要客服回答的待回答问句，基于密度的聚类算法对所述待回答问句进行聚类，得到所述待回答问句所属的目标聚类集；

第一确定单元，用于将所述目标聚类集对应的标记结果，确定为所述待回答问句的目标标记结果；

第二确定单元，用于将所述目标标记结果对应的答案确定为所述待回答问句的目标答案；

发送单元，用于将所述目标答案发送至客户端以便显示。

本申请实施例还公开了一种客户端，该客户端包括：

获取问句单元，用于响应于提问用户输入问题，获取所述问题作为待回答问句；

发送单元，用于将所述待回答问句发送至服务器；

接收单元，用于接收服务器返回的、所述待回答问句的目标答案；所述答案由所述服务器通过以下方式得到：所述服务器基于密度的聚类算法对所述待回答问句进行聚类，得到所述待回答问句所属的目标聚类集；将所述目标聚类集对应的标记结果，确定为所述待回答问句的目标标记结果；以及，将所述目标标记结果对应的答案确定为所述待回答问句的目标答案。

本申请实施例还公开了一种用于数据标记的装置，包括有存储器，以及一个或多个程序，其中所述一个或多个程序存储于所述存储器中，且经配置以由一个多个处理器执行所述一个或多个程序包含的、用于进行以下操作的指令：

依据预先设置的关键词从原始数据中提取出待标记数据；

获取对所述各聚类集进行人工标记的标记结果；

与现有技术相比，本申请包括以下优点：

在本申请实施例中，对于从原始数据中提取出的、需要标注的待标注数据，可以采用基于密度的聚类算法对待标记数据进行聚类，从而得到与待标记数据的大小比值不大于预设大小比值的各聚类集，对于这些聚类后的各聚类集再进行人工标注，进而依据聚类集的人工标记结果来对待标注数据中未标记的剩余数据进行标注。因为在本实施例中，聚类后的各聚类集比待标记数据要小，甚至还可以通过设置聚类算法的距离阈值和密度阈值来聚类出远远比待标记数据小的聚类集，所以与现有技术中对所有待标记数据都需要进行人工标注相比，就可以用更少的人力物力成本来实现人工标注，使得聚类集中的数据可以获得精确的标注结果。进一步的，对于待标注数据中剩余未被标记的数据，还可以依据对聚类集的人工标注结果进行标注，还能提高未被标注过的剩余数据的标注结果的精确度。

再进一步的，在一些需要客服机器人等自动回复用户提问的场景中，还可以依据对待标记数据的标记结果来自动生成待回答问题的标记结果，进而自动生成该问题的答案。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的数据标记方法实施例1的流程图；

图2是本申请提供的方法实施例1中S101的流程图；

图3是本申请提供的方法实施例1中S102的流程图；

图4是本申请提供的方法实施例1中S102的流程图；

图5是本申请提供的数据标记的智能问答方法实施例2的信令交互图；

图6是本申请提供的一种数据标记的答案获取方法实施例3的流程示意图；

图7是本申请提供的数据标记装置实施例的结构框图；

图8是本申请提供的一种智能问答系统的服务器的结构框图；

图9是本申请提供的一种客户端的结构框图；

图10是本申请中服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1所示，为本申请提供的一种数据标记方法实施例1的流程图，在本实施例中，所述方法可以包括以下的S101～S104的步骤：

S101：依据预先设置的关键词从原始数据中提取出待标记数据。

本实施例中，一般原始数据中数据量非常庞大，因此为了减小工作量，可以取出原始数据中的部分数据作为待标记数据，仅对这部分待标记数据进行人工标记。

具体的，参考图2所示，为步骤S101的流程图，S101可以包括以下步骤S201～S203：

S201：从数据源获取原始数据，所述原始数据包括：用户标识、客服标识、各条原始数据的数据标识和各原始数据的内容。

本实施例中，所述数据源可以为交易过程中产生的数据，例如可以包括：在电商交易的过程中用户向客服提问的内容、客服针对用户问题回复的内容、用户的提问的时间、客服回复的时间、客户的基本信息以及客服的基本信息等。数据源可以是存在于在数据库中或者已独立文件的形式存在。但是，这些数据针对于数据的标记，并非都是有效数据，因此，需要从数据源中筛选出有用的原始数据。在本实施例中，有效的原始数据的内容包括：用户标识、客服标识、各条原始数据的数据标识和各原始数据的内容。

其中，所述用户标识为可以唯一表示一个用户的标识，例如可以为用户的账号或者昵称；所述客户标识为可以唯一表示一个客服的标识，例如可以为客服的编号和昵称；原始数据为可以唯一表示一条数据的标识，例如可以为产生该数据的用户、客服及产生该条数据的时间的标识；各原始数据的内容可以包括：用户和客服的对话信息，具体的可以为包括用户的提问信息和客服针对用户问题的回复信息。

S202：按照预设的问句关键词，从所述原始数据中抽取出各提问用户的问句数据。

本实施例中，所述原始数据中可以包括用户的提问数据和非提问数据以及客服对用户的回复数据，在本实施例中可以从这些数据中根据预设的关键词，提取出提问用户的问句数据。

其中，预设的关键词可以为一些可以代表用户提问的关键词，例如可以为：怎么、如何、不能、无效等等。

S203：判断各问句数据的长度是否大于预设的长度阈值，如果是，则进入步骤S204。

S204：从大于所述长度阈值的各问句数据中，删除满足预设删除条件的问句数据，得到所述待标记数据；所述预设删除条件为：涉及用户的账号、密码和/或无意义的独立字符。

本实施例中，通过S202得到的各提问用户的问句数据中，可能会存在一定的噪音，即可会存在一些语义不完整的句子，例如：“如何操作”就是一个语义不完整的问句；因此可以将小于预设的长度阈值的问句数据筛出去，而保留大于预设的长度阈值的问句数据。而如果问句数据的长度不大于预设的长度阈值，可以不执行后续流程，即忽略这部分长度小于或等于预设的长度阈值的问句数据。

但是，筛选出的大于预设的长度阈值的问句数据中有一些可能会涉及用户的隐私信息，例如用户的账号和密码，还可能会包括一些无意义的独立字符，例如包含关键字的网址。因此，需要将这样形式的问句数据过滤出去，保留下相对有效的数据。

本实施例中，为了在后续进行聚类时，可以方便使用待标记数据，在删除满足预设删除条件的问句数据后，还可以包括：将各删除后的问句数据转化成相同维度的问句向量，并将所述各问句向量作为所述待标记数据。

本步骤中，将各删除后的问句数据转化成相同维度的问句向量可以采用多种方法进行，例如可以采用word2Vee工具获取句子中的词的平均向量和，或者通过已训练的递归神经网络(英文全称：Recurrent Neural Network，英文简称：RNN)生成句子的向量。这两种方法中采用RNN生成句子的方法可以加强对句子的语义结构、词位置信息保留的程度，但是该种方法需要预先训练，因此训练过的RNN生成向量的结果好坏直接依赖于训练素材的好坏。因此，在实际应用时，技术人员可以根据实际需要选用适合的方式生成句子的向量。

本实施例中，需要说明的是，Word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多NLP相关的工作，比如聚类、找同义词、词性分析等等。

接着返回图1，进入步骤S102：采用基于密度的聚类算法对所述待标记数据进行聚类，得到聚类后的各聚类集；其中，聚类后的各聚类集与所述待标记数据的大小比值不大于预设大小比值。

本实施例中，在待标记的数据中有一些数据可能属于同一种问题，因此在所所述待标记的数据进行标记前，可以先对所述待标记的数据进行聚类。

具体的，参考图3，为步骤S102的流程图，步骤S102可以包括以下步骤S301～S302：

S301：设置基于密度的聚类算法的距离阈值和密度阈值，所述预设大小比值由所述距离阈值和所述密度阈值确定，所述距离阈值用于表示聚类后每一类聚类集中各待标记数据之间的最大距离，所述密度阈值用于表示：每一聚类集中各待标记数据的总个数的最大值。

本实施例中，由于采用人工对聚类后的数据进行标记的，为了减小人工标记的工作量，可以从S101中得到的待标记数据中筛选出部分数据进行聚类。筛选时，依据的是聚类后的聚类集中待标记数据的数量占所有待标记数据的数量的预设大小比值。

本实施例中，由于每两个数据之间存在一定的距离，例如：每个数据可以是由向量表示的，每两个向量之间会存在一定的距离；而且，聚类后的每个聚类集中可以包括多个数据；因此，可以依据距离阈值和密度阈值确定出预设大小比值，进而确定出进行聚类的待标记数据的数量，并筛选出进行聚类的数据。其中，距离阈值用于表示聚类后每一类聚类集中各待标记数据之间的最大距离，密度阈值用于表示每一聚类集中各待标记数据的总个数的最大值。进一步的，可以理解为，可以依据密度阈值确定出进行聚类的数量，依据距离阈值筛选出进行聚类的待标记数据。

S302：依据设置了距离阈值和密度阈值的聚类算法，对所述待标记数据进行聚类，得到聚类后的各聚类集。

本步骤中的聚类算法可以采用非监督学习的方法，非监督学习()unsupervisedlearning)用于表示在设计分类器时，用于处理未被分类标记的样本集。具体的非监督学习的算法可以为：DBSCAN(英文全称：Density-Based Spatial Clustering of Applicationswith Noise)、OPTICS(英文全称：Ordering points to identify the clusteringstructure)或者DENCLUE(英文全称：density-based clustering)。

例如，在本步骤S102中得到的聚类集为10个，这10个对应的标记结果分别是：基于订单的提问、基于发货时间的提问、基于收货时间的提问、基于快递的提问，等等。可见，每一个标注结果都表示了该聚类集下各问句数据归属于哪一类问题。

接着返回图1，进入步骤S103：获取对所述各聚类集进行人工标记的标记结果。

本实施例中，由于聚类后的聚类集中包含的待标记的数据的数量占所有待标记数量的比例很小，可以达到5％-10％，人工标记的工作量在可控的范围内，因此，采用人工标记的方法是完全可行的，而且，在较小数量的情况下，采用人工标记的方法，在一定程度上可以提高标记结果的准确性。

S104：依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记。

本实施例中，通过S103对所述各聚类集进行人工标记，并未对所有待标记数据进行标记，因此需要对待标记数据中还未标记过的剩余数据进行标记。

其中，参考图4，具体的S103的流程图，步骤S103可以包括以下步骤S401～S402：

S401：依据所述标记结果训练数据标记模型，所述数据标记模型为递归神经网络模型，训练样本为：所述各聚类集中的各问句数据及每个问句所属的聚类集对应的各标记结果。本实施例中，由于进行人工标记的聚类集包括的数据较少，因此所述数据标记模型可以采用递归神经网络的机器学习模型；或者，还可以采用RGU(英文全称：Gated RucurrentUni)的机器学习模型，。

但是，需要说明的是，本步骤中不可以采用LSTM(英文全称：Long Short-TermMemory，中文全称：时间递归神经网络)机器学习模型或者比LSTM更为复杂的机器学习模型，这些模型可能会导致训练结果过拟合的问题。

本实施例中，训练样本可以为各聚类集中各问句数据以及每个问句所属的聚类集对应的各标记结果，训练时可以根据各聚类集中各问句数据及每个问句所属的各标记结果的关系对递归神经网络的机器学习模型进行训练。

本步骤中，在对递归神经网络的机器学习模型进行训练时，损失函数采用softmax函数处理后的交叉熵，如以下所述公式(一)所示：

(一)H(p,q)＝E_p[-logq]＝H(p)+D_KL(p||q)；

其中，P为概率预测时标记i的概率，q为概率为i的概率且q的值只

可以为0或者1；H(p)为P的熵，D为p和q的相对熵。

S402：依据所述训练好的数据标记模型，对所述待标记数据中还未标记的剩余数据进行标记。

本实施例中，所述数据标记模型是通过各聚类集中各问句数据及每个问句所属的各标记结果的关系进行训练过的，因此，依据所述训练好的数据标记模型，对所述待标记数据中还未标记的剩余数据进行标记时，可以将未标记的剩余数据输入到所述已训练好的数据标记模型中，得到的结果可以是未标记的剩余数据与各聚类集中已标记的结果的对应关系，进一步得到结果可以是输入的问句数据是已标记结果的概率分布值。

具体的，可以先将待标记数据中还未标记的剩余数据作为所述数据标记模型的输入，获取所述数据标记模型输出的、各剩余数据关于标记结果的概率分布值，再判断各剩余数据的概率分布值是否大于预设的概率阈值，如果是，则表示该剩余数据被标记为该概率值对应的标记结果的可能性较大，因此针对概率分布值大于预设概率阈值的剩余数据，可以直接依据该概率分布值对应的标记结果标记该剩余数据；如果否，则表示该剩余数据被标记为已标记结果的概率很小，则不对该剩余数据进行标记。

具体的，针对概率分布值小于预设概率阈值的剩余数据，可以重新进行聚类，则步骤S402中还可以针对概率分布值小于或等于预设概率阈值的剩余数据，获取该部分剩余数据在输入所述数据标记模型后且输出概率分布值之前，对应的状态向量数据，将所述状态向量数据作为待标记数据，返回执行S102的步骤，以便对所述状态向量数据进行标记。

本实施例中，当剩余数据的概率分布值小于等于预设概率阈值时，可以从所述训练好的数据标记模型中，获取该部分剩余数据在输入所述数据标记模型后且输出概率分布值之前对应的状态向量数据，即将数据模型中的隐藏状态作为状态向量数据，并采用与步骤S102相同的基于密度的聚类算法对该部分剩余数据对应的状态向量重新进行聚类，并得到新的聚类集。可以理解的是，重新进行聚类得到的聚类集与步骤S102中得到的聚类集可能是相同的，也可能是不同的。

例如，步骤S102中得到的聚类集为10个，而对内部状态向量重新聚类后有可能是这10个中的任意一个聚类集，在这种情况下可以直接采用在步骤103中获取到的人工标注结果直接标注；如果不是这10个中的任意一个聚类集，则可以重新获取该不同的聚类集的人工标记结果，即重新对聚类得到的不同的聚类集，进而再依据重新标记的标记结果对数据标记模型进行更新，接着再依据更新后的数据标记模型对待标记数据中还未标记的数据进行标记。

本实施例中，对于从原始数据中提取出的、需要标注的待标注数据，可以采用基于密度的聚类算法对待标记数据进行聚类，从而得到与待标记数据的大小比值不大于预设大小比值的各聚类集，对于这些聚类后的各聚类集再进行人工标注，进而依据聚类集的人工标记结果来对待标注数据中未标记的剩余数据进行标注。因为在本实施例中，聚类后的各聚类集比待标记数据要小，甚至还可以通过设置聚类算法的距离阈值和密度阈值来聚类出远远比待标记数据小的聚类集，所以与现有技术中对所有待标记数据都需要进行人工标注相比，就可以用更少的人力物力成本来实现人工标注，使得聚类集中的数据可以获得精确的标注结果。进一步的，对于待标注数据中剩余未被标记的数据，还可以依据对聚类集的人工标注结果进行标注，还能提高未被标注过的剩余数据的标注结果的精确度。

对数据进行标记之后，可以利用标记结果来对一些用户的提问进行归类，确定待回答问题属于哪一个聚类集，进而依据该聚类集对应的标记结果，可以确定该待回答问题属于哪一类问题，从而从数据库中查询达到该问题的答案。例如，可以由智能机器人来自动查询答案，等等。参考图5，示出了本申请提供的一种基于数据标记的智能问答方法实施例2的信令交互图，在本实施例中，所述方法具体可以包括S501～S504的步骤：

S501：客户端将提问用户输入的、需要客服回答的待回答问句发送至服务器。

在本步骤中，首先客户端将提问用户发出的、待回答的问句，例如“我的订单为什么还没有发货”，发送至服务器。

S502：服务器基于密度的聚类算法对该待回答问句进行聚类，得到该待回答问句所属的目标聚类集；

服务器基于密度的聚类算法对S501中的待回答问句进行聚类，确定S501中的待回答问句属于哪一个目标聚类集。例如，待回答问句采用OPTICS算法进行聚类后，确定待回答问句属于第5类聚类集。

S503：服务器将该目标聚类对应的标记结果，确定为所述待回答问句的标记结果。

而第5类聚类集对应的标记结果，是“属于订单发货时间的询问”问题。

S504：服务器将该目标标记结果对应的答案确定为该待回答问句的目标答案。

因此，基于待回答问题的目标标记结果，就可以直接在后台查询到对应的答案。例如，后台数据库中保存的对“属于订单发货时间的询问”的答案为：“具体订单发货时间由该订单对应的卖家设定”。

S505：服务器将该待回答问句的目标答案发送至客户端以便展示给提问用户。

服务器生成答案之后，可以将该待回答问句的答案通过智能机器人等，返回终端以便展示给提出问题的提问用户查看。

本实施例中，通过确定出用户发出的待回答问句所属的聚类集，确定出待回答问句的标记结果，进而生成待回答问句的答案，因此通过对待标记数据进行聚类标记后，在一些需要客服机器人等自动回复用户提问的场景中，可以依据对待标记数据的标记结果来自动生成待回答问题的标记结果，进而自动生成该问题的答案，这样不仅节省人工客服的成本，还可以对用户的提问进行实时的回答。

对数据进行标记之后，当用户在交易的过程中，需要提问时，可以通过客户端将问题发送给服务器，服务器根据已确定的聚类集，得出问题的答案，并由客户端显示给用户，具体的，针对于客户端的操作可以参考图6，示出了本申请提供的一种基于数据标记的答案获取方法的流程示意图，在本实施例中，所述方法具体可以包括S601～S602的步骤：

S601：响应于提问用户输入问题，获取所述问题作为待回答问句。

本步骤中，首先客户端获取提问用户输入的问题，并将该提问用户输入的问题作为待回答的问句，例如待回答的问句可以为“我的订单为什么还没有发货”。

S602：将所述待回答问句发送至服务器，并接受所述服务器返回的、所述待回答问句的目标答案。

其中，需要说明的是：所述答案可以由所述服务器通过以下方式得到：所述服务器基于密度的聚类算法对所述待回答问句进行聚类，得到所述待回答问句所属的目标聚类集；将所述目标聚类集对应的标记结果，确定为所述待回答问句的目标结果；以及，将所述目标标记结果对应的答案确定为所述待回答问句的目标答案。

客户端获取到待回答问句后，将该待回答问句发送给服务器，服务器基于密度的聚类算法得到该待回答问句对应的目标聚类结果，例如：将该“是否包邮”的待回答问题进行聚类后，确定该待回答问题属于第5类聚类集，第5类聚类集对应的标记结果是“属于发货时间的询问”问题，后台数据库中保存的对“属于订单发货时间的询问”的答案例如为：“具体订单发货时间由该订单对应的卖家设定”，则服务器将该目标答案发送给客户端，客户端接收到该目标答案后，将该答案展示给用户。

本实施例中，客户端获取了待回答的问句后，可以在服务器端确定出该待回答问句对应的目标答案，当客户端接收到服务器端发送的目标答案后，将该目标答案展示给用户。这样，对于一些可以应用客服机器人回答的问题，可以自动的生成用户输入的问题所对应的答案，并展示给用户，这样不仅节省人工客服的成本，还可以对用户的提问进行实时的回答。

参见图7，示出了本申请提供一种数据标记装置的结构框图，该装置集成于服务器上，在本实施例中，该标记装置可以包括：

提取单元701，用于依据预先设置的关键词从原始数据中提取出待标记数据。

聚类单元702，用于采用基于密度的聚类算法对所述待标记数据进行聚类，得到聚类后的各聚类集；其中，聚类后的各聚类集与所述待标记数据的大小比值不大于预设大小比值。

获取单元703，用于获取对所述各聚类集进行人工标记的标记结果。

标记单元704，用于依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记。

可选的，所述提取单元，可以包括：

第一获取子单元，用于从数据源获取原始数据，所述原始数据包括：用户标识、客服标识、各条原始数据的数据标识和各原始数据的内容；判断子单元，用于判断各问句数据的长度是否大于预设的长度阈值；

可选的，所述提取单元还可以包括：

可选的，所述聚类单元，可以包括：

设置子单元，用于设置基于密度的聚类算法的距离阈值和密度阈值，所述预设的大小比值由所述距离阈值和所述密度阈值确定，所述距离阈值用于表示聚类后每一类聚类集中各待标记数据之间的最大距离，所述密度阈值用于表示：每一类聚类集中各待标记数据的总个数的最大值；

可选的，所述标记单元，可以包括：

可选的，所述第一标记子单元，可以包括：

可选的，所述第一标记子单元还可以包括：

本实施例中，所述的标注装置，对于从原始数据中提取出的、需要标注的待标注数据，可以采用基于密度的聚类算法对待标记数据进行聚类，从而得到与待标记数据的大小比值不大于预设大小比值的各聚类集，对于这些聚类后的各聚类集再进行人工标注，进而依据聚类集的人工标记结果来对待标注数据中未标记的剩余数据进行标注。因为在本实施例中，聚类后的各聚类集比待标记数据要小，甚至还可以通过设置聚类算法的距离阈值和密度阈值来聚类出远远比待标记数据小的聚类集，所以与现有技术中对所有待标记数据都需要进行人工标注相比，就可以用更少的人力物力成本来实现人工标注，使得聚类集中的数据可以获得精确的标注结果。进一步的，对于待标注数据中剩余未被标记的数据，还可以依据对聚类集的人工标注结果进行标注，还能提高未被标注过的剩余数据的标注结果的精确度。

参见图8，示出了本申请提供一种智能问答系统的结构框图，本实施例中，该智能问答系统可以包括：服务器和客户端，所述服务器对应保存有：各个聚类集、标记结果和答案，所述标记结果表示一个聚类集归属的一类问题；其中，参考图8，示出了本申请提供的一种智能问答系统的服务器的结构框图，在本实施例中，该服务器包括：

聚类单元801，用于响应于所述客户端发送的、需要客服回答的待回答问句，基于密度的聚类算法对所述待回答问句进行聚类，得到所述待回答问句所属的目标聚类集；

第一确定单元802，用于将所述目标聚类集对应的标记结果，确定为所述待回答问句的目标标记结果；

第二确定单元803，用于将所述目标标记结果对应的答案确定为所述待回答问句的目标答案；

发送单元804，用于将所述目标答案发送至客户端以便显示。

参考图9，示出了本申请提供的一种客户端的结构框图，在本实施例中，所述客户端可以包括：

获取问句单元901，用于响应于提问用户输入问题，获取所述问题作为待回答问句。

发送单元902，用于将所述待回答问句发送至服务器。

接收单元903，用于接收服务器返回的、所述待回答问句的目标答案；所述答案由所述服务器通过以下方式得到：所述服务器基于密度的聚类算法对所述待回答问句进行聚类，得到所述待回答问句所属的目标聚类集；将所述目标聚类集对应的标记结果，确定为所述待回答问句的目标标记结果；以及，将所述目标标记结果对应的答案确定为所述待回答问句的目标答案。

图10是本申请中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。

例如，依据预先设置的关键词从原始数据中提取出待标记数据；采用基于密度的聚类算法对所述待标记数据进行聚类，得到聚类后的各聚类集；其中，聚类后的各聚类集与所述待标记数据的大小比值不大于预设大小比值；获取对所述各聚类集进行人工标记的标记结果；依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记。

服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据标记方法，其特征在于，应用于服务器上，该方法包括：

依据预先设置的关键词从原始数据中提取出待标记数据；

获取对所述各聚类集进行人工标记的标记结果；

依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记，

其中，所述采用基于密度的聚类算法对所述待标记数据进行聚类，得到聚类后的各聚类集的步骤包括：

设置基于密度的聚类算法的距离阈值和密度阈值，所述预设大小比值由所述距离阈值和所述密度阈值确定，所述距离阈值用于表示聚类后每一类聚类集中各待标记数据之间的最大距离，所述密度阈值用于表示：每一类聚类集中各待标记数据的总个数的最大值；以及

2.根据权利要求1所述的方法，其特征在于，所述依据预先设置的关键词从原始数据中提取出待标记数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述删除满足预设删除条件的问句数据之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记，包括：

依据训练好的数据标记模型，对所述待标记数据中还未标记的剩余数据进行标记。

5.根据权利要求4所述的方法，其特征在于，所述依据所述训练好的数据标记模型，对所述待标记数据中还未标记的剩余数据进行标记，包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

针对概率分布值小于或等于预设概率阈值的剩余数据，获取该剩余数据在输入所述数据标记模型后且输出概率分布值之前，对应的内部状态向量数据；

7.一种基于根据权利要求1至6中的任一项所述的数据标记方法的智能问答方法，其特征在于，该方法应用于智能问答系统中的服务器上，所述服务器对应保存有：各个聚类集、标记结果和答案，所述标记结果表示一个聚类集归属的一类问题；该方法包括：

8.一种基于根据权利要求1至6中的任一项所述的数据标记方法的答案获取方法，其特征在于，该方法应用于客户端上，该方法包括：

响应于提问用户输入问题，获取所述问题作为待回答问句；

9.一种基于根据权利要求1至6中的任一项所述的数据标记方法的智能问答系统，其特征在于，所述智能问答系统包括：服务器和客户端，所述服务器对应保存有：各个聚类集、标记结果和答案，所述标记结果表示一个聚类集归属的一类问题；所述服务器包括：

发送单元，用于将所述目标答案发送至客户端以便显示。

10.一种客户端，其特征在于，包括：

发送单元，用于将所述待回答问句发送至服务器；

接收单元，用于接收服务器返回的、所述待回答问句的目标答案；所述答案由所述服务器基于根据权利要求1至6中的任一项所述的数据标记方法，通过以下方式得到：所述服务器基于密度的聚类算法对所述待回答问句进行聚类，得到所述待回答问句所属的目标聚类集；将所述目标聚类集对应的标记结果，确定为所述待回答问句的目标标记结果；以及，将所述目标标记结果对应的答案确定为所述待回答问句的目标答案。

11.一种服务器，其特征在于，包括有存储器，以及一个或多个程序，其中所述一个或多个程序存储于所述存储器中，且经配置以由一个多个处理器执行所述一个或多个程序包含的、用于进行以下操作的指令：

依据预先设置的关键词从原始数据中提取出待标记数据；

获取对所述各聚类集进行人工标记的标记结果；

12.一种数据标记装置，其特征在于，该装置集成于服务器上，该标记装置包括：

标记单元，用于依据所述标记结果对所述待标记数据中还未标记的剩余数据进行标记，

其中，所述聚类单元还用于：

设置基于密度的聚类算法的距离阈值和密度阈值，所述预设大小比值由所述距离阈值和所述密度阈值确定，所述距离阈值用于表示聚类后每一类聚类集中各待标记数据之间的最大距离，所述密度阈值用于表示：每一类聚类集中各待标记数据的总个数的最大值；并且