CN109145084A

CN109145084A - 数据处理方法、数据处理装置和服务器

Info

Publication number: CN109145084A
Application number: CN201810750377.7A
Authority: CN
Inventors: 崔恒斌; 张家兴; 李小龙
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2019-01-04
Anticipated expiration: 2038-07-10
Also published as: CN109145084B

Abstract

本说明书实施例提供一种数据处理方法、数据处理装置和服务器。所述方法包括：对语料数据中的原始咨询信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

Description

数据处理方法、数据处理装置和服务器

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种数据处理方法、数据处理装置和服务器。

背景技术

随着互联网和通信技术的发展，越来越多的网站或平台开始提供对话助手。所述对话助手可以为一种面向客服人员的平台型工具。客服人员可以使用所述对话助手，答复用户提出的咨询问题，从而极大地降低人工客服的数量，达到降低服务成本的目的。

在相关技术中，开发人员通常需要预先配置知识库。所述知识库可以包括至少一个知识点。每个知识点可以包括相关联的标准咨询信息和标准答复信息。终端设备可以基于用户的操作，向运行有所述对话助手的服务器发送来自用户的目标咨询信息。所述服务器可以接收所述目标咨询信息；可以从所述知识库中选取知识点，选取的知识点中的标准咨询信息能够表征所述目标咨询信息的语义；可以在所述对话助手的会话界面展示选取的知识点中的标准答复信息。客服人员可以浏览审核展示的标准答复信息；在认为没有问题后，可以向所述服务器发送答复指令。所述服务器可以接收所述答复指令；可以向所述终端设备发送展示的标准答复信息。所述终端设备可以接收并展示标准答复信息。

在上述相关技术中，知识点中的标准咨询信息和标准答复信息，通常是由一个或多个运营人员基于人工经验预先设定的。受限于运营人员的数量和认知水平，这种根据人工经验来设定标准咨询信息和标准答复信息的方法，通常会出现与业务实际不相符的情况，从而影响用户体验。例如，来自用户的语义相同的咨询信息会有多种不同的表述方式，知识点中的标准咨询信息无法覆盖所述多种不同的表述方式。另举一例，知识点中的标准答复信息与来自用户的咨询信息并不能够很好的形成匹配，导致用户不满。

发明内容

本说明书实施例的目的是提供一种数据处理方法、数据处理装置和服务器，能够生成相关联的标准咨询信息和标准答复信息。生成的标准咨询信息和标准答复信息更加符合业务实际，从而可以提高用户体验。

为实现上述目的，本说明书实施例提供一种数据处理方法，包括：对语料数据中的原始咨询信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

为实现上述目的，本说明书实施例提供一种数据处理装置，包括：聚类单元，用于对语料数据中的原始咨询信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；生成单元，用于分别基于类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

为实现上述目的，本说明书实施例提供一种服务器，包括：存储器，用于存储计算机指令；处理器，用于执行所述计算机指令，实现以下步骤：对语料数据中的原始咨询信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

为实现上述目的，本说明书实施例提供一种数据处理方法，包括：对语料数据中的原始答复信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于类簇中的原始答复信息和与该类簇中的原始答复信息相关联的原始咨询信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

为实现上述目的，本说明书实施例提供一种数据处理装置，包括：聚类单元，用于对语料数据中的原始答复信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；生成单元，用于分别基于类簇中的原始答复信息和与该类簇中的原始答复信息相关联的原始咨询信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

为实现上述目的，本说明书实施例提供一种服务器，包括：存储器，用于存储计算机指令；处理器，用于执行所述计算机指令，实现以下步骤：对语料数据中的原始答复信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于类簇中的原始答复信息和与该类簇中的原始答复信息相关联的原始咨询信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

为实现上述目的，本说明书实施例提供一种数据处理方法，包括：对语料数据中的原始咨询信息进行聚类，得到至少一个第一类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于第一类簇中的原始咨询信息和与该第一类簇中的原始咨询信息相关联的原始答复信息，为该第一类簇生成相关联的标准咨询信息和标准答复信息；对第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇；所述第一子语料数据包括所述语料数据中除去与第一类簇中的原始咨询信息相关联的原始答复信息后剩余的原始答复信息；分别基于第二类簇中的原始答复信息和与该第二类簇中的原始答复信息相关联的原始咨询信息，为该第二类簇生成相关联的标准咨询信息和标准答复信息。

为实现上述目的，本说明书实施例提供一种数据处理装置，包括：第一聚类单元，用于对语料数据中的原始咨询信息进行聚类，得到至少一个第一类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；第一生成单元，用于分别基于第一类簇中的原始咨询信息和与该第一类簇中的原始咨询信息相关联的原始答复信息，为该第一类簇生成相关联的标准咨询信息和标准答复信息；第二聚类单元，用于对第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇；所述第一子语料数据包括所述语料数据中除去与第一类簇中的原始咨询信息相关联的原始答复信息后剩余的原始答复信息；第二生成单元，用于分别基于第二类簇中的原始答复信息和与该第二类簇中的原始答复信息相关联的原始咨询信息，为该第二类簇生成相关联的标准咨询信息和标准答复信息。

为实现上述目的，本说明书实施例提供一种服务器，包括：存储器，用于存储计算机指令；处理器，用于执行所述计算机指令，实现以下步骤：对语料数据中的原始咨询信息进行聚类，得到至少一个第一类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于第一类簇中的原始咨询信息和与该第一类簇中的原始咨询信息相关联的原始答复信息，为该第一类簇生成相关联的标准咨询信息和标准答复信息；对第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇；所述第一子语料数据包括所述语料数据中除去与第一类簇中的原始咨询信息相关联的原始答复信息后剩余的原始答复信息；分别基于第二类簇中的原始答复信息和与该第二类簇中的原始答复信息相关联的原始咨询信息，为该第二类簇生成相关联的标准咨询信息和标准答复信息。

为实现上述目的，本说明书实施例提供一种数据处理方法，包括：基于特征值，淘汰知识库中的至少一个知识点；所述知识库包括至少一个知识点；所述知识点对应有特征值。

为实现上述目的，本说明书实施例提供一种数据处理装置，包括：淘汰单元，用于基于特征值，淘汰知识库中的至少一个知识点；所述知识库包括至少一个知识点；所述知识点对应有特征值。

为实现上述目的，本说明书实施例提供一种服务器，包括：存储器，用于存储计算机指令；处理器，用于执行所述计算机指令，实现以下步骤：基于特征值，淘汰知识库中的至少一个知识点；所述知识库包括至少一个知识点；所述知识点对应有特征值。

由以上本说明书实施例提供的技术方案可见，本说明书实施例中，服务器可以对语料数据中的原始咨询信息或原始答复信息进行聚类，得到至少一个类簇；可以为该类簇生成相关联的标准咨询信息和标准答复信息。这样所述服务器可以根据类簇生成相关联的标准咨询信息和标准答复信息，生成的相关联的标准咨询信息和标准答复信息更加符合业务实际，从而可以提高用户体验。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例一种数据处理方法的流程图；

图2为本说明书实施例一种数据处理方法的流程图；

图3为本说明书实施例一种数据处理方法的流程图；

图4为本说明书实施例一种知识库示意图；

图5为本说明书实施例一种数据处理方法的流程图；

图6为本说明书实施例一种数据处理装置的功能结构示意图；

图7为本说明书实施例一种服务器的功能结构示意图；

图8为本说明书实施例一种数据处理装置的功能结构示意图；

图9为本说明书实施例一种数据处理装置的功能结构示意图；

图10为本说明书实施例一种数据处理装置的功能结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

请参阅图1。本说明书实施例提供一种数据处理方法。所述数据处理方法以服务器为执行主体。所述服务器可以为一个服务器，还可以为包括多个服务器的服务器集群。所述数据处理方法可以包括以下步骤。

步骤S10：对语料数据中的原始咨询信息进行聚类，得到至少一个类簇。

在本实施例中，所述服务器可以提供语料数据。所述语料数据可以包括至少一个原始咨询信息和至少一个原始答复信息。所述原始咨询信息可以为来自用户的提问语句。所述原始答复信息可以为来自服务器的答复语句。所述答复语句具体可以是所述服务器产生的，或者，还可以是客服人员在所述服务器输入的。所述语料数据可以包括能够形成问答对的原始咨询信息和原始答复信息。具体地，所述语料数据可以包括至少一个问答对，每个问答对可以包括具有关联关系的原始咨询信息和原始答复信息。例如，所述语料数可以包括原始咨询信息ZXA“账户被盗了怎么办”、原始咨询信息ZXB“我刚付了一笔款，但是后台却还是显示未付款”、原始答复信息DFA“请提供您的账户”、原始答复信息DFB“请问您当时在进行交易的时候是本人输入的密码吗”。原始咨询信息ZXA和原始答复信息DFA可以具有关联关系。原始咨询信息ZXB和原始答复信息DFB可以具有关联关系。当然，所述语料数据还可以包括孤立的原始咨询信息和/或孤立的原始答复信息。所述孤立的原始咨询信息可以为在所述语料数据中不与任何原始答复信息具有关联关系的原始咨询信息。所述孤立的原始答复信息可以为在所述语料数据中不与任何原始咨询信息具有关联关系的原始答复信息。例如，所述服务器有可能连续接收到来自用户的多个提问语句，但仅针对部分提问语句产生了答复语句。这样所述语料数据可以包括孤立的咨询信息。

所述语料数据中的原始咨询信息和原始答复信息可以是从日志数据中获取的。具体地，所述服务器可以从所述日志数据中获取提问语句和答复语句；可以将获取的提问语句和答复语句分别作为所述语料数据中的原始咨询信息和原始答复信息。

例如，终端设备可以运行有智能问答工具。所述终端设备例如可以为移动电话(例如智能手机、功能机等)、平板电子设备、便携式计算机、个人数字助理(PDA)、服务器、工控机(工业控制计算机)、个人计算机(PC机)、或一体机等。所述智能问答工具可以为一种面向用户的、能够与用户进行即时交互的计算机程序。所述智能问答工具例如可以为智能客服、微软公司的小冰、百度公司的度秘、京东公司的JIMI、或助理来也等。所述智能问答工具可以提供会话界面。用户可以在所述会话界面输入提问语句。所述终端设备可以接收用户输入提问语句；可以向所述服务器发送所述提问语句。所述服务器可接收所述提问语句；可以接收客服人员针对所述提问语句输入的答复语句；可以向所述终端设备反馈所述答复语句；可以将所述提问语句和所述答复语句添加至所述日志数据。所述终端设备可以接收所述答复语句；可以在所述会话界面展示所述答复语句。

另举一例，终端设备可以具有电话拨打功能。所述终端设备例如可以为固定电话、或移动电话(例如智能手机、功能机等)等。用户可以使用所述终端设备拨打所述服务器对应的服务电话。在接通后，用户可以通过所述终端设备向所述服务器发送声音信息。所述服务器可以接收所述声音信息；可以对所述声音信息进行语音识别，得到提问语句；可以接收客服人员针对所述提问语句输入的答复语句；可以通过所述终端设备向用户播报所述答复语句；可以将所述提问语句和所述答复语句添加至所述日志数据。

在本实施例中，所述服务器可以对所述语料数据中的原始咨询信息进行聚类，得到至少一个类簇。所述类簇可以包括至少一个原始咨询信息。所述类簇中的原始咨询信息可以具有相同的语义。具体地，所述服务器可以计算所述语料数据中原始咨询信息之间的距离；可以根据计算的距离，对所述语料数据中的原始咨询信息进行聚类，得到至少一个类簇。原始咨询信息之间的距离可以用于衡量原始咨询信息之间语义的相近程度。原始咨询信息之间的距离越小，原始咨询信息之间的语义越相近。所述服务器可以使用任意方式计算所述语料数据中原始咨询信息之间的距离。

针对所述语料数据中的任意两个原始咨询信息，所述服务器可以计算所述两个原始咨询信息之间共有词语的数量，与所述两个原始咨询信息所具有词语数量之和的比值；可以基于计算的比值，确定所述两个原始咨询信息之间的距离。例如，所述服务器可以将比值的倒数，作为所述两个原始咨询信息之间的距离。当然，基于计算的比值，所述服务器还可以使用其它方式确定所述两个原始咨询信息之间的距离。或者，所述服务器可以使用词向量算法，计算所述语料数据中原始咨询信息的词向量(word embedding)。所述词向量算法可以包括独热编码(One-Hot Encoding)算法、和word2vec算法等。所述词向量的长度可以根据实际需要灵活设定，例如可以为200、或300等。如此，针对所述语料数据中的任意两个原始咨询信息，所述服务器可以计算所述两个原始咨询信息的词向量之间的距离，作为所述两个原始咨询信息之间的距离。

所述服务器可以使用任意聚类算法，对所述语料数据中的原始咨询信息进行聚类，得到至少一个类簇。所述聚类算法包括但不限于K-MEANS、MEAN-SHIFT、SOM(SelfOrganizing Maps)、DBSCAN(Density-Based Spatial Clustering of Applications withNoise)、和FCM等聚类算法等。以下以DBSCAN聚类算法为例，详细介绍所述服务器对所述语料数据中的原始咨询信息进行聚类的过程。本领域技术人员应当能够理解，这里的聚类过程仅为示例，在实际中DBSCAN聚类算法还可以有其它的变形或变化。所述服务器对所述语料数据中的原始咨询信息进行聚类的过程可以包括以下步骤。

(1)针对所述语料数据中的原始咨询信息，所述服务器可以统计与该原始咨询信息之间的距离小于或等于预置扫描半径(eps)的原始咨询信息的数量；在统计的数量大于或等于预置最小包含点数(minPts)时，可以将该原始咨询信息标记为核心原始咨询信息；在统计的数量小于预置最小包含点数时，可以将该原始咨询信息标记为非核心原始咨询信息。

(2)针对所述语料数据中的非核心原始咨询信息，所述服务器可以判断在与该非核心原始咨询信息之间的距离小于或等于预置扫描半径范围内，是否包含有核心原始咨询信息；若是，可以将该非核心原始咨询信息标记为边界原始咨询信息；若否，可以将该非核心原始咨询信息标记为噪声原始咨询信息。

(3)所述服务器可以基于核心原始咨询信息、边界原始咨询信息、和噪声原始咨询信息，确定至少一个类簇。例如，所述服务器可以除去所述语料数据中的噪声原始咨询信息；可以将核心原始咨询信息的区域标记为类簇；可以将边界原始咨询信息作为类簇的边界。

步骤S12：分别基于类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

在本实施例中，针对每个类簇，所述服务器可以基于该类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。所述标准咨询信息可以为该类簇中原始咨询信息的规范化表述，能够表征该类簇中原始咨询信息的语义。所述标准答复信息可以为与该类簇中原始咨询信息相关联的原始答复信息的规范化表述，能够表征与该类簇中原始咨询信息相关联的原始答复信息的语义。需要说明的是，如前所述，所述语料数据可以包括孤立的原始咨询信息。所述孤立的原始咨询信息可以位于一个或多个类簇。如此，一个或多个类簇中的部分原始咨询信息可以关联有原始答复信息，另一部分原始咨询信息可以没有关联原始答复信息。

具体地，所述服务器可以从该类簇中选取原始咨询信息，作为标准咨询信息；或者，还可以基于该类簇中原始咨询信息的语义，生成标准咨询信息。所述服务器可以从与该类簇中原始咨询信息相关联的原始答复信息中选取原始答复信息，作为标准答复信息；或者，还可以基于与该类簇中原始咨询信息相关联的原始答复信息的语义，生成标准答复信息。

在本实施例中，所述服务器可以将为每个类簇生成的标准咨询信息和标准答复信息作为知识库中的一个知识点；从而可以得到知识库。所述服务器可以基于所述知识库答复用户提出的咨询问题。

在本实施例中，所述服务器可以对语料数据中的原始咨询信息进行聚类，得到至少一个类簇；可以为该类簇生成相关联的标准咨询信息和标准答复信息。这样所述服务器可以根据类簇生成相关联的标准咨询信息和标准答复信息，生成的相关联的标准咨询信息和标准答复信息更加符合业务实际，从而可以提高用户体验。

请参阅图2。本说明书实施例还提供另一种数据处理方法。所述数据处理方法以服务器为执行主体。所述服务器可以为一个服务器，还可以为包括多个服务器的服务器集群。所述数据处理方法可以包括以下步骤。

步骤S20：对语料数据中的原始答复信息进行聚类，得到至少一个类簇。

步骤S22：分别基于类簇中的原始答复信息和与该类簇中的原始答复信息相关联的原始咨询信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

在本实施例中，所述服务器对语料数据中的原始答复信息进行聚类的过程、以及为类簇生成相关联的标准咨询信息和标准答复信息的过程，可以参照前述实施例。

在本实施例中，所述服务器可以对语料数据中的原始答复信息进行聚类，得到至少一个类簇；可以为该类簇生成相关联的标准咨询信息和标准答复信息。这样所述服务器可以根据类簇生成相关联的标准咨询信息和标准答复信息，生成的相关联的标准咨询信息和标准答复信息更加符合业务实际，从而可以提高用户体验。

请参阅图3和图4。本说明书实施例还提供另一种数据处理方法。所述数据处理方法以服务器为执行主体。所述服务器可以为一个服务器，还可以为包括多个服务器的服务器集群。所述数据处理方法可以包括以下步骤。

步骤S30：对语料数据中的原始咨询信息进行聚类，得到至少一个第一类簇。

步骤S32：分别基于第一类簇中的原始咨询信息和与该第一类簇中的原始咨询信息相关联的原始答复信息，为该第一类簇生成相关联的标准咨询信息和标准答复信息。

在本实施例中，所述服务器对语料数据中的原始咨询信息进行聚类的过程、以及为第一类簇生成相关联的标准咨询信息和标准答复信息的过程，可以参照前述实施例。其中，与第一类簇中的原始咨询信息相关联的原始答复信息，可以位于所述语料数据。

步骤S34：对第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇。

在本实施例中，在实际过程中受限于各种因素，经过步骤S30和步骤S32，除去第一类簇中的原始咨询信息以外，所述语料数据还可以包括其它原始咨询信息；除去与第一类簇中原始咨询信息相关联的原始答复信息以外，所述语料数据还可以包括其它原始答复信息。例如，受限于表述过于生僻等因素，所述语料数据中的一个或多个原始咨询信息无法被聚类算法聚类。或者，所述语料数据中包括有孤立的原始答复信息。如此，所述服务器可以将所述语料数据中除去第一类簇中原始咨询信息后剩余的原始咨询信息，作为第一子语料数据中的原始咨询信息；可以将所述语料数据中除去与第一类簇中原始咨询信息相关联的原始答复信息后剩余的原始答复信息，作为第一子语料数据中的原始答复信息。所述服务器可以对所述第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇。所述服务器对所述第一子语料数据中的原始答复信息进行聚类的过程，可以参照前述实施例。

步骤S36：分别基于第二类簇中的原始答复信息和与该第二类簇中的原始答复信息相关联的原始咨询信息，为该第二类簇生成相关联的标准咨询信息和标准答复信息。

在本实施例中，所述服务器为第二类簇生成相关联的标准咨询信息和标准答复信息的过程，可以参照前述实施例。其中，与第二类簇中的原始答复信息相关联的原始咨询信息，可以位于所述第一子语料数据。

在本实施例中，所述服务器可以将为每个第一类簇生成的标准咨询信息和标准答复信息作为标准知识库中的一个知识点；可以将为每个第二类簇生成的标准咨询信息和标准答复信息作为所述标准知识库中的一个知识点；从而可以得到标准知识库。所述服务器可以基于所述标准知识库答复用户提出的咨询问题。

在本实施例的一个实施方式中，在实际过程中受限于各种因素，经过步骤S34和步骤S36，除去第二类簇中的原始答复信息以外，所述第一子语料数据还可以包括其它原始答复信息；除去与第二类簇中原始答复信息相关联的原始咨询信息以外，所述第一子语料数据还可以包括其它原始咨询信息。例如，受限于表述过于生僻等因素，所述第一子语料数据中的一个或多个原始答复信息无法被聚类算法聚类。如此，所述服务器可以将所述第一子语料数据中除去第二类簇中原始答复信息后剩余的原始答复信息，作为第二子语料数据中的原始答复信息；可以将所述第一子语料数据中除去与第二类簇中原始答复信息相关联的原始咨询信息后剩余的原始咨询信息，作为第二子语料数据中的原始咨询信息。

所述第二子语料数据中的至少一个原始答复信息可以满足预置条件。所述预置条件可以为：所述第二子语料数据包括与原始答复信息相关联的原始咨询信息；或者，所述第二子语料数据包括与原始答复信息之间的关联度值大于或等于预设值的原始咨询信息。关联度值可以用于衡量原始答复信息与原始咨询信息之间语义的相关程度。关联度值越大，原始答复信息与原始咨询信息之间的语义越相关。原始答复信息与原始咨询信息之间的关联度值可以根据关联度值算法计算得到。所述关联度值算法例如可以包括深度结构化语义模型(Deep Structured Semantic Model，DSSM)。当然，所述关联度值算法还可以包括其它算法，在此不再依次列举。

针对所述第二子语料数据中满足预置条件的原始答复信息，所述服务器可以基于该原始答复信息生成相关联的标准咨询信息和标准答复信息。

具体地，所述预置条件可以为：所述第二子语料数据包括与原始答复信息相关联的原始咨询信息。如此，针对所述第二子语料数据中满足预置条件的原始答复信息，所述服务器可以基于该原始答复信息、以及与该原始答复信息相关联的原始咨询信息，生成相关联的标准咨询信息和标准答复信息。所述服务器可以将该原始答复信息，作为所述标准答复信息；或者，还可以基于该原始答复信息的语义，生成所述标准答复信息。所述标准答复信息可以为该原始答复信息的规范化表述，能够表征该原始答复信息的语义。所述服务器可以将与该原始答复信息相关联的原始咨询信息，作为所述标准咨询信息；或者，还可以基于与该原始答复信息相关联的原始咨询信息的语义，生成所述标准咨询信息。所述标准咨询信息可以为与该原始答复信息相关联的原始咨询信息的规范化表述，能够表征与该原始答复信息相关联的原始咨询信息的语义。

或者，所述预置条件可以包括：所述第二子语料数据包括与原始答复信息之间的关联度值大于或等于预设值的原始咨询信息。如此，针对所述第二子语料数据中满足预置条件的原始答复信息，所述服务器可以基于该原始答复信息、以及与该原始答复信息之间的关联度值大于或等于预设值的原始咨询信息，生成相关联的标准咨询信息和标准答复信息。所述服务器可以将该原始答复信息，作为所述标准答复信息；或者，还可以基于该原始答复信息的语义，生成所述标准答复信息。所述标准答复信息可以为该原始答复信息的规范化表述，能够表征该原始答复信息的语义。所述服务器可以从与该原始答复信息之间的关联度值大于或等于预设值的原始咨询信息中，选取关联度值最大的原始咨询信息。所述服务器可以将选取的原始咨询信息，作为所述标准咨询信息；或者，还可以基于选取的原始咨询信息的语义，生成所述标准咨询信息。所述标准咨询信息可以为选取的原始咨询信息的规范化表述，能够表征选取的原始咨询信息的语义。

在本实施方式中，所述服务器可以将生成的相关联的标准咨询信息和标准答复信息，作为挖掘知识库中的一个知识点；从而可以得到挖掘知识库。所述服务器可以基于所述挖掘知识库答复用户提出的咨询问题。

进一步地，在本实施方式中，所述服务器还可以包括至少一个不满足预置条件的原始答复信息。如此，针对所述第二子语料数据中不满足预置条件的原始答复信息，所述服务器可以基于该原始答复信息生成相关联的标准答复信息和标签。所述服务器可以从该原始答复信息中选取词语，作为所述标签。或者，所述服务器还可以基于该原始答复信息的语义，生成所述标签。所述服务器可以将生成的相关联的标准答复信息和标签，作为标签知识库中的一个知识点；从而可以得到标签知识库。所述服务器可以基于所述标签知识库答复用户提出的咨询问题。

在本实施例中，所述服务器可以对语料数据中的原始咨询信息进行聚类，得到至少一个第一类簇；可以分别基于第一类簇中的原始咨询信息和与该第一类簇中的原始咨询信息相关联的原始答复信息，为该第一类簇生成相关联的标准咨询信息和标准答复信息；可以对第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇；可以分别基于第二类簇中的原始答复信息和与该第二类簇中的原始答复信息相关联的原始咨询信息，为该第二类簇生成相关联的标准咨询信息和标准答复信息。这样所述服务器可以从语料数据中尽可能多的挖掘出相关联的标准咨询信息和标准答复信息。

请参阅图5。本说明书实施例还提供另一种数据处理方法。所述数据处理方法以服务器为执行主体。所述服务器可以为一个服务器，还可以为包括多个服务器的服务器集群。所述数据处理方法可以包括以下步骤。

步骤S40：基于特征值，淘汰知识库中的至少一个知识点。

在本实施例中，所述知识库可以包括以下至少一种：标准知识库、挖掘知识库、标签知识库。关于所述标准知识库、所述挖掘知识库、所述标签知识库的详细介绍可以参见前述实施例。所述知识库可以包括至少一个知识点。所述知识点可以包括相关联的标准咨询信息和标准答复信息；或者，还可以包括相关联的标准答复信息和标签。所述知识点可以对应有特征值。所述特征值可以包括以下至少一种：推出次数、使用率、满意度。

具体地，终端设备可以向所述服务器发送来自用户的目标咨询信息。所述服务器可以接收所述目标咨询信息；可以从所述知识库中选取知识点。选取的知识点中可以包括有标准咨询信息或标签，选取的知识点中的标准咨询信息或标签能够表征所述目标咨询信息的语义。所述服务器可以展示选取的知识点中的标准答复信息。客服人员可以浏览审核所述服务器展示的标准答复信息。在认为没有问题后，客服人员可以向所述服务器发送答复指令。所述服务器可以接收所述答复指令；可以向所述终端设备发送标准答复信息。所述终端设备可以接收并展示标准答复信息。在认为存在问题后，客服人员可以不向所述服务器发送答复指令，这样所述服务器展示的标准答复信息便不会被发送给所述终端设备。此外，用户在浏览到终端设备展示的标准答复信息以后，可以对该标准答复信息进行评价。所述终端设备可以向所述服务器发送用户针对该标准答复信息的评价结果。所述评价结果例如可以为“满意”或“失望”。需要说明的是，这里的名称“满意”和“失望”仅为示例，任何具有相同含义的其它名称均可应用于此。如此，知识点的推出次数可以为该知识点被所述服务器选中的次数。知识点的使用率可以为该知识点中的标准答复信息被反馈给用户的次数，与该知识点的推出次数的比值。知识点的满意度可以为该知识点中的标准答复信息被用户评价为满意的次数，与该知识点的推出次数的比值。

在本实施例中，所述服务器可以淘汰所述知识库中特征值小于或等于第一预设值的知识点。淘汰的方式包括但不限于：删除知识点、放弃知识点等。

所述服务器可以淘汰在第一特定时间周期内，所述知识库中特征值小于或等于第一预设值的知识点。或者，所述服务器还可以将在第二特定时间周期内，所述知识库中特征值小于或等于第二预设值的知识点标记为待淘汰状态；可以淘汰在第二特定时间周期内，被标记为待淘汰状态的知识点中特征值小于或等于第一预设值的知识点。所述第一特定时间周期和所述第二特定时间周期可以根据实际需要灵活设定。所述第一特定时间周期例如可以为3个月，所述第二特定时间周期例如可以为1个月。

在本实施例中，所述服务器可以基于特征值，淘汰知识库中的至少一个知识点。这样所述服务器可以对所述知识库进行更新，从而保证所述知识库中知识点的质量。

请参阅图6。本说明书实施例提供一种数据处理装置。所述数据处理装置可以包括以下单元。

聚类单元50，用于对语料数据中的原始咨询信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；

生成单元52，用于分别基于类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

请参阅图7。本说明书实施例提供一种服务器。所述服务器可以包括存储器和处理器。

在本实施例中，所述存储器包括但不限于动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)和静态随机存取存储器(Static Random Access Memory，SRAM)等。所述存储器可以用于存储计算机指令。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令实现以下步骤：对语料数据中的原始咨询信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

请参阅图8。本说明书实施例提供一种数据处理装置。所述数据处理装置可以包括以下单元。

聚类单元60，用于对语料数据中的原始答复信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；

生成单元62，用于分别基于类簇中的原始答复信息和与该类簇中的原始答复信息相关联的原始咨询信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令实现以下步骤：对语料数据中的原始答复信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于类簇中的原始答复信息和与该类簇中的原始答复信息相关联的原始咨询信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

请参阅图9。本说明书实施例提供一种数据处理装置。所述数据处理装置可以包括以下单元。

第一聚类单元90，用于对语料数据中的原始咨询信息进行聚类，得到至少一个第一类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；

第一生成单元92，用于分别基于第一类簇中的原始咨询信息和与该第一类簇中的原始咨询信息相关联的原始答复信息，为该第一类簇生成相关联的标准咨询信息和标准答复信息；

第二聚类单元94，用于对第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇；所述第一子语料数据包括所述语料数据中除去与第一类簇中的原始咨询信息相关联的原始答复信息后剩余的原始答复信息；

第二生成单元96，用于分别基于第二类簇中的原始答复信息和与该第二类簇中的原始答复信息相关联的原始咨询信息，为该第二类簇生成相关联的标准咨询信息和标准答复信息。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令实现以下步骤对语料数据中的原始咨询信息进行聚类，得到至少一个第一类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于第一类簇中的原始咨询信息和与该第一类簇中的原始咨询信息相关联的原始答复信息，为该第一类簇生成相关联的标准咨询信息和标准答复信息；对第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇；所述第一子语料数据包括所述语料数据中除去与第一类簇中的原始咨询信息相关联的原始答复信息后剩余的原始答复信息；分别基于第二类簇中的原始答复信息和与该第二类簇中的原始答复信息相关联的原始咨询信息，为该第二类簇生成相关联的标准咨询信息和标准答复信息。

请参阅图10。本说明书实施例提供一种数据处理装置。所述数据处理装置可以包括以下单元。

淘汰单元100，用于基于特征值，淘汰知识库中的至少一个知识点；所述知识库包括至少一个知识点；所述知识点对应有特征值。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令实现以下步骤：基于特征值，淘汰知识库中的至少一个知识点；所述知识库包括至少一个知识点；所述知识点对应有特征值。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其对于数据处理装置实施例和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

另外，可以理解的是，所属领域技术人员在阅读本说明书文件之后，可以无需创造性劳动想到本说明书文件中列举的部分或全部实施例之间可以组合，这些组合也在本说明书公开和保护的范围内。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种数据处理方法，包括：

对语料数据中的原始咨询信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；

分别基于类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

2.如权利要求1所述的方法，为类簇生成的标准咨询信息能够表征该类簇中原始咨询信息的语义；为类簇生成的标准答复信息能够表征与该类簇中的原始咨询信息相关联的原始答复信息的语义。

3.一种数据处理装置，包括：

聚类单元，用于对语料数据中的原始咨询信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；

生成单元，用于分别基于类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

4.一种服务器，包括：

存储器，用于存储计算机指令；

处理器，用于执行所述计算机指令，实现以下步骤：对语料数据中的原始咨询信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于类簇中的原始咨询信息和与该类簇中的原始咨询信息相关联的原始答复信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

5.一种数据处理方法，包括：

对语料数据中的原始答复信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；

分别基于类簇中的原始答复信息和与该类簇中的原始答复信息相关联的原始咨询信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

6.如权利要求5所述的方法，为类簇生成的标准咨询信息能够表征与该类簇中的原始答复信息相关联的原始咨询信息的语义；为类簇生成的标准答复信息能够表征该类簇中原始答复信息的语义。

7.一种数据处理装置，包括：

聚类单元，用于对语料数据中的原始答复信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；

生成单元，用于分别基于类簇中的原始答复信息和与该类簇中的原始答复信息相关联的原始咨询信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

8.一种服务器，包括：

存储器，用于存储计算机指令；

处理器，用于执行所述计算机指令，实现以下步骤：对语料数据中的原始答复信息进行聚类，得到至少一个类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于类簇中的原始答复信息和与该类簇中的原始答复信息相关联的原始咨询信息，为该类簇生成相关联的标准咨询信息和标准答复信息。

9.一种数据处理方法，包括：

对语料数据中的原始咨询信息进行聚类，得到至少一个第一类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；

分别基于第一类簇中的原始咨询信息和与该第一类簇中的原始咨询信息相关联的原始答复信息，为该第一类簇生成相关联的标准咨询信息和标准答复信息；

对第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇；所述第一子语料数据包括所述语料数据中除去与第一类簇中的原始咨询信息相关联的原始答复信息后剩余的原始答复信息；

分别基于第二类簇中的原始答复信息和与该第二类簇中的原始答复信息相关联的原始咨询信息，为该第二类簇生成相关联的标准咨询信息和标准答复信息。

10.如权利要求9所述的方法，所述第一子语料数据还包括所述语料数据中除去第一类簇中的原始咨询信息后剩余的原始咨询信息；与第二类簇中的原始答复信息相关联的原始咨询信息位于所述第一子语料数据。

11.如权利要求9所述的方法，为第一类簇生成的标准咨询信息能够表征该第一类簇中原始咨询信息的语义；为第一类簇生成的标准答复信息能够表征与该第一类簇中的原始咨询信息相关联的原始答复信息的语义；为第二类簇生成的标准咨询信息能够表征与该第二类簇中的原始答复信息相关联的原始咨询信息的语义；为第二类簇生成的标准答复信息能够表征该第二类簇中原始答复信息的语义。

12.如权利要求9所述的方法，以所述第一子语料数据中除去第二类簇中的原始答复信息后剩余的原始答复信息，作为第二子语料数据中的原始答复信息；所述第二子语料数据中的至少一个原始答复信息满足预置条件；相应地，所述方法还包括：

针对所述第二子语料数据中满足预置条件的原始答复信息，基于该原始答复信息生成相关联的标准咨询信息和标准答复信息。

13.如权利要求12所述的方法，所述第二子语料数据还包括至少一个不满足预置条件的原始答复信息；相应地，所述方法还包括：

针对所述第二子语料数据中不满足预置条件的原始答复信息，基于该原始答复信息生成相关联的标准答复信息和标签。

14.如权利要求12或13所述的方法，所述第二子语料数据还包括所述第一子语料数据中除去与第二类簇中的原始答复信息相关联的原始咨询信息后剩余的原始咨询信息。

15.一种数据处理装置，包括：

第一聚类单元，用于对语料数据中的原始咨询信息进行聚类，得到至少一个第一类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；

第一生成单元，用于分别基于第一类簇中的原始咨询信息和与该第一类簇中的原始咨询信息相关联的原始答复信息，为该第一类簇生成相关联的标准咨询信息和标准答复信息；

第二聚类单元，用于对第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇；所述第一子语料数据包括所述语料数据中除去与第一类簇中的原始咨询信息相关联的原始答复信息后剩余的原始答复信息；

第二生成单元，用于分别基于第二类簇中的原始答复信息和与该第二类簇中的原始答复信息相关联的原始咨询信息，为该第二类簇生成相关联的标准咨询信息和标准答复信息。

16.一种服务器，包括：

存储器，用于存储计算机指令；

处理器，用于执行所述计算机指令，实现以下步骤：对语料数据中的原始咨询信息进行聚类，得到至少一个第一类簇；所述语料数据包括至少一个原始咨询信息和至少一个原始答复信息；分别基于第一类簇中的原始咨询信息和与该第一类簇中的原始咨询信息相关联的原始答复信息，为该第一类簇生成相关联的标准咨询信息和标准答复信息；对第一子语料数据中的原始答复信息进行聚类，得到至少一个第二类簇；所述第一子语料数据包括所述语料数据中除去与第一类簇中的原始咨询信息相关联的原始答复信息后剩余的原始答复信息；分别基于第二类簇中的原始答复信息和与该第二类簇中的原始答复信息相关联的原始咨询信息，为该第二类簇生成相关联的标准咨询信息和标准答复信息。

17.一种数据处理方法，包括：

基于特征值，淘汰知识库中的至少一个知识点；所述知识库包括至少一个知识点；所述知识点对应有特征值。

18.如权利要求17所述的方法，所述特征值包括以下至少一种：

推出次数；

使用率；

满意度。

19.如权利要求17所述的方法，所述知识点包括相关联的标准咨询信息和标准答复信息；或者，所述知识点包括相关联的标准答复信息和标签。

20.一种数据处理装置，包括：

淘汰单元，用于基于特征值，淘汰知识库中的至少一个知识点；所述知识库包括至少一个知识点；所述知识点对应有特征值。

21.一种服务器，包括：

存储器，用于存储计算机指令；

处理器，用于执行所述计算机指令，实现以下步骤：基于特征值，淘汰知识库中的至少一个知识点；所述知识库包括至少一个知识点；所述知识点对应有特征值。