CN110909165A

CN110909165A - 数据处理方法、装置、介质及电子设备

Info

Publication number: CN110909165A
Application number: CN201911166691.1A
Authority: CN
Inventors: 纪志伟; 沈燕; 杨杰; 罗晓华
Original assignee: Hangzhou Netease Zaigu Technology Co Ltd
Current assignee: Hangzhou Netease Zaigu Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2020-03-24
Anticipated expiration: 2039-11-25
Also published as: CN110909165B

Abstract

本发明的实施例提供了一种数据处理方法、装置、介质及电子设备，涉及计算机技术领域。该方法包括：获取问题数据，并对问题数据进行意图识别处理以确定问题数据对应的意图类型；将问题数据进行向量化表示，并对同一意图类型下向量化表示的问题数据进行分桶层次化聚类，以确定问题数据对应的问题簇；确定每个问题簇与标准问题的相似度，并判断相似度是否大于相似度阈值；如果判定相似度大于或者等于相似度阈值，则将问题簇对应的问题数据作为标准问题的相似问题。本发明实施例的技术方案不仅能够自动配置智能客服对应的数据库，提高配置效率，而且能够提升智能客服知识库的覆盖度，提高智能客服解决问题的成功率。

Description

数据处理方法、装置、介质及电子设备

技术领域

本发明的实施例涉及计算机技术领域，更具体地，本发明的实施例涉及数据处理方法、数据处理装置、计算机可读存储介质以及电子设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着互联网技术的发展，智能客服已经成为人们生活服务中不可缺少的一部分。智能客服(Intelligent customer service system)可以是指辅助人工客服解答用户问题的智能对话系统，当用户输入一个问题时，智能客服会从知识库中获取相应的答案，返回给用户，从而降低人工会话的数量，提高问题回答的效率。

目前的技术方案中，在对智能客服对应的知识库进行扩充时，直接将问题数据通过主题模型得到向量化的问题数据，并将向量化的问题数据进行K-means聚类，并将聚类结果的每一个簇中的问题配置相应的标准问题和答案，并将原始问题作为当前标准问题的相似问题。

发明内容

但是，这种技术方案虽然能够对智能客服对应的知识库完成扩充，但是通过K-means聚类进行聚类效果较差，与选取的中心点有很大的关系，强依赖于先验参数的选取，最终得到的标准问题与相似问题表达的语意相差较远，降低了智能客服回复的准确度以及匹配度，导致用户使用体验较差；而且聚类出来的问题簇可能与知识库中存在类似的问题，如果不与已有知识库中的数据进行比对，会出现重复配置的情况，不仅浪费计算资源，而且降低了知识库配置的工作效率。

因此在现有技术中，难以达到令人满意的知识库扩充配置方案。

为此，非常需要一种改进的数据处理方法，以使得能够在快速实现知识库扩充配置的同时，保证知识库中的标准问题与相似问题的准确性，提升智能客服回复的准确率以及匹配度，提升用户的使用体验。

在本上下文中，本发明的实施例期望提供一种数据处理方法、数据处理装置、计算机可读存储介质以及电子设备。

在本发明实施例的第一方面中，提供了一种数据处理方法，包括：获取问题数据，并对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型；将所述问题数据进行向量化表示，并对同一所述意图类型下向量化表示的所述问题数据进行分桶层次化聚类，以确定所述问题数据对应的问题簇；确定每个所述问题簇与标准问题的相似度，并判断所述相似度是否大于相似度阈值；如果判定所述相似度大于或者等于所述相似度阈值，则将所述问题簇对应的所述问题数据作为所述标准问题的相似问题。

在本发明的一些实施例中，基于前述方案，如果判定所述相似度大于所述相似度阈值，则将所述问题簇对应的所述问题数据作为所述标准问题的相似问题，还包括：如果判定所述相似度小于所述相似度阈值，则根据所述问题簇对应的所述问题数据创建新增标准问题以及所述新增标准问题对应的答案数据；以及将所述问题簇对应的所述问题数据作为所述新增标准问题的相似问题。

在本发明的一些实施例中，基于前述方案，如果判定所述相似度小于所述相似度阈值，则根据所述问题簇对应的所述问题数据创建新增标准问题以及所述新增标准问题对应的答案数据，包括：如果判定所述相似度小于所述相似度阈值，则对所述问题簇对应的所述问题数据进行摘要提取以确定所述问题簇对应的摘要数据；根据所述摘要数据以及所述问题数据创建新增标准问题以及所述新增标准问题对应的答案数据。

在本发明的一些实施例中，基于前述方案，所述对同一所述意图类型下向量化表示的所述问题数据进行分桶层次化聚类，以确定所述问题数据对应的问题簇，包括：将向量化表示的所述问题数据作为样本数据，执行循环过程，直到层次化聚类的结果满足聚类停止条件，并输出所述问题数据对应的问题簇，所述循环过程包括：通过分桶算法对所述样本数据进行分桶；确定合并阈值，并依据所述合并阈值对每个桶中的所述问题数据进行层次化聚类，以得到初始问题簇；获取每个所述初始问题簇中出现频率高于第一频率阈值的第一问题数据，计算所述第一问题数据的加权平均向量，并作为所述初始问题簇的表征向量；将所述表征向量作为新的样本数据，并执行所述循环过程以确定层次化聚类的结果。

在本发明的一些实施例中，基于前述方案，在获取问题数据，并对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型之前，所述方法还包括：对所述问题数据进行预处理，其中，所述预处理包括繁简转化处理、字符统一处理、实体识别处理和文本纠错处理中的一种或多种。

在本发明的一些实施例中，基于前述方案，所述将所述问题数据进行向量化表示，包括：确定所述问题数据对应的语意特征向量以及意向特征向量；将同一所述问题数据对应的所述语意特征向量以及所述意向特征向量进行拼接处理，以通过所述语意特征向量以及所述意向特征向量表示所述问题数据。

在本发明的一些实施例中，基于前述方案，所述确定所述问题数据对应的语意特征向量，包括：通过预训练的语言模型确定所述问题数据对应的语意特征向量。

在本发明的一些实施例中，基于前述方案，所述确定所述问题数据对应的意向特征向量，包括：对所述问题数据进行切词处理以过滤所述问题数据中的通用停用词；根据过滤后的所述问题数据确定所述问题数据对应的业务停用词；过滤所述问题数据中的业务停用词以确定所述问题数据对应的意向特征向量。

在本发明的一些实施例中，基于前述方案，根据过滤后的所述问题数据确定所述问题数据对应的业务停用词，还包括：对过滤后的所述问题数据进行词性分析处理以确定所述问题数据对应的目标词语；对所述目标词语进行词频统计以选取所述问题数据对应的业务停用词。

在本发明的一些实施例中，基于前述方案，所述对所述问题簇对应的所述问题数据进行摘要提取以确定所述问题簇对应的摘要数据，包括：获取所述问题簇对应的所述问题数据经过切词处理后的词语组合；确定所述词语组合对应的互信息以及左右邻接熵；根据所述互信息以及所述左右邻接熵确定所述词语组合的得分数据，其中所述词语组合包括相邻的词语组合以及不相邻的词语组合；根据所述得分数据确定所述问题簇对应的摘要数据。

在本发明的一些实施例中，基于前述方案，所述对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型，包括：根据预训练的意图识别模型对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型。

在本发明的一些实施例中，基于前述方案，所述确定每个所述问题簇与标准问题的相似度，包括：选取每个所述问题簇中出现频率大于第二频率阈值的目标问题数据，并对所述目标问题数据进行加权平均计算得到所述问题簇的中心向量；确定所述标准问题对应的标准问题向量，其中所述标准问题向量包括所述标准问题对应的语意特征向量以及意向特征向量；计算所述中心向量与所述标准问题向量的相似度以确定每个所述问题簇与标准问题的相似度。

在本发明的一些实施例中，基于前述方案，所述计算所述中心向量与标准问题的相似度，包括：计算所述中心向量与所述标准问题向量的余弦相似度。

在本发明实施例的第二方面中，提供了一种数据处理装置，包括：意图类型确定模块，用于获取问题数据，并对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型；问题簇确定模块，用于将所述问题数据进行向量化表示，并对同一所述意图类型下向量化表示的所述问题数据进行分桶层次化聚类，以确定所述问题数据对应的问题簇；相似度判断模块，用于确定每个所述问题簇与标准问题的相似度，并判断所述相似度是否大于相似度阈值；问题数据处理模块，用于如果判定所述相似度大于所述相似度阈值，则将所述问题簇对应的所述问题数据作为所述标准问题的相似问题。

在本发明的一些实施例中，基于前述方案，所述问题数据处理模块还包括新增标准问题创建单元，所述新增标准问题创建单元被配置为：如果判定所述相似度小于所述相似度阈值，则根据所述问题簇对应的所述问题数据创建新增标准问题以及所述新增标准问题对应的答案数据；以及将所述问题簇对应的所述问题数据作为所述新增标准问题的相似问题。

在本发明的一些实施例中，基于前述方案，所述新增标准问题创建单元还被配置为：如果判定所述相似度小于所述相似度阈值，则对所述问题簇对应的所述问题数据进行摘要提取以确定所述问题簇对应的摘要数据；根据所述摘要数据以及所述问题数据创建新增标准问题以及所述新增标准问题对应的答案数据。

在本发明的一些实施例中，基于前述方案，所述问题簇确定模块还包括分桶层次化聚类单元，所述分桶层次化聚类单元被配置为：将向量化表示的所述问题数据作为样本数据，执行循环过程，直到层次化聚类的结果满足聚类停止条件，并输出所述问题数据对应的问题簇，所述循环过程包括：通过分桶算法对所述样本数据进行分桶；确定合并阈值，并依据所述合并阈值对每个桶中的所述问题数据进行层次化聚类，以得到初始问题簇；获取每个所述初始问题簇中出现频率高于第一频率阈值的第一问题数据，计算所述第一问题数据的加权平均向量，并作为所述初始问题簇的表征向量；将所述表征向量作为新的样本数据，并执行所述循环过程以确定层次化聚类的结果。

在本发明的一些实施例中，基于前述方案，所述数据处理装置还包括预处理单元，所述预处理单元被配置为：对所述问题数据进行预处理，其中，所述预处理包括繁简转化处理、字符统一处理、实体识别处理和文本纠错处理中的一种或多种。

在本发明的一些实施例中，基于前述方案，所述问题簇确定模块还包括问题数据向量化表示单元，所述问题数据向量化表示单元被配置为：确定所述问题数据对应的语意特征向量以及意向特征向量；将同一所述问题数据对应的所述语意特征向量以及所述意向特征向量进行拼接处理，以通过所述语意特征向量以及所述意向特征向量表示所述问题数据。

在本发明的一些实施例中，基于前述方案，所述问题数据向量化表示单元还被配置为：通过预训练的语言模型确定所述问题数据对应的语意特征向量。

在本发明的一些实施例中，基于前述方案，所述问题数据向量化表示单元还被配置为：对所述问题数据进行切词处理以过滤所述问题数据中的通用停用词；根据过滤后的所述问题数据确定所述问题数据对应的业务停用词；过滤所述问题数据中的业务停用词以确定所述问题数据对应的意向特征向量。

在本发明的一些实施例中，基于前述方案，所述问题数据向量化表示单元还被配置为：对过滤后的所述问题数据进行词性分析处理以确定所述问题数据对应的目标词语；对所述目标词语进行词频统计以选取所述问题数据对应的业务停用词。

在本发明的一些实施例中，基于前述方案，所述新增标准问题创建单元还被配置为：获取所述问题簇对应的所述问题数据经过切词处理后的词语组合；确定所述词语组合对应的互信息以及左右邻接熵；根据所述互信息以及所述左右邻接熵确定所述词语组合的得分数据，其中所述词语组合包括相邻的词语组合以及不相邻的词语组合；根据所述得分数据确定所述问题簇对应的摘要数据。

在本发明的一些实施例中，基于前述方案，所述意图类型确定模块还被配置为：根据预训练的意图识别模型对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型。

在本发明的一些实施例中，基于前述方案，所述相似度判断模块还包括相似度计算单元，所述相似度计算单元被配置为：选取每个所述问题簇中出现频率大于第二频率阈值的目标问题数据，并对所述目标问题数据进行加权平均计算得到所述问题簇的中心向量；确定所述标准问题对应的标准问题向量，其中所述标准问题向量包括所述标准问题对应的语意特征向量以及意向特征向量；计算所述中心向量与所述标准问题向量的相似度以确定每个所述问题簇与标准问题的相似度。

在本发明的一些实施例中，基于前述方案，所述相似度计算单元还被配置为：计算所述中心向量与所述标准问题向量的余弦相似度。

在本发明实施例的第三方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的数据处理方法。

在本发明实施例的第四方面中，提供了一种电子设备，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上述第一方面所述的数据处理方法。

根据本发明实施例的技术方案，一方面，对问题数据进行意图识别处理确定意图类型，并对同一意图类型下的问题数据进行分桶层次化聚类以确定问题数据的问题簇，不仅能够保证聚类结果即问题簇的精确度，提升问题数据聚类的准确性，而且对问题数据进行分桶层次化聚类，能够有效提升问题数据聚类的效率；另一方面，确定问题簇与标准问题的相似度，将相似度超过相似度阈值的问题簇对应的问题数据配置为标准问题的相似问题，不仅能够提升相似问题与标准问题对应答案的匹配度，提升智能客服回复客户问题的准确性，提升用户的使用体验，而且能够避免对知识库相同问题的重复配置问题，提高知识库配置的效率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施例，其中：

图1示意性示出了根据本发明的一些实施例的示例性应用场景的系统架构的示意框图；

图2示意性地示出了根据本发明的一些实施例的数据处理方法的流程示意图；

图3示意性地示出了根据本发明的一些实施例的对问题数据进行意图识别时所使用的意图类型体系的示意图；

图4示意性地示出了根据本发明的一些实施例的确定问题数据对应的意向特征向量的流程示意图；

图5示意性地示出了根据本发明的一些实施例的对向量化表示的问题数据进行分桶层次化聚类的流程示意图；

图6示意性地示出了根据本发明的一些实施例的计算问题簇对应的中心向量与标准问题向量的相似度的流程示意图；

图7示意性地示出了根据本发明的一些实施例的确定问题簇对应的摘要数据的流程示意图；

图8示意性地示出了根据本发明的一些实施例的对问题数据进行处理的流程示意图；

图9示意性地示出了根据本发明的一些实施例的分桶层次化聚类算法的流程示意图；

图10示意性地示出了根据本发明的一些实施例的数据处理装置的示意框图；

图11示意性地示出了根据本发明的示例实施例的存储介质的示意图；以及

图12示意性地示出了根据发明的示例实施例的电子设备的方框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施例来描述本发明的原理和精神。应当理解，给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施例可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施例，提出了一种数据处理方法、数据处理装置、介质和电子设备。

在本文中，需要理解的是，所涉及的术语，比如知识库(KnowledgeBase)可以是指针对用户高频的常见问题配置的标准问题及其答案，同一个标准问题下面会有多种可能的问法，作为标准问题的相似问题；聚类算法(Cluster Algorithm)可以是指通过对大量的用户问题进行分类，将相同意思的问题汇聚到一起的方法；簇(Clust)可以是指聚类算法结果中汇聚到一起的相似问题成为一个簇。此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施例，详细阐释本发明的原理和精神。

发明概述

客服机器人在回答用户问题时，需要衡量用户的问题与知识库中存储的知识之间的相似度，当满足相似度时，客服机器人可以解答用户的问题。知识库的构建至关重要，涵盖到越多用户常见问题，通过客服机器人可以解决的用户问题就越多。客服机器人知识库构建方法，通常对用户真实的问题分析得到。同一个知识会有多种表达方式，通过对用户问题进行聚类，将相似的问题聚合在一个簇中。衡量每个簇与现有的知识库中的问题的相似程度，满足条件时则将问题簇中包含的用户问题作为已有问题的相似问题；不满足相似条件时，对每一簇下面的用户问题进行摘要抽取，根据抽取的摘要数据在知识库中添加新的标准问题和相似问题。

本发明人发现，一种技术方案中，通过对海量的用户问题，进行分词预处理之后，利用主题模型进行降维获取到文本的表征，然后利用K-means进行聚类，对聚类结果的每一个簇中的问题配置相应的标准问题和答案，并将原始问题作为当前标准问题的相似问题。但是这种方案中，采用主题模型(例如词袋模型)获取到的文本表征方式，属于字面粒度的文本表征，无法捕捉到文本的语意特征，并且忽略了文本各个词之间的先后关系；K-means的聚类算法的时间复杂度为O(N*K)，其中，K可以表示随机选取的K个中心点，K一般为常量，N可以表示需要处理的数据量，“N*K”可以表示该聚类算法处理数据所消耗的时间与数据量需要处理的呈线性关系，因此该聚类算法的时间复杂度较低，但是效果不佳，与选取的中心点数量K有很大的关系，强依赖于先验参数的选取；而且聚类得到的簇对应的标准问题可能与知识库中的标准问题重复，如果不与已有知识库中的标准问题进行比对，会出现重复配置的情况。

另一种技术方案中，采取了通过对问题两两之间计算编辑距离相似度和基于One-hot编码的语义相似度，当两个问题的两种相似度大于设定阈值时，两个问题之间连一条边。最终通过对问题两两之间计算相似度，构建出一个无向图。无向图中的每一个连通分量成为一个簇，这个簇中的所有问题互为相似问题，针对每一个簇中的问题配置一条标准问题进入知识库。但是这种计算方式的时间复杂度为O(N²)，其中，N可以表示需要处理的数据量，“N²”可以表示该聚类算法处理数据所消耗的时间与数据量需要处理的呈平方指数关系，即可以简单理解为当用户的问题越来越多时，计算耗费的时间越久，耗时耗存储，不适用于数据量较多的情况；而且该方案中衡量问题语句之间的相似度时只考虑字面的相似度，没有衡量语意相似度。这样会导致对于字面上不太相似，但语意上相似的问题语句不会被聚类到同一个簇，例如对于问题语句“天气怎么样”和“下雨了吗”都是在询问天气，字面相似度很低，但是语意上是相似的，导致知识库中的标准问题数据不够准确，降低智能客服的服务质量。

再一种技术方案中，首先通过分类算法将用户的问题区分为知识型问题和非知识型问题，并仅针对知识型问题进行知识库系统的构建。对于知识型问题，基于TF-IDF(Termfrequency–Inverse document frequency，词频-逆文档频率)对每个问题语句分词之后的词语的词向量进行加权以获取到问题语句的表征，计算问题语句之间的第一相似度，并通过传播聚类算法进行聚类，获取到多个簇；然后将获取到的每一个簇的中心向量与现有知识库中配置的标准问题对应的向量计算相似度，对于中心向量大于或者等于设定的第二相似度的簇，将该簇中的问题语句加入到已配置的标准问题的相似问题中。对于中心向量小于设定的第二相似度的簇，计算簇中每个用户问题语句与该簇对应的中心向量的第三相似度，选取第三相似度最高的用户问题语句作为该簇的标准问题，并配置到知识库。但是这种方案中，针对问题语句的表征，采用的词向量的表征方式解决不了一词多意的情况，例如，对于问题语句“我要吃苹果”和“我手机用的是苹果”，两个问题语句中的“苹果”的意思是不同的，但是词向量却是相同的，因此仅通过词向量的表征无法较好地表征问题语句所表达的语意。其次，采用传播聚类算法，两两合并满足设定相似度的问题语句，一方面，该方案中的传播聚类算法的时间复杂度是O(N*N*logN)，其中N可以表示需要处理的数据量，针对大规模的用户问题，这种方式耗费的时间太长，无法适用于海量的用户问题；另一方面，对于该方案，如果出现无法与现有知识库合并的簇，那么与该簇的中心向量相似度最高的用户问题语句不一定适合作为标准问题，例如，该方案的同一个簇中可能包含多个较小的业务分类，仅通过词向量的表征无法较好地表征问题语句所表达的语意，而且如果一个簇中包含了一些异常点，那么通过该方案确定的簇对应的中心向量不能作为该簇的向量化表示，可能导致知识库中配置的标准问题表达不准确，降低智能客服的服务质量。

基于上述内容，本发明的基本思想在于，对获取的问题数据进行意图识别处理以确定问题数据对应的意图类型；将问题数据进行向量化表示，并对同一意图类型下向量化表示的问题数据进行分桶层次化聚类，以确定问题数据对应的问题簇；确定每个问题簇与标准问题的相似度，并判断相似度是否大于相似度阈值；如果判定相似度大于或者等于相似度阈值，则将问题簇对应的问题数据作为标准问题的相似问题，从而能够提升知识库配置的效率，能够确保相似问题与标准问题对应答案的匹配度，提升智能客服回复用户问题的准确性，提高回复的答案与用户问题的匹配度，进而提升用户的使用体验。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施例。

应用场景总览

首先参考图1，图1示出了可以应用本公开实施例的一种数据处理方法及装置的示例性应用场景的系统架构的示意框图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一个或多个，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的数据处理方法一般由服务器105执行，相应地，数据处理装置一般设置于服务器105中。但本领域技术人员容易理解的是，本公开实施例所提供的数据处理方法也可以由终端设备101、102、103执行，相应的，数据处理装置也可以设置于终端设备101、102、103中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，可以是工作人员通过终端设备101、102、103将问题数据上传至服务器105，服务器通过本公开实施例所提供的数据处理方法将问题数据进行聚类并确定问题数据配置的结果，并将配置结果传输给终端设备101、102、103等以使终端设备101、102、103根据配置结果将问题数据配置到知识库。

应该理解的是，图1所示的应用场景仅是本发明的实施例可以在其中得以实现的一个示例。本发明实施例的适用范围不受到该应用场景任何方面的限制。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施例的数据处理方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施例在此方面不受任何限制。相反，本发明的实施例可以应用于适用的任何场景。

本公开首先提供了一种数据处理方法，该方法执行主体可以是终端，也可以是服务器，本公开对此不做特殊限定，本示例实施例中以服务器执行该方法为例进行说明。

参照图2所示，在步骤S210中，获取问题数据，并对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型。

在示例实施例中，问题数据可以是指智能客服对应的客户端在收集周期内收集的、用户与智能客户进行会话时输入的真实问题(即非生成式数据)，例如问题数据可以是智能客服对应的客户端在一个月内收集的、用户与智能客户进行会话时输入的真实问题，当然，也可以是智能客服对应的客户端在24小时内收集的、用户与智能客户进行会话时输入的真实问题，问题数据对应的收集周期具体可以根据实际情况而定，也可以是开发人员进行自定义设置，本示例实施例对此不做特殊限定。意图类型可以是指问题数据对应的用户意向，例如对于用户的问题数据“我想要退货”，用户表示的意向是想要退货，那么意图类型可以是“退货”，当然意图类型还可以是投诉、售后等，本示例实施例对此不做特殊限定。

在步骤S220中，将所述问题数据进行向量化表示，并对同一所述意图类型下向量化表示的所述问题数据进行分桶层次化聚类，以确定所述问题数据对应的问题簇。

在示例实施例中，向量化表示可以是指将问题数据转化为机器可以识别的向量的处理过程，例如向量化表示可以是通过语言模型(N-gram)确定问题数据的文本表征的处理过程，当然，向量化表示还可以是指通过其他方式将问题数据转化为机器可以识别的向量的处理过程，例如向量化表示还可以是通过主题模型(即词袋模型)确定问题数据的文本表征的处理过程，本示例实施例对此不做特殊限定。层次化聚类(Hierarchical Clustering)可以是指对数据集进行层次分解，并且按照距离测度(即合并阈值)将数据分类并形成多个集合(多个簇)的算法，分桶层次化聚类可以是指对参与每轮层次化聚类的样本数据分桶后进行层次化聚类的算法，具体算法流程请参考后续实施例。问题簇可以是指分桶层次化聚类算法结果中汇聚到一起的相似问题构成的簇，问题簇可以包含一个或者多个问题数据。

在步骤S230中，确定每个所述问题簇与标准问题的相似度，并判断所述相似度是否大于相似度阈值。

在示例实施例中，相似度可以是指表征每个问题簇对应的中心向量的与标准问题对应的标准问题向量相似程度的数据，例如相似度可以是每个问题簇对应的中心向量与标准问题对应的标准问题向量的余弦相似度，当然，相似度还可以是其他能够表征每个问题簇对应的中心向量与标准问题对应的标准问题向量相似程度的数据，例如相似度还可以是每个问题簇对应的中心向量与标准问题对应的标准问题向量的欧氏距离，本示例实施例对此不做特殊限定。相似度阈值可以是指预先设置的、用于判断问题簇对应的中心向量与标准问题对应的标准问题向量的相似度是否达到要求的数据，例如相似度阈值可以是0.8，也可以是0.9，相似度阈值的具体数值可以根据实际应用场景进行自定义设置，本示例实施例对此不做特殊限定。

在步骤S240中，如果判定所述相似度大于或者等于所述相似度阈值，则将所述问题簇对应的所述问题数据作为所述标准问题的相似问题。

在示例实施例中，如果判定问题簇对应的中心向量与标准问题对应的标准问题向量的相似度大于或者等于相似度阈值，此时认为问题簇中的问题数据与标准问题相似程度达到要求，可以将该问题簇对应的问题数据作为标准问题的相似问题，例如相似度阈值为0.8时，问题簇对应的中心向量与标准问题对应的标准问题向量的相似度为0.85，此时可以认为问题簇对应的问题数据与标准问题相似，可以将问题簇对应的问题数据作为标准问题的相似问题，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。

根据图2示例实施例的技术方案，一方面，对问题数据进行意图识别处理确定意图类型，并对同一意图类型下的问题数据进行分桶层次化聚类以确定问题数据的问题簇，不仅能够保证聚类结果即问题簇的精确度，提升问题数据聚类的准确性，而且对问题数据进行分桶层次化聚类，能够有效提升问题数据聚类的效率；另一方面，确定问题簇与标准问题的相似度，将相似度超过相似度阈值的问题簇对应的问题数据配置为标准问题的相似问题，不仅能够提升相似问题与标准问题对应答案的匹配度，提升智能客服回复客户问题的准确性，提升用户的使用体验，而且能够避免对知识库相同问题的重复配置问题，提高知识库配置的效率。

在示例实施例中，在对问题数据进行意图识别处理以确定问题数据对应的意图类型之前，需要对问题数据进行预处理。预处理可以包括繁简转化处理、字符统一处理、实体识别处理和文本纠错处理中的一种或多种。繁简转化处理可以是指将问题数据中的繁体字转化为简体字的处理过程，由于大多数分词算法的词库均是简体字构成的，因此将问题数据进行繁简转化处理能够保证分词算法的识别率，提升处理效率。字符统一处理可以是指将用户的问题数据中的字符格式统一成相同格式的过程，例如字符统一处理可以是将大小写字符统一转化成小写字符的处理过程，也可以是将问题数据中半角字符或者全角字符统一成相同格式的字符的处理过程，本示例实施例对此不做特殊限定。实体识别处理可以是指识别问题数据中的实体的处理过程，例如实体识别处理可以是订单号、手机号等特定实体的识别，基于正则表达式，识别出11位的数字为用户手机号，18位的数字、字母组合的形式为订单号，将这些特定实体转换为相同的标记，当然，本示例实施例不以此为限。文本纠错处理可以是指将问题数据中由于用户错误操作输入的错误文本调整为正确字符的处理过程，例如文本纠错处理可以是将问题数据“我买的裤子能不能推掉”中的“推掉”纠正为“退掉”，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。

在示例实施例中，根据预训练的意图识别模型对问题数据进行意图识别处理以确定所述问题数据对应的意图类型。意图识别模型可以是指预训练的、能够识别问题数据对应的意图类型的模型，具体训练过程可以如下：针对划分好的意图类型体系，在收集的用户问题数据中标注训练样本，利用标注好的训练样本，在预先创建好的语言模型(例如语言模型可以包括但不限于Bert模型)上进行调整以完成意图识别模型的训练，通过训练好的意图识别模型对用户问题数据进行分类，确定用户问题数据的意图类型。

图3示意性地示出了根据本发明的一些实施例的对问题数据进行意图识别时所使用的意图类型体系的示意图。

参考图3所示，针对预处理之后的用户问数据题进行意图识别，首先通过意图类型体系301将问题数据进行分类。具体的，一级用户的意图类型可以包括“导购”302、“商品信息咨询”303、“业务问题”304、“特殊意图”305以及“闲聊”306等，“业务问题”304可以包含二级用户的意图类型“售后”3041、“物流”3042、以及“发票”3043等，“特殊意图”305可以包含二级用户的意图类型“人工”3051以及“投诉”3052，当然，此处仅是示意性举例说明，特别的，针对每一个意图类型均可以进行拆分出子意图(例如还可以包括三级意图、四级意图等)每级意图类型均可以根据问题数据进行新增或者更新，最终形成一套意图类型体系，本示例实施例对此不做特殊限定。

对用户问题进行意图识别主要有两个方面的作用：第一是针对“投诉”、“导购”等意图类型是不需要在知识库中配置相应的标准问题和答案的，将“投诉”、“导购”等意图类型对应的问题数据不进行后续的计算，节省计算资源，提升计算效率；第二是预先对问题数据进行意图识别，将相同意图类型下的问题数据再进行聚类，可以发现更加细致的用户常见问题的知识点，降低直接聚类的难度。

在示例实施例中，在对问题数据进行分桶层次化聚类之前，需要将问题数据进行向量化表示，具体是确定问题数据对应的语意特征向量以及意向特征向量；将同一问题数据对应的语意特征向量以及意向特征向量进行拼接处理，以通过语意特征向量以及意向特征向量表示所述问题数据。语意特征向量可以是指能够表征问题数据深层含义的特征向量，例如语意特征向量可以准确表示“这个苹果很好吃”和“我的苹果手机很好用”中“苹果”一词多意的情况，以及“天气如何”和“会下雨吗”这种字面相关度很低，但是语意相似的问题，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。语意特征向量可以通过将问题数据输入到预训练的语言模型中得到。意向特征向量可以是指表征问题数据浅层含义的特征向量，例如对于“如何申请退货”和“如何申请换货”这两个问题数据，其语意特征很相似，但是在智能客服的领域上却属于两种不同的业务问题“退货”和“换货”，因此需要进一步从问题数据的浅层字面确定意向特征向量(或者也可以认为是问题数据的业务特征向量)。最终将同一个问题数据的语意特征向量以及意向特征向量进行拼接处理，共同作为该问题数据的向量化表示，以准确地表达问题数据的核心内容。

图4示意性地示出了根据本发明的一些实施例的确定问题数据对应的意向特征向量的流程示意图。

参考图4所示，步骤S410，对所述问题数据进行切词处理以过滤所述问题数据中的通用停用词。

在示例实施例中，切词处理可以是指根据预设分词算法将问题数据切成词语组合的形式的处理过程，例如预设分词算法可以是基于字符串匹配的分词方法，也可以是基于统计的分词方法，本示例实施例对此不做特殊限定。例如可以通过预设分词算法将问题数据“如何申请退货”进行切词处理得到词语组合“如何”、“申请”、“退货”，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。通用停用词可以是指问题数据中高频无意义的词语或者文字，例如通过停用词可以是“的”、“请问”等高频无意义的词语或者文字。

步骤S420，根据过滤后的所述问题数据确定所述问题数据对应的业务停用词。

在示例实施例中，业务停用词可以是指问题数据中与业务内容相关，但是对问题数据的核心含义无影响的高频词汇，业务停用词也可以认为是问题数据中除通用停用词之外的无意义词汇，例如业务停用词可以是提供服务的公司名称，也可以是某物品对应的品牌名称，本示例实施例对此不做特殊限定。

在对问题数据进行切词处理并过滤通用停用词之后，对过滤后的问题数据进行词性分析处理以确定问题数据对应的目标词语；对目标词语进行词频统计以选取问题数据对应的业务停用词。词性分析处理可以是指分析问题数据对应的词语的词性的处理过程，例如词性分析处理可以确定问题数据中的动词词语、名词词语或者形容词词语等。通过对过滤后的问题数据进行词性分析处理对问题数据对应的词语进行进一步过滤，例如通过词性分析处理过滤问题数据中的副词词语(不影响问题数据整体核心含义的词语)，当然，此处仅是示意性举例说明，本示例实施例不以此为限。目标词语可以是指将问题数据对应的词语进行词性分析处理并过滤无意义词性词语后得到的词语，例如目标词语可以是动词词语，也可以是名词词语，还可以是形容词词语，本示例实施例不以此为限。预先构建特定的业务停用词，并对问题数据进行词频统计，人工审核选取高频的业务停用词。

步骤S430，过滤所述问题数据中的业务停用词以确定所述问题数据对应的意向特征向量。

在示例实施例中，将确定的问题数据中的业务停用词进行过滤，并通过过滤后的问题数据剩余的词语构造N-gram(语言模型)特征(其中N一般可以取1-4，即可以认为问题数据中的业务词至多包含四个，当然，N的取值具体可以根据实际情况进行自定义设置，本示例实施例对此不做特殊限定)，最后将N-gram特征作为问题数据对应的意向特征向量。

图5示意性地示出了根据本发明的一些实施例的对向量化表示的问题数据进行分桶层次化聚类的流程示意图。

参考图5所示，步骤S510，将向量化表示的所述问题数据作为样本数据，执行步骤S520至步骤S550的循环过程，直到层次化聚类的结果满足聚类停止条件，并输出所述问题数据对应的问题簇。

在示例实施例中，样本数据可以是指每轮层次化聚类进行分桶时对应的问题数据(或者合并的问题数据)。聚类停止条件可以是指停止分桶层次化聚类流程的终止条件，例如聚类停止条件可以是本轮层次化聚类时样本数据仅需要一个桶，即合并之后问题数据的数量在2万条之内(此处的2万条指的是预先设置的每个分桶可以包含问题数据的容量)，也可以是本轮层次化聚类之后得到的聚类结果对应问题数据的数量与上一轮相同，即本轮没有对样本数据进行进一步合并，聚类停止条件还可以是连续三轮(也可以为其他数值，具体可以根据聚类情况自定义设置，本示例实施例不以此为限)层次化聚类进行分桶时需要用到的桶的数量相同，即样本数据没有进行进一步的合并，当然，聚类停止条件还可以是其他终止条件，本示例实施例对此不做特殊限定。

步骤S520，通过分桶算法对所述样本数据进行分桶。

在示例实施例中，设定层次化聚类的桶的数目，将样本数据(向量化的问题数据)通过分桶算法分发到各个桶中，保证每个桶中的样本数据的数量在实施层次化聚类时使分桶层次化聚类的时间复杂度O(N³)(其中N可以表示层次化聚类算法需要处理的数据量，在这里可以简单理解为桶的容量)在接受的范围内(例如一个桶中的用户问题的数量可以是不超过20000，也可以是不超过10000，具体可以根据需要处理的数据量的大小进行自定义设置，本示例实施例对此不做特殊限定)。举例而言，具体的分桶算法可以是采用的是随机分桶，对于n个样本数据(向量化的问题数据)，每个桶中的样本数据不超过20000条，那么需要的桶的数量可以表示为“k＝n/20000”。具体的，对于15万条样本数据，则需要8个桶，对于第i个用户问题，分发到“x＝i％8”(x可以表示i除以8得到的余数，“％”可以表示取余计算)个桶中，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。

步骤S530，确定合并阈值，并依据所述合并阈值对每个桶中的所述问题数据进行层次化聚类，以得到初始问题簇。

在示例实施例中，合并阈值可以是指在每一轮实施层次化聚类时的合并样本数据(向量化的问题数据)的相似度阈值，合并阈值在每一轮实施层次化聚类时重新进行确定并更新，可以根据聚类的情况进行提升。合并阈值可以是指为了防止在每一轮分桶层次化聚类样本点合并的过程中，导致样本数据的表征发散，使聚类的效果下降。因此在每一轮分桶层次化聚类的过程中，需要适当的提升合并的阈值，保证聚类的效果。具体的，可以在第一轮分桶聚类时，确定合并阈值为0.75，并且可以在第二轮分桶聚类时提升至0.80，可以在第三轮分桶聚类提升至0.85，依次类推，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。初始问题簇可以是指首轮层次化聚类(或者上一轮层次化聚类)得到的问题簇。

步骤S540，获取每个所述初始问题簇中出现频率高于第一频率阈值的第一问题数据，计算所述第一问题数据的加权平均向量，并作为所述初始问题簇的表征向量。

在示例实施例中，出现频率可以是指问题数据出现在初始问题簇中的频率，出现频率越高说明该问题数据越能够表征该初始问题簇，作为初始问题簇代表。进一步地，出现频率可以是指经过预处理后的问题数据出现在初始问题簇中的频率。第一频率阈值可以是指用于选取初始问题簇出现频率较高的多个问题数据的频率值，例如第一频率阈值可以是100，也可以是200，具体数值可以根据初始问题簇中的问题数据的数量(或者桶的容量)而定，本示例实施例不以此为限。第一问题数据可以是指在初始问题簇中出现频率高于第一频率阈值的样本数据(向量化的问题数据)，第一问题数据可以包括多个样本数据，例如第一问题数据可以包括初始问题簇中出现频率高于第一频率阈值的三个样本数据。表征向量可以是指将初始问题簇中多个样本数据合并成一个能够表征初始问题簇中整体的向量。举例而言，每个桶中的样本数据进行层次化聚类之后，选取每个初始问题簇中出现频率最高的三个样本数据(出现频率高于第一频率阈值的三个样本数据)，根据这三个样本数据对应的出现频率值，对三个样本数据对应的向量进行加权平均计算，将计算得到的向量值作为初始问题簇对应的表征向量，并将表征向量作为新的样本数据参与下一轮的层次化聚类。

步骤S550，将所述表征向量作为新的样本数据，并执行所述循环过程以确定层次化聚类的结果。

在示例实施例中，将初始问题簇对应的表征向量作为新的样本数据，重新进行分桶并进行层次化聚类，即将初始问题簇对应的表征向量作为新的样本数据执行步骤S520至步骤S550的循环过程以确定最终的层次化聚类的结果，并且在层次化聚类的结果满足聚类停止条件时结束循环过程，并输出所述问题数据对应的问题簇。最后将聚类之后的各个初始问题簇中的合并的样本数据还原为原本的问题数据，并输出各个相似问题的问题簇。

分桶层次化聚类算法可以在保证聚类效果的基础上实现对海量问题数据的聚类，比K-means的聚类算法效果更佳，比传播聚类算法或者图聚类算法更加节省时间和内存。

在示例实施例中，如果判定问题簇与标准问题的相似度小于相似度阈值，则根据问题簇对应的问题数据创建新增标准问题以及新增标准问题对应的答案数据；以及将问题簇对应的问题数据作为新增标准问题的相似问题。标准问题可以是指知识库中设置的、用于代表同一类相似问题的代表问题，举例而言，若相似问题有“请问我可以退货吗？”、“这个货物可以申请退货吗？”、“退货可以不可以？”等，则该类相似问题对应的标准问题可以是“我想要退货”，该标准问题对应的答案可以是“退货方法如下……”，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。新增标准问题可以是指根据问题簇对应的问题数据所要表达的语意在知识库中创建的新的标准问题，新增标准问题可以是指更新前的知识库不包含的标准问题。新增标准问题对应的答案数据可以是指为新增标准问题配置的标准答案，具体请参考前述举例，在此不再赘述。最后将该问题簇对应的问题数据作为新增标准问题的相似问题。相似问题可以是指与标准问题的文本不同，但是表达意思相同的问题数据，即智能客服在接收到用户的相似问题时，在知识库中匹配与该相似问题对应的标准问题，并将标准问题对应的答案数据作为该相似问题的回复，具体请参考前述举例，在此不再赘述。

图6示意性地示出了根据本发明的一些实施例的计算问题簇对应的中心向量与标准问题向量的相似度的流程示意图。

参考图6所示，步骤S610，选取每个所述问题簇中出现频率大于第二频率阈值的目标问题数据，并对所述目标问题数据进行加权平均计算得到所述问题簇的中心向量。

在示例实施例中，第二频率阈值可以是指用于选取问题簇中出现频率较高的问题数据的阈值，例如第二频率阈值可以是100，也可以是200，具体数值可以根据问题簇中的问题数据的数量而定，本示例实施例不以此为限。目标问题数据可以是指问题簇中出现频率大于第二频率阈值的问题数据，目标问题数据可以包括多个问题数据，例如目标问题数据可以包括三个问题数据，本示例实施例不以此为限。中心向量可以是指能够表征整个问题簇中问题数据语意的向量。

步骤S620，确定所述标准问题对应的标准问题向量。

在示例实施例中，标准问题向量可以是指知识库中配置的标准问题对应的向量化表示。具体的，可以根据标准问题对应的语意特征向量以及意向特征向量进行拼接处理，以通过标准问题对应的语意特征向量以及意向特征向量确定标准问题向量。

步骤S630，计算所述中心向量与所述标准问题向量的相似度以确定每个所述问题簇与标准问题的相似度。

在示例实施例中，将每个问题簇中选取的出现频率大于第二频率阈值的目标问题数据，按照出现频率进行加权平均计算得到整个问题簇的中心向量，并与知识库中配置标准问题的标准问题向量计算相似度。具体的，可以是计算中心向量与标准问题向量的预先相似度。

图7示意性地示出了根据本发明的一些实施例的确定问题簇对应的摘要数据的流程示意图。

参考图7所示，步骤S710，获取所述问题簇对应的所述问题数据经过切词处理后的词语组合。

在示例实施例中，词语组合可以是指通过预设分词算法对问题数据进行切词处理后得到的词语，例如可以通过预设分词算法将问题数据“如何申请退货”进行切词处理得到词语组合“如何”、“申请”、“退货”，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。优选的，此处的词语组合可以是步骤S410中在确定意向特征向量时将问题数据进行切词处理后得到的。

步骤S720，确定所述词语组合对应的互信息以及左右邻接熵。

在示例实施例中，互信息(Mutual Information)可以是指表征两个词语之间的聚类度的数据，若互信息越大，表明词语a与词语b共同出现的几率越大，成为问题数据对应的摘要数据的概率越大。互信息的计算表达式可以如关系式(1)所示：

其中，MI_a,b可以表示词语a以及词语b组合的互信息，p(a)，p(b)分别可以表示词语a以及词语b的边缘分布，p(a，b)可以表示词语a以及词语b的联合分布。

左右邻接熵可以是指反映文本对应片段中的左邻词集合和右邻词集合的随机程度，若左右邻接熵越大，则表明该词语组合的左右邻接词语越随机，即该词语组合的出现与否与左右邻接的词语是否出现无关，因此该词语组合成摘要数据的概率越大。左右邻接熵的计算表达式可以如关系式(2)所示：

其中，H_left可以表示左邻接熵，p(w，a，b|a，b)可以表示左邻词集合的随机分布，H_right可以表示右邻接熵，p(a，b|a，b，w)可以表示右邻词集合的随机分布。

步骤S730，根据所述互信息以及所述左右邻接熵确定所述词语组合的得分数据。

在示例实施例中，得分数据可以是指根据互信息以及左右邻接熵评价词语组合成为摘要数据的概率的数据。最终词语a，词语b的组合得分数据可以表示为关系式(3)所示：

score＝(MI_a,b+H_left+H_right)*count (3)

其中，score可以表示得分数据，MI_a,b可以表示词语a以及词语b组合的互信息，H_left可以表示左邻接熵，H_right可以表示右邻接熵，count可以表示词语a，词语b的组合出现的频次。

需要说明的是，其中词语组合可以包括相邻的词语组合以及不相邻的词语组合。举例而言，对于词语a以及词语b的组合在一个文本中不需要是相邻出现的，中间可以间隔1-2个词。因为用户在表述问题的核心观点时，中间可能夹杂着一些无关的词，例如，以“申请，退货”为例，“能不能/申请/退货”、“申请/退款/退货”、“申请/取消/订单/退货”(其中“/”表示分词的标记)这三个问题数据中的“申请，退货”分别相隔0、1、2个词，但是在计算“申请，退货”的摘要得分时，这三个问题数据都纳入考核。

步骤S740，根据所述得分数据确定所述问题簇对应的摘要数据。

在示例实施例中，根据互信息以及左右邻接熵确定多个词语组合对应的得分数据，并将得分数据最高的词语组合作为问题簇对应的摘要数据。

举例而言，根据本示例实施例中的数据处理方法，可以扩充知识库中已有的标准问题相似问题，例如，对于意图类型“业务问题-售后”，原有知识库的标准问题是“商品有问题怎么办？”，可以得到新增的相似问题“商品收到有问题怎么办”、“我的商品有问题”以及“这个商品出现严重问题”等；对于意图类型“业务问题-物流”，原有知识库的标准问题是“商品多久送达？”，可以得到新增的相似问题“商品多久可以送达？”、“跨境商品多久能送到”以及“商品一般多久到货？”等；对于意图类型“业务问题-发票”，原有知识库的标准问题是“可以开发票吗？”，可以得到新增的相似问题“开发票”、“开增值税专用发票”以及“商品支持开发票吗”。对于问题数据中新出现的问题簇提供对应的摘要数据，并根据摘要数据在知识库中配置新的标准问题，相似问题以及答案，例如，对于意图类型“业务问题”，摘要数据是“退，定金”以及“没付，全款，退，定金”，问题簇中的相似问题可以包括“退定金”、“定金什么时候退”以及“帮我预购物品的那个定金退了”等，对应的标准问题可以是“我要退定金”，对应的答案数据可以是“具体退定金流程如下……”，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。

在示例实施例中，如果判定相似度小于相似度阈值，则对问题簇对应的问题数据进行摘要提取以确定问题簇对应的摘要数据；根据摘要数据以及问题数据创建新增标准问题以及新增标准问题对应的答案数据。摘要数据可以是指问题簇对应的问题数据进行摘要提取得到的中心数据，举例而言，问题簇对应的问题数据可以包括“请问我可以申请退货吗？”、“这个货物可以申请退货吗？”、“我可以不可以申请这个货物退货？”等，那么该问题簇对应的摘要数据可以是“申请退货”，那么根据该摘要数据以及问题数据确定该问题簇对应的新增标准问题可以是“我要申请退货”，配置该新增标准问题对应的答案数据可以是“退货方法如下……”，当然，此处仅是示意性举例说明，并不应对本示例实施例造成任何特殊限定。如果判定问题簇对应的中心向量与标准问题对应的标准问题向量的相似度小于相似度阈值，则认为知识库中不存在与该问题簇对应的标准问题，因此需要新增标准问题，并存储到知识库中。

通过判断问题簇对应的中心向量与标准问题对应的标准问题向量的相似度与相似度阈值的大小，不仅能够保证不重复在知识库中配置相同的标准问题，节省计算资源，而且能够及时补充知识库中的标准问题以及标准问题对应的相似问题，保证知识库的覆盖面，确保智能客服回复的准确性与匹配度，提升用户使用智能客服服务时的使用体验。

图8示意性地示出了根据本发明的一些实施例的对问题数据进行处理的流程示意图。

参考图8所示，步骤S801，收集智能客服服务的用户预定时间段内在线会话的问题数据，并对问题数据进行预处理；

步骤S802，对预处理之后的问题数据进行意图识别处理，确定问题数据对应的意图类型，以便于区分“商品信息咨询”、“导购”、“业务问题”等不同意图类型的问题数据；

步骤S803，对同一意图类型下的问题数据构建语意特征向量以及意向特征向量，并将语意特征向量以及意向特征向量进行拼接处理作为问题数据的向量化表示；

步骤S804，将向量化的问题数据进行分桶层次化聚类计算，输出多个问题簇；

步骤S805，将每个问题簇(对应的中心向量)与现有的知识库中的标准问题(对应的标准问题向量)进行相似度计算，并判断得到的相似度是否大于或者等于相似度阈值，若判定得到的相似度大于或者等于相似度阈值，则执行步骤S806，否则执行步骤S807；

步骤S806，将该问题簇中的问题数据配置为标准问题对应的相似问题；

步骤S807，对该问题簇中的问题数据进行摘要提取，以确定该问题簇对应的摘要数据(多个高频摘要，根据互信息以及左右邻接熵计算得分数据以选取得分最高的作为摘要数据)；

步骤S808，根据选取的摘要数据以及问题簇中的问题数据在知识库中配置新增标准问题以及对应的答案，并将问题簇中的问题数据作为该新增标准问题对应的相似问题。

图9示意性地示出了根据本发明的一些实施例的分桶层次化聚类算法的流程示意图。

参考图9所示，步骤S901，将样本数据(即向量化的问题数据)根据分桶算法进行分桶计算以确定多个桶；

步骤S902，对每个桶中的样本数据进行层次化聚类以确定多个初始问题簇，即本轮层次化聚类的结果；

步骤S903，将每个桶中的初始问题簇合并成新的样本数据；

步骤S904，判断本轮层次化聚类的结果是否满足聚类停止条件，若本轮层次化聚类的结果满足聚类停止条件，则执行步骤S905，否则返回执行步骤S901；

步骤S905，输出层次化聚类的结果对应的问题簇。

示例性装置

在介绍了本发明示例性实施例的方法之后，接下来，参考图10对本发明示例性实施例的数据处理装置。

在图10中，数据处理装置1000可以包括：意图类型确定模块1010、问题簇确定模块1020、相似度判断模块1030以及问题数据处理模块1040。其中：意图类型确定模块1010用于获取问题数据，并对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型；问题簇确定模块1020用于将所述问题数据进行向量化表示，并对同一所述意图类型下向量化表示的所述问题数据进行分桶层次化聚类，以确定所述问题数据对应的问题簇；相似度判断模块1030用于确定每个所述问题簇与标准问题的相似度，并判断所述相似度是否大于相似度阈值；问题数据处理模块1040用于如果判定所述相似度大于所述相似度阈值，则将所述问题簇对应的所述问题数据作为所述标准问题的相似问题。

在本发明的一些实施例中，基于前述方案，所述问题数据处理模块1040还包括新增标准问题创建单元，所述新增标准问题创建单元被配置为：如果判定所述相似度小于所述相似度阈值，则根据所述问题簇对应的所述问题数据创建新增标准问题以及所述新增标准问题对应的答案数据；以及将所述问题簇对应的所述问题数据作为所述新增标准问题的相似问题。

在本发明的一些实施例中，基于前述方案，所述问题簇确定模块1020还包括分桶层次化聚类单元，所述分桶层次化聚类单元被配置为：将向量化表示的所述问题数据作为样本数据，执行循环过程，直到层次化聚类的结果满足聚类停止条件，并输出所述问题数据对应的问题簇，所述循环过程包括：通过分桶算法对所述样本数据进行分桶；确定合并阈值，并依据所述合并阈值对每个桶中的所述问题数据进行层次化聚类，以得到初始问题簇；获取每个所述初始问题簇中出现频率高于第一频率阈值的第一问题数据，计算所述第一问题数据的加权平均向量，并作为所述初始问题簇的表征向量；将所述表征向量作为新的样本数据，并执行所述循环过程以确定层次化聚类的结果。

在本发明的一些实施例中，基于前述方案，所述数据处理装置1000还包括预处理单元，所述预处理单元被配置为：对所述问题数据进行预处理，其中，所述预处理包括繁简转化处理、字符统一处理、实体识别处理和文本纠错处理中的一种或多种。

在本发明的一些实施例中，基于前述方案，所述问题簇确定模块1020还包括问题数据向量化表示单元，所述问题数据向量化表示单元被配置为：确定所述问题数据对应的语意特征向量以及意向特征向量；将同一所述问题数据对应的所述语意特征向量以及所述意向特征向量进行拼接处理，以通过所述语意特征向量以及所述意向特征向量表示所述问题数据。

在本发明的一些实施例中，基于前述方案，所述意图类型确定模块1010还被配置为：根据预训练的意图识别模型对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型。

在本发明的一些实施例中，基于前述方案，所述相似度判断模块1030还包括相似度计算单元，所述相似度计算单元被配置为：选取每个所述问题簇中出现频率大于第二频率阈值的目标问题数据，并对所述目标问题数据进行加权平均计算得到所述问题簇的中心向量；确定所述标准问题对应的标准问题向量，其中所述标准问题向量包括所述标准问题对应的语意特征向量以及意向特征向量；计算所述中心向量与所述标准问题向量的相似度以确定每个所述问题簇与标准问题的相似度。

示例性介质

在介绍了本发明示例性实施例的装置之后，接下来，对本发明示例性实施例的存储介质进行说明。

在一些实施例中，本发明的各个方面还可以实现为一种介质，其上存储有程序代码，当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的数据处理方法中的步骤。

例如，所述设备的处理器执行所述程序代码时可以实现如图2中所述的步骤S210，获取问题数据，并对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型；步骤S220，将所述问题数据进行向量化表示，并对同一所述意图类型下向量化表示的所述问题数据进行分桶层次化聚类，以确定所述问题数据对应的问题簇；步骤S230，确定每个所述问题簇与标准问题的相似度，并判断所述相似度是否大于相似度阈值；步骤S240，如果判定所述相似度大于或者等于所述相似度阈值，则将所述问题簇对应的所述问题数据作为所述标准问题的相似问题。

参考图11所示，描述了根据本发明的实施例的用于实现上述数据处理方法的程序产品1100，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

示例性计算设备

在介绍了本发明示例性实施例的数据处理方法、数据处理装置以及存储介质之后，接下来，介绍根据本发明的示例性实施例的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施例中，根据本发明的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的数据处理方法中的步骤。例如，所述处理单元可以执行如图2中所示的步骤S210，获取问题数据，并对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型；步骤S220，将所述问题数据进行向量化表示，并对同一所述意图类型下向量化表示的所述问题数据进行分桶层次化聚类，以确定所述问题数据对应的问题簇；步骤S230，确定每个所述问题簇与标准问题的相似度，并判断所述相似度是否大于相似度阈值；步骤S240，如果判定所述相似度大于或者等于所述相似度阈值，则将所述问题簇对应的所述问题数据作为所述标准问题的相似问题。

下面参照图12来描述根据本发明的示例实施例的电子设备1200。图12所示的电子设备1200仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，电子设备1200以通用计算设备的形式表现。电子设备1200的组件可以包括但不限于：上述至少一个处理单元1201、上述至少一个存储单元1202、连接不同系统组件(包括存储单元1202和处理单元1201)的总线1203、显示单元1207。

总线1203表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元1202可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1221和/或高速缓存存储器1222，还可以进一步包括只读存储器(ROM)1223。

存储单元1202还可以包括具有一组(至少一个)程序模块1224的程序/实用工具1225，这样的程序模块1224包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备1200也可以与一个或多个外部设备1204(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与电子设备1200交互的设备通信，和/或与使得电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1205进行。并且，电子设备1200还可以通过网络适配器1206与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1206通过总线1203与电子设备1200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了数据处理装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施例，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施例描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施例，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种数据处理方法，其特征在于，包括：

获取问题数据，并对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型；

将所述问题数据进行向量化表示，并对同一所述意图类型下向量化表示的所述问题数据进行分桶层次化聚类，以确定所述问题数据对应的问题簇；

确定每个所述问题簇与标准问题的相似度，并判断所述相似度是否大于相似度阈值；

如果判定所述相似度大于或者等于所述相似度阈值，则将所述问题簇对应的所述问题数据作为所述标准问题的相似问题。

2.根据权利要求1所述的数据处理方法，其特征在于，如果判定所述相似度大于所述相似度阈值，则将所述问题簇对应的所述问题数据作为所述标准问题的相似问题，还包括：

如果判定所述相似度小于所述相似度阈值，则根据所述问题簇对应的所述问题数据创建新增标准问题以及所述新增标准问题对应的答案数据；以及

将所述问题簇对应的所述问题数据作为所述新增标准问题的相似问题。

3.根据权利要求2所述的数据处理方法，其特征在于，如果判定所述相似度小于所述相似度阈值，则根据所述问题簇对应的所述问题数据创建新增标准问题以及所述新增标准问题对应的答案数据，包括：

如果判定所述相似度小于所述相似度阈值，则对所述问题簇对应的所述问题数据进行摘要提取以确定所述问题簇对应的摘要数据；

根据所述摘要数据以及所述问题数据创建新增标准问题以及所述新增标准问题对应的答案数据。

4.根据权利要求1所述的数据处理方法，其特征在于，所述对同一所述意图类型下向量化表示的所述问题数据进行分桶层次化聚类，以确定所述问题数据对应的问题簇，包括：

将向量化表示的所述问题数据作为样本数据，执行循环过程，直到层次化聚类的结果满足聚类停止条件，并输出所述问题数据对应的问题簇，所述循环过程包括：

通过分桶算法对所述样本数据进行分桶；

确定合并阈值，并依据所述合并阈值对每个桶中的所述问题数据进行层次化聚类，以得到初始问题簇；

获取每个所述初始问题簇中出现频率高于第一频率阈值的第一问题数据，计算所述第一问题数据的加权平均向量，并作为所述初始问题簇的表征向量；

将所述表征向量作为新的样本数据，并执行所述循环过程以确定层次化聚类的结果。

5.根据权利要求1所述的数据处理方法，其特征在于，所述将所述问题数据进行向量化表示，包括：

确定所述问题数据对应的语意特征向量以及意向特征向量；

将同一所述问题数据对应的所述语意特征向量以及所述意向特征向量进行拼接处理，以通过所述语意特征向量以及所述意向特征向量表示所述问题数据。

6.根据权利要求5所述的数据处理方法，其特征在于，所述确定所述问题数据对应的意向特征向量，包括：

对所述问题数据进行切词处理以过滤所述问题数据中的通用停用词；

根据过滤后的所述问题数据确定所述问题数据对应的业务停用词；

过滤所述问题数据中的业务停用词以确定所述问题数据对应的意向特征向量。

7.根据权利要求3或6任意一项所述的数据处理方法，其特征在于，所述对所述问题簇对应的所述问题数据进行摘要提取以确定所述问题簇对应的摘要数据，包括：

获取所述问题簇对应的所述问题数据经过切词处理后的词语组合；

确定所述词语组合对应的互信息以及左右邻接熵；

根据所述互信息以及所述左右邻接熵确定所述词语组合的得分数据，其中所述词语组合包括相邻的词语组合以及不相邻的词语组合；

根据所述得分数据确定所述问题簇对应的摘要数据。

8.一种数据处理装置，其特征在于，包括：

意图类型确定模块，用于获取问题数据，并对所述问题数据进行意图识别处理以确定所述问题数据对应的意图类型；

问题簇确定模块，用于将所述问题数据进行向量化表示，并对同一所述意图类型下向量化表示的所述问题数据进行分桶层次化聚类，以确定所述问题数据对应的问题簇；

相似度判断模块，用于确定每个所述问题簇与标准问题的相似度，并判断所述相似度是否大于相似度阈值；

问题数据处理模块，用于如果判定所述相似度大于所述相似度阈值，则将所述问题簇对应的所述问题数据作为所述标准问题的相似问题。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任意一项所述的数据处理方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的数据处理方法。