CN111353028B

CN111353028B - 用于确定客服话术簇的方法及装置

Info

Publication number: CN111353028B
Application number: CN202010103625.6A
Authority: CN
Inventors: 王子豪; 刘佳; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2023-04-18
Anticipated expiration: 2040-02-20
Also published as: CN111353028A

Abstract

本说明书的实施例提供了一种用于确定客服话术簇的方法及装置。在该方法中，从人工客服数据集中来确定候选客服话术集，使用业务话术筛选模型来从候选客服话术集中筛选分别针对不同业务类型的多个业务话术集，进而通过语义模型来从业务话术集中确定至少一个客服话术簇，可以为客服进行业务服务过程中遇到的相同或相似的用户问题提供参考。

Description

用于确定客服话术簇的方法及装置

技术领域

本说明书的实施例涉及互联网领域，具体地，涉及一种用于确定客服话术簇的方法及装置。

背景技术

随着互联网技术的发展，客服服务已经成为了众多科技公司的重要竞争资源。目前，可以由人工客服或机器人客服来提供客服服务。在提供客服服务的过程中，话术往往能够为客服处理用户问题起到较佳的参考作用。然而，目前的客服话术一般是由人工依据过往经验而制定的，导致无法在海量的业务场景中适用，并且主观性较强而无法保障准确性。

针对上述问题，目前业界暂无较佳的解决方案。

发明内容

鉴于上述问题，本说明书的实施例提供了一种用于确定客服话术簇的方法及装置。利用该方法及装置，从人工客服数据集中确定候选客服话术集，能保障话术的实用性，并基于业务话术筛选模型从候选客服话术集来确定分别针对不同业务类型的业务话术集，进而使用语义模型来从各个业务话术集中确定客服话术簇，使得客服话术簇是对应于相同或相似的语义的，能够为客服进行业务服务过程中遇到的相同或相似的用户问题提供参考，以提高客服服务效率和质量。

根据本说明书实施例的一个方面，提供了一种用于确定客服话术簇的方法，包括：根据人工客服数据集确定候选客服话术集；基于业务话术筛选模型从所述候选客服话术集中确定分别针对不同业务类型的多个业务话术集，所述业务话术筛选模型至少配置有业务匹配度特征维度；针对各个业务话术集，基于语义模型从该业务话术集中确定至少一个客服话术簇。

可选地，在上述方面的一个示例中，所述业务话术筛选模型还可以配置有用于指示话术质量的以下中的任意一种或多种特征维度：话术长度特征维度、业务成果转化度特征维度、话术通顺度特征维度、话术信息量和话术使用频次。

可选地，在上述方面的一个示例中，基于语义模型从该业务话术集中确定至少一个客服话术簇可以包括：基于语义模型确定所述业务话术集所对应的话术语义特征集；基于密度聚类算法对所述话术语义特征集中的各个话术语义特征进行聚类处理，以从相对应的业务话术集中确定至少一个客服话术簇。

可选地，在上述方面的一个示例中，还可以包括：针对各个业务话术集，基于主题模型确定该业务话术集所对应的话术主题特征集，基于第一聚类算法对该话术主题特征集中的各个话术主题特征进行聚类处理，以将相对应的业务话术集划分为具有预设定的聚类别数量的多个第一话术聚类簇；其中，基于密度聚类算法对所述话术语义特征集中的各个话术语义特征进行聚类处理，以从相对应的业务话术集中确定至少一个客服话术簇包括：针对各个所述第一话术聚类簇，基于密度聚类算法对该第一话术聚类簇所对应的话术语义特征集中的各个话术语义特征进行聚类处理，以将相对应的第一话术聚类簇划分为多个第二话术聚类簇；根据各个所述第二话术聚类簇，确定所述客服话术簇。

可选地，在上述方面的一个示例中，还可以包括：确定所述各个第二话术聚类簇中的重心话术；其中，根据各个所述第二话术聚类簇，确定所述客服话术簇包括：针对各个第二话术聚类簇组，根据该第二话术聚类簇组内的第一第二话术聚类簇和第二第二话术聚类簇中的重心话术的话术语义特征来确定语义相似度，根据所述语义相似度来确定是否将所述第一第二话术聚类簇和所述第二第二话术聚类簇进行归并处理，以确定所述客服话术簇。

可选地，在上述方面的一个示例中，根据人工客服数据集确定候选客服话术集可以包括：对所述人工客服数据集中的至少一个用户标识信息进行归一化处理，以确定所述候选客服话术集。

可选地，在上述方面的一个示例中，该方法还可以包括：获取用户问题集；在所述用户问题集中确定与各个客服话术簇分别相匹配的用户问题。

可选地，在上述方面的一个示例中，所述密度聚类算法可以包括DBSCAN算法和/或HDBSCAN算法。

可选地，在上述方面的一个示例中，所述主题模型可以包括以下中的任意一种：LDA模型、LSA模型和PLSA模型。

可选地，在上述方面的一个示例中，所述第一聚类算法可以包括以下中的至少一者：K均值聚类算法、均值偏移聚类算法和层次聚类算法。

根据本说明书实施例的另一方面，提供了一种用于确定客服话术簇的装置，包括：候选客服话术集确定单元，根据人工客服数据集确定候选客服话术集；业务话术确定单元，基于业务话术筛选模型从所述候选客服话术集中确定分别针对不同业务类型的多个业务话术集，所述业务话术筛选模型至少配置有业务匹配度特征维度；客服话术簇确定单元，针对各个业务话术集，基于语义模型从该业务话术集中确定至少一个客服话术簇。

可选地，在上述方面的一个示例中，所述客服话术簇确定单元可以包括：语义特征确定模块，基于语义模型确定所述业务话术集所对应的话术语义特征集；密度聚类处理模块，基于密度聚类算法对所述话术语义特征集中的各个话术语义特征进行聚类处理，以从相对应的业务话术集中确定至少一个客服话术簇。

可选地，在上述方面的一个示例中，该装置还可以包括：主题特征确定单元，针对各个业务话术集，基于主题模型确定该业务话术集所对应的话术主题特征集；以及第一聚类处理单元，针对各个话术主题特征集，基于第一聚类算法对该话术主题特征集中的各个话术主题特征进行聚类处理，以将相对应的业务话术集划分为具有预设定的聚类别数量的多个第一话术聚类簇；其中，针对各个所述第一话术聚类簇，所述密度聚类处理模块基于密度聚类算法对该第一话术聚类簇所对应的话术语义特征集中的各个话术语义特征进行聚类处理，以将相对应的第一话术聚类簇划分为多个第二话术聚类簇；根据各个所述第二话术聚类簇，所述密度聚类处理模块确定所述客服话术簇。

可选地，在上述方面的一个示例中，还可以包括：重心话术确定单元，确定所述各个第二话术聚类簇中的重心话术；其中，所述密度聚类处理模块包括：语义相似度确定子模块，针对各个第二话术聚类簇组，根据该第二话术聚类簇组内的第一第二话术聚类簇和第二第二话术聚类簇中的重心话术的话术语义特征来确定语义相似度；归并处理子模块，根据所述语义相似度来确定是否将所述第一第二话术聚类簇和所述第二第二话术聚类簇进行归并处理，以确定所述客服话术簇。

可选地，在上述方面的一个示例中，所述候选客服话术集确定单元可以对所述人工客服数据集中的至少一个用户标识信息进行归一化处理，以确定所述候选客服话术集。

可选地，在上述方面的一个示例中，还可以包括：用户问题集获取单元，获取用户问题集；问题话术簇匹配单元，在所述用户问题集中确定与各个客服话术簇分别相匹配的用户问题。

根据本说明书的实施例的另一方面，还提供一种电子设备，包括：至少一个处理器；以及存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于确定客服话术簇的的方法。

根据本说明书的实施例的另一方面，还提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的用于确定客服话术簇的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书的实施例内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本说明书的实施例，但并不构成对本说明书的实施例的限制。在附图中：

图1示出了根据本说明书实施例的用于确定客服话术簇的方法的一示例的流程图；

图2示出了根据本说明书的实施例的确定业务话术集的一示例的流程图；

图3示出了根据本说明书的实施例的根据业务话术集确定客服话术簇的一示例的流程图；

图4示出了根据本说明书的实施例的根据第二话术簇确定客服话术簇的一示例的流程图；

图5示出了根据本说明书一实施例的客服服务方法的一示例的流程图；

图6示出了根据本说明书的实施例的用于确定客服话术簇的装置的一示例的方框图；和

图7示出了根据本说明书的实施例的用于确定客服话术簇的电子设备的一示例的硬件结构图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书的实施例内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

在本文中，术语“集”、“组”都可以表示数量“至少一个”。术语“客服话术”可以表示被客服(例如，机器人客服或者人工客服)用来与用户进行沟通的范文资料。

此外，术语“主题”(Topic)可以表示具有相同词境的词的集合形式，例如“大米”、“玉米”和“小麦”都可被集合成“谷物”主题。并且，一个业务可以具有一个或多个业务主题，例如“健康医疗”业务可以具有诸如“外科”、“内科”和“骨科”之类的多个业务主题。术语“主题模型”(Topic Model)可以表示以非监督学习的方式确定文集(例如一个或多个句子)针对至少一个主题的分类模型或概率统计模型，例如主题模型可以确定文集对应于“大米”主题的概率是10％和对应于“小麦”主题的概率是90％。

图1示出了根据本说明书的实施例的用于确定客服话术簇的方法(下文中也被称为客服话术簇确定方法)的一示例的流程图。

如图1所示的流程100，在块110中，根据人工客服数据集确定候选客服话术集。具体地，可以调用人工客服日志，并根据人工客服日志来确定人工客服数据集。应理解的是，在人工客服为用户提供客服服务的过程中，可能会就用户标识信息(例如人名或地名等)与用户进行沟通或确认，导致在人工客服日志中也会存在一些用户标识信息。

鉴于此，还可以将人工客服数据集进行预处理操作，以加强对用户信息的隐私保护，并降低因用户标识信息造成的话术多样化。具体地，可以对人工客服数据集中的用户标识信息进行归一化处理，以确定候选客服话术集。示例性地，该用户标识信息包括人名、地名、数字符号和电话等，例如可以将所有的数字符号都用NUM表示，将所有的地名都用ADDRESS表示。

接着，在块120中，基于业务话术筛选模型从候选客服话术集中确定分别针对不同业务类型的多个业务话术集。应理解的是，人工客服数据集可能是对应于多种业务类型的，例如健康医疗业务、网上购物业务和金融贷款业务等。这里，业务匹配度特征维度能够被用来确定话术与业务之间的匹配程度，业务话术筛选模型可以通过在业务匹配度特征维度上对话术进行特征评价来确定各个候选客服话术分别所属于的业务类型，进而将同一业务类型所对应的话术分到同一个业务话术集中。这样，可以便于客服(例如，专门负责特定业务类型的客服)能够按照业务类型来使用对应的客服话术。

另外，基于人工客服数据集所确定的各个候选客服话术在话术质量上可能是存在差异的。在本说明书的实施例的一个示例中，还可以在候选客服话术集中筛选优质话术，以确保业务话术集中的各个业务话术是优质的，更多细节将在下文中展开。

接着，在块130中，针对各个业务话术集，基于语义模型从该业务话术集中确定至少一个客服话术簇。这里，语义模型可以采用各种适于确定文本语义的机器学习模型(例如深度神经网络)。在本说明书的实施例的一个示例中，语义模型是分类模型，从而可以将具有相同或相似语义的话术分到一个客服话术簇中，使得一个客服话术簇能够被用来处理相同或相似的在该业务类型方面的用户问题，具有较高的参考价值。

此外，一个业务类型下可能会存在多个业务主题(例如，健康医疗业务下存在骨科主题和外科主题等)，而业务主题所对应的用户问题集的量级可能会远远小于业务类型所对应的用户问题集。在本说明书的实施例中，所确定的客服话术簇可以与业务类型下的业务主题相对应，能够进一步提高客服话术簇的参考价值，更多细节将在下文中展开。

在本说明书的实施例的另一示例中，针对各个业务话术集，可以基于语义模型确定该业务话术集所对应的话术语义特征集，进而基于密度聚类算法来对话术语义特征集中的各个话术语义特征进行聚类处理，以从相对应的业务话术集中确定至少一个客服话术簇。例如，在业务话术A经分词处理而得到多个词组之后，由语义模型确定各个词组所对应的语义特征向量，并将各个词组所对应的语义特征向量进行组合，从而确定业务话术A所对应的话术语义特征。由此，通过确定话术语义特征集和相应的密度聚类处理操作，可以实现将业务话术集中对应相同或相似语义的业务话术聚类到同一客服话术簇中。

这里，密度聚类算法可以采用例如DBSCAN(Density-Based Spatial Clusteringof Applications with Noise,具有噪声的基于密度的聚类)算法和/或HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于层次密度的聚类)算法，等等。

应理解的是，在密度聚类处理过程中，只要一个区域中的样本密度大于某个阈值，就可以把它划入与之相近的簇中，而不需要给定聚类别数量。这样，便于处理具有海量数据样本且未知样本类别数目的人工客服数据集。

然而，在密度聚类算法中存在一些问题。例如，如果需要密度聚类处理的数据样本集的数量较大(例如，海量数据样本)，则需要占用巨大的处理资源，并还会导致冗长的处理时间。

在本说明书的实施例中，对各个业务话术集所对应的话术主题特征集分别进行密度聚类处理，而不是针对所有的候选客服话术集所对应的样本进行处理，降低了密度聚类处理所对应的数据样本数量，缓解了处理压力并提高了密度聚类处理效率。此外，还可以对业务话术集划分为多个子集(例如，按照业务主题划分)，并对各个子集分别进行密度聚类处理，以进一步地提高处理效率，更多细节将在下文中展开。

在一些实施方式中，还可以获取用户问题集，并在用户问题集中确定与各个客服话术簇分别相匹配的用户问题。示例性地，从人工客服日志中调用历史用户问题，按照业务类型来确定用户问题集(例如通过调用业务筛选模型)。进而，通过文本匹配操作或问答分类模型，可以确定在对应业务类型下各个客服话术簇所匹配的用户问题。这样，可以构建针对各个业务类型的问答话术对。示例性地，在客服服务过程中，如果从用户端再次接收到待解决的用户问题时，客服可以直接从问答话术对中找到与其相同或相似的用户问题所对应的客服话术簇，并据此来提供客服服务，从而提升服务效率和质量。在本说明书的实施例中，还可以构建针对不同业务主题的问答话术对，能够进一步地提高客服话术簇的参考价值，更多细节将在下文展开。

图2示出了根据本说明书的实施例的确定业务话术集的一示例的流程图。

如图2所示的流程200，在块210中，针对候选客服话术集中的各个候选客服话术，基于业务话术筛选模型将该候选客服话术在各个特征维度上进行特征评价，以确定该候选客服话术所对应的特征评价结果。

接着，在块220中，基于特征评价结果从候选客服话术集中确定业务话术集。

在本说明书的实施例中，业务话术筛选模型除了配置有业务匹配度特征维度之外，还可以配置有用于指示话术质量的特征维度。例如，其可以是包括以下中的任意一种：话术长度特征维度、业务成果转化度特征维度、话术通顺度特征维度和话术信息量和话术使用频次。应理解的是，业务话术筛选模型还可以具有未于此所公开的其他特征维度。由此，可以通过多个特征维度在候选客服话术集中筛选优质话术，确保所得到的业务话术集中各个话术的优质性。

需说明的是，业务话术筛选模型可以是基于话术样本集进行训练的，各个话术样本具有在不同特征维度上的标签。示例性地，针对业务匹配度特征维度的标签可以是各个话术样本所对应的业务类型。针对话术长度特征维度的标签可以是表示话术样本的话术长度是否适宜的度量值，例如优质话术的长度需要适中。另外，针对业务成果转化度特征维度的标签可以是在客服对话中使用话术样本而得到的业务结果，例如针对贷款业务的回款率和针对网购业务的购买率，等等。这里，用于指示话术质量的各个特征维度的标签可以是通过人工或计算模型进行统计的方式来确定的。

图3示出了根据本说明书的实施例的根据业务话术集确定客服话术簇的一示例的流程图。

如图3所示的流程300，在块310中，针对各个业务话术集，基于主题模型确定该业务话术集所对应的话术主题特征集。这里，主题模型可以是基于主题数据样本集进行训练的，该主题数据样本集可以涉及客服服务下所有业务类型下的各个业务主题。另外，主题模型可以是采用多样化类型的主题模型，在此应不加限制。示例性地，主题模型可以包括以下中的任意一种：LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型、LSA(LatentSemantic Analysis,隐含语义分析)模型和PLSA(Probabilistic Latent SemanticAnalysis,概率隐含语义分析)模型。

具体地，主题模型可以按照业务类型下的各个业务主题对业务话术进行特征编码，从而确定不同业务话术各自所对应的话术主题特征。示例性地，业务类型“健康医疗”存在三个业务主题“外科”、“内科”和“骨科”，在对业务类型为“健康医疗”的业务话术B进行主题编码时，将业务话术B分别针对上述三个业务主题的特征向量，并通过组合这三个特征向量而确定业务话术B所对应的话术主题特征。

接着，在块320中，针对各个话术主题特征集，基于第一聚类算法对该话术主题特征集中的各个话术主题特征进行聚类处理，以将相对应的业务话术集划分为具有预设定的聚类别数量的多个第一话术聚类簇。这里，第一聚类算法可以包括以下中的至少一者：K均值聚类算法(或K-means算法)、均值偏移聚类算法和层次聚类算法。举例来说，当使用K-means算法来作为第一聚类算法时，由于Kmeans算法是一种已知聚类别数量的划分算法，其聚类结果是将源数据划分为k类的k个数据集。这里，可以通过多次验证性实验来确定针对第一聚类算法的聚类别数量(例如K-means算法的k值)。

应理解的是，第一话术聚类簇可以表示针对相同或相似的业务主题的话术的集合模式。但是，针对同一业务主题可能会存在针对多个不同的(或语义差别较大的)用户问题的话术。例如，针对贷款业务中的催还款主题会存在“a、您目前还欠贷款金额为XX元”、“b、您名下的YY贷款逾期XX天了”和“c、您有一笔贷款已经逾期XX天了”。此时，可能需要将针对相同或相似问题的话术(例如，合并b话术和c话术)进行集合，使得所得到的话术簇中的话术通常具有相同或相近的语义。

接着，在块330中，针对各个第一话术聚类簇，基于密度聚类算法对该第一话术聚类簇所对应的话术语义特征集中的各个话术语义特征进行聚类处理，以将相对应的第一话术聚类簇划分为多个第二话术聚类簇。由此，针对每个对应相同或相似主题的第一话术簇分别进行密度聚类处理，相比于针对业务话术集的密度聚类处理，可以降低密度聚类处理的样本数量，能够有效克服密度聚类处理过程中效率过低和资源消耗过大的问题。

接着，在块340中，可以根据各个第二话术聚类簇，确定客服话术簇。在本说明书的实施例的一个示例中，可以将各个第二话术簇分别确定为对应的客服话术簇。在本说明书的实施例的另一示例中，可以对各个第二话术簇进行优化处理(例如，为了解决聚类结果分散的问题)，从而确定客服话术簇，更多细节将在下文中展开。

在本说明书的实施例中，通过具有设定聚类别数量的第一聚类算法对话术主题特征进行聚类，从而将相同或相似主题的话术进行粗聚类(即，第一话术簇)。进而，针对每一个第一话术簇进行基于语义特征的密度聚类处理的二次聚类操作，可以进一步地提高聚类效率。并且，所得到的第二话术簇能够表达相同或相近的语义，能够为相同或相似问题提供参考，提升了客服话术簇的纯度。

在一些实施方式中，还可以从人工客服日志中调用历史用户问题按照业务主题来确定用户问题集(例如通过调用主题模型)。进而，通过文本匹配操作，或者使用问答分类模型，来确定各个客服话术簇所匹配的用户问题。由此，构建了针对不同业务主题的问答话术对，相比于针对业务类型的问答话术对更有参考价值，能显著提高客服服务效率和质量。

图4示出了根据本说明书的实施例的根据第二话术簇确定客服话术簇的一示例的流程图。

如上面的实施例中所描述的，基于语义特征进行密度聚类处理，可以将对应话术语义特征中样本分布密度较大的话术聚为第二话术簇。但是，由于密度聚类处理算法中的参数设置(例如阈值设置)的原因，在密度聚类处理过程中可能会出现聚类结果分散的问题，导致语义相近或相同的两个话术被划分至不同的第二话术簇。

如图4所示的流程400，在块410中，确定各个第二话术簇中的重心话术。这里，重心话术可以是第二话术簇在聚类分布上靠近重心位置的话术，该重心话术的话术语义特征可以用来表示第二话术簇所对应的平均话术语义特征。

接着，在块420中，针对各个第二话术簇组，根据该第二话术簇组中的第一第二话术簇和第二第二话术簇的重心话术所对应的话术语义特征来确定语义相似度。示例性地，可以基于话术语义特征所对应的特征向量进行向量计算(例如除法运算或减法运算)，从而得出针对不同的第二话术簇的语义相似度。这里，第二话术簇组可以是包括任意两个或更多个的第二话术簇，例如将各个第二话术簇按照顺序依次进行两两组合来依次确定不同的第二话术簇组。

接着，在块430中，根据语义相似度来确定是否将第一第二话术簇和第二第二话术簇进行归并处理，以确定客服话术簇。示例性地，可以将对应语义相似度较高(例如，超过设定的相似度阈值)的第一第二话术簇和第二第二话术簇进行归并，并根据经归并处理之后的各个第二话术簇来确定客服话术簇。

在本说明书的实施例中，通过分析不同第二话术簇的重心话术之间的语义相似度来确定是否将不同的第二话术簇进行归并处理，能有效解决在应用密度聚类算法进行聚类处理的过程中可能出现的聚类分散的问题，并保障了不同的客服话术簇之间具有较大的差异性。

图5示出了根据本说明书一实施例的客服服务方法的一示例的流程图。

如图5所示的流程500包括预处理阶段510、话术筛选阶段520、二次聚类阶段530和客服服务阶段540。其中，通过如块510-块530的操作从人工客服数据集中确定客服话术簇，进而在块540中，客服(例如机器人客服)可以利用该客服话术簇为用户提供客服服务。

在块510，在预处理阶段中，对人工客服数据集进行预处理操作，从而确定候选客服话术集。这里，可以从人工客服对话日志中获取人工客服数据集。示例性地，可以先对人工客服对话日志中原始的人工客服对话进行预处理，例如将客服对话中出现的人名、地名、数字、邮箱等进行归一化处理，可以使用统一的特殊字符(例如，NUM、ADDRESS等)来代替。这里，可以使用预处理模型来进行预处理操作。

接着，在块520，在话术筛选阶段中，在候选客服话术集中筛选出分别针对不同业务类型的业务话术集。这里，可以使用话术筛选模型基于业务匹配度特征维度来从候选客服话术集中筛选业务话术集。进一步地，话术筛选模型还可以用来对候选客服话术集中的优质话术进行筛选，由此保障所确定的各个业务话术具有较高的话术质量。

接着，在块530，在二次聚类阶段中，对业务话术集中的话术进行二次聚类处理操作，从而确定客服话术簇。这里，通过二次聚类处理操作可以将业务话术集中语义接近的内容聚合在一起，从而可以确定语义相近的客服话术簇。由此，客服话术簇可以被用来处理相同或相似的问题。

示例性地，可以是基于各个业务话术的话术主题特征进行对应预设定的聚类别数量的粗聚类处理(例如，第一聚类算法)。然后，针对每个经粗聚类处理所形成的粗类簇中分别进行基于话术语义特征的细聚类处理(例如，密度聚类算法)，这样针对每个粗类簇内的话术进行密度聚类处理，有效提升了密度聚类处理的效率。之后，可以根据经细聚类处理所形成的不同的细类簇之间的语义相似度进行簇合并操作，从而确定最终的客服话术簇，这样可以保障不同客服话术簇之间的差异性，提高了客服话术簇的纯度。更多细节可以参照上面参考如图3和4的实施例所描述的操作。

举例而言，基于第一聚类算法所得到的类簇可以是：

簇1A：你家住哪里，你家在哪里，家里的地址是什么。

簇2A：你家在ADDRESS吗，在家吗，在家的地址是吗。

进而，对每个簇分别进行密度聚类处理后，可以得到：

簇1B：簇1.1：你家住哪里，你家在哪里。

簇1.2：家里的地址是什么。

簇2B：簇2.1：你家在ADDRESS吗，在家吗。

簇2.2：在家的地址是吗。

然后，基于语义相似度，对不同簇进行合并，可以得到：

簇1C：你家住哪里，你家在哪里。

簇2C：家里的地址是什么，在家的地址是吗。(合并簇1.2和2.2)

簇3C：你家在ADDRESS吗，在家吗。

接着，在块540，在客服服务阶段中，客服可以参考客服话术簇来提供客服服务，可以提高客服服务质量。这里，针对各个客服话术簇(例如，针对簇1C-3C)可以配置上相应的用户问题，从而确定至少一个问答话术对。由此，在客服服务过程中，如果从用户端再次获知待解决相同或相似的用户问题时，能够基于所确定的上述问答话术对中对应的客服话术簇来提供客服服务，提高了客服服务效率和质量。

在本说明书的实施例中，无需过多人工干预(例如，无需预先定义客服话术簇的数目)，便可以从海量的人工客服日志数据中挖掘具有相同或相似语义的优质的客服话术簇，具有较强的客观性和参考价值，可以提高客服服务效率和质量。

图6示出了根据本说明书的实施例的用于确定客服话术簇的装置(下文中，也被称为客服话术簇确定装置)的一示例的方框图。

如图6所示，客服话术簇确定装置600包括候选客服话术集确定单元610、业务话术确定单元620、客服话术簇确定单元630、主题特征确定单元640、第一聚类处理单元650、重心话术确定单元660、用户问题集获取单元670和问题话术簇匹配单元680。

候选客服话术集确定单元610根据人工客服数据集确定候选客服话术集。候选客服话术集确定单元610的操作可以参照上面参考图1中的块110的操作。

业务话术确定单元620基于业务话术筛选模型从所述候选客服话术集中确定分别针对不同业务类型的多个业务话术集，所述业务话术筛选模型至少配置有业务匹配度特征维度。业务话术确定单元620的操作可以参照上面参考图1中的块120的操作。

客服话术簇确定单元630针对各个业务话术集，基于语义模型从该业务话术集中确定至少一个客服话术簇。客服话术簇确定单元630的操作可以参照上面参考图1中的块130的操作。

进一步地，客服话术簇确定单元630包括：语义特征确定模块(未示出)，基于语义模型确定所述业务话术集所对应的话术语义特征集；密度聚类处理模块(未示出)，基于密度聚类算法对所述话术语义特征集中的各个话术语义特征进行聚类处理，以从相对应的业务话术集中确定至少一个客服话术簇。

主题特征确定单元640针对各个业务话术集，基于主题模型确定该业务话术集所对应的话术主题特征集。客服话术簇确定单元640的操作可以参照上面参考图3中的块310的操作。

第一聚类处理单元650针对各个话术主题特征集，基于第一聚类算法对该话术主题特征集中的各个话术主题特征进行聚类处理，以将相对应的业务话术集划分为具有预设定的聚类别数量的多个第一话术聚类簇。其中，针对各个所述第一话术聚类簇，所述密度聚类处理模块基于密度聚类算法对该第一话术聚类簇所对应的话术语义特征集中的各个话术语义特征进行聚类处理，以将相对应的第一话术聚类簇划分为多个第二话术聚类簇；根据各个所述第二话术聚类簇，所述密度聚类处理模块确定所述客服话术簇。第一聚类处理单元650的操作可以参照上面参考图3中的块320的操作。

重心话术确定单元660确定所述各个第二话术聚类簇中的重心话术。其中，所述密度聚类处理模块包括：语义相似度确定子模块(未示出)，针对各个第二话术聚类簇组，根据该第二话术聚类簇组内的第一第二话术聚类簇和第二第二话术聚类簇中的重心话术的话术语义特征来确定语义相似度；归并处理子模块(未示出)，根据所述语义相似度来确定是否将所述第一第二话术聚类簇和所述第二第二话术聚类簇进行归并处理，以确定所述客服话术簇。重心话术确定单元660的操作可以参照上面参考图4中的块410的操作。

用户问题集获取单元670获取针对各个业务类型的用户问题集。问题话术簇匹配单元680针对各个业务类型，对该业务类型所对应的各个客服话术簇和用户问题集进行匹配操作。用户问题集获取单元670和问题话术簇匹配单元680的操作可以参照上面参考图5中的块540的操作。

进一步地，候选客服话术集确定单元610对所述人工客服数据集中的至少一个用户标识信息进行归一化处理，以确定所述候选客服话术集。

进一步地，所述业务话术筛选模型还配置有用于指示话术质量的以下中的任意一种或多种特征维度：话术长度特征维度、业务成果转化度特征维度、话术通顺度特征维度和话术信息量和话术使用频次。

需说明的是，如上所描述的客服话术簇确定装置600中的部分单元在一些应用场景下是非必需的或可选的。具体地，在一些实施方式中，主题特征确定单元640、第一聚类处理单元650、重心话术确定单元660、用户问题集获取单元670和问题话术簇匹配单元680中的一者或多者可以不被保留。但需说明的是，在客服话术簇确定装置600中不存在第一聚类处理单元650时，对应的主题特征确定单元640也应不被保留。以及，在客服话术簇确定装置600中不存在问题话术簇匹配单元680时，对应的用户问题集获取单元670也应不被保留。

如上参照图1到图6，对根据本说明书的实施例的用于确定客服话术簇的方法及装置的实施例进行了描述。在以上对方法实施例的描述中所提及的细节，同样适用于本说明书的装置的实施例。上面的用于确定客服话术簇的装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图7示出了根据本说明书的实施例的用于确定客服话术簇的电子设备700的一示例的硬件结构图。如图7所示，电子设备700可以包括至少一个处理器710、存储器(例如非易失性存储器)720、内存730和通信接口740，并且至少一个处理器710、存储器720、内存730和通信接口740经由总线760连接在一起。至少一个处理器710执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器710：根据人工客服数据集确定候选客服话术集；基于业务话术筛选模型从所述候选客服话术集中确定分别针对不同业务类型的多个业务话术集，所述业务话术筛选模型至少配置有业务匹配度特征维度；针对各个业务话术集，基于语义模型从该业务话术集中确定至少一个客服话术簇。

应该理解，在存储器720中存储的计算机可执行指令当执行时使得至少一个处理器710进行本说明书的各个实施例中以上结合图1-6描述的各种操作和功能。

在本说明书中，电子设备700可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。

根据一个实施例，提供了一种比如机器可读介质的程序产品。机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-6描述的各种操作和功能。具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解，上面说明书的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于确定客服话术簇的方法，包括：

根据人工客服数据集确定候选客服话术集；

基于业务话术筛选模型从所述候选客服话术集中确定分别针对不同业务类型的多个业务话术集，所述业务话术筛选模型至少配置有业务匹配度特征维度；

针对各个业务话术集，基于语义模型从该业务话术集中确定至少一个客服话术簇；

其中，基于语义模型从该业务话术集中确定至少一个客服话术簇包括：

基于语义模型确定所述业务话术集所对应的话术语义特征集；

基于密度聚类算法对所述话术语义特征集中的各个话术语义特征进行聚类处理，以从相对应的业务话术集中确定至少一个客服话术簇；

所述方法还包括：

针对各个业务话术集，

基于主题模型确定该业务话术集所对应的话术主题特征集，

基于第一聚类算法对该话术主题特征集中的各个话术主题特征进行聚类处理，以将相对应的业务话术集划分为具有预设定的聚类别数量的多个第一话术聚类簇；

其中，基于密度聚类算法对所述话术语义特征集中的各个话术语义特征进行聚类处理，以从相对应的业务话术集中确定至少一个客服话术簇包括：

针对各个所述第一话术聚类簇，基于密度聚类算法对该第一话术聚类簇所对应的话术语义特征集中的各个话术语义特征进行聚类处理，以将相对应的第一话术聚类簇划分为多个第二话术聚类簇；

根据各个所述第二话术聚类簇，确定所述客服话术簇。

2.如权利要求1所述的方法，其中，所述业务话术筛选模型还配置有用于指示话术质量的以下中的任意一种或多种特征维度：话术长度特征维度、业务成果转化度特征维度、话术通顺度特征维度、话术信息量和话术使用频次。

3.如权利要求1所述的方法，还包括：

确定所述各个第二话术聚类簇中的重心话术；

其中，根据各个所述第二话术聚类簇，确定所述客服话术簇包括：

针对各个第二话术聚类簇组，

根据该第二话术聚类簇组内的第一第二话术聚类簇和第二第二话术聚类簇中的重心话术的话术语义特征来确定语义相似度，

根据所述语义相似度来确定是否将所述第一第二话术聚类簇和所述第二第二话术聚类簇进行归并处理，以确定所述客服话术簇。

4.如权利要求1所述的方法，其中，根据人工客服数据集确定候选客服话术集包括：

对所述人工客服数据集中的至少一个用户标识信息进行归一化处理，以确定所述候选客服话术集。

5.如权利要求1所述的方法，还包括：

获取用户问题集；

在所述用户问题集中确定与各个客服话术簇分别相匹配的用户问题。

6.如权利要求1所述的方法，其中，所述密度聚类算法包括DBSCAN算法和/或HDBSCAN算法。

7.如权利要求1所述的方法，其中，所述主题模型包括以下中的任意一种：LDA模型、LSA模型和PLSA模型。

8.如权利要求1所述的方法，其中，所述第一聚类算法包括以下中的至少一者：K均值聚类算法、均值偏移聚类算法和层次聚类算法。

9.一种用于确定客服话术簇的装置，包括：

候选客服话术集确定单元，根据人工客服数据集确定候选客服话术集；

业务话术确定单元，基于业务话术筛选模型从所述候选客服话术集中确定分别针对不同业务类型的多个业务话术集，所述业务话术筛选模型至少配置有业务匹配度特征维度；

客服话术簇确定单元，针对各个业务话术集，基于语义模型从该业务话术集中确定至少一个客服话术簇；

其中，所述客服话术簇确定单元包括：

语义特征确定模块，基于语义模型确定所述业务话术集所对应的话术语义特征集；

密度聚类处理模块，基于密度聚类算法对所述话术语义特征集中的各个话术语义特征进行聚类处理，以从相对应的业务话术集中确定至少一个客服话术簇；

所述装置还包括：

主题特征确定单元，针对各个业务话术集，基于主题模型确定该业务话术集所对应的话术主题特征集；以及

第一聚类处理单元，针对各个话术主题特征集，基于第一聚类算法对该话术主题特征集中的各个话术主题特征进行聚类处理，以将相对应的业务话术集划分为具有预设定的聚类别数量的多个第一话术聚类簇；

其中，针对各个所述第一话术聚类簇，所述密度聚类处理模块基于密度聚类算法对该第一话术聚类簇所对应的话术语义特征集中的各个话术语义特征进行聚类处理，以将相对应的第一话术聚类簇划分为多个第二话术聚类簇；

根据各个所述第二话术聚类簇，所述密度聚类处理模块确定所述客服话术簇。

10.如权利要求9所述的装置，其中，所述业务话术筛选模型还配置有用于指示话术质量的以下中的任意一种或多种特征维度：话术长度特征维度、业务成果转化度特征维度、话术通顺度特征维度、话术信息量和话术使用频次。

11.如权利要求9所述的装置，还包括：

重心话术确定单元，确定所述各个第二话术聚类簇中的重心话术；

其中，所述密度聚类处理模块包括：

语义相似度确定子模块，针对各个第二话术聚类簇组，根据该第二话术聚类簇组内的第一第二话术聚类簇和第二第二话术聚类簇中的重心话术的话术语义特征来确定语义相似度；

归并处理子模块，根据所述语义相似度来确定是否将所述第一第二话术聚类簇和所述第二第二话术聚类簇进行归并处理，以确定所述客服话术簇。

12.如权利要求9所述的装置，其中，所述候选客服话术集确定单元对所述人工客服数据集中的至少一个用户标识信息进行归一化处理，以确定所述候选客服话术集。

13.如权利要求9所述的装置，还包括：

用户问题集获取单元，获取用户问题集；

问题话术簇匹配单元，在所述用户问题集中确定与各个客服话术簇分别相匹配的用户问题。

14.一种电子设备，包括：

至少一个处理器；以及

存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1到8中任一所述的方法。

15.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到8中任一所述的方法。