CN114722191A

CN114722191A - 一种基于语义理解处理的通话自动聚类方法及系统

Info

Publication number: CN114722191A
Application number: CN202210195462.8A
Authority: CN
Inventors: 丁常坤; 夏兵; 程磊; 周源; 冯影
Original assignee: Kedaduochuang Cloud Technology Co ltd
Current assignee: Kedaduochuang Cloud Technology Co ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-07-08

Abstract

本发明公开了一种基于语义理解处理的通话自动聚类方法及系统，属于自然语言处理技术领域，包括以下步骤：S1：获取通话文本；S2：建立行业业务词库；S3：建立停用词库；S4：文本向量化；S5：文本聚类；S6：模型调优；S7：推送服务方案。本发明提供了一种能够自定义管理的词库，维护行业词库的权重占比，使聚类算法与业务相结合，提升电话聚类的准确性；通过可视化界面的管理方式进行电话聚类流程的运营操作，提升电话聚类运营管理的便捷性；适用于客服类电话文本自动聚类，有效提升客服运营管理效率，降低人工成本。

Description

一种基于语义理解处理的通话自动聚类方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于语义理解处理的通话自动聚类方法及系统。

背景技术

现有的话务来源分析技术存在一定的不足，比如：电话(通话)人工分类难：电话(通话)问题分类依赖话务员经验，分类不准确，缺少数字化手段；数据记录难：通过人工运营聚类的方式，记录的数据存在少记、漏记不完备的情况，数据没有统一规范，后期难以利用；运营成本高：话务量大，电话(通话)文本较多，人工分类工作量大，运营成本高。

综上所述，现有的话务来源分析通过人工查看通话录音进行分析，存在话务来源难分析、问题原因难复盘、人工重复劳动、效率低等问题。为此，提出一种基于语义理解处理的通话自动聚类方法及系统。

发明内容

本发明所要解决的技术问题在于：如何解决现有的话务来源分析技术中存在的话务来源难分析、问题原因难复盘、人工重复劳动、效率低等问题，提供了一种基于语义理解处理的通话自动聚类方法；该方法支持灵活的模型调优、校准，可极大提升电话聚类的准确性，降低企业人工运营成本。

本发明是通过以下技术方案解决上述技术问题的，本发明包括以下步骤：

S1：获取通话文本

根据实际业务需求，对接文本转换平台，获取原始通话文本内容；

S2：建立行业业务词库

建立客服行业业务词库，定义行业业务词和对应的权重信息；

S3：建立停用词库

进行文本预处理，过滤对聚类没有价值的文本内容；

S4：文本向量化

结合建立的客服行业业务词库，使用分词算法统计分词权重，将文本中每个词语映射到一个固定大小的向量；

S5：文本聚类

采用K-Means算法对文本向量计算，生成样本的类别；

S6：模型调优

人工质检打标聚类的标签，并标记聚类不准确的文本，进行模型调优、训练；

S7：推送服务方案

生成聚类用户群体特征，根据群体特征，预测发现通话聚类潜在影响用户，推送服务方案。

更进一步地，在所述步骤S2中，定义行业业务词和对应的权重信息的具体计算公式为：

更进一步地，在所述步骤S3中，文本预处理的具体过程为：先建立客服行业停用词库管理模块，支持对停用词库进行系统界面的增、删、改、查操作，将出现频率较高但无实际价值的标点符号、语气助词、虚词等加入到停用词库中，在文本分词时，自动过滤掉这些停用词，实现文本预处理，从而有效减少数据噪声，提高模型聚类效果。

更进一步地，在所述步骤S4中，文本向量化时通过一个浅层的神经网络(即CBOW)把字词转化为机器能够读懂的向量，即每个词语映射成一个固定维度的向量(默认维度为100维)，再结合维护好的行业业务词和对应的权重信息将词向量生成句向量。

更进一步地，所述步骤S5的子步骤如下：

S51：向量归一化，为减少方差大的特征影响，使不同量纲的特征处于同一数值量级，将上述生成的句向量进行归一化，可以加快算法的收敛速度，具体计算公式为

X_new为归一化后的句向量，取值范围为[0,1]，X_i为原始句向量第i维的数值，X_max、X_min分别为原始句向量中最大值和最小值；

S52：PCA(主成分分析)降维，客服类电话文本每日增长快，为缓解维度灾难，采用PCA降维，将向量维度降低到指定的维度，在压缩数据的同时，最小化信息损失；

S53：K-Means聚类：首先随机选取K个点作为初始聚类中心，然后根据欧式距离计算公式，将距离聚类中心最近的数据对象，划分为一个簇，以此迭代，最后根据各类数据点平均值更新各簇的聚类中心，直至聚类中心不再变化；

S54：分别提取K个类别的关键词文本，自动生成类别标题，实现事件发现，并实时监控热点事件变化趋势，辅助人工质检。

更进一步地，所述步骤S7的子步骤如下：

S71：生成聚类用户群体特征，形成当前聚类标签用户的文本特征；

S72：结合当前用户的其它大数据标签，形成行业用户特征标签，建立预测模型；

S73：人工标记预测模型预测结果，进行模型调参、训练；

S74：根据预测模型进行潜在用户的预测，提供潜在用户的主动服务方案。

更进一步地，在所述步骤S72中，其它大数据标签包括来电次数、来电时间、用户年龄层。

本发明还提供了一种基于语义理解处理的通话自动聚类系统，采用上述的通话自动聚类方法对通话进行聚类，包括：

通话文本获取模块，用于根据实际业务需求，对接文本转换平台，获取原始通话文本内容；

业务词库建立模块，用于建立客服行业业务词库，定义行业业务词和对应的权重信息；

停用词库建立模块，用于进行文本预处理，过滤对聚类没有价值的文本内容；

文本向量化模块，用于结合建立的客服行业业务词库，使用分词算法统计分词权重，将文本中每个词语映射到一个固定大小的向量；

文本聚类模块，用于采用K-Means算法对文本向量计算，生成样本的类别；

模型调优模块，用于人工质检打标聚类的标签，并标记聚类不准确的文本，进行模型调优、训练；

服务方案推送模块，用于生成聚类用户群体特征，根据群体特征，预测发现通话聚类潜在影响用户，推送服务方案；

中央处理模块，用于向其他模块发出指令，完成相关动作；

所述通话文本获取模块、业务词库建立模块、停用词库建立模块、文本向量化模块、文本聚类模块、模型调优模块、服务方案推送模块均与中央处理模块电连接。

本发明相比现有技术具有以下优点：该基于语义理解处理的通话自动聚类方法及系统，能够对客户来话文本进行自动分析，并自动根据文本空间维度距离进行通话聚类而无需人工参与，从而衍生出问题事件，进行无监督数据发现。通过人工质检核验，优化事件发现的准确率，以及自动生成聚类群体特征，预测潜在影响用户，推送相关服务方案，值得被推广使用。

附图说明

图1是本发明实施例二中通话文本自动聚类的流程示意图；

图2是本发明实施例二中推送服务方案的流程示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例一

本实施例提供一种技术方案：一种基于语义理解处理的通话自动聚类方法，包括以下步骤：

S1：获取通话文本

S2：建立行业业务词库

S3：建立停用词库

进行文本预处理，过滤对聚类没有价值的文本内容；

S4：文本向量化

S5：文本聚类

采用K-Means算法对文本向量计算，生成样本的类别；

S6：模型调优

S7：推送服务方案

在本实施例中，在所述步骤S2中，定义行业业务词和对应的权重信息的具体过程如下：

通用词库与业务词挖掘相结合的自适应权重表示技术，由于通用词库不具备一些运营商客服产品和服务的相关术语，需要在通用词库的基础上进行自动业务词挖掘，若文本分词后的词不在词库中，则统计该词出现的次数，设置新词次数阈值，将超过阈值的词语记录下来作为候选业务词，建立客服行业业务词库；维护好的词库中字词权重与它在某段文本中出现频数成正比，与它在总文本中出现的频率成反比；一段文本中某个高词语频率，以及该词语在整个预料库中的低文本频率，可以生成一个较高的权重信息；权重信息具体计算公式为：

在本实施例中，在所述步骤S3中，文本预处理的具体过程为：首先建立客服行业停用词库管理模块，支持对停用词库进行系统界面的增、删、改、查操作，将出现频率较高但无实际价值的标点符号、语气助词、虚词等加入到停用词库中，在文本分词时，自动过滤掉这些停用词，实现文本预处理，从而有效减少数据噪声，提高模型聚类效果。

在本实施例中，在所述步骤S3中，没有价值的文本内容包括标点符号、停用词、语气助词、虚词。

在本实施例中，在所述步骤S4中，文本向量化时用一个浅层的神经网络(即CBOW)把字词转化为机器能够读懂的向量，即每个词语映射成一个固定维度的向量(默认维度为100维)，再结合维护好的行业业务词和对应的权重信息将词向量生成句向量。

在本实施例中，所述步骤S5的子步骤如下：

S53：K-Means聚类，典型的基于划分的聚类算法，其基本思想为：首先随机选取K个点作为初始聚类中心，然后根据欧式距离计算公式，将距离聚类中心最近的数据对象，划分为一个簇，以此迭代，最后根据各类数据点平均值更新各簇的聚类中心，直至聚类中心不再变化；

在本实施例中，所述步骤S7的子步骤如下：

S73：人工标记预测模型预测结果，进行模型调参、训练；

在本实施例中，在所述步骤S72中，其它大数据标签包括来电次数、来电时间、用户年龄层。

本实施例中还提供了一种基于语义理解处理的通话自动聚类系统，采用上述的通话自动聚类方法对通话进行聚类，包括：

中央处理模块，用于向其他模块发出指令，完成相关动作；

实施例二

本发明的实施方式、原理和主要流程如下：

如图1所示，为通话文本自动聚类的流程示意图，具体包括以下步骤：

S11：通过智能文本转写平台获取历史客服与用户通话文本；

S12：建立行业业务词库，统计某一类客服行业的专业词典，防止分词效果不佳，以及建立行业业务词库权重占比，用于提升聚类的准确性；

S13：建立停用词库，停用词主要包括一些副词、形容词及其它一些连接词。通过维护一个停用词表，实际上是一个特征提取的过程，本质上是特征选择的一部分；

S14：文本预处理(解决特征空间高维性、语义相关性和特征分布稀疏问题)，使用中文分词技术，过滤标点符号、停用词等一些没用价值的内容；

S15：文本向量化，通过word2vec训练，用一个浅层的神经网络(即CBOW)把字词转化为机器能够读懂的向量，即每个词语映射成一个固定维度的向量(默认维度为100维)，再结合维护好的行业业务词和对应的权重信息将词向量生成句向量，句子的语义和语法相似性，通过向量之间的空间距离来判断；

S16：文本聚类，先进行向量归一化和PCA(主成分分析)降维，然后采用K-Means算法对文本进行聚类，分别提取类别关键词，自动生成类别标题，实现事件发现，并实时监控热点事件变化趋势，辅助人工质检；

S17：人工质检打标聚类的标签，并标记聚类不准确的文本，进行模型调优、训练，形成最优聚类模型。

如图2所示，为推送服务方案的流程示意图，具体包括以下步骤：

S21：生成聚类用户群体特征，形成当前聚类标签用户的文本特征，例如欠费、交费等；

S22：结合当前用户的其它大数据标签，例如来电次数、来电时间、用户年龄层，形成行业用户特征标签，建立预测模型；

S23：人工标记预测模型预测结果，进行模型调参、训练，得到最优模型；

S24：服务方案推送，根据预测模型进行潜在用户的预测，提供潜在用户的主动服务方案；坐席与用户通话过程中，可以实时获取对话文本，实时预测用户的意图，并实时推送相关服务方案，辅助坐席快速解决用户问题。

实施例三

以下述实际场景为例，按照本发明的技术方案，一步步分析举证并应用。

S1：获取通话文本

以如下五个客服行业文本为例，验证本发明的技术方案流程。

表1五个客服行业文本

S2：建立行业业务词库

使用Jieba的通用词库，共34万条，与基于词频的业务词挖掘相结合，获得如下新词，形式为(新词，词频)，将新词加入到业务词库中：

表2新词

S3：建立停用词库

增加“客户”、“坐席”等停用词，进行文本预处理，分词结果如下：

表3分词结果

S4：文本向量化

使用word2vec将词语映射成一个100维度的向量，再结合维护好的行业业务词和对应的权重信息将词向量生成句向量。此处以“积分”一词为例，其在第二个文本中权重信息计算如下：

同时，word2vec将“积分”映射成[-5.2448793e-04,2.4679961e-04,…,9.0400880e-04,6.3850950e-03],一个100维度的向量，把上述“积分”的权重信息与词向量相乘，得到[-1.0122618e-05,4.7632325e-06,…,1.7447370e-05,1.2323234e-04]。采用如上方式，可获取这个文本中其他词语的权重及向量，通过加权求和将词向量生成句向量，即将示例数据转化成一个(5，100)维的数组。

S5：文本聚类

S51：将上述(5，100)维的数组进行归一化；

S52：PCA(主成分分析)降维，指定低维度10，即将(5，100)的数组降维至(5，10)维；

S53：K-Means聚类，指定初始K参数为2，即将示例文本聚成2类；

S54：分别提取上述2个类别的关键词文本，自动生成类别标题，实现事件发现，如本发明将示例文本涉及“流量”和“积分”的数据分别归类，则可从类关键词中大致解读具体事件，从而辅助人工质检。

表4步骤S54生成的结果

S6：模型调优

S7：推送服务方案

综上所述，上述实施例的基于语义理解处理的通话自动聚类方法及系统，能够通过业务词库维护客服相关业务词权重占比，提升文本聚类的准确性，建立通话自动聚类模型，电话自动聚类完成客服通话类业务的自动聚类，并形成通话聚类趋势图，辅助运营人员分析话务来源、突发事件等，以及可以应用话前潜在用户问题预判、话中实时对话时的意图识别，值得被推广使用。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于语义理解处理的通话自动聚类方法，其特征在于，包括以下步骤：

S1：获取通话文本

S2：建立行业业务词库

S3：建立停用词库

进行文本预处理，过滤对聚类无价值的文本内容；

S4：文本向量化

S5：文本聚类

采用K-Means算法对文本向量计算，生成样本的类别；

S6：模型调优

S7：推送服务方案

2.根据权利要求1所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：在所述步骤S2中，定义行业业务词和对应的权重信息的计算公式为：

3.根据权利要求2所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：在所述步骤S3中，文本预处理的具体过程为：建立客服行业停用词库管理模块，支持对停用词库进行系统界面的增、删、改、查操作，将标点符号、语气助词、虚词加入到停用词库中，在文本分词时，过滤掉停用词，实现文本预处理。

4.根据权利要求3所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：在所述步骤S4中，文本向量化时通过一个浅层的神经网络把字词转化为机器可识别的向量，即每个词语映射成一个固定维度的向量，再结合行业业务词和对应的权重信息将词向量生成句向量。

5.根据权利要求4所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：所述步骤S5的子步骤如下：

S51：向量归一化

将上述生成的句向量进行归一化，具体计算公式为

S52：PCA降维

将向量维度降低到指定的维度；

S53：K-Means聚类

首先随机选取K个点作为初始聚类中心，然后根据欧式距离计算公式，将距离聚类中心最近的数据对象，划分为一个簇，以此迭代，最后根据各类数据点平均值更新各簇的聚类中心，直至聚类中心不再变化；

S54：分别提取K个类别的关键词文本，生成类别标题，实现事件发现，并实时监控热点事件变化趋势，辅助人工质检。

6.根据权利要求5所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：所述步骤S7的子步骤如下：

S73：人工标记预测模型预测结果，进行模型调参、训练；

7.根据权利要求6所述的一种基于语义理解处理的通话自动聚类方法，其特征在于：在所述步骤S72中，其它大数据标签包括来电次数、来电时间、用户年龄层。

8.一种基于语义理解处理的通话自动聚类系统，其特征在于，采用如权利要求1～7任一项所述的通话自动聚类方法对通话进行聚类，包括：

中央处理模块，用于向其他模块发出指令，完成相关动作；