CN115034206A

CN115034206A - 一种客服热点事件发现方法及系统

Info

Publication number: CN115034206A
Application number: CN202210700715.2A
Authority: CN
Inventors: 李飞; 冯影; 程磊; 周源; 王颜颜
Original assignee: Kedaduochuang Cloud Technology Co ltd
Current assignee: Kedaduochuang Cloud Technology Co ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-09-09

Abstract

本发明公开了一种客服热点事件发现方法及系统，属于自然语言处理技术领域，包括以下步骤：S1：语义表征；S2：事件发现；S3：事件类别预测。本发明通过调整字词权重的方式增强语义表征，基于K‑Means算法实现热点事件发现，优化运营商客服领域热点事件发现的准确率，在运营商客服领域数据事件聚类发现的实验中，本方法明显优于其他已有的层次和密度聚类算法，准确率提升了13.83％。

Description

一种客服热点事件发现方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种客服热点事件发现方法及系统。

背景技术

近年来，运营商客服领域日均话务量大，以中国某省某运营商为例，月呼入量达420万，每日人均话务量大约130次。话务量增长迅速，平均较去年同期增长17％左右。因此，运营商客服领域迫切需要去做话务来源分析和问题盘点，降低话务量。然而，运营商客服领域话务来源分析基本通过话务员经验进行话务小结，完全依靠人工主观性运营，存在一定的误差风险。还有依靠经验固化话务来源种类，应用有监督算法，导致面对突发事件及异常波动时，人工难以及时发现并复盘原因。

现在文本聚类技术在自然语言处理领域表现的很好，精准的语义表征可以提高聚类算法的准确率，实现文本之间内在关系的发现。因此，提出一种客服热点事件发现方法及系统。

发明内容

本发明所要解决的技术问题在于：如何解决在客服热点事件发现工作中传统依赖话务人员撰写话务小结，存在来源难以分析，人工划分不精准，来话原因复盘困难等问题，提供了一种客服热点事件发现方法，本方法基于改进TF-IDF进行客服文本语义表征，通过K-Means算法实现客服热点事件发现，可以快速高效地对客服问题进行来源分析，辅助人工质检，优化运营商客服领域热点事件发现的准确率。

本发明是通过以下技术方案解决上述技术问题的，本发明包括以下步骤：

S1：语义表征

在通用词库的基础上进行客服领域新词发现，然后计算客服文本动态句向量，并对语义表征进行压缩；

S2：事件发现

基于客服文本语义表征向量，采用K-Means算法对不同客服场景话务进行聚类，生成样本类别，在计算类别的热词组合，形成类别标题，实现客服文本事件发现；

S3：事件类别预测

构造客服文本事件类型预测训练样本，训练分类模型，通过训练好的分类模型预测新文本类别，完成事件入库。

更进一步地，在所述步骤S1中，进行新词发现的具体过程如下：

S101：采用Word2vec方法训练客服语料，生成词汇表作为客服行业基础词库；

S102：客服领域文本分词后，若文本分词后的词不在基础词库中，进行词频统计；

S103：设置新词发现阈值，将超过阈值的词语记录下来作为候选业务词；

S104：候选业务词与通用词库相融合，建立运营商客服领域业务词库。

更进一步地，在所述步骤S1中，客服文本动态句向量计算过程具体如下：

S201：对于客服文本序列s，采用运营商客服领域业务词库将序列s中与客服业务无关的词汇去除，只保留运营商客服领域业务词，因此序列更新为s′＝{c₁,…,c_i,…,c_N}，其中c_i表示序列s′中的第i个词汇，N表示序列s′的文本长度；

S202：基于Word2vec方法获得序列s′中每一个词汇的初始向量，e_s′＝{e₁,…,e_i,…,e_N}；

S203：在传统TF-IDF算法的基础上新增词长权重，权重信息具体计算公式为：

其中，

为序列s′中第i个词汇的权重信息，len(c_i)为c_i的长度，m为词汇c_i在该文本中出现的频数，T为该文本中的总词汇数，H为总文本数，h为含有词汇c_i的文本数；

S204：应用序列s′每一个词汇的向量e_s′＝{e₁,…,e_i,…,e_N}与其对应词汇权重信息相结合的方式，动态计算句向量，生成文本的句向量空间，完成客服文本向量化，具体计算公式为：

其次，V_s为文本的句向量表示，

为词汇c_i的权重信息，e_i为词汇c_i的词向量。

更进一步地，在所述步骤S1中，进行语义表征进行压缩的具体过程如下：

S201：将步骤S204中生成的句向量进行归一化；

S202：采用PCA降维的方式将原始句向量的维度降低到指定维度，具体计算公式为：

其中，V_s′为语义表征压缩后的句向量，X_i为原始句向量中中第i维的数值，X_max、X_min分别为原始句向量中最大值和最小值，F是PCA(主成分分析)降维函数，d是指定维度。

更进一步地，所述步骤S2的具体过程如下：

S21：随机选取K个点作为初始聚类中心；

S22：根据欧式距离的公式进行计算，将靠近初始聚类中心的数据，划分到同一个簇中，以此迭代；

S23：依据各簇数据点的均值更新其聚类中心，直至聚类中心不再改变，由此将客服文本划分为K个样本类别，再分别根据每一类中词汇词频的高低提取K个类别的热词组合，即关键词文本，形成类别标题，实现客服文本事件发现。

更进一步地，所述步骤S3包括以下步骤：

S31：通过步骤S23中的K个样本类别、K个类别的热词组合，构造客服文本事件类型预测训练样本，其中客服文本作为训练数据，通过客服文本语义表征和客服热点事件发现获得客服文本数据的K个样本类别作为训练标签；

S32：采用有监督Fasttext算法训练客服文本事件样本，获得基于Fasttext算法对文本事件分类模型model_f，对于新的客服文本序列x通过训练好的模型model_f获得序列x属于K个类型的概率y₁,…,y_i,…,y_k；

S33：通过最大值函数获得序列x的属于可能类别的概率：

设置预测置信度P，预测新文本事件类别，若序列x属于可能类别的概率

达到预测置信度，则归到K个类别中的概率最大的相似类别中，否则将不对该条文本做分类处理，直到不做分类处理的文本数量满足指定数额Q，则所有数据重新聚类，以此整合后续事件，完成事件入库。

本发明还提供了一种客服热点事件发现系统，利用上述的方法实现客服热点事件发现及对新文本进行预测，包括：

语义表征模块，用于在通用词库的基础上进行客服领域新词发现，然后计算客服文本动态句向量，并对语义表征进行压缩；

事件发现模块，用于基于客服文本语义表征向量，采用K-Means算法对不同客服场景话务进行聚类，生成样本类别，在计算类别的热词组合，形成类别标题，实现客服文本事件发现；

事件类别预测模块，用于构造客服文本事件类型预测训练样本，训练分类模型，通过训练好的分类模型预测新文本类别，完成事件入库；

控制处理模块，用于向其他模块发出指令，完成相关动作；

所述语义表征模块、事件发现模块、事件类别预测模块均与控制处理模块电连接。

本发明相比现有技术具有以下优点：该客服热点事件发现方法，首先客服文本语义表征采用客服领域新词发现构建运营商客服领域业务词库，基于改进TF-IDF的算法计算动态客服文本句向量，通过语义表征压缩获得客服文本语义表征，可以实现将词汇语义进行多维度汇聚，捕捉丰富语义信息；然后客服热点事件发现是基于客服文本语义表征向量，采用K-Means算法对不同客服场景问题进行聚类，将客服文本划分为K个样本类别，再分别提取K个类别的热词组合，可以实现客服文本热点事件发现；最后客服新文本事件类别预测是依据上述事件的K个样本类别、K个类别的热词组合，构造客服文本事件类型预测训练样本，然后基于有监督Fasttext算法训练分类模型，预测新文本事件类别，可以实现新文本的事件发现整合。

附图说明

图1是本发明实施例一中客服热点事件发现方法的架构示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例一

本实施例提供一种技术方案：一种客服热点事件发现方法，本发明对运营商客服领域话务来源分析的基本诉求，将每一段文本分为两类属性包括聚类标签、事件关键词，如表1所示。其中聚类标签为K-Means算法聚类簇类别，事件关键词为每个类别标签数据热词抽取，可以从中解读具体事件，理解用户来话诉求，实现客服文本事件发现，辅助人工质检。

表1一个运营商客服领域事件发现示例

本实施例中的客服热点事件发现方法具体包括以下步骤：

(1)基于改进TF-IDF的客服文本语义表征

目前运营商客服领域文本表示大多基于词频，忽略了词语本身长度和上下文词序，无法获得精准的客服文本语义表征。为了能够获取丰富的语义信息，本发明提出了基于改进TF-IDF的客服文本语义表征研究，具体如下：

①客服领域新词发现

首先本发明进行客服文本预处理，这主要是考虑到客服文本口语化严重，存在大量无实际意义的词语，本发明使用分词并去停用词的方法进行文本预处理，过滤对事件发现没有价值的文本内容。然后由于目前通用词库不具备一些运营商客服产品和服务的相关术语，因此需要在通用词库的基础上进行客服领域新词发现，具体步骤如下：

第一步：采用Word2vec方法训练客服语料，生成词汇表作为客服行业基础词库；

第二步：客服领域文本分词后，若文本分词后的词不在基础词库中，进行词频统计；

第三步：设置新词发现阈值R，将超过阈值的词语记录下来作为候选业务词；

第四步：候选业务词与通用词库相融合，建立运营商客服领域业务词库。

②客服文本动态句向量计算

为了能够在客服文本表征时考虑到每一个词汇的重要性以及上下文词汇对当前词语的影响，本发明提出了客服文本动态句向量计算。针对客服文本序列s，首先本发明采用运营商客服领域业务词库将序列s中与客服业务无关的词汇去除，只保留运营商客服领域业务词，因此序列更新为s′＝{c₁,…,c_i,…,c_N}，其中c_i表示序列s′中的第i个词汇，N表示新序列的文本长度。然后本发明基于Word2vec方法获得序列s′中每一个词汇的初始向量，e_s′＝{e₁,…,e_i,…,e_N}，Word2vec方法是用一个浅层的神经网络(CBOW)把字词映射成一个固定维度的向量，可以包含词汇的上下文语义信息。

为了能够体现不同词汇的重要性，考虑到字词长度的不同，表达的信息也不相同，因此在词向量计算中，本发明在传统TF-IDF算法的基础上新增词长权重，提高语义表征的准确性。权重信息具体计算公式为：

其中，

为序列s′中第i个词汇的权重信息，len(c_i)为c_i的长度，m为词汇c_i在该文本中出现的频数，T为该文本中的总词汇数，H为总文本数，h为含有词汇c_i的文本数。

应用序列s′每一个词汇的向量e_s′＝{e₁,…,e_i,…,e_N}与其对应词汇权重信息相结合的方式，动态计算句向量，生成文本的句向量空间，完成客服文本向量化，具体计算公式为：

其次，V_s为文本的句向量表示，

为词汇c_i的权重信息，e_i为词汇c_i的词向量。

③语义表征压缩

为了减少句向量中方差大的特征影响，使不同量纲的特征处于同一数值量级，将上述生成的句向量进行归一化，可以加快算法的收敛速度。然后，考虑到客服类电话文本每日增长快，存在维度灾难的问题，本发明采用PCA(主成分分析)降维的方法，将原始句向量的维度降低到指定维度，在压缩客服领域文本数据的同时，保证客服文本信息损失最小化，具体计算公式为：

(2)基于K-Means聚类的客服热点事件发现

由于客服话务来源目前主要依赖话务人员的话务小结，存在多种场景问题聚类难，划分不精准的问题，从而难以发现聚集性热点事件。因此本发明提出基于K-Means聚类的客服热点事件发现，基于客服文本语义表征向量，采用K-Means算法对不同客服场景话务进行聚类。

首先随机选取K个点作为初始聚类中心，根据欧式距离的公式进行计算，将靠近初始聚类中心的数据，划分到同一个簇中，以此迭代，最后依据各簇数据点的均值更新其聚类中心，直至聚类中心不再改变；由此将客服文本划分为K个样本类别，再分别根据每一类中词汇词频的高低提取K个类别的热词组合，即关键词文本，形成类别标题，实现客服文本事件发现；

(3)客服新文本事件类别预测

通过依据上述事件的K个样本类别、K个类别的热词组合，构造客服文本事件类型预测训练样本，其中客服文本作为训练数据，通过客服文本语义表征和客服热点事件发现获得客服文本数据的K个样本类别作为训练标签。

然后引入有监督Fasttext分类算法，该算法将输入的客服文本训练数据组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到训练标签，用浅层网络取得了和深度网络相媲美的精度，并且分类速度非常快。采用该算法训练客服文本事件样本，获得基于Fasttext算法对文本事件分类模型model_f，对于新的客服文本序列x，本发明通过训练好的模型model_f获得序列x属于K个类型的概率y₁,…,y_i,…,y_k，再通过最大值函数获得序列x的属于可能类别的概率：

考虑到可能新的客服文本序列是一个新出现的类型，不属于已有的K个类中，因此本发明设置预测置信度P，预测新文本事件类别。若序列x属于可能类别的概率

达到预测置信度，则归到K个类别中的概率最大的相似类别中，否则将不对该条文本做分类处理，直到不做分类处理的文本数量满足指定数额Q，则所有数据重新聚类，以此整合后续事件，完成事件入库，并实时监控热点事件变化趋势，辅助人工质检，本发明架构如图1所示。

为了评估模型的有效性，本发明根据聚类结果与真实标签分布的吻合程度，采用准确率、互信息分和调整兰德系数指标进行评估。

准确率计算公式如下：

其中，Acc为聚类评估指标准确率，假设聚类目标只有两类，计为正例P和负例N，TP为被正确地划分为正例的个数，TN是被正确地划分为负例的个数。

互信息分具体计算公式如下：

其中，MI(X,Y)为聚类评估指标互信息分，取值在[0,1]之间，越接近1表示聚类效果越好，X、Y为聚类与真实结果的标签去重后类别情况，i、j分别为X、Y集合中的取值，P(i,j)为i与j的联合概率分布，P(i)、P(j)分别为i、j的概率分布函数。

兰德系数具体计算公式如下：

RI＝a+b+c+d

其中，RI为兰德系数，假设U、V分别为真实标签和聚类结果，a为在U中为同一类且在V中也为同一类别的数据点对数，b为在U中为同一类但在V中却属于不同类别的数据点对数，c为在U中不在同一类但在V中为同一类别的数据点对数，d为在U中不在同一类且在V中也不属于同一类别的数据点对数。

为了避免随机产生聚类结果时，兰德系数可能接近零的情况，本发明采用调整兰德系数，具体计算公式为：

其中，ARI为调整兰德系数，取值范围在[-1,1]之间，值越大意味着聚类结果与真实情况越吻合，E[RI]表示兰德系数的期望，max(RI)表示兰德系数的最大值。

实施例二

本实施例采用的数据是运营商客服领域人工标记“宽带”事件数据，共计279条，分别为“宽带报障”148条，“宽带查询”131条。本发明为了探究不同的词向量预训练模型的效果，选取BERT、ERNIE和Word2vec进行实验对比，实验结果如下表2所示：

表2词向量模型实验效果对比

	宽带报障/条	宽带查询/条	准确率
				BERT	109	67	0.6308
ERNIE	89	98	0.6703
				Word2vec	102	104	0.7384

上述实验结果表明，BERT、ERNIR对于语料较少的长文本表征不理想，相同句式的词语语义区分不明显，而本发明选择的Word2vec对小语料表现效果较好，准确率高，能够获取相似词向量。对上述Word2vec增强的文本语义表征分别采用层次聚类、密度聚类和K-Means聚类三种算法进行模型训练进行比较分析，结果如表3所示：

表3模型实验效果对比

由上表可以看出，目前已有的一些方法效果很差，本发明提出的基于改进TF-IDF算法的客服热点事件发现方法整体上效果最佳，具体表现在：

(1)传统的密度聚类算法的评估指标均为0，这是由于密度聚类假设聚类结构可通过样本在空间分布的紧密程度来确定，算法本身难以分析高维数据，因此将所有标记数据计入离散点；K-Means聚类算法的评价指标准确率为0.6487，互信息分为0.0660，调整兰德系数为0.0852，效果明显优于密度和层次聚类。

(2)增加改进的语义表征后，三种聚类算法的评价指标均有一定程度的提高，其中K-Means聚类效果十分显著，互信息分为0.1614，调整兰德系数为0.2110。由此说明了本发明提出的基于改进TF-IDF算法的客服热点事件发现方法效果很好，准确率提升了13.83％，它可以捕捉更丰富的语义信息。

综上所述，上述实施例的客服热点事件发现方法，针对运营商客服领域日均话务量大，话务来源分析困难，导致来话原因盘点复杂的问题，提出了一种基于改进TF-IDF算法的客服热点事件发现方法；具体的，首先客服文本语义表征采用客服领域新词发现构建运营商客服领域业务词库，基于改进TF-IDF的算法计算动态客服文本句向量，通过语义表征压缩获得客服文本语义表征，可以实现将词汇语义进行多维度汇聚，捕捉丰富语义信息；然后客服热点事件发现是基于客服文本语义表征向量，采用K-Means算法对不同客服场景问题进行聚类，将客服文本划分为K个样本类别，再分别提取K个类别的热词组合，可以实现客服文本热点事件发现；最后客服新文本事件类别预测是依据上述事件的K个样本类别、K个类别的热词组合，构造客服文本事件类型预测训练样本，然后基于有监督Fasttext算法训练分类模型，预测新文本事件类别，可以实现新文本的事件发现整合，优点在于通过调整字词权重的方式增强语义表征，基于K-Means算法实现热点事件发现，优化运营商客服领域热点事件发现的准确率，在运营商客服领域数据事件聚类发现的实验中，本方法明显优于其他已有的层次和密度聚类算法，准确率提升了13.83％。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。