CN110390105B

CN110390105B - 一种无监督的突发话务事件监控及预警的方法

Info

Publication number: CN110390105B
Application number: CN201910675321.4A
Authority: CN
Inventors: 杨钊; 姜磊; 赖招展; 辛岩; 张萌; 陈南山; 娄云飞; 朱振航; 何慧; 沈广盈; 屈吕杰
Original assignee: Brilliant Data Analytics Inc
Current assignee: Brilliant Data Analytics Inc
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2023-02-28
Anticipated expiration: 2039-07-25
Also published as: CN110390105A

Abstract

本发明公开了无监督的突发话务事件监控及预警的方法，包括步骤：对突发事件语料进行预处理；构建文本‑词特征矩阵，采用词监控的方法，先用词向量模型提取每个目标词的相似词，再分别判断每一通通话是否命中了所述目标词以及其相似词；计算每个目标词的特征指标及其统计指标，提取统计指标波动比较大的目标词作为突发词；提取每个突发词的特征指标波动最异常的一个或多个时间段作为突发事件发生的时间段；完善事件信息，丰富事件的关键词，计算事件的话务量、指标信息；进行事件过滤，输出突发话务事件信息。本发明解决了如何在无标注突发话务事件语料的基础上，通过解析通话转写文本数据潜在的语义信息，监控突发话务事件。

Description

一种无监督的突发话务事件监控及预警的方法

技术领域

本发明属于突发事件检测领域，具体涉及一种无监督的突发话务事件监控及预警的方法。

背景技术

客服中心作为客户与服务商之间的桥梁起着非常重要的作用。客服中心常常需要提前安排好合适的坐席数量，以满足话务需求，防止出现坐席数量过多造成人力资源浪费或者坐席数量不足造成不能及时响应客户的情况。

坐席的安排是根据经验值或历史话务情况对话务量进行预判，进而根据预判结果安排坐席数量，但是由于各种突发的情况，安排的坐席数量不一定都能满足实际的需求，造成客户的电话不能及时接入，影响客户的体验。因此，挖掘客服领域数据间潜在的语义信息，主动对客服领域的突发话务事件进行监控及预警，更好地服务客户迫在眉睫。

目前主流突发事件检测方法主要基于互联网信息监测突发事件，比如微博、舆情突发事件监测等，很少基于通话内容监测突发事件。本发明方法主要研究如何在没有标注通话内容的情况下，利用自然语言处理等技术，挖掘通话转写文本数据的语义信息，主动预测通话内容中的突发话务事件。

发明内容

为了解决现有技术所存在的问题，本发明提供一种无监督的突发话务事件监控及预警的方法，基于构建文本-词特征矩阵对客服领域中的突发话务事件进行预测，解决了如何在无标注突发话务事件语料的基础上，通过解析通话转写文本数据潜在的语义信息，帮助客服决策人员更好的进行突发话务事件监控，提高服务质量的问题。

根据本发明的无监督的突发话务事件监控及预警的方法，包括以下步骤：

步骤一、对突发事件语料进行预处理；

步骤二、构建文本-词特征矩阵，采用词监控的方法，先用词向量模型提取每个目标词的相似词，再分别判断每一通通话是否命中了所述目标词以及其相似词；

步骤三、在文本-词特征矩阵的基础上，计算每个目标词的特征指标；

步骤四、计算每个目标词的特征指标的统计指标，提取统计指标波动比较大的目标词作为突发词；提取每个突发词的特征指标波动最异常的一个或多个时间段作为突发事件发生的时间段；

步骤五、完善事件信息，在文本-词特征矩阵的基础上丰富事件的关键词，同时计算事件的话务量、指标信息；

步骤六、进行事件过滤，并输出突发话务事件信息。

在优选的实施例中，步骤二构建文本-词特征矩阵时，制作搜索词典，搜索词典里的词为目标词；用词向量模型提取与搜索词典中每一个目标词相似性大于或等于预设阈值的相似词；分别判断每一通通话是否命中了所述目标词以及其相似词，命中则为1，没有命中则为0，根据命中结果构建文本-词特征矩阵。

在优选的实施例中，步骤四对于每个突发词，提取其特征指标波动最异常的一个或多个时间段的过程，包括如下步骤：

1)提取突发词在当月的特征指标的最大值Max；

2)用所提取的突发词每一分钟的特征指标值N与Max*0.15的计算值进行比较，N>Max*0.15的时间段为突发事件发生的时间段；

3)把每个突发事件对应时间段的最小值作为事件开始时间，最大值作为事件结束时间，把时间段间隔小于K个小时的两个或多个事件合并为一个事件，并把事件开始和结束日期不在同一天的事件拆分成2个事件，使每个突发词获得一个或多个突发时间段；

4)如果突发词对应的突发时间段的数量>＝5，则用这个突发词每一分钟的特征指标值N与Max*0.20的计算值进行比较，N>Max*0.20的时间段为突发事件发生的时间段；

5)把每个突发事件对应时间段的最小值作为事件开始时间，最大值作为事件结束时间，把时间段间隔小于K个小时的两个或多个事件合并为一个事件，并把事件开始和结束日期不在同一天的事件拆分成2个事件，使每个突发词获得一个或多个突发时间段；

6)如果突发词对应的突发时间段的数量>＝5，则计算这个突发词每个突发时间段的特征指标的最大值Max₁、Max₂、Max₃…Max_[N]，如果Max_[N]大于等于Max*0.9则保留这个时间段的突发事件，否则剔除这个时间段的突发事件。

在优选的实施例中，步骤五在文本-词特征矩阵的基础上，提取与突发词的词矩阵特征相似的词，把突发词以及其相似词向量表示，对每一个事件的所有关键词的向量进行求均值，然后根据余弦相似度循环计算同一天某个事件和其他事件的相似性，并将相似性达到设定阈值的两个或多个事件合并成一个事件；计算每个事件发生时间段的人工接通量、接通率及事件话务量。

所述提取与突发词的词矩阵特征相似的词和计算事件话务量的步骤如下：

1)在文本-词特征矩阵的基础上，根据杰卡德相似系数，提取和突发词的词矩阵特征相似度大于等于0的相似词，输出为第一相似词词组，把第一相似词词组都作为事件的关键词；

2)在文本-词特征矩阵的基础上，根据杰卡德相似系数，提取和突发词的词矩阵特征相似度大于等于0.5的相似词，输出为第二相似词词组，第二相似词词组中词的数量为N，循环判断该突发事件内的每一通通话，如果该通话里面出现了第二相似词词组里的N/2个词，则把该通话计算到事件的话务量里面。

步骤一所述预处理包括对通话转写文本数据进行切词，利用词嵌入方法训练词向量模型，将通话转写文本数据的语义信息表示为稠密低维实值向量。

由于采用了上述技术方案，本发明给出了一种基于通话内容的突发话务事件监控及预警的方法，能够针对通话转写文本数据，进行无标注语料的突发事件预测，相较于传统的基于互联网的突发事件检测算法，本发明更加适用于实际的客服工作场景，能够有效的预测突发话务事件的产生；而且相较于其它算法，本发明算法在计算量、预测准确度等各个方面均具有相当的优势，十分适于在客服领域推广使用。

附图说明

图1是本发明方法的基本流程图；

图2是摘自录音转写文本语料的例句样例图；

图3是例句的分词结果图；

图4是搜索词典里面的词的相似词样例图；

图5是文本-词特征矩阵样例图；

图6是滑动平均后的特征指标结果样例图；

图7是词统计信息表样例图；

图8是突发话务量和关键词结果样例图；

图9是突发事件信息表样例图。

具体实施方式

下面结合说明书附图和实施例对本发明做详细说明，但本发明的实施方式并不限于此。

实施例

目前客服领域对于突发话务事件无法做到事前预判、突发事件发生后也无法快速分流或调度资源保障，主动对客服领域的突发话务事件进行预警的目的在于及时发现突发事件，更好地进行事件监控，提高服务质量。

本发明基于通话内容，提出一种基于构建文本-词特征矩阵实现预测突发话务事件的方法。由于没有标注语料，所以本发明实施过程主要包括预处理、构建文本-词特征矩阵、计算目标词的特征指标、寻找突发词、完善事件信息、事件过滤及输出结果六个阶段，如图1所示。

在预处理阶段，对文本数据进行分词、去停用词、训练词向量模型等预处理。在构建文本-词特征矩阵阶段，采用词监控的方法，先用词向量模型提取每一个目标词的相似词，然后再分别判断每一通通话是否命中了这些目标词以及其相似词。在计算目标词的特征指标阶段，在文本-词特征矩阵的基础上计算每个目标词的特征指标，用来衡量词的重要性。在寻找突发词阶段，计算每个词的特征指标的统计值，提取指标波动比较大的词作为突发词，并提取每个突发词的特征指标波动最异常的一个或多个时间段作为突发事件发生的时间段。在完善事件信息阶段，在文本-词特征矩阵的基础上丰富事件的关键词，同时计算事件的话务量、15秒接通率等指标信息。在事件过滤及输出结果阶段，根据事件的指标进行事件过滤，并输出突发话务事件信息。

具体来说，本实施例对突发话务事件的监控及预警过程如下：

步骤一、对客服领域突发事件语料进行预处理；预处理包括对文本数据进行分词、去停用词、训练词向量模型等。

本步骤对语料预处理时，结合客服领域的通话特点，在结巴分词词典的基础上优化相关词典，对通话转写文本数据进行切词，利用词嵌入方法训练词向量模型。其中，语料格式如图2所示；使用结巴分词工具包进行中文分词，分词结果如图3所示；使用Google开发的Word2Vec工具包训练词向量模型，即将录音转写文本数据(即通话转写文本数据)的语义信息表示为稠密低维实值向量。本发明使用词向量大小为350维，学习率为0.05，窗口大小为4，最小词频为5，训练使用Skip-gram模型。

步骤二、构建文本-词特征矩阵，采用词监控的方法，先用词向量模型提取每个目标词的相似词，然后再分别判断每一通通话是否命中了这些目标词以及其相似词。

在本步骤中，需要判断每一个通话是否命中了监控词典里面的词。本步骤首先制作搜索词典，搜索词典里面的词都是需要重点监控的目标词；用词向量模型提取与搜索词典中每一个目标词相似性大于或等于0.8的相似词，搜索词典的词以及其相似词的示例如图4；然后再分别判断每一通通话是否命中了这些目标词以及其相似词，命中则为1，没有命中则为0，根据命中结果构建出一个文本-词特征矩阵，矩阵结果如图5。其中，词向量模型为经过步骤一训练的词向量模型。

步骤三、在文本-词特征矩阵的基础上，计算每个目标词的特征指标，用于衡量词的重要性。

基于TF-IDF(Term Frequency–Inverse Document Frequency)的思想，在文本-词特征矩阵的基础上计算每个目标词的特征指标，该特征指标的计算公式为X＝(a/b)*(a/c)＝a²/(bc)，其中a为每分钟包含该目标词的通话数，b为每分钟的通话数，c为所有包含该目标词的通话数。计算完后再对所有目标词的特征指标进行滑动平均，滑动窗口为3分钟，滑动后的每个目标词的特征指标如图6。

步骤四、计算每个目标词的特征指标的统计指标，提取统计指标波动比较大的目标词作为突发词；提取每个突发词的特征指标波动最异常的一个或多个时间段作为突发事件发生的时间段。

统计指标结果如图7，其中Count为词频，Max为最大值，Mean为平均值，Std为标准差，Max_mean为最大值除以平均值，Std_mean为标准差除以平均值，提取Max_mean和Std_mean最大的前N个目标词并且Count达到设定阈值的目标词作为突发词。

对于每个突发词，提取其特征指标波动最异常的一个或多个时间段的过程，包括如下步骤：

1)提取突发词在当月的特征指标的最大值Max；

2)用这个突发词每一分钟的特征指标值N与最大值Max*0.15的值进行比较，N>Max*0.15的时间段就为突发事件发生的时间段；

3)把每个突发事件对应时间段的最小值作为事件开始时间，最大值作为事件结束时间，把时间段间隔小于K个小时的两个或多个事件合并为一个事件，并把事件开始和结束日期不在同一天的事件拆分成2个事件，这样每个突发词都可以获得一个或多个突发时间段；

4)如果突发词对应的突发时间段的数量>＝5，则用这个突发词每一分钟的特征指标值N与最大值Max*0.20的值进行比较，N>Max*0.20的时间段就为突发事件发生的时间段；

5)把每个突发事件对应时间段的最小值作为事件开始时间，最大值作为事件结束时间，把时间段间隔小于K个小时的两个或多个事件合并为一个事件，并把事件开始和结束日期不在同一天的事件拆分成2个事件，这样每个突发词都可以获得一个或多个突发时间段；

本实施例采取上述步骤1)-6)提取突发事件的开始时间和结束时间，可以具体到分钟，从而能够精确、及时预测突发话务事件的产生。

步骤五、完善事件信息：在文本-词特征矩阵的基础上，根据杰卡德相似系数，提取与突发词的词矩阵特征相似的词，把突发词以及其相似词向量表示，对每一个事件的所有关键词的向量进行求均值，然后根据余弦相似度循环计算同一天某个事件和其他事件的相似性，并将相似性达到0.6的两个或多个事件合并成一个事件；计算每个事件发生时间段的人工接通量、15秒接通率及事件话务量。

其中，杰卡德相似系数表示的是两个集合A和B交集元素的个数在A、B并集中所占的比例，用符号J(A,B)表示。杰卡德相似系数是衡量两个集合相似度的一种指标，杰卡德相似系数公式如下：

提取相似词和计算事件话务量的步骤如下：

1)在文本-词特征矩阵的基础上，根据杰卡德相似系数，提取和突发词的词矩阵特征相似度大于等于0的相似词，输出为第一相似词词组(最多保留10个词)，把第一相似词词组都作为事件的关键词；

2)在文本-词特征矩阵的基础上，根据杰卡德相似系数，提取和突发词的词矩阵特征相似度大于等于0.5的相似词，输出为第二相似词词组(最多保留30个词)，第二相似词词组中词的数量为N，循环判断该突发事件内的每一通通话，如果该通话里面出现了第二相似词词组里的N/2个词，则把该通话计算到事件的话务量里面。

而余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似。余弦相似度的公式如下，其中a和b均为向量：

步骤六、根据人工接通量、15秒接通率、事件话务量对事件进行过滤，剔除影响不大的事件；输出突发事件信息表及各个事件对应的呼叫流水号明细，事件信息表如附图9。

如上所述，便可较好地实现本发明。

Claims

1.一种无监督的突发话务事件监控及预警的方法，其特征在于，包括以下步骤：

步骤一、对突发事件语料进行预处理；

步骤六、进行事件过滤，并输出突发话务事件信息；

步骤四中，对于每个突发词，提取其特征指标波动最异常的一个或多个时间段的过程，包括如下步骤：

1)提取突发词在当月的特征指标的最大值Max；

2.根据权利要求1所述的无监督的突发话务事件监控及预警的方法，其特征在于，步骤二构建文本-词特征矩阵时，制作搜索词典，搜索词典里的词为目标词；用词向量模型提取与搜索词典中每一个目标词相似性大于或等于预设阈值的相似词；分别判断每一通通话是否命中了所述目标词以及其相似词，命中则为1，没有命中则为0，根据命中结果构建文本-词特征矩阵。

3.根据权利要求1所述的无监督的突发话务事件监控及预警的方法，其特征在于，步骤三中，特征指标的计算公式为X＝(a/b)*(a/c)＝a²/(bc)，其中a为每分钟包含该目标词的通话数，b为每分钟的通话数，c为所有包含该目标词的通话数。

4.根据权利要求3所述的无监督的突发话务事件监控及预警的方法，其特征在于，对特征指标计算完后，再对所有目标词的特征指标进行滑动平均。

5.根据权利要求1所述的无监督的突发话务事件监控及预警的方法，其特征在于，步骤五在文本-词特征矩阵的基础上，提取与突发词的词矩阵特征相似的词，把突发词以及其相似词向量表示，对每一个事件的所有关键词的向量进行求均值，然后根据余弦相似度循环计算同一天某个事件和其他事件的相似性，并将相似性达到设定阈值的两个或多个事件合并成一个事件；计算每个事件发生时间段的人工接通量、接通率及事件话务量。

6.根据权利要求5所述的无监督的突发话务事件监控及预警的方法，其特征在于，提取与突发词的词矩阵特征相似的词和计算事件话务量的步骤如下：

7.根据权利要求1所述的无监督的突发话务事件监控及预警的方法，其特征在于，步骤一所述预处理包括对通话转写文本数据进行切词，利用词嵌入方法训练词向量模型，将通话转写文本数据的语义信息表示为稠密低维实值向量。