CN115034206A - 一种客服热点事件发现方法及系统 - Google Patents

一种客服热点事件发现方法及系统 Download PDF

Info

Publication number
CN115034206A
CN115034206A CN202210700715.2A CN202210700715A CN115034206A CN 115034206 A CN115034206 A CN 115034206A CN 202210700715 A CN202210700715 A CN 202210700715A CN 115034206 A CN115034206 A CN 115034206A
Authority
CN
China
Prior art keywords
customer service
text
event
word
discovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210700715.2A
Other languages
English (en)
Inventor
李飞
冯影
程磊
周源
王颜颜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kedaduochuang Cloud Technology Co ltd
Original Assignee
Kedaduochuang Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kedaduochuang Cloud Technology Co ltd filed Critical Kedaduochuang Cloud Technology Co ltd
Priority to CN202210700715.2A priority Critical patent/CN115034206A/zh
Publication of CN115034206A publication Critical patent/CN115034206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种客服热点事件发现方法及系统,属于自然语言处理技术领域,包括以下步骤:S1:语义表征;S2:事件发现;S3:事件类别预测。本发明通过调整字词权重的方式增强语义表征,基于K‑Means算法实现热点事件发现,优化运营商客服领域热点事件发现的准确率,在运营商客服领域数据事件聚类发现的实验中,本方法明显优于其他已有的层次和密度聚类算法,准确率提升了13.83%。

Description

一种客服热点事件发现方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种客服热点事件发现方法及系统。
背景技术
近年来,运营商客服领域日均话务量大,以中国某省某运营商为例,月呼入量达420万,每日人均话务量大约130次。话务量增长迅速,平均较去年同期增长17%左右。因此,运营商客服领域迫切需要去做话务来源分析和问题盘点,降低话务量。然而,运营商客服领域话务来源分析基本通过话务员经验进行话务小结,完全依靠人工主观性运营,存在一定的误差风险。还有依靠经验固化话务来源种类,应用有监督算法,导致面对突发事件及异常波动时,人工难以及时发现并复盘原因。
现在文本聚类技术在自然语言处理领域表现的很好,精准的语义表征可以提高聚类算法的准确率,实现文本之间内在关系的发现。因此,提出一种客服热点事件发现方法及系统。
发明内容
本发明所要解决的技术问题在于:如何解决在客服热点事件发现工作中传统依赖话务人员撰写话务小结,存在来源难以分析,人工划分不精准,来话原因复盘困难等问题,提供了一种客服热点事件发现方法,本方法基于改进TF-IDF进行客服文本语义表征,通过K-Means算法实现客服热点事件发现,可以快速高效地对客服问题进行来源分析,辅助人工质检,优化运营商客服领域热点事件发现的准确率。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:语义表征
在通用词库的基础上进行客服领域新词发现,然后计算客服文本动态句向量,并对语义表征进行压缩;
S2:事件发现
基于客服文本语义表征向量,采用K-Means算法对不同客服场景话务进行聚类,生成样本类别,在计算类别的热词组合,形成类别标题,实现客服文本事件发现;
S3:事件类别预测
构造客服文本事件类型预测训练样本,训练分类模型,通过训练好的分类模型预测新文本类别,完成事件入库。
更进一步地,在所述步骤S1中,进行新词发现的具体过程如下:
S101:采用Word2vec方法训练客服语料,生成词汇表作为客服行业基础词库;
S102:客服领域文本分词后,若文本分词后的词不在基础词库中,进行词频统计;
S103:设置新词发现阈值,将超过阈值的词语记录下来作为候选业务词;
S104:候选业务词与通用词库相融合,建立运营商客服领域业务词库。
更进一步地,在所述步骤S1中,客服文本动态句向量计算过程具体如下:
S201:对于客服文本序列s,采用运营商客服领域业务词库将序列s中与客服业务无关的词汇去除,只保留运营商客服领域业务词,因此序列更新为s′={c1,…,ci,…,cN},其中ci表示序列s′中的第i个词汇,N表示序列s′的文本长度;
S202:基于Word2vec方法获得序列s′中每一个词汇的初始向量,es′={e1,…,ei,…,eN};
S203:在传统TF-IDF算法的基础上新增词长权重,权重信息具体计算公式为:
Figure BDA0003703878330000021
其中,
Figure BDA0003703878330000022
为序列s′中第i个词汇的权重信息,len(ci)为ci的长度,m为词汇ci在该文本中出现的频数,T为该文本中的总词汇数,H为总文本数,h为含有词汇ci的文本数;
S204:应用序列s′每一个词汇的向量es′={e1,…,ei,…,eN}与其对应词汇权重信息相结合的方式,动态计算句向量,生成文本的句向量空间,完成客服文本向量化,具体计算公式为:
Figure BDA0003703878330000023
其次,Vs为文本的句向量表示,
Figure BDA0003703878330000024
为词汇ci的权重信息,ei为词汇ci的词向量。
更进一步地,在所述步骤S1中,进行语义表征进行压缩的具体过程如下:
S201:将步骤S204中生成的句向量进行归一化;
S202:采用PCA降维的方式将原始句向量的维度降低到指定维度,具体计算公式为:
Figure BDA0003703878330000025
其中,Vs′为语义表征压缩后的句向量,Xi为原始句向量中中第i维的数值,Xmax、Xmin分别为原始句向量中最大值和最小值,F是PCA(主成分分析)降维函数,d是指定维度。
更进一步地,所述步骤S2的具体过程如下:
S21:随机选取K个点作为初始聚类中心;
S22:根据欧式距离的公式进行计算,将靠近初始聚类中心的数据,划分到同一个簇中,以此迭代;
S23:依据各簇数据点的均值更新其聚类中心,直至聚类中心不再改变,由此将客服文本划分为K个样本类别,再分别根据每一类中词汇词频的高低提取K个类别的热词组合,即关键词文本,形成类别标题,实现客服文本事件发现。
更进一步地,所述步骤S3包括以下步骤:
S31:通过步骤S23中的K个样本类别、K个类别的热词组合,构造客服文本事件类型预测训练样本,其中客服文本作为训练数据,通过客服文本语义表征和客服热点事件发现获得客服文本数据的K个样本类别作为训练标签;
S32:采用有监督Fasttext算法训练客服文本事件样本,获得基于Fasttext算法对文本事件分类模型modelf,对于新的客服文本序列x通过训练好的模型modelf获得序列x属于K个类型的概率y1,…,yi,…,yk
S33:通过最大值函数获得序列x的属于可能类别的概率:
Figure BDA0003703878330000031
设置预测置信度P,预测新文本事件类别,若序列x属于可能类别的概率
Figure BDA0003703878330000032
达到预测置信度,则归到K个类别中的概率最大的相似类别中,否则将不对该条文本做分类处理,直到不做分类处理的文本数量满足指定数额Q,则所有数据重新聚类,以此整合后续事件,完成事件入库。
本发明还提供了一种客服热点事件发现系统,利用上述的方法实现客服热点事件发现及对新文本进行预测,包括:
语义表征模块,用于在通用词库的基础上进行客服领域新词发现,然后计算客服文本动态句向量,并对语义表征进行压缩;
事件发现模块,用于基于客服文本语义表征向量,采用K-Means算法对不同客服场景话务进行聚类,生成样本类别,在计算类别的热词组合,形成类别标题,实现客服文本事件发现;
事件类别预测模块,用于构造客服文本事件类型预测训练样本,训练分类模型,通过训练好的分类模型预测新文本类别,完成事件入库;
控制处理模块,用于向其他模块发出指令,完成相关动作;
所述语义表征模块、事件发现模块、事件类别预测模块均与控制处理模块电连接。
本发明相比现有技术具有以下优点:该客服热点事件发现方法,首先客服文本语义表征采用客服领域新词发现构建运营商客服领域业务词库,基于改进TF-IDF的算法计算动态客服文本句向量,通过语义表征压缩获得客服文本语义表征,可以实现将词汇语义进行多维度汇聚,捕捉丰富语义信息;然后客服热点事件发现是基于客服文本语义表征向量,采用K-Means算法对不同客服场景问题进行聚类,将客服文本划分为K个样本类别,再分别提取K个类别的热词组合,可以实现客服文本热点事件发现;最后客服新文本事件类别预测是依据上述事件的K个样本类别、K个类别的热词组合,构造客服文本事件类型预测训练样本,然后基于有监督Fasttext算法训练分类模型,预测新文本事件类别,可以实现新文本的事件发现整合。
附图说明
图1是本发明实施例一中客服热点事件发现方法的架构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例一
本实施例提供一种技术方案:一种客服热点事件发现方法,本发明对运营商客服领域话务来源分析的基本诉求,将每一段文本分为两类属性包括聚类标签、事件关键词,如表1所示。其中聚类标签为K-Means算法聚类簇类别,事件关键词为每个类别标签数据热词抽取,可以从中解读具体事件,理解用户来话诉求,实现客服文本事件发现,辅助人工质检。
表1一个运营商客服领域事件发现示例
Figure BDA0003703878330000041
本实施例中的客服热点事件发现方法具体包括以下步骤:
(1)基于改进TF-IDF的客服文本语义表征
目前运营商客服领域文本表示大多基于词频,忽略了词语本身长度和上下文词序,无法获得精准的客服文本语义表征。为了能够获取丰富的语义信息,本发明提出了基于改进TF-IDF的客服文本语义表征研究,具体如下:
①客服领域新词发现
首先本发明进行客服文本预处理,这主要是考虑到客服文本口语化严重,存在大量无实际意义的词语,本发明使用分词并去停用词的方法进行文本预处理,过滤对事件发现没有价值的文本内容。然后由于目前通用词库不具备一些运营商客服产品和服务的相关术语,因此需要在通用词库的基础上进行客服领域新词发现,具体步骤如下:
第一步:采用Word2vec方法训练客服语料,生成词汇表作为客服行业基础词库;
第二步:客服领域文本分词后,若文本分词后的词不在基础词库中,进行词频统计;
第三步:设置新词发现阈值R,将超过阈值的词语记录下来作为候选业务词;
第四步:候选业务词与通用词库相融合,建立运营商客服领域业务词库。
②客服文本动态句向量计算
为了能够在客服文本表征时考虑到每一个词汇的重要性以及上下文词汇对当前词语的影响,本发明提出了客服文本动态句向量计算。针对客服文本序列s,首先本发明采用运营商客服领域业务词库将序列s中与客服业务无关的词汇去除,只保留运营商客服领域业务词,因此序列更新为s′={c1,…,ci,…,cN},其中ci表示序列s′中的第i个词汇,N表示新序列的文本长度。然后本发明基于Word2vec方法获得序列s′中每一个词汇的初始向量,es′={e1,…,ei,…,eN},Word2vec方法是用一个浅层的神经网络(CBOW)把字词映射成一个固定维度的向量,可以包含词汇的上下文语义信息。
为了能够体现不同词汇的重要性,考虑到字词长度的不同,表达的信息也不相同,因此在词向量计算中,本发明在传统TF-IDF算法的基础上新增词长权重,提高语义表征的准确性。权重信息具体计算公式为:
Figure BDA0003703878330000051
其中,
Figure BDA0003703878330000052
为序列s′中第i个词汇的权重信息,len(ci)为ci的长度,m为词汇ci在该文本中出现的频数,T为该文本中的总词汇数,H为总文本数,h为含有词汇ci的文本数。
应用序列s′每一个词汇的向量es′={e1,…,ei,…,eN}与其对应词汇权重信息相结合的方式,动态计算句向量,生成文本的句向量空间,完成客服文本向量化,具体计算公式为:
Figure BDA0003703878330000053
其次,Vs为文本的句向量表示,
Figure BDA0003703878330000054
为词汇ci的权重信息,ei为词汇ci的词向量。
③语义表征压缩
为了减少句向量中方差大的特征影响,使不同量纲的特征处于同一数值量级,将上述生成的句向量进行归一化,可以加快算法的收敛速度。然后,考虑到客服类电话文本每日增长快,存在维度灾难的问题,本发明采用PCA(主成分分析)降维的方法,将原始句向量的维度降低到指定维度,在压缩客服领域文本数据的同时,保证客服文本信息损失最小化,具体计算公式为:
Figure BDA0003703878330000055
其中,Vs′为语义表征压缩后的句向量,Xi为原始句向量中中第i维的数值,Xmax、Xmin分别为原始句向量中最大值和最小值,F是PCA(主成分分析)降维函数,d是指定维度。
(2)基于K-Means聚类的客服热点事件发现
由于客服话务来源目前主要依赖话务人员的话务小结,存在多种场景问题聚类难,划分不精准的问题,从而难以发现聚集性热点事件。因此本发明提出基于K-Means聚类的客服热点事件发现,基于客服文本语义表征向量,采用K-Means算法对不同客服场景话务进行聚类。
首先随机选取K个点作为初始聚类中心,根据欧式距离的公式进行计算,将靠近初始聚类中心的数据,划分到同一个簇中,以此迭代,最后依据各簇数据点的均值更新其聚类中心,直至聚类中心不再改变;由此将客服文本划分为K个样本类别,再分别根据每一类中词汇词频的高低提取K个类别的热词组合,即关键词文本,形成类别标题,实现客服文本事件发现;
(3)客服新文本事件类别预测
通过依据上述事件的K个样本类别、K个类别的热词组合,构造客服文本事件类型预测训练样本,其中客服文本作为训练数据,通过客服文本语义表征和客服热点事件发现获得客服文本数据的K个样本类别作为训练标签。
然后引入有监督Fasttext分类算法,该算法将输入的客服文本训练数据组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到训练标签,用浅层网络取得了和深度网络相媲美的精度,并且分类速度非常快。采用该算法训练客服文本事件样本,获得基于Fasttext算法对文本事件分类模型modelf,对于新的客服文本序列x,本发明通过训练好的模型modelf获得序列x属于K个类型的概率y1,…,yi,…,yk,再通过最大值函数获得序列x的属于可能类别的概率:
Figure BDA0003703878330000061
考虑到可能新的客服文本序列是一个新出现的类型,不属于已有的K个类中,因此本发明设置预测置信度P,预测新文本事件类别。若序列x属于可能类别的概率
Figure BDA0003703878330000062
达到预测置信度,则归到K个类别中的概率最大的相似类别中,否则将不对该条文本做分类处理,直到不做分类处理的文本数量满足指定数额Q,则所有数据重新聚类,以此整合后续事件,完成事件入库,并实时监控热点事件变化趋势,辅助人工质检,本发明架构如图1所示。
为了评估模型的有效性,本发明根据聚类结果与真实标签分布的吻合程度,采用准确率、互信息分和调整兰德系数指标进行评估。
准确率计算公式如下:
Figure BDA0003703878330000063
其中,Acc为聚类评估指标准确率,假设聚类目标只有两类,计为正例P和负例N,TP为被正确地划分为正例的个数,TN是被正确地划分为负例的个数。
互信息分具体计算公式如下:
Figure BDA0003703878330000071
其中,MI(X,Y)为聚类评估指标互信息分,取值在[0,1]之间,越接近1表示聚类效果越好,X、Y为聚类与真实结果的标签去重后类别情况,i、j分别为X、Y集合中的取值,P(i,j)为i与j的联合概率分布,P(i)、P(j)分别为i、j的概率分布函数。
兰德系数具体计算公式如下:
RI=a+b+c+d
其中,RI为兰德系数,假设U、V分别为真实标签和聚类结果,a为在U中为同一类且在V中也为同一类别的数据点对数,b为在U中为同一类但在V中却属于不同类别的数据点对数,c为在U中不在同一类但在V中为同一类别的数据点对数,d为在U中不在同一类且在V中也不属于同一类别的数据点对数。
为了避免随机产生聚类结果时,兰德系数可能接近零的情况,本发明采用调整兰德系数,具体计算公式为:
Figure BDA0003703878330000072
其中,ARI为调整兰德系数,取值范围在[-1,1]之间,值越大意味着聚类结果与真实情况越吻合,E[RI]表示兰德系数的期望,max(RI)表示兰德系数的最大值。
实施例二
本实施例采用的数据是运营商客服领域人工标记“宽带”事件数据,共计279条,分别为“宽带报障”148条,“宽带查询”131条。本发明为了探究不同的词向量预训练模型的效果,选取BERT、ERNIE和Word2vec进行实验对比,实验结果如下表2所示:
表2词向量模型实验效果对比
宽带报障/条 宽带查询/条 准确率
BERT 109 67 0.6308
ERNIE 89 98 0.6703
Word2vec 102 104 0.7384
上述实验结果表明,BERT、ERNIR对于语料较少的长文本表征不理想,相同句式的词语语义区分不明显,而本发明选择的Word2vec对小语料表现效果较好,准确率高,能够获取相似词向量。对上述Word2vec增强的文本语义表征分别采用层次聚类、密度聚类和K-Means聚类三种算法进行模型训练进行比较分析,结果如表3所示:
表3模型实验效果对比
Figure BDA0003703878330000081
由上表可以看出,目前已有的一些方法效果很差,本发明提出的基于改进TF-IDF算法的客服热点事件发现方法整体上效果最佳,具体表现在:
(1)传统的密度聚类算法的评估指标均为0,这是由于密度聚类假设聚类结构可通过样本在空间分布的紧密程度来确定,算法本身难以分析高维数据,因此将所有标记数据计入离散点;K-Means聚类算法的评价指标准确率为0.6487,互信息分为0.0660,调整兰德系数为0.0852,效果明显优于密度和层次聚类。
(2)增加改进的语义表征后,三种聚类算法的评价指标均有一定程度的提高,其中K-Means聚类效果十分显著,互信息分为0.1614,调整兰德系数为0.2110。由此说明了本发明提出的基于改进TF-IDF算法的客服热点事件发现方法效果很好,准确率提升了13.83%,它可以捕捉更丰富的语义信息。
综上所述,上述实施例的客服热点事件发现方法,针对运营商客服领域日均话务量大,话务来源分析困难,导致来话原因盘点复杂的问题,提出了一种基于改进TF-IDF算法的客服热点事件发现方法;具体的,首先客服文本语义表征采用客服领域新词发现构建运营商客服领域业务词库,基于改进TF-IDF的算法计算动态客服文本句向量,通过语义表征压缩获得客服文本语义表征,可以实现将词汇语义进行多维度汇聚,捕捉丰富语义信息;然后客服热点事件发现是基于客服文本语义表征向量,采用K-Means算法对不同客服场景问题进行聚类,将客服文本划分为K个样本类别,再分别提取K个类别的热词组合,可以实现客服文本热点事件发现;最后客服新文本事件类别预测是依据上述事件的K个样本类别、K个类别的热词组合,构造客服文本事件类型预测训练样本,然后基于有监督Fasttext算法训练分类模型,预测新文本事件类别,可以实现新文本的事件发现整合,优点在于通过调整字词权重的方式增强语义表征,基于K-Means算法实现热点事件发现,优化运营商客服领域热点事件发现的准确率,在运营商客服领域数据事件聚类发现的实验中,本方法明显优于其他已有的层次和密度聚类算法,准确率提升了13.83%。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种客服热点事件发现方法,其特征在于,包括以下步骤:
S1:语义表征
在通用词库的基础上进行客服领域新词发现,然后计算客服文本动态句向量,并对语义表征进行压缩;
S2:事件发现
基于客服文本语义表征向量,采用K-Means算法对不同客服场景话务进行聚类,生成样本类别,在计算类别的热词组合,形成类别标题,实现客服文本事件发现;
S3:事件类别预测
构造客服文本事件类型预测训练样本,训练分类模型,通过训练好的分类模型预测新文本类别,完成事件入库。
2.根据权利要求1所述的一种客服热点事件发现方法,其特征在于:在所述步骤S1中,进行新词发现的具体过程如下:
S101:采用Word2vec方法训练客服语料,生成词汇表作为客服行业基础词库;
S102:客服领域文本分词后,若文本分词后的词不在基础词库中,进行词频统计;
S103:设置新词发现阈值,将超过阈值的词语记录下来作为候选业务词;
S104:候选业务词与通用词库相融合,建立运营商客服领域业务词库。
3.根据权利要求2所述的一种客服热点事件发现方法,其特征在于:在所述步骤S1中,客服文本动态句向量计算过程具体如下:
S201:对于客服文本序列s,采用运营商客服领域业务词库将序列s中与客服业务无关的词汇去除,只保留运营商客服领域业务词,因此序列更新为s′={c1,…,ci,…,cN},其中ci表示序列s′中的第i个词汇,N表示序列s′的文本长度;
S202:基于Word2vec方法获得序列s′中每一个词汇的初始向量,es′={e1,…,ei,…,eN};
S203:在传统TF-IDF算法的基础上新增词长权重,权重信息具体计算公式为:
Figure FDA0003703878320000014
其中,
Figure FDA0003703878320000011
为序列s′中第i个词汇的权重信息,len(ci)为ci的长度,m为词汇ci在该文本中出现的频数,T为该文本中的总词汇数,H为总文本数,h为含有词汇ci的文本数;
S204:应用序列s′每一个词汇的向量es′={e1,…,ei,…,eN}与其对应词汇权重信息相结合的方式,动态计算句向量,生成文本的句向量空间,完成客服文本向量化,具体计算公式为:
Figure FDA0003703878320000012
其次,Vs为文本的句向量表示,
Figure FDA0003703878320000013
为词汇ci的权重信息,ei为词汇ci的词向量。
4.根据权利要求3所述的一种客服热点事件发现方法,其特征在于:在所述步骤S1中,进行语义表征进行压缩的具体过程如下:
S201:将步骤S204中生成的句向量进行归一化;
S202:采用PCA降维的方式将原始句向量的维度降低到指定维度,具体计算公式为:
Figure FDA0003703878320000021
其中,Vs′为语义表征压缩后的句向量,Xi为原始句向量中中第i维的数值,Xmax、Xmin分别为原始句向量中最大值和最小值,F是PCA降维函数,d是指定维度。
5.根据权利要求4所述的一种客服热点事件发现方法,其特征在于:所述步骤S2的具体过程如下:
S21:随机选取K个点作为初始聚类中心;
S22:根据欧式距离的公式进行计算,将靠近初始聚类中心的数据,划分到同一个簇中,以此迭代;
S23:依据各簇数据点的均值更新其聚类中心,直至聚类中心不再改变,由此将客服文本划分为K个样本类别,再分别根据每一类中词汇词频的高低提取K个类别的热词组合,即关键词文本,形成类别标题,实现客服文本事件发现。
6.根据权利要求5所述的一种客服热点事件发现方法,其特征在于:所述步骤S3包括以下步骤:
S31:通过步骤S23中的K个样本类别、K个类别的热词组合,构造客服文本事件类型预测训练样本,其中客服文本作为训练数据,通过客服文本语义表征和客服热点事件发现获得客服文本数据的K个样本类别作为训练标签;
S32:采用有监督Fasttext算法训练客服文本事件样本,获得基于Fasttext算法对文本事件分类模型modelf,对于新的客服文本序列x通过训练好的模型modelf获得序列x属于K个类型的概率y1,…,yi,…,yk
S33:通过最大值函数获得序列x的属于可能类别的概率:
Figure FDA0003703878320000022
设置预测置信度P,预测新文本事件类别,若文本序列x属于可能类别的概率
Figure FDA0003703878320000023
达到预测置信度,则归到K个类别中的概率最大的相似类别中,否则将不对文本序列x做分类处理,直到不做分类处理的文本数量满足指定数额Q,则所有数据重新聚类,以此整合后续事件,完成事件入库。
7.一种客服热点事件发现系统,其特征在于,利用如权利要求1~6任一项所述的方法实现客服热点事件发现及对新文本进行预测,包括:
语义表征模块,用于在通用词库的基础上进行客服领域新词发现,然后计算客服文本动态句向量,并对语义表征进行压缩;
事件发现模块,用于基于客服文本语义表征向量,采用K-Means算法对不同客服场景话务进行聚类,生成样本类别,在计算类别的热词组合,形成类别标题,实现客服文本事件发现;
事件类别预测模块,用于构造客服文本事件类型预测训练样本,训练分类模型,通过训练好的分类模型预测新文本类别,完成事件入库;
控制处理模块,用于向其他模块发出指令,完成相关动作;
所述语义表征模块、事件发现模块、事件类别预测模块均与控制处理模块电连接。
CN202210700715.2A 2022-06-20 2022-06-20 一种客服热点事件发现方法及系统 Pending CN115034206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210700715.2A CN115034206A (zh) 2022-06-20 2022-06-20 一种客服热点事件发现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210700715.2A CN115034206A (zh) 2022-06-20 2022-06-20 一种客服热点事件发现方法及系统

Publications (1)

Publication Number Publication Date
CN115034206A true CN115034206A (zh) 2022-09-09

Family

ID=83124617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210700715.2A Pending CN115034206A (zh) 2022-06-20 2022-06-20 一种客服热点事件发现方法及系统

Country Status (1)

Country Link
CN (1) CN115034206A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858787A (zh) * 2022-12-12 2023-03-28 交通运输部公路科学研究所 一种基于公路运输中问题诉求信息的热点提取和挖掘方法
CN117076963A (zh) * 2023-10-17 2023-11-17 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115858787A (zh) * 2022-12-12 2023-03-28 交通运输部公路科学研究所 一种基于公路运输中问题诉求信息的热点提取和挖掘方法
CN115858787B (zh) * 2022-12-12 2023-08-01 交通运输部公路科学研究所 一种基于公路运输中问题诉求信息的热点提取和挖掘方法
CN117076963A (zh) * 2023-10-17 2023-11-17 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法
CN117076963B (zh) * 2023-10-17 2024-01-02 北京国科众安科技有限公司 一种基于大数据平台的资讯热度分析方法

Similar Documents

Publication Publication Date Title
CN108052583B (zh) 电商本体构建方法
CN106383877B (zh) 一种社交媒体在线短文本聚类和话题检测方法
CN109783639B (zh) 一种基于特征提取的调解案件智能分派方法及系统
CN115034206A (zh) 一种客服热点事件发现方法及系统
US10387805B2 (en) System and method for ranking news feeds
CN109902289A (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
CN117290489B (zh) 一种行业问答知识库快速构建方法与系统
CN106528768A (zh) 一种咨询热点分析方法及装置
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
CN114722191A (zh) 一种基于语义理解处理的通话自动聚类方法及系统
CN114330366A (zh) 事件抽取方法及相关装置、电子设备和存储介质
CN113987161A (zh) 一种文本排序方法及装置
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
CN111581379B (zh) 一种基于作文扣题度的自动作文评分计算方法
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
CN112463974A (zh) 知识图谱建立的方法和装置
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
Si Classification Method of Ideological and Political Resources of Broadcasting and Hosting Professional Courses Based on SOM Artificial Neural Network
Gong Analysis of internet public opinion popularity trend based on a deep neural network
Peng et al. A novel text retrieval algorithm for public crisis cases
Luo et al. A comparison of som based document categorization systems
Li et al. Customer Service Hot event Discovery Based on Dynamic Dialogue Embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination