CN116795978A - 一种投诉信息处理方法、装置、电子设备及介质 - Google Patents
一种投诉信息处理方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN116795978A CN116795978A CN202310341320.2A CN202310341320A CN116795978A CN 116795978 A CN116795978 A CN 116795978A CN 202310341320 A CN202310341320 A CN 202310341320A CN 116795978 A CN116795978 A CN 116795978A
- Authority
- CN
- China
- Prior art keywords
- complaint
- corpus
- customer
- information
- reason
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 60
- 238000003672 processing method Methods 0.000 title claims abstract description 46
- 238000013145 classification model Methods 0.000 claims abstract description 92
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000007621 cluster analysis Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 39
- 239000012634 fragment Substances 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004806 packaging method and process Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000002860 competitive effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种投诉信息处理方法、装置、电子设备及介质,方法包括:获取客户投诉语料;提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键句;对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别,从而根据客户投诉信息得到客户投诉原因,把握客户投诉原因变化,实时调整服务导向。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种投诉信息处理方法、装置、电子设备及介质。
背景技术
随着生活水平以及全民素质的提高,人们对银行业、金融业服务水平的要求也越来越高,维护自身合法权益的意识日益增强,监管部门的监管力度也不断加强。投诉,对于每个银行人员来讲,都是高敏感,高警觉。
同时伴随中小银行在当地的不断扩容,银行业竞争的日益激烈,客户在办理金融业务时更加注重享受服务,对银行营业环境、网点秩序、理财产品、渠道服务要素的要求越来越高。特别是随着金融消费权益保护工作的不断推进,客户自我保护意识越来越强,不少商业银行常常深陷客户投诉的困扰。基于此,当客户投诉时,亟需及时、准确的分析客户投诉原因,给出针对性的答复,以及对客户投诉原因进行统计分析,追溯其原因分布,以优化服务流程和服务策略。
发明内容
有鉴于此,本申请的目的在于提供一种投诉信息处理方法、装置、电子设备及介质,能够根据客户投诉信息得到客户投诉原因,把握客户投诉原因变化,实时调整服务导向。
本申请实施例提供的一种投诉信息处理方法,所述方法包括以下步骤:
获取客户投诉语料;
提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键句;
对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签;
将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;
通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别。
在一些实施例中,所述的投诉信息处理方法中,对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组,包括:
根据聚类分析算法的预设参数,确定出核心投诉原因信息;
重复以下步骤,直至满足预设结束条件:
选择一条未处理过的核心投诉原因信息,找到该核心投诉原因信息密度可达的投诉原因信息,生成簇;
根据簇中每条核心投诉原因对应的客户投诉语料,确定出语料组。
在一些实施例中,所述的投诉信息处理方法中,根据簇中每条投诉原因对应的客户投诉语料,确定出语料组,包括:
对簇中的核心投诉原因信息进行人工核检后,接收人工输入的投诉原因标签,以确定每个语料组对应的投诉原因标签。
在一些实施例中,所述的投诉信息处理方法中,所述提取出客户投诉语料中的投诉原因信息,包括:
将所述客户投诉语料输入至textrank模型,通过textrank模型提取出客户投诉语料中的关键句;
将提取出的关键句作为投诉原因信息。
在一些实施例中,所述的投诉信息处理方法中,获取客户投诉语料,包括:
获取客户投诉语料;
对客户投诉语料进行预处理,得到预处理之后的客户投诉语料;
其中,所述预处理至少包括以下之一:
分词处理、词性标注处理和去除停用词处理。
在一些实施例中,所述的投诉信息处理方法中,将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型,包括:
将所述语料组、语料组对应的投诉原因标签作为训练数据集,将所述训练数据集输入至投诉分类模型;
针对语料组中的一条语料,通过所述投诉分类模型,提取该语料的字节片段序列,生成字节片段序列的序列特征向量;
处理该语料中的词语,生成至少部分词语的词向量;
将该语料中至少部分词语的词向量和生成的序列特征向量叠加,确定语料的文档向量;
处理语料的文档向量,预测出该条语料的投诉原因标签,并基于该条语料所属语料组的投诉原因标签调整投诉分类模型的参数,直至投诉分类模型符合训练结束条件,得到训练好的投诉分类模型。
在一些实施例中,所述的投诉信息处理方法中,在得到训练好的投诉分类模型之后,所述方法还包括:
将训练好的投诉分类模型进行独立封装,并将封装好的投诉分类模型上传至宿主机;
所述宿主机响应接收到目标终端的访问指令,在所述目标终端上部署投诉分类模型的本地镜像和运行程序。
在一些实施例中,还提供一种投诉信息处理装置,所述装置包括:
获取模块,用于获取客户投诉语料;
提取模块,用于提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键句;
聚类模块,用于对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签;
训练模块,用于将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;
确定模块,用于通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别。
在一些实施例中,还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行所述的投诉信息处理方法的步骤。
在一些实施例中,还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的投诉信息处理方法的步骤。
本申请实施例提出一种投诉信息处理方法、装置、电子设备及介质,所述投诉信息处理方法获取客户投诉语料;提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键词和/或关键句;对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签;将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别;这样,在客户进行投诉时,基于客户投诉文本的自动化识别出客户投诉原因,准确、及时的把握客户投诉意图变化,实时调整服务导向,提高服务质量和效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所述投诉信息处理方法的流程图;
图2示出了本申请实施例所述获取客户投诉语料的流程图;
图3示出了本申请实施例所述提取出客户投诉语料中的投诉原因信息的流程图;
图4示出了本申请实施例所述对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组的流程图;
图5示出了本申请实施例所述fasttext模型架构示意图;
图6示出了本申请实施例训练投诉分类模型的流程图;
图7示出了本申请实施例所述另一种投诉信息处理方法的流程图;
图8示出了本申请实施例所述投诉信息处理装置的结构示意图;
图9示出了本申请实施例所述电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
随着生活水平以及全民素质的提高,人们对银行业、金融业服务水平的要求也越来越高,维护自身合法权益的意识日益增强,监管部门的监管力度也不断加强。投诉,对于每个银行人员来讲,都是高敏感,高警觉。
同时伴随中小银行在当地的不断扩容,银行业竞争的日益激烈,客户在办理金融业务时更加注重享受服务,对银行营业环境、网点秩序、理财产品、渠道服务要素的要求越来越高。特别是随着金融消费权益保护工作的不断推进,客户自我保护意识越来越强,不少商业银行常常深陷客户投诉的困扰。基于此,当客户投诉时,亟需及时、准确的分析客户投诉原因,给出针对性的答复,以及对客户投诉原因进行统计分析,追溯其原因分布,以优化服务流程和服务策略。
基于此,本申请实施例提出一种投诉信息处理方法、装置、电子设备及介质,所述投诉信息处理方法获取客户投诉语料;提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键词和/或关键句;对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签;将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别;这样,在客户进行投诉时,基于客户投诉文本的自动化识别出客户投诉原因,准确、及时的把握客户投诉意图变化,实时调整服务导向,提高服务质量和效率。
具体的,请参照图1,图1示出了本申请实施例所述投诉信息处理方法的流程图;具体的,所述方法包括以下步骤S101-S105;
S101、获取客户投诉语料;
S102、提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键句;
S103、对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签;
S104、将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;
S105、通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别。
这里,所述投诉信息处理方法获取客户投诉语料;提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键词和/或关键句;对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签;将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别;这样,在客户进行投诉时,基于客户投诉文本的自动化识别出客户投诉原因,准确、及时的把握客户投诉意图变化,实时调整服务导向,提高服务质量和效率。
在本申请实施例中,所述投诉信息处理方法可以运行于终端设备或者是服务器;其中,终端设备可以为本地终端设备,当投诉信息处理方法运行于服务器时,该投诉信息处理方法则可以基于云交互系统来实现与执行,其中,云交互系统至少包括服务器和客户端设备(也即终端设备)。
在本申请实施例所述的步骤S101中获取客户投诉语料。
这里,所述客户投诉语料,具体为从多个业务系统中获取的投诉信息,例如从业务系统的投诉工单、留言板、企业信箱等获取的投诉信息。所述投诉信息中包括投诉对象、投诉内容等。
从业务系统中获取投诉信息后,对投诉信息进行筛选,去除信息不全的投诉信息,保留高质量的投诉信息;同时,如果投诉信息数据量不够,可进行投诉信息衍生,生成更多客户投诉语料。
这里,请参照图2,获取客户投诉语料,包括以下步骤S201-S202:
S201、获取客户投诉语料;
S202、对客户投诉语料进行预处理,得到预处理之后的客户投诉语料;
其中,所述预处理至少包括以下之一:
分词处理、词性标注处理和去除停用词处理。
也就是说,通过对客户投诉语料进行分词、词性标注和去除停用词等文本预处理,得到预处理之后的客户投诉语料。
在所述步骤S102中,提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键句。
具体的,请参照图3,所述提取出客户投诉语料中的投诉原因信息,包括以下步骤S301-S302;
S301、将所述客户投诉语料输入至textrank模型,通过textrank模型提取出客户投诉语料中的关键句;
S302、将提取出的关键句作为投诉原因信息。
这里,通过textrank模型提取出客户投诉语料中的关键句,即通过textrank模型进行文本摘要任务。在这个过程中,节点不再是词,而是句子;而句与句之间的联系,也不再使用”共现“来确定,而是利用相似度确定。
具体的,通过textrank模型计算客户投诉语料中任意两个句子之间的相似度,并构建相似度矩阵;
基于构建的相似度矩阵,确定句子的重要程度分值,并输出排序在先的预设数据个句子作为客户投诉语料中的关键句。
基于构建的相似度矩阵,确定句子的重要程度分值,即:根据语料中目标句子与其他句子的相似度,计算该目标句子的重要程度分值。
这里,其本质原因时,关键句作为文本中的摘要,会与很多的句子相似和/或相似度更高。
具体的,计算两个句子之间的相似度,比较传统的方法是比较句子中相同词语的个数;或者计算两个句子的余弦相似度等等。
在所述步骤S103中,对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签。
请参照图4,所述对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组,包括以下步骤S401-S403;
S401、根据聚类分析算法的预设参数,确定出核心投诉原因信息;
S402;重复以下步骤,直至满足预设结束条件:
选择一条未处理过的核心投诉原因信息,找到该核心投诉原因信息密度可达的投诉原因信息,生成簇;
S403、根据簇中每条核心投诉原因对应的客户投诉语料,确定出语料组。
这里,所述预设结束条件为所有的投诉原因信息均被划分至簇,和/或所有生成的簇,达到密度要求。
具体的,本申请实施例中,采用HDBSCAN算法进行关键句聚类。在DBSCAN算法中,一个关键字句作为一个对象。DBSCAN算法的流程如下:根据给定的邻域参数Eps和最小对象数目MinPts确定所有的核心对象;对每一个核心对象,选择一个为未处理过的核心对象,找到由其密度可达的核心对象生成聚类“簇”,3.重复以上过程,直至满足预设结束条件,输出生成的簇。
本申请实施例中,所述根据簇中每条投诉原因对应的客户投诉语料,确定出语料组,包括:
对簇中的核心投诉原因信息进行人工核检后,接收人工输入的投诉原因标签,以确定每个语料组对应的投诉原因标签。
需要说明的是,通过聚类分组得到的簇,并不等于语料组,需要通过人工核减,检测簇中的核心投诉原因信息到底是不是投诉原因,可能簇中只是一些相似的句子,并非是投诉原因;或者,将两个簇甚至多个簇合并为一个语料组,例如投诉原因为太贵为一簇,或者投诉原因为太便宜为一簇,则可以合并为产品收费问题这一个语料组,对应一个投诉原因标签。
也就是说,采用HDBSCAN聚类结果,人工打标完善客户的投诉原因标签分类,固定目录信息,以用于进行后续有监督的训练任务。
这里,示例性的,投诉原因或者不满原因,经过人工打标与聚类分析结合分为五类,依次为:服务质量问题、时效问题、产品收费问题,风险提示问题与其他。
在所述步骤S104中,将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型。
这里,所述投诉分类模型可以采用多种模型,例如TextCNN模型、fasttext模型、bert模型。
本申请实施例中,选用TextCNN模型、fasttext模型、bert模型,通过模型赛马机制对所述模型进行结果的比较;评价指标包括KS,ACC,F1-score、ROC曲线等,其中KS用于衡量模型的区分能力,KS越大,表示模型区分能力越好;ACC表示模型的精确率,F1-score表示模型召回率的调和平均数,F1-score越大,模型分类准确性越高;ROC曲线又称为感受性曲线,它能很容易地查出任意界限值时的对性能的识别能力,用于衡量模型分类的准确性。
利用赛马机制构建推荐投诉分类模型,并通过多维度的模型评价(KS,AUC,PR,AR等)标进行模型选优,评估不同的模型在相同的样本集上的差异化表现有多大,避免模型的效果在算法的选择不同而存在较大偏移,提升模型的综合指标表现。
本申请实施例中,鉴于fasttext的效果相对较为优秀,所以选用fasttext作为客户投诉类型识别的最优选择。
使用fasttext训练建模的过程与TextCNN相比,有很多相似,要经过去停用词(还包括去数字、去空格)、分词、添加标签、合并文件、打乱数据顺序等,fasttext模型和TextCNN模型主要的不同在于训练网络结构的差异;TextCNN采用词向量生成(Embedding)、卷积(Convolution)、池化(MaxPolling)、全连接和Softmax;而fasttext采用了类CBOW架构、层次softmax和N-gram特征向量,其工作原理如下:如下图5所示;图5中,X1,X2,…,XN-1,XN表示一个文本中的N个字符级别的n-gram特征向量,fasttext就是基于全部的n-gram特征向量去预测指定类别。
这里,本申请实施例中,请参照图6,将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型,包括以下步骤S601-S605;
S601、将所述语料组、语料组对应的投诉原因标签作为训练数据集,将所述训练数据集输入至投诉分类模型;
S602、针对语料组中的一条语料,通过所述投诉分类模型,提取该语料的字节片段序列,生成字节片段序列的序列特征向量;
S603、处理该语料中的词语,生成至少部分词语的词向量;
S604、将该语料中至少部分词语的词向量和生成的序列特征向量叠加,确定语料的文档向量;
S605、处理语料的文档向量,预测出该条语料的投诉原因标签,并基于该条语料所属语料组的投诉原因标签调整投诉分类模型的参数,直至投诉分类模型符合训练结束条件,得到训练好的投诉分类模型。
这里,所述序列特征向量即n-gram特征向量。
这里,所述训练结束条件包括:模型的损失函数计算结果满足预设结果阈值,即模型的预测精度满足了精度要求;或者,训练次数达到预设次数。
字节片段序列,即n-grams,是根据预设的字符数目(确定的wordNgram);fastText使用了字符级别的n-grams来表示一个文本,示例性的,对于“apple”,假设预设的字符数目的取值为3,则它的字节片段序列有:"<ap","app","ppl","ple","le>";其中<表示前缀,>表示后缀,使用这5个字节片段序列的向量叠加来表示“apple”的文本向量。
本申请实施例中,使用fasttext模型,训练轮数设置为100,wordNgram设置为4,使用8000条训练数据,训练fasttext模型生成训练好的投诉分类模型。
请参照图7,本申请实施例中,所述的投诉信息处理方法中,得到训练好的投诉分类模型之后,所述方法还包括以下步骤S701-S702;
S701、将训练好的投诉分类模型进行独立封装,并将封装好的投诉分类模型上传至宿主机;
S702、所述宿主机响应接收到目标终端的访问指令,在所述目标终端上部署投诉分类模型的本地镜像和运行程序。
具体的,使用Docker封装部署训练好的投诉分类模型的接口。
Docker是一个开源的容器引擎,它有助于更快地交付应用;Docker可将应用程序和基础设施层隔离,并且能将基础设施当作程序一样进行管理;使用Docker可更快地打包、测试以及部署应用程序,并可以缩短从编写到部署运行代码的周期;在调用服务前对数据进行了预处理,对于训练好的投诉分类模型封装成独立模块,载入内存后由flask框架直接调用,在模型服务上保证安全和高效;最后宿主机上进行访问就可以访问到封装好的投诉分类模型,然后通过Docker命令查看本地镜像和运行的程序,即可通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别;
基于Docker实现训练好的投诉分类模型的自动化部署,无需直接操作服务器来构建镜像、运行与管理镜像,更为友好,就算不会操作服务器也照样可以部署训练好的投诉分类模型,实时识别投诉信息的投诉原因类别。
在所述步骤S105中,通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别。
具体的,将所述投诉信息输入至训练好的投诉分类模型,通过所述投诉分类模型,提取该投诉信息的字节片段序列,生成字节片段序列的序列特征向量;
处理该投诉信息中词语,生成至少部分词语的词向量;
将该投诉信息中至少部分词语的词向量和生成的序列特征向量叠加,确定投诉信息的文档向量;
处理投诉信息的文档向量,预测出该条语料的投诉原因标签。
本申请实施例中,通过textrank的关键词提取+DBSCAN的关键句聚类+基于fasttext的投诉分类模型+基于Docker的自动化封装部署,使得客户投诉识别的准确率更稳健,同时也方便进行服务器的部署操作,及时把握客户投诉的原因,解决客户的投诉问题。另外,本申请实施例选择的fasttext,由于工具包中内含的fasttext模型具有十分简单的网络结构;使用fasttext模型训练词向量时使用层次softmax结构,来提升超多类别下的模型性能;同时由于fasttext模型过于简单无法捕捉词序特征,因此会进行n-gram特征提取以弥补模型缺陷提升精度;所述投诉信息处理方法为行内提供NLP(自然语言处理)和微服务架构应用的一种解决方法。项目分类准确率高,预测速度快,运行平稳,较大程度上减轻了业务人员的工作负担,对于客户关心的主要投诉事件分布,追究原因,正确把握客户投诉的方向,及时解决客户的不满,提升客服的工作效率以及客户的服务体验。
基于同一发明构思,本申请实施例中还提供了与投诉信息处理方法对应的投诉信息处理装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述投诉信息处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参照图8,图8示出了本申请实施例所述投诉信息处理装置的结构示意图,具体的,所述装置包括:
获取模块801,用于获取客户投诉语料;
提取模块802,用于提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键句;
聚类模块803,用于对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签;
训练模块804,用于将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;
确定模块805,用于通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别。
本申请实施例提出一种投诉信息处理装置,所述投诉信息处理方法获取客户投诉语料;提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键词和/或关键句;对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签;将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别;这样,在客户进行投诉时,基于客户投诉文本的自动化识别出客户投诉原因,准确、及时的把握客户投诉意图变化,实时调整服务导向,提高服务质量和效率。
在一些实施例中,投诉信息处理装置中的聚类模块,在根据聚类分析结果将客户投诉语料分成多个语料组时,具体用于:
根据聚类分析算法的预设参数,确定出核心投诉原因信息;
重复以下步骤,直至满足预设结束条件:
选择一条未处理过的核心投诉原因信息,找到该核心投诉原因信息密度可达的投诉原因信息,生成簇;
根据簇中每条核心投诉原因对应的客户投诉语料,确定出语料组。
在一些实施例中,投诉信息处理装置中的聚类模块,在根据簇中每条投诉原因对应的客户投诉语料,确定出语料组时,具体用于
对簇中的核心投诉原因信息进行人工核检后,接收人工输入的投诉原因标签,以确定每个语料组对应的投诉原因标签。
在一些实施例中,投诉信息处理装置中的提取模块,在提取出客户投诉语料中的投诉原因信息时,具体用于:
将所述客户投诉语料输入至textrank模型,通过textrank模型提取出客户投诉语料中的关键句;
将提取出的关键句作为投诉原因信息。
在一些实施例中,所述投诉信息处理装置中的获取模块,在获取客户投诉语料时,具体用于:
获取客户投诉语料;
对客户投诉语料进行预处理,得到预处理之后的客户投诉语料;
其中,所述预处理至少包括以下之一:
分词处理、词性标注处理和去除停用词处理。
在一些实施例中,所述投诉信息处理装置中训练模块,在将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型时,具体用于:
将所述语料组、语料组对应的投诉原因标签作为训练数据集,将所述训练数据集输入至投诉分类模型;
针对语料组中的一条语料,通过所述投诉分类模型,提取该语料的字节片段序列,生成字节片段序列的序列特征向量;
处理该语料中的词语,生成至少部分词语的词向量;
将该语料中至少部分词语的词向量和生成的序列特征向量叠加,确定语料的文档向量;
处理语料的文档向量,预测出该条语料的投诉原因标签,并基于该条语料所属语料组的投诉原因标签调整投诉分类模型的参数,直至投诉分类模型符合训练结束条件,得到训练好的投诉分类模型。
在一些实施例中,所述投诉信息处理装置中还包括部署模块;
所述部署模块,用于将训练好的投诉分类模型进行独立封装,并将封装好的投诉分类模型上传至宿主机;
所述宿主机响应接收到目标终端的访问指令,在所述目标终端上部署投诉分类模型的本地镜像和运行程序。
基于同一发明构思,本申请实施例中还提供了与投诉信息处理方法对应的电子设备,由于本申请实施例中的电子设备解决问题的原理与本申请实施例上述投诉信息处理方法相似,因此电子设备的实施可以参见方法的实施,重复之处不再赘述。
请参照图9,图9示出了本申请实施例所述电子设备的结构示意图,具体的,所述电子设备900,包括:处理器901、存储器902和总线,所述存储器902存储有所述处理器901可执行的机器可读指令,当电子设备900运行时,所述处理器901与所述存储器902之间通过总线通信,所述机器可读指令被所述处理器901执行时执行所述的投诉信息处理方法的步骤。
基于同一发明构思,本申请实施例中还提供了与投诉信息处理方法对应的计算机可读存储介质,由于本申请实施例中的计算机可读存储介质解决问题的原理与本申请实施例上述投诉信息处理方法相似,因此计算机可读存储介质的实施可以参见方法的实施,重复之处不再赘述。
本申请实施例中提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的投诉信息处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,平台服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种投诉信息处理方法,其特征在于,所述方法包括以下步骤:
获取客户投诉语料;
提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键句;
对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签;
将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;
通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别。
2.根据权利要求1所述的投诉信息处理方法,其特征在于,对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组,包括:
根据聚类分析算法的预设参数,确定出核心投诉原因信息;
重复以下步骤,直至满足预设结束条件:
选择一条未处理过的核心投诉原因信息,找到该核心投诉原因信息密度可达的投诉原因信息,生成簇;
根据簇中每条核心投诉原因对应的客户投诉语料,确定出语料组。
3.根据权利要求1所述的投诉信息处理方法,其特征在于,根据簇中每条投诉原因对应的客户投诉语料,确定出语料组,包括:
对簇中的核心投诉原因信息进行人工核检后,接收人工输入的投诉原因标签,以确定每个语料组对应的投诉原因标签。
4.根据权利要求1所述的投诉信息处理方法,其特征在于,所述提取出客户投诉语料中的投诉原因信息,包括:
将所述客户投诉语料输入至textrank模型,通过textrank模型提取出客户投诉语料中的关键句;
将提取出的关键句作为投诉原因信息。
5.根据权利要求1所述的投诉信息处理方法,其特征在于,获取客户投诉语料,包括:
获取客户投诉语料;
对客户投诉语料进行预处理,得到预处理之后的客户投诉语料;
其中,所述预处理至少包括以下之一:
分词处理、词性标注处理和去除停用词处理。
6.根据权利要求5所述的投诉信息处理方法,其特征在于,将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型,包括:
将所述语料组、语料组对应的投诉原因标签作为训练数据集,将所述训练数据集输入至投诉分类模型;
针对语料组中的一条语料,通过所述投诉分类模型,提取该语料的字节片段序列,生成字节片段序列的序列特征向量;
处理该语料中的词语,生成至少部分词语的词向量;
将该语料中至少部分词语的词向量和生成的序列特征向量叠加,确定语料的文档向量;
处理语料的文档向量,预测出该条语料的投诉原因标签,并基于该条语料所属语料组的投诉原因标签调整投诉分类模型的参数,直至投诉分类模型符合训练结束条件,得到训练好的投诉分类模型。
7.根据权利要求1所述的投诉信息处理方法,其特征在于,得到训练好的投诉分类模型之后,所述方法还包括:
将训练好的投诉分类模型进行独立封装,并将封装好的投诉分类模型上传至宿主机;
所述宿主机响应接收到目标终端的访问指令,在所述目标终端上部署投诉分类模型的本地镜像和运行程序。
8.一种投诉信息处理装置,其特征在于,所述装置包括:
获取模块,用于获取客户投诉语料;
提取模块,用于提取出客户投诉语料中的投诉原因信息;所述投诉原因信息包括表征客户投诉原因的关键句;
聚类模块,用于对所述投诉原因信息进行聚类分析,根据聚类分析结果将客户投诉语料分成多个语料组;其中,每个语料组对应一投诉原因标签;
训练模块,用于将所述语料组、语料组对应的投诉原因标签作为训练数据集,训练投诉分类模型,得到训练好的投诉分类模型;
确定模块,用于通过所述训练好的投诉分类模型处理投诉信息,确定投诉信息的投诉原因类别。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任意一项所述的投诉信息处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任意一项所述的投诉信息处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310341320.2A CN116795978A (zh) | 2023-03-27 | 2023-03-27 | 一种投诉信息处理方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310341320.2A CN116795978A (zh) | 2023-03-27 | 2023-03-27 | 一种投诉信息处理方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116795978A true CN116795978A (zh) | 2023-09-22 |
Family
ID=88039233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310341320.2A Pending CN116795978A (zh) | 2023-03-27 | 2023-03-27 | 一种投诉信息处理方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116795978A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726345A (zh) * | 2023-11-30 | 2024-03-19 | 北京领雁科技股份有限公司 | 一种投诉数据的处理方法、装置、电子设备及存储介质 |
-
2023
- 2023-03-27 CN CN202310341320.2A patent/CN116795978A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726345A (zh) * | 2023-11-30 | 2024-03-19 | 北京领雁科技股份有限公司 | 一种投诉数据的处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881983B (zh) | 基于分类模型的数据处理方法、装置、电子设备及介质 | |
CN110968695A (zh) | 基于弱监督技术主动学习的智能标注方法、装置及平台 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN108536868B (zh) | 社交网络上短文本数据的数据处理方法及装置 | |
CN111368130A (zh) | 客服录音的质检方法、装置、设备及存储介质 | |
CN111460131A (zh) | 公文摘要提取方法、装置、设备及计算机可读存储介质 | |
CN110321466A (zh) | 一种基于语义分析的证券资讯查重方法及系统 | |
KR102280490B1 (ko) | 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법 | |
CN111079029A (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
KR20160149050A (ko) | 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN112560461A (zh) | 新闻线索的生成方法、装置、电子设备及存储介质 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
CN115525750A (zh) | 机器人话术检测可视化方法、装置、电子设备及存储介质 | |
CN116402630A (zh) | 一种基于表征学习的财务风险预测方法及系统 | |
CN117725926A (zh) | 一种基于自然语言处理结合违规检查的评价方法及系统 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN116955534A (zh) | 投诉工单智能处理方法、装置、设备及存储介质 | |
CN113706207B (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
CN115114073A (zh) | 告警信息的处理方法及装置、存储介质、电子设备 | |
CN112308453B (zh) | 风险识别模型训练方法、用户风险识别方法及相关装置 | |
CN115393094A (zh) | 预测模型的训练方法、数据分析方法、装置以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |