CN109376226A - 投诉文本的分类模型、构建方法、系统、分类方法和系统 - Google Patents

投诉文本的分类模型、构建方法、系统、分类方法和系统 Download PDF

Info

Publication number
CN109376226A
CN109376226A CN201811324875.1A CN201811324875A CN109376226A CN 109376226 A CN109376226 A CN 109376226A CN 201811324875 A CN201811324875 A CN 201811324875A CN 109376226 A CN109376226 A CN 109376226A
Authority
CN
China
Prior art keywords
text
evidence
class
value
classification results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811324875.1A
Other languages
English (en)
Inventor
杨颖�
周海芹
王珺
陈杨楠
余本功
曹雨蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201811324875.1A priority Critical patent/CN109376226A/zh
Publication of CN109376226A publication Critical patent/CN109376226A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施方式提供一种投诉文本的分类模型、构建方法、系统、分类方法和系统,属于文本分类技术领域。所述分类模型包括:预处理模块,用于读取所述投诉文本,并对所述投诉文本进行预处理;BTM模块,用于对所述投诉文本进行处理以生成主题向量;Doc2vec模块,用于对所述投诉文本进行处理以生成词向量;将所述主题向量和所述词向量进行拼接以生成特征向量;ER分类器,用于根据所述特征向量对所述投诉文本进行分类以生成分类结果。

Description

投诉文本的分类模型、构建方法、系统、分类方法和系统
技术领域
本发明涉及文本分类技术领域,具体地涉及一种投诉文本的分类模型、构建方法、系统、分类方法和系统。
背景技术
目前移动通信运营商进行投诉处理的方法主要是以客户为导向构建投诉管理体系、优化投诉处理流程、增加客服的服务渠道或者采用在线客服等。技术支撑部门接到投诉工单后,由经验丰富的技术专家进行诊断,分析引起投诉的原因,给出相应的处理意见,并交由相关的网络建设或维护部门进行处理,同时将处理意见以工单回复的形式反馈给客服中心。因此,在移动通信质量投诉问题的分析和诊断方面,还主要依赖于技术专家的经验和知识,采用人工处理方式。
为改善这一情况,电信企业应在处理投诉问题前对投诉内容进行预分类,判断投诉问题是否由服务原因所致,若是服务问题,应及时改进,若是用户自身原因导致的,则应及时提醒用户,方便其发现问题的真实原因所在。不过问题的归类却对投诉受理人员提出了很高的要求,由于很多受理人员并没有亲身实践过问题的处理过程,仅凭用户的表达很难确定问题的类别,而一旦做出了错误归类,这将会增加问题处理人员的负担。
近年来,人工智能方法在处理客户投诉方面有一些应用,少量文献提出采用文本挖掘和人工智能算法建立投诉识别系统,对投诉热点进行智能分类,从而保证在短时间内将投诉热点分类到正确的投诉导航上去。现有的短文本分类方法主要是利用外部语料库或附加信息丰富文本内容来处理稀疏问题。对于投诉短文本,很难通过外部语料对文本进行扩展,而客户投诉文本长度短,数量大,则对文本表示的维度提出了要求。在以往的研究中,文本特征提取通常使用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文本频率指数)算法或者LDA(Latent DirichletAllocation,潜在狄利克雷分布)主题模型,文本分类通常采用SVM方法,使用TF-IDF算法构建SVM分类器的输入向量存在向量维度过高,分类效率低等特点。
发明内容
本发明实施方式的目的是提供一种投诉文本的分类模型、构建方法、系统、分类方法和系统,该投诉文本的分类模型可以提高投诉文本分类的准确性;该构建方法、系统可以构建出分类准确性更高的分类模型;该分类方法、系统可以提高更加准确的对投诉文本进行分类。
为了实现上述目的,本发明实施方式提供一种投诉文本的分类模型,所述分类模型包括:
预处理模块,用于读取所述投诉文本,并对所述投诉文本进行预处理;
BTM模块,用于对所述投诉文本进行处理以生成主题向量;
Doc2vec模块,用于对所述投诉文本进行处理以生成词向量;
将所述主题向量和所述词向量进行拼接以生成特征向量;
ER分类器,用于:
根据所述特征向量对所述投诉文本进行分类以生成分类结果。
本发明的另一方面提供一种投诉文本的分类模型的构建方法,用于构建上述所述的分类模型,所述构建方法包括:
初始化分类模型;
获取投诉文本和所述投诉文本的真实分类结果;
对所述投诉文本进行预处理;
采用BTM模型对所述投诉文本进行处理以生成主题向量,其中所述主题向量的维度为N1维;
采用Doc2vec模型对所述投诉文本进行处理以生成词向量,其中,所述词向量的维度为N2维;
将所述主题向量和所述词向量进行拼接以生成维度为N的特征向量,其中,N=N1+N2
采用贝叶斯方法获取所述投诉文本的证据;
计算所述证据的权重;
采用所述分类模型的ER分类器根据所述证据和所述权重对所述投诉文本进行分类以生成分类结果;
将所述分类结果与所述真实分类结果进行比对以计算分类误差;
判断所述分类误差的变化值是否小于预设值;
在判断所述分类误差的变化值小于所述预设值的情况下,输出所述分类模型;
在判断所述分类误差的变化值大于或等于所述预设值的情况下,对所述的ER分类器的参数进行优化以更新所述分类模型,再次采用所述ER分类器对所述投诉文本进行分类并执行所述构建方法直到所述分类误差的变化值小于所述预设值。
可选地,所述预处理包括文本筛选、脱敏处理、去除停用词、过滤敏感词、建立自定义词典中的至少一者。
可选地,所述采用贝叶斯方法获取所述投诉文本的证据包括:
对所述特征向量中的每个特征值设置参考值;
将所述特征值与预设的类的对应关系转换为所述参考值与所述类的对应关系以计算所述似然度;
采用贝叶斯概率统计的方法根据所述似然度获取所述特征值和所述类之间的所述证据。
可选地,所述采用贝叶斯方法获取所述投诉文本的证据包括:
从所述特征向量中任取一个特征值作为第i个所述特征值;
根据公式(1)计算第i个所述特征值的似然度,
其中,为第i个所述特征值的第j个所述参考值,θs为第S个所述类,L为每个所述特征值对应的参考值的数量,为根据第j个所述参考值与类θs的对应关系计算的似然度;
根据公式(2)计算从第i个所述特征值获取的证据的概率,
其中,为第i个特征值对应的第j个参考值被分类至类θs的证据的概率,θs为第S个所述类,为根据第i个所述特征值的参考值与类θs的对应关系计算的似然度;
根据公式(3)获取第i个特征值对应的第j个参考值的证据,
其中,ej为第i个特征值对应的第j个参考值的证据,表示证据ej的概率支持类θS,Θ为所述类的集合,θS为第S个所述类,L为每个所述特征值对应的所述参考值的数量;
遍历所述特征向量中的每个所述特征值,以计算出每个所述特征值的似然度、概率和证据ei,并采用公式(4)表示所述证据ei
其中,ei为根据第i个特征值所获取的证据,表示证据ei的概率支持类θS,Θ为所述类的集合,θS为第S个所述类,N为所述特征值的维度。
可选地,所述计算所述证据的权重包括:
根据公式(5)计算所述证据的权重,
其中,wi为第i个证据ei的权重,diu为计算出的概率与预设值pu之间的欧氏距离,(ei,eu)为预设的均匀概率分布,θS为第S个所述类,为根据第i个特征值获取的证据支持类θS的概率值,u为所述参考值的数量和类的总数的乘积,N为所述特征值的维度。
可选地,所述采用所述分类模型的ER分类器根据所述证据和所述权重对所述投诉文本进行分类以生成分类结果包括:
根据公式(6)定义加权信度分布,
其中为证据ei对类θS的加权信度,wi为第i个证据ei的权重,为根据第i个特征值获取的证据支持类θS的概率,Θ为辨识框架,所述辨识框架为所有类的集合;
采用证据推理规则并结合所述加权信度分布计算可能分类结果,并进一步采用公式(7)、公式(8)和公式(9)表示所述可能分类结果,
其中,为前i条证据合成后预测的分类结果为类θS的概率,为前i条证据合成后对预测的分类结果为类θS的支持程度,为前i-1条证据合成后对预测的分类结果为类θS的加权信度,mp(Θ),e(i-1)为前i-1条证据合成后对p(Θ)的加权信度,为前i条证据合成后对p(Θ)的支持程度。为前i条证据合成后对D的支持程度。Θ为辨识框架,D为辨识框架的子集,ri为第i个证据ei的可靠性,wi为第i个证据ei的权重,ri=wi,p(Θ)为所述辨识框架的幂集,B和C为所述幂集的一个子集,mB,e(i-1)为前i-1条证据合成后对子集B的加权信度,mC,i为第i条证据对子集C的加权信度;
根据公式(10)生成多个所述可能分类结果,
其中,ym为第m个投诉文本的所述分类结果,θS为所述类,为前i条证据合成后预测的分类结果为类θs的概率,N为所述特征值的维度,M为所述投诉文本的数量;
从多个所述可能分类结果中选择概率值最大的可能分类结果作为生成的所述分类结果;
所述对所述ER分类器的参数进行优化以更新所述分类模型包括:
根据公式(11)的优化模型对所述ER分类器的参数进行优化,
其中,M为所述投诉文本的数量,ym为第m个投诉文本的所述分类结果,为前i条证据合成后预测的分类结果为类θs的概率,vm为概率在分类结果ym中的向量表示,为真实分类结果的向量表示,为vm之间的欧氏距离,ri第i个证据ei的可靠性。
本发明的另一方面还提供一种投诉文本的分类模型的构建系统,所述构建系统包括处理器,所述处理器用于执行上述所述的构建方法。
本发明的再一方面提供一种投诉文本的分类方法,所述分类方法包括采用上述所构建的分类模型对所述投诉文本进行分类。
本发明的再一方面还提供一种投诉文本的分类系统,所述分类系统包括处理器,所述处理器用于执行上述所述的分类方法。
通过上述技术方案,本发明提供的分类模型、分类模型的构建方法、系统和投诉文本的分类方法、系统采用BTM主题模型对投诉文本进行降维,从而将投诉文本转化为由多个主题构成的向量,更加适合短文本的主题提取;采用Doc2vec模型将投诉文本转化为词向量,从而分别从“词”的粒度层面和“文本主题”的粒度层面同时对短文本进行建模,解决短文本特征稀疏的问题以及主题聚焦性差的问题;本发明的分类模型、分类模型的构建方法、系统和投诉文本的分类方法、系统还进一步采用证据推理规则来处理数据的模糊性和不确定性,相对于现有技术中的SVM模型更加有效,这样即使在客户提供的文本信息不完整或者不准确的下,也能够给出合理地诊断结果。此外,本发明提供的构建方法也能够通过对训练文本的扩充来进一步确保构建出的分类模型的工作效率更加准确。
本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施方式的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施方式,但并不构成对本发明实施方式的限制。在附图中:
图1是根据本发明的一个实施方式的投诉文本的分类模型的构建方法的流程图;
图2是根据本发明的一个实施方式的投诉文本的分类模型的构建方法的部分流程图。
具体实施方式
以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施方式,并不用于限制本发明实施方式。
本发明的一个实施方式提供一种投诉文本的分类模型。该分类模型可以包括预处理模块、BTM模块、Doc2vec模块和ER分类器。
在本发明的该实施方式中,该投诉文本的采集可以是包括但不限于以下步骤:
1、将客服部门传递来的移动通信客户投诉工单成批或单个集成为数据集;
2、从投诉工单(或集成的数据集)中提取关键信息。在本发明的一个示例中,提取的关键信息可以是例如客户的手机号码、投诉时间和投诉地点;
3、从投诉工单中确定特征要素的状态信息。在处理某条投诉工单时,可以是例如通过云端数据库访问接口,从特征要素获取模块得到该投诉工单的关键信息所对应的特征要素的状态值。在本发明的一个示例中,该投诉文本可以是例如:
文本1:用户表示无法主叫,网络忙,表示在每天早上7点左右都不行,可以被叫,满格;
文本2:用户反映所在位置信号不好,以前反映过,现在还是信号不好,请处理,并回复用户;
文本3:用户表示上网的时候速度很慢,信号经常不稳定,要求尽快处理,三格。
预处理模块可以用于读取需要被分类的投诉文本,并对该投诉文本进行预处理。在本发明的一个示例中,该预处理的过程可以是包括但不限于文本筛选、脱敏处理、去除停用词、过滤敏感词和建立自定义词典中的至少一者。
BTM模块可以用于对投诉文本进行处理以生成主题向量。在该实施方式中,该主题向量的维度可以为N1维,该主题向量的维度N1可以由该投诉文本集的困惑度来确定。
Doc2vec模块可以用于对投诉文本进行处理以生成词向量。在该实施方式中,该词向量的维度可以为N2维,该词向量的维度N2可以是根据投诉文本的数量来确定。
ER分类器用于将该主题向量和词向量进行拼接以生成特征向量,并进一步基于证据推理的原则根据该特征向量对投诉文本进行分类以生成分类结果。在该实施方式中,该ER分类器可以是基于证据推理规则的分类器。
如图1所示,本发明的另一方面还提供一种投诉文本的分类模型的构建方法。该构建方法可以用于构建上述所述的投诉文本的分类模型。在图1中,该构建方法可以包括:
在步骤S100中,初始化分类模型。该分类模型的结构可以是上述所述的分类模型(该分类模型的参数可以是未优化或修正)。相应地,分类模型的每个部分的功能在上述的描述中已经详述,故此处不再赘述。
在步骤S110中,获取预设的投诉文本和该投诉文本的真实分类结果。
在步骤S120中,对该投诉文本进行预处理。在该实施方式中,对文本进行预处理可以是采用该分类模型的预处理模块进行预处理,该预处理可以包括但不限于文本筛选、脱敏处理、去除停用词、过滤敏感词和建立自定义词典中的至少一者。在本发明的一个示例中,该预处理模块可以是本领域人员所知的预处理模块。
在步骤S130中,采用BTM模型对投诉文本进行处理以生主题向量。在该实施方式中,该主题向量的维度可以为N1维,该主题向量的维度N1可以由该投诉文本的困惑度来确定。
在步骤S140中,采用Doc2vec模型对投诉文本进行处理以生成词向量。在该实施方式中,该词向量的维度可以为N2维,该词向量的维度N2可以是根据投诉文本的数量来确定。
在步骤S150中,将主题向量和词向量进行拼接以生成特征向量。由于该主题向量的维度为N1维,词向量的维度为N2维,那么该特征向量的维度即为N1+N2维。在该实施方式中,实现该步骤的方式可以是例如采用ER分类器将主题向量和词向量进行拼接以生成特征向量。
在步骤S160中,采用贝叶斯方法获取投诉文本的证据。可选地,在本发明的一个实施方式中,该步骤S160可以进一步包括如图2所示出的步骤。在图2中,该步骤S160可以进一步包括:
在步骤S161中,对拼接的特征向量中的每个特征值设置参考值。在本发明的一个示例中,可以以xi来表示特征向量中的第i个特征值,来表示第第i个特征值的第j个参考值。
在步骤S162中,将特征值xi与预设的类θS的对应关系转换为参考值与类θS的对应关系以计算似然度
在步骤S163中,采用贝叶斯概率统计(贝叶斯方法)的方法根据计算出的似然度获取特征值和类之间的证据。
以上述示例为例,该步骤S160也可以具体为:
1、从特征向量中任取一个特征值作为第i个所述特征值;
根据公式(1)计算第i个特征值的似然度,
其中,为第i个特征值的第j个参考值,θs为第S个类,L为每个特征值对应的参考值的数量,为根据第j个参考值与类θs的对应关系计算的似然度。从公式(1)中可知,在该示例中,类的数量可以为2。但该类的数量值仅限于补充和解释本发明,并不对本发明的保护范围造成限制。在本发明的同一技术构思下,本领域人员可以理解为其他的类的数量值对本发明也是适用的;
2、根据公式(2)计算从第i个特征值xi获取的证据的概率,
其中,为第i个特征值xi对应的的第j个参考值被分类至类θs的证据的概率,θs为第S个类,为根据第i个特征值的参考值与类θs的对应关系计算的似然度;
3、根据公式(3)获取第i个特征值xi对应的第j个参考值的证据,
其中,ej为第i个特征值对应的第j个参考值的证据,表示证据ej的概率支持类θS,Θ为所有类的集合,θS为第S个类,L为第i个每个特征值对应的参考值的数量;
4、遍历特征向量中的每个特征值,以计算出每个特征值的似然度、概率和证据ei,并采用公式(4)表示证据ei
其中,ei为根据第i个特征值特征值所获取的证据,表示证据ei的概率支持类θS,Θ为类的集合,θS为类,N为特征值的维度。
在步骤S170中,计算证据的权重。在本发明的一个示例中,该步骤S170可以具体为:
根据公式(5)计算该证据的权重,
其中,wi为第i个证据ei的权重,diu为计算出的概率与预设值pu之间的欧氏距离,(ei,eu)为预设的均匀概率分布,θS为第S个类,为根据第i个特征值获取的证据支持类θS的概率值,u为参考值的数量和类的总数的乘积,N为特征值的维度。
在步骤S180中,采用分类模型的ER分类器根据证据和权重对投诉文本进行分类以生成分类结果。在该实施方式中,该步骤S180可以具体为:
1、根据公式(6)定义加权信度分布,
其中,为证据ei对类θS的加权信度,wi为第i个证据ei的权重,为根据第i个特征值获取的证据支持类θS的概率值,Θ为辨识框架,该辨识框架为所有类的集合;进一步地,该公式(6)可以采用公式(6A)来表示,
其中,mi为第i条证据的加权信度分布,为第i条证据对类θS的加权信度,mp(Θ),i=1-wi表示证据的权重所决定的加权信度。
2、采用证据推理规则并结合加权信度分布计算可能分类结果,并进一步采用公式(7)、公式(8)和公式(9)表示可能分类结果,
其中,为前i条证据合成后预测的分类结果为类θS的概率,为前i条证据合成后对预测的分类结果为类θS的支持程度,为前i-1条证据合成后对预测的分类结果为类θS的加权信度,mp(Θ),e(i-1)为前i-1条证据合成后对p(Θ)的加权信度,为前i条证据合成后对p(Θ)的支持程度。为前i条证据合成后对D的支持程度。Θ为辨识框架,D为辨识框架的子集,ri为第i个证据ei的可靠性,wi为第i个证据ei的的权重,ri=wi,p(Θ)为辨识框架的幂集,B和C为幂集的一个子集,mB,e(i-1)为前i-1条证据合成后对子集B的加权信度,mC,i为第i条证据对子集C的加权信度;
3、根据公式(10)生成多个可能分类结果,
其中,ym为第m个投诉文本的分类结果,θS为类,为前i条证据预测的分类结果为类θs的概率,N为特征值的维度,M为投诉文本的数量;
4、从多个可能分类结果中选择概率值最大的可能分类结果作为生成的分类结果。
在步骤S190中,将分类结果与真实分类结果进行比对以计算分类误差。在该实施方式中,计算该分类误差的方式可以是本领域人员所知的计算方式,因此此处不再赘述。
在步骤S200中,判断分类误差的变化值是否小于预设值。该预设值可以是根据实际需要得到的分类模型的精度来确定。其中,该变化值可以是例如将上一次计算出的分类误差和本次计算出的分类误差进行差值计算,从而得到分类误差的变化值。此外,由于在对该分类模型进行优化之前(第一次计算分类误差时),不存在上一次计算出的分类误差,那么此时变化值也就无法计算,那么也可以在未对该分类模型进行更新的情况下,直接跳过该步骤S200,并执行步骤S210。
在步骤S220中,在判断分类误差的变化值小于预设值的情况下,输出分类模型。由于此时该变化值小于预设值,那么可以认为该分类模型的分类误差趋于收敛,继续对该分类模型进行更新的收益降低。所以可以不需要再对该分类模型进行更新。
在步骤S210中,在判断分类误差变化值大于或等于预设值的情况下,对ER分类器的参数进行优化以更新分类模型,再次采用ER分类器对该投诉文本进行分类并(步骤S180)执行该构建方法的相应步骤直到分类误差的变化率小于预设值。在该步骤S210中,对该分类模型进行优化的方式可以例如为:
根据公式(11)的优化模型对ER分类器的参数进行优化,
其中,M为投诉文本的数量,ym为第m个投诉文本的分类结果,为前i条证据合成后预测的分类结果为类θs的概率,vm为概率在分类结果ym中的向量表示,为真实分类结果的向量表示,为vm之间的欧氏距离,ri第i个证据ei的可靠性。
本发明的另一方面还提供一种投诉文本的分类模型的构建系统,该构建系统可以包括处理器,该处理器用于执行上述所述的构建方法。
本发明的再一方面提供一种投诉文本的分类模型的分类方法,该分类方法可以包括采用上述所构建的分类模型对该投诉文本进行分类。
本发明的再一方面还提供一种投诉文本的分类模型的分类系统,该系统包括可以处理器,该处理器用于执行上述所述的分类方法。
此外,上述所述的处理器均可以为通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其它类型的集成电路(IC)、状态机、系统级芯片(SOC)等。
通过上述技术方案,本发明提供的分类模型、分类模型的构建方法、系统和投诉文本的分类方法、系统采用BTM主题模型对投诉文本进行降维,从而将投诉文本转化为由多个主题构成的向量,更加适合短文本的主题提取;采用Doc2vec模型将投诉文本转化为词向量,从而分别从“词”的粒度层面和“文本主题”的粒度层面同时对短文本进行建模,解决短文本特征稀疏的问题以及主题聚焦性差的问题;本发明的分类模型、分类模型的构建方法、系统和投诉文本的分类方法、系统还进一步采用证据推理规则来处理数据的模糊性和不确定性,相对于现有技术中的SVM模型更加有效,这样即使在客户提供的文本信息不完整或者不准确的的情况下,也能够给出合理地诊断结果。此外,本发明提供的构建方法也能够通过对训练文本的扩充来进一步确保构建出的分类模型的工作效率更加准确。
以上结合附图详细描述了本发明例的可选实施方式,但是,本发明实施方式并不限于上述实施方式中的具体细节,在本发明实施方式的技术构思范围内,可以对本发明实施方式的技术方案进行多种简单变型,这些简单变型均属于本发明实施方式的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施方式对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施方式的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施方式的思想,其同样应当视为本发明实施方式所公开的内容。

Claims (10)

1.一种投诉文本的分类模型,其特征在于,所述分类模型包括:
预处理模块,用于读取所述投诉文本,并对所述投诉文本进行预处理;
BTM模块,用于对所述投诉文本进行处理以生成主题向量;
Doc2vec模块,用于对所述投诉文本进行处理以生成词向量;
将所述主题向量和所述词向量进行拼接以生成特征向量;
ER分类器,用于:
根据所述特征向量对所述投诉文本进行分类以生成分类结果。
2.一种投诉文本的分类模型的构建方法,用于构建如权利要求1所述的分类模型,其特征在于,所述构建方法包括:
初始化分类模型;
获取投诉文本和所述投诉文本的真实分类结果;
对所述投诉文本进行预处理;
采用BTM模型对所述投诉文本进行处理以生成主题向量,其中所述主题向量的维度为N1维;
采用Doc2vec模型对所述投诉文本进行处理以生成词向量,其中,所述词向量的维度为N2维;
将所述主题向量和所述词向量进行拼接以生成维度为N的特征向量,其中,N=N1+N2
采用贝叶斯方法获取所述投诉文本的证据;
计算所述证据的权重;
采用所述分类模型的ER分类器根据所述证据和所述权重对所述投诉文本进行分类以生成分类结果;
将所述分类结果与所述真实分类结果进行比对以计算分类误差;
判断所述分类误差的变化值是否小于预设值;
在判断所述分类误差的变化值小于所述预设值的情况下,输出所述分类模型;
在判断所述分类误差的变化值大于或等于所述预设值的情况下,对所述的ER分类器的参数进行优化以更新所述分类模型,再次采用所述ER分类器对所述投诉文本进行分类并执行所述构建方法直到所述分类误差的变化值小于所述预设值。
3.根据权利要求2所述的分类模型的构建方法,其特征在于,所述预处理包括文本筛选、脱敏处理、去除停用词、过滤敏感词、建立自定义词典中的至少一者。
4.根据权利要求2所述的分类模型的构建方法,其特征在于,所述采用贝叶斯方法获取所述投诉文本的证据包括:
对所述特征向量中的每个特征值设置参考值;
将所述特征值与预设的类的对应关系转换为所述参考值与所述类的对应关系以计算所述似然度;
采用贝叶斯概率统计的方法根据所述似然度获取所述特征值和所述类之间的所述证据。
5.根据权利要求2所述的分类模型的构建方法,其特征在于,所述采用贝叶斯方法获取所述投诉文本的证据包括:
从所述特征向量中任取一个特征值作为第i个所述特征值;
根据公式(1)计算第i个所述特征值的似然度,
其中,为第i个所述特征值的第j个所述参考值,θs为第S个所述类,L为每个所述特征值对应的参考值的数量,为根据第j个所述参考值与类θs的对应关系计算的似然度;
根据公式(2)计算从第i个所述特征值获取的证据的概率,
其中,为第i个特征值对应的第j个参考值被分类至类θs的证据的概率,θs为第S个所述类,为根据第i个所述特征值的参考值与类θs的对应关系计算的似然度;
根据公式(3)获取第i个特征值对应的第j个参考值的证据,
其中,ej为第i个特征值对应的第j个参考值的证据,表示证据ej的概率支持类θS,Θ为所述类的集合,θS为第S个所述类,L为每个所述特征值对应的所述参考值的数量;
遍历所述特征向量中的每个所述特征值,以计算出每个所述特征值的似然度、概率和证据ei,并采用公式(4)表示所述证据ei
其中,ei为根据第i个特征值所获取的证据,表示证据ei的概率支持类θS,Θ为所述类的集合,θS为第S个所述类,N为所述特征值的维度。
6.根据权利要求5所述的构建方法,其特征在于,所述计算所述证据的权重包括:
根据公式(5)计算所述证据的权重,
其中,wi为第i个证据ei的权重,diu为计算出的概率与预设值pu之间的欧氏距离,(ei,eu)为预设的均匀概率分布,θS为第S个所述类,为根据第i个特征值获取的证据支持类θS的概率值,u为所述参考值的数量和类的总数的乘积,N为所述特征值的维度。
7.根据权利要求6所述的构建方法,其特征在于,所述采用所述分类模型的ER分类器根据所述证据和所述权重对所述投诉文本进行分类以生成分类结果包括:
根据公式(6)定义加权信度分布,
其中,为证据ei对类θS的加权信度,wi为第i个证据ei的权重,为根据第i个特征值获取的证据支持类θS的概率,Θ为辨识框架,所述辨识框架为所有类的集合;
采用证据推理规则并结合所述加权信度分布计算可能分类结果,并进一步采用公式(7)、公式(8)和公式(9)表示所述可能分类结果,
其中,为前i条证据合成后预测的分类结果为类θS的概率,为前i条证据合成后对预测的分类结果为类θS的支持程度,为前i-1条证据合成后对预测的分类结果为类θS的加权信度,mp(Θ),e(i-1)为前i-1条证据合成后对p(Θ)的加权信度,为前i条证据合成后对p(Θ)的支持程度。为前i条证据合成后对子集D的支持程度。Θ为辨识框架,D为辨识框架的子集,ri为第i个证据ei的可靠性,wi为第i个证据ei的权重,ri=wi,p(Θ)为所述辨识框架的幂集,B和C为所述幂集的一个子集,mB,e(i-1)为前i-1条证据合成后对子集B的加权信度,mc,i为第i条证据对子集C的加权信度;
根据公式(10)生成多个所述可能分类结果,
其中,ym为第m个投诉文本的所述分类结果,θS为所述类,为前i条证据合成后预测的分类结果为类θs的概率,N为所述特征值的维度,M为所述投诉文本的数量;
从多个所述可能分类结果中选择概率值最大的可能分类结果作为生成的所述分类结果;
所述对所述ER分类器的参数进行优化以更新所述分类模型包括:
根据公式(11)的优化模型对所述ER分类器的参数进行优化,
其中,M为所述投诉文本的数量,ym为第m个投诉文本的所述分类结果,为前i条证据合成后预测的分类结果为类θs的概率,vm为概率在分类结果ym中的向量表示,为真实分类结果的向量表示,为vm之间的欧氏距离,ri第i个证据ei的可靠性。
8.一种投诉文本的分类模型的构建系统,其特征在于,所述构建系统包括处理器,所述处理器用于执行权利要求2至7任一所述的构建方法。
9.一种投诉文本的分类方法,其特征在于,所述分类方法包括采用如权利要求2至7任一构建的分类模型对所述投诉文本进行分类。
10.一种投诉文本的分类系统,其特征在于,所述分类系统包括处理器,所述处理器用于执行如权利要求9所述的分类方法。
CN201811324875.1A 2018-11-08 2018-11-08 投诉文本的分类模型、构建方法、系统、分类方法和系统 Pending CN109376226A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811324875.1A CN109376226A (zh) 2018-11-08 2018-11-08 投诉文本的分类模型、构建方法、系统、分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811324875.1A CN109376226A (zh) 2018-11-08 2018-11-08 投诉文本的分类模型、构建方法、系统、分类方法和系统

Publications (1)

Publication Number Publication Date
CN109376226A true CN109376226A (zh) 2019-02-22

Family

ID=65383840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811324875.1A Pending CN109376226A (zh) 2018-11-08 2018-11-08 投诉文本的分类模型、构建方法、系统、分类方法和系统

Country Status (1)

Country Link
CN (1) CN109376226A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427959A (zh) * 2019-06-14 2019-11-08 合肥工业大学 投诉文本的分类方法、系统和存储介质
CN111159335A (zh) * 2019-12-12 2020-05-15 中国电子科技集团公司第七研究所 基于金字塔池化与lda主题模型的短文本分类方法
CN112288446A (zh) * 2020-10-28 2021-01-29 中国联合网络通信集团有限公司 一种投诉赔付的计算方法和装置
CN112860893A (zh) * 2021-02-08 2021-05-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN113094567A (zh) * 2021-03-31 2021-07-09 四川新网银行股份有限公司 一种基于文本聚类的恶意投诉识别方法及系统
CN113591473A (zh) * 2021-07-21 2021-11-02 西北工业大学 一种基于BTM主题模型和Doc2vec的文本相似度计算方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN105516499A (zh) * 2015-12-14 2016-04-20 北京奇虎科技有限公司 一种对短信进行分类的方法、装置、通信终端及服务器
CN106909537A (zh) * 2017-02-07 2017-06-30 中山大学 一种基于主题模型和向量空间的一词多义分析方法
CN108241741A (zh) * 2017-12-29 2018-07-03 深圳市金立通信设备有限公司 一种文本分类方法、服务器及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770454A (zh) * 2010-02-13 2010-07-07 武汉理工大学 短文本特征空间扩展方法
CN105516499A (zh) * 2015-12-14 2016-04-20 北京奇虎科技有限公司 一种对短信进行分类的方法、装置、通信终端及服务器
CN106909537A (zh) * 2017-02-07 2017-06-30 中山大学 一种基于主题模型和向量空间的一词多义分析方法
CN108241741A (zh) * 2017-12-29 2018-07-03 深圳市金立通信设备有限公司 一种文本分类方法、服务器及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YING YANG等: "An evidential reasoning-based decision support system for handling customer complaints in mobile telecommunications", 《KNOWLEDGE-BASED SYSTEMS》 *
张小川,余林峰,桑瑞婷,张宜浩: "融合CNN和LDA的短文本分类研究", 《软件工程》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427959A (zh) * 2019-06-14 2019-11-08 合肥工业大学 投诉文本的分类方法、系统和存储介质
CN111159335A (zh) * 2019-12-12 2020-05-15 中国电子科技集团公司第七研究所 基于金字塔池化与lda主题模型的短文本分类方法
CN112288446A (zh) * 2020-10-28 2021-01-29 中国联合网络通信集团有限公司 一种投诉赔付的计算方法和装置
CN112288446B (zh) * 2020-10-28 2023-06-06 中国联合网络通信集团有限公司 一种投诉赔付的计算方法和装置
CN112860893A (zh) * 2021-02-08 2021-05-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN112860893B (zh) * 2021-02-08 2023-02-28 国网河北省电力有限公司营销服务中心 短文本分类方法及终端设备
CN113094567A (zh) * 2021-03-31 2021-07-09 四川新网银行股份有限公司 一种基于文本聚类的恶意投诉识别方法及系统
CN113591473A (zh) * 2021-07-21 2021-11-02 西北工业大学 一种基于BTM主题模型和Doc2vec的文本相似度计算方法
CN113591473B (zh) * 2021-07-21 2024-03-12 西北工业大学 一种基于BTM主题模型和Doc2vec的文本相似度计算方法

Similar Documents

Publication Publication Date Title
CN109376226A (zh) 投诉文本的分类模型、构建方法、系统、分类方法和系统
US11610061B2 (en) Modifying text according to a specified attribute
US20210365963A1 (en) Target customer identification method and device, electronic device and medium
US11610064B2 (en) Clarification of natural language requests using neural networks
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN109710402A (zh) 处理资源获取请求的方法、装置、计算机设备和存储介质
US20220230089A1 (en) Classifier assistance using domain-trained embedding
US20200210776A1 (en) Question answering method, terminal, and non-transitory computer readable storage medium
CN116186359B (zh) 一种高校多源异构数据的集成管理方法、系统及存储介质
CN111339277A (zh) 基于机器学习的问答交互方法及装置
CN108228622A (zh) 业务问题的分类方法及装置
CN110046648B (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
US11816443B2 (en) Method, device, and storage medium for generating response
US20230315999A1 (en) Systems and methods for intent discovery
CN115631261A (zh) 图像生成模型的训练方法、图像生成方法和装置
US20220414344A1 (en) Method and system for generating an intent classifier
CN116628163A (zh) 客服服务处理方法、装置、设备及存储介质
US20210117448A1 (en) Iterative sampling based dataset clustering
US20230070966A1 (en) Method for processing question, electronic device and storage medium
US20210400491A1 (en) System and method for classifying incoming events by user's mobile device
CN115099934A (zh) 一种高潜客户识别方法、电子设备和存储介质
CN114492446A (zh) 法律文书处理方法、装置、电子设备及存储介质
CN112749546A (zh) 医疗语义的检索匹配处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190222