CN110427959A

CN110427959A - 投诉文本的分类方法、系统和存储介质

Info

Publication number: CN110427959A
Application number: CN201910513241.9A
Authority: CN
Inventors: 余本功; 曹雨蒙; 杨颖�; 陈杨楠; 张强; 杨善林; 朱梦迪; 王胡燕; 汲浩敏
Original assignee: Hefei Polytechnic University
Current assignee: Hefei University of Technology; Hefei Polytechnic University
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-11-08

Abstract

本发明提供一种投诉文本的分类方法、系统和存储介质，涉及文本分类领域。包括以下步骤：获取投诉文本，对投诉文本预处理；基于预训练的Doc2vec模型对投诉文本进行处理，获取文本特征向量；基于预训练的隐含狄利克雷分布模型对投诉文本进行处理，获取主题特征向量；基于文本特征向量和主题特征向量获取文本向量；基于预训练的支持向量机模型对文本向量处理，得到第一分类结果；基于预训练的随机森林模型对文本向量处理，得到第二分类结果；基于bagging方法对第一分类结果和第二分类结果进行处理，得到投诉文本的分类结果。本发明可以将投诉文本准确分类。

Description

投诉文本的分类方法、系统和存储介质

技术领域

本发明涉及文本分类领域，具体涉及一种投诉文本的分类方法、系统和存储介质。

背景技术

随着互联网技术的快速发展，用户对产品和服务的要求也增多。因此，许多企业出现了产品质量不合格或用户服务体验差等现象，这会导致用户发表大量的投诉信息。但是投诉信息是多种多样的，企业需要将这些投诉信息进行分类，基于不同类别分别处理，以便解决用户提出的问题。因此，对投诉文本进行分类具有重要的意义。

现有技术提供的文本分类方法一般为：通过文本表示模型，诸如 tfidf模型等，对文本的特征进行抽取，并用文本向量表示。再将文本向量输入到分类算法中，得到分类结果。

然而现有技术提供的分类方法，在提取文本向量时，得到的向量维度过高。因此，现有技术不能很好地分析文本，导致分类结果不够准确。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种投诉文本的分类方法、系统和存储介质，解决了现有技术对投诉文本分类不准确的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明解决其技术问题所提供的一种投诉文本的分类方法，所述分类方法由计算机执行，包括以下步骤：

获取投诉文本，对所述投诉文本预处理；

基于预训练的Doc2vec模型对预处理后的投诉文本进行处理，获取文本特征向量；基于预训练的隐含狄利克雷分布模型对预处理后的投诉文本进行处理，获取主题特征向量；

基于所述文本特征向量和所述主题特征向量获取文本向量；

基于预训练的支持向量机模型对所述文本向量处理，得到第一分类结果；基于预训练的随机森林模型对所述文本向量处理，得到第二分类结果；

基于bagging方法对所述第一分类结果和所述第二分类结果进行处理，得到所述投诉文本的分类结果。

优选的，对所述投诉文本预处理，包括：

去除敏感信息和停用词；

对所述投诉文本进行分词处理。

优选的，所述主题特征向量的获取方法包括：

将所述投诉文本输入预训练的隐含狄利克雷分布模型，获得所述投诉文本的文档-主题概率分布；

基于所述文档-主题概率分布获取主题特征向量。

优选的，所述文本特征向量的获取方法包括：

所述Doc2vec模型包括DM模型和DBOW模型；

基于所述DM模型对所述投诉文本处理，得到DM文本特征向量；

基于所述DBOW模型对所述投诉文本处理，得到DBOW文本特征向量；

合并所述DM文本特征向量和所述DBOW文本特征向量，得到所述文本特征向量。

优选的，所述得到DM文本特征向量，包括：

对所述投诉文本的第一文本特征向量、所述投诉文本的第一词向量和所述投诉文本的第一网络权重随机赋值；

将所述第一文本特征向量与第一词向量拼接，并输入到所述DM 模型中；

基于随机梯度下降算法，迭代更新所述第一文本特征向量、所述第一词向量和所述第一网络权重，直至达到收敛状态；收敛状态下的第一文本特征向量即为DM文本特征向量。

优选的，所述得到DBOW文本特征向量，包括：

对所述投诉文本的第二文本特征向量、所述投诉文本的第二词向量和所述投诉文本的第二网络权重随机赋值；

将所述第二文本特征向量输入到所述DBOW模型中；

基于随机梯度下降算法，迭代更新所述第二文本特征向量、所述第二词向量和所述第二网络权重，直至达到收敛状态；收敛状态下的第二文本特征向量即为DBOW文本特征向量。

本发明解决其技术问题所提供的一种投诉文本的分类系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

获取投诉文本，对所述投诉文本预处理；

基于所述文本特征向量和所述主题特征向量获取文本向量；

优选的，所述主题特征向量的获取方法包括：

基于所述文档-主题概率分布获取主题特征向量。

优选的，所述文本特征向量的获取方法包括：

所述Doc2vec模型包括DM模型和DBOW模型；

基于所述DM模型对所述投诉文本处理，得到DM文本特征向量；

本发明解决其技术问题所提供的一种计算机可读存储介质，该介质上存储有至少一条指令，至少所述一条指令由处理器加载并执行以实现如上述的方法。

(三)有益效果

本发明提供了一种投诉文本的分类方法、系统和存储介质。与现有技术相比，具备以下有益效果：

本发明通过对投诉文本预处理；基于预训练的Doc2vec模型和隐含狄利克雷分布模型分别对投诉文本进行处理，得到文本特征向量和主题特征向量；基于文本特征向量和主题特征向量获取文本向量；基于预训练的支持向量机模型和随机森林模型分别对文本向量处理，得到第一分类结果和第二分类结果；基于bagging方法对两种分类结果进行处理，得到投诉文本的分类结果。本发明结合Doc2vec和隐含狄利克雷分布两种模型得到投诉文本的文本向量，可以得到较低维度的文本向量，因此可以更好地分析文本的语法、语义等，从而得到准确的分类结果。同时，采用支持向量机模型对文本向量进行处理，进一步降低了文本向量的维度；采用随机森林模型对文本向量进行处理，使得分类结果更加准确，也使得本发明的泛化能力更强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的投诉文本的分类方法的整体流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种投诉文本的分类方法、系统和存储介质，解决了现有技术对投诉文本分类不准确的问题，实现了投诉文本的准确分类。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过对投诉文本预处理；基于预训练的Doc2vec模型和隐含狄利克雷分布模型分别对投诉文本进行处理，得到文本特征向量和主题特征向量；基于文本特征向量和主题特征向量获取文本向量；基于预训练的支持向量机模型和随机森林模型分别对文本向量处理，得到第一分类结果和第二分类结果；基于bagging方法对两种分类结果进行处理，得到投诉文本的分类结果。本发明实施例结合Doc2vec 和隐含狄利克雷分布两种模型得到投诉文本的文本向量，可以得到较低维度的文本向量，因此可以更好地分析文本的语法、语义等，从而得到准确的分类结果。同时，采用支持向量机模型对文本向量进行处理，进一步降低了文本向量的维度；采用随机森林模型对文本向量进行处理，使得分类结果更加准确，也使得本发明实施例的泛化能力更强。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种投诉文本的分类方法，如图1所示，上述分类方法由计算机执行，包括以下步骤：

S1、获取投诉文本，对上述投诉文本预处理；

S2、基于预训练的Doc2vec模型对预处理后的投诉文本进行处理，获取文本特征向量；基于预训练的隐含狄利克雷分布模型对预处理后的投诉文本进行处理，获取主题特征向量；

S3、基于上述文本特征向量和上述主题特征向量获取文本向量；

S4、基于预训练的支持向量机模型对上述文本向量处理，得到第一分类结果；基于预训练的随机森林模型对上述文本向量处理，得到第二分类结果；

S5、基于bagging方法对上述第一分类结果和上述第二分类结果进行处理，得到上述投诉文本的分类结果。

下面对各步骤进行具体描述。

在步骤S1中，获取投诉文本，对上述投诉文本预处理。

具体的，可以从互联网平台获取待分类的投诉文本。对投诉文本进行预处理，包括：

对投诉文本去除敏感信息和停用词等。具体的，敏感词是指不文明用语。停用词是指“的”“了”“呢”一类没有实际含义但出现频率较高的词。

对投诉文本进行分词处理。具体的，本发明实施例选用Jieba分词 (一个使用汉语词法分析系统兼容的开源分词包)。

预处理的例子如下所示：

“用户反馈今天的上网信号不好，网页不能打开了”；分词处理后得到“用户，反馈，今天，的，上网，信号，不好，网页，不能，打开，了”；去停用词处理，得到“用户，反馈，今天，上网，信号，不好，网页，不能，打开”。

在步骤S2中，具体为：

S201、基于预训练的Doc2vec模型对上述投诉文本进行处理，获取文本特征向量。

具体的，Doc2Vec是一种神经网络模型，为现有技术。其包含两种网络模型：DM(Distributed Memory Model)和DBOW(Distributed Bag of Words)。

S2011、基于DM模型对投诉文本处理，得到DM文本特征向量。具体为：

S20111、对投诉文本的第一文本特征向量、第一词向量和第一网络权重随机赋值；

S20112、将第一文本特征向量与第一词向量拼接，并输入到DM 模型中；

S20113、基于随机梯度下降算法，迭代更新第一文本特征向量、第一词向量和第一网络权重，直至达到收敛状态；收敛状态下的第一文本特征向量即为DM文本特征向量。

具体的，得到的DM文本特征向量的维度为p。

S2012、基于DBOW模型对投诉文本处理，得到DBOW文本特征向量。具体为：

S20121、对投诉文本的第二文本特征向量、第二词向量和第二网络权重随机赋值；

S20122、将第二文本特征向量输入到DBOW模型中；

S20123、基于随机梯度下降算法，迭代更新第二文本特征向量、第二词向量和第二网络权重，直至达到收敛状态；收敛状态下的第二文本特征向量即为DBOW文本特征向量。

具体的，得到的DBOW文本特征向量的维度为q。

S2013、将DM文本特征向量和DBOW文本特征向量合并，得到文本特征向量。

文本特征向量为p+q维特征向量。

具体的，DM文本特征向量为：[a₁，a₂，a₃…a_p]。

其中：a₁，a₂，a₃…a_p表示DM文本特征向量从第一维到第p 维的值。

DBOW文本特征向量为：[b₁，b₂，b₃…b_q]。

其中：b₁，b₂，b₃…b_q表示DBOW文本特征向量从第一维到第 q维的值。

因此，文本特征向量为：

[a₁，a₂，a₃…a_p，b₁，b₂，b₃…b_q]。

S202、基于预训练的隐含狄利克雷分布模型(LDA)对上述投诉文本进行处理，获取主题特征向量。

具体的，将投诉文本输入预训练的LDA模型，获得投诉文本的文档-主题概率分布。根据所述文档-主题概率分布获取主题特征向量。

LDA是一个三层贝叶斯模型，为现有技术，包含文档、主题、词三层结构。每个文本以一定概率选则某个主题，并从该主题下以一定概率选择某个词得到文章中的词，文档到主题服从多项分布，主题到词服从多项分布。

本发明实施例通过LDA主题建模得到文本的主题特征向量。

具体的，上述主题特征向量的维度为k，主题特征向量可以有效地挖掘投诉文本的隐含语义信息。每篇文档的文档-主题概率分布可以表示为主题特征向量：[v₁，v₂，v₃…v_k]。

其中，v₁，v₂，v₃…v_k分别代表这篇文档中每个主题概率大小。

在步骤S3中，基于上述文本特征向量和上述主题特征向量获取文本向量。

具体的，将文本特征向量和主题特征向量合并，得到文本向量。文本向量为(k+p+q)维向量。

在步骤S4中，具体为：

S401、基于预训练的支持向量机模型(SVM)对上述文本向量处理，得到第一分类结果。

具体的，支持向量机是一类按监督学习(supervised learning)方式对数据进行二元分类(binary classification)的广义线性分类器，为现有技术。SVM在处理多分类问题上可以转化为“一对多法”和“一对一法”。为了能够更好的处理多分类问题，本发明实施例采用“一对一法”进行多分类。该方法分类的准确率较高，适用于类别较少的样本数据。

“一对多法”是在训练的时候把某类样本分为一类，其余分为另一类，假设m类样本则构造m个SVM分类器，分类时将未知样本分类为具有最大分类函数值的那类。“一对多法”每次训练需训练全部样本，训练速度较慢，且训练中由于负类样本过多，会出现样本不对称情况，分类效果不够理想。“一对一法”是对m类样本中任意两类样本构造一个SVM分类器，共设计m(m-1)/2个SVM，对一个未知分类样本，得票最多的类别为该样本类别。“一对一法”的每个分类器只需训练两类样本，故计算复杂度低、训练速度快，训练的分类器数量随着类别数量增加而增加，适用于m较小的情况。

具体的，本发明实施例中，将投诉文本分为四类：业务提供与运营管理、移动通信质量、业务宣传与市场推广、政策与业务规定制定。

例如“用户表示无法发送短信，要求一个小时内处理好。”这种投诉文本，可以把它归为“移动通信质量”类别中。

S402、基于预训练的随机森林模型(RF)对上述文本向量处理，得到第二分类结果。

其中，随机森林是利用多棵树对样本进行训练并预测的一种分类器，为现有技术。具体的，随机森林可以从样本的所有特征中随机选取多个特征，选择最佳分割特征作为节点建立CART决策树，构造多个决策树，多个决策树通过投票表决确定分类结果。随机森林中每棵树都是独立的，训练过程互不影响，通过合并多个决策树，可以获得更准确、更稳健的预测结果。

本发明实施例中，重复上述步骤以获得多组文本特征向量，分别输入到SVM和随机森林分类器中，得到多个分类结果，使得最终的分类更加准确。

在步骤S5中，基于bagging方法对上述第一分类结果和上述第二分类结果进行处理，得到上述投诉文本的分类结果。

具体的，bagging是一种用来提高学习算法准确度的方法，为现有技术。本发明实施例用bagging方法对分类结果投票。例如，共有5个 SVM分类结果，和5个RF分类结果，若其中有8个结果认为某个文本为第一类别，2个分类结果认为是第二类别，则少数服从多数，认为该文本为第一类别。

本发明实施例还提供了一种投诉文本的分类系统，上述系统包括计算机，上述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，上述至少一个存储单元中存储有至少一条指令，上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤：

获取投诉文本，对上述投诉文本预处理；

基于上训练的Doc2vec模型对预处理后的投诉文本进行处理，获取文本特征向量；基于预训练的隐含狄利克雷分布模型对预处理后的投诉文本进行处理，获取主题特征向量；

基于上述文本特征向量和上述主题特征向量获取文本向量；

基于预训练的支持向量机模型对上述文本向量处理，得到第一分类结果；基于预训练的随机森林模型对上述文本向量处理，得到第二分类结果；

基于bagging方法对上述第一分类结果和上述第二分类结果进行处理，得到上述投诉文本的分类结果。

可理解的是，本发明实施例提供的上述分类系统与上述分类方法相对应，其有关内容的解释、举例、有益效果等部分可以参考投诉文本的分类方法中的相应内容，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，上述存储介质中存储有至少一条指令，至少上述一条指令由处理器加载并执行以实现如上述方法。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例结合Doc2vec和隐含狄利克雷分布两种模型得到投诉文本的文本向量，可以解决短文本数据稀疏、特征难以抽取问题，且有效地降低了文本向量的维度，因此可以更好地分析文本的语法、语义等，从而获得更有效的文本特征。

2、本发明实施例采用SVM模型对文本向量进行处理，SVM通过使分类间隔最大化来寻找最优分割超平面，可以将数据集压缩到支持向量集合，对样本数据有效降维，对于小样本数据分类具有很好的效果。

3、本发明实施例采用随机森林模型对文本向量进行处理，随机森林是多个决策树的集成，可以很好的避免过拟合现象，在短文本分类中表现效果很好。

4、本发明实施例采用SVM和随机森林两种分类器进行集成处理，使得模型的学习性能大大提升，分类结果更加准确，也使得本发明实施例的泛化能力更强。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种投诉文本的分类方法，其特征在于，所述分类方法由计算机执行，包括以下步骤：

获取投诉文本，对所述投诉文本预处理；

基于所述文本特征向量和所述主题特征向量获取文本向量；

2.如权利要求1所述的分类方法，其特征在于，对所述投诉文本预处理，包括：

去除敏感信息和停用词；

对所述投诉文本进行分词处理。

3.如权利要求1所述的分类方法，其特征在于，所述主题特征向量的获取方法包括：

基于所述文档-主题概率分布获取主题特征向量。

4.如权利要求1所述的分类方法，其特征在于，所述文本特征向量的获取方法包括：

所述Doc2vec模型包括DM模型和DBOW模型；

基于所述DM模型对所述投诉文本处理，得到DM文本特征向量；

5.如权利要求4所述的分类方法，其特征在于，所述得到DM文本特征向量，包括：

将所述第一文本特征向量与所述第一词向量拼接，并输入到所述DM模型中；

6.如权利要求4所述的调度方法，其特征在于，所述得到DBOW文本特征向量，包括：

将所述第二文本特征向量输入到所述DBOW模型中；

7.一种投诉文本的分类系统，其特征在于，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

获取投诉文本，对所述投诉文本预处理；

基于所述文本特征向量和所述主题特征向量获取文本向量；

8.如权利要求7所述的分类系统，其特征在于，所述主题特征向量的获取方法包括：

基于所述文档-主题概率分布获取主题特征向量。

9.如权利要求1所述的分类系统，其特征在于，所述文本特征向量的获取方法包括：

所述Doc2vec模型包括DM模型和DBOW模型；

基于所述DM模型对所述投诉文本处理，得到DM文本特征向量；

10.一种计算机可读存储介质，该介质上存储有至少一条指令，至少所述一条指令由处理器加载并执行以实现如权利要求1所述的方法。