CN109739986A

CN109739986A - 一种基于深度集成学习的投诉短文本分类方法

Info

Publication number: CN109739986A
Application number: CN201811621438.6A
Authority: CN
Inventors: 岳丹阳; 方帅; 王刚; 岳学民
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-10

Abstract

本发明公开了一种基于深度集成学习的投诉短文本分类方法，包括：对客户投诉文本集进行预处理，得到预处理投诉文本集；根据预设的投诉文本的主题分类设计投诉分类标签，并将预处理投诉文本集打上相应的投诉分类标签，得到训练样本集；采用BTM主题模型对训练样本集进行文本特征提取，得到文本特征向量；采用卷积神经网络对训练样本集进行文本特征提取，得到卷积语义特征向量；采用归一化组合策略对文本特征向量和卷积语义特征向量进行归一化并融合，得到组合文本特征向量；将组合文本特征向量输入随机森林模型进行训练，根据不同决策树的差异性，采用加权法将多个决策树的分类结果进行组合，获取概率最大的类别作为训练样本集的文本分类结果。

Description

一种基于深度集成学习的投诉短文本分类方法

技术领域

本发明涉及文本分类技术领域，尤其涉及一种基于深度集成学习的投诉短文本分类方法。

背景技术

目前移动通信运营商进行客户投诉工单分类的方法主要是采用文本挖掘和人工智能算法建立投诉识别系统，对投诉工单进行智能分类，从而保证在短时间内将投诉工单分配给合适的技术支撑部门进行处理。由于客户投诉文本的长度短，数量大，而引起投诉的原因又多种多样。采用传统的文本分类方法在处理短文本分类任务时就遇到了很大的困难，如文本信息量少，数据稀疏，数据总量特别大但每个个体较短，采用词频-逆向文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法或者LDA(LatentDirichlet Allocation)主题模型进行文本分类时存在向量维度过高，分类效率低等特点。由于客户投诉短文本的信息单元少，词语较为开放，词语总量大，重复率低，且词语更新快，新词、怪词出现频繁等。词频已经区分不开差距，逆向文档频率也毫无区分度，这使得传统的文本分类方法在处理短文本时有非常大的挑战。

近年来，神经网络语言模型逐步被用于学习词的分布式表示。例如基于序列的循环神经网络(Recurrent Neural Network,RNN)可以学习词序信息，在句子或文档建模中有较好的分类效果。卷积神经网络(Convolutional Neural Network,CNN)通过卷积核提取文本的n-gram特征，在文本分类任务上效果也很好。但是如何利用已有的词分布式表示去构建短文本的分布式表示依然是目前的研究重点。因此，针对投诉短文本构建一种多分类算法对于电信企业客户投诉的自动分类、客户投诉处理的效率提升和服务改善有着重要意义。

发明内容

基于背景技术存在的技术主题，本发明提出了一种基于深度集成学习的投诉短文本分类方法；

本发明提出的一种基于深度集成学习的投诉短文本分类方法，包括：

S1、对客户投诉文本集进行预处理，得到预处理投诉文本集；

S2、根据预设的投诉文本的主题分类设计投诉分类标签，并将预处理投诉文本集打上相应的投诉分类标签，得到训练样本集；

S3、采用BTM主题模型对训练样本集进行文本特征提取，得到文本特征向量；

S4、采用卷积神经网络对训练样本集进行文本特征提取，得到卷积语义特征向量；

S5、采用归一化组合策略对文本特征向量和卷积语义特征向量进行归一化并融合，得到组合文本特征向量；

S6、将组合文本特征向量输入随机森林模型进行训练，根据不同决策树的差异性，采用加权法将多个决策树的分类结果进行组合，将组合后概率最大的类别作为训练样本集的文本分类结果并输出。

优选地，步骤S1，具体包括：

对客户投诉文本集中客户投诉文本进行文本筛选、脱敏处理、去除停用词、过滤敏感词、建立自定义词典，得到预处理投诉文本集。

优选地，步骤S3，具体包括：

采用BTM主题模型在训练样本集中寻找词对，并去除与预设的停用词或短文本匹配的停用词和短文本；

采用BTM主题模型无监督学习获得主题-词和文档-主题概率分布，并通过吉布斯采样获得文本特征向量。

优选地，步骤S4，具体包括：

采用卷积神经网络将训练样本集映射为词向量矩阵，经过卷积与池化提取特征值，得到卷积语义特征向量。

优选地，步骤S5，具体包括：

通过以下公式对文本特征向量和卷积语义特征向量进行归一化并融合，得到组合文本特征向量其中，z_m为文本m的卷积语义特征向量，θ_m为文本m的文本特征向量。

优选地，步骤S6中，所述随机森林模型，具体包括：

采用分类回归树算法决策树作为基分类器，以Gini指数作为分裂标准选取划分属性，生成多棵决策树组成随机森林；

根据不同决策树的差异性，以每颗决策树的分类准确率作为该决策树的权重，采用加权法将多个决策树的分类结果进行组合；

将组合后概率最大的类别作为训练样本集的文本分类结果并输出。

本发明在文本特征提取时，采用BTM模型进行词对建模，强化了文本中词共现关系，更适合短文本的主题特征提取，采用卷积神经网络模型通过神经网络自动学习词和文本的向量表示，提取文本中最重要的信息，具有强大的特征提取能力，如此，既考虑了词与词之间的语义相关性，又充分提取特征进行文本的分布式表示，同时解决了短文本信息量较少和特征稀疏主题，采用随机森林分类器对客户投诉文本进行分类，提高了神经网络的泛化学习能力，通过集成学习方法组合多颗决策树，使分类模型对异常值和噪声具有较好的容忍性和鲁棒性。

附图说明

图1为本发明提出的一种基于深度集成学习的投诉短文本分类方法的流程示意图；

图2为本发明中BTM主题模型示意图。

具体实施方式

参照图1和图2，本发明提出的一种基于深度集成学习的投诉短文本分类方法，包括：

步骤S1，对客户投诉文本集进行预处理，得到预处理投诉文本集。

本步骤具体包括：对客户投诉文本集中客户投诉文本进行文本筛选、脱敏处理、去除停用词、过滤敏感词、建立自定义词典，得到预处理投诉文本集。

在具体方案中，首先对客户投诉文本集进行预处理，预处理过程包括文本筛选、脱敏处理、去除停用词、过滤敏感词、建立自定义词典。

例如：客户投诉文本主要面对移动通信行业，所以将移动通信业的特有名词如“大王卡”、“元卡”等定义为用户词典加入分词库中。

步骤S2，根据预设的投诉文本的主题分类设计投诉分类标签，并将预处理投诉文本集打上相应的投诉分类标签，得到训练样本集。

在具体方案中，根据已有投诉文本的主题分类，设计投诉分类标签，将预处理后的投诉文本集打上相应的标签，从而形成模型构建所需的训练样本集。

步骤S3，采用BTM主题模型对训练样本集进行文本特征提取，得到文本特征向量。

本步骤具体包括：采用BTM主题模型在训练样本集中寻找词对，并去除与预设的停用词或短文本匹配的停用词和短文本；采用BTM主题模型无监督学习获得主题-词和文档-主题概率分布，并通过吉布斯采样获得文本特征向量。

在具体方案中，为提高文本分类的准确性，减少无意义词语造成的噪音干扰，还需要去除停用词，选取1803个停用词，作为停用词表放在记事本文件里，以Python库中的jieba包作为分词工具，分词完毕后进一步去除停用词。

词对是指对文档预处理后，任意共现的两个词。对整个语料库中的词对进行建模学习，可以克服短文本稀疏主题并考虑词与词之间的语义联系。采用BTM方法在整个语料集中寻找词对，使用整个语料集中聚集的“词对”，来解决单个文本稀疏性强的问题，和LDA方法相比，它不是基于文档建模，而是在词对的基础上建模，利用整个语料集的词共现现象降低短文本的稀疏性，BTM主题模型如图2所示，在对文档建模前，，采用Gibbs抽样算法对BTM进行参数估计，确定最优主题数K。假设词对集B中包含多个词对b＝(ω_i，ω_j)，p(b)表示BTM模型产生词对b的概率，该模型的困惑度为：通过选取不同的主题数目进行Gibbs抽样，迭代次数以1000为例，当BTM模型对应的困惑度最小时，可以得到主题数K，预设先验参数α＝50/K和β＝0.01，由于语料库的主题分布θ_m(m＝1，...，M)服从狄利克雷分布Dir(α)，主题-词分布服从狄利克雷分布Dir(β)，其中，M为数据集中总的文档数。经过Gibbs采样后，可以得到θ_m和其中，θ_m＝[θ_m，1，θ_m，2，…，θ_m，k]即文本特征向量。

步骤S4，采用卷积神经网络对训练样本集进行文本特征提取，得到卷积语义特征向量。

本步骤具体包括：采用卷积神经网络将训练样本集映射为词向量矩阵，经过卷积与池化提取特征值，得到卷积语义特征向量。

在具体方案中，为了增加文本特征向量对文本主题的区分性，在卷积语义特征的基础上加入主题建模信息，采用BTM主题模型与卷积神经网络相结合的方法进行文本特征提取，首先，采用BTM方法在整个语料集中寻找词对，消除不恰当的停用词和短文本对文本信息挖掘准确性的影响，通过BTM无监督的学习获得主题-词和文档-主题概率分布，并通过吉布斯采样获得文本特征向量，然后，通过卷积神经网络将训练样本集映射为词向量矩阵，经过卷积与池化提取特征值，获得卷积语义特征向量。

卷积神经网络包含三层神经网络：

词向量层，输入文本m被映射为词向量矩阵x₁:n＝[x₁，x₂，…，x_n]∈R^n×k，其中，n表示输入文本的长度，k表示词向量的长度，x_i代表第i个词对应的词向量；

卷积层，滤波器w∈R^h×k每一步在一个高度为h的窗口内进行卷积操作，提取出一个新的特征，直到完成所有的卷积运算，得到相应的特征图c∈R；

池化层，为了获取输入文本中最有用的文本片段，对时序特征图c进行最大池化操作，提取出最大值即滤波器w提取的最终特征值，假设一共有m个滤波器，则通过卷积池化运算，这m个滤波器提取特征值，最终组成隐层的特征向量:z_m＝[c₁，c₂，…，c_m]，即卷积语义特征向量。

步骤S5，采用归一化组合策略对文本特征向量和卷积语义特征向量进行归一化并融合，得到组合文本特征向量。

本步骤具体包括：通过以下公式对文本特征向量和卷积语义特征向量进行归一化并融合，得到组合文本特征向量其中，z_m为文本m的卷积语义特征向量，θ_m为文本m的文本特征向量。

在具体方案中，对训练样本集中任一文本m而言，在卷积语义特征向量z_m的基础上加入BTM主题模型获得的潜在主题信息θ_m，得到组合文本特征向量υ_m＝[z_m，θ_m]，通过这种组合方式，新的文本特征向量υ_m同时具备卷积语义特征信息和主题建模信息，为了消除z_m和θ_m量级上的差异对组合语义特征造成的影响，采用归一化的组合策略，对两种特征分别进行归一化处理，然后再进行融合，得到组合文本特征向量

步骤S6，将组合文本特征向量输入随机森林模型进行训练，根据不同决策树的差异性，采用加权法将多个决策树的分类结果进行组合，将组合后概率最大的类别作为训练样本集的文本分类结果并输出。

本步骤中随机森林模型包括：采用分类回归树算法决策树作为基分类器，以Gini指数作为分裂标准选取划分属性，生成多棵决策树组成随机森林；根据不同决策树的差异性，以每颗决策树的分类准确率作为该决策树的权重，采用加权法将多个决策树的分类结果进行组合；将组合后概率最大的类别作为训练样本集的文本分类结果并输出。

在具体方案中，随机森林对高维稀疏情况下的文本分类有更高的性能，其在文本挖掘方面与其他算法相比有明显优势，采用随机森林模型替换CNN中的softmax模型，以Gini指数作为分裂标准来选取划分属性，Gini指数是一种不等性度量，可用于度量任何不均匀分布，数值介于0(表示完全相等)到1(表示完全不等)之间，用于描述一个集合的不纯度，即从数据集中随机抽取两个样本，其类别标记不一致的概率。假设数据集T{X，Y}中包含J个类别的样本，Gini指数的定义为：

其中，P(j|t)为类别j(j＝1，…，J)在节点t处的概率，假设离散属性T有m个可能的取值，使用T对样本集进行划分，则会产生m个分支节点，将样本集合分成m个部分，则属性T的Gini指数为：其中m为子节点的数目；n_i为子节点i处的样本数；n为母节点的样本数；

在候选属性集合中选择使得划分后Gini指数最小的属性作为最优划分属性，并根据其属性创建分支，每棵树都不进行任何剪枝操作。遍历已建好的决策树，组成随机森林；

对于随机森林的分类结果，采用加权融合的机制进行集成。假设决策树t(t＝1,…,T)的分类结果为r_t,其正确率归一化后为ω_t,T棵决策树经过加权融合后的结果为：其中I(·)为示性函数，它的取值范围是0和1，Y为可能的类别集合Y＝{y₁，y₂，...，y_J}，随机森林输出待测样本的分类结果是以加权合成后的分类结果中概率最大的类别作为训练样本集的文本分类结果。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度集成学习的投诉短文本分类方法，其特征在于，包括：

2.根据权利要求1所述的基于深度集成学习的投诉短文本分类方法，其特征在于，步骤S1，具体包括：

3.根据权利要求1所述的基于深度集成学习的投诉短文本分类方法，其特征在于，步骤S3，具体包括：

4.根据权利要求1所述的基于深度集成学习的投诉短文本分类方法，其特征在于，步骤S4，具体包括：

5.根据权利要求1所述的基于深度集成学习的投诉短文本分类方法，其特征在于，步骤S5，具体包括：

6.根据权利要求1所述的基于深度集成学习的投诉短文本分类方法，其特征在于，步骤S6中，所述随机森林模型，具体包括：