CN112231477A

CN112231477A - 一种基于改进胶囊网络的文本分类方法

Info

Publication number: CN112231477A
Application number: CN202011126137.3A
Authority: CN
Inventors: 季陈; 叶慧雯; 王子民; 赵子涵; 杨玉东; 郭新年
Original assignee: Huaiyin Institute of Technology
Current assignee: Jiangsu Shunhai Technology Co ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-15
Anticipated expiration: 2040-10-20
Also published as: CN112231477B

Abstract

本发明涉及自然语言处理技术领域，公开了一种基于改进胶囊网络的文本分类方法，包括文本数据预处理、文本建模将文本数据转换成向量数据，利用胶囊网络的局部语义特征提取模型利用双层胶囊层进行局部特征提取，并通过构建BiLSTM模型对文本向量进行上下文信息提取，最后通过softmax函数进行文本分类。与现有技术相比，本发明通过改进胶囊网络的BiLSTM‑CapsNet混合模型进行文本情感分析分类，在使用胶囊网络进行局部特征提取时，使用两层特征提取，有效的提高了短文本情感分析的准确率，提高了文本分类精度，该方法在细粒度和粗粒度情感分析实验中相较于其他方法都具有较明显的优势。

Description

一种基于改进胶囊网络的文本分类方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于改进胶囊网络的文本分类方法。

背景技术

随着互联网技术的快速发展，微信、QQ、微博等社交媒体用户数数以亿计，由此产生了大量的文本数据，其内容包括新闻资讯、热点事件、产品评论、娱乐八卦等众多方面，能够直观的反应用户的情感倾向。近年来，文本情感分析在政府舆情监控、企业管理决策、个人情绪管理等应用中发挥着重要的作用。

现有的文本分类研究基于不同的监督环境产生了三种主要的方法，非监督环境下的基于情感词典方法、监督环境下的基于机器学习方法和基于神经网络方法。基于情感词典方法方面，中国专利CN 111414755 A公开了一种基于细粒度情感词典的网络情绪分析方法，根据现有的情感资料构建细粒度微博情感词典，其存在实时性差的问题。中国专利CN105005553 B公开了一种基于词频统计的方法构建基础情感词典，对候选词语与基础情感词典中词汇的统计相关性计算来判别它的情感倾向，从而扩充基础词典，同样实时性差。基于机器学习方法方面，中国专利CN 110580286 A公开了一种基于类间信息熵的文本特征选择方法，计算出每个特征对类别的相关性大小，得分高的部分特征用于文本表示可以提升分类效果，但人为构造的文本特征过多。基于神经网络方法方面，中国专利CN 107943967 B公开了一种基于多角度卷积神经网络与循环神经网络的文本分类算法，捕获不同的文本高层特征表达，提高分类效果，但是循环神经网络存在梯度消失的问题，卷积神经网络存在不能很好的提取情感词在全文中的位置语义信息的问题。

目前，现有的文本分类方法普遍存在文本分类精度不高、短文本情感分析的准确率低，不能提取情感词在全文中的位置语义信息问题。如何解决上述问题是目前急需解决的问题。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种基于改进胶囊网络的文本分类方法，通过一种改进胶囊网络的BiLSTM-CapsNet混合模型进行文本情感分类，该模型由BiLSTM模型和改进CapsNet模型组成，结合BiLSTM模型和改进CapsNet模型构成BiLSTM-CapsNet混合模型对数据集进行训练，有效的提高了短文本情感分析的准确率，提高了文本分类精度。

技术方案：本发明提供了一种基于改进胶囊网络的文本分类方法，包括如下步骤：

步骤1：获取文本数据并对其进行文本标签设定，将其分为训练文本数据与测试文本数据，对数据预处理，去除噪声，保留具有语义特征的词汇；

步骤2：对所述去除了噪声的文本数据进行文本建模，将文本数据中的词汇转化成词向量，并将词向量进行拼接，形成文档向量；

步骤3：对步骤2中所述文档向量利用胶囊网络构建局部语义特征提取模型，进行局部语义特征提取，所述局部语义特征提取模型包括一层卷积层、两层胶囊层以及一个全连接层，卷积层通过卷积操作来提取各个位置的局部特征，两层胶囊层使用动态路由操作代替池化操作，进行两次胶囊层的特征提取；全连接层用于文本分类；

步骤4：构建BiLSTM模型，对所述步骤3中胶囊网络输出的文本向量进行上下文信息提取；

步骤5：通过步骤3胶囊网络的全连接层和softmax函数进行文本分类。

进一步地，所述步骤1中数据预处理包括：

(1)过滤文本数据中的标点符号和特殊字符；

(2)使用分词工具对其进行分词，若是英文这步操作省略；

(3)将所述文本数据使用哈工大停用词表去除没有具体语义的停用词等噪声数据；

(4)将所述文本标签数据转化为数值型数据。

进一步地，所述局部语义特征提取模型包括标准的卷积层、主胶囊层以及卷积胶囊层，标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征；主胶囊层将卷积操作中的标量输出替换为矢量输出，保留文本的单词顺序和语义信息；卷积胶囊层通过与变换矩阵相乘来计算子胶囊与父胶囊的关系，然后根据路由协议计算出上层胶囊层。

进一步地所述局部语义特征提取模型进行特征提取的详细步骤包括：

1)标准的卷积层

该层卷积层通过卷积在文本的不同位置提取N-gram特征，若X为文本中的一条文本，其长度为L，词嵌入大小为V，即X的维度大小为L×V，X_i为文本X中的第i个词语，X_i的维度为V；设N-gram滑动大小为K₁，W^α为卷积运算操作的滤波器，则W^α的维度为K₁×V，滤波器每次移动的单词窗口为X_i至X_i+K1-1，产生的特征为m^α，其维度为L-K₁+1，则每个单词特征m_i的特征如下：

其中，b₀为偏置项，f()为非线性激活函数，若有B个滤波器，即α＝1，2，...B，则所得的特征M的维度为(L-K₁+1)×B；

2)主胶囊层

设胶囊的维度为d，p_i为N-gram产生的实例化参数，M_i为每个滑动窗口的向量其维度为B，W_b表示为不同的滑动窗口的共享滤波器，其维度为B×d；生成胶囊P的维度为(L-K₁+1)×d，则P_i的表示如下：

P_i＝g(W_bM_i+b₁)

其中，g()表示非线性压缩函数，b₁为胶囊的偏置项，对于所有的滤波器C来说，胶囊特征P可以表示为如下所述：

其中，P的维度为(L-K₁+1)×d×C；

3)卷积胶囊层

胶囊通过与变换矩阵相乘来计算子胶囊与父胶囊的关系，然后根据路由协议计算出上层胶囊层。

进一步地所述标准的卷积层采用滤波器为3×100，4×100，5×100大小滤波器各128个，进行卷积运算。

进一步地所述步骤2中利用Word2vec工具依赖词袋模型或跳字模型将不可计算的非结构化的文本词汇转化成结构化的高维实数向量。

进一步地，所述BiLSTM模型以将局部语义特征提取模型的输出作为输入，设置隐藏层，激活函数为sigmoid，将输入序列从BiLSTM模型的两个方向输入，通过所述隐藏层提取文本的上下文信息。

有益效果：

本发明提供一种改进胶囊网络的BiLSTM-CapsNet混合模型进行文本情感分析分类，该方法在使用胶囊网络进行局部特征提取时，使用一层卷积层和两层胶囊层进行特征提取，使用动态路由操作代替池化操作，进行两次胶囊层的特征提取，有效的提高了短文本情感分析的准确率，提高了文本分类精度，该方法在细粒度和粗粒度情感分析实验中相较于其他方法都具有较明显的优势。

附图说明

图1为基于BiLSTM-CapsNet混合模型框图；

图2为改进胶囊网络用于文本分类模型结构图；

图3为卷积操作工作原理示意图；

图4为BiLSTM模型图；

图5为基于BiLSTM-CapsNet混合分类模型流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明公开了一种基于改进胶囊网络的文本分类方法，包括如下步骤：

步骤1：获取文本数据并对其进行文本标签设定，将其分为训练文本数据与测试文本数据，对数据预处理，去除噪声，保留具有语义特征的词汇。去除噪声主要包括：

(1)过滤文本数据中的标点符号和特殊字符；

(2)使用分词工具对其进行分词，若是英文这步操作省略；

(4)将所述文本标签数据转化为数值型数据。

步骤2：对去除了噪声的文本数据进行文本建模，将文本数据中的词汇转化成词向量，并将词向量进行拼接，形成文档向量。本发明通过Word2vec将文本中的词汇转化成词向量，Word2vec将每个词映射到一个高维向量中，训练所得的向量可以表示词对词之间的关系。Word2Vec主要依赖词袋模型(Continues Bag ofWords，CBOW)或跳字模型(Skip-gram)将不可计算的非结构化的文本词汇转化成可计算的结构化的高维实数向量。

通过Word2vec将文本中的词汇转化成词向量，设置文本预处理词向量维度为100，然后将词向量进行拼接，形成文档向量，如下所示：

其中，W(i)表示词语，V(W(i))表示词语对应的词向量。S_ij表示词向量矩阵，⊕表示词向量的拼接操作。

步骤3：对步骤2中文档向量利用胶囊网络构建局部语义特征提取模型，进行局部语义特征提取，局部语义特征提取模型包括一层卷积层和两层胶囊层以及用于文本分类的全连接层，卷积层通过卷积操作来提取各个位置的局部特征，胶囊层使用动态路由操作代替池化操作，进行两次特征提取。

局部语义特征提取模型包括标准的卷积层、主胶囊层以及卷积胶囊层，标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征。主胶囊层将卷积操作中的标量输出替换为矢量输出，保留文本的单词顺序和语义信息。卷积胶囊层通过与变换矩阵相乘来计算子胶囊与父胶囊的关系，然后根据路由协议计算出上层胶囊层。

1)标准的卷积层

其中，b₀为偏置项，f()为非线性激活函数，若有B个滤波器，即α＝1，2，...B，则所得的特征M的维度为(L-K₁+1)×B。

2)主胶囊层

P_i＝g(W_bM_i+b₁)

其中，P的维度为(L-K₁+1)×d×C。

3)卷积胶囊层

卷积胶囊层的的胶囊维度与多标签文本分类的分类数量相关，每一层都代表了每一个类型的概率，而主胶囊层的胶囊维度可任意设置。胶囊通过与变换矩阵相乘来计算子胶囊与父胶囊的关系，然后根据路由协议计算出上层胶囊层。

本发明中，卷积层采用滤波器为3×100，4×100，5×100大小滤波器各128个，进行卷积运算，通过卷积操作来提取各个位置的局部特征。

O_ij＝Conv(S_ij)

其中，O_it表示Conv层的输出。使用动态路由操作代替池化操作，进行两次胶囊层的特征提取。

g_ij＝CapsNet(O_ij)

其中，g_ij表示CapsNet的输出。

步骤4：构建BiLSTM模型，对步骤3中胶囊网络输出的文本向量进行上下文信息提取。BiLSTM模型以将局部语义特征提取模型的输出g_ij作为输入，设置隐藏层大小为128，激活函数为sigmoid，将输入序列从BiLSTM模型的两个方向输入，通过隐藏层提取文本的上下文信息。

步骤5：通过胶囊网络全连接层和softmax函数进行情感分类。

以下结合一个具体的文本分类过程的例子来说明本发明基于改进胶囊网络的BiLSTM-CapsNet混合模型进行文本情感分析的优势。实验采用了两组数据集，一组做细粒度情感分析，另一组做粗粒度情感分析。细粒度情感分析实验数据集采用的是NLPCC2014中文微博情绪识别数据集，粗粒度情感分析实验数据集为产品评论数据集。

实验采用了python作为算法的实现语言，文本分类词向量分别取200维，文本长度取固定长度100，选用Adam作为优化函数，损失函数采用交叉熵。具体模型参数设置如表1所示。

表1模型参数设置

参数	设置
		词向量	200
文本长度	100
		CapsNet隐藏节点	64
BiLSTM隐藏节点	128
		Loss	categorical_crossentropy
Optimzer	Adam
		学习率	0.01
Batch_size	128
		Dropout	0.2

实验一共对比了9组模型，其中包括SVM、K-近邻(K-Nearest Neighbor,KNN)、贝叶斯(Naive Bayes，bys)、卷积神经网络(Convolutional Neural Network，CNN)、BiLSTM、CapsNet、CNN+CapsNet、CNN+BiLSTM和本文提出的BiLSTM-CapsNet模型。从准确率、精确率、召回率和F1值四个评价指标进行比较。实验结果如表2表3所示。

表2.细粒度情感分析实验结果

表3粗粒度情感分析实验结果

模型	准确率	精确率	召回率	F1
					SVM	0.7682	0.5135	0.5128	0.5121
Bys	0.7282	0.4864	0.4840	0.4849
					KNN	0.5284	0.3522	0.3525	0.3521
CNN	0.9633	0.9639	0.9633	0.9632
					BiLSTM	0.9419	0.9422	0.9418	0.9419
CapsNet	0.9607	0.9607	0.9607	0.9607
					CNN+BiLSTM	0.9413	0.9413	0.9413	0.9413
CNN+Capsnet	0.9381	0.9394	0.9380	0.9381
					CapsNet+BiLSTM	0.9682	0.9721	0.9659	0.9689

从表2可知本文提出的模型虽然在精确率上较CNN低了1.46％，但在准确率，召回率和F1值上相较于其他模型都达到了最好的结果。支持向量机、贝叶斯和K-近邻这三种机器学习模型在细粒度情感分析实验中结果都很差，不适合用于细粒度情感分析实验。从表3中可知，本文提出的模型在进行粗粒度情感分析的实验时相对于其他模型在各项评价指标中都达到了最好的结果。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于改进胶囊网络的文本分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于改进胶囊网络的文本分类方法，其特征在于，所述步骤1中数据预处理包括：

(1)过滤文本数据中的标点符号和特殊字符；

(2)使用分词工具对其进行分词，若是英文这步操作省略；

(4)将所述文本标签数据转化为数值型数据。

3.根据权利要求1所述的基于改进胶囊网络的文本分类方法，其特征在于，所述局部语义特征提取模型包括标准的卷积层、主胶囊层以及卷积胶囊层，标准的卷积层通过多个不同的卷积核在文本句子的不同位置提取特征；主胶囊层将卷积操作中的标量输出替换为矢量输出，保留文本的单词顺序和语义信息；卷积胶囊层通过与变换矩阵相乘来计算子胶囊与父胶囊的关系，然后根据路由协议计算出上层胶囊层。

4.根据权利要求3所述的基于改进胶囊网络的文本分类方法，其特征在于，所述局部语义特征提取模型进行特征提取的详细步骤包括：

1)标准的卷积层

2)主胶囊层

P_i＝g(W_bM_i+b₁)

其中，P的维度为(L-K₁+1)×d×C；

3)卷积胶囊层

5.根据权利要求4所述的基于改进胶囊网络的文本分类方法，其特征在于，所述标准的卷积层采用滤波器为3×100，4×100，5×100大小滤波器各128个，进行卷积运算。

6.根据权利要求1至5任一所述的基于改进胶囊网络的文本分类方法，其特征在于，所述步骤2中利用Word2vec工具依赖词袋模型或跳字模型将不可计算的非结构化的文本词汇转化成结构化的高维实数向量。

7.根据权利要求1至5任一所述的基于改进胶囊网络的文本分类方法，其特征在于，所述BiLSTM模型以将局部语义特征提取模型的输出作为输入，设置隐藏层，激活函数为sigmoid，将输入序列从BiLSTM模型的两个方向输入，通过所述隐藏层提取文本的上下文信息。