CN113254590A

CN113254590A - 一种基于多核双层卷积神经网络的中文文本情绪分类方法

Info

Publication number: CN113254590A
Application number: CN202110658050.9A
Authority: CN
Inventors: 张昱; 郭茂祖; 高凯龙; 刘开峰; 苏仡琳; 李继涛
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-08-13
Anticipated expiration: 2041-06-15
Also published as: CN113254590B

Abstract

本发明公开一种基于多核双层卷积神经网络的中文文本情绪分类方法，包括：获取中文文本数据集，并对所述中文文本数据集进行预处理；分别通过若干种不同的特征提取方法对预处理后的所述中文文本数据集进行特征提取，得到若干种不同的词向量矩阵；基于多核双层卷积神经网络构建中文文本情绪分类器，并将提取的若干种不同的词向量矩阵输入至所述中文文本情绪分类器，完成对所述中文文本情绪分类器的训练；训练好的所述中文文本情绪分类器用于对中文文本进行情绪分类。本发明能够保留中文文本的显著特征，降低特征维度，避免了特征提取过于抽象及信息丢失的问题，解决了提取特征信息不足的情况，实现了对中文文本情绪的快速准确分类。

Description

一种基于多核双层卷积神经网络的中文文本情绪分类方法

技术领域

本发明涉及中文文本情绪分类技术领域，特别是涉及一种基于多核双层卷积神经网络的中文文本情绪分类方法。

背景技术

随着互联网的飞速发展，特别是Web 2.0时代的到来，网络信息传播已由单向信息发布发展为动态信息交互，用户不再仅仅是网络内容的阅读者，更成为网络内容的生产者。论坛、微博、微信、电商评论等网络交流平台不断涌现，人们越来越习惯于在网络上发表主观性的言论，以表达自己对所关注事件和政策或所购买商品与服务等的观点和看法。网络上大量用户所生成的富含情感信息的数据为情感分析提供了新的机遇。但同时，这类数据的许多独有特质也为情感分析带来新的问题。比如：微博字符长度受限，所以内容表述非常简洁，但存在数据稀疏的问题；用户生成数据中蕴含着大量的俚语和网络流行语等未登录词，以及哈希标签（hashtag）和表情符号（emoj）等特殊标记，而且常常存在拼写错误，这都为分析工作带来了困难。此外，社交网络中还存在着大量的关注、点赞、转发等社交关系数据，这些社交关系数据可以为情感分析提供不同视角的必要补充。由于上述原因，传统面向规范长文本的情感分析方法面对复杂的网络用户生成数据时，效果差强人意。因此，针对特定场景的数据需要设计专用的方法，新技术要与新应用适配。总而言之，在Web 2.0时代，用户生成数据的积累为情感分析带来了新的机遇、新的挑战和新的研究问题。

文本情感分析旨在从文本中分析并挖掘作者的态度、立场、观点和看法，是自然语言处理、人工智能与认知科学等领域的重要研究方向之一。通过计算机自动进行文本情感分析的研究始于20世纪90年代，早期研究以文本情感分类为主，即把文本按照主观倾向性分成正面、负面和中性三类，其中正面类别是指文本体现出支持的、积极的、喜欢的态度和立场；负面类别是指文本体现出反对的、消极的、厌恶的态度和立场；中性类别是指没有偏向的态度和立场。情感分类是情感分析中开展最为广泛的一项研究，很多时候情感分类被等同于情感分析。但严格说来，情感分析的研究范畴更广，涵盖观点持有者、评价对象与情感词等情感单元的抽取，以及主客观分类、情感倾向分类、情绪分类、观点摘要、观点检索、比较观点挖掘和情感演化分析等多项不同的研究内容。

发明内容

本发明的目的是提供一种基于多核双层卷积神经网络的中文文本情绪分类方法，以解决现有技术的问题，能够保留中文文本的显著特征，降低特征维度，避免了特征提取过于抽象及信息丢失的问题，还通过多种不同的卷积核解决了提取特征信息不足的问题，具有处理离散数据效果好、潜在语义分析、考虑词语多义性以及适合处理大型数据的优势，实现了对中文文本情绪的快速准确分类。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于多核双层卷积神经网络的中文文本情绪分类方法，包括：

获取中文文本数据集，并对所述中文文本数据集进行预处理；

分别通过若干种不同的特征提取方法对预处理后的所述中文文本数据集进行特征提取，得到若干种不同的词向量矩阵；

基于多核双层卷积神经网络构建中文文本情绪分类器，并将提取的若干种不同的词向量矩阵输入至所述中文文本情绪分类器，完成对所述中文文本情绪分类器的训练；训练好的所述中文文本情绪分类器用于对中文文本进行情绪分类。

优选地，对所述中文文本数据集进行预处理的方法包括：

通过可视化对所述中文文本数据集中的句子长度进行统计；

对所述中文文本数据集构造词汇表；

对所述中文文本数据集进行标准化处理。

优选地，对预处理后的所述中文文本数据集进行特征提取的方法包括：一位有效编码One-Hot、N-gram模型、共现矩阵、神经网络语言模型NNLM、Sense2vec以及FastText。

优选地，所述多核双层卷积神经网络包括：依次连接的输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、组合层、降维层、输出层；

所述输入层用于输入若干种不同的词向量矩阵；

所述第一卷积层、第二卷积层分别用于对所述中文文本数据集进行局部特征提取；

所述第一池化层、第二池化层分别用于对所述第一卷积层、第二卷积层所提取的局部文本特征信息进行最大池化；

所述组合层用于对所述第二池化层的最大池化结果进行特征融合；

所述降维层用于对所述组合层的特征融合结果进行降维处理；

所述输出层用于输出中文文本的情绪分类结果。

优选地，所述输入层包括若干个输入通道，每个所述输入通道分别用于输入不同方法生成的所述词向量矩阵。

优选地，所述第一卷积层、第二卷积层均包括若干种不同的卷积核，若干种不同卷积核的卷积核大小不同；所述第一卷积层的卷积核与所述第二卷积层的卷积核的数量相同。

优选地，所述第一卷积层的若干种卷积核分别连接一个所述第一池化层，若干个所述第一池化层分别与所述第二卷积层的若干种卷积核一一对应连接；所述第二卷积层的若干种卷积核分别连接一个所述第二池化层；若干个所述第二池化层均与所述组合层连接，通过所述组合层对若干个所述第二池化层的最大池化结果进行特征融合。

优选地，所述第一池化层、第二池化层均采用1-Max池化。

本发明公开了以下技术效果：

本发明公开了一种基于多核双层卷积神经网络的中文文本情绪分类方法，通过多种不同的特征提取方法获取中文文本数据集的词向量矩阵，并输入至基于多通道的多核双层卷积神经网络构建的中文文本情绪分类器中进行情绪分类，能够保留中文文本的显著特征，降低特征维度，避免了特征提取过于抽象及信息丢失的问题，还通过多种不同的卷积核解决了提取特征信息不足的问题，具有处理离散数据效果好、潜在语义分析、考虑词语多义性以及适合处理大型数据的优势，实现了对中文文本情绪的快速准确分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于多核双层卷积神经网络的中文文本情绪分类方法流程图；

图2为本发明实施例中句子长度统计频数直方图；

图3为本发明实施例中多核双层卷积神经网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1所示，本实施例提供一种基于多核双层卷积神经网络的中文文本情绪分类方法，包括：

S1、获取中文文本数据集，并对所述中文文本数据集进行预处理；

本实施例中，所采用的中文文本数据集源于新浪微博评论中的simplifyweibo_4_moods数据集，该数据集中包含36万多条带情感标注的新浪微博，包含4种情感，其中喜悦约20万条，愤怒、厌恶、低落各约5万条。

对所述中文文本数据集进行预处理的方法包括多种，例如，对所述中文文本数据集进行可视化，通过可视化对所述中文文本数据集中的句子长度进行统计，句子长度统计频数如图2所示；还例如，对所述中文文本数据集构造词汇表，并采用字典的方法对所述词汇表进行标准化处理，将词汇表中的词转换成词的数字向量，标准化后能够加快梯度下降的求解速度，即提升模型的收敛速度，并且减少个别特征的影响从而导致结果出现偏差的情况。

另外，本实施例中，将预处理后的所述中文文本数据集按预设比例划分为训练集文本和测试集文本，所述训练集文本用于对中文文本情绪分类器进行训练，所述测试集文本用于对中文文本情绪分类器进行性能测试。

S2、分别通过若干种不同的特征提取方法对预处理后的所述中文文本数据集进行特征提取，得到若干种不同的词向量矩阵；

该步骤中，特征提取部分提出了一种多通道特征融合词向量提取方法，多通道特征提取包括多种不同的特征，例如，本实施例中，融合了一位有效编码（One-Hot）、N-gram模型、共现矩阵、神经网络语言模型NNLM、Sense2vec以及FastText六种方法生成词向量矩阵，作为分类器输入。

One-hot编码主要是采用位状态寄存器来对各状态进行编码，每个状态都具有独立的寄存器位，并且在任意时候只有一位有效。One-hot编码是利用0和1表示一些参数，使用N位状态寄存器来对N个状态进行编码。它的优点是解决了分类器不好处理离散数据的问题。欧式空间对在回归、分类、聚类等机器学习算法中，特征之间距离计算或相似度计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。而one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点，离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。采用分类数据广泛使用的One-Hot编码,使文本向量化。

例如“我今天真的是非常的高兴”这句话，那么“高兴”这个单词就可以表示为

，“非常”可以表示为

，以此类推。

N-gram模型：N-gram模型利用上下文中相邻词间的搭配信息，在须要把连续无空格的拼音、笔划，或代表字母或笔划的数字，转换成汉字串(即句子)时，能够计算出具有最大概率的句子，从而实现到汉字的自己主动转换，无需用户手动选择，避开了很多汉字对应一个同样的拼音(或笔划串，或数字串)的重码问题。搜狗拼音和微软拼音的主要思想就是N-gram模型的，只是在里面多增加了一些语言学规则而已。

共现矩阵：共现矩阵顾名思义就是共同出现的意思，词文档的共现矩阵主要用于发现主题(topic)，用于主题模型，如LSA（Latent Semantic Analysis，潜在语义分析），主要用于发现主题，解决词向量相近关系的表示；将共现矩阵行(列)作为词向量。

假设有n篇文档,如果某些词经常成对出现在多篇相同的文档中,我们则认为这两个词联系非常紧密。对于文档集合,可以将n篇文档按顺序编号(i=0 ，…，n-1),将文档编导作为向量索引,这样就有一个n维的向量。当一个词出现在某个文档i中时,向量i处值为1,这样就可以通过一个类似[0,1,…,1,0]形式的向量表示一个词。

NNLM（Nerual Network Language Model，神经网络语言模型）：

优点：使用NNLM生成的词向量是可以自定义维度的，维度并不会因为新扩展词而发生改变，而且这里生成的词向量能够很好的根据特征距离度量词与词之间的相似性。NNLM本质上直接从语言模型出发，将模型最优化的过程转换为求词向量表示的过程。

Sense2vec：随着Word2vec的推广，着重考虑了词语的多义性。Sense2vec利用NLP（Natuarl Language Processing，自然语言处理）方法来构建更精确的词向量。Sense2vec模型的思想非常简单，如果要处理duck的多义性问题，只需要将两个不同含义的词语赋值成不同的词向量即可。例如：1.没过多久，那两个狼狈为奸，四处作恶的盗贼就被抓住了。2.他们才到了半山腰，已经气喘吁吁，狼狈不堪，临峰翘望，山顶还远着呢，只得败兴而归。3.狼狈是两种十分凶残的动物，传说狈的前腿特别短，走路时要趴在狼的身上，没有狼它就不能行动。上述例子中，3中的狼狈是两个动物，用的是他的本意，2中的狼狈是“困苦的样子”的意思，1中的狼狈是相互勾结的意思。因此需要给狼狈将三个不同含义的词语赋值成不同的词向量。

FastText：子词嵌入。适合大型数据+高效的训练速度：能够训练模型“在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇；支持多语言表达：利用其语言形态结构，FastText能够被设计用来支持包括英语、德语、西班牙语、法语以及捷克语等多种语言。FastText的性能要比时下流行的word2vec工具明显好上不少，也比其他目前最先进的词态词汇表征要好。而且更专注于文本分类，在许多标准问题上实现当下最好的表现（例如文本倾向性分析或标签预测）。

从2009年微博成立以来，各个用户所发的微博以及评论不计其数，数据量巨大，到2018年中国新浪微博用户数超3.5亿人，如此庞大的用户群体产生的数据量不计其数，而FastText适合处理大型数据。

S3、基于多核双层卷积神经网络构建中文文本情绪分类器，并将提取的若干种不同的词向量矩阵输入至所述中文文本情绪分类器，完成对所述中文文本情绪分类器的训练；训练好的所述中文文本情绪分类器用于对中文文本进行情绪分类。

该步骤中，所述多核双层卷积神经网络的结构有很多种，例如，所述多核双层卷积神经网络包括：依次连接的输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、组合层、降维层、输出层，具体如图3所示。

其中，所述输入层用于输入若干种不同的词向量矩阵，所述输入层包括若干个输入通道，各所述输入通道分别用于输入不同方法生成的词向量矩阵；本实施例中，所述输入层包括六个输入通道，六个输入通道分别用于输入One-Hot、N-gram模型、共现矩阵、NNLM、Sense2vec以及FastText六种方法生成的词向量矩阵。所述输入层还包括数据融合层，所述数据融合层一端与若干个所述输入通道连接，另一端与所述第一卷积层连接，所述输入层用于对若干个所述输入通道所输入的词向量矩阵进行数据融合。

所述第一卷积层、第二卷积层分别用于对所述中文文本数据集进行局部特征提取；卷积神经网络的核心思想是捕捉局部特征，对于文本来说，局部特征就是由若干单词组成的滑动窗口，类似于N-gram，卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息。本实施例中，采用双层卷积，所述第一卷积层、第二卷积层均采用了若干种不同的卷积核，所述第一卷积层的卷积核与所述第二卷积层的卷积核的数量相同。本实施例中，所述第一卷积层、第二卷积层采用两种不同的卷积核，所述第一卷积层的两种卷积核分别连接一个所述第一池化层，两个所述第一池化层分别与所述第二卷积层的两种卷积核一一对应连接，所述第二卷积层的两种卷积核分别连接一个所述第二池化层，两个所述第二池化层均与所述组合层连接；所述第二卷积层的两种卷积核所述第一卷积层两种卷积核的高度分别为3、5，所述第二卷积层两种卷积核的高度分别为2、1，通过两种不同的卷积核以解决一种卷积核提取的局部文本特征信息有限的问题。本发明第一卷积层、第二卷积层的数量包括但不限于两种，可根据精度需要选择大于或等于两种卷积核。

所述第一池化层、第二池化层分别用于对所述第一卷积层、第二卷积层所提取的局部文本特征信息进行最大池化；所述第一池化层、第二池化层采用1-Max池化，即最大池化，是从每个滑动窗口产生的特征向量中筛选出一个最大的特征，然后将这些特征拼接起来构成向量表示，利用最大池化层降采样的特点，以提取到更多更重要的文本特征。

所述组合层用于对两个所述第二池化层的最大池化结果进行特征融合；

所述输出层用于输出中文文本的情绪分类结果；其中，所述第一池化层、所述第二池化层的一维向量的输出通过全连接的方式，输出层连接有一个softmax层，在输出层的全连接部分上使用Dropout技术，在模型训练时随机让网络某些隐含层节点的权重不工作，同时对输出层的全连接部分上的权值参数给予L2正则化的限制，用来减轻过拟合的程度。

本实施例中，所述中文文本情绪分类器的工作过程如下：

输入层采用六种不同方式初始化六个不同的embedding（即，通过六种不同的特征提取方法得到的词向量），通过六种不同的特征提取方法得到的向量化的中文文本是d维的词向量

，假设

、

、

、

、

、

是第

个字的六个向量表示,所以长度为

的句子表示为：

式中，

表示连接。

、

、

、

、

、

为词向量矩阵，第一卷积层、第二卷积层利用不同大小的卷积核进行卷积运算，卷积核为

的矩阵，其中，h为卷积核的高度，k为卷积核的宽度，

、

、

、

、

、

分别为词向量矩阵

、

、

、

、

、

的权值矩阵，由

、

、

、

、

、

经过两次卷积后提取的一个特征

如下式所示：

式中，f()为激活函数，

为偏置项，卷积后的特征

如下：

。

第一池化层、第二池化层采用了1-Max池化，即最大池化，是从每个滑动窗口产生的特征向量中筛选出一个最大的特征,池化操作如下：

。

第一卷积层、第二卷积层分别使用两个不同大小的卷积核来获取多个特征，二次卷积之后，通过组合层将不同大小的卷积核提取的局部文本特征信息拼接起来，得到特征向量

，如下式所示：

式中，

、

分别表示第二次卷积之后两种卷积核所输出的特征向量。

通过降维层对特征向量

进行降维，得到特征向量

，k为降维层神经元结点数。

最后通过softmax输出4个类别标签的分布概率，分布概率的最大值为识别结果，如下式所示：

式中，

为降维后的特征向量a的权值矩阵，m为类别数，

为偏置项。

本发明中文文本情绪分类方法具有如下效果：

本发明基于多核双层卷积神经网络的中文文本情绪分类方法利用构造数据索引制作词汇表,并通过本发明提出的特征融合词向量提取方法将词汇表语义映射到实数向量，并输入到本发明提出的多核双层卷积神经网络分类器中进行分类。通过实验验证，本发明多核双层卷积神经网络的中文文本情绪分类方法的分类准确率达89%，远优于传统持向量机分类方法的80%。相比于其他方法，本发明提出的多通道特征融合的多核双层卷积神经网络具有保留显著特征、降低特征维度的特点，同时对特征分类效果好；而相比于传统的双层CNN和多层CNN，本发明多通道特征融合的多核双层卷积神经网络既没有多层CNN对特征提取过于抽象丢失信息的问题，还通过使用多种不同卷积核解决了双层CNN提取特征信息不足的问题；同时，本发明在embedding层使用了特征融合词向量的提取方法，使得中文文本情绪分类器具有处理离散数据效果好、潜在语义分析、考虑词语多义性以及适合处理大型数据等优势。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于多核双层卷积神经网络的中文文本情绪分类方法，其特征在于，包括：

2.根据权利要求1所述的基于多核双层卷积神经网络的中文文本情绪分类方法，其特征在于，对所述中文文本数据集进行预处理的方法包括：

通过可视化对所述中文文本数据集中的句子长度进行统计；

对所述中文文本数据集构造词汇表；

对所述中文文本数据集进行标准化处理。

3.根据权利要求1所述的基于多核双层卷积神经网络的中文文本情绪分类方法，其特征在于，对预处理后的所述中文文本数据集进行特征提取的方法包括：一位有效编码One-Hot、N-gram模型、共现矩阵、神经网络语言模型NNLM、Sense2vec以及FastText。

4.根据权利要求1所述的基于多核双层卷积神经网络的中文文本情绪分类方法，其特征在于，所述多核双层卷积神经网络包括：依次连接的输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、组合层、降维层、输出层；

所述输入层用于输入若干种不同的词向量矩阵；

所述输出层用于输出中文文本的情绪分类结果。

5.根据权利要求4所述的基于多核双层卷积神经网络的中文文本情绪分类方法，其特征在于，所述输入层包括若干个输入通道，每个所述输入通道分别用于输入不同方法生成的所述词向量矩阵。

6.根据权利要求4所述的基于多核双层卷积神经网络的中文文本情绪分类方法，其特征在于，所述第一卷积层、第二卷积层均包括若干种不同的卷积核，若干种不同卷积核的卷积核大小不同；所述第一卷积层的卷积核与所述第二卷积层的卷积核的数量相同。

7.根据权利要求6所述的基于多核双层卷积神经网络的中文文本情绪分类方法，其特征在于，所述第一卷积层的若干种卷积核分别连接一个所述第一池化层，若干个所述第一池化层分别与所述第二卷积层的若干种卷积核一一对应连接；所述第二卷积层的若干种卷积核分别连接一个所述第二池化层；若干个所述第二池化层均与所述组合层连接，通过所述组合层对若干个所述第二池化层的最大池化结果进行特征融合。

8.根据权利要求4所述的基于多核双层卷积神经网络的中文文本情绪分类方法，其特征在于，所述第一池化层、第二池化层均采用1-Max池化。