CN106874410A

CN106874410A - 基于卷积神经网络的中文微博文本情绪分类方法及其系统

Info

Publication number: CN106874410A
Application number: CN201710046072.3A
Authority: CN
Inventors: 徐华; 贾霏; 孙晓民; 邓俊辉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-01-22
Filing date: 2017-01-22
Publication date: 2017-06-20

Abstract

本发明公开了一种基于卷积神经网络的中文微博文本情绪分类方法及其系统，该方法包括：获取微博数据；对微博数据进行预处理；对预处理后的微博数据使用Word2vec模型将词表征为实数值向；将不同大小的词的组合通过对应大小的滤波器上，通过前向传播，生成二维的特征图；将特征图堆积后进行池化；使用Softmax回归模型对池化后的特征图进行情绪分类。本发明具有如下优点：采用卷积神经网络算法来进行特征提取和降维，采用有监督的方法对模型进行调整，利用上述算法来抽取词与词、语句与语句之间关系中来实现无监督观点挖掘，按照事件结果、主体行为和实体对象划分形成情感分类体系对微博文本进行情感分类，提升了分类的效率和正确率。

Description

基于卷积神经网络的中文微博文本情绪分类方法及其系统

技术领域

本发明涉及计算机应用机器学习领域，具体涉及一种基于卷积神经网络的中文微博文本情绪分类方法及其系统。

背景技术

微博信息，尤其是某些热门话题的评论信息，对业界和科研人员来说都是极其宝贵的参考材料，在观点挖掘、未来预测等方面都有着极大的参考价值。

观点挖掘，也称为情绪分析，是对于人们关于某一实体的特征、组件、属性等所产生的观点、态度和情绪进行挖掘和分析的一种技术，是自然语言处理学科中重要的一个领域，得到了学术界和业界的重视。

结合产品评论，观点挖掘能十分有效地反应用户的对于某具体事物的具体观点，具有实时性、话题敏感性和多变性的特点。自然语言处理的重要组成部分，也是机器学习中的一个重要研究领域。同时，由于微博数据的多变性和数据规模的庞大，基于在线数据的观点挖掘一直是研究的热点和难点。特征抽取是观点挖掘中的重要环节，提取结果的好坏将直接影响观点挖掘的结果好坏。大多数模型往往对产品评论利用监督学习或半监督学习来进行特征提取，这需要大量的人力。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的一个目的在于提出一种基于卷积神经网络的中文微博文本情绪分类方法，提升了微博文本分类的效率和正确率。

为了实现上述目的，本发明的实施例公开了一种基于卷积神经网络的中文微博文本情绪分类方法，包括以下步骤：S1：获取微博数据；S2：对所述微博数据进行预处理，以去除所述微博数据中的无关噪声和重复数据；S3：对预处理后的微博数据使用Word2vec模型将词表征为实数值向；S4：将不同大小的词的组合通过对应大小的滤波器上，通过前向传播，生成二维的特征图；S5：将所述特征图堆积后进行池化，以实现特征降维；S6：使用Softmax回归模型对池化后的特征图进行情绪分类。

进一步地，所述预处理包括：删除网页链接、位置信息和重复的子句；将网络流行语及网络缩写在遍历用语词典获取对应的文字信息，在遍历用语词典后找不着对应含义的网络流行语及网络缩写进行人工标注；将表情符号用对应的文字代替。

进一步地，在步骤S4中，通过以下公式生成所述特征图：

mi＝W*xi,i+h-1+b,b∈R

Mi＝[m1,m2,...,mi-h+1]

N_i＝ReLU(M_i)＝max(0,M_i)

其中，x为输入到卷积层的语句的向量表示，b是偏置项，m_i为一个滤波器输出函数，M_i为原始特征，滤波器W∈R^hk，R表示向量空间，h表示窗口大小，k表示维度为k维，Relu为非线性函数。

进一步地，在步骤S5中，使用1-max策略进行所述池化。

进一步地，在步骤S6中，使用基于OCC模型的ECOCC模型进行所述情绪分类。

根据本发明实施例的基于卷积神经网络的中文微博文本情绪分类方法，用卷积神经网络算法来进行特征提取和降维，利用上述算法来抽取词与词、语句与语句之间关系中来实现无监督观点挖掘，提升了微博文本分类的效率和正确率，通过将微博文本按照事件结果、主体行为和实体对象三大部分，并通过设定的事件状态与事件标准、行为主体与行为规范、对象实体和实体标准将微博文本的情绪进行分类，形成多层次的情感分类体系可将情绪分为22种，实现与微博文本进行良好的结合，可以满足常见的情感类型分类。

为此，本发明的另一个目的在于提出一种基于卷积神经网络的中文微博文本情绪分类系统，提升了微博文本分类的效率和正确率。

为了实现上述目的，本发明的实施例公开了一种基于卷积神经网络的中文微博文本情绪分类系统，包括：信息获取模块，用于获取微博数据；数据预处理模块，用于对所述微博数据进行预处理，以去除所述微博数据中的无关噪声和重复数据；语句嵌入模块，用于对预处理后的微博数据使用Word2vec模型将词表征为实数值向；卷积模块，用于将不同大小的词的组合通过对应大小的滤波器上，通过前向传播，生成二维的特征图；池化模块，用于将所述特征图堆积后进行池化，以实现特征降维；分类模块，用于使用Softmax回归模型对池化后的特征图进行情绪分类。

进一步地，所述数据预处理模块进一步用于：删除网页链接、位置信息和重复的子句；将网络流行语及网络缩写在遍历用语词典获取对应的文字信息，在遍历用语词典后找不着对应含义的网络流行语及网络缩写进行人工标注；将表情符号用对应的文字代替。

进一步地，所述卷积模块通过以下公式生成所述特征图：

mi＝W*xi,i+h-1+b,b∈R

Mi＝[m1,m2,...,mi-h+1]

N_i＝ReLU(M_i)＝max(0,M_i)

进一步地，所述池化模块使用1-max策略进行所述池化。

进一步地，所述分类模块使用基于OCC模型的ECOCC模型进行所述情绪分类。

本发明实施例的基于卷积神经网络的中文微博文本情绪分类系统与本发明实施例的基于卷积神经网络的中文微博文本情绪分类方法相对于现有技术的优势相同。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施例的基于卷积神经网络的中文微博文本情绪分类方法的流程图；

图2是本发明实施例的基于卷积神经网络的中文微博文本情绪分类系统的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

以下结合附图描述本发明。

图1是本发明实施例的基于卷积神经网络的中文微博文本情绪分类方法的流程图。如图1所示，根据本发明实施例的基于卷积神经网络的中文微博文本情绪分类方法，包括以下步骤：

S1：获取微博数据。

具体地，使用网络爬虫方法，自动定向爬取微博数据，即可以实现针对用户的信息获取，也可以实现话题(即tag)进行话题即相关评论抽取。

S2：对所述微博数据进行预处理，以去除所述微博数据中的无关噪声和重复数据。

在本发明的一个实施例中，预处理包括：删除网页链接、位置信息和重复的子句；将网络流行语及网络缩写在遍历用语词典获取对应的文字信息，在遍历用语词典后找不着对应含义的网络流行语及网络缩写进行人工标注；将表情符号用对应的文字代替。

具体地，由于获取的微博数据均直接由评论原始数据直接导出，因此包含大量无用噪声。如许多相互重复的信息以及和预测目标无关的无用信息，这些信息会造成最后模型参数的激增，使得模型训练变得更加困难。另一方面，微博文本是一个糅合了多种语言形式的文本，例如网络流行语、网络用语缩写、网页链接和表情符号等。有些数据类型明显与情绪情感本身无关，因此需要对数据进行清洗和筛选。网页链接、位置信息以及重复的子句将被删除，网络流行语及网络缩写在遍历了用语词典后仍找不到的提醒人工标准，表情符号以文字代替。

S3：对预处理后的微博数据使用Word2vec模型将词表征为实数值向。

具体地，数据的表示方法对随后的工作至关重要。本实施例应用Word2vec模型将词表征为实数值向。其利用深度学习的思想，通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。

S4：将不同大小的词的组合通过对应大小的滤波器上，通过前向传播，生成二维的特征图。

在本发明的一个实施例中，通过以下公式生成所述特征图：

mi＝W*xi,i+h-1+b,b∈R

Mi＝[m1,m2,...,mi-h+1]

N_i＝ReLU(M_i)＝max(0,M_i)

具体地，卷积神经网络的每一个神经元从上一层的局部接受域得到突触输人，因而迫使它提取局部特征。一旦一个特征被提取出来，只要它相对于其他特征的位置被近似地保留下来，它的精确位置就变得没有那么重要了。这个特性大大提高了语句特征提取及降维的正确率和效率。

mi＝W*xi,i+h-1+b,b∈R

Mi＝[m1,m2,...,mi-h+1]

其中x为输入到该层的语句的向量表示，b是偏置项，m_i为一个滤波器输出函数，M_i为原始特征。网络的每一个计算层都是由多个特征映射组成的，每个特征映射都是平面的。平面中单独的神经元在约束下共享相同的突触权值集，这种结构形式具有平移不变性益和自由参数数量的缩减的效果。使用卷积不仅可以得到特征及特征之间的关系即相对位置，还可以弥补前期分词工作造成的错误。例如，“棒呆”是一个含有高兴情绪的词，但是分词技术常常将其切分为“棒”和“呆”，与愿意相差甚远。“好”和“像”有时作为两个单独的词连用，表示很相似，而分词技术一般讲起分为“好像”，意为似乎。卷积通过1和2及以上大小的滤波器来弥补以上错误的发生。

N_i＝ReLU(M_i)＝max(0,M_i)

使用Relu非线性函数对原始特征进行特征映射，得到特征图。

S5：将所述特征图堆积后进行池化，以实现特征降维。

在本发明的一个实施例中，使用1-max策略进行所述池化。

具体地，将每句的特征图堆积后进行池化，进行特征降维。通过提供一固定大小的输出矩阵，实现下采样，保留最显著的部分。应用已经通过实验证明最优性能的1-max策略进行池化。该方法实现了特征映射的输出对平移和其他形式的变形的敏感度下降，同时防止过拟合。

S6：使用Softmax回归模型对池化后的特征图进行情绪分类。

具体地，使用基于概率Softmax回归模型。该模型利用最小化负对数似然(MR)函数来进行优化。特征图被平铺开进入一个完全连接的多层神经网络里(全连接)，计算原始分类分数。将原始分数送入softmax函数得到标准化的概率来进行分类。

本发明的实施例采用基于OCC模型的ECOCC模型作为层次化分类体系，该模型将微博文本按照事件结果、主体行为和实体对象三大部分，并通过设定的事件状态与事件标准、行为主体与行为规范、对象实体和实体标准细分，并可以识别一层次的正负情感，二层次的高兴、生气、悲伤、恐惧和厌恶，以及三层次的22类情绪——希望，高兴，自豪，赞赏，喜欢，满意，感激，庆幸，欣慰，欣喜，满足，愤恨，愤怒，讨厌，责备，自责，恐惧，害怕，悲伤，失望，同情，悔恨。

在本发明的一个实施例中，在步骤S6之后还包括：给出机器所给出的分类结论，同时对分类模块的结论进行评判，帮助我们将该模型加以利用和进行调整工作。

图2是本发明实施例的基于卷积神经网络的中文微博文本情绪分类系统的结构框图。如图2所示，根据本发明实施例的基于卷积神经网络的中文微博文本情绪分类系统，包括：信息获取模块210、数据预处理模块220、语句嵌入模块230、卷积模块240、池化模块250和分类模块260。

其中，信息获取模块210用于获取微博数据。数据预处理模块220用于对所述微博数据进行预处理，以去除所述微博数据中的无关噪声和重复数据。语句嵌入模块230用于对预处理后的微博数据使用Word2vec模型将词表征为实数值向。卷积模块240用于将不同大小的词的组合通过对应大小的滤波器上，通过前向传播，生成二维的特征图。池化模块250用于将所述特征图堆积后进行池化，以实现特征降维。分类模块260用于使用Softmax回归模型对池化后的特征图进行情绪分类。

据本发明实施例的基于卷积神经网络的中文微博文本情绪分类系统，用卷积神经网络算法来进行特征提取和降维，利用上述算法来抽取词与词、语句与语句之间关系中来实现无监督观点挖掘，提升了微博文本分类的效率和正确率，通过将微博文本按照事件结果、主体行为和实体对象三大部分，并通过设定的事件状态与事件标准、行为主体与行为规范、对象实体和实体标准将微博文本的情绪进行分类，形成多层次的情感分类体系可将情绪分为22种，实现与微博文本进行良好的结合，可以满足常见的情感类型分类。

在本发明的一个实施例中，数据预处理模块220进一步用于：删除网页链接、位置信息和重复的子句；将网络流行语及网络缩写在遍历用语词典获取对应的文字信息，在遍历用语词典后找不着对应含义的网络流行语及网络缩写进行人工标注；将表情符号用对应的文字代替。

在本发明的一个实施例中，卷积模块240通过以下公式生成所述特征图：

mi＝W*xi,i+h-1+b,b∈R

Mi＝[m1,m2,...,mi-h+1]

N_i＝ReLU(M_i)＝max(0,M_i)

在本发明的一个实施例中，池化模块250使用1-max策略进行所述池化。

在本发明的一个实施例中，分类模块260使用基于OCC模型的ECOCC模型进行所述情绪分类。

另外，本发明实施例的基于卷积神经网络的中文微博文本情绪分类系统的其它构成以及作用对于本领域的技术人员而言都是已知的，为了减少冗余，不做赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种基于卷积神经网络的中文微博文本情绪分类方法，其特征在于，包括以下步骤：

S1：获取微博数据；

S2：对所述微博数据进行预处理，以去除所述微博数据中的无关噪声和重复数据；

S3：对预处理后的微博数据使用Word2vec模型将词表征为实数值向；

S4：将不同大小的词的组合通过对应大小的滤波器上，通过前向传播，生成二维的特征图；

S5：将所述特征图堆积后进行池化，以实现特征降维；

S6：使用Softmax回归模型对池化后的特征图进行情绪分类。

2.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法，其特征在于，所述预处理包括：

删除网页链接、位置信息和重复的子句；

将网络流行语及网络缩写在遍历用语词典获取对应的文字信息，在遍历用语词典后找不着对应含义的网络流行语及网络缩写进行人工标注；

将表情符号用对应的文字代替。

3.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法，其特征在于，在步骤S4中，通过以下公式生成所述特征图：

mi＝W*xi,i+h-1+b,b∈R

Mi＝[m1,m2,...,mi-h+1]

N_i＝ReLU(M_i)＝max(0,M_i)

4.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法，其特征在于，在步骤S5中，使用1-max策略进行所述池化。

5.根据权利要求1所述的基于卷积神经网络的中文微博文本情绪分类方法，其特征在于，在步骤S6中，使用基于OCC模型的ECOCC模型进行所述情绪分类。

6.一种基于卷积神经网络的中文微博文本情绪分类系统，其特征在于，包括：

信息获取模块，用于获取微博数据；

数据预处理模块，用于对所述微博数据进行预处理，以去除所述微博数据中的无关噪声和重复数据；

语句嵌入模块，用于对预处理后的微博数据使用Word2vec模型将词表征为实数值向；

卷积模块，用于将不同大小的词的组合通过对应大小的滤波器上，通过前向传播，生成二维的特征图；

池化模块，用于将所述特征图堆积后进行池化，以实现特征降维；

分类模块，用于使用Softmax回归模型对池化后的特征图进行情绪分类。

7.根据权利要求6所述的基于卷积神经网络的中文微博文本情绪分类系统，其特征在于，所述数据预处理模块进一步用于：

删除网页链接、位置信息和重复的子句；

将表情符号用对应的文字代替。

8.根据权利要求6所述的基于卷积神经网络的中文微博文本情绪分类系统，其特征在于，所述卷积模块通过以下公式生成所述特征图：

mi＝W*xi,i+h-1+b,b∈R

Mi＝[m1,m2,...,mi-h+1]

N_i＝ReLU(M_i)＝max(0,M_i)

9.根据权利要求6所述的基于卷积神经网络的中文微博文本情绪分类系统，其特征在于，所述池化模块使用1-max策略进行所述池化。

10.根据权利要求6所述的基于卷积神经网络的中文微博文本情绪分类系统，其特征在于，所述分类模块使用基于OCC模型的ECOCC模型进行所述情绪分类。