CN106202032B

CN106202032B - 一种面向微博短文本的情感分析方法及其系统

Info

Publication number: CN106202032B
Application number: CN201610489643.6A
Authority: CN
Inventors: 牟昊; 胡湛湛; 杨国辉; 梁礼欣
Original assignee: Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Current assignee: Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2018-08-28
Anticipated expiration: 2036-06-24
Also published as: CN106202032A

Abstract

本发明公开了一种面向微博短文本的情感分析方法及其系统，本发明首先利用混合高斯分布生成伪样本，利用混合高斯分布模型来为训练集中的少数类生成伪样本，从而构建一个情感倾向分布平衡的训练集，以降低数据集情感倾向分布的不平衡性对情感分类效果的影响；接着对微博文本预处理、Word2vec扩展微博、特征抽取、情感分析模型训练以及进行情感倾向性识别。利用本发明的方案，能够有效地解决当中文微博数据集出现情感倾向分布不平衡时的情感倾向识别问题，并且实施十分简单，识别率高，具有很强的实际应用价值和现实意义。

Description

一种面向微博短文本的情感分析方法及其系统

技术领域

本发明属于网络信息处理技术领域，具体涉及一种面向微博短文本的情感分析方法及其系统。

背景技术

微博作为一个普遍的社交平台，承载了海量的信息，如何有效分析和挖掘用户微博中的情感是非常有意义的。现有技术中，与传统的情感分析工作一样，对微博的情感分析方法可以分为两类。一类是基于情感词典和规则的方法，这类方法通过计算句子中负面情感词和正面情感词的个数来识别情感倾向。另一类是基于机器学习的方法，它们通过挑选合适的特征来训练模型。

例如现有专利文献中CN104331506A公开了一种面向双语微博文本的多类情感分析方法与系统，属于微博文本的情感分析技术领域，其技术方案主要包括(1)双语词典构建；(2)文本预处理；(3)文本特征空间表示；(4)利用多情感分类模型实现语料文本的情感识别任务；该方法利用小规模的情感分析归类，提高了分析的准确率。

然而，以上方法都没有意识到中文微博数据集中的情感倾向分布不平衡性对情感分类的影响，也就是说当数据集中负面情感的句子和正面情感的句子的数量相差很大时，会影响分类器的判别准确性。

例如实际生活中情感倾向分布极不平衡的例子：在微博上讨论的话题或者事件的本身往往带有很强的情感倾向性，这导致很多话题的情感倾向分布不平衡，例如“#90后暴打老人#”、等话题本身具有明显的贬义情感，而“#莫言获诺贝尔奖#”这个话题具有明显的褒义情感。数据集情感倾向分布的不平衡性恰恰是导致很多机器学习算法表现不好的重要因素，尤其是在数据集情感倾向中占少数的类别的识别效果上。此外，微博的长度比传统文本要短，这使得传统方法很难从其中抽取出很多有助于情感分类的信息，而且目前还没有一个足够大的情感词典可以覆盖所有的情感词。

Word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多NLP相关的工作，比如聚类、找同义词、词性分析等等。

CRF模型(即条件随机场模型)由Lafferty等人于2001年提出，结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。条件随机场是一个典型的判别式模型，其联合概率可以写成若干势函数联乘的形式，其中最常用的是线性链条件随机场。

Affinity Propagation聚类算法是Frey和Dueck在2007年Science上提出的一种新的聚类算法.与其他聚类算法不同，它的特性是高效、快速。而且，它允许我们不必事先确定聚类数目并且能够很好地解决非欧空间问题(如不满足对称性或者不满足三角不等式)以及大规模稀疏矩阵计算问题等。所以，它已经被广泛应用于人脸识别、基因发现、以及实物图像识别等领域。

发明内容

本发明的目的在于为解决上述现有技术中的问题，提供一种面向微博短文本的情感分析方法及其系统，属于网络信息处理技术领域，能够有效地针对解决当中文微博数据集出现情感倾向分布不平衡时的情感倾向识别问题，并且实施十分简单，识别率高，具有很强的实际应用价值和现实意义。

为实现本发明目的所采用的技术方案之一为：一种面向微博短文本的情感分析方法，其至少包括如下步骤：

生成伪样本步骤：对于一个微博文本的训练集t1，将其中的数据分为多数类maj1和少数类min1，即情感倾向占多数的数据类别为多数类，情感倾向占少数的数据类别为少数类；利用混合高斯分布模型来为训练集t1中的少数类生成伪样本，从而构建一个情感倾向分布平衡的训练集；

预处理步骤：对微博文本进行清洗过滤，并至少对微博文本进行分词、词性标注和停用词处理的操作；

扩展微博步骤：通过利用Word2vec来求微博文本中每个词的前K个相似词从而扩展微博；

特征抽取步骤：利用情感分析词典，对经过预处理步骤的微博文本进行特征抽取；

情感分析模型训练步骤：利用CRF模型对经过生成伪样本步骤和扩展微博步骤处理的微博文本进行处理，得到GWCRF模型；然后将特征抽取步骤中从微博文本提取出来的特征作为特征向量输入，来训练GWCRF模型；

情感倾向性识别步骤：利用训练好的GWCRF模型对待预测的微博文本进行情感倾向识别。

优选的，对于所述生成伪样本步骤中，还包括如下步骤：

步骤1-1、对于少数类min1，使用Affinity Propagation聚类算法将它聚成m个子类，假设{X_i}代表min1，那么聚类后的min1就可以表示为代表min1中第j个子类，其中，m代表min1聚类后的子类个数；

步骤1-2、利用混合高斯分布模型按比例为min1中的每个子类随机生成伪样本得到min2，使min2的样本数量与min1的样本数量相同或相近；为每个子类进行高斯参数估计，N_j是指min1中第j个子类的样本数，具体步骤如下：

1)计算min1中第j个子类的均值μ^j：

2)计算子类的协方差矩阵U；

3)根据协方差矩阵U和均值μ^j，为子类生成符合高斯分布的伪样本；

步骤1-3、将数据集min2和maj1集中在一起得到一个平衡训练集t2。然后将t2代替t1作为最终的训练集。

优选的，对于所述扩展微博步骤，还包括如下步骤：

步骤3-1、训练词向量，对微博文本过滤掉一些无意义的符号和网址，利用剩下的微博数据用来当训练集，然后利用Word2vec中的CBOW模型来训练词向量，最后通过该词向量来求微博文本中每个词的相似词；

步骤3-2、利用词向量扩展微博，具体步骤如下：

1)对于一条微博文本t，将它分词之后得到它的词序列，表示为(W1，W2，...，Wn)；

2)使用已经训练好的词向量来求微博文本t中每个词的前k个相似词，从而达到扩展微博句子的目的；扩展后的微博句子可以表示为(W1，W2，...，Wn，W11，W12，...，W1k，W21，W22，...，W2k，...，Wn1，Wn2，...，Wnk)，其中(W11，W12，...，W1k)代表词W1的前k个相似词。

优选的，在所述扩展微博步骤中，对于微博文本中表情符号和标点符号的处理是将它们直接保留在微博中，用于使扩展后的微博句子会比原微博句子含有更多的信息。

优选的，在所述情感倾向性识别步骤中，对待预测的微博短文本数据依次进行生成伪样本步骤、预处理步骤、扩展微博步骤、特征抽取步骤和情感分析模型训练步骤的处理，得到待预测微博短文本数据的特征向量；将待预测微博短文本数据的特征向量作为GWCRF模型输入，利用训练好的GWCRF模型对待预测微博短文本数据进行情感倾向识别。

为实现本发明目的所采用的技术方案之二为：一种面向微博短文本的情感分析系统，其至少包括如下模块：

生成伪样本模块：对于一个微博文本的训练集t1，将其中的数据分为多数类maj1和少数类min1，即情感倾向占多数的数据类别为多数类，情感倾向占少数的数据类别为少数类；利用混合高斯分布模型来为训练集t1中的少数类生成伪样本，从而构建一个情感倾向分布平衡的训练集；

预处理模块：对微博文本进行清洗过滤，并至少对微博文本进行分词、词性标注和停用词处理的操作；

扩展微博模块：通过利用Word2vec来求微博文本中每个词的前K个相似词从而扩展微博；

特征抽取模块：利用情感分析词典，对经过预处理步骤的微博文本进行特征抽取；

情感分析模型训练模块：利用CRF模型对经过生成伪样本步骤和扩展微博步骤处理的微博文本进行处理，得到GWCRF模型；然后将特征抽取步骤中从微博文本提取出来的特征作为特征向量输入，来训练GWCRF模型；

情感倾向性识别模块：利用训练好的GWCRF模型对待预测的微博文本进行情感倾向识别。

优选的，对于所述生成伪样本模块中，包括如下模块：

模块1-1、对于少数类min1，使用Affinity Propagation聚类算法将它聚成m个子类，假设{X_i}代表min1，那么聚类后的min1就可以表示为代表min1中第j个子类，其中，m代表min1聚类后的子类个数；

模块1-2、利用混合高斯分布模型按比例为min1中的每个子类随机生成伪样本得到min2，使min2的样本数量与min1的样本数量相同或相近；为每个子类进行高斯参数估计，N_j是指min1中第j个子类的样本数，具体步骤如下：

1)计算min1中第j个子类的均值μ^j：

2)计算子类的协方差矩阵U；

模块1-3、将数据集min2和maj1集中在一起得到一个平衡训练集t2。然后将t2代替t1作为最终的训练集。

优选的，对于所述扩展微博模块，包括如下步骤：

模块3-1、训练词向量，对微博文本过滤掉一些无意义的符号和网址，利用剩下的微博数据用来当训练集，然后利用Word2vec中的CBOW模型来训练词向量，最后通过该词向量来求微博文本中每个词的相似词；

模块3-2、利用词向量扩展微博，具体步骤如下：

优选的，在所述扩展微博模块中，对于微博文本中表情符号和标点符号的处理是将它们直接保留在微博中，用于使扩展后的微博句子会比原微博句子含有更多的信息。

优选的，在所述情感倾向性识别模块中，对待预测的微博短文本数据依次经过生成伪样本模块、预处理模块、扩展微博模块、特征抽取模块和情感分析模型训练模块的处理，得到待预测微博短文本数据的特征向量；将待预测微博短文本数据的特征向量作为GWCRF模型输入，利用训练好的GWCRF模型对待预测微博短文本数据进行情感倾向识别。

本发明的有益效果有：本发明首先利用混合高斯分布生成伪样本，利用混合高斯分布模型来为训练集中的少数类生成伪样本，其中少数类是指在训练集情感倾向中占少数的类别，从而构建一个情感倾向分布平衡的训练集，以降低数据集情感倾向分布的不平衡性对情感分类效果的影响；其次对微博文本预处理，对微博文本进行清洗过滤，并进行分词、词性标注和停用词处理等预处理操作；再次利用Word2vec扩展微博，通过利用Word2vec来求微博中每个词的前K个相似词从而扩展微博；然后进行特征抽取，加载与情感分析相关的词典，对前面预处理过的微博进行特征抽取；接着进行情感分析模型训练，在上面已经平衡和扩展后的训练集上训练GWCRF模型；最后进行情感倾向性识别，利用训练好的GWCRF模型对待预测的微博进行情感倾向识别。利用本发明的方案，能够有效地解决当中文微博数据集出现情感倾向分布不平衡时的情感倾向识别问题，并且实施十分简单，识别率高，具有很强的实际应用价值和现实意义。

本发明提出的基于混合高斯分布伪样本生成技术和CRF模型的情感分析方法GWCRF(Gaussian Mixture Distribution Word2vec CRF)。该方法首先利用混合高斯分布模型来为训练集中的少数类生成伪样本从而构建一个情感倾向分布平衡的训练集，然后通过使用Word2vec来扩展微博句子以丰富它的情感信息,从而缓解情感词典不足够大对情感分类的负面影响；最后将条件随机场(Conditional Random Field)模型应用在上面已经平衡和扩展后的训练集上。实验结果表明该方法比现有方法在数据集情感倾向分布不平衡时能更有效地识别微博的情感倾向。

附图说明

图1为本发明具体实施例情感分析方法的流程示意图

图2为本发明具体实施例中构建平衡训练集的方法示意图

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

实施例一、

如图1和2所示，本实施例一种面向微博短文本的情感分析方法，包括如下步骤：

生成伪样本步骤、预处理步骤、扩展微博步骤、特征抽取步骤、情感分析模型训练步骤和情感倾向性识别步骤。

下面分别叙述各步骤的具体内容：

1、生成伪样本步骤：利用混合高斯分布生成伪样本。

本实施例利用混合高斯分布模型来为训练集中的少数类生成伪样本，其中少数类是指在训练集情感倾向中占少数的类别，从而构建一个情感倾向分布平衡的训练集。

本发明的混合高斯分布生成伪样本技术分为如下几步：

(1)对于一个训练集t1，将它分为多数类maj1，即数据集中情感倾向占多数的类别，和少数类min1，即数据集的情感倾向中占少数类别。例如，在不平衡数据集“#90后暴打老人#”中，负面情感的数据会比正面情感数据的多很多，所以负面情感的数据就是多数类，正面情感的数据就是少数类。

(2)对于少数类min1，使用Affinity Propagation聚类算法将它聚成m个子类，假设{X_i}代表min1，那么聚类后的min1就可以表示为代表min1中第j个子类。

(3)为了构建平衡的数据集，利用混合高斯分析按比例为min1中的每个子类随机生成伪样本得到min2，使得min2的样本数量与min1的样本数量相近。为每个子类进行高斯参数估计，N_j是指min1中第j个子类的样本数，具体步骤如下：

1)计算min1中第j个子类的均值μ^j：

2)计算子类的协方差矩阵U；

3)根据协方差矩阵U和均值μ^j，为子类生成符合高斯分布的伪样本。

(4)将数据集min2和maj1集中在一起得到一个平衡训练集t2。然后将t2代替t1作为最终的训练集。

2、预处理步骤：对微博文本预处理。

该步骤主要工作是对微博文本进行清洗过滤，并进行分词、词性标注和停用词处理等预处理操作；

3、扩展微博步骤：利用Word2vec扩展微博。

本实施例通过利用Word2vec来求微博句子中每个词的前K个相似词从而扩展微博，具体步骤包括以下两步，分别是训练词向量和扩展微博句子。

(1)训练词向量。例如，发明人从新浪微博API收集了大量的微博语料，过滤掉一些没用符号和网址，最后剩下10G的微博数据用来当训练集。然后利用Word2vec中的CBOW模型来训练词向量，最后通过该词向量来求微博句子中每个词的相似词。

(2)利用词向量扩展微博。1)对于一条微博句子t，将它分词之后得到它的词序列，表示为(W1，W2，...，Wn)。2)使用已经训练好的词向量来求微博句子t中每个词的前k个相似词，从而达到扩展微博句子的目的。扩展后的微博句子可以表示为(W1，W2，...，Wn，W11，W12，...，W1k，W21，W22，...，W2k，...，Wn1，Wn2，...，Wnk)，其中(W11，W12，...， W1k)代表词W1的前k个相似词。3)对于微博句子中表情符号和标点符号的处理是将它们直接保留在微博中，所以扩展后的微博句子会比原微博句子含有更多的信息。

4、特征抽取步骤

(1)加载情感分析相关词典，包括情感词典、情符号词典、流行语词典、否定词词典等，用于特征抽取。

(2)借助上面已经加载好的词典数据，对预处理后的微博文本进行预定义特征的抽取，将文本向量化并转化为情感分析模型训练步骤能够处理的格式。

5、情感分析模型训练步骤

本实施例将CRF模型应用在经过混合高斯分布生成伪样本技术和Word2vec技术处理后的数据上从而得到GWCRF模型。然后将特征抽取步骤从微博中提取出来的特征向量作为输入，来训练GWCRF模型。该模型不仅有可以克服训练集中情感分布不平衡的影响优点，而且有可以增加微博句子的情感信息从而缓解了情感词典覆盖面不够的影响的优点，从而具有很强的应用价值。

6、情感倾向性识别步骤

首先对待预测的数据进行微博文本预处理、利用Word2vec技术扩展、特征抽取等操作，即上述1至5步骤的操作，从而得到测数据的特征向量；然后将预测数据的特征向量作为GWCRF模型输入，利用训练好的GWCRF模型对待预测的微博进行情感倾向识别。

实施例二、

本实施例一种面向微博短文本的情感分析系统，包括如下执行模块：

生成伪样本模块、预处理模块、扩展微博模块、特征抽取模块、情感分析模型训练模块和情感倾向性识别模块。

下面分别叙述各模块的具体内容：

1、生成伪样本模块：利用混合高斯分布生成伪样本。

本发明的混合高斯分布生成伪样本技术分为如下几步：

1)计算min1中第j个子类的均值μ^j：

2)计算子类的协方差矩阵U；

2、预处理模块：对微博文本预处理。

该模块主要工作是对微博文本进行清洗过滤，并进行分词、词性标注和停用词处理等预处理操作；

3、扩展微博模块：利用Word2vec扩展微博。

(2)利用词向量扩展微博。1)对于一条微博句子t，将它分词之后得到它的词序列，表示为(W1，W2，...，Wn)。2)使用已经训练好的词向量来求微博句子t中每个词的前k个相似词，从而达到扩展微博句子的目的。扩展后的微博句子可以表示为(W1，W2，...，Wn，W11，W12，...，W1k，W21，W22，...，W2k，...，Wn1，Wn2，...，Wnk)，其中(W11，W12，...，W1k)代表词W1的前k个相似词。3)对于微博句子中表情符号和标点符号的处理是将它们直接保留在微博中，所以扩展后的微博句子会比原微博句子含有更多的信息。

4、特征抽取模块

(2)借助上面已经加载好的词典数据，对预处理后的微博文本进行预定义特征的抽取，将文本向量化并转化为情感分析模型训练模块能够处理的格式。

5、情感分析模型训练模块

本实施例将CRF模型应用在经过混合高斯分布生成伪样本技术和Word2vec技术处理后的数据上从而得到GWCRF模型。然后将特征抽取模块从微博中提取出来的特征向量作为输入，来训练GWCRF模型。该模型不仅有可以克服训练集中情感分布不平衡的影响优点，而且有可以增加微博句子的情感信息从而缓解了情感词典覆盖面不够的影响的优点，从而具有很强的应用价值。

6、情感倾向性识别模块

首先对待预测的数据进行微博文本预处理、利用Word2vec技术扩展、特征抽取等操作，即上述1至5模块的操作，从而得到测数据的特征向量；然后将预测数据的特征向量作为GWCRF模型输入，利用训练好的GWCRF模型对待预测的微博进行情感倾向识别。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此，本发明并不局限于上面揭示和描述的具体实施方式，对发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种面向微博短文本的情感分析方法，其特征在于，至少包括如下步骤：

生成伪样本步骤：对于一个微博文本的训练集t1，将其中的数据分为多数类maj1和少数类min1，即情感倾向占多数的数据类别为多数类，情感倾向占少数的数据类别为少数类；利用混合高斯分布模型来为训练集t1中的少数类生成伪样本，构建一个情感倾向分布平衡的训练集；

情感倾向性识别步骤：利用训练好的GWCRF模型对待预测的微博文本进行情感倾向识别；

所述生成伪样本步骤中，还包括如下步骤：

1)计算min1中第j个子类的均值μ^j：

2)计算子类的协方差矩阵U；

步骤1-3、将数据集min2和maj1集中在一起得到一个平衡训练集t2，然后将t2代替t1作为最终的训练集。

2.根据权利要求1所述的面向微博短文本的情感分析方法，其特征在于，对于所述扩展微博步骤，还包括如下步骤：

步骤3-2、利用词向量扩展微博，具体步骤如下：

3.根据权利要求2所述的面向微博短文本的情感分析方法，其特征在于，在所述扩展微博步骤中，对于微博文本中表情符号和标点符号的处理是将它们直接保留在微博中，用于使扩展后的微博句子会比原微博句子含有更多的信息。

4.根据权利要求1所述的面向微博短文本的情感分析方法，其特征在于，在所述情感倾向性识别步骤中，对待预测的微博短文本数据依次进行生成伪样本步骤、预处理步骤、扩展微博步骤、特征抽取步骤和情感分析模型训练步骤的处理，得到待预测微博短文本数据的特征向量；将待预测微博短文本数据的特征向量作为GWCRF模型输入，利用训练好的GWCRF模型对待预测微博短文本数据进行情感倾向识别。

5.一种面向微博短文本的情感分析系统，其特征在于，至少包括如下模块：

情感倾向性识别模块：利用训练好的GWCRF模型对待预测的微博文本进行情感倾向识别；

所述生成伪样本模块中，包括如下模块：

1)计算min1中第j个子类的均值μ^j：

2)计算子类的协方差矩阵U；

模块1-3、将数据集min2和maj1集中在一起得到一个平衡训练集t2，然后将t2代替t1作为最终的训练集。

6.根据权利要求5所述的面向微博短文本的情感分析系统，其特征在于，对于所述扩展微博模块，包括如下步骤：

模块3-2、利用词向量扩展微博，具体步骤如下：

7.根据权利要求6所述的面向微博短文本的情感分析系统，其特征在于，在所述扩展微博模块中，对于微博文本中表情符号和标点符号的处理是将它们直接保留在微博中，用于使扩展后的微博句子会比原微博句子含有更多的信息。

8.根据权利要求5所述的面向微博短文本的情感分析系统，其特征在于，在所述情感倾向性识别模块中，对待预测的微博短文本数据依次经过生成伪样本模块、预处理模块、扩展微博模块、特征抽取模块和情感分析模型训练模块的处理，得到待预测微博短文本数据的特征向量；将待预测微博短文本数据的特征向量作为GWCRF模型输入，利用训练好的GWCRF模型对待预测微博短文本数据进行情感倾向识别。