CN106202032B - 一种面向微博短文本的情感分析方法及其系统 - Google Patents

一种面向微博短文本的情感分析方法及其系统 Download PDF

Info

Publication number
CN106202032B
CN106202032B CN201610489643.6A CN201610489643A CN106202032B CN 106202032 B CN106202032 B CN 106202032B CN 201610489643 A CN201610489643 A CN 201610489643A CN 106202032 B CN106202032 B CN 106202032B
Authority
CN
China
Prior art keywords
microblogging
text
min1
module
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610489643.6A
Other languages
English (en)
Other versions
CN106202032A (zh
Inventor
牟昊
胡湛湛
杨国辉
梁礼欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Original Assignee
Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Said Number Of Stories Of Mdt Infotech Ltd filed Critical Guangzhou Said Number Of Stories Of Mdt Infotech Ltd
Priority to CN201610489643.6A priority Critical patent/CN106202032B/zh
Publication of CN106202032A publication Critical patent/CN106202032A/zh
Application granted granted Critical
Publication of CN106202032B publication Critical patent/CN106202032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种面向微博短文本的情感分析方法及其系统,本发明首先利用混合高斯分布生成伪样本,利用混合高斯分布模型来为训练集中的少数类生成伪样本,从而构建一个情感倾向分布平衡的训练集,以降低数据集情感倾向分布的不平衡性对情感分类效果的影响;接着对微博文本预处理、Word2vec扩展微博、特征抽取、情感分析模型训练以及进行情感倾向性识别。利用本发明的方案,能够有效地解决当中文微博数据集出现情感倾向分布不平衡时的情感倾向识别问题,并且实施十分简单,识别率高,具有很强的实际应用价值和现实意义。

Description

一种面向微博短文本的情感分析方法及其系统
技术领域
本发明属于网络信息处理技术领域,具体涉及一种面向微博短文本的情感分析方法及其系统。
背景技术
微博作为一个普遍的社交平台,承载了海量的信息,如何有效分析和挖掘用户微博中的情感是非常有意义的。现有技术中,与传统的情感分析工作一样,对微博的情感分析方法可以分为两类。一类是基于情感词典和规则的方法,这类方法通过计算句子中负面情感词和正面情感词的个数来识别情感倾向。另一类是基于机器学习的方法,它们通过挑选合适的特征来训练模型。
例如现有专利文献中CN104331506A公开了一种面向双语微博文本的多类情感分析方法与系统,属于微博文本的情感分析技术领域,其技术方案主要包括(1)双语词典构建;(2)文本预处理;(3)文本特征空间表示;(4)利用多情感分类模型实现语料文本的情感识别任务;该方法利用小规模的情感分析归类,提高了分析的准确率。
然而,以上方法都没有意识到中文微博数据集中的情感倾向分布不平衡性对情感分类的影响,也就是说当数据集中负面情感的句子和正面情感的句子的数量相差很大时,会影响分类器的判别准确性。
例如实际生活中情感倾向分布极不平衡的例子:在微博上讨论的话题或者事件的本身往往带有很强的情感倾向性,这导致很多话题的情感倾向分布不平衡,例如“#90后暴打老人#”、等话题本身具有明显的贬义情感,而“#莫言获诺贝尔奖#”这个话题具有明显的褒义情感。数据集情感倾向分布的不平衡性恰恰是导致很多机器学习算法表现不好的重要因素,尤其是在数据集情感倾向中占少数的类别的识别效果上。此外,微博的长度比传统文本要短,这使得传统方法很难从其中抽取出很多有助于情感分类的信息,而且目前还没有一个足够大的情感词典可以覆盖所有的情感词。
Word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量 运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多NLP相关的工作,比如聚类、找同义词、词性分析等等。
CRF模型(即条件随机场模型)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。
Affinity Propagation聚类算法是Frey和Dueck在2007年Science上提出的一种新的聚类算法.与其他聚类算法不同,它的特性是高效、快速。而且,它允许我们不必事先确定聚类数目并且能够很好地解决非欧空间问题(如不满足对称性或者不满足三角不等式)以及大规模稀疏矩阵计算问题等。所以,它已经被广泛应用于人脸识别、基因发现、以及实物图像识别等领域。
发明内容
本发明的目的在于为解决上述现有技术中的问题,提供一种面向微博短文本的情感分析方法及其系统,属于网络信息处理技术领域,能够有效地针对解决当中文微博数据集出现情感倾向分布不平衡时的情感倾向识别问题,并且实施十分简单,识别率高,具有很强的实际应用价值和现实意义。
为实现本发明目的所采用的技术方案之一为:一种面向微博短文本的情感分析方法,其至少包括如下步骤:
生成伪样本步骤:对于一个微博文本的训练集t1,将其中的数据分为多数类maj1和少数类min1,即情感倾向占多数的数据类别为多数类,情感倾向占少数的数据类别为少数类;利用混合高斯分布模型来为训练集t1中的少数类生成伪样本,从而构建一个情感倾向分布平衡的训练集;
预处理步骤:对微博文本进行清洗过滤,并至少对微博文本进行分词、词性标注和停用词处理的操作;
扩展微博步骤:通过利用Word2vec来求微博文本中每个词的前K个相似词从而扩展微博;
特征抽取步骤:利用情感分析词典,对经过预处理步骤的微博文本进行特征抽取;
情感分析模型训练步骤:利用CRF模型对经过生成伪样本步骤和扩展微博步骤处理的 微博文本进行处理,得到GWCRF模型;然后将特征抽取步骤中从微博文本提取出来的特征作为特征向量输入,来训练GWCRF模型;
情感倾向性识别步骤:利用训练好的GWCRF模型对待预测的微博文本进行情感倾向识别。
优选的,对于所述生成伪样本步骤中,还包括如下步骤:
步骤1-1、对于少数类min1,使用Affinity Propagation聚类算法将它聚成m个子类,假设{Xi}代表min1,那么聚类后的min1就可以表示为 代表min1中第j个子类,其中,m代表min1聚类后的子类个数;
步骤1-2、利用混合高斯分布模型按比例为min1中的每个子类随机生成伪样本得到min2,使min2的样本数量与min1的样本数量相同或相近;为每个子类进行高斯参数估计,Nj是指min1中第j个子类的样本数,具体步骤如下:
1)计算min1中第j个子类的均值μj
2)计算子类的协方差矩阵U;
3)根据协方差矩阵U和均值μj,为子类生成符合高斯分布的伪样本;
步骤1-3、将数据集min2和maj1集中在一起得到一个平衡训练集t2。然后将t2代替t1作为最终的训练集。
优选的,对于所述扩展微博步骤,还包括如下步骤:
步骤3-1、训练词向量,对微博文本过滤掉一些无意义的符号和网址,利用剩下的微博数据用来当训练集,然后利用Word2vec中的CBOW模型来训练词向量,最后通过该词向量来求微博文本中每个词的相似词;
步骤3-2、利用词向量扩展微博,具体步骤如下:
1)对于一条微博文本t,将它分词之后得到它的词序列,表示为(W1,W2,...,Wn);
2)使用已经训练好的词向量来求微博文本t中每个词的前k个相似词,从而达到扩展微博句子的目的;扩展后的微博句子可以表示为(W1,W2,...,Wn,W11,W12,...,W1k,W21,W22,...,W2k,...,Wn1,Wn2,...,Wnk),其中(W11,W12,...,W1k)代表词W1的前k个相似词。
优选的,在所述扩展微博步骤中,对于微博文本中表情符号和标点符号的处理是将它 们直接保留在微博中,用于使扩展后的微博句子会比原微博句子含有更多的信息。
优选的,在所述情感倾向性识别步骤中,对待预测的微博短文本数据依次进行生成伪样本步骤、预处理步骤、扩展微博步骤、特征抽取步骤和情感分析模型训练步骤的处理,得到待预测微博短文本数据的特征向量;将待预测微博短文本数据的特征向量作为GWCRF模型输入,利用训练好的GWCRF模型对待预测微博短文本数据进行情感倾向识别。
为实现本发明目的所采用的技术方案之二为:一种面向微博短文本的情感分析系统,其至少包括如下模块:
生成伪样本模块:对于一个微博文本的训练集t1,将其中的数据分为多数类maj1和少数类min1,即情感倾向占多数的数据类别为多数类,情感倾向占少数的数据类别为少数类;利用混合高斯分布模型来为训练集t1中的少数类生成伪样本,从而构建一个情感倾向分布平衡的训练集;
预处理模块:对微博文本进行清洗过滤,并至少对微博文本进行分词、词性标注和停用词处理的操作;
扩展微博模块:通过利用Word2vec来求微博文本中每个词的前K个相似词从而扩展微博;
特征抽取模块:利用情感分析词典,对经过预处理步骤的微博文本进行特征抽取;
情感分析模型训练模块:利用CRF模型对经过生成伪样本步骤和扩展微博步骤处理的微博文本进行处理,得到GWCRF模型;然后将特征抽取步骤中从微博文本提取出来的特征作为特征向量输入,来训练GWCRF模型;
情感倾向性识别模块:利用训练好的GWCRF模型对待预测的微博文本进行情感倾向识别。
优选的,对于所述生成伪样本模块中,包括如下模块:
模块1-1、对于少数类min1,使用Affinity Propagation聚类算法将它聚成m个子类,假设{Xi}代表min1,那么聚类后的min1就可以表示为 代表min1中第j个子类,其中,m代表min1聚类后的子类个数;
模块1-2、利用混合高斯分布模型按比例为min1中的每个子类随机生成伪样本得到min2,使min2的样本数量与min1的样本数量相同或相近;为每个子类进行高斯参数估计,Nj是指min1中第j个子类的样本数,具体步骤如下:
1)计算min1中第j个子类的均值μj
2)计算子类的协方差矩阵U;
3)根据协方差矩阵U和均值μj,为子类生成符合高斯分布的伪样本;
模块1-3、将数据集min2和maj1集中在一起得到一个平衡训练集t2。然后将t2代替t1作为最终的训练集。
优选的,对于所述扩展微博模块,包括如下步骤:
模块3-1、训练词向量,对微博文本过滤掉一些无意义的符号和网址,利用剩下的微博数据用来当训练集,然后利用Word2vec中的CBOW模型来训练词向量,最后通过该词向量来求微博文本中每个词的相似词;
模块3-2、利用词向量扩展微博,具体步骤如下:
1)对于一条微博文本t,将它分词之后得到它的词序列,表示为(W1,W2,...,Wn);
2)使用已经训练好的词向量来求微博文本t中每个词的前k个相似词,从而达到扩展微博句子的目的;扩展后的微博句子可以表示为(W1,W2,...,Wn,W11,W12,...,W1k,W21,W22,...,W2k,...,Wn1,Wn2,...,Wnk),其中(W11,W12,...,W1k)代表词W1的前k个相似词。
优选的,在所述扩展微博模块中,对于微博文本中表情符号和标点符号的处理是将它们直接保留在微博中,用于使扩展后的微博句子会比原微博句子含有更多的信息。
优选的,在所述情感倾向性识别模块中,对待预测的微博短文本数据依次经过生成伪样本模块、预处理模块、扩展微博模块、特征抽取模块和情感分析模型训练模块的处理,得到待预测微博短文本数据的特征向量;将待预测微博短文本数据的特征向量作为GWCRF模型输入,利用训练好的GWCRF模型对待预测微博短文本数据进行情感倾向识别。
本发明的有益效果有:本发明首先利用混合高斯分布生成伪样本,利用混合高斯分布模型来为训练集中的少数类生成伪样本,其中少数类是指在训练集情感倾向中占少数的类别,从而构建一个情感倾向分布平衡的训练集,以降低数据集情感倾向分布的不平衡性对情感分类效果的影响;其次对微博文本预处理,对微博文本进行清洗过滤,并进行分词、词性标注和停用词处理等预处理操作;再次利用Word2vec扩展微博,通过利用Word2vec来求微博中每个词的前K个相似词从而扩展微博;然后进行特征抽取,加载与情感分析相关的词典,对前面预处理过的微博进行特征抽取;接着进行情感分析模型训练,在上面已经平衡和扩展后的训练集上训练GWCRF模型;最后进行情感倾向性识别,利用训练好的GWCRF模型对待预测的微博进行情感倾向识别。利用本发明的方案,能够有效地解决当中文微博数据集出现情感倾向分布不平衡时的情感倾向识别问题,并且实施十分简单,识别率高,具有很强的实际应用价值和现实意义。
本发明提出的基于混合高斯分布伪样本生成技术和CRF模型的情感分析方法GWCRF(Gaussian Mixture Distribution Word2vec CRF)。该方法首先利用混合高斯分布模型来为训练集中的少数类生成伪样本从而构建一个情感倾向分布平衡的训练集,然后通过使用Word2vec来扩展微博句子以丰富它的情感信息,从而缓解情感词典不足够大对情感分类的负面影响;最后将条件随机场(Conditional Random Field)模型应用在上面已经平衡和扩展后的训练集上。实验结果表明该方法比现有方法在数据集情感倾向分布不平衡时能更有效地识别微博的情感倾向。
附图说明
图1为本发明具体实施例情感分析方法的流程示意图
图2为本发明具体实施例中构建平衡训练集的方法示意图
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
实施例一、
如图1和2所示,本实施例一种面向微博短文本的情感分析方法,包括如下步骤:
生成伪样本步骤、预处理步骤、扩展微博步骤、特征抽取步骤、情感分析模型训练步骤和情感倾向性识别步骤。
下面分别叙述各步骤的具体内容:
1、生成伪样本步骤:利用混合高斯分布生成伪样本。
本实施例利用混合高斯分布模型来为训练集中的少数类生成伪样本,其中少数类是指在训练集情感倾向中占少数的类别,从而构建一个情感倾向分布平衡的训练集。
本发明的混合高斯分布生成伪样本技术分为如下几步:
(1)对于一个训练集t1,将它分为多数类maj1,即数据集中情感倾向占多数的类别, 和少数类min1,即数据集的情感倾向中占少数类别。例如,在不平衡数据集“#90后暴打老人#”中,负面情感的数据会比正面情感数据的多很多,所以负面情感的数据就是多数类,正面情感的数据就是少数类。
(2)对于少数类min1,使用Affinity Propagation聚类算法将它聚成m个子类,假设{Xi}代表min1,那么聚类后的min1就可以表示为 代表min1中第j个子类。
(3)为了构建平衡的数据集,利用混合高斯分析按比例为min1中的每个子类随机生成伪样本得到min2,使得min2的样本数量与min1的样本数量相近。为每个子类进行高斯参数估计,Nj是指min1中第j个子类的样本数,具体步骤如下:
1)计算min1中第j个子类的均值μj
2)计算子类的协方差矩阵U;
3)根据协方差矩阵U和均值μj,为子类生成符合高斯分布的伪样本。
(4)将数据集min2和maj1集中在一起得到一个平衡训练集t2。然后将t2代替t1作为最终的训练集。
2、预处理步骤:对微博文本预处理。
该步骤主要工作是对微博文本进行清洗过滤,并进行分词、词性标注和停用词处理等预处理操作;
3、扩展微博步骤:利用Word2vec扩展微博。
本实施例通过利用Word2vec来求微博句子中每个词的前K个相似词从而扩展微博,具体步骤包括以下两步,分别是训练词向量和扩展微博句子。
(1)训练词向量。例如,发明人从新浪微博API收集了大量的微博语料,过滤掉一些没用符号和网址,最后剩下10G的微博数据用来当训练集。然后利用Word2vec中的CBOW模型来训练词向量,最后通过该词向量来求微博句子中每个词的相似词。
(2)利用词向量扩展微博。1)对于一条微博句子t,将它分词之后得到它的词序列,表示为(W1,W2,...,Wn)。2)使用已经训练好的词向量来求微博句子t中每个词的前k个相似词,从而达到扩展微博句子的目的。扩展后的微博句子可以表示为(W1,W2,...,Wn,W11,W12,...,W1k,W21,W22,...,W2k,...,Wn1,Wn2,...,Wnk),其中(W11,W12,..., W1k)代表词W1的前k个相似词。3)对于微博句子中表情符号和标点符号的处理是将它们直接保留在微博中,所以扩展后的微博句子会比原微博句子含有更多的信息。
4、特征抽取步骤
(1)加载情感分析相关词典,包括情感词典、情符号词典、流行语词典、否定词词典等,用于特征抽取。
(2)借助上面已经加载好的词典数据,对预处理后的微博文本进行预定义特征的抽取,将文本向量化并转化为情感分析模型训练步骤能够处理的格式。
5、情感分析模型训练步骤
本实施例将CRF模型应用在经过混合高斯分布生成伪样本技术和Word2vec技术处理后的数据上从而得到GWCRF模型。然后将特征抽取步骤从微博中提取出来的特征向量作为输入,来训练GWCRF模型。该模型不仅有可以克服训练集中情感分布不平衡的影响优点,而且有可以增加微博句子的情感信息从而缓解了情感词典覆盖面不够的影响的优点,从而具有很强的应用价值。
6、情感倾向性识别步骤
首先对待预测的数据进行微博文本预处理、利用Word2vec技术扩展、特征抽取等操作,即上述1至5步骤的操作,从而得到测数据的特征向量;然后将预测数据的特征向量作为GWCRF模型输入,利用训练好的GWCRF模型对待预测的微博进行情感倾向识别。
实施例二、
本实施例一种面向微博短文本的情感分析系统,包括如下执行模块:
生成伪样本模块、预处理模块、扩展微博模块、特征抽取模块、情感分析模型训练模块和情感倾向性识别模块。
下面分别叙述各模块的具体内容:
1、生成伪样本模块:利用混合高斯分布生成伪样本。
本实施例利用混合高斯分布模型来为训练集中的少数类生成伪样本,其中少数类是指在训练集情感倾向中占少数的类别,从而构建一个情感倾向分布平衡的训练集。
本发明的混合高斯分布生成伪样本技术分为如下几步:
(1)对于一个训练集t1,将它分为多数类maj1,即数据集中情感倾向占多数的类别,和少数类min1,即数据集的情感倾向中占少数类别。例如,在不平衡数据集“#90后暴打老人#”中,负面情感的数据会比正面情感数据的多很多,所以负面情感的数据就是多数类,正面情感的数据就是少数类。
(2)对于少数类min1,使用Affinity Propagation聚类算法将它聚成m个子类,假设{Xi}代表min1,那么聚类后的min1就可以表示为 代表min1中第j个子类。
(3)为了构建平衡的数据集,利用混合高斯分析按比例为min1中的每个子类随机生成伪样本得到min2,使得min2的样本数量与min1的样本数量相近。为每个子类进行高斯参数估计,Nj是指min1中第j个子类的样本数,具体步骤如下:
1)计算min1中第j个子类的均值μj
2)计算子类的协方差矩阵U;
3)根据协方差矩阵U和均值μj,为子类生成符合高斯分布的伪样本。
(4)将数据集min2和maj1集中在一起得到一个平衡训练集t2。然后将t2代替t1作为最终的训练集。
2、预处理模块:对微博文本预处理。
该模块主要工作是对微博文本进行清洗过滤,并进行分词、词性标注和停用词处理等预处理操作;
3、扩展微博模块:利用Word2vec扩展微博。
本实施例通过利用Word2vec来求微博句子中每个词的前K个相似词从而扩展微博,具体步骤包括以下两步,分别是训练词向量和扩展微博句子。
(1)训练词向量。例如,发明人从新浪微博API收集了大量的微博语料,过滤掉一些没用符号和网址,最后剩下10G的微博数据用来当训练集。然后利用Word2vec中的CBOW模型来训练词向量,最后通过该词向量来求微博句子中每个词的相似词。
(2)利用词向量扩展微博。1)对于一条微博句子t,将它分词之后得到它的词序列,表示为(W1,W2,...,Wn)。2)使用已经训练好的词向量来求微博句子t中每个词的前k个相似词,从而达到扩展微博句子的目的。扩展后的微博句子可以表示为(W1,W2,...,Wn,W11,W12,...,W1k,W21,W22,...,W2k,...,Wn1,Wn2,...,Wnk),其中(W11,W12,...,W1k)代表词W1的前k个相似词。3)对于微博句子中表情符号和标点符号的处理是将它们 直接保留在微博中,所以扩展后的微博句子会比原微博句子含有更多的信息。
4、特征抽取模块
(1)加载情感分析相关词典,包括情感词典、情符号词典、流行语词典、否定词词典等,用于特征抽取。
(2)借助上面已经加载好的词典数据,对预处理后的微博文本进行预定义特征的抽取,将文本向量化并转化为情感分析模型训练模块能够处理的格式。
5、情感分析模型训练模块
本实施例将CRF模型应用在经过混合高斯分布生成伪样本技术和Word2vec技术处理后的数据上从而得到GWCRF模型。然后将特征抽取模块从微博中提取出来的特征向量作为输入,来训练GWCRF模型。该模型不仅有可以克服训练集中情感分布不平衡的影响优点,而且有可以增加微博句子的情感信息从而缓解了情感词典覆盖面不够的影响的优点,从而具有很强的应用价值。
6、情感倾向性识别模块
首先对待预测的数据进行微博文本预处理、利用Word2vec技术扩展、特征抽取等操作,即上述1至5模块的操作,从而得到测数据的特征向量;然后将预测数据的特征向量作为GWCRF模型输入,利用训练好的GWCRF模型对待预测的微博进行情感倾向识别。
根据上述说明书的揭示和教导,本发明所属领域的技术人员还可以对上述实施方式进行变更和修改。因此,本发明并不局限于上面揭示和描述的具体实施方式,对发明的一些修改和变更也应当落入本发明的权利要求的保护范围内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

Claims (8)

1.一种面向微博短文本的情感分析方法,其特征在于,至少包括如下步骤:
生成伪样本步骤:对于一个微博文本的训练集t1,将其中的数据分为多数类maj1和少数类min1,即情感倾向占多数的数据类别为多数类,情感倾向占少数的数据类别为少数类;利用混合高斯分布模型来为训练集t1中的少数类生成伪样本,构建一个情感倾向分布平衡的训练集;
预处理步骤:对微博文本进行清洗过滤,并至少对微博文本进行分词、词性标注和停用词处理的操作;
扩展微博步骤:通过利用Word2vec来求微博文本中每个词的前K个相似词从而扩展微博;
特征抽取步骤:利用情感分析词典,对经过预处理步骤的微博文本进行特征抽取;
情感分析模型训练步骤:利用CRF模型对经过生成伪样本步骤和扩展微博步骤处理的微博文本进行处理,得到GWCRF模型;然后将特征抽取步骤中从微博文本提取出来的特征作为特征向量输入,来训练GWCRF模型;
情感倾向性识别步骤:利用训练好的GWCRF模型对待预测的微博文本进行情感倾向识别;
所述生成伪样本步骤中,还包括如下步骤:
步骤1-1、对于少数类min1,使用Affinity Propagation聚类算法将它聚成m个子类,假设{Xi}代表min1,那么聚类后的min1就可以表示为 代表min1中第j个子类,其中,m代表min1聚类后的子类个数;
步骤1-2、利用混合高斯分布模型按比例为min1中的每个子类随机生成伪样本得到min2,使min2的样本数量与min1的样本数量相同或相近;为每个子类进行高斯参数估计,Nj是指min1中第j个子类的样本数,具体步骤如下:
1)计算min1中第j个子类的均值μj
2)计算子类的协方差矩阵U;
3)根据协方差矩阵U和均值μj,为子类生成符合高斯分布的伪样本;
步骤1-3、将数据集min2和maj1集中在一起得到一个平衡训练集t2,然后将t2代替t1作为最终的训练集。
2.根据权利要求1所述的面向微博短文本的情感分析方法,其特征在于,对于所述扩展微博步骤,还包括如下步骤:
步骤3-1、训练词向量,对微博文本过滤掉一些无意义的符号和网址,利用剩下的微博数据用来当训练集,然后利用Word2vec中的CBOW模型来训练词向量,最后通过该词向量来求微博文本中每个词的相似词;
步骤3-2、利用词向量扩展微博,具体步骤如下:
1)对于一条微博文本t,将它分词之后得到它的词序列,表示为(W1,W2,...,Wn);
2)使用已经训练好的词向量来求微博文本t中每个词的前k个相似词,从而达到扩展微博句子的目的;扩展后的微博句子可以表示为(W1,W2,...,Wn,W11,W12,...,W1k,W21,W22,...,W2k,...,Wn1,Wn2,...,Wnk),其中(W11,W12,...,W1k)代表词W1的前k个相似词。
3.根据权利要求2所述的面向微博短文本的情感分析方法,其特征在于,在所述扩展微博步骤中,对于微博文本中表情符号和标点符号的处理是将它们直接保留在微博中,用于使扩展后的微博句子会比原微博句子含有更多的信息。
4.根据权利要求1所述的面向微博短文本的情感分析方法,其特征在于,在所述情感倾向性识别步骤中,对待预测的微博短文本数据依次进行生成伪样本步骤、预处理步骤、扩展微博步骤、特征抽取步骤和情感分析模型训练步骤的处理,得到待预测微博短文本数据的特征向量;将待预测微博短文本数据的特征向量作为GWCRF模型输入,利用训练好的GWCRF模型对待预测微博短文本数据进行情感倾向识别。
5.一种面向微博短文本的情感分析系统,其特征在于,至少包括如下模块:
生成伪样本模块:对于一个微博文本的训练集t1,将其中的数据分为多数类maj1和少数类min1,即情感倾向占多数的数据类别为多数类,情感倾向占少数的数据类别为少数类;利用混合高斯分布模型来为训练集t1中的少数类生成伪样本,从而构建一个情感倾向分布平衡的训练集;
预处理模块:对微博文本进行清洗过滤,并至少对微博文本进行分词、词性标注和停用词处理的操作;
扩展微博模块:通过利用Word2vec来求微博文本中每个词的前K个相似词从而扩展微博;
特征抽取模块:利用情感分析词典,对经过预处理步骤的微博文本进行特征抽取;
情感分析模型训练模块:利用CRF模型对经过生成伪样本步骤和扩展微博步骤处理的微博文本进行处理,得到GWCRF模型;然后将特征抽取步骤中从微博文本提取出来的特征作为特征向量输入,来训练GWCRF模型;
情感倾向性识别模块:利用训练好的GWCRF模型对待预测的微博文本进行情感倾向识别;
所述生成伪样本模块中,包括如下模块:
模块1-1、对于少数类min1,使用Affinity Propagation聚类算法将它聚成m个子类,假设{Xi}代表min1,那么聚类后的min1就可以表示为 代表min1中第j个子类,其中,m代表min1聚类后的子类个数;
模块1-2、利用混合高斯分布模型按比例为min1中的每个子类随机生成伪样本得到min2,使min2的样本数量与min1的样本数量相同或相近;为每个子类进行高斯参数估计,Nj是指min1中第j个子类的样本数,具体步骤如下:
1)计算min1中第j个子类的均值μj
2)计算子类的协方差矩阵U;
3)根据协方差矩阵U和均值μj,为子类生成符合高斯分布的伪样本;
模块1-3、将数据集min2和maj1集中在一起得到一个平衡训练集t2,然后将t2代替t1作为最终的训练集。
6.根据权利要求5所述的面向微博短文本的情感分析系统,其特征在于,对于所述扩展微博模块,包括如下步骤:
模块3-1、训练词向量,对微博文本过滤掉一些无意义的符号和网址,利用剩下的微博数据用来当训练集,然后利用Word2vec中的CBOW模型来训练词向量,最后通过该词向量来求微博文本中每个词的相似词;
模块3-2、利用词向量扩展微博,具体步骤如下:
1)对于一条微博文本t,将它分词之后得到它的词序列,表示为(W1,W2,...,Wn);
2)使用已经训练好的词向量来求微博文本t中每个词的前k个相似词,从而达到扩展微博句子的目的;扩展后的微博句子可以表示为(W1,W2,...,Wn,W11,W12,...,W1k,W21,W22,...,W2k,...,Wn1,Wn2,...,Wnk),其中(W11,W12,...,W1k)代表词W1的前k个相似词。
7.根据权利要求6所述的面向微博短文本的情感分析系统,其特征在于,在所述扩展微博模块中,对于微博文本中表情符号和标点符号的处理是将它们直接保留在微博中,用于使扩展后的微博句子会比原微博句子含有更多的信息。
8.根据权利要求5所述的面向微博短文本的情感分析系统,其特征在于,在所述情感倾向性识别模块中,对待预测的微博短文本数据依次经过生成伪样本模块、预处理模块、扩展微博模块、特征抽取模块和情感分析模型训练模块的处理,得到待预测微博短文本数据的特征向量;将待预测微博短文本数据的特征向量作为GWCRF模型输入,利用训练好的GWCRF模型对待预测微博短文本数据进行情感倾向识别。
CN201610489643.6A 2016-06-24 2016-06-24 一种面向微博短文本的情感分析方法及其系统 Active CN106202032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610489643.6A CN106202032B (zh) 2016-06-24 2016-06-24 一种面向微博短文本的情感分析方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610489643.6A CN106202032B (zh) 2016-06-24 2016-06-24 一种面向微博短文本的情感分析方法及其系统

Publications (2)

Publication Number Publication Date
CN106202032A CN106202032A (zh) 2016-12-07
CN106202032B true CN106202032B (zh) 2018-08-28

Family

ID=57462603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610489643.6A Active CN106202032B (zh) 2016-06-24 2016-06-24 一种面向微博短文本的情感分析方法及其系统

Country Status (1)

Country Link
CN (1) CN106202032B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193801B (zh) * 2017-05-21 2020-07-03 北京工业大学 一种基于深度信念网络的短文本特征优化及情感分析方法
CN107203511B (zh) * 2017-05-27 2020-07-17 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN107402917B (zh) * 2017-07-28 2021-02-12 中央民族大学 藏文短文本情感分析方法及装置
CN107679031B (zh) * 2017-09-04 2021-01-05 昆明理工大学 基于堆叠降噪自编码机的广告博文识别方法
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN108428148A (zh) * 2018-01-29 2018-08-21 厦门快商通信息技术有限公司 主动智能电话营销方法和系统
CN108595706B (zh) * 2018-05-10 2022-05-24 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN108717410B (zh) * 2018-05-17 2022-05-20 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN109284486B (zh) * 2018-08-14 2023-08-22 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109271634B (zh) * 2018-09-17 2022-07-01 重庆理工大学 一种基于用户情感倾向感知的微博文本情感极性分析方法
CN109359296B (zh) * 2018-09-18 2023-08-18 深圳前海微众银行股份有限公司 舆情情感识别方法、装置及计算机可读存储介质
CN109471941A (zh) * 2018-11-07 2019-03-15 中国电子科技集团公司第二十八研究所 一种应对类别不平衡的罪名分类方法
CN109492226B (zh) * 2018-11-10 2023-03-24 上海五节数据科技有限公司 一种提高情感倾向占比低文本预断准确率的方法
CN110570941B (zh) * 2019-07-17 2020-08-14 北京智能工场科技有限公司 一种基于文本语义向量模型评估心理状态的系统和装置
CN110598611B (zh) * 2019-08-30 2023-06-09 深圳智慧林网络科技有限公司 看护系统、基于看护系统的病人看护方法和可读存储介质
CN111221962B (zh) * 2019-11-18 2023-05-26 重庆邮电大学 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN114490952B (zh) * 2022-04-15 2022-07-15 广汽埃安新能源汽车有限公司 一种文本情感分析方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782898A (zh) * 2010-03-25 2010-07-21 中国科学院计算技术研究所 一种情感词倾向性的分析方法
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103150367A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种中文微博的情感倾向分析方法
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
JP2013257677A (ja) * 2012-06-12 2013-12-26 Nec Corp イベント検出装置、イベント検出方法およびイベント検出プログラム
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782898A (zh) * 2010-03-25 2010-07-21 中国科学院计算技术研究所 一种情感词倾向性的分析方法
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
JP2013257677A (ja) * 2012-06-12 2013-12-26 Nec Corp イベント検出装置、イベント検出方法およびイベント検出プログラム
CN102968439A (zh) * 2012-10-11 2013-03-13 微梦创科网络科技(中国)有限公司 一种推送微博的方法及装置
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103150367A (zh) * 2013-03-07 2013-06-12 宁波成电泰克电子信息技术发展有限公司 一种中文微博的情感倾向分析方法
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法

Also Published As

Publication number Publication date
CN106202032A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106202032B (zh) 一种面向微博短文本的情感分析方法及其系统
CN108108351B (zh) 一种基于深度学习组合模型的文本情感分类方法
CN105868184B (zh) 一种基于循环神经网络的中文人名识别方法
CN107168955B (zh) 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN105912716A (zh) 一种短文本分类方法及装置
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN108733644B (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN106339495A (zh) 一种基于层次增量聚类的话题检测方法及系统
CN104361037B (zh) 微博分类方法及装置
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN106569996B (zh) 一种面向中文微博的情感倾向分析方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN112084308A (zh) 用于文本类型数据识别的方法、系统及存储介质
CN106844596A (zh) 一种基于改进的svm中文文本分类方法
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN110866087B (zh) 一种基于主题模型的面向实体的文本情感分析方法
CN108021609B (zh) 文本情感分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Mou Hao

Inventor after: Hu Zhanzhan

Inventor after: Yang Guohui

Inventor after: Liang Lixin

Inventor before: Liang Lixin

Inventor before: Wu Wenjie

Inventor before: Li Bendong

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Short microblog text-oriented sentiment analysis method and system

Effective date of registration: 20190627

Granted publication date: 20180828

Pledgee: Bank of China, Limited by Share Ltd, Guangzhou, Panyu branch

Pledgor: Guangzhou said the number of stories of Mdt InfoTech Ltd

Registration number: 2019440000241

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210423

Granted publication date: 20180828

Pledgee: Bank of China Limited by Share Ltd. Guangzhou Panyu branch

Pledgor: GUANGZHOU DATASTORY INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: 2019440000241

PC01 Cancellation of the registration of the contract for pledge of patent right