CN103034626A - 情感分析系统及方法 - Google Patents

情感分析系统及方法 Download PDF

Info

Publication number
CN103034626A
CN103034626A CN2012105770367A CN201210577036A CN103034626A CN 103034626 A CN103034626 A CN 103034626A CN 2012105770367 A CN2012105770367 A CN 2012105770367A CN 201210577036 A CN201210577036 A CN 201210577036A CN 103034626 A CN103034626 A CN 103034626A
Authority
CN
China
Prior art keywords
sentence
viewpoint
word
classifier
classification results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105770367A
Other languages
English (en)
Inventor
李武军
罗珞
过敏意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN2012105770367A priority Critical patent/CN103034626A/zh
Publication of CN103034626A publication Critical patent/CN103034626A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种情感分析系统及方法,该系统包括语料库建立模组,用于建立观点句识别及情感倾向分析所需的训练集;数据预处理模组,用于对训练集中的句子进行预处理;观点句识别模组,采用支持向量机分类器与贝叶斯分类器分别对预处理后的句子进行观点句识别,并对两分类器的结果进行集成处理,得到最终的分类结果;以及情感倾向分析模组,基于支持向量机分类器及贝叶斯分类器分别直接将预处理后的句子分为正面、负面和无观点三类,并通过一集成公式将该支持向量机分类器和贝叶斯分类器的分类结果集成,得到当前句子的分类结果,本发明可提高中文微博的观点句判断和情感倾向性分类的性能。

Description

情感分析系统及方法
技术领域
本发明涉及一种情感分析系统及方法,特别涉及一种中文微博的情感分析系统及方法。
背景技术
随着互联网的发展,越来越多用户通过网络平台表达自己观点,从而产生了大量的主观性文本数据。这些数据中蕴含的大量情感信息,其具有非常大的潜在价值,在社会舆情分析、有害信息过滤、产品推荐等诸多领域有着广阔的发展前景。然而这些数据的主观性情感分类无法通过传统的基于关键词和自动索引信息获取,而人工浏览大量文本又十分低效。近年来,针对文本的情感分析是一个研究热点,相关技术已在电子产品、影视娱乐和新闻等多个领域得到应用。
微博信息是一种在社交网络上通过关注机制分享的简短实时信息,其内容具有时效性,主题包罗万象,且拥有海量数据。基于微博的情感分析技术可以在各个领域提供有用信息。但与传统的情感分析不同,微博由于其内容过于简短(如新浪微博不超过140字),用户发言含各种噪声(如错别字,非正式用语等)等因素,对其进行情感分析相比传统的在产品评论等领域的相关工作要困难得多。近年来国际上有关英文Twitter的情感分析研究较为热门。但基于中文微博的相关工作相对较少,中文微博中经常使用反讽等方式表达情感,这也使得中文微博的情感分析更为困难。
关于情感分析的研究方法,主要有两种:基于词典的语义方法和机器学习的方法。语义方法通常通过计算候选词和通用情感词典中的基准词的语义距离,判断候选词的情感倾向。例如,Lu等将不同来源的信息结合起来构成一个统一的最优框架,这些信息包括通用情感词典中该词的极性,整个文档的情感分数,WordNet中的同义词、反义词信息,以及一些语法规则(比如两个用“和”连接的词的极性也更相近)。另一方面,机器学习的方法首先需要人工标记情感语料库,然后训练出一个模型来学习出不同类别的特征,从而预测目标文本属于哪一类别。用于训练的特征通常包括unigrams,bigrams,词性和词的位置等等。分类算法主要有监督学习和半监督学习两种。常用的监督学习的方法包括SVM(支持向量机),
Figure BDA00002659882800021
Bayes(贝叶斯模型),Maximum Entropy(最大熵)和K-nearest neighbor(K-近邻)。一些半监督学习的方法应用了bootstrap策略,比如自我训练和联合训练。
传统的情感分析处理的都是一些比较规范的文本,如产品评论或博客等,然而,社交网络的情感分析处理的是内容较短且语法不规范的文本。判断微博的主客观和情感倾向性比传统的情感分析要困难的多。目前,国外关于Twitter的研究日益增多,其中包括对每条Tweet的情感分析,对于一个话题的情感分析,以及用户级别的情感分析。在2011年,Jiang等提出了一种与情感对象有关,上下文相关的方法来判断Tweet的情感。虽然这种方法提高了关于Twitter的情感分类的性能,但其主客观分类器的准确率并不是很高(最好的情况下为68.2%)。
发明内容
为克服上述现有技术存在的不足,本发明目的在于提供一种情感分析系统及方法,其使用微博中与相关话题的微博作为训练数据,以Support VectorMachine和
Figure BDA00002659882800022
Bayes分类器为核心,提高中文微博的观点句判断和情感倾向性分类的性能。
为达上述及其它目的,本发明提出一种情感分析系统,至少包括:
语料库建立模组,用于建立观点句识别及情感倾向分析所需的训练集;
数据预处理模组,用于对训练集中的句子进行预处理;
观点句识别模组,采用支持向量机分类器与贝叶斯分类器分别对预处理后的句子进行观点句识别,并对两分类器的结果进行集成处理,得到最终的分类结果;以及
情感倾向分析模组,基于支持向量机分类器及贝叶斯分类器分别直接将预处理后的句子分为正面、负面和无观点三类,并通过一集成公式将该支持向量机分类器和贝叶斯分类器的分类结果集成,得到当前句子的分类结果。
进一步地,该训练集包括中国计算机学会所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据。
进一步地,该训练集为人工标注,由两个人分别独立标记,结果不同的再由第三个人进行裁决。
进一步地,该预处理包括去掉句子中的标签,仅保留句子本身的内容及对句子中的特殊符号进行正规化处理。
进一步地,对句子中的特殊符号的处理包括将所有全角符号转化为半角、将英文标点替换为中文标点、将连续的数字替换为<NUM>、将所有不规范的省略号替换为<ETC>以及将短链接替换为<SHORT_URL>。
进一步地,该支持向量集分类器采用线性核函数,以词袋(Bag of words)模型为基础使用以下不同的特征集合:
1.一元文法的二进制表示,若该单词出现,则特征向量的相应维的值为1,否则为0;
2.一元文法的tf值表示, w t , d = 1 + log tf t , d , if tf t , d > 0 0 , otherwise , 其中tf为该单词在句子中的词频,特征向量的每一维为该单词的w值,并对向量进行正规化,使得每个句子对应的特征向量成为单位向量;
3.一元文法的tf-idf值,w′t,d=(1+logtft,d)×log(N/dft),其中N为总的句子数,df为包含该单词的句子数,特征向量的每一维为该单词的w′值,并进行正规化;
4.二元文法的tf-idf值,为了减少分词带来的误差,并考虑词之间的相互联系,此特征在一元文法基础上,加入了两个相邻词组合而成的二元文法的信息;
5.特征集合选取了URL、不同类别词个数、特殊句式等9个与区分观点句和非观点句密切相关的特征。
进一步地,该观点句识别模组的集成处理采用将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类的方法。
进一步地,该观点句识别模组的集成处理采用直接对置信度加权平均得到最终的分类结果。
进一步地,该集成公式为:P(N)=α1×cfSVM(N)+(1-α1)×PNB(N)
P(NEG)=(α2×cfSVM(NEG)+(1-α2)×PNB(NEG))×μNEG
P(POS)=(α3×cfSVM(POS)+(1-α3)×PNB(POS))×μPOS
其中,cf(N),cf(NEG),cf(POS)分别为句子属于非观点句、负面和正面观点句的置信度,α1,α2,α3为控制SVM和NB分类结果所占权重的参数,μNEG,μPOS为调节三个类别置信度权重的参数。
本发明还提供一种情感分析方法,包括如下步骤:
步骤一,建立观点句识别及情感分析所需的训练集;
步骤二,用于对训练集中的句子进行预处理,去掉句子中的标签,仅保留句子本身的内容,同时在分词之前,对句子中的特殊符号进行了正规化处理;
步骤三,采用支持向量机分类器和贝叶斯分类器集成的方式对预处理后的句子进行观点句识别;以及
步骤四,基于支持向量机分类器及贝叶斯分类器分类器直接将预处理后的句子分为正面、负面和无观点三类,并通过一集成公式将两分类器的分类结果集成,得到当前句子的分类结果。
进一步地,步骤三包括如下步骤:
采用支持向量机分类器对预处理后的句子进行观点句识别,对每个句子得到一分类结果和属于该类别的置信度;
采用贝叶斯分类器对预处理后的句子进行观点句识别,对每个句子得到一分类结果和属于该类别的置信度;以及
将两个分类器得到的结果集成,得到最终的分类结果。
进一步地,将两个分类器得到的结果集成包括将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类以及直接对置信度加权平均得到最终的分类结果两种方法。
进一步地,该训练集包括中国计算机学会所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据。
进一步地,该集成公式为:
P(N)=α1×cfSVM(N)+(1-α1)×PNB(N)
P(NEG)=(α2×cfSVM(NEG)+(1-α2)×PNB(NEG))×μNEG
P(POS)=(α3×cfSVM(POS)+(1-α3)×PNB(POS))×μPOS
其中,cf(N),cf(NEG),cf(POS)分别为句子属于非观点句、负面和正面观点句的置信度,α1,α2,α3为控制SVM和NB分类结果所占权重的参数,μNEG,μPOS为调节三个类别置信度权重的参数。
与现有技术相比,本发明使用微博中与相关话题的微博作为训练数据,通过Support Vector Machine(支持向量机)和
Figure BDA00002659882800051
Bayes(朴素贝叶斯)分类器分别对训练数据进行观点句识别和情感倾向分析,并将其结果进行集成,提高了中文微博的观点句判断和情感倾向性分类的性能。
附图说明
图1为本发明一种情感分析系统的系统架构图;
图2为本发明一种情感分析方法的步骤流程图;
图3为本发明较佳实施例中观点句识别及情感倾向分析的示意图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种情感分析系统的系统架构图。如图1所示,本发明一种情感分析系统,可用于提高中文微博中观点句识别和观点句情感倾向分类的性能,至少包括:语料库建立模组11、数据预处理模组12、观点句识别模组13以及情感倾向分析模组14。
语料库建立模组11用于建立观点句识别及情感分析所需的训练集。在本发明较佳实施例中,本发明所建立的训练集由两部分组成,中国计算机学会(CCF)所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据,其涉及主题均与社会新闻相关,包括菲军舰恶意撞击、疯狂的大葱、官员财产公示等26个话题,共3552条微博,6508个句子,训练集为人工标注,由两个人分别独立标记,结果不同的再由第三个人进行裁决,以尽量避免由于个人理解不同造成的误差。
数据预处理模组12用于对训练集中的句子进行预处理,去掉句子中的标签,仅保留句子本身的内容。由于句子的主客观性与其带有的标签没有必然联系,为不影响分类效果,首先去掉了句子中的标签,仅保留句子本身的内容。此外,在分词之前,本发明对句子中的特殊符号进行了正规化处理,如将所有全角符号转化为半角,将英文标点替换为中文标点,将连续的数字替换为<NUM>,将所有不规范的省略号替换为<ETC>,还将短链接替换为<SHORT_URL>,以避免分词带来的误差。
观点句识别模组13采用SVM(support vector machine,支持向量机)和
Figure BDA00002659882800061
Bayesian(朴素贝叶斯分类器)集成的方式对预处理后的句子进行观点句识别。在本发明较佳实施例中,SVM分类器使用了Chih-Jen Lin的LIBLINEAR(2007)工具包,采用线性核函数,以Bag-of-words(词袋模型)为基础使用以下不同的特征集合:
1.Unigram(一元文法)的binary(二进制)表示,若该单词出现,则特征向量的相应维的值为1,否则为0。
2.unigram的tf值表示, w t , d = 1 + log tf t , d , if tf t , d > 0 0 , otherwise , 其中tf为该单词在句子中的词频。特征向量的每一维为该单词的w值,并按向量进行正规化,使得每个句子对应的特征向量成为单位向量。
3.unigram的tf-idf值,w′t,d=(1+logtft,d)×log(N/dft),其中N为总的句子数,df为包含该单词的句子数。特征向量的每一维为该单词的w′值,并进行正规化。
4.bigram(二元文法)的tf-idf值,为了减少分词带来的误差,并考虑词之间的相互联系,此特征在unigram基础上,加入了两个相邻词组合而成的bigram的信息。为防止特征向量过于稀疏,我们采用了用互信息进行特征选择,仅保留与观点句和非观点句互信息高的词进行降维以提高准确率。采用的互信息公式为:
( x , y ) = log ( p ( x | y ) p ( x ) ) = log p ( xy ) p ( x ) p ( y )
其中p(x)为词x在训练数据中出现的概率,p(y)为属于类别y的句子的概率。
5.特征集合选取了URL、不同类别词个数、特殊句式等9个与区分观点句和非观点句密切相关的特征,如表1所示。其中主张词、连词、代词和程度副词的特征来自HowNet词典,评价词和评价对象根据现有技术的方法生成,大致过程如下,首先选取“挺好”、“不错”、“荒唐”等52个常用形容词以及与微博标签相关的“政府”、“海军”、“中国”等66个名词作为种子,构成最初的评价词和评价对象集合,然后通过两个集合中词和集合之外词之间的语法依赖关系对集合进行扩展,直到集合中无法加入新的词为止,最终得到我们所需要的所有评价词和评价对象。
编号 特征描述 样例
1 是否含url 含有http
2 评价词个数 低劣、惊艳
3 评价对象个数 安徽官、奥迪车
4 主张词个数 觉得、认为
5 连词个数 况且、然而
6 代词个数 我们、他
7 程度副词个数 非常、十分
8 是否为特殊句式 疑问句、感叹句
9 是否为引用 含有引号、书名号
表1观点句识别特征集
Figure BDA00002659882800081
Bayes(朴素贝叶斯)分类器将一个句子s分为概率最大的那一类 c * NB ( s ) = arg max c P ( c | s ) . 利用Bayes(贝叶斯)公式计算 P ( c | s ) = P ( s | c ) P ( c ) P ( s ) , 通过假设在给定类别的条件下,句子中的每个词xi相互条件独立,NB将P(s|c)分解为:其中P(xi|c)为每个词在某一类中出现的频率,经过Laplacesmoothing得到。
使用上述基于SVM和Naive Bayes两种分类器,对每个句子可分别得到一个分类结果(L∈{1,-1},1和-1分别表示观点句和非观点句)和属于该类别的置信度(cf∈[0,1])。考虑单个分类器带来的误差,本发明可采用两种方法将两个分类器得到的结果集成,一种是将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类,另一种是直接对置信度加权平均得到最终的分类结果。
本发明采用以下加权公式得到集成分类器:
P ( Y ) = &alpha; &times; cf SVM ( Y ) + ( 1 - &alpha; ) &times; L NB &times; | cf NB ( Y ) - cf NB ( N ) | max ( cf NB ( Y ) , cf NB ( N ) )
其中α为调节SVM和NB分类器结果所占权重的参数。若最终得到的P(Y)大于特定阈值,则认为句子是观点句,否则是非观点句。
情感倾向分析模组14,基于SVM分类器及Naive Bayes(朴素贝叶斯)分类器直接将句子分为正面、负面和无观点三类,并通过一集成公式将SVM和Naive Bayes的分类结果集成,得到当前句子的分类结果。本发明为了减小观点句识别时带来的误差,直接将句子分为正面,负面和无观点三类,而没有在观点句识别的结果上再分类。本发明基于SVM分类器,将句子分为正面,负面和无观点三类,特征集合为unigram的tf-idf值。Naive Bayes分类器类似,只是将句子分为正面,负面和无观点三类。
将SVM和Naive Bayes的分类结果采用以下公式集成:
P(N)=α1×cfSVM(N)+(1-α1)×PNB(N)
P(NEG)=(α2×cfSVM(NEG)+(1-α2)×PNB(NEG))×μNEG
P(POS)=(α3×cfSVM(POS)+(1-α3)×PNB(POS))×μPOS
其中,cf(N),cf(NEG),cf(POS)分别为句子属于非观点句、负面和正面观点句的置信度。α1,α2,α3为控制SVM和NB分类结果所占权重的参数,μNEG,μPOS为调节三个类别置信度权重的参数。最终得到的P最大的那一类别为当前句子的分类结果。
需要说明的是,在本发明较佳实施例中,语料库训练集中腾讯微博的数据由中国计算机学会提供,新浪微博数据通过利用其自带的微博关键词搜索功能获得。在数据处理过程中,中文分词采用的工具为Stanford Word Segmenter。SVM分类器实现使用了Chih-Jen Lin的LIBLINEAR(2007)工具包。最终模型里,观点句识别模组13的集成公式中加权参数α=0.8,阈值为0.1。在情感倾向分析模组14的集成公式中个加权参数数值如下:α1=0.4,α2=0.4,α3=0.6,μPOS=2.1,μNEG=1.8。
图2为本发明一种情感分析方法的步骤流程图。如图2所示,本发明一种情感分析方法,用于对中文微博进行观点句判断和观点句情感倾向分析,包括如下步骤:
步骤201,建立观点句识别及情感分析所需的训练集。在本发明较佳实施例中,本发明所建立的训练集由两部分组成,中国计算机学会(CCF)所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据,主题均与社会新闻相关,包括菲军舰恶意撞击、疯狂的大葱、官员财产公示等26个话题,共3552条微博,6508个句子,训练集为人工标注,由两个人分别独立标记,结果不同的再由第三个人进行裁决,以尽量避免由于个人理解不同造成的误差。
步骤202,用于对训练集中的句子进行预处理,去掉句子中的标签,仅保留句子本身的内容,同时在分词之前,对句子中的特殊符号进行了正规化处理。由于句子的主客观性与其带有的标签没有必然联系,为不影响分类效果,首先去掉了句子中的标签,仅保留句子本身的内容。此外,在分词之前,本发明对句子中的特殊符号进行了正规化处理,如将所有全角符号转化为半角,将英文标点替换为中文标点,将连续的数字替换为<NUM>,将所有不规范的省略号替换为<ETC>,还将短链接替换为<SHORT_URL>,以避免分词带来的误差。
步骤203,采用SVM(support vector machine,支持向量机)和
Figure BDA00002659882800101
Bayesian(朴素贝叶斯分类器)集成的方式对预处理后的句子进行观点句识别。图3为本发明较佳实施例中观点句识别及情感倾向分析的示意图。如图3所示,观点句识别进一步包括如下步骤:
步骤1.1采用SVM(support vector machine,支持向量机)分类器对预处理后的句子进行观点句识别,对每个句子得到一分类结果和属于该类别的置信度。
在本发明较佳实施例中,SVM分类器使用了Chih-Jen Lin的LIBLINEAR(2007)工具包,采用线性核函数,以Bag-of-words(词袋模型)为基础使用以下不同的特征集合:
1.Unigram(一元文法)的binary(二进制)表示,若该单词出现,则特征向量的相应维的值为1,否则为0。
2.unigram的tf值表示, w t , d = 1 + log tf t , d , if tf t , d > 0 0 , otherwise , 其中tf为该单词在句子中的词频。特征向量的每一维为该单词的w值,并按向量进行正规化,使得每个句子对应的特征向量成为单位向量。
3.unigram的tf-idf值,w′t,d=(1+logtft,d)×log(N/dft),其中N为总的句子数,df为包含该单词的句子数。特征向量的每一维为该单词的w′值,并进行正规化。
4.bigram(二元文法)的tf-idf值,为了减少分词带来的误差,并考虑词之间的相互联系,此特征在unigram基础上,加入了两个相邻词组合而成的bigram的信息。为防止特征向量过于稀疏,我们采用了用互信息进行特征选择,仅保留与观点句和非观点句互信息高的词进行降维以提高准确率。采用的互信息的公式为:
( x , y ) = log ( p ( x | y ) p ( x ) ) = log p ( xy ) p ( x ) p ( y )
其中p(x)为词x在训练数据中出现的概率,p(y)为属于类别y的句子的概率。
5.特征集合选取了URL、不同类别词个数、特殊句式等9个与区分观点句和非观点句密切相关的特征,如前述表1所示。其中主张词、连词、代词和程度副词的特征来自HowNet词典,评价词和评价对象根据现有技术的方法生成,大致过程如下,首先选取“挺好”、“不错”、“荒唐”等52个常用形容词以及与微博标签相关的“政府”、“海军”、“中国”等66个名词作为种子,构成最初的评价词和评价对象集合,然后通过两个集合中词和集合之外词之间的语法依赖关系对集合进行扩展,直到集合中无法加入新的词为止,最终得到我们所需要的所有评价词和评价对象。
步骤1.2,采用
Figure BDA00002659882800112
Bayes(朴素贝叶斯)分类器分类器对预处理后的句子进行观点句识别,对每个句子分别得到一分类结果和属于该类别的置信度。
在本发明较佳实施例中,
Figure BDA00002659882800113
Bayes(朴素贝叶斯)分类器将一个句子s分为概率最大的那一类
Figure BDA00002659882800114
利用Bayes(贝叶斯)公式计算
Figure BDA00002659882800115
通过假设在给定类别的条件下,句子中的每个词xi相互条件独立,NB将P(s|c)分解为:
Figure BDA00002659882800121
其中P(xi|c)为每个词在某一类中出现的频率,经过Laplace smoothing得到。
步骤1.3将两个分类器得到的结果集成,得到最终的分类结果。
使用上述基于SVM和Naive Bayes两种分类器,对每个句子可分别得到一个分类结果(L∈{1,-1},1和-1分别表示观点句和非观点句)和属于该类别的置信度(cf∈[0,1])。考虑单个分类器带来的误差,本发明可采用两种方法将两个分类器得到的结果集成,一种是将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类,另一种是直接对置信度加权平均得到最终的分类结果。
本发明较佳实施例采用以下加权公式得到集成分类器:
P ( Y ) = &alpha; &times; cf SVM ( Y ) + ( 1 - &alpha; ) &times; L NB &times; | cf NB ( Y ) - cf NB ( N ) | max ( cf NB ( Y ) , cf NB ( N ) )
其中α为调节SVM和NB分类器结果所占权重的参数。若最终得到的P(Y)大于特定阈值,则认为句子是观点句,否则是非观点句。
步骤204,基于SVM分类器及Naive Bayes(朴素贝叶斯)分类器直接将预处理后的句子分为正面、负面和无观点三类,并通过一集成公式将SVM和Naive Bayes的分类结果集成,得到当前句子的分类结果,如图3所示。本发明为了减小观点句识别时带来的误差,直接将句子分为正面,负面和无观点三类,而没有在观点句识别的结果上再分类,本发明基于SVM分类器,将句子分为正面,负面和无观点三类,特征集合为unigram的tf-idf值。Naive Bayes分类器与之前观点句识别的方法类似,只是将句子分为正面,负面和无观点三类。
将SVM和Naive Bayes的分类结果采用以下公式集成:
P(N)=α1×cfSVM(N)+(1-α1)×PNB(N)
P(NEG)=(α2×cfSVM(NEG)+(1-α2)×PNB(NEG))×μNEG
P(POS)=(α3×cfSVM(POS)+(1-α3)×PNB(POS))×μPOS
其中,cf(N),cf(NEG),cf(POS)分别为句子属于非观点句、负面和正面观点句的置信度。α1,α2,α3为控制SVM和NB分类结果所占权重的参数,μNEG,μPOS为调节三个类别置信度权重的参数。最终得到的P最大的那一类别为当前句子的分类结果。
本发明经评测实验,在评测数据集上测试得到了良好的性能。其中观点句判断的效果如表2所示,情感倾向分析的效果如表3所示。
Figure BDA00002659882800131
表2使用集成分类器得到的观点句判断性能
Figure BDA00002659882800132
表3使用集成分类器得到的情感倾向分析性能
从表2和表3中两种方法的对比可以看出,在使用了分类器集成的方法后,本发明的召回率相比单独的分类器有极大提升,最重要的评价指标F值也有显著提高。
综上所述,本发明提出的情感分析系统及方法通过使用微博中与相关话题的微博作为训练数据,通过Support Vector Machine(支持向量机)和
Figure BDA00002659882800133
Bayes(朴素贝叶斯)分类器分别对训练数据进行观点句识别和情感倾向分析,并将其结果进行集成,提高了中文微博的观点句判断和情感倾向性分类的性能。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (14)

1.一种情感分析系统,至少包括:
语料库建立模组,用于建立观点句识别及情感倾向分析所需的训练集;
数据预处理模组,用于对训练集中的句子进行预处理;
观点句识别模组,采用支持向量机分类器与贝叶斯分类器分别对预处理后的句子进行观点句识别,并对两分类器的结果进行集成处理,得到最终的分类结果;以及
情感倾向分析模组,采用支持向量机分类器及贝叶斯分类器分别直接将预处理后的句子分为正面、负面和无观点三类,并通过集成公式将该支持向量机分类器和贝叶斯分类器的分类结果集成,得到当前句子的分类结果。
2.如权利要求1所述的一种情感分析系统,其特征在于:该训练集包括中国计算机学会所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据。
3.如权利要求2所述的一种情感分析系统,其特征在于:该训练集为人工标注,由两个人分别独立标记,结果不同的再由第三个人进行裁决。
4.如权利要求1所述的一种情感分析系统,其特征在于:该预处理包括去掉句子中的标签仅保留句子本身的内容及对句子中的特殊符号进行了正规化处理。
5.如权利要求4所述的一种情感分析系统,其特征在于:对句子中的特殊符号的处理包括将所有全角符号转化为半角、将英文标点替换为中文标点、将连续的数字替换为<NUM>、将所有不规范的省略号替换为<ETC>以及将短链接替换为<SHORT_URL>。
6.如权利要求1所述的一种情感分析系统,其特征在于,该支持向量集分类器采用线性核函数,以词袋模型为基础使用以下不同的特征集合:
1.一元文法的二进制表示,若该单词出现,则特征向量的相应维的值为1,否则为0;
2.一元文法的tf值表示, w t , d = 1 + log tf t , d , if tf t , d > 0 0 , otherwise , 其中tf为该单词在句子中的词频,特征向量的每一维为该单词的w值,并对向量进行正规化,使得每个句子对应的特征向量成为单位向量;
3.一元文法的tf-idf值,w′t,d=(1+logtft,d)×log(N/dft),其中N为总的句子数,df为包含该单词的句子数,特征向量的每一维为该单词的w′值,并进行正规化;
4.二元文法的tf-idf值,为了减少分词带来的误差,并考虑词之间的相互联系,此特征在一元文法基础上,加入了两个相邻词组合而成的二元文法的信息;
5.特征集合选取了URL、不同类别词个数、特殊句式等9个与区分观点句和非观点句密切相关的特征。
7.如权利要求6所述的一种情感分析系统,其特征在于:该观点句识别模组的集成处理采用将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类的方法。
8.如权利要求6所述的一种情感分析系统,其特征在于:该观点句识别模组的集成处理采用直接对置信度加权平均得到最终的分类结果。
9.如权利要求1所述的一种情感分析系统,其特征在于,该集成公式为:
P(N)=α1×cfSVM(N)+(1-α1)×PNB(N)
P(NEG)=(α2×cfSVM(NEG)+(1-α2)×PNB(NEG))×μNEG
P(POS)=(α3×cfSVM(POS)+(1-α3)×PNB(POS))×μPOS
其中,cf(N),cf(NEG),cf(POS)分别为句子属于非观点句、负面和正面观点句的置信度,α1,α2,α3为控制SVM和NB分类结果所占权重的参数,μNEG,μPOS为调节三个类别置信度权重的参数。
10.一种情感分析方法,包括如下步骤:
步骤一,建立观点句识别及情感分析所需的训练集;
步骤二,用于对训练集中的句子进行预处理,去掉句子中的标签,仅保留句子本身的内容,同时在分词之前,对句子中的特殊符号进行了正规化处理;
步骤三,采用支持向量机分类器和贝叶斯分类器集成的方式对预处理后的句子进行观点句识别;以及
步骤四,基于支持向量机分类器及贝叶斯分类器分类器直接将预处理后的句子分为正面、负面和无观点三类,并通过一集成公式将两分类器的分类结果集成,得到当前句子的分类结果。
11.如权利要求10所述的一种情感分析方法,其特征在于,该步骤三包括如下步骤:
采用支持向量机分类器对预处理后的句子进行观点句识别,对每个句子得到一分类结果和属于该类别的置信度;
采用贝叶斯分类器对预处理后的句子进行观点句识别,对每个句子得到一分类结果和属于该类别的置信度;以及
将两个分类器得到的结果集成,得到最终的分类结果。
12.如权利要求11所述的一种情感分析方法,其特征在于:将两个分类器得到的结果集成包括将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类以及直接对置信度加权平均得到最终的分类结果两种方法。
13.如权利要求10所述的一种情感分析方法,其特征在于:该训练集包括中国计算机学会所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据。
14.如权利要求10所述的一种情感分析方法,其特征在于,该集成公式为:
P(N)=α1×cfSVM(N)+(1-α1)×PNB(N)
P(NEG)=(α2×cfSVM(NEG)+(1-α2)×PNB(NEG))×μNEG
P(POS)=(α3×cfSVM(POS)+(1-α3)×PNB(POS))×μPOS
其中,cf(N),cf(NEG),cf(POS)分别为句子属于非观点句、负面和正面观点句的置信度,α1,α2,α3为控制SVM和NB分类结果所占权重的参数,μNEG,μPOS为调节三个类别置信度权重的参数。
CN2012105770367A 2012-12-26 2012-12-26 情感分析系统及方法 Pending CN103034626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105770367A CN103034626A (zh) 2012-12-26 2012-12-26 情感分析系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105770367A CN103034626A (zh) 2012-12-26 2012-12-26 情感分析系统及方法

Publications (1)

Publication Number Publication Date
CN103034626A true CN103034626A (zh) 2013-04-10

Family

ID=48021530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105770367A Pending CN103034626A (zh) 2012-12-26 2012-12-26 情感分析系统及方法

Country Status (1)

Country Link
CN (1) CN103034626A (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336779A (zh) * 2013-05-29 2013-10-02 苏州市职业大学 基于半指导策略的汉语多词表达语料构建方法
CN103345581A (zh) * 2013-07-04 2013-10-09 上海交通大学 基于在线自中心模型的动态网络分析系统及方法
CN103631961A (zh) * 2013-12-17 2014-03-12 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN103678720A (zh) * 2014-01-02 2014-03-26 中国标准化研究院 用户反馈数据处理方法和装置
CN103729456A (zh) * 2014-01-07 2014-04-16 合肥工业大学 一种基于微博群环境的微博多模态情感分析方法
CN103970864A (zh) * 2014-05-08 2014-08-06 清华大学 基于微博文本的情绪分类和情绪成分分析方法及系统
CN104035968A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 基于社交网络的训练语料集的构建方法和装置
CN104462408A (zh) * 2014-12-12 2015-03-25 浙江大学 一种基于主题建模的多粒度情感分析方法
CN104598549A (zh) * 2014-12-31 2015-05-06 北京畅游天下网络技术有限公司 数据分析方法和系统
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
CN105005552A (zh) * 2014-04-22 2015-10-28 北京四维图新科技股份有限公司 一种信息处理方法及装置
CN105335350A (zh) * 2015-10-08 2016-02-17 北京理工大学 一种基于集成学习的语种识别方法
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN105912720A (zh) * 2016-05-04 2016-08-31 南京大学 一种计算机中涉及情感的文本数据分析方法
CN106104521A (zh) * 2014-01-10 2016-11-09 克鲁伊普公司 用于自动检测文本中的情感的系统、设备和方法
CN106126502A (zh) * 2016-07-07 2016-11-16 四川长虹电器股份有限公司 一种基于支持向量机的情感分类系统及方法
CN106156184A (zh) * 2015-04-21 2016-11-23 苏州优估营网络科技有限公司 基于情感分类和som聚类的专家评语归纳算法
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106294718A (zh) * 2016-08-08 2017-01-04 北京邮电大学 信息处理方法及装置
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN106777040A (zh) * 2016-12-09 2017-05-31 厦门大学 一种基于情感极性感知算法的跨媒体微博舆情分析方法
CN106951472A (zh) * 2017-03-06 2017-07-14 华侨大学 一种网络文本的多重情感分类方法
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN107423371A (zh) * 2017-07-03 2017-12-01 湖北师范大学 一种文本正负类情感分类方法
CN107545261A (zh) * 2016-06-23 2018-01-05 佳能株式会社 文本检测的方法及装置
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN108287922A (zh) * 2018-02-28 2018-07-17 福州大学 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN108717450A (zh) * 2018-05-18 2018-10-30 大连民族大学 影评情感倾向性分析算法
CN108897732A (zh) * 2018-06-08 2018-11-27 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置
CN109034893A (zh) * 2018-07-20 2018-12-18 成都中科大旗软件有限公司 一种旅游网络评论情感分析及服务质量评价方法
CN109635092A (zh) * 2018-12-14 2019-04-16 泰康保险集团股份有限公司 分析员工工作状态的方法、装置、介质及电子设备
CN111126046A (zh) * 2019-12-06 2020-05-08 腾讯云计算(北京)有限责任公司 语句特征的处理方法和装置、存储介质
CN111178043A (zh) * 2019-12-31 2020-05-19 武汉优聘科技有限公司 一种识别学术观点句的方法及系统
CN111666748A (zh) * 2020-05-12 2020-09-15 武汉大学 一种自动化分类器的构造方法以及从软件开发文本类制品中识别决策的方法
CN112069793A (zh) * 2020-08-11 2020-12-11 武汉大学 一种从软件开发文本类制品中识别假设条件的自动化方法
CN112380346A (zh) * 2020-11-23 2021-02-19 宁波深擎信息科技有限公司 金融新闻情感分析方法、装置、计算机设备及存储介质
CN113190672A (zh) * 2021-05-12 2021-07-30 上海热血网络科技有限公司 一种广告判定模型、广告过滤的方法及系统
CN117494727A (zh) * 2023-12-29 2024-02-02 卓世科技(海南)有限公司 用于大语言模型的去偏倚方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘艳茜等: "基于多分类器集成的中文微博情感分析", 《NLP&CC 2012 HTTP://TCCI.CCF.ORG.CN/CONFERENCE/2012/DLDOC/NLPCC2012PAPERS/WORKSHOPPAPERS/SEN/012.PDF》 *

Cited By (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336779A (zh) * 2013-05-29 2013-10-02 苏州市职业大学 基于半指导策略的汉语多词表达语料构建方法
CN103345581A (zh) * 2013-07-04 2013-10-09 上海交通大学 基于在线自中心模型的动态网络分析系统及方法
CN103345581B (zh) * 2013-07-04 2016-12-28 上海交通大学 基于在线自中心模型的动态网络分析系统及方法
CN103631961A (zh) * 2013-12-17 2014-03-12 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN103631961B (zh) * 2013-12-17 2017-01-18 苏州大学张家港工业技术研究院 一种情感词与评价对象的关系识别方法
CN103678720A (zh) * 2014-01-02 2014-03-26 中国标准化研究院 用户反馈数据处理方法和装置
CN103678720B (zh) * 2014-01-02 2017-02-22 中国标准化研究院 用户反馈数据处理方法和装置
CN103729456A (zh) * 2014-01-07 2014-04-16 合肥工业大学 一种基于微博群环境的微博多模态情感分析方法
CN103729456B (zh) * 2014-01-07 2016-09-28 合肥工业大学 一种基于微博群环境的微博多模态情感分析方法
US10073830B2 (en) 2014-01-10 2018-09-11 Cluep Inc. Systems, devices, and methods for automatic detection of feelings in text
CN106104521A (zh) * 2014-01-10 2016-11-09 克鲁伊普公司 用于自动检测文本中的情感的系统、设备和方法
CN106104521B (zh) * 2014-01-10 2019-10-25 克鲁伊普有限责任公司 用于自动检测文本中的情感的系统、设备和方法
CN105005552A (zh) * 2014-04-22 2015-10-28 北京四维图新科技股份有限公司 一种信息处理方法及装置
CN103970864B (zh) * 2014-05-08 2017-09-22 清华大学 基于微博文本的情绪分类和情绪成分分析方法及系统
CN103970864A (zh) * 2014-05-08 2014-08-06 清华大学 基于微博文本的情绪分类和情绪成分分析方法及系统
CN104035968B (zh) * 2014-05-20 2017-11-03 微梦创科网络科技(中国)有限公司 基于社交网络的训练语料集的构建方法和装置
CN104035968A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 基于社交网络的训练语料集的构建方法和装置
CN104462408A (zh) * 2014-12-12 2015-03-25 浙江大学 一种基于主题建模的多粒度情感分析方法
CN104462408B (zh) * 2014-12-12 2017-09-01 浙江大学 一种基于主题建模的多粒度情感分析方法
CN104598549B (zh) * 2014-12-31 2019-03-05 北京畅游天下网络技术有限公司 数据分析方法和系统
CN104598549A (zh) * 2014-12-31 2015-05-06 北京畅游天下网络技术有限公司 数据分析方法和系统
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
CN106156184A (zh) * 2015-04-21 2016-11-23 苏州优估营网络科技有限公司 基于情感分类和som聚类的专家评语归纳算法
CN105335350A (zh) * 2015-10-08 2016-02-17 北京理工大学 一种基于集成学习的语种识别方法
CN105912525A (zh) * 2016-04-11 2016-08-31 天津大学 基于主题特征的半监督学习情感分类方法
CN105912720B (zh) * 2016-05-04 2019-02-22 南京大学 一种计算机中涉及情感的文本数据分析方法
CN105912720A (zh) * 2016-05-04 2016-08-31 南京大学 一种计算机中涉及情感的文本数据分析方法
CN107545261A (zh) * 2016-06-23 2018-01-05 佳能株式会社 文本检测的方法及装置
CN106202032B (zh) * 2016-06-24 2018-08-28 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106202032A (zh) * 2016-06-24 2016-12-07 广州数说故事信息科技有限公司 一种面向微博短文本的情感分析方法及其系统
CN106126502A (zh) * 2016-07-07 2016-11-16 四川长虹电器股份有限公司 一种基于支持向量机的情感分类系统及方法
CN106126502B (zh) * 2016-07-07 2018-10-30 四川长虹电器股份有限公司 一种基于支持向量机的情感分类系统及方法
CN106294718A (zh) * 2016-08-08 2017-01-04 北京邮电大学 信息处理方法及装置
CN106372058B (zh) * 2016-08-29 2019-10-15 中译语通科技股份有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106372058A (zh) * 2016-08-29 2017-02-01 中译语通科技(北京)有限公司 一种基于深度学习的短文本情感要素抽取方法及装置
CN106503049A (zh) * 2016-09-22 2017-03-15 南京理工大学 一种基于svm融合多种情感资源的微博情感分类方法
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置
CN106777040A (zh) * 2016-12-09 2017-05-31 厦门大学 一种基于情感极性感知算法的跨媒体微博舆情分析方法
CN106951472A (zh) * 2017-03-06 2017-07-14 华侨大学 一种网络文本的多重情感分类方法
CN107423371A (zh) * 2017-07-03 2017-12-01 湖北师范大学 一种文本正负类情感分类方法
CN107301171B (zh) * 2017-08-18 2020-09-01 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN107301171A (zh) * 2017-08-18 2017-10-27 武汉红茶数据技术有限公司 一种基于情感词典学习的文本情感分析方法和系统
CN108228569A (zh) * 2018-01-30 2018-06-29 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN108287922A (zh) * 2018-02-28 2018-07-17 福州大学 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN108287922B (zh) * 2018-02-28 2022-03-08 福州大学 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN108628828B (zh) * 2018-04-18 2022-04-01 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN108717450B (zh) * 2018-05-18 2022-04-05 大连民族大学 影评情感倾向性分析算法
CN108717450A (zh) * 2018-05-18 2018-10-30 大连民族大学 影评情感倾向性分析算法
CN108897732A (zh) * 2018-06-08 2018-11-27 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置
CN108897732B (zh) * 2018-06-08 2020-08-25 腾讯科技(深圳)有限公司 语句类型识别方法和装置、存储介质及电子装置
CN109034893A (zh) * 2018-07-20 2018-12-18 成都中科大旗软件有限公司 一种旅游网络评论情感分析及服务质量评价方法
CN109635092A (zh) * 2018-12-14 2019-04-16 泰康保险集团股份有限公司 分析员工工作状态的方法、装置、介质及电子设备
CN111126046A (zh) * 2019-12-06 2020-05-08 腾讯云计算(北京)有限责任公司 语句特征的处理方法和装置、存储介质
CN111126046B (zh) * 2019-12-06 2023-07-14 腾讯云计算(北京)有限责任公司 语句特征的处理方法和装置、存储介质
CN111178043A (zh) * 2019-12-31 2020-05-19 武汉优聘科技有限公司 一种识别学术观点句的方法及系统
CN111666748A (zh) * 2020-05-12 2020-09-15 武汉大学 一种自动化分类器的构造方法以及从软件开发文本类制品中识别决策的方法
CN111666748B (zh) * 2020-05-12 2022-09-13 武汉大学 一种自动化分类器的构造方法以及识别决策的方法
CN112069793A (zh) * 2020-08-11 2020-12-11 武汉大学 一种从软件开发文本类制品中识别假设条件的自动化方法
CN112380346A (zh) * 2020-11-23 2021-02-19 宁波深擎信息科技有限公司 金融新闻情感分析方法、装置、计算机设备及存储介质
CN112380346B (zh) * 2020-11-23 2023-04-25 宁波深擎信息科技有限公司 金融新闻情感分析方法、装置、计算机设备及存储介质
CN113190672A (zh) * 2021-05-12 2021-07-30 上海热血网络科技有限公司 一种广告判定模型、广告过滤的方法及系统
CN117494727A (zh) * 2023-12-29 2024-02-02 卓世科技(海南)有限公司 用于大语言模型的去偏倚方法
CN117494727B (zh) * 2023-12-29 2024-03-29 卓世科技(海南)有限公司 用于大语言模型的去偏倚方法

Similar Documents

Publication Publication Date Title
CN103034626A (zh) 情感分析系统及方法
Mukherjee et al. Effect of negation in sentences on sentiment analysis and polarity detection
Dahou et al. Word embeddings and convolutional neural network for arabic sentiment classification
Alwehaibi et al. Comparison of pre-trained word vectors for arabic text classification using deep learning approach
Shi et al. Sentiment analysis of Chinese microblogging based on sentiment ontology: a case study of ‘7.23 Wenzhou Train Collision’
Xu et al. Hierarchical emotion classification and emotion component analysis on Chinese micro-blog posts
Valakunde et al. Multi-aspect and multi-class based document sentiment analysis of educational data catering accreditation process
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
CN104794208A (zh) 基于微博文本上下文信息的情绪分类方法及系统
Reganti et al. Modeling satire in English text for automatic detection
Hamdi et al. A review on challenging issues in Arabic sentiment analysis
Nezhad et al. Sarcasm detection in Persian
Shelke et al. Recent advances in sentiment analysis of Indian languages
Bölücü et al. Hate Speech and Offensive Content Identification with Graph Convolutional Networks.
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Messaoudi et al. A deep learning model for opinion mining in Twitter combining text and emojis
Tungthamthiti et al. Recognition of sarcasm in microblogging based on sentiment analysis and coherence identification
Al-Anzi et al. A micro-word based approach for arabic sentiment analysis
Xu et al. A classification of questions using SVM and semantic similarity analysis
Chen et al. Learning the chinese sentence representation with LSTM autoencoder
Ma et al. Analysis of three methods for web-based opinion mining
Kong et al. Construction of microblog-specific chinese sentiment lexicon based on representation learning
Chen et al. Sentiment strength prediction using auxiliary features
Zhang et al. Sentiment classification for consumer word-of-mouth in Chinese: Comparison between supervised and unsupervised approaches
Chen et al. Research on Chinese micro-blog sentiment classification based on recurrent neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130410