CN103034626A

CN103034626A - 情感分析系统及方法

Info

Publication number: CN103034626A
Application number: CN2012105770367A
Authority: CN
Inventors: 李武军; 罗珞; 过敏意
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2012-12-26
Filing date: 2012-12-26
Publication date: 2013-04-10

Abstract

本发明公开了一种情感分析系统及方法，该系统包括语料库建立模组，用于建立观点句识别及情感倾向分析所需的训练集；数据预处理模组，用于对训练集中的句子进行预处理；观点句识别模组，采用支持向量机分类器与贝叶斯分类器分别对预处理后的句子进行观点句识别，并对两分类器的结果进行集成处理，得到最终的分类结果；以及情感倾向分析模组，基于支持向量机分类器及贝叶斯分类器分别直接将预处理后的句子分为正面、负面和无观点三类，并通过一集成公式将该支持向量机分类器和贝叶斯分类器的分类结果集成，得到当前句子的分类结果，本发明可提高中文微博的观点句判断和情感倾向性分类的性能。

Description

情感分析系统及方法

技术领域

本发明涉及一种情感分析系统及方法，特别涉及一种中文微博的情感分析系统及方法。

背景技术

随着互联网的发展，越来越多用户通过网络平台表达自己观点，从而产生了大量的主观性文本数据。这些数据中蕴含的大量情感信息，其具有非常大的潜在价值，在社会舆情分析、有害信息过滤、产品推荐等诸多领域有着广阔的发展前景。然而这些数据的主观性情感分类无法通过传统的基于关键词和自动索引信息获取，而人工浏览大量文本又十分低效。近年来，针对文本的情感分析是一个研究热点，相关技术已在电子产品、影视娱乐和新闻等多个领域得到应用。

微博信息是一种在社交网络上通过关注机制分享的简短实时信息，其内容具有时效性，主题包罗万象，且拥有海量数据。基于微博的情感分析技术可以在各个领域提供有用信息。但与传统的情感分析不同，微博由于其内容过于简短(如新浪微博不超过140字)，用户发言含各种噪声(如错别字，非正式用语等)等因素，对其进行情感分析相比传统的在产品评论等领域的相关工作要困难得多。近年来国际上有关英文Twitter的情感分析研究较为热门。但基于中文微博的相关工作相对较少，中文微博中经常使用反讽等方式表达情感，这也使得中文微博的情感分析更为困难。

关于情感分析的研究方法，主要有两种：基于词典的语义方法和机器学习的方法。语义方法通常通过计算候选词和通用情感词典中的基准词的语义距离，判断候选词的情感倾向。例如，Lu等将不同来源的信息结合起来构成一个统一的最优框架，这些信息包括通用情感词典中该词的极性，整个文档的情感分数，WordNet中的同义词、反义词信息，以及一些语法规则(比如两个用“和”连接的词的极性也更相近)。另一方面，机器学习的方法首先需要人工标记情感语料库，然后训练出一个模型来学习出不同类别的特征，从而预测目标文本属于哪一类别。用于训练的特征通常包括unigrams，bigrams，词性和词的位置等等。分类算法主要有监督学习和半监督学习两种。常用的监督学习的方法包括SVM(支持向量机)，

Bayes(贝叶斯模型)，Maximum Entropy(最大熵)和K-nearest neighbor(K-近邻)。一些半监督学习的方法应用了bootstrap策略，比如自我训练和联合训练。

传统的情感分析处理的都是一些比较规范的文本，如产品评论或博客等，然而，社交网络的情感分析处理的是内容较短且语法不规范的文本。判断微博的主客观和情感倾向性比传统的情感分析要困难的多。目前，国外关于Twitter的研究日益增多，其中包括对每条Tweet的情感分析，对于一个话题的情感分析，以及用户级别的情感分析。在2011年，Jiang等提出了一种与情感对象有关，上下文相关的方法来判断Tweet的情感。虽然这种方法提高了关于Twitter的情感分类的性能，但其主客观分类器的准确率并不是很高(最好的情况下为68.2％)。

发明内容

为克服上述现有技术存在的不足，本发明目的在于提供一种情感分析系统及方法，其使用微博中与相关话题的微博作为训练数据，以Support VectorMachine和

Bayes分类器为核心，提高中文微博的观点句判断和情感倾向性分类的性能。

为达上述及其它目的，本发明提出一种情感分析系统，至少包括：

语料库建立模组，用于建立观点句识别及情感倾向分析所需的训练集；

数据预处理模组，用于对训练集中的句子进行预处理；

观点句识别模组，采用支持向量机分类器与贝叶斯分类器分别对预处理后的句子进行观点句识别，并对两分类器的结果进行集成处理，得到最终的分类结果；以及

情感倾向分析模组，基于支持向量机分类器及贝叶斯分类器分别直接将预处理后的句子分为正面、负面和无观点三类，并通过一集成公式将该支持向量机分类器和贝叶斯分类器的分类结果集成，得到当前句子的分类结果。

进一步地，该训练集包括中国计算机学会所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据。

进一步地，该训练集为人工标注，由两个人分别独立标记，结果不同的再由第三个人进行裁决。

进一步地，该预处理包括去掉句子中的标签，仅保留句子本身的内容及对句子中的特殊符号进行正规化处理。

进一步地，对句子中的特殊符号的处理包括将所有全角符号转化为半角、将英文标点替换为中文标点、将连续的数字替换为<NUM>、将所有不规范的省略号替换为<ETC>以及将短链接替换为<SHORT_URL>。

进一步地，该支持向量集分类器采用线性核函数，以词袋(Bag of words)模型为基础使用以下不同的特征集合：

1.一元文法的二进制表示，若该单词出现，则特征向量的相应维的值为1，否则为0；

2.一元文法的tf值表示，

w_{t, d} = \{\begin{matrix} 1 + {\log tf}_{t, d}, & if {tf}_{t, d} > 0 \\ 0, & otherwise \end{matrix},

其中tf为该单词在句子中的词频，特征向量的每一维为该单词的w值，并对向量进行正规化，使得每个句子对应的特征向量成为单位向量；

3.一元文法的tf-idf值，w′_t，d＝(1+logtf_t，d)×log(N/df_t)，其中N为总的句子数，df为包含该单词的句子数，特征向量的每一维为该单词的w′值，并进行正规化；

4.二元文法的tf-idf值，为了减少分词带来的误差，并考虑词之间的相互联系，此特征在一元文法基础上，加入了两个相邻词组合而成的二元文法的信息；

5.特征集合选取了URL、不同类别词个数、特殊句式等9个与区分观点句和非观点句密切相关的特征。

进一步地，该观点句识别模组的集成处理采用将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类的方法。

进一步地，该观点句识别模组的集成处理采用直接对置信度加权平均得到最终的分类结果。

进一步地，该集成公式为：P(N)＝α₁×cf_SVM(N)+(1-α₁)×P_NB(N)

P(NEG)＝(α₂×cf_SVM(NEG)+(1-α₂)×P_NB(NEG))×μ_NEG

P(POS)＝(α₃×cf_SVM(POS)+(1-α₃)×P_NB(POS))×μ_POS

其中，cf(N)，cf(NEG)，cf(POS)分别为句子属于非观点句、负面和正面观点句的置信度，α₁，α₂，α₃为控制SVM和NB分类结果所占权重的参数，μ_NEG，μ_POS为调节三个类别置信度权重的参数。

本发明还提供一种情感分析方法，包括如下步骤：

步骤一，建立观点句识别及情感分析所需的训练集；

步骤二，用于对训练集中的句子进行预处理，去掉句子中的标签，仅保留句子本身的内容，同时在分词之前，对句子中的特殊符号进行了正规化处理；

步骤三，采用支持向量机分类器和贝叶斯分类器集成的方式对预处理后的句子进行观点句识别；以及

步骤四，基于支持向量机分类器及贝叶斯分类器分类器直接将预处理后的句子分为正面、负面和无观点三类，并通过一集成公式将两分类器的分类结果集成，得到当前句子的分类结果。

进一步地，步骤三包括如下步骤：

采用支持向量机分类器对预处理后的句子进行观点句识别，对每个句子得到一分类结果和属于该类别的置信度；

采用贝叶斯分类器对预处理后的句子进行观点句识别，对每个句子得到一分类结果和属于该类别的置信度；以及

将两个分类器得到的结果集成，得到最终的分类结果。

进一步地，将两个分类器得到的结果集成包括将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类以及直接对置信度加权平均得到最终的分类结果两种方法。

进一步地，该集成公式为：

P(N)＝α₁×cf_SVM(N)+(1-α₁)×P_NB(N)

P(NEG)＝(α₂×cf_SVM(NEG)+(1-α₂)×P_NB(NEG))×μ_NEG

P(POS)＝(α₃×cf_SVM(POS)+(1-α₃)×P_NB(POS))×μ_POS

与现有技术相比，本发明使用微博中与相关话题的微博作为训练数据，通过Support Vector Machine(支持向量机)和

Bayes(朴素贝叶斯)分类器分别对训练数据进行观点句识别和情感倾向分析，并将其结果进行集成，提高了中文微博的观点句判断和情感倾向性分类的性能。

附图说明

图1为本发明一种情感分析系统的系统架构图；

图2为本发明一种情感分析方法的步骤流程图；

图3为本发明较佳实施例中观点句识别及情感倾向分析的示意图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种情感分析系统的系统架构图。如图1所示，本发明一种情感分析系统，可用于提高中文微博中观点句识别和观点句情感倾向分类的性能，至少包括：语料库建立模组11、数据预处理模组12、观点句识别模组13以及情感倾向分析模组14。

语料库建立模组11用于建立观点句识别及情感分析所需的训练集。在本发明较佳实施例中，本发明所建立的训练集由两部分组成，中国计算机学会(CCF)所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据，其涉及主题均与社会新闻相关，包括菲军舰恶意撞击、疯狂的大葱、官员财产公示等26个话题，共3552条微博，6508个句子，训练集为人工标注，由两个人分别独立标记，结果不同的再由第三个人进行裁决，以尽量避免由于个人理解不同造成的误差。

数据预处理模组12用于对训练集中的句子进行预处理，去掉句子中的标签，仅保留句子本身的内容。由于句子的主客观性与其带有的标签没有必然联系，为不影响分类效果，首先去掉了句子中的标签，仅保留句子本身的内容。此外，在分词之前，本发明对句子中的特殊符号进行了正规化处理，如将所有全角符号转化为半角，将英文标点替换为中文标点，将连续的数字替换为<NUM>，将所有不规范的省略号替换为<ETC>，还将短链接替换为<SHORT_URL>，以避免分词带来的误差。

观点句识别模组13采用SVM(support vector machine，支持向量机)和

Bayesian(朴素贝叶斯分类器)集成的方式对预处理后的句子进行观点句识别。在本发明较佳实施例中，SVM分类器使用了Chih-Jen Lin的LIBLINEAR(2007)工具包，采用线性核函数，以Bag-of-words(词袋模型)为基础使用以下不同的特征集合：

1.Unigram(一元文法)的binary(二进制)表示，若该单词出现，则特征向量的相应维的值为1，否则为0。

2.unigram的tf值表示，

w_{t, d} = \{\begin{matrix} 1 + \log {tf}_{t, d}, & if {tf}_{t, d} > 0 \\ 0, & otherwise \end{matrix},

其中tf为该单词在句子中的词频。特征向量的每一维为该单词的w值，并按向量进行正规化，使得每个句子对应的特征向量成为单位向量。

3.unigram的tf-idf值，w′_t，d＝(1+logtf_t，d)×log(N/df_t)，其中N为总的句子数，df为包含该单词的句子数。特征向量的每一维为该单词的w′值，并进行正规化。

4.bigram(二元文法)的tf-idf值，为了减少分词带来的误差，并考虑词之间的相互联系，此特征在unigram基础上，加入了两个相邻词组合而成的bigram的信息。为防止特征向量过于稀疏，我们采用了用互信息进行特征选择，仅保留与观点句和非观点句互信息高的词进行降维以提高准确率。采用的互信息公式为：

(x, y) = \log (\frac{p (x | y)}{p (x)}) = \log \frac{p (xy)}{p (x) p (y)}

其中p(x)为词x在训练数据中出现的概率，p(y)为属于类别y的句子的概率。

5.特征集合选取了URL、不同类别词个数、特殊句式等9个与区分观点句和非观点句密切相关的特征，如表1所示。其中主张词、连词、代词和程度副词的特征来自HowNet词典，评价词和评价对象根据现有技术的方法生成，大致过程如下，首先选取“挺好”、“不错”、“荒唐”等52个常用形容词以及与微博标签相关的“政府”、“海军”、“中国”等66个名词作为种子，构成最初的评价词和评价对象集合，然后通过两个集合中词和集合之外词之间的语法依赖关系对集合进行扩展，直到集合中无法加入新的词为止，最终得到我们所需要的所有评价词和评价对象。

编号	特征描述	样例
			1	是否含url	含有http
2	评价词个数	低劣、惊艳

3	评价对象个数	安徽官、奥迪车
			4	主张词个数	觉得、认为
5	连词个数	况且、然而
			6	代词个数	我们、他
7	程度副词个数	非常、十分
			8	是否为特殊句式	疑问句、感叹句
9	是否为引用	含有引号、书名号

表1观点句识别特征集

Bayes(朴素贝叶斯)分类器将一个句子s分为概率最大的那一类

{c^{*}}_{NB} (s) = \underset{c}{\arg \max} P (c | s) .

利用Bayes(贝叶斯)公式计算

P (c | s) = \frac{P (s | c) P (c)}{P (s)},

通过假设在给定类别的条件下，句子中的每个词x_i相互条件独立，NB将P(s|c)分解为：其中P(x_i|c)为每个词在某一类中出现的频率，经过Laplacesmoothing得到。

使用上述基于SVM和Naive Bayes两种分类器，对每个句子可分别得到一个分类结果(L∈{1，-1}，1和-1分别表示观点句和非观点句)和属于该类别的置信度(cf∈[0，1])。考虑单个分类器带来的误差，本发明可采用两种方法将两个分类器得到的结果集成，一种是将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类，另一种是直接对置信度加权平均得到最终的分类结果。

本发明采用以下加权公式得到集成分类器：

P (Y) = α \times {cf}_{SVM} (Y) + \frac{(1 - α) \times L_{NB} \times | {cf}_{NB} (Y) - {cf}_{NB} (N) |}{\max ({cf}_{NB} (Y), {cf}_{NB} (N))}

其中α为调节SVM和NB分类器结果所占权重的参数。若最终得到的P(Y)大于特定阈值，则认为句子是观点句，否则是非观点句。

情感倾向分析模组14，基于SVM分类器及Naive Bayes(朴素贝叶斯)分类器直接将句子分为正面、负面和无观点三类，并通过一集成公式将SVM和Naive Bayes的分类结果集成，得到当前句子的分类结果。本发明为了减小观点句识别时带来的误差，直接将句子分为正面，负面和无观点三类，而没有在观点句识别的结果上再分类。本发明基于SVM分类器，将句子分为正面，负面和无观点三类，特征集合为unigram的tf-idf值。Naive Bayes分类器类似，只是将句子分为正面，负面和无观点三类。

将SVM和Naive Bayes的分类结果采用以下公式集成：

P(N)＝α₁×cf_SVM(N)+(1-α₁)×P_NB(N)

P(NEG)＝(α₂×cf_SVM(NEG)+(1-α₂)×P_NB(NEG))×μ_NEG

P(POS)＝(α₃×cf_SVM(POS)+(1-α₃)×P_NB(POS))×μ_POS

其中，cf(N)，cf(NEG)，cf(POS)分别为句子属于非观点句、负面和正面观点句的置信度。α₁，α₂，α₃为控制SVM和NB分类结果所占权重的参数，μ_NEG，μ_POS为调节三个类别置信度权重的参数。最终得到的P最大的那一类别为当前句子的分类结果。

需要说明的是，在本发明较佳实施例中，语料库训练集中腾讯微博的数据由中国计算机学会提供，新浪微博数据通过利用其自带的微博关键词搜索功能获得。在数据处理过程中，中文分词采用的工具为Stanford Word Segmenter。SVM分类器实现使用了Chih-Jen Lin的LIBLINEAR(2007)工具包。最终模型里，观点句识别模组13的集成公式中加权参数α＝0.8，阈值为0.1。在情感倾向分析模组14的集成公式中个加权参数数值如下：α₁＝0.4，α₂＝0.4，α₃＝0.6，μ_POS＝2.1，μ_NEG＝1.8。

图2为本发明一种情感分析方法的步骤流程图。如图2所示，本发明一种情感分析方法，用于对中文微博进行观点句判断和观点句情感倾向分析，包括如下步骤：

步骤201，建立观点句识别及情感分析所需的训练集。在本发明较佳实施例中，本发明所建立的训练集由两部分组成，中国计算机学会(CCF)所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据，主题均与社会新闻相关，包括菲军舰恶意撞击、疯狂的大葱、官员财产公示等26个话题，共3552条微博，6508个句子，训练集为人工标注，由两个人分别独立标记，结果不同的再由第三个人进行裁决，以尽量避免由于个人理解不同造成的误差。

步骤202，用于对训练集中的句子进行预处理，去掉句子中的标签，仅保留句子本身的内容，同时在分词之前，对句子中的特殊符号进行了正规化处理。由于句子的主客观性与其带有的标签没有必然联系，为不影响分类效果，首先去掉了句子中的标签，仅保留句子本身的内容。此外，在分词之前，本发明对句子中的特殊符号进行了正规化处理，如将所有全角符号转化为半角，将英文标点替换为中文标点，将连续的数字替换为<NUM>，将所有不规范的省略号替换为<ETC>，还将短链接替换为<SHORT_URL>，以避免分词带来的误差。

步骤203，采用SVM(support vector machine，支持向量机)和

Bayesian(朴素贝叶斯分类器)集成的方式对预处理后的句子进行观点句识别。图3为本发明较佳实施例中观点句识别及情感倾向分析的示意图。如图3所示，观点句识别进一步包括如下步骤：

步骤1.1采用SVM(support vector machine，支持向量机)分类器对预处理后的句子进行观点句识别，对每个句子得到一分类结果和属于该类别的置信度。

在本发明较佳实施例中，SVM分类器使用了Chih-Jen Lin的LIBLINEAR(2007)工具包，采用线性核函数，以Bag-of-words(词袋模型)为基础使用以下不同的特征集合：

2.unigram的tf值表示，

w_{t, d} = \{\begin{matrix} 1 + {\log tf}_{t, d}, & if {tf}_{t, d} > 0 \\ 0, & otherwise \end{matrix},

4.bigram(二元文法)的tf-idf值，为了减少分词带来的误差，并考虑词之间的相互联系，此特征在unigram基础上，加入了两个相邻词组合而成的bigram的信息。为防止特征向量过于稀疏，我们采用了用互信息进行特征选择，仅保留与观点句和非观点句互信息高的词进行降维以提高准确率。采用的互信息的公式为：

(x, y) = \log (\frac{p (x | y)}{p (x)}) = \log \frac{p (xy)}{p (x) p (y)}

5.特征集合选取了URL、不同类别词个数、特殊句式等9个与区分观点句和非观点句密切相关的特征，如前述表1所示。其中主张词、连词、代词和程度副词的特征来自HowNet词典，评价词和评价对象根据现有技术的方法生成，大致过程如下，首先选取“挺好”、“不错”、“荒唐”等52个常用形容词以及与微博标签相关的“政府”、“海军”、“中国”等66个名词作为种子，构成最初的评价词和评价对象集合，然后通过两个集合中词和集合之外词之间的语法依赖关系对集合进行扩展，直到集合中无法加入新的词为止，最终得到我们所需要的所有评价词和评价对象。

步骤1.2，采用

Bayes(朴素贝叶斯)分类器分类器对预处理后的句子进行观点句识别，对每个句子分别得到一分类结果和属于该类别的置信度。

在本发明较佳实施例中，

Bayes(朴素贝叶斯)分类器将一个句子s分为概率最大的那一类

利用Bayes(贝叶斯)公式计算

通过假设在给定类别的条件下，句子中的每个词x_i相互条件独立，NB将P(s|c)分解为：

其中P(x_i|c)为每个词在某一类中出现的频率，经过Laplace smoothing得到。

步骤1.3将两个分类器得到的结果集成，得到最终的分类结果。

本发明较佳实施例采用以下加权公式得到集成分类器：

P (Y) = α \times {cf}_{SVM} (Y) + \frac{(1 - α) \times L_{NB} \times | {cf}_{NB} (Y) - {cf}_{NB} (N) |}{\max ({cf}_{NB} (Y), {cf}_{NB} (N))}

步骤204，基于SVM分类器及Naive Bayes(朴素贝叶斯)分类器直接将预处理后的句子分为正面、负面和无观点三类，并通过一集成公式将SVM和Naive Bayes的分类结果集成，得到当前句子的分类结果，如图3所示。本发明为了减小观点句识别时带来的误差，直接将句子分为正面，负面和无观点三类，而没有在观点句识别的结果上再分类，本发明基于SVM分类器，将句子分为正面，负面和无观点三类，特征集合为unigram的tf-idf值。Naive Bayes分类器与之前观点句识别的方法类似，只是将句子分为正面，负面和无观点三类。

将SVM和Naive Bayes的分类结果采用以下公式集成：

P(N)＝α₁×cf_SVM(N)+(1-α₁)×P_NB(N)

P(NEG)＝(α₂×cf_SVM(NEG)+(1-α₂)×P_NB(NEG))×μ_NEG

P(POS)＝(α₃×cf_SVM(POS)+(1-α₃)×P_NB(POS))×μ_POS

本发明经评测实验，在评测数据集上测试得到了良好的性能。其中观点句判断的效果如表2所示，情感倾向分析的效果如表3所示。

表2使用集成分类器得到的观点句判断性能

表3使用集成分类器得到的情感倾向分析性能

从表2和表3中两种方法的对比可以看出，在使用了分类器集成的方法后，本发明的召回率相比单独的分类器有极大提升，最重要的评价指标F值也有显著提高。

综上所述，本发明提出的情感分析系统及方法通过使用微博中与相关话题的微博作为训练数据，通过Support Vector Machine(支持向量机)和

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种情感分析系统，至少包括：

数据预处理模组，用于对训练集中的句子进行预处理；

情感倾向分析模组，采用支持向量机分类器及贝叶斯分类器分别直接将预处理后的句子分为正面、负面和无观点三类，并通过集成公式将该支持向量机分类器和贝叶斯分类器的分类结果集成，得到当前句子的分类结果。

2.如权利要求1所述的一种情感分析系统，其特征在于：该训练集包括中国计算机学会所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据。

3.如权利要求2所述的一种情感分析系统，其特征在于：该训练集为人工标注，由两个人分别独立标记，结果不同的再由第三个人进行裁决。

4.如权利要求1所述的一种情感分析系统，其特征在于：该预处理包括去掉句子中的标签仅保留句子本身的内容及对句子中的特殊符号进行了正规化处理。

5.如权利要求4所述的一种情感分析系统，其特征在于：对句子中的特殊符号的处理包括将所有全角符号转化为半角、将英文标点替换为中文标点、将连续的数字替换为<NUM>、将所有不规范的省略号替换为<ETC>以及将短链接替换为<SHORT_URL>。

6.如权利要求1所述的一种情感分析系统，其特征在于，该支持向量集分类器采用线性核函数，以词袋模型为基础使用以下不同的特征集合：

2.一元文法的tf值表示，

w_{t, d} = \{\begin{matrix} 1 + {\log tf}_{t, d}, & if {tf}_{t, d} > 0 \\ 0, & otherwise \end{matrix},

7.如权利要求6所述的一种情感分析系统，其特征在于：该观点句识别模组的集成处理采用将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类的方法。

8.如权利要求6所述的一种情感分析系统，其特征在于：该观点句识别模组的集成处理采用直接对置信度加权平均得到最终的分类结果。

9.如权利要求1所述的一种情感分析系统，其特征在于，该集成公式为：

P(N)＝α₁×cf_SVM(N)+(1-α₁)×P_NB(N)

P(NEG)＝(α₂×cf_SVM(NEG)+(1-α₂)×P_NB(NEG))×μ_NEG

P(POS)＝(α₃×c_fSVM(POS)+(1-α₃)×P_NB(POS))×μ_POS

10.一种情感分析方法，包括如下步骤：

步骤一，建立观点句识别及情感分析所需的训练集；

11.如权利要求10所述的一种情感分析方法，其特征在于，该步骤三包括如下步骤：

将两个分类器得到的结果集成，得到最终的分类结果。

12.如权利要求11所述的一种情感分析方法，其特征在于：将两个分类器得到的结果集成包括将两种分类器的分类结果和置信度作为更高一层集成分类器的特征进行再分类以及直接对置信度加权平均得到最终的分类结果两种方法。

13.如权利要求10所述的一种情感分析方法，其特征在于：该训练集包括中国计算机学会所提供的来自腾讯微博的样例数据和从新浪微博上抓取的数据。

14.如权利要求10所述的一种情感分析方法，其特征在于，该集成公式为：

P(N)＝α₁×cf_SVM(N)+(1-α₁)×P_NB(N)

P(NEG)＝(α₂×cf_SVM(NEG)+(1-α₂)×P_NB(NEG))×μ_NEG

P(POS)＝(α₃×cf_SVM(POS)+(1-α₃)×P_NB(POS))×μ_POS