CN104462408A

CN104462408A - 一种基于主题建模的多粒度情感分析方法

Info

Publication number: CN104462408A
Application number: CN201410766559.5A
Authority: CN
Inventors: 汤斯亮; 邵健; 王翰琪; 吴飞; 庄越挺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2015-03-25
Anticipated expiration: 2034-12-12
Also published as: CN104462408B

Abstract

本发明公开了一种基于主题建模的多粒度情感分析方法，包括如下步骤：提取社交媒体文本数据库中所有数据的单词和单词特征；训练得到核心模型；根据用户的查询请求从社交媒体文本数据库中得到搜索结果；根据系统自动设定或用户指定的参数，确定主题建模中需要的主题数目和细粒度情感数目；随机地将某个主题和某个细粒度情感分配给每一个单词；计算所有单词所属主题和细粒度情感以及所查询文档表达粗粒度情感，并将结果反馈给用户。本发明具有的有益效果有：可对社交网络文本数据同时进行主题建模与多粒度情感分析；可在单词特征与单词所表达细粒度情感之间建立起关联度，为用户理解数据提供帮助。

Description

一种基于主题建模的多粒度情感分析方法

技术领域

本发明涉及用户情感分析，尤其涉及一种基于主题建模的多粒度情感分析方法。

背景技术

目前，随着互联网架构、存储科技及其他有关技术的发展，各种各样的网络数据飞速增长。这些数据除了给互联网用户更好的浏览体验和为多媒体检索应用提供了更多的样本以外，也使得高效组织这些大规模数据成为了一种挑战。为了应对这一挑战，作为通过“隐性主题”来聚类媒体数据的典型算法，非监督层次化贝叶斯模型(或称主题模型)被大量使用，如LDA(隐狄利克雷分配，一种广泛的传统主题模型)及其扩展等。从2003年被提出直至今日，LDA及其衍生模型已经作为多种主题建模应用的核心算法，被用于解决文档摘要生成、跨数据集主题建模和文档主题演化等领域，并且在实际使用中发挥了良好的效果。和传统的基于统计的一些文本归纳方法相比，主题模型在可观测的文档层和单词层间增加了一个隐含的主题层，并认为文档包含有一个或若干多个主题，每个主题又是不同比例单词的组合。这一新增加的主题隐含层能让用户更好地理解一篇文档所蕴含语义内容(相当于为文档数据本身自动添加了诸如“体育”、“社会”等一个或多个类别标签)，而且对海量数据能通过主题进行表达而达到降维效果。

在对海量互联网数据处理中，情感分析是随着社交网络的发展与网络用户生成数据(User Generated Data，例如对电影或者电子产品的感想、对于新闻事件的观点与感受等)飞速增多而新出现的研究方向。情感分析的基本任务是从用户生成的包含观点和意见的文本数据中抽取出这些观点和意见，然后实现情感摘要生成、情感分类和情感词典构建等等情感分析任务。将主题模型应用于情感分析后，能够同时挖掘出数据所包含的用户主观感受(用户的情感)与客观描述事实(用户评论所涉及到的内容)，因此是一种具有高可行性与研究前景的应用方向。

当前，通过主题建模方法进行用户情感分析的研究工作及应用还不丰富。已经被提出的核心算法主要有：基于概率隐语义分析模型、将正面(positive)和负面(negative)两种情感作为主题之外能够产生单词的多项分布的情感主题模型(Topic Sentiment Mixture，TSM)；基于隐狄利克雷分配、抽取和聚合不同主题中表达情感的词组或语句的多侧面情感模型(Multi-aspect SentimentModel，MAS)；以及同样基于隐狄利克雷分配、同时挖掘数据中情感和主题分布的联合情感主题模型(Joint Sentiment-topic Model，JST)等。需要指出的是，当前已有的绝大部分情感分析方法着眼于在“粗粒度”上对用户情感进行分析，即认为用户生成数据中的每一个词都表达正面、负面或中立这三种粗粒度情感中的一种。但是，实际中大部分用户生成数据尽管可在段落或文档层面进行粗粒度情感分析与判别，但其中一些单词会表达细粒度情感(如“喜悦”、“感动”、“悲伤”等)。如何对用户产生数据进行多粒度情感分析是当前情感分析研究领域和应用开发领域的难点与热点。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于主题建模的多粒度情感分析方法。

基于主题建模的多粒度情感分析方法包括如下步骤：

1)提取社交媒体文本数据库中所有数据的单词和单词特征；

2)根据系统自动设定或用户指定的参数，确定建模中所采用的主题数目和细粒度情感数目；

3)根据给定训练数据，通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模型；

4)根据用户的查询请求从社交媒体数据库中搜索得到文本结果；

5)通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感；

6)通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反馈；

7)根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度情感中最有代表性单词，以及单词不同特征在表达不同细粒度情感时的不同能力。

所述的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下：

1)采用自然语言处理工具标注每个单词的词性，以得到的词性标注结果作为各单词的特征；

2)去除其中无用的高频词以及频数过低的生僻词；

3)统计处理后文本中所有出现过的单词，组成词汇表。

所述的根据给定训练数据，通过Gibbs采样得到基于主题建模的多粒度情感分析核心模型的步骤如下：

1)由系统自动设定，或者由用户指定各组Dirichlet分布所需参数α、β和γ，以及嵴回归惩罚项系数λ，并且设定好迭代次数、收敛条件等参数；

2)对于文本中所包含的每个单词，随机分配K个主题中的一个作为该单词所属主题；

3)对于文本中所包含的每个单词，随机分配S个细粒度情感中的一个作为该单词所表达的细粒度情感；

4)在区间[-1,1]内随机初始化嵴回归参数η各分量，设置嵴回归方差σ²初始值为1；

5)对于各个文本文档d，统计属于各个主题k的单词数n_d,k；

6)对于各个文本文档d，统计各个段落p中表达细粒度情感s的单词数n_d,p,s及文本文档d中具有细粒度情感s的单词总和n_d,p；

7)对于各个主题k，统计属于细粒度情感s、具有特性t的单词数n_t,k,s；

8)对于各个主题k，统计属于细粒度情感s、单词为v的数量n_s,k,v；

9)将所有单词、单词特征、单词主题和单词表达的细粒度情感合并为Φ；α、β、γ合并记为Ψ；记α_k为α的第k个分量、β_s,v和γ_t,s分别为β的{s,v}组分量和γ的{t,s}组分量；记η_s为η的第s个分量；记y_d,p为文档d中段落p表达的粗粒度情感，其在训练数据中已知；按如下概率采样文档d中段落p内的第i个单词所属主题z_d,p,i和所表达细粒度情感s_d,p,i：

\begin{matrix} p (z_{d, p, i} = k, s_{d, p, i} = s | Φ_{- {z_{s, p, i}, s_{d, p, i}}} Ψ) &Proportional; (α_{k} + n_{d, k}) \frac{γ_{t, s} + n_{t, k, s}}{Σ_{s = 1}^{S} γ_{t, s} + n_{t, k, s}} \frac{β_{s, v} + n_{s, k, v}}{Σ_{v = 1}^{V} β_{s, v} + n_{s, k, v}} \\ \times \exp {\frac{1}{σ^{2}} \frac{η_{s}}{n_{d, p}} (y_{d, p} - \frac{n_{d, p, s}}{n_{d, p}} - \frac{η_{s}}{2 n_{d, p}})} \end{matrix}

式中，符号“-”代表从向量中排除一个分量，下文中采用了相同符号记法；

10)将所有文档片段(这里是文档段落)表达的粗粒度情感记为向量y，所有文档段落内单词表达的细粒度情感的比例组成矩阵；记文档d中所包含的段落数目为P_d，如下式求得η与σ²的估计值与：

\hat{η} = {({\overset{&OverBar;}{ss}}^{T} + λ)}^{- 1} \overset{&OverBar;}{s} y

{\hat{σ}}^{2} = \frac{1}{Σ_{d = 1}^{D} P_{d}} ({yy}^{T} - y^{T} {\overset{&OverBar;}{s}}^{T} \hat{η})

11)检查算法是否满足收敛条件，如不满足返回步骤5；

12)若算法已满足收敛条件，记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ，各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ，如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量：

{\hat{φ}}_{s, k, v} = \frac{n_{s, k, v}}{Σ_{v = 1}^{V} n_{s, k, v}}

{\hat{μ}}_{t, k, s} = \frac{n_{t, k, s}}{Σ_{s = 1}^{S} n_{t, k, s}}

所述的通过Gibbs采样迭代地确定所有单词所属主题和所表达细粒度情感的步骤如下：

1)由系统自动设定，或者由用户指定各组Dirichlet分布的参数α、β、γ，以及嵴回归惩罚项系数λ，并且设定好迭代次数、收敛条件等参数；

2)对于数据集包含的每个单词，随机分配K个主题中的一个作为该单词所属主题；

3)对于数据集包含的每个单词，随机分配S个细粒度情感中的一个作为该单词所表达的细粒度情感；

4)对于各个文本文档d，统计属于某一主题k的单词数n_d，k；

5)按如下概率采样文本文档d中段落p内的第i个单词所属主题z_d,p,i和所表达细粒度情感s_d,p,i：

p (z_{d, p, i} = k, s_{d, p, i} = s | Φ_{- {z_{d, p, i}, s_{d, p, i}}}, Ψ) &Proportional; (α_{k} + n_{d, k}) φ_{s, k, v} μ_{t, k, s}

6)检查算法是否满足收敛条件，如不满足返回步骤4；

7)若算法已满足收敛条件，输出所有单词所属主题z和所表达的细粒度情感s。

所述的通过嵴回归分类确定所查询的每个文档中各段落表达的粗粒度情感并向用户反馈的步骤如下：

1)将所有文本文档段落中每个单词表达的细粒度情感的比例组成矩阵记为，如下式求得所有文档段落的粗粒度情感组成的向量y：

E [y | Φ_{- y}, Ψ, φ, μ] = {\overset{&OverBar;}{s}}^{T} η

2)将y中各个分量一一对应到所有文档段落，作为各个段落所表达粗粒度情感的预测值；

3)将所有预测值整理成可视化图表并反馈给用户。

所述的根据单词所属主题和单词所表达细粒度情感的最终分配结果向用户反馈各个主题中与各个细粒度情感中最有代表性的单词信息的步骤如下：

1)针对权利要求4中步骤7的输出结果，记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ，各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ，如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量：

{\hat{φ}}_{s, k, v} = \frac{n_{s, k, v}}{Σ_{v = 1}^{V} n_{s, k, v}}

{\hat{μ}}_{t, k, s} = \frac{n_{t, k, s}}{Σ_{s = 1}^{S} n_{t, k, s}}

2)将所有在各主题上求和，得到具有单词特征t的所有单词表达细粒度情感s的比例估计；

3)对于每个主题k和每种细粒度情感s，根据的大小由高至低对各个单词v排序；

4)根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题内表达各种细粒度情感最有代表性的单词，并整理成可视化图表反馈给用户；

5)对于每种单词特征t，根据的大小由高至低对各种细粒度情感s排序；

6)将排序结果整理成可视化图表反馈给用户。

本发明与现有技术相比具有的有益的效果：

1.本发明在挖掘社交网络中用户生成数据所蕴含主题基础上，实现了对用户情感的多粒度分析，既能判别文档中各个段落所表达的正面、负面和中性等粗粒度情感，也能捕获某些单词所表达的赞扬、喜悦和悲伤等细粒度情感。实验表明本发明通过对用户情感进行多粒度分析，不仅更细致地反映了用户在各个主题上表达了何种细粒度情感，在粗粒度情感分类上也取得了比已有算法更好的效果。

2.相比于已有的主题建模及情感分析应用，本发明能够提供文档中单词特征与单词所表达的细粒度情感之间的关联度等信息，为后续处理提供帮助。

3.本发明具有良好的可扩展性，以本发明的核心算法为基础，配合多模态数据统一建模、主题时序涌现等方法或思想，可以开发多媒体数据分类、文档主题演化与跟踪等多种应用。

附图说明

图1是本发明所使用的核心算法的概率图模型表达，位于示意图中央的方框从外到内分别代表各个文档、文档中的各个段落和段落中的各个单词。灰色圆圈代表观测量(文档中的单词和各单词自身的特征)，无色圆圈代表隐含的中间变量，黑点代表需要设置的超参数。

具体实施方式

基于主题建模的多粒度情感分析方法包括如下步骤：

1)提取社交媒体文本数据库中所有数据的单词和单词特征；

2)去除其中无用的高频词以及频数过低的生僻词；

3)统计处理后文本中所有出现过的单词，组成词汇表。

5)对于各个文本文档d，统计属于各个主题k的单词数n_d,k；

\begin{matrix} p (z_{d, p, i} = k, s_{d, p, i} = s | Φ_{- {z_{s, p, i}, s_{d, p, i}}} Ψ) &Proportional; (α_{k} + n_{d, k}) \frac{γ_{t, s} + n_{t, k, s}}{Σ_{s = 1}^{S} γ_{t, s} + n_{t, k, s}} \frac{β_{s, v} + n_{s, k, v}}{Σ_{v = 1}^{V} β_{s, v} + n_{s, k, v}} \\ \times \exp {\frac{1}{σ^{2}} \frac{η_{s}}{n_{d, p}} (y_{d, p} - \frac{n_{d, p, s}}{n_{d, p}} - \frac{η_{s}}{2 n_{d, p}})} \end{matrix}

\hat{η} = {({\overset{&OverBar;}{ss}}^{T} + λ)}^{- 1} \overset{&OverBar;}{s} y

{\hat{σ}}^{2} = \frac{1}{Σ_{d = 1}^{D} P_{d}} ({yy}^{T} - y^{T} {\overset{&OverBar;}{s}}^{T} \hat{η})

11)检查算法是否满足收敛条件，如不满足返回步骤5；

{\hat{φ}}_{s, k, v} = \frac{n_{s, k, v}}{Σ_{v = 1}^{V} n_{s, k, v}}

{\hat{μ}}_{t, k, s} = \frac{n_{t, k, s}}{Σ_{s = 1}^{S} n_{t, k, s}}

4)对于各个文本文档d，统计属于某一主题k的单词数n_d,k；

p (z_{d, p, i} = k, s_{d, p, i} = s | Φ_{- {z_{d, p, i}, s_{d, p, i}}}, Ψ) &Proportional; (α_{k} + n_{d, k}) φ_{s, k, v} μ_{t, k, s}

6)检查算法是否满足收敛条件，如不满足返回步骤4；

E [y | Φ_{- y}, Ψ, φ, μ] = {\overset{&OverBar;}{s}}^{T} η

3)将所有预测值整理成可视化图表并反馈给用户。

{\hat{φ}}_{s, k, v} = \frac{n_{s, k, v}}{Σ_{v = 1}^{V} n_{s, k, v}}

{\hat{μ}}_{t, k, s} = \frac{n_{t, k, s}}{Σ_{s = 1}^{S} n_{t, k, s}}

6)将排序结果整理成可视化图表反馈给用户。

实施例

以提供训练数据训练本发明的核心模型并将其用于用户在社交媒体数据库中查询影评数据子库aclImdb时提供查询结果为例，本发明的训练与处理查询结果步骤如下：

1.采用自然语言处理工具标注数据库内每个词的词性，以得到的词性标注结果作为各单词的特征；

2.去除其中无用的高频单词以及频数过低的生僻单词；

3.统计处理后文本中所有出现过的单词，组成词汇表；

4.根据系统自动设定或用户指定的参数，确定建模采用的主题数目和细粒度情感数目；

5.由系统自动设定，或者由用户指定各组Dirichlet分布的参数α、β、γ，以及嵴回归惩罚项系数λ，并且设定好迭代次数、收敛条件等参数；

6.对于训练数据中包含的每个单词，随机分配K个主题中的某一个主题作为该单词所属主题；

7.对于训练数据中包含的每个单词，随机分配S个细粒度情感中的某一个细粒度情感作为该单词表达细粒度情感；

8.在区间[-1,1]内随机初始化嵴回归参数η各分量，设置嵴回归方差σ²初始值为1；

9.对于各个文档d，统计属于各个主题k的单词数n_d,k；

10.对于各个文档d，统计各个段落p中具有细粒度情感s的单词数n_d,p,s及文档d中具有细粒度情感s的单词总和n_d,p；

11.对于各个主题k，统计表达细粒度情感s、具有特性t的单词数n_t,k,s；

12.对于各个主题k，统计表达细粒度情感s的单词v的数量n_s,k,v；

13.将所有单词、单词特征、单词主题、单词表达的细粒度情感合并记为Φ；α、β、γ合并为Ψ；记α_k为α的第k个分量，β_s,v和γ_t,s分别为β的{s,v}组分量和γ的{t,s}组分量；记η_s为η的第s个分量；记y_d,p为文档d中段落p表达的粗粒度情感，其在训练数据中已知；按如下概率采样文档d中段落p内的第i个单词的主题z_d,p,i和细粒度情感s_d,p,i：

\begin{matrix} p (z_{d, p, i} = k, s_{d, p, i} = s | Φ_{- {z_{s, p, i}, s_{d, p, i}}} Ψ) &Proportional; (α_{k} + n_{d, k}) \frac{γ_{t, s} + n_{t, k, s}}{Σ_{s = 1}^{S} γ_{t, s} + n_{t, k, s}} \frac{β_{s, v} + n_{s, k, v}}{Σ_{v = 1}^{V} β_{s, v} + n_{s, k, v}} \\ \times \exp {\frac{1}{σ^{2}} \frac{η_{s}}{n_{d, p}} (y_{d, p} - \frac{n_{d, p, s}}{n_{d, p}} - \frac{η_{s}}{2 n_{d, p}})} \end{matrix}

式中，符号“-”代表从向量中排除一个分量，下文中符号用法相同；

14.将所有文档段落的粗粒度情感组成向量y，将所有文档段落内单词表达的细粒度情感的比例组成矩阵；记文档d中包含的段落数量为P_d，如下式求得η与σ²的估计值与：

\hat{η} = {({\overset{&OverBar;}{ss}}^{T} + λ)}^{- 1} \overset{&OverBar;}{s} y

{\hat{σ}}^{2} = \frac{1}{Σ_{d = 1}^{D} P_{d}} ({yy}^{T} - y^{T} {\overset{&OverBar;}{s}}^{T} \hat{η})

15.检查算法是否满足收敛条件，如不满足返回步骤9；

16.若算法已满足收敛条件，记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ，各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ，如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量：

{\hat{φ}}_{s, k, v} = \frac{n_{s, k, v}}{Σ_{v = 1}^{V} n_{s, k, v}}

{\hat{μ}}_{t, k, s} = \frac{n_{t, k, s}}{Σ_{s = 1}^{S} n_{t, k, s}}

17.在社交媒体数据库中搜索到来源为aclImdb的全部影评，提取搜索结果中的文字；

18.由系统自动设定，或者由用户指定各组Dirichlet分布的参数α、β、γ，以及嵴回归惩罚项系数λ，并且设定好迭代次数、收敛条件等参数；

19.对于查询数据包含的每个单词，随机分配K个主题中的一个主题作为该单词所属主题；

20.对于查询数据包含的每个单词，随机分配S个细粒度情感中的一个细粒度情感作为该单词表达的细粒度情感；

21.对于各个文档d，统计各个主题k所属单词数n_d,k；

22.按如下概率采样文档d中段落p内的第i个单词所属主题z_d,p,i和所表达的细粒度情感s_d,p,i：

p (z_{d, p, i} = k, s_{d, p, i} = s | Φ_{- {z_{d, p, i}, s_{d, p, i}}}, Ψ) &Proportional; (α_{k} + n_{d, k}) φ_{s, k, v} μ_{t, k, s}

23.检查算法是否满足收敛条件，如不满足返回步骤21；

24.若算法已满足收敛条件，输出所有的单词所属主题z和所有单词所表达的细粒度情感s；

25.将所有文档段落内单词所表达的细粒度情感的比例组成矩阵，如下式求得所有文档段落所表达粗粒度情感组成的向量y：

E [y | Φ_{- y}, Ψ, φ, μ] = {\overset{&OverBar;}{s}}^{T} η

26.将y中各个分量一一对应到所有文档段落，作为各个段落所表达的粗粒度情感的预测值，将所有预测值整理成可视化图表；

27.记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ，各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ，如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量：

{\hat{φ}}_{s, k, v} = \frac{n_{s, k, v}}{Σ_{v = 1}^{V} n_{s, k, v}}

{\hat{μ}}_{t, k, s} = \frac{n_{t, k, s}}{Σ_{s = 1}^{S} n_{t, k, s}}

28.将所有在各个主题上求和，得到具有单词特征t的所有单词表达细粒度情感s的比例估计；

29.对于每个主题k和每种细粒度情感s，根据取值由高至低对各个单词v排序；

30.根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题内表达各种细粒度情感最有代表性的单词，并整理成可视化图表；

31.对于每种单词特征t，根据取值由高至低对各种细粒度情感s排序，将排序结果整理成可视化图表；

32.将所有可视化图表反馈给用户。

本发明对于粗粒度情感的分类精度及与传统方法的对比如下表所示，其中MgS-LDA为本发明使用的核心模型名称。对分类效果的对比标准采用在计算分类精度时常用的macro F1及micro F1指标，前者计算对各类别的分类精度平均值，后者计算在所有类别上的整体分类精度。简言之，记分类中的准确率(precision，算法计算出属于某一类的数据样本中分类正确的样本比例)为p，召回率(recall，在真实结果中属于某一类的数据样本中被算法正确归类到这一类的样本比例)为r，macro F1先针对所有M个类分别计算第i个类的准确率p_i与召回率r_i，再计算整体得分micro F1则在所有类之上计算整体的准确率p与召回率r，再计算得分可以看到本发明的分类效果优于各种传统方法。

本发明对于主题与多粒度情感的实际建模效果及与传统方法的对比如下表所示。各个主题的代表单词是按其在主题内的比例由高至低排列的(具体比例列在单词右侧)。可以看到本发明较传统算法不仅实现了对细粒度情感的挖掘，也提供了对主题更完善的描述。

本发明对于单词特征(词性)与单词表达细粒度情感的能力的挖掘结果如下表所示。可以看到不同词性的单词表达主观情感与客观事实的能力大相径庭，该结果能有效辅助用户进一步理解与利用数据。

part-of-speech	subjective emotions	objective statements
			nouns	38.6％	61.4％
personal Pronouns	52.1％	47.9％
			adjectives	91.2％	8.8％
verbs	32.7％	67.3％
			adverbs	87.7％	12.3％

Claims

1.一种基于主题建模的多粒度情感分析方法，其特征在于包括如下步骤：

1)提取社交媒体文本数据库中所有数据的单词和单词特征；

2.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法，其特征在于所述的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下：

2)去除其中无用的高频词以及频数过低的生僻词；

3)统计处理后文本中所有出现过的单词，组成词汇表。

3.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法，其特征在于所述的根据给定训练数据，通过Gibbs采样得到基于主题建模的多粒度情感分析核心模型的步骤如下：

5)对于各个文本文档d，统计属于各个主题k的单词数n_d,k；

\begin{matrix} p (z_{d, p, i} = {k, s}_{d, p, i} = s {| Φ}_{- {z_{d, p, i}, s_{d, p, i}},} Ψ) &Proportional; (α_{k} + n_{d, k}) \frac{γ_{t, s} + n_{t, k, s}}{Σ_{s = 1}^{S} γ_{t, s} + n_{t, k, s}} \frac{β_{s, v} + n_{s, k, v}}{Σ_{v = 1}^{V} β_{s, v} + n_{s, kv}} \\ \times \exp {\frac{1}{σ^{2}} \frac{η_{s}}{n_{d, p}} (y_{d, p} - \frac{n_{d, p, s}}{n_{d, p}} - \frac{η_{s}}{{2 n}_{d, p}})} \end{matrix}

10)将所有文档片段(这里是文档段落)表达的粗粒度情感记为向量y，所有文档段落内单词表达的细粒度情感的比例组成矩阵记文档d中所包含的段落数目为P_d，如下式求得η与σ²的估计值与

\hat{η} = {({\overset{&OverBar;}{ss}}^{T} + λ)}^{- 1} \overset{&OverBar;}{s} y

{\hat{σ}}^{2} = \frac{1}{Σ_{d = 1}^{D} P_{d}} ({yy}^{T} - y^{T} {\overset{&OverBar;}{s}}^{T} \hat{η})

11)检查算法是否满足收敛条件，如不满足返回步骤5；

12)若算法已满足收敛条件，记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ，各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ，如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量

{\hat{μ}}_{t, k, s} :

{\hat{φ}}_{s, k, v} = \frac{n_{s, k, v}}{Σ_{v = 1}^{V} n_{s, k, v}}

{\hat{μ}}_{t, k, s} = \frac{n_{t, k, s}}{Σ_{s = 1}^{S} n_{t, k, s}}

4.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法，其特征在于所述的通过Gibbs采样迭代地确定所有单词所属主题和所表达细粒度情感的步骤如下：

4)对于各个文本文档d，统计属于某一主题k的单词数n_d,k；

p (z_{d, p, i} = {k, s}_{d, p, i} = s Φ_{- {z_{d, p, i}, s_{d, p, i}}, Ψ}) &Proportional; (α_{k} + n_{d, k}) φ_{s, k, v} μ_{t, k, s}

6)检查算法是否满足收敛条件，如不满足返回步骤4；

5.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法，其特征在于所述的通过嵴回归分类确定所查询的每个文档中各段落表达的粗粒度情感并向用户反馈的步骤如下：

1)将所有文本文档段落中每个单词表达的细粒度情感的比例组成矩阵记为如下式求得所有文档段落的粗粒度情感组成的向量y：

E [y {| Φ}_{- y}, Ψ, φ, μ] = {\overset{&OverBar;}{s}}^{T} η

3)将所有预测值整理成可视化图表并反馈给用户。

6.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法，其特征在于所述的根据单词所属主题和单词所表达细粒度情感的最终分配结果向用户反馈各个主题中与各个细粒度情感中最有代表性的单词信息的步骤如下：

1)针对权利要求4中步骤7的输出结果，记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ，各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ，如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量

{\hat{φ}}_{s, k, v} = \frac{n_{s, k, v}}{Σ_{v = 1}^{V} n_{s, k, v}}

{\hat{μ}}_{t, k, s} = \frac{n_{t, k, s}}{Σ_{s = 1}^{S} n_{t, k, s}}

2)将所有在各主题上求和，得到具有单词特征t的所有单词表达细粒度情感s的比例估计

6)将排序结果整理成可视化图表反馈给用户。