CN104462408A - 一种基于主题建模的多粒度情感分析方法 - Google Patents

一种基于主题建模的多粒度情感分析方法 Download PDF

Info

Publication number
CN104462408A
CN104462408A CN201410766559.5A CN201410766559A CN104462408A CN 104462408 A CN104462408 A CN 104462408A CN 201410766559 A CN201410766559 A CN 201410766559A CN 104462408 A CN104462408 A CN 104462408A
Authority
CN
China
Prior art keywords
word
theme
fine granularity
emotion
expressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410766559.5A
Other languages
English (en)
Other versions
CN104462408B (zh
Inventor
汤斯亮
邵健
王翰琪
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410766559.5A priority Critical patent/CN104462408B/zh
Publication of CN104462408A publication Critical patent/CN104462408A/zh
Application granted granted Critical
Publication of CN104462408B publication Critical patent/CN104462408B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主题建模的多粒度情感分析方法,包括如下步骤:提取社交媒体文本数据库中所有数据的单词和单词特征;训练得到核心模型;根据用户的查询请求从社交媒体文本数据库中得到搜索结果;根据系统自动设定或用户指定的参数,确定主题建模中需要的主题数目和细粒度情感数目;随机地将某个主题和某个细粒度情感分配给每一个单词;计算所有单词所属主题和细粒度情感以及所查询文档表达粗粒度情感,并将结果反馈给用户。本发明具有的有益效果有:可对社交网络文本数据同时进行主题建模与多粒度情感分析;可在单词特征与单词所表达细粒度情感之间建立起关联度,为用户理解数据提供帮助。

Description

一种基于主题建模的多粒度情感分析方法
技术领域
本发明涉及用户情感分析,尤其涉及一种基于主题建模的多粒度情感分析方法。
背景技术
目前,随着互联网架构、存储科技及其他有关技术的发展,各种各样的网络数据飞速增长。这些数据除了给互联网用户更好的浏览体验和为多媒体检索应用提供了更多的样本以外,也使得高效组织这些大规模数据成为了一种挑战。为了应对这一挑战,作为通过“隐性主题”来聚类媒体数据的典型算法,非监督层次化贝叶斯模型(或称主题模型)被大量使用,如LDA(隐狄利克雷分配,一种广泛的传统主题模型)及其扩展等。从2003年被提出直至今日,LDA及其衍生模型已经作为多种主题建模应用的核心算法,被用于解决文档摘要生成、跨数据集主题建模和文档主题演化等领域,并且在实际使用中发挥了良好的效果。和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加了一个隐含的主题层,并认为文档包含有一个或若干多个主题,每个主题又是不同比例单词的组合。这一新增加的主题隐含层能让用户更好地理解一篇文档所蕴含语义内容(相当于为文档数据本身自动添加了诸如“体育”、“社会”等一个或多个类别标签),而且对海量数据能通过主题进行表达而达到降维效果。
在对海量互联网数据处理中,情感分析是随着社交网络的发展与网络用户生成数据(User Generated Data,例如对电影或者电子产品的感想、对于新闻事件的观点与感受等)飞速增多而新出现的研究方向。情感分析的基本任务是从用户生成的包含观点和意见的文本数据中抽取出这些观点和意见,然后实现情感摘要生成、情感分类和情感词典构建等等情感分析任务。将主题模型应用于情感分析后,能够同时挖掘出数据所包含的用户主观感受(用户的情感)与客观描述事实(用户评论所涉及到的内容),因此是一种具有高可行性与研究前景的应用方向。
当前,通过主题建模方法进行用户情感分析的研究工作及应用还不丰富。已经被提出的核心算法主要有:基于概率隐语义分析模型、将正面(positive)和负面(negative)两种情感作为主题之外能够产生单词的多项分布的情感主题模型(Topic Sentiment Mixture,TSM);基于隐狄利克雷分配、抽取和聚合不同主题中表达情感的词组或语句的多侧面情感模型(Multi-aspect SentimentModel,MAS);以及同样基于隐狄利克雷分配、同时挖掘数据中情感和主题分布的联合情感主题模型(Joint Sentiment-topic Model,JST)等。需要指出的是,当前已有的绝大部分情感分析方法着眼于在“粗粒度”上对用户情感进行分析,即认为用户生成数据中的每一个词都表达正面、负面或中立这三种粗粒度情感中的一种。但是,实际中大部分用户生成数据尽管可在段落或文档层面进行粗粒度情感分析与判别,但其中一些单词会表达细粒度情感(如“喜悦”、“感动”、“悲伤”等)。如何对用户产生数据进行多粒度情感分析是当前情感分析研究领域和应用开发领域的难点与热点。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于主题建模的多粒度情感分析方法。
基于主题建模的多粒度情感分析方法包括如下步骤:
1)提取社交媒体文本数据库中所有数据的单词和单词特征;
2)根据系统自动设定或用户指定的参数,确定建模中所采用的主题数目和细粒度情感数目;
3)根据给定训练数据,通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模型;
4)根据用户的查询请求从社交媒体数据库中搜索得到文本结果;
5)通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感;
6)通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反馈;
7)根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度情感中最有代表性单词,以及单词不同特征在表达不同细粒度情感时的不同能力。
所述的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下:
1)采用自然语言处理工具标注每个单词的词性,以得到的词性标注结果作为各单词的特征;
2)去除其中无用的高频词以及频数过低的生僻词;
3)统计处理后文本中所有出现过的单词,组成词汇表。
所述的根据给定训练数据,通过Gibbs采样得到基于主题建模的多粒度情感分析核心模型的步骤如下:
1)由系统自动设定,或者由用户指定各组Dirichlet分布所需参数α、β和γ,以及嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数;
2)对于文本中所包含的每个单词,随机分配K个主题中的一个作为该单词所属主题;
3)对于文本中所包含的每个单词,随机分配S个细粒度情感中的一个作为该单词所表达的细粒度情感;
4)在区间[-1,1]内随机初始化嵴回归参数η各分量,设置嵴回归方差σ2初始值为1;
5)对于各个文本文档d,统计属于各个主题k的单词数nd,k
6)对于各个文本文档d,统计各个段落p中表达细粒度情感s的单词数nd,p,s及文本文档d中具有细粒度情感s的单词总和nd,p
7)对于各个主题k,统计属于细粒度情感s、具有特性t的单词数nt,k,s
8)对于各个主题k,统计属于细粒度情感s、单词为v的数量ns,k,v
9)将所有单词、单词特征、单词主题和单词表达的细粒度情感合并为Φ;α、β、γ合并记为Ψ;记αk为α的第k个分量、βs,v和γt,s分别为β的{s,v}组分量和γ的{t,s}组分量;记ηs为η的第s个分量;记yd,p为文档d中段落p表达的粗粒度情感,其在训练数据中已知;按如下概率采样文档d中段落p内的第i个单词所属主题zd,p,i和所表达细粒度情感sd,p,i
p ( z d , p , i = k , s d , p , i = s | Φ - { z s , p , i , s d , p , i } Ψ ) ∝ ( α k + n d , k ) γ t , s + n t , k , s Σ s = 1 S γ t , s + n t , k , s β s , v + n s , k , v Σ v = 1 V β s , v + n s , k , v × exp { 1 σ 2 η s n d , p ( y d , p - n d , p , s n d , p - η s 2 n d , p ) }
式中,符号“-”代表从向量中排除一个分量,下文中采用了相同符号记法;
10)将所有文档片段(这里是文档段落)表达的粗粒度情感记为向量y,所有文档段落内单词表达的细粒度情感的比例组成矩阵;记文档d中所包含的段落数目为Pd,如下式求得η与σ2的估计值
η ^ = ( ss ‾ T + λ ) - 1 s ‾ y
σ ^ 2 = 1 Σ d = 1 D P d ( yy T - y T s ‾ T η ^ )
11)检查算法是否满足收敛条件,如不满足返回步骤5;
12)若算法已满足收敛条件,记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ,各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ,如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量
φ ^ s , k , v = n s , k , v Σ v = 1 V n s , k , v
μ ^ t , k , s = n t , k , s Σ s = 1 S n t , k , s
所述的通过Gibbs采样迭代地确定所有单词所属主题和所表达细粒度情感的步骤如下:
1)由系统自动设定,或者由用户指定各组Dirichlet分布的参数α、β、γ,以及嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数;
2)对于数据集包含的每个单词,随机分配K个主题中的一个作为该单词所属主题;
3)对于数据集包含的每个单词,随机分配S个细粒度情感中的一个作为该单词所表达的细粒度情感;
4)对于各个文本文档d,统计属于某一主题k的单词数nd,k
5)按如下概率采样文本文档d中段落p内的第i个单词所属主题zd,p,i和所表达细粒度情感sd,p,i
p ( z d , p , i = k , s d , p , i = s | Φ - { z d , p , i , s d , p , i } , Ψ ) ∝ ( α k + n d , k ) φ s , k , v μ t , k , s
6)检查算法是否满足收敛条件,如不满足返回步骤4;
7)若算法已满足收敛条件,输出所有单词所属主题z和所表达的细粒度情感s。
所述的通过嵴回归分类确定所查询的每个文档中各段落表达的粗粒度情感并向用户反馈的步骤如下:
1)将所有文本文档段落中每个单词表达的细粒度情感的比例组成矩阵记为,如下式求得所有文档段落的粗粒度情感组成的向量y:
E [ y | Φ - y , Ψ , φ , μ ] = s ‾ T η
2)将y中各个分量一一对应到所有文档段落,作为各个段落所表达粗粒度情感的预测值;
3)将所有预测值整理成可视化图表并反馈给用户。
所述的根据单词所属主题和单词所表达细粒度情感的最终分配结果向用户反馈各个主题中与各个细粒度情感中最有代表性的单词信息的步骤如下:
1)针对权利要求4中步骤7的输出结果,记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ,各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ,如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量
φ ^ s , k , v = n s , k , v Σ v = 1 V n s , k , v
μ ^ t , k , s = n t , k , s Σ s = 1 S n t , k , s
2)将所有在各主题上求和,得到具有单词特征t的所有单词表达细粒度情感s的比例估计
3)对于每个主题k和每种细粒度情感s,根据的大小由高至低对各个单词v排序;
4)根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题内表达各种细粒度情感最有代表性的单词,并整理成可视化图表反馈给用户;
5)对于每种单词特征t,根据的大小由高至低对各种细粒度情感s排序;
6)将排序结果整理成可视化图表反馈给用户。
本发明与现有技术相比具有的有益的效果:
1.本发明在挖掘社交网络中用户生成数据所蕴含主题基础上,实现了对用户情感的多粒度分析,既能判别文档中各个段落所表达的正面、负面和中性等粗粒度情感,也能捕获某些单词所表达的赞扬、喜悦和悲伤等细粒度情感。实验表明本发明通过对用户情感进行多粒度分析,不仅更细致地反映了用户在各个主题上表达了何种细粒度情感,在粗粒度情感分类上也取得了比已有算法更好的效果。
2.相比于已有的主题建模及情感分析应用,本发明能够提供文档中单词特征与单词所表达的细粒度情感之间的关联度等信息,为后续处理提供帮助。
3.本发明具有良好的可扩展性,以本发明的核心算法为基础,配合多模态数据统一建模、主题时序涌现等方法或思想,可以开发多媒体数据分类、文档主题演化与跟踪等多种应用。
附图说明
图1是本发明所使用的核心算法的概率图模型表达,位于示意图中央的方框从外到内分别代表各个文档、文档中的各个段落和段落中的各个单词。灰色圆圈代表观测量(文档中的单词和各单词自身的特征),无色圆圈代表隐含的中间变量,黑点代表需要设置的超参数。
具体实施方式
基于主题建模的多粒度情感分析方法包括如下步骤:
1)提取社交媒体文本数据库中所有数据的单词和单词特征;
2)根据系统自动设定或用户指定的参数,确定建模中所采用的主题数目和细粒度情感数目;
3)根据给定训练数据,通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模型;
4)根据用户的查询请求从社交媒体数据库中搜索得到文本结果;
5)通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感;
6)通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反馈;
7)根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度情感中最有代表性单词,以及单词不同特征在表达不同细粒度情感时的不同能力。
所述的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下:
1)采用自然语言处理工具标注每个单词的词性,以得到的词性标注结果作为各单词的特征;
2)去除其中无用的高频词以及频数过低的生僻词;
3)统计处理后文本中所有出现过的单词,组成词汇表。
所述的根据给定训练数据,通过Gibbs采样得到基于主题建模的多粒度情感分析核心模型的步骤如下:
1)由系统自动设定,或者由用户指定各组Dirichlet分布所需参数α、β和γ,以及嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数;
2)对于文本中所包含的每个单词,随机分配K个主题中的一个作为该单词所属主题;
3)对于文本中所包含的每个单词,随机分配S个细粒度情感中的一个作为该单词所表达的细粒度情感;
4)在区间[-1,1]内随机初始化嵴回归参数η各分量,设置嵴回归方差σ2初始值为1;
5)对于各个文本文档d,统计属于各个主题k的单词数nd,k
6)对于各个文本文档d,统计各个段落p中表达细粒度情感s的单词数nd,p,s及文本文档d中具有细粒度情感s的单词总和nd,p
7)对于各个主题k,统计属于细粒度情感s、具有特性t的单词数nt,k,s
8)对于各个主题k,统计属于细粒度情感s、单词为v的数量ns,k,v
9)将所有单词、单词特征、单词主题和单词表达的细粒度情感合并为Φ;α、β、γ合并记为Ψ;记αk为α的第k个分量、βs,v和γt,s分别为β的{s,v}组分量和γ的{t,s}组分量;记ηs为η的第s个分量;记yd,p为文档d中段落p表达的粗粒度情感,其在训练数据中已知;按如下概率采样文档d中段落p内的第i个单词所属主题zd,p,i和所表达细粒度情感sd,p,i
p ( z d , p , i = k , s d , p , i = s | Φ - { z s , p , i , s d , p , i } Ψ ) ∝ ( α k + n d , k ) γ t , s + n t , k , s Σ s = 1 S γ t , s + n t , k , s β s , v + n s , k , v Σ v = 1 V β s , v + n s , k , v × exp { 1 σ 2 η s n d , p ( y d , p - n d , p , s n d , p - η s 2 n d , p ) }
式中,符号“-”代表从向量中排除一个分量,下文中采用了相同符号记法;
10)将所有文档片段(这里是文档段落)表达的粗粒度情感记为向量y,所有文档段落内单词表达的细粒度情感的比例组成矩阵;记文档d中所包含的段落数目为Pd,如下式求得η与σ2的估计值
η ^ = ( ss ‾ T + λ ) - 1 s ‾ y
σ ^ 2 = 1 Σ d = 1 D P d ( yy T - y T s ‾ T η ^ )
11)检查算法是否满足收敛条件,如不满足返回步骤5;
12)若算法已满足收敛条件,记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ,各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ,如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量
φ ^ s , k , v = n s , k , v Σ v = 1 V n s , k , v
μ ^ t , k , s = n t , k , s Σ s = 1 S n t , k , s
所述的通过Gibbs采样迭代地确定所有单词所属主题和所表达细粒度情感的步骤如下:
1)由系统自动设定,或者由用户指定各组Dirichlet分布的参数α、β、γ,以及嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数;
2)对于数据集包含的每个单词,随机分配K个主题中的一个作为该单词所属主题;
3)对于数据集包含的每个单词,随机分配S个细粒度情感中的一个作为该单词所表达的细粒度情感;
4)对于各个文本文档d,统计属于某一主题k的单词数nd,k
5)按如下概率采样文本文档d中段落p内的第i个单词所属主题zd,p,i和所表达细粒度情感sd,p,i
p ( z d , p , i = k , s d , p , i = s | Φ - { z d , p , i , s d , p , i } , Ψ ) ∝ ( α k + n d , k ) φ s , k , v μ t , k , s
6)检查算法是否满足收敛条件,如不满足返回步骤4;
7)若算法已满足收敛条件,输出所有单词所属主题z和所表达的细粒度情感s。
所述的通过嵴回归分类确定所查询的每个文档中各段落表达的粗粒度情感并向用户反馈的步骤如下:
1)将所有文本文档段落中每个单词表达的细粒度情感的比例组成矩阵记为,如下式求得所有文档段落的粗粒度情感组成的向量y:
E [ y | Φ - y , Ψ , φ , μ ] = s ‾ T η
2)将y中各个分量一一对应到所有文档段落,作为各个段落所表达粗粒度情感的预测值;
3)将所有预测值整理成可视化图表并反馈给用户。
所述的根据单词所属主题和单词所表达细粒度情感的最终分配结果向用户反馈各个主题中与各个细粒度情感中最有代表性的单词信息的步骤如下:
1)针对权利要求4中步骤7的输出结果,记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ,各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ,如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量
φ ^ s , k , v = n s , k , v Σ v = 1 V n s , k , v
μ ^ t , k , s = n t , k , s Σ s = 1 S n t , k , s
2)将所有在各主题上求和,得到具有单词特征t的所有单词表达细粒度情感s的比例估计
3)对于每个主题k和每种细粒度情感s,根据的大小由高至低对各个单词v排序;
4)根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题内表达各种细粒度情感最有代表性的单词,并整理成可视化图表反馈给用户;
5)对于每种单词特征t,根据的大小由高至低对各种细粒度情感s排序;
6)将排序结果整理成可视化图表反馈给用户。
实施例
以提供训练数据训练本发明的核心模型并将其用于用户在社交媒体数据库中查询影评数据子库aclImdb时提供查询结果为例,本发明的训练与处理查询结果步骤如下:
1.采用自然语言处理工具标注数据库内每个词的词性,以得到的词性标注结果作为各单词的特征;
2.去除其中无用的高频单词以及频数过低的生僻单词;
3.统计处理后文本中所有出现过的单词,组成词汇表;
4.根据系统自动设定或用户指定的参数,确定建模采用的主题数目和细粒度情感数目;
5.由系统自动设定,或者由用户指定各组Dirichlet分布的参数α、β、γ,以及嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数;
6.对于训练数据中包含的每个单词,随机分配K个主题中的某一个主题作为该单词所属主题;
7.对于训练数据中包含的每个单词,随机分配S个细粒度情感中的某一个细粒度情感作为该单词表达细粒度情感;
8.在区间[-1,1]内随机初始化嵴回归参数η各分量,设置嵴回归方差σ2初始值为1;
9.对于各个文档d,统计属于各个主题k的单词数nd,k
10.对于各个文档d,统计各个段落p中具有细粒度情感s的单词数nd,p,s及文档d中具有细粒度情感s的单词总和nd,p
11.对于各个主题k,统计表达细粒度情感s、具有特性t的单词数nt,k,s
12.对于各个主题k,统计表达细粒度情感s的单词v的数量ns,k,v
13.将所有单词、单词特征、单词主题、单词表达的细粒度情感合并记为Φ;α、β、γ合并为Ψ;记αk为α的第k个分量,βs,v和γt,s分别为β的{s,v}组分量和γ的{t,s}组分量;记ηs为η的第s个分量;记yd,p为文档d中段落p表达的粗粒度情感,其在训练数据中已知;按如下概率采样文档d中段落p内的第i个单词的主题zd,p,i和细粒度情感sd,p,i
p ( z d , p , i = k , s d , p , i = s | Φ - { z s , p , i , s d , p , i } Ψ ) ∝ ( α k + n d , k ) γ t , s + n t , k , s Σ s = 1 S γ t , s + n t , k , s β s , v + n s , k , v Σ v = 1 V β s , v + n s , k , v × exp { 1 σ 2 η s n d , p ( y d , p - n d , p , s n d , p - η s 2 n d , p ) }
式中,符号“-”代表从向量中排除一个分量,下文中符号用法相同;
14.将所有文档段落的粗粒度情感组成向量y,将所有文档段落内单词表达的细粒度情感的比例组成矩阵;记文档d中包含的段落数量为Pd,如下式求得η与σ2的估计值
η ^ = ( ss ‾ T + λ ) - 1 s ‾ y
σ ^ 2 = 1 Σ d = 1 D P d ( yy T - y T s ‾ T η ^ )
15.检查算法是否满足收敛条件,如不满足返回步骤9;
16.若算法已满足收敛条件,记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ,各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ,如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量
φ ^ s , k , v = n s , k , v Σ v = 1 V n s , k , v
μ ^ t , k , s = n t , k , s Σ s = 1 S n t , k , s
17.在社交媒体数据库中搜索到来源为aclImdb的全部影评,提取搜索结果中的文字;
18.由系统自动设定,或者由用户指定各组Dirichlet分布的参数α、β、γ,以及嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数;
19.对于查询数据包含的每个单词,随机分配K个主题中的一个主题作为该单词所属主题;
20.对于查询数据包含的每个单词,随机分配S个细粒度情感中的一个细粒度情感作为该单词表达的细粒度情感;
21.对于各个文档d,统计各个主题k所属单词数nd,k
22.按如下概率采样文档d中段落p内的第i个单词所属主题zd,p,i和所表达的细粒度情感sd,p,i
p ( z d , p , i = k , s d , p , i = s | Φ - { z d , p , i , s d , p , i } , Ψ ) ∝ ( α k + n d , k ) φ s , k , v μ t , k , s
23.检查算法是否满足收敛条件,如不满足返回步骤21;
24.若算法已满足收敛条件,输出所有的单词所属主题z和所有单词所表达的细粒度情感s;
25.将所有文档段落内单词所表达的细粒度情感的比例组成矩阵,如下式求得所有文档段落所表达粗粒度情感组成的向量y:
E [ y | Φ - y , Ψ , φ , μ ] = s ‾ T η
26.将y中各个分量一一对应到所有文档段落,作为各个段落所表达的粗粒度情感的预测值,将所有预测值整理成可视化图表;
27.记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ,各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ,如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量
φ ^ s , k , v = n s , k , v Σ v = 1 V n s , k , v
μ ^ t , k , s = n t , k , s Σ s = 1 S n t , k , s
28.将所有在各个主题上求和,得到具有单词特征t的所有单词表达细粒度情感s的比例估计
29.对于每个主题k和每种细粒度情感s,根据取值由高至低对各个单词v排序;
30.根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题内表达各种细粒度情感最有代表性的单词,并整理成可视化图表;
31.对于每种单词特征t,根据取值由高至低对各种细粒度情感s排序,将排序结果整理成可视化图表;
32.将所有可视化图表反馈给用户。
本发明对于粗粒度情感的分类精度及与传统方法的对比如下表所示,其中MgS-LDA为本发明使用的核心模型名称。对分类效果的对比标准采用在计算分类精度时常用的macro F1及micro F1指标,前者计算对各类别的分类精度平均值,后者计算在所有类别上的整体分类精度。简言之,记分类中的准确率(precision,算法计算出属于某一类的数据样本中分类正确的样本比例)为p,召回率(recall,在真实结果中属于某一类的数据样本中被算法正确归类到这一类的样本比例)为r,macro F1先针对所有M个类分别计算第i个类的准确率pi与召回率ri,再计算整体得分micro F1则在所有类之上计算整体的准确率p与召回率r,再计算得分可以看到本发明的分类效果优于各种传统方法。
本发明对于主题与多粒度情感的实际建模效果及与传统方法的对比如下表所示。各个主题的代表单词是按其在主题内的比例由高至低排列的(具体比例列在单词右侧)。可以看到本发明较传统算法不仅实现了对细粒度情感的挖掘,也提供了对主题更完善的描述。
本发明对于单词特征(词性)与单词表达细粒度情感的能力的挖掘结果如下表所示。可以看到不同词性的单词表达主观情感与客观事实的能力大相径庭,该结果能有效辅助用户进一步理解与利用数据。
part-of-speech subjective emotions objective statements
nouns 38.6% 61.4%
personal Pronouns 52.1% 47.9%
adjectives 91.2% 8.8%
verbs 32.7% 67.3%
adverbs 87.7% 12.3%

Claims (6)

1.一种基于主题建模的多粒度情感分析方法,其特征在于包括如下步骤:
1)提取社交媒体文本数据库中所有数据的单词和单词特征;
2)根据系统自动设定或用户指定的参数,确定建模中所采用的主题数目和细粒度情感数目;
3)根据给定训练数据,通过Gibbs采样过程得到主题建模和细粒度情感建模的核心模型;
4)根据用户的查询请求从社交媒体数据库中搜索得到文本结果;
5)通过Gibbs采样迭代确定每一个单词所属主题以及所属细粒度情感;
6)通过嵴回归分类确定查询得到的每个文档中各段落表达的粗粒度情感并向用户反馈;
7)根据单词所属主题以及单词所表达细粒度情感向用户反馈各个主题和各个细粒度情感中最有代表性单词,以及单词不同特征在表达不同细粒度情感时的不同能力。
2.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述的提取社交媒体文本数据库中所有数据的单词和单词特征的步骤如下:
1)采用自然语言处理工具标注每个单词的词性,以得到的词性标注结果作为各单词的特征;
2)去除其中无用的高频词以及频数过低的生僻词;
3)统计处理后文本中所有出现过的单词,组成词汇表。
3.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述的根据给定训练数据,通过Gibbs采样得到基于主题建模的多粒度情感分析核心模型的步骤如下:
1)由系统自动设定,或者由用户指定各组Dirichlet分布所需参数α、β和γ,以及嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数;
2)对于文本中所包含的每个单词,随机分配K个主题中的一个作为该单词所属主题;
3)对于文本中所包含的每个单词,随机分配S个细粒度情感中的一个作为该单词所表达的细粒度情感;
4)在区间[-1,1]内随机初始化嵴回归参数η各分量,设置嵴回归方差σ2初始值为1;
5)对于各个文本文档d,统计属于各个主题k的单词数nd,k
6)对于各个文本文档d,统计各个段落p中表达细粒度情感s的单词数nd,p,s及文本文档d中具有细粒度情感s的单词总和nd,p
7)对于各个主题k,统计属于细粒度情感s、具有特性t的单词数nt,k,s
8)对于各个主题k,统计属于细粒度情感s、单词为v的数量ns,k,v
9)将所有单词、单词特征、单词主题和单词表达的细粒度情感合并为Φ;α、β、γ合并记为Ψ;记αk为α的第k个分量、βs,v和γt,s分别为β的{s,v}组分量和γ的{t,s}组分量;记ηs为η的第s个分量;记yd,p为文档d中段落p表达的粗粒度情感,其在训练数据中已知;按如下概率采样文档d中段落p内的第i个单词所属主题zd,p,i和所表达细粒度情感sd,p,i
p ( z d , p , i = k , s d , p , i = s | Φ - { z d , p , i , s d , p , i } , Ψ ) ∝ ( α k + n d , k ) γ t , s + n t , k , s Σ s = 1 S γ t , s + n t , k , s β s , v + n s , k , v Σ v = 1 V β s , v + n s , kv × exp { 1 σ 2 η s n d , p ( y d , p - n d , p , s n d , p - η s 2 n d , p ) }
式中,符号“-”代表从向量中排除一个分量,下文中采用了相同符号记法;
10)将所有文档片段(这里是文档段落)表达的粗粒度情感记为向量y,所有文档段落内单词表达的细粒度情感的比例组成矩阵记文档d中所包含的段落数目为Pd,如下式求得η与σ2的估计值
η ^ = ( ss ‾ T + λ ) - 1 s ‾ y
σ ^ 2 = 1 Σ d = 1 D P d ( yy T - y T s ‾ T η ^ )
11)检查算法是否满足收敛条件,如不满足返回步骤5;
12)若算法已满足收敛条件,记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ,各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ,如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量 μ ^ t , k , s :
φ ^ s , k , v = n s , k , v Σ v = 1 V n s , k , v
μ ^ t , k , s = n t , k , s Σ s = 1 S n t , k , s
4.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述的通过Gibbs采样迭代地确定所有单词所属主题和所表达细粒度情感的步骤如下:
1)由系统自动设定,或者由用户指定各组Dirichlet分布的参数α、β、γ,以及嵴回归惩罚项系数λ,并且设定好迭代次数、收敛条件等参数;
2)对于数据集包含的每个单词,随机分配K个主题中的一个作为该单词所属主题;
3)对于数据集包含的每个单词,随机分配S个细粒度情感中的一个作为该单词所表达的细粒度情感;
4)对于各个文本文档d,统计属于某一主题k的单词数nd,k
5)按如下概率采样文本文档d中段落p内的第i个单词所属主题zd,p,i和所表达细粒度情感sd,p,i
p ( z d , p , i = k , s d , p , i = s Φ - { z d , p , i , s d , p , i } , Ψ ) ∝ ( α k + n d , k ) φ s , k , v μ t , k , s
6)检查算法是否满足收敛条件,如不满足返回步骤4;
7)若算法已满足收敛条件,输出所有单词所属主题z和所表达的细粒度情感s。
5.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述的通过嵴回归分类确定所查询的每个文档中各段落表达的粗粒度情感并向用户反馈的步骤如下:
1)将所有文本文档段落中每个单词表达的细粒度情感的比例组成矩阵记为如下式求得所有文档段落的粗粒度情感组成的向量y:
E [ y | Φ - y , Ψ , φ , μ ] = s ‾ T η
2)将y中各个分量一一对应到所有文档段落,作为各个段落所表达粗粒度情感的预测值;
3)将所有预测值整理成可视化图表并反馈给用户。
6.根据权利要求1所述的一种基于主题建模的多粒度情感分析方法,其特征在于所述的根据单词所属主题和单词所表达细粒度情感的最终分配结果向用户反馈各个主题中与各个细粒度情感中最有代表性的单词信息的步骤如下:
1)针对权利要求4中步骤7的输出结果,记各个细粒度情感和各个主题关于所有不同单词的多项分布为φ,各个单词特征和各个主题关于所有不同细粒度情感的多项分布为μ,如下式得到φ的{s,k,v}维参数估计量和μ的{t,k,s}维参数估计量
φ ^ s , k , v = n s , k , v Σ v = 1 V n s , k , v
μ ^ t , k , s = n t , k , s Σ s = 1 S n t , k , s
2)将所有在各主题上求和,得到具有单词特征t的所有单词表达细粒度情感s的比例估计
3)对于每个主题k和每种细粒度情感s,根据的大小由高至低对各个单词v排序;
4)根据用户指定或系统设定的数量返回最前面的排序结果作为各个主题内表达各种细粒度情感最有代表性的单词,并整理成可视化图表反馈给用户;
5)对于每种单词特征t,根据的大小由高至低对各种细粒度情感s排序;
6)将排序结果整理成可视化图表反馈给用户。
CN201410766559.5A 2014-12-12 2014-12-12 一种基于主题建模的多粒度情感分析方法 Expired - Fee Related CN104462408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410766559.5A CN104462408B (zh) 2014-12-12 2014-12-12 一种基于主题建模的多粒度情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410766559.5A CN104462408B (zh) 2014-12-12 2014-12-12 一种基于主题建模的多粒度情感分析方法

Publications (2)

Publication Number Publication Date
CN104462408A true CN104462408A (zh) 2015-03-25
CN104462408B CN104462408B (zh) 2017-09-01

Family

ID=52908443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410766559.5A Expired - Fee Related CN104462408B (zh) 2014-12-12 2014-12-12 一种基于主题建模的多粒度情感分析方法

Country Status (1)

Country Link
CN (1) CN104462408B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160321336A1 (en) * 2014-06-19 2016-11-03 International Business Machines Corporation Automatic detection of claims with respect to a topic
CN107862087A (zh) * 2017-12-01 2018-03-30 广州简亦迅信息科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN108595568A (zh) * 2018-04-13 2018-09-28 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
WO2019218508A1 (zh) * 2018-05-16 2019-11-21 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN113032554A (zh) * 2019-12-24 2021-06-25 Tcl集团股份有限公司 一种决策系统和计算机可读存储介质
US11113471B2 (en) * 2014-06-19 2021-09-07 International Business Machines Corporation Automatic detection of claims with respect to a topic
CN113688241A (zh) * 2021-08-31 2021-11-23 重庆大学 一种基于融合多级别主题情感模型的文本分类方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙艳等: "《基于主题情感混合模型的无监督文本情感分析》", 《北京大学学报(自然科学版)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160321336A1 (en) * 2014-06-19 2016-11-03 International Business Machines Corporation Automatic detection of claims with respect to a topic
US10013470B2 (en) * 2014-06-19 2018-07-03 International Business Machines Corporation Automatic detection of claims with respect to a topic
US11113471B2 (en) * 2014-06-19 2021-09-07 International Business Machines Corporation Automatic detection of claims with respect to a topic
CN107862087A (zh) * 2017-12-01 2018-03-30 广州简亦迅信息科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN107862087B (zh) * 2017-12-01 2022-02-18 深圳爱数云科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN108595568A (zh) * 2018-04-13 2018-09-28 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
CN108595568B (zh) * 2018-04-13 2022-05-17 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
WO2019218508A1 (zh) * 2018-05-16 2019-11-21 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN113032554A (zh) * 2019-12-24 2021-06-25 Tcl集团股份有限公司 一种决策系统和计算机可读存储介质
CN113688241A (zh) * 2021-08-31 2021-11-23 重庆大学 一种基于融合多级别主题情感模型的文本分类方法及装置
CN113688241B (zh) * 2021-08-31 2023-08-29 重庆大学 一种基于融合多级别主题情感模型的文本分类方法及装置

Also Published As

Publication number Publication date
CN104462408B (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN104462408A (zh) 一种基于主题建模的多粒度情感分析方法
Du et al. Topic segmentation with a structured topic model
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN103559193A (zh) 一种基于选择单元的主题建模方法
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN109101489A (zh) 一种文本自动摘要方法、装置及一种电子设备
CN111538828A (zh) 文本情感分析方法、装置、计算机装置及可读存储介质
Bilgin et al. Sentiment analysis with term weighting and word vectors
CN113127716A (zh) 一种基于显著性图的情感时间序列异常检测方法
CN110866087B (zh) 一种基于主题模型的面向实体的文本情感分析方法
TW201416887A (zh) 新聞文本情緒傾向分析方法
Smirnova A model for expert finding in social networks
CN112200674B (zh) 一种证券市场情绪指数智能计算信息系统
CN116756347B (zh) 一种基于大数据的语义信息检索方法
CN110019556A (zh) 一种话题新闻获取方法、装置及其设备
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
Hassanzadeh et al. A two-phase hybrid of semi-supervised and active learning approach for sequence labeling
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Aliyanto et al. Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level
CN102622405B (zh) 基于语言实义单元数估计的短文本间文本距离的计算方法
CN113190681B (zh) 一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
Ba-Alwi et al. Arabic text summarization using latent semantic analysis
Khozani et al. Specialization of keyword extraction approach to persian texts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170901

Termination date: 20181212

CF01 Termination of patent right due to non-payment of annual fee