CN108563638A - 一种基于主题识别和集成学习的微博情感分析方法 - Google Patents

一种基于主题识别和集成学习的微博情感分析方法 Download PDF

Info

Publication number
CN108563638A
CN108563638A CN201810333907.8A CN201810333907A CN108563638A CN 108563638 A CN108563638 A CN 108563638A CN 201810333907 A CN201810333907 A CN 201810333907A CN 108563638 A CN108563638 A CN 108563638A
Authority
CN
China
Prior art keywords
text
microblogging
word
topic
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810333907.8A
Other languages
English (en)
Other versions
CN108563638B (zh
Inventor
曾子明
杨倩雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201810333907.8A priority Critical patent/CN108563638B/zh
Publication of CN108563638A publication Critical patent/CN108563638A/zh
Application granted granted Critical
Publication of CN108563638B publication Critical patent/CN108563638B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于主题识别和集成学习的微博情感分析方法,该方法包括以下步骤:收集微博数据并进行人工标注;通过文本数据处理方法对微博文本进行预处理;通过LDA主题相关性指标选择最优文本主题数并用LDA挖掘文本主题;结合情感词典构建用于微博情感分析的主题特征、情感特征和句式特征;将上述特征作为训练AdaBoost算法的输入特征变量以建立微博情感分析分类器。本发明方法通过深入挖掘了微博文本语义信息,有效提高了文本情感分类精度。

Description

一种基于主题识别和集成学习的微博情感分析方法
技术领域
本发明涉及自然语言处理技术,尤其涉及一种基于主题识别和集成学习的微博情感分析方法。
背景技术
近年来社会化媒体快速发展,越来越多的网络用户选择在社交网络平台如微博、论坛、购物网站等表达个人意见和情感倾向。微博因其传播速度快、社会影响力大而成为网民信息传播、信息获取的重要渠道。对于一些群体性的公共事件,网民倾向于在微博上表达自己的看法和意见。这类事件往往持续时间久,关注人数多,在网络用户中影响巨大,人们通过网络传达出的情绪形成社会舆论,可能会影响事件的发展,甚至可能影响相关个人或组织的决策。微博中这些大量碎片式的用户生成信息可以反映事件的演化过程和公众情绪的波动情况,在微博中跟踪这些突发事件的讨论话题,对微博评论进行分析,可以还原事件的发展过程,实时把控网民情绪,减小公共突发事件对社会的负面影响。因此对微博文本进行情感分析可以辅助政府进行网络舆情监测,维持社会稳定。
目前对情感倾向分析的研究大多都着眼于语句本身,从文本、语法等挖掘能描述情感倾向的特征,如常用的语法特征、句式特征、句内特征等。
在上述方法中,虽然达到了较好的情感分类效果,但是没有挖掘文本的深层语义信息。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于主题识别和集成学习的微博情感分析方法。
本发明解决其技术问题所采用的技术方案是:一种基于主题识别和集成学习的微博情感分析方法,包括以下步骤:
1)从微博平台采集微博文本数据并进行预处理,获得优化文本内容以及优化文本内容词组;所述微博文本数据包括微博正文内容、微博评论内容、微文转发数以及评论数;
所述预处理包括对微博评论的人工标注;所述人工标注为:对每条微博评论的情感倾向进行人工标记,若该条评论情感倾向为正向,则标记为1,否则标记为0;
2)通过LDA(Latent Dirichlet Allocation)主题模型对步骤1)中优化文本内容以及优化文本内容词语进行建模计算,识别微博正文主题信息,获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率,根据每个主题中高分词语之间的语义相似性评估主题质量,确定恰当个数的主题类别,将每条微博正文所属主题类别作为微博用户情感分析的主题特征;
3)依据情感词典提取每条微博评论出现的正向情感词、负向情感词、转折词和否定词,计量正向情感词、负向情感词、转折词和否定词的数量,构建情感特征和句式特征,并结合步骤2)提取的主题特征,构建用于微博情感分析的多特征向量组合;
4)将步骤3)所述的多特征向量组合作为AdaBoost模型的输入特征,选择效果最优特征组合设计情感倾向分析分类器,并根据步骤1)所述人工标注的微博评论数据进行训练得到最终用户情感识别分类器,应用于情感分析工作。
按上述方案,所述步骤1)中文本预处理还包括文本分词、去停用词和无关字符过滤。
按上述方案,所述步骤2)中LDA主题识别采用的评价指标主题相关性为UMass主题相关性:
其中,coherence(V)为主题相关性得分,score(vi,vj,∈)为UMass度量标准计算分数的方法,V表示描述某个主题的词语集合,∈是一个平滑因子,用于确保返回的得分是一个实数;D(vi,vj)表示包含词语vi和vj的微博正文数量,D(vj)表示包含词语vj的微博正文数量。
按上述方案,所述情感词典为根据知网HowNet情感词典并融合网络流行词汇,整理的四个文本文档,包括正向情感词、负向情感词、否定词、转折词。
按上述方案,所述步骤3)中多特征向量组合为:
featurei={topici,emotioni,sentencei,tendencyi}(1≤i≤M);
其中,M为该条微博评论条数,i为微博评论序号,topici为主题特征,emotioni为情感特征,sentencei为句式特征,tendencyi为人工标注的该条微博文本情感倾向;
其中,
emotioni={n_posi,n_negi}(1≤i≤M)
其中,n_posi为该条评论中正向情感词的数量,n_negi为负向情感词的数量;
sentencei={n_denyi,n_trai}(1≤i≤M)
其中,n_denyi为该条评论中否定词的数量,n_trai为转折词数量。
本发明产生的有益效果是:
本发明基于主题识别和集成学习的微博情感分析方法能够深入挖掘微博文本语义信息,用LDA模型识别微博主题,将其与定义的情感特征和句式特征变量作为集成学习方法AdaBoost的输入变量进行分类训练,本发明在情感倾向识别上获得了较高的准确率。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供一种主题识别和集成学习的微博情感分析方法,包括以下步骤:
步骤1,使用爬虫方法从新浪微博平台采集数据,所述微博数据包括微博正文内容、微博评论内容、微文转发数以及评论数。然后对爬取内容进行预处理,从而获得优化文本内容以及优化文本内容词组,最终获得688条微博正文,1426条微博评论数据;
作为优选,步骤1所述文本预处理方法包括微博正文和评论文本的文本分词、去停用词、过滤无关字符以及微博评论人工标注;
步骤1中所述人工标注为:
对每条微博评论的情感倾向进行人工标记,若该条评论情感倾向为正向,则标记为1,否则标记为0;
步骤2,通过LDA主题模型对步骤1所述优化文本内容以及优化文本内容词语进行建模计算,识别微博正文主题信息,获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率,根据每个主题中高分词语之间的语义相似性评估主题质量,将每条微博正文所属主题类别作为微博用户情感分析的主题特征,确定主题个数为18时主题相关性得分最高,最后选择其中6个主题下的相关评论进行情感识别;
作为优选,步骤2中所述LDA主题识别评价指标主题相关性为UMass主题相关性:
其中,V是描述某个主题的词语集合,∈是一个平滑因子以确保返回的得分是一个实数;D(vi,vj)指包含词语vi和vj的微博正文数量,D(vj)表示包含词语vj的微博正文数量。
步骤3,完善情感词典,依据情感词典提取每条微博评论出现的情感词、转折词、否定词,计量正向情感词、负向情感词、转折词、否定词数量,构建情感特征和句式特征,并结合步骤2提取的主题特征,构建用于微博情感分析的多特征向量组合;
作为优选,步骤3所述情感词典为知网HowNet情感词典并融合网络流行词汇,整理为四个文本文档,包括正向情感词、负向情感词、否定词、转折词;
步骤3所述多特征向量组合为:
featurei={topici,emotioni,sentencei}(1≤i≤M)
其中,M为微博评论条数,i为微博评论序号,topici为主题特征,emotioni为情感特征,sentencei为句式特征。
步骤3所述情感特征为:
emotioni={n_posi,n_negi}(1≤i≤M)
其中,n_posi为该条评论中正向情感词的数量,n_negi为负向情感词的数量;
步骤3所述句式特征为:
sentencei={n_denyi,n_trai}(1≤i≤M)
其中,n_denyi为该条评论中否定词的数量,n_trai为转折词数量;
步骤4,根据步骤3所述的情感特征、句式特征以及步骤2所述主题特征作为AdaBoost模型的输入特征,AdaBoost集成分类方法的一种,选择决策树作为AdaBoost的基学习器,将标注后的微博评论数据作为初始训练集训练T个基学习器,根据基学习器的表现对训练样本分布进行调整,分类错误的样本加大其对应的权重,降低正确分类样本的权重,得到新的样本分布,将修改权值的样本分布送给下层分类器进行训练。重复进行,直到基学习器数目达到事先指定的T值,得到T个弱分类器,最后将这T个弱分类器按相应权重融合(boost)起来,作为最后进行情感分类的分类器。并根据步骤1所述人工标注的微博评论数据进行训练得到最终用户情感识别分类器,应用于网络用户情感倾向分析工作。
作为优选,步骤4所述模型输入特征为:
commenti={topici,n_posi,n_negi,n_denyi,n_trai,tendencyi}(1≤i≤M)
其中,M为微博评论条数,i为微博评论序号,topici为该条评论所属微博主题,n_posi为第i条评论中的正向情感词数量,n_negi为负向情感词数量,n_denyi为句中否定词数量,n_trai为句中转折词数量。tendencyi为人工标注的该条文本情感倾向。如:“希望能平安回来”,其输入特征为(1,3,0,0,0,1),表示属于主题1,正向情感词有三个,负向情感词,否定词,转折词的数量都为0,整条评论的情感倾向为正向;再如:“所以美国很多主题是没有原因只是喜欢虐杀的那种变态杀人狂的电影是真的源自生活啊,可怕”,其输入特征为(5,1,2,1,1,0),表示属于主题5,正向情感词有1个,负向情感词有2个,1个否定词,1个转折词,整条评论的情感倾向为负向。最后AdaBoost模型在测试集进行分类的正确率达到85%。
与现有技术相比,本发明基于主题识别和集成学习的微博情感分析方法能够深入挖掘微博文本语义信息,用LDA模型识别微博主题,将其与定义的情感特征和句式特征变量作为集成学习方法AdaBoost的输入变量进行分类训练,本发明在情感倾向识别上获得了较高的准确率。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (5)

1.一种基于主题识别和集成学习的微博情感分析方法,其特征在于,包括以下步骤:
1)从微博平台采集微博文本数据并进行预处理,获得优化文本内容以及优化文本内容词组;所述微博文本数据包括微博正文内容、微博评论内容、微文转发数以及评论数;
所述预处理包括对微博评论的人工标注;所述人工标注为:对每条微博评论的情感倾向进行人工标记,若该条评论情感倾向为正向,则标记为1,否则标记为0;
2)通过LDA主题模型对步骤1)中优化文本内容以及优化文本内容词语进行建模计算,识别微博正文主题信息,获得LDA主题分布概率以及LDA优化文本内容词语与主题分布概率,根据每个主题中高分词语之间的语义相似性评估主题质量,确定恰当个数的主题类别,将每条微博正文所属主题类别作为微博用户情感分析的主题特征;
3)依据情感词典提取每条微博评论出现的正向情感词、负向情感词、转折词和否定词,计量正向情感词、负向情感词、转折词和否定词的数量,构建情感特征和句式特征,并结合步骤2)提取的主题特征,构建用于微博情感分析的多特征向量组合;
4)将步骤3)所述的多特征向量组合作为AdaBoost模型的输入特征,选择效果最优特征组合设计情感倾向分析分类器,并根据步骤1)所述人工标注的微博评论数据进行训练得到最终用户情感识别分类器,应用于情感分析工作。
2.根据权利要求1所述的基于主题识别和集成学习的微博情感分析方法,其特征在于,所述步骤1)中文本预处理还包括文本分词、去停用词和无关字符过滤。
3.根据权利要求1所述的基于主题识别和集成学习的微博情感分析方法,其特征在于,所述步骤2)中LDA主题识别采用的评价指标主题相关性为UMass主题相关性:
其中,coherence(V)为主题相关性得分,score(vi,vj,∈)为UMass度量标准计算分数的方法,V表示描述某个主题的词语集合,∈是一个平滑因子,用于确保返回的得分是一个实数;D(vi,vj)表示包含词语vi和vj的微博正文数量,D(vj)表示包含词语vj的微博正文数量。
4.根据权利要求1所述的基于主题识别和集成学习的微博情感分析方法,其特征在于,所述步骤3)中情感词典为根据知网HowNet情感词典并融合网络流行词汇,整理的四个文本文档,包括正向情感词、负向情感词、否定词、转折词。
5.根据权利要求1所述的基于主题识别和集成学习的微博情感分析方法,其特征在于,所述步骤3)中多特征向量组合为:
featurei={topici,emotioni,sentencei,tendencyi}(1≤i≤M);
其中,M为该条微博评论条数,i为微博评论序号,topici为主题特征,emotioni为情感特征,sentencei为句式特征,tendencyi为人工标注的该条微博文本情感倾向;
其中,
emotioni={n_posi,n_negi}(1≤i≤M)
其中,n_posi为该条评论中正向情感词的数量,n_negi为负向情感词的数量;
sentencei={n_denyi,n_trai}(1≤i≤M)
其中,n_denyi为该条评论中否定词的数量,n_trai为转折词数量。
CN201810333907.8A 2018-04-13 2018-04-13 一种基于主题识别和集成学习的微博情感分析方法 Expired - Fee Related CN108563638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810333907.8A CN108563638B (zh) 2018-04-13 2018-04-13 一种基于主题识别和集成学习的微博情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810333907.8A CN108563638B (zh) 2018-04-13 2018-04-13 一种基于主题识别和集成学习的微博情感分析方法

Publications (2)

Publication Number Publication Date
CN108563638A true CN108563638A (zh) 2018-09-21
CN108563638B CN108563638B (zh) 2021-08-10

Family

ID=63535041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810333907.8A Expired - Fee Related CN108563638B (zh) 2018-04-13 2018-04-13 一种基于主题识别和集成学习的微博情感分析方法

Country Status (1)

Country Link
CN (1) CN108563638B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284381A (zh) * 2018-09-27 2019-01-29 南通大学 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法
CN109684646A (zh) * 2019-01-15 2019-04-26 江苏大学 一种基于话题影响力的微博话题情感分析方法
CN109885826A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质
CN110634050A (zh) * 2019-09-06 2019-12-31 北京无限光场科技有限公司 一种鉴别房源类型的方法、装置、电子设备及存储介质
CN111310476A (zh) * 2020-02-21 2020-06-19 山东大学 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN111859074A (zh) * 2020-07-29 2020-10-30 东北大学 基于深度学习的网络舆情信息源影响力评估方法及系统
CN112434164A (zh) * 2020-12-03 2021-03-02 西安交通大学 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN112765350A (zh) * 2021-01-15 2021-05-07 西华大学 基于表情图和文本信息的微博评论情感分类方法
CN113127643A (zh) * 2021-05-11 2021-07-16 江南大学 一种融合微博主题及评论的深度学习谣言检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106815369A (zh) * 2017-01-24 2017-06-09 中山大学 一种基于Xgboost分类算法的文本分类方法
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN106815369A (zh) * 2017-01-24 2017-06-09 中山大学 一种基于Xgboost分类算法的文本分类方法
CN107908715A (zh) * 2017-11-10 2018-04-13 中国民航大学 基于Adaboost和分类器加权融合的微博情感极性判别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BASSAM AL-SALEMI ET AL.: "LDA-AdaBoost.MH Accelerated AdaBoost.MH based on latent Dirichlet allocation for text catergorization", 《JOURNAL OF INFORMATION SCIENCE》 *
FANGYU GAI ET AL.: "Enhance AdaBoost Algorithm by Integrating LDA Topic Model", 《INTERNATIONAL CONFERENCE ON DATA MINING AND BIG DATA》 *
KEITH STEVENS ET AL.: "Exploring Topic Coherence over many models and many topics", 《PROCEEDINGS OF THE 2012 JOINT CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND COMPUTATIONAL NATURAL LANGUAGE LEARNING》 *
李杉: "面向中文微博文本的情感极性判别方法研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284381A (zh) * 2018-09-27 2019-01-29 南通大学 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法
CN109284381B (zh) * 2018-09-27 2023-12-08 南通大学 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法
CN109885826A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 文本词向量获取方法、装置、计算机设备及存储介质
CN109684646A (zh) * 2019-01-15 2019-04-26 江苏大学 一种基于话题影响力的微博话题情感分析方法
CN110634050B (zh) * 2019-09-06 2023-04-07 北京无限光场科技有限公司 一种鉴别房源类型的方法、装置、电子设备及存储介质
CN110634050A (zh) * 2019-09-06 2019-12-31 北京无限光场科技有限公司 一种鉴别房源类型的方法、装置、电子设备及存储介质
CN111310476A (zh) * 2020-02-21 2020-06-19 山东大学 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN111859074A (zh) * 2020-07-29 2020-10-30 东北大学 基于深度学习的网络舆情信息源影响力评估方法及系统
CN111859074B (zh) * 2020-07-29 2023-12-29 东北大学 基于深度学习的网络舆情信息源影响力评估方法及系统
CN112434164A (zh) * 2020-12-03 2021-03-02 西安交通大学 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN112434164B (zh) * 2020-12-03 2023-04-28 西安交通大学 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN112765350A (zh) * 2021-01-15 2021-05-07 西华大学 基于表情图和文本信息的微博评论情感分类方法
CN113127643A (zh) * 2021-05-11 2021-07-16 江南大学 一种融合微博主题及评论的深度学习谣言检测方法

Also Published As

Publication number Publication date
CN108563638B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN108563638A (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN107092596B (zh) 基于attention CNNs和CCR的文本情感分析方法
Ghosh et al. Fracking sarcasm using neural network
CN102332028B (zh) 一种面向网页的不良Web内容识别方法
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN110609983B (zh) 一种政策文件结构化分解方法
TW201737118A (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
CN106919673A (zh) 基于深度学习的文本情绪分析系统
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN103744953A (zh) 一种基于中文文本情感识别的网络热点挖掘方法
CN106096664A (zh) 一种基于社交网络数据的情感分析方法
CN108647225A (zh) 一种电商黑灰产舆情自动挖掘方法和系统
CN110532563A (zh) 文本中关键段落的检测方法及装置
Bartle et al. Gender classification with deep learning
CN109886270A (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
CN110134934A (zh) 文本情感分析方法和装置
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN108733675A (zh) 基于大量样本数据的情感评价方法及装置
Sheshikala et al. Natural language processing and machine learning classifier used for detecting the author of the sentence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210810

CF01 Termination of patent right due to non-payment of annual fee