CN111626050B - 基于表情词典与情感常识的微博情感分析方法 - Google Patents
基于表情词典与情感常识的微博情感分析方法 Download PDFInfo
- Publication number
- CN111626050B CN111626050B CN202010449838.4A CN202010449838A CN111626050B CN 111626050 B CN111626050 B CN 111626050B CN 202010449838 A CN202010449838 A CN 202010449838A CN 111626050 B CN111626050 B CN 111626050B
- Authority
- CN
- China
- Prior art keywords
- emotion
- microblog
- expression
- general knowledge
- common sense
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 169
- 230000014509 gene expression Effects 0.000 title claims abstract description 45
- 238000004458 analytical method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000001914 filtration Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于表情词典与情感常识的微博情感分析方法。其包括对某一话题下的微博文本数据进行采集、预处理和分词操作;选取高频使用表情构建微博表情词典;抽取ConceptNet语义库的二元搭配,进行情感标注,并用同义词词典进行扩展形成情感常识库;根据表情符号和情感常识的权值计算来对微博进行情感分析等步骤。本发明利用表情词典与情感常识相结合的方式来判定微博的情感分类,在情感分析任务中融合了网络用语和表情符号等显性特征以及情感常识等隐性特征,在很大程度上可以深度挖掘微博文本所要表达的隐含情感,从而提高情感分析的准确性。
Description
技术领域
本发明属于自然语言处理中的文本情感分析技术领域,特别是涉及基于表情词典与情感常识的微博情感分析方法。
背景技术
微博已逐渐成为互联网时代重要的新兴社会网络平台,用户可以通过网页或者客户端,在微博上分享个人生活,发布个人观点,与朋友交流互动。截止到目前为止,微博用户数目已超过3亿人,在海量的微博数据中,包含许多用户带有主观情感倾向性的微博资源。
然而微博独有的原创性、不可预见性等特点,现有的微博情感分析基本从表情符号和网络用词等显性特征来进行情感值的计算,微博文本中隐性情感往往对情感倾向的判断有着重要影响,而隐性情感的表达很大程度上并不含有情感词,需要读者拥有一定的知识背景通过推理来发现一些常识隐晦地传达出的隐藏情感。
发明内容
为了解决上述问题,本发明的目的在于提供基于表情词典与情感常识的微博情感分析方法。
为了达到上述目的,本发明提供的基于表情词典与情感常识的微博情感分析方法包括按顺序进行的下列步骤:
(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典;
(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集,过滤含有显式情感的二元情感常识搭配;
(3)二元实体候选集的情感极性计算;
(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展,形成情感常识库;
(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类;
在步骤(1)中,所述的采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典的方法是:对某个话题下的微博文本进行采集,对采集的微博数据进行预处理操作,主要包括去除“#话题#”、“@用户名”、图片、视频以及网页链接等在内的噪声信息;之后利用中科院ICTCLAS分词工具进行分词,最后对高频使用的表情符号进行提取,构建表情词典,人工标注情感强度。
在步骤(2)中,所述的抽取具有明显情感倾向的二元实体作为常识候选集,主要是由于ConceptNet内包含的常识知识绝大多数并不具有情感倾向。
在步骤(3)中,所述的二元实体候选集的情感极性计算,主要是利用义原相似度的均差值来计算。得到情感常识情感倾向的方法包括下列步骤:
1)计算两个词之间的最大相似度:
利用知网义原树中的距离计算义原相似度,从而得出词语的语义相似度,对于2个汉语词语w1和w2,如果w1有n个概念:x1,x2,…,xn,w2有m个概念:y1,y2,…,yn,规定w1和w2的相似度是各个概念的相似度的最大值,即:
S(w1和w2)=max(S(xi,yj))i∈(1,n)j∈(1,m) (1)
其中,λ是正可变参数;d(x1,y2)表示义原x1和义原y2在层次树中的距离;
2)通过义原相似度均差得到词语情感倾向:
对于任意一个词语,可以通过该词语和情感词典中的种子词之间的距离获得其情感倾向值。词语W与情感词典中的每个种子词进行比较得到其正面情感倾向值和负面情感倾向值通过比较它们之间的均差值,最终得到词语W的情感倾向值。词语W的情感倾向计算公式为:
其中,Pi表示正向情感中的一个种子词;Nj表示负向情感中的某一个种子词;
在步骤(4)中,所述的利用哈工大的同义词词林对情感常识的覆盖范围进行扩展方法是:在已标注极性的情感常识中,对两个实体分别进行同义词林替换,将替换的同义词元组扩充到现有的情感常识库中。例如:(“学校”,“放假”),根据“学校”的同义词“高校”向左扩展可以形成新的情感常识(“高校”,“放假”),而根据“放假”同义词“休假”向右扩展形成新的情感常识(“学校”,“休假”)。
在步骤(5)中,所述的对于整条微博消息的情感值,需要综合考虑表情符号和微博文本对倾向值结果的影响。微博文本中查找是否有二元情感常识搭配,如果有匹配,则用现有的已标注情感权值的二元情感常识替代微博文本现有的词语搭配来计算微博文本的情感倾向,对上述两部分进行情感倾向值加权处理后计算得到整条微博情感倾向。得到整条微博文本情感倾向的方法包括下列步骤:
1)表情的情感倾向可以通过表情符号的权值大小计算得到,即:
其中,Ei为某一微博消息中第i个表情的情感强度。
2)整条微博消息的情感值倾向公式,即:
当所得的Q值大于0是则该条微博情感倾向为正面,小于0时为负面情感,等于0时为中性。
本发明提供的基于表情词典与情感常识的微博情感分析方法有以下优点:(1)本发明利用显性特征和隐性特征相结合的方法来判定微博消息的情感倾向,运用常识知识,在很大程度上可以深度挖掘微博文本所要表达的隐含情感,从而提高情感分析的准确性。(2)本发明不同于机器学习方法,不需要使用大规模数据进行训练,比较适用于实时数据处理。
附图说明
图1是本发明的流程框架图。
具体实施方式
下面结合附图对本发明提供的基于表情词典与情感常识的微博情感分析方法进行详细说明。
如图1所示,本发明提供的基于表情词典与情感常识的微博情感分析方法包括按顺序进行的下列步骤:
(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典;
采集指定话题下的微博文本作为本发明的分析对象,对文本数据进行预处理操作,去除对后续情感分析影响甚微的噪声信息,主要包括“#话题#”、“@用户名”、图片、视频以及网页链接等。
然后利用中科院ICTCLAS分词工具进行分词。
之后对高频使用的表情符号进行提取,构建表情情感词典,人工标注情感强度,如表1所示。
表1表情符号词典示例
(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集,过滤含有显式情感的二元情感常识搭配;
(3)二元实体候选集的情感极性计算,主要是利用义原相似度的均差值来计算。得到情感常识情感倾向的方法包括下列步骤:
1)计算两个词之间的最大相似度:
利用知网义原树中的距离计算义原相似度,从而得出词语的语义相似度,对于2个汉语词语w1和w2,如果w1有n个概念:x1,x2,…,xn,w2有m个概念:y1,y2,…,yn,规定w1和w2的相似度是各个概念的相似度的最大值,即:
S(w1和w2)=max(S(xi,yj))i∈(1,n)j∈(1,m) (1)
其中,λ是正可变参数;d(x1,y2)表示义原x1和义原y2在层次树中的距离;
2)通过义原相似度均差得到词语情感倾向:
对于任意一个词语,可以通过该词语和情感词典中的种子词之间的距离获得其情感倾向值。词语W与情感词典中的每个种子词进行比较得到其正面情感倾向值和负面情感倾向值通过比较它们之间的均差值,最终得到词语W的情感倾向值。词语W的情感倾向计算公式为:
其中,Pi表示正向情感中的一个种子词;Nj表示负向情感中的某一个种子词。
(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展,形成情感常识库,在已标注极性的情感常识中,对两个实体分别进行同义词林替换,将替换的同义词元组扩充到现有的情感常识库中。例如:(“学校”,“放假”),根据“学校”的同义词“高校”向左扩展可以形成新的情感常识(“高校”,“放假”),而根据“放假”同义词“休假”向右扩展形成新的情感常识(“学校”,“休假”);
(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类,得到整条微博文本情感倾向的方法包括下列步骤;
1)表情的情感倾向可以通过表情符号的权值大小计算得到,即:
其中,Ei为某一微博消息中第i个表情的情感强度。
2)整条微博消息的情感值倾向公式,即:
当所得的Q值大于0是则该条微博情感倾向为正面,小于0时为负面情感,等于0时为中性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (4)
1.基于表情词典与情感常识的微博情感分析方法,其特征在于:所述的基于表情词典与情感常识的微博情感分析方法,包括如下步骤:
(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典;
(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集,过滤含有显式情感的二元情感常识搭配;
(3)二元实体候选集的情感极性计算,包括利用义原相似度的均差值计算所述二元实体候选集的情感极性,得到情感词语的情感倾向值;
所述利用义原相似度的均差值计算所述二元实体候选集的情感极性,得到情感词语的情感倾向值,具体包括:
针对所述二元实体候选集中任意一个词语,基于知网义原树中的距离计算义原相似度,得出各个词语的语义相似度;将所述各个词语与情感词典中的每个种子词进行比较,得到所述各个词语的正面情感倾向值和负面情感倾向值;通过比较所述各个词语的正面情感倾向值和负面情感倾向值之间的均差值,得到所述各个词语的情感倾向值;
(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展,形成情感常识库;
(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类,得到整条微博文本的情感倾向,包括:根据表情符号和所述微博文本对倾向值结果的影响,查找所述微博文本中是否有二元情感常识搭配;
若有,则使用现有的已标注情感权值的二元情感常识替代所述微博文本中现有的词语搭配来计算所述微博文本的情感倾向,对所述表情符号和所述微博文本进行情感倾向值加权处理,得到所述整条微博文本的情感倾向。
2.根据权利要求1所述的一种基于表情词典与情感常识的微博情感分析方法,其特征在于:在步骤(1)中,所述的采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典的方法是:对某个话题下的微博文本进行采集,对采集的微博数据进行预处理操作,主要包括去除“#话题#”、“@用户名”、图片、视频以及网页链接等在内的噪声信息;之后利用中科院ICTCLAS分词工具进行分词,最后对高频使用的表情符号进行提取,构建表情词典,人工标注情感强度。
3.根据权利要求1所述的基于表情词典与情感常识的微博情感分析方法,其特征在于:在步骤(2)中,所述的抽取具有明显情感倾向的二元实体作为常识候选集,主要是由于ConceptNet内包含的常识知识绝大多数并不具有情感倾向。
4.根据权利要求1所述的基于表情词典与情感常识的微博情感分析方法,其特征在于:在步骤(4)中,所述的利用哈工大的同义词词林对情感常识的覆盖范围进行扩展方法是:在已标注极性的情感常识中,对两个实体分别进行同义词林替换,将替换的同义词元组扩充到现有的情感常识库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010449838.4A CN111626050B (zh) | 2020-05-25 | 2020-05-25 | 基于表情词典与情感常识的微博情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010449838.4A CN111626050B (zh) | 2020-05-25 | 2020-05-25 | 基于表情词典与情感常识的微博情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626050A CN111626050A (zh) | 2020-09-04 |
CN111626050B true CN111626050B (zh) | 2023-12-12 |
Family
ID=72259911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010449838.4A Active CN111626050B (zh) | 2020-05-25 | 2020-05-25 | 基于表情词典与情感常识的微博情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626050B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115707A (zh) * | 2020-09-08 | 2020-12-22 | 九江学院 | 一种用于弹幕情感分析且基于表情和语气的情感词典构建方法 |
CN113204624B (zh) * | 2021-06-07 | 2022-06-14 | 吉林大学 | 一种多特征融合的文本情感分析模型及装置 |
CN113779991A (zh) * | 2021-09-18 | 2021-12-10 | 广州荔支网络技术有限公司 | 一种文本情感识别方法、装置、计算机设备和存储介质 |
CN114091469B (zh) * | 2021-11-23 | 2022-08-19 | 杭州萝卜智能技术有限公司 | 基于样本扩充的网络舆情分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015043075A1 (zh) * | 2013-09-29 | 2015-04-02 | 广东工业大学 | 面向微博的情感实体搜索系统 |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
-
2020
- 2020-05-25 CN CN202010449838.4A patent/CN111626050B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015043075A1 (zh) * | 2013-09-29 | 2015-04-02 | 广东工业大学 | 面向微博的情感实体搜索系统 |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
Non-Patent Citations (2)
Title |
---|
任巨伟 ; 杨亮 ; 吴晓芳 ; 林原 ; 林鸿飞 ; .基于情感常识的微博事件公众情感趋势预测.中文信息学报.2017,(02),全文. * |
唐浩浩 ; 王波 ; 周杰 ; 陈东 ; 刘绍毓 ; .基于词亲和度的微博词语语义倾向识别算法.数据采集与处理.2015,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111626050A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626050B (zh) | 基于表情词典与情感常识的微博情感分析方法 | |
Zhang et al. | Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
CN107368468A (zh) | 一种运维知识图谱的生成方法及系统 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN107577665B (zh) | 文本情感倾向的判别方法 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
US11030533B2 (en) | Method and system for generating a transitory sentiment community | |
Nasim et al. | Sentiment analysis on Urdu tweets using Markov chains | |
CN111460158B (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
CN112000804B (zh) | 一种微博热点话题用户群情感倾向性分析方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN110851733A (zh) | 基于网络拓扑和文档内容的社团发现和情感解释方法 | |
Amali et al. | Classification of cyberbullying Sinhala language comments on social media | |
US20240086452A1 (en) | Tracking concepts within content in content management systems and adaptive learning systems | |
US12008609B2 (en) | Method and system for initiating an interface concurrent with generation of a transitory sentiment community | |
Batra et al. | A large-scale tweet dataset for urdu text sentiment analysis | |
US11605004B2 (en) | Method and system for generating a transitory sentiment community | |
CN108694165B (zh) | 面向产品评论的跨领域对偶情感分析方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
AL-SAQQA et al. | Unsupervised sentiment analysis approach based on clustering for Arabic text | |
Gudakahriz et al. | An experimental study on performance of text representation models for sentiment analysis | |
Jayasekara et al. | Opinion mining of customer reviews: feature and smiley based approach | |
Ding et al. | Sentiment analysis of chinese micro-blog based on classification and rich features | |
CN113641788B (zh) | 一种基于无监督的长短影评细粒度观点挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |