CN111310455A - 一种面向网购评论的新情感词极性计算方法 - Google Patents

一种面向网购评论的新情感词极性计算方法 Download PDF

Info

Publication number
CN111310455A
CN111310455A CN202010087342.7A CN202010087342A CN111310455A CN 111310455 A CN111310455 A CN 111310455A CN 202010087342 A CN202010087342 A CN 202010087342A CN 111310455 A CN111310455 A CN 111310455A
Authority
CN
China
Prior art keywords
word
emotion
new
calculating
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010087342.7A
Other languages
English (en)
Other versions
CN111310455B (zh
Inventor
张顺香
余宏斌
许汗清
王侨云
朱海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University of Science and Technology
Original Assignee
Anhui University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University of Science and Technology filed Critical Anhui University of Science and Technology
Priority to CN202010087342.7A priority Critical patent/CN111310455B/zh
Publication of CN111310455A publication Critical patent/CN111310455A/zh
Application granted granted Critical
Publication of CN111310455B publication Critical patent/CN111310455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种面向网购评论的新情感词极性计算方法,该方法包括:获取网购平台的商品主体、属性集合及其评论语料;用增强点互信息算法结合评论中出现的星级好评概率计算得出商品主体的满意度;用增强点互信息分别计算得出商品属性的满意度、商品主体与新词的关联度和商品属性与新词的关联度,最后得出新词情感极性的弱标签。分别用朴素贝叶斯公式和增强点互信息计算新词情感权值,并结合弱标签加权求得新情感词极性。本发明的方案从新词组成、上下文已知情感词的共现和面向网购领域的弱标签这三个层面综合计算新情感词极性。

Description

一种面向网购评论的新情感词极性计算方法
技术领域
本发明涉及文本分析技术领域,具体是一种面向网购评论的新情感词极性计算方法。
背景技术
随着互联网技术的发展,网络上出现了越来越多的用户原创内容例如网络商店中用户对商品或卖家的评论。这些评论是用户对商品领域内的具体对象的看法和意见。其中,这些看法和意见通常借助情感词表述出来,可能是正向情感、负向情感或中性情感。通过分析评论中的情感词,就能够确定用户对相应对象的认可程度。但是随着时代的发展,用户在评论中会使用一些未被情感词典收录的新情感词,这些新情感词的极性未知。
目前,常通过以下两个层面分析新情感词极性:1.利用情感词典,包含新情感词的文本等资源,以新情感词和已知情感词的共现或相似,计算新情感词的极性,但这种方法只是通过上下文计算新词情感极性;2.从新词的组成字是情感词组成字的概率考虑,即通过字的情感权重计算新情感词的极性。这种方法忽视了上下文对词项具体含义的影响,更没有考虑某领域对新词情感极性的影响。
为了综合上述两种方法的优点,弥补两者的不足,本发明提出一种面向网购评论的新情感词极性计算方法,多层面更准确地分析计算。
发明内容
本发明的目的是提供一种面向网购评论的新情感词极性计算方法;该方法提出面向商品网购评论的新情感词极性弱标签计算方法,多角度计算新词情感极性,从而能够更全面的计算出新情感词的极性。
本发明实现发明目的采用如下技术方案:
本发明提供的一种面向网购评论的新情感词极性计算方法,其特征在于:从词组成角度用朴素贝叶斯公式计算新词组成字是情感词组成字的概率,进而计算出新词情感权值,从新词与已知情感词共现的角度,用增强点互信息计算新词情感权值,结合面向购物领域的新词情感弱标签加权求得新情感词极性。
作为优选,上述的面向购物领域的新词情感弱标签,其特征在于:用增强点互信息算法结合评论中出现的星级好评概率计算得出商品主体的满意度;用增强点互信息计算得出商品属性的满意度、商品主体与新词的关联度和商品属性与新词的关联度,最后加权计算出新词情感极性的弱标签。
本发明与现有技术相比,其有益效果体现在:本方案不仅从上下文角度考虑新情感词与各已知情感词之间的同现关系,也从新情感词组成角度,面向商品购物领域的弱标签多角度综合计算新情感词的极值。避免了只从上下文角度计算新情感词的不足,或只从新情感词的构成计算其情感极性的弊端。
附图说明
图1是本发明的总体流程图;
图2是弱标签S1计算流程图;
图3是候选情感词权重S2计算流程图;
图4候选情感词权重S3计算流程图;
图5新情感词极值S计算流程图。
具体实施方式
以下结合附图与具体实施步骤对本发明做进一步解释说明,如图1所示,本发明的总体流程包含以下步骤。
步骤1:选择一定数量的网购评论语料,对初始文本数据执行预处理操作,包括分词,词性标注,以及新词发现,从而确定候选情感词。
步骤2:如图2所示,获取网购平台的商品对象作为主体集合,获取商品的属性作为属性集合。通过增强点互信息算法,计算商品主体满意度F1,属性满意度F2,主体与候选情感词关联度Con1,属性与候选情感词关联度Con2,最后计算面向购物领域的候选词情感极性弱标签S1.其中增强点互信息表达式为
Figure BDA0002382520400000021
其中P(wi,wj)表示词wi和词wj同时出现在一个网购评论的概率,P(wi)表示词wi单独出现的概率,P(wj)表示词wj单独出现的概率。
其中di=|posi-posj|,posi和posj分别表示词语i和词语j之间的词间距
Figure BDA0002382520400000022
其中F1(Zi)为主体Zi的满意度,wp和wn分别表示情感字典中正向情感词和负向情感词,g1(Zi)表示关于商品主体Zi的评论中四星五星好评概率,g2(Zi)表示关于商品主体Zi的评论中一星和二星评分概率,
Figure BDA0002382520400000031
DWPMI(Zi,wp)表示主体与正向情感词集中的每个词DWPMI数值之和,
Figure BDA0002382520400000032
DWPMI(Zi,wn)表示主体与负向情感词集中的每个词DWPMI数值之和。
Figure BDA0002382520400000033
其中F2(Mi)为属性Mi的满意度,wp和wn分别表示情感字典中正向情感词和负向情感词,
Figure BDA0002382520400000034
DWPMI(Mi,wp)表示属性与正向情感词集中的每个词DWPMI数值之和,
Figure BDA0002382520400000035
DWPMI(Mi,wn)表示属性与负向情感词集中的每个词DWPMI数值之和。
Con1(vi)=DWPMI(vi,Zi),Con2(vi)=DWPMI(vi,Mi)
其中,vi为候选情感词,Con1(vi)为主体Zi与候选词vi的关联度,Con2(vi)为属性Mi与候选词vi的关联度。
由此计算候选词vi的情感极性弱标签
Figure BDA0002382520400000036
其中,Wz表示商品主体词集,Wm表示商品对象的属性词集合。
步骤3:如图2所示,从组成字角度,计算出新词候选情感词的情感权重。通过网购评论语料及一部情感词典,有正情感词S和负情感词S之分。假设Ci表示一个字,C1...Ci...Cn表示一个候选情感词,S′表示已知情感词,有正情感词S和负情感词S之分,Freg表示语料中出现的频率。对于一个未知情感的候选情感词C1...Ci...Cn,判断其是否为情感词及情感倾向性程度的推导过程如下。由贝叶斯公式得式(1)。
Figure BDA0002382520400000037
由式(1)可计算情感词S′中每个组成字Ci的概率P(Ci|S′),即字的情感权重。由于情感词有正情感词S和负情感词S两种情况,所以每个组成字都会有正情感和负情感之分。
Figure BDA0002382520400000041
由式(2)可计算语料中情感词的分布。其中,N表示语料中词的集合,Wi表示语料中的任意词。P(S′)表示情感词S′的概率。用S2表示候选情感词的情感权重值。候选情感词C1...Ci...Cn是情感词的概率用P(S′|C1...Ci...Cn)表示。因为是对一个情感倾向性未知的候选词C1...Ci...Cn计算其情感权重,所以无论它是正情感倾向还是负情感倾向,P(C1...Ci...Cn)是定值,可忽略不计。其次,因为P(C1...Ci...Cn|S′)是难以计算的,则假设C1...Ci...Cn每个字是情感词组成字的概率是条件独立的,则可以表示成式(3)。
Figure BDA0002382520400000042
利用式(1)和式(2)计算得出P(Ci|S′)及P(S′),并代入式(3),就可计算出候选情感词的情感权重S2。为了更好地表示结果,对其取log,表达式如式(4)。
Figure BDA0002382520400000043
由于每一个候选情感词都有正情感权重S2和负情感权重S2,即正面情感倾向概率和负面情感倾向概率,用两者的差值表示最终的新情感词权重S2,即
S2=S2-S2 (5)
这里的S2表示由词组成得到的最终候选情感词权重。
当遇到一种特殊情况:若语料中的情感词中并未出现候选词词C1...Ci...Cn中的某个字Ci,则P(Ci|S′)会计算为0,此时需要进行数据平移,表示如式(6)。
Figure BDA0002382520400000051
其中δ应当取很小的数值,这里取为词典中的中文汉字总数的倒数。表达式(6)表示给候选词中任意一个字Ci的词频加一个很小的值,避免某个字词频或候选情感词整体为0,从而更准确地分析候选词的情感倾向性。通过表达式(6)可以计算出每个候选情感词的情感权重S2,为准确数值。
步骤4:如图4所示,根据候选情感词vi与情感词典里的情感词是否共现,若共现,用增强点互信息DWPMI计算候选词情感权重S3,如果不共现,置S3为0。
Figure BDA0002382520400000052
其中S3(vi)为计算候选词情感权重,wp和wn分别表示情感字典中正向情感词和负向情感词,
Figure BDA0002382520400000053
DWPMI(vi,wp)计算候选词与正向情感词集中的每个词DWPMI数值之和,
Figure BDA0002382520400000054
DWPMI(vi,wn)计算候选词与负向情感词集中的每个词DWPMI数值之和。
步骤5:如图5所示,对候选词情感权重S1,S2,S3加权求和,可以得出最终的新情感词极性S。
S=w1 S1+W2 S2+W3 S3
其中参数w1,w2,w3可调整,w3+w2+w1=1,w3>w2>w1,因为汉语语言更侧重于上下文语境意,本发明面对的是商品网购领域,故设w3值最大,又因为S1为由商品主体以及属性得出的极性弱标签,故设w1最小。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (2)

1.一种面向网购评论的新情感词极性计算方法,其特征在于:从词组成角度用朴素贝叶斯公式计算新词组成字是情感词组成字的概率,进而计算出新词情感权值,从新词与已知情感词共现的角度,用增强点互信息计算新词情感权值,结合面向购物领域的新词情感弱标签加权求得新情感词极性。
2.根据权利要求1所述的弱标签,其特征在于:用增强点互信息算法结合评论中出现的星级好评概率计算得出商品主体的满意度;用增强点互信息计算得出商品属性的满意度、商品主体与新词的关联度和商品属性与新词的关联度,最后加权计算出新词情感极性的弱标签。
CN202010087342.7A 2020-02-11 2020-02-11 一种面向网购评论的新情感词极性计算方法 Active CN111310455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010087342.7A CN111310455B (zh) 2020-02-11 2020-02-11 一种面向网购评论的新情感词极性计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010087342.7A CN111310455B (zh) 2020-02-11 2020-02-11 一种面向网购评论的新情感词极性计算方法

Publications (2)

Publication Number Publication Date
CN111310455A true CN111310455A (zh) 2020-06-19
CN111310455B CN111310455B (zh) 2022-09-20

Family

ID=71154525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010087342.7A Active CN111310455B (zh) 2020-02-11 2020-02-11 一种面向网购评论的新情感词极性计算方法

Country Status (1)

Country Link
CN (1) CN111310455B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782898A (zh) * 2010-03-25 2010-07-21 中国科学院计算技术研究所 一种情感词倾向性的分析方法
US20130018824A1 (en) * 2011-07-11 2013-01-17 Accenture Global Services Limited Sentiment classifiers based on feature extraction
CN104899231A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于细粒度属性分类的感情分析引擎
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN107862343A (zh) * 2017-11-28 2018-03-30 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
CN110069780A (zh) * 2019-04-19 2019-07-30 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法和系统
WO2019218508A1 (zh) * 2018-05-16 2019-11-21 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN110598219A (zh) * 2019-10-23 2019-12-20 安徽理工大学 一种面向豆瓣网电影评论的情感分析方法
CN110706028A (zh) * 2019-09-26 2020-01-17 四川长虹电器股份有限公司 基于属性特征的商品评价情感分析系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782898A (zh) * 2010-03-25 2010-07-21 中国科学院计算技术研究所 一种情感词倾向性的分析方法
US20130018824A1 (en) * 2011-07-11 2013-01-17 Accenture Global Services Limited Sentiment classifiers based on feature extraction
CN104899231A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 基于细粒度属性分类的感情分析引擎
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN107862343A (zh) * 2017-11-28 2018-03-30 南京理工大学 基于规则和神经网络的商品评论属性级情感分类方法
WO2019218508A1 (zh) * 2018-05-16 2019-11-21 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
CN110069780A (zh) * 2019-04-19 2019-07-30 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法和系统
CN110706028A (zh) * 2019-09-26 2020-01-17 四川长虹电器股份有限公司 基于属性特征的商品评价情感分析系统
CN110598219A (zh) * 2019-10-23 2019-12-20 安徽理工大学 一种面向豆瓣网电影评论的情感分析方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SHENG-CHUN DING ET AL.: "Research on sentiment orientation of product reviews in Chinese based on cascaded CRFs models", 《IEEE XPLORE》 *
李明 等: "商品评论情感倾向性分析", 《计算机应用》 *
李良强等: "网购农产品评论中的消费者情感标签抽取方法研究", 《电子科技大学学报(社科版)》 *
王侨云 等: "基于词间距和点互信息的影评情感词库构建", 《阜阳师范学院学报(自然科学版)》 *
高磊 等: "基于特征选择和点互信息剪枝的产品属性提取方法", 《模式识别与人工智能》 *

Also Published As

Publication number Publication date
CN111310455B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN107944911B (zh) 一种基于文本分析的推荐系统的推荐方法
CN112991017A (zh) 基于用户评论解析的标签体系精准推荐方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110955750A (zh) 评论区域和情感极性的联合识别方法、装置、电子设备
Azim et al. Text to emotion extraction using supervised machine learning techniques
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN113821588A (zh) 文本处理方法、装置、电子设备及存储介质
CN110516175B (zh) 一种确定用户标签的方法、装置、设备和介质
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN113704459A (zh) 一种基于神经网络的在线文本情感分析方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN111310455B (zh) 一种面向网购评论的新情感词极性计算方法
Prakash et al. Lexicon Based Sentiment Analysis (LBSA) to Improve the Accuracy of Acronyms, Emoticons, and Contextual Words
Anuradha et al. Fuzzy based summarization of product reviews for better analysis
CN108763203B (zh) 影评情感分析中使用特征词集将影评以特征向量表示的方法
Sharma et al. Enhancement of the Lexical Approach by N-Grams Technique via Improving Negation-Based Traditional Sentiment Analysis
Mehrban et al. evaluating bert and parsbert for analyzing persian advertisement data
Lee et al. Building place-specific sentiment Lexicon
Tandon et al. An Integrated Approach For Analysing Sentiments On Social Media
Jadon et al. Sentiment analysis for movies prediction using machine leaning techniques
Rodrigues et al. Aspect Based Sentiment Analysis on Product Reviews
Halim et al. Consumer Opinion Extraction Using Text Mining for Product Recommendations On E-Commerce
Mamatha et al. Supervised aspect category detection of co-occurrence data using conditional random fields
Usha et al. Sentiment Analysis on Business Data using Machine Learning
Asriguna et al. Sentiment Analysis of Live. on Digital Provider Application Using Naive Bayes Classifier Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant