CN104484815A - 基于模糊本体面向产品方面的情感分析方法及系统 - Google Patents
基于模糊本体面向产品方面的情感分析方法及系统 Download PDFInfo
- Publication number
- CN104484815A CN104484815A CN201410796468.6A CN201410796468A CN104484815A CN 104484815 A CN104484815 A CN 104484815A CN 201410796468 A CN201410796468 A CN 201410796468A CN 104484815 A CN104484815 A CN 104484815A
- Authority
- CN
- China
- Prior art keywords
- product
- emotion
- polarity
- ontology
- products
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于模糊本体面向产品方面的情感分析方法及系统,方法包括:产品模糊本体、基于潜在主题模型的产品方面挖掘、产品本体中上下文相关情感的学习、和面向产品方面的情感分析和产品推荐;系统包括:查询处理器模块、社交评论检索模块、社交评论爬取模块、文本预处理器模块、产品本体挖掘模块、面向产品方面的情感分析模块和面向产品方面的产品推荐模块。本发明可以提取出描述明确、方面之间区别清晰的商品各个方面;另外,本发明可以充分利用社交媒体网站上海量的消费者评论来进行细粒度的市场反馈信息的提取,从而,帮助企业应用本发明中公开的社会分析方法来获取网络中的集体社会智能来提升他们的产品设计和营销策略。
Description
技术领域
本发明涉及产品情感分析的研究领域,特别涉及一种基于模糊本体面向产品方面的情感分析方法及系统。
背景技术
在Web 2.0时代,每天都有大量由用户贡献的数据(例如,消费者对于产品的评论)发布到各个社交媒体(例如,epinions.com和facebook.com)和电子商务网站(例如,amazon.com)上。然而,信息过载问题使得企业或个人消费者在获取蕴含在这些网上评论中的社会智能时变得极其困难。用户提供数据(例如,消费者的评论)在社交网络中的爆炸式增长已经推动了社会分析工具的发展,并以此来自动地提取、分析和总结用户生成的内容。其中,情感分析(也称为意见挖掘,意见分析,或主观性分析)是一种重要的社会分析技术。尽管消费者发布到社交媒体网站中的意见具有主观性,从消费者的角度看,这些意见通常比从传统的信息来源更可信、更值得信赖。因此,在企业中应用社会分析方法来提取蕴含在网上评论中的市场情报具有巨大的发展潜力,有助于其加强产品设计和营销策略。在另一方面,在社会媒体网站中持续发展的集体社会智能,也有利于个人消费者在日常生活中进行比较购物。
然而,设计有效的社会智能分析工具面临着几个研究挑战。首先,评论大多都是非结构化的,其撰写形式自由。这使得难以对在消费者评论中提及的产品及其特征进行精确的识别。其次,传统的情感分析方法大多是上下文无关的。然而,蕴含在消费者评论中的情绪往往依赖于上下文的。例如,虽然在表达“酒店的房间这么小”中的“小”意味着一种贬义的情感(极性),同样的词在另一条评论中,例如,“小”在“在商务旅行中带一个小笔记本是如此方便”却表达了褒义的情感。另一个例子是,“不可预知”在有关电脑的上下文,如:“不可预知响应时间”中有负面的情感。然而,同样的词在有关小说的上下文中,如:“不可预知的情节”中却表达了一种积极的情感。事实上,“不可预知”在一些知名的情感字典中被定义为强烈的负面情绪词,如:OpinionFinder和SentiWordNet。因此,单独使用情感词典很难有效地对消费者评论进行情感分析并提取社会智能。最后,用来描述商品特征的词语之间存在的语义关联是社会智能提取中的另一项研究挑战。在消费者评论的上下文中,产品特征有时被称为“方面”。然而,“方面”是一个更具概况性的术语,指的是某个对象的显性的(低级)和隐性的(高级的)的特征。
最新的研究表明本体论方法有利于提升细粒度上下文敏感的情感分析的效果。然而,目前还没有探讨关于自动的本体学习方法来进行面向产品方面的情感分析研究工作。因此,本发明旨在填补这一研究的空白。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于模糊本体面向产品方面的情感分析方法,方法通过构建了一个概率生成模型,利用包含消费者情感的评论上下文来自动地学习产品模糊本体,以加强上下文敏感的、面向产品方面的情感分析。
本发明的另一目的在于,提供一种基于模糊本体面向产品方面的产品情感的分析系统。
为了达到上述第一目的,本发明采用以下技术方案:
基于模糊本体面向产品方面的产品情感的分析方法,包括下述步骤:
(1)产品模糊本体的构建,运用模糊集和模糊关系来刻画产品方面的分类关系以及上下文敏感的情感预测时的不确定性;
(2)基于潜在主题模型的产品方面挖掘,利用概率生成模型,从包含了产品的描述和消费者评论的语料库D中提取产品方面,并通过概率语言模型获得方面之间的包含关系,以生成产品模糊本体中的方面分类关系;
(3)产品本体中上下文相关情感的学习,通过对一组包含用户打分的消费者评论进行离线学习,以建立情感和产品方面之间的非分类关系;
(4)面向产品方面的情感分析和产品推荐,基于某类产品的产品模糊本体,进行面向产品方面的情感分析和面向产品方面的产品推荐。
优选的,步骤(2)中,所述基于潜在主题模型的产品方面挖掘具体为:
(2a)采用基于LDA主题建模方法来同时提取隐性的产品方面和显性的产品方面,并利用概率语言模型来生成在产品本体中产品方面之间的包含关系;
(2b)所述基于LDA的主题模型中,每个未标记训练语料库D中的文档d∈D,由一个多项分布θ来进行刻画,该分布由一个狄利克雷先验α控制,一个潜在主题Z是根据多项分布θ选出,Z是产品的某一方面,对于给定的一个主题Z,一个词t根据多项分布φ生成,该分布由狄利克雷先验β控制,为了推断条件概率Pr(ti|zi),即一个潜在的主题zi中出现词ti的概率,本发明通过Gibbs采样来计算的φ和θ的近似值,所述Gibbs采样中,φ和θ的近似值和可以以下公式计算得到;
其中,是一个计数矩阵,记录了词ti=m被分配到潜在主题zi=n的次数,该数目不包括当前词的数目,V是用来组成D的一组词汇的集合,是一个计数矩阵,记录了隐性主题zi=n被分配到文档di=p的次数,该数目不包括当前文档的数目,用于估计词ti在给定潜在主题zi的概率,而用于估计主题zi在给定文档di的概率,Gibbs采样的计算复杂度为O(I.|Z|.davg.|D|),其中I是Gibbs迭代次数;davg是语料库D的平均文档长度,而|Z|是预先定义的潜在主题数目;
(2c)所述预先定义的产品方面数目|Z|,是通过计算困惑度来估计|Z|,所述困惑度是用于评估概率模型的预测能力;其中一个较低的困惑度得分意味着模型拥有较好的泛化性能;在不同主题数目的情况下调用Gibbs采样算法后,选择在数据集中取得较小困惑度得分的一个最小主题数目作为|Z|;
(2d)所述产品方面,利用信息量最丰富主题的一个子集以代表产品方面,其中Shannon信息量衡量标准被用来选择最具信息量的主题topz来表示产品方面;
(2e)所述方面之间的包含关系,是通过一个一元概率语言模型得到,每个主题分布φ都表示一个概念ci,即主题分布表示了ci的内含元素,如果语言模型生成语言模型那么,根据基于包含关系理论,认为cj为父概念ci的一个候选子概念;如果和的生成概率的差值之间产生概率大于阈值ωsub,则认为cj为父概念ci的子概念;
(2f)所述一元概率语言模型计算如下:
其中,是概念ci通过基于LDA的主题建模获得的语言模型,通过Jelinek-Mercer平滑,语言模型生成语言模型的概率可以根据最大似然模型以及整个产品描述集合的最大似然模型PrML(ti|φD)得到,λ,μ是Jelinek-Mercer平滑参数,取值范围在[0.1,0.7]内;
是一个推理语言模型,Pr(tj→ti)表示tj和ti具有关联关系的概率,其值是由上下文相关文本挖掘方法推理得到,最后,对于概念ci和cj之间的模糊分类关系隶属函数定义如下:
其中,是一个线性归一化函数,Max和Min是集合集中的最大和最小值;
(2g)所述产品本体,顶层方面和每个子方面之间的包容度可以通过公式(3)-(8)估计得到;然而,顶层的方面节点是通过对一个产品类的生产说明进行最大似然估计来生成顶层方面的话题分布φtop,另一方面,包容程度是根据基本方面的主题分布φtop=Pr(ti|zj)得到;对于某个基本方面ti,如果ti与cj的归属度可以由模糊隶属函数 得到。
优选的,所述的产品本体中上下文相关情感的学习,包括:
(3a)通过对一组包含用户打分的消费者评论进行离线学习,建立情感和产品方面之间的非分类关系,即挖掘情感-方面关联度Ass(si,ai)以及预测方面ai的上下文相关情感si的极性,其中,评论中与产品方面相关联的形容词或副词被提取作为候选情感;
(3b)所述情感-方面关联度Ass(si,ai),是基于应用于模糊本体挖掘领域的互信息作为衡量指标,其定义如下:
其中,Ass(si,ai)表示情感si和方面ai之间的相关程度,权重因子ωass∈[0.5,0.7]是用来控制两种因素的相对重要性,Pr(ti,tj)是两个词出现在一个文本窗口的联合概率,而Pr(ti)是一个词ti出现在文本窗口的概率;其中|wt|是包含t的窗口的数目,而|w|表示构建整个语料库的窗口的数目,同样,Pr(ti,tj)是同时含有词ti和tj的窗口的数目与窗口的总数的商;
(3c)所述方面ai的上下文相关情感si的极性,是由非分类关系RNTAX(si,ai)的模糊隶属函数来表示,这一关系非分类关系包含在产品本体Ont:=<C,RTAX,RNTAX>中,通过大量包含打分的消费者评论来为每个情感方面对(si,ai)学习上下文相关的情感极性,其中情感极性包括正面、负面和中性三种,正面,负面的和中性的信息中对应的正面,负面的和中性的关键字,是通过基于Kullback-Leibler距离散度的单词发散度得到;
(3d)所述单词发散度,是将涉及到正面的、负面的事件的条件概率进行相减,以估算从消费者发表的评论中每个情感-方面对sa:=(si,ai)的极性强弱;其中,社交网站和电子商务网站中的打分4分和5分认为是积极的,而1分和2分的评分被视为消极的;中档评级3取为中性,WD和sa的情感极性定义如下:
其中,参数ωpos和ωneg分别控制积极和消极极性因素的学习率,其值可以通过实验结果确定,双曲正切函数tanh确保获得的极性分数落在单位区间内,是估计一条包含了情感-方面sa:=(si,ai)的评论是积极评价的条件概率;它是根据包含了该对sa的积极评价数目除以包含该对sa的评论的总数目估计得到;同样,是估计一条包含了情感-方面sa的评论是消极评价的条件概率;df(saneg)表示包含sa的评论是消极评价的条件概率;此外, 是一条评论是积极或消极的先验概率;消费者评价为积极或消极的评论集合,正的polarityOnt(sa)值表示相应的情感-方面对为积极的,而负的polarityOnt(sa)值意味着该情感-方面对是消极的,如果极性得分为零,则认为该情感-方面对是中性的。
优选的,所述的面向产品方面的情感分析和产品推荐,包括:
(4a)获得一个包含了对某类产品中一些产品方面的上下文相关情感的产品模糊本体后,进行面向产品方面的情感分析和面向产品方面的产品推荐,其中包括:对于产品方面的情感分析、对于产品评论的情感分析、对于整个产品的情感分析以及产品推荐;
(4b)所述对于产品方面的情感分析,是假定有一组从关于一个产品pi的评论集合D中提取出的情感-方面对集合SA,对于一个产品pi和方面ai的方面得分asp(po,ai)可以通过集合SA的极性值的加权平均得到,计算公式如下:
其中,首先应用产品模糊本体来确定在消费者评论中每个识别到的情感-方面对sa:=(si,ai)的情感极性强度,如果一个情感的极性不能通过产品本体得到,系统将调用一个缺省情感词典,来估计上下文无关的情感极性,如果产品本体中存在情感-方面对sa,系统将根据polarity(sa)=polarityOnt(sa)推断出该sa的极性得分;否则,SA的极性由polarity(sa)=polaritylexicon(si)得到,其中polaritylexicon(si)是在一个通用情感词典中上下文无关的情感极性分数,如果在所有的情感词典中,无法查找到sa的极性,系统给该sa赋予一个中立的极性,如果情感-方面对已被定义在产品本体中,权重ωsource=1;如果情感是定义在一个通用情感词典中,权重ωsource=0.5;
(4c)所述对于产品评论的情感分析,可以根据在该评论中的情感-方面对的极性加权平均得到,集合dsa表示在评论d中的所有情感-方面对,评论d的极性得分定义如下:
(4d)所述对于整个产品的情感分析,可以通过关于产品pi的所有评论中的情感-方面对的极性加权平均得到,集合Dsa表示在所有发现的情感-方面对,产品pi极性得分定义如下:
(4e)所述产品推荐,是根据产品的情感得分,将消费者评价较好,即polarity(pi)分值较高的产品推荐给用户。
优选的,所述的产品模糊本体的构建包括:
(5a)定义1:一个产品模糊本体是一个三元组:Ont:=<C,RTAX,RNTAX>,其中C是一组概念,隶属函数定义了在一组概念C中的子类和父类的关系强度,而隶属函数定义的是在C中的非分类关系强度;
(5b)所述分类关系包括产品与产品类别的分类关系和产品方面之间的分类关系,所述产品和产品类别之间的分类关系是从电子商务网站提取到;所述产品方面之间的分类关系是通过所述基于潜在主题模型的产品方面挖掘得到;而方面和情感之间的非分类关系是通过所述产品本体中上下文相关情感的学习得到,所述产品方面之间的分类关系是以包含关系为基础进行描述,所述包含关系是根据概念分析方法,概念的内含程度可以应用于评估这些概念之间的包容关系;其中给定两个概念Ci和Cj的内含是,如果Ci的所有属性也属于CJ,即,那么概念Ci将被归为概念Cj的子概念。
为了达到上述第二目的,本发明采用以下技术方案:
基于模糊本体面向产品方面的产品情感的分析系统,包括:
查询处理器模块:用户选择一个产品类别或一个特定的产品以获得消费者对该产品类别或产品的评价;
社交评论检索:基于所选择的目标产品或产品类别,基于模糊本体面向产品方面的产品情感的分析系统OBPRM调用由社交网站和互联网搜索引擎提供的Web服务或API来检索消费者对于特定产品的评论,
社交评论爬取模块:OBPRM系统的专用爬虫将周期性地遍历Web网来爬取有关产品的信息、产品功能以及相关的消费者评论;
文本预处理器模块:采用StanfordLog-Linear POS来对消费者评论进行词性标注,假设基本的产品特征是由名词短语进行描述,而情感是由形容词或副词进行描述;
产品本体挖掘模块:产品本体挖掘是离线进行的,并且它是在面向产品方面的情感分析被调用之前进行的,产品模糊本体中的分类关系是利用开源代码LingPipe API来对概率主题模型进行Gibbs采样获得;
产品本体的可视化模块,采用开源的可视化框架TouchGraph对产品本体进行展示;每个产品本体通过Web本体语言进行形式化描述;
面向产品方面的情感分析模块:根据挖掘的产品本体和上下文无关的情感词典,情感分析器将确定每个出现在消费者评论中的上下文敏感情感-方面对的极性sa:=(s_i,a_i);
面向产品方面的产品推荐模块:对蕴含在消费者评论中的每个情感方面对sa:=(s_i,a_i)进行分析后,系统将根据所有检索到的某一产品的评论计算该产品的每个方面的情感倾向得分的均值,最后,特定产品类别中的所有产品都可以根据面向产品方面的情感极性分数进行分析,并进行产品推荐。
优选的,所述的用户查询处理器模块具体用于:通过网页客户端,用户可选择一个产品类别或者输入某一产品名称或编号,并确认提交到系统;系统解析用户请求获得待分析的目标产品;
社交评论检索模块具体用于,对于用户指定输入的产品名称或产品类别,调用搜索引擎,进行检索获得相关的资源链接;通过社交评论网站和电子商务网站,获得关于用户指定产品或产品类的评论链接。
优选的,社交评论爬取模块具体用于:对于一些社会媒体网站,包含了由用户提供的关于产品“优点”和“缺点”的描述,其中,包含在“优点”和“缺点”评论中的名词短语往往指的是产品方面,利用这些消费者评论的“优点”和“缺点”片段作为文档,以及网上产品说明一并爬取到本地进行存储;
所述的文本预处理器模块具体用于:去除停词;对词利用Porter算法进行词干化提取原型;利用StanfordLog-Linear POS来对消费者评论进行词性标注。
优选的,基于潜在主题模型的产品方面挖掘和产品本体中上下文相关情感的学习,具体方法为:
(9a)所述基于潜在主题模型的产品方面挖掘,利用发布在社交网站和电子商务网站上的产品说明和消费者评论,采用基于LDA主题建模方法来同时提取隐性的产品方面和显性的产品方面,并利用概率语言模型来生成在产品本体中产品方面之间的包含关系;
(9b)所述面向产品方面的情感分析,通过对一组包含用户打分的消费者评论进行离线学习,以建立情感和产品方面之间的非分类关系,即挖掘情感-方面关联度Ass(si,ai)以及预测方面ai的上下文相关情感si的极性,其中,评论中与产品方面相关联的形容词或副词,被提取作为候选情感。
优选的,所述的面向产品方面的情感分析模块具体用于:
根据提取到的产品模糊本体,进行对于产品方面的情感分析、对于产品评论的情感分析及对于整个产品的情感分析,其具体为:
(10a)对于产品方面的情感分析,假定有一组从关于一个产品pi的评论集合D中提取出的情感-方面对集合SA,对于一个产品pi和方面ai的方面得分asp(pi,ai)可以通过集合SA的极性值的加权平均得到,计算如公式如下:
其中,首先应用产品模糊本体来确定在消费者评论中每个识别到的情感-方面对sa:=(si,ai)的情感极性强度,如果一个情感的极性不能通过产品本体得到,系统将调用一个缺省情感词典,来估计上下文无关的情感极性,如果产品本体中存在情感-方面对sa,系统将根据polarity(sa)=polarityOnt(sa)推断出该sa的极性得分;否则,SA的极性由polarity(sa)=polaritylexicon(si)得到,其中polaritylexicon(si)是在一个通用情感词典中上下文无关的情感极性分数,如果在所有的情感词典中,无法查找到sa的极性,系统给该sa赋予一个中立的极性,如果情感-方面对已被定义在产品本体中,权重ωsource=1;如果情感是定义在一个通用情感词典中,权重ωsource=0.5;
(10b)对于产品评论的情感分析,根据在该评论中的情感-方面对的极性加权平均得到,集合dsa表示在评论d中的所有情感-方面对,评论d的极性得分可由下述公式计算得到:
(10c)对于整个产品的情感分析,通过关于产品pi的所有评论中的情感-方面对的极性加权平均得到,合Dsa表示在所有发现的情感-方面对,产品pi极性得分可由下述公式计算得到:
产品pi极性得分定义如下:
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明公开了一种新的社会智能分析方法,其特点在于通过从发布在各个社交媒体(例如,epinions.com和facebook.com)和电子商务网站(例如,amazon.com)上的产品评论中提取消费者对产品的评价信息,以获得大众对产品的购买、使用反馈。与现有技术不同,本发明不仅对电商网站上的商品描述及用户评论信息进行分析,还通过搜索引擎,如Google、Baidu等,对用户输入关键词进行检索,获得社交媒体中相关资源链接,以帮助用户快速、有效、全面地了解某类产品或具体某个产品的口碑。
2、本发明还公开了一种新的产品模糊本体挖掘算法,与现有技术不同,本发明采用模糊本体来对产品的分类信息、产品各个方面及其情感信息进行描述。通过规范的、概念化的本体来描述各个概念以及它们之间的关系,能够对无结构信息进行以清晰、符合人类认知的方式进行存储和描述。另外,与传统本体描述方式只能表达概念之间是否存在包含关系不同,模糊本体能够对各个概念之间的隶属关系进行更富有表达力的描述,即能表现出各个概念之间的包含程度。
3、与现有的人工构建本体方法不同,本发明公开了一种基于主题模型和概率语言模型的自动化的模糊本体构建方法。首先,该方法通过基于LDA的主题建模方法对评论进行语义分析,以提取出产品的显性和隐性方面以及与这些方面相关的情感。然后,通过概率语言模型对各个不同粒度的产品方面进行包含关系分析,以构建产品模糊本体。该自动模糊本体构建方法可为基于本体的产品评论分析系统在本体构建方面节省大量时间和人工干预,以支持对产品进行自动化的面向不同层次方面的情感分析。
4、本发明公开了一种半监督的统计学习方法,与现有基于词典进行情感分析的技术不同,本发明通过对包含用户打分的商品评论进行离线学习,根据用户打分自动地提取上下文敏感的情感,并得到情感词对应的情感极性得分。与现有技术只能进行上下文无关的情感分析不同,本发明中公开的情感分析方法可根据产品的所属领域不同对上下文相关、领域依赖的情感词进行准确、有效的情感极性得分计算。
附图说明
图1为本发明的总体框架图;
图2为产品模糊本体的顶层结构;
图3为产品模糊本体中高层次方面;
图4为产品模糊本体中低层次方面;
图5为模糊本体中面向产品方面的情感。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本发明的首要目的通过下述技术方案实现:基于模糊本体面向产品方面的产品情感的分析和产品推荐方法,包括:
产品模糊本体的构建,以模糊集和模糊关系为基础,来刻画产品方面识别以及上下文敏感的情感预测时的不确定性;
基于潜在主题模型的产品方面挖掘,应用概率生成模型,从包含了产品的描述和消费者评论的语料库D中提取产品方面,并通过概率语言模型获得方面之间的包含关系,以生成产品模糊本体中的方面分类关系;
产品本体中上下文相关情感的学习,通过对一组包含用户打分的消费者评论进行离线学习,以建立情感和产品方面之间的非分类关系;
面向产品方面的情感分析和产品推荐,基于某类产品的产品模糊本体,进行面向产品方面的情感分析和面向产品方面的产品推荐。
1、产品模糊本体
其中,所述产品模糊本体定义为:
定义1:一个产品模糊本体是一个三元组:Ont:=<C,R_TAX,R_NTAX>,其中C是一组概念,隶属函数定义了在一组概念C中的子类和父类的关系强度,而隶属函数定义的是在C中的非分类关系强度;
所述分类关系包括产品与产品类别的分类关系和产品方面之间的分类关系,所述产品和产品类别之间的分类关系是从电子商务网站提取到;所述产品方面之间的分类关系是通过所述基于潜在主题模型的产品方面挖掘得到;而方面和情感之间的非分类关系是通过所述产品本体中上下文相关情感的学习得到,所述产品方面之间的分类关系是以包含关系为基础进行描述,所述包含关系是根据概念分析方法,概念的内含程度可以应用于评估这些概念之间的包容关系;其中给定两个概念Ci和Cj的内含是,如果Ci的所有属性也属于Cj,即, 那么概念Ci将被归为概念Cj的子概念。
2、基于潜在主题模型的产品方面挖掘
所述基于潜在主题模型的产品方面挖掘是利用发布在社交网站和电子商务网站,如epinions.com,上的产品说明和消费者评论,采用基于LDA主题建模方法来同时提取隐性的(高级的)产品方面和显性的(基本的)产品方面,并利用概率语言模型来生成在产品本体中产品方面之间的包含关系。
所述基于LDA的主题模型中,每个未标记训练语料D中的文档d∈D,由一个多项分布θ来进行刻画,该分布由一个狄利克雷先验α控制。一个潜在主题Z(即,产品方面)是根据多项分布θ选出。对于给定的一个主题Z,一个词t根据多项分布φ生成,该分布由狄利克雷先验β控制。为了推断条件概率Pr(ti|zi),即一个潜在的主题(即产品方面)zi中出现词ti的概率,本发明通过Gibbs采样来计算的φ和θ的近似值。所述Gibbs采样中,φ和θ的近似值和可以以下公式计算得到。
其中,是一个计数矩阵,记录了词ti=m被分配到潜在主题zi=n的次数,该数目不包括当前词的数目。V是用来组成D的一组词汇的集合,是一个计数矩阵,记录了隐性主题zi=n被分配到文档di=p的次数,该数目不包括当前文档的数目。用于估计词ti在给定潜在主题zi的概率,而用于估计主题zi在给定文档di的概率。Gibbs采样的计算复杂度为O(I.|Z|.davg.|D|),其中I是Gibbs迭代次数;davg是语料库D的平均文档长度,而|Z|是预先定义的潜在主题数目。
所述预先定义的产品方面数目|Z|,是通过计算困惑度(perplexity)来估计|Z|。所述困惑度是用于评估概率模型的预测能力;其中一个较低的困惑度得分意味着模型拥有较好的泛化性能。本发明在不同主题数目的情况下调用Gibbs采样算法后,选择在数据集(held-out dataset)中取得较好(小)困惑度得分的一个最小主题数目作为|Z|,以减少计算成本,并捕捉蕴含在语料库潜在的语义。
所述产品方面,本发明只利用信息量最丰富主题的一个子集以代表产品方面,其中Shannon信息量衡量标准被用来选择最具信息量的主题topZ来表示产品方面。在本发明采用topZ=10;对于每个所选择的主题,选择前topt=10最大条件概率Pr(ti|zi)的条目来代表一个主题。
所述方面之间的包含关系,是通过一个一元概率语言模型得到。每个主题分布φ都表示一个概念ci(即产品方面),即,主题分布表示了ci的内含元素。如果语言模型生成语言模型那么,根据基于内含的包含关系理论,认为cj为父概念ci的一个候选子概念。如果和的生成概率的差值之间产生概率大于阈值ωsub,则认为cj为父概念ci的子概念。本发明采用了ωsub=40%。和的生成概率是通过一个一元概率语言模型得到。
所述一元概率语言模型计算如下:
其中,是概念ci通过基于LDA的主题建模获得的语言模型。通过Jelinek-Mercer平滑,语言模型生成语言模型的概率可以根据最大似然模型以及整个产品描述集合的最大似然模型PrML(ti|φD)得到。λ,μ是Jelinek-Mercer平滑参数,取值范围在[0.1,0.7]内。在本发明中,设置λ=0.15和μ=0.2,以减轻对在主题分布φ的词的过高估计,而对不在φ的词的过低估计的问题。函数tf(ti)是计算词ti在整个产品描述集合D中的词频,而|D|表示整个集合的长度,该长度指的是在D中的词的数目。是一个推理语言模型,Pr(tj→ti)表示tj和ti具有关联关系的概率,其值是由上下文相关文本挖掘方法推理得到,最后,对于概念ci和cj之间的模糊分类关系隶属函数定义如下:
其中,是一个线性归一化函数,Max和Min是集合集中的最大和最小值;
所述产品本体如图2、图3所示,顶层方面(概念)和每个子方面(子概念)之间的包容度可以通过公式(3)-(8)估计得到;然而,顶层的方面节点是通过对一个产品类的生产说明进行最大似然估计来生成顶层方面的话题分布φtop,例如,“照相机”,相同的过程应用于构造为每个产品本体的顶层方面主题;另一方面,对于如图4所示的底层方面,包容程度是根据基本方面的主题分布φtop=Pr(ti|zj)得到;对于某个基本方面ti,如果 ti与cj的归属度可以由模糊隶属函数 得到。根据实验,本发明设置的修剪阈值ωelm=0.1。
3、产品本体中上下文相关情感的学习
所述产品本体中上下文相关情感的学习,通过对一组包含用户打分的消费者评论进行离线学习,以建立情感和产品方面之间的非分类关系,即挖掘情感-方面关联度Ass(si,ai)以及预测方面ai的上下文相关情感si的极性。其中,评论中与产品方面相关联的形容词或副词(在一个大小为ωwin文本窗口(window)内)被提取作为候选情感。本发明设置ωwin=6。另外,只有形容词(或副词)与产品方面位于同一句子中才会被提取。
3(a)所述情感-方面关联度Ass(si,ai),是基于模糊本体挖掘领域中的互信息作为衡量指标,其定义如下:
其中,Ass(si,ai)表示情感si和方面ai之间的相关程度,权重因子ωass∈[0.5,0.7]是用来控制两种因素的相对重要性,Pr(ti,tj)是两个词出现在一个文本窗口的联合概率,而Pr(ti)是一个词ti出现在文本窗口的概率;其中|wt|是包含t的窗口的数目,而|w|表示构建整个语料库的窗口的数目,同样,Pr(ti,tj)是同时含有词ti和tj的窗口的数目与窗口的总数的商。
所述方面ai的上下文相关情感si的极性,是由非分类关系RNTAX(si,ai)的模糊隶属函数来表示,这一关系非分类关系包含在本发明公开的产品本体Ont:=<C,RTAX,RNTAX>中。通过大量包含打分的消费者评论来为每个情感方面对(si,ai)学习上下文相关的情感极性,其中情感极性包括正面、负面和中性三种,正面,负面的和中性的信息中对应的正面,负面的和中性的关键字,是通过基于Kullback-Leibler距离(KL)散度的单词发散度(WD)得到。
所述单词发散度(WD),是将涉及到正面的、负面的事件的条件概率进行相减,以估算从消费者发表的评论中每个情感-方面对sa:=(si,ai)的极性强弱。其中,社交网站和电子商务网站中的打分4分和5分认为是积极的,而1分和2分的评分被视为消极的;中档评级3取为中性。WD和sa的情感极性定义如下:
其中,参数ωpos和ωneg分别控制积极和消极极性因素的学习率,其值可以通过实验结果确定。双曲正切函数tanh确保获得的极性分数落在单位区间内。该式是估计一条包含了情感-方面sa:=(si,ai)的评论是积极评价的条件概率;它是根据包含了该对sa的积极评价数目除以包含该对sa的评论的总数目估计得到。同样,是估计一条包含了情感-方面sa的评论是消极评价的条件概率。df(saneg)表示包含sa的评论是消极评价的条件概率。此外, 是一条评论是积极(消极)的先验概率;消费者评价为积极(消极)的评论集合。正的polarityOnt(sa)值表示相应的情感-方面对为积极的,而负的PolarityOnt(sa)值意味着该情感-方面对是消极的。如果极性得分为零,则认为该情感-方面对是中性的。本发明还考虑了否定的情感。例如,如果在一个情感-方面对的虚拟文本窗口中发现诸如“不”,“没”,“除了”等否定词,相应的极性得分的正负将会相反。最后,在产品模糊本体Ont:=<C,RTAX,RNTAX>中,非分类关系RNTAX(si,ai)的模糊隶属函数如图5所示,一个积极的情感标记前缀为+si,而消极的情感标记前缀为-si。
4、面向产品方面的情感分析和产品推荐
所述面向产品方面的情感分析和产品推荐,是在获得包含了对某类产品中一些产品方面的上下文相关情感的产品模糊本体后,进行面向产品方面的情感分析和面向产品方面的产品推荐(图1中的任务6和7)。其中主要包括:对于产品方面的情感分析、对于产品评论的情感分析、对于整个产品的情感分析以及产品推荐。
所述对于产品方面的情感分析,是假定有一组从关于一个产品pi的评论集合D中提取出的情感-方面对集合SA,对于一个产品pi和方面ai的方面得分asp(pi,ai)可以通过集合SA的极性值的加权平均得到,计算公式如下:
其中,首先应用产品模糊本体来确定在消费者评论中每个识别到的情感-方面对sa:=(si,ai)的情感极性强度。如果一个情感的极性不能通过产品本体得到,系统将调用一个缺省情感词典,如OpinionFinder,来估计上下文无关的情感极性。即,如果产品本体中存在情感-方面对sa,系统将根据polarity(sa)=polarityOnt(sa)推断出该sa的极性得分;否则,SA的极性由polarity(sa)=polaritylexicon(si)得到,其中polaritylexicon(si)是在一个通用情感词典中上下文无关的情感极性分数。如果在所有的情感词典中,无法查找到sa的极性,系统给该sa赋予一个中立的极性。如果情感-方面对已被定义在产品本体中,权重ωsource=1;如果情感是定义在一个通用情感词典中,如:OpinionFinder,权重ωsource=0.5。
所述对于产品评论的情感分析,可以根据在该评论中的情感-方面对的极性加权平均得到。集合dsa表示在评论d中的所有情感-方面对。评论d的极性得分定义如下:
所述对于整个产品的情感分析,可以通过关于产品pi的所有评论中的情感-方面对的极性加权平均得到。集合Dsa表示在所有发现的情感-方面对。产品pi极性得分定义如下:
所述产品推荐,是根据产品的情感得分,将消费者评价较好,即polarity(pi)分值较高的产品推荐给用户。
基于模糊本体面向产品方面的产品情感的分析和产品推荐系统,以下简称为OBPRM,该系统框架如图1所示,从用户提交查询到面向产品方面的产品推荐结果交付给用户,该框架主要包括七个主要部分:
1.查询处理器模块:首先,一个用户(例如,一个业务经理)选择一个产品类别或一个特定的产品提交给系统。
2.社交评论检索模块:基于所选择的目标产品或产品类别,OBPRM系统调用由社交网站和互联网搜索引擎提供的Web服务或API来检索消费者对于特定产品的评论。
3.社交评论爬取模块:OBPRM系统的专用爬虫周期性地遍历Web网来爬取有关产品的信息、产品功能以及相关的消费者评论。
4.文本预处理器模块:传统的文件预处理步骤:如:删除停词,POS词性标注,并对消费者的意见和产品说明中词语进行词干化。本发明采用StanfordLog-Linear POS来对消费者评论进行词性标注。假设基本的产品特征是由名词短语进行描述,而情感是由形容词或副词进行描述。
5.产品本体挖掘模块:产品本体挖掘是离线进行的,并且它是在面向产品方面的情感分析被调用之前进行的。产品模糊本体捕获的分类关系,如:“内存”(产品功能)“是一个”“硬件”(产品方面),和非分类关系,如:“闪光”(商品功能)是与情感词“明亮”相关。此外,产品本体也会将上下文相关该情感-方面对,如:“明亮的闪光”的情感倾向(例如,“积极”)进行捕捉。消费者的评论,产品评分和产品描述是从社交媒体网站,如epinions.com上检索得到的;将此信息输送到产品本体挖掘器中,通过概率潜在主题建模过程自动地建立起模糊的产品本体。本发明利用开源代码LingPipe API来为概率主题模型进行Gibbs采样。产品本体的可视化模块采用的是开源框架TouchGraph。每个产品本体通过Web本体语言(OWL)进行形式化描述。
6.面向产品方面的情感分析模块:根据挖掘的产品本体和上下文无关的情感词典,情感分析器将确定每个出现在消费者评论中的上下文敏感情感方面对sa的极性sa:=(si,ai)。
7.面向产品方面的产品推荐模块:对蕴含在消费者评论中的每个情感方面对sa:=(si,ai)进行分析后,系统将根据所有检索到的某一产品的评论计算该产品每个方面的情感倾向得分的均值。最后,特定产品类别中的所有产品都可以根据面向产品方面的情感极性分数进行分析,并进行产品推荐。
所述用户查询处理器模块,通过网页客户端,用户可选择一个产品类别或者输入某一产品名称或编号,并确认提交到系统;系统解析用户请求获得待分析的目标产品。
所述社交评论检索模块,对于用户指定输入的产品名称或产品类别,调用搜索引擎,如Google、Baidu等,进行检索获得相关的资源链接;通过社交评论网站和电子商务网站,如:amazon.com、epinions.com等提供的接口,获得关于用户指定产品或产品类的评论链接。
所述社交评论爬取模块,对于一些社会媒体网站,如epinions.com,它们包含了由用户提供的关于产品“优点”和“缺点”的描述。其中,包含在“优点”和“缺点”评论中的名词短语往往指的是产品方面,利用这些消费者评论的“优点”和“缺点”片段作为文档,以及网上产品说明一并爬取到本地进行存储。
所述文本预处理器模块,去除停词;对词利用Porter算法进行词干化提取原型(适用于英文,中文不需此步骤);利用StanfordLog-Linear POS来对消费者评论进行词性标注。
所述产品本体挖掘模块,包括基于潜在主题模型的产品方面挖掘和产品本体中上下文相关情感的学习。
1、所述基于潜在主题模型的产品方面挖掘,是利用发布在社交网站和电子商务网站,如epinions.com,上的产品说明和消费者评论,采用基于LDA主题建模方法来同时隐性的(高级、高层次的)产品方面和明确的(基本、低层次的)产品方面,并利用概率语言模型来生成在产品本体中产品方面之间的包含关系。
1(a)所述基于LDA的主题模型中,每个未标记训练语料D中的文档d∈D,由一个多项式分布θ来进行刻画,该分布由一个狄利克雷先验α控制。一个潜在主题Z(即,产品方面)是根据多项分布θ选出。对于给定的一个主题Z,一个词t根据多项分布φ生成,该分布由狄利克雷先验β控制。为了推断条件概率Pr(ti|zi),即一个潜在的主题(即产品方面)zi中出现词ti的概率,本发明通过Gibbs采样来计算的φ和θ的近似值。所述Gibbs采样中,φ和θ的近似值和可以通过公式(1)和公式(2)计算得到。
1(b)所述预先定义的产品方面数目|Z|,是通过计算困惑度(perplexity)来估计|Z|。所述困惑度是用于评估概率模型的预测能力;其中一个较低的困惑度得分意味着模型拥有较好的泛化性能。本发明在不同主题数目的情况下调用Gibbs采样算法后,选择在数据集(held-outdataset)中取得较好(小)困惑度得分的一个最小主题数目作为|Z|,以减少计算成本,并捕捉蕴含在语料库潜在的语义。
1(c)所述产品方面,本发明只利用信息量最丰富主题的一个子集以代表产品方面,其中Shannon信息量衡量标准被用来选择最具信息量的topZ的主题来表示产品方面。在本发明采用topZ=10;对于每个所选择的主题,选择前topt=10最大条件概率Pr(ti|zi)的条目来代表一个主题。
1(d)所述方面之间的包含关系,是通过一个一元概率语言模型得到。每个主题分布φ都表示一个概念ci(即产品方面),即,主题分布表示了ci的内含元素。如果语言模型生成语言模型那么,根据基于内含的包含关系理论,认为cj为父概念ci的一个候选子概念。如果和的生成概率的差值之间产生概率大于以百分比计算的阈值ωsub,则认为cj为父概念ci的子概念。本发明采用了ωsub=40%。和的生成概率是通过一个一元概率语言模型得到。
1(e)所述一元概率语言模型可由公式(3)-(7)计算得到,而对于概念ci和cj之间的模糊分类关系隶属函数定义如公式(8)所示。
1(f)所述产品本体,如图3所示,顶层方面(概念)和每个子方面(子概念)之间的包容度可以通过公式(3)-(8)估计得到。然而,顶层的方面节点是通过对一个有关“照相机”产品类的生产说明(即,语料库)进行最大似然估计来生成顶层方面的话题分布φtop。相同的过程应用于构造为每个产品本体的顶层方面主题。另一方面,对于如图4所示的底层方面,包容程度是基于基本方面的主题分布φtop=Pr(ti|zj)得到。特别是,对于某个基本方面ti,如果ti与cj的归属度可以由模糊隶属函数 得到。根据实验,本发明设置的修剪阈值ωelm=0.1。
2、所述面向产品方面的情感分析,通过对一组用户打分的消费者评论的离线学习过程,以建立情感和产品方面之间的非分类关系,即挖掘情感-方面关联度Ass(si,ai)以及预测方面ai的上下文相关情感si的极性。其中,评论中与产品方面相关联的形容词或副词(在一个大小为ωwin文本窗口(window)内)被提取作为候选情感。本发明设置ωwin=6。另外,只有形容词(或副词)与产品方面共同位于同一句子中才会被提取。
2(a)所述情感-方面关联度Ass(si,ai),是基于应用于模糊本体挖掘领域的互信息作为衡量指标,其定义如公式(9)所示。
2(b)所述方面ai的上下文相关情感si的极性,是由非分类关系RNTAX(si,ai)的模糊隶属函数来表示,这一关系非分类关系包含在本发明公开的产品本体Ont:=<C,RTAX,RNTAX>中。本发明利用数量巨大的用户标记的消费者评论来为每个情感方面对(si,ai)学习上下文相关的情感极性。其中情感极性包括正面(积极)、负面(消极)和中性三种。正面,负面的和中性的信息中对应的正面,负面的和中性的关键字,是通过基于Kullback-Leibler距离(KL)散度的单词发散度(WD)得到。
2(c)所述单词发散度(WD),是将涉及到正面的、负面的事件的条件概率进行相减,以估算从消费者发表的评论中每个情感-方面对sa:=(si,ai)的极性强弱。其中,社交网站和电子商务网站中的打分4分和5分认为是积极的,而1分和2分的评分被视为消极的;中档评级3取为中性。WD和sa的情感极性定义如公式(10)和公式(11)所示。
所述面向产品方面的情感分析模块,根据提取到的产品模糊本体,进行对于产品方面的情感分析、对于产品评论的情感分析及对于整个产品的情感分析。
1、所述对于产品方面的情感分析,假定有一组从关于一个产品pi的评论集合D中提取出的情感-方面对集合SA,对于一个产品pi和方面ai的方面得分asp(pi,ai)可以通过集合SA的极性值的加权平均得到,计算公式如公式(12)所示。
2、所述对于产品评论的情感分析,可以根据在该评论中的情感-方面对的极性加权平均得到。集合dsa表示在评论d中的所有情感-方面对。评论d的极性得分定义如公式(13)所示。
3、所述对于整个产品的情感分析,可以通过关于产品pi的所有评论中的情感-方面对的极性加权平均得到。集合Dsa表示在所有发现的情感-方面对。产品pi极性得分定义如公式(14)所示。
所述面向产品方面的产品推荐模块,是根据产品的情感得分,将消费者评价较好,即polarity(pi)分值较高的产品推荐给用户。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于模糊本体面向产品方面的产品情感的分析方法,其特征在于,包括下述步骤:
(1)产品模糊本体的构建,运用模糊集和模糊关系来刻画产品方面的分类关系以及上下文敏感的情感预测时的不确定性;
(2)基于潜在主题模型的产品方面挖掘,利用概率生成模型,从包含了产品的描述和消费者评论的语料库D中提取产品方面,并通过概率语言模型获得方面之间的包含关系,以生成产品模糊本体中的方面分类关系;
(3)产品本体中上下文相关情感的学习,通过对一组包含用户打分的消费者评论进行离线学习,以建立情感和产品方面之间的非分类关系;
(4)面向产品方面的情感分析和产品推荐,基于某类产品的产品模糊本体,进行面向产品方面的情感分析和面向产品方面的产品推荐。
2.根据权利要求1所述的基于模糊本体面向产品方面的产品情感的分析方法,其特征在于,步骤(2)中,所述基于潜在主题模型的产品方面挖掘具体为:
(2a)采用基于LDA主题建模方法来同时提取隐性的产品方面和显性的产品方面,并利用概率语言模型来生成在产品本体中产品方面之间的包含关系;
(2b)所述基于LDA的主题模型中,每个未标记训练语料库D中的文档d∈D,由一个多项分布θ来进行刻画,该分布由一个狄利克雷先验α控制,一个潜在主题Z是根据多项分布θ选出,Z是产品的某一方面,对于给定的一个主题Z,一个词t根据多项分布φ生成,该分布由狄利克雷先验β控制,为了推断条件概率Pr(ti|zi),即一个潜在的主题zi中出现词ti的概率,本发明将通过Gibbs采样来计算的φ和θ的近似值,所述Gibbs采样中,φ和θ的近似值和可以以下公式计算得到;
其中,是一个计数矩阵,记录了词ti=m被分配到潜在主题zi=n的次数,该数目不包括当前词的数目,V是用来组成D的一组词汇的集合,是一个计数矩阵,记录了隐性主题zi=n被分配到文档di=p的次数,该数目不包括当前文档的数目,用于估计词ti在给定潜在主题zi的概率,而用于估计主题zi在给定文档di的概率,Gibbs采样的计算复杂度为O(I.|Z|.davg.|D|),其中I是Gibbs迭代次数;davg是语料库D的平均文档长度,而|Z|是预先定义的潜在主题数目;
(2c)所述预先定义的产品方面数目|Z|,是通过计算困惑度来估计|Z|,所述困惑度是用于评估概率模型的预测能力;其中一个较低的困惑度得分意味着模型拥有较好的泛化性能;在不同主题数目的情况下调用Gibbs采样算法后,选择在数据集中取得较小困惑度得分的一个最小主题数目作为|Z|;
(2d)所述产品方面,利用信息量最丰富主题的一个子集以代表产品方面,其中Shannon信息量衡量标准被用来选择最具信息量的主题topZ来表示产品方面;
(2e)所述方面之间的包含关系,是通过一个一元概率语言模型得到,每个主题分布φ都表示一个概念ci,即主题分布表示了ci的内含元素,如果语言模型生成语言模型那么,根据基于包含关系理论,认为cj为父概念ci的一个候选子概念;如果和的生成概率的差值之间产生概率大于阈值ωsub,则认为cj为父概念ci的子概念;
(2f)所述一元概率语言模型计算如下:
其中,是概念ci通过基于LDA的主题建模获得的语言模型,通过Jelinek-Mercer平滑,语言模型生成语言模型的概率可以根据最大似然模型以及整个产品描述集合的最大似然模型PrML(ti|φD)得到,λ,μ是Jelinek-Mercer平滑参数,取值范围在[0.1,0.7]内;
是一个推理语言模型,Pr(tj→ti)表示tj和ti具有关联关系的概率,其值是由上下文相关文本挖掘方法推理得到,最后,对于概念ci和cj之间的模糊分类关系隶属函数定义如下:
其中,是一个线性归一化函数,Max和Min是集合集中的最大和最小值;
(2g)所述产品本体,顶层方面和每个子方面之间的包容度可以通过公式(3)-(8)估计得到;然而,顶层的方面节点是通过对一个产品类的生产说明进行最大似然估计来生成顶层方面的话题分布φtop,另一方面,包容程度是根据基本方面的主题分布φtop=Pr(ti|zj)得到;对于某个基本方面ti,如果ti与cj的归属度可以由模糊隶属函数 得到。
3.根据权利要求1所述的基于模糊本体面向产品方面的产品情感的分析方法,其特征在于,所述的产品本体中上下文相关情感的学习,包括:
(3a)通过对一组包含用户打分的消费者评论进行离线学习,建立情感和产品方面之间的非分类关系,即挖掘情感-方面关联度Ass(si,ai)以及预测方面ai的上下文相关情感si的极性,其中,评论中与产品方面相关联的形容词或副词被提取作为候选情感;
(3b)所述情感-方面关联度Ass(si,ai),是基于应用于模糊本体挖掘领域的互信息作为衡量指标,其定义如下:
其中,Ass(si,ai)表示情感si和方面ai之间的相关程度,权重因子ωass∈[0.5,0.7]是用来控制两种因素的相对重要性,Pr(ti,tj)是两个词出现在一个文本窗口的联合概率,而Pr(ti)是一个词ti出现在文本窗口的概率;其中|wt|是包含t的窗口的数目,而|w|表示构建整个语料库的窗口的数目,同样,Pr(ti,tj)是同时含有词ti和tj的窗口的数目与窗口的总数的商;
(3c)所述方面ai的上下文相关情感si的极性,是由非分类关系RNTAX(si,ai)的模糊隶属函数来表示,这一关系非分类关系包含在产品本体Ont:=<C,RTAX,RNTAX>中,通过大量包含打分的消费者评论来为每个情感方面对(si,ai)学习上下文相关的情感极性,其中情感极性包括正面、负面和中性三种,正面,负面的和中性的信息中对应的正面,负面的和中性的关键字,是通过基于Kullback-Leibler距离散度的单词发散度得到;
(3d)所述单词发散度,是将涉及到正面的、负面的事件的条件概率进行相减,以估算从消费者发表的评论中每个情感-方面对sa:=(si,ai)的极性强弱;其中,社交网站和电子商务网站中的打分4分和5分认为是积极的,而1分和2分的评分被视为消极的;中档评级3取为中性,WD和sa的情感极性定义如下:
其中,参数ωpos和ωneg分别控制积极和消极极性因素的学习率,其值可以通过实验结果确定,双曲正切函数tanh确保获得的极性分数落在单位区间内,是估计一条包含了情感-方面sa:=(si,ai)的评论是积极评价的条件概率;它是根据包含了该对sa的积极评价数目除以包含该对sa的评论的总数目估计得到;同样,是估计一条包含了情感-方面sa的评论是消极评价的条件概率;df(saneg)表示包含sa的评论是消极评价的条件概率;此外, 是一条评论是积极或消极的先验概率;消费者评价为积极或消极的评论集合,正的polarityOnt(sa)值表示相应的情感-方面对为积极的,而负的polarityOnt(sa)值意味着该情感-方面对是消极的,如果极性得分为零,则认为该情感-方面对是中性的。
4.根据权利要求1所述的基于模糊本体面向产品方面的产品情感的分析方法,其特征在于,所述的面向产品方面的情感分析和产品推荐,包括:
(4a)获得一个包含了对某类产品中一些产品方面的上下文相关情感的产品模糊本体后,进行面向产品方面的情感分析和面向产品方面的产品推荐,其中包括:对于产品方面的情感分析、对于产品评论的情感分析、对于整个产品的情感分析以及产品推荐;
(4b)所述对于产品方面的情感分析,是假定有一组从关于一个产品pi的评论集合D中提取出的情感-方面对集合SA,对于一个产品pi和方面ai的方面得分asp(pi,ai)可以通过集合SA的极性值的加权平均得到,计算公式如下:
其中,首先应用产品模糊本体来确定在消费者评论中每个识别到的情感-方面对sa:=(si,ai)的情感极性强度,如果一个情感的极性不能通过产品本体得到,系统将调用一个缺省情感词典,来估计上下文无关的情感极性,如果产品本体中存在情感-方面对sa,系统将根据polarity(sa)=polarityOnt(sa)推断出该sa的极性得分;否则,SA的极性由polarity(sa)=polaritylexicon(si)得到,其中polaritylexicon(si)是在一个通用情感词典中上下文无关的情感极性分数,如果在所有的情感词典中,无法查找到sa的极性,系统给该sa赋予一个中立的极性,如果情感-方面对已被定义在产品本体中,权重ωsource=1;如果情感是定义在一个通用情感词典中,权重ωsource=0.5;
(4c)所述对于产品评论的情感分析,可以根据在该评论中的情感-方面对的极性加权平均得到,集合dsa表示在评论d中的所有情感-方面对,评论d的极性得分定义如下:
(4d)所述对于整个产品的情感分析,可以通过关于产品pi的所有评论中的情感-方面对的极性加权平均得到,集合Dsa表示在所有发现的情感-方面对,产品pi极性得分定义如下:
(4e)所述产品推荐,是根据产品的情感得分,将消费者评价较好,即polarity(pi)分值较高的产品推荐给用户。
5.根据权利要求1所述的基于模糊本体面向产品方面的产品情感的分析方法,其特征在,所述的产品模糊本体的构建包括:
(5a)定义1:一个产品模糊本体是一个三元组:Ont:=<C,RTAX,RNTAX>,其中C是一组概念,隶属函数定义了在一组概念C中的子类和父类的关系强度,而隶属函数定义的是在C中的非分类关系强度;
(5b)所述分类关系包括产品与产品类别的分类关系和产品方面之间的分类关系,所述产品和产品类别之间的分类关系是从电子商务网站提取到;所述产品方面之间的分类关系是通过所述基于潜在主题模型的产品方面挖掘得到;而方面和情感之间的非分类关系是通过所述产品本体中上下文相关情感的学习得到,所述产品方面之间的分类关系是以包含关系为基础进行描述,所述包含关系是根据概念分析方法,概念的内含程度可以应用于评估这些概念之间的包容关系;其中给定两个概念Ci和Cj的内含是,如果Ci的所有属性也属于Cj,即,那么概念Ci将被归为概念Cj的子概念。
6.基于模糊本体面向产品方面的产品情感的分析系统,其特征在于,包括:
查询处理器模块:用户选择一个产品类别或一个特定的产品以获得消费者对该产品类别或产品的评价;
社交评论检索:基于所选择的目标产品或产品类别,基于模糊本体面向产品方面的产品情感的分析系统OBPRM调用由社交网站和互联网搜索引擎提供的Web服务或API来检索消费者对于特定产品的评论,
社交评论爬取模块:OBPRM系统的专用爬虫将周期性地遍历Web网来爬取有关产品的信息、产品功能以及相关的消费者评论;
文本预处理器模块:采用StanfordLog-Linear POS来对消费者评论进行词性标注,假设基本的产品特征是由名词短语进行描述,而情感是由形容词或副词进行描述;
产品本体挖掘模块:产品本体挖掘是离线进行的,并且它是在面向产品方面的情感分析被调用之前进行的,产品模糊本体中的分类关系是利用开源代码LingPipe API来对概率主题模型进行Gibbs采样获得;
产品本体的可视化模块,采用开源的可视化框架TouchGraph对产品本体进行展示;每个产品本体通过Web本体语言进行形式化描述;
面向产品方面的情感分析模块:根据挖掘的产品本体和上下文无关的情感词典,情感分析器将确定每个出现在消费者评论中的上下文敏感情感-方面对的极性sa:=(s_i,a_i);
面向产品方面的产品推荐模块:对蕴含在消费者评论中的每个情感方面对sa:=(s_i,a_i)进行分析后,系统将根据所有检索到的某一产品的评论计算该产品的每个方面的情感倾向得分的均值,最后,特定产品类别中的所有产品都可以根据面向产品方面的情感极性分数进行分析,并进行产品推荐。
7.根据权利要求6所述基于模糊本体面向产品方面的产品情感的分析系统,其特征在于,
所述的用户查询处理器模块具体用于:通过网页客户端,用户可选择一个产品类别或者输入某一产品名称或编号,并确认提交到系统;系统解析用户请求获得待分析的目标产品;
社交评论检索模块具体用于,对于用户指定输入的产品名称或产品类别,调用搜索引擎进行检索,获得相关的资源链接;通过社交评论网站和电子商务网站,获得关于用户指定产品或产品类的评论链接。
8.根据权利要求6所述基于模糊本体面向产品方面的产品情感的分析系统,其特征在于,
社交评论爬取模块具体用于:对于一些社会媒体网站,包含了由用户提供的关于产品“优点”和“缺点”的描述,其中,包含在“优点”和“缺点”评论中的名词短语往往指的是产品方面,利用这些消费者评论的“优点”和“缺点”片段作为文档,以及网上产品说明一并爬取到本地进行存储;
所述的文本预处理器模块具体用于:去除停词;对词利用Porter算法进行词干化提取原型;利用StanfordLog-Linear POS来对消费者评论进行词性标注。
9.根据权利要求6所述基于模糊本体面向产品方面的产品情感的分析系统,其特征在于,基于潜在主题模型的产品方面挖掘和产品本体中上下文相关情感的学习,具体方法为:
(9a)所述基于潜在主题模型的产品方面挖掘,利用发布在社交网站和电子商务网站上的产品说明和消费者评论,采用基于LDA主题建模方法来同时提取隐性的产品方面和显性的产品方面,并利用概率语言模型来生成在产品本体中产品方面之间的包含关系;
(9b)所述面向产品方面的情感分析,通过对一组包含用户打分的消费者评论进行离线学习,以建立情感和产品方面之间的非分类关系,即挖掘情感-方面关联度Ass(si,ai)以及预测方面ai的上下文相关情感si的极性,其中,评论中与产品方面相关联的形容词或副词,被提取作为候选情感。
10.根据权利要求6所述基于模糊本体面向产品方面的产品情感的分析系统,其特征在于,所述的面向产品方面的情感分析模块具体用于:
根据提取到的产品模糊本体,进行对于产品方面的情感分析、对于产品评论的情感分析及对于整个产品的情感分析,其具体为:
(10a)对于产品方面的情感分析,假定有一组从关于一个产品pi的评论集合D中提取出的情感-方面对集合SA,对于一个产品pi和方面ai的方面得分asp(pi,ai)可以通过集合SA的极性值的加权平均得到,计算如公式如下:
其中,首先应用产品模糊本体来确定在消费者评论中每个识别到的情感-方面对sa:=(si,ai)的情感极性强度,如果一个情感的极性不能通过产品本体得到,系统将调用一个缺省情感词典,来估计上下文无关的情感极性,如果产品本体中存在情感-方面对sa,系统将根据polarity(sa)=polarityOnt(sa)推断出该sa的极性得分;否则,SA的极性由polarity(sa)=polaritylexicon(si)得到,其中polaritylexicon(si)是在一个通用情感词典中上下文无关的情感极性分数,如果在所有的情感词典中,无法查找到sa的极性,系统给该sa赋予一个中立的极性,如果情感-方面对已被定义在产品本体中,权重ωsource=1;如果情感是定义在一个通用情感词典中,权重ωsource=0.5;
(10b)对于产品评论的情感分析,根据在该评论中的情感-方面对的极性加权平均得到,集合dsa表示在评论d中的所有情感-方面对,评论d的极性得分可由下述公式计算得到:
(10c)对于整个产品的情感分析,通过关于产品pi的所有评论中的情感-方面对的极性加权平均得到,合Dsa表示在所有发现的情感-方面对,产品pi极性得分可由下述公式计算得到:
产品pi极性得分定义如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410796468.6A CN104484815B (zh) | 2014-12-18 | 2014-12-18 | 基于模糊本体面向产品方面的情感分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410796468.6A CN104484815B (zh) | 2014-12-18 | 2014-12-18 | 基于模糊本体面向产品方面的情感分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104484815A true CN104484815A (zh) | 2015-04-01 |
CN104484815B CN104484815B (zh) | 2017-11-21 |
Family
ID=52759355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410796468.6A Active CN104484815B (zh) | 2014-12-18 | 2014-12-18 | 基于模糊本体面向产品方面的情感分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104484815B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104978665A (zh) * | 2015-06-16 | 2015-10-14 | 北京畅游天下网络技术有限公司 | 一种品牌评估方法和装置 |
CN105069103A (zh) * | 2015-05-07 | 2015-11-18 | Tcl集团股份有限公司 | App搜索引擎利用用户评论的方法及系统 |
CN105373887A (zh) * | 2015-11-12 | 2016-03-02 | 腾讯科技(深圳)有限公司 | 一种终端应用的质量评估方法和系统 |
CN105512333A (zh) * | 2015-12-28 | 2016-04-20 | 上海电机学院 | 基于情感倾向的产品评论主题搜索方法 |
CN106021562A (zh) * | 2016-05-31 | 2016-10-12 | 北京京拍档科技有限公司 | 用于电商平台的基于主题相关的推荐方法 |
CN107710192A (zh) * | 2015-05-31 | 2018-02-16 | 微软技术许可有限责任公司 | 用于会话响应的自动评价的度量 |
CN107944911A (zh) * | 2017-11-18 | 2018-04-20 | 电子科技大学 | 一种基于文本分析的推荐系统的推荐方法 |
CN108228867A (zh) * | 2018-01-15 | 2018-06-29 | 武汉大学 | 一种基于观点增强的主题协同过滤推荐方法 |
CN108269169A (zh) * | 2017-12-29 | 2018-07-10 | 武汉璞华大数据技术有限公司 | 一种导购方法及系统 |
CN108519993A (zh) * | 2018-03-02 | 2018-09-11 | 华南理工大学 | 基于多数据流计算的社交网络热点事件检测方法 |
CN108733748A (zh) * | 2018-04-04 | 2018-11-02 | 浙江大学城市学院 | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 |
CN108920545A (zh) * | 2018-06-13 | 2018-11-30 | 四川大学 | 基于扩展的情感词典和卡方模型的中文情感特征选择方法 |
CN108932637A (zh) * | 2018-07-10 | 2018-12-04 | 北京邮电大学 | 一种方面挖掘模型的训练方法、装置及电子设备 |
CN109934644A (zh) * | 2017-12-15 | 2019-06-25 | 西安比卓电子科技有限公司 | 一种信息创建方法 |
CN110070410A (zh) * | 2019-03-07 | 2019-07-30 | 特斯联(北京)科技有限公司 | 一种基于大数据的人口社交分析方法及系统 |
CN110442717A (zh) * | 2019-08-08 | 2019-11-12 | 深巨科技(北京)有限公司 | 一种适应性情感分析系统及其方法 |
CN113553399A (zh) * | 2021-07-16 | 2021-10-26 | 山东建筑大学 | 基于模糊语言近似概念格的文本搜索方法及系统 |
CN114792246A (zh) * | 2022-03-02 | 2022-07-26 | 西安邮电大学 | 一种基于主题集成聚类的产品典型性特质挖掘方法及系统 |
US11562592B2 (en) | 2019-01-28 | 2023-01-24 | International Business Machines Corporation | Document retrieval through assertion analysis on entities and document fragments |
CN116501840A (zh) * | 2023-06-26 | 2023-07-28 | 北京常乐我净科技有限公司 | 一种用于获客营销的nlp智能分析方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034866B (zh) * | 2018-06-20 | 2021-08-03 | 天津大学 | 一种基于购物行为的潜在好友判断方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833560A (zh) * | 2010-02-02 | 2010-09-15 | 哈尔滨工业大学 | 基于互联网的厂商口碑自动排序系统 |
-
2014
- 2014-12-18 CN CN201410796468.6A patent/CN104484815B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833560A (zh) * | 2010-02-02 | 2010-09-15 | 哈尔滨工业大学 | 基于互联网的厂商口碑自动排序系统 |
Non-Patent Citations (4)
Title |
---|
尹裴 等: ""中文产品评论的"特征观点对"识别:基于领域本体的建模方法"", 《系统工程》 * |
李进华 等: ""基于统计语言模型的信息检索演进探析"", 《图书情报知识》 * |
王洪伟 等: ""在线评论的情感极性分类研究综述"", 《情报科学》 * |
郭冲 等: ""面向细粒度意见挖掘的情感本体树及自动构建"", 《中文信息学报》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069103A (zh) * | 2015-05-07 | 2015-11-18 | Tcl集团股份有限公司 | App搜索引擎利用用户评论的方法及系统 |
CN105069103B (zh) * | 2015-05-07 | 2021-04-13 | Tcl科技集团股份有限公司 | App搜索引擎利用用户评论的方法及系统 |
CN107710192A (zh) * | 2015-05-31 | 2018-02-16 | 微软技术许可有限责任公司 | 用于会话响应的自动评价的度量 |
CN104978665A (zh) * | 2015-06-16 | 2015-10-14 | 北京畅游天下网络技术有限公司 | 一种品牌评估方法和装置 |
CN105373887A (zh) * | 2015-11-12 | 2016-03-02 | 腾讯科技(深圳)有限公司 | 一种终端应用的质量评估方法和系统 |
CN105512333A (zh) * | 2015-12-28 | 2016-04-20 | 上海电机学院 | 基于情感倾向的产品评论主题搜索方法 |
CN106021562B (zh) * | 2016-05-31 | 2019-05-24 | 北京京拍档科技有限公司 | 用于电商平台的基于主题相关的推荐方法 |
CN106021562A (zh) * | 2016-05-31 | 2016-10-12 | 北京京拍档科技有限公司 | 用于电商平台的基于主题相关的推荐方法 |
CN107944911A (zh) * | 2017-11-18 | 2018-04-20 | 电子科技大学 | 一种基于文本分析的推荐系统的推荐方法 |
CN107944911B (zh) * | 2017-11-18 | 2021-12-03 | 电子科技大学 | 一种基于文本分析的推荐系统的推荐方法 |
CN109934644A (zh) * | 2017-12-15 | 2019-06-25 | 西安比卓电子科技有限公司 | 一种信息创建方法 |
CN108269169A (zh) * | 2017-12-29 | 2018-07-10 | 武汉璞华大数据技术有限公司 | 一种导购方法及系统 |
CN108228867A (zh) * | 2018-01-15 | 2018-06-29 | 武汉大学 | 一种基于观点增强的主题协同过滤推荐方法 |
CN108519993A (zh) * | 2018-03-02 | 2018-09-11 | 华南理工大学 | 基于多数据流计算的社交网络热点事件检测方法 |
CN108733748B (zh) * | 2018-04-04 | 2022-01-14 | 浙江大学城市学院 | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 |
CN108733748A (zh) * | 2018-04-04 | 2018-11-02 | 浙江大学城市学院 | 一种基于商品评论舆情的跨境产品质量风险模糊预测方法 |
CN108920545A (zh) * | 2018-06-13 | 2018-11-30 | 四川大学 | 基于扩展的情感词典和卡方模型的中文情感特征选择方法 |
CN108932637B (zh) * | 2018-07-10 | 2020-09-25 | 北京邮电大学 | 一种方面挖掘模型的训练方法、装置及电子设备 |
CN108932637A (zh) * | 2018-07-10 | 2018-12-04 | 北京邮电大学 | 一种方面挖掘模型的训练方法、装置及电子设备 |
US11562592B2 (en) | 2019-01-28 | 2023-01-24 | International Business Machines Corporation | Document retrieval through assertion analysis on entities and document fragments |
CN110070410A (zh) * | 2019-03-07 | 2019-07-30 | 特斯联(北京)科技有限公司 | 一种基于大数据的人口社交分析方法及系统 |
CN110442717A (zh) * | 2019-08-08 | 2019-11-12 | 深巨科技(北京)有限公司 | 一种适应性情感分析系统及其方法 |
CN113553399A (zh) * | 2021-07-16 | 2021-10-26 | 山东建筑大学 | 基于模糊语言近似概念格的文本搜索方法及系统 |
CN114792246A (zh) * | 2022-03-02 | 2022-07-26 | 西安邮电大学 | 一种基于主题集成聚类的产品典型性特质挖掘方法及系统 |
CN116501840A (zh) * | 2023-06-26 | 2023-07-28 | 北京常乐我净科技有限公司 | 一种用于获客营销的nlp智能分析方法 |
CN116501840B (zh) * | 2023-06-26 | 2023-09-01 | 北京常乐我净科技有限公司 | 一种用于获客营销的nlp智能分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104484815B (zh) | 2017-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104484815A (zh) | 基于模糊本体面向产品方面的情感分析方法及系统 | |
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
US11347803B2 (en) | Systems and methods for adaptive question answering | |
Kamal et al. | Cat-bigru: Convolution and attention with bi-directional gated recurrent unit for self-deprecating sarcasm detection | |
CN113378565B (zh) | 多源数据融合的事件分析方法、装置、设备及存储介质 | |
EP3855320A1 (en) | Systems and methods for adaptive question answering related applications | |
CN111344695B (zh) | 促进特定于域和客户端的应用程序接口推荐 | |
Ahanin et al. | A multi-label emoji classification method using balanced pointwise mutual information-based feature selection | |
Rafail et al. | Natural language processing | |
Zhang et al. | A hybrid neural network approach for fine-grained emotion classification and computing | |
Fares et al. | Difficulties and improvements to graph-based lexical sentiment analysis using LISA | |
Dangi et al. | An efficient model for sentiment analysis using artificial rabbits optimized vector functional link network | |
Khatter et al. | Content curation algorithm on blog posts using hybrid computing | |
Kabakus | A novel COVID‐19 sentiment analysis in Turkish based on the combination of convolutional neural network and bidirectional long‐short term memory on Twitter | |
CN107239509A (zh) | 面向短文本的单主题挖掘方法及系统 | |
Lee et al. | Detecting suicidality with a contextual graph neural network | |
Gnanavel et al. | Rapid Text Retrieval and Analysis Supporting Latent Dirichlet Allocation Based on Probabilistic Models | |
CN117033654A (zh) | 一种面向科技迷雾识别的科技事件图谱构建方法 | |
Soni et al. | Deep learning, wordnet, and spacy based hybrid method for detection of implicit aspects for sentiment analysis | |
Kaur | Analyzing twitter feeds to facilitate crises informatics and disaster response during mass emergencies | |
Kathiria et al. | Trend analysis and forecasting of publication activities by Indian computer science researchers during the period of 2010–23 | |
Naik et al. | An adaptable scheme to enhance the sentiment classification of Telugu language | |
Wu et al. | Typical opinions mining based on Douban film comments in animated movies | |
Manikandan et al. | A content recommendation system for e-learning using enhanced Harris Hawks Optimization, Cuckoo search and DSSM | |
CN109254993A (zh) | 一种基于文本的性格数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |