CN104484815A

CN104484815A - 基于模糊本体面向产品方面的情感分析方法及系统

Info

Publication number: CN104484815A
Application number: CN201410796468.6A
Authority: CN
Inventors: 刘耀强
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2015-04-01
Anticipated expiration: 2034-12-18
Also published as: CN104484815B

Abstract

本发明公开了一种基于模糊本体面向产品方面的情感分析方法及系统，方法包括：产品模糊本体、基于潜在主题模型的产品方面挖掘、产品本体中上下文相关情感的学习、和面向产品方面的情感分析和产品推荐；系统包括：查询处理器模块、社交评论检索模块、社交评论爬取模块、文本预处理器模块、产品本体挖掘模块、面向产品方面的情感分析模块和面向产品方面的产品推荐模块。本发明可以提取出描述明确、方面之间区别清晰的商品各个方面；另外，本发明可以充分利用社交媒体网站上海量的消费者评论来进行细粒度的市场反馈信息的提取，从而，帮助企业应用本发明中公开的社会分析方法来获取网络中的集体社会智能来提升他们的产品设计和营销策略。

Description

基于模糊本体面向产品方面的情感分析方法及系统

技术领域

本发明涉及产品情感分析的研究领域，特别涉及一种基于模糊本体面向产品方面的情感分析方法及系统。

背景技术

在Web 2.0时代，每天都有大量由用户贡献的数据(例如，消费者对于产品的评论)发布到各个社交媒体(例如，epinions.com和facebook.com)和电子商务网站(例如，amazon.com)上。然而，信息过载问题使得企业或个人消费者在获取蕴含在这些网上评论中的社会智能时变得极其困难。用户提供数据(例如，消费者的评论)在社交网络中的爆炸式增长已经推动了社会分析工具的发展，并以此来自动地提取、分析和总结用户生成的内容。其中，情感分析(也称为意见挖掘，意见分析，或主观性分析)是一种重要的社会分析技术。尽管消费者发布到社交媒体网站中的意见具有主观性，从消费者的角度看，这些意见通常比从传统的信息来源更可信、更值得信赖。因此，在企业中应用社会分析方法来提取蕴含在网上评论中的市场情报具有巨大的发展潜力，有助于其加强产品设计和营销策略。在另一方面，在社会媒体网站中持续发展的集体社会智能，也有利于个人消费者在日常生活中进行比较购物。

然而，设计有效的社会智能分析工具面临着几个研究挑战。首先，评论大多都是非结构化的，其撰写形式自由。这使得难以对在消费者评论中提及的产品及其特征进行精确的识别。其次，传统的情感分析方法大多是上下文无关的。然而，蕴含在消费者评论中的情绪往往依赖于上下文的。例如，虽然在表达“酒店的房间这么小”中的“小”意味着一种贬义的情感(极性)，同样的词在另一条评论中，例如，“小”在“在商务旅行中带一个小笔记本是如此方便”却表达了褒义的情感。另一个例子是，“不可预知”在有关电脑的上下文，如：“不可预知响应时间”中有负面的情感。然而，同样的词在有关小说的上下文中，如：“不可预知的情节”中却表达了一种积极的情感。事实上，“不可预知”在一些知名的情感字典中被定义为强烈的负面情绪词，如：OpinionFinder和SentiWordNet。因此，单独使用情感词典很难有效地对消费者评论进行情感分析并提取社会智能。最后，用来描述商品特征的词语之间存在的语义关联是社会智能提取中的另一项研究挑战。在消费者评论的上下文中，产品特征有时被称为“方面”。然而，“方面”是一个更具概况性的术语，指的是某个对象的显性的(低级)和隐性的(高级的)的特征。

最新的研究表明本体论方法有利于提升细粒度上下文敏感的情感分析的效果。然而，目前还没有探讨关于自动的本体学习方法来进行面向产品方面的情感分析研究工作。因此，本发明旨在填补这一研究的空白。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于模糊本体面向产品方面的情感分析方法，方法通过构建了一个概率生成模型，利用包含消费者情感的评论上下文来自动地学习产品模糊本体，以加强上下文敏感的、面向产品方面的情感分析。

本发明的另一目的在于，提供一种基于模糊本体面向产品方面的产品情感的分析系统。

为了达到上述第一目的，本发明采用以下技术方案：

基于模糊本体面向产品方面的产品情感的分析方法，包括下述步骤：

(1)产品模糊本体的构建，运用模糊集和模糊关系来刻画产品方面的分类关系以及上下文敏感的情感预测时的不确定性；

(2)基于潜在主题模型的产品方面挖掘，利用概率生成模型，从包含了产品的描述和消费者评论的语料库D中提取产品方面，并通过概率语言模型获得方面之间的包含关系，以生成产品模糊本体中的方面分类关系；

(3)产品本体中上下文相关情感的学习，通过对一组包含用户打分的消费者评论进行离线学习，以建立情感和产品方面之间的非分类关系；

(4)面向产品方面的情感分析和产品推荐，基于某类产品的产品模糊本体，进行面向产品方面的情感分析和面向产品方面的产品推荐。

优选的，步骤(2)中，所述基于潜在主题模型的产品方面挖掘具体为：

(2a)采用基于LDA主题建模方法来同时提取隐性的产品方面和显性的产品方面，并利用概率语言模型来生成在产品本体中产品方面之间的包含关系；

(2b)所述基于LDA的主题模型中，每个未标记训练语料库D中的文档d∈D，由一个多项分布θ来进行刻画，该分布由一个狄利克雷先验α控制，一个潜在主题Z是根据多项分布θ选出，Z是产品的某一方面，对于给定的一个主题Z，一个词t根据多项分布φ生成，该分布由狄利克雷先验β控制，为了推断条件概率Pr(t_i|z_i)，即一个潜在的主题z_i中出现词t_i的概率，本发明通过Gibbs采样来计算的φ和θ的近似值，所述Gibbs采样中，φ和θ的近似值和可以以下公式计算得到；

\overset{&OverBar;}{θ} = \frac{C_{np}^{ZD} + α}{Σ_{n^{'} &Element; Z} C_{n^{'} p}^{ZD} + | Z | α} - - - (1)

\overset{&OverBar;}{φ} = \frac{C_{mn}^{VZ} + β}{Σ_{m^{'} &Element; V} C_{m^{'} n}^{VZ} + | V | β} - - - (2)

其中，是一个计数矩阵，记录了词t_i＝m被分配到潜在主题z_i＝n的次数，该数目不包括当前词的数目，V是用来组成D的一组词汇的集合，是一个计数矩阵，记录了隐性主题z_i＝n被分配到文档d_i＝p的次数，该数目不包括当前文档的数目，用于估计词t_i在给定潜在主题z_i的概率，而用于估计主题z_i在给定文档d_i的概率，Gibbs采样的计算复杂度为O(I.|Z|.d_avg.|D|)，其中I是Gibbs迭代次数；d_avg是语料库D的平均文档长度，而|Z|是预先定义的潜在主题数目；

(2c)所述预先定义的产品方面数目|Z|，是通过计算困惑度来估计|Z|，所述困惑度是用于评估概率模型的预测能力；其中一个较低的困惑度得分意味着模型拥有较好的泛化性能；在不同主题数目的情况下调用Gibbs采样算法后，选择在数据集中取得较小困惑度得分的一个最小主题数目作为|Z|；

(2d)所述产品方面，利用信息量最丰富主题的一个子集以代表产品方面，其中Shannon信息量衡量标准被用来选择最具信息量的主题top_z来表示产品方面；

(2e)所述方面之间的包含关系，是通过一个一元概率语言模型得到，每个主题分布φ都表示一个概念c_i，即主题分布表示了c_i的内含元素，如果语言模型生成语言模型那么，根据基于包含关系理论，认为c_j为父概念c_i的一个候选子概念；如果和的生成概率的差值之间产生概率大于阈值ω_sub，则认为c_j为父概念c_i的子概念；

(2f)所述一元概率语言模型计算如下：

\Pr (φ_{c_{i}} | φ_{c_{j}}) = \underset{t_{i} &Element; c_{i}}{Π} \Pr (t_{i} | φ_{c_{j}}) - - - (3)

\Pr (t_{i} | φ_{c_{j}}) = (1 - λ) ((1 - μ) \Pr_{ML} (t_{i} | φ_{c_{j}}) + {μPr}_{INF} (t_{i} | φ_{c_{j}})) + {λPr}_{ML} (t_{i} | φ_{D}) - - - (4)

\Pr_{ML} (t_{i} | φ_{c_{j}}) = \frac{\Pr (t_{i} | z_{j})}{Σ_{l = 1}^{{top}_{t}} \Pr (t_{l} | z_{j})} - - - (5)

\Pr_{ML} (t_{i} | φ_{D}) = \frac{tf (t_{i})}{| D |} - - - (6)

\Pr_{INF} (t_{i} | φ_{c_{j}}) = \frac{Σ_{t_{i}, t_{j} &Element; R} \Pr (t_{j} &RightArrow; t_{i}) \Pr_{ML} (t_{j} | φ_{c_{j}})}{| R |} - - - (7)

其中，是概念c_i通过基于LDA的主题建模获得的语言模型，通过Jelinek-Mercer平滑，语言模型生成语言模型的概率可以根据最大似然模型以及整个产品描述集合的最大似然模型Pr_ML(t_i|φ_D)得到，λ，μ是Jelinek-Mercer平滑参数，取值范围在[0.1,0.7]内；

是一个推理语言模型，Pr(t_j→t_i)表示t_j和t_i具有关联关系的概率，其值是由上下文相关文本挖掘方法推理得到，最后，对于概念c_i和c_j之间的模糊分类关系隶属函数定义如下：

μ_{R_{TAX}} (c_{i}, c_{j}) = normal (\frac{\Pr (φ_{c_{i}} | φ_{c_{j}}) - \Pr (φ_{c_{j}} | φ_{c_{i}})}{\Pr (φ_{c_{j}} | φ_{c_{i}})}) - - - (8)

其中，是一个线性归一化函数,Max和Min是集合集中的最大和最小值；

(2g)所述产品本体，顶层方面和每个子方面之间的包容度可以通过公式(3)-(8)估计得到；然而，顶层的方面节点是通过对一个产品类的生产说明进行最大似然估计来生成顶层方面的话题分布φ_top，另一方面，包容程度是根据基本方面的主题分布φ_top＝Pr(t_i|z_j)得到；对于某个基本方面t_i，如果t_i与c_j的归属度可以由模糊隶属函数

μ_{R_{TAX}} (c_{j}, t_{i}) = normal (\frac{\Pr (t_{i} | z_{j})}{Σ_{l = 1}^{{top}_{t}} \Pr (t_{l} | z_{j})})

得到。

优选的，所述的产品本体中上下文相关情感的学习，包括：

(3a)通过对一组包含用户打分的消费者评论进行离线学习，建立情感和产品方面之间的非分类关系，即挖掘情感-方面关联度Ass(s_i，a_i)以及预测方面a_i的上下文相关情感s_i的极性，其中，评论中与产品方面相关联的形容词或副词被提取作为候选情感；

(3b)所述情感-方面关联度Ass(s_i，a_i)，是基于应用于模糊本体挖掘领域的互信息作为衡量指标，其定义如下：

\begin{matrix} Ass (s_{i}, a_{i}) = ω_{ass} \times [\Pr (t_{i}, t_{j}) \log_{2} (\frac{\Pr (t_{i}, t_{j}) + 1}{\Pr (t_{i}) \Pr (t_{j})}) + \Pr (&Not; t_{i}, &Not; t_{j}) \log_{2} (\frac{\Pr (&Not; t_{i}, &Not; t_{j}) + 1}{\Pr (&Not; t_{i}) \Pr (&Not; t_{j})})] \\ - (1 - ω_{ass}) [\Pr (t_{i}, &Not; t_{j}) \log_{2} (\frac{\Pr (t_{i}, &Not; t_{j}) + 1}{\Pr (t_{i}) \Pr (&Not; t_{j})}) \\ + \Pr (&Not; t_{i}, t_{j}) \log_{2} (\frac{\Pr (&Not; t_{i}, t_{j}) + 1}{\Pr (&Not; t_{i}) \Pr (t_{j})}) \end{matrix} - - - (9)

其中，Ass(s_i，a_i)表示情感s_i和方面a_i之间的相关程度，权重因子ω_ass∈[0.5，0.7]是用来控制两种因素的相对重要性，Pr(t_i，t_j)是两个词出现在一个文本窗口的联合概率，而Pr(t_i)是一个词t_i出现在文本窗口的概率；其中|w_t|是包含t的窗口的数目，而|w|表示构建整个语料库的窗口的数目，同样，Pr(t_i，t_j)是同时含有词t_i和t_j的窗口的数目与窗口的总数的商；

(3c)所述方面a_i的上下文相关情感s_i的极性，是由非分类关系R_NTAX(s_i，a_i)的模糊隶属函数来表示，这一关系非分类关系包含在产品本体Ont：＝＜C，R_TAX，R_NTAX＞中，通过大量包含打分的消费者评论来为每个情感方面对(s_i，a_i)学习上下文相关的情感极性，其中情感极性包括正面、负面和中性三种，正面，负面的和中性的信息中对应的正面，负面的和中性的关键字，是通过基于Kullback-Leibler距离散度的单词发散度得到；

(3d)所述单词发散度，是将涉及到正面的、负面的事件的条件概率进行相减，以估算从消费者发表的评论中每个情感-方面对sa：＝(s_i，a_i)的极性强弱；其中，社交网站和电子商务网站中的打分4分和5分认为是积极的，而1分和2分的评分被视为消极的；中档评级3取为中性，WD和sa的情感极性定义如下：

\begin{matrix} WD (sa) = \tanh [\frac{df (sa)}{ω_{pos}} \times \Pr (pos | sa) \times \log_{2} \frac{\Pr (pos | sa)}{\Pr (pos)} - \frac{df (sa)}{ω_{neg}} \times \Pr (neg | sa) \\ \times \log_{2} \frac{\Pr (neg | sa)}{\Pr (neg)}] \end{matrix} - - - (10)

{polarity}_{Ont} (sa) = \{\begin{matrix} \frac{WD (sa) - ω_{wd}}{1 - ω_{wd}}, & ifWD (sa) > ω_{wd} \\ - (\frac{| WD (sa) | - ω_{wd}}{1 - ω_{wd}}), & ifWD (sa) < - ω_{wd} \\ 0, & otherwise \end{matrix} - - - (11)

其中，参数ω_pos和ω_neg分别控制积极和消极极性因素的学习率，其值可以通过实验结果确定，双曲正切函数tanh确保获得的极性分数落在单位区间内，是估计一条包含了情感-方面sa：＝(s_i，a_i)的评论是积极评价的条件概率；它是根据包含了该对sa的积极评价数目除以包含该对sa的评论的总数目估计得到；同样，是估计一条包含了情感-方面sa的评论是消极评价的条件概率；df(sa_neg)表示包含sa的评论是消极评价的条件概率；此外，

\Pr (pos) = \frac{| D_{rev}^{+} |}{| D_{rev}^{+} | + | D_{rev}^{-} |} (\Pr (neg) = \frac{| D_{rev}^{-} |}{| D_{rev}^{+} | + | D_{rev}^{-} |})

是一条评论是积极或消极的先验概率；消费者评价为积极或消极的评论集合，正的polarity_Ont(sa)值表示相应的情感-方面对为积极的，而负的polarity_Ont(sa)值意味着该情感-方面对是消极的，如果极性得分为零，则认为该情感-方面对是中性的。

优选的，所述的面向产品方面的情感分析和产品推荐，包括：

(4a)获得一个包含了对某类产品中一些产品方面的上下文相关情感的产品模糊本体后，进行面向产品方面的情感分析和面向产品方面的产品推荐，其中包括：对于产品方面的情感分析、对于产品评论的情感分析、对于整个产品的情感分析以及产品推荐；

(4b)所述对于产品方面的情感分析，是假定有一组从关于一个产品p_i的评论集合D中提取出的情感-方面对集合SA，对于一个产品p_i和方面a_i的方面得分asp(p_o，a_i)可以通过集合SA的极性值的加权平均得到，计算公式如下：

asp (p_{i}, a_{i}) = \frac{Σ_{sa &Element; SA} ω_{source} \times polarity (sa)}{| SA |} - - - (12)

其中，首先应用产品模糊本体来确定在消费者评论中每个识别到的情感-方面对sa：＝(s_i，a_i)的情感极性强度，如果一个情感的极性不能通过产品本体得到，系统将调用一个缺省情感词典，来估计上下文无关的情感极性，如果产品本体中存在情感-方面对sa，系统将根据polarity(sa)＝polarity_Ont(sa)推断出该sa的极性得分；否则，SA的极性由polarity(sa)＝polarity_lexicon(s_i)得到，其中polarity_lexicon(s_i)是在一个通用情感词典中上下文无关的情感极性分数，如果在所有的情感词典中，无法查找到sa的极性，系统给该sa赋予一个中立的极性，如果情感-方面对已被定义在产品本体中，权重ω_source＝1；如果情感是定义在一个通用情感词典中，权重ω_source＝0.5；

(4c)所述对于产品评论的情感分析，可以根据在该评论中的情感-方面对的极性加权平均得到，集合d_sa表示在评论d中的所有情感-方面对，评论d的极性得分定义如下：

polarity (d) = \frac{Σ_{sa &Element; d} ω_{source} \times polarity (sa)}{| d_{sa} |} - - - (13)

(4d)所述对于整个产品的情感分析，可以通过关于产品p_i的所有评论中的情感-方面对的极性加权平均得到，集合D_sa表示在所有发现的情感-方面对，产品p_i极性得分定义如下：

polarity (p_{i}) = \frac{Σ_{sa &Element; D_{p_{i}}} ω_{source} \times polarity (sa)}{| D_{sa} |} - - - (14)

(4e)所述产品推荐，是根据产品的情感得分，将消费者评价较好，即polarity(p_i)分值较高的产品推荐给用户。

优选的，所述的产品模糊本体的构建包括：

(5a)定义1：一个产品模糊本体是一个三元组：Ont：＝＜C，R_TAX，R_NTAX＞，其中C是一组概念，隶属函数定义了在一组概念C中的子类和父类的关系强度，而隶属函数定义的是在C中的非分类关系强度；

(5b)所述分类关系包括产品与产品类别的分类关系和产品方面之间的分类关系，所述产品和产品类别之间的分类关系是从电子商务网站提取到；所述产品方面之间的分类关系是通过所述基于潜在主题模型的产品方面挖掘得到；而方面和情感之间的非分类关系是通过所述产品本体中上下文相关情感的学习得到，所述产品方面之间的分类关系是以包含关系为基础进行描述，所述包含关系是根据概念分析方法，概念的内含程度可以应用于评估这些概念之间的包容关系；其中给定两个概念C_i和C_j的内含是，如果C_i的所有属性也属于C_J，即，那么概念C_i将被归为概念C_j的子概念。

为了达到上述第二目的，本发明采用以下技术方案：

基于模糊本体面向产品方面的产品情感的分析系统，包括：

查询处理器模块：用户选择一个产品类别或一个特定的产品以获得消费者对该产品类别或产品的评价；

社交评论检索：基于所选择的目标产品或产品类别，基于模糊本体面向产品方面的产品情感的分析系统OBPRM调用由社交网站和互联网搜索引擎提供的Web服务或API来检索消费者对于特定产品的评论，

社交评论爬取模块：OBPRM系统的专用爬虫将周期性地遍历Web网来爬取有关产品的信息、产品功能以及相关的消费者评论；

文本预处理器模块：采用StanfordLog-Linear POS来对消费者评论进行词性标注，假设基本的产品特征是由名词短语进行描述，而情感是由形容词或副词进行描述；

产品本体挖掘模块：产品本体挖掘是离线进行的，并且它是在面向产品方面的情感分析被调用之前进行的，产品模糊本体中的分类关系是利用开源代码LingPipe API来对概率主题模型进行Gibbs采样获得；

产品本体的可视化模块，采用开源的可视化框架TouchGraph对产品本体进行展示；每个产品本体通过Web本体语言进行形式化描述；

面向产品方面的情感分析模块：根据挖掘的产品本体和上下文无关的情感词典，情感分析器将确定每个出现在消费者评论中的上下文敏感情感-方面对的极性sa：＝(s_i,a_i)；

面向产品方面的产品推荐模块：对蕴含在消费者评论中的每个情感方面对sa：＝(s_i,a_i)进行分析后，系统将根据所有检索到的某一产品的评论计算该产品的每个方面的情感倾向得分的均值，最后，特定产品类别中的所有产品都可以根据面向产品方面的情感极性分数进行分析，并进行产品推荐。

优选的，所述的用户查询处理器模块具体用于：通过网页客户端，用户可选择一个产品类别或者输入某一产品名称或编号，并确认提交到系统；系统解析用户请求获得待分析的目标产品；

社交评论检索模块具体用于，对于用户指定输入的产品名称或产品类别，调用搜索引擎，进行检索获得相关的资源链接；通过社交评论网站和电子商务网站，获得关于用户指定产品或产品类的评论链接。

优选的，社交评论爬取模块具体用于：对于一些社会媒体网站，包含了由用户提供的关于产品“优点”和“缺点”的描述，其中，包含在“优点”和“缺点”评论中的名词短语往往指的是产品方面，利用这些消费者评论的“优点”和“缺点”片段作为文档，以及网上产品说明一并爬取到本地进行存储；

所述的文本预处理器模块具体用于：去除停词；对词利用Porter算法进行词干化提取原型；利用StanfordLog-Linear POS来对消费者评论进行词性标注。

优选的，基于潜在主题模型的产品方面挖掘和产品本体中上下文相关情感的学习，具体方法为：

(9a)所述基于潜在主题模型的产品方面挖掘，利用发布在社交网站和电子商务网站上的产品说明和消费者评论，采用基于LDA主题建模方法来同时提取隐性的产品方面和显性的产品方面，并利用概率语言模型来生成在产品本体中产品方面之间的包含关系；

(9b)所述面向产品方面的情感分析，通过对一组包含用户打分的消费者评论进行离线学习，以建立情感和产品方面之间的非分类关系，即挖掘情感-方面关联度Ass(s_i，a_i)以及预测方面a_i的上下文相关情感s_i的极性,其中，评论中与产品方面相关联的形容词或副词，被提取作为候选情感。

优选的，所述的面向产品方面的情感分析模块具体用于：

根据提取到的产品模糊本体，进行对于产品方面的情感分析、对于产品评论的情感分析及对于整个产品的情感分析，其具体为：

(10a)对于产品方面的情感分析，假定有一组从关于一个产品p_i的评论集合D中提取出的情感-方面对集合SA，对于一个产品p_i和方面a_i的方面得分asp(p_i，a_i)可以通过集合SA的极性值的加权平均得到，计算如公式如下：

asp (p_{i}, a_{i}) = \frac{Σ_{sa &Element; SA} ω_{source} \times polarity (sa)}{| SA |};

(10b)对于产品评论的情感分析，根据在该评论中的情感-方面对的极性加权平均得到，集合d_sa表示在评论d中的所有情感-方面对，评论d的极性得分可由下述公式计算得到：

polarity (d) = \frac{Σ_{sa &Element; d} ω_{source} \times polarity (sa)}{| d_{sa} |};

(10c)对于整个产品的情感分析，通过关于产品p_i的所有评论中的情感-方面对的极性加权平均得到，合D_sa表示在所有发现的情感-方面对，产品p_i极性得分可由下述公式计算得到：

产品p_i极性得分定义如下：

polarity (p_{i}) = \frac{Σ_{sa &Element; D_{p_{i}}} ω_{source} \times polarity (sa)}{| D_{sa} |} .

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明公开了一种新的社会智能分析方法，其特点在于通过从发布在各个社交媒体(例如，epinions.com和facebook.com)和电子商务网站(例如，amazon.com)上的产品评论中提取消费者对产品的评价信息，以获得大众对产品的购买、使用反馈。与现有技术不同，本发明不仅对电商网站上的商品描述及用户评论信息进行分析，还通过搜索引擎，如Google、Baidu等，对用户输入关键词进行检索，获得社交媒体中相关资源链接，以帮助用户快速、有效、全面地了解某类产品或具体某个产品的口碑。

2、本发明还公开了一种新的产品模糊本体挖掘算法，与现有技术不同，本发明采用模糊本体来对产品的分类信息、产品各个方面及其情感信息进行描述。通过规范的、概念化的本体来描述各个概念以及它们之间的关系，能够对无结构信息进行以清晰、符合人类认知的方式进行存储和描述。另外，与传统本体描述方式只能表达概念之间是否存在包含关系不同，模糊本体能够对各个概念之间的隶属关系进行更富有表达力的描述，即能表现出各个概念之间的包含程度。

3、与现有的人工构建本体方法不同，本发明公开了一种基于主题模型和概率语言模型的自动化的模糊本体构建方法。首先，该方法通过基于LDA的主题建模方法对评论进行语义分析，以提取出产品的显性和隐性方面以及与这些方面相关的情感。然后，通过概率语言模型对各个不同粒度的产品方面进行包含关系分析，以构建产品模糊本体。该自动模糊本体构建方法可为基于本体的产品评论分析系统在本体构建方面节省大量时间和人工干预，以支持对产品进行自动化的面向不同层次方面的情感分析。

4、本发明公开了一种半监督的统计学习方法，与现有基于词典进行情感分析的技术不同，本发明通过对包含用户打分的商品评论进行离线学习，根据用户打分自动地提取上下文敏感的情感，并得到情感词对应的情感极性得分。与现有技术只能进行上下文无关的情感分析不同，本发明中公开的情感分析方法可根据产品的所属领域不同对上下文相关、领域依赖的情感词进行准确、有效的情感极性得分计算。

附图说明

图1为本发明的总体框架图；

图2为产品模糊本体的顶层结构；

图3为产品模糊本体中高层次方面；

图4为产品模糊本体中低层次方面；

图5为模糊本体中面向产品方面的情感。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明的首要目的通过下述技术方案实现：基于模糊本体面向产品方面的产品情感的分析和产品推荐方法，包括：

产品模糊本体的构建，以模糊集和模糊关系为基础，来刻画产品方面识别以及上下文敏感的情感预测时的不确定性；

基于潜在主题模型的产品方面挖掘，应用概率生成模型，从包含了产品的描述和消费者评论的语料库D中提取产品方面，并通过概率语言模型获得方面之间的包含关系，以生成产品模糊本体中的方面分类关系；

产品本体中上下文相关情感的学习，通过对一组包含用户打分的消费者评论进行离线学习，以建立情感和产品方面之间的非分类关系；

面向产品方面的情感分析和产品推荐，基于某类产品的产品模糊本体，进行面向产品方面的情感分析和面向产品方面的产品推荐。

1、产品模糊本体

其中，所述产品模糊本体定义为：

定义1：一个产品模糊本体是一个三元组：Ont：＝<C,R_TAX,R_NTAX>，其中C是一组概念，隶属函数定义了在一组概念C中的子类和父类的关系强度，而隶属函数定义的是在C中的非分类关系强度；

所述分类关系包括产品与产品类别的分类关系和产品方面之间的分类关系，所述产品和产品类别之间的分类关系是从电子商务网站提取到；所述产品方面之间的分类关系是通过所述基于潜在主题模型的产品方面挖掘得到；而方面和情感之间的非分类关系是通过所述产品本体中上下文相关情感的学习得到，所述产品方面之间的分类关系是以包含关系为基础进行描述，所述包含关系是根据概念分析方法，概念的内含程度可以应用于评估这些概念之间的包容关系；其中给定两个概念C_i和C_j的内含是，如果C_i的所有属性也属于C_j，即，那么概念C_i将被归为概念C_j的子概念。

2、基于潜在主题模型的产品方面挖掘

所述基于潜在主题模型的产品方面挖掘是利用发布在社交网站和电子商务网站，如epinions.com，上的产品说明和消费者评论，采用基于LDA主题建模方法来同时提取隐性的(高级的)产品方面和显性的(基本的)产品方面，并利用概率语言模型来生成在产品本体中产品方面之间的包含关系。

所述基于LDA的主题模型中，每个未标记训练语料D中的文档d∈D，由一个多项分布θ来进行刻画，该分布由一个狄利克雷先验α控制。一个潜在主题Z(即,产品方面)是根据多项分布θ选出。对于给定的一个主题Z，一个词t根据多项分布φ生成，该分布由狄利克雷先验β控制。为了推断条件概率Pr(t_i|z_i)，即一个潜在的主题(即产品方面)z_i中出现词t_i的概率，本发明通过Gibbs采样来计算的φ和θ的近似值。所述Gibbs采样中，φ和θ的近似值和可以以下公式计算得到。

\overset{&OverBar;}{θ} = \frac{C_{np}^{ZD} + α}{Σ_{n^{'} &Element; Z} C_{n^{'} p}^{ZD} + | Z | α} - - - (1)

\overset{&OverBar;}{φ} = \frac{C_{mn}^{VZ} + β}{Σ_{m^{'} &Element; V} C_{m^{'} n}^{VZ} + | V | β} - - - (2)

其中，是一个计数矩阵，记录了词t_i＝m被分配到潜在主题z_i＝n的次数，该数目不包括当前词的数目。V是用来组成D的一组词汇的集合，是一个计数矩阵，记录了隐性主题z_i＝n被分配到文档d_i＝p的次数，该数目不包括当前文档的数目。用于估计词t_i在给定潜在主题z_i的概率，而用于估计主题z_i在给定文档d_i的概率。Gibbs采样的计算复杂度为O(I.|Z|.d_avg.|D|)，其中I是Gibbs迭代次数；d_avg是语料库D的平均文档长度，而|Z|是预先定义的潜在主题数目。

所述预先定义的产品方面数目|Z|,是通过计算困惑度(perplexity)来估计|Z|。所述困惑度是用于评估概率模型的预测能力；其中一个较低的困惑度得分意味着模型拥有较好的泛化性能。本发明在不同主题数目的情况下调用Gibbs采样算法后，选择在数据集(held-out dataset)中取得较好(小)困惑度得分的一个最小主题数目作为|Z|，以减少计算成本，并捕捉蕴含在语料库潜在的语义。

所述产品方面，本发明只利用信息量最丰富主题的一个子集以代表产品方面，其中Shannon信息量衡量标准被用来选择最具信息量的主题top_Z来表示产品方面。在本发明采用top_Z＝10；对于每个所选择的主题，选择前top_t＝10最大条件概率Pr(t_i|z_i)的条目来代表一个主题。

所述方面之间的包含关系，是通过一个一元概率语言模型得到。每个主题分布φ都表示一个概念c_i(即产品方面)，即，主题分布表示了c_i的内含元素。如果语言模型生成语言模型那么，根据基于内含的包含关系理论，认为c_j为父概念c_i的一个候选子概念。如果和的生成概率的差值之间产生概率大于阈值ω_sub，则认为c_j为父概念c_i的子概念。本发明采用了ω_sub＝40％。和的生成概率是通过一个一元概率语言模型得到。

所述一元概率语言模型计算如下：

\Pr (φ_{c_{i}} | φ_{c_{j}}) = \underset{t_{i} &Element; c_{i}}{Π} \Pr (t_{i} | φ_{c_{j}}) - - - (3)

\Pr (t_{i} | φ_{c_{j}}) = (1 - λ) ((1 - μ) \Pr_{ML} (t_{i} | φ_{c_{j}}) + {μPr}_{INF} (t_{i} | φ_{c_{j}})) + {λPr}_{ML} (t_{i} | φ_{D}) - - - (4)

\Pr_{ML} (t_{i} | φ_{c_{j}}) = \frac{\Pr (t_{i} | z_{j})}{Σ_{l = 1}^{{top}_{t}} \Pr (t_{l} | z_{j})} - - - (5)

\Pr_{ML} (t_{i} | φ_{D}) = \frac{tf (t_{i})}{| D |} - - - (6)

\Pr_{INF} (t_{i} | φ_{c_{j}}) = \frac{Σ_{t_{i}, t_{j} &Element; R} \Pr (t_{j} &RightArrow; t_{i}) \Pr_{ML} (t_{j} | φ_{c_{j}})}{| R |} - - - (7)

其中，是概念c_i通过基于LDA的主题建模获得的语言模型。通过Jelinek-Mercer平滑，语言模型生成语言模型的概率可以根据最大似然模型以及整个产品描述集合的最大似然模型Pr_ML(t_i|φ_D)得到。λ，μ是Jelinek-Mercer平滑参数，取值范围在[0.1,0.7]内。在本发明中，设置λ＝0.15和μ＝0.2，以减轻对在主题分布φ的词的过高估计，而对不在φ的词的过低估计的问题。函数tf(t_i)是计算词t_i在整个产品描述集合D中的词频，而|D|表示整个集合的长度，该长度指的是在D中的词的数目。是一个推理语言模型，Pr(t_j→t_i)表示t_j和t_i具有关联关系的概率，其值是由上下文相关文本挖掘方法推理得到，最后，对于概念c_i和c_j之间的模糊分类关系隶属函数定义如下：

μ_{R_{TAX}} (c_{i}, c_{j}) = normal (\frac{\Pr (φ_{c_{i}} | φ_{c_{j}}) - \Pr (φ_{c_{j}} | φ_{c_{i}})}{\Pr (φ_{c_{j}} | φ_{c_{i}})}) - - - (8)

所述产品本体如图2、图3所示，顶层方面(概念)和每个子方面(子概念)之间的包容度可以通过公式(3)-(8)估计得到；然而，顶层的方面节点是通过对一个产品类的生产说明进行最大似然估计来生成顶层方面的话题分布φ_top，例如，“照相机”，相同的过程应用于构造为每个产品本体的顶层方面主题；另一方面，对于如图4所示的底层方面，包容程度是根据基本方面的主题分布φ_top＝Pr(t_i|z_j)得到；对于某个基本方面t_i，如果 t_i与c_j的归属度可以由模糊隶属函数

μ_{R_{TAX}} (c_{j}, t_{i}) = normal (\frac{\Pr (t_{i} | z_{j})}{Σ_{l = 1}^{{top}_{t}} \Pr (t_{l} | z_{j})})

得到。根据实验，本发明设置的修剪阈值ω_elm＝0.1。

3、产品本体中上下文相关情感的学习

所述产品本体中上下文相关情感的学习，通过对一组包含用户打分的消费者评论进行离线学习，以建立情感和产品方面之间的非分类关系，即挖掘情感-方面关联度Ass(s_i，a_i)以及预测方面a_i的上下文相关情感s_i的极性。其中，评论中与产品方面相关联的形容词或副词(在一个大小为ω_win文本窗口(window)内)被提取作为候选情感。本发明设置ω_win＝6。另外，只有形容词(或副词)与产品方面位于同一句子中才会被提取。

3(a)所述情感-方面关联度Ass(s_i，a_i)，是基于模糊本体挖掘领域中的互信息作为衡量指标，其定义如下：

\begin{matrix} Ass (s_{i}, a_{i}) = ω_{ass} \times [\Pr (t_{i}, t_{j}) \log_{2} (\frac{\Pr (t_{i}, t_{j}) + 1}{\Pr (t_{i}) \Pr (t_{j})}) + \Pr (&Not; t_{i}, &Not; t_{j}) \log_{2} (\frac{\Pr (&Not; t_{i}, &Not; t_{j}) + 1}{\Pr (&Not; t_{i}) \Pr (&Not; t_{j})})] \\ - (1 - ω_{ass}) [\Pr (t_{i}, &Not; t_{j}) \log_{2} (\frac{\Pr (t_{i}, &Not; t_{j}) + 1}{\Pr (t_{i}) \Pr (&Not; t_{j})}) \\ + \Pr (&Not; t_{i}, t_{j}) \log_{2} (\frac{\Pr (&Not; t_{i}, t_{j}) + 1}{\Pr (&Not; t_{i}) \Pr (t_{j})}) \end{matrix} - - - (9)

其中，Ass(s_i，a_i)表示情感s_i和方面a_i之间的相关程度，权重因子ω_ass∈[0.5，0.7]是用来控制两种因素的相对重要性，Pr(t_i，t_j)是两个词出现在一个文本窗口的联合概率，而Pr(t_i)是一个词t_i出现在文本窗口的概率；其中|w_t|是包含t的窗口的数目，而|w|表示构建整个语料库的窗口的数目，同样，Pr(t_i，t_j)是同时含有词t_i和t_j的窗口的数目与窗口的总数的商。

所述方面a_i的上下文相关情感s_i的极性，是由非分类关系R_NTAX(s_i，a_i)的模糊隶属函数来表示,这一关系非分类关系包含在本发明公开的产品本体Ont：＝＜C，R_TAX，R_NTAX＞中。通过大量包含打分的消费者评论来为每个情感方面对(s_i，a_i)学习上下文相关的情感极性，其中情感极性包括正面、负面和中性三种，正面，负面的和中性的信息中对应的正面，负面的和中性的关键字，是通过基于Kullback-Leibler距离(KL)散度的单词发散度(WD)得到。

所述单词发散度(WD)，是将涉及到正面的、负面的事件的条件概率进行相减，以估算从消费者发表的评论中每个情感-方面对sa：＝(s_i，a_i)的极性强弱。其中，社交网站和电子商务网站中的打分4分和5分认为是积极的，而1分和2分的评分被视为消极的；中档评级3取为中性。WD和sa的情感极性定义如下：

\begin{matrix} WD (sa) = \tanh [\frac{df (sa)}{ω_{pos}} \times \Pr (pos | sa) \times \log_{2} \frac{\Pr (pos | sa)}{\Pr (pos)} - \frac{df (sa)}{ω_{neg}} \times \Pr (neg | sa) \\ \times \log_{2} \frac{\Pr (neg | sa)}{\Pr (neg)}] \end{matrix} - - - (10)

{polarity}_{Ont} (sa) = \{\begin{matrix} \frac{WD (sa) - ω_{wd}}{1 - ω_{wd}}, & ifWD (sa) > ω_{wd} \\ - (\frac{| WD (sa) | - ω_{wd}}{1 - ω_{wd}}), & ifWD (sa) < - ω_{wd} \\ 0, & otherwise \end{matrix} - - - (11)

其中，参数ω_pos和ω_neg分别控制积极和消极极性因素的学习率，其值可以通过实验结果确定。双曲正切函数tanh确保获得的极性分数落在单位区间内。该式是估计一条包含了情感-方面sa：＝(s_i，a_i)的评论是积极评价的条件概率；它是根据包含了该对sa的积极评价数目除以包含该对sa的评论的总数目估计得到。同样，是估计一条包含了情感-方面sa的评论是消极评价的条件概率。df(sa_neg)表示包含sa的评论是消极评价的条件概率。此外，

\Pr (pos) = \frac{| D_{rev}^{+} |}{| D_{rev}^{+} | + | D_{rev}^{-} |} (\Pr (neg) = \frac{| D_{rev}^{-} |}{| D_{rev}^{+} | + | D_{rev}^{-} |})

是一条评论是积极(消极)的先验概率；消费者评价为积极(消极)的评论集合。正的polarity_Ont(sa)值表示相应的情感-方面对为积极的，而负的Polarity_Ont(sa)值意味着该情感-方面对是消极的。如果极性得分为零，则认为该情感-方面对是中性的。本发明还考虑了否定的情感。例如，如果在一个情感-方面对的虚拟文本窗口中发现诸如“不”，“没”，“除了”等否定词，相应的极性得分的正负将会相反。最后，在产品模糊本体Ont：＝＜C，R_TAX，R_NTAX＞中，非分类关系R_NTAX(s_i，a_i)的模糊隶属函数如图5所示，一个积极的情感标记前缀为+s_i，而消极的情感标记前缀为-s_i。

4、面向产品方面的情感分析和产品推荐

所述面向产品方面的情感分析和产品推荐，是在获得包含了对某类产品中一些产品方面的上下文相关情感的产品模糊本体后，进行面向产品方面的情感分析和面向产品方面的产品推荐(图1中的任务6和7)。其中主要包括：对于产品方面的情感分析、对于产品评论的情感分析、对于整个产品的情感分析以及产品推荐。

所述对于产品方面的情感分析，是假定有一组从关于一个产品p_i的评论集合D中提取出的情感-方面对集合SA，对于一个产品p_i和方面a_i的方面得分asp(p_i，a_i)可以通过集合SA的极性值的加权平均得到，计算公式如下：

asp (p_{i}, a_{i}) = \frac{Σ_{sa &Element; SA} ω_{source} \times polarity (sa)}{| SA |} - - - (12)

其中，首先应用产品模糊本体来确定在消费者评论中每个识别到的情感-方面对sa：＝(s_i，a_i)的情感极性强度。如果一个情感的极性不能通过产品本体得到，系统将调用一个缺省情感词典，如OpinionFinder，来估计上下文无关的情感极性。即，如果产品本体中存在情感-方面对sa，系统将根据polarity(sa)＝polarity_Ont(sa)推断出该sa的极性得分；否则，SA的极性由polarity(sa)＝polarity_lexicon(s_i)得到，其中polarity_lexicon(s_i)是在一个通用情感词典中上下文无关的情感极性分数。如果在所有的情感词典中，无法查找到sa的极性，系统给该sa赋予一个中立的极性。如果情感-方面对已被定义在产品本体中，权重ω_source＝1；如果情感是定义在一个通用情感词典中，如：OpinionFinder，权重ω_source＝0.5。

所述对于产品评论的情感分析，可以根据在该评论中的情感-方面对的极性加权平均得到。集合d_sa表示在评论d中的所有情感-方面对。评论d的极性得分定义如下：

polarity (d) = \frac{Σ_{sa &Element; d} ω_{source} \times polarity (sa)}{| d_{sa} |} - - - (13)

所述对于整个产品的情感分析，可以通过关于产品p_i的所有评论中的情感-方面对的极性加权平均得到。集合D_sa表示在所有发现的情感-方面对。产品p_i极性得分定义如下：

polarity (p_{i}) = \frac{Σ_{sa &Element; D_{p_{i}}} ω_{source} \times polarity (sa)}{| D_{sa} |} - - - (14)

所述产品推荐，是根据产品的情感得分，将消费者评价较好，即polarity(p_i)分值较高的产品推荐给用户。

基于模糊本体面向产品方面的产品情感的分析和产品推荐系统，以下简称为OBPRM，该系统框架如图1所示，从用户提交查询到面向产品方面的产品推荐结果交付给用户，该框架主要包括七个主要部分：

1.查询处理器模块：首先，一个用户(例如，一个业务经理)选择一个产品类别或一个特定的产品提交给系统。

2.社交评论检索模块：基于所选择的目标产品或产品类别，OBPRM系统调用由社交网站和互联网搜索引擎提供的Web服务或API来检索消费者对于特定产品的评论。

3.社交评论爬取模块：OBPRM系统的专用爬虫周期性地遍历Web网来爬取有关产品的信息、产品功能以及相关的消费者评论。

4.文本预处理器模块：传统的文件预处理步骤：如：删除停词，POS词性标注，并对消费者的意见和产品说明中词语进行词干化。本发明采用StanfordLog-Linear POS来对消费者评论进行词性标注。假设基本的产品特征是由名词短语进行描述，而情感是由形容词或副词进行描述。

5.产品本体挖掘模块：产品本体挖掘是离线进行的，并且它是在面向产品方面的情感分析被调用之前进行的。产品模糊本体捕获的分类关系，如：“内存”(产品功能)“是一个”“硬件”(产品方面)，和非分类关系，如：“闪光”(商品功能)是与情感词“明亮”相关。此外，产品本体也会将上下文相关该情感-方面对，如：“明亮的闪光”的情感倾向(例如，“积极”)进行捕捉。消费者的评论，产品评分和产品描述是从社交媒体网站，如epinions.com上检索得到的；将此信息输送到产品本体挖掘器中，通过概率潜在主题建模过程自动地建立起模糊的产品本体。本发明利用开源代码LingPipe API来为概率主题模型进行Gibbs采样。产品本体的可视化模块采用的是开源框架TouchGraph。每个产品本体通过Web本体语言(OWL)进行形式化描述。

6.面向产品方面的情感分析模块：根据挖掘的产品本体和上下文无关的情感词典，情感分析器将确定每个出现在消费者评论中的上下文敏感情感方面对sa的极性sa：＝(s_i，a_i)。

7.面向产品方面的产品推荐模块：对蕴含在消费者评论中的每个情感方面对sa：＝(s_i，a_i)进行分析后，系统将根据所有检索到的某一产品的评论计算该产品每个方面的情感倾向得分的均值。最后，特定产品类别中的所有产品都可以根据面向产品方面的情感极性分数进行分析，并进行产品推荐。

所述用户查询处理器模块，通过网页客户端，用户可选择一个产品类别或者输入某一产品名称或编号，并确认提交到系统；系统解析用户请求获得待分析的目标产品。

所述社交评论检索模块，对于用户指定输入的产品名称或产品类别，调用搜索引擎，如Google、Baidu等，进行检索获得相关的资源链接；通过社交评论网站和电子商务网站，如：amazon.com、epinions.com等提供的接口，获得关于用户指定产品或产品类的评论链接。

所述社交评论爬取模块，对于一些社会媒体网站，如epinions.com，它们包含了由用户提供的关于产品“优点”和“缺点”的描述。其中，包含在“优点”和“缺点”评论中的名词短语往往指的是产品方面，利用这些消费者评论的“优点”和“缺点”片段作为文档，以及网上产品说明一并爬取到本地进行存储。

所述文本预处理器模块，去除停词；对词利用Porter算法进行词干化提取原型(适用于英文，中文不需此步骤)；利用StanfordLog-Linear POS来对消费者评论进行词性标注。

所述产品本体挖掘模块，包括基于潜在主题模型的产品方面挖掘和产品本体中上下文相关情感的学习。

1、所述基于潜在主题模型的产品方面挖掘，是利用发布在社交网站和电子商务网站，如epinions.com，上的产品说明和消费者评论，采用基于LDA主题建模方法来同时隐性的(高级、高层次的)产品方面和明确的(基本、低层次的)产品方面，并利用概率语言模型来生成在产品本体中产品方面之间的包含关系。

1(a)所述基于LDA的主题模型中，每个未标记训练语料D中的文档d∈D，由一个多项式分布θ来进行刻画，该分布由一个狄利克雷先验α控制。一个潜在主题Z(即,产品方面)是根据多项分布θ选出。对于给定的一个主题Z，一个词t根据多项分布φ生成，该分布由狄利克雷先验β控制。为了推断条件概率Pr(t_i|z_i)，即一个潜在的主题(即产品方面)z_i中出现词t_i的概率，本发明通过Gibbs采样来计算的φ和θ的近似值。所述Gibbs采样中，φ和θ的近似值和可以通过公式(1)和公式(2)计算得到。

1(b)所述预先定义的产品方面数目|Z|,是通过计算困惑度(perplexity)来估计|Z|。所述困惑度是用于评估概率模型的预测能力；其中一个较低的困惑度得分意味着模型拥有较好的泛化性能。本发明在不同主题数目的情况下调用Gibbs采样算法后，选择在数据集(held-outdataset)中取得较好(小)困惑度得分的一个最小主题数目作为|Z|，以减少计算成本，并捕捉蕴含在语料库潜在的语义。

1(c)所述产品方面，本发明只利用信息量最丰富主题的一个子集以代表产品方面，其中Shannon信息量衡量标准被用来选择最具信息量的top_Z的主题来表示产品方面。在本发明采用top_Z＝10；对于每个所选择的主题，选择前top_t＝10最大条件概率Pr(t_i|z_i)的条目来代表一个主题。

1(d)所述方面之间的包含关系，是通过一个一元概率语言模型得到。每个主题分布φ都表示一个概念c_i(即产品方面)，即，主题分布表示了c_i的内含元素。如果语言模型生成语言模型那么，根据基于内含的包含关系理论，认为c_j为父概念c_i的一个候选子概念。如果和的生成概率的差值之间产生概率大于以百分比计算的阈值ω_sub，则认为c_j为父概念c_i的子概念。本发明采用了ω_sub＝40％。和的生成概率是通过一个一元概率语言模型得到。

1(e)所述一元概率语言模型可由公式(3)-(7)计算得到，而对于概念c_i和c_j之间的模糊分类关系隶属函数定义如公式(8)所示。

1(f)所述产品本体，如图3所示，顶层方面(概念)和每个子方面(子概念)之间的包容度可以通过公式(3)-(8)估计得到。然而，顶层的方面节点是通过对一个有关“照相机”产品类的生产说明(即，语料库)进行最大似然估计来生成顶层方面的话题分布φ_top。相同的过程应用于构造为每个产品本体的顶层方面主题。另一方面，对于如图4所示的底层方面，包容程度是基于基本方面的主题分布φ_top＝Pr(t_i|z_j)得到。特别是，对于某个基本方面t_i，如果t_i与c_j的归属度可以由模糊隶属函数得到。根据实验，本发明设置的修剪阈值ω_elm＝0.1。

2、所述面向产品方面的情感分析，通过对一组用户打分的消费者评论的离线学习过程，以建立情感和产品方面之间的非分类关系，即挖掘情感-方面关联度Ass(s_i，a_i)以及预测方面a_i的上下文相关情感s_i的极性。其中，评论中与产品方面相关联的形容词或副词(在一个大小为ω_win文本窗口(window)内)被提取作为候选情感。本发明设置ω_win＝6。另外，只有形容词(或副词)与产品方面共同位于同一句子中才会被提取。

2(a)所述情感-方面关联度Ass(s_i，a_i)，是基于应用于模糊本体挖掘领域的互信息作为衡量指标，其定义如公式(9)所示。

2(b)所述方面a_i的上下文相关情感s_i的极性，是由非分类关系R_NTAX(s_i，a_i)的模糊隶属函数来表示,这一关系非分类关系包含在本发明公开的产品本体Ont：＝＜C，R_TAX，R_NTAX＞中。本发明利用数量巨大的用户标记的消费者评论来为每个情感方面对(s_i，a_i)学习上下文相关的情感极性。其中情感极性包括正面(积极)、负面(消极)和中性三种。正面，负面的和中性的信息中对应的正面，负面的和中性的关键字，是通过基于Kullback-Leibler距离(KL)散度的单词发散度(WD)得到。

2(c)所述单词发散度(WD)，是将涉及到正面的、负面的事件的条件概率进行相减，以估算从消费者发表的评论中每个情感-方面对sa：＝(s_i，a_i)的极性强弱。其中，社交网站和电子商务网站中的打分4分和5分认为是积极的，而1分和2分的评分被视为消极的；中档评级3取为中性。WD和sa的情感极性定义如公式(10)和公式(11)所示。

所述面向产品方面的情感分析模块，根据提取到的产品模糊本体，进行对于产品方面的情感分析、对于产品评论的情感分析及对于整个产品的情感分析。

1、所述对于产品方面的情感分析，假定有一组从关于一个产品p_i的评论集合D中提取出的情感-方面对集合SA，对于一个产品p_i和方面a_i的方面得分asp(p_i，a_i)可以通过集合SA的极性值的加权平均得到，计算公式如公式(12)所示。

2、所述对于产品评论的情感分析，可以根据在该评论中的情感-方面对的极性加权平均得到。集合d_sa表示在评论d中的所有情感-方面对。评论d的极性得分定义如公式(13)所示。

3、所述对于整个产品的情感分析，可以通过关于产品p_i的所有评论中的情感-方面对的极性加权平均得到。集合D_sa表示在所有发现的情感-方面对。产品p_i极性得分定义如公式(14)所示。

所述面向产品方面的产品推荐模块，是根据产品的情感得分，将消费者评价较好，即polarity(p_i)分值较高的产品推荐给用户。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于模糊本体面向产品方面的产品情感的分析方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于模糊本体面向产品方面的产品情感的分析方法，其特征在于，步骤(2)中，所述基于潜在主题模型的产品方面挖掘具体为：

(2b)所述基于LDA的主题模型中，每个未标记训练语料库D中的文档d∈D，由一个多项分布θ来进行刻画，该分布由一个狄利克雷先验α控制，一个潜在主题Z是根据多项分布θ选出，Z是产品的某一方面，对于给定的一个主题Z，一个词t根据多项分布φ生成，该分布由狄利克雷先验β控制，为了推断条件概率Pr(t_i|z_i)，即一个潜在的主题z_i中出现词t_i的概率，本发明将通过Gibbs采样来计算的φ和θ的近似值，所述Gibbs采样中，φ和θ的近似值和可以以下公式计算得到；

\overset{&OverBar;}{θ} = \frac{C_{np}^{ZD} + α}{Σ_{n^{'} &Element; Z} C_{n^{'} p}^{ZD} + | Z | α} - - - (1)

\overset{&OverBar;}{φ} = \frac{C_{mn}^{VZ} + β}{Σ_{m^{'} &Element; V} C_{m^{'} n}^{VZ} + | V | β} - - - (2)

(2f)所述一元概率语言模型计算如下：

\Pr (φ_{c_{i}} | φ_{c_{j}}) = \underset{t_{i} &Element; c_{i}}{Π} \Pr (t_{i} | φ_{c_{j}}) - - - (3)

\Pr (t_{i} | φ_{c_{j}}) = (1 - λ) ((1 - μ) \Pr_{ML} (t_{i} | φ_{c_{j}}) + μ \Pr_{INF} (t_{i} | φ_{c_{j}})) + λ \Pr_{ML} (t_{i} | φ_{D}) - - - (4)

\Pr_{ML} (t_{i} | φ_{c_{j}}) = \frac{\Pr (t_{i} | z_{j})}{Σ_{l = 1}^{{top}_{t}} \Pr (t_{l} | z_{j})} - - - (5)

\Pr_{ML} (t_{i} | φ_{D}) = \frac{tf (t_{i})}{| D |} - - - (6)

\Pr_{INF} (t_{i} | φ_{c_{j}}) = \frac{Σ_{t_{i}, t_{j} &Element; R} \Pr (t_{j} &RightArrow; t_{i}) \Pr_{ML} (t_{j} | φ_{c_{j}})}{| R |} - - - (7)

μ_{R_{TAX}} (c_{i}, c_{j}) = normal (\frac{\Pr (φ_{c_{i}} | φ_{c_{j}}) - \Pr (φ_{c_{j}} | φ_{c_{i}})}{\Pr (φ_{c_{j}} | φ_{c_{i}})}) - - - (8)

μ_{R_{TAX}} (c_{j}, t_{i}) = normal (\frac{\Pr (t_{i} | Z_{j})}{Σ_{l = 1}^{{top}_{t}} \Pr (t_{l} | z_{j})})

得到。

3.根据权利要求1所述的基于模糊本体面向产品方面的产品情感的分析方法，其特征在于，所述的产品本体中上下文相关情感的学习，包括：

\begin{matrix} Ass (s_{i}, a_{i}) = ω_{ass} \times [\Pr (t_{i}, t_{j}) \log_{2} (\frac{\Pr (t_{i}, t_{j}) + 1}{\Pr (t_{i}) \Pr (t_{j})}) + \Pr (&Not; t_{i}, &Not; t_{j}) \log_{2} (\frac{\Pr (&Not; t_{i}, &Not; t_{j}) + 1}{\Pr (&Not; t_{i}) \Pr (&Not; t_{j})})] \\ - (1 - ω_{ass}) [\Pr (t_{i}, &Not; t_{j}) \log_{2} (\frac{\Pr (t_{i}, &Not; t_{j}) + 1}{\Pr (t_{i}) \Pr (&Not; t_{j})}) \\ + \Pr (&Not; t_{i}, t_{j}) \log_{2} (\frac{\Pr (&Not; t_{i}, t_{j}) + 1}{\Pr (&Not; t_{i}) \Pr (t_{j})})] \end{matrix} - - - (9)

\begin{matrix} WD (sa) = \tanh [\frac{df (sa)}{ω_{pos}} \times \Pr (pos | sa) \times \log_{2} \frac{\Pr (pos | sa)}{\Pr (pos)} - \frac{df (sa)}{ω_{neg}} \times \Pr (neg | sa) \\ \times \log_{2} \frac{\Pr (neg | sa)}{\Pr (neg)}] \end{matrix} - - - (10)

{polarity}_{Ont} (sa) = z[\begin{matrix} \frac{WD (sa) - ω_{wd}}{1 - ω_{wd}}, & if WD (sa) > ω_{wd} \\ - (\frac{| WD (sa) | - ω_{wd}}{1 - ω_{wd}}), & if WD (sa) < - ω_{wd} \\ 0, & otherwise \end{matrix} - - - (11)

\Pr (pos) = \frac{| D_{rev}^{+} |}{| D_{rev}^{+} | + | D_{rev}^{-} |} (\Pr (neg) = \frac{| D_{rev}^{-} |}{| D_{rev}^{+} | + | D_{rev}^{-} |})

4.根据权利要求1所述的基于模糊本体面向产品方面的产品情感的分析方法，其特征在于，所述的面向产品方面的情感分析和产品推荐，包括：

(4b)所述对于产品方面的情感分析，是假定有一组从关于一个产品p_i的评论集合D中提取出的情感-方面对集合SA，对于一个产品p_i和方面a_i的方面得分asp(p_i，a_i)可以通过集合SA的极性值的加权平均得到，计算公式如下：

asp (p_{i}, a_{i}) = \frac{Σ_{sa &Element; SA} ω_{source} \times polarity (sa)}{| SA |} - - - (12)

polarity (d) = \frac{Σ_{sa &Element; d} ω_{source} \times polarity (sa)}{| d_{sa} |} - - - (13)

polarity (p_{i}) = \frac{Σ_{sa &Element; D_{p_{i}}} ω_{source} \times polarity (sa)}{| D_{sa} |} - - - (14)

5.根据权利要求1所述的基于模糊本体面向产品方面的产品情感的分析方法，其特征在，所述的产品模糊本体的构建包括：

6.基于模糊本体面向产品方面的产品情感的分析系统，其特征在于，包括：

7.根据权利要求6所述基于模糊本体面向产品方面的产品情感的分析系统，其特征在于，

所述的用户查询处理器模块具体用于：通过网页客户端，用户可选择一个产品类别或者输入某一产品名称或编号，并确认提交到系统；系统解析用户请求获得待分析的目标产品；

社交评论检索模块具体用于，对于用户指定输入的产品名称或产品类别，调用搜索引擎进行检索，获得相关的资源链接；通过社交评论网站和电子商务网站，获得关于用户指定产品或产品类的评论链接。

8.根据权利要求6所述基于模糊本体面向产品方面的产品情感的分析系统，其特征在于，

社交评论爬取模块具体用于：对于一些社会媒体网站，包含了由用户提供的关于产品“优点”和“缺点”的描述，其中，包含在“优点”和“缺点”评论中的名词短语往往指的是产品方面，利用这些消费者评论的“优点”和“缺点”片段作为文档，以及网上产品说明一并爬取到本地进行存储；

9.根据权利要求6所述基于模糊本体面向产品方面的产品情感的分析系统，其特征在于，基于潜在主题模型的产品方面挖掘和产品本体中上下文相关情感的学习，具体方法为：

10.根据权利要求6所述基于模糊本体面向产品方面的产品情感的分析系统，其特征在于，所述的面向产品方面的情感分析模块具体用于：

asp (p_{i}, a_{i}) = \frac{Σ_{sa &Element; SA} ω_{source} \times polarity (sa)}{| SA |};

polarity (d) = \frac{Σ_{sa &Element; d} ω_{source} \times polarity (sa)}{| d_{sa} |};

产品p_i极性得分定义如下：

polarity (p_{i}) = \frac{Σ_{sa &Element; D_{p_{i}} ω_{source} \times polarity (sa)}}{| D_{sa} |} .