CN103020851A

CN103020851A - 一种支持商品评论数据多维分析的度量计算方法

Info

Publication number: CN103020851A
Application number: CN2013100097587A
Authority: CN
Inventors: 郑永清; 王新军; 张超; 彭朝晖; 闫中敏
Original assignee: SHANDONG DAREWAY COMPUTER SOFTWARE CO Ltd
Current assignee: SHANDONG DAREWAY COMPUTER SOFTWARE CO Ltd
Priority date: 2013-01-10
Filing date: 2013-01-10
Publication date: 2013-04-03
Anticipated expiration: 2033-01-10
Also published as: CN103020851B

Abstract

本发明具体公开了一种支持商品评论数据多维分析的度量计算方法，该方法引入百科介绍的概念，通过LDA挖掘商品评论与主题之间的关系，将普通商品评论“结构化”集成到百科介绍中，并以主题和摘要的形式返回度量结果，使度量具有较高的可读性。本发明根据不同的维取值，获取商品评论集并将其与相关的百科介绍集成，主要包括以下步骤：(1)使用LDA计算百科介绍和商品评论集中的词汇-主题概率，利用相似度计算公式从商品评论集中找出相似评论和补充评论；(2)对于相似评论，挖掘百科介绍中“方面”的主题，并以相似数代表主题的受关注程度；(3)对于补充评论，生成摘要作为百科介绍的补充。

Description

一种支持商品评论数据多维分析的度量计算方法

技术领域

本发明涉及一种支持商品评论数据多维分析的度量计算方法。

背景技术

随着电子商务应用的发展，越来越多的电子商务用户将自己对商品的评论发表在博客、商品论坛等网络媒体，使得人们可以方便的获得从业余爱好者到行业专家所提供的各种针对商品的评论，并以此指导自己的消费。对商品评论进行数据分析，具有重要的应用价值，可以监察商品动态，了解用户的消费特征和习惯，从而可以改进商品质量，制定相应的营销策略，引导理智的消费行为，预测发展趋势。

作为一种有效分析数据的技术，OLAP能够在不同粒度上实现对多维立方体数据的交互分析。OLAP分析的基础是不同组合的维和所考查的度量指标构成的多维数组。传统的OLAP立方体主要聚焦在带有数值度量的结构化数据，例如，分析人员可能对商品销售数量随着时间推移而产生的变化感兴趣，这就是从时间的角度观察数据，时间是一个维度，销售数量是度量。随着商品评论数据重要性的日益显著，分析人员希望可以在OLAP系统中查看和分析对商品的评论，比如，从时间的推移中找出用户关注的商品方面的变化；分析人员也可以指定两种类似商品，从商品评论中查看商品的评论摘要，找出两种商品最受用户关注的区别。

在针对商品评论数据的OLAP的工作中，有一些构建文本维的方法，有的基于文本挖掘领域的主题模型，有的使用基于机器学习的信息抽取方法，在构建了文本维以后，需要对度量进行表示。通常的度量分为两种：存储度量和计算度量。存储度量是从存储的计算结果中获取，直接加载、聚合和存储进数据库；而计算度量是在查询时动态计算的值，只有计算规则存储在数据库中。在OLAP系统中，常用的计算度量有比率、差异、求和及平均值等，但对于商品评论数据，不能用常见的数值度量表示，需要研究选用新的适用的计算方法。

Yue Lu等人提出一种基于半监督话题模型的博客评论集成方法（Y.Lu and C.X.Zhai.Opinion integration through semi-supervised topic modeling.Proceedings of 2008 InternationalWWW Conference,pp.121-130,2008），本发明给出了一种基于商品评论集成的度量表示方法，与Y.Lu等人提出的方法相比，两者除了问题背景不同之外，Y.Lu等人的方法使用的是PLSA模型，PLSA并不是完备的生成式模型且参数的数量会随着文档和项的规模的增大而线性增长，而本发明是基于LDA的度量计算方法，在集成在线商品评论方面更具适应性，且相似度比较和摘要生成方法更具可行性。

发明内容

为解决现有技术存在的缺点，本发明提供了一种支持商品评论数据多维分析的度量计算方法。

本发明采用的技术方案包括以下步骤：

一种支持商品评论数据多维分析的度量计算方法，包括如下步骤：

步骤（1）用W={w₁,w₂,.,w_n}表示百科介绍，其中w_k（1≤k≤n，n为自然数）为一个百科介绍的句子，W为一篇百科介绍；

步骤（2）根据不同的维取值得到与步骤（1）中的百科介绍相关的普通商品评论集，用Co={d₁,d₂,…，d_|c|}表示，其中|c|是Co中的文档总数，d_i（1≤i≤|c|）是文档，d_i={s_i1,s_i2,…,s_ij,…,s_i|di|}，s_ij是第i篇文档中的第j个句子；

步骤（3）使用LDA计算百科介绍和普通商品评论集中的词汇-主题概率，然后计算百科介绍中句子和普通商品评论集中句子的相似度，找出普通商品评论集中的相似评论句Sim_ij和补充评论句Supp_ij；

步骤（4）根据相似评论句Sim_ij，挖掘普通商品评论集最关注的百科介绍的主题，它反映了用户对于某个商品评论主题的关注程度；

步骤（5）从补充评论句Supp_ij中生成摘要作为百科介绍的补充；

步骤（6）对步骤（4）和步骤（5）得到的结果进行集成。

所述的步骤（3）主要分为6步：

步骤（3-1）以百科介绍W中的每个句子w_k作为一篇文档，W作为文档集，输入LDA；

步骤（3-2）以普通商品评论集Co中的每个句子s_ij作为一篇文档，Co作为文档集，输入LDA；

步骤（3-3）使用LDA模型为步骤（3-1）和步骤（3-2）的文档集建模，并利用Gibbs抽样分别为LDA模型估计参数；

步骤（3-4）分别计算LDA模型为步骤（3-1）和步骤（3-2）文档建模时，各文档d的主题分布

和主题的词汇分布

其中，是主题z_i的词汇分布，代表主题z_i中各词汇t的比重；

是文档d的主题分布，代表文档d中各隐含主题的比重，所述的文档d是指步骤（3-1）和步骤（3-2）中的任意一篇文档；

步骤（3-5）根据公式

p (t | d) = Σ_{i = 1}^{T} φ_{i}^{(t)} θ_{i}^{(d)} - - - (1)

计算每个百科介绍句子的词汇概率p(t|w_k)和每个评论句子的词汇概率p(t|s_ij)，其中，T是主题数；p(t|d)表示文档d中词汇t的概率；

步骤（3-6）结合相似度计算公式，计算p(t|s_ij)与p(t|w_k)的相似度。

所述的Gibbs抽样算法为百科介绍的LDA模型估计参数步骤如下：

①为百科介绍和普通商品评论集中的词汇t指定一个1-T之间的随机主题（T代表的是主题数），构成初始Markov链；对于所有词汇t，根据公式分配主题，获取Markov链的下一个状态，迭代若干次数后，Markov链状态达到稳定；

②抽样算法为每个词汇估计主题，

和

由下式得到：

φ_{i}^{(t)} = \frac{n_{i}^{(t)} + β}{n_{i}^{(\cdot)} + tβ} - - - (2)

θ_{i}^{(d)} = \frac{n_{i}^{(d)} + α}{n_{\cdot}^{(d)} + Tα} - - - (3)

其中，α是服从狄利克雷分布的先验概率，表示在每个文档-主题分布的参数，反映了文档集合中隐含主题间的相对强弱；β是服从狄利克雷分布的先验概率，表示在每个主题-词分布的参数，反映了隐含主题的自身的概率分布；

是分配给主题z_i的词汇t的频数；

表示分配给主题z_i的所有词汇数；

表示文档d中分配给主题z_i的词汇数；

表示文档d所有被分配了主题的词汇数。

所述的步骤（3-6）中计算p(t|s_ij)与p(t|w_k)的相似度方法是使用句间的余弦度量，具体公式如下：

γ = \frac{\underset{w_{k} &Element; W, s_{ij} &Element; Co}{Σ} p (t | w_{k}) p (t | s_{ij})}{\sqrt{\underset{w_{k} &Element; W}{Σ} p {(t | w_{k})}^{2}} \sqrt{\underset{s_{ij} &Element; Co}{Σ} p {(t | s_{ij})}^{2}}} - - - (4)

γ代表了普通商品评论句s_ij与百科介绍句w_k的相似程度，γ>δ，则两个句子是相似的；在计算过程中，阈值δ的确定需要实验结果来推断；普通商品评论集中与某一百科介绍句相似值大于δ的句子越多，则代表该句有更多的普通评论支持，即可以认为更多的人关注百科介绍的该特征；

若普通商品评论集中的普通评论句s_ij与百科介绍句中所有w_k的相似度γ均小于阈值，则该s_ij与百科介绍中的所有句子均不相似，我们可以认为此s_ij是百科介绍的补充评论，该补充评论是普通评论中提到、但百科介绍中并未涉及的方面，其出现的原因可能是由于百科介绍的滞后性和描述的非主观性。

所述的步骤（4）中的相似评论句，挖掘普通商品评论集最关注的百科介绍的主题，该过程解决方法如下：

步骤（4-1）：在百科介绍中，自然段具有较强的主题独立性，所以我们将每一个自然段看作一个“方面”，每一个方面作为处理的基本块，用W={r₁,r₂,…,r_n}表示，r_i即为一个方面，即一个段落，W为一篇百科介绍，将每一个段落r_i（1≤i≤n，n为自然数）作为一篇文档，百科介绍W作为文档集，输入LDA，挖掘每个段落r_i的主题，主题以p(t|z_i)表示；

步骤（4-2）：将r_i中的句子与普通商品评论集中的相似评论句进行相似度比较，寻找与该段落主题中u_ij相似的句子数N_ij，其中，u_ij是主题z_i中的第j个句子；

主题的关注程度

所述的步骤（5）从Supp_ij中生成摘要作为百科介绍的补充，其过程包含三步：

步骤（5-1）：以补充评论集中句子的p(t|s_ij)作为对象，进行k-means聚类；

步骤（5-2）：从k-means聚类结果中得到局部主题簇，为局部主题簇中的句子计算与该段落主题中其它句子的加权总相似度，并按照大小排序，句子权重计算方法如下：

{weight}_{s_{ij}} = \underset{t &Element; S_{ij}}{Σ} tf (t) \cdot [\underset{i = 1}{Σ} p (t | z_{i}) \cdot p (z_{i} | s_{ij})] - - - (5)

其中，tf(t)为词汇t在句子s_ij中出现的次数，p(t|z_i)是词汇t在主题z_i的概率，p(z_i|s_ij)是主题z_i在句子s_ij上的概率；

步骤（5-3）：加权总相似度最大的句子即是该段落主题的代表句。

所述的步骤（5-1）k-means聚类步骤简述如下：

①假设补充评论集Supp中有m个句子，聚类个数为k，我们从补充评论集Supp的m个句子中任意选择k个句子作为初始的聚类中心，m，k均为大于1的自然数，；

②对于所剩下的m-k个句子，根据相似度公式计算它们与聚类中心的相似度，根据最小距离重新对相应对象进行划分；

③重新计算每个聚类的聚类中心，即聚类中所有对象的均值；

④不断重复②和③，直到聚类不再发生变化。

上面所述的LDA的全称是Latent Dirichlet Allocation（D.M.Blei,A.Y.Ng,and M.I.Jordan.Latent dirichlet allocation.Journal ofMachine Learning Research,3:993-1022,January2003）。

百科介绍是指来自维基百科、百度百科等结构良好、主观性弱的评论。本发明利用主题模型（LDA），将客观性强、结构良好的百科介绍和主观性强的普通商品评论集成。

以评论的主题和摘要的形式表示度量，从而为用户返回可读性强和易于理解的度量表示。

本发明的有益效果是：提出了一种基于LDA的评论集成方法作为度量表示，通过LDA挖掘商品评论与主题之间的联系，结合句间相似度的计算，将商品评论集成到百科介绍之中，使商品评论的集成结果形成清晰的主题和层次性强的结构，增强了度量结果的可读性。

附图说明：

图1为本发明实施方式的框架图；

图2为本发明实施例关于Iphone4s的实验数据统计图；

图3为本发明实施例的主题关注程度排行图；

具体实施方式：

下面结合附图对发明作进一步详细的说明。

本发明支持商品评论数据多维分析的度量计算方法，包括如下步骤：

步骤（1）用W={w₁,w₂,.,w_n}表示百科介绍，其中w_k（1≤k≤n，n为自然数）为一个句子，W为一篇百科介绍；

步骤（3）使用LDA计算百科介绍和普通商品评论集中的词汇-主题概率，然后计算百科介绍中w_k和普通商品评论集中s_ij的相似度，找出普通商品评论集中句子的相似评论句Sim_ij和补充评论句Supp_ij；

步骤（5）从Supp_ij中生成摘要作为百科介绍的补充；

步骤（6）对步骤（4）和步骤（5）得到的结果进行集成。

所述的步骤（3）主要分为6步：

步骤（3-3）使用LDA为步骤（3-1）和步骤（3-2）的文档集建模，并利用Gibbs抽样分别为LDA估计参数；

步骤（3-4）分别计算LDA模型为步骤（3-1）和步骤（3-2）文档建模时，文档的主题分布和主题的词汇分布

其中，

是主题z_i的词汇分布，代表主题z_i中各词汇t的比重；

是文档d的主题分布，代表文档d中各隐含主题的比重；

步骤（3-5）根据公式

p (t | d) = Σ_{i = 1}^{T} φ_{i}^{(t)} θ_{i}^{(d)} - - - (1)

计算每个百科介绍句子的词汇概率p(t|w_k)和每个评论句子的词汇概率p(t|s_ij)；

①为百科介绍和普通商品评论集中的词汇t指定一个1-T之间的随机主题（假设主题数为T），构成初始Markov链；对于所有词汇t，根据公式分配主题，获取Markov链的下一个状态，迭代若干次数后，Markov链状态达到稳定；

②抽样算法为每个词汇估计主题，

和

由下式得到：

φ_{i}^{(t)} = \frac{n_{i}^{(t)} + β}{n_{i}^{(\cdot)} + tβ} - - - (2)

θ_{i}^{(d)} = \frac{n_{i}^{(d)} + α}{n_{\cdot}^{(d)} + Tα} - - - (3)

是分配给主题z_i的词汇t的频数；

表示分配给主题z_i的所有词汇数；

表示文档d中分配给主题z_i的词汇数；

表示文档d所有被分配了主题的词汇数。

所述的步骤（3-6）所述的计算p(t|s_ij)与p(t|w_k)的相似度方法是使用句间的余弦度量，具体公式如下：

γ = \frac{\underset{w_{k} &Element; W, s_{ij} &Element; Co}{Σ} p (t | w_{k}) p (t | s_{ij})}{\sqrt{\underset{w_{k} &Element; W}{Σ} p {(t | w_{k})}^{2}} \sqrt{\underset{s_{ij} &Element; Co}{Σ} p {(t | s_{ij})}^{2}}} - - - (4)

若普通商品评论集中的普通评论句s_ij与百科介绍句中所有w_k的相似度γ均小于阈值，则该s_ij与百科介绍中的所有句子均不相似，我们可以认为此s_ij是百科介绍的补充评论，该补充评论是普通商品评论中提到、但百科介绍中并未涉及的方面，其出现的原因可能是由于百科介绍的滞后性和描述的非主观性。

步骤（4-2）：将r_i中的句子与普通商品评论集中的相似句子进行相似度比较，寻找与该段落主题中u_ij相似的句子数N_ij。其中，u_ij是主题z_i中的第j个句子；

主题的关注程度

步骤（5-2）：从k-means结果中得到局部主题簇，为局部主题簇中的句子计算与该段落主题中其它句子的加权总相似度，并按照大小排序,句子权重计算方法如下：

{weight}_{s_{ij}} = \underset{t &Element; S_{ij}}{Σ} tf (t) \cdot [\underset{i = 1}{Σ} p (t | z_{i}) \cdot p (z_{i} | s_{ij})] - - - (5)

其中，tf(w)为词汇t在句子s_ij中出现的次数，p(t|z_i)是词汇t在主题z_i的概率，p(z_i|s_ij)是主题z_i在句子s_ij上的概率；

所述的步骤（5-1）k-means算法步骤简述如下：

①假设补充评论集Supp中有m个句子，聚类个数为k，我们从补充评论集Supp的m个句子中任意选择k个句子作为初始的聚类中心，所述的补充评论集Supp是由补充评论Supp_ij构成的集合；

④不断重复②和③，直到聚类不再发生变化。

如附图2所示，本发明需要处理两类评论，一类是百科介绍，另一类是普通的商品评论。我们使用的数据集是来自维基百科上Iphone4s的描述，共37634词，其中去掉了索引、引用等无关信息。Iphone4s的普通评论来自Amazon.com抓取的用户评论，共751篇文档。以上数据集经过斯坦福Log-linear词性标注并去掉无用词。

(1)参数设置分析：本发明是一种基于LDA的度量计算方法，LDA模型的性能会受到主题数目T的影响，一般的，logp(t|T)越小，模型对于数据集的拟合最好。LDA的默认参数设置为α=50/T，β=0.1。本发明的数据集包括百科介绍和普通商品评论集，当T取不同值时，运行Gibbs抽样算法，不同的主题数选择对logp(t|T)有较大影响，对于百科介绍和普通商品评论集而言，当主题数分别为45和75时，logp(t|T)最大，此时模型拟合最好，因此本发明后续实验中选择T值分别为45和75。

(2)相似度阈值的确定：相似度阈值的确定是本发明的一个重要环节，它直接影响计算结果中主题的关注度和相似评论的区分。但是句子相似的评价标准主观性较强，因此采用人工判断的方法存在一定的误差。在本发明试验中，我们随机从百科介绍中抽取50条句子，调整相似度阈值，找出普通商品评论集中与这50条句子的相似句，然后计算正确率，正确率采用人工判定的正确的相似句子数与文档集的大小的比值表示。当阈值δ设置为0.6左右时，计算结果兼顾正确率和结果集大小，达到最好的效果。

(3)商品评论数据度量计算：下面对度量计算结果进行详细的说明。

商品评论数据的度量计算对于潜在消费者和分析人员把握用户对商品的态度有重要意义，实验中，我们统计s_ij与w_k相似度γ>0.5的s_ij句子数量作为度量。

附图3显示的是使用LDA挖掘主题后，前7个主题的关注程度。在主题挖掘过程中，将百科介绍的每一个“方面”看做一篇文档，计算普通商品评论对每个“方面”的关注程度，“方面”以主题表示。其中，p(t|z)最高的两个词代表主题。从附图3中可以发现普通商品评论最关心的是iphone4s的新特性。例如，主题（Siri,iphone）拥有最高的关注度，而像主题（AT&T,宣称）的关注度最低，说明普通商品评论注重时效性，主观性强，对热点话题具有更高的关注。

补充评论句是对百科介绍的补充，由低于相似度阈值δ的普通商品评论集生成。对实施例中的五条相似度最高的百科介绍句和两条补充评论摘要来进行分析，从中可以发现：

①作为iphone4s显著特征，siri是消费者关注的热点；

②诸如GPS、电池、照相机、处理器等iphone4s的硬件配置是消费者发布评论时最多提及的方面；

③作为补充评论摘要，iphone4s的解锁问题是用户关注的热点，而在百科中却不会提及；

④作为补充评论摘要，近段时间沸沸扬扬的iphone4s会记录用户信息的新闻受到许多关注，而这条信息在百科中并不存在。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于发明的保护范围。

Claims

1.一种支持商品评论数据多维分析的度量计算方法，其特征是，该方法包括以下步骤：

步骤（1）用W={w₁,w₂,.,w_n}表示百科介绍，其中w_k（1≤k≤n）为一个百科介绍的句子，W为一篇百科介绍，n为自然数；

步骤（6）对步骤（4）和步骤（5）得到的结果进行集成。

2.如权利要求书1所述的支持商品评论数据多维分析的度量计算方法，其特征是，所述的步骤（3）中使用LDA计算百科介绍和普通商品评论集中的词汇-主题概率，包括以下步骤：

步骤（3-3）使用LDA模型为步骤（3-1）和步骤（3-2）的文档集建模，并利用Gibbs抽样算法分别为LDA模型估计参数；

步骤（3-4）分别计算LDA模型为步骤（3-1）和步骤（3-2）文档建模时，各个文档d的主题分布和主题的词汇分布

其中，

是主题z_i的词汇分布，代表主题z_i中各词汇t的比重；

步骤（3-5）根据公式

p (t | d) = Σ_{i = 1}^{T} φ_{i}^{(t)} θ_{i}^{(d)} - - - (1)

3.如权利要求书2所述的支持商品评论数据多维分析的度量计算方法，其特征是，所述的步骤（3-3）中Gibbs抽样算法分别为LDA估计参数，包括以下步骤：

①为百科介绍和普通商品评论集中的词汇t指定一个1-T之间的随机主题，构成初始Markov链；对于所有词汇t，根据公式分配主题，获取Markov链的下一个状态，迭代若干次数后，Markov链状态达到稳定，所述的T为主题数；

②抽样算法为每个词汇估计主题，

和

由下式得到；

φ_{i}^{(t)} = \frac{n_{i}^{(t)} + β}{n_{i}^{(\cdot)} + tβ} - - - (2)

θ_{i}^{(d)} = \frac{n_{i}^{(d)} + α}{n_{\cdot}^{(d)} + Tα} - - - (3)

是分配给主题z_i的词汇t的频数；

表示分配给主题z_i的所有词汇数；

表示文档d中分配给主题z_i的词汇数；表示文档d所有被分配了主题的词汇数。

4.如权利要求书2所述的支持商品评论数据多维分析的度量计算方法，其特征是，所述的步骤（3-6）中计算p(t|s_ij)与p(t|w_k)的相似度方法是使用句间的余弦度量，具体公式如下：

γ = \frac{\underset{w_{k} &Element; W, s_{ij} &Element; Co}{Σ} p (t | w_{k}) p (t | s_{ij})}{\sqrt{\underset{w_{k} &Element; W}{Σ} p {(t | w_{k})}^{2}} \sqrt{\underset{s_{ij} &Element; Co}{Σ} p {(t | s_{ij})}^{2}}} - - - (4)

若普通商品评论集中的普通评论句s_ij与百科介绍句中所有w_k的相似度γ均小于阈值，则该s_ij与百科介绍中的所有句子均不相似，认为此s_ij是百科介绍的补充评论，该补充评论是普通评论中提到、但百科介绍中并未涉及的方面，其出现的原因可能是由于百科介绍的滞后性和描述的非主观性。

5.如权利要求书1所述的支持商品评论数据多维分析的度量计算方法，其特征是，所述的步骤（4）中的相似评论句，挖掘普通商品评论集最关注的百科介绍的主题，该过程解决方法如下：

步骤（4-1）在百科介绍中，自然段具有较强的主题独立性，所以我们将每一个自然段看作一个“方面”，每一个方面作为处理的基本块，用W={r₁,r₂,…,r_n}表示，r_i即为一个方面，即一个段落，W为一篇百科介绍，将每一个段落r_i（1≤i≤n)n为自然数,作为一篇文档，百科介绍W作为文档集，输入LDA，挖掘每个段落r_i的主题，主题以p(t|z_i)表示；

步骤（4-2）将r_i中的句子与普通商品评论集中的相似句子进行相似度比较，寻找与该段落主题中u_ij相似的句子数N_ij；其中，u_ij是主题z_i中的第j个句子；

主题的关注程度

6.如权利要求书1所述的支持商品评论数据多维分析的度量计算方法，其特征是，所述的步骤（5）从Supp_ij中生成摘要作为百科介绍的补充，其过程包含三步：

步骤（5-1）以补充评论句Supp_ij的p(t|s_ij)作为对象，进行k-means聚类；

步骤（5-2）从k-means聚类结果中得到局部主题簇，为局部主题簇中的句子计算与该段落主题中其它句子的加权总相似度，并按照大小排序，句子权重计算方法如公式下：

{weight}_{s_{ij}} = \underset{t &Element; s_{ij}}{Σ} tf (t) \cdot [\underset{i = 1}{Σ} p (t | z_{i}) \cdot p (z_{i} | s_{ij})] - - - (5)

步骤（5-3）加权总相似度最大的句子即使该段落主题的代表句。

7.根据权利要求5所述的一种支持商品评论数据多维分析的度量计算方法，其特征在于：所述的步骤（5-1）k-means聚类步骤如下：

④不断重复②和③，直到聚类不再发生变化。