CN103020851A - 一种支持商品评论数据多维分析的度量计算方法 - Google Patents

一种支持商品评论数据多维分析的度量计算方法 Download PDF

Info

Publication number
CN103020851A
CN103020851A CN2013100097587A CN201310009758A CN103020851A CN 103020851 A CN103020851 A CN 103020851A CN 2013100097587 A CN2013100097587 A CN 2013100097587A CN 201310009758 A CN201310009758 A CN 201310009758A CN 103020851 A CN103020851 A CN 103020851A
Authority
CN
China
Prior art keywords
sentence
theme
comment
encyclopaedia
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100097587A
Other languages
English (en)
Other versions
CN103020851B (zh
Inventor
郑永清
王新军
张超
彭朝晖
闫中敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANDONG DAREWAY COMPUTER SOFTWARE CO Ltd
Original Assignee
SHANDONG DAREWAY COMPUTER SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANDONG DAREWAY COMPUTER SOFTWARE CO Ltd filed Critical SHANDONG DAREWAY COMPUTER SOFTWARE CO Ltd
Priority to CN201310009758.7A priority Critical patent/CN103020851B/zh
Publication of CN103020851A publication Critical patent/CN103020851A/zh
Application granted granted Critical
Publication of CN103020851B publication Critical patent/CN103020851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明具体公开了一种支持商品评论数据多维分析的度量计算方法,该方法引入百科介绍的概念,通过LDA挖掘商品评论与主题之间的关系,将普通商品评论“结构化”集成到百科介绍中,并以主题和摘要的形式返回度量结果,使度量具有较高的可读性。本发明根据不同的维取值,获取商品评论集并将其与相关的百科介绍集成,主要包括以下步骤:(1)使用LDA计算百科介绍和商品评论集中的词汇-主题概率,利用相似度计算公式从商品评论集中找出相似评论和补充评论;(2)对于相似评论,挖掘百科介绍中“方面”的主题,并以相似数代表主题的受关注程度;(3)对于补充评论,生成摘要作为百科介绍的补充。

Description

一种支持商品评论数据多维分析的度量计算方法
技术领域
本发明涉及一种支持商品评论数据多维分析的度量计算方法。
背景技术
随着电子商务应用的发展,越来越多的电子商务用户将自己对商品的评论发表在博客、商品论坛等网络媒体,使得人们可以方便的获得从业余爱好者到行业专家所提供的各种针对商品的评论,并以此指导自己的消费。对商品评论进行数据分析,具有重要的应用价值,可以监察商品动态,了解用户的消费特征和习惯,从而可以改进商品质量,制定相应的营销策略,引导理智的消费行为,预测发展趋势。
作为一种有效分析数据的技术,OLAP能够在不同粒度上实现对多维立方体数据的交互分析。OLAP分析的基础是不同组合的维和所考查的度量指标构成的多维数组。传统的OLAP立方体主要聚焦在带有数值度量的结构化数据,例如,分析人员可能对商品销售数量随着时间推移而产生的变化感兴趣,这就是从时间的角度观察数据,时间是一个维度,销售数量是度量。随着商品评论数据重要性的日益显著,分析人员希望可以在OLAP系统中查看和分析对商品的评论,比如,从时间的推移中找出用户关注的商品方面的变化;分析人员也可以指定两种类似商品,从商品评论中查看商品的评论摘要,找出两种商品最受用户关注的区别。
在针对商品评论数据的OLAP的工作中,有一些构建文本维的方法,有的基于文本挖掘领域的主题模型,有的使用基于机器学习的信息抽取方法,在构建了文本维以后,需要对度量进行表示。通常的度量分为两种:存储度量和计算度量。存储度量是从存储的计算结果中获取,直接加载、聚合和存储进数据库;而计算度量是在查询时动态计算的值,只有计算规则存储在数据库中。在OLAP系统中,常用的计算度量有比率、差异、求和及平均值等,但对于商品评论数据,不能用常见的数值度量表示,需要研究选用新的适用的计算方法。
Yue Lu等人提出一种基于半监督话题模型的博客评论集成方法(Y.Lu and C.X.Zhai.Opinion integration through semi-supervised topic modeling.Proceedings of 2008 InternationalWWW Conference,pp.121-130,2008),本发明给出了一种基于商品评论集成的度量表示方法,与Y.Lu等人提出的方法相比,两者除了问题背景不同之外,Y.Lu等人的方法使用的是PLSA模型,PLSA并不是完备的生成式模型且参数的数量会随着文档和项的规模的增大而线性增长,而本发明是基于LDA的度量计算方法,在集成在线商品评论方面更具适应性,且相似度比较和摘要生成方法更具可行性。
发明内容
为解决现有技术存在的缺点,本发明提供了一种支持商品评论数据多维分析的度量计算方法。
本发明采用的技术方案包括以下步骤:
一种支持商品评论数据多维分析的度量计算方法,包括如下步骤:
步骤(1)用W={w1,w2,.,wn}表示百科介绍,其中wk(1≤k≤n,n为自然数)为一个百科介绍的句子,W为一篇百科介绍;
步骤(2)根据不同的维取值得到与步骤(1)中的百科介绍相关的普通商品评论集,用Co={d1,d2,…,d|c|}表示,其中|c|是Co中的文档总数,di(1≤i≤|c|)是文档,di={si1,si2,…,sij,…,si|di|},sij是第i篇文档中的第j个句子;
步骤(3)使用LDA计算百科介绍和普通商品评论集中的词汇-主题概率,然后计算百科介绍中句子和普通商品评论集中句子的相似度,找出普通商品评论集中的相似评论句Simij和补充评论句Suppij
步骤(4)根据相似评论句Simij,挖掘普通商品评论集最关注的百科介绍的主题,它反映了用户对于某个商品评论主题的关注程度;
步骤(5)从补充评论句Suppij中生成摘要作为百科介绍的补充;
步骤(6)对步骤(4)和步骤(5)得到的结果进行集成。
所述的步骤(3)主要分为6步:
步骤(3-1)以百科介绍W中的每个句子wk作为一篇文档,W作为文档集,输入LDA;
步骤(3-2)以普通商品评论集Co中的每个句子sij作为一篇文档,Co作为文档集,输入LDA;
步骤(3-3)使用LDA模型为步骤(3-1)和步骤(3-2)的文档集建模,并利用Gibbs抽样分别为LDA模型估计参数;
步骤(3-4)分别计算LDA模型为步骤(3-1)和步骤(3-2)文档建模时,各文档d的主题分布
Figure BDA00002725047900021
和主题的词汇分布
Figure BDA00002725047900022
其中,是主题zi的词汇分布,代表主题zi中各词汇t的比重;
Figure BDA00002725047900024
是文档d的主题分布,代表文档d中各隐含主题的比重,所述的文档d是指步骤(3-1)和步骤(3-2)中的任意一篇文档;
步骤(3-5)根据公式 p ( t | d ) = Σ i = 1 T φ i ( t ) θ i ( d ) - - - ( 1 )
计算每个百科介绍句子的词汇概率p(t|wk)和每个评论句子的词汇概率p(t|sij),其中,T是主题数;p(t|d)表示文档d中词汇t的概率;
步骤(3-6)结合相似度计算公式,计算p(t|sij)与p(t|wk)的相似度。
所述的Gibbs抽样算法为百科介绍的LDA模型估计参数步骤如下:
①为百科介绍和普通商品评论集中的词汇t指定一个1-T之间的随机主题(T代表的是主题数),构成初始Markov链;对于所有词汇t,根据公式分配主题,获取Markov链的下一个状态,迭代若干次数后,Markov链状态达到稳定;
②抽样算法为每个词汇估计主题,
Figure BDA00002725047900031
Figure BDA00002725047900032
由下式得到:
φ i ( t ) = n i ( t ) + β n i ( · ) + tβ - - - ( 2 )
θ i ( d ) = n i ( d ) + α n · ( d ) + Tα - - - ( 3 )
其中,α是服从狄利克雷分布的先验概率,表示在每个文档-主题分布的参数,反映了文档集合中隐含主题间的相对强弱;β是服从狄利克雷分布的先验概率,表示在每个主题-词分布的参数,反映了隐含主题的自身的概率分布;
Figure BDA00002725047900035
是分配给主题zi的词汇t的频数;
Figure BDA00002725047900036
表示分配给主题zi的所有词汇数;
Figure BDA00002725047900037
表示文档d中分配给主题zi的词汇数;
Figure BDA00002725047900038
表示文档d所有被分配了主题的词汇数。
所述的步骤(3-6)中计算p(t|sij)与p(t|wk)的相似度方法是使用句间的余弦度量,具体公式如下:
γ = Σ w k ∈ W , s ij ∈ Co p ( t | w k ) p ( t | s ij ) Σ w k ∈ W p ( t | w k ) 2 Σ s ij ∈ Co p ( t | s ij ) 2 - - - ( 4 )
γ代表了普通商品评论句sij与百科介绍句wk的相似程度,γ>δ,则两个句子是相似的;在计算过程中,阈值δ的确定需要实验结果来推断;普通商品评论集中与某一百科介绍句相似值大于δ的句子越多,则代表该句有更多的普通评论支持,即可以认为更多的人关注百科介绍的该特征;
若普通商品评论集中的普通评论句sij与百科介绍句中所有wk的相似度γ均小于阈值,则该sij与百科介绍中的所有句子均不相似,我们可以认为此sij是百科介绍的补充评论,该补充评论是普通评论中提到、但百科介绍中并未涉及的方面,其出现的原因可能是由于百科介绍的滞后性和描述的非主观性。
所述的步骤(4)中的相似评论句,挖掘普通商品评论集最关注的百科介绍的主题,该过程解决方法如下:
步骤(4-1):在百科介绍中,自然段具有较强的主题独立性,所以我们将每一个自然段看作一个“方面”,每一个方面作为处理的基本块,用W={r1,r2,…,rn}表示,ri即为一个方面,即一个段落,W为一篇百科介绍,将每一个段落ri(1≤i≤n,n为自然数)作为一篇文档,百科介绍W作为文档集,输入LDA,挖掘每个段落ri的主题,主题以p(t|zi)表示;
步骤(4-2):将ri中的句子与普通商品评论集中的相似评论句进行相似度比较,寻找与该段落主题中uij相似的句子数Nij,其中,uij是主题zi中的第j个句子;
主题的关注程度
Figure BDA00002725047900041
所述的步骤(5)从Suppij中生成摘要作为百科介绍的补充,其过程包含三步:
步骤(5-1):以补充评论集中句子的p(t|sij)作为对象,进行k-means聚类;
步骤(5-2):从k-means聚类结果中得到局部主题簇,为局部主题簇中的句子计算与该段落主题中其它句子的加权总相似度,并按照大小排序,句子权重计算方法如下:
weight s ij = Σ t ∈ S ij tf ( t ) · [ Σ i = 1 p ( t | z i ) · p ( z i | s ij ) ] - - - ( 5 )
其中,tf(t)为词汇t在句子sij中出现的次数,p(t|zi)是词汇t在主题zi的概率,p(zi|sij)是主题zi在句子sij上的概率;
步骤(5-3):加权总相似度最大的句子即是该段落主题的代表句。
所述的步骤(5-1)k-means聚类步骤简述如下:
①假设补充评论集Supp中有m个句子,聚类个数为k,我们从补充评论集Supp的m个句子中任意选择k个句子作为初始的聚类中心,m,k均为大于1的自然数,;
②对于所剩下的m-k个句子,根据相似度公式计算它们与聚类中心的相似度,根据最小距离重新对相应对象进行划分;
③重新计算每个聚类的聚类中心,即聚类中所有对象的均值;
④不断重复②和③,直到聚类不再发生变化。
上面所述的LDA的全称是Latent Dirichlet Allocation(D.M.Blei,A.Y.Ng,and M.I.Jordan.Latent dirichlet allocation.Journal ofMachine Learning Research,3:993-1022,January2003)。
百科介绍是指来自维基百科、百度百科等结构良好、主观性弱的评论。本发明利用主题模型(LDA),将客观性强、结构良好的百科介绍和主观性强的普通商品评论集成。
以评论的主题和摘要的形式表示度量,从而为用户返回可读性强和易于理解的度量表示。
本发明的有益效果是:提出了一种基于LDA的评论集成方法作为度量表示,通过LDA挖掘商品评论与主题之间的联系,结合句间相似度的计算,将商品评论集成到百科介绍之中,使商品评论的集成结果形成清晰的主题和层次性强的结构,增强了度量结果的可读性。
附图说明:
图1为本发明实施方式的框架图;
图2为本发明实施例关于Iphone4s的实验数据统计图;
图3为本发明实施例的主题关注程度排行图;
具体实施方式:
下面结合附图对发明作进一步详细的说明。
本发明支持商品评论数据多维分析的度量计算方法,包括如下步骤:
步骤(1)用W={w1,w2,.,wn}表示百科介绍,其中wk(1≤k≤n,n为自然数)为一个句子,W为一篇百科介绍;
步骤(2)根据不同的维取值得到与步骤(1)中的百科介绍相关的普通商品评论集,用Co={d1,d2,…,d|c|}表示,其中|c|是Co中的文档总数,di(1≤i≤|c|)是文档,di={si1,si2,…,sij,…,si|di|},sij是第i篇文档中的第j个句子;
步骤(3)使用LDA计算百科介绍和普通商品评论集中的词汇-主题概率,然后计算百科介绍中wk和普通商品评论集中sij的相似度,找出普通商品评论集中句子的相似评论句Simij和补充评论句Suppij
步骤(4)根据相似评论句Simij,挖掘普通商品评论集最关注的百科介绍的主题,它反映了用户对于某个商品评论主题的关注程度;
步骤(5)从Suppij中生成摘要作为百科介绍的补充;
步骤(6)对步骤(4)和步骤(5)得到的结果进行集成。
所述的步骤(3)主要分为6步:
步骤(3-1)以百科介绍W中的每个句子wk作为一篇文档,W作为文档集,输入LDA;
步骤(3-2)以普通商品评论集Co中的每个句子sij作为一篇文档,Co作为文档集,输入LDA;
步骤(3-3)使用LDA为步骤(3-1)和步骤(3-2)的文档集建模,并利用Gibbs抽样分别为LDA估计参数;
步骤(3-4)分别计算LDA模型为步骤(3-1)和步骤(3-2)文档建模时,文档的主题分布和主题的词汇分布
Figure BDA00002725047900062
其中,
Figure BDA00002725047900063
是主题zi的词汇分布,代表主题zi中各词汇t的比重;
Figure BDA00002725047900064
是文档d的主题分布,代表文档d中各隐含主题的比重;
步骤(3-5)根据公式 p ( t | d ) = Σ i = 1 T φ i ( t ) θ i ( d ) - - - ( 1 )
计算每个百科介绍句子的词汇概率p(t|wk)和每个评论句子的词汇概率p(t|sij);
步骤(3-6)结合相似度计算公式,计算p(t|sij)与p(t|wk)的相似度。
所述的Gibbs抽样算法为百科介绍的LDA模型估计参数步骤如下:
①为百科介绍和普通商品评论集中的词汇t指定一个1-T之间的随机主题(假设主题数为T),构成初始Markov链;对于所有词汇t,根据公式分配主题,获取Markov链的下一个状态,迭代若干次数后,Markov链状态达到稳定;
②抽样算法为每个词汇估计主题,
Figure BDA00002725047900066
Figure BDA00002725047900067
由下式得到:
φ i ( t ) = n i ( t ) + β n i ( · ) + tβ - - - ( 2 )
θ i ( d ) = n i ( d ) + α n · ( d ) + Tα - - - ( 3 )
其中,α是服从狄利克雷分布的先验概率,表示在每个文档-主题分布的参数,反映了文档集合中隐含主题间的相对强弱;β是服从狄利克雷分布的先验概率,表示在每个主题-词分布的参数,反映了隐含主题的自身的概率分布;
Figure BDA000027250479000610
是分配给主题zi的词汇t的频数;
Figure BDA000027250479000611
表示分配给主题zi的所有词汇数;
Figure BDA000027250479000612
表示文档d中分配给主题zi的词汇数;
Figure BDA000027250479000613
表示文档d所有被分配了主题的词汇数。
所述的步骤(3-6)所述的计算p(t|sij)与p(t|wk)的相似度方法是使用句间的余弦度量,具体公式如下:
γ = Σ w k ∈ W , s ij ∈ Co p ( t | w k ) p ( t | s ij ) Σ w k ∈ W p ( t | w k ) 2 Σ s ij ∈ Co p ( t | s ij ) 2 - - - ( 4 )
γ代表了普通商品评论句sij与百科介绍句wk的相似程度,γ>δ,则两个句子是相似的;在计算过程中,阈值δ的确定需要实验结果来推断;普通商品评论集中与某一百科介绍句相似值大于δ的句子越多,则代表该句有更多的普通评论支持,即可以认为更多的人关注百科介绍的该特征;
若普通商品评论集中的普通评论句sij与百科介绍句中所有wk的相似度γ均小于阈值,则该sij与百科介绍中的所有句子均不相似,我们可以认为此sij是百科介绍的补充评论,该补充评论是普通商品评论中提到、但百科介绍中并未涉及的方面,其出现的原因可能是由于百科介绍的滞后性和描述的非主观性。
所述的步骤(4)中的相似评论句,挖掘普通商品评论集最关注的百科介绍的主题,该过程解决方法如下:
步骤(4-1):在百科介绍中,自然段具有较强的主题独立性,所以我们将每一个自然段看作一个“方面”,每一个方面作为处理的基本块,用W={r1,r2,…,rn}表示,ri即为一个方面,即一个段落,W为一篇百科介绍,将每一个段落ri(1≤i≤n,n为自然数)作为一篇文档,百科介绍W作为文档集,输入LDA,挖掘每个段落ri的主题,主题以p(t|zi)表示;
步骤(4-2):将ri中的句子与普通商品评论集中的相似句子进行相似度比较,寻找与该段落主题中uij相似的句子数Nij。其中,uij是主题zi中的第j个句子;
主题的关注程度
Figure BDA00002725047900071
所述的步骤(5)从Suppij中生成摘要作为百科介绍的补充,其过程包含三步:
步骤(5-1):以补充评论集中句子的p(t|sij)作为对象,进行k-means聚类;
步骤(5-2):从k-means结果中得到局部主题簇,为局部主题簇中的句子计算与该段落主题中其它句子的加权总相似度,并按照大小排序,句子权重计算方法如下:
weight s ij = Σ t ∈ S ij tf ( t ) · [ Σ i = 1 p ( t | z i ) · p ( z i | s ij ) ] - - - ( 5 )
其中,tf(w)为词汇t在句子sij中出现的次数,p(t|zi)是词汇t在主题zi的概率,p(zi|sij)是主题zi在句子sij上的概率;
步骤(5-3):加权总相似度最大的句子即是该段落主题的代表句。
所述的步骤(5-1)k-means算法步骤简述如下:
①假设补充评论集Supp中有m个句子,聚类个数为k,我们从补充评论集Supp的m个句子中任意选择k个句子作为初始的聚类中心,所述的补充评论集Supp是由补充评论Suppij构成的集合;
②对于所剩下的m-k个句子,根据相似度公式计算它们与聚类中心的相似度,根据最小距离重新对相应对象进行划分;
③重新计算每个聚类的聚类中心,即聚类中所有对象的均值;
④不断重复②和③,直到聚类不再发生变化。
上面所述的LDA的全称是Latent Dirichlet Allocation(D.M.Blei,A.Y.Ng,and M.I.Jordan.Latent dirichlet allocation.Journal ofMachine Learning Research,3:993-1022,January2003)。
如附图2所示,本发明需要处理两类评论,一类是百科介绍,另一类是普通的商品评论。我们使用的数据集是来自维基百科上Iphone4s的描述,共37634词,其中去掉了索引、引用等无关信息。Iphone4s的普通评论来自Amazon.com抓取的用户评论,共751篇文档。以上数据集经过斯坦福Log-linear词性标注并去掉无用词。
(1)参数设置分析:本发明是一种基于LDA的度量计算方法,LDA模型的性能会受到主题数目T的影响,一般的,logp(t|T)越小,模型对于数据集的拟合最好。LDA的默认参数设置为α=50/T,β=0.1。本发明的数据集包括百科介绍和普通商品评论集,当T取不同值时,运行Gibbs抽样算法,不同的主题数选择对logp(t|T)有较大影响,对于百科介绍和普通商品评论集而言,当主题数分别为45和75时,logp(t|T)最大,此时模型拟合最好,因此本发明后续实验中选择T值分别为45和75。
(2)相似度阈值的确定:相似度阈值的确定是本发明的一个重要环节,它直接影响计算结果中主题的关注度和相似评论的区分。但是句子相似的评价标准主观性较强,因此采用人工判断的方法存在一定的误差。在本发明试验中,我们随机从百科介绍中抽取50条句子,调整相似度阈值,找出普通商品评论集中与这50条句子的相似句,然后计算正确率,正确率采用人工判定的正确的相似句子数与文档集的大小的比值表示。当阈值δ设置为0.6左右时,计算结果兼顾正确率和结果集大小,达到最好的效果。
(3)商品评论数据度量计算:下面对度量计算结果进行详细的说明。
商品评论数据的度量计算对于潜在消费者和分析人员把握用户对商品的态度有重要意义,实验中,我们统计sij与wk相似度γ>0.5的sij句子数量作为度量。
附图3显示的是使用LDA挖掘主题后,前7个主题的关注程度。在主题挖掘过程中,将百科介绍的每一个“方面”看做一篇文档,计算普通商品评论对每个“方面”的关注程度,“方面”以主题表示。其中,p(t|z)最高的两个词代表主题。从附图3中可以发现普通商品评论最关心的是iphone4s的新特性。例如,主题(Siri,iphone)拥有最高的关注度,而像主题(AT&T,宣称)的关注度最低,说明普通商品评论注重时效性,主观性强,对热点话题具有更高的关注。
补充评论句是对百科介绍的补充,由低于相似度阈值δ的普通商品评论集生成。对实施例中的五条相似度最高的百科介绍句和两条补充评论摘要来进行分析,从中可以发现:
①作为iphone4s显著特征,siri是消费者关注的热点;
②诸如GPS、电池、照相机、处理器等iphone4s的硬件配置是消费者发布评论时最多提及的方面;
③作为补充评论摘要,iphone4s的解锁问题是用户关注的热点,而在百科中却不会提及;
④作为补充评论摘要,近段时间沸沸扬扬的iphone4s会记录用户信息的新闻受到许多关注,而这条信息在百科中并不存在。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于发明的保护范围。

Claims (7)

1.一种支持商品评论数据多维分析的度量计算方法,其特征是,该方法包括以下步骤:
步骤(1)用W={w1,w2,.,wn}表示百科介绍,其中wk(1≤k≤n)为一个百科介绍的句子,W为一篇百科介绍,n为自然数;
步骤(2)根据不同的维取值得到与步骤(1)中的百科介绍相关的普通商品评论集,用Co={d1,d2,…,d|c|}表示,其中|c|是Co中的文档总数,di(1≤i≤|c|)是文档,di={si1,si2,…,sij,…,si|di|},sij是第i篇文档中的第j个句子;
步骤(3)使用LDA计算百科介绍和普通商品评论集中的词汇-主题概率,然后计算百科介绍中句子和普通商品评论集中句子的相似度,找出普通商品评论集中的相似评论句Simij和补充评论句Suppij
步骤(4)根据相似评论句Simij,挖掘普通商品评论集最关注的百科介绍的主题,它反映了用户对于某个商品评论主题的关注程度;
步骤(5)从补充评论句Suppij中生成摘要作为百科介绍的补充;
步骤(6)对步骤(4)和步骤(5)得到的结果进行集成。
2.如权利要求书1所述的支持商品评论数据多维分析的度量计算方法,其特征是,所述的步骤(3)中使用LDA计算百科介绍和普通商品评论集中的词汇-主题概率,包括以下步骤:
步骤(3-1)以百科介绍W中的每个句子wk作为一篇文档,W作为文档集,输入LDA;
步骤(3-2)以普通商品评论集Co中的每个句子sij作为一篇文档,Co作为文档集,输入LDA;
步骤(3-3)使用LDA模型为步骤(3-1)和步骤(3-2)的文档集建模,并利用Gibbs抽样算法分别为LDA模型估计参数;
步骤(3-4)分别计算LDA模型为步骤(3-1)和步骤(3-2)文档建模时,各个文档d的主题分布和主题的词汇分布
Figure FDA00002725047800012
其中,
Figure FDA00002725047800013
是主题zi的词汇分布,代表主题zi中各词汇t的比重;
Figure FDA00002725047800014
是文档d的主题分布,代表文档d中各隐含主题的比重,所述的文档d是指步骤(3-1)和步骤(3-2)中的任意一篇文档;
步骤(3-5)根据公式 p ( t | d ) = Σ i = 1 T φ i ( t ) θ i ( d ) - - - ( 1 )
计算每个百科介绍句子的词汇概率p(t|wk)和每个评论句子的词汇概率p(t|sij),其中,T是主题数;p(t|d)表示文档d中词汇t的概率;
步骤(3-6)结合相似度计算公式,计算p(t|sij)与p(t|wk)的相似度。
3.如权利要求书2所述的支持商品评论数据多维分析的度量计算方法,其特征是,所述的步骤(3-3)中Gibbs抽样算法分别为LDA估计参数,包括以下步骤:
①为百科介绍和普通商品评论集中的词汇t指定一个1-T之间的随机主题,构成初始Markov链;对于所有词汇t,根据公式分配主题,获取Markov链的下一个状态,迭代若干次数后,Markov链状态达到稳定,所述的T为主题数;
②抽样算法为每个词汇估计主题,
Figure FDA00002725047800021
Figure FDA00002725047800022
由下式得到;
φ i ( t ) = n i ( t ) + β n i ( · ) + tβ - - - ( 2 )
θ i ( d ) = n i ( d ) + α n · ( d ) + Tα - - - ( 3 )
其中,α是服从狄利克雷分布的先验概率,表示在每个文档-主题分布的参数,反映了文档集合中隐含主题间的相对强弱;β是服从狄利克雷分布的先验概率,表示在每个主题-词分布的参数,反映了隐含主题的自身的概率分布;
Figure FDA00002725047800025
是分配给主题zi的词汇t的频数;
Figure FDA00002725047800026
表示分配给主题zi的所有词汇数;
Figure FDA00002725047800027
表示文档d中分配给主题zi的词汇数;表示文档d所有被分配了主题的词汇数。
4.如权利要求书2所述的支持商品评论数据多维分析的度量计算方法,其特征是,所述的步骤(3-6)中计算p(t|sij)与p(t|wk)的相似度方法是使用句间的余弦度量,具体公式如下:
γ = Σ w k ∈ W , s ij ∈ Co p ( t | w k ) p ( t | s ij ) Σ w k ∈ W p ( t | w k ) 2 Σ s ij ∈ Co p ( t | s ij ) 2 - - - ( 4 )
γ代表了普通商品评论句sij与百科介绍句wk的相似程度,γ>δ,则两个句子是相似的;在计算过程中,阈值δ的确定需要实验结果来推断;普通商品评论集中与某一百科介绍句相似值大于δ的句子越多,则代表该句有更多的普通评论支持,即可以认为更多的人关注百科介绍的该特征;
若普通商品评论集中的普通评论句sij与百科介绍句中所有wk的相似度γ均小于阈值,则该sij与百科介绍中的所有句子均不相似,认为此sij是百科介绍的补充评论,该补充评论是普通评论中提到、但百科介绍中并未涉及的方面,其出现的原因可能是由于百科介绍的滞后性和描述的非主观性。
5.如权利要求书1所述的支持商品评论数据多维分析的度量计算方法,其特征是,所述的步骤(4)中的相似评论句,挖掘普通商品评论集最关注的百科介绍的主题,该过程解决方法如下:
步骤(4-1)在百科介绍中,自然段具有较强的主题独立性,所以我们将每一个自然段看作一个“方面”,每一个方面作为处理的基本块,用W={r1,r2,…,rn}表示,ri即为一个方面,即一个段落,W为一篇百科介绍,将每一个段落ri(1≤i≤n)n为自然数,作为一篇文档,百科介绍W作为文档集,输入LDA,挖掘每个段落ri的主题,主题以p(t|zi)表示;
步骤(4-2)将ri中的句子与普通商品评论集中的相似句子进行相似度比较,寻找与该段落主题中uij相似的句子数Nij;其中,uij是主题zi中的第j个句子;
主题的关注程度
Figure FDA00002725047800031
6.如权利要求书1所述的支持商品评论数据多维分析的度量计算方法,其特征是,所述的步骤(5)从Suppij中生成摘要作为百科介绍的补充,其过程包含三步:
步骤(5-1)以补充评论句Suppij的p(t|sij)作为对象,进行k-means聚类;
步骤(5-2)从k-means聚类结果中得到局部主题簇,为局部主题簇中的句子计算与该段落主题中其它句子的加权总相似度,并按照大小排序,句子权重计算方法如公式下:
weight s ij = Σ t ∈ s ij tf ( t ) · [ Σ i = 1 p ( t | z i ) · p ( z i | s ij ) ] - - - ( 5 )
其中,tf(t)为词汇t在句子sij中出现的次数,p(t|zi)是词汇t在主题zi的概率,p(zi|sij)是主题zi在句子sij上的概率;
步骤(5-3)加权总相似度最大的句子即使该段落主题的代表句。
7.根据权利要求5所述的一种支持商品评论数据多维分析的度量计算方法,其特征在于:所述的步骤(5-1)k-means聚类步骤如下:
①假设补充评论集Supp中有m个句子,聚类个数为k,我们从补充评论集Supp的m个句子中任意选择k个句子作为初始的聚类中心,所述的补充评论集Supp是由补充评论Suppij构成的集合;
②对于所剩下的m-k个句子,根据相似度公式计算它们与聚类中心的相似度,根据最小距离重新对相应对象进行划分;
③重新计算每个聚类的聚类中心,即聚类中所有对象的均值;
④不断重复②和③,直到聚类不再发生变化。
CN201310009758.7A 2013-01-10 2013-01-10 一种支持商品评论数据多维分析的度量计算方法 Active CN103020851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310009758.7A CN103020851B (zh) 2013-01-10 2013-01-10 一种支持商品评论数据多维分析的度量计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310009758.7A CN103020851B (zh) 2013-01-10 2013-01-10 一种支持商品评论数据多维分析的度量计算方法

Publications (2)

Publication Number Publication Date
CN103020851A true CN103020851A (zh) 2013-04-03
CN103020851B CN103020851B (zh) 2015-10-14

Family

ID=47969428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310009758.7A Active CN103020851B (zh) 2013-01-10 2013-01-10 一种支持商品评论数据多维分析的度量计算方法

Country Status (1)

Country Link
CN (1) CN103020851B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577542A (zh) * 2013-10-10 2014-02-12 北京智谷睿拓技术服务有限公司 应用程序的排名欺诈检测方法和排名欺诈检测系统
CN104298776A (zh) * 2014-11-04 2015-01-21 苏州大学 基于lda模型的搜索引擎结果优化系统
CN104484329A (zh) * 2014-10-31 2015-04-01 浙江工商大学 基于评论中心词时序变化分析的消费热点追踪方法及装置
CN104517224A (zh) * 2014-12-22 2015-04-15 浙江工业大学 一种网络热销商品的预测方法及系统
CN104572623A (zh) * 2015-01-12 2015-04-29 上海交通大学 一种在线lda模型的高效数据总结分析方法
CN106485507A (zh) * 2015-09-01 2017-03-08 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及系统
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
US9817904B2 (en) 2014-12-19 2017-11-14 TCL Research America Inc. Method and system for generating augmented product specifications
CN107861945A (zh) * 2017-11-01 2018-03-30 平安科技(深圳)有限公司 金融数据分析方法、应用服务器及计算机可读存储介质
CN108932637A (zh) * 2018-07-10 2018-12-04 北京邮电大学 一种方面挖掘模型的训练方法、装置及电子设备
CN108984688A (zh) * 2018-07-03 2018-12-11 蜜芽宝贝(北京)网络科技有限公司 母婴知识话题推荐方法及装置
CN110807082A (zh) * 2018-08-01 2020-02-18 北京京东尚科信息技术有限公司 质量抽检项目确定方法、系统、电子设备及可读存储介质
CN110837740A (zh) * 2019-10-31 2020-02-25 华中科技大学 一种基于词典改进lda模型的评论方面观点级挖掘方法
CN112801384A (zh) * 2021-02-03 2021-05-14 湖北民族大学 一种商品质量评估与预测方法、系统、介质、设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439597A (zh) * 2011-07-13 2012-05-02 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439597A (zh) * 2011-07-13 2012-05-02 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DAVID M.BLEI 等: "Latent Dirichlet Allocation", 《JOURNAL OF MACHINE LEARNING RESEARCH》 *
姚全珠: "基于LDA模型的文本分类研究", 《计算机工程与应用》 *
张梦笑 等: "基于LDA特征选择的文本聚类", 《电脑开发与应用》 *
杨潇 等: "主题模型LDA的多文档自动文摘", 《智能系统学报》 *
杨潇 等: "主题模型LDA的多文档自动文摘", 《智能系统学报》, vol. 5, no. 2, 15 April 2010 (2010-04-15) *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577542A (zh) * 2013-10-10 2014-02-12 北京智谷睿拓技术服务有限公司 应用程序的排名欺诈检测方法和排名欺诈检测系统
CN104484329A (zh) * 2014-10-31 2015-04-01 浙江工商大学 基于评论中心词时序变化分析的消费热点追踪方法及装置
CN104484329B (zh) * 2014-10-31 2018-07-06 浙江工商大学 基于评论中心词时序变化分析的消费热点追踪方法及装置
CN104298776B (zh) * 2014-11-04 2017-12-22 苏州大学 基于lda模型的搜索引擎结果优化系统
CN104298776A (zh) * 2014-11-04 2015-01-21 苏州大学 基于lda模型的搜索引擎结果优化系统
US9817904B2 (en) 2014-12-19 2017-11-14 TCL Research America Inc. Method and system for generating augmented product specifications
CN104517224A (zh) * 2014-12-22 2015-04-15 浙江工业大学 一种网络热销商品的预测方法及系统
CN104517224B (zh) * 2014-12-22 2017-09-29 浙江工业大学 一种网络热销商品的预测方法及系统
CN104572623A (zh) * 2015-01-12 2015-04-29 上海交通大学 一种在线lda模型的高效数据总结分析方法
CN106485507B (zh) * 2015-09-01 2019-10-18 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及系统
CN106485507A (zh) * 2015-09-01 2017-03-08 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及系统
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN107861945A (zh) * 2017-11-01 2018-03-30 平安科技(深圳)有限公司 金融数据分析方法、应用服务器及计算机可读存储介质
WO2019085332A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 金融数据分析方法、应用服务器及计算机可读存储介质
CN108984688A (zh) * 2018-07-03 2018-12-11 蜜芽宝贝(北京)网络科技有限公司 母婴知识话题推荐方法及装置
CN108932637A (zh) * 2018-07-10 2018-12-04 北京邮电大学 一种方面挖掘模型的训练方法、装置及电子设备
CN108932637B (zh) * 2018-07-10 2020-09-25 北京邮电大学 一种方面挖掘模型的训练方法、装置及电子设备
CN110807082A (zh) * 2018-08-01 2020-02-18 北京京东尚科信息技术有限公司 质量抽检项目确定方法、系统、电子设备及可读存储介质
CN110837740A (zh) * 2019-10-31 2020-02-25 华中科技大学 一种基于词典改进lda模型的评论方面观点级挖掘方法
CN112801384A (zh) * 2021-02-03 2021-05-14 湖北民族大学 一种商品质量评估与预测方法、系统、介质、设备

Also Published As

Publication number Publication date
CN103020851B (zh) 2015-10-14

Similar Documents

Publication Publication Date Title
CN103020851B (zh) 一种支持商品评论数据多维分析的度量计算方法
Wang et al. Multiple affective attribute classification of online customer product reviews: A heuristic deep learning method for supporting Kansei engineering
TWI612488B (zh) 用於預測商品的市場需求的計算機裝置與方法
Wehrheim Economic history goes digital: topic modeling the Journal of Economic History
CN103207899B (zh) 文本文件推荐方法及系统
Hu et al. Review sentiment analysis based on deep learning
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
US10459996B2 (en) Big data based cross-domain recommendation method and apparatus
CN103559262A (zh) 基于社区的作者及其学术论文推荐系统和推荐方法
CN103440329A (zh) 权威作者和高质量论文推荐系统和推荐方法
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
Wang et al. Customer-driven product design selection using web based user-generated content
Wang et al. Collaborative filtering with aspect-based opinion mining: A tensor factorization approach
CN103440242A (zh) 一种基于用户搜索行为的个性化推荐方法和系统
Bijak et al. Modelling LGD for unsecured retail loans using Bayesian methods
Huang et al. Sentiment classification of crowdsourcing participants’ reviews text based on LDA topic model
CN102495837B (zh) 一种数字信息推荐预测模型的训练方法和系统
Kışınbay The use of encompassing tests for forecast combinations
CN108572988A (zh) 一种房产评估数据生成方法和装置
Gao et al. Pattern-based topic models for information filtering
Qian et al. Community-based user domain model collaborative recommendation algorithm
Jowaheer et al. A BINAR (1) time-series model with cross-correlated COM–Poisson innovations
Ding et al. TDTMF: a recommendation model based on user temporal interest drift and latent review topic evolution with regularization factor
CN107766419A (zh) 一种基于阈值去噪的TextRank文档摘要方法及装置
Zhu et al. Topic correlation and individual influence analysis in online forums

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 250101 Room 516, E, Qilu Software Park, Ji'nan hi tech Zone, Shandong

Applicant after: Dareway Software Co., Ltd.

Address before: 250101 Room 516, E, Qilu Software Park, Ji'nan hi tech Zone, Shandong

Applicant before: Shandong Dareway Computer Software Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: SHANDONG DAREWAY COMPUTER SOFTWARE CO.,LTD. TO: DAREWAY SOFTWARE CO., LTD.

C14 Grant of patent or utility model
GR01 Patent grant