CN103279460B - 网购评论的分析处理方法 - Google Patents

网购评论的分析处理方法 Download PDF

Info

Publication number
CN103279460B
CN103279460B CN201310198515.2A CN201310198515A CN103279460B CN 103279460 B CN103279460 B CN 103279460B CN 201310198515 A CN201310198515 A CN 201310198515A CN 103279460 B CN103279460 B CN 103279460B
Authority
CN
China
Prior art keywords
word
commodity
vocabulary
comment
viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310198515.2A
Other languages
English (en)
Other versions
CN103279460A (zh
Inventor
许大伦
毛颖
张立群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lele Kaihang (Beijing) Education Technology Co., Ltd.
Original Assignee
BEIJING SHANGYOU TONGDA INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING SHANGYOU TONGDA INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING SHANGYOU TONGDA INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310198515.2A priority Critical patent/CN103279460B/zh
Publication of CN103279460A publication Critical patent/CN103279460A/zh
Application granted granted Critical
Publication of CN103279460B publication Critical patent/CN103279460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网购评论的分析处理方法,其特征在于,包括:从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;根据提取出的所述观点词确定所述观点词的情感倾向;根据情感倾向和特征观点对,计算出每个特征在该商品上的情感分布函数v,以及每个特征在该商品所属小类上的情感分布函数vC;根据v和vC的偏差得到该商品上不同特征词的分数,将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。本发明采用评论的平均值偏差理论,实现有效筛选出对用户最有参考价值的商品评论观点;同时还可直接筛选出用户最关心的商品有别于其他同类商品的优点和缺点,极大增加了参考信息的价值。

Description

网购评论的分析处理方法
技术领域
本发明涉及网络技术领域,具体地说,是涉及一种网购评论的分析处理方法。
背景技术
随着信息技术的进一步发展,互联网已经成为当今社会人们获取信息的重要渠道。互联网快捷、方便的特性,以及强大的交互能力,为人们交流思想、阐明观点、发表意见提供了新的平台。
由于受到互联网迅猛发展的影响,一个崭新的领域应运而生----电子商务。电子商务是在全球各地广泛的商业贸易活动中,在互联网开放的网络环境下,基于浏览器或服务器应用方式,买卖双方不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。
正因为电子商务是不谋面的商贸活动,所交易的商品并不能直观地展现在购买者面前,只能以文字描述或图片的形式展现,所以当人们通过网络购物后,会对所购买的商品做出评价,从而反映出商品的质量好坏、商品特征或实用性等信息,这样的评价对其他的购买者有着重要的参考作用。
在现有技术中,为了方便购物者获得商品的客观的评价信息,往往采用特定的评论分析方法,但是,当前的评论分析方法只是仅仅针对评论的自然语言本身进行处理。举例来说,某些商品的评论并不能突出地反应该商品的特性信息,如“暂时还没有发现任何缺点”,这样的评论不能明显的看出商品的好坏、实用性等信息,所以,单从评论的自然语言本身进行分析处理,并不能筛选出对用户最有参考价值的商品评论观点。
因此,如何筛选出对用户最有参考价值的商品评论观点,便成为亟待解决的技术问题。
发明内容
本发明所要解决的技术问题是提供一种网购评论的分析处理方法,以解决现有技术中评论分析方法对评论的自然语言本身进行分析处理,无法达到筛选出对用户最有参考价值的商品评论观点。
为解决上述技术问题,本发明提供了一种网购评论的分析处理方法,其特征在于,包括:
从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;
根据提取出的所述观点词确定所述观点词的情感倾向;
根据所述情感倾向和所述特征观点对,计算出每个特征在该商品上的情感分布函数v,以及每个特征在该商品所属小类上的情感分布函数vC;
根据v和vC的偏差得到该商品上不同特征词的分数,将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。
优选地,其中,所述从某商品的网购评论中提取出的观点词和特征词,进一步为:对某商品的网购评论中以形容词为主出现的词汇的比例和频率进行统计,将统计值最高的一个或多个词汇作为观点词,以及通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词。
优选地,其中,所述通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词,进一步为:从某商品的网购评论中的选取出名词或词组为主的词汇,计算每个词汇在该商品所在小类的支持度值,以及该小类所属大类的支持度值;通过设置的条件将符合条件的名词或词组为主的词汇作为特征词。
优选地,其中,所述通过设置的条件将符合条件的名词或词组为主的词汇作为特征词,进一步包括:通过设置的最低小类的支持度的阈值、最低大类的支持度的阈值、以及停用词表,判断选取出的名词或词组为主的词汇在该商品所在小类的支持度值是否大于最低小类的支持度的阈值,或者,判断选取出的名词或词组为主的词汇在该商品所在小类所属大类的支持度值是否大于最低大类的支持度的阈值,当上述条件之一满足时,判断该名词或词组为主的词汇是否出现在所述停用词表中,如没有出现,则将该名词或词组为主的词汇作为特征词。
优选地,其中,所述根据提取出的所述观点词确定所述观点词的情感倾向,进一步为:根据设置所述观点词的情感倾向向量,对提取出的所述观点词确定其情感倾向值,如该观点词的情感倾向值高于设置的判断方向值,且通过否定词表中的否定词并没有出现在该观点词前/后时,则该观点词的情感倾向为正向;
如低于设置的的判断方向值,或通过否定词表中的否定词判断出在该观点词前/后出现时,则该观点词的情感倾向为负向。
优选地,其中,所述根据v和vC的偏差得到该商品上不同特征词的分数,进一步为:根据v和vC的偏差通过1-cos(v,vC)的方式得到该商品上不同特征词的分数。
优选地,其中,进一步为:根据v和vC的偏差通过(1-cos(v,vC))*log2(pos+neu+neg+1)的方式得到该商品上不同特征词的分数。
与现有技术相比,本发明所述的一种网购评论的分析处理方法,达到了如下效果:
1)本发明采用评论的平均值偏差理论,实现有效筛选出对用户最有参考价值的商品评论观点。
2)本发明可直接筛选出用户最关心的商品有别于其他同类商品的卖点(优点)和缺点,极大增加了参考信息的价值。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的一种网购评论的分析处理方法的流程示意框图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
如图1所示,是本发明实施例所述的一种网购评论的分析处理方法流程,包括:
步骤101,从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;
步骤102,根据提取出的所述观点词确定所述观点词的情感倾向;
步骤103,根据所述情感倾向和所述特征观点对,计算出每个特征在该商品上的情感分布函数v(v=<pos,neu,neg>;其中pos、neu、neg、分别表示该特征在好评、中评、差评中被提及次数的期望值),以及每个特征在该商品所属小类上的情感分布函数vC(vC=<posC,neuC,negC>);
步骤104,根据v和vC的偏差(本发明实际上采用的是平均值偏差理论来操作)得到该商品上不同特征词的分数(该特征词的分数也就是属性分数,后续不再赘述),将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。
其中,进一步地,对于步骤101来说,其中从某商品的网购评论中提取出的观点词和特征词,这一过程具体为:
对某商品的网购评论中以形容词为主出现的词汇的比例和频率进行统计,将统计值最高的一个或多个词汇作为观点词,以及通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词。
其中,对某商品的网购评论中以形容词为主出现的词汇的比例和频率进行统计,将统计值最高的一个或多个词汇作为观点词。这一过程中对以形容词为主出现的词汇的比例和频率进行统计,在本实施例中主要是统计正面评论中出现的比例和频率,通过设定的规则(所谓设定的规则主要是通过一些筛选工具筛选出表达意义明确的词汇作为后续用到的观点词)判断出以形容词为主出现的词汇,将统计值最高的一个或多个词汇作为观点词。
其中,通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词。这一过程中在本实施例中具体为:
1)从某商品的网购评论中的选取出名词或词组为主的词汇,计算每个词汇在该商品所在小类的支持度值(即有百分之多少的评论提到了这个词),以及该小类所属大类的支持度值;
2)通过设置的条件(即最低小类的支持度的阈值、最低大类的支持度的阈值、以及停用词表)将符合条件的名词或词组为主的词汇作为特征词;
(即通过设置的最低小类的支持度的阈值、最低大类的支持度的阈值、以及停用词表,判断选取出的名词或词组为主的词汇在该商品所在小类的支持度值是否大于最低小类的支持度的阈值,或者,判断选取出的名词或词组为主的词汇在该商品所在小类所属大类的支持度值是否大于最低大类的支持度的阈值,当上述条件之一满足时,判断该名词或词组为主的词汇是否出现在所述停用词表中,如没有出现,则将该名词或词组为主的词汇作为特征词)。
这里所述的停用词表,为全局手工维护的一个停用词表。这个停用词表虽然是人工维护的,本实施例主要是挑出现频率高的词不能体现特征的词或词组作为停用词放入停用词表,其实量并不大(目前本实施例只有100多个,本领域技术人员经过统计在全部网购商品上,停用词不会超过500个左右)。对于上述“选取出的名词或词组为主的词汇在该商品所在小类的支持度值是否大于最低小类的支持度的阈值,或者,选取出的名词或词组为主的词汇在该商品所在小类所属大类的支持度值是否大于最低大类的支持度的阈值”之所以采用或的条件,是为了每个小类既可以稳定地从大类中继承一些常用属性,又可以具有一些自己具有的特殊属性。
进一步地,对于步骤101来说,其中,将所述观点词和特征词组成特征观点对;这一过程具体为:根据所述特征词所在位置,查找其之后或之前的词或词组中是否提及所述观点词,如提及则将所述观点词与所述特征词合并后组成特征观点对。
进一步地,对于步骤102,根据提取出的所述观点词确定所述观点词的情感倾向;这一过程具体为:
1)设置所述观点词的情感倾向向量(A)为A=<#pos,#neu,#neg>/<#pos+#neu+#neg>,其中,#pos代表好评数量,#neu代表中评数量,#neg代表差评数量;
2)根据设置的所述观点词的情感倾向向量,对提取出的所述观点词确定其情感倾向值,如该观点词的情感倾向值高于设置的判断方向值,且通过否定词表中的否定词并没有出现在该观点词前/后时,则该观点词的情感倾向为正向;
如低于设置的的判断方向值,或通过否定词表中的否定词判断出在该观点词前/后出现时,则该观点词的情感倾向为负向;(本实施例中0.5以上是正向,以下是负向。但实际当中,由于数据中负向评论质量比较差(许多评论例如都是:“暂时还没有发现任何缺点”),因此这个阈值(设置的判断方向值)要偏高一点,一般来说0.7以上是正向,以下是负向)。
其中,所述否定词表中的否定词的初始设置,一般是通过先把所有观点词的前一个词都收集出来,作为候选否定词。对于每个候选否定词,计算其平均否定强度,并按这个值排序。从平均否定强度比较高的否定词中挑出作为否定词表的否定词。
进一步地,对于步骤104来说,根据v和vC的偏差可以通过1-cos(v,vC)的方式得到该商品上不同特征词的分数,由于光用这个计算会导致结果倾向于选出现次数少的属性。当然为了更准确的得到该商品上不同特征词的分数,一般采用(1-cos(v,vC))*log2(pos+neu+neg+1),这里主要是希望选出现次数比较多的属性(热门属性)。
本发明实施例通过上述方法,可以直接从海量的商品评论中,轻松的摘取出任何一个商品的最突出的优点和缺点评论(例如:5个优点和3个缺点),从而获得该商品的一个概观认识,给网购用户提供有价值的参考信息。
与现有技术相比,本发明所述的一种网购评论的分析处理方法,达到了如下效果:
1)本发明采用评论的平均值偏差理论,实现有效筛选出对用户最有参考价值的商品评论观点。
2)本发明可直接筛选出用户最关心的商品有别于其他同类商品的卖点(优点)和缺点,极大增加了参考信息的价值。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种网购评论的分析处理方法,其特征在于,包括:
从某商品的网购评论中提取出的观点词和特征词,将所述观点词和特征词组成特征观点对;
根据提取出的所述观点词确定所述观点词的情感倾向,其中,设置所述观点词的情感倾向向量(A)为A=<#pos,#neu,#neg>/<#pos+#neu+#neg>,#pos代表好评数量,#neu代表中评数量,#neg代表差评数量,根据设置所述观点词的情感倾向向量,对提取出的所述观点词确定其情感倾向值,如该观点词的情感倾向值高于设置的判断方向值,且通过否定词表中的否定词并没有出现在该观点词前/后时,则该观点词的情感倾向为正向;
如低于设置的判断方向值,或通过否定词表中的否定词判断出在该观点词前/后出现时,则该观点词的情感倾向为负向;
其中,所述否定词表中的否定词的初始设置,是通过把所有观点词的前一个词都收集出来,作为候选否定词,对于每个候选否定词,计算其平均否定强度,并按这个值排序,从平均否定强度比较高的否定词中挑出作为否定词表的否定词;
根据所述情感倾向和所述特征观点对,计算出每个特征在该商品上的情感分布函数v,以及每个特征在该商品所属小类上的情感分布函数vC;
根据v和vC的偏差得到该商品上不同特征词的分数,将分数值最高和/或最低的多个特征词作为该商品的优缺点评论。
2.如权利要求1所述的网购评论的分析处理方法,其特征在于,所述从某商品的网购评论中提取出的观点词和特征词,进一步为:对某商品的网购评论中以形容词为主出现的词汇的比例和频率进行统计,将统计值最高的一个或多个词汇作为观点词,以及通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词。
3.如权利要求2所述的网购评论的分析处理方法,其特征在于,所述通过设置的条件从某商品的网购评论中选取出以名词为主的词汇进行统计,将统计值最高的一个或多个词汇作为特征词,进一步为:从某商品的网购评论中的选取出名词或词组为主的词汇,计算每个词汇在该商品所在小类的支持度值,以及该小类所属大类的支持度值;通过设置的条件将符合条件的名词或词组为主的词汇作为特征词。
4.如权利要求3所述的网购评论的分析处理方法,其特征在于,所述通过设置的条件将符合条件的名词或词组为主的词汇作为特征词,进一步包括:通过设置的最低小类的支持度的阈值、最低大类的支持度的阈值、以及停用词表,判断选取出的名词或词组为主的词汇在该商品所在小类的支持度值是否大于最低小类的支持度的阈值,或者,判断选取出的名词或词组为主的词汇在该商品所在小类所属大类的支持度值是否大于最低大类的支持度的阈值,当上述条件之一满足时,判断该名词或词组为主的词汇是否出现在所述停用词表中,如没有出现,则将该名词或词组为主的词汇作为特征词。
5.如权利要求1所述的网购评论的分析处理方法,其特征在于,所述根据v和vC的偏差得到该商品上不同特征词的分数,进一步为:根据v和vC的偏差通过1-cos(v,vC)的方式得到该商品上不同特征词的分数。
6.如权利要求5所述的网购评论的分析处理方法,其特征在于,进一步为:根据v和vC的偏差通过(1-cos(v,vC))*log2(pos+neu+neg+1)的方式得到该商品上不同特征词的分数,其中,所述pos、所述neu、所述neg分别表示该特征在好评、中评、差评中被提及次数的期望值。
CN201310198515.2A 2013-05-24 2013-05-24 网购评论的分析处理方法 Active CN103279460B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310198515.2A CN103279460B (zh) 2013-05-24 2013-05-24 网购评论的分析处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310198515.2A CN103279460B (zh) 2013-05-24 2013-05-24 网购评论的分析处理方法

Publications (2)

Publication Number Publication Date
CN103279460A CN103279460A (zh) 2013-09-04
CN103279460B true CN103279460B (zh) 2017-02-08

Family

ID=49061985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310198515.2A Active CN103279460B (zh) 2013-05-24 2013-05-24 网购评论的分析处理方法

Country Status (1)

Country Link
CN (1) CN103279460B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183731B (zh) * 2014-06-04 2020-01-21 腾讯科技(深圳)有限公司 推荐信息生成方法、装置及系统
CN105260899A (zh) * 2015-10-27 2016-01-20 清华大学深圳研究生院 一种电商主体可信度评价方法及系统
CN108121734A (zh) * 2016-11-29 2018-06-05 北京国双科技有限公司 文本的情感倾向判断方法及装置
CN108363805B (zh) * 2018-03-01 2020-09-29 大连理工大学 一种基于产品特征口碑的产品排序方法
CN110825876B (zh) * 2019-11-07 2022-07-15 上海德拓信息技术股份有限公司 电影评论观点情感倾向性分析方法
CN113220893B (zh) * 2021-07-09 2021-10-01 北京邮电大学 基于情感分析的产品反馈分析系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760264A (zh) * 2011-04-29 2012-10-31 国际商业机器公司 为互联网上的评论生成摘录的计算机实现的方法和系统
CN102968408A (zh) * 2012-11-23 2013-03-13 西安电子科技大学 识别用户评论的实体特征方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901230A (zh) * 2009-05-31 2010-12-01 国际商业机器公司 信息检索方法和用户评论处理方法及其系统
CN102867028B (zh) * 2012-08-28 2015-10-14 北京邮电大学 一种应用于搜索引擎的情感映射方法与情感句型分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760264A (zh) * 2011-04-29 2012-10-31 国际商业机器公司 为互联网上的评论生成摘录的计算机实现的方法和系统
CN102968408A (zh) * 2012-11-23 2013-03-13 西安电子科技大学 识别用户评论的实体特征方法

Also Published As

Publication number Publication date
CN103279460A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
CN103279460B (zh) 网购评论的分析处理方法
CN108694647B (zh) 一种商户推荐理由的挖掘方法及装置,电子设备
CN103778214B (zh) 一种基于用户评论的商品属性聚类方法
TWI640878B (zh) Query word fusion method, product information publishing method, search method and system
TWI512653B (zh) Information providing method and apparatus, method and apparatus for determining the degree of comprehensive relevance
CN103218719B (zh) 一种电子商务网站导航方法及系统
CN108038696B (zh) 基于设备标识码和社交群组信息的刷单检测方法及系统
CN108320213A (zh) 电商商品推荐方法和电商平台服务器
TW201342290A (zh) 基於交易平台的供應商資訊搜索方法和裝置
CN103577988A (zh) 一种识别特定用户的方法和装置
CN106296368A (zh) 一种车型推荐系统和方法
Lu et al. FACTORS INFLUENCING ONLINE AUCTION SELLERS'INTENTION TO PAY: AN EMPIRICAL STUDY INTEGRATING NETWORK EXTERNALITIES WITH PERCEIVED VALUE
CN102789449B (zh) 对评论文本进行评价的方法和装置
CN108648038A (zh) 一种基于子图挖掘的信用炒作与恶意评价识别方法
CN117151826B (zh) 多模态电商商品对齐方法、装置、电子设备及存储介质
CN112581238A (zh) 一种电商商品展示系统及其工作方法
Rangari et al. An Empirical Analysis of Different Techniques for Spam Detection
CN109118243A (zh) 一种产品分享、有用评价识别、推送方法和服务器
TWI535279B (zh) 電視節目導購系統及其方法
WO2008025291A1 (fr) Système et procédé de présentation d&#39;articles
CN113609319A (zh) 商品搜索方法、装置和设备
CN106294346A (zh) 一种论坛帖子识别方法及装置
TWI626609B (zh) Production method and system for personal product and expense purchase combination
CN107886412A (zh) 一种大数据下的网上商城中商品过滤展示方法
KR101714013B1 (ko) 쇼핑 서비스 제공 장치, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190924

Address after: 100088 Beijing Haidian District Garden Road No. 13 Courtyard 7 Floor 12, 1203-1

Patentee after: Lele Kaihang (Beijing) Education Technology Co., Ltd.

Address before: 100085, room 2, building 5, building 1, No. 516, ten Street, Haidian District, Beijing

Patentee before: Beijing Shangyou Tongda Information Technology Co., Ltd.