CN108363805B - 一种基于产品特征口碑的产品排序方法 - Google Patents

一种基于产品特征口碑的产品排序方法 Download PDF

Info

Publication number
CN108363805B
CN108363805B CN201810171084.3A CN201810171084A CN108363805B CN 108363805 B CN108363805 B CN 108363805B CN 201810171084 A CN201810171084 A CN 201810171084A CN 108363805 B CN108363805 B CN 108363805B
Authority
CN
China
Prior art keywords
product
word
characteristic
emotion
products
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810171084.3A
Other languages
English (en)
Other versions
CN108363805A (zh
Inventor
杨弦
杨光飞
吴江宁
党延忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201810171084.3A priority Critical patent/CN108363805B/zh
Publication of CN108363805A publication Critical patent/CN108363805A/zh
Application granted granted Critical
Publication of CN108363805B publication Critical patent/CN108363805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据挖掘技术领域,提供一种基于产品特征口碑的产品排序方法,步骤如下:1)识别产品特征,对候选产品的所有评论进行分词、词性标注以及剪枝处理,建立产品特征集;2)根据得到的产品特征集,识别产品特征的意见词,计算产品特征的情感分值;3)识别文本评论中产品特征的比较关系;4)根据产品的产品特征情感分值以及关于产品特征与其他产品比较获得的票数,计算产品特征的口碑分值,得到产品的特征口碑分值后,可基于各个产品特征的口碑对产品进行降序排列。本发明提出的基于产品特征口碑的产品排序方法,能针对不同且多维的产品特征对产品口碑进行排序,结合更全面的异质信息,提供的排序结果更精确可靠。

Description

一种基于产品特征口碑的产品排序方法
技术领域
本发明属于数据挖掘技术领域,涉及到一种量化文本评论中产品特征的口碑信息并对产品进行排序的方法。
背景技术
基于口碑的产品排序能够避免信息过载,为电子商务网站的消费者和商家提供有效的决策支持,因此也成为了相关领域的研究重点和热点。在线评论是产品口碑的一种重要形式,目前电子商务网站的在线评论主要有评分(1-5星)和文本评论两种类型。这些网站对产品的口碑进行排序时,一般都忽略了文本评论,只考虑评分作为产品的总口碑对产品进行排序。然而,文本评论的内容更详细,包含了丰富的产品特征(如:手机的产品特征—性价比、续航能力、外观等)的口碑信息。因此,通过挖掘文本评论的内容,对产品特征的口碑进行排序更有效。
关于挖掘文本评论内容,比较产品特征口碑的方法,主要有Liu等提出的量化文本评论中的产品特征口碑的方法,参考文献(B.Liu,M.Hu,J.Cheng,Opinion observer:Analyzing and comparing opinions on the web,Proceedings of the 14thInternational Conference on World Wide Web 2005,pp.342–351.B.Liu,SentimentAnalysis and Subjectivity,Handbook of Natural Language Processing,second ed.,2010.)。该方法的优点是能直观地对产品特征的评价好坏进行比较,但该方法只考虑了产品特征的积极和消极评价的数量,没有对产品特征的情感进行量化,不能对多个产品进行排序。同时该方法没有考虑文本评论中产品之间的比较关系,而比较关系是产品排序的一个重要信息,因此会使排序结果不可靠。
目前,基于口碑的产品排序方法,结合了文本评论中产品之间口碑的比较关系,得到的排序结果更可靠,具体可参考(X.Yang,G.Yang,J.Wu.Integrating rich andheterogeneous information to design a ranking system for multipleproducts.Decision Support Systems,Volume 84,April 2016,pp.117-133。杨弦,党延忠,吴江宁.基于网络客户评论的产品口碑排序方法.运筹与管理,2017,Vol.26,No.11,1-6.)。这些方法只能得到一个总的产品口碑的排序,不能基于产品的各个特征的口碑对产品进行排序。关于各产品特征口碑的产品排序方法,具体可参考(K.Zhang,R.Narayanan,A.Choudhary,Voice of the customers:mining online customer reviews for productfeature-based ranking,Proceedings of 3rd Workshop on Online Social Networks,2010.)。该论文提出的方法也存在以下不足:首先,该方法用到的文本挖掘方法,如产品特征抽取以及情感分类都是针对英文的文本评论,不能直接用于中文文本评论的处理;其次,关于比较关系抽取时,该论文的方法只粗粒度的抽取了产品之间的比较关系,没有细粒度的对产品特征之间的比较关系进行识别,建立的产品特征之间的比较关系不精确。最后,产品排序时,产品特征的情感分值没有考虑产品特征的重要程度,会导致排序结果有偏差。
发明内容
针对传统基于产品特征口碑的产品排序方法的局限性,本发明提出了一种集成产品特征情感和产品特征比较关系的产品口碑排序方法。通过识别文本评论中提到的产品特征,得到了一个产品特征集合。接着识别产品特征的意见词,对产品特征的情感倾向进行量化,得到各产品的产品特征情感分值。然后识别文本评论中的比较句子,并识别产品之间关于产品特征的比较关系。最后考虑产品特征的重要性,结合产品特征的情感分值以及和其他产品的比较关系,计算各产品的特征口碑分值。并基于不同产品特征的口碑对产品进行排序。
为了达到上述目的,本发明的技术方案如下:
一种基于产品特征口碑的产品排序方法,包括以下步骤:
(1)识别产品特征
利用中科院中文分词系统ICTCLAS(http://www.ictclas.org/)对候选产品的所有评论进行分词和词性标注处理,识别出名词或名词短语,建立产品特征的候选词集。对候选词集进行剪枝处理。具体分两步:1)单字剪枝,删除只含有一个中文字符的词;2)同义词剪枝,利用哈尔滨工业大学的同义词词林,结合产品特征的候选词集,建立产品特征的同义词词集。每组同义词选择一个示例代表所有同义词,并用该词代替同组的其他词。最后,对候选集中的特征词进行词频统计,选取词频较高的特征词作为最终的产品特征词。假设f为产品特征,则可得到产品特征集{f1,f2,…,fi,…fn},其中i=1,2,…n.n表示产品特征词的总数。
(2)根据得到的产品特征集,计算产品特征的情感分值,步骤如下:
首先,抽取产品特征的意见词,即每个产品特征附近的形容词或副词,组成产品特征的意见词集合,如产品特征fi的意见词集合为{fio1,fio2,…,fioj…fiom},j=1,2,…m.m表示产品特征fi的意见词的总数。
然后,对意见词的情感极性进行分析。意见词的情感可以分为积极情感倾向和消极情感倾向两类。参考知网中文词库HowNet提供的中文情感词词典,该词典共包含7个词典列表,如表1所示,分别包含积极情感词列表(POS)、消极情感词列表(NEG)以及5个情感强度列表(Wl,l=1,2,3,4,5),其中1-5的权重分配代表从弱到强的情感。通过情感词词典,对每一个意见词进行赋值打分。具体步骤如下:首先判断情感词极性,若在积极情感词列表中出现,则赋值为1;若在消极情感词列表中出现,则赋值为-1;否则,赋值为0。其次,判断该意见词前两个词中是否出现情感强度词,若存在,则在上一步的结果基础上乘以相应的权重,由此可得到产品r关于产品特征fi的意见词oj的情感分值
Figure BDA0001585836090000021
Figure BDA0001585836090000031
其中,eoj表示意见词的情感类别,wl表示意见词的情感强度,其计算公式如下:
Figure BDA0001585836090000032
Figure BDA0001585836090000033
最后,通过意见词的情感分值,根据公式(4),计算产品关于各产品特征的情感分值
Figure BDA0001585836090000034
Figure BDA0001585836090000035
其中,
Figure BDA0001585836090000036
的取值范围是[-5,5],
Figure BDA0001585836090000037
表示该产品特征的情感倾向非常消极,
Figure BDA0001585836090000038
表示该产品特征的情感倾向非常积极。
表1情感词词典列表的描述
Figure BDA0001585836090000039
(3)识别文本评论中产品特征的比较关系
比较句子往往都包含了比较关键词,如,“苹果8这款手机与三星galaxy S8比性价比高很多”。因此可以通过识别文本评论中的比较关键词“比”来识别比较句子,从而识别各产品特征的比较关系。
通过构建的比较关键词列表(如表2所示),识别出文本评论中的比较句子。基于识别的比较句子,抽取各产品关于产品特征的比较关系。关于产品特征fi,两个产品Pr和Ps的比较关系可定义为:
Figure BDA0001585836090000041
如果关于产品特征fi,产品Pr的评价比产品Ps好,则VS(Pr|Pr,Ps)等于1,否则为0。例如,比较句子为:“苹果8这款手机与三星galaxy S8比性价比高很多”,则关于产品特征“性价比”,产品“苹果8”比“galaxyS8”的评价好,则这两个产品关于“性价比”的比较关系为(1,0)。
考虑所有的产品特征和比较句子,则关于产品特征fi产品Pr相比于产品Ps获得的票数计算公式如下:
Figure BDA0001585836090000042
其中,k表示关于产品特征fi产品Pr与产品Ps比较关系的数量。
表2比较关键词列表
Figure BDA0001585836090000043
(4)计算产品的产品特征口碑分值
得到产品的产品特征情感分值,以及关于产品特征与其他产品比较获得的票数后,结合这两种信息,计算产品特征的口碑分值。产品特征口碑分值计算主要依据以下几个假设:
1)关于某一个产品特征,在不同的产品的文本评论中被用户提及的次数是不均衡的,产品特征被提及的次数越多,评价越可信,则对该产品的特征情感分值应该赋予更高的信用权重,反之亦然。定义信用权重的计算公式为:
Figure BDA0001585836090000044
其中,
Figure BDA0001585836090000045
取值范围为[0,1],
Figure BDA0001585836090000046
表示产品Pr的特征fi在文本评论中提到的次数,h表示产品的总数量。
2)产品的特征情感分值越高,则该产品的特征总口碑分值越高;产品的特征获得的比较票数越多,则该产品的特征总口碑分值越高。因此,结合这两种口碑信息,得到产品的特征总口碑分值,计算公式如下:
Figure BDA0001585836090000051
其中,
Figure BDA0001585836090000052
表示产品Pr关于特征fi的口碑分值,
Figure BDA0001585836090000053
表示与产品Pr有比较关系的产品Ps关于特征fi的口碑分值。得到产品的特征口碑分值后,可基于各个产品特征的口碑对产品进行降序排列。
本发明的有益效果为:本发明提出的基于产品特征口碑的产品排序方法,能针对不同且多维的产品特征对产品口碑进行排序,结合更全面的异质信息,提供的排序结果更精确可靠。
具体实施方式
以下具体阐述本发明的实施方案,以三个手机产品P1,P2,P3为例。
第一步,识别产品特征,对三个手机产品的所有文本评论进行处理,识别出产品特征,产品特征按被提及的频次进行降序排列,被提到最多的前五个产品特征为:{性价比,续航能力,屏幕,外观,内存},具体三个产品各产品特征提及的频次如表3所示。
表3三个产品各产品特征提及的频次
Figure BDA0001585836090000054
第二步,分别针对三个产品,识别三个产品关于每一个产品特征的意见词集。并通过意见词及其情感强度,根据公式(4)计算每个产品特征的情感分值,得到的三个产品关于各产品特征的情感分值如表4所示。
表4三个产品的各产品特征情感分值表
Figure BDA0001585836090000055
第三步,通过比较关键词表,从所有文本评论中识别了208条比较句子。基于比较句子抽取三个产品之间产品特征的比较关系,最后三个产品之间建立了35个关于产品特征的比较关系,通过比较关系各产品获得的票数如表5所示。
表5三个产品的产品特征的比较关系票数
Figure BDA0001585836090000061
第四步,依据公式(6)基于表3三个产品各产品特征提及的频次,计算的各产品特征的可信权重,如表6所示。
表6三个产品的各产品特征的可信权重
Figure BDA0001585836090000062
第五步,依据公式(7)计算三个产品各产品特征的口碑分值,结果如表7所示。并基于各产品特征的口碑对三个产品进行排序,结果如表8所示,如,关于性价比这个特征,三个产品的口碑有好到坏依次为:P1,P3和P2。
表7三个产品的各产品特征的口碑分值
Figure BDA0001585836090000063
表8基于产品特征的产品排序表
Figure BDA0001585836090000064

Claims (1)

1.一种基于产品特征口碑的产品排序方法,其特征在于,所述的产品排序方法包括以下步骤:
(1)识别产品特征
对候选产品的所有评论进行分词和词性标注处理,识别名词或名词短语,建立产品特征的候选词集;对候选词集进行剪枝处理,具体分两步:1)单字剪枝,删除只含有一个中文字符的词;2)同义词剪枝,结合产品特征的候选词集,建立产品特征的同义词词集;每组同义词选择一个示例代表所有同义词,并用该词代替同组的其他词;对候选词集中的特征词进行词频统计,选取词频较高的特征词作为最终的产品特征词;假设f为产品特征,得到产品特征集{f1,f2,…,fi,…fn},其中i=1,2,…n,n表示产品特征词的总数;
(2)根据得到的产品特征集,计算产品特征的情感分值
第一步,抽取产品特征的意见词,即每个产品特征附近的形容词或副词,组成产品特征的意见词集合,产品特征fi的意见词集合为{fio1,fio2,…,fioj…fiom},j=1,2,…m,m表示产品特征fi的意见词的总数;
第二步,通过情感词词典列表,对每一个意见词情感极性进行分析,赋值打分;所述情感词词典列表包含积极情感词列表POS、消极情感词列表NEG以及5个情感强度列表Wl,l=1,2,3,4,5,其中1-5的权重分配代表从弱到强的情感;步骤如下:
首先判断情感词极性,若在积极情感词列表中出现,则赋值为1;若在消极情感词列表中出现,则赋值为-1;否则,赋值为0;其次,判断该意见词前两个词中是否出现情感强度词,若存在,则在上一步的结果基础上乘以相应的权重,由此得到产品r关于产品特征fi的意见词oj的情感分值
Figure FDA0002616088650000011
Figure FDA0002616088650000012
其中,eoj表示意见词的情感类别,wl表示意见词的情感强度,其计算公式如下:
Figure FDA0002616088650000013
Figure FDA0002616088650000014
第三步,通过意见词的情感分值,根据公式(4)计算产品关于各产品特征的情感分值
Figure FDA0002616088650000021
Figure FDA0002616088650000022
其中,
Figure FDA0002616088650000023
的取值范围是[-5,5],
Figure FDA0002616088650000024
表示该产品特征的情感倾向消极,
Figure FDA0002616088650000025
表示该产品特征的情感倾向积极;
(3)识别文本评论中产品特征的比较关系
通过构建的比较关键词列表,识别出文本评论中的比较句子;基于识别的比较句子,抽取各产品关于产品特征的比较关系;关于产品特征fi,两个产品Pr和Ps的比较关系定义为:
Figure FDA0002616088650000026
如果关于产品特征fi,产品Pr的评价比产品Ps好,则VS(Pr|Pr,Ps)等于1,否则为0;
考虑所有的产品特征和比较句子,则关于产品特征fi产品Pr相比于产品Ps获得的票数计算公式如下:
Figure FDA0002616088650000027
其中,k表示关于产品特征fi产品Pr与产品Ps比较关系的数量;
(4)计算产品的产品特征口碑分值
根据产品的产品特征情感分值以及关于产品特征与其他产品比较获得的票数,计算产品特征的口碑分值;产品特征口碑分值计算依据以下假设:
1)关于某一个产品特征,在不同的产品的文本评论中被用户提及的次数越多,评价越可信,则对该产品的特征情感分值应该赋予更高的信用权重,反之亦然;定义信用权重的计算公式为:
Figure FDA0002616088650000028
其中,
Figure FDA0002616088650000029
取值范围为[0,1],
Figure FDA00026160886500000210
表示产品Pr的特征fi在文本评论中提到的次数,h表示产品的总数量;
2)产品的特征情感分值越高,则该产品的特征总口碑分值越高;产品的特征获得的比较票数越多,则该产品的特征总口碑分值越高;结合上述两种口碑信息,得到产品的特征总口碑分值,计算公式如下:
Figure FDA0002616088650000031
其中,
Figure FDA0002616088650000032
表示产品Pr关于特征fi的口碑分值,
Figure FDA0002616088650000033
表示与产品Pr有比较关系的产品Ps关于特征fi的口碑分值。
CN201810171084.3A 2018-03-01 2018-03-01 一种基于产品特征口碑的产品排序方法 Active CN108363805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810171084.3A CN108363805B (zh) 2018-03-01 2018-03-01 一种基于产品特征口碑的产品排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810171084.3A CN108363805B (zh) 2018-03-01 2018-03-01 一种基于产品特征口碑的产品排序方法

Publications (2)

Publication Number Publication Date
CN108363805A CN108363805A (zh) 2018-08-03
CN108363805B true CN108363805B (zh) 2020-09-29

Family

ID=63003065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810171084.3A Active CN108363805B (zh) 2018-03-01 2018-03-01 一种基于产品特征口碑的产品排序方法

Country Status (1)

Country Link
CN (1) CN108363805B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103279460A (zh) * 2013-05-24 2013-09-04 北京尚友通达信息技术有限公司 网购评论的分析处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140108135A1 (en) * 2012-10-17 2014-04-17 Tech 4 Profit Llc System and method to evaluate, present, and facilitate the advertisement and purchasing of products and services based on the emotion evoked in a recipient upon receipt of the product or service

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN103279460A (zh) * 2013-05-24 2013-09-04 北京尚友通达信息技术有限公司 网购评论的分析处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Product Comparison using Comparative Relations;Si Li等;《ACM》;20111231;第1151-1152页 *
Voice of the Customers: Mining Online Customer Reviews for Product Feature-based Ranking;Kunpeng Zhang等;《3rdWorkshop on Online Social Networks》;20101231;第1-9页 *
客户评论对产品口碑及销售的影响研究;杨弦;《中国优秀硕士学位论文全文数据库经济与管理科学辑》;20150715;第J152-715页 *

Also Published As

Publication number Publication date
CN108363805A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
Alessia et al. Approaches, tools and applications for sentiment analysis implementation
Sharif et al. Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes
Gräbner et al. Classification of customer reviews based on sentiment analysis
Claster et al. Thailand--Tourism and conflict: Modeling sentiment from Twitter tweets using naïve Bayes and unsupervised artificial neural nets
US8671040B2 (en) Credit risk mining
CN111767741A (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
Jeong et al. Ferom: Feature extraction and refinement for opinion mining
CN104137102A (zh) 非事实型询问应答系统以及计算机程序
CN111080055A (zh) 酒店评分方法、酒店推荐方法、电子装置和存储介质
Wang et al. Competitiveness analysis through comparative relation mining: evidence from restaurants’ online reviews
Chathuranga et al. Sinhala sentiment analysis using corpus based sentiment lexicon
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
Sardinha An assessment of metaphor retrieval methods
Haque et al. Opinion mining from bangla and phonetic bangla reviews using vectorization methods
Outsios et al. Evaluation of greek word embeddings
Rathan et al. Every post matters: a survey on applications of sentiment analysis in social media
KR20130103249A (ko) 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
CN110781300A (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
El Barachi et al. Combining named entity recognition and emotion analysis of tweets for early warning of violent actions
CN111159400A (zh) 一种产品评论情感分类方法和系统
CN108363805B (zh) 一种基于产品特征口碑的产品排序方法
Das et al. Sentence level emotion tagging
CN113420544A (zh) 一种热词确定方法、装置、电子设备及存储介质
CN109298796B (zh) 一种词联想方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant