CN108363805A - 一种基于产品特征口碑的产品排序方法 - Google Patents
一种基于产品特征口碑的产品排序方法 Download PDFInfo
- Publication number
- CN108363805A CN108363805A CN201810171084.3A CN201810171084A CN108363805A CN 108363805 A CN108363805 A CN 108363805A CN 201810171084 A CN201810171084 A CN 201810171084A CN 108363805 A CN108363805 A CN 108363805A
- Authority
- CN
- China
- Prior art keywords
- product
- feature
- word
- product feature
- score value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据挖掘技术领域,提供一种基于产品特征口碑的产品排序方法,步骤如下:1)识别产品特征,对候选产品的所有评论进行分词、词性标注以及剪枝处理,建立产品特征集;2)根据得到的产品特征集,识别产品特征的意见词,计算产品特征的情感分值;3)识别文本评论中产品特征的比较关系;4)根据产品的产品特征情感分值以及关于产品特征与其他产品比较获得的票数,计算产品特征的口碑分值,得到产品的特征口碑分值后,可基于各个产品特征的口碑对产品进行降序排列。本发明提出的基于产品特征口碑的产品排序方法,能针对不同且多维的产品特征对产品口碑进行排序,结合更全面的异质信息,提供的排序结果更精确可靠。
Description
技术领域
本发明属于数据挖掘技术领域,涉及到一种量化文本评论中产品特征的口碑信息并对产品进行排序的方法。
背景技术
基于口碑的产品排序能够避免信息过载,为电子商务网站的消费者和商家提供有效的决策支持,因此也成为了相关领域的研究重点和热点。在线评论是产品口碑的一种重要形式,目前电子商务网站的在线评论主要有评分(1-5星)和文本评论两种类型。这些网站对产品的口碑进行排序时,一般都忽略了文本评论,只考虑评分作为产品的总口碑对产品进行排序。然而,文本评论的内容更详细,包含了丰富的产品特征(如:手机的产品特征—性价比、续航能力、外观等)的口碑信息。因此,通过挖掘文本评论的内容,对产品特征的口碑进行排序更有效。
关于挖掘文本评论内容,比较产品特征口碑的方法,主要有Liu等提出的量化文本评论中的产品特征口碑的方法,参考文献(B.Liu,M.Hu,J.Cheng,Opinion observer:Analyzing and comparing opinions on the web,Proceedings of the 14thInternational Conference on World Wide Web 2005,pp.342–351.B.Liu,SentimentAnalysis and Subjectivity,Handbook of Natural Language Processing,second ed.,2010.)。该方法的优点是能直观地对产品特征的评价好坏进行比较,但该方法只考虑了产品特征的积极和消极评价的数量,没有对产品特征的情感进行量化,不能对多个产品进行排序。同时该方法没有考虑文本评论中产品之间的比较关系,而比较关系是产品排序的一个重要信息,因此会使排序结果不可靠。
目前,基于口碑的产品排序方法,结合了文本评论中产品之间口碑的比较关系,得到的排序结果更可靠,具体可参考(X.Yang,G.Yang,J.Wu.Integrating rich andheterogeneous information to design a ranking system for multipleproducts.Decision Support Systems,Volume 84,April 2016,pp.117-133。杨弦,党延忠,吴江宁.基于网络客户评论的产品口碑排序方法.运筹与管理,2017,Vol.26,No.11,1-6.)。这些方法只能得到一个总的产品口碑的排序,不能基于产品的各个特征的口碑对产品进行排序。关于各产品特征口碑的产品排序方法,具体可参考(K.Zhang,R.Narayanan,A.Choudhary,Voice of the customers:mining online customer reviews for productfeature-based ranking,Proceedings of 3rd Workshop on Online Social Networks,2010.)。该论文提出的方法也存在以下不足:首先,该方法用到的文本挖掘方法,如产品特征抽取以及情感分类都是针对英文的文本评论,不能直接用于中文文本评论的处理;其次,关于比较关系抽取时,该论文的方法只粗粒度的抽取了产品之间的比较关系,没有细粒度的对产品特征之间的比较关系进行识别,建立的产品特征之间的比较关系不精确。最后,产品排序时,产品特征的情感分值没有考虑产品特征的重要程度,会导致排序结果有偏差。
发明内容
针对传统基于产品特征口碑的产品排序方法的局限性,本发明提出了一种集成产品特征情感和产品特征比较关系的产品口碑排序方法。通过识别文本评论中提到的产品特征,得到了一个产品特征集合。接着识别产品特征的意见词,对产品特征的情感倾向进行量化,得到各产品的产品特征情感分值。然后识别文本评论中的比较句子,并识别产品之间关于产品特征的比较关系。最后考虑产品特征的重要性,结合产品特征的情感分值以及和其他产品的比较关系,计算各产品的特征口碑分值。并基于不同产品特征的口碑对产品进行排序。
为了达到上述目的,本发明的技术方案如下:
一种基于产品特征口碑的产品排序方法,包括以下步骤:
(1)识别产品特征
利用中科院中文分词系统ICTCLAS(http://www.ictclas.org/)对候选产品的所有评论进行分词和词性标注处理,识别出名词或名词短语,建立产品特征的候选词集。对候选词集进行剪枝处理。具体分两步:1)单字剪枝,删除只含有一个中文字符的词;2)同义词剪枝,利用哈尔滨工业大学的同义词词林,结合产品特征的候选词集,建立产品特征的同义词词集。每组同义词选择一个示例代表所有同义词,并用该词代替同组的其他词。最后,对候选集中的特征词进行词频统计,选取词频较高的特征词作为最终的产品特征词。假设f为产品特征,则可得到产品特征集{f1,f2,…,fi,…fn},其中i=1,2,…n.n表示产品特征词的总数。
(2)根据得到的产品特征集,计算产品特征的情感分值,步骤如下:
首先,抽取产品特征的意见词,即每个产品特征附近的形容词或副词,组成产品特征的意见词集合,如产品特征fi的意见词集合为{fio1,fio2,…,fioj…fiom},j=1,2,…m.m表示产品特征fi的意见词的总数。
然后,对意见词的情感极性进行分析。意见词的情感可以分为积极情感倾向和消极情感倾向两类。参考知网中文词库HowNet提供的中文情感词词典,该词典共包含7个词典列表,如表1所示,分别包含积极情感词列表(POS)、消极情感词列表(NEG)以及5个情感强度列表(Wl,l=1,2,3,4,5),其中1-5的权重分配代表从弱到强的情感。通过情感词词典,对每一个意见词进行赋值打分。具体步骤如下:首先判断情感词极性,若在积极情感词列表中出现,则赋值为1;若在消极情感词列表中出现,则赋值为-1;否则,赋值为0。其次,判断该意见词前两个词中是否出现情感强度词,若存在,则在上一步的结果基础上乘以相应的权重,由此可得到产品r关于产品特征fi的意见词oj的情感分值
其中,eoj表示意见词的情感类别,wl表示意见词的情感强度,其计算公式如下:
最后,通过意见词的情感分值,根据公式(4),计算产品关于各产品特征的情感分值
其中,的取值范围是[-5,5],表示该产品特征的情感倾向非常消极,表示该产品特征的情感倾向非常积极。
表1情感词词典列表的描述
(3)识别文本评论中产品特征的比较关系
比较句子往往都包含了比较关键词,如,“苹果8这款手机与三星galaxy S8比性价比高很多”。因此可以通过识别文本评论中的比较关键词“比”来识别比较句子,从而识别各产品特征的比较关系。
通过构建的比较关键词列表(如表2所示),识别出文本评论中的比较句子。基于识别的比较句子,抽取各产品关于产品特征的比较关系。关于产品特征fi,两个产品Pr和Ps的比较关系可定义为:如果关于产品特征fi,产品Pr的评价比产品Ps好,则VS(Pr|Pr,Ps)等于1,否则为0。例如,比较句子为:“苹果8这款手机与三星galaxy S8比性价比高很多”,则关于产品特征“性价比”,产品“苹果8”比“galaxyS8”的评价好,则这两个产品关于“性价比”的比较关系为(1,0)。
考虑所有的产品特征和比较句子,则关于产品特征fi产品Pr相比于产品Ps获得的票数计算公式如下:
其中,k表示关于产品特征fi产品Pr与产品Ps比较关系的数量。
表2比较关键词列表
(4)计算产品的产品特征口碑分值
得到产品的产品特征情感分值,以及关于产品特征与其他产品比较获得的票数后,结合这两种信息,计算产品特征的口碑分值。产品特征口碑分值计算主要依据以下几个假设:
1)关于某一个产品特征,在不同的产品的文本评论中被用户提及的次数是不均衡的,产品特征被提及的次数越多,评价越可信,则对该产品的特征情感分值应该赋予更高的信用权重,反之亦然。定义信用权重的计算公式为:
其中,取值范围为[0,1],表示产品Pr的特征fi在文本评论中提到的次数,h表示产品的总数量。
2)产品的特征情感分值越高,则该产品的特征总口碑分值越高;产品的特征获得的比较票数越多,则该产品的特征总口碑分值越高。因此,结合这两种口碑信息,得到产品的特征总口碑分值,计算公式如下:
其中,表示产品Pr关于特征fi的口碑分值,表示与产品Pr有比较关系的产品Ps关于特征fi的口碑分值。得到产品的特征口碑分值后,可基于各个产品特征的口碑对产品进行降序排列。
本发明的有益效果为:本发明提出的基于产品特征口碑的产品排序方法,能针对不同且多维的产品特征对产品口碑进行排序,结合更全面的异质信息,提供的排序结果更精确可靠。
具体实施方式
以下具体阐述本发明的实施方案,以三个手机产品P1,P2,P3为例。
第一步,识别产品特征,对三个手机产品的所有文本评论进行处理,识别出产品特征,产品特征按被提及的频次进行降序排列,被提到最多的前五个产品特征为:{性价比,续航能力,屏幕,外观,内存},具体三个产品各产品特征提及的频次如表3所示。
表3三个产品各产品特征提及的频次
第二步,分别针对三个产品,识别三个产品关于每一个产品特征的意见词集。并通过意见词及其情感强度,根据公式(4)计算每个产品特征的情感分值,得到的三个产品关于各产品特征的情感分值如表4所示。
表4三个产品的各产品特征情感分值表
第三步,通过比较关键词表,从所有文本评论中识别了208条比较句子。基于比较句子抽取三个产品之间产品特征的比较关系,最后三个产品之间建立了35个关于产品特征的比较关系,通过比较关系各产品获得的票数如表5所示。
表5三个产品的产品特征的比较关系票数
第四步,依据公式(6)基于表3三个产品各产品特征提及的频次,计算的各产品特征的可信权重,如表6所示。
表6三个产品的各产品特征的可信权重
第五步,依据公式(7)计算三个产品各产品特征的口碑分值,结果如表7所示。并基于各产品特征的口碑对三个产品进行排序,结果如表8所示,如,关于性价比这个特征,三个产品的口碑有好到坏依次为:P1,P3和P2。
表7三个产品的各产品特征的口碑分值
表8基于产品特征的产品排序表
Claims (1)
1.一种基于产品特征口碑的产品排序方法,其特征在于,所述的产品排序方法包括以下步骤:
(1)识别产品特征
对候选产品的所有评论进行分词和词性标注处理,识别名词或名词短语,建立产品特征的候选词集;对候选词集进行剪枝处理,具体分两步:1)单字剪枝,删除只含有一个中文字符的词;2)同义词剪枝,结合产品特征的候选词集,建立产品特征的同义词词集;每组同义词选择一个示例代表所有同义词,并用该词代替同组的其他词;对候选词集中的特征词进行词频统计,选取词频较高的特征词作为最终的产品特征词;假设f为产品特征,得到产品特征集{f1,f2,…,fi,…fn},其中i=1,2,…n.n表示产品特征词的总数;
(2)根据得到的产品特征集,计算产品特征的情感分值
第一步,抽取产品特征的意见词,即每个产品特征附近的形容词或副词,组成产品特征的意见词集合,产品特征fi的意见词集合为{fio1,fio2,…,fioj…fiom},j=1,2,…m.m表示产品特征fi的意见词的总数;
第二步,通过情感词词典列表,对每一个意见词情感极性进行分析,赋值打分;所述情感词词典列表包含积极情感词列表POS、消极情感词列表NEG以及5个情感强度列表Wl,l=1,2,3,4,5,其中1-5的权重分配代表从弱到强的情感;步骤如下:
首先判断情感词极性,若在积极情感词列表中出现,则赋值为1;若在消极情感词列表中出现,则赋值为-1;否则,赋值为0;其次,判断该意见词前两个词中是否出现情感强度词,若存在,则在上一步的结果基础上乘以相应的权重,由此得到产品r关于产品特征fi的意见词oj的情感分值
其中,eoj表示意见词的情感类别,wl表示意见词的情感强度,其计算公式如下:
第三步,通过意见词的情感分值,根据公式(4)计算产品关于各产品特征的情感分值
其中,的取值范围是[-5,5],表示该产品特征的情感倾向消极,表示该产品特征的情感倾向积极;
(3)识别文本评论中产品特征的比较关系
通过构建的比较关键词列表,识别出文本评论中的比较句子;基于识别的比较句子,抽取各产品关于产品特征的比较关系;关于产品特征fi,两个产品Pr和Ps的比较关系定义为:如果关于产品特征fi,产品Pr的评价比产品Ps好,则VS(Pr|Pr,Ps)等于1,否则为0;
考虑所有的产品特征和比较句子,则关于产品特征fi产品Pr相比于产品Ps获得的票数计算公式如下:
其中,k表示关于产品特征fi产品Pr与产品Ps比较关系的数量;
(4)计算产品的产品特征口碑分值
根据产品的产品特征情感分值以及关于产品特征与其他产品比较获得的票数,计算产品特征的口碑分值;产品特征口碑分值计算主要依据以下假设:
1)关于某一个产品特征,在不同的产品的文本评论中被用户提及的次数越多,评价越可信,则对该产品的特征情感分值应该赋予更高的信用权重,反之亦然;定义信用权重的计算公式为:
其中,取值范围为[0,1],表示产品Pr的特征fi在文本评论中提到的次数,h表示产品的总数量;
2)产品的特征情感分值越高,则该产品的特征总口碑分值越高;产品的特征获得的比较票数越多,则该产品的特征总口碑分值越高;结合上述两种口碑信息,得到产品的特征总口碑分值,计算公式如下:
其中,表示产品Pr关于特征fi的口碑分值,表示与产品Pr有比较关系的产品Ps关于特征fi的口碑分值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810171084.3A CN108363805B (zh) | 2018-03-01 | 2018-03-01 | 一种基于产品特征口碑的产品排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810171084.3A CN108363805B (zh) | 2018-03-01 | 2018-03-01 | 一种基于产品特征口碑的产品排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108363805A true CN108363805A (zh) | 2018-08-03 |
CN108363805B CN108363805B (zh) | 2020-09-29 |
Family
ID=63003065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810171084.3A Active CN108363805B (zh) | 2018-03-01 | 2018-03-01 | 一种基于产品特征口碑的产品排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108363805B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN103279460A (zh) * | 2013-05-24 | 2013-09-04 | 北京尚友通达信息技术有限公司 | 网购评论的分析处理方法 |
US20160071165A1 (en) * | 2012-10-17 | 2016-03-10 | Tech 4 Profit, LLC | System and method to evaluate, present, and facilitate the advertisement and purchasing of products and services based on the emotion evoked in a recipient upon receipt of the product or service |
-
2018
- 2018-03-01 CN CN201810171084.3A patent/CN108363805B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
US20160071165A1 (en) * | 2012-10-17 | 2016-03-10 | Tech 4 Profit, LLC | System and method to evaluate, present, and facilitate the advertisement and purchasing of products and services based on the emotion evoked in a recipient upon receipt of the product or service |
CN103279460A (zh) * | 2013-05-24 | 2013-09-04 | 北京尚友通达信息技术有限公司 | 网购评论的分析处理方法 |
Non-Patent Citations (3)
Title |
---|
KUNPENG ZHANG等: "Voice of the Customers: Mining Online Customer Reviews for Product Feature-based Ranking", 《3RDWORKSHOP ON ONLINE SOCIAL NETWORKS》 * |
SI LI等: "Product Comparison using Comparative Relations", 《ACM》 * |
杨弦: "客户评论对产品口碑及销售的影响研究", 《中国优秀硕士学位论文全文数据库经济与管理科学辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108363805B (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
Elmadany et al. | An arabic speech-act and sentiment corpus of tweets | |
CN105005553B (zh) | 基于情感词典的短文本情感倾向分析方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN105893344A (zh) | 基于用户语义情感分析的应答方法和装置 | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN104915443B (zh) | 一种中文微博评价对象的抽取方法 | |
CN102929861A (zh) | 一种文本情感指数计算方法和系统 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN104317965A (zh) | 基于语料的情感词典构建方法 | |
Wang et al. | Competitiveness analysis through comparative relation mining: evidence from restaurants’ online reviews | |
Gupta et al. | Automatic text summarization system for Punjabi language | |
CN105787662A (zh) | 基于属性的移动应用软件性能预测方法 | |
Min et al. | Comparative evaluation of lexicons in performing sentiment analysis | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及系统 | |
KR101326313B1 (ko) | 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법 | |
Ibrahim et al. | Automatic expandable large-scale sentiment lexicon of Modern Standard Arabic and Colloquial | |
JP2020027548A (ja) | キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法 | |
Bansal et al. | A Transformer Based Approach for Abuse Detection in Code Mixed Indic Languages. | |
CN105354184A (zh) | 一种使用优化的向量空间模型实现文档自动分类的方法 | |
Golubev et al. | Transfer learning for improving results on Russian sentiment datasets | |
Fujihira et al. | Multilingual sentiment analysis for web text based on word to word translation | |
Walha et al. | A Lexicon approach to multidimensional analysis of tweets opinion | |
CN109298796B (zh) | 一种词联想方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |