CN106296282A - 一种基于用户评论和历史评分的网购产品评估方法 - Google Patents
一种基于用户评论和历史评分的网购产品评估方法 Download PDFInfo
- Publication number
- CN106296282A CN106296282A CN201610643257.8A CN201610643257A CN106296282A CN 106296282 A CN106296282 A CN 106296282A CN 201610643257 A CN201610643257 A CN 201610643257A CN 106296282 A CN106296282 A CN 106296282A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- emotion
- user comment
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 24
- 230000008451 emotion Effects 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000007637 random forest analysis Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 238000012935 Averaging Methods 0.000 claims abstract description 4
- 238000000926 separation method Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 5
- 238000010009 beating Methods 0.000 claims description 4
- 239000006185 dispersion Substances 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 206010002942 Apathy Diseases 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户评论和历史评分的产品评估方法,通过获取网购产品的用户评论;基于句子的情感词,完成情感估分,再针对用户评论,结合句子的情感估分及位置,加权平均计算用户评论的情感估分;提取用户评论的文档特征,基于历史平均值设置用户评论标签,采用bootstrap采样生成多个训练集来训练多个随机森林分类器,加权平均计算分类器估分;对情感估分和分类器估分加权平均计算,获得每个用户评论的综合估分,最后采用平均法得到一个产品的综合估分;本方法避免用户的评分习性带来的影响,具有扩展性和适应性,充分考虑不同用户评论的情感倾向,以及用户的评分习性,帮助用户做出更好的选择,从而提高产品评价的客观性和准确性。
Description
技术领域
本发明属于自然语言处理等领域,尤其涉及一种基于用户评论和历史评分的网购产品评估方法。
背景技术
随着Web技术的广泛应用和发展,互联网进入人们社会生活的方方面面。网络已然成为人们实际生活中不可或缺的一部分。用户在网络上可以开展各式各样的活动,其中购物也不仅仅局限于现实生活中,足不出户的网上购物成为许多用户便捷省事的选择。
网购在带来便捷性和商品多样性的同时,也增加了虚假宣传的可能性。因为网购用户无法直接查看产品,用户通常情况是根据其他用户的评论和评分来判断产品的可靠性,大部分的用户会根据评分的高低来决定是否购买某一产品;如果评分低的话可能放弃购买,如果评分高的情况下,则极有可能购买。然而每个用户评分都有一定的倾向性,有的用户倾向于打高分,有的用户倾向于打低分,甚至还有一些用户则是商家雇来刷好评的,现在的很多店家都会根据消费者的心理,会打出比如给优评返现金或者给优评返还优惠券等方式,来获取高评分来吸引顾客。因此产品的评分往往不是那么准确可靠。与此同时,现有的产品评分系统仅考虑用户对该产品的评分,没有考虑用户的评论和评分习性,未必能准确反应产品的真实评分。因此如何构建一个可靠的、不带有个人情感色彩,能够真实的反应产品的估分并且不完全基于用户的评分的产品评估方法一直是本领域待解决的技术难题。
发明内容
本发明针对现有技术的不足公开了一种基于用户评论和历史评分的网购产品评估方法,通过该评估方法可以反应产品的真实估分,且该方法计算简单,通用性和扩展性强,可以有效地对网购产品进行评估。
本发明公开了一种基于用户评论和历史评分的网购产品评估方法,具体步骤如下:
(1)获取网络中同一产品下的用户评论,对于每个用户评论,将其分割为句子集合;
(2)基于句子中的情感词,完成对每一个句子的情感估分;
(3)结合句子的情感估分以及句子在用户评论中的位置,加权平均计算用户评论的情感估分;
(4)提取用户评论的文档特征,基于历史平均值设置用户评论标签,采用bootstrap采样生成多个训练集来训练多个随机森林分类器,加权平均计算分类器估分;
(5)对上述步骤(3)以及步骤(4)的估分加权平均计算,获取每个用户评论的综合估分,再采用平均法得到一个产品的综合估分。
进一步,所述的步骤(1)中分割为句子集合的具体步骤为:对获取的每个用户评论进行处理,将每个用户评论以“。”、“;”、“?”、“!”将其分割为句子集合,即:R={S1,S2,…},其中R代表一个用户评论,S代表一个句子。
进一步,所述的步骤(2)包括如下步骤:
(2.1)以“,”将句子分割成短句,句子分割后的序列为S=<sengrop1,...,sengropj>,其中sengropj表示句子S中的第j个短句;
(2.2)短句经过分词处理,短句分词后的序列为sengrop=<w1,w2,...,wn>,其中wn即代表一个词,n为个数;
(2.3)对照情感词库提取情感词、否定词和程度词,根据所含的情感词、否定词和程度词来计算短句的情感估分,公式为:
scoreG(sengropj)=情感词权重×否定词权重×程度词权重;
式中,情感词权重的评判原则:对应情感词库将情感词分正面以及负面两个极性,
正面:情感词权重为1;
负面;情感词权重为-1;
否定词权重的评判原则:if position(否定词)>position(程度词):
否定词权重为-1;
else:
否定词权重为+0.5;
程度词权重的评判原则:程度词对应情感词库中的程度级别词语,分6个等级;
1)句子中包括“非常,极”:程度词权重为1.2;
2)包括“很,很是,太”:程度词权重为1;
3)包括“较,较为,还”:程度词权重为0.8;
4)包括“稍,稍微,些微”:程度词权重为0.6;
5)包括“不怎么,半点,不大”:程度词权重为0.4;
6)包括“过,过度,偏”;程度词权重为0.2;
若无否定词、程度词,否定词、程度词权重默认设为1;若无情感词,则情感词权重为0;
(2.4)句子的情感估分scoreS(s)可由短句的情感估分得到,公式为:
(2.5)以阈值t为标准值,将句子的情感估分离散化为正面、负面以及中性三个极性,其中t∈[0.1,0.4]:
正面:scoreS(s)≥t,此时的估分为+1;
负面:scoreS(s)≤-t,此时的估分为-1;
中性:scoreS(s)∈(-t,t),此时估分为0;
通过对句子估分离散化,可以防止因一些句子情感估分过高对评论情感估分造成影响。
进一步,所述的步骤(3)包括如下分步骤:
(3.1)根据句子在用户评论中的位置加权计算,基于句子在评论中的位置计算评论的情感估分,用户评论通常首句和尾句直接点明主题,一般赋予更高的权重,其中计算公式为:
SS=(scoreG(首句)+scoreG(尾句)+socreG(其他句子的平均值))/3
式中,socreG(其他句子的平均值)为其他句子情感估分的平均值,若无其他句子,则为首句和尾句情感估分的平均值;
(3.2)对情感估分标准化处理,统一到(0,1)之间,分值越高说明对产品评价越高,其公式为:
式中,max为所有用户评论中SS的最大值,min为所有用户评论中SS的最小值。
进一步,所述的步骤(4)包括如下步骤:
(4.1)首先提取用户评论的文档特征,针对每一个用户评论Ri,统计如下特征:
1)正向词个数及比例;
2)负向词个数及比例;
3)否定词个数及比例;
4)程度词个数及比例;
5)其他类别词个数及比例;
6)根据是否包含否定词、程度词、情感词划分三个离散特征{η1,η2,η3},η1,η2,η3=1则为包含对应的词;
(4.2)对用户评论中的每个句子,基于上述步骤(4.1)中正向词个数及比例,负向词个数及比例,否定词个数及比例,程度词个数及比例,其他类别词个数及比例这10个特征,分别求其中最大值、最小值和平均值;共得到30个特征,与上面评论特征组合在一起,构成用户评论的文档特征向量,共43个特征;
(4.3)在对所有评论抽取了文档特征之后,基于历史平均值获取对应评论的标签;如果是老用户,获取用户的历史评分,求其平均值作历史平均值,如果是新用户,则以该产品的平均评分作为其历史平均值,将用户评分与历史平均值相减,大于0则标签打为1,否则标签打为0;
(4.4)然后对数据集进行bootstrap采样,生成N个训练集,然后在每个训练集上,训练随机森林分类器;
(4.5)将上述步骤(4.4)训练好的随机森林分类器对所有的用户评论进行分类,计算每个随机森林分类器对用户评论的分类器估分,公式如下:
scoreC=Nmost/Nall
式中,Nmost是分类结果标签为1的决策树个数,Nall是所有决策树的总个数;
(4.6)之后对所有随机森林分类器进行平均,获得用户评论的分类器估分,公式如下:
scoreCC=∑scoreC/N
式中,N为相应训练集个数。
进一步,所述的步骤(5)包括如下步骤:
(5.1)首先采用加权平均法计算用户评论的综合估分,结合用户评论的情感估分以及分类器估分两个方面的估分计算用户评论的综合估分,公式如下:
score=θscoreSS+(1-θ)scoreCC
式中,θ是权重;
(5.2)然后对目标产品所有评论的综合估分进行平均,获得产品估分,公式如下:
scoreP=Σscore/n
式中,n为用户评论个数。
本发明具有如下有益效果:
(1)综合考虑了用户评论的词性和文档特征,并有效去除用户的评分习性带来的影响,规避了传统的评分的不真实性以及倾向性;
(2)充分考虑不同用户评论的情感倾向,以及用户的评分习性,从而提高产品评价的客观性和准确性;
(3)计算成本简单,具有扩展性和适应性,适用于网上产品的客观评估,帮助用户做出更好的选择。
附图说明
图1是本发明基于用户评论和历史评分的网购产品估分方法的总体框架流程图;
图2是本发明基于情感词对用户评论完成情感估分的流程图;
图3是本发明训练多个随机森林模型并计算分类器估分的流程图;
图4是本发明加权平均计算产品估分的流程图。
具体实施方式
下面结合附图以及具体的实施例,对发明的方案做进一步的阐述。
如图1所示,是本发明的产品估分的总体框架流程图,具体的步骤如下:
(1)获取网络中同一产品下的用户评论,对于每个用户评论,将其分割为句子集合;
例如对以下一件衣服的评论:“发货速度很快,服务态度超好。收到衣服老板还主动询问,衣服质量没得说。很开心得一次网购,下次还会来。”
这段评论可以分成三个句子:
S1“发货速度很快,服务态度超好。”
S2“收到衣服老板还主动询问,衣服质量没得说。”
S3“很开心得一次网购,下次还会来。”
(2)如图2所示,是基于句子中的情感词,完成对每一个句子的情感估分,其中的情感词库选用中国知网的HowNet词库;
其中对情感词、否定词和程度词打分的具体方法如下:
对情感词进行打分,情感词分两个极性;
1)正面:对应情感词库的“正面情感”或“正面评价”词语,例如:“不可或缺,部优,才高八斗,爱,赞赏,快乐”等;打分为1;
2)负面:对应情感词库的“负面情感”或“负面评价”词语,例如:“哀伤,半信半疑,鄙视,丑,苦,华而不实”等;打分为-1;
对否定词进行打分:
当一个句子中同时出现否定词和程度词时,由于否定词和程度词相对位置的不同,会引起情感的不同,比如:
“我很不高兴”经过分词之后:我很不高兴
“我不很高兴”经过分词之后:我不很高兴
第一句话表达的是一种很强烈的负面情感,而第二句话表达的则是一种较弱的正面情感。因此,如果否定词在程度词之前,起到的是减弱的作用;如果否定词在程度词之后,则起到的是逆向情感的作用;
对否定词进行打分:
if position(否定词)>position(程度词):
否定词权重为-1;
else:
否定词权重为+0.5;
对程度词进行打分,程度词对应情感词库中的“程度级别”词语,分6个等级:
1)6:句中包括“非常,极”;打分为1.2;
2)5:包括“很,很是,太”;打分为1;
3)4:包括“较,较为,还”;打分为0.8;
4)3:包括“稍,稍微,些微”;打分为0.6;
5)2:包括“不怎么,半点,不大”;打分为0.4;
6)1:包括“过,过度,偏”;打分为0.2;
若无否定词、程度词,否定词、程度词权重默认设为1;若无情感词,则情感词权重为0;
然后,对句子的情感估分可由短句的情感估分得到:
以步骤(1)中的句子S1为例,以“,”分割成短句序列为:
“发货速度很快”+“服务态度超好”
序列中情感词有“快,好”,程度词有“很,超”;这个句子的情感估分为1*1+1.2*1=2.2。
接着,将句子的情感估分离散化为三个极性,以阈值t为标准值,其中t∈[0.1,0.4],建议取值0.3:
正面:scoreS(s)≥t,此时估分为+1;
负面:scoreS(s)≤-t,此时估分为-1;
中性:scoreS(s)∈(-t,t),此时估分为0。
以步骤(1)中的评论为例,句子S1情感估分离散为1,句子S2情感估分离散为1,句子S3情感估分离散为1。
(3)结合句子的情感估分以及句子在用户评论中的位置,加权平均计算用户评论的情感估分;
(3.1)根据情感词在句子中的位置加权计算,公式为:
SS=(scoreG(首句)+scoreG(尾句)+socreG(其他句子的平均值))/3
式中,socreG(其他句子的平均值)为其他句子情感估分的平均值,若无其他句子,则为首句和尾句情感估分的平均值。
以步骤(1)中的评论为例,SS=(1+1+1)/3=1,情感估分为1;
(3.2)对情感估分标准化处理,统一到(0,1)之间,情感估分越高说明对产品评价越高,其计算公式为:
式中,max为所有用户评论中SS的最大值,min为所有用户评论中SS的最小值。
(4)提取用户评论的文档特征,基于历史平均值设置用户评论标签,如图3所示,采用bootstrap采样生成多个训练集来训练多个随机森林分类器,加权平均计算分类器估分;
(4.1)提取用户评论的文档特征,针对每一个用户评论Ri,统计如下特征:
1)正向词个数及比例;
2)负向词个数及比例;
3)否定词个数及比例;
4)程度词个数及比例;
5)其他类别词个数及比例;
7)根据是否包含否定词、程度词、情感词划分三个离散特征{η1,η2,η3},η1,η2,η3=1则为包含对应的词;
(4.2)对用户评论中的每个句子,基于上述步骤(4.1)中正向词个数及比例,负向词个数及比例,否定词个数及比例,程度词个数及比例,其他类别词个数及比例这10个特征,分别求其中最大值、最小值和平均值;共得到30个特征,与上面评论特征组合在一起,构成用户评论的文档特征向量,共43个特征;
(4.3)在对所有评论抽取了文档特征之后,基于历史平均值获取对应评论的标签;如果是老用户,获取用户的历史评分,求其平均值作历史平均值,如果是新用户,则以该产品的平均评分作为其历史平均值,将用户评分与历史平均值相减,大于0则标签打为1,否则标签打为0;
(4.4)然后对数据集进行bootstrap采样,生成N个训练集,然后在每个训练集上,训练随机森林分类器;
(4.5)将上述步骤(4.4)训练好的随机森林分类器对所有的用户评论进行分类,计算每个随机森林分类器对用户评论的分类器估分,公式如下:
scoreC=Nmost/Nall
式中,Nmost是分类结果标签为1的决策树个数,Nall是所有决策树的总个数,通常设置Nall=10;
(4.6)之后对所有随机森林分类器进行平均,获得用户评论的分类器估分,公式如下:
scoreCC=∑scoreC/N
式中,N为相应训练集个数,通常设置N=5。
(5)如图4所示,对上述步骤(3)以及步骤(4)的估分加权平均计算,获取每个用户评论的综合估分,再采用平均法得到一个产品的综合估分;
(5.1)首先采用加权平均法计算用户评论的综合估分,结合用户评论的情感估分以及分类器估分两个方面的估分计算用户评论的综合估分,公式如下:
score=θscoreSS+(1-θ)scoreCC
式中,θ是权重,设置θ=0.4;
(5.2)然后对目标产品所有评论的综合估分进行平均,获得产品估分,公式如下:
scoreP=∑score/n
式中,n为用户评论个数。
Claims (6)
1.一种基于用户评论和历史评分的网购产品评估方法,其特征在于,具体步骤如下:
(1)获取网络中同一产品下的用户评论,对于每个用户评论,将其分割为句子集合;
(2)基于句子中的情感词,完成对每一个句子的情感估分;
(3)结合句子的情感估分以及句子在用户评论中的位置,加权平均计算用户评论的情感估分;
(4)提取用户评论的文档特征,基于历史平均值设置用户评论标签,采用bootstrap采样生成多个训练集来训练多个随机森林分类器,加权平均计算分类器估分;
(5)对上述步骤(3)以及步骤(4)的估分加权平均计算,获取每个用户评论的综合估分,再采用平均法得到一个产品的综合估分。
2.根据权利要求1所述的基于用户评论和历史评分的网购产品评估方法,其特征在于,所述的步骤(1)中分割为句子集合的具体步骤为:对获取的每个用户评论进行处理,将每个用户评论以“。”、“;”、“?”、“!”将其分割为句子集合,即:R={S1,S2,…},其中R代表一个用户评论,S代表一个句子。
3.根据权利要求1或2所述的基于用户评论和历史评分的网购产品评估方法,其特征在于,所述的步骤(2)包括如下步骤:
(2.1)以“,”将句子分割成短句,句子分割后的序列为S=<sengrop1,...,sengropj>,其中sengropj表示句子S中的第j个短句;
(2.2)短句经过分词处理,短句分词后的序列为sengrop=<w1,w2,...,wn>,其中wn即代表一个词,n为个数;
(2.3)对照情感词库提取情感词、否定词和程度词,根据所含的情感词、否定词和程度词来计算短句的情感估分,公式为:
scoreG(sengropj)=情感词权重×否定词权重×程度词权重;
式中,情感词权重的评判原则:对应情感词库将情感词分正面以及负面两个极性,
正面:情感词权重为1;
负面;情感词权重为-1;
否定词权重的评判原则:if position(否定词)>position(程度词):
否定词权重为-1;
else:
否定词权重为+0.5;
程度词权重的评判原则:程度词对应情感词库中的程度级别词语,分6个等级:
1)句子中包括“非常,极”:程度词权重为1.2;
2)包括“很,很是,太”:程度词权重为1;
3)包括“较,较为,还”:程度词权重为0.8;
4)包括“稍,稍微,些微”:程度词权重为0.6;
5)包括“不怎么,半点,不大”:程度词权重为0.4;
6)包括“过,过度,偏”;程度词权重为0.2;
若无否定词、程度词,否定词、程度词权重默认设为1;若无情感词,则情感词权重为0;
(2.4)句子的情感估分scoreS(s)可由短句的情感估分得到,公式为:
(2.5)以阈值t为标准值,将句子的情感估分离散化为正面、负面以及中性三个极性,其中t∈[0.1,0.4]:
正面:scoreS(s)≥t,此时的估分为+1;
负面:scoreS(s)≤-t,此时的估分为-1;
中性:scoreS(s)∈(-t,t),此时估分为0。
4.根据权利要求3所述的基于用户评论和历史评分的网购产品评估方法,其特征在于,所述的步骤(3)包括如下步骤:
(3.1)根据句子在用户评论中的位置加权计算,公式为:
SS=(scoreG(首句)+scoreG(尾句)+socreG(其他句子的平均值))/3
式中,socreG(其他句子的平均值)为其他句子情感估分的平均值,若无其他句子,则为首句和尾句情感估分的平均值;
(3.2)对情感估分标准化处理,统一到(0,1)之间,公式为:
式中,max为所有用户评论中SS的最大值,min为所有用户评论中SS的最小值。
5.根据权利要求4所述的基于用户评论和历史评分的网购产品评估方法,其特征在于,所述的步骤(4)包括如下步骤:
(4.1)首先提取用户评论的文档特征,针对每一个用户评论Ri,统计如下特征:
1)正向词个数及比例;
2)负向词个数及比例;
3)否定词个数及比例;
4)程度词个数及比例;
5)其他类别词个数及比例;
6)根据是否包含否定词、程度词、情感词划分三个离散特征{η1,η2,η3},η1,η2,η3=1则为包含对应的词;
(4.2)对用户评论中的每个句子,基于上述步骤(4.1)中正向词个数及比例,负向词个数及比例,否定词个数及比例,程度词个数及比例,其他类别词个数及比例这10个特征,分别求其中最大值、最小值和平均值;共得到30个特征,与上述(4.1)中的评论特征组合在一起,构成用户评论的文档特征向量,共43个特征;
(4.3)在对所有评论抽取了文档特征之后,基于历史平均值获取对应评论的标签;如果是老用户,获取用户的历史评分,求其平均值作历史平均值,如果是新用户,则以该产品的平均评分作为其历史平均值,将用户评分与历史平均值相减,大于0则标签打为1,否则标签打为0;
(4.4)然后对数据集进行bootstrap采样,生成N个训练集,然后在每个训练集上,训练随机森林分类器;
(4.5)将上述步骤(4.4)训练好的随机森林分类器对所有的用户评论进行分类,计算每个随机森林分类器对用户评论的分类器估分,公式如下:
scoreC=Nmost/Nall
式中,Nmost是分类结果标签为1的决策树个数,Nall是所有决策树的总个数;
(4.6)之后对所有随机森林分类器进行平均,获得用户评论的分类器估分,公式如下:
scoreCC=∑scoreC/N
式中,N为相应训练集个数。
6.根据权利要求5所述的基于用户评论和历史评分的网购产品评估方法,其特征在于,所述的步骤(5)包括如下步骤:
(5.1)首先采用加权平均法计算用户评论的综合估分,结合用户评论的情感估分以及分类器估分两个方面的估分计算用户评论的综合估分,公式如下:
score=θscoreSS+(1-θ)scoreCC
式中,θ是权重;
(5.2)然后对目标产品所有评论的综合估分进行平均,获得产品估分,公式如下:
scoreP=∑score/n
式中,n为用户评论个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610643257.8A CN106296282A (zh) | 2016-08-08 | 2016-08-08 | 一种基于用户评论和历史评分的网购产品评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610643257.8A CN106296282A (zh) | 2016-08-08 | 2016-08-08 | 一种基于用户评论和历史评分的网购产品评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106296282A true CN106296282A (zh) | 2017-01-04 |
Family
ID=57666596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610643257.8A Pending CN106296282A (zh) | 2016-08-08 | 2016-08-08 | 一种基于用户评论和历史评分的网购产品评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106296282A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038249A (zh) * | 2017-04-28 | 2017-08-11 | 安徽博约信息科技股份有限公司 | 基于词典的网络舆情信息情感分类方法 |
CN107301200A (zh) * | 2017-05-23 | 2017-10-27 | 合肥智权信息科技有限公司 | 一种基于情感倾向分析的文章评估方法和系统 |
CN107808324A (zh) * | 2017-10-20 | 2018-03-16 | 西安电子科技大学 | 一种在线商品的信誉值计算方法、网络交易平台、计算机 |
CN108595562A (zh) * | 2018-04-12 | 2018-09-28 | 西安邮电大学 | 基于准确性判定的用户评价数据分析方法 |
CN109241993A (zh) * | 2018-07-26 | 2019-01-18 | 中国科学院自动化研究所 | 融合用户和整体评价信息的评价对象情感分类方法及装置 |
CN109657144A (zh) * | 2018-12-17 | 2019-04-19 | 北京百度网讯科技有限公司 | 作品的评分方法、装置、存储介质和终端设备 |
CN110245236A (zh) * | 2019-06-25 | 2019-09-17 | 北京向上一心科技有限公司 | 信息呈现方法、装置和电子设备 |
CN110399602A (zh) * | 2018-04-25 | 2019-11-01 | 北京京东尚科信息技术有限公司 | 一种评测文本可靠性的方法和装置 |
CN110490663A (zh) * | 2019-08-23 | 2019-11-22 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN111324810A (zh) * | 2020-02-17 | 2020-06-23 | 北京奇艺世纪科技有限公司 | 一种信息过滤方法、装置及电子设备 |
CN111340531A (zh) * | 2020-02-18 | 2020-06-26 | 精硕科技(北京)股份有限公司 | 一种实现品牌分析的方法、装置、计算机存储介质及终端 |
CN113409067A (zh) * | 2021-05-07 | 2021-09-17 | 支付宝(杭州)信息技术有限公司 | 一种用户交互方法、装置以及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331451A (zh) * | 2014-10-30 | 2015-02-04 | 南京大学 | 一种基于主题的网络用户评论的推荐度评分方法 |
CN105279148A (zh) * | 2015-10-19 | 2016-01-27 | 昆明理工大学 | 一种app软件用户评论一致性判断方法 |
CN105718490A (zh) * | 2014-12-04 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 一种用于更新分类模型的方法及装置 |
-
2016
- 2016-08-08 CN CN201610643257.8A patent/CN106296282A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331451A (zh) * | 2014-10-30 | 2015-02-04 | 南京大学 | 一种基于主题的网络用户评论的推荐度评分方法 |
CN105718490A (zh) * | 2014-12-04 | 2016-06-29 | 阿里巴巴集团控股有限公司 | 一种用于更新分类模型的方法及装置 |
CN105279148A (zh) * | 2015-10-19 | 2016-01-27 | 昆明理工大学 | 一种app软件用户评论一致性判断方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038249A (zh) * | 2017-04-28 | 2017-08-11 | 安徽博约信息科技股份有限公司 | 基于词典的网络舆情信息情感分类方法 |
CN107301200A (zh) * | 2017-05-23 | 2017-10-27 | 合肥智权信息科技有限公司 | 一种基于情感倾向分析的文章评估方法和系统 |
CN107808324B (zh) * | 2017-10-20 | 2021-05-28 | 西安电子科技大学 | 一种在线商品的信誉值计算方法、网络交易平台、计算机 |
CN107808324A (zh) * | 2017-10-20 | 2018-03-16 | 西安电子科技大学 | 一种在线商品的信誉值计算方法、网络交易平台、计算机 |
CN108595562A (zh) * | 2018-04-12 | 2018-09-28 | 西安邮电大学 | 基于准确性判定的用户评价数据分析方法 |
CN110399602A (zh) * | 2018-04-25 | 2019-11-01 | 北京京东尚科信息技术有限公司 | 一种评测文本可靠性的方法和装置 |
CN109241993A (zh) * | 2018-07-26 | 2019-01-18 | 中国科学院自动化研究所 | 融合用户和整体评价信息的评价对象情感分类方法及装置 |
CN109657144A (zh) * | 2018-12-17 | 2019-04-19 | 北京百度网讯科技有限公司 | 作品的评分方法、装置、存储介质和终端设备 |
CN110245236A (zh) * | 2019-06-25 | 2019-09-17 | 北京向上一心科技有限公司 | 信息呈现方法、装置和电子设备 |
CN110245236B (zh) * | 2019-06-25 | 2021-07-20 | 北京向上一心科技有限公司 | 信息呈现方法、装置和电子设备 |
CN110490663A (zh) * | 2019-08-23 | 2019-11-22 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN111324810A (zh) * | 2020-02-17 | 2020-06-23 | 北京奇艺世纪科技有限公司 | 一种信息过滤方法、装置及电子设备 |
CN111340531A (zh) * | 2020-02-18 | 2020-06-26 | 精硕科技(北京)股份有限公司 | 一种实现品牌分析的方法、装置、计算机存储介质及终端 |
CN113409067A (zh) * | 2021-05-07 | 2021-09-17 | 支付宝(杭州)信息技术有限公司 | 一种用户交互方法、装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106296282A (zh) | 一种基于用户评论和历史评分的网购产品评估方法 | |
Nan et al. | Improving factual consistency of abstractive summarization via question answering | |
CN108304526B (zh) | 一种数据处理方法、装置及服务器 | |
CN105469282A (zh) | 基于文本评论的线上品牌评估方法 | |
KR101423544B1 (ko) | 시맨틱 토픽 추출 장치 및 방법 | |
CN103646088A (zh) | 基于CRFs和SVM的产品评论细粒度情感要素提取 | |
CN105005918A (zh) | 一种基于用户行为数据和潜在用户影响力分析的在线广告推送方法及其推送评估方法 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN103064971A (zh) | 一种基于评分和中文情感分析的垃圾评论检测方法 | |
Herzig et al. | Predicting customer satisfaction in customer support conversations in social media using affective features | |
CN111797898A (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
CN103995853A (zh) | 基于关键句的多语言情感数据处理分类方法及系统 | |
CN106780073A (zh) | 一种考虑用户行为和情感的社会网络影响力最大化初始节点选取方法 | |
CN108009297B (zh) | 基于自然语言处理的文本情感分析方法与系统 | |
CN103425686B (zh) | 一种信息发布方法和装置 | |
CN108845986A (zh) | 一种情感分析方法、设备及系统、计算机可读存储介质 | |
KR20200143991A (ko) | 텍스트의 내용 및 감정 분석에 기반한 답변 추천 시스템 및 방법 | |
CN110955750A (zh) | 评论区域和情感极性的联合识别方法、装置、电子设备 | |
CN106202031A (zh) | 一种基于在线社交平台群聊数据对群成员进行关联的系统及方法 | |
CN102929860A (zh) | 一种基于上下文语境的中文分句情感极性判别方法 | |
CN106649270A (zh) | 舆情监测分析方法 | |
CN109325124A (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
CN105183808A (zh) | 一种问题分类方法及装置 | |
CN106598942A (zh) | 基于表情分析和深度学习的社交网络情感分析方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |
|
RJ01 | Rejection of invention patent application after publication |