CN111612339A - 基于大数据的网销商品情感倾向分析方法 - Google Patents

基于大数据的网销商品情感倾向分析方法 Download PDF

Info

Publication number
CN111612339A
CN111612339A CN202010437544.XA CN202010437544A CN111612339A CN 111612339 A CN111612339 A CN 111612339A CN 202010437544 A CN202010437544 A CN 202010437544A CN 111612339 A CN111612339 A CN 111612339A
Authority
CN
China
Prior art keywords
comment
emotion
commodity
score
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010437544.XA
Other languages
English (en)
Other versions
CN111612339B (zh
Inventor
王海涛
曹馨宇
赵静
张帆
吴刚
赵超
丁文兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202010437544.XA priority Critical patent/CN111612339B/zh
Publication of CN111612339A publication Critical patent/CN111612339A/zh
Application granted granted Critical
Publication of CN111612339B publication Critical patent/CN111612339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于大数据的网销商品情感倾向分析方法,该方法中针对某同类商品的情感得分计算步骤包括:B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据在内的数据信息;B2)通过基于评论分析词典的情感倾向分析方法,对采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分;B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分;B4)结合得到的各网销商品链接的商品情感得分和品牌数据,计算该同类商品下各品牌的情感得分。本发明将用户的定性评论,转化为表示商品质量优劣的情感得分,可供客户选择时参考,更具有可区分性。

Description

基于大数据的网销商品情感倾向分析方法
技术领域
本发明涉及一种网销商品分析方法,具体涉及一种网销商品的情感倾向分析方法。
背景技术
随着社会生活的不断发展,网络销售模式亦在不断演变和进化,网购逐渐深入到千家万户,越来越多的人接受和选择通过各种网络销售平台采买所需的商品和物资。
网销产品的一大服务特色,是可以通过用户评价/评论来对所购产品进行点评,包括产品质量、物流服务、使用体验等各类信息均可给出每一单交易的评论和打分等,从而给其他客户选购时提供参考,也对卖家提供的产品和服务提供了一定的约束力。
然而,对于琳琅满目的品牌、琳琅满目的网络销售链接,以及各销售链接下动辄千条万条的评论数据,客户往往无法直接且直观地从海量评论中有效提取出所需的准确信息,并形成相对客观的判断。同时网销产品的评论数据中,大多差评占比较少,好评或默认好评占比较多,也存在较多刷单好评的现象,因此一方面往往能给用户起到提醒作用的差评,大多掩埋在数量众多的好评中,另一方面,不同销售链接根据好评差评的占比给出的好评率也相差甚微,客户很难在接近或相同的好评率(或好评度)如98%和99%这样1~2个点的区分中,感知出产品或服务的差异性,对于一些打分制的评论体系,客户也难以在接近或相同的打分分值如4.8、4.9等评分中,区分感知出产品或服务的差异性。不同网销平台采用不同打分方法,得到的评分很难直接相互比较。例如,用户很难判断95%和4.9哪个更好。
尤其是同类产品的不同品牌之间,或者同类产品同一品牌的不同销售链接(可能对应不同销售渠道或不同销售店铺或产品不同系列)之间,如何在海量评论数据中,提取出更具有参考意义的信息供客户选择时提供参考,这一问题值得思考并亟待解决。
发明内容
发明目的:为了解决现有技术中的不足,本发明的目的是提供一种基于大数据的网销商品情感倾向分析方法。
技术方案:为解决上述技术问题,本发明提供的一种基于大数据的网销商品情感倾向分析方法,该方法包括情感得分计算步骤;
其中针对某同类商品的情感得分计算步骤包括:
B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据在内的数据信息;
B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分;
B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分;
B4)结合步骤B3)得到的各网销商品链接的商品情感得分和品牌数据,计算该同类商品下各品牌的情感得分。
作为优选的,该方法还包括初始化步骤;其中初始化步骤包括:A0)基于网络平台上用户对商品的多源评论数据,构建和/或更新商品的评论分析词典的步骤;所述评论分析词典包括情感词词典、否定词词典、程度词词典和/或停用词词典;
其中情感词词典中包括若干情感词以及各情感词对应的情感词分值;
其中否定词词典中包括若干否定词;
其中程度词词典中包括若干程度词以及各程度词对应的程度词分值;
其中停用词词典中包括若干停用词。
作为优选的,所述多源评论数据包括若干网络销售平台的评论数据。
作为优选的,所述步骤B3)为:基于各网销商品链接下各条评论的情感得分,结合标准化和基于熵的加权处理方法,计算得到各网销商品链接的商品情感得分。
优选的,所述B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分的步骤中,基于评论分析词典的情感倾向分析方法对某一网销商品链接bij下的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤:
B21)子句分割:根据标点符号将条评论对应的评论文本c,拆分为若干子句
Figure BDA0002502846220000031
B22)修饰关系分析:根据评论分析词典,针对每个子句,识别该子句中的情感词(a1,a2,…)、程度词(d1,d2,…)、否定词(h1,h2,…)和停用词,并记录其位置;结合停用词确定各程度词、否定词所修饰的目标情感词,并结合评论分析词典中对应的程度词分值和情感词分值,以及否定词的数量,确定该子句中各程度词、否定词与目标情感词之间的修饰关系;
B23)各子句情感得分计算:根据获得的修饰关系,确定各个子句的情感得分,其中子句ci的情感得分为:
Figure BDA0002502846220000032
其中,|H|表示否定词出现的次数,D表示程度词分值,
Figure BDA0002502846220000033
表示情感词wk的情感词分值,nw表示子句ci中情感词出现次数;其中,对si为正值的子句ci的情感得分用子句正向情感得分
Figure BDA0002502846220000034
表示,对si为负值的子句ci的情感得分用子句负向情感得分用
Figure BDA0002502846220000035
表示;
B24)该条评论情感得分计算:针对该条评论对应的评论文本c,将其所有子句中的子句正向情感得分进行累加,得到该条评论的正向情感得分s+,将其所有子句中的子句负向情感得分进行累加,得到该条评论的负向情感得分s-
Figure BDA0002502846220000036
Figure BDA0002502846220000037
其中,mc表示评论c的子句数量。
作为优选的,所述步骤B2)中还包括异常值去除步骤,该步骤包括:通过基于评论分析词典的情感倾向分析方法对某一网销商品链接下的各条评论进行情感分析计算得到各条评论的情感得分后,利用箱线图法,将该网销商品链接下的各条评论的正、负向情感得分中的异常值去除。
优选的,所述步骤B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分中,其中某一网销商品链接bij的商品情感得分为:
Figure BDA0002502846220000041
其中,
Figure BDA0002502846220000042
Figure BDA0002502846220000043
分别为该网销商品链接bij的正、负向情感标准分:
Figure BDA0002502846220000044
Figure BDA0002502846220000045
其中,
nc是该网销商品链接bij下评论的总条数;
Figure BDA0002502846220000046
Figure BDA0002502846220000047
分别为该网销商品链接bij第k条评论ck的正、负向情感得分;
Figure BDA0002502846220000048
Figure BDA0002502846220000049
分别为该网销商品链接bij所有评论的正、负向情感得分的平均值;
Figure BDA00025028462200000410
Figure BDA00025028462200000411
分别为该网销商品链接bij所有评论的正、负向情感得分的标准差;
其中,α+和α-分别为正向权重和负向权重。
作为优选的,针对网销商品链接bij,所述正向权重α+和负向权重α-通过如下步骤获得:
K1)将网销商品链接bij下的各条评论的正、负向情感得分分别进行min-max标准化处理,使结果映射到[0,1]区间,包括:
将网销商品链接bij下所有评论中的正向情感得分转化为正向指标,其中,网销商品链接bij第u条评论的正向指标
Figure BDA00025028462200000412
为:
Figure BDA00025028462200000413
以及,将网销商品链接bij下所有评论中的负向情感得分转化为负向指标,其中,网销商品链接bij第u条评论的负向指标
Figure BDA00025028462200000414
为:
Figure BDA00025028462200000415
其中,u=1,2,…nc
Figure BDA0002502846220000051
为网销商品链接bij第u条评论的正向情感得分;Max(S+),Min(S+)分别为网销商品链接bij所有评论中正向情感得分的最大值和最小值;
Figure BDA0002502846220000052
为网销商品链接bij第u条评论的负向情感得分;Max(S-),Min(S-)分别为网销商品链接bij所有评论中负向情感得分的最大值和最小值;
K2)计算网销商品链接bij各条评论的正、负向指标的比重,其中,该网销商品链接bij第u条评论的正、负向指标的比重分别为:
Figure BDA0002502846220000053
Figure BDA0002502846220000054
K3)计算网销商品链接bij下所有评论的正向指标的熵值e+和负向指标的熵值e-
Figure BDA0002502846220000055
Figure BDA0002502846220000056
K4)计算网销商品链接bij下所有评论的正向指标的差异性系数g+和负向指标的差异性系数g-
g+=1-e+
g-=1-e-
K5)计算得到网销商品链接bij的正向权重a+和负向权重a-
Figure BDA0002502846220000057
Figure BDA0002502846220000058
优选的,所述步骤B4)结合步骤B3)得到的各网销商品链接的商品情感得分和品牌数据,计算该同类商品下各品牌的情感得分中,其中该同类商品下某一品牌Bi的情感得分为:
Figure BDA0002502846220000059
其中,
xij为网销商品链接bij的商品情感得分;
wj是该同类商品下品牌Bi中网销商品链接bij的商品销量比重,
Figure BDA0002502846220000061
ni为该同类商品下该品牌Bi的所有网销商品链接的数量。
优选的,所述步骤B1)为:采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据、和/或网销店铺数据在内的数据信息。
有益效果:本发明提供的基于大数据的网销商品情感倾向分析方法,通过将用户对网销商品链接下的定性评论,转化为表示商品、品牌质量优劣的情感得分,可用于在网销平台上展示供客户选择商品时提供更为有效的参考,在某些应用场合中,甚至可以作为质检等抽样检验工作的基础为质检抽样提供参考,与现有技术相比,其包括如下优点:
1、根据差评的内容和数量,动态放大差评(即负向情感得分)的作用,能够凸显更有问题的商品和品牌,比简单的好评率、差评率更有可区分性。
2、实际应用场景下用户评论不断增加,本方法无需事先进行模型训练,可实时快捷地适应评论数量变化,实现实时采集、实时计算,或滚动采集、累积计算等各种方式,实时性强,灵活度高。
3、提供以品牌为维度进行统计,可以避免由于网销商品对应的网销商品链接名称复杂、散乱等带来的不利干扰影响。
4、进一步的,可大幅减弱刷单等现象带来的无用评价(如重复评价、套话评价、故意好评或恶意差评等)造成的数据影响和干扰,相比现有的好评率、好评度、评分(如打分评分、星级评分或综合评分等)等,提供更有区分度和参考意义的情感倾向得分,供客户选择时提供参考。
5、进一步的,本方法结合标准化和基于熵的加权处理方法,将获得的各网销商品链接的情感得分控制在同一数量级,便于横向比较,有效避免不同商品链接的用户评论的情感得分可能差别比较大,甚至不在同一数量级,难以横向比较的问题。
附图说明
图1为某网销同类商品的情感得分计算层次模型;
图2为评论分析词典中的情感词词典示意图;
图3为评论分析词典中的否定词词典示意图;
图4为评论分析词典中的程度词词典示意图;
图5为评论分析词典中的停用词词典示意图;
图6为网销商品链接下各条评论的情感得分计算流程示意图;
图7为箱线图去除异常值的示意图;
图8为实施例的举例中若干网销商品链接bij未进行标准化处理的的正向情感原始得分(ScorePositive)和负向情感原始得分(ScoreNegative)数据对比图;
图9为实施例的举例中若干网销商品链接bij未进行标准化处理的正向情感原始得分(ScorePositive)和进行标准化处理后的正向情感标准分(z_ScorePositive)的数据对比图;
图10为实施例的举例中若干网销商品链接bij未进行标准化处理的负向情感原始得分(ScoreNegative)和进行标准化处理后的负向情感标准分(z_ScoreNegative)的数据对比图;
图11为实施例的举例中若干网销商品链接bij的好评度(Rate)与经过标准化和基于熵的加权处理后的各网销商品链接bij的商品情感得分(z_Score)的数据对比图。
具体实施方式
下面结合实施例和附图对本发明做进一步的详细说明,以下实施列对本发明不构成限定。
本发明提供的基于大数据的网销商品情感倾向分析方法,包括情感得分计算步骤。
文中所述评论分析词典包括情感词词典、否定词词典、程度词词典和/或停用词词典。该评论分析词典可采用现有技术中的情感词词典、否定词词典、程度词词典和/或停用词词典直接组建而成。
当然在某些实施例中,该评论分析词典也可根据网络平台上用户对商品的多源评论数据,来进行构建和/或更新。也即在该实施例所提供的基于大数据的网销商品情感倾向分析方法中,还包括初始化步骤。其中,该初始化步骤包括:A0)基于网络平台上用户对商品的多源评论数据,构建和/或更新商品的评论分析词典的步骤。
其中,更新商品的评论分析词典,可在上述由现有技术中的各词典组建而成的评论分析词典的基础上更新,也可在根据网络平台上用户对商品的多源评论数据构建而成的评论分析词典的基础上更新。
如图2所示,其中情感词词典中包括若干情感词以及各情感词对应的情感词分值。如图3所示,其中否定词词典中包括若干否定词。否定词的出现将直接将句子情感转向相反的方向,而且通常效用是叠加的。
如图4所示,其中程度词词典中包括若干程度词以及各程度词对应的程度词分值。其中程度词分值为表示该程度副词强弱的数值,程度词词典内数据格式如图4所示,共两列,第一列为程度词(也可称为程度副词),第二列是程度词分值(也可称为程度数值),该值>1表示强化情感,该值<1表示弱化情感。
如图5所示,其中停用词词典中包括若干停用词。
上述多源评论数据包括若干网络销售平台的评论数据。其中若干网络销售平台如淘宝、天猫、京东、苏宁等。
其中针对某同类商品的情感得分计算步骤包括(图1为某网销同类商品的情感得分计算层次模型):
B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括商品数据、品牌数据、评论数据在内的数据信息。
在某些优选实施例中,所述数据信息为包括品牌数据、评论数据、销售量数据、和/或网销店铺数据在内的数据信息。
B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分:
文中所述情感得分计算,又可称为情感分析、情感计算、情感倾向性分析和意见挖掘等等,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。由于商品评论本身句子结构较为简单且存在强烈的情感色彩,所以使用基于评论分析词典的情感倾向分析方法可以有效的计算评论的情感倾向。
其中如图6所示,基于评论分析词典的情感倾向分析方法对某一网销商品链接bij下的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤:
B21)子句分割:根据标点符号将条评论对应的评论文本c,拆分为若干子句
Figure BDA0002502846220000091
B22)修饰关系分析:根据评论分析词典,针对每个子句,识别该子句中的情感词(a1,a2,…)、程度词(d1,d2,…)、否定词(h1,h2,…)和停用词,并记录其位置;结合停用词确定各程度词、否定词所修饰的目标情感词,并结合评论分析词典中对应的程度词分值和情感词分值,以及否定词的数量,确定该子句中各程度词、否定词与目标情感词之间的修饰关系;
B23)各子句情感得分计算:根据获得的修饰关系,确定各个子句的情感得分,其中子句ci的情感得分为:
Figure BDA0002502846220000092
其中,|H|表示否定词出现的次数,D表示程度词分值,
Figure BDA0002502846220000093
表示情感词wk的情感词分值,nw表示子句ci中情感词出现次数;其中,对si为正值的子句ci的情感得分用子句正向情感得分
Figure BDA0002502846220000094
表示,对si为负值的子句ci的情感得分用子句负向情感得分用
Figure BDA0002502846220000095
表示;
B24)该条评论情感得分计算(亦可称为评论子句倾向汇总):针对该条评论对应的评论文本c,将其所有子句中的子句正向情感得分进行累加,得到该条评论的正向情感得分s+,将其所有子句中的子句负向情感得分进行累加,得到该条评论的负向情感得分s-
Figure BDA0002502846220000096
Figure BDA0002502846220000097
其中,mc表示评论c的子句数量。
在某些优选实施例中,此处步骤B24)后还包括异常值去除步骤,该步骤包括:通过基于评论分析词典的情感倾向分析方法对某一网销商品链接下的各条评论进行情感分析计算得到各条评论的情感得分后,利用箱线图法,将该网销商品链接下的各条评论的正、负向情感得分中的异常值去除。具体的,本实施例中,如图7所示,对网销商品链接bij执行以下操作:
1)去除网销商品链接bij下的各条评论的所有正向情感得分中的异常值
Step11.将网销商品链接bij下的各条评论的所有正向情感得分按从大到小排列,构成集合
Figure BDA0002502846220000101
nc是该网销商品链接bij下评论的总条数,并且
Figure BDA0002502846220000102
Step12.计算S+的中位数
Figure BDA0002502846220000103
Figure BDA0002502846220000104
Step13.计算上四分位数
Figure BDA0002502846220000105
即集合
Figure BDA0002502846220000106
的中位数,当m为偶数时k=m/2,当m为奇数时k=(m+1)/2;
Step14.计算下四分位数
Figure BDA0002502846220000107
即集合
Figure BDA0002502846220000108
的中位数;
Step15.计算四分位距
Figure BDA0002502846220000109
Step16.计算上边缘值
Figure BDA00025028462200001010
Figure BDA00025028462200001011
Step17.计算下边缘值
Figure BDA00025028462200001012
Figure BDA00025028462200001013
Step18.确定正向情感得分中的异常值
Figure BDA00025028462200001014
Figure BDA00025028462200001015
并去除。
2)去除网销商品链接bij下的各条评论的所有负向情感得分中的异常值
Step21.将网销商品链接bij下的各条评论的所有负向情感得分按从大到小排列,构成集合
Figure BDA00025028462200001016
并且
Figure BDA00025028462200001017
Step22.计算S-的中位数
Figure BDA00025028462200001018
Figure BDA00025028462200001019
Step23.计算上四分位数
Figure BDA00025028462200001020
即集合
Figure BDA00025028462200001021
的中位数,当m为偶数时k=m/2,当m为奇数时k=(m+1)/2;
Step24.计算下四分位数
Figure BDA0002502846220000111
即集合
Figure BDA0002502846220000112
的中位数;
Step25.计算四分位距
Figure BDA0002502846220000113
Step26.计算上边缘值
Figure BDA0002502846220000114
Figure BDA0002502846220000115
Step27.计算下边缘值
Figure BDA0002502846220000116
Figure BDA0002502846220000117
Step28.确定负向情感得分中的异常值
Figure BDA0002502846220000118
Figure BDA0002502846220000119
并去除。
当然,上述异常值去除也可通过现有技术或本领域常规技术手段中采取的其他异常值去除方法来实现。
B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分:
在本优选实施例中,所述步骤B3)为:基于各网销商品链接下各条评论的情感得分,结合标准化和基于熵的加权处理方法,计算得到各网销商品链接的商品情感得分。在某些优选实施例中也可以说是,所述步骤B3)为:基于各网销商品链接下各条评论的情感得分,结合z-score标准化方法计算得到各网销商品链接的正、负向情感标准分,进而基于熵的加权处理方法,计算得到各网销商品链接的商品情感得分。具体的:
其中某一网销商品链接bij的商品情感得分为:
Figure BDA00025028462200001110
其中,
Figure BDA00025028462200001111
Figure BDA00025028462200001112
分别为该网销商品链接bij的正、负向情感标准分,本实施例中使用z-score标准化方法计算得到:
Figure BDA00025028462200001113
Figure BDA00025028462200001114
其中,
nc是该网销商品链接bij下评论的总条数;
Figure BDA0002502846220000121
Figure BDA0002502846220000122
分别为该网销商品链接bij第k条评论ck的正、负向情感得分;
Figure BDA0002502846220000123
Figure BDA0002502846220000124
分别为该网销商品链接bij所有评论的正、负向情感得分的平均值;
Figure BDA0002502846220000125
Figure BDA0002502846220000126
分别为该网销商品链接bij所有评论的正、负向情感得分的标准差;
其中,α+和α-分别为正向权重和负向权重。本实施例中,α+和α-分别为基于熵值法计算得到的正向权重和负向权重(也可以说是熵值法求权重)
针对网销商品链接bij,其中正向权重α+和负向权重α-通过如下步骤获得:
K1)将网销商品链接bij下的各条评论的正、负向情感得分分别进行min-max标准化处理,使结果映射到[0,1]区间,包括:
将网销商品链接bij下所有评论中的正向情感得分转化为正向指标,其中,网销商品链接bij第u条评论的正向指标
Figure BDA0002502846220000127
为:
Figure BDA0002502846220000128
以及,将网销商品链接bij下所有评论中的负向情感得分转化为负向指标,其中,网销商品链接bij第u条评论的负向指标
Figure BDA0002502846220000129
为:
Figure BDA00025028462200001210
其中,u=1,2,…nc
Figure BDA00025028462200001211
为网销商品链接bij第u条评论的正向情感得分;Max(S+),Min(S+)分别为网销商品链接bij所有评论中正向情感得分的最大值和最小值;
Figure BDA00025028462200001212
为网销商品链接bij第u条评论的负向情感得分;Max(S-),Min(S-)分别为网销商品链接bij所有评论中负向情感得分的最大值和最小值;
K2)计算网销商品链接bij各条评论的正、负向指标的比重,其中,该网销商品链接bij第u条评论的正、负向指标的比重分别为:
Figure BDA00025028462200001213
Figure BDA00025028462200001214
K3)计算网销商品链接bij下所有评论的正向指标的熵值e+和负向指标的熵值e-
Figure BDA0002502846220000131
Figure BDA0002502846220000132
此处通过熵值和标准分的引入计算,可以大幅减弱刷单等现象带来的无用评价(如重复评价、套话评价等)造成的数据影响和干扰,将好评和差评综合考虑,并根据差评情况动态调整好评和差评的权重。相比现有的好评率或好评度,提供更有区分度和参考意义的情感倾向得分,更符合人们直观体验,便于供客户选择商品时提供参考,在某些应用场合中,甚至可以作为检验、抽样工作的基础数据为质检抽样提供参考。
K4)计算网销商品链接bij下所有评论的正向指标的差异性系数g+和负向指标的差异性系数g-
g+=1-e+
g-=1-e-
K5)计算得到网销商品链接bij的正向权重a+和负向权重a-
Figure BDA0002502846220000133
Figure BDA0002502846220000134
B4)结合步骤B3)得到的各网销商品链接的商品情感得分和品牌数据,计算该同类商品下各品牌的情感得分:
其中该同类商品下某一品牌Bi的情感得分为:
Figure BDA0002502846220000135
其中,xij为网销商品链接bij的商品情感得分;
wj是该同类商品下品牌Bi中网销商品链接bij的商品销量比重(针对该同类商品下的品牌Bi,网销商品链接bij占该同类商品下该品牌Bi的所有网销商品链接的销量比重),
Figure BDA0002502846220000136
ni为该同类商品下该品牌Bi的所有网销商品链接的数量。
仿真实验:随机选取若干网销商品链接bij进行上述方法步骤的仿真,本仿真实验的示例中原始网销数据来源于天猫。
图8、图9、图10和图11的横坐标均为所选取的若干网销商品链接bij。图中的各网销商品链接的正向情感原始得分ScorePositive为对应网销商品链接下的所有评论的正向情感得分的均分,各网销商品链接的负向情感原始得分ScoreNegative为对应网销商品链接的所有评论的负向情感得分的均分。
以网销商品链接bij举例说明,图中各网销商品链接进行标准化处理后的正向情感标准分z_ScorePositive,即对应文中网销商品链接bij的正向情感标准分
Figure BDA0002502846220000141
各网销商品链接进行标准化处理后的负向情感标准分z_ScoreNegative,即对应文中网销商品链接bij的负向情感标准分
Figure BDA0002502846220000142
图中经过标准化和基于熵的加权处理后(也可称为经过标准化和基于熵的方法加权后)的各网销商品链接bij的商品情感得分z_Score,即对应文中网销商品链接bij的商品情感得分xij
图8为所选取的这些网销商品链接bij未进行标准化处理的正向情感原始得分ScorePositive和负向情感原始得分ScoreNegative数据对比图,由图8可见:未进行标准化处理前,直接由用户评论计算出的正向情感原始得分ScorePositive和负向情感原始得分scorenegative差异较大,难以直接汇总。
图9为所选取的这些网销商品链接bij未进行标准化处理的正向情感原始得分ScorePositive和进行标准化处理后的正向情感标准分z_ScorePositive的数据对比图。由图9可见:进行标准化处理之后的正向情感标准分z_ScorePositive,和未进行标准化处理的正向情感原始得分ScorePositive的趋势是一致的,保持差异和趋势性的同时,缩小了分值之间的跨度,同时也将正向得分与负向得分控制在相近数量级范围内,降低了正向情感得分的影响程度,便于正向和负向情感得分进行汇总,以便于在不同网销商品链接之间进行比较。
图10为所选取的这些网销商品链接bij未进行标准化处理的负向情感原始得分ScoreNegative和进行标准化处理后的负向情感标准分z_ScoreNegative的数据对比图。由图10可见:进行标准化处理之后的负向情感标准分z_ScoreNegative,和未进行标准化处理的负向情感原始得分ScoreNegative的趋势是一致的,但放大了不同网销商品链接得分的差异性,使负向效果更加突出,与正向情感标准分z_ScorePositive具有相同数量级,便于与正向情感得分进行汇总,以便于在不同网销商品链接之间进行比较。
图11为所选取的这些网销商品链接bij的好评率Rate与经过标准化和基于熵的加权处理后(也可称为经过标准化和基于熵的方法加权后)的各网销商品链接bij的商品情感得分z_Score的数据对比图。由图11可以明显看出:不同网销商品链接的标准分也即商品情感得分z_Score差异比较明显,比好评率Rate更有区分性,尤其是很多网销商品链接的好评率数值相同(如图中一些峰部平坦位置),但经过标准化和基于熵的加权处理后的商品情感得分的数值却明显不同,更好地反应了不同网销商品链接下的产品质量的差异。因此处仿真的原始数据来源于天猫,故此处好评率Rate为打分(如满分为5分的综合评分)所获得的分值。
此外,不同网站/网络销售平台对于好评率(好评度)可能有不同的打分体系,有些是满分为5分(如天猫),有些是满分为100%(如京东)。因此,不同网站/网络销售平台之间好评率很难直接比较。本方法以用户评论来计算各网销商品链接的商品情感得分z_Score,即使不同网站,得到的各网销商品链接的商品情感得分z_Score也具有相同的意义和数量级,可以在不同网络销售平台间直接比较。
由此可见,上述实施例,通过基于用户评论得到的情感得分/情感倾向性分析,相比海量的评论数据库和单一的好评率(也可称为好评度),综合多个维度更均衡、客观、有效地表示了网销商品链接对应的商品或品牌的质量优劣,其基于用户购买或选用或体验的评论历史数据,为客户后续选购网销商品时提供更为有效的参考,在某些应用场合中,甚至可以作为检验、抽样工作的基础数据为质检抽样提供更为有效的参考。
以上仅是本发明的优选实施方式,应当指出以上实施列对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的多样变化和修改,均落在本发明的保护范围内。

Claims (10)

1.一种基于大数据的网销商品情感倾向分析方法,其特征在于:该方法包括情感得分计算步骤;
其中针对某同类商品的情感得分计算步骤包括:
B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据在内的数据信息;
B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分;
B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分;
B4)结合步骤B3)得到的各网销商品链接的商品情感得分和品牌数据,计算该同类商品下各品牌的情感得分。
2.根据权利要求1所述的基于大数据的网销商品情感倾向分析方法,其特征在于:该方法还包括初始化步骤;其中初始化步骤包括:A0)基于网络平台上用户对商品的多源评论数据,构建和/或更新商品的评论分析词典的步骤;所述评论分析词典包括情感词词典、否定词词典、程度词词典和/或停用词词典;
其中情感词词典中包括若干情感词以及各情感词对应的情感词分值;
其中否定词词典中包括若干否定词;
其中程度词词典中包括若干程度词以及各程度词对应的程度词分值;
其中停用词词典中包括若干停用词。
3.根据权利要求1所述的基于大数据的网销商品情感倾向分析方法,其特征在于:所述多源评论数据包括若干网络销售平台的评论数据。
4.根据权利要求1所述的基于大数据的网销商品情感倾向分析方法,其特征在于:所述步骤B3)为:基于各网销商品链接下各条评论的情感得分,结合标准化和基于熵的加权处理方法,计算得到各网销商品链接的商品情感得分。
5.根据权利要求1所述的基于大数据的网销商品情感倾向分析方法,其特征在于:所述B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分的步骤中,基于评论分析词典的情感倾向分析方法对某一网销商品链接bij下的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤:
B21)子句分割:根据标点符号将条评论对应的评论文本c,拆分为若干子句
Figure FDA0002502846210000021
B22)修饰关系分析:根据评论分析词典,针对每个子句,识别该子句中的情感词(a1,a2,…)、程度词(d1,d2,…)、否定词(h1,h2,…)和停用词,并记录其位置;结合停用词确定各程度词、否定词所修饰的目标情感词,并结合评论分析词典中对应的程度词分值和情感词分值,以及否定词的数量,确定该子句中各程度词、否定词与目标情感词之间的修饰关系;
B23)各子句情感得分计算:根据获得的修饰关系,确定各个子句的情感得分,其中子句ci的情感得分为:
Figure FDA0002502846210000022
其中,|H|表示否定词出现的次数,D表示程度词分值,
Figure FDA0002502846210000023
表示情感词wk的情感词分值,nw表示子句ci中情感词出现次数;其中,对si为正值的子句ci的情感得分用子句正向情感得分
Figure FDA0002502846210000024
表示,对si为负值的子句ci的情感得分用子句负向情感得分用
Figure FDA0002502846210000025
表示;
B24)该条评论情感得分计算:针对该条评论对应的评论文本c,将其所有子句中的子句正向情感得分进行累加,得到该条评论的正向情感得分s+,将其所有子句中的子句负向情感得分进行累加,得到该条评论的负向情感得分s-
Figure FDA0002502846210000026
Figure FDA0002502846210000027
其中,mc表示评论c的子句数量。
6.根据权利要求5所述的基于大数据的网销商品情感倾向分析方法,其特征在于:所述步骤B2)中还包括异常值去除步骤,该步骤包括:通过基于评论分析词典的情感倾向分析方法对某一网销商品链接下的各条评论进行情感分析计算得到各条评论的情感得分后,利用箱线图法,将该网销商品链接下的各条评论的正、负向情感得分中的异常值去除。
7.根据权利要求5所述的基于大数据的网销商品情感倾向分析方法,其特征在于:所述步骤B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分中,其中某一网销商品链接bij的商品情感得分为:
Figure FDA0002502846210000031
其中,
Figure FDA0002502846210000032
Figure FDA0002502846210000033
分别为该网销商品链接bij的正、负向情感标准分:
Figure FDA0002502846210000034
Figure FDA0002502846210000035
其中,
nc是该网销商品链接bij下评论的总条数;
Figure FDA0002502846210000036
Figure FDA0002502846210000037
分别为该网销商品链接bij第k条评论ck的正、负向情感得分;
Figure FDA0002502846210000038
Figure FDA0002502846210000039
分别为该网销商品链接bij所有评论的正、负向情感得分的平均值;
Figure FDA00025028462100000310
Figure FDA00025028462100000311
分别为该网销商品链接bij所有评论的正、负向情感得分的标准差;
其中,α+和α-分别为正向权重和负向权重。
8.根据权利要求7所述的基于大数据的网销商品情感倾向分析方法,其特征在于:针对网销商品链接bij,所述正向权重α+和负向权重α-通过如下步骤获得:
K1)将网销商品链接bij下的各条评论的正、负向情感得分分别进行min-max标准化处理,使结果映射到[0,1]区间,包括:
将网销商品链接bij下所有评论中的正向情感得分转化为正向指标,其中,网销商品链接bij第u条评论的正向指标
Figure FDA00025028462100000312
为:
Figure FDA0002502846210000041
以及,将网销商品链接bij下所有评论中的负向情感得分转化为负向指标,其中,网销商品链接bij第u条评论的负向指标
Figure FDA0002502846210000042
为:
Figure FDA0002502846210000043
其中,u=1,2,…nc
Figure FDA0002502846210000044
为网销商品链接bij第u条评论的正向情感得分;Max(S+),Min(S+)分别为网销商品链接bij所有评论中正向情感得分的最大值和最小值;
Figure FDA0002502846210000045
为网销商品链接bij第u条评论的负向情感得分;Max(S-),Min(S-)分别为网销商品链接bij所有评论中负向情感得分的最大值和最小值;
K2)计算网销商品链接bij各条评论的正、负向指标的比重,其中,该网销商品链接bij第u条评论的正、负向指标的比重分别为:
Figure FDA0002502846210000046
Figure FDA0002502846210000047
K3)计算网销商品链接bij下所有评论的正向指标的熵值e+和负向指标的熵值e-
Figure FDA0002502846210000048
Figure FDA0002502846210000049
K4)计算网销商品链接bij下所有评论的正向指标的差异性系数g+和负向指标的差异性系数g-
g+=1-e+
g-=1-e-
K5)计算得到网销商品链接bij的正向权重a+和负向权重a-
Figure FDA00025028462100000410
Figure FDA00025028462100000411
Figure FDA0002502846210000053
9.根据权利要求7所述的基于大数据的网销商品情感倾向分析方法,其特征在于:所述步骤B4)结合步骤B3)得到的各网销商品链接的商品情感得分和品牌数据,计算该同类商品下各品牌的情感得分中,其中该同类商品下某一品牌Bi的情感得分为:
Figure FDA0002502846210000051
其中,
xij为网销商品链接bij的商品情感得分;
wj是该同类商品下品牌Bi中网销商品链接bij的商品销量比重,
Figure FDA0002502846210000052
ni为该同类商品下该品牌Bi的所有网销商品链接的数量。
10.根据权利要求1所述的基于大数据的网销商品情感倾向分析方法,其特征在于:所述步骤B1)为:采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据、和/或网销店铺数据在内的数据信息。
CN202010437544.XA 2020-05-21 2020-05-21 基于大数据的网销商品情感倾向分析方法 Active CN111612339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010437544.XA CN111612339B (zh) 2020-05-21 2020-05-21 基于大数据的网销商品情感倾向分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010437544.XA CN111612339B (zh) 2020-05-21 2020-05-21 基于大数据的网销商品情感倾向分析方法

Publications (2)

Publication Number Publication Date
CN111612339A true CN111612339A (zh) 2020-09-01
CN111612339B CN111612339B (zh) 2023-08-22

Family

ID=72201647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010437544.XA Active CN111612339B (zh) 2020-05-21 2020-05-21 基于大数据的网销商品情感倾向分析方法

Country Status (1)

Country Link
CN (1) CN111612339B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711941A (zh) * 2021-01-08 2021-04-27 浪潮云信息技术股份公司 一种基于情感词典实体的情感得分的分析处理方法
CN117634988A (zh) * 2024-01-25 2024-03-01 中国标准化研究院 一种基于先验信息的商品合格抽样检验方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
US20190318407A1 (en) * 2015-07-17 2019-10-17 Devanathan GIRIDHARI Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318407A1 (en) * 2015-07-17 2019-10-17 Devanathan GIRIDHARI Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林钦和;刘钢;陈荣华: "基于情感计算的商品评论分析系统", 计算机应用与软件 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711941A (zh) * 2021-01-08 2021-04-27 浪潮云信息技术股份公司 一种基于情感词典实体的情感得分的分析处理方法
CN112711941B (zh) * 2021-01-08 2022-12-27 浪潮云信息技术股份公司 一种基于情感词典实体的情感得分的分析处理方法
CN117634988A (zh) * 2024-01-25 2024-03-01 中国标准化研究院 一种基于先验信息的商品合格抽样检验方法及系统
CN117634988B (zh) * 2024-01-25 2024-04-12 中国标准化研究院 一种基于先验信息的商品合格抽样检验方法及系统

Also Published As

Publication number Publication date
CN111612339B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111612340B (zh) 基于大数据的网销商品检验抽样方法
CN103778214B (zh) 一种基于用户评论的商品属性聚类方法
US20140067476A1 (en) Marketing device, marketing method, program and recording medium
CN105550269A (zh) 一种有监督学习的产品评论分析方法及系统
CN105608600A (zh) 一种对b2b卖家效果评估和优化方法
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
CN105468649B (zh) 一种待展示对象匹配的判断方法及其装置
CN111612339B (zh) 基于大数据的网销商品情感倾向分析方法
CN112613953A (zh) 一种商品选品方法、系统及计算机可读存储介质
CN111340572A (zh) 一种基于大数据的线上商品价格评估系统及评估方法
CN111598454A (zh) 一种生鲜冷链物流在线评论情感分析方法
CN111861507A (zh) 一种用于实时分析网络餐饮店铺风险的识别方法及系统
CN114091837A (zh) 一种基于电商数据进行店铺评分的方法及系统
CN117670187B (zh) 一种用于智能物流的仓储分品类关联管理系统
Hasibuan et al. Implementation of the Naïve Bayes Method to determine the Level of Consumer Satisfaction
Rana et al. Classifying customers’ journey from online reviews of Amazon fresh via sentiment analysis and topic modelling
CN106682875A (zh) 一种基于数据分析处理技术的营销活动奖品供应商推荐方法
CN113742587B (zh) 一种适合工业品的互联网推广方法
Abighail et al. Sentiment Analysis E-commerce Review
US20240062264A1 (en) Ai- backed e-commerce for all the top rated products on a single platform
EP2933771A1 (en) Method and system for identifying defective goods based on user purchasing behaviour
CN110020195A (zh) 文章推荐方法及装置、存储介质、电子设备
Putri et al. Product review sentiment analysis at online store jiniso official shop using Naive Bayes Classifier (NBC) method
Nazari et al. Modeling the Factors Influencing Store Price Image in Iran by Interpretive Structural Modeling Method
CN109543987A (zh) 互联网和移动互联网产品的主客观双数据分析法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant