CN111612340A - 基于大数据的网销商品检验抽样方法 - Google Patents

基于大数据的网销商品检验抽样方法 Download PDF

Info

Publication number
CN111612340A
CN111612340A CN202010437558.1A CN202010437558A CN111612340A CN 111612340 A CN111612340 A CN 111612340A CN 202010437558 A CN202010437558 A CN 202010437558A CN 111612340 A CN111612340 A CN 111612340A
Authority
CN
China
Prior art keywords
commodity
comment
under
brand
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010437558.1A
Other languages
English (en)
Other versions
CN111612340B (zh
Inventor
王海涛
赵静
张帆
曹馨宇
吴刚
赵超
丁文兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202010437558.1A priority Critical patent/CN111612340B/zh
Publication of CN111612340A publication Critical patent/CN111612340A/zh
Priority to PCT/CN2021/074960 priority patent/WO2021232856A1/zh
Application granted granted Critical
Publication of CN111612340B publication Critical patent/CN111612340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于大数据的网销商品检验抽样方法,该方法中针对某同类商品的情感得分计算步骤包括:B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据在内的数据信息;B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分;B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分。本发明可以在网销商品各类复杂的情况下,尤其是总体商品总数不确定的情况下,即可获得相对适合的入样概率和抽样数量,使质量监控或抽检工作目标性更强,效率更高,更为科学合理。

Description

基于大数据的网销商品检验抽样方法
技术领域
本发明涉及一种检验抽样方法,具体涉及一种网销商品的检验抽样方法。
背景技术
在质量管理过程中,要对产品进行检测,以判断产品的总体质量状况。在检测中,抽检的数量不仅密切影响着总体质量判断的准确性,同时也和时间成本、资金成本、人员成本等密切相关。
随着社会生活的不断发展,网络销售模式亦在不断演变和进化,网购逐渐深入到千家万户,越来越多的人接受和选择通过各种网络销售平台采买所需的商品和物资。但是,对于网络平台商品而言,由于存在着品牌多、商品分类复杂、商品总数不确定、销售渠道不固定等诸多问题,尤其是总体商品总数的不确定,使得传统的抽检方法难以很好地适用于网销产品来确定适合的抽样概率或抽样数量。
网络销售商品的质量控制一直都是质量监管部门、网销平台关注的核心问题,如何在商品总数不确定、销售渠道不固定、品牌多、商品分类复杂的情况下,获得适合的抽样数量,或者如何确定适合的或较少的抽样数量,来获得较高的判断准确性,均是目前亟待解决的问题。
发明内容
发明目的:为了解决现有技术中的不足,本发明的目的是提供一种基于大数据的网销商品检验抽样方法。
技术方案:为解决上述技术问题,本发明提供的一种基于大数据的网销商品检验抽样方法,其包括情感得分计算步骤和抽样数据计算步骤;
其中针对某同类商品的情感得分计算步骤包括:
B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据在内的数据信息;
B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分;
B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分;
其中针对某同类商品的抽样数据计算步骤包括:
C1)根据该同类商品下各网销商品链接的商品情感得分,结合品牌数据,计算得到该同类商品下各品牌的各个网销商品链接的商品先验概率,以及该同类商品下各品牌的先验概率;
C2)结合该同类商品下的品牌数据,确定该同类商品下各品牌的入样概率;
C4)结合该同类商品的待抽取商品总数,确定该同类商品下各品牌的商品抽样数量。
作为进一步优选的,所述步骤B1)为:采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、网销店铺数据、评论数据、销售量数据在内的数据信息;
所述步骤C2)后还包括步骤C3):结合该同类商品下的网销店铺数据和该同类商品下各品牌的入样概率,确定该同类商品下各品牌在各网销店铺中的入样概率;
所述步骤C4)后还包括步骤C5):根据该同类商品的待抽取商品总数,确定该同类商品下各品牌在各网销店铺中的商品抽样数量。
优选的,该方法还包括初始化步骤;其中初始化步骤包括:A0)基于网络平台上用户对商品的多源评论数据,构建和/或更新商品的评论分析词典的步骤;
所述评论分析词典包括情感词词典、否定词词典、程度词词典和/或停用词词典;
其中情感词词典中包括若干情感词以及各情感词对应的情感词分值;
其中否定词词典中包括若干否定词;
其中程度词词典中包括若干程度词以及各程度词对应的程度词分值;
其中停用词词典中包括若干停用词。
作为进一步优选的,所述B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分的步骤中,基于评论分析词典的情感倾向分析方法对某一网销商品链接bij下的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤:
B21)子句分割:根据标点符号将条评论对应的评论文本c,拆分为若干子句
Figure BDA00025028476000000310
B22)修饰关系分析:根据评论分析词典,针对每个子句,识别该子句中的情感词(a1,a2,…)、程度词(d1,d2,…)、否定词(h1,h2,…)和停用词,并记录其位置;结合停用词确定各程度词、否定词所修饰的目标情感词,并结合评论分析词典中对应的程度词分值和情感词分值,以及否定词的数量,确定该子句中各程度词、否定词与目标情感词之间的修饰关系;
B23)各子句情感得分计算:根据获得的修饰关系,确定各个子句的情感得分,其中子句ci的情感得分为:
Figure BDA0002502847600000031
其中,|H|表示否定词出现的次数,D表示程度词分值,
Figure BDA0002502847600000032
表示情感词wk的情感词分值,nw表示子句ci中情感词出现次数;其中,对si为正值的子句ci的情感得分用子句正向情感得分
Figure BDA0002502847600000033
表示,对si为负值的子句ci的情感得分用子句负向情感得分用
Figure BDA0002502847600000034
表示;
B24)该条评论情感得分计算:针对该条评论对应的评论文本c,将其所有子句中的子句正向情感得分进行累加,得到该条评论的正向情感得分s+,将其所有子句中的子句负向情感得分进行累加,得到该条评论的负向情感得分s-
Figure BDA0002502847600000035
Figure BDA0002502847600000036
其中,mc表示评论c的子句数量。
优选的,所述步骤B3)为:基于各网销商品链接下各条评论的情感得分,结合标准化和基于熵的加权处理方法,计算得到各网销商品链接的商品情感得分;
其中,某一网销商品链接bij的商品情感得分为:
Figure BDA0002502847600000037
其中,
Figure BDA0002502847600000038
Figure BDA0002502847600000039
分别为该网销商品链接bij的正、负向情感标准分:
Figure BDA0002502847600000041
Figure BDA0002502847600000042
其中,
nc是该网销商品链接bij下评论的总条数;
Figure BDA0002502847600000043
Figure BDA0002502847600000044
分别为该网销商品链接bij第k条评论ck的正、负向情感得分;
Figure BDA0002502847600000045
Figure BDA0002502847600000046
分别为该网销商品链接bij所有评论的正、负向情感得分的平均值;
Figure BDA0002502847600000047
Figure BDA0002502847600000048
分别为该网销商品链接bij所有评论的正、负向情感得分的标准差;
其中,α+和α-分别为正向权重和负向权重。
进一步优选的,针对网销商品链接bij,所述正向权重α+和负向权重α-通过如下步骤获得:
K1)将网销商品链接bij下的各条评论的正、负向情感得分分别进行min-max标准化处理,使结果映射到[0,1]区间,包括:
将网销商品链接bij下所有评论中的正向情感得分转化为正向指标,其中,网销商品链接bij第u条评论的正向指标
Figure BDA0002502847600000049
为:
Figure BDA00025028476000000410
以及,将网销商品链接bij下所有评论中的负向情感得分转化为负向指标,其中,网销商品链接bij第u条评论的负向指标
Figure BDA00025028476000000411
为:
Figure BDA00025028476000000412
其中,u=1,2,…nc
Figure BDA00025028476000000413
为网销商品链接bij第u条评论的正向情感得分;Max(S+),Min(S+)分别为网销商品链接bij所有评论中正向情感得分的最大值和最小值;
Figure BDA00025028476000000414
为网销商品链接bij第u条评论的负向情感得分;Max(S-),Min(S-)分别为网销商品链接bij所有评论中负向情感得分的最大值和最小值;
K2)计算网销商品链接bij各条评论的正、负向指标的比重,其中,该网销商品链接bij第u条评论的正、负向指标的比重分别为:
Figure BDA0002502847600000051
Figure BDA0002502847600000052
K3)计算网销商品链接bij下所有评论的正向指标的熵值e+和负向指标的熵值e-
Figure BDA0002502847600000053
Figure BDA0002502847600000054
K4)计算网销商品链接bij下所有评论的正向指标的差异性系数g+和负向指标的差异性系数g-
g+=1-e+
g-=1-e-
K5)计算得到网销商品链接bij的正向权重a+和负向权重a-
Figure BDA0002502847600000055
Figure BDA0002502847600000056
优选的,所述步骤C1)根据该同类商品下各网销商品链接的商品情感得分,结合品牌数据,计算得到该同类商品下各品牌的各个网销商品链接的商品先验概率,以及该同类商品下各品牌的先验概率中,
品牌Bi下网销商品链接bij的先验概率为:
P(bij)=(Max(x)-xij)/(Max(x)-Min(x))×100%
其中,xij为网销商品链接bij的商品情感得分,Maxx(x)和Min(x)为该同类商品中品牌Bi下所有网销商品链接中商品情感得分的最大值和最小值;
品牌Bi的先验概率为:
Figure BDA0002502847600000057
其中,wj是该同类商品下品牌Bi中网销商品链接bij的商品销量比重,
Figure BDA0002502847600000061
ni为该同类商品下该品牌Bi的所有网销商品链接的数量。
优选的,所述步骤C2)确定该同类商品下各品牌的入样概率中,
同类商品G下品牌Bi的入样概率为:
Figure BDA0002502847600000062
其中,P(G|Bi)为同类商品G下品牌Bi的销售量比重,nb为同类商品G下所有品牌的数量;
所述步骤C4)结合该同类商品的待抽取商品总数,确定该同类商品下各品牌的商品抽样数量中,
待检同类商品G下品牌Bi的商品抽样数量为:
Figure BDA0002502847600000063
其中,M为待检同类商品G的待抽取商品总数,其中符号
Figure BDA0002502847600000064
表示该符号中计算出的数字向下取整。
优选的,所述步骤C3)结合该同类商品下的网销店铺数据和该同类商品下各品牌的入样概率,确定该同类商品下各品牌在各网销店铺中的入样概率中,
同类商品G下品牌Bi在网销店铺Tk的入样概率为:
Figure BDA0002502847600000065
其中,P(Bi|Tk)为同类商品G下品牌Bi中网销店铺Tk的销售量比重,nt为同类商品G下销售品牌Bi的网销店铺的数量;
所述步骤C5)根据该同类商品的待抽取商品总数,确定该同类商品下各品牌在各网销店铺中的商品抽样数量中,
待检同类商品G下品牌Bi在网销店铺Tj中的商品抽样数量为:
Figure BDA0002502847600000066
其中符号
Figure BDA0002502847600000067
表示该符号中计算出的数字向下取整。
进一步优选的,通过所述步骤C2)确定该同类商品下各品牌的入样概率后,还包括如下步骤:
C2P1)结合质检历史数据,以优先数R5为比率对同类商品G下的选定品牌Bi,Bi+1,…,Bi+h的入样概率进行加严处理,进而对同类商品G下所有品牌的入样概率进行归一化处理:
Figure BDA0002502847600000071
其中,
Figure BDA0002502847600000072
此处,nb为同类商品G下所有品牌的数量;
C2P2)更新同类商品G下所有品牌的入样概率为:
P(Bk|G)=P′(Bk|G)
其中,
Figure BDA0002502847600000073
优选的,所述多源评论数据包括若干网络销售平台的评论数据。
优选的,所述步骤B2)中还包括异常值去除步骤,该步骤包括:通过基于评论分析词典的情感倾向分析方法对某一网销商品链接下的各条评论进行情感分析计算得到各条评论的情感得分后,利用箱线图法,将该网销商品链接下的各条评论的正、负向情感得分中的异常值去除。
优选的,所述步骤B3)后还包括步骤B4):结合步骤B3)得到的各网销商品链接的商品情感得分和品牌数据,计算该同类商品下各品牌的情感得分;
其中该同类商品下某一品牌Bi的情感得分为:
Figure BDA0002502847600000074
其中,
xij为网销商品链接bij的商品情感得分;
wj是该同类商品下品牌Bi中网销商品链接bij的商品销量比重,
Figure BDA0002502847600000075
ni为该同类商品下该品牌Bi的所有网销商品链接的数量。
优选的,所述优先数
Figure BDA0002502847600000076
有益效果:本发明提供的基于大数据的网销商品检验抽样方法,通过将用户对网销商品链接下的定性评论,转化为表示商品、品牌质量优劣的情感得分,进而转化为同类商品下各个网销商品链接的商品先验概率,以及该同类商品下各品牌的先验概率,从而确定出同类商品下各品牌的入样概率和商品抽样数量,以及同类商品下各品牌在各网销店铺中的入样概率和商品抽样数量,与现有技术相比,包括如下优点:
1、基于大数据,将网销商品的用户评论转化为表示商品、品牌质量优劣的情感得分,并以此作为先验概率为后续检验抽样提供计算基础,可以在商品总数不确定、销售渠道不固定、品牌多、商品分类复杂的情况下,尤其是总体商品总数不确定的情况下,即可获得相对适合的入样概率和抽样数量,使质量监控或抽检工作目标性更强,从而在有限的资源下大幅提升抽样检测的效率。
2、通过本发明进行网销商品抽样检测前的抽样工作时,先将基于用户评论得到的情感得分/情感倾向性分析,转化为表示网销商品链接对应的商品或品牌质量优劣的概率,当各网销商品链接下的商品用户评价越差、对质量问题存在较多不满时,该网销商品链接的商品情感得分就越低,先验概率就越大,则对应的商品抽样数量则越高,以加强抽检力度进行重点关注;反之,当网销商品链接下的商品用户评价相对越好,其对应的情商品情感得分就越高,先验概率就越低,则对应的商品抽样数量则越低,以相对降低抽检力度;抽样的数据受到用户评论的影响而各不相同且各有侧重,更为科学合理。
3、通过将用户对网销商品链接下的定性评论,转化为表示商品、品牌质量优劣的情感得分,放大差评(即负向情感得分)的作用,凸显更有问题的商品和品牌。
4、进一步提供以品牌为维度进行情感得分倾向的统计,可以避免由于网销商品对应的网销商品链接名称复杂、散乱等带来的不利干扰影响。
5、进一步的,可大幅减弱刷单等现象带来的无用评价(如重复评价、套话评价等)造成的数据影响和干扰,相比现有的好评率或好评度,提供更有参考意义的情感倾向得分,供后续检验抽样提供参考。
6、进一步的,结合历史质检数据,引入以优先数为比率对同类商品下的某些选定品牌的入样概率进行加严处理的方法,使得检验抽样结合实时数据和历史数据,更合理更有针对性。
7、实际应用场景下用户评论不断增加,本方法无需事先进行模型训练,克实时快捷地适应评论数量变化,实现实时采集、实时计算,或滚动采集、
累积计算等各种方式,实时性强,灵活度高。
附图说明
图1为某网销同类商品的情感得分计算层次模型;
图2为评论分析词典中的情感词词典示意图;
图3为评论分析词典中的否定词词典示意图;
图4为评论分析词典中的程度词词典示意图;
图5为评论分析词典中的停用词词典示意图;
图6为网销商品链接下各条评论的情感得分计算流程示意图;
图7为箱线图去除异常值的示意图;
图8为某网销同类商品的分层抽样模型;
图9为实施例中给出的示例中同类商品(空调类)下各品牌的情感得分与各品牌的先验概率的对照图;
图10为实施例中给出的示例中同类商品(空调类)下各品牌的情感得分、先验概率以及入样概率的对照图;
图11为实施例中给出的示例中同类商品(空调类)下各品牌的入样概率在加严归一化处理前后的对照图;
图12为实施例的举例中若干网销商品链接bij未进行标准化处理的的正向情感原始得分(ScorePositive)和负向情感原始得分(ScoreNegative)数据对比图;
图13为实施例的举例中若干网销商品链接bij未进行标准化处理的正向情感原始得分(ScorePositive)和进行标准化处理后的正向情感标准分(z_ScorePositive)的数据对比图;
图14为实施例的举例中若干网销商品链接bij未进行标准化处理的负向情感原始得分(ScoreNegative)和进行标准化处理后的负向情感标准分(z_ScoreNegative)的数据对比图;
图15为实施例的举例中若干网销商品链接bij的好评度(Rate)与经过标准化和基于熵的加权处理后的各网销商品链接bij的商品情感得分(z_Score)的数据对比图。
具体实施方式
下面结合实施例和附图对本发明做进一步的详细说明,以下实施列对本发明不构成限定。
本实施例提供的基于大数据的网销商品检验抽样方法,包括情感得分计算步骤和抽样数据计算步骤。
文中所述评论分析词典包括情感词词典、否定词词典、程度词词典和/或停用词词典。该评论分析词典可采用现有技术中的情感词词典、否定词词典、程度词词典和/或停用词词典直接组建而成。
当然在某些实施例中,该评论分析词典也可根据网络平台上用户对商品的多源评论数据,来进行构建和/或更新。也即在该实施例所提供的基于大数据的网销商品检验抽样方法中,还包括初始化步骤。其中,该初始化步骤包括:A0)基于网络平台上用户对商品的多源评论数据,构建和/或更新商品的评论分析词典的步骤。
其中,更新商品的评论分析词典,可在上述由现有技术中的各词典组建而成的评论分析词典的基础上更新,也可在根据网络平台上用户对商品的多源评论数据构建而成的评论分析词典的基础上更新。
如图2所示,其中情感词词典中包括若干情感词以及各情感词对应的情感词分值。如图3所示,其中否定词词典中包括若干否定词。否定词的出现将直接将句子情感转向相反的方向,而且通常效用是叠加的。
如图4所示,其中程度词词典中包括若干程度词以及各程度词对应的程度词分值。其中程度词分值为表示该程度副词强弱的数值,程度词词典内数据格式如图4所示,共两列,第一列为程度词(也可称为程度副词),第二列是程度词分值(也可称为程度数值),该值>1表示强化情感,该值<1表示弱化情感。
如图5所示,其中停用词词典中包括若干停用词。
上述多源评论数据包括若干网络销售平台的评论数据。其中若干网络销售平台如淘宝、天猫、京东、苏宁等。
其中针对某同类商品的情感得分计算步骤包括(图1为某网销同类商品的情感得分计算层次模型):
B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括商品数据、品牌数据、评论数据、销售量数据在内的数据信息。
B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分:
文中所述情感得分计算,又可称为情感分析、情感计算、情感倾向性分析和意见挖掘等等,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。由于商品评论本身句子结构较为简单且存在强烈的情感色彩,所以使用基于评论分析词典的情感倾向分析方法可以有效的计算评论的情感倾向。
其中如图6所示,基于评论分析词典的情感倾向分析方法对某一网销商品链接bij下的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤:
B21)子句分割:根据标点符号将条评论对应的评论文本c,拆分为若干子句
Figure BDA0002502847600000111
B22)修饰关系分析:根据评论分析词典,针对每个子句,识别该子句中的情感词(a1,a2,…)、程度词(d1,d2,…)、否定词(h1,h2,…)和停用词,并记录其位置;结合停用词确定各程度词、否定词所修饰的目标情感词,并结合评论分析词典中对应的程度词分值和情感词分值,以及否定词的数量,确定该子句中各程度词、否定词与目标情感词之间的修饰关系;
B23)各子句情感得分计算:根据获得的修饰关系,确定各个子句的情感得分,其中子句ci的情感得分为:
Figure BDA0002502847600000112
其中,|H|表示否定词出现的次数,D表示程度词分值,
Figure BDA0002502847600000113
表示情感词wk的情感词分值,nw表示子句ci中情感词出现次数;其中,对si为正值的子句ci的情感得分用子句正向情感得分
Figure BDA0002502847600000114
表示,对si为负值的子句ci的情感得分用子句负向情感得分用
Figure BDA0002502847600000115
表示;
B24)该条评论情感得分计算(亦可称为评论子句倾向汇总):针对该条评论对应的评论文本c,将其所有子句中的子句正向情感得分进行累加,得到该条评论的正向情感得分s+,将其所有子句中的子句负向情感得分进行累加,得到该条评论的负向情感得分s-
Figure BDA0002502847600000116
Figure BDA0002502847600000121
其中,mc表示评论c的子句数量。
在某些优选实施例中,此处步骤B24)后还包括异常值去除步骤,该步骤包括:通过基于评论分析词典的情感倾向分析方法对某一网销商品链接下的各条评论进行情感分析计算得到各条评论的情感得分后,利用箱线图法,将该网销商品链接下的各条评论的正、负向情感得分中的异常值去除。具体的,本实施例中,如图7所示,对网销商品链接bij执行以下操作:
1)去除网销商品链接bij下的各条评论的所有正向情感得分中的异常值
Step11.将网销商品链接bij下的各条评论的所有正向情感得分按从大到小排列,构成集合
Figure BDA0002502847600000122
nc是该网销商品链接bij下评论的总条数,并且
Figure BDA0002502847600000123
Step12.计算S+的中位数
Figure BDA0002502847600000124
Figure BDA0002502847600000125
Step13.计算上四分位数
Figure BDA0002502847600000126
即集合
Figure BDA0002502847600000127
的中位数,当m为偶数时k=m/2,当m为奇数时k=(m+1)/2;
Step14.计算下四分位数
Figure BDA0002502847600000128
即集合
Figure BDA0002502847600000129
的中位数;
Step15.计算四分位距
Figure BDA00025028476000001210
Step16.计算上边缘值
Figure BDA00025028476000001211
Figure BDA00025028476000001212
Step17.计算下边缘值
Figure BDA00025028476000001213
Figure BDA00025028476000001214
Step18.确定正向情感得分中的异常值
Figure BDA00025028476000001215
Figure BDA00025028476000001216
并去除。
2)去除网销商品链接bij下的各条评论的所有负向情感得分中的异常值
Step21.将网销商品链接bij下的各条评论的所有负向情感得分按从大到小排列,构成集合
Figure BDA0002502847600000131
并且
Figure BDA0002502847600000132
Step22.计算S-的中位数
Figure BDA0002502847600000133
Figure BDA0002502847600000134
Step23.计算上四分位数
Figure BDA0002502847600000135
即集合
Figure BDA0002502847600000136
的中位数,当m为偶数时k=m/2,当m为奇数时k=(m+1)/2;
Step24.计算下四分位数
Figure BDA0002502847600000137
即集合
Figure BDA0002502847600000138
的中位数;
Step25.计算四分位距
Figure BDA0002502847600000139
Step26.计算上边缘值
Figure BDA00025028476000001310
Figure BDA00025028476000001311
Step27.计算下边缘值
Figure BDA00025028476000001312
Figure BDA00025028476000001313
Step28.确定负向情感得分中的异常值
Figure BDA00025028476000001314
Figure BDA00025028476000001315
并去除。
当然,上述异常值去除也可通过现有技术或本领域常规技术手段中采取的其他异常值去除方法来实现。
B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分:
在本优选实施例中,所述步骤B3)为:基于各网销商品链接下各条评论的情感得分,结合标准化和基于熵的加权处理方法,计算得到各网销商品链接的商品情感得分。在某些优选实施例中也可以说是,所述步骤B3)为:基于各网销商品链接下各条评论的情感得分,结合z-score标准化方法计算得到各网销商品链接的正、负向情感标准分,进而基于熵的加权处理方法,计算得到各网销商品链接的商品情感得分。具体的:
其中,某一网销商品链接bij的商品情感得分为:
Figure BDA00025028476000001316
其中,
Figure BDA00025028476000001317
Figure BDA00025028476000001318
分别为该网销商品链接bij的正、负向情感标准分,本实施例中使用z-score标准化方法计算得到:
Figure BDA0002502847600000141
Figure BDA0002502847600000142
其中,
nc是该网销商品链接bij下评论的总条数;
Figure BDA0002502847600000143
Figure BDA0002502847600000144
分别为该网销商品链接bij第k条评论ck的正、负向情感得分;
Figure BDA0002502847600000145
Figure BDA0002502847600000146
分别为该网销商品链接bij所有评论的正、负向情感得分的平均值;
Figure BDA0002502847600000147
Figure BDA0002502847600000148
分别为该网销商品链接bij所有评论的正、负向情感得分的标准差;
其中,α+和α-分别为正向权重和负向权重。本实施例中,α+和α-分别为基于熵值法计算得到的正向权重和负向权重(也可以说是熵值法求权重)。
针对网销商品链接bij,其中正向权重α+和负向权重α-通过如下步骤获得:
K1)将网销商品链接bij下的各条评论的正、负向情感得分分别进行min-max标准化处理,使结果映射到[0,1]区间,包括:
将网销商品链接bij下所有评论中的正向情感得分转化为正向指标,其中,网销商品链接bij第u条评论的正向指标
Figure BDA0002502847600000149
为:
Figure BDA00025028476000001410
以及,将网销商品链接bij下所有评论中的负向情感得分转化为负向指标,其中,网销商品链接bij第u条评论的负向指标
Figure BDA00025028476000001411
为:
Figure BDA00025028476000001412
其中,u=1,2,…nc
Figure BDA00025028476000001413
为网销商品链接bij第u条评论的正向情感得分;Max(S+),Min(S+)分别为网销商品链接bij所有评论中正向情感得分的最大值和最小值;
Figure BDA00025028476000001414
为网销商品链接bij第u条评论的负向情感得分;Max(S-),Min(S-)分别为网销商品链接bij所有评论中负向情感得分的最大值和最小值;
K2)计算网销商品链接bij各条评论的正、负向指标的比重,其中,该网销商品链接bij第u条评论的正、负向指标的比重分别为:
Figure BDA0002502847600000151
Figure BDA0002502847600000152
K3)计算网销商品链接bij下所有评论的正向指标的熵值e+和负向指标的熵值e-
Figure BDA0002502847600000153
Figure BDA0002502847600000154
K4)计算网销商品链接bij下所有评论的正向指标的差异性系数g+和负向指标的差异性系数g-
g+=1-e+
g-=1-e-
K5)计算得到网销商品链接bij的正向权重a+和负向权重a-
Figure BDA0002502847600000155
Figure BDA0002502847600000156
目前网销产品的评论数据中,大多差评占比较少,好评或默认好评占比较多,也存在较多刷单好评的现象,因此一方面往往能起到提醒作用的差评,大多掩埋在数量众多的好评中,另一方面,不同销售链接根据好评差评的占比给出的好评率也相差甚微,很难在接近或相同的好评率(或好评度)如98%和99%这样1~2个点的区分中,感知出产品或服务的差异性,对于一些打分制的评论体系,也难以在接近或相同的打分分值如4.8、4.9等评分中,区分感知出产品或服务的差异性。
此处通过熵值和标准分的引入计算,可以大幅减弱刷单等现象带来的无用评价(如重复评价、套话评价、故意好评或恶意差评等)造成的数据影响和干扰,将好评和差评综合考虑,并根据差评情况动态调整好评和差评的权重。相比现有的好评率、好评度、评分(如打分评分、星级评分或综合评分等)等,提供更有区分度和参考意义的情感倾向得分,更符合人们直观体验,可供客户选择商品时提供参考,在本实施例的应用场合中,更是作为检验、抽样工作的基础数据为质检抽样提供参考。
此处通过一仿真实验来进行论证:随机选取若干网销商品链接bij进行上述方法步骤的仿真,本仿真实验的示例中原始网销数据来源于天猫。
图12、图13、图14和图15的横坐标均为所选取的若干网销商品链接bij。图中的各网销商品链接的正向情感原始得分ScorePositive为对应网销商品链接下的所有评论的正向情感得分的均分,各网销商品链接的负向情感原始得分ScoreNegative为对应网销商品链接的所有评论的负向情感得分的均分。
以网销商品链接bij举例说明,图中各网销商品链接进行标准化处理后的正向情感标准分z_ScorePositive,即对应文中网销商品链接bij的正向情感标准分
Figure BDA0002502847600000161
图中各网销商品链接进行标准化处理后的负向情感标准分z_ScoreNegative,即对应文中网销商品链接bij的负向情感标准分
Figure BDA0002502847600000162
图中经过标准化和基于熵的加权处理后(也可称为经过标准化和基于熵的方法加权后)的各网销商品链接bij的商品情感得分z_Score,即对应文中网销商品链接bij的商品情感得分xij
图12为所选取的这些网销商品链接bij未进行标准化处理的正向情感原始得分ScorePositive和负向情感原始得分ScoreNegative数据对比图,由图12可见:未进行标准化处理前,直接由用户评论计算出的正向情感原始得分ScorePositive和负向情感原始得分scorenegative差异较大,难以直接汇总。
图13为所选取的这些网销商品链接bij未进行标准化处理的正向情感原始得分ScorePositive和进行标准化处理后的正向情感标准分z_ScorePositive的数据对比图。由图13可见:进行标准化处理之后的正向情感标准分z_ScorePositive,和未进行标准化处理的正向情感原始得分ScorePositive的趋势是一致的,保持差异和趋势性的同时,缩小了分值之间的跨度,同时也将正向得分与负向得分控制在相近数量级范围内,降低了正向情感得分的影响程度,便于正向和负向情感得分进行汇总,以便于在不同网销商品链接之间进行比较。
图14为所选取的这些网销商品链接bij未进行标准化处理的负向情感原始得分ScoreNegative和进行标准化处理后的负向情感标准分z_ScoreNegative的数据对比图。由图14可见:进行标准化处理之后的负向情感标准分z_ScoreNegative,和未进行标准化处理的负向情感原始得分ScoreNegative的趋势是一致的,但放大了不同网销商品链接得分的差异性,使负向效果更加突出,与正向情感标准分z_ScorePositive具有相同数量级,便于与正向情感得分进行汇总,以便于在不同网销商品链接之间进行比较。
图15为所选取的这些网销商品链接bij的好评率Rate与经过标准化和基于熵的加权处理后(也可称为经过标准化和基于熵的方法加权后)的各网销商品链接bij的商品情感得分z_Score的数据对比图。由图15可以明显看出:不同网销商品链接的标准分也即商品情感得分z_Score差异比较明显,比好评率Rate更有区分性,尤其是很多网销商品链接的好评率数值相同(如图中一些峰部平坦位置),但经过标准化和基于熵的加权处理后的商品情感得分的数值却明显不同,更好地反应了不同网销商品链接下的产品质量的差异。因此处仿真的原始数据来源于天猫,故此处好评率Rate为打分(如满分为5分的综合评分)所获得的分值。
此外,不同网站/网络销售平台对于好评率(好评度)可能有不同的打分体系,有些是满分为5分(如天猫),有些是满分为100%(如京东)。因此,不同网站/网络销售平台之间好评率很难直接比较。本方法以用户评论来计算各网销商品链接的商品情感得分z_Score,即使不同网站,得到的各网销商品链接的商品情感得分z_Score也具有相同的意义和数量级,可以在不同网络销售平台间直接比较。
B4)结合步骤B3)得到的各网销商品链接的商品情感得分和品牌数据,计算该同类商品下各品牌的情感得分:
其中该同类商品下某一品牌Bi的情感得分为:
Figure BDA0002502847600000171
其中,xij为网销商品链接bij的商品情感得分;
wj是该同类商品下品牌Bi中网销商品链接bij的商品销量比重(针对该同类商品下的品牌Bi,网销商品链接bij占该同类商品下该品牌Bi的所有网销商品链接的销量比重),
Figure BDA0002502847600000181
ni为该同类商品下该品牌Bi的所有网销商品链接的数量。
利用基于用户评论得到的情感得分/情感倾向性分析,转化为表示网销商品链接对应的商品或品牌质量优劣的概率,该概率基于用户购买或选用或体验的评论历史数据,称为先验概率。进一步利用先验概率,计算后续开展质量监控(如网销商品抽检)时对商品抽样检验的概率(称为入样概率)和商品抽样数量。本文所述入样概率,亦可称为后验概率或抽样概率。文中所述商品抽样数量,亦可称为抽样样本数。
其中针对某同类商品的抽样数据计算步骤包括:
C1)根据该同类商品下各网销商品链接的商品情感得分,结合品牌数据,计算得到该同类商品下各品牌的各个网销商品链接的商品先验概率,以及该同类商品下各品牌的先验概率:
其中品牌Bi下网销商品链接bij的先验概率为:
P(bij)=(Max(x)-xij)/(Max(x)-Min(x))×100%
其中,xij为网销商品链接bij的商品情感得分,Max(x)和Min(x)为该同类商品中品牌Bi下所有网销商品链接中商品情感得分的最大值和最小值。
各网销商品链接下的商品用户评价越差,该网销商品链接的商品情感得分就越低,先验概率就越大。反之网销商品链接下的商品用户评价越好,其对应的情商品情感得分就越高,先验概率就越低。
其中品牌Bi的先验概率为:
Figure BDA0002502847600000182
其中,wj是该同类商品下品牌Bi中网销商品链接bij的商品销量比重(针对该同类商品下的品牌Bi,网销商品链接bij占该同类商品下该品牌Bi的所有网销商品链接的销量比重),
Figure BDA0002502847600000183
ni为该同类商品下该品牌Bi的所有网销商品链接的数量。
C2)结合该同类商品下的品牌数据,确定该同类商品下各品牌的入样概率:
如图8所示,本方案采用分层抽样,主要分为两层:第一层是确定该同类商品下抽取的品牌和每个品牌的入样概率;第二层是确定该同类商品下销售各品牌的网销店铺和该同类商品下各品牌在各网销店铺中的入样概率。
因为根据此前步骤计算所得的同类商品G下各品牌的先验概率之和不一定等于1,因此需进一步计算抽样时同类商品G下每个品牌和每个网销店铺分配到的概率,也即入样概率。
其中同类商品G下品牌Bi的入样概率为:
Figure BDA0002502847600000191
其中,P(G|Bi)为同类商品G下品牌Bi的销售量比重,nb为同类商品G下所有品牌的数量。文中同类商品G的分类根据实际应用需要可大可小,例如同类商品G定位为空调,当然同类商品G也可以定位到立式空调或挂式空调等。但不属于同一类商品也即不同类别的商品,以及不同类别的网销商品链接对应的商品不能混在一起计算。
同时,考虑到质检抽查等工作是一个持续性的工作,如国家有关管理部门会对产品质量进行定期和不定期的监督抽查,并将结果进行公布,而这些质检历史数据的信息,对进行后期质量监管或抽样检查具有重要的参考意义或指引提示作用。因此,在某些优选实施例中,本发明进一步结合质检历史数据,对质检历史数据中的不合格产品和/或品牌,提供了一种加严处理的方法以提高其入样概率。
加严具体策略如下:结合质检历史数据,如果同类商品G下的品牌Bi、Bi+1、…、Bi+k在历史质检中如上年度监督抽查中质量不合格,则以优先数R5为比率对选定品牌Bi、Bi+1、…、Bi+k的入样概率P(Bi|G)、P(Bi+1|G)、…、P(Bi+k|G)进行加严。加严处理后,根据质检历史数据选定的不合格品牌对应的入样概率就会相对提高,即提高被抽中的概率,同时其他品牌的入样概率会相对降低。
因而在某些优选实施例中,通过所述步骤C2)确定该同类商品下各品牌的入样概率后,还包括加严归一化处理步骤,其包括如下步骤:
C2P1)结合质检历史数据,以优先数R5为比率对同类商品G下的选定品牌Bi,Bi+1,…,Bi+h(即根据质检历史数据选定的不合格品牌)的入样概率进行加严处理,进而对同类商品G下所有品牌的入样概率进行归一化处理:
Figure BDA0002502847600000201
其中,
Figure BDA0002502847600000202
此处,nb为同类商品G下所有品牌的数量;
C2P2)更新同类商品G下所有品牌的入样概率为:
P(Bk|G)=P′(Bk|G)
其中,
Figure BDA0002502847600000203
本实施例中,以优先数
Figure BDA0002502847600000204
为比率,提高质检历史数据中的不合格品牌的入样概率。实际中可根据应用场合的实际需求对优先数进行调整。
C3)结合该同类商品下的网销店铺数据和该同类商品下各品牌的入样概率,确定该同类商品下各品牌在各网销店铺中的入样概率:
其中同类商品G下品牌Bi在网销店铺Tk的入样概率为:
Figure BDA0002502847600000205
其中,P(Bi|Tk)为同类商品G下品牌Bi中网销店铺Tk的销售量比重,nt为同类商品G下销售品牌Bi的网销店铺的数量。
C4)结合该同类商品的待抽取商品总数,确定该同类商品下各品牌的商品抽样数量:
其中待检同类商品G下品牌Bi的商品抽样数量为:
Figure BDA0002502847600000206
其中,M为待检同类商品G的待抽取商品总数,其中符号
Figure BDA0002502847600000207
表示该符号中计算出的数字向下取整。
C5)根据该同类商品的待抽取商品总数,确定该同类商品下各品牌在各网销店铺中的商品抽样数量:
其中待检同类商品G下品牌Bi在网销店铺Tj中的商品抽样数量为:
Figure BDA0002502847600000208
其中符号
Figure BDA0002502847600000211
表示该符号中计算出的数字向下取整。
以同类商品G是空调类为举例,对上述实施例的部分步骤予以实验示例说明:本实验示例中网销数据主要来源于天猫和京东,通过上述步骤B3)计算得到该同类商品(空调类)下各网销商品链接的商品情感得分;通过上述步骤B4)计算得到该同类商品(空调类)下各品牌的情感得分;通过上述步骤C1)计算得到该同类商品(空调类)下各品牌的各个网销商品链接的商品先验概率,以及该同类商品(空调类)各品牌的先验概率;通过上述步骤C2)确定该同类商品(空调类)下各品牌的入样概率;通过上述步骤C3)确定该同类商品(空调类)下各品牌在各网销店铺中的入样概率;进而通过上述步骤C4)确定该同类商品(空调类)下各品牌的商品抽样数量;进而通过上述步骤C5)确定该同类商品(空调类)下各品牌在各网销店铺中的商品抽样数量。
图9给出了该同类商品(空调类)下各品牌的情感得分(即图中的品牌情感得分、情感总得分)与各品牌的先验概率的对照图(横坐标为各品牌),由图9可见,总体趋势上各品牌的情感得分越低,则该品牌的先验概率越高。
图10给出了该同类商品(空调类)下各品牌的情感得分、各品牌的先验概率、各品牌的入样概率(无加严归一化处理)的对照图(横坐标为各品牌),由图10可见,总体趋势上各品牌的情感得分越低,则该品牌的先验概率越高,与此同时,各品牌的入样概率受先验概率和各品牌的销售量的双重影响,某些品牌用户评论很好,先验概率会相对较低,但如果销量很高(如图中的奥克斯、格力、美的等),则其对应的入样概率也会增加。也就是说用户评论差的、或者用户购买多的,都需要重点抽检。另,各附图中的抽样概率即为入样概率,亦可称为后验概率。
为说明加严处理策略,针对同类商品(空调类),本示例结合2018年上海市家用空调器产品质量监督抽查结果中公示的质检历史数据(数据来源:上海质量技术监督官网-信息中心-公告栏-抽查报告-《2018年上海市家用空调器产品质量监督抽查结果》,网站链接:http://shzj.scjgj.sh.gov.cn/art/2018/9/4/art_358_1325245.html),该公示数据中显示此次商品品牌MBO下的产品抽查结果为不合格(此处仅用于举例说明)(另说明:本示例中的基础网销数据涉及该公示数据中的品牌MBO,不涉及该公示数据中的另外两个不合格品牌),将品牌MBO列为选定品牌对其入样概率进行加严处理,进而对同类商品(空调类)下所有品牌的入样概率进行归一化处理,经过步骤C2P1)和C2P2)的处理后,实现了对质检历史数据中的不合格产品和/或品牌进行加严处理的抽样数据的调整,使得后续的质检抽样更为科学合理且具有延续性。
图11给出了该同类商品(空调类)下各品牌的入样概率在加严归一化处理前后的对照图(横坐标为各品牌),由图11可见,加严归一化处理后,该同类商品(空调类)下选定品牌MBO的入样概率相对之前有所提升,但同时,由于MBO品牌空调的销量不高,因此其入样概率的变化并不突兀或明显,其是各种因素均衡后的合理调整。
以上仅是本发明的优选实施方式,应当指出以上实施列对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的多样变化和修改,均落在本发明的保护范围内。

Claims (10)

1.一种基于大数据的网销商品检验抽样方法,其特征在于:该方法包括情感得分计算步骤和抽样数据计算步骤;
其中针对某同类商品的情感得分计算步骤包括:
B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据在内的数据信息;
B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分;
B3)基于各网销商品链接下各条评论的情感得分,计算得到各网销商品链接的商品情感得分;
其中针对某同类商品的抽样数据计算步骤包括:
C1)根据该同类商品下各网销商品链接的商品情感得分,结合品牌数据,计算得到该同类商品下各品牌的各个网销商品链接的商品先验概率,以及该同类商品下各品牌的先验概率;
C2)结合该同类商品下的品牌数据,确定该同类商品下各品牌的入样概率;
C4)结合该同类商品的待抽取商品总数,确定该同类商品下各品牌的商品抽样数量。
2.根据权利要求1所述的基于大数据的网销商品检验抽样方法,其特征在于:所述步骤B1)为:采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、网销店铺数据、评论数据、销售量数据在内的数据信息;
所述步骤C2)后还包括步骤C3):结合该同类商品下的网销店铺数据和该同类商品下各品牌的入样概率,确定该同类商品下各品牌在各网销店铺中的入样概率;
所述步骤C4)后还包括步骤C5):根据该同类商品的待抽取商品总数,确定该同类商品下各品牌在各网销店铺中的商品抽样数量。
3.根据权利要求1所述的基于大数据的网销商品检验抽样方法,其特征在于:该方法还包括初始化步骤;其中初始化步骤包括:A0)基于网络平台上用户对商品的多源评论数据,构建和/或更新商品的评论分析词典的步骤;
所述评论分析词典包括情感词词典、否定词词典、程度词词典和/或停用词词典;
其中情感词词典中包括若干情感词以及各情感词对应的情感词分值;
其中否定词词典中包括若干否定词;
其中程度词词典中包括若干程度词以及各程度词对应的程度词分值;
其中停用词词典中包括若干停用词。
4.根据权利要求1所述的基于大数据的网销商品检验抽样方法,其特征在于:所述B2)通过基于评论分析词典的情感倾向分析方法,对步骤B1)采集的各网销商品链接的各条评论进行情感分析,计算得到各网销商品链接下各条评论的情感得分的步骤中,基于评论分析词典的情感倾向分析方法对某一网销商品链接bij下的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤:
B21)子句分割:根据标点符号将条评论对应的评论文本c,拆分为若干子句
Figure FDA0002502847590000021
B22)修饰关系分析:根据评论分析词典,针对每个子句,识别该子句中的情感词(a1,a2,…)、程度词(d1,d2,…)、否定词(h1,h2,…)和停用词,并记录其位置;结合停用词确定各程度词、否定词所修饰的目标情感词,并结合评论分析词典中对应的程度词分值和情感词分值,以及否定词的数量,确定该子句中各程度词、否定词与目标情感词之间的修饰关系;
B23)各子句情感得分计算:根据获得的修饰关系,确定各个子句的情感得分,其中子句ci的情感得分为:
Figure FDA0002502847590000022
其中,|H|表示否定词出现的次数,D表示程度词分值,
Figure FDA0002502847590000023
表示情感词wk的情感词分值,nw表示子句ci中情感词出现次数;其中,对si为正值的子句ci的情感得分用子句正向情感得分
Figure FDA0002502847590000024
表示,对si为负值的子句ci的情感得分用子句负向情感得分用
Figure FDA0002502847590000025
表示;
B24)该条评论情感得分计算:针对该条评论对应的评论文本c,将其所有子句中的子句正向情感得分进行累加,得到该条评论的正向情感得分s+,将其所有子句中的子句负向情感得分进行累加,得到该条评论的负向情感得分s-
Figure FDA0002502847590000031
Figure FDA0002502847590000032
其中,mc表示评论c的子句数量。
5.根据权利要求4所述的基于大数据的网销商品检验抽样方法,其特征在于:所述步骤B3)为:基于各网销商品链接下各条评论的情感得分,结合标准化和基于熵的加权处理方法,计算得到各网销商品链接的商品情感得分;
其中,某一网销商品链接bij的商品情感得分为:
Figure FDA0002502847590000033
其中,
Figure FDA0002502847590000034
Figure FDA0002502847590000035
分别为该网销商品链接bij的正、负向情感标准分:
Figure FDA0002502847590000036
Figure FDA0002502847590000037
其中,
nc是该网销商品链接bij下评论的总条数;
Figure FDA0002502847590000038
Figure FDA0002502847590000039
分别为该网销商品链接bij第k条评论ck的正、负向情感得分;
Figure FDA00025028475900000310
Figure FDA00025028475900000311
分别为该网销商品链接bij所有评论的正、负向情感得分的平均值;
Figure FDA00025028475900000312
Figure FDA00025028475900000313
分别为该网销商品链接bij所有评论的正、负向情感得分的标准差;
其中,α+和α-分别为正向权重和负向权重。
6.根据权利要求5所述的基于大数据的网销商品检验抽样方法,其特征在于:针对网销商品链接bij,所述正向权重α+和负向权重α-通过如下步骤获得:
K1)将网销商品链接bij下的各条评论的正、负向情感得分分别进行min-max标准化处理,使结果映射到[0,1]区间,包括:
将网销商品链接bij下所有评论中的正向情感得分转化为正向指标,其中,网销商品链接bij第u条评论的正向指标
Figure FDA0002502847590000041
为:
Figure FDA0002502847590000042
以及,将网销商品链接bij下所有评论中的负向情感得分转化为负向指标,其中,网销商品链接bij第u条评论的负向指标
Figure FDA0002502847590000043
为:
Figure FDA0002502847590000044
其中,u=1,2,…nc
Figure FDA0002502847590000045
为网销商品链接bij第u条评论的正向情感得分;Max(S+),Min(S+)分别为网销商品链接bij所有评论中正向情感得分的最大值和最小值;
Figure FDA0002502847590000046
为网销商品链接bij第u条评论的负向情感得分;Max(S-),Min(S-)分别为网销商品链接bij所有评论中负向情感得分的最大值和最小值;
K2)计算网销商品链接bij各条评论的正、负向指标的比重,其中,该网销商品链接bij第u条评论的正、负向指标的比重分别为:
Figure FDA0002502847590000047
Figure FDA0002502847590000048
K3)计算网销商品链接bij下所有评论的正向指标的熵值e+和负向指标的熵值e-
Figure FDA0002502847590000049
Figure FDA00025028475900000410
K4)计算网销商品链接bij下所有评论的正向指标的差异性系数g+和负向指标的差异性系数g-
g+=1-e+
g-=1-e-
K5)计算得到网销商品链接bij的正向权重a+和负向权重a-
Figure FDA00025028475900000411
Figure FDA0002502847590000051
7.根据权利要求5所述的基于大数据的网销商品检验抽样方法,其特征在于:所述步骤C1)根据该同类商品下各网销商品链接的商品情感得分,结合品牌数据,计算得到该同类商品下各品牌的各个网销商品链接的商品先验概率,以及该同类商品下各品牌的先验概率中,
品牌Bi下网销商品链接bij的先验概率为:
P(bij)=(Max(x)-xij)/(Max(x)-Min(x))×100%
其中,xij为网销商品链接bij的商品情感得分,Max(x)和Min(x)为该同类商品中品牌Bi下所有网销商品链接中商品情感得分的最大值和最小值;
品牌Bi的先验概率为:
Figure FDA0002502847590000052
其中,wj是该同类商品下品牌Bi中网销商品链接bij的商品销量比重,
Figure FDA0002502847590000053
ni为该同类商品下该品牌Bi的所有网销商品链接的数量。
8.根据权利要求7所述的基于大数据的网销商品检验抽样方法,其特征在于:所述步骤C2)确定该同类商品下各品牌的入样概率中,
同类商品G下品牌Bi的入样概率为:
Figure FDA0002502847590000054
其中,P(B|Bi)为同类商品G下品牌Bi的销售量比重,nb为同类商品G下所有品牌的数量;
所述步骤C4)结合该同类商品的待抽取商品总数,确定该同类商品下各品牌的商品抽样数量中,
待检同类商品G下品牌Bi的商品抽样数量为:
Figure FDA0002502847590000055
其中,M为待检同类商品G的待抽取商品总数,其中符号
Figure FDA0002502847590000056
表示该符号中计算出的数字向下取整。
9.根据权利要求8所述的基于大数据的网销商品检验抽样方法,其特征在于:所述步骤C3)结合该同类商品下的网销店铺数据和该同类商品下各品牌的入样概率,确定该同类商品下各品牌在各网销店铺中的入样概率中,
同类商品G下品牌Bi在网销店铺Tk的入样概率为:
Figure FDA0002502847590000061
其中,P(Bi|Tk)为同类商品G下品牌Bi中网销店铺Tk的销售量比重,nt为同类商品G下销售品牌Bi的网销店铺的数量;
所述步骤C5)根据该同类商品的待抽取商品总数,确定该同类商品下各品牌在各网销店铺中的商品抽样数量中,
待检同类商品G下品牌Bi在网销店铺Tj中的商品抽样数量为:
Figure FDA0002502847590000062
其中符号
Figure FDA0002502847590000063
表示该符号中计算出的数字向下取整。
10.根据权利要求8所述的基于大数据的网销商品检验抽样方法,其特征在于:通过所述步骤C2)确定该同类商品下各品牌的入样概率后,还包括如下步骤:
C2P1)结合质检历史数据,以优先数R5为比率对同类商品G下的选定品牌Bi,Bi+1,…,Bi+h的入样概率进行加严处理,进而对同类商品G下所有品牌的入样概率进行归一化处理:
Figure FDA0002502847590000064
其中,
Figure FDA0002502847590000065
此处,nb为同类商品G下所有品牌的数量;
C2P2)更新同类商品G下所有品牌的入样概率为:
P(Bk|G)=P′(Bk|G)
其中,k∈[1,nb]。
CN202010437558.1A 2020-05-21 2020-05-21 基于大数据的网销商品检验抽样方法 Active CN111612340B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010437558.1A CN111612340B (zh) 2020-05-21 2020-05-21 基于大数据的网销商品检验抽样方法
PCT/CN2021/074960 WO2021232856A1 (zh) 2020-05-21 2021-02-03 基于大数据的网销商品检验抽样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010437558.1A CN111612340B (zh) 2020-05-21 2020-05-21 基于大数据的网销商品检验抽样方法

Publications (2)

Publication Number Publication Date
CN111612340A true CN111612340A (zh) 2020-09-01
CN111612340B CN111612340B (zh) 2023-10-17

Family

ID=72201759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010437558.1A Active CN111612340B (zh) 2020-05-21 2020-05-21 基于大数据的网销商品检验抽样方法

Country Status (2)

Country Link
CN (1) CN111612340B (zh)
WO (1) WO2021232856A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232856A1 (zh) * 2020-05-21 2021-11-25 中国标准化研究院 基于大数据的网销商品检验抽样方法
CN114757587A (zh) * 2022-06-13 2022-07-15 深圳市玄羽科技有限公司 一种基于大数据的产品质量控制系统及方法
CN116304538A (zh) * 2023-05-19 2023-06-23 中国标准化研究院 一种利用大数据评定检测结果不确定度的方法
CN116757560A (zh) * 2023-08-22 2023-09-15 中国标准化研究院 一种大数据集数据智能质检方法
CN117634988A (zh) * 2024-01-25 2024-03-01 中国标准化研究院 一种基于先验信息的商品合格抽样检验方法及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114626899B (zh) * 2022-05-13 2022-11-18 南京铋悠数据技术有限公司 基于大数据的产品销售数据采集方法和系统
CN115293861A (zh) * 2022-10-09 2022-11-04 连连银通电子支付有限公司 一种商品识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069647A (zh) * 2015-07-30 2015-11-18 齐鲁工业大学 一种改进的抽取中文商品评论中评价对象的方法
CN107977798A (zh) * 2017-12-21 2018-05-01 中国计量大学 一种电子商务产品质量的风险评价方法
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
US20190318407A1 (en) * 2015-07-17 2019-10-17 Devanathan GIRIDHARI Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
CN110515982A (zh) * 2019-07-17 2019-11-29 金蝶软件(中国)有限公司 抽检方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345272A (zh) * 2018-11-28 2019-02-15 中国计量大学 一种基于改进马尔科夫链的店铺信用风险预测方法
CN110555596B (zh) * 2019-08-09 2022-05-31 国网陕西省电力公司电力科学研究院 一种基于配电物资质量评价的抽检策略制定方法及系统
CN111612340B (zh) * 2020-05-21 2023-10-17 中国标准化研究院 基于大数据的网销商品检验抽样方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318407A1 (en) * 2015-07-17 2019-10-17 Devanathan GIRIDHARI Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
CN105069647A (zh) * 2015-07-30 2015-11-18 齐鲁工业大学 一种改进的抽取中文商品评论中评价对象的方法
CN107977798A (zh) * 2017-12-21 2018-05-01 中国计量大学 一种电子商务产品质量的风险评价方法
CN108491377A (zh) * 2018-03-06 2018-09-04 中国计量大学 一种基于多维度信息融合的电商产品综合评分方法
CN110515982A (zh) * 2019-07-17 2019-11-29 金蝶软件(中国)有限公司 抽检方法、装置、计算机设备和存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021232856A1 (zh) * 2020-05-21 2021-11-25 中国标准化研究院 基于大数据的网销商品检验抽样方法
CN114757587A (zh) * 2022-06-13 2022-07-15 深圳市玄羽科技有限公司 一种基于大数据的产品质量控制系统及方法
CN114757587B (zh) * 2022-06-13 2022-09-30 深圳市玄羽科技有限公司 一种基于大数据的产品质量控制系统及方法
CN116304538A (zh) * 2023-05-19 2023-06-23 中国标准化研究院 一种利用大数据评定检测结果不确定度的方法
CN116304538B (zh) * 2023-05-19 2023-07-21 中国标准化研究院 一种利用大数据评定检测结果不确定度的方法
CN116757560A (zh) * 2023-08-22 2023-09-15 中国标准化研究院 一种大数据集数据智能质检方法
CN116757560B (zh) * 2023-08-22 2023-10-13 中国标准化研究院 一种大数据集数据智能质检方法
CN117634988A (zh) * 2024-01-25 2024-03-01 中国标准化研究院 一种基于先验信息的商品合格抽样检验方法及系统
CN117634988B (zh) * 2024-01-25 2024-04-12 中国标准化研究院 一种基于先验信息的商品合格抽样检验方法及系统

Also Published As

Publication number Publication date
WO2021232856A1 (zh) 2021-11-25
CN111612340B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN111612340B (zh) 基于大数据的网销商品检验抽样方法
CN110555717A (zh) 基于用户行为特征挖掘用户潜在购买商品和品类的方法
CN109711955B (zh) 基于当前订单的差评预警方法、系统、黑名单库建立方法
Kou et al. An integrated expert system for fast disaster assessment
CN106599065B (zh) 一种基于Storm分布式框架的食品安全网络舆情预警系统
CN109657978A (zh) 一种风险识别方法和系统
CN110717654B (zh) 基于用户评论的产品质量评价方法和系统
CN111079941B (zh) 信用信息处理方法、系统、终端和存储介质
CN113159546B (zh) 无监督降维密度聚类的农作物供应链危害物风险判断方法及系统
CN111612339B (zh) 基于大数据的网销商品情感倾向分析方法
CN108595562B (zh) 基于准确性判定的用户评价数据分析方法
CN103353865B (zh) 一种基于位置的易货电子交易商品推荐方法
CN113869768A (zh) 产业链强弱度的评价方法、装置、设备及可读介质
CN116596305A (zh) 用于食品安全管理的风险分级方法
CN113052411A (zh) 数据产品质量评价方法及装置
CN114912739A (zh) 环境与变电站运维费用关联模型的构建及应用方法
CN114742402A (zh) 信息监控方法、装置、设备和介质
Okazaki et al. Nowcasting of Corporate Research and Development trends through news article analysis by BERTopic: The case of Japanese electric company
CN113837578A (zh) 一种电力监理企业网格化监督管理评价方法
CN113283795A (zh) 基于二分类模型的数据处理方法及装置、介质、设备
CN108960954B (zh) 一种基于用户群行为反馈的内容推荐方法及推荐系统
CN115344767A (zh) 基于网络数据的供应商评价方法
CN114880923A (zh) 一种融合电力数据的企业信用预测方法
CN109559169B (zh) 一种基于在线用户评分的敏锐用户识别的方法
CN113435713A (zh) 基于gis技术和两模型融合的风险地图编制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant