CN111612340A

CN111612340A - 基于大数据的网销商品检验抽样方法

Info

Publication number: CN111612340A
Application number: CN202010437558.1A
Authority: CN
Inventors: 王海涛; 赵静; 张帆; 曹馨宇; 吴刚; 赵超; 丁文兴
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-01
Anticipated expiration: 2040-05-21
Also published as: WO2021232856A1; CN111612340B

Abstract

本发明公开了基于大数据的网销商品检验抽样方法，该方法中针对某同类商品的情感得分计算步骤包括：B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据在内的数据信息；B2)通过基于评论分析词典的情感倾向分析方法，对步骤B1)采集的各网销商品链接的各条评论进行情感分析，计算得到各网销商品链接下各条评论的情感得分；B3)基于各网销商品链接下各条评论的情感得分，计算得到各网销商品链接的商品情感得分。本发明可以在网销商品各类复杂的情况下，尤其是总体商品总数不确定的情况下，即可获得相对适合的入样概率和抽样数量，使质量监控或抽检工作目标性更强，效率更高，更为科学合理。

Description

基于大数据的网销商品检验抽样方法

技术领域

本发明涉及一种检验抽样方法，具体涉及一种网销商品的检验抽样方法。

背景技术

在质量管理过程中，要对产品进行检测，以判断产品的总体质量状况。在检测中，抽检的数量不仅密切影响着总体质量判断的准确性，同时也和时间成本、资金成本、人员成本等密切相关。

随着社会生活的不断发展，网络销售模式亦在不断演变和进化，网购逐渐深入到千家万户，越来越多的人接受和选择通过各种网络销售平台采买所需的商品和物资。但是，对于网络平台商品而言，由于存在着品牌多、商品分类复杂、商品总数不确定、销售渠道不固定等诸多问题，尤其是总体商品总数的不确定，使得传统的抽检方法难以很好地适用于网销产品来确定适合的抽样概率或抽样数量。

网络销售商品的质量控制一直都是质量监管部门、网销平台关注的核心问题，如何在商品总数不确定、销售渠道不固定、品牌多、商品分类复杂的情况下，获得适合的抽样数量，或者如何确定适合的或较少的抽样数量，来获得较高的判断准确性，均是目前亟待解决的问题。

发明内容

发明目的：为了解决现有技术中的不足，本发明的目的是提供一种基于大数据的网销商品检验抽样方法。

技术方案：为解决上述技术问题，本发明提供的一种基于大数据的网销商品检验抽样方法，其包括情感得分计算步骤和抽样数据计算步骤；

其中针对某同类商品的情感得分计算步骤包括：

B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、评论数据、销售量数据在内的数据信息；

B2)通过基于评论分析词典的情感倾向分析方法，对步骤B1)采集的各网销商品链接的各条评论进行情感分析，计算得到各网销商品链接下各条评论的情感得分；

B3)基于各网销商品链接下各条评论的情感得分，计算得到各网销商品链接的商品情感得分；

其中针对某同类商品的抽样数据计算步骤包括：

C1)根据该同类商品下各网销商品链接的商品情感得分，结合品牌数据，计算得到该同类商品下各品牌的各个网销商品链接的商品先验概率，以及该同类商品下各品牌的先验概率；

C2)结合该同类商品下的品牌数据，确定该同类商品下各品牌的入样概率；

C4)结合该同类商品的待抽取商品总数，确定该同类商品下各品牌的商品抽样数量。

作为进一步优选的，所述步骤B1)为：采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、网销店铺数据、评论数据、销售量数据在内的数据信息；

所述步骤C2)后还包括步骤C3)：结合该同类商品下的网销店铺数据和该同类商品下各品牌的入样概率，确定该同类商品下各品牌在各网销店铺中的入样概率；

所述步骤C4)后还包括步骤C5)：根据该同类商品的待抽取商品总数，确定该同类商品下各品牌在各网销店铺中的商品抽样数量。

优选的，该方法还包括初始化步骤；其中初始化步骤包括：A0)基于网络平台上用户对商品的多源评论数据，构建和/或更新商品的评论分析词典的步骤；

所述评论分析词典包括情感词词典、否定词词典、程度词词典和/或停用词词典；

其中情感词词典中包括若干情感词以及各情感词对应的情感词分值；

其中否定词词典中包括若干否定词；

其中程度词词典中包括若干程度词以及各程度词对应的程度词分值；

其中停用词词典中包括若干停用词。

作为进一步优选的，所述B2)通过基于评论分析词典的情感倾向分析方法，对步骤B1)采集的各网销商品链接的各条评论进行情感分析，计算得到各网销商品链接下各条评论的情感得分的步骤中，基于评论分析词典的情感倾向分析方法对某一网销商品链接b_ij下的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤：

B21)子句分割：根据标点符号将条评论对应的评论文本c，拆分为若干子句

B22)修饰关系分析：根据评论分析词典，针对每个子句，识别该子句中的情感词(a₁,a₂,…)、程度词(d₁,d₂,…)、否定词(h₁,h₂,…)和停用词，并记录其位置；结合停用词确定各程度词、否定词所修饰的目标情感词，并结合评论分析词典中对应的程度词分值和情感词分值，以及否定词的数量，确定该子句中各程度词、否定词与目标情感词之间的修饰关系；

B23)各子句情感得分计算：根据获得的修饰关系，确定各个子句的情感得分，其中子句c_i的情感得分为：

其中，|H|表示否定词出现的次数，D表示程度词分值，

表示情感词w_k的情感词分值,n_w表示子句c_i中情感词出现次数；其中，对s_i为正值的子句c_i的情感得分用子句正向情感得分

表示，对s_i为负值的子句c_i的情感得分用子句负向情感得分用

表示；

B24)该条评论情感得分计算：针对该条评论对应的评论文本c，将其所有子句中的子句正向情感得分进行累加，得到该条评论的正向情感得分s⁺，将其所有子句中的子句负向情感得分进行累加，得到该条评论的负向情感得分s^-：

其中，m_c表示评论c的子句数量。

优选的，所述步骤B3)为：基于各网销商品链接下各条评论的情感得分，结合标准化和基于熵的加权处理方法，计算得到各网销商品链接的商品情感得分；

其中，某一网销商品链接b_ij的商品情感得分为：

其中，

和

分别为该网销商品链接b_ij的正、负向情感标准分：

其中，

n_c是该网销商品链接b_ij下评论的总条数；

和

分别为该网销商品链接b_ij第k条评论c_k的正、负向情感得分；

和

分别为该网销商品链接b_ij所有评论的正、负向情感得分的平均值；

和

分别为该网销商品链接b_ij所有评论的正、负向情感得分的标准差；

其中，α⁺和α^-分别为正向权重和负向权重。

进一步优选的，针对网销商品链接b_ij，所述正向权重α⁺和负向权重α^-通过如下步骤获得：

K1)将网销商品链接b_ij下的各条评论的正、负向情感得分分别进行min-max标准化处理，使结果映射到[0,1]区间，包括：

将网销商品链接b_ij下所有评论中的正向情感得分转化为正向指标，其中，网销商品链接b_ij第u条评论的正向指标

为：

以及，将网销商品链接b_ij下所有评论中的负向情感得分转化为负向指标，其中，网销商品链接b_ij第u条评论的负向指标

为：

其中，u＝1,2,…n_c；

为网销商品链接b_ij第u条评论的正向情感得分；Max(S⁺),Min(S⁺)分别为网销商品链接b_ij所有评论中正向情感得分的最大值和最小值；

为网销商品链接b_ij第u条评论的负向情感得分；Max(S^-),Min(S^-)分别为网销商品链接b_ij所有评论中负向情感得分的最大值和最小值；

K2)计算网销商品链接b_ij各条评论的正、负向指标的比重，其中，该网销商品链接b_ij第u条评论的正、负向指标的比重分别为：

K3)计算网销商品链接b_ij下所有评论的正向指标的熵值e⁺和负向指标的熵值e^-：

K4)计算网销商品链接b_ij下所有评论的正向指标的差异性系数g⁺和负向指标的差异性系数g^-：

g⁺＝1-e⁺

g^-＝1-e^-

K5)计算得到网销商品链接b_ij的正向权重a⁺和负向权重a^-：

优选的，所述步骤C1)根据该同类商品下各网销商品链接的商品情感得分，结合品牌数据，计算得到该同类商品下各品牌的各个网销商品链接的商品先验概率，以及该同类商品下各品牌的先验概率中，

品牌B_i下网销商品链接b_ij的先验概率为：

P(b_ij)＝(Max(x)-x_ij)/(Max(x)-Min(x))×100％

其中，x_ij为网销商品链接b_ij的商品情感得分，Maxx(x)和Min(x)为该同类商品中品牌B_i下所有网销商品链接中商品情感得分的最大值和最小值；

品牌B_i的先验概率为：

其中，w_j是该同类商品下品牌B_i中网销商品链接b_ij的商品销量比重，

n_i为该同类商品下该品牌B_i的所有网销商品链接的数量。

优选的，所述步骤C2)确定该同类商品下各品牌的入样概率中，

同类商品G下品牌B_i的入样概率为：

其中，P(G|B_i)为同类商品G下品牌B_i的销售量比重，n_b为同类商品G下所有品牌的数量；

所述步骤C4)结合该同类商品的待抽取商品总数，确定该同类商品下各品牌的商品抽样数量中，

待检同类商品G下品牌B_i的商品抽样数量为：

其中，M为待检同类商品G的待抽取商品总数，其中符号

表示该符号中计算出的数字向下取整。

优选的，所述步骤C3)结合该同类商品下的网销店铺数据和该同类商品下各品牌的入样概率，确定该同类商品下各品牌在各网销店铺中的入样概率中，

同类商品G下品牌B_i在网销店铺T_k的入样概率为：

其中，P(B_i|T_k)为同类商品G下品牌B_i中网销店铺T_k的销售量比重，n_t为同类商品G下销售品牌B_i的网销店铺的数量；

所述步骤C5)根据该同类商品的待抽取商品总数，确定该同类商品下各品牌在各网销店铺中的商品抽样数量中，

待检同类商品G下品牌B_i在网销店铺T_j中的商品抽样数量为：

其中符号

表示该符号中计算出的数字向下取整。

进一步优选的，通过所述步骤C2)确定该同类商品下各品牌的入样概率后，还包括如下步骤：

C2P1)结合质检历史数据，以优先数R5为比率对同类商品G下的选定品牌B_i,B_i+1,…,B_i+h的入样概率进行加严处理，进而对同类商品G下所有品牌的入样概率进行归一化处理：

其中，

此处，n_b为同类商品G下所有品牌的数量；

C2P2)更新同类商品G下所有品牌的入样概率为：

P(B_k|G)＝P′(B_k|G)

其中，

优选的，所述多源评论数据包括若干网络销售平台的评论数据。

优选的，所述步骤B2)中还包括异常值去除步骤，该步骤包括：通过基于评论分析词典的情感倾向分析方法对某一网销商品链接下的各条评论进行情感分析计算得到各条评论的情感得分后，利用箱线图法，将该网销商品链接下的各条评论的正、负向情感得分中的异常值去除。

优选的，所述步骤B3)后还包括步骤B4)：结合步骤B3)得到的各网销商品链接的商品情感得分和品牌数据，计算该同类商品下各品牌的情感得分；

其中该同类商品下某一品牌B_i的情感得分为：

其中，

x_ij为网销商品链接b_ij的商品情感得分；

w_j是该同类商品下品牌B_i中网销商品链接b_ij的商品销量比重，

n_i为该同类商品下该品牌B_i的所有网销商品链接的数量。

优选的，所述优先数

有益效果：本发明提供的基于大数据的网销商品检验抽样方法，通过将用户对网销商品链接下的定性评论，转化为表示商品、品牌质量优劣的情感得分，进而转化为同类商品下各个网销商品链接的商品先验概率，以及该同类商品下各品牌的先验概率，从而确定出同类商品下各品牌的入样概率和商品抽样数量，以及同类商品下各品牌在各网销店铺中的入样概率和商品抽样数量，与现有技术相比，包括如下优点：

1、基于大数据，将网销商品的用户评论转化为表示商品、品牌质量优劣的情感得分，并以此作为先验概率为后续检验抽样提供计算基础，可以在商品总数不确定、销售渠道不固定、品牌多、商品分类复杂的情况下，尤其是总体商品总数不确定的情况下，即可获得相对适合的入样概率和抽样数量，使质量监控或抽检工作目标性更强，从而在有限的资源下大幅提升抽样检测的效率。

2、通过本发明进行网销商品抽样检测前的抽样工作时，先将基于用户评论得到的情感得分/情感倾向性分析，转化为表示网销商品链接对应的商品或品牌质量优劣的概率，当各网销商品链接下的商品用户评价越差、对质量问题存在较多不满时，该网销商品链接的商品情感得分就越低，先验概率就越大，则对应的商品抽样数量则越高，以加强抽检力度进行重点关注；反之，当网销商品链接下的商品用户评价相对越好，其对应的情商品情感得分就越高，先验概率就越低，则对应的商品抽样数量则越低，以相对降低抽检力度；抽样的数据受到用户评论的影响而各不相同且各有侧重，更为科学合理。

3、通过将用户对网销商品链接下的定性评论，转化为表示商品、品牌质量优劣的情感得分，放大差评(即负向情感得分)的作用，凸显更有问题的商品和品牌。

4、进一步提供以品牌为维度进行情感得分倾向的统计，可以避免由于网销商品对应的网销商品链接名称复杂、散乱等带来的不利干扰影响。

5、进一步的，可大幅减弱刷单等现象带来的无用评价(如重复评价、套话评价等)造成的数据影响和干扰，相比现有的好评率或好评度，提供更有参考意义的情感倾向得分，供后续检验抽样提供参考。

6、进一步的，结合历史质检数据，引入以优先数为比率对同类商品下的某些选定品牌的入样概率进行加严处理的方法，使得检验抽样结合实时数据和历史数据，更合理更有针对性。

7、实际应用场景下用户评论不断增加，本方法无需事先进行模型训练，克实时快捷地适应评论数量变化，实现实时采集、实时计算，或滚动采集、

累积计算等各种方式，实时性强，灵活度高。

附图说明

图1为某网销同类商品的情感得分计算层次模型；

图2为评论分析词典中的情感词词典示意图；

图3为评论分析词典中的否定词词典示意图；

图4为评论分析词典中的程度词词典示意图；

图5为评论分析词典中的停用词词典示意图；

图6为网销商品链接下各条评论的情感得分计算流程示意图；

图7为箱线图去除异常值的示意图；

图8为某网销同类商品的分层抽样模型；

图9为实施例中给出的示例中同类商品(空调类)下各品牌的情感得分与各品牌的先验概率的对照图；

图10为实施例中给出的示例中同类商品(空调类)下各品牌的情感得分、先验概率以及入样概率的对照图；

图11为实施例中给出的示例中同类商品(空调类)下各品牌的入样概率在加严归一化处理前后的对照图；

图12为实施例的举例中若干网销商品链接b_ij未进行标准化处理的的正向情感原始得分(ScorePositive)和负向情感原始得分(ScoreNegative)数据对比图；

图13为实施例的举例中若干网销商品链接b_ij未进行标准化处理的正向情感原始得分(ScorePositive)和进行标准化处理后的正向情感标准分(z_ScorePositive)的数据对比图；

图14为实施例的举例中若干网销商品链接b_ij未进行标准化处理的负向情感原始得分(ScoreNegative)和进行标准化处理后的负向情感标准分(z_ScoreNegative)的数据对比图；

图15为实施例的举例中若干网销商品链接b_ij的好评度(Rate)与经过标准化和基于熵的加权处理后的各网销商品链接b_ij的商品情感得分(z_Score)的数据对比图。

具体实施方式

下面结合实施例和附图对本发明做进一步的详细说明，以下实施列对本发明不构成限定。

本实施例提供的基于大数据的网销商品检验抽样方法，包括情感得分计算步骤和抽样数据计算步骤。

文中所述评论分析词典包括情感词词典、否定词词典、程度词词典和/或停用词词典。该评论分析词典可采用现有技术中的情感词词典、否定词词典、程度词词典和/或停用词词典直接组建而成。

当然在某些实施例中，该评论分析词典也可根据网络平台上用户对商品的多源评论数据，来进行构建和/或更新。也即在该实施例所提供的基于大数据的网销商品检验抽样方法中，还包括初始化步骤。其中，该初始化步骤包括：A0)基于网络平台上用户对商品的多源评论数据，构建和/或更新商品的评论分析词典的步骤。

其中，更新商品的评论分析词典，可在上述由现有技术中的各词典组建而成的评论分析词典的基础上更新，也可在根据网络平台上用户对商品的多源评论数据构建而成的评论分析词典的基础上更新。

如图2所示，其中情感词词典中包括若干情感词以及各情感词对应的情感词分值。如图3所示，其中否定词词典中包括若干否定词。否定词的出现将直接将句子情感转向相反的方向，而且通常效用是叠加的。

如图4所示，其中程度词词典中包括若干程度词以及各程度词对应的程度词分值。其中程度词分值为表示该程度副词强弱的数值，程度词词典内数据格式如图4所示，共两列，第一列为程度词(也可称为程度副词)，第二列是程度词分值(也可称为程度数值)，该值>1表示强化情感，该值<1表示弱化情感。

如图5所示，其中停用词词典中包括若干停用词。

上述多源评论数据包括若干网络销售平台的评论数据。其中若干网络销售平台如淘宝、天猫、京东、苏宁等。

其中针对某同类商品的情感得分计算步骤包括(图1为某网销同类商品的情感得分计算层次模型)：

B1)采集网络平台上属于该同类商品的网销商品链接及其对应的包括商品数据、品牌数据、评论数据、销售量数据在内的数据信息。

B2)通过基于评论分析词典的情感倾向分析方法，对步骤B1)采集的各网销商品链接的各条评论进行情感分析，计算得到各网销商品链接下各条评论的情感得分：

文中所述情感得分计算，又可称为情感分析、情感计算、情感倾向性分析和意见挖掘等等，它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。由于商品评论本身句子结构较为简单且存在强烈的情感色彩，所以使用基于评论分析词典的情感倾向分析方法可以有效的计算评论的情感倾向。

其中如图6所示，基于评论分析词典的情感倾向分析方法对某一网销商品链接b_ij下的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤：

其中，|H|表示否定词出现的次数，D表示程度词分值，

表示；

B24)该条评论情感得分计算(亦可称为评论子句倾向汇总)：针对该条评论对应的评论文本c，将其所有子句中的子句正向情感得分进行累加，得到该条评论的正向情感得分s⁺，将其所有子句中的子句负向情感得分进行累加，得到该条评论的负向情感得分s^-：

其中，m_c表示评论c的子句数量。

在某些优选实施例中，此处步骤B24)后还包括异常值去除步骤，该步骤包括：通过基于评论分析词典的情感倾向分析方法对某一网销商品链接下的各条评论进行情感分析计算得到各条评论的情感得分后，利用箱线图法，将该网销商品链接下的各条评论的正、负向情感得分中的异常值去除。具体的，本实施例中，如图7所示，对网销商品链接b_ij执行以下操作：

1)去除网销商品链接b_ij下的各条评论的所有正向情感得分中的异常值

Step11.将网销商品链接b_ij下的各条评论的所有正向情感得分按从大到小排列，构成集合

n_c是该网销商品链接b_ij下评论的总条数，并且

Step12.计算S⁺的中位数

Step13.计算上四分位数

即集合

的中位数，当m为偶数时k＝m/2，当m为奇数时k＝(m+1)/2；

Step14.计算下四分位数

即集合

的中位数；

Step15.计算四分位距

Step16.计算上边缘值

Step17.计算下边缘值

Step18.确定正向情感得分中的异常值

并去除。

2)去除网销商品链接b_ij下的各条评论的所有负向情感得分中的异常值

Step21.将网销商品链接b_ij下的各条评论的所有负向情感得分按从大到小排列，构成集合

并且

Step22.计算S^-的中位数

Step23.计算上四分位数

即集合

的中位数，当m为偶数时k＝m/2，当m为奇数时k＝(m+1)/2；

Step24.计算下四分位数

即集合

的中位数；

Step25.计算四分位距

Step26.计算上边缘值

Step27.计算下边缘值

Step28.确定负向情感得分中的异常值

并去除。

当然，上述异常值去除也可通过现有技术或本领域常规技术手段中采取的其他异常值去除方法来实现。

B3)基于各网销商品链接下各条评论的情感得分，计算得到各网销商品链接的商品情感得分：

在本优选实施例中，所述步骤B3)为：基于各网销商品链接下各条评论的情感得分，结合标准化和基于熵的加权处理方法，计算得到各网销商品链接的商品情感得分。在某些优选实施例中也可以说是，所述步骤B3)为：基于各网销商品链接下各条评论的情感得分，结合z-score标准化方法计算得到各网销商品链接的正、负向情感标准分，进而基于熵的加权处理方法，计算得到各网销商品链接的商品情感得分。具体的：

其中，某一网销商品链接b_ij的商品情感得分为：

其中，

和

分别为该网销商品链接b_ij的正、负向情感标准分，本实施例中使用z-score标准化方法计算得到：

其中，

n_c是该网销商品链接b_ij下评论的总条数；

和

和

和

其中，α⁺和α^-分别为正向权重和负向权重。本实施例中，α⁺和α^-分别为基于熵值法计算得到的正向权重和负向权重(也可以说是熵值法求权重)。

针对网销商品链接b_ij，其中正向权重α⁺和负向权重α^-通过如下步骤获得：

为：

为：

其中，u＝1,2,…n_c；

g⁺＝1-e⁺

g^-＝1-e^-

K5)计算得到网销商品链接b_ij的正向权重a⁺和负向权重a^-：

目前网销产品的评论数据中，大多差评占比较少，好评或默认好评占比较多，也存在较多刷单好评的现象，因此一方面往往能起到提醒作用的差评，大多掩埋在数量众多的好评中，另一方面，不同销售链接根据好评差评的占比给出的好评率也相差甚微，很难在接近或相同的好评率(或好评度)如98％和99％这样1～2个点的区分中，感知出产品或服务的差异性，对于一些打分制的评论体系，也难以在接近或相同的打分分值如4.8、4.9等评分中，区分感知出产品或服务的差异性。

此处通过熵值和标准分的引入计算，可以大幅减弱刷单等现象带来的无用评价(如重复评价、套话评价、故意好评或恶意差评等)造成的数据影响和干扰，将好评和差评综合考虑，并根据差评情况动态调整好评和差评的权重。相比现有的好评率、好评度、评分(如打分评分、星级评分或综合评分等)等，提供更有区分度和参考意义的情感倾向得分，更符合人们直观体验，可供客户选择商品时提供参考，在本实施例的应用场合中，更是作为检验、抽样工作的基础数据为质检抽样提供参考。

此处通过一仿真实验来进行论证：随机选取若干网销商品链接b_ij进行上述方法步骤的仿真，本仿真实验的示例中原始网销数据来源于天猫。

图12、图13、图14和图15的横坐标均为所选取的若干网销商品链接b_ij。图中的各网销商品链接的正向情感原始得分ScorePositive为对应网销商品链接下的所有评论的正向情感得分的均分，各网销商品链接的负向情感原始得分ScoreNegative为对应网销商品链接的所有评论的负向情感得分的均分。

以网销商品链接b_ij举例说明，图中各网销商品链接进行标准化处理后的正向情感标准分z_ScorePositive，即对应文中网销商品链接b_ij的正向情感标准分

图中各网销商品链接进行标准化处理后的负向情感标准分z_ScoreNegative，即对应文中网销商品链接b_ij的负向情感标准分

图中经过标准化和基于熵的加权处理后(也可称为经过标准化和基于熵的方法加权后)的各网销商品链接b_ij的商品情感得分z_Score，即对应文中网销商品链接b_ij的商品情感得分x_ij。

图12为所选取的这些网销商品链接b_ij未进行标准化处理的正向情感原始得分ScorePositive和负向情感原始得分ScoreNegative数据对比图，由图12可见：未进行标准化处理前，直接由用户评论计算出的正向情感原始得分ScorePositive和负向情感原始得分scorenegative差异较大，难以直接汇总。

图13为所选取的这些网销商品链接b_ij未进行标准化处理的正向情感原始得分ScorePositive和进行标准化处理后的正向情感标准分z_ScorePositive的数据对比图。由图13可见：进行标准化处理之后的正向情感标准分z_ScorePositive，和未进行标准化处理的正向情感原始得分ScorePositive的趋势是一致的，保持差异和趋势性的同时，缩小了分值之间的跨度，同时也将正向得分与负向得分控制在相近数量级范围内，降低了正向情感得分的影响程度，便于正向和负向情感得分进行汇总，以便于在不同网销商品链接之间进行比较。

图14为所选取的这些网销商品链接b_ij未进行标准化处理的负向情感原始得分ScoreNegative和进行标准化处理后的负向情感标准分z_ScoreNegative的数据对比图。由图14可见：进行标准化处理之后的负向情感标准分z_ScoreNegative，和未进行标准化处理的负向情感原始得分ScoreNegative的趋势是一致的，但放大了不同网销商品链接得分的差异性，使负向效果更加突出，与正向情感标准分z_ScorePositive具有相同数量级，便于与正向情感得分进行汇总，以便于在不同网销商品链接之间进行比较。

图15为所选取的这些网销商品链接b_ij的好评率Rate与经过标准化和基于熵的加权处理后(也可称为经过标准化和基于熵的方法加权后)的各网销商品链接b_ij的商品情感得分z_Score的数据对比图。由图15可以明显看出：不同网销商品链接的标准分也即商品情感得分z_Score差异比较明显，比好评率Rate更有区分性，尤其是很多网销商品链接的好评率数值相同(如图中一些峰部平坦位置)，但经过标准化和基于熵的加权处理后的商品情感得分的数值却明显不同，更好地反应了不同网销商品链接下的产品质量的差异。因此处仿真的原始数据来源于天猫，故此处好评率Rate为打分(如满分为5分的综合评分)所获得的分值。

此外，不同网站/网络销售平台对于好评率(好评度)可能有不同的打分体系，有些是满分为5分(如天猫)，有些是满分为100％(如京东)。因此，不同网站/网络销售平台之间好评率很难直接比较。本方法以用户评论来计算各网销商品链接的商品情感得分z_Score，即使不同网站，得到的各网销商品链接的商品情感得分z_Score也具有相同的意义和数量级，可以在不同网络销售平台间直接比较。

B4)结合步骤B3)得到的各网销商品链接的商品情感得分和品牌数据，计算该同类商品下各品牌的情感得分：

其中该同类商品下某一品牌B_i的情感得分为：

其中，x_ij为网销商品链接b_ij的商品情感得分；

w_j是该同类商品下品牌B_i中网销商品链接b_ij的商品销量比重(针对该同类商品下的品牌B_i，网销商品链接b_ij占该同类商品下该品牌B_i的所有网销商品链接的销量比重)，

n_i为该同类商品下该品牌B_i的所有网销商品链接的数量。

利用基于用户评论得到的情感得分/情感倾向性分析，转化为表示网销商品链接对应的商品或品牌质量优劣的概率，该概率基于用户购买或选用或体验的评论历史数据，称为先验概率。进一步利用先验概率，计算后续开展质量监控(如网销商品抽检)时对商品抽样检验的概率(称为入样概率)和商品抽样数量。本文所述入样概率，亦可称为后验概率或抽样概率。文中所述商品抽样数量，亦可称为抽样样本数。

其中针对某同类商品的抽样数据计算步骤包括：

C1)根据该同类商品下各网销商品链接的商品情感得分，结合品牌数据，计算得到该同类商品下各品牌的各个网销商品链接的商品先验概率，以及该同类商品下各品牌的先验概率：

其中品牌B_i下网销商品链接b_ij的先验概率为：

P(b_ij)＝(Max(x)-x_ij)/(Max(x)-Min(x))×100％

其中，x_ij为网销商品链接b_ij的商品情感得分，Max(x)和Min(x)为该同类商品中品牌B_i下所有网销商品链接中商品情感得分的最大值和最小值。

各网销商品链接下的商品用户评价越差，该网销商品链接的商品情感得分就越低，先验概率就越大。反之网销商品链接下的商品用户评价越好，其对应的情商品情感得分就越高，先验概率就越低。

其中品牌B_i的先验概率为：

其中，w_j是该同类商品下品牌B_i中网销商品链接b_ij的商品销量比重(针对该同类商品下的品牌B_i，网销商品链接b_ij占该同类商品下该品牌B_i的所有网销商品链接的销量比重)，

n_i为该同类商品下该品牌B_i的所有网销商品链接的数量。

C2)结合该同类商品下的品牌数据，确定该同类商品下各品牌的入样概率：

如图8所示，本方案采用分层抽样，主要分为两层：第一层是确定该同类商品下抽取的品牌和每个品牌的入样概率；第二层是确定该同类商品下销售各品牌的网销店铺和该同类商品下各品牌在各网销店铺中的入样概率。

因为根据此前步骤计算所得的同类商品G下各品牌的先验概率之和不一定等于1，因此需进一步计算抽样时同类商品G下每个品牌和每个网销店铺分配到的概率，也即入样概率。

其中同类商品G下品牌B_i的入样概率为：

其中，P(G|B_i)为同类商品G下品牌B_i的销售量比重，n_b为同类商品G下所有品牌的数量。文中同类商品G的分类根据实际应用需要可大可小，例如同类商品G定位为空调，当然同类商品G也可以定位到立式空调或挂式空调等。但不属于同一类商品也即不同类别的商品，以及不同类别的网销商品链接对应的商品不能混在一起计算。

同时，考虑到质检抽查等工作是一个持续性的工作，如国家有关管理部门会对产品质量进行定期和不定期的监督抽查，并将结果进行公布，而这些质检历史数据的信息，对进行后期质量监管或抽样检查具有重要的参考意义或指引提示作用。因此，在某些优选实施例中，本发明进一步结合质检历史数据，对质检历史数据中的不合格产品和/或品牌，提供了一种加严处理的方法以提高其入样概率。

加严具体策略如下：结合质检历史数据，如果同类商品G下的品牌B_i、B_i+1、…、B_i+k在历史质检中如上年度监督抽查中质量不合格，则以优先数R5为比率对选定品牌B_i、B_i+1、…、B_i+k的入样概率P(B_i|G)、P(B_i+1|G)、…、P(B_i+k|G)进行加严。加严处理后，根据质检历史数据选定的不合格品牌对应的入样概率就会相对提高，即提高被抽中的概率，同时其他品牌的入样概率会相对降低。

因而在某些优选实施例中，通过所述步骤C2)确定该同类商品下各品牌的入样概率后，还包括加严归一化处理步骤，其包括如下步骤：

C2P1)结合质检历史数据，以优先数R5为比率对同类商品G下的选定品牌B_i,B_i+1,…,B_i+h(即根据质检历史数据选定的不合格品牌)的入样概率进行加严处理，进而对同类商品G下所有品牌的入样概率进行归一化处理：

其中，

此处，n_b为同类商品G下所有品牌的数量；

C2P2)更新同类商品G下所有品牌的入样概率为：

P(B_k|G)＝P′(B_k|G)

其中，

本实施例中，以优先数

为比率，提高质检历史数据中的不合格品牌的入样概率。实际中可根据应用场合的实际需求对优先数进行调整。

C3)结合该同类商品下的网销店铺数据和该同类商品下各品牌的入样概率，确定该同类商品下各品牌在各网销店铺中的入样概率：

其中同类商品G下品牌B_i在网销店铺T_k的入样概率为：

其中，P(B_i|T_k)为同类商品G下品牌B_i中网销店铺T_k的销售量比重，n_t为同类商品G下销售品牌B_i的网销店铺的数量。

C4)结合该同类商品的待抽取商品总数，确定该同类商品下各品牌的商品抽样数量：

其中待检同类商品G下品牌B_i的商品抽样数量为：

其中，M为待检同类商品G的待抽取商品总数，其中符号

表示该符号中计算出的数字向下取整。

C5)根据该同类商品的待抽取商品总数，确定该同类商品下各品牌在各网销店铺中的商品抽样数量：

其中待检同类商品G下品牌B_i在网销店铺T_j中的商品抽样数量为：

其中符号

表示该符号中计算出的数字向下取整。

以同类商品G是空调类为举例，对上述实施例的部分步骤予以实验示例说明：本实验示例中网销数据主要来源于天猫和京东，通过上述步骤B3)计算得到该同类商品(空调类)下各网销商品链接的商品情感得分；通过上述步骤B4)计算得到该同类商品(空调类)下各品牌的情感得分；通过上述步骤C1)计算得到该同类商品(空调类)下各品牌的各个网销商品链接的商品先验概率，以及该同类商品(空调类)各品牌的先验概率；通过上述步骤C2)确定该同类商品(空调类)下各品牌的入样概率；通过上述步骤C3)确定该同类商品(空调类)下各品牌在各网销店铺中的入样概率；进而通过上述步骤C4)确定该同类商品(空调类)下各品牌的商品抽样数量；进而通过上述步骤C5)确定该同类商品(空调类)下各品牌在各网销店铺中的商品抽样数量。

图9给出了该同类商品(空调类)下各品牌的情感得分(即图中的品牌情感得分、情感总得分)与各品牌的先验概率的对照图(横坐标为各品牌)，由图9可见，总体趋势上各品牌的情感得分越低，则该品牌的先验概率越高。

图10给出了该同类商品(空调类)下各品牌的情感得分、各品牌的先验概率、各品牌的入样概率(无加严归一化处理)的对照图(横坐标为各品牌)，由图10可见，总体趋势上各品牌的情感得分越低，则该品牌的先验概率越高，与此同时，各品牌的入样概率受先验概率和各品牌的销售量的双重影响，某些品牌用户评论很好，先验概率会相对较低，但如果销量很高(如图中的奥克斯、格力、美的等)，则其对应的入样概率也会增加。也就是说用户评论差的、或者用户购买多的，都需要重点抽检。另，各附图中的抽样概率即为入样概率，亦可称为后验概率。

为说明加严处理策略，针对同类商品(空调类)，本示例结合2018年上海市家用空调器产品质量监督抽查结果中公示的质检历史数据(数据来源：上海质量技术监督官网-信息中心-公告栏-抽查报告-《2018年上海市家用空调器产品质量监督抽查结果》，网站链接：http://shzj.scjgj.sh.gov.cn/art/2018/9/4/art_358_1325245.html)，该公示数据中显示此次商品品牌MBO下的产品抽查结果为不合格(此处仅用于举例说明)(另说明：本示例中的基础网销数据涉及该公示数据中的品牌MBO，不涉及该公示数据中的另外两个不合格品牌)，将品牌MBO列为选定品牌对其入样概率进行加严处理，进而对同类商品(空调类)下所有品牌的入样概率进行归一化处理，经过步骤C2P1)和C2P2)的处理后，实现了对质检历史数据中的不合格产品和/或品牌进行加严处理的抽样数据的调整，使得后续的质检抽样更为科学合理且具有延续性。

图11给出了该同类商品(空调类)下各品牌的入样概率在加严归一化处理前后的对照图(横坐标为各品牌)，由图11可见，加严归一化处理后，该同类商品(空调类)下选定品牌MBO的入样概率相对之前有所提升，但同时，由于MBO品牌空调的销量不高，因此其入样概率的变化并不突兀或明显，其是各种因素均衡后的合理调整。

以上仅是本发明的优选实施方式，应当指出以上实施列对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的多样变化和修改，均落在本发明的保护范围内。

Claims

1.一种基于大数据的网销商品检验抽样方法，其特征在于：该方法包括情感得分计算步骤和抽样数据计算步骤；

其中针对某同类商品的情感得分计算步骤包括：

其中针对某同类商品的抽样数据计算步骤包括：

2.根据权利要求1所述的基于大数据的网销商品检验抽样方法，其特征在于：所述步骤B1)为：采集网络平台上属于该同类商品的网销商品链接及其对应的包括品牌数据、网销店铺数据、评论数据、销售量数据在内的数据信息；

3.根据权利要求1所述的基于大数据的网销商品检验抽样方法，其特征在于：该方法还包括初始化步骤；其中初始化步骤包括：A0)基于网络平台上用户对商品的多源评论数据，构建和/或更新商品的评论分析词典的步骤；

其中否定词词典中包括若干否定词；

其中停用词词典中包括若干停用词。

4.根据权利要求1所述的基于大数据的网销商品检验抽样方法，其特征在于：所述B2)通过基于评论分析词典的情感倾向分析方法，对步骤B1)采集的各网销商品链接的各条评论进行情感分析，计算得到各网销商品链接下各条评论的情感得分的步骤中，基于评论分析词典的情感倾向分析方法对某一网销商品链接b_ij下的某条评论进行情感分析计算得到该条评论的情感得分包括如下步骤：