CN110648173B

CN110648173B - 基于商品好评和差评率的无监督异常商品数据检测方法

Info

Publication number: CN110648173B
Application number: CN201910887119.8A
Authority: CN
Inventors: 刘静; 侯志鹏
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2023-04-07
Anticipated expiration: 2039-09-19
Also published as: CN110648173A

Abstract

本发明公开了一种基于商品好评和差评率的无监督异常商品数据检测方法，主要解决在网上商城中出现的异常商品数据检测准确性不高的问题。其实现方案是：确定检测异常商品的数据类型；对于异常高评分商品的检测，首先计算每个商品的好评率；再计算经过差分算子后商品的差分好评率；最后确定异常高评分商品；对于异常低评分商品的检测，首先计算每个商品的差评率；再计算经过缩放算子后商品的缩放差评率；最后确定异常低评分商品。本发明对于两种异常商品数据检测场景提出了两个计算指标和两个操作算子，能够更加精准的检测出异常商品，帮助系统维护人员尽早发现有问题的商品，及时删除异常数据，可用于网上商城对异常商品数据的检测维护系统的稳定。

Description

基于商品好评和差评率的无监督异常商品数据检测方法

技术领域

本发明属于检测技术领域，特别涉及一种异常商品数据的检测方法，可用于网上商城对异常商品数据的检测，维护网上商城系统的稳定性。

背景技术

随着信息技术和互联网的迅速发展，网络购物成为越来越多的人购买商品的第一选择。部分商家为了增加自己商品的曝光率提高商品的销量，会通过返现、奖励等方式促使用户给予商品好评，即打高分，甚至为了打压竞争对手的商品，直接雇佣用户恶意对竞争对手的商品给予差评，即打低分。比如，国内网上购物网站淘宝，为书籍、电影和音乐提供推荐和评论的社区网站豆瓣网，以及国外网上购物网站eBay等知名电子商务网站，在系统中均发现存在有这些现象。这种异常商品数据，会极大程度的影响系统的稳定性，从而影响用户的使用体验，甚至导致用户放弃使用。因此，及时有效的检测出系统中的异常商品数据，帮助系统维护人员尽早发现有问题的商品，及时删除异常数据，维护系统的稳定性，就显得尤为重要。

根据Burke Robin等人发表的论文“Robust collaborative recommendation”(Recommender Systems Handbook，页码编号：805-835，2015)所述。目前，基于聚类的KNN方法或者基于决策树的C4.5方法是两种比较经典和常用的异常数据检测方法。基于聚类的KNN方法，直接利用原始数据进行聚类，将异常数据与非异常数据聚为不同的类别，从而完成检测。这种方法由于是一种无监督方法，因而不需要预先训练，简单有效。但是又由于他直接利用了商品的评分信息，对于商品的最高分和最低分打分情况没有进行定量的分析，因此用于异常商品数据的检测准确率不高。基于决策树的C4.5方法，直接利用数据构建决策树，从而完成异常数据的区分和检测。虽然，通常情况下它的检测准确率要高于基于聚类的KNN方法，但是该方法是有监督模型，需要预先人为构造一定量的虚假数据来训练模型，才能完成检测。然而人为构造的数据往往与真实情况具有很大的差距，难以模拟出真实系统中复杂的情况，因此该方法在实际系统中的使用受到了一定的限制。

发明内容

本发明的目的在于提出一种基于商品好评和差评率的无监督异常商品数据检测方法，以解决现有技术因缺少对于商品打分情况进行定量分析而造成检测准确性低的问题，以及需要预先人为构造一定量的虚假数据才能进行检测的限制问题。

本发明的技术思路是，在异常高评分商品的检测过程中，定义好评率指标来量化商品获得高评分的情况，定义差分算子操作来消除数据中的噪声，凸显异常高评分商品的好评率数据，从而提升异常商品的检测准确度。在异常低评分商品的检测过程中，定义差评率指标来量化商品获得低评分的情况，定义缩放算子操作来克服数据的幂律分布特性，凸显异常低评分商品的差评率数据，从而提升异常商品的检测准确度。其实现步骤包括如下：

(1)录入数据：

根据电子商务网站中用户对商品的评分记录，提取每个商品的评分数据，用提取数据中的所有商品构成商品集合O＝{o₁,o₂,....,o_i,...,o_m}，用提取数据中的所有用户构成用户集合U＝{u₁,u₂,...,u_j,...,u_n}，其中o_i表示第i个商品，i从1到m，m为商品的总数目，u_j表示第j个用户，j从1到n，n为用户的总数目；

(2)确定本次检测是否是检测异常高评分商品：若是，则执行步骤(3)；若不是，则表示本次检测的是异常低评分商品，跳转到步骤(6)；

(3)计算每个商品的好评率：

(3a)对商品集合O中的每一个商品o_i，统计对每个商品o_i有评分行为的用户数r_i；

(3b)对于商品集合O中的每一个商品o_i，计算每个商品的好评率H_i:

其中r_{i_max}是商品o_i的评分中等于系统最高评分的评分数目，若当前系统允许的评分范围为1到5，r_{i_max}表示商品o_i的评分中评分等于5的评分数目；

(4)计算每个商品的差分好评率：

(4a)根据商品拥有的评分数目r_i，降序排序商品的好评率H_i；

(4b)在商品按照商品评分数目r_i排序的基础上，对于每个商品o_i，以自己在商品排序序列中的位置为中心，向前和向后各选择l/2个商品构建商品o_i的近邻商品集合Γ_i＝{g₁,g₂,...,g_k,...,g_l}，其中g_k表示商品o_i的第k个近邻商品，k从1到l，l为商品o_i的近邻商品总数目；

(4c)对每个商品的好评率，计算经过差分后的差分好评率D_i：

其中H_k为商品o_i的第k个近邻商品的好评率；

(5)选择商品集合O中商品的评分数目r_i大于用户总数目n的1％的商品构成异常商品候选集，并选择异常商品候选集中拥有最大差分好评率D_i的商品o_i作为检测结果的输出；

(6)计算每个商品的差评率：

(6a)对商品集合O中的每一个商品o_i，统计对每个商品o_i有评分行为的用户数r_i；

(6b)对于商品集合O中的每一个商品o_i，计算每个商品的差评率C_i:

其中r_{i_min}是商品o_i的评分中等于系统最低评分的评分数目，若当前系统允许的评分范围为1到5，r_{i_min}表示商品o_i的评分中评分等于1的评分数目；

(7)对每个商品的差评率，计算经过缩放后的缩放差评率S_i：

其中

是商品集合O中每个商品拥有的评分数目r_i的平均值；

(8)选择商品集合O中商品的评分数目r_i大于用户总数目n的1％的商品构成异常商品候选集，并选择异常商品候选集中拥有最大缩放差评率S_i的商品o_i作为检测结果的输出。

本发明与现有技术相比有以下优点：

第一，本发明由于定义了商品好评率和差评率统计指标，通过这两个指标量化商品获得的高分和低分评分情况。相比于直接使用商品的全部评分进行数值分析，这两个指标能够更直观的体现异常商品数据的差异性，从而能够更好的检测异常商品。

第二，本发明根据评分数目相近的商品在好评率数值上也会比较接近，对于异常高分商品，其好评率数值会与评分数目相近的商品的好评率有较大差异的数值分布特征，定义了差分算子这一操作来平滑好评率数值噪声，放大商品好评率之间的差异性，凸显异常高评分商品的好评率数值异常性，从而进一步提升异常高分商品的检测准确率。

第三，本发明由于根据商品的差评率数值具有幂律分布的特性，定义缩放算子这一操作，让商品的差评率经过缩放后基本分布在同一基准线上。使得异常低评分商品的差评率相较于正常商品的差评率会出现明显的峰值，从而进一步提升异常低评分商品的检测准确率。

第四，本发明中的检测方法由于是基于数据统计指标的，不需要预先人为构造数据训练模型，是一种无监督的检测方法，因此具有更广泛的适用范围。

附图说明

图1是本发明的实现流程图；

图2是本发明中在对每个商品进行恶意打高分行为前后，对定义的好评率与差分好评率的数值区分情况仿真图；

图3是本发明中在对每个商品进行恶意打低分行为前后，对定义的差评率与缩放差评率的数值区分情况仿真图；

图4是本发明检测异常高分商品的结果仿真图；

图5是本发明检测异常低分商品的结果仿真图。

具体实施方式：

以下结合附图对本发明实施例和效果做进一步的详细描述。

参照图1，本发明的具体实现步骤如下：

步骤1，录入数据：

1.1)根据电子商务网站中用户对商品的评分记录，提取网站中用户对于每个商品的具体评分数据；

1.2)用提取数据中的所有商品构成商品集合O＝{o₁,o₂,....,o_i,...,o_m}，其中o_i表示第i个商品，i从1到m，m为商品的总数目；

1.3)用提取数据中的所有用户构成用户集合U＝{u₁,u₂,...,u_j,...,u_n}，其中u_j表示第j个用户，j从1到n，n为用户的总数目。

步骤2，确定本次检测是否是用于检测异常高评分商品。

通常在检测异常商品数据时，可以分为检测异常高评分商品和检测异常低评分商品这两种情况。根据实际需求，确定本次检测的类型，若是检测异常高评分商品数据，则执行步骤3；若不是，则表示本次检测的是异常低评分商品，跳转到步骤6。

步骤3，计算每个商品的好评率：

3.1)对商品集合O中的每一个商品o_i，统计对每个商品o_i有评分行为的用户数目r_i；

3.2)对于商品集合O中的每一个商品o_i，计算每个商品的好评率H_i:

其中r_{i_max}是商品o_i的评分中等于系统最高评分的评分数目，若当前系统允许的评分范围为1到5，r_{i_max}表示商品o_i的评分中评分等于5的评分数目。

步骤4，计算每个商品的差分好评率。

4.1)根据商品拥有的评分数目r_i，降序排序商品的好评率H_i；

4.2)在商品按照商品评分数目r_i排序的基础上，对于每个商品o_i，以自己在商品排序序列中的位置为中心，向前和向后各选择l/2个商品构建商品o_i的近邻商品集合Γ_i＝{g₁,g₂,...,g_k,...,g_l}，其中g_k表示商品o_i的第k个近邻商品，k从1到l，l为商品o_i的近邻商品总数目，本实例l等于用户数目n的1％；

4.3)对每个商品的好评率H_i，计算经过差分后的差分好评率D_i：

其中H_k为商品o_i的第k个近邻商品的好评率。

步骤5，根据计算的差分好评率，确定异常高评分商品。

选择商品集合O中商品的评分数目r_i大于用户总数目n的1％的商品构成异常商品候选集，并选择异常商品候选集中拥有最大差分好评率的商品作为检测结果的输出。

步骤6，计算每个商品的差评率：

6.1)对商品集合O中的每一个商品o_i，统计对每个商品o_i有评分行为的用户数r_i；

6.2)对于商品集合O中的每一个商品o_i，计算每个商品的差评率C_i:

其中r_{i_min}是商品o_i的评分中等于系统最低评分的评分数目，若当前系统允许的评分范围为1到5，r_{i_min}表示商品o_i的评分中评分等于1的评分数目。

步骤7，对每个商品的差评率C_i，计算经过缩放后的缩放差评率S_i：

其中

是商品集合O中每个商品拥有的评分数目r_i的平均值；

步骤8，根据计算的缩放差评率，确定异常低评分商品。

选择商品集合O中商品的评分数目r_i大于用户总数目n的1％的商品构成异常商品候选集，并选择异常商品候选集中拥有最大缩放差评率的商品作为检测结果的输出。

下面结合仿真实验对本发明的效果做进一步的说明。

1.仿真条件：

本发明的仿真实验采用的是电子商务领域常用的数据集MovieLens-100K，包括943个用户对1682个商品的100000条评分数据，评分范围为1到5。

2.仿真内容与结果分析：

仿真1：对本发明定义的好评率与差分算子对异常高评分商品的数据区分效果做进一步说明。

首先，在输入MovieLens-100K数据集的基础上，用本发明中检测异常高评分商品的方法，计算在原始数据上，每一个商品的原始好评率和原始差分好评率数值；

接着，对每个商品都模拟进行恶意打高分这一行为，即对每个商品都随机选择系统用户数目943的3％个还未对该商品打分的用户，并为这些用户添加对该商品的打分，分值为系统最高评分，即5分；

再次，使用本发明中检测异常高评分商品的方法，计算在采取恶意打高分这一行为后每个商品的好评率和差分好评率的数值；

最后，将在采取恶意打高分这一行为前后商品的好评率和差分好评率的数值，对比作图，结果如图2(a)和图2(b)所示。其中：

图2(a)表示的是每个商品在随机选择系统用户数目的3％个还未对该商品打分的用户进行恶意打高分行为前后商品的好评率数值分布图，图2(a)的横坐标表示商品在原始数据集中拥有的评分数目，纵坐标表示商品的好评率数值，灰色线标示的是在进行恶意打高分行为前商品的好评率数值分布曲线，黑色线标示的是在进行恶意打高分行为后商品的好评率数值分布曲线。

图2(b)表示的是每个商品在随机选择系统用户数目的3％个还未对该商品打分的用户进行恶意打高分行为前后的差分好评率数值分布图，横坐标表示商品在原始数据集中拥有的评分数目，纵坐标表示商品的差分好评率数值，灰色线标示的是在进行恶意打高分行为前商品的差分好评率数值分布曲线，黑色线标示的是在进行恶意打高分行为后商品的差分好评率数值分布曲线。

从图2(a)中可以看出，评分数目相近的商品在好评率数值上也会比较接近，当出现恶意打高分行为时，对于异常高分商品，其好评率数值会与评分数目相近的商品的好评率数值有较大差异。这反映出了好评率指标能够定量描述商品获得高评分的情况，且当有恶意打高分行为时该指标具有很好的区分性。对比图2(a)与图2(b)中的曲线可以看出，差分算子能够很好的平滑好评率数值中的噪声，并且能够放大商品好评率之间的差异性，凸显异常高评分商品的好评率数值异常性。在实际场景中，恶意打高分行为往往出现在评分较差或尚未有太多评论数目的商品中，即为图2曲线中的后半部分。对于这一部分的数据，从图2中可以清楚地看到，本发明定义的好评率指标以及差分算子，能够很好的区分异常高评分商品数据与正常商品数据。

仿真2：对本发明定义的差评率与缩放算子对异常低评分商品的数据区分效果做进一步说明。

首先，在输入MovieLens-100K数据集的基础上，用本发明中检测异常低评分商品的方法，计算在原始数据上，每一个商品的原始差评率和原始缩放差评率数值；

接着，对每个商品都模拟进行恶意打低分这一行为，即对每个商品都随机选择系统用户数目943的3％个还未对该商品打分的用户，并为这些用户添加对该商品的打分，分值为系统最低评分，即1分；

再次，使用本发明中检测异常低评分商品的方法，计算在采取恶意打低分这一行为后每个商品的差评率和缩放差评率的数值；

最后，将在采取恶意打低分这一行为前后商品的差评率和缩放差评率的数值，对比作图，结果如图3(a)和图3(b)所示。其中：

图3(a)表示的是每个商品在随机选择系统用户数目的3％个还未对该商品打分的用户进行恶意打低分行为前后的差评率数值分布图，横坐标表示商品在原始数据集中拥有的评分数目，纵坐标表示差评率数值，灰色线标示的是在进行恶意打低分行为前商品的差评率数值分布曲线，黑色线标示的是在进行恶意打低分行为后商品的差评率数值分布曲线。

图3(b)表示的是每个商品在随机选择系统用户数目的3％个还未对该商品打分的用户进行恶意打低分行为前后的缩放差评率数值分布图，横坐标表示商品在原始数据集中拥有的评分数目，纵坐标表示商品的缩放差评率数值，灰色线标示的是在进行恶意打低分行为前商品的缩放差评率数值分布曲线，黑色线标示的是在进行恶意打高分行为后商品的缩放差评率数值分布曲线。

从图3(a)中可以看出，在采取恶意打低分行为前后，商品的差评率数值会出现明显的变化，这反映出了本发明定义的差评率指标能够定量的描述商品获得低评分的情况，且对于异常低评分商品该指标具有很好的区分性。同时，还可以发现商品的评论数越多差评率越低，评论数越少差评率越高这一现象，即商品的差评率数值具有幂律分布特性。对比图3(a)与图3(b)中的曲线可以看出，商品的差评率经过缩放算子后基本分布在同一基准线上，且异常低评分商品的缩放差评率相较于正常商品会出现明显的峰值。这体现出了本发明定义的缩放算子能够很好的消除商品差评率数值的幂律分布特性对于检测结果的影响，并且能够更进一步凸显异常低评分商品的数据异常性。在实际场景中，恶意打低分行为往往出现在评分较高或评论数目较多的商品中，即为图3曲线中的前半部分。对于这一部分的数据，从图3中可以清楚地看到，本发明定义的差评率指标以及缩放算子，能够很好的区分异常低评分商品数据与正常商品数据。

仿真3：对本发明方法与基于聚类的检测方法KNN、基于决策树的检测方法C4.5这两个异常数据检测方法进行异常高评分商品数据的检测效果做进一步说明。

首先，在输入MovieLens-100K数据集的基础上，随机从商品集合中选择50个商品作为将要采取恶意打高分行为的商品集合。每次检测将从要采取恶意打高分行为的商品集合中取出一个商品作为本次进行恶意打高分商品，按照指定的参与恶意打高分行为的用户数量，从用户集合中随机选择还未对该商品打分的用户，并为这些用户添加对该商品的打分，分值为5，即好评；

随后，运用本发明方法对经过改变后的数据集进行检测得到检测结果；

最后，对比本发明方法输出的异常商品与前述步骤中选出的进行恶意打高分行为的商品是否一致，如果一致则记为1，即检测正确，否则记为0，即检测错误，进而得到本发明方法在这50个商品上的检测正确比率，正确率越高，证明检测的越准确。

在本仿真实验中，依次测试从1％的系统用户数目参与恶意打高分行为，以1％递增，到10％的系统用户数目参与恶意打高分行为时方法的检测正确率，结果如图4所示。其中：

横坐标表示参与恶意打高分行为的用户数目占系统总用户数目的比重，从1％以1％为步长递增到10％，纵坐标表示方法检测异常高评分商品的检测正确率，圆形标示的曲线表示基于聚类的检测方法KNN的检测正确率曲线，三角形标示的曲线表示基于决策树的检测方法C4.5的检测正确率曲线，方块标示的曲线表示本发明方法的检测正确率曲线。

从图4中可以看出，本发明方法的正确率曲线始终位于基于聚类的检测方法KNN和基于决策树的检测方法C4.5的正确率曲线上方，说明本发明方法能够更加准确的检测出异常高分商品数据。同时，当参与恶意打高分的用户数量不是很多时，如系统总用户数目的1％到2％时，本发明方法的正确率远高于基于聚类的检测方法KNN和基于决策树的检测方法C4.5，表示本发明方法对于异常高评分商品具有较高的数据敏感性，能够较早的检测出数据中的异常，从另一个方面说明了本发明方法的有效性。

仿真4：对本发明方法与基于聚类的检测方法KNN、基于决策树的检测方法C4.5这两个异常数据检测方法进行异常低评分商品数据的检测效果做进一步说明。

首先，在输入MovieLens-100K数据集的基础上，随机从商品集合中选择50个商品作为将要采取恶意打低分行为的商品集合。每次检测将从要采取恶意打低分行为的商品集合中取出一个商品作为本次进行恶意打低分商品，按照指定的参与恶意打低分行为的用户数量，从用户集合中随机选择还未对该商品打分的用户，并为这些用户添加对该商品的打分，分值为1，即差评；

最后，对比本发明方法输出的异常商品与前述步骤中选出的进行恶意打低分行为的商品是否一致，如果一致则记为1，即检测正确，否则记为0，即检测错误。进而得到本发明方法在这50个商品上的检测正确比率，正确率越高，证明检测的越准确。

在本仿真实验中，依次测试从1％的系统用户数目参与恶意打低分行为，以1％递增，到10％的系统用户数目参与恶意打低分行为时方法的检测正确率，结果如图5所示。其中：

横坐标表示参与恶意打低分行为的用户数目占系统总用户数目的比重，从1％以1％为步长递增到10％，纵坐标表示方法检测异常低评分商品的检测正确率，圆形标示的曲线表示基于聚类的检测方法KNN的检测正确率曲线，三角形标示的曲线表示基于决策树的检测方法C4.5的检测正确率曲线，方块标示的曲线表示本发明方法的检测正确率曲线。

从图5中可以看出，本发明方法的正确率曲线始终位于基于聚类的检测方法KNN和基于决策树的检测方法C4.5的正确率曲线上方，说明本发明方法能够更加准确的检测出异常低分商品数据。同时，当参与恶意打低分的用户数量不是很多时，如系统总用户数目的1％到2％时，本发明方法的正确率远高于基于聚类的检测方法KNN和基于决策树的检测方法C4.5，表示本发明方法对于异常低评分商品具有较高的数据敏感性，能够较早的检测出数据中的异常，从另一个方面说明了本发明方法的有效性。

Claims

1.一种基于商品好评和差评率的无监督异常商品数据检测方法，其特征在于，包括如下：

(1)录入数据：

(3)计算每个商品的好评率：

(4)计算每个商品的差分好评率：

(4a)根据商品拥有的评分数目r_i，降序排序商品的好评率H_i；

(4c)对每个商品的好评率，计算经过差分后的差分好评率D_i：

其中H_k为商品o_i的第k个近邻商品的好评率；

(6)计算每个商品的差评率：

(7)对每个商品的差评率，计算经过缩放后的缩放差评率S_i：

其中

是商品集合O中每个商品拥有的评分数目r_i的平均值；