CN110648173B - 基于商品好评和差评率的无监督异常商品数据检测方法 - Google Patents

基于商品好评和差评率的无监督异常商品数据检测方法 Download PDF

Info

Publication number
CN110648173B
CN110648173B CN201910887119.8A CN201910887119A CN110648173B CN 110648173 B CN110648173 B CN 110648173B CN 201910887119 A CN201910887119 A CN 201910887119A CN 110648173 B CN110648173 B CN 110648173B
Authority
CN
China
Prior art keywords
commodity
commodities
abnormal
good
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910887119.8A
Other languages
English (en)
Other versions
CN110648173A (zh
Inventor
刘静
侯志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910887119.8A priority Critical patent/CN110648173B/zh
Publication of CN110648173A publication Critical patent/CN110648173A/zh
Application granted granted Critical
Publication of CN110648173B publication Critical patent/CN110648173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于商品好评和差评率的无监督异常商品数据检测方法,主要解决在网上商城中出现的异常商品数据检测准确性不高的问题。其实现方案是:确定检测异常商品的数据类型;对于异常高评分商品的检测,首先计算每个商品的好评率;再计算经过差分算子后商品的差分好评率;最后确定异常高评分商品;对于异常低评分商品的检测,首先计算每个商品的差评率;再计算经过缩放算子后商品的缩放差评率;最后确定异常低评分商品。本发明对于两种异常商品数据检测场景提出了两个计算指标和两个操作算子,能够更加精准的检测出异常商品,帮助系统维护人员尽早发现有问题的商品,及时删除异常数据,可用于网上商城对异常商品数据的检测维护系统的稳定。

Description

基于商品好评和差评率的无监督异常商品数据检测方法
技术领域
本发明属于检测技术领域,特别涉及一种异常商品数据的检测方法,可用于网上商城对异常商品数据的检测,维护网上商城系统的稳定性。
背景技术
随着信息技术和互联网的迅速发展,网络购物成为越来越多的人购买商品的第一选择。部分商家为了增加自己商品的曝光率提高商品的销量,会通过返现、奖励等方式促使用户给予商品好评,即打高分,甚至为了打压竞争对手的商品,直接雇佣用户恶意对竞争对手的商品给予差评,即打低分。比如,国内网上购物网站淘宝,为书籍、电影和音乐提供推荐和评论的社区网站豆瓣网,以及国外网上购物网站eBay等知名电子商务网站,在系统中均发现存在有这些现象。这种异常商品数据,会极大程度的影响系统的稳定性,从而影响用户的使用体验,甚至导致用户放弃使用。因此,及时有效的检测出系统中的异常商品数据,帮助系统维护人员尽早发现有问题的商品,及时删除异常数据,维护系统的稳定性,就显得尤为重要。
根据Burke Robin等人发表的论文“Robust collaborative recommendation”(Recommender Systems Handbook,页码编号:805-835,2015)所述。目前,基于聚类的KNN方法或者基于决策树的C4.5方法是两种比较经典和常用的异常数据检测方法。基于聚类的KNN方法,直接利用原始数据进行聚类,将异常数据与非异常数据聚为不同的类别,从而完成检测。这种方法由于是一种无监督方法,因而不需要预先训练,简单有效。但是又由于他直接利用了商品的评分信息,对于商品的最高分和最低分打分情况没有进行定量的分析,因此用于异常商品数据的检测准确率不高。基于决策树的C4.5方法,直接利用数据构建决策树,从而完成异常数据的区分和检测。虽然,通常情况下它的检测准确率要高于基于聚类的KNN方法,但是该方法是有监督模型,需要预先人为构造一定量的虚假数据来训练模型,才能完成检测。然而人为构造的数据往往与真实情况具有很大的差距,难以模拟出真实系统中复杂的情况,因此该方法在实际系统中的使用受到了一定的限制。
发明内容
本发明的目的在于提出一种基于商品好评和差评率的无监督异常商品数据检测方法,以解决现有技术因缺少对于商品打分情况进行定量分析而造成检测准确性低的问题,以及需要预先人为构造一定量的虚假数据才能进行检测的限制问题。
本发明的技术思路是,在异常高评分商品的检测过程中,定义好评率指标来量化商品获得高评分的情况,定义差分算子操作来消除数据中的噪声,凸显异常高评分商品的好评率数据,从而提升异常商品的检测准确度。在异常低评分商品的检测过程中,定义差评率指标来量化商品获得低评分的情况,定义缩放算子操作来克服数据的幂律分布特性,凸显异常低评分商品的差评率数据,从而提升异常商品的检测准确度。其实现步骤包括如下:
(1)录入数据:
根据电子商务网站中用户对商品的评分记录,提取每个商品的评分数据,用提取数据中的所有商品构成商品集合O={o1,o2,....,oi,...,om},用提取数据中的所有用户构成用户集合U={u1,u2,...,uj,...,un},其中oi表示第i个商品,i从1到m,m为商品的总数目,uj表示第j个用户,j从1到n,n为用户的总数目;
(2)确定本次检测是否是检测异常高评分商品:若是,则执行步骤(3);若不是,则表示本次检测的是异常低评分商品,跳转到步骤(6);
(3)计算每个商品的好评率:
(3a)对商品集合O中的每一个商品oi,统计对每个商品oi有评分行为的用户数ri
(3b)对于商品集合O中的每一个商品oi,计算每个商品的好评率Hi:
Figure BDA0002207641510000021
其中ri_max是商品oi的评分中等于系统最高评分的评分数目,若当前系统允许的评分范围为1到5,ri_max表示商品oi的评分中评分等于5的评分数目;
(4)计算每个商品的差分好评率:
(4a)根据商品拥有的评分数目ri,降序排序商品的好评率Hi
(4b)在商品按照商品评分数目ri排序的基础上,对于每个商品oi,以自己在商品排序序列中的位置为中心,向前和向后各选择l/2个商品构建商品oi的近邻商品集合Γi={g1,g2,...,gk,...,gl},其中gk表示商品oi的第k个近邻商品,k从1到l,l为商品oi的近邻商品总数目;
(4c)对每个商品的好评率,计算经过差分后的差分好评率Di
Figure BDA0002207641510000031
其中Hk为商品oi的第k个近邻商品的好评率;
(5)选择商品集合O中商品的评分数目ri大于用户总数目n的1%的商品构成异常商品候选集,并选择异常商品候选集中拥有最大差分好评率Di的商品oi作为检测结果的输出;
(6)计算每个商品的差评率:
(6a)对商品集合O中的每一个商品oi,统计对每个商品oi有评分行为的用户数ri
(6b)对于商品集合O中的每一个商品oi,计算每个商品的差评率Ci:
Figure BDA0002207641510000032
其中ri_min是商品oi的评分中等于系统最低评分的评分数目,若当前系统允许的评分范围为1到5,ri_min表示商品oi的评分中评分等于1的评分数目;
(7)对每个商品的差评率,计算经过缩放后的缩放差评率Si
Figure BDA0002207641510000033
其中
Figure BDA0002207641510000034
是商品集合O中每个商品拥有的评分数目ri的平均值;
(8)选择商品集合O中商品的评分数目ri大于用户总数目n的1%的商品构成异常商品候选集,并选择异常商品候选集中拥有最大缩放差评率Si的商品oi作为检测结果的输出。
本发明与现有技术相比有以下优点:
第一,本发明由于定义了商品好评率和差评率统计指标,通过这两个指标量化商品获得的高分和低分评分情况。相比于直接使用商品的全部评分进行数值分析,这两个指标能够更直观的体现异常商品数据的差异性,从而能够更好的检测异常商品。
第二,本发明根据评分数目相近的商品在好评率数值上也会比较接近,对于异常高分商品,其好评率数值会与评分数目相近的商品的好评率有较大差异的数值分布特征,定义了差分算子这一操作来平滑好评率数值噪声,放大商品好评率之间的差异性,凸显异常高评分商品的好评率数值异常性,从而进一步提升异常高分商品的检测准确率。
第三,本发明由于根据商品的差评率数值具有幂律分布的特性,定义缩放算子这一操作,让商品的差评率经过缩放后基本分布在同一基准线上。使得异常低评分商品的差评率相较于正常商品的差评率会出现明显的峰值,从而进一步提升异常低评分商品的检测准确率。
第四,本发明中的检测方法由于是基于数据统计指标的,不需要预先人为构造数据训练模型,是一种无监督的检测方法,因此具有更广泛的适用范围。
附图说明
图1是本发明的实现流程图;
图2是本发明中在对每个商品进行恶意打高分行为前后,对定义的好评率与差分好评率的数值区分情况仿真图;
图3是本发明中在对每个商品进行恶意打低分行为前后,对定义的差评率与缩放差评率的数值区分情况仿真图;
图4是本发明检测异常高分商品的结果仿真图;
图5是本发明检测异常低分商品的结果仿真图。
具体实施方式:
以下结合附图对本发明实施例和效果做进一步的详细描述。
参照图1,本发明的具体实现步骤如下:
步骤1,录入数据:
1.1)根据电子商务网站中用户对商品的评分记录,提取网站中用户对于每个商品的具体评分数据;
1.2)用提取数据中的所有商品构成商品集合O={o1,o2,....,oi,...,om},其中oi表示第i个商品,i从1到m,m为商品的总数目;
1.3)用提取数据中的所有用户构成用户集合U={u1,u2,...,uj,...,un},其中uj表示第j个用户,j从1到n,n为用户的总数目。
步骤2,确定本次检测是否是用于检测异常高评分商品。
通常在检测异常商品数据时,可以分为检测异常高评分商品和检测异常低评分商品这两种情况。根据实际需求,确定本次检测的类型,若是检测异常高评分商品数据,则执行步骤3;若不是,则表示本次检测的是异常低评分商品,跳转到步骤6。
步骤3,计算每个商品的好评率:
3.1)对商品集合O中的每一个商品oi,统计对每个商品oi有评分行为的用户数目ri
3.2)对于商品集合O中的每一个商品oi,计算每个商品的好评率Hi:
Figure BDA0002207641510000051
其中ri_max是商品oi的评分中等于系统最高评分的评分数目,若当前系统允许的评分范围为1到5,ri_max表示商品oi的评分中评分等于5的评分数目。
步骤4,计算每个商品的差分好评率。
4.1)根据商品拥有的评分数目ri,降序排序商品的好评率Hi
4.2)在商品按照商品评分数目ri排序的基础上,对于每个商品oi,以自己在商品排序序列中的位置为中心,向前和向后各选择l/2个商品构建商品oi的近邻商品集合Γi={g1,g2,...,gk,...,gl},其中gk表示商品oi的第k个近邻商品,k从1到l,l为商品oi的近邻商品总数目,本实例l等于用户数目n的1%;
4.3)对每个商品的好评率Hi,计算经过差分后的差分好评率Di
Figure BDA0002207641510000052
其中Hk为商品oi的第k个近邻商品的好评率。
步骤5,根据计算的差分好评率,确定异常高评分商品。
选择商品集合O中商品的评分数目ri大于用户总数目n的1%的商品构成异常商品候选集,并选择异常商品候选集中拥有最大差分好评率的商品作为检测结果的输出。
步骤6,计算每个商品的差评率:
6.1)对商品集合O中的每一个商品oi,统计对每个商品oi有评分行为的用户数ri
6.2)对于商品集合O中的每一个商品oi,计算每个商品的差评率Ci:
Figure BDA0002207641510000061
其中ri_min是商品oi的评分中等于系统最低评分的评分数目,若当前系统允许的评分范围为1到5,ri_min表示商品oi的评分中评分等于1的评分数目。
步骤7,对每个商品的差评率Ci,计算经过缩放后的缩放差评率Si
Figure BDA0002207641510000062
其中
Figure BDA0002207641510000063
是商品集合O中每个商品拥有的评分数目ri的平均值;
步骤8,根据计算的缩放差评率,确定异常低评分商品。
选择商品集合O中商品的评分数目ri大于用户总数目n的1%的商品构成异常商品候选集,并选择异常商品候选集中拥有最大缩放差评率的商品作为检测结果的输出。
下面结合仿真实验对本发明的效果做进一步的说明。
1.仿真条件:
本发明的仿真实验采用的是电子商务领域常用的数据集MovieLens-100K,包括943个用户对1682个商品的100000条评分数据,评分范围为1到5。
2.仿真内容与结果分析:
仿真1:对本发明定义的好评率与差分算子对异常高评分商品的数据区分效果做进一步说明。
首先,在输入MovieLens-100K数据集的基础上,用本发明中检测异常高评分商品的方法,计算在原始数据上,每一个商品的原始好评率和原始差分好评率数值;
接着,对每个商品都模拟进行恶意打高分这一行为,即对每个商品都随机选择系统用户数目943的3%个还未对该商品打分的用户,并为这些用户添加对该商品的打分,分值为系统最高评分,即5分;
再次,使用本发明中检测异常高评分商品的方法,计算在采取恶意打高分这一行为后每个商品的好评率和差分好评率的数值;
最后,将在采取恶意打高分这一行为前后商品的好评率和差分好评率的数值,对比作图,结果如图2(a)和图2(b)所示。其中:
图2(a)表示的是每个商品在随机选择系统用户数目的3%个还未对该商品打分的用户进行恶意打高分行为前后商品的好评率数值分布图,图2(a)的横坐标表示商品在原始数据集中拥有的评分数目,纵坐标表示商品的好评率数值,灰色线标示的是在进行恶意打高分行为前商品的好评率数值分布曲线,黑色线标示的是在进行恶意打高分行为后商品的好评率数值分布曲线。
图2(b)表示的是每个商品在随机选择系统用户数目的3%个还未对该商品打分的用户进行恶意打高分行为前后的差分好评率数值分布图,横坐标表示商品在原始数据集中拥有的评分数目,纵坐标表示商品的差分好评率数值,灰色线标示的是在进行恶意打高分行为前商品的差分好评率数值分布曲线,黑色线标示的是在进行恶意打高分行为后商品的差分好评率数值分布曲线。
从图2(a)中可以看出,评分数目相近的商品在好评率数值上也会比较接近,当出现恶意打高分行为时,对于异常高分商品,其好评率数值会与评分数目相近的商品的好评率数值有较大差异。这反映出了好评率指标能够定量描述商品获得高评分的情况,且当有恶意打高分行为时该指标具有很好的区分性。对比图2(a)与图2(b)中的曲线可以看出,差分算子能够很好的平滑好评率数值中的噪声,并且能够放大商品好评率之间的差异性,凸显异常高评分商品的好评率数值异常性。在实际场景中,恶意打高分行为往往出现在评分较差或尚未有太多评论数目的商品中,即为图2曲线中的后半部分。对于这一部分的数据,从图2中可以清楚地看到,本发明定义的好评率指标以及差分算子,能够很好的区分异常高评分商品数据与正常商品数据。
仿真2:对本发明定义的差评率与缩放算子对异常低评分商品的数据区分效果做进一步说明。
首先,在输入MovieLens-100K数据集的基础上,用本发明中检测异常低评分商品的方法,计算在原始数据上,每一个商品的原始差评率和原始缩放差评率数值;
接着,对每个商品都模拟进行恶意打低分这一行为,即对每个商品都随机选择系统用户数目943的3%个还未对该商品打分的用户,并为这些用户添加对该商品的打分,分值为系统最低评分,即1分;
再次,使用本发明中检测异常低评分商品的方法,计算在采取恶意打低分这一行为后每个商品的差评率和缩放差评率的数值;
最后,将在采取恶意打低分这一行为前后商品的差评率和缩放差评率的数值,对比作图,结果如图3(a)和图3(b)所示。其中:
图3(a)表示的是每个商品在随机选择系统用户数目的3%个还未对该商品打分的用户进行恶意打低分行为前后的差评率数值分布图,横坐标表示商品在原始数据集中拥有的评分数目,纵坐标表示差评率数值,灰色线标示的是在进行恶意打低分行为前商品的差评率数值分布曲线,黑色线标示的是在进行恶意打低分行为后商品的差评率数值分布曲线。
图3(b)表示的是每个商品在随机选择系统用户数目的3%个还未对该商品打分的用户进行恶意打低分行为前后的缩放差评率数值分布图,横坐标表示商品在原始数据集中拥有的评分数目,纵坐标表示商品的缩放差评率数值,灰色线标示的是在进行恶意打低分行为前商品的缩放差评率数值分布曲线,黑色线标示的是在进行恶意打高分行为后商品的缩放差评率数值分布曲线。
从图3(a)中可以看出,在采取恶意打低分行为前后,商品的差评率数值会出现明显的变化,这反映出了本发明定义的差评率指标能够定量的描述商品获得低评分的情况,且对于异常低评分商品该指标具有很好的区分性。同时,还可以发现商品的评论数越多差评率越低,评论数越少差评率越高这一现象,即商品的差评率数值具有幂律分布特性。对比图3(a)与图3(b)中的曲线可以看出,商品的差评率经过缩放算子后基本分布在同一基准线上,且异常低评分商品的缩放差评率相较于正常商品会出现明显的峰值。这体现出了本发明定义的缩放算子能够很好的消除商品差评率数值的幂律分布特性对于检测结果的影响,并且能够更进一步凸显异常低评分商品的数据异常性。在实际场景中,恶意打低分行为往往出现在评分较高或评论数目较多的商品中,即为图3曲线中的前半部分。对于这一部分的数据,从图3中可以清楚地看到,本发明定义的差评率指标以及缩放算子,能够很好的区分异常低评分商品数据与正常商品数据。
仿真3:对本发明方法与基于聚类的检测方法KNN、基于决策树的检测方法C4.5这两个异常数据检测方法进行异常高评分商品数据的检测效果做进一步说明。
首先,在输入MovieLens-100K数据集的基础上,随机从商品集合中选择50个商品作为将要采取恶意打高分行为的商品集合。每次检测将从要采取恶意打高分行为的商品集合中取出一个商品作为本次进行恶意打高分商品,按照指定的参与恶意打高分行为的用户数量,从用户集合中随机选择还未对该商品打分的用户,并为这些用户添加对该商品的打分,分值为5,即好评;
随后,运用本发明方法对经过改变后的数据集进行检测得到检测结果;
最后,对比本发明方法输出的异常商品与前述步骤中选出的进行恶意打高分行为的商品是否一致,如果一致则记为1,即检测正确,否则记为0,即检测错误,进而得到本发明方法在这50个商品上的检测正确比率,正确率越高,证明检测的越准确。
在本仿真实验中,依次测试从1%的系统用户数目参与恶意打高分行为,以1%递增,到10%的系统用户数目参与恶意打高分行为时方法的检测正确率,结果如图4所示。其中:
横坐标表示参与恶意打高分行为的用户数目占系统总用户数目的比重,从1%以1%为步长递增到10%,纵坐标表示方法检测异常高评分商品的检测正确率,圆形标示的曲线表示基于聚类的检测方法KNN的检测正确率曲线,三角形标示的曲线表示基于决策树的检测方法C4.5的检测正确率曲线,方块标示的曲线表示本发明方法的检测正确率曲线。
从图4中可以看出,本发明方法的正确率曲线始终位于基于聚类的检测方法KNN和基于决策树的检测方法C4.5的正确率曲线上方,说明本发明方法能够更加准确的检测出异常高分商品数据。同时,当参与恶意打高分的用户数量不是很多时,如系统总用户数目的1%到2%时,本发明方法的正确率远高于基于聚类的检测方法KNN和基于决策树的检测方法C4.5,表示本发明方法对于异常高评分商品具有较高的数据敏感性,能够较早的检测出数据中的异常,从另一个方面说明了本发明方法的有效性。
仿真4:对本发明方法与基于聚类的检测方法KNN、基于决策树的检测方法C4.5这两个异常数据检测方法进行异常低评分商品数据的检测效果做进一步说明。
首先,在输入MovieLens-100K数据集的基础上,随机从商品集合中选择50个商品作为将要采取恶意打低分行为的商品集合。每次检测将从要采取恶意打低分行为的商品集合中取出一个商品作为本次进行恶意打低分商品,按照指定的参与恶意打低分行为的用户数量,从用户集合中随机选择还未对该商品打分的用户,并为这些用户添加对该商品的打分,分值为1,即差评;
随后,运用本发明方法对经过改变后的数据集进行检测得到检测结果;
最后,对比本发明方法输出的异常商品与前述步骤中选出的进行恶意打低分行为的商品是否一致,如果一致则记为1,即检测正确,否则记为0,即检测错误。进而得到本发明方法在这50个商品上的检测正确比率,正确率越高,证明检测的越准确。
在本仿真实验中,依次测试从1%的系统用户数目参与恶意打低分行为,以1%递增,到10%的系统用户数目参与恶意打低分行为时方法的检测正确率,结果如图5所示。其中:
横坐标表示参与恶意打低分行为的用户数目占系统总用户数目的比重,从1%以1%为步长递增到10%,纵坐标表示方法检测异常低评分商品的检测正确率,圆形标示的曲线表示基于聚类的检测方法KNN的检测正确率曲线,三角形标示的曲线表示基于决策树的检测方法C4.5的检测正确率曲线,方块标示的曲线表示本发明方法的检测正确率曲线。
从图5中可以看出,本发明方法的正确率曲线始终位于基于聚类的检测方法KNN和基于决策树的检测方法C4.5的正确率曲线上方,说明本发明方法能够更加准确的检测出异常低分商品数据。同时,当参与恶意打低分的用户数量不是很多时,如系统总用户数目的1%到2%时,本发明方法的正确率远高于基于聚类的检测方法KNN和基于决策树的检测方法C4.5,表示本发明方法对于异常低评分商品具有较高的数据敏感性,能够较早的检测出数据中的异常,从另一个方面说明了本发明方法的有效性。

Claims (1)

1.一种基于商品好评和差评率的无监督异常商品数据检测方法,其特征在于,包括如下:
(1)录入数据:
根据电子商务网站中用户对商品的评分记录,提取每个商品的评分数据,用提取数据中的所有商品构成商品集合O={o1,o2,....,oi,...,om},用提取数据中的所有用户构成用户集合U={u1,u2,...,uj,...,un},其中oi表示第i个商品,i从1到m,m为商品的总数目,uj表示第j个用户,j从1到n,n为用户的总数目;
(2)确定本次检测是否是检测异常高评分商品:若是,则执行步骤(3);若不是,则表示本次检测的是异常低评分商品,跳转到步骤(6);
(3)计算每个商品的好评率:
(3a)对商品集合O中的每一个商品oi,统计对每个商品oi有评分行为的用户数ri
(3b)对于商品集合O中的每一个商品oi,计算每个商品的好评率Hi:
Figure FDA0002207641500000011
其中ri_max是商品oi的评分中等于系统最高评分的评分数目,若当前系统允许的评分范围为1到5,ri_max表示商品oi的评分中评分等于5的评分数目;
(4)计算每个商品的差分好评率:
(4a)根据商品拥有的评分数目ri,降序排序商品的好评率Hi
(4b)在商品按照商品评分数目ri排序的基础上,对于每个商品oi,以自己在商品排序序列中的位置为中心,向前和向后各选择l/2个商品构建商品oi的近邻商品集合Γi={g1,g2,...,gk,...,gl},其中gk表示商品oi的第k个近邻商品,k从1到l,l为商品oi的近邻商品总数目;
(4c)对每个商品的好评率,计算经过差分后的差分好评率Di
Figure FDA0002207641500000021
其中Hk为商品oi的第k个近邻商品的好评率;
(5)选择商品集合O中商品的评分数目ri大于用户总数目n的1%的商品构成异常商品候选集,并选择异常商品候选集中拥有最大差分好评率Di的商品oi作为检测结果的输出;
(6)计算每个商品的差评率:
(6a)对商品集合O中的每一个商品oi,统计对每个商品oi有评分行为的用户数ri
(6b)对于商品集合O中的每一个商品oi,计算每个商品的差评率Ci:
Figure FDA0002207641500000022
其中ri_min是商品oi的评分中等于系统最低评分的评分数目,若当前系统允许的评分范围为1到5,ri_min表示商品oi的评分中评分等于1的评分数目;
(7)对每个商品的差评率,计算经过缩放后的缩放差评率Si
Figure FDA0002207641500000023
其中
Figure FDA0002207641500000024
是商品集合O中每个商品拥有的评分数目ri的平均值;
(8)选择商品集合O中商品的评分数目ri大于用户总数目n的1%的商品构成异常商品候选集,并选择异常商品候选集中拥有最大缩放差评率Si的商品oi作为检测结果的输出。
CN201910887119.8A 2019-09-19 2019-09-19 基于商品好评和差评率的无监督异常商品数据检测方法 Active CN110648173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910887119.8A CN110648173B (zh) 2019-09-19 2019-09-19 基于商品好评和差评率的无监督异常商品数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910887119.8A CN110648173B (zh) 2019-09-19 2019-09-19 基于商品好评和差评率的无监督异常商品数据检测方法

Publications (2)

Publication Number Publication Date
CN110648173A CN110648173A (zh) 2020-01-03
CN110648173B true CN110648173B (zh) 2023-04-07

Family

ID=68992011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910887119.8A Active CN110648173B (zh) 2019-09-19 2019-09-19 基于商品好评和差评率的无监督异常商品数据检测方法

Country Status (1)

Country Link
CN (1) CN110648173B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006129792A1 (ja) * 2005-06-02 2006-12-07 Nec Corporation 異常検出方法およびシステム、並びに、保全方法およびシステム
CN104766175A (zh) * 2015-04-16 2015-07-08 东南大学 一种基于时间序列分析的电力系统异常数据辨识与修正方法
CN106599154A (zh) * 2016-12-07 2017-04-26 国云科技股份有限公司 一种产品排名方法
CN106779468A (zh) * 2017-01-03 2017-05-31 国网江苏省电力公司电力科学研究院 一种用户用电需求响应动态建模与响应不确定性评估方法
CN106951514A (zh) * 2017-03-17 2017-07-14 合肥工业大学 一种考虑品牌情感的汽车销量预测方法
CN107392718A (zh) * 2017-07-26 2017-11-24 四川长虹电器股份有限公司 商品推荐方法
CN108648038A (zh) * 2018-04-13 2018-10-12 上海电机学院 一种基于子图挖掘的信用炒作与恶意评价识别方法
CN108665339A (zh) * 2018-03-27 2018-10-16 北京航空航天大学 一种基于主观情感测度的电商产品可靠性指标及其实现方法
CN109034400A (zh) * 2018-05-29 2018-12-18 国网天津市电力公司 一种变电站异常量测数据预测平台系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485507B (zh) * 2015-09-01 2019-10-18 阿里巴巴集团控股有限公司 一种软件推广作弊的检测方法、装置及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006129792A1 (ja) * 2005-06-02 2006-12-07 Nec Corporation 異常検出方法およびシステム、並びに、保全方法およびシステム
CN104766175A (zh) * 2015-04-16 2015-07-08 东南大学 一种基于时间序列分析的电力系统异常数据辨识与修正方法
CN106599154A (zh) * 2016-12-07 2017-04-26 国云科技股份有限公司 一种产品排名方法
CN106779468A (zh) * 2017-01-03 2017-05-31 国网江苏省电力公司电力科学研究院 一种用户用电需求响应动态建模与响应不确定性评估方法
CN106951514A (zh) * 2017-03-17 2017-07-14 合肥工业大学 一种考虑品牌情感的汽车销量预测方法
CN107392718A (zh) * 2017-07-26 2017-11-24 四川长虹电器股份有限公司 商品推荐方法
CN108665339A (zh) * 2018-03-27 2018-10-16 北京航空航天大学 一种基于主观情感测度的电商产品可靠性指标及其实现方法
CN108648038A (zh) * 2018-04-13 2018-10-12 上海电机学院 一种基于子图挖掘的信用炒作与恶意评价识别方法
CN109034400A (zh) * 2018-05-29 2018-12-18 国网天津市电力公司 一种变电站异常量测数据预测平台系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钟婧.基于虚假评论检测的评论可视化系统的研究与实现.中国优秀硕士学位论文全文数据库 (信息科技辑).2019,(第undefined期),I138-1239. *

Also Published As

Publication number Publication date
CN110648173A (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN109711955B (zh) 基于当前订单的差评预警方法、系统、黑名单库建立方法
CN110009372B (zh) 一种用户风险识别方法和装置
CN105069072B (zh) 基于情感分析的混合用户评分信息推荐方法及其推荐装置
Dematis et al. Fake review detection via exploitation of spam indicators and reviewer behavior characteristics
CN105389505B (zh) 基于栈式稀疏自编码器的托攻击检测方法
CN107153656B (zh) 一种信息搜索方法和装置
CN109783734A (zh) 一种基于项目属性的混合协同过滤推荐算法
CN108648038B (zh) 一种基于子图挖掘的信用炒作与恶意评价识别方法
Kommineni et al. Machine learning based efficient recommendation system for book selection using user based collaborative filtering algorithm
CN108921604A (zh) 一种基于代价敏感分类器集成的广告点击率预测方法
CN108415913A (zh) 基于不确定邻居的人群定向方法
CN111612340A (zh) 基于大数据的网销商品检验抽样方法
CN108229826A (zh) 一种基于改进贝叶斯算法的网购风险等级评估方法
CN111681084A (zh) 一种基于社交关系影响因素的电商平台推荐方法
CN117788122B (zh) 一种基于异质图神经网络商品推荐方法
CN107133811A (zh) 一种目标用户的识别方法和装置
Kumar et al. A novel fuzzy rough sets theory based CF recommendation system
CN113837844A (zh) 一种多级联下游企业推荐系统、方法及可存储介质
CN105427050A (zh) 一种基于信任度模型的食品质量评估方法
CN110648173B (zh) 基于商品好评和差评率的无监督异常商品数据检测方法
CN111047148A (zh) 一种基于强化学习的虚假评分检测方法
CN108960954B (zh) 一种基于用户群行为反馈的内容推荐方法及推荐系统
CN111507804B (zh) 基于混合信息融合的情感感知商品推荐方法
CN111859146B (zh) 信息挖掘方法、装置及电子设备
CN109559169B (zh) 一种基于在线用户评分的敏锐用户识别的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant