CN113627960A

CN113627960A - 水军群组检测方法及其装置

Info

Publication number: CN113627960A
Application number: CN202010372504.1A
Authority: CN
Inventors: 纪淑娟; 张琪; 李金鹏; 许少华; 伊磊; 公茂果
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2021-11-09
Also published as: WO2021223275A1; WO2021223275A8

Abstract

本发明提供一种水军群组检测方法，该检测方法包括：获取网络中的评论数据信息，所述评论数据信息包括：评论产品、评论者、评论时间以及评论者对评论产品的评分；基于所述评论数据信息识别水军群组所攻击的目标产品；基于所识别出的目标产品生成候选水军群组。根据本申请的水军群组检测方法通过定位被水军群组攻击的目标产品来检测攻击每个目标产品的水军群组，可以大大提高检测水军群组的时间和空间效率。

Description

水军群组检测方法及其装置

技术领域

本申请涉及网络安全领域，更具体地说，涉及一种水军群组检测方法及其装置。

背景技术

在电子商务交易中，在线商品评论对用户的购买决策有重要的影响。用户一般倾向于购买交易量大、正面评论较多的产品，而不是负面评论较多的产品。因此，为了冲交易量、抬高或降低某产品的信誉、赚取更多利润，很多商家往往会雇佣虚假评论者发布大量赞美自家商品或诋毁竞争对手商品的不实评论。水军群组，是指那些有组织地协同发布虚假评论的一群人。相比水军个体，水军群组影响力更大。这是因为，水军群组规模更大，能够有组织地进行造假活动，甚至能完全控制一个产品的舆论，进而误导买方的购买决策、导致电子商务信誉系统失真、影响电商平台中卖方之间的公平竞争、降低交易环境的可信度，最终影响电子商务企业甚至整个行业的可持续发展。因此，挖掘与发现水军群体具有重要的意义。

自Jindal和Liu首次提出虚假评论(虚假评论者)检测问题以来，越来越多的研究者开始关注该问题，并作出了很多相关研究，包括基于机器学习的算法，基于概率的算法，基于行为特征的算法，基于图的算法和基于规则的算法。近年来，水军群组的检测问题吸引了越来越多的关注。

现有的水军群组检测算法可分为基于频繁项挖掘(FIM)的算法和基于拓扑图的算法。基于FIM的算法假设同一水军群组的成员倾向于为同一产品或服务共同编写虚假评论，即所谓的共评论。他们利用频繁项挖掘技术(FIM)生成候选水军群组，然后构建模型对群组的可疑度进行排序，以发现真正的水军群组。然而，共评论不一定意味着共同造假(即多人协同作业，对同一目标产品进行造假活动)。随着推荐系统性能的提高，许多消费者可能会购买相同的产品或使用同样的服务。也就是说，共评论不够可靠，容易将正常评论者误判为水军。

并且，基于频繁项目挖掘(FIM)的算法，将共同评论过相同产品的评论者作为一个候选群组。频繁项目挖掘的强度影响着FIM的可靠性。如果设置的强度太高(例如设置共评论产品数大于5)，会产生一个非常紧密的群组，挖掘到的群组会大大减少。相反，如果强度太低，得到的候选群组中会包含许多正常评论者，而且这些算法并没有考虑过滤候选群组中的正常评论者。

基于拓扑图的算法建模了评论者之间的关系(在早期的研究中使用了无向图，现在经常采用有向带权图)，并根据图划分算法或社区划分算法对它们进行分群组。一般来说，基于拓扑图的算法首先通过评论者的关系特征(如共评论)来构建评论者的拓扑图，然后使用图划分算法，聚类算法等等生成候选水军群组。由于评论者关系图是基于评论数据元数据构建的，因此随着评论数据的迅速增加，评论者关系图的构建和处理需要较高的时间复杂度和空间复杂度。特别是，在基于图的算法中，候选水军群组通常是通过像min-cut这样的图划分算法生成的。但是，这些由图划分算法人工划分的群组，可能与实际的水军群组并不符。

发明内容

为了解决上述问题，本发明提供一种水军群组检测方法及其装置，通过该方法和装置不但能够提高检测效率，而且能够更好地过滤掉真实的(或无辜的)评论者，从而更准确地定位水军群组。

为了实现上述目的，提供一种水军群组检测方法，所述检测方法包括：获取网络中的评论数据信息，所述评论数据信息包括：评论产品、评论者、评论时间以及评论者对评论产品的评分；基于所述评论数据信息识别水军群组所攻击的目标产品；基于所识别出的目标产品生成候选水军群组。

进一步地，基于所述评论数据信息识别水军群组所攻击的目标产品包括：基于所述评论者对评论产品的评分计算产品评分分布异常值和产品平均分分布异常值；以及通过所述产品评分分布异常值和产品平均分分布异常值计算水军群组所攻击的目标产品的可疑值，并将所述可疑值与设定的目标产品可疑值的阈值进行比较，根据比较结果识别水军群组所攻击的目标产品

进一步地，所述基于所识别出的目标产品生成候选水军群组包括：利用核密度估计方法获取所识别出的目标产品的评论爆发区，所述评论爆发区是所识别出的目标产品的评论在短时间内激增的区域；获取所述评论爆发区中的评论者，生成候选水军群组。

进一步地，所述检测方法还包括：计算所述候选水军群组的群组造假值，将所述候选水军群组的群组尺寸与设定值进行比较，并且将所述群组造假值与设定的水军群组造假指标的阈值进行比较，根据比较结果输出候选水军群组，其中，所述群组造假值用于衡量水军群组造假程度，所述群组尺寸用于表示水军群组中评论者的数量。

进一步地，在计算所述候选水军群组的群组造假值，将所述候选水军群组的群组尺寸与设定值进行比较，并且将所述群组造假值与设定的水军群组造假指标的阈值进行比较，根据比较结果输出候选水军群组之前，所述检测方法还包括：计算每个候选水军群组的每个评论者的个体造假值，并将所述个体造假值与设定的水军个体造假指标的阈值进行比较，根据比较结果剔除可疑度低的评论者，获得净化后的候选群组，其中，所述个体造假值用于衡量评论者造假程度。

进一步地，通过如下公式计算水军群组所攻击的目标产品的可疑值S_TP(p)：

ST_P(p)＝ωS_avg(p)+(1-ω)S_ext(p)

其中，p表示水军群组所攻击的目标产品，S_avg(p)为所述产品平均分分布异常值，S_ext(p)为所述产品评分分布异常值，ω是用于平衡S_avg(p)和S_ext(p)权重因子，取值范围在0到1之间。

进一步地，利用核密度估计方法获取所识别出的目标产品的评论爆发区包括：计算所识别出的目标产品的生命周期；利用核密度估计方法对所识别出的目标产品的评论和评论所对应的评论时间序列进行建模；设置时间窗口尺寸，将所识别出的目标产品的生命周期分割成多个子时间窗口；选取每个子时间窗口的上界和所述子时间窗口内评论数目作为样本点；根据

计算核密度估计值，获取针对所识别出的目标产品的评论数目的极值点集；计算每个子时间窗口的平均评论数，其中，所述平均评论数＝总评论数/所述子时间窗口的数量；以及判断所获得极值点集中的极值点所在的子时间窗口中的评论数是否大于平均评论数且大于1，根据判断结果获取所述评论爆发区，其中，所述评论爆发区为所获得极值点集中大于平均评论数且大于1的极值点所对应时间加上或减去设定天数所形成的区域。

进一步地，通过如下公式获得所述群组造假值GSS(g)：

其中，g表示由评论者所形成的群组，GTW(g)为群组时间窗，GRD(g)为群组评分偏差，GS(g)为所述群组尺寸，GRT(g)为群组评论紧密性，GOR(g)为群组一天评论数，GER(g)为群组极端评分比例，GCA(g)为群组共活跃程度，GCAR(g)为群组共活跃期评论占比，

所述GTW(g)用于衡量群组的活跃程度；

所述GRD(g)用于反映群组的评分偏离目标产品的平均评分的程度；

所述GRT(g)用于衡量群组成员合作撰写虚假评论的紧密程度；

所述GOR(g)用于反映一个群组一天发布的评论数量；

所述GER(g)表示群组成员极端评分比例的平均值；

所述GCA(g)用于表示群组成员在一定时间内共同活跃的程度；

所述GCAR(g)用于表示群组在共同活跃期间发布的针对目标产品的评论占群组总评论的比例。

进一步地，通过如下公式获得所述个体造假值ISS(a)：

其中，a表示评论者，EXR(a)为极端评分比例，RD(a)为评分偏差；MRO(a)为一天最大评论数，RTI(a)为评论时间间隔，AD(a)为账户生存周期，ATR(a)为活跃时期评论占比，

所述EXR(a)表示极端评分的数量占评论者评述总数的比例；

所述RD(a)反映评论者的评分偏离产品整体评分的程度；

所述MRO(a)反映一个评论者单天发布评论的最大数量；

所述RTI(a)用于表示一个评论者发布评论的时间间隔长短；

所述AD(a)用于表示评论者发布的第一条与最后一条评论之间的时间间隔；

所述ATR(a)用于衡量评论者活跃时期评论的数目与总评论数目的关系。

根据本申请的另一方面，提供一种水军群组检测装置，所述检测装置包括：数据信息获取模块，所述数据信息获取模块获取网络中的评论数据信息，所述评论数据信息包括：评论产品、评论者、评论时间以及评论者对评论产品的评分；异常值计算模块，所述异常值计算模块基于所述评论者对评论产品的评分计算产品评分分布异常值和产品平均分分布异常值；目标产品识别模块，所述目标产品识别模块通过所述产品评分分布异常值和产品平均分分布异常值计算水军群组所攻击的目标产品的可疑值，并将所述可疑值与设定的目标产品可疑值的阈值进行比较，根据比较结果识别水军群组所攻击的目标产品；以及候选水军群组生成模块，所述候选水军群组生成模块基于所识别出的目标产品生成候选水军群组。

根据本申请的又一方面，提供一种计算机设备，包括存储器及处理器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述水军群组检测方法的步骤。

根据本申请的再一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述水军群组检测方法的步骤。

本申请的水军群组检测方法通过定位被水军群组攻击的目标产品来检测攻击目标产品的水军群组，可以大大提高检测水军群组的时间和空间效率。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本申请的水军群组检测方法的流程图；

图2示出了根据本申请的评论爆发的示意图；

图3出了根据本申请一实施例的利用核密度估计方法获取所识别出的目标产品的评论爆发区的流程图；

图4示出了根据本申请一优选实施例的水军群组检测方法的流程图；

图5a至图5f示出了由GSBC与根据本申请的GSDB分别生成的前500个水军群组的个体造假指标的CDF曲线的对比图；

图6a至图6i示出了由GSBC与根据本申请的GSDB分别生成的前500个水军群组的水军群组造假行为指标的CDF曲线及所有群组指标的平均值曲线的对比图；

图7示出了由GSBC与根据本申请的GSDB分别生成的前500个群组的尺寸对比图；

图8a至图8c示出了GSBC与根据本申请的GSDB在前n个群组上的对比图。

图9示出根据本申请的水军群组检测装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

根据本申请，提供一种水军群组检测方法，所述检测方法包括：获取网络中的评论数据信息，所述评论数据信息包括：评论产品、评论者、评论时间以及评论者对评论产品的评分；基于所述评论数据信息识别水军群组所攻击的目标产品；基于所识别出的目标产品生成候选水军群组。

根据本申请的水军群组检测方法通过定位被水军群组攻击的目标产品来检测攻击每个目标产品的水军群组，可以大大提高检测水军群组的时间和空间效率。

在挖掘与发现水军群组过程中，需要一系列有效的指标(或称特征)来评价个体的可疑性以及群体的可疑性。因此，在大数据分析的基础上，本申请通过以下数据特征作为评价水军个体和水军群组可疑度的指标。

下面详细介绍个体造假行为指标和群组造假行为指标。

本申请中通过极端评分比例(EXR)、评分偏差(RD)、一天最大评论数(MRO)、评论时间间隔(RTI)、账户生存周期(AD)和活跃时期评论占比(ATR)来反映个体造假行为指标。

极端评分比例(EXR)反映了极端评分的数量占评论者评分总数的比率。EXR越高，越可疑。在五星级尺度上，EXR(a)的计算公式如下：

其中，R_a是评论者a的评分集合，r_a是集合R_a的元素。

评分偏差(RD)反映评论者的评分偏离产品整体评分的程度。评论者的整体评分能够反映一个产品的基本情况。RD越高，越可疑。RD(a)的计算公式如下：

其中，r_ap是评论者a对产品p的评分，

是产品p的平均评分。本申请通过除以4进行归一化，也就是采用在五分制下最大的评分偏差。

一天最大评论数(MRO)反映一个评论者单天发布评论的最大数量，并以所有评论者中的最大值对其进行归一化。MRO越高，越可疑。MRO(a)的计算公式如下：

其中，MaxRev(a)是评论者a一天评论的最大数，A为评论者集合。

评论时间间隔(RTI)用于表示一个评论者发布评论的时间间隔的长短，其反映了一个评论者的活跃程度。RTI越高，越可疑。RTI(a)的计算公式如下：

其中，T^a是评论者a的评论时间序列,

是T^a的第l个元素,ρ是时间间隔(也可以称为时间窗)的阈值，对于该时间间隔的阈值可以根据数据量来选择，数据量大的话，可以选择相对小的值，数据量少的话，可以选择相对大的值。

账户生存周期(AD)用于表示评论者发布的第一条与最后一条评论之间的时间间隔。AD越高，越可疑。AD(a)的计算公式如下：

其中，

和

分别是评论者a发布第一条及最后一条评论的时间,t_data是整个数据集的时间跨度。

活跃时期评论占比(ATR)用来衡量评论者活跃时期评论的数目与总评论数目的关系。按事物发展规律，真实评论者发布评论是由需求决定的，因此发布时间和数量具有很大随机性，而水军发布的时间和数量具有活跃期，即通常在短时间内发布大量假评论。ATR越大，越可疑。ATR(a)的计算公式如下：

ActiveTimePeriod(a)表示评论者a在活跃期发布的评论集合,R_a是评论者a发布的针对所有产品的全部评论集合。

并且，根据本申请，设定上述6个指标的平均值作为衡量评论者造假程度的个体造假值(ISS)，计算公式如下：

本申请中通过群组时间窗(GTW)、群组评分偏差(GRD)、群组尺寸(GS)、群组评论紧密性(GRT)、群组一天评论数(GOR)、群组极端评分比例(GER)、群组共活跃(GCA)、群组共活跃期评论占比(GCAR)来反映群组造假行为指标。

时间窗口(TW)通常被用来衡量水军群组的活跃程度。本申请中设置群组时间窗(GTW)来衡量水军群组的活跃程度，该指标由Mukherjee等人最早提出，其考虑了第一次评论时间和最后一次评论时间之间的间隔。相比之下，Wang等人使用群组成员评论时间的标准差来衡量群组整体评论时间的分布。

本申请设置了一个时间窗口的阈值，将低于该阈值的时间窗口认为是活跃窗口，然后计算活跃窗口的活跃度。GTW越高，越可疑。其计算公式如下：

SD^g _p是群组g中成员对产品p评论时间的标准差，该标准差根据标准的标准差计算公式计算出来的，用于观察群组成员对某一目标产品的评论时间是否集中，如果评论时间集中，则数据分布集中，相应的标准差就小，就比较可疑。

T是用户自定义的时间窗阈值，用于评价一个群组的评论时间是否集中，一般该阈值会设置的大一些，诸如30天。个体造假行为指标中的ρ是针对一个评论者个体的评论时间间隔设置的，阈值一般设置的比较小，诸如7天。当然，可以根据实际需要设置个体造假行为指标中的ρ和群组造假行为指标中的T。

p∈P_g,P_g是群组g的目标产品集，指的是至少被群组g中半数以上的成员共同评论过的产品的集合。

群组评分偏差(GRD)用于反映群组的评分偏离目标产品的平均评分的程度。GRD越高，越可疑。GRD(g)的计算公式如下：

r_ap是群组g中的用户a对产品p的评分,

是产品p的平均分,p∈P_g,P_g是群组g的目标产品集，指的是至少被群组g中半数以上的成员共同评论过的产品的集合。RD_p(g)计算了群组g对目标产品p的评分偏差。需要注意的是，本申请通过除以4进行归一化，这是五分评分体系下的最大评分偏差。GRD(g)取群组g对所有目标产品评分偏差的平均值。

群组尺寸(GS)表示水军群组中评论者的数量，用于反映群组的大小。一个群组规模越大，这个群组就越可疑和有害。这是因为小群组往往是由偶然形成的，大群组一般是在一定目标驱使下形成的。GS(g)的计算公式如下：

其中，R_g表示群组g中的成员集合，|R_g|表示群组g中成员的数量。

群组评论紧密性(GRT)用来衡量群组成员合作撰写虚假评论的紧密程度。其中，GRT(g)的计算方式如下：

其中，Vg是指群组里对该群组评论的目标产品的评论集合。

群组一天评论数(GOR)关注一个群组一天发布的评论数量。如果群组成员经常在一天之内发布许多评论，则该群组十分可疑。Mukherje等人估计称，水军通常一天至少发布6篇评论，而正常评论者通常只会发布1-2篇评论。

本申请中，通过计算群组成员发布的评论数量超过5的天数，然后取群组成员的平均值作为群组一天评论数。GOR(g)的计算公式如下：

T^a是群组成员a的所有评论日期的集合,t^a是T^a的元素,CountRev(t^a)表示群组成员a在日期t^a发布的评论数量。.

群组极端评分比例(GER)定义为群组成员极端评分比例的平均值，计算公式如下：

R_a是群组成员a的评论集合,r_a是R_a的元素。

群组成员在短时间内一起发布评论可以被认为是一个可疑的共活跃造假活动。群组共活跃(GCA)用于表示群组成员在一时间内共同活跃的次数或程度，并利用logistic函数进行归一化。GCA(g)计算公式如下：

CA_g是满足群组所有成员在δ天内共同发布评论的共活跃时间集合，其中，δ是设定的阈值，诸如，群组连续5天共同活跃。|CA_g|即为群组g满足共活跃的时间段的数目，单位为天。

群组共活跃期评论占比(GCAR)用于表示群组在活跃期间发布的针对目标产品的评论占群组总评论的比例。群组具有较大的共活跃比例，且在共活跃期间发布了大量的评论，揭示了一种可疑的造假行为。GCAR越高，群组越可疑。GCAR(g)的计算公式如下：

表示群组g在共活跃时间内发布的评论集合。

本申请取上述8个指标的平均值作为衡量群组造假程度的群组造假值(GSS)，计算公式如下：

根据本申请，选取上述数据特征作为评价水军个体和水军群组可疑度指标，从而基于所获取的可疑度指标来确认候选水军群组。

下面将详细描述根据上述指标特征检测水军或水军群组的方法。

本申请通过从产品的角度来发现候选水军群组，即，通过先获取被水军攻击的目标产品，然后基于目标产品发现候选水军群组。

图1示出了根据本申请的水军群组检测方法的流程图。

如图1所示，水军群组检测方法包括：

S101：获取网络中的评论数据信息，其中，评论数据信息包括：评论产品、评论者、评论时间以及评论者对评论产品的评分；

S102：基于评论数据信息识别水军群组所攻击的目标产品；

一个产品是否被水军攻击可以由产品的异常评分分布，诸如，产品正常平均分、异常平均分、正常所有评分、异常所有评分，反映出来。本申请结合产品的评分分布异常及产品平均分分布异常，计算目标产品的异常值来检测目标产品。

具体地，根据本申请的一优选实施例，基于评论数据信息识别水军群组所攻击的目标产品可以通过以下方式实现：

S1021：基于评论者对评论产品的评分来计算产品评分分布异常值和产品平均分分布异常值；以及

S1022：通过所计算出的产品评分分布异常值和产品平均分分布异常值计算水军群组所攻击的目标产品的可疑值，并将该可疑值与设定的目标产品可疑值的阈值进行比较，进而，根据比较结果来识别水军群组所攻击的目标产品。

已知的是，被水军攻击的目标产品在极端评分(1、5分)分布上存在异常，本申请中，产品评分分布异常值S_ext(p)由每个产品的极端评分之比计算得到：

r_p是产品p的评分,S_ext(p)越高，产品p越有可能被攻击。

并且，大部分水军账号只使用一次，也就是一次性评论者。本申请中，通过计算一般评论者(TR)发布评论的平均分与一次性评论者(SR)发布评论的平均分之比来获得产品平均分分布异常值S_avg(_p)。该产品平均分分布异常值S_avg(p)计算公式如下：

是一次性评论者群体SR对产品p发布评分的平均分，

是一般评论者群体TR对产品p发布评分的平均分。

通过上面的公式(17)和(18)可以得到产品评分分布异常值和产品平均分分布异常值。

根据本申请，产品的可疑值可以由产品评分分布异常值和产品平均分分布异常值两者结合进行计算，以量化一个产品是目标产品的可疑程度。根据本申请的一优选实施例，可以通过如下公式计算水军群组所攻击的目标产品的可疑值S_TP(p)：

S_TP(p)＝ωS_avg(p)+(1-ω)S_ext(p) (19)

其中，p表示水军群组所攻击的目标产品，S_avg(p)为产品平均分分布异常值，S_ext(p)为产品评分分布异常值，ω是用于平衡S_avg(p)和S_ext(p)权重因子，取值范围在0到1之间，优选地，ω为0.5。

根据本申请，对于一个产品，计算出水军群组所攻击的目标产品的可疑值S_TP(p)，将该可疑值与设定的目标产品可疑值的阈值δ_TP进行比较，如果计算的目标产品的可疑值STP(p)大于等于阈值δ_TP，则认为该产品为水军群组攻击的目标产品。其中，所设定的目标产品可疑值的阈值δ_TP是通过差值法做实验获得，其取效果好的最低值。当然，也可以取效果好的更高的值。

S103：基于所识别出的目标产品生成候选水军群组。

根据本申请的一优选实施例，水军群组检测方法通过利用核密度估计方法来生成候选水军群组。具体地，利用核密度估计方法获取所识别出的目标产品的评论爆发区，通过获取评论爆发区中的评论者来生成候选水军群组，其中，评论爆发区是所识别出的目标产品的评论在短时间内激增的区域。

某产品的评论在短时间内激增称为评论爆发。图2示意性示出一个评论爆发的例子，横坐标是时间跨度的归一化，纵坐标是评论的数量。评论爆发的周期发生在0.5-0.6之间。

假设评论爆发预示着水军群组的造假活动，为了获得候选水军群组信息，可以先获得评论爆发区，本申请利用核密度估计方法(KDE)获得评论爆发区。具体地，如图3所示，其示出了获得评论爆发区的流程图。

如图3所示，利用核密度估计方法获取所识别出的目标产品的评论爆发区主要包括：

S201：计算所识别出的目标产品的生命周期(见下述算法中的第1行所示)。

假设产品一共有m条评论，第一条评论的时间t₁，最后一条评论的时间t_m，第一条评论与最后一条评论之间的时间间隔为产品的生命周期dur，则dur＝t_m-t₁。

S202：利用核密度估计方法对所识别出的目标产品的评论和评论所对应的评论时间序列进行建模(见下述算法中的第2-3行所示)。

在该步骤中设定产品p的评论序列以及产品p的评论集所对应的评论时间序列。

S203：设置时间窗口尺寸，将所识别出的目标产品的生命周期分割成多个子时间窗口(见下述算法中的第4行所示)。

本申请中，选择一个合适的时间窗口尺寸ISIZE，将一个产品的生命周期dur分割成一个个小的时间窗口(即，子时间窗口)，那么子时间窗口k的数量＝dur/ISIZE。根据本申请的一优选实施例，可以将ISIZE设为7天。

S204：选取每个子时间窗口的上界和所述子时间窗口内评论数目作为样本点(见下述算法中的第5-9行所示)。

S205：根据

计算核密度估计值，获取针对所识别出的目标产品的评论数目的极值点集(见下述算法中的第10-11行所示)。

在公式中，使用高斯核

并利用h控制着估计的平滑度。h的具体取值通过实验选取最适合的值，使估计曲线既不太平滑，又不会呈锯齿状。对KDE(x)求导，并使其导数为零，计算出一系列估计曲线的极值点，这些极值点分别对应所识别出的目标产品的评论数目。通过上述方式获得针对所识别出的目标产品的评论数目的极值点集。

S206：计算每个子时间窗口的平均评论数，其中，所述平均评论数＝总评论数/所述子时间窗口的数量(见下述算法中的第12行所示)。

平均评论数avg_rev＝m/k，其中，m为总评论数，k为上述子时间窗口的数量。

S207：判断所获得极值点集中的极值点所在的子时间窗口中的评论数是否大于平均评论数且大于1，根据判断结果获取所述评论爆发区，其中，所述评论爆发区为所获得极值点集中大于平均评论数且大于1的极值点所对应时间加上或减去设定天数所形成的区域(见下述算法中的第13-19行所示)。

本申请的目标是发现评论爆发区，也就是目标产品的评论在短时间内激增的区域，所以本申请不考虑那些落在评论数小于等于平均评论数的极值点，也不考虑那些评论数小于等于1的窗口的极值点，即只考虑评论数大于整体平均评论数且大于1的极值点。

获得了极值点后，根据本申请，选取上述经过筛选后的极值点所对应时间加上或减去设定天数所形成的区域作为评论爆发区，诸如，选取上述经过筛选后的极值点所对应时间前后各三天，即共7天作为评论爆发区。

之后，通过获取评论爆发区中的评论者来生成候选水军群组。

通过上述方法可以获得攻击目标产品的候选水军群组。

其中，上述利用核密度估计方法生成候选水军群组可以通过如下算法实现：

根据本申请的一优选实施例，水军群组检测方法可以利用一系列群组造假指标衡量群组的可疑度，剔除可疑度低的群组，获得经过净化后的候选水军群组。

具体地，水军群组检测方法还包括：S105：计算步骤S103获得的候选水军群组的群组造假值GSS(g)，将候选水军群组的群组尺寸与设定值进行比较，并且将群组造假值与设定的水军群组造假指标的阈值进行比较，根据比较结果输出候选水军群组。

本申请中，如果候选水军群组的群组尺寸GS大于等于设定值(诸如，设定值为2)，且群组造假值大于设定的水军群组造假指标的阈值GSS，则输出相应的候选水军群组。其中，水军群组造假指标的阈值通过差值法做实验获得，根据本申请，取效果好的最低值，当然也可以取效果好的更高值。

为了获得更精确的水军群组，防止对正常评论者可能恰巧在评论爆发期间对目标产品进行评论造成的误判问题，根据本申请的一优选实施例，在进行步骤S105之前，水军群组检测方法还可以利用一系列个体造假指标来衡量个体评论者的可疑度，以剔除可疑度很低的个体评论者。

具体地，在进行步骤S105之前，水军群组检测方法还可以包括：S104：计算每个候选水军群组的每个评论者的个体造假值ISS(a)，并将个体造假值与设定的水军个体造假指标的阈值ISS进行比较，根据比较结果剔除可疑度低的评论者，获得净化后的候选群组。

本申请中，如果个体造假值小于水军个体造假指标的阈值，则剔除相应的评论者，从而获得净化后的候选群组。其中，个体造假指标的阈值通过差值法做实验获得，根据本申请，取效果好的最低值，当然也可以取效果好的更高值。

通过上述步骤S104和步骤S105，能够对所获取的候选水军群组进行净化与分类，从而获得更准确的水军群组。

下面通过实验来说明本申请的基于爆发的水军群组检测方法(GSDB，burst-basedspammer group detection method)所具有的优点。

根据本申请，使用亚马逊评论数据集(没有标签)，AmazonBooks从1993年到2014年的评论数据，其中包括22,507,155条评论、8,026,324个评论者和2,330,066个产品。由于数据量太大，所以本申请只提取了2013年的评论数据，其中包括6,990,316条评论，2,998,38个评论者以及1,079,741个产品。处理后的数据集统计数据如表1(数据集概况一览表)所示。

表1数据集概况一览表

Dataset	原始亚马逊书籍数据集	2013年数据
			#评论	22,507,155	6,990,316
#评论者	8,026,324	2,998,380
			#产品	2,330,066	1,079,741

水军群组检测问题非常具有挑战性，因为没有可用于模型构建或评估所需的带标签的标准数据集(标记为虚假/真实)。先前的研究主要依靠人工标注来获取标签。Mukherjee等人和Xu等人首先使用FIM(频繁项集挖掘)算法获取候选水军群组，然后由8位专家进行人工标注。Wang等人使用基于拓扑图的算法来生成候选水军群组，并由3个人对其进行人工标注。

根据本申请的水军群组检测方法是一种完全非监督的算法，在模型构建中不需要任何标签。但是，标签对于评估其性能至关重要。由于水军群组的群体性造假行为比较容易被人工观察到，所以人工标注水军群组比标注水军个体更具有可操作性。因此，在本申请中，聘用了三个非常熟悉电子商务环境的研究生来对GSDB和GSBC(Group Spam detectionvia Bi-Connected graphs)方法检测出的前300名水军群组进行人工标注。在以前标记为水军群组的方法的指导下，再加上本申请自己的观察，本申请力求最大程度地减少评估过程中的人为偏差。

基于2013年的Amazon数据集(详细信息列于表1的第三列)，本申请设计了一组实验和三种分析。首先，对比分析算法在造假指标上的表现；其次，对比分析算法在生成的水军群组尺寸大小上的表现；最后，结合人工标注的结果，对比分析算法在准确率、召回率及F1值上的表现。

在实验和分析中，以GSBC算法为基准，与本申请的GSDB算法进行比较。GSBC方法是目前最新提出的的基于拓扑图的水军群组检测算法，也是使用Amazonbooks数据集进行实验，特别是Wang等人在提出GSBC算法时，已经将该算法与一些之前的典型算法，GSBP、SCAN、FraudEagle和SpEagle进行了比较。GSBP与SCAN算法是无监督的，而FraudEagle和SpEagle算法是有监督的。GSBP算法与GSBC算法均由Wang等人提出，后者是前者的改进算法。SCAN是一种基于图的聚类算法。FraudEagle与SpEagle算法是基于概率图模型的算法，使用循环信念传播(LBP)来推断评论(评论者)的虚假程度。Wang等人的实验结果表明，GSBC方法可以产生比其他两种无监督方法(GSBP和SCAN)更高质量的水军群组。与有监督的算法(FraudEagle与SpEagle)相比，GSBC方法也达到了较高的精度，GSBC算法在比较中取得了较好的结果。因此，本申请只需将GSDB与GSBC方法进行比较。

Mukherjee等人最早提出，通过比较造假行为指标的累积分布函数(CDF)曲线来评估算法的性能，在现有技术中也得到了广泛应用。同样，本申请也使用CDF曲线进行对比来分析算法的性能。另外，得益于人工标注，本申请可以使用精度Precision、召回Recall和F1值作为评价标准进行算法评估，相关公式如下。

其中，TP(真正例)是指被分类器正确分类为正的正样本数，FP(假正例)是指被分类器错误标记为正的负样本数。而FN(假阴性)是指错误标记为负的正样本数。

本申请中，比较了GSDB和GSBC方法检测到的水军群组的垃圾造假行为指标的CDF曲线。首先，本申请按照wang等人的参数设置，用GSBC算法在本申请数据集上生成了500+群组。具体参数设置与生成的群组数如表所示。τ是一个用户指定的共评论时间窗口大小值；δ是评论者图的边权重的阈值。MP是一个用户指定的参数，MINSPAM是群组造假分数的阈值。

为了公平起见，本申请调整GSDB的算法参数使其产生与GSBC算法相当数量的水军群组。具体的参数设置与生成的群组数如表所示。从表中可以看出，GSBC与GSDB算法分别产生了545与555个群组。本申请分别提取GSBC与GSDB算法的前500个群组，分别绘制本申请定义的水军个体造假指标与群组造假指标的CDF曲线进行比较，如图5a至图5f及图6a至图6f所示。

表2 GSBC的参数设置及生成的群组数

τ	δ	MP	MINSPAM	#Groups
					30	0.1	1000	0.49	545

表3 GSDB的参数设置及生成的群组数

δ<sub>TP</sub>	δ<sub>I</sub>	δ<sub>G</sub>	#groups
				0.1	0.43	0.54	555

图5a至图5f示出了由GSBC与根据本申请的GSDB分别生成的前500个水军群组的个体造假指标的CDF曲线的对比图；图6a至图6f示出了由GSBC与根据本申请的GSDB分别生成的前500个水军群组的水军群组造假行为指标的CDF曲线及所有群组指标的平均值(AVG)曲线的对比图。横轴表示群组个数的归一化，纵轴表示CDF值。曲线越靠右，代表算法的性能越好。从图5a至图5f中可以看出，在绝大部分指标上，GSDB方法比GSBC取得了更高的分数。

在图6a至图6f中，在绝大部分指标上，GSDB方法也比GSBC取得了更高的分数，在平均值(AVG)曲线上，GSDB一直优于GSBC。本申请表现不足的EXR与GER指标均是关于极端评分的指标，而在GSBC算法中，对用户评分做了筛选，因此，在这两个指标上，GSBC算法取得了更高的分数。总体来说，GSDB表现更优。

本申请中，对GSDB与GSBC生成的群组尺寸进行了统计分析(见图7)。从图7中可以看到GSBC算法生成的群组大部分是小群组(2-4个成员)。而与GSBC算法相比，GSDB能生成更多尺寸较大的群组，正如之前提到的，群组尺寸越大，危害越大。GSDB算法能检测到更多更大的群组，无疑对减少水军群组的危害更有效果。

基于人工对GSDB和GSBC方法检测到前300个群组标注的标签，本申请对GSDB方法与GSBC方法的精度进行了对比。图8a到图8c示出了两算法在top-n个群组上的精度、召回以及F1-值的连续变化。

从图8a中可以看到，GSDB算法的精度一直优于GSBC算法。并且，随着n的增大，GSDB方法的精度值缓慢下降，而GSBC方法的精度值出现了急剧下降，然后又出现了回升。也就是说，本申请的GSDB方法的精确性不依赖于样本数，而GSBC方法的精确性在很大程度上依赖于样本数。

从图8b中可以看出，GSDB整体依然优于GSBC方法，但差距不大。此外，召回曲线随n的增加呈线性增加。

从图8c中可以看出，本申请的GSDB方法在F1值上始终优于GSBC方法。此外，当考虑足够多的样本时，两算法均趋于稳定。

以上实验结果表明，本申请提出的GSDB方法优于GSBC方法。

根据本申请的另一方面，提供一种水军群组检测装置，如图9所示，该装置包括：数据信息获取模块100，所述数据信息获取模块获取网络中的评论数据信息，所述评论数据信息包括：评论产品、评论者、评论时间以及评论者对评论产品的评分；异常值计算模块200，所述异常值计算模块基于所述评论者对评论产品的评分计算产品评分分布异常值和产品平均分分布异常值；目标产品识别模块300，所述目标产品识别模块通过所述产品评分分布异常值和产品平均分分布异常值计算水军群组所攻击的目标产品的可疑值，并将所述可疑值与设定的目标产品可疑值的阈值进行比较，根据比较结果识别水军群组所攻击的目标产品；候选水军群组生成模块400，所述候选水军群组生成模块基于所识别出的目标产品生成候选水军群组。

在一个实施例中，提供了一种计算机设备，包括存储器及处理器，所述存储器上存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述水军群组检测方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述水军群组检测方法的步骤。根据本申请的计算机可读存储介质例如可包括非易失性和/或易失性存储器。例如，非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非限制，RAM可以具有多种形式，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

如上所述，根据本申请的水军群组检测方法从产品评分出发通过检测产品评分分布是否异常筛选出可能被水军群组攻击的产品；并且利用核密度算法发现评论爆发区，并将爆发区间的所有评论者看作候选水军群组；针对正常评论者可能会恰巧在评论爆发期间对产品进行评论造成的误判问题，本申请利用一系列个体造假指标来衡量个体评论者的可疑度，并剔除可疑度很低的评论者；而且，本申请利用一系列群组造假指标衡量群组的可疑度、实现群组分类。根据本申请的水军群组检测方法能够大大提高检测水军群组的时间和空间效率。并且，这种方法与电子平台的责任和义务是一致的，能够监督和管理卖方。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种水军群组检测方法，其特征在于，所述检测方法包括：

获取网络中的评论数据信息，所述评论数据信息包括：评论产品、评论者、评论时间以及评论者对评论产品的评分；

基于所述评论数据信息识别水军群组所攻击的目标产品；以及

基于所识别出的目标产品生成候选水军群组。

2.根据权利要求1所述的水军群组检测方法，其特征在于，基于所述评论数据信息识别水军群组所攻击的目标产品包括：

基于所述评论者对评论产品的评分计算产品评分分布异常值和产品平均分分布异常值；以及

通过所述产品评分分布异常值和产品平均分分布异常值计算水军群组所攻击的目标产品的可疑值，并将所述可疑值与设定的目标产品可疑值的阈值进行比较，根据比较结果识别水军群组所攻击的目标产品。

3.根据权利要求1或2所述的水军群组检测方法，其特征在于，所述基于所识别出的目标产品生成候选水军群组包括：

利用核密度估计方法获取所识别出的目标产品的评论爆发区，所述评论爆发区是所识别出的目标产品的评论在短时间内激增的区域；

获取所述评论爆发区中的评论者，生成候选水军群组。

4.根据权利要求3所述的水军群组检测方法，其特征在于，所述检测方法还包括：

计算所述候选水军群组的群组造假值，将所述候选水军群组的群组尺寸与设定值进行比较，并且将所述群组造假值与设定的水军群组造假指标的阈值进行比较，根据比较结果输出候选水军群组，其中，所述群组造假值用于衡量水军群组造假程度，所述群组尺寸用于表示水军群组中评论者的数量。

5.根据权利要求4所述的水军群组检测方法，其特征在于，在计算所述候选水军群组的群组造假值，将所述候选水军群组的群组尺寸与设定值进行比较，并且将所述群组造假值与设定的水军群组造假指标的阈值进行比较，根据比较结果输出候选水军群组之前，所述检测方法还包括：

计算每个候选水军群组的每个评论者的个体造假值，并将所述个体造假值与设定的水军个体造假指标的阈值进行比较，根据比较结果剔除可疑度低的评论者，获得净化后的候选群组，其中，所述个体造假值用于衡量评论者造假程度。

6.根据权利要求1所述的水军群组检测方法，其特征在于，通过如下公式计算水军群组所攻击的目标产品的可疑值S_TP(p)：

S_TP(p)＝ωS_avg(p)+(1-ω)S_ext(p)

7.根据权利要求4所述的水军群组检测方法，其特征在于，利用核密度估计方法获取所识别出的目标产品的评论爆发区包括：

计算所识别出的目标产品的生命周期；

利用核密度估计方法对所识别出的目标产品的评论和评论所对应的评论时间序列进行建模；

设置时间窗口尺寸，将所识别出的目标产品的生命周期分割成多个子时间窗口；

选取每个子时间窗口的上界和所述子时间窗口内评论数目作为样本点；

根据

计算核密度估计值，获取针对所识别出的目标产品的评论数目的极值点集；

计算每个子时间窗口的平均评论数，其中，所述平均评论数＝总评论数/所述子时间窗口的数量；以及

判断所获得极值点集中的极值点所在的子时间窗口中的评论数是否大于平均评论数且大于1，根据判断结果获取所述评论爆发区，其中，所述评论爆发区为所获得极值点集中大于平均评论数且大于1的极值点所对应时间加上或减去设定天数所形成的区域。

8.根据权利要求4所述的水军群组检测方法，其特征在于，通过如下公式获得所述群组造假值GSS(g)：

所述GTW(g)用于衡量群组的活跃程度；

所述GRT(g)用于衡量群组成员合作撰写虚假评论的紧密程度；

所述GOR(g)用于反映一个群组一天发布的评论数量；

所述GER(g)表示群组成员极端评分比例的平均值；

所述GCA(g)用于表示群组成员在一定时间内共同活跃的程度；

9.根据权利要求5所述的水军群组检测方法，其特征在于，通过如下公式获得所述个体造假值ISS(a)：

所述EXR(a)表示极端评分的数量占评论者评述总数的比例；

所述RD(a)反映评论者的评分偏离产品整体评分的程度；

所述MRO(a)反映一个评论者单天发布评论的最大数量；

所述RTI(a)用于表示一个评论者发布评论的时间间隔长短；

10.一种水军群组检测装置，其特征在于，所述检测装置包括：

数据信息获取模块，所述数据信息获取模块获取网络中的评论数据信息，所述评论数据信息包括：评论产品、评论者、评论时间以及评论者对评论产品的评分；

异常值计算模块，所述异常值计算模块基于所述评论者对评论产品的评分计算产品评分分布异常值和产品平均分分布异常值；

目标产品识别模块，所述目标产品识别模块通过所述产品评分分布异常值和产品平均分分布异常值计算水军群组所攻击的目标产品的可疑值，并将所述可疑值与设定的目标产品可疑值的阈值进行比较，根据比较结果识别水军群组所攻击的目标产品；以及

候选水军群组生成模块，所述候选水军群组生成模块基于所识别出的目标产品生成候选水军群组。