CN112528162B

CN112528162B - 一种刷转发量行为用户的实时识别方法及装置

Info

Publication number: CN112528162B
Application number: CN202011353235.0A
Authority: CN
Inventors: 王嘉伟
Original assignee: Weibo Internet Technology China Co Ltd
Current assignee: Weibo Internet Technology China Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2024-03-22
Anticipated expiration: 2040-11-27
Also published as: CN112528162A

Abstract

本发明实施例提供一种刷转发量行为用户的实时识别方法及装置，其中，所述方法包括：获取所有的转发行为对应的转发用户、被转发微博以及被转发用户；通过第一矩阵和第二矩阵分别记录转发用户与被转发用户以及被转发微博的转发对应数据；通过聚类，获得第一矩阵行向量聚族和第二矩阵行向量聚族；遍历第一矩阵行向量聚族和第二矩阵行向量聚族，将满足条件的第一矩阵行向量聚族中的转发用户加入第一集合，满足条件的第二矩阵行向量聚族中的转发用户加入第二集合；共存于第一集合和第二集合的转发用户即为刷转发量行为用户。根据本发明的技术方案，不仅能识别出发起大量转发的不法分子帐号，还能尽量减小误伤，增加查出率。

Description

一种刷转发量行为用户的实时识别方法及装置

技术领域

本发明涉及数据处理领域，具体涉及一种刷转发量行为用户的实时识别方法及装置。

背景技术

在现代的社交媒体的互联网社交平台中，转发是一种非常重要的社交活动。于是出现大量不法分子利用脚本批量的刷转发量，甚至还出现了专门刷转发量的黑色产业链，这些非法的转发行为称为批量转发或者刷转发量。刷转发是对普通用户和对平台都不利的，要想办法找出来。

现有技术实时的接收转发日志，并记录一定时间内个发起关注的ip地址及其对应转发次数，对转发次数大于某阈值的ip认为它发起的所有转发都是刷转发。虽说简单有效，但容易被绕过，也容易误伤公共ip用户的转发行为。

发明内容

本发明实施例提供一种刷转发量行为用户的实时识别方法及装置，不仅能识别出发起大量转发的不法分子帐号，还能尽量减小误伤，增加查出率。

为达到上述目的，一方面，本发明实施例提供了一种刷转发量行为用户的实时识别方法，所述方法包括：

从全站所有的行为日志中提取出设定时间段内所有的转发行为对应的转发用户、被转发微博以及被转发用户；

通过第一矩阵记录转发用户与被转发用户的转发对应数据；通过第二矩阵记录转发用户与被转发微博的转发对应数据；其中，第一矩阵的行向量记录了每一转发用户对应于被转发用户发起转发的数据，第二矩阵的行向量记录每一转发用户对应于被转发微博的转发行为的数据；

分别对所述第一矩阵的行向量和第二矩阵的行向量进行聚类，获得第一矩阵行向量聚族和第二矩阵行向量聚族；

遍历第一矩阵行向量聚族，若聚族的平均发起转发的数量大于第一设定转发阈值，且聚族中的数据点的个数大于第一设定个数阈值，将该聚族中的转发用户加入第一集合；遍历第二矩阵行向量聚族，若聚族的平均转发行为的数量大于第二设定转发阈值，且聚族中的数据点的个数大于第二设定个数阈值，将该聚族中的转发用户加入第二集合；

将存在于第一集合且存在于第二集合的转发用户确定为刷转发量行为用户。

另一方面，本发明实施例提供了一种刷转发量行为用户的实时识别装置，所述装置包括：

数据获取单元，用于从全站所有的行为日志中提取出设定时间段内所有的转发行为对应的转发用户、被转发微博以及被转发用户；

数据处理单元，用于通过第一矩阵记录转发用户与被转发用户的转发对应数据；通过第二矩阵记录转发用户与被转发微博的转发对应数据；其中，第一矩阵的行向量记录了每一转发用户对应于被转发用户发起转发的数据，第二矩阵的行向量记录每一转发用户对应于被转发微博的转发行为的数据；

聚类单元，用于分别对所述第一矩阵的行向量和第二矩阵的行向量进行聚类，获得第一矩阵行向量聚族和第二矩阵行向量聚族；

数据提取单元，用于遍历第一矩阵行向量聚族，若聚族的平均发起转发的数量大于第一设定转发阈值，且聚族中的数据点的个数大于第一设定个数阈值，将该聚族中的转发用户加入第一集合；遍历第二矩阵行向量聚族，若聚族的平均转发行为的数量大于第二设定转发阈值，且聚族中的数据点的个数大于第二设定个数阈值，将该聚族中的转发用户加入第二集合；

确定单元，用于将存在于第一集合且存在于第二集合的转发用户确定为刷转发量行为用户。

上述技术方案具有如下有益效果：

本发明的技术方案由于使用了这种新的基于两重聚类算法的刷转发量行为实时识别系统，现在新的系统不仅能识别出发起大量转发的不法分子帐号，还能减小误伤，增加查出率，有效减小系统的平均负载。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一种刷转发量行为用户的实时识别方法的流程图；

图2是本发明实施例一种刷转发量行为用户的实时识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本方案中相关的缩略语和关键术语定义：

刷转发量：在现代的社交媒体的互联网社交平台中，转发是一种非常重要的社交活动。于是出现大量不法分子利用脚本批量的刷转发量，甚至还出现了专门刷转发量的黑色产业链，这些非法的转发行为称为批量转发或者刷转发量。

行为日志：互联网帐号进行上行操作时所记录的日志，如转发，点赞，评论，关注等行为。其信息有操作行为号，帐号，时间，目标等信息。

如图1所示，是本发明实施例一种刷转发量行为用户的实时识别方法的流程图，所述方法包括：

S101：从全站所有的行为日志中提取出设定时间段内所有的转发行为对应的转发用户、被转发微博以及被转发用户；

S102：通过第一矩阵记录转发用户与被转发用户的转发对应数据；通过第二矩阵记录转发用户与被转发微博的转发对应数据；其中，第一矩阵的行向量记录了每一转发用户对应于被转发用户发起转发的数据，第二矩阵的行向量记录每一转发用户对应于被转发微博的转发行为的数据；

优选地，所述通过第一矩阵记录转发用户与被转发用户的转发对应数据；通过第二矩阵记录转发用户与被转发微博的转发对应数据，包括：

构建大小为n0*n1的全零矩阵M0和大小为n0*m的全零矩阵M1；其中，n0为所有转发用户的数量，n1为所有被转发用户的数量，m为所有被转发微博的数量；

将所有的转发用户在矩阵M0和M1中进行行标记，将所有的被转发用户在矩阵M0中进行列标记，将所有的被转发微博在矩阵M1中进行列标记；

将每一转发行为对应的转发用户和被转发用户在M0中相应位置处的元素值加1，获得第一矩阵；

将每一转发行为对应的转发用户和被转发微博在M1中相应位置处的元素值加1，获得第二矩阵。

S103：分别对所述第一矩阵的行向量和第二矩阵的行向量进行聚类，获得第一矩阵行向量聚族和第二矩阵行向量聚族；

优选地，还包括：

如果判断出第一矩阵的秩小于n0和n1的较小者、或者第二矩阵的秩小于n0和m的较小者，则在分别对所述第一矩阵的行向量和第二矩阵的行向量进行聚类之前，确认第一矩阵和第二矩阵均没有全零行。

优选地，采用K-Means聚类方法对所述第一矩阵行向量和第二矩阵的行向量进行聚类。

S104：遍历第一矩阵行向量聚族，若聚族的平均发起转发的数量大于第一设定转发阈值，且聚族的数据点的个数大于第一设定个数阈值，将该聚族中的转发用户加入第一集合；遍历第二矩阵行向量聚族，若聚族的平均转发行为的数量大于第二设定转发阈值，且聚族的数据点的个数大于第二设定个数阈值，将该聚族中的转发用户加入第二集合；

优选地，所述第一设定转发阈值大于第二设定转发阈值，且第一设定个数阈值大于第二设定个数阈值。

S105：将存在于第一集合且存在于第二集合的转发用户确定为刷转发量行为用户。

具体地，1.通过流式实时日志源，不断读取转发日志，每隔t分钟，就把全站所有的转发行为日志进行汇总，提取出转发uid和被转发mid和被转发uid，形成日志集合L，uid是每个用户在网站独一无二的用户代号，mid是一条微博在网站独一无二的微博代号。

2.取L中所有转发uid形成集合U0，集合大小记为n0，被转发uid形成集合U1，集合大小记为n1，被转发mid形成集合UM，集合大小记为m。在实际应用中一般n1远远小于n0，m几倍于n0.

3.预先形成两个全零矩阵，M0(大小n0*n1)，和M1(大小n0*m)。把U0中的元素按照从上到下对M0和M1进行行标记。两个矩阵中一行代表的是这一uid的转发行为。把U1中的元素从左到右对M0进行列标记，M0中的一列代表此uid收到的转发。把UM中的元素丛左到右对M1进行列标记，M1中的一列代表此mid的被转发。简而言之M0记录uid对uid的转发统计数据，M1纪录uid对mid的转发统计数据。

4.遍历L，对L的每一个转发行为，把发起转发的uid在M0和M1中的行的位置i找到，被转发uid在M0中列的位置j1找到，对M0的(I,j1)位置的数字+1。把被转发的mid在M1中列的位置j2找到，把M0的(I,j2)位置的数字+1。

5.上一步完成之后得到M0，M1是记录了这段时间内转发的所有信息。此时需要先检验矩阵的秩。https://baike.baidu.com/item/秩/13388670。若M0矩阵的秩等于n0和n1的较小者，或M1的秩等于n0和m的较小者，则认为此段时间内没有刷量，接下来的步骤均可省略。

6.接下来判断若M0或M1有全零行，则说明数据的处理有问题需要重新对系统进行故障排除，理论上如果程序的实现没有问题的话此处的零行检验应会通过。把所有M0，M1的行取出来，形成n0个(1*n1)的向量和n0个(1*m)的向量，分别作为数据点集D0，D1。

7.对D0运行聚类算法，得到若干聚簇，遍历所有聚簇，若该聚簇的平均发起转发的数量>a1，且聚簇的数据点的个数>b1则认为这个聚簇中的发起转发的uid是有问题的，有问题的uid的集合记做Us。对D1运行聚类算法，得到若干聚簇，遍历所有聚簇，若该聚簇的转发行为的数量>a2，且聚簇的数据点的个数>b2则认为这个聚簇中的转发行为是有问题的，有问题的uid的集合记做Ms。

8.遍历Ms中的uid，若该uid在Us中也存在，则加入到集合S中。最后S就是确定存在转发行为的uid集合。

对应于上述方法，如图2所示，是本发明实施例一种刷转发量行为用户的实时识别装置的结构示意图，所述装置包括：

数据获取单元21，用于从全站所有的行为日志中提取出设定时间段内所有的转发行为对应的转发用户、被转发微博以及被转发用户；

数据处理单元22，用于通过第一矩阵记录转发用户与被转发用户的转发对应数据；通过第二矩阵记录转发用户与被转发微博的转发对应数据；其中，第一矩阵的行向量记录了每一转发用户对应于被转发用户发起转发的数据，第二矩阵的行向量记录每一转发用户对应于被转发微博的转发行为的数据；

聚类单元23，用于分别对所述第一矩阵的行向量和第二矩阵的行向量进行聚类，获得第一矩阵行向量聚族和第二矩阵行向量聚族；

数据提取单元24，用于遍历第一矩阵行向量聚族，若聚族的平均发起转发的数量大于第一设定转发阈值，且聚族中的数据点的个数大于第一设定个数阈值，将该聚族中的转发用户加入第一集合；遍历第二矩阵行向量聚族，若聚族的平均转发行为的数量大于第二设定转发阈值，且聚族中的数据点的个数大于第二设定个数阈值，将该聚族中的转发用户加入第二集合；

确定单元25，用于将存在于第一集合且存在于第二集合的转发用户确定为刷转发量行为用户。

优选地，所述数据处理单元22，具有用于：

将每一转发行为对应的转发用户和被转发微博在M1中相应位置处的元素值加1，获

得第二矩阵。优选地，还包括数据判断单元，具体用于：

如果判断出第一矩阵的秩小于n0和n1的较小者、或者第二矩阵的秩小于n0和m的较小者，则在确认第一矩阵和第二矩阵均没有全零行之后，触发所述聚类单元。

优选地，所述聚类单元23具体用于：采用K-Means聚类方法对所述第一矩阵行向量和第二矩阵的行向量进行聚类。

优选地，所述数据提取单元中，第一设定转发阈值大于第二设定转发阈值，且第一设定个数阈值大于第二设定个数阈值。

按照本发明的技术方案，例举一具体实例如下：

我们取了10分钟的转发日志，形成的L：

发起转发的uid，目标uid，目标mid

1,2,1

3,4,2

5,6,3

5,7,4

5,8,5

5,9,6

10,6,3

10,7,4

10,8,5

10,9,6

得到转发uid集合U0:{1,3,5,10},被转发uid集合U1:{2,4,6,7,8,9}

n0＝4,n1＝6,m＝6

被转发mid集合UM:{1,2,3,4,5,6}

预先形成全零矩阵M0(4*6(n1)),M1(4*6(m))

遍历L,把对应转发+1得到矩阵:

M0＝np.array([

[1.,0.,0.,0.,0.,0.],

[0.,1.,0.,0.,0.,0.],

[0.,0.,1.,1.,1.,1.],

])

M1＝np.array([

[1.,0.,0.,0.,0.,0.],

[0.,1.,0.,0.,0.,0.],

[0.,0.,1.,1.,1.,1.],

])

在此例子中两矩阵恰好相同，实际系统中一般是不同的；计算两矩阵的秩均为3，小于n0，则初步认为有刷量。

再经检验，两矩阵没有纯0行。

此时明显看出5号用户和10号用户行为类似，且异常。

把M0的每一行看作数据点，对M0进行聚类，得到聚类中心为：

array([[0.,0.,1.,1.,1.,1.],

[1.,0.,0.,0.,0.,0.],

[0.,1.,0.,0.,0.,0.]])

各个点所属的聚类编号为[1,2,0,0]，

把M1的每一行看作数据点，对M1进行聚类，得到聚类中心为：

array([[1.,0.,0.,0.,0.,0.],

[0.,0.,1.,1.,1.,1.],

[0.,1.,0.,0.,0.,0.]])

各个点所属的聚类编号为[0,2,1,1]

此处聚簇编号为从0开始的0，1，2.首先看M0的聚类结果。4个点聚类成了3类，其中[0.,0.,1.,1.,1.,1.]为核心的0号聚簇有两个点，其余的有一个点。再看0号聚簇点两点对应的uid是5和10，也就是这两个uid在发起转发时目标uid很相似。现在对于所有聚簇来说，假设a1＝3，b1＝1.5的话则可以筛出来0号聚簇是有问题的。则把0号聚簇的所有uid(5，10)加入到集合Us里。

再看M1的聚类结果，其结果类似于M0的结果只是有问题的聚簇是1号。这里假设a2＝2.5，b2＝1.8的话可以把1号聚簇筛出来。再把1号聚簇的所有uid(5，10)加入到集合Ms里。

遍历Ms中的uid，若该uid在Us中也存在，则加入到集合S中。最后S就是确定存在批量转发行为的uid集合。操作完S为(5，10)

在实际操作过程中，矩阵是非常稀疏的。聚类算法使用的是K-Means方法。A1b1要大于a2b2。因为M1在实际系统中是比M0大的多的矩阵，其聚类结果比M0稀疏。所以为了让Us和Ms有差不多的准入门槛，a1要大于a2.

实际操作中发现矩阵的秩检验和零行检验是非常有效的，此二步骤能大大降低无刷量时整个系统的运算量。应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种刷转发量行为用户的实时识别方法，其特征在于，包括：

2.如权利要求1所述的刷转发量行为用户的实时识别方法，其特征在于，所述通过第一矩阵记录转发用户与被转发用户的转发对应数据；通过第二矩阵记录转发用户与被转发微博的转发对应数据，包括：

3.如权利要求2所述的刷转发量行为用户的实时识别方法，其特征在于，还包括：

4.如权利要求3所述的刷转发量行为用户的实时识别方法，其特征在于，采用K-Means聚类方法对所述第一矩阵行向量和第二矩阵的行向量进行聚类。

5.如权利要求4所述的刷转发量行为用户的实时识别方法，其特征在于，所述第一设定转发阈值大于第二设定转发阈值，且第一设定个数阈值大于第二设定个数阈值。

6.一种刷转发量行为用户的实时识别装置，其特征在于，包括：

7.如权利要求6所述的刷转发量行为用户的实时识别装置，其特征在于，所述数据处理单元，具有用于：

8.如权利要求7所述的刷转发量行为用户的实时识别装置，其特征在于，还包括：

数据判断单元，用于如果判断出第一矩阵的秩小于n0和n1的较小者、或者第二矩阵的秩小于n0和m的较小者，则在确认第一矩阵和第二矩阵均没有全零行之后，触发所述聚类单元。

9.如权利要求8所述的刷转发量行为用户的实时识别装置，其特征在于，所述聚类单元具体用于：采用K-Means聚类方法对所述第一矩阵行向量和第二矩阵的行向量进行聚类。

10.如权利要求9所述的刷转发量行为用户的实时识别装置，其特征在于，所述数据提取单元中，第一设定转发阈值大于第二设定转发阈值，且第一设定个数阈值大于第二设定个数阈值。