CN111506829A

CN111506829A - 一种异常关注行为批量实时识别方法及装置

Info

Publication number: CN111506829A
Application number: CN202010203356.0A
Authority: CN
Inventors: 王嘉伟
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-08-07
Anticipated expiration: 2040-03-20
Also published as: CN111506829B

Abstract

本发明实施例提供一种异常关注行为批量实时识别方法及装置，其中，所述方法包括：获取设定时间段内的关注行为日志，获取所述关注行为日志中的每一个关注行为对应的关注源用户身份证明UID和被关注用户身份证明UID；将每一个关注行为在稀疏矩阵中对应该关注行为的关注源UID和被关注UID进行标记；将所述标记后的稀疏矩阵进行奇异值分解后，对关注行为进行聚类；若聚类后的某一聚族的平均关注数量大于预设的平均阈值且该聚族的总关注数量大于预设的总阈值，则判定该聚族的所有关注行为为异常关注行为。根据本发明的技术方案，利用稀疏矩阵和奇异值分解，不仅能识别出发起大量关注的不法分子帐号，还能尽量减小误伤，增加查出率。

Description

一种异常关注行为批量实时识别方法及装置

技术领域

本发明涉及数据处理领域，具体涉及一种异常关注行为批量实时识别方法及装置。

背景技术

在现代的社交媒体的互联网社交平台中，关注关系是一种非常重要的关系。于是出现大量不法分子利用脚本批量的刷关注，这些非法的关注行为称为异常关注。异常关注是对普通用户和对平台都不利的，要想办法找出来。

现有技术实时的接收关注日志，并记录一定时间内个发起关注的ip地址及其对应关注次数，对关注次数大于某阈值的ip认为它发起的所有关注都是异常关注。如此，虽说简单有效，但容易被绕过，也容易误伤公共ip用户的关注行为。

发明内容

本发明实施例提供一种异常关注行为批量实时识别方法及装置，不仅能识别出发起大量关注的不法分子帐号，还能尽量减小误伤，增加查出率。

为达到上述目的，一方面，本发明实施例提供了一种异常关注行为批量实时识别方法，所述方法包括：

获取设定时间段内的关注行为日志，获取所述关注行为日志中的每一个关注行为对应的关注源用户身份证明UID和被关注用户身份证明UID；

将每一个关注行为在稀疏矩阵中对应该关注行为的关注源UID和被关注UID进行标记；

将所述标记后的稀疏矩阵进行奇异值分解后，对关注行为进行聚类；

若聚类后的某一聚族的平均关注数量大于预设的平均阈值且该聚族的总关注数量大于预设的总阈值，则判定该聚族的所有关注行为为异常关注行为。

另一方面，本发明实施例提供了一种异常关注行为批量实时识别装置，所述装置包括：

日志获取单元，用于获取设定时间段内的关注行为日志，获取所述关注行为日志中的每一个关注行为对应的关注源用户身份证明UID和被关注用户身份证明UID；

矩阵单元，用于将每一个关注行为在稀疏矩阵中对应该关注行为的关注源UID和被关注UID进行标记；

聚类单元，用于将所述标记后的稀疏矩阵进行奇异值分解后，对关注行为进行聚类；

异常判定单元，用于当聚类后的某一聚族的平均关注数量大于预设的平均阈值且该聚族的总关注数量大于预设的总阈值时，判定该聚族的所有关注行为为异常关注行。

上述技术方案具有如下有益效果：

本发明的技术方案通过将关注行为转换为矩阵，并使用了这种基于稀疏矩阵和矩阵分解的异常关注行为批量实时识别系统之后，系统能对非常多日志形成的巨大矩阵进行运算。现在识别所能使用日志的时间周期从1分钟级别大大的提高到了1440分钟级别，准确率和召回率相比之前都有了巨大的提高。而且能够覆盖长周期低频次的刷关注的情况，且不容易被绕过。不仅能识别出发起大量关注的不法分子帐号，还能尽量减小误伤，增加查出率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一种异常关注行为批量实时识别方法的流程图；

图2是本发明实施例一种异常关注行为批量实时识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本方案中相关的缩略语和关键术语定义：

异常关注：在现代的社交媒体的互联网社交平台中，关注关系是一种非常重要的关系。于是出现大量不法分子利用脚本批量的刷关注，这些非法的关注行为称为异常关注。

行为日志：互联网帐号进行上行操作时所记录的日志，如点赞，评论，关注等行为。其信息有操作行为号，帐号，时间，目标等信息。

如图1所示，是本发明实施例一种异常关注行为批量实时识别方法的流程图，所述方法包括：

S101：获取设定时间段内的关注行为日志，根据所述行为日志获取关注源用户身份证明UID及被关注用户身份证明UID。

通过流式实时日志源，不断读取关注日志，每隔t分钟，就把全站所有的关注行为日志进行汇总，提取出关注源UID和被关注UID，形成日志集合L，UID是每个用户在网站独一无二的用户代号。

S102：将每一个关注行为在稀疏矩阵中对应该关注行为的关注源UID和被关注UID进行标记。

优选地，所述将每一个关注行为在稀疏矩阵中对应该关注行为的关注源UID和被关注UID进行标记，包括：构建一由十字链表法表示的空的n阶稀疏矩阵X，n为获取的所有关注源UID和被关注UID的总数量；

遍历获取的每一个关注行为，将每一个关注行为的关注源UIDi和被关注UIDj对应于稀疏矩阵X中的位置[i,j]处数值x[i,j]加1，使得X[i,j]＝x[i,j]+1。

具体地，取关注源UID和被关注UID的集合，写做S：{uid1,uid2,…,uidn}，集合大小记为n；预先形成一个n*n的全零矩阵M(n*n)，把S中的元素按照从上到下，从左到右对M进行行标记和列标记，一行代表的是这一UID对其他所有UID发起的关注请求，一列代表这UID收到的关注。遍历L，对L的每一个关注行为，把发起关注UID在M中的行的位置i找到，被关注UID在M中列的位置j找到，把M的[i,j]位置的数值+1。完成之后得到M是记录了这段时间内关注和被关注的所有信息。对于这个M矩阵，本实施例中采用用稀疏矩阵的方法表示的，稀疏矩阵的任一种表示方法都可以。本实施例具体采用十字链表法为例，遍历L，对L的每一个关注行为，对十字链表X进行相应的更改以使得X表示M。这一步完成之后得到X及对应表示的M，因为M在实际中是稀疏的，所以X所占用的空间比M的矩阵表示法要小的多。

S103：将所述标记后的稀疏矩阵进行奇异值分解后，对关注行为进行聚类。

优选地，所述将所述标记后的稀疏矩阵进行奇异值分解后，对关注行为进行聚类，包括：

将所述标记后的稀疏矩阵X进行奇异值分解得到n*k维矩阵，k为预设的小于n的数；

获取所述n*k维矩阵中的n个(1*k)的向量，形成关注行为的数据点集D；

采用K-Means聚类算法对所述数据点集D进行聚类，获得聚族。

优选地，所述将所述标记后的稀疏矩阵X进行奇异值分解得到n*k维矩阵，包括：

采用截断型奇异值分解TruncatedSVD运算对所述标记后的稀疏矩阵X进行奇异值分解，取分解后的前k个奇异值和对应的列得到n*k维矩阵。

具体地，对X表示的M进行矩阵的SVD分解，SVD分解将一个n*n的矩阵分解为U,S,V三个矩阵，其中S是对角矩阵，其值是原矩阵的奇异值。取奇异值矩阵最大的k个奇异值对应的U中的k列，形成新的矩阵X1(n*k)，本实施例中使用截断型奇异值分解TruncatedSVD，只计算前k个奇异值和对应的M的列而不用把n*n个元素都放进内存，这样就解决了超大矩阵运算的问题。

S104：若聚类后的某一聚族的平均关注数量大于预设的平均阈值且该聚族的总关注数量大于预设的总阈值，则判定该聚族的所有关注行为为异常关注行为。

优选地，所述预设的总阈值b通过下式计算：b＝0.1xl，其中，l为获取的设定时间段内的关注日志的总数量，及集合L的长度。

对应于上述方法，如图2所示，是本发明实施例一种异常关注行为批量实时识别装置的结构示意图，所述装置包括：

日志获取单元21，用于获取设定时间段内的关注行为日志，获取所述关注行为日志中的每一个关注行为对应的关注源用户身份证明UID和被关注用户身份证明UID；

矩阵单元22，用于将每一个关注行为在稀疏矩阵中对应该关注行为的关注源UID和被关注UID进行标记；

聚类单元23，用于将所述标记后的稀疏矩阵进行奇异值分解后，对关注行为进行聚类；

异常判定单元24，用于当聚类后的某一聚族的平均关注数量大于预设的平均阈值且该聚族的总关注数量大于预设的总阈值时，判定该聚族的所有关注行为为异常关注行为。

优选地，所述矩阵单元22具体用于：

构建一由十字链表法表示的空的n阶稀疏矩阵X，n为获取的所有关注源UID和被关注UID的总数量；

遍历获取的每一个关注行为，将每一个关注行为的关注源UIDi和被关注UIDj对应于稀疏矩阵X中的位置[i,j]处的数值x[i,j]加1，使得X[i,j]＝x[i,j]+1。

优选地，所述聚类单元23具体用于：

采用K-Means聚类算法对所述数据点集D进行聚类，获得聚族。

优选地，所述聚类单元具体还用于：采用截断型奇异值分解TruncatedSVD运算对所述标记后的稀疏矩阵X进行奇异值分解，取分解后的前k个奇异值和对应的列得到n*k维矩阵。

优选地，还包括总阈值计算单元，用于通过下式计算所述预设的总阈值b：b＝0.1xl，其中，l为获取的设定时间段内的关注日志的总数量。

按照本发明的技术方案，例举一具体实例如下：

我们取了10分钟的关注日志，形成的L：

关注源uid，被关注uid

1，2

3，4

5，6

5，7

5，8

5，9

10，6

10，7

10，8

10，9

得到所有uid集合S：{1,2,3…10}n＝10

形成全零矩阵M，10*10大小。

遍历L，把对应关注现象+1得到矩阵M：

array([[0.,1.,0.,0.,0.,0.,0.,0.,0.,0.],

[0.,0.,0.,0.,0.,0.,0.,0.,0.,0.],

[0.,0.,0.,1.,0.,0.,0.,0.,0.,0.],

[0.,0.,0.,0.,0.,0.,0.,0.,0.,0.],

[0.,0.,0.,0.,0.,1.,1.,1.,1.,0.],

[0.,0.,0.,0.,0.,0.,0.,0.,0.,0.],

[0.,0.,0.,0.,0.,1.,1.,1.,1.,0.]])

现在假设电脑上没这么多空间把M都存下，则用链表法表示稀疏矩阵：

构成一个新的空矩阵X：

在python中：

import scipy.sparse as sp

from sklearn.decomposition import TruncatedSVD

x＝sp.lil_matrix((10,10))

此时再遍历L：把所有关注源i和被关注者j的行为写入矩阵：

X[i,j]＝x[i,j]+1

遍历完之后得到稀疏矩阵x代表的矩阵M

之后要得到降维之后的矩阵X1:在python中：

X1＝TruncatedSVD(k).fit_transform(x)

此时X1就是一个TruncatedSVD运算降维好的n*k维的矩阵了。可以看到因为k是相对n是比较小的，且可以人为选取，在实际操作中t＝1440，k取2的效果已经比较好。

X1运算结果为array([[9.18007357e-16,-6.58721843e-01],

[1.58483336e-16,-4.40217440e-16],

[-3.77786068e-17,7.52386558e-01],

[3.25635258e-30,-0.00000000e+00],

[2.00000000e+00,-2.14323681e-16],

[0.00000000e+00,-0.00000000e+00],

[2.00000000e+00,2.99367854e-16]])

把X1的每一行看作数据点，对X1进行聚类，得到聚类中心为：

array([[2.00000000e+00,4.16333634e-17],

[-5.55111512e-17,-7.45931095e-17],

[-5.55111512e-17,7.52386558e-01],

[9.43689571e-16,-6.58721843e-01]])

各个点所属的聚类编号为array([3,1,2,1,0,1,1,1,1,0]，dtype＝int32)，此处聚簇编号为从0开始的0，1，2，3。此处需要细心，可以看出后两个聚簇中心[-5.55111512e-17,7.52386558e-01],[9.43689571e-16,-6.58721843e-01]对应的是X1中的第2行和第0行，这两个聚簇分别只有一个点。即2号聚簇和3号聚簇各有一个，也就是L中前两个1->2 3->4。还有个巨大的以几乎以0为中心的巨大聚簇：1号聚簇，命名为全0聚簇，这是由于在关注日志中从未关注其他人只是被关注导致的全0向量非常多。统计得到编号0的两个聚簇发起关注的uid平均关注次数是4次>a＝3，且其总关注次数>b＝0.1*l的长度，则认为编号0的聚簇中的uid都是异常的，其关注请求也都是异常请求。其他3个聚簇均不满足这样的条件。比如全0聚簇，平均关注次数就是0，不满足>a＝3的条件。

SVD方法可以简单看作降维的作用。若直接用M矩阵进行聚类运算，只能尝试t＝1分钟，这时矩阵n*n的运算才是可能的。但是通过采用稀疏矩阵和奇异值分解，能够取到t＝1440分钟，准确率和召回率都有了巨大的提高。

在实际操作过程中，矩阵M是非常稀疏的。聚类算法使用的是K-Means方法。

采用本方案，对获取关注行为日志可以在一个较长的时间段内取值，例如取时间t为60分钟，则M大概为一个50000*50000的矩阵，如此巨大的矩阵是在现有计算条件下很难快速计算的。经过离线测试，发现t在小于1天时的规律是矩阵越大，其聚类结果越好，聚簇之内的点越多，相似度越高，采用稀疏矩阵和奇异值分解对关注行为日志进行矩阵记录和聚类分析，亦能快速进行计算。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种异常关注行为批量实时识别方法，其特征在于，包括：

2.如权利要求1所述的异常关注行为批量实时识别方法，其特征在于，所述将每一个关注行为在稀疏矩阵中对应该关注行为的关注源UID和被关注UID进行标记，包括：

3.如权利要求2所述的异常关注行为批量实时识别方法，其特征在于，所述将所述标记后的稀疏矩阵进行奇异值分解后，对关注行为进行聚类，包括：

采用K-Means聚类算法对所述数据点集D进行聚类，获得聚族。

4.如权利要求3所述的异常关注行为批量实时识别方法，其特征在于，所述将所述标记后的稀疏矩阵X进行奇异值分解得到n*k维矩阵，包括：

5.如权利要求4所述的异常关注行为批量实时识别方法，其特征在于，所述预设的总阈值b通过下式计算：b＝0.1xl，其中，l为获取的设定时间段内的关注行为的总数量。

6.一种异常关注行为批量实时识别装置，其特征在于，包括：

异常判定单元，用于当聚类后的某一聚族的平均关注数量大于预设的平均阈值且该聚族的总关注数量大于预设的总阈值时，判定该聚族的所有关注行为为异常关注行为。

7.如权利要求6所述的异常关注行为批量实时识别装置，其特征在于，所述矩阵单元具体用于：

8.如权利要求7所述的异常关注行为批量实时识别装置，其特征在于，所述聚类单元具体用于：

采用K-Means聚类算法对所述数据点集D进行聚类，获得聚族。

9.如权利要求8所述的异常关注行为批量实时识别装置，其特征在于，所述聚类单元具体还用于：采用截断型奇异值分解TruncatedSVD运算对所述标记后的稀疏矩阵X进行奇异值分解，取分解后的前k个奇异值和对应的列得到n*k维矩阵。

10.如权利要求9所述的异常关注行为批量实时识别装置，其特征在于，还包括总阈值计算单元，用于通过下式计算所述预设的总阈值b：b＝0.1xl，其中，l为获取的设定时间段内的关注行为的总数量。