CN111507377B

CN111507377B - 一种养号帐号批量识别方法及装置

Info

Publication number: CN111507377B
Application number: CN202010210947.0A
Authority: CN
Inventors: 王嘉伟
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2023-08-11
Anticipated expiration: 2040-03-24
Also published as: CN111507377A

Abstract

本发明实施例提供一种养号帐号批量识别方法及装置，其中，所述方法包括：获取设定时间段内的登录日志和行为日志；根据所述登录日志和行为日志，获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息，建立对应每一个用户帐号的信息向量；将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果，若所述判断结果大于设定阈值，则判定相应的用户帐号为养号帐号。根据本发明的技术方案，通过机器学习的方法对养号帐号进行识别，不依赖人工确定的阈值，提升整个系统的准确率和召回率。

Description

一种养号帐号批量识别方法及装置

技术领域

本发明涉及数据处理领域，具体涉及一种养号帐号批量识别方法及装置。

背景技术

在现代的社交媒体的互联网帐号中，一大部分的帐号的所有者是正常用户。但是仍然有一批数量极大的帐号，它们的所有者是不法分子，不法分子有了大量帐号资源才能进行其非法活动，如刷红包、刷评论刷赞等非法操作。现在不法分子一般采取“养号”的方式为其拥有的大批帐号进行伪装，也就是将帐号伪装成正常用户的帐号，表现为周期性的关注、取消关注、周期性的登录、周期性的发垃圾内容。现在的问题是如何构建一个能批量识别出这些进行过伪装的帐号的系统。

发明内容

本发明实施例提供一种养号帐号批量识别方法及装置，通过机器学习的方法对养号帐号进行识别，不依赖人工确定的阈值，提升整个系统的准确率和召回率。

为达到上述目的，一方面，本发明实施例提供了一种养号帐号批量识别方法，所述方法包括：

获取设定时间段内的登录日志和行为日志；

根据所述登录日志和行为日志，获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息，建立对应每一个用户帐号的信息向量；

将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果，若所述判断结果大于设定阈值，则判定相应的用户帐号为养号帐号。

另一方面，本发明实施例提供了一种养号帐号批量识别装置，所述装置包括：

日志获取单元，用于获取设定时间段内的登录日志和行为日志；

信息统计单元，用于根据所述登录日志和行为日志，获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息，建立对应每一个用户帐号的信息向量；

判定单元，用于将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果，若所述判断结果大于设定阈值，则判定相应的用户帐号为养号帐号。

上述技术方案具有如下有益效果：

本发明的技术方案由于使用了这种基于逻辑回归的养号帐号批量识别系统，现在机器学习算法从已有的数据里学习到养号帐号的特征，从而能让算法对帐号加以判断，提升整个系统的准确率和召回率，并使其不依赖人工确定的阈值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一种养号帐号批量识别方法的流程图；

图2是本发明实施例一种养号帐号批量识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本方案中相关的缩略语和关键术语定义：

养号帐号：在现代的社交媒体的互联网帐号中，一大部分的帐号的所有者是正常用户。但是仍然有一批数量极大的帐号，它们的所有者是不法分子，不法分子有了大量帐号资源才能进行其非法活动，如刷红包、刷评论刷赞等非法操作。现在不法分子一般采取“养号”的方式为其拥有的大批帐号进行伪装，也就是将帐号伪装成正常用户的帐号。现在的问题是如何构建一个能批量识别出这些进行过伪装的帐号的系统。

登录日志：互联网帐号在登录的时候会产生一条登录日志，其信息一般有登录ip，登录帐号，登录时间，登录信息等。

行为日志：互联网帐号进行上行操作时所记录的日志，如点赞，评论，关注等行为。其信息有操作行为号，帐号，时间，目标等信息。

逻辑回归：一种机器学习分类算法，能够以一些有标签数据来进行训练，然后对数据进行分类预测。

如图1所示，是本发明实施例一种养号帐号批量识别方法的流程图，所述方法包括：

S101：获取设定时间段内的登录日志和行为日志。

取前一个月所有的登录日志和行为日志，对于登录日志里的所有用户账号uid，建立一个行为队列Q。所有行为队列的集合称为SQ，即SQ：{Q1,Q2,Q3…Qn}，n为登录日志里的去重之后帐号个数。

S102：根据所述登录日志和行为日志，获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息，建立对应每一个用户帐号的信息向量。

优选地，所述获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息，建立对应每一个用户帐号的信息向量，包括：

获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的操作行为对应的时间信息，所述时间信息包括：每两个相邻登录之间的时间差的平均值uT和标准差sT、每一次登录与该次登录后的最后一次操作行为之间的时间差的平均值uT`和标准差sT`、在凌晨的操作占整体操作的比例rM；获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的与帐号相关的物理信息，所述与帐号相关的物理信息包括：该用户帐号使用的去重后的用户代理数量nUA、去重后的设备个数nD、去重后的操作系统个数nO、去重后的接口个数nA、次数最多的用户代理占总体的比例rUA、次数最多的设备占总体的比例rD、次数最多的操作系统占总体的比例rO、次数最多的接口占总体的比例rA以及其使用的ip的去重个数nIP；根据所述时间信息和物理信息，建立对应每一个用户帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]。优选地，所述操作行为包括点赞、评论、关注以及取消关注。

具体地，对于SQ里的每个Q：遍历登录日志和行为日志：按时间顺序记录其登录和行为顺序和对应的精确时间。此处登录记为L，赞记为Z，评论记为C，关注记为F，取消关注记为D。此操作完成后得到的Q类似于Q：LZCCZZFLDCC这种形式。

对于SQ里的每个Q：先取得各个L标记之间的时间间隔序列T：[t1,t2,t3…]，求T的平均值和标准差uT,sT。再取得各个L标记和下一个L标记前面的行为的时间差序列T`：[t`1,t`2,t`3…]，求T`的平均值和标准差uT`,sT`。

对于SQ里的每一个Q，统计其在凌晨，即在一天24小时制里的2:00－6:00之间的操作占整体的比例rM。对于SQ里的每一个Q，统计其去重之后的User-Agent数量nUA，统计其去重之后的设备个数nD，去重之后的操作系统个数nO，去重之后的接口个数nA。对于SQ里的每一个Q，统计其次数最多的User-Agent占总体的比例rUA,统计其次数最多的设备占总体的比例rD,统计其次数最多的操作系统占总体的比例rO,统计其次数最多的接口占总体的比例rA。对于SQ里的每一个Q，统计其使用的ip的去重个数nIP。

对于SQ里的每一个Q，构建向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]。得到n个14维的向量[Xo1,Xo2…Xon]。

S103：将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果，若所述判断结果大于设定阈值，则判定相应的用户帐号为养号帐号。

优选地，获取一定数量的已确定的养号帐号以及非养号帐号在与所述设定时间段等长的历史时间段内的登录日志和行为日志，建立每一个养号帐号以及非养号帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]；

对养号帐号，对应其信息向量记录为1，对非养号帐号，对应其信息向量记录为0；

以获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录作为输入数据对逻辑回归模型进行训练，获得所述用于养号帐号识别的逻辑回归模型。

优选地，所述以获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录作为输入数据对逻辑回归模型进行训练，获得所述用于养号帐号识别的逻辑回归模型，包括：

将获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录按设定比例分为训练集和测试集；

采用所述训练集对逻辑回归模型进行训练，采用所述测试集对训练后的逻辑回归模型进行检测后获得所述用于养号帐号识别的逻辑回归模型。

具体地，对确定的养号帐号和非养号帐号，或者手动观察m个向量及其对应的行为队列和UID及其对应的其他信息，判断其是否是养号帐号，对应养号帐号记录为1，非养号帐号记为0，堆叠得到m维向量Y，记录其分别对应的Xo得到m个14维向量[X1,X2,…Xm]上下堆叠得到矩阵X(大小为m*14)。

X，Y按一定比例，例如3:1的比例划分训练集和测试集Xtrain，Xtest，Ytrain，Ytest；使用Xtrain，Ytrain训练逻辑回归模型M，这是一种机器学习模型。训练好之后用Xtest，Ytest检验拟合效果。

逻辑回归模型M训练好之后，若提供某UID的[Xo1,Xo2…Xon]则M能对其判断是否为养号帐号。每天跑一次过去30天的登录日志行为日志，对每个帐号形成14维向量写成矩阵Xpre，让M进行判断。

对应于上述方法，如图2所示，是本发明实施例一种养号帐号批量识别装置的结构示意图，所述装置包括：

日志获取单元21，用于获取设定时间段内的登录日志和行为日志；

信息统计单元22，用于用于根据所述登录日志和行为日志，获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息，建立对应每一个用户帐号的信息向量；

判定单元23，用于将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果，若所述判断结果大于设定阈值，则判定相应的用户帐号为养号帐号。

优选地，所述信息统计单元22具体用于：

获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的操作行为对应的时间信息，所述时间信息包括：每两个相邻登录之间的时间差的平均值uT和标准差sT、每一次登录与该次登录后的最后一次操作行为之间的时间差的平均值uT`和标准差sT`、在凌晨的操作占整体操作的比例rM；

获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的与帐号相关的物理信息，所述与帐号相关的物理信息包括：该用户帐号使用的去重后的用户代理数量nUA、去重后的设备个数nD、去重后的操作系统个数nO、去重后的接口个数nA、次数最多的用户代理占总体的比例rUA、次数最多的设备占总体的比例rD、次数最多的操作系统占总体的比例rO、次数最多的接口占总体的比例rA以及其使用的ip的去重个数nIP；

根据所述时间信息和物理信息，建立对应每一个用户帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]。

优选地，还包括模型训练单元，用于：

通过以下步骤建立所述用于养号帐号识别的逻辑回归模型：

获取一定数量的已确定的养号帐号以及非养号帐号在与所述设定时间段等长的历史时间段内的登录日志和行为日志，建立每一个养号帐号以及非养号帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]；

优选地，所述模型训练单元具体用于：

优选地，所述操作行为包括点赞、评论、关注以及取消关注。

按照本发明的技术方案，例举一具体实例如下：

如一个月里的登录日志里有4个帐号，则SQ的大小为4，建立了四个队列Q1到Q4.

按时间顺序遍历登录日志和行为日志，把登录记为L，赞记为Z，评论记为C，关注记为F，取消关注记为D，按时间顺序记录到对应的队列里。举例说这一步完成之后得到四个队列是这样的：

Q1：LZZ

Q2：L

Q3：LCLCLCLCLCLCLCLCLCLCLCLCLCLCLCLCLCLCLC

Q4：LZCFDLZCFDLZCFDLZCFDLZCFDLZCFDLZCFDLZCFDLZCFDLZCFD

可得到各个T为：

T1：[]

T2：[]

T3：[1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时，1小时]

T4：[2小时，2小时，2小时，2小时，2小时，2小时，2小时，2小时，2小时，2小时]

进一步，得到各个T`为：

T`1：[]

T`2：[]

T`3：[13ms,14ms,13ms,13ms,13ms,13ms,12ms,13ms,13ms,14ms,13ms,13ms,13ms,13ms,13ms,13ms,13ms,13ms,13ms,13ms,12ms,13ms,13ms]

T`4：[1s,1s,1s,1s,1s,1s,1s,1s,1s,1s]

这些T`的列表长度为：

0

18

10

这些T`的平均值uT`为：

-(不用计算，列表长度为0)

-

13ms

1s

然后经过统计分析，得到这4个帐号的14维向量为：

[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]

[100000,299,30,2.4,1,1,1,1,1,1,1,1,1]

[200000,4229,301,32,1,1,1,1,1,1,1,1,1]

[3600,0,0.013,0.001,0.333,15,12,5,8,15,15,15,15,15]

[7200,0,1,0,0.333,20,20,20,20,20,20,20,20,20]

然后手动标记这4个帐号，第1，2是正常用户，3，4是养号用户。得到Y[0,0,1,1]，正常用户的登录间隔一般较长，方差较大，其设备、useragent、使用的ip都很少。而养号帐号则完全相反。

然后得到X[[100000,299,30,2.4,1,1,1,1,1,1,1,1,1],

[200000,4229,301,32,1,1,1,1,1,1,1,1,1],

[3600,0,0.013,0.001,0.333,15,12,5,8,15,15,15,15,15],

[7200,0,1,0,0.333,20,20,20,20,20,20,20,20,20],

]

在实际操作中，n一般取1000以上，使用0.1的比例取出测试集，但是例子中4个比较方便解释但是太少了，所以就把4个数据点当作训练集。

在python中：

M＝LogisticRegression()

M.fit(Xtrain,Ytrain)

此时M已经训练好了。如果有要判断某一批帐号mp个是否是养号帐号的情况，获得其14维向量，写成矩阵的形式Xpre(大小为mp*14)，再：

M.predict(Xpre)

可以获得长度为mp的向量，形式如[0.001,0.999,0.999…]之类的，这是机器学习模型对这些帐号的判断结果。越接近1则越像是养号帐号，设定阈值根据实际需要进行设置。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种养号帐号批量识别方法，其特征在于，包括：

获取设定时间段内的登录日志和行为日志；

将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果，若所述判断结果大于设定阈值，则判定相应的用户帐号为养号帐号；

其中，所述获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息，建立对应每一个用户帐号的信息向量，包括：

根据所述时间信息和物理信息，建立对应每一个用户帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]；

所述操作行为包括点赞、评论、关注以及取消关注。

2.如权利要求1所述的养号帐号批量识别方法，其特征在于，所述用于养号帐号识别的逻辑回归模型通过以下步骤进行训练：

3.如权利要求2所述的养号帐号批量识别方法，其特征在于，所述以获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录作为输入数据对逻辑回归模型进行训练，获得所述用于养号帐号识别的逻辑回归模型，包括：

4.一种养号帐号批量识别装置，其特征在于，包括：

判定单元，用于将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果，若所述判断结果大于设定阈值，则判定相应的用户帐号为养号帐号；

其中，所述信息统计单元具体用于：获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的操作行为对应的时间信息，所述时间信息包括：每两个相邻登录之间的时间差的平均值uT和标准差sT、每一次登录与该次登录后的最后一次操作行为之间的时间差的平均值uT`和标准差sT`、在凌晨的操作占整体操作的比例rM；

所述操作行为包括点赞、评论、关注以及取消关注。

5.如权利要求4所述的养号帐号批量识别装置，其特征在于，还包括模型训练单元，用于：通过以下步骤建立所述用于养号帐号识别的逻辑回归模型：

6.如权利要求5所述的养号帐号批量识别装置，其特征在于，所述模型训练单元具体用于：