CN111507377B - 一种养号帐号批量识别方法及装置 - Google Patents

一种养号帐号批量识别方法及装置 Download PDF

Info

Publication number
CN111507377B
CN111507377B CN202010210947.0A CN202010210947A CN111507377B CN 111507377 B CN111507377 B CN 111507377B CN 202010210947 A CN202010210947 A CN 202010210947A CN 111507377 B CN111507377 B CN 111507377B
Authority
CN
China
Prior art keywords
account
keeping
information
log
logistic regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010210947.0A
Other languages
English (en)
Other versions
CN111507377A (zh
Inventor
王嘉伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN202010210947.0A priority Critical patent/CN111507377B/zh
Publication of CN111507377A publication Critical patent/CN111507377A/zh
Application granted granted Critical
Publication of CN111507377B publication Critical patent/CN111507377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种养号帐号批量识别方法及装置,其中,所述方法包括:获取设定时间段内的登录日志和行为日志;根据所述登录日志和行为日志,获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息,建立对应每一个用户帐号的信息向量;将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果,若所述判断结果大于设定阈值,则判定相应的用户帐号为养号帐号。根据本发明的技术方案,通过机器学习的方法对养号帐号进行识别,不依赖人工确定的阈值,提升整个系统的准确率和召回率。

Description

一种养号帐号批量识别方法及装置
技术领域
本发明涉及数据处理领域,具体涉及一种养号帐号批量识别方法及装置。
背景技术
在现代的社交媒体的互联网帐号中,一大部分的帐号的所有者是正常用户。但是仍然有一批数量极大的帐号,它们的所有者是不法分子,不法分子有了大量帐号资源才能进行其非法活动,如刷红包、刷评论刷赞等非法操作。现在不法分子一般采取“养号”的方式为其拥有的大批帐号进行伪装,也就是将帐号伪装成正常用户的帐号,表现为周期性的关注、取消关注、周期性的登录、周期性的发垃圾内容。现在的问题是如何构建一个能批量识别出这些进行过伪装的帐号的系统。
发明内容
本发明实施例提供一种养号帐号批量识别方法及装置,通过机器学习的方法对养号帐号进行识别,不依赖人工确定的阈值,提升整个系统的准确率和召回率。
为达到上述目的,一方面,本发明实施例提供了一种养号帐号批量识别方法,所述方法包括:
获取设定时间段内的登录日志和行为日志;
根据所述登录日志和行为日志,获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息,建立对应每一个用户帐号的信息向量;
将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果,若所述判断结果大于设定阈值,则判定相应的用户帐号为养号帐号。
另一方面,本发明实施例提供了一种养号帐号批量识别装置,所述装置包括:
日志获取单元,用于获取设定时间段内的登录日志和行为日志;
信息统计单元,用于根据所述登录日志和行为日志,获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息,建立对应每一个用户帐号的信息向量;
判定单元,用于将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果,若所述判断结果大于设定阈值,则判定相应的用户帐号为养号帐号。
上述技术方案具有如下有益效果:
本发明的技术方案由于使用了这种基于逻辑回归的养号帐号批量识别系统,现在机器学习算法从已有的数据里学习到养号帐号的特征,从而能让算法对帐号加以判断,提升整个系统的准确率和召回率,并使其不依赖人工确定的阈值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种养号帐号批量识别方法的流程图;
图2是本发明实施例一种养号帐号批量识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本方案中相关的缩略语和关键术语定义:
养号帐号:在现代的社交媒体的互联网帐号中,一大部分的帐号的所有者是正常用户。但是仍然有一批数量极大的帐号,它们的所有者是不法分子,不法分子有了大量帐号资源才能进行其非法活动,如刷红包、刷评论刷赞等非法操作。现在不法分子一般采取“养号”的方式为其拥有的大批帐号进行伪装,也就是将帐号伪装成正常用户的帐号。现在的问题是如何构建一个能批量识别出这些进行过伪装的帐号的系统。
登录日志:互联网帐号在登录的时候会产生一条登录日志,其信息一般有登录ip,登录帐号,登录时间,登录信息等。
行为日志:互联网帐号进行上行操作时所记录的日志,如点赞,评论,关注等行为。其信息有操作行为号,帐号,时间,目标等信息。
逻辑回归:一种机器学习分类算法,能够以一些有标签数据来进行训练,然后对数据进行分类预测。
如图1所示,是本发明实施例一种养号帐号批量识别方法的流程图,所述方法包括:
S101:获取设定时间段内的登录日志和行为日志。
取前一个月所有的登录日志和行为日志,对于登录日志里的所有用户账号uid,建立一个行为队列Q。所有行为队列的集合称为SQ,即SQ:{Q1,Q2,Q3…Qn},n为登录日志里的去重之后帐号个数。
S102:根据所述登录日志和行为日志,获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息,建立对应每一个用户帐号的信息向量。
优选地,所述获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息,建立对应每一个用户帐号的信息向量,包括:
获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的操作行为对应的时间信息,所述时间信息包括:每两个相邻登录之间的时间差的平均值uT和标准差sT、每一次登录与该次登录后的最后一次操作行为之间的时间差的平均值uT`和标准差sT`、在凌晨的操作占整体操作的比例rM;获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的与帐号相关的物理信息,所述与帐号相关的物理信息包括:该用户帐号使用的去重后的用户代理数量nUA、去重后的设备个数nD、去重后的操作系统个数nO、去重后的接口个数nA、次数最多的用户代理占总体的比例rUA、次数最多的设备占总体的比例rD、次数最多的操作系统占总体的比例rO、次数最多的接口占总体的比例rA以及其使用的ip的去重个数nIP;根据所述时间信息和物理信息,建立对应每一个用户帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]。优选地,所述操作行为包括点赞、评论、关注以及取消关注。
具体地,对于SQ里的每个Q:遍历登录日志和行为日志:按时间顺序记录其登录和行为顺序和对应的精确时间。此处登录记为L,赞记为Z,评论记为C,关注记为F,取消关注记为D。此操作完成后得到的Q类似于Q:LZCCZZFLDCC这种形式。
对于SQ里的每个Q:先取得各个L标记之间的时间间隔序列T:[t1,t2,t3…],求T的平均值和标准差uT,sT。再取得各个L标记和下一个L标记前面的行为的时间差序列T`:[t`1,t`2,t`3…],求T`的平均值和标准差uT`,sT`。
对于SQ里的每一个Q,统计其在凌晨,即在一天24小时制里的2:00-6:00之间的操作占整体的比例rM。对于SQ里的每一个Q,统计其去重之后的User-Agent数量nUA,统计其去重之后的设备个数nD,去重之后的操作系统个数nO,去重之后的接口个数nA。对于SQ里的每一个Q,统计其次数最多的User-Agent占总体的比例rUA,统计其次数最多的设备占总体的比例rD,统计其次数最多的操作系统占总体的比例rO,统计其次数最多的接口占总体的比例rA。对于SQ里的每一个Q,统计其使用的ip的去重个数nIP。
对于SQ里的每一个Q,构建向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]。得到n个14维的向量[Xo1,Xo2…Xon]。
S103:将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果,若所述判断结果大于设定阈值,则判定相应的用户帐号为养号帐号。
优选地,获取一定数量的已确定的养号帐号以及非养号帐号在与所述设定时间段等长的历史时间段内的登录日志和行为日志,建立每一个养号帐号以及非养号帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP];
对养号帐号,对应其信息向量记录为1,对非养号帐号,对应其信息向量记录为0;
以获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录作为输入数据对逻辑回归模型进行训练,获得所述用于养号帐号识别的逻辑回归模型。
优选地,所述以获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录作为输入数据对逻辑回归模型进行训练,获得所述用于养号帐号识别的逻辑回归模型,包括:
将获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录按设定比例分为训练集和测试集;
采用所述训练集对逻辑回归模型进行训练,采用所述测试集对训练后的逻辑回归模型进行检测后获得所述用于养号帐号识别的逻辑回归模型。
具体地,对确定的养号帐号和非养号帐号,或者手动观察m个向量及其对应的行为队列和UID及其对应的其他信息,判断其是否是养号帐号,对应养号帐号记录为1,非养号帐号记为0,堆叠得到m维向量Y,记录其分别对应的Xo得到m个14维向量[X1,X2,…Xm]上下堆叠得到矩阵X(大小为m*14)。
X,Y按一定比例,例如3:1的比例划分训练集和测试集Xtrain,Xtest,Ytrain,Ytest;使用Xtrain,Ytrain训练逻辑回归模型M,这是一种机器学习模型。训练好之后用Xtest,Ytest检验拟合效果。
逻辑回归模型M训练好之后,若提供某UID的[Xo1,Xo2…Xon]则M能对其判断是否为养号帐号。每天跑一次过去30天的登录日志行为日志,对每个帐号形成14维向量写成矩阵Xpre,让M进行判断。
对应于上述方法,如图2所示,是本发明实施例一种养号帐号批量识别装置的结构示意图,所述装置包括:
日志获取单元21,用于获取设定时间段内的登录日志和行为日志;
信息统计单元22,用于用于根据所述登录日志和行为日志,获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息,建立对应每一个用户帐号的信息向量;
判定单元23,用于将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果,若所述判断结果大于设定阈值,则判定相应的用户帐号为养号帐号。
优选地,所述信息统计单元22具体用于:
获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的操作行为对应的时间信息,所述时间信息包括:每两个相邻登录之间的时间差的平均值uT和标准差sT、每一次登录与该次登录后的最后一次操作行为之间的时间差的平均值uT`和标准差sT`、在凌晨的操作占整体操作的比例rM;
获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的与帐号相关的物理信息,所述与帐号相关的物理信息包括:该用户帐号使用的去重后的用户代理数量nUA、去重后的设备个数nD、去重后的操作系统个数nO、去重后的接口个数nA、次数最多的用户代理占总体的比例rUA、次数最多的设备占总体的比例rD、次数最多的操作系统占总体的比例rO、次数最多的接口占总体的比例rA以及其使用的ip的去重个数nIP;
根据所述时间信息和物理信息,建立对应每一个用户帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]。
优选地,还包括模型训练单元,用于:
通过以下步骤建立所述用于养号帐号识别的逻辑回归模型:
获取一定数量的已确定的养号帐号以及非养号帐号在与所述设定时间段等长的历史时间段内的登录日志和行为日志,建立每一个养号帐号以及非养号帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP];
对养号帐号,对应其信息向量记录为1,对非养号帐号,对应其信息向量记录为0;
以获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录作为输入数据对逻辑回归模型进行训练,获得所述用于养号帐号识别的逻辑回归模型。
优选地,所述模型训练单元具体用于:
将获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录按设定比例分为训练集和测试集;
采用所述训练集对逻辑回归模型进行训练,采用所述测试集对训练后的逻辑回归模型进行检测后获得所述用于养号帐号识别的逻辑回归模型。
优选地,所述操作行为包括点赞、评论、关注以及取消关注。
按照本发明的技术方案,例举一具体实例如下:
如一个月里的登录日志里有4个帐号,则SQ的大小为4,建立了四个队列Q1到Q4.
按时间顺序遍历登录日志和行为日志,把登录记为L,赞记为Z,评论记为C,关注记为F,取消关注记为D,按时间顺序记录到对应的队列里。举例说这一步完成之后得到四个队列是这样的:
Q1:LZZ
Q2:L
Q3:LCLCLCLCLCLCLCLCLCLCLCLCLCLCLCLCLCLCLC
Q4:LZCFDLZCFDLZCFDLZCFDLZCFDLZCFDLZCFDLZCFDLZCFDLZCFD
可得到各个T为:
T1:[]
T2:[]
T3:[1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时,1小时]
T4:[2小时,2小时,2小时,2小时,2小时,2小时,2小时,2小时,2小时,2小时]
进一步,得到各个T`为:
T`1:[]
T`2:[]
T`3:[13ms,14ms,13ms,13ms,13ms,13ms,12ms,13ms,13ms,14ms,13ms,13ms,13ms,13ms,13ms,13ms,13ms,13ms,13ms,13ms,12ms,13ms,13ms]
T`4:[1s,1s,1s,1s,1s,1s,1s,1s,1s,1s]
这些T`的列表长度为:
0
0
18
10
这些T`的平均值uT`为:
-(不用计算,列表长度为0)
-
13ms
1s
然后经过统计分析,得到这4个帐号的14维向量为:
[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP]
[100000,299,30,2.4,1,1,1,1,1,1,1,1,1]
[200000,4229,301,32,1,1,1,1,1,1,1,1,1]
[3600,0,0.013,0.001,0.333,15,12,5,8,15,15,15,15,15]
[7200,0,1,0,0.333,20,20,20,20,20,20,20,20,20]
然后手动标记这4个帐号,第1,2是正常用户,3,4是养号用户。得到Y[0,0,1,1],正常用户的登录间隔一般较长,方差较大,其设备、useragent、使用的ip都很少。而养号帐号则完全相反。
然后得到X[[100000,299,30,2.4,1,1,1,1,1,1,1,1,1],
[200000,4229,301,32,1,1,1,1,1,1,1,1,1],
[3600,0,0.013,0.001,0.333,15,12,5,8,15,15,15,15,15],
[7200,0,1,0,0.333,20,20,20,20,20,20,20,20,20],
]
在实际操作中,n一般取1000以上,使用0.1的比例取出测试集,但是例子中4个比较方便解释但是太少了,所以就把4个数据点当作训练集。
在python中:
M=LogisticRegression()
M.fit(Xtrain,Ytrain)
此时M已经训练好了。如果有要判断某一批帐号mp个是否是养号帐号的情况,获得其14维向量,写成矩阵的形式Xpre(大小为mp*14),再:
M.predict(Xpre)
可以获得长度为mp的向量,形式如[0.001,0.999,0.999…]之类的,这是机器学习模型对这些帐号的判断结果。越接近1则越像是养号帐号,设定阈值根据实际需要进行设置。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种养号帐号批量识别方法,其特征在于,包括:
获取设定时间段内的登录日志和行为日志;
根据所述登录日志和行为日志,获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息,建立对应每一个用户帐号的信息向量;
将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果,若所述判断结果大于设定阈值,则判定相应的用户帐号为养号帐号;
其中,所述获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息,建立对应每一个用户帐号的信息向量,包括:
获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的操作行为对应的时间信息,所述时间信息包括:每两个相邻登录之间的时间差的平均值uT和标准差sT、每一次登录与该次登录后的最后一次操作行为之间的时间差的平均值uT`和标准差sT`、在凌晨的操作占整体操作的比例rM;
获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的与帐号相关的物理信息,所述与帐号相关的物理信息包括:该用户帐号使用的去重后的用户代理数量nUA、去重后的设备个数nD、去重后的操作系统个数nO、去重后的接口个数nA、次数最多的用户代理占总体的比例rUA、次数最多的设备占总体的比例rD、次数最多的操作系统占总体的比例rO、次数最多的接口占总体的比例rA以及其使用的ip的去重个数nIP;
根据所述时间信息和物理信息,建立对应每一个用户帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP];
所述操作行为包括点赞、评论、关注以及取消关注。
2.如权利要求1所述的养号帐号批量识别方法,其特征在于,所述用于养号帐号识别的逻辑回归模型通过以下步骤进行训练:
获取一定数量的已确定的养号帐号以及非养号帐号在与所述设定时间段等长的历史时间段内的登录日志和行为日志,建立每一个养号帐号以及非养号帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP];
对养号帐号,对应其信息向量记录为1,对非养号帐号,对应其信息向量记录为0;
以获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录作为输入数据对逻辑回归模型进行训练,获得所述用于养号帐号识别的逻辑回归模型。
3.如权利要求2所述的养号帐号批量识别方法,其特征在于,所述以获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录作为输入数据对逻辑回归模型进行训练,获得所述用于养号帐号识别的逻辑回归模型,包括:
将获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录按设定比例分为训练集和测试集;
采用所述训练集对逻辑回归模型进行训练,采用所述测试集对训练后的逻辑回归模型进行检测后获得所述用于养号帐号识别的逻辑回归模型。
4.一种养号帐号批量识别装置,其特征在于,包括:
日志获取单元,用于获取设定时间段内的登录日志和行为日志;
信息统计单元,用于根据所述登录日志和行为日志,获取每一个用户帐号在所述设定时间段内的操作行为对应的时间信息、以及与帐号相关的物理信息,建立对应每一个用户帐号的信息向量;
判定单元,用于将所述信息向量输入预先训练好的用于养号帐号识别的逻辑回归模型中获得判断结果,若所述判断结果大于设定阈值,则判定相应的用户帐号为养号帐号;
其中,所述信息统计单元具体用于:获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的操作行为对应的时间信息,所述时间信息包括:每两个相邻登录之间的时间差的平均值uT和标准差sT、每一次登录与该次登录后的最后一次操作行为之间的时间差的平均值uT`和标准差sT`、在凌晨的操作占整体操作的比例rM;
获取所述登录日志和行为日志中每一个用户帐号在所述设定时间段内的与帐号相关的物理信息,所述与帐号相关的物理信息包括:该用户帐号使用的去重后的用户代理数量nUA、去重后的设备个数nD、去重后的操作系统个数nO、去重后的接口个数nA、次数最多的用户代理占总体的比例rUA、次数最多的设备占总体的比例rD、次数最多的操作系统占总体的比例rO、次数最多的接口占总体的比例rA以及其使用的ip的去重个数nIP;
根据所述时间信息和物理信息,建立对应每一个用户帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP];
所述操作行为包括点赞、评论、关注以及取消关注。
5.如权利要求4所述的养号帐号批量识别装置,其特征在于,还包括模型训练单元,用于:通过以下步骤建立所述用于养号帐号识别的逻辑回归模型:
获取一定数量的已确定的养号帐号以及非养号帐号在与所述设定时间段等长的历史时间段内的登录日志和行为日志,建立每一个养号帐号以及非养号帐号的信息向量[uT,sT,uT`,sT`,rM,nUA,nD,nO,nA,rUA,rD,rO,rA,nIP];
对养号帐号,对应其信息向量记录为1,对非养号帐号,对应其信息向量记录为0;
以获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录作为输入数据对逻辑回归模型进行训练,获得所述用于养号帐号识别的逻辑回归模型。
6.如权利要求5所述的养号帐号批量识别装置,其特征在于,所述模型训练单元具体用于:
将获取的养号帐号以及非养号帐号的信息向量及信息向量对应的记录按设定比例分为训练集和测试集;
采用所述训练集对逻辑回归模型进行训练,采用所述测试集对训练后的逻辑回归模型进行检测后获得所述用于养号帐号识别的逻辑回归模型。
CN202010210947.0A 2020-03-24 2020-03-24 一种养号帐号批量识别方法及装置 Active CN111507377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010210947.0A CN111507377B (zh) 2020-03-24 2020-03-24 一种养号帐号批量识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010210947.0A CN111507377B (zh) 2020-03-24 2020-03-24 一种养号帐号批量识别方法及装置

Publications (2)

Publication Number Publication Date
CN111507377A CN111507377A (zh) 2020-08-07
CN111507377B true CN111507377B (zh) 2023-08-11

Family

ID=71875867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010210947.0A Active CN111507377B (zh) 2020-03-24 2020-03-24 一种养号帐号批量识别方法及装置

Country Status (1)

Country Link
CN (1) CN111507377B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112149037B (zh) * 2020-09-28 2024-03-19 微梦创科网络科技(中国)有限公司 基于逻辑回归的实时识别异常关注的方法及系统
CN112861128A (zh) * 2021-01-21 2021-05-28 微梦创科网络科技(中国)有限公司 一种批量识别机器账号的方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905532A (zh) * 2014-03-13 2014-07-02 微梦创科网络科技(中国)有限公司 微博营销账号的识别方法及系统
CN106295349A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 账号被盗的风险识别方法、识别装置及防控系统
CN106790072A (zh) * 2016-12-21 2017-05-31 微梦创科网络科技(中国)有限公司 恶意登录地址识别方法及装置
CN107146089A (zh) * 2017-03-29 2017-09-08 北京三快在线科技有限公司 一种刷单识别方法及装置,电子设备
CN107305611A (zh) * 2016-04-22 2017-10-31 腾讯科技(深圳)有限公司 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
EP3477906A1 (en) * 2017-10-26 2019-05-01 Accenture Global Solutions Limited Systems and methods for identifying and mitigating outlier network activity
CN110620770A (zh) * 2019-09-19 2019-12-27 微梦创科网络科技(中国)有限公司 一种分析网络黑产账号的方法及装置
CN110633423A (zh) * 2019-09-20 2019-12-31 北京字节跳动网络技术有限公司 目标账号识别方法、装置、设备及存储介质
CN110728543A (zh) * 2019-10-15 2020-01-24 秒针信息技术有限公司 异常账号的识别方法及装置
CN110751231A (zh) * 2019-10-30 2020-02-04 上海观安信息技术股份有限公司 一种基于无监督算法的养卡号码检测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103580939B (zh) * 2012-07-30 2018-03-20 腾讯科技(深圳)有限公司 一种基于账号属性的异常消息检测方法及设备
KR20150026587A (ko) * 2013-09-03 2015-03-11 네이버 주식회사 신규 기기로부터의 로그인 알림 기능 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905532A (zh) * 2014-03-13 2014-07-02 微梦创科网络科技(中国)有限公司 微博营销账号的识别方法及系统
CN106295349A (zh) * 2015-05-29 2017-01-04 阿里巴巴集团控股有限公司 账号被盗的风险识别方法、识别装置及防控系统
CN107305611A (zh) * 2016-04-22 2017-10-31 腾讯科技(深圳)有限公司 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN106790072A (zh) * 2016-12-21 2017-05-31 微梦创科网络科技(中国)有限公司 恶意登录地址识别方法及装置
CN107146089A (zh) * 2017-03-29 2017-09-08 北京三快在线科技有限公司 一种刷单识别方法及装置,电子设备
EP3477906A1 (en) * 2017-10-26 2019-05-01 Accenture Global Solutions Limited Systems and methods for identifying and mitigating outlier network activity
CN110620770A (zh) * 2019-09-19 2019-12-27 微梦创科网络科技(中国)有限公司 一种分析网络黑产账号的方法及装置
CN110633423A (zh) * 2019-09-20 2019-12-31 北京字节跳动网络技术有限公司 目标账号识别方法、装置、设备及存储介质
CN110728543A (zh) * 2019-10-15 2020-01-24 秒针信息技术有限公司 异常账号的识别方法及装置
CN110751231A (zh) * 2019-10-30 2020-02-04 上海观安信息技术股份有限公司 一种基于无监督算法的养卡号码检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度神经网络的恶意社交机器人检测技术研究;刘蓉;《中国优秀硕士学位论文全文数据库:信息科技辑》(第2期);I138-65 *

Also Published As

Publication number Publication date
CN111507377A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
Rudolph et al. Political trust, ideology, and public support for government spending
Van den Berg et al. Monitoring job offer decisions, punishments, exit to work, and job quality
CN106022849A (zh) 一种新媒体价值与效果评估方法和系统
US7433960B1 (en) Systems, methods and computer products for profile based identity verification over the internet
CN111507377B (zh) 一种养号帐号批量识别方法及装置
CN104823188A (zh) 针对在线系统中的用户动作的定制化预测器
CN112926699A (zh) 异常对象识别方法、装置、设备及存储介质
CN111754241A (zh) 一种用户行为感知方法、装置、设备及介质
CN111783086A (zh) 基于反生产行为特征的内部威胁检测方法和系统
JP7409080B2 (ja) 学習データ生成方法、学習データ生成プログラムおよび情報処理装置
US20200104412A1 (en) Combined data driven and knowledge driven analytics
CN108647827B (zh) 商户排队时长的预测方法、装置、电子设备及存储介质
CN108038692B (zh) 角色识别方法、装置及服务器
CN112100660A (zh) 一种日志文件敏感信息检测方法及装置
CN110992949A (zh) 基于语音识别的绩效考核方法、装置及可读存储介质
CN111915381A (zh) 检测作弊行为的方法、装置、电子设备和存储介质
CN111882113B (zh) 一种企业手机银行用户的预测方法和装置
CN110796379B (zh) 业务渠道的风险评估方法、装置、设备及存储介质
US11468348B1 (en) Causal analysis system
Wang et al. Equilibrium customer strategies in the Geo/Geo/1 queue with single working vacation
US20180075195A1 (en) System and method for facilitating computer-assisted healthcare-related outlier detection
Johnson et al. Adaptive regulation of waterfowl harvests: lessons learned and prospects for the future
Mitchell et al. Using structured decision making to manage disease risk for Montana wildlife
Toragay et al. Fast heuristic approach for control of complex authentication systems
CN107886217A (zh) 一种基于聚类算法的员工离职风险预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant