CN109525595A - 一种基于时间流特征的黑产账号识别方法及设备 - Google Patents

一种基于时间流特征的黑产账号识别方法及设备 Download PDF

Info

Publication number
CN109525595A
CN109525595A CN201811592908.0A CN201811592908A CN109525595A CN 109525595 A CN109525595 A CN 109525595A CN 201811592908 A CN201811592908 A CN 201811592908A CN 109525595 A CN109525595 A CN 109525595A
Authority
CN
China
Prior art keywords
account
data
user
black production
recognition methods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811592908.0A
Other languages
English (en)
Other versions
CN109525595B (zh
Inventor
林晓杰
王兆路
黄�俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Cubesili Information Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN201811592908.0A priority Critical patent/CN109525595B/zh
Publication of CN109525595A publication Critical patent/CN109525595A/zh
Application granted granted Critical
Publication of CN109525595B publication Critical patent/CN109525595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种基于时间流特征的黑产账号识别方法及设备,所述方法包括:获取业务流数据;从业务流数据中获取用户特征数据;通过无监督模型对用户特征数据计算得出每个用户账号的标签;以用户特征数据为输入信息,以标签为输出信息,建立神经网络进行训练;通过训练完毕的神经网络对待识别账号进行识别。本申请通过从业务流数据中获取用户特征数据实现适用多种终端,通过无监督模型实现自动标签,提高了多种终端中提取账号数据识别时的识别率,解决了传统的黑产识别技术识别率低、需要人工打标签且web端黑产账号识别率低的技术问题。

Description

一种基于时间流特征的黑产账号识别方法及设备
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于时间流特征的黑产账号识别方法及设备。
背景技术
黑产是指以互联网为媒介,以网络技术为主要手段,为计算机信息系统安全和网络空间管理秩序,甚至国家安全、社会政治稳定带来潜在威胁的非法行为,利用非法手段获取利益的黑色产业。这些黑色产业在计算机网络上所用的账号就是黑产账号。识别、封禁这些黑产账号是网络安全中非常重要的部分。
在黑产账号识别这方面,目前的技术如图1所示,从PC端、Android端、IOS端的安全SDK采集的数据,在APP内植入安全SDK对设备及运行环境等信息进行采集并上传到服务端,并且结合业务流程数据和安全信息库(安全信息库主要是在通过日常的业务历史数据的积累,对用户的手机号、IP、设备等进行收录并标识其恶意等级,以帮助提升对黑产账号的识别率及准确率)进行识别,对用户进行特征抽取,例如uid在指定周期内使用恶意ip的次数、指定周期内登录地变换的次数、指定周期内使用设备总数、指定周期内在业务出现的次数等等,然后根据人工标识或一定规则的标识出来的恶意用户,为所有的uid打上了恶意与非恶意的标签,将抽取的特征作为输入,将标签作为输出,使用主流的使用机器学习算法(逻辑回归、支持向量机等)或深度学习算法(DNN/CNN)进行模型训练,要注意的是样本需要足够大,保证在一定时间周期内所有样本的特征尽可能覆盖到,最后将训练出来的结果的配置作为基础,使用与训练同样的深度学习算法对新的特征数据进行预测识别。
基于上述现有技术,本领域技术人员发现以下技术问题:1)由于设备的信息一直在变化,设备信息的时效性很短,亦有可能某些设备信息在某些设备上是无法获取到,如果属于全球性的APP,用户亦属于全球性质的,可能各个国家对采集数据的监管不一样,造成一些关键信息无法采集,最终造成模型识别率严重下降;2)作为有监督模型,对uid进行打标签是个庞大的工作量,同时依据人工或者规则有可能打出来的标签不一定准备,标签的准确性会影响到后续模型训练的结果;3)对于有安全SDK的业务对黑产的识别准确率是有一定保证的,如果业务涉及到web端时,由于web端可以采集的信息很有限,并且所有信息都可以模仿,造成web端的黑产识别几乎为零。
发明内容
本发明提供了一种基于时间流特征的黑产账号识别方法及设备,用于解决传统的黑产识别技术识别率低、需要人工打标签且web端黑产账号识别率低的技术问题。
有鉴于此,本申请第一方面提供了一种基于时间流特征的黑产账号识别方法,所述方法包括:
获取业务流数据;
从业务流数据中获取用户特征数据;
通过无监督模型对用户特征数据计算得出每个用户账号的标签;
以用户特征数据为输入信息,以标签为输出信息,建立神经网络进行训练;
通过训练完毕的神经网络对待识别账号进行识别。
优选地,从业务流数据中获取用户特征数据包括:
通过聚类算法从业务流数据中提取预设时间内的符合相似性的uid聚类簇值,所述符合相似性为uid中相同数字的个数大于预设第一阈值和/或IP归属地相同;
将与用户账号相关的所有簇值作为该用户账号的用户特征数据。
优选地,从业务流数据中获取用户特征数据包括:
通过聚类算法从业务流数据和账号注册时间数据中提取预设时间内的符合相似性的uid聚类簇值,所述符合相似性为注册时间差值小于预设第二阈值和/或IP归属地相同;
将与用户账号相关的所有簇值作为该用户账号的用户特征数据。
优选地,通过无监督模型对用户特征数据计算得出每个用户账号的标签包括:
通过PCA算法或SOM算法根据用户特征数据计算出该用户账号的综合分值;
将综合分值从小到大排序得到每个用户账号的风险值;
判断用户账号的风险值是否大于预设风险值,若是,则给该用户账号打上恶意标签,若否,则打上非恶意标签,直到所有用户账号都打上标签。
优选地,所述神经网络包括机器学习算法或深度神经网络。
优选地,以用户特征数据为输入信息,以标签为输出信息,建立神经网络进行训练之后,通过训练完毕的神经网络对待识别账号进行识别之前还包括:
根据获取到用户账号误判的样本集合将训练样本中所有标签为恶意标签的样本提取出来,根据提取到的样本训练新的神经网络模型;
通过训练完毕的神经网络对待识别账号进行识别具体包括:
通过多个神经网络模型对待识别账号进行识别,所有模型都判断该用户账号为黑产账号时,则识别用户账号为黑产账号。
优选地,所述业务流数据包括:注册业务流数据、登录数据流、收藏频道数据流,对主播点赞数据流或抢优惠券数据流。
本申请第二方面提供了一种基于时间流特征的黑产账号识别设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述第一方面的基于时间流特征的黑产账号识别方法。
本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面的基于时间流特征的黑产账号识别方法。
本申请第四方面提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述第一方面的基于时间流特征的黑产账号识别方法。
从以上技术方案可以看出,本发明具有以下优点:
本申请提供了一种基于时间流特征的黑产账号识别方法及设备,所述方法包括:获取业务流数据;从业务流数据中获取用户特征数据;通过无监督模型对用户特征数据计算得出每个用户账号的标签;以用户特征数据为输入信息,以标签为输出信息,建立神经网络进行训练;通过训练完毕的神经网络对待识别账号进行识别。本申请通过从业务流数据中获取用户特征数据实现适用多种终端,通过无监督模型实现自动标签,提高了多种终端中提取账号数据识别时的识别率,解决了传统的黑产识别技术识别率低、需要人工打标签且web端黑产账号识别率低的技术问题。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请中现有技术实施流程的示意图;
图2为本申请提供的一种基于时间流特征的黑产账号识别方法的一个实施例的流程图;
图3为本申请提供的一种基于时间流特征的黑产账号识别方法的另一个实施例的流程图;
图4为本申请提供的一种基于时间流特征的黑产账号识别方法的实施流程示意图;
图5为本申请提供的一种基于时间流特征的黑产账号识别方法的一个应用例的示意图。
具体实施方式
本发明提供了一种基于时间流特征的黑产账号识别方法及设备,用于解决传统的黑产识别技术识别率低、需要人工打标签且web端黑产账号识别率低的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图2,本申请提供的一种基于时间流特征的黑产账号识别方法的一个实施例,所述方法包括:
101、获取业务流数据;
业务流数据一般是注册业务流数据、登录数据流、收藏频道数据流,对主播点赞数据流、抢优惠券数据流等数据,采集这些数据可以实时监控服务器中出现的黑产账号,做出及时处理。
102、从业务流数据中获取用户特征数据;
对于提取特征,有很多算法,比如聚类算法等,提取的特征一般是对于判断黑产账号有很相关的特征,比如由于黑产账号一般是批量注册的,所以其注册时间比较相近,因此可以把注册时间作为一种特征,又比如黑产账号一般是在同一个地方注册的,所以IP归属地也可以作为一种特征。
103、通过无监督模型对用户特征数据计算得出每个用户账号的标签;
无监督模型的主要作用是对用户特征数据进行降维处理,让计算更加快捷方便并且使得自动标签可以实现。
104、以用户特征数据为输入信息,以标签为输出信息,建立神经网络进行训练;
神经网络可以是普通的神经网络模型,也可以是深度神经网络,其训练方法不再赘述。
105、通过训练完毕的神经网络对待识别账号进行识别;
训练完毕的神经网络模型具有识别能力,仅需要将待识别账号的用户特征数据提取出来即可进行识别。
本申请通过从业务流数据中获取用户特征数据实现适用多种终端,通过无监督模型实现自动标签,提高了多种终端中提取账号数据识别时的识别率,解决了传统的黑产识别技术识别率低、需要人工打标签且web端黑产账号识别率低的技术问题。
以上是对本申请提供的一种基于时间流特征的黑产账号识别方法的一个实施例进行详细的描述,以下将对本申请提供的一种基于时间流特征的黑产账号识别方法的一个实施例进行详细的描述。
请参阅图3和图4,本申请提供的一种基于时间流特征的黑产账号识别方法的另一个实施例,包括:
201、获取业务流数据;
业务流数据包括:注册业务流数据、登录数据流、收藏频道数据流、对主播点赞数据流、抢优惠券数据流这些数据流中的一种或几种或全部,还可以还包括其他数据流。本实施例以登陆数据流为例,当然其他的数据流同样亦是有效,可根据业务需求选择有效的数据流,例如收藏频道数据流,对主播点赞数据流、抢优惠券数据流等,不同的业务反映不同的黑产利益链,方案采集这些数据的目的是为了实时采集到uid在短时间内特定的行为记录,依赖的是黑产尽可能低成本地利用有限的资源做到利益最大化,因而利用的批量注册的账号尽可以在短时间内,批量进行操作,非法获取业务链上的利益。
业务流数据可以进行实时获取,也可以按预设时间间隔获取。
202、从业务流数据中获取用户特征数据;
从业务流数据中获取用户特征数据包括两种方式,分别对应两类账号体系。
第一类账号体系是增量式的用户账号序列,即uid的标识是按一定的步长增加的,下面简写为增量uid体系,对于此类账号体系,可以通过以下方式进行特征提取:
通过聚类算法从业务流数据中提取预设时间内的符合相似性的uid聚类簇值,所述符合相似性为uid中相同数字的个数大于预设第一阈值和/或IP归属地相同;将与用户账号相关的所有簇值作为该用户账号的用户特征数据。
uid中相同数字的个数即比如uid:2388134590与其聚类相同的数字为2388134,则uid中相同数字的个数就是7,那么uid中相同数字的个数大于6的都属于该聚类(也可以设定为从第一个数字算起连续相同数字的个数),可计算出该聚类的簇值。簇值就是该聚类中样品的个数。同理,IP归属地作为一个聚类的话,该聚类的簇值也是容易计算出来的。
需要说明的是,增量uid体系特征抽取:不需要关注注册时间,在特征抽取时并不需要使用图4中注册时间数据,因为账号本身增量就附带了账号注册时间的属性,账号前面数字最相近说明他们之间注册时间越相近(如uid:2388134590与uid:2388134689之间的注册时间是很近的)。在特征抽取一般是对业务数据流进行处理,以登录数据流(数据格式:uid、ip、timestamp)为例,分别映射成两类特征:第一个为指定的时间区间内(由于要求是准实时的模型,一般这个区间控制在1小时以内),相似性(根据uid的长度,截取其一定长度的子串,如uid:2388134590,截取其子串为2388134,再通过特定条件下对子串进行groupBy操作)较高的uid的聚类,即计算uid的相似性的簇值;第二个通过ip映射到归属地,指定的时间区间内且同一登录地,相似性较高的uid的聚类,即计算uid的相似性的簇值。
第二类账号体系是随机的用户账号序列,即uid的标识是随机生成且唯一,下面简写为随机uid体系,对于此类账号体系,可以通过以下方式进行特征提取:
通过聚类算法从业务流数据和账号注册时间数据中提取预设时间内的符合相似性的uid聚类簇值,所述符合相似性为注册时间差值小于预设第二阈值和/或IP归属地相同;将与用户账号相关的所有簇值作为该用户账号的用户特征数据。
需要说明的是,注册时间从账号注册时间数据中获得,其与账号uid关联,因此能够与业务流数据中的账号对应。并且注册时间差值小于预设第二阈值,则说明注册时间较近,是黑产账号的几率较大。
随机uid体系特征抽取:需要关注注册时间,在特征抽取时使用图4中注册时间数据,在注册时间约束前提下,计算出相似性较高的uid的聚类,即计算uid的相似性的簇值,产生的特征与增量uid体系是一样的,获取到时间簇值和登录地域簇值。
上述两种方式得到的用户特征数据如下表所示:
由于业务数据流是连续的,在计算时间周期内不建议强行将时间进行分段,而是以滑动时间窗口方式(by window),例如指定时间范围是4个小时,以1小时为窗口大小,每30分钟滑动一次,那么根据登录流数据在四个小时内产生14个特征,当然uid划分多级子串时,特征以倍数级增长。以一个子串为样例,产生的特征类似:第1列为uid,第2列至第8列为登录相似聚类簇值,第9列至第15列为地域相似聚类簇值。即第1列为用户账号的uid,第二列为第一个30分钟中与该用户账号成聚类(比如第一类账号体系的uid中相同数字的个数大于6的样本成为聚类)的样本个数,第三列为第二个30分钟中与该用户账号成聚类的样本个数,以此类推。
为方便理解,就表格中uid为2084646568的用户账号例子进行说明,该用户账号在第四个30分钟里出现与其聚类相同的样本79个,在第五个30分钟里出现与其聚类相同的样本58个,即其聚类簇值,且在在第五个30分钟里出现与其聚类相同的样本(IP归属地相同)63个,在第六个30分钟里出现与其聚类相同的样本19个,说明其在某段时间内大量出现相似性较高的账号,可能是一群黑产账号在进行活动,因此可以根据这些特征进行分析识别。而uid为117554806的账号则没有出现类似情况。
因此,由于黑产一般是以群体的性质出现,那么簇值越大,越可能属于黑产账号,同时说明黑产拥有本平台uid越庞大,在本平台出现的机率越高,当然非法行为越多。
203、通过PCA算法或SOM算法根据用户特征数据计算出该用户账号的综合分值;将综合分值从小到大排序得到每个用户账号的风险值;判断用户账号的风险值是否大于预设风险值,若是,则给该用户账号打上恶意标签,若否,则打上非恶意标签,直到所有用户账号都打上标签。
PCA算法为Principal Component Analysis,主成分分析算法。自组织映射(Self-organizing Maps,SOM)算法是一种无导师学习方法,具有良好的自组织、可视化等特性,已经得到了广泛的应用和研究。
对特征初步处理,先进行uid进行综合评价(如:PCA、SOM等),并将综合分值从小到大进行排序,得到每一个用户的风险值。再根据不同的业务和风险值的分布,初步选定一个风险值对每一个用户风险进行打标签。
需要说明的是,综合分值是降维处理之后的特征,风险值可以是综合分值排序之后的数组。用户账号的风险值是否大于预设风险值是指风险值数组中的每一个数值都大于预设的值,则说明该风险值大于预设的风险值,说明风险较大,应该打上恶意标签。
204、以用户特征数据为输入信息,以标签为输出信息,建立神经网络进行训练;
神经网络包括机器学习算法或深度神经网络。模型训练是以簇特征版面(即用户特征数据)为输入信息,风险标签为输出信息,建立深度神经网络(如:DNN、CNN等)对其进行训练,如果业务量数据级是百万级以内的,使用逻辑回归等机器学习算法也可以达到目的,建模开发人员可以根据实际情况进行建模。
205、根据获取到用户账号误判的样本集合将训练样本中所有标签为恶意标签的样本提取出来,根据提取到的样本训练新的神经网络模型;
根据实际的目标(比如目标为:在不误杀的情况下,尽可能的多识别黑产),需要对步骤204误判的安全样本进行提取,并结合全部非安全样本重新训练一个新的深度神经网络模型,该拆分过程直到满足设定的目标为止。
206、通过多个神经网络模型对待识别账号进行识别,所有模型都判断该用户账号为黑产账号时,则识别用户账号为黑产账号;
综合的决策逻辑为:所有模型都判断该用户为黑产时,则该用户为黑产;反之只要有一个模型判断该用户为正常用户时,则该用户为正常用户。
根据上述实施例,将实施例应用于应用安全云系统中,可以提出应用例为如图5所示;
在主流的模型基础上,增加本实施例的技术方案,一方面弥补了主流机器学习模型的缺陷,另一方面提高了对黑产账号的识别率。如仅主流机器学习模型系统在国内的业务中,依赖安全SDK采集到的数据进行建模,识别率还是可以保证,如果在国际环境中,由于对用户数据监管政策不一样,造成安全SDK很多设备环境数据不能采集,造成主流模型不能识别,最终影响整个账号评分系统的准确率,而本技术方案可作为现主流方案的补充甚至替换。在整个业务风控体系下,识别率在总uid量中提升百分之二以上。主流模型在某月某活动的uid为数亿级别,识别为黑产账号为7%左右,而本实施例在识别增加到9%,基本覆盖主流模型的识别。
本申请实际上一是解决数据采集不到的问题;二是减少人工打标签的工作量问题;三是降低因平台间差异造成识别率下降的问题。总体来说降低风控建模的门槛,提升了对黑产账号的识别率。
以上是对本申请提供的一种基于时间流特征的黑产账号识别方法的另一个实施例进行详细的描述,以下将对本申请提供的一种基于时间流特征的黑产账号识别设备的一个实施例进行详细的描述。
本申请提供的一种基于时间流特征的黑产账号识别设备的一个实施例,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述实施例的基于时间流特征的黑产账号识别方法。
本申请提供的一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述实施例的基于时间流特征的黑产账号识别方法。
本申请提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述实施例的基于时间流特征的黑产账号识别方法。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于时间流特征的黑产账号识别方法,其特征在于,包括:
获取业务流数据;
从业务流数据中获取用户特征数据;
通过无监督模型对用户特征数据计算得出每个用户账号的标签;
以用户特征数据为输入信息,以标签为输出信息,建立神经网络进行训练;
通过训练完毕的神经网络对待识别账号进行识别。
2.根据权利要求1所述的基于时间流特征的黑产账号识别方法,其特征在于,从业务流数据中获取用户特征数据包括:
通过聚类算法从业务流数据中提取预设时间内的符合相似性的uid聚类簇值,所述符合相似性为uid中相同数字的个数大于预设第一阈值和/或IP归属地相同;
将与用户账号相关的所有簇值作为该用户账号的用户特征数据。
3.根据权利要求1所述的基于时间流特征的黑产账号识别方法,其特征在于,从业务流数据中获取用户特征数据包括:
通过聚类算法从业务流数据和账号注册时间数据中提取预设时间内的符合相似性的uid聚类簇值,所述符合相似性为注册时间差值小于预设第二阈值和/或IP归属地相同;
将与用户账号相关的所有簇值作为该用户账号的用户特征数据。
4.根据权利要求1所述的基于时间流特征的黑产账号识别方法,其特征在于,通过无监督模型对用户特征数据计算得出每个用户账号的标签包括:
通过PCA算法或SOM算法根据用户特征数据计算出该用户账号的综合分值;
将综合分值从小到大排序得到每个用户账号的风险值;
判断用户账号的风险值是否大于预设风险值,若是,则给该用户账号打上恶意标签,若否,则打上非恶意标签,直到所有用户账号都打上标签。
5.根据权利要求1所述的基于时间流特征的黑产账号识别方法,其特征在于,所述神经网络包括机器学习算法或深度神经网络。
6.根据权利要求1所述的基于时间流特征的黑产账号识别方法,其特征在于,以用户特征数据为输入信息,以标签为输出信息,建立神经网络进行训练之后,通过训练完毕的神经网络对待识别账号进行识别之前还包括:
根据获取到用户账号误判的样本集合将训练样本中所有标签为恶意标签的样本提取出来,根据提取到的样本训练新的神经网络模型;
通过训练完毕的神经网络对待识别账号进行识别具体包括:
通过多个神经网络模型对待识别账号进行识别,所有模型都判断该用户账号为黑产账号时,则识别用户账号为黑产账号。
7.根据权利要求1所述的基于时间流特征的黑产账号识别方法,其特征在于,所述业务流数据包括:注册业务流数据、登录数据流、收藏频道数据流、对主播点赞数据流或抢优惠券数据流。
8.一种基于时间流特征的黑产账号识别设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的基于时间流特征的黑产账号识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-7任一项所述的基于时间流特征的黑产账号识别方法。
10.一种包括指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得所述计算机执行权利要求1-7任一项所述的基于时间流特征的黑产账号识别方法。
CN201811592908.0A 2018-12-25 2018-12-25 一种基于时间流特征的黑产账号识别方法及设备 Active CN109525595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811592908.0A CN109525595B (zh) 2018-12-25 2018-12-25 一种基于时间流特征的黑产账号识别方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811592908.0A CN109525595B (zh) 2018-12-25 2018-12-25 一种基于时间流特征的黑产账号识别方法及设备

Publications (2)

Publication Number Publication Date
CN109525595A true CN109525595A (zh) 2019-03-26
CN109525595B CN109525595B (zh) 2021-04-16

Family

ID=65797305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811592908.0A Active CN109525595B (zh) 2018-12-25 2018-12-25 一种基于时间流特征的黑产账号识别方法及设备

Country Status (1)

Country Link
CN (1) CN109525595B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232473A (zh) * 2019-05-22 2019-09-13 重庆邮电大学 一种基于大数据金融的黑产用户预测方法
CN110290132A (zh) * 2019-06-24 2019-09-27 北京奇艺世纪科技有限公司 一种ip地址处理方法、装置、电子设备及存储介质
CN110351266A (zh) * 2019-07-03 2019-10-18 杭州安恒信息技术股份有限公司 基于神经网络的识别网络黑产ip的方法
CN110517097A (zh) * 2019-09-09 2019-11-29 平安普惠企业管理有限公司 识别异常用户的方法、装置、设备及存储介质
CN110620770A (zh) * 2019-09-19 2019-12-27 微梦创科网络科技(中国)有限公司 一种分析网络黑产账号的方法及装置
CN110855614A (zh) * 2019-10-14 2020-02-28 微梦创科网络科技(中国)有限公司 一种针对业内共享黑产信息处理的方法及装置
CN111277488A (zh) * 2020-01-19 2020-06-12 上海掌门科技有限公司 会话处理方法和装置
CN111932130A (zh) * 2020-08-12 2020-11-13 上海冰鉴信息科技有限公司 业务类型识别方法及装置
CN111931048A (zh) * 2020-07-31 2020-11-13 平安科技(深圳)有限公司 基于人工智能的黑产账号检测方法及相关装置
CN112487250A (zh) * 2019-09-11 2021-03-12 武汉斗鱼网络科技有限公司 识别养号账号群的方法及装置
CN112801837A (zh) * 2019-11-13 2021-05-14 腾讯科技(深圳)有限公司 设备聚类方法、装置、存储介质及电子设备
CN112860951A (zh) * 2019-11-28 2021-05-28 武汉斗鱼鱼乐网络科技有限公司 一种识别目标账号的方法及系统
CN112905987A (zh) * 2019-11-19 2021-06-04 北京达佳互联信息技术有限公司 账号识别方法、装置、服务器及存储介质
CN112926045A (zh) * 2021-02-24 2021-06-08 北京通付盾人工智能技术有限公司 一种基于逻辑回归模型的群控设备识别方法
CN113383362A (zh) * 2019-06-24 2021-09-10 深圳市欢太科技有限公司 用户识别方法及相关产品
CN113569879A (zh) * 2020-04-28 2021-10-29 中国移动通信集团浙江有限公司 异常识别模型的训练方法、异常账号识别方法及相关装置
CN113763057A (zh) * 2020-05-28 2021-12-07 北京金山云网络技术有限公司 用户身份画像的数据处理方法和装置
CN113837303A (zh) * 2021-09-29 2021-12-24 中国联合网络通信集团有限公司 一种黑产用户识别方法、tee节点及计算机可读存储介质
CN114610980A (zh) * 2022-03-21 2022-06-10 平安普惠企业管理有限公司 基于网络舆情的黑产识别方法、装置、设备及存储介质
CN114662988A (zh) * 2022-04-25 2022-06-24 中国银行股份有限公司 优惠卷的风控方法、装置、电子设备及计算机存储介质
CN114866351A (zh) * 2022-07-06 2022-08-05 湖南创星科技股份有限公司 一种基于区块链的区域医疗处方监管方法及平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699823A (zh) * 2014-01-08 2014-04-02 同济大学 基于用户行为模式的身份认证系统及其方法
US20170257336A1 (en) * 2016-03-07 2017-09-07 Facebook, Inc. Location-based conversation engine for entities in a social networking system
CN107181745A (zh) * 2017-05-16 2017-09-19 阿里巴巴集团控股有限公司 恶意消息识别方法、装置、设备和计算机存储介质
US20180048645A1 (en) * 2016-08-09 2018-02-15 Mircea Ionita Methods and systems for determining user liveness and verifying user identities
CN108366045A (zh) * 2018-01-02 2018-08-03 北京奇艺世纪科技有限公司 一种风控评分卡的设置方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699823A (zh) * 2014-01-08 2014-04-02 同济大学 基于用户行为模式的身份认证系统及其方法
US20170257336A1 (en) * 2016-03-07 2017-09-07 Facebook, Inc. Location-based conversation engine for entities in a social networking system
US20180048645A1 (en) * 2016-08-09 2018-02-15 Mircea Ionita Methods and systems for determining user liveness and verifying user identities
CN107181745A (zh) * 2017-05-16 2017-09-19 阿里巴巴集团控股有限公司 恶意消息识别方法、装置、设备和计算机存储介质
CN108366045A (zh) * 2018-01-02 2018-08-03 北京奇艺世纪科技有限公司 一种风控评分卡的设置方法和装置

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232473A (zh) * 2019-05-22 2019-09-13 重庆邮电大学 一种基于大数据金融的黑产用户预测方法
CN110232473B (zh) * 2019-05-22 2022-12-27 重庆邮电大学 一种基于大数据金融的黑产用户预测方法
CN113383362B (zh) * 2019-06-24 2022-05-13 深圳市欢太科技有限公司 用户识别方法及相关产品
CN110290132A (zh) * 2019-06-24 2019-09-27 北京奇艺世纪科技有限公司 一种ip地址处理方法、装置、电子设备及存储介质
CN113383362A (zh) * 2019-06-24 2021-09-10 深圳市欢太科技有限公司 用户识别方法及相关产品
CN110290132B (zh) * 2019-06-24 2022-02-11 北京奇艺世纪科技有限公司 一种ip地址处理方法、装置、电子设备及存储介质
CN110351266A (zh) * 2019-07-03 2019-10-18 杭州安恒信息技术股份有限公司 基于神经网络的识别网络黑产ip的方法
CN110517097A (zh) * 2019-09-09 2019-11-29 平安普惠企业管理有限公司 识别异常用户的方法、装置、设备及存储介质
CN110517097B (zh) * 2019-09-09 2024-02-02 广东莞银信息科技股份有限公司 识别异常用户的方法、装置、设备及存储介质
CN112487250B (zh) * 2019-09-11 2022-06-21 武汉斗鱼网络科技有限公司 识别养号账号群的方法及装置
CN112487250A (zh) * 2019-09-11 2021-03-12 武汉斗鱼网络科技有限公司 识别养号账号群的方法及装置
CN110620770A (zh) * 2019-09-19 2019-12-27 微梦创科网络科技(中国)有限公司 一种分析网络黑产账号的方法及装置
CN110620770B (zh) * 2019-09-19 2021-11-09 微梦创科网络科技(中国)有限公司 一种分析网络黑产账号的方法及装置
CN110855614B (zh) * 2019-10-14 2021-12-21 微梦创科网络科技(中国)有限公司 一种针对业内共享黑产信息处理的方法及装置
CN110855614A (zh) * 2019-10-14 2020-02-28 微梦创科网络科技(中国)有限公司 一种针对业内共享黑产信息处理的方法及装置
CN112801837A (zh) * 2019-11-13 2021-05-14 腾讯科技(深圳)有限公司 设备聚类方法、装置、存储介质及电子设备
CN112801837B (zh) * 2019-11-13 2023-12-29 腾讯科技(深圳)有限公司 设备聚类方法、装置、存储介质及电子设备
CN112905987A (zh) * 2019-11-19 2021-06-04 北京达佳互联信息技术有限公司 账号识别方法、装置、服务器及存储介质
CN112905987B (zh) * 2019-11-19 2024-02-27 北京达佳互联信息技术有限公司 账号识别方法、装置、服务器及存储介质
CN112860951B (zh) * 2019-11-28 2022-08-05 武汉斗鱼鱼乐网络科技有限公司 一种识别目标账号的方法及系统
CN112860951A (zh) * 2019-11-28 2021-05-28 武汉斗鱼鱼乐网络科技有限公司 一种识别目标账号的方法及系统
CN111277488B (zh) * 2020-01-19 2022-09-23 上海掌门科技有限公司 会话处理方法和装置
CN111277488A (zh) * 2020-01-19 2020-06-12 上海掌门科技有限公司 会话处理方法和装置
CN113569879B (zh) * 2020-04-28 2024-03-19 中国移动通信集团浙江有限公司 异常识别模型的训练方法、异常账号识别方法及相关装置
CN113569879A (zh) * 2020-04-28 2021-10-29 中国移动通信集团浙江有限公司 异常识别模型的训练方法、异常账号识别方法及相关装置
CN113763057B (zh) * 2020-05-28 2024-05-14 北京金山云网络技术有限公司 用户身份画像的数据处理方法和装置
CN113763057A (zh) * 2020-05-28 2021-12-07 北京金山云网络技术有限公司 用户身份画像的数据处理方法和装置
CN111931048A (zh) * 2020-07-31 2020-11-13 平安科技(深圳)有限公司 基于人工智能的黑产账号检测方法及相关装置
CN111932130A (zh) * 2020-08-12 2020-11-13 上海冰鉴信息科技有限公司 业务类型识别方法及装置
CN111932130B (zh) * 2020-08-12 2024-01-19 上海冰鉴信息科技有限公司 业务类型识别方法及装置
CN112926045A (zh) * 2021-02-24 2021-06-08 北京通付盾人工智能技术有限公司 一种基于逻辑回归模型的群控设备识别方法
CN112926045B (zh) * 2021-02-24 2023-12-26 北京通付盾人工智能技术有限公司 一种基于逻辑回归模型的群控设备识别方法
CN113837303A (zh) * 2021-09-29 2021-12-24 中国联合网络通信集团有限公司 一种黑产用户识别方法、tee节点及计算机可读存储介质
CN114610980A (zh) * 2022-03-21 2022-06-10 平安普惠企业管理有限公司 基于网络舆情的黑产识别方法、装置、设备及存储介质
CN114662988A (zh) * 2022-04-25 2022-06-24 中国银行股份有限公司 优惠卷的风控方法、装置、电子设备及计算机存储介质
CN114866351A (zh) * 2022-07-06 2022-08-05 湖南创星科技股份有限公司 一种基于区块链的区域医疗处方监管方法及平台

Also Published As

Publication number Publication date
CN109525595B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN109525595A (zh) 一种基于时间流特征的黑产账号识别方法及设备
CN106778259B (zh) 一种基于大数据机器学习的异常行为发现方法及系统
CN106557695B (zh) 一种恶意应用检测方法和系统
CN102629904B (zh) 一种网络水军的探测与判定方法
CN108734184B (zh) 一种对敏感图像进行分析的方法及装置
CN108572967A (zh) 一种创建企业画像的方法及装置
CN111787090A (zh) 一种基于区块链技术的智慧法治平台
CN110677430B (zh) 基于网络安全设备日志数据的用户风险度评估方法和系统
CN103605738A (zh) 网页访问数据统计方法及装置
CN105574544A (zh) 一种数据处理方法和装置
CN111401447B (zh) 一种基于人工智能的流量作弊识别方法、装置、电子设备
CN112559771A (zh) 基于知识图谱的资金交易智能监测方法及监测系统
CN112468347A (zh) 一种云平台的安全管理方法、装置、电子设备及存储介质
CN104899602A (zh) 一种基于K-means算法的用户聚类分析系统
CN114819004A (zh) 一种基于多源数据融合的违章辨识方法及系统
Hostiadi et al. Dataset for Botnet group activity with adaptive generator
CN109408745A (zh) 网页数据分析处理方法及装置
CN113312924A (zh) 一种基于nlp高精解析标签的风险规则分类方法及装置
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN112529082A (zh) 一种系统画像构建方法、装置和设备
CN116739408A (zh) 基于数据标签的电网调度安全监控方法、系统及电子设备
CN116865994A (zh) 一种基于大数据的网络数据安全预测方法
CN111784360A (zh) 一种基于网络链接回溯的反欺诈预测方法及系统
CN116843395A (zh) 一种业务系统的告警分级方法、装置、设备及存储介质
CN112733144B (zh) 一种基于深度学习技术的恶意程序智能检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210115

Address after: 510000 3108, 79 Wanbo 2nd Road, Nancun Town, Panyu District, Guangzhou City, Guangdong Province

Applicant after: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 28th floor, block B1, Wanda Plaza, Nancun Town, Panyu District, Guangzhou City, Guangdong Province

Applicant before: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190326

Assignee: GUANGZHOU HUADUO NETWORK TECHNOLOGY Co.,Ltd.

Assignor: GUANGZHOU CUBESILI INFORMATION TECHNOLOGY Co.,Ltd.

Contract record no.: X2021440000052

Denomination of invention: A method and equipment for identifying black production account number based on time flow characteristics

License type: Common License

Record date: 20210222

EE01 Entry into force of recordation of patent licensing contract
GR01 Patent grant
GR01 Patent grant