CN109525595A

CN109525595A - 一种基于时间流特征的黑产账号识别方法及设备

Info

Publication number: CN109525595A
Application number: CN201811592908.0A
Authority: CN
Inventors: 林晓杰; 王兆路; 黄�俊
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-03-26
Anticipated expiration: 2038-12-25
Also published as: CN109525595B

Abstract

本申请提供了一种基于时间流特征的黑产账号识别方法及设备，所述方法包括：获取业务流数据；从业务流数据中获取用户特征数据；通过无监督模型对用户特征数据计算得出每个用户账号的标签；以用户特征数据为输入信息，以标签为输出信息，建立神经网络进行训练；通过训练完毕的神经网络对待识别账号进行识别。本申请通过从业务流数据中获取用户特征数据实现适用多种终端，通过无监督模型实现自动标签，提高了多种终端中提取账号数据识别时的识别率，解决了传统的黑产识别技术识别率低、需要人工打标签且web端黑产账号识别率低的技术问题。

Description

一种基于时间流特征的黑产账号识别方法及设备

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于时间流特征的黑产账号识别方法及设备。

背景技术

黑产是指以互联网为媒介，以网络技术为主要手段，为计算机信息系统安全和网络空间管理秩序，甚至国家安全、社会政治稳定带来潜在威胁的非法行为，利用非法手段获取利益的黑色产业。这些黑色产业在计算机网络上所用的账号就是黑产账号。识别、封禁这些黑产账号是网络安全中非常重要的部分。

在黑产账号识别这方面，目前的技术如图1所示，从PC端、Android端、IOS端的安全SDK采集的数据，在APP内植入安全SDK对设备及运行环境等信息进行采集并上传到服务端，并且结合业务流程数据和安全信息库(安全信息库主要是在通过日常的业务历史数据的积累，对用户的手机号、IP、设备等进行收录并标识其恶意等级，以帮助提升对黑产账号的识别率及准确率)进行识别，对用户进行特征抽取，例如uid在指定周期内使用恶意ip的次数、指定周期内登录地变换的次数、指定周期内使用设备总数、指定周期内在业务出现的次数等等，然后根据人工标识或一定规则的标识出来的恶意用户，为所有的uid打上了恶意与非恶意的标签，将抽取的特征作为输入，将标签作为输出，使用主流的使用机器学习算法(逻辑回归、支持向量机等)或深度学习算法(DNN/CNN)进行模型训练，要注意的是样本需要足够大，保证在一定时间周期内所有样本的特征尽可能覆盖到，最后将训练出来的结果的配置作为基础，使用与训练同样的深度学习算法对新的特征数据进行预测识别。

基于上述现有技术，本领域技术人员发现以下技术问题：1)由于设备的信息一直在变化，设备信息的时效性很短，亦有可能某些设备信息在某些设备上是无法获取到，如果属于全球性的APP，用户亦属于全球性质的，可能各个国家对采集数据的监管不一样，造成一些关键信息无法采集，最终造成模型识别率严重下降；2)作为有监督模型，对uid进行打标签是个庞大的工作量，同时依据人工或者规则有可能打出来的标签不一定准备，标签的准确性会影响到后续模型训练的结果；3)对于有安全SDK的业务对黑产的识别准确率是有一定保证的，如果业务涉及到web端时，由于web端可以采集的信息很有限，并且所有信息都可以模仿，造成web端的黑产识别几乎为零。

发明内容

本发明提供了一种基于时间流特征的黑产账号识别方法及设备，用于解决传统的黑产识别技术识别率低、需要人工打标签且web端黑产账号识别率低的技术问题。

有鉴于此，本申请第一方面提供了一种基于时间流特征的黑产账号识别方法，所述方法包括：

获取业务流数据；

从业务流数据中获取用户特征数据；

通过无监督模型对用户特征数据计算得出每个用户账号的标签；

以用户特征数据为输入信息，以标签为输出信息，建立神经网络进行训练；

通过训练完毕的神经网络对待识别账号进行识别。

优选地，从业务流数据中获取用户特征数据包括：

通过聚类算法从业务流数据中提取预设时间内的符合相似性的uid聚类簇值，所述符合相似性为uid中相同数字的个数大于预设第一阈值和/或IP归属地相同；

将与用户账号相关的所有簇值作为该用户账号的用户特征数据。

优选地，从业务流数据中获取用户特征数据包括：

通过聚类算法从业务流数据和账号注册时间数据中提取预设时间内的符合相似性的uid聚类簇值，所述符合相似性为注册时间差值小于预设第二阈值和/或IP归属地相同；

优选地，通过无监督模型对用户特征数据计算得出每个用户账号的标签包括：

通过PCA算法或SOM算法根据用户特征数据计算出该用户账号的综合分值；

将综合分值从小到大排序得到每个用户账号的风险值；

判断用户账号的风险值是否大于预设风险值，若是，则给该用户账号打上恶意标签，若否，则打上非恶意标签，直到所有用户账号都打上标签。

优选地，所述神经网络包括机器学习算法或深度神经网络。

优选地，以用户特征数据为输入信息，以标签为输出信息，建立神经网络进行训练之后，通过训练完毕的神经网络对待识别账号进行识别之前还包括：

根据获取到用户账号误判的样本集合将训练样本中所有标签为恶意标签的样本提取出来，根据提取到的样本训练新的神经网络模型；

通过训练完毕的神经网络对待识别账号进行识别具体包括：

通过多个神经网络模型对待识别账号进行识别，所有模型都判断该用户账号为黑产账号时，则识别用户账号为黑产账号。

优选地，所述业务流数据包括：注册业务流数据、登录数据流、收藏频道数据流，对主播点赞数据流或抢优惠券数据流。

本申请第二方面提供了一种基于时间流特征的黑产账号识别设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述第一方面的基于时间流特征的黑产账号识别方法。

本申请第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面的基于时间流特征的黑产账号识别方法。

本申请第四方面提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第一方面的基于时间流特征的黑产账号识别方法。

从以上技术方案可以看出，本发明具有以下优点：

附图说明

为了更清楚地说明本发明实施例，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请中现有技术实施流程的示意图；

图2为本申请提供的一种基于时间流特征的黑产账号识别方法的一个实施例的流程图；

图3为本申请提供的一种基于时间流特征的黑产账号识别方法的另一个实施例的流程图；

图4为本申请提供的一种基于时间流特征的黑产账号识别方法的实施流程示意图；

图5为本申请提供的一种基于时间流特征的黑产账号识别方法的一个应用例的示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图2，本申请提供的一种基于时间流特征的黑产账号识别方法的一个实施例，所述方法包括：

101、获取业务流数据；

业务流数据一般是注册业务流数据、登录数据流、收藏频道数据流，对主播点赞数据流、抢优惠券数据流等数据，采集这些数据可以实时监控服务器中出现的黑产账号，做出及时处理。

102、从业务流数据中获取用户特征数据；

对于提取特征，有很多算法，比如聚类算法等，提取的特征一般是对于判断黑产账号有很相关的特征，比如由于黑产账号一般是批量注册的，所以其注册时间比较相近，因此可以把注册时间作为一种特征，又比如黑产账号一般是在同一个地方注册的，所以IP归属地也可以作为一种特征。

103、通过无监督模型对用户特征数据计算得出每个用户账号的标签；

无监督模型的主要作用是对用户特征数据进行降维处理，让计算更加快捷方便并且使得自动标签可以实现。

104、以用户特征数据为输入信息，以标签为输出信息，建立神经网络进行训练；

神经网络可以是普通的神经网络模型，也可以是深度神经网络，其训练方法不再赘述。

105、通过训练完毕的神经网络对待识别账号进行识别；

训练完毕的神经网络模型具有识别能力，仅需要将待识别账号的用户特征数据提取出来即可进行识别。

本申请通过从业务流数据中获取用户特征数据实现适用多种终端，通过无监督模型实现自动标签，提高了多种终端中提取账号数据识别时的识别率，解决了传统的黑产识别技术识别率低、需要人工打标签且web端黑产账号识别率低的技术问题。

以上是对本申请提供的一种基于时间流特征的黑产账号识别方法的一个实施例进行详细的描述，以下将对本申请提供的一种基于时间流特征的黑产账号识别方法的一个实施例进行详细的描述。

请参阅图3和图4，本申请提供的一种基于时间流特征的黑产账号识别方法的另一个实施例，包括：

201、获取业务流数据；

业务流数据包括：注册业务流数据、登录数据流、收藏频道数据流、对主播点赞数据流、抢优惠券数据流这些数据流中的一种或几种或全部，还可以还包括其他数据流。本实施例以登陆数据流为例，当然其他的数据流同样亦是有效，可根据业务需求选择有效的数据流，例如收藏频道数据流，对主播点赞数据流、抢优惠券数据流等，不同的业务反映不同的黑产利益链，方案采集这些数据的目的是为了实时采集到uid在短时间内特定的行为记录，依赖的是黑产尽可能低成本地利用有限的资源做到利益最大化，因而利用的批量注册的账号尽可以在短时间内，批量进行操作，非法获取业务链上的利益。

业务流数据可以进行实时获取，也可以按预设时间间隔获取。

202、从业务流数据中获取用户特征数据；

从业务流数据中获取用户特征数据包括两种方式，分别对应两类账号体系。

第一类账号体系是增量式的用户账号序列，即uid的标识是按一定的步长增加的，下面简写为增量uid体系，对于此类账号体系，可以通过以下方式进行特征提取：

通过聚类算法从业务流数据中提取预设时间内的符合相似性的uid聚类簇值，所述符合相似性为uid中相同数字的个数大于预设第一阈值和/或IP归属地相同；将与用户账号相关的所有簇值作为该用户账号的用户特征数据。

uid中相同数字的个数即比如uid:2388134590与其聚类相同的数字为2388134，则uid中相同数字的个数就是7，那么uid中相同数字的个数大于6的都属于该聚类(也可以设定为从第一个数字算起连续相同数字的个数)，可计算出该聚类的簇值。簇值就是该聚类中样品的个数。同理，IP归属地作为一个聚类的话，该聚类的簇值也是容易计算出来的。

需要说明的是，增量uid体系特征抽取：不需要关注注册时间，在特征抽取时并不需要使用图4中注册时间数据，因为账号本身增量就附带了账号注册时间的属性，账号前面数字最相近说明他们之间注册时间越相近(如uid:2388134590与uid:2388134689之间的注册时间是很近的)。在特征抽取一般是对业务数据流进行处理，以登录数据流(数据格式：uid、ip、timestamp)为例，分别映射成两类特征：第一个为指定的时间区间内(由于要求是准实时的模型，一般这个区间控制在1小时以内)，相似性(根据uid的长度，截取其一定长度的子串，如uid:2388134590，截取其子串为2388134，再通过特定条件下对子串进行groupBy操作)较高的uid的聚类，即计算uid的相似性的簇值；第二个通过ip映射到归属地，指定的时间区间内且同一登录地，相似性较高的uid的聚类，即计算uid的相似性的簇值。

第二类账号体系是随机的用户账号序列，即uid的标识是随机生成且唯一，下面简写为随机uid体系，对于此类账号体系，可以通过以下方式进行特征提取：

通过聚类算法从业务流数据和账号注册时间数据中提取预设时间内的符合相似性的uid聚类簇值，所述符合相似性为注册时间差值小于预设第二阈值和/或IP归属地相同；将与用户账号相关的所有簇值作为该用户账号的用户特征数据。

需要说明的是，注册时间从账号注册时间数据中获得，其与账号uid关联，因此能够与业务流数据中的账号对应。并且注册时间差值小于预设第二阈值，则说明注册时间较近，是黑产账号的几率较大。

随机uid体系特征抽取：需要关注注册时间，在特征抽取时使用图4中注册时间数据，在注册时间约束前提下，计算出相似性较高的uid的聚类，即计算uid的相似性的簇值，产生的特征与增量uid体系是一样的，获取到时间簇值和登录地域簇值。

上述两种方式得到的用户特征数据如下表所示：

由于业务数据流是连续的，在计算时间周期内不建议强行将时间进行分段，而是以滑动时间窗口方式(by window)，例如指定时间范围是4个小时，以1小时为窗口大小，每30分钟滑动一次，那么根据登录流数据在四个小时内产生14个特征，当然uid划分多级子串时，特征以倍数级增长。以一个子串为样例，产生的特征类似：第1列为uid,第2列至第8列为登录相似聚类簇值，第9列至第15列为地域相似聚类簇值。即第1列为用户账号的uid，第二列为第一个30分钟中与该用户账号成聚类(比如第一类账号体系的uid中相同数字的个数大于6的样本成为聚类)的样本个数，第三列为第二个30分钟中与该用户账号成聚类的样本个数，以此类推。

为方便理解，就表格中uid为2084646568的用户账号例子进行说明，该用户账号在第四个30分钟里出现与其聚类相同的样本79个，在第五个30分钟里出现与其聚类相同的样本58个，即其聚类簇值，且在在第五个30分钟里出现与其聚类相同的样本(IP归属地相同)63个，在第六个30分钟里出现与其聚类相同的样本19个，说明其在某段时间内大量出现相似性较高的账号，可能是一群黑产账号在进行活动，因此可以根据这些特征进行分析识别。而uid为117554806的账号则没有出现类似情况。

因此，由于黑产一般是以群体的性质出现，那么簇值越大，越可能属于黑产账号，同时说明黑产拥有本平台uid越庞大，在本平台出现的机率越高，当然非法行为越多。

203、通过PCA算法或SOM算法根据用户特征数据计算出该用户账号的综合分值；将综合分值从小到大排序得到每个用户账号的风险值；判断用户账号的风险值是否大于预设风险值，若是，则给该用户账号打上恶意标签，若否，则打上非恶意标签，直到所有用户账号都打上标签。

PCA算法为Principal Component Analysis，主成分分析算法。自组织映射(Self-organizing Maps,SOM)算法是一种无导师学习方法,具有良好的自组织、可视化等特性,已经得到了广泛的应用和研究。

对特征初步处理，先进行uid进行综合评价(如：PCA、SOM等)，并将综合分值从小到大进行排序，得到每一个用户的风险值。再根据不同的业务和风险值的分布，初步选定一个风险值对每一个用户风险进行打标签。

需要说明的是，综合分值是降维处理之后的特征，风险值可以是综合分值排序之后的数组。用户账号的风险值是否大于预设风险值是指风险值数组中的每一个数值都大于预设的值，则说明该风险值大于预设的风险值，说明风险较大，应该打上恶意标签。

204、以用户特征数据为输入信息，以标签为输出信息，建立神经网络进行训练；

神经网络包括机器学习算法或深度神经网络。模型训练是以簇特征版面(即用户特征数据)为输入信息，风险标签为输出信息，建立深度神经网络(如：DNN、CNN等)对其进行训练，如果业务量数据级是百万级以内的，使用逻辑回归等机器学习算法也可以达到目的，建模开发人员可以根据实际情况进行建模。

205、根据获取到用户账号误判的样本集合将训练样本中所有标签为恶意标签的样本提取出来，根据提取到的样本训练新的神经网络模型；

根据实际的目标(比如目标为：在不误杀的情况下，尽可能的多识别黑产)，需要对步骤204误判的安全样本进行提取，并结合全部非安全样本重新训练一个新的深度神经网络模型，该拆分过程直到满足设定的目标为止。

206、通过多个神经网络模型对待识别账号进行识别，所有模型都判断该用户账号为黑产账号时，则识别用户账号为黑产账号；

综合的决策逻辑为：所有模型都判断该用户为黑产时，则该用户为黑产；反之只要有一个模型判断该用户为正常用户时，则该用户为正常用户。

根据上述实施例，将实施例应用于应用安全云系统中，可以提出应用例为如图5所示；

在主流的模型基础上，增加本实施例的技术方案，一方面弥补了主流机器学习模型的缺陷，另一方面提高了对黑产账号的识别率。如仅主流机器学习模型系统在国内的业务中，依赖安全SDK采集到的数据进行建模，识别率还是可以保证，如果在国际环境中，由于对用户数据监管政策不一样，造成安全SDK很多设备环境数据不能采集，造成主流模型不能识别，最终影响整个账号评分系统的准确率，而本技术方案可作为现主流方案的补充甚至替换。在整个业务风控体系下，识别率在总uid量中提升百分之二以上。主流模型在某月某活动的uid为数亿级别，识别为黑产账号为7％左右，而本实施例在识别增加到9％，基本覆盖主流模型的识别。

本申请实际上一是解决数据采集不到的问题；二是减少人工打标签的工作量问题；三是降低因平台间差异造成识别率下降的问题。总体来说降低风控建模的门槛，提升了对黑产账号的识别率。

以上是对本申请提供的一种基于时间流特征的黑产账号识别方法的另一个实施例进行详细的描述，以下将对本申请提供的一种基于时间流特征的黑产账号识别设备的一个实施例进行详细的描述。

本申请提供的一种基于时间流特征的黑产账号识别设备的一个实施例，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行上述实施例的基于时间流特征的黑产账号识别方法。

本申请提供的一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述实施例的基于时间流特征的黑产账号识别方法。

本申请提供了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述实施例的基于时间流特征的黑产账号识别方法。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于时间流特征的黑产账号识别方法，其特征在于，包括：

获取业务流数据；

从业务流数据中获取用户特征数据；

通过训练完毕的神经网络对待识别账号进行识别。

2.根据权利要求1所述的基于时间流特征的黑产账号识别方法，其特征在于，从业务流数据中获取用户特征数据包括：

3.根据权利要求1所述的基于时间流特征的黑产账号识别方法，其特征在于，从业务流数据中获取用户特征数据包括：

4.根据权利要求1所述的基于时间流特征的黑产账号识别方法，其特征在于，通过无监督模型对用户特征数据计算得出每个用户账号的标签包括：

将综合分值从小到大排序得到每个用户账号的风险值；

5.根据权利要求1所述的基于时间流特征的黑产账号识别方法，其特征在于，所述神经网络包括机器学习算法或深度神经网络。

6.根据权利要求1所述的基于时间流特征的黑产账号识别方法，其特征在于，以用户特征数据为输入信息，以标签为输出信息，建立神经网络进行训练之后，通过训练完毕的神经网络对待识别账号进行识别之前还包括：

通过训练完毕的神经网络对待识别账号进行识别具体包括：

7.根据权利要求1所述的基于时间流特征的黑产账号识别方法，其特征在于，所述业务流数据包括：注册业务流数据、登录数据流、收藏频道数据流、对主播点赞数据流或抢优惠券数据流。

8.一种基于时间流特征的黑产账号识别设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的基于时间流特征的黑产账号识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-7任一项所述的基于时间流特征的黑产账号识别方法。

10.一种包括指令的计算机程序产品，其特征在于，当其在计算机上运行时，使得所述计算机执行权利要求1-7任一项所述的基于时间流特征的黑产账号识别方法。