CN107438050B

CN107438050B - 识别网站的潜在恶意用户的方法和装置

Info

Publication number: CN107438050B
Application number: CN201610355383.3A
Authority: CN
Inventors: 谢贵霞; 肖勃飞; 罗尚勇; 袁和应; 梅尚健
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2019-03-01
Anticipated expiration: 2036-05-26
Also published as: CN107438050A

Abstract

本发明提供了一种识别网站的潜在恶意用户的方法，包括：基于用户基础数据和业务数据，使用Fast Unfolding算法生成社区网络图；从所述社区网络图获取社区信息，所述社区信息包括社区网络图的社区属性和图属性；基于用户基础数据、业务数据和所属社区的社区信息，生成宽表，基于宽表生成衍生字段，所述衍生字段是能够用于判断用户是否为恶意用户的字段；被选择用于训练的用户的特征数据作为训练数据，使用随机森林算法进行建模，得到随机森林模型，其中特征数据包括用户的基本信息、用户的社区信息、以及相应衍生字段；以及使用随机森林模型进行恶意用户识别。本发明还提供了一种识别网站的潜在恶意用户的装置。

Description

识别网站的潜在恶意用户的方法和装置

技术领域

本发明总体上涉及数据分析，更具体地涉及一种识别网站的潜在恶意用户的方法和装置。

背景技术

随着网络技术的普及，越来越多的人开始使用网络进行社交、娱乐和购物等活动，给网站的管理带来了更大挑战。特别地，恶意用户，即非正常操作用户(如进行恶意领券、恶意下单、恶意发帖等操作的用户)，可能威胁网站的安全有效运行。因此，识别潜在恶意用户对于保证网站正常平稳运行具有重要意义。

目前的恶意用户识别方法一般基于基础指标建模，基于基础数据表信息进行指标整合，生成宽表；然后基于宽表数据，使用机器学习算法包提供的算法进行数据建模，基于模型进行恶意用户识别。这种方法的缺点是，统计维度比较单一，保留的信息相对较少，不利于识别潜在恶意用户。

Fast Unfolding算法是一种基于模块度的图算法模型。该算法速度快，扩展性强，适合大数据量的网络社区发现。社区是指具有共同之处的交易用户所形成的关系网络。社区是一个子图，包含顶点和边。同一社区内的节点与节点之间的连接很紧密，而社区与社区之间的连接比较稀疏。Fast Unfolding算法主要包括两个阶段，如图1所示。第一阶段称为模块度优化(Modularity Optimization)，主要是将每个节点划分到与其邻接的节点所在的社区中，以使得模块度的值不断变大。模块度由Newman等人提出，是指网络中连接社区结构内部顶点的边所占的比例与另外一个随机网络中连接社区结构内部顶点的边所占比例的期望值相减得到的差值。模块度是常用的度量社区划分的好坏的方法。模块度越高，社区划分越好。第二阶段称为社区聚合(Community Aggregation)，主要是将第一步划分出来的社区聚合成为一个点，即根据上一步生成的社区结构重新构造网络。重复以上的过程，直到网络中的结构不再改变为止。

发明内容

本发明的一个方面提供了一种识别网站的潜在恶意用户的方法，包括：基于用户基础数据和业务数据，使用Fast Unfolding算法生成社区网络图；从所述社区网络图获取社区信息，所述社区信息包括社区网络图的社区属性和图属性；基于用户基础数据、业务数据和所属社区的社区信息，生成宽表，基于宽表生成衍生字段，所述衍生字段是能够用于判断用户是否为恶意用户的字段；被选择用于训练的用户的特征数据作为训练数据，使用随机森林算法进行建模，得到随机森林模型，其中特征数据包括用户的基本信息、用户的社区信息、以及相应衍生字段；以及使用随机森林模型进行恶意用户识别。

本发明的另一个方面提供了一种识别网站的潜在恶意用户的装置，包括：用于基于用户基础数据和业务数据，使用Fast Unfolding算法生成社区网络图的装置；用于从所述社区网络图获取社区信息的装置，所述社区信息包括社区网络图的社区属性和图属性；用于基于用户基础数据、业务数据和所属社区的社区信息，生成宽表，基于宽表生成衍生字段的装置，所述衍生字段是能够用于判断用户是否为恶意用户的字段；用于将被选择用于训练的用户的特征数据作为训练数据，使用随机森林算法进行建模，得到随机森林模型的装置，其中特征数据包括用户的基本信息、用户的社区信息、以及相应衍生字段；以及用于使用随机森林模型进行恶意用户识别的装置。

本发明的另一个方面提供了一种识别网站的潜在恶意用户的装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如上所述的方法。

本发明的另一个方面提供了一种计算机可读存储介质，存储有计算机指令，所述指令被处理器执行时实现如上所述的方法。

附图说明

为了更完整地理解本发明及其优势，现在将参考结合附图的以下描述，其中：

图1示出了Fast Unfolding算法进行社区发现的过程示意图；

图2示意性示出了根据本发明实施例的恶意用户识别方法；以及

图3示意性示出了社区网络图的生成方法。

具体实施方式

根据结合附图对本发明示例性实施例的以下详细描述，本发明的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。

在本发明中，术语“包括”和“含有”及其派生词意为包括而非限制；术语“或”是包含性的，意为和/或。

在本说明书中，下述用于描述本发明原理的各种实施例只是说明，不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解，但这些细节应认为仅仅是示例性的。因此，本领域普通技术人员应认识到，在不背离本发明的范围和精神的情况下，可以对本文中描述的实施例进行多种改变和修改。此外，为了清楚和简洁起见，省略了公知功能和结构的描述。此外，贯穿附图，相同参考数字用于相似功能和操作。

本发明针对传统的基于基础指标进行建模不能有效识别潜在恶意用户的场景，提出使用Fast Unfolding社区发现算法提供的用户社区指标及其衍生指标信息，构建更有效的随机森林模型，识别更多的恶意用户。

图2示出了根据本发明实施例的恶意用户识别方法。该方法主要包括社区网络图生成、社区信息获取、生成宽表、建模、加载模型、识别恶意用户这几个步骤，下面对这几个步骤进行具体介绍。

该方法开始于步骤S20。

在步骤S21，基于Fast Unfolding算法生成社区网络图。根据本发明的实施例，可以使用开源集群计算环境Spark的图计算框架GraphX的API接口生成社区网络图。

图3示出了社区网络图的生成方法，包括生成边数据、图初始化、运行FastUnfolding算法生成社区网络图等步骤。

该方法开始于步骤S210。

在步骤S211，生成边数据。边数据是用户间的关系数据，它是基于用户基础数据和业务数据，根据用户间的关系生成的。根据本发明的实施例，用户基础数据包括用户基本信息和注册信息。用户基本信息是用于识别用户或描述用户的个人属性的信息，例如可以包括以下中的任意一个或多个：用户ID、用户账号、用户级别、用户级别升级时间等。用户注册信息例如可以包括以下中的任意一个或多个：注册IP、注册时间、注册地等。业务数据是用户在该网站进行业务活动的数据，例如在购物网站的领券时间和额度、下单时间和购买商品等数据、在论坛发言的发言时间、发言内容、发言时的IP、IP归属地等数据、在民意调查网站填写调查表的提交时间、调查表选项等数据。当两个用户的属性和/或行为满足预定条件时，这两个用户之间存在关系。例如，可以认为具有相同点的两个用户之间存在关系。例如，用户甲和用户乙在2016年4月5日在1.1.1.1这个ip注册，那么用户甲和用户乙之间就具有同天同ip注册的关系。在生成边数据时，具有关系的两个用户间有一条边。采用这种方式生成边，其形成的网络内部的边会比较密集，能够尽可能地将有关系的用户聚集在同一个网络中，从而提高识别潜在风险用户的覆盖率。通过Graphx中提供的数据读取方法，将边数据读取到边的弹性分布式数据集(RDD)中。边的源顶点标识(ID)和目标顶点的ID分别为有关系的两个用户的ID号。根据本发明的实施例，边的属性信息包括用户关系值、用户关系类型等。关系值用于描述用户之间的关系。以上面例示的同天同注册ip关系为例，用户甲和用户乙之间的关系值可以是由日期和ip的值拼接的字符串。用户关系类型描述关系的类型，例如，上面例示的具有同天同ip注册的关系的用户甲和用户乙之间的关系类型是风险关系。

在步骤S212，基于边数据进行图初始化。基于边的RDD生成初始图。初始图的顶点数据为用户ID，顶点属性为Fast Unfolding算法相关的参数，边属性为边的权重。根据本发明的实施例，所述Fasting Unfolding算法相关的参数可以包括以下的一个或多个：用户所属社区的初始社区、社区变化标志、以及初始社区相关的统计信息等。社区变化标志标识社区是否发生变化。社区相关的统计信息包括社区内部的点连接的边的权重(例如，社区内部的点连接的社区内部的边的权重，以及社区内部的点连接到其他社区的边的权重等)。边的权重反映该边所对应的关系的重要程度。当用户之间的关系是同一类型，例如都是风险关系时，各个边的权重相同，可以默认为1。

在步骤S213，运行Fast Unfolding算法在Graphx上的实现算法(即Louvain算法)，生成社区网络图。在生成社区网络图的同时，生成各社区的模块度值。

该方法在步骤S214结束。

返回图2，在步骤S22，获取社区信息，包括获取社区网络图的社区属性和图属性。社区属性包括以下三个属性：用户所属社区、用户所属社区用户数、用户所属社区模块度。根据本发明的实施例，可以对社区网络图的顶点属性中的用户所属社区ID(即，用户所在社区中的最小用户ID)进行统计，得到每个社区的用户数。通过调用Graphx提供的相应算法可以获取用户在所在社区中的三角形计数。根据用户在所在社区中的三角形计数获取图的度属性(degree)，作为图属性。

在步骤S23，基于用户基础数据、业务数据和所属社区的社区信息，生成宽表。根据本发明实施例，根据用户ID，将用户基础数据、业务数据以及社区信息进行关联，得到宽表。对宽表中的数据进行衍生处理，得到衍生字段，该衍生字段是能够用于判断用户是否为恶意用户的字段，例如为以下任意一个或多个：使用相同下单ip对相同商品下单的用户数；同一天使用相同下单ip和相同收货地的下单量；用户所在社区的度的总和等。

在步骤S24，使用随机森林算法进行建模。随机森林算法实现为包含多个决策树的分类器，其输出的类别是由个别树输出的类别的众数而定。根据本发明的实施例，使用Spark框架的mllib包提供的随机森林算法功能(RandomForestClassifier)。首先，设置目标变量、特征数据、随机森林算法及算法参数，并生成Pipeline对象。Pipeline是spark提供的用于构建机器学习工作流应用的库。构建随机森林算法的Pipeline对象后，可以把训练数据集作为入参并调用Pipeline实例的fit方法来开始以流的方式来处理训练数据，然后返回一个PipelineModel类实例作为随机森林模型，进而使用该模型来预测用户是否是恶意用户。目标变量是一个字段，标识该用户是否是恶意用户。特征数据包括用户基本信息(如用户等级、用户性别等)、用户的社区信息(如用户所在社区的编号、用户所在社区的用户数、用户所在社区的度等)，衍生字段(使用相同下单ip对相同商品下单的用户数；同一天使用相同下单ip和相同收货地的下单量；用户所在社区的度的总和等)。算法参数包括以下的任意一个或多个：树的最大深度、特征的最大分箱数、每个叶节点的最小实例数、最小信息增益、特征子集采样策略、树的棵数等。训练数据集包含已知是否属于恶意用户的用户的特征数据。然后，输出随机森林模型。

在步骤S25，使用随机森林模型进行恶意用户识别。首先，加载随机森林模型，然后，加载待识别用户及其相应的特征数据。接着，使用随机森林模型基于特征数据进行恶意用户识别并输出识别结果。

该方法在步骤S26结束。

根据本发明的实施例，还提供了一种识别网站的潜在恶意用户的装置，包括：用于基于用户基础数据和业务数据，使用Fast Unfolding算法生成社区网络图的装置；用于从所述社区网络图获取社区信息的装置，所述社区信息包括社区网络图的社区属性和图属性；用于基于用户基础数据、业务数据和所属社区的社区信息，生成宽表，基于宽表生成衍生字段的装置，所述衍生字段是能够用于判断用户是否为恶意用户的字段；用于将被选择用于训练的用户的特征数据作为训练数据，使用随机森林算法进行建模，得到随机森林模型的装置，其中特征数据包括用户的基本信息、用户的社区信息、以及相应衍生字段；以及用于使用随机森林模型进行恶意用户识别的装置。

根据本发明的实施例，用户基础数据包括用户基本信息和注册信息，用户业务数据包括用户在该网站进行业务活动的数据。

根据本发明的实施例，用于生成社区网络图的装置包括：用于基于用户基础数据和业务数据，根据用户间的关系生成边数据的装置，具有关系的两个用户之间有一条边，边的源顶点ID和目标顶点ID分别为有关系的两个用户的ID号，边的属性信息包括用户关系值和/或用户关系类型；用于使用边数据生成包括边和顶点的初始图的装置；用于对初始图运行Fast Unfolding算法，生成社区网络图并计算各社区的模块度值的装置。

根据本发明的实施例，社区属性包括以下三个属性：用户所属社区、用户所属社区用户数、用户所属社区模块度；以及图属性包括用户所在社区的图的度属性。

根据本发明的实施例，所述衍生字段包括以下任意一个或多个：使用相同下单ip对相同商品下单的用户数；同一天使用相同下单ip和相同收货地的下单量；用户所在社区的度的总和。

根据本发明的实施例，用于使用随机森林算法进行建模的装置包括：用于设置随机森林算法的目标变量、特征数据及算法参数，并生成Pipeline对象的装置，目标变量是一个标识用户是否是恶意用户的字段，算法参数包括以下的任意一个或多个：树的最大深度、特征的最大分箱数、每个叶节点的最小实例数、最小信息增益、特征子集采样策略、树的棵数；以及用于使用训练数据作为入参并使用训练数据训练Pipeline对象，得到随机森林模型的装置。

根据本发明的实施例，用于使用随机森林模型进行恶意用户识别的装置包括：用于加载待识别用户及其相应的特征数据的装置；以及用于使用随机森林模型基于特征数据进行恶意用户识别并输出识别结果的装置。

本发明的实施例使用Fast Unfolding社区发现算法，能发现用户间的潜在复杂联系，提供反映用户关系的社区指标信息。相比传统的基于基本指标(非社区指标)进行建模的方法，增加社区指标进行建模能构建更有效的潜在识别模型，识别更多的恶意用户。

根据本发明各实施例的上述方法、设备和/或装置可以通过有计算能力的电子设备执行包含计算机指令的软件来实现。所述有计算能力的电子设备可以包含通用处理器、数字信号处理器、专用处理器、可重新配置处理器等能够执行计算机指令的装置，但不限于此。执行这样的指令使得电子设备被配置为执行根据本发明的上述各项操作。上述各设备和/或模块可以在一个电子设备中实现，也可以在不同电子设备中实现。这些软件可以存储在计算机可读存储介质中。计算机可读存储介质存储一个或多个程序(软件模块)，所述一个或多个程序包括指令，当电子设备中的一个或多个处理器执行所述指令时，所述指令使得电子设备执行本发明的方法。

这些软件可以存储为易失性存储器或非易失性存储装置的形式(比如类似ROM等存储设备)，不论是可擦除的还是可重写的，或者存储为存储器的形式(例如RAM、存储器芯片、设备或集成电路)，或者被存储在光可读介质或磁可读介质上(比如，CD、DVD、磁盘或磁带等等)。应该意识到，存储设备和存储介质是适于存储一个或多个程序的机器可读存储装置的实施例，所述一个程序或多个程序包括指令，当所述指令被执行时，实现本发明的实施例。实施例提供程序和存储这种程序的机器可读存储装置，所述程序包括用于实现本发明的任何一项权利要求所述的装置或方法的代码。此外，可以经由任何介质(比如，经由有线连接或无线连接携带的通信信号)来电传递这些程序，多个实施例适当地包括这些程序。

根据本发明各实施例的方法、设备和/或装置还可以使用例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)或可以以用于对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。在以这些方式实现时，所使用的软件、硬件和/或固件被编程或设计为执行根据本发明的相应上述方法、步骤和/或功能。本领域技术人员可以根据实际需要来适当地将这些系统和模块中的一个或多个，或其中的一部分或多个部分使用不同的上述实现方式来实现。这些实现方式均落入本发明的保护范围。

尽管已经参照本发明的特定示例性实施例示出并描述了本发明，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本发明的精神和范围的情况下，可以对本发明进行形式和细节上的多种改变。因此，本发明的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种识别网站的潜在恶意用户的方法，包括：

基于用户基础数据和业务数据，使用Fast Unfolding算法生成社区网络图；

从所述社区网络图获取社区信息，所述社区信息包括社区网络图的社区属性和图属性；

基于用户基础数据、业务数据和所属社区的社区信息，生成宽表，基于宽表生成衍生字段，所述衍生字段是能够用于判断用户是否为恶意用户的字段；

将被选择用于训练的用户的特征数据作为训练数据，使用随机森林算法进行建模，得到随机森林模型，其中特征数据包括用户的基本信息、用户的社区信息、以及相应衍生字段；以及

使用随机森林模型进行恶意用户识别。

2.根据权利要求1所述的方法，其中，用户基础数据包括用户基本信息和注册信息，用户业务数据包括用户在该网站进行业务活动的数据。

3.根据权利要求1所述的方法，其中，生成社区网络图包括：

基于用户基础数据和业务数据，根据用户间的关系生成边数据，具有关系的两个用户之间有一条边，边的源顶点ID和目标顶点ID分别为有关系的两个用户的ID号，边的属性信息包括用户关系值和/或用户关系类型；

使用边数据生成包括边和顶点的初始图；

对初始图运行Fast Unfolding算法，生成社区网络图并计算各社区的模块度值。

4.根据权利要求1所述的方法，其中：

社区属性包括以下三个属性：用户所属社区、用户所属社区用户数、用户所属社区模块度；以及

图属性包括用户所在社区的图的度属性。

5.根据权利要求1所述的方法，其中，所述衍生字段包括以下任意一个或多个：使用相同下单ip对相同商品下单的用户数；同一天使用相同下单ip和相同收货地的下单量；用户所在社区的度的总和。

6.根据权利要求1所述的方法，其中，使用随机森林算法进行建模包括：

设置随机森林算法的目标变量、特征数据及算法参数，并生成Pipeline对象，所述Pipeline是spark框架提供的用于构建机器学习工作流应用的库，目标变量是一个标识用户是否是恶意用户的字段，算法参数包括以下的任意一个或多个：树的最大深度、特征的最大分箱数、每个叶节点的最小实例数、最小信息增益、特征子集采样策略、树的棵数；以及

使用训练数据作为入参并使用训练数据训练Pipeline对象，得到随机森林模型。

7.根据权利要求1所述的方法，其中，使用随机森林模型进行恶意用户识别包括：

加载待识别用户及其相应的特征数据；以及

使用随机森林模型基于特征数据进行恶意用户识别并输出识别结果。

8.一种识别网站的潜在恶意用户的装置，包括：

用于基于用户基础数据和业务数据，使用Fast Unfolding算法生成社区网络图的装置；

用于从所述社区网络图获取社区信息的装置，所述社区信息包括社区网络图的社区属性和图属性；

用于基于用户基础数据、业务数据和所属社区的社区信息，生成宽表，基于宽表生成衍生字段的装置，所述衍生字段是能够用于判断用户是否为恶意用户的字段；

用于将被选择用于训练的用户的特征数据作为训练数据，使用随机森林算法进行建模，得到随机森林模型的装置，其中特征数据包括用户的基本信息、用户的社区信息、以及相应衍生字段；以及

用于使用随机森林模型进行恶意用户识别的装置。

9.根据权利要求8所述的装置，其中，用户基础数据包括用户基本信息和注册信息，用户业务数据包括用户在该网站进行业务活动的数据。

10.根据权利要求8所述的装置，其中，用于生成社区网络图的装置包括：

用于基于用户基础数据和业务数据，根据用户间的关系生成边数据的装置，具有关系的两个用户之间有一条边，边的源顶点ID和目标顶点ID分别为有关系的两个用户的ID号，边的属性信息包括用户关系值和/或用户关系类型；

用于使用边数据生成包括边和顶点的初始图的装置；

用于对初始图运行Fast Unfolding算法，生成社区网络图并计算各社区的模块度值的装置。

11.根据权利要求8所述的装置，其中：

图属性包括用户所在社区的图的度属性。

12.根据权利要求8所述的装置，其中，所述衍生字段包括以下任意一个或多个：使用相同下单ip对相同商品下单的用户数；同一天使用相同下单ip和相同收货地的下单量；用户所在社区的度的总和。

13.根据权利要求8所述的装置，其中，用于使用随机森林算法进行建模的装置包括：

用于设置随机森林算法的目标变量、特征数据及算法参数，并生成Pipeline对象的装置，所述Pipeline是spark框架提供的用于构建机器学习工作流应用的库，目标变量是一个标识用户是否是恶意用户的字段，算法参数包括以下的任意一个或多个：树的最大深度、特征的最大分箱数、每个叶节点的最小实例数、最小信息增益、特征子集采样策略、树的棵数；以及

用于使用训练数据作为入参并使用训练数据训练Pipeline对象，得到随机森林模型的装置。

14.根据权利要求8所述的装置，其中，用于使用随机森林模型进行恶意用户识别的装置包括：

用于加载待识别用户及其相应的特征数据的装置；以及

用于使用随机森林模型基于特征数据进行恶意用户识别并输出识别结果的装置。

15.一种识别网站的潜在恶意用户的装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至7中任一项所述的方法。

16.一种计算机可读存储介质，存储有计算机指令，所述指令被处理器执行时实现如权利要求1至7中任一项所述的方法。