CN112837078A

CN112837078A - 一种基于集群的用户异常行为检测方法

Info

Publication number: CN112837078A
Application number: CN202110234544.4A
Authority: CN
Inventors: 田文洪
Original assignee: Wanshang Yunji Chengdu Technology Co Ltd
Current assignee: Wanshang Yunji Chengdu Technology Co Ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-05-25
Anticipated expiration: 2041-03-03
Also published as: CN112837078B

Abstract

本发明提供了一种基于集群的用户异常行为检测方法，包括如下步骤：S1.定时更新获取商家数据平台数据库中的用户行为数据并进行统计，S2.将统计的用户行为数据抽象为图得到用户关系图，S3.将用户关系图输入到社区划分算法中，进行社区划分，得到若干个集群，并进行特征提取，得到用户特征的向量，S4.将集群与用户特征的向量输入异常检测模型中进行异常检测判断，得到异常检测结果；异常检测模型包括多个检测通道，每个检测通道包括多个检测层，每个检测通道中具有不同的检测算法，检测算法包括G‑KNN检测算法以及GN‑LOF检测算法；本发明将单点检测改进为集群检测，用集群特征来描述用户的异常行为特征，检测效率高。

Description

一种基于集群的用户异常行为检测方法

技术领域

本发明涉及计算机信息安全技术领域，具体而言，涉及一种基于集群的用户异常行为检测方法。

背景技术

网络在为用户带来便利的同时,也带来了恶意入侵的风险，在基于商业软件上的用户行为异常检测方面，存在实际的用户利用软件规则来薅羊毛的情况。利用线下朋友关系网的影响力，例如微信群以及朋友圈中推送商品或者活动广告的效果要远大于平台所推送的广告，已经有越来越多的商家利用客户之间的人脉关系来宣传自己的产品。在此过程中，为了更有效地激励客户帮助宣传产品与活动，举办活动的商家会根据用户本身带来流量与新客户的能力赠送现金红包、优惠券的方式进行激励。

通过统计分析某次活动中所有客户的活动数据，将活动客户以及客户之间的邀请关系抽象为图，即能够分析单个客户以及某个客户群体的具体特征，有助于发掘带来流量能力较强的客户以及购买意愿较强的客户，提高活动的变现能力。

但是有人或者群体利用活动的漏洞来骗取大量的现金红包，此类人群会通过组成团体并且一人控制多个账号的方式，分析活动商家的奖励规则并找出其漏洞，制造带来了很多新客户与流量的假象，进而骗取活动组织者大量的现金红包等优惠。

因此急需设计一种针对以上异常行为的自动检测方法。

发明内容

本发明的目的在于提供一种基于集群的用户异常行为检测方法，其先将用户行为数据抽象为图，得到用户关系图，再将用户关系图进行社区划分得到多个集群，将集群进行特征提取得到用户特征的向量，再将集群以及用户特征的向量输入异常检测模型中进行异常检测判断，得到异常检测结果。

本发明的实施例通过以下技术方案实现：

一种基于集群的用户异常行为检测方法，包括以下步骤：

S1.定时更新获取商家数据平台数据库中的用户行为数据，并对用户行为数据进行统计，统计得出每个用户自己行使过的所有行为与用户作为邀请者时带来的其他人的所有行为的数据；用户行为数据包括行动发起客户的唯一ID与用户名、邀请此次行动的客户的唯一ID与用户名、此次行为的种类、持续时间；

S2.将统计的用户行为数据抽象为图，得到用户关系图，在用户关系图中，用户关系图的有向边代表用户的行为，有向边的源节点为行为的发起用户，有向边的目的节点为行为的邀请者；

S3.将用户关系图输入到社区划分算法中，进行社区划分，得到若干个用户关系的集群，将若干个集群进行特征提取，得到用户特征的向量。用户特征的向量包括集群的出度均值、出度方差、入度均值、入度方差、深度平均值、深度方差、访问时间平均值以及访问时间方差；在集群中，深度表示集群一个节点有向边的传播度，出度表示集群中一个节点的有向边的发射边个数，入度表示集中中一个节点的有向边的指向边个数，而深度平均值就是集群的多个节点的深度的平均值，深度方差为集群的多个节点的方差，同理可知出度平均值、出度方差、出度平均值以及入度方差；

提取用户特征的向量的方法为：在商家数据平台的数据库中提取集群中节点深度、入度以及出度对应的原始数据，以及提取数据库中集群节点的访问时间数据，并根据原始数据以及访问时间数据来确定计算集群的深度平均值、深度方差、出度平均值、出度方差、入度平均值、入度方差、访问时间平均值以及访问时间方差，从而得到集群的用户特征的向量。

进一步的，划分得到集群的方法为：将用户关系图中的所有用户进行集群化，采用社区划分的方法，以图中节点的连接度为主要标准将用户关系图划分为多个有着明显连接特征的集群，采用布局算法对集群进行布局调整，然后使用渲染规则对布局调整后的集群进行渲染，得到集群的可视化图像；

S4.将集群与用户特征的向量输入异常检测模型中进行异常检测判断，得到异常检测结果；具体的，异常检测模型包括多个检测通道，每个检测通道包括多个检测层，每个检测通道中的每个检测层具有不同的检测算法，在每一个检测通道中，集群以及用户特征的向量先经过第一层检测层进行异常检测并得出异常检测结果，并将异常检测结果进行过滤并储存，过滤后的集群以及用户特征的向量再进入下一层检测层进行检测，再次得出异常检测结果并进行过滤以及储存，直至最后一层检测层完成检测，每一层的异常检测结果均储存在异常值数据库中，汇总异常值数据库中的每一层的异常检测结果并获取最终检测结果。

进一步的，将每个检测通道的最终检测结果进行统计分析，其统计分析方法为，将每个检测通道的最终检测结果取交集以及并集。最终检测结果的交集为每个检测通道都认定的异常值部分，最终结果的并集则为所有检测通道的异常值的总和。在统计完最终检测结果的交集以及并集后，将最终检测结果的交集以及并集上传显示，供系统决策层做出决策。

进一步的，在将用户行为数据抽象为图的同时，对用户行为数据进行数据清洗，并对清洗好的用户行为数据根据设定的过滤策略进行过滤并排名，选出高意向用户与意见领袖的候选群体。数据清洗主要包括的方法有：去除对某些字段视为无效的数据、将从不同数据库表中获得的数据通过join操作进行合并以及转换数据格式便于之后的使用、使用行为特征提炼、权重替换与统计以及设定阈值并过滤。

进一步的，高意向用户与意见领袖的候选群体与最终检测结果的交集以及并集作为判断依据，得出最终异常检测结果。

优选地，所述社区划分算法采用Louvain社区划分算法，Louvain算法是基于模块度的社区发现算法，该算法在效率和效果上都表现较好，并且能够发现层次性的社区结构。

Louvain社区划分算法的思路为：

1.将用户关系图中的每个节点看成一个独立的社区；

2.对每个节点i，依次尝试把节点i分配到其每个邻居节点所在的社区，计算分配前与分配后的模块度变化ΔQ，并记录ΔQ最大的那个邻居节点，如果maxΔQ>0，则把节点i分配ΔQ最大的那个邻居节点所在的社区，否则保持不变；模块度变化ΔQ为本领域技术人员的公知常识，此处不再进行过多的赘述；

3.重复操作2，直到所有节点的所属社区不再发生改变；这样就得到了若干个集群。

优选地，社区划分算法将用户关系图划分为多个集群后，通过布局算法对集群进行调整，然后通过渲染规则对集群进行渲染，得到集群可视化图像。

进一步的，所述检测算法包括G-KNN检测算法，所述G-KNN检测算法具体为：选取目标集群以及K个对象集群，对象集群为目标集群的邻近集群，分别计算目标集群与对象集群的用户特征的向量的差值，将差值相加得到目标集群的用户特征的向量状况值，多个用户特征的向量状况值进行加权相加，得到目标集群的异常情况值，根据目标集群的异常情况值判断集群的异常情况，多个用户特征的向量状况值包括深度均值状况值、深度方差状况值、出度均值状况值、出度方差状况值、入度均值状况值以及入度方差状况值。

进一步的，所述检测算法包括GN-LOF检测算法，所述GN-LOF检测算法具体为：选取目标集群，以及k个对象集群，对象集群为目标集群的邻近集群，计算目标集群多个用户特征的向量局部可达密度，根据多个用户特征的向量局部可达密度加权相加得到目标集群局部可达密度值，根据目标集群用户特征的向量局部可达密度计算目标集群用户特征的向量局部异常因子，将目标集群多个用户特征的向量局部异常因子加权相加得到目标集群的局部异常值，根据目标集群局部异常值判断目标集群异常情况；多个用户特征的向量局部可达密度包括：深度均值局部可达密度、深度方差局部可达密度、出度均值局部可达密度、出度方差局部可达密度、入度均值局部可达密度以及入度方差局部可达密度；多个用户特征的向量局部异常因子包括：深度均值局部异常因子、深度方差局部异常因子、出度均值局部异常因子、出度方差局部异常因子、入度均值局部异常因子以及入度方差局部异常因子。

本发明实施例的技术方案至少具有如下优点和有益效果：

针对的传统异常检测方案的单点检测思路进行了扩展优化，能够对集群特征进行异常检测。对传统的多种异常检测算法进行了优化改造，使其能够在集群异常检测方面产生效用。采用模型融合的方式，多通道多个检测层的方案，综合了多种模型的高超性能，用来提高异常检测的准确度、鲁棒性等相关性能。对于商业软件中，用户薅羊毛等异常行为提出了一种新的异常检测方案，第一次采用集群特征来描述用户的异常行为特征，在大数据环境下的提供了一条高效的用户异常行为检测方案。

本发明设计合理、结构简单，检测效率高、可实施性强、实用性强。

附图说明

图1为本发明实施例1提供的一种基于集群的用户异常行为检测方法的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

实施例1

如图1所示，一种基于集群的用户异常行为检测方法，包括以下步骤：

S2.将统计的用户行为数据抽象为图，得到用户关系图；在用户关系图中，图的有向边代表用户的行为，有向边的源节点为行为的发起用户，有向边的目的节点为行为的邀请者，有向边的权重为此边用户行为所对应的权重。

S3.将用户关系图输入到社区划分算法中，进行社区划分，得到若干个用户关系的集群，将若干个集群进行特征提取，得到用户特征的向量；用户特征的向量包括出度均值、出度方差、入度均值、入度方差、深度均值、深度方差；用户特征的向量还可以包括访问时间均值以及访问时间方差。

具体体现为，将用户关系图中的所有用户进行集群化，采用社区划分的方法，以图中节点的连接度为主要标准将用户关系图划分为多个有着明显连接特征的集群，采用布局算法对集群进行布局调整，然后使用渲染规则对布局调整后的集群进行渲染，得到集群的可视化图像；以连接度为主要标准具体表现为：例如，用户关系图中的一个节点与相邻的集群1和集群2都有联系，但是这个节点在集群1中有三个被邀请的节点，而该节点在集群2中只有一个被邀请的节点，那么这个节点就会被划分进集群1中；在本实施例中，布局算法采用Atlas算法，在其它实施例中，布局算法还可采用Force atlas2算法、FrunchetermanReingold算法、Open Ord算法、Rotate算法以及YifanHu算法，根据具体想要实现的效果而采用不同的布局算法，而渲染规则则是依据布局算法而所需要的参数，从而使得集群具有易读性且更具美观。

在本实施例中，商家数据平台数据库中储存的原始数据格式包括：动作的执行者、动作的邀请者、历史的邀请链、动作的内容以及动作的持续时间，统计数据库中每个集群的历史邀请链，统计动作的执行者执行了哪几个动作并执行了多少次动作，统计动作邀请者邀请成功了哪几个动作并邀请了多少次动作，根据业务的需求不同，对不同动作赋予相应的权重。

历史的邀请链的解释为：如果集群节点甲邀请了集群节点乙进行了一次购买，集群节点乙又邀请了集群节点丙进行了一次办卡，那么历史邀请链为：甲——乙——丙，集群节点甲的深度为0，集群节点乙的深度为1，集群节点丙的深度为2；每个动作在原始数据中都对应一个邀请链。

深度均值以及方差的提取方法为：统计每个动作执行者执行动作的深度，转化为相应的权重并计算均值以及方差。

出度均值以及方差的提取方法为：统计一个节点以动作邀请者的身份邀请成功后的所有动作，根据所有动作转换为相应的权重数据后，计算得到出度均值以及方差。

入度均值以及方差的提取方法为：统计一个节点以动作执行者的身份执行的所有动作，根据所有动作转换为相应的权重数据后，计算得到入度的均值以及方差。

访问时间均值以及方差的提取方法为：统计一个用户执行者所有动作执行的时长，计算时长的均值以及方差，例如，可以统计用户访问网页的时间。

检测算法包括传统检测算法以及改进的G-KNN检测算法以及GN-LOF检测算法，传统检测算法包括PCA检测算法，KNN检测算法，LOF检测算法以及AutoEncoder检测算法。

将每个检测通道的最终检测结果进行统计分析，其统计分析方法为，将每个检测通道的最终检测结果取交集以及并集。最终检测结果的交集为每个检测通道都认定的异常值部分，最终结果的并集则为所有检测通道的异常值的总和。在统计完最终检测结果的交集以及并集后，将最终检测结果的交集以及并集上传显示，供系统决策层做出决策。

在将用户行为数据抽象为图的同时，对用户行为数据进行数据清洗，并对清洗好的用户行为数据根据设定的过滤策略进行过滤并排名，选出高意向用户与意见领袖的候选群体。数据清洗主要包括的方法有：去除对某些字段视为无效的数据、将从不同数据库表中获得的数据通过join操作进行合并以及转换数据格式便于之后的使用、使用行为特征提炼、权重替换与统计以及设定阈值并过滤。

高意向用户与意见领袖的候选群体与最终检测结果的交集以及并集作为判断依据，得出最终异常检测结果。

所述社区划分算法采用Louvain社区划分算法，Louvain算法是基于模块度的社区发现算法，该算法在效率和效果上都表现较好，并且能够发现层次性的社区结构。

Louvain社区划分算法的思路为：

1.将用户关系图中的每个节点看成一个独立的社区；

社区划分算法将用户关系图划分为多个集群后，通过布局算法对集群进行调整，然后通过渲染规则对集群进行渲染，得到集群可视化图像。

所述G-KNN检测算法具体为：

选取目标集群以及K个对象集群，对象集群为目标集群的邻近集群，分别计算目标集群与对象集群的用户特征的向量的差值，将差值相加得到目标集群的用户特征的向量状况值，多个用户特征的向量状况值进行加权相加，得到目标集群的异常情况值，根据目标集群的异常情况值判断集群的异常情况，多个用户特征的向量状况值包括深度均值状况值、深度方差状况值、出度均值状况值、出度方差状况值、入度均值状况值以及入度方差状况值。

G-KNN检测算法的具体流程为：

用户关系图经社区划分算法的多个集群以及对于各个集群所提取的用户特征的向量均输入G-KNN检测算法中，将多个集群以及集群的用户特征的向量通过雷达图的方式降维映射到二维平面，二维平面图会出现多个新节点，一个新节点代表一个集群，选取二维平面图中的一个目标集群，分别计算目标集群与离它最近K个集群的用户特征的向量的差值，将K个差值相加，相加后的值为这个目标集群的用户特征的向量状况值，多个用户特征的向量值进行加权相加，得到目标集群的异常情况值，具体的，目标集群的异常情况值越大，目标集群越异常。分别计算二维平面中的每一个集群的异常情况值。

具体的，用户特征的向量以深度均值为例，K取5，选取一个目标集群，分别计算目标集群与离它最近5个集群的深度均值的差值，得到这5个深度均值的差值，然后将这5个深度均值的差值相加得到深度均值状况值；同理，再分别计算目标集群的深度方差状况值、出度均值状况值、出度方差状况值、入度均值状况值、入度方差状况值、访问时间均值状况值以及访问时间方差状况值，然后再把深度方差状况值、出度均值状况值、出度方差状况值、入度均值状况值、入度方差状况值、访问时间均值状况值以及访问时间方差状况值进行加权相加，得到目标集群的异常情况值。

所述GN-LOF检测算法具体为：选取目标集群，以及k个对象集群，对象集群为目标集群的邻近集群，计算目标集群多个用户特征的向量局部可达密度，根据多个用户特征的向量局部可达密度加权相加得到目标集群局部可达密度值，根据目标集群用户特征的向量局部可达密度计算目标集群用户特征的向量局部异常因子，将目标集群多个用户特征的向量局部异常因子加权相加得到目标集群的局部异常值，根据目标集群局部异常值判断目标集群异常情况；多个用户特征的向量局部可达密度包括：深度均值局部可达密度、深度方差局部可达密度、出度均值局部可达密度、出度方差局部可达密度、入度均值局部可达密度以及入度方差局部可达密度；多个用户特征的向量局部异常因子包括：深度均值局部异常因子、深度方差局部异常因子、出度均值局部异常因子、出度方差局部异常因子、入度均值局部异常因子以及入度方差局部异常因子。

GN-LOF检测算法的具体流程为：

GN-LOF检测算法的前部分与G-KNN算法相似，用户关系图经社区划分算法的多个集群以及对于各个集群所提取的用户特征的向量均输入GN-LOF检测算法中，将多个集群以及集群的用户特征的向量通过雷达图的方式降维映射到二维平面，二维平面图会出现多个新节点，一个新节点代表一个集群，选取二维平面图中的一个目标集群，分别计算目标集群与离它最近k个集群的用户特征的向量的差值，然后根据局部可达密度公式计算用户特征的向量局部可达密度，局部可达密度公式如公式1所示，

公式1中，p代表目标集群，N_k(p)代表的以p为中心，最近的k个集群的集合，o代表集合内的对象集群，reach_dist_k(p,o)代表目标集群到对象集群的用户特征的向量的差值，根据局部可达密度公式可以求出目标集群用户特征的向量的局部可达密度。

再将目标集群用户特征的向量局部可达密度导入局部异常因子公式中，得到目标集群用户特征的向量局部异常因子，再对目标集群用户特征的向量局部异常因子进行加权相加，得到目标集群的局部异常值，具体的，局部异常值越大，集群越异常。局部异常因子公式如公式2所示，

公式2中，lrd(o)代表对象集群的用户特征的向量局部可达密度，lrd(p)代表目标集群的用户特征的向量局部可达密度，LOF_k(p)代表在邻近距离内，目标集群p的用户特征的向量局部异常因子。

具体的，用户特征的向量以深度均值为例，k的取值为5，选取一个目标集群，以及目标集群周围5个集群的，这五个集群均为对象集群，分别计算目标集群与对象集群深度均值的差值，得到这5个深度均值的差值，以局部可达密度公式进行计算。这里的N_k代表的就是最近的5个集群，因此|N_k(p)|取值为5，reach_dist_k(p,o)代表目标集群到对象集群的深度均值的差值。深度均值的局部可达密度的计算方式就是将5个深度均值的差值相加然后除以5，最后取倒数。同理，我们可以求得深度方差、入度均值、入度方差、出度均值、出度方差、访问时间均值、访问时间方差等用户特征的向量的局部可达密度。求出深度均值的目标集群局部可达密度后，将目标集群的局部可达密度与对象集群的局部可达密度带入局部异常因子公式求出目标集群的深度差值的局部异常因子，同理可以求出深度方差、出度均值、出度方差入度均值、入度方差、访问时间均值、访问时间方差等用户特征的向量的局部异常因子，然后将多个用户特征的向量的局部异常因子加权相加，得到目标集群的局部异常值。

进一步的，集群的用户特征的向量还可以包括用户数量以及用户之间的联系情况，用户数量以及用户之间的联系情况也储存在商家数据平台数据库中。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于集群的用户异常行为检测方法，其特征在于，包括以下步骤：

S1.定时更新获取商家数据平台数据库中的用户行为数据，并对用户行为数据进行统计；

S2.将统计的用户行为数据抽象为图，得到用户关系图；

S3.将用户关系图输入到社区划分算法中，进行社区划分，得到若干个用户关系的集群，将若干个集群进行特征提取，得到各集群的用户特征的向量，用户特征的向量包括出度均值、出度方差、入度均值、入度方差、深度均值、深度方差；

S4.将集群与用户特征的向量输入异常检测模型中进行异常检测判断，得到异常检测结果；具体的，异常检测模型包括多个检测通道，每个检测通道包括多个检测层，每个检测通道中的每个检测层具有不同的检测算法，在每一个检测通道中，集群以及用户特征的向量先经过第一层检测层进行异常检测并得出异常检测结果，并将异常检测结果进行过滤并储存，过滤后的集群以及用户特征的向量再进入下一层检测层进行检测，再次得出异常检测结果并进行过滤以及储存，直至最后一层检测层完成检测，汇总每一层的异常检测结果并获取最终检测结果。

2.根据权利要求1所述的用户异常行为检测方法，其特征在于，将每个检测通道的最终检测结果进行统计分析，其统计分析方法为，将每个检测通道的最终检测结果取交集以及并集。

3.根据权利要求1所述的用户异常行为检测方法，其特征在于，所述检测算法包括G-KNN检测算法，所述G-KNN检测算法具体为：选取目标集群以及K个对象集群，对象集群为目标集群的邻近集群，分别计算目标集群与对象集群的用户特征的向量的差值，将差值相加得到目标集群的用户特征的向量状况值，多个用户特征的向量状况值进行加权相加，得到目标集群的异常情况值，根据目标集群的异常情况值判断集群的异常情况，多个用户特征的向量状况值包括深度均值状况值、深度方差状况值、出度均值状况值、出度方差状况值、入度均值状况值以及入度方差状况值。

4.根据权利要求1所述的用户异常行为检测方法，其特征在于，所述检测算法包括GN-LOF检测算法，所述GN-LOF检测算法具体为：选取目标集群，以及k个对象集群，对象集群为目标集群的邻近集群，计算目标集群多个用户特征的向量局部可达密度，根据多个用户特征的向量局部可达密度加权相加得到目标集群局部可达密度值，根据目标集群用户特征的向量局部可达密度计算目标集群用户特征的向量局部异常因子，将目标集群多个用户特征的向量局部异常因子加权相加得到目标集群的局部异常值，根据目标集群局部异常值判断目标集群异常情况；多个用户特征的向量局部可达密度包括：深度均值局部可达密度、深度方差局部可达密度、出度均值局部可达密度、出度方差局部可达密度、入度均值局部可达密度以及入度方差局部可达密度；多个用户特征的向量局部异常因子包括：深度均值局部异常因子、深度方差局部异常因子、出度均值局部异常因子、出度方差局部异常因子、入度均值局部异常因子以及入度方差局部异常因子。

5.根据权利要求1所述的用户异常行为检测方法，其特征在于，在将用户行为数据抽象为图的同时，对用户行为数据进行数据清洗，并对清洗好的用户行为数据根据设定得过滤策略进行过滤并排名，选出高意向用户与意见领袖的候选群体。

6.根据权利要求5所述的用户异常行为检测方法，其特征在于，所述候选群体作为参考与检测结果交集以及并集进行比较，得到最终异常检测结果。