CN111078969B

CN111078969B - 一种基于ai的异常人群识别方法

Info

Publication number: CN111078969B
Application number: CN201911077196.3A
Authority: CN
Inventors: 颜晨帆; 陈勇华
Original assignee: Guangzhou Lizhi Network Technology Co ltd
Current assignee: Guangzhou Lizhi Network Technology Co ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2023-06-09
Anticipated expiration: 2039-11-06
Also published as: CN111078969A

Abstract

本发明涉及一种基于AI的异常人群识别方法，包括如下步骤：步骤一：搜集信息，以设备为研究对象，搜集设备在平台出现的所有设备信息；步骤二：无监督算法实现，将以上搜集到的数据用数据结构图表示；步骤三：有监督算法实现，通过步骤二中的数据结构图构建二分类的预测模型。本发明解决了需要用户有实际的批量异常行为，对于养号很久，仿真度高，一夜获利并消失的黑产作案模式，有明显的滞后性的技术问题。

Description

一种基于AI的异常人群识别方法

技术领域

本发明属于人工智能算法领域，具体涉及一种基于AI的异常人群识别方法。

背景技术

伴随着直播和游戏等行业在互联网中的快速发展，在企业为了拉新和刺激用户活跃和留存而投入的各项活动里，潜伏着越来越多的黑产团伙，伪装成正常用户，通过批量化智能化的手段从中牟利。

黑产团伙往往拥有一批固定的硬件设备(手机墙和猫池等)和黑产人员，通过刷机和脚本变换各项参数，从而利用少量真实硬件设备“制造”无限虚拟账号，降低获利成本。

传统的黑产发现方法，是当黑产在平台产生具体异常行为(如批量异常注册，批量异常登陆，批量异常充值等)时，才会锁定该批用户为同一批黑产团伙。这样的发现方法，需要用户有实际的批量异常行为，对于养号很久，仿真度高，一夜获利并消失的黑产作案模式，有明显的滞后性。同时，黑产可轻松改变软件信息，继续注册新账号。

有鉴于此，本申请人提供一种基于AI的异常人群识别方法，本案由此产生。

发明内容

为了解决以上问题，提出了预见性的，无监督与有监督方法相结合的，可解释性更强的一种基于AI的异常人群识别方法。

为实现上述目的，本发明具体提供的技术方案为：一种基于AI的异常人群识别方法，包括如下步骤：

步骤一：搜集信息，以设备为研究对象，搜集设备在平台出现的所有设备信息；

步骤二：无监督算法实现，将以上搜集到的数据用数据结构图表示；

步骤三：有监督算法实现，通过步骤二中的数据结构图构建二分类的预测模型。

进一步，搜集信息时机，不论设备是否注册成功，设备在平台出现，开始搜集允许范围内的设备信息和账号信息。

进一步，搜集内容，首先搜集强设备信息，然后搜集设备间的交互行为，再搜集设备自身行为特征。

进一步，所述步骤二具体为：一、以设备为节点，以存在相同的设备信息和相似的交互行为和相似的设备自身行为为边；遍历所有节点和属性，生成网络中所有边；二、有关联边的节点形成一个子图，同个子图内的节点在一个或多个属性上关联关系；三、绘制成图，计算每个子图的聚类系数，计算每个子图的节点个数；四、任意汇总历史上一段时间内的设备信息，分析出该段时间内的设备团伙；五、不同时间段内若存在相同的设备，合并两个团伙，形成更大规模的团伙。

进一步，合并两个团伙，形成更大规模的团伙，以此类推，团伙可以累积扩大。

进一步，所述步骤三具体为：一、构建特征，步骤二的数据结构图构建后，得到每个图的共性；二、设计分类目标值，账号是否曾被人工标记违规为目标，建立分类预测模型；三、采用随机森林分类算法，构建模型；四、构建模型评价指标，作为账号处罚依据。

本发明的有益效果：本发明通过搜集信息时机，不论设备是否注册成功，设备在平台出现，开始搜集允许范围内的设备信息和账号信息，搜集内容，首先搜集强设备信息，然后搜集设备间的交互行为，再搜集设备自身行为特征，解决了需要用户有实际的批量异常行为，对于养号很久，仿真度高，一夜获利并消失的黑产作案模式，有明显的滞后性的技术问题。

附图说明

图1为根据一示例性实施例示出的一种基于AI的异常人群识别方法的流程图。

图2为根据一示例性实施例示出的一种基于AI的异常人群识别方法的设备节点网络构建原理图。

图3为根据一示例性实施例示出的一种基于AI的异常人群识别方法的设备节点网络构建图。

图4为根据一示例性实施例示出的一种基于AI的异常人群识别方法的混淆矩阵图。

图5为根据一示例性实施例示出的一种基于AI的异常人群识别方法的ROC曲线图。

实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

如图1所示，本实施例揭示的是一种基于AI的异常人群识别方法，包括如下步骤，

S100步骤一：搜集信息，以设备为研究对象，搜集设备在平台出现的所有设备信息；搜集信息时机，不论设备是否注册成功，设备在平台出现，开始搜集允许范围内的设备信息和账号信息；搜集内容，首先搜集强设备信息，然后搜集设备间的交互行为，再搜集设备自身行为特征。

S200步骤二：无监督算法实现，将以上搜集到的数据用数据结构图表示；

S300步骤三：有监督算法实现，通过步骤二中的数据结构图构建二分类的预测模型。

结合图2-5所示，对上述步骤具体展开如下：

(一)搜集信息

搜集的时机：以设备为研究对象，搜集设备在平台出现的所有设备信息，即不论设备是否注册成功，只要该设备在平台出现，就开始搜集允许范围内的设备信息/账号信息。

搜集的内容：

a.首先搜集强设备信息，如硬件唯一标识等。

b.然后搜集设备间的交互行为。

在如荔枝/喜马拉雅等音频APP中，用户可以播放节目/对节目进行评论/对主播进行点赞/互发私信一对一聊天/开语音房间群聊。这些就是用户间产生的诸多种交互。这类平台也变为黑产掘金的宝地，有的成为水军乱发评论扰乱秩序，有的冒充官方低价金币买卖。分析用户的历史交互行为，可以从中发现用户交互的特征(如曾经在设备A登陆的账号，在设备B上进行了登陆，并完成充值后，交还设备A进行登陆消费；或者设备A从来只有充值行为，没有与任何一个主播有着该有的浏览收听等使用行为。这类行为与正常的使用行为有明显不同，有低价代充金币的嫌疑0p)。

c.设备自身行为特征

除了交互，设备本身的维度也可以产生很多特征，如：1分钟内发送的评论记录数/1分钟内发送的去重评论记录数

(二)无监督算法实现

本发明将以上搜集到的数据用数据结构图来表示，具体实现如下：

a.以设备为节点，以存在相同的设备信息/相似的交互行为/相似的设备自身行为为边。比如，设备A与设备B，在硬件唯一标识上相同，就在图中节点A和节点B之间生成的一条边。遍历所有节点和属性，生成网络中所有边。

b.有关联边的节点可以形成一个子图。同个子图内的节点在一个或多个属性上存在关联关系。因此，所有子图的集合反映了整个设备网络中的关联关系。

c.绘制成图后，可以计算每个子图的聚类系数，即团伙紧凑程度。可以计算每个子图的节点个数，即团伙大小。

d.任意汇总历史上一段时间内的设备信息，都可以分析出该段时间内的设备团伙。

e.不同时间段内若存在相同的设备，即可合并两个团伙，形成更大规模的团伙。以此类推。团伙可以累积扩大。

(三)有监督算法实现

本发明接着构建二分类的预测模型，具体实现方法如下：

a.构建特征

步骤②的图构建后，我们就可以得到每个图的共性，如都是拥有同批设备，同样的行为轨迹(同一天注册且同一天为某账号充值且同一天消失)，同样的交互手段(账号在设备A退出后立即在设备B登陆，且充值后在充值页必截图，充值后必退出，再由设备A登陆进行消费)。此为算法输入。

b.设计分类目标值

账号在平台中会有诸多监管，如相关审核人员的巡检/用户的日常举报/公司审核人员的人工审核。本发明即以账号是否曾被人工标记违规为目标，建立分类预测模型。此为算法目标与预测输出。

c.构建模型

考虑到本模型特征个数极多(用户在不同时间维度内会产生非常多的行为信息)，且行为相互影响复杂，与目标并不存在明显大量的共线性，部分自变量不相互独立，且预测耗时要求在0.1-1毫秒内的响应速度，这里采用随机森林分类算法。

d.构建模型评价指标

由于模型结果会作为账号的处罚依据(封禁/禁止发言)，对用户有明显的感知。因此要求有极高的准确率，召回率为较高要求。因而这里需要计算混淆矩阵/准确率/精确率/召回率/F1值，综合评价。

从设备在全平台的任何一个场景中出现开始，搜集其硬件设备信息。用设备作为节点，用设备存在共同设备属性作为连边，构建图网络。

构建完成后，每个子网络即为一个团伙，子网络所包含的节点即为该团伙中的设备集合，网络的节点个数作为网络的规模。同时计算每个子图的聚类系数，即为子图的紧密度。

将图ID/图节点ID/图紧密度,作为输入源，提供给风控系统进行团伙标记，并由风控系统实施统一拦截。预见性强，无监督，可解释性强。

从硬件维度锁定了10大团伙，245个账号。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种基于AI的异常人群识别方法，其特征在于，包括如下步骤：

步骤一：搜集信息：以设备为研究对象，搜集设备在平台出现的所有设备信息；搜集信息时机，不论设备是否注册成功，设备在平台出现时，开始搜集允许范围内的设备信息和账号信息；搜集内容，首先搜集强设备信息，然后搜集设备间的交互行为，再搜集设备自身行为特征；

步骤二：无监督算法实现，将以上搜集到的数据用数据结构图表示，所述步骤二具体为：一、以设备为节点，以存在相同的设备信息和相似的交互行为和相似的设备自身行为为边；遍历所有节点和属性，生成网络中所有边；二、有关联边的节点形成一个子图，同一个子图内的节点在一个或多个属性上存在关联关系；三、绘制成图，计算每个子图的聚类系数，计算每个子图的节点个数；四、任意汇总历史上一段时间内的设备信息，分析出该段时间内的设备团伙；五、不同时间段内若存在相同的设备，合并两个设备团伙，形成更大规模的设备团伙；

步骤三：有监督算法实现，通过步骤二中的数据结构图构建二分类的预测模型，所述步骤三具体为：一、构建特征，步骤二的数据结构图构建后，得到每个图的共性；二、设计分类目标值，账号是否曾被人工标记违规为目标，建立分类预测模型；三、采用随机森林分类算法，构建模型；四、构建模型评价指标，作为账号处罚依据。

2.根据权利要求1所述的一种基于AI的异常人群识别方法，其特征在于：合并两个设备团伙，形成更大规模的设备团伙，以此类推，团伙累积扩大。