CN112116007A

CN112116007A - 基于图算法和聚类算法的批量注册账号检测方法

Info

Publication number: CN112116007A
Application number: CN202010988899.8A
Authority: CN
Inventors: 普雪飞
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2020-12-22

Abstract

本发明公开了一种基于图算法和聚类算法的批量注册账号检测方法，包括步骤：A.收集注册用户的第一账号数据与第二账号数据；B.根据第一账号数据与第二账号数据建立账号和账号间的关联关系形成账号关联关系网；C.设定账号数量阈值，提取包含的账号数量不小于账号数量阈值的账号关联关系网；D.计算提取出的账号关联关系网中各账号间的编辑距离得到各账号间的编辑距离矩阵；E.设定编辑距离阈值，根据得到的编辑距离矩阵进行账号的聚类，将账号间的编辑距离不超过编辑距离阈值的账号划分为一个类团。本发明的方法利用计算账号间的关联关系替代计算账号间的行为相似度，简化了基于行为相似度方法的数据准备流程和计算复杂度，从而提升检测效率。

Description

基于图算法和聚类算法的批量注册账号检测方法

技术领域

本发明涉及异常账号检测技术领域，特别涉及一种基于图算法和聚类算法的批量注册账号检测方法。

背景技术

互联平台中往往存在着大量的恶意账号，例如被批量注册的账号被用于获取一些不正当的利益，这些账号被用于发布垃圾信息、虚假信息、钓鱼信息。此外，当平台发布一些促销返利活动时，这些账号会被用于获取相应的利益，并且大部分时间内这些账号的活跃度较低，类似于僵尸账号，这些批量注册的账号严重的扰乱了互联网秩序。

目前用于批量注册账号检测普遍的方法是观测这些账号的名称和行为规律，一般来说批量注册的账号相比与正常账号，活跃度较低，且群体行为较为相似，账号名称相似度高。账号的行为相似度描述方法多种多样，比如账号一段时间内的登录行为、信息发布行为等等，需要的数据维度多，计算复杂，且需要一段时间的历史数据积累，所以导致检测效率较低。

而一般情况下这些账号都是恶意用户用脚本批量生成的，所以这些账号在名称上往往具有相似性，再者，用户在使用这些批量注册的账号时可能会在相同设备上进行登录，所以根据账号和设备登录的关系，可以建立起一个图结构的关联关系网络，从而将很多个账号关联在一起。而正常的账号往往相对独立。所以利用这些特性，本发明的技术方案就基于图结构和聚类算法，将名字相似并具有关联性的账号检测出来划分为一个类团，并通过设定一个数量阈值，当类团中的账号超过这个数量阈值时，将这些账号判定为恶意批量注册的账号。

发明内容

本发明的目的是克服上述背景技术中不足，提供一种基于图算法和聚类算法的批量注册账号检测方法，利用图算法和层次聚类算法构建了一个自动化的批量注册的垃圾账号检测方法，能有效的检测批量注册的账号，同时利用计算账号间的关联关系替代计算账号间的行为相似度，简化了基于行为相似度方法的数据准备流程和计算复杂度，从而提升检测效率。

为了达到上述的技术效果，本发明采取以下技术方案：

基于图算法和聚类算法的批量注册账号检测方法，包括步骤：

A.收集注册用户的第一账号数据与第二账号数据；

B.根据所述第一账号数据与第二账号数据建立账号和账号间的关联关系形成账号关联关系网；

C.设定账号数量阈值，提取包含的账号数量不小于账号数量阈值的账号关联关系网；

D.计算提取出的账号关联关系网中各账号间的编辑距离得到各账号间的编辑距离矩阵；

E.设定编辑距离阈值，根据得到的编辑距离矩阵进行账号的聚类，将账号间的编辑距离不超过编辑距离阈值的账号划分为一个类团；聚类是将具有相似属性的样本点划归成一类的方法，本发明中样本相似属性通过编辑距离来度量。先计算样本之间的距离，每次将距离最近的点合并到同一个类，然后，再计算类与类之间的距离，将距离最近的类合并为一个大类，不停的合并，直到合成了一个类；

F.设定账号数目阈值，判定包含的账号数量大于账号数目阈值的类团中的账号为批量注册的账号。

进一步地，所述第一账号数据为账号名，所述第二账号数据为账号登录过的设备id，账号和设备id信息可以由后端程序记录。

进一步地，所述步骤B中是采用图结构来表示账号之间的关联关系，图的基本构成元素是节点和边，节点与节点之间通过边连接起来，从而形成图网络结构，利用图结构以登录设备为媒介找到账号和账号间的关联关系，描述出批量注册场景下账号与账号间的关联属性。

进一步地，所述步骤B具体是以账号名和设备id为节点，登录行为为边，如果一个账号可以通过若干条边连接到另一个账号，那么说明这两个账号间存在可达路径，那么定义这两个账号之间存在关联关系，如果两个账号间不存在可达的路径，说明这两个账号没有关联关系，则可初步排除其为恶心注册账号的可能。

进一步地，所述步骤D的编辑距离具体采用莱文斯坦距离，用编辑距离的大小度量账号名间的相似度，具体是计算账号名与账号名之间的编辑距离，编辑距离是针对二个字符串的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串，本发明采用的莱文斯坦距离指两个字串之间，由一个转成另一个所需的最少编辑操作次数，允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

进一步地，所述步骤E中包括将一个独立的账号并入一个类团A形成一个新的类团B或将一个类团C并入一个类团D形成一个新的类团E；

其中，判定一个账号可以并入类团A形成类团B的标准为该账号的账号名与类团A包含的至少一个账号的账号名的编辑距离不超过编辑距离阈值，判定类团C可以并入类团D形成类团E的标准为类团C包含的至少一个账号的账号名与类团D包含的至少一个账号的账号名的编辑距离不超过编辑距离阈值。

进一步地，所述账号数量阈值不小于10，具体数值也可根据实际情况进行调整。

进一步地，所述编辑距离阈值大于1小于5，具体数值也可根据实际情况进行调整。

进一步地，所述账号数目阈值不小于10，具体数值也可根据实际情况进行调整。

本发明与现有技术相比，具有以下的有益效果：

本发明的基于图算法和聚类算法的批量注册账号检测方法，利用恶心账号在名称上的相似性以及设备登录的关联性，基于图结构和聚类算法，将名字相似并具有关联性的账号检测出来划分为一个类团，并通过设定一个数量阈值，当类团中的账号超过这个数量阈值时，将这些账号判定为恶意批量注册的账号，实现了自动化的批量注册的垃圾账号检测，能有效的检测批量注册的账号，同时利用计算账号间的关联关系替代计算账号间的行为相似度，简化了基于行为相似度方法的数据准备流程和计算复杂度，从而提升检测效率。

附图说明

图1是图结构的示意图。

图2是本发明的一个实施例中建立的账号关联关系示意图。

图3是本发明的一个实施例中相似账号名聚类分类示意图。

具体实施方式

下面结合本发明的实施例对本发明作进一步的阐述和说明。

实施例：

实施例一：

一种基于图算法和聚类算法的批量注册账号检测方法，包括步骤：

步骤一.收集注册用户的第一账号数据与第二账号数据；

本实施例中具体为收集平台中注册的账号名，以及这些账号登录过的设备id，收集这些数据可以在程序后端实现，一个账号可能对应一个或者多个设备id。

具体的，本实施例中，采集的数据如下表所示：

表1.数据采集样例

账号名	设备id
		test123	d1
test1	d1
		test2357	d1，d2
test020	d2
		okokok	d2
xxyyzz	d3，d4
		sina126	d5

步骤二.根据所述第一账号数据与第二账号数据建立账号和账号间的关联关系形成账号关联关系网。

具体的，本发明中是用图结构来表示账号之间的关联关系，图结构如图1所示，图的基本构成元素是节点和边，节点与节点之间通过边连接起来，从而形成图网络结构。在本发明中，具体是以账号名和设备id为节点，登录行为为边，如果某一账号登录了某一设备，就会在该设备和对应的账号名间建立一条边。如果一个账号名可以通过若干条边连接到另一个账号，那么说明这两个账号间存在可达路径，那么定义这两个账号之间存在关联关系。

如图2所示为本实施例中建立的账号关联关系示意图，账号“okokok”和账号“test2357”之间存在可达的路径，说明这两个账号间存在关联关系，而账号“okokok”和账号“sina126”不存在可达的路径，说明这两个账号没有关联关系。

步骤三.设定账号数量阈值，提取包含的账号数量不小于账号数量阈值的账号关联关系网；

从图2中可看出账号test123、test2357、test1、test020、okokok通过设备d1和d2被关联到了一起，处于同一个网络中，而账号xxyyzz、sina126则与其他账号独立，因此，依照这种关联关系，账号之间形成了若干个关联网络，批量注册账号形成的关联网络往往较大，即可通过设定一个账号数量阈值，将网络中账号数量大于这个账号数量阈值的网络图提取出来，用于下一步分析。

如若本实施例中设定的账号数量阈值为5，则账号xxyyzz、sina126所在网络图中账号数量为1，将会被过滤掉。

步骤四.计算提取出的账号关联关系网中各账号间的编辑距离得到各账号间的编辑距离矩阵；

编辑距离是针对二个字符串的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。本实施例中具体采用莱文斯坦距离，又称Levenshtein距离，指两个字串之间，由一个转成另一个所需的最少编辑操作次数。其中，允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

例如kitten和sitting的莱文斯坦距离是3。即将kitten变为sitting的最小处理方式如下：

kitten→sitten(将k改为s)

sitten→sittin(将e改为i)

sittin→sitting(最后加入g)

同理，账号test123与test1的编辑距离为2，test123要得到test1要做两步删除操作，分别删除2和3。test020与test123的编辑距离也为2，需要将两个0替换为1和3。具体的，编辑距离越小，字符串相似度越高。以表1中的数据为样例，部分账号名间的相似度矩阵如下表所示：

表2.编辑距离矩阵

	test1	test2357	test020	okokok
					test123	2	3	2	7
test1	0	4	3	6
					test2357	4	0	4	8
test020	3	4	0	7
					okokok	6	8	7	0

步骤五.设定编辑距离阈值，根据得到的编辑距离矩阵进行账号的聚类，将账号间的编辑距离不超过编辑距离阈值的账号划分为一个类团。

层次聚类的合并算法通过计算两类数据点间的相似性，对所有数据点中最为相似的两个数据点进行组合，并反复迭代这一过程。简单的说层次聚类的合并算法是通过计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性，距离越小，相似度越高。并将距离最近的两个数据点或类别进行组合，生成聚类树。

本发明中样本相似属性通过编辑距离来度量。先计算样本之间的距离，每次将距离最近的点合并到同一个类，然后，再计算类与类之间的距离，将距离最近的类合并为一个大类，不停的合并，直到合成了一个类，其中，可以合并到一类的条件为最小编辑距离不超过编辑距离阈值。

即本步骤中具体包括将一个独立的账号并入一个类团A形成一个新的类团B或将一个类团C并入一个类团D形成一个新的类团E。

如本实施例中，参照表2的编辑距离矩阵，根据得到的编辑距离矩阵进行账号的聚类，将距离的编辑距离阈值设定为3，小于等于这个编辑距离阈值的账号将会被聚为一类，聚类过程如下：

1、层次聚类首先会将编辑距离最小且不超过编辑距离阈值的账号名聚为一类，如test123与test1的编辑距离为2，小于编辑距离阈值，所以这两个账号聚为一类表示为[test23，test1]。

2、类团[test23，test1]中test123与test020的编辑距离为2，小于编辑距离阈值，所以可以将test020加入到该类团中，形成新的类团[test123，test1，test020]。

3、同理，类团[test123，test1，test020]中tets123与test2357的编辑距离等于编辑距离阈值，所以形成新类团类团[test123，test1，test020，test2357]。

4、由于账号okokok与类团[test123，test1，test020，test2357]中任意账号的编辑距离都大于编辑距离阈值，所以账号okokok不能加入到类团[test123，test1，test020，test2357]中，最后聚类结果中包含两个类，结果如图3所示，即：

类一：test123、test1、test2357、test020

类二：okokok

步骤六.设定账号数目阈值，判定包含的账号数量大于账号数目阈值的类团中的账号为批量注册的账号。

如若本实施例中设定账号数目阈值为3，类一中包含账号数目为4，则可判定类一中的账号为批量注册的垃圾账号。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.基于图算法和聚类算法的批量注册账号检测方法，其特征在于，包括步骤：

A.收集注册用户的第一账号数据与第二账号数据；

E.设定编辑距离阈值，根据得到的编辑距离矩阵进行账号的聚类，将账号间的编辑距离不超过编辑距离阈值的账号划分为一个类团；

2.根据权利要求1所述的基于图算法和聚类算法的批量注册账号检测方法，其特征在于，所述第一账号数据为账号名，所述第二账号数据为账号登录过的设备id。

3.根据权利要求2所述的基于图算法和聚类算法的批量注册账号检测方法，其特征在于，所述步骤B中是采用图结构来表示账号之间的关联关系。

4.根据权利要求3所述的基于图算法和聚类算法的批量注册账号检测方法，其特征在于，所述步骤B具体是以账号名和设备id为节点，登录行为为边。

5.根据权利要求2所述的基于图算法和聚类算法的批量注册账号检测方法，其特征在于，所述步骤D的编辑距离具体采用莱文斯坦距离，具体是计算账号名与账号名之间的编辑距离。

6.根据权利要求5所述的基于图算法和聚类算法的批量注册账号检测方法，其特征在于，所述步骤E中包括将一个独立的账号并入一个类团A形成一个新的类团B或将一个类团C并入一个类团D形成一个新的类团E；其中，判定一个账号可以并入类团A形成类团B的标准为该账号的账号名与类团A包含的至少一个账号的账号名的编辑距离不超过编辑距离阈值，判定类团C可以并入类团D形成类团E的标准为类团C包含的至少一个账号的账号名与类团D包含的至少一个账号的账号名的编辑距离不超过编辑距离阈值。

7.根据权利要求1至6中任一所述的基于图算法和聚类算法的批量注册账号检测方法，其特征在于，所述账号数量阈值不小于10。

8.根据权利要求1至6中任一所述的基于图算法和聚类算法的批量注册账号检测方法，其特征在于，所述编辑距离阈值大于1小于5。

9.根据权利要求1至6中任一所述的基于图算法和聚类算法的批量注册账号检测方法，其特征在于，所述账号数目阈值不小于10。