CN107358075A

CN107358075A - 一种基于层次聚类的虚假用户检测方法

Info

Publication number: CN107358075A
Application number: CN201710550833.9A
Authority: CN
Inventors: 方勇; 刘亮; 黄诚; 刘道胜; 李扬
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2017-11-17

Abstract

本发明公布了一种基于层次聚类的虚假用户检测方法。主要包括以下步骤：将网站用户数据表进行备份，将用户唯一性标识字段映射为字符串组成模式，并根据不同组成模式对海量数据进行预分类；计算每个分类中元素间的字符串相似度；设置合适的阈值对各个分类进行层次聚类，进而发现藏匿在海量注册数据中的成组的虚假账户。实验表明，本发明提出的研究方法有效，与现有的方法相比，该方法对数据维度、数据特性依赖较小。该发明可应用于当前大数据环境下的虚假用户检测。

Description

一种基于层次聚类的虚假用户检测方法

技术领域

本发明涉及大数据环境下的虚假用户发现技术，具体涉及一种基于层次聚类的虚假用户检测技术，属于数据安全领域。

背景技术

在Web2.0时代，用户通过在线网站获取信息资源、交流分享。互联网改变了人们的生活。然而，有一些用户却通过滥用互联网服务获取不正当的利益。这些恶意用户通过发布垃圾信息、虚假信息、钓鱼信息等方式扰乱互联网秩序。当部分服务商建立新网站或者推出新业务时，服务商会在网上进行一些促销返利活动以招揽顾客。恶意用户通过注册大量虚假账户直接获取经济利益。当这些Web服务提供商不再有促销活动时，这些虚假账户就变成了僵尸账户，网站需要对所有用户进行管理，无疑增大了网站运营成本。

这些网站也会采取一些安全措施来规避风险。例如举报机制，由于注册新用户几乎零成本，即使网站封停了一个恶意用户，该用户可以马上注册新的身份实施攻击。并且恶意用户使用虚假信息注册用户时由于信息不具有真实性，定位用户的真实身份变得极为困难。有些网站则采用验证用户手机号或者邮箱的方式唯一标识一个真实用户，以防范攻击。然而恶意用户往往可以有大量的手机号和邮箱可以用于注册。这种防范措施也不能很好地抵抗攻击。

在社交网络账户中检测虚假账户已经有一些检测方法，包括行为分析、机器学习等方法。然而这些方法多都采用基于账户活动特征或者账户克隆攻击发生时的一些特征去发现恶意用户。在采用机器学习检测恶意用户的领域，多需要一些样本数据以供训练，往往需要大量用户特征数据。例如，用户的一些活动记录、大量恶意样本作为训练数据，多维度的用户信息（如：注册时间，IP等）。

发明内容

本发明提出的一种基于层次聚类的虚假用户检测方法，采用层次聚类的方法发现海量数据中的虚假账户，与现有的方法相比，该方法对数据维度、数据特性依赖较小。

本发明提出的一种基于层次聚类的虚假用户检测方法，主要包括以下操作步骤：

(1)备份用户数据表，从数据表中的获取数据集，然后确定哪些列可以作为用户唯一性标识字段；

(2)将用户唯一性标识字段映射成字符串模式，并存储到另一个数据表中，以保证数据完整性，同时按不同字符串组成模式对海量数据进行预分类；

(3)针对每个分类，将分类中每个元素作为一个集合，基于字符串相似性计算数据集间的相似度，并把相似度最高的两个集合合并；

(4)重复计算新的集合间的相似度，合并相似度最高的集合，直至相似度最小值达到阈值K1；

(5)过滤所有集合，取出集合中元素个数满足阈值K₂的集合作为最终的虚假账户集合。

附图说明

图 1 是本发明基于层次聚类的虚假用户检测方法总体架构

具体实施方式：

下面结合附图对本发明作进一步说明：

图1中，一种基于层次聚类的虚假用户检测方法，包括以下步骤：

(4)重复计算新的集合间的相似度，合并相似度最高的集合。直至相似度最小值达到阈值K1；

具体地，图1具体说明了基于层次聚类的虚假用户检测的整个流程。

所述步骤（1）中，本发明支持离线和实时检测。一般一个网站的所有用户数据都存储在数据库中。首先备份用户数据表，然后通过观察数据表中的字段，确定用户唯一标识字段，通常是用户名、邮箱或者手机号等。当存在用户名为唯一性标识时则按照用户名进行分类；当采用邮箱作为唯一性标识时，该方法首先按邮箱类型做一次分类后再将邮箱用户名按用户名分类方案进行分类。当仅采用手机号作为唯一性标识时，该方法将采用手机号前七位来判别其归属地信息，因为如果恶意用户批量购买手机号去注册虚假账号时就会有相同的归属地标识，也可以不分类，分类只是为了提高下一步中的聚类效率，并不会影响结果。

所述步骤（2）中，将数据库中用户唯一性标识字段按字符组成成分：汉字、大写字母、小写字母、数字、符号标识成字符串模式，然后将这些字符模式存储到另一个数据表中，以保证原始数据完整性。通过从数据库中查询所有不同的字符串组成模式，然后将每一个组成模式作为一个分类，关联查询获取每一个分类对应的用户数据。

所述步骤（3）中，将每个分类中元素作为一个集合，计算每个分类中元素间的字符串相似度，该方法通过编辑距离衡量字符串间相似度。假设字符串M _i和M _j分别由{C ₁ ，C ₂ ，C ₃ ，…, C _i}和{D ₁ ，D ₂ ，D ₃ ,…, D _j}组成。假设通过修改、添加、删除一个或者多个M _i中元素，可以将M _i变成M _j。则所需要的编辑次数即为编辑距离。计算M _i和M _j之间的相似度等同于计算M _i和M _j的编辑距离（Levenshtein距离）。该方法将获取每条记录邮箱、用户名、密码等多个字段的相似度的均值。此时本文定义字符串A，B相似度为：

当存在多个字段计算编辑距离时，直接求多个字符串的编辑距离均值为两条记录的相似度。但是计算字符串相似度计算代价较高，在实践中通常选取一到两个字段参与距离计算。也可以当一个字段的相似度为1时忽略阈值，合并集合，但是密码字段中经常会有人使用相同的弱口令，影响判断，采用此方式需要注意密码字段。当只采用一个字段进行距离计算时，本文将直接基于每条记录的用户名字符串计算相似度。则字符串A，B之间的相似度可简化为：

此时S(A,B)值越小，A，B相似度越高。最后将相似度最高的两个集合合并

所述步骤（4）中，重复计算新的集合间的相似度，直至相似度最小值达到阈值K1。新的集合中有的一个集合中包含多个元素。该方法采用两个集合中的相似度最高的元素的距离作为两个集合的距离。

所述步骤(5)中，过滤所有集合，取出集合中元素个数满足阈值K2的集合作为最终的虚假账户集合。根据聚类结果，该方法需要过滤掉聚类结果中集合元素数量较少的集合。在海量用户环境下，出现两个或者三个账户相似的概率较大。难以区分其是否是恶意用户。此时即可获得虚假用户集，用户可以对虚假用户数据集的聚类效果进行判断。通过调整聚类相关参数，可以获得更好的聚类效果。

Claims

1.本发明提出的一种基于层次聚类的虚假用户检测方法，其特征主要包括以下步骤：

步骤一：备份用户数据表，从数据表中的获取数据集，然后确定哪些列可以作为用户唯一性标识字段；

步骤二：将用户唯一性标识字段映射成字符串模式，并存储到另一个数据表中，以保证数据完整性；同时按不同字符串组成模式对海量数据进行预分类；

步骤三：针对每个分类，将分类中每个元素作为一个集合，基于字符串相似性计算数据集间的相似度，

并把相似度最高的两个集合合并；

步骤四：重复计算新的集合间的相似度，合并相似度最高的集合，

直至相似度最小值达到阈值K1；

步骤五：过滤所有集合，取出集合中元素个数满足阈值K2的集合作为最终的虚假账户集合。

2.根据权利要求 1 所述的基于层次聚类的虚假用户检测方法，其特征在于步骤一中用户数据表备份和确定用户唯一性标识字段，本发明支持离线和实时检测，通过备份用户数据表，保障数据完整性，然后通过观察数据表中的字段，确定用户唯一性标识字段，进而根据该唯一性标识字段进行预分类，用户唯一性字段是指数据表中任何可以唯一标识一个用户的字段，包括但不限于用户名、邮箱、手机号，特别地，当采用邮箱作为唯一性标识时，该方法首先按邮箱类型做一次分类后再将邮箱用户名按用户名分类方案进行分类，当仅采用手机号作为唯一性标识时，该方法将采用手机号前七位来判别其归属地信息，因为如果恶意用户批量购买手机号去注册虚假账号时就会有相同的归属地标识，也可以不分类，分类只是为了提高下一步中的聚类效率，并不会影响结果。

3.根据权利要求 1 所述的基于层次聚类的虚假用户检测方法，其特征在于步骤二中的根据不同字符串组成模式对海量数据进行预分类，将数据库中用户唯一性标识字段按字符组成成分：汉字、大写字母、小写字母、数字、符号标识成字符串模式，然后将这些字符模式存储到另一个数据表中，通过从数据库中查询所有不同的字符串组成模式，然后将每一个字符串组成模式作为一个分类，通过关联查询获取每一个分类对应的用户数据进行聚类分析。

4.根据权利要求 1 所述的基于层次聚类的虚假用户检测方法，其特征在于步骤三中的根据字符串相似度进行聚类，首先将每个分类中元素作为一个集合，计算每个分类中元素间的字符串相似度，该方法通过编辑距离衡量字符串间相似度，计算元素间的相似度等同于计算他们的编辑距离（Levenshtein距离），可以根据每条记录邮箱、用户名、密码等多个字段的相似度的均值来合并集合，也可以选取一到两个关键字段参与相似度计算，但是密码字段中经常会有人使用相同的弱口令，影响判断，采用此方式需要注意密码字段，最后将相似度最高的两个集合合并。

5.根据权利要求 1 所述的基于层次聚类的虚假用户检测方法，其特征在于步骤四中的新集合间相似度计算方法，重复计算新的集合间的相似度，新的集合中有的一个集合中包含多个元素，该方法采用两个集合中的相似度最高的元素的距离作为两个集合的距离，然后合并相似度最高的集合，直至相似度最小值达到阈值K1。

6.根据权利要求 1 所述的基于层次聚类的虚假用户检测方法，其特征在于步骤五中的根据聚类结果中集合大小过滤集合，取出集合中元素个数满足阈值K2的集合作为最终的虚假账户集合，在海量用户环境下，出现两个或者三个账户相似的概率较大，难以区分其是否是恶意用户，需要过滤元素个数较少的集合，该阈值需要根据实际情况动态调整。