CN107358075A - 一种基于层次聚类的虚假用户检测方法 - Google Patents
一种基于层次聚类的虚假用户检测方法 Download PDFInfo
- Publication number
- CN107358075A CN107358075A CN201710550833.9A CN201710550833A CN107358075A CN 107358075 A CN107358075 A CN 107358075A CN 201710550833 A CN201710550833 A CN 201710550833A CN 107358075 A CN107358075 A CN 107358075A
- Authority
- CN
- China
- Prior art keywords
- similarity
- user
- data
- field
- hierarchical clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公布了一种基于层次聚类的虚假用户检测方法。主要包括以下步骤:将网站用户数据表进行备份,将用户唯一性标识字段映射为字符串组成模式,并根据不同组成模式对海量数据进行预分类;计算每个分类中元素间的字符串相似度;设置合适的阈值对各个分类进行层次聚类,进而发现藏匿在海量注册数据中的成组的虚假账户。实验表明,本发明提出的研究方法有效,与现有的方法相比,该方法对数据维度、数据特性依赖较小。该发明可应用于当前大数据环境下的虚假用户检测。
Description
技术领域
本发明涉及大数据环境下的虚假用户发现技术,具体涉及一种基于层次聚类的虚假用户检测技术,属于数据安全领域。
背景技术
在Web2.0时代,用户通过在线网站获取信息资源、交流分享。互联网改变了人们的生活。然而,有一些用户却通过滥用互联网服务获取不正当的利益。这些恶意用户通过发布垃圾信息、虚假信息、钓鱼信息等方式扰乱互联网秩序。当部分服务商建立新网站或者推出新业务时,服务商会在网上进行一些促销返利活动以招揽顾客。恶意用户通过注册大量虚假账户直接获取经济利益。当这些Web服务提供商不再有促销活动时,这些虚假账户就变成了僵尸账户,网站需要对所有用户进行管理,无疑增大了网站运营成本。
这些网站也会采取一些安全措施来规避风险。例如举报机制,由于注册新用户几乎零成本,即使网站封停了一个恶意用户,该用户可以马上注册新的身份实施攻击。并且恶意用户使用虚假信息注册用户时由于信息不具有真实性,定位用户的真实身份变得极为困难。有些网站则采用验证用户手机号或者邮箱的方式唯一标识一个真实用户,以防范攻击。然而恶意用户往往可以有大量的手机号和邮箱可以用于注册。这种防范措施也不能很好地抵抗攻击。
在社交网络账户中检测虚假账户已经有一些检测方法,包括行为分析、机器学习等方法。然而这些方法多都采用基于账户活动特征或者账户克隆攻击发生时的一些特征去发现恶意用户。在采用机器学习检测恶意用户的领域,多需要一些样本数据以供训练,往往需要大量用户特征数据。例如,用户的一些活动记录、大量恶意样本作为训练数据,多维度的用户信息(如:注册时间,IP等)。
发明内容
本发明提出的一种基于层次聚类的虚假用户检测方法,采用层次聚类的方法发现海量数据中的虚假账户,与现有的方法相比,该方法对数据维度、数据特性依赖较小。
本发明提出的一种基于层次聚类的虚假用户检测方法,主要包括以下操作步骤:
(1)备份用户数据表,从数据表中的获取数据集,然后确定哪些列可以作为用户唯一性标识字段;
(2)将用户唯一性标识字段映射成字符串模式,并存储到另一个数据表中,以保证数据完整性,同时按不同字符串组成模式对海量数据进行预分类;
(3)针对每个分类,将分类中每个元素作为一个集合,基于字符串相似性计算数据集间的相似度,并把相似度最高的两个集合合并;
(4)重复计算新的集合间的相似度,合并相似度最高的集合,直至相似度最小值达到阈值K1;
(5)过滤所有集合,取出集合中元素个数满足阈值K2的集合作为最终的虚假账户集合。
附图说明
图 1 是本发明基于层次聚类的虚假用户检测方法总体架构
具体实施方式:
下面结合附图对本发明作进一步说明:
图1中,一种基于层次聚类的虚假用户检测方法,包括以下步骤:
(1)备份用户数据表,从数据表中的获取数据集,然后确定哪些列可以作为用户唯一性标识字段;
(2)将用户唯一性标识字段映射成字符串模式,并存储到另一个数据表中,以保证数据完整性,同时按不同字符串组成模式对海量数据进行预分类;
(3)针对每个分类,将分类中每个元素作为一个集合,基于字符串相似性计算数据集间的相似度,并把相似度最高的两个集合合并;
(4)重复计算新的集合间的相似度,合并相似度最高的集合。直至相似度最小值达到阈值K1;
(5)过滤所有集合,取出集合中元素个数满足阈值K2的集合作为最终的虚假账户集合。
具体地,图1具体说明了基于层次聚类的虚假用户检测的整个流程。
所述步骤(1)中,本发明支持离线和实时检测。一般一个网站的所有用户数据都存储在数据库中。首先备份用户数据表,然后通过观察数据表中的字段,确定用户唯一标识字段,通常是用户名、邮箱或者手机号等。当存在用户名为唯一性标识时则按照用户名进行分类;当采用邮箱作为唯一性标识时,该方法首先按邮箱类型做一次分类后再将邮箱用户名按用户名分类方案进行分类。当仅采用手机号作为唯一性标识时,该方法将采用手机号前七位来判别其归属地信息,因为如果恶意用户批量购买手机号去注册虚假账号时就会有相同的归属地标识,也可以不分类,分类只是为了提高下一步中的聚类效率,并不会影响结果。
所述步骤(2)中,将数据库中用户唯一性标识字段按字符组成成分:汉字、大写字母、小写字母、数字、符号标识成字符串模式,然后将这些字符模式存储到另一个数据表中,以保证原始数据完整性。通过从数据库中查询所有不同的字符串组成模式,然后将每一个组成模式作为一个分类,关联查询获取每一个分类对应的用户数据。
所述步骤(3)中,将每个分类中元素作为一个集合,计算每个分类中元素间的字符串相似度,该方法通过编辑距离衡量字符串间相似度。假设字符串M i 和M j 分别由{C 1 ,C 2 ,C 3 ,…, C i }和{D 1 ,D 2 ,D 3 ,…, D j }组成。假设通过修改、添加、删除一个或者多个M i 中元素,可以将M i 变成M j 。则所需要的编辑次数即为编辑距离。计算M i 和M j 之间的相似度等同于计算M i 和M j 的编辑距离(Levenshtein距离)。该方法将获取每条记录邮箱、用户名、密码等多个字段的相似度的均值。此时本文定义字符串A,B相似度为:
当存在多个字段计算编辑距离时,直接求多个字符串的编辑距离均值为两条记录的相似度。但是计算字符串相似度计算代价较高,在实践中通常选取一到两个字段参与距离计算。也可以当一个字段的相似度为1时忽略阈值,合并集合,但是密码字段中经常会有人使用相同的弱口令,影响判断,采用此方式需要注意密码字段。当只采用一个字段进行距离计算时,本文将直接基于每条记录的用户名字符串计算相似度。则字符串A,B之间的相似度可简化为:
此时S(A,B)值越小,A,B相似度越高。最后将相似度最高的两个集合合并
所述步骤(4)中,重复计算新的集合间的相似度,直至相似度最小值达到阈值K1。新的集合中有的一个集合中包含多个元素。该方法采用两个集合中的相似度最高的元素的距离作为两个集合的距离。
所述步骤(5)中,过滤所有集合,取出集合中元素个数满足阈值K2的集合作为最终的虚假账户集合。根据聚类结果,该方法需要过滤掉聚类结果中集合元素数量较少的集合。在海量用户环境下,出现两个或者三个账户相似的概率较大。难以区分其是否是恶意用户。此时即可获得虚假用户集,用户可以对虚假用户数据集的聚类效果进行判断。通过调整聚类相关参数,可以获得更好的聚类效果。
Claims (6)
1.本发明提出的一种基于层次聚类的虚假用户检测方法,其特征主要包括以下步骤:
步骤一:备份用户数据表,从数据表中的获取数据集,然后确定哪些列可以作为用户唯一性标识字段;
步骤二:将用户唯一性标识字段映射成字符串模式,并存储到另一个数据表中,以保证数据完整性;同时按不同字符串组成模式对海量数据进行预分类;
步骤三:针对每个分类,将分类中每个元素作为一个集合,基于字符串相似性计算数据集间的相似度,
并把相似度最高的两个集合合并;
步骤四:重复计算新的集合间的相似度,合并相似度最高的集合,
直至相似度最小值达到阈值K1;
步骤五:过滤所有集合,取出集合中元素个数满足阈值K2的集合作为最终的虚假账户集合。
2.根据权利要求 1 所述的基于层次聚类的虚假用户检测方法,其特征在于步骤一中用户数据表备份和确定用户唯一性标识字段,本发明支持离线和实时检测,通过备份用户数据表,保障数据完整性,然后通过观察数据表中的字段,确定用户唯一性标识字段,进而根据该唯一性标识字段进行预分类,用户唯一性字段是指数据表中任何可以唯一标识一个用户的字段,包括但不限于用户名、邮箱、手机号,特别地,当采用邮箱作为唯一性标识时,该方法首先按邮箱类型做一次分类后再将邮箱用户名按用户名分类方案进行分类,当仅采用手机号作为唯一性标识时,该方法将采用手机号前七位来判别其归属地信息,因为如果恶意用户批量购买手机号去注册虚假账号时就会有相同的归属地标识,也可以不分类,分类只是为了提高下一步中的聚类效率,并不会影响结果。
3.根据权利要求 1 所述的基于层次聚类的虚假用户检测方法,其特征在于步骤二中的根据不同字符串组成模式对海量数据进行预分类,将数据库中用户唯一性标识字段按字符组成成分:汉字、大写字母、小写字母、数字、符号标识成字符串模式,然后将这些字符模式存储到另一个数据表中,通过从数据库中查询所有不同的字符串组成模式,然后将每一个字符串组成模式作为一个分类,通过关联查询获取每一个分类对应的用户数据进行聚类分析。
4.根据权利要求 1 所述的基于层次聚类的虚假用户检测方法,其特征在于步骤三中的根据字符串相似度进行聚类,首先将每个分类中元素作为一个集合,计算每个分类中元素间的字符串相似度,该方法通过编辑距离衡量字符串间相似度,计算元素间的相似度等同于计算他们的编辑距离(Levenshtein距离),可以根据每条记录邮箱、用户名、密码等多个字段的相似度的均值来合并集合,也可以选取一到两个关键字段参与相似度计算,但是密码字段中经常会有人使用相同的弱口令,影响判断,采用此方式需要注意密码字段,最后将相似度最高的两个集合合并。
5.根据权利要求 1 所述的基于层次聚类的虚假用户检测方法,其特征在于步骤四中的新集合间相似度计算方法,重复计算新的集合间的相似度,新的集合中有的一个集合中包含多个元素,该方法采用两个集合中的相似度最高的元素的距离作为两个集合的距离,然后合并相似度最高的集合,直至相似度最小值达到阈值K1。
6.根据权利要求 1 所述的基于层次聚类的虚假用户检测方法,其特征在于步骤五中的根据聚类结果中集合大小过滤集合,取出集合中元素个数满足阈值K2的集合作为最终的虚假账户集合,在海量用户环境下,出现两个或者三个账户相似的概率较大,难以区分其是否是恶意用户,需要过滤元素个数较少的集合,该阈值需要根据实际情况动态调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710550833.9A CN107358075A (zh) | 2017-07-07 | 2017-07-07 | 一种基于层次聚类的虚假用户检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710550833.9A CN107358075A (zh) | 2017-07-07 | 2017-07-07 | 一种基于层次聚类的虚假用户检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107358075A true CN107358075A (zh) | 2017-11-17 |
Family
ID=60291722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710550833.9A Pending CN107358075A (zh) | 2017-07-07 | 2017-07-07 | 一种基于层次聚类的虚假用户检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107358075A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108876270A (zh) * | 2018-09-19 | 2018-11-23 | 惠龙易通国际物流股份有限公司 | 自动货源审核系统及方法 |
CN109753778A (zh) * | 2018-12-30 | 2019-05-14 | 北京城市网邻信息技术有限公司 | 用户的审核方法、装置、设备及存储介质 |
WO2019114344A1 (zh) * | 2017-12-15 | 2019-06-20 | 阿里巴巴集团控股有限公司 | 一种基于图结构模型的异常账号防控方法、装置以及设备 |
CN110197408A (zh) * | 2018-02-26 | 2019-09-03 | 苏宁易购集团股份有限公司 | 保价商品的定价预警方法及系统 |
CN110688540A (zh) * | 2019-10-08 | 2020-01-14 | 腾讯科技(深圳)有限公司 | 一种作弊账户筛选方法、装置、设备及介质 |
CN110855648A (zh) * | 2019-11-04 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种网络攻击的预警控制方法及装置 |
CN111723825A (zh) * | 2019-03-18 | 2020-09-29 | 顺丰科技有限公司 | 一种客户信息查询异常行为检测方法和装置 |
CN111723118A (zh) * | 2019-03-18 | 2020-09-29 | 顺丰科技有限公司 | 一种运单查询异常行为检测方法和装置 |
CN112116007A (zh) * | 2020-09-18 | 2020-12-22 | 四川长虹电器股份有限公司 | 基于图算法和聚类算法的批量注册账号检测方法 |
CN112365046A (zh) * | 2020-11-09 | 2021-02-12 | 北京沃东天骏信息技术有限公司 | 用户信息生成方法、装置、电子设备和计算机可读介质 |
CN112567707A (zh) * | 2018-08-09 | 2021-03-26 | 微软技术许可有限责任公司 | 用于生成和部署动态虚假用户账户的增强技术 |
CN113495886A (zh) * | 2021-09-07 | 2021-10-12 | 上海观安信息技术股份有限公司 | 用于模型训练的污染样本数据的检测方法及装置 |
CN113569910A (zh) * | 2021-06-25 | 2021-10-29 | 石化盈科信息技术有限责任公司 | 账户类型识别方法、装置、计算机设备及存储介质 |
US12015639B2 (en) | 2018-08-09 | 2024-06-18 | Microsoft Technology Licensing, Llc | Systems and methods for polluting phishing campaign responses |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120296965A1 (en) * | 2011-05-18 | 2012-11-22 | Microsoft Corporation | Detecting potentially abusive action in an online social network |
CN104660594A (zh) * | 2015-02-09 | 2015-05-27 | 中国科学院信息工程研究所 | 一种面向社交网络的虚拟恶意节点及其网络识别方法 |
CN106126654A (zh) * | 2016-06-27 | 2016-11-16 | 中国科学院信息工程研究所 | 一种基于用户名相似度的跨网站用户关联方法 |
-
2017
- 2017-07-07 CN CN201710550833.9A patent/CN107358075A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120296965A1 (en) * | 2011-05-18 | 2012-11-22 | Microsoft Corporation | Detecting potentially abusive action in an online social network |
CN104660594A (zh) * | 2015-02-09 | 2015-05-27 | 中国科学院信息工程研究所 | 一种面向社交网络的虚拟恶意节点及其网络识别方法 |
CN106126654A (zh) * | 2016-06-27 | 2016-11-16 | 中国科学院信息工程研究所 | 一种基于用户名相似度的跨网站用户关联方法 |
Non-Patent Citations (1)
Title |
---|
方勇,等: "基于层次聚类的虚假用户检测", 《清华大学学报》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11102230B2 (en) | 2017-12-15 | 2021-08-24 | Advanced New Technologies Co., Ltd. | Graphical structure model-based prevention and control of abnormal accounts |
US11223644B2 (en) | 2017-12-15 | 2022-01-11 | Advanced New Technologies Co., Ltd. | Graphical structure model-based prevention and control of abnormal accounts |
WO2019114344A1 (zh) * | 2017-12-15 | 2019-06-20 | 阿里巴巴集团控股有限公司 | 一种基于图结构模型的异常账号防控方法、装置以及设备 |
CN110197408A (zh) * | 2018-02-26 | 2019-09-03 | 苏宁易购集团股份有限公司 | 保价商品的定价预警方法及系统 |
CN112567707A (zh) * | 2018-08-09 | 2021-03-26 | 微软技术许可有限责任公司 | 用于生成和部署动态虚假用户账户的增强技术 |
US12015639B2 (en) | 2018-08-09 | 2024-06-18 | Microsoft Technology Licensing, Llc | Systems and methods for polluting phishing campaign responses |
CN112567707B (zh) * | 2018-08-09 | 2023-05-26 | 微软技术许可有限责任公司 | 用于生成和部署动态虚假用户账户的方法和系统 |
CN108876270B (zh) * | 2018-09-19 | 2022-08-12 | 惠龙易通国际物流股份有限公司 | 自动货源审核系统及方法 |
CN108876270A (zh) * | 2018-09-19 | 2018-11-23 | 惠龙易通国际物流股份有限公司 | 自动货源审核系统及方法 |
CN109753778A (zh) * | 2018-12-30 | 2019-05-14 | 北京城市网邻信息技术有限公司 | 用户的审核方法、装置、设备及存储介质 |
CN111723825A (zh) * | 2019-03-18 | 2020-09-29 | 顺丰科技有限公司 | 一种客户信息查询异常行为检测方法和装置 |
CN111723118A (zh) * | 2019-03-18 | 2020-09-29 | 顺丰科技有限公司 | 一种运单查询异常行为检测方法和装置 |
CN110688540A (zh) * | 2019-10-08 | 2020-01-14 | 腾讯科技(深圳)有限公司 | 一种作弊账户筛选方法、装置、设备及介质 |
CN110688540B (zh) * | 2019-10-08 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 一种作弊账户筛选方法、装置、设备及介质 |
CN110855648A (zh) * | 2019-11-04 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 一种网络攻击的预警控制方法及装置 |
CN110855648B (zh) * | 2019-11-04 | 2021-11-19 | 腾讯科技(深圳)有限公司 | 一种网络攻击的预警控制方法及装置 |
CN112116007A (zh) * | 2020-09-18 | 2020-12-22 | 四川长虹电器股份有限公司 | 基于图算法和聚类算法的批量注册账号检测方法 |
CN112365046A (zh) * | 2020-11-09 | 2021-02-12 | 北京沃东天骏信息技术有限公司 | 用户信息生成方法、装置、电子设备和计算机可读介质 |
CN113569910A (zh) * | 2021-06-25 | 2021-10-29 | 石化盈科信息技术有限责任公司 | 账户类型识别方法、装置、计算机设备及存储介质 |
CN113569910B (zh) * | 2021-06-25 | 2024-06-21 | 石化盈科信息技术有限责任公司 | 账户类型识别方法、装置、计算机设备及存储介质 |
WO2023035362A1 (zh) * | 2021-09-07 | 2023-03-16 | 上海观安信息技术股份有限公司 | 用于模型训练的污染样本数据的检测方法及装置 |
CN113495886A (zh) * | 2021-09-07 | 2021-10-12 | 上海观安信息技术股份有限公司 | 用于模型训练的污染样本数据的检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107358075A (zh) | 一种基于层次聚类的虚假用户检测方法 | |
CN107146089B (zh) | 一种刷单识别方法及装置,电子设备 | |
CN104394118B (zh) | 一种用户身份识别方法及系统 | |
CN103793484B (zh) | 分类信息网站中的基于机器学习的欺诈行为识别系统 | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
US9870465B1 (en) | Apparatus, method and article to facilitate automatic detection and removal of fraudulent user information in a network environment | |
CN105005594B (zh) | 异常微博用户识别方法 | |
CN108881194A (zh) | 企业内部用户异常行为检测方法和装置 | |
CN108776671A (zh) | 一种网络舆情监控系统及方法 | |
CN103905532B (zh) | 微博营销账号的识别方法及系统 | |
Collins et al. | Fake news types and detection models on social media a state-of-the-art survey | |
CN105069654A (zh) | 一种基于用户识别的网站实时/非实时营销投放方法及系统 | |
CN105224600B (zh) | 一种样本相似度的检测方法及装置 | |
CN106534164A (zh) | 计算机中基于网络空间用户标识的有效虚拟身份刻画方法 | |
WO2012083874A1 (zh) | 一种网页信息探测方法及系统 | |
CN1728655A (zh) | 一种检测鉴别假冒网页的方法及系统 | |
CN108415913A (zh) | 基于不确定邻居的人群定向方法 | |
CN105574200A (zh) | 基于历史记录的用户兴趣提取方法 | |
CN104268289B (zh) | 链接url的失效检测方法和装置 | |
Nilizadeh et al. | Think outside the dataset: Finding fraudulent reviews using cross-dataset analysis | |
CN111147490A (zh) | 一种定向钓鱼攻击事件发现方法及装置 | |
CN102156746A (zh) | 搜索引擎的性能评价方法 | |
Zheng et al. | Learning‐based topic detection using multiple features | |
CN113989859B (zh) | 一种防刷机设备指纹相似度识别方法和装置 | |
Brenner et al. | Discovery of single-vendor marketplace operators in the tor-network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171117 |
|
WD01 | Invention patent application deemed withdrawn after publication |