CN106339615B - 一种异常注册行为的识别方法、系统及设备 - Google Patents

一种异常注册行为的识别方法、系统及设备 Download PDF

Info

Publication number
CN106339615B
CN106339615B CN201610757220.8A CN201610757220A CN106339615B CN 106339615 B CN106339615 B CN 106339615B CN 201610757220 A CN201610757220 A CN 201610757220A CN 106339615 B CN106339615 B CN 106339615B
Authority
CN
China
Prior art keywords
registered
account
time period
registration
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610757220.8A
Other languages
English (en)
Other versions
CN106339615A (zh
Inventor
曹杰
冯雨晖
宿晓坤
李学超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610757220.8A priority Critical patent/CN106339615B/zh
Publication of CN106339615A publication Critical patent/CN106339615A/zh
Application granted granted Critical
Publication of CN106339615B publication Critical patent/CN106339615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2117User registration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种异常注册行为的识别方法、系统及设备。该方法包括:监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;识别所述至少一个注册账户簇中的携带异常行为的注册账户群。本发明提供的一种异常注册行为的识别方法、系统及设备,识别通过等长邮箱进行批量注册的账户群体,通过技术手段对其进行识别、标记、处理,使资源的分配更具合理性和公平性。

Description

一种异常注册行为的识别方法、系统及设备
技术领域
本发明涉及异常行为识别技术领域,尤其涉及一种异常注册行为的识别方法、系统及设备。
背景技术
在电商或者社交等以用户为基础的相关行业中,某些群体为了达到某些特定目的(如抢购稀缺资源、进行舆论导向等),经常会通过机器批量注册很多账户,造成使资源的分配不合理不公平。
发明内容
为了解决上述技术问题,本发明提供了一种批量注册异常行为特征的识别方法、系统及终端,可以将批量注册异常行为特征从正常注册行为特征中识别出来,使资源的分配更具合理性和公平性。
本发明一方面提供了一种异常注册行为的识别方法,包括:
监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;
识别所述至少一个注册账户簇中的携带异常行为的注册账户群。
进一步的,所述参考时间段的注册数量,包括:
以所述预识别时间段为基准单位,获取所述预识别时间段之前连续的多个基准单位的注册数量。
进一步的,所述识别阈值的计算方式包括:
Figure BDA0001097945650000011
其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。
进一步的,所述获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇,包括:
预设扫描半径和最小包含点数;
利用密度聚类算法,基于所述预设扫描半径和最小包含点数按时间顺序扫描预识别时间段内的注册数量中所有的注册账户,标记至少一个高度集中在某个时间段内注册的账户簇。
进一步的,所述识别所述至少一个注册账户簇中的携带异常行为的注册账户群,包括:
识别所述至少一个账户簇中不少于预定数量的账户量,和/或
所述至少一个账户簇中不少于预定邮件长度的账户量的注册账户群。
进一步的,还包括:
逐一扫描所述注册账户群中的账户,获取注册账户群内所有@前的字符串;
统计所述@前的字符串中连续预设位数的字符中涉及的每个英文字母和数字的个数,
以每个英文字母和数字的预定位数统计的数量为一组数据,计算所有英文字母和数字的平均变异系数,若平均变异系数小于阈值,则标识这个账户群为批量注册账户群。
进一步的,所述平均变异系数的计算方式为:
C=(SD/Mean)×100%;
其中,C为平均变异系数;SD为标准偏差;Mean为平均值。
本发明另一方面还提供了一种异常注册行为的识别系统,包括:
监控模块,用于监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;
识别模块,用于识别所述至少一个注册账户簇中的携带异常行为的注册账户群。
进一步的,所述参考时间段的注册数量,包括:
以所述预识别时间段为基准单位,获取所述预识别时间段之前连续的多个基准单位的注册数量。
进一步的,所述识别阈值的计算方式包括:
Figure BDA0001097945650000031
其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。
进一步的,所述监控模块,包括:
预设单元,用于预设扫描半径和最小包含点数;
监控单元,用于利用密度聚类算法,基于所述预设扫描半径和最小包含点数按时间顺序扫描预识别时间段内的注册数量中所有的注册账户,标记至少一个高度集中在某个时间段内注册的账户簇。
进一步的,所述识别模块,包括:
第一识别单元,用于识别所述至少一个账户簇中不少于预定数量的账户量,和/或
第二识别单元,用于所述至少一个账户簇中不少于预定邮件长度的账户量的注册账户群。
进一步的,还包括:
扫描单元,用于逐一扫描所述注册账户群中的账户,获取注册账户群内所有@前的字符串;
统计单元,用于统计所述@前的字符串中连续预设位数的字符中涉及的每个英文字母和数字的个数,
标识单元,用于以每个英文字母和数字的预定位数统计的数量为一组数据,计算所有英文字母和数字的平均变异系数,若平均变异系数小于阈值,则标识这个账户群为批量注册账户群。
进一步的,所述平均变异系数的计算方式为:
C=(SD/Mean)×100%;
其中,C为平均变异系数;SD为标准偏差;Mean为平均值。
本发明还提供了一种异常注册行为的识别设备,包括前述任一项所述的系统。
本发明通过监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;识别所述至少一个注册账户簇中的携带异常行为的注册账户群。识别通过等长邮箱进行批量注册的账户群体,通过技术手段对其进行识别、标记、处理,使资源的分配更具合理性和公平性。
附图说明
图1为本发明提供的一种异常注册行为的识别方法的实施例一的流程图;
图2为本发明提供的一种异常注册行为的识别方法的实施例一应用实例之一的示意图;
图3为本发明提供的一种异常注册行为的识别方法的实施例另一应用实例之一的示意图;
图4为本发明提供的一种异常注册行为的识别系统的实施例二的结构框图。
图5为本发明提供的一种异常注册行为的识别系统的监控模块的结构框图;
图6为本发明提供的一种异常注册行为的识别系统的识别单元的结构框图之一;
图7为本发明提供的一种异常注册行为的识别系统的识别单元的结构框图之二;
图8为本发明提供的一种异常注册行为的识别设备的实施例三的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
其中,DBSCAN是一种基于密度的空间聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇。
其中包括:Ε领域(eps):给定对象半径为Ε内的区域称为该对象的Ε领域;
核心点:如果给定对象Ε领域内样本点数大于等于MinPts,则称该对象为核心点;
边界点:边界点不是核心点,但它落在某个核心点的邻域内;
噪声点:噪声点是既非核心点也非边界点的任何点;
DBSCAN算法简化步骤:
1、扫描每个点,将所有点标记为核心点,边界点,噪声点;
2、删除噪声点;
3、为距离在eps内的所有核心点之间赋予一条边;
4、每组连通的核心点形成一个簇;
5、将每个核心点指派到一个与之关联的核心点的簇中;
6、标记所有的簇。
实施例一
基于上述算法,本发明实施例一提供了一种异常注册行为的识别方法,如图1所示,包括:步骤S110和S120。
在步骤S110中,监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇。
其中,所述参考时间段的注册数量,包括:
以所述预识别时间段为基准单位,获取所述预识别时间段之前连续的多个基准单位的注册数量。
例如,预识别时间段为当前时间之前的24小时内或每天00:01开始前1天(24小时)内的注册用户数;参考时间段的注册数量为前2天至前8天(共7天)的日注册用户数量。
其中,所述识别阈值的计算方式包括:
Figure BDA0001097945650000061
其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。
例如,n至n+m为2至8共七天,数据突增的比例上限值为50%,则计算方式为:
如果
Figure BDA0001097945650000062
X(1+50%)则进入步骤S120,否则,判断为无异常注册行为,停止执行后续请求或指令。
其中,所述获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇,包括:
预设扫描半径和最小包含点数;所述扫描半径和最小包含点数根据在实际使用中需要基于数据具体情况来确认,如eps=0.5秒,minPts=2个。
利用密度聚类算法DBSCAN,基于所述预设扫描半径和最小包含点数按时间顺序扫描预识别时间段内的注册数量中所有的注册账户,标记至少一个高度集中在某个时间段内注册的账户簇。
有的时候,高度集中在某个时间段内注册的账户簇是正常的,可能因为促销活动等因素,因此将至少一个高度集中在某个时间段内注册的账户簇,标记出来,再次识别。
在步骤S120中,识别所述至少一个注册账户簇中的携带异常行为的注册账户群。
包括:
识别所述至少一个账户簇中不少于预定数量的账户量,和/或
所述至少一个账户簇中不少于预定邮件长度的账户量的注册账户群。
进一步的,还包括:
逐一扫描所述注册账户群中的账户,获取注册账户群内所有@前的字符串;
统计所述@前的字符串中连续预设位数的字符中涉及的每个英文字母和数字的个数,
以每个英文字母和数字的预定位数统计的数量为一组数据,计算所有英文字母和数字的平均变异系数,若平均变异系数小于阈值,则标识这个账户群为批量注册账户群。
一应用实例,逐一扫描至少一个账户簇。
1、按邮箱类型统计簇中账户数,剔除少于1000的邮箱类型;
2、每类邮箱按长度统计账户数,剔除少于1000的邮件长度;
3、获取满足(1)(2)的簇中每一类邮箱类型和长度的账户群Q1、Q2、…、Qn:
3.1、逐一扫描(3)中的账户群,获取群内所有@前的字符串;
3.2、统计账户群中字符串的第1、2、3位(其它连续3位都可以,如逆向前3位)字符中涉及的每个英文字母和数字的个数;
3.3、以每个英文字母和数字的第1、2、3位统计的数量为一组数据(每组数据3个值),计算所有英文字母和数字的平均变异系数,若平均变异系数<1%,则标识这个账户群为批量注册账户群;否则,标识为正常账户群。
进一步的,所述平均变异系数的计算方式为:
C=(SD/Mean)×100%;
其中,C为平均变异系数;SD为标准偏差;Mean为平均值。
一具体应用例子,如对图2所示的类型的一批注册账户(为保证用户隐私,对邮箱类型进行了处理),总长度21,均为2014年10月21日18点注册,前10位为字符,第13、14、15位均为数字,以@前逆向连续三位的数字为统计依据,结果如图3所示。因此,这一批账户群为批量注册用户,进行标识。
本发明实施例一通过监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;识别所述至少一个注册账户簇中的携带异常行为的注册账户群。识别通过等长邮箱进行批量注册的账户群体,通过技术手段对其进行识别、标记、处理,使资源的分配更具合理性和公平性。
实施例二
基于DBSCAN算法,如图2-7所示,本发明实施例二还提供了一种异常注册行为的识别系统200,包括:监控模块21和识别模块22。
监控模块21,用于监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇。
其中,所述参考时间段的注册数量,包括:
以所述预识别时间段为基准单位,获取所述预识别时间段之前连续的多个基准单位的注册数量。
例如,预识别时间段为当前时间之前的24小时内或每天00:01开始前1天(24小时)内的注册用户数;参考时间段的注册数量为前2天至前8天(共7天)的日注册用户数量。
其中,所述识别阈值的计算方式包括:
Figure BDA0001097945650000091
其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。
例如,n至n+m为2至8共七天,数据突增的比例上限值为50%,则计算方式为:
如果
Figure BDA0001097945650000092
X(1+50%)则调取识别模块22,否则,判断为无异常注册行为,停止执行后续请求或指令。
其中,所述监控模块21,包括:
预设单元211,用于预设扫描半径和最小包含点数;所述扫描半径和最小包含点数根据在实际使用中需要基于数据具体情况来确认,如eps=0.5秒,minPts=2个。
监控单元212,用于利用密度聚类算法,基于所述预设扫描半径和最小包含点数按时间顺序扫描预识别时间段内的注册数量中所有的注册账户,标记至少一个高度集中在某个时间段内注册的账户簇。
识别模块22,用于识别所述至少一个注册账户簇中的携带异常行为的注册账户群。
所述识别模块22,包括:
第一识别单元221,用于识别所述至少一个账户簇中不少于预定数量的账户量,和/或
第二识别单元222,用于所述至少一个账户簇中不少于预定邮件长度的账户量的注册账户群。
还包括:
扫描单元223,用于逐一扫描所述注册账户群中的账户,获取注册账户群内所有@前的字符串;
统计单元224,用于统计所述@前的字符串中连续预设位数的字符中涉及的每个英文字母和数字的个数,
标识单元225,用于以每个英文字母和数字的预定位数统计的数量为一组数据,计算所有英文字母和数字的平均变异系数,若平均变异系数小于阈值,则标识这个账户群为批量注册账户群。
进一步的,所述平均变异系数的计算方式为:
C=(SD/Mean)×100%;
其中,C为平均变异系数;SD为标准偏差;Mean为平均值。
一应用实例,逐一扫描至少一个账户簇。
1、按邮箱类型统计簇中账户数,剔除少于1000的邮箱类型;
2、每类邮箱按长度统计账户数,剔除少于1000的邮件长度;
3、获取满足(1)(2)的簇中每一类邮箱类型和长度的账户群Q1、Q2、…、Qn:
3.1、逐一扫描(3)中的账户群,获取群内所有@前的字符串;
3.2、统计账户群中字符串的第1、2、3位(其它连续3位都可以,如逆向前3位)字符中涉及的每个英文字母和数字的个数;
3.3、以每个英文字母和数字的第1、2、3位统计的数量为一组数据(每组数据3个值),计算所有英文字母和数字的平均变异系数,若平均变异系数<1%,则标识这个账户群为批量注册账户群;否则,标识为正常账户群。
进一步的,所述平均变异系数的计算方式为:
C=(SD/Mean)×100%;
其中,C为平均变异系数;SD为标准偏差;Mean为平均值。
一具体应用例子,如对图2所示的类型的一批注册账户(为保证用户隐私,对邮箱类型进行了处理),总长度21,均为2014年10月21日18点注册,前10位为字符,第13、14、15位均为数字,以@前逆向连续三位的数字为统计依据,结果如图3所示。因此,这一批账户群为批量注册用户,进行标识。
本发明实施例二通过监控模块监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;并通过识别单元识别所述至少一个注册账户簇中的携带异常行为的注册账户群。识别通过等长邮箱进行批量注册的账户群体,通过技术手段对其进行识别、标记、处理,使资源的分配更具合理性和公平性。
具体实现的功能和处理方式参见方法实施例一描述的具体步骤。
由于本实施例二的系统所实现的处理及功能基本相应于前述图1至图3所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
实施例三
基于DBSCAN算法,如图8所示,本发明实施例三提供了一种异常注册行为的识别设备300,包括实施例二提供的任一项所述的系统200。
本发明实施例三通过监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;识别所述至少一个注册账户簇中的携带异常行为的注册账户群。识别通过等长邮箱进行批量注册的账户群体,通过技术手段对其进行识别、标记、处理,使资源的分配更具合理性和公平性。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种异常注册行为的识别方法,其特征在于,包括:
监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;
识别所述至少一个注册账户簇中的携带异常行为的注册账户群,包括:
识别所述至少一个账户簇中不少于预定邮件长度的账户量的注册账户群;
逐一扫描所述注册账户群中的账户,获取注册账户群内所有@前的字符串;统计所述@前的字符串中连续预设位数的字符中涉及的每个英文字母和数字的个数;
以每个英文字母和数字的预定位数统计的数量为一组数据,计算所有英文字母和数字的平均变异系数,若平均变异系数小于阈值,则标识这个账户群为批量注册账户群。
2.如权利要求1所述的方法,其特征在于,所述参考时间段的注册数量,包括:以所述预识别时间段为基准单位,获取所述预识别时间段之前连续的多个基准单位的注册数量。
3.如权利要求1或2所述的方法,其特征在于,所述识别阈值的计算方式包括:
Figure FDA0002412852320000011
其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。
4.如权利要求1或2所述的方法,其特征在于,所述获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇,包括:
预设扫描半径和最小包含点数;
利用密度聚类算法,基于所述预设扫描半径和最小包含点数按时间顺序扫描预识别时间段内的注册数量中所有的注册账户,标记至少一个高度集中在某个时间段内注册的账户簇。
5.如权利要求1所述的方法,其特征在于,所述平均变异系数的计算方式为:
C=(SD/Mean)×100%;
其中,C为平均变异系数;SD为标准偏差;Mean为平均值。
6.如权利要求1或2所述的方法,其特征在于,所述识别所述至少一个注册账户簇中的携带异常行为的注册账户群还包括:
识别所述至少一个账户簇中不少于预定数量的账户量。
7.一种异常注册行为的识别系统,其特征在于,包括:
监控模块,用于监测预识别时间段内的注册数量高于参考时间段的注册数量的识别阈值后,获取基于密度聚类算法扫描所述预识别时间段内的所有注册行为后标记的至少一个高度集中的注册账户簇;
识别模块,用于识别所述至少一个注册账户簇中的携带异常行为的注册账户群;所述识别模块,包括:
第二识别单元,用于所述至少一个账户簇中不少于预定邮件长度的账户量的注册账户群;
扫描单元,用于逐一扫描所述注册账户群中的账户,获取注册账户群内所有@前的字符串;
统计单元,用于统计所述@前的字符串中连续预设位数的字符中涉及的每个英文字母和数字的个数;以及,
标识单元,用于以每个英文字母和数字的预定位数统计的数量为一组数据,计算所有英文字母和数字的平均变异系数,若平均变异系数小于阈值,则标识这个账户群为批量注册账户群。
8.如权利要求7所述的系统,其特征在于,所述参考时间段的注册数量,包括:以所述预识别时间段为基准单位,获取所述预识别时间段之前连续的多个基准单位的注册数量。
9.如权利要求7或8所述的系统,其特征在于,所述识别阈值的计算方式包括:
Figure FDA0002412852320000031
其中,α为数据突增的比例,P1为预识别时间段内的注册数量,n为预识别时间段之前连续的一个基准单位,n+m为预识别时间段之前连续的多个基准单位,Pi为参考时间段的注册数量,Pmax为预识别时间段之前连续的多个基准单位中的注册数量最大值,Pmin为预识别时间段之前连续的多个基准单位中的注册数量最小值。
10.如权利要求7或8所述的系统,其特征在于,所述监控模块,包括:
预设单元,用于预设扫描半径和最小包含点数;
监控单元,用于利用密度聚类算法,基于所述预设扫描半径和最小包含点数按时间顺序扫描预识别时间段内的注册数量中所有的注册账户,标记至少一个高度集中在某个时间段内注册的账户簇。
11.如权利要求7所述的系统,其特征在于,所述平均变异系数的计算方式为:
C=(SD/Mean)×100%;
其中,C为平均变异系数;SD为标准偏差;Mean为平均值。
12.如权利要求7或8所述的系统,其特征在于,所述识别模块还包括:
第一识别单元,用于识别所述至少一个账户簇中不少于预定数量的账户量。
13.一种异常注册行为的识别设备,包括如权利要求7-12任一项所述的系统。
CN201610757220.8A 2016-08-29 2016-08-29 一种异常注册行为的识别方法、系统及设备 Active CN106339615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610757220.8A CN106339615B (zh) 2016-08-29 2016-08-29 一种异常注册行为的识别方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610757220.8A CN106339615B (zh) 2016-08-29 2016-08-29 一种异常注册行为的识别方法、系统及设备

Publications (2)

Publication Number Publication Date
CN106339615A CN106339615A (zh) 2017-01-18
CN106339615B true CN106339615B (zh) 2020-06-16

Family

ID=57823461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610757220.8A Active CN106339615B (zh) 2016-08-29 2016-08-29 一种异常注册行为的识别方法、系统及设备

Country Status (1)

Country Link
CN (1) CN106339615B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108540431A (zh) * 2017-03-03 2018-09-14 阿里巴巴集团控股有限公司 账号类型的识别方法、装置和系统
CN107045686A (zh) * 2017-03-16 2017-08-15 上海二三四五金融科技有限公司 一种基于地理集中度的检测方法
CN107046547B (zh) * 2017-05-19 2020-11-06 百度在线网络技术(北京)有限公司 异常操作识别方法和装置
CN108965207B (zh) * 2017-05-19 2021-02-26 北京京东尚科信息技术有限公司 机器行为识别方法与装置
CN109600344B (zh) * 2017-09-30 2021-03-23 腾讯科技(深圳)有限公司 识别风险群体的方法、装置及电子设备
CN107835154A (zh) * 2017-10-09 2018-03-23 武汉斗鱼网络科技有限公司 一种批量注册账号识别方法及系统
CN108900478B (zh) * 2018-06-11 2021-06-11 创新先进技术有限公司 异动攻击的检测方法及装置、安全防护设备
CN109213857A (zh) * 2018-08-29 2019-01-15 阿里巴巴集团控股有限公司 一种欺诈行为识别方法和装置
CN110876072B (zh) * 2018-08-31 2022-02-08 武汉斗鱼网络科技有限公司 一种批量注册用户识别方法、存储介质、电子设备及系统
CN110610090B (zh) * 2019-08-28 2022-05-03 北京小米移动软件有限公司 信息处理方法及装置、存储介质
CN112785315A (zh) * 2019-11-07 2021-05-11 北京沃东天骏信息技术有限公司 批量注册识别方法及装置
CN111506829B (zh) * 2020-03-20 2023-08-25 微梦创科网络科技(中国)有限公司 一种异常关注行为批量实时识别方法及装置
CN111723655B (zh) * 2020-05-12 2024-03-08 五八有限公司 人脸图像处理方法、装置、服务器、终端、设备及介质
CN111860644A (zh) * 2020-07-20 2020-10-30 北京百度网讯科技有限公司 一种异常账号的识别方法、装置、设备和存储介质
CN115965460B (zh) * 2022-11-22 2023-09-01 湖南长银五八消费金融股份有限公司 异常业务识别方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8561193B1 (en) * 2010-05-17 2013-10-15 Symantec Corporation Systems and methods for analyzing malware
CN103714138A (zh) * 2013-12-20 2014-04-09 南京理工大学 一种基于密度聚类的区域数据可视化方法
CN110033302B (zh) * 2014-10-28 2023-08-04 创新先进技术有限公司 恶意账户识别方法及装置
CN105653912B (zh) * 2014-11-13 2018-06-01 阿里巴巴集团控股有限公司 一种识别批量注册行为的方法及装置
CN105791255B (zh) * 2014-12-23 2020-03-13 阿里巴巴集团控股有限公司 基于账户聚类的计算机风险识别方法及其系统
CN105808988B (zh) * 2014-12-31 2020-07-03 阿里巴巴集团控股有限公司 一种识别异常账户的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于群体特征的社交僵尸网络监测方法";倪平等;《中国科学院大学学报》;20140930;第31卷(第5期);第692-695页 *

Also Published As

Publication number Publication date
CN106339615A (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN106339615B (zh) 一种异常注册行为的识别方法、系统及设备
CN106294105B (zh) 刷量工具检测方法和装置
CN105791255B (zh) 基于账户聚类的计算机风险识别方法及其系统
CN110517097B (zh) 识别异常用户的方法、装置、设备及存储介质
CN107067006B (zh) 一种服务于数据采集的验证码识别方法及系统
CN106384273B (zh) 恶意刷单检测系统及方法
US20230306289A1 (en) Machine learning and validation of account names, addresses, and/or identifiers
CN110033302B (zh) 恶意账户识别方法及装置
CN108255555A (zh) 一种系统语言切换方法及终端设备
CN107908948B (zh) 一种应用于安全风险控制的安卓app设备指纹生成方法
CN106960153B (zh) 病毒的类型识别方法及装置
CN110647896A (zh) 一种基于logo图像的钓鱼页面识别方法及相关设备
CN106257493B (zh) 交通优惠卡冒用识别方法及识别系统
CN109145907B (zh) 基于常用字字频统计的文本图像倒置检测方法及装置
CN114882605A (zh) 一种基于互联网的智慧考勤管理系统及方法
CN113609389A (zh) 一种社区平台信息推送方法及系统
CN105100098A (zh) 一种机卡交互安全授权方法及装置
CN105956553B (zh) 一种解锁方法及移动终端
CN106685898B (zh) 一种识别批量注册账号的方法和设备
CN109600361B (zh) 基于哈希算法的验证码防攻击方法、装置、电子设备及非暂态计算机可读存储介质
CN109145879B (zh) 一种打印字体识别的方法、设备及存储介质
CN108073663B (zh) 一种任务数据的录入方法和系统
CN113420549B (zh) 异常字符串识别方法及装置
CN107016316B (zh) 一种条形码的识别方法和装置
CN106549914B (zh) 一种独立访问者的识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant