CN110033302A - 恶意账户识别方法及装置 - Google Patents

恶意账户识别方法及装置 Download PDF

Info

Publication number
CN110033302A
CN110033302A CN201910039740.9A CN201910039740A CN110033302A CN 110033302 A CN110033302 A CN 110033302A CN 201910039740 A CN201910039740 A CN 201910039740A CN 110033302 A CN110033302 A CN 110033302A
Authority
CN
China
Prior art keywords
account
fuzzy
information
grouping
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910039740.9A
Other languages
English (en)
Other versions
CN110033302B (zh
Inventor
郑丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910039740.9A priority Critical patent/CN110033302B/zh
Publication of CN110033302A publication Critical patent/CN110033302A/zh
Application granted granted Critical
Publication of CN110033302B publication Critical patent/CN110033302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Collating Specific Patterns (AREA)
  • Character Discrimination (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种恶意账户识别方法及装置。方法包括:获取待识别账户;按照模糊处理指示信息,对所述待识别账户进行模糊化处理,以获得保留所述待识别账户中部分信息的模糊账户;其中,所述模糊处理指示信息用以发现所述待识别账户中具有相同或相似信息的账户;对所述模糊账户进行恶意账户识别,以确定所述待识别账户中的恶意账户。本申请可以提高识别恶意账户的精度,降低误判率。

Description

恶意账户识别方法及装置
本申请是申请日为2014年10月28日,申请号为201410588349.1,发明名称为“恶意账户识别方法及装置”的中国专利申请的分案申请。
【技术领域】
本申请涉及互联网技术领域,尤其涉及一种恶意账户识别方法及装置。
【背景技术】
随着互联网技术的发展,各种应用系统越来越多,例如电子商务系统。用户作为应用系统的使用者,一般需要注册账户,例如电子邮箱(email),账户可以作为用户的虚拟身份标识信息,用户通过账户可以登录应用系统,以使用应用系统提供的资源或开展相关活动等。
在实际应用中,一些恶意用户会大批量注册账户,以便于盗取应用系统所提供的资源。以电子商务系统为例,恶意用户可以通过大批量注册的电子邮箱登录电子商务系统,从而多次领取电子商务系统提供的红包。对应用系统来说,需要识别出恶意账户。
现有技术中存在一种对同期注册的大量账户做聚类,根据聚类结果识别恶意账户的方法。对于聚类算法来说,需要设定一些参数,例如类别的数量,距离半径等,针对账户这一特殊对象来说,由于具有太多不可控性,例如无法预知同期会有多少用户注册账户,也无法预知会有多少不同类型的账户产生,因此无法很好的设定聚类算法所需的参数。因此,现有这种方法容易发生误判,识别恶意账户的精度不高。
【发明内容】
本申请的多个方面提供一种恶意账户识别方法及装置,用以提高识别恶意账户的精度,降低误判率。
本申请的一方面,提供一种恶意账户识别方法,包括:
获取待识别账户;
按照模糊处理指示信息,对所述待识别账户进行模糊化处理,以获得保留所述待识别账户中部分信息的模糊账户;其中,所述模糊处理指示信息用以发现所述待识别账户中具有相同或相似信息的账户;
对所述模糊账户进行恶意账户识别,以确定所述待识别账户中的恶意账户。
本申请的另一方面,提供一种恶意账户识别装置,包括:
获取模块,用于获取待识别账户;
模糊化处理模块,用于按照模糊处理指示信息,对所述待识别账户进行模糊化处理,以获得保留所述待识别账户中部分信息的模糊账户;其中,所述模糊处理指示信息用以发现所述待识别账户中具有相同或相似信息的账户;
识别模块,用于对所述模糊账户进行恶意账户识别,以确定所述待识别账户中的恶意账户。
在本申请中,获取待识别账户,按照模糊处理指示信息,对待识别账户进行模糊化处理,获得保留了待识别账户中部分信息的模糊账户,其中,模糊处理指示信息的作用是发现待识别账户中具有相同或相似信息的账户,因此通过比较模糊账户可以发现具有相同或相似信息的待识别账户,这些账户通常属于恶意账户,进一步基于模糊账户进行恶意账户识别,可以更加准确的发现待识别账户中的恶意账户,降低误判率。
【附图说明】
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的恶意账户识别方法的流程示意图;
图2为本申请另一实施例提供的恶意账户识别方法的流程示意图;
图3为本申请一实施例提供的恶意账户识别装置的结构示意图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请一实施例提供的恶意账户识别方法的流程示意图。如图1所示,该方法包括:
101、获取待识别账户。
102、按照模糊处理指示信息,对待识别账户进行模糊化处理,以获得保留待识别账户中部分信息的模糊账户,该模糊处理指示信息用以发现待识别账户中具有相同或相似信息的账户。
103、对上述模糊账户进行恶意账户识别,以确定待识别账户中的恶意账户。
本实施例提供一种恶意账户识别方法,可由恶意账户识别装置来执行。恶意账户识别装置可以是任何需要进行恶意账户识别的设备,例如可以是应用服务端或应用客户端等。
在进行恶意账户识别时,恶意账户识别装置首先获取待识别账户。待识别账户可以包括尚未被识别为合法账户的已注册账户,还可以包括新注册账户。例如,恶意账户识别装置可以在指定时间,获取指定时间间隔内新注册的至少一个账户作为待识别账户。更为具体的,恶意账户识别装置可以周期性的获取在本周期内新注册的至少一个账户作为待识别账户。所述周期可以是一天、两天、一周或更长时间。
值得说明的是,本实施例中的账户可以是用于登录的各种账户,例如可以是但不限于电子邮箱。本实施例中的账户一般具有前缀和后缀两部分。对电子邮箱来说,电子邮箱的前缀是@之前的部分,其余部分作为电子邮箱的后缀。
考虑到恶意账户一般都有一些明显的规律,例如账户名称有明显的规律性,例如,有固定的前缀和完全一样的后缀;以数字或字母作为序列自增;包括具有表征意义的固定字符,等等。以电子邮箱为例,恶意用户在注册时有可能注册以下一些电子邮箱,luha001@163.com,luha002@163.com,......,luha007@163.com等。由此可见,恶意账户一般具有相同或相近的信息,是比较相近的。因此,可以利用恶意账户之间相似的特点来识别恶意账户。
为了发现待识别账户中具有相同或相似信息的账户,可以预先针对该目的配置模糊处理指示信息,也就是说通过模糊处理指示信息可以发现待识别账户中具有相同或相似信息的账户。模糊处理指示信息主要包括一些用于限定模糊化处理位置、模糊化处理对象以及如何模糊化操作等的信息。
恶意账户识别装置按照模糊处理指示信息,对待识别账户进行模糊化处理,以获得保留了待识别账户中部分信息的模糊账户。简单来说,模糊账户保留了待识别账户中的部分信息,待识别账户中的另一部分信息被模糊掉。所谓模糊实际上是抽象的意思,即将具体的待识别账户抽象成模糊账户。
举例说明,以账户luha3902@163.com和luha244@163.com为例,模糊处理指示信息可以指示将账户中的数字模糊掉,并保留被模糊掉的数字个数,则经过模糊化处理后可以得到模糊账户luha^^^^@163.com和luha^^^@163.com,其中“^”代表被模糊掉的数字,“^”的个数表示被模糊掉的数字个数。这两个模糊账户的后缀是完全相同的,前缀中剩余字符也是相同的,区别在于模糊掉的数字个数不同。这意味着这两个模糊账户对应的待识别账户具有相同的开头字符“luha”和相同的后缀“@163.com”,属于相似账户。
再举例说明,以账户luha3902@163.com和luha3903@163.com为例,模糊处理指示信息可以指示将账户中的数字模糊掉,并保留被模糊掉的数字个数,则经过模糊化处理后可以得到模糊账户luha^^^^@163.com和luha^^^^@163.com,其中“^”代表被模糊掉的数字,“^”的个数表示被模糊掉的数字个数。这两个模糊账户的后缀是完全相同的,前缀中剩余字符也是相同的,被模糊掉的数字个数也相同,即这两个模糊账户是完全相同的。这意味着这两个模糊账户对应的待识别账户具有相同的开头字符“luha”、相同的后缀以及相同个数的数字,属于相近账户。
由上述可以看出,通过对待识别账户进行模糊化处理,将待识别账户中可能不同的信息给模糊掉,从而产生模糊账户。模糊账户更为简单,且保留了待识别账户中相同或相似的信息,因此通过模糊账户可以直接发现待识别账户中具有相同或相似信息的账户,不容易出现误判。因此,恶意账户识别装置可以对模糊账户进行恶意账户识别,以确定待识别账户中的恶意账户。
在一可选实施方式中,恶意账户识别装置可以直接比较模糊账户,发现完全相同的模糊账户,将完全相同的模糊账户对应的待识别账户确定为恶意账户。或者,恶意账户识别装置也可以直接比较模糊账户,发现相似程度符合预设相似度指标的模糊账户,将这些相似程度符合相似度指标的模糊账户对应的待识别账户作为恶意账户。相似度指标可以根据不同应用场景适应性设置,例如相似度指标可以是开头字符相同、后缀相同以及被模糊掉的数字个数相同;或者相似度指标也可以是开头字符相同、后缀相同以及被模糊掉的数字个数相差一个,等等。
在一可选实施方式中,恶意账户识别装置可以对模糊账户进行分组,以将相同或相似的模糊账户分为一组;按照评测参数,对每组内的模糊账户进行评测,获得每组对应的评测结果;之后,确定评测结果满足预设恶意条件的分组所对应的待识别账户作为恶意账户。
其中,评测结果满足预设恶意条件的分组所对应的待识别账户是指评测结果满足预设恶意条件的分组内各模糊账户对应的待识别账户。
可选的,可以预先设定相似度指标,根据相似度指标判断两个模糊账户是否相似,进而将模糊账户分为不同组。
其中,考虑到恶意账户除了具有相同或相近的信息之外,在注册时间、注册数量、信息共享等方面都会呈现较为明显的特征。举例说明:同一批恶意账户的注册时间往往比较集中,例如在同一天内注册。同一批恶意账户的注册时间间隔具有一定规律性,例如前后两个账户的注册时间间隔不超过2小时等。恶意账户的数量一般比较多,例如可能在100个以上。另外,恶意用户在注册恶意账户时一般会使用部分相同的信息,例如恶意账户会共享相同的设备互联网协议IP、MAC、UMID、TID、身份证号码、电话号码和/或联系地址等。
基于上述,评测参数可以包括但不限于以下至少一个:注册平均时间间隔、注册时间规律、分组内模糊账户的个数、分组的特征、分组的后验概率、静态共享广度指标、动态共享广度指标、静态共享密集度指标和动态共享密集度指标。
其中,注册平均时间间隔是指同一分组内的模糊账户的注册时间的平均间隔。模糊账户的注册时间也就是模糊账户对应的待识别账户的注册时间。对于每个分组,恶意账户识别装置可以根据该分组内的模糊账户的注册时间对模糊账户的注册时间进行排序,形成时间序列,获得前后两个模糊账户的注册时间的时间间隔,进而根据所获得的全部时间间隔和时间间隔的个数获得注册平均时间间隔。
若一个分组对应的注册平均时间间隔越短,说明该分组中的模糊账户被集中注册的可能性较大,也就意味着是恶意账户的风险较大。
其中,注册时间规律是指同一分组内模糊账户的注册时间之间具有的规律性。对于每个分组,恶意账户识别装置可以根据该分组内的模糊账户的注册时间对模糊账户的注册时间进行排序,形成时间序列,进而根据时间序列的标准差,获得时间序列具有的规律。
若一个分组对应的注册时间规律性很强,说明该分组内的模糊账户被恶意注册的可能性较大,也就意味着是恶意账户的可能性较大。
其中,分组内模糊账户的个数是指同一分组内模糊账户的个数。在实际应用中,不同用户注册的账户相同或相近的可能性较小,而同时出现大量相同或相近的账户的可能性就越小,因此若分组内的模糊账户越多,说明是恶意账户的可能性较大。
其中,分组的特征是指同一分组内模糊账户具有的共同特征,也就是该分组具有的特征,例如该分组内的模糊账户的开头字符都是相同的,例如都是luha,和/或,该分组内的模糊账户含有相同的字符数。其中,分组的特征越多,意味着分组内的模糊账户具有的相同特征也就越多,说明该分组内的模糊账户的相似度越高,进而意味着是恶意账户的可能性较大。
其中,分组的后验概率是指同一分组内出现与之前已经确定的恶意账户属于同期注册账户的模糊账户的概率。由于合法用户与恶意用户同期注册账户的概率较低,也就是说实际应用中出现合法用户注册合法账户的同时,出现恶意用户注册恶意账户的概率较低,因此若分组内出现与已经确定的恶意账户属于同期注册账户的模糊账户,说明该组内的这些相同或相似模糊账户是恶意账户的可能性很高。
其中,静态共享广度指标用于表征分组内出现模糊账户之间共享静态信息的情况的多少。这里的静态信息主要是指用户注册账户时使用的一些不易发生变化的信息,例如可以是注册时使用的设备信息,例如设备的IP、MAC、UMID和/或TID;还可以是注册时的用户信息,例如用户的身份证号码、电话号码、姓名和/或联系地址等;还可以是注册渠道信息,例如注册来源、注册业务来源和/或注册来源网站等信息。
只要两个模糊账户使用了任何一个或多个相同的静态信息,则认为这两个模糊账户之间共享静态信息。对每个分组来说,恶意账户识别装置可以获取该分组内各模糊账户使用的静态信息,通过比较各模糊账户使用的静态信息,可以发现模糊账户之间是否共享静态信息。
由于不同用户注册的账户使用相同静态信息的概率较低,因此若同一分组内出现模糊之间共享静态信息的情况越多,说明该组内的模糊账户属于恶意账户的概率较高。
其中,动态共享广度指标用于表征分组内出现模糊账户之间共享动态信息的情况的多少。这里的动态信息是指与账户有关且会随着时间发生变化的信息,例如可以是注册账户时使用的设备信息的更新,例如更新设备的IP、MAC、UMID和/或TID;还可以是用户使用账户的行为信息,例如发生的登录事件、交易事件、被CTU稽核事件、修改密码和/或修改其他注册信息等事件;还可以是使用模糊账户进行交易产生的交易信息,例如交易主动方信息、交易被动方信息、交易商品信息(尤其是高危商品信息)、收货地址、收货主动方信息和/或收货被动方信息。
只要两个模糊账户因其使用产生了任何一个或多个相同的动态信息,则认为这两个模糊账户之间共享动态信息。对每个分组来说,恶意账户识别装置可以获取该分组内各模糊账户对应的动态信息,通过比较各模糊账户对应的动态信息,可以发现模糊账户之间是否共享动态信息。
进一步,还可以限定两个模糊账户之间是否在指定时间内共享动态信息,例如在同一天内共享相同动态信息。
由于不同用户使用账户产生相同行为的概率较低,因此若同一分组内出现模糊之间共享动态信息的情况越多,说明该组内的模糊账户属于恶意账户的概率较高。
其中,静态共享密集度指标用于表征分组内出现的共享静态信息的模糊账户之间所共享的静态信息的多少。这里的静态信息和之前的静态信息的定义相同,不再赘述。
其中,共享静态信息的模糊账户所共享的静态信息越多,说明两个模糊账户越相近,属于恶意账户的可能性也就较大。例如,若第一模糊账户与第二模糊账户同时共享设备IP、用户身份证号码、联系地址等信息,但是第一模糊账户与第三模糊账户仅共享了设备IP这一静态信息,则意味着第一模糊账户与第二模糊账户更相近。对于每个分组来说,恶意账户识别装置首先可以获取共享静态信息的模糊账户,进而统计这些模糊账户所共享的静态信息的多少。
其中,动态共享密集度指标用于表征分组内出现的共享动态信息的模糊账户之间所共享的动态信息的多少。这里的动态信息和之前的动态信息的定义相同,不再赘述。
其中,共享动态信息的模糊账户所共享的动态信息越多,说明两个模糊账户越相近,属于恶意账户的可能性也就较大。例如,若第一模糊账户与第二模糊账户在同一天进行了登录、修改了密码、并且均购买了同一高危商品,但是第一模糊账户与第三模糊账户仅在同一天进行了登录,则意味着第一模糊账户与第二模糊账户更相近。对于每个分组来说,恶意账户识别装置首先可以获取共享动态信息的模糊账户,进而统计这些模糊账户所共享的动态信息的多少。
值得说明的是,基于上述评测参数,对每组内的模糊账户进行评测,以获得每组对应的评测结果的方式可以有多种。例如,恶意账户识别装置可以独立使用上述任一评测参数,对每组内的模糊账户进行评测,以获得每组对应的评测结果。又例如,恶意账户识别装置可以同时使用多个评测参数,为每个评测参数分配不同权重,分别使用每个评测参数对分组内的模糊账户进行评测,获得每个评测参数对应的评测值,再根据每个评测参数的评测值和每个评测参数的权重进行数值处理,获得最终评测结果。
举例说明,在经过上述评测处理之后,恶意账户识别装置可以确定注册平均时间间隔较小且注册时间规律性较强的分组对应的待识别账户为恶意账户。或者,经过上述评测处理之后,恶意账户识别装置可以确定注册平均时间间隔较小、注册时间规律性较强以及分组内模糊账户个数较多的分组对应的待识别账户为恶意账户。或者,经过上述评测处理之后,恶意账户识别装置可以确定注册平均时间间隔较小、注册时间规律性较强、分组内模糊账户个数较多、静态共享广度指标较高以及动态共享广度指标较高等的分组对应的待识别账户为恶意账户。
综上所述,在本实施例中,获取待识别账户,按照模糊处理指示信息,对待识别账户进行模糊化处理,获得保留了待识别账户中部分信息的模糊账户,其中,模糊处理指示信息的作用是发现待识别账户中具有相同或相似信息的账户,因此通过比较模糊账户可以发现具有相同或相似信息的待识别账户,这些账户通常属于恶意账户,进一步基于模糊账户进行恶意账户识别,可以更加准确的发现待识别账户中的恶意账户,降低误判率。
图2为本申请另一实施例提供的恶意账户识别方法的流程示意图。如图2所示,该方法包括:
201、获取待识别账户。
202、按照模糊处理指示信息包括的至少一种模糊粒度的模糊化参数,对待识别账户进行模糊化处理,以获得每种模糊粒度下保留了待识别账户中部分信息的模糊账户。
203、根据业务场景,从至少一种模糊粒度中确定目标粒度。
204、从所有模糊账户中,选出目标粒度下的模糊账户。
205、对目标粒度下的模糊账户进行分组,以将相同或相近的模糊账户分为一组。
206、按照评测参数,对每组内的模糊账户进行评测,以获得每组对应的评测结果。
207、确定评测结果满足预设恶意条件的分组所对应的待识别账户为恶意账户。
在本实施例中,模糊处理指示信息包括至少一种模糊粒度的模糊化参数。不同的模糊粒度意味着待识别账户中被模糊掉的信息不同。举例说明,至少一种模糊粒度的模糊化参数可以包括但不限于:第一模糊粒度的模糊化参数、第二模糊粒度的模糊化参数、第三模糊粒度的模糊化参数、第四模糊粒度的模糊化参数和第五模糊粒度的模糊化参数。
其中,第一模糊粒度的模糊化参数用于指示:模糊掉账户前缀中的所有数字,并保留被模糊掉的数字个数。
第二模糊粒度的模糊化参数用于指示:模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,需标识模糊掉的部分是数字。
第三模糊粒度的模糊化参数用于指示:模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,并模糊掉账户前缀中非数字字符中除指定位置处的非数字字符之外的其他非数字字符,并保留被模糊掉的非数字字符的个数。
第四模糊粒度的模糊化参数用于指示:模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,模糊掉账户前缀中非数字字符中除指定位置处的非数字字符之外的其他非数字字符,并忽略被模糊掉的非数字字符的个数。
第五模糊粒度的模糊化参数用于指示:模糊掉账户前缀中所有字符组合,所述字符组合是指除起分割作用的分割字符之外的其他任意字符的组合,并忽略被模糊掉的字符组合中的字符个数。
获取待识别账户后,可以针对每种模糊粒度,分别对待识别账户进行模糊化处理,这样就会获得每种模糊粒度下的模糊账户。由于不同业务场景所需要的模糊粒度并不相同,所以可以根据业务场景,从所有模糊粒度中确定所需的目标粒度,进而从所有模糊账户中选择目标粒度下的模糊账户。值得说明的是,目标粒度可以是一种或多种模糊粒度。
之后,针对每个目标粒度下的模糊账户进行恶意账户识别。该识别过程可参见上述实施例的描述,在此不再赘述。关于评测参数的描述也可以参见上述实施例,在此不再赘述。
以账户luha3902@163.com和luh244@163.com为例,根据第一模糊粒度的模糊化参数进行模糊化处理后得到模糊账户为:luha^^^^@163.com和luh^^^@163.com;根据第二模糊粒度的模糊化参数进行模糊化处理后得到模糊账户为:luha^@163.com和luh^@163.com;经过第三模糊粒度的模糊化参数进行模糊化处理后得到模糊账户为:lucc^@163.com和luc^@163.com,其中指定位置处的非数字字符是指开头2个非数字字符;经过第四模糊粒度的模糊化参数进行模糊化处理后得到模糊账户为:luc^@163.com和luc^@163.com;经过第五模糊粒度的模糊化参数进行模糊化处理后得到模糊账户为:x@163.com和x@163.com。其中,上述模糊账户中的“^”、“c”和“x”属于模糊化处理后用于替代原字符的标识符。
例如,对于注册电子邮箱的业务场景,可以选择第一模糊粒度为目标粒度,则该目标粒度下的模糊账户为luha^^^^@163.com和luh^^^@163.com,进一步对这两个模糊账户进行恶意账户识别。具体的,恶意账户识别装置可以对这两个模糊账户进行分组,假设这两个模糊账户分为一组,之后利用评测参数对该组内的模糊账户进行评测处理,获得评测结果。例如,以注册时间平均间隔和静态共享广度指标为评测参数,则首先可以获得这两个模糊账户的注册时间间隔,根据该注册时间间隔给这两个模糊账户所在分组打一分值;进一步判断这两个模糊账户之间是否共享静态信息,根据判断结果为这两个模糊账户所在分组再打一分值,根据这两个分值,获得该分组的最终得分,即评测结果。之后,恶意账户识别装置将该分组的最终得分与预设的恶意条件中的分值门限进行比较,若大于该门限,确定该分组对应的待识别账户,即账户luha3902@163.com和luh244@163.com属于恶意账户;否则,不属于恶意账户。
在本实施例中,利用不同的模糊粒度对待识别账户进行模糊处理,获得不同模糊粒度下的模糊账户;再根据业务场景挑选所需粒度的模糊账户,对这些模糊账户进行分组,之后利用评测参数,针对每个分组进行评测,并最终根据评测结果确定恶意账户,可以更加准确的发现待识别账户中的恶意账户,降低误判率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图3为本申请一实施例提供的恶意账户识别装置的结构示意图。如图3所示,该装置包括:获取模块31、模糊化处理模块32和识别模块33。
获取模块31,用于获取待识别账户。
模糊化处理模块32,与获取模块31连接,用于按照模糊处理指示信息,对获取模块31获取的待识别账户进行模糊化处理,以获得保留待识别账户中部分信息的模糊账户;其中,模糊处理指示信息用以发现待识别账户中具有相同或相似信息的账户。
识别模块33,与模糊化处理模块32连接,用于对模糊化处理模块32获得的模糊账户进行恶意账户识别,以确定待识别账户中的恶意账户。
在一可选实施方式中,识别模块33具体可用于:对模糊账户进行分组,以将相同或相似的模糊账户分为一组;按照评测参数,对每组内的模糊账户进行评测,以获得每组对应的评测结果;确定评测结果满足预设恶意条件的分组所对应的待识别账户为恶意账户。
在一可选实施方式中,模糊处理指示信息包括至少一种模糊粒度的模糊化参数。基于此,模糊化处理模块32具体可用于:根据至少一种模糊粒度中每种模糊粒度的模糊化参数,分别对待识别账户进行模糊化处理,以获得每种模糊粒度下保留待识别账户中部分信息的模糊账户。
可选的,本实施例的待识别账户可以包括:账户前缀和账户后缀。
则至少一种模糊粒度的模糊化参数包括:
第一模糊粒度的模糊化参数用于指示:模糊掉账户前缀中的所有数字,并保留被模糊掉的数字个数;
第二模糊粒度的模糊化参数用于指示:模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,需标识模糊掉的部分是数字;
第三模糊粒度的模糊化参数用于指示:模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,并模糊掉账户前缀中非数字字符中除指定位置处的非数字字符之外的其他非数字字符,并保留被模糊掉的非数字字符的个数;
第四模糊粒度的模糊化参数用于指示:模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,模糊掉账户前缀中非数字字符中除指定位置处的非数字字符之外的其他非数字字符,并忽略被模糊掉的非数字字符的个数;和
第五模糊粒度的模糊化参数用于指示:模糊掉账户前缀中所有字符组合,字符组合是指除起分割作用的分割字符之外的其他任意字符的组合,并忽略被模糊掉的字符组合中的字符个数。
基于上述至少一种模糊粒度的模糊化参数,则识别模块33用于对模糊账户进行分组,以将相同或相似的模糊账户分为一组,具体可以是:
根据业务场景,从至少一种模糊粒度中确定目标粒度;
从所有模糊账户中,选出目标粒度下的模糊账户;
对目标粒度下的模糊账户进行分组,以将相同或相似的模糊账户分为一组。
可选的,上述评测参数可以包括以下至少一个:注册平均时间间隔、注册时间规律、分组内模糊账户的个数、分组的特征、分组的后验概率、静态共享广度指标、动态共享广度指标、静态共享密集度指标和动态共享密集度指标。
其中,静态共享广度指标用于表征分组内出现模糊账户之间共享静态信息的情况的多少;
动态共享广度指标用于表征分组内出现模糊账户之间共享动态信息的情况的多少;
静态共享密集度指标用于表征分组内出现的共享静态信息的模糊账户之间所共享的静态信息的多少;
动态共享密集度指标用于表征分组内出现的共享动态信息的模糊账户之间所共享的动态信息的多少。
本实施例提供的恶意账户识别装置,获取待识别账户,按照模糊处理指示信息,对待识别账户进行模糊化处理,获得保留了待识别账户中部分信息的模糊账户,其中,模糊处理指示信息的作用是发现待识别账户中具有相同或相似信息的账户,因此通过比较模糊账户可以发现具有相同或相似信息的待识别账户,这些账户通常属于恶意账户,进一步基于模糊账户进行恶意账户识别,可以更加准确的发现待识别账户中的恶意账户,降低误判率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (19)

1.一种对账户进行处理的方法,其特征在于,该方法包括:
获取模糊处理指示信息;
依据所述模糊处理指示信息,对账户进行模糊化处理,以获得保留了账户中部分信息的模糊账户。
2.根据权利要求1所述的方法,其特征在于,所述模糊处理指示信息包括至少一种模糊粒度的模糊化参数;
依据所述模糊处理指示信息,对账户进行模糊化处理包括:
针对每种模糊粒度,分别对账户进行模糊化处理,以获得每种模糊粒度下的模糊账户。
3.根据权利要求1或2所述的方法,其特征在于,所述模糊处理指示信息包括以下模糊化参数中的至少一种:
用于限定模糊化处理位置、模糊化处理对象和如何模糊化操作的信息。
4.根据权利要求2所述的方法,其特征在于,所述至少一种模糊粒度为所有预设的模糊粒度,或者,从预设的模糊粒度中确定的业务场景所需要的模糊粒度。
5.根据权利要求3所述的方法,其特征在于,所述账户包括:账户前缀和账户后缀;
所述模糊化参数用于指示:
模糊掉账户前缀中的所有数字,并保留被模糊掉的数字个数;或者,
模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,需标识模糊掉的部分是数字;或者,
模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,并模糊掉账户前缀中非数字字符中除指定位置处的非数字字符之外的其他非数字字符,并保留被模糊掉的非数字字符的个数;或者,
模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,模糊掉账户前缀中非数字字符中除指定位置处的非数字字符之外的其他非数字字符,并忽略被模糊掉的非数字字符的个数;或者,
模糊掉账户前缀中所有字符组合,所述字符组合是指除起分割作用的分割字符之外的其他任意字符的组合,并忽略被模糊掉的字符组合中的字符个数。
6.根据权利要求1或2所述的方法,其特征在于,对所有待识别账户执行所述模糊化处理;该方法还包括:
对得到的模糊账户进行恶意账户识别,以确定所述待识别账户中的恶意账户。
7.根据权利要求6所述的方法,其特征在于,所述对得到的模糊账户进行恶意账户识别,以确定所述待识别账户中的恶意账户包括:
对得到的模糊账户进行分组,以将相同或相似的模糊账户分为一组;
按照评测参数,对每组内的模糊账户进行评测,以获得每组对应的评测结果;
确定评测结果满足预设恶意条件的分组所对应的待识别账户为恶意账户。
8.根据权利要求7所述的方法,其特征在于,所述对得到的模糊账户进行分组,以将相同或相似的模糊账户分为一组包括:
根据业务场景,确定目标粒度;
从所述得到的模糊账户中,选出所述目标粒度下的模糊账户;
对所述目标粒度下的模糊账户进行分组,以将相同或相似的模糊账户分为一组。
9.根据权利要求7所述的方法,其特征在于,所述评测参数包括以下至少一个:注册平均时间间隔、注册时间规律、分组内模糊账户的个数、分组的特征、分组的后验概率、静态共享广度指标、动态共享广度指标、静态共享密集度指标和动态共享密集度指标;
其中,所述静态共享广度指标用于表征分组内出现模糊账户之间共享静态信息的情况的多少;
所述动态共享广度指标用于表征分组内出现模糊账户之间共享动态信息的情况的多少;
所述静态共享密集度指标用于表征分组内出现的共享静态信息的模糊账户之间所共享的静态信息的多少;
所述动态共享密集度指标用于表征分组内出现的共享动态信息的模糊账户之间所共享的动态信息的多少。
10.一种对账户进行处理的装置,其特征在于,该装置包括:
用于获取模糊处理指示信息的模块;
用于依据所述模糊处理指示信息,对账户进行模糊化处理,以获得保留了账户中部分信息的模糊账户的模块。
11.根据权利要求10所述的装置,其特征在于,所述模糊处理指示信息包括至少一种模糊粒度的模糊化参数;
所述用于依据所述模糊处理指示信息,对账户进行模糊化处理,以获得保留了账户中部分信息的模糊账户的模块,具体用于针对每种模糊粒度,分别对账户进行模糊化处理,以获得每种模糊粒度下的模糊账户。
12.根据权利要求10或11所述的装置,其特征在于,所述模糊处理指示信息包括以下模糊化参数中的至少一种:
用于限定模糊化处理位置、模糊化处理对象和如何模糊化操作的信息。
13.根据权利要求12所述的装置,其特征在于,所述账户包括:账户前缀和账户后缀;
所述模糊化参数用于指示:
模糊掉账户前缀中的所有数字,并保留被模糊掉的数字个数;或者,
模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,需标识模糊掉的部分是数字;或者,
模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,并模糊掉账户前缀中非数字字符中除指定位置处的非数字字符之外的其他非数字字符,并保留被模糊掉的非数字字符的个数;或者,
模糊掉账户前缀中的所有数字,忽略被模糊掉的数字个数,模糊掉账户前缀中非数字字符中除指定位置处的非数字字符之外的其他非数字字符,并忽略被模糊掉的非数字字符的个数;或者,
模糊掉账户前缀中所有字符组合,所述字符组合是指除起分割作用的分割字符之外的其他任意字符的组合,并忽略被模糊掉的字符组合中的字符个数。
14.根据权利要求10或11所述的装置,其特征在于,该装置对所有待识别账户执行所述模糊化处理;该装置还包括:
识别模块,用于对得到的模糊账户进行恶意账户识别,以确定所述待识别账户中的恶意账户。
15.根据权利要求14所述的装置,其特征在于,所述识别模块,具体执行:
对得到的模糊账户进行分组,以将相同或相似的模糊账户分为一组;
按照评测参数,对每组内的模糊账户进行评测,以获得每组对应的评测结果;
确定评测结果满足预设恶意条件的分组所对应的待识别账户为恶意账户。
16.根据权利要求15所述的装置,其特征在于,所述识别模块在对得到的模糊账户进行分组,以将相同或相似的模糊账户分为一组时,具体执行:
根据业务场景,确定目标粒度;
从所述得到的模糊账户中,选出所述目标粒度下的模糊账户;
对所述目标粒度下的模糊账户进行分组,以将相同或相似的模糊账户分为一组。
17.根据权利要求15所述的装置,其特征在于,所述评测参数包括以下至少一个:注册平均时间间隔、注册时间规律、分组内模糊账户的个数、分组的特征、分组的后验概率、静态共享广度指标、动态共享广度指标、静态共享密集度指标和动态共享密集度指标;
其中,所述静态共享广度指标用于表征分组内出现模糊账户之间共享静态信息的情况的多少;
所述动态共享广度指标用于表征分组内出现模糊账户之间共享动态信息的情况的多少;
所述静态共享密集度指标用于表征分组内出现的共享静态信息的模糊账户之间所共享的静态信息的多少;
所述动态共享密集度指标用于表征分组内出现的共享动态信息的模糊账户之间所共享的动态信息的多少。
18.一种设备,包括
存储器,包括一个或者多个程序;
一个或者多个处理器,耦合到所述存储器,执行所述一个或者多个程序,以实现如权利要求1至9任一权项所述方法中执行的操作。
19.一种计算机存储介质,所述计算机存储介质被编码有计算机程序,所述程序在被一个或多个计算机执行时,使得所述一个或多个计算机执行如权利要求1至9任一权项所述方法中执行的操作。
CN201910039740.9A 2014-10-28 2014-10-28 恶意账户识别方法及装置 Active CN110033302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910039740.9A CN110033302B (zh) 2014-10-28 2014-10-28 恶意账户识别方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410588349.1A CN105550175B (zh) 2014-10-28 2014-10-28 恶意账户识别方法及装置
CN201910039740.9A CN110033302B (zh) 2014-10-28 2014-10-28 恶意账户识别方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201410588349.1A Division CN105550175B (zh) 2014-10-28 2014-10-28 恶意账户识别方法及装置

Publications (2)

Publication Number Publication Date
CN110033302A true CN110033302A (zh) 2019-07-19
CN110033302B CN110033302B (zh) 2023-08-04

Family

ID=55829364

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201410588349.1A Active CN105550175B (zh) 2014-10-28 2014-10-28 恶意账户识别方法及装置
CN201910039740.9A Active CN110033302B (zh) 2014-10-28 2014-10-28 恶意账户识别方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201410588349.1A Active CN105550175B (zh) 2014-10-28 2014-10-28 恶意账户识别方法及装置

Country Status (1)

Country Link
CN (2) CN105550175B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110995695A (zh) * 2019-11-29 2020-04-10 字节跳动有限公司 异常账户检测方法及装置、电子设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339615B (zh) * 2016-08-29 2020-06-16 北京红马传媒文化发展有限公司 一种异常注册行为的识别方法、系统及设备
CN106651580B (zh) * 2016-12-15 2020-04-07 北京知道创宇信息技术股份有限公司 判断金融账户是否恶意的方法、设备及计算设备
CN107135195B (zh) * 2017-02-20 2018-06-08 平安科技(深圳)有限公司 异常用户账号的检测方法和装置
CN107392801B (zh) * 2017-07-21 2021-11-23 上海携程商务有限公司 控制扰乱订单的方法及其装置、存储介质、电子设备
CN109426969A (zh) * 2017-08-25 2019-03-05 拓元股份有限公司 网络购票系统
CN109561050B (zh) * 2017-09-26 2021-11-09 武汉斗鱼网络科技有限公司 一种识别批量账号的方法和装置
CN108984721A (zh) * 2018-07-10 2018-12-11 阿里巴巴集团控股有限公司 垃圾账号的识别方法和装置
CN110876072B (zh) * 2018-08-31 2022-02-08 武汉斗鱼网络科技有限公司 一种批量注册用户识别方法、存储介质、电子设备及系统
CN109150894A (zh) * 2018-09-12 2019-01-04 珠海豆饭科技有限公司 一种鉴定恶意用户的方法及系统
CN109978033B (zh) * 2019-03-15 2020-08-04 第四范式(北京)技术有限公司 同操作人识别模型的构建与同操作人识别的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457501A (zh) * 2010-10-26 2012-05-16 腾讯科技(深圳)有限公司 一种即时通讯账户的识别方法及系统
CN103118043A (zh) * 2011-11-16 2013-05-22 阿里巴巴集团控股有限公司 一种用户账号的识别方法及设备
CN103678962A (zh) * 2012-08-30 2014-03-26 腾讯科技(深圳)有限公司 管理个人信息的方法、装置及终端
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2669601B2 (ja) * 1994-11-22 1997-10-29 インターナショナル・ビジネス・マシーンズ・コーポレイション 情報検索方法及びシステム
CN103164416B (zh) * 2011-12-12 2016-08-03 阿里巴巴集团控股有限公司 一种用户关系的识别方法及设备
US9189746B2 (en) * 2012-01-12 2015-11-17 Microsoft Technology Licensing, Llc Machine-learning based classification of user accounts based on email addresses and other account information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457501A (zh) * 2010-10-26 2012-05-16 腾讯科技(深圳)有限公司 一种即时通讯账户的识别方法及系统
CN103118043A (zh) * 2011-11-16 2013-05-22 阿里巴巴集团控股有限公司 一种用户账号的识别方法及设备
CN103678962A (zh) * 2012-08-30 2014-03-26 腾讯科技(深圳)有限公司 管理个人信息的方法、装置及终端
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
方明 等: "一种新型智能僵尸粉甄别方法", 《计算机工程》, vol. 39, no. 4, 15 April 2013 (2013-04-15), pages 190 - 193 *
方明 等: "一种新型智能僵尸粉甄别方法", 《计算机工程》, vol. 39, no. 4, pages 190 - 193 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110995695A (zh) * 2019-11-29 2020-04-10 字节跳动有限公司 异常账户检测方法及装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN105550175B (zh) 2019-03-01
CN110033302B (zh) 2023-08-04
CN105550175A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN105550175B (zh) 恶意账户识别方法及装置
US10785134B2 (en) Identifying multiple devices belonging to a single user
CN105791255B (zh) 基于账户聚类的计算机风险识别方法及其系统
US9509688B1 (en) Providing malicious identity profiles from failed authentication attempts involving biometrics
JP5941163B2 (ja) キャラクター・ストリングの周波数スペクトルを用いるスパム検出のシステムおよび方法
CN109698809B (zh) 一种账号异常登录的识别方法及装置
CN110830445B (zh) 一种异常访问对象的识别方法及设备
CN110224859B (zh) 用于识别团伙的方法和系统
CN104408640B (zh) 应用软件推荐方法及装置
CN107483381B (zh) 关联账户的监控方法及装置
CN108985048B (zh) 模拟器识别方法及相关装置
CN105991620B (zh) 恶意账户识别方法及装置
CN110120928A (zh) 一种身份认证的方法、装置、服务器及计算机可读介质
CN108234454B (zh) 一种身份认证方法、服务器及客户端设备
CN106909619B (zh) 一种基于偏移调节和竞价的混合社交网络聚类方法及系统
CN110445772B (zh) 一种基于主机关系的互联网主机扫描方法及系统
US10462256B2 (en) Comparison of behavioral populations for security and compliance monitoring
CN111612085A (zh) 一种对等组中异常点的检测方法及装置
CN109347785A (zh) 一种终端类型识别方法及装置
CN108040117A (zh) 信息推送方法及装置
Guo et al. Safer: Social capital-based friend recommendation to defend against phishing attacks
EP3451611B1 (en) Method and apparatus for setting mobile device identifier
CN111414528B (zh) 确定设备标识的方法、装置、存储介质及电子设备
WO2012036598A1 (en) Method and arrangement for segmentation of telecommunication customers
CN109587248B (zh) 用户识别方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201014

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201014

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant