一种识别异常账户的方法及装置
技术领域
本发明属于计算机网络安全领域,尤其涉及计算机系统中一种识别异常账户的方法及装置。
背景技术
随着计算机网络技术的发展,用户的网络生活越来越丰富。一般地,单个自然人在网站注册的账户数目不会很多,大部分为1人1账户。少数人由于特殊原因会有2个或以上数量的账户。但是,一些情况下,基于套取营销资源等因素,单个自然人可能在一个网站注册成百上千个账户。因此,有必要采取有效的方法识别这些异常账户,以维护网络环境。
现有技术中,常用的识别异常账户的方法主要有:
采用人工判断的方式,即由工作人员对账户进行逐一人工审核,来确定账户是否存在异常行为。但是,这种采用人工判断的方式成本太高,难以监视并处理大量的异常账户;
或者,以账户作为考察对象,针对每个账户逐一计算一系列特征,最终确定出异常账户。这种对每个账户逐一计算一系列特征的方法由于计算复杂度比较高,会造成计算机的计算速度缓慢。特别是对于一些大型的网站或者网络社区来说,注册账户的数量庞大,确定异常账户所需要的时间比较长。因此,这种方法难以满足实际需求。
发明内容
本发明实施例的目的在于提供一种识别异常账户的方法及装置,以快速的搜寻异常账户。
为解决上述技术问题,本申请实施例提供的一种识别异常账户的方法是这样实现的。
一种识别异常账户的方法,包括:
获取第一时间段内注册账户的数量和注册账户的属性信息;
基于所述第一时间段内注册账户的数量与该第一时间段内具有相同属性信息的账户数量确定第一特征值;
基于第一特征值与预设值判断第一时间段内注册的账户为异常账户。
另一种识别异常账户的方法,包括:
获取第一时间段内和第二时间段内注册账户的数量和注册账户的属性信息;
基于所述第一时间段内注册账户的数量与该第一时间段内具有相同属性信息的账户数量确定第一特征值,基于所述第二时间段内注册账户的数量与该第二时间段内具有相同属性信息的账户数量确定第二特征值;
基于第一特征值与第二特征值判断第一时间段内或第二时间段内注册的账户为作弊账户。
另一种识别异常账户的方法,包括:
获取第一时间段内注册账户的数量和注册账户的属性信息;
在所述第一时间段内,将获得的每一账户的属性信息按照预设分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照预设映射规则计算得到第一特征值;
基于第一特征值与预设值判断第一时间段内注册的账户为异常账户。
另一种识别异常账户的方法,包括:
获取第一时间段内和第二时间段内注册账户的数量和注册账户的属性信息;
在所述第一时间段内,将获得的每一账户的属性信息按照预设分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照预设映射规则计算得到第一特征值;
在所述第二时间段内,将获得的每一账户的属性信息按照预设分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照预设映射规则计算得到第二特征值;
基于第一特征值与第二特征值判断第一时间段内或第二时间段内注册的账户为异常账户。
一种识别异常账户的装置,包括:
第一获取单元,用于获取时间段内注册账户的数量和注册账户的属性信息;
第一计算单元,用于基于时间段内注册账户的数量与具有相同属性信息的账户数量确定特征值;
第一判断单元,用于基于预设值与时间段的特征值判断该时间段内注册的账户为异常账户。
另一种识别异常账户的装置,包括:
第一获取单元,用于获取时间段内注册账户的数量和注册账户的属性信息;
第一计算单元,用于基于时间段内注册账户的数量与具有相同属性信息的账户数量确定特征值;
第二判断单元,用于基于不同时间段的特征值判断时间段内注册的账户为异常账户。
另一种识别异常账户的装置,包括:
第一获取单元,用于获取时间段内注册账户的数量和注册账户的属性信息;
第二计算单元,用于在时间段内,将账户的属性信息按照预设分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照预设映射规则计算得到特征值;
第一判断单元,用于基于预设值与时间段的特征值判断该时间段内注册的账户为异常账户。
另一种识别异常账户的装置,包括:
第一获取单元,用于获取时间段内注册账户的数量和注册账户的属性信息;
第二计算单元,用于在时间段内,将账户的属性信息按照预设分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照预设映射规则计算得到特征值;
第二判断单元,用于基于不同的特征值判断时间段内注册的账户为异常账户。
由以上本申请实施例提供的技术方案可见,本申请实施例的识别异常账户的方法及装置以时间段为考察对象,该时间段内包含了注册账户的属性信息。以账户的属性信息为基础计算时间段的特征值。通过将特征值与预设值进行比较,或者将不同时间段的特征值相互进行比较,根据比较结果判断该时间段内注册的账户为异常账户。与现有技术相比,本申请实施例识别异常账户的方法不需要逐一计算每一账户的特征值,而是计算具有一定账户数量的时间段的特征值,因此能够加快异常账户的搜索速度,快速得到识别结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种识别异常账户的方法的流程图;
图2是本发明实施例另一种识别异常账户的方法的流程图;
图3是本发明实施例另一种识别异常账户的方法的流程图;
图4是本发明实施例另一种识别异常账户的方法的流程图;
图5是本发明实施例另一种识别异常账户的方法的流程图;
图6是本发明实施例另一种识别异常账户的方法的流程图;
图7是本发明实施例另一种识别异常账户的方法的流程图;
图8是本发明实施例另一种识别异常账户的方法的流程图;
图9a是本发明实施例一种识别异常账户的装置的结构示意图;
图9b是本发明实施例另一种识别异常账户的装置的结构示意图;
图9c是本发明实施例另一种识别异常账户的装置的结构示意图;
图9d是本发明实施例另一种识别异常账户的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请一实施例提供的一种识别异常账户的方法,如图1所示。该方法包括:
S101:获取第一时间段内注册账户的数量和注册账户的属性信息。
所述第一时间段内包含注册账户的数量和注册账户的属性信息。所述属性信息包括账户注册的时间以及账户注册时的用户行为习惯数据。
所述第一时间段可以是0.5天、1天或2天等。
所述用户行为习惯数据包括账户注册时的网络地址(IP)、账户注册时所用的机器设备的物理地址(MAC)等数据。
用户的行为一般具有一定的习惯。这些习惯可能受用户的知识结构、生长环境的影响。不同用户的行为习惯具有一定的差异,但是也有一些相同的规律。对于某一时间段内注册账户的用户,可以分析他们的行为习惯。例如可以分析他们注册账户时的网络地址(IP)、注册账户时的机器设备的物理地址(MAC)等。
下面以网络地址为例,说明对用户行为习惯数据进行分析的过程:
一般地,不同地域的用户注册账户时所采用的IP地址是不同的。如果某一时间段内大量账户注册时所采用的IP地址为同一个IP地址,或者为同一个地域范围内的IP地址,那么,该时间段内注册的账户很有可能是由同一个用户注册的。这些由同一个用户在一个时段内大量注册的账户为异常账户。并且通常情况下,这些异常账户为作弊账户。这是因为,涉嫌作弊的用户通常会在比较短的时间之内注册大量的账户,这些在较短时间内注册的账户往往都具有相同的行为习惯(例如相同或相近的IP地址)。
S102:获取第一时间段内具有相同属性信息的账户数量,根据第一时间段内注册账户的数量和具有相同属性信息的账户数量确定第一特征值。
所述获取第一时间段内具有相同属性信息的账户数量包括:
获取第一时间段内注册时具有相同或相近IP地址的账户数量;
获取第一时间段内注册时具有相同物理地址(MAC)的账户数量。
所述确定第一特征值的方法有多种,例如可以是:
获取第一时间段内注册账户的数量和具有相同属性信息的账户数量的比值,将所述比值作为第一特征值。
获取第一时间段内注册账户的数量和具有相同属性信息的账户数量的差值,将所述差值作为第一特征值。
获取第一时间段内注册账户的数量和具有相同属性信息的账户数量的差值,再获取该差值与第一时间段内注册账户数量的比值,将该比值作为第一特征值。
下面以网络地址为例,说明确定第一特征值的过程。IP地址包括IPV4地址和IPV6地址,以下的叙述以IPV4地址为例,IPV6地址的确定过程与IPV4地址相类似。
IPV4地址通常是一个32位的二进制数,一般被分割为4个8位二进制数(也就是4个字节),即通常被分为4段,每段是1个8位二进制数。考虑到全部4段IP地址所确定的地域范围过于精细。因此在本实施例中,优选IPV4地址的前三段作为账户注册时的属性信息。这样,通过前三段IPV4地址确定的地域范围不会太小也不会太大。合理地理区域内用户注册的账户不会被误判为异常账户,而在该区域内大量注册的账户将会被判定为异常账户。对于第一时间段,首先统计该时间段内注册的账户个数;然后再统计该时间段内注册时具有相同IPV4前3段地址的账户个数;最后获取该时间段内注册的账户个数与具有相同IPV4前3段地址的账户个数的比值,即比值等于具有相同IPV4前3段地址的账户个数/注册的账户总个数。将该比值作为第一特征值。
S103:基于第一特征值与预设值判断第一时间段内注册的账户为异常账户。
在某些实施方式中,所述预设值为经验值,或者可以通过机器学习得到。
在另一些实施方式中,所述预设值通过计算得到。具体可以是如下的计算过程:
所述第一时间段一般是从一个包括第一时间段的更大的时间段中分割出来的,把该包括第一时间段的更大的时间段标记为第二时间段。在第二时间段中,基于第二时间段内注册账户的数量与该时间段内具有相同属性信息的账户数量得到一个数值。因为该数值是基于包含更多账户数量的时间段得到的,因此具有一定的参考意义。可以将该数值作为参考标准,即将该数值作为预设值。
所述基于第一特征值与预设值判断第一时间段内注册的账户为异常账户的方法有多种,例如可以是:
当第一特征值大于或等于预设值时,判断第一时间段内注册的账户为异常账户。
当第一特征值小于预设值时,判断第一时间段内注册的账户为异常账户。
当第一特征值大于或等于预设值的80%(还可以是其它百分数)时,判断第一时间段内注册的账户为异常账户。
在另一个实施例中,与图1所对应的实施例相比,该实施例的识别异常账户的方法包括以等时间间隔对第一时间段进行分段的过程。如图2所示,包括:
S201:获取第一时间段内注册账户的数量和注册账户的属性信息。
所述属性信息包括账户注册的时间以及账户注册时的用户行为习惯数据。
S202:获取第一时间段内注册时具有相同属性信息的账户数量,根据第一时间段内注册账户的数量和注册时具有相同属性信息的账户数量确定第一特征值。
S203:将第一时间段按照预设的第一时间间隔进行分段,基于注册时间将第一时间段内注册的账户划分到不同的分段时间段内。
所述基于注册时间将第一时间段内注册的账户划分到不同的时间段内,一般是指,将第一时间段内注册的账户划分到注册时间所属的时间段。
所述第一时间间隔包括但不限于30分钟、1小时、2小时、3小时等。所述第一时间间隔小于第一时间段。选取的第一时间间隔应该是一个合理的时间段。若第一时间间隔过小,则按照第一时间间隔分割后的时间段的数量过多,从而使得整个识别方法的计算时间增大;若第一时间间隔过大,远超合理情况下涉嫌作弊用户注册大量账户所需的时间,则识别方法将无法有效的识别出这些账户,将遗漏大量的异常账户。
所述将第一时间段内注册的账户划分到不同的分段时间段内,包括:将第一时间段内注册的账户ID(Identity,身份标识号码)、账户邮箱、账户手机号、账户昵称等划分到不同的分段时间段内。
在某些实施方式中,可以首先将第一时间段内的账户按照注册时间排列,然后将第一时间段按照预设的第一时间间隔进行分段,从而将第一时间段内注册的账户划分到不同的分段时间段内。
S204:在分段后的每一时间段中,基于该时间段内注册账户的数量与该时间段内具有相同属性信息的账户数量确定第二特征值。
下面以网络地址为例,说明确定分段后每一时间段的第二特征值的过程:
在分段后的每一时间段中,首先统计该时间段内注册的账户个数;然后再统计该时间段内注册时具有相同IPV4前3段地址的账户个数:最后获取该时间段内注册的账户个数与具有相同IPV4前3段地址的账户个数的比值。即比值等于具有相同IPV4前3段地址的账户个数/注册的账户总个数;将该比值作为该时间段的第二特征值。
S205:基于第一特征值筛选分段后的时间段。
所述基于第一特征值筛选分段后的时间段的方法有多种,例如可以是:
将比第一特征值大的第二特征值所对应的分段后的时间段筛选出来;
将比第一特征值小的第二特征值所对应的分段后的时间段筛选出来;
将大于第一特征值某一倍数(如大于第一特征值的2倍)的第二特征值所对应的分段后的时间段筛选出来。
S206:将筛选出的分段时间段内注册的账户标记为异常账户。
由于基于第一特征值筛选出的分段时间段可以是1个,也可以是多个。因此,标记为异常账户的时间段可以是1个,也可以是多个。
通常情况下,可以将所述异常账户作为作弊账户。对于筛选出的分段时间段,该时间段内注册的账户中作弊账户占绝大多数比例,但仍然存在一些正常的账户。因此在一些实施方式中,可以补充采用人工判断的方法或者其它方法精确定位出作弊账户。
在某些实施方式中,在步骤S205之后,还包括如下循环分段的过程:
将经过步骤S205筛选出的分段时间段标记为时间段1。将时间段1按照预设的第二时间间隔进行分段,并将分段后的时间段标记为时间段1′。基于注册时间将时间段1内注册的账户划分到不同的时间段1′内。
对于每一个时间段1′,基于该时间段内注册账户的数量与该时间段内具有相同属性信息的账户数量确定第三特征值。
基于第一特征值对时间段1′进行筛选。将筛选出的时间段1′标记为时间段2。将时间段2内注册的账户标记为异常账户。
当然,为了进一步精细化处理,可以不将时间段2内注册的账户标记为异常账户,而是将时间段2进一步进行分段,确定进一步分段后的每一时间段的类似特征值。进而可以基于第一特征值筛选进一步分段后的各个时间段,将筛选出的进一步分段后的时间段内注册的账户标记为异常账户。可见,根据精度要求,可以嵌套多重分段、确定特征值和筛选时间段的过程。
至于嵌套的次数,需要考虑划分后的时间段内注册的账户个数还能否带来统计意义上的切割,以决定是否继续进行分段。如当筛选出的时间段内注册的账户个数小于预置数值时,则停止对筛选出的时间段进行分段。因为此时筛选出的时间段内注册账户的数量已经很少了,因而该时间段内注册账户的数量具有很大的随机性,据此计算得到的结果不具有实际的参考意义。预置数值的大小根据识别速度和识别精度的要求合理设置。例如,预置数值可以是10或5或其它任何合适的数值。
所述第一时间间隔、第二时间间隔以及之后嵌套分段的时间间隔是依次减小的关系,具体减小的幅度根据识别速度和识别精度的要求综合考虑。例如第一时间间隔是1个小时、第二时间间隔是30分钟等。
图2所对应实施例的识别方法将第一特征值作为参考标准,对第一时间段进行等时间间隔分段后,基于第一特征值对分段后的每一时间段进行筛选,将筛选出的时间段内注册的账户标记为异常账户。
在另一个实施例中,与图1和图2所对应的实施例相比,该实施例中识别异常账户的方法可以不需要参考标准。如图3所示,包括:
S301:获取第一时间段内和第二时间段内注册账户的数量和注册账户的属性信息。
所述第一时间段和所述第二时间段一般具有相同的时间长度。
S302:获取第一时间段内具有相同属性信息的账户数量,根据第一时间段内注册账户的数量和具有相同属性信息的账户数量确定第一特征值。获取第二时间段内具有相同属性信息的账户数量,根据第二时间段内注册账户的数量和具有相同属性信息的账户数量确定第二特征值。
S303:基于第一特征值与第二特征值判断第一时间段内或第二时间段内注册的账户为异常账户。
所述基于第一特征值与第二特征值判断第一时间段内或第二时间段内注册的账户为异常账户的方法有多种,例如可以是:
当第一特征值大于或等于第二特征值时,判断第一时间段内注册的账户为异常账户;
当第一特征值小于第二特征值时,判断第二时间段内注册的账户为异常账户;
当第一特征值大于或等于第二特征值的80%(还可以是其它百分数)时,判断第一时间段内注册的账户为异常账户。
在另一个实施例中,与图3所对应的实施例相类似,该实施例中识别异常账户的方法也可以不需要参考标准。如图4所示,包括:
S401:获取第一时间段内注册账户的数量和注册账户的属性信息。
所述属性信息包括账户注册的时间以及账户注册时的用户行为习惯数据。
S402:将第一时间段按照预设的第一时间间隔进行分段,基于注册时间将第一时间段内注册的账户划分到不同的分段时间段内。
S403:在分段后的每一时间段中,基于该时间段内注册账户的数量与该时间段内具有相同属性信息的账户数量确定第二特征值。
S404:基于各个分段时间段的第二特征值筛选分段时间段。
所述基于各个时间段的第二特征值筛选分段后的时间段的方法有多种,例如可以是:
筛选出具有最大第二特征值的分段时间段;
将各个分段时间段的第二特征值进行排序,筛选出前两个具有较大第二特征值的分段时间段。
S405:将筛选出的分段时间段内注册的账户标记为异常账户。
通常情况下,可以将所述异常账户作为作弊账户。对于筛选出的分段时间段,该时间段内注册的账户中作弊账户占绝大多数比例,但仍然存在一些正常的账户。因此在一些实施方式中,可以补充采用人工判断的方法或者其它方法精确定位出作弊账户。
在某些实施方式中,在步骤S404之后,还包括如下循环分段的过程:
将经过步骤S404筛选出的分段时间段标记为时间段1。将时间段1按照预设的第二时间间隔进行分段,并将分段后的时间段标记为时间段1′。基于注册时间将时间段1内注册的账户划分到不同的时间段1′内。
对于每一个时间段1′,基于该时间段内注册账户的数量与该时间段内具有相同属性信息的账户数量确定第三特征值。
基于各个时间段1′的第三特征值,对时间段1′进行筛选。将筛选出的时间段1′标记为时间段2。将时间段2内注册的账户标记为异常账户。
当然,为了进一步精细化处理,可以不将时间段2内注册的账户标记为异常账户,而是将时间段2进一步进行分段,确定进一步分段后的每一时间段的类似特征值。进而可以基于类似特征值筛选进一步分段后的各个时间段,将筛选出的进一步分段后的时间段内注册的账户标记为异常账户。可见,根据精度要求,可以嵌套多重分段、确定特征值和筛选时间段的过程。
在另一个实施例中,与图1、图2、图3、图4所对应的实施例不同,该实施例中识别异常账户的方法包括分类规则和映射规则。如图5所示,包括:
S501:获取第一时间段内注册账户的数量和注册账户的属性信息。
所述属性信息包括账户注册的时间以及账户所对应的用户行为习惯数据。
所述第一时间段可以是0.5天、1天或2天等。
所述用户行为习惯数据包括账户注册时的数据和账户交易时的数据。账户注册时的数据包括邮箱命名习惯、账户ID、注册时间、证件号码出现的次数、用户名长、用户名组合形式、用户名组合顺序、用户名组合的长度、用户名中数字串出现的次数、用户名中字母串出现的次数、用户名中符号串出现的次数、密码查询的次数等;账户交易时的数据包括交易笔数、交易金额、交易对象、交易来源、交易创建时间、付款时间、付款对方数等。
S502:在第一时间段内,将账户的属性信息按照预设分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照预设映射规则计算得到第一特征值。
对账户的属性信息进行统计分析之后,设计了分类规则。分类规则是与属性信息相关联的,针对不同的属性信息定义不同的分类规则。所定义的分类规则能够包括用户实施某一行为时(例如注册账户时)所有可能会用到的方式。通常情况下,对于统计学意义上来讲,实施某一行为的某类方式在实施该行为的所有方式中所占的比例是固定不变的,或者只会发生很小的变化。当在某一个具体时间内,某类方式在实施该行为的所有方式中所占的比重严重偏高或偏低,则就有理由怀疑该行为是由同一个用户所做出的,由此判断该时间段内由该用户注册的账户为异常账户。
为了便于分析比较,根据分类规则,设计了与其相匹配的映射规则。将获取的账户的属性信息按照分类规则分类后,计算分入每一分类中的账户数。将计算得到的每一分类中的账户数作为输入参数,经由预设映射规则计算得到特征值。
下面以账户注册时的ID(身份识别号码)为例,说明计算第一特征值的过程:
一般情况下,账户ID中字符串组合的次数是指不连续的字符串出现的次数,所述字符串包括大小写字符组成的组合。如用户名tang1bo23_hu1,出现的字符串的次数是3,字符串分别为tang、bo和hu,这3个字符串不连续。再比如,用户名是tangbo23_hu1,则出现的字符串的次数为2,不连续的字符串为tangbo和hu。在一个模拟实验中,通过对所有已注册账户的ID进行统计分析,得到如下结论:账户ID可以分为3类,即字符串组合1次及以下的账户ID(称为ID_1类)、字符串组合2次的账户ID(称为ID_2类)和字符串组合3次及以上的账户ID(称为ID_3类),其中,ID_1类所占的比例为80%左右,ID_2类所占的比例为15%左右,ID_3类所占的比例为5%左右。将上述模拟实验中得到的数值作为参考标准,可以构造身份识别号码(账户ID)映射规则,具体计算方法包括:针对某一个时间段,计算ID_1类、ID_2类和ID_3类的账户在该时间段内注册的总账户数量中所占的比例。如上述3类账户所占的比例分别为x、y和z,3类账户的计算值与参考标准值的差值取绝对值后再除以该参考标准值,然后相加,即,(︱x-80%︱/80%)+(︱y-15%︱/15%)+(︱z–5%︱/5%)。将该身份识别号码映射规则的计算结果作为第一特征值。
下面再以账户5元以下交易金额的笔数为例,说明计算第一特征值的过程:
在一个模拟实验中,通过对所有已注册账户5元以下交易金额的笔数进行分析,可以得到如下结论:账户5元以下交易金额的笔数可以分为5类,即,五元以下的交易笔数为0的账户(称为T5_1类)、五元以下的交易笔数为1笔的账户(称为T5_2类)、五元以下的交易笔数为2笔的账户(称为T5_3类)、五元以下的交易笔数为3-6笔的账户(称为T5_4类)、五元以下的交易笔数为6笔以上的账户(称为T5_5类)。以上5类账户在总的注册账户中所占的比例分别为40%、10%、10%、10%、30%。将上述模拟实验中得到的数值作为参考标准值,可以构造账户的交易金额笔数映射规则,具体计算方法包括:针对某一个时间段,计算T5_Ⅰ类、T5_2类、T5_3类、T5_4类、T5_5类的账户在该时间段内注册的总账户数量中所占的比例。如上述5类账户所占的比例分别为a、b、c、d和e,5类账户的计算值与参考标准值的差值取绝对值后再除以该参考标准值,然后相加,即,(︱a–40%︱/40%)+(︱b–10%︱/10%)+(︱c–10%︱/10%)+(︱d–10%︱/10%)+(︱e–30%︱/30%)。将该账户5元交易映射规则的计算结果作为第一特征值。
S503:基于第一特征值与预设值判断第一时间段内注册的账户为异常账户。
基于第一特征值与预设值判断第一时间段内注册的账户为异常账户的过程可以参考步骤S103中的叙述。
在另一个实施例中,与图5所对应的实施例相比,该实施例的识别异常账户的方法包括以等时间间隔对第一时间段进行分段的过程。如图6所示,包括:
S601:获取第一时间段内注册账户的数量和注册账户的属性信息。
所述属性信息包括账户注册的时间以及账户所对应的用户行为习惯数据。
S602:将获得的注册账户的属性信息按预设分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照预设映射规则计算得到第一特征值。
S603:将第一时间段按照预设的第一时间间隔进行分段,基于注册时间将第一时间段内注册的账户划分到不同的分段时间段内。
S604:在分段后的每一时间段中,将该时间段内账户的属性信息按照所述分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照所述映射规则计算得到第二特征值。
下面以账户注册时的ID为例,说明确定分段后每一时间段的第二特征值的过程:
在分段后的每一时间段中,将该时间段内账户注册时的ID分为ID_1类、ID_2类和ID_3类。分别统计该时间内所注册的账户分入ID_1类、ID_2类和ID_3类中数量,通过账户ID映射规则计算得到第二特征值。
下面再以账户5元以下交易金额的笔数为例,说明确定分段后每一时间段的第二特征值的过程:
在分段后的每一时间段中,将该时间段内账户5元以下交易金额的笔数分为T5_1类、T5_2类、T5_3类、T5_4类和T5_5类。分别统计该时间内所注册的账户分入T5_1类、T5_2类、T5_3类、T5_4类和T5_5类中的数量,通过账户的交易金额映射规则计算得到第二特征值。
S605:基于第一特征值筛选分段后的时间段。
S606:将筛选出的分段时间段内注册的账户标记为异常账户。
由于基于第一特征值筛选出的分段时间段可以是1个,也可以是多个。因此,标记为异常账户的时间段可以是1个,也可以是多个。
通常情况下,可以将所述异常账户作为作弊账户。对于筛选出的分段时间段,该时间段内注册的账户中作弊账户占绝大多数比例,但仍然存在一些正常的账户。因此在一些实施方式中,可以补充采用人工判断的方法或者其它方法精确定位出作弊账户。
在某些实施方式中,在步骤S605之后,还包括如下循环分段的过程:
将经过步骤S605筛选出的分段时间段标记为时间段1。将时间段1按照预设的第二时间间隔进行分段,并将分段后的时间段标记为时间段1′。基于注册时间将时间段1内注册的账户划分到不同的时间段1′内。
对于每一个时间段1′,将该时间段内账户的属性信息按照所述分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照所述映射规则计算得到第三特征值。
基于第一特征值对时间段1′进行筛选。将赛选出的时间段1′标记为时间段2。将时间段2内注册的账户标记为异常账户。
当然,为了进一步精细化处理,可以不将时间段2内注册的账户标记为作弊账户,而是将时间段2进一步进行分段,计算进一步分段后的每一时间段的类似特征值,进而可以基于第一特征值筛选进一步分段后的各个时间段,将筛选出的进一步分段后的时间段内注册的账户标记为异常账户。可见,根据精度要求,可以嵌套多重分段、计算特征值和筛选时间段的过程。
在另一个实施例中,与图5和图6所对应的实施例相比,该实施例中识别异常账户的方法可以不需要参考标准。如图7所示,包括:
S701:获取第一时间段内和第二时间段内注册账户的数量和注册账户的属性信息。
所述第一时间段和所述第二时间段一般具有相同的时间长度。
S702:在所述第一时间段内,将账户的属性信息按照预设分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照预设映射规则计算得到第一特征值。
S703:在所述第二时间段内,将账户的属性信息按照所述分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照所述映射规则计算得到第二特征值。
步骤S702与步骤S703可以先后执行,也可以并行执行。
S704:基于第一特征值与第二特征值判断第一时间段内或第二时间段内注册的账户为异常账户。
在另一个实施例中,与图7所对应的实施例相类似,该实施例中识别异常账户的方法也可以不需要参考标准。如图8所示,包括:
S801:获取第一时间段内注册账户的数量和注册账户的属性信息。
所述属性信息包括账户注册的时间以及账户所对应的用户行为习惯数据。
S802:将第一时间段按照预设的第一时间间隔进行分段,基于注册时间将第一时间段内注册的账户划分到不同的分段时间段内。
S803:在分段后的每一时间段中,将该时间段内账户的属性信息按照预设分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照预设映射规则计算得到第二特征值。
S804:基于各个分段时间段的第二特征值筛选分段时间段。
S805:将筛选出的分段时间段内注册的账户标记为异常账户。
通常情况下,可以将所述异常账户作为作弊账户。对于筛选出的分段时间段,该时间段内注册的账户中作弊账户占绝大多数比例,但仍然存在一些正常的账户。因此在一些实施方式中,可以补充采用人工判断的方法或者其它方法精确定位出作弊账户。
在某些实施方式中,在步骤S804之后,还包括如下的循环分段的过程:
将经过步骤S804筛选出的分段时间段标记为时间段1。将时间段1按照预设的第二时间间隔进行分段,并将分段后的时间段标记为时间段1′。基于注册时间将时间段1内注册的账户划分到不同的时间段1′内。
对于每一个时间段1′,将该时间段内账户的属性信息按照所述分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照所述映射规则计算得到第三特征值。
基于各个时间段1′的第三特征值,对时间段1′进行筛选。将筛选出的时间段1′标记为时间段2。将时间段2内注册的账户标记为异常账户。
当然,为了进一步精细化处理,可以不将时间段2内注册的账户标记为异常账户,而是将时间段2进一步进行分段,确定进一步分段后的每一时间段的类似特征值。进而可以基于类似特征值筛选进一步分段后的各个时间段,将筛选出的进一步分段后的时间段内注册的账户标记为异常账户。可见,根据精度要求,可以嵌套多重分段、确定特征值和筛选时间段的过程。
以上实施例所提供的识别异常账户的方法,以时间段为考察对象,该时间段内包含了账户的属性信息。然后以账户的属性信息为基础计算时间段的特征值。通过将特征值与预设值进行比较,或者将不同时间段的特征值相互进行比较,根据比较结果判断该时间段内注册的账户为异常账户。与现有技术相比,本申请实施例的识别异常账户的方法不需要依次计算每一账户的一系列特征值,而是以时间段为单位计算特征值,因此能够加快异常账户的搜索速度,快速的得到识别结果。其中,所述属性信息不仅包括了账户注册时的数据,如账户注册时的网络地址(IP)、账户注册时所用的机器设备的物理地址(MAC)、账户ID、邮箱命名习惯等;所述属性信息还包括了账户的其它数据,如账户交易时的数据等。
需要说明的是,通常情况下,可以将所述异常账户作为作弊账户。因此以上实施例所提供的识别异常账户的方法同样适用于识别作弊账户。
本申请实施例还提供了识别异常账户的装置。
本申请实施例提供的一种识别异常账户的装置。如图9a所示,该装置包括:第一获取单元901、第一计算单元902、第一判断单元903,其中,
第一获取单元901,用于获取时间段内注册账户的数量和注册账户的属性信息;
第一计算单元902,用于基于时间段内注册账户的数量和具有相同属性信息的账户数量确定特征值;
第一判断单元903,用于基于预设值与时间段的特征值判断该时间段内注册的账户为异常账户。
本申请实施例提供的另一种识别异常账户的装置。如图9b所示,该装置包括:第一获取单元901、第一计算单元902、第二判断单元904,其中,
第二判断单元904,用于基于不同时间段的特征值判断时间段内注册的账户为异常账户。
本申请实施例提供的另一种识别异常账户的装置。如图9c所示,该装置包括:第一获取单元901、第二计算单元905、第一判断单元903,其中,
第二计算单元905,用于在时间段内,将账户的属性信息按照预设分类规则分类,并计算分入每一分类中的账户数,将每一分类中的账户数按照预设映射规则计算得到特征值。
本申请实施例提供的另一种识别作弊账户的装置。如图9d所示,该装置包括:第一获取单元901、第二计算单元905、第二判断单元904。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列(FPGA)或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电脑、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。