CN111931047A

CN111931047A - 基于人工智能的黑产账号检测方法及相关装置

Info

Publication number: CN111931047A
Application number: CN202010760994.2A
Authority: CN
Inventors: 孙家棣; 马宁
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-13
Anticipated expiration: 2040-07-31
Also published as: CN111931047B

Abstract

本申请是关于一种基于人工智能的黑产账号检测方法及相关装置，属于人工智能技术领域，该方法包括：获取目标主体所关联用户账号的账号属性数据集；从第一数据集及第二数据集中分别获取待检测字段的字段数据所对应手机号的第一平均个数及第二平均个数，并将第一平均个数小于第二平均个数的待检测字段确定为检测字段；将检测字段的字段数据作为连接边，并将手机号作为顶点，构建账号检测图；基于账号检测图中第一类型字段的字段数据对账号检测图进行图聚类，得到账号聚类簇，所述第一类型字段指示账号登录地址相关字段；基于第二类型字段的字段数据验证账号聚类簇是否异常。本申请有效提升黑产账号检测准确性及可靠性。

Description

基于人工智能的黑产账号检测方法及相关装置

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种基于人工智能的黑产账号检测方法及相关装置。

背景技术

一般地，黑产，指以互联网为媒介，以网络技术为主要手段，为计算机信息系统安全和网络空间管理秩序，甚至国家安全、社会政治稳定带来潜在威胁(重大安全隐患)的非法行为。例如，黑产可以通过模拟器模拟出大量手机设备伪装真实用户账号进行刷量。

随着技术的进步，黑产攻击已经成为各大公司非常重视的问题，无时无刻不在面临着黑产的攻击。黑产无论是如何变现，都需要先注册大量的虚假账号，以量攻击。

目前，业务风险识别需要打击黑产的行为，识别打击虚假黑产账号。业内目前主要是通过专家经验规则来识别和打击虚假账号。专家规则识别面比较单一，比较窄，主要是定向精准识别和打击，因为逻辑较简单，容易被黑产行为识别和绕过。

发明内容

本申请的目的在于提供一种基于人工智能的黑产账号检测方案，进而至少在一定程度上有效提升黑产账号检测的准确性及可靠性。

根据本申请的一个方面，提供一种基于人工智能的黑产账号检测方法，包括：

获取目标主体所关联用户账号的账号属性数据集，所述账号属性数据集中包括第一数据集及第二数据集，所述第一数据集属于白名单用户账号，所述第二数据集属于待检测用户账号；

从所述第一数据集中获取待检测字段的字段数据所对应手机号的第一平均个数，及从所述第二数据集中获取所述待检测字段的字段数据所对应手机号的第二平均个数，并将所述第一平均个数小于所述第二平均个数的待检测字段确定为检测字段；

将所述检测字段在所述账号属性数据集中的字段数据作为连接边，并将所述检测字段的字段数据所对应手机号作为顶点，构建账号检测图；

基于所述账号检测图中第一类型字段的字段数据对所述账号检测图进行图聚类，得到账号聚类簇，所述第一类型字段指示账号登录地址相关字段；

基于所述账号聚类簇中第二类型字段的字段数据，验证所述账号聚类簇是否异常，以识别出异常账号团伙，所述第二类型字段为除所述第一类型字段之外的其它字段。

在本申请的一种示例性实施方式中，从所述第一数据集中获取待检测字段的字段数据所对应手机号的第一平均个数，及从所述第二数据集中获取所述待检测字段的字段数据所对应手机号的第二平均个数，包括：

获取所述第一数据集中所述待检测字段的所有所述字段数据对应的第一手机号个数之和，并获取所述第二数据集中所述待检测字段的所有所述字段数据对应的第二手机号个数之和；

计算所述第一数据集中所述待检测字段的所有所述字段数据的第一字段数据个数，并计算所述第二数据集中所述待检测字段的所有所述字段数据的第二字段数据个数；

利用所述第一手机号个数之和除以所述第一字段数据个数得到所述第一平均个数，并利用所述第二手机号个数之和除以所述第二字段数据个数得到所述第二平均个数。

在本申请的一种示例性实施方式中，所述获取所述第二数据集中所述待检测字段的所有所述字段数据对应的第二手机号个数之和，包括：

获取所述第二数据集中所述待检测字段的每个所述字段数据对应的第二手机号个数，并根据所述第二手机号个数将所述待检测字段的每个所述字段数据按照由大到小的顺序排序，得到字段数据序列；

将所述字段数据序列中预定比例个位于首尾两端的字段数据剔除，得到字段剩余的字段数据，并获取所述剩余的字段数据对应的手机号个数之和，作为所述第二手机号个数之和；

所述计算所述第二数据集中所述待检测字段的所有所述字段数据的第二字段数据个数，包括：

计算所述第二数据集中所述待检测字段的所述剩余的字段数据的个数之和，作为所述第二字段数据个数。

在本申请的一种示例性实施方式中，所述将所述检测字段在所述账号属性数据集中的字段数据作为连接边，并将所述检测字段的字段数据所对应手机号作为顶点，构建账号检测图，包括：

获取所述检测字段中的指纹型字段和类别型字段，所述指纹型字段至少包括登录设备标识、登录密码和登录设备开机时间，所述类别型字段至少包括登录设备机型、系统版本、设备总存储空间、登录网络地址、无线网卡的物理地址；

从所述账号属性数据集中获取字段数据组合作为连接边，并将所述字段数据组合对应的手机号作为顶点构建账号检测图，所述字段数据组合包括第一预定数目个所述指纹型字段的组合所对应数据及第二预定数目个所述类别型字段的组合所对应数据。

在本申请的一种示例性实施方式中，所述从所述账号属性数据集中获取字段数据组合作为连接边，包括：

获取第一预定数目个所述指纹型字段的组合在所述账号属性数据集中的第一字段数据组合；

从所述第一数据集中，获取第二预定数目个所述类别型字段的组合的第三字段数据组合及所述第三字段数据组合对应的第三手机号个数；

从所述第二数据集中，获取第二预定数目个所述类别型字段的组合的第三字段数据组合及所述第三字段数据组合对应的第四手机号个数；

获取小于第一比较值的所述第三手机号个数所对应第三字段数据组合、大于第二比较值的所述第四手机号个数所对应所述第三字段数据组合及所述第一字段数据组合作为连接边。

在本申请的一种示例性实施方式中，所述基于所述账号检测图中第一类型字段的字段数据对所述账号检测图进行图聚类，得到账号聚类簇，包括：

基于第一类型字段的字段数据，对所述账号检测图利用Connected Component算法进行图聚类处理，得到多个账号群体；

从所述多个账号群体中，获取包含手机号个数大于等于预定个数且关联于同一登录网络地址的账号群体，得到第一账号群体组合；

从所述多个账号群体中，获取包含手机号个数大于等于所述预定个数且关联于同一无线网卡的物理地址的账号群体，得到第二账号群体组合；

将所述第一账号群体组合及所述第二账号群体组合确定为所述账号聚类簇。

在本申请的一种示例性实施方式中，所述基于所述账号聚类簇中第二类型字段的字段数据，验证所述账号聚类簇是否异常，以识别出异常账号团伙，包括：

获取预设验证表，所述验证表中存储所述第二类型字段的字段数据的验证策略，所述验证策略指示所述第二类型字段的字段数据的异常情况；

根据所述验证策略，验证所述账号聚类簇的第二类型字段的字段数据是否异常，以识别出异常账号聚类簇作为所述异常账号团伙。

根据本申请的一个方面，一种基于人工智能的黑产账号检测装置，其特征在于，包括：

获取模块，用于获取目标主体所关联用户账号的账号属性数据集，所述账号属性数据集中包括第一数据集及第二数据集，所述第一数据集属于白名单用户账号，所述第二数据集属于待检测用户账号；

确定模块，用于从所述第一数据集中获取待检测字段的字段数据所对应手机号的第一平均个数，及从所述第二数据集中获取所述待检测字段的字段数据所对应手机号的第二平均个数，并将所述第一平均个数小于所述第二平均个数的待检测字段确定为检测字段；

构建模块，用于将所述检测字段在所述账号属性数据集中的字段数据作为连接边，并将所述检测字段的字段数据所对应手机号作为顶点，构建账号检测图；

聚类模块，用于基于所述账号检测图中第一类型字段的字段数据对所述账号检测图进行图聚类，得到账号聚类簇，所述第一类型字段指示账号登录地址相关字段；

验证模块，用于基于所述账号聚类簇中第二类型字段的字段数据，验证所述账号聚类簇是否异常，以识别出异常账号团伙，所述第二类型字段为除所述第一类型字段之外的其它字段。

根据本申请的一个方面，提供一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现上述任一项所述的方法。

根据本申请的一个方面，提供一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的程序指令；其中，所述处理器配置为经由执行所述程序指令来执行上述任一项所述的方法。

本申请一种基于人工智能的黑产账号检测方法及相关装置。

首先，获取目标主体所关联用户账号的账号属性数据集，账号属性数据集中包括第一数据集及第二数据集，其中，第一数据集属于白名单用户账号，第二数据集属于待检测用户账号；然后，从第一数据集中获取待检测字段字段的数据所对应手机号的第一平均个数，及从第二数据集中获取待检测字段的字段数据所对应手机号的第二平均个数，并将第一平均个数小于第二平均个数的待检测字段确定为检测字段。

这样可以基于正常的第一数据集作为待检测的第二数据集的对照，同时，通过两种数据集中待检测字段字段的数据所对应手机号的个数的对照，准确筛选出具有风险的检测字段，在后续步骤进行检测，减少数据量的同时提升检测精准性。

然后，将检测字段在账号属性数据集中的字段数据作为连接边，并将检测字段的字段数据所对应手机号作为顶点，构建账号检测图；及基于账号检测图中第一类型字段的字段数据对账号检测图进行图聚类，得到账号聚类簇，第一类型字段指示账号登录地址相关字段。

这样可以基于构建账号检测图构建出账号的关系网，并基于账号登录地址相关字段进行账号的聚类，得到账号登录地址相似的账号聚类簇。

最后，基于账号聚类簇中第二类型字段的字段数据，验证账号聚类簇是否异常，以识别出异常账号团伙，第二类型字段为除第一类型字段之外的其它字段。

这样验证用的第二类型字段与图聚类的第一类型字段严格划分，有效避免过拟合。可以在在图聚类后，进一步基于账号聚类簇的账号团伙自身内部统计特征，验证团伙是否异常。

通过账号属性数据集的对照筛选检测字段、账号检测图的构建、账号登录地址相似账号的聚类以及团伙内字段数据进一步的验证，实现黑产账号多层级的精准检测处理，有效避免黑产行为识别和绕过，进而有效提升黑产账号检测的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出一种基于人工智能的黑产账号检测方法的流程图。

图2示意性示出一种基于人工智能的黑产账号检测方法的应用场景示例图。

图3示意性示出一种获取待检测字段的字段数据所对应手机号的个数平均数的方法流程图。

图4示意性示出一种基于人工智能的黑产账号检测装置的方框图。

图5示意性示出一种用于实现上述基于人工智能的黑产账号检测方法的电子设备示例框图。

图6示意性示出一种用于实现上述基于人工智能的黑产账号检测方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本申请的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。

此外，附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了基于人工智能的黑产账号检测方法，该基于人工智能的黑产账号检测方法可以运行于服务器，也可以运行于服务器集群或云服务器等，当然，本领域技术人员也可以根据需求在其他平台运行本发明的方法，本示例性实施例中对此不做特殊限定。参考图1所示，该基于人工智能的黑产账号检测方法可以包括以下步骤：

步骤S110，获取目标主体所关联用户账号的账号属性数据集，所述账号属性数据集中包括第一数据集及第二数据集，所述第一数据集属于白名单用户账号，所述第二数据集属于待检测用户账号；

步骤S120，从所述第一数据集中获取待检测字段的字段数据所对应手机号的第一平均个数，及从所述第二数据集中获取所述待检测字段的字段数据所对应手机号的第二平均个数，并将所述第一平均个数小于所述第二平均个数的待检测字段确定为检测字段；

步骤S130，将所述检测字段在所述账号属性数据集中的字段数据作为连接边，并将所述检测字段的字段数据所对应手机号作为顶点，构建账号检测图；

步骤S140，基于所述账号检测图中第一类型字段的字段数据对所述账号检测图进行图聚类，得到账号聚类簇，所述第一类型字段指示账号登录地址相关字段；

步骤S150，基于所述账号聚类簇中第二类型字段的字段数据，验证所述账号聚类簇是否异常，以识别出异常账号团伙，所述第二类型字段为除所述第一类型字段之外的其它字段。

上述基于人工智能的黑产账号检测方法中，首先，获取目标主体所关联用户账号的账号属性数据集，账号属性数据集中包括第一数据集及第二数据集，第一数据集属于白名单用户账号，第二数据集属于待检测用户账号；然后，从第一数据集中获取待检测字段字段的数据所对应手机号的第一平均个数，及从第二数据集中获取待检测字段的字段数据所对应手机号的第二平均个数，并将第一平均个数小于第二平均个数的待检测字段确定为检测字段。

基于图算法统计各种关联关系，根据关联关系定义图的边，关联更多黑产账号，召回率高；并且，经前期关联关系数据统计分析，定义值得信任的连接边，使得图聚类具备业务可解释性；具备较强健壮性，不易被黑产行为绕过；使用图聚类逻辑中不相关特征进行识别准确性验证，大概率确保黑产账号团伙发现的准确性。

黑产的虚假账号往往是批量的机器脚本注册的，很少人工操作。黑产作弊的成本不高，改一些参数就轻松完成伪装，绕过原有规则。增加了风控反作弊人员识别的人力成本。虽然黑产改参数较轻松，但把参数改全，是较困难的。进而，可以通过关联关系识别黑产伪装的参数和账号，将目标主体(例如，某个平台或者机构)近一段时间的账号和设备、网络环境等做关联图聚类，挖掘出黑产虚假账号团伙。

下面，将结合附图对本示例实施方式中上述基于人工智能的黑产账号检测方法中的各步骤进行详细的解释以及说明。

在步骤S110，获取目标主体所关联用户账号的账号属性数据集，该账号属性数据集中包括第一数据集及第二数据集，该第一数据集属于白名单用户账号，该第二数据集属于待检测用户账号。

在本示例的实施方式中，参考图2所示，服务器210可以服务器220中获取获取目标主体所关联用户账号的账号属性数据集，账号属性数据集中包括第一数据集及第二数据集，该第一数据集属于白名单用户账号，该第二数据集属于待检测用户账号。

其中，服务器210、服务器220可以是电脑、手机等各种具有指令处理功能、数据存储功能的终端设备，在此不做特殊限定。

每个账号的账号属性数据集中包括账号相关属性字段的字段数据，可以包括手机号、设备、网络环境、登录密码等相关属性字段的字段数据，例如，登录密码：XYY123，手机号：***********，设备：登录设备id等。

白名单用户账号对应的第一数据集可以为目标主体对应的主体内部用户所属账号的账号属性数据集，例如，某个机构的员工的账号相关数据，可以确定为非黑产的数据。待检测用户的第二数据集是待检测的具有黑产可能性的用户的账号相关数据。

白名单用户账号的第一数据集例如寿险公司内勤员工移动应用的流量数据；待检测用户的第二数据集是指总账号属性数据集中去除第一数据集剩余的部分。进而监测目标是从待检测用户的第二数据集中发现黑灰产账号。

在步骤S120，从第一数据集中获取待检测字段的字段数据所对应手机号的第一平均个数，及从第二数据集中获取待检测字段的字段数据所对应手机号的第二平均个数，并将第一平均个数小于第二平均个数的待检测字段确定为检测字段。

在本示例的实施方式中，在对比样本的选择上，第一数据集是正常用户样本数据，第二数据集是非纯净的用户样本数据，里面掺杂着黑灰产账号数据，而黑灰产的特点是一批设备进行大量账号的操作，那么，黑灰产的账号的数据则是同一字段数据对应很多手机号。所以，由于黑灰产用户样本的存在，第二数据集中账号相关属性字段的字段数据对应的手机号个数平均数应该大于第一数据集中各账号相关属性字段的字段数据对应的手机号个数平均数。

第一数据集及第二数据集中账号相关属性字段通常包括粗粒度和细粒度的字段。粗粒度的字段指的是字段数据个数少于特定值，例如布尔变量字段的字段值就是0和1；粗粒度字段的字段数据和手机号个数的对应关系是一对多的关系。细粒度的字段指的是字段数据个数多，例如设备id；细粒度的字段和手机号个数通常是一对一的关系。

第一数据集与第二数据集都属于账号属性数据集，第一数据集与第二数据集两者中包括的字段都是一样的，每个字段对应有各自的字段数据。

待检测字段是账号属性数据集中的目标字段，可以从第一数据集中获取每个待检测字段的字段数据所对应手机号的第一平均个数，及从第二数据集中获取每个待检测字段的字段数据所对应手机号的第二平均个数。

然后，将第一平均个数小于第二平均个数的待检测字段确定为检测字段，不符合的字段的不作为检测字段，也就是在后续步骤中不作为构建账号检测图的连接边使用，进而可以通过遍历第一数据集与第二数据集中的每个字段，计算寻找到最终的检测字段。每个账号有对应绑定的手机号，进而每个账号的账号属性字段的字段数据对应有手机号，通过字段数据与手机号的对应关系，可以分析字段数据被篡改等风险情况，进而分析出账号是否黑产。例如，一个字段black_box_did的字段数据在第二数据集中所对应手机号的平均个数小于在第一数据集中对应的手机号的平均个数，说明黑产在这个字段没有批量聚集或者这个字段数据正确性本来就不好，不作为定义连接边的字段，可以减小分析负荷的同时保证分析检测准确性。

一种实施例中，参考图3所示，从第一数据集中获取待检测字段的字段数据所对应手机号的第一平均个数，及从第二数据集中获取待检测字段的字段数据所对应手机号的第二平均个数，包括：

步骤S310，获取第一数据集中待检测字段的所有字段数据对应的第一手机号个数之和，并获取第二数据集中待检测字段的所有字段数据对应的第二手机号个数之和；

步骤S320，计算第一数据集中待检测字段的所有字段数据的第一字段数据个数，并计算第二数据集中待检测字段的所有字段数据的第二字段数据个数；

步骤S330，利用所述第一手机号个数之和除以第一字段数据个数得到第一平均个数，并利用第二手机号个数之和除以第二字段数据个数得到第二平均个数。

第一数据集中待检测字段的所有字段数据，例如，所有登录网络地址(待检测字段)对应的A、B、C、D等所有地址数据(所有字段数据)，每个地址数据都有对应的手机号。

一种实施例中，获取第二数据集中待检测字段的所有字段数据对应的第二手机号个数之和，包括：

获取第二数据集中待检测字段的每个字段数据对应的第二手机号个数，并根据第二手机号个数将待检测字段的每个字段数据按照由大到小的顺序排序，得到字段数据序列；

将字段数据序列中预定比例个位于首尾两端的字段数据剔除，得到字段剩余的字段数据，并获取剩余的字段数据对应的手机号个数之和，作为第二手机号个数之和；

所述计算第二数据集中待检测字段的所有字段数据的第二字段数据个数，包括：

计算第二数据集中待检测字段的所述剩余的字段数据的个数之和，作为第二字段数据个数。

这样可以将字段数据序列中预定比例(例如1％)个位于首尾两端的字段数据剔除，得到字段剩余的字段数据，进行计算第二手机号个数之和及第二字段数据个数，避免第二数据集的不确定性带来的检测误差。

在步骤S130，将检测字段在账号属性数据集中的字段数据作为连接边，并将检测字段的字段数据所对应手机号作为顶点，构建账号检测图。

在本示例的实施方式中，检测字段在账号属性数据集中的字段数据是初步确定的黑产有批量聚集或者字段数据正确性较好的字段数据，作为定义连接边的字段数据，保证分析检测准确性。

将检测字段在账号属性数据集中的字段数据作为连接边及将手机号作为顶点构建检测图，即将账号关联的手机号作为顶点，各账号之间根据字段数据的关联关系，将字段作为连接边，连接各关联账号，得到检测图，可以包含获取的账号之间的各种关联关系。

一种实施例中，将所述检测字段在所述账号属性数据集中的字段数据作为连接边，并将所述检测字段的字段数据所对应手机号作为顶点，构建账号检测图，包括：

从所述账号属性数据集中的字段数据组合作为连接边，并将所述字段数据组合对应的手机号作为顶点构建账号检测图，所述字段数据组合包括第一预定数目个所述指纹型字段的组合所对应数据及第二预定数目个所述类别型字段的组合所对应数据。

将字段定义成两类：指纹型字段和类别型字段。对于指纹型字段，任意第一预定数目个字段数据放在一起可作为检测图的连接边；而类别型字段需要第二预定数目个字段数据、放在一起作为检测图的连接边。

一种实施例中，所述第一预定数目为2，所述第二预定数目大于等于3且小于等于5。

指纹型字段单独一个字段作为连接边进行筛选，也可以两个组合作为边在一起，可以有效避免误伤碰撞的情况。例如，黑产改某个指纹型字段的字段数据碰巧和正常账号的一样了，两个放在一起组合作为连接边使用，减少了误伤碰撞的概率。同样，类别型字段多个放在一起也是更加精准的筛选数据。

例如，(a)Ios系统指纹型变量是登录设备标识id、登录密码和登录设备开机时间boottime。单个字段数据与手机号个数的对应关系如(a1-a3)：

(a1)设备id个数和手机号个数对应关系是1：1.06。(a2)登录密码个数和手机号个数关系是1：1.51。(a3)boottime个数和手机号个数关系是1：1.18。

而如(a4-a6)中两两组合起来，两个字段数据组合和手机号个数几乎是一对一的关系：(a4)设备id和boottime放在一起和手机号个数关系是1：1.04。(a5)登录密码和boottime放在一起和手机号个数关系是1：1.01。(a6)设备id和登录密码放在一起和手机号个数关系是1：1.02。

例如，类别型变量包括登录设备机型、系统版本、设备总存储空间、登录网络地址ip、无线网卡的物理地址wifimac等，通常，除了上述指纹型变量以外，都可以归结为类别型变量。单个字段数据与手机号个数的对应关系如(b1-b2)：(b1)机型个数和手机号个数关系是1：28470.36，且机型数目总数通常为70种。(b2)设备总存储空间个数和手机号个数关系是1：134.34。通过组合可以有效减少对应手机号个数。

一种实施例中，从所述账号属性数据集中获取字段数据组合作为连接边，包括：

第二数据集是总体中除去正常用户样本(第一数据集)的数据。筛选出某字段数据组合(某第三字段数据组合)在正常用户样本(第一数据集)上手机号个数非常少(小于第一比较值)，在目标样本(第二数据集)上手机号个数非常多(大于第二比较值)，说明该第三字段数据组合比较异常。其中，可以认为正常用户样本(第一数据集)中字段数据组合的字段值对应的手机号个数的分布近似是正常的分布，则跟正常分布差异比较大的就是异常的。

在步骤S140，基于所述账号检测图中第一类型字段的字段数据对账号检测图进行图聚类，得到账号聚类簇，该第一类型字段指示账号登录地址相关字段。

在本示例的实施方式中，可以使用现有的图聚类方法对账号检测图进行图聚类，得到账号聚类簇。这样可以基于构建账号检测图构建出账号的关系网，并基于账号登录地址相关字段进行账号的聚类，得到账号登录地址相似的账号聚类簇。

一种实施例中，基于所述账号检测图中第一类型字段的字段数据对所述账号检测图进行图聚类，得到账号聚类簇，包括：

手机号为顶点，上述步骤中定义的连接边，使用Connected Component算法图聚类计算，得到多个节点簇。

Connected Components算法，即连通体算法，用一标识id标注图中每个连通体(多个账号群体)，将连通体中序号最小的顶点的标识id作为连通体的标识id。如果在图G中，任意2个顶点(手机号)之间都存在路径，那么称G为连通图，否则称该图为非连通图，则其中的极大连通子图称为连通体。

然后，再二次图聚类，以第一次聚类结果的群编号(标识id)为顶点，首先，从所述多个账号群体中，获取包含手机号个数大于等于预定个数且关联于同一登录网络地址的账号群体，得到第一账号群体组合，例如，获取包含手机号个数大于等于3且关联于同一登录网络地址的账号群体，得到第一账号群体组合。然后，从所述多个账号群体中，获取包含手机号个数大于等于所述预定个数且关联于同一无线网卡的物理地址的账号群体，得到第二账号群体组合，例如，(获取包含手机号个数大于等于3且关联于同一无线网卡的物理地址的账号群体，得到第二账号群体组合。二次图聚类的使用主要应对于秒拨动态ip(登录网络地址、无线网卡的物理地址)和将本应该是同一团伙的小群体合并。

例如，首先，当A、B及C三个账号群体基于ip连接；然后，当A、D及E三个群体连接；这样的话：A、B及C、D、E则是共同算一个团伙账号聚类簇。

黑产会对ip进行伪装几个手机号换一次ip或者wifimac，这样，在一次图聚类结果中，存在手机号个数比较少的群组，而群组中ip或wifimac是一样的，将这些群组id作为顶点，ip或wifimac作为连接边实现二次聚类。

步骤S150，基于账号聚类簇中第二类型字段的字段数据，验证账号聚类簇是否异常，识别出异常账号团伙，该第二类型字段为除所述第一类型字段之外的其它字段。

在本示例的实施方式中，基于账号聚类簇中第二类型字段的特征，确定所述账号聚类簇是否异常，可以基于团伙自身内部统计特征，验证团伙是异常的。

第一种实施例中，构造的验证特征(第二类型字段)可以如下：

手机号归属省份和ip归属省份不一致占比。

第二种实施例中，构造的验证特征(第二类型字段)可以如下：

手机号码前3位最大聚集个数占比。

第三种实施例中，构造的验证特征(第二类型字段)可以如下：

同一总存储空间和boottime，非同一登录设备条件下，时间戳和剩余存储空间呈现强负相关(spearman相关系数<＝-0.8)。

上述构建图聚类使用的字段和验证特征使用的字段是严格划分，没有交集的，防止训练集上过拟合。

第一类型字段和第二类型字段中的特征是不相关的。正常用户群体中中对于第一种实施例：手机号归属省份和ip归属省份不一致占比不应该很高(小于等于第一占比)；如果与原假设违背(大于第一占比)，说明聚出来的账号聚类簇是异常的。

同理，对于第二种实施例：手机号码前3位最大聚集个数占比，如果很高(大于第二占比)，说明账号聚类簇有明显聚集性，也说明账号聚类簇是异常的。

对于第三种实施例：正常用户在同一设备(手机或pad)上操作，随着使用时间的增加，剩余存储空间是减小的，因为手机产生垃圾文件等占用空间。可以使用相关系数度量这两个变量呈现反比例的关系，选择使用spearman相关系数。一般正常用户设备id是唯一的，相同设备id基本上一定是同一设备；不相同设备id也可能是同一设备，因为黑产可以使用改机软件等工具对设备进行伪装，伪装成多个设备的假象，绕过风控规则，例如，一般风控规则会要求同一设备id进行领一个优惠券等。Boottime是设备开机时间，精确到微秒，一般也具备设备唯一性。

如果在账号聚类簇中，满足同一总存储空间和boottime，非同一设备id条件下，时间戳和剩余存储空间呈现强负相关(例如，spearman相关系数<＝-0.8)条件，说明账号聚类簇存在黑产改机伪装情况。

本申请还提供了一种基于人工智能的黑产账号检测装置。参考图4所示，该基于人工智能的黑产账号检测装置可以包括获取模块410、确定模块420、构建模块430、聚类模块440以及验证模块450。其中：

获取模块410可以用于获取目标主体所关联用户账号的账号属性数据集，所述账号属性数据集中包括第一数据集及第二数据集，所述第一数据集属于白名单用户账号，所述第二数据集属于待检测用户账号；

确定模块420可以用于从所述第一数据集中获取待检测字段的字段数据所对应手机号的第一平均个数，及从所述第二数据集中获取所述待检测字段的字段数据所对应手机号的第二平均个数，并将所述第一平均个数小于所述第二平均个数的待检测字段确定为检测字段；

构建模块430可以用于将所述检测字段在所述账号属性数据集中的字段数据作为连接边，并将所述检测字段的字段数据所对应手机号作为顶点，构建账号检测图；

聚类模块440可以用于基于所述账号检测图中第一类型字段的字段数据对所述账号检测图进行图聚类，得到账号聚类簇，所述第一类型字段指示账号登录地址相关字段；

验证模块450可以用于基于所述账号聚类簇中第二类型字段的字段数据，验证所述账号聚类簇是否异常，以识别出异常账号团伙，所述第二类型字段为除所述第一类型字段之外的其它字段。

上述基于人工智能的黑产账号检测装置中各模块的具体细节已经在对应的基于人工智能的黑产账号检测方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。

在本申请的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图5来描述根据本发明的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于：上述至少一个处理器510、上述至少一个存储器520、连接不同系统组件(包括存储器520和处理器510)的总线530。

其中，所述存储器存储有程序代码，所述程序代码可以被所述处理器510执行，使得所述处理器510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理器510可以执行如图1中所示的步骤S110，获取目标主体所关联用户账号的账号属性数据集，所述账号属性数据集中包括第一数据集及第二数据集，所述第一数据集属于白名单用户账号，所述第二数据集属于待检测用户账号；步骤S120，从所述第一数据集中获取待检测字段的字段数据所对应手机号的第一平均个数，及从所述第二数据集中获取所述待检测字段的字段数据所对应手机号的第二平均个数，并将所述第一平均个数小于所述第二平均个数的待检测字段确定为检测字段；步骤S130，将所述检测字段在所述账号属性数据集中的字段数据作为连接边，并将所述检测字段的字段数据所对应手机号作为顶点，构建账号检测图；步骤S140，基于所述账号检测图中第一类型字段的字段数据对所述账号检测图进行图聚类，得到账号聚类簇，所述第一类型字段指示账号登录地址相关字段；步骤S150，基于所述账号聚类簇中第二类型字段的字段数据，验证所述账号聚类簇是否异常，以识别出异常账号团伙，所述第二类型字段为除所述第一类型字段之外的其它字段。

存储器520可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)5201和/或高速缓存存储器5202，还可以进一步包括只读存储器(ROM)5203。

存储器520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204，这样的程序模块5205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备500也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得客户能与该电子设备500交互的设备通信，和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行，还可以包括与输入/输出(I/O)接口550连接的显示单元540。并且，电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器560通过总线530与电子设备500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

在本申请的示例性实施例中，参考图6所示，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图6所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在客户计算设备上执行、部分地在客户设备上执行、作为一个独立的软件包执行、部分在客户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到客户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其他实施例。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

Claims

1.一种基于人工智能的黑产账号检测方法，其特征在于，包括：

基于所述账号聚类簇中第二类型字段的字段数据，验证所述账号聚类簇是否异常，识别出异常账号团伙，所述第二类型字段为除所述第一类型字段之外的其它字段。

2.根据权利要求1所述的方法，其特征在于，所述从所述第一数据集中获取待检测字段的字段数据所对应手机号的第一平均个数，及从所述第二数据集中获取所述待检测字段的字段数据所对应手机号的第二平均个数，包括：

3.根据权利要求2所述的方法，其特征在于，所述获取所述第二数据集中所述待检测字段的所有所述字段数据对应的第二手机号个数之和，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述检测字段在所述账号属性数据集中的字段数据作为连接边，并将所述检测字段的字段数据所对应手机号作为顶点，构建账号检测图，包括：

获取所述检测字段中的指纹型字段和类别型字段，所述指纹型字段至少包括登录设备标识、登录密码和登录设备开机时间，所述类别型字段至少包括登录设备机型、系统版本、设备总存储空间、登录网络地址及无线网卡的物理地址；

5.根据权利要求4所述的方法，其特征在于，所述从所述账号属性数据集中获取字段数据组合作为连接边，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述账号检测图中第一类型字段的字段数据对所述账号检测图进行图聚类，得到账号聚类簇，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述账号聚类簇中第二类型字段的字段数据，验证所述账号聚类簇是否异常，识别出异常账号团伙，包括：

8.一种基于人工智能的黑产账号检测装置，其特征在于，包括：

验证模块，用于基于所述账号聚类簇中第二类型字段的字段数据，验证所述账号聚类簇是否异常，识别出异常账号团伙，所述第二类型字段为除所述第一类型字段之外的其它字段。

9.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1-7任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的程序指令；其中，所述处理器配置为经由执行所述程序指令来执行权利要求1-7任一项所述的方法。