CN105791255B

CN105791255B - 基于账户聚类的计算机风险识别方法及其系统

Info

Publication number: CN105791255B
Application number: CN201410835945.5A
Authority: CN
Inventors: 汪浩然; 陈弢; 陈连福; 李哲; 苏俊洋; 李天祎
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2014-12-23
Filing date: 2014-12-23
Publication date: 2020-03-13
Anticipated expiration: 2034-12-23
Also published as: CN105791255A

Abstract

本发明涉及账户安全技术，公开了一种基于账户聚类的计算机风险识别方法及其系统。在本发明的方法中，根据预先设定的特征属性进行聚类，将账户特征数据划分到多个类别中，并判断划分后的各类别中的账户数量是否大于第一阈值，以识别出潜在的批量可疑账号，从而有效地规避风险。此外，对可疑账户的判定由离线服务器完成并生成业务权限表，在线服务器根据该业务权限表可以及时发现可疑账户并禁止其使用相应业务，从而加快在线风险识别速度，提供更好的服务。

Description

基于账户聚类的计算机风险识别方法及其系统

技术领域

本发明涉及账户安全技术，特别涉及基于账户聚类的计算机风险识别方法及其系统。

背景技术

现实中，潜在欺诈者往往需要大量的批量账号来完成欺诈。然而，本发明的发明人发现，现有的技术方案把欺诈者作为孤立的一个账户，没有发现和其他欺诈账户的关系，没有很好地识别不同帐户所在的群体和批次。

发明内容

本发明的目的在于提供一种基于账户聚类的计算机风险识别方法及其系统，可以识别出潜在的批量可疑账号，有效地规避风险。

为解决上述技术问题，本发明的实施方式公开了一种基于账户聚类的计算机风险识别方法，该方法包括以下步骤：

从服务器中获取账户特征数据，帐户特征数据包含预先设定的特征属性；

根据预先设定的特征属性进行聚类，将账户特征数据划分到多个类别中；

判断类别中的账户数量是否大于第一阈值，若类别中的账户数量大于第一阈值，则判定类别中的账户为可疑账户。

本发明的实施方式还公开了一种基于账户聚类的计算机风险识别系统，该系统包括：

获取模块，用于从服务器中获取账户特征数据，帐户特征数据包含预先设定的特征属性；

聚类模块，用于根据预先设定的特征属性进行聚类，将获取模块获取的账户特征数据划分到多个类别中；

第一判断模块，用于判断类别中的账户数量是否大于第一阈值；以及

第一执行模块，用于若第一判断模块确认类别中的账户数量大于第一阈值，判定类别中的账户为可疑账户。

本发明实施方式与现有技术相比，主要区别及其效果在于：

在本发明中，根据预先设定的特征属性进行聚类，将账户特征数据划分到多个类别中，并判断划分后的各类别中的账户数量是否大于第一阈值，以识别出潜在的批量可疑账号，从而有效地规避风险。

进一步地，对可疑账户的判定由离线服务器完成并生成业务权限表，在线服务器根据该业务权限表可以及时发现可疑账户并禁止其使用相应业务，从而加快在线风险识别速度，提供更好的服务。

进一步地，对于小范围的账户特征数据进行抽查，并禁止可疑账户使用相应业务，可以精确地识别出批量可疑账号以规避风险。

进一步地，选择同一个人操作无法避开的属性作为预先设定的特征属性，可以准确地发现潜在的批量可疑账号。

进一步地，将账户特征数据进行聚类后，显示各类别中各账户之间通过预先设定的特征属性建立的关系，可以进一步分析各类别中呈现的特点。

附图说明

图1是本发明第一实施方式中一种基于账户聚类的计算机风险识别方法的流程示意图；

图2是本发明第一实施方式中一种基于账户聚类的计算机风险识别方法中对账户进行关联判断的示意图；

图3是本发明第一实施方式中一种基于账户聚类的计算机风险识别方法中对账户特征数据进行聚类的流程示意图；

图4是本发明第一实施方式中一种基于账户聚类的计算机风险识别方法中聚类后的账户特征数据的示意图；

图5是本发明第一实施方式中一种基于账户聚类的计算机风险识别方法中对账户进行风险识别的流程示意图；

图6是本发明第二实施方式中一种基于账户聚类的计算机风险识别系统的结构示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明第一实施方式涉及一种基于账户聚类的计算机风险识别方法。图1是该基于账户聚类的计算机风险识别方法的流程示意图。如图1所示，该方法包括以下步骤：

在步骤101中，从服务器中获取账户特征数据，帐户特征数据包含预先设定的特征属性。优选地，预先设定的特征属性包括以下之一或其任意组合：姓名、身份证号码、手机号码、注册IP、激活IP、注册MAC、激活MAC和UMID。选择同一个人操作无法避开的属性作为预先设定的特征属性，可以准确地发现潜在的批量可疑账号。

此外，可以理解，可以根据需要选择其他类型的属性作为预先设定的特征属性，不限于上述。

此后进入步骤102，根据预先设定的特征属性进行聚类，将账户特征数据划分到多个类别中。

此后进入步骤103，判断类别中的账户数量是否大于第一阈值。若类别中的账户数量大于第一阈值，则进入步骤104，否则结束本流程。可以理解，上述第一阈值可以根据经验进行设置。

在步骤104中，判定类别中的账户为可疑账户。

此后结束本流程。

在本实施方式的方法中，根据预先设定的特征属性进行聚类，将账户特征数据划分到多个类别中，并判断划分后的各类别中的账户数量是否大于第一阈值，以识别出潜在的批量可疑账号，从而有效地规避风险。

上述方法主要有以下两种操作模式：

1.事前防控

上述服务器包括离线服务器和在线服务器。

离线服务器执行步骤101－104。

在步骤104后还包括以下步骤：

离线服务器根据可疑账户所在类别中的账户数量生成业务权限表并将该业务权限表发送给在线服务器，业务权限表限定了可疑账户使用业务的权限。作为可选实施方式，可以在上述业务权限表中根据账户数量设置多个风险级别，根据账户数量所属的风险级别对可疑账户设置相应的业务权限。

在从账户接收到使用业务的请求时，在线服务器查询离线服务器提供的业务权限表并判断该账户是否有权限使用该业务。

若确认该账户有权限使用该业务，在线服务器许可该账户使用该业务。

若确认该账户没有权限使用该业务，在线服务器禁止该账户使用该业务。

对可疑账户的判定由离线服务器完成并生成业务权限表，在线服务器根据该业务权限表可以及时发现可疑账户并禁止其使用相应业务，从而加快在线风险识别速度，提供更好的服务。

此外，可以理解，在本发明的其他实施方式中，步骤101－104也可以由在线服务器来执行。

2.事后反查

在步骤101中，从服务器中获取预设范围的账户特征数据。可以理解，预设范围的账户特征数据可以是参与某次活动的账户特征数据、某一区域的账户特征数据或是满足其他条件的账户特征数据，可以根据需要进行选取，以进行抽查。

在步骤102中，将预设范围的账户特征数据划分到多个类别中。

在步骤104后还包括以下步骤：

禁止可疑账户使用相应业务。

对于小范围的账户特征数据进行抽查，并禁止可疑账户使用相应业务，可以精确地识别出批量可疑账号以规避风险。

此外，可以理解，在本发明的其他实施方式中，可以在步骤103中根据小范围的账户数量来设置不同于第一阈值的账户数量阈值，以进行可疑账户的判定，更具有针对性。

在一优选的实例中，若某一账户发生违规操作，则对该账户及其所在类别的所有其他账户进行操作限制。

通过事前防控和事后反查的配合，可以更有效地识别出批量可疑账号，以规避风险。

此外，将账户特征数据进行聚类后，显示各类别中各账户之间通过预先设定的特征属性建立的关系，可以进一步分析各类别中呈现的属性特点。具体地说：

在步骤102后还可以包括以下步骤：

显示各类别中各账户之间通过预先设定的特征属性建立的关系。

根据各类别中所呈现的属性特点可以将各类别的用户特征数据进一步划分到相应的模式中。例如将类别A、类别C归为模式A，将类别B、类别D、类别E归为模式B等等，从而基于这些模式研究应对方案，以更好地提供服务。

此外，可以理解，在本发明的其他实施方式中，也可以不显示各类别中的账户关系图。

可以理解，网络上潜在的作弊和欺诈者，往往要批量注册一批账号来达到目的，或一群账号背后是一个人拥有，这些账户往往会在某些属性上是一致的。在本发明的一个优选例中，通过合理的计算机聚类算法，能够找到这么一批账号，识别出一个账号所在的注册批次和一个批量注册批次的大小，识别出潜在的批量注册欺诈者以有效地规避风险。具体技术方案如下：

一个账户有多个属性，如果两个账户存在一个强特征属性(即预先设定的特征属性)一样，那么很有可能背后有同一个人操作，比如说姓名、身份证号码、手机号码、注册IP、激活IP、注册MAC、激活MAC、UMID等等。如图2所示，可以通过这些可能的强特征属性对账户1和账户2进行关联判断。

具体流程如图3所示：输入一群账户的特征数据；根据上述强特征属性对该群账户的特征数据进行聚类；得到被划分到不同批次的账户特征数据。如图4所示，账户1－账户5的特征数据因为拥有共同的注册IP和激活IP而被聚在一起。可以理解，在本发明的其他实施例中，账户1－账户5的特征数据可以因为拥有交叉共同的属性而被聚在一起，例如账户1－账户3的特征数据拥有共同的身份证号码，账户1、账户4和账户5的特征数据拥有共同的手机号码。

此后基于这些聚类后的账户特征数据对风险进行防范。如图5所示，当一个账户进行交易或别的行动时，识别出其所在的批次和批次大小。通常来说，账户所在的批次大小越大，则其风险越大。

此外，我们还可以应用抽象数据结构图，其中点表示一个账户，两个账户如果在我们定义的强特征上一致，那么就存在一条边，我们应用图论中连通组件的发现算法，来把这些批量的账号发现出来。并通过合理的可视化这些关系，来解释不同批次所呈现的属性特点。

上述方法可以使用Map Reduce分布式计算技术，以及Pregel-Like的图分布式计算平台，来进行大规模图的计算，并运用图可视化软件进行进一步分析和展示。应用网络算法可以通过强特征性相似来发现潜在的犯罪团伙。通过事先识别一个人所在的账户批次和账户批次大小来规避风险。

因此，通过上述方法可以发现被一个人或一个团伙所有的批量注册账户，把欺诈者和其它同伙账户共同发现出来。

可以理解，以上仅为本发明一优选例，可以根据需要对其中的步骤和设置进行改变。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable ArrayLogic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称“PROM”)、只读存储器(Read-Only Memory，简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。

本发明第二实施方式涉及一种基于账户聚类的计算机风险识别系统。图6是该基于账户聚类的计算机风险识别系统的结构示意图。如图6所示，该系统包括：

获取模块，用于从服务器中获取账户特征数据，帐户特征数据包含预先设定的特征属性。优选地，预先设定的特征属性包括以下之一或其任意组合：姓名、身份证号码、手机号码、注册IP、激活IP、注册MAC、激活MAC和UMID。选择同一个人操作无法避开的属性作为预先设定的特征属性，可以准确地发现潜在的批量可疑账号。

聚类模块，用于根据预先设定的特征属性进行聚类，将获取模块获取的账户特征数据划分到多个类别中。

第一判断模块，用于判断类别中的账户数量是否大于第一阈值。可以理解，第一阈值根据经验进行设置。

以及

在本实施方式的系统中，聚类模块根据预先设定的特征属性进行聚类，将账户特征数据划分到多个类别中，第一判断模块判断划分后的各类别中的账户数量是否大于第一阈值，以识别出潜在的批量可疑账号，从而有效地规避风险。

上述系统主要有以下两种操作模式：

1.事前防控

上述服务器包括离线服务器和在线服务器。

离线服务器包括获取模块、聚类模块、第一判断模块和第一执行模块。

离线服务器还包括生成模块，用于根据可疑账户所在类别中的账户数量生成业务权限表并将该业务权限表发送给在线服务器，业务权限表限定了可疑账户使用业务的权限。作为可选实施方式，可以在上述业务权限表中根据账户数量设置多个风险级别，根据账户数量所属的风险级别对可疑账户设置相应的业务权限。

上述在线服务器包括：

第二判断模块，用于在从账户接收到使用业务的请求时，查询离线服务器提供的业务权限表并判断该账户是否有权限使用该业务。

第二执行模块，用于若第二判断模块确认该账户有权限使用该业务，许可该账户使用该业务，以及若第二判断模块确认该账户没有权限使用该业务，禁止该账户使用该业务。

此外，可以理解，在本发明的其他实施方式中，在线服务器也可以包括获取模块、聚类模块、第一判断模块和第一执行模块，以执行相应操作。

2.事后反查

上述获取模块用于从服务器中获取预设范围的账户特征数据。可以理解，预设范围的账户特征数据可以是参与某次活动的账户特征数据、某一区域的账户特征数据或是满足其他条件的账户特征数据，可以根据需要进行选取，以进行抽查。

上述聚类模块用于将预设范围的账户特征数据划分到多个类别中。

上述第一执行模块在判定类别中的账户为可疑账户后，禁止可疑账户使用相应业务。

此外，可以理解，在本发明的其他实施方式中，第一判断模块可以根据小范围的账户数量来设置不同于第一阈值的账户数量阈值，以进行可疑账户的判定，更具有针对性。

在一优选的实例中，若发现某一账户发生违规操作，则第一执行模块对该账户及其所在类别的所有其他账户进行操作限制。

系统还可以包括显示模块，用于显示聚类模块所划分的各类别中各账户之间通过预先设定的特征属性建立的关系。

根据各类别中所呈现的特点可以将各类别的用户特征数据进一步划分到相应的模式中。例如将类别A、类别C归为模式A，将类别B、类别D、类别E归为模式B等等，从而基于这些模式研究应对方案，以更好地提供服务。

第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

需要说明的是，本发明各设备实施方式中提到的各模块都是逻辑模块，在物理上，一个逻辑模块可以是一个物理模块，也可以是一个物理模块的一部分，还可以以多个物理模块的组合实现，这些逻辑模块本身的物理实现方式并不是最重要的，这些逻辑模块所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的模块引入，这并不表明上述设备实施方式并不存在其它的模块。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种基于账户聚类的计算机风险识别方法，其特征在于，该方法包括以下步骤：

从服务器中获取账户特征数据，其中，所述服务器包括离线服务器和在线服务器，所述账户特征数据包含预先设定的多个特征属性，其中，所述预先设定的特征属性包括以下之一或其任意组合：姓名、身份证号码、手机号码、注册IP、激活IP、注册MAC、激活MAC和UMID，并且，所述账户特征数据是根据需要选取的参与某次活动的账户特征数据或某一区域的账户特征数据；

根据所述预先设定的多个特征属性进行聚类，将所述账户特征数据划分到多个类别中，其中，每一个预先设定的特征属性相应的类别中，所述账户的相应的特征属性相同；

判断所述类别中的账户数量是否大于第一阈值，若所述类别中的账户数量大于第一阈值，则判定所述类别中的账户为可疑账户；以及

所述离线服务器根据所述可疑账户所在类别中的账户数量生成业务权限表并将该业务权限表发送给所述在线服务器，所述业务权限表限定了所述可疑账户使用业务的权限。

2.根据权利要求1所述的基于账户聚类的计算机风险识别方法，其特征在于，所述离线服务器执行所述从服务器中获取账户特征数据，所述账户特征数据包含预先设定的特征属性、所述根据所述预先设定的特征属性进行聚类，将所述账户特征数据划分到多个类别中和所述判断所述类别中的账户数量是否大于第一阈值，若所述类别中的账户数量大于第一阈值，则判定所述类别中的账户为可疑账户的步骤；

所述所述离线服务器根据所述可疑账户所在类别中的账户数量生成业务权限表并将该业务权限表发送给所述在线服务器，所述业务权限表限定了所述可疑账户使用业务的权限的步骤后还包括以下步骤：

在从账户接收到使用业务的请求时，所述在线服务器查询所述离线服务器提供的业务权限表并判断所述账户是否有权限使用所述业务；

若确认所述账户有权限使用所述业务，所述在线服务器许可所述账户使用所述业务；

若确认所述账户没有权限使用所述业务，所述在线服务器禁止所述账户使用所述业务。

3.根据权利要求1所述的基于账户聚类的计算机风险识别方法，其特征在于，所述从服务器中获取账户特征数据，所述账户特征数据包含预先设定的特征属性的步骤中，从服务器中获取预设范围的账户特征数据；

所述根据所述预先设定的特征属性进行聚类，将所述账户特征数据划分到多个类别中的步骤中，将所述预设范围的账户特征数据划分到多个类别中；

所述判定所述类别中的账户为可疑账户的步骤后还包括以下步骤：

禁止所述可疑账户使用相应业务。

4.根据权利要求1至3中任一项所述的基于账户聚类的计算机风险识别方法，其特征在于，所述根据所述预先设定的特征属性进行聚类，将所述账户特征数据划分到多个类别中的步骤后还包括以下步骤：

5.一种基于账户聚类的计算机风险识别系统，其特征在于，该系统包括：

获取模块，用于从服务器中获取账户特征数据，其中，所述服务器包括离线服务器和在线服务器，所述账户特征数据包含预先设定的多个特征属性，其中，所述预先设定的特征属性包括以下之一或其任意组合：姓名、身份证号码、手机号码、注册IP、激活IP、注册MAC、激活MAC和UMID，并且，所述账户特征数据是根据需要选取的参与某次活动的账户特征数据或某一区域的账户特征数据；

聚类模块，用于根据所述预先设定的多个特征属性进行聚类，将所述获取模块获取的账户特征数据划分到多个类别中，其中，每一个预先设定的特征属性相应的类别中，所述账户的相应的特征属性相同；

第一判断模块，用于判断所述类别中的账户数量是否大于第一阈值；以及

第一执行模块，用于若所述第一判断模块确认所述类别中的账户数量大于第一阈值，判定所述类别中的账户为可疑账户；并且

所述离线服务器还包括生成模块，用于根据所述可疑账户所在类别中的账户数量生成业务权限表并将该业务权限表发送给所述在线服务器，所述业务权限表限定了所述可疑账户使用业务的权限。

6.根据权利要求5所述的基于账户聚类的计算机风险识别系统，其特征在于，所述服务器包括离线服务器和在线服务器；

所述离线服务器包括所述获取模块、所述聚类模块、所述第一判断模块和所述第一执行模块；

所述在线服务器包括：

第二判断模块，用于在从账户接收到使用业务的请求时，查询所述离线服务器提供的业务权限表并判断所述账户是否有权限使用所述业务；

第二执行模块，用于若所述第二判断模块确认所述账户有权限使用所述业务，许可所述账户使用所述业务，以及若所述第二判断模块确认所述账户没有权限使用所述业务，禁止所述账户使用所述业务。

7.根据权利要求5所述的基于账户聚类的计算机风险识别系统，其特征在于，所述获取模块用于从服务器中获取预设范围的账户特征数据；

所述聚类模块用于将所述预设范围的账户特征数据划分到多个类别中；

所述第一执行模块在判定所述类别中的账户为可疑账户后，禁止所述可疑账户使用相应业务。

8.根据权利要求5至7中任一项所述的基于账户聚类的计算机风险识别系统，其特征在于，所述系统还包括显示模块，用于显示所述聚类模块所划分的各类别中各账户之间通过预先设定的特征属性建立的关系。