CN110224859A

CN110224859A - 用于识别团伙的方法和系统

Info

Publication number: CN110224859A
Application number: CN201910410330.0A
Authority: CN
Inventors: 王川
Original assignee: Alibaba Group Holding Ltd
Current assignee: Ant Zhian Safety Technology Shanghai Co ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-09-10
Anticipated expiration: 2039-05-16
Also published as: CN110224859B

Abstract

本申请涉及一种用于探索团伙的图结构特征的方法，包括：获得多个用户的用户ID及所述多个用户所使用的介质的介质ID之间的用户介质关系集；基于所述用户介质关系集生成多个无向子图，其中所述无向子图的顶点表示用户ID或介质ID，且连接所述用户ID和所述介质ID的边表示所述用户使用所述介质ID；基于所述多个无向子图生成多个最大连通子图；确定所述多个最大连通子图中的多个团伙子图，所述多个团伙子图包括多个已知团伙成员；以及确定所述多个团伙子图的图结构特征。本申请还涉及用于识别团伙的方法。本申请能够更高效准确地识别团伙。

Description

用于识别团伙的方法和系统

技术领域

本说明书的一个或多个实施例涉及团伙识别。

背景技术

随着网络的普及，尤其是网络支付的广泛应用，一些网络赌博、诈骗和卖淫活动也开始出现。而且，这些活动出现了聚集化的倾向。例如，在一些情况下，一些网络聊天应用或社交网络应用的多个用户构成赌博团伙、诈骗团伙和卖淫团伙等。目前，已经开发了一些方法来识别这些用户。

然而，有些现有方法通常只能逐个识别这样的用户，而难以识别团伙。另外一些现有方法虽然可能识别团伙，但可能对抗性较差且效率不高。

因此，存在对于高效准确地自动化识别团伙的需要。

发明内容

为了克服现有技术的缺陷，本说明书的一个或多个实施例提供了[]的技术方案。

本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。

在一个方面中，公开了一种用于探索团伙的图结构特征的方法，包括：获得多个用户的用户ID及所述多个用户所使用的介质的介质ID之间的用户介质关系集；基于所述用户介质关系集生成多个无向子图，其中所述无向子图的顶点表示用户ID或介质ID，且连接所述用户ID和所述介质ID的边表示所述用户使用所述介质ID；基于所述多个无向子图生成多个最大连通子图；确定所述多个最大连通子图中的多个团伙子图，所述多个团伙子图包括多个已知团伙成员；以及确定所述多个团伙子图的图结构特征。

优选地，所述方法还包括：从数据库接收样本数据集，所述样本数据集包括多个用户的用户身份以及活动信息，所述活动信息指示所述用户所使用的介质的介质ID；以及基于所述样本数据集生成所述用户介质关系集。

优选地，所述图结构特征包括以下的一者或多者：用户ID的阈值数量、介质ID的类别和阈值数量、边的阈值数量。

优选地，所述方法还包括：针对每个已知团伙成员，确定该已知团伙成员所属的子图；确定该已知团伙成员所属的子图中的所有已知团伙成员的数量；以及如果所述数量大于阈值数量，则确定该已知团伙成员所属的子图为团伙子图。

优选地，所述方法还包括：针对每个已知团伙成员，确定该已知团伙成员所属的子图；确定该已知团伙成员所属的子图中的所有已知团伙成员的数量；确定该已知团伙成员所属的子图中的所有用户的数量；计算该已知团伙成员所属的子图中的所有已知团伙成员的数量占所有用户数量的比例；以及如果所述比例大于阈值比例，则确定该已知团伙成员所属的子图为团伙子图。

优选地，所述方法还包括：基于对所述多个团伙子图的统计来确定所述图结构特征。

优选地，所述方法还包括以下的一者或多者：确定所述多个团伙子图中的用户ID的数量的平均值或最小值来作为用户ID的阈值数量；确定所述多个团伙子图中的数量最多的介质ID的类别作为介质ID的类别；确定所述多个团伙子图中的所述类别的介质ID的数量的平均值或最小值作为介质ID的阈值数量；以及确定所述多个团伙子图中的边的数量的平均值或最小值作为边的阈值数量。

优选地，所述团伙为赌博团伙、诈骗团伙或卖淫团伙。

优选地，所述方法进一步包括：从数据库接收第二数据集；基于所述第二数据集生成第二用户介质关系集；基于所述第二用户介质关系集生成第二多个无向子图；基于所述第二多个无向子图生成第二多个最大连通子图；确定所述第二多个最大连通自中中具有所述图结构特征的最大连通子图为潜在团伙子图，其中所述潜在团伙子图中的用户ID被认为是潜在团伙成员。

在另一方面中，公开了一种用于识别团伙成员的方法，包括：获得多个用户的用户ID及所述多个用户所使用的介质的介质ID之间的用户介质关系集；基于所述用户介质关系集生成多个无向子图，其中所述无向子图的顶点表示用户ID或介质ID，且连接所述用户ID和所述介质ID的边表示所述用户使用所述介质ID；基于所述多个无向子图生成多个最大连通子图；确定所述多个最大连通子图中具有团伙子图的图结构特征的最大连通子图，其中所述团伙子图的图结构特征是基于已知团伙成员所在的最大连通子图确定的；以及确定具有团伙子图的图结构特征的最大连通子图为潜在团伙子图，其中所述潜在团伙子图中的用户ID被认为是潜在团伙成员。

优选地，所述方法还包括：从数据库接收数据集，所述数据集包括多个用户的用户身份以及活动信息，所述活动信息指示所述用户所使用的介质的介质ID；以及基于所述数据集生成所述用户介质关系集。

优选地，所述方法进一步包括：计算潜在团伙子图中的每个潜在团伙成员的风险分值，所述风险分值指示该潜在团伙成员是真正团伙成员的可能性。

优选地，所述方法进一步包括：每个潜在团伙成员的风险分值为与其直接连接的边的权重的和，且单个潜在团伙子图中的所有边的权重之和为1。

优选地，所述方法进一步包括：将每条边的权重设置为等同。

优选地，所述方法进一步包括：基于与边相连的介质ID的类型来确定边的权重。

优选地，所述方法进一步包括：使用机器学习算法来计算或更新边的权重。

在又一方面中，公开了一种用于识别团伙成员的方法，其特征在于，包括：获得第一用户介质关系集和第二用户介质关系集，所述第一用户介质关系集和所述第二用户介质关系集包括多个用户的用户ID及所述多个用户所使用的介质的介质ID之间的用户介质关系；基于所述第一用户介质关系集生成第一多个无向子图以及基于第二多个用户介质关系集生成第二多个无向子图，其中所述无向子图的顶点表示用户ID或介质ID，且连接所述用户ID和所述介质ID的边表示所述用户使用所述介质ID；基于所述第一多个无向子图生成第一多个最大连通子图以及基于所述第二多个无向子图生成第二多个最大连通子图；确定所述第一多个最大连通子图中的多个团伙子图，所述多个团伙子图包括多个已知团伙成员；确定所述多个团伙子图的图结构特征；确定所述第二多个最大连通子图中具有所述图结构特征的最大连通子图；以及确定所述第二多个最大连通子图中具有所述图结构特征的最大连通子图为潜在团伙子图，其中所述潜在团伙子图中的用户ID被认为是潜在团伙成员。

在又一方面中，公开了一种存储指令的计算机可读存储介质，所述指令当被计算机执行时，使所述计算机执行上述方法。

在再一方面中，公开了一种系统，所述系统包括用于执行上述方法的装置。

与现有技术相比，本说明书的一个或多个实施例可具有如下有益效果：

1、能够提高团伙成员识别的效率和准确度；

2、不需要大量的已知团伙成员，缓解了冷启动问题；

3、具有更好的对抗性。

当然，实施本申请的任一技术方案无需同时达到所有上述技术效果。

附图说明

以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是，附图仅作为所请求保护的发明的示例。在附图中，相同的附图标记代表相同或类似的元素。

图1A和图1B分别示出普通用户和赌博团伙的无向图的示例。

图2示出根据本说明的实施例的图结构探索系统的示意图。

图3示出根据本说明书实施例的团伙识别系统的示意图。

图4示出了根据本说明书另一实施例的团伙识别系统的示意图。

图5A-5C示出用于表示图的数据结构的示例。

图6示出根据本说明书的实施例的用于探索团伙的图结构特征的方法的流程图。

图7示出根据本说明书的实施例的用于识别团伙成员的方法的流程图。

图8示出根据本说明书的实施例的用于识别团伙成员的方法的流程图。

具体实施方式

以下具体实施方式的内容足以使任何本领域技术人员了解本说明书的一个或多个实施例的技术内容并据以实施，且根据本说明书所揭露的说明书、权利要求及附图，本领域技术人员可轻易地理解本说明书的一个或多个实施例相关的目的及优点。

目前，已经开发了一些方法来识别网络中的团伙。

例如，在一种方法中，可以建立用于识别单个赌博会员的模型。这样的模型可能涉及内容识别模型(例如关键词识别、自然语言处理等)、图片识别模型(例如识别包括博彩宣传图片的头像、或识别聊天中发送的博彩相关图片等)、行为特征模型(例如识别赌博会员的一些特殊行为，例如与其它会员频繁的相互转账)等。

然而，在实际应用中，内容识别模型和图片识别模型的对抗性通常较差，这源于内容和图片的变种成本低、速度快、形式多样；而行为特征模型一般为静态模型，对行为模式的变化难以适配。此外，这些模型通常仅逐个识别赌博会员，而不是识别赌博团伙。

然而，有些现有方法通常只能逐个识别赌博会员，而难以识别赌博团伙。

另外一些现有方法虽然可能识别赌博团伙。例如，目前对赌博团伙的识别方法，通常是在确定一批赌博会员之后，通过探查同一IP地址或MAC地址等物理地址上的聚集账号。然而，这种现有方法同样存在一些问题。第一，这种方法需要首先确定一大批赌博会员，才能找到相应的赌博团伙，因此这样的方法难以“冷启动”(即在没有识别赌博会员或仅识别出少量赌博会员的情况下启动算法的执行)。第二，针对这种方法，赌博团伙可以通过不断更换IP地址或MAC地址等方法来避免探查，从而难以采用对同IP地址或同MAC地址进行聚集的方法来识别。

本说明书实施例的方法通过将用户及其所使用的介质(在下文中具体描述)之间的关系转换为图(具体而言是无向图，在下文中具体描述)，探索出团伙的图结构特征，并基于探索出的图结构特征来执行团伙识别，不仅解决了冷启动问题，而且提升了效率、增强了对抗性。

本文中所称的介质，指代被用户用来参与网络活动的载体的表示。例如，用户可使用设备(例如智能电话、平板计算机、个人计算机等)来参与网络活动，然而这样的设备可以使用多种不同的方式来表示，例如可通过设备签名(device_sign)、IP地址、MAC地址等方式来表示。虽然各种表示都可被用来表示设备，然而在实践中，每种设备表示可能都会被用户故意或无意地更改，以致难以真正标识设备和对应的用户。

用于标识介质的介质ID的类别可包括但不限于以下的一者或多者：

UMID：又称“友盟ID”，是由友盟(www.umeng.com)提供的用来长期追踪单个设备的数据的唯一标识符。一般而言，UMID通常是基于设备的IMEI码、MAC地址、Android ID等计算出来的。

IMEI码：国际移动设备识别码(International Mobile Equipment Identity，IMEI)，即通常所说的手机序列号、手机“串号”，用于在移动电话网络中识别每一部独立的手机等移动通信设备。此外还有类似的MEID/IMSI等。

MAC地址：媒体访问控制地址，也称为局域网地址(LAN Address)，以太网地址(Ethernet Address)或物理地址(Physical Address)，是用来确认网络设备位置的地址。

Android ID：是由安装由Google公司开发的Android操作系统的设备使用的标识符，是Android操作系统第一次启动时生成的64位数；如果设备被还原，则Android ID将被重置。

设备签名(device_sign)：由阿里云平台使用的用于对设备进行标识的签名，其涉及MQTT协议作为IoT设备和平台之间的通信协议。

IP地址：又称网际协议地址，是分配给网络上使用网际协议的设备的数字标签。

SIM卡号：是(Subscriber Identity Module客户识别模块)号码，用于标识客户所使用的SIM卡。

UDID：唯一设备ID，是采用由Apple公司开发的iOS操作系统的设备的唯一设备识别符。

openUDID：是采用由Apple公司开发的iOS操作系统的设备的另一种唯一设备识别符。

需要领会，上面仅是可被用作介质ID的类别的示例，本领域技术人员可采用任何其它介质ID。

图常被用来表示物件与物件之间的关系。图通常由顶点和连结顶点的边组成。例如，图G可被表示为二元组(V,E)，其中V表示顶点集，而E表示边集。其中，V又可写为V(G)，而E又可写为E(G)。E的元素是二元组数对，可用(x,y)表示，其中x∈V且y∈V。

图G也可被表示为其它形式，例如三元组(V,E,I)，其中V表示顶点集，而E表示边集，而I表示关联函数，I将E中的每一个元素映射到V x V。

图可分为有向图和无向图。如果图的每条边被指定方向，那么得到的图称为有向图，其边也称为有向边。在有向图中，与一个节点相关联的边有出边和入边之分，而与一个有向边关联的两个点也有始点和终点之分。相反，边没有方向的图称为无向图。本说明书实施例通常用到的是无向图。

图通常可被分为子图。对于两个图G和G’，如果且则G’可被称为G的子图。

在图论领域，一个常见的概念是最大连通子图，又称为最大子图。

最大连通子图的定义如下：

给定图G＝(V,E)，如果图G’＝(V',E')同时满足以下两个条件，则图G’可被称为图G的最大连通子图：

G’是连通的，即G’的任意两个顶点是连通的；以及

对于所有u∈V且而言，对于任何v∈V'，(u,v)∈E不成立。

简单来说，最大连通子图是图中能够被连通的最大子图。

具体而言，参考图1A和图1B，它们各自示出了无向图的示例，其中图的每个顶点均表示一个介质(例如上面所列的介质中的任何一种)或用户ID(userid)。其中，用户ID用来表示用户身份的账号。例如，该账号可以是支付宝用户的账号。通过这种方式，用户的用户ID、用户所使用的介质、以及用户与介质之间的关系可被表示为无向图。

经过大量观察，发明人发现如下规律：对于团伙(例如赌博团伙、诈骗团伙、卖淫团伙等)，其成员的用户ID和其所使用的介质之间的图结构通常与普通用户的图结构不同。

参考图1A，其示出了普通用户的图结构。可以看出，其中左侧的两个子图中一个userid仅连接到一个UMID，而右侧子图中的userid连接到一个UMID和一个设备签名(其中UMID和设备签名可能对应于同一设备，或者可对应于不同设备)。由此可见，对于普通用户而言，一个用户通常仅使用很少数量(例如一到两个)的设备，其一个设备通常仅由。也就是说，普通用户的userid和UMID之间的关系将很简单，其最大连通子图的顶点中通常仅包括少量的userid和少量的介质ID。

参考图1B，其示出了一个赌博团伙的图结构的一部分。可以看出，该子图中的一个UMID可连接到多个userid，一个设备签名可连接到多个userid，且一个userid可连接到多个介质ID(例如一个UMID和一个设备签名)。可以看出，赌博会员在单一介质下聚集度较高，且有多介质关联，即赌博团伙一般在同一个介质下有多个账号，且其中部分账号关联至其他介质，而这些介质同样存在账号聚集现象。然而，具体什么样的图结构对应特定类型的团伙，则仍需要通过算法来确定。

可以领会，图1A和图1B中所示出的仅仅是示例，而非限制。

在下文中，首先描述如何探索特定团伙的图结构，随后描述如何基于探索出的图结构来识别特定团伙。

参见图2，其示出根据本说明的实施例的用于探索团伙的图结构的图结构探索系统200的示意图。系统包括数据库202、数据准备组件204和图结构探索组件206。

数据准备组件204可包括数据接收组件208，该数据接收组件208从数据库202接收样本数据集。在图结构探索阶段，样本数据集可以是数据库中的部分数据集或全部数据集。使用部分数据集来探索图结构可加快探索速度，提高效率。通常，样本数据集中通常包括一个或多个(优选地多个)已知团伙成员(例如已知的赌博会员)。通过这种方式，从样本数据集中可探索出与团伙相对应的图结构，以供后续将所探索出的图结构应用到待处理数据集，即可在待处理数据集中识别出其中包括的团伙。

所述数据集例如可包括多个用户的用户身份(userid)以及活动信息。所述活动信息例如可指示该用户所使用的介质的介质ID。优选地，所述信息中可包括多种类型的介质ID。所述介质ID例如可以是上面所列举的介质ID。

在一些示例中，所述活动信息可以是由安装在用户的设备上的应用收集并传送到数据库202以供存储的。例如，安装在用户的设备上的应用可收集用户是使用的设备的MAC地址、设备签名、手机号等数据。

替代地，所述活动信息还可以是由服务器所收集或确定并存储到数据库202中的数据。例如，服务器可收集用户用于访问网络的IP地址等信息。又例如，服务器可基于从用户收集的IMEI码、MAC地址、Android ID等信息确定UMID。

可选地，数据准备组件204还可包括数据预处理组件210，该数据预处理组件210对数据集进行预处理。

例如，数据预处理组件210可对数据集中的数据执行数据清洗。例如，所述清洗可包括但不限于例如纠正数据集中的错误、删除数据集中的重复记录、统一数据格式、修正数据逻辑、转换数据构造、执行数据压缩、补足残缺/空值、丢弃数据/变量等操作。数据清洗可采用本领域技术人员公知的方式执行，在此不再赘述。

数据预处理组件210还可包括用户介质关系集生成组件212，该用户介质关系集生成组件212可处理数据集以生成用户介质关系集。例如，数据准备组件204可提取出用户的用户id和该用户id所使用的介质的介质ID之间的关系来作为用户介质关系。在一种示例中，用户介质关系集中的用户介质关系可被表示为{userid,UMID,IMEI码,MAC地址……}的格式。替代地，用户介质关系集中的用户介质关系可以是用于表示用户和用户所使用的介质的介质ID的其它格式。

随后，数据准备组件204可将用户介质关系集传送至图结构探索组件206。

图结构探索组件206可接收来自数据准备组件204的用户介质关系集。

图结构探索组件206可包括无向子图生成组件214。无向子图生成组件214可对用户介质关系集中的用户介质关系进行处理，以便基于用户介质关系集来生成多个无向子图。例如，每个用户介质关系可被转换为一个无向子图。

用户介质关系集可被格式化为用于表示图的数据结构。参见图5A-5C，其示出了用于表示图的数据结构的示例。

参见图5A，其中示出用边的集合来表示图的数据结构的示例。

从图5A中可以看出，图中的每条边都被表示为一个二元组。例如，7和8之间的边可被表示为二元组{7,8}。

参见图5B，其中示出用邻接矩阵来表示图5A中的图的数据结构的另一示例。

从图5B中可以看出，在该邻接矩阵中，每条边由两个条目表示。例如，7和8之间的边可由其两个条目之间在矩阵中的邻接关系来表示。

参见图5C，其中示出用邻接列表来表示图A中的图的数据结构的又一示例。

从图5C中可以看出，对于每个顶点，连接到该顶点的所有其它顶点都被列入与其对应的数组中。

本说明书的实施例的用户介质关系集可采用图5A-5C中所述的任何一种数据结构来表示。

例如，图1B的用户介质关系集可被表示为如图5A所述的数据结构：

{userid1,UMID1},{userid2,UMID1},{userid3,UMID1},{userid3,device_sign1},{userid4,device_sign1},{userid5,device_sign1}

上述数据结构将每个用户的用户身份(userid)和其所使用的介质的介质ID(例如UMID、设备签名、或上面所例示的其它任何介质ID)之间的每个关系表示为一条边，从而最终将所有用户介质关系集表示为无向子图。

应当领会，不限于用上述数据结构来表示用户介质关系集；相反，本领域技术人员可采用已知的任何其它方式来将用户介质关系集表示为无向图。

随后，为了对无向子图进行处理，还可抽象出图的API。图的API的示例如下：

在将所有用户介质关系集表示为无向子图并抽象出无向图的API之后，可采用适用于无向图的算法来处理无向子图。

通过无向子图生成组件214，可以将用户介质关系集表示为无向子图，但此时的图可能并非均是最大连通子图。例如，此时，由userid1和UMID1构成的无向子图和由userid2和UMID1构成的无向子图可能是独立的无向子图。

图结构探索组件206还可包括连通子图生成组件216。例如，连通子图生成组件216可采用深度优先算法或者广度优先算法来处理无向图以生成整个图空间的每个连通子图。采用深度优先算法或者广度优先算法来处理无向图以获得子图的具体方案是本领域技术人员已知的，在此不再赘述。优选地，所确定的连通子图均为无向图中的最大连通子图。替代地，所确定的连通子图也可以不是最大连通子图，例如可以是普通的连通子图。

需要指出的是，尽管在上述示例中生成无向子图和生成最大连通子图被描述为两个步骤，但在一些示例中这两个步骤也可在一些步骤中实现。

图结构探索组件206还可包括团伙子图确定组件217。团伙子图确定组件217可基于已知团伙成员来确定团伙子图。例如，假设已知若干团伙成员的已知团伙成员，则可基于每个已知团伙成员所在的子图中包括的已知团伙成员的数量或比例来确定该子图是否是团伙子图。

例如，可首先针对每个已知团伙成员，确定该已知团伙成员所属的子图。例如，假设已知userid1为团伙成员，则可确定userid1所属的子图，例如子图A。

随后，可确定该已知团伙成员所属的子图中的已知团伙成员的数量。接上例，可确定子图A中的团伙成员的数量，例如4个。

接着，可将该数量与阈值数量进行比较，且如果该数量大于阈值数量，则可确定该已知团伙成员所属的子图为团伙子图；否则可认为该子图不是团伙子图。接上例，假设阈值数量为3，所以该子图A中的已知团伙成员的数量4大于阈值数量3，则可确定子图A为团伙子图。

替代地，在确定该已知团伙成员所属的子图中的已知团伙成员的数量之后，还可确定该已知团伙成员所属的子图中的所有用户的数量。接上例，假设子图A总共有6个userid。

随后，可计算该已知团伙成员所属的子图中的已知团伙成员的数量占所有用户ID的数量的比例。如果该比例大于阈值比例，则可确定该子图为团伙子图；否则可认为该子图不是团伙子图。接上例，子图A中的已知团伙成员的数量为4，占子图A中的所有用户的数量6的比例为2/3。假设阈值比例为1/2，由于2/3＞1/2，则可确定子图A为团伙子图。

可认为包括大于阈值比例的团伙成员的userid的子图为团伙子图。例如，如果子图中总共包括10个userid，且其中已知团伙成员的userid为6个，即团伙成员的userid所占比例为60％，则可认为该子图为团伙子图。

图结构探索组件206还可包括图结构特征生成组件218。图结构特征生成组件218可基于已确定的团伙子图来确定包括团伙子图的图结构特征。具体而言，图结构特征生成组件218可分析多个团伙子图所共有的图结构特征。例如，参看图1A和图1B中的示例，可以看出，赌博会员在单一介质下聚集度较高，且有多介质关联，即赌博团伙一般在同一个介质下有多个账号，且其中部分账号关联至其他介质，而这些介质同样存在账号聚集现象。基于上述观察，可以发现图结构特征通常与子图中所包括的userid的数量、介质ID的类别(例如UMID、IMEI码、MAC地址等类别)以及各类介质ID的数量相关。此外，不同介质的预测准确度可能也有差异。

相应地，图结构特征可包括以下的一者或多者：

子图中的userid的数量。例如，参见图1B，其中该子图中表示userid的顶点的数量为5。通常，子图中的userid的数量越多，是代表团伙的团伙子图的可能性越大。

子图中的介质ID的类别，即子图中表示介质ID的顶点所代表的介质ID的类别。例如，参见图1B，其中该子图中包括UMID和device_sign两类介质ID。发明人注意到，不同类别的介质ID在预测团伙子图时的准确度不同。例如，可能UMID预测团伙子图的准确度较高，而MAC地址预测团伙子图的准确度较低。这种区别是由各类介质的特性决定的。

子图中的各类介质ID的数量，即子图中表示各类介质ID的顶点的数量。例如代表UMID的顶点的数量、代表IMEI码的顶点的数量、代表MAC地址的顶点的数量，如此等等。参见图1B，其中该子图中的UMID的数量为1，且device_sign的数量也为1。

子图中的边的数量，即子图中连接表示userid的顶点和表示介质ID的顶点的边的数量，所述边指示该userid和该介质ID的使用关系。

图结构特征生成组件218可采用各种方式来生成图结构特征，如下面的示例所述。

在一种示例中，图结构特征生成组件218可基于对团伙子图的统计来确定图结构特征。例如，图结构特征生成组件218可统计各团伙子图中的userid的数量的平均值、最小值等，来作为团伙子图的userid的阈值数量特征。

同理，图结构特征生成组件218可统计各团伙子图中的各类别的介质ID的数量的平均值、最小值等，来确定各介质ID的类别和阈值数量特征。例如，假设各团伙子图中的各类别的介质ID中UMID的数量最多，则可以UMID为表征图结构特征的介质类别。此时，可将各团伙子图中的UMID的数量的平均值、最小值等，来作为团伙子图中的介质ID的阈值数量特征。

此外，图结构特征生成组件218可基于各团伙子图中的边的数量的平均值、最小值等，来作为团伙子图的边的阈值数量特征。

例如，假设所得到的多个团伙子图中的userid数量的最小值为4，UMID的数量的最小值为9，且边的数量的最小值为11，则团伙子图的图结构特征的一个具体示例如下：

Userid的数量≥4；

UMID数量最多且UMID的数量≥9；且

边的数量≥11。

可以领会，所确定的团伙子图的图结构特征代表了团伙成员与介质的关系的特点。以上仅仅是确定团伙图结构特征的示例。可以领会，可按其它方式来确定团伙图结构特征。

所确定的团伙图结构特征随后可被用来识别全部用户中的特定团伙及团伙成员。例如，图结构特征随后可被传送至本说明书的实施例的团伙识别组件，以进行团伙识别。需要指出的是，上面公开的用于确定团伙的图结构特征的方案可以是独立的方案，其能够解决识别团伙的图结构特征(团伙成员和介质之间的关系的特征)的技术问题，而不依赖于后续的团伙识别组件。例如，所确定的团伙图结构特征可被展示给系统管理员，而系统管理员可基于所确定的团伙图结构特征人工识别团伙。

参见图3，其示出根据本说明书实施例的用于识别团伙的团伙识别系统300的示意图。团伙识别系统300利用图结构特征来识别团伙成员。例如，图结构特征可以是由上面描述的图结构探索系统200确定的图结构特征。但是，团伙识别系统300可独立于图结构探索系统200操作，例如可采用以其它方式得到的图结构特征，例如可由人来分析包含团伙成员的图，来确定的图结构特征。

如图所示，团伙识别系统300可包括数据库302、数据准备组件304和团伙识别组件306。图结构探索系统200可将所识别的团伙图结构特征传送至团伙识别系统300。

数据库302可与数据库202相同或不同。例如，数据库302可包括全部数据集，以从中识别出团伙。或者，数据库302可包括与数据库202完全不同的数据集。

数据准备组件304可包括数据接收组件308、数据预处理组件310和关系集生成组件312中的一个或多个。其中，数据接收组件308、数据预处理组件310和关系集生成组件312的操作可参考上面针对数据接收组件收组件208、数据预处理组件210和关系集生成组件212的描述。在一些实施例中，数据接收组件308、数据预处理组件310和关系集生成组件312可分别与数据接收组件收组件208、数据预处理组件210和关系集生成组件212为同一组件。

通常，图结构探索系统200的各组件可仅对用于探索图结构特征的样本数据集进行处理，而团伙识别系统300的各组件可对待处理以从中识别团伙成员的用户的待处理数据集进行处理。替代地，图结构探索系统200和团伙识别系统300可均对全部数据集进行处理。

团伙识别组件306可接收来自数据准备组件304的用户介质关系集。

团伙识别探索组件306可包括无向子图生成组件314，无向子图生成组件314可对用户介质关系集中的用户介质关系进行处理，以便基于用户介质关系集来生成图。

团伙识别组件306可包括连通子图生成组件316。连通子图生成组件316可对候选子图集应用最大连通子图算法，以便发现与所述子图集中的每个子图对应的最大连通子图。

团伙识别组件306还可包括潜在团伙识别组件318。潜在团伙子图识别组件318可基于图结构特征来识别出被怀疑为与团伙相对应的潜在团伙子图。

例如，潜在团伙子图识别组件318可利用图结构特征来过滤所有子图以便选择出一组潜在团伙子图。

具体而言，假设采用以下图结构特征：

Userid的数量≥4；

UMID数量最多且UMID的数量≥9；且

边的数量≥11。

此时，可过滤出符合上述图结构特征的所有子图，作为潜在团伙子图，其中所述潜在团伙子图中的用户ID为潜在团伙成员。

可选地，团伙识别组件306还可包括用户风险分值计算组件320。在找到潜在团伙子图之后，用户风险分值计算组件320可计算潜在团伙子图中的每个userid(潜在团伙成员)的风险分值。

通常，每个userid的风险分值可以等于与该userid直接连接的边的权重之和。

在一个简单示例中，可将每条边的权重设置为等同。也就是说，在这种情况下，不考虑不同类型的介质ID之间的差异，而将与不同类型的介质ID与userid之间的每条边都等同对待。此外，通常将单个子图中所有边的权重之和设为1，也就是说，将单个子图中的所有潜在团伙成员的风险分值之和设置为1。

例如，假设潜在团伙子图中有5个userid，且有12条边，此时，每条边的权重为1/12。假设其中与第一用户userid1直接连接的边(即第一用户所使用的介质ID数)为3个。此时，可确定userid1的风险分值为：1/12+1/12+1/12＝3*/12＝0.25。

在另一示例中，不是将每条边的权重设置为等同，而是针对与不同类型的介质ID相连的边设置不同的权重。例如，假设根据经验或根据统计，UMID比device_sign更好地标识团伙成员，则可为UMID设置比device_sign更大的权重。

更优选地，团伙识别组件306可用机器学习算法来计算或更新边的权重。

具体而言，团伙识别组件可以将每个子图作为输入，且可采用已知团伙成员的userid(已知团伙成员的风险分值最大)作为标签，采用机器学习模型算法来不断更新每条边的权重。每条边的初始权重例如可采用上面描述的方式来计算(等同或不同)。所采用的机器学习模型可以是任何机器学习模型，优选地为半监督机器学习模型。

通过上面描述的方式，团伙识别组件306可将每个潜在团伙子图作为潜在团伙来输出，其中该潜在团伙子图中的每个userid为潜在团伙的团伙成员。优选地，团伙识别组件306还可输出潜在团伙子图中的每个userid的风险分值。通过这种方式，不仅能够找到潜在团伙，而且能够得到潜在团伙中的每个userid的风险分值，其中风险分值越高，与该userid相对应的用户是团伙成员(例如是赌博用户)的可能性越大。

如同上面已经提及的，图结构探索系统和团伙识别系统的多个组件可共享组件。参见图4，其示出了根据本说明书另一实施例的团伙识别系统400的示意图。

如图4所示，团伙识别系统400可包括数据库402、数据准备组件404、图结构探索组件406和团伙识别组件408。数据库402的细节可参考前面对数据库202和302的描述。

数据准备组件404中的数据接收组件408、数据预处理组件410、关系集生成组件412的细节可分别参考前面对数据接收组件208/308、数据预处理组件210/310、关系集生成组件212/312的描述。

图结构探索组件406的无向子图生成组件414、连通子图生成组件416和图结构特征生成组件418的细节可分别参考前面对无向子图生成组件214、连通子图生成组件216和图结构特征生成组件218的描述。

需要指出的是，在进行图结构探索操作时，各组件所处理的可以是样本数据集(例如包括已知团伙成员的部分数据集)，而在进行潜在团伙识别操作时，各组件所处理的通常是待处理数据集，以便识别出全部潜在团伙。例如，样本数据集可以是待处理数据集的子集。替代地，样本数据集可以是不同于待处理数据集的数据集。

图结构特征生成组件418将所生成的团伙图结构特征传送至潜在团伙识别组件，且连通子图生成组件416将所生成的最大连通子图传送至潜在团伙识别组件420。

潜在团伙识别组件420利用从图结构特征生成组件418接收的团伙图结构特征对从连通子图生成组件416接收的最大连通子图进行处理，以识别出其中的潜在团伙子图。

团伙识别组件408的潜在团伙识别组件420和用户风险分值计算组件422的细节可分别参考前面针对潜在团伙识别组件318和用户风险分值计算组件320的描述。

参见图6，其示出了根据本说明书的实施例的用于探索团伙的图结构特征的方法600的流程图。例如，所述团伙可以为团伙、诈骗团伙或卖淫团伙。

方法600可包括：在步骤602，可获得多个用户的用户ID及所述多个用户所使用的介质的介质ID之间的用户介质关系集。例如，可从数据库接收样本数据集，所述样本数据集包括多个用户的用户身份以及活动信息，所述活动信息指示所述用户所使用的介质的介质ID。随后，可基于所述数据集生成所述用户介质关系集。

方法600可包括：在步骤604，可基于所述用户介质关系集生成多个无向子图。所述无向子图的顶点表示用户ID或介质ID，且连接所述用户ID和所述介质ID的边表示所述用户使用所述介质ID。

方法600可包括：在步骤606，可基于所述多个无向子图生成多个最大连通子图。

方法600可包括：在步骤608，可确定所述多个最大连通子图中的多个团伙子图，所述多个团伙子图包括多个已知团伙成员。确定团伙子图可采用以下方式。在第一种方式中，可针对每个已知团伙成员，确定该已知团伙成员所属的子图；随后，可确定该已知团伙成员所属的子图中的所有已知团伙成员的数量，且如果所述数量大于阈值数量，则可确定该已知团伙成员所属的子图为团伙子图。在第二种方式中，可针对每个已知团伙成员，确定该已知团伙成员所属的子图；随后可确定该已知团伙成员所属的子图中的所有已知团伙成员的数量；随后可确定该已知团伙成员所属的子图中的所有用户的数量；随后可计算该已知团伙成员所属的子图中的所有已知团伙成员的数量占所有用户数量的比例，如果所述比例大于阈值比例，则可确定该已知团伙成员所属的子图为团伙子图。可以领会，可采用其它方式来确定团伙子图。

方法600可包括：在步骤610，可确定所述多个团伙子图的图结构特征。图结构特征可包括以下的一者或多者：用户ID的阈值数量、介质ID的类别和阈值数量、边的阈值数量。可基于对所述多个团伙子图的统计来确定所述图结构特征。例如，可确定所述多个团伙子图中的用户ID的数量的平均值或最小值来作为用户ID的阈值数量。可确定所述多个团伙子图中的数量最多的介质ID的类别作为介质ID的类别。可确定所述多个团伙子图中的所述类别的介质ID的数量的平均值或最小值作为介质ID的阈值数量。可确定所述多个团伙子图中的边的数量的平均值或最小值作为边的阈值数量。上述用户ID的阈值数量、介质ID的类别和阈值数量以及边的阈值数量中的一者或多者可构成图结构特征。

图结构特征随后可被用于识别团伙成员。例如，可确定具有团伙子图的图结构特征的最大连通子图为潜在团伙子图，其中所述潜在团伙子图中的用户ID被认为是潜在团伙成员。具体而言，可从数据库接收第二数据集(待处理数据集)；可基于所述第二数据集生成第二用户介质关系集；可基于所述第二用户介质关系集生成第二多个无向子图；可基于所述第二多个无向子图生成第二多个最大连通子图；随后，可确定所述第二多个最大连通自中中具有所述图结构特征的最大连通子图为潜在团伙子图，其中所述潜在团伙子图中的用户ID被认为是潜在团伙成员。

方法600的各步骤的具体细节可参考上面针对附图2的图结构探索系统200的描述。

参见图7，其示出了根据本说明书的实施例的用于识别团伙成员的方法700的流程图。

方法700可包括：在步骤702，可获得多个用户的用户ID及所述多个用户所使用的介质的介质ID之间的用户介质关系集。具体而言，可从数据库接收数据集(待处理数据集)，所述数据集包括多个用户的用户身份以及活动信息，所述活动信息指示所述用户所使用的介质的介质ID。随后，可基于所述数据集生成所述用户介质关系集。

方法700可包括：在步骤704，可基于所述用户介质关系集生成多个无向子图。所述无向子图的顶点表示用户ID或介质ID，且连接所述用户ID和所述介质ID的边表示所述用户使用所述介质ID；

方法700可包括：在步骤706，可基于所述多个无向子图生成多个最大连通子图。

方法700可包括：在步骤708，可确定所述多个最大连通子图中具有团伙子图的图结构特征的最大连通子图，其中所述团伙子图的图结构特征是基于已知团伙成员所在的子图确定的。所述图结构特征包括以下的一者或多者：用户ID的阈值数量、介质ID的类别和阈值数量、边的阈值数量。

方法700可包括：在步骤710，可确定具有团伙子图的图结构特征的最大连通子图为潜在团伙子图，其中所述潜在团伙子图中的用户ID被认为是潜在团伙成员。

可选地，方法700还可包括：在步骤712，可计算潜在团伙子图中的每个潜在团伙成员的风险分值，所述风险分值指示该潜在团伙成员是真正团伙成员的可能性。例如，每个潜在团伙成员的风险分值可被设置为与其直接连接的边的权重的和。其中，单个潜在团伙子图中的所有边的权重之和可被设为1。在一种示例中，可将每条边的权重设置为等同。在另一种示例中，可基于与边相连的介质ID的类型来确定边的权重。更优选地，可使用机器学习算法来计算或更新边的权重。

方法700的各步骤的具体细节可参考上面针对附图3的团伙识别系统300的描述。

参见图8，其示出了根据本说明书的实施例的用于识别团伙成员的方法800的流程图。

方法800可包括：在步骤802，可获得第一用户介质关系集和第二用户介质关系集，所述第一用户介质关系集和所述第二用户介质关系集包括多个用户的用户ID及所述多个用户所使用的介质的介质ID之间的用户介质关系。

方法800可包括：在步骤804，可基于所述第一用户介质关系集生成第一多个无向子图以及基于第二多个用户介质关系集生成第二多个无向子图，其中所述无向子图的顶点表示用户ID或介质ID，且连接所述用户ID和所述介质ID的边表示所述用户使用所述介质ID。

方法800可包括：在步骤806，可基于所述第一多个无向子图生成第一多个最大连通子图以及基于所述第二多个无向子图生成第二多个最大连通子图。

方法800可包括：在步骤808，可确定所述第一多个最大连通子图中的多个团伙子图，所述多个团伙子图包括多个已知团伙成员。

方法800可包括：在步骤810，可确定所述多个团伙子图的图结构特征。

方法800可包括：在步骤812，可确定所述第二多个最大连通子图中具有所述图结构特征的最大连通子图。

方法800可包括：在步骤814，可确定所述第二多个最大连通子图中具有所述图结构特征的子图为潜在团伙子图，其中所述潜在团伙子图中的用户ID被认为是潜在团伙成员。

方法800的各步骤的具体细节可参考上面针对附图2、3、4的团伙识别系统200、300、400的描述。

而且，本申请还公开了一种包括存储于其上的计算机可执行指令的计算机可读存储介质，所述计算机可执行指令在被处理器执行时使得所述处理器执行本文所述的各实施例的方法。

此外，本申请还公开了一种系统，该系统包括用于实现本文所述的各实施例的方法的装置。

可以理解，根据本说明书的一个或多个实施例的方法可以用软件、固件或其组合来实现。

应该理解，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

应该理解，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

应该理解，本文用单数形式描述或者在附图中仅显示一个的元件并不代表将该元件的数量限于一个。此外，本文中被描述或示出为分开的模块或元件可被组合为单个模块或元件，且本文中被描述或示出为单个的模块或元件可被拆分为多个模块或元件。

还应理解，本文采用的术语和表述方式只是用于描述，本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。

同样，需要指出的是，虽然已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本说明书的一个或多个实施例，在没有脱离本发明精神的情况下还可做出各种等效的变化或替换，因此，只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims

1.一种用于探索团伙的图结构特征的方法，其特征在于，包括：

获得多个用户的用户ID及所述多个用户所使用的介质的介质ID之间的用户介质关系集；

基于所述用户介质关系集生成多个无向子图，其中所述无向子图的顶点表示用户ID或介质ID，且连接所述用户ID和所述介质ID的边表示所述用户使用所述介质ID；

基于所述多个无向子图生成多个最大连通子图；

确定所述多个最大连通子图中的多个团伙子图，所述多个团伙子图包括多个已知团伙成员；以及

确定所述多个团伙子图的图结构特征。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

从数据库接收样本数据集，所述样本数据集包括多个用户的用户身份以及活动信息，所述活动信息指示所述用户所使用的介质的介质ID；以及

基于所述样本数据集生成所述用户介质关系集。

3.如权利要求1所述的方法，其特征在于，所述图结构特征包括以下的一者或多者：用户ID的阈值数量、介质ID的类别和阈值数量、边的阈值数量。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

针对每个已知团伙成员，确定该已知团伙成员所属的子图；

确定该已知团伙成员所属的子图中的所有已知团伙成员的数量；以及

如果所述数量大于阈值数量，则确定该已知团伙成员所属的子图为团伙子图。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

针对每个已知团伙成员，确定该已知团伙成员所属的子图；

确定该已知团伙成员所属的子图中的所有已知团伙成员的数量；

确定该已知团伙成员所属的子图中的所有用户的数量；

计算该已知团伙成员所属的子图中的所有已知团伙成员的数量占所有用户数量的比例；以及

如果所述比例大于阈值比例，则确定该已知团伙成员所属的子图为团伙子图。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

基于对所述多个团伙子图的统计来确定所述图结构特征。

7.如权利要求6所述的方法，其特征在于，所述方法还包括以下的一者或多者：

确定所述多个团伙子图中的用户ID的数量的平均值或最小值来作为用户ID的阈值数量；

确定所述多个团伙子图中的数量最多的介质ID的类别作为介质ID的类别；

确定所述多个团伙子图中的所述类别的介质ID的数量的平均值或最小值作为介质ID的阈值数量；以及

确定所述多个团伙子图中的边的数量的平均值或最小值作为边的阈值数量。

8.如权利要求1所述的方法，其特征在于，所述团伙为赌博团伙、诈骗团伙或卖淫团伙。

9.如权利要求1所述的方法，其特征在于，所述方法还包括：

从数据库接收第二数据集；

基于所述第二数据集生成第二用户介质关系集；

基于所述第二用户介质关系集生成第二多个无向子图；

基于所述第二多个无向子图生成第二多个最大连通子图；

确定所述第二多个最大连通自中中具有所述图结构特征的最大连通子图为潜在团伙子图，其中所述潜在团伙子图中的用户ID被认为是潜在团伙成员。

10.一种用于识别团伙成员的方法，其特征在于，包括：

基于所述多个无向子图生成多个最大连通子图；

确定所述多个最大连通子图中具有团伙子图的图结构特征的最大连通子图，其中所述团伙子图的图结构特征是基于已知团伙成员所在的最大连通子图确定的；以及

确定具有团伙子图的图结构特征的最大连通子图为潜在团伙子图，其中所述潜在团伙子图中的用户ID被认为是潜在团伙成员。

11.如权利要求10所述的方法，其特征在于，所述方法还包括：

从数据库接收数据集，所述数据集包括多个用户的用户身份以及活动信息，所述活动信息指示所述用户所使用的介质的介质ID；以及

基于所述数据集生成所述用户介质关系集。

12.如权利要求10所述的方法，其特征在于，所述图结构特征包括以下的一者或多者：用户ID的阈值数量、介质ID的类别和阈值数量、边的阈值数量。

13.如权利要求10所述的方法，其特征在于，所述方法还包括：

计算潜在团伙子图中的每个潜在团伙成员的风险分值，所述风险分值指示该潜在团伙成员是真正团伙成员的可能性。

14.如权利要求11所述的方法，其特征在于，所述方法还包括：

每个潜在团伙成员的风险分值为与其直接连接的边的权重的和，且单个潜在团伙子图中的所有边的权重之和为1。

15.如权利要求14所述的方法，其特征在于，所述方法还包括：

将每条边的权重设置为等同。

16.如权利要求14所述的方法，其特征在于，所述方法还包括：

基于与边相连的介质ID的类型来确定边的权重。

17.如权利要求14所述的方法，其特征在于，所述方法还包括：

使用机器学习算法来计算或更新边的权重。

18.一种用于识别团伙成员的方法，其特征在于，包括：

获得第一用户介质关系集和第二用户介质关系集，所述第一用户介质关系集和所述第二用户介质关系集包括多个用户的用户ID及所述多个用户所使用的介质的介质ID之间的用户介质关系；

基于所述第一用户介质关系集生成第一多个无向子图以及基于第二多个用户介质关系集生成第二多个无向子图，其中所述无向子图的顶点表示用户ID或介质ID，且连接所述用户ID和所述介质ID的边表示所述用户使用所述介质ID；

基于所述第一多个无向子图生成第一多个最大连通子图以及基于所述第二多个无向子图生成第二多个最大连通子图；

确定所述第一多个最大连通子图中的多个团伙子图，所述多个团伙子图包括多个已知团伙成员；

确定所述多个团伙子图的图结构特征；

确定所述第二多个最大连通子图中具有所述图结构特征的最大连通子图；以及

确定所述第二多个最大连通子图中具有所述图结构特征的最大连通子图为潜在团伙子图，其中所述潜在团伙子图中的用户ID被认为是潜在团伙成员。

19.一种存储指令的计算机可读存储介质，所述指令当被计算机执行时，使所述计算机执行如权利要求1-9中任一项所述的方法。

20.一种存储指令的计算机可读存储介质，所述指令当被计算机执行时，使所述计算机执行如权利要求10-17中任一项所述的方法。

21.一种存储指令的计算机可读存储介质，所述指令当被计算机执行时，使所述计算机执行如权利要求18所述的方法。

22.一种系统，包括用于执行如权利要求1-9中任一项所述的方法的装置。

23.一种系统，包括用于执行如权利要求10-17中任一项所述的方法的装置。

24.一种系统，包括用于执行如权利要求18所述的方法的装置。