CN110032583B

CN110032583B - 一种欺诈团伙识别方法、装置、可读存储介质及终端设备

Info

Publication number: CN110032583B
Application number: CN201910184809.7A
Authority: CN
Inventors: 毕文智; 谢波
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2024-05-07
Anticipated expiration: 2039-03-12
Also published as: CN110032583A

Abstract

本发明属于计算机技术领域，尤其涉及一种欺诈团伙识别方法、装置、计算机可读存储介质及终端设备。所述方法在用户数据库中分别提取各个用户的工具使用记录；根据所述工具使用记录构建各个用户与各个工具之间的关系图，其中，将各个用户与各个工具分别作为所述关系图的顶点，将各个用户与各个工具之间的关系作为所述关系图的边；对所述关系图进行社区划分，得到各个用户社区；分别计算各个用户社区的工具复用度；从各个用户社区中选取工具复用度大于预设的复用度阈值的用户社区作为欺诈团伙。通过本发明实施例，充分利用了欺诈团伙的特殊行为特征，通过用户工具使用情况识别出欺诈团伙，相比于针对单个用户进行的识别，大大提高了识别效率。

Description

一种欺诈团伙识别方法、装置、可读存储介质及终端设备

技术领域

本发明属于计算机技术领域，尤其涉及一种欺诈团伙识别方法、装置、计算机可读存储介质及终端设备。

背景技术

随着互联网的日益发展，互联网技术和服务业不断结合，衍生出形形色色的互联网服务。其中，互联网金融服务的发展尤为突出，并且随着移动互联网的发展，互联网金融给使用者的生活带来了极大的方便。

在互联网金融日益发展的今天，出现了许多不法分子尤其是形成组织的欺诈用户社区，对互联网金融公司带来极高的风控成本和巨大的损失。其中，针对互联网金融行业的小额贷款、分期等产品以及相关促销活动，不法分子已经从个体欺诈逐渐转变为有一定组织性的团伙欺诈，进行大批量的“薅羊毛”行为，对互联网金融公司造成了巨大损失。

目前，互联网金融公司通常会根据用户的个体信息来对其欺诈风险进行识别，并实施风控处理，即都是针对单个用户进行识别的，缺乏针对欺诈团体的识别手段，识别效率较低。

发明内容

有鉴于此，本发明实施例提供了一种欺诈团伙识别方法、装置、计算机可读存储介质及终端设备，以解决现有技术都是针对单个用户进行识别，缺乏针对欺诈团体的识别手段，识别效率较低的问题。

本发明实施例的第一方面提供了一种欺诈团伙识别方法，可以包括：

在预设的用户数据库中分别提取各个用户的工具使用记录；

根据所述工具使用记录构建各个用户与各个工具之间的关系图，其中，将各个用户与各个工具分别作为所述关系图的顶点，将各个用户与各个工具之间的关系作为所述关系图的边；

对所述关系图进行社区划分，得到各个用户社区；

分别计算各个用户社区的工具复用度，所述工具复用度为各个工具被用户复用的平均次数；

从各个用户社区中选取工具复用度大于预设的复用度阈值的用户社区作为欺诈团伙。

本发明实施例的第二方面提供了一种欺诈团伙识别装置，可以包括：

工具使用记录提取模块，用于在预设的用户数据库中分别提取各个用户的工具使用记录；

关系图构建模块，用于根据所述工具使用记录构建各个用户与各个工具之间的关系图，其中，将各个用户与各个工具分别作为所述关系图的顶点，将各个用户与各个工具之间的关系作为所述关系图的边；

用户社区划分模块，用于对所述关系图进行社区划分，得到各个用户社区；

工具复用度计算模块，用于分别计算各个用户社区的工具复用度，所述工具复用度为各个工具被用户复用的平均次数；

欺诈团伙选取模块，用于从各个用户社区中选取工具复用度大于预设的复用度阈值的用户社区作为欺诈团伙。

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

在预设的用户数据库中分别提取各个用户的工具使用记录；

对所述关系图进行社区划分，得到各个用户社区；

本发明实施例的第四方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

在预设的用户数据库中分别提取各个用户的工具使用记录；

对所述关系图进行社区划分，得到各个用户社区；

本发明实施例与现有技术相比存在的有益效果是：本发明实施例首先在预设的用户数据库中分别提取各个用户的工具使用记录，根据所述工具使用记录构建各个用户与各个工具之间的关系图，其中，将各个用户与各个工具分别作为所述关系图的顶点，将各个用户与各个工具之间的关系作为所述关系图的边，然后对所述关系图进行社区划分，得到各个用户社区，并分别计算各个用户社区的工具复用度，所述工具复用度为各个工具被用户复用的平均次数，考虑到欺诈团伙一般用控制大量的用户账户，但由于作案成本原因，欺诈团伙不会持有大量作案工具，因此，在欺诈团伙中会存在大量用户使用少量作案工具的现象，而这种现象基本不可能出现在正常用户中，因此，可以利用这一现象从各个用户社区中选取工具复用度大于预设的复用度阈值的用户社区作为欺诈团伙。通过本发明实施例，充分利用了欺诈团伙的特殊行为特征，通过对用户工具使用情况的分析识别出欺诈团伙，相比于针对单个用户进行的识别，大大提高了识别效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中一种欺诈团伙识别方法的一个实施例流程图；

图2为各个用户与各个工具之间的关系图的一个示意图；

图3为对关系图进行社区划分，得到各个用户社区的示意流程图；

图4为本发明实施例中一种欺诈团伙识别装置的一个实施例结构图；

图5为本发明实施例中一种终端设备的示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种欺诈团伙识别方法的一个实施例可以包括：

步骤S101、在预设的用户数据库中分别提取各个用户的工具使用记录。

在系统的运行过程中，会对每个用户在系统中的行为进行详细的记录，并存储在所述用户数据库中。在需要对用户行为进行分析时，可以在所述用户数据库中获取系统中的全量用户及用户相关的行为数据。在每个用户的行为数据中包括其在系统中的工具使用记录，所述工具包括但不限于手机设备、WiFi设备、银行卡等。

其中，可以将用户的注册账户作为用户的唯一标识，将手机设备的国际移动设备识别码(International Mobile Equipment Identity，IMEI)作为手机设备的唯一标识，将WiFi设备的物理地址(即媒体访问控制地址，Media Access Control，MAC)作为WiFi设备的唯一标识，将银行卡的卡号作为银行卡的唯一标识。

步骤S102、根据所述工具使用记录构建各个用户与各个工具之间的关系图。

图(Graph)是表示物件与物件之间的关系的数学对象，是图论的基本研究对象。如果给图的每条边规定一个方向，那么得到的图称为有向图。在有向图中，与一个顶点相关联的边有出边(以该顶点为起点的边)和入边(以该顶点为终点的边)之分。相反，边没有方向的图称为无向图。在本实施例中的所述关系图可以是有向图，也可以是无向图。

其中，可以将各个用户与各个工具分别作为所述关系图的顶点，具体地，可以将每个用户均作为所述关系图中的一个类型为用户的顶点，将所述工具使用记录中的每个工具均作为所述关系图中的一个类型为相应工具的顶点，比如，可以将每个手机设备均作为所述关系图中的一个类型为手机的顶点，将每个WiFi设备均作为所述关系图中的一个类型为WiFi的顶点，将每个银行卡均作为所述关系图中的一个类型为银行卡的顶点。

还可以将各个用户与各个工具之间的关系作为所述关系图的边。比如，用户1拥有手机设备A，则在用户1和手机设备A之间可以构建一条边，同理可以根据用户到其他工具之间的关系构建其他的边，最终使得关系图的顶点与边构建完成。

例如，对于如下表所示的工具使用记录：

用户	工具
		用户1	工具A
用户2	工具A
		用户3	工具A、工具B
用户4	工具A
		用户5	工具B
用户6	工具B
		用户7	工具B
用户8	工具C
		用户9	工具C
用户10	工具D

可以构建出如图2所示的关系图，需要注意的是，在图2中采用的是有向图的形式，边的方向为由类型为用户的顶点指向类型为工具的顶点。但在实际应用中，还可以根据具体情况将边的方向设置为由类型为工具的顶点指向类型为用户的顶点，或者采用无向图的形式。

步骤S103、对所述关系图进行社区划分，得到各个用户社区。

社区划分，是分析网络结构的一种重要技术，是通过在一个包含顶点和边的图上把图中的顶点进行聚类，构成一个个的社区，社区内部的顶点之间的连接相对稠密，而不同社区的顶点之间的连接相对稀疏。

如图3所示，步骤S103具体可以包括如下过程：

步骤S1031、将所述关系图中的每个顶点分别作为一个社区，并计算所述关系图的初始模块度。

在实际应用中，模块度法是用来衡量社区划分质量的一种常用方法。可以理解的是，关系图的初始状态是未被划分社区的，为了可以进行后续的社区划分，在本实施例中，可以将上述还未被划分社区的关系图中的每个顶点作为一个社区，并计算该关系图的初始模块度。

其中，初始模块度可以按以下步骤计算：

将每个社区内所有被连接的顶点所对应的边数之和，作为每个社区对应的内部特征数据和，将所有社区的上述内部特征数据和之和，作为社区特征数据和，由于初始模块度对应的关系图中每个社区只有一个顶点，因此，每个社区对应的内部特征数据和为0，社区特征数据和也为0；将所有连接不同社区的两个顶点所对应的边数之和，作为社区间特征数据和；将上述社区特征数据和与上述社区间特征数据和之差，作为该关系图的初始模块度。

步骤S1032、针对每一个顶点，将所述顶点分别划分至各个社区，并分别计算所述顶点划分至任一社区后形成的测试社区结构的目标模块度。

具体地，针对每一个顶点，将所述顶点分别划分至各个社区，将每个社区内所有被连接的顶点所对应的边数之和作为每个社区对应的内部特征数据和；将所有社区的所述内部特征数据和之和作为社区特征数据和；将所有连接不同社区的两个顶点所对应的边数之和作为社区间特征数据和；将所述社区特征数据和与所述社区间特征数据和之差作为所述顶点划分至任一社区后形成的测试社区结构的目标模块度。

社区内的顶点联系越紧密，社区间的顶点联系稀疏，说明社区的划分的质量越高。因此，为分析社区划分质量，可以将社区内的特征数据与社区间的特征数据进行比较，用社区特征数据与社区间特征数据来定义模块度，可以使社区划分更符合实际情况，使社区划分更准确。

步骤S1033、针对每一个顶点，计算所述顶点对应的每个测试社区结构的目标模块度与所述初始模块度的差值，并将所述顶点划分至所述差值最大时对应的社区中。

模块度的值可以反映一个社区结构划分的质量，模块度的值越大，说明社区划分越合理。因此，在本实施例中，为将顶点划分在与该顶点关系最紧密的社区中，可以针对每一个顶点，计算该顶点对应的每个目标测试社区结构的模块度与上述初始模块度的差值，并将该顶点划分在上述差值最大时对应的社区中。

利用模块度对关系图中的顶点进行社区划分，可以量化评估将顶点划分在与哪个社区中最合理，从而使顶点可以被划分在与该顶点关系最紧密的社区中，社区划分更准确。

步骤S104、分别计算各个用户社区的工具复用度，所述工具复用度为各个工具被用户复用的平均次数。

首先，统计第c个用户社区中各个工具分别被用户复用的次数(也即与工具顶点相连的边的个数，如果为所述关系图为有向图，且边的方向为由类型为用户的顶点指向类型为工具的顶点，则可以用工具顶点的入度代替，如果为所述关系图为有向图，且边的方向为由类型为工具的顶点指向类型为用户的顶点，则可以用工具顶点的出度代替)，1≤c≤ComNum，ComNum为用户社区的总数。

然后，根据下式分别计算各个用户社区的工具复用度：

其中，t为各个工具的序号，1≤t≤TlNum_c，TlNum_c为第c个用户社区中第t个工具被用户复用的次数，MulDeg_c为第c个用户社区的工具复用度。

步骤S105、从各个用户社区中选取工具复用度大于预设的复用度阈值的用户社区作为欺诈团伙。

通过上述过程，划分出了多个用户社区，并分别计算出了各个用户社区的工具复用度，考虑到欺诈团伙一般用控制大量的用户账户，但由于作案成本原因，欺诈团伙不会持有大量作案工具，因此，在欺诈团伙中会存在大量用户使用少量作案工具的现象，而这种现象基本不可能出现在正常用户中，

根据这一现象，即可以设置一个复用度阈值，当某一用户社区的工具复用度大于这一阈值，则可以将该用户社区视为欺诈团伙，从而可以从众多的社区中识别出欺诈团伙。

所述复用度阈值的设置过程可以包括：

从预设的数据库中获取各个历史欺诈团伙，所述历史欺诈团伙为已被识别为欺诈团伙的用户社区。

分别计算各个历史欺诈团伙的工具复用度，并构造如下所示的样本集合：

SampleSet＝{HsMulDeg₁、HsMulDeg₂、…、HsMulDeg_h、…、HsMulDeg_HN}

其中，h为各个历史欺诈团伙的序号，1≤h≤HN，HN为历史欺诈团伙的总数，HsMulDeg_h为第h个历史欺诈团伙的工具复用度，SampleSet为所述样本集合。

按照预设的第一选取比例从所述样本集合中选取取值最大的样本，并将选取的样本构造为如下所示的最大样本集合。

MaxSet＝{HsMulDegMax₁、HsMulDegMax₂、…、HsMulDegMax_hmax、…、HsMulDegMax_MaxNum}

其中，MaxSet为所述最大样本集合，MaxNum为所述最大样本集合中的样本个数，且MaxNum＝HN×η₁，η₁为所述第一选取比例，可以根据实际情况进行设置，例如，可以将其设置为0.1、0.2、0.3或者其它取值，hmax为所述最大样本集合中的样本序号，1≤hmax≤MaxNum，HsMulDegMax_hmax为所述最大样本集合的第hmax个样本。

按照预设的第二选取比例从所述样本集合中选取取值最小的样本，并将选取的样本构造为如下所示的最小样本集合：

MinSet＝{HsMulDegMin₁、HsMulDegMin₂、…、HsMulDegMin_hmin、…、HsMulDegMin_MinNum}

其中，MinSet为所述最小样本集合，MinNum为所述最小样本集合中的样本个数，且MinNum＝HN×η₂，η₂为所述第二选取比例，可以根据实际情况进行设置，例如，可以将其设置为0.1、0.2、0.3或者其它取值，hmin为所述最小样本集合中的样本序号，1≤hmin≤MinNum，HsMulDegMin_hmin为所述最小样本集合的第hmin个样本。

构造如下所示的中值样本集合：

MidSet＝{HsMulDegMid₁、HsMulDegMid₂、…、HsMulDegMid_hmid、…、HsMulDegMid_MidNum}

其中，MidSet为所述中值样本集合，且MidSet＝SampleSet－MaxSet－MinSet，MidNum为所述中值样本集合中的样本个数，且MidNum＝HN×(1-η₁-η₂)，hmid为所述中值样本集合中的样本序号，1≤hmid≤MidNum，HsMulDegMid_hmid为所述中值样本集合的第hmid个样本；

根据下式计算所述复用度阈值：

其中，Coef为预设的系数，可以根据实际情况进行设置，例如，可以将其设置为0.5、1、2或者其它取值，MulDegThresh为所述复用度阈值。

综上所述，本发明实施例首先在预设的用户数据库中分别提取各个用户的工具使用记录，根据所述工具使用记录构建各个用户与各个工具之间的关系图，其中，将各个用户与各个工具分别作为所述关系图的顶点，将各个用户与各个工具之间的关系作为所述关系图的边，然后对所述关系图进行社区划分，得到各个用户社区，并分别计算各个用户社区的工具复用度，所述工具复用度为各个工具被用户复用的平均次数，考虑到欺诈团伙一般用控制大量的用户账户，但由于作案成本原因，欺诈团伙不会持有大量作案工具，因此，在欺诈团伙中会存在大量用户使用少量作案工具的现象，而这种现象基本不可能出现在正常用户中，因此，可以利用这一现象从各个用户社区中选取工具复用度大于预设的复用度阈值的用户社区作为欺诈团伙。通过本发明实施例，充分利用了欺诈团伙的特殊行为特征，通过对用户工具使用情况的分析识别出欺诈团伙，相比于针对单个用户进行的识别，大大提高了识别效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的一种欺诈团伙识别方法，图4示出了本发明实施例提供的一种欺诈团伙识别装置的一个实施例结构图。

本实施例中，一种欺诈团伙识别装置可以包括：

工具使用记录提取模块401，用于在预设的用户数据库中分别提取各个用户的工具使用记录；

关系图构建模块402，用于根据所述工具使用记录构建各个用户与各个工具之间的关系图，其中，将各个用户与各个工具分别作为所述关系图的顶点，将各个用户与各个工具之间的关系作为所述关系图的边；

用户社区划分模块403，用于对所述关系图进行社区划分，得到各个用户社区；

工具复用度计算模块404，用于分别计算各个用户社区的工具复用度，所述工具复用度为各个工具被用户复用的平均次数；

欺诈团伙选取模块405，用于从各个用户社区中选取工具复用度大于预设的复用度阈值的用户社区作为欺诈团伙。

进一步地，所述用户社区划分模块可以包括：

初始模块度计算单元，用于将所述关系图中的每个顶点分别作为一个社区，并计算所述关系图的初始模块度；

目标模块度计算单元，用于针对每一个顶点，将所述顶点分别划分至各个社区，并分别计算所述顶点划分至任一社区后形成的测试社区结构的目标模块度；

顶点划分单元，用于针对每一个顶点，计算所述顶点对应的每个测试社区结构的目标模块度与所述初始模块度的差值，并将所述顶点划分至所述差值最大时对应的社区中。

进一步地，所述目标模块度计算单元可以包括：

第一计算子单元，用于针对每一个顶点，将所述顶点分别划分至各个社区，将每个社区内所有被连接的顶点所对应的边数之和作为每个社区对应的内部特征数据和；

第二计算子单元，用于将所有社区的所述内部特征数据和之和作为社区特征数据和；

第三计算子单元，用于将所有连接不同社区的两个顶点所对应的边数之和作为社区间特征数据和；

第四计算子单元，用于将所述社区特征数据和与所述社区间特征数据和之差作为所述顶点划分至任一社区后形成的测试社区结构的目标模块度。

进一步地，所述工具复用度计算模块可以包括：

复用次数统计单元，用于统计第c个用户社区中各个工具分别被用户复用的次数，1≤c≤ComNum，ComNum为用户社区的总数；

工具复用度计算单元，用于根据下式分别计算各个用户社区的工具复用度：

进一步地，所述欺诈团伙识别装置还可以包括：

历史欺诈团伙获取模块，用于从预设的数据库中获取各个历史欺诈团伙，所述历史欺诈团伙为已被识别为欺诈团伙的用户社区；

样本集合构造模块，用于分别计算各个历史欺诈团伙的工具复用度，并构造如下所示的样本集合：

SampleSet＝{HsMulDeg₁、HsMulDeg₂、…、HsMulDeg_h、…、HsMulDeg_HN}

其中，h为各个历史欺诈团伙的序号，1≤h≤HN，HN为历史欺诈团伙的总数，HsMulDeg_h为第h个历史欺诈团伙的工具复用度，SampleSet为所述样本集合；

最大样本集合构造模块，用于按照预设的第一选取比例从所述样本集合中选取取值最大的样本，并将选取的样本构造为如下所示的最大样本集合：

其中，MaxSet为所述最大样本集合，MaxNum为所述最大样本集合中的样本个数，且MaxNum＝HN×η₁，η₁为所述第一选取比例，hmax为所述最大样本集合中的样本序号，1≤hmax≤MaxNum，HsMulDegMax_hmax为所述最大样本集合的第hmax个样本；

最小样本集合构造模块，用于按照预设的第二选取比例从所述样本集合中选取取值最小的样本，并将选取的样本构造为如下所示的最小样本集合：

其中，MinSet为所述最小样本集合，MinNum为所述最小样本集合中的样本个数，且MinNum＝HN×η₂，η₂为所述第二选取比例，hmin为所述最小样本集合中的样本序号，1≤hmin≤MinNum，HsMulDegMin_hmin为所述最小样本集合的第hmin个样本；

中值样本集合构造模块，用于构造如下所示的中值样本集合：

MidSet＝{HsMulDegMid₁、HsMulDegMid₂、…、HsMulDegMid_hmid、…、HsMulDegMid_MidNum}其中，MidSet为所述中值样本集合，且MidSet＝SampleSet－MaxSet－MinSet，MidNum为所述中值样本集合中的样本个数，且MidNum＝HN×(1-η₁-η₂)，hmid为所述中值样本集合中的样本序号，1≤hmid≤MidNum，HsMulDegMid_hmid为所述中值样本集合的第hmid个样本；

复用度阈值计算模块，用于根据下式计算所述复用度阈值：

其中，Coef为预设的系数，MulDegThresh为所述复用度阈值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图5示出了本发明实施例提供的一种终端设备的示意框图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本实施例中，所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备5可包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52，例如执行上述的欺诈团伙识别方法的计算机可读指令。所述处理器50执行所述计算机可读指令52时实现上述各个欺诈团伙识别方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块401至405的功能。

示例性的，所述计算机可读指令52可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器50执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。

所述处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备5所需的其它指令和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种欺诈团伙识别方法，其特征在于，包括：

在预设的用户数据库中分别提取各个用户的工具使用记录；

将所述关系图中的每个顶点分别作为一个社区，并计算所述关系图的初始模块度；

针对每一个顶点，将所述顶点分别划分至各个社区，将每个社区内所有被连接的顶点所对应的边数之和作为每个社区对应的内部特征数据和；将所有社区的所述内部特征数据和之和作为社区特征数据和；将所有连接不同社区的两个顶点所对应的边数之和作为社区间特征数据和；将所述社区特征数据和与所述社区间特征数据和之差作为所述顶点划分至任一社区后形成的测试社区结构的目标模块度；

针对每一个顶点，计算所述顶点对应的每个测试社区结构的目标模块度与所述初始模块度的差值，并将所述顶点划分至所述差值最大时对应的社区中；

从各个用户社区中选取工具复用度大于预设的复用度阈值的用户社区作为欺诈团伙；所述复用度阈值为针对各个历史欺诈团伙的工具复用度，按照预设的第一选取比例剔除取值最大的工具复用度，按照预设的第二选取比例剔除取值最小的工具复用度，对剩余的工具复用度求均值并乘以预设的系数所得的结果，所述历史欺诈团伙为已被识别为欺诈团伙的用户社区。

2.根据权利要求1所述的欺诈团伙识别方法，其特征在于，所述分别计算各个用户社区的工具复用度包括：

统计第c个用户社区中各个工具分别被用户复用的次数，1≤c≤ComNum，ComNum为用户社区的总数；

根据下式分别计算各个用户社区的工具复用度：

其中，t为各个工具的序号，1≤t≤TlNum_c，TlNum_c为第c个用户社区中的工具总数，MulNum_c,t为第c个用户社区中第t个工具被用户复用的次数，MulDeg_c为第c个用户社区的工具复用度。

3.根据权利要求1至2中任一项所述的欺诈团伙识别方法，其特征在于，所述复用度阈值的设置过程包括：

从预设的数据库中获取各个历史欺诈团伙，所述历史欺诈团伙为已被识别为欺诈团伙的用户社区；

SampleSet＝{HsMulDeg₁、HsMulDeg₂、…、HsMulDeg_h、…、HsMulDeg_HN}

按照预设的第一选取比例从所述样本集合中选取取值最大的样本，并将选取的样本构造为如下所示的最大样本集合：

MaxSet＝{HsMulDegMax₁、HsMulDegMax₂、…、HsMulDegMax_hmax、…、HsMulDegMax_MaxNum}其中，MaxSet为所述最大样本集合，MaxNum为所述最大样本集合中的样本个数，且MaxNum＝HN×η₁，η₁为所述第一选取比例，hmax为所述最大样本集合中的样本序号，1≤hmax≤MaxNum，HsMulDegMax_hmax为所述最大样本集合的第hmax个样本；

MinSet＝{HsMulDegMin₁、HsMulDegMin₂、…、HsMulDegMin_hmin、…、HsMulDegMin_MinNum}其中，MinSet为所述最小样本集合，MinNum为所述最小样本集合中的样本个数，且MinNum＝HN×η₂，η₂为所述第二选取比例，hmin为所述最小样本集合中的样本序号，1≤hmin≤MinNum，HsMulDegMin_hmin为所述最小样本集合的第hmin个样本；

构造如下所示的中值样本集合：

根据下式计算所述复用度阈值：

其中，Coef为预设的系数，MulDegThresh为所述复用度阈值。

4.一种欺诈团伙识别装置，其特征在于，包括：

用户社区划分模块，用于将所述关系图中的每个顶点分别作为一个社区，并计算所述关系图的初始模块度；针对每一个顶点，将所述顶点分别划分至各个社区，将每个社区内所有被连接的顶点所对应的边数之和作为每个社区对应的内部特征数据和；将所有社区的所述内部特征数据和之和作为社区特征数据和；将所有连接不同社区的两个顶点所对应的边数之和作为社区间特征数据和；将所述社区特征数据和与所述社区间特征数据和之差作为所述顶点划分至任一社区后形成的测试社区结构的目标模块度；针对每一个顶点，计算所述顶点对应的每个测试社区结构的目标模块度与所述初始模块度的差值，并将所述顶点划分至所述差值最大时对应的社区中；

欺诈团伙选取模块，用于从各个用户社区中选取工具复用度大于预设的复用度阈值的用户社区作为欺诈团伙；所述复用度阈值为针对各个历史欺诈团伙的工具复用度，按照预设的第一选取比例剔除取值最大的工具复用度，按照预设的第二选取比例剔除取值最小的工具复用度，对剩余的工具复用度求均值并乘以预设的系数所得的结果，所述历史欺诈团伙为已被识别为欺诈团伙的用户社区。

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至3中任一项所述的欺诈团伙识别方法的步骤。

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至3中任一项所述的欺诈团伙识别方法的步骤。