CN113129010A

CN113129010A - 一种基于复杂网络模型的欺诈团伙挖掘系统及其挖掘方法

Info

Publication number: CN113129010A
Application number: CN202010030013.9A
Authority: CN
Inventors: 李龙; 刘殿中
Original assignee: Lianyang Guorong Beijing Technology Co ltd
Current assignee: Lianyang Guorong Beijing Technology Co ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2021-07-16

Abstract

本发明公开了一种基于复杂网络模型的欺诈团伙挖掘系统及其挖掘方法，包括：构建模块，用于构建移动通话用户行为网络；检测模块，用于对移动通话用户行为网络群体检测；提取模块，基于复杂网络理论和用户信息提取特征；挖掘模块，采用多种算法进行欺诈团伙挖掘。本发明的有益效果为；采用多种算法进行欺诈团伙挖掘。本发明考虑了移动通话用户网络的拓扑关联和用户自有属性，充分利用了用户通话行为、用户移动通讯设备的imei码、用户地理位置等数据，有效提升了预测效果。

Description

一种基于复杂网络模型的欺诈团伙挖掘系统及其挖掘方法

技术领域

本发明涉及互联网金融领域反欺诈领域，具体来说，涉及一种基于复杂网络模型的欺诈团伙挖掘系统及其挖掘方法。

背景技术

随着互联网金融和传统金融的融合发展，出现了第三方支付、网络借贷、消费金融等新型交易模式，也客观上给金融欺诈带来了更加多样化的风险空间。潜在的欺诈漏洞和技巧更加多样化，出现了具有专业技能的职业金融诈骗团伙。对于金融机构而言，需要构建完备的风险控制方法来识别欺诈团伙，避免金融欺诈的发生，尤其对于消费金融业务而言，风险控制的水平直接决定了是否盈利。

目前传统的欺诈用户识别方法大致可分为逻辑回归、GBDT、GBDT+LR 三类。上述模型将用户属性信息视为对象，将用户欺诈与否视为预测变量，提取用户年龄、用户职业情况、用户年平均收入、用户固定资产数额、以及分箱后的weight of evidence值等作为特征，然后选择随机森林、支持向量机、神经网络等构建模型。概括而言，现有方法主要基于客户的信用属性和基于专家经验的构造特征训练模型。当面对新型团伙欺诈时，传统的反欺诈工具就显得势单力薄。团伙欺诈相对于信息造假、撸羊毛等行为造成的损失更加严重，发现团伙的难度也更大，为了发现团伙，我们通常需要分析多层级的数据，一度关联、二度关联甚至是更多维度关联。通过复杂网络理论找出社区，可以帮助我们有效快速的发现隐藏的共同特征。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于复杂网络模型的欺诈团伙挖掘系统及其挖掘方法，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种基于复杂网络模型的欺诈团伙挖掘系统，包括：

构建模块，用于构建移动通话用户行为网络；

检测模块，用于对移动通话用户行为网络群体检测；

提取模块，基于复杂网络理论和用户信息提取特征；

挖掘模块，采用多种算法进行欺诈团伙挖掘。

优选的，上述构建移动通话用户行为网络，基于存储于数据库的用户通话历史行为，构建以全体用户为节点、用户通话行为、设备识别码、地理位置信息为连边的多个动态移动通话用户行为网络G＝(V，L)，其中，V代表移动通话用户集合，V＝{v₁，v₂，…v_n}，n＝|V|是用户总数；L代表用户间存在的通话行为或设备识别码或地理位置信息集合，L＝{<v_h，v_l>|v_h，v_l∈V，1＜h，l＜n}，其中，G的邻接矩阵为A＝(a_ij)∈R^N×N，当<V_h，V_l>∈L，a_ij＝1，反之a_ij＝0。

优选的，上述构建模块还用于构建移动通话用户行为矩阵。

优选的，上述构建移动通话用户行为矩阵，将所抽取数据的初始时刻作为起始时间，并按固定时段为间隔划分时段，假定有T个时段，设Y_λ∈R^N×N为t时段的移动通话用户行为矩阵，其元素为

可以代表t时段用户i与用户j^j的通话时长、通话次数、平均通话时长、设备识别码或者地理位置信息等，因此，

构成了一个T维的高维度向量。

优选的，上述对移动通话用户行为网络群体检测，群体(Community，又译作社区)反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系，社团检测就是要在一个网络中找到这些社团，即一批关联紧密的顶点；本专利依次采取了BGLL算法、Infomap算法、CLIQUE等算法对移动通话用户行为网络进行了群体检测；

在群体检测时，本发明按次序采取设备识别码、地理位置信息、用户通话时长、通话次数、平均通话时长等作为移动通话用户行为网络的权重。

优选的，上述BGLL算法是最大化整个网络模块度的群体检测算法，模块度的计算如下：

其中m为图中边的总数量，k_i表示所有指向节点i的连边权重之和，k_j同理，A_ij表示节点i，j之间的连边权重，C_i表示节点i属于哪一个社区，C_j同理，若C_i＝C_j，δ(C_i，C_j)＝1，反之，为0；

BGLL算法速度快，可以处理大规模网络，无需指定社团数量，当模块度不再增益时自动停止。

优选的，上述CLIQUE算法是一种类似于Apriori的子空间聚类算法， CLIQUE算法把每个维划分成不重叠的社区，从而把数据对象的整个嵌入空间划分成单元，它使用一个密度阈值来识别稠密单位，一个单元是稠密的，如果映射到它的对象超过密度阈值；

CLIQUE算法是基于网格的空间聚类算法，但它同时也非常好的结合了基于密度的聚类算法，因此既能够发现任意形状的簇，又可以像基于网格的算法一样处理较大的多维数据。

优选的，上述基于复杂网络理论和用户信息提取特征，将社团视为节点，提取社团的拓扑特征；提取社团内部的拓扑特征；提取社团的群体特征；提取社团的临时性特征。

优选的，上述采用多种算法进行欺诈团伙挖掘，先使用Boosting模型和多种时序神经网络模型学习历史数据，再基于FRAUDAR算法、标签传播算法进行欺诈团伙挖掘，最终使用投票法进行欺诈团伙的判定；通过加权F1-score来评判各个模型的优劣。

根据本发明的另一方面，提供了一种基于复杂网络模型的欺诈团伙挖掘方法。

包括以下步骤：

基于存储于数据库的用户通话历史行为，构建以用户为节点、以用户通话行为、设备识别码、地理位置信息为连边的时序移动通话用户行为网络；

依次采用设备识别码、重地理位置信息、用户通话时长、通话次数、平均通话时长等作为权，使用多种社团发现算法进行群体检测，对于同一用户，可能会被不同算法划分进不同群体，本专利集成多个结果并以重叠社团为研究对象；

基于复杂网络理论和用户信息提取特征：基于复杂网络理论，提取社团的拓扑特征，根据地理位置、用户移动通话行为、IP信息、设备识别码、手机所包含app信息提取社团的群体特征；

先使用Boosting模型和多种时序神经网络模型学习历史数据，再基于 FRAUDAR算法、标签传播算法进行欺诈团伙挖掘，最终使用投票法进行欺诈团伙的判定，通过加权F1-score来评判各个模型的优劣。

本发明的有益效果为：考虑用户与用户之间的交互影响，本专利构建了移动通话用户网络。然后，对用户基于不同权重采用不同的社区发现算法进行群体检测发现重叠社区。在此基础上，根据复杂网络理论提取网络拓扑特征。根据地理位置、用户移动通话行为、IP信息、设备识别码、手机所包含app 信息提取社团的群体特征。最后，采用多种算法进行欺诈团伙挖掘。本发明考虑了移动通话用户网络的拓扑关联和用户自有属性，充分利用了用户通话行为、用户移动通讯设备的imei码、用户地理位置等数据，有效提升了预测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于复杂网络模型的欺诈团伙挖掘系统的系统框图；

图2是根据本发明实施例的一种基于复杂网络模型的欺诈团伙挖掘方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，根据本发明的实施例，提供了一种基于复杂网络模型的欺诈团伙挖掘系统，包括：

构建模块101，用于构建移动通话用户行为网络；

检测模块103，用于对移动通话用户行为网络群体检测；

提取模块105，基于复杂网络理论和用户信息提取特征；

挖掘模块107，采用多种算法进行欺诈团伙挖掘。

另外，在一个实施例中，对于上述构建移动通话用户行为网络来说，上述构建移动通话用户行为网络，基于存储于数据库的用户通话历史行为，构建以全体用户为节点、用户通话行为、设备识别码、地理位置信息为连边的多个动态移动通话用户行为网络G＝(V，L)，其中，V代表移动通话用户集合，V＝{v₁，v₂，…v_n}，n＝|V|是用户总数；L代表用户间存在的通话行为或设备识别码或地理位置信息集合，L＝{<v_h，v_l>|v_h，v_l∈V，1＜h，l＜n}，其中，G的邻接矩阵为A＝(a_ij)∈R^N×N，当<V_h，V_l>∈L，a_ij＝1，反之a_ij＝0。

另外，在一个实施例中，对于构建模块来说，上述构建模块还用于构建移动通话用户行为矩阵。

另外，在一个实施例中，对于上述构建移动通话用户行为矩阵来说，上述构建移动通话用户行为矩阵，将所抽取数据的初始时刻作为起始时间，并按固定时段为间隔划分时段，假定有T个时段，设Y_λ∈R^N×N为t时段的移动通话用户行为矩阵，其元素为

构成了一个T维的高维度向量。

另外，在一个实施例中，对于上述对移动通话用户行为网络群体检测来说，上述对移动通话用户行为网络群体检测，群体(Community，又译作社区)反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系，社团检测就是要在一个网络中找到这些社团，即一批关联紧密的顶点；本专利依次采取了BGLL算法、Infomap算法、CLIQUE等算法对移动通话用户行为网络进行了群体检测；

另外，在一个实施例中，对于上述BGLL算法来说，上述BGLL算法是最大化整个网络模块度的群体检测算法，模块度的计算如下：

另外，在一个实施例中，对于上述CLIQUE算法来说，上述CLIQUE 算法是一种类似于Apriori的子空间聚类算法，CLIQUE算法把每个维划分成不重叠的社区，从而把数据对象的整个嵌入空间划分成单元，它使用一个密度阈值来识别稠密单位，一个单元是稠密的，如果映射到它的对象超过密度阈值；

另外，在一个实施例中，对于上述基于复杂网络理论和用户信息提取特征来说，上述基于复杂网络理论和用户信息提取特征，将社团视为节点，提取社团的拓扑特征；提取社团内部的拓扑特征；提取社团的群体特征；提取社团的临时性特征。

另外，在一个实施例中，对于上述采用多种算法进行欺诈团伙挖掘来说，上述采用多种算法进行欺诈团伙挖掘，先使用Boosting模型和多种时序神经网络模型学习历史数据，再基于FRAUDAR算法、标签传播算法进行欺诈团伙挖掘，最终使用投票法进行欺诈团伙的判定；通过加权F1-score 来评判各个模型的优劣。

如图2所示，根据本发明的实施例，还提供了一种基于复杂网络模型的欺诈团伙挖掘方法。

包括以下步骤：

步骤S201，基于存储于数据库的用户通话历史行为，构建以用户为节点、以用户通话行为、设备识别码、地理位置信息为连边的时序移动通话用户行为网络；

步骤S203，依次采用设备识别码、重地理位置信息、用户通话时长、通话次数、平均通话时长等作为权，使用多种社团发现算法进行群体检测，对于同一用户，可能会被不同算法划分进不同群体，本专利集成多个结果并以重叠社团为研究对象；

步骤S205，基于复杂网络理论和用户信息提取特征：基于复杂网络理论，提取社团的拓扑特征，根据地理位置、用户移动通话行为、IP信息、设备识别码、手机所包含app信息提取社团的群体特征；

步骤S207，先使用Boosting模型和多种时序神经网络模型学习历史数据，再基于FRAUDAR算法、标签传播算法进行欺诈团伙挖掘，最终使用投票法进行欺诈团伙的判定，通过加权F1-score来评判各个模型的优劣。

另外在具体应用的时候，对于基于复杂网络理论和用户信息提取特征来说，a.将社团视为节点，提取社团的拓扑特征

社团i的入度，即社团i指向其他社团的个数；

社团i的出度，即指向社团i的连接社团个数；

社团i的介数；

社团i的核数；

社团i的紧密度；

社团i的中心性；

社团i的平均直径；

社团i的聚类系数；

社团i的平均路径长度；

b.提取社团内部的拓扑特征：

社团i的直径；

社团i的平均路径长度；

社团i节点数的比值；

社团i的度序列的最大值；

社团i的聚类系数的最大值；

社团i的所有节点度的平均值；

社团i的度序列的最大值与社团i节点数的比值；

社团i的度序列的方差；

c.提取社团的群体特征：

c-1.社团的周期性特征：

周期型特征体现建模对象的周期型规律，具体包括如下特征：

社团i内部在前m天内t时段访问app次数的均值；

社团i内部在前m天内t时段访问app的nunique值；

社团i内部在前m天内t时段app访问时长的均值；

社团i内部在前m天内t时段app访问时长的中位数；

社团i内部在前m天内t时段app访问次数的均值数；

社团i内部在前m天内t时段访问app次数的中位数；

社团i内部在前m天内t时段某一app访问次数的均值；

社团i内部在前m天内t时段某一app访问次数的中位数；

社团i内部在前m天内t时段地理位置的马氏距离的均值；

社团i内部在前m天内t时段地理位置的马氏距离的标准差；

社团i内部在前m天内t时段地理位置的马氏距离的变异系数；

社团i内部在前m天内t时段通话时长的均值；

社团i内部在前m天内t时段通话次数的均值；

社团i内部在前m天内t时段平均通话时长的均值；

社团i与相关联社团在前m天内t时段通话时长的均值；

社团i与相关联社团在前m天内t时段通话次数的均值；

社团i与相关联社团在前m天内t时段平均通话时长的均值；

社团i内部在前m天内t时段通话时长的中位数；

社团i内部在前m天内t时段通话次数的中位数；

社团i内部在前m天内t时段平均通话时长的中位数；

社团i与相关联社团在前m天内t时段通话时长的中位数；

社团i与相关联社团在前m天内t时段通话次数的中位数；

社团i与相关联社团在前m天内t时段平均通话时长的中位数；

c-2.社团的临时性特征：

社团i内部在从t-a时段(a＝1，2，…，q)到t时段访问app次数，共包含q个特征；

社团i内部在从t-a时段(a＝1，2，…，q)到t时段内访问app的nunique 值；

社团i内部在从t-a时段(a＝1，2，…，q)到t时段内app访问时长，共包含q个特征；

社团i内部从t-a时段(a＝1，2，…，q)到t时段app访问时长的中位数；

社团i内部从t-a时段(a＝1，2，…，q)到t时段app访问次数的均值数；

社团i内部从t-a时段(a＝1，2，…，q)到t时段访问app次数的中位数；

社团i内部从t-a时段(a＝1，2，…，q)到t时段某一app访问次数的均值；

社团i内部从t-a时段(a＝1，2，…，q)到t时段某一app访问次数的中位数；

社团i内部从t-a时段(a＝1，2，…，q)到t时段地理位置的马氏距离的均值；

社团i内部从t-a时段(a＝1，2，…，q)到t时段地理位置的马氏距离的标准差；

社团i内部从t-a时段(a＝1，2，…，q)到t时段地理位置的马氏距离的变异系数；

社团i内部从t-a时段(a＝1，2，…，q)到t时段通话时长的均值；

社团i内部从t-a时段(a＝1，2，…，q)到t时段通话次数的均值；

社团i内部从t-a时段(a＝1，2，…，q)到t时段平均通话时长的均值；

社团i与相关联社团从t-a时段(a＝1，2，…，q)到t时段通话时长的均值；

社团i与相关联社团从t-a时段(a＝1，2，…，q)到t时段通话次数的均值；

社团i与相关联社团从t-a时段(a＝1，2，…，q)到t时段平均通话时长的均值；

社团i内部从t-a时段(a＝1，2，…，q)到t时段通话时长的中位数；

社团i内部从t-a时段(a＝1，2，…，q)到t时段通话次数的中位数；

社团i内部从t-a时段(a＝1，2，…，q)到t时段平均通话时长的中位数；

社团i与相关联社团从t-a时段(a＝1，2，…，q)到t时段通话时长的中位数；

社团i与相关联社团从t-a时段(a＝1，2，…，q)到t时段通话次数的中位数；

社团i与相关联社团从t-a时段(a＝1，2，…，q)到t时段平均通话时长的中位数；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于复杂网络模型的欺诈团伙挖掘系统，其特征在于，包括：

构建模块，用于构建移动通话用户行为网络；

检测模块，用于对移动通话用户行为网络群体检测；

提取模块，基于复杂网络理论和用户信息提取特征；

挖掘模块，采用多种算法进行欺诈团伙挖掘。

2.根据权利要求1所述的一种基于复杂网络模型的欺诈团伙挖掘系统，其特征在于，上述构建移动通话用户行为网络，基于存储于数据库的用户通话历史行为，构建以全体用户为节点、用户通话行为、设备识别码、地理位置信息为连边的多个动态移动通话用户行为网络G＝(V，L)，其中，V代表移动通话用户集合，

n＝|V|是用户总数；L代表用户间存在的通话行为或设备识别码或地理位置信息集合，L＝{(v_h，v_l>|v_h，v_l∈V，1＜h，l＜n}，其中，G的邻接矩阵为A＝(c_ij)∈R^N×N，当<v_h，v_l>∈L，a_ij＝1，反之a_ij＝0。

3.根据权利要求2所述的一种基于复杂网络模型的欺诈团伙挖掘系统，其特征在于，上述构建模块还用于构建移动通话用户行为矩阵。

4.根据权利要求3所述的一种基于复杂网络模型的欺诈团伙挖掘系统，其特征在于，上述构建移动通话用户行为矩阵，将所抽取数据的初始时刻作为起始时间，并按固定时段为间隔划分时段，假定有T个时段，设Y_t∈R^N×N为t时段的移动通话用户行为矩阵，其元素为

可以代表t时段用户i与用户j的通话时长、通话次数、平均通话时长、设备识别码或者地理位置信息等，因此，

构成了一个T维的高维度向量。

5.根据权利要求4所述的一种基于复杂网络模型的欺诈团伙挖掘系统，其特征在于，上述对移动通话用户行为网络群体检测，群体(Community，又译作社区)反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系，社团检测就是要在一个网络中找到这些社团，即一批关联紧密的顶点；本专利依次采取了BGLL算法、Infomap算法、CLIQUE等算法对移动通话用户行为网络进行了群体检测；

6.根据权利要求5所述的一种基于复杂网络模型的欺诈团伙挖掘系统，其特征在于，上述BGLL算法是最大化整个网络模块度的群体检测算法，模块度的计算如下：

其中m为图中边的总数量，k_i表示所有指向节点i的连边权重之和，k_i同理，A_ij表示节点i，j之间的连边权重，C_i表示节点i属于哪一个社区，C_j同理，若C_i＝C_j，δ(C_i，C_j)＝1，反之，为0；

7.根据权利要求6所述的一种基于复杂网络模型的欺诈团伙挖掘系统，其特征在于，上述CLIQUE算法是一种类似于Apriori的子空间聚类算法，CLIQUE算法把每个维划分成不重叠的社区，从而把数据对象的整个嵌入空间划分成单元，它使用一个密度阈值来识别稠密单位，一个单元是稠密的，如果映射到它的对象超过密度阈值；

8.根据权利要求7所述的一种基于复杂网络模型的欺诈团伙挖掘系统，其特征在于，上述基于复杂网络理论和用户信息提取特征，将社团视为节点，提取社团的拓扑特征；提取社团内部的拓扑特征；提取社团的群体特征；提取社团的临时性特征。

9.根据权利要求8所述的一种基于复杂网络模型的欺诈团伙挖掘系统，其特征在于，上述采用多种算法进行欺诈团伙挖掘，先使用Boosting模型和多种时序神经网络模型学习历史数据，再基于FRAUDAR算法、标签传播算法进行欺诈团伙挖掘，最终使用投票法进行欺诈团伙的判定；通过加权F1-score来评判各个模型的优劣。

10.一种基于复杂网络模型的欺诈团伙挖掘方法，其特征在于，用于权利要求9所述的基于复杂网络模型的欺诈团伙挖掘系统的使用，包括以下步骤：

先使用Boosting模型和多种时序神经网络模型学习历史数据，再基于FRAUDAR算法、标签传播算法进行欺诈团伙挖掘，最终使用投票法进行欺诈团伙的判定，通过加权F1-score来评判各个模型的优劣。