CN111612041B

CN111612041B - 异常用户识别方法及装置、存储介质、电子设备

Info

Publication number: CN111612041B
Application number: CN202010332410.1A
Authority: CN
Inventors: 钟红发; 何振; 尹小亮; 古承炬; 林育芳; 陈炯其
Original assignee: Ping An Zhitong Consulting Co Ltd Shanghai Branch
Current assignee: Ping An Zhitong Consulting Co Ltd Shanghai Branch
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-10-13
Anticipated expiration: 2040-04-24
Also published as: CN111612041A

Abstract

本申请是关于一种异常用户识别方法，属于信息处理技术领域，该方法包括：对待异常识别数据集进行降维处理，得到降维后的数据集；对降维后的数据集通过聚类处理形成多个待识别群组；通过计算每个待识别群组与降维后的数据集在各个特征上的分布相异度及每个待识别群组的紧密度，确定多个待识别群组中的风险群组；以待识别群组为节点，待识别群组之间的分布相似度为边权重，构建群组完全连通图；将风险群组作为风险节点，运用社区发现算法检测群组完全连通图中存在的节点社区，以对每个包含风险节点的节点社区进行风险评分，确定风险社区，作为识别出的异常用户群。该方法提高了金融交易中异常用户识别的召回率与精确度。

Description

异常用户识别方法及装置、存储介质、电子设备

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种异常用户识别方法、异常用户识别装置、计算机可读存储介质以及电子设备。

背景技术

运用AI技术进行风险识别存在标签少或无标签的技术难点，因此无监督学习技术几乎成了唯一的选择。其中，应用较广泛的三类主流无监督学习的算法为：聚类算法、异常值检测算法和复杂网络算法。

但是以上三种算法均存在各自的缺陷与不足，例如聚类算法划分得到的群组与异常之间通常没有必然联系；异常值检测算法FPR（0 Positive Rate，假正率）过高，容易误伤好客户；复杂网络算法中强关系属性缺失或数据质量参差不齐，导致复杂网络在风险识别领域难以发挥较好的作用。因此，现有技术中存在异常用户识别时，风险识别的召回率与精确率较低，风险监测方法应用领域较小的问题。

因此，需要提供一种新的异常用户识别方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请的目的在于提供一种异常用户识别方法、异常用户识别装置、计算机可读存储介质以及电子设备，进而至少在一定程度上有效提升异常用户识别时，风险识别的召回率与精确率，以及风险监测方法应用领域范围。

根据本申请的一个方面，提供一种异常用户识别方法，包括：

对待异常识别数据集进行降维处理，得到降维后的数据集，所述待异常识别数据集为第一用户集的金融交易相关数据；

对所述降维后的数据集通过聚类处理形成多个待识别群组，所述待识别群组对应于第二用户集，所述第二用户集包括所述第一用户集中的多个用户；

通过计算每个所述待识别群组与所述降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度，确定多个所述待识别群组中的风险群组；

以所述待识别群组为节点，所述待识别群组之间的分布相似度为边权重，构建群组完全连通图；

将所述风险群组作为风险节点，运用社区发现算法检测所述群组完全连通图中存在的节点社区，以对每个包含所述风险节点的节点社区进行风险评分，确定风险社区，作为识别出的异常用户群。

在本申请的一种示例性实施例中，所述对所述降维后的数据集通过聚类处理形成多个待识别群组，包括：

以所述降维后的数据集中的用户作为节点，用户之间的相似度为边权重，构建完全连通图；

删除所述完全连通图中权重小于第一层级的边权重阈值的边，得到第一层级的待搜索连通图；

从所述第一层级的待搜索连通图开始，从各层级的待搜索连通图中依次搜索第一层级之后各层级的多个连通子图，直到目标层级的连通子图中节点的个数小于预定个数，其中，各层级的待搜索连通图通过从各层级的连通子图中删除权重小于各层级的边权重阈值的边，且后一层级的边权重阈值高于前一层级的边权重阈值；

将所述目标层级中各连通子图对应的用户集合，作为所述待识别群组。

在本申请的一种示例性实施例中，所述方法还包括：

计算所述目标层级中各连通子图的紧密度，并删除所述紧密度低于预设的紧密度阈值的连通子图，得到剩余的连通子图；

将剩余的各所述连通子图对应的用户集合，作为所述待识别群组。

在本申请的一种示例性实施例中，在所述以所述待识别群组为节点，所述待识别群组之间的分布相似度为边权重，构建群组完全连通图之后，还包括：

计算每个所述待识别群组与所述降维后的数据集在各个特征上的分布相似度之和；

删除每个所述待识别群组中与所述降维后的数据集在各个特征上的分布相似度之和大于预定阈值的特征对应的边权重。

在本申请的一种示例性实施例中，所述将所述风险群组作为风险节点还包括：

以所述风险群组作为初始风险种子，在所述群组完全连通图上执行图传播计算，得到与所述初始风险种子相似度超过预定相似度阈值的关联节点；

将所述初始风险种子对应的节点及所述关联节点，作为风险节点。

在本申请的一种示例性实施例中，所述通过计算每个所述待识别群组与降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度，确定多个所述待识别群组中的风险群组包括：

计算每个所述待识别群组与降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度；

根据公式Score=f(ΣDis,A)计算每一所述待识别群组的风险得分，其中，所述ΣDis为每个所述待识别群组在所述降维后的数据集中各个特征上的分布相异度之和，所述A为每个所述待识别群组的紧密度；

基于所述风险得分，确定多个所述待识别群组中的风险群组。

在本申请的一种示例性实施例中，所述对待异常识别数据集进行降维处理，得到降维后的数据集包括：

计算所述待异常识别数据集中每个特征数据的困惑度；

根据所述困惑度筛选符合预定规则的所述特征数据，得到降维后的数据集，将所述降维后的数据集上传至区块链中。

根据本申请的一个方面，提供一种异常用户识别装置，包括：

降维模块，用于对待异常识别数据集进行降维处理，得到降维后的数据集，所述待异常识别数据集为第一用户集的金融交易相关数据；

聚类模块，用于对所述降维后的数据集通过聚类处理形成多个待识别群组，所述待识别群组对应于第二用户集，所述第二用户集包括所述第一用户集中的多个用户；

风险群组识别模块，用于通过计算每个所述待识别群组与所述降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度，确定多个所述待识别群组中的风险群组；

群组完全连通图构建模块，用于以所述待识别群组为节点，所述待识别群组之间的分布相似度为边权重，构建群组完全连通图；

异常用户群识别模块，用于将所述风险群组作为风险节点，运用社区发现算法检测所述群组完全连通图中存在的节点社区，以对每个包含所述风险节点的节点社区进行风险评分，确定风险社区，作为识别出的异常用户群。

根据本申请的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的异常用户识别方法。

根据本申请的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的异常用户识别方法。

本申请一种异常用户识别方法及装置，通过对待异常识别数据集进行降维处理；然后对降维后的数据集进行聚类处理形成多个待识别群组，继而确定多个待识别群组中的风险群组；再以风险群组构建群组完全连通图，运用社区发现算法检测群组完全连通图中存在的节点社区，并进行风险评分，确定异常用户群。通过降维处理输出适合聚类的低维度数据集，然后在聚类的基础上构建数据相似度的待识别群组完全连通图；然后对于群组完全连通图中的数据进行相异度计算得到高风险群组；最后，以高风险群组为初始风险种子，在群组完全连通图中找到与初始风险种子强关联的更多可疑群组（节点社区），对其进行风险评分得到集体异常事件（异常用户群）。一方面，以待识别群组作为检测对象，而非个体，克服了传统异常值检测算法FPR过高的缺陷，同时结合图社区发现算法，进一步提高了金融交易中异常用户识别的召回率与精确度；另一方面，构建群组完全连通图基于大量非关系或弱关系特征，无需与传统网络一样依赖于高质量的强关系特征，降低了应用时对数据的要求，扩大了可应用范围，提高金融交易中异常用户识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出一种异常用户识别方法的流程图。

图2示意性示出一种异常用户识别方法的应用场景示例图。

图3示意性示出一种对降维后的数据集进行图层次聚类的方法流程图。

图4示意性示出一种确定风险群组的方法流程图。

图5示意性示出一种确定风险节点的方法流程图。

图6示意性示出一种异常用户识别装置的方框图。

图7示意性示出一种用于实现上述异常用户识别方法的电子设备示例框图。

图8示意性示出一种用于实现上述异常用户识别方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本申请的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。

此外，附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种异常用户识别方法，该异常用户识别方法可以运行于服务器，也可以运行于服务器集群或云服务器等，当然，本领域技术人员也可以根据需求在其他平台运行本申请的方法，本示例性实施例对此不做限定。参考图1所示，该异常用户检测方法可以包括以下步骤：

S110，对待异常识别数据集进行降维处理，得到降维后的数据集，所述待异常识别数据集为第一用户集的金融交易相关数据。

S120，对所述降维后的数据集通过聚类处理形成多个待识别群组，所述待识别群组对应于第二用户集，所述第二用户集包括所述第一用户集中的多个用户。

S130，通过计算每个所述待识别群组与所述降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度，确定多个所述待识别群组中的风险群组。

S140，以所述待识别群组为节点，所述待识别群组之间的分布相似度为边权重，构建群组完全连通图。

S150，将所述风险群组作为风险节点，运用社区发现算法检测所述群组完全连通图中存在的节点社区，以对每个包含所述风险节点的节点社区进行风险评分，确定风险社区，作为识别出的异常用户群。

上述异常用户识别方法中，通过降维处理输出适合聚类的低维度数据集，然后在聚类的基础上构建数据相似度的待识别群组完全连通图；然后对于群组完全连通图中的数据进行相异度计算得到高风险群组；最后，以高风险群组为初始风险种子，在群组完全连通图中找到与初始风险种子强关联的更多可疑群组（节点社区），对其进行风险评分得到集体异常事件（异常用户群）。一方面，以待识别群组作为检测对象，而非个体，克服了传统异常值检测算法FPR过高的缺陷，同时结合图社区发现算法，进一步提高了金融交易中异常用户识别的召回率与精确度；另一方面，构建群组完全连通图基于大量非关系或弱关系特征，无需与传统网络一样依赖于高质量的强关系特征，降低了应用时对数据的要求，扩大了可应用范围，提高金融交易中异常用户识别的准确性。本示例实施方式可以应用于智慧政务如银行交易监管等场景中，从而推动智慧城市的建设。

下面，将结合附图对本示例实施方式中上述异常用户识别方法中的各步骤进行详细的解释以及说明。

在步骤S110中，对待异常识别数据集进行降维处理，得到降维后的数据集，所述待异常识别数据集为第一用户集的金融交易相关数据。

在本示例实施方式中，参考图2所示，服务器201接收各用户终端202上传的海量金融交易相关数据，这些数据可以包括用户的ID、用户的姓名、用户的手机号码、用户的消费记录、用户的行为记录等，通过对这些数据的检测，可以发现用户的异常行为，上述这些数据形成的集合可视为待异常识别数据集，这些数据对应的用户的集合为第一用户集。其中，服务器201可以是企业服务器，用户终端202可以是固定终端设备（例如是计算机），也可以是移动终端设备（例如可以是手机、平板电脑等），本实施例对此不做特殊限制。

降维处理可以包括特征选择和特征降维。特别地，可以基于特征取值的分布进行特征选择。特征选择是指从已有的M个特征中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程。特征选择不仅减少过拟合、减少特征数量、提高模型泛化能力，而且还可以使模型获得更好的解释性，增强对特征和特征值之间的理解，加快模型的训练速度，一般还能获得更好的性能。其中，特征选择的方法可以包括过滤法、包裹法和嵌入法。通过自动进行无监督特征选择，以及特征重要性评估，输出适合聚类的子空间（降维后的数据集），避免高维特征空间下聚类和异常值检测算法失效的问题。

一种实施例中，对所述待异常识别数据集进行降维处理，得到降维后的数据集，包括：

提取待异常识别数据集中的所有特征，并计算所有所述特征的特征值；

根据所述特征值的分布选择与风险分析相关联的特征，从而降低原始数据集的维度。

计算所有特征的特征值可以是根据异常用户识别标准，根据特征的数据值计算每个特征的特征值，例如，特征值可以是0或1，其中，0标识异常，1表示无异常。根据特征值的分布选择与风险分析相关联的特征，可以是计算样本中每一个特征值所对应的方差，如果某个方差低于预定阈值，则进行过滤（剔除）该低于预定阈值的方差对应的特征。

一种实施例中，对所述待异常识别数据集进行降维处理，得到降维后的数据集可以包括以下步骤：

计算所述待异常识别数据集中每个特征的困惑度。

根据所述困惑度筛选符合预定规则的所述特征，得到降维后的数据集，将所述降维后的数据集上传至区块链中。

基于降维后的数据集得到对应的摘要信息，具体来说，摘要信息由降维后的数据集进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证降维后的数据集是否被篡改。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

一种实施例中，所述根据所述困惑度筛选符合预定规则的所述特征，得到降维后的数据集，包括：

获取所述困惑度高于第一预定阈值的特征的数据，作为单维度特征数据集；

获取所述困惑度低于所述第一预定阈值且高于第二预定阈值的特征的数据，并进行特征组合得到多维度特征数据集，所述第一预定阈值大于所述第二预定阈值；

将所述单维度特征数据集及所述多维度特征数据集作为降维后的数据集。

一种实施例中，所述困惑度为所述特征的基尼系数或者信息熵。

下面上述实施例进行解释以及说明。

（1）计算待异常识别数据集中每个特征的困惑度Pi。

具体地，所述困惑度可以为所述特征的基尼系数或者信息熵。计算每个特征的基尼系数或者信息熵，然后对得到的基尼系数或者信息熵进行归一化，并作为特征的困惑度Pi。

其中，基尼系数定义为，基尼系数归一化公式为/>，。信息熵的定义为/>，信息熵归一化公式为/>，。K为特征取值个数，即每个特征可以有K个取值，例如，性别特征，包括男女两个取值。p_k为待异常识别数据集中属于第k类的概率。N为待异常识别数据集中特征的个数。

（2）按困惑度Pi的大小降序排列所述特征，获取困惑度Pi高于第一预定阈值Pt1的特征的数据，作为单维度特征数据集。

（3）从剩余的特征中，获取困惑度Pi低于所述第一预定阈值Pt1且高于第二预定阈值Pt2的特征的数据，并进行特征组合得到多维度特征数据集，其中，Pt1>Pt2。

具体地，对上述困惑度Pi介于Pt1和Pt2之间的特征进行组合至指定的最高阶数，该最高阶数小于待异常识别数据集的维数。在组合的过程中可以采用预剪枝策略进行复杂度优化，例如可以根据特征相关性、以及新组合的特征的困惑度是否超过Pt1进行预剪枝。

（4）将上述单维度特征数据集及多维度特征数据集作为降维后的数据集。

此时，上述单维度特征数据集以及多维度特征数据集的维度低于原始数据集的维度。通过对采集到的待异常识别数据集进行降维处理，避免维度灾难，且确保后续聚类处理后得到的群组尽可能紧密。

在步骤S120中，对所述降维后的数据集通过聚类处理形成多个待识别群组，所述待识别群组对应于第二用户集，所述第二用户集包括所述第一用户集中的多个用户。

在本示例实施方式中，对降维后的数据集通过聚类处理，可以是利用

包括基于距离、基于密度、基于图或层次聚类算法等聚类算法进行聚类。通过聚类生成的多个待检测群组是一组数据对象（用户数据）的集合，这些对象与同一个待检测群组中的对象彼此相似，与其他待检测群组中的对象相异。通过聚类处理后，使得大量数据快速分类，可以直观地了解各数据之间的关系，即将少数重要而不同的低维特征空间上形成紧密的群组，而紧密的群组代表其内部成员相互关联或具有许多共性，从而提高后续异常识别的可信度。

一种实施例中，可以对所述降维后的数据集通过图层次聚类处理形成多个待识别群组，参阅图3所示，上述步骤可以包括步骤S310、步骤S320、步骤S330以及步骤S340。

在步骤S310中，以所述降维后的数据集中的用户作为节点，用户之间的相似度为边权重，构建完全连通图。

在步骤S320中，删除所述完全连通图中权重小于第一层级的边权重阈值的边，得到第一层级的待搜索连通图。

在步骤S330中，从所述第一层级的待搜索连通图开始，从各层级的待搜索连通图中依次搜索第一层级之后各层级的多个连通子图，直到目标层级的连通子图中节点的个数小于预定个数，其中，各层级的待搜索连通图通过从各层级的连通子图中删除权重小于各层级的边权重阈值的边，且后一层级的边权重阈值高于前一层级的边权重阈值。

在步骤S340中，将所述目标层级中各连通子图对应的用户集合，作为所述待识别群组。

下面对步骤S310、步骤S320、步骤S330以及步骤S340进行解释以及说明。

（1）降维后的数据集包含多个单维度特征数据集和多个多维度特征数据集，在每个特征数据集中进行图层次聚类。以特征数据集中的用户作为节点，用户之间的相似度为边权重，构建完全连通图G。

具体地，用户之间的相似度可以采用杰卡德相似系数。

（2）删除完全连通图中权重小于第一层级的边权重阈值的边，得到第一层级的待搜索连通图，可以是删除完全连通图G中权重小于边权重阈值wt（第一层级的边权重阈值）的边，得到新的连通图G’（第一层级的待搜索连通图）。

然后，从所述第一层级的待搜索连通图开始，从各层级的待搜索连通图中依次搜索第一层级之后各层级的多个连通子图，直到目标层级的连通子图中节点的个数小于预定个数，其中，各层级的待搜索连通图通过从各层级的连通子图中删除权重小于各层级的边权重阈值的边，且后一层级的边权重阈值高于前一层级的边权重阈值。

（3）找出图G’（第一层级的待搜索连通图）中的所有连通子图G1，G2，G3，……，Gj（第二层级的多个连通子图）。

（4）各层级的待搜索连通图通过从各层级的连通子图中删除权重小于各层级的边权重阈值的边可以是遍历每一个连通子图Gj（第二层级的多个连通子图），设置边权重阈值wt=wt+1（后一层级的边权重阈值高于前一层级的边权重阈值）并递归执行步骤（2），直至当前连通子图所包含的节点个数小于预先指定阈值M（预定个数）。

最后，将所述目标层级中各连通子图对应的用户集合，作为所述待识别群组。

（5）将最终得到的连通子图（目标层级中各连通子图）对应的用户集合，作为待识别群组。所有待识别群组形成的集合对应于第二用户集，第二用户集包括第一用户集中的多个用户。

进一步，一种实施例中，可以计算所述目标层级中各连通子图的紧密度，并删除所述紧密度低于预设的紧密度阈值的连通子图，得到剩余的连通子图；将剩余的各所述连通子图对应的用户集合，作为所述待识别群组。

其中，紧密度是根据特征类型选择不同的距离度量函数。紧密度A(Affinity)，可以根据特征类型选择不同的距离度量函数：对于数值型特征，选择欧式距离或曼哈顿距离；对于类别型特征，选择汉明距离，对于分布型特征，选择KL距离；对于集合型特征，选择杰卡德距离；对于特殊类型特征，如地址，IP等，转化为地理位置距离。最后删除紧密度低于预设的紧密度阈值的连通子图，将剩余的各连通子图对应的用户集合，作为待识别群组。

在步骤S130中，通过计算每个所述待识别群组与所述降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度，确定多个所述待识别群组中的风险群组。

在本示例实施方式中，分布相异度Dis可基于多种方式计算，例如卡方值、KL散度、JS散度、PSI、统计概率分布、KS检验等。紧密度是根据特征类型选择不同的距离度量函数。紧密度A(Affinity)，可以根据特征类型选择不同的距离度量函数：对于数值型特征，选择欧式距离或曼哈顿距离；对于类别型特征，选择汉明距离，对于分布型特征，选择KL距离；对于集合型特征，选择杰卡德距离；对于特殊类型特征，如地址，IP等，转化为地理位置距离。

每个待识别群组与降维后的数据集在各个特征上的分布相异度，可以表征待识别群组与待识别群组来源的总数据集（降维后的数据集）在各个特征上分布差异，进而体现待识别群组的风险程度。例如，当在各个特征上分布相异度之和越大，说明待识别群组在各个特征上分布相差越远，可能存在风险。每个待识别群组的紧密度，表征待识别群组内部用户样本紧密程度，可以从内部反映待识别群组的风险程度。例如，当紧密度越大，说明待识别群组内部越松散，也可能存在风险。进而。可以通过计算每个待识别群组与降维后的数据集在各个特征上的分布相异度及每个待识别群组的紧密度，确定多个待识别群组中的风险群组。可以在后续步骤中，以紧密聚集的群组（内部成员属性或行为特征高度相似）为检测对象，克服了传统异常值检测算法FPR过高的缺陷。

一种实施例中，参考图4所示，所述通过计算每个所述待识别群组与降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度，确定多个所述待识别群组中的风险群组可以包括以下步骤：

S410，计算每个所述待识别群组与降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度。

S420，根据公式Score=f(ΣDis,A)计算每一所述待识别群组的风险得分，其中，所述ΣDis为每个所述待识别群组在所述降维后的数据集中各个特征上的分布相异度之和，所述A为每个所述待识别群组的紧密度。

S430，基于所述风险得分，确定多个所述待识别群组中的风险群组。

下面对步骤S410、步骤S420以及步骤S430进行解释以及说明。

在步骤S410中，计算每个所述待识别群组与降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度。

在步骤S420中，根据公式Score=f(ΣDis,A)计算每一所述待识别群组的风险得分，其中，所述ΣDis为每个所述待识别群组在所述降维后的数据集中各个特征上的分布相异度之和，所述A为每个所述待识别群组的紧密度。

其中，将所述待识别群组与降维后的数据集在各个特征上的分布相异度Dis相加得到所述待识别群组在所述降维后的数据集中各个特征上的分布相异度之和ΣDis。

可以理解的是，当分布相异度之和ΣDis越大，说明待识别群组在各个特征上分布相差越远，可能存在风险。同时，当紧密度A越大，说明待识别群组内部越松散，也可能存在风险。公式Score=f(ΣDis,A)可以是与ΣDis和A正相关的一个函数，例如Score=ΣDis·A。

在步骤S430中，基于所述风险得分，确定多个所述待识别群组中的风险群组。

其中，可以将所述风险得分大于预先指定阈值的群组标记为风险群组。

在步骤S140中，以所述待识别群组为节点，所述待识别群组之间的分布相似度为边权重，构建群组完全连通图。

在本示例实施方式中，群组完全连通图以待识别群组为节点，待识别群组之间的分布相似度为边权重，基于大量非关系或弱关系特征构建图，无需与传统关系网络一样依赖于高质量的强关系特征，降低了应用时对数据的要求，扩大了可应用范围。

一种实施例中，在所述以所述待识别群组为节点，所述待识别群组之间的分布相似度为边权重，构建群组完全连通图之后，还包括：

具体地，在以所述待识别群组为节点，所述待识别群组之间的分布相似度为边权重，构建群组完全连通图之后，上述群组完全连通图中各节点相互连通，在后续计算中计算量复杂，可以采用删除每个所述待识别群组中与所述降维后的数据集在各个特征上的分布相似度之和大于预定阈值的特征对应的边权重这种方式进行剪枝，以降低复杂度。每个所述待识别群组中与所述降维后的数据集在各个特征上的分布相似度之和大于预定阈值的特征可以视为与总体分布无差异的特征，对风险识别的影响小。

在步骤S150中，将所述风险群组作为风险节点，运用社区发现算法检测所述群组完全连通图中存在的节点社区，以对每个包含所述风险节点的节点社区进行风险评分，确定风险社区，作为识别出的异常用户群。

社区反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系，研究网络中的社区对理解整个网络的结构和功能起到至关重要的作用，并且可帮助分析及预测整个网络各元素间的交互关系。社区发现算法包括图分割、密度子图、连通子图等。这里，所述群组完全连通图是所建立的社区，运用社区发现算法分析所述群组完全连通图中的各节点（群组）之间的交互关系，以检测出所述群组完全连通图中存在的节点社区。

然后对每个包含所述风险节点的节点社区进行风险评分，确定风险社区，作为识别出的异常用户群。在初始检测结果（风险群组）的基础上结合图社区发现算法，进一步提高了风险检测的召回率与精确率。

具体地，对每个包含初始风险种子的节点社区进行风险评分，定义节点社区的风险评分为Score_c=f(percent，centrality)，其中percent为该节点社区节点包含风险节点的占比，centrality为节点社区的节点的平均中心性度量。

中心性度量可采用度中心性、接近中心性、pagerank等算法。例如度中心性算法，对于节点v的度中心性DC返回的是这个节点的入度数，，V为节点数；对于图的度中心性需要以单个点的DC最高的点为核心来计算，这个点记为n*，图的度中心性为。

可以理解的是，当节点社区节点包含风险节点的占比percent越大，说明节点社区包含风险节点越多，可能存在风险。同时，当节点社区的节点的平均中心性度量centrality越大，说明节点社区内部节点平均影响力越大，也可能存在风险。公式Score_c=f(percent，centrality)可以是与percent和centrality正相关的一个函数，例如Score_c= percent·centrality。

将风险评分Score_c降序排列并筛选出高于预先指定阈值的节点社区，确定为风险社区，作为识别出的异常用户群。

一种实施例中，参考图5所示，所述将所述风险群组作为风险节点还可以包括以下步骤：

S510，以所述风险群组作为初始风险种子，在所述群组完全连通图上执行图传播计算，得到与所述初始风险种子相似度超过预定相似度阈值的关联节点。

S520，将所述初始风险种子对应的节点及所述关联节点，作为风险节点。

下面对步骤S510以及步骤S520进行解释以及说明。

在步骤S510中，以所述风险群组作为初始风险种子，在所述群组完全连通图上执行图传播计算，得到与所述初始风险种子相似度超过预定相似度阈值的关联节点。

在各种基于图的网络中，节点之间存在一些潜在的社区结构，社区结构由一组相似顶点互相连接而成，同一社区内部之间连接紧密，不同社区之间连接较为稀疏。社区发现首先要发现与初始风险种子强关联的更多风险节点，可采用标签传播算法LPA。

标签传播算法的基本思路是从已标记的节点标签信息来预测未标记的节点标签信息。每个节点按相似度传播给相邻节点，在节点传播的每一步，每个节点根据相邻节点的标签来更新自己的标签，与该节点相似度越大，其相邻节点对其标注的影响权值越大，相似节点的标签越趋于一致，其标签就越容易传播。在标签传播过程中，保持已标记的数据的标签不变，使其将标签传给未标注的数据。最终当迭代结束时，相似节点的概率分布趋于相似，可以划分到一类，即为与初始风险种子强关联的更多风险节点。

在步骤S520中，将所述初始风险种子对应的节点及所述关联节点，作为风险节点。

通过图传播计算，由少数初始风险种子，得到更多强关联的关联节点。将所述初始风险种子对应的节点及所述关联节点，作为风险节点，提高异常的召回率。

本申请还提供一种异常用户识别装置。参考图6所示，该异常用户识别装置可以包括降维模块610、聚类模块620、风险群组识别模块630、群组完全连通图构建模块640以及异常用户群识别模块650。

降维模块610可以用于对待异常识别数据集进行降维处理，得到降维后的数据集，所述待异常识别数据集为第一用户集的金融交易相关数据。

聚类模块620可以用于对所述降维后的数据集通过聚类处理形成多个待识别群组，所述待识别群组对应于第二用户集，所述第二用户集包括所述第一用户集中的多个用户。

风险群组识别模块630可以用于通过计算每个所述待识别群组与所述降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度，确定多个所述待识别群组中的风险群组。

群组完全连通图构建模块640可以用于以所述待识别群组为节点，所述待识别群组之间的分布相似度为边权重，构建群组完全连通图。

异常用户群识别模块650可以用于将所述风险群组作为风险节点，运用社区发现算法检测所述群组完全连通图中存在的节点社区，以对每个包含所述风险节点的节点社区进行风险评分，确定风险社区，作为识别出的异常用户群。

上述异常用户识别装置中各模块的具体细节已经在对应的异常用户识别方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本申请实施方式的方法。

在本申请的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本发明的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件（包括存储单元720和处理单元710）的总线730。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1中所示的步骤S110：对待异常识别数据集进行降维处理，得到降维后的数据集，所述待异常识别数据集为第一用户集的金融交易相关数据；S120：对所述降维后的数据集通过聚类处理形成多个待识别群组，所述待识别群组对应于第二用户集，所述第二用户集包括所述第一用户集中的多个用户；S130：通过计算每个所述待识别群组与所述降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度，确定多个所述待识别群组中的风险群组；S140：以所述待识别群组为节点，所述待识别群组之间的分布相似度为边权重，构建群组完全连通图；S150：将所述风险群组作为风险节点，运用社区发现算法检测所述群组完全连通图中存在的节点社区，以对每个包含所述风险节点的节点社区进行风险评分，确定风险社区，作为识别出的异常用户群。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元（ROM）7203。

存储单元720还可以包括具有一组（至少一个）程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备900（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口750进行，还可以包括与输入/输出（I/O）接口750连接的显示单元740。并且，电子设备700还可以通过网络适配器760与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本申请实施方式的方法。

在本申请的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图8所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其他实施例。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

Claims

1.一种异常用户识别方法，其特征在于，包括：

计算每个所述待识别群组与所述降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度；

基于所述风险得分，确定多个所述待识别群组中的风险群组；

将所述风险群组作为风险节点，运用社区发现算法检测所述群组完全连通图中存在的节点社区，以对每个包含所述风险节点的节点社区进行风险评分，确定风险社区，作为识别出的异常用户群；所述节点社区的风险评分为Score_c=f(percent，centrality)，其中percent为所述节点社区包含风险节点的占比，centrality为所述节点社区的节点的平均中心性度量。

2.根据权利要求1所述的异常用户识别方法，其特征在于，所述对所述降维后的数据集通过聚类处理形成多个待识别群组，包括：

3.根据权利要求2所述的异常用户识别方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的异常用户识别方法，其特征在于，在所述以所述待识别群组为节点，所述待识别群组之间的分布相似度为边权重，构建群组完全连通图之后，还包括：

5.根据权利要求1所述的异常用户识别方法，其特征在于，所述将所述风险群组作为风险节点还包括：

6.根据权利要求1所述的异常用户识别方法，其特征在于，所述对待异常识别数据集进行降维处理，得到降维后的数据集包括：

计算所述待异常识别数据集中每个特征数据的困惑度；

7.一种异常用户识别装置，其特征在于，包括：

风险群组识别模块，用于计算每个所述待识别群组与所述降维后的数据集在各个特征上的分布相异度及每个所述待识别群组的紧密度；根据公式Score=f(ΣDis,A)计算每一所述待识别群组的风险得分，其中，所述ΣDis为每个所述待识别群组在所述降维后的数据集中各个特征上的分布相异度之和，所述A为每个所述待识别群组的紧密度；基于所述风险得分，确定多个所述待识别群组中的风险群组；

异常用户群识别模块，用于将所述风险群组作为风险节点，运用社区发现算法检测所述群组完全连通图中存在的节点社区，以对每个包含所述风险节点的节点社区进行风险评分，确定风险社区，作为识别出的异常用户群；所述节点社区的风险评分为Score_c=f(percent，centrality)，其中percent为所述节点社区包含风险节点的占比，centrality为所述节点社区的节点的平均中心性度量。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的异常用户识别方法。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任一项所述的异常用户识别方法。