CN111612039B

CN111612039B - 异常用户识别的方法及装置、存储介质、电子设备

Info

Publication number: CN111612039B
Application number: CN202010331896.7A
Authority: CN
Inventors: 钟红发; 何振; 尹小亮; 古承炬; 林育芳; 陈炯其
Original assignee: Ping An Zhitong Consulting Co Ltd Shanghai Branch
Current assignee: Ping An Zhitong Consulting Co Ltd Shanghai Branch
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-09-29
Anticipated expiration: 2040-04-24
Also published as: CN111612039A

Abstract

本申请涉及数据分析技术领域，提供了一种异常用户识别的方法，通过对待检测用户群组数据构建加权完全连通图，在连通图中找出风险节点并查找与风险节点关联的节点，将与所述风险节点关联的节点与所述风险节点共同作为可疑节点，基于社区发现算法确定可疑节点所在的社区，从而对可疑节点所在的社区进行风险评分，最终从待检测用户群组中确定出异常用户群组。本申请的实施例利用人工智能技术进行异常用户识别时，有效提升风险识别的召回率与精确率，以及风险监测方法应用领域范围。

Description

异常用户识别的方法及装置、存储介质、电子设备

技术领域

本申请涉及数据分析技术领域，具体而言，涉及一种异常用户识别方法、异常用户识别装置、计算机可读存储介质以及电子设备。

背景技术

运用AI技术进行风险检测存在着标签少或无标签的技术难点，因此无监督学习技术几乎成了唯一选项，其中，应用较广泛的三类主流无监督学习的算法为：聚类算法、异常值检测算法和复杂网络算法。

但是以上三种算法在人工智能（AI）风险检测时均存在各自的缺陷与不足，例如聚类算法划分得到的群组与异常之间通常没有必然联系；异常值检测算法FPR（0 PositiveRate，假正率）过高，容易误伤好客户；复杂网络算法中强关系属性缺失或数据质量参差不齐，导致复杂网络在风险识别领域难以发挥较好的作用。因此，现有技术中存在异常用户识别时，风险识别的召回率与精确率较低，风险监测方法应用领域较小的问题。

发明内容

本申请的目的在于提供一种异常用户识别的方法、装置、存储介质以及电子设备，在一定程度上有效提升异常用户识别时，风险识别的召回率与精确率，以及风险监测方法应用领域范围。

根据本申请的一个方面，提供了一种异常用户识别方法，包括：获取多个待检测用户群组的行为特征数据，所述待检测用户群组中用户的行为特征相似;分别计算所有所述待检测用户群组之间在各个行为特征上的分布相似度之和作为边权重，以所有所述待检测用户群组为节点，构建用户群组加权完全连通图；通过计算所述用户群组加权完全连通图中各个节点对应的待检测用户群组的行为特征的分布相异度及紧密度，确定所述用户群组加权完全连通图上风险用户群组所对应的风险节点；根据预设的目标异常场景下的异常特征映射表，获取所述风险节点对应的待检测用户群组中用户的行为特征在所述目标异常场景下的异常场景特征，以根据所述异常场景特征获取所述风险节点中的可疑节点；基于社区发现算法确定所述用户群组加权完全连通图中包含所述可疑节点的可疑节点社区，以对每个包含所述风险节点的可疑节点社区进行风险评分；基于所述风险评分确定异常的可疑节点社区，以将异常的所述可疑节点社区对应的待检测用户群组作为识别出的异常用户群。

根据本申请的另一个方面，提供了一种异常用户识别装置，包括：获取待检测用户群组模块，用于获取多个待检测用户群组的行为特征数据，所述待检测用户群组中用户的行为特征相似；构建加权完全连通图模块，用于分别计算所有所述待检测用户群组之间在各个行为特征上的分布相似度之和作为边权重，以所有所述待检测用户群组为节点，构建用户群组加权完全连通图；确定风险用户群组模块，用于通过计算所述用户群组加权完全连通图中各个节点对应的待检测用户群组的行为特征的分布相异度及紧密度，确定所述用户群组加权完全连通图上风险用户群组所对应的风险节点；获取可疑群组模块，用于根据预设的目标异常场景下的异常特征映射表，获取所述风险节点对应的待检测用户群组中用户的行为特征在所述目标异常场景下的异常场景特征，以根据所述异常场景特征获取所述风险节点中的可疑节点；风险评分模块，用于基于社区发现算法确定所述用户群组加权完全连通图中包含所述可疑节点的可疑节点社区，以对每个包含所述风险节点的可疑节点社区进行风险评分；异常用户群模块，用于基于所述风险评分确定异常的可疑节点社区，以将异常的所述可疑节点社区对应的待检测用户群组作为识别出的异常用户群。

根据本申请的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述异常用户识别方法。

根据本申请的另一个方面，提供了一种电子设备，其特征在于，包括：

处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述异常用户识别方法。

本申请的提供一种异常用户识别的方法及相关装置，一方面，以用户的行为特征相似的待检测用户群组作为检测对象，而非个体，克服了传统异常值检测算法FPR过高的缺陷，同时结合图社区发现算法，进一步提高了异常用户识别的召回率与精确度；另一方面，基于目标场景下的异常特征映射表映射异常场景特征结合分布相异度及紧密度计算，保证异常用户的范围点（可疑节点）确定的准确性；另一方面，构建用户群组加权完全连通图是基于大量非关系或弱关系特征，无需与传统网络一样依赖于高质量的强关系特征，降低了人工智能技术在进行风险检测时对数据的要求，扩大了人工智能（AI）风险检测方法的可应用范围，提高了异常用户识别的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出一种异常用户检测的应用场景的系统架构示例图。

图2示意性示出一种异常用户识别方法的流程图。

图3示意性示出一种构建待检测用户群组的加权完全连通图的流程图。

图4示意性示出一种确定风险节点的方法流程图。

图5示意性示出一种确定可疑节点社区的方法流程图。

图6示意性示出一种对可疑节点社区进行风险评分的方法流程图。

图7示意性示出一种异常用户识别装置的流程图。

图8示意性示出一种用于实现上述异常用户识别方法的电子设备示例框图。

图9示意性示出一种用于实现上述异常用户识别方法的计算机可读存储介质示例框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

此外，附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

下面对本申请实施例的部分概念进行简要解释。

本申请涉及风险检测技术领域，具体而言，涉及一种异常用户识别方法、异常用户识别装置、计算机可读存储介质以及电子设备。

连通图，是指在一个无向图G中，若从顶点到顶点有路径相连（当然从到也一定有路径），则称和是连通的。如果G是有向图，那么连接和的路径中所有的边都必须同向。如果图中任意两点都是连通的，那么图被称作连通图。

风险节点，是指根据加权完全连通图中各个节点对应的待检测用户群组的金融交易行为特征的分布相异度和紧密度，确定出异常的待检测用户群组行为，从而得到异常用户群组在连通图上所对应的节点，以将其作为风险节点。

可疑节点，是指在用户群组加权完全连通图上与风险节点关联的节点，风险节点以及与风险节点关联的节点共同作为可疑节点。

风险评分，是指对可疑节点按照Score_c=percent • centrality计算风险得分，其中，percent为该社区节点包含初始风险种子的占比，centrality为社区节点的平均中心性度量，中心性度量可采用度中心性（degree centrality）、接近中心性（closenesscentrality）,pagerank等算法计算得出。例如：根据用户的金融交易行为特征，对用户金融数据进行处理，从而对用户金融交易行为按照上述公式做出风险估算的过程。这些金融交易行为可以包括用户购物、缴费、转账、理财等过程中发生的交易行为。

下面对本申请实施例的体系构架进行描述。

参考图1所示，系统架构100可以包括移动终端101、102、103中的多个，网络104和服务器105。网络104用以在移动终端101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如无线通信链路等。

服务器105可以获取多个移动终端101、102、103的用户在各个行为上的待检测用户群组数据后，首先，计算待检测用户群组之间在各个金融交易行为特征上的分布相似度之和作为边权重，以所有待检测用户群组为节点，构建用户群组加权完全连通图。其次，通过计算用户群组加权完全连通图中各个节点对应的待检测用户群组的行为特征的分布相异度和紧密度，确定所述用户群组加权完全连通图上风险用户群组所对应的风险节点。然后，根据预设的目标异常场景下的异常特征映射表，获取所述风险节点对应的待检测用户群组中用户的行为特征在所述目标异常场景下的异常场景特征，以根据所述异常场景特征获取所述风险节点中的可疑节点。接着，基于社区发现算法确定用户群组加权完全连通图中包含可疑节点的可疑节点社区，以对每个包含风险节点的可疑节点社区进行风险评分。最终，服务器105基于风险评分确定异常的可疑节点社区，以将异常的可疑节点社区对应的待检测用户群组作为识别出的异常用户群，从而将异常用户群的数据信息上报给相关企业。

应该理解，图1中的移动终端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的移动终端、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

移动终端101、102、103可以是具有处理器的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机等等。服务器105可以是提供各种服务的服务器。例如：用户可以通过移动终端101、102、103以及处理器进行金融交易行为，并向服务器105上传用户的各种金融交易行为相关数据。服务器105可以根据本申请中的异常用户识别方法可以对这些用户行为做出相应的处理，并通过服务器105将异常的用户上报给相关企业。

需要说明的是，该实施例只是示例性的说明，不应对本申请的功能和使用范围造成限制。

下面对本申请实施例的具体实施过程进行描述。

图2示出了本申请实施例的一种异常用户识别的方法，具体步骤包括：

S210、获取多个待检测用户群组的行为特征数据，所述待检测用户群组中用户的行为特征相似。

在一实施例中，服务器可以获取各用户终端上传的海量用户的行为特征数据，这些数据可以包括用户的ID、用户的姓名、用户的手机号码、用户的消费记录、用户的行为记录等，通过对这些数据的检测，找出用户的行为特征相似的用户作为一个用户群。

在本实施例中可以通过人工智能AI技术检测用户的行为特征数据反映的风险行为用户，将异常用户数据上传。但运用AI技术进行风险检测时存在标签少或者无标签的技术难点，在无监督学习中输入数据是没有标签的，无监督学习中可以采用聚类算法对数据进行处理获取多个待检测用户群组，待检测用户群组中用户的行为特征相似。相比于分类，聚类不依赖预定义的类和类标号的训练。通过聚类得到大量用户的行为特征相似的多个用户，作为一个待检测用户群组，从而获取多个待检测用户群组。具体步骤如下：

聚类算法处理数据（以K-means算法为例进行说明）：给定初始待检测用户群组中用户样本的数据的集合D，其中每个用户样本的数据具有n个可观察属性，包括：

1、从D中随机取k个用户样本的数据，作为k个簇的各自的中心；

2、分别计算剩下的元素到k个簇中心的相异度，将这些用户样本分别划归到相异度最低的簇；

3、根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有用户样本各自维度的算术平均数；

4、将D中全部用户样本按照新的中心重新聚类；

5、重复第4步，直到聚类结果不再变化，得到最终k个簇；

6、将待检测用户群组数据结果输出。

其中，最终k个簇即为k个待检测用户群组。

该实施例优点在于，通过无监督学习中的聚类处理用户行为特征数据得到待检测用户群组数据，聚类不依赖预定义的类和类标号的训练，对海量数据集实现了简单高效处理。

S220、分别计算所有所述待检测用户群组之间在各个行为特征上的分布相似度之和作为边权重，以所有所述待检测用户群组为节点，构建用户群组加权完全连通图。

在本示例的实施方式中，用户群组加权连通图构建的方法包括以下步骤：

（1）计算待检测用户群组之间在各个金融交易行为特征取值集合的分布相似度；

（2）图的节点为待检测用户群组，图的边权重w为两个节点对应待检

测用户群组之间在各个金融交易行为特征上的分布相似度之和，构建加权完全连通图G_g；

其中，待检测用户群组中的用户集作为群组代表一个节点V；节点之间的特征关联信息作为边，例如节点之间的转账金额、通信次数等特征联络数据可以是节点之间的连接边，用户在各个金融交易行为特征上的分布相似度之和作为特征对应的连接边的边权重，进而可以构建一个用户集的连通图网络G(V,E)。例如，对于用户集A及其邻接用户集B、C、...、H，可以表示为连通图网络G(V,E)的8个节点，进而可以通过数组V[8]={V1,V2,...,V8}存储这些节点的信息，其中，V1,V2,...,V8可以依次对应表示A、B、C、...、H的信息；对于节点之间的连接边E，可以通过数组E[8][8]存储关系网络节点的连接边的信息，如E[2][3]可以存储V2与V3节点的联络数据，进而构造出用户集的加权连通图网络G(V,E)。

一种实施例中，在步骤S220中，参考图3所示，构建用户群组加权完全连通图可以包括步骤：

S221、计算每个所述待检测用户群组与所有待检测用户群组在各个行为特征上的分布相似度之和；

S222、删除每个所述待检测用户群组中与所有所述待检测用户群组的第二分布相似度之和大于预定阈值的行为特征所对应的边权重。

在以待检测用户群组为节点，待识别群组之间的分布相似度之和作为边权重，构建群组完全连通图之后，上述用户群组完全连通图中各节点相互连通，在后续计算中计算量复杂，可以采用删除每个待检测用户群组与所有待检测用户群组在各个金融交易行为特征上的第二分布相似度之和大于预定阈值的相似度之和的特征对应的边权重这种方式进行剪枝，以降低复杂度。每个待检测用户群组在各个特征上的第二分布相似度之和大于预定阈值的特征可以视为与总体分布无差异的特征，其对风险识别的影响小。

S230、通过计算所述用户群组加权完全连通图中各个节点对应的待检测用户群组的行为特征的分布相异度和紧密度，确定所述用户群组加权完全连通图上风险用户群组所对应的风险节点。

在本示例的实施方式中，对于用户群组加权完全连通图上的每一个节点对应的待检测用户群组，计算其与总体分布（完全连通图上所有的节点对应的所有待检测用户群组）在各个特征上的分布相异度分布相异度可基于多种方式计算，例如卡方值、KL散度、JS散度、PSI、统计概率分布、KS检验等。紧密度是根据特征类型选择不同的距离度量函数。紧密度A(Affinity)，可以根据特征类型选择不同的距离度量函数：对于数值型特征，选择欧式距离或曼哈顿距离；对于类别型特征，选择汉明距离，对于分布型特征，选择KL距离；对于集合型特征，选择杰卡德距离；对于特殊类型特征，如地址，IP等，转化为地理位置距离。

每个待检测用户群组的数据集在各个特征上的分布相异度，可以表征待检测群组与待检测群组来源的总数据集在各个特征上分布差异，进而体现待检测群组的风险程度。例如，当在各个特征上分布相异度之和越大，说明待检测群组在各个特征上分布相差越远，可能存在风险。每个待检测群组的紧密度，表征待识别群组内部用户样本紧密程度，可以从内部反映待检测群组的风险程度；当紧密度越大，说明待检测群组内部越松散，也可能存在风险。进而可以通过计算每个待检测群组的数据集在各个特征上的分布相异度及每个待检测群组的紧密度，确定多个待检测群组中的风险节点。可以在后续步骤中，以紧密聚集的群组（内部成员属性或行为特征高度相似）为检测对象，克服了传统异常值检测算法FPR过高的缺陷。本示例实施方式可以应用于智慧政务如银行交易监管等场景中，从而推动智慧城市的建设。

一种实施例中，在步骤S230中，参考图4所示，确定所述用户群组加权完全连通图上风险用户群组所对应的风险节点还包括步骤：

S231、计算所述用户群组加权完全连通图中各个节点对应的待检测用户群组的行为特征的分布相异度及紧密度；

S232、根据公式Score=f(ΣDis,A)计算每个所述待检测用户群组的风险得分，其中，所述ΣDis为每个所述待检测群组的各行为特征的分布相异度之和，所述A为每个所述待识别群组的紧密度；

S233、将风险得分大于预设得分阈值的待检测用户群组所对应的节点作为风险节点。

其中，风险节点确定方法具体步骤如下：

（1）计算待检测用户群组在各个特征分布上的相异度之和ΣDis;具体的，计算每个待检测群组的各金融交易行为特征相对于总体分布（完全连通图上所有的节点对应的所有待检测用户群组）的分布相异度之和。

（2）根据风险得分Score=(ΣDis) • A计算得到风险得分；

（3）将Score大于预先指定的预设得分阈值St的第二用户集标记为风险节点。

群组紧密度A计算方式为：首先计算群组内节点两两之间的相似度（相似度=1-距离），最后取所有相似度的平均值作为群组的紧密度。

其中，当分布相异度之和ΣDis越大，说明待检测群组在各个特征上分布相差越远，可能存在风险。同时，当紧密度A越大，说明待检测群组内部越松散，也可能存在风险。公式Score=f(ΣDis,A)可以是与ΣDis和A正相关的一个函数，例如Score=ΣDis·A。最终，将风险得分大于预设得分阈值的待检测用户群组所对应的节点作为风险节点。

S234将风险节点上传至区块链中。

基于风险节点得到对应的摘要信息，具体来说，摘要信息由风险节点进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证风险节点是否被篡改。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

一种实施例中，通过计算所述用户群组加权完全连通图中各个节点对应的待检测用户群组的行为特征的分布相异度和紧密度，确定所述用户群组加权完全连通图上风险用户群组所对应的风险节点之后，还包括：

以所述风险节点作为初始风险种子，在所述用户群组加权完全连通图上执行图传播计算，确定与所述初始风险种子在行为特征上的分布相似度超过预定相似度阈值的第二风险节点。

第二风险节点可以是与风险节点连接的且相似度超过预定相似度阈值的节点，通过将风险节点和与风险节点关联的第二风险节点共同作为最终的风险节点。可以提高异常的召回率。其中，采用标签传播算法LPA执行图传播计算，可以找到与风险节点强关联的第二风险节点。

使用标签传播算法LPA执行图传播计算，可以从已标记的节点标签信息（风险节点）来预测未标记的节点标签信息（与风险节点关联的节点）。在传播计算时，每个节点按相似度传播给相邻节点，在节点传播的每一步，每个节点根据相邻节点的标签来更新自己的标签，与该节点相似度越大，其相邻节点对其标注的影响权值越大，相似节点的标签越趋于一致，其标签就越容易传播。在标签传播过程中，保持已标记的数据的标签不变，使其将标签传给未标注的数据。最终当迭代结束时，相似节点的概率分布趋于相似，可以划分到一类，即为与风险节点关联的节点（第二风险节点节点）。

S240、根据预设的目标异常场景下的异常特征映射表，获取所述风险节点对应的待检测用户群组中用户的行为特征在所述目标异常场景下的异常场景特征，以根据所述异常场景特征获取所述风险节点中的可疑节点。

目标异常场景可以根据需求设定。

目标异常场景下的异常特征映射表，可以是对应于不同异常场景下，保存用户行为特征与异常场景特征的对应关系的映射表。该异常特征映射表中可以包括：例如，年龄50岁-60岁、地域某市（可以根据地域特点分类）两个用户行为特征组合与D5异常场景特征的对应关系；年龄40岁-50岁、地域某市（可以根据地域特点分类）两个用户行为特征组合与C5异常场景特征的对应关系，地域某市、某类型单位及某类型消费三个用户行为特征组合与TEU异常场景特征的对应关系。一种实施例中，异常场景特征是通过特征码的形式表现的，特征码可以表征用户在目标异常场景下的一个维度的异常信息。进而，通过获取的特征码组合从特征角度可以准确反映目标异常场景下用户的异常程度。

进而，基于目标异常场景下的异常特征映射表，可以将风险节点对应的待检测用户群组中用户的行为特征在目标异常场景下的异常场景特征。

通过获取的每个用户的异常场景特征的组合，可以与预设的目标异常场景下的历史用户的可疑场景特征序列进行对比，评价出每个用户的异常程度，例如，通过对比得到与可疑场景特征序列相似度，相似度越高，用户越可疑。可疑将相似度高于一可疑阈值的用户确定为可疑用户

进一步的，可以基于每个风险节点对应的待检测用户群组中可疑用户的比例，将可疑用户的比例高于一可疑比例值的确定为可疑节点。

这样可以在基于分布相异度和紧密度确定风险节点的基础上，通过目标场景下的异常特征映射表获取目标异常场景下用户的异常场景特征，从特征异常角度进一步从风险节点中确定可疑节点，保证异常用户的范围点（可疑节点）确定的准确性。

S250、基于社区发现算法确定所述用户群组加权完全连通图中包含所述可疑节点的可疑节点社区，以对每个包含所述风险节点的可疑节点社区进行风险评分。

本示例的实施方式中，社区反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系，研究网络中的社区对理解整个网络的结构和功能起到至关重要的作用，并且可帮助分析及预测整个网络各元素间的交互关系。社区发现算法包括图分割、密度子图、连通子图等。运用社区发现算法分析所述群组完全连通图中的各节点（群组）之间的交互关系，可以检测出用户群组加权完全连通图中存在的节点社区，进而，确定出包括可疑节点的可疑节点社区。

然后对每个包含所述风险节点的可疑节点社区进行风险评分，可以是根据可疑节点社区中可疑节点的占比或者风险节点的占比作为评分，进而评分越高，该社区风险度越大，该社区中节点所对应的待检测用户群组异常性更大。

通过每个包含风险节点的可疑节点社区进行风险评分，可以在后续步骤进行最终异常社区确定。

在步骤S250中，参考图5所示，基于社区发现算法确定所述用户群组加权完全连通图中包含所述可疑节点的可疑节点社区包括步骤：

S251、确定所述可疑节点所在的每个节点社区对应的第一节点集合；

S252、在每个所述第一节点集合中加入所述第一节点集合中每个节点的邻接节点，得到每个所述第一节点集合对应的第二节点集合；

S253、计算每个所述第二节点集合中包含于所对应的第一节点集合中的网络元素的比例，所述网络元素为所述第二节点集合中两个连接的节点；

S254、将所述比例大于预设比例阈值的第二节点集合所对应的节点社区作为可疑节点社区。

社区发现算法可采用局部模块度的方法计算得到可疑节点所在的社区，具体步骤可以如下：

确定可疑节点所在的每个节点社区对应的第一节点集合为V，这些节点所有的邻接节点而加入到集合当中来，形成新的第二节点集合V*。定义V*的邻接矩阵为：

于是，和全局模块度相似的是，可以用节点集V*全部属于节点集V中的网络元素所占的比例的大小来衡量一个社区的好坏：

其中，A_ij为网络的邻接矩阵的一个元素，定义为:

δ(i,j)表示的是如果i，j都在集合V中，则值为1，否则为0。m*表示的是邻接矩阵内边的数目，当δ(i,j)=1时，将i，j所在社区标记为可疑节点社区。通过局部模块寻找与风险节点关联的节点，是基于待检测用户群组数据大量非关系或弱关系特征构建的加权完全连通图，无需与传统关系网络一样依赖于高质量的强关系特征，降低了应用时对数据的要求，扩大了可应用范围。

在步骤S250中，参考图6所示，所述对每个包含所述风险节点的可疑节点社区进行风险评分还包括步骤：

S255、计算每个所述可疑节点社区中所述可疑节点的占比以及每个所述可疑节点社区中社区节点的平均中心性度量；

S256、根据所述占比以及所述平均中心性度量，计算每个所述可疑节点社区的风险评分。

中心性定义了网络中一个节点的重要性，因此可疑节点的中心性可以反映出可疑节点社区的整体用户在金融交易行为上的特点，通过计算可疑节点在可疑节点社区中的平均中心性度量，找到可疑节点所在社区后，需要对每个包含所述风险节点的社区进行风险评分，具体步骤如下：

1）percent为该社区节点包含风险节点的占比，计算percent；

2）centrality为社区节点的平均中心性度量可以采用度中心性计算得到；

3）根据Score_c=percent • centrality计算风险评分。

其中，percent为该社区节点包含风险节点的占比，centrality为社区节点的平均中心性度量，中心性度量可采用度中心性（degree centrality）、接近中心性（closenesscentrality）,pagerank等算法计算得出。

S260、基于所述风险评分确定异常的可疑节点社区，以将异常的所述可疑节点社区对应的待检测用户群组作为识别出的异常用户群。

在本示例的实施方式中，通过社区发现算法确定用户群组加权完全连通图中包含可疑节点的可疑节点社区，并对每个包含风险节点的可疑节点社区进行风险评分，从而可以根据风险评分结果确定出异常用户群，例如，将风险评分最高的多个可疑节点社区确定为异常的可疑节点社区。

根据风险评分，确定异常的可疑节点社区，作为识别出的异常用户群。在初始检测结果（风险群组）的基础上结合图社区发现算法，进一步提高了风险检测的召回率与精确率。

一种实施例中，在步骤S260中，基于所述风险评分确定异常的可疑节点社区具体包括：将所述风险评分大于预设评分阈值的所述可疑节点社区确定为异常的可疑节点社区。

预设评分阈值可以是根据待识别用户群组的风险识别需要设定的阈值。通过预设评分阈值筛选出与可疑节点强关联的可疑节点，可以保证异常检测的准确性。

本申请通过对待检测用户群组数据构建加权完全连通图，进而在连通图中找出风险节点并查找与风险节点关联的节点，将与所述风险节点关联的节点与所述风险节点共同作为可疑节点，基于社区发现算法确定可疑节点所在的社区，从而对可疑节点所在的社区进行风险评分，最终从待检测用户群组中确定出异常用户群组。基于AI技术中的无监督学习对待检测用户群组数据基于大量非关系或弱关系特征构建图，无需与传统关系网络一样依赖于高质量的强关系特征，降低了应用时对所需检测数据的要求，扩大了异常用户数据检测的可应用范围。

本申请还提供一种异常用户识别装置300。参考图7所示，该装置包括：

获取待检测用户群组模块310，用于获取多个待检测用户群组的行为特征数据，所述待检测用户群组中用户的行为特征相似;

构建加权完全连通图模块320，用于用于分别计算所有所述待检测用户群组之间在各个行为特征上的分布相似度之和作为边权重，以所有所述待检测用户群组为节点，构建用户群组加权完全连通图；

确定风险用户群组模块330，用于通过计算所述用户群组加权完全连通图中各个节点对应的待检测用户群组的行为特征的分布相异度及紧密度，确定所述用户群组加权完全连通图上风险用户群组所对应的风险节点；

获取可疑群组模块340，用于根据预设的目标异常场景下的异常特征映射表，获取所述风险节点对应的待检测用户群组中用户的行为特征在所述目标异常场景下的异常场景特征，以根据所述异常场景特征获取所述风险节点中的可疑节点；

风险评分模块350，用于基于社区发现算法确定所述用户群组加权完全连通图中包含所述可疑节点的可疑节点社区，以对每个包含所述风险节点的可疑节点社区进行风险评分；

异常用户社区模块360，用于基于所述风险评分确定异常的可疑节点社区，以将异常的所述可疑节点社区对应的待检测用户群组作为识别出的异常用户群。

上述异常用户识别的装置中各模块的具体细节已经在对应的异常用户识别的方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本申请实施方式的方法。

在本申请的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图8来描述根据本发明的这种实施方式的电子设备500。图8显示的电子设备500仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于：上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件（包括存储单元520和处理单元510）的总线530。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元510执行，使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元510可以执行如图2中所示的S210、获取多个待检测用户群组的行为特征数据，所述待检测用户群组中用户的金融交易行为特征相似；S220、分别计算所有所述待检测用户群组之间在各个金融交易行为特征上的分布相似度之和作为边权重，以所有所述待检测用户群组为节点，构建用户群组加权完全连通图；S230、通过计算所述用户群组加权完全连通图中各个节点对应的待检测用户群组的行为特征的分布相异度和紧密度，确定所述用户群组加权完全连通图上风险用户群组所对应的风险节点；S240、根据预设的目标异常场景下的异常特征映射表，获取所述风险节点对应的待检测用户群组中用户的行为特征在所述目标异常场景下的异常场景特征，以根据所述异常场景特征获取所述风险节点中的可疑节点；S250、基于社区发现算法确定所述用户群组加权完全连通图中包含所述可疑节点的可疑节点社区，以对每个包含所述风险节点的可疑节点社区进行风险评分；S260、基于所述风险评分确定异常的可疑节点社区，以将异常的所述可疑节点社区对应的待检测用户群组作为识别出的异常用户群。

存储单元520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）5201和/或高速缓存存储单元5202，还可以进一步包括只读存储单元（ROM）5203。

存储单元520还可以包括具有一组（至少一个）程序模块5205的程序/实用工具5204，这样的程序模块5205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备500也可以与一个或多个外部设备700（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备500交互的设备通信，和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口550进行。并且，电子设备500还可以通过网络适配器560与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器560通过总线530与电子设备500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本申请实施方式的方法。

在本申请的示例性实施例中，参考图9所示，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图9所示，描述了根据本申请的实施方式的用于实现上述方法的计算机可读存储介质600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

储存介质600可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其他实施例。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求指出。

Claims

1.一种异常用户识别方法，其特征在于，包括：

获取多个待检测用户群组的行为特征数据，所述待检测用户群组中用户的行为特征相似;

分别计算所有所述待检测用户群组之间在各个行为特征上的分布相似度之和作为边权重，以所有所述待检测用户群组为节点，构建用户群组加权完全连通图；

计算所述用户群组加权完全连通图中各个节点对应的待检测用户群组的行为特征的分布相异度及紧密度；

根据公式Score=f(ΣDis,A)计算每一所述待检测用户群组的风险得分，其中，所述ΣDis为每个所述待检测用户群组的各个行为特征的分布相异度之和，所述A为每个所述待检测用户群组的紧密度；

将风险得分大于预设得分阈值的待检测用户群组所对应的节点作为所述用户群组加权完全连通图上风险用户群组所对应的风险节点；

根据预设的目标异常场景下的异常特征映射表，获取所述风险节点对应的待检测用户群组中用户的行为特征在所述目标异常场景下的异常场景特征，以根据所述异常场景特征获取所述风险节点中的可疑节点；

基于社区发现算法确定所述用户群组加权完全连通图中包含所述可疑节点的可疑节点社区，以对每个包含所述风险节点的可疑节点社区进行风险评分；所述可疑节点社区的风险评分为Score_c＝percent·centrality，其中，percent为所述可疑节点社区包含风险节点的占比，centrality为所述可疑节点社区的平均中心性度量；

基于所述风险评分确定异常的可疑节点社区，以将异常的所述可疑节点社区对应的待检测用户群组作为识别出的所述目标异常场景下的异常用户群。

2.根据权利要求1所述的方法，其特征在于，所述构建用户群组加权完全连通图还包括：

计算每个所述待检测用户群组与所有待检测用户群组在各个行为特征上的第二分布相似度之和；

删除每个所述待检测用户群组中与所有所述待检测用户群组的第二分布相似度之和大于预定阈值的行为特征所对应的边权重。

3.根据权利要求1所述的方法，其特征在于，在将风险得分大于预设得分阈值的待检测用户群组所对应的节点作为所述用户群组加权完全连通图上风险用户群组所对应的风险节点之后，还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于社区发现算法确定所述用户群组加权完全连通图中包含所述可疑节点的可疑节点社区包括：

确定所述可疑节点所在的每个节点社区对应的第一节点集合；

在每个所述第一节点集合中加入所述第一节点集合中每个节点的邻接节点，得到每个所述第一节点集合对应的第二节点集合；

计算每个所述第二节点集合中包含于所对应的第一节点集合中的网络元素的比例，所述网络元素为所述第二节点集合中两个连接的节点；

将所述比例大于预设比例阈值的第二节点集合所对应的节点社区作为可疑节点社区。

5.根据权利要求1所述的方法，其特征在于，所述对每个包含所述风险节点的可疑节点社区进行风险评分包括：

计算每个所述可疑节点社区中所述可疑节点的占比以及每个所述可疑节点社区中社区节点的平均中心性度量；

根据所述占比以及所述平均中心性度量，计算每个所述可疑节点社区的风险评分。

6.根据权利要求1所述的方法，其特征在于，所述基于所述风险评分确定异常的可疑节点社区包括：

将所述风险评分大于预设评分阈值的所述可疑节点社区确定为异常的可疑节点社区。

7.一种异常用户识别装置，其特征在于，包括：

获取待检测用户群组模块，用于获取多个待检测用户群组的行为特征数据，所述待检测用户群组中用户的行为特征相似;

构建加权完全连通图模块，用于分别计算所有所述待检测用户群组之间在各个金融交易行为特征上的分布相似度之和作为边权重，以所有所述待检测用户群组为节点，构建用户群组加权完全连通图；

确定风险用户群组模块，用于计算所述用户群组加权完全连通图中各个节点对应的待检测用户群组的行为特征的分布相异度及紧密度；根据公式Score=f(ΣDis,A)计算每一所述待检测用户群组的风险得分，其中，所述ΣDis为每个所述待检测用户群组的各个行为特征的分布相异度之和，所述A为每个所述待检测用户群组的紧密度；将风险得分大于预设得分阈值的待检测用户群组所对应的节点作为所述用户群组加权完全连通图上风险用户群组所对应的风险节点；

获取可疑群组模块，用于根据预设的目标异常场景下的异常特征映射表，获取所述风险节点对应的待检测用户群组中用户的行为特征在所述目标异常场景下的异常场景特征，以根据所述异常场景特征获取所述风险节点中的可疑节点；

风险评分模块，用于基于社区发现算法确定所述用户群组加权完全连通图中包含所述可疑节点的可疑节点社区，以对每个包含所述风险节点的可疑节点社区进行风险评分；所述可疑节点社区的风险评分为Score_c＝percent·centrality，其中，percent为所述可疑节点社区包含风险节点的占比，centrality为所述可疑节点社区的平均中心性度量；

异常用户群模块，用于基于所述风险评分确定异常的可疑节点社区，以将异常的所述可疑节点社区对应的待检测用户群组作为识别出的异常用户群。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的异常用户识别方法。

9. 一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-6任一项所述的异常用户识别方法。