CN112001649A

CN112001649A - 一种风险数据挖掘方法、装置以及设备

Info

Publication number: CN112001649A
Application number: CN202010879634.4A
Authority: CN
Inventors: 庞博; 凌芳觉
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2020-11-27
Anticipated expiration: 2040-08-27
Also published as: CN112001649B

Abstract

本说明书实施例公开了一种风险数据挖掘方法、装置以及设备。方案包括：确定由多个用户节点和用户节点间的关联边构成的关系图谱，以及为用户节点生成分组标签；根据关系图谱和分组标签，确定多个用户节点总体的第一模块度指标；根据更新过的分组标签，确定多个用户节点总体的第二模块度指标，其中，第二模块度指标表示的模块结构强度高于第一模块度指标表示的模块结构强度；根据第二模块度指标及其对应的分组标签，确定风险用户节点组。

Description

一种风险数据挖掘方法、装置以及设备

技术领域

本说明书涉及计算机软件技术领域，尤其涉及一种风险数据挖掘方法、装置以及设备。

背景技术

随着计算机技术和互联网的迅速发展，越来越多的业务都在互联网上进行，给人们的生活带来了极大的便利，但是，同时也带来了不少风险。典型的风险包括一些不法分子以互联网为媒介，以网络技术为主要手段的不法行为，比如，网络赌博、网络洗钱、病毒勒索、木马盗号等，这些风险威胁到计算机信息系统安全和网络空间管理秩序，甚至国家安全、社会稳定，将这样的不法分子称为黑产用户，黑产用户也经常团伙作案，将这样团伙称为黑产团伙。

目前采用传统的机器学习聚类模型，通过无监督的聚类算法来尝试挖掘网络中诸如黑产团伙这类的风险用户团伙。

但是，还需要能够更为有效挖掘风险用户团伙的方案。

发明内容

本说明书一个或多个实施例提供识别一种风险数据挖掘方法、装置、设备以及存储介质，用以解决如下技术问题：需要能够更为有效挖掘风险用户团伙的方案。

为解决上述技术问题，本说明书一个或多个实施例是这样实现的：

本说明书一个或多个实施例提供的一种风险数据挖掘方法，包括：

确定由多个用户节点和所述用户节点间的关联边构成的关系图谱，以及为所述用户节点生成分组标签；

根据所述关系图谱和所述分组标签，确定所述多个用户节点总体的第一模块度指标；

根据更新过的所述分组标签，确定所述多个用户节点总体的第二模块度指标，其中，所述第二模块度指标表示的模块结构强度高于所述第一模块度指标表示的模块结构强度；

根据所述第二模块度指标及其对应的所述分组标签，确定风险用户节点组。

本说明书一个或多个实施例提供的一种风险数据挖掘装置，包括：

初始化模块，确定由多个用户节点和所述用户节点间的关联边构成的关系图谱，以及为所述用户节点生成分组标签；

标签及模块度更新模块，根据所述关系图谱和所述分组标签，确定所述多个用户节点总体的第一模块度指标；

风险组确定模块，根据所述第二模块度指标及其对应的所述分组标签，确定风险用户节点组。

本说明书一个或多个实施例提供的一种风险数据挖掘设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

本说明书一个或多个实施例提供了的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果：通过关系图谱和分组标签，能够半监督地对用户节点数据进行挖掘，根据设计的模块度指标，将分组标签更新至更准确的水平，进而根据更新过的分组标签，更为有效地挖掘出风险用户团伙。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例提供的一种风险数据挖掘方法的流程示意图；

图2为本说明书一个或多个实施例提供的一种关系图谱的示意图；

图3为本说明书一个或多个实施例提供的一种应用场景下，图1中方法的一种详细流程示意图；

图4为本说明书一个或多个实施例提供的一种风险数据挖掘装置的结构示意图；

图5为本说明书一个或多个实施例提供的一种风险数据挖掘设备的结构示意图。

具体实施方式

本说明书实施例提供一种风险数据挖掘方法、装置、设备以及存储介质。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

在说明书一个或多个实施例中，设计了针对多个用户总体的模块度指标，通过优化该模块度指标来获取概率相对高的风险用户分组，并且还进一步地设计了分组内的中心度指标，通过优化该中心度指标来获取风险用户分组内的核心风险用户，从而有助于将组内重要程度不同的用户区分开来，以便有的放矢重点针对，更高效地打击风险用户团伙；不仅如此，还为该模块度指标和该中心度指标设计了多个差异化的关注度参数，用于调整对不同分组情况的关注度，从而有助于获取更符合实际需求的挖掘结果。下面基于这样的思路，具体进行说明。

图1为本说明书一个或多个实施例提供的一种风险数据挖掘方法的流程示意图。该方法可以应用于不同的业务领域，比如，互联网金融业务领域、电商业务领域、即时通讯业务领域、游戏业务领域、公务业务领域等。该流程可以由相应领域的计算设备(比如，支付业务对应的风控服务器或者智能移动终端等)执行，流程中的某些输入参数或者中间结果允许人工干预调节，以帮助提高准确性。

图1中的流程可以包括以下步骤：

S102：确定由多个用户节点和所述用户节点间的关联边(简称为：边)构成的关系图谱，以及为所述用户节点生成分组标签。

在本说明书一个或多个实施例中，用户节点比如用相应的账号或者序号表示。账号一般是手机号，或者搭载于终端上的某个应用的账号，比如，第三方支付应用的账号、银行应用的账号、即时通讯应用的账号等。

不同的用户节点间可能具有一种或者多种类型的关系，比如，交易关系、通讯录关系、同地址关系、应用好友关系等。根据这些关系，构成用户节点间相应的边，从而将用户节点关联起来，具体选取哪种或者哪几种类型的关系，这里不做限定。根据多个用户节点和用户节点间的边，可以生成相应的关系图谱。

直观地，图2为本说明书一个或多个实施例提供的一种关系图谱的示意图，在图2的关系图谱中，示出了A～I共9个用户节点，以及8条边。

以A为例，A与B之间具有一条边，该边表示的是A与B之间的交易关系，比如，具体表示A与B之间曾经发生过交易。需要说明的是，根据实际需要，也可以采用更复杂的策略决定是否在用户节点间构建边，比如，预设一个交易次数阈值等于3次，A与B之间虽然曾经发生过交易，但若交易次数未超过3次，可以认为交易次数过少，关系特征不够明显，则可以不在A与B之间构建表示交易关系的边，而若交易次数超过3次，才在A与B之间构建表示交易关系的边。

A与D、G之间也分别具有一条表示交易关系的边；A与C之间具有一条表示同IP地址关系的边，该同IP地址关系比如表示A与C近期可能用同一个局域网中的电脑上过网；A与F之间具有一条表示通讯录关系的边，该通讯录关系比如表示A或者F在对方的手机通讯录中。

再以C为例，C除了与A之间具有一条边以外，还与E之间具有一条表示交易关系的边；C与H之间具有一条表示同收发货地址的边，该同收发货地址比如表示C与H在网上购物时使用相同的收货地址，或者在网上卖货时使用相同的发货地址，则C与H可能是家人或者同事。

在实际实施本说明书的方案时，采用的关系图谱中包含的用户节点和边远多于图2中所示。后面的处理基于关系图谱进行。

在本说明书一个或多个实施例中，步骤S102中为用户节点生成(比如，可以至少部分随机生成)的分组标签是不准确或者不完全准确的。通过后面的一次或者多次更新，将分组标签更新至较为准确的状态，以便根据分组标签，较为准确地将用户节点分组。

在本说明书一个或多个实施例中，关系图谱中的部分节点可以是已确定的风险用户节点。比如，根据某用户节点的历史业务数据，确定该用户节点已经在网络实施过不法行为，确实属于黑产用户。对于这部分用户节点，可以根据事实情况，直接将划分为一个或者多个风险用户节点集合，并为同一个风险用户节点集合中的用户节点生成相同的分组标签，这类分组标签是准确的，则相应的数据可以作为监督数据，辅助后续处理更准确更高效地进行。

在本说明书一个或多个实施例中，关系图谱可以常规地以图的形式表示，也可以以列表、文本字符串其他形式间接表示。

S104：根据所述关系图谱和所述分组标签，确定所述多个用户节点总体的第一模块度指标。

在本说明书一个或多个实施例中，根据当前的分组标签，能够将多个用户节点划分为多个分组，模块度指标则表示了这些分组整体的模块结构强度。该模块结构强度越高，则反映依据当前的分组标签，所划分出的这些分组划分得越为合理，越能够准确地反映出用户节点之间一些隐形关系，比如，黑产团伙关系。

上一段的说明适用于第一模块度指标，以及后面步骤提到的第二模块度指标、第三模块度指标。第一模块度指标、第二模块度指标、第三模块度指标可以采用相同的计算方案来计算确定，计算过程中的参数取值会有区别，后面会具体说明，为了便于描述，将上面的这些模块度指标统一称为模块度指标。

S106：根据更新过的所述分组标签，确定所述多个用户节点总体的第二模块度指标，其中，所述第二模块度指标表示的模块结构强度高于所述第一模块度指标表示的模块结构强度。

在本说明书一个或多个实施例中，前面已经提到步骤S102中生成的分组标签未必准确，则相应划分的分组也尚未达到准确的状态。因此，相应确定出的第一模块度指标有可优化空间，也即，第一模块度指标表示的模块结构强度有可提高空间。

基于此，按照一定的策略，对当前的分组标签进行更新，利用更新过的分组标签再确定总体的模块度指标，以尝试达到更高的模块结构强度，乃至能够达到预期高度的模块结构强度，可以认为该更高的模块结构强度对应的分组标签更准确了，该预期高度对应的分组标签的准确程度达到了预期。为了便于描述，这里用第二模块度指标来表示该更高的和/或达到预期的模块结构强度所对应的模块度指标。

在本说明书一个或多个实施例中，可以根据指定的可更新范围，对至少部分分组标签进行一次或者多次更新，以尝试优化总体的模块度指标。比如，将步骤S102中已有的分组标签所构成的集合作为该可更新范围，若在后续更新过程中，当前的分组标签所构成的集合缩小了，则可以相应地缩小该可更新范围，从而有助于使分组数量更快地收敛，提高优化效率。

S108：根据所述第二模块度指标及其对应的所述分组标签，确定风险用户节点组。

在本说明书一个或多个实施例中，第二模块度指标对应的分组标签相比于之前的分组标签更为准确。因此，按照第二模块度指标对应的分组标签，对用户节点进行分组，有助于更准确地划分出一个或者多个风险用户节点组，可以认为同一个风险用户节点组构成一个风险用户团伙，从而更准确地确定出风险用户团伙的真实范围。

当然，若第二模块度指标仍未达到预期且有优化空间，则可以对第二模块度指标进一步地优化，以尝试更新至更准确的分组标签，再用于确定风险用户节点组。

在本说明书一个或多个实施例中，还设计了用于量化风险用户节点组中各节点的重要程度的中心度指标，可以根据中心度指标，进一步地确定风险用户节点组中的一个或者多个核心用户节点，以重点针对这些核心用户节点，从而更有效地打击风险用户团伙。

通过图1的方法，通过关系图谱和分组标签，能够半监督地对用户节点数据进行挖掘，根据设计的模块度指标，将分组标签更新至更准确的水平，进而根据更新过的分组标签，更为有效地挖掘出风险用户团伙。

基于图1的方法，本说明书还提供了该方法的一些具体实施方案和扩展方案，下面继续进行说明。

在本说明书一个或多个实施例中，为了准备更新过程的执行，为用户节点生成初始化的分组标签。一种初始化方案是为不同的用户节点分别生成有规律的不同分组标签，比如，假定有1万个用户节点，生成从1～10000的整数数字序号，分别作为这1万个用户节点的分组标签。另一种初始化方案是随机为至少部分用户节点生成分组标签，比如，对于已确定的风险用户节点，为它们生成一致的分组标签，为其他用户节点则随机生成分组标签。

进一步地，初始化的分组标签本身是不够准确的，可以通过简单的调整，快速地使得部分分组标签的准确性明显上升一截，这样的调整可以不依赖于模块度指标，计算量很少，能够达到事半功倍的效果。

具体地，对于团伙而言，其成员间难以避免会产生更多的关系，表现在关系图谱上就是这些成员的用户节点比较靠近，这些用户节点的分组标签事实上应当是相同的。基于此，在初始化分组标签后，可以根据用户节点在关系图谱中的附近节点，调整初始化的分组标签，以提高该用户节点与其附近节点的分组标签的统一性，这是很可能符合事实的。比如，可以确定用户节点在关系图谱中的邻接节点，将该用户节点的初始化的分组标签，调整为该邻接节点的分组标签。该邻接节点指距离该用户节点1跳的节点，即与该用户节点通过1条边直接相连的节点。

上述的附近的具体范围根据需求设定，该附近节点至少包括该用户节点的邻接节点，可以扩大该具体范围，比如，附近节点还可以包括距离该用户节点2跳或者更多跳的节点，当然这里跳数的阈值设置应当合理，若阈值过大则事实上不算是附近了。

在本说明书一个或多个实施例中，用户节点间的边直接反应了真实的用户关系，因此，可以将边的信息结合当前的分组标签，来确定第一模块度指标、第二模块度指标。在不考虑不同边的具体区别的情况下，能够简化模块度指标的计算过程，比如，节点的度这个概念就并未考虑不同边的具体区别，节点的度为节点直接连接的其他节点的数量，也等于节点直接连接其他节点的边的数量。

但是，在实际应用中，不同类型的关系所反映出的关系密切程度往往不一样，即使同一类型的关系所反映出的关系密切程度也可能不一样。因此，根据实际反映的关系情况，将不同边的加以区别也是合理的，有助于得到更准确的挖掘结果。比如，为所反映的关系密切程度不同的边，赋予不同的权重(如：关系越密切，则权重越高)，根据权重和分组标签，来确定模块度指标。

在本说明书一个或多个实施例中，主要根据当前属于相同分组的用户节点，来确定模块度指标，这种处理方式使得分组标签的准确程度能够有效地影响模块度指标。进一步地，可以对多个用户节点划分为多个局部集合，多个局部集合支持差异化处理，分别针对局部集合确定局部模块度指标，再对局部模块度指标进行融合，得到总体的模块度指标。局部集合的划分依据是多样的，比如，根据单个节点的隶属关系，或者多个节点的隶属关系的组合等依据来划分。

基于此，假定考虑了边的权重，可以根据关系图谱，确定用户节点间的边的权重，根据权重和当前的分组标签，确定属于相同分组的用户节点的局部模块度指标，根据局部模块度指标，确定多个用户节点总体的第一模块度指标或者第二模块度指标。

更直观地，本说明书实施例还示例性地提供了一种应用场景下，模块度指标的计算方案，主要通过下面的公式一说明。

其中，Idx₁(.)表示模块度指标的计算函数，t₁,t₂,...,t_n对应表示n个用户节点x₁,x₂,...,x_n(比如为上述的多个用户节点)当前的分组标签，Idx₁(t₁,t₂,...,t_n)表示在当前的分组标签t₁,t₂,...,t_n的情况下，x₁,x₂,...,x_n总体的模块度指标，B表示预定的风险用户节点集合，δ(.)表示示性函数，示性函数所使用的判定条件为真则取值为1，为假则取值为0；

m_i表示第i个用户节点x_i所连接的边的权重之和：

M表示全部边的权重之和；

E表示全部边的集合，e_ij表示x_i与x_j之间的边，ε₁、ε₂、ε₃表示关注度参数，可以根据对于对应项情况的关注度的不同而设置不同的阈值，有助于获得更有参考价值的模块度指标。比如，可以设置为指定的常数值，或者也可以设置为

的分位数(如：将ε₁、ε₂、ε₃分别设置为

的75％分位数、50％分位数、25％分位数)。在通过公式一计算模块度指标的情况下，模块度指标越大，则其表示的模块结构强度越高。公式一中已经解释的部分符号会在后面沿用，后面不再重复解释。

公式一的大括号中三项中的每一项可以分别表示一种上述的局部模块度指标。对于公式一而言，是采用如下方式确定局部模块度指标的：

在多个用户节点中确定属于相同分组(t_i＝t_j)的第一节点(用户节点x_i)和第二节点(用户节点x_j)；根据确定结果，为至少一种节点组合确定对应的第一关注度参数，其中，节点组合根据第一节点、第二节点是否属于风险节点集合(风险用户节点集合B)划分得到；根据该至少一种节点组合及其对应的第一关注度参数，确定属于相同分组的所述用户节点的局部模块度指标。

在公式一中，有三种节点组合，分别是：属于B的x_i与属于B的x_j的节点组合；两者其中一者属于B而另一者不属于B的x_i与x_j的节点组合；不属于B的x_i与不属于B的x_j的节点组合。这三种节点组合分别对应的第一关注度参数比如为ε₁、ε₂、ε₃。

当然，在实际应用中，模块度指标的计算公式并不限于公式一，基于公式一的思路还可以得到其他的公式。比如，可以有多个不同的B，则可以相应划分出更多种节点组合，从而可以在公式一中增加对应的项；再比如，可以调整示性函数δ(.)中的判定条件，调整为判定t_i、t_i分别对应的分组整体上是否足够接近；等等。

需要说明的是，在采用公式一确定模块度指标的情况下，若初始化得到的分组标签均不相同，则所有的x_i与x_j均不属于相同分组，通过示性函数的作用各项会被置0。基于此，若初始化得到的分组标签均不相同，可以将一部分用户节点的分组标签调整至相同，如此以便于第一模块度指标的确定正常有意义地执行。

在本说明书一个或多个实施例中，可以一次或者多次更新至少部分用户节点的分组标签，以尝试优化模块度指标。具体地，比如，对分组标签进行一次或者多次更新，并对应地确定多个用户节点总体的第三模块度指标，在第三模块度指标中，确定多个用户节点总体的第二模块度指标，其中，第二模块度指标表示的模块结构强度不低于第三模块度指标表示的模块结构强度。

而若分组标签能够得到充分的更新，则可能取到最优的模块结构强度，比如，在分组标签的可更新范围内，对分组标签进行穷举更新，确定出模块结构强度达到最高的第三模块度指标或者第二模块度指标，作为最优的模块度指标，进而可以将最优的模块度指标对应的分组标签视为最优的分组标签。

在本说明书一个或多个实施例中，通过遍历用户节点的方式对分组标签进行更新，以优化模块度参数，不仅如此，遍历过程还可以是迭代进行的，从而有助于获得全局最优解，防止陷入局部最优解。

具体地，遍历多个用户节点，通过更新遍历到的用户节点的分组标签，确定该用户节点对应的多个用户节点总体的第三模块度指标，根据分组标签和第三模块度指标，通过迭代执行遍历的过程，确定多个用户节点总体的第二模块度指标。当遍历到某用户节点时，可以通过将该用户节点的分组标签在可更新范围进行更新，尝试获得模块结构强度最高的总体的模块度指标，达到最高时，将该用户节点当前的分组标签暂时确定下来，然后遍历到下一个用户节点，以此类推，直到遍历完全部用户节点，之后，若本次遍历过程中，有用户节点的分组标签相比于遍历过程之前变化了，则可以迭代地再重复执行遍历过程，直至分组标签收敛稳定下来，可以认为此时分组标签及其对应的模块度指标是最优的。

基于上面的充分更新分组标签的思路，对于步骤S108，可以判断在分组标签的可更新范围内，对应确定出的第二模块度指标表示的模块结构强度是否已经达到最高，若是，则根据第二模块度指标对应的所述分组标签，确定风险用户节点组，否则，可以继续尝试更新分组标签。如此，有助于获得更准确的分组标签。

在实际应用中，考虑到效率和成本等问题，也可以不对分组标签进行充分的更新，对模块度指标进行一定程度的优化，达到一个能够接受的水平，然后认可对应的分组标签也是可以的。

在本说明书一个或多个实施例中，前面已经提到，确定风险用户节点组后，还可以进一步地在风险用户节点组中确定核心用户节点。这里定义了基于用户节点的边的权重的中心度指标，用于确定指定节点的中心度指标，通过针对风险用户节点组中的用户节点确定其中心度指标，能够得到中心度相对靠前的一个或者多个用户节点，作为风险用户节点组中的核心用户节点。

进一步地，类似于上述的第一关注度参数，这里为中心度指标也设计了可选的关注度参数，为了区别，称之为第二关注度参数。比如，可以根据用户节点隶属关系的不同，使用不同的第二关注度参数，以便调节相应的隶属关系对中心度指标的影响程度。

更直观地，本说明书实施例还示例性地提供了一种应用场景下，中心度指标的计算方案，主要通过下面的公式二说明。

其中，Idx₂(.)表示中心度指标的计算函数，α表示可选的权重调整参数，a_j表示可选的节点权重参数，具体表示第j个用户节点x_j的节点的权重，η₁、η₂表示关注度参数，可以根据对于对应项情况的关注度的不同而设置不同的阈值，有助于获得更有参考价值的中心度指标，η₁、η₂比如分别取3、1。

对于公式二而言采用了如下方案：根据关系图谱，确定风险用户节点组中指定用户节点(用户节点x_i)的邻接节点(用户节点x_j，其中，e_ij∈E)的边的权重，根据权重，确定指定用户节点的中心度指标。进而可以根据中心度指标，确定风险用户节点组中的核心用户节点。不仅如此，公式二中还根据邻接节点是否隶属于预定的风险用户节点集合，划分出了两项，分别使用不同的第二关注度参数，比如，η₁、η₂分别作为这两项的第二关注度参数。类似地，依据同样的思路，公式二也有更多可变化的方案用于计算中心度指标。

结合前面的说明，本说明书一个或多个实施例提供了的一种应用场景下，图1中方法的一种详细流程示意图，该流程中使用了前面一些可选的方案，该流程如图3所示。

在图3的流程中，获取用户节点的关系图谱，基于关系图谱进行后面的处理。

对用户节点的分组标签进行初始化处理。具体地，赋值分组标签G₀(x)＝x，x表示用户节点，即将每个用户节点分别用一个不同的分组标签(比如，该用户节点的序号)进行标识。需要说明的是，若有已确定的风险用户节点，可以将这部分节点生成符合事实的分组标签，作为参考数据帮助后续步骤高效准确地进行，为了便于说明，下面不对这部分节点与其他节点做差异化的处理。

遍历用户节点，根据其邻接节点调整初始化的分组标签。具体地，随机取用户节点的某个邻接节点的分组标签，作为该用户节点的分组标签：

其中，N表示全部用户节点的集合。

遍历用户节点，根据模块度指标多次更新用户节点的分组标签，以确定当前最优的模块度指标。具体地，比如采用上述的公式一计算模块度指标，将当前遍历到的用户节点的分组标签更新为使总体的模块度指标最大的分组标签：

其中，T₂表示当前的分组标签的集合。

判断遍历过程前后是否有用户节点的分组标签发生变化，若是，则返回迭代执行上面的遍历过程，否则，执行下一步。

通过迭代的遍历过程更新分组标签，至分组标签稳定不变化，获得最优的模块指标及其对应的分组标签。

根据获得的分组标签进行分组，将相同标签的用户节点分为同一组，进而确定出风险用户节点组，作为所挖掘出的黑产团伙。

遍历风险用户节点组中的用户节点，确定用户节点的中心度指标。具体地，比如采用上述的公式二计算风险用户节点组中的用户节点的中心度指标。

根据中心度指标和设定的阈值，在风险用户节点组中确定一个或者多个核心用户节点，作为黑产团伙中的核心黑产成员。假定在每个风险用户节点组中确定中心度指标排名前p的用户节点：

其中，g＝1,2,......,G，表示风险用户节点组的分组标签，n_g表示第g个风险用户节点组中的节点数量。

基于同样的思路，本说明书一个或多个实施例还提供了上述方法对应的装置和设备，如图4、图5所示。

图4为本说明书一个或多个实施例提供的一种风险数据挖掘装置的结构示意图，图中的虚线方框表示可选的模块，所述装置包括：

初始化模块402，确定由多个用户节点和所述用户节点间的关联边构成的关系图谱，以及为所述用户节点生成分组标签；

标签及模块度更新模块404，根据所述关系图谱和所述分组标签，确定所述多个用户节点总体的第一模块度指标；

风险组确定模块406，根据所述第二模块度指标及其对应的所述分组标签，确定风险用户节点组。

可选地，所述初始化模块402包括起始模块4022、调整模块4024；

所述起始模块4022，为所述用户节点生成初始化的分组标签；

所述调整模块4024，根据所述用户节点在所述关系图谱中的附近节点，调整所述初始化的分组标签。

可选地，所述调整模块4024，确定所述用户节点在所述关系图谱中的邻接节点；

将所述初始化的分组标签，调整为所述邻接节点的分组标签。

可选地，所述标签及模块度更新模块404，根据所述关系图谱，确定所述用户节点间的关联边的权重；

根据所述权重和所述分组标签，确定属于相同分组的所述用户节点的局部模块度指标；

根据所述局部模块度指标，确定所述多个用户节点总体的第一模块度指标。

可选地，所述标签及模块度更新模块404，根据所述分组标签，在所述多个用户节点中确定属于相同分组的第一节点和第二节点；

为至少一种节点组合确定对应的第一关注度参数，其中，所述节点组合根据所述第一节点、所述第二节点是否属于预定的风险节点集合划分得到；

根据所述权重、所述至少一种节点组合及其对应的所述第一关注度参数，确定属于相同分组的所述用户节点的局部模块度指标。

可选地，所述标签及模块度更新模块404，对所述分组标签进行一次或者多次更新，并对应地确定所述多个用户节点总体的第三模块度指标；

在所述第三模块度指标中，确定所述多个用户节点总体的第二模块度指标，其中，所述第二模块度指标表示的模块结构强度不低于所述第三模块度指标表示的模块结构强度。

可选地，所述标签及模块度更新模块404，遍历所述多个用户节点，通过更新遍历到的用户节点的分组标签，确定该用户节点对应的所述多个用户节点总体的第三模块度指标；

根据所述分组标签和所述第三模块度指标，通过迭代执行所述遍历的过程，确定所述多个用户节点总体的第二模块度指标。

可选地，所述风险组确定模块406，判断在所述分组标签的可更新范围内，对应确定出的所述第二模块度指标表示的模块结构强度是否已经达到最高；

若是，则根据所述第二模块度指标对应的所述分组标签，确定风险用户节点组。

可选地，所述装置还包括：

组内核心确定模块408，在所述风险组确定模块406确定风险用户节点组之后，根据所述关系图谱，确定所述风险用户节点组中指定用户节点的邻接节点的关联边的权重；

根据所述权重，确定所述指定用户节点的中心度指标；

根据所述中心度指标，确定所述风险用户节点组中的核心用户节点。

可选地，所述组内核心确定模块408，确定所述邻接节点是否属于预定的风险用户节点集合，得到所述邻接节点对应的确定结果；

为所述确定结果确定对应的第二关注度参数；

根据所述权重和所述对应的第二关注度参数，确定所述指定用户节点的中心度指标。

可选地，所述多个用户节点中包含具有网络风险的黑产用户节点；

所述风险组确定模块406，确定反映黑产团伙的黑产用户节点组。

图5为本说明书一个或多个实施例提供的一种风险数据挖掘设备的结构示意图，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

处理器与存储器之间可以通过总线通信，设备还可以包括与其他设备通信的输入/输出接口。

基于同样的思路，本说明书一个或多个实施例还提供了对应于上述方法的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种风险数据挖掘方法，包括：

2.如权利要求1所述的方法，所述为所述用户节点生成分组标签，具体包括：

为所述用户节点生成初始化的分组标签；

根据所述用户节点在所述关系图谱中的附近节点，调整所述初始化的分组标签。

3.如权利要求2所述的方法，所述根据所述用户节点在所述关系图谱中的附近节点，调整所述初始化的分组标签，具体包括：

确定所述用户节点在所述关系图谱中的邻接节点；

4.如权利要求1所述的方法，所述根据所述关系图谱和所述分组标签，确定所述多个用户节点总体的第一模块度指标，具体包括：

根据所述关系图谱，确定所述用户节点间的关联边的权重；

5.如权利要求4所述的方法，所述根据所述权重和所述分组标签，确定属于相同分组的所述用户节点的局部模块度指标，具体包括：

根据所述分组标签，在所述多个用户节点中确定属于相同分组的第一节点和第二节点；

6.如权利要求1所述的方法，所述根据更新过的所述分组标签，确定所述多个用户节点总体的第二模块度指标，具体包括：

对所述分组标签进行一次或者多次更新，并对应地确定所述多个用户节点总体的第三模块度指标；

7.如权利要求1所述的方法，所述根据更新过的所述分组标签，确定所述多个用户节点总体的第二模块度指标，具体包括：

遍历所述多个用户节点，通过更新遍历到的用户节点的分组标签，确定该用户节点对应的所述多个用户节点总体的第三模块度指标；

8.如权利要求1所述的方法，所述根据所述第二模块度指标及其对应的所述分组标签，确定风险用户节点组，具体包括：

判断在所述分组标签的可更新范围内，对应确定出的所述第二模块度指标表示的模块结构强度是否已经达到最高；

9.如权利要求1所述的方法，所述确定风险用户节点组之后，所述方法还包括：

根据所述关系图谱，确定所述风险用户节点组中指定用户节点的邻接节点的关联边的权重；

根据所述权重，确定所述指定用户节点的中心度指标；

10.如权利要求9所述的方法，所述根据所述权重，确定所述指定用户节点的中心度指标，具体包括：

确定所述邻接节点是否属于预定的风险用户节点集合，得到所述邻接节点对应的确定结果；

为所述确定结果确定对应的第二关注度参数；

11.如权利要求1～10任一项所述的方法，所述多个用户节点中包含具有网络风险的黑产用户节点；

所述确定风险用户节点组，具体包括：

确定反映黑产团伙的黑产用户节点组。

12.一种风险数据挖掘装置，包括：

13.如权利要求12所述的装置，所述初始化模块包括起始模块、调整模块；

所述起始模块，为所述用户节点生成初始化的分组标签；

所述调整模块，根据所述用户节点在所述关系图谱中的附近节点，调整所述初始化的分组标签。

14.如权利要求13所述的装置，所述调整模块，确定所述用户节点在所述关系图谱中的邻接节点；

15.如权利要求12所述的装置，所述标签及模块度更新模块，根据所述关系图谱，确定所述用户节点间的关联边的权重；

16.如权利要求15所述的装置，所述标签及模块度更新模块，根据所述分组标签，在所述多个用户节点中确定属于相同分组的第一节点和第二节点；

17.如权利要求12所述的装置，所述标签及模块度更新模块，对所述分组标签进行一次或者多次更新，并对应地确定所述多个用户节点总体的第三模块度指标；

18.如权利要求12所述的装置，所述标签及模块度更新模块，遍历所述多个用户节点，通过更新遍历到的用户节点的分组标签，确定该用户节点对应的所述多个用户节点总体的第三模块度指标；

19.如权利要求12所述的装置，所述风险组确定模块，判断在所述分组标签的可更新范围内，对应确定出的所述第二模块度指标表示的模块结构强度是否已经达到最高；

20.如权利要求12所述的装置，还包括：

组内核心确定模块，在所述风险组确定模块确定风险用户节点组之后，根据所述关系图谱，确定所述风险用户节点组中指定用户节点的邻接节点的关联边的权重；

根据所述权重，确定所述指定用户节点的中心度指标；

21.如权利要求20所述的装置，所述组内核心确定模块，确定所述邻接节点是否属于预定的风险用户节点集合，得到所述邻接节点对应的确定结果；

为所述确定结果确定对应的第二关注度参数；

22.如权利要求12～21任一项所述的装置，所述多个用户节点中包含具有网络风险的黑产用户节点；

所述风险组确定模块，确定反映黑产团伙的黑产用户节点组。

23.一种风险数据挖掘设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，