CN110263227B

CN110263227B - 基于图神经网络的团伙发现方法和系统

Info

Publication number: CN110263227B
Application number: CN201910403578.4A
Authority: CN
Inventors: 潘健民; 张鹏
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2023-07-18
Anticipated expiration: 2039-05-15
Also published as: CN110263227A

Abstract

本公开提供了一种基于图神经网络的团伙发现方法，包括：获取客户属性数据和客户间资金关系数据；获取有标记黑样本客户的属性数据；基于客户属性数据和客户间资金关系数据，构建图神经网络中的节点和边；对图神经网络进行无监督训练，以将每个节点映射成低维向量，其中低维向量包括节点的图结构信息和邻居节点的特征信息；将低维向量进行聚类，以获取所聚类团伙；以及将有标记黑样本客户的属性数据输入图神经网络，计算所聚类团伙中有标记黑样本客户的密度，并按密度确定目标团伙。

Description

基于图神经网络的团伙发现方法和系统

技术领域

本公开主要涉及机器学习，尤其涉及应用图神经网络的聚类。

背景技术

反洗钱是指金融机构通过流程、规则或模型等方式控制系统内的洗钱风险。在反洗钱领域，已经从单体目标或可疑犯罪客户的识别逐渐向目标或可疑犯罪团伙转变，因为团伙所具有的社会危害要远大于单体客户。如何识别洗钱犯罪团伙成了当务之急，其中尤以如何在互联网金融活动中识别洗钱犯罪团伙为要。

深度学习技术的发展，使得对有相似特征的团伙的发现提供了新的方向。尽管深度学习通常无法进行因果推理，但图神经网络(Graph Neural Network,GNN)的结合成为解决方案之一。图神经网络将连接与符号有机结合，不仅使深度学习模型能够应用在图这种非欧几里德结构上，还为深度学习模型赋予了一定的因果推理能力。

图神经网络扩展了现有的神经网络，用于处理图中表示的数据。在图中，每个节点是由其特性和相关节点定义的，而边表示节点之间的关系。将图神经网络用在机器学习中的经典方法是使用转导函数(transduction function)将图结构和构成图的点的信息映射到M维欧式空间(m-dimensional Euclidean Space)。而将这种经典方法应用于洗钱团伙发现中，其有效性并不高。

同样，对于其他团伙的网络活动，同样可采用机器学习手段来发现有相似特征的团伙。例如，违法/负面的活动有网络赌博、网络传销、网络贩毒/吸毒、黑客团体等等；中性的活动有网络游戏、追星一族等等；而正面的活动有慈善团体等等。

本领域需要一种高效的基于图神经网络的团伙发现方法。

发明内容

为解决上述技术问题，本公开提供了一种高效的基于图神经网络的团伙发现方案。

在本公开一实施例中，提供了一种基于图神经网络的团伙发现方法，包括：获取客户属性数据和客户间资金关系数据；获取有标记黑样本客户的属性数据；基于客户属性数据和客户间资金关系数据，构建图神经网络中的节点和边；对图神经网络进行无监督训练，以将每个节点映射成低维向量，其中低维向量包括节点的图结构信息和邻居节点的特征信息；将低维向量进行聚类，以获取所聚类团伙；以及将有标记黑样本客户的属性数据输入图神经网络，计算所聚类团伙中有标记黑样本客户的密度，并按密度确定目标团伙。

在本公开的另一实施例中，客户属性数据和客户间资金关系数据需要进行预处理。

在本公开的又一实施例中，对客户属性数据和客户间资金关系数据进行的预处理是进行向量化和归一化处理。

在本公开的另一实施例中，对图神经网络进行无监督训练进一步包括：通过编码将每个节点映射为一个低维向量；经由资金关系进行随机采样，生成节点序列；通过负采样机制定义损失函数；以及基于所定义的损失函数，通过随机梯度下降逐步迭代更新低维向量的参数。

在本公开的另一实施例中，将每个节点映射为一个低维向量可采用attention机制和资金加权方法，将每一个节点的信息用此节点的邻居节点的信息加权求和来表示。

在本公开的又一实施例中，将每个节点映射为一个低维向量可直接对邻居节点的特征进行加和求平均。

在本公开的另一实施例中，将低维向量进行聚类采用K-means聚类算法。

在本公开的另一实施例中，按密度确定目标团伙包括按密度从高到低进行排序，确定排名最高的团伙为目标团伙。

在本公开的又一实施例中，按密度确定目标团伙包括按密度从高到低进行排序，将密度在阈值以上的团伙确定为目标团伙。

在本公开一实施例中，提供了一种基于图神经网络的团伙发现系统，包括：数据预处理模块，获取客户属性数据和客户间资金关系数据，且获取有标记黑样本客户的属性数据；图神经网络构建模块，基于客户属性数据和客户间资金关系数据，构建图神经网络中的节点和边；无监督训练模块，对图神经网络进行无监督训练，以将每个节点映射成低维向量，其中低维向量包括节点的图结构信息和邻居节点的特征信息；聚类模块，将低维向量进行聚类，以获取所聚类团伙；以及团伙发现模块，将有标记黑样本客户的属性数据输入图神经网络，计算所聚类团伙中有标记黑样本客户的密度，并按密度确定目标团伙。

在本公开的另一实施例中，数据预处理模块对客户属性数据和客户间资金关系数据进行预处理。

在本公开的又一实施例中，数据预处理模块对客户属性数据和客户间资金关系数据进行的预处理是进行向量化和归一化处理。

在本公开的另一实施例中，无监督训练模块进一步：通过编码将每个节点映射为一个低维向量；经由资金关系进行随机采样，生成节点序列；通过负采样机制定义损失函数；以及基于所定义的损失函数，通过随机梯度下降逐步迭代更新低维向量的参数。

在本公开的又一实施例中，无监督训练模块可采用attention机制和资金加权系统，将每一个节点的信息用此节点的邻居节点的信息加权求和来表示。

在本公开的再一实施例中，无监督训练模块可直接对邻居节点的特征进行加和求平均。

在本公开一实施例中，聚类模块采用K-means聚类算法。

在本公开的另一实施例中，团伙发现模块按密度从高到低进行排序，确定排名最高的团伙为目标团伙。

在本公开的又一实施例中，团伙发现模块按密度从高到低进行排序，将密度在阈值以上的团伙确定为目标团伙。

在本公开一实施例中，提供了一种存储有指令的计算机可读存储介质，当这些指令被执行时使得机器执行如前所述的方法。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

附图说明

本公开的以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是，附图仅作为所请求保护的发明的示例。在附图中，相同的附图标记代表相同或类似的元素。

图1示出根据本公开一实施例的基于图神经网络的团伙发现方法的流程图；

图2示出根据本公开一实施例的基于图神经网络的团伙发现方法的示意图；

图3示出根据本公开一实施例的对图神经网络进行无监督训练的过程的流程图；

图4示出根据本公开另一实施例的对图神经网络进行无监督训练的过程的示意图；

图5示出根据本公开一实施例的基于图神经网络的团伙发现系统的框图。

图6示出根据本公开一实施例的针对图神经网络的无监督训练系统的框图。

具体实施方式

为使得本公开的上述目的、特征和优点能更加明显易懂，以下结合附图对本公开的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但是本公开还可以采用其它不同于在此描述的其它方式来实施，因此本公开不受下文公开的具体实施例的限制。

在当今的互联网活动中，存在不少非法活动，例如洗钱、网络赌博、网络传销等等。识别互联网活动中的犯罪团伙成了当务之急，其中尤以在互联网金融活动中识别洗钱犯罪团伙为要。因此，在本公开的具体描述中，将以基于图神经网络的洗钱团伙发现为例。本领域技术人员可以理解，本公开的技术方案并不限于洗钱团伙发现，甚至也不限于犯罪团伙发现，而是可应用于各种网络上团体活动的团伙发现。

在互联网金融活动中，对特定金融机构或金融类APP而言，每个客户都具有各种维度的属性信息(下文中称为客户属性数据)，例如客户是个人账户还是公司账户，客户名是什么，客户最近90天流入金额等。客户与客户之间存在流入流出的资金关系(即客户间资金关系，下文中称为客户间资金关系数据)，例如客户A最近90天有资金流向客户B。

可将所有客户归为一个数据集。对于该数据集，可将其映射为一个图。该数据集中的每个客户作为样本对应于图中的一个节点。在这些样本中，存在一些(例如，有l个)有标记样本，例如，存在洗钱行为的客户被标记为黑样本客户。当然，还存在大量的(例如，有u个)未标记样本。可采用无监督学习来使学习器不依赖外界交互、自动将这些未标记样本进行聚类。即，利用u个未标记样本，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小。这是因为未标记样本本身包含有关于数据分布的信息。在本公开的技术方案中采用无监督学习/训练是因为相对于大量的未标记样本而言，有标记样本的数量相当有限。

在构建图神经网络之前，需要对客户属性数据和客户间资金关系数据进行预处理。然后基于经预处理的客户属性数据和客户间资金关系数据构建图神经网络中的节点和边。接着再对构建好的图神经网络进行无监督训练，以将每个节点映射成低维向量。将这些低维向量进行聚类，推断出聚类得到的类别/团伙。在经过聚类处理图中的节点被划分为多个类别之后，再将l个有标记样本输入至训练好的图神经网络，计算每个类别/团伙中有标记样本的密度，并按照密度确定目标或可疑团伙。

本方案提出了一种基于图神经网络的团伙发现方案，通过将图结构和客户节点信息融合，无监督地学习到每个客户节点的低维表征向量，然后通过聚类算法，结合部分已知黑样本客户数据，找出目标或可疑团伙。

下文将基于附图具体描述根据本公开各个实施例的基于图神经网络的团伙发现方法和系统。

基于图神经网络的团伙发现方法

图1示出根据本公开一实施例的基于图神经网络的团伙发现方法的流程图。

在102，获取客户属性数据和客户间资金关系数据。

如前所述，每个客户都具有各种维度的属性信息(下文中称为客户属性数据)，例如客户是个人账户还是公司账户，客户名是什么，客户最近90天流入金额等。客户与客户之间存在流入流出的资金关系(即客户间资金关系，下文中称为客户间资金关系数据)，例如客户A最近90天有资金流向客户B。

在构建图神经网络之前，需要对客户属性数据和客户间资金关系数据进行预处理。对于客户属性数据中不同种类的特征，需要进行向量化和归一化。

对于类型种类的特征，例如客户是个人账户还是公司账户，进行独热编码(One-Hot Encoding)。也就是说，针对异构图(例如，GraphInception)中多种类型的节点，将每个节点的类型转换为与原始特征连接的一个one-hot特征向量。这是因为类型特征并非是连续值，而是分类值。分类器往往默认数据是连续且有序的，但当类型特征为随机分布时分类器就不太好处理该属性数据。由此采用One-Hot编码，即使用N位状态寄存器对N个状态进行编码，每个状态都由其独立的寄存器位，并且在任意时间只有一位有效。并且，这些特征互斥，每次只有一个激活。因此，数据变成稀疏。

本领域技术人员可以理解，对于每一个特征，如果它有m个可能值，那么经过One-Hot编码后，就变成了m个二元特征，即该离散特征有多少取值，就用多少维来表示该特征；One-Hot编码实际上将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。

在回归、分类、聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，因此对离散型特征使用One-Hot编码使得特征之间的距离计算更加合理是有利的。

对于数值型特征，例如客户最近90天流入金额，先进行分箱处理(binning)。举例而言，金额特征根据金额大小可以分为8个区间，任意一个金额都可以归为某一个区间。

针对例如金额的连续变量，变量分箱或即变量离散化是数据预处理的重要一环，其目的在于通过将单变量离散化为多个哑变量来为模型引入非线性、提升模型表达能力以及加大拟合，同时还可降低模型运算复杂度、提升模型运算速度。连续变量的分箱可分为两种：无监督分组(例如，等宽分箱、等频分箱以及基于k均值聚类的分箱)和有监督分组(例如，考虑因变量的取值，使得分箱后达到最小熵(minimum entropy)或最小描述长度(minimum description length))。本领域技术人员可以理解，可按不同的变量选择采用不同的分箱技术，在此不再赘述。

在对数值型特征进行分箱后，再进行如上所述的One-Hot处理。

对于文本类特征，例如客户名，先分词，接着取得上下文单词的one-hot向量作为word2vec的输入，通过word2vec训练低维词向量，然后将每个词的向量求平均，就得到文本的向量化表示。

word2vec目前有两种训练模型(CBOW和Skip-gram)和两种加速算法(NegativeSample与Hierarchical Softmax)。CBOW模型根据中心词W(t)周围的词来预测中心词，而Skip-gram模型则根据中心词W(t)来预测周围词。本领域技术人员可以理解，可按需选择采用不同的文本向量化技术，并且随着文本向量化技术的进步可纳入新的文本向量化技术，在此不再赘述。

各种特征在向量化之后还需要进行归一化处理。归一化将数据变成(0,1)或者(1,1)之间的小数，从而将有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。本领域技术人员可以理解，归一化可采用不同的算法，例如softmax函数、sigmoid函数等等。

客户间资金关系反映不同客户之间的资金往来，由于资金量不同，通常需要进行归一化处理(采用例如sigmoid函数的算法)，来表示客户直接资金关系的强弱，通常以资金权重r_ij表示，例如：

其中x为客户最近流入金额x。

本领域技术人员可以理解，客户属性数据具有各种各样的不同种类的特征，其均可采用合适的处理方式来向量化和归一化，在此不再赘述。

在104，获取有标记黑样本客户的属性数据。

如前所述，在所有客户中，存在一些(例如，有l个)有标记样本。在本公开一实施例中，存在洗钱行为的客户被标记为黑样本客户。基于无监督学习，可利用大量(例如，u个)未标记样本来聚类出多个类别，这是由于未标记样本包含有关于数据分布的信息。然后将l个有标记样本输入模型，计算多个类别中每个类别/团伙中有标记样本的密度，并按照密度确定目标或可疑团伙。

由此，获取有标记黑样本客户可将其作为用于使模型确定目标团伙的有标记样本。对有标记黑样本客户的属性数据的处理与对客户属性数据的处理相似，在此不再赘述。

在106，基于客户属性数据和客户间资金关系数据，构建图神经网络中的节点和边。

针对每个样本(即，客户)，基于客户属性数据将其构建为图神经网络中的节点；基于客户间资金关系数据，构建图神经网络中的边。

在108，对图神经网络进行无监督训练，以将每个节点映射成低维向量。

在训练好的图神经网络中，低维向量包括节点的图结构信息和邻居节点的特征信息。节点的映射过程实际上是降维过程。

机器学习领域中的降维是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习映射函数f:x->y，其中x是原始数据点的表达(即向量表达)。y是数据点映射后的低维向量表达，通常y的维度小于x的维度。f可能是显式的或隐式的、线性的或非线性的。

之所以使用降维后的数据表示是因为：第一、在原始的高维空间中，包含有冗余信息以及噪音信息，在实际应用(例如图像识别)中造成了误差，降低了准确率；而通过降维，希望减少冗余信息所造成的误差，提高识别(或其他应用)的精度。第二、希望通过降维算法来寻找数据内部的本质结构特征。

具体的对图神经网络进行无监督训练的过程将在下文中参照图3和图4进行描写。

在110，将低维向量进行聚类，以获取所聚类团伙。

聚类是按照某个特定标准(例如，距离准则)将一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起，不同数据尽量分离。聚类算法的选择取决于数据的类型和聚类的目的。主要的聚类算法可以划分为：划分方法(例如，K-means聚类算法)、层次方法(例如，凝聚型层次聚类算法)、基于密度的方法、基于网格的方法以及基于模型的方法(例如，神经网络聚类算法)。

在本公开中，将以K-means算法为例来解说聚类的过程；但本领域技术人员可以理解，可按需选择不同的聚类算法。

在本公开一实施例中，基于映射得到的低维向量，聚类可通过K-means算法进行，由此将每个节点归属到某一团伙中，即获得所聚类团伙。

K-means算法以k为参数，将n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。K-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心；对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇；然后重新计算每个簇的平均值。该过程不断迭代，直到准则函数收敛。通常，采用平方误差准则，其定义如下：

在此，E是数据集中所有节点的平方误差的总和，p是空间中的点，m_i是簇C_i的平均值。该目标函数使生成的簇尽可能紧凑独立，使用的距离度量是欧几里得距离，当然也可以用其他距离度量。

在112，将有标记黑样本客户的属性数据输入图神经网络，计算所聚类团伙中黑样本客户的密度，并按密度确定目标团伙。

将有标记黑样本客户的属性数据输入图神经网络实际上就是将有标记黑样本客户的分布叠加至经训练图神经网络内聚类出的类别/团伙上。

然后，即可计算有标记黑样本客户在每个类别/团伙中的密度。

在本公开一实施例中，按密度从高到低进行排序，找出排名最高的团伙，就是需要找出来的目标或可疑团伙。

在本公开另一实施例中，按密度从高到低进行排序，将密度在阈值以上的团伙列为目标或可疑团伙。

图2示出根据本公开一实施例的基于图神经网络的团伙发现方法的示意图。

根据本公开一实施例的基于图神经网络的团伙发现方法包括：

数据预处理步骤，对客户属性数据和客户间资金关系数据以及有标记黑样本客户的属性数据进行预处理；

图神经网络构建步骤，基于经预处理的客户属性数据和客户间资金关系数据构建图神经网络中的节点和边；

无监督训练步骤，对构建好的图神经网络进行无监督训练，以将每个节点映射成低维向量；

聚类步骤，将这些低维向量进行聚类，推断出聚类得到的类别/团伙；以及

团伙发现步骤，在经过聚类处理图中的节点被划分为多个类别之后，再将有标记样本(例如，l个)输入至训练好的图神经网络，计算每个类别/团伙中有标记样本的密度，并按照密度确定目标或可疑团伙。

以下参照图3-4具体描述对构建好的图神经网络进行无监督训练，以将每个节点映射成低维向量。

图3示出根据本公开一实施例的对图神经网络进行无监督训练的过程300的流程图。

在302，通过编码将每个节点映射为一个低维向量。

假设总共有N个节点，第i个节点可以表示为h_i，h_i∈R^F，假设希望将每个节点都投影到M维空间，那么定义需要训练的变换矩阵向量参数W，维数是M*F维，其初始值可为随机值，以待后续逐步迭代更新。

在本公开一实施例中，可采用attention(注意力)机制和资金加权方法，将每一个节点的信息用此节点的邻居节点的信息加权求和来表示。

在本公开的另一实施例中，可直接对邻居节点的特征进行加和求平均，而不采用attention机制。

具体而言，假设要计算节点i的低维向量，对于存在资金关系的节点i和节点j，由上一步的资金预处理得到的资金权重r_ij，节点i和节点j的特征相似度可以表示为：

s_ij＝ReLU(a^Tconcat(Wh_i,Wh_j))

这里ReLU是指激活函数，a是2M长度的变换矩阵向量参数(同样，其初始值可为随机值，以待后续逐步迭代更新)，concat是指将两个M维向量拼接起来。

基于资金权重r_ij以及节点i和节点j的特征相似度s_ij，那么节点i和节点j之间的资金加权后的相似值可以表示为

e_ij＝r_ij*s_ij

假设节点i有N_i个邻居节点，那么节点i的邻居节点j对应的最终权重为

节点i最终的低维嵌入表示为：

σ是sigmoid函数。

在304，经由资金关系进行随机采样，生成节点序列。

从任意一个节点出发，沿着资金关系随机采样，一次采样过程如下：

从节点A出发，如果A有k个邻居，则根据这k个邻居的资金权重系数r_ij进行加权随机抽样(即，使得资金权重系数r_ij影响采样概率)，例如抽样到邻居B，然后再根据B的邻居的资金权重系数随机采样，依次类推，一共采样n步，n是人工设置的超参数。以上采样过程可以重复进行d步，d也是人工设置的超参数。

在306，通过负采样(negative sampling)机制定义损失函数。

基于304的采样过程，可以类似于word2vec的思想，将一次采样过程当做一个句子，采样到的节点序列当做词，损失函数可以用word2vec里的negative sampling机制定义，例如：

损失函数

例如对于一个序列A B C D，本次选择节点C来训练，窗口大小是1。那么邻居节点D与节点C组成正样本对(D,C)，又通过负采样机制，随机选取2个其他节点，例如A E(E不在本序列中，但在全部点集合中)，那么生成负样本对(A,C)(E,C)。

其中的C代表的编码对应于损失函数里的u_i，D代表u_o，u′_ou_i表示两个向量做内积。K代表负采样的个数2，而A,E代表损失函数里的u_j。

本领域技术人员可以理解，可按需采用不同的损失函数。

在308，基于所定义的损失函数，通过随机梯度下降逐步迭代更新低维向量的参数W和a。

在定义了损失函数之后，根据使损失函数的值越小越好的原则，对变换矩阵向量参数W(M长度的变换矩阵向量)和a(2M长度的变换矩阵向量)进行不断的迭代和更新。

在批优化方法(诸如，L-BFGS)中每次更新都使用整个训练集，能够收敛到局部最优。虽然要设置的超参数很少，但实践中计算整个训练集的损失函数和梯度是很慢的。批优化的另一个短处是无法在线处理新数据。

随机梯度下降(Stochastic gradient descent，SGD)解决了这两个问题，在跑了单个或者少量的训练样本后，便可沿着目标函数的负梯度更新参数，逼近局部最优。SGD可以克服计算成本问题，同时保证较快的收敛速度。

当最终获得参数W和a时，就将每个节点映射成了低维向量，即：

σ是sigmoid函数。

图4示出根据本公开另一实施例的对图神经网络进行无监督训练的过程的示意图。

在本公开另一实施例中，对图神经网络进行无监督训练的过程包括：

降维映射步骤，通过编码将每个节点映射为一个低维向量；

节点序列生成步骤，经由资金关系进行随机采样，生成节点序列；

函数定义步骤，通过负采样机制定义损失函数；以及

参数更新步骤，基于所定义的损失函数，通过随机梯度下降逐步迭代更新低维向量的参数。

在本公开一实施例中，在降维映射步骤中，可采用attention机制和资金加权方法，将每一个节点的信息用此节点的邻居节点的信息加权求和来表示。

在本公开的另一实施例中，在降维映射步骤中，可直接对邻居节点的特征进行加和求平均，而不采用attention机制。

在本公开的技术方案中，在计算节点的低维向量表示时，不仅考虑了常规方法的图结构信息，也将邻居节点的特征也融合进来，同时在进行计算时，既考虑了邻居节点和本节点的相似性，也考虑了资金关系的强弱，这样就赋予和本节点最相似、且资金关系最强的邻居节点最大的权重。

本公开的技术方案提出了一种基于图神经网络的团伙发现方法。对每一个节点的低维向量表示，不仅考虑了图资金结构，也考虑了邻居节点的特征，同时还引入attention机制，将和本节点最相似以及资金关系最强的节点进行加权，从而达到更科学的表示一个节点低维向量的目的。在计算完节点的低维向量后，引入K-means算法和已知少部分黑样本点，从而达到了发现团伙的目的。

基于图神经网络的团伙发现系统

图5示出根据本公开一实施例的基于图神经网络的团伙发现系统500的框图。

根据本公开一实施例的基于图神经网络的团伙发现系统500包括数据预处理模块502，对客户属性数据和客户间资金关系数据进行预处理。

每个客户都具有各种维度的属性信息，例如客户是个人账户还是公司账户，客户名是什么，客户最近90天流入金额等。客户与客户之间存在客户间资金关系，例如客户A最近90天有资金100万流向客户B。

在构建图神经网络之前，数据预处理模块502对客户属性数据和客户间资金关系数据以及有标记黑样本客户的属性数据进行预处理。对于客户属性数据中不同种类的特征，需要进行向量化和归一化。

基于图神经网络的团伙发现系统500还包括图神经网络构建模块504，基于经预处理的客户属性数据和客户间资金关系数据构建图神经网络中的节点和边。即，基于经预处理的客户属性数据构建图神经网络中的节点。基于经预处理的客户间资金关系数据构建图神经网络中的边。

基于图神经网络的团伙发现系统500进一步包括无监督训练模块506，对构建好的图神经网络进行无监督训练，以将每个节点映射成低维向量。该低维向量包括节点的图结构信息和邻居节点的特征信息。

无监督训练模块506对节点进行的映射过程实际上是降维过程，是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习映射函数f:x->y，其中x是原始数据点的表达(即向量表达)。y是数据点映射后的低维向量表达，通常y的维度小于x的维度。f可能是显式的或隐式的、线性的或非线性的。

基于图神经网络的团伙发现系统500还包括聚类模块508，将这些低维向量进行聚类，推断出聚类得到的类别/团伙。

基于无监督学习，聚类模块508可利用大量(例如，u个)未标记样本/节点来聚类出多个类别，这是由于未标记样本/节点包含有关于数据分布的信息。

基于图神经网络的团伙发现系统500进一步包括团伙发现模块510，在经过聚类处理图中的节点被划分为多个类别之后，再将有标记样本(例如，l个有标记黑样本)输入至训练好的图神经网络，计算每个类别/团伙中有标记样本的密度，并按照密度确定目标或可疑团伙。

图6示出根据本公开一实施例的针对图神经网络的无监督训练系统600的框图。

可以理解，该针对图神经网络的无监督训练系统600可以是纳入到基于图神经网络的团伙发现系统500中的无监督训练模块506，也可以是单独的无监督训练系统。

在本公开另一实施例中，针对图神经网络的无监督训练系统600包括：

降维映射模块602，通过编码将每个节点映射为一个低维向量；

节点序列生成模块604，经由资金关系进行随机采样，生成节点序列；

函数定义模块606，通过负采样机制定义损失函数；以及

参数更新模块608，基于所定义的损失函数，通过随机梯度下降逐步迭代更新低维向量的参数。

在本公开一实施例中，降维映射模块602可采用attention机制和资金加权方法，将每一个节点的信息用此节点的邻居节点的信息加权求和来表示。

在本公开的另一实施例中，降维映射模块602可直接对邻居节点的特征进行加和求平均，而不采用attention机制。

本公开的技术方案提出了一种基于图神经网络的团伙发现系统。对每一个节点的低维向量表示，不仅考虑了图资金结构，也考虑了邻居节点的特征，同时还引入attention机制，将和本节点最相似以及资金关系最强的节点进行加权，从而达到更科学的表示一个节点低维向量的目的。在计算完节点的低维向量后，引入K-means算法和已知少部分黑样本点，从而达到了发现团伙的目的。

以上描述的基于图神经网络的团伙发现方法和系统的各个步骤和模块可以用硬件、软件、或其组合来实现。如果在硬件中实现，结合本发明描述的各种说明性步骤、模块、以及电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其他可编程逻辑组件、硬件组件、或其任何组合来实现或执行。通用处理器可以是处理器、微处理器、控制器、微控制器、或状态机等。如果在软件中实现，则结合本发明描述的各种说明性步骤、模块可以作为一条或多条指令或代码存储在计算机可读介质上或进行传送。实现本发明的各种操作的软件模块可驻留在存储介质中，如RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、可移动盘、CD-ROM、云存储等。存储介质可耦合到处理器以使得该处理器能从/向该存储介质读写信息，并执行相应的程序模块以实现本发明的各个步骤。而且，基于软件的实施例可以通过适当的通信手段被上载、下载或远程地访问。这种适当的通信手段包括例如互联网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信或者其他这样的通信手段。

还应注意，这些实施例可能是作为被描绘为流程图、流图、结构图、或框图的过程来描述的。尽管流程图可能会把诸操作描述为顺序过程，但是这些操作中有许多操作能够并行或并发地执行。另外，这些操作的次序可被重新安排。

所公开的方法、装置和系统不应以任何方式被限制。相反，本发明涵盖各种所公开的实施例(单独和彼此的各种组合和子组合)的所有新颖和非显而易见的特征和方面。所公开的方法、装置和系统不限于任何具体方面或特征或它们的组合，所公开的任何实施例也不要求存在任一个或多个具体优点或者解决特定或所有技术问题。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多更改，这些均落在本发明的保护范围之内。

Claims

1.一种基于图神经网络的团伙发现方法，包括：

获取客户属性数据和客户间资金关系数据；

获取有标记黑样本客户的属性数据；

基于所述客户属性数据和所述客户间资金关系数据，构建图神经网络中的节点和边；

对所述图神经网络进行无监督训练，以将每个节点映射成低维向量，其中所述低维向量包括所述节点的图结构信息和邻居节点的特征信息，所述低维向量为各邻居节点的特征信息对所述节点的图结构信息的资金权重加权求和，资金权重表示所述节点和邻居节点对应的客户间资金关系的强弱，所述资金权重通过对所述客户间资金往来对应的不同资金进行归一化处理得到；所述低维向量通过以下步骤得到：计算所述节点和各邻居节点的特征相似度，基于所述资金权重对所述特征相似度进行加权，得到加权后的特征相似度；基于归一化指数函数计算各邻居节点对应的权重；基于各邻居节点的权重和每个节点投影到M维空间对应的变换矩阵向量参数W，映射得到所述节点的低维向量；所述特征相似度s_ij＝ReLU(a^Tconcat(Wh_i,Wh_j))，其中ReLU表示激活函数，a表示2M长度的变换矩阵向量参数，concat表示将两个M维向量拼接起来，h_i表示第i个节点，h_j表示第j个节点；

将所述低维向量进行聚类，以获取所聚类团伙；以及

将所述有标记黑样本客户的属性数据输入所述图神经网络，计算所聚类团伙中所述有标记黑样本客户的密度，并按密度确定目标团伙。

2.如权利要求1所述的方法，其特征在于，所述客户属性数据和所述客户间资金关系数据需要进行预处理。

3.如权利要求2所述的方法，其特征在于，对所述客户属性数据和所述客户间资金关系数据的预处理是进行向量化和归一化处理。

4.如权利要求1所述的方法，其特征在于，对所述图神经网络进行无监督训练进一步包括：

通过编码将每个节点映射为一个低维向量；

经由资金关系进行随机采样，生成节点序列；

通过负采样机制定义损失函数；以及

基于所定义的损失函数，通过随机梯度下降逐步迭代更新所述低维向量的参数。

5.如权利要求4所述的方法，其特征在于，所述将每个节点映射为一个低维向量可采用attention机制和资金加权方法，将每一个节点的信息用此节点的邻居节点的信息对应资金权重的加权求和来表示。

6.如权利要求4所述的方法，其特征在于，所述将每个节点映射为一个低维向量可直接对邻居节点的特征进行对应资金权重的加和求平均。

7.如权利要求1所述的方法，其特征在于，所述将所述低维向量进行聚类采用K-means聚类算法。

8.如权利要求1所述的方法，其特征在于，所述按密度确定目标团伙包括按所述密度从高到低进行排序，确定排名最高的团伙为目标团伙。

9.如权利要求1所述的方法，其特征在于，所述按密度确定目标团伙包括按所述密度从高到低进行排序，将所述密度在阈值以上的团伙确定为目标团伙。

10.一种基于图神经网络的团伙发现系统，包括：

数据预处理模块，获取客户属性数据和客户间资金关系数据，并获取有标记黑样本客户的属性数据；

图神经网络构建模块，基于所述客户属性数据和所述客户间资金关系数据，构建图神经网络中的节点和边；

无监督训练模块，对所述图神经网络进行无监督训练，以将每个节点映射成低维向量，其中所述低维向量包括所述节点的图结构信息和邻居节点的特征信息，所述低维向量为各邻居节点的特征信息对所述节点的图结构信息的资金权重加权求和，资金权重表示所述节点和邻居节点对应的客户间资金关系的强弱，所述资金权重通过对所述客户间资金往来对应的不同资金进行归一化处理得到；所述低维向量通过以下步骤得到：计算所述节点和各邻居节点的特征相似度，基于所述资金权重对所述特征相似度进行加权，得到加权后的特征相似度；基于归一化指数函数计算各邻居节点对应的权重；基于各邻居节点的权重和每个节点投影到M维空间对应的变换矩阵向量参数W，映射得到所述节点的低维向量；所述特征相似度s_ij＝ReLU(a^Tconcat(Wh_i,Wh_j))，其中ReLU表示激活函数，a表示2M长度的变换矩阵向量参数，concat表示将两个M维向量拼接起来，h_i表示第i个节点，h_j表示第j个节点；

聚类模块，将所述低维向量进行聚类，以获取所聚类团伙；以及

团伙发现模块，将所述有标记黑样本客户的属性数据输入所述图神经网络，计算所聚类团伙中所述有标记黑样本客户的密度，并按密度确定目标团伙。

11.如权利要求10所述的系统，其特征在于，所述数据预处理模块对所述客户属性数据和所述客户间资金关系数据进行预处理。

12.如权利要求10所述的系统，其特征在于，所述数据预处理模块对所述客户属性数据和所述客户间资金关系数据进行的预处理是进行向量化和归一化处理。

13.如权利要求10所述的系统，其特征在于，所述无监督训练模块进一步：

通过编码将每个节点映射为一个低维向量；

经由资金关系进行随机采样，生成节点序列；

通过负采样机制定义损失函数；以及

14.如权利要求13所述的系统，其特征在于，所述无监督训练模块可采用attention机制和资金加权系统，将每一个节点的信息用此节点的邻居节点的信息对应资金权重的加权求和来表示。

15.如权利要求13所述的系统，其特征在于，所述无监督训练模块可直接对邻居节点的特征进行对应资金权重的加和求平均。

16.如权利要求10所述的系统，其特征在于，所述聚类模块采用K-means聚类算法。

17.如权利要求10所述的系统，其特征在于，所述团伙发现模块按所述密度从高到低进行排序，确定排名最高的团伙为目标团伙。

18.如权利要求10所述的系统，其特征在于，所述团伙发现模块按所述密度从高到低进行排序，将所述密度在阈值以上的团伙确定为目标团伙。

19.一种存储有指令的计算机可读存储介质，当所述指令被执行时使得机器执行如权利要求1-9中任一项所述的方法。