CN113269647A

CN113269647A - 基于图的交易异常关联用户检测方法

Info

Publication number: CN113269647A
Application number: CN202110636289.6A
Authority: CN
Inventors: 易平; 蒋望涵; 李仪浩
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-08-17
Anticipated expiration: 2041-06-08
Also published as: CN113269647B

Abstract

一种基于图的交易数据异常关联用户检测方法，首先根据大宗商品交易数据建立网络结构作为算法输入，然后使用改进的图积网络提取节点的特征向量，使用异常标签得到损失函数对改进的图卷积网络进行训练，并采用训练后的改进的图卷积网络以无监督方法提取节点特征向量，最后使用根据金融交易数据建立的网络结构中各节点的连接关系信息改进得到的节点特征向量，同时学习节点聚类，最终得到每个节点所属的簇和优化节点向量表示。本发明使用通过使用真实交易数据集，证明提出的方法可以有效的进行帐户特征的提取和异常关联帐户的检出。

Description

基于图的交易异常关联用户检测方法

技术领域

本发明涉及的是一种基于图的涉及多用户的交易异常检测的技术，具体是一种利用图结构和节点相似度检测异常关联帐户的方法。

背景技术

随着互联网技术的发展，大宗商品交易更多地依赖交易平台网上进行。现有的检测操纵市场价格极度依赖专家参与，需要大量人力，应用成本非常高，效率也很低下。虽然目前有常用的基于机器学习进行交易异常检测的方法，比如通过机器学习模型或者根据预先设定的规则来提取异常行为的特征，通过异常行为特征与正常行为特征的不同来区分。或者采用数据挖掘的方式，基于历史数据提取特征，建立的分类模型。这些方法一般只能应对单个异常用户的检测，无法应对多个异常用户联合构成恶意团伙进行恶意行为的问题。

发明内容

本发明针对现有技术的缺陷，提出一种基于图的交易异常关联用户检测方法，旨在根据大宗商品交易数据创建关系网络，根据关系网络中的节点信息、边信息、网络结构，通过图嵌入方法获得节点为向量，再对节点的表示向量进行聚合，从而发现具有相似异常行为的节点。

本发明通过以下技术方案实现的：

本发明涉及一种基于图的交易异常关联用户检测方法，首先根据大宗商品交易数据建立网络结构作为算法输入，然后使用改进的图积网络提取节点的特征向量，使用异常标签得到损失函数对改进的图卷积网络进行训练，并采用训练后的改进的图卷积网络以无监督方法提取节点特征向量，最后使用根据金融交易数据建立的网络结构中各节点的连接关系信息改进得到的节点特征向量，同时学习节点聚类，最终得到每个节点所属的簇和优化节点向量表示。

所述的网络结构，其构建是以交易账户作为图的节点，帐户之间的交易关系作为边，帐户的具体信息作为节点的属性，交易的具体信息作为边的属性，

所述的图卷积网络通过学习映射，通过该映射图中的节点v_i聚合节点v_i本身的特征x_i与其邻居节点的特征x_j(j∈N(v_i))生成节点v_i的新表示，其中：N(v_i)为节点v_i的邻居节点的集合。

所述的聚合为：H^(k+1)＝f(H^(k)，A)＝σ(AH^(k)W^(k))，其中：k为网络层数，H^(k)是指：网络第k层的特征，f(·)是要图卷积网络要学习的映射，A是邻接矩阵，当节点j与节点i连接时，A_ij＝1，所以节点i的新特征是指：其邻接节点的特征和，W^k是学习权重，维度为F^k-1XF^k，而σ(·)是激活函数，比如RELU。

所述的改进的图卷积网络对图卷积网络的聚合过程进行改进，将边上的信息转化为节点的向量表示，具体为：将每个节点i的所有邻居节点的向量和连接节点的边作为集合：

其中：

为节点i的邻居节点j节点特征的向量，

为节点j和节点i之间连边特征的向量，N_I(i)为节点i所有邻居节点的集合。

所述的聚合过程为

其中：ρ和

分别为具有可训练参数的多层感知器，

是第k层输出的节点v的向量表示，

是节点u和节点v之间连边的向量表示。

所述的异常标签是指：每个节点有0/1标签为其是否是恶意节点，标签为0为非恶意，标签为1为恶意。

所述的改进的图卷积网络的训练过程作为二分类问题，使用cross-entropy作为损失函数，用随机梯度下降进行训练，损失函数的梯度为：

其中：

为损失函数的梯度，V_L为节点集合，|V_L|为集合V_L中的节点个数，yv是节点v的真实标签，

是节点v通过改进的图卷积网络的第k层得到的编码，f(·)是要改进的图卷积网络要学习的映射。

所述的无监督方法是指：将具有N和节点的网络的节点属性矩阵F和邻接矩阵A作为输入，使用改进后的图卷积网络作为编码器，编码器根据输入的X和A矩阵计算出每个节点的向量表示：ε(X，A)＝H＝{h₁，h₂，...，h_N}，其中：ε为编码器，hi为第i个节点的向量表示，X是N×F的矩阵，为网络的输入属性矩阵，N为节点个数，F为每个节点的属性维度，A是N×N的网络邻接矩阵。

所述的编码器的学习采用的目标函数使得最大化每个节点的局部表示，即h_i，与整个图的全局信息内容，即向量s的互信息，使得每个节点的表示就能用一定的全局信息在里面。

所述的整个图的全局信息内容s通过函数R直接映射得到，s＝R(ε(X，A))，s∈R^F，表示图级别的摘要，其中：R(·)为从所有节点的节点为向量得到全局信息内容s的函数。ε(·)为编码器，即改进的图卷积网络。X是N×F的矩阵，为网络的输入属性矩阵，N为节点个数，F为每个节点的属性维度，A是N×N的网络邻接矩阵。

本发明进一步通过判别器函数D(h_i，s)为分配给每个节点的局部表示h_i和互信息s这一正样本信息对的概率分数，然后采样负样本，将假图

上生成的

与全局向量s作为负样本信息对，该判别器具体为二分类网络，其目标为提高正样本的概率分数，降低负样本的概率分数，损失函数

其中：N是真实图中节点的个数，M是假图中节点的个数，

是真实图中第i个节点的表示向量，

是假图中第j个节点的表示向量，

为整个图的全局信息内容的向量。

所述的改进节点向量同时学习聚类的方法是指：首先使用DeepWalk算法框架，使用随机游走生成语料集合，语料集合是指：根据大宗商品交易数据构建的网络结构生成的节点序列的集合，然后使用神经网络在语料库上进行训练来获得节点的表示向量。为达到聚类改进节点向量同时学习聚类的目的，修改DeepWalk算法的损失函数，其具体包括：(1)使得采样的序列中同一窗口内的节点的表示向量具有相似的表示以及(2)聚类的目标函数，其目标为最小化节点与最近的聚类中心的距离，即增加簇的内聚度，训练更适合聚类的为向量：L＝L₁+L₂。

所述的DeepWalk算法框架是指：使用随机游走的方法产生图节点的嵌入。随机游走包括：采样、训练skip-gram和计算嵌入。采样是指：通过随机游走的方法对图形进行采样，即对每个节点进行多次随机游走，需要规定随机游走的次数和长度，随机游走的结果为生成一组节点序列。训练skip-gram是指：将随机游走得到节点用独热向量进行为，然后将该独热向量作为skip-gram网络模型的输入，然后将该节点预测相邻节点的概率作为优化目标，对该目标进行最大化。计算嵌入：节点的嵌入是神经网络隐藏层的输出。DeepWalk计算图形中每个节点的嵌入。

所述的skip-gram模型使用长度为2c+1的滑动窗口，该窗口在语料库中滑动，每次滑动时，窗口中包含的2c+1个单词将用于训练模型，窗口中心的单词被认为是已知单词，并且覆盖住中心单词的前c个单词和后c个单词，待预测覆盖的单词，需要使用已知的单词。skip-gram的优化目标为：

由于概率的连乘会导致最终的乘积非常小，因此对式子的每一项进行log处理，具体为：

当中心词为w，待预测的背景词为c，则在w已知的前提下预测c的概率为：

其中：u_c和v_w分别可以作为词c的向量和词w的向量，对这两个向量的内积做softmax运算就得到条件概率，c’为除当前上下文之外词库中的其他词，关系越紧密的词的向量会越近似。

所述的修改后的DeepWalk算法的损失函数中

其中：针对本发明修改skip-gram模型中的P(c|w；θ)为如下形式：

其中：v为中心节点，N_s(v)为节点v的邻居节点，n_i为待预测的上下文节点，u为除当前上下文之外总节点库中的其他节点，f为节点到节点为向量的映射，是|V|×d的矩阵，矩阵的每一行都是在上一节中获得的节点的向量表示，γ为聚类成本的权重系数，f(v)为节点v的为向量，C为一组聚类中心，μ_c为第c个簇的聚类平均值，每聚类中心都是在嵌入空间中的d维向量。目的是最小化每个节点到离它最近的聚类中心的距离。

附图说明

图1为本发明流程图；

图2为改进的图卷积网络提取节点特征效果对比图；

图3为无监督方法提取节点特征效果对比图；

图4为使用的聚合方法聚类效果模块度对比图；

图5为使用的聚合方法聚类效果异常簇占比对比图；

图6为使用的聚合方法聚类效果簇内平均异常比例对比图。

具体实施方式

如图1所示，本实施例采用的是PaySim交易数据集，PaySim交易数据集中将帐户标记为异常帐户的情况有三种，一是存在某帐户到另外帐户的大量转账；二是两个帐户之间在时间段内交易次数超过某一阈值；三是某帐户通过帐户将资金转回给自己，满足大宗商品交易过程中的异常帐户是出现大额交易，短时间频繁交易，自买自卖情况的帐户的设定，通过本实施例方法进行异常关联帐户的检出，具体步骤包括：

步骤一，根据原始交易数据构建图：使用PaySim数据集，构建图的方法主要关注帐户之间的交易关系，将每个帐户为节点，每条交易是两个节点之间的连边，节点的属性包括Email、SSN、Phone，边的属性包括交易金额，交易类型。每个节点都有标签isFraud，如果isFraud＝0，则为正常节点，如果isFraud＝1，则为异常节点。

步骤二，使用改进的图卷积方法获得节点为向量：将步骤一得到的图输入神经网络，使用开源图神经网络计算框架Deep Graph Library(DGL)框架，首先使用dgl.DGLGraph()创建dgl图g存储输入的图，图g中存储节点node和节点特征node_feature，边edge和边特征edge_feature。使用Mini-batch方法和Neighbor Sampling方法进行训练。

所述的Mini-batch方法为对于节点较多的大图，无法一次完全放入显存中进行训练，需要设置多个batch进行训练，每个batch抽取图中一定数量的节点。设batch内需要更新embedding的节点的集合为V_B，对于这个节点集合中的所有节点，根据边的信息查找计算这些节点的embedding所需要的所有邻居节点。通过这种方法，在每个batch的训练中，可以将大的网络图转化为小的子图。

所述的Neighbor Sampling方法是指在一些图中，可能存在某些节点的度非常高，这样会导致当batch中有度非常高的节点时，会为这个节点的下层带来很多节点，使得子图的规模非常大，为解决这样的问题，使用邻居采样策略，仅为每个节点采样一定数量的邻居来近似，不使用该节点的所有邻居来更新其embedding。

训练过程是建立batch中更新节点编码需要的所有的邻居节点的子图，并使用采样技术控制子图的节点总数不会过多，然后这一批节点构成的子图和节点的编码可以一起输入到改进的GCN模型中进行训练。

为对比训练结果，在PaySim数据集上分别训练常用的节点嵌入的方法，包括DeepWalk、node2vec和GraphSage，在获得节点编码后接作为分类器神经网络来验证，先训练用于节点嵌入的网络，再用得到节点特征向量和节点的异常标签训练二分类器，通过分类的效果来判断节点嵌入的效果。评判实验结果使用的指标是准确率Accuracy，精度Precision，召回率Recall和F1-score。

如图2所示，使用DeepWalk、node2vec、GraphSage和改进的图卷积方法的准确率Accuracy，精度Precision，召回率Recall和F1-score对比如下：DeepWalk的Accuracy：0.9437；DeepWalk的Precision：0.6627；DeepWalk的Recall：0.5556；DeepWalk的F1-score：0.5776；Node2vec的Accuracy：0.9478；Node2vec的Precision：0.5054；Node2vec的Recall：0.5001；Node2vec的F1-score：0.4872；GraphSage的Accuracy：0.9466；GraphSage的Precision：0.4738；GraphSage的Recall：0.5322；GraphSage的F1-score：0.5013；改进的图卷积方法的Accuracy：0.9647；改进的图卷积方法的Precision：0.8972；改进的图卷积方法的Recall：0.7377；改进的图卷积方法的F1-score：0.7951。

步骤三，使用无监督方法获得节点为向量：使用步骤一中构建的图，同时使用步骤一中的Mini-batch方法和Neighbor Sampling方法进行采样，对每采样得到的子图，施加扰动生成该子图对应的负样本，这里的扰动是指随机打乱节点特征矩阵和并同时修改边特征矩阵，将步骤二中使用的改进的图卷积模型作为编码器，对正负样本分别进行编码，然后设置判别器对正负样本的编码向量进行打分，最终的其目标为得到能尽可能将正负样本区分开的编码器参数。

为对比训练结果，将其与常用的无监督算法DeepWalk算法以及步骤二中的改进后的有监督图卷积算法进行对比，使用编码器结果训练二分类网络，通过二分类的结果来评判编码器的编码结果好坏。评判实验结果使用的指标是准确率Accuracy，精度Precision，召回率Recall和F1-score。

如图3所示，使用DeepWalk算法、步骤二中改进的图卷积算法、步骤三的无监督方法的准确率Accuracy，精度Precision，召回率Recall和F1-score对比如下：DeepWalk的Accuracy：0.9437；DeepWalk的Precision：0.6627；DeepWalk的Recall：0.5556；DeepWalk的F1-score：0.5776；改进的图卷积方法的Accuracy：0.9647；改进的图卷积方法的Precision：0.8972；改进的图卷积方法的Recall：0.7377；改进的图卷积方法的F1-score：0.7951；无监督方法的Accuracy：0.9503；无监督方法的Precision：0.7010；无监督方法的Recall：0.8200；无监督方法的F1-score：0.7553。

步骤四，聚合节点特征向量：首先使用步骤二中的图嵌入方法获得节点的表示向量，然后使用提出的改进节点向量同时学习聚类的方法聚合相似的节点。聚合相似节点的目的是为进行异常团伙的检出，由于数据仅有标签，即是否为异常节点，在聚类之前也无法提前知道聚类的簇数，实际上，可以根据需要指定簇数进行聚类，指定簇数越多，每个簇内的节点数就越少，指定簇数越少，每个簇内的节点数就越多，根据需要检出的异常团伙的规模，可以灵活的调节聚类簇数。

为反映提出的改进节点向量同时学习聚类的方法的效果，与最常用的聚类算法k-means进行对比。指定簇数500、1000、2000、3000、4000、5000、6000、9000分别运行这两种算法，然后对比两种算法的模块度。

如图4所示，使用k～means算法和所述的改进节点向量同时学习聚类的方法在指定簇数为500、1000、2000、3000、4000、5000、6000、9000时的模块度对比如下：当簇数为500时k-means算法模块度：0.825；当簇数为500时改进节点向量同时学习聚类的方法的模块度：0.841；当簇数为1000时k-means算法模块度：0.845；当簇数为1000时改进节点向量同时学习聚类的方法的模块度：0.856；当簇数为2000时k-means算法模块度：0.847；当簇数为2000时改进节点向量同时学习聚类的方法的模块度：0.832；当簇数为3000时k-means算法模块度：0.854；当簇数为3000时改进节点向量同时学习聚类的方法的模块度：0.821；当簇数为4000时k-means算法模块度：0.858；当簇数为4000时改进节点向量同时学习聚类的方法的模块度：0.795；当簇数为5000时k-means算法模块度：0.784；当簇数为5000时改进节点向量同时学习聚类的方法的模块度：0.800；当簇数为6000时k-means算法模块度：0.641；当簇数为6000时改进节点向量同时学习聚类的方法的模块度：0.823；当簇数为7000时k-means算法模块度：0.497；当簇数为7000时改进节点向量同时学习聚类的方法的模块度：0.837；当簇数为8000时k-means算法模块度：0.344；当簇数为8000时改进节点向量同时学习聚类的方法的模块度：0.839；当簇数为9000时k-means算法模块度：0.227；当簇数为9000时改进节点向量同时学习聚类的方法的模块度：0.824。

所述的模块度是对复杂网络划分的一种度量，可用于评估算法对网络的划分程度。模块度的定义如下：

上式中，m是连接数，k_i是顶点i的度数，k_j是顶点j的度数，C_i是顶点i的社区，C_j是顶点j的社区，如果顶点i和顶点j属于同社区，δ(C_i，C_j)＝1，否则等于0。模块度的值越接近1，为社区划分的质量越好，可以使用模块度在一定程度上衡量聚类效果的好坏。

为更直观的反映效果，计算在所有的簇中存在有异常节点的簇占比多少，很显然，效果较好的方法，异常节点的簇占比应该更低，因为这意味着异常节点分布的更密集，而不是分散在所有的簇中。

如图5所示，使用k-means算法和所述的改进节点向量同时学习聚类的方法在指定簇数为500、1000、2000、3000、4000、5000、6000、9000时的所有的簇中存在有异常节点的簇占比对比如下：当簇数为500时k-means算法所有的簇中存在有异常节点的簇占比：0.792；当簇数为500时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比：0.004；当簇数为1000时k-means算法所有的簇中存在有异常节点的簇占比：0.76；当簇数为1000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比：0.002；当簇数为2000时k-means算法所有的簇中存在有异常节点的簇占比：0.5945；当簇数为2000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比：0.001；当簇数为3000时k-means算法所有的簇中存在有异常节点的簇占比：0.4796；当簇数为3000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比：0.0006；当簇数为4000时k-means算法所有的簇中存在有异常节点的簇占比：0.4083；当簇数为4000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比：0.0005；当簇数为5000时k-means算法所有的簇中存在有异常节点的簇占比：0.3308；当簇数为5000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比：0.0028；当簇数为6000时k-means算法所有的簇中存在有异常节点的簇占比：0.2757；当簇数为6000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比：0.0035；当簇数为7000时k-means算法所有的簇中存在有异常节点的簇占比：0.2363；当簇数为7000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比：0.0045；当簇数为8000时k-means算法所有的簇中存在有异常节点的簇占比：0.2068；当簇数为8000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比：0.0045；当簇数为9000时k-means算法所有的簇中存在有异常节点的簇占比：0.1838；当簇数为9000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比：0.0066。

计算在所有存在异常节点的簇中，异常节点的数目占总数目的比例，很显然，这个比例较高，说明检测出的含有异常节点的簇的质量也越高。

如图6所示，使用k-means算法和所述的改进节点向量同时学习聚类的方法在指定簇数为500、1000、2000、3000、4000、5000、6000、9000时的簇内平均异常比例对比如下：当簇数为500时k-means算法簇内平均异常比例：0.1345；当簇数为500时改进节点向量同时学习聚类的方法的簇内平均异常比例：0.2320；当簇数为1000时k-means算法簇内平均异常比例：0.1632；当簇数为1000时改进节点向量同时学习聚类的方法的簇内平均异常比例：0.4507；当簇数为2000时k-means算法簇内平均异常比例：0.2406；当簇数为2000时改进节点向量同时学习聚类的方法的簇内平均异常比例：0.7008；当簇数为3000时k-means算法簇内平均异常比例：0.3296；当簇数为3000时改进节点向量同时学习聚类的方法的簇内平均异常比例：0.7007；当簇数为4000时k-means算法簇内平均异常比例：0.4104；当簇数为4000时改进节点向量同时学习聚类的方法的簇内平均异常比例：0.7007；当簇数为5000时k-means算法簇内平均异常比例：0.5103；当簇数为5000时改进节点向量同时学习聚类的方法的簇内平均异常比例：0.7472；当簇数为6000时k-means算法簇内平均异常比例：0.6243；当簇数为6000时改进节点向量同时学习聚类的方法的簇内平均异常比例：0.7334；当簇数为7000时k-means算法簇内平均异常比例：0.7266；当簇数为7000时改进节点向量同时学习聚类的方法的簇内平均异常比例：0.7284；当簇数为8000时k-means算法簇内平均异常比例：0.7105；当簇数为8000时改进节点向量同时学习聚类的方法的簇内平均异常比例：0.7187；当簇数为9000时k-means算法簇内平均异常比例：0.7676；当簇数为9000时改进节点向量同时学习聚类的方法的簇内平均异常比例：0.7132。

综上所述，与现有技术相比，本方法首先使用改进的图卷积方法获得帐户的特征为，然后使用提出的改进节点向量同时学习聚类的方法在微调帐户特征的同时学习帐户所属的社区可以获得不错的效果，无论是提取的节点特征的效果还是获取聚类的效果都比传统的方法要好，目前将该思路应用到PaySim数据集可以取得较好的效果，自然的，也可以将该方法迁移到别的金融交易数据集上。

上述具体实施例可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施例所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于图的交易异常关联用户检测方法，其特征在于，首先根据大宗商品交易数据建立网络结构作为算法输入，然后使用改进的图积网络提取节点的特征向量，使用异常标签得到损失函数对改进的图卷积网络进行训练，并采用训练后的改进的图卷积网络以无监督方法提取节点特征向量，最后使用根据金融交易数据建立的网络结构中各节点的连接关系信息改进得到的节点特征向量，同时学习节点聚类，最终得到每个节点所属的簇和优化节点向量表示；

所述的网络结构，其构建是以交易账户作为图的节点，帐户之间的交易关系作为边，帐户的具体信息作为节点的属性，交易的具体信息作为边的属性。

2.根据权利要求1所述的基于图的交易异常关联用户检测方法，其特征是，所述的图卷积网络通过学习映射，通过该映射图中的节点v_i聚合节点v_i本身的特征x_i与其邻居节点的特征x_j(j∈N(v_i))生成节点v_i的新表示，其中：N(v_i)为节点v_i的邻居节点的集合；

所述的聚合为：H^(k+1)＝f(H^(k)，A)＝σ(AH^(k)W^(k))，其中：k为网络层数，H^(k)是指：网络第k层的特征，f(·)是要图卷积网络要学习的映射，A是邻接矩阵，当节点j与节点i连接时，A_ij＝1，所以节点i的新特征是指：其邻接节点的特征和，W^k是学习权重，维度为F^k-1XF^k，而σ(·)是激活函数。

3.根据权利要求1所述的基于图的交易异常关联用户检测方法，其特征是，所述的改进的图卷积网络对图卷积网络的聚合过程进行改进，将边上的信息转化为节点的向量表示，具体为：将每个节点i的所有邻居节点的向量和连接节点的边作为集合：

其中：

为节点i的邻居节点j节点特征的向量，

为节点j和节点i之间连边特征的向量，N_I(i)为节点i所有邻居节点的集合；

所述的聚合过程为

其中：ρ和

分别为具有可训练参数的多层感知器，

是第k层输出的节点v的向量表示，

是节点u和节点v之间连边的向量表示。

4.根据权利要求1所述的基于图的交易异常关联用户检测方法，其特征是，所述的改进的图卷积网络的训练过程作为二分类问题，使用cross-entropy作为损失函数，用随机梯度下降进行训练，损失函数的梯度为：

其中：

为损失函数的梯度，V_L为节点集合，|V_L|为集合V_L中的节点个数，y_v是节点v的真实标签，

5.根据权利要求1所述的基于图的交易异常关联用户检测方法，其特征是，所述的无监督方法是指：将具有N和节点的网络的节点属性矩阵F和邻接矩阵A作为输入，使用改进后的图卷积网络作为编码器，编码器根据输入的X和A矩阵计算出每个节点的向量表示：ε(X，A)＝H＝{h₁，h₂，...，h_N}，其中：ε为编码器，h_i为第i个节点的向量表示，X是N×F的矩阵，为网络的输入属性矩阵，N为节点个数，F为每个节点的属性维度，A是N×N的网络邻接矩阵；

所述的编码器的学习采用的目标函数使得最大化每个节点的局部表示，即h_i，与整个图的全局信息内容，即向量s的互信息；整个图的全局信息内容s通过函数R直接映射得到，s＝R(ε(X，A))，s∈R^F，表示图级别的摘要，其中：R(·)为从所有节点的节点为向量得到全局信息内容s的函数，ε(·)为编码器，即改进的图卷积网络，X是N×F的矩阵，为网络的输入属性矩阵，N为节点个数，F为每个节点的属性维度，A是N×N的网络邻接矩阵。

6.根据权利要求1所述的基于图的交易异常关联用户检测方法，其特征是，通过判别器函数D(h_i，s)为分配给每个节点的局部表示h_i和互信息s这一正样本信息对的概率分数，然后采样负样本，将假图

上生成的

其中：N是真实图中节点的个数，M是假图中节点的个数，

是真实图中第i个节点的表示向量，

是假图中第j个节点的表示向量，

为整个图的全局信息内容的向量。

7.根据权利要求1所述的基于图的交易异常关联用户检测方法，其特征是，所述的改进节点向量同时学习聚类的方法是指：首先使用DeepWalk算法框架，使用随机游走生成语料集合，语料集合是指：根据大宗商品交易数据构建的网络结构生成的节点序列的集合，然后使用神经网络在语料库上进行训练来获得节点的表示向量，为达到聚类改进节点向量同时学习聚类的目的，修改DeepWalk算法的损失函数，其具体包括：(1)使得采样的序列中同一窗口内的节点的表示向量具有相似的表示以及(2)聚类的目标函数，其目标为最小化节点与最近的聚类中心的距离，即增加簇的内聚度，训练更适合聚类的为向量：L＝L₁+L₂；

所述的DeepWalk算法框架是指：使用随机游走的方法产生图节点的嵌入，随机游走包括：采样、训练skip-gram和计算嵌入；

所述的采样是指：通过随机游走的方法对图形进行采样，即对每个节点进行多次随机游走，需要规定随机游走的次数和长度，随机游走的结果为生成一组节点序列；

所述的训练skip-gram是指：将随机游走得到节点用独热向量进行为，然后将该独热向量作为skip-gram网络模型的输入，然后将该节点预测相邻节点的概率作为优化目标，对该目标进行最大化；

所述的计算嵌入是指：节点的嵌入是神经网络隐藏层的输出，DeepWalk计算图形中每个节点的嵌入；

所述的skip-gram模型使用长度为2c+1的滑动窗口，该窗口在语料库中滑动，每次滑动时，窗口中包含的2c+1个单词将用于训练模型，窗口中心的单词被认为是已知单词，并且覆盖住中心单词的前c个单词和后c个单词，待预测覆盖的单词，需要使用已知的单词，skip-gram的优化目标为：

8.根据权利要求7所述的基于图的交易异常关联用户检测方法，其特征是，由于概率的连乘会导致最终的乘积非常小，因此对式子的每一项进行log处理，具体为：

9.根据权利要求7所述的基于图的交易异常关联用户检测方法，其特征是，修改后的DeepWalk算法的损失函数中

v为中心节点，N_s(v)为节点v的邻居节点，n_i为待预测的上下文节点，u为除当前上下文之外总节点库中的其他节点，f为节点到节点为向量的映射，是|V|×d的矩阵，矩阵的每一行都是在上一节中获得的节点的向量表示，γ为聚类成本的权重系数，f(v)为节点v的为向量，C为一组聚类中心，μ_c为第c个簇的聚类平均值，每聚类中心都是在嵌入空间中的d维向量。