CN113269647B - 基于图的交易异常关联用户检测方法 - Google Patents

基于图的交易异常关联用户检测方法 Download PDF

Info

Publication number
CN113269647B
CN113269647B CN202110636289.6A CN202110636289A CN113269647B CN 113269647 B CN113269647 B CN 113269647B CN 202110636289 A CN202110636289 A CN 202110636289A CN 113269647 B CN113269647 B CN 113269647B
Authority
CN
China
Prior art keywords
node
nodes
graph
vector
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110636289.6A
Other languages
English (en)
Other versions
CN113269647A (zh
Inventor
易平
蒋望涵
李仪浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110636289.6A priority Critical patent/CN113269647B/zh
Publication of CN113269647A publication Critical patent/CN113269647A/zh
Application granted granted Critical
Publication of CN113269647B publication Critical patent/CN113269647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

一种基于图的交易数据异常关联用户检测方法,首先根据大宗商品交易数据建立网络结构作为算法输入,然后使用改进的图积网络提取节点的特征向量,使用异常标签得到损失函数对改进的图卷积网络进行训练,并采用训练后的改进的图卷积网络以无监督方法提取节点特征向量,最后使用根据金融交易数据建立的网络结构中各节点的连接关系信息改进得到的节点特征向量,同时学习节点聚类,最终得到每个节点所属的簇和优化节点向量表示。本发明使用通过使用真实交易数据集,证明提出的方法可以有效的进行帐户特征的提取和异常关联帐户的检出。

Description

基于图的交易异常关联用户检测方法
技术领域
本发明涉及的是一种基于图的涉及多用户的交易异常检测的技术,具体是一种利用图结构和节点相似度检测异常关联帐户的方法。
背景技术
随着互联网技术的发展,大宗商品交易更多地依赖交易平台网上进行。现有的检测操纵市场价格极度依赖专家参与,需要大量人力,应用成本非常高,效率也很低下。虽然目前有常用的基于机器学习进行交易异常检测的方法,比如通过机器学习模型或者根据预先设定的规则来提取异常行为的特征,通过异常行为特征与正常行为特征的不同来区分。或者采用数据挖掘的方式,基于历史数据提取特征,建立的分类模型。这些方法一般只能应对单个异常用户的检测,无法应对多个异常用户联合构成恶意团伙进行恶意行为的问题。
发明内容
本发明针对现有技术的缺陷,提出一种基于图的交易异常关联用户检测方法,旨在根据大宗商品交易数据创建关系网络,根据关系网络中的节点信息、边信息、网络结构,通过图嵌入方法获得节点为向量,再对节点的表示向量进行聚合,从而发现具有相似异常行为的节点。
本发明通过以下技术方案实现的:
本发明涉及一种基于图的交易异常关联用户检测方法,首先根据大宗商品交易数据建立网络结构作为算法输入,然后使用改进的图积网络提取节点的特征向量,使用异常标签得到损失函数对改进的图卷积网络进行训练,并采用训练后的改进的图卷积网络以无监督方法提取节点特征向量,最后使用根据金融交易数据建立的网络结构中各节点的连接关系信息改进得到的节点特征向量,同时学习节点聚类,最终得到每个节点所属的簇和优化节点向量表示。
所述的网络结构,其构建是以交易账户作为图的节点,帐户之间的交易关系作为边,帐户的具体信息作为节点的属性,交易的具体信息作为边的属性,
所述的图卷积网络通过学习映射,通过该映射图中的节点vi聚合节点vi本身的特征xi与其邻居节点的特征xj(j∈N(vi))生成节点vi的新表示,其中:N(vi)为节点vi的邻居节点的集合。
所述的聚合为:H(k+1)=f(H(k),A)=σ(AH(k)W(k)),其中:k为网络层数,H(k)是指:网络第k层的特征,f(·)是要图卷积网络要学习的映射,A是邻接矩阵,当节点j与节点i连接时,Aij=1,所以节点i的新特征是指:其邻接节点的特征和,Wk是学习权重,维度为Fk-1XFk,而σ(·)是激活函数,比如RELU。
所述的改进的图卷积网络对图卷积网络的聚合过程进行改进,将边上的信息转化为节点的向量表示,具体为:将每个节点i的所有邻居节点的向量和连接节点的边作为集合:
Figure BDA0003105354980000021
Figure BDA0003105354980000022
其中:
Figure BDA0003105354980000023
为节点i的邻居节点j节点特征的向量,
Figure BDA0003105354980000024
为节点j和节点i之间连边特征的向量,NI(i)为节点i所有邻居节点的集合。
所述的聚合过程为
Figure BDA0003105354980000025
其中:ρ和
Figure BDA0003105354980000026
分别为具有可训练参数的多层感知器,
Figure BDA0003105354980000027
是第k层输出的节点v的向量表示,
Figure BDA0003105354980000028
是节点u和节点v之间连边的向量表示。
所述的异常标签是指:每个节点有0/1标签为其是否是恶意节点,标签为0为非恶意,标签为1为恶意。
所述的改进的图卷积网络的训练过程作为二分类问题,使用cross-entropy作为损失函数,用随机梯度下降进行训练,损失函数的梯度为:
Figure BDA0003105354980000029
其中:
Figure BDA00031053549800000210
为损失函数的梯度,VL为节点集合,|VL|为集合VL中的节点个数,yv是节点v的真实标签,
Figure BDA00031053549800000211
是节点v通过改进的图卷积网络的第k层得到的编码,f(·)是要改进的图卷积网络要学习的映射。
所述的无监督方法是指:将具有N和节点的网络的节点属性矩阵F和邻接矩阵A作为输入,使用改进后的图卷积网络作为编码器,编码器根据输入的X和A矩阵计算出每个节点的向量表示:ε(X,A)=H={h1,h2,...,hN},其中:ε为编码器,hi为第i个节点的向量表示,X是N×F的矩阵,为网络的输入属性矩阵,N为节点个数,F为每个节点的属性维度,A是N×N的网络邻接矩阵。
所述的编码器的学习采用的目标函数使得最大化每个节点的局部表示,即hi,与整个图的全局信息内容,即向量s的互信息,使得每个节点的表示就能用一定的全局信息在里面。
所述的整个图的全局信息内容s通过函数R直接映射得到,s=R(ε(X,A)),s∈RF,表示图级别的摘要,其中:R(·)为从所有节点的节点为向量得到全局信息内容s的函数。ε(·)为编码器,即改进的图卷积网络。X是N×F的矩阵,为网络的输入属性矩阵,N为节点个数,F为每个节点的属性维度,A是N×N的网络邻接矩阵。
本发明进一步通过判别器函数D(hi,s)为分配给每个节点的局部表示hi和互信息s这一正样本信息对的概率分数,然后采样负样本,将假图
Figure BDA00031053549800000212
上生成的
Figure BDA00031053549800000213
与全局向量s作为负样本信息对,该判别器具体为二分类网络,其目标为提高正样本的概率分数,降低负样本的概率分数,损失函数
Figure BDA00031053549800000214
其中:N是真实图中节点的个数,M是假图中节点的个数,
Figure BDA00031053549800000215
是真实图中第i个节点的表示向量,
Figure BDA00031053549800000216
是假图中第j个节点的表示向量,
Figure BDA0003105354980000037
为整个图的全局信息内容的向量。
所述的改进节点向量同时学习聚类的方法是指:首先使用DeepWalk算法框架,使用随机游走生成语料集合,语料集合是指:根据大宗商品交易数据构建的网络结构生成的节点序列的集合,然后使用神经网络在语料库上进行训练来获得节点的表示向量。为达到聚类改进节点向量同时学习聚类的目的,修改DeepWalk算法的损失函数,其具体包括:(1)使得采样的序列中同一窗口内的节点的表示向量具有相似的表示以及(2)聚类的目标函数,其目标为最小化节点与最近的聚类中心的距离,即增加簇的内聚度,训练更适合聚类的为向量:L=L1+L2
所述的DeepWalk算法框架是指:使用随机游走的方法产生图节点的嵌入。随机游走包括:采样、训练skip-gram和计算嵌入。采样是指:通过随机游走的方法对图形进行采样,即对每个节点进行多次随机游走,需要规定随机游走的次数和长度,随机游走的结果为生成一组节点序列。训练skip-gram是指:将随机游走得到节点用独热向量进行为,然后将该独热向量作为skip-gram网络模型的输入,然后将该节点预测相邻节点的概率作为优化目标,对该目标进行最大化。计算嵌入:节点的嵌入是神经网络隐藏层的输出。DeepWalk计算图形中每个节点的嵌入。
所述的skip-gram模型使用长度为2c+1的滑动窗口,该窗口在语料库中滑动,每次滑动时,窗口中包含的2c+1个单词将用于训练模型,窗口中心的单词被认为是已知单词,并且覆盖住中心单词的前c个单词和后c个单词,待预测覆盖的单词,需要使用已知的单词。skip-gram的优化目标为:
Figure BDA0003105354980000031
由于概率的连乘会导致最终的乘积非常小,因此对式子的每一项进行log处理,具体为:
Figure BDA0003105354980000032
其中:T为得到的所有滑动窗口的中心词个数,wt为第t个滑动窗口的中心词,wt+j为在t+j位置的单词,P(wt+j|wt)为在中心词为wt时,正确预测单词wt+j的概率。单项P(wt+j|wt)具体为:P(c|w;θ)。其中:c为待预测的上下文词,w为中心词,θ为模型参数,即词向量矩阵,矩阵的大小为|V|×n,其中:|V|为词库的大小,n为训练得到词向量维度。
当中心词为w,待预测的背景词为c,则在w已知的前提下预测c的概率为:
Figure BDA0003105354980000033
Figure BDA0003105354980000034
其中:uc和vw分别可以作为词c的向量和词w的向量,对这两个向量的内积做softmax运算就得到条件概率,c’为除当前上下文之外词库中的其他词,关系越紧密的词的向量会越近似。
所述的修改后的DeepWalk算法的损失函数中
Figure BDA0003105354980000035
Figure BDA0003105354980000036
其中:针对本发明修改skip-gram模型中的P(c|w;θ)为如下形式:
Figure BDA0003105354980000041
其中:v为中心节点,Ns(v)为节点v的邻居节点,ni为待预测的上下文节点,u为除当前上下文之外总节点库中的其他节点,f为节点到节点为向量的映射,是|V|×d的矩阵,矩阵的每一行都是在上一节中获得的节点的向量表示,γ为聚类成本的权重系数,f(v)为节点v的为向量,C为一组聚类中心,μc为第c个簇的聚类平均值,每聚类中心都是在嵌入空间中的d维向量。目的是最小化每个节点到离它最近的聚类中心的距离。
附图说明
图1为本发明流程图;
图2为改进的图卷积网络提取节点特征效果对比图;
图3为无监督方法提取节点特征效果对比图;
图4为使用的聚合方法聚类效果模块度对比图;
图5为使用的聚合方法聚类效果异常簇占比对比图;
图6为使用的聚合方法聚类效果簇内平均异常比例对比图。
具体实施方式
如图1所示,本实施例采用的是PaySim交易数据集,PaySim交易数据集中将帐户标记为异常帐户的情况有三种,一是存在某帐户到另外帐户的大量转账;二是两个帐户之间在时间段内交易次数超过某一阈值;三是某帐户通过帐户将资金转回给自己,满足大宗商品交易过程中的异常帐户是出现大额交易,短时间频繁交易,自买自卖情况的帐户的设定,通过本实施例方法进行异常关联帐户的检出,具体步骤包括:
步骤一,根据原始交易数据构建图:使用PaySim数据集,构建图的方法主要关注帐户之间的交易关系,将每个帐户为节点,每条交易是两个节点之间的连边,节点的属性包括Email、SSN、Phone,边的属性包括交易金额,交易类型。每个节点都有标签isFraud,如果isFraud=0,则为正常节点,如果isFraud=1,则为异常节点。
步骤二,使用改进的图卷积方法获得节点为向量:将步骤一得到的图输入神经网络,使用开源图神经网络计算框架Deep Graph Library(DGL)框架,首先使用dgl.DGLGraph()创建dgl图g存储输入的图,图g中存储节点node和节点特征node_feature,边edge和边特征edge_feature。使用Mini-batch方法和Neighbor Sampling方法进行训练。
所述的Mini-batch方法为对于节点较多的大图,无法一次完全放入显存中进行训练,需要设置多个batch进行训练,每个batch抽取图中一定数量的节点。设batch内需要更新embedding的节点的集合为VB,对于这个节点集合中的所有节点,根据边的信息查找计算这些节点的embedding所需要的所有邻居节点。通过这种方法,在每个batch的训练中,可以将大的网络图转化为小的子图。
所述的Neighbor Sampling方法是指在一些图中,可能存在某些节点的度非常高,这样会导致当batch中有度非常高的节点时,会为这个节点的下层带来很多节点,使得子图的规模非常大,为解决这样的问题,使用邻居采样策略,仅为每个节点采样一定数量的邻居来近似,不使用该节点的所有邻居来更新其embedding。
训练过程是建立batch中更新节点编码需要的所有的邻居节点的子图,并使用采样技术控制子图的节点总数不会过多,然后这一批节点构成的子图和节点的编码可以一起输入到改进的GCN模型中进行训练。
为对比训练结果,在PaySim数据集上分别训练常用的节点嵌入的方法,包括DeepWalk、node2vec和GraphSage,在获得节点编码后接作为分类器神经网络来验证,先训练用于节点嵌入的网络,再用得到节点特征向量和节点的异常标签训练二分类器,通过分类的效果来判断节点嵌入的效果。评判实验结果使用的指标是准确率Accuracy,精度Precision,召回率Recall和F1-score。
如图2所示,使用DeepWalk、node2vec、GraphSage和改进的图卷积方法的准确率Accuracy,精度Precision,召回率Recall和F1-score对比如下:DeepWalk的Accuracy:0.9437;DeepWalk的Precision:0.6627;DeepWalk的Recall:0.5556;DeepWalk的F1-score:0.5776;Node2vec的Accuracy:0.9478;Node2vec的Precision:0.5054;Node2vec的Recall:0.5001;Node2vec的F1-score:0.4872;GraphSage的Accuracy:0.9466;GraphSage的Precision:0.4738;GraphSage的Recall:0.5322;GraphSage的F1-score:0.5013;改进的图卷积方法的Accuracy:0.9647;改进的图卷积方法的Precision:0.8972;改进的图卷积方法的Recall:0.7377;改进的图卷积方法的F1-score:0.7951。
步骤三,使用无监督方法获得节点为向量:使用步骤一中构建的图,同时使用步骤一中的Mini-batch方法和Neighbor Sampling方法进行采样,对每采样得到的子图,施加扰动生成该子图对应的负样本,这里的扰动是指随机打乱节点特征矩阵和并同时修改边特征矩阵,将步骤二中使用的改进的图卷积模型作为编码器,对正负样本分别进行编码,然后设置判别器对正负样本的编码向量进行打分,最终的其目标为得到能尽可能将正负样本区分开的编码器参数。
为对比训练结果,将其与常用的无监督算法DeepWalk算法以及步骤二中的改进后的有监督图卷积算法进行对比,使用编码器结果训练二分类网络,通过二分类的结果来评判编码器的编码结果好坏。评判实验结果使用的指标是准确率Accuracy,精度Precision,召回率Recall和F1-score。
如图3所示,使用DeepWalk算法、步骤二中改进的图卷积算法、步骤三的无监督方法的准确率Accuracy,精度Precision,召回率Recall和F1-score对比如下:DeepWalk的Accuracy:0.9437;DeepWalk的Precision:0.6627;DeepWalk的Recall:0.5556;DeepWalk的F1-score:0.5776;改进的图卷积方法的Accuracy:0.9647;改进的图卷积方法的Precision:0.8972;改进的图卷积方法的Recall:0.7377;改进的图卷积方法的F1-score:0.7951;无监督方法的Accuracy:0.9503;无监督方法的Precision:0.7010;无监督方法的Recall:0.8200;无监督方法的F1-score:0.7553。
步骤四,聚合节点特征向量:首先使用步骤二中的图嵌入方法获得节点的表示向量,然后使用提出的改进节点向量同时学习聚类的方法聚合相似的节点。聚合相似节点的目的是为进行异常团伙的检出,由于数据仅有标签,即是否为异常节点,在聚类之前也无法提前知道聚类的簇数,实际上,可以根据需要指定簇数进行聚类,指定簇数越多,每个簇内的节点数就越少,指定簇数越少,每个簇内的节点数就越多,根据需要检出的异常团伙的规模,可以灵活的调节聚类簇数。
为反映提出的改进节点向量同时学习聚类的方法的效果,与最常用的聚类算法k-means进行对比。指定簇数500、1000、2000、3000、4000、5000、6000、9000分别运行这两种算法,然后对比两种算法的模块度。
如图4所示,使用k~means算法和所述的改进节点向量同时学习聚类的方法在指定簇数为500、1000、2000、3000、4000、5000、6000、9000时的模块度对比如下:当簇数为500时k-means算法模块度:0.825;当簇数为500时改进节点向量同时学习聚类的方法的模块度:0.841;当簇数为1000时k-means算法模块度:0.845;当簇数为1000时改进节点向量同时学习聚类的方法的模块度:0.856;当簇数为2000时k-means算法模块度:0.847;当簇数为2000时改进节点向量同时学习聚类的方法的模块度:0.832;当簇数为3000时k-means算法模块度:0.854;当簇数为3000时改进节点向量同时学习聚类的方法的模块度:0.821;当簇数为4000时k-means算法模块度:0.858;当簇数为4000时改进节点向量同时学习聚类的方法的模块度:0.795;当簇数为5000时k-means算法模块度:0.784;当簇数为5000时改进节点向量同时学习聚类的方法的模块度:0.800;当簇数为6000时k-means算法模块度:0.641;当簇数为6000时改进节点向量同时学习聚类的方法的模块度:0.823;当簇数为7000时k-means算法模块度:0.497;当簇数为7000时改进节点向量同时学习聚类的方法的模块度:0.837;当簇数为8000时k-means算法模块度:0.344;当簇数为8000时改进节点向量同时学习聚类的方法的模块度:0.839;当簇数为9000时k-means算法模块度:0.227;当簇数为9000时改进节点向量同时学习聚类的方法的模块度:0.824。
所述的模块度是对复杂网络划分的一种度量,可用于评估算法对网络的划分程度。模块度的定义如下:
Figure BDA0003105354980000071
上式中,m是连接数,ki是顶点i的度数,kj是顶点j的度数,Ci是顶点i的社区,Cj是顶点j的社区,如果顶点i和顶点j属于同社区,δ(Ci,Cj)=1,否则等于0。模块度的值越接近1,为社区划分的质量越好,可以使用模块度在一定程度上衡量聚类效果的好坏。
为更直观的反映效果,计算在所有的簇中存在有异常节点的簇占比多少,很显然,效果较好的方法,异常节点的簇占比应该更低,因为这意味着异常节点分布的更密集,而不是分散在所有的簇中。
如图5所示,使用k-means算法和所述的改进节点向量同时学习聚类的方法在指定簇数为500、1000、2000、3000、4000、5000、6000、9000时的所有的簇中存在有异常节点的簇占比对比如下:当簇数为500时k-means算法所有的簇中存在有异常节点的簇占比:0.792;当簇数为500时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.004;当簇数为1000时k-means算法所有的簇中存在有异常节点的簇占比:0.76;当簇数为1000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.002;当簇数为2000时k-means算法所有的簇中存在有异常节点的簇占比:0.5945;当簇数为2000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.001;当簇数为3000时k-means算法所有的簇中存在有异常节点的簇占比:0.4796;当簇数为3000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0006;当簇数为4000时k-means算法所有的簇中存在有异常节点的簇占比:0.4083;当簇数为4000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0005;当簇数为5000时k-means算法所有的簇中存在有异常节点的簇占比:0.3308;当簇数为5000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0028;当簇数为6000时k-means算法所有的簇中存在有异常节点的簇占比:0.2757;当簇数为6000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0035;当簇数为7000时k-means算法所有的簇中存在有异常节点的簇占比:0.2363;当簇数为7000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0045;当簇数为8000时k-means算法所有的簇中存在有异常节点的簇占比:0.2068;当簇数为8000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0045;当簇数为9000时k-means算法所有的簇中存在有异常节点的簇占比:0.1838;当簇数为9000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0066。
计算在所有存在异常节点的簇中,异常节点的数目占总数目的比例,很显然,这个比例较高,说明检测出的含有异常节点的簇的质量也越高。
如图6所示,使用k-means算法和所述的改进节点向量同时学习聚类的方法在指定簇数为500、1000、2000、3000、4000、5000、6000、9000时的簇内平均异常比例对比如下:当簇数为500时k-means算法簇内平均异常比例:0.1345;当簇数为500时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.2320;当簇数为1000时k-means算法簇内平均异常比例:0.1632;当簇数为1000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.4507;当簇数为2000时k-means算法簇内平均异常比例:0.2406;当簇数为2000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7008;当簇数为3000时k-means算法簇内平均异常比例:0.3296;当簇数为3000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7007;当簇数为4000时k-means算法簇内平均异常比例:0.4104;当簇数为4000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7007;当簇数为5000时k-means算法簇内平均异常比例:0.5103;当簇数为5000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7472;当簇数为6000时k-means算法簇内平均异常比例:0.6243;当簇数为6000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7334;当簇数为7000时k-means算法簇内平均异常比例:0.7266;当簇数为7000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7284;当簇数为8000时k-means算法簇内平均异常比例:0.7105;当簇数为8000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7187;当簇数为9000时k-means算法簇内平均异常比例:0.7676;当簇数为9000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7132。
综上所述,与现有技术相比,本方法首先使用改进的图卷积方法获得帐户的特征为,然后使用提出的改进节点向量同时学习聚类的方法在微调帐户特征的同时学习帐户所属的社区可以获得不错的效果,无论是提取的节点特征的效果还是获取聚类的效果都比传统的方法要好,目前将该思路应用到PaySim数据集可以取得较好的效果,自然的,也可以将该方法迁移到别的金融交易数据集上。
上述具体实施例可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施例所限,在其范围内的各个实现方案均受本发明之约束。

Claims (6)

1.一种基于图的交易异常关联用户检测方法,其特征在于,首先根据大宗商品交易数据建立网络结构作为算法输入,然后使用改进的图积网络提取节点的特征向量,使用异常标签得到损失函数对改进的图卷积网络进行训练,并采用训练后的改进的图卷积网络以无监督方法提取节点特征向量,最后使用根据金融交易数据建立的网络结构中各节点的连接关系信息改进得到的节点特征向量,同时学习节点聚类,最终得到每个节点所属的簇和优化节点向量表示用于检测异常团伙,即由于异常节点的簇占比更低,异常节点分布的更密集,通过计算在所有存在异常节点的簇中,异常节点的数目占总数目的比例实现检测;
所述的网络结构,其构建是以交易账户作为图的节点,帐户之间的交易关系作为边,帐户的具体信息作为节点的属性,交易的具体信息作为边的属性;
所述的改进的图卷积网络对图卷积网络的聚合过程进行改进,将边上的信息转化为节点的向量表示,具体为:将每个节点i的所有邻居节点的向量和连接节点的边作为集合:
Figure FDA0003869457750000011
Figure FDA0003869457750000012
其中:
Figure FDA0003869457750000013
为节点i的邻居节点j节点特征的向量,
Figure FDA0003869457750000014
为节点j和节点i之间连边特征的向量,NI(i)为节点i所有邻居节点的集合;
所述的聚合过程为
Figure FDA0003869457750000015
其中:ρ和
Figure FDA0003869457750000016
分别为具有可训练参数的多层感知器,
Figure FDA0003869457750000017
是第k层输出的节点v的向量表示,
Figure FDA0003869457750000018
是节点u和节点v之间连边的向量表示。
2.根据权利要求1所述的基于图的交易异常关联用户检测方法,其特征是,所述的图卷积网络通过学习映射,通过该映射图中的节点vi聚合节点vi本身的特征xi与其邻居节点的特征xj(j∈N(vi))生成节点vi的新表示,其中:N(vi)为节点vi的邻居节点的集合;
所述的聚合为:H(k+1)=f(H(k),A)=σ(AH(k)W(k)),其中:k为网络层数,H(k)是指:网络第k层的特征,f(·)是要图卷积网络要学习的映射,A是邻接矩阵,当节点j与节点i连接时,Aij=1,所以节点i的新特征是指:其邻接节点的特征和,Wk是学习权重,维度为Fk-1XFk,而σ(·)是激活函数。
3.根据权利要求1所述的基于图的交易异常关联用户检测方法,其特征是,所述的改进的图卷积网络的训练过程作为二分类问题,使用cross-entropy作为损失函数,用随机梯度下降进行训练,损失函数的梯度为:
Figure FDA0003869457750000019
其中:
Figure FDA00038694577500000110
为损失函数的梯度,VL为节点集合,|VL|为集合VL中的节点个数,yv是节点v的真实标签,
Figure FDA00038694577500000111
是节点v通过改进的图卷积网络的第k层得到的编码,f(·)是要改进的图卷积网络要学习的映射。
4.根据权利要求1所述的基于图的交易异常关联用户检测方法,其特征是,所述的无监督方法是指:将具有N和节点的网络的节点属性矩阵F和邻接矩阵A作为输入,使用改进后的图卷积网络作为编码器,编码器根据输入的X和A矩阵计算出每个节点的向量表示:ε(X,A)=H={h1,h2,...,hN},其中:ε为编码器,hi为第i个节点的向量表示,X是N×F的矩阵,为网络的输入属性矩阵,N为节点个数,F为每个节点的属性维度,A是N×N的网络邻接矩阵;
所述的编码器的学习采用的目标函数使得最大化每个节点的局部表示,即hi,与整个图的全局信息内容,即向量s的互信息;整个图的全局信息内容s通过函数R直接映射得到,s=R(ε(X,A)),s∈RF,表示图级别的摘要,其中:R(·)为从所有节点的节点为向量得到全局信息内容s的函数,ε(·)为编码器,即改进的图卷积网络,X是N×F的矩阵,为网络的输入属性矩阵,N为节点个数,F为每个节点的属性维度,A是N×N的网络邻接矩阵。
5.根据权利要求1所述的基于图的交易异常关联用户检测方法,其特征是,通过判别器函数D(hi,s)为分配给每个节点的局部表示hi和互信息s这一正样本信息对的概率分数,然后采样负样本,将假图
Figure FDA0003869457750000021
上生成的
Figure FDA0003869457750000022
与全局向量s作为负样本信息对,该判别器具体为二分类网络,其目标为提高正样本的概率分数,降低负样本的概率分数,损失函数
Figure FDA0003869457750000023
其中:N是真实图中节点的个数,M是假图中节点的个数,
Figure FDA0003869457750000024
是真实图中第i个节点的表示向量,
Figure FDA0003869457750000025
是假图中第j个节点的表示向量,
Figure FDA0003869457750000026
为整个图的全局信息内容的向量。
6.根据权利要求1所述的基于图的交易异常关联用户检测方法,其特征是,所述的改进节点向量同时学习聚类的方法是指:首先使用DeepWalk算法框架,使用随机游走生成语料集合,语料集合是指:根据大宗商品交易数据构建的网络结构生成的节点序列的集合,然后使用神经网络在语料库上进行训练来获得节点的表示向量,为达到聚类改进节点向量同时学习聚类的目的,修改DeepWalk算法的损失函数,其具体包括:①使得采样的序列中同一窗口内的节点的表示向量具有相似的表示以及②聚类的目标函数,其目标为最小化节点与最近的聚类中心的距离,即增加簇的内聚度,训练更适合聚类的为向量:L=L1+L2,其中:修改后的DeepWalk算法的损失函数中
Figure FDA0003869457750000027
Figure FDA0003869457750000028
其中:针对本发明修改skip-gram模型中的P(c|w;θ)为如下形式:
Figure FDA0003869457750000029
Figure FDA0003869457750000031
v为中心节点,Ns(v)为节点v的邻居节点,ni为待预测的上下文节点,u为除当前上下文之外总节点库中的其他节点,f为节点到节点为向量的映射,是|V|×d的矩阵,矩阵的每一行都是在上一节中获得的节点的向量表示,γ为聚类成本的权重系数,f(v)为节点v的为向量,C为一组聚类中心,μc为第c个簇的聚类平均值,每聚类中心都是在嵌入空间中的d维向量;
所述的DeepWalk算法框架是指:使用随机游走的方法产生图节点的嵌入,随机游走包括:采样、训练skip-gram和计算嵌入;
所述的采样是指:通过随机游走的方法对图形进行采样,即对每个节点进行多次随机游走,需要规定随机游走的次数和长度,随机游走的结果为生成一组节点序列;
所述的训练skip-gram是指:将随机游走得到节点用独热向量进行为,然后将该独热向量作为skip-gram网络模型的输入,然后将该节点预测相邻节点的概率作为优化目标,对该目标进行最大化;
所述的计算嵌入是指:节点的嵌入是神经网络隐藏层的输出,DeepWalk计算图形中每个节点的嵌入;
所述的skip-gram模型使用长度为2c+1的滑动窗口,该窗口在语料库中滑动,每次滑动时,窗口中包含的2c+1个单词将用于训练模型,窗口中心的单词被认为是已知单词,并且覆盖住中心单词的前c个单词和后c个单词,待预测覆盖的单词,需要使用已知的单词,skip-gram的优化目标为:
Figure FDA0003869457750000032
由于概率的连乘会导致最终的乘积非常小,因此对式子的每一项进行log处理,具体为:
Figure FDA0003869457750000033
其中:T为得到的所有滑动窗口的中心词个数,wt为第t个滑动窗口的中心词,wt+j为在t+j位置的单词,P(wt+j|wt)为在中心词为wt时,正确预测单词wt+j的概率,单项P(wt+j|wt)具体为:P(c|w;θ),其中:c为待预测的上下文词,w为中心词,θ为模型参数,即词向量矩阵,矩阵的大小为|V|×n,|V|为词库的大小,n为训练得到词向量维度;
当中心词为w,待预测的背景词为c,则在w已知的前提下预测c的概率为:
Figure FDA0003869457750000034
Figure FDA0003869457750000035
其中:uc和vw分别可以作为词c的向量和词w的向量,对这两个向量的内积做softmax运算就得到条件概率,c’为除当前上下文之外词库中的其他词,关系越紧密的词的向量会越近似。
CN202110636289.6A 2021-06-08 2021-06-08 基于图的交易异常关联用户检测方法 Active CN113269647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110636289.6A CN113269647B (zh) 2021-06-08 2021-06-08 基于图的交易异常关联用户检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110636289.6A CN113269647B (zh) 2021-06-08 2021-06-08 基于图的交易异常关联用户检测方法

Publications (2)

Publication Number Publication Date
CN113269647A CN113269647A (zh) 2021-08-17
CN113269647B true CN113269647B (zh) 2022-11-18

Family

ID=77234667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110636289.6A Active CN113269647B (zh) 2021-06-08 2021-06-08 基于图的交易异常关联用户检测方法

Country Status (1)

Country Link
CN (1) CN113269647B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781213B (zh) * 2021-08-20 2023-09-29 上海华鑫股份有限公司 一种基于图和层次化transformer的智能交易异常检测方法
CN113469816A (zh) * 2021-09-03 2021-10-01 浙江中科华知科技股份有限公司 基于多组学技术的数字货币识别方法、系统和存储介质
CN113506179B (zh) * 2021-09-13 2022-01-11 北京大学深圳研究生院 数字货币交易中异常实体的检测方法、存储介质
CN114817757B (zh) * 2022-04-02 2023-07-21 广州大学 基于图卷积网络的跨社交网络虚拟身份关联方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476261A (zh) * 2019-12-16 2020-07-31 天津工业大学 一种社区增强的图卷积神经网络方法
CN112347362A (zh) * 2020-11-16 2021-02-09 安徽农业大学 一种基于图自编码器的个性化推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368074B (zh) * 2020-02-24 2022-06-10 西安电子科技大学 一种基于网络结构和文本信息的链路预测方法
CN112163504B (zh) * 2020-09-24 2024-02-20 杭州电子科技大学 基于结构图卷积网络的遥感图像小样本舰船目标识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476261A (zh) * 2019-12-16 2020-07-31 天津工业大学 一种社区增强的图卷积神经网络方法
CN112347362A (zh) * 2020-11-16 2021-02-09 安徽农业大学 一种基于图自编码器的个性化推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周超.基于图的网上交易数据异常检测框架的设计与实现.《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》.2020, *
基于图的网上交易数据异常检测框架的设计与实现;周超;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20200815;第13-26页 *

Also Published As

Publication number Publication date
CN113269647A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN113269647B (zh) 基于图的交易异常关联用户检测方法
Ruby et al. Binary cross entropy with deep learning technique for image classification
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN111553381B (zh) 基于多网络模型的网络入侵检测方法、装置及电子设备
CN112784881B (zh) 网络异常流量检测方法、模型及系统
Yan et al. Optimizing classifier performance via an approximation to the Wilcoxon-Mann-Whitney statistic
CN107292097B (zh) 基于特征组的中医主症选择方法
CN111881722B (zh) 一种跨年龄人脸识别方法、系统、装置及存储介质
CN110866530A (zh) 一种字符图像识别方法、装置及电子设备
CN112906770A (zh) 一种基于跨模态融合的深度聚类方法及系统
CN111126482A (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
CN115688024B (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN109190698B (zh) 一种网络数字虚拟资产的分类识别系统及方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
Yu et al. Cutset-type possibilistic c-means clustering algorithm
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN117153268A (zh) 一种细胞类别确定方法及系统
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
Nijhawan et al. Food classification of Indian cuisines using handcrafted features and vision transformer network
US20230206134A1 (en) Rank Distillation for Training Supervised Machine Learning Models
CN115170334A (zh) 一种反洗钱模型的训练方法及装置
CN115604025A (zh) 一种基于pli4da的网络入侵检测方法
Chen et al. Joint Bayesian guided metric learning for end-to-end face verification
CN115098681A (zh) 一种基于有监督对比学习的开放服务意图检测方法
Benchaji et al. Novel learning strategy based on genetic programming for credit card fraud detection in Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant