CN113269647A - 基于图的交易异常关联用户检测方法 - Google Patents
基于图的交易异常关联用户检测方法 Download PDFInfo
- Publication number
- CN113269647A CN113269647A CN202110636289.6A CN202110636289A CN113269647A CN 113269647 A CN113269647 A CN 113269647A CN 202110636289 A CN202110636289 A CN 202110636289A CN 113269647 A CN113269647 A CN 113269647A
- Authority
- CN
- China
- Prior art keywords
- node
- graph
- vector
- nodes
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 113
- 238000000034 method Methods 0.000 claims abstract description 105
- 230000002159 abnormal effect Effects 0.000 claims abstract description 70
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 25
- 238000005295 random walk Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 239000000047 product Substances 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 239000012467 final product Substances 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 2
- 230000006872 improvement Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 15
- 230000006399 behavior Effects 0.000 description 5
- 230000004931 aggregating effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000013604 expression vector Substances 0.000 description 3
- 230000002547 anomalous effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于图的交易数据异常关联用户检测方法,首先根据大宗商品交易数据建立网络结构作为算法输入,然后使用改进的图积网络提取节点的特征向量,使用异常标签得到损失函数对改进的图卷积网络进行训练,并采用训练后的改进的图卷积网络以无监督方法提取节点特征向量,最后使用根据金融交易数据建立的网络结构中各节点的连接关系信息改进得到的节点特征向量,同时学习节点聚类,最终得到每个节点所属的簇和优化节点向量表示。本发明使用通过使用真实交易数据集,证明提出的方法可以有效的进行帐户特征的提取和异常关联帐户的检出。
Description
技术领域
本发明涉及的是一种基于图的涉及多用户的交易异常检测的技术,具体是一种利用图结构和节点相似度检测异常关联帐户的方法。
背景技术
随着互联网技术的发展,大宗商品交易更多地依赖交易平台网上进行。现有的检测操纵市场价格极度依赖专家参与,需要大量人力,应用成本非常高,效率也很低下。虽然目前有常用的基于机器学习进行交易异常检测的方法,比如通过机器学习模型或者根据预先设定的规则来提取异常行为的特征,通过异常行为特征与正常行为特征的不同来区分。或者采用数据挖掘的方式,基于历史数据提取特征,建立的分类模型。这些方法一般只能应对单个异常用户的检测,无法应对多个异常用户联合构成恶意团伙进行恶意行为的问题。
发明内容
本发明针对现有技术的缺陷,提出一种基于图的交易异常关联用户检测方法,旨在根据大宗商品交易数据创建关系网络,根据关系网络中的节点信息、边信息、网络结构,通过图嵌入方法获得节点为向量,再对节点的表示向量进行聚合,从而发现具有相似异常行为的节点。
本发明通过以下技术方案实现的:
本发明涉及一种基于图的交易异常关联用户检测方法,首先根据大宗商品交易数据建立网络结构作为算法输入,然后使用改进的图积网络提取节点的特征向量,使用异常标签得到损失函数对改进的图卷积网络进行训练,并采用训练后的改进的图卷积网络以无监督方法提取节点特征向量,最后使用根据金融交易数据建立的网络结构中各节点的连接关系信息改进得到的节点特征向量,同时学习节点聚类,最终得到每个节点所属的簇和优化节点向量表示。
所述的网络结构,其构建是以交易账户作为图的节点,帐户之间的交易关系作为边,帐户的具体信息作为节点的属性,交易的具体信息作为边的属性,
所述的图卷积网络通过学习映射,通过该映射图中的节点vi聚合节点vi本身的特征xi与其邻居节点的特征xj(j∈N(vi))生成节点vi的新表示,其中:N(vi)为节点vi的邻居节点的集合。
所述的聚合为:H(k+1)=f(H(k),A)=σ(AH(k)W(k)),其中:k为网络层数,H(k)是指:网络第k层的特征,f(·)是要图卷积网络要学习的映射,A是邻接矩阵,当节点j与节点i连接时,Aij=1,所以节点i的新特征是指:其邻接节点的特征和,Wk是学习权重,维度为Fk-1XFk,而σ(·)是激活函数,比如RELU。
所述的改进的图卷积网络对图卷积网络的聚合过程进行改进,将边上的信息转化为节点的向量表示,具体为:将每个节点i的所有邻居节点的向量和连接节点的边作为集合: 其中:为节点i的邻居节点j节点特征的向量,为节点j和节点i之间连边特征的向量,NI(i)为节点i所有邻居节点的集合。
所述的异常标签是指:每个节点有0/1标签为其是否是恶意节点,标签为0为非恶意,标签为1为恶意。
所述的改进的图卷积网络的训练过程作为二分类问题,使用cross-entropy作为损失函数,用随机梯度下降进行训练,损失函数的梯度为:其中:为损失函数的梯度,VL为节点集合,|VL|为集合VL中的节点个数,yv是节点v的真实标签,是节点v通过改进的图卷积网络的第k层得到的编码,f(·)是要改进的图卷积网络要学习的映射。
所述的无监督方法是指:将具有N和节点的网络的节点属性矩阵F和邻接矩阵A作为输入,使用改进后的图卷积网络作为编码器,编码器根据输入的X和A矩阵计算出每个节点的向量表示:ε(X,A)=H={h1,h2,...,hN},其中:ε为编码器,hi为第i个节点的向量表示,X是N×F的矩阵,为网络的输入属性矩阵,N为节点个数,F为每个节点的属性维度,A是N×N的网络邻接矩阵。
所述的编码器的学习采用的目标函数使得最大化每个节点的局部表示,即hi,与整个图的全局信息内容,即向量s的互信息,使得每个节点的表示就能用一定的全局信息在里面。
所述的整个图的全局信息内容s通过函数R直接映射得到,s=R(ε(X,A)),s∈RF,表示图级别的摘要,其中:R(·)为从所有节点的节点为向量得到全局信息内容s的函数。ε(·)为编码器,即改进的图卷积网络。X是N×F的矩阵,为网络的输入属性矩阵,N为节点个数,F为每个节点的属性维度,A是N×N的网络邻接矩阵。
本发明进一步通过判别器函数D(hi,s)为分配给每个节点的局部表示hi和互信息s这一正样本信息对的概率分数,然后采样负样本,将假图上生成的与全局向量s作为负样本信息对,该判别器具体为二分类网络,其目标为提高正样本的概率分数,降低负样本的概率分数,损失函数其中:N是真实图中节点的个数,M是假图中节点的个数,是真实图中第i个节点的表示向量,是假图中第j个节点的表示向量,为整个图的全局信息内容的向量。
所述的改进节点向量同时学习聚类的方法是指:首先使用DeepWalk算法框架,使用随机游走生成语料集合,语料集合是指:根据大宗商品交易数据构建的网络结构生成的节点序列的集合,然后使用神经网络在语料库上进行训练来获得节点的表示向量。为达到聚类改进节点向量同时学习聚类的目的,修改DeepWalk算法的损失函数,其具体包括:(1)使得采样的序列中同一窗口内的节点的表示向量具有相似的表示以及(2)聚类的目标函数,其目标为最小化节点与最近的聚类中心的距离,即增加簇的内聚度,训练更适合聚类的为向量:L=L1+L2。
所述的DeepWalk算法框架是指:使用随机游走的方法产生图节点的嵌入。随机游走包括:采样、训练skip-gram和计算嵌入。采样是指:通过随机游走的方法对图形进行采样,即对每个节点进行多次随机游走,需要规定随机游走的次数和长度,随机游走的结果为生成一组节点序列。训练skip-gram是指:将随机游走得到节点用独热向量进行为,然后将该独热向量作为skip-gram网络模型的输入,然后将该节点预测相邻节点的概率作为优化目标,对该目标进行最大化。计算嵌入:节点的嵌入是神经网络隐藏层的输出。DeepWalk计算图形中每个节点的嵌入。
所述的skip-gram模型使用长度为2c+1的滑动窗口,该窗口在语料库中滑动,每次滑动时,窗口中包含的2c+1个单词将用于训练模型,窗口中心的单词被认为是已知单词,并且覆盖住中心单词的前c个单词和后c个单词,待预测覆盖的单词,需要使用已知的单词。skip-gram的优化目标为:
由于概率的连乘会导致最终的乘积非常小,因此对式子的每一项进行log处理,具体为:其中:T为得到的所有滑动窗口的中心词个数,wt为第t个滑动窗口的中心词,wt+j为在t+j位置的单词,P(wt+j|wt)为在中心词为wt时,正确预测单词wt+j的概率。单项P(wt+j|wt)具体为:P(c|w;θ)。其中:c为待预测的上下文词,w为中心词,θ为模型参数,即词向量矩阵,矩阵的大小为|V|×n,其中:|V|为词库的大小,n为训练得到词向量维度。
当中心词为w,待预测的背景词为c,则在w已知的前提下预测c的概率为: 其中:uc和vw分别可以作为词c的向量和词w的向量,对这两个向量的内积做softmax运算就得到条件概率,c’为除当前上下文之外词库中的其他词,关系越紧密的词的向量会越近似。
附图说明
图1为本发明流程图;
图2为改进的图卷积网络提取节点特征效果对比图;
图3为无监督方法提取节点特征效果对比图;
图4为使用的聚合方法聚类效果模块度对比图;
图5为使用的聚合方法聚类效果异常簇占比对比图;
图6为使用的聚合方法聚类效果簇内平均异常比例对比图。
具体实施方式
如图1所示,本实施例采用的是PaySim交易数据集,PaySim交易数据集中将帐户标记为异常帐户的情况有三种,一是存在某帐户到另外帐户的大量转账;二是两个帐户之间在时间段内交易次数超过某一阈值;三是某帐户通过帐户将资金转回给自己,满足大宗商品交易过程中的异常帐户是出现大额交易,短时间频繁交易,自买自卖情况的帐户的设定,通过本实施例方法进行异常关联帐户的检出,具体步骤包括:
步骤一,根据原始交易数据构建图:使用PaySim数据集,构建图的方法主要关注帐户之间的交易关系,将每个帐户为节点,每条交易是两个节点之间的连边,节点的属性包括Email、SSN、Phone,边的属性包括交易金额,交易类型。每个节点都有标签isFraud,如果isFraud=0,则为正常节点,如果isFraud=1,则为异常节点。
步骤二,使用改进的图卷积方法获得节点为向量:将步骤一得到的图输入神经网络,使用开源图神经网络计算框架Deep Graph Library(DGL)框架,首先使用dgl.DGLGraph()创建dgl图g存储输入的图,图g中存储节点node和节点特征node_feature,边edge和边特征edge_feature。使用Mini-batch方法和Neighbor Sampling方法进行训练。
所述的Mini-batch方法为对于节点较多的大图,无法一次完全放入显存中进行训练,需要设置多个batch进行训练,每个batch抽取图中一定数量的节点。设batch内需要更新embedding的节点的集合为VB,对于这个节点集合中的所有节点,根据边的信息查找计算这些节点的embedding所需要的所有邻居节点。通过这种方法,在每个batch的训练中,可以将大的网络图转化为小的子图。
所述的Neighbor Sampling方法是指在一些图中,可能存在某些节点的度非常高,这样会导致当batch中有度非常高的节点时,会为这个节点的下层带来很多节点,使得子图的规模非常大,为解决这样的问题,使用邻居采样策略,仅为每个节点采样一定数量的邻居来近似,不使用该节点的所有邻居来更新其embedding。
训练过程是建立batch中更新节点编码需要的所有的邻居节点的子图,并使用采样技术控制子图的节点总数不会过多,然后这一批节点构成的子图和节点的编码可以一起输入到改进的GCN模型中进行训练。
为对比训练结果,在PaySim数据集上分别训练常用的节点嵌入的方法,包括DeepWalk、node2vec和GraphSage,在获得节点编码后接作为分类器神经网络来验证,先训练用于节点嵌入的网络,再用得到节点特征向量和节点的异常标签训练二分类器,通过分类的效果来判断节点嵌入的效果。评判实验结果使用的指标是准确率Accuracy,精度Precision,召回率Recall和F1-score。
如图2所示,使用DeepWalk、node2vec、GraphSage和改进的图卷积方法的准确率Accuracy,精度Precision,召回率Recall和F1-score对比如下:DeepWalk的Accuracy:0.9437;DeepWalk的Precision:0.6627;DeepWalk的Recall:0.5556;DeepWalk的F1-score:0.5776;Node2vec的Accuracy:0.9478;Node2vec的Precision:0.5054;Node2vec的Recall:0.5001;Node2vec的F1-score:0.4872;GraphSage的Accuracy:0.9466;GraphSage的Precision:0.4738;GraphSage的Recall:0.5322;GraphSage的F1-score:0.5013;改进的图卷积方法的Accuracy:0.9647;改进的图卷积方法的Precision:0.8972;改进的图卷积方法的Recall:0.7377;改进的图卷积方法的F1-score:0.7951。
步骤三,使用无监督方法获得节点为向量:使用步骤一中构建的图,同时使用步骤一中的Mini-batch方法和Neighbor Sampling方法进行采样,对每采样得到的子图,施加扰动生成该子图对应的负样本,这里的扰动是指随机打乱节点特征矩阵和并同时修改边特征矩阵,将步骤二中使用的改进的图卷积模型作为编码器,对正负样本分别进行编码,然后设置判别器对正负样本的编码向量进行打分,最终的其目标为得到能尽可能将正负样本区分开的编码器参数。
为对比训练结果,将其与常用的无监督算法DeepWalk算法以及步骤二中的改进后的有监督图卷积算法进行对比,使用编码器结果训练二分类网络,通过二分类的结果来评判编码器的编码结果好坏。评判实验结果使用的指标是准确率Accuracy,精度Precision,召回率Recall和F1-score。
如图3所示,使用DeepWalk算法、步骤二中改进的图卷积算法、步骤三的无监督方法的准确率Accuracy,精度Precision,召回率Recall和F1-score对比如下:DeepWalk的Accuracy:0.9437;DeepWalk的Precision:0.6627;DeepWalk的Recall:0.5556;DeepWalk的F1-score:0.5776;改进的图卷积方法的Accuracy:0.9647;改进的图卷积方法的Precision:0.8972;改进的图卷积方法的Recall:0.7377;改进的图卷积方法的F1-score:0.7951;无监督方法的Accuracy:0.9503;无监督方法的Precision:0.7010;无监督方法的Recall:0.8200;无监督方法的F1-score:0.7553。
步骤四,聚合节点特征向量:首先使用步骤二中的图嵌入方法获得节点的表示向量,然后使用提出的改进节点向量同时学习聚类的方法聚合相似的节点。聚合相似节点的目的是为进行异常团伙的检出,由于数据仅有标签,即是否为异常节点,在聚类之前也无法提前知道聚类的簇数,实际上,可以根据需要指定簇数进行聚类,指定簇数越多,每个簇内的节点数就越少,指定簇数越少,每个簇内的节点数就越多,根据需要检出的异常团伙的规模,可以灵活的调节聚类簇数。
为反映提出的改进节点向量同时学习聚类的方法的效果,与最常用的聚类算法k-means进行对比。指定簇数500、1000、2000、3000、4000、5000、6000、9000分别运行这两种算法,然后对比两种算法的模块度。
如图4所示,使用k~means算法和所述的改进节点向量同时学习聚类的方法在指定簇数为500、1000、2000、3000、4000、5000、6000、9000时的模块度对比如下:当簇数为500时k-means算法模块度:0.825;当簇数为500时改进节点向量同时学习聚类的方法的模块度:0.841;当簇数为1000时k-means算法模块度:0.845;当簇数为1000时改进节点向量同时学习聚类的方法的模块度:0.856;当簇数为2000时k-means算法模块度:0.847;当簇数为2000时改进节点向量同时学习聚类的方法的模块度:0.832;当簇数为3000时k-means算法模块度:0.854;当簇数为3000时改进节点向量同时学习聚类的方法的模块度:0.821;当簇数为4000时k-means算法模块度:0.858;当簇数为4000时改进节点向量同时学习聚类的方法的模块度:0.795;当簇数为5000时k-means算法模块度:0.784;当簇数为5000时改进节点向量同时学习聚类的方法的模块度:0.800;当簇数为6000时k-means算法模块度:0.641;当簇数为6000时改进节点向量同时学习聚类的方法的模块度:0.823;当簇数为7000时k-means算法模块度:0.497;当簇数为7000时改进节点向量同时学习聚类的方法的模块度:0.837;当簇数为8000时k-means算法模块度:0.344;当簇数为8000时改进节点向量同时学习聚类的方法的模块度:0.839;当簇数为9000时k-means算法模块度:0.227;当簇数为9000时改进节点向量同时学习聚类的方法的模块度:0.824。
所述的模块度是对复杂网络划分的一种度量,可用于评估算法对网络的划分程度。模块度的定义如下:上式中,m是连接数,ki是顶点i的度数,kj是顶点j的度数,Ci是顶点i的社区,Cj是顶点j的社区,如果顶点i和顶点j属于同社区,δ(Ci,Cj)=1,否则等于0。模块度的值越接近1,为社区划分的质量越好,可以使用模块度在一定程度上衡量聚类效果的好坏。
为更直观的反映效果,计算在所有的簇中存在有异常节点的簇占比多少,很显然,效果较好的方法,异常节点的簇占比应该更低,因为这意味着异常节点分布的更密集,而不是分散在所有的簇中。
如图5所示,使用k-means算法和所述的改进节点向量同时学习聚类的方法在指定簇数为500、1000、2000、3000、4000、5000、6000、9000时的所有的簇中存在有异常节点的簇占比对比如下:当簇数为500时k-means算法所有的簇中存在有异常节点的簇占比:0.792;当簇数为500时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.004;当簇数为1000时k-means算法所有的簇中存在有异常节点的簇占比:0.76;当簇数为1000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.002;当簇数为2000时k-means算法所有的簇中存在有异常节点的簇占比:0.5945;当簇数为2000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.001;当簇数为3000时k-means算法所有的簇中存在有异常节点的簇占比:0.4796;当簇数为3000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0006;当簇数为4000时k-means算法所有的簇中存在有异常节点的簇占比:0.4083;当簇数为4000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0005;当簇数为5000时k-means算法所有的簇中存在有异常节点的簇占比:0.3308;当簇数为5000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0028;当簇数为6000时k-means算法所有的簇中存在有异常节点的簇占比:0.2757;当簇数为6000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0035;当簇数为7000时k-means算法所有的簇中存在有异常节点的簇占比:0.2363;当簇数为7000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0045;当簇数为8000时k-means算法所有的簇中存在有异常节点的簇占比:0.2068;当簇数为8000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0045;当簇数为9000时k-means算法所有的簇中存在有异常节点的簇占比:0.1838;当簇数为9000时改进节点向量同时学习聚类的方法的所有的簇中存在有异常节点的簇占比:0.0066。
计算在所有存在异常节点的簇中,异常节点的数目占总数目的比例,很显然,这个比例较高,说明检测出的含有异常节点的簇的质量也越高。
如图6所示,使用k-means算法和所述的改进节点向量同时学习聚类的方法在指定簇数为500、1000、2000、3000、4000、5000、6000、9000时的簇内平均异常比例对比如下:当簇数为500时k-means算法簇内平均异常比例:0.1345;当簇数为500时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.2320;当簇数为1000时k-means算法簇内平均异常比例:0.1632;当簇数为1000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.4507;当簇数为2000时k-means算法簇内平均异常比例:0.2406;当簇数为2000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7008;当簇数为3000时k-means算法簇内平均异常比例:0.3296;当簇数为3000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7007;当簇数为4000时k-means算法簇内平均异常比例:0.4104;当簇数为4000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7007;当簇数为5000时k-means算法簇内平均异常比例:0.5103;当簇数为5000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7472;当簇数为6000时k-means算法簇内平均异常比例:0.6243;当簇数为6000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7334;当簇数为7000时k-means算法簇内平均异常比例:0.7266;当簇数为7000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7284;当簇数为8000时k-means算法簇内平均异常比例:0.7105;当簇数为8000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7187;当簇数为9000时k-means算法簇内平均异常比例:0.7676;当簇数为9000时改进节点向量同时学习聚类的方法的簇内平均异常比例:0.7132。
综上所述,与现有技术相比,本方法首先使用改进的图卷积方法获得帐户的特征为,然后使用提出的改进节点向量同时学习聚类的方法在微调帐户特征的同时学习帐户所属的社区可以获得不错的效果,无论是提取的节点特征的效果还是获取聚类的效果都比传统的方法要好,目前将该思路应用到PaySim数据集可以取得较好的效果,自然的,也可以将该方法迁移到别的金融交易数据集上。
上述具体实施例可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施例所限,在其范围内的各个实现方案均受本发明之约束。
Claims (9)
1.一种基于图的交易异常关联用户检测方法,其特征在于,首先根据大宗商品交易数据建立网络结构作为算法输入,然后使用改进的图积网络提取节点的特征向量,使用异常标签得到损失函数对改进的图卷积网络进行训练,并采用训练后的改进的图卷积网络以无监督方法提取节点特征向量,最后使用根据金融交易数据建立的网络结构中各节点的连接关系信息改进得到的节点特征向量,同时学习节点聚类,最终得到每个节点所属的簇和优化节点向量表示;
所述的网络结构,其构建是以交易账户作为图的节点,帐户之间的交易关系作为边,帐户的具体信息作为节点的属性,交易的具体信息作为边的属性。
2.根据权利要求1所述的基于图的交易异常关联用户检测方法,其特征是,所述的图卷积网络通过学习映射,通过该映射图中的节点vi聚合节点vi本身的特征xi与其邻居节点的特征xj(j∈N(vi))生成节点vi的新表示,其中:N(vi)为节点vi的邻居节点的集合;
所述的聚合为:H(k+1)=f(H(k),A)=σ(AH(k)W(k)),其中:k为网络层数,H(k)是指:网络第k层的特征,f(·)是要图卷积网络要学习的映射,A是邻接矩阵,当节点j与节点i连接时,Aij=1,所以节点i的新特征是指:其邻接节点的特征和,Wk是学习权重,维度为Fk-1XFk,而σ(·)是激活函数。
5.根据权利要求1所述的基于图的交易异常关联用户检测方法,其特征是,所述的无监督方法是指:将具有N和节点的网络的节点属性矩阵F和邻接矩阵A作为输入,使用改进后的图卷积网络作为编码器,编码器根据输入的X和A矩阵计算出每个节点的向量表示:ε(X,A)=H={h1,h2,...,hN},其中:ε为编码器,hi为第i个节点的向量表示,X是N×F的矩阵,为网络的输入属性矩阵,N为节点个数,F为每个节点的属性维度,A是N×N的网络邻接矩阵;
所述的编码器的学习采用的目标函数使得最大化每个节点的局部表示,即hi,与整个图的全局信息内容,即向量s的互信息;整个图的全局信息内容s通过函数R直接映射得到,s=R(ε(X,A)),s∈RF,表示图级别的摘要,其中:R(·)为从所有节点的节点为向量得到全局信息内容s的函数,ε(·)为编码器,即改进的图卷积网络,X是N×F的矩阵,为网络的输入属性矩阵,N为节点个数,F为每个节点的属性维度,A是N×N的网络邻接矩阵。
7.根据权利要求1所述的基于图的交易异常关联用户检测方法,其特征是,所述的改进节点向量同时学习聚类的方法是指:首先使用DeepWalk算法框架,使用随机游走生成语料集合,语料集合是指:根据大宗商品交易数据构建的网络结构生成的节点序列的集合,然后使用神经网络在语料库上进行训练来获得节点的表示向量,为达到聚类改进节点向量同时学习聚类的目的,修改DeepWalk算法的损失函数,其具体包括:(1)使得采样的序列中同一窗口内的节点的表示向量具有相似的表示以及(2)聚类的目标函数,其目标为最小化节点与最近的聚类中心的距离,即增加簇的内聚度,训练更适合聚类的为向量:L=L1+L2;
所述的DeepWalk算法框架是指:使用随机游走的方法产生图节点的嵌入,随机游走包括:采样、训练skip-gram和计算嵌入;
所述的采样是指:通过随机游走的方法对图形进行采样,即对每个节点进行多次随机游走,需要规定随机游走的次数和长度,随机游走的结果为生成一组节点序列;
所述的训练skip-gram是指:将随机游走得到节点用独热向量进行为,然后将该独热向量作为skip-gram网络模型的输入,然后将该节点预测相邻节点的概率作为优化目标,对该目标进行最大化;
所述的计算嵌入是指:节点的嵌入是神经网络隐藏层的输出,DeepWalk计算图形中每个节点的嵌入;
8.根据权利要求7所述的基于图的交易异常关联用户检测方法,其特征是,由于概率的连乘会导致最终的乘积非常小,因此对式子的每一项进行log处理,具体为:其中:T为得到的所有滑动窗口的中心词个数,wt为第t个滑动窗口的中心词,wt+j为在t+j位置的单词,P(wt+j|wt)为在中心词为wt时,正确预测单词wt+j的概率,单项P(wt+j|wt)具体为:P(c|w;θ),其中:c为待预测的上下文词,w为中心词,θ为模型参数,即词向量矩阵,矩阵的大小为|V|×n,|V|为词库的大小,n为训练得到词向量维度;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110636289.6A CN113269647B (zh) | 2021-06-08 | 2021-06-08 | 基于图的交易异常关联用户检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110636289.6A CN113269647B (zh) | 2021-06-08 | 2021-06-08 | 基于图的交易异常关联用户检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113269647A true CN113269647A (zh) | 2021-08-17 |
CN113269647B CN113269647B (zh) | 2022-11-18 |
Family
ID=77234667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110636289.6A Active CN113269647B (zh) | 2021-06-08 | 2021-06-08 | 基于图的交易异常关联用户检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269647B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113469816A (zh) * | 2021-09-03 | 2021-10-01 | 浙江中科华知科技股份有限公司 | 基于多组学技术的数字货币识别方法、系统和存储介质 |
CN113506179A (zh) * | 2021-09-13 | 2021-10-15 | 北京大学深圳研究生院 | 数字货币交易中异常实体的检测方法、存储介质 |
CN113781213A (zh) * | 2021-08-20 | 2021-12-10 | 上海华鑫股份有限公司 | 一种基于图和层次化transformer的智能交易异常检测方法 |
CN114722937A (zh) * | 2022-04-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置、电子设备和存储介质 |
CN114817757A (zh) * | 2022-04-02 | 2022-07-29 | 广州大学 | 基于图卷积网络的跨社交网络虚拟身份关联方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368074A (zh) * | 2020-02-24 | 2020-07-03 | 西安电子科技大学 | 一种基于网络结构和文本信息的链路预测方法 |
CN111476261A (zh) * | 2019-12-16 | 2020-07-31 | 天津工业大学 | 一种社区增强的图卷积神经网络方法 |
CN112163504A (zh) * | 2020-09-24 | 2021-01-01 | 杭州电子科技大学 | 基于结构图卷积网络的遥感图像小样本舰船目标识别方法 |
CN112347362A (zh) * | 2020-11-16 | 2021-02-09 | 安徽农业大学 | 一种基于图自编码器的个性化推荐方法 |
-
2021
- 2021-06-08 CN CN202110636289.6A patent/CN113269647B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476261A (zh) * | 2019-12-16 | 2020-07-31 | 天津工业大学 | 一种社区增强的图卷积神经网络方法 |
CN111368074A (zh) * | 2020-02-24 | 2020-07-03 | 西安电子科技大学 | 一种基于网络结构和文本信息的链路预测方法 |
CN112163504A (zh) * | 2020-09-24 | 2021-01-01 | 杭州电子科技大学 | 基于结构图卷积网络的遥感图像小样本舰船目标识别方法 |
CN112347362A (zh) * | 2020-11-16 | 2021-02-09 | 安徽农业大学 | 一种基于图自编码器的个性化推荐方法 |
Non-Patent Citations (1)
Title |
---|
周超: "基于图的网上交易数据异常检测框架的设计与实现", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781213A (zh) * | 2021-08-20 | 2021-12-10 | 上海华鑫股份有限公司 | 一种基于图和层次化transformer的智能交易异常检测方法 |
CN113781213B (zh) * | 2021-08-20 | 2023-09-29 | 上海华鑫股份有限公司 | 一种基于图和层次化transformer的智能交易异常检测方法 |
CN113469816A (zh) * | 2021-09-03 | 2021-10-01 | 浙江中科华知科技股份有限公司 | 基于多组学技术的数字货币识别方法、系统和存储介质 |
CN113506179A (zh) * | 2021-09-13 | 2021-10-15 | 北京大学深圳研究生院 | 数字货币交易中异常实体的检测方法、存储介质 |
CN114817757A (zh) * | 2022-04-02 | 2022-07-29 | 广州大学 | 基于图卷积网络的跨社交网络虚拟身份关联方法 |
CN114722937A (zh) * | 2022-04-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113269647B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113269647B (zh) | 基于图的交易异常关联用户检测方法 | |
CN111126482B (zh) | 一种基于多分类器级联模型的遥感影像自动分类方法 | |
CN111814871A (zh) | 一种基于可靠权重最优传输的图像分类方法 | |
CN109961089A (zh) | 基于度量学习和元学习的小样本和零样本图像分类方法 | |
CN113297936B (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN110866530A (zh) | 一种字符图像识别方法、装置及电子设备 | |
CN115348074B (zh) | 深度时空混合的云数据中心网络流量实时检测方法 | |
CN107301380A (zh) | 一种用于视频监控场景中行人重识别的方法 | |
CN114692732B (zh) | 一种在线标签更新的方法、系统、装置及存储介质 | |
CN111881722B (zh) | 一种跨年龄人脸识别方法、系统、装置及存储介质 | |
CN111583031A (zh) | 一种基于集成学习的申请评分卡模型建立方法 | |
US20230206134A1 (en) | Rank Distillation for Training Supervised Machine Learning Models | |
Siddalingappa et al. | Anomaly detection on medical images using autoencoder and convolutional neural network | |
CN111415289A (zh) | 面向不平衡jpeg图像隐写检测的自适应代价敏感特征学习方法 | |
CN111144453A (zh) | 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备 | |
CN117153268A (zh) | 一种细胞类别确定方法及系统 | |
Bii et al. | Adaptive boosting in ensembles for outlier detection: Base learner selection and fusion via local domain competence | |
CN111581467B (zh) | 基于子空间表示和全局消歧方法的偏标记学习方法 | |
CN117633627A (zh) | 一种基于证据不确定性评估的深度学习未知网络流量分类方法及系统 | |
CN115392474B (zh) | 一种基于迭代优化的局部感知图表示学习方法 | |
Loukili et al. | Enhancing Customer Retention through Deep Learning and Imbalanced Data Techniques | |
Xiong et al. | L-RBF: A customer churn prediction model based on lasso+ RBF | |
Zhou et al. | Iterative deep subspace clustering | |
CN115170334A (zh) | 一种反洗钱模型的训练方法及装置 | |
CN114417938A (zh) | 一种利用知识向量嵌入的电磁目标分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |