CN116738201B - 基于图对比学习的非法账户识别方法 - Google Patents
基于图对比学习的非法账户识别方法 Download PDFInfo
- Publication number
- CN116738201B CN116738201B CN202310129147.XA CN202310129147A CN116738201B CN 116738201 B CN116738201 B CN 116738201B CN 202310129147 A CN202310129147 A CN 202310129147A CN 116738201 B CN116738201 B CN 116738201B
- Authority
- CN
- China
- Prior art keywords
- node
- transaction
- graph
- nodes
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000001914 filtration Methods 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 238000005096 rolling process Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 241000588653 Neisseria Species 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005295 random walk Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供基于图对比学习的非法账户识别方法,交易数据预处理,将交易数据构建为交易网络图;对账户历史交易特征进行提取;通过广度优先遍历抽样得到每个账户节点子图,基于账户余额,交易大小,交易频率过滤邻居节点,保留重要邻居,生成对比样本;对比学习,使用生成的对比样本和原样本进行对比学习,训练模型得到包含局部结构和节点特征的嵌入表示;分类识别,将得到的节点嵌入进行全连接层处理,通过多分类进行非法账户的分类识别。克服了传统方法不能有效地捕获图的固有局部结构特征、类不平衡问题。对非法账户识别更具有针对性、准确性和有效性。
Description
技术领域
本发明属于区块链技术领域,特别是涉及一种基于图对比学习的非法账户识别方法。
背景技术
现有的非法账户识别大致可以分为三类:(1)基于特征工程的方法,通过人工分析不同账户的交易特征,并构建统计交易时间戳的各种特征来表示账户的交易历史,然后作为机器学习分类器的输入,最终使用决策树、随机森林和K近邻(KNN)来识别非法账户。(2)基于随机游走图表示学习方法,Node2vec和DeepWalk等算法被设计用来获取图的结构信息。trans2vec的图随机游走方法通过考虑交易金额和时间戳进行有偏向的采样策略,并使用SVM分类器对非法账户进行分类。然而这些基于随机游走的算法不能利用节点的特征信息,此外,这些方法都是基于低维结构的表示学习方法。它们利用邻居节点的相似信息来训练表示向量,通过这种方法只能提取局部信息。(3)基于图神经网络的方法,FA-GNN通过保留重要邻居节点的信息,并利用高阶信息增强节点特征来对非法账户识别。MCGC使用图神经网络的多个特征提取通道来提取目标地址的交易模式的特征。TTAGN使用时间性边缘表示法和edge2node模块来有效地识别非法账户行为。现有的图神经网络方法只使用节点特征,不能利用图的结构信息。
综上现有技术均存在一定的局限性。没有综合利用结构特征和节点特征对非法账户进行识别,其次,均没有考虑账户识别中样本极不平衡问题,采取简单的去除一些多数类中的样本使得正例、反例数目接近,然后再进行学习。因此会造成一些信息缺失,即将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息。为了营造良好的数字区块链安全环境,识别非法账户已经成为一个紧迫和关键的问题。
发明内容
本发明实施例的目的在于提供一种基于图对比学习的非法账户识别方法,构建交易图,结合账户历史交易特征和网络拓扑图结构特征,自适应生成对比样本以克服样本不平衡问题,提高非法账户识别的准确性。
为解决上述技术问题,本发明所采用的技术方案是,
S1、交易数据预处理,将交易数据构建为交易网络图;
S2、对账户历史交易特征进行提取;
S3、通过广度优先遍历抽样得到每个账户节点子图,基于账户余额,交易大小,交易频率过滤邻居节点,生成对比样本;
S4、对比学习,构建深度图神经网络GCN,使用生成的对比样本和原样本进行对比学习,训练模型得到包含局部结构和节点特征的嵌入表示;
S5、分类识别,将得到的节点嵌入进行全连接层处理,通过多分类进行非法账户的分类识别。
进一步的,S1交易数据预处理,构建交易网络图的具体步骤如下:
S11、通过区块链公认的官方网站提供的API获取非法账户和正常账户的交易数据,对交易数据进行预处理,去除交易量小于3的账户,过滤涉及智能合约地址的交易记录;
S12、将预处理后的交易数据构建为交易网络图,每个账户代表一个节点,节点中的每条边代表一条交易记录,交易网络图G=(V,E),其中,V表示节点集,E是边集。
进一步的,S2中所述账户历史交易特征包括账户余额、交易次数、交易金额、交易数均值和总和。
进一步的,S3过滤邻居节点的具体方法为通过度量邻居节点在网络中的重要性,将每个节点的邻居搜索限制在过滤后得到的邻居集合,邻居重要性从账户余额,交易大小和交易频率三个方面来定义,用集合函数F={B,A,T}表示,B表示账户余额,A表示交易大小,T表示交易频率,邻居节点重要值计算如下:
其中,ImpN表示邻居节点的重要性,对目标节点的每一个邻居节点计算ImpN值,然后,给定一个邻居保留率β∈[0,1]×100,基于ImpN值对邻居节点进行降序排序,保留前β%个重要邻居。
进一步的,根据保留的邻居节点生成对比样本的具体过程为:
S31,节点生成,根据邻居节点插值生成对比样本节点,生成节点公式如下:
其中hj∈R1×F是中心节点i的邻域节点的表示;R1×F为由实数组成的特征矩阵,F为矩阵维度; 是图中节点i的邻域;/>是生成对比样本子图结点的表示;aj是学习到的邻域节点j和中心节点i之间的关系权重;关系权重aj定义如下:
其中θ(hi,hj)表示中心节点i和邻域节点j之间的关系;θ(hi,hj)定义为:
θ(hi,hj)=LeakyReLU(Wθ[Wφhi‖Wφhj])
其中,LeakyReLU是激活函数(负输入斜率0.2),Wθ∈R1×2F和Wφ∈RF×F是待学习的权重矩阵,R1×2F和RF×F分别表示由实数组成的1×2F维和F×F维的权重矩阵,‖代表特征连接;
S32,边生成,基于插值节点的特征,生成插值节点之间的边;对于子图中的节点sj和sj,si,sj=1,2,3,...,k,k是子图节点的数目,在子图的节点si和sj之间生成的边定义如下:
其中是生成子图的邻接矩阵,/>是对比样本的节点si的生成特征,/>是对比样本的节点sj的生成特征;/>是余弦相似度计算函数,定义如下:
其中,为/>的转置矩阵,最后将生成的具有相同中心的子图作为正样本,不同中心的子图作为负样本。
进一步的,S4中对比学习包括以下子步骤:
S41、使用图神经网络对图进行编码,图卷积网络聚合特征;
S411、获取交易网络图的邻接矩阵;
S412、将所述邻接矩阵输入到2层的图卷积网络学习层中进行邻居间的特征传播以进行特征聚合,每一层结束后在外侧进行非线性激活;
S42、节点对比学习,将生成的样本作为正样本参与训练,使用瓦瑟斯坦距离计算两个子图中所有节点对之间的差异,瓦瑟斯坦距离公式定义如下:
u,v分别表示两个子图的离散分布,其中u={u1,u2,...un}和v={v1,v2,...vm},n和m为子图节点的数量;π(u,v)表示两个子图节点之间的所有联合分布;c(h1i,h2j)表示子图一中的节点i和子图二中的节点j之间的传输成本,所述h1i,h2j表示节点特征;
基于瓦瑟斯坦距离,节点对比损失定义为:
其中N是采样子图的数目,M是每个子图的负样本的数目,τ是温度参数;(si,sp)表示正样本对,(si,snj)表示负样本对,Dw(.,.)表示计算样本对之间的瓦瑟斯坦距离;
S43、边对比学习,利用Gromov-Wasserstein距离捕捉子图的边之间的相似性,Gromov-Wasserstein距离定义如下:
其中π(u,v)表示所有联合分布,矩阵T表示两个子图之间的差异,Tij表示从ui移动到vj的质量,Ti'j'表示生成的对比子图中ui移动到vj的质量, 是用于测量两个子图之间的边缘差异的代价函数;c()表示子图中节点之间的距离;
给定采样子图的邻接矩阵,对于采样子图的节点s1和s2,距离c(hs1,hs2)定义为:
c(hs1,hs2)=exp(-As(s1,s2)/τ)
其中,As(s1,s2)表示采样子图的节点s1和节点s2之间的连接关系;
基于Gromov-Wasserstein距离,边对比损失定义为:
Dgw(.,.)表示计算样本对之间的Gromov-Wasserstein距离;
最后,得到最终损失函数其定义如下:
其中λ是控制不同损失函数重要性的超参数,使用瓦瑟斯坦距离挖掘基于子图节点特征的对比信息,使用Gromov-Wasserstein距离挖掘基于子图边的对比信息。
本发明的有益效果:首先通过邻居过滤保留重要节点,然后自适应生成的样本来代替基于扰动的样本,通过将学习到的注意力权重分配给邻域节点,可以自适应地利用图的内在几何结构,生成更有效的对比样本、克服样本极不平衡问题。
本发明通过节点对比学习和边对比学习,结合账户历史交易特征和网络拓扑图结构特征,挖掘更多有效的交易网络信息来提高非法账户识别性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实例中非法账户识别的流程示意图。
图2为本发明实例中对比样本生成示意图。
图3为本发明实例中系统框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种基于图对比学习的非法账户识别方法,所述的方法包括
以下步骤:
S1,交易数据预处理,将交易数据构建为交易网络图;
在实际应用中,所述步骤S1之前还包括通过区块链公认的官方网站和学术平台获取非法账户和正常账户的交易数据。
对交易数据进行预处理,包含以下子步骤:
S11,对获取到的数据进行清洗,所述清洗包含:(1)去除交易量小于3的账户,交易量过小的账户不利于模型学习。(2)过滤涉及智能合约地址的交易记录,智能合约往往逻辑复杂。
S12,将清洗后的交易数据构建为交易网络图,每个账户代表一个节点,节点中的每条边代表一条交易记录,交易网络G=(V,E),其中,V表示节点集,E是边集。
本发明中采用的真实交易数据是一个从官方网站Etherscan.io中收集的交易图,交易图的描述如下:交易图包含1,402,220个节点和2,815,028条边。在收集的节点中,816个被标记为非法账户,非法账户和正常账户比约为1:1,700,存在极大的类别不平衡情况。
步骤S2,对账户历史交易特征进行提取;
对交易网络图中的每个账户提取历史交易特征,所述历史交易特征包含账户余额、出方向和入方向上的交易次数、交易金额、交易数均值和总和等。对获取提取到的历史交易特征进行最大最小归一化处理,使用线性化的方法转换到[0,1]的范围,归一化公式如下:
其中xmax为样本数据的最大值,xmin为样本数据的最小值。
步骤S3,通过广度优先遍历抽样得到每个账户节点子图,基于账户余额,交易大小,交易频率过滤邻居节点,生成对比样本;
图2为本发明所提供的对比样本生成示意图。如图2所示,从左到右详细过程包括以下步骤:
S31、通过广度优先遍历采样得到每个目标账户节点的k阶子图,在实际应用中,k等于2。基于账户余额,交易大小,交易频率过滤邻居节点,保留重要邻居节点便于模型学习,用集合函数F={B,A,T}表示,B表示账户余额,A表示交易大小,T表示交易频率,过滤邻居节点公式如下:
对每一个邻居节点v计算N(v)值,给定一个邻居保留率λ∈[0,1],保留topλN(v)个重要邻居。基于保留的邻居节点,采用自适应方法生成对比样本,根据邻居节点插值生成对比样本节点,生成节点公式如下:
其中hj∈RF是中心节点i的邻域节点的表示。 是图中节点i的邻域。是生成对比样本子图结点的表示。aj是学习到的邻域节点j和中心节点i之间的关系权重。关系权重aj定义如下:/>
其中θ(hi,hj)表示中心节点i和邻域节点j之间的关系。θ(hi,hj)定义为:
θ(hi,hj)=LeakyReLU(Wθ[Wφhi‖Wφhj])
其中,LeakyReLU是激活函数(负输入斜率0.2),Wθ∈R1×2F和Wφ∈RF×F是待学习的权重矩阵,‖代表特征连接。
S32、边生成,基于插值节点的特征,生成插值节点之间的边。对于子图中的节点si和sj,si,sj=1,2,3,...,j,j是子图节点的数目,在子图的节点si和sj之间生成的边定义如下:
其中是生成子图的邻接矩阵,/>是对比样本的节点si的生成特征。/>是余弦相似度计算函数,定义如下:
使用自适应生成的样本来代替基于扰动的样本。与基于扰动的方法随机丢弃图的信息不同,本方法更好的保持图的完整性。通过将学习到的注意力权重分配给邻域节点,可以自适应地利用图的内在几何结构,生成更有效的对比样本。此外,由于图中相邻节点之间的相似性是一种固有属性,因此中心节点与其邻域之间存在很强的相关性。因此,由邻域插值生成的子图本质上与原始子图相似,故将生成的子图作为正样本。
步骤S4,对比学习,构建深度图神经网络GCN,使用生成的对比样本和原样本进行对比学习,训练模型得到包含局部结构和节点特征的嵌入表示。
图3为本发明实例中系统框架图,如图3中图对比学习模块所示,使用自适应方法生成对比样本,具有相同中心节点的子图作为正样本,具有不同中心节点的子图作为负样本。
使用图神经网络对交易网络图进行编码,图卷积网络通过消息传递机制聚合邻居特征,所述图卷积网络处理包括以下子步骤:
S41、获取交易网络图的邻接矩阵;将所述邻接矩阵输入到2层的图卷积网络学习层中进行邻居间的特征传播以进行特征聚合,每一层结束后在外侧进行非线性激活。
S42、节点对比学习,将生成的样本作为正样本参与训练,使用瓦瑟斯坦距离可以通过计算两个子图中所有节点对之间的差异。所述瓦瑟斯坦距离被用来度量子图节点之间的相似性。瓦瑟斯坦距离公式定义如下:
u,v分别表示两个子图的离散分布,其中u={u1,u2,...un}和v={v1,v2,...vm},n和m为子图节点的数量。π(u,v)表示两个子图节点之间的所有联合分布。/>表示子图1中的节点i和子图2中的节点j之间的传输成本,h1i,h2j表示节点特征。
基于瓦瑟斯坦距离,节点对比损失定义为:
其中N是采样子图的数目,M是每个子图的负样本的数目,τ是温度参数。(si,sp)表示正样本对,(si,snj)表示负样本对。瓦瑟斯坦距离能够利用节点间的相似信息,更有效地区分对比样本。因此,利用基于瓦瑟斯坦距离的对比损失,可以最大化正子图上节点间的相似度,最小化负子图上节点间的相似度。
S43、边对比学习,Gromov-Wasserstein距离可以测量每个子图中的节点对与相应子图中的节点对之间的距离。因此,Gromov-Wasserstein距离可以用来捕捉子图的边之间的相似性,Gromov-Wasserstein距离定义如下:
其中π(u,v)表示所有联合分布,矩阵T表示两个子图之间的差异,Tij表示从ui移动到vj的质量,是用于测量两个子图之间的边缘差异的代价函数。c()表示子图中节点之间的距离。
给定采样子图的邻接矩阵,对于采样子图的节点s1和s2,距离c(hs1,hs2)定义为:
c(hs1,hs2)=exp(-As(s1,s2)/τ)
其中,As(s1,s2)表示采样子图的节点s1和节点s2之间的连接关系。
基于Gromov-Wasserstein距离,边对比损失定义为:
其中N是采样子图的数目,M是每个子图的负样本的数目,τ是温度参数。(si,sp)表示正样本对,(si,snj)表示负样本对。基于Gromov-Wasserstein距离的对比度损失可以最大化正子图的边之间的相似度,最小化负子图的边之间的相似度,从而捕捉子图之间的几何差异。
最后,得到最终损失函数其定义如下:
其中λ是控制不同损失函数重要性的超参数,使用瓦瑟斯坦距离挖掘基于子图节点特征的对比信息,使用Gromov-Wasserstein距离挖掘基于子图边的对比信息。
步骤S5、分类识别,将得到的节点嵌入进行全连接层处理,通过多分类进行非法账户的分类识别。
对于输入的图经过图神经网络得到每个节点,即每个账户的特征表示,将特征进行全连接层处理,得到每个账户所属类别的概率。通过模型在精确率即Precision,召回率即Recall,F1值三个方面的表现来评价模型在测试集中识别出非法账户的识别能力。
本发明的基于图对比学习的非法账户识别方法,不同于现有的模型,本发明首先综合利用结构特征和节点特征对非法账户进行识别;其次,传统方法采取简单的去除一些多数类中的样本使得正例、反例数目接近来解决样本不平衡问题,本发明提出使用自适应生成对比样本以克服样本极不平衡问题,充分利用已有样本的信息,且相比传统的基于对边和节点删除的方法来生成对比样本有更好的效果。
实施例:
为了进一步验证本实例所述的基于图对比学习的非法账户识别方法的效果,通过使真实交易网络数据集进行验证,使用的交易图数据集描述如下:交易图包含1,402,220个节点和2,815,028条边。在收集的节点中,816个被标记为非法账户,非法账户和正常账户比约为1:1,700。实验结果数据如表1所示。精确率表示所有预测为非法账户的样本中真正的非法账户所占的比例;召回率表示正确预测为非法账户的占全部实际为非法账户的比例;F1值为精确率和召回率加权调和平均值。
表1不同模型下的精确率、召回率、F1值
模型 | 精确率(Precision) | 召回率(Recall) | F1值 |
GCN | 47.9% | 52.9% | 52.9% |
SGC | 76.9% | 74.9% | 79.9% |
GraphSAGE | 79.5% | 80.8% | 78.9% |
本发明 | 84.35% | 78.95% | 81.56% |
GCN是第一个通过谱图卷积的局部一阶近似实现的图卷积网络。隐藏层的表示是通过编码局部图结构以及结点特征来进行。SGC是GCN的一种简化,它通过消除非线性和压缩连续层之间的权重矩阵来减少不必要的复杂度和冗余计算。GraphSAGE是一种基于邻域信息采样和聚合的归纳GNN方法。它引入了一组聚合器函数,例如均值和LSTM。通过实验对比,本发明的非法账户分类效果最优。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (3)
1.基于图对比学习的非法账户识别方法,其特征在于,包括以下步骤:
S1、交易数据预处理,将交易数据构建为交易网络图;
S2、对账户历史交易特征进行提取;
S3、通过广度优先遍历抽样得到每个账户节点子图,基于账户余额、交易大小、交易频率过滤邻居节点,生成对比样本;
S4、对比学习,构建深度图卷积网络GCN,使用生成的对比样本和原样本进行对比学习,训练模型得到包含局部结构和节点特征的嵌入表示;
S5、分类识别,将得到的节点嵌入进行全连接层处理,通过多分类进行非法账户的分类识别;
所述S3过滤邻居节点的具体方法为通过度量邻居节点在网络中的重要性,将每个节点的邻居搜索限制在过滤后得到的邻居集合,邻居重要性从账户余额、交易大小和交易频率三个方面来定义,用集合函数F={B,A,T}表示,B表示账户余额,A表示交易大小,T表示交易频率,邻居节点的重要性值计算如下:
其中,ImpN表示邻居节点的重要性,对目标节点的每一个邻居节点计算ImpN值,然后,给定一个邻居保留率β∈[0,1]×100,基于ImpN值对邻居节点进行降序排序,保留前β%个重要邻居;
所述S3中生成对比样本包括下述处理过程:
S31,节点生成,根据邻居节点插值生成对比样本节点,生成节点公式如下:
其中hj∈R1×F是中心节点i的邻域节点的表示;R1×F为由实数组成的特征矩阵,F为矩阵维度; 是图中节点i的邻域;/>是生成对比样本子图结点的表示;aj是学习到的邻域节点j和中心节点i之间的关系权重;关系权重aj定义如下:
其中θ(hi,hj)表示中心节点i和邻域节点j之间的关系;θ(hi,hj)定义为:
θ(hi,hj)=LeakyReLU(Wθ[Wφhi‖Wφhj])
其中,LeakyReLU是激活函数,负输入斜率0.2,Wθ∈R1×2F和Wφ∈RF×F是待学习的权重矩阵,R1×2F和RF×F分别表示由实数组成的1×2F维和F×F维的权重矩阵,‖代表特征连接;
S32,边生成,基于插值节点的特征,生成插值节点之间的边;对于子图中的节点si和sj,si,sj=1,2,3,...,k,k是子图节点的数目,在子图的节点si和sj之间生成的边定义如下:
其中是生成子图的邻接矩阵,/>是对比样本的节点si的生成特征,/>是对比样本的节点sj的生成特征;/>是余弦相似度计算函数,定义如下:
其中,为/>的转置矩阵,最后将生成的具有相同中心的子图作为正样本,不同中心的子图作为负样本;
所述S4对比学习包括以下子步骤:
S41,使用图神经网络对图进行编码,图卷积网络聚合特征,所述图卷积网络处理包括以下子步骤:
S411,获取交易网络图的邻接矩阵;
S412,将所述邻接矩阵输入到2层的图卷积网络学习层中进行邻居间的特征传播以进行特征聚合,每一层结束后在外侧进行非线性激活;
S42,节点对比学习,将生成的样本作为正样本参与训练,使用瓦瑟斯坦距离计算两个子图中所有节点对之间的差异,瓦瑟斯坦距离公式定义如下:
u,v分别表示两个子图的离散分布,其中u={u1,u2,...un}和v={v1,v2,...vm},n和m为子图节点的数量;π(u,v)表示两个子图节点之间的所有联合分布;c(h1i,h2j)表示第一子图中的节点i和第二子图中的节点j之间的传输成本,所述h1i,h2j表示节点特征;
基于瓦瑟斯坦距离,节点对比损失定义为:
其中N是采样子图的数目,M是每个子图的负样本的数目,τ是温度参数;(si,sp)表示正样本对,(si,snj)表示负样本对,Dw(.,.)表示计算样本对之间的瓦瑟斯坦距离;
S43,边对比学习,利用Gromov-Wasserstein距离捕捉子图的边之间的相似性,Gromov-Wasserstein距离定义如下:
其中π(u,v)表示所有联合分布,矩阵T表示两个子图之间的差异,Tij表示从ui移动到vj的质量,Ti'j'表示生成的对比子图中ui移动到vj的质量, 是用于测量两个子图之间的边缘差异的代价函数;c()表示子图中节点之间的距离;
给定采样子图的邻接矩阵,对于采样子图的节点s1和s2,距离c(hs1,hs2)定义为:
c(hs1,hs2)=exp(-As(s1,s2)/τ)
其中,As(s1,s2)表示采样子图的节点s1和节点s2之间的连接关系;
基于Gromov-Wasserstein距离,边对比损失定义为:
Dgw(.,.)表示计算样本对之间的Gromov-Wasserstein距离;
最后,得到最终损失函数其定义如下:
其中λ是控制不同损失函数重要性的超参数,使用瓦瑟斯坦距离挖掘基于子图节点特征的对比信息,使用Gromov-Wasserstein距离挖掘基于子图边的对比信息。
2.根据权利要求1所述的基于图对比学习的非法账户识别方法,其特征在于,所述S1的具体步骤如下:
S11、通过区块链公有链网站提供的API获取非法账户和正常账户的交易数据,对交易数据进行预处理,去除交易量小于3的账户,过滤涉及智能合约地址的交易记录;
S12、将预处理后的交易数据构建为交易网络图,每个账户代表一个节点,节点中的每条边代表一条交易记录,交易网络图G=(V,E),其中,V表示节点集,E是边集。
3.根据权利要求1所述的基于图对比学习的非法账户识别方法,其特征在于,所述S2中历史交易特征包含账户余额、交易次数、交易金额、交易数均值和总和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310129147.XA CN116738201B (zh) | 2023-02-17 | 2023-02-17 | 基于图对比学习的非法账户识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310129147.XA CN116738201B (zh) | 2023-02-17 | 2023-02-17 | 基于图对比学习的非法账户识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116738201A CN116738201A (zh) | 2023-09-12 |
CN116738201B true CN116738201B (zh) | 2024-01-16 |
Family
ID=87908540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310129147.XA Active CN116738201B (zh) | 2023-02-17 | 2023-02-17 | 基于图对比学习的非法账户识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116738201B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717828A (zh) * | 2019-09-09 | 2020-01-21 | 中国科学院计算技术研究所 | 一种基于频繁交易模式的异常账户检测方法及系统 |
CN113190688A (zh) * | 2021-05-08 | 2021-07-30 | 中国人民解放军国防科技大学 | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 |
CN113240524A (zh) * | 2021-05-10 | 2021-08-10 | 深圳前海微众银行股份有限公司 | 联邦学习系统中账户的异常检测方法、装置及电子设备 |
CN113361606A (zh) * | 2021-06-07 | 2021-09-07 | 齐鲁工业大学 | 深层图注意力对抗变分自动编码器训练方法及系统 |
CN113935738A (zh) * | 2020-06-29 | 2022-01-14 | 腾讯科技(深圳)有限公司 | 交易数据处理方法、装置、存储介质及设备 |
CN114372505A (zh) * | 2021-12-09 | 2022-04-19 | 青岛智能产业技术研究院 | 一种无监督网络对齐方法和系统 |
CN114782051A (zh) * | 2022-05-06 | 2022-07-22 | 东北大学 | 基于多特征学习的以太坊钓鱼诈骗账户检测装置及方法 |
CN114998005A (zh) * | 2022-04-24 | 2022-09-02 | 北京理工大学 | 一种基于联邦图神经网络技术的比特币异常交易识别方法 |
CN115378629A (zh) * | 2022-05-13 | 2022-11-22 | 北京邮电大学 | 基于图神经网络的以太坊网络异常检测方法、系统和存储介质 |
CN115618008A (zh) * | 2022-09-15 | 2023-01-17 | 招联消费金融有限公司 | 账户状态模型构建方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210073642A1 (en) * | 2019-08-23 | 2021-03-11 | Benjamin Forrest Dribus | Sparse Local Connected Artificial Neural Network Architectures Involving Hybrid Local/Nonlocal Structure |
-
2023
- 2023-02-17 CN CN202310129147.XA patent/CN116738201B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717828A (zh) * | 2019-09-09 | 2020-01-21 | 中国科学院计算技术研究所 | 一种基于频繁交易模式的异常账户检测方法及系统 |
CN113935738A (zh) * | 2020-06-29 | 2022-01-14 | 腾讯科技(深圳)有限公司 | 交易数据处理方法、装置、存储介质及设备 |
CN113190688A (zh) * | 2021-05-08 | 2021-07-30 | 中国人民解放军国防科技大学 | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 |
CN113240524A (zh) * | 2021-05-10 | 2021-08-10 | 深圳前海微众银行股份有限公司 | 联邦学习系统中账户的异常检测方法、装置及电子设备 |
CN113361606A (zh) * | 2021-06-07 | 2021-09-07 | 齐鲁工业大学 | 深层图注意力对抗变分自动编码器训练方法及系统 |
CN114372505A (zh) * | 2021-12-09 | 2022-04-19 | 青岛智能产业技术研究院 | 一种无监督网络对齐方法和系统 |
CN114998005A (zh) * | 2022-04-24 | 2022-09-02 | 北京理工大学 | 一种基于联邦图神经网络技术的比特币异常交易识别方法 |
CN114782051A (zh) * | 2022-05-06 | 2022-07-22 | 东北大学 | 基于多特征学习的以太坊钓鱼诈骗账户检测装置及方法 |
CN115378629A (zh) * | 2022-05-13 | 2022-11-22 | 北京邮电大学 | 基于图神经网络的以太坊网络异常检测方法、系统和存储介质 |
CN115618008A (zh) * | 2022-09-15 | 2023-01-17 | 招联消费金融有限公司 | 账户状态模型构建方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
"TSGN: Transaction Subgraph Networks for Identifying Ethereum Phishing Accounts";Jinhuan Wang等;《Blockchain and Trustworthy Systems》;187-200页 * |
"以太坊账户分类模型研究";王超凡;《中国优秀硕士学位论文全文数据库信息科技辑》;正文10-42页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116738201A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Olszewski | Fraud detection using self-organizing map visualizing the user profiles | |
Savage et al. | Detection of money laundering groups using supervised learning in networks | |
Rodriguez et al. | Patent clustering and outlier ranking methodologies for attributed patent citation networks for technology opportunity discovery | |
CN103678659A (zh) | 一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统 | |
CN108764943B (zh) | 基于资金交易网络的可疑用户监测分析方法 | |
Li et al. | Intelligent anti-money laundering solution based upon novel community detection in massive transaction networks on spark | |
CN113283902B (zh) | 一种基于图神经网络的多通道区块链钓鱼节点检测方法 | |
Savage et al. | Detection of money laundering groups: Supervised learning on small networks | |
CN110942099A (zh) | 一种基于核心点保留的dbscan的异常数据识别检测方法 | |
WO2019200739A1 (zh) | 数据欺诈识别方法、装置、计算机设备和存储介质 | |
CN113378160A (zh) | 一种基于生成式对抗网络的图神经网络模型防御方法及装置 | |
CN113283590A (zh) | 一种面向后门攻击的防御方法 | |
Rabbi et al. | An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects | |
Li et al. | Automation recognition of pavement surface distress based on support vector machine | |
CN116738201B (zh) | 基于图对比学习的非法账户识别方法 | |
CN115115369A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN113098862A (zh) | 一种基于混合采样与膨胀卷积相结合的入侵检测方法 | |
CN116805245A (zh) | 基于图神经网络与解耦表示学习的欺诈检测方法及系统 | |
CN116545733A (zh) | 一种电网入侵检测方法及系统 | |
Ball et al. | Anomaly detection using autoencoders with network analysis features | |
CN114265954B (zh) | 基于位置与结构信息的图表示学习方法 | |
CN116633589A (zh) | 社交网络中恶意账户检测方法、设备及存储介质 | |
CN116318925A (zh) | 一种多cnn融合入侵检测方法、系统、介质、设备及终端 | |
CN115965466A (zh) | 一种基于子图对比的以太坊账户身份推理方法及系统 | |
CN114722920A (zh) | 一种基于图分类的深度图卷积模型钓鱼账户识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |