CN116738201B

CN116738201B - 基于图对比学习的非法账户识别方法

Info

Publication number: CN116738201B
Application number: CN202310129147.XA
Authority: CN
Inventors: 张璇; 黄河祥; 王基书; 朱锐; 王旭; 吕声隆; 安民
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2024-01-16
Anticipated expiration: 2043-02-17
Also published as: CN116738201A

Abstract

本发明提供基于图对比学习的非法账户识别方法，交易数据预处理，将交易数据构建为交易网络图；对账户历史交易特征进行提取；通过广度优先遍历抽样得到每个账户节点子图，基于账户余额，交易大小，交易频率过滤邻居节点，保留重要邻居，生成对比样本；对比学习，使用生成的对比样本和原样本进行对比学习，训练模型得到包含局部结构和节点特征的嵌入表示；分类识别，将得到的节点嵌入进行全连接层处理，通过多分类进行非法账户的分类识别。克服了传统方法不能有效地捕获图的固有局部结构特征、类不平衡问题。对非法账户识别更具有针对性、准确性和有效性。

Description

基于图对比学习的非法账户识别方法

技术领域

本发明属于区块链技术领域，特别是涉及一种基于图对比学习的非法账户识别方法。

背景技术

现有的非法账户识别大致可以分为三类：(1)基于特征工程的方法，通过人工分析不同账户的交易特征，并构建统计交易时间戳的各种特征来表示账户的交易历史，然后作为机器学习分类器的输入，最终使用决策树、随机森林和K近邻(KNN)来识别非法账户。(2)基于随机游走图表示学习方法，Node2vec和DeepWalk等算法被设计用来获取图的结构信息。trans2vec的图随机游走方法通过考虑交易金额和时间戳进行有偏向的采样策略，并使用SVM分类器对非法账户进行分类。然而这些基于随机游走的算法不能利用节点的特征信息，此外，这些方法都是基于低维结构的表示学习方法。它们利用邻居节点的相似信息来训练表示向量，通过这种方法只能提取局部信息。(3)基于图神经网络的方法，FA-GNN通过保留重要邻居节点的信息，并利用高阶信息增强节点特征来对非法账户识别。MCGC使用图神经网络的多个特征提取通道来提取目标地址的交易模式的特征。TTAGN使用时间性边缘表示法和edge2node模块来有效地识别非法账户行为。现有的图神经网络方法只使用节点特征，不能利用图的结构信息。

综上现有技术均存在一定的局限性。没有综合利用结构特征和节点特征对非法账户进行识别，其次，均没有考虑账户识别中样本极不平衡问题，采取简单的去除一些多数类中的样本使得正例、反例数目接近，然后再进行学习。因此会造成一些信息缺失，即将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息。为了营造良好的数字区块链安全环境，识别非法账户已经成为一个紧迫和关键的问题。

发明内容

本发明实施例的目的在于提供一种基于图对比学习的非法账户识别方法，构建交易图，结合账户历史交易特征和网络拓扑图结构特征，自适应生成对比样本以克服样本不平衡问题，提高非法账户识别的准确性。

为解决上述技术问题，本发明所采用的技术方案是，

S1、交易数据预处理，将交易数据构建为交易网络图；

S2、对账户历史交易特征进行提取；

S3、通过广度优先遍历抽样得到每个账户节点子图，基于账户余额，交易大小，交易频率过滤邻居节点，生成对比样本；

S4、对比学习，构建深度图神经网络GCN，使用生成的对比样本和原样本进行对比学习，训练模型得到包含局部结构和节点特征的嵌入表示；

S5、分类识别，将得到的节点嵌入进行全连接层处理，通过多分类进行非法账户的分类识别。

进一步的，S1交易数据预处理，构建交易网络图的具体步骤如下：

S11、通过区块链公认的官方网站提供的API获取非法账户和正常账户的交易数据，对交易数据进行预处理，去除交易量小于3的账户，过滤涉及智能合约地址的交易记录；

S12、将预处理后的交易数据构建为交易网络图，每个账户代表一个节点，节点中的每条边代表一条交易记录，交易网络图G＝(V,E)，其中，V表示节点集，E是边集。

进一步的，S2中所述账户历史交易特征包括账户余额、交易次数、交易金额、交易数均值和总和。

进一步的，S3过滤邻居节点的具体方法为通过度量邻居节点在网络中的重要性，将每个节点的邻居搜索限制在过滤后得到的邻居集合，邻居重要性从账户余额，交易大小和交易频率三个方面来定义，用集合函数F＝{B,A,T}表示，B表示账户余额，A表示交易大小，T表示交易频率，邻居节点重要值计算如下：

其中，Imp_N表示邻居节点的重要性，对目标节点的每一个邻居节点计算Imp_N值，然后，给定一个邻居保留率β∈[0,1]×100，基于Imp_N值对邻居节点进行降序排序，保留前β％个重要邻居。

进一步的，根据保留的邻居节点生成对比样本的具体过程为：

S31，节点生成，根据邻居节点插值生成对比样本节点，生成节点公式如下：

其中h_j∈R^1×F是中心节点i的邻域节点的表示；R^1×F为由实数组成的特征矩阵，F为矩阵维度；是图中节点i的邻域；/>是生成对比样本子图结点的表示；a_j是学习到的邻域节点j和中心节点i之间的关系权重；关系权重a_j定义如下：

其中θ(h_i,h_j)表示中心节点i和邻域节点j之间的关系；θ(h_i,h_j)定义为：

θ(h_i,h_j)＝LeakyReLU(W_θ[W_φh_i‖W_φh_j])

其中，LeakyReLU是激活函数(负输入斜率0.2)，W_θ∈R^1×2F和W_φ∈R^F×F是待学习的权重矩阵，R^1×2F和R^F×F分别表示由实数组成的1×2F维和F×F维的权重矩阵，‖代表特征连接；

S32，边生成，基于插值节点的特征，生成插值节点之间的边；对于子图中的节点s_j和s_j，s_i,s_j＝1,2,3,...,k，k是子图节点的数目，在子图的节点s_i和s_j之间生成的边定义如下：

其中是生成子图的邻接矩阵，/>是对比样本的节点s_i的生成特征，/>是对比样本的节点s_j的生成特征；/>是余弦相似度计算函数，定义如下：

其中，为/>的转置矩阵，最后将生成的具有相同中心的子图作为正样本，不同中心的子图作为负样本。

进一步的，S4中对比学习包括以下子步骤：

S41、使用图神经网络对图进行编码，图卷积网络聚合特征；

S411、获取交易网络图的邻接矩阵；

S412、将所述邻接矩阵输入到2层的图卷积网络学习层中进行邻居间的特征传播以进行特征聚合，每一层结束后在外侧进行非线性激活；

S42、节点对比学习，将生成的样本作为正样本参与训练，使用瓦瑟斯坦距离计算两个子图中所有节点对之间的差异，瓦瑟斯坦距离公式定义如下：

u，v分别表示两个子图的离散分布，其中u＝{u₁,u₂,...u_n}和v＝{v₁,v₂,...v_m}，n和m为子图节点的数量；π(u,v)表示两个子图节点之间的所有联合分布；c(h_1i,h_2j)表示子图一中的节点i和子图二中的节点j之间的传输成本，所述h_1i，h_2j表示节点特征；

基于瓦瑟斯坦距离，节点对比损失定义为：

其中N是采样子图的数目，M是每个子图的负样本的数目，τ是温度参数；(s_i,s_p)表示正样本对，(s_i,s_nj)表示负样本对，D_w(.,.)表示计算样本对之间的瓦瑟斯坦距离；

S43、边对比学习，利用Gromov-Wasserstein距离捕捉子图的边之间的相似性，Gromov-Wasserstein距离定义如下：

其中π(u,v)表示所有联合分布，矩阵T表示两个子图之间的差异，T_ij表示从u_i移动到v_j的质量，T_i'j'表示生成的对比子图中u_i移动到v_j的质量，是用于测量两个子图之间的边缘差异的代价函数；c()表示子图中节点之间的距离；

给定采样子图的邻接矩阵，对于采样子图的节点s₁和s₂，距离c(h_s1,h_s2)定义为：

c(h_s1,h_s2)＝exp(-A_s(s₁,s₂)/τ)

其中，A_s(s₁,s₂)表示采样子图的节点s₁和节点s₂之间的连接关系；

基于Gromov-Wasserstein距离，边对比损失定义为：

D_gw(.,.)表示计算样本对之间的Gromov-Wasserstein距离；

最后，得到最终损失函数其定义如下：

其中λ是控制不同损失函数重要性的超参数，使用瓦瑟斯坦距离挖掘基于子图节点特征的对比信息，使用Gromov-Wasserstein距离挖掘基于子图边的对比信息。

本发明的有益效果：首先通过邻居过滤保留重要节点，然后自适应生成的样本来代替基于扰动的样本，通过将学习到的注意力权重分配给邻域节点，可以自适应地利用图的内在几何结构，生成更有效的对比样本、克服样本极不平衡问题。

本发明通过节点对比学习和边对比学习，结合账户历史交易特征和网络拓扑图结构特征，挖掘更多有效的交易网络信息来提高非法账户识别性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实例中非法账户识别的流程示意图。

图2为本发明实例中对比样本生成示意图。

图3为本发明实例中系统框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种基于图对比学习的非法账户识别方法，所述的方法包括

以下步骤：

S1，交易数据预处理，将交易数据构建为交易网络图；

在实际应用中，所述步骤S1之前还包括通过区块链公认的官方网站和学术平台获取非法账户和正常账户的交易数据。

对交易数据进行预处理，包含以下子步骤：

S11，对获取到的数据进行清洗，所述清洗包含：(1)去除交易量小于3的账户，交易量过小的账户不利于模型学习。(2)过滤涉及智能合约地址的交易记录，智能合约往往逻辑复杂。

S12，将清洗后的交易数据构建为交易网络图，每个账户代表一个节点，节点中的每条边代表一条交易记录，交易网络G＝(V,E)，其中，V表示节点集，E是边集。

本发明中采用的真实交易数据是一个从官方网站Etherscan.io中收集的交易图，交易图的描述如下：交易图包含1,402,220个节点和2,815,028条边。在收集的节点中，816个被标记为非法账户，非法账户和正常账户比约为1：1,700，存在极大的类别不平衡情况。

步骤S2，对账户历史交易特征进行提取；

对交易网络图中的每个账户提取历史交易特征，所述历史交易特征包含账户余额、出方向和入方向上的交易次数、交易金额、交易数均值和总和等。对获取提取到的历史交易特征进行最大最小归一化处理，使用线性化的方法转换到[0,1]的范围，归一化公式如下：

其中x_max为样本数据的最大值，x_min为样本数据的最小值。

步骤S3，通过广度优先遍历抽样得到每个账户节点子图，基于账户余额，交易大小，交易频率过滤邻居节点，生成对比样本；

图2为本发明所提供的对比样本生成示意图。如图2所示，从左到右详细过程包括以下步骤：

S31、通过广度优先遍历采样得到每个目标账户节点的k阶子图，在实际应用中，k等于2。基于账户余额，交易大小，交易频率过滤邻居节点，保留重要邻居节点便于模型学习，用集合函数F＝{B,A,T}表示，B表示账户余额，A表示交易大小，T表示交易频率，过滤邻居节点公式如下：

对每一个邻居节点v计算N(v)值，给定一个邻居保留率λ∈[0,1]，保留topλN(v)个重要邻居。基于保留的邻居节点，采用自适应方法生成对比样本，根据邻居节点插值生成对比样本节点，生成节点公式如下：

其中h_j∈R^F是中心节点i的邻域节点的表示。是图中节点i的邻域。是生成对比样本子图结点的表示。a_j是学习到的邻域节点j和中心节点i之间的关系权重。关系权重a_j定义如下：/>

其中θ(h_i,h_j)表示中心节点i和邻域节点j之间的关系。θ(h_i,h_j)定义为：

θ(h_i,h_j)＝LeakyReLU(W_θ[W_φh_i‖W_φh_j])

其中，LeakyReLU是激活函数(负输入斜率0.2)，W_θ∈R^1×2F和W_φ∈R^F×F是待学习的权重矩阵，‖代表特征连接。

S32、边生成，基于插值节点的特征，生成插值节点之间的边。对于子图中的节点s_i和s_j，s_i,s_j＝1,2,3,...,j，j是子图节点的数目，在子图的节点s_i和s_j之间生成的边定义如下：

其中是生成子图的邻接矩阵，/>是对比样本的节点s_i的生成特征。/>是余弦相似度计算函数，定义如下：

使用自适应生成的样本来代替基于扰动的样本。与基于扰动的方法随机丢弃图的信息不同，本方法更好的保持图的完整性。通过将学习到的注意力权重分配给邻域节点，可以自适应地利用图的内在几何结构，生成更有效的对比样本。此外，由于图中相邻节点之间的相似性是一种固有属性，因此中心节点与其邻域之间存在很强的相关性。因此，由邻域插值生成的子图本质上与原始子图相似，故将生成的子图作为正样本。

步骤S4，对比学习，构建深度图神经网络GCN，使用生成的对比样本和原样本进行对比学习，训练模型得到包含局部结构和节点特征的嵌入表示。

图3为本发明实例中系统框架图，如图3中图对比学习模块所示，使用自适应方法生成对比样本，具有相同中心节点的子图作为正样本，具有不同中心节点的子图作为负样本。

使用图神经网络对交易网络图进行编码，图卷积网络通过消息传递机制聚合邻居特征，所述图卷积网络处理包括以下子步骤：

S41、获取交易网络图的邻接矩阵；将所述邻接矩阵输入到2层的图卷积网络学习层中进行邻居间的特征传播以进行特征聚合，每一层结束后在外侧进行非线性激活。

S42、节点对比学习，将生成的样本作为正样本参与训练，使用瓦瑟斯坦距离可以通过计算两个子图中所有节点对之间的差异。所述瓦瑟斯坦距离被用来度量子图节点之间的相似性。瓦瑟斯坦距离公式定义如下：

u，v分别表示两个子图的离散分布，其中u＝{u₁,u₂,...u_n}和v＝{v₁,v₂,...v_m}，n和m为子图节点的数量。π(u,v)表示两个子图节点之间的所有联合分布。/>表示子图1中的节点i和子图2中的节点j之间的传输成本，h_1i，h_2j表示节点特征。

基于瓦瑟斯坦距离，节点对比损失定义为：

其中N是采样子图的数目，M是每个子图的负样本的数目，τ是温度参数。(s_i,s_p)表示正样本对，(s_i,s_nj)表示负样本对。瓦瑟斯坦距离能够利用节点间的相似信息，更有效地区分对比样本。因此，利用基于瓦瑟斯坦距离的对比损失，可以最大化正子图上节点间的相似度，最小化负子图上节点间的相似度。

S43、边对比学习，Gromov-Wasserstein距离可以测量每个子图中的节点对与相应子图中的节点对之间的距离。因此，Gromov-Wasserstein距离可以用来捕捉子图的边之间的相似性，Gromov-Wasserstein距离定义如下：

其中π(u,v)表示所有联合分布，矩阵T表示两个子图之间的差异，T_ij表示从u_i移动到v_j的质量，是用于测量两个子图之间的边缘差异的代价函数。c()表示子图中节点之间的距离。

c(h_s1,h_s2)＝exp(-A_s(s₁,s₂)/τ)

其中，A_s(s₁,s₂)表示采样子图的节点s₁和节点s₂之间的连接关系。

基于Gromov-Wasserstein距离，边对比损失定义为：

其中N是采样子图的数目，M是每个子图的负样本的数目，τ是温度参数。(s_i,s_p)表示正样本对，(s_i,s_nj)表示负样本对。基于Gromov-Wasserstein距离的对比度损失可以最大化正子图的边之间的相似度，最小化负子图的边之间的相似度，从而捕捉子图之间的几何差异。

最后，得到最终损失函数其定义如下：

步骤S5、分类识别，将得到的节点嵌入进行全连接层处理，通过多分类进行非法账户的分类识别。

对于输入的图经过图神经网络得到每个节点，即每个账户的特征表示，将特征进行全连接层处理，得到每个账户所属类别的概率。通过模型在精确率即Precision，召回率即Recall，F1值三个方面的表现来评价模型在测试集中识别出非法账户的识别能力。

本发明的基于图对比学习的非法账户识别方法，不同于现有的模型，本发明首先综合利用结构特征和节点特征对非法账户进行识别；其次，传统方法采取简单的去除一些多数类中的样本使得正例、反例数目接近来解决样本不平衡问题，本发明提出使用自适应生成对比样本以克服样本极不平衡问题，充分利用已有样本的信息，且相比传统的基于对边和节点删除的方法来生成对比样本有更好的效果。

实施例：

为了进一步验证本实例所述的基于图对比学习的非法账户识别方法的效果，通过使真实交易网络数据集进行验证，使用的交易图数据集描述如下：交易图包含1,402,220个节点和2,815,028条边。在收集的节点中，816个被标记为非法账户，非法账户和正常账户比约为1：1,700。实验结果数据如表1所示。精确率表示所有预测为非法账户的样本中真正的非法账户所占的比例；召回率表示正确预测为非法账户的占全部实际为非法账户的比例；F1值为精确率和召回率加权调和平均值。

表1不同模型下的精确率、召回率、F1值

模型	精确率(Precision)	召回率(Recall)	F1值
				GCN	47.9％	52.9％	52.9％
SGC	76.9％	74.9％	79.9％
				GraphSAGE	79.5％	80.8％	78.9％
本发明	84.35％	78.95％	81.56％

GCN是第一个通过谱图卷积的局部一阶近似实现的图卷积网络。隐藏层的表示是通过编码局部图结构以及结点特征来进行。SGC是GCN的一种简化，它通过消除非线性和压缩连续层之间的权重矩阵来减少不必要的复杂度和冗余计算。GraphSAGE是一种基于邻域信息采样和聚合的归纳GNN方法。它引入了一组聚合器函数，例如均值和LSTM。通过实验对比，本发明的非法账户分类效果最优。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.基于图对比学习的非法账户识别方法，其特征在于，包括以下步骤：

S1、交易数据预处理，将交易数据构建为交易网络图；

S2、对账户历史交易特征进行提取；

S3、通过广度优先遍历抽样得到每个账户节点子图，基于账户余额、交易大小、交易频率过滤邻居节点，生成对比样本；

S4、对比学习，构建深度图卷积网络GCN，使用生成的对比样本和原样本进行对比学习，训练模型得到包含局部结构和节点特征的嵌入表示；

S5、分类识别，将得到的节点嵌入进行全连接层处理，通过多分类进行非法账户的分类识别；

所述S3过滤邻居节点的具体方法为通过度量邻居节点在网络中的重要性，将每个节点的邻居搜索限制在过滤后得到的邻居集合，邻居重要性从账户余额、交易大小和交易频率三个方面来定义，用集合函数F＝{B,A,T}表示，B表示账户余额，A表示交易大小，T表示交易频率，邻居节点的重要性值计算如下：

其中，Imp_N表示邻居节点的重要性，对目标节点的每一个邻居节点计算Imp_N值，然后，给定一个邻居保留率β∈[0,1]×100，基于Imp_N值对邻居节点进行降序排序，保留前β％个重要邻居；

所述S3中生成对比样本包括下述处理过程：

θ(h_i,h_j)＝LeakyReLU(W_θ[W_φh_i‖W_φh_j])

其中，LeakyReLU是激活函数，负输入斜率0.2，W_θ∈R^1×2F和W_φ∈R^F×F是待学习的权重矩阵，R^1×2F和R^F×F分别表示由实数组成的1×2F维和F×F维的权重矩阵，‖代表特征连接；

S32，边生成，基于插值节点的特征，生成插值节点之间的边；对于子图中的节点s_i和s_j，s_i,s_j＝1,2,3,...,k，k是子图节点的数目，在子图的节点s_i和s_j之间生成的边定义如下：

其中，为/>的转置矩阵，最后将生成的具有相同中心的子图作为正样本，不同中心的子图作为负样本；

所述S4对比学习包括以下子步骤：

S41，使用图神经网络对图进行编码，图卷积网络聚合特征，所述图卷积网络处理包括以下子步骤：

S411，获取交易网络图的邻接矩阵；

S412，将所述邻接矩阵输入到2层的图卷积网络学习层中进行邻居间的特征传播以进行特征聚合，每一层结束后在外侧进行非线性激活；

S42，节点对比学习，将生成的样本作为正样本参与训练，使用瓦瑟斯坦距离计算两个子图中所有节点对之间的差异，瓦瑟斯坦距离公式定义如下：

u，v分别表示两个子图的离散分布，其中u＝{u₁,u₂,...u_n}和v＝{v₁,v₂,...v_m}，n和m为子图节点的数量；π(u,v)表示两个子图节点之间的所有联合分布；c(h_1i,h_2j)表示第一子图中的节点i和第二子图中的节点j之间的传输成本，所述h_1i，h_2j表示节点特征；

基于瓦瑟斯坦距离，节点对比损失定义为：

S43，边对比学习，利用Gromov-Wasserstein距离捕捉子图的边之间的相似性，Gromov-Wasserstein距离定义如下：

c(h_s1,h_s2)＝exp(-A_s(s₁,s₂)/τ)

基于Gromov-Wasserstein距离，边对比损失定义为：

D_gw(.,.)表示计算样本对之间的Gromov-Wasserstein距离；

最后，得到最终损失函数其定义如下：

2.根据权利要求1所述的基于图对比学习的非法账户识别方法，其特征在于，所述S1的具体步骤如下：

S11、通过区块链公有链网站提供的API获取非法账户和正常账户的交易数据，对交易数据进行预处理，去除交易量小于3的账户，过滤涉及智能合约地址的交易记录；

3.根据权利要求1所述的基于图对比学习的非法账户识别方法，其特征在于，所述S2中历史交易特征包含账户余额、交易次数、交易金额、交易数均值和总和。