CN114998005A

CN114998005A - 一种基于联邦图神经网络技术的比特币异常交易识别方法

Info

Publication number: CN114998005A
Application number: CN202210449217.5A
Authority: CN
Inventors: 沈蒙; 杜涵彪; 孙润庚; 车征; 祝烈煌
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-09-02

Abstract

本发明涉及一种基于联邦图神经网络技术的比特币异常交易识别方法，属于区块链应用安全技术领域。本方法包括联邦学习训练和图神经网络训练。各个参与者在本地利用图神经网络对交易数据进行建模，并充分利用交易数据之间的邻居特征。在训练各自的本地模型之后，参与者将本地模型的梯度通过隐私保护的方式聚合到服务器，共同更新全局模型的参数，并将输出结果反馈给参与者进行迭代更新，从而实现在数据保护场景下进行比特币恶意交易联合识别分析。

Description

一种基于联邦图神经网络技术的比特币异常交易识别方法

技术领域

本发明涉及一种比特币异常交易识别方法，具体涉及一种基于联邦图神经网络技术的比特币异常交易识别方法，属于区块链应用安全技术领域。

背景技术

比特币是一种去中心化的数字货币，它不依赖于一个可信的实体，是一个基于密码学和点对点网络的支付系统，一经提出就受到了各方研究者的关注，并吸引了全球范围内的大量用户和投资者。

比特币交易的基本构建单元和价值单元是未花费的交易输出(UnspentTransaction Output，简称UTXO)，且不能再次分割。比特币的UTXO集合包含所有的UTXO，用户钱包的余额就是可以使用的UTXO的总额，每一个UTXO作为整体参与比特币交易。一笔交易产生的新UTXO将会被另一笔交易使用，意味着资金从一笔交易流向另一笔交易。此外，匿名性是比特币的重要属性之一，旨在保护用户的身份信息，隐藏用户与交易之间的关联关系。在比特币的交易中，交易参与方并不直接使用姓名、证件号码等真实的身份信息来发起/接收交易，而是将系统生成的假名地址作为交易时的身份标识，这保证了用户在交易过程中的匿名性。

然而，匿名性在保护用户身份及交易隐私的同时，也为不法分子的犯罪行为提供了天然的屏障，使得以比特币为代表的数字货币市场存在异常交易的风险。

当前，数字货币的生态中存在各种各样的异常交易行为，包括庞氏骗局、勒索病毒、洗钱等，这些非法行为给人们的财产造成了极大的损失，严重破坏了网络空间的金融秩序。因此，有必要研究如何的识别比特币异常交易行为。

为了能够更好地利用比特币交易数据之间的特征，同时满足特征数据的隐私保护需求，必须采用合适的技术手段，在保护特征数据隐私的同时训练出具有高性能的异常交易识别模型，维护网络空间的金融秩序，为用户提供更加安全的服务和更加健康的投资环境。

发明内容

本发明的目的是为了解决现有的比特币异常交易识别方法无法有效利用交易的邻居特征，且存在数据泄露隐患的技术问题，根据比特币UTXO交易模型的特点，创造性地提出了一种基于联邦图神经网络技术的比特币异常交易识别方法，旨在对参与者本地数据保护的场景下，利用比特币资金流动的特性构建交易特征，实现对比特币异常交易行为的识别。

本发明的创新点在于：首次提出了一种新的比特币异常交易识别方法，各个参与者在本地利用图神经网络对交易数据进行建模，充分利用交易数据之间的邻居特征。在训练各自的本地模型之后，参与者将本地模型的梯度通过隐私保护的方式聚合到服务器，共同更新全局模型的参数，并将输出结果反馈给参与者进行迭代更新，从而实现在数据保护场景下进行比特币异常交易联合识别分析的需求。

本发明采用以下技术方式实现。

一种基于联邦图神经网络技术的比特币异常交易识别方法，主要包括联邦学习训练和图神经网络训练。每轮训练包括四个过程。

首先，服务器将初始模型参数传递给每个参与者。

然后，每个参与者根据其本地数据，使用图神经网络训练本地机器学习模型，充分利用交易数据之间的邻居特征。

每个参与者拥有一个本地比特币交易图数据集

是图的节点集合，每个节点代表一笔交易，E_i是图的边集合，每条边代表交易双方之间存在的资金流动，每个图节点关联一个特征向量和一个标签，通过对节点的邻居进行随机采样，控制参与计算的邻居节点的数量。将采样后的邻居嵌入矩阵传递给该节点，并利用聚合函数对这些邻居信息进行聚合，更新节点的嵌入矩阵。

在本地训练结束后，参与者将各自模型训练的梯度发送到服务器。服务器聚合这些参数以更新全局模型，传递给参与者继续进行下一轮次的训练。

当达到设置的指定训练轮次后，完成可识别比特币异常交易行为的联邦图神经网络模型训练。利用该联邦图神经网络模型，实现对比特币异常交易行为进行识别。

具体地，本方法包括以下步骤：

步骤1：根据参与者数量I，将训练数据集

平均划分成I份，得到

将划分后的数据分配给各个参与者K₁,…,K_I，每个参与者拥有一个本地比特币交易图数据集

步骤2：每个参与者从服务器下载初始模型，并利用各自的数据

在本地训练一个图神经网络模型。

通过对节点的邻居进行随机采样(可以利用GraphSAGE等)，聚合多跳邻居信息，生成局部节点嵌入矩阵。

进一步地，步骤2采用以下方法实现：

步骤2.1：利用随机采样函数对节点的邻居进行采样，根据式1将每个节点其邻域内节点的嵌入矩阵聚合成单个向量：

其中，N(v)代表邻居采样函数，H代表节点的嵌入向量，k代表节点深度，Aggregate代表聚合函数。u表示邻居采样后包含的邻居节点。

表示任意一个。

表示邻居节点u的信息。

步骤2.2：在对邻居节点的嵌入矩阵进行聚合之后，根据式2利用一个非线性激活函数，将聚合的邻域嵌入信息与当前节点的嵌入信息连接起来，更新当前节点的表示：

其中，W^(k)代表权重矩阵，Concat代表将嵌入信息聚合在一起的拼接函数。δ表示非线性激活函数。

表示当前节点的嵌入信息。

步骤2.3：每个参与者K_i在本地模型训练的过程中获得的模型梯度

并上传到服务器以进行全局参数的更新。

步骤3：服务器接收所有参与者发送的本地模型梯度

根据式3对这些模型梯度求平均值，将平均后的模型参数作为新的全局模型参数：

其中，

代表第t个训练轮次的全局模型参数，β代表学习率，

代表第K_i个参与者的本地模型梯度。I表示参与者数量。

步骤4：服务器将全局模型参数发送给所有参与者，使参与者更新本地模型。

至此，完成联邦学习模型训练的一个轮次。

重复步骤1至步骤4，直到达到设置的指定训练轮次，从而完成可识别比特币异常交易行为的联邦图神经网络模型训练。

步骤5：利用上述联邦图神经网络模型，实现对比特币异常交易行为进行识别。

有益效果

本方法，基于比特币的UTXO模型特点，根据交易之间的资金流动，通过图神经网络挖掘交易之间的邻居特征。每个参与者使用本地的特征数据训练模型，并利用联邦学习技术传递模型梯度以更新全局模型，能够在保护用户本地数据隐私的同时，实现比特币异常交易行为的联合识别分析。

对比现有技术，本方法具有以下优点：

1.本发明利用了比特币交易之间的资金流动特性，利用图神经网络学习交易之间的邻居特征；

2.本发明考虑了集中式机器学习依赖于一个中心化的数据集，使得交易特征数据存在隐私泄露的风险，且加重了计算负荷。于是引入联邦学习技术，对存储在不同站点的比特币交易数据进行本地计算，通过传递梯度参数更新全局模型，保护特征数据的安全性；

3.实验证明，本方法比特币交易图数据集上的性能相较于现有技术得到明显提升，能够实现超过99％的异常交易识别准确率。

附图说明

图1是本发明方法的联邦图学习过程示意图。

具体实施方式

下面结合附图和实施例，对本发明方法做进一步详细说明。应当指出，本发明的实施不限于以下实施例，对本发明所做任何形式上的变通或改变将落入本发明保护范围。

实施例1

一种基于联邦图神经网络技术的比特币异常交易识别方法。

图1描述了一种基于联邦学习框架下利用图神经网络识别比特币异常交易的场景。设该场景中共有40个参与者，1个服务器。

参与者训练本地模型并上传梯度，服务器对梯度进行聚合并更新全局模型为联邦学习训练过程的一个轮次，该场景下共进行200个联邦学习轮次；每个参与者每次训练本地模型时迭代5个轮次；设置联邦学习的参数batch size＝128，learning rate＝0.001，其中batchsize为批处理大小即参与者训练本地模型时一次训练时的数据数量，learning rate为学习率；目标模型为带有一个GraphSAGE图卷积层以及三个隐藏层的神经网络，使用ReLU激活函数和Adam优化器。

依托于上述图1中的模型，具体实施本发明所述方法时，包括以下步骤：

步骤1：根据参与者数量I，将训练数据集

平均划分成I份，得到

具体到本实施例，模型数据集是经过脱敏和拆分处理后的Elliptic Data Set数据集(https://www.elliptic.co/blog/elliptic-dataset-cryptocurrency-financial-crime)，它包含40个子数据集，每个子数据集代表一个分布式节点，其数据构成单独一张图，40个节点共同完成联邦学习；整个数据集共有203,769个节点和234,355笔交易流，将交易标记为三种类型(0为非法，1为合法，2为未知)，每个图节点关联165个交易特征(93个原生特征和72个聚合特征)；40个参与者每轮都参与模型训练，模型数据中的训练数据集

和测试数据集

被平均分成

份并分别被

个参与者所拥有；每个参与者使用自己拥有的数据训练本地模型并得到模型参数。

步骤2：每个参与者从服务器下载初始模型，利用各自的数据

在本地训练一个图神经网络模型。具体利用GraphSAGE对节点的邻居进行随机采样，聚合多跳邻居信息，生成局部节点嵌入矩阵。具体为：

步骤2.1：利用随机采样函数对节点的邻居进行采样，再根据式1将每个节点其邻域内节点的嵌入矩阵聚合成单个向量。

步骤2.2：在对邻居节点的嵌入矩阵进行聚合之后，根据式2利用一个非线性激活函数将聚合的邻域嵌入信息与当前节点的嵌入信息连接起来，从而更新当前节点的表示。

步骤2.3：每个参与者K_i在本地模型训练的过程中获得模型的梯度

上传到服务器以进行全局参数的更新。

步骤3：服务器接收所有参与者发送的本地模型梯度，根据式3对这些模型梯度求平均值，将平均后的模型参数作为新的全局模型参数。

步骤4：服务器将全局模型参数发送给所有参与者，使参与者更新本地模型，至此，至此完成了联邦学习模型训练的一个轮次。

重复步骤1至4直到达到200个轮次，完成识别比特币异常交易行为的联邦图神经网络模型训练。

结果表明，使用经过脱敏和拆分处理后的Elliptic Data Set数据集、图神经网络中采用三层GraphSAGE作为图的卷积层、采用ReLU作为激活函数的目标模型，得到的目标模型的识别正确率为99.4％、识别精度为89.4％、识别召回率为75.1％；在训练80个轮次左右时，目标模型收敛至最佳识别正确率；这些结果表明目标模型对于比特币异常交易的识别具有较强的性能，能够满足在保护交易特征数据安全性和模型隐私性的前提下实现对比特币异常交易的联合识别分析的需求。

实施例2

本实施例是将本发明所述方法与多种在联邦学习框架下的监督机器学习方法进行对比，验证本发明的异常交易识别方法与其他方法相比具有更好的比特币异常交易识别效果。

使用经过脱敏和拆分处理后Elliptic Data Set作为数据集和LogisticRegression以及Multilayer Perceptron模型作为对比模型；相同数据集在不同模型下对于比特币异常交易识别结果如表1所示。

对比的第一种识别方法是一种基于特征的机器学习逻辑回归方法，可以实现分类问题；因具有高度可解释性的优点，是反洗钱场景中的首选方法；设置LogisticRegression中的参数为scikit-learn Python包中的默认参数，使用Logistic Regression的识别方法具有89.2％的识别正确率、67.7％的识别精度以及56.4％的识别召回率；结果显示本发明的识别方法与Logistic Regression相比具有更高的正确率、精度以及召回率。

对比的第二种识别方法是一种基于特征的机器学习多层感知机方法；MultilayerPerceptron中每个输入神经元接收一个数据特征，在正向传播过程中使用激活函数对隐含层进行处理，输出是对应于每个类别的概率向量；输入神经元的个数为165(对应165个交易特征)，设置了一个有96个神经元的隐藏层，并选择ReLU函数进行激活处理；为了防止模型过拟合，提升泛化能力，添加了dropout层以降低神经元之间的耦合(drop rate＝0.5)，学习率为0.001；为了加快运算速度，提高数据稳定性，使用log_softmax函数处理得到对应类别的概率向量；使用Multilayer Perceptron的识别方法具有97.2％的识别正确率、91.2％的识别精度以及67.5％的识别召回率；结果显示本发明的识别方法与MultilayerPerceptron相比具有更高的正确率以及召回率。

以上结果表明，本发明的比特币异常交易识别方法与其他识别方法相比能够在保护交易特征数据隐私安全的前提下实现更好的异常交易识别效果。

表1相同数据集在不同模型下对于比特币异常交易识别结果

以上所述结合附图和实施例描述了本发明的实施方式，但是对于本领域技术人员来说，在不脱离本专利原理的前提下，还能够做出若干改进，这些也是为属于本专利的保护范围。