CN112738034A

CN112738034A - 一种基于垂直联邦学习的区块链钓鱼节点检测方法

Info

Publication number: CN112738034A
Application number: CN202011494397.6A
Authority: CN
Inventors: 张珂杰; 谢杨洁; 吴琛; 胡麦芳; 詹士潇; 匡立中; 黄方蕾; 汪小益; 邱炜伟; 蔡亮; 李伟; 张帅
Original assignee: Hangzhou Qulian Technology Co Ltd
Current assignee: Hangzhou Qulian Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-04-30
Anticipated expiration: 2040-12-17
Also published as: CN112738034B

Abstract

本发明公开了一种基于垂直联邦学习的区块链钓鱼节点检测方法，主要应用于区块链交易网络中的钓鱼节点检测。通过查询与目标用户相关的交易记录，构建时间序列型与网络序列型两种小规模的子网络进行训练。采用垂直联邦学习策略，将各个边缘端钓鱼检测模型计算得到的网络嵌入与原始节点类标上传至服务器端，由服务器端经注意力机制组合来自边缘端检测模型的网络嵌入。服务器端利用组合得到的网络嵌入训练自身的检测模型，并下发边缘端检测模型，对各边缘端的区块链钓鱼检测模型实现性能提升。

Description

一种基于垂直联邦学习的区块链钓鱼节点检测方法

技术领域

本发明属于区块链网络安全领域，具体涉及一种基于垂直联邦学习的区块链钓鱼节点检测方法。

背景技术

区块链技术起源于比特币，比特币作为一种加密安全的电子支付系统，其最初目的在于解决电子支付中过度依赖可信第三方的问题。在过去的十年中，金融领域的加密货币作为区块链技术最成功的应用之一，成为新型网络犯罪滋生的温床。区块链技术虽然能保证存储数据的安全性和转账行为的可靠性，将加密货币存放于用户自身的账户中，然而由于缺少了第三方权威机构的监管，一旦向诈骗者的转账行为被区块链确认，用户失去的电子货币几乎不可能再被寻回。在众多的区块链金融诈骗中，有50％以上的可以归类为以加密货币作为钓鱼目标进行的钓鱼诈骗。(参照文献1：M.Conti,E.S.Kumar,C.Lal,andS.Ruj,“A survey on security and privacy issues of bitcoin,”IEEECommun.Surv.Tut.,vol.20,no.4,pp.3416–3452,2018.)

为了在诈骗发生前识别钓鱼节点，或者通过预测潜在的诈骗交易，向未来可能的被诈骗者提供预警。Wu等人(参照文献2：Wu J,Yuan Q,Lin D,et al.Who Are thePhishers？Phishing Scam Detection on Ethereum via Network Embedding[J].2019.)第一次研究了区块链生态系统中的反网络钓鱼问题，将以太坊网络钓鱼地址的识别建模为二分类问题，提出一种基于交易量和时间戳偏差的算法学习区块链交易数据的网络嵌入，实现最终的区块链网络钓鱼检测。

联邦学习是为了解决数据孤岛以及模型训练和应用过程中的隐私泄露问题而出现的一种有效的技术手段。在联邦学习中，边缘端对本地数据进行训练后将模型上传至服务器端，再由服务器端对模型进行聚合得到总体参数，通过边缘端的本地训练与参数传递，训练出一个深度学习模型。联邦学习按照数据分布的不同情况，大致分为三类：水平联邦学习、垂直联邦学习与联邦迁移学习。水平联邦学习按照用户维度对数据集进行切分，并取出双方数据特征相同而用户不完全相同的那部分数据进行训练。垂直联邦学习按照数据特征维度对数据集进行切分，并取出双方针对相同用户而数据特征不完全相同的那部分数据进行训练。联邦迁移学习不对数据进行切分，而是利用迁移学习来克服数据或标签不足的情况。

联邦学习旨在实现在“数据不可见”或“模型不可见”的情况下提高模型的训练效率，并解决数据孤岛以及模型训练和应用过程中的隐私泄露问题。区块链技术中采用分布式账本记录所有的交易数据，这些交易记录都是可公开访问的，因此在区块链网络钓鱼检测中，区块链交易数据是“可见”的。不同的是，在不同的区块链钓鱼检测模型中，相同的交易数据可能被处理成不同格式的网络数据，导致网络特征出现差异。不同的区块链网络钓鱼检测方法所关注的数据特征(例如交易时间，交易金额)存在差异，单一的检测方法可能会过多地关注交易数据中的某一类特征，以至于难以全面地学习潜在钓鱼诈骗者的特征。在钓鱼检测模型不可见的情况下，如何联合多种钓鱼检测模型，提升自身模型的训练效率有着重要的实践意义。

发明内容

本发明的目的是设计一种基于垂直联邦学习的区块链钓鱼节点检测方法，采用垂直联邦学习策略，在边缘端区块链交易网络特征不同、钓鱼检测模型结构不可知的情况下，联合边缘端模型各自学习到的区块链交易网络特征嵌入，提高区块链钓鱼节点检测模型的有效性。

为实现上述发明目的，本发明提供的技术方案为：

一种基于垂直联邦学习的区块链钓鱼节点检测方法，包括以下步骤：

根据区块链交易信息构建时间序列型区块链交易网络图和网络序列型区块链交易网络图，并将这两个区块链交易网络图分发到两个边缘端；

各边缘端分别利用分发的区块链交易网络图进行边缘端区块链钓鱼检测模型的训练，并将获得区块链交易网络图的节点嵌入向量和节点类标上传至服务器端；

服务器端将传入的多个节点嵌入向量的注意力加权求和结果作为服务端的区块链钓鱼检测模型的输入数据，结合节点类标对服务端的区块链钓鱼检测模型进行训练，并下发训练的损失函数的梯度信息至两个边缘端，以更新边缘端区块链钓鱼检测模型的网络参数；

利用经过垂直联邦学习结束获得的服务端的区块链钓鱼检测模型实现区块链钓鱼节点的检测。

优选地，根据区块链交易信息构建时间序列型区块链交易网络图的过程为：

以至少一个账户地址为中心地址，根据交易记录提取另一方账户地址作为一阶账户地址，接着以一阶账户地址为中心地址，根据交易记录提取另一方账户地址作为二阶账户地址，如此迭代，直到提取完指定阶段的交易记录，得到有账户地址作为节点的交易网络图；

依据预设的度阈值，将交易网络图中超过度阈值的节点删除，并将与超过度阈值的节点连接的更大阶数的节点同时删除，得到时间序列型区块链交易网络图，表示为

其中，V表示节点集合，E表示链路集合，X表示每条链路对应的交易额与交易时间信息。

优选地，根据区块链交易信息构建网格序列型区块链交易网络图的过程为：

将时间序列型区块链交易网络图中的交易时间信息去除，同时依据交易时间段对时间序列型区块链交易网络图进行分片，每个交易时间段的交易信息形成一个网格分片图，每个网格分片图中的节点数与时间序列型区块链交易网络图的节点数相同，且将网格分片图中同一节点对之间的多条交易金额合并，将求和后的交易额作为新链路交易额，最终获得T网格分片图组成的网格序列型区块链交易网络图，表示为

其中，A^t∈R^N×N表示第t个网格分片图的邻接矩阵，

表示A^t中第i个节点与第j个节点间的交易额。

优选地，边缘端采用门控循环单元作为边缘端区块链钓鱼检测模型，利用时间序列型区块链交易网络图对门控循环单元进行训练，同时提取时间序列型区块链交易网络图的节点嵌入向量。

优选地，边缘端采用随机游走采样算法和Skip-Gram模型作为边缘端区块链钓鱼检测模型，随机游走采样算法提取网络序列型区块链交易网络图中的序列信息，利用序列信息训练Skip-Gram模型，同时提取网格序列型区块链交易网络图的节点嵌入向量。

优选地，服务器端采用以下公式对两个节点嵌入向量的注意力加权求和，得到组合向量作为服务端的区块链钓鱼检测模型的输入数据，

其中，

表示采用模型参数为Θ^A的边缘端区块链钓鱼检测模型对网格序列型区块链交易网络图

提取的节点嵌入向量，

表示采用模型参数为Θ^B的边缘端区块链钓鱼检测模型对时间序列型区块链交易网络图

提取的节点嵌入向量，α＝[α_A,α_B]为注意力系数矩阵，

表示组合向量。

优选地，服务端的区块链钓鱼检测模型采用全连接神经网络作为分类器，实现对钓鱼节点的二分类预测。

优选地，对服务端的区块链钓鱼检测模型进行训练，以区块链钓鱼检测模型的预测置信度与节点类标的交叉熵为损失函数。

与现有技术相比，本发明具有的有益效果至少包括：

本发明提供的基于垂直联邦学习的区块链钓鱼节点检测方法，在不泄露各边缘端钓鱼检测模型结构的情况下，通过垂直联邦学习策略，联合边缘端模型各自学习到的区块链交易网络特征嵌入，多方协同完成损失函数的计算与优化，提高区块链钓鱼节点检测模型的有效性，实现对区块链钓鱼节点的检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为本发明提供的基于垂直联邦学习的区块链钓鱼节点检测方法的流程图；

图2为本发明提供的以太坊交易网络构建过程示意图；

图3为本发明提供的节点最大度值的网络规模控制方法示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1为本发明提供的基于垂直联邦学习的区块链钓鱼节点检测方法的流程图。如图1所示，实施例提供的区块链钓鱼节点检测方法包括以下步骤：

步骤1，根据区块链交易信息构建时间序列型区块链交易网络图和网络序列型区块链交易网络图。

步骤1具体包括获取区块链交易数据信息、构建时间序列型区块链交易网络图，构建网络序列型区块链交易网络图以及区块链交易网络图分发4个过程。

针对获取区块链交易数据信息，实施例使用公开的以太坊数据查询网站etherscan进行模型训练。在初始数据中，每笔交易包含了数十种属性，保留其中的交易双方(from和to)，交易时间(timeStamp)和交易额(value)信息，将其余信息作为冗余信息舍去。

针对构建时间序列型区块链交易网络图，原始以太坊的数据过于庞大，且钓鱼节点与其相关交易仅占所有数据的极小部分，本发明通过查询与目标用户相关的交易记录，构建小规模的子网络进行训练。数据查询从一个或一些以太坊账户地址开始，以这些账户地址作为将要构成的网络中心(0阶地址)。从网络中心地址的交易记录中提取出交易的另外一方作为1阶账户地址，接着再使用同样的方式，以1阶账户地址为中心地址，根据交易记录提取另一方账户地址作为2阶账户地址，如此迭代下去，获取指定阶数以内的交易记录。在本发明中，选取一定数量的被标记为诈骗者的地址和等量随机选取的非诈骗者地址，以它们为中心，获取一个二阶网络。图2为示例性的给出的一个二阶网络的构建过程。

为了进一步控制网络规模，在交易数据转换为网络的过程中，通过设定单节点的最大度值，将超过最大度值的部分交易按照交易额由低到高的顺序修剪掉。修剪过程中，被剪去的部分可能还有下一阶的地址账户与之相连接，若不将这些连接地址账户也一并去处，网络中可能会存在许多小的连通片。修剪也是一个迭代的过程，除了当前被剪去的地址，与之相连的更大阶数的地址账户也需要一并去除。

图3展示了通过设置节点最大度值的网络规模控制方法。其中，图3(a)中节点v1为中心节点，节点v2与v3为超出度值限制需要删除的节点(此处最大度值设为3)，若不迭代地进行修剪，仅删除深色的超出度值部分的节点，就会产生图3(b)中的深色的孤立连通片。在实验中，本发明设定节点最大度值为100，通过最大阶数和最大度值两种控制手段，最终获得时间序列型区块链交易网络

其中V表示节点集合，E表示链路集合，X表示每条链路对应的交易额与时间信息。

针对构建网络序列型区块链交易网络。相比于时间序列型数据，网络序列型在深度学习模型中有着更广的应用。在构建时间序列型区块链交易网络后，删除网络链路中的交易时间信息，并将时间信息压缩到网络序列中的每个分片之上，即根据交易时间段将时间序列型区块链交易网络分片成多个网格分片图，每个网格分片图中的节点数与时间序列型区块链交易网络图的节点数相同，网格序列中的每个网络分片图是非多连边网络，若同一网络分片中的同一节点对之间存在多条链路，需要将这多条链路合并为一条链路，将求和后的交易额作为新的链路交易额信息。最终获得T个网格分片图组成的网络序列型区块链交易网络

其中A^t∈R^N×N表示第t个网格分片图的邻接矩阵，

表示第t个网格分片图中第i个节点与第j个节点间的交易额。

针对区块链交易网络图分发，实施例将时间序列型区块链交易网络图和网络序列型区块链交易网络图分发到过个边缘端，用于对边缘端区块链钓鱼检测模型的训练。

步骤2，各边缘端分别利用分发的区块链交易网络图进行边缘端区块链钓鱼检测模型的训练。

在对边缘端区块链钓鱼检测模型进行训练时，各边缘端可以使用不同类型的区块链交易数据

对不同的模型结构进行训练。本发明以两种不同的边缘端区块链钓鱼检测模型f^A(·)与f^B(·)为例进行训练。

实施例中，边缘端区块链钓鱼检测模型f^A(·)利用参数为Θ^A的门控循环单元GRU学习节点嵌入，GRU结构如公式(1)所示；

其中，W_z、U_z、W_r、U_r、W和U是可训练的权重，

表示计算中的中间量，σ是sigmoid激活函数。GRU以前一时刻的细胞状态h^t-1和当前时刻的输入x_t作为输入，输出当前的细胞状态h^t，并作为当前时刻的输出。将GRU的每次细胞状态计算过程简化表示为公式(2)：

h^t＝GRU(h^t-1,x^t) (2)

利用GRU进行节点i嵌入的过程表示为：

其中，

是节点i在第t时刻的GRU细胞状态，

表示第0个网格分片图的邻接矩阵的第i行。边缘端区块链钓鱼检测模型f^A(·)中的参数记为Θ^A，

是所有时刻的细胞状态的拼接向量，表示节点i的嵌入向量。

实施例中，边缘端区块链钓鱼检测模型f^B(·)利用随机游走采样，通过公式(4)计算游走转移概率P，得到节点序列集合{v₁,v₂,…,v_l},v_i∈V：

其中，e为链路，W(·)为链路到交易额的映射函数，T(·)为链路到时间戳的映射函数。L_t(v_i)代表从v_i出发，下一链路时间大于当前已有链路时间的链路集合，e^′表示候选链路集合L_t(v_i)中的链路。η_-(+)(·)表示该游走转移概率的计算可以关注不同的链路时间特征，其中，η_-(·)：

为降序排序函数，表示该游走概率更关注账户间较新的交易，η₊(·)：

为升序排序函数，表示该游走更关注账户在较长时间间隔内的交易。λ参数用于调节交易额与时间信息所构成的游走转移概率的比重。

对于随机游走采样得到的节点序列，采用参数为Θ^B的Skip-Gram模型实现对网络节点的嵌入。以公式(5)为优化目标，最大程度地提高观察到节点邻域(取决于其嵌入向量)的对数概率pr，最终得到节点的嵌入向量

其中，k是限制随机游走上下文大小的窗口大小，φ(·)表示将节点嵌入到R^1×d维空间的嵌入函数，φ(v_i)表示

的第i行。

步骤3，服务器端将传入的多个节点嵌入向量的注意力加权求和结果作为服务端的区块链钓鱼检测模型的输入数据，结合节点类标对服务端的区块链钓鱼检测模型进行训练。

实施例中，边缘端区块链钓鱼检测模型学习得到的节点嵌入向量和节点类标上传至服务器端，服务器端通过注意力机制组合各边缘模型学习到的网络嵌入，训练服务器端的区块链钓鱼节点检测模型。

每一轮边缘端的区块链钓鱼节点检测模型训练完毕后，将边缘端模型f^A(·)和f^B(·)将学习得到的区块链网络的节点嵌入向量

和节点类标F＝[τ₁,…,τ_N]上传至服务器端，利用公式(6)为来自不同边缘端模型的网络嵌入分配注意力系数进行加权组合；

其中，α＝[α_A,α_B]为注意力系数矩阵，

表示组合向量。

实施例中，服务器端的区块链钓鱼检测模型视为二分类模型，使用神经网络中的全连接神经网络作为分类器，实现对钓鱼节点的检测。对于节点嵌入向量

神经网络分类器中的隐藏层与输出层分别为：

其中，M是神经网络隐藏层数量，W^(m)和b^(m)分别是第m层的权重和偏置,

是节点i的第m层的隐藏层输出。神经网络的输出层只有一个神经元，

为最终的分类结果。

分类器的参数记为Θ^NN，在每轮训练中，以公式(10)作为目标函数，通过随机梯度下降法优化Θ^NN，训练所述的区块链钓鱼检测模型；

其中，T_s为带类标的区块链交易网络节点集合；F＝[τ₁,…,τ_N]表示网络节点类标集合，节点i的类标τ_i∈[0,1]，τ_i＝1表示节点i为钓鱼节点；若网络节点v_l属于类τ_k，则Y_lk＝1，否则Y_lk＝0；

是由公式(9)计算出的分类置信度输出。

步骤4，服务器端下发训练的损失函数的梯度信息至两个边缘端，以更新边缘端区块链钓鱼检测模型的网络参数。

实施例中，服务器端将由神经网络分类器计算得到的分类置信度输出与节点真实类标的交叉熵损失函数发回至各边缘端，边缘端根据此时返回的损失函数的梯度信息对本地模型进行更新，具体来说，在同一轮训练中，以公式(11)作为目标函数，通过随机梯度下降法分别优化边缘端模型参数Θ^A与Θ^B，训练所述边缘端钓鱼检测模型；

采用上述区块链钓鱼节点检测方法中步骤1～4中的垂直联邦学习策略对来自多个边缘端的“不可知”的钓鱼检测模型进行联邦学习，提升了钓鱼检测模型的有效性，即提升区块链钓鱼节点检测能力。

步骤5，利用经过垂直联邦学习结束获得的边缘端与服务器端的区块链钓鱼检测模型共同实现区块链钓鱼节点的检测。

当联邦学习结束后，即可以利用边缘端与服务端的区块链钓鱼检测模型进行区块链钓鱼节点的检测，即将区块链的交易信息按照步骤1构建时间序列型区块链交易网络图或网络序列型区块链交易网络图，将区块链交易网络图输入对应输入格式需求的边缘端区块链钓鱼检测模型，得到目标交易网络图的嵌入表示，将其输入至服务端的区块链钓鱼检测模型中，经计算输出预测置信度，依据预测置信度结果来实现区块链节点是否为钓鱼节点。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于垂直联邦学习的区块链钓鱼节点检测方法，其特征在于，包括以下步骤：

根据区块链交易信息构建时间序列型区块链交易网络图和网络序列型区块链交易网络图，并将这两个区块链交易网络图分发到各边缘端；

利用经过垂直联邦学习结束获得的边缘端与服务器端的区块链钓鱼检测模型共同实现区块链钓鱼节点的检测。

2.如权利要求1所述的基于垂直联邦学习的区块链钓鱼节点检测方法，其特征在于，根据区块链交易信息构建时间序列型区块链交易网络图的过程为：

3.如权利要求2所述的基于垂直联邦学习的区块链钓鱼节点检测方法，其特征在于，根据区块链交易信息构建网格序列型区块链交易网络图的过程为：

其中，A^t∈R^N×N表示第t个网格分片图的邻接矩阵，

表示A^t中第i个节点与第j个节点间的交易额。

4.如权利要求1所述的基于垂直联邦学习的区块链钓鱼节点检测方法，其特征在于，边缘端采用门控循环单元作为边缘端区块链钓鱼检测模型，利用网格序列型区块链交易网络图对门控循环单元进行训练，同时提取网格序列型区块链交易网络图的节点嵌入向量。

5.如权利要求1所述的基于垂直联邦学习的区块链钓鱼节点检测方法，其特征在于，边缘端采用随机游走采样算法和Skip-Gram模型作为边缘端区块链钓鱼检测模型，随机游走采样算法提取时间序列型区块链交易网络图中的序列信息，利用序列信息训练Skip-Gram模型，同时提取时间序列型区块链交易网络图的节点嵌入向量。

6.如权利要求1所述的基于垂直联邦学习的区块链钓鱼节点检测方法，其特征在于，服务器端采用以下公式对两个节点嵌入向量的注意力加权求和，得到组合向量作为服务端的区块链钓鱼检测模型的输入数据，

其中，

提取的节点嵌入向量，

提取的节点嵌入向量，α＝[α_A,α_B]为注意力系数矩阵，

表示组合向量。

7.如权利要求1所述的基于垂直联邦学习的区块链钓鱼节点检测方法，其特征在于，服务端的区块链钓鱼检测模型采用全连接神经网络作为分类器，实现对钓鱼节点的二分类预测。

8.如权利要求1或7所述的基于垂直联邦学习的区块链钓鱼节点检测方法，其特征在于，对服务端的区块链钓鱼检测模型进行训练，以区块链钓鱼检测模型的预测置信度与节点类标的交叉熵为损失函数。

9.如权利要求1所述的基于垂直联邦学习的区块链钓鱼节点检测方法，其特征在于，利用边缘端与服务器端的区块链钓鱼检测模型共同实现区块链钓鱼节点的检测时，将区块链的交易信息构建成时间序列型区块链交易网络图或网络序列型区块链交易网络图，将区块链交易网络图输入对应输入格式需求的边缘端区块链钓鱼检测模型，得到目标交易网络图的嵌入表示并输入至服务端的区块链钓鱼检测模型中，经计算输出预测置信度，依据预测置信度结果来实现区块链节点是否为钓鱼节点。