CN113364748B

CN113364748B - 一种基于交易子图网络的以太坊钓鱼节点检测方法及系统

Info

Publication number: CN113364748B
Application number: CN202110571064.7A
Authority: CN
Inventors: 宣琦; 陈鹏涛; 王金焕
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-04-19
Anticipated expiration: 2041-05-25
Also published as: CN113364748A

Abstract

一种基于交易子图网络的以太坊钓鱼节点检测方法，包括：1)数据获取2)构建网络，根据以太坊外部账户的交易信息构建目标节点自网络；3)图映射，按照新型有向图映射方法对自网络进行处理得到含内在隐含信息的映射图，即交易子图网络；4)图特征提取与融合，使用Graph2vec模型对原始自网络和交易子图网络进行特征提取，并拼接二者特征；5)分类检测模型，将上述网络融合特征作为输入，训练随机森林模型对目标节点的钓鱼属性进行检测；本发明还公开了一种基于上述方法的精准钓鱼诈骗检测系统。本发明构建自网络以及结合对应图映射技术，轻量准确的完成钓鱼节点检测任务，有别于大多数基于提取大量或更高阶次邻居信息的研究。

Description

一种基于交易子图网络的以太坊钓鱼节点检测方法及系统

技术领域

本发明涉及区块链技术和网络科学领域，具体而言，涉及一种基于交易子图网络的以太坊平台中钓鱼节点检测方法及系统。

背景技术

区块链是一种点对点的分布式账本数据库技术，通过分布式存储以及共识机制等技术实现了去中心化的目的。近些年，随着虚拟货币的价格与日俱增以及区块链金融项目的不断推进，区块链领域得到了广泛用户和广大研究者的关注。

以太坊作为当今最大的基于区块链的应用，它同时也是能够支持智能合约的最大区块链平台。相较于以比特币为代表的区块链1.0，以太坊属于图灵完备的脚本语言，支持开发者在该平台创建和发布任意去中心化的应用程序。同时以以太坊为代表的区块链2.0时代已逐渐将区块链技术从货币和支付领域扩展到金融领域。

然而就在区块链技术以及区块链金融蓬勃发展的同时，以太坊平台上出现了一系列犯罪洗钱活动，典型的如庞氏骗局、钓鱼诈骗等。无论对用户还是交易所，这一系列的诈骗形式都已然对它们的资产造成了严重威胁。而根据调查，钓鱼诈骗已成为对以太坊交易安全性的主要威胁，其发生比例超过半数。

中国专利申请号2020114173069的公开文本所公开的技术方案，一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置，该专利使用了以太坊交易网络中目标节点的一阶和二阶邻居节点共同构建无向无权网络，将钓鱼节点检测问题转化成图分类问题。然而，由于该方法构建目标为无向无权网络，进而忽视了实际交易网络中的交易流向和交易金额，导致部分信息的损失。再则，该方法更多利用的是一阶和二阶的邻居信息而忽视了目标节点与邻居间的内在隐含信息。

发明内容

本发明克服现有技术的上述缺陷，提供一种基于交易子图网络的以太坊钓鱼节点检测方法和系统。

本发明从以太坊平台中提取钓鱼节点和非钓鱼节点信息，构建有向有权的交易自网络，通过有向图映射方法构建映射图，也就是交易子图网络，并使用图表示方法提取交易网络的高阶内在隐含信息，训练分类器实现钓鱼节点的检测。

本发明实现上述发明目的所采用的技术方案如下：

一种基于交易子图网络的以太坊钓鱼节点检测方法，包括以下步骤：

S1：数据获取，从互联网上爬取已经公开的钓鱼节点和非钓鱼节点数据；

S2：网络构建，对目标节点为钓鱼节点或非钓鱼节点均构建以它们为中心的有向有权交易自网络G＝(V，E，W，D)，其中V为包含目标节点和邻居节点的集合，E、W、D分别为目标节点与邻居节点的所有连边、连边权重和连边方向集合，W元素的大小即是对应交易金额的数目；

S3：图映射，按照本专利提出的一种新型有向图映射方法将上述交易自网络映射成具有内在隐含信息的映射图G^*；

S4：图特征提取与融合，基于Graph2vec模型对原始自图以及映射图进行图特征提取，并将二者特征拼接融合；

S5：分类器训练与预测，将钓鱼节点检测问题转化成钓鱼节点网络的分类问题，将融合特征作为输入，有监督的训练随机森林分类器，实现最终预测。

进一步的，步骤S1具体包括：

S1.1：将截至2020年1月1日公布的钓鱼诈骗用户的地址作为我们的目标节点为钓鱼节点的样本，对获得数据合理清洗后，剩余样本数量约为1625例。

S1.2：通过以太坊平台网站Etherscan，对上述钓鱼节点地址的邻居进行查询，提取得到其所有邻居的地址、钓鱼节点与邻居间的交易流方向以及各交易流的实际金额等信息。

S1.3：在同一时间段内，从以太坊平台上提取相同数量的非钓鱼节点样本，同S1.2步骤提取地址、交易流以及交易金额等信息。

进一步的，步骤S3具体包括：

S3.1：连边节点映射：

记原始自网络G映射后的映射图为

其节点和边集用V^*＝{d_i|i＝0，1,2，...}和E^*∈(V^*×V^*)表示。映射图G^*中的节点V^*是由原始图中的连边一一映射而来，而映射图G^*中的连边E^*则是通过下述规则生成。记C为自网络中的中心目标节点，i和j分别为目标节点C任意的两个邻居，那么如果它们之间的交易流为i→C→j，则在映射图G^*中节点v₁＝(i，C)有一条指向v₂＝(C，j)的连边；如果它们之间的交易流为j→C→i，则在映射图G^*中节点v₁＝(j，C)有一条指向v₂＝(C，i)的连边；而交易流动为i→C←j或者i←C→j两种情况，在映射图中均不产生连边。具体的如图2中所示，左图为原始有权有向自网络，中间为上述提到的4类交易流映射规则，而右侧则是对应的映射图。特别的，左图连边W₁和W₂所关联的三个节点符合编号为②的映射规则，那么在映射图中节点W₁就有一条指向节点W₂的连边。同理，连边W₄和W₅所关联的三个节点符合编号为④的映射规则，那么在映射图中节点W₄和节点W₅就不存在连边。按照上述规则，对自网络中的所有邻居按上述规则无重复遍历，最终便可构建出唯一映射图G^*的拓扑结构。

S3.2：图权重映射：

在构建完映射图的拓扑结构后，还需要确定映射图G^*的连边权重。通过图2和S3.1中拓扑结构的构造过程，已经得到了映射图G^*每个节点的权重标签，那么G^*中的连边权重取决于该连边关联的两节点权重大小，即：W_ij＝log(W_i+W_j)，其中W_ij为W_i和W_j间的权重。

进一步的，步骤S4具体包括：

S4.1：特征提取：

使用Graph2vec模型对原始有向有权的自网络图G以及有向有权的映射图G^*分别提取K维特征，并分别记作F，F^*∈R^K。

S4.2：特征融合：

将原始自网络中提取的特征F和映射图中提取的特征F^*横向上进行拼接融合，即最终的图表示为F_f＝[F，F^*]∈R^2K。

进一步的，步骤S5的具体包括：

S5.1：分类器训练：

将F_f作为输入特征，对应网络中心节点属性作为标签y∈Y(钓鱼节点值为1，非钓鱼节点值为0)训练随机森林模型，得到钓鱼节点检测的分类器。

S5.2：钓鱼节点预测：

对于任意可疑钓鱼节点，我们均可以按照S2和S3步骤得到一个自网络和一个映射网络，通过S4步骤得到融合特征并输入到完成训练的钓鱼节点检测分类器中实现对钓鱼诈骗节点的检测任务。

一种基于交易子图网络的以太坊钓鱼节点检测系统，包括依次连接的数据采集模块、网络构建模块、图映射模块、特征模块以及分类预测模块；

数据采集模块，从互联网中爬取公开的钓鱼节点和非钓鱼节点数据；

网络构建模块，根据目标节点、邻居节点地址以及交易流方向和金额信息构建有向有权的自网络图；

图映射模块，对原始有向有权自网络图按照连边节点映射规则构建出对应的有权有向映射图；

特征模块，使用Graph2vec模型对原始的自网络图以及映射图提取网络特征，将两者图表示横向拼接融合作为最终原始图的表示，并将其保存；

分类预测模块，以保存的图融合特征作为输入，以目标节点属性作为标签，训练随机森林分类器，并将其用于可疑节点钓鱼属性的预测任务。

所述数据采集模块、所述网络构建模块、所述图映射模块、所述特征模块和所述分类预测模块依次链接。

本发明的技术构思为：本发明提出了一种基于交易子图网络的以太坊钓鱼节点检测方法和系统。其中，我们提出从自网络视角构建目标节点交易网络的方法，结合本专利提出的一种有向有权网络的图映射机制以及Graph2vec特征提取模型得到目标节点自网络的图表示。将目标节点的检测问题转化为目标节点邻居网络的分类问题，最后训练随机森林分类器实现对钓鱼诈骗节点的准确预测。

本发明的有益效果为：本发明首先提出从自网络视角来解决钓鱼节点检测问题，同时也提出了一种对于有向有权网络的映射新方法，即交易子图网络映射方法。一方面，对可疑节点做检测时，只需提取其与一阶邻居之间的信息作为输入即可完成较精准的检测，而免去提取二阶甚至更高阶邻居的复杂性，减少了提取目标节点邻居信息的工作量，提高了效率。另一方面，本专利提出的一种针对有向有权网络的能够提取内在隐含信息的图映射策略，提取出了有向有权网络中内在隐含信息，该方法能够大幅度提升了钓鱼节点诈骗的检测精度。

附图说明

图1为本发明方法的流程示意图。

图2为本发明方法图映射方法部分示意图。

图3为本发明系统结构流程图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细描述。

参照图1～图3，一种基于交易子图网络的以太坊钓鱼节点检测方法，步骤如下：

1)数据获取，从互联网上爬取已经公开的钓鱼节点和非钓鱼节点数据；

1.1)将截至2020年1月1日公布的钓鱼诈骗用户的地址作为我们的目标节点为钓鱼节点的样本，对获得数据合理清洗后，剩余样本数量约为1625例。

1.2)通过以太坊平台网站Etherscan，对上述钓鱼节点地址的邻居进行查询，提取得到其所有邻居的地址、钓鱼节点与邻居间的交易流方向以及各交易流的实际金额等信息。

1.3)在同一时间段内，从以太坊平台上提取相同数量的非钓鱼节点样本，同S1.2步骤提取地址、交易流以及交易金额等信息。

2)网络构建，对目标节点为钓鱼节点或非钓鱼节点均构建以它们为中心的有向有权自网络G＝(V，E，W，D)，其中V为包含目标节点和邻居节点的集合，E、W、D分别为目标节点与邻居节点的所有连边、连边权重和连边方向集合，W元素的大小即是对应交易金额的数目；

3)图映射，按照本专利提出的一种新型有向图映射方法将上述交易自网络映射成具有内在隐含信息的映射图G^*；

3.1)连边节点映射：

记原始自网络G映射后的映射图为

其节点和边集用V^*＝{d_i|i＝0，1，2，...}和E^*∈(V^*×V^*)表示。映射图G^*中的节点V^*是由原始图中的连边一一映射而来，而映射图G^*中的连边E^*则是通过下述规则生成。记C为自网络中的中心目标节点，i和j分别为目标节点C任意的两个邻居，那么如果它们之间的交易流为i→C→j，则在映射图G^*中节点v₁＝(i，C)有一条指向v₂＝(C，j)的连边；如果它们之间的交易流为j→C→i，则在映射图G^*中节点v₁＝(j，C)有一条指向v₂＝(C，i)的连边；而交易流动为i→C←j或者i←C→j两种情况，在映射图中均不产生连边。具体的如图2中所示，左图为原始有权有向自网络，中间为上述提到的4类交易流映射规则，而右侧则是对应的映射图。特别的，左图连边W₁和W₂所关联的三个节点符合编号为②的映射规则，那么在映射图中节点W₁就有一条指向节点W₂的连边。同理，连边W₄和W₅所关联的三个节点符合编号为④的映射规则，那么在映射图中节点W₄和节点W₅就不存在连边。按照上述规则，对自网络中的所有邻居按上述规则无重复遍历，最终便可构建出唯一映射图G^*的拓扑结构。

3.2)图权重映射：

在构建完映射图的拓扑结构后，还需要确定映射图G^*的连边权重。通过图2和S3.1中拓扑结构的构造过程，已经得到了映射图G^*每个节点的权重标签，那么G^*中的连边权重取决于该连边关联的两节点权重大小，即：W_ij＝log(W_i+W_j)，其中W_ij为W_i和W_j间的权重。至此，得到最终的映射图，也就是交易子图网络。

4)图特征提取与融合，基于Graph2vec模型对原始自网络图以及映射图进行图特征提取，并将二者特征拼接融合；

4.1)特征提取：

使用Graph2vec模型对原始有向有权自网络图G以及有向有权的映射图G^*分别提取K维特征，并分别记作F，F^*∈R^K。

4.2)特征融合：

5)分类器训练与预测，将钓鱼节点检测问题转化成钓鱼节点网络的分类问题，将融合特征作为输入，有监督的训练随机森林分类器，实现最终预测。

5.1)分类器训练：

5.2)钓鱼节点预测：

对于任意可疑钓鱼节点，我们均可以按照S2和S3步骤得到一个交易自网络和一个映射网络，通过S4步骤得到融合特征并输入到完成训练的钓鱼节点检测分类器中实现对钓鱼诈骗节点的检测任务。

所述数据采集模块，从互联网中爬取公开的钓鱼节点和非钓鱼节点数据；具体包括：

所述网络构建模块，根据目标节点、邻居节点地址以及交易流方向和金额信息构建有向有权的自网络；具体包括：

S2：网络构建，对目标节点为钓鱼节点或非钓鱼节点均构建以它们为中心的有向有权自网络图G＝(V，E，W，D)，其中V为包含目标节点和邻居节点的集合，E、W、D分别为目标节点与邻居节点的所有连边、连边权重和连边方向集合，W元素的大小即是对应交易金额的数目。

所述图映射模块，对原始有向有权自网络图按照连边节点映射规则构建出对应的有权有向映射图；具体包括：

S3.1：连边节点映射：

记原始自网络G映射后的映射图为

其节点和边集用V^*＝{d_i|i＝0，1，2，...}和E^*∈(V^*×V^*)表示。映射图G^*中的节点V^*是由原始图中的连边一一映射而来，而映射图G^*中的连边E^*则是通过下述规则生成。记C为自网络中的中心目标节点，i和j分别为目标节点C任意的两个邻居，那么如果它们之间的交易流为i→C→j，则在映射图G^*中节点v₁＝(i，C)有一条指向v₂＝(C，j)的连边；如果它们之间的交易流为j→C→i，则在映射图G^*中节点v₁＝(j，C)有一条指向v₂＝(C，i)的连边；而交易流动为i→C←j或者i←C→j两种情况，在映射图中均不产生连边。具体的如图2中所示，左图为原始有权有向自网络，中间为上述提到的4类交易流映射规则，而右侧则是对应的映射图。特别的，左图连边W₁和W₂所关联的三个节点符合编号为②的映射规则，那么在映射图中节点W₁就有一条指向节点W₂的连边。同理，连边W₄和W₅所关联的三个节点符合编号为④的映射规则，那么在映射图中节点W₄和节点W₅就不存在连边。按照上述规则，对自网络中的所有邻居按上述规则无重复遍历，最终便可构建出唯一映射图G*的拓扑结构。

S3.2：图权重映射：

所述特征模块，使用Graph2vec模型对原始的自网络图以及映射图提取网络特征，将两者图表示横向拼接融合作为最终原始图的表示，并将其保存；具体包括：

S4.1：特征提取：

S4.2：特征融合：

所述分类预测模块，以保存的图融合特征作为输入，以目标节点属性作为标签，训练随机森林分类器，并将其用于可疑节点钓鱼属性的预测任务；具体包括：

S5.1：分类器训练：

S5.2：钓鱼节点预测：

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于交易子图网络的以太坊钓鱼节点检测方法，其特征在于，包括以下步骤：

S3：图映射，按照一种新型有向图映射方法将上述交易自网络映射成具有内在隐含信息的交易子图网络映射图G^*；具体步骤如下：

S3.1：连边节点映射：

记原始自网络G映射后的映射图为

其节点和边集用V^*＝{d_i|i＝0，1，2，...}和E^*∈(V^*×V^*)表示；映射图G^*中的节点V^*是由原始图中的连边一一映射而来，而映射图G^*中的连边E^*则是通过下述规则生成；记C为自网络中的中心目标节点，i和j分别为目标节点C任意的两个邻居，那么如果它们之间的交易流为i→C→j，则在映射图G^*中节点v₁＝(i，C)有一条指向v₂＝(C，j)的连边；如果它们之间的交易流为j→C→i，则在映射图G^*中节点v₁＝(j，C)有一条指向v₂＝(C，i)的连边；而交易流动为i→C←j或者i←C→j两种情况，在映射图中均不产生连边；按照上述规则，对自网络中的所有邻居按上述规则无重复遍历，最终能构建出唯一映射图G^*的拓扑结构；

S3.2：图权重映射：在构建完映射图的拓扑结构后，还需要确定映射图G^*的连边权重；通过步骤S3.1中拓扑结构的构造过程，已经得到了映射图G^*每个节点的权重标签，那么G^*中的连边权重取决于该连边关联的两节点权重大小，即：W_ij＝log(W_i+W_j)，其中W_ij为W_i和W_j间的权重；

2.如权利要求1所述的一种基于交易子图网络的以太坊钓鱼节点检测方法，其特征在于，步骤S1具体包括：

S1.1：将截至2020年1月1日公布的钓鱼诈骗用户的地址作为目标节点为钓鱼节点的样本，对获得数据合理清洗后，剩余样本数量为1625例；

S1.2：通过以太坊平台网站Etherscan，对上述钓鱼节点地址的邻居进行查询，提取得到其所有邻居的地址、钓鱼节点与邻居间的交易流方向以及各交易流的实际金额；

S1.3：在同一时间段内，从以太坊平台上提取相同数量的非钓鱼节点样本，同S1.2步骤提取地址、交易流以及交易金额。

3.如权利要求1所述的一种基于交易子图网络的以太坊钓鱼节点检测方法，其特征在于，步骤S4具体包括：

S4.1：特征提取：

使用Graph2vec模型对原始有向有权自网络图G以及有向有权的映射图G^*分别提取K维特征，并分别记作F，F^*∈R^K；

S4.2：特征融合：

4.如权利要求1所述的一种基于交易子图网络的以太坊钓鱼节点检测方法，其特征在于，所述步骤S5具体包括：

S5.1：分类器训练：

将融合特征F_f作为输入特征，对应网络中心节点属性作为标签y∈Y训练随机森林模型，钓鱼节点值为1，非钓鱼节点值为0，得到钓鱼节点检测的分类器；

S5.2：钓鱼节点预测：

对于任意可疑钓鱼节点，按照步骤S2和S3得到一个自网络和一个映射网络，通过步骤S4得到融合特征并输入到完成训练的钓鱼节点检测分类器中实现对钓鱼诈骗节点的检测任务。

5.一种基于交易子图网络的以太坊钓鱼节点检测系统，包括依次连接的数据采集模块、网络构建模块、图映射模块、特征模块、分类预测模块；

所述数据采集模块，从互联网中爬取公开的钓鱼节点和非钓鱼节点数据；

所述网络构建模块，根据目标节点、邻居节点地址以及交易流方向和金额信息构建有向有权的自网络图；

所述图映射模块，对原始有向有权自网络图按照连边节点映射规则构建出对应的有权有向映射图；具体步骤如下：

S3.1：连边节点映射：

记原始自网络G映射后的映射图为

所述特征模块，使用Graph2vec模型对原始的自网络图以及映射图提取网络特征，将两者图表示横向拼接融合作为最终原始图的表示，并将其保存；

所述分类预测模块，以保存的图融合特征作为输入，以目标节点属性作为标签，训练随机森林分类器，并将其用于可疑节点钓鱼属性的预测任务；