CN114520739A

CN114520739A - 一种基于加密货币交易网络节点分类的钓鱼地址识别方法

Info

Publication number: CN114520739A
Application number: CN202210134116.9A
Authority: CN
Inventors: 胡晓艳; 朱克林; 程光; 吴桦; 龚俭
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-05-20

Abstract

本发明提供了一种基于加密货币交易网络节点分类的钓鱼地址识别方法，具体步骤包括：获取钓鱼和非钓鱼地址的1阶历史交易数据；对钓鱼和非钓鱼地址进行特征设计和提取，特征包括交易特征和结构特征两个方面；使用多种分类器对钓鱼和非钓鱼地址进行分类，排序筛选不同分类器下的有用特征，获得最佳分类器和对应的有效特征。本发明提供了一种加密货币交易网络节点分类的钓鱼地址识别方法，并以以太坊为例说明该方法的应用；本发明能够以很高的精确度识别钓鱼地址，同时本发明需要的数据量比较少、方法比较简单，为加密货币交易网络的钓鱼地址检测提供了更好的选择方案。

Description

一种基于加密货币交易网络节点分类的钓鱼地址识别方法

技术领域

本发明属于加密货币交易网络领域，涉及一种基于加密货币交易网络节点分类的钓鱼地址识别方法。

背景技术

随着区块链技术以及加密货币的兴起，加密货币交易网络这一新型网络空间正面临着日益严峻的安全挑战。Chainalysis公司一项基于BTC和ETH 等主流加密货币的调查显示：虽然加密货币诈骗总收入从2019年的90亿美元降至2020年的 27亿美元，但个人向诈骗地址付款的数量从500万上升到730万，增幅约48％。

这些利用加密货币进行的诈骗，可分为传统型诈骗和新型诈骗。传统指该骗术先于加密货币出现，它利用加密货币对骗术进行修改完善，而原理基本不变，比如网络钓鱼和庞氏骗局；新型指该骗术为基于加密货币本身属性构造出的新型诈骗，比如闪电贷攻击。犯罪分子利用加密货币的匿名性、抗篡改以及难溯源的特性(这些特性是法币所不具备的)为其提供隐私保护，疯狂进行诈骗活动。目前的不稳定金融局势是：传统型诈骗利用加密货币进行骗术升级，而针对各种传统型诈骗的传统型检测方法，无法考虑加密货币这一新的领域。为了弥补这一空缺，为打击各种利用加密货币的犯罪活动贡献一份力量，本发明对加密货币交易网络中的钓鱼地址进行精确识别，旨在对利用加密货币进行的网络钓鱼犯罪进行识别与管控。

对加密货币交易网络中钓鱼地址的识别是困难的。困难体现于钓鱼地址很少而非钓鱼地址很多，因此检测钓鱼地址的关键点以及难点在于从不均衡的样本中获取优质特征。目前加密货币交易网络钓鱼地址识别尚无有效普适的自动特征提取方法，故本发明基于对交易数据的分析，手动设计并提取适用于钓鱼地址识别的特征。

国内外近年来针对加密货币交易网络中钓鱼地址的识别研究主要分为节点分类和图分类两种方法，并且以机器学习方法为主。现有识别效果较好的节点分类和图分类方法，需要采集并使用以目标地址(钓鱼和非钓鱼地址)为中心的n阶邻居地址的历史交易。获取交易数据后，现有的节点分类方法以目标地址为中心进行有策略的游走采样以获取地址序列，然后用获得的地址序列提取出的特征作为目标地址的特征；图分类则以目标地址为中心构造其与邻居的交易子图，获取子图的特征。最后，将获得的特征用于分类器进行钓鱼地址的识别。但现有的节点分类和图分类方法存在的问题是：(1)识别效果仍有提升空间，分类的精确率、召回率和F1分数不高且不均衡；(2)需要大量的数据，除了目标地址的历史交易数据，还需要采集并使用以目标地址为中心的n阶邻居的历史交易数据；(3)方法的复杂性仍有优化空间，目前现有的节点分类方法需要复杂的构图和图采样操作，而图分类也需要复杂的构图工作。我们试图解决上述问题，即设计一个加密货币交易网络节点分类的钓鱼地址检测方法，与现有方法相比，能获得更好的分类效果、需要更少的数据、方法也更简单。

发明内容

为了加强对加密货币交易网络的监管，有效打击利用加密货币进行的网络钓鱼诈骗，本发明提出了一种基于加密货币交易网络节点分类的钓鱼地址识别方法，实现了对钓鱼地址的准确识别。本发明选用公开的数据集，分析历史交易数据后，设计并提取节点特征，在多个分类器下测试分类性能，得到效果较好的分类器，并对优选的分类器执行特征筛选，得到最佳分类器和有效节点特征。

为了达到上述目的，本发明提供如下技术方案：

一种基于加密货币交易网络节点分类的钓鱼地址识别方法，其特征在于，包括如下步骤：

步骤(1)从相关论文或网站(比如http://xblock.pro/)获取公开的钓鱼与非钓鱼地址的1 阶历史交易数据作为正负样本数据集；

步骤(2)对步骤(1)中获取的正负样本数据集进行特征设计和提取；

步骤(3)将步骤(2)中提取的特征输入不同的分类器，进行钓鱼和非钓鱼地址分类，选择最佳的分类器和有效节点特征。

步骤(1)具体如下：

(1.1)从相关论文或网站获取公开的以太坊钓鱼与非钓鱼地址的n(n>＝1)阶历史交易数据，历史交易数据至少应包括信息四元组：(交易发送方地址、交易接受方地址、交易时间戳、交易金额)；

(1.2)取步骤(1.1)中n阶历史交易数据中的1阶数据，确保数据集均衡，并将其作为钓鱼与非钓鱼地址的正负样本数据集。

进一步地，所述步骤(2)具体包括如下子步骤：

(2.1)分析地址的历史交易特点，从交易特征和结构特征两个角度进行特征设计；

(2.2)结构特征从交易的结构特征和地址的结构特征两个角度并分为收、付款两个方向进行设计；

进一步地，所述步骤(2.2)具体包括如下子步骤：

(2.2.1)从逻辑上构造有向多边带权重的交易图，其中节点代表地址，边代表地址之间的交易，边的权重信息为交易的时间戳和金额；

(2.2.2)在该有向多边带权重的交易图中，交易的结构特征为以目标地址为中心的目标地址与其1阶邻居的交易在网络结构方面所体现的仅与交易数量相关的结构特征，比如交易的出入度；

(2.2.3)在该有向多边带权重的交易图中，地址的结构特征为以目标地址为中心的目标地址与其1阶邻居的交易在网络结构方面所体现的仅与交易地址相关的结构特征，比如地址的出入度、众数以及该众数的出现次数。

(2.3)交易特征从时间、时间间隔、金额三个角度并分为收、付款两个方向进行设计；

进一步地，所述步骤(2.3)具体包括如下子步骤：

(2.3.1)交易特征中的时间特征指某地址某方向上的一系列非零值成功交易的时间长度 (举例：地址0x000…123def转给其他地址的非零值成功交易共4笔，时间戳分别为t1，t2， t3，t4，且t1<t2<t3<t4，则该地址出交易方向的时间长度为t4-t1)；

(2.3.2)交易特征中的时间间隔特征指某地址某方向上的一系列非零值成功交易的时间戳差值的统计特征(举例：地址0x000…123def转给其他地址的非零值成功交易共4笔，时间戳分别为t1，t2，t3，t4，且t1<t2<t3<t4，则该地址出交易方向的时间间隔分别为t2-t1，t3-t2， t4-t3，时间间隔的统计特征有最大值、最小值、平均值、标准差、中位数、众数和最大众数的出现次数)；

(2.3.3)交易特征中的金额特征指某地址某方向上一系列非零值成功交易的以太币金额的统计特征，金额的统计特征有总和、最大值、最小值、平均值、标准差、中位数、众数和最大众数的出现次数。

进一步地，所述步骤(3)具体包括如下子步骤：

(3.1)将节点特征输入多种分类器，依据精确率、召回率和F1分数三个分类指标得到若干分类效果较好的分类器；

(3.2)对每一个分类效果较好的分类器，根据特征对分类结果的贡献度进行特征排序与筛选，用筛选后的特征作为最终特征，再次执行步骤(3.1)得到分类效果最好的分类器。

与现有技术相比，本发明具有如下优点和有益效果：

(1)本发明基于加密货币交易网络中钓鱼地址和非钓鱼地址的交易行为，从交易和结构两个角度给出了节点分类下的节点特征设计思路，该特征设计思路对加密货币交易网络中钓鱼地址的图分类检测方法也具有一定的参考价值。

(2)本发明能够精准的识别钓鱼地址，精确率、召回率和F1分数三个分类指标均比较高且均衡。

(3)本发明所需要的数据量更少，本发明仅需要获得钓鱼和非钓鱼地址的1阶历史交易数据，相比于现有的节点分类工作，本发明不需要图采样操作，所以不需要获取以目标地址为中心的n阶邻居的历史交易数据，相比于图分类工作，同样省去了以目标地址为中心的n 阶邻居的历史交易数据的获取与处理。

(4)本发明的节点特征可以直接从交易数据提取，相比于现有的节点分类和图分类方案，省去了构图环节，实现了方案复杂度的降低和执行速度的提升。

附图说明

图1为本发明提供的基于加密货币交易网络节点分类的钓鱼地址识别方法的方法框架。

图2为设计的40个节点特征在分类器RandomForest下的分类贡献度排序与筛选。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提出了一种基于加密货币交易网络节点分类的钓鱼地址识别方法，识别框架如图 1所示，包括三个部分，第一部分为数据集获取，具体内容为从相关论文或网站获取公开的钓鱼与非钓鱼地址的1阶历史交易数据作为正负样本数据集，数据集要确保均衡，历史交易数据至少应包括：交易发送方、交易接受方、交易时间戳和交易金额；第二部分为特征设计和提取，具体内容为分析钓鱼和非钓鱼地址历史交易情况，设计有利于节点分类的合适特征，节点特征从交易特征和结构特征两个角度进行构思，共设计40个节点特征；第三部分为分类器和特征选取操作，选择分类性能最好的分类器以及在该分类器下有效的节点特征。

具体地说，本发明方法有以下步骤：

(1)从相关论文或网站(比如http://xblock.pro/)获取公开的钓鱼与非钓鱼地址的1阶历史交易数据作为正负样本数据集。

本步骤的具体过程如下：

(1.1)从网站http://xblock.pro/获取公开的以太坊钓鱼与非钓鱼地址的2阶历史交易数据；

(1.2)取步骤(1.1)中2阶历史交易数据中的1阶数据作为钓鱼与非钓鱼地址的正负样本数据集。

(2)对步骤(1)中获取的正负样本数据集进行特征分析、设计和提取。

本步骤中具体过程如下：

(2.2)结构特征从交易的结构特征和地址的结构特征两个角度并分为收、付款两个方向进行设计，共计8个，具体过程如下：

(2.2.2)在该有向多边带权重的交易图中，交易的结构特征选取目标节点交易的出入度；

(2.2.3)在该有向多边带权重的交易图中，地址的结构特征选取目标节点地址的出入度、众数及该众数出现的次数，众数不唯一时选取出现次数最多的众数，若出现次数最多的众数不唯一，则对出现次数最多的众数随机选取。

(2.3)交易特征从时间、时间间隔、金额三个角度并分为收、付款两个方向进行设计，共计32个，具体过程如下：

(2.3.1)交易特征中的时间特征选取时间长度；

(2.3.2)交易特征中的时间间隔特征选取时间间隔的最大值、最小值、平均值、标准差、中位数、众数及该众数出现的次数，众数不唯一时选取出现次数最多的众数，若出现次数最多的众数不唯一，则对出现次数最多的众数随机选取；

(2.3.3)交易特征中的金额特征选取金额的总和、最大值、最小值、平均值、标准差、中位数、众数及该众数出现的次数，众数不唯一时选取出现次数最多的众数，若出现次数最多的众数不唯一，则对出现次数最多的众数随机选取，最终共设计40个节点特征，具体描述如表1所示，其中交易取转账金额非零的成功交易。

表1 设计的40个节点特征及其含义

(3)将步骤(2)中提取的特征输入不同的分类器，进行钓鱼和非钓鱼地址分类，选择合适的分类器和节点特征。

本步骤具体包括以下过程：

(3.1)将节点特征输入多种分类器，依据精确率、召回率和F1分数三个分类指标得到若干分类效果较好的分类器，结果如表2所示；

(3.2)对每一个分类效果较好的分类器，根据特征对分类结果的贡献度进行特征排序与筛选，用筛选后的特征作为最终特征，再次执行步骤(3.1)得到分类效果最好的分类器，特征筛选后的分类结果如表2所示，而最佳分类器RandomForest下的特征贡献度则如图2所示，其中红色标注的“出方向交易时间间隔众数”和“出方向交易时间间隔众数次数”为该数据集在RandomForest分类器下的不良特征，将被过滤。

表2 不同分类器在不同特征选用情况下的分类效果以及建模时间

发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于加密货币交易网络节点分类的钓鱼地址识别方法，其特征在于，包括如下步骤：

步骤(1)：从相关论文或网站获取公开的钓鱼与非钓鱼地址的1阶历史交易数据作为正负样本数据集；

步骤(2)：对步骤(1)中获取的正负样本数据集进行特征设计和提取；

步骤(3)：将步骤(2)中提取的特征输入不同的分类器，进行钓鱼和非钓鱼地址分类，选择最佳的分类器和有效节点特征。

2.根据权利要求1所述的基于加密货币交易网络节点分类的钓鱼地址识别方法，其特征在于，步骤(1)具体如下：

(1.1)从相关论文或网站获取公开的以太坊钓鱼与非钓鱼地址的n(n>＝1)阶历史交易数据，历史交易数据至少应包括信息四元组：交易发送方地址、交易接受方地址、交易时间戳、交易金额；

3.根据权利要求2所述的基于加密货币交易网络节点分类的钓鱼地址识别方法，其特征在于，所述步骤(2)具体包括如下子步骤：

(2.3)交易特征从时间、时间间隔、金额三个角度并分为收、付款两个方向进行设计。

4.根据权利要求3所述的基于加密货币交易网络节点分类的钓鱼地址识别方法，其特征在于，所述步骤(2.2)具体包括如下子步骤：

5.根据权利要求4所述的基于加密货币交易网络节点分类的钓鱼地址识别方法，其特征在于，所述步骤(2.3)具体包括如下子步骤：

(2.3.1)交易特征中的时间特征指某地址某方向上的一系列非零值成功交易的时间长度；

(2.3.2)交易特征中的时间间隔特征指某地址某方向上的一系列非零值成功交易的时间戳差值的统计特征；

6.根据权利要求5所述的基于加密货币交易网络节点分类的钓鱼地址识别方法，其特征在于，步骤(3)包括如下子步骤：

(3.2)对每一个分类效果较好的分类器，根据特征对分类结果的贡献度进行特征排序与筛选，用筛选后的特征作为最终特征，再次执行步骤(3.1)得到分类效果最好的分类器以及筛选后的有效特征。