CN112434742B

CN112434742B - 一种识别以太坊上庞氏骗局的方法、系统及设备

Info

Publication number: CN112434742B
Application number: CN202011349942.2A
Authority: CN
Inventors: 赵玺; 任一民; 邹建华
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2024-04-05
Anticipated expiration: 2040-11-26
Also published as: CN112434742A

Abstract

本发明公开了一种识别以太坊上庞氏骗局的方法、系统及设备，方法包括根据以太坊的交易记录建立一度交易网络；通过比较一度交易网络中两个顶点之间距离为k的环路上的有序度序列，计算一度交易网络中任意两个顶点的层次化衡量结构相似度，得到任意两个顶点之间的权重；根据层次化衡量结构相似度的方法构建一个层次化的带权图；通过有偏随机游走获取顶点序列；使用自然语言处理中的Skip‑Gram根据顶点序列获取每个顶点的特征向量；使用随机森林分类器识别顶点所表示的合约是否为庞氏骗局合约，该方法提出的特征对于交易网络上的诈骗检测具有实际意义，降低信息获取难度，简化特征提取方法的同时大大提高了样本特征的维数，在以太坊上检测庞氏骗局具有较高的准确率。

Description

一种识别以太坊上庞氏骗局的方法、系统及设备

技术领域

本发明属于区块链上的诈骗识别技术领域，具体为一种识别以太坊上庞氏骗局的方法、系统及设备。

背景技术

区块链技术是比特币的底层技术，这一技术第一次被描述是在中本聪2008年发表的白皮书“比特币：点对点电子现金系统”中。区块链技术更多的一般性用途在原书中已经有所讨论，但直到几年后，区块链技术才作为通用术语出现。一个区块链是一个分布式计算架构，里面的每个网络节点执行并记录相同的交易，交易被分组为区块。一次只能增加一个区块，每个区块有一个数学证明来保证新的区块与之前的区块保持先后顺序。这样一来，区块链的“分布式数据库”就能和整个网络保持一致。个体用户与总账的互动(交易)受到安全的密码保护。由数学执行并编码到协议中的经济激励因素刺激着维持和验证网络的节点。

以太坊是一个全新开放的区块链平台，它允许任何人在平台中建立和使用通过区块链技术运行的去中心化应用。就像比特币一样，以太坊不受任何人控制，也不归任何人所有——它是一个开放源代码项目，由全球范围内的很多人共同创建。和比特币协议有所不同的是，以太坊的设计十分灵活，极具适应性。在以太坊平台上创立新的应用十分简便，随着Homestead的发布，任何人都可以安全地使用该平台上的应用。以太坊并不是给用户一系列预先设定好的操作，而是允许用户按照自己的意愿创建复杂的操作。这样一来，它就可以作为多种类型去中心化区块链应用的平台，包括加密货币在内但并不仅限于此。和其他区块链一样，以太坊也有一个点对点网络协议。以太坊区块链数据库由众多连接到网络的节点来维护和更新。每个网络节点都运行着以太坊模拟机并执行相同的指令。因此，人们有时形象地称以太坊为“世界电脑”。

当前以太坊上各种交易合约种类众多，数目巨大，其中也不乏存在着诈骗合约，庞氏诈骗合约就是其中的一种。时至今日，在以太坊上的庞氏诈骗合约识别方法仍以合约的内容，交易量等特征进行识别，部分方法还需要大量的人为参与其识别过程，所提取的特征种类也较为有限，不利于下游利用更加复杂的识别算法。

发明内容

本发明的目的在于提供一种识别以太坊上庞氏骗局的方法、系统及设备；在以太坊上识别庞氏骗局具有较高的准确率，为以太坊上的庞氏骗局识别提供一种新的维度。

为了实现上述目的，本发明采用的技术方案为：一种识别以太坊上庞氏骗局的方法，包括以下步骤：

步骤1，根据以太坊的交易记录建立一度交易网络；

步骤2：通过比较一度交易网络中两个顶点之间距离为k的环路上的有序度序列，计算一度交易网络中任意两个顶点的层次化衡量结构相似度，得到任意两个顶点之间的权重；

步骤3：根据步骤2所得顶点之间的权重构建一个层次化的带权图；

步骤4，通过有偏随机游走步骤3所得带权图获取顶点序列；

步骤5，使用NLP中的Skip-Gram根据顶点序列获取每个顶点的特征向量；

步骤6，使用随机森林分类器识别顶点所表示的合约是否为庞氏骗局合约。

所述步骤1中根据以太坊的交易记录建立一度交易网络的具体过程是：在以太坊的交易历史中提取包含用于训练的已知的庞氏合约地址、非庞氏合约地址与待识别的合约地址的交易记录，并筛掉其中交易金额为0的交易与失败交易，以所述所有交易的地址作为顶点，以所述交易作为边构建一度交易网络。

所述步骤2中定义一种层次化衡量结构相似度的方法的具体过程是：

令R_k(u)表示到顶点u距离为k的顶点集合，则R₁(u)表示是u的直接相连近邻集合；

令s(S)表示顶点集合S的有序度序列；

通过比较两个顶点之间距离为k的环路上的有序度序列得到层次化衡量网络结构相似度的方法；

令f_k(u,v)表示顶点u和v之间距离为k的环路上的结构距离；所述距离k实际上是指距离小于等于k的节点集合；

f_k(u,v)＝f_k-1(u,v)+g(s(R_k(u)),s(R_k(v)))，k≥0且|R_k(u)|，|R_k(v)|＞0

其中g(D₁,D₂)≥0是衡量有序度序列D₁和D₂的距离的函数，并且f_-1(u,v)＝0；g(D₁,D₂)≥0通过动态时间规整给定；根据动态时间规整，距离函数的定义为：

所述步骤3中对于每一个k我们都可以计算出两个顶点之间的一个距离，现在通过步骤2得到的顶点之间的有序度序列距离来构建一个层次化的带权图用于有偏随机游走；

在某一层k中两个顶点的边权的定义为：

通过有向边将属于不同层次的同一顶点连接起来，具体来说，对每个顶点，都会和其对应的上层顶点还有下层顶点相连，边权定义为

w(u_k,u_k+1)＝log(Г_k(u)+e),k＝0,...,k^*，w(u_k,u_k-1)＝1

其中Г_k(u)是第k层与u相连的边的边权大于平均边权的边的数量，其中1(·)表示1-范数，/>就是第k层所有边权的平均值。

所述步骤4中使用有偏随机游走在步骤3构建的带权图中进行顶点序列采样，每次采样时，首先确定是在当前层游走，还是切换到上下层的层游走；

若在当前层游走，设当前处于第k层，则从顶点u到顶点v的概率为：其中/>是第k层中关于顶点u的归一化因子；

若切换不同的层，则以如下的概率选择k+1层或k-1层游走

p_k(u_k,u_k-1)＝1-p_k(u_k,u_k+1)。

步骤5中，使用步骤4中获取的顶点序列作为Skip-Gram算法的训练数据，获取每个顶点的特征向量。

步骤6中，使用步骤5获取的庞氏合约与非庞氏合约的特征训练随机森林分类器，并使用训练好的随机森林分类器对未知类型的合约地址是否为庞氏合约进行识别。

一种识别以太坊上庞氏骗局的系统，包括：一度交易网络构建模块根据以太坊的交易记录建立一度交易网络；通过比较一度交易网络中两个顶点之间距离为k的环路上的有序度序列计算一度交易网络中任意两个顶点的层次化衡量结构相似度；

带权图构建模块根据所述衡量网络结构相似度方法构建一个层次化的带权图；

顶点序列获取模块通过有偏随机游走带权图获取顶点序列；

特征向量提取模块使用NLP中的Skip-Gram根据顶点序列获取每个顶点的特征向量；

识别判断模块使用随机森林分类器识别顶点所表示的合约是否为庞氏骗局。

一种计算机设备，包括一个或多个处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现本发明所述识别以太坊上庞氏骗局的方法。

一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现本发明所述的识别以太坊上庞氏骗局的方法。

与现有技术相比，本发明具有以下有益的技术效果：

本发明仅需区块链的交易数据即可对合约是否为庞氏骗局合约进行识别，无需人工干预提取各种合约自身信息，对于识别庞氏骗局来说，极大的降低了信息的获取难度；

本发明提出一种新的提取合约特征的方法，由于Skip-Gram模型支持较好的提取高维度特征的特性，采用本发明所述算法，可以在同一流程下提取数十乃至数百维的特征，与现有的特征提取方法相比，一定程度上在简化的特征提取方法的同时大大提高了样本特征的维数，对于后续采用复杂度更高的分类器的训练提供了数据支持；

本发明所提出的在以太坊上根据交易行为与记录识别庞氏骗局的方法从合约的交易行为与交易记录上提取的相关特征是一类新的合约特征提取方法，从交易情况对合约进行识别更有利于检测到影响广，危害大的庞氏骗局，此类特征对于其他场景的金融欺诈检测也具有参考价值；本发明所提出的在以太坊上根据交易行为与记录识别庞氏骗局的方法在不添加人工干预提取特征的前提下对于庞氏骗局识别仍然具有较高的准确率。

进一步的，通过在构建的带权图中进行随机游走，每次采样的顶点更倾向于选择与当前顶点结构相似的顶点，采样生成的上下文顶点很可能是结构相似的顶点，可以更好的识别相互关联的庞氏骗局。

附图说明

图1为本发明实施例1的一度交易网络图。

图2为本发明方法的流程图。

具体实施方式

下面结合附图及具体实施方式对本发明做进一步详细描述：

本发明提供了一种在以太坊上根据交易行为与记录识别庞氏骗局的方法，其过程是：

步骤1，获取以太坊上与已知的庞氏合约地址、非庞氏合约地址与待识别的合约地址的交易记录，将获取的所有交易记录的合约作为一度交易网络的顶点，将交易记录作为一度交易网络的边；

步骤2，定义一种层次化衡量步骤1所得一度交易网络结构相似度的方法，通过比较一度交易网络中两个顶点之间距离为k的环路上的有序度序列(ordered degreesequence)，计算一度交易网络中任意两个顶点的层次化衡量结构相似度，其具体过程是：

令R_k(u)表示一度交易网络中到顶点u距离为k的顶点集合，则R₁(u)表示是u的直接相连近邻集合；

令s(S)表示一度交易网络中顶点集合S的有序度序列；通过比较两个顶点之间距离为k的环路上的有序度序列可以得到一种层次化衡量网络结构相似度的方法。

令f_k(u,v)表示顶点u和v之间距离为k(这里的距离k实际上是指距离小于等于k的节点集合)的环路上的结构距离(注意是距离，不是相似度)。定义：

f_k(u,v)＝f_k-1(u,v)+g(D_u,D_v),k≥0

将

且|R_k(u)|，|R_k(v)|＞0

代入，有：

f_k(u,v)＝f_k-1(u,v)+g(s(R_k(u)),s(R_k(v))),k≥0且|R_k(u)|，|R_k(v)|＞0其中g(D₁,D₂)≥0是衡量有序度序列D₁和D₂的距离函数，特别地，当k＝-1时，令f_-1(u,v)＝0；g(D₁,D₂)≥0通过动态时间规整(DTW)给定；根据DTW，距离函数的定义为：

步骤3，给定k，即可计算任意两个顶点之间的距离，通过步骤2得到的顶点之间的有序度序列距离来构建一个层次化的带权图(用于后续的随机游走)。

在某一层k中两个顶点的边权的定义为：其中k^*表示拓扑图(一度交易网络)的直径。

通过有向边将属于网络结构中不同层次的同一顶点连接起来，具体来说，对每个顶点，都会和其对应的上层顶点还有下层顶点相连，边权定义为：

w(u_k,u_k+1)＝log(Г_k(u)+e),k＝0,...,k^*，w(u_k,u_k-1)＝1

其中Г_k(u)是第k层与u相连的边的边权大于平均边权的边的数量。其中1(·)表示1-范数，/>就是第k层所有边权的平均值。

步骤4，使用有偏随机游走在步骤3构建的图中进行顶点序列采样；每次采样时，首先确定是在当前层游走，还是切换到当前层的上下层游走；

若在当前层游走，设当前处于第k层，则从顶点u到顶点v的概率为：其中/>是第k层中关于顶点u的归一化因子。

通过在步骤3构建的图中进行随机游走，每次采样的顶点更倾向于选择与当前顶点结构相似的顶点，采样生成的上下文顶点很可能是结构相似的顶点，这与顶点在图中的位置无关。

若切换不同的层，则以如下的概率选择k+1层或k-1层，

p_k(u_k,u_k-1)＝1-p_k(u_k,u_k+1)。

步骤5，根据步骤4中获取的顶点序列作为训练数据，采用Skip-Gram算法将使用01编码的高维顶点特征嵌入到指定维数的低维空间中得到一度交易网络中每个顶点的低维特征，得到庞氏合约与非庞氏合约的特征用于训练随机森林分类器。

步骤6，利用步骤5获取的庞氏合约与非庞氏合约的特征训练随机森林分类器，并使用训练好的随机森林分类器对未知类型的合约地址是否为庞氏合约进行识别。

本发明的具体实施例如下：

实现在以太坊上识别未知合约是否为庞氏骗局合约，其具体过程如下：

步骤1，从已公开的使用传统机器学习方法识别以太坊中的庞氏骗局文章的开源数据中选取216个存在交易行为的合约地址作为样本，从https://cn.etherscan.com/获取与上述合约相关的成功交易。将上述合约及与之存在成功交易的地址作为顶点，将所涉及到的成功交易作为边，构建一度交易网络。

步骤2，通过上述顶点之间的距离计算公式：

f_k(u,v)＝f_k-1(u,v)+g(s(R_k(u)),s(R_k(v))),k≥0且|R_k(u)|，|R_k(v)|＞0，

确定一度交易网络中任意两个顶点的距离计算方式。

例如k＝0时，两个顶点u，v的有序度序列均为[0],则根据DTW的距离计算方式可以计算得到其距离g(s(R₀(u)),s(R₀(v)))＝0，f₀(u,v)＝f_-1(u,v)+0＝0+0＝0，当k＝1时，两个顶点u，v的有序度序列分别为[1,2,3,4]和[4,5,6]，根据DTW的距离计算方式可以计算得到g(s(R₁(u)),s(R₁(v)))＝9，f₁(u,v)＝f₀(u,v)+9＝0+9＝9同理，当k＝2时，两个顶点u，v的有序度序列分别为[2,3,4,5]和[4,5,6,7,8]，根据DTW的距离计算方式可以计算得到g(s(R₂(u)),s(R₂(v)))＝13，f₂(u,v)＝f₁(u,v)+13＝9+13＝22。

通过上述步骤可以计算出一度交易网络中指定k后任意两个顶点之间的距离。

步骤3，根据一度交易网络的直径计算一度交易网络中任意两个顶点的距离，若一度交易网络的直径为2，则在k层中两个顶点的边权的定义为：

通过有向边将属于网络结构中不同层次的同一顶点连接起来，具体来说，对每个顶点，都会和其对应的上层顶点还有下层顶点相连，以k＝1，上述顶点u为例：

w(u₁,u₂)＝log(Г₁(u)+e)，w(u₁,u₀)＝1

其中Г₁(u)是第1层与u相连的边的边权大于平均边权的边的数量。若Г₁(u)＝2，则w(u₁,u₂)＝log(2+e)。

通过上述步骤可以计算出层次带权图中的任意两个顶点的边的权重。

以步骤2中所述顶点u为例，设当前处于第1层，若在当前层游走，则从顶点u到顶点v的概率为：其中/>是第1层中关于顶点u的归一化因子。

若切换不同的层，则以如下的概率选择k+1层或k-1层，

p₁(u₁,u₀)＝1-p₁(u₁,u₂)＝1-log(2+e)。

通过上述方式可以确定在获取顶点序列过程中选择哪个邻居节点作为序列的下一个顶点，进而实现在有向带权图上进行有偏随机游走。

步骤5，根据步骤4中获取的顶点序列作为训练数据，采用Skip-Gram算法嵌入得到一度交易网络中每个顶点的低维特征，得到庞氏合约与非庞氏合约的特征用于训练随机森林分类器。

本实施例在步骤1中选取190个合约地址作为训练数据，其余合约地址作为测试数据，通过步骤2～4所设定的距离设定方式、层次带权图的构建方式、有偏随机游走策略获取顶点序列后作为步骤5中Skip-Gram的输入，对每个合约地址提取128维特征作为步骤6的分类依据，实验取得的f1-scrore为0.8076923076923077。

由于本发明在将样本的高维特征嵌入到低维空间的过程使用了Skip-Gram算法，因此可以提前到较为维度的特征，同时能够充分将合约的交易信息编码到最终的表示向量中，因此在识别合约是否为庞氏骗局合约任务中可以有效的提升分类效果。由于步骤4设计的有偏随机游走方法，每次采样的顶点更倾向于选择与当前顶点结构相似的顶点，采样生成的上下文顶点很可能是结构相似的顶点，因此更容易查找出相互关联的骗局。

本实施例中所选取的场景为识别以太坊上的庞氏骗局合约，除此场景外，其他的交易网络与社交网络情景下的网络节点分类任务本发明同样适用。

可选的，本发明还提供一种识别以太坊上庞氏骗局的设备，包括但不限于一个或多个处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现本发明所述识别以太坊上庞氏骗局的方法的部分步骤或所有步骤。

所述识别以太坊上庞氏骗局的的设备可以是笔记本电脑、平板电脑、桌面型计算机或工作站。

处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。

对于本发明所述存储器，可以是笔记本电脑、平板电脑、桌面型计算机、手机或工作站的内部存储单元，如内存、硬盘；也可以采用外部存储单元，如移动硬盘、闪存卡。

计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance)。

Claims

1.一种识别以太坊上庞氏骗局的方法，其特征在于，包括以下步骤：

步骤1，根据以太坊的交易记录建立一度交易网络；

步骤2：通过比较一度交易网络中两个顶点之间距离为设定值的环路上的有序度序列，计算一度交易网络中任意两个顶点的层次化衡量结构相似度，得到任意两个顶点之间的权重；

步骤4，通过有偏随机游走步骤3所得带权图获取顶点序列；

步骤5，使用NLP中的Skip-Gram算法根据顶点序列获取每个顶点的特征向量；

步骤6，使用随机森林分类器识别顶点所表示的合约是否为庞氏骗局合约；

所述步骤1中根据以太坊的交易记录建立一度交易网络的具体过程是：在以太坊的交易历史中提取包含用于训练的已知的庞氏合约地址、非庞氏合约地址与待识别的合约地址的交易记录，并筛掉其中交易金额为0的交易与失败交易，以去除交易金额为0的交易与失败交易的所有交易相关的地址作为顶点，以所述交易作为边构建一度交易网络；

令R_k(u)表示到顶点u距离为设定值k的顶点集合，则R₁(u)表示是u的直接相连近邻集合；

令s(S)表示顶点集合S的有序度序列；

f_k(u,v)＝f_k-1(u,v)+g(s(R_k(u)),s(R_k(v)))，k≥0且|R_k(u)|，|R_k(v)|＞0

所述步骤3中对于每一个k都能计算出两个顶点之间的一个距离，通过步骤2得到的顶点之间的有序度序列距离来构建一个层次化的带权图用于有偏随机游走；

在某一层k中两个顶点的边权的定义为：

所述边权都是小于1的，当且仅当距离为0的是时候，边权为1；

w(u_k,u_k+1)＝log(Г_k(u)+e),k＝0,...,k^*，w(u_k,u_k-1)＝1

其中Г_k(u)是第k层与u相连的边的边权大于平均边权的边的数量，其中1(·)表示1-范数，/>就是第k层所有边权的平均值；

若切换不同的层，则以如下的概率选择k+1层或k-1层游走

p_k(u_k,u_k-1)＝1-p_k(u_k,u_k+1)。

2.如权利要求1所述的识别以太坊上庞氏骗局的方法，其特征在于，步骤5中，使用步骤4中获取的顶点序列作为Skip-Gram算法的训练数据，获取每个顶点的特征向量。

3.如权利要求1所述的识别以太坊上庞氏骗局的方法，其特征在于，步骤6中，使用步骤5获取的庞氏合约与非庞氏合约的特征训练随机森林分类器，并使用训练好的随机森林分类器对未知类型的合约地址是否为庞氏合约进行识别。

4.一种识别以太坊上庞氏骗局的系统，其特征在于，用于实现权利要求1-3任一项所述识别以太坊上庞氏骗局的方法，包括：一度交易网络构建模块、带权图构建模块、顶点序列获取模块、特征向量提取模块以及识别判断模块；

一度交易网络构建模块根据以太坊的交易记录建立一度交易网络；通过比较一度交易网络中两个顶点之间距离为k的环路上的有序度序列计算一度交易网络中任意两个顶点的层次化衡量结构相似度；

顶点序列获取模块通过有偏随机游走步骤3所得带权图获取顶点序列；

5.一种计算机设备，其特征在于，包括一个或多个处理器以及存储器，存储器用于存储计算机可执行程序，处理器从存储器中读取部分或全部所述计算机可执行程序并执行，处理器执行部分或全部计算可执行程序时能实现权利要求1～3任一项所述识别以太坊上庞氏骗局的方法。

6.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时，能实现如权利要求1-3任一项所述的识别以太坊上庞氏骗局的方法。