CN116361719B - 一种以太坊网络钓鱼用户的检测方法和系统 - Google Patents
一种以太坊网络钓鱼用户的检测方法和系统 Download PDFInfo
- Publication number
- CN116361719B CN116361719B CN202310307437.9A CN202310307437A CN116361719B CN 116361719 B CN116361719 B CN 116361719B CN 202310307437 A CN202310307437 A CN 202310307437A CN 116361719 B CN116361719 B CN 116361719B
- Authority
- CN
- China
- Prior art keywords
- node
- transaction
- transition probability
- user
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 151
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 230000007704 transition Effects 0.000 claims description 103
- 238000000034 method Methods 0.000 claims description 30
- 238000005295 random walk Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 15
- 239000011159 matrix material Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 235000006679 Mentha X verticillata Nutrition 0.000 description 1
- 235000002899 Mentha suaveolens Nutrition 0.000 description 1
- 235000001636 Mentha x rotundifolia Nutrition 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/389—Keeping log of transactions for guaranteeing non-repudiation of a transaction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Accounting & Taxation (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及以太坊网络安全技术领域,为一种以太坊网络钓鱼用户的检测方法和系统,构建了含有节点交易信息的用户交易网络,并基于用户交易网络中节点交易信息,获得的节点的拓扑结构嵌入向量和节点的属性嵌入向量,经融合后,再经分类,可获得用户属性,该检测方法以节点的交易信息作为检测数据,获取用户属性,在保证了检测结果准确的基础上,节省检测时间,提高检测效率。
Description
技术领域
本发明涉及以太坊网络安全技术领域,具体为一种以太坊网络钓鱼用户的检测方法和系统。
背景技术
区块链起源于比特币,具有去中心化、不可篡改性、开放性和透明性等特点,可以有效,可核实和永久地记录双方之间的交易。
由于传统的网络钓鱼诈骗大多依靠钓鱼邮件和钓鱼网站获取用户的敏感信息,现有的网络钓鱼检测方法通常侧重于如何检测含有钓鱼诈骗信息的邮件或网站,这样检测效率不仅低,而且检测质量较差。
发明内容
本发明的目的提供了一种以太坊网络钓鱼用户的检测方法和系统。
本发明技术方案如下:
本发明提供一种以太坊网络钓鱼用户的检测方法,包括如下操作:
S1获取用户以太坊交易数据,对所述用户以太坊交易数据进行预处理,构建含有节点交易信息的用户交易网络;
S2基于所述用户交易网络中的节点交易信息,采用有偏的随机游走方法,根据交易边的权重进行有选择的随机游走,得到节点结构特征序列;所述节点结构特征序列经词向量学习后,得到节点的拓扑结构嵌入向量;
S3基于节点的属性特征,得到节点的属性嵌入向量;
S4将所述节点的拓扑结构嵌入向量和节点的属性嵌入向量进行融合,获得节点的融合嵌入向量;
S5对所述节点的融合嵌入向量进行分类,基于分类结果,获得用户属性。
如上所述的检测方法,所述S2中有偏的随机游走方法为将交易边的权重转化为转移概率来进行有偏的随机游走,所述转移概率为交易金额转移概率、交易次数转移概率、交易时间转移概率或/和交易金额-时间-次数转移概率。
其中,基于所述交易金额转移概率、交易时间转移概率、交易次数转移概率和交易金额-时间-次数转移概率,获得所述最优转移概率;所述S2中根据所述最优转移概率来进行有偏的随机游走。
所述最优转移概率通过以下操作确定:
当超参数小于0.5时,所述最优转移概率P(u,v)=αPA(u,v)·(1-α)PC(u,v);
当超参数等于0.5时,所述最优转移概率P(u,v)=PS(u,v);
当超参数大于0.5时,所述最优转移概率P(u,v)=αPT(u,v)·(1-α)PC(u,v);
PA(u,v)为节点u与v间的交易金额转移概率,PT(u,v)为节点u与v间的交易时间转移概率,PC(u,v)为节点u与v间的交易次数转移概率,PS(u,v)为节点u与v间的交易金额-时间-次数转移概率,α为偏差参数。
获取所述交易金额-时间-次数转移概率的操作具体为:将所述节点交易信息中的交易金额、交易时间和交易次数分别经标准化处理后,进行注意力自适应机制处理,经融合后,获得交易金额、交易时间和交易次数的聚合权重,基于所述聚合权重,得到所述交易金额-时间-次数转移概率。
如上所述的检测方法,所述S4的操作具体为:分别对所述节点的拓扑结构嵌入向量和节点的属性嵌入向量进行注意力自适应机制处理,获得拓扑结构注意力权重值和属性注意力权重值,根据所述拓扑结构注意力权重值和节点的拓扑结构嵌入向量的乘积,与所述属性注意力权重值和节点的属性嵌入向量的乘积之和,获得所述节点的融合嵌入向量。
其中,所述注意力自适应机制的操作具体为:分别对所述节点的拓扑结构嵌入向量和节点的属性嵌入向量进行线性变换,基于共享的注意力向量,获得拓扑结构注意力系数和属性注意力权重系数,分别对所述拓扑结构注意力系数和属性注意力权重系数进行归一化处理,获得所述拓扑结构注意力权重值和属性注意力权重值。
如上所述的检测方法,所述S4的操作之后还包括:将头节点的融合嵌入向量作为训练集,利用所述训练集训练自监督的回归模型,获得训练自监督的回归模型,利用所述训练自监督的回归模型预测尾节点的嵌入向量,获得尾节点的增强嵌入向量;所述S5对所述尾节点的增强嵌入向量进行分类;所述头节点和尾节点根据节点度数进行划分。
如上所述的检测方法,所述S1中预处理的操作具体为:对所述用户以太坊数据中每个以太坊地址进行编号,删除用户交易数据中交易金额为0的交易记录,删除调用和创建智能合约的记录边,统计处理完后每对节点间交易的数量,构建带有交易金额、交易时间和交易次数的所述用户交易网络。
本发明提供一种以太坊网络钓鱼用户的检测系统,包括:
用户交易网络生成模块,用于获取用户以太坊交易数据,对所述用户以太坊交易数据进行预处理,构建含有节点交易信息的用户交易网络;
节点的拓扑结构嵌入向量生成模块,用于基于所述用户交易网络中的节点交易信息,采用有偏的随机游走方法,根据交易边的权重进行有选择的随机游走,得到节点结构特征序列;所述节点结构特征序列经词向量学习后,得到节点的拓扑结构嵌入向量;
节点的属性嵌入向量生成模块,用于基于节点的属性特征,得到节点的属性嵌入向量;
节点的融合嵌入向量生成模块,用于将所述节点的拓扑结构嵌入向量和节点的属性嵌入向量进行融合,获得节点的融合嵌入向量;
用户属性生成模块,用于对所述节点的融合嵌入向量进行分类,基于分类结果,获得用户属性。
本发明的有益效果在于:
本发明提供了一种以太坊网络钓鱼用户的检测方法,利用预处理后的用户以太坊交易数据,构建含有节点交易信息的用户交易网络,并基于用户交易网络中节点交易信息,获得的节点的拓扑结构嵌入向量和节点的属性嵌入向量,经融合后,获得节点的融合嵌入向量,节点的融合嵌入向量经分类后,可获得用户属性,该检测方法以节点的交易信息作为检测数据,获取用户标签属性,在保证了检测结果准确的基础上,节省检测时间,提高检测效率;
本发明提供了一种以太坊网络钓鱼用户的检测方法,基于交易金额转移概率、交易时间转移概率、交易次数转移概率和交易金额-时间-交易次数转移概率,使用超参数控制节点行走偏好,获得捕捉信息能力更强的最优转移概率,有利于节点快速选择到与其更相似的节点,获得丰富的节点的拓扑结构嵌入向量,提高了钓鱼用户检测准确度以及检测效率;
本发明提供了一种以太坊网络钓鱼用户的检测方法,利用头节点训练的回归模型,对尾节点进行增强处理,可使尾节点摆脱邻域稀疏性对节点嵌入的影响,解决了现有的方法中尾节点的嵌入向量学习不完备的问题,使尾节点的嵌入向量包含更多的结构信息,使其质量更接近于头节点的嵌入向量,丰富了节点的融合嵌入向量中的信息,便于准确检测中钓鱼用户,提高检测方法的准确度。
附图说明
通过阅读下文优选实施方式的详细描述,本申请的方案和优点对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
在附图中:
图1为实施例中检测方法的流程示意图;
图2为实施例中检测系统的结构示意图;
图3为实施例中检测设备的结构示意图。
具体实施方式
下面将结合附图更详细地描述本公开的示例性实施方式。
实施例
本实施例提供了一种以太坊网络钓鱼用户的检测方法,参见图1,包括如下操作:
S1获取用户以太坊交易数据,对所述用户以太坊交易数据进行预处理,构建含有节点交易信息的用户交易网络;
S2基于所述用户交易网络中的节点交易信息,采用有偏的随机游走方法,根据交易边的权重进行有选择的随机游走,得到节点结构特征序列;所述节点结构特征序列经词向量学习后,得到所述节点的拓扑结构嵌入向量;
S3基于节点的属性特征,得到节点的属性嵌入向量;
S4将所述节点的拓扑结构嵌入向量和节点的属性嵌入向量进行融合,获得节点的融合嵌入向量;
S5对所述节点的融合嵌入向量进行分类,基于分类结果,获得用户属性。
具体为:
S1获取用户以太坊交易数据,对用户以太坊交易数据进行预处理,构建含有节点交易信息的用户交易网络。
获取用户以太坊交易数据。为了进行以太坊网络钓鱼诈骗检测,我们需要获取以太坊的交易数据集。由于以太坊的透明性和开放性,所有以太坊交易记录都可以访问。我们可以通过以太坊客户端(例如:Bitcoin Core和Geth)同步以太坊的所有历史交易记录,并使用Etherscan(Ethersanc.io)提供的API查询并爬取每个账户的交易信息,以此获取用户以太坊交易数据。
预处理用户以太坊数据。预处理用户以太坊交易数据,构建一个带有交易金额信息、交易时间信息、交易次数信息的有向有权网络,即用户交易网络。具体为:对用户以太坊数据中每个以太坊地址进行编号,删除用户交易数据中交易金额为0的交易记录,删除调用和创建智能合约的记录边,统计处理完后每对节点间交易的数量,构建带有交易金额、交易时间和交易次数的用户交易网络。用户交易网络可以表示为一个四元组:G(V,E,X,Y),V为用户节点集合,E为交易记录边集合,X为边属性集合,Y为节点标签集合。
S2基于用户交易网络中的节点交易信息,采用有偏的随机游走方法,根据交易边的权重进行有选择的随机游走,得到节点结构特征序列;节点结构特征序列经词向量学习后,得到节点的拓扑结构嵌入向量。
获得节点结构特征序列。基于用户交易网络中的节点交易信息,采用有偏的随机游走方法,根据交易边的权重进行有选择的随机游走,得到节点结构特征序列。
有偏的随机游走方法为:将交易边的权重转化为转移概率来进行有偏的随机游走,转移概率为交易金额转移概率或/和交易次数转移概率或/和交易时间转移概率或/和交易金额-时间-次数转移概率。
以往在获得节点结构特征序列时,通常会使用随机游走策略来关注基于节点之间交易信息,形成的转移概率捕捉信息能力较弱,节点结构特征序列信息不丰富。因此为了获得信息丰富的结构特征节点序列,基于交易金额转移概率、交易时间转移概率、交易次数转移概率和交易金额-时间-次数转移概率,获得最优转移概率,基于最优转移概率进行有偏的随机游走。这样,用户交易网络中的所有节点在搜索线路中,会根据最优转移概率在给定搜索线路的序列长度中来选择与其相似度更高的节点,然后将其放入一个文件当中,输出获得节点结构特征序列。
为了获得最优转移概率,引入超参数q。通过对超参数q数值的设置,控制节点行走偏好。可以使用Auto ML等自动调参算法对超参数q进行调节。
超参数q用于控制节点行走偏好,可通过控制节点向更远方向游走概率,来控制节点寻找与其相似度高的其他节点数量,从而达到控制节点结构特征序列信息丰富的目的。当超参数q=0.5时,会限制游走序列中出现重复的结点,防止游走掉头,促进游走向更远的地方进行,这样可以获得信息丰富的节点结构特征序列。
引入超参数q后,最优转移概率可以做如下设置:
当超参数小于0.5时,所述最优转移概率P(u,v)=αPA(u,v)·(1-α)PC(u,v);
当超参数等于0.5时,所述最优转移概率P(u,v)=PS(u,v);
当超参数大于0.5时,所述最优转移概率P(u,v)=αPT(u,v)·(1-α)PC(u,v);PA(u,v)为节点u与v间的交易金额转移概率,PT(u,v)为节点u与v间的交易时间转移概率,PC(u,v)为节点u与v间的交易次数转移概率,PS(u,v)为节点u与v间的交易金额-时间-次数转移概率,α为偏差参数,α可平衡不同转移概率的影响。
获得交易金额转移概率。较大的交易金额意味着两个节点之间的关系越紧密,在基于交易金额的有偏采样下,从节点u到邻居节点x∈Nu的交易金额转移概率PA(u,v)可通过下列计算公式得到:
是节点u与所有与其发生过交易的节点之间的所有最大交易金额之和,MAXA(u,v)指的是节点u与其相邻节点v之间的最大交易金额。
获得交易时间转移概率。两个节点间交易时间的间距越小意味着两个节点之间的关系越紧密,在基于交易时间的有偏采样下,从节点u到邻居节点x∈Nu的交易时间转移概率PT(u,v)可通过下列计算公式得到:
是节点u与所有与其发生过交易的节点之间的所有最小交易时间差之和,MINT(u,v)指的是节点u与其相邻节点v之间的最小交易时间差。
获得交易时间转移概率。两个节点之间的交易次数越多,则代表它们的关系越紧密。利用交易图中的交易次数信息并将交易次数权重转换为两个节点间的转移概率,从节点u到邻居节点x∈Nu的交易次数转移概率PC(u,v)可通过下列计算公式得到:
是节点u与所有与其发生过交易的节点之间的交易次数之和,Cu,v指的是u节点与其一个相邻节点v之间发生过的交易次数。
获得交易金额-时间-次数转移概率。将节点交易信息中的交易金额、交易时间和交易次数分别经标准化处理后,进行注意力自适应机制处理,经融合后,获得交易金额、交易时间和交易次数的聚合权重,基于所述聚合权重,得到所述交易金额-时间-次数转移概率。
分别对交易金额、交易时间和交易次数这三种节点交易信息进行标准化处理,可得到节点之间的交易金额权重信息、交易时间权重信息和交易次数权重信息。以节点u和节点v为例,分别标准化处理节点u和节点之间的交易金额、交易时间和交易次数后,得到标准化后节点u和节点v之间的交易金额权重信息w′u,v,标准化后节点u和节点v之间的交易时间权重信息t′u,v,标准化后节点u和节点v之间的交易次数权重信息c′u,v。
接着,采用注意力自适应机制来分别自动学习处理w′u,v、t′u,v和c′u,v的重要性,以便后续更好融合它们。其中,注意力自适应机制可以通过以下计算公式实现:
(aw,at,ac)=att(w′u,v,t′u,v,c′u,v)
aw为节点u和v之间的交易金额的注意力权重值,at为节点u和v之间的交易时间的注意力权重值,ac为节点u和v之间的交易次数的注意力权重值。
将交易金额的注意力权重值aw,交易时间的注意力权重值at,交易次数的注意力权重值ac进行融合,获得包含交易金额、交易时间和交易次数信息的权重边,即聚合权重Su,v,融合计算公式为:
Su,v=aw·w′u,v+at·t′u,v+cw·c′u,v
若节点间的聚合权重越大,则代表它们的关系越紧密,对中心节点的影响越大。利用交易图中的聚合权重,将其转换为两个节点间的转移概率,设从某节点u出发,到节点u的一阶邻居节点v的转移概率PS(u,v)的计算公式为:
其中MAX Su,v指的是聚合后节点u与节点v之间的最大权重,指的是节点u与所有与其发生过交易的节点之间的聚合权重。
上述操作可以将网络表示学习方法-node2vec作为计算载体,获得节点结构特征序列。
获得节点的拓扑结构嵌入向量。节点结构特征序列经词向量学习后,获得节点的拓扑结构嵌入向量
在本实施例,采用词向量学习方法,来学习节点结构特征序列中的拓扑结构特征,获得每个节点对应的网络表示向量,即拓扑结构嵌入向量HM。
具体为,通过最大化有着共同的邻居的节点在向量空间的距离,将节点映射到低维的向量空间为目标建立目标函数f:GM→Rn*d,f为每个节点嵌入向量的映射函数,GM为节点结构特征序列,R为学习后生成的参数矩阵,有n行d列,n是节点的个数,d是每个节点拓扑嵌入的维度,最终学习获得蕴含着节点的拓扑结构信息的拓扑结构嵌入向量HM。
上述操作可以将Word2vec方法中的skip-gram模型作为计算载体,获得节点的拓扑结构嵌入向量。
S3基于节点的属性特征,得到节点的属性嵌入向量。
在用户交易网络中增加属性信息,获得节点属性特征,对节点属性特征进行映射处理,获得节点的属性嵌入向量。
属性信息包括:传输特征和状态特征。传输特征包括:用户的传出交易数、传入交易数、传出交易数与传入交易数的比率、传入交易中的以太币平均值、传出交易中的平均值、传入交易的平均以太币与传出交易中平均以太币的比率。状态特征包括:用户的账户余额、涉及的交易数量、收到的以太币金额、发送的以太币数量、收到以太币与发送以太币的比率。在用户交易网络中增加了属性信息,可获得一个新的信息网络-用户属性网络。用户属性网络表示为一个三元组G(V,E,Z),其中V为用户属性网络中的用户节点集合,E∈Rn×n是n个节点的对称邻接矩阵,Z为用户属性网络中节点的属性特征矩阵,Z∈Rn×c,R为一个属性矩阵,n为节点数量,c为节点属性维度。
在本实施中,将节点属性信息映射到低维的向量空间为目标,建立目标函数f:Gz→Rn×d,通过将属性图中节点的属性信息输入到一个包含K层的自动编码器中,以捕获节点属性特征中的高度非线性信息,获得每个节点包含了属性信息的节点的属性嵌入向量HZ。
自动编码器中,计算公式如下:
hi=σ(W(1)xi+b(1)),x′i=σ(W(2)hi+b(2))
hi是编码器隐藏层的输出,xi是节点i的输入特征,xi'是解码器的重构输出,W1、W2是可训练的权重矩阵,b1、b2是偏置参数,σ是激活函数。
为提升节点的属性嵌入向量HZ的准确度,通过最小化重构误差,来学习优化自动编码器的参数,使得自动编码器最终输出准确度更高的节点的属性嵌入向量HZ,计算公式如下:
为捕获节点属性中的高度非线性,我们共使用了L层的编码器相应的解码器也有L层。
…
其中编码器的第L层输出就是想要的节点i的嵌入向量:
S4将节点的拓扑结构嵌入向量和节点的属性嵌入向量进行融合,获得节点的融合嵌入向量。
分别对节点的拓扑结构嵌入向量和节点的属性嵌入向量进行注意力自适应机制处理,获得拓扑结构注意力权重值和属性注意力权重值,根据汇总拓扑结构注意力权重值和节点的拓扑结构嵌入向量的乘积,与属性注意力权重值和节点的属性嵌入向量的乘积之和,获得节点的融合嵌入向量。
注意力自适应机制的操作具体为:分别对节点的拓扑结构嵌入向量和节点的属性嵌入向量进行线性变换,基于共享的注意力向量,获得拓扑结构注意力系数和属性注意力权重系数,分别对拓扑结构注意力系数和属性注意力权重系数进行归一化处理,获得拓扑结构注意力权重值和属性注意力权重值。
具体为,节点的拓扑结构嵌入向量和节点的属性嵌入向量/>这两种嵌入向量分别学习了两个不同空间上的信息,为每个节点提供了不同的视图、不同的信息,因此把这两种嵌入信息融合在一起是重要的,为更好融合它们,利用注意力自适应机制来自动学习不同嵌入向量的重要性,获得注意力权重值,计算公式为:
(Am,Az)=att(HM,HZ)
其中Am为HM的n个节点的注意力权重值,AZ为HZ的n个节点的注意力权重值。
为方便本领域的技术人员理解注意力自适应机制处理两种嵌入向量,获得注意力权重值的过程,以关注节点i为例,它在HM中的嵌入是先通过非线性变换对嵌入向量进行变换,然后使用一个共享的注意力向量q∈Rd′×1得到节点i的拓扑结构注意力系数计算公式如下:
其中W∈Rd′×d是权重矩阵,b∈Rd′×1是偏置向量。
用同样的方法,可以得到节点i的属性注意力系数
在归一化处理中,利用softmax函数对拓扑结构注意力系数进行归一化,得到节点i的拓扑结构注意力权重值/>计算公式为:
用同样的方法,可以得到节点i的属性注意力权重值
最后,将节点i的拓扑结构注意力权重值和属性注意力权重值/>进行结合处理,获得节点的融合嵌入向量Zi,计算公式为:
S5对节点的融合嵌入向量进行分类,基于分类结果,获得用户属性。
将节点的融合嵌入向量输入分类器中进行分类,基于分类结果,获得用户标签属性。用户标签属性分为两种情况,一种是钓鱼节点,另一种是正常节点,若是钓鱼节点,则对应的用户就是钓鱼用户了,反之,则为正常用户。
分类器包括但不限于单类支持向量机(One Class Support Vector Machines,one class SVM)、朴素贝叶斯、决策树、随机森林。
在本实施中,选择单类支持向量机作为分类器进行分类处理。
为使节点的融合嵌入向量中的信息更丰富,便于准确对其进行分类,提高用户属性的准确度。在本实施例中,S4的操作之后还包括:将头节点的融合嵌入向量作为训练集,利用训练集训练自监督的回归模型,获得训练自监督的回归模型,利用训练自监督的回归模型预测尾节点的嵌入向量,获得尾节点的增强嵌入向量;上述S5的步骤可对尾节点的增强嵌入向量进行分类;头节点和尾节点根据节点度数进行划分。当节点的度数≥5,则为头节点,当节点的度数小于5,则为尾节点。对尾节点进行增强处理,可使尾节点摆脱邻域稀疏性对节点嵌入的影响,使尾节点的嵌入向量包含更多的结构信息。
为了确保训练回归模型效果更好,使作为训练集的头节点和尾节点更加相似,在本实施例中,对头节点的邻居进行筛减,使头节点的邻居数量与尾节点的邻居数量相等,使能回归处理出高质量的尾节点的增强嵌入向量,计算公式为:
h′u=W2·σ(W1xu+b1)+b2
h′u是输出的尾节点的增强嵌入向量,W1、W2、b1、b2是模型参数,xu是输入的节点v的特征向量,σ是激活函数,并通过最小化损失误差来学习优化训练的回归模型的参数,优化算式为:
hu是初始尾节点嵌入向量。
其中,xu是尾节点的邻域特征,通过聚合其邻居得到:
是与u节点距离为m的邻居,例如:/>是与u节点距离为1的邻居,hi是节点i的嵌入向量,AGGR(·)是聚合器,包括但限于平均池化、LSTM和图卷积等聚合器,此处AGGR()的作用就是将头节点的邻居节点的嵌入向量聚合起来作为输入回归模型的特征向量。
在本实施中,聚合器使用平均池化,因为平均池化的作用效果好。
在自监督的回归模型训练过程中为防止模型过拟合,使用元学习的MAML框架来解决过度拟合问题。它使用基于梯度的优化来学习模型的先验Θ,先验Θ是嵌入回归模型F,由Θ参数化。与模型的简单预训练不同,在元训练中,考虑一个任务Tv=(Sv,qv),Sv={(i,hi);i∈N′u}是元训练的支持集,qv={(v,hv)}是元训练的查询集,hi是节点i的嵌入,N′u}是节点u的采样邻居。先验Θ的学习方式使得Θ可以通过对新任务的支持集执行一次或几次梯度更新来快速适应新任务。模型Θ′由先前的Θ改进而来,是同一任务中查询节点的局部模型。
本实施例提供一种以太坊网络钓鱼用户的检测系统,参见图2,包括:
用户交易网络生成模块,用于获取用户以太坊交易数据,对用户以太坊交易数据进行预处理,构建含有节点交易信息的用户交易网络;
节点的拓扑结构嵌入向量生成模块,用于基于用户交易网络中的节点交易信息,采用有偏的随机游走方法,根据交易边的权重进行有选择的随机游走,得到节点结构特征序列;节点结构特征序列经词向量学习后,得到节点的拓扑结构嵌入向量;
节点的属性嵌入向量生成模块,用于基于节点的属性特征,得到节点的属性嵌入向量;
节点的融合嵌入向量生成模块,用于将节点的拓扑结构嵌入向量和节点的属性嵌入向量进行融合,获得节点的融合嵌入向量;
用户属性生成模块,用于对节点的融合嵌入向量进行分类,基于分类结果,获得用户属性。
本实施例提供一种以太坊网络钓鱼用户的检测设备,参见图3,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现上述的一种以太坊网络钓鱼用户的检测方法。
本实施例提供一种计算机可读存储介质,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现上述的一种以太坊网络钓鱼用户的检测方法。
本实施例提供了一种以太坊网络钓鱼用户的检测方法,利用预处理后的用户以太坊交易数据,构建含有节点交易信息的用户交易网络,并基于用户交易网络中节点交易信息,获得的节点的拓扑结构嵌入向量和节点的属性嵌入向量,经融合后,获得节点的融合嵌入向量,节点的融合嵌入向量经分类后,可获得用户属性,该检测方法以节点的交易信息作为检测数据,获取用户标签属性,在保证了检测结果准确的基础上,节省检测时间,提高检测效率,且该方法能够针对以太坊平台的钓鱼诈骗问题提供对交易数据及地址节点的检测,可以在用户进行交易时给出有效的交易风险评估。
本发明提供了一种以太坊网络钓鱼用户的检测方法,基于交易金额转移概率、交易时间转移概率、交易次数转移概率和交易金额-时间-交易次数转移概率,使用超参数控制节点行走偏好,获得捕捉信息能力更强的最优转移概率,有利于节点快速选择到与其更相似的节点,获得信息丰富的节点的拓扑结构嵌入向量,提高了钓鱼用户检测准确度以及检测效率。
本发明提供了一种以太坊网络钓鱼用户的检测方法,利用头节点训练后的回归模型对节点中的尾节点进行增强处理,可使尾节点摆脱邻域稀疏性对节点嵌入的影响,解决了现有的钓鱼节点检测方法中尾节点的嵌入向量学习不完备的问题,使尾节点的嵌入向量包含更多的结构信息,使其质量更接近于头节点的嵌入向量,丰富了节点的融合嵌入向量中的信息,便于准确检测中钓鱼用户,提高检测方法的准确度。
Claims (6)
1.一种以太坊网络钓鱼用户的检测方法,其特征在于,包括如下操作:
S1 获取用户以太坊交易数据,对所述用户以太坊交易数据进行预处理,构建含有节点交易信息的用户交易网络;
S2 基于所述用户交易网络中的节点交易信息,采用有偏的随机游走方法,根据交易边的权重进行有选择的随机游走,得到节点结构特征序列;所述节点结构特征序列经词向量学习后,得到节点的拓扑结构嵌入向量;
所述有偏的随机游走方法为将交易边的权重转化为转移概率来进行有偏的随机游走,所述转移概率为交易金额转移概率、交易次数转移概率、交易时间转移概率或/和交易金额-时间-次数转移概率;
根据最优转移概率来进行所述有偏的随机游走;基于所述交易金额转移概率、交易时间转移概率、交易次数转移概率和交易金额-时间-次数转移概率,获得最优转移概率;
所述最优转移概率通过以下操作确定:
当超参数小于0.5时,所述最优转移概率P (u,v) =αP A (u,v)·(1-α)P C (u,v);
当超参数等于0.5时,所述最优转移概率P (u,v) =P S (u,v);
当超参数大于0.5时,所述最优转移概率P (u,v) =αP T (u,v)·(1-α)P C (u,v);
P A (u,v)为节点u与v间的交易金额转移概率,P T (u,v)为节点u与v间的交易时间转移概率,P C (u,v)为节点u与v间的交易次数转移概率,P S (u,v)为节点u与v间的交易金额-时间-次数转移概率,α为偏差参数;
将节点交易信息中的交易金额、交易时间和交易次数分别经标准化处理后,进行注意力自适应机制处理,经融合后,获得交易金额、交易时间和交易次数的聚合权重,基于所述聚合权重,得到所述交易金额-时间-次数转移概率;
S3 基于节点的属性特征,得到节点的属性嵌入向量;
S4 将所述节点的拓扑结构嵌入向量和节点的属性嵌入向量进行融合,获得节点的融合嵌入向量;
S5 对所述节点的融合嵌入向量进行分类,基于分类结果,获得用户属性。
2.根据权利要求1所述的检测方法,其特征在于,所述S4的操作具体为:
分别对所述节点的拓扑结构嵌入向量和节点的属性嵌入向量进行注意力自适应机制处理,获得拓扑结构注意力权重值和属性注意力权重值,根据所述拓扑结构注意力权重值和节点的拓扑结构嵌入向量的乘积,与所述属性注意力权重值和节点的属性嵌入向量的乘积之和,获得所述节点的融合嵌入向量。
3.根据权利要求2所述的检测方法,其特征在于,所述注意力自适应机制的操作具体为:
分别对所述节点的拓扑结构嵌入向量和节点的属性嵌入向量进行线性变换,基于共享的注意力向量,获得拓扑结构注意力系数和属性注意力权重系数,分别对所述拓扑结构注意力系数和属性注意力权重系数进行归一化处理,获得所述拓扑结构注意力权重值和属性注意力权重值。
4.根据权利要求1所述的检测方法,其特征在于,所述S4的操作之后还包括:
将头节点的融合嵌入向量作为训练集,利用所述训练集训练自监督的回归模型,获得训练自监督的回归模型,利用所述训练自监督的回归模型预测尾节点的嵌入向量,获得尾节点的增强嵌入向量;
所述S5对所述尾节点的增强嵌入向量进行分类;
所述头节点和尾节点根据节点度数进行划分。
5.根据权利要求1所述的检测方法,其特征在于,所述S1中预处理的操作具体为:
对所述用户以太坊数据中每个以太坊地址进行编号,删除用户交易数据中交易金额为0的交易记录,删除调用和创建智能合约的记录边,统计处理完后每对节点间交易的数量,构建带有交易金额、交易时间和交易次数的所述用户交易网络。
6.一种以太坊网络钓鱼用户的检测系统,其特征在于,包括:
用户交易网络生成模块,用于获取用户以太坊交易数据,对所述用户以太坊交易数据进行预处理,构建含有节点交易信息的用户交易网络;
节点的拓扑结构嵌入向量生成模块,用于基于所述用户交易网络中的节点交易信息,采用有偏的随机游走方法,根据交易边的权重进行有选择的随机游走,得到节点结构特征序列;所述节点结构特征序列经词向量学习后,得到节点的拓扑结构嵌入向量;所述有偏的随机游走方法为将交易边的权重转化为转移概率来进行有偏的随机游走,所述转移概率为交易金额转移概率、交易次数转移概率、交易时间转移概率或/和交易金额-时间-次数转移概率;根据最优转移概率来进行所述有偏的随机游走;基于所述交易金额转移概率、交易时间转移概率、交易次数转移概率和交易金额-时间-次数转移概率,获得最优转移概率;所述最优转移概率通过以下操作确定:当超参数小于0.5时,所述最优转移概率P (u,v) =αP A (u, v)·(1-α)P C (u,v);当超参数等于0.5时,所述最优转移概率P (u,v) =P S (u,v);当超参数大于0.5时,所述最优转移概率P (u,v) =αP T (u,v)·(1-α)P C (u,v);P A (u,v)为节点u与v间的交易金额转移概率,P T (u,v)为节点u与v间的交易时间转移概率,P C (u,v)为节点u与v间的交易次数转移概率,P S (u,v)为节点u与v间的交易金额-时间-次数转移概率,α为偏差参数;将节点交易信息中的交易金额、交易时间和交易次数分别经标准化处理后,进行注意力自适应机制处理,经融合后,获得交易金额、交易时间和交易次数的聚合权重,基于所述聚合权重,得到所述交易金额-时间-次数转移概率;
节点的属性嵌入向量生成模块,用于基于节点的属性特征,得到节点的属性嵌入向量;
节点的融合嵌入向量生成模块,用于将所述节点的拓扑结构嵌入向量和节点的属性嵌入向量进行融合,获得节点的融合嵌入向量;
用户属性生成模块,用于对所述节点的融合嵌入向量进行分类,基于分类结果,获得用户属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310307437.9A CN116361719B (zh) | 2023-03-27 | 2023-03-27 | 一种以太坊网络钓鱼用户的检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310307437.9A CN116361719B (zh) | 2023-03-27 | 2023-03-27 | 一种以太坊网络钓鱼用户的检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116361719A CN116361719A (zh) | 2023-06-30 |
CN116361719B true CN116361719B (zh) | 2024-02-02 |
Family
ID=86930003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310307437.9A Active CN116361719B (zh) | 2023-03-27 | 2023-03-27 | 一种以太坊网络钓鱼用户的检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116361719B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112738034A (zh) * | 2020-12-17 | 2021-04-30 | 杭州趣链科技有限公司 | 一种基于垂直联邦学习的区块链钓鱼节点检测方法 |
CN113364748A (zh) * | 2021-05-25 | 2021-09-07 | 浙江工业大学 | 一种基于交易子图网络的以太坊钓鱼节点检测方法及系统 |
CN113961759A (zh) * | 2021-10-22 | 2022-01-21 | 北京工业大学 | 基于属性图表示学习的异常检测方法 |
WO2022059107A1 (ja) * | 2020-09-16 | 2022-03-24 | 日本電信電話株式会社 | 検知装置、検知方法及び検知プログラム |
CN114612235A (zh) * | 2022-03-09 | 2022-06-10 | 烟台大学 | 一种基于图嵌入的区块链异常行为检测方法 |
CN114782051A (zh) * | 2022-05-06 | 2022-07-22 | 东北大学 | 基于多特征学习的以太坊钓鱼诈骗账户检测装置及方法 |
CN115378629A (zh) * | 2022-05-13 | 2022-11-22 | 北京邮电大学 | 基于图神经网络的以太坊网络异常检测方法、系统和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8955129B2 (en) * | 2013-04-23 | 2015-02-10 | Duke University | Method and system for detecting fake accounts in online social networks |
-
2023
- 2023-03-27 CN CN202310307437.9A patent/CN116361719B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022059107A1 (ja) * | 2020-09-16 | 2022-03-24 | 日本電信電話株式会社 | 検知装置、検知方法及び検知プログラム |
CN112738034A (zh) * | 2020-12-17 | 2021-04-30 | 杭州趣链科技有限公司 | 一种基于垂直联邦学习的区块链钓鱼节点检测方法 |
CN113364748A (zh) * | 2021-05-25 | 2021-09-07 | 浙江工业大学 | 一种基于交易子图网络的以太坊钓鱼节点检测方法及系统 |
CN113961759A (zh) * | 2021-10-22 | 2022-01-21 | 北京工业大学 | 基于属性图表示学习的异常检测方法 |
CN114612235A (zh) * | 2022-03-09 | 2022-06-10 | 烟台大学 | 一种基于图嵌入的区块链异常行为检测方法 |
CN114782051A (zh) * | 2022-05-06 | 2022-07-22 | 东北大学 | 基于多特征学习的以太坊钓鱼诈骗账户检测装置及方法 |
CN115378629A (zh) * | 2022-05-13 | 2022-11-22 | 北京邮电大学 | 基于图神经网络的以太坊网络异常检测方法、系统和存储介质 |
Non-Patent Citations (1)
Title |
---|
一种基于偏置随机游走的属性网络嵌入方法;窦伟等;齐鲁工业大学学报(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116361719A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shu et al. | Meta-weight-net: Learning an explicit mapping for sample weighting | |
US20200380366A1 (en) | Enhanced generative adversarial network and target sample recognition method | |
Zheng et al. | Improvement of generalization ability of deep CNN via implicit regularization in two-stage training process | |
CN111583263B (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN113572742B (zh) | 基于深度学习的网络入侵检测方法 | |
CN112633426B (zh) | 处理数据类别不均衡的方法、装置、电子设备及存储介质 | |
Li et al. | Coupled-view deep classifier learning from multiple noisy annotators | |
Ferreira et al. | Improving credit risk prediction in online peer-to-peer (p2p) lending using imbalanced learning techniques | |
WO2020022144A1 (ja) | 画像認識学習装置、画像認識装置、方法、及びプログラム | |
US20200143209A1 (en) | Task dependent adaptive metric for classifying pieces of data | |
CN113627479B (zh) | 一种基于半监督学习的图数据异常检测方法 | |
Li et al. | An Image Classification Method Based on Optimized Fuzzy Bag-of-words Model. | |
CN116340524A (zh) | 一种基于关系自适应网络的小样本时态知识图谱补全方法 | |
CN115459996A (zh) | 基于门控卷积和特征金字塔的网络入侵检测方法 | |
Gao et al. | Learning from multiple annotator noisy labels via sample-wise label fusion | |
CN114596456A (zh) | 一种基于聚集哈希学习的图像集分类方法 | |
Zhang et al. | Consumer credit risk assessment: A review from the state-of-the-art classification algorithms, data traits, and learning methods | |
Bhowmik et al. | Dbnex: Deep belief network and explainable ai based financial fraud detection | |
CN116361719B (zh) | 一种以太坊网络钓鱼用户的检测方法和系统 | |
CN112270334B (zh) | 一种基于异常点暴露的少样本图像分类方法及系统 | |
Bianchi et al. | Improving image classification robustness through selective cnn-filters fine-tuning | |
CN116883751A (zh) | 基于原型网络对比学习的无监督领域自适应图像识别方法 | |
CN114265954B (zh) | 基于位置与结构信息的图表示学习方法 | |
Chen et al. | Semi-supervised convolutional neural networks with label propagation for image classification | |
CN114358177A (zh) | 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |