CN117371540A - 一种基于深度图神经网络的区块链地址身份推断方法及系统 - Google Patents

一种基于深度图神经网络的区块链地址身份推断方法及系统 Download PDF

Info

Publication number
CN117371540A
CN117371540A CN202311671340.2A CN202311671340A CN117371540A CN 117371540 A CN117371540 A CN 117371540A CN 202311671340 A CN202311671340 A CN 202311671340A CN 117371540 A CN117371540 A CN 117371540A
Authority
CN
China
Prior art keywords
node
layer
transaction
mgpi
full connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311671340.2A
Other languages
English (en)
Other versions
CN117371540B (zh
Inventor
刘炳杉
施俣喆
吴之锦
付章杰
陈北京
袁程胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202311671340.2A priority Critical patent/CN117371540B/zh
Publication of CN117371540A publication Critical patent/CN117371540A/zh
Application granted granted Critical
Publication of CN117371540B publication Critical patent/CN117371540B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度图神经网络的区块链地址身份推断方法及系统,所述区块链地址身份推断方法包括基于采集到的区块链交易数据集生成有向交易网络图,并基于联合子图采样策略得到所述有向交易网络图中每个节点的节点子图,其中,所述有向交易网络图中节点代表区块链上的交易地址,边表示一个交易地址与另一个交易地址之间的交易;将每个节点的节点子图分别输入至预先训练好的多任务身份识别图模型中,输出节点的嵌入表示;将各节点的嵌入表示输入至预先训练好的分类器,利用分类器输出各个身份类别的概率分布,取概率最高的身份类别作为各节点最终的身份标签,完成身份推断。本发明能够提高区块链中交易地址身份推断的精度。

Description

一种基于深度图神经网络的区块链地址身份推断方法及系统
技术领域
本发明属于机器学习在区块链数据分析中的应用领域,具体涉及一种区块链身份推断方法及系统。
背景技术
在区块链技术的应用中,尤其是在区块链网络中,地址的身份推断是一个重要的问题。一方面,由于区块链网络的公开性和透明性,任何人都可以观察到网络中的交易。然而,由于交易数据中的地址是匿名的,因此无法直接从地址得知其背后的身份。这给诸如交易分析、安全审计、欺诈检测等任务带来了困难。
为了解决这个问题,研究者和工程师们已经开发了一些地址身份推断的方法。一种常见的方法是基于手动收集的标签地址,将网络中的交易数据抽象为一个图,然后通过图分析的方法进行身份推断。但是,这种方法有两个主要的问题:一是人工收集的标签地址数量有限,不能覆盖网络中的所有地址;二是传统的图分析方法往往不能很好地处理大规模的图数据,导致地址身份推断的精度不高。
为此,一些研究者开始尝试利用机器学习模型进行地址身份推断。通过对大规模的区块链交易数据进行深度学习,得到网络中地址的嵌入表示,然后基于这些嵌入表示进行身份推断。这种方法不仅可以处理大规模的数据,而且可以自动地学习到复杂的地址间的关系。然而,如何设计和训练机器学习模型实现高精度身份推断仍然是一个挑战。
发明内容
针对上述问题,本发明提出一种基于深度图神经网络的区块链地址身份推断方法及系统,能够提高区块链中交易地址身份推断的精度。
为了实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
第一方面,本发明提供了一种基于深度图神经网络的区块链地址身份推断方法,包括:
基于采集到的区块链交易数据集生成有向交易网络图,并基于联合子图采样策略得到所述有向交易网络图中每个节点的节点子图;所述有向交易网络图中节点代表区块链上的交易地址,边表示一个交易地址与另一个交易地址之间的交易;
将每个节点的节点子图分别输入至预先训练好的多任务身份识别图模型中,输出节点的嵌入表示;
将各节点的嵌入表示输入至预先训练好的分类器,利用分类器输出各个身份类别的概率分布,取概率最高的身份类别作为各节点最终的身份标签,完成身份推断。
可选地,所述多任务身份识别图模型包括:N个串行的MGPI块,第一个MGPI块的输入端用于接入节点子图,其余MGPI块的输入端与前一个MGPI块的输出端相连,第N个MGPI块的输出端输出节点的嵌入表示;
各MGPI块的结构相同,均包含输入层和N个并联的MGPI层,以及并联的第一信息处理单元和第二信息处理单元,所述第一信息处理单元和第二信息处理单元结构相同,均包括顺次设置的全连接层、第一归一化层、前馈层和第二归一化层,所述前馈层和第二归一化层之间设置第二残差连接;各MGPI块的输入层与第一信息处理单元和第二信息处理单元中的第一归一化层之间均设置第一残差连接;
将节点子图中的节点信息与拉普拉斯向量结合后的信息和边信息一起送入N个并行的MGPI层进行处理,每个MGPI层都得到中间结果和 />,其中,/>为节点信息处理的中间结果,/>为边信息处理的中间结果,i代表中心节点的序号,j代表邻居节点的序号,l代表了当前MGPI块的块数,k代表了MGPI层的层数;将N个MGPI层的中间结果/>在最后一维进行连结后依次输入至第一信息处理单元中的全连接层、第一归一化层、前馈层和第二归一化层,得到当前MGPI块的输出/>
将N个MGPI层的中间结果在最后一维进行连结后输入至第二信息处理单元中的中的全连接层、第一归一化层、前馈层和第二归一化层,得到当前MGPI块的输出/>
第N个MGPI块的输出为和/>,/>为节点的嵌入表示,/>为边的嵌入表示。
可选地,所述MGPI层包括顺次设置的全连接层、/>全连接层、/>全连接层、/>全连接层、缩放层、归一化层以及最后的/>全连接层、/>全连接层、n代表节点;其中,/>全连接层将节点特征转换为键表示,用于评估其他节点的查询与中心节点的匹配程度;/>全连接层将节点特征转换为查询表示,用于确定节点应该如何与其邻居节点交互,以及权重大小;/>全连接层将节点特征转换为值表示,当查询与键匹配时,相应的值被用来更新节点的表示;/>全连接层将边的特征转换为边的表示,用于在注意力机制中提供额外的上下文信息;
将中心节点信息输入/>全连接层,得到查询嵌入数据/>,公式如下:
其中,代表/>全连接层中的权重矩阵,/>代表/>全连接层中的偏置项;
将邻居节点信息输入/>全连接层、/>全连接层,得到键嵌入数据/>和值嵌入数据/>,公式如下:
其中,、/>分别代表/>全连接层、/>全连接层中的权重矩阵,/>分别代表/>全连接层、/>全连接层中的偏置项;
输入中心节点与邻居结点间的边信息至/>全连接层,得到边嵌入数据/>,公式如下:
其中,分别代表/>全连接层中的权重矩阵,/>分别代表/>全连接层中的偏置项;
对于查询嵌入数据与键嵌入数据/>,经过/>函数转换,得到/>与/>
函数转换公式如下:
其中,为定义的映射函数,将输入x映射到一个新输出;
,用于提取输入x的特性;
是一个归一化因子,用于保证映射的输出有合适的规模;
为三角函数;/>为确定性向量;
与/>的计算公式如下:
与/>的转置相乘的结果输入至缩放层后,得到中间结果1;
将所述中间结果1与边嵌入数据相乘后,得到中间结果2;
将所述中间结果2输入至全连接层,输出结果再与所述边信息/>相加,得到当前层的一个关于边信息的中间结果输出/>
将所述中间结果1再输入至归一化层,所得结果与所述值嵌入数据相乘后送入全连接层/>,得到中间结果3;
将所述中间结果3与所述中心节点信息相加,得到当前层的另一个关于节点信息的中间结果输出/>
将N个MGPI层的结果在最后一维进行连结后依次输入至第一信息处理单元中的全连接层、第一归一化层、前馈层和第二归一化层,得到当前MGPI块的输出/>
将N个MGPI层的结果在最后一维进行连结后输入至第二信息处理单元中的中的全连接层、第一归一化层、前馈层和第二归一化层,得到当前MGPI块的输出/>
可选地,所述多任务身份识别图模型的训练方法包括:
基于历史采集到的区块链交易数据集生成有向交易网络图,并基于联合子图采样策略得到有向交易网络图中每个节点的节点子图;
将每个节点的节点子图分别输入至预先训练好的多任务身份识别图模型中,输出各节点的嵌入表示;
将各节点的嵌入表示分别输入节点填空网络、子图划分网络以及线性分类器,得到对应的训练预测值;
将各训练预测值分别输入预先设置的损失函数中,计算出相应的训练损失,并基于训练损失通过求加权和得到总损失函数;
以所述总损失函数最小为目标,利用随机梯度下降算法迭代优化损失,反馈更新多任务身份识别图模型的模型参数,完成多任务身份识别图模型的训练。
可选地,每个节点的节点子图的获取方法包括:
将采集到的区块链交易数据集抽象为有向交易网络图;所述区块链交易数据集包括标签地址和交易数据;
基于所述有向交易网络图,利用联合子图采样策略得到联合采样概率,并将所述联合采样概率运用至邻居采样中,得到有向交易网络图中每个节点的节点子图。
可选地,所述联合采样概率的表达式为:
其中,;/>;/>
式中,表示边e的时间戳信息,/>表示所有邻居边的时间戳之和,为考虑时间戳信息时边e的采样概率,/>为邻居节点集合,/>;/>表示边e的交易金额信息,/>表示所有邻居边的交易金额之和,/>为考虑交易金额信息时边e的采样概率,/>表示边e的交易总数信息,/>表示所有邻居边的交易总数之和,/>为考虑交易总数时边e的采样概率;/>表示对应的/>在联合采样概率中的权重;
在利用邻居采样方法生成子图的过程中,对于每个节点,根据联合采样概率选择邻居规划至子图,从而生成每个节点的节点子图。
可选地,所述节点填空网络接收节点嵌入表示,随机地选择一些节点进行屏蔽,利用多任务身份识别图模型预测这些被屏蔽节点的特征;所述子图划分网络接收节点嵌入表示,并将一个子图中所有节点的嵌入表示聚合成一个单一的嵌入表示,所述单一的嵌入表示在一定程度上反映子图的整体特性,并由此判断两个子图的关系为无关系、包含关系还是重叠关系。
可选地,所述线性分类器顺次包含全连接层和激活层;节点嵌入表示输入至全连接层中,再经过激活层,输出每个类别的概率,公示如下:
其中,是节点/>属于类别t的预测概率,/>是权重矩阵,/>是偏置项,/>是输入节点经过模型处理后输出的节点嵌入表示。
可选地,所述总损失函数的获得方法包括:
设定总损失函数L total 包含Focal Loss损失函数L classify 、交叉熵损失函数L divide 、均方差损失函数L fill 、其中L classify 用于线性分类器,L divide 用于子图划分网络、L fill 用于节点填空网络,如下式所示:
L total = L classify +/> L divide +/> L fill
其中,表示权重参数;
计算Focal Loss损失函数L classify 的值,如下式所示:
其中,n是子图中标记地址的总数,是处理级别不平衡问题的加权项,/>是节点/>属于类别t的预测概率,/>是平衡简单和困难样本的调节参数;
计算交叉熵损失函数L divide 的值,如下式所示:
其中,n是子图的总数,M表示子图类别的数量,是子图i属于类别c的预测概率,/>为符号函数,如果样本i的真实类别等于c取1,否则取0;
计算均方差损失函数L fill 的值,如下式所示:
其中,n是子图中标记地址的总数,是节点/>属于类别t的预测概率;/>为符号函数,如果样本i的真实类别等于t取1,否则取0。
第二方面,本发明提供了一种基于深度图神经网络的区块链地址身份推断系统,包括存储介质和处理器;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述的方法。
与现有技术相比,本发明的有益效果:
本发明在处理交易图时,将其划分子图后进行处理,大大降低了计算的复杂性和内存需求,从而提高整体的训练速度。此外,通过在多个子图上进行训练,模型可以从更多的样本中学习,从而获得更强的稳健性和泛化能力。
本发明采用提出的联合采样策略进行子图划分,该策略结合了多个维度的节点信息,实现更好地保持节点的结构和行为特征,这些特征对于后续的身份推断任务至关重要,从而提升了模型的性能和精度。
本发明提出的多任务身份识别图模型,基于Performer模型的结构,该模型能有效地处理图结构数据,更好地抓住节点之间的关系,具有高效率和低内存消耗。
本发明以两个子任务(节点填空、子图划分)推动主任务(节点分类)的多任务方式训练模型,可在不同任务之间共享参数和信息,不仅能够可以减少模型的复杂度和过拟合的风险,还提高模型在未见过的数据上的性能,即提高了模型的泛化能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本发明提出的一种基于深度图神经网络的区块链地址身份推断方法的流程图;
图2是多任务身份识别图模型(MGPI)的模型图。
图3是多任务身份识别图模型(MGPI)中MGPI层的结构示意图。
图4是实验结果经过TSNE可视化后的示意图。
实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例1
如图1所示,一种基于深度图神经网络的区块链地址身份推断方法,能够在有限的内存和时间资源内,不仅能够保持交易图的节点结构和行为特征,还可以实现高精度的地址身份推断,其特征在于:包括以下步骤:
步骤(1),基于历史采集到的区块链上交易数据集构建为有向交易网络图,有向交易网络图中的节点代表区块链上的交易地址,边表示一个交易地址与另一个交易地址之间的交易。
步骤(2),利用联合采样策略,对步骤(1)中构建的有向交易网络图进行邻居采样,以每个节点为中心,生成各节点的节点子图;
步骤(3),将步骤(2)中生成的节点子图输入至多任务身份识别图模型(MGPI)当中,输出节点嵌入表示;
步骤(4),将步骤(3)中的节点嵌入表示输入至节点填空网络,子图划分网络以及线性分类器,得到对应的训练预测值;
步骤(5),将步骤(4)中的训练预测值分别输入预先设置的损失函数中,计算相应的训练损失,并通过加权求和得到总损失函数;
步骤(6),利用随机梯度下降算法迭代优化步骤(5)中的总损失函数,反馈更新模型参数;若连续N轮训练迭代中,总损失无明显改善,则停止迭代,训练完毕,在具体的实施过程中,N根据实际需要进行设计。
步骤(7),在步骤(6)中的迭代完成后,得到训练好的多任务身份识别图模型;
步骤(8),基于采集到的区块链交易数据集生成有向交易网络图,并基于联合子图采样策略得到有向交易网络图中每个节点的节点子图;所述有向交易网络图中节点代表区块链上的交易地址,边表示一个交易地址与另一个交易地址之间的交易;
步骤(9),将每个节点的节点子图分别输入至预先训练好的多任务身份识别图模型中,输出各节点的嵌入表示;
步骤(10)将各节点的嵌入表示输入至预先训练好的分类器,利用分类器输出各个身份类别的概率分布,取概率最高的身份类别作为最终的身份标签,完成身份推断。在具体应用过程中,所述身份类别是区块链上的地址的身份类型,包括交易所、钓鱼诈骗地址等。
本发明提出的一种基于深度图神经网络的区块链地址身份推断方法的流程图,如图1所示。
在步骤(1)中所述的构建有向交易网络图,包括以下步骤,
S1-1数据清洗:对数据集进行清洗和预处理,去除无效或不完整的交易,只保留有效的交易。
S1-2在构建向交易网络图的过程中,每个交易地址可以被视为一个节点,每笔交易可以被视为从发送方到接收方的有向边。边的权重可以根据交易的价值或者其他相关指标来确定。
S1-3 构建向交易网络图:使用Python的DGL框架,根据上一步中确定的节点和边来构建有向交易网络图。
在步骤(2)中的联合采样策略为交易图的邻居采样提供联合采样概率,当以某个节点为中心节点,选择邻居节点构造子图时,根据联合采样概率选择邻居节点,包括以下步骤,
S2-1、用表示节点u的邻居边,其中,N(u) 是节点u的邻居边的集合,Src(e)表示边e的源节点,也就是边e的起点;
对于一个节点v i ,它的邻居节点集合为N(v i ),每个邻居边,考虑其时间戳信息、交易金额信息、源节点和终节点之间的交易总数这三个维度的信息。
S2-2、在时间戳信息维度上,对于每个邻居边,设计采样概率公式如下:
其中,T(e) 表示边e 的时间戳信息,表示所有邻居边的时间戳之和,/>为考虑时间戳信息时边e的采样概率。
S2-3、在交易金额维度上,对于每个邻居边,设计采样概率公式如下:
其中,A(e) 表示边e 的交易金额信息,表示所有邻居边的交易金额之和,/>为考虑交易金额信息时边e的采样概率。
S2-4、在交易总数维度上,对于每个邻居边,设计采样概率公式如下:
其中,D(e) 表示边e 的交易总数信息,表示所有邻居边的交易总数之和,/>为考虑交易总数时边e的采样概率。
S2-5、组合上述的采样概率来计算最终的联合采样概率,公式如下:
其中,平衡每个维度信息重要性的可调节系数,这里设置/>,/>,/>为联合采样概率,/>为每个维度上的采样概率公式。
S2-6、在邻居采样方法生成子图的过程中,对于每个节点,选择联合采样概率较大的邻居规划至子图中,从而生成每个节点的子图。
如图2所示,步骤(3)中所述将步骤(2)中生成的子图输入至多任务身份识别图performer模型(MGPI)中,包含以下步骤
S3-1将当前子图的中心节点、邻居节点与拉普拉斯向量结合后的信息以及边信息一起送入N个并行的MGPI层进行处理,如图3所示,将进行如下操作:
S3-1-1将中心节点信息输入/>全连接层,得到查询嵌入数据/>,公式如下:
其中,代表/>全连接层中的权重矩阵,/>代表/>全连接层中的偏置项;
将邻居节点信息输入/>全连接层、/>全连接层,得到键嵌入数据/>和值嵌入数据/>,公式如下:
其中,、/>分别代表/>全连接层、/>全连接层中的权重矩阵,/>分别代表/>全连接层、/>全连接层中的偏置项;
输入中心节点与邻居结点间的边信息至/>全连接层,得到边嵌入数据/>,公式如下:
其中,分别代表/>全连接层中的权重矩阵,/>分别代表/>全连接层中的偏置项;
S3-1-2对于查询嵌入数据与键嵌入数据/>,经过/>函数转换,得到/>与/>
函数转换公式如下:
其中,为定义的映射函数,将输入x映射到一个新输出;
,用于提取输入x的特性;
是一个归一化因子,用于保证映射的输出有合适的规模;
为三角函数;/>为确定性向量;
与/>的计算公式如下:
S3-1-3令与/>的转置相乘的结果输入至缩放层后,得到中间结果1;
S3-1-4将所述中间结果1与边嵌入数据相乘后,得到中间结果2;
S3-1-5将所述中间结果2输入至全连接层,输出结果再与所述边信息/>相加,得到当前层的一个关于边信息的中间结果输出/>
S3-1-6将所述中间结果1再输入至归一化层,所得结果与所述值嵌入数据相乘后送入全连接层/>,得到中间结果3;
S3-1-7将所述中间结果3与所述中心节点信息相加,得到当前层的另一个关于节点信息的中间结果输出/>
S3-1-8将所述每一层的在最后一维连结在一起,/>在最后一维连结在一起,输入至MGPI块中的对应的全连接层。
S3-2将S3-1-8中输入全连接层后得到的中间结果顺次输入至第一归一化层、前馈层和第二归一化层,得到当前MGPI块的输出、/>,其中,i代表中心节点的序号,j代表邻居节点的序号,l代表了当前MGPI块的块数;
S3-3最后一个MGPI块的输出为、/>,/>为节点的嵌入表示;/>为边的嵌入表示,其中,N代表当前为第N个MGPI块的输出,即模型的输出。
步骤(4)中的将步骤(3)中的节点嵌入表示输入至节点填空网络,子图划分网络以及线性分类器,步骤如下:
步骤(4)中的将步骤(3)中的节点嵌入表示输入至节点填空网络,子图划分网络以及线性分类器,步骤如下:
S4-1节点填空网络接收节点嵌入表示,随机地选择一些节点进行屏蔽,令模型实现预测这些被屏蔽节点的特征;
S4-2子图划分网络接收节点嵌入表示,并将一个子图中所有节点的嵌入表示聚合成一个单一的嵌入表示,这个聚合的嵌入表示可以在一定程度上反映子图的整体特性,并由此判断两个子图的关系为无关系、包含关系还是重叠关系。
S4-3线性分类器顺次包含全连接层,激活层。节点嵌入表示输入至全连接层中,再经过激活层,输出每个类别的概率,公示如下:
其中,W是权重矩阵,b是偏置项,是输入节点的嵌入表示,/>是节点/>属于类别t的预测概率。
步骤(5)中预先设置的损失函数包括交叉熵损失函数,FocalLoss损失函数以及均方差损失函数,并通过加权求和得到总损失函数,步骤如下:
S5-1设定总损失函数L total 包含Focal Loss损失函数L classify 、交叉熵损失函数L divide 、均方差损失函数L fill 、其中L classify 用于线性分类器,L divide 用于子图划分网络、L fill 用于节点填空网络,如下式所示:
L total = L classify +/> L divide +/> L fill
其中,表示权重参数;这里设置/>=0.6、/>=0.2、/>=0.2。
S5-2计算Focal Loss损失函数L classify 的值,如下式所示:
其中,n是子图中标记地址的总数,是处理级别不平衡问题的加权项,/>是节点/>属于类别t的预测概率,/>是平衡简单和困难样本的调节参数;
S5-3计算交叉熵损失函数L divide 的值,如下式所示:
其中,n是子图的总数,M表示子图类别的数量,是子图i属于类别c的预测概率,/>为符号函数,如果样本i的真实类别等于c取1,否则取0;
S5-4计算均方差损失函数L fill 的值,如下式所示:
其中,n是子图中标记地址的总数,是节点/>属于类别t的预测概率;/>为符号函数,如果样本i的真实类别等于t取1,否则取0。
步骤(6)中所述的利用随机梯度下降算法迭代优化损失,反馈更新模型参数是指通过该算法最小化步骤(5)中总损失函数的值,并反向传播更新模型的参数,从而产生新的节点嵌入表示便于后续流程使用。模型参数更新的公式如下:
其中,是在第 n 步的模型参数,/>为总损失函数L total 在/>处的梯度;/>是学习率,本实例中设置为0.01;/>是下一步的模型参数。/>为步骤(5)中设置的权重参数,/>、/>、/>为三个损失函数关于模型参数的梯度,本发明中,采用PyTorch神经网络框架自动完成求解。
步骤(7)中所述取概率最高的身份类别作为各节点最终的身份标签是指:设置线性分类器的输出是的概率分布向量为,其中,T是类别的总数,p t 是样本属于类别t的预测概率。此时,使用以下公式来选取预测概率最高的类别作为最终的预测标签:
其中, argmax是一个操作,它返回使p t 最大的t的值,即返回概率最高的类别的标签。
为了验证本发明的有效性,在构造的多实体类型二阶交易数据集(MTSTDataset)上进行实验,对结果进行聚类并且TSNE可视化,如图4所示。图中不同节点的形状代表着不同的身份类型,可视化结果应该表现为相同形状的节点聚集在一起,而不同形状的节点尽可能远离,可以看到9种地址类型被成功推断并聚类,这9种地址类型的描述如下表1所示:
表1:9种地址类型的描述列表
实体类型 对应身份详情
Phish/Hack 网络钓鱼和黑客相关的地址
Bancor 一个基于兑换池的去中心化交易协议
Balancer 一个去中心化交易所
SushiSwap 一个去中心化的加密货币交易所
ICO Wallets 首次币发行(ICO)相关地址
Exchange 交易所相关的地址
Synthetix 一个去中心化合成资产发行协议
Airdrop Hunter 寻找空投的空投猎人
Chainlink 一个去中心化预言机网络
为了全面有效衡量本发明的性能,在这里设置了各身份类别识别精度(Precision)、识别召回率(Recall)、识别 F1 分数(F1),AUC 四个指标。定义 TP 为正样本被识别为正样本的数量,TN 为非正样本被识别为非正样本的数量,FP 为非正样本被识别为正样本的数量,FN 为正样本被识别为非正样本的数量。各指标的计算公式如下:
(1)识别精度
(2)识别召回率
(3)识别F1分数
(4)AUC
具体的实验结果如表2所示;
表2:实验结果列表
模型名称 Precision Recall F1 AUC
MLP 0.7417 0.8153 0.7652 0.9562
Deep Walk 0.6427 0.3953 0.4014 0,7764
Node2vec 0.6579 0.4082 0.4227 0.8014
GraphSAGE 0.8443 0.8791 0.8574 0.9533
I2BGNN 0.7011 0.7681 0.7113 0.9056
MGPI 0.8951 0.9132 0.9030 0.9857
从整体看,就四个性能指标的均值而言,本发明的多任务身份识别图模型达到了最优,实现了89.51%的精确度、91.32%的召回率、90.30%的 F1 分数和 98.57%的 AUC。对比模型中,GraphSAGE 以 85.74%的 F1 分数获得了最好的结果,但还是比本发明的多任务身份识别图模型低 3%左右。在所有的对比模型中,Deep Walk模型性能最差,只有大约 40%的F1 分数。值得注意的是,只使用手工提取特征的情况下仍然得到了 76%的 F1 分数,这也说明了所提取特征的有效性。
实施例2
基于与实施例1相同的发明构思,本发明实施例中提供了一种基于深度图神经网络的区块链地址身份推断系统,其特征在于,包括存储介质和处理器;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行第一方面中任一项所述的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于深度图神经网络的区块链地址身份推断方法,其特征在于,包括:
基于采集到的区块链交易数据集生成有向交易网络图,并基于联合子图采样策略得到所述有向交易网络图中每个节点的节点子图;所述有向交易网络图中节点代表区块链上的交易地址,边表示一个交易地址与另一个交易地址之间的交易;
将每个节点的节点子图分别输入至预先训练好的多任务身份识别图模型中,输出节点的嵌入表示;
将各节点的嵌入表示输入至预先训练好的分类器,利用分类器输出各个身份类别的概率分布,取概率最高的身份类别作为各节点最终的身份标签,完成身份推断。
2.根据权利要求1所述的一种基于深度图神经网络的区块链地址身份推断方法,其特征在于:所述多任务身份识别图模型包括:N个串行的MGPI块,第一个MGPI块的输入端用于接入节点子图,其余MGPI块的输入端与前一个MGPI块的输出端相连,第N个MGPI块的输出端输出节点的嵌入表示;
各MGPI块的结构相同,均包含输入层和N个并联的MGPI层,以及并联的第一信息处理单元和第二信息处理单元,所述第一信息处理单元和第二信息处理单元结构相同,均包括顺次设置的全连接层、第一归一化层、前馈层和第二归一化层,所述前馈层和第二归一化层之间设置第二残差连接;各MGPI块的输入层与第一信息处理单元和第二信息处理单元中的第一归一化层之间均设置第一残差连接;
将节点子图中的节点信息与拉普拉斯向量结合后的信息和边信息一起送入N个并行的MGPI层进行处理,每个MGPI层都得到中间结果和 />,其中,/>为节点信息处理的中间结果,/>为边信息处理的中间结果,i代表中心节点的序号,j代表邻居节点的序号,l代表了当前MGPI块的块数,k代表了MGPI层的层数;将N个MGPI层的中间结果在最后一维进行连结后依次输入至第一信息处理单元中的全连接层、第一归一化层、前馈层和第二归一化层,得到当前MGPI块的输出/>
将N个MGPI层的中间结果在最后一维进行连结后输入至第二信息处理单元中的中的全连接层、第一归一化层、前馈层和第二归一化层,得到当前MGPI块的输出/>
第N个MGPI块的输出为和/>,/>为节点的嵌入表示,/>为边的嵌入表示。
3.根据权利要求2所述的一种基于深度图神经网络的区块链地址身份推断方法,其特征在于:所述MGPI层包括顺次设置的全连接层、/>全连接层、/>全连接层、/>全连接层、缩放层、归一化层以及最后的/>全连接层、/>全连接层、n代表节点;其中,/>全连接层将节点特征转换为键表示,用于评估其他节点的查询与中心节点的匹配程度;全连接层将节点特征转换为查询表示,用于确定节点应该如何与其邻居节点交互,以及权重大小;/>全连接层将节点特征转换为值表示,当查询与键匹配时,相应的值被用来更新节点的表示;/>全连接层将边的特征转换为边的表示,用于在注意力机制中提供额外的上下文信息;
将中心节点信息输入/>全连接层,得到查询嵌入数据/>,公式如下:
其中,代表/>全连接层中的权重矩阵,/>代表/>全连接层中的偏置项;
将邻居节点信息输入/>全连接层、/>全连接层,得到键嵌入数据/>和值嵌入数据/>,公式如下:
其中,、/>分别代表/>全连接层、/>全连接层中的权重矩阵,/>、/>分别代表/>全连接层、/>全连接层中的偏置项;
输入中心节点与邻居结点间的边信息至/>全连接层,得到边嵌入数据/>,公式如下:
其中,分别代表/>全连接层中的权重矩阵,/>分别代表/>全连接层中的偏置项;
对于查询嵌入数据与键嵌入数据/>,经过/>函数转换,得到/>与/>
函数转换公式如下:
其中,为定义的映射函数,将输入x映射到一个新输出;
,用于提取输入x的特性;
是一个归一化因子,用于保证映射的输出有合适的规模;
为三角函数;/>为确定性向量;
与/>的计算公式如下:
与/>的转置相乘的结果输入至缩放层后,得到中间结果1;
将所述中间结果1与边嵌入数据相乘后,得到中间结果2;
将所述中间结果2输入至全连接层,输出结果再与所述边信息/>相加,得到当前层的一个关于边信息的中间结果输出/>
将所述中间结果1再输入至归一化层,所得结果与所述值嵌入数据相乘后送入全连接层/>,得到中间结果3;
将所述中间结果3与所述中心节点信息相加,得到当前层的另一个关于节点信息的中间结果输出/>
将N个MGPI层的结果在最后一维进行连结后依次输入至第一信息处理单元中的全连接层、第一归一化层、前馈层和第二归一化层,得到当前MGPI块的输出/>
将N个MGPI层的结果在最后一维进行连结后输入至第二信息处理单元中的中的全连接层、第一归一化层、前馈层和第二归一化层,得到当前MGPI块的输出/>
4.根据权利要求1所述的一种基于深度图神经网络的区块链地址身份推断方法,其特征在于:所述多任务身份识别图模型的训练方法包括:
基于历史采集到的区块链交易数据集生成有向交易网络图,并基于联合子图采样策略得到有向交易网络图中每个节点的节点子图;
将每个节点的节点子图分别输入至预先训练好的多任务身份识别图模型中,输出各节点的嵌入表示;
将各节点的嵌入表示分别输入节点填空网络、子图划分网络以及线性分类器,得到对应的训练预测值;
将各训练预测值分别输入预先设置的损失函数中,计算出相应的训练损失,并基于训练损失通过求加权和得到总损失函数;
以所述总损失函数最小为目标,利用随机梯度下降算法迭代优化损失,反馈更新多任务身份识别图模型的模型参数,完成多任务身份识别图模型的训练。
5.根据权利要求4所述的一种基于深度图神经网络的区块链地址身份推断方法,其特征在于:每个节点的节点子图的获取方法包括:
将采集到的区块链交易数据集抽象为有向交易网络图;所述区块链交易数据集包括标签地址和交易数据;
基于所述有向交易网络图,利用联合子图采样策略得到联合采样概率,并将所述联合采样概率运用至邻居采样中,得到有向交易网络图中每个节点的节点子图。
6.根据权利要求4所述的一种基于深度图神经网络的区块链地址身份推断方法,其特征在于:所述联合采样概率的表达式为:
其中,;/>;/>
式中,表示边 e的时间戳信息,/>表示所有邻居边的时间戳之和,/>为考虑时间戳信息时边 e的采样概率,/>为邻居节点集合,/>;/>表示边 e的交易金额信息,/>表示所有邻居边的交易金额之和,/>为考虑交易金额信息时边 e的采样概率,/>表示边 e的交易总数信息,/>表示所有邻居边的交易总数之和,/>为考虑交易总数时边e的采样概率;/>表示对应的/>在联合采样概率中的权重;
在利用邻居采样方法生成子图的过程中,对于每个节点,根据联合采样概率选择邻居规划至子图中,从而生成每个节点的节点子图。
7.根据权利要求4所述的一种基于深度图神经网络的区块链地址身份推断方法,其特征在于:所述节点填空网络接收节点嵌入表示,随机地选择一些节点进行屏蔽,利用多任务身份识别图模型预测这些被屏蔽节点的特征;所述子图划分网络接收节点嵌入表示,并将一个子图中所有节点的嵌入表示聚合成一个单一的嵌入表示,所述单一的嵌入表示在一定程度上反映子图的整体特性,并由此判断两个子图的关系为无关系、包含关系还是重叠关系。
8.根据权利要求4所述的一种基于深度图神经网络的区块链地址身份推断方法,其特征在于:所述线性分类器顺次包含全连接层和激活层;节点嵌入表示输入至全连接层中,再经过激活层,输出每个类别的概率,公示如下:
其中,是节点/>属于类别t的预测概率,/>是权重矩阵,/>是偏置项,/>是输入节点经过模型处理后输出的节点嵌入表示。
9.根据权利要求4所述的一种基于深度图神经网络的区块链地址身份推断方法,其特征在于:所述总损失函数的获得方法包括:
设定总损失函数L total 包含Focal Loss损失函数L classify 、交叉熵损失函数L divide 、均方差损失函数L fill 、其中L classify 用于线性分类器,L divide 用于子图划分网络、L fill 用于节点填空网络,如下式所示:
L total = L classify +/> L divide +/> L fill
其中,表示权重参数;
计算Focal Loss损失函数L classify 的值,如下式所示:
其中,n是子图中标记地址的总数,是处理级别不平衡问题的加权项,/>是节点/>属于类别t的预测概率,/>是平衡简单和困难样本的调节参数;
计算交叉熵损失函数L divide 的值,如下式所示:
其中,n是子图的总数,M表示子图类别的数量,是子图i属于类别c的预测概率,/>为符号函数,如果样本i的真实类别等于c取1,否则取0;
计算均方差损失函数L fill 的值,如下式所示:
其中,n是子图中标记地址的总数,是节点/>属于类别t的预测概率;/>为符号函数,如果样本i的真实类别等于t取1,否则取0。
10.一种基于深度图神经网络的区块链地址身份推断系统,其特征在于,包括存储介质和处理器;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-9中任一项所述的方法。
CN202311671340.2A 2023-12-07 2023-12-07 一种基于深度图神经网络的区块链地址身份推断方法及系统 Active CN117371540B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311671340.2A CN117371540B (zh) 2023-12-07 2023-12-07 一种基于深度图神经网络的区块链地址身份推断方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311671340.2A CN117371540B (zh) 2023-12-07 2023-12-07 一种基于深度图神经网络的区块链地址身份推断方法及系统

Publications (2)

Publication Number Publication Date
CN117371540A true CN117371540A (zh) 2024-01-09
CN117371540B CN117371540B (zh) 2024-03-15

Family

ID=89391396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311671340.2A Active CN117371540B (zh) 2023-12-07 2023-12-07 一种基于深度图神经网络的区块链地址身份推断方法及系统

Country Status (1)

Country Link
CN (1) CN117371540B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699964A (zh) * 2021-01-13 2021-04-23 成都链安科技有限公司 模型构建方法、系统、装置、介质、交易身份识别方法
CN112784116A (zh) * 2020-12-10 2021-05-11 复旦大学 一种在区块链中识别用户行业身份的方法
CN113283902A (zh) * 2021-06-11 2021-08-20 浙江工业大学 一种基于图神经网络的多通道区块链钓鱼节点检测方法
CN114386966A (zh) * 2021-12-30 2022-04-22 江苏通付盾科技有限公司 一种基于深度学习的区块链加密货币地址身份识别方法
CN115965466A (zh) * 2022-08-25 2023-04-14 浙江工业大学 一种基于子图对比的以太坊账户身份推理方法及系统
CN117155644A (zh) * 2023-08-30 2023-12-01 云南财经大学 链上链下相协作的医疗数据分级访问控制与共享方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784116A (zh) * 2020-12-10 2021-05-11 复旦大学 一种在区块链中识别用户行业身份的方法
CN112699964A (zh) * 2021-01-13 2021-04-23 成都链安科技有限公司 模型构建方法、系统、装置、介质、交易身份识别方法
CN113283902A (zh) * 2021-06-11 2021-08-20 浙江工业大学 一种基于图神经网络的多通道区块链钓鱼节点检测方法
CN114386966A (zh) * 2021-12-30 2022-04-22 江苏通付盾科技有限公司 一种基于深度学习的区块链加密货币地址身份识别方法
CN115965466A (zh) * 2022-08-25 2023-04-14 浙江工业大学 一种基于子图对比的以太坊账户身份推理方法及系统
CN117155644A (zh) * 2023-08-30 2023-12-01 云南财经大学 链上链下相协作的医疗数据分级访问控制与共享方法

Also Published As

Publication number Publication date
CN117371540B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
Lv et al. Surrogate-assisted particle swarm optimization algorithm with Pareto active learning for expensive multi-objective optimization
Li et al. Learning heterogeneous spatial-temporal representation for bike-sharing demand prediction
Xing et al. A graph neural network assisted monte carlo tree search approach to traveling salesman problem
Liu et al. A scalable redefined stochastic blockmodel
Wang et al. A heuristic method for learning Bayesian networks using discrete particle swarm optimization
Abreu et al. A new efficient biased random key genetic algorithm for open shop scheduling with routing by capacitated single vehicle and makespan minimization
CA3116782A1 (en) Multiobjective coevolution of deep neural network architectures
Wang et al. Learning cut selection for mixed-integer linear programming via hierarchical sequence model
CN113326377A (zh) 一种基于企业关联关系的人名消歧方法及系统
CN114817571B (zh) 基于动态知识图谱的成果被引用量预测方法、介质及设备
Khan et al. A novel hybrid algorithm for generalized traveling salesman problems in different environments
Rabbi et al. An Approximation For Monitoring The Efficiency Of Cooperative Across Diverse Network Aspects
Patel et al. Smart adaptive mesh refinement with NEMoSys
CN117371540B (zh) 一种基于深度图神经网络的区块链地址身份推断方法及系统
Smith et al. Phylogenetic inference using generative adversarial networks
CN117076993A (zh) 基于云原生的多智能体博弈决策系统及方法
Pereira et al. Multi‐objective sunflower optimization: A new hypercubic meta‐heuristic for constrained engineering problems
Luo et al. A framework of ant colony P system
CN113159926A (zh) 贷款业务的还款日期确定方法及装置
Yakut et al. A New Approach Based on Centrality Value in Solving the Maximum Independent Set Problem: Malatya Centrality Algorithm
Fernandes et al. A multi-agent transgenetic algorithm for the bi-objective spanning tree problem
Pham et al. A constraint-based local search for offline and online general vehicle routing
Wang et al. Learning to Branch in Combinatorial Optimization with Graph Pointer Networks
Thibault et al. Learning Bayesian network structures by estimation of distribution algorithms: An experimental analysis
Ismail et al. Change Vulnerability Forecasting for Southeast Asia using Deep Learning Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant