CN113190730A - 一种区块链地址的分类方法及装置 - Google Patents

一种区块链地址的分类方法及装置 Download PDF

Info

Publication number
CN113190730A
CN113190730A CN202110482171.2A CN202110482171A CN113190730A CN 113190730 A CN113190730 A CN 113190730A CN 202110482171 A CN202110482171 A CN 202110482171A CN 113190730 A CN113190730 A CN 113190730A
Authority
CN
China
Prior art keywords
vertex
transaction
address
bipartite graph
blockchain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110482171.2A
Other languages
English (en)
Other versions
CN113190730B (zh
Inventor
穆长春
吕远
卿苏德
王艳辉
曾军崴
吴浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Currency Institute of the Peoples Bank of China
Original Assignee
Digital Currency Institute of the Peoples Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Currency Institute of the Peoples Bank of China filed Critical Digital Currency Institute of the Peoples Bank of China
Priority to CN202110482171.2A priority Critical patent/CN113190730B/zh
Priority claimed from CN202110482171.2A external-priority patent/CN113190730B/zh
Publication of CN113190730A publication Critical patent/CN113190730A/zh
Priority to PCT/CN2022/089008 priority patent/WO2022228392A1/zh
Priority to US18/288,810 priority patent/US20240220546A1/en
Priority to EP22794862.7A priority patent/EP4332791A1/en
Application granted granted Critical
Publication of CN113190730B publication Critical patent/CN113190730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/04Payment circuits
    • G06Q20/06Private payment circuits, e.g. involving electronic currency used among participants of a common payment scheme
    • G06Q20/065Private payment circuits, e.g. involving electronic currency used among participants of a common payment scheme using e-cash
    • G06Q20/0658Private payment circuits, e.g. involving electronic currency used among participants of a common payment scheme using e-cash e-cash managed locally
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3236Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
    • H04L9/3239Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/50Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q2220/00Business processing using cryptography

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种区块链地址的分类方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取区块链交易信息,所述区块链交易信息指示了一个或多个交易输入地址以及一个或多个交易输出地址;构建与所述区块链交易信息对应的交易二部图;根据所述交易二部图和图嵌入算法,得到所述一个或多个交易输入地址以及所述一个或多个交易输出地址分别对应的地址向量;将所述地址向量作为地址分类器的输入,以利用所述地址分类器对所述交易输入地址和/或所述交易输出地址进行分类。该实施方式提高了区块链地址的分类准确性。

Description

一种区块链地址的分类方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种区块链地址的分类方法及装置。
背景技术
UTXO(Unspent Transaction Outputs,未花费交易输出)模型是一种常见的区块链账户模型。目前,对UTXO模型区块链地址的分类方法主要有启发式算法、找零地址识别方法和文本向量化分类方法等。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
启发式算法需要给基于预定的假设来对区块链地址进行分类,而一旦该假设不成立,就会导致分类结果的准确性较差。找零地址识别方法首先需要判断是否存在找零行为,再判断哪个地址为找零地址,因此存在误差传递问题,这也可能导致分类结果的准确性较差。文本向量化分类方法无法准确表示区块链交易的动态变化,也无法准确表示区块链地址之间的关系,因此其分类结果也不够准确。
综上,现有区块链地址的分类方法的准确性较低,因此亟需一种准确对区块链地址分类进行分类的方法。
发明内容
有鉴于此,本发明实施例提供一种区块链地址的分类方法及装置,能够根据区块链交易信息构建相应的交易二部图,并根据交易二部图和图嵌入算法得到交易地址的地址向量,然后将地址向量作为地址分类器的输入,以利用地址分类器对区块链上的交易地址进行分类。由此,既无需基于预定的假设来对区块链地址进行分类;也无需确定找零行为和找零地址,从而克服了误差传递的问题;并且,基于区块链交易信息构建交易二部图,这可以适应区块链交易的动态变化,进一步地,根据图嵌入算法和交易二部图得到交易地址的地址向量,也准确描绘了区块链地址之间的关系,从而提高了区块链地址尤其是基于UTXO模型的区块链地址的分类准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种区块链地址的分类方法,包括:获取区块链交易信息,所述区块链交易信息指示了一个或多个交易输入地址以及一个或多个交易输出地址;
构建与所述区块链交易信息对应的交易二部图;
根据所述交易二部图和图嵌入算法,得到所述一个或多个交易输入地址以及所述一个或多个交易输出地址分别对应的地址向量;
将所述地址向量作为地址分类器的输入,以利用所述地址分类器对所述交易输入地址和/或所述交易输出地址进行分类。
可选地,所述区块链交易信息还指示了交易标识;所述构建与所述区块链交易信息对应的交易二部图,包括:
根据所述一个或多个交易输入地址与所述交易标识构建第一顶点子集,并根据所述一个或多个交易输出地址与所述交易标识构建第二顶点子集;
根据所述区块链交易信息指示的同一交易标识对应的交易输入地址和交易输出地址,构建所述第一顶点子集和所述第二顶点子集之间的边,以形成由所述第一顶点子集、所述第二顶点子集以及所述边构成的所述交易二部图。
可选地,构建所述第一顶点子集和所述第二顶点子集之间的边,包括:
针对每一个所述交易标识,执行:
在所述第一顶点子集中确定所述交易标识对应的第一地址顶点和第一标识顶点,并在所述第二顶点子集中确定所述交易标识对应的第二地址顶点和第二标识顶点;
构建所述第一地址顶点与所述第二标识顶点之间的边,并构建所述第二地址顶点与所述第一标识顶点之间的边。
可选地,所述根据所述交易二部图和图嵌入算法,得到所述一个或多个交易输入地址以及所述一个或多个交易输出地址分别对应的地址向量,包括:
根据所述交易二部图中每个顶点所连接的边以及预设的游走方向参数,确定所述交易二部图中任一顶点与所述交易二部图中的其他顶点的连接概率,并根据所述连接概率形成转移概率矩阵;
根据所述转移概率矩阵,生成一个或多个顶点分别对应的游走序列集合;
根据所述游走序列集合对所述图嵌入算法进行梯度下降优化;
根据优化结果,生成所述交易二部图中每一个地址顶点对应的地址向量。
可选地,所述根据所述转移概率矩阵,生成一个或多个顶点分别对应的游走序列集合,包括:
针对每一个待生成所述游走序列集合的当前顶点:将所述当前顶点作为所述游走序列集合的第一行列位;
循环执行以下步骤,直至生成的游走采样序列的数量不小于预设的序列采样数量:根据预设的游走长度以及所述转移概率矩阵,生成所述当前顶点对应的游走采样序列,并从所述交易二部图中选择除所述顶点以外的其他顶点作为当前顶点;
根据各个所述当前顶点的被选择顺序,以及所述当前顶点对应的游走采样序列,生成游走序列集合。
可选地,所述根据预设的游走长度以及所述转移概率矩阵,生成所述当前顶点对应的游走采样序列,包括:
将所述当前顶点作为所述游走采样序列的第一位;
循环执行以下步骤,直至确定出的顶点位数不小于所述游走长度:
根据所述转移概率矩阵,选择与所述当前顶点之间的所述连接概率最大的顶点作为所述游走采样序列的下一位顶点,并将所述下一位顶点作为当前顶点。
可选地,所述图嵌入算法包括以下任意一种:node2vec算法、Dee pWalk算法、SocialGCN算法和SDNE算法。
可选地,当所述图嵌入算法为node2vec算法时,所述根据所述游走序列集合对所述图嵌入算法进行梯度下降优化,包括:
针对所述交易二部图中的每个顶点,执行:
从一个或多个所述游走序列集合中确定目标游走采样序列,其中,所述目标游走采样序列的第一位为所述顶点;
根据预设的邻域抽样策略以及所述目标游走采样序列,确定所述顶点对应的领域顶点集合;
根据所述顶点以及所述领域顶点集合中各个领域顶点分别对应的one-hot向量;
将所述one-hot向量作为所述node2vec算法的输入,得到所述领域顶点对应的概率;
根据所述领域顶点对应的概率,对所述node2vec算法进行优化,使得所述领域顶点对应的概率最大化。
可选地,所述根据优化结果,生成所述交易二部图中每一个地址顶点对应的地址向量,包括:
根据所述node2vec算法的优化结果,得到所述one-hot向量对应的嵌入向量,将所述嵌入向量作为所述地址向量。
可选地,所述构建与所述区块链交易信息对应的交易二部图,包括:
对所述区块链交易信息进行解析,得到所述交易输入地址和所述交易输出地址对应的交易金额;
当所述交易金额小于预设金额阈值时,对所述交易输入地址和交易输出地址进行过滤;
根据过滤后的所述交易输入地址和所述交易输出地址,构建所述交易二部图。
可选地,所述地址分类器是基于区块链交易信息所对应的多个地址向量以及所述多个地址向量分别对应的标签来训练的;其中,所述多个地址向量是根据所述图嵌入算法得到的。
可选地,所述区块链地址为基于UTXO模型的区块链地址。
根据本发明实施例的第二方面,提供了一种访问请求处理装置,包括:信息获取模块、构建模块、向量确定模块和地址分类模块;其中,
所述信息获取模块,用于获取区块链交易信息,所述区块链交易信息指示了一个或多个交易输入地址以及一个或多个交易输出地址;
所述构建模块,用于构建与所述区块链交易信息对应的交易二部图;
所述向量确定模块,用于根据所述交易二部图和图嵌入算法,得到所述一个或多个交易输入地址以及所述一个或多个交易输出地址分别对应的地址向量;
所述地址分类模块,用于将所述地址向量作为地址分类器的输入,以利用所述地址分类器对所述交易输入地址和/或所述交易输出地址进行分类。
可选地,所述区块链交易信息还指示了交易标识;
所述构建模块,用于根据所述一个或多个交易输入地址与所述交易标识构建第一顶点子集,并根据所述一个或多个交易输出地址与所述交易标识构建第二顶点子集;根据所述区块链交易信息指示的同一交易标识对应的交易输入地址和交易输出地址,构建所述第一顶点子集和所述第二顶点子集之间的边,以形成由所述第一顶点子集、所述第二顶点子集以及所述边构成的所述交易二部图。
可选地,所述构建模块,用于针对每一个所述交易标识,执行:在所述第一顶点子集中确定所述交易标识对应的第一地址顶点和第一标识顶点,并在所述第二顶点子集中确定所述交易标识对应的第二地址顶点和第二标识顶点;构建所述第一地址顶点与所述第二标识顶点之间的边,并构建所述第二地址顶点与所述第一标识顶点之间的边。
可选地,所述向量确定模块,用于根据所述交易二部图中每个顶点所连接的边以及预设的游走方向参数,确定所述交易二部图中任一顶点与所述交易二部图中的其他顶点的连接概率,并根据所述连接概率形成转移概率矩阵;根据所述转移概率矩阵,生成一个或多个顶点分别对应的游走序列集合;根据所述游走序列集合对所述图嵌入算法进行梯度下降优化;根据优化结果,生成所述交易二部图中每一个地址顶点对应的地址向量。
可选地,所述向量确定模块,用于针对每一个待生成所述游走序列集合的当前顶点:将所述当前顶点作为所述游走序列集合的第一行列位;循环执行以下步骤,直至生成的游走采样序列的数量不小于预设的序列采样数量:根据预设的游走长度以及所述转移概率矩阵,生成所述当前顶点对应的游走采样序列,并从所述交易二部图中选择除所述顶点以外的其他顶点作为当前顶点;根据各个所述当前顶点的被选择顺序,以及所述当前顶点对应的游走采样序列,生成游走序列集合。
可选地,所述向量确定模块,用于将所述当前顶点作为所述游走采样序列的第一位;循环执行以下步骤,直至确定出的顶点位数不小于所述游走长度:根据所述转移概率矩阵,选择与所述当前顶点之间的所述连接概率最大的顶点作为所述游走采样序列的下一位顶点,并将所述下一位顶点作为当前顶点。
可选地,所述图嵌入算法包括以下任意一种:node2vec算法、Dee pWalk算法、SocialGCN算法和SDNE算法。
可选地,当所述图嵌入算法为node2vec算法时,
所述向量确定模块,用于针对所述交易二部图中的每个顶点,执行:从一个或多个所述游走序列集合中确定目标游走采样序列,其中,所述目标游走采样序列的第一位为所述顶点;根据预设的邻域抽样策略以及所述目标游走采样序列,确定所述顶点对应的领域顶点集合;根据所述顶点以及所述领域顶点集合中各个领域顶点分别对应的one-hot向量;将所述one-hot向量作为所述node2vec算法的输入,得到所述领域顶点对应的概率;根据所述领域顶点对应的概率,对所述node2vec算法进行优化,使得所述领域顶点对应的概率最大化。
可选地,所述向量确定模块,用于根据所述node2vec算法的优化结果,得到所述one-hot向量对应的嵌入向量,将所述嵌入向量作为所述地址向量。
可选地,所述构建模块,用于对所述区块链交易信息进行解析,得到所述交易输入地址和所述交易输出地址对应的交易金额;当所述交易金额小于预设金额阈值时,对所述交易输入地址和交易输出地址进行过滤;根据过滤后的所述交易输入地址和所述交易输出地址,构建所述交易二部图。
可选地,所述地址分类器是基于区块链交易信息所对应的多个地址向量以及所述多个地址向量分别对应的标签来训练的;其中,所述多个地址向量是根据所述图嵌入算法得到的。
可选地,所述区块链地址为基于UTXO模型的区块链地址。
根据本发明实施例的第三方面,提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一方面提供的一种区块链地址的分类方法中任一所述的方法。
根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第一方面提供的一种区块链地址的分类方法中任一所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:能够根据区块链交易信息构建相应的交易二部图,并根据交易二部图和图嵌入算法得到交易地址的地址向量,然后将地址向量作为地址分类器的输入,以利用地址分类器对区块链上的交易地址进行分类。由此,既无需基于预定的假设来对区块链地址进行分类;也无需确定找零行为和找零地址,从而克服了误差传递的问题;并且,基于区块链交易信息构建交易二部图,这可以适应区块链交易的动态变化,进一步地,根据图嵌入算法和交易二部图得到交易地址的地址向量,也准确描绘了区块链地址之间的关系,从而提高了区块链地址尤其是基于UTXO模型的区块链地址的分类准确性。
另外,根据交易输入地址和交易标识构建交易二部图对应的第一顶点子集,根据交易输出地址和交易标识构建交易二部图对应的第二顶点子集,并针对第一顶点子集和第二顶点子集中、同一个交易标识分别对应的第一地址顶点和第一标识顶点、以及第二地址顶点和第二标识顶点,构建第一地址顶点与第二标识顶点之间的边,以及第二地址顶点和第一标识顶点之间的边,由此可减少交易二部图中边的数量,从而降低分类过程中的数据处理量,进而提高区块链地址的分类效率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种区块链地址的分类方法的主要流程的示意图;
图2是根据本发明实施例的区块链交易信息的示意图;
图3是根据本发明实施例的交易标识M001对应的交易二部图的示意图;
图4是根据本发明实施例的另一种交易二部图的示意图;
图5是根据本发明实施例的一种区块链地址的分类装置的主要模块的示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的一种区块链地址的分类方法,如图1所示,该方法主要包括以下步骤S101至步骤S104:
步骤S101:获取区块链交易信息,所述区块链交易信息指示了一个或多个交易输入地址以及一个或多个交易输出地址。
在本发明实施例中,区块链交易信息可以为基于UTXO模型的区块链上的交易信息,以对UTXO模型区块链中的区块链地址进行分类为例,首先可以通过安装部署UTXO模型区块链全节点,下载区块链中的交易信息,其中,UTXO模型区块链上的交易信息可如图2所示,可以理解的是,在UTXO模型区块链上的交易信息中,输入地址的数量和输出地址的数量可以相同,也可以不同,也即,图2中的n1和n2可以相等,也可以不相等。
可以理解的是,UTXO模型区块链交易中的基础构建单元是交易输出,区块链全节点能够跟踪所有可找到的和可使用的输出,称为“未被花费的交易输出”,即UTXO。若一笔交易中同时包含了多个交易输入地址和交易输出地址,则可通过解析交易信息来获取该交易的交易标识以及该交易所包含的所有交易输入地址和输入金额、交易输出地址和输出金额;其中,交易标识一般使用这笔交易的哈希来表示。
在本发明一个实施例中,在对所述区块链交易信息进行解析,得到所述交易输入地址和所述交易输出地址对应的交易金额之后,若所述交易金额小于预设金额阈值,则对所述交易输入地址和交易输出地址进行过滤;然后根据过滤后的所述交易输入地址和所述交易输出地址,构建所述交易二部图。
这是由于很多小额交易是测试性质的,若在构建交易二部图时,将这些小额交易所对应的交易输入地址和交易输出地址也作为交易二部图中的顶点,则可能会对后续区块链地址的分类造成干扰。例如,若这些小额交易对应的交易输入地址和交易输出地址与某非交易所地址具有类似的特征,那么,在后续分类过程中,这些交易输入地址和交易输出地址将被分类为非交易所类别,然而,实际上这些交易输入地址和交易输出地址仅为测试地址,其并不对应真实的非交易所实体,这就对区块链地址的分类结果造成了干扰,导致分类结果的准确性降低。因此,在此实施例中,将这些小额交易对应的交易输入地址和交易输出地址进行过滤,从而使其不出现在交易二部图中,这一方面有利于保证区块链地址分类结果的稳定性和准确性,另一方面也有利于提高区块链分类的效率。
步骤S102:构建与所述区块链交易信息对应的交易二部图。
在本发明实施例中,步骤S102的具体实施方式可以包括:根据所述一个或多个交易输入地址与所述交易标识构建第一顶点子集,并根据所述一个或多个交易输出地址与所述交易标识构建第二顶点子集;根据所述区块链交易信息指示的同一交易标识对应的交易输入地址和交易输出地址,构建所述第一顶点子集和所述第二顶点子集之间的边,以形成由所述第一顶点子集、所述第二顶点子集以及所述边构成的所述交易二部图。
为了进一步降低区块链地址分类过程中的数据处理量,提高区块链地址的分类效率,在本发明实施例中,可以通过以下方式来构建交易二部图中各定点之间的边:
针对每一个所述交易标识,执行:
在所述第一顶点子集中确定所述交易标识对应的第一地址顶点和第一标识顶点,并在所述第二顶点子集中确定所述交易标识对应的第二地址顶点和第二标识顶点;
构建所述第一地址顶点与所述第二标识顶点之间的边,并构建所述第二地址顶点与所述第一标识顶点之间的边。
以图2所示的交易信息为例,若输入地址e1、输入地址e2、输入地址e3以及输出地址o1和输出地址o2对应同一笔交易,其交易标识为M001。在构建交易二部图时,将输入地址e1、输入地址e2、输入地址e3以及交易标识M001作为交易二部图的第一顶点子集,将输出地址o1和输出地址o2以及交易标识M001作为交易二部图的第二顶点子集,第一顶点子集和第二顶点子集即构成了交易二部图的顶点。
然后,根据同一交易标识所对应的交易输入地址与其交易标识相连、交易输出地址与其交易标识相连,构建第一顶点子集和第二顶点子集之间的边,即形成由第一顶点子集、第二顶点子集及二者之间的边所构成的交易二部图。
仍以交易标识M001为例,在第一顶点子集中,与交易标识M001对应的第二地址顶点为输入地址e1、输入地址e2、输入地址e3分别对应的顶点,此例中记为顶点e1、顶点e2、顶点e3,在第一顶点子集中确定出的第一标识顶点记为顶点M001。在第二顶点子集中,与交易标识M001对应的第二地址顶点为输出地址o1和输出地址o2分别对应的顶点,此例中记为顶点o1和顶点o2,在第二顶点子集中确定出的第二标识顶点也记为顶点M001。
然后,将顶点e1、顶点e2、顶点e3分别与第二顶点子集中的M001相连,将顶点o1和顶点o2分别与第一顶点子集中的M001相连,形成交易标识M001所对应的交易二部图,该交易标识M001所对应的交易二部图的示例可如图3所示。
可以理解的是,对于其他交易标识对应的交易,也可采用上述方法生成相应的交易二部图,由此,各个交易标识所对应的交易二部图即可构成区块链中交易信息所对应的完整交易二部图。在构建出的与交易信息对应的交易二部图中,所有的交易输入地址映射为交易二部图的起点,终点为其对应的交易标识;所有的交易输出地址映射为交易二部图的终端,起点为其对应的交易标识,对应的交易二部图的示意图如图4所示。
由此,对于包括a个交易输入地址和b个交易输出地址的交易信息,其对应的交易二部图中,边的数量为a+b。相对于将每笔交易的交易输入地址和交易输出地址直接映射为交易二部图的起点和终点,并构建起点和终点之间的边来生成交易二部图的方式(此种方式生成的交易二部图中,边的数量为a*b),本发明实施例提供的交易二部图的生成方式,生成的边的数量大大减少,由此减少了后续地址向量生成过程中的数据处理量,从而有利于降低区块链地址分类过程中的数据处理量,提高区块链地址的分类效率。
步骤S103:根据所述交易二部图和图嵌入算法,得到所述一个或多个交易输入地址以及所述一个或多个交易输出地址分别对应的地址向量。
可以理解的是,当区块链为基于UTXO模型的区块链时,上述交易输入地址和交易输出地址即为基于UTXO模型的区块链地址。在本发明实施例中,图嵌入算法包括以下任意一种:node2vec算法、DeepWalk算法、SocialGCN算法和SDNE算法。可以理解的是,不同的图嵌入算法均可以根据交易二部图生成相应的地址向量,本方案不对图嵌入算法的种类进行限定。
在本发明一个优选的实施例中,由于node2vec算法不仅可以将图模型映射到低维向量空间,还可使得表示成的向量形式尽量地保留图模型的结构信息和潜在的特性,由此准确表示区块链地址之间的关系,因此,在此优选的实施例中,采用node2vec算法来根据交易二部图生成相应的地址向量,以提高区块链地址分类的准确性。
下面以node2vec算法为例,对本发明实施例中生成地址向量的过程进行详细解释。
在本发明实施例中,可以根据所述交易二部图中每个顶点所连接的边以及预设的游走方向参数,确定所述交易二部图中任一顶点与所述交易二部图中的其他顶点的连接概率,并根据所述连接概率形成转移概率矩阵;根据所述转移概率矩阵,生成一个或多个顶点分别对应的游走序列集合;根据所述游走序列集合对所述图嵌入算法进行梯度下降优化;根据优化结果,生成所述交易二部图中每一个地址顶点对应的地址向量。
其中,在图嵌入算法为node2vec算法的情况下,预设的游走方向参数为返回参数p和进出参数q,p和q一般设置为2的指数,如1/2、1/4、1/2、1、2、4或8等。其中,p和q的具体设定数值可根据最终的分类目的来确定,例如,若想将结构相似的区块链地址尽可能分为一类,则可适当增大p的值,如将其p设置为1或2,若想将交易频繁的区块链地址尽可能分为一类,即将交易二部图中距离相近的区块链地址尽可能分为一类,则可适当增大q的值。
在确定返回参数p和进出参数q之后,可根据交易二部图中每个顶点所连接的边以及返回参数p和进出参数q,确定每个顶点Vi与交易二部图中的其他顶点Vj的连接概率,该连接概率表征从Vi行进到Vj的概率,由此可得到交易二部图对应的转移概率矩阵。
然后,可根据转移概率矩阵生成交易二部图中的顶点所对应的游走序列集合,具体地,在本发明实施例中,可以根据以下方式生成当前顶点对应的游走序列集合:将所述当前顶点作为所述游走序列集合的第一行列位;循环执行以下步骤,直至生成的游走采样序列的数量不小于预设的序列采样数量:根据预设的游走长度以及所述转移概率矩阵,生成所述当前顶点对应的游走采样序列,并从所述交易二部图中选择除所述顶点以外的其他顶点作为当前顶点;根据各个所述当前顶点的被选择顺序,以及所述当前顶点对应的游走采样序列,生成游走序列集合。
其中,序列采用数量r小于或等于交易二部图中的所有顶点的总数量,也即,在本发明实施例中,最多可分别为交易二部图中的每一个顶点分别生成其对应的游走采样序列,然后进一步根据游走采样序列生成当前顶点对应的游走序列集合;当然,最少也可直接将当前顶点对应的游走采样序列作为其对应的游走序列集合。
在本发明实施例中可以具体通过以下方式生成当前顶点对应的游走采样序列:将所述当前顶点作为所述游走采样序列的第一位;循环执行以下步骤,直至确定出的顶点位数不小于所述游走长度:根据所述转移概率矩阵,选择与所述当前顶点之间的所述连接概率最大的顶点作为所述游走采样序列的下一位顶点,并将所述下一位顶点作为当前顶点。
游走采样序列walk的形式为{e1,e2,e3,……el},将当前顶点Ecurr作为游走采样序列的第一位,即将Ecurr作为e1,然后,获取与Ecurr直接相邻的顶点集合Vcurr,根据转移概率矩阵以及Vcurr,可以快速确定与所述当前顶点之间的连接概率最大的顶点es,将es作为e1的下一个顶点,即将es作为e2加入到walk中。然后,将es作为当前顶点,并以此列推,可得到游走采样序列中的其他顶点。当预设的序列采样数量为l时,游走采样序列中的顶点数量即为l个,因此,除当前顶点以外,需根据转移概率矩阵找到l-1个顶点加入到游走采样序列中,即可得到以Ecurr为第一位的游走采样序列,也即Ecurr对应的游走采样序列。
然后,从交易二部图中随机选择一个除Ecurr以外的其他顶点再次作为当前顶点,如从交易二部图中选择顶点Vx作为当前顶点,通过上述方式将Vx作为起始点进行一次长度为l的游走,也能得到Vx对应的游走采样序列。以此类推,同样可得到交易二部图中其他顶点所对应的游走采样序列。
在生成游走序列集合walks时,首先将walks初始化为空集合,每生成一个游走采样序列walk,就将其加入到walks中,最终即可得到游走序列集合walks,在游走序列集合walks中,各个游走采样序列walk按照其第一位顶点被选择的顺序来排序。
例如,循环执行r次生成游走采样序列的步骤,则可得到r个游走采样序列,并在每次生成游走采样序列walk后,将其添加到walks中,每一个游走采样序列walk作为游走序列集合walks的一行,每一个游走采样序列walk的游走长度为l,那么,r个游走采样序列组成的游走序列集合为r*l的矩阵。以Ecurr对应的游走序列集合为例,在此游走序列结合中,Ecurr位于第一行列位,即Ecurr位于r*l矩阵中第一行第一列的元素,并且,Ecurr对应的游走采样序列即为r*l矩阵中的第一行元素。由于在Ecurr作为当前顶点之后,选择了Vx作为当前顶点生成游走采样序列,因此Vx对应的游走采样序列作为r*l矩阵中的第二行元素,以此类推,游走序列集合walks中的其他行也按照每个游走采样序列中的第一位顶点的选择顺序来排列。
在生成游走序列集合之后,可根据游走序列集合对所述图嵌入算法进行梯度下降优化,具体地,在本发明实施例中,可以针对所述交易二部图中的每个顶点,执行:从一个或多个所述游走序列集合中确定目标游走采样序列,其中,所述目标游走采样序列的第一位为所述顶点;根据预设的邻域抽样策略以及所述目标游走采样序列,确定所述顶点对应的领域顶点集合;根据所述顶点以及所述领域顶点集合中各个领域顶点分别对应的one-hot向量;将所述one-hot向量作为所述nod e2vec算法的输入,得到所述领域顶点对应的概率;根据所述领域顶点对应的概率,对所述node2vec算法进行优化,使得所述领域顶点对应的概率最大化。
然后,可以根据所述node2vec算法的优化结果,得到所述one-hot向量对应的嵌入向量,将所述嵌入向量作为所述地址向量。
在生成游走序列集合时,可以生成一个或多个顶点分别对应的游走序列集合,例如,可以生成交易二部图中每个顶点分别对应的游走序列集合。然后,可从每个游走序列集合中确定目标游走采样序列,目标游走采样序列的数量可根据预设的训练样本量k来确定,也即,可以确定出k个目标游走采样序列。例如,当k为5时,针对顶点o1,可确定出5个目标游走采样序列分别为{o1,o12,e13,M0011……e11}、{o1,e22,e23,M0021……o21}、{o1,e32,e33,M0031……e31}、{o1,o42,o43,M0041……e41}、{o1,o52,e53,M0051……e51}。
然后,根据预设的邻域抽样策略,从目标游走采样序列中进行抽样,得到顶点o1对应的领域顶点集合。在本发明一个实施方式中,可以在生成的游走序列集合的基础上使用负采样的方式,得到顶点对应的领域顶点集合。例如,根据领域抽样策略对目标游走采样序列的抽样结果分别为{o1,o12,M0011……e11}、{o1,e23,M0021……o21}、{o1,e32,M0031……e31}、{o1,o42,M0041……e41}、{o1,e53,M0051……e51},则抽样结果即可构成顶点o1对应的领域顶点集合。
假设顶点ui的one-hot向量为ui,在一个领域顶点集合中,它的领域顶点的one-hot向量为uj,领域顶点集合记为Ns(ui),ui对自已领域顶点的预测概率为P(Ns(ui)|ui),通过引入朴素贝叶斯假设,即在给定顶点时,其领域顶点出现的概率与其领域顶点集合中的其他顶点无关,那么,P(Ns(ui)|ui)的计算方式可由下式(1)表示:
Figure BDA0003048869320000151
对node2vec算法梯度优化的目标是,使得针对交易二部图中的顶点,其领域顶点对应的概率最大化,也就是说,梯度优化时希望P(nj|ui)尽可能地大,那么,根据上式(1),即转换为如何求(nj|ui)的问题。
在本发明实施例中,通过引入函数f,对于输入的one-hot向量为ui,函数f可输出对顶点uj的预测概率P(nj|ui),那么,这个函数f即是梯度优化过程所要训练的神经网络,使得针对交易二部图中的每一个顶点,其领域顶点出现的概率最大,那么,梯度优化算法的目标函数可以有下式(2)表示:
Figure BDA0003048869320000161
其中,ui表示交易二分图中的第i个顶点,f(ui)是顶点ui到地址向量的映射,Ns(ui)表示基于领域抽样策略确定出的顶点ui对应的领域顶点集合,P表征概率。上式(2)中采用log的原因在于:让概率乘法变成概率加法,从而在不影响单调性的同时更方便求解。
结合上式(1)和上式(2)求解f,得到的f即对应node2vec算法的神经网络结构中的参数,也就是说,根据梯度下降的优化结果确定了node2vec算法的神经网络结构,由此实现了对node2vec算法的优化。当node2vec算法的神经网络训练结束,只需将交易二部图中每个顶点的on e-hot向量输入神经网络中的输入层,前向传播到隐层,即可生成每个顶点分别对应的嵌入向量Embedding,并可将Embedding向量作为交易输入地址和交易输出地址分别对应的地址向量。
步骤S104:将所述地址向量作为地址分类器的输入,以利用所述地址分类器对所述交易输入地址和/或所述交易输出地址进行分类。
在本发明实施例中,地址分类器为有监督分类器,地址分类器可以预先基于区块链交易信息所对应的多个地址向量以及所述多个地址向量分别对应的标签进行训练,其中,训练是所采用的地址向量也可以是根据上述图嵌入算法得到的。
例如,地址分类器的训练过程可通过以下过程实现:根据区块链历史交易信息,并从历史交易信息中的解析出历史交易输入地址和历史交易输出地址,然后对历史交易输入地址和历史交易输出地址进行分类打标,以确定历史交易输入地址和历史交易输出地址分别对应的标签,如是否为交易所、是否为恶意地址、是否为高危地址等。接下来,采用本发明实施例提供的任一交易二部图生成方式,得到历史交易信息对应的交易二部图,并基于图嵌入算法得到历史交易输入地址和历史交易输出地址分别对应的地址向量。然后,将分类打标后的区块链地址所对应的地址向量按比例分为训练数据和测试数据,将训练数据输入有监督分类器,完成有监督分类器的训练,并通过测试数据对有监督分类器的训练结果进行验证。
当根据步骤S101获取到待分类的交易输入地址和交易输出地址后,即可根据训练后的地址分类器对其进行分类,如将这些交易输入地址和交易输出地址分为交易所、非交易所、恶意地址、非恶意地址、高危地址、非高危地址(或正常地址)等多个类别。进一步地,可根据分类结果对区块链地址的交易进行控制,例如,当识别出交易输入地址和/或输出地址为恶意地址或高危地址时,可限制或阻止恶意地址或高危地址的交易。
综上,本发明实施例提供的区块链地址的分类方法,能够根据区块链交易信息构建相应的交易二部图,并根据交易二部图和图嵌入算法得到交易地址的地址向量,然后将地址向量作为地址分类器的输入,以利用地址分类器对区块链上的交易地址进行分类。由此全部或部分解决了现有技术中各种区块链地址分类方法所存在的问题。
具体地,现有技术中的启发式算法需要基于一个重要假设,即如果一笔交易中同时有多个输入地址,则认为这些输入地址是来自同一个实体。简言之,向同一对象转账的不同地址被认为是来自一个实体。通过对已有标签的地址进行辐射,则可以关联到更多的新地址,以此得到地址标签数据量的指数级增长。该启发式算法有两个主要问题:一是当基本假设不成立时,例如同一笔交易中存在来自其它实体的输入,或出现单一输入的情况,地址标注结果将不再可靠;二是初始地址标签的标注必须准确,否则后续辐射所得的结果将全部不可靠,即牵一发而动全身。
现有技术中的找零地址识别方法需要通过遍历一次交易的输入地址和输出地址,根据找零地址的特征,判断此次交易是否存在找零行为和找零地址。经过多次遍历和规则验证后,可以最终确定找零地址。找零地址识别方法也有以下几点问题:一是算法首先需要判断是否存在找零行为,再判断哪个地址为找零地址,所以存在误差传递问题;二是算法对规则或假设的依赖性过高,导致算法的泛化性不足;三是需要经历多次遍历,对硬件资源和时间成本要求较高。
现有技术中的文本向量化分类方法有三个问题导致其结果无法达到最优:一是文本向量化技术是一种静态向量方法,即计算区块链地址的转换函数,不会随着新地址的加入而重新计算,进而无法更新旧的地址向量,导致不能准确表示出区块链交易的动态变化;二是区块链地址的交易之间存在明显的结构关系,但文本向量化技术是一种基于内容的嵌入技术,它无法描绘这种结构关系;三是UTXO模型导致了在一笔交易中有多个输入和输出,与文本向量化技术所需要的输入为序列型数据结构不同,因此需要专门设计转换方法把UTXO模型的数据结构转换成序列型数据。综上,对于极易受外部环境而影响交易规律,同时交易之间存在明显结构关系的区块链地址分类问题,文本向量化分类方法将降低地址分类结果的准确性。
而本发明实施例提供的区块链地址分类方法既无需基于预定的假设来对区块链地址进行分类;也无需确定找零行为和找零地址,从而克服了误差传递的问题;并且,基于区块链交易信息构建交易二部图,这可以适应区块链交易的动态变化,进一步地,根据图嵌入算法和交易二部图得到交易地址的地址向量,也准确描绘了区块链地址之间的关系,从而解决了现有技术所存在的问题,提高了区块链地址尤其是基于UTXO模型的区块链地址的分类准确性。
另外,根据交易输入地址和交易标识构建交易二部图对应的第一顶点子集,根据交易输出地址和交易标识构建交易二部图对应的第二顶点子集,并针对第一顶点子集和第二顶点子集中、同一个交易标识分别对应的第一地址顶点和第一标识顶点、以及第二地址顶点和第二标识顶点,构建第一地址顶点与第二标识顶点之间的边,以及第二地址顶点和第一标识顶点之间的边,由此可减少交易二部图中边的数量,从而降低分类过程中的数据处理量,进而提高区块链地址的分类效率。
图5是根据本发明实施例的一种区块链地址的分类装置,如图5所示,该区块链地址的分类装置包括:信息获取模块501、构建模块502、向量确定模块503和地址分类模块504;其中,
所述信息获取模块501,用于获取区块链交易信息,所述区块链交易信息指示了一个或多个交易输入地址以及一个或多个交易输出地址;
所述构建模块502,用于构建与所述区块链交易信息对应的交易二部图;
所述向量确定模块503,用于根据所述交易二部图和图嵌入算法,得到所述一个或多个交易输入地址以及所述一个或多个交易输出地址分别对应的地址向量;
所述地址分类模块504,用于将所述地址向量作为地址分类器的输入,以利用所述地址分类器对所述交易输入地址和/或所述交易输出地址进行分类。
在本发明一个实施例中,所述区块链交易信息还指示了交易标识;所述构建模块502,用于根据所述一个或多个交易输入地址与所述交易标识构建第一顶点子集,并根据所述一个或多个交易输出地址与所述交易标识构建第二顶点子集;根据所述区块链交易信息指示的同一交易标识对应的交易输入地址和交易输出地址,构建所述第一顶点子集和所述第二顶点子集之间的边,以形成由所述第一顶点子集、所述第二顶点子集以及所述边构成的所述交易二部图。
在本发明一个实施例中,所述构建模块502,用于针对每一个所述交易标识,执行:在所述第一顶点子集中确定所述交易标识对应的第一地址顶点和第一标识顶点,并在所述第二顶点子集中确定所述交易标识对应的第二地址顶点和第二标识顶点;构建所述第一地址顶点与所述第二标识顶点之间的边,并构建所述第二地址顶点与所述第一标识顶点之间的边。
在本发明一个实施例中,所述向量确定模块503,用于根据所述交易二部图中每个顶点所连接的边以及预设的游走方向参数,确定所述交易二部图中任一顶点与所述交易二部图中的其他顶点的连接概率,并根据所述连接概率形成转移概率矩阵;根据所述转移概率矩阵,生成一个或多个顶点分别对应的游走序列集合;根据所述游走序列集合对所述图嵌入算法进行梯度下降优化;根据优化结果,生成所述交易二部图中每一个地址顶点对应的地址向量。
在本发明一个实施例中,所述向量确定模块503,用于针对每一个待生成所述游走序列集合的当前顶点:将所述当前顶点作为所述游走序列集合的第一行列位;循环执行以下步骤,直至生成的游走采样序列的数量不小于预设的序列采样数量:根据预设的游走长度以及所述转移概率矩阵,生成所述当前顶点对应的游走采样序列,并从所述交易二部图中选择除所述顶点以外的其他顶点作为当前顶点;根据各个所述当前顶点的被选择顺序,以及所述当前顶点对应的游走采样序列,生成游走序列集合。
在本发明一个实施例中,所述向量确定模块503,用于将所述当前顶点作为所述游走采样序列的第一位;循环执行以下步骤,直至确定出的顶点位数不小于所述游走长度:根据所述转移概率矩阵,选择与所述当前顶点之间的所述连接概率最大的顶点作为所述游走采样序列的下一位顶点,并将所述下一位顶点作为当前顶点。
在本发明一个实施例中,所述图嵌入算法包括以下任意一种:nod e2vec算法、DeepWalk算法、SocialGCN算法和SDNE算法。
在本发明一个实施例中,当所述图嵌入算法为node2vec算法时,所述向量确定模块503,用于针对所述交易二部图中的每个顶点,执行:从一个或多个所述游走序列集合中确定目标游走采样序列,其中,所述目标游走采样序列的第一位为所述顶点;根据预设的邻域抽样策略以及所述目标游走采样序列,确定所述顶点对应的领域顶点集合;根据所述顶点以及所述领域顶点集合中各个领域顶点分别对应的one-hot向量;将所述one-hot向量作为所述node2vec算法的输入,得到所述领域顶点对应的概率;根据所述领域顶点对应的概率,对所述node2vec算法进行优化,使得所述领域顶点对应的概率最大化。
在本发明一个实施例中,所述向量确定模块503,用于根据所述node2vec算法的优化结果,得到所述one-hot向量对应的嵌入向量,将所述嵌入向量作为所述地址向量。
在本发明一个实施例中,所述构建模块502,用于对所述区块链交易信息进行解析,得到所述交易输入地址和所述交易输出地址对应的交易金额;当所述交易金额小于预设金额阈值时,对所述交易输入地址和交易输出地址进行过滤;根据过滤后的所述交易输入地址和所述交易输出地址,构建所述交易二部图。
在本发明一个实施例中,所述地址分类器是基于区块链交易信息所对应的多个地址向量以及所述多个地址向量分别对应的标签来训练的;其中,所述多个地址向量是根据所述图嵌入算法得到的。
在本发明一个实施例中,所述区块链地址为基于UTXO模型的区块链地址。
根据本发明实施例提供的区块链地址的分类装置,能够根据区块链交易信息构建相应的交易二部图,并根据交易二部图和图嵌入算法得到交易地址的地址向量,然后将地址向量作为地址分类器的输入,以利用地址分类器对区块链上的交易地址进行分类。由此,既无需基于预定的假设来对区块链地址进行分类;也无需确定找零行为和找零地址,从而克服了误差传递的问题;并且,基于区块链交易信息构建交易二部图,这可以适应区块链交易的动态变化,进一步地,根据图嵌入算法和交易二部图得到交易地址的地址向量,也准确描绘了区块链地址之间的关系,从而解决了现有技术所存在的问题,提高了区块链地址尤其是基于UTXO模型的区块链地址的分类准确性。
另外,根据交易输入地址和交易标识构建交易二部图对应的第一顶点子集,根据交易输出地址和交易标识构建交易二部图对应的第二顶点子集,并针对第一顶点子集和第二顶点子集中、同一个交易标识分别对应的第一地址顶点和第一标识顶点、以及第二地址顶点和第二标识顶点,构建第一地址顶点与第二标识顶点之间的边,以及第二地址顶点和第一标识顶点之间的边,由此可减少交易二部图中边的数量,从而降低分类过程中的数据处理量,进而提高区块链地址的分类效率。
图6示出了可以应用本发明实施例的区块链地址的分类方法或区块链地址的分类装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和服务器605。网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器605可以是提供各种服务的服务器,例如对用户利用终端设备601、602、603交易时提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如交易结果)反馈给终端设备。
需要说明的是,本发明实施例所提供的区块链地址的分类方法一般由服务器605执行,相应地,区块链地址的分类装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机系统700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括信息获取模块、构建模块、向量确定模块和地址分类模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,信息获取模块还可以被描述为“获取区块链交易信息的模块单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取区块链交易信息,所述区块链交易信息指示了一个或多个交易输入地址以及一个或多个交易输出地址;构建与所述区块链交易信息对应的交易二部图;根据所述交易二部图和图嵌入算法,得到所述一个或多个交易输入地址以及所述一个或多个交易输出地址分别对应的地址向量;将所述地址向量作为地址分类器的输入,以利用所述地址分类器对所述交易输入地址和/或所述交易输出地址进行分类。
根据本发明实施例的技术方案,能够根据区块链交易信息构建相应的交易二部图,并根据交易二部图和图嵌入算法得到交易地址的地址向量,然后将地址向量作为地址分类器的输入,以利用地址分类器对区块链上的交易地址进行分类。由此,既无需基于预定的假设来对区块链地址进行分类;也无需确定找零行为和找零地址,从而克服了误差传递的问题;并且,基于区块链交易信息构建交易二部图,这可以适应区块链交易的动态变化,进一步地,根据图嵌入算法和交易二部图得到交易地址的地址向量,也准确描绘了区块链地址之间的关系,从而提高了区块链地址的尤其是基于UTXO模型的区块链地址分类准确性。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (26)

1.一种区块链地址的分类方法,其特征在于,包括:
获取区块链交易信息,所述区块链交易信息指示了一个或多个交易输入地址以及一个或多个交易输出地址;
构建与所述区块链交易信息对应的交易二部图;
根据所述交易二部图和图嵌入算法,得到所述一个或多个交易输入地址以及所述一个或多个交易输出地址分别对应的地址向量;
将所述地址向量作为地址分类器的输入,以利用所述地址分类器对所述交易输入地址和/或所述交易输出地址进行分类。
2.根据权利要求1所述的方法,其特征在于,所述区块链交易信息还指示了交易标识;所述构建与所述区块链交易信息对应的交易二部图,包括:
根据所述一个或多个交易输入地址与所述交易标识构建第一顶点子集,并根据所述一个或多个交易输出地址与所述交易标识构建第二顶点子集;
根据所述区块链交易信息指示的同一交易标识对应的交易输入地址和交易输出地址,构建所述第一顶点子集和所述第二顶点子集之间的边,以形成由所述第一顶点子集、所述第二顶点子集以及所述边构成的所述交易二部图。
3.根据权利要求2所述的方法,其特征在于,构建所述第一顶点子集和所述第二顶点子集之间的边,包括:
针对每一个所述交易标识,执行:
在所述第一顶点子集中确定所述交易标识对应的第一地址顶点和第一标识顶点,并在所述第二顶点子集中确定所述交易标识对应的第二地址顶点和第二标识顶点;
构建所述第一地址顶点与所述第二标识顶点之间的边,并构建所述第二地址顶点与所述第一标识顶点之间的边。
4.根据权利要求1所述的方法,其特征在于,所述根据所述交易二部图和图嵌入算法,得到所述一个或多个交易输入地址以及所述一个或多个交易输出地址分别对应的地址向量,包括:
根据所述交易二部图中每个顶点所连接的边以及预设的游走方向参数,确定所述交易二部图中任一顶点与所述交易二部图中的其他顶点的连接概率,并根据所述连接概率形成转移概率矩阵;
根据所述转移概率矩阵,生成一个或多个顶点分别对应的游走序列集合;
根据所述游走序列集合对所述图嵌入算法进行梯度下降优化;
根据优化结果,生成所述交易二部图中每一个地址顶点对应的地址向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述转移概率矩阵,生成一个或多个顶点分别对应的游走序列集合,包括:
针对每一个待生成所述游走序列集合的当前顶点:将所述当前顶点作为所述游走序列集合的第一行列位;
循环执行以下步骤,直至生成的游走采样序列的数量不小于预设的序列采样数量:根据预设的游走长度以及所述转移概率矩阵,生成所述当前顶点对应的游走采样序列,并从所述交易二部图中选择除所述顶点以外的其他顶点作为当前顶点;
根据各个所述当前顶点的被选择顺序,以及所述当前顶点对应的游走采样序列,生成游走序列集合。
6.根据权利要求5所述的方法,其特征在于,所述根据预设的游走长度以及所述转移概率矩阵,生成所述当前顶点对应的游走采样序列,包括:
将所述当前顶点作为所述游走采样序列的第一位;
循环执行以下步骤,直至确定出的顶点位数不小于所述游走长度:
根据所述转移概率矩阵,选择与所述当前顶点之间的所述连接概率最大的顶点作为所述游走采样序列的下一位顶点,并将所述下一位顶点作为当前顶点。
7.根据权利要求1所述的方法,其特征在于,
所述图嵌入算法包括以下任意一种:node2vec算法、DeepWalk算法、SocialGCN算法和SDNE算法。
8.根据权利要求4所述的方法,其特征在于,当所述图嵌入算法为node2vec算法时,所述根据所述游走序列集合对所述图嵌入算法进行梯度下降优化,包括:
针对所述交易二部图中的每个顶点,执行:
从一个或多个所述游走序列集合中确定目标游走采样序列,其中,所述目标游走采样序列的第一位为所述顶点;
根据预设的邻域抽样策略以及所述目标游走采样序列,确定所述顶点对应的领域顶点集合;
根据所述顶点以及所述领域顶点集合中各个领域顶点分别对应的one-hot向量;
将所述one-hot向量作为所述node2vec算法的输入,得到所述领域顶点对应的概率;
根据所述领域顶点对应的概率,对所述node2vec算法进行优化,使得所述领域顶点对应的概率最大化。
9.根据权利要求8所述的方法,其特征在于,所述根据优化结果,生成所述交易二部图中每一个地址顶点对应的地址向量,包括:
根据所述node2vec算法的优化结果,得到所述one-hot向量对应的嵌入向量,将所述嵌入向量作为所述地址向量。
10.根据权利要求1所述的方法,其特征在于,所述构建与所述区块链交易信息对应的交易二部图,包括:
对所述区块链交易信息进行解析,得到所述交易输入地址和所述交易输出地址对应的交易金额;
当所述交易金额小于预设金额阈值时,对所述交易输入地址和交易输出地址进行过滤;
根据过滤后的所述交易输入地址和所述交易输出地址,构建所述交易二部图。
11.根据权利要求1所述的方法,其特征在于,
所述地址分类器是基于区块链交易信息所对应的多个地址向量以及所述多个地址向量分别对应的标签来训练的;其中,所述多个地址向量是根据所述图嵌入算法得到的。
12.根据权利要求1至11任一所述的方法,其特征在于,
所述区块链地址为基于UTXO模型的区块链地址。
13.一种区块链地址的分类装置,其特征在于,包括:信息获取模块、构建模块、向量确定模块和地址分类模块;其中,
所述信息获取模块,用于获取区块链交易信息,所述区块链交易信息指示了一个或多个交易输入地址以及一个或多个交易输出地址;
所述构建模块,用于构建与所述区块链交易信息对应的交易二部图;
所述向量确定模块,用于根据所述交易二部图和图嵌入算法,得到所述一个或多个交易输入地址以及所述一个或多个交易输出地址分别对应的地址向量;
所述地址分类模块,用于将所述地址向量作为地址分类器的输入,以利用所述地址分类器对所述交易输入地址和/或所述交易输出地址进行分类。
14.根据权利要求13所述的装置,其特征在于,所述区块链交易信息还指示了交易标识;
所述构建模块,用于根据所述一个或多个交易输入地址与所述交易标识构建第一顶点子集,并根据所述一个或多个交易输出地址与所述交易标识构建第二顶点子集;根据所述区块链交易信息指示的同一交易标识对应的交易输入地址和交易输出地址,构建所述第一顶点子集和所述第二顶点子集之间的边,以形成由所述第一顶点子集、所述第二顶点子集以及所述边构成的所述交易二部图。
15.根据权利要求14所述的装置,其特征在于,
所述构建模块,用于针对每一个所述交易标识,执行:在所述第一顶点子集中确定所述交易标识对应的第一地址顶点和第一标识顶点,并在所述第二顶点子集中确定所述交易标识对应的第二地址顶点和第二标识顶点;构建所述第一地址顶点与所述第二标识顶点之间的边,并构建所述第二地址顶点与所述第一标识顶点之间的边。
16.根据权利要求13所述的装置,其特征在于,
所述向量确定模块,用于根据所述交易二部图中每个顶点所连接的边以及预设的游走方向参数,确定所述交易二部图中任一顶点与所述交易二部图中的其他顶点的连接概率,并根据所述连接概率形成转移概率矩阵;根据所述转移概率矩阵,生成一个或多个顶点分别对应的游走序列集合;根据所述游走序列集合对所述图嵌入算法进行梯度下降优化;根据优化结果,生成所述交易二部图中每一个地址顶点对应的地址向量。
17.根据权利要求16所述的装置,其特征在于,
所述向量确定模块,用于针对每一个待生成所述游走序列集合的当前顶点:将所述当前顶点作为所述游走序列集合的第一行列位;循环执行以下步骤,直至生成的游走采样序列的数量不小于预设的序列采样数量:根据预设的游走长度以及所述转移概率矩阵,生成所述当前顶点对应的游走采样序列,并从所述交易二部图中选择除所述顶点以外的其他顶点作为当前顶点;根据各个所述当前顶点的被选择顺序,以及所述当前顶点对应的游走采样序列,生成游走序列集合。
18.根据权利要求17所述的装置,其特征在于,
所述向量确定模块,用于将所述当前顶点作为所述游走采样序列的第一位;循环执行以下步骤,直至确定出的顶点位数不小于所述游走长度:根据所述转移概率矩阵,选择与所述当前顶点之间的所述连接概率最大的顶点作为所述游走采样序列的下一位顶点,并将所述下一位顶点作为当前顶点。
19.根据权利要求13所述的装置,其特征在于,
所述图嵌入算法包括以下任意一种:node2vec算法、DeepWalk算法、SocialGCN算法和SDNE算法。
20.根据权利要求16所述的装置,其特征在于,当所述图嵌入算法为node2vec算法时,
所述向量确定模块,用于针对所述交易二部图中的每个顶点,执行:从一个或多个所述游走序列集合中确定目标游走采样序列,其中,所述目标游走采样序列的第一位为所述顶点;根据预设的邻域抽样策略以及所述目标游走采样序列,确定所述顶点对应的领域顶点集合;根据所述顶点以及所述领域顶点集合中各个领域顶点分别对应的one-hot向量;将所述one-hot向量作为所述node2vec算法的输入,得到所述领域顶点对应的概率;根据所述领域顶点对应的概率,对所述node2vec算法进行优化,使得所述领域顶点对应的概率最大化。
21.根据权利要求20所述的装置,其特征在于,
所述向量确定模块,用于根据所述node2vec算法的优化结果,得到所述one-hot向量对应的嵌入向量,将所述嵌入向量作为所述地址向量。
22.根据权利要求13所述的装置,其特征在于,
所述构建模块,用于对所述区块链交易信息进行解析,得到所述交易输入地址和所述交易输出地址对应的交易金额;当所述交易金额小于预设金额阈值时,对所述交易输入地址和交易输出地址进行过滤;根据过滤后的所述交易输入地址和所述交易输出地址,构建所述交易二部图。
23.根据权利要求13所述的装置,其特征在于,
所述地址分类器是基于区块链交易信息所对应的多个地址向量以及所述多个地址向量分别对应的标签来训练的;其中,所述多个地址向量是根据所述图嵌入算法得到的。
24.根据权利要求13至23任一所述的装置,其特征在于,
所述区块链地址为基于UTXO模型的区块链地址。
25.一种区块链地址分类的服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。
26.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-12中任一所述的方法。
CN202110482171.2A 2021-04-30 2021-04-30 一种区块链地址的分类方法及装置 Active CN113190730B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110482171.2A CN113190730B (zh) 2021-04-30 一种区块链地址的分类方法及装置
PCT/CN2022/089008 WO2022228392A1 (zh) 2021-04-30 2022-04-25 一种区块链地址的分类方法及装置
US18/288,810 US20240220546A1 (en) 2021-04-30 2022-04-25 Method and Apparatus for Classifying Blockchain Address
EP22794862.7A EP4332791A1 (en) 2021-04-30 2022-04-25 Blockchain address classification method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110482171.2A CN113190730B (zh) 2021-04-30 一种区块链地址的分类方法及装置

Publications (2)

Publication Number Publication Date
CN113190730A true CN113190730A (zh) 2021-07-30
CN113190730B CN113190730B (zh) 2024-07-30

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022228392A1 (zh) * 2021-04-30 2022-11-03 中国人民银行数字货币研究所 一种区块链地址的分类方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918584A (zh) * 2019-03-25 2019-06-21 中国科学院自动化研究所 比特币交易所地址识别方法、系统、装置
CN111125272A (zh) * 2018-10-31 2020-05-08 百度在线网络技术(北京)有限公司 一种区域特征获取方法、装置、计算机设备及介质
CN111382309A (zh) * 2020-03-10 2020-07-07 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质
CN111754345A (zh) * 2020-06-18 2020-10-09 天津理工大学 一种基于改进随机森林的比特币地址分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125272A (zh) * 2018-10-31 2020-05-08 百度在线网络技术(北京)有限公司 一种区域特征获取方法、装置、计算机设备及介质
CN109918584A (zh) * 2019-03-25 2019-06-21 中国科学院自动化研究所 比特币交易所地址识别方法、系统、装置
CN111382309A (zh) * 2020-03-10 2020-07-07 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质
CN111754345A (zh) * 2020-06-18 2020-10-09 天津理工大学 一种基于改进随机森林的比特币地址分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022228392A1 (zh) * 2021-04-30 2022-11-03 中国人民银行数字货币研究所 一种区块链地址的分类方法及装置

Also Published As

Publication number Publication date
WO2022228392A1 (zh) 2022-11-03
US20240220546A1 (en) 2024-07-04
EP4332791A1 (en) 2024-03-06

Similar Documents

Publication Publication Date Title
CN110363449B (zh) 一种风险识别方法、装置及系统
CN108520470B (zh) 用于生成用户属性信息的方法和装置
CN104077723B (zh) 一种社交网络推荐系统及方法
WO2022152161A1 (zh) 混合图神经网络模型的训练、预测
CN110879776A (zh) 一种测试用例的生成方法和装置
CN114357105A (zh) 地理预训练模型的预训练方法及模型微调方法
CN112860993A (zh) 兴趣点的分类方法、装置、设备、存储介质及程序产品
CN112966054A (zh) 基于企业图谱节点间关系的族群划分方法和计算机设备
CN111951112A (zh) 基于区块链的智能合约执行方法、终端设备和存储介质
CN114329099B (zh) 重叠社区识别方法、装置、设备、存储介质及程序产品
CN113190730B (zh) 一种区块链地址的分类方法及装置
CN113190730A (zh) 一种区块链地址的分类方法及装置
US20220300821A1 (en) Hybrid model and architecture search for automated machine learning systems
CN113468604A (zh) 基于人工智能的大数据隐私信息解析方法及系统
US9519864B1 (en) Method and system for identifying dependent components
CN116806337A (zh) 使用子图的信息匹配
CN114067149A (zh) 互联网服务提供方法、装置和计算机设备
CN113239259A (zh) 确定相似店铺的方法和装置
CN110895564A (zh) 一种潜在客户数据处理方法和装置
CN113590721B (zh) 一种区块链地址分类方法和装置
CN113177596B (zh) 一种区块链地址分类方法和装置
CN113627702B (zh) 业务路径分析方法、装置及计算设备
WO2022171186A1 (zh) 一种区块链地址分类方法和装置
CN113554041B (zh) 一种对用户标记标签的方法和装置
CN113111132B (zh) 一种识别目标用户的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant