CN113506179B - 数字货币交易中异常实体的检测方法、存储介质 - Google Patents

数字货币交易中异常实体的检测方法、存储介质 Download PDF

Info

Publication number
CN113506179B
CN113506179B CN202111067094.0A CN202111067094A CN113506179B CN 113506179 B CN113506179 B CN 113506179B CN 202111067094 A CN202111067094 A CN 202111067094A CN 113506179 B CN113506179 B CN 113506179B
Authority
CN
China
Prior art keywords
node
entity
nodes
graph
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111067094.0A
Other languages
English (en)
Other versions
CN113506179A (zh
Inventor
雷凯
梁予之
吴维晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN202111067094.0A priority Critical patent/CN113506179B/zh
Publication of CN113506179A publication Critical patent/CN113506179A/zh
Application granted granted Critical
Publication of CN113506179B publication Critical patent/CN113506179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Technology Law (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种数字货币交易中异常实体的检测方法、存储介质,其中的方法包括:获取实体间的交易记录,根据交易记录构建交易网络图;根据交易网络图生成可达相似度矩阵,根据可达相似度矩阵及图嵌入算法获得交易网络图中节点的图嵌入向量;将每个节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,然后将融合特征向量输入预先训练好的实体分类模型中以判断对应的实体是否为异常实体。由于基于交易网络图,利用图嵌入算法自动学习得到交易网络图中节点的图嵌入向量作为数字货币交易实体的特征表示,从而无需依赖人工选择特征,提高了检测效率,且能够学习得到潜在的新特征,并有效利用交易网络图的拓扑结构信息。

Description

数字货币交易中异常实体的检测方法、存储介质
技术领域
本发明涉及数字货币技术领域,具体涉及数字货币交易中异常实体的检测方法、存储介质。
背景技术
数字货币领域正处于高速发展期,数字货币交易量大、增速高,但其交易模式相比于传统模式更难防控洗钱风险,主要原因在于:数字货币的交易形式属于非实名交易,具有匿名性;交易真实性难确定,交易用途易隐藏且交易不受时间、空间限制;网络交易复杂化,资金流向跟踪困难,难以掌握交易相关的完整信息。为了实现交易过程中异常实体的检测,现有的技术方案主要采用的是基于统计特征的检测方法。基于统计特征的检测方法主要分为以下几步:
1)生成原始特征:根据专家知识与领域经验,通过统计分析产生可用于描述实体交易行为模式的原始特征组,原始特征组中的原始特征应当是实体交易行为模式所固有的、本质的重要属性,如输入总额、输出总额、输出次数、输入次数等,但这样产生的原始特征可能很多,需要进行选择。
2)特征选择:通过合适的搜索方法,采用某种定量准则(即类别可分离性判据)来衡量特征对分类结果的有效性,从而比较各种不同特征组合的分类效果,在众多的特征组合方案中寻找出最优的特征组合,即对分类贡献度最大的特征组合。
3)分类器的设计与训练:利用选择的特征对实体进行表示,作为分类器的输入进行分类。分类器可分为有监督学习和无监督学习两大类。以聚类算法为代表的无监督学习,将按照某种相似性的度量,将数据集分成多个类,在同一个类中,实体的特征具有较高的相似度,与其他类别的实体的特征差别较大,即具有相似特征的归为一类,具有不相似特征的归于不同的类。以SVM(Support Vector Machine)、MLP(MultiLayer Perceptron)等为代表的有监督学习通过将实体的特征作为输入,优化分类模型预测得到的类别与实体实际所属类别的误差,即优化目标函数,训练得到分类模型的相关参数,从而可以利用分来模型来检测出异常实体。
基于统计特征的检测方法主要存在以下问题:1、这类检测方法对复杂交易网络的表示能力有限,无法有效利用数字货币交易网络存在的拓扑结构关系;2、特征依赖人工提取和选择,需要大量的人工特征工程,效率低下,难以应用于快速增长的交易网络,并且检测效果依赖于人工特征选择,所提取的特征不同,检测效果也有所差异;3、异常交易方式日新月异,一旦出现了新的异常交易方式以及相应的特征,检测模型无法处理这些未见过的特征,难以将这类异常交易有效识别出来,准确率较低。
发明内容
本申请提供一种数字货币交易中异常实体的检测方法、存储介质,旨在解决现有异常实体的检测方法无法有效利用数字货币交易网络存在的拓扑结构关系、特征依赖人工提取和选择、难以识别新特征的问题。
根据第一方面,一种实施例中提供一种数字货币交易中异常实体的检测方法,包括:
获取实体间的交易记录,并根据交易记录构建交易网络图,所述交易网络图的节点表示进行数字货币交易的实体,边表示一个实体向另一个实体发送数字货币的行为,且边的方向为由发送方实体指向接收方实体;
根据所述交易网络图,利用图嵌入算法获得所述交易网络图中的节点的图嵌入向量;
将每个节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,然后将融合特征向量输入预先训练好的实体分类模型中以判断对应的实体是否为异常实体,所述统计特征向量由输入总额、输出总额、输出次数、输入次数中的一者或多者组成。
根据第二方面,一种实施例中提供一种数字货币交易中异常实体的检测方法,包括:
获取实体间的交易记录,并根据交易记录构建交易网络图,所述交易网络图的节点表示进行数字货币交易的实体,边表示一个实体向另一个实体发送数字货币的行为,且边的方向为由发送方实体指向接收方实体;
根据所述交易网络图,利用图嵌入算法获得所述交易网络图中的节点的图嵌入向量;
将每个节点的图嵌入向量分别输入预先训练好的实体分类模型中以判断对应的实体是否为异常实体。
一种实施例中,所述根据所述交易网络图,利用图嵌入算法获得所述交易网络图中的实体的图嵌入向量,包括:
采用随机游走算法对所述交易网络图中的节点进行采样,得到r个包括l个节点的节点序列,其中r为预设的节点序列数量,l为预设的节点序列长度,rl为正整数;
使用所述r个节点序列对Skip-gram模型进行训练,得到Skip-gram模型中隐藏层的权重矩阵,隐藏层的权重矩阵的每一行对应一个节点的图嵌入向量。
一种实施例中,所述采用随机游走算法对所述交易网络图中的节点进行采样,包括:
随机选择交易网络图中的一节点作为起点开始采样,依据转移概率
Figure 939404DEST_PATH_IMAGE001
选择下一采样节点进行采样,直至得到l个采样节点为止,从而得到一长度为l的节点序列,其中v i 表示当前节点,v x 表示下一个采样节点,转移概率
Figure 263069DEST_PATH_IMAGE001
根据节点间的距离设置。
一种实施例中,所述转移概率
Figure 839544DEST_PATH_IMAGE001
根据以下公式确定:
Figure DEST_PATH_IMAGE002
其中p ix 表示未归一化的转移概率,z表示归一化常数,t ix 表示节点v i 和节点v x 之间的最短距离,ε为预设的距离阈值,且
Figure 641278DEST_PATH_IMAGE003
,其中
Figure DEST_PATH_IMAGE004
其中v j 表示当前节点的上一个采样节点,disv j ,v x )表示节点v j 和节点v x 之间的最短距离,p为预设的折返参数,q为预设的进出参数;
S ix 表示可达相似度,且
Figure 721229DEST_PATH_IMAGE005
一种实施例中,对Skip-gram模型进行训练时的损失函数为:
Figure DEST_PATH_IMAGE006
其中,V表示交易网络图中所有节点的集合,v表示其中一节点,
Figure 950216DEST_PATH_IMAGE007
表示节点v的图嵌入向量,
Figure DEST_PATH_IMAGE008
表示节点v的邻居节点的图嵌入向量的集合,且
Figure 420512DEST_PATH_IMAGE009
其中
Figure DEST_PATH_IMAGE010
Figure 557095DEST_PATH_IMAGE011
表示节点v的第j个邻居节点的图嵌入向量。
一种实施例中,所述将每个节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,包括:
将节点的图嵌入向量和对应实体的统计特征向量拼接成一个向量,将拼接得到的向量输入由一层隐含层构成的转换层,得到融合特征向量。
一种实施例中,所述实体分类模型为多层感知机。
一种实施例中,对所述实体分类模型进行训练时的损失函数为:
Figure 100002_DEST_PATH_IMAGE012
其中
Figure 757132DEST_PATH_IMAGE013
为交易网络图中节点的数量,
Figure 100002_DEST_PATH_IMAGE014
表示实体分类模型预测的实体的类别,
Figure 157021DEST_PATH_IMAGE015
表示实体的实际类别,
Figure 100002_DEST_PATH_IMAGE016
表示实体为正常实体,
Figure 176929DEST_PATH_IMAGE017
表示实体为异常实体,w l 为预设的权重值,且异常实体的权重值高于正常实体的权重值。
根据第三方面,一种实施例中提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现上述第一方面或第二方面所述的数字货币交易中异常实体的检测方法。
依据上述实施例的数字货币交易中异常实体的检测方法和计算机可读存储介质,根据实体间的交易记录构建交易网络图,基于交易网络图,利用图嵌入算法自动学习得到交易网络图中节点的图嵌入向量,作为数字货币交易实体的特征表示,从而无需依赖人工选择特征,提高了检测效率,且图嵌入算法能够学习得到交易网络图的拓扑结构信息以及潜在的新特征,提高了异常实体检测的准确率。
附图说明
图1为一种实施例中的数字货币交易中异常实体的检测方法的流程图;
图2为根据交易记录构建交易网络图的示意图;
图3为一种实施例的基于随机游走的图嵌入算法的流程图;
图4为基于随机游走的图嵌入算法的示意图;
图5为一种实施例中随机游走的转移概率中α jx 的取值示意图;
图6为Skip-gram模型的结构示意图;
图7为一种实施例中将图嵌入向量和统计特征向量进行融合,得到融合特征向量的示意图;
图8为多层感知机的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。本申请中提及的“节点”、“实体节点”均为同一概念。
本申请提供的数字货币交易中异常实体的检测方法主要分为三步:1、构建交易网络图;2、对实体节点进行特征表示;3、对实体节点进行分类。首先,对给定的
Figure 586045DEST_PATH_IMAGE013
个进行数字货币交易的实体及其交易记录构建一个有向带权图G =(V,E,W),其中V代表节点的集合,E代表边的集合,W代表所有边权重的集合。该交易网络图中,节点
Figure 100002_DEST_PATH_IMAGE018
代表数字货币交易中的实体,边
Figure 640589DEST_PATH_IMAGE019
代表数字货币从实体节点v i 流向v j ,权重
Figure DEST_PATH_IMAGE020
且与边一一对应,代表v i v j 关联程度强弱,ij为节点的索引。得到交易网络图后,需要对实体节点进行特征表示,以用于后续进行分类,本申请中采用图嵌入算法基于交易网络图进行学习,将实体节点映射到低维特征空间中,为每一个实体节点学习一个低维向量表示,作为后续二分类器的输入,用以预测实体所属的类别,判断该实体属于正常实体还是异常实体。数字货币可以是中国人民银行发行的数字货币等。请参考图1,本申请一种实施例中的数字货币交易中异常实体的检测方法包括步骤110~130,下面具体说明。
步骤110:获取实体间的交易记录,并根据交易记录构建交易网络图。
实体是指由一个用户或者一个机构掌握的多个数字货币交易地址的集合,可表示为entity1 = {a1, a2},其中entity1表示实体,a1、a2表示交易地址。一个实体entity1发送数字货币给另一个实体entity2的行为定义为一次交易,可以用二元组<entity1, entity2>来表示。如上文所述,交易网络图主要是抽取实体之间的交易记录信息构建得到,可以表示成G =(V,E,W)的有向带权图形式,交易网络图中的节点表示进行数字货币交易的实体,当一个实体和另一个实体间存在交易时,则它们对应的节点间存在一条边,且边的方向为由发送方实体指向接收方实体。节点v i v j 之间的边的权重w ij 为两节点间的交易次数,即节点v i 向节点v j 发送数字货币的次数。根据上述定义,根据数字货币交易系统中参与交易的所有实体以及实体间的历史交易记录就能够构建出完整的数字货币交易网络图。
请参考图2,图2给出了基于参与交易的所有实体及其对应的交易记录生成交易网络图的一个简单示例。在图2中,交易网络图的节点表示一个实体entityx,即数字货币交易系统中的一个用户或者一个机构。交易网络图中的边表示实体之间的交易记录< entityi,entityj>。在构建交易网络图的过程中,可以分析每对实体对之间的交易记录总数,从而获得交易网络图中边的权重。例如实体entity1和entity2这一对实体对,存在一条< entity1,entity2>的交易记录,所以交易网络图中存在一条由节点entity1指向节点entity2的边,这条边的权重为1;同时也存在一条< entity2, entity1>的交易记录,所以交易网络图中存在一条由节点entity2指向节点entity1的边,这条边的权重为1。如果有多条相同的交易记录,则边的权重为这些交易记录的条数总和。
步骤120:根据交易网络图,利用图嵌入算法获得交易网络图中的节点的图嵌入向量。
利用图嵌入算法学习得到节点的图嵌入向量需要首先获得节点序列,以用于对Skip-gram模型进行训练,节点序列的获取方式有多种,可以利用现有的各种方法获取。在一种实施例中,可以采用随机游走算法对交易网络图中的节点进行采样来获取节点序列,请参考图3,基于随机游走的图嵌入算法包括步骤121~122,下面具体说明。
步骤121:采用随机游走算法对交易网络图中的节点进行采样,得到r个包括l个节点的节点序列,其中r为预设的节点序列数量,l为预设的节点序列长度,rl为正整数。
请参考图4,基础的基于随机游走的图嵌入算法的主要步骤是:首先,将交易网络图作为基于随机游走的图嵌入算法的输入;然后,采用有偏随机游走策略对交易网络图中的节点进行采样,得到多条长度为预设值的节点序列;最后,将所有的节点序列作为Skip-gram模型的输入进行训练,通过Skip-gram模型学习得到节点的低维向量表示。
在有偏随机游走策略中,随机选择交易网络图中的一节点作为起点开始采样,依据预设的转移概率选择下一采样节点进行采样,直至得到l个采样节点为止,从而得到一长度为l的节点序列。在节点序列采样过程中,从当前节点v i 到下一个采样节点v x 未归一化的转移概率为:
Figure 8116DEST_PATH_IMAGE021
,其中α jx 的定义为:
Figure 984162DEST_PATH_IMAGE004
其中,disv j ,v x )是当前节点的上一个采样节点v j 和下一个采样节点v x 之间的最短距离。如图5所示,图中节点v 1v 2v 3v 4v j 均有可能成为当前节点v i 的下一个采样节点。当
Figure DEST_PATH_IMAGE022
时,则意味着将返回上一个采样节点v j 进行采样,此时
Figure 665811DEST_PATH_IMAGE023
,参数p控制了返回上一个采样节点的概率,称之为折返参数,当p的取值较大时,随机游走策略采样之前的节点的概率较小,反之,当p的取值较小时,随机游走策略采样之前的节点的概率较大。当
Figure DEST_PATH_IMAGE024
时,则意味着v 1v 2将成为下一个采样节点,此时
Figure 512544DEST_PATH_IMAGE025
。当
Figure DEST_PATH_IMAGE026
时,则意味着v 3v 4将成为下一个采样节点,此时
Figure 378869DEST_PATH_IMAGE027
,参数q控制了采样上一个采样节点v j 的非邻居节点的概率,当q取值较大时,随机游走策略更倾向于选择距离上一个采样节点v j 较近的节点,接近广度优先搜索的效果,反之,当q取值较小时,随机游走策略更倾向于选择距离上一个采样节点v j 更远的节点,接近深度优先搜索的效果,因此,将q称为进出参数。
本申请中,基于交易网络图,利用可达相似度对图嵌入算法进行改进,根据可达相似度来计算转移概率,学习更加全面、丰富的交易网络图的结构信息,能够学习到更高阶的节点关联关系,提高了异常实体检测的准确率。下面首先给出关于节点相似度的相关定义:
定义1 邻接矩阵:给定图G =(V,E,W),可构建出邻接矩阵
Figure DEST_PATH_IMAGE028
Figure 514315DEST_PATH_IMAGE013
为图G中节点个数,其中邻接矩阵A的每个元素为
Figure 124288DEST_PATH_IMAGE029
定义2 可达相似度(也称高阶相似度):给定图G,可得邻接矩阵
Figure DEST_PATH_IMAGE030
,利用邻接矩阵A可构建可达相似度矩阵
Figure 763211DEST_PATH_IMAGE031
,其中可达相似度矩阵S A 的每个元素为
Figure DEST_PATH_IMAGE032
其中,t ij 表示节点v i 和节点v j 之间的最短距离,ε为预设的距离阈值。基于邻接矩阵A,可采用广度优先搜索求得节点间的最短距离。当两节点存在可达路径且最短距离小于距离阈值ε时,两节点的可达相似度为最短距离的倒数。当两节点不存在可达路径或者最短距离不小于距离阈值ε时,两节点的可达相似度为零。节点与自身的可达相似度为1。因此,可达相似度的取值范围为[0, 1]。
利用可达相似度改进后的从当前节点v i 到下一个采样节点v x 未归一化的转移概率为:
Figure 738120DEST_PATH_IMAGE033
S ix 表示节点v i 和节点v x 的可达相似度,根据上述可达相似度的定义,可得
Figure 423179DEST_PATH_IMAGE005
最后对p ix 进行归一化可得到转移概率
Figure DEST_PATH_IMAGE034
Figure 836843DEST_PATH_IMAGE035
其中z表示归一化常数。
步骤122:使用步骤121得到的r个节点序列对Skip-gram模型进行训练,得到Skip-gram模型中隐藏层的权重矩阵,隐藏层的权重矩阵的每一行对应一个节点的图嵌入向量。
Skip-gram模型是自然语言处理中用于学习得到词典中每个词的词向量的神经网络,其结构如图6所示,包括一个输入层、一个隐藏层和一个输出层。在自然语言处理中,Skip-gram模型的训练使用的是句子,将句子中的某个词作为中心词,输入该中心词的one-hot向量,预测与该中心词相邻的前后k(称为窗口大小)个词,并与真实值进行比较,更新模型参数。训练结束后,Skip-gram模型隐藏层的权重矩阵被作为词向量矩阵,其中的每一行对应一个词的词向量。Skip-gram模型学习得到的词向量能够反映词之间的关系。在图嵌入算法中,节点序列可以类比于句子,节点可以类比于句子中的词,通过使用节点序列对Skip-gram模型进行训练,来得到节点的图嵌入向量,训练时的损失函数为
Figure 855571DEST_PATH_IMAGE006
其中,V表示交易网络图中所有节点的集合,v表示其中一节点,
Figure 329278DEST_PATH_IMAGE007
表示节点v的图嵌入向量,
Figure 501633DEST_PATH_IMAGE008
表示节点v的邻居节点的图嵌入向量的集合。假设通过有偏随机游走采样得到的邻居节点之间相互独立,则有:
Figure 594354DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE036
可由softmax函数得到:
Figure 598082DEST_PATH_IMAGE010
其中
Figure 118057DEST_PATH_IMAGE037
表示节点v的第j个邻居节点的图嵌入向量。训练结束后,Skip-gram模型隐藏层的权重矩阵的每一行则对应一个节点的图嵌入向量,从而得到能够反映交易网络图拓扑结构信息的向量表示。图嵌入向量的维度相对较低,相较于使用大小为
Figure DEST_PATH_IMAGE038
的邻接矩阵来表示交易网络图的拓扑结构信息,其占用空间更小。
综上所述,本申请的基于随机游走的图嵌入算法可归纳如下:
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
其中Shuffle( )表示进行随机排列,BiasedRandomWalk( )表示进行有偏随机游走,walk表示采样的节点,walks表示节点序列,图嵌入矩阵
Figure 715391DEST_PATH_IMAGE043
指Skip-gram模型隐藏层的权重矩阵。
步骤130:利用图嵌入向量对节点进行分类,以判断对应的实体是否为异常实体。
图嵌入向量是节点的特征表示,因此可以利用图嵌入向量来对节点进行二分类,分辨出节点所对应的实体是正常实体还是异常实体。本申请中采用基于神经网络的实体分类模型作为二分类器对节点进行分类。
除了可以直接将图嵌入向量输入实体分类模型进行二分类外,为了提高节点的表示能力,可以将节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,将融合特征向量输入实体分类模型进行二分类,使得实体分类模型的输入包含更完备的交易信息,提高异常实体检测的准确率,其中统计特征向量可以由输入总额、输出总额、输出次数、输入次数中的一者或多者组成。在这里用
Figure DEST_PATH_IMAGE044
表示图嵌入向量,用
Figure 470858DEST_PATH_IMAGE045
表示统计特征向量,用
Figure DEST_PATH_IMAGE046
表示融合特征向量,下表i为节点的索引。
请参考图7,将节点的图嵌入向量和对应实体的统计特征向量进行融合时,首先将节点的图嵌入向量和对应实体的统计特征向量拼接成一个向量,将拼接得到的向量输入由一个转换层得到融合特征向量。具体来说,首先将图嵌入向量
Figure 735617DEST_PATH_IMAGE044
和对应实体的统计特征向量
Figure 754388DEST_PATH_IMAGE045
拼接成一个d k 维的向量
Figure 839019DEST_PATH_IMAGE047
,用公式表示为:
Figure DEST_PATH_IMAGE048
然后将
Figure 398176DEST_PATH_IMAGE049
放入由一层隐含层构成的转换层Tr得到融合特征向量
Figure 720704DEST_PATH_IMAGE046
,用公式表示为:
Figure DEST_PATH_IMAGE050
Hidden( )表示隐含层的运算,通过隐含层对
Figure 441536DEST_PATH_IMAGE051
进行编码,生成d m 维的融合特征向量
Figure DEST_PATH_IMAGE052
,其中
Figure 747883DEST_PATH_IMAGE053
,使得数据得到了压缩。
为了提高检测方法的准确率,在有的实施例中可以采用对类别不平衡任务较友好的多层感知机对节点进行分类。多层感知机的结构如图8所示,主要包括三部分:输入层,隐含层和输出层。每一层都有多个神经元构成其传递函数。分别以f in f h f o 表示输入层、隐含层和输出层的传递函数,采用sigmod函数为神经元中的激励函数,以融合特征向量
Figure 110732DEST_PATH_IMAGE046
作为输入为例,多层感知机的工作过程如下:
第一层为输入层,将融合特征向量
Figure 818925DEST_PATH_IMAGE046
作为输入,得到输入层的输出为:
Figure DEST_PATH_IMAGE054
第二层为隐含层,将输入层的输出y in 作为隐含层的输入,得到隐含层的输出为:
Figure 710657DEST_PATH_IMAGE055
第三层为输出层,将隐含层的输出y h 作为输出层的输入,得到输出层的输出为:
Figure DEST_PATH_IMAGE056
最后,运用softmax函数处理输出层的输出得到最后的二分类结果:
Figure 504301DEST_PATH_IMAGE057
其中,W i W h W o W s 为各层的权重矩阵,b i b h b o b s 为各层的偏置向量。当
Figure DEST_PATH_IMAGE058
时为正常实体,
Figure DEST_PATH_IMAGE059
时为异常实体。
对实体分类模型进行训练时,将节点样本的图嵌入向量或融合特征向量输入其中,根据以下损失函数进行训练:
Figure DEST_PATH_IMAGE060
其中
Figure 342944DEST_PATH_IMAGE013
为交易网络图中节点的数量,
Figure DEST_PATH_IMAGE061
表示实体分类模型预测的实体的类别,y i 表示实体的实际类别,
Figure 374485DEST_PATH_IMAGE016
表示实体为正常实体,
Figure 968277DEST_PATH_IMAGE017
表示实体为异常实体,w l 为预设的权重值,为了使实体分类模型能更好地分辨出异常实体,异常实体的权重值高于正常实体的权重值。
训练完成后,将节点输入实体分类模型,若输出的结果为0则节点对应的实体为正常实体,若输出的结果为1则节点对应的实体为异常实体。
现有技术中,对数字货币交易异常的检测常常只利用统计特征来进行,而本申请中将数字货币的交易记录用图的数据结构进行表示,构建数字货币出交易网络图,基于数字货币交易网络图,用图嵌入算法学习得到每个实体节点的低维向量表示用于进行分类。在实体节点表示的学习过程中,首先利用节点可达相似度改进了图嵌入算法,基于节点可达相似度实现有偏概率地对交易网络图中的节点进行采样,得到节点序列,使得距离较远的节点能够建立直接联系,从而使得图嵌入算法可以学习更高阶的节点关联关系,提高异常实体检测的准确率。将采样得到的节点序列作为图嵌入算法的输入,为每一个节点自动化地学习低维图嵌入向量表示,摆脱对人工的依赖,且更准确地捕获交易网络图中的拓扑结构信息。在有的实施例中,还进一步利用统计特征和图嵌入向量进行联合表示,增强对节点的表示能力,解决单一使用统计特征表示能力差的问题。而在实体节点分类的过程中,采用了对类别不平衡任务较友好的多层感知机模型,同时采用加权交叉熵函数作为损失函数进行模型参数的优化训练,提高异常实体检测的准确率,有助于实现更为有效的洗钱风险防控。
本文参照了各种示范实施例进行说明。然而,本领域的技术人员将认识到,在不脱离本文范围的情况下,可以对示范性实施例做出改变和修正。例如,各种操作步骤以及用于执行操作步骤的组件,可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现(例如一个或多个步骤可以被删除、修改或结合到其他步骤中)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。另外,如本领域技术人员所理解的,本文的原理可以反映在计算机可读存储介质上的计算机程序产品中,该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用,包括磁存储设备(硬盘、软盘等)、光学存储设备(CD至ROM、DVD、Blu Ray盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器,使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行,这样存储在计算机可读存储器中的指令就可以形成一件制造品,包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上,从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程,使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。
虽然在各种实施例中已经示出了本文的原理,但是许多特别适用于特定环境和操作要求的结构、布置、比例、元件、材料和部件的修改可以在不脱离本披露的原则和范围内使用。以上修改和其他改变或修正将被包含在本文的范围之内。
前述具体说明已参照各种实施例进行了描述。然而,本领域技术人员将认识到,可以在不脱离本披露的范围的情况下进行各种修正和改变。因此,对于本披露的考虑将是说明性的而非限制性的意义上的,并且所有这些修改都将被包含在其范围内。同样,有关于各种实施例的优点、其他优点和问题的解决方案已如上所述。然而,益处、优点、问题的解决方案以及任何能产生这些的要素,或使其变得更明确的解决方案都不应被解释为关键的、必需的或必要的。本文中所用的术语“包括”和其任何其他变体,皆属于非排他性包含,这样包括要素列表的过程、方法、文章或设备不仅包括这些要素,还包括未明确列出的或不属于该过程、方法、系统、文章或设备的其他要素。此外,本文中所使用的术语“耦合”和其任何其他变体都是指物理连接、电连接、磁连接、光连接、通信连接、功能连接和/或任何其他连接。
具有本领域技术的人将认识到,在不脱离本发明的基本原理的情况下,可以对上述实施例的细节进行许多改变。因此,本发明的范围应仅由权利要求确定。

Claims (7)

1.一种数字货币交易中异常实体的检测方法,其特征在于,包括:
获取实体间的交易记录,并根据交易记录构建交易网络图,所述交易网络图的节点表示进行数字货币交易的实体,边表示一个实体向另一个实体发送数字货币的行为,且边的方向为由发送方实体指向接收方实体;
根据所述交易网络图,采用随机游走算法对所述交易网络图中的节点进行采样,得到r个包括l个节点的节点序列,其中r为预设的节点序列数量,l为预设的节点序列长度,rl为正整数,然后使用所述r个节点序列对Skip-gram模型进行训练,得到Skip-gram模型中隐藏层的权重矩阵,隐藏层的权重矩阵的每一行对应一个节点的图嵌入向量;
将每个节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,然后将融合特征向量输入预先训练好的实体分类模型中以判断对应的实体是否为异常实体,所述统计特征向量由输入总额、输出总额、输出次数、输入次数中的一者或多者组成;
其中所述采用随机游走算法对所述交易网络图中的节点进行采样,包括:
随机选择交易网络图中的一节点作为起点开始采样,依据转移概率
Figure DEST_PATH_IMAGE001
选择下一采样节点进行采样,直至得到l个采样节点为止,从而得到一长度为l的节点序列,其中v i 表示当前节点,v x 表示下一个采样节点,转移概率
Figure 872523DEST_PATH_IMAGE001
根据节点间的距离设置,具体为:
Figure 337002DEST_PATH_IMAGE002
其中p ix 表示未归一化的转移概率,z表示归一化常数,t ix 表示节点v i 和节点v x 之间的最短距离,ε为预设的距离阈值,且
Figure DEST_PATH_IMAGE003
,其中
Figure 474723DEST_PATH_IMAGE004
其中v j 表示当前节点的上一个采样节点,disv j ,v x )表示节点v j 和节点v x 之间的最短距离,p为预设的折返参数,q为预设的进出参数;
S ix 表示可达相似度,且
Figure DEST_PATH_IMAGE005
2.如权利要求1所述的检测方法,其特征在于,所述将每个节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,包括:
将节点的图嵌入向量和对应实体的统计特征向量拼接成一个向量,将拼接得到的向量输入由一层隐含层构成的转换层,得到融合特征向量。
3.一种数字货币交易中异常实体的检测方法,其特征在于,包括:
获取实体间的交易记录,并根据交易记录构建交易网络图,所述交易网络图的节点表示进行数字货币交易的实体,边表示一个实体向另一个实体发送数字货币的行为,且边的方向为由发送方实体指向接收方实体;
根据所述交易网络图,采用随机游走算法对所述交易网络图中的节点进行采样,得到r个包括l个节点的节点序列,其中r为预设的节点序列数量,l为预设的节点序列长度,rl为正整数,然后使用所述r个节点序列对Skip-gram模型进行训练,得到Skip-gram模型中隐藏层的权重矩阵,隐藏层的权重矩阵的每一行对应一个节点的图嵌入向量;
将每个节点的图嵌入向量分别输入预先训练好的实体分类模型中以判断对应的实体是否为异常实体;
其中所述采用随机游走算法对所述交易网络图中的节点进行采样,包括:
随机选择交易网络图中的一节点作为起点开始采样,依据转移概率
Figure 936928DEST_PATH_IMAGE001
选择下一采样节点进行采样,直至得到l个采样节点为止,从而得到一长度为l的节点序列,其中v i 表示当前节点,v x 表示下一个采样节点,转移概率
Figure 894520DEST_PATH_IMAGE001
根据节点间的距离设置,具体为:
Figure 897111DEST_PATH_IMAGE002
其中p ix 表示未归一化的转移概率,z表示归一化常数,t ix 表示节点v i 和节点v x 之间的最短距离,ε为预设的距离阈值,且
Figure 623758DEST_PATH_IMAGE003
,其中
Figure 319182DEST_PATH_IMAGE006
其中v j 表示当前节点的上一个采样节点,disv j ,v x )表示节点v j 和节点v x 之间的最短距离,p为预设的折返参数,q为预设的进出参数;
S ix 表示可达相似度,且
Figure 560807DEST_PATH_IMAGE005
4.如权利要求1或3所述的检测方法,其特征在于,对Skip-gram模型进行训练时的损失函数为:
Figure DEST_PATH_IMAGE007
其中,V表示交易网络图中所有节点的集合,v表示其中一节点,
Figure 803308DEST_PATH_IMAGE008
表示节点v的图嵌入向量,
Figure DEST_PATH_IMAGE009
表示节点v的邻居节点的图嵌入向量的集合,且
Figure 915620DEST_PATH_IMAGE010
其中
Figure 250786DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
表示节点v的第j个邻居节点的图嵌入向量。
5.如权利要求1或3所述的检测方法,其特征在于,所述实体分类模型为多层感知机。
6.如权利要求1或3所述的检测方法,其特征在于,对所述实体分类模型进行训练时的损失函数为:
Figure 448550DEST_PATH_IMAGE013
其中
Figure DEST_PATH_IMAGE014
为交易网络图中节点的数量,
Figure 996206DEST_PATH_IMAGE015
表示实体分类模型预测的实体的类别,
Figure DEST_PATH_IMAGE016
表示实体的实际类别,
Figure 697445DEST_PATH_IMAGE017
表示实体为正常实体,
Figure DEST_PATH_IMAGE018
表示实体为异常实体,w l 为预设的权重值,且异常实体的权重值高于正常实体的权重值。
7.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1至6中任一项所述的检测方法。
CN202111067094.0A 2021-09-13 2021-09-13 数字货币交易中异常实体的检测方法、存储介质 Active CN113506179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111067094.0A CN113506179B (zh) 2021-09-13 2021-09-13 数字货币交易中异常实体的检测方法、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111067094.0A CN113506179B (zh) 2021-09-13 2021-09-13 数字货币交易中异常实体的检测方法、存储介质

Publications (2)

Publication Number Publication Date
CN113506179A CN113506179A (zh) 2021-10-15
CN113506179B true CN113506179B (zh) 2022-01-11

Family

ID=78016951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111067094.0A Active CN113506179B (zh) 2021-09-13 2021-09-13 数字货币交易中异常实体的检测方法、存储介质

Country Status (1)

Country Link
CN (1) CN113506179B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612235B (zh) 2022-03-09 2023-03-10 烟台大学 一种基于图嵌入的区块链异常行为检测方法
CN115660688B (zh) * 2022-10-24 2024-04-30 西南财经大学 金融交易异常检测方法及其跨区域可持续训练方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111447179A (zh) * 2020-03-03 2020-07-24 中山大学 一种针对以太网钓鱼诈骗的网络表示学习方法
CN111581445B (zh) * 2020-05-08 2023-10-13 杨洋 基于图基元的图嵌入学习方法
CN112541669A (zh) * 2020-12-10 2021-03-23 支付宝(杭州)信息技术有限公司 风险识别方法、系统及装置
CN113269647B (zh) * 2021-06-08 2022-11-18 上海交通大学 基于图的交易异常关联用户检测方法
CN113283909B (zh) * 2021-06-09 2022-11-08 广东工业大学 一种基于深度学习的以太坊钓鱼账户检测方法

Also Published As

Publication number Publication date
CN113506179A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN113506179B (zh) 数字货币交易中异常实体的检测方法、存储介质
CN108023876B (zh) 基于可持续性集成学习的入侵检测方法及入侵检测系统
CN110213244A (zh) 一种基于时空特征融合的网络入侵检测方法
Lin et al. Parameter tuning, feature selection and weight assignment of features for case-based reasoning by artificial immune system
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN117251791B (zh) 基于图的全局语义感知的多模态反讽检测方法
Hajič Jr et al. Detecting noteheads in handwritten scores with convnets and bounding box regression
CN113032525A (zh) 虚假新闻检测方法、装置、电子设备以及存储介质
CN113887580A (zh) 一种考虑多粒度类相关性的对比式开放集识别方法及装置
CN114139624A (zh) 一种基于集成模型挖掘时间序列数据相似性信息的方法
KR102429139B1 (ko) 공공데이터 및 오픈 api를 활용한 상권분석시스템
CN113536760B (zh) 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
CN114742564A (zh) 一种融合复杂关系的虚假评论者群体检测方法
CN117009613A (zh) 一种图数据分类方法、系统、装置及介质
CN116633639B (zh) 基于无监督与有监督融合强化学习的网络入侵检测方法
Ming et al. Visual detection of sprouting in potatoes using ensemble‐based classifier
CN115631504A (zh) 一种基于双模态图网络信息瓶颈的情感识别方法
Wang et al. An oversampling method based on differential evolution and natural neighbors
CN116010681A (zh) 一种召回模型的训练及检索方法、装置及电子设备
CN111666410B (zh) 商品用户评论文本的情感分类方法及系统
CN116049386A (zh) 文本对应类目的预测方法、装置以及电子设备
Tani et al. Deep Learning Based Model for COVID-19 Pneumonia Prediction with Pulmonary CT Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant