CN113506179A - 数字货币交易中异常实体的检测方法、存储介质 - Google Patents
数字货币交易中异常实体的检测方法、存储介质 Download PDFInfo
- Publication number
- CN113506179A CN113506179A CN202111067094.0A CN202111067094A CN113506179A CN 113506179 A CN113506179 A CN 113506179A CN 202111067094 A CN202111067094 A CN 202111067094A CN 113506179 A CN113506179 A CN 113506179A
- Authority
- CN
- China
- Prior art keywords
- node
- entity
- nodes
- graph
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 101
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000013145 classification model Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 238000005070 sampling Methods 0.000 claims description 48
- 238000005295 random walk Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 19
- 230000007704 transition Effects 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 8
- 230000002547 anomalous effect Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004900 laundering Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Technology Law (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种数字货币交易中异常实体的检测方法、存储介质,其中的方法包括:获取实体间的交易记录,根据交易记录构建交易网络图;根据交易网络图生成可达相似度矩阵,根据可达相似度矩阵及图嵌入算法获得交易网络图中节点的图嵌入向量;将每个节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,然后将融合特征向量输入预先训练好的实体分类模型中以判断对应的实体是否为异常实体。由于基于交易网络图,利用图嵌入算法自动学习得到交易网络图中节点的图嵌入向量作为数字货币交易实体的特征表示,从而无需依赖人工选择特征,提高了检测效率,且能够学习得到潜在的新特征,并有效利用交易网络图的拓扑结构信息。
Description
技术领域
本发明涉及数字货币技术领域,具体涉及数字货币交易中异常实体的检测方法、存储介质。
背景技术
数字货币领域正处于高速发展期,数字货币交易量大、增速高,但其交易模式相比于传统模式更难防控洗钱风险,主要原因在于:数字货币的交易形式属于非实名交易,具有匿名性;交易真实性难确定,交易用途易隐藏且交易不受时间、空间限制;网络交易复杂化,资金流向跟踪困难,难以掌握交易相关的完整信息。为了实现交易过程中异常实体的检测,现有的技术方案主要采用的是基于统计特征的检测方法。基于统计特征的检测方法主要分为以下几步:
1)生成原始特征:根据专家知识与领域经验,通过统计分析产生可用于描述实体交易行为模式的原始特征组,原始特征组中的原始特征应当是实体交易行为模式所固有的、本质的重要属性,如输入总额、输出总额、输出次数、输入次数等,但这样产生的原始特征可能很多,需要进行选择。
2)特征选择:通过合适的搜索方法,采用某种定量准则(即类别可分离性判据)来衡量特征对分类结果的有效性,从而比较各种不同特征组合的分类效果,在众多的特征组合方案中寻找出最优的特征组合,即对分类贡献度最大的特征组合。
3)分类器的设计与训练:利用选择的特征对实体进行表示,作为分类器的输入进行分类。分类器可分为有监督学习和无监督学习两大类。以聚类算法为代表的无监督学习,将按照某种相似性的度量,将数据集分成多个类,在同一个类中,实体的特征具有较高的相似度,与其他类别的实体的特征差别较大,即具有相似特征的归为一类,具有不相似特征的归于不同的类。以SVM(Support Vector Machine)、MLP(MultiLayer Perceptron)等为代表的有监督学习通过将实体的特征作为输入,优化分类模型预测得到的类别与实体实际所属类别的误差,即优化目标函数,训练得到分类模型的相关参数,从而可以利用分来模型来检测出异常实体。
基于统计特征的检测方法主要存在以下问题:1、这类检测方法对复杂交易网络的表示能力有限,无法有效利用数字货币交易网络存在的拓扑结构关系;2、特征依赖人工提取和选择,需要大量的人工特征工程,效率低下,难以应用于快速增长的交易网络,并且检测效果依赖于人工特征选择,所提取的特征不同,检测效果也有所差异;3、异常交易方式日新月异,一旦出现了新的异常交易方式以及相应的特征,检测模型无法处理这些未见过的特征,难以将这类异常交易有效识别出来,准确率较低。
发明内容
本申请提供一种数字货币交易中异常实体的检测方法、存储介质,旨在解决现有异常实体的检测方法无法有效利用数字货币交易网络存在的拓扑结构关系、特征依赖人工提取和选择、难以识别新特征的问题。
根据第一方面,一种实施例中提供一种数字货币交易中异常实体的检测方法,包括:
获取实体间的交易记录,并根据交易记录构建交易网络图,所述交易网络图的节点表示进行数字货币交易的实体,边表示一个实体向另一个实体发送数字货币的行为,且边的方向为由发送方实体指向接收方实体;
根据所述交易网络图,利用图嵌入算法获得所述交易网络图中的节点的图嵌入向量;
将每个节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,然后将融合特征向量输入预先训练好的实体分类模型中以判断对应的实体是否为异常实体,所述统计特征向量由输入总额、输出总额、输出次数、输入次数中的一者或多者组成。
根据第二方面,一种实施例中提供一种数字货币交易中异常实体的检测方法,包括:
获取实体间的交易记录,并根据交易记录构建交易网络图,所述交易网络图的节点表示进行数字货币交易的实体,边表示一个实体向另一个实体发送数字货币的行为,且边的方向为由发送方实体指向接收方实体;
根据所述交易网络图,利用图嵌入算法获得所述交易网络图中的节点的图嵌入向量;
将每个节点的图嵌入向量分别输入预先训练好的实体分类模型中以判断对应的实体是否为异常实体。
一种实施例中,所述根据所述交易网络图,利用图嵌入算法获得所述交易网络图中的实体的图嵌入向量,包括:
采用随机游走算法对所述交易网络图中的节点进行采样,得到r个包括l个节点的节点序列,其中r为预设的节点序列数量,l为预设的节点序列长度,r、l为正整数;
使用所述r个节点序列对Skip-gram模型进行训练,得到Skip-gram模型中隐藏层的权重矩阵,隐藏层的权重矩阵的每一行对应一个节点的图嵌入向量。
一种实施例中,所述采用随机游走算法对所述交易网络图中的节点进行采样,包括:
随机选择交易网络图中的一节点作为起点开始采样,依据转移概率选择下一采样节点进行采样,直至得到l个采样节点为止,从而得到一长度为l的节点序列,其中v i 表示当前节点,v x 表示下一个采样节点,转移概率根据节点间的距离设置。
其中v j 表示当前节点的上一个采样节点,dis(v j ,v x )表示节点v j 和节点v x 之间的最短距离,p为预设的折返参数,q为预设的进出参数;
S ix 表示可达相似度,且
一种实施例中,对Skip-gram模型进行训练时的损失函数为:
其中
一种实施例中,所述将每个节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,包括:
将节点的图嵌入向量和对应实体的统计特征向量拼接成一个向量,将拼接得到的向量输入由一层隐含层构成的转换层,得到融合特征向量。
一种实施例中,所述实体分类模型为多层感知机。
一种实施例中,对所述实体分类模型进行训练时的损失函数为:
根据第三方面,一种实施例中提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现上述第一方面或第二方面所述的数字货币交易中异常实体的检测方法。
依据上述实施例的数字货币交易中异常实体的检测方法和计算机可读存储介质,根据实体间的交易记录构建交易网络图,基于交易网络图,利用图嵌入算法自动学习得到交易网络图中节点的图嵌入向量,作为数字货币交易实体的特征表示,从而无需依赖人工选择特征,提高了检测效率,且图嵌入算法能够学习得到交易网络图的拓扑结构信息以及潜在的新特征,提高了异常实体检测的准确率。
附图说明
图1为一种实施例中的数字货币交易中异常实体的检测方法的流程图;
图2为根据交易记录构建交易网络图的示意图;
图3为一种实施例的基于随机游走的图嵌入算法的流程图;
图4为基于随机游走的图嵌入算法的示意图;
图5为一种实施例中随机游走的转移概率中α jx 的取值示意图;
图6为Skip-gram模型的结构示意图;
图7为一种实施例中将图嵌入向量和统计特征向量进行融合,得到融合特征向量的示意图;
图8为多层感知机的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。本申请中提及的“节点”、“实体节点”均为同一概念。
本申请提供的数字货币交易中异常实体的检测方法主要分为三步:1、构建交易网络图;2、对实体节点进行特征表示;3、对实体节点进行分类。首先,对给定的个进行数字货币交易的实体及其交易记录构建一个有向带权图G =(V,E,W),其中V代表节点的集合,E代表边的集合,W代表所有边权重的集合。该交易网络图中,节点代表数字货币交易中的实体,边代表数字货币从实体节点v i 流向v j ,权重且与边一一对应,代表v i 和v j 关联程度强弱,i和j为节点的索引。得到交易网络图后,需要对实体节点进行特征表示,以用于后续进行分类,本申请中采用图嵌入算法基于交易网络图进行学习,将实体节点映射到低维特征空间中,为每一个实体节点学习一个低维向量表示,作为后续二分类器的输入,用以预测实体所属的类别,判断该实体属于正常实体还是异常实体。数字货币可以是比特币、中国人民银行发行的数字货币等。请参考图1,本申请一种实施例中的数字货币交易中异常实体的检测方法包括步骤110~130,下面具体说明。
步骤110:获取实体间的交易记录,并根据交易记录构建交易网络图。
实体是指由一个用户或者一个机构掌握的多个数字货币交易地址的集合,可表示为entity1 = {a1, a2},其中entity1表示实体,a1、a2表示交易地址。一个实体entity1发送数字货币给另一个实体entity2的行为定义为一次交易,可以用二元组<entity1, entity2>来表示。如上文所述,交易网络图主要是抽取实体之间的交易记录信息构建得到,可以表示成G =(V,E,W)的有向带权图形式,交易网络图中的节点表示进行数字货币交易的实体,当一个实体和另一个实体间存在交易时,则它们对应的节点间存在一条边,且边的方向为由发送方实体指向接收方实体。节点v i 和v j 之间的边的权重w ij 为两节点间的交易次数,即节点v i 向节点v j 发送数字货币的次数。根据上述定义,根据数字货币交易系统中参与交易的所有实体以及实体间的历史交易记录就能够构建出完整的数字货币交易网络图。
请参考图2,图2给出了基于参与交易的所有实体及其对应的交易记录生成交易网络图的一个简单示例。在图2中,交易网络图的节点表示一个实体entityx,即数字货币交易系统中的一个用户或者一个机构。交易网络图中的边表示实体之间的交易记录< entityi,entityj>。在构建交易网络图的过程中,可以分析每对实体对之间的交易记录总数,从而获得交易网络图中边的权重。例如实体entity1和entity2这一对实体对,存在一条< entity1,entity2>的交易记录,所以交易网络图中存在一条由节点entity1指向节点entity2的边,这条边的权重为1;同时也存在一条< entity2, entity1>的交易记录,所以交易网络图中存在一条由节点entity2指向节点entity1的边,这条边的权重为1。如果有多条相同的交易记录,则边的权重为这些交易记录的条数总和。
步骤120:根据交易网络图,利用图嵌入算法获得交易网络图中的节点的图嵌入向量。
利用图嵌入算法学习得到节点的图嵌入向量需要首先获得节点序列,以用于对Skip-gram模型进行训练,节点序列的获取方式有多种,可以利用现有的各种方法获取。在一种实施例中,可以采用随机游走算法对交易网络图中的节点进行采样来获取节点序列,请参考图3,基于随机游走的图嵌入算法包括步骤121~122,下面具体说明。
步骤121:采用随机游走算法对交易网络图中的节点进行采样,得到r个包括l个节点的节点序列,其中r为预设的节点序列数量,l为预设的节点序列长度,r、l为正整数。
请参考图4,基础的基于随机游走的图嵌入算法的主要步骤是:首先,将交易网络图作为基于随机游走的图嵌入算法的输入;然后,采用有偏随机游走策略对交易网络图中的节点进行采样,得到多条长度为预设值的节点序列;最后,将所有的节点序列作为Skip-gram模型的输入进行训练,通过Skip-gram模型学习得到节点的低维向量表示。
在有偏随机游走策略中,随机选择交易网络图中的一节点作为起点开始采样,依据预设的转移概率选择下一采样节点进行采样,直至得到l个采样节点为止,从而得到一长度为l的节点序列。在节点序列采样过程中,从当前节点v i 到下一个采样节点v x 未归一化的转移概率为:,其中α jx 的定义为:
其中,dis(v j ,v x )是当前节点的上一个采样节点v j 和下一个采样节点v x 之间的最短距离。如图5所示,图中节点v 1、v 2、v 3、v 4、v j 均有可能成为当前节点v i 的下一个采样节点。当时,则意味着将返回上一个采样节点v j 进行采样,此时,参数p控制了返回上一个采样节点的概率,称之为折返参数,当p的取值较大时,随机游走策略采样之前的节点的概率较小,反之,当p的取值较小时,随机游走策略采样之前的节点的概率较大。当时,则意味着v 1或v 2将成为下一个采样节点,此时。当时,则意味着v 3或v 4将成为下一个采样节点,此时,参数q控制了采样上一个采样节点v j 的非邻居节点的概率,当q取值较大时,随机游走策略更倾向于选择距离上一个采样节点v j 较近的节点,接近广度优先搜索的效果,反之,当q取值较小时,随机游走策略更倾向于选择距离上一个采样节点v j 更远的节点,接近深度优先搜索的效果,因此,将q称为进出参数。
本申请中,基于交易网络图,利用可达相似度对图嵌入算法进行改进,根据可达相似度来计算转移概率,学习更加全面、丰富的交易网络图的结构信息,能够学习到更高阶的节点关联关系,提高了异常实体检测的准确率。下面首先给出关于节点相似度的相关定义:
其中,t ij 表示节点v i 和节点v j 之间的最短距离,ε为预设的距离阈值。基于邻接矩阵A,可采用广度优先搜索求得节点间的最短距离。当两节点存在可达路径且最短距离小于距离阈值ε时,两节点的可达相似度为最短距离的倒数。当两节点不存在可达路径或者最短距离不小于距离阈值ε时,两节点的可达相似度为零。节点与自身的可达相似度为1。因此,可达相似度的取值范围为[0, 1]。
其中z表示归一化常数。
步骤122:使用步骤121得到的r个节点序列对Skip-gram模型进行训练,得到Skip-gram模型中隐藏层的权重矩阵,隐藏层的权重矩阵的每一行对应一个节点的图嵌入向量。
Skip-gram模型是自然语言处理中用于学习得到词典中每个词的词向量的神经网络,其结构如图6所示,包括一个输入层、一个隐藏层和一个输出层。在自然语言处理中,Skip-gram模型的训练使用的是句子,将句子中的某个词作为中心词,输入该中心词的one-hot向量,预测与该中心词相邻的前后k(称为窗口大小)个词,并与真实值进行比较,更新模型参数。训练结束后,Skip-gram模型隐藏层的权重矩阵被作为词向量矩阵,其中的每一行对应一个词的词向量。Skip-gram模型学习得到的词向量能够反映词之间的关系。在图嵌入算法中,节点序列可以类比于句子,节点可以类比于句子中的词,通过使用节点序列对Skip-gram模型进行训练,来得到节点的图嵌入向量,训练时的损失函数为
其中表示节点v的第j个邻居节点的图嵌入向量。训练结束后,Skip-gram模型隐藏层的权重矩阵的每一行则对应一个节点的图嵌入向量,从而得到能够反映交易网络图拓扑结构信息的向量表示。图嵌入向量的维度相对较低,相较于使用大小为的邻接矩阵来表示交易网络图的拓扑结构信息,其占用空间更小。
综上所述,本申请的基于随机游走的图嵌入算法可归纳如下:
其中Shuffle( )表示进行随机排列,BiasedRandomWalk( )表示进行有偏随机游走,walk表示采样的节点,walks表示节点序列,图嵌入矩阵指Skip-gram模型隐藏层的权重矩阵。
步骤130:利用图嵌入向量对节点进行分类,以判断对应的实体是否为异常实体。
图嵌入向量是节点的特征表示,因此可以利用图嵌入向量来对节点进行二分类,分辨出节点所对应的实体是正常实体还是异常实体。本申请中采用基于神经网络的实体分类模型作为二分类器对节点进行分类。
除了可以直接将图嵌入向量输入实体分类模型进行二分类外,为了提高节点的表示能力,可以将节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,将融合特征向量输入实体分类模型进行二分类,使得实体分类模型的输入包含更完备的交易信息,提高异常实体检测的准确率,其中统计特征向量可以由输入总额、输出总额、输出次数、输入次数中的一者或多者组成。在这里用表示图嵌入向量,用表示统计特征向量,用表示融合特征向量,下表i为节点的索引。
请参考图7,将节点的图嵌入向量和对应实体的统计特征向量进行融合时,首先将节点的图嵌入向量和对应实体的统计特征向量拼接成一个向量,将拼接得到的向量输入由一个转换层得到融合特征向量。具体来说,首先将图嵌入向量和对应实体的统计特征向量拼接成一个d k 维的向量,用公式表示为:
为了提高检测方法的准确率,在有的实施例中可以采用对类别不平衡任务较友好的多层感知机对节点进行分类。多层感知机的结构如图8所示,主要包括三部分:输入层,隐含层和输出层。每一层都有多个神经元构成其传递函数。分别以f in 、f h 和f o 表示输入层、隐含层和输出层的传递函数,采用sigmod函数为神经元中的激励函数,以融合特征向量作为输入为例,多层感知机的工作过程如下:
第二层为隐含层,将输入层的输出y in 作为隐含层的输入,得到隐含层的输出为:
第三层为输出层,将隐含层的输出y h 作为输出层的输入,得到输出层的输出为:
最后,运用softmax函数处理输出层的输出得到最后的二分类结果:
对实体分类模型进行训练时,将节点样本的图嵌入向量或融合特征向量输入其中,根据以下损失函数进行训练:
其中为交易网络图中节点的数量,表示实体分类模型预测的实体的类别,y i 表示实体的实际类别,表示实体为正常实体,表示实体为异常实体,w l 为预设的权重值,为了使实体分类模型能更好地分辨出异常实体,异常实体的权重值高于正常实体的权重值。
训练完成后,将节点输入实体分类模型,若输出的结果为0则节点对应的实体为正常实体,若输出的结果为1则节点对应的实体为异常实体。
现有技术中,对数字货币交易异常的检测常常只利用统计特征来进行,而本申请中将数字货币的交易记录用图的数据结构进行表示,构建数字货币出交易网络图,基于数字货币交易网络图,用图嵌入算法学习得到每个实体节点的低维向量表示用于进行分类。在实体节点表示的学习过程中,首先利用节点可达相似度改进了图嵌入算法,基于节点可达相似度实现有偏概率地对交易网络图中的节点进行采样,得到节点序列,使得距离较远的节点能够建立直接联系,从而使得图嵌入算法可以学习更高阶的节点关联关系,提高异常实体检测的准确率。将采样得到的节点序列作为图嵌入算法的输入,为每一个节点自动化地学习低维图嵌入向量表示,摆脱对人工的依赖,且更准确地捕获交易网络图中的拓扑结构信息。在有的实施例中,还进一步利用统计特征和图嵌入向量进行联合表示,增强对节点的表示能力,解决单一使用统计特征表示能力差的问题。而在实体节点分类的过程中,采用了对类别不平衡任务较友好的多层感知机模型,同时采用加权交叉熵函数作为损失函数进行模型参数的优化训练,提高异常实体检测的准确率,有助于实现更为有效的洗钱风险防控。
本文参照了各种示范实施例进行说明。然而,本领域的技术人员将认识到,在不脱离本文范围的情况下,可以对示范性实施例做出改变和修正。例如,各种操作步骤以及用于执行操作步骤的组件,可以根据特定的应用或考虑与系统的操作相关联的任何数量的成本函数以不同的方式实现(例如一个或多个步骤可以被删除、修改或结合到其他步骤中)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。另外,如本领域技术人员所理解的,本文的原理可以反映在计算机可读存储介质上的计算机程序产品中,该可读存储介质预装有计算机可读程序代码。任何有形的、非暂时性的计算机可读存储介质皆可被使用,包括磁存储设备(硬盘、软盘等)、光学存储设备(CD至ROM、DVD、Blu Ray盘等)、闪存和/或诸如此类。这些计算机程序指令可被加载到通用计算机、专用计算机或其他可编程数据处理设备上以形成机器,使得这些在计算机上或其他可编程数据处理装置上执行的指令可以生成实现指定的功能的装置。这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定的方式运行,这样存储在计算机可读存储器中的指令就可以形成一件制造品,包括实现指定功能的实现装置。计算机程序指令也可以加载到计算机或其他可编程数据处理设备上,从而在计算机或其他可编程设备上执行一系列操作步骤以产生一个计算机实现的进程,使得在计算机或其他可编程设备上执行的指令可以提供用于实现指定功能的步骤。
虽然在各种实施例中已经示出了本文的原理,但是许多特别适用于特定环境和操作要求的结构、布置、比例、元件、材料和部件的修改可以在不脱离本披露的原则和范围内使用。以上修改和其他改变或修正将被包含在本文的范围之内。
前述具体说明已参照各种实施例进行了描述。然而,本领域技术人员将认识到,可以在不脱离本披露的范围的情况下进行各种修正和改变。因此,对于本披露的考虑将是说明性的而非限制性的意义上的,并且所有这些修改都将被包含在其范围内。同样,有关于各种实施例的优点、其他优点和问题的解决方案已如上所述。然而,益处、优点、问题的解决方案以及任何能产生这些的要素,或使其变得更明确的解决方案都不应被解释为关键的、必需的或必要的。本文中所用的术语“包括”和其任何其他变体,皆属于非排他性包含,这样包括要素列表的过程、方法、文章或设备不仅包括这些要素,还包括未明确列出的或不属于该过程、方法、系统、文章或设备的其他要素。此外,本文中所使用的术语“耦合”和其任何其他变体都是指物理连接、电连接、磁连接、光连接、通信连接、功能连接和/或任何其他连接。
具有本领域技术的人将认识到,在不脱离本发明的基本原理的情况下,可以对上述实施例的细节进行许多改变。因此,本发明的范围应仅由权利要求确定。
Claims (10)
1.一种数字货币交易中异常实体的检测方法,其特征在于,包括:
获取实体间的交易记录,并根据交易记录构建交易网络图,所述交易网络图的节点表示进行数字货币交易的实体,边表示一个实体向另一个实体发送数字货币的行为,且边的方向为由发送方实体指向接收方实体;
根据所述交易网络图,利用图嵌入算法获得所述交易网络图中的节点的图嵌入向量;
将每个节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,然后将融合特征向量输入预先训练好的实体分类模型中以判断对应的实体是否为异常实体,所述统计特征向量由输入总额、输出总额、输出次数、输入次数中的一者或多者组成。
2.如权利要求1所述的检测方法,其特征在于,所述根据所述交易网络图,利用图嵌入算法获得所述交易网络图中的实体的图嵌入向量,包括:
采用随机游走算法对所述交易网络图中的节点进行采样,得到r个包括l个节点的节点序列,其中r为预设的节点序列数量,l为预设的节点序列长度,r、l为正整数;
使用所述r个节点序列对Skip-gram模型进行训练,得到Skip-gram模型中隐藏层的权重矩阵,隐藏层的权重矩阵的每一行对应一个节点的图嵌入向量。
5.如权利要求1所述的检测方法,其特征在于,所述将每个节点的图嵌入向量和对应实体的统计特征向量进行融合,得到融合特征向量,包括:
将节点的图嵌入向量和对应实体的统计特征向量拼接成一个向量,将拼接得到的向量输入由一层隐含层构成的转换层,得到融合特征向量。
6.一种数字货币交易中异常实体的检测方法,其特征在于,包括:
获取实体间的交易记录,并根据交易记录构建交易网络图,所述交易网络图的节点表示进行数字货币交易的实体,边表示一个实体向另一个实体发送数字货币的行为,且边的方向为由发送方实体指向接收方实体;
根据所述交易网络图,采用随机游走算法对所述交易网络图中的节点进行采样,得到r个包括l个节点的节点序列,其中r为预设的节点序列数量,l为预设的节点序列长度,r、l为正整数,然后使用所述r个节点序列对Skip-gram模型进行训练,得到Skip-gram模型中隐藏层的权重矩阵,隐藏层的权重矩阵的每一行对应一个节点的图嵌入向量;;
将每个节点的图嵌入向量分别输入预先训练好的实体分类模型中以判断对应的实体是否为异常实体;
其中所述采用随机游走算法对所述交易网络图中的节点进行采样,包括:
随机选择交易网络图中的一节点作为起点开始采样,依据转移概率选择下一采样节点进行采样,直至得到l个采样节点为止,从而得到一长度为l的节点序列,其中v i 表示当前节点,v x 表示下一个采样节点,转移概率根据节点间的距离设置,具体为:
其中v j 表示当前节点的上一个采样节点,dis(v j ,v x )表示节点v j 和节点v x 之间的最短距离,p为预设的折返参数,q为预设的进出参数;
S ix 表示可达相似度,且
8.如权利要求1或6所述的检测方法,其特征在于,所述实体分类模型为多层感知机。
10.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1至9中任一项所述的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111067094.0A CN113506179B (zh) | 2021-09-13 | 2021-09-13 | 数字货币交易中异常实体的检测方法、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111067094.0A CN113506179B (zh) | 2021-09-13 | 2021-09-13 | 数字货币交易中异常实体的检测方法、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113506179A true CN113506179A (zh) | 2021-10-15 |
CN113506179B CN113506179B (zh) | 2022-01-11 |
Family
ID=78016951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111067094.0A Active CN113506179B (zh) | 2021-09-13 | 2021-09-13 | 数字货币交易中异常实体的检测方法、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113506179B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612235A (zh) * | 2022-03-09 | 2022-06-10 | 烟台大学 | 一种基于图嵌入的区块链异常行为检测方法 |
CN114722937A (zh) * | 2022-04-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置、电子设备和存储介质 |
CN115660688A (zh) * | 2022-10-24 | 2023-01-31 | 西南财经大学 | 金融交易异常检测方法及其跨区域可持续训练方法 |
CN117952619A (zh) * | 2024-03-26 | 2024-04-30 | 南京赛融信息技术有限公司 | 基于数字人民币钱包账户关联性的风险行为分析方法、系统及计算机可读介质 |
CN118094439A (zh) * | 2024-04-19 | 2024-05-28 | 江苏苏商银行股份有限公司 | 一种银行异常交易检测方法、系统及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111447179A (zh) * | 2020-03-03 | 2020-07-24 | 中山大学 | 一种针对以太网钓鱼诈骗的网络表示学习方法 |
CN111581445A (zh) * | 2020-05-08 | 2020-08-25 | 杨洋 | 基于图基元的图嵌入学习方法 |
CN112541669A (zh) * | 2020-12-10 | 2021-03-23 | 支付宝(杭州)信息技术有限公司 | 风险识别方法、系统及装置 |
CN113269647A (zh) * | 2021-06-08 | 2021-08-17 | 上海交通大学 | 基于图的交易异常关联用户检测方法 |
CN113283909A (zh) * | 2021-06-09 | 2021-08-20 | 广东工业大学 | 一种基于深度学习的以太坊钓鱼账户检测方法 |
-
2021
- 2021-09-13 CN CN202111067094.0A patent/CN113506179B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111447179A (zh) * | 2020-03-03 | 2020-07-24 | 中山大学 | 一种针对以太网钓鱼诈骗的网络表示学习方法 |
CN111581445A (zh) * | 2020-05-08 | 2020-08-25 | 杨洋 | 基于图基元的图嵌入学习方法 |
CN112541669A (zh) * | 2020-12-10 | 2021-03-23 | 支付宝(杭州)信息技术有限公司 | 风险识别方法、系统及装置 |
CN113269647A (zh) * | 2021-06-08 | 2021-08-17 | 上海交通大学 | 基于图的交易异常关联用户检测方法 |
CN113283909A (zh) * | 2021-06-09 | 2021-08-20 | 广东工业大学 | 一种基于深度学习的以太坊钓鱼账户检测方法 |
Non-Patent Citations (1)
Title |
---|
任欢欢: ""通过以太坊发行的数字货币的一级市场交易行为分析"", 《万方硕士学位论文全文数据库》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612235A (zh) * | 2022-03-09 | 2022-06-10 | 烟台大学 | 一种基于图嵌入的区块链异常行为检测方法 |
US11803855B2 (en) | 2022-03-09 | 2023-10-31 | Yantai University | Method for detecting block chain abnormal behavior based on graph embedding |
CN114722937A (zh) * | 2022-04-06 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置、电子设备和存储介质 |
CN114722937B (zh) * | 2022-04-06 | 2024-07-16 | 腾讯科技(深圳)有限公司 | 一种异常数据检测方法、装置、电子设备和存储介质 |
CN115660688A (zh) * | 2022-10-24 | 2023-01-31 | 西南财经大学 | 金融交易异常检测方法及其跨区域可持续训练方法 |
CN115660688B (zh) * | 2022-10-24 | 2024-04-30 | 西南财经大学 | 金融交易异常检测方法及其跨区域可持续训练方法 |
CN117952619A (zh) * | 2024-03-26 | 2024-04-30 | 南京赛融信息技术有限公司 | 基于数字人民币钱包账户关联性的风险行为分析方法、系统及计算机可读介质 |
CN117952619B (zh) * | 2024-03-26 | 2024-06-07 | 南京赛融信息技术有限公司 | 基于数字人民币钱包账户关联性的风险行为分析方法、系统及计算机可读介质 |
CN118094439A (zh) * | 2024-04-19 | 2024-05-28 | 江苏苏商银行股份有限公司 | 一种银行异常交易检测方法、系统及装置 |
CN118094439B (zh) * | 2024-04-19 | 2024-07-23 | 江苏苏商银行股份有限公司 | 一种银行异常交易检测方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113506179B (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113506179B (zh) | 数字货币交易中异常实体的检测方法、存储介质 | |
CN112966074B (zh) | 一种情感分析方法、装置、电子设备以及存储介质 | |
CN113887580B (zh) | 一种考虑多粒度类相关性的对比式开放集图像识别方法及装置 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
US20210406693A1 (en) | Data sample analysis in a dataset for a machine learning model | |
CN117251791B (zh) | 基于图的全局语义感知的多模态反讽检测方法 | |
CN113343126B (zh) | 基于事件与传播结构的谣言检测方法 | |
KR20230107558A (ko) | 모델 트레이닝, 데이터 증강 방법, 장치, 전자 기기 및 저장 매체 | |
Hajič Jr et al. | Detecting noteheads in handwritten scores with convnets and bounding box regression | |
CN115269854A (zh) | 基于主题和结构感知神经网络的虚假新闻检测方法 | |
CN113536760B (zh) | 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 | |
CN113792148B (zh) | 一种基于序列到序列的评论方面类别检测方法及系统 | |
CN113076490B (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 | |
Hao | Evaluating attribution methods using white-box LSTMs | |
CN117217807B (zh) | 一种基于多模态高维特征的不良资产估值方法 | |
Kumar et al. | Community-enhanced Link Prediction in Dynamic Networks | |
CN117009613A (zh) | 一种图数据分类方法、系统、装置及介质 | |
CN111666410B (zh) | 商品用户评论文本的情感分类方法及系统 | |
CN116633639B (zh) | 基于无监督与有监督融合强化学习的网络入侵检测方法 | |
CN116955616A (zh) | 一种文本分类方法及电子设备 | |
CN113990397B (zh) | 基于有监督学习检测蛋白质复合物的方法及装置 | |
Cai et al. | XPROAX-local explanations for text classification with progressive neighborhood approximation | |
Wang et al. | An oversampling method based on differential evolution and natural neighbors | |
CN116739402A (zh) | 一种基于数据挖掘的健康画像构建方法 | |
CN111708745B (zh) | 一种跨媒体数据共享表示方法及用户行为分析方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |