CN113011888B - 一种针对数字货币的异常交易行为检测方法、装置、设备及介质 - Google Patents
一种针对数字货币的异常交易行为检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113011888B CN113011888B CN202110262931.9A CN202110262931A CN113011888B CN 113011888 B CN113011888 B CN 113011888B CN 202110262931 A CN202110262931 A CN 202110262931A CN 113011888 B CN113011888 B CN 113011888B
- Authority
- CN
- China
- Prior art keywords
- transaction
- data point
- data
- value
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 91
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 230000006399 behavior Effects 0.000 claims abstract description 99
- 238000004458 analytical method Methods 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 235000014435 Mentha Nutrition 0.000 claims description 9
- 241001072983 Mentha Species 0.000 claims description 9
- 235000014569 mints Nutrition 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/04—Payment circuits
- G06Q20/06—Private payment circuits, e.g. involving electronic currency used among participants of a common payment scheme
- G06Q20/065—Private payment circuits, e.g. involving electronic currency used among participants of a common payment scheme using e-cash
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/30—Payment architectures, schemes or protocols characterised by the use of specific devices or networks
- G06Q20/36—Payment architectures, schemes or protocols characterised by the use of specific devices or networks using electronic wallets or electronic money safes
- G06Q20/367—Payment architectures, schemes or protocols characterised by the use of specific devices or networks using electronic wallets or electronic money safes involving electronic purses or money safes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- Computer Security & Cryptography (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种针对数字货币的异常交易行为检测方法、装置、设备及介质,方法为:获取数字货币交易所中每个用户的交易数据;将检测时间段划分为若干分段,将单个用户在各时间分段的交易记录组合,均作为该用户的交易行为;从多个维度对交易行为进行特征描述,作为交易行为的特征向量;所有用户所有交易行为的特征向量构成数据集;使用局部异常因子算法计算数据集中每个数据点的离群因子值;对数据集聚类,并对各数据点根据其所在簇大小调整其离群因子值;根据调整后的离群因子值确定该数据点对应交易行为分析单元的异常交易可疑值,进而确定该用户的异常交易可疑性。本发明提高异常交易行为检测的准确度,对有异常交易嫌疑的账户自动化检测。
Description
技术领域
本发明属于区块链数字货币领域,尤其是涉及一种针对数字货币的异常交易行为检测方法、装置、设备及介质。
背景技术
数字货币的监管是国家金融稳定和金融安全的重要任务,就目前的匿名数字货币而言,如何通过对数字货币交易所的交易行为进行检测和数字货币的交易数据进行分析,得到其中是否存在异常交易行为是一个重要的安全问题。
在数字货币交易所,非法交易者可以用法币购买数字货币或直接向交易所个人账户充入数字货币以完成非法资金入场。然后通过不同币种间的币币交易分散资金,并利用币种间差价赚取利润以混合不明资金和“合法”收入。最后非法交易者卖出数字货币获得法币或直接从交易所转出数字货币,完成非法资金出场。非法交易者为了隐匿行踪,往往会进行错综复杂的入场、出场操作与币币交易,并减少大额与频繁交易。加上数字货币交易具有强匿名和去中心化等特点,传统异常交易行为检测手段难以直接适用。
早期反异常交易主要采用基于规则的检测模型,例如:设置个人金融风险阈值来识别大额交易、高频交易等可疑交易行为;设计基于语义web规则语言的反异常交易专家系统。随着金融活动日趋复杂,许多研究者将数据挖掘和机器学习技术用于反异常交易,比如:提出聚类技术是反异常交易的有力工具;采用最小生成树对银行账户聚类,并利用类簇间差异鉴别异常交易账户;利用支持向量机识别具有快速开销户、启用闲置账户等可疑交易行为的银行账户。近年来,基于网络模型的反异常交易技术逐步流行,Anacpapa图分析工具是早期典型代表,随后出现了Analyst's Notebook、Netmap和XANALYS Link Explorer等金融犯罪网络分析工具。然而,现有反异常交易技术主要面向传统金融形态,很难直接应对数字货币这类新兴金融形态。
发明内容
本发明提供一种针对数字货币的异常交易行为检测方法、装置、设备及介质,可以提高异常交易行为检测的准确度,可以实现自动化地对有异常交易嫌疑的账户进行检测,为进一步验证与取证提供线索,适合推广应用。
为实现上述技术目的,本发明采用如下技术方案:
一种针对数字货币的异常交易行为检测方法,包括:
获取数字货币交易所中每个用户在检测时间段的所有交易记录;
将检测时间段划分为长度相同的m个分段,将单个用户在第j个时间分段tj的所有交易记录的组合,作为该用户的第j个交易行为分析单元Sj ′;1≤m;
从入场、出场以及币币交易这三个维度对每个交易行为分析单元进行特征描述,作为交易行为分析单元的特征向量;所有用户所有交易行为分析单元的特征向量,构成数据集;
使用局部异常因子算法计算数据集中每个数据点的离群因子值LOF;对数据集中所有数据点进行聚类,并对各数据点根据其所在聚类簇的大小调整其离群因子值,所得值称为DLOF值;
根据数据点的DLOF值确定该数据点对应交易行为分析单元的异常交易可疑值,进而根据用户所有交易行为分析单元的异常交易可疑值确定该用户的异常交易可疑性。
在更优的技术方案中,交易行为分析单元的异常交易可疑值的计算公式为:
t(S′j)=α·Z1(pj)+(1-α)·Z2(pj),α∈(0,1);
Z2(pj)=1-PN(DLOF(pj),μ,σ);
式中,t(S′j)表示交易行为分析单元S′j的异常交易可疑值,数据点pj表示交易行为分析单元S′j的特征向量,Z1(pj)和Z2(pj)均为有关数据点pj的中间参数;DLOF(pj)表示数据点pj的DLOF值,表示用户全体数据点的DLOF均值;Z2(pj)表示数据点pj的DLOF值DLOF(pj)在PN(·的正态分布下被判为异常的概率,均值μ和标准差σ是在该用户所有数据点DLOF值的范围内计算得到;表示加权系数;
用户的异常交易可疑性的确定方法为:取该用户所有交易行为分析单元的异常交易可疑值中最大的前n个异常交易可疑值的平均值,即为该用户的异常交易可疑值。
在更优的技术方案中,对各数据点根据其所在聚类簇的大小调整其离群因子值的方法为:
式中,LOF(p)表示数据点p的离群因子值,DLOF(p)表示对数据点p的LOF(p)调整得到后的离群因子值,cn表示第n个聚类簇,|cn|表示聚类簇cn包括的数据点个数,K为聚类簇的数量。
在更优的技术方案中,数据点p的离群因子值的计算方法为:
首先确定数据点p在数据集中的k邻域,记作Nk(p);
然后按以下公式计算数据点p到其k邻域Nk(p)中每个数据点o的可达距离以及数据点p的局部可达密度:
reach-distk(p,o)=max{dk)o),d(p,o)};
式中,reach-distk(p,o)表示数据点p到数据点o的可达距离,dk(o)为数据点o的第k距离,d(p,o)为数据点o与数据点p之间的距离;max{}表示求最大值;lrdk(p)表示数据点p的局部可达密度,|Nk(p)|表示k邻域Nk(p)中的数据点个数;
再按照与数据点p的局部可达密度相同的计算方法,计算数据点p的k邻域Nk(p)中每个数据点o的局部可达密度lrdk(o);
最后,按以下公式计算数据点p的离群因子值LOF(p):
在更优的技术方案中,使用DBSCAN聚类算法对数据集聚类成簇,具体步骤如下:
(1)设置DBSCAN聚类算法所需的两个参数:半径eps和邻域内最少要求点数minpts;标记数据集中所有数据点的初始状态为未被访问;
(2)任选一个未被访问的数据点开始,找出与其距离不大于eps的其他数据点:
如果满足条件的数据点个数大于或等于minpts,则将当前选择的数据点与满足条件的数据点形成一个聚类簇,并将当前选择的数据点的状态由未被访问更新为已访问;然后递归,以相同的方法处理该聚类簇内所有未被访问的数据点;如果聚类簇内所有数据点均已访问,再返回步骤(2),使用相同的方法处理数据集中未被访问的数据点;
如果满足条件的数据点个数小于minpts,则将当前选择的数据点标记为噪声点;
(3)最终由数据集得到基于DBSCAN聚类算法的K个聚类簇。
在更优的技术方案中,交易行为分析单元在入场维度提取的特征包括:入场总额、入场总次数、入场额均值、入场频率、单笔最大入场额、入场最大额与最小额差值、入场额离散系数、入场额占总交易额比、入场次数占总交易次数比、入场额为整数的交易次数、入场额大于一万的交易次数、最多持续入场次数、非工作时段入场次数占入场总次、入场币种数、入场小众币种数占入场币种数比、最长入场间隔天数;
交易行为分析单元在出场维度提取的特征包括:出场总额、出场总次数、出场额均值、出场频率、单日最大出场额、单笔最大出场额、出场最大额与最小额差值、出场额占总交易额比例、出场次数占总交易次数比、出场额大于与小于均值的次数差、出场天数、连续最多出场次数、非工作时段出场次数占入场总次数比、出场币种数、出场小众币种数占入场币种数比例、出场后数字钱包余额为零的次数;
交易行为分析单元在币币交易维度提取的特征包括:币币交易总额、币币交易次数、币币交易交易对数量、币币交易涉及币种数、币币交易频率、币币交易次数占总交易次数比例、币币交易额离散系数、非工作时段币币交易次数占币币交易总次数比例。
在更优的技术方案中,所述检测时间段的每个时间分段均为10天。
一种针对数字货币的异常交易行为检测装置,包括:
交易记录获取模块,用于:获取数字货币交易所中每个用户在检测时间段的所有交易记录;
交易行为分析单元构建模块,用于:将检测时间段划分为长度相同的m个分段,将单个用户在第j个时间分段tj的所有交易记录的组合,作为该用户的第j个交易行为分析单元S′j;1≤j≤m;
特征向量及数据集构建模块,用于:从入场、出场以及币币交易这三个维度对每个交易行为分析单元进行特征描述,作为交易行为分析单元的特征向量;所有用户所有交易行为分析单元的特征向量,构成数据集;
离群因子值计算及调整模块,用于:计算数据集中每个数据点的离群因子值LOF;对数据集中所有数据点进行聚类,并对各数据点根据其所在聚类簇的大小调整其离群因子值,所得值称为DLOF值;
异常交易可疑性检测模块,用于:根据数据点的DLOF值确定该数据点对应交易行为分析单元的异常交易可疑值,进而根据用户所有交易行为分析单元的异常交易可疑值确定该用户的异常交易可疑性。
一种设备,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现上述任一技术方案所述的异常交易行为检测方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一技术方案所述的异常交易行为检测方法。
有益效果
本发明使用聚类算法,根据聚类簇大小按上述离群因子值调整公式来调整原来的离群因子值LOF(p),聚类簇的规模越大其异常值降低越多,聚类簇的规模越小其异常值降低越少,使得离群点的离群因子值在所有数据集中更明显突出,从而避免无法检测出聚集成小簇的离群点,提高异常交易行为检测的准确度。同时,本发明基于聚类调整得到的离群因子值DLOF(p),对检测时间段内各用户异常交易可疑性进行量化,可以实现自动化地对有异常交易嫌疑的账户进行检测并确定异常交易时段,为进一步验证与取证提供线索,适合推广应用。
附图说明
图1是本申请实施例所述方法的流程示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
实施例1
本实施例提供一种针对数字货币的异常交易行为检测方法,如图1所示,包括以下步骤:
步骤1,获取交易数据:
在数字货币交易所中每个用户的每一次交易会生成一组对应的交易记录,因此本实施例在步骤1获取数字货币交易所中每个用户在检测时间段[tstart,tend]的交易数据,即其所有交易记录{S1,S2,S3,…,Si,…,Sn}。
步骤2,将检测时间段[tstart,tend]划分为长度相同的m个分段,每段的时间间隔为10天,然后将单个用户在第j个时间分段tj的所有交易记录的组合,作为该用户的第j个交易行为分析单元S′j;1≤j≤m。
本实施例将每个时间分段设置为10天基于以下四个方面考虑:1)异常交易过程中有一定时间跨度,短则几天,长则十天甚至数月;2)固定时间间隔有利于建立比较基准;3)根据现有的交易所提供的数据的统计情况,大部分账户交易频率每天平均不足1笔;4)金融领域经常以旬为单位来进行政策调整和风险管控。因此,本实施例采用10天内单个账户所有交易的组合作为交易行为分析单元能提供高于单条交易记录的复杂信息,符合数据统计特性与业务场景特点,便于在多个用户和长时间跨度分析中发现偏离正常形态的交易行为。
步骤3,提取交易行为分析单元的特征向量:
从入场、出场以及币币交易这三个维度对每个交易行为分析单元进行特征描述,包括以下表1所示的交易行为特征描述体系,构建交易行为分析单元的特征向量;所有用户所有交易行为分析单元的特征向量,构成数据集。
表1数字货币交易特征描述体系
步骤4,使用局部异常因子算法计算数据集中每个数据点的离群因子值;对数据集中所有数据点进行聚类,并对各数据点根据其所在聚类簇的大小调整其离群因子值,所得值称为DLOF值;
其一,离群因子值即LOF值,可用于表示数据点的异常情况,数据点的LOF值越大表明该数据点是异常点的可能性越大。数据点p的离群因子值的计算方法为:
首先确定数据点p在数据集中的k邻域,记作Nk(p)。
数据点p的k邻域的定义为:首先采用层次分析法对数据集求得的特征权值矩阵M;然后计算数据集中其他每个数据点q与数据点p的加权距离再将其他所有数据点q与数据点p的加权距离按从小到大排序,取其中第k个加权距离即为k邻近距离;最后,数据集中与数据点p的加权距离不大于k邻近距离的所有数据点的集合,即为数据点p的k邻域。
然后按以下公式计算数据点p到其k邻域Nk(p)中每个数据点o的可达距离以及数据点p的局部可达密度:
reach-distk(p,o)=max{dk(o),d(p,o)};
式中,-distk(p,o)表示数据点p到数据点o的可达距离,dk(o)为数据点o的第k距离,d(p,o)为数据点o与数据点p之间的距离;max{}表示求最大值;lrdk(p)表示数据点p的局部可达密度,|Nk(p)|表示k邻域Nk(p)中的数据点个数。
再按照与数据点p的局部可达密度相同的计算方法,计算数据点p的k邻域Nk(p)中每个数据点o的局部可达密度lrdk(o)。
最后,按以下公式计算数据点p的离群因子值LOF(p):
其二,对数据集中所有数据点使用DBSCAN聚类算法进行聚类,具体步骤如下:
(1)设置DBSCAN聚类算法所需的两个参数:半径eps和邻域内最少要求点数minpts;标记数据集中所有数据点的初始状态为未被访问;
(2)任选一个未被访问的数据点开始,找出与其距离不大于eps的其他数据点:
如果满足条件的数据点个数大于或等于minpts,则将当前选择的数据点与满足条件的数据点形成一个聚类簇,并将当前选择的数据点的状态由未被访问更新为已访问;然后递归,以相同的方法处理该聚类簇内所有未被访问的数据点;如果聚类簇内所有数据点均已访问,再返回步骤(2),使用相同的方法处理数据集中未被访问的数据点;
如果满足条件的数据点个数小于minpts,则将当前选择的数据点标记为噪声点;
此处所述的距离,与k邻域定义中的加权距离相同。在常规的LOF算法中通常采用欧式距离计算数据点间距离,每个特征被同等看待。但是将欧氏距离直接用于数字货币的异常交易行为检测是不科学的,因为每一交易行为的特征对于判定异常交易的贡献度是不同的。因此,本实施例中使用层次分析法计算出特征权值矩阵,再据此求得数据集两点间的加权距离更为合理,从而提高异常交易行为检测的准确性。
(3)最终由数据集得到基于DBSCAN聚类算法的K个聚类C={cn,n=1,2,…,K}。
其三,对各数据点根据其所在聚类簇的大小调整其离群因子值的方法为:
式中,LOF(p)表示数据点p的离群因子值,(p)表示对数据点p的LOF(p)调整得到后的离群因子值,cn表示第n个聚类簇,|cn|表示聚类簇cn包括的数据点个数,K为聚类簇的数量。
如果直接使用LOF(p)对数据点进行异常判断以检测异常交易可疑性,会存在以下问题:在数字货币交易所中,某些非法交易者的异常交易行为模式会非常相近,这些行为产生的数据点会形成小簇,LOF算法很难检测出这些小簇中的离群点。因为离群因子值LOF(p)由数据点p与其近邻点的相对密度决定,当数个离群点形成了簇,由于离群点周围的密度通常较低,那么这些点之间的密度比值也会偏低,最终导致它们的离群因子值偏低。
因此,本发明使用聚类算法,根据聚类簇大小按上述离群因子值调整公式来调整原来的离群因子值LOF(p),聚类簇的规模越大其异常值降低越多,聚类簇的规模越小其异常值降低越少,使得离群点的离群因子值在所有数据集中更明显突出,从而避免无法检测出聚集成小簇的离群点。
步骤5,根据数据点的DLOF值确定该数据点对应交易行为分析单元的异常交易可疑值,进而根据用户所有交易行为分析单元的异常交易可疑值确定该用户的异常交易可疑性。
其中,交易行为分析单元的异常交易可疑值的计算公式为:
t(S′j)=α·Z1(pj)+(1-α)·Z2(pj),α∈(0,1);
Z2(pj)=1-PN(DLOF(pj),μ,σ);
式中,t(S′j)表示交易行为分析单元S′j的异常交易可疑值,数据点pj表示交易行为分析单元S′j的特征向量,Z1(pj)和Z2(pj)均为有关数据点pj的中间参数;DLOF(pj)表示数据点pj的DLOF值,表示用户全体数据点的DLOF均值;Z2(pj)表示数据点pj的DLOF值DLOF(pj)在PN(·)的正态分布下被判为异常的概率,均值μ和标准差σ是在该用户所有数据点DLOF值的范围内计算得到;表示加权系数。
用户的异常交易可疑性的确定方法为:取该用户所有交易行为分析单元的异常交易可疑值中最大的前n个异常交易可疑值的平均值,即为该用户的异常交易可疑值;
计算用户的异常交易可疑值更关注用户有可能异常交易的时段,即异常交易可疑值较高的交易行为,因为异常交易行为具有时段性,一个用户极有可能是在某些时段进行异常交易。因此,计算具体方法是取异常交易可疑值前s个大的交易行为的异常交易可疑值的均值作为该用户的异常交易可疑值m(X)。则相对应的这s个交易行为所在的时间段即为该用户的异常交易时段,定义为:
其中序列{T1,T2,T3,…,Tm}是将该用户所有交易行为的异常交易可疑值t(S′j)按照从大到小的顺序排列形成的序列。
实施例2
本实施例提供一种针对数字货币的异常交易行为检测装置,是与上述实施例1所述的针对数字货币的异常交易行为检测方法对应的装置实施例,主要包括:
交易记录获取模块,用于:获取数字货币交易所中每个用户在检测时间段的所有交易记录;
交易行为分析单元构建模块,用于:将检测时间段划分为长度相同的m个分段,将单个用户在第j个时间分段tj的所有交易记录的组合,作为该用户的第j个交易行为分析单元S′j;1≤j≤m;
特征向量及数据集构建模块,用于:从入场、出场以及币币交易这三个维度对每个交易行为分析单元进行特征描述,作为交易行为分析单元的特征向量;所有用户所有交易行为分析单元的特征向量,构成数据集;
离群因子值计算及调整模块,用于:计算数据集中每个数据点的离群因子值LOF;对数据集中所有数据点进行聚类,并对各数据点根据其所在聚类簇的大小调整其离群因子值,所得值称为DLOF值;
异常交易可疑性检测模块,用于:根据数据点的DLOF值确定该数据点对应交易行为分析单元的异常交易可疑值,进而根据用户所有交易行为分析单元的异常交易可疑值确定该用户的异常交易可疑性。
以上所述异常交易行为检测装置中各模块的具体工作原理参见上述异常交易行为检测方法中各相应步骤的描述。
实施例3
本实施例提供一种设备,包括处理器和存储器;其中:所述存储器用于存储计算机指令;所述处理器用于执行所述存储器存储的计算机指令,具体执行上述实施例1所述的异常交易行为检测方法。
实施例4
本实施例提供一种计算机介质,用于存储程序,所述程序被执行时,用于实现上述实施例1所述的异常交易行为检测方法。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。
Claims (6)
1.一种针对数字货币的异常交易行为检测方法,其特征在于,包括:
获取数字货币交易所中每个用户在检测时间段的所有交易记录;
将检测时间段划分为长度相同的m个分段,将单个用户在第j个时间分段tj的所有交易记录的组合,作为该用户的第j个交易行为分析单元S′j;1≤j≤m;
从入场、出场以及币币交易这三个维度对每个交易行为分析单元进行特征描述,作为交易行为分析单元的特征向量;所有用户所有交易行为分析单元的特征向量,构成数据集;
交易行为分析单元在入场维度提取的特征包括:入场总额、入场总次数、入场额均值、入场频率、单笔最大入场额、入场最大额与最小额差值、入场额离散系数、入场额占总交易额比、入场次数占总交易次数比、入场额为整数的交易次数、入场额大于一万的交易次数、最多持续入场次数、非工作时段入场次数占入场总次、入场币种数、入场小众币种数占入场币种数比和最长入场间隔天数;
交易行为分析单元在出场维度提取的特征包括:出场总额、出场总次数、出场额均值、出场频率、单日最大出场额、单笔最大出场额、出场最大额与最小额差值、出场额占总交易额比例、出场次数占总交易次数比、出场额大于与小于均值的次数差、出场天数、连续最多出场次数、非工作时段出场次数占入场总次数比、出场币种数、出场小众币种数占入场币种数比例和出场后数字钱包余额为零的次数;
交易行为分析单元在币币交易维度提取的特征包括:币币交易总额、币币交易次数、币币交易交易对数量、币币交易涉及币种数、币币交易频率、币币交易次数占总交易次数比例、币币交易额离散系数和非工作时段币币交易次数占币币交易总次数比例;
使用局部异常因子算法计算数据集中每个数据点的离群因子值LOF;对数据集中所有数据点进行聚类,并对各数据点根据其所在聚类簇的大小调整其离群因子值,所得值称为DLOF值;
其中,数据点p的离群因子值的计算方法为:
首先确定数据点p在数据集中的k邻域,记作Nk(p);
然后按以下公式计算数据点p到其k邻域Nk(p)中每个数据点o的可达距离以及数据点p的局部可达密度:
reach-distk(p,o)=max{dk(o),d(p,o)};
式中,reach-distk(p,o)表示数据点p到数据点o的可达距离,dk(o)为数据点o的第k距离,d(p,o)为数据点o与数据点p之间的距离;max{}表示求最大值;lrdk(p)表示数据点p的局部可达密度,|Nk(p)|表示k邻域Nk(p)中的数据点个数;
再按照与数据点p的局部可达密度相同的计算方法,计算数据点p的k邻域Nk(p)中每个数据点o的局部可达密度lrdk(o);
最后,按以下公式计算数据点p的离群因子值LOF(p):
对各数据点根据其所在聚类簇的大小调整其离群因子值的方法为:
式中,LOF(p)表示数据点p的离群因子值,DLOF(p)表示对数据点p的LOF(p)调整得到后的离群因子值,cn表示第n个聚类簇,|cn|表示聚类簇cn包括的数据点个数,K为聚类簇的数量;
根据数据点的DLOF值确定该数据点对应交易行为分析单元的异常交易可疑值,进而根据用户所有交易行为分析单元的异常交易可疑值确定该用户的异常交易可疑性;
其中,交易行为分析单元的异常交易可疑值的计算公式为:
t(S′j)=α·Z1(pj)+(1-α)·Z2(pj),α∈(0,1);
Z2(pj)=1-PN(DLOF(pj),μ,σ);
式中,t(S′j)表示交易行为分析单元S′j的异常交易可疑值,数据点pj表示交易行为分析单元S′j的特征向量,Z1(pj)和Z2(pj)均为有关数据点pj的中间参数;DLOF(pj)表示数据点pj的DLOF值,表示用户全体数据点的DLOF均值;Z2(pj)表示数据点pj的DLOF值DLOF(pj)在PN(·)的正态分布下被判为异常的概率,均值μ和标准差σ是在该用户所有数据点DLOF值的范围内计算得到;α表示加权系数;
用户的异常交易可疑性的确定方法为:取该用户所有交易行为分析单元的异常交易可疑值中最大的前n个异常交易可疑值的平均值,即为该用户的异常交易可疑值。
2.根据权利要求1所述的异常交易行为检测方法,其特征在于,使用DBSCAN聚类算法对数据集聚类成簇,具体步骤如下:
(1)设置DBSCAN聚类算法所需的两个参数:半径eps和邻域内最少要求点数minpts;标记数据集中所有数据点的初始状态为未被访问;
(2)任选一个未被访问的数据点开始,找出与其距离不大于eps的其他数据点:
如果满足条件的数据点个数大于或等于minpts,则将当前选择的数据点与满足条件的数据点形成一个聚类簇,并将当前选择的数据点的状态由未被访问更新为已访问;然后递归,以相同的方法处理该聚类簇内所有未被访问的数据点;如果聚类簇内所有数据点均已访问,再返回步骤(2),使用相同的方法处理数据集中未被访问的数据点;
如果满足条件的数据点个数小于minpts,则将当前选择的数据点标记为噪声点;
(3)最终由数据集得到基于DBSCAN聚类算法的K个聚类簇。
3.根据权利要求1所述的异常交易行为检测方法,其特征在于,所述检测时间段的每个时间分段均为10天。
4.一种基于权利要求1-3任一所述方法的针对数字货币的异常交易行为检测装置,其特征在于,包括:
交易记录获取模块,用于:获取数字货币交易所中每个用户在检测时间段的所有交易记录;
交易行为分析单元构建模块,用于:将检测时间段划分为长度相同的m个分段,将单个用户在第j个时间分段tj的所有交易记录的组合,作为该用户的第j个交易行为分析单元S′j;1≤j≤m;
特征向量及数据集构建模块,用于:从入场、出场以及币币交易这三个维度对每个交易行为分析单元进行特征描述,作为交易行为分析单元的特征向量;所有用户所有交易行为分析单元的特征向量,构成数据集;
离群因子值计算及调整模块,用于:计算数据集中每个数据点的离群因子值LOF;对数据集中所有数据点进行聚类,并对各数据点根据其所在聚类簇的大小调整其离群因子值,所得值称为DLOF值;
异常交易可疑性检测模块,用于:根据数据点的DLOF值确定该数据点对应交易行为分析单元的异常交易可疑值,进而根据用户所有交易行为分析单元的异常交易可疑值确定该用户的异常交易可疑性。
5.一种电子设备,包括存储器及处理器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1~3中任一项所述的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262931.9A CN113011888B (zh) | 2021-03-11 | 2021-03-11 | 一种针对数字货币的异常交易行为检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110262931.9A CN113011888B (zh) | 2021-03-11 | 2021-03-11 | 一种针对数字货币的异常交易行为检测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011888A CN113011888A (zh) | 2021-06-22 |
CN113011888B true CN113011888B (zh) | 2024-04-02 |
Family
ID=76404699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110262931.9A Active CN113011888B (zh) | 2021-03-11 | 2021-03-11 | 一种针对数字货币的异常交易行为检测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011888B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113852629B (zh) * | 2021-09-24 | 2022-10-28 | 重庆大学 | 基于自然邻的自适应加权核密度的网络连接异常识别方法及计算机存储介质 |
US20230237492A1 (en) * | 2022-01-26 | 2023-07-27 | Paypal, Inc. | Machine learning fraud cluster detection using hard and soft links and recursive clustering |
CN114819972A (zh) * | 2022-04-25 | 2022-07-29 | 中国建设银行股份有限公司 | 一种异常交易确定方法、装置、设备及介质 |
CN115129988A (zh) * | 2022-06-29 | 2022-09-30 | 北京达佳互联信息技术有限公司 | 一种信息获取方法、装置、电子设备及存储介质 |
CN116933335A (zh) * | 2023-09-13 | 2023-10-24 | 北京安信天行科技有限公司 | 一种基于实时聚合异常检测的安全数据分析方法 |
CN117725451B (zh) * | 2023-12-15 | 2024-06-21 | 北京微保科技有限责任公司 | 一种多维度交易数据自动对账方法及系统 |
CN117808473B (zh) * | 2024-03-01 | 2024-05-31 | 深圳迅策科技股份有限公司 | 一种交易数据的隐私计算方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145027A (zh) * | 2019-12-31 | 2020-05-12 | 众安信息技术服务有限公司 | 一种疑似洗钱交易识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160071108A1 (en) * | 2014-09-04 | 2016-03-10 | Idm Global, Inc. | Enhanced automated anti-fraud and anti-money-laundering payment system |
-
2021
- 2021-03-11 CN CN202110262931.9A patent/CN113011888B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145027A (zh) * | 2019-12-31 | 2020-05-12 | 众安信息技术服务有限公司 | 一种疑似洗钱交易识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
Detecting Malicious Ethereum Entities via Application of Machine Learning Classification;Farimah Poursafaei等;《2020 2nd conference on blockchain research&applications for innovative networkds and services(BRAINS)》;第120-127页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113011888A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011888B (zh) | 一种针对数字货币的异常交易行为检测方法、装置、设备及介质 | |
Dorronsoro et al. | Neural fraud detection in credit card operations | |
Wang et al. | Multi-classification assessment of bank personal credit risk based on multi-source information fusion | |
CN108280491A (zh) | 一种面向差分隐私保护的k均值聚类方法 | |
CN114187112A (zh) | 账户风险模型的训练方法和风险用户群体的确定方法 | |
CN109840676B (zh) | 基于大数据的风控方法、装置、计算机设备及存储介质 | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
CN116485519A (zh) | 数据处理方法、装置、设备及存储介质 | |
Zhu et al. | Sequential adversarial anomaly detection for one-class event data | |
Speakman et al. | Three population covariate shift for mobile phone-based credit scoring | |
CN111260372B (zh) | 资源转移用户群确定方法、装置、计算机设备和存储介质 | |
CN110796379B (zh) | 业务渠道的风险评估方法、装置、设备及存储介质 | |
CN112329862A (zh) | 基于决策树的反洗钱方法及系统 | |
CN116361488A (zh) | 一种基于知识图谱挖掘风险对象的方法及装置 | |
CN113177733B (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 | |
CN115114851A (zh) | 基于五折交叉验证的评分卡建模方法及装置 | |
JP2003323601A (ja) | 信頼性尺度付き予測装置 | |
CN115147117A (zh) | 资源使用异常的账户群组识别方法、装置及设备 | |
CN118395249A (zh) | 账户分类方法、电子设备以及存储介质 | |
CN115115453A (zh) | 风控评估方法及装置 | |
Guo | Advances in Quantitative Investment with Machine Learning and Financial Network | |
CN115935214A (zh) | 基于票据的图聚类方法、装置、电子设备及可读存储介质 | |
CN117788056A (zh) | 一种基于因果推断的精准营销方法 | |
CN118333741A (zh) | 信贷还款识别方法、装置、设备及存储介质 | |
CN115984617A (zh) | 一种基于生成式对抗网络提升长尾识别群体公平性的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |