CN116452333A - 异常交易检测模型的构建方法、异常交易检测方法及装置 - Google Patents
异常交易检测模型的构建方法、异常交易检测方法及装置 Download PDFInfo
- Publication number
- CN116452333A CN116452333A CN202310345476.8A CN202310345476A CN116452333A CN 116452333 A CN116452333 A CN 116452333A CN 202310345476 A CN202310345476 A CN 202310345476A CN 116452333 A CN116452333 A CN 116452333A
- Authority
- CN
- China
- Prior art keywords
- transaction data
- transaction
- abnormal
- type
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 164
- 238000001514 detection method Methods 0.000 title claims abstract description 117
- 238000010276 construction Methods 0.000 title abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000002776 aggregation Effects 0.000 claims abstract description 51
- 238000004220 aggregation Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000015654 memory Effects 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012952 Resampling Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000004931 aggregating effect Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 238000007499 fusion processing Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 13
- 210000002569 neuron Anatomy 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请涉及一种异常交易检测模型的构建方法、异常交易检测方法及装置,应用于人工智能领域,包括:获取账户的样本交易数据及对应的交易时间序列;提取交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;根据多个第一类特征获取每个交易数据与交易时间序列中每个交易数据对应的历史交易数据之间的相似度信息;分别对每个交易数据对应的历史交易数据的多个第二类特征与历史交易数据对应的相似度信息进行聚合处理,得到每个交易数据的聚合特征;根据每个交易数据的聚合特征对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。该方法通过量化交易之间的相似性,模拟人工特征聚合效果,从而可减少对专家知识的依赖。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种异常交易检测模型的构建方法、异常交易检测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
近年来,随着电子商务技术的发展,越来越多的人使用信用卡支付产品费用。然而,信用卡交易量的增加也导致异常交易发生率的增加,使银行蒙受损失。因此,开发有效的异常交易检测算法对于最大限度减少这些损失至关重要。
目前,对异常交易的检测主要是基于规则的方法,具体为采用由该领域的专家所设计的复杂的检测规则来识别异常交易。
然而,随着异常行为性质的演变、账户消费模式的变化以及交易过程中不同安全机制的引入,依赖于专家设计的检测规则算法必须在规则管理生命周期内定期分析和更新,以使检测规则算法与异常行为保持同步,维护成本昂贵。
发明内容
基于此,有必要针对上述方法维护成本昂贵的技术问题,提供一种异常交易检测模型的构建方法、异常交易检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种异常交易检测模型的构建方法。所述方法包括:
获取账户的样本交易数据,以及获取所述样本交易数据对应的交易时间序列;
提取所述交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
根据所述多个第一类特征,获取所述每个交易数据与所述交易时间序列中所述每个交易数据对应的历史交易数据之间的相似度信息;所述每个交易数据对应的历史交易数据包括交易时间早于或等于所述每个交易数据的交易时间的至少一个交易数据;
分别对所述每个交易数据对应的历史交易数据的多个第二类特征与所述历史交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征;
根据所述每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。
在其中一个实施例中,所述根据所述多个第一类特征,获取所述每个交易数据与所述交易时间序列中所述每个交易数据对应的历史交易数据之间的相似度信息,包括:
针对每个交易数据n,获取所述交易数据n与所述交易时间序列中的历史交易数据,分别在各个第一类特征上的特征相似度;
对所述交易数据n在各个第一类特征上的特征相似度进行融合处理,得到所述交易数据n与所述交易时间序列中所述交易数据n对应的历史交易数据之间的相似度信息。
在其中一个实施例中,所述对所述交易数据n在各个第一类特征上的特征相似度进行融合处理,得到所述交易数据n与所述交易时间序列中所述交易数据n对应的历史交易数据之间的相似度信息,包括:
对所述交易数据n在各个第一类特征上的特征相似度进行组合,得到所述交易数据n与所述交易时间序列中所述交易数据n对应的历史交易数据之间的特征相似度矩阵;
通过预设的调节参数对所述特征相似度矩阵进行参数化处理,将参数化后的特征相似度矩阵传递给激活函数,得到所述交易数据n与所述交易时间序列中所述交易数据n对应的历史交易数据之间的相似度信息。
在其中一个实施例中,所述分别对所述每个交易数据对应的历史交易数据的多个第二类特征与所述历史交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征,包括:
对所述历史交易数据的各个第二类特征进行标准化处理,得到所述历史交易数据的各个第二类特征的标准化特征值;
分别对所述历史交易数据中各个交易数据的各个第二类特征的标准化特征值进行组合处理,得到所述历史交易数据中各个交易数据的第二类组合特征;
对所述历史交易数据中各个交易数据的第二类组合特征与所述历史交易数据中各个交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征。
在其中一个实施例中,所述样本交易数据携带有交易时间;所述获取所述样本交易数据对应的交易时间序列,包括:
将携带有交易时间的所述样本交易数据输入长短期记忆神经网络中,得到所述样本交易数据对应的交易时间序列。
在其中一个实施例中,所述获取账户的样本交易数据,包括:
获取账户的初始样本交易数据;
对所述初始样本交易数据进行重采样处理,得到重采样后的交易数据,作为所述样本交易数据。
在其中一个实施例中,所述初始样本交易数据包括正常交易数据集合和异常交易数据集合;
所述对所述初始样本交易数据进行重采样处理,得到重采样后的交易数据,包括:
对所述初始样本交易数据中的异常交易数据集合进行过采样处理,得到新的异常交易数据集合;
从所述新的异常交易数据集合中确定出目标异常交易数据,并剔除所述目标异常交易数据;所述目标异常交易数据表示与近邻交易数据的类别不同的交易数据;
基于剔除所述目标异常交易数据后的新的异常交易数据集合与所述初始样本交易数据中的正常交易数据集合,得到所述重采样后的交易数据。
第二方面,本申请还提供了一种异常交易检测方法。所述方法包括:
获取待检测交易数据的交易特征;所述交易特征包括第一类特征和第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
将所述待检测交易数据的交易特征输入训练完成的异常交易数据检测模型,得到所述待检测交易数据的异常检测结果;所述训练完成的异常交易数据检测模型通过上述任一实施例的异常交易检测模型的构建方法训练得到。
第三方面,本申请还提供了一种异常交易检测模型的构建装置。所述装置包括:
样本获取模块,用于获取账户的样本交易数据,以及获取所述样本交易数据对应的交易时间序列;
特征提取模块,用于提取所述交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
相似度确定模块,用于根据所述多个第一类特征,获取所述每个交易数据与所述交易时间序列中所述每个交易数据对应的历史交易数据之间的相似度信息;所述每个交易数据对应的历史交易数据包括交易时间早于或等于所述每个交易数据的交易时间的至少一个交易数据;
特征聚合模块,用于分别对所述每个交易数据对应的历史交易数据的多个第二类特征与所述历史交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征;
模型训练模块,用于根据所述每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。
第四方面,本申请还提供了一种异常交易检测模型的构建装置。所述装置包括:
获取模块,用于获取待检测交易数据的交易特征;所述交易特征包括第一类特征和第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
检测模块,用于将所述待检测交易数据的交易特征输入训练完成的异常交易数据检测模型,得到所述待检测交易数据的异常检测结果;所述训练完成的异常交易数据检测模型通过上述任一实施例的异常交易检测模型的构建方法训练得到。
第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取账户的样本交易数据,以及获取所述样本交易数据对应的交易时间序列;
提取所述交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
根据所述多个第一类特征,获取所述每个交易数据与所述交易时间序列中所述每个交易数据对应的历史交易数据之间的相似度信息;所述每个交易数据对应的历史交易数据包括交易时间早于或等于所述每个交易数据的交易时间的至少一个交易数据;
分别对所述每个交易数据对应的历史交易数据的多个第二类特征与所述历史交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征;
根据所述每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。
第六方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取账户的样本交易数据,以及获取所述样本交易数据对应的交易时间序列;
提取所述交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
根据所述多个第一类特征,获取所述每个交易数据与所述交易时间序列中所述每个交易数据对应的历史交易数据之间的相似度信息;所述每个交易数据对应的历史交易数据包括交易时间早于或等于所述每个交易数据的交易时间的至少一个交易数据;
分别对所述每个交易数据对应的历史交易数据的多个第二类特征与所述历史交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征;
根据所述每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。
第七方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取账户的样本交易数据,以及获取所述样本交易数据对应的交易时间序列;
提取所述交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
根据所述多个第一类特征,获取所述每个交易数据与所述交易时间序列中所述每个交易数据对应的历史交易数据之间的相似度信息;所述每个交易数据对应的历史交易数据包括交易时间早于或等于所述每个交易数据的交易时间的至少一个交易数据;
分别对所述每个交易数据对应的历史交易数据的多个第二类特征与所述历史交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征;
根据所述每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。
上述异常交易检测模型的构建方法、异常交易检测方法、装置、计算机设备、存储介质和计算机程序产品,首先获取账户的样本交易数据,然后获取样本交易数据对应的交易时间序列,提取交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;根据多个第一类特征,获取每个交易数据与交易时间序列中每个交易数据对应的历史交易数据之间的相似度信息;分别对每个交易数据对应的历史交易数据的多个第二类特征与历史交易数据对应的相似度信息进行聚合处理,得到每个交易数据的聚合特征;根据每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。该方法通过对交易数据不同属性的特征进行聚合处理,量化交易数据之间的相似性,模拟人工特征聚合效果,从而可减少对专家知识的依赖,解决采用专业知识识别规则成本昂贵的问题。
附图说明
图1为一个实施例中异常交易检测模型的构建方法的流程示意图;
图2为一个实施例中交易数据的聚合特征的确定步骤的流程示意图;
图3为一个实施例中对初始样本交易数据重采样步骤的流程示意图;
图4为另一个实施例中异常交易检测模型的构建方法的流程示意图;
图5为一个实施例中异常交易检测模型的构建装置的结构框图;
图6为一个实施例中异常交易检测装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
在一个实施例中,如图1所示,提供了一种异常交易检测模型的构建方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
步骤S110,获取账户的样本交易数据,以及获取样本交易数据对应的交易时间序列。
其中,交易时间序列可表示样本交易数据中的各个交易数据按交易发生的时间的先后顺序排列而成的序列。
具体地,在获取用户的样本交易数据后,为便于学习用户的动态消费变化,可进一步根据每个交易数据的交易时间将样本交易数据构建为交易时间序列,后续利用交易时间序列进行特征提取和模型训练。
步骤S120,提取交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;第一类特征表示在有限类别内取值的特征,第二类特征表示数值具有连续特性的特征。
其中,第一类特征表示在有限类别内取值的特征,具体可以为分类特征,例如,第一类特征可以为商家类别和商家编号等。
其中,第二类特征表示数值具有连续特性的特征,具体可以为连续特征,例如,第二类特征可以为交易时间、交易金额、信用卡限额、信用卡逾期日和用户年龄等。
其中,第一类特征和第二类特征均可包括多个特征。
具体实现中,每个交易数据具有多种交易特征,不同的交易特征应当采用不同的处理方式,因此,本步骤将每个交易数据的交易特征分为两类,即第一类特征和第二类特征,提取交易时间序列中每个交易数据的不同交易特征后,后续可采用不同的处理方式进行处理。
步骤S130,根据多个第一类特征,获取每个交易数据与交易时间序列中每个交易数据对应的历史交易数据之间的相似度信息;每个交易数据对应的历史交易数据包括交易时间早于或等于每个交易数据的交易时间的至少一个交易数据。
其中,每个交易数据对应的历史交易数据还可包括每个交易数据本身,例如,交易时间序列为{1,2,…n},则对于交易n,其对应的历史交易数据可以为1,2,…n。
具体实现中,由于每个交易数据包括多个第一类特征,为了使得每个交易数据与其对应的历史交易数据在每个第一类特征上进行相似度信息的计算,进一步基于每个交易数据与历史交易数据在每个第一类特征上的相似度信息,得到每个交易数据与交易时间序列中每个交易数据对应的历史交易数据之间的相似度信息,实现对每个特征与每个交易数据之间的关系的量化计算。
步骤S140,分别对每个交易数据对应的历史交易数据的多个第二类特征与历史交易数据对应的相似度信息进行聚合处理,得到每个交易数据的聚合特征。
具体实现中,每个交易数据的聚合特征通过每个交易数据对应的历史交易数据的第二类特征和相似度信息聚合得到,由于交易数据的第二类特征有多个,因此,可先对每个交易数据对应的历史交易数据中的各个交易数据的多个第二类特征进行组合处理,得到历史交易数据中的各个交易数据的第二类组合特征,进一步通过历史交易数据中的各个交易数据的相似度信息对第二类组合特征进行软选择,即将每个交易数据对应的历史交易数据中的各个交易数据的第二类组合特征和相似度信息进行聚合处理,得到每个交易数据的聚合特征。
步骤S150,根据每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。
具体实现中,样本交易数据中的每个交易数据还具有对应的交易标签,交易标签用于表征每个交易数据为正常交易或异常交易,在得到样本交易数据中每个交易数据的聚合特征后,可将该聚合特征作为输入变量,将每个交易数据对应的交易标签作为监督信息,对待训练的异常检测模型进行训练,直至达到预设的训练次数或训练损失值达到预设的精度,结束训练,得到训练完成的异常交易检测模型。
上述异常交易检测模型的构建方法中,首先获取账户的样本交易数据,然后获取样本交易数据对应的交易时间序列,提取交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;根据多个第一类特征,获取每个交易数据与交易时间序列中每个交易数据对应的历史交易数据之间的相似度信息;分别对每个交易数据对应的历史交易数据的多个第二类特征与历史交易数据对应的相似度信息进行聚合处理,得到每个交易数据的聚合特征;根据每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。该方法通过对交易数据不同属性的特征进行聚合处理,量化交易数据之间的相似性,模拟人工特征聚合效果,从而可减少对专家知识的依赖,解决采用专业知识识别规则成本昂贵的问题。
在一示例性实施例中,上述步骤S130中根据多个第一类特征,获取每个交易数据与交易时间序列中每个交易数据对应的历史交易数据之间的相似度信息,具体可以通过以下步骤实现:
步骤S131,针对每个交易数据n,获取交易数据n与交易时间序列中的历史交易数据,分别在各个第一类特征上的特征相似度;
步骤S132,对交易数据n在各个第一类特征上的特征相似度进行融合处理,得到交易数据n与交易时间序列中交易数据n对应的历史交易数据之间的相似度信息。
具体实现中,对于每个第一类特征c,其嵌入维度记为ec,首先使用Word2Vec(一群用来产生词向量的相关模型)方法将其转换为嵌入向量(ri)1:n,随后,针对任一个交易数据n,设其对应的历史交易数据为1…n,针对任一个第一类特征,则可使用交易数据n在该第一类特征上的特征值rn与历史交易数据在该第一类特征上的特征值(r1,…,rn)进行向量内积,得到在该第一类特征上的特征相似度/>具体公式如下:
设第一类特征的数量有c个,则每个交易数据与其对应的历史交易数据在各个第一类特征上的特征相似度包括:sv1,sv2,…,svc。
进一步对每个交易数据与其对应的历史交易数据在各个第一类特征上的特征相似度sv1,sv2,…,svc进行融合处理,可得到每个交易数据与交易时间序列中每个交易数据对应的历史交易数据之间的相似度信息。
在一示例性实施例中,上述步骤S132进一步包括以下步骤:
步骤S132a,对交易数据n在各个第一类特征上的特征相似度进行组合,得到交易数据n与交易时间序列中交易数据n对应的历史交易数据之间的特征相似度矩阵;
步骤S132b,通过预设的调节参数对特征相似度矩阵进行参数化处理,将参数化后的特征相似度矩阵传递给激活函数,得到交易数据n与交易时间序列中交易数据n对应的历史交易数据之间的相似度信息。
具体实现中,由于sv1,sv2,…,svc表示的是第一类特征之间的特征相似度,而本方案是要量化交易数据之间的整体相似度,因此,需要将在各个第一类特征上的特征相似度转换为交易数据之间的交易相似度。而不同的第一类特征对该交易相似度可能有不同的贡献,因此,交易相似度可以表示为交易在各个第一类特征的特征相似度的线性组合,之后由预设的调节参数对线性组合得到的特征相似度矩阵进行参数化处理,并传递给激活函数,由此得到交易数据n与交易时间序列中交易数据n对应的历史交易数据之间的相似度信息。具体公式如下:
l=σ(SV·ω+biω)
其中,表示特征相似度矩阵,σ()表示激活函数,w和biw为预设的调节参数,其中,/>为系数,biw为偏移量。其中,参数w类似于CNN(ConvolutionalNeural Networks,卷积神经网络)中的过滤器,在序列中的所有交易共享。/>中的样本li表示学到的交易i到n之间的交易相似度。因此,通过使用多个过滤器,可以学到交易的不同相似度。
上述实施例中,每个交易数据的相似度信息是通过该交易数据与其对应的历史交易数据在各个第一类特征上的特征比对结果得到的,由此得到的相似度信息更能表征每个交易数据,提高了每个交易数据表征的准确性,从而可进一步提升由每个交易数据对应的相似度信息参与训练的异常交易检测模型的预测精度。
在一示例性实施例中,如图2所示,上述步骤S140中分别对每个交易数据对应的历史交易数据的多个第二类特征与历史交易数据对应的相似度信息进行聚合处理,得到每个交易数据的聚合特征,具体可以通过以下步骤实现:
步骤S141,对历史交易数据的各个第二类特征进行标准化处理,得到历史交易数据的各个第二类特征的标准化特征值;
步骤S142,分别对历史交易数据中各个交易数据的各个第二类特征的标准化特征值进行组合处理,得到历史交易数据中各个交易数据的第二类组合特征;
步骤S143,对历史交易数据中各个交易数据的第二类组合特征与历史交易数据中各个交易数据对应的相似度信息进行聚合处理,得到每个交易数据的聚合特征。
具体实现中,对于数值具有连续特性的第二类特征,为便于对其进行处理,可先进行标准化处理,具体为将各个第二类特征变换为均值为0,标准差为1的分布,由此得到每个交易数据对应的历史交易数据的各个第二类特征的标准化特征值。进一步以交易数据为维度,对历史交易数据中各个交易数据的各个第二类特征的标准化特征值进行组合处理,得到历史交易数据中各个交易数据的第二类组合特征。例如,设第二类特征p的数目为m个,对于历史交易数据中的任一个交易数据i,则其对应的第二类组合特征ui=(p1…pm)。对历史交易数据中各个交易数据的第二类组合特征与历史交易数据中各个交易数据对应的相似度信息进行聚合处理,具体为先对各个交易数据的第二类组合特征和对应的相似度信息进行点乘处理,然后通过预设的第二调节参数对点乘结果进行参数化后,传递给激活函数,得到每个交易数据的聚合特征。
举例说明,设对于交易数据n,其对应的历史交易数据为1到n,u=(u1,u2,…,un)∈Rn中的u1,u2,…,un分别是历史交易数据中各个交易数据的第二类组合特征,l1,l 2,…,l n分别是历史交易数据中各个交易数据对应的相似度信息,则先对各个交易数据的第二类组合特征和对应的相似度信息进行点乘处理,具体公式如下:
进一步使用系数和偏移量biθ对点乘结果进行参数化,传递给激活函数σ,得到交易数据n的聚合特征。具体公式如下:
本实施例中,通过对交易不同属性执行不同聚合方式,量化交易之间的相似性,模拟人工特征聚合的效果,从而减少对专家知识的依赖,解决专业识别规则成本昂贵的问题。
传统的机器学习算法在异常交易检测算法中准确性较低的主要原因是其仅考虑单个交易,不适应信用卡用户的动态消费趋势,导致在异常检测时分类错误。针对该问题,本申请还提出了采用LSTM网络学习用户消费行为趋势的方法,对应地,在一示例性实施例中,样本交易数据携带有交易时间;上述步骤S110中获取样本交易数据对应的交易时间序列,包括:将携带有交易时间的样本交易数据输入长短期记忆神经网络中,得到样本交易数据对应的交易时间序列。
其中,LSTM(Long Short-Term Memory,长短期记忆神经网络)是一种用于对顺序数据建模的稳健算法,其内部隐藏状态模型由RNN(Recursive Neural Network,递归神经网络)维护,允许随着时间步长在神经网络节点之间建立连接。因此,该算法能够存储来自先前输入的数据,从而发现分布在输入序列上的事件之间的时间相关性。
具体实现中,将样本交易数据送入长短期记忆神经网络中,通过长短期记忆神经网络中的RNN神经元中添加的三个门控对样本交易数据进行处理,得到样本交易数据对应的交易时间序列。其中,三个门控分别是遗忘门神经元,输入门神经元和输出门神经元。遗忘门神经元用来忘记导致错误预测的信息,输入门神经元用来决定存储的信息,输出门神经元用来决定输出的信息。具体公式如下:
it=γ(Vixt+WiAt-1)
ft=γ(Vfxt+WfAt-1)
ot=γ(Voxt+WoAt-1)
其中,f表示遗忘门,i表示输入门,o表示输出门,c表示记忆单元。γ和tanh表示激活函数,V*和W*表示权重矩阵,xt表示输入数据,A*表示隐藏状态,表示门值的乘积。
本实施例中,针对用户动态消费趋势捕捉问题,基于LSTM网络对信用卡交易中的时间序列进行建模,模拟信用卡交易之间的顺序依赖关系,通过考虑整个交易序列,从而发现交易之间的相关性,可以更有效地识别用户消费行为中的微小变化,克服传统的机器学习算法仅基于单个交易学习,无法适应用户的动态消费趋势的缺陷。
在一示例性实施例中,上述步骤S110中获取账户的样本交易数据,包括:
步骤S111,获取账户的初始样本交易数据;
步骤S112,对初始样本交易数据进行重采样处理,得到重采样后的交易数据,作为样本交易数据。
可以理解的是,方法预测的准确性取决于训练时的数据数量。由于异常交易数量仅占总交易数据量的一小部分,交易数据往往存在数据不平衡的情况,导致数据用于构建模型时性能不佳。因此,本实施例在获取账户的初始样本交易数据后,采用一种合成少数过采样技术(SMOTE)和编辑最近邻规则(ENN)相结合的重采样方式,对初始样本交易数据执行过采样和欠采样,以解决样本数据不平衡的问题。
进一步地,在一示例性实施例中,初始样本交易数据包括正常交易数据集合和异常交易数据集合;如图3所示,上述步骤S112中对初始样本交易数据进行重采样处理,得到重采样后的交易数据,具体可通过以下步骤实现:
步骤S310,对初始样本交易数据中的异常交易数据集合进行过采样处理,得到新的异常交易数据集合。
具体地,对异常交易数据集合的算法流程为:
(a)对于异常交易数据集合中的每一个样本xi,以欧式距离为标准计算它到异常交易数据集合中所有样本的距离,得到其k近邻。
(b)根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个异常交易类样本xi,从其k近邻中随机选择若干个样本构成xn。
(c)对于每一个随机选出的近邻xn,分别于原样本构建新的样本,得到新的异常交易数据集合。具体公式如下:
xnew=x+rand(0,1)×|x-xn
步骤S320,从新的异常交易数据集合中确定出目标异常交易数据,并剔除目标异常交易数据;目标异常交易数据表示与近邻交易数据的类别不同的交易数据。
由于过采样技术是基于异常交易数据进行合成的,靠近边界的数据容易与正常交易数据混合在一起,产生噪音,导致正常交易数据有被误判为异常交易数据的风险。因此在得到新的异常交易数据集合后,还需使用欠采样技术剔除鉴别度低的数据。
具体过程包括:(a)对于新的异常交易数据集合中的每一个样本xj,以欧式距离为标准计算它到新的异常交易数据集合中所有样本的距离,得到其k近邻;(b)如果xj与其多数近邻类别不同,则删除该样本。由此通过组合的重采样技术处理,使得用于训练的样本交易数据趋于平衡,从而可提高异常交易检测算法的准确性。
步骤S330,基于剔除目标异常交易数据后的新的异常交易数据集合与初始样本交易数据中的正常交易数据集合,得到重采样后的交易数据。
具体地,可将剔除目标异常交易数据后的新的异常交易数据集合与初始样本交易数据中的正常交易数据集合,组合得到重采样后的交易数据。
本实施例中,针对信用卡交易数据不平衡问题,提出使用一种过采样和欠采样技术相结合的重采样技术,通过增加异常交易数据以及删除语义信息不明确的边界数据,平衡信用卡交易数据样本,可解决大多数机器学习算法在使用平衡数据进行训练时表现良好,在存在偏斜类的数据中对多数类存在偏差的问题。
在一示例性实施例中,本申请还提供了一种异常交易检测方法,包括:获取待检测交易数据的交易特征;交易特征包括第一类特征和第二类特征;第一类特征表示在有限类别内取值的特征,第二类特征表示数值具有连续特性的特征;将待检测交易数据的交易特征输入训练完成的异常交易数据检测模型,得到待检测交易数据的异常检测结果;训练完成的异常交易数据检测模型通过上述实施例中的异常交易检测模型的构建方法训练得到。
具体实现中,在训练得到异常交易检测模型后,可通过该异常交易检测模型对任意交易进行异常检测,具体方法为:提取待检测交易数据的交易特征,将该交易特征输入异常交易检测模型中,由异常交易检测模型进行检测处理,输出待检测交易数据所属的交易类型,或者输出待检测交易数据属于异常交易的概率,当该概率大于阈值时,确定待检测交易数据为异常交易,反之,则确定为正常交易。
本实施例中,采用由上述实施例所述方法训练得到的异常交易检测模型进行交易检测,能够保证预测得到的待检测交易的检测结果的准确性。
在另一个实施例中,如图4所示,示出了一种异常交易检测模型的构建方法的流程示意图,包括以下步骤:
步骤S401,获取账户的初始样本交易数据,对初始样本交易数据进行重采样处理,得到重采样后的交易数据,作为样本交易数据;样本交易数据携带有交易时间;
步骤S402,将携带有交易时间的样本交易数据输入长短期记忆神经网络中,得到样本交易数据对应的交易时间序列;
步骤S403,提取交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;
步骤S404,针对每个交易数据n,获取交易数据n与交易时间序列中的历史交易数据,分别在各个第一类特征上的特征相似度;
步骤S405,对交易数据n在各个第一类特征上的特征相似度进行组合,得到交易数据n与交易时间序列中交易数据n对应的历史交易数据之间的特征相似度矩阵;
步骤S406,通过预设的调节参数对特征相似度矩阵进行参数化处理,将参数化后的特征相似度矩阵传递给激活函数,得到交易数据n与交易时间序列中交易数据n对应的历史交易数据之间的相似度信息;
步骤S407,对历史交易数据的各个第二类特征进行标准化处理,得到历史交易数据的各个第二类特征的标准化特征值;
步骤S408,分别对历史交易数据中各个交易数据的各个第二类特征的标准化特征值进行组合处理,得到历史交易数据中各个交易数据的第二类组合特征;
步骤S409,对历史交易数据中各个交易数据的第二类组合特征与历史交易数据中各个交易数据对应的相似度信息进行聚合处理,得到每个交易数据的聚合特征;
步骤S410,根据每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。
其中,步骤S403-409可以通过特征提取模型执行,特征提取模型由嵌入层、相似度编码层和聚合层组成。首先,在嵌入层基于交易的特征属性生成嵌入向量。随后,基于嵌入向量,在相似度编码层计算当前交易与历史交易之间的相似性,生成特征相似度信息,量化每个特征和每个交易之间的关系。最后,在聚合层将特征相似度向量组合成交易相似度分数,量化两个交易之间的整体相似性。
本实施例提出的基于LTSM和特征融合结合的异常交易检测方法,首先结合过采样和欠采样的重采样技术对样本交易数据进行预处理,解决数据不平衡的问题;随后通过LSTM模型对样本交易数据中的时间序列进行建模,动态识别用户消费习惯的变化,解决传统检测算法无法识别交易变化的问题,最后通过对交易属性中的连续特征进行软特征匹配,分类特征进行加权组合,生成交易的聚合特征,模拟人工特征融合效果,提高异常交易检测的专业性,无需依赖专家知识,从而可降低检测和维护成本。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的异常交易检测模型的构建方法的异常交易检测模型的构建装置,以及用于实现上述所涉及的异常交易检测方法的异常交易检测装置。这两个装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个装置实施例中的具体限定可以参见上文中对应方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种异常交易检测模型的构建装置,包括:
样本获取模块510,用于获取账户的样本交易数据,以及获取样本交易数据对应的交易时间序列;
特征提取模块520,用于提取交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;第一类特征表示在有限类别内取值的特征,第二类特征表示数值具有连续特性的特征;
相似度确定模块530,用于根据多个第一类特征,获取每个交易数据与交易时间序列中每个交易数据对应的历史交易数据之间的相似度信息;每个交易数据对应的历史交易数据包括交易时间早于或等于每个交易数据的交易时间的至少一个交易数据;
特征聚合模块540,用于分别对每个交易数据对应的历史交易数据的多个第二类特征与历史交易数据对应的相似度信息进行聚合处理,得到每个交易数据的聚合特征;
模型训练模块550,用于根据每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。
在其中一个实施例中,相似度确定模块530,还用于针对每个交易数据n,获取交易数据n与交易时间序列中的历史交易数据,分别在各个第一类特征上的特征相似度;对交易数据n在各个第一类特征上的特征相似度进行融合处理,得到交易数据n与交易时间序列中交易数据n对应的历史交易数据之间的相似度信息。
在其中一个实施例中,相似度确定模块530,还用于对交易数据n在各个第一类特征上的特征相似度进行组合,得到交易数据n与交易时间序列中交易数据n对应的历史交易数据之间的特征相似度矩阵;通过预设的调节参数对特征相似度矩阵进行参数化处理,将参数化后的特征相似度矩阵传递给激活函数,得到交易数据n与交易时间序列中交易数据n对应的历史交易数据之间的相似度信息。
在其中一个实施例中,特征聚合模块540,还用于对历史交易数据的各个第二类特征进行标准化处理,得到历史交易数据的各个第二类特征的标准化特征值;分别对历史交易数据中各个交易数据的各个第二类特征的标准化特征值进行组合处理,得到历史交易数据中各个交易数据的第二类组合特征;对历史交易数据中各个交易数据的第二类组合特征与历史交易数据中各个交易数据对应的相似度信息进行聚合处理,得到每个交易数据的聚合特征。
在其中一个实施例中,样本交易数据携带有交易时间;样本获取模块510,还用于将携带有交易时间的样本交易数据输入长短期记忆神经网络中,得到样本交易数据对应的交易时间序列。
在其中一个实施例中,样本获取模块510,还用于获取账户的初始样本交易数据;对初始样本交易数据进行重采样处理,得到重采样后的交易数据,作为样本交易数据。
在其中一个实施例中,初始样本交易数据包括正常交易数据集合和异常交易数据集合;样本获取模块510,还用于对初始样本交易数据中的异常交易数据集合进行过采样处理,得到新的异常交易数据集合;从新的异常交易数据集合中确定出目标异常交易数据,并剔除目标异常交易数据;目标异常交易数据表示与近邻交易数据的类别不同的交易数据;基于剔除目标异常交易数据后的新的异常交易数据集合与初始样本交易数据中的正常交易数据集合,得到重采样后的交易数据。
在其中一个实施例中,所述装置还包括交易检测模块,用于获取待检测交易数据的交易特征;交易特征包括第一类特征和第二类特征;将待检测交易数据的交易特征输入训练完成的异常交易数据检测模型,得到待检测交易数据的异常检测结果。
在一个实施例中,如图6所示,提供了一种异常交易检测装置,包括:
获取模块610,用于获取待检测交易数据的交易特征;所述交易特征包括第一类特征和第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
检测模块620,用于将所述待检测交易数据的交易特征输入训练完成的异常交易数据检测模型,得到所述待检测交易数据的异常检测结果;所述训练完成的异常交易数据检测模型通过上述任一实施例的异常交易检测模型的构建方法训练得到。
上述异常交易检测模型的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储异常交易检测模型的构建过程中的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异常交易检测模型的构建方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (13)
1.一种异常交易检测模型的构建方法,其特征在于,所述方法包括:
获取账户的样本交易数据,以及获取所述样本交易数据对应的交易时间序列;
提取所述交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
根据所述多个第一类特征,获取所述每个交易数据与所述交易时间序列中所述每个交易数据对应的历史交易数据之间的相似度信息;所述每个交易数据对应的历史交易数据包括交易时间早于或等于所述每个交易数据的交易时间的至少一个交易数据;
分别对所述每个交易数据对应的历史交易数据的多个第二类特征与所述历史交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征;
根据所述每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一类特征,获取所述每个交易数据与所述交易时间序列中所述每个交易数据对应的历史交易数据之间的相似度信息,包括:
针对每个交易数据n,获取所述交易数据n与所述交易时间序列中的历史交易数据,分别在各个第一类特征上的特征相似度;
对所述交易数据n在各个第一类特征上的特征相似度进行融合处理,得到所述交易数据n与所述交易时间序列中所述交易数据n对应的历史交易数据之间的相似度信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述交易数据n在各个第一类特征上的特征相似度进行融合处理,得到所述交易数据n与所述交易时间序列中所述交易数据n对应的历史交易数据之间的相似度信息,包括:
对所述交易数据n在各个第一类特征上的特征相似度进行组合,得到所述交易数据n与所述交易时间序列中所述交易数据n对应的历史交易数据之间的特征相似度矩阵;
通过预设的调节参数对所述特征相似度矩阵进行参数化处理,将参数化后的特征相似度矩阵传递给激活函数,得到所述交易数据n与所述交易时间序列中所述交易数据n对应的历史交易数据之间的相似度信息。
4.根据权利要求1所述的方法,其特征在于,所述分别对所述每个交易数据对应的历史交易数据的多个第二类特征与所述历史交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征,包括:
对所述历史交易数据的各个第二类特征进行标准化处理,得到所述历史交易数据的各个第二类特征的标准化特征值;
分别对所述历史交易数据中各个交易数据的各个第二类特征的标准化特征值进行组合处理,得到所述历史交易数据中各个交易数据的第二类组合特征;
对所述历史交易数据中各个交易数据的第二类组合特征与所述历史交易数据中各个交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征。
5.根据权利要求1所述的方法,其特征在于,所述样本交易数据携带有交易时间;所述获取所述样本交易数据对应的交易时间序列,包括:
将携带有交易时间的所述样本交易数据输入长短期记忆神经网络中,得到所述样本交易数据对应的交易时间序列。
6.根据权利要求1所述的方法,其特征在于,所述获取账户的样本交易数据,包括:
获取账户的初始样本交易数据;
对所述初始样本交易数据进行重采样处理,得到重采样后的交易数据,作为所述样本交易数据。
7.根据权利要求6所述的方法,其特征在于,所述初始样本交易数据包括正常交易数据集合和异常交易数据集合;方法
所述对所述初始样本交易数据进行重采样处理,得到重采样后的交易数据,包括:
对所述初始样本交易数据中的异常交易数据集合进行过采样处理,得到新的异常交易数据集合;
从所述新的异常交易数据集合中确定出目标异常交易数据,并剔除所述目标异常交易数据;所述目标异常交易数据表示与近邻交易数据的类别不同的交易数据;
基于剔除所述目标异常交易数据后的新的异常交易数据集合与所述初始样本交易数据中的正常交易数据集合,得到所述重采样后的交易数据。
8.一种异常交易检测方法,其特征在于,所述方法包括:
获取待检测交易数据的交易特征;所述交易特征包括第一类特征和第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
将所述待检测交易数据的交易特征输入训练完成的异常交易数据检测模型,得到所述待检测交易数据的异常检测结果;所述训练完成的异常交易数据检测模型通过权利要求1至7任一项所述的方法训练得到。
9.一种异常交易检测模型的构建装置,其特征在于,所述装置包括:
样本获取模块,用于获取账户的样本交易数据,以及获取所述样本交易数据对应的交易时间序列;
特征提取模块,用于提取所述交易时间序列中每个交易数据的多个第一类特征和多个第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
相似度确定模块,用于根据所述多个第一类特征,获取所述每个交易数据与所述交易时间序列中所述每个交易数据对应的历史交易数据之间的相似度信息;所述每个交易数据对应的历史交易数据包括交易时间早于或等于所述每个交易数据的交易时间的至少一个交易数据;
特征聚合模块,用于分别对所述每个交易数据对应的历史交易数据的多个第二类特征与所述历史交易数据对应的相似度信息进行聚合处理,得到所述每个交易数据的聚合特征;
模型训练模块,用于根据所述每个交易数据的聚合特征,对待训练的异常交易检测模型进行训练,得到训练完成的异常交易检测模型。
10.一种异常交易检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测交易数据的交易特征;所述交易特征包括第一类特征和第二类特征;所述第一类特征表示在有限类别内取值的特征,所述第二类特征表示数值具有连续特性的特征;
检测模块,用于将所述待检测交易数据的交易特征输入训练完成的异常交易数据检测模型,得到所述待检测交易数据的异常检测结果;所述训练完成的异常交易数据检测模型通过权利要求1至7任一项所述的方法训练得到。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的异常交易检测模型的构建方法或权利要求8所述的异常交易检测方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的异常交易检测模型的构建方法或权利要求8所述的异常交易检测方法的步骤。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的异常交易检测模型的构建方法或权利要求8所述的异常交易检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310345476.8A CN116452333A (zh) | 2023-04-03 | 2023-04-03 | 异常交易检测模型的构建方法、异常交易检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310345476.8A CN116452333A (zh) | 2023-04-03 | 2023-04-03 | 异常交易检测模型的构建方法、异常交易检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116452333A true CN116452333A (zh) | 2023-07-18 |
Family
ID=87126928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310345476.8A Pending CN116452333A (zh) | 2023-04-03 | 2023-04-03 | 异常交易检测模型的构建方法、异常交易检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452333A (zh) |
-
2023
- 2023-04-03 CN CN202310345476.8A patent/CN116452333A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
CN111553759A (zh) | 一种产品信息推送方法、装置、设备及存储介质 | |
US20210303970A1 (en) | Processing data using multiple neural networks | |
CN111695719A (zh) | 一种用户价值预测方法及系统 | |
CN111080360B (zh) | 行为预测方法、模型训练方法、装置、服务器及存储介质 | |
CN110264270A (zh) | 一种行为预测方法、装置、设备和存储介质 | |
CN109787958A (zh) | 网络流量实时检测方法及检测终端、计算机可读存储介质 | |
CN114565196B (zh) | 基于政务热线的多事件趋势预判方法、装置、设备及介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
Li et al. | Stock trading strategies based on deep reinforcement learning | |
CN115238969A (zh) | 一种白蚁预防的趋势预测方法、装置、电子设备及介质 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
CN115062779A (zh) | 基于动态知识图谱的事件预测方法及装置 | |
EP4009239A1 (en) | Method and apparatus with neural architecture search based on hardware performance | |
CN113435900A (zh) | 交易风险确定方法、装置和服务器 | |
US20240161117A1 (en) | Trigger-Based Electronic Fund Transfers | |
CN115471260A (zh) | 基于神经网络的销售预测方法、装置、设备及介质 | |
CN114756720A (zh) | 时序数据的预测方法及装置 | |
CN114529399A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN116452333A (zh) | 异常交易检测模型的构建方法、异常交易检测方法及装置 | |
CN116249987A (zh) | 具有更新向量的基于图学习的系统 | |
CN114662570A (zh) | 业务风险预测方法、装置、计算机设备与存储介质 | |
CN114219184A (zh) | 产品交易数据预测方法、装置、设备、介质和程序产品 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
US11004156B2 (en) | Method and system for predicting and indexing probability of financial stress |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |