CN116541742A - 一种基于动态序列规整的异常交易行为识别方法及系统 - Google Patents
一种基于动态序列规整的异常交易行为识别方法及系统 Download PDFInfo
- Publication number
- CN116541742A CN116541742A CN202310337957.4A CN202310337957A CN116541742A CN 116541742 A CN116541742 A CN 116541742A CN 202310337957 A CN202310337957 A CN 202310337957A CN 116541742 A CN116541742 A CN 116541742A
- Authority
- CN
- China
- Prior art keywords
- transaction
- data
- time
- sequence
- transaction amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 35
- 230000006399 behavior Effects 0.000 claims abstract description 77
- 238000007781 pre-processing Methods 0.000 claims abstract description 27
- 238000010606 normalization Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 238000009499 grossing Methods 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 230000008859 change Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2131—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on a transform domain processing, e.g. wavelet transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及基于动态序列规整的异常交易行为识别方法,所述方法包括:获取用户基础交易数据;将交易数据进行分类,根据实际业务需求划分为二维序列数据集;对时域数据进行预处理,所述预处理包括交易金额分桶、交易金额平滑、交易金额标准化、交易时间序列填充、时间指数衰减中的任意处理模块组合;通过傅里叶变化或数值计数变化将交易行为从时域映射到频域;根据实际业务需求将频域数据进行预处理,形成用户二维序列数据集;构建二维核序列,通过动态序列规整算法计算所有用户行为数据之间聚类,得出用户标签数据;对用户标签数据进行抽样判断,确定用户标签数据是否为异常交易行为。该方法可提高对异常交易行为识别的效率和准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于动态序列规整的异常交易行为识别方法及系统。
背景技术
异常交易识别最主要的挑战在于复杂性和多样性,所谓复杂性在于异常交易通常包括一系列不同的交易目的和交易手段;所谓多样性表现在多卡片、多地区、多机构之间并发或继发的多样性,银行作为其中的一个环节,并不能以上帝视角来通观全局。
目前针对金融业客户交易行为模式分析识别的方式,主要包括时序识别技术、特征挖掘技术和经验规则技术,各项技术均有其无法克服的局限性:
1.时序识别技术:针对基于时序的异常行为识别所带来的局限性表现在异常交易往往穿插在正常交易之间,而往往专用于不正当行为的某些账户或卡片偶尔也可能会用于日常生活消费。在实际应用中,基于时序并不能很好的识别出应当识别出的可疑行为,甚至还会出现较多的错报和误报,带来一系列不必要的困扰。
2.特征挖掘技术:目前而言,较为优秀的模态识别方法就是基于无监督的聚类方式,但是目前市面上所采用的基于数据挖掘和特征工程的行为指标构建方式,一方面将带来巨大的工作量和数据量,导致工程的复杂和繁琐;另一方面漫无目的的挖掘并非一定能挖掘出最为核心关键的异常交易行为指标,造成大量无用功,效率低下。
3.经验规则技术:针对基于现有标签或专家经验规则来推断可疑交易行为模态,缺点是无法在复杂多样的未知模态中进行区分,从而带来更多的漏报。针对电话诈骗、恐怖融资、地下钱庄和行贿受贿等不同类型的犯罪,其交易模式、交易金额和交易频率通常呈现出不同的特征,这决定了很大一部分常规认知以外的异常交易行为模式无法以现有人工认知或者专家规则进行囊括,因此,基于现有行为标签形态的有监督的机器学习无法在此种条件下带来理想的效果。
发明内容
为解决现有技术的不足,本发明提出一种基于动态序列规整的异常交易行为识别方法及系统,提高对异常交易行为识别的效率和准确率。
为实现以上目的,本发明所采用的技术方案包括:
本发明第一方面公开了一种基于动态序列规整的异常交易行为识别方法,包括:
一种基于动态序列规整的异常交易行为识别方法,包括:
步骤S1、获取用户基础交易数据;
步骤S2、将交易数据进行分类,根据实际业务需求划分为二维序列数据集,其中,交易时间为横轴,交易金额为纵轴;
步骤S3、对时域数据进行预处理,根据实际业务需求,所述预处理包括交易金额分桶、交易金额平滑、交易金额标准化、交易时间序列填充、时间指数衰减中的任意处理模块组合;
步骤S4、通过傅里叶变化或数值计数变化将交易行为从时域映射到频域;
步骤S5、根据实际业务需求将频域数据进行预处理,形成用户二维序列数据集;
步骤S6、构建二维核序列,通过动态序列规整算法计算所有用户行为数据之间聚类,得出用户标签数据;
步骤S7、对用户标签数据进行抽样判断,确定用户标签数据是否为异常交易行为。
进一步地,所述步骤S1中,所述用户基础交易数据包括交易时间、交易金额、收付标志、交易对手,其中,过滤掉金融理财保险交税类型的交易以及非主动交易类型的交易。
进一步地,所述步骤S2中,将交易数据划分为贷方和借方,贷方的交易金额设置为正值,借方的交易金额设置为负值,以交易时间为横轴,交易金额为纵轴,将贷方和借方的数据形成二维序列数据集。
进一步地,所述步骤S3中,所述预处理包括:
交易金额分桶,包括对于交易金额[M0,M1,M2...,Mi-1,Mi],设置分桶区间[N0,N1,N2,...,Nn-1,Nn],对于任意交易金额Mk,如果Mk属于(Nn-1,Nn]区间,则Mk分桶取值为Nn-1,其中M、N、i、n为任意实数,且N0≤M0≤Mi≤Nn;
交易金额平滑,包括对于交易金额[M0,M1,M2,...,Mi-1,Mi],有交易时间[T0,T1,T2...,Ti-1,Ti],对于任意交易(Mk,Tk),取[(Mk-1,Tk-1)、(Mk,Tk)、(Mk+1,Tk+1)],则Mk平滑后的交易金额Mk=(Mk-1+Mk+Mk+1)/3,其中,M、i为任意实数,T为任意时间维度;
交易金额标准化,包括对于交易金额[M0,M1,M2,...,Mi-1,Mi],有标准差Std和平均值Mean,对于任意Mk,则有标准化后金额Mk=(Mk-Mean)/Std;
交易时间序列填充,包括对交易金额按照时间粒度T进行分组求和,其中,对于缺失时间粒度的交易金额填充为0,T包括年、月、日、小时、分钟;
时间指数衰减,包括以分析统计时间为起始时间T0,对于起始时间前Tn个时间单位记作T0-Tn,对于T0的衰减率记作N0,到达T0-Tn时刻衰减率记作Nn,其中,N0≥Nn,Bias为起始时间后开始衰减的位置,通过以下公式解出参数:
计算Tt时段指数衰减比例Nt为:
N(t)=N0e-α(t+l)
其中,0≤Nt≤1,对于Tt时段发生的交易(T0,T1,...,Ts)按照衰减比例Nt进行随机剔除。
进一步地,所述步骤S4包括:
对时域规整后区间为Fm的数据进行快速傅里叶变换按照采样周期△t进行采样,△t为时间粒度T的整数倍,傅里叶变换公式如下:
其中,k=0,…n-1,单频率线性采样频率由指数函数表示:
am=exp{2πfmΔt}。
进一步地,所述步骤S6包括以下子步骤:
步骤S61、构建y个用户二维序列X,{X1(Sx1_1,Sx1_2),X2(Sx2_1,Sx2_2),...,Xy(Sxy_1,Sxy_2)},y表示所有用户个数,S表示用户行为序列;
步骤S62、构建i个随机二维核序列Z,{Z1(Sz1_1,Sz1_2),Z2(Sz2_1,Sz2_2),...,Zi(Szi_1,Szi_2)},其中,Sxymin≤Szi≤Sxymax,且0<i<y;
步骤S63、通过动态序列规整算法计算得出所有X和所有Z之间的Dres,依次将X归入最小Dres的Z中,使X有唯一的一个Z标签表示;
步骤S64、初始化全部的Z,用标签为Z1的全部X集合的平均值重新赋值给Z1_new,用标签为Z2的全部X集合的平均值重新赋值给Z2_new,…,用标签为Zi的全部X集合的平均值重新赋值给Zi_new;直至二维核序列Z的变化在一定范围内,停止迭代,并保存模型。
进一步地,所述通过频域动态规划相似度计算得出所有X和所有Z之间的Dres,计算公式如下:
其中,max(y,i)≤k≤y+i-1,wk=D(i,j)k,K表示对不同长度的规整路径作补偿。
本发明第二方面公开了一种基于动态序列规整的异常交易行为识别系统,包括:
数据获取模块,用于获取用户基础交易数据;将交易数据进行分类,根据实际业务需求划分为二维序列数据集,其中,交易时间为横轴,交易金额为纵轴;
时域数据预处理模块,用于对时域数据进行预处理,根据实际业务需求,所述预处理包括交易金额分桶、交易金额平滑、交易金额标准化、交易时间序列填充、时间指数衰减中的任意处理模块组合;
交易行为映射模块,用于通过傅里叶变化或数值计数变化将交易行为从时域映射到频域;用于根据实际业务需求将频域数据进行预处理,形成二维序列数据集;
聚类计算模块,用于构建二维核序列,通过频域动态规划相似度计算所有用户之间聚类,得出用户标签数据;对用户标签数据进行抽样判断,确定所述用户标签数据是否为异常交易行为。
本发明第三方面公开了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
本发明第四方面公开了一种电子设备,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所诉操作指令,执行上述的方法。
本发明的有益效果为:
采用本发明所述基于动态序列规整的异常交易行为识别方法及系统,该方法主要关注异常交易行为的交易金额、交易频率和交易模式三个最基础指标,使得数据在交易行为最核心的部位进行聚焦;其次,利用傅里叶变换(FFT)将客户全量有效的时序交易行为映射到频域,加入时间衰减指数并进行分箱和平滑化处理,变化后的交易行为数据将更好的聚焦在当前时间阶段而弱化历史交易行为和其他非有效交易行为的影响,能够解决时间序列下交易行为之间交易目的相同、但交易行为的表现形式不相同的问题,从而提高交易行为模态识别的密集度;然后,利用无规则聚类模型训练的方式,并利用动态序列规整(DSW)来计算经过标准化后的各个用户行为数据之间的差距,保证了交易行为频域序列数据在规整后的行为拉伸不变和平移不变性,最终聚类成有一个个有效的交易行为标签。
附图说明
图1为本发明实施例提供的基于动态序列规整的异常交易行为识别方法流程示意图。
图2为本发明实施例提供的基于动态序列规整的异常交易行为识别系统结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明第一方面涉及一种流程如图1所示的基于动态序列规整的异常交易行为识别方法,具体包括:
步骤S1、获取用户基础交易数据。
其中,所述用户基础交易数据包括交易时间、交易金额、收付标志、交易对手,并过滤掉金融理财保险交税类型的交易以及非主动交易类型的交易(自动还款、自动结息、自动结汇)。
步骤S2、将交易数据进行分类,根据实际业务需求划分为二维序列数据集,其中,交易时间为横轴,交易金额为纵轴。
优选的,将交易数据划分为贷方和借方,贷方的交易金额设置为正值,借方的交易金额设置为负值,以交易时间为横轴,交易金额为纵轴,将贷方和借方的数据形成二维序列数据集。
对于其它业务,也可采用上述方法并根据实际业务需求划分为多维序列数据集,此处不再展开说明。
步骤S3、对时域数据进行预处理,根据实际业务需求,所述预处理包括交易金额分桶、交易金额平滑、交易金额标准化、交易时间序列填充、时间指数衰减中的任意处理模块组合。各个模处理模块的具体方法如下:
交易金额分桶,包括对于交易金额[M0,M1,M2...,Mi-1,Mi],设置分桶区间[N0,N1,N2,...,Nn-1,Nn],对于任意交易金额Mk,如果Mk属于(Nn-1,Nn]区间,则Mk分桶取值为Nn-1,其中M、N、i、n为任意实数,且N0≤M0≤Mi≤Nn;
交易金额平滑,包括对于交易金额[M0,M1,M2,...,Mi-1,Mi],有交易时间[T0,T1,T2...,Ti-1,Ti],对于任意交易(Mk,Tk),取[(Mk-1,Tk-1)、(Mk,Tk)、(Mk+1,Tk+1)],则Mk平滑后的交易金额Mk=(Mk-1+Mk+Mk+1)/3,其中,M、i为任意实数,T为任意时间维度;
交易金额标准化,包括对于交易金额[M0,M1,M2,...,Mi-1,Mi],有标准差Std和平均值Mean,对于任意Mk,则有标准化后金额Mk=(Mk-Mean)/Std;
交易时间序列填充,包括对交易金额按照时间粒度T进行分组求和,其中,对于缺失时间粒度的交易金额填充为0,T包括年、月、日、小时、分钟;
时间指数衰减,包括以分析统计时间为起始时间T0,对于起始时间前Tn个时间单位记作T0-Tn,对于T0的衰减率记作N0,到达T0-Tn时刻衰减率记作Nn,其中,N0≥Nn,Bias为起始时间后开始衰减的位置,通过以下公式解出参数:
计算Tt时段指数衰减比例Nt为:
N(t)=N0e-α(t+l)
其中,0≤Nt≤1,对于Tt时段发生的交易(T0,T1,...,Ts)按照衰减比例Nt进行随机剔除。
以上时域数据预处理过程,可以根据实际数据情况选取合适的处理模块,并调整模块的流程。
步骤S4、通过傅里叶变化或数值计数变化将交易行为从时域映射到频域。
本实施例优选地,对时域规整后区间为Fm的数据进行快速傅里叶变换按照采样周期△t进行采样,△t为时间粒度T的整数倍,傅里叶变换公式如下:
其中,k=0,…n-1,单频率线性采样频率由指数函数表示:
am=exp{2πfmΔt}。
步骤S5、根据实际业务需求将频域数据进行预处理,形成用户二维序列数据集。
具体地,将借、贷两个数据集进行合并处理,形成用户二维序列数据集。
对于其它业务,也可采用上述方法并根据实际业务需求划分为多维序列数据集,此处不再展开说明。
步骤S6、构建二维核序列,通过动态序列规整算法计算所有用户行为数据之间聚类,得出用户标签数据。
本实施例优选地,通过Kmeans聚类和动态序列规整算法计算所有用户行为数据之间聚类,具体包括以下步骤:
步骤S61、构建y个用户二维序列X,{X1(Sx1_1,Sx1_2),X2(Sx2_1,Sx2_2),...,Xy(Sxy_1,Sxy_2)},y表示所有用户个数,S表示用户行为序列;
步骤S62、构建i个随机二维核序列Z,{Z1(Sz1_1,Sz1_2),Z2(Sz2_1,Sz2_2),...,Zi(Szi_1,Szi_2)},其中,Sxymin≤Szi≤Sxymax,且0<i<y;
步骤S63、通过动态序列规整算法计算得出所有X和所有Z之间的Dres,依次类推,依次将X归入最小Dres的Z中,使X有唯一的一个Z标签表示;示例性的,{X1,X2,..,Xn}归属于Z1,{X5,X6,..,Xm}归属于Z2,{X9,X10,...,Xi}归属于Zi;
步骤S64、初始化全部的Z,用标签为Z1的全部X集合的平均值重新赋值给Z1_new,用标签为Z2的全部X集合的平均值重新赋值给Z2_new,…,用标签为Zi的全部X集合的平均值重新赋值给Zi_new;直至二维核序列Z的变化在一定范围内,停止迭代,并保存模型。
其中,所述通过频域动态规划相似度计算得出所有X和所有Z之间的Dres,包括构造距离矩阵D(m,n)表示,Xi和Zj两个点之间的距离D(i,j),得出X和Z所有点之间的距离矩阵,找到通过D(0,0)到D(m,n)的网格路径,将这条路径作为规整路径W,并将路径中数值求和的最小值,作为最终结果Dres,计算公式如下:
其中,max(y,i)≤k≤y+i-1,wk=D(i,j)k,K表示对不同长度的规整路径作补偿。
可选地,构建不同的核序列进行计算,利用“肘部法”确定当前阶段的最佳分类,寻找在较少分类条件下所有分类损失最小的值,所述分类损失用所有标签的Dres求和表示。
可选地,对于二维以上的客户序列,则相应的增加客户序列维度和核序列维度。
其中,聚类的方式包括但不限于Kmeans、DBscan、GMM等方式。
步骤S7、对用户标签数据进行抽样判断,确定用户标签数据是否为异常交易行为。具体地,结合客户身份和交易行为,若抽样数据正常,则将该用户标签数据视为正常,若抽样数据异常,则将该用户标签数据视为异常。
采用本发明所述基于动态序列规整的异常交易行为识别方法及系统,该方法主要关注异常交易行为的交易金额、交易频率和交易模式三个最基础指标,使得数据在交易行为最核心的部位进行聚焦;其次,利用傅里叶变换(FFT)将客户全量有效的时序交易行为映射到频域,加入时间衰减指数并进行分箱和平滑化处理,变化后的交易行为数据将更好的聚焦在当前时间阶段而弱化历史交易行为和其他非有效交易行为的影响,能够解决时间序列下交易行为之间交易目的相同、但交易行为的表现形式不相同的问题,从而提高交易行为模态识别的密集度;然后,利用无规则聚类模型训练的方式,并利用动态序列规整(DSW)来计算经过标准化后的各个用户行为数据之间的差距,保证了交易行为频域序列数据在规整后的行为拉伸不变和平移不变性,最终聚类成有一个个有效的交易行为标签。
本发明还涉及一种如图2所示的基于动态序列规整的异常交易行为识别系统,结构包括:
数据获取模块,用于获取用户基础交易数据;将交易数据进行分类,根据实际业务需求划分为二维序列数据集,其中,交易时间为横轴,交易金额为纵轴;
时域数据预处理模块,用于对时域数据进行预处理,根据实际业务需求,所述预处理包括交易金额分桶、交易金额平滑、交易金额标准化、交易时间序列填充、时间指数衰减中的任意处理模块组合;
交易行为映射模块,用于通过傅里叶变化或数值计数变化将交易行为从时域映射到频域;用于根据实际业务需求将频域数据进行预处理,形成二维序列数据集;
聚类计算模块,用于构建二维核序列,通过频域动态规划相似度计算所有用户之间聚类,得出用户标签数据;对用户标签数据进行抽样判断,确定所述用户标签数据是否为异常交易行为。
通过使用该系统,能够执行上述的基于动态序列规整的异常交易行为识别方法并实现对应的技术效果。
本发明的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤。
本发明的实施例还提供一种用于执行上述方法的电子设备,作为该方法的实现装置,所述电子设备至少具备有处理器和存储器,特别是该存储器上存储有执行方法所需的数据和相关的计算机程序,并通过由处理器调用存储器中的数据、程序执行实现方法的全部步骤,并获得对应的技术效果。
优选的,该电子设备可以包含有总线架构,总线可以包括任意数量的互联的总线和桥,总线将包括由一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和接收器和发送器之间提供接口。接收器和发送器可以是同一个元件,即收发机,提供用于在传输介质上与各种其他系统通信的单元。处理器负责管理总线和通常的处理,而存储器可以被用于存储处理器在执行操作时所使用的数据。
额外的,所述电子设备还可以进一步包括通信模块、输入单元、音频处理器、显示器、电源等部件。其所采用的处理器(或称为控制器、操作控件)可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器接收输入并控制电子设备的各个部件的操作;存储器可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种,可储存上述有关的数据信息,此外还可存储执行有关信息的程序,并且处理器可执行该存储器存储的该程序,以实现信息存储或处理等;输入单元用于向处理器提供输入,例如可以为按键或触摸输入装置;电源用于向电子设备提供电力;显示器用于进行图像和文字等显示对象的显示,例如可为LCD显示器。通信模块即为经由天线发送和接收信号的发送机/接收机。通信模块(发送机/接收机)耦合到处理器,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)还经由音频处理器耦合到扬声器和麦克风,以经由扬声器提供音频输出,并接收来自麦克风的音频输入,从而实现通常的电信功能。音频处理器可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器还耦合到中央处理器,从而使得可以通过麦克风能够在本机上录音,且使得可以通过扬声器来播放本机上存储的声音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
以上所述仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换等都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (10)
1.一种基于动态序列规整的异常交易行为识别方法,其特征在于,包括:
步骤S1、获取用户基础交易数据;
步骤S2、将交易数据进行分类,根据实际业务需求划分为二维序列数据集,其中,交易时间为横轴,交易金额为纵轴;
步骤S3、对时域数据进行预处理,根据实际业务需求,所述预处理包括交易金额分桶、交易金额平滑、交易金额标准化、交易时间序列填充、时间指数衰减中的任意处理模块组合;
步骤S4、通过傅里叶变化或数值计数变化将交易行为从时域映射到频域;
步骤S5、根据实际业务需求将频域数据进行预处理,形成用户二维序列数据集;
步骤S6、构建二维核序列,通过动态序列规整算法计算所有用户行为数据之间聚类,得出用户标签数据;
步骤S7、对用户标签数据进行抽样判断,确定用户标签数据是否为异常交易行为。
2.如权利要求1所述的方法,其特征在于,所述步骤S1中,所述用户基础交易数据包括交易时间、交易金额、收付标志、交易对手,其中,过滤掉金融理财保险交税类型的交易以及非主动交易类型的交易。
3.如权利要求1所述的方法,其特征在于,所述步骤S2中,将交易数据划分为贷方和借方,贷方的交易金额设置为正值,借方的交易金额设置为负值,以交易时间为横轴,交易金额为纵轴,将贷方和借方的数据形成二维序列数据集。
4.如权利要求1所述的方法,其特征在于,所述步骤S3中,所述预处理包括:
交易金额分桶,包括对于交易金额[M0,M1,M2...,Mi-1,Mi],设置分桶区间[N0,N1,N2,...,Nn-1,Nn],对于任意交易金额Mk,如果Mk属于(Nn-1,Nn]区间,则Mk分桶取值为Nn-1,其中M、N、i、n为任意实数,且N0≤M0≤Mi≤Nn;
交易金额平滑,包括对于交易金额[M0,M1,M2,...,Mi-1,Mi],有交易时间[T0,T1,T2...,Ti-1,Ti],对于任意交易(Mk,Tk),取[(Mk-1,Tk-1)、(Mk,Tk)、(Mk+1,Tk+1)],则Mk平滑后的交易金额Mk=(Mk-1+Mk+Mk+1)/3,其中,M、i为任意实数,T为任意时间维度;
交易金额标准化,包括对于交易金额[M0,M1,M2,...,Mi-1,Mi],有标准差Std和平均值Mean,对于任意Mk,则有标准化后金额Mk=(Mk-Mean)/Std;
交易时间序列填充,包括对交易金额按照时间粒度T进行分组求和,其中,对于缺失时间粒度的交易金额填充为0,T包括年、月、日、小时、分钟;
时间指数衰减,包括以分析统计时间为起始时间T0,对于起始时间前Tn个时间单位记作T0-Tn,对于T0的衰减率记作N0,到达T0-Tn时刻衰减率记作Nn,其中,N0≥Nn,Bias为起始时间后开始衰减的位置,通过以下公式解出参数:
计算Tt时段指数衰减比例Nt为:
N(t)=N0e-α(t+l)
其中,0≤Nt≤1,对于Tt时段发生的交易(T0,T1,...,Ts)按照衰减比例Nt进行随机剔除。
5.如权利要求1所述的方法,其特征在于,所述步骤S4包括:
对时域规整后区间为Fm的数据进行快速傅里叶变换按照采样周期△t进行采样,△t为时间粒度T的整数倍,傅里叶变换公式如下:
其中,k=0,…n-1,单频率线性采样频率由指数函数表示:
am=exp{2πfmΔt}。
6.如权利要求1至5任一项所述的方法,其特征在于,所述步骤S6包括以下子步骤:
步骤S61、构建y个用户二维序列X,{X1(Sx1_1,Sx1_2),X2(Sx2_1,Sx2_2),...,Xy(Sxy_1,Sxy_2)},y表示所有用户个数,S表示用户行为序列;
步骤S62、构建i个随机二维核序列Z,{Z1(Sz1_1,Sz1_2),Z2(Sz2_1,Sz2_2),...,Zi(Szi_1,Szi_2)},其中,Sxymin≤Szi≤Sxymax,且0<i<y;
步骤S63、通过动态序列规整算法计算得出所有X和所有Z之间的Dres,依次将X归入最小Dres的Z中,使X有唯一的一个Z标签表示;
步骤S64、初始化全部的Z,用标签为Z1的全部X集合的平均值重新赋值给Z1_new,用标签为Z2的全部X集合的平均值重新赋值给Z2_new,…,用标签为Zi的全部X集合的平均值重新赋值给Zi_new;直至二维核序列Z的变化在一定范围内,停止迭代,并保存模型。
7.如权利要求6所述的方法,其特征在于,所述通过频域动态规划相似度计算得出所有X和所有Z之间的Dres,计算公式如下:
其中,max(y,i)≤k≤y+i-1,wk=D(i,j)k,K表示对不同长度的规整路径作补偿。
8.一种基于动态序列规整的异常交易行为识别系统,其特征在于,包括:
数据获取模块,用于获取用户基础交易数据;将交易数据进行分类,根据实际业务需求划分为二维序列数据集,其中,交易时间为横轴,交易金额为纵轴;
时域数据预处理模块,用于对时域数据进行预处理,根据实际业务需求,所述预处理包括交易金额分桶、交易金额平滑、交易金额标准化、交易时间序列填充、时间指数衰减中的任意处理模块组合;
交易行为映射模块,用于通过傅里叶变化或数值计数变化将交易行为从时域映射到频域;用于根据实际业务需求将频域数据进行预处理,形成二维序列数据集;
聚类计算模块,用于构建二维核序列,通过频域动态规划相似度计算所有用户之间聚类,得出用户标签数据;对用户标签数据进行抽样判断,确定所述用户标签数据是否为异常交易行为。
9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
10.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310337957.4A CN116541742A (zh) | 2023-03-31 | 2023-03-31 | 一种基于动态序列规整的异常交易行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310337957.4A CN116541742A (zh) | 2023-03-31 | 2023-03-31 | 一种基于动态序列规整的异常交易行为识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116541742A true CN116541742A (zh) | 2023-08-04 |
Family
ID=87447922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310337957.4A Pending CN116541742A (zh) | 2023-03-31 | 2023-03-31 | 一种基于动态序列规整的异常交易行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541742A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455497A (zh) * | 2023-11-12 | 2024-01-26 | 北京营加品牌管理有限公司 | 一种交易风险检测方法及装置 |
CN118379127A (zh) * | 2024-06-21 | 2024-07-23 | 青岛场外市场清算中心有限公司 | 一种基于大数据的跨行资金清算处理方法及系统 |
-
2023
- 2023-03-31 CN CN202310337957.4A patent/CN116541742A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455497A (zh) * | 2023-11-12 | 2024-01-26 | 北京营加品牌管理有限公司 | 一种交易风险检测方法及装置 |
CN118379127A (zh) * | 2024-06-21 | 2024-07-23 | 青岛场外市场清算中心有限公司 | 一种基于大数据的跨行资金清算处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Paleologo et al. | Subagging for credit scoring models | |
US8332338B2 (en) | Automated entity identification for efficient profiling in an event probability prediction system | |
US9697248B1 (en) | Supervised machine learning of data de-duplication | |
CN110751557B (zh) | 一种基于序列模型的异常资金交易行为分析方法及系统 | |
CN116541742A (zh) | 一种基于动态序列规整的异常交易行为识别方法及系统 | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
CN111428217A (zh) | 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质 | |
CN110533527A (zh) | 一种信贷风险动态评估方法、系统、介质和设备 | |
US20220351207A1 (en) | System and method for optimization of fraud detection model | |
CN108629685A (zh) | 贷款产品属性确定方法及服务器 | |
CN114781937A (zh) | 一种预付卡企业风险预警方法和装置以及存储介质 | |
CN117764706A (zh) | 一种风险识别方法、装置及电子设备 | |
CN109242165A (zh) | 一种模型训练及基于模型训练的预测方法及装置 | |
CN109271415B (zh) | 一种征信数据库的数据处理方法及装置 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
US11922352B1 (en) | System and method for risk tracking | |
CN114265835A (zh) | 基于图挖掘的数据分析方法、装置及相关设备 | |
CN113095392A (zh) | 异常业务识别方法及装置 | |
CN118014582A (zh) | 交易风险确定方法及装置 | |
CN112329862A (zh) | 基于决策树的反洗钱方法及系统 | |
CN112101950B (zh) | 可疑交易监测模型特征提取方法及装置 | |
CN114881783A (zh) | 一种异常卡识别方法、装置、电子设备及存储介质 | |
CN114298825A (zh) | 还款积极度评估方法及装置 | |
CN112905647A (zh) | 业务行为的识别方法、电子设备以及存储介质 | |
CN110738561A (zh) | 一种基于特征分类的业务管理方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |