发明内容
为了克服上述现有技术中的不足,本发明提供一种基于异构金融特征的异常交易识别方法,方法包括:
步骤一,对输入的原始金融交易流水数据集,进行数据预处理;数据预处理方式为数据清洗和数据格式归一化处理,以及关键项数据提取,得到关键项数据集合D;构建信息数据集Dtp和账号信息数据集Dc;
步骤二,基于交易对信息数据集Dtp,构建交易熵特征向量数据集合DtpH;
步骤三,基于交易熵特征向量数据集DtpH和账号信息数据集Dc,构建数据集的异构金融特征向量集DtpISO;
步骤四,基于异构金融特征向量数据集DtpISO,构建训练集Train,以及分别构建三种基分类器模型,然后构建最终的VoteClassifierModel投票分类器预测模型;
步骤五,账号检测识别,对于待检测金融交易流水信息数据集根据步骤一进行预处理操作,得到预处理操作结果关键项数据集Dtest,进而提取出交易对信息数据集和账号信息数据集构建交易熵特征向量数据集基于步骤三,基于和数据,计算多维异构特征值,构建异构金融特征向量数据集将输入构建好的VoteClassifierModel投票分类器模型中,进行分类预测,得到最终检测识别结果即对应交易对为传销交易关系的异常概率。
优选地,在步骤一中,提取交易流水中的交易卡号、交易日期、交易金额、摘要说明以及对手账号关键信息项;将交易卡号作为用户的身份标识,交易账号默认为用户交易卡号;基于关键项信息数据集进行数据清洗和格式归一化操作,将带有“进出”标志位的交易金额数据转换成带有正负号的数值,‘进’为正数,‘出’为负数;清洗掉交易金融项绝对值小于50的交易流水数据与交易卡号为空的数据;然后将交易日期按“YYYYMMDDhhmmss”格式进行归一化处理;
经过数据清洗和格式归一化操作后,基于关键项信息数据集,分别构建交易对信息数据集和账号信息数据集。
优选地,步骤一中交易对信息数据集构建方法为:
1)统计关键项信息数据集中交易对集合TransPair={tp1,tp2,...,tpn},其中n为交易对总数,不重复计数;其中,tpi为一条关键性交易流水数据中的交易账号ci与其交易对手账号加逗号分隔符拼接后生成的交易对标识ID;
2)以tpi为键值key,即交易对标识ID,tpi∈TransPair,以tpi对应的全部交易流水关键项数据构建列表这里j仅表示列表中某个元素的下标;将列表中元素按交易日期项即time由小到大进行排序,更新为排序后结果列表;
3)重复步骤2),得到交易对信息数据集其中n为交易对总数;若则
优选地,步骤一中账号信息数据集构建方法为:
1)统计关键项信息数据集中卡号集合C={c1,c2,...,cn},其中n为卡号总数,不重复计数;
2)以卡号ci为键值key,即账号标识ID,ci∈C,以ci对应的交易流水信息构建列表这里j仅表示列表中某个元素的下标。将列表中元素按交易日期项即time由小到大进行排序,更新为排序后结果列表;
3)重复步骤2),得到账号信息数据集其中n为卡号总数;若则
优选地,步骤二中交易熵特征向量的获取步骤如下:
1)按照列表元素的time项中月日类别对该列表元素进行集合划分,得 k为中出现的月日类别数,清洗掉Dtp数据集中k值小于2的ltp数据;
2)接步骤1),基于MDi,在计算H(attr)时,pattri中的TF(attri)计算时只考虑属性值attri在列表中出现的概率,即只可以使用mdj之前的md列表的交易,而当前及之后的交易都不考虑在内,j=2,...,k;将当前月日交易列表mdj加入到H(attr)的计算中获得目前的熵newH(attr);则定义差值熵attrHj为:
attrHj=H(attr)-newH(attr)
3)假设不同属性的概率分布是相互独立的,此时有联合熵H(X,Y)=H(X)+H(Y)成立;则,对attr∈{time,money,summary},定义交易熵tranHj为这3个属性差值熵的联合熵,即:
tranHj=timeHj+moneyHj+summaryHj
4)针对交易流水序列,根据步骤1)和步骤2)计算交易熵tranHj,由j=1开始,然后j=j+1,直到j=k结束,取tranH0=tranH1=0;
5)经过步骤3),得到TranHi=(tranH1,...,tranHk),TranHi即为交易对tpi的交易流水序列对应的交易熵初始特征;
6)针对步骤5)所得的TranHi,采用长度为10、步长为5的滑窗对tranH由前向后进行数据分割;TranHi长度大于10时,若最后一个滑窗包含的数据长度不足10但大于2,则进行补0操作;否则,舍弃此部分数据;TranHi长度小于10时,进行补0操作;生成有即属于tpi的交易熵特征向量集合;
7)接步骤6),由构建交易熵特征向量数据集DtpH,交易对tpi对应交易熵特征向量集合元素指定编码ID后重构数据 中,交易熵特征向量由交易对tpi和编号j共同标识。
优选地,步骤三中交易对tpi操作高频月份和操作高频日交易金额统计特征计算步骤如下:
1)根据账号信息数据集构建方法得,账号信息数据集其中n为卡号总数,若则这里j仅表示列表中某个元素的下标;
2)根据步骤1),分别计算交易对tpi中交易账号ci和交易对手账号ci%对应的交易流水列表中交易数最多的月份和日,作为交易对的高频交易月topm和高频交易日topd,然后获取高频交易月、日对应的交易金额项子列表
3)分别计算交易对tpi交易金额项子列表中的金额统计特征中位数me、众数mo、平均数ave、标准差std,得到交易对tpi对应的金额统计特征向量
优选地,步骤三中交易对交易活跃度特征计算步骤如下:
1)交易偏差率为交易对tpi交易流水数(即列表长度)与Dtp数据集中交易对平均交易数的差值dvalue_i与Dtp这一差值中的最大值dvalue_max的比值。交易对tpi的交易偏差率计算公式如下:
2)交易频率为交易对tpi交易数分别占交易对tpi中交易账号ci的交易数交易对手账号的交易数的比重。交易对tpi的交易频率计算公式如下:
和
3)交易对交易活跃度特征由其交易偏差率和交易频率共同衡量,可得交易对tpi交易活跃度特征向量为
优选地,步骤三中异构金融特征向量的构建方法为,基于交易熵特征向量构建步骤可得,交易熵特征向量数据集DtpH,交易对tpi对应交易熵特征向量数据 其中 中,交易熵特征由交易对tpi和编号j共同标识;则在DtpH数据集基础上,拼接tpi对应的交易活跃度特征向量和金额统计特征向量;由异构特征拼接生成的异构金融特征向量数据集为DtpISO,则交易对tpi对应的异构金融特征向量数据为 其中异构金融特征向量一条ISOj特征向量由交易对tpi与编号j共同标识。
一种实现基于异构金融特征的异常交易识别方法的设备,包括:
存储器,用于存储计算机程序及基于异构金融特征的异常交易识别方法;
处理器,用于执行所述计算机程序及基于异构金融特征的异常交易识别方法,以实现基于异构金融特征的异常交易识别方法的步骤。
一种具有基于异构金融特征的异常交易识别方法的计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现基于异构金融特征的异常交易识别方法的步骤。
从以上技术方案可以看出,本发明具有以下优点:
本发明提供了一种基于异构金融特征的异常交易识别方法,方法能够利用疑似异常或与某些确定异常账号相关的大量待检测金融交易流水信息数据,提取自定义交易熵特征和交易活跃度、金额统计特征,并构建异构金融特征向量表示,然后基于异构特征向量利用投票分类器进行待检测交易账号是否为传销异常交易关系的分类识别。
本发明提出的可疑金融交易关系识别方法利用金融交易流水数据实现了对交易主体复杂行为规律特征的较丰富的抽象和表达,可以取得较好的异常金融交易关系检测识别效果。本方法提供的异常金融交易关系检测结果可以辅助相关工作人员进行传销等异常金融活动的侦查研判,在一定程度上可以提高工作效率、缩小研判范围以及提高研判准确率。
具体实施方式
本发明提供一种基于异构金融特征的异常交易识别方法,如图1所示,方法包括:
S1,对输入的原始金融交易流水数据集,进行数据预处理;数据预处理方式为数据清洗和数据格式归一化处理,以及关键项数据提取,得到关键项数据集合D;构建信息数据集Dtp和账号信息数据集Dc;
S2,基于交易对信息数据集Dtp,构建交易熵特征向量数据集合DtpH;
S3,基于交易熵特征向量数据集DtpH和账号信息数据集Dc,构建数据集的异构金融特征向量集DtpISO;
S4,基于异构金融特征向量数据集DtpISO,构建训练集Train,以及分别构建三种基分类器模型,然后构建最终的VoteClassifierModel投票分类器预测模型;
S5,账号检测识别,对于待检测金融交易流水信息数据集根据步骤一进行预处理操作,得到预处理操作结果关键项数据集Dtest,进而提取出交易对信息数据集和账号信息数据集构建交易熵特征向量数据集基于步骤三,基于和数据,计算多维异构特征值,构建异构金融特征向量数据集将输入构建好的VoteClassifierModel投票分类器模型中,进行分类预测,得到最终检测识别结果即对应交易对为传销交易关系的异常概率。
在本发明的基于异构金融特征的异常交易识别方法能够利用大量待检测可疑金融交易流水数据和一些已确定异常账号的交易流水数据,以交易对为单位进行交易熵特征的构建,并结合交易对活跃程度、对应账号统计金额特征等异构特征向量生成异构金融数据特征,进而输入由随机森林、SVM、朴素贝叶斯等基分类器构建的投票分类器模型进行异常金融交易关系检测识别。本发明能够用于:基于金融交易流水数据的交易对相关交易熵特征构建;基于金融交易流水数据的交易对相关交易活跃程度和金额统计特征构建;基于金融交易流水数据的异构金融特征构建;基于金融交易流水数据的异常金融交易关系检测识别。
本方法可以分为3个模块,如图2系统模块图所示,从左到右分别是数据预处理模块、异构金融特征构建模块,投票分类检测模块。模块功能结构如图3模块数据流图所示。
在本发明中,数据预处理模块:对原始金融交易流水数据输入,进行数据清洗等预处理操作。提取交易流水数据中时间、金额、交易对手账号等关键数据项。构建交易对。
异构金融特征构建模块:本模块分为交易熵特征计算、交易活跃度与统计金额特征提取、异构金融特征构建三部分。其中,交易活跃度特征由交易量和交易频率等指标衡量,金额统计特征则由各交易对手账号流水数据中交易金额项的统计值构建;基于交易对信息计算多维关键信息的信息熵与联合熵值,并由此构建自定义的交易熵特征向量;结合交易活跃度、金额统计特征和交易熵特征,进一步构建异构金融特征向量。
投票分类检测模块:基于异构金融特征数据,进行训练集的构建。使用训练集数据,分别训练随机森林基分类器模型,SVM基分类器模型以及朴素贝叶斯基分类器模型,然后根据投票机制构建投票分类器。利用生成的投票分类器对待检测金融交易数据进行异常金融交易关系检测识别。
本发明的原始数据输入为金融交易流水数据,交易流水数据中一般包含交易卡号、交易金额等多种类型交易信息项。由于其中冗余大量与鉴别账号异常无关的信息项,因此,首先要对原始数据进行关键项信息提取,以获取关键项信息数据。本方法中,提取交易流水中的交易卡号、交易日期、交易金额、摘要说明、对手账号这五种关键信息项。其中,将交易卡号作为用户的身份标识,本文中交易账号默认为用户交易卡号。然后,基于关键项信息数据集进行数据清洗和格式归一化操作,将带有“进出”标志位的交易金额数据转换成带有正负号的数值,‘进’为正数,‘出’为负数;清洗掉交易金融项绝对值小于50的交易流水数据与交易卡号为空的数据;然后将交易日期按“YYYYMMDDhhmmss”格式进行归一化处理,示例如“201805051111111”,表示2018年5月5号11时11分11秒。
经过数据清洗和格式归一化操作后,基于关键项信息数据集,分别构建交易对信息数据集和账号信息数据集。
交易对信息数据集构建方法为:
1)统计关键项信息数据集中交易对集合TransPair={tp1,tp2,...,tpn},其中n为交易对总数,不重复计数。其中,tpi为一条关键性交易流水数据中的交易账号ci与其交易对手账号ci%加逗号分隔符拼接后生成的交易对标识ID,示例如tpi=622201,622202,其中,622201代表卡号ci,622202表对手账号
2)以tpi为键值key,即交易对标识ID,tpi∈TransPair,以tpi对应的全部交易流水关键项数据构建列表这里j仅表示列表中某个元素的下标。将列表中元素按交易日期项即time由小到大进行排序,更新为排序后结果列表。
3)重复步骤2),得到交易对信息数据集其中n为交易对总数。若则
账号信息数据集构建方法为:
1)统计关键项信息数据集中卡号集合C={c1,c2,...,cn},其中n为卡号总数,不重复计数。
2)以卡号ci为键值key,即账号标识ID,ci∈C,以ci对应的交易流水信息构建列表这里j仅表示列表中某个元素的下标。将列表中元素按交易日期项即time由小到大进行排序,更新为排序后结果列表。
3)重复步骤2),得到账号信息数据集其中n为卡号总数。若则预处理模块整体工作流程如下图4预处理模块工作流程图所示。
本发明中,交易熵特征构建方法为,在信息论与概率统计中,熵是表示随机变量不确定性的度量。若不确定性越大,则信息量越大,熵越大;若不确定性越小,则信息量越小,熵越小。因此,信息熵常用来衡量信息量的大小。设X是一个取有限个值的离散随机变量,则随机变量X的信息熵定义为:
其中,P(X=xi)=pi,i=1,2,…,n。
而联合熵H(X,Y)可以表示随机变量X,Y在一起时的不确定性度量,联合熵实际上描述的是一对随机变量平均所需要的信息量。本研究采用基于概率的方法,主要基于以下假设,即不同属性的概率分布是相互独立的。在这一假设前提下,有H(X,Y)=H(X)+H(Y)成立。
交易对信息数据集构建方法得,交易对信息数据集合其中n为交易对总数。若则交易对tpi对应的交易数据为则tpi的交易流水列表为这里j仅表示列表中某个元素的下标。且为时间上的有序列表。
基于以上原理与假设,本文提出一种交易熵计算方法。考虑交易对tpi对应的交易流水列表内三种属性信息即time交易日期、money交易金额、summary摘要说明。属性time的取值忽略年、小时、分钟和秒,即设属性time中,有Ktime种月日交易时间类型。设属性money中,有Kmoney种交易金额类型。设属性summary中,有Ksummary种交易摘要类型。设有Kattr,其中attr∈{time,money,summary},用Kattr统一代表各种属性的属性值种数。则属性attr的第i种属性值的概率值pattri [1]计算方法为:
上式中,TF(attri)为属性值attri在交易流水列表li′当前部分中出现的概率或频率;ECE(attri)为attri的期望交易熵;p(attri)为属性值attri在Dtp全部交易流水数据集中出现的概率;p(tpj)为交易对tpj的交易流水数量占Dtp中总交易数的比例;p(tpj|attri)为交易流水列表包含属性值attri时属于账号tpj的概率;|TransPair|为Dtp中交易对个数。此公式考虑到了属性值特征attri与总数据集Dtp以及单个交易对之间的相关性。
那么,中属性值attr的熵可以被定义为:
交易熵特征向量的具体计算步骤如下:
1)按照列表元素的time项中月日类别对该列表元素进行集合划分,得为中出现的月日类别数,首先要清洗掉Dtp数据集中k值小于2的ltp数据。
2)接步骤1),基于MDi,在计算H(attr)时,pattri中的TF(attri)计算时只考虑属性值attri在列表中出现的概率,即只可以使用mdj之前的md列表的交易,而当前及之后的交易都不考虑在内,j=2,...,k。然后再将当前月日交易列表mdj加入到H(attr)的计算中获得目前的熵newH(attr)。
则定义差值熵attrHj为:
attrHj=H(attr)-newH(attr)
3)假设不同属性的概率分布是相互独立的,此时有联合熵H(X,Y)=H(X)+H(Y)成立。则,对attr∈{time,money,summary},定义交易熵tranHj为这3个属性差值熵的联合熵,即:
tranHj=timeHj+moneyHj+summaryHj
4)针对交易流水序列,根据步骤1)和步骤2)计算交易熵tranHj,由j=1开始,然后j=j+1,直到j=k结束,取tranH0=tranH1=0。
5)经过步骤3),得到TranHi=(tranH1,...,tranHk),TranHi即为交易对tpi的交易流水序列对应的交易熵初始特征。
6)针对步骤5)所得的TranHi,采用长度为10、步长为5的滑窗对tranH由前向后进行数据分割。TranHi长度大于10时,若最后一个滑窗包含的数据长度不足10但大于2,则进行补0操作;否则,舍弃此部分数据。TranHi长度小于10时,进行补0操作。然后,生成有即属于tpi的交易熵特征向量集合。
7)接步骤6),由构建交易熵特征向量数据集DtpH,交易对tpi对应交易熵特征向量集合元素指定编码ID后重构数据 中,交易熵特征向量由交易对tpi和编号j共同标识。
本发明中异构金融特征构建方式为:
金融交易关系的异常多会体现在交易活跃程度与交易金额等特征上。交易量与交易频率在一定程度上能够反映金融交易关系的活跃程度,因此本方法定义了交易对的交易偏差率和交易频率组成交易对活跃度特征的特征表示。此外,本方法针对交易对手中的两个账号,分别提取其操作高频月份和操作高频日内交易金额项的中位数、众数、平均数、标准差等统计特征,本方法认为这些高频时段出现的金额统计特征能够在一定程度上反映出账号主体的交易行为和规律特点,有助于异常主体的发现和异常交易关系的识别。
交易偏差率为交易对tpi交易流水数(即列表长度)与Dtp数据集中交易对平均交易数的差值dvalue_i与Dtp这一差值中的最大值dvalue_max的比值。交易对tpi的交易偏差率计算公式如下:
交易频率为交易对tpi交易数分别占交易对tpi中交易账号ci的交易数交易对手账号的交易数的比重。交易对tpi的交易频率计算公式如下:
和
交易对交易活跃度特征由其交易偏差率和交易频率共同衡量,可得交易对tpi交易活跃度特征向量为
交易对tpi操作高频月份和操作高频日交易金额统计特征计算步骤如下:
1)账号信息数据集构建方法得,账号信息数据集其中n为卡号总数,若则这里j仅表示列表中某个元素的下标。
2)根据步骤1),分别计算交易对tpi中交易账号ci和交易对手账号对应的交易流水列表中交易数最多的月份和日,作为交易对的高频交易月topm和高频交易日topd,然后获取高频交易月、日对应的交易金额项子列表
3)分别计算交易对tpi交易金额项子列表中的金额统计特征中位数me、众数mo、平均数ave、标准差std,得到交易对tpi对应的金额统计特征向量
综上所述,本方法中的交易熵特征和交易活跃度特征、统计金额特征是基于不同类型数据集(分别基于交易对信息数据集和交易账号信息数据集)由不同方法生成的,具有不同信息表示能力和不同结构的异构金融特征。因此,利用这三种特征构建异构金融特征向量表示,可以拓展特征向量表示的信息量。用于异常金融交易关系的检测识别中,可以取得更好分类识别效果。
异构金融特征向量的构建方法为,交易熵特征向量构建步骤可得,交易熵特征向量数据集DtpH,交易对tpi对应交易熵特征向量数据 其中中,交易熵特征由交易对tpi和编号j共同标识。则在DtpH数据集基础上,拼接tpi对应的交易活跃度特征向量和金额统计特征向量。由异构特征拼接生成的异构金融特征向量数据集为DtpISO,则交易对tpi对应的异构金融特征向量数据为 其中异构金融特征向量一条ISOj特征向量由交易对tpi与编号j共同标识。
本发明中分类器模型构建方式为:异常金融交易识别方法为基于异构金融特征向量数据集DtpISO的投票分类器模型金融交易关系分类识别方法。投票分类器模型由随机森林基分类器模型、SVM基分类器模型和朴素贝叶斯基分类器模型共同构建。
根据已确定传销卡号文件,对异构金融特征向量数据集DtpISO中的异构金融特征向量数据进行分类标注,构建训练集Train=(x1,y1),(x2,y2),...,(xn,yn);,这里的(xi,yi)仅表示训练数据异构金融特征xi=和对应账号类型标注yi,yi值为0或1,1代表异常交易关系(交易对手账号双方只要有一方为传销卡号,则认为交易对异常),0代表正常交易关系。若为已标注数据集,则直接构建训练集Train=(x1,y1),(x2,y2),...,(xn,yn);。要求训练数据集Train中,两类数据量比重最好在1:1到1:2之间。然后,进一步划分Train为训练集train和验证集test,按照7:3的比例进行划分,train比重为7/10。
随机森林(Random Forest)是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它本质属于机器学习的一大分支即集成学习方法。随机森林在当前大多数机器学习算法中,具有极好的准确率,而且能够有效运行于大数据集上,能够处理具有高维特征的输入样本,而且不需要降维,还能够评估各个特征在分类问题上的重要性。因此,选择随机森林作为其中一种基分类器模型。随机森林基分类器模型的构建基于训练数据集Train,可通过调用Python机器学习库Scikit-Learn中的随机森林分类器模型RandomForestClassifier类实现构建,并设置关键参数n_estimators=20,min_samples_split=10,min_samples_leaf=20,max_depth=16。关键参数这里只作参考,具体参数设置要视具体实验数据情况而定。
支持向量机SVM(Support Vector Machine)是一种二分类模型,学习策略是使特征空间上的间隔最大化,或者说通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而可以达到在统计样本量较少的情况下,也能获得良好的统计规律。SVM分类器的实现可以通过调用Python机器学习库Scikit-Learn中SVC类即支持向量机模型,本模型训练时,选择RBF径向基核函数,关键参数设置为C=1.0,kernel='rbf',degree=3,gamma='auto'。训练过程中,也可根据实际情况调用Scikit-Learn中网格调参工具类对参数C和gamma进行优调。
朴素贝叶斯(Bayes)是一类比较简单的算法,相对于决策树、随机森林等,朴素贝叶斯需要关注的参数较少,通过考虑特征概率来预测分类,基于概率理论,学习和预测的效率都很高,是一种经典而常用的分类算法。相对于随机森林和SVM,朴素贝叶斯可以从不同原理角度出发给出账号的分类结果,形成优势互补。朴素贝叶斯分类器的构建可以通过调用Python机器学习库Scikit-Learn中的GussianNB类实现,关键参数选择默认值即可。
基于上述方法实现的三种基分类器,调用Python机器学习库Scikit-Learn中VotingClassifier()类构建最终的分类器模型即投票分类器模型VoteClassifierModel,设置关键参数为estimators=model_list,voting='hard'。关键参数中model_list=[RandomForestClassifierModel,SVMModel,GussianNBModel]。投票分类器模型的投票规则选择hard模式,即交易对tpi的分类识别结果等于三个基分类器分类结果中数量多的那个交易关系类别。投票分类器的结构如图5所示。
本发明异常金融交易关系识别方法的整体流程步骤如下:
步骤一,对输入的原始金融交易流水数据集,进行数据预处理,做数据清洗和数据格式归一化处理,以及关键项数据提取,得到关键项数据集合D。对信息数据集构建方法和账号信息数据集构建步骤,进行交易对信息数据集Dtp和账号信息数据集Dc的构建。
步骤二,基于交易对信息数据集Dtp,构建交易熵特征向量数据集,交易熵特征向量的具体计算步骤所述,得到交易熵特征向量数据集合DtpH。
步骤三,基于交易熵特征向量数据集DtpH和账号信息数据集Dc,交易活跃度特征、统计金额特征计算方法,以及异构金融特征向量的构建方法,进行数据集的异构金融特征向量构建,得到异构金融特征向量数据集DtpISO。
步骤四,基于异构金融特征向量数据集DtpISO,所述方法,构建训练集Train,以及分别构建三种基分类器模型,然后构建最终的VoteClassifierModel投票分类器预测模型。
步骤五,账号检测识别,对于待检测金融交易流水信息数据集根据步骤一进行预处理操作,得到预处理操作结果关键项数据集Dtest,进而提取出交易对信息数据集和账号信息数据集然后构建交易熵特征向量数据集然后参考步骤三,基于和数据,计算多维异构特征值,然后构建异构金融特征向量数据集将输入构建好的VoteClassifierModel投票分类器模型中,进行分类预测,得到最终检测识别结果即对应交易对为传销交易关系的异常概率。
本发明的异常金融交易关系识别方法流程,如下图6异常金融交易识别方法流程图所示。
本发明提供一具体实施例:
某用户输入原始金融交易流水标注数据集与原始金融交易流水待检测数据集
步骤一,假设中传销与正常账号各有100个,每个账号有100多条交易流水数据,即传销与正常分别有1万条左右交易流水数据。有50个待检测账号,每个账号也有大约100条交易流水数据,共计约5000条交易流水数据。
步骤二,分别对输入的数据和进行数据预处理,做数据清洗和数据项格式归一化处理,然后进行关键项数据提取,分别得到处理结果关键项数据集合D和Dtest。然后,分别进行信息数据集和账号信息数据集构建,得到交易对信息数据集Dtp、和账号信息数据集Dc、的构建。接下来,进入步骤三。
步骤三,基于交易对信息数据集Dtp,计算交易熵特征向量,得到DtpH交易熵特征向量数据集。同理,基于待检测交易对信息集提取交易熵特征,得待检测数据集对应的交易熵特征向量数据集合
步骤五,基于DtpH交易熵特征向量数据集和Dc账号信息数据集,计算交易活跃度特征和金额统计特征。然后结合DtpH与交易活跃度、金额统计特征,进行异构金融特征向量构建,得到异构金融特征向量数据集DtpISO。同理,基于和数据集,得异构金融特征向量数据集接下来,进入步骤六。
步骤六,基于异构金融特征向量数据集DtpISO,构建训练集Train,利用数据集Train分别训练SVMModel、RandomForestClassifierModel、GussianNBModel这三种基分类器模型,然后利用基分类器构建最终的VoteClassifierModel投票分类器模型。进入步骤七。
步骤七,由步骤五得待检测数据集的异构金融特征向量数据将中的异构金融特征向量输入步骤六生成的VoteClassifierModel投票分类器模型,进行账号检测识别。最后,得到对应50个待检测账号的检测识别结果,可描述为:[(tp1,y1),(tp2,y2),...,(tp50,y50)],其中tpi为交易对i(待检测交易关系i),yi为分类结果标签(yi取值为0或1,1代表传销异常交易关系,0代表正常交易关系)。此外,还可获得VoteClassifierModel中三个基分类器分别对tpi分类的传销异常概率值。
至此,应用案例执行完毕。
本发明还提供一种实现基于异构金融特征的异常交易识别方法的设备,包括:
存储器,用于存储计算机程序及基于异构金融特征的异常交易识别方法;
处理器,用于执行所述计算机程序及基于异构金融特征的异常交易识别方法,以实现基于异构金融特征的异常交易识别方法的步骤。
本发明还提供一种具有基于异构金融特征的异常交易识别方法的计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现基于异构金融特征的异常交易识别方法的步骤。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。