CN108960833A

CN108960833A - 一种基于异构金融特征的异常交易识别方法，设备及存储介质

Info

Publication number: CN108960833A
Application number: CN201810909350.8A
Authority: CN
Inventors: 李晓颖; 吕芳; 王佰玲; 王巍; 黄俊恒; 辛国栋
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2018-12-07
Anticipated expiration: 2038-08-10
Also published as: CN108960833B

Abstract

本发明提供一种基于异构金融特征的异常交易识别方法，设备及存储介质，能够利用疑似异常或与某些确定异常账号相关的大量待检测金融交易流水信息数据，提取自定义交易熵特征和交易活跃度、金额统计特征，并构建异构金融特征向量表示，然后基于异构特征向量利用投票分类器进行待检测交易账号是否为传销异常交易关系的分类识别。本发明提出的可疑金融交易关系识别方法利用金融交易流水数据实现了对交易主体复杂行为规律特征的较丰富的抽象和表达，取得较好的异常金融交易关系检测识别效果。本方法提供的异常金融交易关系检测结果可以辅助相关工作人员进行传销等异常金融活动的侦查研判，在一定程度上可以提高工作效率以及提高研判准确率。

Description

一种基于异构金融特征的异常交易识别方法，设备及存储介质

技术领域

本发明涉及金融交易领域，尤其涉及一种基于异构金融特征的异常交易识别方法，设备及存储介质。

背景技术

金融系统是现代经济发展重要支柱之一，随着金融系统的网络化、信息化发展，资本流动加速，金融交易机构如银行每日处理的交易流水可达几百万甚至上千万的量级，这为隐匿在金融网络中的经济犯罪活动提供了很大便利。而在海量的交易数据中，蕴含着更为复杂的客户交易行为模式和规律等深层信息，利用这些信息可对数据中隐藏的异常的交易行为进行甄别和检测。异常金融交易包括如洗钱、传销、信用卡诈骗、非法集资等违法犯罪活动所涉及到的金融交易，这些金融交易行为扰乱了经济和社会秩序，给社会治安造成危害。其中，传销即所谓的“金字塔营销”，传销组织通过申购和返利的形式发展下线，资金最终汇集流入传销头目或其控制的银行账户中。国内非法传销涉案金额大、涉案人员多、发展速度快，危害极大。传统传销活动侦查分析方法中，通过银行资金流数据分析是进行传销账号识别和获取其组织架构的有效手段，但是这种方法属于劳动密集型，耗费大量时间和人力，实践过程中存在一定的漏检率。

异常金融交易识别相关的学术研究多集中在反洗钱、非法集资等邻域。反洗钱领域中，基于流数据的频繁项挖掘、朴素贝叶斯以及RBF简单神经网络等方法在洗钱异常交易的识别中取得了很好的效果。目前，国内相关传销组织发现领域的研究还主要集中在网络拓扑结构特征挖掘的基础上，利用图论等理论知识和特征去发现和识别传销网络。但这种方法依赖于数据中存在较完整的网络或信息量较大的局部拓扑结构，在相关结构不够完整的情况下，会导致识别率或准确率低。机器学习方法在传销异常金融交易识别领域的应用还相对较少，现有的分枝树等数学模型还是过多的依赖于人工提取的传销发展的复杂模式和演化规律，没有充分发掘机器学习中更加智能化和高效的统计方法，而且在海量数据处理方面存在一定缺陷。当前，尚未有一套基于异构金融特征的有效的机器学习方案，对传销异常金融交易关系能够进行有效的检测和识别。这里的金融交易关系是指金融交易流水中的交易对手账号，简称交易对。异常金融交易关系表示交易对在交易流水数据中表现出的交易行为异常程度较高，那么相对应的两个交易对手人员的异常程度可能性也较大。

发明内容

为了克服上述现有技术中的不足，本发明提供一种基于异构金融特征的异常交易识别方法，方法包括：

步骤一，对输入的原始金融交易流水数据集，进行数据预处理；数据预处理方式为数据清洗和数据格式归一化处理，以及关键项数据提取，得到关键项数据集合D；构建信息数据集D^tp和账号信息数据集D^c；

步骤二，基于交易对信息数据集D^tp，构建交易熵特征向量数据集合D^tpH；

步骤三，基于交易熵特征向量数据集D^tpH和账号信息数据集D^c，构建数据集的异构金融特征向量集D^tpISO；

步骤四，基于异构金融特征向量数据集D^tpISO，构建训练集Train，以及分别构建三种基分类器模型，然后构建最终的VoteClassifierModel投票分类器预测模型；

步骤五，账号检测识别，对于待检测金融交易流水信息数据集根据步骤一进行预处理操作，得到预处理操作结果关键项数据集D_test，进而提取出交易对信息数据集和账号信息数据集构建交易熵特征向量数据集基于步骤三，基于和数据，计算多维异构特征值，构建异构金融特征向量数据集将输入构建好的VoteClassifierModel投票分类器模型中，进行分类预测，得到最终检测识别结果即对应交易对为传销交易关系的异常概率。

优选地，在步骤一中，提取交易流水中的交易卡号、交易日期、交易金额、摘要说明以及对手账号关键信息项；将交易卡号作为用户的身份标识，交易账号默认为用户交易卡号；基于关键项信息数据集进行数据清洗和格式归一化操作，将带有“进出”标志位的交易金额数据转换成带有正负号的数值，‘进’为正数，‘出’为负数；清洗掉交易金融项绝对值小于50的交易流水数据与交易卡号为空的数据；然后将交易日期按“YYYYMMDDhhmmss”格式进行归一化处理；

经过数据清洗和格式归一化操作后，基于关键项信息数据集，分别构建交易对信息数据集和账号信息数据集。

优选地，步骤一中交易对信息数据集构建方法为：

1)统计关键项信息数据集中交易对集合TransPair＝{tp₁,tp₂,...,tp_n}，其中n为交易对总数，不重复计数；其中，tp_i为一条关键性交易流水数据中的交易账号c_i与其交易对手账号加逗号分隔符拼接后生成的交易对标识ID；

2)以tp_i为键值key，即交易对标识ID，tp_i∈TransPair，以tp_i对应的全部交易流水关键项数据构建列表这里j仅表示列表中某个元素的下标；将列表中元素按交易日期项即time由小到大进行排序，更新为排序后结果列表；

3)重复步骤2)，得到交易对信息数据集其中n为交易对总数；若则

优选地，步骤一中账号信息数据集构建方法为：

1)统计关键项信息数据集中卡号集合C＝{c₁,c₂,...,c_n}，其中n为卡号总数，不重复计数；

2)以卡号c_i为键值key，即账号标识ID，c_i∈C，以c_i对应的交易流水信息构建列表这里j仅表示列表中某个元素的下标。将列表中元素按交易日期项即time由小到大进行排序，更新为排序后结果列表；

3)重复步骤2)，得到账号信息数据集其中n为卡号总数；若则

优选地，步骤二中交易熵特征向量的获取步骤如下：

1)按照列表元素的time项中月日类别对该列表元素进行集合划分，得 k为中出现的月日类别数，清洗掉D_tp数据集中k值小于2的l^tp数据；

2)接步骤1)，基于MD_i，在计算H(attr)时，p_attri中的TF(attr_i)计算时只考虑属性值attr_i在列表中出现的概率，即只可以使用md_j之前的md列表的交易，而当前及之后的交易都不考虑在内，j＝2,...,k；将当前月日交易列表md_j加入到H(attr)的计算中获得目前的熵newH(attr)；则定义差值熵attrH_j为：

attrH_j＝H(attr)-newH(attr)

3)假设不同属性的概率分布是相互独立的，此时有联合熵H(X,Y)＝H(X)+H(Y)成立；则，对attr∈{time,money,summary}，定义交易熵tranH_j为这3个属性差值熵的联合熵，即：

tranH_j＝timeH_j+moneyH_j+summaryH_j

4)针对交易流水序列，根据步骤1)和步骤2)计算交易熵tranH_j，由j＝1开始，然后j＝j+1，直到j＝k结束，取tranH₀＝tranH₁＝0；

5)经过步骤3)，得到TranH_i＝(tranH₁,...,tranH_k)，TranH_i即为交易对tp_i的交易流水序列对应的交易熵初始特征；

6)针对步骤5)所得的TranH_i，采用长度为10、步长为5的滑窗对tranH由前向后进行数据分割；TranH_i长度大于10时，若最后一个滑窗包含的数据长度不足10但大于2，则进行补0操作；否则，舍弃此部分数据；TranH_i长度小于10时，进行补0操作；生成有即属于tp_i的交易熵特征向量集合；

7)接步骤6)，由构建交易熵特征向量数据集D^tpH，交易对tp_i对应交易熵特征向量集合元素指定编码ID后重构数据中，交易熵特征向量由交易对tp_i和编号j共同标识。

优选地，步骤三中交易对tp_i操作高频月份和操作高频日交易金额统计特征计算步骤如下：

1)根据账号信息数据集构建方法得，账号信息数据集其中n为卡号总数，若则这里j仅表示列表中某个元素的下标；

2)根据步骤1)，分别计算交易对tp_i中交易账号c_i和交易对手账号c_i％对应的交易流水列表中交易数最多的月份和日，作为交易对的高频交易月topm和高频交易日topd，然后获取高频交易月、日对应的交易金额项子列表

3)分别计算交易对tp_i交易金额项子列表中的金额统计特征中位数me、众数mo、平均数ave、标准差std，得到交易对tp_i对应的金额统计特征向量

优选地，步骤三中交易对交易活跃度特征计算步骤如下：

1)交易偏差率为交易对tp_i交易流水数(即列表长度)与D_tp数据集中交易对平均交易数的差值dvalue_i与D_tp这一差值中的最大值dvalue_max的比值。交易对tp_i的交易偏差率计算公式如下：

2)交易频率为交易对tp_i交易数分别占交易对tp_i中交易账号c_i的交易数交易对手账号的交易数的比重。交易对tp_i的交易频率计算公式如下：

和

3)交易对交易活跃度特征由其交易偏差率和交易频率共同衡量，可得交易对tp_i交易活跃度特征向量为

优选地，步骤三中异构金融特征向量的构建方法为，基于交易熵特征向量构建步骤可得，交易熵特征向量数据集D^tpH，交易对tp_i对应交易熵特征向量数据其中中，交易熵特征由交易对tp_i和编号j共同标识；则在D^tpH数据集基础上，拼接tp_i对应的交易活跃度特征向量和金额统计特征向量；由异构特征拼接生成的异构金融特征向量数据集为D^tpISO，则交易对tp_i对应的异构金融特征向量数据为其中异构金融特征向量一条ISO^j特征向量由交易对tp_i与编号j共同标识。

一种实现基于异构金融特征的异常交易识别方法的设备，包括：

存储器，用于存储计算机程序及基于异构金融特征的异常交易识别方法；

处理器，用于执行所述计算机程序及基于异构金融特征的异常交易识别方法，以实现基于异构金融特征的异常交易识别方法的步骤。

一种具有基于异构金融特征的异常交易识别方法的计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现基于异构金融特征的异常交易识别方法的步骤。

从以上技术方案可以看出，本发明具有以下优点：

本发明提供了一种基于异构金融特征的异常交易识别方法，方法能够利用疑似异常或与某些确定异常账号相关的大量待检测金融交易流水信息数据，提取自定义交易熵特征和交易活跃度、金额统计特征，并构建异构金融特征向量表示，然后基于异构特征向量利用投票分类器进行待检测交易账号是否为传销异常交易关系的分类识别。

本发明提出的可疑金融交易关系识别方法利用金融交易流水数据实现了对交易主体复杂行为规律特征的较丰富的抽象和表达，可以取得较好的异常金融交易关系检测识别效果。本方法提供的异常金融交易关系检测结果可以辅助相关工作人员进行传销等异常金融活动的侦查研判，在一定程度上可以提高工作效率、缩小研判范围以及提高研判准确率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于异构金融特征的异常交易识别方法流程图；

图2为系统模块图；

图3为模块数据流图；

图4为预处理模块工作流程图；

图5为VoteClassifierModel结构示意图；

图6为异常金融交易识别方法流程图。

具体实施方式

本发明提供一种基于异构金融特征的异常交易识别方法，如图1所示，方法包括：

S1，对输入的原始金融交易流水数据集，进行数据预处理；数据预处理方式为数据清洗和数据格式归一化处理，以及关键项数据提取，得到关键项数据集合D；构建信息数据集D^tp和账号信息数据集D^c；

S2，基于交易对信息数据集D^tp，构建交易熵特征向量数据集合D^tpH；

S3，基于交易熵特征向量数据集D^tpH和账号信息数据集D^c，构建数据集的异构金融特征向量集D^tpISO；

S4，基于异构金融特征向量数据集D^tpISO，构建训练集Train，以及分别构建三种基分类器模型，然后构建最终的VoteClassifierModel投票分类器预测模型；

S5，账号检测识别，对于待检测金融交易流水信息数据集根据步骤一进行预处理操作，得到预处理操作结果关键项数据集D_test，进而提取出交易对信息数据集和账号信息数据集构建交易熵特征向量数据集基于步骤三，基于和数据，计算多维异构特征值，构建异构金融特征向量数据集将输入构建好的VoteClassifierModel投票分类器模型中，进行分类预测，得到最终检测识别结果即对应交易对为传销交易关系的异常概率。

在本发明的基于异构金融特征的异常交易识别方法能够利用大量待检测可疑金融交易流水数据和一些已确定异常账号的交易流水数据，以交易对为单位进行交易熵特征的构建，并结合交易对活跃程度、对应账号统计金额特征等异构特征向量生成异构金融数据特征，进而输入由随机森林、SVM、朴素贝叶斯等基分类器构建的投票分类器模型进行异常金融交易关系检测识别。本发明能够用于：基于金融交易流水数据的交易对相关交易熵特征构建；基于金融交易流水数据的交易对相关交易活跃程度和金额统计特征构建；基于金融交易流水数据的异构金融特征构建；基于金融交易流水数据的异常金融交易关系检测识别。

本方法可以分为3个模块，如图2系统模块图所示，从左到右分别是数据预处理模块、异构金融特征构建模块，投票分类检测模块。模块功能结构如图3模块数据流图所示。

在本发明中，数据预处理模块：对原始金融交易流水数据输入，进行数据清洗等预处理操作。提取交易流水数据中时间、金额、交易对手账号等关键数据项。构建交易对。

异构金融特征构建模块：本模块分为交易熵特征计算、交易活跃度与统计金额特征提取、异构金融特征构建三部分。其中，交易活跃度特征由交易量和交易频率等指标衡量，金额统计特征则由各交易对手账号流水数据中交易金额项的统计值构建；基于交易对信息计算多维关键信息的信息熵与联合熵值，并由此构建自定义的交易熵特征向量；结合交易活跃度、金额统计特征和交易熵特征，进一步构建异构金融特征向量。

投票分类检测模块：基于异构金融特征数据，进行训练集的构建。使用训练集数据，分别训练随机森林基分类器模型，SVM基分类器模型以及朴素贝叶斯基分类器模型，然后根据投票机制构建投票分类器。利用生成的投票分类器对待检测金融交易数据进行异常金融交易关系检测识别。

本发明的原始数据输入为金融交易流水数据，交易流水数据中一般包含交易卡号、交易金额等多种类型交易信息项。由于其中冗余大量与鉴别账号异常无关的信息项，因此，首先要对原始数据进行关键项信息提取，以获取关键项信息数据。本方法中，提取交易流水中的交易卡号、交易日期、交易金额、摘要说明、对手账号这五种关键信息项。其中，将交易卡号作为用户的身份标识，本文中交易账号默认为用户交易卡号。然后，基于关键项信息数据集进行数据清洗和格式归一化操作，将带有“进出”标志位的交易金额数据转换成带有正负号的数值，‘进’为正数，‘出’为负数；清洗掉交易金融项绝对值小于50的交易流水数据与交易卡号为空的数据；然后将交易日期按“YYYYMMDDhhmmss”格式进行归一化处理，示例如“201805051111111”，表示2018年5月5号11时11分11秒。

交易对信息数据集构建方法为：

1)统计关键项信息数据集中交易对集合TransPair＝{tp₁,tp₂,...,tp_n}，其中n为交易对总数，不重复计数。其中，tp_i为一条关键性交易流水数据中的交易账号c_i与其交易对手账号c_i％加逗号分隔符拼接后生成的交易对标识ID，示例如tp_i＝622201,622202，其中，622201代表卡号c_i，622202表对手账号

2)以tp_i为键值key，即交易对标识ID，tp_i∈TransPair，以tp_i对应的全部交易流水关键项数据构建列表这里j仅表示列表中某个元素的下标。将列表中元素按交易日期项即time由小到大进行排序，更新为排序后结果列表。

3)重复步骤2)，得到交易对信息数据集其中n为交易对总数。若则

账号信息数据集构建方法为：

1)统计关键项信息数据集中卡号集合C＝{c₁,c₂,...,c_n}，其中n为卡号总数，不重复计数。

2)以卡号c_i为键值key，即账号标识ID，c_i∈C，以c_i对应的交易流水信息构建列表这里j仅表示列表中某个元素的下标。将列表中元素按交易日期项即time由小到大进行排序，更新为排序后结果列表。

3)重复步骤2)，得到账号信息数据集其中n为卡号总数。若则预处理模块整体工作流程如下图4预处理模块工作流程图所示。

本发明中，交易熵特征构建方法为，在信息论与概率统计中，熵是表示随机变量不确定性的度量。若不确定性越大，则信息量越大，熵越大；若不确定性越小，则信息量越小，熵越小。因此，信息熵常用来衡量信息量的大小。设X是一个取有限个值的离散随机变量，则随机变量X的信息熵定义为：

其中，P(X＝x_i)＝p_i，i＝1,2,…,n。

而联合熵H(X,Y)可以表示随机变量X,Y在一起时的不确定性度量，联合熵实际上描述的是一对随机变量平均所需要的信息量。本研究采用基于概率的方法，主要基于以下假设，即不同属性的概率分布是相互独立的。在这一假设前提下，有H(X,Y)＝H(X)+H(Y)成立。

交易对信息数据集构建方法得，交易对信息数据集合其中n为交易对总数。若则交易对tp_i对应的交易数据为则tp_i的交易流水列表为这里j仅表示列表中某个元素的下标。且为时间上的有序列表。

基于以上原理与假设，本文提出一种交易熵计算方法。考虑交易对tp_i对应的交易流水列表内三种属性信息即time交易日期、money交易金额、summary摘要说明。属性time的取值忽略年、小时、分钟和秒，即设属性time中，有K_time种月日交易时间类型。设属性money中，有K_money种交易金额类型。设属性summary中，有K_summary种交易摘要类型。设有K_attr，其中attr∈{time,money,summary}，用K_attr统一代表各种属性的属性值种数。则属性attr的第i种属性值的概率值p_attri ^[1]计算方法为：

上式中，TF(attr_i)为属性值attr_i在交易流水列表l_i′当前部分中出现的概率或频率；ECE(attr_i)为attr_i的期望交易熵；p(attr_i)为属性值attr_i在D_tp全部交易流水数据集中出现的概率；p(tp_j)为交易对tp_j的交易流水数量占D_tp中总交易数的比例；p(tp_j|attr_i)为交易流水列表包含属性值attr_i时属于账号tpj的概率；|TransPair|为D_tp中交易对个数。此公式考虑到了属性值特征attr_i与总数据集D_tp以及单个交易对之间的相关性。

那么，中属性值attr的熵可以被定义为：

交易熵特征向量的具体计算步骤如下：

1)按照列表元素的time项中月日类别对该列表元素进行集合划分，得为中出现的月日类别数，首先要清洗掉D_tp数据集中k值小于2的l^tp数据。

2)接步骤1)，基于MD_i，在计算H(attr)时，p_attri中的TF(attr_i)计算时只考虑属性值attr_i在列表中出现的概率，即只可以使用md_j之前的md列表的交易，而当前及之后的交易都不考虑在内，j＝2,...,k。然后再将当前月日交易列表md_j加入到H(attr)的计算中获得目前的熵newH(attr)。

则定义差值熵attrH_j为：

attrH_j＝H(attr)-newH(attr)

3)假设不同属性的概率分布是相互独立的，此时有联合熵H(X,Y)＝H(X)+H(Y)成立。则，对attr∈{time,money,summary}，定义交易熵tranH_j为这3个属性差值熵的联合熵，即：

tranH_j＝timeH_j+moneyH_j+summaryH_j

4)针对交易流水序列，根据步骤1)和步骤2)计算交易熵tranH_j，由j＝1开始，然后j＝j+1，直到j＝k结束，取tranH₀＝tranH₁＝0。

5)经过步骤3)，得到TranH_i＝(tranH₁,...,tranH_k)，TranH_i即为交易对tp_i的交易流水序列对应的交易熵初始特征。

6)针对步骤5)所得的TranH_i，采用长度为10、步长为5的滑窗对tranH由前向后进行数据分割。TranH_i长度大于10时，若最后一个滑窗包含的数据长度不足10但大于2，则进行补0操作；否则，舍弃此部分数据。TranH_i长度小于10时，进行补0操作。然后，生成有即属于tp_i的交易熵特征向量集合。

本发明中异构金融特征构建方式为：

金融交易关系的异常多会体现在交易活跃程度与交易金额等特征上。交易量与交易频率在一定程度上能够反映金融交易关系的活跃程度，因此本方法定义了交易对的交易偏差率和交易频率组成交易对活跃度特征的特征表示。此外，本方法针对交易对手中的两个账号，分别提取其操作高频月份和操作高频日内交易金额项的中位数、众数、平均数、标准差等统计特征，本方法认为这些高频时段出现的金额统计特征能够在一定程度上反映出账号主体的交易行为和规律特点，有助于异常主体的发现和异常交易关系的识别。

交易偏差率为交易对tp_i交易流水数(即列表长度)与D_tp数据集中交易对平均交易数的差值dvalue_i与D_tp这一差值中的最大值dvalue_max的比值。交易对tp_i的交易偏差率计算公式如下：

交易频率为交易对tp_i交易数分别占交易对tp_i中交易账号c_i的交易数交易对手账号的交易数的比重。交易对tp_i的交易频率计算公式如下：

和

交易对交易活跃度特征由其交易偏差率和交易频率共同衡量，可得交易对tp_i交易活跃度特征向量为

交易对tp_i操作高频月份和操作高频日交易金额统计特征计算步骤如下：

1)账号信息数据集构建方法得，账号信息数据集其中n为卡号总数，若则这里j仅表示列表中某个元素的下标。

2)根据步骤1)，分别计算交易对tp_i中交易账号c_i和交易对手账号对应的交易流水列表中交易数最多的月份和日，作为交易对的高频交易月topm和高频交易日topd，然后获取高频交易月、日对应的交易金额项子列表

综上所述，本方法中的交易熵特征和交易活跃度特征、统计金额特征是基于不同类型数据集(分别基于交易对信息数据集和交易账号信息数据集)由不同方法生成的，具有不同信息表示能力和不同结构的异构金融特征。因此，利用这三种特征构建异构金融特征向量表示，可以拓展特征向量表示的信息量。用于异常金融交易关系的检测识别中，可以取得更好分类识别效果。

异构金融特征向量的构建方法为，交易熵特征向量构建步骤可得，交易熵特征向量数据集D^tpH，交易对tp_i对应交易熵特征向量数据其中中，交易熵特征由交易对tp_i和编号j共同标识。则在D^tpH数据集基础上，拼接tp_i对应的交易活跃度特征向量和金额统计特征向量。由异构特征拼接生成的异构金融特征向量数据集为D^tpISO，则交易对tp_i对应的异构金融特征向量数据为其中异构金融特征向量一条ISO^j特征向量由交易对tp_i与编号j共同标识。

本发明中分类器模型构建方式为：异常金融交易识别方法为基于异构金融特征向量数据集D^tpISO的投票分类器模型金融交易关系分类识别方法。投票分类器模型由随机森林基分类器模型、SVM基分类器模型和朴素贝叶斯基分类器模型共同构建。

根据已确定传销卡号文件，对异构金融特征向量数据集D^tpISO中的异构金融特征向量数据进行分类标注，构建训练集Train＝(x₁,y₁),(x₂,y₂),...,(x_n,y_n)；，这里的(x_i,y_i)仅表示训练数据异构金融特征x_i＝和对应账号类型标注y_i，y_i值为0或1，1代表异常交易关系(交易对手账号双方只要有一方为传销卡号，则认为交易对异常)，0代表正常交易关系。若为已标注数据集，则直接构建训练集Train＝(x₁,y₁),(x₂,y₂),...,(x_n,y_n)；。要求训练数据集Train中，两类数据量比重最好在1:1到1:2之间。然后，进一步划分Train为训练集train和验证集test，按照7:3的比例进行划分，train比重为7/10。

随机森林(Random Forest)是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它本质属于机器学习的一大分支即集成学习方法。随机森林在当前大多数机器学习算法中，具有极好的准确率，而且能够有效运行于大数据集上，能够处理具有高维特征的输入样本，而且不需要降维，还能够评估各个特征在分类问题上的重要性。因此，选择随机森林作为其中一种基分类器模型。随机森林基分类器模型的构建基于训练数据集Train，可通过调用Python机器学习库Scikit-Learn中的随机森林分类器模型RandomForestClassifier类实现构建，并设置关键参数n_estimators＝20，min_samples_split＝10，min_samples_leaf＝20，max_depth＝16。关键参数这里只作参考，具体参数设置要视具体实验数据情况而定。

支持向量机SVM(Support Vector Machine)是一种二分类模型，学习策略是使特征空间上的间隔最大化，或者说通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而可以达到在统计样本量较少的情况下，也能获得良好的统计规律。SVM分类器的实现可以通过调用Python机器学习库Scikit-Learn中SVC类即支持向量机模型，本模型训练时，选择RBF径向基核函数，关键参数设置为C＝1.0，kernel＝'rbf'，degree＝3，gamma＝'auto'。训练过程中，也可根据实际情况调用Scikit-Learn中网格调参工具类对参数C和gamma进行优调。

朴素贝叶斯(Bayes)是一类比较简单的算法，相对于决策树、随机森林等，朴素贝叶斯需要关注的参数较少，通过考虑特征概率来预测分类，基于概率理论，学习和预测的效率都很高，是一种经典而常用的分类算法。相对于随机森林和SVM，朴素贝叶斯可以从不同原理角度出发给出账号的分类结果，形成优势互补。朴素贝叶斯分类器的构建可以通过调用Python机器学习库Scikit-Learn中的GussianNB类实现，关键参数选择默认值即可。

基于上述方法实现的三种基分类器，调用Python机器学习库Scikit-Learn中VotingClassifier()类构建最终的分类器模型即投票分类器模型VoteClassifierModel，设置关键参数为estimators＝model_list，voting＝'hard'。关键参数中model_list＝[RandomForestClassifierModel,SVMModel,GussianNBModel]。投票分类器模型的投票规则选择hard模式，即交易对tp_i的分类识别结果等于三个基分类器分类结果中数量多的那个交易关系类别。投票分类器的结构如图5所示。

本发明异常金融交易关系识别方法的整体流程步骤如下：

步骤一，对输入的原始金融交易流水数据集，进行数据预处理，做数据清洗和数据格式归一化处理，以及关键项数据提取，得到关键项数据集合D。对信息数据集构建方法和账号信息数据集构建步骤，进行交易对信息数据集D^tp和账号信息数据集D^c的构建。

步骤二，基于交易对信息数据集D^tp，构建交易熵特征向量数据集，交易熵特征向量的具体计算步骤所述，得到交易熵特征向量数据集合D^tpH。

步骤三，基于交易熵特征向量数据集D^tpH和账号信息数据集D^c，交易活跃度特征、统计金额特征计算方法，以及异构金融特征向量的构建方法，进行数据集的异构金融特征向量构建，得到异构金融特征向量数据集D^tpISO。

步骤四，基于异构金融特征向量数据集D^tpISO，所述方法，构建训练集Train，以及分别构建三种基分类器模型，然后构建最终的VoteClassifierModel投票分类器预测模型。

步骤五，账号检测识别，对于待检测金融交易流水信息数据集根据步骤一进行预处理操作，得到预处理操作结果关键项数据集D_test，进而提取出交易对信息数据集和账号信息数据集然后构建交易熵特征向量数据集然后参考步骤三，基于和数据，计算多维异构特征值，然后构建异构金融特征向量数据集将输入构建好的VoteClassifierModel投票分类器模型中，进行分类预测，得到最终检测识别结果即对应交易对为传销交易关系的异常概率。

本发明的异常金融交易关系识别方法流程，如下图6异常金融交易识别方法流程图所示。

本发明提供一具体实施例：

某用户输入原始金融交易流水标注数据集与原始金融交易流水待检测数据集

步骤一，假设中传销与正常账号各有100个，每个账号有100多条交易流水数据，即传销与正常分别有1万条左右交易流水数据。有50个待检测账号，每个账号也有大约100条交易流水数据，共计约5000条交易流水数据。

步骤二，分别对输入的数据和进行数据预处理，做数据清洗和数据项格式归一化处理，然后进行关键项数据提取，分别得到处理结果关键项数据集合D和D_test。然后，分别进行信息数据集和账号信息数据集构建，得到交易对信息数据集D^tp、和账号信息数据集D^c、的构建。接下来，进入步骤三。

步骤三，基于交易对信息数据集D^tp，计算交易熵特征向量，得到D^tpH交易熵特征向量数据集。同理，基于待检测交易对信息集提取交易熵特征，得待检测数据集对应的交易熵特征向量数据集合

步骤五，基于D^tpH交易熵特征向量数据集和D^c账号信息数据集，计算交易活跃度特征和金额统计特征。然后结合D^tpH与交易活跃度、金额统计特征，进行异构金融特征向量构建，得到异构金融特征向量数据集D^tpISO。同理，基于和数据集，得异构金融特征向量数据集接下来，进入步骤六。

步骤六，基于异构金融特征向量数据集D^tpISO，构建训练集Train，利用数据集Train分别训练SVMModel、RandomForestClassifierModel、GussianNBModel这三种基分类器模型，然后利用基分类器构建最终的VoteClassifierModel投票分类器模型。进入步骤七。

步骤七，由步骤五得待检测数据集的异构金融特征向量数据将中的异构金融特征向量输入步骤六生成的VoteClassifierModel投票分类器模型，进行账号检测识别。最后，得到对应50个待检测账号的检测识别结果，可描述为：[(tp₁,y₁),(tp₂,y₂),...,(tp₅₀,y₅₀)]，其中tp_i为交易对i(待检测交易关系i)，y_i为分类结果标签(y_i取值为0或1，1代表传销异常交易关系，0代表正常交易关系)。此外，还可获得VoteClassifierModel中三个基分类器分别对tp_i分类的传销异常概率值。

至此，应用案例执行完毕。

本发明还提供一种实现基于异构金融特征的异常交易识别方法的设备，包括：

本发明还提供一种具有基于异构金融特征的异常交易识别方法的计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现基于异构金融特征的异常交易识别方法的步骤。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于异构金融特征的异常交易识别方法，其特征在于，方法包括：

步骤二，基于交易对信息据集D^tp，构建交易熵特征向量数据集合D^tpH；

2.根据权利要求1所述的基于异构金融特征的异常交易识别方法，其特征在于，

在步骤一中，提取交易流水中的交易卡号、交易日期、交易金额、摘要说明以及对手账号关键信息项；将交易卡号作为用户的身份标识，交易账号默认为用户交易卡号；基于关键项信息数据集进行数据清洗和格式归一化操作，将带有“进出”标志位的交易金额数据转换成带有正负号的数值，‘进’为正数，‘出’为负数；清洗掉交易金融项绝对值小于50的交易流水数据与交易卡号为空的数据；然后将交易日期按“YYYYMMDDhhmmss”格式进行归一化处理；

3.根据权利要求2所述的基于异构金融特征的异常交易识别方法，其特征在于，

步骤一中交易对信息数据集构建方法为：

4.根据权利要求2所述的基于异构金融特征的异常交易识别方法，其特征在于，

步骤一中账号信息数据集构建方法为：

2)以卡号c_i为键值key，即账号标识ID，c_i∈C，以c_i对应的交易流水信息构建列表这里j仅表示列表中某个元素的下标；将列表中元素按交易日期项即time由小到大进行排序，更新为排序后结果列表；

3)重复步骤2)，得到账号信息数据集其中n为卡号总数；若则

5.根据权利要求1所述的基于异构金融特征的异常交易识别方法，其特征在于，

步骤二中交易熵特征向量的获取步骤如下：

1)按照列表元素的time项中月日类别对该列表元素进行集合划分，得k为中出现的月日类别数，清洗掉D_tp数据集中k值小于2的l^tp数据；

attrH_j＝H(attr)-newH(attr)

tranH_j＝timeH_j+moneyH_j+summaryH_j

6.根据权利要求1所述的基于异构金融特征的异常交易识别方法，其特征在于，

步骤三中交易对tp_i操作高频月份和操作高频日交易金额统计特征计算步骤如下：

2)根据步骤1)，分别计算交易对tp_i中交易账号c_i和交易对手账号c_i ^％对应的交易流水列表中交易数最多的月份和日，作为交易对的高频交易月topm和高频交易日topd，然后获取高频交易月、日对应的交易金额项子列表

步骤三中交易对交易活跃度特征计算步骤如下：

1)交易偏差率为交易对tp_i交易流水数(即列表长度与D_tp数据集中交易对平均交易数的差值dvalue_i与D_tp这一差值中的最大值dvalue_max的比值；交易对tp_i的交易偏差率计算公式如下：

2)交易频率为交易对tp_i交易数分别占交易对tp_i中交易账号c_i的交易数交易对手账号的交易数的比重；交易对tp_i的交易频率计算公式如下：

和

7.根据权利要求1所述的基于异构金融特征的异常交易识别方法，其特征在于，

步骤三中异构金融特征向量的构建方法为，基于交易熵特征向量构建步骤可得，交易熵特征向量数据集D^tpH，交易对tp_i对应交易熵特征向量数据其中中，交易熵特征由交易对tp_i和编号j共同标识；则在D^tpH数据集基础上，拼接tp_i对应的交易活跃度特征向量和金额统计特征向量；由异构特征拼接生成的异构金融特征向量数据集为D^tpISO，则交易对tp_i对应的异构金融特征向量数据为其中异构金融特征向量一条ISO^j特征向量由交易对tp_i与编号j共同标识。

8.一种实现基于异构金融特征的异常交易识别方法的设备，其特征在于，包括：

处理器，用于执行所述计算机程序及基于异构金融特征的异常交易识别方法，以实现如权利要求1至7任意一项所述基于异构金融特征的异常交易识别方法的步骤。

9.一种具有基于异构金融特征的异常交易识别方法的计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至7任意一项所述基于异构金融特征的异常交易识别方法的步骤。