CN110458684A

CN110458684A - 一种基于双向长短期记忆神经网络的金融反欺诈检测方法

Info

Publication number: CN110458684A
Application number: CN201910556616.XA
Authority: CN
Inventors: 吴晓鸰; 吴迎岗; 凌捷
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-11-15

Abstract

本发明公开了一种基于双向长短期记忆神经网络的金融反欺诈检测方法，包括下述步骤：步骤一，由于原始数据中可能存在缺失值、重复值或者异常值，则需要对原始数据进行预处理；由于不同数据维度所包含的信息可能存在交叉冗余，则需要对原始数据维度进行统计分析处理和关联性分析处理，然后获得能够用于建模的数据；本发明在保证数据完整性的情况下，更好的利用数据本身的特性，检测出数据中的异常数据，且神经网络算法的性能更加的高效，最终实现金融欺诈识别，得到最优的分析结果，提高了分析结果的准确率，降低了金融风险。

Description

一种基于双向长短期记忆神经网络的金融反欺诈检测方法

技术领域

本发明涉及金融检测技术领域，具体涉及一种基于双向长短期记忆神经网络的金融反欺诈检测方法。

背景技术

在如今信息化社会中，金融业务里存在的金融欺诈行为变得越来越多，金融欺诈风险成为金融业务中所面临的主要金融风险之一，它通常指信贷客户是否具备还款能力或者意愿一类的风险；最关键的问题就是如何有效地检测出这些存在高度可能性的欺诈行为。

随着互联网经济的不断发展，金融领域的欺诈行为也逐渐开始变得越来越多，而各大金融机构在避免和检测这些金融欺诈行为所花费的费用也在不断上升。金融欺诈行为不仅仅是给各大金融机构带来巨大的经济上的损失，还给他们造成了信誉和形象上的重大负面影响。随着金融行业发展，通过各种各样的渠道进行金融服务交易的情况越来越普及，同时也伴随着许多不法分子利用各平台的漏洞进行各种欺诈行为，对于银行有着各种各样的金融理财产品，而与之对应的产品风险防御措施还不太完善，不法分子会利用这些漏洞给银行企业以及金融产品客户造成巨大损失。这对于金融机构来说，就必须构建一套完整的风险控制体系结构来确保能够识别未知的风险，避免欺诈行为的发生，尽可能低的减少自身的损失；而大多数金融机构的风控体系还不能达到较好的效果，有的甚至还是基于人力的经验进行判断，在一定程度上造成了极大的人力、物力、财力的浪费；同时在传统反欺诈环节中审核人员水平参差不齐、劳动密集型的困境，以及克服现有的金融反欺诈方法存在预测效果不佳、对金融反欺诈的效果较差、投入市场使用的技术缺陷。

针对于金融反欺诈问题，最常见的风险审查工作一般情况下是由人工进行的，基于这种方法进行金融反欺诈虽然能在金融反欺诈取得很好的效果，但是人工审查具有不确定性和不稳定性，况且每天金融交易的数量十分巨大，需要耗费巨大的人力资源，无法真正的适用市场。为了克服这种困难，有人提出一种基于朴素贝叶斯模型的金融反欺诈方法，但是这种方法需要知道先验概率，且先验概率很多时候取决于假设，因假设的模型具有不确定性，因此在某些特定的情况下会因为先验模型的原因导致预测效果不佳，对金融反欺诈的效果较差，难以投入市场使用。

现有技术中应用较多是基于大数据的信用评价系统，对于欺诈行为的检测却没有更好的办法。大多数欺诈检测系统通常只是对有问题的交易进行被动的事后分析，但已经无法挽回已经造成的损失；此外，这些系统大部分是直接将预处理好的原始数据带入学习算法中构建反欺诈检测模型，其存在的不足是：在将原始数据带入算法中训练之前，会有人为的数据清洗、数据特征选择或者数据降维的过程；由于人为的主观因素存在，在特征选取过程中，一些原始数据之间的深层次数据特征有可能被过滤掉或丢失，从而影响后面检测模型的准确性和可靠度，导致检测效果不理想。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于双向长短期记忆神经网络的金融反欺诈检测方法，该方法将深度学习与金融领域相结合，有效提升了金融欺诈识别率，降低了金融风险。

本发明的目的通过下述技术方案实现：

一种基于双向长短期记忆神经网络的金融反欺诈检测方法，包括下述步骤：

步骤一，由于原始数据中可能存在缺失值、重复值或者异常值，则需要对原始数据进行预处理；由于不同数据维度所包含的信息可能存在交叉冗余，则需要对原始数据维度进行统计分析处理和关联性分析处理，然后获得能够用于建模的数据；

步骤二，对预处理的数据进行特征工程的处理，即结合业务知识、数据方法进行特征选择，选出最合适的特征进行建模；特征选择是指通过特征工程能够获得原始特征和衍生特征，由于模型的复杂度以及特征对预测结果的重要性，需对已有特征进行特征选择，从而获得建模特征；

步骤三，对数据进行正负样本的重采样，以期在模型构建中获得更好的准确率；

步骤四，使用双向长短时记忆网络BiLSTM来对金融数据进行异常类的检测，并优化参数获得期望模型；

步骤五，将步骤四得到的金融数据表示输入到神经网络，最后输入sigmoid函数进行分类，风险高为1，风险低为0，以此来表示风险的高低。

优选地，所述步骤二中的特征选择方法包括过滤法、嵌入法和集成法。

优选地，所述步骤三中的重采样为改进的合成少数类过采样技术MSMOTE。

本发明与现有技术相比具有以下的有益效果：

(1)本发明在保证数据完整性的情况下，更好的利用数据本身的特性，检测出数据中的异常数据，且神经网络算法的性能更加的高效，最终实现金融欺诈识别，得到最优的分析结果，提高了分析结果的准确率，降低了金融风险；

(2)本发明对于在金融数据中存在的不平衡数据集，造成数据的不平衡的类分布，采用重采样方法(改进的合成少数类过采样技术MSMOTE)对数据进行增广，以提高识别的准确率。

附图说明

图1为本发明的流程示意图；

图2为本发明的数据建模过程示意图；

图3为本发明的模型架构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

在金融交易反欺诈领域中，神经网络模型是一种欺诈风险量化模型，它运用大数据分析和模型挖掘技术，从客户、商户、产品、渠道等维度挖掘出风险特征，对金融交易进行风险评分，预测未知欺诈概率。模型方法论的核心思想是：通过学习海量客户的历史交易数据以及相关信息(如客户、商户等信息)，获取客户自身的历史交易行为模式，将当前交易行为与历史交易行为模式相比较，分析差异性，预测当前交易的风险程度；差异性越大，风险程度越高。

本发明提出了一种基于双向长短期记忆神经的金融反欺诈检测方法，对于金融反欺诈是金融领域内一个及其重要的一环，如今大多数的手段还是以来传统经验进行人为分别。本发明目的就是通过建立检测模型，再依据该检测模型来预测未知事件的风险发生可能性大小，进行风险评估供金融机构做出判断。技术方案的基本内容分为以下几个模块：数据预处理模块、特征工程模块、模型构建及评估模块模型架构。由于原始数据中由于往往会存在缺失值、重复值、异常值等，这就需要首先对原始数据进行预处理，不同数据维度所包含的信息有可能会存在交叉冗余，因此，需要对原始数据维度进行统计分析、关联性分析等处理方式，然后获得能够用于建模的数据。特征工程模块指原始数据经过预处理之后，需要对其进行特征工程，即结合业务知识、数据方法构建能够最终模型的特征集。特征选择是特征工程最重要的部分之一，特征选择是指通过特征工程能够获得很多特征，包括原始特征、衍生特征，但是考虑到模型的复杂度以及特征对预测结果的重要性，需要对已有特征进行特征选择，获得建模特征。常见的特征选择方法包括过滤法、嵌入法、集成法。最后是模型构建及评估模块，利用双向长短期记忆神经网络模型进行模型训练，选择合适的损失函数训练固定次数或待模型精度达到要求，逐步优化完成模型构建

具体来说，如图1～3所示，一种基于双向长短期记忆神经网络的金融反欺诈检测方法，包括下述步骤：

步骤二，对预处理的数据进行特征工程的处理，即结合业务知识、数据方法进行特征选择，选出最合适的特征进行建模；特征选择是指通过特征工程能够获得原始特征和衍生特征，由于模型的复杂度以及特征对预测结果的重要性，需对已有特征进行特征选择，从而获得建模特征；所述步骤二中的特征选择方法包括过滤法、嵌入法和集成法

步骤三，对数据进行正负样本的重采样，以期在模型构建中获得更好的准确率；所述步骤三中的重采样为改进的合成少数类过采样技术MSMOTE。

本发明在保证数据完整性的情况下，更好的利用数据本身的特性，检测出数据中的异常数据，且神经网络算法的性能更加的高效，最终实现金融欺诈识别，得到最优的分析结果，提高了分析结果的准确率，降低了金融风险；对于在金融数据中存在的不平衡数据集，造成数据的不平衡的类分布，采用重采样方法(改进的合成少数类过采样技术MSMOTE)对数据进行增广，以提高识别的准确率。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于双向长短期记忆神经网络的金融反欺诈检测方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于双向长短期记忆神经网络的金融反欺诈检测方法，其特征在于，所述步骤二中的特征选择方法包括过滤法、嵌入法和集成法。

3.根据权利要求1所述的基于双向长短期记忆神经网络的金融反欺诈检测方法，其特征在于，所述步骤三中的重采样为改进的合成少数类过采样技术MSMOTE。