CN110415099A

CN110415099A - 一种金融信贷诈骗识别方法、系统及电子设备

Info

Publication number: CN110415099A
Application number: CN201810399280.6A
Authority: CN
Inventors: 侯宪龙; 尚田丰; 赖清泉; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS; Merchants Union Consumer Finance Co Ltd
Current assignee: Shenzhen Institute of Advanced Technology of CAS; Merchants Union Consumer Finance Co Ltd
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2019-11-05

Abstract

本申请涉及一种金融信贷诈骗识别方法、系统及电子设备。所述金融信贷诈骗识别方法包括：步骤a：接收最新用户行为数据，对距离所述最新用户行为数据最近的K个历史用户行为数据进行重采样，生成重采样数据；步骤b：利用所述重采样数据学习新的子模型；步骤c：将所述新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正，得到新的诈骗识别总模型；步骤d：通过新的诈骗识别总模型区分出最新用户行为数据中的正负样本，对所述最新用户行为数据进行诈骗识别。本申请利用重采样算法和新的集成流程，可以减缓正负样本数量不均衡带来的影响，同时以集成小量新模型的方式快速修正总模型，可以自适应系统应用环境的概念迁移。

Description

一种金融信贷诈骗识别方法、系统及电子设备

技术领域

本申请属于金融反诈骗技术领域，特别涉及一种金融信贷诈骗识别方法、系统及电子设备。

背景技术

传统金融信贷诈骗识别主要依靠数理统计结合人工识别，消耗大量人力资源的同时也造成了系统泛化能力差的问题。随着互联网技术的普及，传统金融领域迎来了创新，逐渐发展为金融科技，而金融信贷诈骗识别系统是互联网金融科技的一个重要研究领域，其既继承了互联网技术中的高效率性，又具备传统金融业务的复杂性。金融信贷诈骗系统利用用户使用产品时留下的数据和记录，通过其核心算法，为金融平台计算出每一位用户的风险值，从而降低风险，提高利润。而金融信贷诈骗系统最为核心的部分为其核心算法，现有的核心算法可以分为两类：

一、基于规则的金融信贷诈骗识别方法

作为传统金融信贷诈骗识别方法的代表，基于规则的金融信贷诈骗识别模型是目前应用最为广泛的模型。该模型通过领域专家按照当前业务定制一系列的规则，生成规则列表。当一个用户需要进行信用风险评估的时候，按照此规则列表进行匹配，最后根据规则的匹配情况来最终确定用户的诈骗风险评级。该方法存在的缺点在于：

a):无法解决数据特征数量过大的情况；基于规则的方法需要专家对不同特及其组合进行评估，最后再总结出规则，而对于大规模数量的特征，一一枚举每一种情况是不可能的。

b):无法解决概念漂移问题；由于规则是不能够动态该改变的，对于日新月异的应用环境，静态的规则的准确性会越来越差。

二、基于机器学习的信贷诈骗识别方法

随着近期机器学习技术的兴起，大部分新模型采用机器学习的方法来建立模型。有别于基于规则的模型，基于机器学习的模型不需要借助过多领域专家的经验，模型能够有效地对给予模型本身的特征进行筛选，作用大的特征会占据模型较大的影响因子。基于机器学习的信贷诈骗识别方法存在的缺点在于：

a):无法解决概念漂移问题；目前大部分基于机器学习的诈骗识别模型大多数都是静态的，只保留有一次学习过程，对于日新月异的应用环境，静态的模型会逐渐退化。

b):容易受到数据种类不均衡的影响；正常情况下，正常用户的数量远大于诈骗用户的数量，而目前大多数采用的机器学习模型为监督学习模型，其容易受到这种样本种类不均匀性的影响，从而影响模型的准确性。

目前，由于我国移动互联网金融人口规模巨大，其授信系统也同时伴随着特殊性，复杂性，使得金融诈骗识别面临不少问题。我国的机器学习在金融信贷诈骗领域的应用还处于起步阶段，面临了很多亟待解决的实际问题，总结起来包含以下四个方面：

1、概念迁移

概念迁移表示模型随时间变化的现象。概念迁移在金融欺骗识别系统中被定义为正常用户或欺骗者连续不断地改变自己的行为。如果系统错误地认为这种行为可疑并冻结用户账号，将导致用户体验率下低，造成不可估量的间接经济损失。

2、正负样本比例严重偏差

在金融诈骗识别问题中，诈骗样本(正样本)相对于正常消费样本(负样本)的比例是非常小的，通常低于0.05％，这使得在监督学习过程中，分类模型由于被大量的负样本所“遮蔽”，从而很难发现正样本的存在模式。

3、数据特征繁多

基于互联网金融的数据特征繁多，冗余的数据特征使得系统效率低下，甚至容易引起过拟合。基于主要的数据特征训练的分类器能够挖掘用户的消费习惯，对于互联网金融来说，平均有20多项数据特征，有的甚至多达100+项，传统地利用人工的方式来筛选特征组合基本是不可能的。

4、即时侦测难

由于前面提到的概念迁移，正负样本严重偏差以及数据维度、规模庞大的问题，大部分的现有方法很难做到准确、高效的即时侦测。但具备即时侦测能力的模型才具有部署应用的价值。

对于现有技术存在的上述问题，目前大多数的解决方案是适当地引入人工调节。尽管引入人工调节能够缓解上述问题的带来的负面影响，但人工调节会耗费不菲的人力资源，同时，人工的主观性会对模型的鲁棒性带来新的负面影响。因此，有必要提供一种新的信贷诈骗识别系统，能够在缓解非均衡性数据带来的影响、提升诈骗识别准确率的同时，可以实现自适应的、即时的信贷诈骗识别。

发明内容

本申请提供了一种金融信贷诈骗识别方法、系统及电子设备，旨在至少在一定程度上解决现有技术中的上述技术问题之一。

为了解决上述问题，本申请提供了如下技术方案：

一种金融信贷诈骗识别方法，包括以下步骤：

步骤a：接收最新用户行为数据，对距离所述最新用户行为数据最近的K个历史用户行为数据进行重采样，生成重采样数据；

步骤b：利用所述重采样数据学习新的子模型；

步骤c：将所述新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正，得到新的诈骗识别总模型；

步骤d：通过新的诈骗识别总模型区分出最新用户行为数据中的正负样本，对所述最新用户行为数据进行诈骗识别。

本申请实施例采取的技术方案还包括：在所述步骤a中，所述对距离最新用户行为数据最近的K个历史用户行为数据进行重采样具体为：采用EasyEnsemble算法对距离最新用户行为数据最近的K个历史用户行为数据进行重采样；所述EasyEnsemble算法通过对多数类样本进行欠采样，与少数类样本形成训练数据集并训练模型，记为子模型i；并重复n次，形成一个子模型集成，结果输出是一个由n个子模型组成的集成模型。

本申请实施例采取的技术方案还包括：在所述步骤c中，所述将所述新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正具体为：通过更新框架和遗忘框架将新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正。

本申请实施例采取的技术方案还包括：所述更新框架每隔固定时间τ利用最新的一批基于EasyEnsemble处理的K个数据集训练模型，单个模型或设定过去时间段内的基于权重指数衰减的M个模型组成的ensemble用于对没有标签的用户行为数据进行测试。

本申请实施例采取的技术方案还包括：所述遗忘框架在每次训练前调用全部或部分最近的历史少数类样本，并“遗忘”相应的多数类样本，只利用最新的K个数据集中的多数类样本与所述全部或部分最近的历史少数类样本进行EasyEnsemble过程。

本申请实施例采取的另一技术方案为：一种金融信贷诈骗识别系统，包括：

数据接收模块：用于接收最新用户行为数据；

重采样模块：用于对距离所述最新用户行为数据最近的K个历史用户行为数据进行重采样，生成重采样数据；

模型训练模块：用于利用所述重采样数据学习新的子模型；

模型修正模块：用于将所述新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正，得到新的诈骗识别总模型；

诈骗识别模块：用于通过新的诈骗识别总模型区分出最新用户行为数据中的正负样本，对所述最新用户行为数据进行诈骗识别。

本申请实施例采取的技术方案还包括：所述重采样模块对距离最新用户行为数据最近的K个历史用户行为数据进行重采样具体为：采用EasyEnsemble算法对距离最新用户行为数据最近的K个历史用户行为数据进行重采样；所述EasyEnsemble算法通过对多数类样本进行欠采样，与少数类样本形成训练数据集并训练模型，记为子模型i；并重复n次，形成一个子模型集成，结果输出是一个由n个子模型组成的集成模型。

本申请实施例采取的技术方案还包括：所述模型修正模块将新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正具体为：通过更新框架和遗忘框架将新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正。

本申请实施例采取的又一技术方案为：一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的金融信贷诈骗识别方法的以下操作：

步骤b：利用所述重采样数据学习新的子模型；

相对于现有技术，本申请实施例产生的有益效果在于：本申请实施例的金融信贷诈骗识别方法、系统及电子设备利用EasyEnsemble算法和新的集成流程的方式，可以减缓正负样本数量不均衡带来的负面影响，同时以集成小量新模型的方式来达到快速修正总模型的效果，可以自适应系统应用环境的概念迁移，相比于现有技术，本申请无论是从应用效率，还是应用准确率都有明显的优势。

附图说明

图1是本申请实施例的金融信贷诈骗识别方法的流程图；

图2是本申请实施例的EasyEnsemble算法的运作机理示意图；

图3为K＝3,M＝4时更新框架的逻辑结构示意图；

图4为K＝2,M＝4时遗忘框架的逻辑结构示意图；

图5是本申请实施例的金融信贷诈骗识别系统的结构示意图；

图6是本申请实施例提供的金融信贷诈骗识别方法的硬件设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

请参阅图1，是本申请实施例的金融信贷诈骗识别方法的流程图。本申请实施例的金融信贷诈骗识别方法包括以下步骤：

步骤100：接收最新用户行为数据；

步骤200：采用重采样算法对距离最新用户行为数据最近的K个历史用户行为数据进行重采样，生成重采样数据；

在步骤200中，本申请采用EasyEnsemble算法进行重采样，EasyEnsemble算法是一种欠采样算法，该算法通过重采样和集成学习的方式，来缓解正负样本数据种类不均衡的影响。EasyEnsemble算法采用有放回的抽样方式对多数类样本(即正常用户行为数据样本)进行欠采样，即随机地从多数类中抽取与少数类样本数量(即诈骗用户行为数据样本)相当的样本，与少数类样本形成训练数据集并训练模型，所得模型记为子模型i；并重复n次这样的过程，(共有n个子模型或全部少数类与不同的部分多数类被训练了n次)，从而形成一个子模型集成，并通过投票的方式确定模型的结果输出，EasyEnsemble算法的输出是一个由若干个子模型组成的集成模型。具体如图2所示，为本申请实施例的EasyEnsemble算法的运作机理示意图。其中浅色方框部分表示多数类样本，深色方框部分表示少数类样本，浅色虚线表示采样过程，深色虚线表示复制过程。在本申请其他实施例中，也可以采用其他重采样算法进行数据重采样。

步骤300：利用重采样数据学习新的子模型；

在步骤300中，本申请可应用于金融信贷平台的个人风险评估、企业信贷风险评估等等多种业务场景中，而新子模型的算法可以根据不同的业务场景或者效果进行调节。

步骤400：通过更新框架和遗忘框架将新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正，得到新的诈骗识别总模型；

在步骤400中，为了使诈骗识别模型能随着时间的推进自适应应用环境，避免概念迁移的影响，本申请提出两种新的框架——更新框架和遗忘框架，以EasyEnsemble算法输出的集成模型作为基础模型进行集成，最终生成诈骗识别总模型。

具体地，更新框架每隔固定时间τ利用最新的一批基于EasyEnsemble处理后的K个数据集训练模型用以适应用户行为改变。单个模型或一定过去时间段内的基于权重指数衰减的M个模型组成的ensemble用来对没有标签的用户行为数据进行测试。具体如图3所示，为K＝3,M＝4时更新框架的逻辑结构示意图。

遗忘框架的运作原理与更新框架基本一致；但遗忘框架在每次训练前都会调用全部或部分最近的历史少数类样本，并“遗忘”相应的多数类样本，只利用最新的K个数据集中的多数类样本与上述全部或部分少数类样本进行EasyEnsemble过程。具体如图4所示，为K＝2,M＝4时遗忘框架的逻辑结构示意图。

步骤500：使用新的诈骗识别总模型对最新用户行为数据进行判断，区分出最新用户行为数据中的正负样本，从而对最新用户行为数据进行诈骗识别。

请参阅图5，是本申请实施例的金融信贷诈骗识别系统的结构示意图。本申请实施例的金融信贷诈骗识别系统包括数据接收模块、重采样模块、模型训练模块、模型修正模块和诈骗识别模块。

数据接收模块：用于接收最新用户行为数据；

重采样模块：用于采用重采样算法对距离最新用户行为数据最近的K个历史用户行为数据进行重采样，生成重采样数据；本申请采用EasyEnsemble算法进行重采样，EasyEnsemble算法是一种欠采样算法，该算法通过重采样和集成学习的方式，来缓解正负样本数据种类不均衡的影响。EasyEnsemble算法采用有放回的抽样方式对多数类样本(即正常用户行为数据样本)进行欠采样，即随机地从多数类中抽取与少数类样本数量(即诈骗用户行为数据样本)相当的样本，与少数类样本形成训练数据集并训练模型，所得模型记为子模型i；并重复n次这样的过程，(共有n个子模型或全部少数类与不同的部分多数类被训练了n次)，从而形成一个子模型集成，并通过投票的方式确定模型的结果输出，EasyEnsemble算法的输出是一个由若干个子模型组成的集成模型。具体如图2所示，为本申请实施例的EasyEnsemble算法的运作机理示意图。其中浅色方框部分表示多数类样本，深色方框部分表示少数类样本，浅色虚线表示采样过程，深色虚线表示复制过程。在本申请其他实施例中，也可以采用其他重采样算法进行数据重采样。

模型训练模块：用于利用重采样数据学习新的子模型；其中，本申请可应用于金融信贷平台的个人风险评估、企业信贷风险评估等等多种业务场景中，而新子模型的算法可以根据不同的业务场景或者效果进行调节。

模型修正模块：用于通过更新框架和遗忘框架将新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正，得到新的诈骗识别总模型；其中，为了使诈骗识别模型能随着时间的推进自适应应用环境，避免概念迁移的影响，本申请提出两种新的框架——更新框架和遗忘框架，以EasyEnsemble算法输出的集成模型作为基础模型进行集成，最终生成诈骗识别总模型。

遗忘框架的运作原理与更新框架基本一致；但遗忘框架在每次训练前都会调用全部或部分最近的历史少数类样本，并“遗忘”相应的多数类样本，只利用最新的K个数据集中的多数类样本与上述全部或部分少数类样本进行EasyEnsemble过程。具体如图4所示，为K＝2,M＝4时遗忘框架的逻辑结构示意图。本申请以集成小量新模型的方式来达到快速修正总模型的效果，可以自适应系统应用环境的概念迁移，相比于现有技术，本申请无论是从应用效率，还是应用准确率都有明显的优势。

诈骗识别模块：用于使用新的诈骗识别总模型对最新用户行为数据进行判断，区分出最新用户行为数据中的正负样本，从而对最新用户行为数据进行诈骗识别。

为了验证本申请的可行性，以使用招联消费金融有限公司2016年7月至2017年6月的有效运营数据进行测试。测试结果显示，在使用不同的集成框架都能到达实际生产效果，并优于人工识别。

图6是本申请实施例提供的金融信贷诈骗识别方法的硬件设备结构示意图。如图6所示，该设备包括一个或多个处理器以及存储器。以一个处理器为例，该设备还可以包括：输入系统和输出系统。

处理器、存储器、输入系统和输出系统可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例的处理方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入系统可接收输入的数字或字符信息，以及产生信号输入。输出系统可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器中，当被所述一个或者多个处理器执行时，执行上述任一方法实施例的以下操作：

步骤b：利用所述重采样数据学习新的子模型；

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例提供的方法。

本申请实施例提供了一种非暂态(非易失性)计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行以下操作：

步骤b：利用所述重采样数据学习新的子模型；

本申请实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行以下操作：

步骤b：利用所述重采样数据学习新的子模型；

本申请实施例的金融信贷诈骗识别方法、系统及电子设备利用EasyEnsemble算法和新的集成流程的方式，可以减缓正负样本数量不均衡带来的负面影响，同时以集成小量新模型的方式来达到快速修正总模型的效果，可以自适应系统应用环境的概念迁移，相比于现有技术，本申请无论是从应用效率，还是应用准确率都有明显的优势。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种金融信贷诈骗识别方法，其特征在于，包括以下步骤：

步骤b：利用所述重采样数据学习新的子模型；

2.根据权利要求1所述的金融信贷诈骗识别方法，其特征在于，在所述步骤a中，所述对距离最新用户行为数据最近的K个历史用户行为数据进行重采样具体为：采用EasyEnsemble算法对距离最新用户行为数据最近的K个历史用户行为数据进行重采样；所述EasyEnsemble算法通过对多数类样本进行欠采样，与少数类样本形成训练数据集并训练模型，记为子模型i；并重复n次，形成一个子模型集成，结果输出是一个由n个子模型组成的集成模型。

3.根据权利要求2所述的金融信贷诈骗识别方法，其特征在于，在所述步骤c中，所述将所述新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正具体为：通过更新框架和遗忘框架将新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正。

4.根据权利要求3所述的金融信贷诈骗识别方法，其特征在于，所述更新框架每隔固定时间τ利用最新的一批基于EasyEnsemble处理的K个数据集训练模型，单个模型或设定过去时间段内的基于权重指数衰减的M个模型组成的ensemble用于对没有标签的用户行为数据进行测试。

5.根据权利要求4所述的金融信贷诈骗识别方法，其特征在于，所述遗忘框架在每次训练前调用全部或部分最近的历史少数类样本，并“遗忘”相应的多数类样本，只利用最新的K个数据集中的多数类样本与所述全部或部分最近的历史少数类样本进行EasyEnsemble过程。

6.一种金融信贷诈骗识别系统，其特征在于，包括：

数据接收模块：用于接收最新用户行为数据；

模型训练模块：用于利用所述重采样数据学习新的子模型；

7.根据权利要求6所述的金融信贷诈骗识别系统，其特征在于，所述重采样模块对距离最新用户行为数据最近的K个历史用户行为数据进行重采样具体为：采用EasyEnsemble算法对距离最新用户行为数据最近的K个历史用户行为数据进行重采样；所述EasyEnsemble算法通过对多数类样本进行欠采样，与少数类样本形成训练数据集并训练模型，记为子模型i；并重复n次，形成一个子模型集成，结果输出是一个由n个子模型组成的集成模型。

8.根据权利要求7所述的金融信贷诈骗识别系统，其特征在于，所述模型修正模块将新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正具体为：通过更新框架和遗忘框架将新的子模型融合至现有诈骗识别模型中，对现有诈骗识别模型进行修正。

9.根据权利要求8所述的金融信贷诈骗识别系统，其特征在于，所述更新框架每隔固定时间τ利用最新的一批基于EasyEnsemble处理的K个数据集训练模型，单个模型或设定过去时间段内的基于权重指数衰减的M个模型组成的ensemble用于对没有标签的用户行为数据进行测试。

10.根据权利要求9所述的金融信贷诈骗识别系统，其特征在于，所述遗忘框架在每次训练前调用全部或部分最近的历史少数类样本，并“遗忘”相应的多数类样本，只利用最新的K个数据集中的多数类样本与所述全部或部分最近的历史少数类样本进行EasyEnsemble过程。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述1至5任一项所述的金融信贷诈骗识别方法的以下操作：

步骤b：利用所述重采样数据学习新的子模型；