CN108510280A

CN108510280A - 一种基于移动设备行为数据的金融欺诈行为预测方法

Info

Publication number: CN108510280A
Application number: CN201810245200.1A
Authority: CN
Inventors: 朱敏; 闵薇; 李瑞霞; 吕恒山; 隋欣; 袁克皋
Original assignee: Nanjing Krypton Information Technology Co Ltd; Shanghai Krypton Information Technology Co Ltd
Current assignee: Nanjing Krypton Information Technology Co Ltd; Shanghai Krypton Information Technology Co Ltd
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2018-09-07
Anticipated expiration: 2038-03-23
Also published as: CN108510280B

Abstract

本发明公开了一种基于移动设备行为数据的金融欺诈行为预测方法，包括以下步骤：从目标应用程序的历史操作数据中筛选出用户行为数据；对用户行为数据进行独热编码并添加相应的时间戳；获取用户行为路径特征；根据编码数据和用户行为路径特征构建循环神经网络模型，获取用户的欺诈风险概率。本发明对用户在移动设备上的行为数据进行挖掘和建模，客观、量化的挖掘出用户的行为习惯，并给出欺诈风险的预测概率，使得此前利用率较低的行为数据发挥出更大的价值，完善了现有的用户风险评估体系。

Description

一种基于移动设备行为数据的金融欺诈行为预测方法

技术领域

本发明涉及金融风控技术领域，特别是涉及一种基于移动设备行为数据的金融欺诈行为预测方法。

背景技术

消费金融是指经中国银行业监督管理委员会批准，以小额、分散为原则，为个人用户提供以消费为目的的贷款的非银行金融业务。这类业务具有单笔授信额度小、审批速度快、无需抵押担保、贷款期限短等优点。

中国的消费金融业务在2017年经历了高速的发展，根据网贷之家的统计，截止到2017年10月，共有2000余家相关机构，完成了每月2000亿元以上的交易，新兴的消费金融产品很好的满足了大众的金融需求。然而，另一方面，由于消费金融产品自身的一些业务特点，例如无担保无抵押，目标客户通常没有被传统金融服务覆盖，导致其容易受到欺诈团伙的攻击。目前相关金融业务的坏账率普遍偏高，在20％左右，因此，反欺诈的需求是巨大的。

和传统金融的反欺诈工作不同，消费金融的风控数据缺乏和个人征信直接相关的信息，例如抵质押物、征信信息、工作证明、社保信息等。不过与之相对的，是来自移动设备的丰富的行为数据。手机和app(应用程序)近几年的高速发展，使得来自移动设备的数据在体量和质量上都发生了极大的飞跃，目前的消费金融业务也几乎都由用户的移动设备发起。如果消费金融机构能够很好的利用app(应用程序)中记录的行为数据，也就可以客观的了解一个用户长期的金融行为习惯，并进一步评估用户的金融风险水平。

不过，从移动设备的行为数据中解读消费者的欺诈风险，存在一些难点，包括：

1)行为数据的采集方案：行为数据体量大，种类多，简单的不加筛选的采集所有数据，会给进一步的数据挖掘带来存储、计算的负担和性能上的噪音，另一方面，过多数据的采集也会增加数据传输的压力，影响到用户体验。

2)行为数据的编码和特征工程：传统方法在处理行为数据时的编码和特征工程工作需要卷入专家经验，或是大量的数据分析工作，一方面是人工和时间成本相当高，另一方面是常用的特征工程方案逻辑复杂，代码量也较大。

3)用户行为路径的挖掘：传统方法对于行为数据的分析偏向经典的时间序列方法，因此更多关注的是数据中是否存在周期性的规律或是长期的大趋势。然而，用户行为习惯也会反映在页面浏览顺序，以及页面上的操作顺序中，传统方法对于这样精细的行为路径的信息挖掘，是比较有限的。

发明内容

本发明的目的是克服现有技术的不足，设计出一种基于移动设备行为数据的金融欺诈行为预测方法。

为达到上述目的，本发明所采用的技术方案是：

一种基于移动设备行为数据的金融欺诈行为预测方法，具体包括以下步骤：

步骤1：从目标应用程序中采集用户的历史操作数据，根据制定的数据采集方案从历史操作数据中筛选出用户行为数据；

步骤2：对所述用户行为数据进行独热编码并添加相应的时间戳，生成编码数据；

步骤3：获取用户行为路径特征；

具体地，制定特征提取工程，根据特征提取工程将用户行为数据按照用户编号、进程编号和会话编号分别切分为用户粒度、进程粒度和会话粒度这三组用户行为路径特征；

步骤4：根据所述编码数据和用户行为路径特征构建循环神经网络模型，从而获取用户的欺诈风险概率。

进一步地，所述步骤3中制定特征提取工程的具体步骤为：

步骤3.1：汇总单个用户在app中所有的行为数据，把反映用户行为路径特征的数据按照时间顺序排列，组成一个页面操作序列，

步骤3.2：在正常用户和欺诈团伙的群体中，分别寻找高频页面序列片段，计算相应序列片段在各自群体中的出现比例；

步骤3.3：将正常用户和欺诈团伙这两个群体的高频序列片段进行对比，计算相同序列片段在两个群体中的出现比例差值，筛选出现比例差别最大的20个序列片段，作为最能体现两个群体行为路径差别的序列片段；

步骤3.4：观察用户历史行为中是否出现上一步中筛选出的序列片段，若出现，则将这20个序列片段构成一组20维的特征向量，作为用户行为路径特征。

进一步地，所述步骤3.2中高频页面序列片段通过PrefixSpan算法获取得到。

进一步地，所述步骤4中循环神经网络模型主要包括两个层，分别为长短时记忆层和全连接层；

所述构建循环神经网络模型的具体步骤为：

步骤4.1：定义循环神经网络模型的输入数据格式：分别从所述编码数据、用户粒度特征、进程粒度特征和会话粒度特征中选取出训练数据，作为神经网络的输入数据；

步骤4.2：将选取出的数据传输至循环神经网络模型的长短时记忆层，进行神经网络模型的训练，通过Dropout方法和自适应钜估计算法优化网络中的参数，使长短时记忆层从输入数据中自动提取出与欺诈风险相关的深度学习特征，并将该特征传输给全连接层；

步骤4.3：全连接层将接收到的特征数据转换为用户欺诈风险概率，所述深度学习特征和用户欺诈风险概率均从循环神经网络模型中输出。

进一步地，所述步骤4.1中从所述编码数据、用户粒度特征、进程粒度特征和会话粒度特征中选取出的训练数据是指用户在目标应用程序上购买金融产品前的最近100次行为数据。

进一步地，所述用户行为数据为分类数据，在步骤2中通过独热编码的方式将该数据转换为一组向量形式的编码数据。

进一步地，所述用户行为数据为连续数据，在步骤2中，首先，通过离散化方法将该数据转化为分类数据，然后再通过独热编码将其转换为一组向量形式的编码数据。

进一步地，所述用户行为数据包括用户编号、页面浏览行为数据、页面点击行为数据、页面输入行为数据和页面提交行为数据。

进一步地，所述页面浏览行为数据包括浏览页面名称、浏览页面开始时间、浏览页面离开时间、浏览记录所属的会话编号、该条浏览记录所属的进程编号；

所述页面点击行为数据包括点击行为所属的页面名称、点击行为所属的控件名称、点击时间、点击行为所属的会话编号、点击行为所属的进程编号；

所述页面输入行为数据包括输入行为所属的页面名称、输入行为所属的控件名称、输入开始时间、输入结束时间、输入行为是否完成、输入过程中的修改次数、输入行为所属的会话编号、输入行为所属的进程编号；

所述页面提交行为数据包括提交行为所属的页面名称、提交行为是否成功、提交行为返回的结果、提交行为的时间、提交行为所属的会话编号、提交行为所属的进程编号。

进一步地，所述步骤1中的数据采集方案是根据大多数用户在目标应用程序中的使用操作习惯制定而成的。

本发明的积极有益效果：

1、本发明的基于移动设备行为数据的金融欺诈行为预测方法，对用户在移动设备上的行为数据进行挖掘和建模，通过循环神经网络模型客观、量化的挖掘出用户的行为习惯，并给出欺诈风险的预测概率，使得此前利用率较低的行为数据发挥出更大的价值，完善了现有的用户风险评估体系。

2、本发明通过采用独热编码的方式将用户行为的原始数据翻译成深度学习框架可以接受的格式，不但完整保留了原始数据的信息量，而且编码逻辑清晰、简明，代码的可维护性和可拓展性都比传统的编码逻辑有了提升。

3、本发明重点关注了用户在使用app时的页面浏览顺序和页面操作顺序，利用PrefixSpan算法，把这部分用户行为习惯的信息转化成用户行为路径的特征，是对传统的时间序列思路的特征工程的良好补充，有效解决了传统时间序列分析方法信息挖掘较为粗糙的缺陷。

4、本发明针对如何从用户行为数据中挖掘出具有风控价值的数据的问题，充分利用了移动设备上丰富的行为数据，以及深度学习从简单的行为数据上挖掘目标函数的能力，相比传统的处理行为数据的建模方法，性能和效率都有所提升。

附图说明

为了更清楚得说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明金融欺诈行为预测方法的流程图。

图2为筛选用户行为数据的流程图。

图3为获取用户行为路径特征的流程图。

图4为构建循环神经网络模型的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

结合图1说明本实施方式，本发明的基于移动设备行为数据的金融欺诈行为预测方法，对用户在移动设备上的行为数据进行挖掘和建模，通过循环神经网络模型客观、量化的挖掘出用户的行为习惯，并给出欺诈风险的预测概率，使得此前利用率较低的行为数据发挥出更大的价值，完善了现有的用户风险评估体系。

带有长短时记忆结构的循环神经网络的训练过程中涉及到了一些算法，包括：1、带有长短时记忆结构的网络节点设计，常被称为LSTM，Long Short-Term Memory，LSTM通过在节点上添加门控结构的方式，使得长序列中当前时间单元可以同时接收到时间邻近的单元和时间久远的单元发出的信号，从而解决梯度消失的问题；2、Dropout方法，这是一种正则化的技术，用于解决过拟合的问题；3、自适应矩估计(ADAM，adaptive momentestimator)算法，用于参数调优，相比传统的随机梯度下降方法，ADAM方法改进了迭代过程中的一阶矩和二阶矩的估计方法。

本发明的基于移动设备行为数据的金融欺诈行为预测方法，具体包括以下步骤：

步骤1：从目标应用程序中采集用户的历史操作数据，根据制定的数据采集方案从历史操作数据中筛选出用户行为数据。

具体地，首先制定出数据采集方案。所述数据采集方案是根据大多数用户在目标应用程序中的使用操作习惯制定而成的收集方案，主要收集大多数用户在目标应用程序中的常用操作流程，对于每次操作，用户有哪些习惯的操作行为，对收集到的数据进行归纳、总结，从而制定出数据采集方案，包括用户编号、页面浏览行为数据、页面点击行为数据、页面输入行为数据和页面提交行为数据等。每个用户均拥有一个唯一的用以识别其身份的用户编号。

然后，从目标应用程序中采集用户(当前使用者)的历史操作数据。

最后，根据制定的数据采集方案从历史操作数据中筛选出用户行为数据，用于后续的数据分析和挖掘。

所述用户行为数据包括用户编号、页面浏览行为数据、页面点击行为数据、页面输入行为数据和页面提交行为数据。

对于页面浏览行为数据，主要采集的数据包括浏览页面名称、浏览页面开始时间、浏览页面离开时间、该条浏览记录所属的会话编号(session ID)、该条浏览记录所属的进程编号(process ID)；

对于页面点击行为数据，主要采集的数据包括点击行为所属的页面名称、点击行为所属的控件名称、点击时间、该点击行为所属的会话编号(session ID)、该点击行为所属的进程编号(process ID)；

对于页面输入行为数据，主要采集的数据包括输入行为所属的页面名称、输入行为所属的控件名称、输入开始时间、输入结束时间、输入行为是否完成、输入过程中的修改次数、该输入行为所属的会话编号(session ID)、该输入行为所属的进程编号(processID)；

对于页面提交行为数据，主要采集的数据包括提交行为所属的页面名称、提交行为是否成功、提交行为返回的结果、提交行为的时间、该提交行为所属的会话编号(sessionID)、该提交行为所属的进程编号(process ID)。

其中，会话(session)指的是用户在app中的一组连续的操作行为，且操作过程中没有返回移动设备的操作系统主界面，这样的一组行为会被赋予一个会话编号(sessionID)。用户在返回主界面之后的一组操作行为会被定义为一个新的会话，赋予新的sessionID。

进程(process)指的是用户在app中的一组操作行为，且这些操作行为发生在app的一次打开和关闭之间，即操作过程中没有退出app，但是可能存在返回操作系统主界面的动作。用户在退出app之后，重新打开app的一组操作行为被定义为一个新的进程，赋予新的process ID。

步骤2：对所述用户行为数据进行独热编码，以将用户行为数据转变为循环神经网络模型可以识别的数据格式。

所述用户行为数据可为分类数据或连续数据。对于分类数据，例如用户行为的类别、行为所属页面名称、行为发生时间的小时数、分钟数等数据，直接利用独热编码(one-hot encoding)的方式，把数据转换成一组向量形式的编码。对于连续数据，例如输入行为的修改次数、页面停留时间(页面结束时间-页面开始时间)、当前事件距离上次事件的时间(当前事件的开始时间-上次事件的结束时间)等数据，先通过离散化的方式把连续数据转化成分类数据，再通过独热编码的方式转换为一组向量形式的编码。

然后，为编码后的数据添加相应的时间戳，即行为开始时间和结束时间，这些时间戳会以unix时间的格式存储，标识行为发生的先后顺序。这样，便将用户行为数据转变为了可用于深度学习框架的编码数据。

步骤3：获取用户行为路径特征。

具体地，首先，制定一个特征提取工程，用于从用户行为数据中提炼出一些反应用户行为路径的特征，这些特征可补充输入到深度学习框架(即循环神经网络模型)中。

所述制定特征提取工程具体包括以下四个步骤：

(1)、汇总单个用户在app中所有的行为数据，把反映用户行为路径特征的数据按照时间顺序排列，组成一个页面操作序列；反应用户行为路径特征的数据可以为用户的用户编号、进程编号或会话编号；

(2)、将所有用户划分为正常用户和欺诈团伙这两个群体，在正常用户和欺诈团伙的群体中，分别寻找高频页面序列片段，计算相应序列片段在各自群体中的出现比例；这里的“所有用户”指的是制定数据采集方案时，选择的所有收集调查对象；高频页面序列片段通过PrefixSpan算法(Prefix-Projected Pattern Growth)获取得到。这个算法用于从长序列中挖掘出满足最小支持度的频繁序列。和传统序列挖掘算法GSP,FreeSpan相比，PrefixSpan算法不需要产生候选序列，且投影数据库缩小的很快，内存消耗比较稳定，作频繁序列模式挖掘的时候效率更高。

(3)、将正常用户和欺诈团伙这两个群体的高频序列片段进行对比，计算相同序列片段在两个群体中的出现比例差值，筛选出现比例差别最大的20个序列片段，作为最能体现两个群体行为路径差别的序列片段；

(4)、观察用户历史行为(当前使用者的历史行为)中是否出现上一步中筛选出的序列片段，若出现，则将这20个序列片段构成一组20维的特征向量，作为该用户的行为路径特征。

然后，根据上述特征提取工程的四个步骤，将用户行为数据(当前使用者的行为数据)按照用户编号、进程编号和会话编号分别切分为用户粒度、进程粒度和会话粒度这三组用户行为路径特征。

本实施例中，以用户粒度为例，具体说明该特征的提炼过程：首先，汇总单个用户在app中的所有操作行为，把操作行为所属页面的名称按照时间顺序排列，组成一个页面操作序列；其次，在正常用户和欺诈团伙的群体中，分别寻找高频页面序列片段，计算相应序列片段在各自群体中的出现比例，这里的“高频页面序列片段”指的是出现频率较高的序列片段；然后，将正常用户和欺诈团伙这两个群体的高频序列片段进行对比，计算相同序列片段在两个群体中的出现比例差值，筛选出现比例差别最大的20个序列片段(即选取出这两个群体中所有的相同序列片段，计算对应两个序列片段之间的出现比例差值，按差值大小进行排序，选取出前20个出现比例差值较大的序列片段)，作为最能体现两个群体行为路径差别的序列片段；最后，观察用户历史行为中是否出现上一步中筛选出的序列片段，若出现，则将这20个序列片段构成一组20维的特征向量，反映用户粒度的行为路径。这样，便将用户的所有操作行为按照用户粒度做了切分。

对于进程粒度和会话粒度这两个特征，可按照上述提炼步骤，将行为数据按照进程编号或者会话编码切分成进程粒度或者会话粒度的页面操作序列，并重复上述特征工程中的计算逻辑，最终可以得到用户粒度、进程粒度和会话粒度的三组特征，这些特征会从不同的数据粒度来体现用户的行为路径特征。

所述循环神经网络模型主要包括两个层，分别为长短时记忆层和全连接层；

所述构建循环神经网络模型的具体步骤为：

首先，定义循环神经网络模型的输入数据格式；

分别从所述编码数据、用户粒度特征、进程粒度特征和会话粒度特征中选取出用户在目标应用程序上购买金融产品前的最近100次行为数据，将这100次事件按照时间顺序进行排列，每一个事件是一组向量，作为神经网络的训练数据，输入到神经网络内。

然后，将选取出的数据(训练数据)传输至循环神经网络模型的长短时记忆层，进行神经网络模型的训练，通过Dropout方法和自适应钜估计算法优化网络中的参数，使长短时记忆层从输入数据中自动提取出与欺诈风险相关的深度学习特征，并将该特征传输给全连接层，所述深度学习特征是一组向量。

最后，全连接层将接收到的特征数据转换为一个0-1之间的用户欺诈风险概率，用于标识一个用户的欺诈风险水平。所述深度学习特征和用户欺诈风险概率均从循环神经网络模型中输出。

由于消费金融机构在评估用户欺诈风险时，除了移动设备的行为数据，也有少量其他数据源可以利用，例如用户填写的基本资料，等，LSTM层生成的深度学习的特征可以和其他维度的特征一起作为输入，用于进一步的风控模型的训练。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解；依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种基于移动设备行为数据的金融欺诈行为预测方法,其特征在于，具体包括以下步骤：

步骤3：获取用户行为路径特征；

2.根据权利要求1所述的基于移动设备行为数据的金融欺诈行为预测方法，其特征在于，所述步骤3中制定特征提取工程的具体步骤为：

步骤3.1：汇总单个用户在app中所有的行为数据，把反映用户行为路径特征的数据按照时间顺序排列，组成一个页面操作序列；

3.根据权利要求2所述的基于移动设备行为数据的金融欺诈行为预测方法，其特征在于，所述步骤3.2中高频页面序列片段通过PrefixSpan算法获取得到。

4.根据权利要求1所述的基于移动设备行为数据的金融欺诈行为预测方法，其特征在于，所述步骤4中循环神经网络模型主要包括两个层，分别为长短时记忆层和全连接层；

所述构建循环神经网络模型的具体步骤为：

5.根据权利要求4所述的基于移动设备行为数据的金融欺诈行为预测方法，其特征在于，所述步骤4.1中从所述编码数据、用户粒度特征、进程粒度特征和会话粒度特征中选取出的训练数据是指用户在目标应用程序上购买金融产品前的最近100次行为数据。

6.根据权利要求1所述的基于移动设备行为数据的金融欺诈行为预测方法，其特征在于，所述用户行为数据为分类数据，在步骤2中通过独热编码的方式将该数据转换为一组向量形式的编码数据。

7.根据权利要求1所述的基于移动设备行为数据的金融欺诈行为预测方法，其特征在于，所述用户行为数据为连续数据，在步骤2中，首先，通过离散化方法将该数据转化为分类数据，然后再通过独热编码将其转换为一组向量形式的编码数据。

8.根据权利要求1、6、7中任一项所述的基于移动设备行为数据的金融欺诈行为预测方法，其特征在于，所述用户行为数据包括用户编号、页面浏览行为数据、页面点击行为数据、页面输入行为数据和页面提交行为数据。

9.根据权利要求8所述的基于移动设备行为数据的金融欺诈行为预测方法，其特征在于，所述页面浏览行为数据包括浏览页面名称、浏览页面开始时间、浏览页面离开时间、浏览记录所属的会话编号、该条浏览记录所属的进程编号；

10.根据权利要求1所述的基于移动设备行为数据的金融欺诈行为预测方法，其特征在于，所述步骤1中的数据采集方案是根据大多数用户在目标应用程序中的使用操作习惯制定而成的。