CN114202336A

CN114202336A - 一种金融场景下的风险行为监测方法及系统

Info

Publication number: CN114202336A
Application number: CN202111511757.3A
Authority: CN
Inventors: 江远强
Original assignee: Baiweijinke Shanghai Information Technology Co ltd
Current assignee: Baiweijinke Shanghai Information Technology Co ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-18

Abstract

本发明公开了一种金融场景下的风险行为监测方法与系统，方法包含：获取用户样本数据并处理得到每个用户的综合信贷信息与风险标签；对每个用户的综合信贷信息与风险标签进行清洗转换加载，抽取多维数据预处理得到预处理数据；获取预处理数据中多维数据的特征向量和其对应的标签，抽取部分特征向量与标签组成训练集；对训练集中的特征向量进行筛选得到数据集；构建深度学习网络模型训练数据集得到识别风险行为的深度学习网络模型；将预处理数据输入深度学习网络模型中处理得到风险行为预测结果数据；根据风险行为预测结果数据对每个客户进行标注，系统包含数据获取模块、数据处理模块、数据筛选模块、模型构建模块、训练模块、预测模块、标注模块。

Description

一种金融场景下的风险行为监测方法及系统

技术领域

本发明涉及金融场景下的风险行为监测领域，具体涉及一种金融场景下的风险行为监测方法及系统。

背景技术

如今，随着移动支付的普及，互联网金融越发火热，甚至已经有替代传统营销模式的趋势，越来越多的商户也在互联网金融的浪潮中转型，通过种种非正常的手段来牟取暴利，破坏了商家活动的目的，损害了其他用户的正常利益，严重破坏了互联网经济市场的秩序；

为了能够找到批量薅羊毛用户，需要分析批量薅羊毛用户的网络行为特征，区分批量薅羊毛用户的网络行为与正常用户网络行为的不同之处，准确地检测批量薅羊毛用户，维护网络平台的健康发展，对此，提供一种金融场景下的风险行为监测方法及系统。

发明内容

本发明要解决的技术问题是随着移动支付的普及，互联网金融越发火热，甚至已经有替代传统营销模式的趋势，越来越多的商户也在互联网金融的浪潮中转型，通过种种非正常的手段来牟取暴利，破坏了商家活动的目的，损害了其他用户的正常利益，严重破坏了互联网经济市场的秩序，本发明提供一种金融场景下的风险行为监测方法，本发明还提供一种金融场景下的风险行为监测系统，采用平均值编码的方法，把原始字符串转换成了与预测标签相关的定量值，使其能够直接用于模型训练，有效利用了数据；提出构造社交特征的方法，通过从数据中挖掘出的社交网络，由点及面地识别薅羊毛用户；创新性地采用了LSTM神经网络模型，更好地利用了用户的随时间变化的局部特征；采用特定领域的设定比例系数，融合多个处理了不同特征的模型，因为不同的模型适合处理的特征不同，因此本发明使用不同类型的特征训练了多个模型，并且使用特定的比例系数进行融合，用以解决现有技术导致的缺陷。

为解决上述技术问题本发明提供以下的技术方案：

第一方面，一种金融场景下的风险行为监测方法，其中，包含以下步骤：

步骤A1：获取用户样本数据并处理得到每个用户的综合信贷信息与风险标签；

步骤A2：对每个用户的所述综合信贷信息与所述风险标签进行清洗转换加载，抽取多维数据进行预处理得到预处理数据；

获取预处理数据中多维数据的特征向量和其对应的标签，抽取部分特征向量与标签组成训练集；

步骤A3：对训练集中的特征向量进行筛选得到数据集；

步骤A4：构建深度学习网络模型训练数据集得到识别风险行为的深度学习网络模型；

步骤A5：将预处理数据输入识别风险行为的深度学习网络模型中进行处理得到风险行为预测结果数据；

步骤A6：根据风险行为预测结果数据对每个客户进行标注。

上述的一种金融场景下的风险行为监测方法，其中，步骤A1中对获取的所述综合信贷信息与风险标签进行预设算法训练得到风险评估模型；

采用随机欠采样的方法从所述综合信贷信息与风险标签中获取子样本后进行特征工程构建得到特征工程数据；

采用监督机器学习算法训练所述特征工程数据并测试得到评价指标数据；

步骤A2中所述预处理包含缺失值填充、对低基数定性字段进行独热编码、对高基数定性字段进行平均值编码；

所述多维数据包含设备IP、交易频率、交易时间、同一IP账户数、身份证信息、姓名；

步骤A4中构建深度学习网络模型训练数据集得到识别风险行为的深度学习网络模型的具体过程如下：

步骤B1：建立CatBoost模型、LightGBM模型、XGBoost模型、LSTM神经网络模型；

步骤B2：将所述CatBoost模型、所述LightGBM模型、所述XGBoost模型、所述LSTM神经网络模型、进行融合得到深度学习网络模型；

步骤B3：通过所述深度学习网络模型对所述数据集进行训练。

上述的一种金融场景下的风险行为监测方法，其中，步骤B1中采用设定比例对所述CatBoost模型、所述LightGBM模型、所述XGBoost模型、所述LSTM神经网络模型进行融合的具体步骤如下：

步骤B1a：训练子模型，使用训练集训练所述CatBoost模型、所述LightGBM模型、所述XGBoost模型、所述LSTM神经网络模型作为子模型，所述CatBoost模型和所述LightGBM模型使用统计特征、ID特征、时间特征来训练，所述XGBoost模型使用统计特征和社交特征来训练，所述LSTM神经网络模型使用时序特征来训练；

步骤B1b：使用子模型对测试集进行预测；

步骤B1c：使所述CatBoost模型的权重系数w₁为0.27、所述LSTM神经网络的权重系数w₂为0.29、所述LightGBM模型的权重系数w₃为0.33、所述XGBoost模型的权重系数w₄为0.11，将四个模型对测试集的预测结果y1、y2、y3、y4进行融合，得到最终的预测结果。

上述的一种金融场景下的风险行为监测方法，其中，构建深度学习网络模型训练数据集得到识别风险行为的深度学习网络模型还包含步骤B4：获取用户样本数据进行预测，具体步骤如下：

步骤B4a：采用二元分类器算法，根据与历史拉新活动信息对应的用户类型及注册数据信息，对设定预测模型进行训练，生成目标用户识别模型；

步骤B4b：以用户特征数据为输入信息，以标签为输出信息，建立神经网络进行训练；

步骤B4c：根据获取到用户账号误判的用户样本数据将训练样本中所有标签为恶意标签的样本提取出来，根据提取到的样本训练新的神经网络模型；

步骤B4d：利用神经网络算法对提取的特征进行训练，基于验证结果对隐藏层进行参数调整，直至得到稳定的神经网络。

上述的一种金融场景下的风险行为监测方法，其中，每个用户的所述综合信贷信息包含该用户的信贷信息以及与该用户存在联系的其他所有用户的信贷信息；

所述信贷信息包含贷款记录、还款记录；

所述风险标签记载有用户的征信信息；

所述特征工程包含特征缩放、异常值检测、特征筛选；

所述监督机器学习算法包含逻辑回归、K近邻算法、决策树、支持向量机。

上述的一种金融场景下的风险行为监测方法，其中，步骤A2中还包含对所述预处理数据进行异常数据处理。

第二方面，一种金融场景下的风险行为监测系统，其中，包含数据获取模块、数据处理模块、数据筛选模块、模型构建模块、训练模块、预测模块、标注模块；

所述数据获取模块用于获取用户样本数据，上述样本用户数据包括薅羊毛样本用户数据和非薅羊毛样本用户数据；

所述数据处理模块用于获取所述用户样本数据并进行处理得到每个用户的综合信贷信息与风险标签，还用于对每个用户的所述综合信贷信息与所述风险标签进行清洗转换加载，抽取多维数据进行预处理得到预处理数据，还用于获取预处理数据中多维数据的特征向量和其对应的标签，抽取部分特征向量与标签组成训练集；

所述数据筛选模块用于获取训练集并对所述训练集中的特征向量进行筛选得到数据集；

所述模型构建模块用于构建深度学习网络模型；

所述训练模块用于将所述数据集输入至所述深度学习网络模型中进行训练得到识别风险行为的深度学习网络模型；

所述预测模块用于获取预处理数据、识别风险行为的深度学习网络模型，并将所述预处理数据输入至所述识别风险行为的深度学习网络模型中进行处理得到风险行为预测结果数据；

所述标注模块用于根据所述风险行为预测结果数据对每个客户进行标注。

上述的一种金融场景下的风险行为监测系统，其中，还包含监控模块，所述监控模块内置有大规模的采样数据，通过历史数据回测调整模型剔除营销活动导致的风险跳跃。

第三方面，一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

依据上述本发明一种金融场景下的风险行为监测方法及系统提供的技术方案具有以下技术效果：

(1)本发明对高基数定性字段，采用了平均值编码的方法，把原始字符串转换成了与预测标签相关的定量值，使其能够直接用于模型训练，有效利用了数据；

(2)本发明针对金融领域中薅羊毛用户难以识别的问题，提出了构造社交特征的方法，通过从数据中挖掘出的社交网络，由点及面地识别薅羊毛用户；

(3)本发明针对金融用户的时序特征，创新性地采用了LSTM神经网络模型，更好地利用了用户的随时间变化的局部特征；

(4)本发明的模型融合方法，是采用了特定领域的设定比例系数，融合多个处理了不同特征的模型，因为不同的模型适合处理的特征不同，因此本发明使用不同类型的特征训练了多个模型，并且使用特定的比例系数进行融合。

附图说明

图1为本发明一种金融场景下的风险行为监测方法的流程图；

图2为本发明一种金融场景下的风险行为监测系统的结构示意图。

其中，附图标记如下：

数据获取模块101、数据处理模块102、数据筛选模块103、模型构建模块104、训练模块105、预测模块106、标注模块107。

具体实施方式

为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解，下结合具体图示，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

本发明的第一实施例是提供一种金融场景下的风险行为监测方法，目的是采用平均值编码的方法，把原始字符串转换成了与预测标签相关的定量值，使其能够直接用于模型训练，有效利用了数据；提出构造社交特征的方法，通过从数据中挖掘出的社交网络，由点及面地识别薅羊毛用户；创新性地采用了LSTM神经网络模型，更好地利用了用户的随时间变化的局部特征；采用特定领域的设定比例系数，融合多个处理了不同特征的模型，因为不同的模型适合处理的特征不同，因此本发明使用不同类型的特征训练了多个模型，并且使用特定的比例系数进行融合。

第一方面，如图1所示，第一实施例，一种金融场景下的风险行为监测方法，其中，包含以下步骤：

步骤A1：获取用户样本数据并处理得到每个用户的综合信贷信息与风险标签，用户样本数据包含所有用户数据，包含薅羊毛样本用户数据与非薅羊毛样本用户数据；

步骤A2：对每个用户的综合信贷信息与风险标签进行清洗转换加载，抽取多维数据进行预处理得到预处理数据；

步骤A3：对训练集中的特征向量进行筛选得到数据集；

步骤A6：根据风险行为预测结果数据对每个客户进行标注。

上述的一种金融场景下的风险行为监测方法，其中，步骤A1中对获取的综合信贷信息与风险标签进行预设算法训练得到风险评估模型；

采用监督机器学习算法训练特征工程数据并测试得到评价指标数据；

由于原始数据中对于批量薅羊毛用户并没有显性标注，所以无法判断原始数据中哪些用户是批量薅羊毛用户，为了增强数据，验证方案的有效性，本方案采用仿真批量薅羊毛用户的行为并将其作为负样本注入到样本集中，虽然数据集带有标签，但是这里设置标签是为了最终验证算法的效果，而非借助标签进行有监督或半监督的异常检测；首先进行数据预处理，采用随机欠采样的方法从综合信贷信息与风险标签中获取子样本后进行特征工程构建得到特征工程数据，通过随机欠采样能够防止正负样本不均衡的问题，风险行为检测的数据主要包含以下两部分：

一部分是正样本集，数据主要来源于网络数据指纹系统；

另一部分是负样本集，通过脚本模拟批量具有风险行为比如薅羊毛行为的用户得到的实验数据；

由于大部分网站为了确认注册者为真实用户，都会选择让用户填写手机号作为唯一标识，许多批量薅羊毛用户就抓住了这个漏洞，以大量购买手机号的方式来注册账号，网络数据指纹系统是用MEID号唯一标识用户的，因此对于使用固定硬件设备而频繁更换手机号以躲避检测的批量薅羊毛用户来说是非常有效的仿真流程，仿真流程具体如下：

行为仿真：借助脚本模拟批量薅羊毛用户的刷单行为；

数据抓包：通过抓包软件获取仿真过程中产生的数据包，分析数据包的属性并过滤出有效的数据包；

提取域名正则式：分析抓包得到的域名，提取通用的域名正则式并保存；

数据处理：对获取到的数据进行预处理，并统计用户的行为信息，再根据网络数据指纹系统的数据格式处理预处理后的数据；

数据存储：将获取到的数据保存到数据仓库中；

对子样本进行特征工程构建，构建特征工程主要包括两个方面的特征，对应于两种薅羊毛用户：

一种是根据用户的身份标识信息和商户、设备标识信息就可以识别的薅羊毛用户，这是初级薅羊毛用户，他们使用相同的终端设备登录多个账号，没有掩饰自身的身份，包括统计特征；

第二种是根据用户的行为模式才可以识别的薅羊毛用户，这是高级薅羊毛用户，他们已经学会隐瞒身份，包括时间特征、时序特征、社交特征；

特征工程：对数据集进行数据预处理操作，通过数据清洗、过滤等方式筛除数据中的无用字段以及无效字段，处理后的数据集用来做特征提取工作，根据数据集的特性提取出能够有效表达用户行为、区分正常与异常用户之间的特性的特征，并对这些特征做特征选择工作，保留下来最具代表性的、最有力的特征；

进一步的，对高基数定性字段进行平均值编码采用经验贝叶斯的方法，使用已有数据估算字段每个取值的后验概率，将每个取值的后验概率作为它的编码值，字段取值为k的后验概率计算公式如下：

其中，M表示薅羊毛用户中字段取值为k的用户数量，N表示所有的薅羊毛用户的数量，P为字段取值为k的后验概率；

进一步的，对于测试集中出现的新的字段取值，使用先验概率作为其编码值，先验概率即训练集中薅羊毛用户数量与所有用户数量的比值；

进一步的，进行特征工程构建的具体过程如下：

根据交易数据表中的每一笔交易的用户交易账户号和转入、转出账户号，建立带权无向图G(V，E)：每个用户的账户号是结点集V中的结点v_i，E中结点之间的边表示账户之间存在交易，账户之间的交易次数是边的权重，根据带权无向图计算账户v_i社交特征值的公式如下：

其中，V为结点集，V′表示薅羊毛用户的结点集V_j为，W为，F(v_i)越大，表示用户v_i与薅羊毛用户的交易越密切，是薅羊毛用户的可能性越大；

进一步的，对特征工程构造的特征进行筛选，采用的是基于树的特征选取方法，具体描述如下：使用CART分类与回归树，将所有特征输入CART分类与回归树模型模型，分类与回归树模型在构建树的过程中，在每一个分支结点计算所使用特征v_i进行划分得到左右子结点的基尼值的减少量作为特征v_i的贡献；将特征在每个分支节点的贡献相加，得到特征的重要度，再对所有特征的重要度作归一化处理，最后按照阈值0.02筛选，将特征重要度小于阈值的特征丢弃；

其中，聚类算法可以为K-Means算法、Mean-shift算法、DBSCAN算法等，利用内部的知识图谱平台进行统一的整合，达到将薅羊毛数据关联融合的目的，识别出企业客户数据中的潜在风险客户。

步骤A2中预处理包含缺失值填充、对低基数定性字段进行独热编码、对高基数定性字段进行平均值编码；

其中，缺失值填充：对不同类型的字段采用不同的填充方法，对操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识这13个定性字段，使用-1填充，对交易金额和账户余额这2个定量字段，使用众数填充；

对低基数定性字段进行独热编码：对操作状态、交易资金源类型、资金类型这3个取值少的属性，进行独热编码；

对高基数定性字段进行平均值编码：对客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、营销活动号编码、营销活动标识这10个字段采用平均值编码。

多维数据包含设备IP、交易频率、交易时间、同一IP账户数、身份证信息、姓名，样本数据的多维数据是指用户在网上商城等互联网平台上的账号信息、设备维度数据、行为数据、环境维度数据等各个维度的数据，任一用户的样本数据可包括以下至少一种：账号信息、设备维度数据、行为数据、环境维度数据等等，账号信息可以是一个或者多个，例如，用户在网上商城的账号信息、用户在用户设备(例如，手机、平板电脑等)上的账号信息，设备维度数据是指用户设备有关的信息，例如设备标识，行为数据是指用户在网上商城等互联网平台上的注册、登录、操作、用户等级、用户信用等级、等行为，环境维度数据是指用户设备的地理位置、IP地址等数据，本申请实施例不做限制；

步骤B3：通过深度学习网络模型对数据集进行训练。

上述的一种金融场景下的风险行为监测方法，其中，

步骤B1中采用设定比例对所述CatBoost模型、所述LightGBM模型、所述XGBoost模型、所述LSTM神经网络模型进行融合的具体步骤如下：

步骤B1b：使用子模型对测试集进行预测；

步骤B4a：采用二元分类器算法，根据与历史拉新活动信息对应的用户类型及注册数据信息，对设定预测模型进行训练，生成目标用户识别模型，目标用户的识别属于二元分类预测问题，因此，采用二元分类器算法，根据与历史拉新活动信息对应的用户类型及注册数据信息，对设定预测模型进行训练，以生成目标用户识别模型，其中，设定预测模型属于二元分类模型，可以为决策树、神经网络、逻辑回归、判断分析等二元分类器中任意一种，目标用户识别模型用于判断待识别用户是否为目标用户；

步骤B4b：以用户特征数据为输入信息，以标签为输出信息，建立神经网络进行训练，神经网络包括机器学习算法或深度神经网络，模型训练是以簇特征版面(即用户特征数据)为输入信息，风险标签为输出信息，建立深度神经网络(如：DNN、CNN等)对其进行训练，如果业务量数据级是百万级以内的，使用逻辑回归等机器学习算法也可以达到目的，建模开发人员可以根据实际情况进行建模、神经网络算法采用BP神经网络、神经网络算法通过十折交叉方法进行验证；

本技术方案中采用深度学习中的神经网络算法进行模板训练，神经网络由三部分组成：输入层，隐藏层，输出层，每一层均由单元(units)组成，输入层是由训练集中的示例特征向量传入，根据连接点的之间权重传递到下一层，输入层和输出层都只有一层，隐藏层的个数是任意。

本技术方案中采用BP神经网络来进行训练，BPNN作为多层神经网络训练的核心算法，根据损失函数来调整输出结点中的输入权向量，其目的是更新每个连接点的权重，从而减少预测值与真实值之间的差距，输入一条训练数据就会更新一次权重，并反方向(从输出层->隐藏层->输入层)来以最小化误差更新权重；在训练神经网络之前，需要初始化权重和偏向，初始化的权重为-1至1之间的随机值，每个单元存在一个偏向；

本技术方案中标记网络薅羊毛IP的特征向量为1，非网络薅羊毛IP的特征向量为0，以神经网络算法进行训练，并通过十折交叉方法进行验证。

步骤A5中将待处理用户数据输入上述训练好的用于识别薅羊毛用户的深度学习网络模型，得到上述待处理用户是否为薅羊毛用户的识别结果，例如，上述待处理用户为薅羊毛用户，从而提高薅羊毛用户识别的准确率和识别效率；

基于客户数据中的贷款实体与薅羊毛实体信息的关联关系采用PageRank算法训练风险评分模型；在输出薅羊毛识别结果时，同时利用风险评分模型进行风险评分；

通过步骤A5得到最终的预测结果，即每一个用户是薅羊毛用户的概率，再使用阈值0.715进行筛选，将预测概率大于0.715的用户判定为薅羊毛用户；

具体地，风控业务决策模块可以自动化风险分析评价并核实或者由人工进行风险分析评价并核实，以确认目标用户的用户类别是否为高风险用户，并针对高风险用户进行相应处置。

步骤A6中确认目标用户的用户类别是否为高风险薅羊毛用户，并针对高风险用户进行相应处置，有以下几种方式：生物探针技术可以在用户操作手机APP时采集到包括手指触面、线性加速度、触点间隔等数百个行为指标，然后根据历史行为数据，通过机器学习算法计算出其专属的行为模型；在用户操作手机时，可以将其当前操作习惯同历史模型比对，判断这个人是否为风险用户，实现用户的身份判定；这项技术常应用于反欺诈和防盗刷的场景中，将能减少甚至避免风险事件的发生。

上述的一种金融场景下的风险行为监测方法，其特征在于，每个用户的综合信贷信息包含该用户的信贷信息以及与该用户存在联系的其他所有用户的信贷信息；

信贷信息包含贷款记录、还款记录、历史数据，历史数据包含历史操作数据和历史交易数据，历史操作数据具体包含：历史操作数据中的操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置；

历史交易数据包括：商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、资金类型、营销活动号编码、营销活动标识、交易金额和账户余额，这些数据信息和操作日期和交易日期时间信息；

风险标签记载有用户的征信信息，用于表示授信审核过程中存在风险的信息，而与该用户存在联系的其他用户可以为与该用户之间存在通讯联系的用户；

特征工程构建包含特征缩放、异常值检测、特征筛选；

监督机器学习算法包含逻辑回归、K近邻算法、决策树、支持向量机。

上述的一种金融场景下的风险行为监测方法，其中，步骤A2中还包含对预处理数据进行异常数据处理，异常数据处理采用中位数填充方式进行处理，对上述预处理数据中的字符串类型的数据进行One-Hot编码，并基于上述预处理数据中的枚举类型数据的基数对上述预处理数据中的枚举类型的数据进行拆分；

上述预处理数据的数据会有特征值为空，或者特征值不符合要求的异常数据，例如，其中预处理数据中的用户数据包含：用户注册时间、用户等级、用户年龄、用户信用等级，待处理用户数据的等级会出现非P1-P3之外的数据，或者数据为空，或者待处理用户数据为NaN的数据，则对于上述用户的等级，采用中位数填充的方式进行处理；采用中位数填充方式填充上述待处理用户数据中的异常数据，对上述待处理用户数据中的字符串类型的数据进行One-Hot编码，并基于上述待处理用户数据中的枚举类型的数据的基数对上述待处理用户数据中的枚举类型的数据进行拆分，得到预处理后的用户数据，以使预处理后的用户数据和上述预先训练好的用于识别薅羊毛用户的深度学习网络模型中的数据特征保持一致，从而提高薅羊毛用户识别的准确率和识别效率；

待处理用户数据可以为预处理数据中的用户数据，预处理的方式可以包括对用户数据中的异常数据采用中位数填充方式、对用户数据中的字符串类型的数据进行One-Hot编码，还可以包括对用户数据中的枚举类型的数据进行拆分等方式；

通过采取对用户样本数据中的异常数据采用中位数填充，对用户样本数据中的字符串类型的数据通过One-Hot编码以及基于用户样本数据中的枚举类型的数据的基数对用户样本数据中的枚举类型的数据进行拆分，得到多个特征维度的枚举类型的数据的方式对用户样本数据进行预处理，得到预处理后的样本用户数据，提高了深度学习网络模型的训练数据量，减少过拟合情况的出现，将待处理用户数据输入深度学习网络模型中，识别薅羊毛用户，从而提高薅羊毛用户识别的准确率和识别效率。

本发明通过实时获取金融业务数据流，其中，金融业务数据流包含业务层数据和网络层数据，业务层数据包含用户的个人信息与社会信息，网络层数据包括用户的日常访问行为信息与活动区域范围信息，活动区域范围信息包括用户的地理位置，传统风控建模采用的是业务层数据，本发明在处理金融反欺诈过程中还进一步考虑了网络层数据，并从网络层数据中提取用户地理位置；进一步地，本发明利用大数据处理能力强的分布式流数据流引擎Flink从海量金融业务数据流中实时获取用户地理位置信息，并通过预先构造的预设风险GPS地理信息库实现对用户当前风险地理位置的实时计算，通过距离判定是否存风险异常的角度判读目标用户是否存在欺诈行为，此反欺诈方法弥补了传统检测方法中只使用业务层数据中的用户个人信息、个人社会信息的不足，同时考虑了网络层数据，并依赖大数据的力量实现薅羊毛行为监控的目标。

第二方面，如图2所示，第二实施例，一种金融场景下的风险行为监测系统，其中，包含数据获取模块101、数据处理模块102、数据筛选模块103、模型构建模块104、训练模块105、预测模块106、标注模块107；

所述数据获取模块101用于获取用户样本数据，上述样本用户数据包括薅羊毛样本用户数据和非薅羊毛样本用户数据；

所述数据处理模块102用于获取所述用户样本数据并进行处理得到每个用户的综合信贷信息与风险标签，还用于对每个用户的所述综合信贷信息与所述风险标签进行清洗转换加载，抽取多维数据进行预处理得到预处理数据，还用于获取预处理数据中多维数据的特征向量和其对应的标签，抽取部分特征向量与标签组成训练集；对上述待处理用户数据中的异常数据采用中位数填充方式进行处理，对上述待处理用户数据中的字符串类型的数据进行One-Hot编码，并基于上述待处理用户数据中的枚举类型的数据的基数对上述待处理用户数据中的枚举类型的数据进行拆分，得到预处理后的用户数据；

所述数据筛选模块103用于获取训练集并对所述训练集中的特征向量进行筛选得到数据集；

所述模型构建模块104用于构建深度学习网络模型；

所述训练模块105用于将所述数据集输入至所述深度学习网络模型中进行训练得到识别风险行为的深度学习网络模型；

所述预测模块106用于获取预处理数据、识别风险行为的深度学习网络模型，并将所述预处理数据输入至所述识别风险行为的深度学习网络模型中进行处理得到风险行为预测结果数据；

所述标注模块107用于根据所述风险行为预测结果数据对每个客户进行标注。

上述的一种金融场景下的风险行为监测系统，其中，还包含监控模块，所述监控模块内置有大规模的采样数据，通过历史数据回测调整模型剔除营销活动导致的风险跳跃，使得监控系统能够准确判别真实的薅羊毛场景。

第三方面，一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面方法的步骤。

例如，存储器可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等；

处理器可以是中央处理器(Central Processing Unit，CPU)等，或者是图像处理器(Graphic Processing Unit,GPU)存储器可以存储可执行指令；

处理器可以执行在存储器中存储的执行指令，从而实现本文描述的各个过程。

可以理解，本实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者；

其中，非易失性存储器可以是ROM(Read-OnlyMemory，只读存储器)、PROM(ProgrammableROM，可编程只读存储器)、EPROM(ErasablePROM，可擦除可编程只读存储器)、EEPROM(ElectricallyEPROM，电可擦除可编程只读存储器)或闪存。

易失性存储器可以是RAM(RandomAccessMemory，随机存取存储器)，其用作外部高速缓存；

通过示例性但不是限制性说明，许多形式的RAM可用，例如SRAM(StaticRAM，静态随机存取存储器)、DRAM(DynamicRAM，动态随机存取存储器)、SDRAM(SynchronousDRAM，同步动态随机存取存储器)、DDRSDRAM(DoubleDataRate SDRAM，双倍数据速率同步动态随机存取存储器)、ESDRAM(Enhanced SDRAM，增强型同步动态随机存取存储器)、SLDRAM(SynchlinkDRAM，同步连接动态随机存取存储器)和DRRAM(DirectRambusRAM，直接内存总线随机存取存储器)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器存储了如下的元素，升级包、可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序；

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

应用程序，包含各种应用程序，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。

本领域技术人员可以明白的是，结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现；

这些功能是以硬件还是软件方式来实现，取决于技术方案的特定应用和设计约束条件；

本领域技术人员可以针对每个特定的应用，使用不同的方式来实现所描述的功能，但是这种实现并不应认为超出本申请的范围。

在本申请实施例中，所公开的系统、装置和方法可以通过其它方式来实现；

例如，单元或模块的划分仅仅为一种逻辑功能划分，在实际实现时还可以有另外的划分方式；

例如，多个单元或模块或组件可以进行组合或者可以集成到另一个系统中；

另外，在本申请实施例中的各功能单元或模块可以集成在一个处理单元或模块中，也可以是单独的物理存在等等。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在机器可读存储介质中；

因此，本申请的技术方案可以以软件产品的形式来体现，该软件产品可以存储在机器可读存储介质中，其可以包括若干指令用以使得电子设备执行本申请实施例所描述的技术方案的全部或部分过程；

上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。

综上，本发明的一种金融场景下的风险行为监测方法及系统，采用平均值编码的方法，把原始字符串转换成了与预测标签相关的定量值，使其能够直接用于模型训练，有效利用了数据；提出构造社交特征的方法，通过从数据中挖掘出的社交网络，由点及面地识别薅羊毛用户；创新性地采用了QRNN模型(结合了CNN和RNN的网络结构)，更好地利用了用户的随时间变化的局部特征；采用特定领域的设定比例系数，融合多个处理了不同特征的模型，因为不同的模型适合处理的特征不同，因此本发明使用不同类型的特征训练了多个模型，并且使用特定的比例系数进行融合。

以上对发明的具体实施例进行了描述。需要理解的是，发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换，这并不影响发明的实质内容。

Claims

1.一种金融场景下的风险行为监测方法，其特征在于，包含以下步骤：

步骤A3：对训练集中的特征向量进行筛选得到数据集；

步骤A6：根据风险行为预测结果数据对每个客户进行标注。

2.如权利要求1所述的一种金融场景下的风险行为监测方法，其特征在于，步骤A1中对获取的所述综合信贷信息与风险标签进行预设算法训练得到风险评估模型；

3.如权利要求2所述的一种金融场景下的风险行为监测方法，其特征在于，步骤B1中采用设定比例对所述CatBoost模型、所述LightGBM模型、所述XGBoost模型、所述LSTM神经网络模型进行融合的具体步骤如下：

步骤B1b：使用子模型对测试集进行预测；

4.如权利要求3所述的一种金融场景下的风险行为监测方法，其特征在于，构建深度学习网络模型训练数据集得到识别风险行为的深度学习网络模型还包含步骤B4：获取用户样本数据进行预测，具体步骤如下：

5.如权利要求1-4任一项所述的一种金融场景下的风险行为监测方法，其特征在于，每个用户的所述综合信贷信息包含该用户的信贷信息以及与该用户存在联系的其他所有用户的信贷信息；

所述信贷信息包含贷款记录、还款记录；

所述风险标签记载有用户的征信信息；

所述特征工程包含特征缩放、异常值检测、特征筛选；

6.如权利要求5所述的一种金融场景下的风险行为监测方法，其特征在于，步骤A2中还包含对所述预处理数据进行异常数据处理。

7.一种金融场景下的风险行为监测系统，其特征在于，包含数据获取模块、数据处理模块、数据筛选模块、模型构建模块、训练模块、预测模块、标注模块；

所述模型构建模块用于构建深度学习网络模型；

8.如权利要求7所述的一种金融场景下的风险行为监测系统，其特征在于，还包含监控模块，所述监控模块内置有大规模的采样数据，通过历史数据回测调整模型剔除营销活动导致的风险跳跃。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法的步骤。