CN109035003A

CN109035003A - 基于机器学习的反欺诈模型建模方法和反欺诈监控方法

Info

Publication number: CN109035003A
Application number: CN201810722677.4A
Authority: CN
Inventors: 肖尊雷; 赵钢; 庞闪闪; 刘婷婷; 康丽娜; 李翠静
Original assignee: Beijing Jiufu Pratt & Whitney Information Technology Co Ltd
Current assignee: Beijing Jiufu Pratt & Whitney Information Technology Co Ltd
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2018-12-18

Abstract

本发明公开了一种基于机器学习的反欺诈模型建模方法和反欺诈监控方法，所述基于机器学习的反欺诈模型建模方法包括：从数据库中提取建模所需的样本数据，并对每个样本数据进行标签化处理；从数据库中匹配每个样本数据的关联信息，结合标签化处理结果建立基于用户的多维度征信数据，对征信数据进行数据处理并划分为训练集数据和测试集数据；利用训练集数据训练并调整反欺诈模型的参数；利用测试集数据测试反欺诈模型，获得测试集数据为欺诈用户的欺诈概率值；利用获得的欺诈概率值与对应的实际样本情况进行比对，根据比对结果判断所述反欺诈模型的稳定性并制定反欺诈统计阈值。本方法通过标签处理和有监督的机器学习，能够有效降低欺诈风险。

Description

基于机器学习的反欺诈模型建模方法和反欺诈监控方法

技术领域

本发明涉及金融数据评估领域，特别是涉及一种基于机器学习的反欺诈模型建模方法和反欺诈监控方法。

背景技术

互联网技术的发展造就了新一轮的金融革命，在国家发展普惠金融的政策背景下更是蓬勃发展，然而过快的增长也蕴藏着极大的盲目性，相伴而生的是日趋严重的信贷风险。尤其是当前团体骗贷、违约等群体性欺诈行为逐渐高科技化、脚本化的严峻现实带来的巨大损失，对于金融机构而言，针对具有信贷风险的业务的反欺诈监控成为抵御金融风险的重中之重。

目前，在金融机构中比较常见的是针对放贷后的风险控制，在中国专利文件中，一名为《一种贷后风险监控的方法和系统》申请号为CN201710848318.9，介绍了一种贷后风险监控的方法，包括根据贷款申请信息中的预定个人地址信息查询地图获得坐标数据；对所述坐标数据两两计算得到坐标距离，对每个所述坐标距离的预设距离范围内的贷款合同进行聚类分析，得到所述贷款申请信息对应的欺诈可能性数值；若所述欺诈可能性数值大于阈值，则申请所述贷款申请信息对应的贷后反欺诈调查。该发明虽然通过对贷款人的地址数据进行处理得到相应的坐标数据并进行后续的评估，在一定程度上确实提高了贷后风险监控的效率，但是存在仅使用了地址信息作为数据特征信息，不能全面地考量和监控贷后风险；同时该方法使用的是无监督的聚类分析，准确度难以满足金融机构风险控制的要求。对于金融机构来说贷后的风险固然需要控制，但相对于反欺诈监控而言，针对放贷前的评估和监控才是解决反欺诈问题的源头。

近一段时间以来，在金融机构中比较常见的贷前监控是利用申请贷款业务的用户的授权信息进行信用评估，依托于经验和信用评估数据相结合的方式建立基于人工经验构建的静态或动态的规则库。在中国专利文件中，一名为《一种基于动态规则库的消费金融反欺诈系统与方法》申请号为CN201711126660.4，介绍了一种基于动态规则库的消费金融反欺诈系统与方法，该系统包括数据准备模块、基于动态规则库的反欺诈引擎模块及建模人机接口模块。该方法步骤如下：(1)、基于存量数据建立标签体系：(2)、对标签样本数据开展EDA探索：(3)、在入模变量初步筛选基础上，利用决策树获取变量特征重要性排序，确定最终入模变量；(4)、基于建立的决策树模型生成动态规则库：(5)、利用基于动态规则库的反欺诈引擎模块进行决策。该发明虽然提升了规则库的安全性和可用性以避免破解风险，但所使用的数据样本的数量太少，无法满足基于机器学习所需的训练集数据和测试集数据，从而无法形成大规模的基于统计数据的判断阈值；并且所述方法的部分步骤依赖于人工经验，无法直接给出对申请用户的评估结果和决策建议。

发明内容

为了解决上述问题至少之一，本发明第一方面提供一种基于机器学习的反欺诈模型建模方法，包括：

从数据库中提取建模所需的样本数据，并对每个所述样本数据进行标签化处理；

从数据库中匹配每个所述样本数据的关联信息，结合所述标签化处理结果建立基于用户的多维度征信数据，对所述征信数据进行数据处理并划分为训练集数据和测试集数据；

利用所述训练集数据训练并调整所述反欺诈模型的参数；

利用所述测试集数据测试所述反欺诈模型，获得所述测试集数据是欺诈用户的欺诈概率值，利用获得的所述欺诈概率值与对应的实际样本情况进行比对，根据比对结果判断所述反欺诈模型的稳定性并制定反欺诈统计阈值。

进一步地，所述标签化处理为根据所述样本数据对应的用户历史信贷情况建立用户标签。

进一步地，所述关联信息包括所述样本数据对应的用户授权数据和用户行为数据。

进一步地，对所述征信数据进行数据处理包括异常值处理、类别型变量的处理、缺失值处理和特征标准化处理。

进一步地，利用所述训练集数据训练所述反欺诈模型包括：

利用所述训练集数据训练迭代决策树GBDT模型，通过交叉验证和网格搜索调整所述GBDT模型的参数；

利用所述训练集数据重新训练调整参数后的GBDT模型并生成特征重要性指标；

利用所述特征重要性指标筛选出所述训练集数据中的关键维度数据；

利用所述关键维度数据对逻辑回归LR模型进行训练并调整所述LR模型的参数，以构建所述反欺诈模型。

进一步地，所述测试反欺诈模型包括：

将每个所述测试集数据视为新申请用户，输入所述反欺诈模型，经计算获得对应的欺诈概率值；

将所述用户欺诈概率值与对应的实际样本情况进行比对，根据比对结果判断所述反欺诈模型是否稳定，若稳定则制定反欺诈统计阈值，否则放弃所述反欺诈模型。

进一步地，使用所述数据库中的所述样本数据以外的用户数据作为测试数据，进一步判断所述反欺诈模型的稳定性并调整反欺诈统计阈值。

本发明第二方面提供一种利用第一方面所述反欺诈模型的反欺诈监控方法，

获取新申请贷款用户的用户数据；

从数据库中匹配所述新申请贷款用户的关联信息，建立基于用户的多维度征信数据；

将所述多维度征信数据输入所述反欺诈模型进行计算并输出所述用户的欺诈概率值；

将所述用户的欺诈概率值与反欺诈统计阈值进行比对，并输出所述用户的决策建议。

本发明第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。

本发明第四方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第二方面所述的方法。

本发明的有益效果如下：

本发明针对目前日益严峻的信贷欺诈行为制定了适用于金融机构的反欺诈模型的建模方法和反欺诈的监控方法，所述模型一方面使用训练集训练非线性GBDT模型以筛选关键维度数据，并通过筛选出的关键维度数据对线性LR模型进行训练，使得所述反欺诈模型既具备非线性模型的高性能，又具备线性模型的可解释性。另一方面加入了对原始样本数据的标签化处理、以及测试过程中通过测试样本的测试结果制定反欺诈统计阈值，建立了完整的基于机器学习的反欺诈模型，进一步提高对欺诈信贷的甄别能力，并有效降低了金融机构的信贷风险。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出本发明的一个实施例所述反欺诈模型建模方法的流程图；

图2示出本发明的一个实施例所述用户的多维度征信数据表；

图3示出本发明的一个实施例所述用户的多维度征信数据表的说明表；

图4示出本发明的一个实施例所述反欺诈模型训练方法的流程图；

图5示出本发明的一个实施例所述反欺诈模型测试方法的流程图；

图6示出本发明的一个实施例所述KS曲线图；

图7示出本发明的一个实施例所述ROC曲线图；

图8示出本发明的一个实施例所述提升图；

图9示出本发明的一个实施例所述累计提升图；

图10示出本发明的另一个实施例所述KS曲线图；

图11示出本发明的另一个实施例所述ROC曲线图；

图12示出本发明的另一个实施例所述反欺诈监控方法的流程图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

在金融机构评估新申请信贷业务的用户是否为欺诈用户的应用场景中，通常需要通过大量的、具有可参考的信贷用户的记录和相关数据来构建反欺诈模型，如图1所示，本发明的一个实施例提供了一种基于机器学习的反欺诈模型建模方法，包括：从数据库中提取建模所需的样本数据，并对每个所述样本数据进行标签化处理；从数据库中匹配每个所述样本数据的关联信息，结合所述标签化处理结果建立基于用户的多维度征信数据，对所述征信数据进行数据处理并划分为训练集数据和测试集数据；利用所述训练集数据训练并调整所述反欺诈模型的参数；利用所述测试集数据测试所述反欺诈模型，获得所述测试集数据是欺诈用户的欺诈概率值，利用获得的所述欺诈概率值与对应的实际样本情况进行比对，根据比对结果判断所述反欺诈模型的稳定性并制定反欺诈统计阈值。

在一个具体的示例中，包括以下步骤：

S101：从数据库中提取建模所需的样本数据，并对每个所述样本数据进行标签化处理。

首先确定选取数据的范围，例如选取首次借款申请时间在2017年1月到3月并且有还款表现的用户10000人作为样本数据。

然后根据用户的还款表现，对每个所述样本数据进行标签化处理，即根据所述样本数据对应的用户历史信贷情况建立用户标签。例如通过用户分期还款的表现定义该用户的好坏标签。以一个用户的样本数据为例，若首次还款的逾期天数小于等于30天则定义为好用户，即优质用户，用0表示；相对的，若首次坏款的逾期天数大于30天则定义为坏用户，即需要重点监控的用户，用1表示；如此完成了对一个样本的标签化处理，并将该标签作为目标变量。

S103：从数据库中匹配每个所述样本数据的关联信息，结合所述标签化处理结果建立基于用户的多维度征信数据，对所述征信数据进行数据处理并划分为训练集数据和测试集数据。

从数据库中关联匹配上述10000个样本用户的关联信息，所述关联信息包括所述样本数据对应的用户授权数据和用户行为数据。如图2和图3所示，图2为关联后的所述样本数据对应的多维度征信记录，一个样本数据(用户)对应一条记录，图3为所述征信数据的变量说明。

其中，所述用户的授权数据包括但不限于个人信息、芝麻分、运营商和银行卡等相关信息，所述个人信息包括身份信息、年龄、性别等；所述芝麻分为第三方根据用户的身份信息获取的所述用户的个人信用状况，是具有较高权重的考量指标；所述运营商为根据手机号码的入网时间、入网年限、通信消费水平、通信账单的缴纳情况等等，在现代社会，手机成为每个人必不可少的移动工具，用户通过手机可以实现多种日常生活的需求，因此通过一个用户的手机的运营商的使用情况能够了解该用户的一定信息，例如一个用户的入网年限大于10年、且消费水平保持平稳或稳中有升的状态并且缴纳账单及时，则在一定程度上反应出该用户为一个稳定的用户；所述银行卡为用户的信用卡和借记卡的情况，尤其是信用卡的使用情况和还款情况是具有较高权重的考量指标。

所述用户的行为数据包括但不限于登录本平台的次数、网页/网站的点击次数、点击频率等信息，根据用户的行为数据可以进一步获得该用户的关注方向，也可以从移动程度上作为考核该用户的一个方向。

结合所述标签化处理结果和所述用户的授权数据和行为数据建立如图2所示的基于用户的多维度征信数据表。

然后通过对上述10000个样本用户的征信数据进行数据处理，包括异常值处理、类别型变量的处理、缺失值处理和特征标准化处理。其中：

第一、进行异常值处理：对所述多维度征信数据表中的10000条数据的每个变量(每列)分别进行数据分布统计，并根据统计结果进行异常值处理。例如，根据数据分布统计，发现变量var10这一列中出现了异常值，则使用该变量的中位数去替换异常值。

第二、进行缺失值处理：分别统计所述多维度征信数据表中全部变量的缺失率，并根据统计的缺失率进行处理。例如，根据缺失率统计，发现变量var51这一列中的缺失率等于88.3％，在处理中将缺失率超过60％定义为缺失率过高，即失去参考价值，因此直接删除这一列数据。再例如，根据缺失率统计，发现变量var2是类别型变量，取值为NULL(缺失)占比为28.3％，属于具有参考价值的数据，将该变量的缺失值NULL作为单独的一类，并用-1替换；类似地，对于数字型变量的缺失情况，假设变量var1的缺失率处于可参考范围，则对于缺失项进行处理，例如可以先统计该变量非缺失值的中位数，然后用中位数填补缺失值。

第三、进行类别型变量的分组处理：分别统计所述多维度征信数据表中的全部变量，例如变量var3是类别型变量，对应的10000个用户使用了33种取值，则该变量的取值个数已经超过了10个，在本实施例中采用决策树将该变量的33个取值进行重新分为4组，然后对变量var3的10000个数值进行重新分配，处理后变为1,2,3,4四种取值以便于计算和选择。

第四、进行特征标准化处理：经过上述三个步骤的处理后，类别型变量如var2,var3等采取Onehot编码方式进行处理，数字型变量如var1等采用Z-score标准化的方法进行处理。

至此，完成了多维度征信数据的处理，将所述10000个用户样本，按照一定的比例随机划分训练集和测试集，在本实施例中，使用7:3的比例，即训练集使用7000个样本用于训练模型，测试集使用3000个样本用于预测、评估模型的效果并确定反欺诈统计阈值。

值得注意的是，本实施例所采用的数据处理方式和样本比例划分仅用于解释说明，本领域技术人员应当根据具体实际需求选择数据处理和比例划分的方式和方法，以便于后续模型训练和测试为设计准则。

S105：利用所述训练集数据训练并调整所述反欺诈模型的参数。如图4所示，所述训练集数据训练所述反欺诈模型包括：

在本实施例中，所述反欺诈模型是由两种基础模型GBDT模型和LR模型组合的混合模型，既带有GBDT树模型的天然特征处理属性，又不失LR广义线性模型方便易用的特点，能够大幅提升反欺诈模型的学习能力。其中，梯度提升树(Gradient Boosting DecisionTree，GBDT)是一种迭代决策树算法，该算法由多棵决策树组成，将所有树的结论累加起来作为最终结论，属于泛化能力(generalization)较强的算法，尤其适用于搜索排序的机器学习模型。逻辑回归(Logistic Regression,LR)模型在线性回归的基础上套用逻辑函数，尤其适用于金融行业的风险控制的概率计算，具有较为准确的预测值。在本实施例中使用训练集数据对非线性GBDT模型进行训练，并通过交叉验证和网格搜索调整GBDT模型的参数，然后使用调整好参数的GBDT模型对所述训练集数据进行训练，然后生成特征重要性指标，将所述特征重要性指标作为线性LR模型的训练数据，对LR模型进行训练以构建最终的反欺诈模型。

S1051：利用所述训练集数据训练迭代决策树GBDT模型，通过交叉验证和网格搜索调整所述GBDT模型的参数。GBDT模型的特点在于不像决策树模型那样仅由一棵决策树构成，而是由多棵决策树构成，通常设置有上百棵树，而且每棵树规模都较小(即树的深度会比较浅)。使用模型的时候，对于输入的一个样本实例会赋予一个初值，遍历每一棵决策树，例如使用每一棵树去拟合前N棵树的残差，即每一棵树都依赖与前一棵树的结果，通过交叉验证和网格搜索调整所述GBDT模型的参数，使得所述GBDT模型更符合反欺诈模型的应用。其中通过网格搜索对GBDT模型的参数进行优化，通过交叉验证对优化了参数的GBDT模型进行验证，验证所述GBDT模型的拟合程度，本实施例中使用sklearn工具包中的GridSearchCV函数进行验证。

S1053：利用所述训练集数据重新训练调整参数后的GBDT模型并生成特征重要性指标。经重新训练后，通过GBDT模型中的各决策树对训练集数据进行决策分类，找出所述训练集数据中多个维度的征信数据之间的关联关系，并生成特征重要性指标。

S1055：利用所述特征重要性指标筛选出所述训练集数据中的关键维度数据。利用所述特征重要性指标对训练集数据进行筛选，并挑选出权重高并且具有关联关系的征信数据。

S1057：利用所述关键维度数据对逻辑回归LR模型进行训练并调整所述LR模型的参数，以构建所述反欺诈模型。

将所述具有关联关系的征信数据对所述LR模型进行训练，调整LR模型的参数，最终获得反欺诈模型。

S107：利用所述测试集数据测试所述反欺诈模型，获得所述测试集数据是欺诈用户的欺诈概率值，利用获得的所述欺诈概率值与对应的实际样本情况进行比对，根据比对结果判断所述反欺诈模型的稳定性并制定反欺诈统计阈值。如图5所示，进一步包括：

S1071：将每个所述测试集数据视为新申请用户，输入所述反欺诈模型，经计算获得对应的欺诈概率值。

首先，使用测试集数据作为训练好的反欺诈模型的输入，将每一个测试数据(及每一个测试用户数据)通过反欺诈模型计算并输出预测结果，所述反欺诈模型会针对每一个测试样本输出该样本为欺诈用户的概率。

S1073：将所述用户欺诈概率值与对应的实际样本情况进行比对，根据比对结果判断所述反欺诈模型是否稳定，若稳定则制定反欺诈统计阈值，否则放弃所述反欺诈模型。

然后，根据所述测试集数据的标签以及预测获得的概率值计算出相应的ks，auc指标值，同时绘出如图6和图7所示的ks、roc曲线以及提升图曲线用于判断所述反欺诈模型是否稳定。

如图6所示为本实施例绘制的ks曲线图，ks曲线图是将测试样本预测为坏(欺诈用户)的概率，如图所示将该曲线图进行十等分并按照违约概率的降序进行排列，计算每一等分中违约用户(图示bad)与正常用户(图示good)的百分比的累计分布，绘制出两者之间的差异(图示ks_curve)。使用所述ks曲线判断模型预测能力，ks值越大则模型预测能力越强。在本实施例中，所述违约用户和正常用户之间的差异的最大值ks为0.568059041897，即表明本实施例提供的反欺诈模型比较稳定，在一定程度上能够甄别出申请信贷业务的用户是欺诈用户，能够满足金融机构对欺诈用户的评估需求。

如图7所示为本实施例绘制的roc曲线图，roc曲线图将绘制出的曲线之下的面积称为auc统计量，0<＝auc<＝1。即对角线以上的图形越高，模型效果越好，图7能够表明本实施提供的反欺诈模型比较稳定，在一定程度上能够甄别出申请信贷业务的用户是欺诈用户，能够满足金融机构对欺诈用户的评估需求。

在本实施例中，将测试集数据经反欺诈模型预测得到的3000个概率值按照从高到低的顺序划分为10等分，然后与所述测试集数据对应的样本的实际标签进行比对，并计算实际标签为好/或客户的实际占比，得到表1所述的提升图数据，并根据表1绘制图8和图9。

表1

等分

等分规模

坏客户

占比

累计占比

好客户

占比

累计占比

随机占比

随机累计

0.00％

1

299

131

35.31％

168

6.41％

10.00％

2

299

85

22.91％

58.22％

214

8.17％

14.59％

10.00％

20.00％

3

299

70

18.87％

77.09％

229

8.74％

23.33％

10.00％

30.00％

4

299

47

12.67％

89.76％

252

9.62％

32.95％

10.00％

40.00％

5

299

18

4.85％

94.61％

281

10.73％

43.68％

10.00％

50.00％

6

299

11

2.96％

97.57％

288

11.00％

54.68％

10.00％

60.00％

7

299

3

0.81％

98.38％

296

11.30％

65.98％

10.00％

70.00％

8

299

4

1.08％

99.46％

295

11.26％

77.24％

10.00％

80.00％

9

299

2

0.54％

100.00％

297

11.34％

88.58％

10.00％

90.00％

10

308

0

0.00％

100.00％

299

11.42％

100.00％

10.00％

100.00％

如表1所示，在所述3000个预测概率值中概率得分最高的第一组的299个测试样本中，实际标签为坏客户的用户为131个，占3000个测试集数据中实际标签为坏客户的371个的35.31％，对应的第一组中的好客户为168个，占3000个测试集数据中实际标签为好客户的6.41％。所述随机占比为随机定义的10％为坏客户的参考数据。因此，从图8的提升图的柱状图中可以看出，经过所述反欺诈模型得到的欺诈概率的概率值的降序排序中，所述实际坏客户的占比逐渐降低、所述实际好客户的占比也是逐渐增高。从图9的累计提升图的曲线图中可以看出，所述累计坏客户的累计占比的趋势与实际标签的情况相符。因此，进一步验证所述反欺诈模型的稳定性和可靠性较好，可以用于对新申请信贷业务的用户进行评估。

经上述ks曲线、roc曲线、提升图和累计提升图验证，表明本实施例的反欺诈模型符合建模要求，能够在一定程度上能够甄别出申请贷款的用户是欺诈用户，能够满足符合金融机构对欺诈用户的评估需求。同时，根据该反欺诈模型对测试样本评估得到的样本用户为欺诈用户的概率，制定反欺诈统计阈值为80％。当新申请贷款用户的概率值超过80％则判断该用户为欺诈用户，输出决策建议，即不予批准该用户的贷款请求。假设建立的模型不能满足评估需求，则舍弃该模型，重新执行上述训练、测试和验证步骤建立符合需求的模型。

在一个优选的实施例中，为了进一步判断所述反欺诈模型的稳定性，使用所述数据库中的所述样本数据以外的用户数据作为测试数据，进一步判断所述反欺诈模型的稳定性并调整反欺诈统计阈值。

如图10和图11所示，本发明使用数据库中近三个月的交易样本数据作为测试数据对所述反欺诈模型进行测试，图10中所述违约用户和正常用户之间的差异的最大值ks为0.568059041897，即表明本实施例提供的反欺诈模型比较稳定；图11中roc曲线在对角线以上的图形较高，也表明所述反欺诈模型能够在一定程度上甄别出申请信贷业务的用户是欺诈用户，满足金融机构对欺诈用户的评估需求。使用近三个月的交易样本数据也确定了所述反欺诈模型能够适用于近期金融市场的需求，从而辅助金融从业人员进行风险控制。

本发明的一个实施例还提供了一种利用上述反欺诈模型的反欺诈监控方法，获取新申请贷款用户的用户数据；从数据库中匹配所述新申请贷款用户的关联信息，建立基于用户的多维度征信数据；将所述多维度征信数据输入所述反欺诈模型进行计算并输出所述用户的欺诈概率值；将所述用户的欺诈概率值与反欺诈统计阈值进行比对，并输出所述用户的决策建议。

在一个具体的示例中，如图12所示，包括：

S201：获取新申请贷款用户的用户数据；新申请贷款的用户在申请贷款时，需要提供用户本人的个人信息。

S203：从数据库中匹配所述新申请贷款用户的关联信息，建立基于用户的多维度征信数据；金融机构根据用户的授权数据从数据库中匹配该用户的其他关联信息，例如芝麻分、运营商和银行卡等相关信息，以及用户登录平台等相关行为数据，并根据所述授权数据和行为数据建立该用户的多维度征信数据。

S205：将所述多维度征信数据输入所述反欺诈模型进行计算并输出所述用户的欺诈概率值；将该用户的多维度征信数据作为反欺诈模型的输入，通过反欺诈模型的计算，输出该用户为欺诈用户的概率值。

S207：将所述用户的欺诈概率值与反欺诈统计阈值进行比对，并输出所述用户的决策建议；最后将反欺诈模型对该新申请用户评估得到的概率值与所述反欺诈统计阈值进行比对，即判断该申请用户的评估概率值是否大于80％，若是则给出拒绝该用户的贷款申请的决策建议，否则认为该用户是正常用户，给出接受该用户的贷款申请的决策建议。

本发明的另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现：从数据库中提取建模所需的样本数据，并对每个所述样本数据进行标签化处理；从数据库中匹配每个所述样本数据的关联信息，结合所述标签化处理结果建立基于用户的多维度征信数据，对所述征信数据进行数据处理并划分为训练集数据和测试集数据；利用所述训练集数据训练并调整所述反欺诈模型的参数；利用所述测试集数据测试所述反欺诈模型，获得所述测试集数据是欺诈用户的欺诈概率值，利用获得的所述欺诈概率值与对应的实际样本情况进行比对，根据比对结果判断所述反欺诈模型的稳定性并制定反欺诈统计阈值。

本发明的另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现：获取新申请贷款用户的用户数据；从数据库中匹配所述新申请贷款用户的关联信息，建立基于用户的多维度征信数据；将所述多维度征信数据输入所述反欺诈模型进行计算并输出所述用户的欺诈概率值；将所述用户的欺诈概率值与反欺诈统计阈值进行比对并输出所述用户的决策建议。

在实际应用中，所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实时例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于机器学习的反欺诈模型建模方法，其特征在于，包括：

利用所述训练集数据训练并调整所述反欺诈模型的参数；

2.根据权利要求1所述的建模方法，其特征在于，所述标签化处理为根据所述样本数据对应的用户历史信贷情况建立用户标签。

3.根据权利要求1所述的建模方法，其特征在于，所述关联信息包括所述样本数据对应的用户授权数据和用户行为数据。

4.根据权利要求1所述的建模方法，其特征在于，对所述征信数据进行数据处理包括异常值处理、类别型变量的处理、缺失值处理和特征标准化处理。

5.根据权利要求4所述的建模方法，其特征在于，利用所述训练集数据训练所述反欺诈模型包括：

6.根据权利要求5所述的建模方法，其特征在于，所述测试反欺诈模型包括：

7.根据权利要求6所述的建模方法，其特征在于，使用所述数据库中的所述样本数据以外的用户数据作为测试数据，进一步判断所述反欺诈模型的稳定性并调整反欺诈统计阈值。

8.一种利用权利要求1-7所述任一项反欺诈模型的反欺诈监控方法，其特征在于，

获取新申请贷款用户的用户数据；

将所述用户的欺诈概率值与反欺诈统计阈值进行比对并输出所述用户的决策建议。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求8所述的方法。