CN109063931A

CN109063931A - 一种预测货运物流司机违约概率的模型方法

Info

Publication number: CN109063931A
Application number: CN201811038086.1A
Authority: CN
Inventors: 韦虎; 符小波
Original assignee: Yingying (hangzhou) Network Technology Co Ltd
Current assignee: Yingying (hangzhou) Network Technology Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2018-12-21

Abstract

本发明公开了一种预测货运物流司机违约概率的模型方法。本发明包括如下步骤：步骤1、确认违约因素；步骤2、构建违约模型进行迭代及运算；步骤3.违约模型的评估指标；违约因素包括获取物流平台订单交易信息和第三方数据信息。本发明通过采集司机群体在物流平台的一些交易及活跃度信息，以及第三方数据信息，包括风险评分、多头借贷、终端使用情况等等，对可能影响司机违约的特征进行提取和计算，结合XGBOOST算法，分步骤构建违约模型并进行实例验证。本发明解决了货运司机由于流动性高、信用评估难、传统金融无法覆盖而无法得到金融服务的问题。

Description

一种预测货运物流司机违约概率的模型方法

技术领域

本发明是基于货运司机在物流运输过程中产生的交易信息，结合主成分、降噪自编码器特征提取技术，采用XGBOOST算法提供一种预测货运物流司机违约概率的模型方法。

背景技术

每天，货运司机在运输路途上都有一大笔开销，诸如过桥过路费、加油费、车保险费、保养费等等，因此货运司机有固定的金融需求，但长久以来，由于流动性高、信用评估困难、传统金融无法覆盖，传统金融机构很难对此高风险职业类别进行全面评估。科技与数据深度结合，将原本不对称的信息进行匹配并促成合作，成为越来越多领域的创新潜力。我们依托高可用分布式大数据集群平台，进行实时的数据采集、处理与计算，快速获取货运司机各类历史信息，结合机器学习中强大的集成学习算法，精准预判每个货运司机的信用状况，解决了司机群体信用评估难的问题，从而为司机群体提供有温度的金融服务。大数据规模、高维度、实时性与精准评分，成为我们的最大优势。

发明内容

本发明的目的是针对现有技术的不足，提供一种预测货运物流司机违约概率的模型方法。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1、确认违约因素；

步骤2、构建违约模型进行迭代及运算；

步骤3.违约模型的评估指标；

步骤1、确认违约因素，具体实现如下：

1.1获取物流平台订单交易信息

物流平台订单交易信息包括司机信息、车辆信息、订单信息；司机信息包括年龄、性别和地区；车辆信息包括车长和车龄；订单信息包括注册天数、日活、好评和订单数；其中地区是身份证户籍地区，根据该地区于2017年的人均GDP进行全国排名，将排名秩作为特征项加入模型中；其具体内容如下表1：

表1交易平台信息

1.2获取第三方数据信息

主要对接三方面的数据：

①司机在其他借贷平台的申请借贷信息，包括司机个体在其他多个平台提出的借贷申请或是已借款的相关信息；

②司机申请终端信息以及常用APP活跃度信息；

③司机的各类信用评分，包括汽车金融、线上线下消费分期、融资租赁信用等；

基于第三方数据获取司机群体在其它多个平台的借贷申请或已借款的相关信息,包括个人信息核查、不良信息扫描、多平台借贷申请、信贷逾期信息和司法不良记录，从而有效甄别高风险人群，其具体内容如表2：

表2第三方借贷信息

基于用户申请时使用的终端，借助第三方平台获取终端设备相关信息，包括设备基础信息、地理信息和活跃度信息，具体内容如表3：

表3第三方终端设备活跃度信息

基于用户申请注册用的手机号码，借助第三方平台获取的手机号相关信用度数据信息，具体内容如表4：

表4第三方信用度数据信息

步骤2所述的构建违约模型进行迭代及运算，具体实现如下：

2-1.特征工程

2-1-1.剔除物流平台上司机信息、车辆信息、订单信息中存在异常值的样本，对于司机信息、车辆信息、订单信息中特征项缺失值采用中位数进行补齐；

2-1-2.对于货车司机的第三方数据信息，若没有获取到相关匹配记录，则不做任何处理；若查到相关匹配记录，则如下处理：

第三方设备活跃度数据体现了不同时间段的信息，用户在不同时间段的活跃度反映了客户使用设备的情况，所以对活跃度数据做横向和纵向的变换，生成新的衍生变量；

横向：相同的时间段内不同类型APP活跃度的比较，总共衍生生成477个衍生变量；

纵向：同类型的APP在不同时段内的活跃度的比较，总共衍生生成18个衍生变量；

对横向和纵向衍生的495个变量做主成分分析结果如下表，前 26个主成分方差累计贡献了90％以上；

2-1-3.利用降噪自编码器对物流平台订单交易信息进行特征提取，即利用降噪自编码器对所有到期样本提取隐含特征，隐含特征为 10个维度，原始输入为13个维度；

所述的到期样本是指以超过还款日期的货运司机；

2-2.构建模违约型

2-2-1违约模型训练：

1.基于原始特征和特征工程生成的衍生特征，采用多种特征组合构建多个模型，通过多个评估指标最终选择最优模型；

所述的原始特征包括步骤1采集到的物流平台订单交易信息和第三方数据信息；

2.将所有样本的65％作为违约模型的训练集，用于模型训练；35％作为违约模型的测试集，用于评估模型的训练结果；

3.利用XGBOOST模型对样本进行训练，通过不断的迭代调参，得到违约模型的ROC曲线、AUC值和特征重要性；

4.违约模型的参数选择效果更佳的树模型，学习目标上采用二分类的逻辑回归问题，损失函数如下：

公式说明：—表示预测客户逾期的概率

y_i—表示客户实际是否逾期。

步骤3所述的违约模型的评估指标，具体实现如下：采用最常见的AUC和KS值作为模型的评估指标；

①AUC值其实是ROC曲线下的面积，ROC曲线横轴是FPR(假阳率)，纵轴是TPR(正阳率)，这2指标的计算公式如下：

FPR＝FP/(FP+TN)

TPR＝TP/(TP+FN)

其中：

TP:预测类别是P(正例)，真实类别也是P

FN:预测类别是N，真实类别是P

FP:预测类别是P，真实类别是N(反例)

TN:预测类别是N，真实类别也是N

AUC值介于0.1和1之间，AUC作为数值可以直观的评价分类器的好坏，值越大越好，计算公式参照如下：

其中：M-正类样本的数目，N-负类样本的数据，Rank-对预测的score从大到小排序，然后令最大score对应的样本的rank为n，第二大score对应样本的rank为n-1，以此类推；

②KS(洛伦兹曲线)-用于区分预测正负样本分隔程度的评价指标，计算公式如下：

KS＝MAX(TPR-FPR)

②通过AUC和KS值对多模型进行比较

模型一：所有原始特征字段，不做重要性筛选，其主要参数设置如下：

1.learning_rate(学习率)：0.06,

2.max_depth(最大树深)：3,

3.n_estimators(迭代轮数):500,

4.gamma(用于控制是否后剪枝的参数):0.6,

5.reg_lambda(控制模型L2正则化项参数):100,

6.reg_alpha(控制模型L1正则化项参数):30,

7.subsample(训练模型的子样本占整个样本集合的比例):0.8,

8.colsample_bytree(列采样):0.3

模型一表现如下：

模型二：所有原始特征字段，选取重要性大于等于10的特征，其主要参数设置如下：

1.learning_rate(学习率)：0.06,

2.max_depth(最大树深)：3,

3.n_estimators(迭代轮数):500,

4.gamma(用于控制是否后剪枝的参数):0.3,

5.reg_lambda(控制模型L2正则化项参数):60,

6.reg_alpha(控制模型L1正则化项参数):30,

7.subsample(训练模型的子样本占整个样本集合的比例):0.8,

8.colsample_bytree(列采样):0.4

模型二表现如下：

模型三：加入衍生变量和自编码器提取的隐含特征，选取重要性大于等于25的特征，最后入选41个特征，如下表所示；

特征说明：pca开头的特征均是针对用户APP活跃信息衍生变量提取的主成分特征，x开头的特征均是自编码器提取的隐含特征；

其主要参数设置如下：

1.learning_rate(学习率)：0.03,

2.max_depth(最大树深)：4,

3.n_estimators(迭代轮数):800,

4.gamma(用于控制是否后剪枝的参数):0.6,

5.reg_lambda(控制模型L2正则化项参数):30

6.reg_alpha(控制模型L1正则化项参数):20,

7.subsample(训练模型的子样本占整个样本集合的比例):0.8,

8.colsample_bytree(列采样):0.8

模型三表现如下：

最终三个模型的表现如下，经过特征工程处理后，模型三在稳定性和准确性上都有明显提升；

本发明有益效果如下：

本发明解决了货运司机由于流动性高、信用评估难、传统金融无法覆盖而无法得到金融服务的问题。同时本发明通过采集司机群体在物流平台的一些交易及活跃度信息，以及第三方数据信息，包括风险评分、多头借贷、终端使用情况等等，对可能影响司机违约的特征进行提取和计算，结合XGBOOST算法，分步骤构建违约模型并进行实例验证。

具体实施方式

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1、确认违约因素。

步骤2、构建违约模型进行迭代及运算。

步骤3.违约模型的评估指标。

步骤1、确认违约因素，具体实现如下

1.1获取物流平台订单交易信息

由于货车司机在物流平台的活跃度信息和交易信息较为冗余，需要结合实际情况进行字段的清洗与计算，比如近X个月的有效交易订单数、近X个月的有效交易订单用户好评数等等。在违约模型中，需对这些因素综合考虑才能提高司机违约概率的预测准确性。结合实际情况，大致将这些影响因素分为司机信息、车辆信息、订单信息，其中地区是身份证户籍地区，根据该地区于2017年的人均GDP进行全国排名，将排名秩作为特征项加入模型中。其具体内容如下表1：

表1交易平台信息

1.3获取第三方数据信息

主要对接三方面的数据：

①司机在其他借贷平台的申请借贷信息，包括司机个体在其他多个平台提出的借贷申请或是已借款的相关信息。

②司机申请终端信息以及常用APP活跃度信息。

③司机的各类信用评分，包括汽车金融、线上线下消费分期、融资租赁信用等。

基于第三方数据公司服务的数千家互联网金融机构，获取到司机群体在其它多个平台的借贷申请或已借款的相关信息,包括个人信息核查、不良信息扫描、多平台借贷申请、信贷逾期信息和司法不良记录等，从而有效甄别高风险人群，其具体内容如表2：

表2第三方借贷信息

基于用户申请时使用的终端，借助第三方平台获取的终端设备相关信息，包括设备基础信息、地理信息和活跃度信息，具体内容如表 3：

表3第三方终端设备活跃度信息

基于用户申请注册用的手机号码，借助第三方平台获取的手机号相关信用度数据信息，具体内容如表四：

表四第三方信用度数据信息

第三方信息的获取进一步拓宽了司机的属性维度，提高违约模型的准确度和识别度。

步骤2所述的构建违约模型进行迭代及运算，具体实现如下：

2-1.特征工程

1)剔除物流平台上司机信息、车辆信息、订单信息中存在异常值的样本(一条记录)，对于司机信息、车辆信息、订单信息中特征项缺失值采用中位数进行补齐。例如：年龄低于18或超过60的记录进行剔除。所述的特征项缺失值是指其中某项特征忘记填写，例如：车辆信息中的车长没有登记，则直接用所有样本的车长中位数进行填充。

2)对于货车司机的第三方数据信息，若没有获取到相关匹配记录，则不做任何处理；若查到相关匹配记录，则如下处理：

例如：当第三方设备活跃度数据提供了不同时间段的信息，用户在不同时间段的活跃度反映了客户使用设备的情况，所以对活跃度数据做横向和纵向的变换，生成新的衍生变量。

横向：相同的时间段内不同类型APP活跃度的比较，总共衍生生成477个衍生变量。

纵向：同类型的APP在不同时段内的活跃度的比较，总共衍生生成18个衍生变量。

对横向和纵向衍生的495个变量做主成分分析结果如下表，前 26个主成分方差累计贡献了90％以上。

3)利用降噪自编码器对物流平台订单交易信息进行特征提取

利用降噪自编码器对所有到期样本提取隐含特征，隐含特征为 10个维度，原始输入为13个维度。

所述的到期样本是指以超过还款日期的货运司机。

每次用以信用评分模型构建的样本都是基于已经满足之前信用评分审核标准的用户，对于审核不通过的用户，其特征信息都没法获取，自编码器是一种很好的无标签样本特征提取技术，本项目里使用该技术利用全量的申请用户提取共有的模式。

降噪自编码器是一种自监督的模型，可理解为一个试图去还原其原始输入的系统。

自编码器可以恢复原始信号的表达，但并不是最好的，能够对含有噪声的信息进行编码、解码，并恢复真正的原始数据，这样的特征才是好的，所以我们在原始数据基础上加入高斯噪声，对某些空缺数据直接填充为均值，然后再进行编码、解码，监督训练的误差为：

公式说明：N-每批次训练的样本量

y_i-原始输入

-解码后的输出。

2-2构建模违约型

2-2-1违约模型训练：

1.基于原始特征和特征工程生成的衍生特征，采用多种特征组合构建多个模型，通过多个评估指标最终选择最优模型。

所述的原始特征包括步骤1采集到的物流平台订单交易信息和第三方数据信息。

2.将所有样本的65％作为违约模型的训练集，用于模型训练；35％作为违约模型的测试集，用于评估模型的训练结果。

3.利用XGBOOST模型对样本进行训练，通过不断的迭代调参，得到违约模型的ROC曲线、AUC值和特征重要性。

4.违约模型的参数选择效果更佳的树模型(gbtree)，学习目标上采用二分类的逻辑回归问题，损失函数如下：

公式说明：-表示预测客户逾期的概率

y_i—表示客户实际是否逾期

XGBOOST算法的全称是eXtreme Gradient Boosting,其在GBDT 算法基础上对boosting算法进行改进。XGBOOST是Gradient Boosting算法的高效实现。传统GBDT以CART作为基分类器，特指梯度提升决策树算法，而XGBOOST还支持线性分类器(GBLinear)，此时XGBOOST相当于带L₁和L₂正则化项的Logistic回归(分类问题)或者线性回归(回归问题)。本项目预测客户的逾期概率，属于典型的分类问题，学习目标上采用二分类的逻辑回归。

步骤3.违约模型的评估指标

采用了最常见的AUC和KS值作为模型的评估指标。

FPR＝FP/(FP+TN)

TPR＝TP/(TP+FN)

其中：

TP:预测类别是P(正例)，真实类别也是P

FN:预测类别是N，真实类别是P

FP:预测类别是P，真实类别是N(反例)

TN:预测类别是N，真实类别也是N

其中：M-正类样本的数目，N-负类样本的数据，Rank-对预测的score从大到小排序，然后令最大score对应的样本的rank为n，第二大score对应sample的rank为n-1，以此类推。

KS＝MAX(TPR-FPR)

②通过AUC和KS值对多模型进行比较

1.learning_rate(学习率)：0.06,

2.max_depth(最大树深)：3,

3.n_estimators(迭代轮数):500,

4.gamma(用于控制是否后剪枝的参数):0.6,

5.reg_lambda(控制模型L2正则化项参数):100,

6.reg_alpha(控制模型L1正则化项参数):30,

7.subsample(训练模型的子样本占整个样本集合的比例):0.8,

8.colsample_bytree(列采样):0.3

模型一表现如下：

1.learning_rate(学习率)：0.06,

2.max_depth(最大树深)：3,

3.n_estimators(迭代轮数):500,

4.gamma(用于控制是否后剪枝的参数):0.3,

5.reg_lambda(控制模型L2正则化项参数):60,

6.reg_alpha(控制模型L1正则化项参数):30,

7.subsample(训练模型的子样本占整个样本集合的比例):0.8,

8.colsample_bytree(列采样):0.4

模型二表现如下：

模型三：加入衍生变量和自编码器提取的隐含特征，选取重要性大于等于25的特征，最后入选41个特征，如下表所示。

特征说明：pca开头的特征均是针对用户APP活跃信息衍生变量提取的主成分特征，x开头的特征均是自编码器提取的隐含特征。

其主要参数设置如下：

1.learning_rate(学习率)：0.03,

2.max_depth(最大树深)：4,

3.n_estimators(迭代轮数):800,

4.gamma(用于控制是否后剪枝的参数):0.6,

5.reg_lambda(控制模型L2正则化项参数):30

6.reg_alpha(控制模型L1正则化项参数):20,

7.subsample(训练模型的子样本占整个样本集合的比例):0.8,

8.colsample_bytree(列采样):0.8

模型三表现如下：

最终三个模型的表现如下，经过特征工程处理后，模型三在稳定性和准确性上都有明显提升。

Claims

1.一种预测货运物流司机违约概率的模型方法，其特征在于包括如下步骤：

步骤1、确认违约因素；

步骤2、构建违约模型进行迭代及运算；

步骤3.违约模型的评估指标；

步骤1、确认违约因素，具体实现如下：

1.1获取物流平台订单交易信息

表1交易平台信息

1.2获取第三方数据信息

主要对接三方面的数据：

②司机申请终端信息以及常用APP活跃度信息；

表2第三方借贷信息

表3第三方终端设备活跃度信息

表4第三方信用度数据信息

2.根据权利要求1所述的一种预测货运物流司机违约概率的模型方法，其特征在于步骤2所述的构建违约模型进行迭代及运算，具体实现如下：

2-1.特征工程

对横向和纵向衍生的495个变量做主成分分析结果如下表，前26个主成分方差累计贡献了90％以上；

2-1-3.利用降噪自编码器对物流平台订单交易信息进行特征提取，即利用降噪自编码器对所有到期样本提取隐含特征，隐含特征为10个维度，原始输入为13个维度；

所述的到期样本是指以超过还款日期的货运司机；

2-2.构建模违约型

2-2-1违约模型训练：

公式说明：—表示预测客户逾期的概率

y_i—表示客户实际是否逾期。

3.根据权利要求2所述的一种预测货运物流司机违约概率的模型方法，其特征在于步骤3所述的违约模型的评估指标，具体实现如下：采用最常见的AUC和KS值作为模型的评估指标；

FPR＝FP/(FP+TN)

TPR＝TP/(TP+FN)

其中：

TP:预测类别是P(正例)，真实类别也是P

FN:预测类别是N，真实类别是P

FP:预测类别是P，真实类别是N(反例)

TN:预测类别是N，真实类别也是N

KS＝MAX(TPR-FPR)

②通过AUC和KS值对多模型进行比较

1.learning_rate(学习率)：0.06,

2.max_depth(最大树深)：3,

3.n_estimators(迭代轮数):500,

4.gamma(用于控制是否后剪枝的参数):0.6,

5.reg_lambda(控制模型L2正则化项参数):100,

6.reg_alpha(控制模型L1正则化项参数):30,

7.subsample(训练模型的子样本占整个样本集合的比例):0.8,

8.colsample_bytree(列采样):0.3

模型一表现如下：

1.learning_rate(学习率)：0.06,

2.max_depth(最大树深)：3,

3.n_estimators(迭代轮数):500,

4.gamma(用于控制是否后剪枝的参数):0.3,

5.reg_lambda(控制模型L2正则化项参数):60,

6.reg_alpha(控制模型L1正则化项参数):30,

7.subsample(训练模型的子样本占整个样本集合的比例):0.8,

8.colsample_bytree(列采样):0.4

模型二表现如下：

其主要参数设置如下：

1.learning_rate(学习率)：0.03,

2.max_depth(最大树深)：4,

3.n_estimators(迭代轮数):800,

4.gamma(用于控制是否后剪枝的参数):0.6,

5.reg_lambda(控制模型L2正则化项参数):30

6.reg_alpha(控制模型L1正则化项参数):20,

7.subsample(训练模型的子样本占整个样本集合的比例):0.8,

8.colsample_bytree(列采样):0.8

模型三表现如下：