CN109063931A - 一种预测货运物流司机违约概率的模型方法 - Google Patents

一种预测货运物流司机违约概率的模型方法 Download PDF

Info

Publication number
CN109063931A
CN109063931A CN201811038086.1A CN201811038086A CN109063931A CN 109063931 A CN109063931 A CN 109063931A CN 201811038086 A CN201811038086 A CN 201811038086A CN 109063931 A CN109063931 A CN 109063931A
Authority
CN
China
Prior art keywords
information
model
driver
feature
promise breaking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811038086.1A
Other languages
English (en)
Inventor
韦虎
符小波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yingying (hangzhou) Network Technology Co Ltd
Original Assignee
Yingying (hangzhou) Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yingying (hangzhou) Network Technology Co Ltd filed Critical Yingying (hangzhou) Network Technology Co Ltd
Priority to CN201811038086.1A priority Critical patent/CN109063931A/zh
Publication of CN109063931A publication Critical patent/CN109063931A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0838Historical data

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种预测货运物流司机违约概率的模型方法。本发明包括如下步骤:步骤1、确认违约因素;步骤2、构建违约模型进行迭代及运算;步骤3.违约模型的评估指标;违约因素包括获取物流平台订单交易信息和第三方数据信息。本发明通过采集司机群体在物流平台的一些交易及活跃度信息,以及第三方数据信息,包括风险评分、多头借贷、终端使用情况等等,对可能影响司机违约的特征进行提取和计算,结合XGBOOST算法,分步骤构建违约模型并进行实例验证。本发明解决了货运司机由于流动性高、信用评估难、传统金融无法覆盖而无法得到金融服务的问题。

Description

一种预测货运物流司机违约概率的模型方法
技术领域
本发明是基于货运司机在物流运输过程中产生的交易信息,结合 主成分、降噪自编码器特征提取技术,采用XGBOOST算法提供一种预 测货运物流司机违约概率的模型方法。
背景技术
每天,货运司机在运输路途上都有一大笔开销,诸如过桥过路费、 加油费、车保险费、保养费等等,因此货运司机有固定的金融需求, 但长久以来,由于流动性高、信用评估困难、传统金融无法覆盖,传 统金融机构很难对此高风险职业类别进行全面评估。科技与数据深度 结合,将原本不对称的信息进行匹配并促成合作,成为越来越多领域 的创新潜力。我们依托高可用分布式大数据集群平台,进行实时的数 据采集、处理与计算,快速获取货运司机各类历史信息,结合机器学 习中强大的集成学习算法,精准预判每个货运司机的信用状况,解决 了司机群体信用评估难的问题,从而为司机群体提供有温度的金融服 务。大数据规模、高维度、实时性与精准评分,成为我们的最大优势。
发明内容
本发明的目的是针对现有技术的不足,提供一种预测货运物流司 机违约概率的模型方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1、确认违约因素;
步骤2、构建违约模型进行迭代及运算;
步骤3.违约模型的评估指标;
步骤1、确认违约因素,具体实现如下:
1.1获取物流平台订单交易信息
物流平台订单交易信息包括司机信息、车辆信息、订单信息;司 机信息包括年龄、性别和地区;车辆信息包括车长和车龄;订单信息 包括注册天数、日活、好评和订单数;其中地区是身份证户籍地区, 根据该地区于2017年的人均GDP进行全国排名,将排名秩作为特征 项加入模型中;其具体内容如下表1:
表1交易平台信息
1.2获取第三方数据信息
主要对接三方面的数据:
①司机在其他借贷平台的申请借贷信息,包括司机个体在其他多 个平台提出的借贷申请或是已借款的相关信息;
②司机申请终端信息以及常用APP活跃度信息;
③司机的各类信用评分,包括汽车金融、线上线下消费分期、融 资租赁信用等;
基于第三方数据获取司机群体在其它多个平台的借贷申请或已 借款的相关信息,包括个人信息核查、不良信息扫描、多平台借贷申 请、信贷逾期信息和司法不良记录,从而有效甄别高风险人群,其具 体内容如表2:
表2第三方借贷信息
基于用户申请时使用的终端,借助第三方平台获取终端设备相关 信息,包括设备基础信息、地理信息和活跃度信息,具体内容如表3:
表3第三方终端设备活跃度信息
基于用户申请注册用的手机号码,借助第三方平台获取的手机号 相关信用度数据信息,具体内容如表4:
表4第三方信用度数据信息
步骤2所述的构建违约模型进行迭代及运算,具体实现如下:
2-1.特征工程
2-1-1.剔除物流平台上司机信息、车辆信息、订单信息中存在异 常值的样本,对于司机信息、车辆信息、订单信息中特征项缺失值采 用中位数进行补齐;
2-1-2.对于货车司机的第三方数据信息,若没有获取到相关匹配 记录,则不做任何处理;若查到相关匹配记录,则如下处理:
第三方设备活跃度数据体现了不同时间段的信息,用户在不同时 间段的活跃度反映了客户使用设备的情况,所以对活跃度数据做横向 和纵向的变换,生成新的衍生变量;
横向:相同的时间段内不同类型APP活跃度的比较,总共衍生生 成477个衍生变量;
纵向:同类型的APP在不同时段内的活跃度的比较,总共衍生生 成18个衍生变量;
对横向和纵向衍生的495个变量做主成分分析结果如下表,前 26个主成分方差累计贡献了90%以上;
2-1-3.利用降噪自编码器对物流平台订单交易信息进行特征提 取,即利用降噪自编码器对所有到期样本提取隐含特征,隐含特征为 10个维度,原始输入为13个维度;
所述的到期样本是指以超过还款日期的货运司机;
2-2.构建模违约型
2-2-1违约模型训练:
1.基于原始特征和特征工程生成的衍生特征,采用多种特征组合 构建多个模型,通过多个评估指标最终选择最优模型;
所述的原始特征包括步骤1采集到的物流平台订单交易信息和 第三方数据信息;
2.将所有样本的65%作为违约模型的训练集,用于模型训练;35% 作为违约模型的测试集,用于评估模型的训练结果;
3.利用XGBOOST模型对样本进行训练,通过不断的迭代调参,得 到违约模型的ROC曲线、AUC值和特征重要性;
4.违约模型的参数选择效果更佳的树模型,学习目标上采用二分 类的逻辑回归问题,损失函数如下:
公式说明:—表示预测客户逾期的概率
yi—表示客户实际是否逾期。
步骤3所述的违约模型的评估指标,具体实现如下:采用最常见 的AUC和KS值作为模型的评估指标;
①AUC值其实是ROC曲线下的面积,ROC曲线横轴是FPR(假阳 率),纵轴是TPR(正阳率),这2指标的计算公式如下:
FPR=FP/(FP+TN)
TPR=TP/(TP+FN)
其中:
TP:预测类别是P(正例),真实类别也是P
FN:预测类别是N,真实类别是P
FP:预测类别是P,真实类别是N(反例)
TN:预测类别是N,真实类别也是N
AUC值介于0.1和1之间,AUC作为数值可以直观的评价分类 器的好坏,值越大越好,计算公式参照如下:
其中:M-正类样本的数目,N-负类样本的数据,Rank-对预测 的score从大到小排序,然后令最大score对应的样本的rank为n, 第二大score对应样本的rank为n-1,以此类推;
②KS(洛伦兹曲线)-用于区分预测正负样本分隔程度的评价指 标,计算公式如下:
KS=MAX(TPR-FPR)
②通过AUC和KS值对多模型进行比较
模型一:所有原始特征字段,不做重要性筛选,其主要参数设置 如下:
1.learning_rate(学习率):0.06,
2.max_depth(最大树深):3,
3.n_estimators(迭代轮数):500,
4.gamma(用于控制是否后剪枝的参数):0.6,
5.reg_lambda(控制模型L2正则化项参数):100,
6.reg_alpha(控制模型L1正则化项参数):30,
7.subsample(训练模型的子样本占整个样本集合的比例):0.8,
8.colsample_bytree(列采样):0.3
模型一表现如下:
模型二:所有原始特征字段,选取重要性大于等于10的特征, 其主要参数设置如下:
1.learning_rate(学习率):0.06,
2.max_depth(最大树深):3,
3.n_estimators(迭代轮数):500,
4.gamma(用于控制是否后剪枝的参数):0.3,
5.reg_lambda(控制模型L2正则化项参数):60,
6.reg_alpha(控制模型L1正则化项参数):30,
7.subsample(训练模型的子样本占整个样本集合的比例):0.8,
8.colsample_bytree(列采样):0.4
模型二表现如下:
模型三:加入衍生变量和自编码器提取的隐含特征,选取重要性 大于等于25的特征,最后入选41个特征,如下表所示;
特征说明:pca开头的特征均是针对用户APP活跃信息衍生变量 提取的主成分特征,x开头的特征均是自编码器提取的隐含特征;
其主要参数设置如下:
1.learning_rate(学习率):0.03,
2.max_depth(最大树深):4,
3.n_estimators(迭代轮数):800,
4.gamma(用于控制是否后剪枝的参数):0.6,
5.reg_lambda(控制模型L2正则化项参数):30
6.reg_alpha(控制模型L1正则化项参数):20,
7.subsample(训练模型的子样本占整个样本集合的比例):0.8,
8.colsample_bytree(列采样):0.8
模型三表现如下:
最终三个模型的表现如下,经过特征工程处理后,模型三在稳定 性和准确性上都有明显提升;
本发明有益效果如下:
本发明解决了货运司机由于流动性高、信用评估难、传统金融无 法覆盖而无法得到金融服务的问题。同时本发明通过采集司机群体在 物流平台的一些交易及活跃度信息,以及第三方数据信息,包括风险 评分、多头借贷、终端使用情况等等,对可能影响司机违约的特征进 行提取和计算,结合XGBOOST算法,分步骤构建违约模型并进行实例 验证。
具体实施方式
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1、确认违约因素。
步骤2、构建违约模型进行迭代及运算。
步骤3.违约模型的评估指标。
步骤1、确认违约因素,具体实现如下
1.1获取物流平台订单交易信息
由于货车司机在物流平台的活跃度信息和交易信息较为冗余,需 要结合实际情况进行字段的清洗与计算,比如近X个月的有效交易订 单数、近X个月的有效交易订单用户好评数等等。在违约模型中,需 对这些因素综合考虑才能提高司机违约概率的预测准确性。结合实际 情况,大致将这些影响因素分为司机信息、车辆信息、订单信息,其 中地区是身份证户籍地区,根据该地区于2017年的人均GDP进行全 国排名,将排名秩作为特征项加入模型中。其具体内容如下表1:
表1交易平台信息
1.3获取第三方数据信息
主要对接三方面的数据:
①司机在其他借贷平台的申请借贷信息,包括司机个体在其他多 个平台提出的借贷申请或是已借款的相关信息。
②司机申请终端信息以及常用APP活跃度信息。
③司机的各类信用评分,包括汽车金融、线上线下消费分期、融 资租赁信用等。
基于第三方数据公司服务的数千家互联网金融机构,获取到司机 群体在其它多个平台的借贷申请或已借款的相关信息,包括个人信息 核查、不良信息扫描、多平台借贷申请、信贷逾期信息和司法不良记 录等,从而有效甄别高风险人群,其具体内容如表2:
表2第三方借贷信息
基于用户申请时使用的终端,借助第三方平台获取的终端设备相 关信息,包括设备基础信息、地理信息和活跃度信息,具体内容如表 3:
表3第三方终端设备活跃度信息
基于用户申请注册用的手机号码,借助第三方平台获取的手机号 相关信用度数据信息,具体内容如表四:
表四第三方信用度数据信息
第三方信息的获取进一步拓宽了司机的属性维度,提高违约模型 的准确度和识别度。
步骤2所述的构建违约模型进行迭代及运算,具体实现如下:
2-1.特征工程
1)剔除物流平台上司机信息、车辆信息、订单信息中存在异常 值的样本(一条记录),对于司机信息、车辆信息、订单信息中特征 项缺失值采用中位数进行补齐。例如:年龄低于18或超过60的记 录进行剔除。所述的特征项缺失值是指其中某项特征忘记填写,例如: 车辆信息中的车长没有登记,则直接用所有样本的车长中位数进行填 充。
2)对于货车司机的第三方数据信息,若没有获取到相关匹配记 录,则不做任何处理;若查到相关匹配记录,则如下处理:
例如:当第三方设备活跃度数据提供了不同时间段的信息,用户 在不同时间段的活跃度反映了客户使用设备的情况,所以对活跃度数 据做横向和纵向的变换,生成新的衍生变量。
横向:相同的时间段内不同类型APP活跃度的比较,总共衍生生 成477个衍生变量。
纵向:同类型的APP在不同时段内的活跃度的比较,总共衍生生 成18个衍生变量。
对横向和纵向衍生的495个变量做主成分分析结果如下表,前 26个主成分方差累计贡献了90%以上。
3)利用降噪自编码器对物流平台订单交易信息进行特征提取
利用降噪自编码器对所有到期样本提取隐含特征,隐含特征为 10个维度,原始输入为13个维度。
所述的到期样本是指以超过还款日期的货运司机。
每次用以信用评分模型构建的样本都是基于已经满足之前信用 评分审核标准的用户,对于审核不通过的用户,其特征信息都没法获 取,自编码器是一种很好的无标签样本特征提取技术,本项目里使用 该技术利用全量的申请用户提取共有的模式。
降噪自编码器是一种自监督的模型,可理解为一个试图去还原其 原始输入的系统。
自编码器可以恢复原始信号的表达,但并不是最好的,能够对含 有噪声的信息进行编码、解码,并恢复真正的原始数据,这样的特征 才是好的,所以我们在原始数据基础上加入高斯噪声,对某些空缺数 据直接填充为均值,然后再进行编码、解码,监督训练的误差为:
公式说明:N-每批次训练的样本量
yi-原始输入
-解码后的输出。
2-2构建模违约型
2-2-1违约模型训练:
1.基于原始特征和特征工程生成的衍生特征,采用多种特征组合 构建多个模型,通过多个评估指标最终选择最优模型。
所述的原始特征包括步骤1采集到的物流平台订单交易信息和 第三方数据信息。
2.将所有样本的65%作为违约模型的训练集,用于模型训练;35% 作为违约模型的测试集,用于评估模型的训练结果。
3.利用XGBOOST模型对样本进行训练,通过不断的迭代调参,得 到违约模型的ROC曲线、AUC值和特征重要性。
4.违约模型的参数选择效果更佳的树模型(gbtree),学习目标 上采用二分类的逻辑回归问题,损失函数如下:
公式说明:-表示预测客户逾期的概率
yi—表示客户实际是否逾期
XGBOOST算法的全称是eXtreme Gradient Boosting,其在GBDT 算法基础上对boosting算法进行改进。XGBOOST是Gradient Boosting算法的高效实现。传统GBDT以CART作为基分类器,特指 梯度提升决策树算法,而XGBOOST还支持线性分类器(GBLinear),此时XGBOOST相当于带L1和L2正则化项的Logistic回归(分类问题)或 者线性回归(回归问题)。本项目预测客户的逾期概率,属于典型的分 类问题,学习目标上采用二分类的逻辑回归。
步骤3.违约模型的评估指标
采用了最常见的AUC和KS值作为模型的评估指标。
①AUC值其实是ROC曲线下的面积,ROC曲线横轴是FPR(假阳 率),纵轴是TPR(正阳率),这2指标的计算公式如下:
FPR=FP/(FP+TN)
TPR=TP/(TP+FN)
其中:
TP:预测类别是P(正例),真实类别也是P
FN:预测类别是N,真实类别是P
FP:预测类别是P,真实类别是N(反例)
TN:预测类别是N,真实类别也是N
AUC值介于0.1和1之间,AUC作为数值可以直观的评价分类 器的好坏,值越大越好,计算公式参照如下:
其中:M-正类样本的数目,N-负类样本的数据,Rank-对预测 的score从大到小排序,然后令最大score对应的样本的rank为n, 第二大score对应sample的rank为n-1,以此类推。
②KS(洛伦兹曲线)-用于区分预测正负样本分隔程度的评价指 标,计算公式如下:
KS=MAX(TPR-FPR)
②通过AUC和KS值对多模型进行比较
模型一:所有原始特征字段,不做重要性筛选,其主要参数设置 如下:
1.learning_rate(学习率):0.06,
2.max_depth(最大树深):3,
3.n_estimators(迭代轮数):500,
4.gamma(用于控制是否后剪枝的参数):0.6,
5.reg_lambda(控制模型L2正则化项参数):100,
6.reg_alpha(控制模型L1正则化项参数):30,
7.subsample(训练模型的子样本占整个样本集合的比例):0.8,
8.colsample_bytree(列采样):0.3
模型一表现如下:
模型二:所有原始特征字段,选取重要性大于等于10的特征, 其主要参数设置如下:
1.learning_rate(学习率):0.06,
2.max_depth(最大树深):3,
3.n_estimators(迭代轮数):500,
4.gamma(用于控制是否后剪枝的参数):0.3,
5.reg_lambda(控制模型L2正则化项参数):60,
6.reg_alpha(控制模型L1正则化项参数):30,
7.subsample(训练模型的子样本占整个样本集合的比例):0.8,
8.colsample_bytree(列采样):0.4
模型二表现如下:
模型三:加入衍生变量和自编码器提取的隐含特征,选取重要性 大于等于25的特征,最后入选41个特征,如下表所示。
特征说明:pca开头的特征均是针对用户APP活跃信息衍生变量 提取的主成分特征,x开头的特征均是自编码器提取的隐含特征。
其主要参数设置如下:
1.learning_rate(学习率):0.03,
2.max_depth(最大树深):4,
3.n_estimators(迭代轮数):800,
4.gamma(用于控制是否后剪枝的参数):0.6,
5.reg_lambda(控制模型L2正则化项参数):30
6.reg_alpha(控制模型L1正则化项参数):20,
7.subsample(训练模型的子样本占整个样本集合的比例):0.8,
8.colsample_bytree(列采样):0.8
模型三表现如下:
最终三个模型的表现如下,经过特征工程处理后,模型三在稳定 性和准确性上都有明显提升。

Claims (3)

1.一种预测货运物流司机违约概率的模型方法,其特征在于包括如下步骤:
步骤1、确认违约因素;
步骤2、构建违约模型进行迭代及运算;
步骤3.违约模型的评估指标;
步骤1、确认违约因素,具体实现如下:
1.1获取物流平台订单交易信息
物流平台订单交易信息包括司机信息、车辆信息、订单信息;司机信息包括年龄、性别和地区;车辆信息包括车长和车龄;订单信息包括注册天数、日活、好评和订单数;其中地区是身份证户籍地区,根据该地区于2017年的人均GDP进行全国排名,将排名秩作为特征项加入模型中;其具体内容如下表1:
表1交易平台信息
1.2获取第三方数据信息
主要对接三方面的数据:
①司机在其他借贷平台的申请借贷信息,包括司机个体在其他多个平台提出的借贷申请或是已借款的相关信息;
②司机申请终端信息以及常用APP活跃度信息;
③司机的各类信用评分,包括汽车金融、线上线下消费分期、融资租赁信用等;
基于第三方数据获取司机群体在其它多个平台的借贷申请或已借款的相关信息,包括个人信息核查、不良信息扫描、多平台借贷申请、信贷逾期信息和司法不良记录,从而有效甄别高风险人群,其具体内容如表2:
表2第三方借贷信息
基于用户申请时使用的终端,借助第三方平台获取终端设备相关信息,包括设备基础信息、地理信息和活跃度信息,具体内容如表3:
表3第三方终端设备活跃度信息
基于用户申请注册用的手机号码,借助第三方平台获取的手机号相关信用度数据信息,具体内容如表4:
表4第三方信用度数据信息
2.根据权利要求1所述的一种预测货运物流司机违约概率的模型方法,其特征在于步骤2所述的构建违约模型进行迭代及运算,具体实现如下:
2-1.特征工程
2-1-1.剔除物流平台上司机信息、车辆信息、订单信息中存在异常值的样本,对于司机信息、车辆信息、订单信息中特征项缺失值采用中位数进行补齐;
2-1-2.对于货车司机的第三方数据信息,若没有获取到相关匹配记录,则不做任何处理;若查到相关匹配记录,则如下处理:
第三方设备活跃度数据体现了不同时间段的信息,用户在不同时间段的活跃度反映了客户使用设备的情况,所以对活跃度数据做横向和纵向的变换,生成新的衍生变量;
横向:相同的时间段内不同类型APP活跃度的比较,总共衍生生成477个衍生变量;
纵向:同类型的APP在不同时段内的活跃度的比较,总共衍生生成18个衍生变量;
对横向和纵向衍生的495个变量做主成分分析结果如下表,前26个主成分方差累计贡献了90%以上;
2-1-3.利用降噪自编码器对物流平台订单交易信息进行特征提取,即利用降噪自编码器对所有到期样本提取隐含特征,隐含特征为10个维度,原始输入为13个维度;
所述的到期样本是指以超过还款日期的货运司机;
2-2.构建模违约型
2-2-1违约模型训练:
1.基于原始特征和特征工程生成的衍生特征,采用多种特征组合构建多个模型,通过多个评估指标最终选择最优模型;
所述的原始特征包括步骤1采集到的物流平台订单交易信息和第三方数据信息;
2.将所有样本的65%作为违约模型的训练集,用于模型训练;35%作为违约模型的测试集,用于评估模型的训练结果;
3.利用XGBOOST模型对样本进行训练,通过不断的迭代调参,得到违约模型的ROC曲线、AUC值和特征重要性;
4.违约模型的参数选择效果更佳的树模型,学习目标上采用二分类的逻辑回归问题,损失函数如下:
公式说明:—表示预测客户逾期的概率
yi—表示客户实际是否逾期。
3.根据权利要求2所述的一种预测货运物流司机违约概率的模型方法,其特征在于步骤3所述的违约模型的评估指标,具体实现如下:采用最常见的AUC和KS值作为模型的评估指标;
①AUC值其实是ROC曲线下的面积,ROC曲线横轴是FPR(假阳率),纵轴是TPR(正阳率),这2指标的计算公式如下:
FPR=FP/(FP+TN)
TPR=TP/(TP+FN)
其中:
TP:预测类别是P(正例),真实类别也是P
FN:预测类别是N,真实类别是P
FP:预测类别是P,真实类别是N(反例)
TN:预测类别是N,真实类别也是N
AUC值介于0.1和1之间,AUC作为数值可以直观的评价分类器的好坏,值越大越好,计算公式参照如下:
其中:M-正类样本的数目,N-负类样本的数据,Rank-对预测的score从大到小排序,然后令最大score对应的样本的rank为n,第二大score对应样本的rank为n-1,以此类推;
②KS(洛伦兹曲线)-用于区分预测正负样本分隔程度的评价指标,计算公式如下:
KS=MAX(TPR-FPR)
②通过AUC和KS值对多模型进行比较
模型一:所有原始特征字段,不做重要性筛选,其主要参数设置如下:
1.learning_rate(学习率):0.06,
2.max_depth(最大树深):3,
3.n_estimators(迭代轮数):500,
4.gamma(用于控制是否后剪枝的参数):0.6,
5.reg_lambda(控制模型L2正则化项参数):100,
6.reg_alpha(控制模型L1正则化项参数):30,
7.subsample(训练模型的子样本占整个样本集合的比例):0.8,
8.colsample_bytree(列采样):0.3
模型一表现如下:
模型二:所有原始特征字段,选取重要性大于等于10的特征,其主要参数设置如下:
1.learning_rate(学习率):0.06,
2.max_depth(最大树深):3,
3.n_estimators(迭代轮数):500,
4.gamma(用于控制是否后剪枝的参数):0.3,
5.reg_lambda(控制模型L2正则化项参数):60,
6.reg_alpha(控制模型L1正则化项参数):30,
7.subsample(训练模型的子样本占整个样本集合的比例):0.8,
8.colsample_bytree(列采样):0.4
模型二表现如下:
模型三:加入衍生变量和自编码器提取的隐含特征,选取重要性大于等于25的特征,最后入选41个特征,如下表所示;
特征说明:pca开头的特征均是针对用户APP活跃信息衍生变量提取的主成分特征,x开头的特征均是自编码器提取的隐含特征;
其主要参数设置如下:
1.learning_rate(学习率):0.03,
2.max_depth(最大树深):4,
3.n_estimators(迭代轮数):800,
4.gamma(用于控制是否后剪枝的参数):0.6,
5.reg_lambda(控制模型L2正则化项参数):30
6.reg_alpha(控制模型L1正则化项参数):20,
7.subsample(训练模型的子样本占整个样本集合的比例):0.8,
8.colsample_bytree(列采样):0.8
模型三表现如下:
最终三个模型的表现如下,经过特征工程处理后,模型三在稳定性和准确性上都有明显提升;
CN201811038086.1A 2018-09-06 2018-09-06 一种预测货运物流司机违约概率的模型方法 Pending CN109063931A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811038086.1A CN109063931A (zh) 2018-09-06 2018-09-06 一种预测货运物流司机违约概率的模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811038086.1A CN109063931A (zh) 2018-09-06 2018-09-06 一种预测货运物流司机违约概率的模型方法

Publications (1)

Publication Number Publication Date
CN109063931A true CN109063931A (zh) 2018-12-21

Family

ID=64759718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811038086.1A Pending CN109063931A (zh) 2018-09-06 2018-09-06 一种预测货运物流司机违约概率的模型方法

Country Status (1)

Country Link
CN (1) CN109063931A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726233A (zh) * 2018-12-28 2019-05-07 浙江省公众信息产业有限公司 用于刻画用户形象的方法、计算机系统和可读介质
CN109858922A (zh) * 2018-12-24 2019-06-07 航天信息股份有限公司 非正常纳税人识别方法及装置
CN109978680A (zh) * 2019-03-18 2019-07-05 杭州绿度信息技术有限公司 一种细分客群信贷业务风控差异化定价的风控方法和系统
CN110111106A (zh) * 2019-05-06 2019-08-09 无线生活(北京)信息技术有限公司 交易风险监控方法及装置
CN110414716A (zh) * 2019-07-03 2019-11-05 北京科技大学 一种基于LightGBM的企业失信概率预测方法及系统
CN110688373A (zh) * 2019-09-17 2020-01-14 杭州绿度信息技术有限公司 一种基于逻辑回归的offset方法
CN110689427A (zh) * 2019-10-12 2020-01-14 杭州绿度信息技术有限公司 一种基于生存分析的消费分期违约概率模型
CN111178675A (zh) * 2019-12-05 2020-05-19 佰聆数据股份有限公司 基于LR-Bagging算法的电费回收风险预测方法、系统、存储介质及计算机设备
CN111191825A (zh) * 2019-12-20 2020-05-22 北京淇瑀信息科技有限公司 用户违约预测方法、装置及电子设备
CN112328657A (zh) * 2020-11-03 2021-02-05 中国平安人寿保险股份有限公司 特征衍生方法、装置、计算机设备及介质
CN112927719A (zh) * 2021-01-22 2021-06-08 中信银行股份有限公司 风险信息评估方法、装置、设备及存储介质
CN113222255A (zh) * 2021-05-17 2021-08-06 上海生腾数据科技有限公司 一种合同履约表现量化及短期违约预测的方法及装置
CN113282886A (zh) * 2021-05-26 2021-08-20 北京大唐神州科技有限公司 基于逻辑回归的银行对公贷款违约判别方法
CN113379212A (zh) * 2021-05-31 2021-09-10 交通运输信息安全中心有限公司 基于区块链的物流信息平台违约风险评估方法、装置、设备及介质
CN113610354A (zh) * 2021-07-15 2021-11-05 北京淇瑀信息科技有限公司 第三方平台用户的策略分配方法、装置及电子设备
CN114066055A (zh) * 2021-11-16 2022-02-18 中交智运有限公司 一种在物流运输中车辆晚靠台预测的方法、装置和服务器
CN115297016A (zh) * 2022-05-07 2022-11-04 国网江苏省电力有限公司淮安供电分公司 一种基于深度学习的电力网络活跃度评价和预测方法
CN116304594A (zh) * 2023-05-11 2023-06-23 北京融信数联科技有限公司 一种基于通信数据的用户区域识别方法、系统及介质

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858922A (zh) * 2018-12-24 2019-06-07 航天信息股份有限公司 非正常纳税人识别方法及装置
CN109726233A (zh) * 2018-12-28 2019-05-07 浙江省公众信息产业有限公司 用于刻画用户形象的方法、计算机系统和可读介质
CN109978680A (zh) * 2019-03-18 2019-07-05 杭州绿度信息技术有限公司 一种细分客群信贷业务风控差异化定价的风控方法和系统
CN110111106A (zh) * 2019-05-06 2019-08-09 无线生活(北京)信息技术有限公司 交易风险监控方法及装置
CN110414716A (zh) * 2019-07-03 2019-11-05 北京科技大学 一种基于LightGBM的企业失信概率预测方法及系统
CN110688373A (zh) * 2019-09-17 2020-01-14 杭州绿度信息技术有限公司 一种基于逻辑回归的offset方法
CN110689427A (zh) * 2019-10-12 2020-01-14 杭州绿度信息技术有限公司 一种基于生存分析的消费分期违约概率模型
CN111178675A (zh) * 2019-12-05 2020-05-19 佰聆数据股份有限公司 基于LR-Bagging算法的电费回收风险预测方法、系统、存储介质及计算机设备
CN111191825A (zh) * 2019-12-20 2020-05-22 北京淇瑀信息科技有限公司 用户违约预测方法、装置及电子设备
CN112328657A (zh) * 2020-11-03 2021-02-05 中国平安人寿保险股份有限公司 特征衍生方法、装置、计算机设备及介质
CN112927719A (zh) * 2021-01-22 2021-06-08 中信银行股份有限公司 风险信息评估方法、装置、设备及存储介质
CN113222255A (zh) * 2021-05-17 2021-08-06 上海生腾数据科技有限公司 一种合同履约表现量化及短期违约预测的方法及装置
CN113222255B (zh) * 2021-05-17 2024-03-05 上海生腾数据科技有限公司 一种合同履约表现量化及短期违约预测的方法及装置
CN113282886A (zh) * 2021-05-26 2021-08-20 北京大唐神州科技有限公司 基于逻辑回归的银行对公贷款违约判别方法
CN113379212A (zh) * 2021-05-31 2021-09-10 交通运输信息安全中心有限公司 基于区块链的物流信息平台违约风险评估方法、装置、设备及介质
CN113610354A (zh) * 2021-07-15 2021-11-05 北京淇瑀信息科技有限公司 第三方平台用户的策略分配方法、装置及电子设备
CN114066055A (zh) * 2021-11-16 2022-02-18 中交智运有限公司 一种在物流运输中车辆晚靠台预测的方法、装置和服务器
CN115297016A (zh) * 2022-05-07 2022-11-04 国网江苏省电力有限公司淮安供电分公司 一种基于深度学习的电力网络活跃度评价和预测方法
CN115297016B (zh) * 2022-05-07 2024-02-20 国网江苏省电力有限公司淮安供电分公司 一种基于深度学习的电力网络活跃度评价和预测方法
CN116304594A (zh) * 2023-05-11 2023-06-23 北京融信数联科技有限公司 一种基于通信数据的用户区域识别方法、系统及介质
CN116304594B (zh) * 2023-05-11 2023-09-08 北京融信数联科技有限公司 一种基于通信数据的用户区域识别方法、系统及介质

Similar Documents

Publication Publication Date Title
CN109063931A (zh) 一种预测货运物流司机违约概率的模型方法
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
Brezigar-Masten et al. CART-based selection of bankruptcy predictors for the logit model
CN106600369A (zh) 基于朴素贝叶斯分类的银行金融产品实时推荐系统和方法
CN109711955B (zh) 基于当前订单的差评预警方法、系统、黑名单库建立方法
CN106447434A (zh) 个人信用生态平台
CN105931068A (zh) 一种持卡人消费画像的生成方法及装置
CN109344998A (zh) 一种基于医疗美容场景的客户违约概率预测方法
CN112561598A (zh) 基于客户画像的客户流失预测及挽回方法和系统
CN111160745A (zh) 用户账户数据的处理方法及装置
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
Asante et al. Application of two-stage MCDM techniques in evaluating the performance of electronic payment systems in Ghana
CN112163944A (zh) 客户的贷款资质评分方法、装置、计算机设备和存储介质
CN109146667B (zh) 一种基于量化统计的外部接口综合应用模型的构建方法
Gerlich et al. Artificial intelligence as toolset for analysis of public opinion and social interaction in marketing: identification of micro and nano influencers
CN115841345B (zh) 跨境大数据智能化分析方法、系统以及存储介质
CN116821759A (zh) 类别标签的识别预测方法、装置和处理器及电子设备
Prasanth et al. Intelligent Loan Eligibility and Approval System based on Random Forest Algorithm using Machine Learning
Amaliyah et al. Impact of Digital Shariah Banking Systems on Cash-Waqf amongst Muslim Millennials
CN110033169A (zh) 对象评估方法与装置
CN115880077A (zh) 基于客户标签的推荐方法及其装置、电子设备及存储介质
CN114626940A (zh) 数据分析方法、装置及电子设备
CN114612239A (zh) 基于算法、大数据、人工智能的股票舆情监测和风控系统
US20160092896A1 (en) Method and system for determining political affiliation and attitude trends
Cho et al. Exploring artificial intelligence-based data fusion for conjoint analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221