CN110348722A - 一种基于XGBoost的互联网金融风控模型 - Google Patents
一种基于XGBoost的互联网金融风控模型 Download PDFInfo
- Publication number
- CN110348722A CN110348722A CN201910582955.5A CN201910582955A CN110348722A CN 110348722 A CN110348722 A CN 110348722A CN 201910582955 A CN201910582955 A CN 201910582955A CN 110348722 A CN110348722 A CN 110348722A
- Authority
- CN
- China
- Prior art keywords
- variable
- sample
- model
- xgboost
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供了一种基于XGBoost的互联网金融风控模型,包括获取模型样本,确定样本正负;获取样本特征维度;清洗数据;数据集划分,获取训练集、验证集以及跨时间验证样本;特征构建;特征筛选;模型训练。实施本发明技术方案,将多种特征构建的方式结合在了一起,并且增加了变量交叉组合运算这种方式,全面挖掘了变量之间的组合关系,提升模型精度;同时,在特征筛选时,在传统的特征筛选的基础上,增加了变量之间的相关性检验,可以防止进入模型变量过多和模型过拟合,节约成本;另外,本发明采用了XGBoost算法,增强模型复杂度,同时,多个参数避免了过拟合,实践效果比传统逻辑回归有显著提升。
Description
技术领域
本发明涉及互联网金融风控的技术领域,特别涉及一种基于XGBoost的互联网金融风控模型。
背景技术
金融风控是指风险管理者为了减少或消灭金融交易过程中各种可能发生风险的事件或者减少风险事件造成的损失而采用的措施和方法,所以金融风控是金融交易过程中的一个重要环节。
近年互联网金融、大数据发展迅速,大部分互联网金融公司仍按照传统风控建模方法(如图2),即获取样本→获取样本特征维度→数据清洗→数据集划分→特征构建→特征筛选→模型训练。其在特征构建过程中采用WOE转换或构造0-1变量,再用Logistic模型进行拟合构建特征工程,构造信用评分卡,这种方式得到的实践效果比较低,已经跟不上大数据、互联网、机器学习发展的速度。
发明内容
为了解决上述技术问题,本发明中披露了一种基于XGBoost的互联网金融风控模型,本发明的技术方案是这样实施的:
一种基于XGBoost的互联网金融风控模型,包括:
获取样本:获取合适的模型样本,并根据网贷数据和催收数据确定模型样本的正负;
获取样本特征维度;
清洗数据:对上述获取的样本和样本特征维度进行缺失值处理和异常值处理,并调配样本比例与权重;
数据集划分:对清洗数据后获得的样本进行划分,获取训练集、验证集以及跨时间验证样本;
特征构建:步骤一:划分数据结束后将样本中的每个变量进行WOE转换;步骤二:连续变量,寻找最佳变化函数的方法;步骤三:每个变量进项哑变量编码;步骤四:多个连续变量进行加减乘除运算后,进行步骤一,步骤二和步骤三;步骤五:多个类型的变量进行交叉组合;步骤六:保留变量原值作为特征变量;
特征筛选:计算特征变量与因变量的之间的相关系数,根据相关系数,保留相关系数系数较大的特征变量;
模型训练:以特征筛选后获得的特征变量为基础,采用XGBoost算法构建XGBoost模型,利用XGBoost算法进行模型训练。
优选地,所述特征维度包括网贷行为、消费偏好、人口属性、还款能力、应用兴趣、游戏偏好、地理位置、游戏深度、行业标签。
实施本发明的技术方案,在现有的特征构建技术上,将多种特征构建的方式结合在了一起,而不是只用一种构建特征变量的方式,并且增加了变量交叉组合运算这种方式,全面挖掘了变量之间的组合关系,提升模型精度;同时,在特征筛选时,在传统的特征筛选的基础上,增加了变量之间的相关性检验,一方面,可以防止进入模型变量过多,增加计算成本;另一方面,可以防止模型过拟合,为训练模型节省时间。另外,在模型训练时,大胆采用了XGBoost算法,这种算法将Boosting,Rf思想都考虑了进去,增强模型复杂度,同时通过多个参数避免过拟合,实践效果比传统逻辑回归有显著提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明流程图;
图2为传统风控模型构建流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于XGBoost的互联网金融风控模型,如图1所示,包括:
获取样本:获取合适的模型样本,并根据网贷数据和催收数据确定模型样本的正负;
获取样本特征维度;
清洗数据:对上述获取的样本和样本特征维度进行缺失值处理和异常值处理,并调配样本比例与权重;
数据集划分:对清洗数据后获得的样本进行划分,获取训练集、验证集以及跨时间验证样本;
特征构建:步骤一:划分数据结束后将样本中的每个变量进行WOE转换;步骤二:连续变量,寻找最佳变化函数的方法;步骤三:每个变量进项哑变量编码;步骤四:多个连续变量进行加减乘除运算后,进行步骤一,步骤二和步骤三;步骤五:多个类型的变量进行交叉组合;步骤六:保留变量原值作为特征变量;
特征筛选:计算特征变量与因变量的之间的相关系数,根据相关系数,保留相关系数系数较大的特征变量;
模型训练:以特征筛选后获得的特征变量为基础,采用XGBoost算法构建XGBoost模型,并利用XGBoost算法进行模型训练。
在该实施方式中,所述特征维度包括网贷行为、消费偏好、人口属性、还款能力、应用兴趣、游戏偏好、地理位置、游戏深度、行业标签。
实施该实施方式,在现有的特征构建技术上,将多种特征构建的方式结合在了一起,而不是只用一种构建特征变量的方式,并且增加了变量交叉组合运算这种方式,全面挖掘了变量之间的组合关系,提升模型精度;同时,在特征筛选时,在传统的特征筛选的基础上,增加了变量之间的相关性检验,一方面,可以防止进入模型变量过多,增加计算成本;另一方面,可以防止模型过拟合,为训练模型节省时间。另外,在模型训练时,大胆采用了XGBoost算法,这种算法将Boosting,Rf思想都考虑了进去,增强模型复杂度,同时通过多个参数避免过拟合,实践效果比传统逻辑回归有显著提升。
需要指出的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于XGBoost的互联网金融风控模型,其特征在于,包括:
获取样本:获取合适的模型样本,并根据网贷数据和催收数据确定样本的正负;
获取样本特征维度;
清洗数据:对上述获取的样本和样本特征维度进行缺失值处理和异常值处理,并调配样本比例与权重;
数据集划分:对清洗数据后获得的样本进行划分,获取训练集、验证集以及跨时间验证样本;
特征构建:步骤一:划分数据结束后将样本中的每个变量进行WOE转换;步骤二:连续变量,寻找最佳变化函数的方法;步骤三:每个变量进项哑变量编码;步骤四:多个连续变量进行加减乘除运算后,进行步骤一,步骤二和步骤三;步骤五:多个类型的变量进行交叉组合;步骤六:保留变量原值作为特征变量;
特征筛选:计算特征变量与因变量的之间的相关系数,根据相关系数,保留相关系数系数较大的特征变量;
模型训练:以特征筛选后获得的特征变量为基础,采用XGBoost算法构建XGBoost模型,并利用XGBoost算法进行模型训练。
2.根据权利要求1所述的一种基于XGBoost的互联网金融风控模型,其特征在于,所述特征维度包括网贷行为、消费偏好、人口属性、还款能力、应用兴趣、游戏偏好、地理位置、游戏深度、行业标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910582955.5A CN110348722A (zh) | 2019-07-01 | 2019-07-01 | 一种基于XGBoost的互联网金融风控模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910582955.5A CN110348722A (zh) | 2019-07-01 | 2019-07-01 | 一种基于XGBoost的互联网金融风控模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110348722A true CN110348722A (zh) | 2019-10-18 |
Family
ID=68177573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910582955.5A Pending CN110348722A (zh) | 2019-07-01 | 2019-07-01 | 一种基于XGBoost的互联网金融风控模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348722A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738573A (zh) * | 2020-06-09 | 2020-10-02 | 国网河北省电力有限公司营销服务中心 | 一种基于电能表全寿命周期数据的健康评价方法 |
CN111861701A (zh) * | 2020-07-09 | 2020-10-30 | 深圳市富之富信息技术有限公司 | 风控模型优化方法、装置、计算机设备及存储介质 |
CN111899092A (zh) * | 2020-08-28 | 2020-11-06 | 上海冰鉴信息科技有限公司 | 基于二道模型的业务数据筛选方法及装置 |
CN112613983A (zh) * | 2020-12-25 | 2021-04-06 | 北京知因智慧科技有限公司 | 一种机器建模过程中的特征筛选方法、装置及电子设备 |
CN117036008A (zh) * | 2023-10-08 | 2023-11-10 | 中邮消费金融有限公司 | 一种多源数据的自动化建模方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58501011A (ja) * | 1981-06-22 | 1983-06-23 | リ−,チョウ・エイチ | 自動最適調整方法とその機構 |
JP2003043021A (ja) * | 2001-07-31 | 2003-02-13 | Railway Technical Res Inst | コンクリート打音検査方法、及びコンクリート打音検査装置 |
WO2010044683A1 (en) * | 2008-10-15 | 2010-04-22 | Nikola Kirilov Kasabov | Data analysis and predictive systems and related methodologies |
US20170177924A1 (en) * | 2014-07-17 | 2017-06-22 | Nec Solution Innovators, Ltd. | Attribute factor analysis method, device, and program |
CN107633265A (zh) * | 2017-09-04 | 2018-01-26 | 深圳市华傲数据技术有限公司 | 用于优化信用评估模型的数据处理方法及装置 |
CN107798600A (zh) * | 2017-12-05 | 2018-03-13 | 深圳信用宝金融服务有限公司 | 互联网金融小微贷款的信用风险识别方法及装置 |
CN108876193A (zh) * | 2018-07-13 | 2018-11-23 | 四川享宇金信金融服务外包有限公司 | 一种基于信用分的风控模型构建方法 |
CN109034658A (zh) * | 2018-08-22 | 2018-12-18 | 重庆邮电大学 | 一种基于大数据金融的违约用户风险预测方法 |
CN109472471A (zh) * | 2018-10-25 | 2019-03-15 | 杭州高达软件系统股份有限公司 | 基于物联网的风控模型 |
CN109583782A (zh) * | 2018-12-07 | 2019-04-05 | 厦门铅笔头信息科技有限公司 | 支持多数据源的汽车金融风控模型 |
CN109598300A (zh) * | 2018-11-30 | 2019-04-09 | 成都数联铭品科技有限公司 | 一种评估系统及方法 |
CN109597936A (zh) * | 2018-11-30 | 2019-04-09 | 成都数联铭品科技有限公司 | 一种新用户筛选系统及方法 |
-
2019
- 2019-07-01 CN CN201910582955.5A patent/CN110348722A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58501011A (ja) * | 1981-06-22 | 1983-06-23 | リ−,チョウ・エイチ | 自動最適調整方法とその機構 |
JP2003043021A (ja) * | 2001-07-31 | 2003-02-13 | Railway Technical Res Inst | コンクリート打音検査方法、及びコンクリート打音検査装置 |
WO2010044683A1 (en) * | 2008-10-15 | 2010-04-22 | Nikola Kirilov Kasabov | Data analysis and predictive systems and related methodologies |
US20170177924A1 (en) * | 2014-07-17 | 2017-06-22 | Nec Solution Innovators, Ltd. | Attribute factor analysis method, device, and program |
CN107633265A (zh) * | 2017-09-04 | 2018-01-26 | 深圳市华傲数据技术有限公司 | 用于优化信用评估模型的数据处理方法及装置 |
CN107798600A (zh) * | 2017-12-05 | 2018-03-13 | 深圳信用宝金融服务有限公司 | 互联网金融小微贷款的信用风险识别方法及装置 |
CN108876193A (zh) * | 2018-07-13 | 2018-11-23 | 四川享宇金信金融服务外包有限公司 | 一种基于信用分的风控模型构建方法 |
CN109034658A (zh) * | 2018-08-22 | 2018-12-18 | 重庆邮电大学 | 一种基于大数据金融的违约用户风险预测方法 |
CN109472471A (zh) * | 2018-10-25 | 2019-03-15 | 杭州高达软件系统股份有限公司 | 基于物联网的风控模型 |
CN109598300A (zh) * | 2018-11-30 | 2019-04-09 | 成都数联铭品科技有限公司 | 一种评估系统及方法 |
CN109597936A (zh) * | 2018-11-30 | 2019-04-09 | 成都数联铭品科技有限公司 | 一种新用户筛选系统及方法 |
CN109583782A (zh) * | 2018-12-07 | 2019-04-05 | 厦门铅笔头信息科技有限公司 | 支持多数据源的汽车金融风控模型 |
Non-Patent Citations (1)
Title |
---|
张春富等: "基于GA_Xgboost模型的糖尿病风险预测", 《计算机工程》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738573A (zh) * | 2020-06-09 | 2020-10-02 | 国网河北省电力有限公司营销服务中心 | 一种基于电能表全寿命周期数据的健康评价方法 |
CN111861701A (zh) * | 2020-07-09 | 2020-10-30 | 深圳市富之富信息技术有限公司 | 风控模型优化方法、装置、计算机设备及存储介质 |
CN111899092A (zh) * | 2020-08-28 | 2020-11-06 | 上海冰鉴信息科技有限公司 | 基于二道模型的业务数据筛选方法及装置 |
CN112613983A (zh) * | 2020-12-25 | 2021-04-06 | 北京知因智慧科技有限公司 | 一种机器建模过程中的特征筛选方法、装置及电子设备 |
CN112613983B (zh) * | 2020-12-25 | 2023-11-21 | 北京知因智慧科技有限公司 | 一种机器建模过程中的特征筛选方法、装置及电子设备 |
CN117036008A (zh) * | 2023-10-08 | 2023-11-10 | 中邮消费金融有限公司 | 一种多源数据的自动化建模方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348722A (zh) | 一种基于XGBoost的互联网金融风控模型 | |
CN111861588B (zh) | 流失预测模型的训练方法、玩家流失原因分析方法及装置 | |
CN110837803B (zh) | 基于深度图网络的糖尿病视网膜病变分级方法 | |
CN107644279A (zh) | 评价模型的建模方法及装置 | |
CN109086799A (zh) | 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法 | |
CN106056444A (zh) | 数据处理方法和装置 | |
CN116306323B (zh) | 一种数字孪生模型的确定方法、装置、终端设备及介质 | |
CN107977864A (zh) | 一种适用于金融场景的客户洞察方法和系统 | |
CN110322142A (zh) | 一种大数据风控模型及线上系统配置技术 | |
CN112115967B (zh) | 一种基于数据保护的图像增量学习方法 | |
CN108230355A (zh) | 目标跟踪及神经网络训练方法、装置、存储介质和电子设备 | |
CN107545271A (zh) | 图像识别方法、装置和系统 | |
CN110866922B (zh) | 基于强化学习和迁移学习的图像语义分割模型及建模方法 | |
CN106845817A (zh) | 在线强化学习交易系统及方法 | |
CN109934615A (zh) | 基于深度稀疏网络的产品营销方法 | |
CN109583721A (zh) | 一种渠道的评估方法、装置及电子设备 | |
CN110197183A (zh) | 一种图像盲去噪的方法、装置和计算机设备 | |
CN113222123A (zh) | 模型训练方法、装置、设备及计算机存储介质 | |
CN115510042A (zh) | 基于生成对抗网络的电力系统负荷数据填补方法及装置 | |
CN109785002A (zh) | 一种用户游戏内付费预测方法 | |
CN105447566A (zh) | 训练装置、训练方法以及检测装置 | |
CN109871792A (zh) | 行人检测方法和装置 | |
CN115203496A (zh) | 基于大数据的项目智能预测及评估方法、系统及可读存储介质 | |
CN106934373A (zh) | 一种图书馆图书损坏评定方法及系统 | |
CN110610415A (zh) | 一种模型更新的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |