CN113902551B - 车贷申请欺诈识别的方法和设备 - Google Patents
车贷申请欺诈识别的方法和设备 Download PDFInfo
- Publication number
- CN113902551B CN113902551B CN202111222187.6A CN202111222187A CN113902551B CN 113902551 B CN113902551 B CN 113902551B CN 202111222187 A CN202111222187 A CN 202111222187A CN 113902551 B CN113902551 B CN 113902551B
- Authority
- CN
- China
- Prior art keywords
- parameter
- super
- adjustment
- data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种车贷申请欺诈识别的方法和设备,基于xgboost模型进行机器学习,并提出xgboost模型的调参方法,进行欺诈识别时首先获取多笔车贷申请业务对应的数据,从数据中提取特征变量和欺诈标记构建为样本集;然后利用样本集对xgboost模型的超参数进行调参确定每个超参数的最优值,训练和测试经过调参的xgboost模型;最后对待识别的车贷申请业务的对应数据进行数据清理和提取特征变量,将其转换为xgboost模型的合格输入,输入到训练好的xgboost模型即可获得欺诈预测结果。本发明能够提升模型训练效率,并且提高了欺诈预测的准确率,达到了精确识别欺诈客户的目的,可极大节约审核人力成本和欺诈处置成本。
Description
技术领域
本发明属于汽车金融的反欺诈技术领域,涉及一种车贷申请欺诈识别方法和实现该车贷申请欺诈识别方法的设备。
背景技术
汽车消费贷有着单价高、还款周期长的特点,在汽车金融领域里,业务的健康程度取决于整体放贷客户的坏账率。坏账分为信用类和欺诈类,信用类即还款困难,欺诈类即毫无还款意愿,欺诈类的坏账将对业务造成直接的损失。因此,反欺诈技术的成熟程度,直接关系着业务的健康发展。
目前行业主流的欺诈识别做法主要依赖人工开发的规则和统计模型,存在如下缺陷和不足:首先,规则严重依赖经验和直觉,虽然规则具有较好的解释性,但往往效果不佳;其次,规则的开发需要大量分析人员,研发投入巨大而且结果具有不确定性;再者,规则一般不具有普适性,往往只能针对特定条件下的数据起到预计的效果;另外,统计模型基于统计学理论,从多个维度为客户打分,效果虽优于规则,但主要是用于评估客户的还款能力,不具备挖掘客户欺诈风险的能力。
xgboost模型能够用于实现机器学习算法,在训练和使用xgboost模型之前,往往需要对xgboost模型中的超参数进行调参。现有常见的调参方法有网格搜索法、随机搜索法与贝叶斯优化法,但这几种方法都需要较大的解空间,这增加了模型训练时间,降低了模型训练效率。
发明内容
本发明的一个目的是提供一种车贷申请欺诈识别方法,用于降低汽车贷款的欺诈风险;该方法基于xgboost模型实现机器学习,并采用本发明提出的对xgboost模型的调参方法,能够大大缩减所需的解空间,提升模型训练效率。
为实现上述目的,本发明采取的技术方案是:
一种车贷申请欺诈识别方法,包括如下步骤:
步骤一、获取多笔车贷申请业务对应的数据,将每笔车贷申请业务对应的数据进行数据清理后提取特征变量,并根据履约情况标记出每笔车贷申请业务是否存在欺诈,将处理得到的每笔车贷申请业务的特征变量和欺诈标记构建为样本集;
步骤二、选择xgboost模型并依次通过i次调整直到完成对xgboost模型的11个超参数的调参,i为正整数且1<i≤11,每次调整完成至少1个超参数的调参;其中进行第j次调整的具体方法为,j为正整数且j∈[1,i]:
A1、将已经完成前j-1次调参的超参数设置为调参后确定的最优值,其余超参数中除了需要在第j次调整中进行调参的超参数外都设置为默认值;
A2、确定需要在第j次调整中进行调参的超参数的不同候选值,并根据所述样本集对所有候选值进行模型训练,选取训练表现最好的候选值作为需要在第j次调整中进行调参的超参数的最优值;
步骤三、根据所述步骤一构建的样本集训练和测试经过所述步骤二调参后的xgboost模型;
步骤四、对待识别的车贷申请业务的对应数据进行数据清理后提取特征变量,并输入至所述步骤三训练和测试完成的xgboost模型中,得到待识别的车贷申请业务是否存在欺诈的预测结果。
进一步地,所述i取7,第一次调整时获取超参数n_estimators的最优值;第二次调整时获取超参数max_depth和超参数min_child_weight的最优值;第三次调整时获取超参数gamma的最优值;第四次调整时获取超参数subsample和超参数colsample_bytree的最优值;第五次调整时获取超参数reg_alpha和超参数reg_lambda的最优值;第六次调整时获取超参数max_delta_step和超参数scale_pos_weight的最优值;第七次调整时获取超参数learning_rate的最优值。
进一步地,所述超参数n_estimators的候选值参数集为[200,300,400],所述超参数max_depth的候选值参数集为[2,3,4,5],所述超参数min_child_weight的候选值参数集为[1,2,3,4,5],所述超参数gamma的候选值参数集为[0,0.1,0.3,0.5],所述超参数subsample的候选值参数集为[0.7,0.8,0.9],所述超参数colsample_bytree的候选值参数集为[0.7,0.8,0.9,1],所述超参数reg_alpha的候选值参数集为[0,0.05,0.1,1],所述超参数reg_lambda的候选值参数集为[0,0.05,0.1,1],所述超参数max_delta_step的候选值参数集为[0,0.1,1],所述超参数scale_pos_weight的候选值参数集为[1,10,20],所述超参数learning_rate的候选值参数集为[0.01,0.1,0.3,0.5]。
进一步地,将所述步骤一构建的样本集按照时间划分为全部训练集和测试集,再将所述全部训练集划分为部分训练集和验证集。
进一步地,所述全部训练集包括所述样本集的最早时间和最晚时间。
进一步地,在所述步骤二中进行调参时,利用所述部分训练集训练xgboost模型,利用所述验证集测试xgboost模型;在所述步骤三中进行模型训练和测试时,利用所述全部训练集训练xgboost模型,利用所述测试集测试xgboost模型。
进一步地,所述步骤A2中利用交叉验证法对需要在第j次调整中进行调参的超参数的所有候选值进行模型训练,选取所述验证集中表现最好的候选值作为需要在第j次调整中进行调参的超参数的最优值。
进一步地,所述步骤一和步骤三中对车贷申请业务对应的数据进行数据清理后提取特征变量的方法为:
B1、检查每笔车贷申请业务对应的数据的一致性,将数据中的无效值和缺失值填补为默认值;
B2、每笔车贷申请业务对应的数据中,将数值变量进行分箱操作后筛选出有效变量;
B3、将所述有效变量中的离散变量转换为数值变量,并与所述有效变量中原有的数值变量共同构建所述样本集的特征变量。进一步地,所述步骤一获取的车贷申请业务对应的数据中包括对应经销商的欺诈合同占比、逾期合同占比和当月订单环比,还包括对应销售员的欺诈合同占比、逾期合同占比和当月订单环比,还包括近3个月对应车型在相同城市销售价的80百分位数。
为实现发明目的,本发明还提供了一种实现车贷申请欺诈识别的设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的车贷申请欺诈识别方法的步骤。
本发明的有益效果在于:本发明提出一种车贷申请欺诈识别方法,采用xgboost模型并针对该模型设计了调参方法,通过在每次调参时将之前完成调参的超参数设置为最优值、除待进行调参外的其余超参数设定为默认值来减少解空间数量,能够大大节省模型训练时间,提升训练效率;本发明提出的车贷申请欺诈识别方法,不仅针对汽车金融领域的基础数据、数据集的划分、模型的训练提出了独特的处理方法,还采用本发明的xgboost模型的调参方法进行模型中超参数的调参,使得本发明的预测准确率相比传统方法得到了显著的提升,试验表明在测试集上欺诈查准率约为85%,达到了精确识别欺诈客户的目的,可极大节约审核人力成本和欺诈处置成本。
附图说明
图1为本发明提出的一种车贷申请欺诈识别方法在实施例中进行xgboost模型的调参时的一种调参顺序图。
图2为本发明提出的一种车贷申请欺诈识别方法中对数据进行数据清理后提取特征变量的流程图。
图3为利用本发明提出的一种车贷申请欺诈识别方法训练好模型后进行欺诈识别的流程图。
图4为本发明提出的一种车贷申请欺诈识别方法在实施例中对样本集进行划分的部分示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”“及”“该”意在包括复数形式。术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
实施例一
本实施例给出一种xgboost模型的调参方法,xgboost模型有11个超参数,超参数n_estimators为树模型数量,超参数max_depth为树模型最大深度,超参数min_child_weight为孩子节点中最小的样本权重和,超参数gamma为叶节点进行分支所需的损失减少的最小值,超参数subsample为每个子树样本采样率,超参数colsample_bytree为每个子树特征采样率,超参数reg_alphaL1为正则化权重,超参数reg_lambdaL2为正则化权重,超参数max_delta_step为最大移动步长,超参数scale_pos_weight为正样本权重,超参数learning_rate为学习速率。
传统的调参方法如网格搜索法、随机搜索法与贝叶斯优化法,都至少需要11n个解空间,而采用本发明提出的调参方法只需要11×n个解空间,n为每个超参数变量的变化范围。
本发明提出的xgboost模型的调参方法为:依次进行i次调整完成对11个超参数的调参,其中i的取值与每次调整完成的超参数的个数有关,每次调整完成至少1个超参数的调参,因此1<i≤11。
以进行第j次调整为例进行说明,j为正整数且j∈[1,i],在第j次调整时,首先将已经完成前j-1次调参的超参数设置为调参后确定的最优值,其余超参数中除了需要在第j次调整中进行调参的超参数外都设置为默认值;若j=1,则将除了需要在第1次调整中进行调参的超参数外都设置为默认值。随后针对需要在第j次调整中进行调参的超参数选择不同的候选值,并对所有候选值进行模型训练,选取训练表现最好的候选值作为需要在第j次调整中进行调参的超参数的最优值。
这样每次调整时,将已经完成调参的超参数设为经过调参确定的最优值,其余不需要在该次调整进行调参的超参数设置为默认值,只针对需要在该次调参的超参数的不同候选值进行模型训练即可。这样一来本发明只需要11×n个解空间就可以完成11个超参数的调参,由于不需要所有的超参数都同时遍历,大大减小了所需的解空间个数,相比原有方法能够缩减99%的训练时间,提升了模型训练效率。
实施例二
本发明在实施例一的基础上进行改进,由于11个超参数之间存在相互影响,所以不同的调参顺序会影响调参结果,通常对模型效果影响最大的几个超参数为n_estimators、max_depth、min_child_weight、amma、subsample、colsample_bytree和learning_rate。而在汽车金融反欺诈领域,由于欺诈样本通常是极少的,因此面临着样本不平衡的问题,这时scale_pos_weight和max_delta_step这两个超参数的值起到了明显作用,因此本发明提出应当重点调整以上9个超参数。经过反复试验,本实施例按照xgboost算法的特点选择了一种优选的训练顺序,如图1所示。
本实施例中取i=7,即需要依次进行七次调整才能完成对11个超参数的调参。
第一次调整时用于获取超参数n_estimators的最优值,此时将其余10个超参数都设置为默认值。
第二次调整时用于获取超参数max_depth和min_child_weight的最优值,此时将超参数n_estimators设置为第一次调整时确定的最优值,其余8个超参数都设置为默认值。
第三次调整时用于获取超参数gamma的最优值,此时将超参数n_estimators、max_depth和min_child_weight设置为前两次调整时确定的最优值,其余7个超参数都设置为默认值。
第四次调整时用于获取超参数subsample和colsample_bytree的最优值,此时将超参数n_estimators、max_depth、min_child_weight和gamma设置为前三次调整时确定的最优值,其余5个超参数都设置为默认值。
第五次调整时用于获取超参数reg_alpha和reg_lambda的最优值,此时将超参数n_estimators、max_depth、min_child_weight、gamma、subsample和colsample_bytree设置为前四次调整时确定的最优值,其余3个超参数都设置为默认值。
第六次调整时用于获取超参数max_delta_step和scale_pos_weight的最优值,此时将超参数n_estimators、max_depth、min_child_weight、gamma、subsample、colsample_bytree、reg_alpha和reg-lambda设置为前五次调整时确足的最优值,其余1个超参数都设置为默认值。
第七次调整时用于获取超参数learning_rate的最优值,将超参数n_estimators、max_depth、min_child_weight、gamma、subsample、colsample_bytree、reg_alpha、reg_lambda、max_delta_step和scale_pos_weight设置为前六次调整时确定的最优值。
本实施例给出一种较为优选的调参顺序,但值得说明的是,本发明并不仅限于这一种调参顺序,其余仅改变调参顺序但依然遵循本发明调参构思的方案也应当属于本发明的保护范围。按照本实施例给出的顺序调参能够获得一个比较准确的预测结果,但若在训练和试验过程中,发现某个超参数对结果影响巨大时,可以尝试优先调整该超参数。
实施例三
本发明在实施例一或二的基础上对超参数的候选值进行限定,每个超参数都有对应的取值范围,各参数的通用取值范围为n_estimators取整数且n_estimators∈[200,600],Max_depth取整数且Max_depth∈[2,8],Min_child_weight取整数且Min_child_weight∈[1,10],Gamma为实数且Gamma∈[1e-2,1],Subsample为实数且Subsample∈[0.5,1],Colsample_bytree为实数且Colsample_bytree∈[0.5,1],Reg_alpha为实数且Reg_alpha∈[1e-2,1],Reg_lambda为实数且Reg_lambda∈[1e-2,1],Max_delta_step为实数且Max_delta_step∈[0,1],Scale_pos_weight为实数且Scale_pos_weight∈[1,100],Learning_rate为实数且Learning_rate∈[1e-2,0.5]。
可以看到每个超参数的取值范围是非常大的,本实施例根据其本身的特质以及xgboost算法的特点,按照经验给出了11个超参数的一个优选的候选值参数集。
下面结合实施例二的调参顺序进行说明,首先将除超参数n_estimators外的其他10个超参数设置为默认值,然后从超参数n_estimators的候选值参数集[200,300,400]中寻找表现最好的值为400,可以采用交叉验证法寻找超参数的最优值。
接着将n_estimators的默认值替换为最优值,获得超参数max_depth的候选值参数集[2,3,4,5]和超参数min_child_weight的候选值参数集[1,2,3,4,5]中两个参数的最优值,分别为3和1。
随后将max_depth和min_child_weight的默认值替换为最优值,依照此法,依次获得超参数gamma的候选值参数集[0,0.1,0.3,0.5]中的最优值0,subsample的候选值参数集[0.7,0.8,0.9]和colsample_bytree的候选值参数集[0.7,0.8,0.9,1]中的最优值0.8和1,reg_alpha的候选值参数集[0,0.05,0.1,1]和reg_lambda的候选值参数集[0,0.05,0.1,1]中的最优值0.1和1,max_delta_step的候选值参数集[0,0.1,1]和scale_pos_weight的候选值参数集[1,10,20]中的最优值0和10,learning_rate的候选值参数集[0.01,0.1,0.3,0.5]中的最优值0.3。
同样的,本实施例给出一种较为优选的11个超参数的候选值参数集,但值得说明的是,本发明并不仅限于本实施例的这种候选值参数集设置,其余仅改变候选值参数集设置但依然遵循本发明调参构思的方案也应当属于本发明的保护范围。
实施例四
基于现有欺诈识别方法中的不足,本发明针对汽车金融领域的特点,采用机器学习的方法,提出一种车贷申请欺诈识别方法,该方法通过训练xgboost机器学习模型,将训练得到的模型用做贷前审批环节的欺诈识别。
本发明提出的一种车贷申请欺诈识别方法主要包括数据准备阶段、模型训练阶段和模型部署阶段。在数据准备阶段需要从业务系统中获取多笔车贷申请业务对应的相关数据,随后经过数据清洗、特征工程、变量筛选后获取高质量的数据集;在模型训练阶段,先通过分段设置数据集,设定一个初始状态的超参数,利用上述实施例一至三的调参方法学习出最优的超参数,然后基于最优超参训练出最优模型;最后在模型部署阶段利用训练好的最优模型进行欺诈预测。
详细来说,在数据准备阶段,首先对每笔车贷申请业务,获取能够评估客户欺诈风险的相关的数据,数据可以包括客户信息(如个人信息、联系人信息、家庭信息、工作信息、地址信息、教育程度等),订单信息(如车型、金融方案)、经销商信息(如车商地址、员工人数、销售信息、经营情况等),外部数据(如同盾、百融、冰鉴、人行征信等),可以直接从业务系统中获取客户信息表、贷款申请表、经销商信息表、车辆信息表、人行征信查询表、百融信息查询表、同盾信息表、冰鉴信息表等来获取所需的数据,本实施例中选区约40万条数据。样本集中,需要根据履约情况标记出每笔车贷申请业务是否存在欺诈,本实施例根据欺诈客户登记表对40万条记录进行欺诈标记,其中欺诈客户约2000条。
获取数据后需要对数据进行清理后提取特征变量,以用于构建样本集,具体方式为对每笔业务数据进行数据清洗,对清洗后的数据进行特征筛选,然后对筛选后的特征进行特征工程,得到的特征变量和欺诈标记构建得到为样本集。
在模型训练阶段根据样本集进行模型训练,先对11个超参数进行调参,将经过调参确定的11个超参数的最优值作为xgboost模型的超参数,使用样本集划分的训练集训练xgboost模型,然后用样本集划分的测试集测试xgboost模型效果,若验证发现模型效果不够理想可以重新进行训练。
最后在模型部署阶段,将训练好的模型进行打包,放入工程项目中,使用restful方式将模型部署至服务器。在工程项目中,对每笔真实业务数据进行数据的清洗、数据筛选、特征工程步骤,使之成为模型合法的输入后,使用训练好的模型输出预测结果并返回,同时将模型的预测结果和输入变量保持至数据库,模型的预测结果表示每笔订单是否欺诈,可以令1表示欺诈,0表示非欺诈。
本发明采用xgboost模型进行预测,模型的效果与所采集的数据中提取的特征变量以及超参数的调参有关,采用本发明的调参方法能够节省训练时间,根据本发明针对汽车金融领域所选取的数据以及特征变量,能够提升预测精度。
实施例五
本实施例在实施例四的基础上进行改进,实施例四收集了一些常规的车贷申请业务的数据,本实施例还针对汽车金融领域的业务特点,提出了还收集若干衍生变量,能够有效提高模型的整体性能约3%-7%。
衍生变量可以反映出业务在当地开展的实际状态,比如针对经销商、销售员、车型在时间维度上的统计指标,从统计角度上看,这些指标反映了与欺诈发生之间的后验概率。本实施例在常规的业务数据变量基础上,抽取出若干统计指标作为模型的补充输入变量,需要说明的是这些变量并不都有良好的效果,仍需要筛选。
再具体来说,经销商相关变量包括该经销商近3/6个月欺诈合同占比、当前M1/M2/M3逾期合同占比(其中M1表示逾期1个月,M2表示逾期2个月,M3表示逾期3个月)、当月订单环比等;销售员相关变量包括近3/6个月欺诈合同占比、当前M1/M2/M3逾期合同占比、当月订单环比等;车型相关变量包括近3个月该车型在相同城市销售价的80百分位数等。欺诈合同占比、逾期合同占比能够提供该经销商或该销售员处理业务的欺诈情况,车型在相同城市销售价的80百分位数能够提供是否虚报售价的信息。
实施例六
本实施例在实施例四和五的基础上对样本集的划分方式进行改进,传统的划分方式通常是直接根据某个时间点将样本集划分为训练集和测试集,这样训练集通常只有样本集的最早时间或最晚时间。本实施例提出将样本集按照时间划分为全部训练集和测试集,为了提高模型的稳定性,本发明所划分的全部训练集要取整个样本集的头尾部分,即全部训练集要既包括样本集的最早时间也包括样本集的最晚时间,如图4所示。
全部训练集和测试集用于模型训练,将调参得到的11个超参数的最优值作为xgboost模型的超参数,使用样本集划分的全部训练集训练xgboost模型,然后用测试集测试xgboost模型效果,所得到的为最优模型。
本发明还将全部训练集再进一步划分为部分训练集和验证集用于调参。即在进行调参时,对每一个待调整的超参数的候选值都利用交叉验证法,先利用部分训练集训练xgboost模型,再利用验证集测试xgboost模型,选取验证集中表现最好的候选值作为该待调整的超参数的最优值。在调参完成进行模型训练和测试时,就利用全部训练集训练xgboost模型,利用测试集测试xgboost模型,获得最优的xgboost模型用于欺诈预测。
实施例七
本实施例在实施例四至六的基础上,进一步对数据准备阶段的特征提取进行改进,具体包括:
数据清洗:对车贷申请业务对应的数据中每笔数据检查数据一致性,将无效值和缺失值填补为默认值。
特征筛选:每笔数据中,对数值类型变量进行分箱得到较为单调的特征变量,然后筛选出有效变量,比如可以使用IV、WOE算法计算每个特征变量的IV值,根据IV值进行筛选;如实施例中从1600个变量中筛选出IV值大于0.1的有效变量约400个。
特征工程:对于筛选得到的有效变量中的离散变量进行数值映射转换为数值类型;筛选得到的有效变量中的数值类型变量保持不变,与离散变量数值映射后的数值类型变量共同构建样本集的特征变量。
数据划分:基于每笔业务的发生的时间将数据集的划分为全部训练集和测试集,其中全部训练集占7成、测试集占3成(当然也可以是其他比例,如64或55),并且全部训练集要取整个样本集的头尾部分,划分后的全部训练集和测试集的数据可以是连续的数据也可以是不连续的数据,但全部训练集和测试集的数据没有交集;然后再将全部训练集随机划出一半作为验证集使用,另一半作为部分训练集用于调参。
完成调参和模型训练后,将训练好的模型进行打包,放入工程项目中,使用restful方式将模型部署至服务器。随后可以用该模型对工程项目中请求模型的每笔真实业务数据进行预测,工程项目中请求模型的每笔真实业务数据也可以按照本实施例中的方法进行数据的清洗、数据筛选、特征工程等步骤,提取出其中的特征变量使之成为模型合法的输入,然后即可得到模型输出预测结果,判断请求模型的真实业务数据是否存在欺诈可能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
Claims (7)
1.一种车贷申请欺诈识别方法,其特征在于,包括如下步骤:
步骤一、获取多笔车贷申请业务对应的数据,将每笔车贷申请业务对应的数据进行数据清理后提取特征变量,并根据履约情况标记出每笔车贷申请业务是否存在欺诈,将处理得到的每笔车贷申请业务的特征变量和欺诈标记构建为样本集;
步骤二、选择xgboost模型并依次通过7次调整直到完成对xgboost模型的11个超参数的调参,每次调整完成至少1个超参数的调参,第一次调整时获取超参数n_estimators的最优值;第二次调整时获取超参数max_depth和超参数min_child_weight的最优值;第三次调整时获取超参数gamma的最优值;第四次调整时获取超参数subsample和超参数colsample_bytree的最优值;第五次调整时获取超参数reg_alpha和超参数reg_lambda的最优值;第六次调整时获取超参数max_delta_step和超参数scale_pos_weight的最优值;第七次调整时获取超参数learning_rate的最优值;其中进行第j次调整的具体方法为,j为正整数且j∈[1,i]:
A1、将已经完成前j-1次调参的超参数设置为调参后确定的最优值,其余超参数中除了需要在第j次调整中进行调参的超参数外都设置为默认值;
A2、确定需要在第j次调整中进行调参的超参数的不同候选值,并根据所述样本集对所有候选值进行模型训练,选取训练表现最好的候选值作为需要在第j次调整中进行调参的超参数的最优值;
步骤三、根据所述步骤一构建的样本集训练和测试经过所述步骤二调参后的xgboost模型;
步骤四、对待识别的车贷申请业务的对应数据进行数据清理后提取特征变量,并输入至所述步骤三训练和测试完成的xgboost模型中,得到待识别的车贷申请业务是否存在欺诈的预测结果;
所述步骤一和步骤三中对车贷申请业务对应的数据进行数据清理后提取特征变量的方法为:
B1、检查每笔车贷申请业务对应的数据的一致性,将数据中的无效值和缺失值填补为默认值;
B2、每笔车贷申请业务对应的数据中,将数值变量进行分箱操作后筛选出有效变量;
B3、将所述有效变量中的离散变量转换为数值变量,并与所述有效变量中原有的数值变量共同构建所述样本集的特征变量;
在数据准备阶段,首先对每笔车贷申请业务,获取能够评估客户欺诈风险的相关的数据,数据包括客户信息、订单信息、经销商信息以及外部数据,根据履约情况标记出每笔车贷申请业务是否存在欺诈;所述客户信息包括:个人信息、联系人信息、家庭信息、工作信息、地址信息和教育程度,所述订单信息包括:车型和金融方案;所述经销商信息包括:车商地址、员工人数、销售信息和经营情况;所述外部数据包括:同盾、百融、冰鉴和人行征信;
还收集衍生变量,所述衍生变量包括:针对经销商、销售员、车型在时间维度上的统计指标;所述步骤一获取的车贷申请业务对应的数据中包括对应经销商的欺诈合同占比、逾期合同占比和当月订单环比,还包括对应销售员的欺诈合同占比、逾期合同占比和当月订单环比,还包括近3个月对应车型在相同城市销售价的80百分位数;
数据划分:基于每笔业务的发生的时间将数据集的划分为全部训练集和测试集,其中全部训练集占7成、测试集占3成,并且全部训练集要取整个样本集的头尾部分,划分后的全部训练集和测试集的数据可以是连续的数据也可以是不连续的数据,但全部训练集和测试集的数据没有交集;然后再将全部训练集随机划出一半作为验证集使用,另一半作为部分训练集用于调参。
2.根据权利要求1所述的车贷申请欺诈识别方法,其特征在于,所述超参数n_estimators的候选值参数集为[200,300,400],所述超参数max_depth的候选值参数集为[2,3,4,5],所述超参数min_child_weight的候选值参数集为[1,2,3,4,5],所述超参数gamma的候选值参数集为[0,0.1,0.3,0.5],所述超参数subsample的候选值参数集为[0.7,0.8,0.9],所述超参数colsample_bytree的候选值参数集为[0.7,0.8,0.9,1],所述超参数reg_alpha的候选值参数集为[0,0.05,0.1,1],所述超参数reg_lambda的候选值参数集为[0,0.05,0.1,1],所述超参数max_delta_step的候选值参数集为[0,0.1,1],所述超参数scale_pos_weight的候选值参数集为[1,10,20],所述超参数learning_rate的候选值参数集为[0.01,0.1,0.3,0.5]。
3.根据权利要求1所述的车贷申请欺诈识别方法,其特征在于,将所述步骤一构建的样本集按照时间划分为全部训练集和测试集,再将所述全部训练集划分为部分训练集和验证集。
4.根据权利要求3所述的车贷申请欺诈识别方法,其特征在于,所述全部训练集包括所述样本集的最早时间和最晚时间。
5.根据权利要求3或4所述的车贷申请欺诈识别方法,其特征在于,在所述步骤二中进行调参时,利用所述部分训练集训练xgboost模型,利用所述验证集测试xgboost模型;在所述步骤三中进行模型训练和测试时,利用所述全部训练集训练xgboost模型,利用所述测试集测试xgboost模型。
6.根据权利要求5所述的车贷申请欺诈识别方法,其特征在于,所述步骤A2中利用交叉验证法对需要在第j次调整中进行调参的超参数的所有候选值进行模型训练,选取所述验证集中表现最好的候选值作为需要在第j次调整中进行调参的超参数的最优值。
7.一种实现车贷申请欺诈识别的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述车贷申请欺诈识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111222187.6A CN113902551B (zh) | 2021-10-20 | 2021-10-20 | 车贷申请欺诈识别的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111222187.6A CN113902551B (zh) | 2021-10-20 | 2021-10-20 | 车贷申请欺诈识别的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113902551A CN113902551A (zh) | 2022-01-07 |
CN113902551B true CN113902551B (zh) | 2023-09-01 |
Family
ID=79192972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111222187.6A Active CN113902551B (zh) | 2021-10-20 | 2021-10-20 | 车贷申请欺诈识别的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902551B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492173A (zh) * | 2018-03-23 | 2018-09-04 | 上海氪信信息技术有限公司 | 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法 |
CN110009479A (zh) * | 2019-03-01 | 2019-07-12 | 百融金融信息服务股份有限公司 | 信用评价方法及装置、存储介质、计算机设备 |
CN110363407A (zh) * | 2019-06-27 | 2019-10-22 | 上海淇馥信息技术有限公司 | 基于用户行为轨迹的欺诈风险评估方法及装置 |
-
2021
- 2021-10-20 CN CN202111222187.6A patent/CN113902551B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492173A (zh) * | 2018-03-23 | 2018-09-04 | 上海氪信信息技术有限公司 | 一种基于双模网络图挖掘算法的信用卡反欺诈预测方法 |
CN110009479A (zh) * | 2019-03-01 | 2019-07-12 | 百融金融信息服务股份有限公司 | 信用评价方法及装置、存储介质、计算机设备 |
CN110363407A (zh) * | 2019-06-27 | 2019-10-22 | 上海淇馥信息技术有限公司 | 基于用户行为轨迹的欺诈风险评估方法及装置 |
Non-Patent Citations (1)
Title |
---|
何龙 著,.深入理解XGBoost 高效机器学习算法与进阶.北京:机械工业出版社,2020,第316-318、322-329页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113902551A (zh) | 2022-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gunnarsdóttir et al. | Review of indicators for sustainable energy development | |
Girma et al. | Evaluating the foreign ownership wage premium using a difference-in-differences matching approach | |
US8626560B1 (en) | System and method for evaluating vehicle purchase loyalty | |
EP1361526A1 (en) | Electronic data processing system and method of using an electronic processing system for automatically determining a risk indicator value | |
Graff et al. | What determines the finance-growth nexus? Empirical evidence for threshold models | |
Siekelova et al. | Profit management as an instrument for SMEs developing: The case for Slovakia | |
CN114266289A (zh) | 一种复杂装备健康状态评估方法 | |
CN112232377A (zh) | 一种企业esg三优信用模型构建方法及其装置 | |
US20090276290A1 (en) | System and method of optimizing commercial real estate transactions | |
US6868299B2 (en) | Generating a sampling plan for testing generated content | |
CN113902551B (zh) | 车贷申请欺诈识别的方法和设备 | |
KR20220097822A (ko) | 비정형 기업 데이터를 이용한 기업성장 예측 시스템 | |
CN115907533A (zh) | 一种评估个体工商户持续经营能力的方法及系统 | |
CN115237970A (zh) | 数据预测方法、装置、设备、存储介质及程序产品 | |
CN110413967B (zh) | 对账图表生成方法、装置、计算机设备以及存储介质 | |
Krusinskas et al. | THE RESEARCH OF RELIABILITY OF BANKRUPTCY PREDICTION MODELS IN LITHUANIAN COMPANIES. | |
JP2003280901A (ja) | 見積評価支援プログラムおよび見積評価支援システム | |
US20230196485A1 (en) | After-repair value ("arv") estimator for real estate properties | |
CN116051288B (zh) | 一种基于重采样的金融信用评分数据增强方法 | |
CN113282886B (zh) | 基于逻辑回归的银行对公贷款违约判别方法 | |
Karan et al. | Estimation of credit risk of retail stores by using their payment history: A combined logistic regression and multi-dea | |
Cudney et al. | Predicting vehicle cost using the T-method | |
CN117829977A (zh) | 一种基于商业汇票信息的企业融资意愿度分析方法及模型 | |
SIN et al. | EFFECT OF ECONOMIC FACTORS ON THE AUTOMOTIVE INDUSTRY IN MALAYSIA | |
Kacer et al. | Are Measures of an Audit Firm's Competitive Position in Local Markets Robust? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |