CN111160733B - 一种基于有偏样本的风险控制方法、装置及电子设备 - Google Patents

一种基于有偏样本的风险控制方法、装置及电子设备 Download PDF

Info

Publication number
CN111160733B
CN111160733B CN201911291118.3A CN201911291118A CN111160733B CN 111160733 B CN111160733 B CN 111160733B CN 201911291118 A CN201911291118 A CN 201911291118A CN 111160733 B CN111160733 B CN 111160733B
Authority
CN
China
Prior art keywords
sub
training
prediction data
original
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911291118.3A
Other languages
English (en)
Other versions
CN111160733A (zh
Inventor
姚聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qilu Information Technology Co Ltd
Original Assignee
Beijing Qilu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qilu Information Technology Co Ltd filed Critical Beijing Qilu Information Technology Co Ltd
Priority to CN201911291118.3A priority Critical patent/CN111160733B/zh
Publication of CN111160733A publication Critical patent/CN111160733A/zh
Application granted granted Critical
Publication of CN111160733B publication Critical patent/CN111160733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Accounting & Taxation (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于有偏样本的风险控制方法、装置及电子设备,所述方法包括:收集用户数据作为原始样本集;根据所述原始样本集创建风控模型;根据所述风控模型计算用户风险评分;根据所述风险评分确定风险用户;其中,所述原始样本集为有偏样本集。本发明针对用户数据形成有偏样本集的情况,通过收集用户数据作为原始样本集;根据原始样本集创建风控模型;在创建风控模型过程中利用不同类型的分类器在不同平衡性样本上的适用性进行堆叠,形成一种复合层级框架,将非常有限的负样本利用到各个层级的模型,集成堆叠后的分类器可以有效的针对负样本进行分类,达到识别坏客户的目的,从而提升风控水平。

Description

一种基于有偏样本的风险控制方法、装置及电子设备
技术领域
本发明涉及金融风险控制技术领域,具体而言,涉及一种基于有偏样本的风险控制方法、装置、电子设备及计算机可读介质。
背景技术
在金融领域的风险控制中,通常会抽取大量的正负样本建立风险评估模型并对模型进行训练,再通过训练好的模型进行风险评估。而在实际风险控制中会出现负样本比例非常小的有偏样本,比如在账第3个月份数(month on booK 3,MOB3)逾期10天以上客户比例只有1%,也就是说在1万个授信客户中只有100个授信客户逾期,显然这个样本集中逾期客户数量非常少。
现有技术对于有偏样本的处理,更多的是从抽样的角度去处理,比如进行欠采样或者过采样人为的提升负样本比例,但是这样处理之后在采样后的建模中还是缺失了大量正样本的信息,因而在后续模型应用中会出现效果衰减的问题,降低了风控水平。
发明内容
本发明旨在解决现有技术中因有偏样本信息缺失导致模型效果衰减、风控水平降低的技术问题。
为了解决上述技术问题,本发明第一方面提出一种基于有偏样本的风险控制方法,所述方法包括:
收集用户数据作为原始样本集;
根据所述原始样本集创建风控模型;
根据所述风控模型计算用户风险评分;
根据所述风险评分确定风险用户;
其中,所述原始样本集为有偏样本集。
根据本发明一种较佳的实施方式,所述根据所述原始样本集创建风控模型包括:
选择基础分类器并设置各个基础分类器对应的参数;
根据所述原始样本集采用K折交叉验证对各个基础分类器进行训练得到第一预测数据和第二预测数据;
将所述第一预测数据作为训练集,所述第二预测数据作为测试集采用K折交叉验证对各个预设模型进行训练得到第一预测数据和第二预测数据,循环本步骤,直至所述预设模型的AUC达到第一预设值,KS达到第二预设值为止。
根据本发明一种较佳的实施方式,所述根据所述原始样本集采用K折交叉验证对各个基础分类器进行训练得到第一预测数据和第二预测数据包括:
将所述原始样本集分为原始训练集和原始测试集,对所述原始训练集采用K折交叉验证得到K个子样本集;
采用所述K个子样本集训练各个基础分类器,采用训练后的各个基础分类器分别预测所述子样本集得到第一预测数据A1,A2…An,采用训练后的各个基础分类器分别预测所述原始测试集得到第二预测数据B1,B2…Bn;其中,n为基础分类器个数。
根据本发明一种较佳的实施方式,所述采用所述K个子样本集训练各个基础分类器,采用训练后的各个基础分类器分别预测所述子样本集得到第一预测数据A1,A2…An,采用训练后的各个基础分类器分别预测所述原始测试集得到第二预测数据B1,B2…Bn包括:
对于第i基础分类器,将所述K个子样本集分为K对子测试集和子训练集,采用所述每个子训练集对所述第i基础分类器进行训练,通过训练后的各个第i基础分类器对与所述子训练集对应的子测试集进行预测,分别得到第一子预测数据ai1,ai2…aiK;通过训练后的各个第i基础分类器对所述原始测试集进行预测,得到第二子预测数据bi1,bi2…biK;将所述第一子预测数据ai1,ai2…aiK组合生成第一预测数据Ai,将所述第二子预测数据bi1,bi2…biK组合生成第二预测数据Bi;其中,i=1,2…n。
根据本发明一种较佳的实施方式,所述将所述K个子样本集分为K对子测试集和子训练集包括:
依次选取1个子样本集作为子测试集,其余K-1个子样本集作为子训练集形成所述K对子测试集和子训练集。
根据本发明一种较佳的实施方式,所述将所述第一预测数据作为训练集,所述第二预测数据作为测试集采用K折交叉验证对各个预设模型进行训练得到第一预测数据和第二预测数据包括:
将所述第一预测数据A1,A2…An合并作为训练集,将所述第二预测数据B1,B2…Bn合并作为测试集;
对所述训练集采用K折交叉验证得到K个子样本集;
采用所述K个子样本集训练所述预设模型,采用训练后的预设模型预测所述子样本集得到第一预测数据A1,A2…Am,采用训练后的预设模型预测所述测试集得到第二预测数据B1,B2…Bm;其中,m为预设模型个数。
根据本发明一种较佳的实施方式,所述基础分类器包括XGBoost,SVM,LR,GBDT与RF中的至少一种。
根据本发明一种较佳的实施方式,所述预设模型为RF分类器。
为了解决上述技术问题,本发明第二方面提供一种基于有偏样本的风险控制装置,所述装置包括:
收集模块,用于收集用户数据作为原始样本集;
创建模块,用于根据所述原始样本集创建风控模型;
计算模块,用于根据所述风控模型计算用户风险评分;
确定模块,用于根据所述风险评分确定风险用户;
其中,所述原始样本集为有偏样本集。
根据本发明一种较佳的实施方式,所述创建模块包括:
设置模块,用于选择基础分类器并设置各个基础分类器对应的参数;
第一训练模块,用于根据所述原始样本集采用K折交叉验证对各个基础分类器进行训练得到第一预测数据和第二预测数据;
第二训练模块,用于将所述第一预测数据作为训练集,所述第二预测数据作为测试集采用K折交叉验证对各个预设模型进行训练得到第一预测数据和第二预测数据;
循环模块,用于控制所述第二训练模块循环执行,直至所述预设模型的AUC达到第一预设值,KS达到第二预设值为止。
根据本发明一种较佳的实施方式,所述第一训练模块包括:
抽样模块,用于将所述原始样本集分为原始训练集和原始测试集,对所述原始训练集采用K折交叉验证得到K个子样本集;
第一子训练模块,用于采用所述K个子样本集训练各个基础分类器,采用训练后的各个基础分类器分别预测所述子样本集得到第一预测数据A1,A2…An,采用训练后的各个基础分类器分别预测所述原始测试集得到第二预测数据B1,B2…Bn;其中,n为基础分类器个数。
根据本发明一种较佳的实施方式,所述第一子训练模块包括:
第一子抽样模块,用于对于第i基础分类器,将所述K个子样本集分为K对子测试集和子训练集;
训练预测模块,用于对于第i基础分类器,采用所述每个子训练集对所述第i基础分类器进行训练,通过训练后的各个第i基础分类器对与所述子训练集对应的子测试集进行预测,分别得到第一子预测数据ai1,ai2…aiK;通过训练后的各个第i基础分类器对所述原始测试集进行预测,得到第二子预测数据bi1,bi2…biK;将所述第一子预测数据ai1,ai2…aiK组合生成第一预测数据Ai,将所述第二子预测数据bi1,bi2…biK组合生成第二预测数据Bi;其中,i=1,2…n。
根据本发明一种较佳的实施方式,所述第一子抽样模块具体用于:
依次选取1个子样本集作为子测试集,其余K-1个子样本集作为子训练集形成所述K对子测试集和子训练集。
根据本发明一种较佳的实施方式,所述第二训练模块包括:
第二子抽样模块,用于将所述第一预测数据A1,A2…An合并作为训练集,将所述第二预测数据B1,B2…Bn合并作为测试集;对所述训练集采用K折交叉验证得到K个子样本集;
第二训练预测模块,用于采用所述K个子样本集训练所述预设模型,采用训练后的预设模型预测所述子样本集得到第一预测数据A1,A2…Am,采用训练后的预设模型预测所述测试集得到第二预测数据B1,B2…Bm;其中,m为预设模型个数。
根据本发明一种较佳的实施方式,所述基础分类器包括XGBoost,SVM,LR,GBDT与RF中的至少一种。
根据本发明一种较佳的实施方式,所述预设模型为RF分类器。
为了解决上述技术问题,本发明第三方面提供一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述的方法。
为了解决上述技术问题,本发明第四方面提出一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述方法。
本发明针对用户数据形成有偏样本集的情况,通过收集用户数据作为原始样本集;根据原始样本集创建风控模型;具体在创建风控模型过程中利用不同类型的分类器在不同平衡性样本上的适用性进行堆叠(stacKing),形成一种复合层级框架,将非常有限的负样本利用到各个层级的模型,虽然每一层的分类器可能是一个弱分类器,但是集成堆叠后的分类器可以有效的针对负样本进行分类,达到识别坏客户的目的,从而提升风控水平。本发明可以针对有偏样本环境始终保持风控模型的AUC>0.7,KS>0.3,从而针对特定风控业务场景(如首次逾期等)开发出满足业务需要的风控模型,并根据风控模型计算出客户风险评分,有效支撑业务的开展和风险的管理,提升风控水平。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明一种基于有偏样本的风险控制方法的流程示意图;
图2是本发明创建风控模型的流程示意图;
图3是本发明对原始样本集进行抽样得到子样本集的示意图;
图4a~4e分别是本发明将5个子样本集分为5对子测试集和子训练集的示意图;
图5是本发明一种基于有偏样本的风险控制装置的结构框架示意图;
图6是根据本发明的一种电子设备的示例性实施例的结构框图;
图7是本发明一个计算机可读介质实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
如图1是本发明提供的一种基于有偏样本的风险控制方法的流程图,如图1所示,所述方法包括:
S1、收集用户数据作为原始样本集;
本发明主要应用于用户数据形成有偏样本集的情况。其中,有偏样本集是指在样本集中负样本所占的比例远远小于正样本所占的比例。本发明中,可以将负样本所占比例小于预设值的样本集称为有偏样本集,例如将负样本所占比例小于10%的样本集称为有偏样本。有偏样本会导致在建模中因缺失大量正样本信息,出现模型效果衰减,风险难以预测的情况。
例如在贷款业务中首次逾期客户数据非常小的情况,本步骤可以收集所有贷款客户数据,如逾期金额、逾期时间、用户征信等数据。
S2、根据所述原始样本集创建风控模型;
本发明在创建风控模型过程中利用不同类型的基础分类器在不同平衡性样本上的适用性进行堆叠(stacKing),形成一种复合层级框架,将非常有限的负样本利用到各个层级的模型,虽然每一层的分类器可能是一个弱分类器,但是集成堆叠后的分类器可以有效的针对负样本进行分类,达到识别坏客户的目的,从而提升风控水平。如图2所示,本步骤具体包括:
S21、选择基础分类器并设置各个基础分类器对应的参数;
本步骤可以尝试不同的基础分类器并对每个基础分类器设置对应的参数,这些基础分类器能够充分利用负样本信息,提升风控模型的效果。
在一种优选实施方式中,选择XGBoost(极端梯度提升,eXtreme GradientBoosting),SVM(支持向量机,Support Vector Machine),LR(逻辑回归,LogisticRegression),GBDT(梯度下降树,Gradient Boosting Decision Tre)和RF(随机森林,Random Forest)作为基础分类器。
其中,各个基础分类器的参数设置如下:
XGBoost:learning_rate=0.08,gamma=0,subsample=0.8,n_estimators=140,max_depth=5,min_child_weight=9,colsample_bytree=0.8,objective='binary:logistic',nthread=4,scale_pos_weight=1,seed=27
SVM:Kernel=’sigmoid’c=10gamma=0.5r=0.4estimator=SVC
LR:penalty=’l2’,solver=’liblinear’,c=0.5,max_iter=1000
GBDT:leaning_rate=0.1,n_estimators=120,max_depth=3,max_leaf_nodes=100,subsample=0.75,max_features=20
RF:n_estimators=60,min_samples_split=100。
S22、根据所述原始样本集采用K折交叉验证对各个基础分类器进行训练得到第一预测数据和第二预测数据;
具体的,本步骤包括:
S221、将所述原始样本集分为原始训练集和原始测试集,对所述原始训练集采用K折交叉验证得到K个子样本集;
本实施例中,由于采用了五个基础分类器,则本步骤中优选对原始训练集采用5折交叉验证得到5个子样本集。例如图3,原始样本集中包含12000行样本,其中原始训练集样本数量为10000行,原始测试集中样本数量为2000行,对原始训练集进行5折交叉验证可得到数量为2000行的5个子样本集a1、a2、a3、a4、a5。
S222、采用所述K个子样本集训练各个基础分类器,采用训练后的各个基础分类器分别预测所述子样本集得到第一预测数据A1,A2…An,采用训练后的各个基础分类器分别预测所述原始测试集得到第二预测数据B1,B2…Bn;
本发明中,n为基础分类器个数。对于第i基础分类器,将所述K个子样本集分为K对子测试集和子训练集,采用所述每个子训练集对所述第i基础分类器进行训练,通过训练后的各个第i基础分类器对与所述子训练集对应的子测试集进行预测,分别得到第一子预测数据ai1,ai2…aiK;通过训练后的各个第i基础分类器对所述原始测试集进行预测,得到第二子预测数据bi1,bi2…biK;将所述第一子预测数据ai1,ai2…aiK组合生成第一预测数据Ai,将所述第二子预测数据bi1,bi2…biK组合生成第二预测数据Bi;其中,i=1,2…n。
以采用5个子样本集训练5个基础分类器为例,则基础分类器个数n=5。将5个子样本集分为5对子测试集和子训练集,具体的,依次选取1个子样本集作为子测试集,其余K-1个子样本集作为子训练集形成所述K对子测试集和子训练集。如图4a~4e所示,对于2000行的子样本集a1、a2、a3、a4、a5,将a1作为第一子测试集,a2、a3、a4、a5作为第一子训练集,得到第一对子测试集和子训练集,将a2作为第二子测试集,a1、a3、a4、a5作为第二子训练集,得到第二对子测试集和子训练集,将a3作为第三子测试集,a1、a2、a4、a5作为第三子训练集,得到第三对子测试集和子训练集,将a4作为第四子测试集,a1、a2、a3、a5作为第四子训练集,得到第四对子测试集和子训练集,将a5作为第五子测试集,a1、a2、a3、a4作为第五子训练集,得到第五对子测试集和子训练集。对于第一个基础分类器,采用第一子训练集对第一基础分类器进行训练,通过训练后的第一基础分类器对第一子测试集进行预测,得到第一子预测数据a11,通过训练后的第一基础分类器对原始测试集进行预测,得到第二子预测数据b11,采用第二子训练集对第一基础分类器进行训练,通过训练后的第一基础分类器对第二子测试集进行预测,得到第一子预测数据a12,通过训练后的第一基础分类器对原始测试集进行预测,得到第二子预测数据b12,采用第三子训练集对第一基础分类器进行训练,通过训练后的第一基础分类器对第三子测试集进行预测,得到第一子预测数据a13,通过训练后的第一基础分类器对原始测试集进行预测,得到第二子预测数据b13,采用第四子训练集对第一基础分类器进行训练,通过训练后的第一基础分类器对第四子测试集进行预测,得到第一子预测数据a14,通过训练后的第一基础分类器对原始测试集进行预测,得到第二子预测数据b14,采用第五子训练集对第一基础分类器进行训练,通过训练后的第一基础分类器对第五子测试集进行预测,得到第一子预测数据a15,通过训练后的第一基础分类器对原始测试集进行预测,得到第二子预测数据b15。
本发明中,由于子样本集a1、a2、a3、a4、a5是原始训练集经过5折交叉验证得到的,第一子预测数据a11,a12,a13,a14和a15即为对原始训练集的预测数据,因此,将第一子预测数据a11,a12,a13,a14和a15组合起来,得到第一预测数据A1。由于每个子样本集的样本数量为2000行,则第一子预测数据a11,a12,a13,a14和a15为5列2000行的样本数据,将第一子预测数据a11,a12,a13,a14和a15拼凑起来会形成2列10000行的矩阵A1,即第一预测数据。对于第二子预测数据b11,b12,b13,b14和b15,将对应部分相加取平均值,得到一个1列2000行的矩阵B1,即第二预测数据B1。
采用上述相同的方式,对第二基础分类器进行训练得到第一预测数据A2和第二预测数据B2,对第三基础分类器进行训练得到第一预测数据A3和第二预测数据B3,对第四基础分类器进行训练得到第一预测数据A4和第二预测数据B4,对第物基础分类器进行训练得到第一预测数据A5和第二预测数据B5。最终得到第一预测数据A1,A2,A3,A4,A5,第二预测数据B1,B2,B3,B4,B5。
S23、将所述第一预测数据作为训练集,所述第二预测数据作为测试集采用K折交叉验证对各个预设模型进行训练得到第一预测数据和第二预测数据,循环本步骤,直至所述预设模型的AUC达到第一预设值,KS达到第二预设值为止。
本步骤中,将第一预测数据作为训练集,第二预测数据作为测试集对预设模型进行循环训练,直至所述预设模型的AUC达到第一预设值,KS达到第二预设值为止,此时,预设模型的模型效果达到风险控制的要求。本发明优选AUC>0.7,KS>0.3。
其中,AUC(曲线下面积,Area Under Curve)被定义为ROC曲线(受试者工作特征曲线,receiver operating characteristic curve)下与坐标轴围成的面积。ACU值越大,其对应的分类器的分类效果越好。KS曲线是两条线,其横轴是阈值,纵轴是TPR(真正类率,True Positive Rate)与FPR(假正类率,False Positive Rate)。KS值是MAX(TPR-FPR),即两曲线相距最远的距离。KS值越大,表示模型能够将正、负客户区分开的程度越大。通常来讲,KS>0.2即表示模型有较好的预测准确性。
具体的,将所述第一预测数据作为训练集,所述第二预测数据作为测试集采用K折交叉验证对各个预设模型进行训练得到第一预测数据和第二预测数据包括:
S231、将所述第一预测数据A1,A2…An合并作为训练集,将所述第二预测数据B1,B2…Bn合并作为测试集;
具体的,将第一预测数据A1、A2、A3、A4、A5并联形成一个10000行5列的矩阵作为训练集,将第二预测数据B1、B2、B3、B4、B5并联得到一个2000行5列的矩阵作为测试集。
S232、对所述训练集采用K折交叉验证得到K个子样本集;
其中,K的数值可以根据需要训练的预设模型数量确定。
S233、采用所述K个子样本集训练所述预设模型,采用训练后的预设模型预测所述子样本集得到第一预测数据A1,A2…Am,采用训练后的预设模型预测所述测试集得到第二预测数据B1,B2…Bm。
其中,m为预设模型个数。在一种优选方式中,所述预设模型为RF分类器。本步骤具体过程与步骤S222相同,此处不再赘述。
在执行完步骤S233后,分别计算预设模型的AUC和KS,若所述预设模型的AUC未达到第一预设值,或者,所述预设模型的KS未达到第二预设值,则循环执行步骤S231~S233,直至所述预设模型的AUC达到第一预设值,KS达到第二预设值为止。最终得到的预设模型即为本发明创建的风控模型。
S3、根据所述风控模型计算用户风险评分;
具体的,可以将用户数据输入所述风控模型中,得到用户风险评分。
S4、根据所述风险评分确定风险用户。
图5是本发明一种基于有偏样本的风险控制装置的架构示意图,如图5所示,所述装置包括:收集模块51、创建模块52、计算模块53和确定模块54。其中,
收集模块51,用于收集用户数据作为原始样本集;其中,所述原始样本集为有偏样本集。
创建模块52,用于根据所述原始样本集创建风控模型;
计算模块53,用于根据所述风控模型计算用户风险评分;
确定模块54,用于根据所述风险评分确定风险用户;
本发明中,所述创建模块52包括:
设置模块521,用于选择基础分类器并设置各个基础分类器对应的参数;其中,所述基础分类器包括XGBoost,SVM,LR,GBDT与RF中的至少一种。
第一训练模块522,用于根据所述原始样本集采用K折交叉验证对各个基础分类器进行训练得到第一预测数据和第二预测数据;
第二训练模块523,用于将所述第一预测数据作为训练集,所述第二预测数据作为测试集采用K折交叉验证对各个预设模型进行训练得到第一预测数据和第二预测数据;
循环模块524,用于控制所述第二训练模块523循环执行,直至所述预设模型的AUC达到第一预设值,KS达到第二预设值为止。
在一种实施方式中,所述第一训练模块522包括:
抽样模块,用于将所述原始样本集分为原始训练集和原始测试集,对所述原始训练集采用K折交叉验证得到K个子样本集;
第一子训练模块,用于采用所述K个子样本集训练各个基础分类器,采用训练后的各个基础分类器分别预测所述子样本集得到第一预测数据A1,A2…An,采用训练后的各个基础分类器分别预测所述原始测试集得到第二预测数据B1,B2…Bn;
其中,n为基础分类器个数。
进一步的,所述第一子训练模块包括:
第一子抽样模块,用于对于第i基础分类器,将所述K个子样本集分为K对子测试集和子训练集;在一种示例中,所述第一子抽样模块具体用于:依次选取1个子样本集作为子测试集,其余K-1个子样本集作为子训练集形成所述K对子测试集和子训练集。
训练预测模块,用于对于第i基础分类器,采用所述每个子训练集对所述第i基础分类器进行训练,通过训练后的各个第i基础分类器对与所述子训练集对应的子测试集进行预测,分别得到第一子预测数据ai1,ai2…aiK;通过训练后的各个第i基础分类器对所述原始测试集进行预测,得到第二子预测数据bi1,bi2…biK;将所述第一子预测数据ai1,ai2…aiK组合生成第一预测数据Ai,将所述第二子预测数据bi1,bi2…biK组合生成第二预测数据Bi;其中,i=1,2…n。
所述第二训练模块523包括:
第二子抽样模块,用于将所述第一预测数据A1,A2…An合并作为训练集,将所述第二预测数据B1,B2…Bn合并作为测试集;对所述训练集采用K折交叉验证得到K个子样本集;
第二训练预测模块,用于采用所述K个子样本集训练所述预设模型,采用训练后的预设模型预测所述子样本集得到第一预测数据A1,A2…Am,采用训练后的预设模型预测所述测试集得到第二预测数据B1,B2…Bm;其中,m为预设模型个数。所述预设模型优选为RF分类器。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图6是根据本发明的一种电子设备的示例性实施例的结构框图。图6显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,该示例性实施例的电子设备600以通用数据处理设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同电子设备组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元620存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元610执行,使得所述处理单元610执行本发明各种实施方式的步骤。例如,所述处理单元610可以执行如图1所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备600与该电子设备600交互,和/或使得该电子设备600能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口650进行,还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图6中未示出,电子设备600中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。
图7是本发明的一个计算机可读介质实施例的示意图。如图7所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:配置学习模型数据库和特征标签数据库;显示特征工程配置参数,所述特征工程配置参数包括学习模型、所述调整参数和特征标签数据;获取用户选取的目标特征工程配置参数;根据所述目标特征工程配置参数从所述特征标签数据库中选取目标特征标签数据,并从所述学习模型数据库中选取目标学习模型;根据目标调整参数调整所述目标学习模型,并将所述目标特征标签数据输入调整后的所述目标学习模型;根据输出结果推送对应信息。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于有偏样本的风险控制方法,其特征在于,所述方法包括:
收集用户数据作为原始样本集;所述用户数据包括:逾期金额、逾期时间、用户征信;
选择基础分类器并设置各个基础分类器对应的参数;
将所述原始样本集分为原始训练集和原始测试集,对所述原始训练集采用K折交叉验证得到K个子样本集;
对于第i基础分类器,依次选取1个子样本集作为子测试集,其余K-1个子样本集作为子训练集形成K对子测试集和子训练集,采用每个子训练集对所述第i基础分类器进行训练,通过训练后的各个第i基础分类器对与所述子训练集对应的子测试集进行预测,分别得到第一子预测数据ai1,ai2…aiK;通过训练后的各个第i基础分类器对所述原始测试集进行预测,得到第二子预测数据bi1,bi2…biK;将所述第一子预测数据ai1,ai2…aiK组合生成第一预测数据Ai,将所述第二子预测数据bi1,bi2…biK组合生成第二预测数据Bi;其中,i=1,2…n;
将所述第一预测数据A1,A2…An合并作为训练集,将所述第二预测数据B1,B2…Bn合并作为测试集;对所述训练集采用K折交叉验证得到K个子样本集采用所述K个子样本集训练预设模型,采用训练后的预设模型预测所述子样本集得到第一预测数据A1,A2…Am,采用训练后的预设模型预测所述测试集得到第二预测数据B1,B2…Bm;其中,m为预设模型个数,循环本步骤,直至所述预设模型的AUC达到第一预设值,KS达到第二预设值为止,得到风控模型;利用不同类型的基础分类器在不同平衡性样本上的适用性进行堆叠,形成一种复合层级框架,将负样本用到各个层级的模型;集成堆叠后的分类器可以针对负样本进行分类;
根据所述风控模型计算用户风险评分;
根据所述风险评分确定风险用户;
其中,所述原始样本集为有偏样本集。
2.根据权利要求1所述的方法,其特征在于,所述基础分类器包括XGBoost,SVM,LR,GBDT与RF中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述预设模型为RF分类器。
4.一种基于有偏样本的风险控制装置,其特征在于,所述装置包括:
收集模块,用于收集用户数据作为原始样本集;所述用户数据包括:逾期金额、逾期时间、用户征信;
设置模块,用于选择基础分类器并设置各个基础分类器对应的参数;
第抽样模块,用于将所述原始样本集分为原始训练集和原始测试集,对所述原始训练集采用K折交叉验证得到K个子样本集;
训练预测模块,用于对于第i基础分类器,依次选取1个子样本集作为子测试集,其余K-1个子样本集作为子训练集形成K对子测试集和子训练集;
第一子抽样模块,用于对于第i基础分类器,采用每个子训练集对所述第i基础分类器进行训练,通过训练后的各个第i基础分类器对与所述子训练集对应的子测试集进行预测,分别得到第一子预测数据ai1,ai2…aiK;通过训练后的各个第i基础分类器对所述原始测试集进行预测,得到第二子预测数据bi1,bi2…biK;将所述第一子预测数据ai1,ai2…aiK组合生成第一预测数据Ai,将所述第二子预测数据bi1,bi2…biK组合生成第二预测数据Bi;其中,i=1,2…n;
第二子抽样模块,用于将所述第一预测数据A1,A2…An合并作为训练集,将所述第二预测数据B1,B2…Bn合并作为测试集;对所述训练集采用K折交叉验证得到K个子样本集;
第二训练预测模块,用于采用所述K个子样本集训练预设模型,采用训练后的预设模型预测所述子样本集得到第一预测数据A1,A2…Am,采用训练后的预设模型预测所述测试集得到第二预测数据B1,B2…Bm;其中,m为预设模型个数;
循环模块,用于控制所述第二子抽样模块和第二训练预测模块循环执行,直至所述预设模型的AUC达到第一预设值,KS达到第二预设值为止,得到风控模型;利用不同类型的基础分类器在不同平衡性样本上的适用性进行堆叠,形成一种复合层级框架,将负样本用到各个层级的模型;集成堆叠后的分类器可以针对负样本进行分类;
计算模块,用于根据所述风控模型计算用户风险评分;
确定模块,用于根据所述风险评分确定风险用户;
其中,所述原始样本集为有偏样本集。
5.根据权利要求4所述的装置,其特征在于,所述基础分类器包括XGBoost,SVM,LR,GBDT与RF中的至少一种。
6.根据权利要求4所述的装置,其特征在于,所述预设模型为RF分类器。
7.一种电子设备,包括:处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-3中任一项所述的方法。
8.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,
当所述一个或多个程序被处理器执行时,实现权利要求1-3中任一项所述的方法。
CN201911291118.3A 2019-12-16 2019-12-16 一种基于有偏样本的风险控制方法、装置及电子设备 Active CN111160733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911291118.3A CN111160733B (zh) 2019-12-16 2019-12-16 一种基于有偏样本的风险控制方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911291118.3A CN111160733B (zh) 2019-12-16 2019-12-16 一种基于有偏样本的风险控制方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111160733A CN111160733A (zh) 2020-05-15
CN111160733B true CN111160733B (zh) 2024-03-29

Family

ID=70557160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911291118.3A Active CN111160733B (zh) 2019-12-16 2019-12-16 一种基于有偏样本的风险控制方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111160733B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990389B (zh) * 2021-05-18 2021-08-06 上海冰鉴信息科技有限公司 一种风控场景下的流量分层方法及装置
CN113516398A (zh) * 2021-07-22 2021-10-19 北京淇瑀信息科技有限公司 基于分层抽样的风险设备识别方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779087A (zh) * 2016-11-30 2017-05-31 福建亿榕信息技术有限公司 一种通用机器学习数据分析平台
CN108549954A (zh) * 2018-03-26 2018-09-18 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN109598292A (zh) * 2018-11-23 2019-04-09 华南理工大学 一种不同辅助样本正负比例的迁移学习方法
CN110349038A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017039684A1 (en) * 2015-09-04 2017-03-09 Hewlett Packard Enterprise Development Lp Classifier
CN106650780B (zh) * 2016-10-18 2021-02-12 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779087A (zh) * 2016-11-30 2017-05-31 福建亿榕信息技术有限公司 一种通用机器学习数据分析平台
CN108549954A (zh) * 2018-03-26 2018-09-18 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN109598292A (zh) * 2018-11-23 2019-04-09 华南理工大学 一种不同辅助样本正负比例的迁移学习方法
CN110349038A (zh) * 2019-06-13 2019-10-18 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法

Also Published As

Publication number Publication date
CN111160733A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
AU2020202542B2 (en) Transforming attributes for training automated modeling systems
US10963817B2 (en) Training tree-based machine-learning modeling algorithms for predicting outputs and generating explanatory data
CN110796542A (zh) 金融风险控制方法、金融风险控制装置和电子设备
KR101868829B1 (ko) 머신 러닝에서의 가중치의 생성
CN112270545A (zh) 基于迁移样本筛选的金融风险预测方法、装置和电子设备
CN112270547A (zh) 基于特征构造的金融风险评估方法、装置和电子设备
US8775338B2 (en) Computer-implemented systems and methods for constructing a reduced input space utilizing the rejected variable space
US11443207B2 (en) Aggregated feature importance for finding influential business metrics
JP7059458B2 (ja) 生成的敵対神経網ベースの分類システム及び方法
CN111160733B (zh) 一种基于有偏样本的风险控制方法、装置及电子设备
US20110167020A1 (en) Hybrid Simulation Methodologies To Simulate Risk Factors
CN113177700B (zh) 一种风险评估方法、系统、电子设备及存储介质
CN111583017A (zh) 基于客群定位的风险策略生成方法、装置及电子设备
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
Zeng et al. Constructing better classifier ensemble based on weighted accuracy and diversity measure
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
Pinna et al. Reconstruction of large-scale regulatory networks based on perturbation graphs and transitive reduction: improved methods and their evaluation
CN111582315A (zh) 样本数据处理方法、装置及电子设备
CN113298121B (zh) 基于多数据源建模的消息发送方法、装置和电子设备
CN112508692A (zh) 基于卷积神经网络的资源回收风险预测方法、装置和电子设备
US11216733B2 (en) Self-evolving agent-based simulation system and method thereof
CN115660795A (zh) 数据处理方法、装置、设备、存储介质及程序产品
CN114897099A (zh) 基于客群偏差平滑优化的用户分类方法、装置及电子设备
JP2021174330A (ja) 異種機械学習のアンサンブル学習による予測装置
CN111753992A (zh) 筛选方法和筛选系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant