CN115423603A - 一种基于机器学习的风控模型建立方法、系统及存储介质 - Google Patents

一种基于机器学习的风控模型建立方法、系统及存储介质 Download PDF

Info

Publication number
CN115423603A
CN115423603A CN202211051470.1A CN202211051470A CN115423603A CN 115423603 A CN115423603 A CN 115423603A CN 202211051470 A CN202211051470 A CN 202211051470A CN 115423603 A CN115423603 A CN 115423603A
Authority
CN
China
Prior art keywords
variable
binning
data
characteristic
wind control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211051470.1A
Other languages
English (en)
Other versions
CN115423603B (zh
Inventor
郑文晖
刘捷
林晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen International Bank Co ltd
Original Assignee
Xiamen International Bank Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen International Bank Co ltd filed Critical Xiamen International Bank Co ltd
Priority to CN202211051470.1A priority Critical patent/CN115423603B/zh
Publication of CN115423603A publication Critical patent/CN115423603A/zh
Application granted granted Critical
Publication of CN115423603B publication Critical patent/CN115423603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的风控模型建立方法、系统及存储介质,其包括以下步骤:包括以下步骤:步骤a.获取第一数据,并基于第一数据建立数据宽表;步骤b.对第一数据进行数据处理,得到第二数据;步骤c.对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;步骤d.对特征分箱后的变量进行特征筛选;步骤e.基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。本发明将现实问题转换为运筹优化问题,能够在较短时间内获得变量可行域上的最优解,有效提升分箱效率,实现了对风控模型的自动化建模。

Description

一种基于机器学习的风控模型建立方法、系统及存储介质
技术领域
本发明涉及信贷风控技术领域,特别是一种基于机器学习的风控模型建立方法、系统及计算机可读存储介质。
背景技术
目前,机器学习算法已被广泛应用到风控、营销、催收等多个场景中。
在风控领域,基于风险厌恶考虑,对模型可解释性要求较高,从数据生成、变量衍生、变量筛选、模型选择中对解释性要求都较高。因此,在风控的决策策略或风控模型开发中,特别是在数据规模量不足或产品处于培育期时,风控建模对变量的可解释性及单调性有较高要求。
然而,现有技术中对变量的分箱主要是通过决策树、卡方、等频或者等距分箱为主,对于较小批量的数据,其分箱业务解释性较弱,单调性的指标由于受限于样本数量和分箱方法,导致其分箱不够单调,进而难以进一步应用于生产和规则中,业务解释性较弱。或者,分箱在训练集单调,但是在测试集未单调。因此,现有技术在分箱过程中,往往需要人为干预,进行分箱的调整,使其符合业务逻辑或特定分布,需要耗费大量时间。
发明内容
本发明的主要目的在于提供了一种基于机器学习的风控模型建立方法、系统及存储介质,旨在解决现有技术中,分箱过程往往需要人为干预,进行分箱的调整,使其符合业务逻辑或特定分布,需要耗费大量时间的技术问题。
为实现上述目的,本发明提供了一种基于机器学习的风控模型建立方法,其包括以下步骤:步骤a.获取第一数据,并基于第一数据建立数据宽表;步骤b.对第一数据进行数据处理,得到第二数据,所述数据处理至少包括数据清洗、特征衍生;步骤c.对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;第一变量为非数值型变量,第二变量为数值型变量;步骤d.对特征分箱后的变量进行特征筛选;步骤e.基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。
可选的,所述第一数据至少包括客户申请流水号、客户编号、查询时间其中之一。
可选的,所述步骤b具体包括如下步骤:所述步骤b具体包括如下步骤:b1.基于第一数据的变量,计算变量的缺失值、共线性、信息价值;b2.基于变量的缺失值、共线性、信息价值以及预设过滤条件,对变量数据进行数据清洗;b3.基于数据清洗后的第一数据进行特征构造,并对变量特征进行特征衍生,得到第二数据;特征衍生方法至少包括:计算变量特征的近度、频度、值度,进行特征衍生;所述近度为最近一次发生某一动作的时间,频度为某一时间段内发生某一相同动作的次数,值度为某一时间段内某一动作涉及的金额或等值金额。
可选的,所述步骤c中,第一预设特征分箱规则为采用决策树或卡方分箱方式进行特征分箱,第二预设特征分箱规则为采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱。
可选的,采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱,至少包括如下步骤:
S1.对每个需要单调性分箱的变量,构建一个长为M、宽为N的决策变量矩阵Fxi,j
Figure BDA0003823766680000031
其中,M为单个变量最大精度数量,即初始化分箱时的最密区分数,N为变量最终最大分箱数量,即最终单调性分箱的最大分箱数量,且M={1,...,m,...,Maa},N={1,...,n,...,Naa},i属于集合M,j属于集合N;
S2.基于决策变量矩阵,定义整数规划目标函数Z,并对目标函数取最大值Max Z:
Max Z=∑j∈N(∑p∈Pabs(∑i∈MFxi,j*(zb3i-zb1i*avg_bad*avg_bad_ratep)));
其中,zb1i为各M分箱中的样本个数,zb2i为各M分箱中的样本坏样本比例,zb3i为各M分箱中的样本坏样本数量,avg_bad_ratep为样本,p属于P集合,P为坏样本逾期率乘数,P={1,...,p,...,Paa},Avg_bad为样本的平均逾期率;
S3.根据预设约束条件规则,求解出决策变量矩阵的可行解,并将计算结果作为最优分箱值;若无可行解,则特征变量转用卡方分箱或决策树方式,获取最优分箱值。
可选的,所述预设约束条件规则为同时满足以下约束条件:第一约束条件:约束方程每列均要使用至少一个子分箱;第二约束条件:约束每个最大精度数的子分箱均要被使用;第三约束条件:约束首列必须从首行开启,且不能反复;第四约束条件:约束末列必须在末列结束,且不能反复;第五约束条件:约束中间列不能出现反复,且仅允许选择一次连续的分箱;第六约束条件:对中间相邻列进行约束,且仅允许相邻列所选择的变量按行降序选择;第七约束条件:为单调性假设,且仅允许变量具有具有单调递增或单调递减规律。
可选的,所述步骤d具体包括如下步骤:d1.对特征分箱后的变量进行WOE赋值,计算特征分箱后的变量的群体稳定性指标、信息价值、皮尔森相关系数、方差膨胀因子;并根据对应预设阈值,进行特征过滤;d2.通过Embedded嵌入法对过滤后的特征进行筛选;d3.获取入模特征,并对其进行逐步回归,使得p值符合预设标准;d4.对部分特征进行二次逐步回归,使得p值符合预设标准,并且所有回归系数均大于0;d5.对最终模型的群体稳定性指标、信息价值、皮尔森相关系数、方差膨胀因子、P值、回归系数进行检验,确保符合对应要求。
可选的,所述步骤e具体包括如下步骤:e1.基于特征筛选结果,建立LR模型;e2.对LR模型的效果进行检验,判断其效果是否符合模型效果标准;若是,则生成最终模型,并将最终模型转换为评分卡指标;e3.基于评分卡指标,通过样本分布情况,制定并生成对应的应用策略。
此外,为实现上述目的,本发明还提供一种基于机器学习的风控模型建立系统,其特征在于,包括:数据宽表建立模块,用于获取第一数据,并基于第一数据建立数据宽表;数据处理模块,用于对第一数据进行数据处理,得到第二数据,所述数据处理至少包括数据清洗、特征衍生;特征分箱模块,用于对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;第一变量为非数值型变量,第二变量为数值型变量;特征筛选模块,用于对特征分箱后的变量进行特征筛选;模型建立模块,用于基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于机器学习的风控模型建立程序,所述基于机器学习的风控模型建立程序被处理器执行时实现如上文所述的基于机器学习的风控模型建立方法的步骤。
本发明的有益效果是:
(1)通过建立数据宽表、数据处理、特征分箱、特征筛选、建模及评分卡生成的一系列算法,实现将现实问题(具体为在有限时间内的最优区分度下的单调性分箱求解问题)转换为运筹优化问题,能够在较短时间内获得变量可行域上的最优解,有效提升分箱效率,实现了对风控模型的自动化建模,并保留变量的业务解释性,实现了解释性与模型效果的平衡;
(2)通过数据处理,不仅有效过滤缺失值较大、共线性较大、信息价值较低的变量数据,而且能够将获得组合特征,将特征的非线性转换为组合特征的线性表达;
(3)通过预设分箱规则,对不同的变量采用对应的分箱方式,通过特征处理的方法降低模型的过拟合程度,同时可以满足特征对业务要求;采用基于二次规划及分支定界算法的变量单调性分箱算法,创新地将风控机器学习算法与运筹优化算法结合,能够在大幅度提高分箱效果的情况下实现分箱的单调性要求;
(4)通过预设约束条件规则,使得让决策变量矩阵的结果能够满足使用要求(例如单调性要求、连续性要求等),提高分箱效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种基于机器学习的风控模型建立方法的流程简图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的一种基于机器学习的风控模型建立方法,其包括以下步骤:步骤a.获取第一数据,并基于第一数据建立数据宽表;步骤b.对第一数据进行数据处理,得到第二数据,数据处理至少包括数据清洗、特征衍生;步骤c.对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;第一变量为非数值型变量,第二变量为数值型变量;步骤d.对特征分箱后的变量进行特征筛选;步骤e.基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。
本发明通过建立数据宽表、数据处理、特征分箱、特征筛选、建模及评分卡生成的一系列算法,实现将现实问题(具体为在有限时间内的最优区分度下的单调性分箱求解问题)转换为运筹优化问题,能够在较短时间内获得变量可行域上的最优解,有效提升分箱效率,实现了对风控模型的自动化建模,并保留变量的业务解释性,实现了解释性与模型效果的平衡。
在本实施例中,第一数据至少包括客户申请流水号、客户编号、查询时间其中之一。
对于风控A卡(Application score card)而言,第一数据至少包括客户申请流水号,对于风控B卡(Behavior score card)而言,第一数据至少包括客户编号及查询时间。
对于风控A卡(Application score card)而言,第一数据还包括客户基本申请信息、征信报告(例如从人行查询的企业征信信息及个人征信信息)、企业税务数据,以及第三方机构(例如百行、朴道等持牌征信机构)提供的其他数据)。
数据宽表作为机器学习的输入,其是将多维度、多方的数据进行合并后建立的,通过建立数据宽表,满足对机器学习方法所需的基本范式要求。
在本实施例中,数据宽表构建具体为根据第一数据,构建征信、流水、司法、工商及客户逾期表现的数据宽表。
在本实施例中,步骤b具体包括如下步骤:b1.基于第一数据的变量,计算变量的缺失值、共线性、信息价值(IV值);b2.基于变量的缺失值、共线性、信息价值以及预设过滤条件,对变量数据进行数据清洗;b3.基于数据清洗后的第一数据进行特征构造,并对变量特征进行特征衍生,得到第二数据;特征衍生方法至少包括:计算变量特征的近度、频度、值度,进行特征衍生;近度为最近一次发生某一动作的时间,频度为某一时间段内发生某一相同动作的次数,值度为某一时间段内某一动作涉及的金额或等值金额。
在本实施例中,预设过滤条件为过滤缺失值较大、共线性较大、信息价值较低的变量数据。优选的,缺失值大于90%判定为过滤缺失值较大、共线性大于70%判定为共线性较大、IV值低于0.01判定为信息价值较低。即,对变量数据进行数据清洗具体为,过滤缺失值大于90%、共线性大于70%、IV值低于0.01的变量数据;
本发明通过数据处理,不仅有效过滤缺失值较大、共线性较大、信息价值(IV值)较低的变量数据,而且能够将获得组合特征,将特征的非线性转换为组合特征的线性表达.
在本实施例中,步骤c中,第一预设特征分箱规则为采用决策树或卡方分箱方式进行特征分箱,第二预设特征分箱规则为采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱。即,对于非数值型变量,采用决策树或卡方分箱进行特征分箱。由于非数值型变量对业务单调性不高,因此,采用决策树或卡方分箱即可。对于数值型变量,采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱。
在本实施例中,采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱,实际为运筹优化问题,至少需要决策变量矩阵,目标函数(最优函数)及约束条件。
因此基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱至少包括如下步骤:
S1.对每个需要单调性分箱的变量,构建一个长为M、宽为N的决策变量矩阵Fxi,j,本规划采用0-1整数规划法,因此每个变量最终求解值均为0或1:
Figure BDA0003823766680000081
其中,M为单个变量最大精度数量,即初始化分箱时的最密区分数,N为变量最终最大分箱数量,即最终单调性分箱的最大分箱数量,且M={1,...,m,...,Maa},N={1,...,n,...,Naa},i属于集合M,j属于集合N;
S2.基于决策变量矩阵,定义整数规划目标函数Z,并对目标函数取最大值Max Z:
Max Z=∑j∈N(∑p∈Pabs(∑i∈MFxi,j*(zb3i-zb1i*avg_bad*avg_bad_ratep)));
其中,zb1i为各M分箱中的样本个数,zb2i为各M分箱中的样本坏样本比例,zb3i为各M分箱中的样本坏样本数量,avg_bad_ratep为样本,p属于P集合,P为坏样本逾期率乘数,P={1,...,p,...,Paa},Avg_bad为样本的平均逾期率;
S3.根据预设约束条件规则,求解出决策变量矩阵的可行解,并将计算结果作为最优分箱值;若无可行解,则特征变量转用卡方分箱或决策树方式,获取最优分箱值。
在本实施例中,定义目标函数的作用是获得最优区分度的分箱情况。
风控业务的变量一般都有单调性的需求,但单调性分箱耗时耗力,采用本发明所述基于二次规划及分支定界算法的单调性分箱,可以极大加快分箱速度,使得单调性分箱具有可行性。如果变量本身没有单调性,才考虑下一步采用决策树或者卡方分箱。
在本实施例中,假设最密分箱区间为M,需要的最大分箱为N,则穷举算法可知共有CM_N中可能性。本发明基于二次规划算法构建一个长M宽N的矩阵,此矩阵每个变量取值范围均为0或1,此矩阵为最终决策变量。即,将分箱取值问题转换为0-1整数规划问题。
在本实施例中,目标函数为了实现各个分箱坏样本区分能力最大,且需要将目标函数转换为线性或二次问题,因此,目标函数最大值为在不同P档位分箱上累计坏样本绝对值最大,即,此时各个分箱坏样本区分能力最强。
本发明通过预设分箱规则,对不同的变量采用对应的分箱方式,通过特征处理的方法降低模型的过拟合程度,同时可以满足特征对业务要求;采用基于二次规划及分支定界算法的变量单调性分箱算法,能够在大幅度提高分箱效果的情况下实现分箱的单调性要求。
需要说明的是,在实际应用过程中,可以通过调整约束函数,或者约束函数中增加时间外样本条件,以此满足特定条件需要。例如:满足分箱最小分箱数量百分比占比。同时满足训练集、测试集、时间外的单调性要求。
在本实施例中,预设约束条件规则为,同时满足如下表1所示约束条件:
Figure BDA0003823766680000101
Figure BDA0003823766680000111
表1预设约束条件规则表
具体为,第一约束条件:约束方程每列均要使用至少一个子分箱;第二约束条件:约束每个最大精度数的子分箱均要被使用;第三约束条件:约束首列必须从首行开启,且不能反复;第四约束条件:约束末列必须在末列结束,且不能反复;第五约束条件:约束中间列不能出现反复,且仅允许选择一次连续的分箱;第六约束条件:对中间相邻列进行约束,且仅允许相邻列所选择的变量按行降序选择;第七约束条件:为单调性假设,且仅允许变量具有具有单调递增或单调递减规律。
本发明通过预设约束条件规则,使得让决策变量矩阵的结果能够满足使用要求(例如单调性要求、连续性要求等),提高分箱效率.
在本实施例中,步骤d具体包括如下步骤:对特征分箱后的变量进行WOE赋值,计算特征分箱后的变量的群体稳定性指标(PSI)、信息价值(IV值)、皮尔森相关系数(CORR)、方差膨胀因子(VIF),并根据对应预设阈值,进行特征过滤;包括过滤群体稳定性指标(PSI)较低、信息价值(IV值)较低、皮尔森相关系数(CORR)较高、方差膨胀因子(VIF)较高的特征;d2.通过Embedded嵌入法对过滤后的特征进行筛选;d3.获取入模特征,并对其进行逐步回归,使得p值符合预设标准;d4.对部分特征进行二次逐步回归,使得p值符合预设标准,并且所有回归系数均大于0;d5.对最终模型的群体稳定性指标、信息价值、皮尔森相关系数、方差膨胀因子、P值、回归系数进行检验,确保符合对应要求。
优选的,步骤d1中,PSI对应阈值为0.2,IV值对应阈值为0.01,CORR对应阈值为0.7,VIF对应阈值为7;即,过滤PSI<0.2,IV值<0.01,CORR>0.7,VIF>7的特征。
优选的,步骤d2.通过Embedded嵌入法对过滤后的特征进行筛选,具体包括使用梯度提升树、SVM等模型获得特征的重要性,并将该模型引入shap值,取交集后获得重要性较高的变量。
优选的,p值的预设标准为p<0.1。
在本实施例中,步骤d3、d4中的逐步回归,采用Backward法的逐步回归法spss。
在本实施例中,步骤d4中的部分特征,优选为基于业务和客群数据实际值,回捞部分业务意义较为重要或特征重要性较强的特征。
在本实施例中,步骤e具体包括如下步骤:e1.基于特征筛选结果,建立LR模型;e2.对LR模型的效果进行检验,判断其效果是否符合模型效果标准;若是,则生成最终模型,并将最终模型转换为评分卡指标;e3.基于评分卡指标,通过样本分布情况,制定并生成对应的应用策略。
优选的,步骤e2具体可针对AUC(Area under the curve)值、KS值进行检验,评估模型效果。具体而言,当KS>0.3,、AUC>0.7、PSI<0.2时,模型效果符合标准。
此外,本发明还对应提供一种基于机器学习的风控模型建立系统,其特征在于,包括:数据宽表建立模块,用于获取第一数据,并根据预设数据宽表构建规则建立数据宽表,所述第一数据至少包括客户申请流水号;数据处理模块,用于对第一数据进行数据处理,得到第二数据,所述数据处理至少包括数据清洗、特征衍生;特征分箱模块,用于对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;第一变量为非数值型变量,第二变量为数值型变量;特征筛选模块,用于对特征分箱后的变量进行特征筛选;模型建立模块,用于基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有基于机器学习的风控模型建立程序,基于机器学习的风控模型建立程序被处理器执行时实现如上文的基于机器学习的风控模型建立方法的步骤。所述计算机可读存储介质可以是只读存储器,磁盘或光盘等。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于机器学习的风控模型建立方法,其特征在于,包括以下步骤:
步骤a.获取第一数据,并基于第一数据建立数据宽表;
步骤b.对第一数据进行数据处理,得到第二数据,所述数据处理至少包括数据清洗、特征衍生;
步骤c.对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;第一变量为非数值型变量,第二变量为数值型变量;
步骤d.对特征分箱后的变量进行特征筛选;
步骤e.基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。
2.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述第一数据至少包括客户申请流水号、客户编号、查询时间其中之一。
3.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述步骤b具体包括如下步骤:
b1.基于第一数据的变量,计算变量的缺失值、共线性、信息价值;
b2.基于变量的缺失值、共线性、信息价值以及预设过滤条件,对变量数据进行数据清洗;
b3.基于数据清洗后的第一数据进行特征构造,并对变量特征进行特征衍生,得到第二数据;特征衍生方法至少包括:计算变量特征的近度、频度、值度,进行特征衍生;所述近度为最近一次发生某一动作的时间,频度为某一时间段内发生某一相同动作的次数,值度为某一时间段内某一动作涉及的金额或等值金额。
4.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述步骤c中,第一预设特征分箱规则为采用决策树或卡方分箱方式进行特征分箱,第二预设特征分箱规则为采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱。
5.根据权利要求4所述的一种基于机器学习的风控模型建立方法,其特征在于:采用基于二次规划及分支定界算法的变量单调性分箱算法进行特征分箱,至少包括如下步骤:
S1.对每个需要单调性分箱的变量,构建一个长为M、宽为N的决策变量矩阵Fxi,j
Figure FDA0003823766670000021
其中,M为单个变量最大精度数量,即初始化分箱时的最密区分数,N为变量最终最大分箱数量,即最终单调性分箱的最大分箱数量,且M={1,...,m,...,Maa},N={1,...,n,...,Naa},i属于集合M,j属于集合N;
S2.基于决策变量矩阵,定义整数规划目标函数Z,并对目标函数取最大值Max Z,
Max Z=∑j∈N(∑p∈Pabs(∑i∈MFxi,j*(zb3i-zb1i*avg_bad*avg_bad_ratep)));
其中,zb1i为各M分箱中的样本个数,zb2i为各M分箱中的样本坏样本比例,zb3i为各M分箱中的样本坏样本数量,avg_bad_ratep为样本,p属于P集合,P为坏样本逾期率乘数,P={1,...,p,...,Paa},Avg_bad为样本的平均逾期率;
S3.根据预设约束条件规则,求解出决策变量矩阵的可行解,并将计算结果作为最优分箱值;若无可行解,则特征变量转用卡方分箱或决策树方式,获取最优分箱值。
6.根据权利要求5所述的一种基于机器学习的风控模型建立方法,其特征在于:所述预设约束条件规则为同时满足以下约束条件:
第一约束条件:约束方程每列均要使用至少一个子分箱;
第二约束条件:约束每个最大精度数的子分箱均要被使用;
第三约束条件:约束首列必须从首行开启,且不能反复;
第四约束条件:约束末列必须在末列结束,且不能反复;
第五约束条件:约束中间列不能出现反复,且仅允许选择一次连续的分箱;
第六约束条件:对中间相邻列进行约束,且仅允许相邻列所选择的变量按行降序选择;
第七约束条件:为单调性假设,且仅允许变量具有具有单调递增或单调递减规律。
7.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述步骤d具体包括如下步骤:
d1.对特征分箱后的变量进行WOE赋值,计算特征分箱后的变量的群体稳定性指标、信息价值、皮尔森相关系数、方差膨胀因子;并根据对应预设阈值,进行特征过滤;
d2.通过Embedded嵌入法对过滤后的特征进行筛选;
d3.获取入模特征,并对其进行逐步回归,使得p值符合预设标准;
d4.对部分特征进行二次逐步回归,使得p值符合预设标准,并且所有回归系数均大于0;
d5.对最终模型的群体稳定性指标、信息价值、皮尔森相关系数、方差膨胀因子、P值、回归系数进行检验,确保符合对应要求。
8.根据权利要求1所述的一种基于机器学习的风控模型建立方法,其特征在于:所述步骤e具体包括如下步骤:
e1.基于特征筛选结果,建立LR模型;
e2.对LR模型的效果进行检验,判断其效果是否符合模型效果标准;若是,则生成最终模型,并将最终模型转换为评分卡指标;
e3.基于评分卡指标,通过样本分布情况,制定并生成对应的应用策略。
9.一种基于机器学习的风控模型建立系统,其特征在于,包括:
数据宽表建立模块,用于获取第一数据,并基于第一数据建立数据宽表;
数据处理模块,用于对第一数据进行数据处理,得到第二数据,所述数据处理至少包括数据清洗、特征衍生;
特征分箱模块,用于对第二数据进行变量分类,对于第一变量,采用第一预设特征分箱规则进行特征分箱,对于第二变量,采用第二预设特征分箱规则进行特征分箱;第一变量为非数值型变量,第二变量为数值型变量;
特征筛选模块,用于对特征分箱后的变量进行特征筛选;
模型建立模块,用于基于特征筛选结果,建立模型并生成对应的模型指标、评分卡指标以及应用策略。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于机器学习的风控模型建立程序,所述基于机器学习的风控模型建立程序被处理器执行时实现如权利要求1至8任一项所述的基于机器学习的风控模型建立方法的步骤。
CN202211051470.1A 2022-08-31 2022-08-31 一种基于机器学习的风控模型建立方法、系统及存储介质 Active CN115423603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211051470.1A CN115423603B (zh) 2022-08-31 2022-08-31 一种基于机器学习的风控模型建立方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211051470.1A CN115423603B (zh) 2022-08-31 2022-08-31 一种基于机器学习的风控模型建立方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115423603A true CN115423603A (zh) 2022-12-02
CN115423603B CN115423603B (zh) 2023-05-23

Family

ID=84201269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211051470.1A Active CN115423603B (zh) 2022-08-31 2022-08-31 一种基于机器学习的风控模型建立方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115423603B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115907835A (zh) * 2022-12-30 2023-04-04 深度(山东)数字科技集团有限公司 一种基于商业汇票信息的大数据风控及辅助决策分析方法
CN116011883A (zh) * 2023-01-31 2023-04-25 厦门国际银行股份有限公司 一种金融风控决策规则的调优方法、系统及存储介质
CN117036008A (zh) * 2023-10-08 2023-11-10 中邮消费金融有限公司 一种多源数据的自动化建模方法及系统
CN117196823A (zh) * 2023-09-08 2023-12-08 厦门国际银行股份有限公司 一种风控规则生成方法、系统及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170230402A1 (en) * 2016-02-09 2017-08-10 Ca, Inc. Automated data risk assessment
CN109636591A (zh) * 2018-12-28 2019-04-16 浙江工业大学 一种基于机器学习的信用评分卡开发方法
CN110310190A (zh) * 2019-06-28 2019-10-08 深圳前海微众银行股份有限公司 资金饥渴特征分类方法、装置、设备及可读存储介质
CN111311402A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于XGBoost的互联网金融风控模型
CN111311128A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于第三方数据的消费金融信用评分卡开发方法
CN112258312A (zh) * 2020-10-16 2021-01-22 银联商务股份有限公司 个人信用评分方法及其系统、电子设备及存储介质
CN112270478A (zh) * 2020-10-30 2021-01-26 重庆富民银行股份有限公司 用于风控模型竞争的管理方法及平台
CN113283692A (zh) * 2021-03-19 2021-08-20 东南大学 一种针对大宗商品交易市场监管资源调配的智能化人机协作调度方法与系统
CN113537807A (zh) * 2021-07-27 2021-10-22 天元大数据信用管理有限公司 一种企业智慧风控方法及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170230402A1 (en) * 2016-02-09 2017-08-10 Ca, Inc. Automated data risk assessment
CN109636591A (zh) * 2018-12-28 2019-04-16 浙江工业大学 一种基于机器学习的信用评分卡开发方法
CN110310190A (zh) * 2019-06-28 2019-10-08 深圳前海微众银行股份有限公司 资金饥渴特征分类方法、装置、设备及可读存储介质
CN111311402A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于XGBoost的互联网金融风控模型
CN111311128A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于第三方数据的消费金融信用评分卡开发方法
CN112258312A (zh) * 2020-10-16 2021-01-22 银联商务股份有限公司 个人信用评分方法及其系统、电子设备及存储介质
CN112270478A (zh) * 2020-10-30 2021-01-26 重庆富民银行股份有限公司 用于风控模型竞争的管理方法及平台
CN113283692A (zh) * 2021-03-19 2021-08-20 东南大学 一种针对大宗商品交易市场监管资源调配的智能化人机协作调度方法与系统
CN113537807A (zh) * 2021-07-27 2021-10-22 天元大数据信用管理有限公司 一种企业智慧风控方法及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BUECKER, MICHAEL 等: "Transparency, auditability, and explainability of machine learning models in credit scoring" *
辛玉娟: "基于决策树的特征分箱算法在商业银行信用评分模型中的应用" *
高昊阳: "基于大数据的P2P金融风险控制系统的设计与实现" *
龙辉辉: "基于机器学习的信贷风控预警方法研究与原型实现" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115907835A (zh) * 2022-12-30 2023-04-04 深度(山东)数字科技集团有限公司 一种基于商业汇票信息的大数据风控及辅助决策分析方法
CN116011883A (zh) * 2023-01-31 2023-04-25 厦门国际银行股份有限公司 一种金融风控决策规则的调优方法、系统及存储介质
CN116011883B (zh) * 2023-01-31 2023-11-07 厦门国际银行股份有限公司 一种金融风控决策规则的调优方法、系统及存储介质
CN117196823A (zh) * 2023-09-08 2023-12-08 厦门国际银行股份有限公司 一种风控规则生成方法、系统及存储介质
CN117196823B (zh) * 2023-09-08 2024-03-19 厦门国际银行股份有限公司 一种风控规则生成方法、系统及存储介质
CN117036008A (zh) * 2023-10-08 2023-11-10 中邮消费金融有限公司 一种多源数据的自动化建模方法及系统

Also Published As

Publication number Publication date
CN115423603B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN115423603A (zh) 一种基于机器学习的风控模型建立方法、系统及存储介质
CN110866819A (zh) 一种基于元学习的自动化信贷评分卡生成方法
CN107944480A (zh) 一种企业行业分类方法
CN108876034B (zh) 一种改进的Lasso+RBF神经网络组合预测方法
CN109711424A (zh) 一种基于决策树的行为规则获取方法、装置及设备
JP2004157814A (ja) 決定木生成方法およびモデル構造生成装置
CN113537807B (zh) 一种企业智慧风控方法及设备
CN105469080A (zh) 一种人脸表情识别方法
CN111967521B (zh) 跨境活跃用户识别方法及装置
CN113256409A (zh) 基于机器学习的银行零售客户流失预测方法
CN111986027A (zh) 基于人工智能的异常交易处理方法、装置
CN107239964A (zh) 用户价值评分方法和系统
CN112184484A (zh) 一种电力用户差异化服务方法及系统
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
CN113312494A (zh) 垂直领域知识图谱构建方法、系统、设备及存储介质
CN113407644A (zh) 一种基于深度学习算法的企业行业二级行业多标签分类器
CN117035837B (zh) 一种电力用户购电需求预测及零售合同定制方法
CN112819341A (zh) 一种科技型小微企业信用风险评估方法
CN113821542B (zh) 一种显著特征自动推荐系统及方法
CN115936389A (zh) 一种基于大数据技术的评审专家与评审材料的匹配方法
CN114969511A (zh) 基于分片的内容推荐方法、设备及介质
CN115660730A (zh) 基于分类算法的流失用户分析方法及系统
CN114820074A (zh) 基于机器学习的目标用户群体预测模型构建方法
CN115329144A (zh) 一种产品缺陷的根因确定方法及装置
CN110766037B (zh) 用于储备项目关联性集群的处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant