CN108805338A - 一种稳定变量确定方法、装置、服务器及存储介质 - Google Patents
一种稳定变量确定方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN108805338A CN108805338A CN201810486917.5A CN201810486917A CN108805338A CN 108805338 A CN108805338 A CN 108805338A CN 201810486917 A CN201810486917 A CN 201810486917A CN 108805338 A CN108805338 A CN 108805338A
- Authority
- CN
- China
- Prior art keywords
- variable
- values
- woe
- independent variable
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明实施例公开了一种稳定变量确定方法、装置、服务器及存储介质,其中,所述方法包括:服务器可以针对评分卡模型选取第一因变量和第二因变量,并对第一因变量对应的多个候选自变量进行自变量筛选,从多个候选自变量中确定出目标自变量,并在第一因变量基础上确定多个分组各自对应的各个第一证据权重WOE值,以及在第二因变量的基础上确定多个分组各自对应的各个第二证据权重WOE值,若各个第一WOE值和所述各个第二WOE值满足稳定变量选取条件,则将目标自变量确定为用于建立评分卡模型的稳定变量。采用本发明,不仅可以避免评分卡模型的过拟合,还可以增加评分卡模型的鲁棒性,进而有利于提高评分卡模型预测结果的准确度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种稳定变量确定方法、装置、服务器及存储介质。
背景技术
评分卡模型为一种预测方法,尤其是在信用风险评估和金融风险控制领域,能随时根据金融环境、客户信用度的改变调节评级量化系统的各种参数,建立合理的评级制度,指导金融机构在信贷业务中,对相关客户进行合理评级,规避信贷风险。
传统评分卡模型在建模之初会定义因变量,并在因变量的基础上计算因变量对应的各自变量的证据权重(Weight of Evidence,WOE),进而根据各个WOE 从各自变量中确定出稳定变量(也即,预测能力比较强的变量),并利用这些稳定变量进行评分卡模型的建立。但这种稳定变量的选取方式过于单一,使得建立的评分卡模型容易出现过拟合、鲁棒性差等缺陷。因此,如何在避免评分卡模型过拟合的同时,增加评分卡模型的鲁棒性,成为一个亟待解决的问题。
发明内容
本发明实施例提供了一种稳定变量确定方法、装置、服务器及存储介质,不仅可以避免评分卡模型的过拟合,还可以增加评分卡模型的鲁棒性,进而有利于提高评分卡模型预测结果的准确度。
第一方面,本发明实施例提供了一种稳定变量确定方法,该方法应用于服务器,包括:
针对所述评分卡模型选取第一因变量和第二因变量,所述第一因变量和所述第二因变量属于同一维度;
对所述第一因变量对应的多个候选自变量进行自变量筛选,从所述多个候选自变量中确定出目标自变量,所述目标自变量下包括多个分组;
在所述第一因变量基础上确定所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定所述多个分组各自对应的各个第二证据权重WOE值;
若所述各个第一WOE值和所述各个第二WOE值满足稳定变量选取条件,则将所述目标自变量确定为用于建立所述评分卡模型的稳定变量。
可选地,所述对所述第一因变量对应的多个候选自变量进行自变量筛选,从所述多个候选自变量中确定出目标自变量的具体实现方式为:计算所述第一因变量对应的多个候选自变量各自对应的信息量IV值,将所述IV值大于第一 IV阈值的自变量确定为目标自变量。
可选地,所述若所述各个第一WOE值和所述各第二WOE值满足稳定变量选取条件,则将所述目标自变量确定为用于建立所述评分卡模型的稳定变量之前,还可以判断所述各个第一WOE值对应的变化趋势与所述各个第二WOE值对应的变化趋势的重合度是否大于或者等于重合度阈值;若是,则确定所述各个第一WOE值和所述各个第二WOE值满足所述稳定变量选取条件;若否,则确定所述各个第一WOE值和所述各个第二WOE值不满足所述稳定变量选取条件,并删除所述目标自变量或者调整所述目标自变量下的分组。
可选地,所述将所述目标自变量确定为用于建立所述评分卡模型的稳定变量之前,所述在第一因变量基础上确定所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定所述多个分组各自对应的各个第二证据权重WOE值之后,还可以根据所述各个第一WOE值确定所述目标自变量在所述第一因变量下对应的第一IV值;根据所述各个第二WOE值确定所述目标自变量在所述第二因变量下对应的第二IV值;若所述第二IV值与所述第一IV值的差值大于差值阈值,则删除所述目标自变量或者调整所述目标自变量下的分组。
可选地,所述将所述目标自变量确定为用于建立所述评分卡模型的稳定变量之前,所述在第一因变量基础上确定所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定所述多个分组各自对应的各个第二证据权重WOE值之后,还可以根据所述各个第二WOE值确定所述目标自变量在所述第二因变量下对应的第二IV值;若所述第二IV值小于第二IV阈值,则删除所述目标自变量或者调整所述目标自变量下的分组。
可选地,所述调整所述目标自变量下的分组后,还可以在所述第一因变量基础上确定调整后的所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定调整后的所述多个分组各自对应的各个第二证据权重WOE值;若所述各个第一WOE值和所述各个第二WOE值不满足所述稳定变量选取条件,则删除所述目标自变量。
可选地,将所述目标自变量确定为用于建立所述评分卡模型的稳定变量之后,还可以通过所述第二因变量和所述稳定变量建立所述评分卡模型。
第二方面,本发明实施例提供了一种稳定变量确定装置,该稳定变量确定装置包括用于执行上述第一方面的方法的单元。
第三方面,本发明实施例提供了一种服务器,该服务器包括处理器和存储装置,所述处理器和存储装置相互连接,其中,所述存储装置用于存储支持服务器执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例中,服务器可以针对评分卡模型选取第一因变量和第二因变量,并对第一因变量对应的多个候选自变量进行自变量筛选,从多个候选自变量中确定出目标自变量,该目标自变量下包括多个分组。进一步地,服务器可以在第一因变量基础上确定多个分组各自对应的各个第一证据权重WOE值,以及在第二因变量的基础上确定多个分组各自对应的各个第二证据权重WOE值,若各个第一WOE值和所述各个第二WOE值满足稳定变量选取条件,则将目标自变量确定为用于建立评分卡模型的稳定变量。采用本发明,不仅可以避免评分卡模型的过拟合,还可以增加评分卡模型的鲁棒性,进而有利于提高评分卡模型预测结果的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种稳定变量确定方法的流程示意图;
图2是本发明实施例提供的另一种稳定变量确定方法的流程示意图;
图3是本发明实施例提供的一种稳定变量确定装置的示意性框图;
图4是本发明实施例提供的一种服务器的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
评分卡模型为一种预测方法,它可以结合不同的业务数据应用于不同的应用场景。示例性,当评分卡模型为一种信用评分卡模型时,它可以根据过去大量信用卡持卡人的信用记录分析,描述影响个人信用水平的因素,从而帮助贷款机构发放消费信贷。信用评分卡模型的建立主要是利用申请人的特征变量预测其违约概率,进而要求进入信用评分模型的特征变量有较强的预测能力,因此,是否能找到具有较强预测能力的特征变量(也即稳定变量)是信用评分模型能否成功建立的关键,也即是任何评分卡模型能否成功建立的关键。
在构建评分卡模型时,通常需要对候选自变量进行筛选,进而选择出预测能力比较强的自变量,即稳定变量。在本发明实施例中,可以采用信息量值 (Information Value,IV)来衡量每个候选自变量的预测能力,其中,IV值与预测能力的对应关系可以如表1-1所示。
表1-1
IV | 预测能力 |
小于0.03 | 无预测能力 |
0.03~0.1 | 低 |
0.1~0.2 | 中 |
0.2~0.3 | 高 |
大于0.3 | 极高 |
在一个实施例中,可以在任一候选自变量对应的IV值大于第一IV阈值时,确定该任一候选自变量为预测能力较强的自变量,即目标自变量。例如,当建立一个评分卡模型时,有200个候选自变量,通常情况下,不会直接把200个候选自变量直接放到模型中进行拟合训练,而是可以计算每个候选自变量的IV 值,并将各个候选自变量的IV值与第一IV阈值进行比较,将IV值大于第一IV 阈值的候选自变量确定为目标自变量。
在一个实施例中,上述候选自变量下可以包括n个分组(n为大于0的整数),候选自变量对应的IV值,满足如下公式1.1:
其中,i为小于n的正整数,表示n个分组中的第i组;IVi表示第i组对应的IV值。也即,候选自变量的IV值是通过对该自变量下各个分组各自对应的 IV值进行求和得到的。在本发明实施例中,该IVi的具体数值可以根据第i组的 WOE值(即WOEi)来确定,具体可以采用如下公式1.2:
IVi=((Gi/GT)-(Bi/BT))*WOEi
其中,上式的Gi是这个组中响应客户的数量,GT是样本中所有响应客户的数量,Bi是这个组中未响应客户的数量,BT是样本中所有未响应客户的数量。从上式可以看出,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异,WOEi的计算公式可以采用如下公式1.3:
其中,上述响应客户指的是在评分卡模型中预测变量取值为“是”或者为“1”的个体。例如,在风险评分卡模型中,上述未响应的客户对应的是违约客户,本发明对此不作具体限定。
参见图1,图1是本发明实施例提供的一种稳定变量确定方法的流程示意图,如图所示,该稳定变量确定方法可包括:
101、服务器针对评分卡模型选取第一因变量和第二因变量。
其中,上述第一因变量和第二因变量属于同一维度,也即第一因变量下包括的第一候选自变量与第二因变量下包括的第二候选自变量相同,且第一候选自变量下包括的分组与第二候选自变量下包括的分组也相同。但第一因变量与第二因变量本质上是不同的,这个不同表现在第一因变量下各个分组的分组数据与第二因变量下各个分组的分组数据不同。
示例性地,假设第一因变量y1为任一期存在60天以上逾期情况,第二因变量y2为任一期存在20天以上逾期情况,y1对应1个候选自变量为x1,那么, y2也将对应x1这个候选自变量。例如,候选自变量x1为贷款人年龄,根据年龄的特征,可将年龄自变量分为18-25岁、25-40岁、40-65岁等多组。y1下贷款人年龄的统计结果如表1-2所示,y2下贷款人年龄的统计结果则可以如表1-3 所示。从表1-2和表1-3可以看出,y1和y2包括同样的候选自变量x1,且x1 下的分组也相同,均包括18-25岁、25-40岁、40-65岁这三个分组,但每个分组下的分组数据不同。
表1-2
年龄 | 未逾期 | 逾期 |
18-25岁 | 100 | 60 |
25-40岁 | 100 | 80 |
40-65岁 | 80 | 40 |
合计 | 280 | 180 |
表1-3
年龄 | 未逾期 | 逾期 |
18-25岁 | 120 | 40 |
25-40岁 | 130 | 50 |
40-65岁 | 80 | 40 |
合计 | 330 | 130 |
102、服务器对第一因变量对应的多个候选自变量进行自变量筛选,从多个候选自变量中确定出目标自变量,该目标自变量下包括多个分组。
在一个实施例中,服务器可以计算第一因变量对应的多个候选自变量各自对应的信息量IV值,并将IV值大于第一IV阈值的自变量确定为目标自变量。其中,第一IV阈值可以参考表1-1进行设置,例如设为0.2,本发明对此不作具体限定。
示例性的,假设第一IV阈值为0.2,第一因变量为y3,用于预测公司XYD 的客户集合中每个客户对活动A能否响应,y3下对应多个候选自变量,分别为 x3和x4,其中:x3为最近一个是否购买过XYD公司的产品;x4为是否为XYD 公司的VIP客户。x3和x4的统计结果,分别如表1-4和表1-5所示。
表1-4
表1-5
这种情况下,服务器首先根据公式1.3确定出x3下两个分组各自对应的 WOE分别为:
进一步地,根据公式1.2确定出x3下两个分组各自对应的IV值分别为:0.18 和0.07,进而将0.18和0.07求和,确定出x3对应的IV值为0.25。同样的,服务器采用相同的方法,根据公式1.1~1.3确定出x4对应的IV值为0.047。通过与第一IV阈值0.2进行数值比较,可以确定x3对应的IV值大于0.2,则将x3 确定为目标自变量。
103、服务器在第一因变量基础上确定多个分组各自对应的各个第一证据权重WOE值,以及在第二因变量的基础上确定多个分组各自对应的各个第二证据权重WOE值。
在一个实施例中,目标自变量下包括m(m为正整数)个分组,服务器执行步骤102确定出目标自变量后,可以根据公式1.3在第一因变量基础上确定目标自变量下每一个分组各自对应的各个第一WOE值,在第二因变量基础上确定目标自变量下每一个分组各自对应的各个第二WOE值,其中,第一WOE值与第二WOE值相同或者不同。可以理解的是,对于m个分组而言,则对应m个第一WOE值和m个第二WOE值,各个第一WOE值之间可以相同或者不同,各个第二WOE值之间也可以相同或者不同,本发明对此不作具体限定。
示例性地,假设第一因变量y1为任一期存在60天以上逾期情况,第二因变量y2为任一期存在20天以上逾期情况,目标自变量为贷款人年龄x11,y1 下贷款人年龄的统计结果如表1-2所示,y2下贷款人年龄的统计结果则可以如表1-3所示。这种情况下,服务器可以根据公式1.3,在y1基础上确定出贷款人年龄18-25岁、25-40岁以及40-65岁这三个分组的WOE值分别为:
同样地,可以根据公式1.3,在y2基础上确定出贷款人年龄18-25岁、25-40 岁以及40-65岁这三个分组的WOE值分别为:
104、若服务器确定各个第一WOE值和各个第二WOE值满足稳定变量选取条件,则将目标自变量确定为用于建立评分卡模型的稳定变量。
具体实现中,服务器执行步骤103确定出各个第一WOE值和各个第二WOE 值后,可以判断各个第一WOE值和各个第二WOE值是否满足稳定变量选取条件,若满足,则将目标自变量放入评分卡的稳定变量列表,用于建立评分卡模型。其中,该稳定变量选取条件可以为各个第一WOE值对应的变化趋势与各个第二WOE值对应的变化趋势的重合度是否大于或者等于重合度阈值,本发明对此不作具体限定。
本发明实施例中,服务器可以针对评分卡模型选取第一因变量和第二因变量,并对第一因变量对应的多个候选自变量进行自变量筛选,从多个候选自变量中确定出目标自变量,该目标自变量下包括多个分组。进一步地,服务器可以在第一因变量基础上确定多个分组各自对应的各个第一证据权重WOE值,以及在第二因变量的基础上确定多个分组各自对应的各个第二证据权重WOE值,若各个第一WOE值和所述各个第二WOE值满足稳定变量选取条件,则将目标自变量确定为用于建立评分卡模型的稳定变量。采用本发明,不仅可以避免评分卡模型的过拟合,还可以增加评分卡模型的鲁棒性,进而提高评分卡模型预测结果的准确度。
参见图2,图2是本发明实施例提供的另一种稳定变量确定方法的流程示意图,如图所示,该稳定变量确定方法可包括:
201、服务器针对评分卡模型选取第一因变量和第二因变量。
202、服务器对第一因变量对应的多个候选自变量进行自变量筛选,从多个候选自变量中确定出目标自变量,该目标自变量下包括多个分组。
203、服务器在第一因变量基础上确定多个分组各自对应的各个第一证据权重WOE值,以及在第二因变量的基础上确定多个分组各自对应的各个第二证据权重WOE值。
其中,步骤201~步骤203的具体实现方式可以参见上述实施例中步骤101~步骤103的相关描述,此处不再赘述。
204、服务器判断各个第一WOE值对应的变化趋势与所述各个第二WOE 值对应的变化趋势的重合度是否大于或者等于重合度阈值。若是,则执行步骤 205,若否则执行步骤206。
205、服务器确定各个第一WOE值和各个第二WOE值满足稳定变量选取条件,并将目标自变量确定为用于建立评分卡模型的稳定变量。
206、服务器确定各个第一WOE值和各个第二WOE值不满足稳定变量选取条件,并删除目标自变量或者调整目标自变量下的分组。
在一个实施例中,服务器执行步骤203确定出各个第一WOE值和各个第二 WOE值后,可以利用各个第一WOE值组成第一WOE曲线,利用各个第二WOE 值组成第二WOE曲线,并判断第一WOE曲线和第二WOE曲线的重合度,如果该重合度大于或者等于重合度阈值,则可以确定各个第一WOE值和各个第二 WOE值满足稳定变量选取条件,进而将目标自变量选入评分卡模型,确定为建立评分卡模型的稳定变量。
或者,如果该重合度小于重合度阈值,服务器则可以确定各个第一WOE值和各个第二WOE值不满足稳定变量选取条件,并删除目标自变量或者调整目标自变量下的分组。
在一个实施例中,服务器在将上述目标自变量确定为用于建立所述评分卡模型的稳定变量之前,在第一因变量基础上确定多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定所述多个分组各自对应的各个第二证据权重WOE值之后,还可以根据各个第一WOE值确定目标自变量在第一因变量下对应的第一IV值,以及根据各个第二WOE值确定目标自变量在第二因变量下对应的第二IV值,进而如果第二IV值与第一IV值的差值大于差值阈值,则删除目标自变量或者调整目标自变量下的分组。
其中,上述调整目标自变量下的分组,包括对目标自变量下分组进行合并、增加或者删除等操作。例如,目标自变量为信用卡张数,根据信用卡张数划分了3个分组,分组的统计结果如下表2-1所示。从表可以看出信用卡张数包括3 个分组,第一组为1~2张,第二组为3~5张,第三组为大于5张,当服务器需要调整目标自变量下的分组时,则可以将第一组~第三组中的任意两个或者三个进行合并,也可以调整每个分组下的张数范围,例如将第一组调整为0~1,将第二组调整为2~4张,等等,本发明对此不作具体限定。
表2-1
信用卡张数 | 未逾期 | 逾期 |
1~2张 | 100 | 40 |
3~5张 | 50 | 80 |
大于5张 | 30 | 100 |
合计 | 180 | 220 |
在一个实施例中,服务器将目标自变量确定为用于建立评分卡模型的稳定变量之前,在第一因变量基础上确定多个分组各自对应的各个第一证据权重 WOE值,以及在第二因变量的基础上确定多个分组各自对应的各个第二证据权重WOE值之后,还可以根据各个第二WOE值确定目标自变量在第二因变量下对应的第二IV值,如果该第二IV值小于第二IV阈值,则删除目标自变量或者调整目标自变量下的分组。
具体实现中,服务器执行步骤203确定出各个第二证据权重WOE值之后,可以将各个第二证据权重WOE值输入公式1.2确定出各个分组的IV值,进而利用公式1.1确定出目标自变量在第二因变量下对应的第二IV值,并将第二IV 值与第二IV阈值进行数值比较,如果该第二IV值小于第二IV阈值,则删除目标自变量或者调整目标自变量下的分组。
在一个实施例中,服务器调整目标自变量下的分组后,还可以在第一因变量基础上确定调整后的多个分组各自对应的各个第一证据权重WOE值,以及在第二因变量的基础上确定调整后的多个分组各自对应的各个第二证据权重WOE 值,如果各个第一WOE值和各个第二WOE值不满足稳定变量选取条件,则删除目标自变量。
例如,目标自变量为信用卡张数,该目标自变量下调整前的分组统计结果如表2-1所示,服务器对该目标自变量下的分组进行调整,调整后的分组统计结果如表2-2所示,可以看出信用卡张数下的分组由之前的3个分组调整为4个分组,且分组下的分组数据也产生了变化。进一步地,调整分组后,服务器可以利用公式1.1~1.3再次计算调整后的多个分组各自对应的各个第一证据权重 WOE值,以及在第二因变量的基础上确定调整后的多个分组各自对应的各个第二证据权重WOE值,进而判断各个第一WOE值和各个第二WOE值是否满足稳定变量选取条件,若仍不满足条件,则删除该目标变量。
表2-2
信用卡张数 | 未逾期 | 逾期 |
1~2张 | 100 | 40 |
2~3张 | 30 | 40 |
3~5张 | 20 | 40 |
大于5张 | 30 | 100 |
合计 | 180 | 220 |
在一个实施例中,将目标自变量确定为用于建立上述评分卡模型的稳定变量之后,可以通过第二因变量和稳定变量建立评分卡模型。具体地,可以将第二因变量和稳定变量输入评分卡模型,利用第二因变量和稳定变量对评分卡模型进行训练优化,进而完成对评分卡模型的建立。
本发明实施例中,服务器可以针对评分卡模型选取第一因变量和第二因变量,并对第一因变量对应的多个候选自变量进行自变量筛选,从多个候选自变量中确定出目标自变量,该目标自变量下包括多个分组。进一步地,服务器可以在第一因变量基础上确定多个分组各自对应的各个第一证据权重WOE值,以及在第二因变量的基础上确定多个分组各自对应的各个第二证据权重WOE值,并判断各个第一WOE值对应的变化趋势与所述各个第二WOE值对应的变化趋势的重合度是否大于或者等于重合度阈值。若是,则确定各个第一WOE值和各个第二WOE值满足稳定变量选取条件,并将目标自变量确定为用于建立评分卡模型的稳定变量,若否则确定各个第一WOE值和各个第二WOE值不满足稳定变量选取条件,并删除目标自变量或者调整目标自变量下的分组。采用本发明,不仅可以避免评分卡模型的过拟合,还可以增加评分卡模型的鲁棒性,进而有利于提高评分卡模型预测结果的准确度。
本发明实施例提供了一种稳定变量确定装置,该装置包括用于执行前述如图1或者图2所述的方法的模块。具体地,参见图3,是本发明实施例提供的一种装置的示意性框图。本实施例的装置包括:选取模块30、筛选模块31以及确定模块32,其中:
选取模块30,用于针对所述评分卡模型选取第一因变量和第二因变量,所述第一因变量和所述第二因变量属于同一维度;
筛选模块31,用于对所述第一因变量对应的多个候选自变量进行自变量筛选,从所述多个候选自变量中确定出目标自变量,所述目标自变量下包括多个分组;
确定模块32,用于在所述第一因变量基础上确定所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定所述多个分组各自对应的各个第二证据权重WOE值;还用于在所述各个第一WOE值和所述各个第二WOE值满足稳定变量选取条件时,将所述目标自变量确定为用于建立所述评分卡模型的稳定变量。
可选地,所述筛选模块31,具体用于计算所述第一因变量对应的多个候选自变量各自对应的信息量IV值,将所述IV值大于第一IV阈值的自变量确定为目标自变量。
可选地,所述装置还包括:判断模块33,其中:
判断模块33,用于判断所述各个第一WOE值对应的变化趋势与所述各个第二WOE值对应的变化趋势的重合度是否大于或者等于重合度阈值;
确定模块32,还用于若判断单元33判断出各个第一WOE值对应的变化趋势与所述各个第二WOE值对应的变化趋势的重合度大于或者等于重合度阈值,则确定所述各个第一WOE值和所述各个第二WOE值满足所述稳定变量选取条件;若判断单元33判断出各个第一WOE值对应的变化趋势与所述各个第二 WOE值对应的变化趋势的重合度小于重合度阈值,则确定所述各个第一WOE 值和所述各个第二WOE值不满足所述稳定变量选取条件,并删除所述目标自变量或者调整所述目标自变量下的分组。
可选地,所述装置还包括:删除模块34,其中:
所述确定模块32,还用于根据所述各个第一WOE值确定所述目标自变量在所述第一因变量下对应的第一IV值;根据所述各个第二WOE值确定所述目标自变量在所述第二因变量下对应的第二IV值;
所述删除模块34,还用于在确定模块32确定出所述第二IV值与所述第一 IV值的差值大于差值阈值时,删除所述目标自变量或者调整所述目标自变量下的分组。
可选地,所述确定模块32,还用于根据所述各个第二WOE值确定所述目标自变量在所述第二因变量下对应的第二IV值;
所述删除模块34,还用于在确定模块32确定出所述第二IV值小于第二IV 阈值时,删除所述目标自变量或者调整所述目标自变量下的分组。
可选地,所述确定模块32,还用于在所述第一因变量基础上确定调整后的所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定调整后的所述多个分组各自对应的各个第二证据权重WOE值;
所述删除模块,还用于在所述各个第一WOE值和所述各个第二WOE值不满足所述稳定变量选取条件时,删除所述目标自变量。
可选地,所述装置还包括:建立模块35,用于通过所述第二因变量和所述稳定变量建立所述评分卡模型。
可以理解的是,本实施例的变量选取装置的各功能模块、单元的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本发明实施例中,选取模块30针对评分卡模型选取第一因变量和第二因变量,筛选模块31对第一因变量对应的多个候选自变量进行自变量筛选,从多个候选自变量中确定出目标自变量,该目标自变量下包括多个分组。进一步地,确定模块32在第一因变量基础上确定多个分组各自对应的各个第一证据权重 WOE值,以及在第二因变量的基础上确定多个分组各自对应的各个第二证据权重WOE值,并在各个第一WOE值和各个第二WOE值满足稳定变量选取条件时,将目标自变量确定为用于建立评分卡模型的稳定变量。采用本发明,不仅可以避免评分卡模型的过拟合,还可以增加评分卡模型的鲁棒性,进而有利于提高评分卡模型预测结果的准确度。
参见图4,是本申请实施例提供的一种服务器的示意性框图。如图所示的本实施例中的服务器可以包括:一个或多个处理器401;一个或多个存储装置402。上述处理器401、存储装置402通过总线连接。存储装置402用于存储计算机程序,计算机程序包括程序指令,处理器401用于执行存储装置402存储的程序指令。其中,处理器401被配置用于调用程序指令执行:
针对所述评分卡模型选取第一因变量和第二因变量,所述第一因变量和所述第二因变量属于同一维度;
对所述第一因变量对应的多个候选自变量进行自变量筛选,从所述多个候选自变量中确定出目标自变量,所述目标自变量下包括多个分组;
在所述第一因变量基础上确定所述多个分组各自对应的各个第一证据权重 WOE值,以及在所述第二因变量的基础上确定所述多个分组各自对应的各个第二证据权重WOE值;
若所述各个第一WOE值和所述各个第二WOE值满足稳定变量选取条件,则将所述目标自变量确定为用于建立所述评分卡模型的稳定变量。
可选地,处理器401,可以用于计算所述第一因变量对应的多个候选自变量各自对应的信息量IV值,将所述IV值大于第一IV阈值的自变量确定为目标自变量。
可选地,处理器401,还可以用于判断所述各个第一WOE值对应的变化趋势与所述各个第二WOE值对应的变化趋势的重合度是否大于或者等于重合度阈值;若是,则确定所述各个第一WOE值和所述各个第二WOE值满足所述稳定变量选取条件。若否,则确定所述各个第一WOE值和所述各个第二WOE值不满足所述稳定变量选取条件,并删除所述目标自变量或者调整所述目标自变量下的分组。
可选地,处理器401,还可以用于根据所述各个第一WOE值确定所述目标自变量在所述第一因变量下对应的第一IV值;根据所述各个第二WOE值确定所述目标自变量在所述第二因变量下对应的第二IV值;若所述第二IV值与所述第一IV值的差值大于差值阈值,则删除所述目标自变量或者调整所述目标自变量下的分组。
可选地,处理器401还可以用于,根据所述各个第二WOE值确定所述目标自变量在所述第二因变量下对应的第二IV值;若所述第二IV值小于第二IV阈值,则删除所述目标自变量或者调整所述目标自变量下的分组。
可选地,处理器401,还可以用于在所述第一因变量基础上确定调整后的所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定调整后的所述多个分组各自对应的各个第二证据权重WOE值;若所述各个第一WOE值和所述各个第二WOE值不满足所述稳定变量选取条件,则删除所述目标自变量。
可选地,所述处理器401,还可以用于通过所述第二因变量和所述稳定变量建立所述评分卡模型。
应当理解,在本申请实施例中,所称处理器401可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储装置402可以包括只读存储器和随机存取存储器,并向处理器401 提供指令和数据。存储装置402的一部分还可以包括非易失性随机存取存储器。例如,存储装置402还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器401可执行本申请实施例图1 和图2提供的稳定变量确定方法的实施例和图3所描述的变量选取装置的实现方式,在此不再赘述。
本发明实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,可执行上述如图1或者图2所述方法实施例中服务器所执行的步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种稳定变量确定方法,其特征在于,所述方法应用于评分卡模型,包括:
针对所述评分卡模型选取第一因变量和第二因变量,所述第一因变量和所述第二因变量属于同一维度;
对所述第一因变量对应的多个候选自变量进行自变量筛选,从所述多个候选自变量中确定出目标自变量,所述目标自变量下包括多个分组;
在所述第一因变量基础上确定所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定所述多个分组各自对应的各个第二证据权重WOE值;
若所述各个第一WOE值和所述各个第二WOE值满足稳定变量选取条件,则将所述目标自变量确定为用于建立所述评分卡模型的稳定变量。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一因变量对应的多个候选自变量进行自变量筛选,从所述多个候选自变量中确定出目标自变量,包括:
计算所述第一因变量对应的多个候选自变量各自对应的信息量IV值,将所述IV值大于第一IV阈值的自变量确定为目标自变量。
3.根据权利要求1或2所述的方法,其特征在于,所述若所述各个第一WOE值和所述各第二WOE值满足稳定变量选取条件,则将所述目标自变量确定为用于建立所述评分卡模型的稳定变量之前,所述方法还包括:
判断所述各个第一WOE值对应的变化趋势与所述各个第二WOE值对应的变化趋势的重合度是否大于或者等于重合度阈值;
若是,则确定所述各个第一WOE值和所述各个第二WOE值满足所述稳定变量选取条件;
若否,则确定所述各个第一WOE值和所述各个第二WOE值不满足所述稳定变量选取条件,并删除所述目标自变量或者调整所述目标自变量下的分组。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标自变量确定为用于建立所述评分卡模型的稳定变量之前,所述在第一因变量基础上确定所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定所述多个分组各自对应的各个第二证据权重WOE值之后,所述方法还包括:
根据所述各个第一WOE值确定所述目标自变量在所述第一因变量下对应的第一IV值;
根据所述各个第二WOE值确定所述目标自变量在所述第二因变量下对应的第二IV值;
若所述第二IV值与所述第一IV值的差值大于差值阈值,则删除所述目标自变量或者调整所述目标自变量下的分组。
5.根据权利要求1所述的方法,其特征在于,所述将所述目标自变量确定为用于建立所述评分卡模型的稳定变量之前,所述在第一因变量基础上确定所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定所述多个分组各自对应的各个第二证据权重WOE值之后,所述方法还包括:
根据所述各个第二WOE值确定所述目标自变量在所述第二因变量下对应的第二IV值;
若所述第二IV值小于第二IV阈值,则删除所述目标自变量或者调整所述目标自变量下的分组。
6.根据权利要求3-5任一项所述的方法,其特征在于,所述调整所述目标自变量下的分组后,所述方法还包括:
在所述第一因变量基础上确定调整后的所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定调整后的所述多个分组各自对应的各个第二证据权重WOE值;
若所述各个第一WOE值和所述各个第二WOE值不满足所述稳定变量选取条件,则删除所述目标自变量。
7.根据权利要求1所述的方法,其特征在于,所述将所述目标自变量确定为用于建立所述评分卡模型的稳定变量之后,所述方法还包括:
通过所述第二因变量和所述稳定变量建立所述评分卡模型。
8.一种稳定变量确定装置,其特征在于,包括:
选取模块,用于针对所述评分卡模型选取第一因变量和第二因变量,所述第一因变量和所述第二因变量属于同一维度;
筛选模块,用于对所述第一因变量对应的多个候选自变量进行自变量筛选,从所述多个候选自变量中确定出目标自变量,所述目标自变量下包括多个分组;
确定模块,用于在所述第一因变量基础上确定所述多个分组各自对应的各个第一证据权重WOE值,以及在所述第二因变量的基础上确定所述多个分组各自对应的各个第二证据权重WOE值;
所述确定模块,还用于若所述各个第一WOE值和所述各个第二WOE值满足稳定变量选取条件,则将所述目标自变量确定为用于建立所述评分卡模型的稳定变量。
9.一种服务器,其特征在于,包括处理器和存储装置,所述处理器和所述存储装置相互连接,其中,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810486917.5A CN108805338A (zh) | 2018-05-21 | 2018-05-21 | 一种稳定变量确定方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810486917.5A CN108805338A (zh) | 2018-05-21 | 2018-05-21 | 一种稳定变量确定方法、装置、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108805338A true CN108805338A (zh) | 2018-11-13 |
Family
ID=64091131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810486917.5A Pending CN108805338A (zh) | 2018-05-21 | 2018-05-21 | 一种稳定变量确定方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108805338A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712716A (zh) * | 2018-12-25 | 2019-05-03 | 广州天鹏计算机科技有限公司 | 疾病影响因素确定方法、系统和计算机设备 |
CN110717650A (zh) * | 2019-09-06 | 2020-01-21 | 平安医疗健康管理股份有限公司 | 单据数据处理方法、装置、计算机设备和存储介质 |
CN111352962A (zh) * | 2018-12-24 | 2020-06-30 | 网智天元科技集团股份有限公司 | 客户画像构建方法及装置 |
CN112148706A (zh) * | 2019-06-28 | 2020-12-29 | 重庆小雨点小额贷款有限公司 | 一种变量分组方法及相关设备 |
WO2021051583A1 (zh) * | 2019-09-16 | 2021-03-25 | 平安科技(深圳)有限公司 | 变量的传输和收集方法、装置及计算机可读存储介质 |
CN113128888A (zh) * | 2021-04-26 | 2021-07-16 | 国网湖北省电力有限公司宜昌供电公司 | 基于覆冰特征变量分箱评分卡的输电线路覆冰预测方法 |
CN117235533A (zh) * | 2023-11-10 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 对象变量分析方法、装置、计算机设备和存储介质 |
-
2018
- 2018-05-21 CN CN201810486917.5A patent/CN108805338A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352962A (zh) * | 2018-12-24 | 2020-06-30 | 网智天元科技集团股份有限公司 | 客户画像构建方法及装置 |
CN111352962B (zh) * | 2018-12-24 | 2024-03-29 | 网智天元科技集团股份有限公司 | 客户画像构建方法及装置 |
CN109712716A (zh) * | 2018-12-25 | 2019-05-03 | 广州天鹏计算机科技有限公司 | 疾病影响因素确定方法、系统和计算机设备 |
CN109712716B (zh) * | 2018-12-25 | 2021-08-31 | 广州医科大学附属第一医院 | 疾病影响因素确定方法、系统和计算机设备 |
CN112148706A (zh) * | 2019-06-28 | 2020-12-29 | 重庆小雨点小额贷款有限公司 | 一种变量分组方法及相关设备 |
CN110717650A (zh) * | 2019-09-06 | 2020-01-21 | 平安医疗健康管理股份有限公司 | 单据数据处理方法、装置、计算机设备和存储介质 |
WO2021051583A1 (zh) * | 2019-09-16 | 2021-03-25 | 平安科技(深圳)有限公司 | 变量的传输和收集方法、装置及计算机可读存储介质 |
CN113128888A (zh) * | 2021-04-26 | 2021-07-16 | 国网湖北省电力有限公司宜昌供电公司 | 基于覆冰特征变量分箱评分卡的输电线路覆冰预测方法 |
CN117235533A (zh) * | 2023-11-10 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 对象变量分析方法、装置、计算机设备和存储介质 |
CN117235533B (zh) * | 2023-11-10 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 对象变量分析方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108805338A (zh) | 一种稳定变量确定方法、装置、服务器及存储介质 | |
CN103024762B (zh) | 基于业务特征的通信业务预测方法 | |
CN107679849A (zh) | 一种支付渠道选择方法、系统及一种计算机可读存储介质 | |
US8694427B2 (en) | Time-efficient and deterministic adaptive score calibration techniques for maintaining a predefined score distribution | |
CN106156941A (zh) | 一种用户信用评分优化方法和装置 | |
CN109242135A (zh) | 一种模型运营方法、装置、及业务服务器 | |
CN108446291A (zh) | 用户信用的实时评分方法及评分系统 | |
CN109428760B (zh) | 一种基于运营商数据的用户信用评估方法 | |
CN107194721A (zh) | 基于声誉记录分析的服务推荐者发现方法 | |
US10178241B2 (en) | Telecommunication price-based routing apparatus, system and method | |
CN108009193A (zh) | 数据分析方法及装置、存储介质、电子设备 | |
CN111932044A (zh) | 一种基于机器学习的钢铁产品价格预测系统和方法 | |
CN114638696A (zh) | 信贷风险预测模型的训练方法及系统 | |
CN116468536A (zh) | 一种自动化风险控制规则生成的方法 | |
CN113065969A (zh) | 企业评分模型构建方法、企业评分方法、介质和电子设备 | |
CN106257506B (zh) | 大数据量预测的三层联合动态选择最优模型方法 | |
JP2002279174A (ja) | 信用リスク評価方法及びシステム | |
CN110310038A (zh) | 模型或策略的评估方法、装置、设备及可读存储介质 | |
CN110196797A (zh) | 适于信用评分卡系统的自动优化方法和系统 | |
JP2021174330A (ja) | 異種機械学習のアンサンブル学習による予測装置 | |
CN111984637A (zh) | 数据建模中的缺失值处理方法和装置、设备及存储介质 | |
CN108738041A (zh) | 通信网络优化方法和装置 | |
Chernova et al. | Resilience of Russian regions in the face of COVID-19. | |
CN107368853A (zh) | 基于机器学习的电网项目分类确定方法及装置 | |
JP2010128615A (ja) | 在庫管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181113 |