CN111798310A

CN111798310A - 基于Cox回归和逻辑回归的拒绝推断方法及电子设备

Info

Publication number: CN111798310A
Application number: CN202010713717.6A
Authority: CN
Inventors: 黄建; 王云清; 庄泽铭
Original assignee: Smart Co Ltd Beijing Technology Co Ltd
Current assignee: Smart Co Ltd Beijing Technology Co Ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-10-20

Abstract

本发明涉及金融科学技术领域，具体涉及一种基于Cox回归和逻辑回归的拒绝推断方法及电子设备，包括以下步骤：S1在预设周期内采集所有申请用户数据，针对每个用信用户定义两套标签，即二分类目标变量和生存分析目标变量；S2对有用信用户数据基于生存分析定义的变量做Cox回归建模；S3基于Cox回归结果对拒绝样本分别计算在授信通过贷后表现为“好”样本的概率P(G|A)和为“坏”样本概率P(B|A)；S4基于二分类标签和拒绝样本推断的结果，利用二分类算法训练模型，完成评分卡模型开发。本发明利用生存分析模型对拒绝样本进行推断，选取了非参数方法Cox回归分析，不需要判断生存时长的分布函数，简化流程和避免分布函数选取不合理造成的偏差，保证模型效果更加准确。

Description

基于Cox回归和逻辑回归的拒绝推断方法及电子设备

技术领域

本发明涉及金融科学技术领域，具体涉及一种基于Cox回归和逻辑回归的拒绝推断方法及电子设备。

背景技术

随着大数据分析，人工智能，物联网和区块链等技术的发展，金融科技的应用正在颠覆金融等传统行业的发展模式，实现了线下到线上互联网金融的蜕变。近几年，消费金融行业在互联网获客端拥有大量的流量机会，通过跑马圈地的方式可以在短时间内获取大量的流量和利益，但是随着国家金融行业监管趋严，一系列的专项整治活动和监管政策出台加速了消费金融行业洗牌调整走向规范化，消费金融的重点将回归于风控，大数据和人工智能等金融科技在智能风控领域的应用才是推动消费金融发展的关键。

在开发申请评分卡的时候，审批策略导致样本偏差的问题不容忽视，拒绝推断技术研究如何有效利用被拒绝的样本数据，能够在一定程度上解决模型有偏问题。本专利主要介绍拒绝推断技术在消费金融风控场景里申请评分卡的应用，在审批策略增加新规则的同时，也优化了历史准确率不高的弱规则，保证业务能够稳健快速发展。

常见的拒绝推断技术包括，1.样本重加权法或扩张法(Re-weighting/Augmentation)，2.目标重新归类法(Re-classification)，3.分散打包法(FuzzyAugmentation/Parceling)，4.其它方法，比如在压力测试得到的全样本数据，以及基于上面方法扩展各类技术等等。

Cox回归模型是生存分析范畴，又称“比例风险回归模型(Proportional HazardsModel，简称Cox模型)”，是由英国统计学家D.R.Cox(1972年)提出的一种半参数回归模型，该方法不要求其中的目标变量的生存分布类型以及能够拟合多因素而广泛被应用。本发明在第3种方法框架下，首次利用生存分析建模对拒绝样本打分，得到好和坏的概率，作为拒绝样本的权重，结合KGB(有用信且有贷后表现，下同)和带权重的拒绝样本，通过二分类算法训练模型，开发申请评分卡。

在开发评分卡时，通常需要考虑建模样本是否能代表全量样本，即样本偏差的问题。由于被拒客户是非随机缺失的，导致建模样本无法精确地反映全量样本。如果建模人员只能基于被接受的客户样本开发评分卡模型，会导致模型参数估计偏差，从而影响对真实风险的判断，即拒绝偏差。针对授信被拒客群缺失贷后表现造成的拒绝偏差，究其本质，是因变量数据缺失的问题。数据缺失可以分为完全随机缺失，随机缺失，非随机缺失。(1)完全随机缺失，如果客户的授信通过(拒绝)是完全随机的，即申请者是否违约与授信是否通过无关，训练集样本包含了总体的所有信息，基于此样本的模型是无偏的；(2)随机缺失，授信是否通过仅依赖于特定变量，而与因变量无关，当特征相同的情况下，授信通过和拒绝的客群违约概率分布相同。前两种缺失都是可忽视的缺失形式。(3)非随机缺失，依赖于不完全变量自身，又可分为截断缺失，删失缺失，样本选择缺失。此类缺失在业务场景下通常由业务特点和人员造成。准入规则策略的目的是拒绝违约概率高的客群，因此造成通过与拒绝的客群在违约概率分布是不同的。构建评分卡模型的样本(规则后授信通过的客群)在反映模型要作用的总体(规则作用前的客群)时是有偏的，即非随机缺失造成样本偏差。

为了解决样本偏差的问题，更准确地评估模型的表现，提高风控模型预测判别的准确性，拒绝推断技术应运而生。自上个世纪70年代以来，不同的拒绝推断技术被广泛应用在消费场景。其基本原理是基于二分类模型(例如逻辑回归模型)推断出每个或者部分被拒用户的好坏状态值，以不同的形式还原全量样本。常见的拒绝推断技术以及思路的介绍如下，第一，样本重加权法或扩张法，利用全样本(目标变量定义为是否授信通过)训练模型，模型打分得到每个样本的授信通过概率，计算通过率倒数，作为权重，近似得到全样本，基于观察到的“好”“坏”样本(KGB，下文同)以及权重训练评分卡模型。第二，目标重新归类法，把观察的“坏”样本作为拒绝样本，训练通过率模型预测所有样本的通过率，通过设置阈值将部分的拒绝样本打上“坏”样本标签(RTB，rejects turned bads，下文同)，通过KGB+RTB训练模型，开发申请评分卡。第三，分散打包法，通过KGB训练的模型，对拒绝样本打分，分别得到P(G)和P(B)作为新样本的权重训练模型。其它方法，比如在压力测试得到的全样本数据，以及基于上面方法扩展各类技术等等。

脱离二分类算法框架的生成分析方法在拒绝推断技术上也有简单的应用，根据有贷后表现的客户数据建立参数生存分析模型用于分析预测授信拒绝的客户贷后表现，如果推断的拒绝客户逾期概率小于授信通过用户逾期概率，则该拒绝客户应该被授信通过。参数生存分析模型要求生存数据满足特定的时间分布，常用的分布包含指数分布，对数正态分布和Weibull分布等。

当前开发申请评分卡模型主要存在以下3个缺点：

1.采用的主流算法的目标变量是二分类，在预设的窗口期内出现借据逾期超过一定天数的用户作为坏样本，从未无逾期或轻度逾期的人作为好样本，剩余的定义为灰色，灰色样本一般不作为样本参与建模。我们通过实际数据分析发现，样本的逾期时长具有重要的建模意义，简单地将样本进行二分类损失了大量的信息。但是现有的拒绝推断技术依旧没能跳出“二分”的框架，样本信息利用不够充分。

2.另外二分类算法会一般训练模型时回剔除灰色样本数据，在限定MOB6下，会存在一定量样本表现时间不够长，逾期1至30天的样本，实际上这部分数据会有较高的比例的样本迁移到M2。

3.未用到观察窗口期内用户的逾期状态，二分类变量针对坏样本无法区分观察窗口期内坏样本是否处于当期逾期状态。

生存分析方法也被用到申请评分卡上，论文发表了利用参数生存分析方法，目标变量定义为到首次逾期还款时长，并假设目标变量服从对数正态分布，预测拒绝样本到首次逾期还款。参数生存分析法常用目标变量的分布包括，指数分布，韦伯(Welbull)分布，正态分布，对数正态分布，伽马分布，Logistic分布，Log-logistic分布。在实际业务上，逾期时长的分布非常复杂，针对右删失数据，可以通过作图检测方法来判断样本数据的分布情况，针对不同的分布类型对生存概率做转化(

等等)与生存时间的对数log(t)作图，评估拟合程度。由于通过图形的方法判断分布，存在人为主观因素，对参数的估计会有一定影响。

发明内容

针对现有技术的不足，本发明公开了一种基于Cox回归和逻辑回归的拒绝推断方法及电子设备，采用非参数生存分析方法对拒绝样本的推断，得到更加全面样本的以及贷后表现，为申请评分的开发提供更为准确的样本，从而保证申请评分卡在生产环境的决策更加有效。

本发明通过以下技术方案予以实现：

第一方面，本发明公开了一种基于Cox回归和逻辑回归的拒绝推断方法，所述方法包括以下步骤：

S1在预设周期内采集所有申请用户数据，针对每个用信用户在相同观察窗口定义两套标签，即二分类目标变量和生存分析目标变量；

S2对有用信用户数据基于生存分析定义的变量做Cox回归建模；

S3基于Cox回归结果对拒绝样本分别计算在授信通过且为“好”样本的概率P(G|A)和为“坏”样本概率P(B|A)；

S4基于二分类标签和拒绝样本推断的结果，利用二分类算法训练模型，完成评分卡模型开发。

更进一步的，所述S1中，观察窗口定为MOB6，每个用户有两套目标变量，二分类算法里针对有用信的客群目标定义逻辑如下：

MOB6内出现过逾期30天及以上的用信的用户定义为“坏”样本，赋值为1；

MOB6内有用信且从未发生过逾期的用户定为好用户，赋值为0；

MOB6内未用信，用信未到还款期，用信窗口期内逾期最大逾期天数为1至30天赋值为-1；

针对Cox回归目标定义逻辑如下：

贷款订单维度统计，MOB6内有还款的借据为非删失数据，赋值为0计算每笔还款时间到账单日时间的天数，提前还款设置为0；

MOB6内到期且未还款的借据设置为删失数据，赋值为1，计算观察终点到账单日的天数；

每个用户优先取逾期天数最高，然后优先取删失非删失的逻辑。

更进一步的，所述S2中，Cox回归建模时，假设T表示用户实际还款时间到账单日的天数，S_i(T)表示用户i逾期超过T的概率，S_i(30)表示用户i逾期天数超过30以上的概率，S_i(t)的计算公式如下

其中，β是Cox回归模型里自变量X_i对应的参数估计值，S₀(t)是基准生存概率，通过非参数极大似然方法估计。

更进一步的，所述S3中，对权重的计算为，

针对有表现的客群权重设置为1，针对拒绝样本为标签打上0的好样本以及对应概率为1-S_i(t)和为标签打上1的坏样本以及对应坏的概率S_i(t)；

根据定义，对数似然函数的推导公式包括两部分如下

ln[l_w(β|y)]＝ln[l_KGB(β|y)]+ln[l_Rejects(β|y)]

公式中拒绝样本的对数似然函数表达式

KGB样本的对数似然函数表达式

其中β是我们需要估计的自变量对应的系数，Y_i是样本i实际观察事件的结果，π_i表示事件为1发生的概率，其

中，1-π_i表示事件为0发生的概率。

更进一步的，所述S4中的二分类算法为逻辑回归，随机森林，XGBoost二分类算法。

更进一步的，所述MOB6定义为，用户首次用信作为观察起始点，6个月月末观察终点。

更进一步的，所述方法中，二分类算法训练模型时会剔除灰色样本，其生存分析能够处理不同逾期天数以及表现期不够长的样本，生存分析模型直接拟合定义好坏的原始特征和删失状态。

第二方面，本发明公开一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行第一方面所述的基于Cox回归和逻辑回归的拒绝推断方法。

本发明的有益效果为：

本发明通从样本推断技术上，利用生存分析模型对拒绝样本进行推断，首先，尽可能包含所有样本数据，二分类算法训练模型时一般会剔除灰色样本，而生存分析能够很好处理不同逾期天数以及表现期不够长的样本，其次，目标变量包含更多的信息量，生存分析模型直接拟合定义好坏的原始特征和删失状态，即逾期天数和逾期状态，相对二分类变量而言，连续型的特征包含更多信息量，并且用户在观察终点是否当前逾期的标签也纳入模型训练。

从生存分析方法的选择上，选取了非参数方法---Cox回归分析，不需要判断生存时长的分布函数，简化流程和避免分布函数选取不合理造成的偏差，保证模型效果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于Cox回归和逻辑回归的拒绝推断方法原理步骤图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例公开如图1所示的一种基于Cox回归和逻辑回归的拒绝推断方法，包括以下步骤：

S1在预设周期内采集所有申请用户数据，针对每个用信用户定义两套标签，即二分类目标变量和生存分析目标变量；

S1中，观察窗口定为MOB6，每个用户有两套目标变量，二分类算法里针对有用信的客群目标定义逻辑如下：

针对Cox回归目标定义逻辑如下：

每个用户优先取逾期天数最高，然后优先取删失非删失的逻辑

S3中，Cox回归建模时，假设T表示用户实际还款时间到账单日的天数，S_i(T)表示用户i逾期超过T的概率，S_i(30)表示用户i逾期天数超过30以上的概率，S_i(t)的计算公式如下

S4中，对权重的计算为，

根据定义，对数似然函数的推导公式包括两部分如下

ln[l_w(β|y)]＝ln[l_KGB(β|y)]+ln[l_Rejects(β|y)]

公式中拒绝样本的对数似然函数表达式

KGB样本的对数似然函数表达式

中，1-π_i表示事件为0发生的概率。

S4中的二分类算法为逻辑回归或XGBoost二分类算法。

S4中训练模型包括用户在观察终点是否当前逾期的标签。

MOB6定义为，用户首次用信作为观察起始点，6个月月末观察终点。

方法中，二分类算法训练模型时会剔除灰色样本，其生存分析能够处理不同逾期天数以及表现期不够长的样本，生存分析模型直接拟合定义好坏的原始特征和删失状态。

本实施例通过拒绝推断技术解决审批策略造成样本偏差问题，确保业务稳健快速增长，采用非参数生存分析方法对拒绝样本的推断，更加准确预估拒绝样本的贷后表现，完成对拒绝样本的推断，为申请评分的开发提供更为准确的样本，从而保证申请评分卡在生产环境的决策更加有效。

实施例2

本实施例中，主要步骤以及相关公式的推导如下，

1.数据准备阶段，在预设周期内采集所有申请用户数据，针对有用信客户的Vintage分析和滚动率分析，结合现有用户贷后的业务规模，制定目标变量定义。通常情况下，观察窗口定为MOB6(用户首次用信作为观察起始点，6个月月末观察终点)。

每个用户有两套目标变量，二分类算法里针对有用信的客群目标定义逻辑如下，MOB6内曾经出现过逾期30天及以上的借据的用户定义为坏样本，赋值1，MOB6内有贷款且从未发生过逾期的用户定为好用户，赋值0，其它定为灰色样本，为-1；针对Cox回归目标变量有两个，借据维度统计，MOB6内有还款的借据为非删失数据，赋值为0，计算每笔还款时间到账单日时间的天数，MOB6内未还款的借据赋值为1，计算观察终点到每笔账单日的天数，每个用户优先取逾期天数最高，然后优先取删失非删失的逻辑。获取所有样本在申请贷款时的相关特征，比如年龄，性别，账龄，交易等信息。

2.Cox回归建模，假设T表示用户实际还款时间到账单日的天数，s_i(T)表示用户i逾期超过T的概率，S_i(30)表示用户i逾期天数超过30以上的概率，S_i(t)的计算公式如下

3.权重的计算，针对有表现的客群权重设置为1，针对拒绝样本，我们得到两条数据，为好样本(标签打上0)以及对应概率

(1-s_i(t))和为坏样本(标签打上1)以及坏的概率(s_i(t))。

根据定义，对数似然函数的推导公式包括两部分如下

ln[l_w(β|y)]＝ln[l_KGB(β|y)]+ln[l_Rejects(β|y)]

公式中拒绝样本的对数似然函数表达式

KGB样本的对数似然函数表达式

中，1-π_i表示事件为0发生的概率。

4.评分卡模型的开发，基于二分类标签和权重，利用逻辑回归或XGBoost等二分类算法训练模型。

本实施例解决由于信贷数据的敏感性，在某流量平台投入使用，并获得较稳定的效果。

实施例3

本实施例公开一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行基于Cox回归和逻辑回归的拒绝推断方法。

综上所述，本发明通从样本推断技术上，利用生存分析模型对拒绝样本进行推断，首先，尽可能包含所有样本数据，二分类算法训练模型时一般会剔除灰色样本，而生存分析能够很好处理不同逾期天数以及表现期不够长的样本，其次，目标变量包含更多的信息量，生存分析模型直接拟合定义好坏的原始特征和删失状态，即逾期天数和逾期状态，相对二分类变量而言，连续型的特征包含更多信息量，并且用户在观察终点是否当前逾期的标签也纳入模型训练。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于Cox回归和逻辑回归的拒绝推断方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于Cox回归和逻辑回归的拒绝推断方法，其特征在于，所述S1中，观察窗口定为MOB6，每个用户有两套目标变量，二分类算法里针对有用信的客群目标定义逻辑如下：

描述生存分析的目标变量有两个，一是删失状态，二是生存时间，本文中具体定义逻辑如下：

贷款订单维度统计，MOB6内有还款的订单为非删失数据，赋值为0，计算每笔还款时间到账单日时间的天数，提前还款设置为0；

3.根据权利要求2所述的基于Cox回归和逻辑回归的拒绝推断方法，其特征在于，删失和非删失表示观察窗口期内用户是否处于当前逾期状态，以及生存时长表示不同的逾期天数。

4.根据权利要求1所述的基于Cox回归和逻辑回归的拒绝推断方法，其特征在于，所述S3中，基于Cox回归结果对拒绝样本分别计算在授信通过且为“好”样本的概率P(G|A)和为“坏”样本概率P(B|A)，如下

P(B|A)＝S_i(30)；

P(G|A)＝1-S_i(30)，

假设T表示用户实际还款时间到账单日的天数，S_i(T)表示用户i逾期天数超过T的概率，S_i(30)表示用户i逾期天数超过30以上的概率，S_i(t)的计算公式如下

5.根据权利要求1所述的基于Cox回归和逻辑回归的拒绝推断方法，其特征在于，所述S4中，基于KGB+拒绝样本分别推断授信后为“好”样本和“坏”样本以及相应的概率作为权重开发模型，样本的设置如下，

根据定义，对数似然函数的推导公式包括两部分如下

ln[l_w(β|y)]＝ln[l_KGB(β|y)]+ln[l_Rejects(β|y)]

公式中拒绝样本的对数似然函数表达式

KGB样本的对数似然函数表达式

中，1-π_i表示事件为0发生的概率。

6.根据权利要求1所述的基于Cox回归和逻辑回归的拒绝推断方法，其特征在于，所述S4中的二分类算法为逻辑回归，随机森林，XGBoost二分类算法。

7.根据权利要求1所述的基于Cox回归和逻辑回归的拒绝推断方法，其特征在于，所述MOB6定义为，用户首次用信作为观察起始点，6个月月末观察终点。

8.根据权利要求1所述的基于Cox回归和逻辑回归的拒绝推断方法，其特征在于，所述方法中，二分类算法训练模型时会剔除灰色样本，其生存分析能够处理不同逾期天数以及表现期不够长的样本，生存分析模型直接拟合定义好坏的原始特征和删失状态。

9.一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如权利要求1至9中任一所述的基于Cox回归和逻辑回归的拒绝推断方法。