CN112686749B

CN112686749B - 一种基于逻辑回归技术的信用风险评估方法及装置

Info

Publication number: CN112686749B
Application number: CN202011638377.1A
Authority: CN
Inventors: 郑景泰; 孙枫; 李冲冲
Original assignee: Shanghai Jingdong Technology Co Ltd
Current assignee: Shanghai Jingdong Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-09-17
Anticipated expiration: 2040-12-31
Also published as: CN112686749A

Abstract

本发明提供了一种基于逻辑回归技术的信用风险评估方法及装置，方法包括：获取用户数据信息和模型配置信息，从所述用户数据信息中提取信用特征数据构建样本集，根据所述模型配置信息和所述样本集开发信用评分模型；获取信用评分配置信息和待预测的用户信用特征数据，将待预测的用户信用特征数据输入信用评分模型，输出对应的信用预测结果；基于所述信用评分配置信息和信用预测结果得到该用户对应的信用评分及信用风险评估结果并输出。能够对用户的信用风险进行高效评估，便捷高效、易于实现，具有用户信用风险评估结果稳定性好、信用风险预测准确性高、可靠性高等优点。

Description

一种基于逻辑回归技术的信用风险评估方法及装置

技术领域

本发明涉及信用风险评估领域，具体涉及一种基于逻辑回归技术的信用风险评估方法及装置。

背景技术

在银行或金融部门的风险监管中，需要对用户的信用进行评估，从而得到不同等级的信用分数，根据客户的信用分数，来决定客户可以持有的金额权限，从而保证还款等业务的安全性。现有的用户信用风险评估方法存在以下不足：

1、信用风险评估一般是根据用户过往信用历史及表现情况，将不同用户各方面的信息通过统计学的方法量化各个变量对于信用历史好坏的影响程度，过程繁琐，效率低下，对风控人员的专业能力要求较高，费时费力，不符合当前数据高效处理的需求。

2、市面上存在一些信用评分算法，是采用用户的历史信用资料预先训练好信用评分模型，然后根据训练好的信用评分模型来预测和评估用户的信用风险，又称违约风险，是指借款人不能履约所造成的损失，主要有两方面的原因，一是借款人没有足够的还款能力，一是借款人无还款意愿。在真实的信贷业务中，信用评分模型的训练样本经常存在正负样本不均衡问题，通常情况下是坏样本较少而好样本较多的情况，因此，我们在样本采样时一般会进行过采样(Oversampling)和欠采样(Undersampling)，从而得到均衡的样本，再基于较为均衡的样本构建和训练信用评分模型。这样，虽然解决了样本不均衡问题，但也会导致信用评分模型的评估结果输出不稳定、准确性低，信用风险的预测结果和真实结果差距较大，不能真实反应用户的信用风险，信用风险预测数据的准确性低、可靠性不足。

发明内容

针对现有技术存在的上述不足，本发明的目的在于：提供一种基于逻辑回归技术的信用风险评估方法及装置，能够对用户的信用风险进行高效评估，便捷高效、易于实现；同时可以对信用评分模型进行区分能力、稳定性、准确性与审慎性的验证，对信用评分模型的准确性进行校准，从而对实际坏样本比例进行还原。具有用户信用风险评估结果稳定性好、信用风险预测准确性高、可靠性高等优点。

一种基于逻辑回归技术的信用风险评估方法，其特征在于，包括以下步骤：

获取用户数据信息和模型配置信息，从所述用户数据信息中提取信用特征数据构建样本集，根据所述模型配置信息和所述样本集开发信用评分模型；

获取信用评分配置信息和待预测的用户信用特征数据，将待预测的用户信用特征数据输入信用评分模型，输出对应的信用预测结果；

基于所述信用评分配置信息和信用预测结果得到该用户对应的信用评分及信用风险评估结果并输出。

进一步地，所述从所述用户数据信息中提取信用特征数据构建样本集，具体包括：

从所述用户数据信息中提取信用特征数据，对提取的信用特征数据进行预处理；预处理包括数据异常诊断处理、变量逻辑诊断处理或变量衍生加工，最终形成业务宽表；根据业务宽表构建样本集。

进一步地，所述信用评分模型的开发过程如下：

将整理后的数据业务宽表内的变量作为备选变量，对备选变量进行分箱，对分箱后的备选变量进行WOE特征转换，筛选出可区分用户信用等级且具备稳定性的变量；调整适宜的参数，对筛选后的变量进行逻辑回归，构建信用评分模型。

进一步地，所述样本集包括开发集和测试集，根据所述模型配置信息和所述样本集开发信用评分模型；使用所述测试集对开发的信用评分模型进行测试得到测试结果，当开发模型的测试结果符合预定条件时，则开发完成；所述评分配置信息包括信用预测结果与信用评分的映射关系以及信用评分与评分等级的映射关系。

进一步地，所述信用评分模型构建完成后还需要进行验证，具体包括：

将测试集输入信用评分模型，输出对应的信用预测结果；

基于评分配置信息和测试集对应的信用预测结果得到测试集对应的信用评分及信用风险评估结果；

对得到的信用评分及信用风险评估结果进行验证，并判断验证是否合格；若是，则信用评分模型开发完成，若否，则重新选择测试集输入信用评分模型进行验证；

验证内容包括模型的区分能力、稳定性、准确性与审慎性，若验证不合格超过预设次数，则更新评分配置信息。

进一步地，对信用评分模型验证的具体指标包括变量价值评价IV、评分区分能力评价KS、准确性能力评价ROC曲线/AUC、变量/评分稳定性评价PSI。

进一步地，对信用评分模型验证过程中，还需要对信用评分模型的准确性进行校准，用于对实际坏样本比例进行还原，具体包括：

所述信用评分模型包括模型截距项，根据开发集计算拟合出各分段截距A，其中，各分段截距A＝ln(分段好坏比)；

根据开发集好坏比odds和实际样本集好坏比odds1得到常数项ln(odd1s/odds)；

对各分段截距A进行调整，得到调整后各分段截距B，其中，调整后各分段截距B＝A+ln(odd1s/odds)；

采用信用评分模型对各分段的真实好坏比进行预测，得到各分段真实好坏比exp(B)；

分析预测各分段的实际信用风险，得到各分段实际信用风险概率C，其中，C＝1/(1+exp(-B))。

一种基于逻辑回归技术的信用风险评估装置，包括：

第一配置模块，用于获取用户数据信息和模型配置信息；

开发模块，用于从所述用户数据信息中提取信用特征数据构建样本集，根据所述模型配置信息和所述样本集开发信用评分模型；

第二配置模块，用于获取信用评分配置信息；

预测模块，用于获取待预测的用户信用特征数据，将待预测的用户信用特征数据输入信用评分模型，输出对应的信用预测结果；

信用风险评估模块，用于基于所述信用评分配置信息和信用预测结果得到该用户对应的信用评分及信用风险评估结果。

进一步地，还包括验证模块和校准模块，所述验证模块用于对构建的信用评分模型进行区分能力、稳定性、准确性与审慎性的验证；所述校准模块用于对信用评分模型的准确性进行校准，用于对实际坏样本比例进行还原。

进一步地，所述信用评分模型的开发过程如下：根据高价值变量确定备选变量和候选变量，对备选变量进行分箱，对分箱后的备选变量进行WOE特征转换，筛选出可区分用户信用等级且具备稳定性的变量；调整适宜的参数，对候选变量进行逻辑回归，构建信用评分模型。

相比于现有技术，本发明具有以下优点：

本发明提供了一种基于逻辑回归技术的信用风险评估方法及装置，能够对用户的信用风险进行高效评估，便捷高效、易于实现；同时可以对信用评分模型进行区分能力、稳定性、准确性与审慎性的验证，对信用评分模型的准确性进行校准，从而对实际坏样本比例进行还原。具有用户信用风险评估结果稳定性好、信用风险预测准确性高、可靠性高等优点。

附图说明

图1为本发明实施例一中基于逻辑回归技术的信用风险评估方法的控制流程图；

图2为本发明实施例一中采用信用特征数据构建样本集的流程图；

图3为本发明实施例一中形成的业务宽表；

图4为本发明实施例一中信用评分模型的开发流程图；

图5为本发明实施例一中信用评分模型的开发及测试流程图；

图6为本发明实施例一中信用评分模型的验证流程图；

图7为本发明实施例一中信用评分模型准确性的校准流程图；

图8为本发明实施例一中信用评分模型本各分数段的好坏分布图；

图9为本发明实施例一中各分段预测出来的真实水平的信用风险违约分布图；

图10为本发明实施例二中基于逻辑回归技术的信用风险评估装置的框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

实施例一：

参照图1，一种基于逻辑回归技术的信用风险评估方法，包括以下步骤：

获取用户数据信息和模型配置信息，从所述用户数据信息中提取信用特征数据构建样本集，根据所述模型配置信息和所述样本集开发信用评分模型。具体地，用户数据信息包括用户的基本信息、用户各方面过往信用历史及表现情况等，模型配置信息包括如下至少一项：初始模型参数信息、机器学习算法参数信息、和/或模型优化目标参数信息。

获取信用评分配置信息和待预测的用户信用特征数据，将待预测的用户信用特征数据输入信用评分模型，输出对应的信用预测结果。

采用上述基于逻辑回归技术的信用风险评估方法，可以让用户信用评分过程标准化运营，面对不同的信用评分过程，运营人员只需对配置数据进行设置，对风控人员的专业能力要求较低，过程便捷高效、易于实现，符合当前数据高效处理的需求。

上述基于逻辑回归技术的信用风险评估方法中，参照图2，所述从所述用户数据信息中提取信用特征数据构建样本集，具体包括：

从所述用户数据信息中提取信用特征数据，对提取的信用特征数据进行预处理；预处理包括数据异常诊断处理、变量逻辑诊断处理或变量衍生加工，最终形成业务宽表；根据业务宽表构建样本集。具体地，数据异常诊断包括诊断数据非正常取值或数据空值占比是否超过阈值，数据同质性是否超过阈值，数据填充率是否满足阈值要求等。变量逻辑诊断包括诊断变量是否为不适宜入模变量如客户生日、是否为评分类变量等。诊断后处理包括对部分不满足取值要求的变量进行默认值填充或对不满足要求的变量进行清洗剔除。变量衍生加工，一般可有取平均值、阶段性总和、数值比例等。最终形成以客户标识为行标题，数据变量为列标题的数据宽表。业务宽表参照图图3，用户的年龄、最高学位、婚姻状态、信贷账户数、银行信贷机构、最大负债金额等均为数据变量。

上述基于逻辑回归技术的信用风险评估方法中，参照图4，所述信用评分模型的开发过程如下：将整理后的数据业务宽表内的变量作为备选变量，对备选变量进行分箱，对分箱后的备选变量进行WOE特征转换，筛选出可区分用户信用等级且具备稳定性的变量；调整适宜的参数，对筛选后的变量进行逻辑回归，构建信用评分模型。

上述基于逻辑回归技术的信用风险评估方法中，参照图5，所述样本集包括开发集和测试集，根据所述模型配置信息和所述样本集开发信用评分模型；使用所述测试集对开发的信用评分模型进行测试得到测试结果，当开发模型的测试结果符合预定条件时，则开发完成；所述评分配置信息包括信用预测结果与信用评分的映射关系以及信用评分与评分等级的映射关系。具体地，预定条件指信用评分模型的输入为测试集，输出结果连续趋于稳定。

上述基于逻辑回归技术的信用风险评估方法中，参照图6，所述信用评分模型构建完成后还需要进行验证，具体包括：

将测试集输入信用评分模型，输出对应的信用预测结果；

具体实施时，对信用评分模型验证的具体指标包括变量价值评价IV、评分区分能力评价KS、准确性能力评价ROC曲线/AUC、变量/评分稳定性评价PSI。这样，可以提高用户信用风险评估结果稳定性、信用风险预测准确性和可靠性高。

上述基于逻辑回归技术的信用风险评估方法中，参照图7，对信用评分模型验证过程中，还需要对信用评分模型的准确性进行校准，用于对实际坏样本比例进行还原，具体包括：

这样，可以对信用评分模型的准确性进行校准，从而对实际坏样本比例进行还原，可以进一步提高用户信用风险评估结果稳定性、信用风险预测准确性和可靠性高。

下面对各分段截距调整之后，可以实现对信用评分模型的准确性进行校准进行说明：

按照常规逻辑回归开发评分模型的方式，做WOE变换，然后分析LR系数，单变量下确实只有截距发生了变化；而对于多变量，理想情况下，当各自变量相互独立时，LR系数是不变的，但实际自变量之间多少存在一定的相关性，所以还是会有一定的变化。

我们将实际开发样本的ln(odds)，即LR系数中的截距，加一个ln(odds1/odds)后再进行sigmoid转换。ln(odds1)是抽样前真实好坏比或者目前样本的好坏比。由于逻辑回归拟合出来的截距是约等于ln(odds)的，因此开发样本拟合出来的截距是开发样本的ln(odds)，实际样本的截距应该是实际样本的ln(odds1)，现在需要将开发样本的ln(odds)调整到实际样本的ln(odds1)上面，则需要-ln(odds)+ln(odds1)，即再加上一个ln(odd1s/odds)。

在实际建模过程中，如果建模样本就是实际好坏比odds，则：

其中，A＝BaseScore+B*ln(Odds)，BaseScore定义为好坏比为odds时的分值，B＝PDO/ln(2)，PDO(Point of Double Odds)定义为每隔多少分Odds加倍。

如果采样好坏比odds1，实际好坏比为odds，则需在逻辑回归拟合出来的截距上再加一个ln(odds1/odds)，即：

Score＝A-B*[InOdds+In(odds1/odds)]

参照图8和图9，通过一个案例来说明此方法的应用：

一个评分卡经过抽样或者客群发生偏移，开发样本集的坏样本率为10％，信用评分模型本各分数段的好坏分布如图8，得到各分数段预测出来的真实水平的信用风险违约分布如图9；实际上该产品的违约率只有2％左右，那么这个坏样本占比会比产品上线后实际落在该分数段的坏样本占比要高得多。要还原真实的情况，需要进行如下校准：

1、计算开发样本集拟合出来各分段的截距近似为A＝ln(分段好坏比)；

2、根据开发集好坏比odds和实际样本集好坏比odds1得到常数项ln(odd1s/odds)，开发样本好坏比odds＝10％/90％＝0.1111，实际样本好坏比odds1＝2％/98％＝0.0204，常数项ln(odd1s/odds)＝-1.6946；

3、对各分段截距A进行调整，得到调整后各分段截距B，其中，调整后各分段截距B＝A+ln(odd1s/odds)；

4、采用信用评分模型对各分段的真实好坏比进行预测，得到各分段真实好坏比exp(B)；

5、分析预测各分段的实际信用风险，得到各分段实际信用风险概率C，

其中，C＝1/(1+exp(-B))。

采用上述校准方法对信用评分模型的准确性进行校准，从而对实际坏样本比例进行还原，可以进一步提高用户信用风险评估结果稳定性、信用风险预测准确性和可靠性高。

实施例二：

参照图10，一种基于逻辑回归技术的信用风险评估装置，包括：

第一配置模块，用于获取用户数据信息和模型配置信息；

第二配置模块，用于获取信用评分配置信息；

具体实施时，还包括验证模块和校准模块，所述验证模块用于对构建的信用评分模型进行区分能力、稳定性、准确性与审慎性的验证；所述校准模块用于对信用评分模型的准确性进行校准，用于对实际坏样本比例进行还原。

采用上述基于逻辑回归技术的信用风险评估装置，可以让用户信用评分过程标准化运营，面对不同的信用评分过程，运营人员只需对配置数据进行设置，对风控人员的专业能力要求较低，过程便捷高效、易于实现，符合当前数据高效处理的需求。

所述信用评分模型的开发过程如下：将整理后的数据业务宽表内的变量作为备选变量，对备选变量进行分箱，对分箱后的备选变量进行WOE特征转换，筛选出可区分用户信用等级且具备稳定性的变量；调整适宜的参数，对筛选后的变量进行逻辑回归，构建信用评分模型。

采用上述方法和装置，能够对用户的信用风险进行高效评估，便捷高效、易于实现；通过对信用评分模型的准确性进行校准，从而对实际坏样本比例进行还原，可以进一步提高用户信用风险评估结果稳定性、信用风险预测准确性和可靠性高。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的保护范围当中。

Claims

1.一种基于逻辑回归技术的信用风险评估方法，其特征在于，包括以下步骤：

获取用户数据信息和模型配置信息，所述用户数据信息包括用户的基本信息、用户各方面过往信用历史及表现情况；所述模型配置信息包括初始模型参数信息、机器学习算法参数信息、和/或模型优化目标参数信息；

从所述用户数据信息中提取信用特征数据构建样本集，根据所述模型配置信息和所述样本集开发信用评分模型；其中，从所述用户数据信息中提取信用特征数据构建样本集，具体包括：从所述用户数据信息中提取信用特征数据，对提取的信用特征数据进行预处理；预处理包括数据异常诊断处理、变量逻辑诊断处理或变量衍生加工，最终形成业务宽表；根据业务宽表构建样本集；所述数据异常诊断包括诊断数据非正常取值或数据空值占比是否超过阈值，数据同质性是否超过阈值，数据填充率是否满足阈值要求；变量逻辑诊断包括诊断变量是否为不适宜入模变量、是否为评分类变量，诊断后处理包括对部分不满足取值要求的变量进行默认值填充或对不满足要求的变量进行清洗剔除；变量衍生加工包括：取平均值、阶段性总和、数值比例；并且，所述信用评分模型的开发过程如下：将整理后的数据业务宽表内的变量作为备选变量，对备选变量进行分箱，对分箱后的备选变量进行WOE特征转换，筛选出可区分用户信用等级且具备稳定性的变量；调整适宜的参数，对筛选后的变量进行逻辑回归，构建信用评分模型；所述样本集包括开发集和测试集，使用所述测试集对开发的信用评分模型进行测试得到测试结果，当开发模型的测试结果符合预定条件时，则开发完成；

获取信用评分配置信息，评分配置信息包括信用预测结果与信用评分的映射关系以及信用评分与评分等级的映射关系；在所述信用评分模型构建完成后进行验证，具体包括：将测试集输入信用评分模型，输出对应的信用预测结果；基于评分配置信息和测试集对应的信用预测结果得到测试集对应的信用评分及信用风险评估结果；对得到的信用评分及信用风险评估结果进行验证，并判断验证是否合格；若是，则信用评分模型开发完成，若否，则重新选择测试集输入信用评分模型进行验证；验证内容包括模型的区分能力、稳定性、准确性与审慎性，若验证不合格超过预设次数，则更新评分配置信息；对信用评分模型验证的具体指标包括变量价值评价IV、评分区分能力评价KS、准确性能力评价ROC曲线/AUC、变量/评分稳定性评价PSI；

对信用评分模型的准确性进行校准，用于对实际坏样本比例进行还原，具体包括：所述信用评分模型包括模型截距项，根据开发集计算拟合出各分段截距A，其中，各分段截距A=ln(分段好坏比)；根据开发集好坏比odds和实际样本集好坏比odds1得到常数项ln(odd1s/odds)；对各分段截距A进行调整，得到调整后各分段截距B，其中，调整后各分段截距B=A+ln(odd1s/odds)；采用信用评分模型对各分段的真实好坏比进行预测，得到各分段真实好坏比exp(B)；分析预测各分段的实际信用风险，得到各分段实际信用风险概率C，其中，C=1/(1+exp(-B))；

2.一种基于逻辑回归技术的信用风险评估装置，其特征在于，包括：

第一配置模块，用于获取用户数据信息和模型配置信息；所述用户数据信息包括用户的基本信息、用户各方面过往信用历史及表现情况；所述模型配置信息包括初始模型参数信息、机器学习算法参数信息、和/或模型优化目标参数信息；

开发模块，用于从所述用户数据信息中提取信用特征数据构建样本集，根据所述模型配置信息和所述样本集开发信用评分模型；其中，从所述用户数据信息中提取信用特征数据构建样本集，具体包括：从所述用户数据信息中提取信用特征数据，对提取的信用特征数据进行预处理；预处理包括数据异常诊断处理、变量逻辑诊断处理或变量衍生加工，最终形成业务宽表；根据业务宽表构建样本集；所述数据异常诊断包括诊断数据非正常取值或数据空值占比是否超过阈值，数据同质性是否超过阈值，数据填充率是否满足阈值要求；变量逻辑诊断包括诊断变量是否为不适宜入模变量、是否为评分类变量，诊断后处理包括对部分不满足取值要求的变量进行默认值填充或对不满足要求的变量进行清洗剔除；变量衍生加工包括：取平均值、阶段性总和、数值比例；并且，所述信用评分模型的开发过程如下：将整理后的数据业务宽表内的变量作为备选变量，对备选变量进行分箱，对分箱后的备选变量进行WOE特征转换，筛选出可区分用户信用等级且具备稳定性的变量；调整适宜的参数，对筛选后的变量进行逻辑回归，构建信用评分模型；所述样本集包括开发集和测试集，使用所述测试集对开发的信用评分模型进行测试得到测试结果，当开发模型的测试结果符合预定条件时，则开发完成；

第二配置模块，用于获取信用评分配置信息；评分配置信息包括信用预测结果与信用评分的映射关系以及信用评分与评分等级的映射关系；

验证模块用于对构建的信用评分模型进行区分能力、稳定性、准确性与审慎性的验证；所述验证模块将测试集输入信用评分模型，输出对应的信用预测结果；基于评分配置信息和测试集对应的信用预测结果得到测试集对应的信用评分及信用风险评估结果；对得到的信用评分及信用风险评估结果进行验证，并判断验证是否合格；若是，则信用评分模型开发完成，若否，则重新选择测试集输入信用评分模型进行验证；若验证不合格超过预设次数，则更新评分配置信息；对信用评分模型验证的具体指标包括变量价值评价IV、评分区分能力评价KS、准确性能力评价ROC曲线/AUC、变量/评分稳定性评价PSI；

校准模块用于对信用评分模型的准确性进行校准，用于对实际坏样本比例进行还原；所述信用评分模型包括模型截距项，根据开发集计算拟合出各分段截距A，其中，各分段截距A=ln(分段好坏比)；根据开发集好坏比odds和实际样本集好坏比odds1得到常数项ln(odd1s/odds)；对各分段截距A进行调整，得到调整后各分段截距B，其中，调整后各分段截距B=A+ln(odd1s/odds)；采用信用评分模型对各分段的真实好坏比进行预测，得到各分段真实好坏比exp(B)；分析预测各分段的实际信用风险，得到各分段实际信用风险概率C，其中，C=1/(1+exp(-B))；