CN113177839A

CN113177839A - 一种信用风险评估方法、装置、存储介质和设备

Info

Publication number: CN113177839A
Application number: CN202110551354.5A
Authority: CN
Inventors: 金鹤; 程远国; 张力铮; 王瑶; 唐维维; 吴舟昊; 洪婧; 贾晓伟; 刘亚贞
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-07-27

Abstract

本申请公开了一种信用风险评估方法、装置、存储介质和设备，预先从待测客户的信贷行为信息中提取目标指标。目标指标为满足预设条件的特征指标，预设条件为：特征指标与新发生信贷信用行为存在关联关系。将待测客户的目标指标输入至预测模型中，得到预测模型的输出结果。其中，预测模型基于训练集作为输入，以训练集中样本的违约概率作为训练目标，预先训练得到。样本包括预先获取的阳性样本和阴性样本。输出结果包括待测客户的新发生信贷信用风险。可见，利用本申请所述方案，无需人为考虑定量和定性指标，利用预先训练得到的预测模型进行新发生信贷信用风险评估，能够有效提高新发生信贷信用风险评估的准确性。

Description

一种信用风险评估方法、装置、存储介质和设备

技术领域

本申请涉及大数据处理领域，尤其涉及一种信用风险评估方法、装置、存储介质和设备。

背景技术

在金融业务中，企业信贷在上年末无不良、欠息及本金逾期状态，下一年该企业发生信贷不良或发生持续超过一定天数的欠息或本金逾期状态，将其定义为新发生信贷信用风险。如何评估客户的新发生信贷信用风险，成为金融业务项目所关注的重点。

目前，现有的新发生信贷信用风险评估方法，大多数通过企业提供的贷款材料、财务变量等结合业务经验，判断企业是否满足信贷产品办理政策，从而确定客户的新发生信贷信用风险。然而，现有的技术手段，需要人为考虑的定量和定性指标繁多，主观性较强，其信用风险评估的准确性太低。

发明内容

本申请提供了一种信用风险评估方法、装置、存储介质和设备，目的在于提高新发生信贷信用风险评估的准确性。

为了实现上述目的，本申请提供了以下技术方案：

一种信用风险评估方法，包括：

预先从待测客户的信贷行为信息中提取目标指标；所述目标指标为满足预设条件的特征指标；所述预设条件为：所述特征指标与新发生信贷信用行为存在关联关系；

将所述待测客户的目标指标输入至预测模型中，得到所述预测模型的输出结果；其中，所述预测模型基于训练集作为输入，以所述训练集中样本的违约概率作为训练目标，预先训练得到；所述样本包括预先获取的阳性样本和阴性样本；所述输出结果包括所述待测客户的新发生信贷信用风险。

可选的，所述阳性样本和阴性样本的获取过程，包括：

预先从样本客户的信贷行为信息中提取特征指标；其中，所述特征指标包括信贷资产分类、信贷逾期、以及欠息状态；

在检测到预设观察期内，所述信贷资产分类的级别由较高级别变迁至较低级别的情况下，将所述样本客户的特征指标，标识为阳性样本；

在检测到所述预设观察期内，所述信贷资产分类的级别未发生变迁的情况下，通过概率转移矩阵，计算所述样本客户在失信状态与守信状态之间的转移概率；其中，若所述样本客户具备失信行为，则确定所述样本客户处于所述失信状态，否则确定所述样本客户处于所述守信状态，失信状态可以是样本客户信贷业务发生并保持逾期或欠息状态；

在所述转移概率大于第一预设阈值的情况下，将所述样本客户的特征指标，标识为所述阳性样本；

在检测到所述预设观察期内，所述信贷资产分类的级别维持在所述较高级别的情况下，将所述样本客户的特征指标，标识为阴性样本。

可选的，所述基于训练集作为输入，以训练集中样本的违约概率作为训练目标，预先训练得到所述预测模型的过程，包括：

集合获取得到的所述阳性样本和所述阴性样本，构建样本集；

对所述样本集进行阴性样本抽样，并将抽样后的所述样本集拆分为训练集和验证集；

将所述训练集作为输入，以所述训练集中样本的违约概率作为训练目标，利用预设的逻辑回归算法训练预测模型；

利用所述验证集对训练得到的所述预测模型进行验证。

可选的，所述特征指标的类型包括连续型自变量和离散型自变量；

所述将所述训练集作为输入，以所述训练集中样本的违约概率作为训练目标，利用预设的逻辑回归算法训练预测模型之前，还包括：

将所述训练集中缺失率大于第二预设阈值的特征指标进行剔除；

对缺失率不大于所述第二预设阈值、且所述类型为连续型自变量的特征指标进行缺失值补缺；

为缺失率不大于所述第二预设阈值、且所述类型为离散型自变量的特征指标的缺失值设置单独的分箱；

对所述类型为连续型自变量的特征指标进行聚类，得到互不相同的多个分类变量；其中，每个所述分类变量均设置单独的分箱。

可选的，还包括：

计算各个所述分类变量的KS值和IV值；

对所述KS值小于第三预设阈值、且所述IV值小于第四预设阈值的分类变量进行删除。

可选的，还包括：

将所述训练集中所保留的所述分类变量、以及所述类型为离散型自变量的特征指标，作为目标指标；

对目标指标进行WOE编码，得到所述目标指标的WOE值；其中，WOE值用于表征所述训练集中样本的违约概率。

可选的，所述利用所述验证集对训练得到的所述预测模型进行验证，包括：

分别计算所述训练集和所述验证集各自的KS值和AUC值，进行模型区分能力验证；

利用所述训练集和所述验证集的评分值对比，计算PSI值，验证跨期稳定性；

利用所述训练集和所述验证集的打分结果，计算违约率/深度、召回率/深度变量，验证排序能力。

一种信用风险评估装置，包括：

提取单元，用于预先从待测客户的信贷行为信息中提取目标指标；所述目标指标为满足预设条件的特征指标；所述预设条件为：所述特征指标与新发生信贷信用行为存在关联关系；

预测单元，用于将所述待测客户的目标指标输入至预测模型中，得到所述预测模型的输出结果；其中，所述预测模型基于训练集作为输入，以所述训练集中样本的违约概率作为训练目标，预先训练得到；所述样本包括预先获取的阳性样本和阴性样本；所述输出结果包括所述待测客户的新发生信贷信用风险。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的信用风险评估方法。

一种信用风险评估设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的信用风险评估方法。

本申请提供的技术方案，预先从待测客户的信贷行为信息中提取目标指标。目标指标为满足预设条件的特征指标，预设条件为：特征指标与新发生信贷信用行为存在关联关系。将待测客户的目标指标输入至预测模型中，得到预测模型的输出结果。其中，预测模型基于训练集作为输入，以训练集中样本的违约概率作为训练目标，预先训练得到。样本包括预先获取的阳性样本和阴性样本。输出结果包括待测客户的新发生信贷信用风险。可见，利用本申请所述方案，无需人为考虑定量和定性指标，利用预先训练得到的预测模型进行新发生信贷信用风险评估，能够有效提高新发生信贷信用风险评估的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种信用风险评估方法的示意图；

图1b为本申请实施例提供的另一种信用风险评估方法的示意图；

图2为本申请实施例提供的又一种信用风险评估方法的示意图；

图3为本申请实施例提供的一种信用风险评估装置的架构示意图；

图4为本申请实施例提供的一种信用风险评估设备的架构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1a所示，为本申请实施例提供的一种信用风险评估方法的示意图，包括如下步骤：

S101：预先从样本客户的信贷行为信息中提取特征指标。

其中，样本客户包括但不限于预设标准(例如四部委企业规模等级)规定的中型企业，特征指标包括但不限于为：信贷资产分类、信贷逾期、以及欠息状态、样本客户的基本特征、行业、地区、担保情况、存贷业务办理情况、关联人情况、以及财务报表变动情况等。

S102：在检测到预设观察期内，信贷资产分类的级别由较高级别变迁至较低级别的情况下，将样本客户的特征指标，标识为阳性样本。

可选的，在检测到所述预设观察期内，信贷资产分类的级别未发生变迁的情况下，通过概率转移矩阵，计算样本客户在失信状态与守信状态之间的转移概率；其中，若样本客户具备失信行为(例如逾期未能还款导致发生欠息行为、以及欠息行为的持续时间超过预设时长)，则确定样本客户处于失信状态，否则确定样本客户处于守信状态。失信状态可以是样本客户信贷业务发生并保持逾期或欠息状态。

具体的，上期为守信状态的样本客户，下期转移到守信状态的样本客户占比为99.76％，转移到第一失信状态(例如逾期欠息1至10天)的样本客户占比为0.23％；上期为第一失信状态的样本客户，下期转移到守信状态的样本客户占比为30.51％，仍然为第一失信状态的样本客户占比为5.08％，转移到第二失信状态(例如逾期欠息10至20天)的样本客户占比为64.41％。第二失信状态变为第三失信状态(例如逾期欠息20至30天)，第三失信状态变为第四失信状态(例如逾期欠息30至40天)，以及之后的多期转移概率均大于90％，通过概率转移矩阵计算得到，当样本客户处于为第二失信状态时，样本客户变为阴性样本的概率趋于稳定。

在所述转移概率大于第一预设阈值的情况下，将所述样本客户的特征指标，标识为阳性样本；

需要说明的是，上述具体实现过程仅仅用于举例说明。

其中，预设观察期为本领域技术人员所熟悉的公知常识，具体的，可以设为自然年末，并预留超过1年表现期，例如，当前为2020年，则设置观察期为2018年末。信贷资产分类的级别，通常可以视为样本客户的征信级别，若信贷资产分类的级别越高，则样本客户的征信级别越高，若信贷资产分类的级别越低，则样本客户的征信级别越低。

需要说明的是，鉴于中型企业信贷期间分布较为分散，阳性样本的选择均为观察期内新发生，而非采用时点状态，有利于识别新发生阳性样本的特征。

S103：在检测到预设观察期内，信贷资产分类的级别维持在较高级别的情况下，将样本客户的特征指标，标识为阴性样本。

其中，在检测到预设观察期内，信贷资产分类的级别维持在较高级别的情况下，同时剔除概率转移矩阵确定的阳性样本，标识为阴性样本。

S104：集合获取得到的阳性样本和阴性样本，构建样本集。

S105：对样本集进行阴性样本抽样，并将抽样后的样本集拆分为训练集和验证集。

其中，对样本集进行阴性样本抽样，其目的是为了提高样本集的阳性样本浓度。

S106：将训练集中缺失率大于第二预设阈值的特征指标进行剔除，并对缺失率不大于第二预设阈值的特征指标进行缺失值补缺。

其中，缺失值补缺的具体实现方式，为本领域技术人员所熟悉的公知常识，例如，利用中位数进行补缺。

需要说明的是，特征指标的类型包括连续型自变量和离散型自变量。具体的，可以利用中位数对缺失率不大于第二预设阈值、且类型为连续型自变量的特征指标进行缺失值补缺，并为缺失率不大于第二预设阈值、且类型为离散型自变量的特征指标的缺失值设置单独的分箱。

S107：对训练集中类型为连续型自变量的特征指标进行聚类，得到互不相同的多个分类变量。

其中，每个分类变量均设置单独的分箱。

S108：计算各个分类变量的KS值和IV值。

其中，所谓的KS值和IV值、以及KS值和IV值各自的计算方法，均为本领域技术人员所熟悉的公知常识，这里不再赘述。

S109：对KS值小于第三预设阈值、且IV值小于第四预设阈值的分类变量进行删除。

S110：对目标指标进行WOE编码，得到目标指标的WOE值。

其中，目标指标包括训练集中所保留的分类变量、以及类型为离散型自变量的特征指标。此外，WOE值包括目标指标所属分箱中阳性样本占训练集所有样本的比例、以及阴性样本占训练集所有样本的比例。在本申请实施例中，WOE值用于表征训练集中样本的违约概率，违约概率大于第五预设阈值的样本，即标识该样本所指示的特征指标与新发生信贷信用行为存在关联关系。

需要说明的是，WOE编码的具体实现方式和实现原理，为本领域技术人员所熟悉的公知常识，这里不再赘述。

S111：将训练集作为输入，以训练集中样本的违约概率作为训练目标，利用预设的逻辑回归算法训练预测模型。

其中，通过逻辑回归算法筛选自变量，逻辑回归算法是业界普遍采用的零售业务风险计量方法，实践证明此方法具有广泛的适用性和合理性。逻辑回归算法在处理两分类因变量的数据方面有其独特的优势，且关于数据分布的假定较弱，同时算法稳定性好，相对准确度高，便于解释和开发。

在本申请实施例中，逻辑回归算法的基本假设是阳性样本(好客户)和阴性样本(坏客户)比的对数是其属性的线性回归：

公式(1)中所示的参数均为本领域技术人员所熟悉的公知常识，这里不再赘述。

具体的，可以利用Backward法对预测模型进行向后回归。

S112：利用验证集对训练得到的预测模型进行验证。

具体的，利用验证集对训练得到预测模型进行验证，包括但不限于为：

1、分别计算训练集和验证集各自的KS值和AUC值，进行模型区分能力验证；

2、利用训练集和验证集的评分值对比，(比如训练集是2019年末评分，验证集选用2020年末评分，两期评分各分段比例是否稳定)计算PSI值，验证跨期稳定性；

3、利用训练集和验证集的打分结果，计算违约率/深度、召回率/深度变量，验证排序能力。

需要说明的是，上述具体实现过程仅仅用于举例说明。此外，KS值、AUC值、PSI值、违约率/深度、以及召回率/深度变量，均为本领域技术人员所熟悉的公知常识，这里不再赘述。

具体的，上述S101～S112所示的流程，可参见图1b所示。

S113：预先从待测客户的信贷行为信息中提取目标指标。

S114：将待测客户的目标指标输入至预测模型中，得到预测模型的输出结果。

其中，输出结果包括待测客户的违约概率(即新发生信贷信用风险)。

综上所述，基于本实施例所示方案，能够解决中型企业阳性样本较少的问题，使得可以为中型企业建立独立的预测模型，有利于中型企业违约特征识别和预测。此外，阳性样本的选择均为表现期内新发生，区别于传统的阳性样本定义，提高了模型对于新发生信贷违约客户的预测能力。可见，利用本实施例所述方案，无需人为考虑定量和定性指标，利用预先训练得到的预测模型进行新发生信贷信用风险评估，能够有效提高新发生信贷信用风险评估的准确性。

需要说明的是，上述实施例提及的S101，为本申请所述信用风险评估方法的一种可选的具体实现方式。此外，上述实施例提及的S102，也为本申请所述信用风险评估方法的一种可选的具体实现方式。为此，上述实施例提及的流程，可以概括为图2所示的方法。

如图2所示，为本申请实施例提供的另一种信用风险评估方法的示意图，包括如下步骤：

S201：预先从待测客户的信贷行为信息中提取目标指标。

其中，目标指标为满足预设条件的特征指标；预设条件为：特征指标与新发生信贷信用行为存在关联关系。

S202：将待测客户的目标指标输入至预测模型中，得到预测模型的输出结果。

其中，预测模型基于训练集作为输入，以训练集中样本的违约概率作为训练目标，预先训练得到。样本包括预先获取的阳性样本和阴性样本。输出结果包括待测客户的新发生信贷信用风险。

与上述本申请实施例提供的信用风险评估方法相对应，本申请实施例还提供了一种信用风险评估装置。

如图3所示，为本申请实施例提供的一种信用风险评估装置的架构示意图，包括：

提取单元100，用于预先从待测客户的信贷行为信息中提取目标指标；目标指标为满足预设条件的特征指标；预设条件为：特征指标与新发生信贷信用行为存在关联关系。

预测单元200，用于将待测客户的目标指标输入至预测模型中，得到预测模型的输出结果；其中，预测模型基于训练集作为输入，以违约概率作为训练目标，预先训练得到；训练集包括预先获取的阳性样本和阴性样本；输出结果包括待测客户的新发生信贷信用风险。

其中，预测单元200用于获取阳性样本和阴性样本的过程，包括：预先从样本客户的信贷行为信息中提取特征指标；其中，特征指标包括信贷资产分类、信贷逾期、以及欠息状态；在检测到预设观察期内，信贷资产分类的级别由较高级别变迁至较低级别的情况下，将样本客户的特征指标，标识为阳性样本；在检测到预设观察期内，信贷资产分类的级别未发生变迁的情况下，通过概率转移矩阵，计算所述样本客户在失信状态与守信状态之间的转移概率；其中，若所述样本客户具备失信行为，则确定所述样本客户处于所述失信状态，否则确定所述样本客户处于所述守信状态，失信状态可以是样本客户信贷业务发生并保持逾期或欠息状态；在所述转移概率大于第一预设阈值的情况下，将所述样本客户的特征指标，标识为阳性样本；在检测到所述预设观察期内，所述信贷资产分类的级别维持在所述较高级别的情况下，将所述样本客户的特征指标，标识为所述阴性样本。

预测单元200用于基于训练集作为输入，以训练集中样本的违约概率作为训练目标，预先训练得到预测模型的过程，包括：集合获取得到的阳性样本和阴性样本，构建样本集；对样本集进行阴性样本抽样，并将抽样后的样本集拆分为训练集和验证集；将训练集作为输入，以训练集中样本的违约概率作为训练目标，利用预设的逻辑回归算法训练预测模型；利用验证集对训练得到的预测模型进行验证。

特征指标的类型包括连续型自变量和离散型自变量，预测单元200还用于：将训练集中缺失率大于第二预设阈值的特征指标进行剔除；对缺失率不大于第二预设阈值、且类型为连续型自变量的特征指标进行缺失值补缺；为缺失率不大于第二预设阈值、且类型为离散型自变量的特征指标的缺失值设置单独的分箱；对类型为连续型自变量的特征指标进行聚类，得到互不相同的多个分类变量；其中，每个分类变量均设置单独的分箱。

预测单元200还用于：计算各个分类变量的KS值和IV值；对KS值小于第三预设阈值、且IV值小于第四预设阈值的分类变量进行删除。

预测单元200还用于：将训练集中所保留的分类变量、以及类型为离散型自变量的特征指标，作为目标指标；对目标指标进行WOE编码，得到目标指标的WOE值；其中，WOE值用于表征训练集中样本的违约概率。

预测单元200用于利用验证集对训练得到的预测模型进行验证的过程，包括：分别计算训练集和验证集各自的KS值和AUC值，进行模型区分能力验证；利用训练集和验证集的评分值对比，计算PSI值，验证跨期稳定性；利用训练集和验证集的打分结果，计算违约率/深度、召回率/深度变量，验证排序能力。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的信用风险评估方法。

本申请还提供了一种信用风险评估设备，如图4所示，包括：处理器401、存储器402和总线403。处理器401与存储器402通过总线403连接，存储器402用于存储程序，处理器401用于运行程序，其中，程序运行时执行上述本申请提供的信用风险评估方法，包括如下步骤：

可选的，所述阳性样本和阴性样本的获取过程，包括：

预先从样本客户的信贷行为信息中提取特征指标；其中，特征指标包括信贷资产分类、信贷逾期、以及欠息状态；

在检测到预设观察期内，信贷资产分类的级别由较高级别变迁至较低级别的情况下，将样本客户的特征指标，标识为阳性样本；

在检测到预设观察期内，信贷资产分类的级别未发生变迁的情况下，通过概率转移矩阵，计算所述样本客户在失信状态与守信状态之间的转移概率；其中，若所述样本客户具备失信行为，则确定所述样本客户处于所述失信状态，否则确定所述样本客户处于所述守信状态，失信状态可以是样本客户信贷业务发生并保持逾期或欠息状态；

在检测到所述预设观察期内，所述信贷资产分类的级别维持在所述较高级别的情况下，将所述样本客户的特征指标，标识为所述阴性样本。

将所述训练集作为输入，以训练集中样本的违约概率作为训练目标，利用预设的逻辑回归算法训练预测模型；

利用所述验证集对训练得到的所述预测模型进行验证。

所述将所述训练集作为输入，以训练集中样本的违约概率作为训练目标，利用预设的逻辑回归算法训练预测模型之前，还包括：

可选的，还包括：

计算各个所述分类变量的KS值和IV值；

对所述KS值小于预设第三阈值、且所述IV值小于预设第四阈值的分类变量进行删除。

可选的，还包括：

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种信用风险评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述阳性样本和阴性样本的获取过程，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于训练集作为输入，以训练集中样本的违约概率作为训练目标，预先训练得到所述预测模型的过程，包括：

利用所述验证集对训练得到的所述预测模型进行验证。

4.根据权利要求3所述的方法，其特征在于，所述特征指标的类型包括连续型自变量和离散型自变量；

5.根据权利要求4所述的方法，其特征在于，还包括：

计算各个所述分类变量的KS值和IV值；

6.根据权利要求4所述的方法，其特征在于，还包括：

7.根据权利要求3所述的方法，其特征在于，所述利用所述验证集对训练得到的所述预测模型进行验证，包括：

8.一种信用风险评估装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1-7任一所述的信用风险评估方法。

10.一种信用风险评估设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-7任一所述的信用风险评估方法。