CN115936159A

CN115936159A - 基于自动特征挖掘的可解释信贷违约率预测方法、系统

Info

Publication number: CN115936159A
Application number: CN202211016771.0A
Authority: CN
Inventors: 胡明睿; 梁变; 周婷婷; 胡汉一; 刘智
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2023-04-07

Abstract

本发明公开了一种基于自动特征挖掘的可解释信贷违约率预测方法、系统，首先从客户信用资料库中提取每笔贷款的特征数据，并进行预处理；定义自动特征挖掘的操作算子集O和一种自动特征挖掘方法，并通过该操作算子集O得到自动特征集；构建违约率预测模型，并结合全局可解释方法和局部可解释方法，得到通过全局重要性特征排序、基于当前数据库搜索的反事实样本、基于特征扰动和生成模型的虚拟反事实样本，基于此给出可解释信贷违约率预测。本发明方法使得违约预测模型训练和更新无需专家经验干预，缓解专家经验差异大的问题，节省人力，能够满足审计需求，同时针对一线客户经理给出判断依据和相似判例参考。

Description

基于自动特征挖掘的可解释信贷违约率预测方法、系统

技术领域

本发明涉及小样本信贷违约场景的机器学习预测领域，尤其涉及一种基于自动特征挖掘的可解释信贷违约率预测系统。

背景技术

在金融风控领域及中小银行进行数字化转型的过程中，由于人力成本及信贷专家经验分布的不一致性，贷中违约预测逐渐从由客户经理人工判断逐渐走向基于大数据和机器学习方法的半自动化专家辅助系统。

相对CV、NLP等通用场景，信贷违约率预测通常面临着样本极度不平衡的问题，特别对于中小银行，更是面临着小样本和不平衡数据的双重考验。传统银行由于审计等要求，对技术的应用趋于保守，大量落地场景仍停留在基于boosting的集成树模型。同时由于信贷影响个人征信等原因，银行风控系统对于可解释性的要求更高，基于深度学习等的黑盒模型难以在银行场景应用落地，这很大程度上限制了模型的预测能力。因此，在信贷场景中，不仅要考虑模型本身的全局可解释性，也要提供样本级的局部可解释性，以同时满足审计需求和一线客户经理/申请人需求。

信贷违约预测有时候会面临严重概念漂移问题，或者字段更新等场景，每隔一段时间均需要进行模型更新迭代。同时中小银行数据治理能力及专家经验相对大型银行都有限，基于专家经验进行特征挖掘人力成本较高。因此，亟需一个全自动的违约预测解决方案以便进行实时模型更新。

发明内容

本发明的目的在于针对现有业界违约率方案的不足，为解决实际场景中小样本不平衡数据、审计要求及全局和局部可解释性要求、专家经验分布差异大等实际问题，提供一种基于自动特征挖掘的可解释信贷违约率预测系统。

为解决上述技术问题，本发明的技术方案为：本发明实施例的第一方面提供了一种基于自动特征挖掘的可解释信贷违约率预测方法，所述方法具体包括以下步骤：

(1)从客户信用资料库中提取每笔贷款的特征数据，并对每笔贷款逾期打标签，所述标签为正样本或负样本，并对特征数据进行包括缺失值处理、异常值处理、转换在内的数据清洗。

(2)针对步骤(1)数据清洗后的特征数据定义自动特征挖掘的操作算子集O；

(3)设定自动特征扩展的终止条件，根据步骤(1)数据清洗后的特征数据进行初始化得到原始特征集，根据预测粒度及步骤(2)定义的操作算子集对原始特征集中进行组合生成、过滤、聚合计算，得到的自动特征集F_final；

(4)构建违约率预测模型，并使用贝叶斯优化方法进行全自动超参优化，得到训练好的违约率预测模型Clf_auto；

(5)基于步骤(4)训练好的违约率预测模型Clf_auto，使用代理模型的方法SHAP构建全局可解释代理模型，将步骤(3)得到的自动特征集F_final作为训练样本，输入到全局可解释代理模型中，得到所有训练样本的所有特征的贡献度，并基于该贡献度进行加权平均，得到全局重要性特征排序；

(6)将任一笔贷款扩充后的特征数据输入到步骤(4)训练好的违约率预测模型Clf_auto中，得到该笔贷款预测的违约概率；基于步骤(4)训练好的违约率预测模型Clf_auto，利用基于搜索的反事实生成方法，得到基于当前数据库搜索的反事实样本；利用生成模型，基于当前样本对可变特征进行扰动，得到基于特征扰动和生成模型的虚拟反事实样本；通过全局重要性特征排序、基于当前数据库搜索的反事实样本、基于特征扰动和生成模型的虚拟反事实样本给出当前样本的局部可解释信贷违约率预测。

本发明实施例的第二方面提供了一种基于自动特征挖掘的可解释信贷违约率预测系统，用于实现上述的基于自动特征挖掘的可解释信贷违约率预测方法，包括：

预处理模块，用于从客户信用资料库中提取每笔贷款的特征数据，并对每笔贷款逾期打标签，所述标签为正样本或负样本，并对特征数据进行包括缺失值处理、异常值处理、转换在内的数据清洗；

自动特征生成模块，用于针对数据清洗后的特征数据定义自动特征挖掘的操作算子集O；通过设定自动特征扩展的终止条件，根据数据清洗后的特征数据进行初始化得到原始特征集，根据预测粒度及定义的操作算子集和自动特征生成算法对原始特征集中进行组合生成、过滤、聚合，得到的自动特征集F_final；

违约率预测模型，用于对任一笔贷款扩充后的特征数据进行预测，得到任一笔贷款扩充后的特征数据；

可解释模块，通过代理模型的方法SHAP构建全局可解释代理模型，通过全局可解释代理模型得到所有样本对应的所有特征的贡献度，并基于该贡献度进行加权平均，得到全局特征重要性排序；所述可解释模块还利用违约率预测模型通过基于搜索的反事实生成方法，得到基于当前数据库搜索的反事实样本；利用生成模型，基于当前样本对可变特征进行扰动，得到基于特征扰动和生成模型的虚拟反事实样本；通过全局特征重要性排序、基于当前数据库搜索的反事实样本、基于特征扰动和生成模型的虚拟反事实样本给出样本级局部可解释的信贷违约率预测。

本发明实施例的第三方面提供了一种电子设备，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于自动特征挖掘的可解释信贷违约率预测方法。

本发明实施例的第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的基于自动特征挖掘的可解释信贷违约率预测方法。

与现有技术相比，本发明的有益效果为：本发明结合全局可解释方法和局部可解释方法(SHAP和反事实样本生成)，提供了一种基于自动特征挖掘的可解释信贷违约率预测方法，该方法使得违约预测模型训练和更新无需专家经验干预，缓解专家经验差异大的问题，同时相较以往黑盒模型在银行场景里难以落地的问题，结合可解释模块，解决信贷违约模型里可解释性和局部可解释性两重问题，以满足审计需求，同时针对一线客户经理给出判断依据(样本特征重要性)和相似判例参考(现有数据库中的反事实样本)，并为信贷申请人给出改进或预防建议(基于生成模型和特征扰动的反事实样本)。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提出的全自动特征生成的可解释信贷违约预测系统的示意图；

图2是本发明实施例提供的一种电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

如图1所示，本发明提供了一种基于自动特征挖掘的可解释信贷违约率预测方法，具体包括以下步骤：

(1)从客户信用资料库中提取每笔贷款的特征数据，并对每笔贷款逾期打标签，所述标签为正样本(即违约逾期)或负样本，并对特征数据进行缺失值处理、异常值处理、转换等数据清洗。

本发明实施例中，所述客户信用资料库中包括金融机构主体数据，获取的金融机构自有数据的特征字段、客户授权的第三方征信数据字段及客户资金交易往来数据记录字段等。

对该历史每笔贷款逾期打标签的过程具体为：观察各月份、年份每笔贷款逾期的情况，根据贷款主体的历史贷款记录确定观察期和表现期的时间跨度，并结合贷款五级分类对每一笔贷款判定是否违约逾期，若违约逾期，则定义该笔贷款为正样本，若没有违约逾期，则定义该笔贷款为负样本。

(2)定义自动特征挖掘的操作算子集O：

所述步骤(1)数据清洗后得到的特征数据包括数值类、时间类、时序数据、已离散化并哈希编码后的数值类字段和类别类字段。所述操作算子集O包括但不限于针对数值类操作的一元算子、针对数值类操作的二元算子、针对时间类的时序算子、针对已离散化并哈希编码后的数值类字段和类别类字段的特征交叉算子(cross product)和聚合算子。

所述时序算子包括但不限于一阶微分，fft。

本发明实施例中还可根据违约率预测模型粒度，决定是否需要增加聚合算子，所述聚合算子包括差分、最大、最小、平均值等算子。具体地，违约率预测模型粒度可分为贷款粒度、客户主体粒度，如所需违约率预测粒度为客户主体粒度，则可增加上述聚合算子。

(3)设定自动特征扩展的终止条件，根据预测粒度及步骤(2)定义的操作算子集对训练样本进行组合生成、过滤、聚合等计算，得到的自动特征集F_final。

具体包括以下子步骤：

(3.1)根据步骤(1)数据清洗后的特征数据初始化特征集F_i＝{f₁,f₂,…f_n},i＝0为原始特征集；

(3.2)初始化特征生成标记缓存C_f；

(3.3)基于步骤(3.1)得到的特征集F_i训练一个树模型T_i，所述树模型T_i为随机森林或提升树模型(boosting tree)；

(3.4)基于步骤(3.3)构建的树模型T_i过滤候选特征组合集，并生成新特征候选集

在树模型T_i中森林里的每一颗树的每一条路径上的分裂点特征集

中对所有有效特征组合应用步骤(2)定义的操作算子集O，生成新的候选新特征集

每个新特征记录其父节点。

所述有效特征组合为：对森林里的每一颗树的每一条路径上的分裂点特征集

根据不同的算子要求(例如根据特征是否为一元或二元，连续或离散，是否为时序数据等)，从分裂点特征集

中组合得到有效特征组合。

如果新特征已经在特征生成标记缓存C_f中，即新生成特征已经被生成且评估过，则从候选新特征集中剔除。

(3.4)使用步骤(3.3)中生成的新特征候选集

和上一轮父特征集F_i＝{f₁,f₂,…f_n}训练一个简化的预测模型对目标任务(即违约率预测)进行预测。

示例性地，所述简化的预测模型可根据计算资源条件进行设置，包括但不限于逻辑回归、小型树模型等。

(3.5)对步骤(3.4)中训练的简化的预测模型，使用特征贡献度(featureattribution)估计方法估算新特征候选集

中新生成特征的重要性，更新特征集F_i+1＝{f₁,f₂,…f_n}为新特征候选集

中top-k个新特征+原始特征集F_i＝{f₁,f₂,…f_n},i＝0。将新特征候选集

中的特征及他们的重要性得分记入特征生成标记缓存C_f。

示例性地，所述特征贡献估计方法为SHAP value或树分裂点信息收益。

(3.6)检查是否达到终止条件：若未达到终止条件，重复执行步骤(3.3)-(3.5)；最终步骤(3.5)更新的特征集F_i+1＝{f₁,f₂,…f_n}与原始特征集一起组成最终的自动特征集F_final。

本发明实施例中，自定义的终止条件如下：

(a)运行时间>设定最大运行时间；

(b)特征集大小>设定最大特征数量；

(c)新生成特征集在目标任务上的表现劣于上一轮特征集的表现：

使用第i轮新生成特征集F_i+1＝{f₁,f₂,…f_n}在目标任务上进行评估，并保存其结果和评估指标。将评估指标与上一轮使用F_i＝{f₁,f₂,…f_n}的评估结果进行比较，如果新一轮特征集结果没有提高，则终止条件满足。

(4)构建违约率预测模型Clf_auto，并使用贝叶斯优化方法进行全自动超参优化，得到训练好的违约率预测模型，所述违约率预测模型可根据计算资源条件进行设置，包括但不限于逻辑回归、小型树模型等。

(5)基于步骤(4)训练好的违约率预测模型Clf_auto，使用代理模型的方法SHAP(SHapley Additive exPlanation)构建全局可解释代理模型(surrogate model)，将步骤(3)得到的自动特征集F_final作为训练样本，输入到全局可解释代理模型中，得到所有训练样本的所有特征的贡献度，并基于该贡献度进行加权平均，得到全局特征重要性排序。

如果步骤(4)中的违约率预测模型Clf_auto采用了基于树的集合模型，SHAP方法可优化为TreeSHAP方法。

由于SHAP基于博弈论合作理论，具有线性、可加性等性质，从而使全局特征重要性满足审计需求。

(6)将任一笔贷款扩充后的特征数据输入到步骤(4)训练好的违约率预测模型Clf_auto中，得到该笔贷款预测的违约概率。基于步骤(4)训练好的违约率预测模型Clf_auto，利用基于搜索的反事实生成方法，得到基于当前数据库搜索的反事实样本；利用生成模型，基于当前样本对可变特征进行扰动，得到基于特征扰动和生成模型的虚拟反事实样本；通过全局特征重要性排序、基于当前数据库搜索的反事实样本、基于特征扰动和生成模型的虚拟反事实样本给出样本级局部可解释的信贷违约率预测。

本发明实施例中，为满足一线客户经理的需求，采取以下两种方式给出样本判断依据，供信贷专家参考：

(6.1)基于步骤(4)训练好的违约率预测模型Clf_auto使用SHAP给出每个样本的特征贡献度，

(6.2)基于步骤(4)训练好的违约率预测模型Clf_auto使用反事实方法给出相似样本和改进建议。

(6.2.1)使用基于搜索的反事实生成方法，在现有样本库里搜索与当前样本具有相似特征但标签与当前样本相反的top-k样本，该top-k样本为基于当前数据库搜索的反事实样本。

(6.2.2)基于生成模型(例如GAN等)，基于当前样本对可变特征(例如收入等)进行扰动，生成模拟的最相似但标签与当前样本相反的top-k样本，该相似top-k样本为基于特征扰动和生成模型的虚拟反事实样本，作为改进或预防建议提供给信贷申请人及客户经理。

相应的，本发明实施例还提供了一种基于自动特征挖掘的可解释信贷违约率预测系统，用于实现上述的基于自动特征挖掘的可解释信贷违约率预测方法，包括：

自动特征生成模块，用于针对数据清洗后的特征数据定义自动特征挖掘的操作算子集O；通过设定自动特征扩展的终止条件，根据数据清洗后的特征数据进行初始化得到原始特征集，根据预测粒度及定义的操作算子集对原始特征集中的样本进行聚合，得到的自动特征集F_final；

可解释模块，通过代理模型的方法SHAP构建全局可解释代理模型，通过全局可解释代理模型得到所有样本对应的所有特征的贡献度，并基于该贡献度进行加权平均，得到全局重要性特征排序；所述可解释模块还利用违约率预测模型通过基于搜索的反事实生成方法，得到基于当前数据库搜索的反事实样本；利用生成模型，基于当前样本对可变特征进行扰动，得到基于特征扰动和生成模型的虚拟反事实样本；通过全局重要性特征排序、基于当前数据库搜索的反事实样本、基于特征扰动和生成模型的虚拟反事实样本给出样本级局部可解释的信贷违约率预测。

相应的，如图2所示，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于自动特征挖掘的可解释信贷违约率预测方法。如图2所示，为本发明实施例提供的基于自动特征挖掘的可解释信贷违约率预测方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图2所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于自动特征挖掘的可解释信贷违约率预测方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于自动特征挖掘的可解释信贷违约率预测方法，其特征在于，所述方法具体包括以下步骤：

2.根据权利要求1所述的基于自动特征挖掘的可解释信贷违约率预测方法，其特征在于，所述步骤(2)具体为：步骤(1)数据清洗后得到的特征数据包括数值类、时间类、时序数据、已离散化并哈希编码后的数值类字段和类别类字段；操作算子集O包括针对数值类操作的一元算子、针对数值类操作的二元算子、针对时间类的时序算子、针对已离散化并哈希编码后的数值类字段和类别类字段的特征交叉算子和聚合算子。

还根据违约率预测模型粒度，决定是否需要增加聚合算子，所述聚合算子包括差分、最大、最小、平均值等算子。

3.根据权利要求1或2所述的基于自动特征挖掘的可解释信贷违约率预测方法，其特征在于，所述步骤(3)具体包括以下子步骤：

(3.2)初始化特征生成标记缓存C_f

(3.3)基于步骤(3.1)得到的特征集F_i训练一个树模型T_i；

(3.4)基于步骤(3.3)构建的树模型T_i过滤候选特征组合集，并生成新特征候选集在树模型T_i中森林里的每一颗树的每一条路径上的分裂点特征集中，对所有有效特征组合应用步骤(2)定义的操作算子集O，生成新的候选新特征集每个新特征记录其父节点；如果新特征已经在特征生成标记缓存C_f中，即新生成特征已经被生成且评估过，则从候选新特征集中剔除；

(3.4)使用步骤(3.3)中生成的新特征候选集和上一轮父特征集F_i＝{f₁,f₂,…f_n}训练一个简化的预测模型对违约率预测任务进行预测；所述简化的预测模型根据计算资源条件进行设置，包括逻辑回归模型或小型树模型。

(3.5)对步骤(3.4)中训练的简化的预测模型，使用特征贡献度估计方法估算新特征候选集中新生成特征的重要性，更新特征集F_i+1＝{f₁,f₂,…f_n}为新特征候选集中top-k个新特征+原始特征集F_i＝{f₁,f₂,…f_n},i＝0；将新特征候选集中的特征及他们的重要性得分记入特征生成标记缓存C_f；所述特征贡献估计方法为SHAP value或树分裂点信息收益；

4.根据权利要求3所述的基于自动特征挖掘的可解释信贷违约率预测方法，其特征在于，所述步骤(3.3)中的树模型T_i为随机森林或提升树模型。

5.根据权利要求3所述的基于自动特征挖掘的可解释信贷违约率预测方法，其特征在于，所述步骤(3.4)中的有效特征组合为：对森林里的每一颗树的每一条路径上的分裂点特征集根据不同的算子要求从分裂点特征集中组合得到有效特征组合。

6.根据权利要求3所述的基于自动特征挖掘的可解释信贷违约率预测方法，其特征在于，所述步骤(3.5)中的终止条件如下：

(a)运行时间>设定最大运行时间；

(b)特征集大小>设定最大特征数量；

(c)新生成特征集在目标任务上的表现劣于上一轮特征集的表现：具体地，使用第i轮新生成特征集F_i+1＝{f₁,f₂,…f_n}在目标任务上进行评估，并保存其结果和评估指标；将评估指标与上一轮使用F_i＝{f₁,f₂,…f_n}的评估结果进行比较，如果新一轮特征集结果没有提高，则终止条件满足。

7.一种基于自动特征挖掘的可解释信贷违约率预测系统，用于实现权利要求1-6任一项所述的基于自动特征挖掘的可解释信贷违约率预测方法，其特征在于，包括：

8.一种电子设备，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述权利要求1-6任一项所述的基于自动特征挖掘的可解释信贷违约率预测方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的基于自动特征挖掘的可解释信贷违约率预测方法。