CN116993513A

CN116993513A - 金融风控模型解释方法、装置及计算机设备

Info

Publication number: CN116993513A
Application number: CN202311236791.3A
Authority: CN
Inventors: 董日达; 那崇宁
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2023-11-03

Abstract

本申请涉及一种金融风控模型解释方法、装置及计算机设备。所述方法包括：获取金融风控风险样本，金融风控风险样本包括疑似存在金融风险的数据信息；将金融风控风险样本输入至可解释模型中，经可解释模型确定金融风险特征项，并提取可解释模型中与金融风险特征项对应的特征值，其中，可解释模型基于可解释训练集训练得到，可解释训练集包括训练风险样本以及待解释风险预测结果，待解释风险预测结果由将训练风险样本输入待解释金融风控模型后输出得到，待解释风险预测结果包括金融风控风险样本存在金融风险的概率；基于特征值确定待解释金融风控模型的解释信息。通过对待解释金融风控模型进行解释，进而提高金融风控模型在金融决策环节中的可信度。

Description

金融风控模型解释方法、装置及计算机设备

技术领域

本申请涉及金融风控模型技术领域，特别是涉及一种金融风控模型解释方法、装置及计算机设备。

背景技术

近年来，机器学习算法模型包括深度学习已经广泛应用在金融风控领域中，成为大数据与人工智能时代的“基础能力”。

在传统技术中，金融风控模型通常使用评分卡、逻辑回归等白盒模型。虽然白盒模型自身可解释性较强，但是随着金融业务的发展和数据量的爆发式增长，白盒模型的预测精度逐渐难以满足需求。因而金融机构逐渐将原有的白盒模型替换为复杂的黑盒模型(如XGBoost、DNN等)。但随着金融风控模型精度的提高，模型的复杂度也随之提高，模型的可解释性——即其透明度，却越来越低。

然而，在金融风控领域中，机器学习的试错成本较高，决策的错误可能会引发严重的信用风险，造成较为严重的经济损失。因此，在客户评级、信用风险预测、反欺诈、反洗钱等金融风控典型场景中，提高人工智能模型的可解释性，进而提高人工智能模型的可信度在决策环节中显得尤为重要。

基于此，为增强金融风控模型的可解释性进而提高其可信度，相关技术中亟需一种金融风控模型解释方法。

发明内容

针对上述技术问题，本申请提供一种能够提高金融风控模型可信度的金融风控模型解释方法、装置及计算机设备。

第一方面，本申请提供了一种金融风控模型解释方法。所述方法包括：

获取金融风控风险样本，所述金融风控风险样本包括疑似存在金融风险的数据信息；

将所述金融风控风险样本输入至可解释模型中，经所述可解释模型确定金融风险特征项，并提取所述可解释模型中与所述金融风险特征项对应的特征值，其中，所述可解释模型基于可解释训练集训练得到，所述可解释训练集包括训练风险样本以及待解释风险预测结果，所述待解释风险预测结果由将所述训练风险样本输入待解释金融风控模型后输出得到，所述待解释风险预测结果包括所述金融风控风险样本存在金融风险的概率；

基于所述特征值确定所述待解释金融风控模型的解释信息。

在其中一个实施例中，所述训练风险样本包括历史风险样本和历史近似样本，在所述将所述训练风险样本输入所述待解释金融风控模型之前，还包括：

确定所述训练风险样本的候选样本数量和候选样本向量维度；

若所述候选样本数量大于预设样本数量阈值或所述候选样本向量维度大于预设维度阈值，则基于近似最近邻算法获取所述历史风险样本的历史近似样本；

若所述候选样本数量不大于预设样本数量阈值且所述候选样本向量维度不大于预设维度阈值，则基于K近邻算法获取所述历史风险样本的历史近似样本。

在其中一个实施例中，在所述将所述训练风险样本输入所述待解释金融风控模型之前，还包括：

确定所述训练风险样本中的风险特征信息；

对所述风险特征信息中的离散特征信息进行独热编码，和/或，对所述风险特征信息中的连续特征信息进行归一化处理。

在其中一个实施例中，所述风险预测结果至少包括第一类预测结果以及第二类预测结果，所述方法还包括：

确定与所述第一类预测结果对应的第一类训练风险样本数量，以及确定与所述第二类预测结果对应的第二类训练风险样本数量；

若所述第一类训练风险样本数量与所述第二类训练风险样本数量差值的绝对值大于预设样本差值，则调整所述第一类训练风险样本的数量，和/或，调整所述第二类训练风险样本的数量，直至所述绝对值不大于所述预设样本差值。

在其中一个实施例中，所述调整所述第一类训练风险样本数量，和/或，调整所述第二类训练风险样本数量，直至所述绝对值不大于所述预设样本差值包括：

确定所述第一类训练风险样本数量和所述第二类训练风险样本数量中的较少者为少数类样本；

选取所述少数类样本中的任一个样本作为待扩展样本，并在与所述待扩展样本的距离小于预设距离的样本中选取预设数量的样本作为备选样本，其中，所述距离包括样本之间n维特征空间的欧氏距离；

基于所述备选样本中的任一随机样本、所述待扩展样本以及随机系数生成新样本，将所述新样本加入所述少数类样本并将所述少数类样本的样本数量增加1；

重复生成所述新样本直至所述绝对值不大于所述预设样本差值。

在其中一个实施例中，所述可解释模型的训练过程包括：

确定所述训练风险样本中的解释特征；

基于所述解释特征构建可解释的交叉特征，所述交叉特征包括任意两个所述解释特征交叉的二阶特征；

基于所述解释特征、所述交叉特征以及所述风险预测结果训练所述可解释模型。

在其中一个实施例中，所述可解释模型包括含有特征交叉项的广义加性模型。

在其中一个实施例中，所述金融风控风险样本包括风险特征，所述基于所述特征值确定所述待解释金融风控模型的解释信息包括：

若所述特征值为正值，则确定所述金融风险特征项对应的风险特征与所述待解释风险预测结果正相关；

若所述特征值为负值，则确定所述金融风险特征项对应的风险特征与所述待解释风险预测结果负相关；

所述待解释风险预测结果由所述待解释金融风控模型预测得到，所述待解释风险预测结果包括0至1的概率值。

在其中一个实施例中，所述金融风控风险样本包括风险特征，所述基于所述特征值确定所述待解释金融风控模型的解释信息还包括：

若所述特征值的绝对值越大，则确定与其他风险特征相比，所述金融风险特征项对应的风险特征对于所述待解释风险预测结果影响越大，所述待解释风险预测结果由所述待解释金融风控模型预测得到。

第二方面，本申请还提供了一种金融风控模型解释装置。所述装置包括：

数据获取模块，用于获取金融风控风险样本，所述金融风控风险样本包括疑似存在金融风险的数据信息；

特征值提取模块，用于将所述金融风控风险样本输入至可解释模型中，经所述可解释模型确定金融风险特征项，并提取所述可解释模型中与所述金融风险特征项对应的特征值，其中，所述可解释模型基于可解释训练集训练得到，所述可解释训练集包括训练风险样本以及待解释风险预测结果，所述待解释风险预测结果由将所述训练风险样本输入待解释金融风控模型后输出得到，所述待解释风险预测结果包括所述金融风控风险样本存在金融风险的概率；

解释信息确定模块，用于基于所述特征值确定所述待解释金融风控模型的解释信息。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一金融风控模型解释方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一金融风控模型解释方法的步骤。

本申请上述金融风控模型解释方法、装置及计算机设备，通过获取金融风控风险样本，所述金融风控风险样本包括金融风险疑似数据；将所述金融风控风险样本输入至可解释模型中，经所述可解释模型确定金融风险特征项，并提取所述可解释模型中与所述金融风险特征项对应的特征值，其中，所述可解释模型基于可解释训练集训练得到，所述可解释训练集包括训练风险样本以及待解释风险预测结果，所述待解释风险预测结果由将所述训练风险样本输入待解释金融风控模型后输出得到，所述待解释风险预测结果包括所述金融风控风险样本存在金融风险的概率；基于所述特征值确定所述待解释金融风控模型的解释信息。一方面，将包括训练风险样本以及待解释风险预测结果的可解释训练集用于训练可解释模型，能够有效提高可解释模型与待解释金融风控模型的近似程度。另一方面，在可解释模型逼近待解释金融风控模型的基础上，通过提取可解释模型中与金融风险特征项对应的特征值，并基于特征值确定待解释金融风控模型的解释信息，不仅能够对待解释金融风控模型进行解释，还可以有效提高解释信息的准确性和合理性，进而提高金融风控模型在金融决策环节中的可信度，能够减少或避免因信用风险造成的损失。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为一个实施例中金融风控模型解释方法的应用环境图；

图2为一个实施例中金融风控模型解释方法的流程示意图；

图3为一个实施例中平衡训练风险样本数量步骤的流程示意图；

图4为一个实施例中金融风控模型解释装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块（单元）的过程、方法和系统、产品或设备并未限定于列出的步骤或模块（单元），而可包括未列出的步骤或模块（单元），或者可包括这些过程、方法、产品或设备固有的其他步骤或模块（单元）。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

以下所使用的术语“模块”、“单元”等为可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以硬件来实现，但是软件，或者软件和硬件的组合的实现也是可能并被构想的。

本申请实施例提供的金融风控模型解释方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102获取金融风控风险样本后，可以将金融风控风险样本发送至服务器104。服务器104将所述金融风控风险样本输入至可解释模型中，经可解释模型确定金融风险特征项，并提取可解释模型中与金融风险特征项对应的特征值，并基于特征值确定待解释金融风控模型的解释信息后，将所述解释信息发送至终端102。在其他实施例中，终端102也可以储存并运行可解释模型，将金融风控风险样本输入至可解释模型中，经可解释模型确定金融风险特征项，并提取可解释模型中与金融风险特征项对应的特征值。其中，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种金融风控模型解释方法，以该方法应用于图1中的应用场景为例进行说明，包括以下步骤：

S201：获取金融风控风险样本，所述金融风控风险样本包括疑似存在金融风险的数据信息。

本申请实施例中，金融风控风险样本可以包括疑似存在金融风险的数据信息，例如，可以包括对含有汇款人信息、汇款账户信息、收款人信息等金融信息的短信、邮件、语音信息进行预处理后提取得到的数据样本信息。在其他实施例中，金融风控风险样本也可以包括金融样本，例如含有汇款人信息、汇款账户信息、收款人信息等金融信息的短信、邮件、语音信息等。在一些实施例中，获取金融风控风险样本可以包括，搜集已公开的金融风控风险样本，或经用户同意由用户主动将金融样本上传至云端，再对金融样本进行预处理后得到金融风控风险样本等。在另一些实施例中，获取金融风控风险样本还可以包括，将待预测样本输入待解释金融风控模型后得到所述待预测样本的风险预测概率，若所述风险预测概率大于预设概率阈值，则确定所述待预测样本为金融风控风险样本。本申请对获取风险样本的具体方式不作具体限制。

需要说明的是，本申请所可能涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

S203：将所述金融风控风险样本输入至可解释模型中，经所述可解释模型确定金融风险特征项，并提取所述可解释模型中与所述金融风险特征项对应的特征值，其中，所述可解释模型基于可解释训练集训练得到，所述可解释训练集包括训练风险样本以及待解释风险预测结果，所述待解释风险预测结果由将所述训练风险样本输入待解释金融风控模型后输出得到，所述待解释风险预测结果包括所述金融风控风险样本存在金融风险的概率。

本申请实施例中，待解释金融风控模型用于对输入的金融风险疑似数据进行风险预测，如预测某金融风险疑似数据是否为诈骗信息，或预测某金融样本为诈骗信息的概率。然而，待解释金融风控模型通常为黑盒模型，以模型文件的形式调用且模型内部结构不可见，训练数据也存储在离线服务器中，在线模块无法获取。因此，待解释金融风控模型对金融样本的预测结果可解释性较低，而业务方或用户对于待解释金融风控模型的可信度又有较高的要求，所以实际应用场景中对于待解释金融风控模型的可解释性需求较为迫切。目前，较为常用的两种模型可解释性方法LIME（Local Interpretable Model-agnosticExplanations）和SHAP（SHapley Additive exPlanations）均需要获取待解释金融风控模型的原始训练集数据，对于某些难以获取原始训练集的情况解释能力受限。且LIME生成的扰动样本分布与原始数据分布有较大差异，SHAP计算复杂度较高。因此需要一种能够应用于在线推理环节，且不依赖待解释金融风控模型训练数据先验知识的金融风控模型可解释方法。

本申请实施例中，可解释模型可以用于解释待解释金融风控模型，可解释模型基于可解释训练集训练得到。需要注意的是，本申请实施例中所述可解释训练集并非待解释金融风控模型的原始训练集。本申请实施例中所述可解释训练集包括训练风险样本以及待解释风险预测结果，其中，训练风险样本可以包括实时获取的风险样本，也可以包括历史风险样本。可以理解的，在待解释金融风控模型已训练完成的情况下，将训练风险样本输入待解释金融风控模型，即可得到输出的待解释风险预测结果。因此本申请实施例中可解释模型的训练可以不依赖于待解释金融风控模型的原始训练集，将输入待解释金融风控模型的风险训练样本以及输出的待解释风险预测结果作为可解释训练集即可完成可解释模型的训练过程。基于可解释训练集训练可解释模型能够有效提高可解释模型与待解释金融风控模型的近似程度。当然，在其他实施例中，可解释模型也可以使用待解释金融风控模型的原始训练集进行训练。

本申请实施例中，可解释模型可以包括加性模型。在一些实施例中，可解释模型可以包括如式（1）所示的广义加性模型。

g(E_Y(y|x))=β ₀ +∑fi(x_i) （1）

在另一些实施例中，可解释模型也可以包括如式（2）所示的含有特征交叉项的广义加性模型。

g(E_Y(y|x))=β ₀ +∑fi(x_i)+∑fij(x_i,x_j) （2）

式（1）和式（2）中，函数g为link函数，函数f为shape函数，β ₀是偏置项。shape函数f可以用样条函数或者多层感知机（MLP）建模表示，因此可以表征非线性关系。

将金融风控风险样本输入至可解释模型中，可解释模型可以基于模型中的加项确定金融风险特征项，并进一步提取可解释模型中与金融风险特征项对应的特征值。其中，金融风险特征项与风险样本中的风险特征相对应，特征值可以用于表示金融风控风险样本中的风险特征对于待解释风险预测结果的影响关系。

在一些实施例中，将金融风控风险样本输入至待解释金融风控模型，可以由待解释金融风控模型输出待解释风险预测结果。待解释风险预测结果可以包括金融风控风险样本存在金融风险的概率，所述概率可以为0至1的值。在具体的实施例中，若待解释金融风控模型为违约率模型，则待解释风险预测结果可以包括违约概率，若待解释金融风控模型为欺诈模型，则待解释风险预测结果可以包括欺诈概率，例如待解释风险预测结果为某金融风控风险样本是诈骗信息的概率为87%。

S205：基于所述特征值确定所述待解释金融风控模型的解释信息。

本申请实施例中，可以基于特征值确定待解释金融风控模型的解释信息。对于待解释风险预测结果，若可解释模型中特征值为正，则确定该特征值对应的金融风险特征项正向影响风险预测结果，也即该金融风险特征项对应的金融风控风险样本中的风险特征与待解释风险预测结果正相关。反之，若特征值为负，则相应风险特征与待解释风险预测结果负相关。在其他实施例中，若特征值的绝对值越大，则确定与其他风险特征相比，该金融风险特征项对应的风险特征对于待解释风险预测结果影响越大。

在其他实施例中，由于可解释模型基于可解释训练集训练得到，可解释模型对于风险样本的预测结果与待解释金融风控模型有着较高的相似性，或者能够实现将同一风险样本分别输入可解释模型和待解释金融风控模型后，二者输出的预测结果相同。因此，在一些实施例中，待解释风险预测结果也可以由将金融风控风险样本输入可解释模型后，由可解释模型输出得到。待解释风险预测结果的获取方式可以在实际应用场景中根据不同的需求确定，本申请对此不作具体限制。

在一个具体实施例中，金融风控风险样本包括贷款信息样本，具体可以包括与贷款项目相关的贷款人信息，如贷款人身份信息、贷款人每次还款记录信息、贷款人当前支付能力信息、贷款人征信信息等。将贷款信息样本输入至待解释金融风控模型中，经待解释金融风控模型输出的待解释风险预测结果为，该贷款人违约概率为85%。可将贷款信息样本输入至可解释模型，可解释模型对贷款信息进行分析后可确定金融风险特征项，并提取所述可解释模型中与所述金融风险特征项对应的特征值，再基于所述特征值确定所述待解释金融风控模型的解释信息。例如，可解释模型确定的风险特征项对应的风险特征为贷款人还款逾期次数、贷款人当前支付能力值、贷款人征信违约次数，若上述风险特征项对应的特征值均较高，则说明上述风险特征所引起的违约风险较高，导致待解释风险预测结果为违约概率为85%。可以理解的，基于上述解释信息，可以认为贷款人还款逾期次数较多、贷款人当前支付能力较低、贷款人征信信息存在多次违约记录，因此待解释风险预测结果认为该贷款人存在85%的概率违约。

本申请实施例提供的金融风控模型解释方法，一方面，将包括训练风险样本以及待解释风险预测结果的可解释训练集用于训练可解释模型，能够有效提高可解释模型与待解释金融风控模型的近似程度。另一方面，在可解释模型逼近待解释金融风控模型的基础上，通过提取可解释模型中与金融风险特征项对应的特征值，并基于特征值确定待解释金融风控模型的解释信息，不仅能够对待解释金融风控模型进行解释，还可以有效提高解释信息的准确性和合理性，进而提高金融风控模型在金融决策环节中的可信度，能够减少或避免因信用风险造成的损失。

在一些实施例中，若训练风险样本量不足，则需要进行样本扩充。本申请实施例中，所述训练风险样本包括历史风险样本和历史近似样本，在所述将所述训练风险样本输入所述待解释金融风控模型之前，还包括：

S301：确定所述训练风险样本的候选样本数量和候选样本向量维度。

S303：若所述候选样本数量大于预设样本数量阈值或所述候选样本向量维度大于预设维度阈值，则基于近似最近邻算法获取所述历史风险样本的历史近似样本。

S305：若所述候选样本数量不大于预设样本数量阈值且所述候选样本向量维度不大于预设维度阈值，则基于K近邻算法获取所述历史风险样本的历史近似样本。

本申请实施例中，候选样本数量包括可以用于训练可解释模型所需的训练风险样本总数，候选样本向量维度包括可以用于训练可解释模型所需的训练风险样本的数据向量维度。在一些实施例中，可以在候选样本中基于预设选择条件确定训练风险样本。训练风险样本包括历史风险样本和历史近似样本，历史风险样本可以包括由待解释金融风控模型预测风险概率大于预设概率阈值的金融样本，历史近似样本可以包括在历史风险样本邻域内选取的邻近样本。可以理解的，在本实施例中，预设选择条件可以包括预设概率阈值。当然，预设选择条件还可以包括专家经验或根据实际需求确定，本申请对此不作限制。

对于不同的候选样本数量和候选样本向量维度，本申请实施例可以对应选取不同的方法获取历史近似样本。在一些实施例中，若候选样本数量K大于预设样本数量阈值或所述候选样本向量维度大于预设维度阈值，则基于近似最近邻算法（ANN算法）获取所述历史风险样本的历史近似样本。在另一些实施例中，若候选样本数量K不大于预设样本数量阈值且候选样本向量维度不大于预设维度阈值，则基于K近邻算法（KNN算法）获取历史风险样本的历史近似样本。在一些具体的实施例中，预设样本数量阈值可以为10000，预设维度阈值可以为100。因金融风控数据通常为结构化数据，所以确定近似历史样本的距离度量可以使用余弦距离。若针对图像数据，则距离度量可以使用欧氏距离。

本申请实施例中，近似最近邻算法是一种从数量较多的候选样本中获取历史近似样本的方法，在大规模高维数据的最近邻检索中，近似最近邻算法在提高检索速度的同时保持较高的检索精度。进一步的，若需要缩短近似最近邻算法的检索时间有两类方案，第一种是缩短距离计算的时间，第二种是减少距离计算的次数。具体的，基于减少距离计算次数的近似最近邻算法可以包括annoy算法或者HNSW算法，其中，annoy算法是基于树的方法，HNSW算法是基于近邻图的方法。

本申请实施例中，通过基于历史风险样本和对应算法获取历史近似样本，能够实现以历史风险样本为中心进行采样，保证了可解释模型的训练风险样本分布与待解释金融风控模型训练样本的一致性，进而可以提高可解释模型与待解释金融风控模型的近似程度。另一方面，可以在训练风险样本不足或需要扩充训练风险样本数量的情况下，在有效增加训练风险样本数量的同时保证训练风险样本的有效性和近似性，进一步提高可解释训练模型的训练精度和预测的准确性，也即提高了可解释模型与待解释金融风控模型的相似程度。

进一步的，本申请实施例还可以对训练风险样本进行数据预处理以提高训练效果。在所述将所述训练风险样本输入所述待解释金融风控模型之前，还包括：

S401：确定所述训练风险样本中的风险特征信息。

S403：对所述风险特征信息中的离散特征信息进行独热编码，和/或，对所述风险特征信息中的连续特征信息进行归一化处理。

本申请实施例中，可以剔除训练风险样本中的无效特征，如剔除与金融样本无关的特征，并对训练风险样本中的数据异常值和缺失值进行处理，如剔除或修正异常值以及补正缺失值等。进一步的，可以确定所述训练风险样本中的风险特征信息，如对训练风险样本中的时间特征、地点特征、金融信息特征进行解析等。风险特征信息包括离散值特征信息和/或连续特征信息，可以对风险特征信息中的离散特征信息进行独热编码（one-hot编码），和/或，对所述风险特征信息中的连续特征信息进行归一化处理。通过对训练风险样本进行数据预处理，可以有效提高训练风险样本的有效性，进而提高可解释模型的训练效率和训练效果。

为进一步提高训练风险样本的有效性进而提高可解释模型的训练效果，本申请实施例中，所述风险预测结果至少包括第一类预测结果以及第二类预测结果，所述方法还包括：

S501：确定与所述第一类预测结果对应的第一类训练风险样本数量，以及确定与所述第二类预测结果对应的第二类训练风险样本数量。

S503：若所述第一类训练风险样本数量与所述第二类训练风险样本数量差值的绝对值大于预设样本差值，则调整所述第一类训练风险样本的数量，和/或，调整所述第二类训练风险样本的数量，直至所述绝对值不大于所述预设样本差值。

本申请实施例中，训练风险样本可能不是均匀分布在决策边界两侧，极端情况会导致正负样本极度不平衡，影响后续训练可解释模型的效果，因此需要对训练风险样本进行平衡处理。在一些实施例中，在将训练风险样本输入待解释金融风控模型输出得到风险预测结果后，可以确定风险预测结果至少包括第一类预测结果以及第二类预测结果。例如，可以将大于50%的预测结果确定为第一类预测结果，不大于50%的预测结果确定为第二类预测结果，又例如，第一类预测结果为“有75%的概率为诈骗信息”，第二类预测结果为“有30%的概率为诈骗信息”。进一步的，可以确定与第一类预测结果对应的第一类训练风险样本，并确定第一类训练风险样本的数量。类似的，可以确定与第二类预测结果对应的第二类训练风险样本，并确定第二类训练风险样本的数量。

本申请实施例中，可以确定第一类训练风险样本的数量与第二类训练风险样本的数量的差值，若差值的绝对值大于预设样本差值，则表示训练风险样本中的正负样本不平衡，需要对训练风险样本进行平衡处理。调整第一类训练风险样本的数量，和/或，调整第二类训练风险样本的数量，直至绝对值不大于预设样本差值。在其他实施例中，若第一类训练风险样本的数量较多，则可以对第二类训练风险样本进行过采样补充第二类训练风险样本数量，直至绝对值不大于预设样本差值。类似的，若第二类训练风险样本的数量较多，则可以对第一类训练风险样本进行过采样补充第一类训练风险样本数量，直至绝对值不大于预设样本差值。

在一些实施例中，如图3所示，所述调整所述第一类训练风险样本数量，和/或，调整所述第二类训练风险样本数量，直至所述绝对值不大于所述预设样本差值包括：

S5031：确定所述第一类训练风险样本数量和所述第二类训练风险样本数量中的较少者为少数类样本。

S5033：选取所述少数类样本中的任一个样本作为待扩展样本，并在与所述待扩展样本的距离小于预设距离的样本中选取预设数量的样本作为备选样本，其中，所述距离包括样本之间n维特征空间的欧氏距离。

S5035：基于所述备选样本中的任一随机样本、所述待扩展样本以及随机系数生成新样本，将所述新样本加入所述少数类样本并将所述少数类样本的样本数量增加1。

S5037：重复生成所述新样本直至所述绝对值不大于所述预设样本差值。

本申请实施例中，确定第一类训练风险样本数量和第二类训练风险样本数量中的较少者为少数类样本。可以理解的，若第一类训练风险样本数量大于第二类风险样本数量，则确定第二类训练风险样本为少数类样本；若第一类训练风险样本数量小于第二类风险样本数量，则确定第一类训练风险样本为少数类样本。

选取所述少数类样本中的任一个样本作为待扩展样本Xi，并在与待扩展样本Xi的距离小于预设距离的样本中选取预设数量k的样本作为备选样本，其中，所述距离包括样本之间n维特征空间的欧氏距离。根据式（3）可以基于备选样本中的任一随机样本Xi'、待扩展样本Xi以及随机系数δ生成新样本Xnew。

Xnew=Xi+（Xi'-Xi）×δ （3）

式（3）中，Xnew为新样本，Xi为待扩展样本，Xi'为备选样本中的任一随机样本，随机系数δ为取值范围是[0,1]的随机数。将新样本Xnew加入少数类样本并将少数类样本的样本数量增加1，重复生成新样本Xnew直至第一类训练风险样本数量与第二类训练风险样本数量差值的绝对值不大于预设样本差值，即可完成对少数类样本的过采样，实现训练风险样本的均衡处理，提高训练风险样本的有效性，也进一步提高可解释模型的训练效果。

为进一步提高可解释模型的训练效率和精度，本申请实施例中，所述可解释模型的训练过程包括：

S601：确定所述训练风险样本中的解释特征。

S603：基于所述解释特征构建可解释的交叉特征，所述交叉特征包括任意两个所述解释特征交叉的二阶特征。

S605：基于所述解释特征、所述交叉特征以及所述风险预测结果训练所述可解释模型。

本申请实施例中，确定训练风险样本中的解释特征，还可以剔除非目标特征和经过深加工的匿名特征等解释性较差的特征。基于解释特征构建可解释的交叉特征，其中，交叉特征包括任意两个解释特征交叉的二阶特征。广义加性模型可以对非线性关系进行拟合，基于解释特征、交叉特征以及风险预测结果训练所述可解释模型，一方面特征交叉项的引入能够进一步增强可解释模型的学习能力，使可解释模型可以更好地逼近待解释金融风控模型，提高可解释模型输出预测结果的准确性和合理性；另一方面能够使可解释模型在训练过程中迅速聚焦于训练风险样本中的解释特征并确定金融风险特征项，有效提高模型的训练效率和模型精度。在一些实施例中，训练完成后得到的可解释模型仍然是严格的加性模型，各特征项之间相互独立，因此可以衡量各特征项对应的风险特征对待解释风险预测结果的影响。

下面通过本申请实施例说明基于所述特征值确定所述待解释金融风控模型的解释信息的步骤。在一些实施例中，所述金融风控风险样本包括风险特征，所述基于所述特征值确定所述待解释金融风控模型的解释信息包括：

S701：若所述特征值为正值，则确定所述金融风险特征项对应的风险特征与所述待解释风险预测结果正相关。

S703：若所述特征值为负值，则确定所述金融风险特征项对应的风险特征与所述待解释风险预测结果负相关。

S705：所述待解释风险预测结果由所述待解释金融风控模型预测得到，所述待解释风险预测结果包括0至1的概率值。

本申请实施例中，金融风控风险样本可以包括风险特征，将金融风控风险样本输入至待解释金融风控模型可以预测得到待解释风险预测结果，待解释风险预测结果可以包括0至1的概率值。若特征值为正值，可以理解的，则表示该特征值对应的金融风险特征项、金融风险特征项对应的风险特征使待解释风险预测结果趋近于1，即确定金融风险特征项对应的风险特征与待解释风险预测结果正相关。相对的，若特征值为负值，则表示该特征值对应的金融风险特征项、金融风险特征项对应的风险特征使待解释风险预测结果趋近于0，即确定金融风险特征项对应的风险特征与待解释风险预测结果负相关。

在另一些实施例中，所述金融风控风险样本包括风险特征，所述基于所述特征值确定所述待解释金融风控模型的解释信息还包括：

S801：若所述特征值的绝对值越大，则确定与其他风险特征相比，所述金融风险特征项对应的风险特征对于所述待解释风险预测结果影响越大，所述待解释风险预测结果由所述待解释金融风控模型预测得到。本申请实施例中，若特征值的绝对值越大，则说明相比于其他风险特征，该金融风险特征项对应的风险特征对于待解释风险预测结果影响越大，也即各金融风险特征项的绝对值大小可以用于表示相应风险特征对生成待解释风险预测结果的重要程度。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的金融风控模型解释方法的金融风控模型解释装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个金融风控模型解释装置实施例中的具体限定可以参见上文中对于金融风控模型解释方法的限定，在此不再赘述。

在一个实施例中，如图4所示，提供了一种金融风控模型解释装置900，包括：

数据获取模块901，用于获取金融风控风险样本，所述金融风控风险样本包括金融风险疑似数据。

特征值提取模块902，用于将所述金融风控风险样本输入至可解释模型中，经所述可解释模型确定金融风险特征项，并提取所述可解释模型中与所述金融风险特征项对应的特征值，其中，所述可解释模型基于可解释训练集训练得到，所述可解释训练集包括训练风险样本以及待解释风险预测结果，所述待解释风险预测结果由将所述训练风险样本输入待解释金融风控模型后输出得到，所述待解释风险预测结果包括所述金融风控风险样本存在金融风险的概率。

解释信息确定模块903，用于基于所述特征值确定所述待解释金融风控模型的解释信息。

上述金融风控模型解释装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种金融风控模型解释方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请上述实施例中任一项所述的金融风控模型解释方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请上述实施例中任一项所述的金融风控模型解释方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种金融风控模型解释方法，其特征在于，所述方法包括：

基于所述特征值确定所述待解释金融风控模型的解释信息。

2.根据权利要求1所述的金融风控模型解释方法，其特征在于，所述训练风险样本包括历史风险样本和历史近似样本，在所述将所述训练风险样本输入所述待解释金融风控模型之前，还包括：

3.根据权利要求1所述的金融风控模型解释方法，其特征在于，在所述将所述训练风险样本输入所述待解释金融风控模型之前，还包括：

确定所述训练风险样本中的风险特征信息；

4.根据权利要求1所述的金融风控模型解释方法，其特征在于，所述风险预测结果至少包括第一类预测结果以及第二类预测结果，所述方法还包括：

5.根据权利要求4所述的金融风控模型解释方法，其特征在于，所述调整所述第一类训练风险样本数量，和/或，调整所述第二类训练风险样本数量，直至所述绝对值不大于所述预设样本差值包括：

6.根据权利要求1所述的金融风控模型解释方法，其特征在于，所述可解释模型的训练过程包括：

确定所述训练风险样本中的解释特征；

7.根据权利要求1所述的金融风控模型解释方法，其特征在于，所述可解释模型包括含有特征交叉项的广义加性模型。

8.根据权利要求1所述的金融风控模型解释方法，其特征在于，所述金融风控风险样本包括风险特征，所述基于所述特征值确定所述待解释金融风控模型的解释信息包括：

9.根据权利要求1所述的金融风控模型解释方法，其特征在于，所述金融风控风险样本包括风险特征，所述基于所述特征值确定所述待解释金融风控模型的解释信息还包括：

10.一种金融风控模型解释装置，其特征在于，所述装置包括：

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至权利要求9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至权利要求9中任一项所述的方法的步骤。