CN117764707A

CN117764707A - 具备可解释性的信用评估模型的训练及信用评估方法

Info

Publication number: CN117764707A
Application number: CN202311619923.0A
Authority: CN
Inventors: 张新煜
Original assignee: Bank of China Financial Technology Co Ltd
Current assignee: Bank of China Financial Technology Co Ltd
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-03-26

Abstract

本发明提供一种具备可解释性的信用评估模型的训练及信用评估方法，其中方法包括：获取信贷申请人的历史数据集，并基于所述历史数据集训练得到候选信用评估模型；基于所述候选信用评估模型，采用所述历史数据集，确定伪数据集，并基于所述伪数据集，训练得到M‑of‑N决策树，所述M‑of‑N决策树的训练过程包括保真度预剪枝；将所述M‑of‑N决策树作为所述具备可解释性的信用评估模型。本发明提供的方法，改进Trepan的可解释性信用评估模型首先通过引入基于保真度的预剪枝方法使最终生成的Trepan决策树在保证准确性的情况下拥有更好的可解释性，提高了信用评估模型的可解释性。

Description

具备可解释性的信用评估模型的训练及信用评估方法

技术领域

本发明涉及信用评估技术领域，尤其涉及一种具备可解释性的信用评估模型的训练及信用评估方法。

背景技术

当前以大数据和深度学习为基础的人工智能技术在图像识别、语音识别和自然语言处理等多种应用领域取得了巨大进展。

然而，深度神经网络(Deep Neural Networks，DNN)的不透明性、不可解释和不可理解成为制约其理论发展和实践应用的巨大障碍。基于深度神经网络的智能系统作为“算法黑盒”系统，尽管在实践当中表现良好，但是其学习和预测过程不透明。深度学习的可解释性对于许多领域至关重要，尤其是在军事、医疗、金融投资、交通等高风险决策领域。在这些领域使用者不能默认相信深度学习模型的决策结果，而是根据模型提供的决策信息，进一步的对模型的决策进行最终评估和判断，如拒绝、接受或调整决策结果。因此，缺乏可解释性成了制约深度学习进一步发展的问题之一。

发明内容

本发明提供一种具备可解释性的信用评估模型的训练及信用评估方法，用以解决现有技术中基于深度学习的信用评估模型在决策时缺乏可解释性，导致其难以在实际当中应用的缺陷。

本发明提供一种具备可解释性的信用评估模型的训练方法，包括：

获取信贷申请人的历史数据集，并基于所述历史数据集训练得到候选信用评估模型；

基于所述候选信用评估模型，采用所述历史数据集，确定伪数据集，并基于所述伪数据集，训练得到M-of-N决策树，所述M-of-N决策树的训练过程包括保真度预剪枝；

将所述M-of-N决策树作为所述具备可解释性的信用评估模型。

根据本发明提供的一种具备可解释性的信用评估模型的训练方法，所述保真度预剪枝的步骤包括：

确定初始M-of-N决策树对所述伪数据集中的样本的第一预测标签；

确定所述候选信用评估模型对所述伪数据集中的样本的第二预测标签；

基于所述第一预测标签与所述第二预测标签之间的差异，对所述初始M-of-N决策树进行保真度预剪枝。

根据本发明提供的一种具备可解释性的信用评估模型的训练方法，所述基于所述第一预测标签与所述第二预测标签之间的差异，对所述初始M-of-N决策树进行保真度预剪枝，之后还包括：

确定所述初始M-of-N决策树与所述候选信用评估模型的预测结果一致的第一样本数量；

确定第二样本数量、第三样本数量，所述第二样本数量为所述候选信用评估模型预测正确的好样本数量，所述第三样本数量为所述候选信用评估模型预测正确的坏样本数量；

确定第四样本数量、第五样本数量，所述第四样本数量为所述候选信用评估模型预测错误的好样本数量，所述第五样本数量为所述候选信用评估模型预测错误的坏样本数量；

基于所述第一样本数量、所述第二样本数量、所述第三样本数量、所述第四样本数量，以及所述第五样本数量，确定所述初始M-of-N决策树和所述候选信用评估模型之间的保真度指标。

根据本发明提供的一种具备可解释性的信用评估模型的训练方法，所述基于所述伪数据集，训练得到M-of-N决策树，包括：

确定所述伪数据集的信息增益；

基于所述信息增益选择规则集的种子结点，并将所述规则集对应的特征添加到决策树的指定区域，得到所述M-of-N决策树。

根据本发明提供的一种具备可解释性的信用评估模型的训练方法，所述基于所述历史数据集训练得到候选信用评估模型，包括：

对所述历史数据集进行缺失值处理，得到第一处理数据；

对所述第一处理数据进行离散化处理，得到第二处理数据；

对所述第二处理数据依次进行独热编码和不平衡处理，得到预处理历史数据集；

基于所述预处理历史数据集训练得到所述候选信用评估模型。

本发明还提供一种信用评估方法，包括：

获取待评估数据；

基于具备可解释性的信用评估模型，对所述待评估数据进行信用评估；

所述具备可解释性的信用评估模型是基于上述具备可解释性的信用评估模型的训练方法执行得到的。

本发明还提供一种具备可解释性的信用评估模型的训练装置，包括：

确定候选信用评估模型单元，用于获取信贷申请人的历史数据集，并基于所述历史数据集训练得到候选信用评估模型；

训练决策树单元，用于基于所述候选信用评估模型，采用所述历史数据集，确定伪数据集，并基于所述伪数据集，训练得到M-of-N决策树，所述M-of-N决策树的训练过程包括保真度预剪枝；

确定信用评估模型单元，用于将所述M-of-N决策树作为所述具备可解释性的信用评估模型。

本发明还提供一种信用评估装置，包括：

获取单元，用于获取待评估数据；

决策树信用评估单元，用于基于具备可解释性的信用评估模型，对所述待评估数据进行信用评估；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述具备可解释性的信用评估模型的训练方法或所述信用评估方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述具备可解释性的信用评估模型的训练方法或所述信用评估方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述具备可解释性的信用评估模型的训练方法或所述信用评估方法。

本发明提供的具备可解释性的信用评估模型的训练及信用评估方法，获取信贷申请人的历史数据集，并基于历史数据集训练得到候选信用评估模型，基于候选信用评估模型，采用历史数据集，确定伪数据集，并基于伪数据集，训练得到M-of-N决策树，M-of-N决策树的训练过程包括保真度预剪枝，最后，将M-of-N决策树作为具备可解释性的信用评估模型。此过程为了解决基于深度学习的信用评估模型的可解释性，运用Trepan这类基于决策树的神经网络规则提取技术在信用评估模型决策阶段提供解释性规则，改进Trepan的可解释性信用评估模型首先通过引入基于保真度的预剪枝方法使最终生成的Trepan决策树在保证准确性的情况下拥有更好的可解释性，提高了信用评估模型的可解释性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的具备可解释性的信用评估模型的训练方法的流程示意图之一；

图2是本发明提供的具备可解释性的信用评估模型的训练方法的流程示意图之二；

图3是本发明提供的信用评估方法的流程示意图；

图4是本发明提供的信用评估装置的结构示意图；

图5是本发明提供的具备可解释性的信用评估模型的训练装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”、“第三”等所区分的对象通常为一类。

相关技术中，可解释性：解释是指需要用某种语言来描述和注解，理想情况下，严谨的数学符号-逻辑规则是最好的解释。可解释性指算法要对特定任务给出清晰概括，并于人类世界中已定义的原则或原理联结。深度学习的可解释性目标不是为了让人类了解模型如何工作，因为对一个黑盒模型，让用户完全了解模型如何工作是不必要的。在诸如自动驾驶、医疗和金融决策等高风险领域，利用深度学习进行重大决策时，往往需要知晓算法所给出结果的依据。

信用评估中的可解释是指模型对其决策结果提供解释。将神经网络中的知识提取到树结构中使一个新兴的神经网络可解释性研究方向，这类模型充分运用神经网络模型的决策准确性优势及决策树模型的可解释性优势。这类方法模拟人类教学过程，将神经网络模型和决策树分别视为教师和学生。神经网络模型(教师)被用来指导决策树(学生)的构建与训练，其目标是所生成的决策树能够近似模拟神经网络模型功能，在信用风险评价中做出准确决策，且模型对其决策结果的解释易于理解。

其中最具代表性的是Trepan方法，该方法通过符号学习算法从训练有素的神经网络中提取决策树。具体地，Trepan方法首先运用原始数据集S₁训练神经网络模型，然后根据神经网络模型标记训练集标签生成伪数据集S₂，最后根据伪数据集S₂训练生成M-of-N决策树。Trepan方法中最终生成的M-of-N决策树是由神经网络模型指导训练的，因此生成的M-of-N决策树能够近似模仿神经网络模型的功能，同时M-of-N决策树可以提供紧凑且易于理解的解释性规则。与大多数的决策树算法一样，Trepan通过递归分析来构建一棵树。在每一步中，叶子结点的队列进一步扩展为子树，直到满足停止标准。基于决策树的神经网络规则提取模型与决策树的区别主要有三点：

(1)决策树只在有限的训练集上进行训练，因此决策树算法通常会受到训练集的影响。而Trepan可以在任意多的数据集上进行训练。(2)决策树算法的目的是为了更好的对数据集的分布进行划分，而Trepan算法的主要目的是为了模仿训练好的神经网络。因此，Trepan没有使用原始的数据集，而是先利用原始数据集训练好神经网络，并使用该神经网络重新对数据集进行标注。然后再用重新标记的训练集用于Trepan树的生长过程。(3)Trepan算法还可以通过增加额外的训练实例来丰富训练数据，这些训练实例也是被训练好的神经网络标记过分类的。

原始的Trepan方法首先运用原始数据集训练神经网络模型，然后根据神经网络模型标记训练集标签生成伪数据集，最后根据伪数据集训练生成M-of-N决策树。将Trepan算法应用于信用评估研究并通过实验验证了该方法可以提供可解释性规则，但是并未进一步提升Trepan算法的可解释性。

针对现有技术中基于决策树的信用评估模型对于特征复杂的数据集，生成的决策树较大，导致其可解释性较差的问题，本发明提供一种具备可解释性的信用评估模型的训练方法，图1是本发明提供的具备可解释性的信用评估模型的训练方法的流程示意图之一，图2是本发明提供的具备可解释性的信用评估模型的训练方法的流程示意图之二，如图1、图2所示，该方法包括：

步骤110，获取信贷申请人的历史数据集，并基于所述历史数据集训练得到候选信用评估模型；

步骤120，基于所述候选信用评估模型，采用所述历史数据集，确定伪数据集，并基于所述伪数据集，训练得到M-of-N决策树，所述M-of-N决策树的训练过程包括保真度预剪枝；

步骤130，将所述M-of-N决策树作为所述具备可解释性的信用评估模型。

具体地，本发明实施例中的改进Trepan算法主要包含三个模块Oracle模块、M-of-N决策树模块和剪枝模块。候选信用评估模型(神经网络模型)基于历史数据集S₁训练而来，根据候选信用评估模型生成伪数据集S₂，M-of-N决策树根据伪数据集训练生成，生成过程设置停止标准并且加入基于保真度的剪枝。

可以先获取信贷申请人的历史数据集D(x,y)，历史数据集D(x,y)是由(x_i,y_i)构成的一组信贷申请人历史数据，(x_i,y_i)是这组数据的第i个实例，由贷款申请用户的属性信息以及是否给与贷款的标签构成。

伪数据集就是D(x,y′)构成，y′就是由候选信用评估模型赋予的标签结果。这样，根据伪数据集D(x,y′)生成的决策树模型就可以模拟候选信用评估模型的功能。

除此之外，伪数据集是大于原始数据集的，具体地，通过随机产生每个特征的特征值来生成实例，这个实例可以满足特定的约束。为了生成这些随机特征值，可以使用训练数据来模拟每个特征的边缘分布。该模型使用频率计数来模拟离散特征的分布，使用核密度估计方法(Kernel density estimation)来模拟连续特征的分布。其中，核密度估计是采用平滑的峰值函数来拟合观察到的数据点，从而对真实的概率分布曲线进行模拟，假设数据集D(x,y)中的某一个连续特征x中含有n个样本点，设其概率密度为f，则核密度估计如下式：

其中，K为核函数，h＞0是一个平滑参数，又被称为带宽或窗口。

为了使Trepan模仿神经网络，设置一个Oracle，Oracle通俗的说就是一个预测精度高，可解释性低的机器学习模型，Oracle这里作为信用评估模型。Oracle主要有两个功能，为了使生成树可以学到神经网络的知识，Trepan决策树的训练数据伪数据集由Oracle生成即Trepan是从D(x,y_Oracle)中训练而成，y_Oracle就是Oracle对每条数据的预测结果。另外Oracle可以为每个结点添加额外的训练实例，而且生成额外的训练实例不必是完整的，而是可以指定特定特征的特征值。Oracle有三种功能：1)确定神经网络对训练实例的预测结果；2)决定生成树的内部结点的划分；3)确定一个结点的训练实例是否只属于一个类。

停止生长标准：原始的Trepan方法使用一个局部标准和一个全局标准来决定何时停止生长树。对于局部停止标准，Trepan判断给定的结点是否覆盖单个类的实例。对于全局停止标准，Trepan规定了一个最大的内部结点的数量，并且可以由用户事先指定。原始的Trepan方法虽然规定了停止标准，但未对决策树进行剪枝。决策树的剪枝可以对付过拟合的手段，减少不必要的规则，同时决策树剪枝能够有效提高决策树的可解释性，利于投资者理解决策树的决策过程。

决策树中内部结点的作用是划分输入空间，以增加不同类别实例的划分。比如C4.5算法，决策树内部结点的划分是基于一个数据集属性。不同于C4.5，Trepan算法生成树的每个结点划分是基于M-of-N规则的，M-of-N的灵感来源于ID2-of-3决策树。

Trepan算法是基于M-of-N规则进行训练的，M-of-N规则的形式为m-of-n，其含义为“当n个布尔变量之中有m个满足要求，那么…”。例如，给定三个决策规则C₁，C₂，C₃，那么2-of-{C₁,C₂,C₃}在逻辑上相当于{C₁∧C₂}∨{C₁∧C₃}∨{C₂∧C₃}。

基于此，Trepan决策树的每个结点不像传统决策树一样只包含一个特征，而是多个特征共同来进行判断，这也进一步反映了决策特征的相关性，所以Trepan决策树生成的规则更加紧凑。基于决策树的深度学习可解释性技术可以生成一颗规则树，这颗规则树可以辅助领域专家对决策结果的原因进行理解。但是越大的数据集，越复杂的特征空间将会导致生成的规则树过于庞大导致理解性变差。越小的决策树越好理解，但是准确性必定会变差。因此保证模型准确性的同时提高可解释性就成了不可忽略的问题。

此处，M-of-N决策树的训练过程包括保真度预剪枝。为了进一步提升Trepan算法的可解释性，本发明实施例中根据Trepan算法的特性提出基于保真度的剪枝。新的剪枝方法可以使最终生成的Trepan决策树在保证准确性的情况下拥有更好的可解释性。保真度剪枝，误差降低剪枝方法是最常用的决策树剪枝方法，误差降低剪枝方法的原理是对于每一个非叶子结点，自上而下的尝试将这颗子树替代为叶子结点，然后比较替代前和替代后的决策树在测试集中的表现，若替代后的决策树的误差小于替代前的误差，则执行剪枝。

与传统决策树方法不同的是，Trepan决策树的生成是为了模仿候选信用评估模型，Trepan决策树生成过程中关注的是生成树与候选信用评估模型的一致性。基于这一点，本发明在原始Trepan算法上引入基于保真度的剪枝方法。其原理是自上而下的尝试将这颗子树替代为叶子结点，然后比较替代前和替代后的Trepan决策树在测试集中的表现，若替代后的Trepan决策树与候选信用评估模型预测的误差小于替代前的误差，则执行剪枝。

在得到M-of-N决策树之后，可以将M-of-N决策树作为具备可解释性的信用评估模型。

其中，改进Trepan算法实现代码如下：

本发明实施例提供的方法，获取信贷申请人的历史数据集，并基于历史数据集训练得到候选信用评估模型，基于候选信用评估模型，采用历史数据集，确定伪数据集，并基于伪数据集，训练得到M-of-N决策树，M-of-N决策树的训练过程包括保真度预剪枝，最后，将M-of-N决策树作为具备可解释性的信用评估模型。此过程为了解决基于深度学习的信用评估模型的可解释性，运用Trepan这类基于决策树的神经网络规则提取技术在信用评估模型决策阶段提供解释性规则，改进Trepan的可解释性信用评估模型首先通过引入基于保真度的预剪枝方法使最终生成的Trepan决策树在保证准确性的情况下拥有更好的可解释性，提高了信用评估模型的可解释性。

基于上述实施例，步骤130中所述保真度预剪枝的步骤，包括：

步骤131，确定初始M-of-N决策树对所述伪数据集中的样本的第一预测标签；

步骤132，确定所述候选信用评估模型对所述伪数据集中的样本的第二预测标签；

步骤133，基于所述第一预测标签与所述第二预测标签之间的差异，对所述初始M-of-N决策树进行保真度预剪枝。

具体地，误差降低剪枝方法是最常用的决策树剪枝方法，误差降低剪枝方法的原理是对于每一个非叶子结点，自上而下的尝试将这颗子树替代为叶子结点，然后比较替代前和替代后的决策树在测试集中的表现，若替代后的决策树的误差小于替代前的误差，则执行剪枝。与传统决策树方法不同的是，Trepan决策树的生成是为了模仿候选信用评估模型，Trepan决策树生成过程中关注的是生成树与候选信用评估模型的一致性。基于这一点，本发明实施例在原始Trepan算法上引入基于保真度的剪枝方法。其原理是自上而下的尝试将这颗子树替代为叶子结点，然后比较替代前和替代后的Trepan决策树在测试集中的表现，若替代后的Trepan决策树与候选信用评估模型预测的误差小于替代前的误差，则执行剪枝。

可以确定初始M-of-N决策树对伪数据集中的样本的第一预测标签，第一预测标签可以用y_n表示，可以确定候选信用评估模型对伪数据集中的样本的第二预测标签，第二预测标签可以用y_m表示。

在得到第一预测标签和第二预测标签之后，可以基于第一预测标签与第二预测标签之间的差异，对初始M-of-N决策树进行保真度预剪枝。

例如，可以基于第一预测标签与第二预测标签之间的差异确定剪枝函数，剪枝函数的公式如下：

E＝∑(y_n-y_m)²

其中，y_n表示初始M-of-N决策树对伪数据集中的样本的第一预测标签，y_m表示候选信用评估模型对伪数据集中的样本的第二预测标签。

∑(y_n-y_m)²体现了初始M-of-N决策树与候选信用评估模型的一致性，该项值越小，则说明初始M-of-N决策树与候选信用评估模型预测结果越一致，初始M-of-N决策树与候选信用评估模型功能的近似程度越高。因此，基于保真度的剪枝方法可以在保证初始M-of-N决策树与候选信用评估模型决策能力一致的情况下减少不必要的规则，也就是说在保证决策准确性的情况下提高可解释性。

基于上述实施例，步骤133，之后还包括：

步骤1331，确定所述初始M-of-N决策树与所述候选信用评估模型的预测结果一致的第一样本数量；

步骤1332，确定第二样本数量、第三样本数量，所述第二样本数量为所述候选信用评估模型预测正确的好样本数量，所述第三样本数量为所述候选信用评估模型预测正确的坏样本数量；

步骤1333，确定第四样本数量、第五样本数量，所述第四样本数量为所述候选信用评估模型预测错误的好样本数量，所述第五样本数量为所述候选信用评估模型预测错误的坏样本数量；

步骤1334，基于所述第一样本数量、所述第二样本数量、所述第三样本数量、所述第四样本数量，以及所述第五样本数量，确定所述初始M-of-N决策树和所述候选信用评估模型之间的保真度指标。

具体地，可以确定初始M-of-N决策树与候选信用评估模型的预测结果一致的第一样本数量，第一样本数量可以用TBT表示。

可以确定第二样本数量、第三样本数量，其中，第二样本数量为候选信用评估模型预测正确的好样本数量，第三样本数量为候选信用评估模型预测正确的坏样本数量，第二样本数量可以用BTP表示，第三样本数量可以用BTN表示。

可以确定第四样本数量、第五样本数量，其中，第四样本数量为候选信用评估模型预测错误的好样本数量，第五样本数量为候选信用评估模型预测错误的坏样本数量，第四样本数量可以用BFP表示，第五样本数量可以用BFN表示。

最后，在得到第一样本数量、第二样本数量、第三样本数量、第四样本数量，以及第五样本数量之后，可以基于第一样本数量、第二样本数量、第三样本数量、第四样本数量，以及第五样本数量，确定初始M-of-N决策树和候选信用评估模型之间的保真度指标，保真度指标计算公式如下：

其中，TBT为初始M-of-N决策树与候选信用评估模型预测结果一致的样本数量，BTP、BTN、BFP、BFN分别代表了候选信用评估模型预测正确的好样本数量、预测正确的坏样本数量、预测错误的好样本数量和预测错误的坏样本数量。

可以理解的是，保真度指标体现了决策树与候选信用评估模型功能的近似程度，一致性越高，二者功能越相似。保真度评价指标既关注了M-of-N决策树对于模型中正确功能的学习能力，也考虑了模型错误功能对于M-of-N决策树预测精度的影响。

此外，本发明实施例为了全面评价改进的Trepan方法，从准确性、可解释性以及Trepan决策树与候选信用评估模型的一致性三方面进行评价。

准确性采用信用评分领域常用的指标，准确率(Accuracy，ACC)、召回率(Recall)、F-1(F-1scores)。准确率(ACC)表示分类器预测所有样本中预测正确的比例，召回率(Recall)表示有多少正样本被预测出。由于每种测量方法都有其优点和局限性，因此将它们结合起来，而不是单独使用。

假设一个混淆矩阵由真阳性(True Positive，TP)、真阴性(True Negatives，TN)、假阳性(False Positives，FP)、假阴性(False Negatives，FN)组成，用于评估模型的指标ACC如下式所示：

可解释性的度量取决于模型结构、特征类型或理解概念本身的主观性等多个因素。本发明实施例使用决策树模型来解决可解释性，因此本发明的可解释性度量也基于决策树结构。决策树模型的叶子结点数表示该模型从根节点到叶子结点有几条判断规则，规则数越多，研究人员对整体模型的理解就越差。决策树的从根节点到叶子结点的长度表示该规则的长度，规则的长度越长，研究人员就越难理解该条规则。

因此，本发明实施例的可解释性从决策树模型的结构出发，运用叶子节点数和平均路径长度来判断生成决策树的可解释性。从几何方面也可以看作从模型的宽度和高度去衡量决策树模型。

本发明实施例提供的方法，设计评估体系对该类方法的可解释性、准确性、保真度进行完整的评估。

基于上述实施例，步骤120中所述基于所述伪数据集，训练得到M-of-N决策树，包括：

步骤121，确定所述伪数据集的信息增益；

步骤122，基于所述信息增益选择规则集的种子结点，并将所述规则集对应的特征添加到决策树的指定区域，得到所述M-of-N决策树。

具体地，M-of-N规则是根据信息增益来选择对数据集最具辨识度的规则集n。若伪数据集D(x,y)中第k类样本所占比例为p_k(k＝1,2,...,|Y|)，则D(x,y)的信息熵的公式如下式所示：

其中，Ent(D)的值越小，则伪数据集D(x,y)的纯度越高。假定离散属性x有V个可能地取值{a¹,a²,...,a^V}，若使用属性x对D(x,y)进行划分，则会产生V个分支结点，第v个分支包含样本几位D^v，于是属性a对样本集D(x,y)划分后所得到信息增益Gain(D,a)如下式所示：

M-of-N决策树使用爬山搜索法来构造m-of-n分裂，首先利用信息增益来选择规则集n的种子结点，然后通过以下两种操作将特征添加到指定区域。

m-of-(n+1)：向集合中增加一个新值，并保持阈值不变，如下式所：

其中，算子m-of-(n+1)通过增加相对阈值或推广原型区域来推广假设。在应用算子之前，假设覆盖了原型区域n-m汉明距离内的所有点。在算子应用之后，如果添加的特征已经存在于n中，则原型区域被广义化且n保持不变，否则随着n的增加，原型区域被专门化，并且覆盖的最大汉明距离增加。

(m+1)-of-(n+1)：向集合中增加一个新值，并增加阈值，如下式所示：

其中算子(m+1)-of-(n+1)这个假设，如果添加的特征已经存在于n中，则原型区域被泛化，相对阈值被降低。否则，原型区域被专门化，相对阈值保持不变。

基于上述实施例，步骤110中所述基于所述历史数据集训练得到候选信用评估模型，包括：

步骤111，对所述历史数据集进行缺失值处理，得到第一处理数据；

步骤112，对所述第一处理数据进行离散化处理，得到第二处理数据；

步骤113，对所述第二处理数据依次进行独热编码和不平衡处理，得到预处理历史数据集；

步骤114，基于所述预处理历史数据集训练得到所述候选信用评估模型。

具体地，考虑到数据集若存在缺失值就有可能对数据建模的结果产生影响，因此，数据处理的第一步要对历史数据集中的缺失值进行处理，得到第一处理数据，缺失值处理是数据预处理的重要环节，涉及到分析数据的完整性和准确性。在进行数据分析或建模前，需要先明确数据是否存在缺失值，以及这些缺失值在整体样本中的分布占比。缺失值处理的一般流程包括：检查数据缺失类型、检查数据缺失程度、诊断数据缺失机制，最终选择适当的缺失值插补方法。常用的处理方法有删除元组、平均值填充、众数填充等。正确处理缺失值，可以有效提升数据分析的准确性和效率。

然后，对第一处理数据进行离散化处理，得到第二处理数据，离散化处理的主要目标是为了把连续性问题转化成计算机能够处理的离散性问题。例如将连续的数据进行分段，使其变为一段段离散化的区间，这样便于计算机进行处理。离散化是程序设计中一个非常常用的技巧，它可以有效的降低时间复杂度。

再对第二处理数据依次进行独热编码和不平衡处理，得到预处理历史数据集。独热编码(One-Hot Encoding)是深度学习中常用的一种方法，主要用于处理类别间不具有大小关系的特征。

独热编码的好处主要有两点：首先，它解决了分类器不好处理属性数据的问题；其次，它也在一定程度上起到了扩充特征的作用。

不平衡处理是指在数据分类问题中，不同类别的样本量存在显著差异，这种情况下，多数类别的样本数量远大于少数类别。这种不平衡可能会导致机器学习模型过于倾向于预测数量占比较大的类别，从而影响模型的准确性和公正性。

主要的处理方法可以是：

从数据角度出发，通过采样技术来改变训练集样本分布，降低不平衡程度，这主要包括欠采样和过采样。

在得到预处理历史数据集之后，可以将预处理历史数据集划分为训练集和测试集，并基于划分后的预处理历史数据集训练得到候选信用评估模型。

基于上述任一实施例，一种具备可解释性的信用评估模型的训练方法，步骤如下：

第一步，获取信贷申请人的历史数据集，对历史数据集进行缺失值处理，得到第一处理数据，对第一处理数据进行离散化处理，得到第二处理数据，对第二处理数据依次进行独热编码和不平衡处理，得到预处理历史数据集，最后，基于预处理历史数据集训练得到候选信用评估模型。

第二步，基于候选信用评估模型，采用历史数据集，确定伪数据集，并确定伪数据集的信息增益，最后，基于信息增益选择规则集的种子结点，并将规则集对应的特征添加到决策树的指定区域，得到M-of-N决策树。

第三步，确定M-of-N决策树对伪数据集中的样本的第一预测标签、确定候选信用评估模型对伪数据集中的样本的第二预测标签，最后，基于第一预测标签与第二预测标签之间的差异，对M-of-N决策树进行保真度预剪枝。

第四步，将M-of-N决策树作为具备可解释性的信用评估模型。

第五步，确定M-of-N决策树与候选信用评估模型的预测结果一致的第一样本数量，确定第二样本数量、第三样本数量，其中，第二样本数量为候选信用评估模型预测正确的好样本数量，第三样本数量为候选信用评估模型预测正确的坏样本数量。

确定第四样本数量、第五样本数量，其中，第四样本数量为候选信用评估模型预测错误的好样本数量，第五样本数量为候选信用评估模型预测错误的坏样本数量。

第六步，基于第一样本数量、第二样本数量、第三样本数量、第四样本数量，以及第五样本数量，确定M-of-N决策树和候选信用评估模型之间的保真度指标。

本发明实施例提供的方法，对基于决策树的神经网络规则提取技术Trepan进行改进，该算法通过捕获嵌入在信用评估模型中的解释性规则来澄清信用评估模型的决策。首先，提出基于保真度的预剪枝方法使Trepan决策树在保证决策准确性的情况下提升可解释性；其次，设计评估体系对该类方法的可解释性、准确性、保真度进行完整的评估；最后，利用局部可解释性技术LIME方法在模型决策过程分析特征对决策结果的影响，从而能够生成准确且可解释的信用评估模型。

基于上述任一实施例，本发明提供一种信用评估方法，图3是本发明提供的信用评估方法的流程示意图，如图3所示，该方法包括：

步骤310，获取待评估数据。

具体地，可以获取待评估数据，待评估数据是指后续需要进行信用评估的数据，待评估数据可以是信贷申请人的数据，例如，姓名、性别等属性信息。

步骤320，基于具备可解释性的信用评估模型，对所述待评估数据进行信用评估；

具体地，在得到待评估数据之后，可以基于具备可解释性的信用评估模型，对待评估数据进行信用评估。具备可解释性的信用评估模型是基于上述具备可解释性的信用评估模型的训练方法执行得到的。

此处，具备可解释性的信用评估模型可以是M-of-N决策树，与传统决策树方法不同的是，M-of-N决策树(Trepan决策树)的生成是为了模仿信用评估模型，Trepan决策树生成过程中关注的是生成树与信用评估模型的一致性。基于这一点，本发明在原始Trepan算法上引入基于保真度的剪枝方法。其原理是自上而下的尝试将这颗子树替代为叶子结点，然后比较替代前和替代后的Trepan决策树在测试集中的表现，若替代后的Trepan决策树与信用评估模型预测的误差小于替代前的误差，则执行剪枝。

本发明实施例提供的方法，获取待评估数据，基于具备可解释性的信用评估模型，对待评估数据进行信用评估，可解释性从M-of-N决策树模型的结构出发，运用叶子节点数和平均路径长度来判断生成M-of-N决策树的可解释性，从几何方面也可以看作从模型的宽度和高度去衡量决策树模型。

下面对本发明提供的信用评估装置进行描述，下文描述的信用评估装置与上文描述的信用评估方法可相互对应参照。

基于上述任一实施例，本发明提供一种信用评估装置，图4是本发明提供的信用评估装置的结构示意图，如图4所示，该装置包括：

获取单元410，用于获取待评估数据；

决策树信用评估单元420，用于基于具备可解释性的信用评估模型，对所述待评估数据进行信用评估；

本发明实施例提供的装置，获取待评估数据，基于具备可解释性的信用评估模型，对待评估数据进行信用评估，可解释性从M-of-N决策树模型的结构出发，运用叶子节点数和平均路径长度来判断生成M-of-N决策树的可解释性，从几何方面也可以看作从模型的宽度和高度去衡量决策树模型。

下面对本发明提供的具备可解释性的信用评估模型的训练装置进行描述，下文描述的具备可解释性的信用评估模型的训练装置与上文描述的具备可解释性的信用评估模型的训练方法可相互对应参照。

基于上述任一实施例，本发明提供一种具备可解释性的信用评估模型的训练装置，图5是本发明提供的具备可解释性的信用评估模型的训练装置的结构示意图，如图5所示，该装置包括：

确定候选信用评估模型单元510，用于获取信贷申请人的历史数据集，并基于所述历史数据集训练得到候选信用评估模型；

训练决策树单元520，用于基于所述候选信用评估模型，采用所述历史数据集，确定伪数据集，并基于所述伪数据集，训练得到M-of-N决策树；

确定信用评估模型单元530，用于对所述M-of-N决策树进行保真度预剪枝，并基于保真度预剪枝后的M-of-N决策树进行信用评估。

本发明实施例提供的装置，获取信贷申请人的历史数据集，并基于历史数据集训练得到候选信用评估模型，基于候选信用评估模型，采用历史数据集，确定伪数据集，并基于伪数据集，训练得到M-of-N决策树，M-of-N决策树的训练过程包括保真度预剪枝，最后，将M-of-N决策树作为具备可解释性的信用评估模型。此过程为了解决基于深度学习的信用评估模型的可解释性，运用Trepan这类基于决策树的神经网络规则提取技术在信用评估模型决策阶段提供解释性规则，改进Trepan的可解释性信用评估模型首先通过引入基于保真度的预剪枝方法使最终生成的Trepan决策树在保证准确性的情况下拥有更好的可解释性，提高了信用评估模型的可解释性。

基于上述任一实施例，保真度预剪枝具体用于：

基于上述任一实施例，还包括保真度预剪枝单元，所述保真度预剪枝单元具体用于：

基于上述任一实施例，训练决策树单元520，具体用于：

确定所述伪数据集的信息增益；

基于上述任一实施例，确定候选信用评估模型单元510，具体用于：

对所述历史数据集进行缺失值处理，得到第一处理数据；

对所述第一处理数据进行离散化处理，得到第二处理数据；

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行具备可解释性的信用评估模型的训练方法，该方法包括：获取信贷申请人的历史数据集，并基于所述历史数据集训练得到候选信用评估模型；基于所述候选信用评估模型，采用所述历史数据集，确定伪数据集，并基于所述伪数据集，训练得到M-of-N决策树，所述M-of-N决策树的训练过程包括保真度预剪枝；将所述M-of-N决策树作为所述具备可解释性的信用评估模型。

处理器610还可以调用存储器630中的逻辑指令，以执行信用评估方法，该方法包括：获取待评估数据；基于具备可解释性的信用评估模型，对所述待评估数据进行信用评估；所述具备可解释性的信用评估模型是基于上述具备可解释性的信用评估模型的训练方法执行得到的。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的具备可解释性的信用评估模型的训练方法，该方法包括：获取信贷申请人的历史数据集，并基于所述历史数据集训练得到信用评估模型；基于所述信用评估模型，采用所述历史数据集，确定伪数据集，并基于所述伪数据集，训练得到M-of-N决策树，所述M-of-N决策树的训练过程包括保真度预剪枝；将所述M-of-N决策树作为所述具备可解释性的信用评估模型。

所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的信用评估方法，该方法包括：获取待评估数据；基于具备可解释性的信用评估模型，对所述待评估数据进行信用评估；所述具备可解释性的信用评估模型是基于上述具备可解释性的信用评估模型的训练方法执行得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的具备可解释性的信用评估模型的训练方法，该方法包括：获取信贷申请人的历史数据集，并基于所述历史数据集训练得到信用评估模型；基于所述信用评估模型，采用所述历史数据集，确定伪数据集，并基于所述伪数据集，训练得到M-of-N决策树，所述M-of-N决策树的训练过程包括保真度预剪枝；将所述M-of-N决策树作为所述具备可解释性的信用评估模型。

该计算机程序被处理器执行时实现以执行上述各方法提供的信用评估方法，该方法包括：获取待评估数据；基于具备可解释性的信用评估模型，对所述待评估数据进行信用评估；所述具备可解释性的信用评估模型是基于上述具备可解释性的信用评估模型的训练方法执行得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种具备可解释性的信用评估模型的训练方法，其特征在于，包括：

将所述M-of-N决策树作为所述具备可解释性的信用评估模型。

2.根据权利要求1所述的具备可解释性的信用评估模型的训练方法，其特征在于，所述保真度预剪枝的步骤包括：

3.根据权利要求2所述的具备可解释性的信用评估模型的训练方法，其特征在于，所述基于所述第一预测标签与所述第二预测标签之间的差异，对所述初始M-of-N决策树进行保真度预剪枝，之后还包括：

4.根据权利要求1所述的具备可解释性的信用评估模型的训练方法，其特征在于，所述基于所述伪数据集，训练得到M-of-N决策树，包括：

确定所述伪数据集的信息增益；

5.根据权利要求1至4中任一项所述的具备可解释性的信用评估模型的训练方法，其特征在于，所述基于所述历史数据集训练得到候选信用评估模型，包括：

对所述历史数据集进行缺失值处理，得到第一处理数据；

对所述第一处理数据进行离散化处理，得到第二处理数据；

6.一种信用评估方法，其特征在于，包括：

获取待评估数据；

所述具备可解释性的信用评估模型是基于如权利要求1至6中任一项所述的具备可解释性的信用评估模型的训练方法执行得到的。

7.一种具备可解释性的信用评估模型的训练装置，其特征在于，包括：

8.一种信用评估装置，其特征在于，包括：

获取单元，用于获取待评估数据；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述具备可解释性的信用评估模型的训练方法，或实现如权利要求6所述的信用评估方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述具备可解释性的信用评估模型的训练方法，或实现如权利要求6所述的信用评估方法。