CN109767312A

CN109767312A - 一种信用评估模型训练、评估方法与装置

Info

Publication number: CN109767312A
Application number: CN201811500994.8A
Authority: CN
Inventors: 刘欣阳; 周琪云; 曲彦文; 高子健
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2019-05-17
Anticipated expiration: 2038-12-10
Also published as: CN109767312B

Abstract

本发明公开一种的信用评估模型训练、评估的方法与装置，其中信用评估模型通过训练方法得到，包括：获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果；对收集到的用户数据中的用户数据进行预处理，转换为数值数据，包含但不限于将类别型数据进行One hot变换，数值型数据进行归一化；构建m个SDT子分类器，m为正整数，另构建一个SDT权重生成器，用以生成m个SDT子分类器的权重概率分布；利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。通过本发明所述方法构建的信用评估模型与装置，拥有更高的工作效率，而且可以降低坏账率；同时具有产生可视化的决策过程。

Description

一种信用评估模型训练、评估方法与装置

技术领域

本发明公开了一种金融风险评估领域中的信用评估模型训练、评估的方法与装置，具体涉及到基于加权软决策森林的信用评估模型训练、评估方法与装置。

背景技术

信用评估是金融机构预测客户是否违约的关键步骤。错误的信用评估会使金融机构蒙受经济损失。开发智能的信用评估系统不仅可以提高金融机构的工作效率，还可以降低坏账率。近年来，常用的传统征信系统中大多使用评分卡来构建用户的信用模型。评分卡主要使用逻辑回归算法来实现，可以提高线性模型的性能。

但是，目前常用的线性模型虽然能保证一定的可解释性，模型性能却并不能满足需求，导致这种方法对用户的信用评估预测结果可能不准确，实际应用价值有限。目前，已有许多人工智能算法被应用于该领域，如支持向量机、集成学习、K-最近邻等方法，大幅提高了信用评估模型的性能。然而，这些人工智能算法由于其计算过程的复杂性，普遍存在可解释性差的问题。而信用评估模型的可解释性又是具有现实意义的，例如：欧盟颁布的“通用数据保护条例”明确要求企业对智能算法得到的决策进行适当解释，否则会给予巨额罚款。

因此，如何在保证模型具有良好可解释性的前提下，提高信用评估的准确性，是本领域技术人员亟需解决的技术问题。

发明内容

本发明要解决的技术问题是提供一种性能良好同时具有一定可解释性的信用评估模型的训练、评估方法以及装置。

为此，本发明的第一个目的在于提出一种新型的基于加权软决策森林的信用评估模型及训练方法。该模型基于软决策树(Soft Decision Tree,SDT)实现，构建m个SDT子分类器进行分类，1个SDT权重生成器对m个SDT子分类器进行加权集成。由于SDT是一种逻辑上具有二叉树结构的深度神经网络，因而该模型在保证性能的同时，继承了决策树算法的可解释性。

本发明的第二个目的在于提出一种可解释的信用评估方法。

本发明的第三个目的在于提出一种可解释的信用评估模型的训练装置。

本发明的第四个目的在于提出一种可解释的信用评估装置。

为达到上述目的，本发明的技术方案是这样实现的：

一种信用评估模型的训练方法，其特征在于，它包括以下步骤：

S11，获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果；

S12，对收集到的用户数据中的用户数据进行预处理，转换为数值数据；

S13，构建m个SDT子分类器，m为正整数，另构建一个SDT权重生成器，用以生成m个SDT子分类器的权重概率分布，该模型即为加权软决策森林(Weighted Soft DecisionForest,WSDF)；

S14，利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。

进一步地，上述S13具体包括：

构建m个SDT子分类器和一个SDT权重生成器，并初始化模型参数；

将所述预处理后的用户数据依次通过m个SDT子分类器，直至每个所述用户数据分配至每个SDT子分类器的叶子节点，此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布；再将所述预处理后的用户数据通过SDT权重生成器，直至每个所述用户数据分配至该SDT的叶子节点，此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布；对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。

进一步地，上述S14中端到端的训练具体包括：

设已拥有预处理后的用户数据集T，使用该数据集对WSDF模型进行训练：首先，将数据集T随机划分成S组mini-batch；在每组mini-batch上分别计算本发明定义的损失函数的函数值，使用梯度下降算法进行参数更新；计算完S组mini-batch的损失函数值后，重新划分数据集并更新参数，重复N次。

一种WSDF信用评估模型，通过上述的方法训练出来。

一种信用评估的方法，使用上述的WSDF信用评估模型，其特征在于，包括以下步骤

S21，获取待信用评估的用户在征信系统中的用户数据；

S22，对收集到的用户数据中的用户数据进行预处理，转换为数值数据；

S23，使用已训练好的WSDF信用评估模型对用户的信用信息进行预测；

S24，对所述WSDF信用评估模型中的参数值进行可视化，即可得到每一棵SDT的直观决策过程。

进一步地，所述使用已训练好的WSDF信用评估模型对用户进行预测，包括：

将所述预处理后的用户数据依次通过所述已训练好的WSDF信用评估模型中的m个SDT子分类器，直至每个所述用户数据分配至每个SDT子分类器的叶子节点，此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布；再将所述预处理后的用户数据通过SDT权重生成器，直至每个所述用户数据分配至该SDT的叶子节点，此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布；对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。

进一步地，所述对WSDF信用评估模型中的参数值进行可视化，即可得到每一棵SDT的直观决策过程，包括：

提取出除叶节点外的每个SDT内部节点的权重值，并分别按绝对值从大到小排序，即可得到影响用户信用信息权重较大的特征。若知晓用户属性的具体含义，也可以从中归纳出具有现实意义的信用评估决策规则。

一种信用评估模型的训练装置，用于训练上述的WSDF信用评估模型，其特征在于，包括：

数据获取模块S31，用于获取用户在征信系统中的用户数据以及评估结果，即模型训练数据；

数据预处理模块S32，用于对收集到的用户数据进行预处理；

模型构建与初始化模块S33，用于构建WSDF模型，并对模型参数初始化；

模型训练模块S34，该模块利用预处理后的用户数据对WSDF模型的参数进行迭代更新，训练出WSDF 信用评估模型。

进一步地，所述模型构建与初始化模块，包括：

构建m个SDT子分类器和一个SDT权重生成器，并初始化模型参数。

进一步地，所述模型训练模块，包括：

设已拥有预处理后的用户数据集T，使用该数据集对模型进行训练：首先，将数据集T随机划分成S 组mini-batch；在每组mini-batch上分别计算本发明定义的损失函数的函数值，使用梯度下降算法进行参数更新；计算完S组mini-batch的损失函数值后，重新划分数据集并更新参数，重复N次。

一种信用评估的装置，采用上述的WSDF信用评估模型，其特征在于，包括：

数据获取模块S41，用于获取用户在征信系统中的用户数据以及评估结果，即模型训练数据；

数据预处理模块S42，用于对收集到的用户数据进行预处理；

预测模块S43，用于对待信用评估的用户进行预测；

可视化模块S44，用于可视化信用评估模型的具体决策过程。

进一步地，所述预测模块：

将所述预处理后的用户数据依次通过所述WSDF信用评估模型中的m个SDT子分类器，直至每个所述用户数据分配至每个SDT子分类器的叶子节点，此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布；再将所述预处理后的用户数据通过SDT权重生成器，直至每个所述用户数据分配至该 SDT的叶子节点，此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布；对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。

进一步地，所述可视化模块，包括：

提取出除叶节点外每个SDT内部节点的权重值，并分别按绝对值从大到小排序，即可得到影响用户信用信息权重较大的特征。若知晓用户属性的具体含义，也可以从中归纳出具有现实意义的信用评估决策规则。

本发明的方法和系统的优点在于：

1.通过本发明所述方法构建的信用评估模型与系统，相较于传统的人工信用评估模型与系统，不需要人工干预，拥有更高的工作效率，而且可以降低坏账率。

2.通过本发明所述方法构建的信用评估模型与系统具有神经网络模型的性能优势，相比传统的智能信用评估模型与系统，预测结果拥有更高的准确性。

3.通过本发明所述方法构建的信用评估模型与系统继承了软决策树的树形结构，更接近人的思维模式，可以产生可视化的决策过程。

4.在知晓用户属性具体含义的情况下，也可根据模型的决策过程提取出具有现实意义的信用评估决策规则。

附图说明

图1为根据本发明的信用评估模型训练方法流程图；

图2为根据本发明加权软决策森林信用评估模型的结构图，其中1为模型对用户信用信息预测的最终输出，2为输入模型的用户数据，3为矩阵加法操作，4为矩阵点乘操作，5为每个SDT的输出，6代表一棵SDT，一个WSDF信用评估模型可以有多棵SDT；

图3为根据本发明使用加权软决策森林信用评估模型的信用评估方法流程图；

图4为对本发明一个实施例的WSDF信用评估模型中一个SDT权重生成器的参数可视化示意图，其中7为模型输入的用户数据，8为SDT的内部节点与叶子节点，9为SDT根据用户特征计算概率的决策路径，10为该SDT对SDT子分类器的权重分布；

图5为对本发明一个实施例的WSDF信用评估模型中一个SDT子分类器的参数可视化示意图，其中 11为叶子节点预测用户信用信息好坏的概率分布，12为SDT最终预测的概率分布；

图6为根据本发明的信用评估训练装置的结构框图；

图7为根据本发明的信用评估装置的结构框图。

具体实施方式

下面结合实施例和附图对本发明提出的方法与装置进一步详细描述。

本实施例基于加权软决策森林的信用评估模型训练方法流程图如附图1所示，本发明提出的信用评估模型训练方法用于训练WSDF信用评估模型，主要包含以下步骤：

S11，获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果(模型训练数据)。

具体地，用户数据应该有一定的相关性或具有现实意义，可以包含但不限于人口统计学特征(年龄、性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、交易行为及数据(支付方式、消费情况等)等。

S12，对收集到的用户数据中的用户数据进行预处理。

例如，将类别型数据进行One hot变换，数值型数据进行归一化。可以理解，数据预处理方法包含但不限于该实施例中使用的One hot变换与归一化。

S13，构建m个SDT(软决策树)子分类器，m为正整数，另构建一个SDT权重生成器，用以生成m 个SDT子分类器的权重概率分布，该模型即为WSDF。

如图3所示，在本实施例中，WSDF信用评估模型中共包含m个SDT子分类器，和一个SDT权重生成器。将用户数据依次通过m个SDT子分类器后，再使用一个SDT权重生成器对m个子分类器的类别概率分布进行加权求和，得到WSDF最终的类别概率分布。

具体地，设WSDF模型的输入样本对为(x,y)：为用户属性；y∈{1,...,n_c}，为x对应的真实样本标签，n_c为类别总数。SDT由内部节点和叶子节点组成，其中内部节点集合表示为NI，叶子节点集合表示为NL。对于样本x，在SDT中第i个内部节点选择右边分支的概率为：其中，w_i∈R^nx×1和b_i分别是SDT中第i个内部节点的滤波器(filter)与偏置(bias)，二者的值均由反向传播算法进行迭代更新。σ( )为Sigmoid函数。

第l个叶节点根据式计算样本x属于类别k的概率。其中，Q^l表示第l个叶节点处的类别概率分布，Q^l[k]是向量Q^l的第k个元素，其表示第l个叶节点的输出中预测样本属于第k 类的概率。第l个叶子节点中的参数的值由反向传播迭代训练得到。

从根节点到叶节点的路径称为路由。SDT将根据式计算到达第l个叶节点的概率。其中R^l表示到第l个叶节点的路由中的内部节点id的序列。I_r()是指示函数，当路由选择了第i个内部节点的右侧时，I_r为1，否则为0。

对于每个样本x，SDT子分类器将选择具有最大路由概率的叶节点处的类别概率分布作为输出，记为π(x)，其中记所有子树的权重概率分布为A(x)∈R^M×1。A(x)的第i个元素,记为A(x)[i]，表示第i个子SDT的权重。

与用于构建子分类器的SDT不同，用于权重生成的SDT计算其所有叶节点上的权重概率分布的加权和作为所有子树的权重概率分布：其中表示当输入为x时，SDT权重生成器到达第l个叶节点的概率，表示该SDT上第l个叶节点上的SDT子分类器权重概率分布。WSDF 模型最终的类别概率分布可由式计算得到。上述实现方式只是作为一种示例，以便于理解，而不能视为是本发明的限定。

由此，通过使用基于软决策森林的信用评估模型来对用户进行信用评估，既保留有神经网络模型的性能优势，又继承了决策树的树形结构，更接近人类的决策思维，因而有良好的可解释性。

S14，利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练，使用反向传播算法更新模型参数；

具体地，对于输入样本x，设对应的目标分布为T(x)，新模型可自定义损失函数，或通过最小化损失函数loss(x)＝loss_trs(x)-αT(x)^Tlog(π_WSDF(x))来训练模型的参数。

其中，表示对样本x，第i棵子树选择第l条路径的概率，表示第i棵树的第l个叶节点(对应于第l条路径)处的类别概率分布。

考虑监督学习问题，设已拥有信用评估数据集T，现使用该数据集对模型进行训练：首先，初始化模型参数，将数据集T随机划分成S组mini-batch；在每组mini-batch上分别计算损失函数值，使用梯度下降算法进行参数更新；计算完S组mini-batch的损失函数值后，重新划分数据集并更新参数，重复N次。

一种基于软决策森林的信用评估方法流程图如附图3所示，其特征在于，包括以下步骤：

S21，获取待信用评估的用户在征信系统中的用户数据。

具体地，可以先获取用户在征信系统中的用户信息，再通过用户信息获取该目标用户在征信系统中的用户数据。用户数据应该有一定的相关性或具有现实意义，可以包含但不限于人口统计学特征(年龄、性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、交易行为及数据(支付方式、消费情况等)等。

S22，对收集到的用户数据中的用户数据进行预处理。

S23，使用已训练好的WSDF信用评估模型对用户进行预测。

具体预测过程，与S13中定义的计算过程相对应，利用预处理后的用户数据，计算出最终加权的用户信用信息好坏的概率分布。

S24，根据所述对WSDF信用评估模型中的参数值进行可视化，即可得到每一棵SDT的直观决策过程。

具体地，本实施例在公开信用评估数据集上进行了训练与测试，并对SDT的决策过程进行了可视化。如图4、图5所示，图中展示了SDT权重生成器以及该SDT赋予权重最大的SDT子分类器的结构。除叶节点外，每个内部节点都会根据用户特征计算出沿着左右两种决策路径的概率。权重生成器的叶节点输出对每个SDT子分类器的权重概率分布，子分类器的叶节点则输出对用户信用信息好与坏的预测概率分布。对每个内部节点的filter中的正系数和负系数分别按绝对值从大到小排序，即可得到影响用户信用信息权重较大的特征。若知晓用户属性的具体含义，也可以从中归纳出具有现实意义的信用评估决策规则。

本发明的一种实施例还提供一种信用评估模型的训练装置，该装置基于本发明提出的加权软决策森林信用评估模型。图6为该信用评估模型训练装置的流程图。如图6所示，该信用评估模型训练装置可以包括：数据获取模块S31、数据预处理模块S32、模型构建与初始化模块S33、模型训练模块S34。

其中，数据获取模块S31用于获取用户在征信系统中的用户数据以及评估结果，即模型训练数据。

具体地，获取用户在征信系统中的用户数据以及评估结果，即模型训练数据。该数据可从征信系统的数据库、数据管理服务器或第三方服务器获取。用户数据应该有一定的相关性或具有现实意义，可以包含但不限于人口统计学特征(年龄、性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、交易行为及数据(支付方式、消费情况等)等。

数据预处理模块S32用于对收集到的用户数据进行预处理。

模型构建与初始化模块S33，用于构建WSDF模型，并对模型参数初始化。

具体地，构建m个SDT(软决策树)子分类器，m为正整数，另构建一个SDT权重生成器，用以生成m个SDT子分类器的权重概率分布，该模型即为WSDF。需要说明的是，该实施例的WSDF模型是使用Python语言和机器学习库Keras实现的，具体部署可以根据实际情况选择不同的语言与框架。模型训练模块S34，该模块利用预处理后的用户数据对WSDF模型的参数进行迭代更新，训练出本发明的 WSDF信用评估模型。

具体地，该模块的训练方法与S14的训练方法一致，使用反向传播算法与S14中定义或根据实际情况自定义的损失函数对模型参数进行迭代更新。

本发明还提出了一种信用评估装置，该装置基于本发明提出的加权软决策森林信用评估模型。图7为该信用评估装置的流程图。如图7所示，该信用评估装置包括以下模块：

数据获取模块S41，用于获取用户在征信系统中的用户数据以及评估结果，即模型训练数据。该数据可从征信系统的数据库、数据管理服务器或第三方服务器获取。用户数据可以包含但不限于人口统计学特征(年龄、性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、交易行为及数据(支付方式、消费情况等)等。

数据预处理模块S42，用于预处理收集到的用户数据，数据预处理方法包含但不限于使用One hot变换与归一化。

预测模块S43，用于对待信用评估的用户进行预测，其计算过程与S23、S13一致，利用S42预处理后的用户数据，计算出最终加权的用户信用信息好坏的概率分布。

可视化模块S44，用于可视化模型的具体决策过程，可视化方法与S24一致。提取出模型的内部参数，对每个内部节点的filter中的正系数和负系数分别按绝对值从大到小排序，既可得到影响用户信用信息权重较大的特征。若知晓用户属性的具体含义，也可以从中归纳出具有现实意义的信用评估决策规则。

需要说明的是，本发明提出的技术方案各部分可以用硬件、软件、固件或它们的组合来实现。流程图中或以其他形式描述的步骤、模块和逻辑，都可以被认为是用于实现特定功能的可执行指令的集合或有序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或装备等使用。不失一般性的，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术， CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。

具体地，使用软件产品形式实现产品，先将该软件存储在一个计算机存储介质中(如上文所述)，包括若干指令用以使得一个指令执行系统、一台终端设备或装置(如手机、计算机、服务器、嵌入式设备) 执行本发明实施例所述方法。

若使用硬件形式实现产品，则可使用下列技术中的任一项或其组合来实现：

通用处理器，包括中央处理器(CPU)、网络处理器(NP)等；具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路；数字信号处理器(DSP)、专用集成电路(ASIC)或具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA),现场可编程门阵列(FPGA)等；其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

本文应用了具体实例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种信用评估模型的训练方法，其特征在于，它包括以下步骤：

S13，构建m个SDT子分类器，m为正整数，另构建一个SDT权重生成器，用以生成m个SDT子分类器的权重概率分布，该模型即为WSDF；

2.如权利要求1所述的训练方法，其特征在于，S13具体包括：

3.如权利要求1所述的训练方法，其特征在于,S14中端到端的训练具体包括：

设已拥有预处理后的用户数据集T，使用该数据集对S13的WSDF模型进行训练：首先，将数据集T随机划分成S组mini-batch；在每组mini-batch上分别计算本申请定义的损失函数的函数值，使用梯度下降算法进行参数更新；计算完S组mini-batch的损失函数值后，重新划分数据集并更新参数，重复N次。

4.一种通过权利要求1-3任一权利要求所述的训练方法训练出来的WSDF信用评估模型。

5.一种信用评估的方法，使用权利要求4所述的WSDF信用评估模型，其特征在于，包括以下步骤：

S21，获取待信用评估的用户在征信系统中的用户数据；

6.如权利要求5所述的信用评估方法，其特征在于，所述使用已训练好的WSDF信用评估模型对用户进行预测，包括：

7.如权利要求5所述的信用评估方法，其特征在于，S24中对所述WSDF信用评估模型中的参数值进行可视化，即可得到每一棵SDT的直观决策过程，包括：

提取出除叶节点外的每个SDT内部节点的权重值，并分别按绝对值从大到小排序，即可得到影响用户信用信息权重较大的特征，若知晓用户属性的具体含义，也可以从中归纳出具有现实意义的信用评估决策规则。

8.一种信用评估模型的训练装置，用于训练权利要求4所述的WSDF信用评估模型，其特征在于，包括：

数据预处理模块S32，用于对收集到的用户数据进行预处理；

模型训练模块S34，该模块利用预处理后的用户数据对WSDF模型的参数进行迭代更新，训练出WSDF信用评估模型；

所述模型构建与初始化模块，包括：构建m个SDT子分类器和一个SDT权重生成器，并初始化模型参数；

所述模型训练模块，包括：设已拥有预处理后的用户数据集T，使用该数据集对模型进行训练：首先，将数据集T随机划分成S组mini-batch；在每组mini-batch上分别计算本申请定义的损失函数的函数值，使用梯度下降算法进行参数更新；计算完S组mini-batch的损失函数值后，重新划分数据集并更新参数，重复N次。

9.一种信用评估的装置，采用如权利要求4所述的WSDF信用评估模型，其特征在于，包括：

数据预处理模块S42，用于对收集到的用户数据进行预处理；

预测模块S43，用于对待信用评估的用户进行预测；

可视化模块S44，用于可视化信用评估模型的具体决策过程；

所述可视化模块，包括：提取出除叶节点外每个SDT内部节点的权重值，并分别按绝对值从大到小排序，即可得到影响用户信用信息权重较大的特征，若知晓用户属性的具体含义，也可以从中归纳出具有现实意义的信用评估决策规则。

10.根据权利要求9所述的一种信用评估的装置，其特征在于，所述预测模块包括：将所述预处理后的用户数据依次通过所述WSDF信用评估模型中的m个SDT子分类器，直至每个所述用户数据分配至每个SDT子分类器的叶子节点，此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布；再将所述预处理后的用户数据通过SDT权重生成器，直至每个所述用户数据分配至该SDT的叶子节点，此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布；对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。