CN108550077A

CN108550077A - 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统

Info

Publication number: CN108550077A
Application number: CN201810393852.XA
Authority: CN
Inventors: 徐达宇; 魏致善; 蓝倩; 施宇伦; 林路
Original assignee: SUNYARD SYSTEM ENGINEERING Co Ltd; Zhejiang A&F University ZAFU
Current assignee: SUNYARD SYSTEM ENGINEERING Co Ltd; Zhejiang A&F University ZAFU
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2018-09-18

Abstract

本发明公开一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统，该方法包括：首先，根据获取的高维大规模非平衡历史征信数据，构建由所获取的历史数据集构建的训练矩阵X，利用自适应弹性网络特征选择算法对给定的历史征信数据集实施维度约简；然后将经过维度约简后的训练样本集划分为少数样本类及多数样本类，根据类簇质心距离指数化衰减函数计算每个样本的隶属度，构建加权矩阵W，设置相关参数，用IWELM模型实施个人信用风险评估。本发明所提的方法克服大规模征信数据展现出的高度非平衡性问题，同时提升个人信用风险评估的执行速度与效率，增强评估结果的可靠性和可信度。

Description

一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统

技术领域

本发明涉及数据评估领域，尤其涉及一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统。

背景技术

目前，面向多渠道、碎片化、异构、半结构化和非结构化征信数据的个人信用风险评估方法越来越受到金融服务机构的重视。由于当前采集的信用风险评估数据所展现出的大规模、高维、稀疏以及高度类不平衡等特点，要求在进行评估模型训练前对数据进行相应的属性约简，以提升原数据集的质量与信息密度，从而帮助建立更为有效地个人信用风险评估模型，在此过程中需要采用相应的特征选择算法对粗糙的原数据集进行降维，剔除与评估目标无关及弱相关的变量。在个人信用风险评估领域常用的特征选择方法主要有原始Lasso，以及对原始Lasso的改进算法，如group Lasso、adaptive Lasso及fused Lasso等。

而在个人信用风险评估模型方面，主要分为统计模型与非统计模型两大类，统计类模型典型代表有Logistic回归模型、Probit模型及K-近邻判别模型等；非统计类模型主要包括贝叶斯网络、决策树模型和粗糙集，以及大量的人工智能算法，如神经网络、支持向量机和各类深度学习算法。而人工智能算法在解决大数据信用风险评估问题时更具有优势，更适用于处理具有大量输入变量的稀疏数据，能更好地解决模型过度拟合问题，预测准确度较高，因此人工智能算法越来越受到该研究领域相关学者的重视。

然而，在大规模征信数据特征选择方面，虽然基于Lasso及其改进形式的特征选择算法在实践中被证明是有效的，但依然存在一些缺陷。即Lasso利用L₁范数的正则化最小二乘方法进行特征筛选，在样本的特征维数远远大于样本总数时，Lasso的效果不很令人满意，不管所选出的特征数量是否达到饱和，Lasso都最多只能选择样本数量的特征维数，且对于两两之间具有强相关性的一组特征，Lasso倾向于随意地选择其中某一个而忽略该组中所有的其他特征。

并且，在个人信用评估模型方面，现有的评估方法更重视评估精度指标，极少考虑当前大规模征信数据中普遍存在的类不平衡现象，即违约行为大大少于履约，但少量的违约信息中往往隐藏着重要的具有反欺诈价值的信息，传统评估模型的训练目标是追求经验风险或者结构风险最小，经验风险最小是期望求得最低的训练集的误分率，这会使得属于少数类的实例被大量误分，结构风险最小其实是期望求得类间距离最大化，这通常会使得类间隔面被移动到实例分布比较稀疏的类别那一边，从而使得分类器对少数类失灵。且传统算法对大规模数据集的分类效率偏低，构建类间隔面的时间开销也很高。

发明内容

本发明的目的在于针对当前征信数据展现出的大规模、高维、稀疏及高度类不平衡等问题，提供一种面向大规模非平衡征信数据的个人信用风险评估方法及其系统，具体技术方案如下：

一种面向大规模非平衡征信数据的个人信用风险评估方法，其特征在于，该方法包括如下步骤：

步骤一：获取搜集的原始大规模个人信用记录数据集，构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y，其中，X＝[x₁,x₂,…,x_p]∈R^n×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵，其中x_i＝[x_1i,x_2i,…,x_pi]^T∈R^p(i＝1,2,…,p)为表示样本的第i条个人信用记录；Y＝[y₁,y₂,…,y_n]^T∈R^n×1表示对应于样本数据的类别标签向量，y_j＝1表示履约，记为“好客户”，y_j＝0表示违约，记为“坏客户”；

步骤二：根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简，所述的自适应弹性网络模型AEnet为在弹性网络模型的基础上，在L₁范数惩罚项中加入权重系数来实现变量的自动删选，该模型的准则定义如下式所示：

其中，为β的L₂范数惩罚项，为β的L₁范数惩罚项，而β_i是基于矩阵X与Y的最小二乘估计值，λ₁和λ₂为两个非负的惩罚参数，且

其中，γ和λ₁ ^*为正常数；

步骤三：将经过AEnet模型维度约简后的训练样本集X^*划分为少数样本类及多数样本类，利用类簇质心距离指数化衰减函数计算每个样本的隶属度，构建加权矩阵W，W为一个对角阵，对角线上的元素W_ii即第i个样本的隶属度；

设在训练集X^*上的整体类不平衡比率的倒数为δ，即少数类与多数类样本数之比为δ，则两类样本的隶属度为：

为第i个多数类客户信用记录样本所对应的隶属函数值，为第i个少数类客户信用记录样本所对应的隶属函数值；为评估函数，用于评估特定样本点在特征空间所处位置的重要程度，且考虑样本总体在特征空间的具体分布信息，建立基于类簇质心距离指数化衰减的隶属度确定函数，如下式所示：

为多数类或方差少数类所在簇类质心，为到其所在簇类质心的欧氏距离，σ²为X^*的总体方差；

步骤四：计算隐藏层输出矩阵H：

a_i和b_i分别表示第i个隐藏层节点的权重与偏置，G表示激活函数；

步骤五：计算输出权重矩阵θ的近似解

其中，为隐层输出矩阵H的Moore-Penrose广义逆；Y^*为维度约简后的类别标签向量，且

步骤六：根据改进加权ELM模型IWELM计算第i个样例在隐藏层上的输出向量其中所述的IWELM的形式如下所示：

ε_i表示第i个训练样本的实际输出与期望输出之差；C为惩罚因子，用于调控网络的泛化能力与精确度间的平衡关系，s为删选后的样本数量；

步骤七：根据改进加权ELM模型IWELM得到

其中，I为单位矩阵，T为训练集X^*对应的期望输出向量，将守约客户所对应类别输出节点的期望输出值设为1，违约客户所对应类别节点的输出值则设为0，K为标签类别数目；

步骤八：通过下式可确定该客户所对应的类别标签，从而完成个人信用风险评估；

优选地，λ₁和λ₂为两个非负的惩罚参数，两者最优值通过网格搜索及十折交叉法确定。

优选地，所述的改进加权ELM模型IWELM的输入层的节点为s个，隐藏层为k个，输出层为m个。

优选地，所述的步骤四中第i个隐藏层节点的权重与偏置a_i和b_i均为在[-1,1]区间内随机生成。

一种采用上述任一项的个人信用风险评估方法的个人信用风险评估系统，其特征在于，该系统包括如下模块：

数据采集模块，用于采集并获取原始大规模个人信用记录数据；

数据预处理模块，用于将个人信用记录数据构建模型训练的样本数据矩阵X，标定类别标签，构建标签向量Y；

维度约简模块，用于根据样本数据矩阵X和标签向量Y，利用自适应弹性网络模型AEnet对原始大规模个人信用记录进行维度约简；

数据划分模块：用于将经过AEnet模型维度约简后的训练样本集X^*划分为少数样本类及多数样本类；

隶属度计算模块：用于基于类簇质心距离指数化衰减函数计算每个样本的隶属度，构建加权矩阵W；

信用风险评估模块：根据改进加权ELM模型IWELM实施个人信用风险评估；

评估结果输出模块：用于输出个人信用风险评估结果。

本发明的有益效果是，本发明所提供的方法可以根据给定的大规模征信数据自动删选有效个人信用风险的评估变量，删除无关、弱相关变量，提升待评估征信数据的质量与信息密度，然后利用改进加权极限学习机克服个人信用评价数据展现出的高度非平衡性，同时提升面向大规模征信数据的个人信用风险评估模型的执行速度与效率。同时，所提个人信用风险评估模型在提升评估效率与速度的同时，可以有效处理征信数据集中存在类不平衡问题，增强了评估结果的可靠性和可信度。

附图说明

图1为极限学习机ELM的网络结构示意图；

图2本发明的面向大规模非平衡征信数据的个人信用风险评估方法的流程图；

图3本发明的个人信用风险评估系统框架图；

图4基于AEnet的Iran数据集属性约简过程示意图；

图5基于AEnet的Bene 1数据集属性约简过程示意图；

图6基于AEnet的Bene 2数据集属性约简过程示意图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的面向大规模非平衡征信数据的个人信用风险评估方法，如图2所示，包括如下步骤：

步骤一：要获取搜集的原始大规模个人信用记录数据集，构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y，其中，X＝[x₁,x₂,…,x_p]∈R^n×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵，其中x_i＝[x_1i,x_2i,…,x_pi]^T∈R^p(i＝1,2,…,p)为表示样本的第i条个人信用记录；Y＝[y₁,y₂,…,y_n]^T∈R^n×1表示对应于样本数据的类别标签向量，y_j＝1表示履约，记为“好客户”，y_j＝0表示违约，记为“坏客户”；

步骤二：根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简；

传统的弹性网络(Elastic Net)在Lasso方法的基础上，加入了L₂范数正则项，由于L₂范数的稳定性，该方法表现出了更加优越的性能。

融合L₁范数与L₂范数的弹性网准则定义如下式：

其中为β的L₂范数惩罚项，为β的L₁范数惩罚项，而β_i是基于

矩阵X与Y的最小二乘估计(Ordinary Least Squares，OLS)值。λ₁和λ₂为两个非负的惩罚参数，两者的最优值可以通过网格搜索(Grid Search)及十折交叉法(Ten-foldcross-validation)确定。该弹性网络的L₁范数部分自动进行变量的选择，而L₂范数部分实现变量的组合选择和基于随机样本的稳定解决路径构建，从而提高评估数据质量。

在弹性网络的基础上，结合弹性网络与自适应Lasso算法各自的优势，在式子(1)中的L₁范数惩罚项中加入权重系数来实现变量的自动删选。从而可获得自适应弹性网AEnet的准则定义，如下式所示：

其中γ和λ₁ ^*为正常数，设而

自适应弹性网络(Adaptive Elastic Net，AEnet)模型是一种改进的弹性网络，AEnet的一个突出优点就是能够自适应地选择所有特征中强相关性的特征群，具有组效应性质，可以将相关性高度统一的特征全部选择出来，且相对于传统弹性网络，AEnet能够剔除运算过程中产生的冗余信息，消除负系数，精简运算的同时提高算法的鲁棒性。

对于经过AEnet删选后的高质量征信数据集它为一组包含p个特征、s个样本的个人历史征信记录数据所构成的ELM模型输入训练矩阵，其中为样本的第i条个人信用记录。表示ELM对应于训练样本数据的类别标签输出矩阵，表示履约，记为“好客户”，表示违约，记为“坏客户”(j＝1,2,…,m)。

二、基于改进加权极限学习机IWELM(Improved Weighted Extreme LearningMachine)的个人信用风险评估

极限学习机ELM随机初始化输入权值与隐含层阈值，无需对网络的权重与偏置进行迭代调整，而是通过最小二乘法直接计算得到，故可大幅提升了模型的训练速度，并在一定程度上降低该算法陷入过适应的概率。因此，ELM相较于其他神经网络模型更适合于快速处理大规模数据，ELM网络结构如图1所示。

设该网络具有K个隐含层节点，以零误差拟合上述s个训练样本，则存在θ_i、a_i及b_i，使得ELM输出可以表示为：

其中，a_i和b_i分别表示第i个隐层节点的权重与偏置；θ_i表示第i个隐层节点的输出权重，即第i个隐层节点到各输出节点的连接权重；G表示激活函数，则式(3)可进一步简化为下式：

Hθ＝Y^* (4)

其中

且

H称为隐层输出矩阵，其第i列为第i个隐层节点在所有训练样本上的输出向量，第j行为第j个训练样本在整个隐藏层中对应的输出向量。在ELM中，由于所有a_i和b_i均是在[-1,1]区间内随机生成的，故输入样例、隐层权重与偏置、期望输出(类别标记)均已知，则输出权重矩阵θ的近似解即可由下式直接计算得到：

其中为隐层输出矩阵的Moore-Penrose广义逆。由式(5)可推知为该网络的最小范数最小二乘解。因此，ELM可通过一步计算得到，而无需迭代训练，这就保证了神经网络的训练时间能被大幅缩减。同时，由于在求解过程中，约束了输出权重矩阵θ的L₂范数，使其最小化，故可保证网络具有较强的泛化性能。

但原始的ELM依然存在以下问题：①输出层权值矩阵由隐含层输出矩阵的广义Moore-Penrose逆求出，当隐含层节点数目过多时易出现过拟合现象，降低了ELM的泛化能力；②训练样本中离群点的出现，可能导致所得网络参数并非最优值，使所得网络的泛化能力较差；③利用最小二乘损失函数建立ELM模型时仅考虑了经验风险，而未加入结构风险，对于不平衡分类问题而言，在不同类的样例重叠区域，由于某类样例远远多于另一类，则样例相对较少的一类将会付出更大的错分代价，且类不平衡比例越高，重叠区域越大，则类不平衡分布对ELM性能造成的危害也将越大。

针对上述原始ELM模型在处理大规模非平衡征信数据过程中所存在的不足之处，本发明提出了一种基于类簇质心距离指数化衰减函数的加权ELM模型—IWELM(ImprovedWeighted Extreme Learning Machine)用于处理非平衡数据，其形式如下所示：

其中，ε_i表示第i个训练样本的实际输出与期望输出之差；为第i个样例在隐层上的输出向量；C为惩罚因子，用于调控网络的泛化能力与精确度间的平衡关系；加权矩阵W为一个s×s的对角阵；W_ii为第i个训练样例所对应的权重。若对少数类样例施以比多数类样例更大的权重，则会增大对其训练误差的惩罚力度，从而相应降低其被误分的概率。考虑大规模征信数据中类不平衡比例，设在训练集上的整体类不平衡比率的倒数为δ，即少数类与多数类样本数之比为δ，则可将两类样本的隶属度分别定为：

其中，为某个多数类客户信用记录样本所对应的隶属函数值，为某个少数类客户信用记录样本所对应的隶属函数值；为评估函数，用于评估特定样本点在特征空间所处位置的重要程度。从上式可以看出，的设计充分考虑到了类不平衡比率的影响，少数类样本的权重能被合理、充分地放大。

接下来，考虑样本总体在特征空间的具体分布信息，建立基于类簇质心距离指数化衰减的隶属度确定函数，如下式所示：

为多数类或方差少数类所在簇类质心，为到其所在簇类质心的欧氏距离，σ²为所有样本的总体方差。根据式(8)可得多数类客户信用记录样本所对应的隶属度值为少数类客户信用记录样本所对应的隶属函数值在此基础上，依据每个样本的隶属度值，获得加权矩阵W，W为一个对角阵，对角线上的元素W_ii即第i个样本的隶属度；

最后，对于给定的个人信用记录数据X^*，其对应的实际输出向量Y^*(即个人信用风险评估结果)可由下式求得：

其中I为单位矩阵，T为所有训练样本对应的期望输出向量，将守约客户所对应类别输出节点的期望输出值设为1，违约客户所对应类别节点的输出值则设为0。因此，可通过下式可确定特定客户所对应的类别标签，从而完成个人信用风险评估；

一种面向大规模非平衡征信数据的个人信用风险评估系统，如图3所示，包括：

数据采集模块,用于采集并获取原始大规模个人信用记录数据；

数据预处理模块：用于将个人信用记录数据构建模型训练的数据矩阵X，标定类别标签，构建标签向量Y；

维度约简模块：用于根据数据矩阵X和标签向量Y，利用自适应弹性网络模型AEnet对原始大规模个人信用记录进行维度约简；

信用风险评估模块：根据改进加权ELM模型IWELM实施个人信用风险评估。

评估结果输出模块：用于输出个人信用风险评估结果。

本发明采用从伊朗、比荷卢联盟这两个地区的金融机构中选取Iran、Bene 1和Bene 2这三个类不平衡征信数据集对本发明的方法及其比较算法的性能进行了测试。这些数据集具有不同的样例数、特征数与类不平衡比率，具体如表1所示。

表1测试数据集描述

数据集名称	好客户数(多数类)	坏客户数(少数类)	两类比例δ
				Iran	1000	27	0.027
Bene 1	3123	33	0.0106
				Bene 2	7190	33	0.0046

图4至图6给出了对三个数据集实施基于AEnet的特征选择过程。表2给出了属性约简前后的属性数量。

表2属性约简前后属性数量对比

属性数	Iran	Bene 1	Bene 2
				约简前	27	33	33
约简后	22	15	20

为了体现本发明所提评估方法的优越性，将本发明所提方法与传统ELM以及未改进加权ELM—WELM两种方法进行比较，三个评价方法都采用基于AEnet删选后的数据集进行个人信用风险评估，在评价标准上，除了采用分类精度Accuracy指标以外，还使用类不平衡学习领域中最为常用的两个性能评价测度F-measure和G-mean来比较各类方法的性能，这三个评价指标值越大，表示模型性能越好。比较结果如表3所示。

表3三种模型评估性能比较

从表3中的对比结果可以看出，无论在评估精度上，还是对于非平衡数据评估的性能指标F-measure和G-mean两个指标上，本发明所提的改进加权ELM模型IWELM相较于原始ELM模型以及加权ELM模型都体现出了其优势，证明本发明所提方法是有效的、可靠的。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims

1.一种面向大规模非平衡征信数据的个人信用风险评估方法，其特征在于，该方法包括如下步骤：

步骤一：获取搜集的原始大规模个人信用记录数据集，构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y，其中，X＝[x₁,x₂,…,x_p]∈R^n×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵，其中x_i＝[x_1i,x_2i,…,x_pi]^T∈R^p(i＝1,2,…,p)为表示样本的第i条个人信用记录；Y＝[y₁,y₂,…,y_n]^T∈R^n×1表示对应于样本数据的类别标签向量，y_j＝1表示履约，记为“好客户”，y_j＝0表示违约，记为“坏客户”。

其中，γ和λ₁ ^*为正常数。

为多数类或方差少数类所在簇类质心，为到其所在簇类质心的欧氏距离，σ²为X^*的总体方差。

步骤四：计算隐藏层输出矩阵H：

a_i和b_i分别表示第i个隐藏层节点的权重与偏置，G表示激活函数。

步骤五：计算输出权重矩阵θ的近似解

ε_i表示第i个训练样本的实际输出与期望输出之差；C为惩罚因子，用于调控网络的泛化能力与精确度间的平衡关系，s为删选后的样本数量。

步骤七：根据改进加权ELM模型IWELM得到

其中，I为单位矩阵，T为训练集X^*对应的期望输出向量，将守约客户所对应类别输出节点的期望输出值设为1，违约客户所对应类别节点的输出值则设为0，K为标签类别数目。

2.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法，其特征在于，λ₁和λ₂为两个非负的惩罚参数，两者的最优值通过网格搜索及十折交叉法确定。

3.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法，其特征在于，所述的改进加权ELM模型IWELM的输入层的节点为s个，隐藏层为k个，输出层为m个。

4.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法，其特征在于，所述的步骤四中第i个隐藏层节点的权重与偏置a_i和b_i均为在[-1,1]区间内随机生成。

5.一种采用权利要求1-4任一项的个人信用风险评估方法的个人信用风险评估系统，其特征在于，该系统包括如下模块：

评估结果输出模块：用于输出个人信用风险评估结果。