CN108550077A - 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统 - Google Patents
一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统 Download PDFInfo
- Publication number
- CN108550077A CN108550077A CN201810393852.XA CN201810393852A CN108550077A CN 108550077 A CN108550077 A CN 108550077A CN 201810393852 A CN201810393852 A CN 201810393852A CN 108550077 A CN108550077 A CN 108550077A
- Authority
- CN
- China
- Prior art keywords
- sample
- class
- data
- matrix
- personal credit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims abstract description 45
- 238000012502 risk assessment Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000009467 reduction Effects 0.000 claims abstract description 19
- 230000003044 adaptive effect Effects 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims description 22
- 238000011835 investigation Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000001276 controlling effect Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 206010068052 Mosaicism Diseases 0.000 abstract 1
- 238000013480 data collection Methods 0.000 abstract 1
- 210000003765 sex chromosome Anatomy 0.000 abstract 1
- 230000006870 function Effects 0.000 description 17
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013210 evaluation model Methods 0.000 description 3
- 238000011946 reduction process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011157 data evaluation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统,该方法包括:首先,根据获取的高维大规模非平衡历史征信数据,构建由所获取的历史数据集构建的训练矩阵X,利用自适应弹性网络特征选择算法对给定的历史征信数据集实施维度约简;然后将经过维度约简后的训练样本集划分为少数样本类及多数样本类,根据类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W,设置相关参数,用IWELM模型实施个人信用风险评估。本发明所提的方法克服大规模征信数据展现出的高度非平衡性问题,同时提升个人信用风险评估的执行速度与效率,增强评估结果的可靠性和可信度。
Description
技术领域
本发明涉及数据评估领域,尤其涉及一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统。
背景技术
目前,面向多渠道、碎片化、异构、半结构化和非结构化征信数据的个人信用风险评估方法越来越受到金融服务机构的重视。由于当前采集的信用风险评估数据所展现出的大规模、高维、稀疏以及高度类不平衡等特点,要求在进行评估模型训练前对数据进行相应的属性约简,以提升原数据集的质量与信息密度,从而帮助建立更为有效地个人信用风险评估模型,在此过程中需要采用相应的特征选择算法对粗糙的原数据集进行降维,剔除与评估目标无关及弱相关的变量。在个人信用风险评估领域常用的特征选择方法主要有原始Lasso,以及对原始Lasso的改进算法,如group Lasso、adaptive Lasso及fused Lasso等。
而在个人信用风险评估模型方面,主要分为统计模型与非统计模型两大类,统计类模型典型代表有Logistic回归模型、Probit模型及K-近邻判别模型等;非统计类模型主要包括贝叶斯网络、决策树模型和粗糙集,以及大量的人工智能算法,如神经网络、支持向量机和各类深度学习算法。而人工智能算法在解决大数据信用风险评估问题时更具有优势,更适用于处理具有大量输入变量的稀疏数据,能更好地解决模型过度拟合问题,预测准确度较高,因此人工智能算法越来越受到该研究领域相关学者的重视。
然而,在大规模征信数据特征选择方面,虽然基于Lasso及其改进形式的特征选择算法在实践中被证明是有效的,但依然存在一些缺陷。即Lasso利用L1范数的正则化最小二乘方法进行特征筛选,在样本的特征维数远远大于样本总数时,Lasso的效果不很令人满意,不管所选出的特征数量是否达到饱和,Lasso都最多只能选择样本数量的特征维数,且对于两两之间具有强相关性的一组特征,Lasso倾向于随意地选择其中某一个而忽略该组中所有的其他特征。
并且,在个人信用评估模型方面,现有的评估方法更重视评估精度指标,极少考虑当前大规模征信数据中普遍存在的类不平衡现象,即违约行为大大少于履约,但少量的违约信息中往往隐藏着重要的具有反欺诈价值的信息,传统评估模型的训练目标是追求经验风险或者结构风险最小,经验风险最小是期望求得最低的训练集的误分率,这会使得属于少数类的实例被大量误分,结构风险最小其实是期望求得类间距离最大化,这通常会使得类间隔面被移动到实例分布比较稀疏的类别那一边,从而使得分类器对少数类失灵。且传统算法对大规模数据集的分类效率偏低,构建类间隔面的时间开销也很高。
发明内容
本发明的目的在于针对当前征信数据展现出的大规模、高维、稀疏及高度类不平衡等问题,提供一种面向大规模非平衡征信数据的个人信用风险评估方法及其系统,具体技术方案如下:
一种面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,该方法包括如下步骤:
步骤一:获取搜集的原始大规模个人信用记录数据集,构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y,其中,X=[x1,x2,…,xp]∈Rn×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵,其中xi=[x1i,x2i,…,xpi]T∈Rp(i=1,2,…,p)为表示样本的第i条个人信用记录;Y=[y1,y2,…,yn]T∈Rn×1表示对应于样本数据的类别标签向量,yj=1表示履约,记为“好客户”,yj=0表示违约,记为“坏客户”;
步骤二:根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简,所述的自适应弹性网络模型AEnet为在弹性网络模型的基础上,在L1范数惩罚项中加入权重系数来实现变量的自动删选,该模型的准则定义如下式所示:
其中,为β的L2范数惩罚项,为β的L1范数惩罚项,而βi是基于矩阵X与Y的最小二乘估计值,λ1和λ2为两个非负的惩罚参数,且
其中,γ和λ1 *为正常数;
步骤三:将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类,利用类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W,W为一个对角阵,对角线上的元素Wii即第i个样本的隶属度;
设在训练集X*上的整体类不平衡比率的倒数为δ,即少数类与多数类样本数之比为δ,则两类样本的隶属度为:
为第i个多数类客户信用记录样本所对应的隶属函数值,为第i个少数类客户信用记录样本所对应的隶属函数值;为评估函数,用于评估特定样本点在特征空间所处位置的重要程度,且考虑样本总体在特征空间的具体分布信息,建立基于类簇质心距离指数化衰减的隶属度确定函数,如下式所示:
为多数类或方差少数类所在簇类质心,为到其所在簇类质心的欧氏距离,σ2为X*的总体方差;
步骤四:计算隐藏层输出矩阵H:
ai和bi分别表示第i个隐藏层节点的权重与偏置,G表示激活函数;
步骤五:计算输出权重矩阵θ的近似解
其中,为隐层输出矩阵H的Moore-Penrose广义逆;Y*为维度约简后的类别标签向量,且
步骤六:根据改进加权ELM模型IWELM计算第i个样例在隐藏层上的输出向量其中所述的IWELM的形式如下所示:
εi表示第i个训练样本的实际输出与期望输出之差;C为惩罚因子,用于调控网络的泛化能力与精确度间的平衡关系,s为删选后的样本数量;
步骤七:根据改进加权ELM模型IWELM得到
其中,I为单位矩阵,T为训练集X*对应的期望输出向量,将守约客户所对应类别输出节点的期望输出值设为1,违约客户所对应类别节点的输出值则设为0,K为标签类别数目;
步骤八:通过下式可确定该客户所对应的类别标签,从而完成个人信用风险评估;
优选地,λ1和λ2为两个非负的惩罚参数,两者最优值通过网格搜索及十折交叉法确定。
优选地,所述的改进加权ELM模型IWELM的输入层的节点为s个,隐藏层为k个,输出层为m个。
优选地,所述的步骤四中第i个隐藏层节点的权重与偏置ai和bi均为在[-1,1]区间内随机生成。
一种采用上述任一项的个人信用风险评估方法的个人信用风险评估系统,其特征在于,该系统包括如下模块:
数据采集模块,用于采集并获取原始大规模个人信用记录数据;
数据预处理模块,用于将个人信用记录数据构建模型训练的样本数据矩阵X,标定类别标签,构建标签向量Y;
维度约简模块,用于根据样本数据矩阵X和标签向量Y,利用自适应弹性网络模型AEnet对原始大规模个人信用记录进行维度约简;
数据划分模块:用于将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类;
隶属度计算模块:用于基于类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W;
信用风险评估模块:根据改进加权ELM模型IWELM实施个人信用风险评估;
评估结果输出模块:用于输出个人信用风险评估结果。
本发明的有益效果是,本发明所提供的方法可以根据给定的大规模征信数据自动删选有效个人信用风险的评估变量,删除无关、弱相关变量,提升待评估征信数据的质量与信息密度,然后利用改进加权极限学习机克服个人信用评价数据展现出的高度非平衡性,同时提升面向大规模征信数据的个人信用风险评估模型的执行速度与效率。同时,所提个人信用风险评估模型在提升评估效率与速度的同时,可以有效处理征信数据集中存在类不平衡问题,增强了评估结果的可靠性和可信度。
附图说明
图1为极限学习机ELM的网络结构示意图;
图2本发明的面向大规模非平衡征信数据的个人信用风险评估方法的流程图;
图3本发明的个人信用风险评估系统框架图;
图4基于AEnet的Iran数据集属性约简过程示意图;
图5基于AEnet的Bene 1数据集属性约简过程示意图;
图6基于AEnet的Bene 2数据集属性约简过程示意图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的面向大规模非平衡征信数据的个人信用风险评估方法,如图2所示,包括如下步骤:
步骤一:要获取搜集的原始大规模个人信用记录数据集,构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y,其中,X=[x1,x2,…,xp]∈Rn×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵,其中xi=[x1i,x2i,…,xpi]T∈Rp(i=1,2,…,p)为表示样本的第i条个人信用记录;Y=[y1,y2,…,yn]T∈Rn×1表示对应于样本数据的类别标签向量,yj=1表示履约,记为“好客户”,yj=0表示违约,记为“坏客户”;
步骤二:根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简;
传统的弹性网络(Elastic Net)在Lasso方法的基础上,加入了L2范数正则项,由于L2范数的稳定性,该方法表现出了更加优越的性能。
融合L1范数与L2范数的弹性网准则定义如下式:
其中为β的L2范数惩罚项,为β的L1范数惩罚项,而βi是基于
矩阵X与Y的最小二乘估计(Ordinary Least Squares,OLS)值。λ1和λ2为两个非负的惩罚参数,两者的最优值可以通过网格搜索(Grid Search)及十折交叉法(Ten-foldcross-validation)确定。该弹性网络的L1范数部分自动进行变量的选择,而L2范数部分实现变量的组合选择和基于随机样本的稳定解决路径构建,从而提高评估数据质量。
在弹性网络的基础上,结合弹性网络与自适应Lasso算法各自的优势,在式子(1)中的L1范数惩罚项中加入权重系数来实现变量的自动删选。从而可获得自适应弹性网AEnet的准则定义,如下式所示:
其中γ和λ1 *为正常数,设而
自适应弹性网络(Adaptive Elastic Net,AEnet)模型是一种改进的弹性网络,AEnet的一个突出优点就是能够自适应地选择所有特征中强相关性的特征群,具有组效应性质,可以将相关性高度统一的特征全部选择出来,且相对于传统弹性网络,AEnet能够剔除运算过程中产生的冗余信息,消除负系数,精简运算的同时提高算法的鲁棒性。
对于经过AEnet删选后的高质量征信数据集它为一组包含p个特征、s个样本的个人历史征信记录数据所构成的ELM模型输入训练矩阵,其中为样本的第i条个人信用记录。表示ELM对应于训练样本数据的类别标签输出矩阵,表示履约,记为“好客户”,表示违约,记为“坏客户”(j=1,2,…,m)。
二、基于改进加权极限学习机IWELM(Improved Weighted Extreme LearningMachine)的个人信用风险评估
极限学习机ELM随机初始化输入权值与隐含层阈值,无需对网络的权重与偏置进行迭代调整,而是通过最小二乘法直接计算得到,故可大幅提升了模型的训练速度,并在一定程度上降低该算法陷入过适应的概率。因此,ELM相较于其他神经网络模型更适合于快速处理大规模数据,ELM网络结构如图1所示。
设该网络具有K个隐含层节点,以零误差拟合上述s个训练样本,则存在θi、ai及bi,使得ELM输出可以表示为:
其中,ai和bi分别表示第i个隐层节点的权重与偏置;θi表示第i个隐层节点的输出权重,即第i个隐层节点到各输出节点的连接权重;G表示激活函数,则式(3)可进一步简化为下式:
Hθ=Y* (4)
其中
且
H称为隐层输出矩阵,其第i列为第i个隐层节点在所有训练样本上的输出向量,第j行为第j个训练样本在整个隐藏层中对应的输出向量。在ELM中,由于所有ai和bi均是在[-1,1]区间内随机生成的,故输入样例、隐层权重与偏置、期望输出(类别标记)均已知,则输出权重矩阵θ的近似解即可由下式直接计算得到:
其中为隐层输出矩阵的Moore-Penrose广义逆。由式(5)可推知为该网络的最小范数最小二乘解。因此,ELM可通过一步计算得到,而无需迭代训练,这就保证了神经网络的训练时间能被大幅缩减。同时,由于在求解过程中,约束了输出权重矩阵θ的L2范数,使其最小化,故可保证网络具有较强的泛化性能。
但原始的ELM依然存在以下问题:①输出层权值矩阵由隐含层输出矩阵的广义Moore-Penrose逆求出,当隐含层节点数目过多时易出现过拟合现象,降低了ELM的泛化能力;②训练样本中离群点的出现,可能导致所得网络参数并非最优值,使所得网络的泛化能力较差;③利用最小二乘损失函数建立ELM模型时仅考虑了经验风险,而未加入结构风险,对于不平衡分类问题而言,在不同类的样例重叠区域,由于某类样例远远多于另一类,则样例相对较少的一类将会付出更大的错分代价,且类不平衡比例越高,重叠区域越大,则类不平衡分布对ELM性能造成的危害也将越大。
针对上述原始ELM模型在处理大规模非平衡征信数据过程中所存在的不足之处,本发明提出了一种基于类簇质心距离指数化衰减函数的加权ELM模型—IWELM(ImprovedWeighted Extreme Learning Machine)用于处理非平衡数据,其形式如下所示:
其中,εi表示第i个训练样本的实际输出与期望输出之差;为第i个样例在隐层上的输出向量;C为惩罚因子,用于调控网络的泛化能力与精确度间的平衡关系;加权矩阵W为一个s×s的对角阵;Wii为第i个训练样例所对应的权重。若对少数类样例施以比多数类样例更大的权重,则会增大对其训练误差的惩罚力度,从而相应降低其被误分的概率。考虑大规模征信数据中类不平衡比例,设在训练集上的整体类不平衡比率的倒数为δ,即少数类与多数类样本数之比为δ,则可将两类样本的隶属度分别定为:
其中,为某个多数类客户信用记录样本所对应的隶属函数值,为某个少数类客户信用记录样本所对应的隶属函数值;为评估函数,用于评估特定样本点在特征空间所处位置的重要程度。从上式可以看出,的设计充分考虑到了类不平衡比率的影响,少数类样本的权重能被合理、充分地放大。
接下来,考虑样本总体在特征空间的具体分布信息,建立基于类簇质心距离指数化衰减的隶属度确定函数,如下式所示:
为多数类或方差少数类所在簇类质心,为到其所在簇类质心的欧氏距离,σ2为所有样本的总体方差。根据式(8)可得多数类客户信用记录样本所对应的隶属度值为少数类客户信用记录样本所对应的隶属函数值在此基础上,依据每个样本的隶属度值,获得加权矩阵W,W为一个对角阵,对角线上的元素Wii即第i个样本的隶属度;
最后,对于给定的个人信用记录数据X*,其对应的实际输出向量Y*(即个人信用风险评估结果)可由下式求得:
其中I为单位矩阵,T为所有训练样本对应的期望输出向量,将守约客户所对应类别输出节点的期望输出值设为1,违约客户所对应类别节点的输出值则设为0。因此,可通过下式可确定特定客户所对应的类别标签,从而完成个人信用风险评估;
一种面向大规模非平衡征信数据的个人信用风险评估系统,如图3所示,包括:
数据采集模块,用于采集并获取原始大规模个人信用记录数据;
数据预处理模块:用于将个人信用记录数据构建模型训练的数据矩阵X,标定类别标签,构建标签向量Y;
维度约简模块:用于根据数据矩阵X和标签向量Y,利用自适应弹性网络模型AEnet对原始大规模个人信用记录进行维度约简;
数据划分模块:用于将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类;
隶属度计算模块:用于基于类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W;
信用风险评估模块:根据改进加权ELM模型IWELM实施个人信用风险评估。
评估结果输出模块:用于输出个人信用风险评估结果。
本发明采用从伊朗、比荷卢联盟这两个地区的金融机构中选取Iran、Bene 1和Bene 2这三个类不平衡征信数据集对本发明的方法及其比较算法的性能进行了测试。这些数据集具有不同的样例数、特征数与类不平衡比率,具体如表1所示。
表1测试数据集描述
数据集名称 | 好客户数(多数类) | 坏客户数(少数类) | 两类比例δ |
Iran | 1000 | 27 | 0.027 |
Bene 1 | 3123 | 33 | 0.0106 |
Bene 2 | 7190 | 33 | 0.0046 |
图4至图6给出了对三个数据集实施基于AEnet的特征选择过程。表2给出了属性约简前后的属性数量。
表2属性约简前后属性数量对比
属性数 | Iran | Bene 1 | Bene 2 |
约简前 | 27 | 33 | 33 |
约简后 | 22 | 15 | 20 |
为了体现本发明所提评估方法的优越性,将本发明所提方法与传统ELM以及未改进加权ELM—WELM两种方法进行比较,三个评价方法都采用基于AEnet删选后的数据集进行个人信用风险评估,在评价标准上,除了采用分类精度Accuracy指标以外,还使用类不平衡学习领域中最为常用的两个性能评价测度F-measure和G-mean来比较各类方法的性能,这三个评价指标值越大,表示模型性能越好。比较结果如表3所示。
表3三种模型评估性能比较
从表3中的对比结果可以看出,无论在评估精度上,还是对于非平衡数据评估的性能指标F-measure和G-mean两个指标上,本发明所提的改进加权ELM模型IWELM相较于原始ELM模型以及加权ELM模型都体现出了其优势,证明本发明所提方法是有效的、可靠的。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (5)
1.一种面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,该方法包括如下步骤:
步骤一:获取搜集的原始大规模个人信用记录数据集,构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y,其中,X=[x1,x2,…,xp]∈Rn×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵,其中xi=[x1i,x2i,…,xpi]T∈Rp(i=1,2,…,p)为表示样本的第i条个人信用记录;Y=[y1,y2,…,yn]T∈Rn×1表示对应于样本数据的类别标签向量,yj=1表示履约,记为“好客户”,yj=0表示违约,记为“坏客户”。
步骤二:根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简,所述的自适应弹性网络模型AEnet为在弹性网络模型的基础上,在L1范数惩罚项中加入权重系数来实现变量的自动删选,该模型的准则定义如下式所示:
其中,为β的L2范数惩罚项,为β的L1范数惩罚项,而βi是基于矩阵X与Y的最小二乘估计值,λ1和λ2为两个非负的惩罚参数,且
其中,γ和λ1 *为正常数。
步骤三:将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类,利用类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W,W为一个对角阵,对角线上的元素Wii即第i个样本的隶属度;
设在训练集X*上的整体类不平衡比率的倒数为δ,即少数类与多数类样本数之比为δ,则两类样本的隶属度为:
为第i个多数类客户信用记录样本所对应的隶属函数值,为第i个少数类客户信用记录样本所对应的隶属函数值;为评估函数,用于评估特定样本点在特征空间所处位置的重要程度,且考虑样本总体在特征空间的具体分布信息,建立基于类簇质心距离指数化衰减的隶属度确定函数,如下式所示:
为多数类或方差少数类所在簇类质心,为到其所在簇类质心的欧氏距离,σ2为X*的总体方差。
步骤四:计算隐藏层输出矩阵H:
ai和bi分别表示第i个隐藏层节点的权重与偏置,G表示激活函数。
步骤五:计算输出权重矩阵θ的近似解
其中,为隐层输出矩阵H的Moore-Penrose广义逆;Y*为维度约简后的类别标签向量,且
步骤六:根据改进加权ELM模型IWELM计算第i个样例在隐藏层上的输出向量其中所述的IWELM的形式如下所示:
εi表示第i个训练样本的实际输出与期望输出之差;C为惩罚因子,用于调控网络的泛化能力与精确度间的平衡关系,s为删选后的样本数量。
步骤七:根据改进加权ELM模型IWELM得到
其中,I为单位矩阵,T为训练集X*对应的期望输出向量,将守约客户所对应类别输出节点的期望输出值设为1,违约客户所对应类别节点的输出值则设为0,K为标签类别数目。
步骤八:通过下式可确定该客户所对应的类别标签,从而完成个人信用风险评估;
2.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,λ1和λ2为两个非负的惩罚参数,两者的最优值通过网格搜索及十折交叉法确定。
3.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,所述的改进加权ELM模型IWELM的输入层的节点为s个,隐藏层为k个,输出层为m个。
4.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,所述的步骤四中第i个隐藏层节点的权重与偏置ai和bi均为在[-1,1]区间内随机生成。
5.一种采用权利要求1-4任一项的个人信用风险评估方法的个人信用风险评估系统,其特征在于,该系统包括如下模块:
数据采集模块,用于采集并获取原始大规模个人信用记录数据;
数据预处理模块,用于将个人信用记录数据构建模型训练的样本数据矩阵X,标定类别标签,构建标签向量Y;
维度约简模块,用于根据样本数据矩阵X和标签向量Y,利用自适应弹性网络模型AEnet对原始大规模个人信用记录进行维度约简;
数据划分模块:用于将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类;
隶属度计算模块:用于基于类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W;
信用风险评估模块:根据改进加权ELM模型IWELM实施个人信用风险评估;
评估结果输出模块:用于输出个人信用风险评估结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810393852.XA CN108550077A (zh) | 2018-04-27 | 2018-04-27 | 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810393852.XA CN108550077A (zh) | 2018-04-27 | 2018-04-27 | 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108550077A true CN108550077A (zh) | 2018-09-18 |
Family
ID=63512916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810393852.XA Pending CN108550077A (zh) | 2018-04-27 | 2018-04-27 | 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108550077A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872231A (zh) * | 2019-02-18 | 2019-06-11 | 南京务本信息科技有限责任公司 | 一种基于动态集对分析的个人信用评估方法及系统 |
CN110309472A (zh) * | 2019-06-03 | 2019-10-08 | 清华大学 | 基于离线数据的策略评估方法及装置 |
CN110378786A (zh) * | 2019-07-29 | 2019-10-25 | 中国工商银行股份有限公司 | 模型训练方法、违约传导风险识别方法、装置及存储介质 |
CN110400215A (zh) * | 2019-07-31 | 2019-11-01 | 浪潮软件集团有限公司 | 面向企业家族的小微企业信用评估模型构建方法及系统 |
CN110751400A (zh) * | 2019-10-22 | 2020-02-04 | 宜人恒业科技发展(北京)有限公司 | 一种风险评估方法及装置 |
CN111127184A (zh) * | 2019-11-01 | 2020-05-08 | 复旦大学 | 一种分布式组合信用评估方法 |
CN111369139A (zh) * | 2020-03-03 | 2020-07-03 | 电子科技大学 | 一种个体信用风险评估方法、系统、终端及存储介质 |
CN112581191A (zh) * | 2020-08-14 | 2021-03-30 | 支付宝(杭州)信息技术有限公司 | 行为预测模型的训练方法及装置 |
CN113034262A (zh) * | 2019-12-25 | 2021-06-25 | 陕西云基华海信息技术有限公司 | 一种基于大数据技术的个人信用评价动态集成算法 |
CN113221989A (zh) * | 2021-04-30 | 2021-08-06 | 浙江网商银行股份有限公司 | 基于分布式的评估模型训练方法、系统以及装置 |
CN113870013A (zh) * | 2021-10-14 | 2021-12-31 | 浙江孚临科技有限公司 | 基于不平衡数据的信贷违约预测方法 |
-
2018
- 2018-04-27 CN CN201810393852.XA patent/CN108550077A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872231A (zh) * | 2019-02-18 | 2019-06-11 | 南京务本信息科技有限责任公司 | 一种基于动态集对分析的个人信用评估方法及系统 |
CN110309472B (zh) * | 2019-06-03 | 2022-04-29 | 清华大学 | 基于离线数据的策略评估方法及装置 |
CN110309472A (zh) * | 2019-06-03 | 2019-10-08 | 清华大学 | 基于离线数据的策略评估方法及装置 |
CN110378786A (zh) * | 2019-07-29 | 2019-10-25 | 中国工商银行股份有限公司 | 模型训练方法、违约传导风险识别方法、装置及存储介质 |
CN110400215A (zh) * | 2019-07-31 | 2019-11-01 | 浪潮软件集团有限公司 | 面向企业家族的小微企业信用评估模型构建方法及系统 |
CN110400215B (zh) * | 2019-07-31 | 2023-11-03 | 浪潮软件集团有限公司 | 面向企业家族的小微企业信用评估模型构建方法及系统 |
CN110751400A (zh) * | 2019-10-22 | 2020-02-04 | 宜人恒业科技发展(北京)有限公司 | 一种风险评估方法及装置 |
CN110751400B (zh) * | 2019-10-22 | 2022-08-02 | 宜人恒业科技发展(北京)有限公司 | 一种风险评估方法及装置 |
CN111127184A (zh) * | 2019-11-01 | 2020-05-08 | 复旦大学 | 一种分布式组合信用评估方法 |
CN113034262A (zh) * | 2019-12-25 | 2021-06-25 | 陕西云基华海信息技术有限公司 | 一种基于大数据技术的个人信用评价动态集成算法 |
CN111369139A (zh) * | 2020-03-03 | 2020-07-03 | 电子科技大学 | 一种个体信用风险评估方法、系统、终端及存储介质 |
CN112581191A (zh) * | 2020-08-14 | 2021-03-30 | 支付宝(杭州)信息技术有限公司 | 行为预测模型的训练方法及装置 |
CN113221989A (zh) * | 2021-04-30 | 2021-08-06 | 浙江网商银行股份有限公司 | 基于分布式的评估模型训练方法、系统以及装置 |
CN113870013A (zh) * | 2021-10-14 | 2021-12-31 | 浙江孚临科技有限公司 | 基于不平衡数据的信贷违约预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108550077A (zh) | 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统 | |
CA3088899C (en) | Systems and methods for preparing data for use by machine learning algorithms | |
CN110866030A (zh) | 一种基于无监督学习的数据库异常访问检测方法 | |
CN109783879B (zh) | 一种雷达辐射源信号识别效能评估方法及系统 | |
CN110991474A (zh) | 一种机器学习建模平台 | |
US11971892B2 (en) | Methods for stratified sampling-based query execution | |
CN115688024B (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN113568368B (zh) | 一种工控数据特征重排序算法的自适应确定方法 | |
CN114116829A (zh) | 异常数据分析方法、异常数据分析系统和存储介质 | |
CN112529683A (zh) | 一种基于cs-pnn的客户信贷风险的评估方法及系统 | |
CN111461225A (zh) | 聚类系统及其方法 | |
WO2024131524A1 (zh) | 一种基于食物图像分割的抑郁症膳食管理方法 | |
CN115033591B (zh) | 一种电费数据异常智能检测方法、系统、存储介质及计算机设备 | |
CN114898167A (zh) | 基于视图间差异性检测的多视图子空间聚类方法及系统 | |
CN110472659A (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
Diao et al. | Clustering by Detecting Density Peaks and Assigning Points by Similarity‐First Search Based on Weighted K‐Nearest Neighbors Graph | |
CN113516189A (zh) | 基于两阶段随机森林算法的网站恶意用户预测方法 | |
CN111353525A (zh) | 一种不均衡不完整数据集的建模及缺失值填补方法 | |
Lasri et al. | Toward an effective analysis of COVID-19 Moroccan business survey data using machine learning techniques | |
CN116070713A (zh) | 一种基于可解释性联邦学习缓解Non-IID影响的方法 | |
KR101085066B1 (ko) | 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법 | |
CN114881102A (zh) | 一种面向数值型数据的稀有类检测方法 | |
CN113837913A (zh) | 一种村镇耕地资源承载力关键阈值确定方法及装置 | |
KR20210084115A (ko) | 3차원 포인트 클라우드 신뢰도 판단 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180918 |