CN108550077A - 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统 - Google Patents

一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统 Download PDF

Info

Publication number
CN108550077A
CN108550077A CN201810393852.XA CN201810393852A CN108550077A CN 108550077 A CN108550077 A CN 108550077A CN 201810393852 A CN201810393852 A CN 201810393852A CN 108550077 A CN108550077 A CN 108550077A
Authority
CN
China
Prior art keywords
sample
class
data
credit
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810393852.XA
Other languages
English (en)
Inventor
徐达宇
魏致善
蓝倩
施宇伦
林路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUNYARD SYSTEM ENGINEERING Co Ltd
Zhejiang A&F University ZAFU
Original Assignee
SUNYARD SYSTEM ENGINEERING Co Ltd
Zhejiang A&F University ZAFU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUNYARD SYSTEM ENGINEERING Co Ltd, Zhejiang A&F University ZAFU filed Critical SUNYARD SYSTEM ENGINEERING Co Ltd
Priority to CN201810393852.XA priority Critical patent/CN108550077A/zh
Publication of CN108550077A publication Critical patent/CN108550077A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统,该方法包括:首先,根据获取的高维大规模非平衡历史征信数据,构建由所获取的历史数据集构建的训练矩阵X,利用自适应弹性网络特征选择算法对给定的历史征信数据集实施维度约简;然后将经过维度约简后的训练样本集划分为少数样本类及多数样本类,根据类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W,设置相关参数,用IWELM模型实施个人信用风险评估。本发明所提的方法克服大规模征信数据展现出的高度非平衡性问题,同时提升个人信用风险评估的执行速度与效率,增强评估结果的可靠性和可信度。

Description

一种面向大规模非平衡征信数据的个人信用风险评估方法及 评估系统
技术领域
本发明涉及数据评估领域,尤其涉及一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统。
背景技术
目前,面向多渠道、碎片化、异构、半结构化和非结构化征信数据的个人信用风险评估方法越来越受到金融服务机构的重视。由于当前采集的信用风险评估数据所展现出的大规模、高维、稀疏以及高度类不平衡等特点,要求在进行评估模型训练前对数据进行相应的属性约简,以提升原数据集的质量与信息密度,从而帮助建立更为有效地个人信用风险评估模型,在此过程中需要采用相应的特征选择算法对粗糙的原数据集进行降维,剔除与评估目标无关及弱相关的变量。在个人信用风险评估领域常用的特征选择方法主要有原始Lasso,以及对原始Lasso的改进算法,如group Lasso、adaptive Lasso及fused Lasso等。
而在个人信用风险评估模型方面,主要分为统计模型与非统计模型两大类,统计类模型典型代表有Logistic回归模型、Probit模型及K-近邻判别模型等;非统计类模型主要包括贝叶斯网络、决策树模型和粗糙集,以及大量的人工智能算法,如神经网络、支持向量机和各类深度学习算法。而人工智能算法在解决大数据信用风险评估问题时更具有优势,更适用于处理具有大量输入变量的稀疏数据,能更好地解决模型过度拟合问题,预测准确度较高,因此人工智能算法越来越受到该研究领域相关学者的重视。
然而,在大规模征信数据特征选择方面,虽然基于Lasso及其改进形式的特征选择算法在实践中被证明是有效的,但依然存在一些缺陷。即Lasso利用L1范数的正则化最小二乘方法进行特征筛选,在样本的特征维数远远大于样本总数时,Lasso的效果不很令人满意,不管所选出的特征数量是否达到饱和,Lasso都最多只能选择样本数量的特征维数,且对于两两之间具有强相关性的一组特征,Lasso倾向于随意地选择其中某一个而忽略该组中所有的其他特征。
并且,在个人信用评估模型方面,现有的评估方法更重视评估精度指标,极少考虑当前大规模征信数据中普遍存在的类不平衡现象,即违约行为大大少于履约,但少量的违约信息中往往隐藏着重要的具有反欺诈价值的信息,传统评估模型的训练目标是追求经验风险或者结构风险最小,经验风险最小是期望求得最低的训练集的误分率,这会使得属于少数类的实例被大量误分,结构风险最小其实是期望求得类间距离最大化,这通常会使得类间隔面被移动到实例分布比较稀疏的类别那一边,从而使得分类器对少数类失灵。且传统算法对大规模数据集的分类效率偏低,构建类间隔面的时间开销也很高。
发明内容
本发明的目的在于针对当前征信数据展现出的大规模、高维、稀疏及高度类不平衡等问题,提供一种面向大规模非平衡征信数据的个人信用风险评估方法及其系统,具体技术方案如下:
一种面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,该方法包括如下步骤:
步骤一:获取搜集的原始大规模个人信用记录数据集,构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y,其中,X=[x1,x2,…,xp]∈Rn×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵,其中xi=[x1i,x2i,…,xpi]T∈Rp(i=1,2,…,p)为表示样本的第i条个人信用记录;Y=[y1,y2,…,yn]T∈Rn×1表示对应于样本数据的类别标签向量,yj=1表示履约,记为“好客户”,yj=0表示违约,记为“坏客户”;
步骤二:根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简,所述的自适应弹性网络模型AEnet为在弹性网络模型的基础上,在L1范数惩罚项中加入权重系数来实现变量的自动删选,该模型的准则定义如下式所示:
其中,为β的L2范数惩罚项,为β的L1范数惩罚项,而βi是基于矩阵X与Y的最小二乘估计值,λ1和λ2为两个非负的惩罚参数,且
其中,γ和λ1 *为正常数;
步骤三:将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类,利用类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W,W为一个对角阵,对角线上的元素Wii即第i个样本的隶属度;
设在训练集X*上的整体类不平衡比率的倒数为δ,即少数类与多数类样本数之比为δ,则两类样本的隶属度为:
为第i个多数类客户信用记录样本所对应的隶属函数值,为第i个少数类客户信用记录样本所对应的隶属函数值;为评估函数,用于评估特定样本点在特征空间所处位置的重要程度,且考虑样本总体在特征空间的具体分布信息,建立基于类簇质心距离指数化衰减的隶属度确定函数,如下式所示:
为多数类或方差少数类所在簇类质心,到其所在簇类质心的欧氏距离,σ2为X*的总体方差;
步骤四:计算隐藏层输出矩阵H:
ai和bi分别表示第i个隐藏层节点的权重与偏置,G表示激活函数;
步骤五:计算输出权重矩阵θ的近似解
其中,为隐层输出矩阵H的Moore-Penrose广义逆;Y*为维度约简后的类别标签向量,且
步骤六:根据改进加权ELM模型IWELM计算第i个样例在隐藏层上的输出向量其中所述的IWELM的形式如下所示:
εi表示第i个训练样本的实际输出与期望输出之差;C为惩罚因子,用于调控网络的泛化能力与精确度间的平衡关系,s为删选后的样本数量;
步骤七:根据改进加权ELM模型IWELM得到
其中,I为单位矩阵,T为训练集X*对应的期望输出向量,将守约客户所对应类别输出节点的期望输出值设为1,违约客户所对应类别节点的输出值则设为0,K为标签类别数目;
步骤八:通过下式可确定该客户所对应的类别标签,从而完成个人信用风险评估;
优选地,λ1和λ2为两个非负的惩罚参数,两者最优值通过网格搜索及十折交叉法确定。
优选地,所述的改进加权ELM模型IWELM的输入层的节点为s个,隐藏层为k个,输出层为m个。
优选地,所述的步骤四中第i个隐藏层节点的权重与偏置ai和bi均为在[-1,1]区间内随机生成。
一种采用上述任一项的个人信用风险评估方法的个人信用风险评估系统,其特征在于,该系统包括如下模块:
数据采集模块,用于采集并获取原始大规模个人信用记录数据;
数据预处理模块,用于将个人信用记录数据构建模型训练的样本数据矩阵X,标定类别标签,构建标签向量Y;
维度约简模块,用于根据样本数据矩阵X和标签向量Y,利用自适应弹性网络模型AEnet对原始大规模个人信用记录进行维度约简;
数据划分模块:用于将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类;
隶属度计算模块:用于基于类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W;
信用风险评估模块:根据改进加权ELM模型IWELM实施个人信用风险评估;
评估结果输出模块:用于输出个人信用风险评估结果。
本发明的有益效果是,本发明所提供的方法可以根据给定的大规模征信数据自动删选有效个人信用风险的评估变量,删除无关、弱相关变量,提升待评估征信数据的质量与信息密度,然后利用改进加权极限学习机克服个人信用评价数据展现出的高度非平衡性,同时提升面向大规模征信数据的个人信用风险评估模型的执行速度与效率。同时,所提个人信用风险评估模型在提升评估效率与速度的同时,可以有效处理征信数据集中存在类不平衡问题,增强了评估结果的可靠性和可信度。
附图说明
图1为极限学习机ELM的网络结构示意图;
图2本发明的面向大规模非平衡征信数据的个人信用风险评估方法的流程图;
图3本发明的个人信用风险评估系统框架图;
图4基于AEnet的Iran数据集属性约简过程示意图;
图5基于AEnet的Bene 1数据集属性约简过程示意图;
图6基于AEnet的Bene 2数据集属性约简过程示意图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的面向大规模非平衡征信数据的个人信用风险评估方法,如图2所示,包括如下步骤:
步骤一:要获取搜集的原始大规模个人信用记录数据集,构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y,其中,X=[x1,x2,…,xp]∈Rn×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵,其中xi=[x1i,x2i,…,xpi]T∈Rp(i=1,2,…,p)为表示样本的第i条个人信用记录;Y=[y1,y2,…,yn]T∈Rn×1表示对应于样本数据的类别标签向量,yj=1表示履约,记为“好客户”,yj=0表示违约,记为“坏客户”;
步骤二:根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简;
传统的弹性网络(Elastic Net)在Lasso方法的基础上,加入了L2范数正则项,由于L2范数的稳定性,该方法表现出了更加优越的性能。
融合L1范数与L2范数的弹性网准则定义如下式:
其中为β的L2范数惩罚项,为β的L1范数惩罚项,而βi是基于
矩阵X与Y的最小二乘估计(Ordinary Least Squares,OLS)值。λ1和λ2为两个非负的惩罚参数,两者的最优值可以通过网格搜索(Grid Search)及十折交叉法(Ten-foldcross-validation)确定。该弹性网络的L1范数部分自动进行变量的选择,而L2范数部分实现变量的组合选择和基于随机样本的稳定解决路径构建,从而提高评估数据质量。
在弹性网络的基础上,结合弹性网络与自适应Lasso算法各自的优势,在式子(1)中的L1范数惩罚项中加入权重系数来实现变量的自动删选。从而可获得自适应弹性网AEnet的准则定义,如下式所示:
其中γ和λ1 *为正常数,设
自适应弹性网络(Adaptive Elastic Net,AEnet)模型是一种改进的弹性网络,AEnet的一个突出优点就是能够自适应地选择所有特征中强相关性的特征群,具有组效应性质,可以将相关性高度统一的特征全部选择出来,且相对于传统弹性网络,AEnet能够剔除运算过程中产生的冗余信息,消除负系数,精简运算的同时提高算法的鲁棒性。
对于经过AEnet删选后的高质量征信数据集它为一组包含p个特征、s个样本的个人历史征信记录数据所构成的ELM模型输入训练矩阵,其中为样本的第i条个人信用记录。表示ELM对应于训练样本数据的类别标签输出矩阵,表示履约,记为“好客户”,表示违约,记为“坏客户”(j=1,2,…,m)。
二、基于改进加权极限学习机IWELM(Improved Weighted Extreme LearningMachine)的个人信用风险评估
极限学习机ELM随机初始化输入权值与隐含层阈值,无需对网络的权重与偏置进行迭代调整,而是通过最小二乘法直接计算得到,故可大幅提升了模型的训练速度,并在一定程度上降低该算法陷入过适应的概率。因此,ELM相较于其他神经网络模型更适合于快速处理大规模数据,ELM网络结构如图1所示。
设该网络具有K个隐含层节点,以零误差拟合上述s个训练样本,则存在θi、ai及bi,使得ELM输出可以表示为:
其中,ai和bi分别表示第i个隐层节点的权重与偏置;θi表示第i个隐层节点的输出权重,即第i个隐层节点到各输出节点的连接权重;G表示激活函数,则式(3)可进一步简化为下式:
Hθ=Y* (4)
其中
H称为隐层输出矩阵,其第i列为第i个隐层节点在所有训练样本上的输出向量,第j行为第j个训练样本在整个隐藏层中对应的输出向量。在ELM中,由于所有ai和bi均是在[-1,1]区间内随机生成的,故输入样例、隐层权重与偏置、期望输出(类别标记)均已知,则输出权重矩阵θ的近似解即可由下式直接计算得到:
其中为隐层输出矩阵的Moore-Penrose广义逆。由式(5)可推知为该网络的最小范数最小二乘解。因此,ELM可通过一步计算得到,而无需迭代训练,这就保证了神经网络的训练时间能被大幅缩减。同时,由于在求解过程中,约束了输出权重矩阵θ的L2范数,使其最小化,故可保证网络具有较强的泛化性能。
但原始的ELM依然存在以下问题:①输出层权值矩阵由隐含层输出矩阵的广义Moore-Penrose逆求出,当隐含层节点数目过多时易出现过拟合现象,降低了ELM的泛化能力;②训练样本中离群点的出现,可能导致所得网络参数并非最优值,使所得网络的泛化能力较差;③利用最小二乘损失函数建立ELM模型时仅考虑了经验风险,而未加入结构风险,对于不平衡分类问题而言,在不同类的样例重叠区域,由于某类样例远远多于另一类,则样例相对较少的一类将会付出更大的错分代价,且类不平衡比例越高,重叠区域越大,则类不平衡分布对ELM性能造成的危害也将越大。
针对上述原始ELM模型在处理大规模非平衡征信数据过程中所存在的不足之处,本发明提出了一种基于类簇质心距离指数化衰减函数的加权ELM模型—IWELM(ImprovedWeighted Extreme Learning Machine)用于处理非平衡数据,其形式如下所示:
其中,εi表示第i个训练样本的实际输出与期望输出之差;为第i个样例在隐层上的输出向量;C为惩罚因子,用于调控网络的泛化能力与精确度间的平衡关系;加权矩阵W为一个s×s的对角阵;Wii为第i个训练样例所对应的权重。若对少数类样例施以比多数类样例更大的权重,则会增大对其训练误差的惩罚力度,从而相应降低其被误分的概率。考虑大规模征信数据中类不平衡比例,设在训练集上的整体类不平衡比率的倒数为δ,即少数类与多数类样本数之比为δ,则可将两类样本的隶属度分别定为:
其中,为某个多数类客户信用记录样本所对应的隶属函数值,为某个少数类客户信用记录样本所对应的隶属函数值;为评估函数,用于评估特定样本点在特征空间所处位置的重要程度。从上式可以看出,的设计充分考虑到了类不平衡比率的影响,少数类样本的权重能被合理、充分地放大。
接下来,考虑样本总体在特征空间的具体分布信息,建立基于类簇质心距离指数化衰减的隶属度确定函数,如下式所示:
为多数类或方差少数类所在簇类质心,到其所在簇类质心的欧氏距离,σ2为所有样本的总体方差。根据式(8)可得多数类客户信用记录样本所对应的隶属度值为少数类客户信用记录样本所对应的隶属函数值在此基础上,依据每个样本的隶属度值,获得加权矩阵W,W为一个对角阵,对角线上的元素Wii即第i个样本的隶属度;
最后,对于给定的个人信用记录数据X*,其对应的实际输出向量Y*(即个人信用风险评估结果)可由下式求得:
其中I为单位矩阵,T为所有训练样本对应的期望输出向量,将守约客户所对应类别输出节点的期望输出值设为1,违约客户所对应类别节点的输出值则设为0。因此,可通过下式可确定特定客户所对应的类别标签,从而完成个人信用风险评估;
一种面向大规模非平衡征信数据的个人信用风险评估系统,如图3所示,包括:
数据采集模块,用于采集并获取原始大规模个人信用记录数据;
数据预处理模块:用于将个人信用记录数据构建模型训练的数据矩阵X,标定类别标签,构建标签向量Y;
维度约简模块:用于根据数据矩阵X和标签向量Y,利用自适应弹性网络模型AEnet对原始大规模个人信用记录进行维度约简;
数据划分模块:用于将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类;
隶属度计算模块:用于基于类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W;
信用风险评估模块:根据改进加权ELM模型IWELM实施个人信用风险评估。
评估结果输出模块:用于输出个人信用风险评估结果。
本发明采用从伊朗、比荷卢联盟这两个地区的金融机构中选取Iran、Bene 1和Bene 2这三个类不平衡征信数据集对本发明的方法及其比较算法的性能进行了测试。这些数据集具有不同的样例数、特征数与类不平衡比率,具体如表1所示。
表1测试数据集描述
数据集名称 好客户数(多数类) 坏客户数(少数类) 两类比例δ
Iran 1000 27 0.027
Bene 1 3123 33 0.0106
Bene 2 7190 33 0.0046
图4至图6给出了对三个数据集实施基于AEnet的特征选择过程。表2给出了属性约简前后的属性数量。
表2属性约简前后属性数量对比
属性数 Iran Bene 1 Bene 2
约简前 27 33 33
约简后 22 15 20
为了体现本发明所提评估方法的优越性,将本发明所提方法与传统ELM以及未改进加权ELM—WELM两种方法进行比较,三个评价方法都采用基于AEnet删选后的数据集进行个人信用风险评估,在评价标准上,除了采用分类精度Accuracy指标以外,还使用类不平衡学习领域中最为常用的两个性能评价测度F-measure和G-mean来比较各类方法的性能,这三个评价指标值越大,表示模型性能越好。比较结果如表3所示。
表3三种模型评估性能比较
从表3中的对比结果可以看出,无论在评估精度上,还是对于非平衡数据评估的性能指标F-measure和G-mean两个指标上,本发明所提的改进加权ELM模型IWELM相较于原始ELM模型以及加权ELM模型都体现出了其优势,证明本发明所提方法是有效的、可靠的。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (5)

1.一种面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,该方法包括如下步骤:
步骤一:获取搜集的原始大规模个人信用记录数据集,构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y,其中,X=[x1,x2,…,xp]∈Rn×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵,其中xi=[x1i,x2i,…,xpi]T∈Rp(i=1,2,…,p)为表示样本的第i条个人信用记录;Y=[y1,y2,…,yn]T∈Rn×1表示对应于样本数据的类别标签向量,yj=1表示履约,记为“好客户”,yj=0表示违约,记为“坏客户”。
步骤二:根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简,所述的自适应弹性网络模型AEnet为在弹性网络模型的基础上,在L1范数惩罚项中加入权重系数来实现变量的自动删选,该模型的准则定义如下式所示:
其中,为β的L2范数惩罚项,为β的L1范数惩罚项,而βi是基于矩阵X与Y的最小二乘估计值,λ1和λ2为两个非负的惩罚参数,且
其中,γ和λ1 *为正常数。
步骤三:将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类,利用类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W,W为一个对角阵,对角线上的元素Wii即第i个样本的隶属度;
设在训练集X*上的整体类不平衡比率的倒数为δ,即少数类与多数类样本数之比为δ,则两类样本的隶属度为:
为第i个多数类客户信用记录样本所对应的隶属函数值,为第i个少数类客户信用记录样本所对应的隶属函数值;为评估函数,用于评估特定样本点在特征空间所处位置的重要程度,且考虑样本总体在特征空间的具体分布信息,建立基于类簇质心距离指数化衰减的隶属度确定函数,如下式所示:
为多数类或方差少数类所在簇类质心,到其所在簇类质心的欧氏距离,σ2为X*的总体方差。
步骤四:计算隐藏层输出矩阵H:
ai和bi分别表示第i个隐藏层节点的权重与偏置,G表示激活函数。
步骤五:计算输出权重矩阵θ的近似解
其中,为隐层输出矩阵H的Moore-Penrose广义逆;Y*为维度约简后的类别标签向量,且
步骤六:根据改进加权ELM模型IWELM计算第i个样例在隐藏层上的输出向量其中所述的IWELM的形式如下所示:
εi表示第i个训练样本的实际输出与期望输出之差;C为惩罚因子,用于调控网络的泛化能力与精确度间的平衡关系,s为删选后的样本数量。
步骤七:根据改进加权ELM模型IWELM得到
其中,I为单位矩阵,T为训练集X*对应的期望输出向量,将守约客户所对应类别输出节点的期望输出值设为1,违约客户所对应类别节点的输出值则设为0,K为标签类别数目。
步骤八:通过下式可确定该客户所对应的类别标签,从而完成个人信用风险评估;
2.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,λ1和λ2为两个非负的惩罚参数,两者的最优值通过网格搜索及十折交叉法确定。
3.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,所述的改进加权ELM模型IWELM的输入层的节点为s个,隐藏层为k个,输出层为m个。
4.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,所述的步骤四中第i个隐藏层节点的权重与偏置ai和bi均为在[-1,1]区间内随机生成。
5.一种采用权利要求1-4任一项的个人信用风险评估方法的个人信用风险评估系统,其特征在于,该系统包括如下模块:
数据采集模块,用于采集并获取原始大规模个人信用记录数据;
数据预处理模块,用于将个人信用记录数据构建模型训练的样本数据矩阵X,标定类别标签,构建标签向量Y;
维度约简模块,用于根据样本数据矩阵X和标签向量Y,利用自适应弹性网络模型AEnet对原始大规模个人信用记录进行维度约简;
数据划分模块:用于将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类;
隶属度计算模块:用于基于类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W;
信用风险评估模块:根据改进加权ELM模型IWELM实施个人信用风险评估;
评估结果输出模块:用于输出个人信用风险评估结果。
CN201810393852.XA 2018-04-27 2018-04-27 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统 Pending CN108550077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810393852.XA CN108550077A (zh) 2018-04-27 2018-04-27 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810393852.XA CN108550077A (zh) 2018-04-27 2018-04-27 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统

Publications (1)

Publication Number Publication Date
CN108550077A true CN108550077A (zh) 2018-09-18

Family

ID=63512916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810393852.XA Pending CN108550077A (zh) 2018-04-27 2018-04-27 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统

Country Status (1)

Country Link
CN (1) CN108550077A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872231A (zh) * 2019-02-18 2019-06-11 南京务本信息科技有限责任公司 一种基于动态集对分析的个人信用评估方法及系统
CN110309472A (zh) * 2019-06-03 2019-10-08 清华大学 基于离线数据的策略评估方法及装置
CN110378786A (zh) * 2019-07-29 2019-10-25 中国工商银行股份有限公司 模型训练方法、违约传导风险识别方法、装置及存储介质
CN110400215A (zh) * 2019-07-31 2019-11-01 浪潮软件集团有限公司 面向企业家族的小微企业信用评估模型构建方法及系统
CN110751400A (zh) * 2019-10-22 2020-02-04 宜人恒业科技发展(北京)有限公司 一种风险评估方法及装置
CN111127184A (zh) * 2019-11-01 2020-05-08 复旦大学 一种分布式组合信用评估方法
CN111369139A (zh) * 2020-03-03 2020-07-03 电子科技大学 一种个体信用风险评估方法、系统、终端及存储介质
CN112581191A (zh) * 2020-08-14 2021-03-30 支付宝(杭州)信息技术有限公司 行为预测模型的训练方法及装置
CN113034262A (zh) * 2019-12-25 2021-06-25 陕西云基华海信息技术有限公司 一种基于大数据技术的个人信用评价动态集成算法
CN113221989A (zh) * 2021-04-30 2021-08-06 浙江网商银行股份有限公司 基于分布式的评估模型训练方法、系统以及装置
CN113870013A (zh) * 2021-10-14 2021-12-31 浙江孚临科技有限公司 基于不平衡数据的信贷违约预测方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872231A (zh) * 2019-02-18 2019-06-11 南京务本信息科技有限责任公司 一种基于动态集对分析的个人信用评估方法及系统
CN110309472B (zh) * 2019-06-03 2022-04-29 清华大学 基于离线数据的策略评估方法及装置
CN110309472A (zh) * 2019-06-03 2019-10-08 清华大学 基于离线数据的策略评估方法及装置
CN110378786A (zh) * 2019-07-29 2019-10-25 中国工商银行股份有限公司 模型训练方法、违约传导风险识别方法、装置及存储介质
CN110400215A (zh) * 2019-07-31 2019-11-01 浪潮软件集团有限公司 面向企业家族的小微企业信用评估模型构建方法及系统
CN110400215B (zh) * 2019-07-31 2023-11-03 浪潮软件集团有限公司 面向企业家族的小微企业信用评估模型构建方法及系统
CN110751400A (zh) * 2019-10-22 2020-02-04 宜人恒业科技发展(北京)有限公司 一种风险评估方法及装置
CN110751400B (zh) * 2019-10-22 2022-08-02 宜人恒业科技发展(北京)有限公司 一种风险评估方法及装置
CN111127184A (zh) * 2019-11-01 2020-05-08 复旦大学 一种分布式组合信用评估方法
CN113034262A (zh) * 2019-12-25 2021-06-25 陕西云基华海信息技术有限公司 一种基于大数据技术的个人信用评价动态集成算法
CN111369139A (zh) * 2020-03-03 2020-07-03 电子科技大学 一种个体信用风险评估方法、系统、终端及存储介质
CN112581191A (zh) * 2020-08-14 2021-03-30 支付宝(杭州)信息技术有限公司 行为预测模型的训练方法及装置
CN113221989A (zh) * 2021-04-30 2021-08-06 浙江网商银行股份有限公司 基于分布式的评估模型训练方法、系统以及装置
CN113870013A (zh) * 2021-10-14 2021-12-31 浙江孚临科技有限公司 基于不平衡数据的信贷违约预测方法

Similar Documents

Publication Publication Date Title
CN108550077A (zh) 一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统
Tu et al. Hyperspectral classification with noisy label detection via superpixel-to-pixel weighting distance
Goel et al. Precinct or prejudice? Understanding racial disparities in New York City’s stop-and-frisk policy
CN103617235B (zh) 一种基于粒子群算法的网络水军账号识别方法及系统
CN106537422A (zh) 用于捕获信息内的关系的系统和方法
CN106650058A (zh) 一种基于改进人工蜂群算法的协同电子干扰任务调度方法
CN102930275B (zh) 基于Cramer’s V指数的遥感影像特征选择方法
CN110363230A (zh) 基于加权基分类器的stacking集成污水处理故障诊断方法
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN108052625A (zh) 一种实体精细分类方法
CN108614997A (zh) 一种基于改进AlexNet的遥感图像识别方法
CN103955709B (zh) 基于加权合成核与tmf的极化sar图像分类方法
CN110532429B (zh) 一种基于聚类和关联规则的线上用户群体分类方法及装置
Liu et al. Learning to rank complex network node based on the self-supervised graph convolution model
CN107392863A (zh) 基于亲和矩阵融合谱聚类方法的sar图像变化检测方法
Chen et al. An extended study of the K-means algorithm for data clustering and its applications
Liu et al. CRM-based dynamic decision-making with hesitant fuzzy information for the evaluation of rangelands
CN113191359B (zh) 基于支持与查询样本的小样本目标检测方法与系统
Liu et al. A multi-angle comprehensive solution based on deep learning to extract cultivated land information from high-resolution remote sensing images
CN105160666B (zh) 基于非平稳分析与条件随机场的sar图像变化检测方法
CN105741258A (zh) 基于粗糙集和神经元网络的船体零部件图像分割方法
Liu et al. An innovative model fusion algorithm to improve the recall rate of peer-to-peer lending default customers
Zhang et al. Research on borrower's credit classification of P2P network loan based on LightGBM algorithm
Zhou et al. Kohonen neural network and symbiotic-organism search algorithm for intrusion detection of network viruses
Zhao et al. Spectral–spatial classification of hyperspectral images using trilateral filter and stacked sparse autoencoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180918