CN111062806B - 个人金融信用风险评价方法、系统和存储介质 - Google Patents

个人金融信用风险评价方法、系统和存储介质 Download PDF

Info

Publication number
CN111062806B
CN111062806B CN201911284749.2A CN201911284749A CN111062806B CN 111062806 B CN111062806 B CN 111062806B CN 201911284749 A CN201911284749 A CN 201911284749A CN 111062806 B CN111062806 B CN 111062806B
Authority
CN
China
Prior art keywords
credit
sample
cluster
samples
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911284749.2A
Other languages
English (en)
Other versions
CN111062806A (zh
Inventor
杨颖�
高星雨
杨淮
徐冬玲
杨剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201911284749.2A priority Critical patent/CN111062806B/zh
Publication of CN111062806A publication Critical patent/CN111062806A/zh
Application granted granted Critical
Publication of CN111062806B publication Critical patent/CN111062806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种个人金融信用风险评价方法、系统和存储介质,涉及信用风险评估领域。包括以下步骤:获取客户信用数据,形成历史数据;对历史数据进行聚类处理,得到正信用簇群和负信用簇群;将正信用簇群和负信用簇群随机配对,得到信用样本子集;对信用样本子集进行过滤,得到均衡样本子集和非均衡样本子集;获取非均衡样本子集的采样倍率;基于采样倍率,利用smote方法对非均衡样本子集进行采样处理,得到均衡的采样样本子集;综合采样样本子集和原有的均衡样本子集,得到评价样本集;基于决策树作为集成学习的弱分类器,最后利用证据推理规则的方法融合不同弱分类器的分类结果,得到信用风险评价的最终结果。本发明可以准确评价客户的信用风险。

Description

个人金融信用风险评价方法、系统和存储介质
技术领域
本发明涉及信用风险评估技术领域,具体涉及一种个人金融信用风险评价方法、系统和存储介质。
背景技术
随着科技的发展,信用卡这一全球通用的,现代化的货币形式,正在开创一个崭新的时代。中国的信用卡在过去10年一直爆发性进行增长。发卡量的增加带来了消费额和透支余额的增加,与此同时个人违约的案例也在不断增加。为了更好的防范和控制信用卡违约风险,避免信用风险造成的损失,对用户的信用进行评价愈发重要。
信用风险评价是指根据用户年龄收入等信息判断信用的好坏,现有技术一般采用统计学方法和人工智能方法。在统计学方法中,最常用的方法有线性判别分析以及逻辑回归;人工智能的方法包括K近邻,人工神经网络方法和集成学习方法。
然而本申请的发明人发现,现有技术提供的方法在应用时,可能违约的样本在前期的筛选中就被直接拒绝了,使得前期收集到的数据集中信用好的客户与信用坏的客户数量不同,信用好客户的数量比信用坏的客户多,从而产生样本类别严重不均衡的数据集,而不均衡的数据集使得评价结果不准确。即现有技术存在准确性低的缺点。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种个人金融信用风险评价方法、系统和存储介质,解决了现有技术准确性低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明解决其技术问题所提供的一种个人金融信用风险评价方法,所述评价方法由计算机执行,包括以下步骤:
获取客户信用数据,形成历史数据;
对所述历史数据进行聚类处理,得到若干个信用簇群;所述信用簇群包括:正信用簇群和负信用簇群;
将所述正信用簇群和所述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
对所述信用样本子集进行过滤,获取其中的非均衡样本子集;
获取所述非均衡样本子集的采样倍率;基于所述采样倍率,利用smote方法对所述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
综合所述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
优选的,基于K-means方法对所述历史数据进行聚类处理,具体包括:
初始化所述历史数据,得到正类样本数据和负类样本数据;
设置聚类中心数的取值范围;
确定所述正类样本数据和所述负类样本数据的聚类中心数的最优值;
输出正信用簇群和负信用簇群。
优选的,所述信用样本子集的获取方法包括:
组合配对:从生成的
Figure BDA0002317692650000031
个正信用簇群和
Figure BDA0002317692650000032
个负信用簇群中随机挑选单个子集进行配对组合,共形成
Figure BDA0002317692650000033
个包含正负类样本的新数据集。
优选的,对所述信用样本子集进行过滤,具体包括:
确定每个信用样本子集中少数类样本与多数类样本的比例,若少数类样本占比少于50%,则为非均衡样本子集,否则为均衡样本集;
其中:少数类样本指的是信用坏的客户数据,多数类样本指的是信用好的客户数据。
优选的,所述采样倍率的计算方法包括:
根据样本不平衡比例IL以确定采样倍率n;
n=round(IL)
其中:
round表示对IL四舍五入;
Figure BDA0002317692650000034
其中:
majority表示多数类样本,minority表示少数类样本。
优选的,对所述非均衡样本子集进行采样处理,得到均衡样本子集,具体包括:
计算所述非均衡样本子集内少数类样本之间的欧式距离矩阵;
在少数类样本xi的k个近邻样本中随机选择一个样本作为辅助样本,在样本xi与每个辅助样本间进行线性插值;具体为:
xnew,attr=xi,attr+(xij,attr-xi,attr)×γ
其中:
xi∈Rd,xi,attr表示第i个少数类样本中的第attr个属性,attr=1,2,...,d;Rd表示少数类样本集合;
γ为[0,1]之间的随机数;
xij是样本xi的第j个近邻样本,j=1,2,...,k;
xnew表示在样本xij与xi之间插值得到的样本;
共生成nt个合成样本,其中t为样本集中原始少数类样本个数。
优选的,基于证据推理规则方法融合多个决策树的结果,具体包括:
将分类结果表示为证据:
Figure BDA0002317692650000041
其中:
es表示从第s个基分类器中所得出的分类结果所转化的证据;
Figure BDA0002317692650000042
为第s个基分类器的分类结果取yj的概率;
计算证据的信度:
Figure BDA0002317692650000043
其中:
Figure BDA0002317692650000051
是综合考虑可靠性与权重的证据es对Dj的支持度,定义如下:
Figure BDA0002317692650000052
Figure BDA0002317692650000053
crw,nc=1/(1+wnc-rnc)
其中:
Figure BDA0002317692650000054
crw,s=1/(1+ws-rs),表示归一化因子;
rs与ws分别表示相应的可靠性和权重;
使用证据推理规则对S个基分类器所提供的S条证据e1,e2,...,eS进行融合,可得到这S条证据联合支持yj的信度函数
Figure BDA0002317692650000055
如下:
Figure BDA0002317692650000056
Figure BDA0002317692650000057
Figure BDA0002317692650000058
其中:
rs表示可靠性;
Figure BDA0002317692650000059
mP(Θ),e(S-1)
Figure BDA00023176926500000510
mB,e(S-1),mC,S为信度分布函数。
本发明解决其技术问题所提供的一种个人金融信用风险评价系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
获取客户信用数据,形成历史数据;
对所述历史数据进行聚类处理,得到若干个信用簇群;所述信用簇群包括:正信用簇群和负信用簇群;
将所述正信用簇群和所述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
对所述信用样本子集进行过滤,获取其中的非均衡样本子集;
获取所述非均衡样本子集的采样倍率;基于所述采样倍率,利用smote方法对所述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
综合所述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
本发明解决其技术问题所提供的一种计算机可读存储介质,该介质上存储有至少一条指令,至少所述一条指令由处理器加载并执行以实现如上述的方法。
(三)有益效果
本发明提供了一种个人金融信用风险评价方法、系统和存储介质。与现有技术相比,具备以下有益效果:
本发明通过获取客户信用数据,形成历史数据;对历史数据进行聚类处理,得到正信用簇群和负信用簇群;将正信用簇群和负信用簇群随机配对,得到信用样本子集;对信用样本子集进行过滤,得到均衡样本子集和非均衡样本子集;获取非均衡样本子集的采样倍率;基于采样倍率,利用smote方法对非均衡样本子集进行采样处理,得到采样样本子集;综合采样样本子集和均衡样本子集,得到评价样本集;基于决策树方法构造集成学习框架对评价样本集进行分类,基于证据推理规则方法融合分类结果,得到信用风险评价结果。本发明过滤出不均衡数据样本,通过再次采样得到均衡数据样本,避免了不均衡数据对评价结果的影响,通过聚类以及组合的方法增加了集成学习框架中的多样性,提高了评价结果的准确性,从而降低了银行信用风险,提高了竞争力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的个人金融信用风险评价方法的整体示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种个人金融信用风险评价方法、系统和存储介质,解决了现有技术准确性低问题,提高了评价客户的信用风险的准确性。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过获取客户信用数据,形成历史数据;对历史数据进行聚类处理,得到正信用簇群和负信用簇群;将正信用簇群和负信用簇群随机配对,得到信用样本子集;对信用样本子集进行过滤,得到均衡样本子集和非均衡样本子集;获取非均衡样本子集的采样倍率;基于采样倍率,利用smote方法对非均衡样本子集进行采样处理,得到采样样本子集;综合采样样本子集和均衡样本子集,得到评价样本集;基于决策树方法作为弱分类器构造集成学习框架对评价样本集进行分类,基于证据推理规则方法融合分类结果,得到信用风险评价结果。本发明实施例过滤出不均衡数据样本,通过再次采样得到均衡数据样本,避免了不均衡数据对评价结果的影响,通过聚类以及组合的方法增加了集成学习框架中的多样性,提高了评价结果的准确性,从而降低了银行信用风险,提高了竞争力。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种个人金融信用风险评价方法,该方法由计算机执行,如图1所示,包括以下步骤:
S1、获取客户信用数据,形成历史数据;
S2、对上述历史数据进行聚类处理,得到若干个信用簇群;上述信用簇群包括:正信用簇群和负信用簇群;
S3、将上述正信用簇群和上述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
S4、对上述信用样本子集进行过滤,获取其中的非均衡样本子集;
S5、获取上述非均衡样本子集的采样倍率;基于上述采样倍率,利用smote方法对上述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
S6、综合上述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
S7、采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
本发明实施例通过获取客户信用数据,形成历史数据;对历史数据进行聚类处理,得到正信用簇群和负信用簇群;将正信用簇群和负信用簇群随机配对,得到信用样本子集;对信用样本子集进行过滤,得到均衡样本子集和非均衡样本子集;获取非均衡样本子集的采样倍率;基于采样倍率,利用smote方法对非均衡样本子集进行采样处理,得到均衡的采样样本子集;综合采样样本子集和均衡样本子集,得到评价样本集;基于决策树方法为弱分类器构造集成学习框架对评价样本集进行分类,基于证据推理规则方法融合分类结果,得到信用风险评价结果。本发明实施例过滤出不均衡数据样本,通过再次采样得到均衡数据样本,避免了不均衡数据对评价结果的影响,提高了评价结果的准确性,从而降低了银行信用风险,提高了竞争力。
下面对各步骤进行具体分析。
在步骤S1中,获取客户信用数据,形成历史数据。
具体的,在本发明实施例中,采用了UCI公开数据集信用卡客户违约数据集,该数据集收集了中国台湾的30000个信用卡客户信息,该样本集中有23个属性。数据属性有23个,如表1所示,违约情况为客户标签值。由于在实际业务中,很多可能违约的样本在前期的筛选中就被直接拒绝了,导致前期收集到的数据集中信用好的客户与信用坏的客户数量不同,本案例中其中标签1的数据有23364条,而标签为-1的数据有6636条,不均衡比为3.5:1,标签1的数据为多数类,标签-1的为少数类。
表1数据属性
Figure BDA0002317692650000101
在步骤S2中,对上述历史数据进行聚类处理,得到若干个信用簇群;上述信用簇群包括:正信用簇群和负信用簇群。
具体的,本发明实施例采用K-means方法对历史数据进行聚类处理,包括以下步骤:
假设数据集S有N个样本X1,X2,...XN,其中
Figure BDA0002317692650000111
是d维向量。每一个样本Xi都有相应的标签值yi,表示样本所属类别。在不失一般性的情况下,y∈{一1,1}(即信用“违约”,“没有违约”)。
(1)初始化样本,形成两类样本集合,即正类样本和负类样本,其样本数分别表示为S+与S-
(2)设置聚类中心数K的取值范围。聚类中心数K,
Figure BDA0002317692650000112
Figure BDA0002317692650000113
(3)确定正负样本集合中的聚类中心数K的最优值:
输入全部正类样本,随机选取K个样本作为聚类中心。计算每个样本到默认群集中心的欧式距离,指派到距离最短的群聚中心,此时就会产生初始群集的成员集合:C1,C2...CK,新的聚类中心
Figure BDA0002317692650000114
Figure BDA0002317692650000115
其中:mk是簇CK的样本数目,
Figure BDA0002317692650000116
是其中的样本。
簇内的紧密度,表示每个样本与质心间的相对距离,越小说明簇内相似度越高。用
Figure BDA0002317692650000117
表示。其中:
Figure BDA0002317692650000118
而簇间的分离度,表示不同簇之间的相似度。用指标Inter=exp(-D/β)表示,值越小越好。其中
Figure BDA0002317692650000119
表示每对簇心之间的平均距离。
Figure BDA0002317692650000121
上述公式表示每个聚类中心到集群中心r0的平均距离。确定最优K值的目标函数同时考虑了上述两个指标。
在本发明实施例中,opt表示目标函数最优时K的取值。
Min:VF(K)=Intra×Inter
s.t.0<Intra≤1
0<Inter≤1
当VF取最小时取最优值
Figure BDA0002317692650000122
负类集合同理得到
Figure BDA0002317692650000123
输出K最优时的正类簇群
Figure BDA0002317692650000124
负类簇群
Figure BDA0002317692650000125
在步骤S3中,将上述正信用簇群和上述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集。
具体的,进行组合配对:从生成的
Figure BDA0002317692650000126
个正信用簇群和
Figure BDA0002317692650000127
个负信用簇群中随机挑选单个子集进行配对组合,共形成
Figure BDA0002317692650000128
个包含正负类样本的新数据集。
具体算法如下:
Figure BDA0002317692650000129
Figure BDA0002317692650000131
在步骤S4中,对上述信用样本子集进行过滤,获取其中的非均衡样本子集。
具体的,确定每个信用样本子集中少数类样本与多数类样本的比例,若少数类样本占比少于50%,则该信用样本子集为非均衡样本子集,否则为均衡样本集。
在本发明实施例中,少数类样本指的是信用坏的客户数据,多数类样本指的是信用好的客户数据。
在步骤S5中,获取上述非均衡样本子集的采样倍率;基于上述采样倍率,利用smote方法对上述非均衡样本子集进行采样处理,得到均衡的采样样本子集。
采样倍率的计算方法包括:
根据样本不平衡比例IL以确定采样倍率n;
n=round(IL)
其中:
round表示对IL四舍五入。
Figure BDA0002317692650000132
其中:
majority表示多数类样本,minority表示少数类样本。
接着对符合要求的集合进行采样。采样运用smote算法在筛选后的安全区域内生成新的少数类样本,通过增加少数类样本实现样本集合的类别平衡。在本发明实施例中,安全区域指的是不易产生噪声问题和类内不均衡问题的数据集合区域。
具体包括以下步骤:
首先从少数类中随机选取样本xi作为合成新样本的根样本;从xi的同类别的k个近邻样本中随机选择一个样本作为新样本的辅助样本;然后在样本xi与每个辅助样本间通过:
xnew,attr=xi,attr+(xij,attr-xi,attr)×γ进行线性插值,最终生成nt个合成样本。其中t为少数类样本数;xi∈Rd,xi,attr是少数类中的第i个样本的第attr个属性,attr=1,2,...,d;γ是[0,1]之间的随机数;xij是样本xi的第j个近邻样本,j=1,2,...,k;新样本xnew是在样本xij与xi之间插值得到的样本,其具体算法如下所示:
算法:SMOTE算法
输入:少数类样本T;采样倍率n;样本近邻数k
输出:合成少数类样本集S
a)for i=1 to|T|do
b)计算xi的K个近邻样本并存入Xik集合;
c)for 1=1to n do
d)从Xik中随机选取样本xij
e)生成[0,1]之间的随机数γ;
f)利用公式xnew,attr=xi,attr+(xij,attr-xi,attr)×γ合成xij与xi间新样本xnew的每个属性值xnew,attr
g)将xnew添加到集合S中。
h)endfor
i)endfor
在步骤S6中,综合上述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本。
在步骤S7中,采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
具体的,实现利用决策树方法,通过NC个基分类器得到NC个分类结果T1,T2...TNC
再将每个基分类器的分类结果作为证据,将基分类器的准确度作为权重和可靠性,使用证据推理规则进行结果合成,得到最终的结果。
本发明实施例在具体实施时包括以下步骤:
{D1,D2}为是一组具有互斥性和穷尽性的假设,用Θ表示。D1,D2为分类结果,其中D1为信用好,D2为信用坏。Θ的幂集由它的所有子集组成,用P(Θ)表示。每个分类器输出的分类结果相当于一条证据,表示为:
将分类结果表示为证据:
Figure BDA0002317692650000151
其中:
es表示从第s个基分类器中所得出的分类结果所转化的证据;
Figure BDA0002317692650000161
为第s个基分类器的分类结果取yj的概率;
计算证据的信度。具体的,在证据推理规则中,为了避免基分类器结果信息的冲突性,同时考虑证据的权重和证据的可靠性进行信息融合。因此,综合考虑证据权重w与证据可靠性r的定义一个信度分布函数如下:
Figure BDA0002317692650000162
其中:
Figure BDA0002317692650000163
是综合考虑可靠性与权重的证据es对Dj的支持度,定义如下:
Figure BDA0002317692650000164
Figure BDA0002317692650000165
crw,nc=1/(1+wnc-rnc)
其中:
Figure BDA0002317692650000166
crw,s=1/(1+ws-rs),表示归一化因子;
rs与ws分别表示相应的可靠性和权重;
使用证据推理规则对S个基分类器所提供的S条证据e1,e2,...,eS进行融合,可得到这S条证据联合支持yj的信度函数
Figure BDA0002317692650000167
如下:
Figure BDA0002317692650000168
Figure BDA0002317692650000169
Figure BDA0002317692650000171
其中:
rs表示可靠性;
Figure BDA0002317692650000172
mP(Θ),e(S-1)
Figure BDA0002317692650000173
mB,e(S-1),mC,S为信度分布函数
经过证据推理规则,基分类器融合后的结果为
Figure BDA0002317692650000174
模型的最终分类结果则为最大的
Figure BDA0002317692650000175
值所对应的类别。
使用证据推理规则对结果进行合成时,所用的权重与可靠性均为基分类器的准确度。采用一个非线性最小化模型对可靠性参数进行优化,从而使得诊断结果与真实结果之间的误差最小化,N为客户信息数量。该优化模型如下:
Figure BDA0002317692650000176
s.t.0≤wnc≤1,i=1,...N
其中:
yn为真实分类结果的分布,
Figure BDA0002317692650000177
为基分类器结果合成后在不同类别上的概率分布。
以二分类为例,若真实分类为y1,模型合成结果为:
Figure BDA0002317692650000178
则yn为(1,0)。
Figure BDA0002317692650000179
为:
Figure BDA00023176926500001710
Figure BDA00023176926500001711
为yn
Figure BDA00023176926500001712
之间的欧式距离。
wnc为基分类器的权重。当目标函数ε最小化时,所有权重达到最优。
使用优化后的可靠性对结果进行合成,从而得到最终的诊断结果。
本发明实施例还提供了一种个人金融信用风险评价系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取客户信用数据,形成历史数据;
S2、对上述历史数据进行聚类处理,得到若干个信用簇群;上述信用簇群包括:正信用簇群和负信用簇群;
S3、将上述正信用簇群和上述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
S4、对上述信用样本子集进行过滤,获取其中的非均衡样本子集;
S5、获取上述非均衡样本子集的采样倍率;基于上述采样倍率,利用smote方法对上述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
S6、综合上述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
S7、采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
可理解的是,本发明实施例提供的上述评价系统与上述评价方法相对应,其有关内容的解释、举例、有益效果等部分可以参考个人金融信用风险评价方法中的相应内容,此处不再赘述。
本发明实施例还提供了一种计算机可读存储介质,该介质上存储有至少一条指令,至少所述一条指令由处理器加载并执行以实现如上述的方法。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例通过获取客户信用数据,形成历史数据;对历史数据进行聚类处理,得到正信用簇群和负信用簇群;将正信用簇群和负信用簇群随机配对,得到信用样本集;对信用样本集进行过滤,得到均衡样本集和非均衡样本集;获取非均衡样本集的采样倍率;基于采样倍率,利用smote方法对非均衡样本集进行采样处理,得到采样样本集;综合采样样本集和均衡样本集,得到评价样本集;基于决策树方法对评价样本集进行分类,基于证据推理规则方法处理分类结果,得到信用风险评价结果。本发明实施例过滤出不均衡数据样本,通过再次采样得到均衡数据样本,避免了不均衡数据对评价结果的影响,提高了评价结果的准确性,从而降低了银行信用风险,提高了竞争力。
2、本发明通过聚类加组合的方法构建了不同的样本集,增强了基分类器的多样性,并考虑到信用风险评价问题中不同消费者的个人行为差异。此外通过聚类的方法增强了样本的空间特性,有效的提高了分类性能。
3、本发明通过smote技术对数据集进行采样,减少了不均衡样本对信用风险评价结果的影响。
4、本发明通过基于证据推理的集成学习策略,考虑了基分类器提供的结果自身的可靠性以及分类器之间的最优权重,并且具有对不确定信息的融合能力,从而提高了分类的准确率。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种个人金融信用风险评价方法,其特征在于,所述评价方法由计算机执行,包括以下步骤:
获取客户信用数据,形成历史数据;
对所述历史数据进行聚类处理,得到若干个信用簇群;所述信用簇群包括:正信用簇群和负信用簇群;
将所述正信用簇群和所述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
对所述信用样本子集进行过滤,获取其中的非均衡样本子集;
获取所述非均衡样本子集的采样倍率;基于所述采样倍率,利用smote方法对所述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
综合所述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果;
基于K-means方法对所述历史数据进行聚类处理,具体包括:
初始化所述历史数据,得到正类样本数据和负类样本数据;
设置聚类中心数的取值范围;
确定所述正类样本数据和所述负类样本数据的聚类中心数的最优值;
输出正信用簇群和负信用簇群。
2.如权利要求1所述的评价方法,其特征在于,所述信用样本子集的获取方法包括:
组合配对:从生成的
Figure FDA0003556531100000021
个正信用簇群和
Figure FDA0003556531100000022
个负信用簇群中随机挑选单个子集进行配对组合,共形成
Figure FDA0003556531100000023
个包含正负类样本的新数据集。
3.如权利要求1所述的评价方法,其特征在于,对所述信用样本子集进行过滤,具体包括:
确定每个信用样本子集中少数类样本与多数类样本的比例,若少数类样本占比少于50%,则为非均衡样本子集,否则为均衡样本集;
其中:少数类样本指的是信用坏的客户数据,多数类样本指的是信用好的客户数据。
4.如权利要求3所述的评价方法,其特征在于,所述采样倍率的计算方法包括:
根据样本不平衡比例IL以确定采样倍率n;
n=round (IL)
其中:
round表示对IL四舍五入;
Figure FDA0003556531100000024
其中:
majority表示多数类样本,minority表示少数类样本。
5.如权利要求4所述的评价方法,其特征在于,对所述非均衡样本子集进行采样处理,得到均衡样本子集,具体包括:
计算所述非均衡样本子集内少数类样本之间的欧式距离矩阵;
在少数类样本xi的k个近邻样本中随机选择一个样本作为辅助样本,在样本xi与每个辅助样本间进行线性插值;具体为:
xnew,attr=xi,attr+(xij,attr-xi,attr)×γ
其中:
xi∈Rd,xi,attr表示第i个少数类样本中的第attr个属性,attr=1,2,...,d;Rd表示少数类样本集合;
γ为[0,1]之间的随机数;
xij是样本xi的第j个近邻样本,j=1,2,...,k;
xnew表示在样本xij与xi之间插值得到的样本;
共生成nt个合成样本,其中t为样本集中原始少数类样本个数。
6.如权利要求5所述的评价方法,其特征在于,基于证据推理规则方法融合多个决策树的结果,具体包括:将分类结果表示为证据:
Figure FDA0003556531100000031
其中:
es表示从第s个基分类器中所得出的分类结果所转化的证据;
Figure FDA0003556531100000032
为第s个基分类器的分类结果取yj的概率;
计算证据的信度:
Figure FDA0003556531100000033
其中:
Figure FDA0003556531100000034
是综合考虑可靠性与权重的证据es对yj的支持度,定义如下:
Figure FDA0003556531100000041
其中:
Figure FDA0003556531100000042
crw,s=1/(1+ws-rs),表示归一化因子;
rs与ws分别表示相应的可靠性和权重;
使用证据推理规则对S个基分类器所提供的S条证据e1,e2,...,eS进行融合,可得到这S条证据联合支持yj的信度函数
Figure FDA0003556531100000043
如下:
Figure FDA0003556531100000044
Figure FDA0003556531100000045
Figure FDA0003556531100000046
其中:
rs表示可靠性;
Figure FDA0003556531100000047
mP(Θ),e(S-1)
Figure FDA0003556531100000048
mB,e(S-1),mC,S为信度分布函数。
7.一种个人金融信用风险评价系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
获取客户信用数据,形成历史数据;
对所述历史数据进行聚类处理,得到若干个信用簇群;所述信用簇群包括:正信用簇群和负信用簇群;
将所述正信用簇群和所述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
对所述信用样本子集进行过滤,获取其中的非均衡样本子集;
获取所述非均衡样本子集的采样倍率;基于所述采样倍率,利用smote方法对所述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
综合所述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果;
基于K-means方法对所述历史数据进行聚类处理,具体包括:
初始化所述历史数据,得到正类样本数据和负类样本数据;
设置聚类中心数的取值范围;
确定所述正类样本数据和所述负类样本数据的聚类中心数的最优值;
输出正信用簇群和负信用簇群。
8.一种计算机可读存储介质,该介质上存储有至少一条指令,至少所述一条指令由处理器加载并执行以实现如权利要求1所述的方法。
CN201911284749.2A 2019-12-13 2019-12-13 个人金融信用风险评价方法、系统和存储介质 Active CN111062806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911284749.2A CN111062806B (zh) 2019-12-13 2019-12-13 个人金融信用风险评价方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911284749.2A CN111062806B (zh) 2019-12-13 2019-12-13 个人金融信用风险评价方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN111062806A CN111062806A (zh) 2020-04-24
CN111062806B true CN111062806B (zh) 2022-05-10

Family

ID=70301598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911284749.2A Active CN111062806B (zh) 2019-12-13 2019-12-13 个人金融信用风险评价方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN111062806B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541536A (zh) * 2020-12-09 2021-03-23 长沙理工大学 用于信用评分的欠采样分类集成方法、设备及存储介质
CN112926989B (zh) * 2021-03-22 2023-09-05 华南理工大学 一种基于多视图集成学习的银行贷款风险评估方法及设备
CN113256434B (zh) * 2021-06-08 2021-11-23 平安科技(深圳)有限公司 车险理赔行为识别方法、装置、设备及存储介质
CN114036923A (zh) * 2021-11-17 2022-02-11 四川新网银行股份有限公司 一种基于文本相似度的资料虚假识别系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN106056130A (zh) * 2016-05-18 2016-10-26 天津大学 针对不平衡数据集的组合降采样线性判别分类方法
CN108764366A (zh) * 2018-06-07 2018-11-06 南京信息职业技术学院 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN110275910A (zh) * 2019-06-20 2019-09-24 东北大学 一种不平衡数据集的过采样方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN106056130A (zh) * 2016-05-18 2016-10-26 天津大学 针对不平衡数据集的组合降采样线性判别分类方法
CN108764366A (zh) * 2018-06-07 2018-11-06 南京信息职业技术学院 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN110275910A (zh) * 2019-06-20 2019-09-24 东北大学 一种不平衡数据集的过采样方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Evidential reasoning rule for evidence combination;Jian-Bo Yang etal.;《Artificial Intelligence》;20131231;第1-29页 *
基于Ext-GBDT 集成的类别不平衡信用评分模型;陈启伟 等;《计算机应用研究》;20180228;第35卷(第2期);第421-427页 *

Also Published As

Publication number Publication date
CN111062806A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111062806B (zh) 个人金融信用风险评价方法、系统和存储介质
CN110009479B (zh) 信用评价方法及装置、存储介质、计算机设备
Tian et al. Credit risk assessment based on gradient boosting decision tree
CN108898479B (zh) 信用评价模型的构建方法及装置
CN111080442A (zh) 信用评分模型的构建方法、装置、设备及存储介质
Yotsawat et al. A novel method for credit scoring based on cost-sensitive neural network ensemble
Zelenkov Example-dependent cost-sensitive adaptive boosting
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
Sasank et al. Credit card fraud detection using various classification and sampling techniques: a comparative study
KR20220071875A (ko) 인공신경망 기반 보험 가입 예정자의 언더라이팅 장치 및 방법
Eddy et al. Credit scoring models: Techniques and issues
CN113256409A (zh) 基于机器学习的银行零售客户流失预测方法
CN110689437A (zh) 一种基于随机森林的通信施工项目财务风险预测方法
CN110349007A (zh) 基于变量区分度指标进行用户分群提额的方法、装置和电子设备
CN112862585A (zh) 基于LightGBM决策树算法的个贷类不良资产风险评级方法
CN117391247A (zh) 一种基于深度学习的企业风险等级预测方法及系统
CN115293336A (zh) 风险评估模型训练方法、装置和服务器
Oreški et al. Cost-sensitive learning from imbalanced datasets for retail credit risk assessment
CN112418987A (zh) 交通运输单位信用评级方法、系统、电子设备及存储介质
CN115115447A (zh) 一种信贷风控模型的超参数优化方法及装置
CN115936841A (zh) 一种构建信贷风险评估模型的方法及装置
Oyewola et al. Comparative analysis of linear, non-linear and ensemble machine learning algorithms for credit worthiness of consumers
CN113177733B (zh) 基于卷积神经网络的中小微企业数据建模方法及系统
CN114722941A (zh) 信贷违约识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant