CN111062806A - 个人金融信用风险评价方法、系统和存储介质 - Google Patents
个人金融信用风险评价方法、系统和存储介质 Download PDFInfo
- Publication number
- CN111062806A CN111062806A CN201911284749.2A CN201911284749A CN111062806A CN 111062806 A CN111062806 A CN 111062806A CN 201911284749 A CN201911284749 A CN 201911284749A CN 111062806 A CN111062806 A CN 111062806A
- Authority
- CN
- China
- Prior art keywords
- credit
- sample
- cluster
- samples
- subset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种个人金融信用风险评价方法、系统和存储介质,涉及信用风险评估领域。包括以下步骤:获取客户信用数据,形成历史数据;对历史数据进行聚类处理,得到正信用簇群和负信用簇群;将正信用簇群和负信用簇群随机配对,得到信用样本子集;对信用样本子集进行过滤,得到均衡样本子集和非均衡样本子集;获取非均衡样本子集的采样倍率;基于采样倍率,利用smote方法对非均衡样本子集进行采样处理,得到均衡的采样样本子集;综合采样样本子集和原有的均衡样本子集,得到评价样本集;基于决策树作为集成学习的弱分类器,最后利用证据推理规则的方法融合不同弱分类器的分类结果,得到信用风险评价的最终结果。本发明可以准确评价客户的信用风险。
Description
技术领域
本发明涉及信用风险评估技术领域,具体涉及一种个人金融信用风险评价方法、系统和存储介质。
背景技术
随着科技的发展,信用卡这一全球通用的,现代化的货币形式,正在开创一个崭新的时代。中国的信用卡在过去10年一直爆发性进行增长。发卡量的增加带来了消费额和透支余额的增加,与此同时个人违约的案例也在不断增加。为了更好的防范和控制信用卡违约风险,避免信用风险造成的损失,对用户的信用进行评价愈发重要。
信用风险评价是指根据用户年龄收入等信息判断信用的好坏,现有技术一般采用统计学方法和人工智能方法。在统计学方法中,最常用的方法有线性判别分析以及逻辑回归;人工智能的方法包括K近邻,人工神经网络方法和集成学习方法。
然而本申请的发明人发现,现有技术提供的方法在应用时,可能违约的样本在前期的筛选中就被直接拒绝了,使得前期收集到的数据集中信用好的客户与信用坏的客户数量不同,信用好客户的数量比信用坏的客户多,从而产生样本类别严重不均衡的数据集,而不均衡的数据集使得评价结果不准确。即现有技术存在准确性低的缺点。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种个人金融信用风险评价方法、系统和存储介质,解决了现有技术准确性低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明解决其技术问题所提供的一种个人金融信用风险评价方法,所述评价方法由计算机执行,包括以下步骤:
获取客户信用数据,形成历史数据;
对所述历史数据进行聚类处理,得到若干个信用簇群;所述信用簇群包括:正信用簇群和负信用簇群;
将所述正信用簇群和所述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
对所述信用样本子集进行过滤,获取其中的非均衡样本子集;
获取所述非均衡样本子集的采样倍率;基于所述采样倍率,利用smote方法对所述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
综合所述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
优选的,基于K-means方法对所述历史数据进行聚类处理,具体包括:
初始化所述历史数据,得到正类样本数据和负类样本数据;
设置聚类中心数的取值范围;
确定所述正类样本数据和所述负类样本数据的聚类中心数的最优值;
输出正信用簇群和负信用簇群。
优选的,所述信用样本子集的获取方法包括:
优选的,对所述信用样本子集进行过滤,具体包括:
确定每个信用样本子集中少数类样本与多数类样本的比例,若少数类样本占比少于50%,则为非均衡样本子集,否则为均衡样本集;
其中:少数类样本指的是信用坏的客户数据,多数类样本指的是信用好的客户数据。
优选的,所述采样倍率的计算方法包括:
根据样本不平衡比例IL以确定采样倍率n;
n=round(IL)
其中:
round表示对IL四舍五入;
其中:
majority表示多数类样本,minority表示少数类样本。
优选的,对所述非均衡样本子集进行采样处理,得到均衡样本子集,具体包括:
计算所述非均衡样本子集内少数类样本之间的欧式距离矩阵;
在少数类样本xi的k个近邻样本中随机选择一个样本作为辅助样本,在样本xi与每个辅助样本间进行线性插值;具体为:
xnew,attr=xi,attr+(xij,attr-xi,attr)×γ
其中:
xi∈Rd,xi,attr表示第i个少数类样本中的第attr个属性,attr=1,2,...,d;Rd表示少数类样本集合;
γ为[0,1]之间的随机数;
xij是样本xi的第j个近邻样本,j=1,2,...,k;
xnew表示在样本xij与xi之间插值得到的样本;
共生成nt个合成样本,其中t为样本集中原始少数类样本个数。
优选的,基于证据推理规则方法融合多个决策树的结果,具体包括:
将分类结果表示为证据:
其中:
es表示从第s个基分类器中所得出的分类结果所转化的证据;
计算证据的信度:
其中:
crw,nc=1/(1+wnc-rnc)
其中:
rs与ws分别表示相应的可靠性和权重;
其中:
rs表示可靠性;
本发明解决其技术问题所提供的一种个人金融信用风险评价系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
获取客户信用数据,形成历史数据;
对所述历史数据进行聚类处理,得到若干个信用簇群;所述信用簇群包括:正信用簇群和负信用簇群;
将所述正信用簇群和所述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
对所述信用样本子集进行过滤,获取其中的非均衡样本子集;
获取所述非均衡样本子集的采样倍率;基于所述采样倍率,利用smote方法对所述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
综合所述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
本发明解决其技术问题所提供的一种计算机可读存储介质,该介质上存储有至少一条指令,至少所述一条指令由处理器加载并执行以实现如上述的方法。
(三)有益效果
本发明提供了一种个人金融信用风险评价方法、系统和存储介质。与现有技术相比,具备以下有益效果:
本发明通过获取客户信用数据,形成历史数据;对历史数据进行聚类处理,得到正信用簇群和负信用簇群;将正信用簇群和负信用簇群随机配对,得到信用样本子集;对信用样本子集进行过滤,得到均衡样本子集和非均衡样本子集;获取非均衡样本子集的采样倍率;基于采样倍率,利用smote方法对非均衡样本子集进行采样处理,得到采样样本子集;综合采样样本子集和均衡样本子集,得到评价样本集;基于决策树方法构造集成学习框架对评价样本集进行分类,基于证据推理规则方法融合分类结果,得到信用风险评价结果。本发明过滤出不均衡数据样本,通过再次采样得到均衡数据样本,避免了不均衡数据对评价结果的影响,通过聚类以及组合的方法增加了集成学习框架中的多样性,提高了评价结果的准确性,从而降低了银行信用风险,提高了竞争力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的个人金融信用风险评价方法的整体示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种个人金融信用风险评价方法、系统和存储介质,解决了现有技术准确性低问题,提高了评价客户的信用风险的准确性。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过获取客户信用数据,形成历史数据;对历史数据进行聚类处理,得到正信用簇群和负信用簇群;将正信用簇群和负信用簇群随机配对,得到信用样本子集;对信用样本子集进行过滤,得到均衡样本子集和非均衡样本子集;获取非均衡样本子集的采样倍率;基于采样倍率,利用smote方法对非均衡样本子集进行采样处理,得到采样样本子集;综合采样样本子集和均衡样本子集,得到评价样本集;基于决策树方法作为弱分类器构造集成学习框架对评价样本集进行分类,基于证据推理规则方法融合分类结果,得到信用风险评价结果。本发明实施例过滤出不均衡数据样本,通过再次采样得到均衡数据样本,避免了不均衡数据对评价结果的影响,通过聚类以及组合的方法增加了集成学习框架中的多样性,提高了评价结果的准确性,从而降低了银行信用风险,提高了竞争力。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种个人金融信用风险评价方法,该方法由计算机执行,如图1所示,包括以下步骤:
S1、获取客户信用数据,形成历史数据;
S2、对上述历史数据进行聚类处理,得到若干个信用簇群;上述信用簇群包括:正信用簇群和负信用簇群;
S3、将上述正信用簇群和上述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
S4、对上述信用样本子集进行过滤,获取其中的非均衡样本子集;
S5、获取上述非均衡样本子集的采样倍率;基于上述采样倍率,利用smote方法对上述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
S6、综合上述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
S7、采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
本发明实施例通过获取客户信用数据,形成历史数据;对历史数据进行聚类处理,得到正信用簇群和负信用簇群;将正信用簇群和负信用簇群随机配对,得到信用样本子集;对信用样本子集进行过滤,得到均衡样本子集和非均衡样本子集;获取非均衡样本子集的采样倍率;基于采样倍率,利用smote方法对非均衡样本子集进行采样处理,得到均衡的采样样本子集;综合采样样本子集和均衡样本子集,得到评价样本集;基于决策树方法为弱分类器构造集成学习框架对评价样本集进行分类,基于证据推理规则方法融合分类结果,得到信用风险评价结果。本发明实施例过滤出不均衡数据样本,通过再次采样得到均衡数据样本,避免了不均衡数据对评价结果的影响,提高了评价结果的准确性,从而降低了银行信用风险,提高了竞争力。
下面对各步骤进行具体分析。
在步骤S1中,获取客户信用数据,形成历史数据。
具体的,在本发明实施例中,采用了UCI公开数据集信用卡客户违约数据集,该数据集收集了中国台湾的30000个信用卡客户信息,该样本集中有23个属性。数据属性有23个,如表1所示,违约情况为客户标签值。由于在实际业务中,很多可能违约的样本在前期的筛选中就被直接拒绝了,导致前期收集到的数据集中信用好的客户与信用坏的客户数量不同,本案例中其中标签1的数据有23364条,而标签为-1的数据有6636条,不均衡比为3.5:1,标签1的数据为多数类,标签-1的为少数类。
表1数据属性
在步骤S2中,对上述历史数据进行聚类处理,得到若干个信用簇群;上述信用簇群包括:正信用簇群和负信用簇群。
具体的,本发明实施例采用K-means方法对历史数据进行聚类处理,包括以下步骤:
(1)初始化样本,形成两类样本集合,即正类样本和负类样本,其样本数分别表示为S+与S-。
(3)确定正负样本集合中的聚类中心数K的最优值:
上述公式表示每个聚类中心到集群中心r0的平均距离。确定最优K值的目标函数同时考虑了上述两个指标。
在本发明实施例中,opt表示目标函数最优时K的取值。
Min:VF(K)=Intra×Inter
s.t.0<Intra≤1
0<Inter≤1
在步骤S3中,将上述正信用簇群和上述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集。
具体算法如下:
在步骤S4中,对上述信用样本子集进行过滤,获取其中的非均衡样本子集。
具体的,确定每个信用样本子集中少数类样本与多数类样本的比例,若少数类样本占比少于50%,则该信用样本子集为非均衡样本子集,否则为均衡样本集。
在本发明实施例中,少数类样本指的是信用坏的客户数据,多数类样本指的是信用好的客户数据。
在步骤S5中,获取上述非均衡样本子集的采样倍率;基于上述采样倍率,利用smote方法对上述非均衡样本子集进行采样处理,得到均衡的采样样本子集。
采样倍率的计算方法包括:
根据样本不平衡比例IL以确定采样倍率n;
n=round(IL)
其中:
round表示对IL四舍五入。
其中:
majority表示多数类样本,minority表示少数类样本。
接着对符合要求的集合进行采样。采样运用smote算法在筛选后的安全区域内生成新的少数类样本,通过增加少数类样本实现样本集合的类别平衡。在本发明实施例中,安全区域指的是不易产生噪声问题和类内不均衡问题的数据集合区域。
具体包括以下步骤:
首先从少数类中随机选取样本xi作为合成新样本的根样本;从xi的同类别的k个近邻样本中随机选择一个样本作为新样本的辅助样本;然后在样本xi与每个辅助样本间通过:
xnew,attr=xi,attr+(xij,attr-xi,attr)×γ进行线性插值,最终生成nt个合成样本。其中t为少数类样本数;xi∈Rd,xi,attr是少数类中的第i个样本的第attr个属性,attr=1,2,...,d;γ是[0,1]之间的随机数;xij是样本xi的第j个近邻样本,j=1,2,...,k;新样本xnew是在样本xij与xi之间插值得到的样本,其具体算法如下所示:
算法:SMOTE算法
输入:少数类样本T;采样倍率n;样本近邻数k
输出:合成少数类样本集S
a)for i=1 to|T|do
b)计算xi的K个近邻样本并存入Xik集合;
c)for 1=1to n do
d)从Xik中随机选取样本xij;
e)生成[0,1]之间的随机数γ;
f)利用公式xnew,attr=xi,attr+(xij,attr-xi,attr)×γ合成xij与xi间新样本xnew的每个属性值xnew,attr;
g)将xnew添加到集合S中。
h)endfor
i)endfor
在步骤S6中,综合上述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本。
在步骤S7中,采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
具体的,实现利用决策树方法,通过NC个基分类器得到NC个分类结果T1,T2...TNC。
再将每个基分类器的分类结果作为证据,将基分类器的准确度作为权重和可靠性,使用证据推理规则进行结果合成,得到最终的结果。
本发明实施例在具体实施时包括以下步骤:
{D1,D2}为是一组具有互斥性和穷尽性的假设,用Θ表示。D1,D2为分类结果,其中D1为信用好,D2为信用坏。Θ的幂集由它的所有子集组成,用P(Θ)表示。每个分类器输出的分类结果相当于一条证据,表示为:
将分类结果表示为证据:
其中:
es表示从第s个基分类器中所得出的分类结果所转化的证据;
计算证据的信度。具体的,在证据推理规则中,为了避免基分类器结果信息的冲突性,同时考虑证据的权重和证据的可靠性进行信息融合。因此,综合考虑证据权重w与证据可靠性r的定义一个信度分布函数如下:
其中:
crw,nc=1/(1+wnc-rnc)
其中:
rs与ws分别表示相应的可靠性和权重;
其中:
rs表示可靠性;
使用证据推理规则对结果进行合成时,所用的权重与可靠性均为基分类器的准确度。采用一个非线性最小化模型对可靠性参数进行优化,从而使得诊断结果与真实结果之间的误差最小化,N为客户信息数量。该优化模型如下:
s.t.0≤wnc≤1,i=1,...N
其中:
以二分类为例,若真实分类为y1,模型合成结果为:
wnc为基分类器的权重。当目标函数ε最小化时,所有权重达到最优。
使用优化后的可靠性对结果进行合成,从而得到最终的诊断结果。
本发明实施例还提供了一种个人金融信用风险评价系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取客户信用数据,形成历史数据;
S2、对上述历史数据进行聚类处理,得到若干个信用簇群;上述信用簇群包括:正信用簇群和负信用簇群;
S3、将上述正信用簇群和上述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
S4、对上述信用样本子集进行过滤,获取其中的非均衡样本子集;
S5、获取上述非均衡样本子集的采样倍率;基于上述采样倍率,利用smote方法对上述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
S6、综合上述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
S7、采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
可理解的是,本发明实施例提供的上述评价系统与上述评价方法相对应,其有关内容的解释、举例、有益效果等部分可以参考个人金融信用风险评价方法中的相应内容,此处不再赘述。
本发明实施例还提供了一种计算机可读存储介质,该介质上存储有至少一条指令,至少所述一条指令由处理器加载并执行以实现如上述的方法。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例通过获取客户信用数据,形成历史数据;对历史数据进行聚类处理,得到正信用簇群和负信用簇群;将正信用簇群和负信用簇群随机配对,得到信用样本集;对信用样本集进行过滤,得到均衡样本集和非均衡样本集;获取非均衡样本集的采样倍率;基于采样倍率,利用smote方法对非均衡样本集进行采样处理,得到采样样本集;综合采样样本集和均衡样本集,得到评价样本集;基于决策树方法对评价样本集进行分类,基于证据推理规则方法处理分类结果,得到信用风险评价结果。本发明实施例过滤出不均衡数据样本,通过再次采样得到均衡数据样本,避免了不均衡数据对评价结果的影响,提高了评价结果的准确性,从而降低了银行信用风险,提高了竞争力。
2、本发明通过聚类加组合的方法构建了不同的样本集,增强了基分类器的多样性,并考虑到信用风险评价问题中不同消费者的个人行为差异。此外通过聚类的方法增强了样本的空间特性,有效的提高了分类性能。
3、本发明通过smote技术对数据集进行采样,减少了不均衡样本对信用风险评价结果的影响。
4、本发明通过基于证据推理的集成学习策略,考虑了基分类器提供的结果自身的可靠性以及分类器之间的最优权重,并且具有对不确定信息的融合能力,从而提高了分类的准确率。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种个人金融信用风险评价方法,其特征在于,所述评价方法由计算机执行,包括以下步骤:
获取客户信用数据,形成历史数据;
对所述历史数据进行聚类处理,得到若干个信用簇群;所述信用簇群包括:正信用簇群和负信用簇群;
将所述正信用簇群和所述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
对所述信用样本子集进行过滤,获取其中的非均衡样本子集;
获取所述非均衡样本子集的采样倍率;基于所述采样倍率,利用smote方法对所述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
综合所述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
2.如权利要求1所述的评价方法,其特征在于,基于K-means方法对所述历史数据进行聚类处理,具体包括:
初始化所述历史数据,得到正类样本数据和负类样本数据;
设置聚类中心数的取值范围;
确定所述正类样本数据和所述负类样本数据的聚类中心数的最优值;
输出正信用簇群和负信用簇群。
4.如权利要求1所述的评价方法,其特征在于,对所述信用样本子集进行过滤,具体包括:
确定每个信用样本子集中少数类样本与多数类样本的比例,若少数类样本占比少于50%,则为非均衡样本子集,否则为均衡样本集;
其中:少数类样本指的是信用坏的客户数据,多数类样本指的是信用好的客户数据。
6.如权利要求5所述的评价方法,其特征在于,对所述非均衡样本子集进行采样处理,得到均衡样本子集,具体包括:
计算所述非均衡样本子集内少数类样本之间的欧式距离矩阵;
在少数类样本xi的k个近邻样本中随机选择一个样本作为辅助样本,在样本xi与每个辅助样本间进行线性插值;具体为:
xnew,attr=xi,attr+(xij,attr-xi,attr)×γ
其中:
xi∈Rd,xi,attr表示第i个少数类样本中的第attr个属性,attr=1,2,...,d;Rd表示少数类样本集合;
γ为[0,1]之间的随机数;
xij是样本xi的第j个近邻样本,j=1,2,...,k;
xnew表示在样本xij与xi之间插值得到的样本;
共生成nt个合成样本,其中t为样本集中原始少数类样本个数。
7.如权利要求6所述的评价方法,其特征在于,基于证据推理规则方法融合多个决策树的结果,具体包括:
将分类结果表示为证据:
其中:
es表示从第s个基分类器中所得出的分类结果所转化的证据;
计算证据的信度:
其中:
crw,nc=1/(1+wnc-rnc)
其中:
rs与ws分别表示相应的可靠性和权重;
其中:
rs表示可靠性;
8.一种个人金融信用风险评价系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
获取客户信用数据,形成历史数据;
对所述历史数据进行聚类处理,得到若干个信用簇群;所述信用簇群包括:正信用簇群和负信用簇群;
将所述正信用簇群和所述负信用簇群随机配对,得到用于集成学习的若干个信用样本子集,包含均衡样本子集和非均衡样本子集;
对所述信用样本子集进行过滤,获取其中的非均衡样本子集;
获取所述非均衡样本子集的采样倍率;基于所述采样倍率,利用smote方法对所述非均衡样本子集进行采样处理,得到均衡的采样样本子集;
综合所述采样样本子集和所述均衡样本子集,构建用于集成学习的基分类器的输入样本;
采用决策树作为集成学习中的弱分类器,基于证据推理规则方法融合若干个弱分类器的分类结果,得到信用风险评价结果。
9.一种计算机可读存储介质,该介质上存储有至少一条指令,至少所述一条指令由处理器加载并执行以实现如权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911284749.2A CN111062806B (zh) | 2019-12-13 | 2019-12-13 | 个人金融信用风险评价方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911284749.2A CN111062806B (zh) | 2019-12-13 | 2019-12-13 | 个人金融信用风险评价方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062806A true CN111062806A (zh) | 2020-04-24 |
CN111062806B CN111062806B (zh) | 2022-05-10 |
Family
ID=70301598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911284749.2A Active CN111062806B (zh) | 2019-12-13 | 2019-12-13 | 个人金融信用风险评价方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062806B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541536A (zh) * | 2020-12-09 | 2021-03-23 | 长沙理工大学 | 用于信用评分的欠采样分类集成方法、设备及存储介质 |
CN112926989A (zh) * | 2021-03-22 | 2021-06-08 | 华南理工大学 | 一种基于多视图集成学习的金融交易风险评估方法及设备 |
CN114036923A (zh) * | 2021-11-17 | 2022-02-11 | 四川新网银行股份有限公司 | 一种基于文本相似度的资料虚假识别系统及方法 |
WO2022257458A1 (zh) * | 2021-06-08 | 2022-12-15 | 平安科技(深圳)有限公司 | 车险理赔行为识别方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975992A (zh) * | 2016-05-18 | 2016-09-28 | 天津大学 | 一种基于自适应升采样的不平衡数据集分类方法 |
CN106056130A (zh) * | 2016-05-18 | 2016-10-26 | 天津大学 | 针对不平衡数据集的组合降采样线性判别分类方法 |
CN108764366A (zh) * | 2018-06-07 | 2018-11-06 | 南京信息职业技术学院 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
CN110275910A (zh) * | 2019-06-20 | 2019-09-24 | 东北大学 | 一种不平衡数据集的过采样方法 |
-
2019
- 2019-12-13 CN CN201911284749.2A patent/CN111062806B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975992A (zh) * | 2016-05-18 | 2016-09-28 | 天津大学 | 一种基于自适应升采样的不平衡数据集分类方法 |
CN106056130A (zh) * | 2016-05-18 | 2016-10-26 | 天津大学 | 针对不平衡数据集的组合降采样线性判别分类方法 |
CN108764366A (zh) * | 2018-06-07 | 2018-11-06 | 南京信息职业技术学院 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
CN110275910A (zh) * | 2019-06-20 | 2019-09-24 | 东北大学 | 一种不平衡数据集的过采样方法 |
Non-Patent Citations (2)
Title |
---|
JIAN-BO YANG ETAL.: "Evidential reasoning rule for evidence combination", 《ARTIFICIAL INTELLIGENCE》 * |
陈启伟 等: "基于Ext-GBDT 集成的类别不平衡信用评分模型", 《计算机应用研究》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541536A (zh) * | 2020-12-09 | 2021-03-23 | 长沙理工大学 | 用于信用评分的欠采样分类集成方法、设备及存储介质 |
CN112926989A (zh) * | 2021-03-22 | 2021-06-08 | 华南理工大学 | 一种基于多视图集成学习的金融交易风险评估方法及设备 |
CN112926989B (zh) * | 2021-03-22 | 2023-09-05 | 华南理工大学 | 一种基于多视图集成学习的银行贷款风险评估方法及设备 |
WO2022257458A1 (zh) * | 2021-06-08 | 2022-12-15 | 平安科技(深圳)有限公司 | 车险理赔行为识别方法、装置、设备及存储介质 |
CN114036923A (zh) * | 2021-11-17 | 2022-02-11 | 四川新网银行股份有限公司 | 一种基于文本相似度的资料虚假识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111062806B (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062806B (zh) | 个人金融信用风险评价方法、系统和存储介质 | |
CN110009479B (zh) | 信用评价方法及装置、存储介质、计算机设备 | |
Tian et al. | Credit risk assessment based on gradient boosting decision tree | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
CN111080442A (zh) | 信用评分模型的构建方法、装置、设备及存储介质 | |
Yotsawat et al. | A novel method for credit scoring based on cost-sensitive neural network ensemble | |
Zelenkov | Example-dependent cost-sensitive adaptive boosting | |
CN112053223A (zh) | 一种基于ga-svm算法的互联网金融欺诈行为检测方法 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
Sasank et al. | Credit card fraud detection using various classification and sampling techniques: a comparative study | |
CN110689437A (zh) | 一种基于随机森林的通信施工项目财务风险预测方法 | |
CN110415103A (zh) | 基于变量影响度指标进行用户分群提额的方法、装置和电子设备 | |
Eddy et al. | Credit scoring models: Techniques and issues | |
CN113256409A (zh) | 基于机器学习的银行零售客户流失预测方法 | |
EP3853805A1 (en) | A computer implemented method for compiling a portfolio of assets | |
CN110349007A (zh) | 基于变量区分度指标进行用户分群提额的方法、装置和电子设备 | |
CN112862585A (zh) | 基于LightGBM决策树算法的个贷类不良资产风险评级方法 | |
KR20220071875A (ko) | 인공신경망 기반 보험 가입 예정자의 언더라이팅 장치 및 방법 | |
CN115293336A (zh) | 风险评估模型训练方法、装置和服务器 | |
Oreški et al. | Cost-sensitive learning from imbalanced datasets for retail credit risk assessment | |
CN111967973B (zh) | 银行客户数据处理方法及装置 | |
CN113222177A (zh) | 模型迁移方法、装置及电子设备 | |
CN112419045A (zh) | 基于过采样与随机森林的不平衡信贷用户分类方法 | |
CN114493822A (zh) | 一种基于迁移学习的用户违约预测定价方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |