CN111062806A

CN111062806A - 个人金融信用风险评价方法、系统和存储介质

Info

Publication number: CN111062806A
Application number: CN201911284749.2A
Authority: CN
Inventors: 杨颖�; 高星雨; 杨淮; 徐冬玲; 杨剑波
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-24
Anticipated expiration: 2039-12-13
Also published as: CN111062806B

Abstract

本发明提供一种个人金融信用风险评价方法、系统和存储介质，涉及信用风险评估领域。包括以下步骤：获取客户信用数据，形成历史数据；对历史数据进行聚类处理，得到正信用簇群和负信用簇群；将正信用簇群和负信用簇群随机配对，得到信用样本子集；对信用样本子集进行过滤，得到均衡样本子集和非均衡样本子集；获取非均衡样本子集的采样倍率；基于采样倍率，利用smote方法对非均衡样本子集进行采样处理，得到均衡的采样样本子集；综合采样样本子集和原有的均衡样本子集，得到评价样本集；基于决策树作为集成学习的弱分类器，最后利用证据推理规则的方法融合不同弱分类器的分类结果，得到信用风险评价的最终结果。本发明可以准确评价客户的信用风险。

Description

个人金融信用风险评价方法、系统和存储介质

技术领域

本发明涉及信用风险评估技术领域，具体涉及一种个人金融信用风险评价方法、系统和存储介质。

背景技术

随着科技的发展，信用卡这一全球通用的，现代化的货币形式，正在开创一个崭新的时代。中国的信用卡在过去10年一直爆发性进行增长。发卡量的增加带来了消费额和透支余额的增加，与此同时个人违约的案例也在不断增加。为了更好的防范和控制信用卡违约风险，避免信用风险造成的损失，对用户的信用进行评价愈发重要。

信用风险评价是指根据用户年龄收入等信息判断信用的好坏，现有技术一般采用统计学方法和人工智能方法。在统计学方法中，最常用的方法有线性判别分析以及逻辑回归；人工智能的方法包括K近邻，人工神经网络方法和集成学习方法。

然而本申请的发明人发现，现有技术提供的方法在应用时，可能违约的样本在前期的筛选中就被直接拒绝了，使得前期收集到的数据集中信用好的客户与信用坏的客户数量不同，信用好客户的数量比信用坏的客户多，从而产生样本类别严重不均衡的数据集，而不均衡的数据集使得评价结果不准确。即现有技术存在准确性低的缺点。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种个人金融信用风险评价方法、系统和存储介质，解决了现有技术准确性低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明解决其技术问题所提供的一种个人金融信用风险评价方法，所述评价方法由计算机执行，包括以下步骤：

获取客户信用数据，形成历史数据；

对所述历史数据进行聚类处理，得到若干个信用簇群；所述信用簇群包括：正信用簇群和负信用簇群；

将所述正信用簇群和所述负信用簇群随机配对，得到用于集成学习的若干个信用样本子集，包含均衡样本子集和非均衡样本子集；

对所述信用样本子集进行过滤，获取其中的非均衡样本子集；

获取所述非均衡样本子集的采样倍率；基于所述采样倍率，利用smote方法对所述非均衡样本子集进行采样处理，得到均衡的采样样本子集；

综合所述采样样本子集和所述均衡样本子集，构建用于集成学习的基分类器的输入样本；

采用决策树作为集成学习中的弱分类器，基于证据推理规则方法融合若干个弱分类器的分类结果，得到信用风险评价结果。

优选的，基于K-means方法对所述历史数据进行聚类处理，具体包括：

初始化所述历史数据，得到正类样本数据和负类样本数据；

设置聚类中心数的取值范围；

确定所述正类样本数据和所述负类样本数据的聚类中心数的最优值；

输出正信用簇群和负信用簇群。

优选的，所述信用样本子集的获取方法包括：

组合配对：从生成的

个正信用簇群和

个负信用簇群中随机挑选单个子集进行配对组合，共形成

个包含正负类样本的新数据集。

优选的，对所述信用样本子集进行过滤，具体包括：

确定每个信用样本子集中少数类样本与多数类样本的比例，若少数类样本占比少于50％，则为非均衡样本子集，否则为均衡样本集；

其中：少数类样本指的是信用坏的客户数据，多数类样本指的是信用好的客户数据。

优选的，所述采样倍率的计算方法包括：

根据样本不平衡比例IL以确定采样倍率n；

n＝round(IL)

其中：

round表示对IL四舍五入；

其中：

majority表示多数类样本，minority表示少数类样本。

优选的，对所述非均衡样本子集进行采样处理，得到均衡样本子集，具体包括：

计算所述非均衡样本子集内少数类样本之间的欧式距离矩阵；

在少数类样本x_i的k个近邻样本中随机选择一个样本作为辅助样本，在样本x_i与每个辅助样本间进行线性插值；具体为：

x_new，attr＝x_i，attr+(x_ij，attr-x_i，attr)×γ

其中：

x_i∈R^d，x_i，attr表示第i个少数类样本中的第attr个属性，attr＝1，2，...，d；R^d表示少数类样本集合；

γ为[0，1]之间的随机数；

x_ij是样本x_i的第j个近邻样本，j＝1，2，...，k；

x_new表示在样本x_ij与x_i之间插值得到的样本；

共生成nt个合成样本，其中t为样本集中原始少数类样本个数。

优选的，基于证据推理规则方法融合多个决策树的结果，具体包括：

将分类结果表示为证据：

其中：

e_s表示从第s个基分类器中所得出的分类结果所转化的证据；

为第s个基分类器的分类结果取y_j的概率；

计算证据的信度：

其中：

是综合考虑可靠性与权重的证据e_s对D_j的支持度，定义如下：

c_rw，nc＝1/(1+w_nc-r_nc)

其中：

c_rw，s＝1/(1+w_s-r_s)，表示归一化因子；

r_s与w_s分别表示相应的可靠性和权重；

使用证据推理规则对S个基分类器所提供的S条证据e₁，e₂，...，e_S进行融合，可得到这S条证据联合支持y_j的信度函数

如下：

其中：

r_s表示可靠性；

m_{P(Θ)，e(S-1)}，

m_B，e(S-1)，m_C，S为信度分布函数。

本发明解决其技术问题所提供的一种个人金融信用风险评价系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

获取客户信用数据，形成历史数据；

本发明解决其技术问题所提供的一种计算机可读存储介质，该介质上存储有至少一条指令，至少所述一条指令由处理器加载并执行以实现如上述的方法。

(三)有益效果

本发明提供了一种个人金融信用风险评价方法、系统和存储介质。与现有技术相比，具备以下有益效果：

本发明通过获取客户信用数据，形成历史数据；对历史数据进行聚类处理，得到正信用簇群和负信用簇群；将正信用簇群和负信用簇群随机配对，得到信用样本子集；对信用样本子集进行过滤，得到均衡样本子集和非均衡样本子集；获取非均衡样本子集的采样倍率；基于采样倍率，利用smote方法对非均衡样本子集进行采样处理，得到采样样本子集；综合采样样本子集和均衡样本子集，得到评价样本集；基于决策树方法构造集成学习框架对评价样本集进行分类，基于证据推理规则方法融合分类结果，得到信用风险评价结果。本发明过滤出不均衡数据样本，通过再次采样得到均衡数据样本，避免了不均衡数据对评价结果的影响，通过聚类以及组合的方法增加了集成学习框架中的多样性，提高了评价结果的准确性，从而降低了银行信用风险，提高了竞争力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的个人金融信用风险评价方法的整体示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种个人金融信用风险评价方法、系统和存储介质，解决了现有技术准确性低问题，提高了评价客户的信用风险的准确性。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过获取客户信用数据，形成历史数据；对历史数据进行聚类处理，得到正信用簇群和负信用簇群；将正信用簇群和负信用簇群随机配对，得到信用样本子集；对信用样本子集进行过滤，得到均衡样本子集和非均衡样本子集；获取非均衡样本子集的采样倍率；基于采样倍率，利用smote方法对非均衡样本子集进行采样处理，得到采样样本子集；综合采样样本子集和均衡样本子集，得到评价样本集；基于决策树方法作为弱分类器构造集成学习框架对评价样本集进行分类，基于证据推理规则方法融合分类结果，得到信用风险评价结果。本发明实施例过滤出不均衡数据样本，通过再次采样得到均衡数据样本，避免了不均衡数据对评价结果的影响，通过聚类以及组合的方法增加了集成学习框架中的多样性，提高了评价结果的准确性，从而降低了银行信用风险，提高了竞争力。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种个人金融信用风险评价方法，该方法由计算机执行，如图1所示，包括以下步骤：

S1、获取客户信用数据，形成历史数据；

S2、对上述历史数据进行聚类处理，得到若干个信用簇群；上述信用簇群包括：正信用簇群和负信用簇群；

S3、将上述正信用簇群和上述负信用簇群随机配对，得到用于集成学习的若干个信用样本子集，包含均衡样本子集和非均衡样本子集；

S4、对上述信用样本子集进行过滤，获取其中的非均衡样本子集；

S5、获取上述非均衡样本子集的采样倍率；基于上述采样倍率，利用smote方法对上述非均衡样本子集进行采样处理，得到均衡的采样样本子集；

S6、综合上述采样样本子集和所述均衡样本子集，构建用于集成学习的基分类器的输入样本；

S7、采用决策树作为集成学习中的弱分类器，基于证据推理规则方法融合若干个弱分类器的分类结果，得到信用风险评价结果。

本发明实施例通过获取客户信用数据，形成历史数据；对历史数据进行聚类处理，得到正信用簇群和负信用簇群；将正信用簇群和负信用簇群随机配对，得到信用样本子集；对信用样本子集进行过滤，得到均衡样本子集和非均衡样本子集；获取非均衡样本子集的采样倍率；基于采样倍率，利用smote方法对非均衡样本子集进行采样处理，得到均衡的采样样本子集；综合采样样本子集和均衡样本子集，得到评价样本集；基于决策树方法为弱分类器构造集成学习框架对评价样本集进行分类，基于证据推理规则方法融合分类结果，得到信用风险评价结果。本发明实施例过滤出不均衡数据样本，通过再次采样得到均衡数据样本，避免了不均衡数据对评价结果的影响，提高了评价结果的准确性，从而降低了银行信用风险，提高了竞争力。

下面对各步骤进行具体分析。

在步骤S1中，获取客户信用数据，形成历史数据。

具体的，在本发明实施例中，采用了UCI公开数据集信用卡客户违约数据集，该数据集收集了中国台湾的30000个信用卡客户信息，该样本集中有23个属性。数据属性有23个，如表1所示，违约情况为客户标签值。由于在实际业务中，很多可能违约的样本在前期的筛选中就被直接拒绝了，导致前期收集到的数据集中信用好的客户与信用坏的客户数量不同，本案例中其中标签1的数据有23364条，而标签为-1的数据有6636条，不均衡比为3.5：1，标签1的数据为多数类，标签-1的为少数类。

表1数据属性

在步骤S2中，对上述历史数据进行聚类处理，得到若干个信用簇群；上述信用簇群包括：正信用簇群和负信用簇群。

具体的，本发明实施例采用K-means方法对历史数据进行聚类处理，包括以下步骤：

假设数据集S有N个样本X₁，X₂，...X_N，其中

是d维向量。每一个样本X_i都有相应的标签值y_i，表示样本所属类别。在不失一般性的情况下，y∈{一1，1}(即信用“违约”，“没有违约”)。

(1)初始化样本，形成两类样本集合，即正类样本和负类样本，其样本数分别表示为S⁺与S^-。

(2)设置聚类中心数K的取值范围。聚类中心数K，

(3)确定正负样本集合中的聚类中心数K的最优值：

输入全部正类样本，随机选取K个样本作为聚类中心。计算每个样本到默认群集中心的欧式距离，指派到距离最短的群聚中心，此时就会产生初始群集的成员集合：C₁，C₂...C_K，新的聚类中心

其中：m_k是簇C_K的样本数目，

是其中的样本。

簇内的紧密度，表示每个样本与质心间的相对距离，越小说明簇内相似度越高。用

表示。其中：

而簇间的分离度，表示不同簇之间的相似度。用指标Inter＝exp(-D/β)表示，值越小越好。其中

表示每对簇心之间的平均距离。

上述公式表示每个聚类中心到集群中心r₀的平均距离。确定最优K值的目标函数同时考虑了上述两个指标。

在本发明实施例中，opt表示目标函数最优时K的取值。

Min：VF(K)＝Intra×Inter

s.t.0＜Intra≤1

0＜Inter≤1

当VF取最小时取最优值

负类集合同理得到

输出K最优时的正类簇群

负类簇群

在步骤S3中，将上述正信用簇群和上述负信用簇群随机配对，得到用于集成学习的若干个信用样本子集，包含均衡样本子集和非均衡样本子集。

具体的，进行组合配对：从生成的

个正信用簇群和

个负信用簇群中随机挑选单个子集进行配对组合，共形成

个包含正负类样本的新数据集。

具体算法如下：

在步骤S4中，对上述信用样本子集进行过滤，获取其中的非均衡样本子集。

具体的，确定每个信用样本子集中少数类样本与多数类样本的比例，若少数类样本占比少于50％，则该信用样本子集为非均衡样本子集，否则为均衡样本集。

在本发明实施例中，少数类样本指的是信用坏的客户数据，多数类样本指的是信用好的客户数据。

在步骤S5中，获取上述非均衡样本子集的采样倍率；基于上述采样倍率，利用smote方法对上述非均衡样本子集进行采样处理，得到均衡的采样样本子集。

采样倍率的计算方法包括：

根据样本不平衡比例IL以确定采样倍率n；

n＝round(IL)

其中：

round表示对IL四舍五入。

其中：

majority表示多数类样本，minority表示少数类样本。

接着对符合要求的集合进行采样。采样运用smote算法在筛选后的安全区域内生成新的少数类样本，通过增加少数类样本实现样本集合的类别平衡。在本发明实施例中，安全区域指的是不易产生噪声问题和类内不均衡问题的数据集合区域。

具体包括以下步骤：

首先从少数类中随机选取样本x_i作为合成新样本的根样本；从x_i的同类别的k个近邻样本中随机选择一个样本作为新样本的辅助样本；然后在样本x_i与每个辅助样本间通过：

x_new，attr＝x_i，attr+(x_ij，attr-x_i，attr)×γ进行线性插值，最终生成nt个合成样本。其中t为少数类样本数；x_i∈R^d，x_i，attr是少数类中的第i个样本的第attr个属性，attr＝1，2，...，d；γ是[0，1]之间的随机数；x_ij是样本x_i的第j个近邻样本，j＝1，2，...，k；新样本x_new是在样本x_ij与x_i之间插值得到的样本，其具体算法如下所示：

算法：SMOTE算法

输入：少数类样本T；采样倍率n；样本近邻数k

输出：合成少数类样本集S

a)for i＝1 to|T|do

b)计算x_i的K个近邻样本并存入X_ik集合；

c)for 1＝1to n do

d)从X_ik中随机选取样本x_ij；

e)生成[0，1]之间的随机数γ；

f)利用公式x_new，attr＝x_i，attr+(x_ij，attr-x_i，attr)×γ合成x_ij与x_i间新样本x_new的每个属性值x_new，attr；

g)将x_new添加到集合S中。

h)endfor

i)endfor

在步骤S6中，综合上述采样样本子集和所述均衡样本子集，构建用于集成学习的基分类器的输入样本。

在步骤S7中，采用决策树作为集成学习中的弱分类器，基于证据推理规则方法融合若干个弱分类器的分类结果，得到信用风险评价结果。

具体的，实现利用决策树方法，通过NC个基分类器得到NC个分类结果T₁，T₂...T_NC。

再将每个基分类器的分类结果作为证据，将基分类器的准确度作为权重和可靠性，使用证据推理规则进行结果合成，得到最终的结果。

本发明实施例在具体实施时包括以下步骤：

{D₁，D₂}为是一组具有互斥性和穷尽性的假设，用Θ表示。D₁，D₂为分类结果，其中D₁为信用好，D₂为信用坏。Θ的幂集由它的所有子集组成，用P(Θ)表示。每个分类器输出的分类结果相当于一条证据，表示为：

将分类结果表示为证据：

其中：

e_s表示从第s个基分类器中所得出的分类结果所转化的证据；

为第s个基分类器的分类结果取y_j的概率；

计算证据的信度。具体的，在证据推理规则中，为了避免基分类器结果信息的冲突性，同时考虑证据的权重和证据的可靠性进行信息融合。因此，综合考虑证据权重w与证据可靠性r的定义一个信度分布函数如下：

其中：

c_rw，nc＝1/(1+w_nc-r_nc)

其中：

c_rw，s＝1/(1+w_s-r_s)，表示归一化因子；

r_s与w_s分别表示相应的可靠性和权重；

如下：

其中：

r_s表示可靠性；

m_{P(Θ)，e(S-1)}，

m_B，e(S-1)，m_C，S为信度分布函数

经过证据推理规则，基分类器融合后的结果为

模型的最终分类结果则为最大的

值所对应的类别。

使用证据推理规则对结果进行合成时，所用的权重与可靠性均为基分类器的准确度。采用一个非线性最小化模型对可靠性参数进行优化，从而使得诊断结果与真实结果之间的误差最小化，N为客户信息数量。该优化模型如下：

s.t.0≤w_nc≤1，i＝1，...N

其中：

y_n为真实分类结果的分布，

为基分类器结果合成后在不同类别上的概率分布。

以二分类为例，若真实分类为y₁，模型合成结果为：

则y_n为(1，0)。

为：

为y_n与

之间的欧式距离。

w_nc为基分类器的权重。当目标函数ε最小化时，所有权重达到最优。

使用优化后的可靠性对结果进行合成，从而得到最终的诊断结果。

本发明实施例还提供了一种个人金融信用风险评价系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

S1、获取客户信用数据，形成历史数据；

可理解的是，本发明实施例提供的上述评价系统与上述评价方法相对应，其有关内容的解释、举例、有益效果等部分可以参考个人金融信用风险评价方法中的相应内容，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，该介质上存储有至少一条指令，至少所述一条指令由处理器加载并执行以实现如上述的方法。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例通过获取客户信用数据，形成历史数据；对历史数据进行聚类处理，得到正信用簇群和负信用簇群；将正信用簇群和负信用簇群随机配对，得到信用样本集；对信用样本集进行过滤，得到均衡样本集和非均衡样本集；获取非均衡样本集的采样倍率；基于采样倍率，利用smote方法对非均衡样本集进行采样处理，得到采样样本集；综合采样样本集和均衡样本集，得到评价样本集；基于决策树方法对评价样本集进行分类，基于证据推理规则方法处理分类结果，得到信用风险评价结果。本发明实施例过滤出不均衡数据样本，通过再次采样得到均衡数据样本，避免了不均衡数据对评价结果的影响，提高了评价结果的准确性，从而降低了银行信用风险，提高了竞争力。

2、本发明通过聚类加组合的方法构建了不同的样本集，增强了基分类器的多样性，并考虑到信用风险评价问题中不同消费者的个人行为差异。此外通过聚类的方法增强了样本的空间特性，有效的提高了分类性能。

3、本发明通过smote技术对数据集进行采样，减少了不均衡样本对信用风险评价结果的影响。

4、本发明通过基于证据推理的集成学习策略，考虑了基分类器提供的结果自身的可靠性以及分类器之间的最优权重，并且具有对不确定信息的融合能力，从而提高了分类的准确率。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。