CN106651574A

CN106651574A - 一种个人信用评估方法及装置

Info

Publication number: CN106651574A
Application number: CN201611264984.XA
Authority: CN
Inventors: 张莉; 黄晓娟; 姚望舒; 王邦军; 李凡长; 张召
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2017-05-10

Abstract

本发明公开了一种个人信用评估方法及装置，其中该方法包括：获取训练样本集，训练样本集包括具有信用标签及多个信用属性的训练样本，信用标签为对对应训练样本的信用进行评估得到的标签；选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集，将每个训练样本中包含的最优信用属性集之外的信用属性去掉，得到对应的最优训练样本集；采用支持向量机对最优训练样本集建模，得到支持向量机分类模型；获取未知信用标签且仅具有最优信用属性的待测样本并作为支持向量机分类模型的输入，得到待测样本的信用标签。由此，避免了现有技术中因为专家的主观性及随机性导致分类精度较低的问题，且具有较高的分类精度。

Description

一种个人信用评估方法及装置

技术领域

本发明涉及信用评估技术领域，更具体地说，涉及一种个人信用评估方法及装置。

背景技术

随着人工智能的发展，计算机技术被广泛地应用于各种领域，个人信用评估问题也包含在内。个人信用评估问题就是将贷款申请人分为还款可能性大的好客户(信用较好)和还款可能性小的坏客户(信用较差)，批准好客户的贷款请求，拒绝坏客户的贷款请求。个人信用评估问题从实质上讲就是一个分类问题，分类的精度很大程度上决定了银行的贷款风险大小。

现有技术中主要采用专家评分模型解决个人信用评估问题，具体来说，由专家基于其经验判断每个贷款申请人的信用好坏，进而确定贷款请求的批准与否，但是，这种方式容易因为专家的主观性及随机性，导致分类精度较低。

综上所述，如何提供一种分类精度较高的个人信用评估技术方案，是目前本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种个人信用评估方法及装置，达到分类精度较高的目的。

为了实现上述目的，本发明提供如下技术方案：

一种个人信用评估方法，包括：

获取训练样本集，所述训练样本集包括具有信用标签及多个信用属性的训练样本，所述信用标签为对对应训练样本的信用进行评估得到的标签；

选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集，将每个训练样本中包含的所述最优信用属性集之外的信用属性去掉，得到对应的最优训练样本集；

采用支持向量机对所述最优训练样本集建模，得到支持向量机分类模型；

获取未知信用标签且仅具有所述最优信用属性的待测样本并作为所述支持向量机分类模型的输入，得到所述待测样本的信用标签。

优选的，选取出分类效果最好的信用属性作为最优信用属性，包括：

获取与所述多个信用属性对应的权重向量，并对所述多个信用属性按照所述权重向量中对应权重由大至小进行排序；

对进行排序后的多个信用属性，利用支持向量机分类器在所述训练样本集上进行10折交叉验证，得到所述最优信用属性。

优选的，获取与所述多个信用属性对应的权重向量，包括：

步骤1：将权重向量表示为wt＝[w₁，w₂，…，w_I]^T∈R^I，令t＝0且设置对应的初始的权重向量为w⁰＝[1/I，1/I，…，1/I]^T，I为所述信用属性的数量；

步骤2：最大化来求得权重向量w^t+1，其中：

其中，和分别是训练样本x_i在与其信用标签不同的异类样本以及训练标签相同的同类样本中的近邻样本矩阵，k是先验设置的近邻个数，N为训练样本的数量；

求解下面的优化问题得到α_i：

求解下面的优化问题得到β_i：

其中，λ为控制稀疏项稀疏程度的超参数；

步骤3：判断||w^t+1-w^t||是否小于或等于第一预设值，如果是，则确定w^t+1为最终得到的权重向量，如果否，则令t＝t+1，返回执行步骤2。

优选的，判断出||w^t+1-w^t||大于所述第一预设值之后，还包括：

判断t是否等于第二预设值，如果是，则确定w^t+1为最终得到的权重向量，如果否，则执行所述令t＝t+1，返回执行步骤2的步骤。

优选的，获取所述训练样本集之后，还包括：

对每个所述训练样本按照下列转换函数进行离差标准化处理：

i＝1，…，N，

j＝1，…，I，

其中，x_ij表示第i个训练样本第j个信用属性的属性值，表示所有训练样本中信用属性j的最大值，表示所有训练样本中信用属性j的最小值；

对应的，获取所述待测样本之后，还包括：

对所述待测样本按照下列转换函数进行离差标准化处理：

其中，x_j表示所述待测样本第j个信用属性的属性值。

一种个人信用评估装置，包括：

获取模块，用于获取训练样本集，所述训练样本集包括具有信用标签及多个信用属性的训练样本，所述信用标签为对对应训练样本的信用进行评估得到的标签；

选取模块，用于选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集，将每个训练样本中包含的所述最优信用属性集之外的信用属性去掉，得到对应的最优训练样本集；

构建模块，用于采用支持向量机对所述最优训练样本集建模，得到支持向量机分类模型；

分类模块，用于获取未知信用标签且仅具有所述最优信用属性的待测样本并作为所述支持向量机分类模型的输入，得到所述待测样本的信用标签。

优选的，所述选取模块包括：

选取单元，用于：获取与所述多个信用属性对应的权重向量，并对所述多个信用属性按照所述权重向量中对应权重由大至小进行排序；对进行排序后的多个信用属性，利用支持向量机分类器在所述训练样本集上进行10折交叉验证，得到所述最优信用属性。

优选的，所述选取单元包括：

选取子单元，用于执行以下操作：

步骤2：最大化来求得权重向量w^t+1，其中：

求解下面的优化问题得到α_i：

求解下面的优化问题得到β_i：

其中，λ为控制稀疏项稀疏程度的超参数；

优选的，所述选取子单元还包括：

判断子单元，用于判断t是否等于第二预设值，如果是，则确定w^t+1为最终得到的权重向量，如果否，则执行所述令t＝t+1，返回执行步骤2的步骤。

优选的，还包括：

标准化处理模块，用于获取所述训练样本集之后，对每个所述训练样本按照下列转换函数进行离差标准化处理：

元＝1，…，N，

j＝1，…，I，

以及用于获取所述待测样本之后，对所述待测样本按照下列转换函数进行离差标准化处理：

其中，x_j表示所述待测样本第j个信用属性的属性值。

本发明提供了一种个人信用评估方法及装置，其中该方法包括：获取训练样本集，所述训练样本集包括具有信用标签及多个信用属性的训练样本，所述信用标签为对对应训练样本的信用进行评估得到的标签；选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集，将每个训练样本中包含的所述最优信用属性集之外的信用属性去掉，得到对应的最优训练样本集；采用支持向量机对所述最优训练样本集建模，得到支持向量机分类模型；获取未知信用标签且仅具有所述最优信用属性的待测样本并作为所述支持向量机分类模型的输入，得到所述待测样本的信用标签。本申请公开的技术方案中，首先获取具有信用标签及多个信用属性的训练样本，将每个训练样本包含的分类效果最好的最优信用属性集之外的其他信用属性去掉，得到对应的最优训练集，进而采用支持向量机对该最优训练集建模得到支持向量机分类模型，以确定未知信用标签且仅具有所述最优信用属性的待测样本的信用标签，即确定该待测样本的信用情况。由此，通过构建支持向量机分类模型实现自动分类的方式避免了现有技术中因为专家的主观性及随机性导致分类精度较低的问题，且实验证明本申请公开的上述技术方案具有较高的分类精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种个人信用评估方法的流程图；

图2为本发明实施例提供的一种个人信用评估装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，为本发明实施例提供的一种个人信用评估方法的流程图，可以包括：

S11：获取训练样本集，训练样本集包括具有信用标签及多个信用属性的训练样本，信用标签为对对应训练样本的信用进行评估得到的标签。

训练样本集可以表示为其中x_i∈R^I，R表示实数集，y_i∈{-1,+1}是x_i的信用标签，表明x_i的信用类别，如：如果y_i＝1，表示的x_i信用好，如果y_i＝-1，表示的x_i信用差。N是训练样本的总个数，I是训练样本的维数，即训练样本包含的信用属性的个数，需要说明的是每个训练样本包含的信用属性是相同的，而对应每个信用属性的属性值可能相同也可能不同；具体来说，训练样本包含的信用属性可以包括信用历史、资金使用目的、银行账号状态等，当然还可以根据实际需要进行其他设定，均在本发明的保护范围之内。另外，训练样本集中包括多个训练样本，而训练样本的具体数量可以根据实际需要进行设定。

S12：选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集，将每个训练样本中包含的最优信用属性集之外的信用属性去掉，得到对应的最优训练样本集。

由全部信用属性中选取出分类效果最好的最优信用属性组成最优信用属性集，从而基于该最优信用属性集获得特征选取后的最优训练样本集，也即将每个训练样本包含的除最优信用属性集之外的其他信用属性去掉，从而得到仅仅保留有最优信用属性集的训练样本组成的集合。

S13：采用支持向量机对最优训练样本集建模，得到支持向量机分类模型。

支持向量机是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中，以求获得最好的推广能力。本申请中采用支持向量机对最优训练样本集建模得到对应的支持向量机分类模型，该模型具有较优的分类精度。

S14：获取未知信用标签且仅具有最优信用属性的待测样本并作为支持向量机分类模型的输入，得到待测样本的信用标签。

待测样本包括的信用属性可以包括最优信用属性及其他信用属性，而在对待测样本进行分类时，只需将其他信用属性去掉而仅仅保留最优信用属性即可。将仅包含最优先用属性的待测样本输入分类器，得到对应的输出即为待测样本的信用标签，由该信用标签可以获知待测样本的信用情况，如信用好或者信用差。

本申请公开的技术方案中，首先获取具有信用标签及多个信用属性的训练样本，将每个训练样本包含的分类效果最好的最优信用属性集之外的其他信用属性去掉，得到对应的最优训练集，进而采用支持向量机对该最优训练集建模得到支持向量机分类模型，以确定未知信用标签且仅具有最优信用属性的待测样本的信用标签，即确定该待测样本的信用情况。由此，通过构建支持向量机分类模型实现自动分类的方式避免了现有技术中因为专家的主观性及随机性导致分类精度较低的问题，且实验证明本申请公开的上述技术方案具有较高的分类精度。

具体来说，本发明在German Credit数据集上进行了测试，并将该数据集的原始版本的数据经过编辑形成了属性权威数值型变量的版本。该数据集共有1000个样本，每个样本有24个信用属性以及1个信用标签(信用好和信用差)，其中有700个信用好的样本和300个信用差的样本。由中选取出训练样本集，该训练样本集中包含500个训练样本，其中350个是信用好的训练样本，其余150个样品信用差的训练样本。相应地，有350个信用好的样本及150个信用差的样本作为待测样本放入在测试样本集中。通过本申请公开的技术方案基于训练样本集构建对应的支持向量机分类模型，并利用该分类模型对每个待测样本进行分类，得到其对应的信用标签，通过该分类模型得到的信用标签与已知的待测样本的信用标签进行比对，得到对应识别率高达76.20％，可见本申请公开的技术方案的分类精度较高。

本发明实施例提供的一种个人信用评估方法，选取出分类效果最好的信用属性作为最优信用属性，可以包括：

获取与多个信用属性对应的权重向量，并对多个信用属性按照权重向量中对应权重由大至小进行排序；

对进行排序后的多个信用属性，利用支持向量机分类器在训练样本集上进行10折交叉验证，得到最优信用属性。

需要说明的是，权重向量中包括各个信用属性的权重，且各个信用属性的权重的总和为1，权重越大说明其对应信用属性越重要，因此对多个信用属性按照权重向量中对应权重由大至小进行排序也即对信用属性的重要性进行排序，进而基于该排序得到最优信用属性，从而保证了得到的最优信用属性为分类效果最好的信用属性，进一步保证了本申请公开的技术方案的分类精度。另外，对进行排序后的多个信用属性，利用支持向量机分类器在训练样本集上进行10折交叉验证，得到最优信用属性具体可以包括：将训练样本集利用10折交叉再次划分为训练集和测试集，在训练集上依次选取排序好的信用属性，并基于对应选取的信用属性的训练集采用支持向量机方法训练对应的支持向量机分类器，然后利用该支持向量机分类器对测试集中的训练样本进行分类，最后得到使得测试集的平均分类准确率最高的信用属性子集即为最优信用属性的集合。

本发明实施例提供的一种个人信用评估方法，获取与多个信用属性对应的权重向量，可以包括：

S121：将权重向量表示为w^t＝[w1,w2,…,w_I]^T∈R^I,令t＝0且设置对应的初始的权重向量为w⁰＝「1/I，1/I，…，1/I]^T，I为信用属性的数量。

t＝0时对应的权重向量w⁰为初始权重向量，此时可以设置每个信用属性的重要性相同，也即每个信用属性的权重均为1/I，当然也可以根据实际需要进行其他分配，均在本发明的保护范围之内。

S122：最大化来求得权重向量w^t+1，其中：

其中，和分别是训练样本x_i在与其信用标签不同的异类样本以及训练标签相同的同类样本中的近邻样本矩阵，具体来说，与训练样本x_i具有不同信用标签的训练样本为其异类样本，与训练样本x_i具有相同信用标签的训练样本为其同类样本，通过计算训练样本x_i与每个异类样本的距离，进而从中选取出k个最小的距离对应的异类样本组成异类样本的近邻样本矩阵，同理，通过计算训练样本x_i与每个同类样本的距离，进而从中选取出k个最小的距离对应的同类样本组成同类样本的近邻样本矩阵，其中计算的距离具体可以是欧式距离；k是先验设置的近邻个数，N为训练样本的数量；

求解下面的优化问题得到α_i：

求解下面的优化问题得到β_i：

其中，λ为控制稀疏项稀疏程度的超参数；

S123：判断||w^t+1-w^t||是否小于或等于第一预设值，如果是，则确定w^t+1为最终得到的权重向量，如果否，则令t＝t+1，返回执行S122。

其中，第一预设值可以根据实际需要进行设定，通常需要设置的比较小，如0.01。通过上述步骤，使得每个训练样本的近邻表示尽量系数，从而避免噪声数据对近邻表示的影响，进一步保证了本发明公开的技术方案的分类精度。

本发明实施例提供的一种个人信用评估方法，判断出||w^t+1-w^t||大于第一预设值之后，还可以包括：

判断t是否等于第二预设值，如果是，则确定w^t+1为最终得到的权重向量，如果否，则执行令t＝t+1，返回执行S122的步骤。

其中第二预设值可以根据实际需要进行设定，如t＝10。如果||w^t+1-w^t||始终无法小于或等于第一预设值，那么不停重复上述步骤是没有实质意义的，因此，设定第二预设值，只要t达到第二预设值，则停止循环，并确定w^t+1为最终得到的权重向量，从而保证了权重向量的快速获取。

本发明实施例提供的一种个人信用评估方法，获取训练样本集之后，还可以包括：

对每个训练样本按照下列转换函数进行离差标准化处理：

i＝1，…，N，

j＝1，…，I，

对应的，获取待测样本之后，还包括：

对待测样本按照下列转换函数进行离差标准化处理：

其中，x_j表示待测样本第j个信用属性的属性值。

通过上述处理，能够使得训练样本及待测样本对应的信用属性的属性值均处于一定的范围内，进而便于实现后续的步骤，加速了分类器的构建及基于分类器实现的分类。

本发明实施例还提供了一种个人信用评估装置，如图2所示，可以包括：

获取模块11，用于获取训练样本集，训练样本集包括具有信用标签及多个信用属性的训练样本，信用标签为对对应训练样本的信用进行评估得到的标签；

选取模块12，用于选取出分类效果最好的信用属性作为最优信用属性并组成对应的最优信用属性集，将每个训练样本中包含的最优信用属性集之外的信用属性去掉，得到对应的最优训练样本集；

构建模块13，用于采用支持向量机对最优训练样本集建模，得到支持向量机分类模型；

分类模块14，用于获取未知信用标签且仅具有最优信用属性的待测样本并作为支持向量机分类模型的输入，得到待测样本的信用标签。

本发明实施例提供的一种个人信用评估装置，选取模块可以包括：

选取单元，用于：获取与多个信用属性对应的权重向量，并对多个信用属性按照权重向量中对应权重由大至小进行排序；对进行排序后的多个信用属性，利用支持向量机分类器在训练样本集上进行10折交叉验证，得到最优信用属性。

本发明实施例提供的一种个人信用评估装置，选取单元可以包括：

选取子单元，用于执行以下操作：

步骤1：将权重向量表示为w^t＝[w₁，w₂，…，w_I]^T∈R^I，令t＝0且设置对应的初始的权重向量为w⁰＝[1/I,1/I,…,1/I]^T,I为信用属性的数量；

步骤2：最大化来求得权重向量w^t+1，其中：

求解下面的优化问题得到α_i：

求解下面的优化问题得到β_i：

其中，λ为控制稀疏项稀疏程度的超参数；

本发明实施例提供的一种个人信用评估装置，选取子单元还可以包括：

判断子单元，用于判断t是否等于第二预设值，如果是，则确定w^t+1为最终得到的权重向量，如果否，则执行令t＝t+1，返回执行步骤2的步骤。

本发明实施例提供的一种个人信用评估装置，还可以包括：

标准化处理模块，用于获取训练样本集之后，对每个训练样本按照下列转换函数进行离差标准化处理：

i＝1，…，N，

j＝1，…，I，

以及用于获取待测样本之后，对待测样本按照下列转换函数进行离差标准化处理：

其中，x_j表示待测样本第j个信用属性的属性值。

本发明实施例提供的一种个人信用评估装置中相关部分的说明请参见本发明实施例提供的一种个人信用评估方法中对应部分的详细说明，在此不再赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种个人信用评估方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，选取出分类效果最好的信用属性作为最优信用属性，包括：

3.根据权利要求2所述的方法，其特征在于，获取与所述多个信用属性对应的权重向量，包括：

步骤1：将权重向量表示为w^t＝[w₁,w₂,…,w_I]^T∈R^I，令t＝0且设置对应的初始的权重向量为w⁰＝[1/I,1/I,…,1/I]^T，I为所述信用属性的数量；

步骤2：最大化来求得权重向量w^t+1，其中：

z_{i}^{t + 1} = \frac{1}{N} Σ_{i = 1}^{N} (| x_{i} - α_{i} H_{i}^{N M} | - | x_{i} - β_{i} H_{i}^{N H} |),

求解下面的优化问题得到α_i：

\begin{matrix} \underset{α_{i}}{m i n} & \frac{1}{2} | | {(w^{i})}^{T} x_{i} - {(w^{i})}^{T} H_{i}^{N M} α_{i} | |^{2} + λ | | α_{i} | |_{1} \end{matrix},

求解下面的优化问题得到β_i：

\begin{matrix} \underset{β_{i}}{m i n} & \frac{1}{2} | | {(w^{i})}^{T} x_{i} - {(w^{i})}^{T} H_{i}^{N H} β_{i} | |^{2} + λ | | β_{i} | |_{1} \end{matrix};

其中，λ为控制稀疏项稀疏程度的超参数；

4.根据权利要求3所述的方法，其特征在于，判断出||w^t+1-w^t||大于所述第一预设值之后，还包括：

5.根据权利要求1所述的方法，其特征在于，获取所述训练样本集之后，还包括：

x_{i j} = \frac{x_{i j} - x_{j}^{\min}}{x_{j}^{\max} - x_{j}^{\min}},

i＝1，…，N，

j＝1，…，I，

对应的，获取所述待测样本之后，还包括：

对所述待测样本按照下列转换函数进行离差标准化处理：

x_{j} = \frac{x_{j} - x_{j}^{\min}}{x_{j}^{\max} - x_{j}^{\min}},

其中，x_j表示所述待测样本第j个信用属性的属性值。

6.一种个人信用评估装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述选取模块包括：

8.根据权利要求7所述的装置，其特征在于，所述选取单元包括：

选取子单元，用于执行以下操作：

步骤2：最大化来求得权重向量w^t+1，其中：

z_{i}^{t + 1} = \frac{1}{N} Σ_{i = 1}^{N} (| x_{i} - α_{i} H_{i}^{N M} | - | x_{i} - β_{i} H_{i}^{N H} |),

求解下面的优化问题得到α_i：

\begin{matrix} \underset{α_{i}}{m i n} & \frac{1}{2} | | {(w^{i})}^{T} x_{i} - {(w^{i})}^{T} H_{i}^{N M} α_{i} | |^{2} + λ | | α_{i} | |_{1} \end{matrix},

求解下面的优化问题得到β_i：

\begin{matrix} \underset{β_{i}}{m i n} & \frac{1}{2} | | {(w^{i})}^{T} x_{i} - {(w^{i})}^{T} H_{i}^{N H} β_{i} | |^{2} + λ | | β_{i} | |_{1} \end{matrix};

其中，λ为控制稀疏项稀疏程度的超参数；

9.根据权利要求8所述的装置，其特征在于，所述选取子单元还包括：

10.根据权利要求6所述的装置，其特征在于，还包括：

x_{i j} = \frac{x_{i j} - x_{j}^{\min}}{x_{j}^{\max} - x_{j}^{\min}},

i＝1，…，N，

j＝1，…，I，

x_{j} = \frac{x_{j} - x_{j}^{\min}}{x_{j}^{\max} - x_{j}^{\min}},

其中，x_j表示所述待测样本第j个信用属性的属性值。