CN107122890A

CN107122890A - 个人信用得分优化评价方法

Info

Publication number: CN107122890A
Application number: CN201710224341.0A
Authority: CN
Inventors: 徐达宇; 魏致善; 施宇伦
Original assignee: SUNYARD SYSTEM ENGINEERING Co Ltd; Zhejiang A&F University ZAFU
Current assignee: SUNYARD SYSTEM ENGINEERING Co Ltd; Zhejiang A&F University ZAFU
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2017-09-01

Abstract

本发明提供了一种个人信用得分优化评价方法，根据历史个人信用评价数据，将征信覆盖范围内的客户进行信用标签标定；根据信用标签标定结果，对评价指标进行筛选，获得评价使用的征信数据；根据筛选的结果对个人信用进行评价。本发明所提供的方法能够充分算法与决策树模型的优点，可以优化整个面向大规模征信数据的个人信用得分计算过程，加速信用得分计算的执行速度，提升计算结果的有效性，增强评价过程的可解释性，通过Adaptive Lasso算法可以约简评价维度、降低计算复杂度、提升评价执行效率。

Description

个人信用得分优化评价方法

技术领域

本发明涉及技术领域互联网金融信用技术领域，特别涉及一种个人信用得分优化评价方法。

背景技术

目前，国内外在个人信用得分评价上所采用的方法主要分为三大类：第一类是基于统计学模型的信用得分评价方法，如线性回归法、Logistic回归方法和Probit回归方法等回归模型以及基于K-近邻判别分析方法和贝叶斯概率模型的非参数信用得分评价方法；第二类是非统计学模型的信用得分评价方法，如神经网络、支持向量机、遗传算法和决策树等一系列人工智能算法；第三类是组合信用得分评价方法，该类模型利用多个信用得分评价模型，并根据各个算法的优缺点进行有机融合，可以获得比上述两类方法中的单个模型更好的计算效果，对于以上三类个人信用得分优化评价方法，都存在着各自的缺陷。

基于统计学模型的信用得分评价方法存在模型构建过程复杂，易于过度拟合，计算复杂度高等缺点，不适合当前面向大规模征信数据的个人信用得分评价应用；

基于非统计学模型的信用得分评价方法存在着评价结果易受噪声数据干扰而出现不稳定，以及评价过程不清晰而导致模型可解释性差等缺陷；

在组合评价方法中，由于Logistic回归模型存在不能够很好解决多重共线性的问题，甚至由于计算过多变量而导致模型复杂度的增加，从而降低了模型评价结果的准确性；同时，在信用得分评价过程中，Logistic回归模型无法根据实际情况动态调整“好”、“坏”客户错判所带来的损失-收益比。因此，在具体应用过程中也受到了一定的限制；最后，在面向当前基于大规模征信数据的个人信用得分评价应用中，Logistic回归模型因其计算复杂度高，在处理大数据时，其执行效率无法满足需求。

发明内容

为解决现有技术中个人信用得分评价过程中容易受噪声数据干扰；利用统计学中模型构建过程复杂；使用组合评价方法中计算过多导致模型更加复杂等技术问题，本发明提出一种计算复杂度低、容易建模的个人信用得分优化评价方法来实现。

一种个人信用得分优化评价方法，包括以下步骤：

根据历史个人信用数据，将征信覆盖范围内的客户进行信用标签标定；

根据信用标签标定结果，对信用指标进行筛选，获得评价使用的高质量征信数据；

根据筛选的结果对个人信用得分进行评价，具体计算步骤如下：构造决策树并对构造好的决策树进行剪枝，精简决策树模型，防止决策树在构造过程中过度拟合；采用Boosting推进，进一步提高决策树的准确性；构造成本矩阵与代价敏感树，能降低生成的决策树模型发生高成本误判的概率；对决策树进行修剪及交叉验证，进一步提高决策树的精确度；输入待评价数据，输出评价结果：利用构建完成的决策树模型，在决策树中输入待评价使用的征信数据，经过训练获得最终的个人信用评价结果。

作为一种可实施方式，所述对信用指标进行筛选的具体步骤如下：

设定个人信用得分评价指标构成的高维数据矩阵X＝{x₁,x₂,…,x_n}和标签标定的信用得分因变量Y，在此，Y＝1或者Y＝0；

通过高维数据矩阵X＝{x₁,x₂,…,x_n}和标签标定的信用得分因变量Y来构建回归模型，设定回归系数向量β＝(β₁,β₂,…,β_n)，则回归模型表示为其中p_i＝P(y_i＝1|x_i)表示给定x_i的条件下y_i＝1的条件概率大小，x_i为x₁,x₂,…,x_n中的一值，i＝1,2,...,n；1-p_i＝P(y_i＝1|x_i)表示给定x_i的条件下y_i＝0的条件概率大小，得到信用得分值的概率为N个信用得分值概率的似然函数为：

将公式(1)的似然函数进行对数化处理，处理后得到：

公式(2)中，α是回归模型中的回归参数，代表信用评价变量X＝{x₁,x₂,…,x_n}以外的综合扰动变量，由式公式(2)可得在此p_i表示某一特定评价值y_i的概率；

可以推出变量选择的目标函数为：

公式(3)中为惩罚项，其中λ为调和因子，ω_j为权向量,为目标值，即所需使用的信用得分计算个人征信数据。

作为一种可实施方式，所述构造决策树并对构造好的决策树进行剪枝具体操作为：

将给定样本集合作为决策树的根节点，计算根节点中样本集合的每个特征属性的信息增益比率；

选取信息增益比率最高的属性作为当前节点的分裂属性，将被选取的分裂属性标示当前节点；

对选取的分离属性的每个数值创建一个分支，并据此将给定样本划分成若干个子集，为每个子集创建一个新的节点。

作为一种可实施方式，针对得到的每个新节点，重复以上步骤，直到最后所有的节点符合以下三种条件中的一个则停止创建新分支。

作为一种可实施方式，所述三种条件包括：

节点的样本集合中所有的样本都属于同一类；

节点的样本集合中所有的属性都已经处理完毕，没有剩余属性可以用来进一步划分样本；

节点的样本集合中所有样本的剩余属性取值完全相同，但所属类别却不同。

作为一种可实施方式，所述采用Boosting算法进行推进的具体过程为：

A、设定构建好决策树的个数为T，t表示第t次训练，当t＝1，假设样本集合为S，样本集合S总共有M个样本；

B、计算使得为的归一化因子，为样本i在第t次决策树构建过程中的权重(i＝1,2,…,M；t＝1,2,…,T)；

C、为样本集合S的每个样本赋予归一化的权重值在此概率分布的基础上构建C^t，为的归一化因子，C^t为第t次训练产生的决策树模型；

D、计算第t个决策树对样本的错误率在此，令当样本实例i被t个决策树错误分类时，θ^t(i)＝0；当样本实例i被t个决策树正确分类时，θ^t(i)＝1，若ε^t＞0.5，则结束整个训练过程，令T＝T-1；如果ε^t＝0，结束整个训练过程，令t＝T；如果0＜ε^t≤0.5，则继续下一个步骤；

E、计算权重值的调整因子δ^t，δ^t＝ε^t/1-ε^t；

若样本被正确分类，则若样本被错误分类，则

若t＝T，则训练过程结束；否则，令t＝t+l,转至步骤B进行下一个循环；

F、最终得到复合决策树C^*为T个决策树模型结合得到的复合决策树。

作为一种可实施方式，决策树的修剪及交叉验证操作步骤具体如下：

将所有训练数据平均分成k份，每次使用其中一份作为测试样本，其余k-1份数据作为学习样本；

选择平均分类精度最高的决策树作为需要使用的决策树。

本发明相比于现有技术的有益效果在于：

本发明所提供的方法能够充分算法与决策树模型的优点，可以优化整个面向大规模征信数据的个人信用得分计算过程，加速算法的执行速度，提升计算结果的有效性，增强计算过程的可解释性，通过Adaptive Lasso算法可以约简评价维度、降低计算复杂度、提升C5.0算法的执行效率；利用决策树模型进行个人信用得分进行计算，模型具有良好的解释性，计算过程清晰，计算结果的过程溯源能力优良，计算结果稳定，并且决策树模型自带的算法加速功能也可以进一步提升算法执行效率，适合模型大规模征信数据的个人信用得分计算应用；决策树模型可以动态确定因错误评价而带来的损失-收益比例，使得模型计算结果更贴合实际，应用能力更强。

附图说明

图1为本发明的整体流程示意图；

图2为本发明的根据筛选的结果对个人信用得分进行计算的具体流程示意图；

图3为本发明的构造决策树并对构造好的决策树进行剪枝具体流程示意图；

图4为本发明基于Adaptive Lasso算法的评价变量筛选及系数确定过程示意图；

图5为本发明基于Adaptive Lasso算法的λ值确定过程示意图；

图6是原始决策树模型；

图7是本发明基于Adaptive Lasso算法优化的决策树模型。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部实施例。

请参阅以下实施例。

一种个人信用得分优化评价方法，包括以下步骤：

S1、根据历史个人信用数据，将征信覆盖范围内的客户进行信用标签标定；

S2、根据信用标签标定结果，对信用指标进行筛选，获得评价使用的征信数据；

S3、根据筛选的结果对个人信用得分进行计算，具体计算步骤如下：S31、构造决策树并对构造好的决策树进行剪枝，精简决策树模型，防止决策树在构造过程中过度拟合；S32、采用Boosting推进，进一步提高决策树的准确性；S33、构造成本矩阵与代价敏感树，能降低生成的决策树模型发生高成本误判的概率；S34、对决策树进行修剪及交叉验证，进一步提高决策树的精确度；S35、输入待评价数据，输出评价结果：利用构建完成的决策树模型，在决策树中输入待计算的信用得分数据，经过训练获得最终的个人信用得分结果。

在S1中，本发明是根据历史个人信用评价数据，如个人的基本状况(年龄、职业、教育水平、工作年限等)，个人经济情况(个人及家庭的平均收入水平)，以及个人信用状况(有无不良历史信用记录)，以及最后金融机构的最终授信结果，将所有征信覆盖范围内的客户群体分为“好”客户和“坏”客户两类，为后续的数据训练和信用评价规则的建立提供依据。

在S2中，是采用Adaptive Lasso算法对对信用指标进行筛选，筛选的具体步骤如下：

设定个人信用得分计算指标构成的高维数据矩阵X＝{x₁,x₂,…,x_n}和标签标定的信用得分因变量Y，在此，Y＝1或者Y＝0；

通过高维数据矩阵X＝{x₁,x₂,…,x_n}和标签标定的信用得分因变量Y来构建回归模型，设定回归系数向量β＝(β₁,β₂,…,β_n)，则回归模型表示为其中p_i＝P(y_i＝1|x_i)表示给定x_i的条件下y_i＝1的条件概率大小，α是回归模型中的回归参数，代表信用评价变量X＝{x₁,x₂,…,x_n}以外的综合扰动变量，x_i为x₁,x₂,…,x_n中的一值，i＝1,2,...,n；1-p_i＝P(y_i＝1|x_i)表示给定x_i的条件下y_i＝0的条件概率大小，得到评价值的概率为N个信用得分值概率的似然函数为：

将公式(1)的似然函数进行对数化处理，处理后得到：

公式(2)中，由式公式(2)可得在此p_i表示某一特定评价值y_i的概率；

可以推出变量选择的目标函数为：

公式(3)中为惩罚项，其中λ为调和因子，ω_j为权向量,为目标值，即就是所需要使用的征信数据。

调和因子λ的大小关系到在变量选择过程中能否将一些自变量的系数压缩为0，而权向量ω_j反映了自变量对模型重要性体现在惩罚函数中所占的比重，该变量越重要，其在惩罚函数中的权重将越小，也就越难将其系数压缩为0，相反的该变量在模型中起到的作用越小，它的惩罚函数中的权重越大，意味着该变量的系数越容易被压缩为0。

本发明使用德国某银行的征信数据

(http://archive.ics.uci.edu/ml/datasets/Statlog+％28German+Credit+Data％29)对所提出的个人信用得分计算方法进行验证和比较，该数据共有1000条征信记录，包含25维，其中前24维是个人信用评价变量，第25维是“好”客户和“坏”客户的标定维。图2、3给出了基于Adaptive Lasso算法的个人信用得分计算变量筛选，以及算法中各参数确定过程。

在S31中、所述构造决策树并对构造好的决策树进行剪枝具体操作为：

S311、将给定样本集合作为决策树的根节点，计算根节点中样本集合的每个特征属性的信息增益比率；

S312、选取信息增益比率最高的属性作为当前节点的分裂属性，将被选取的分裂属性标示当前节点；

S313、对选取的分离属性的每个数值创建一个分支，并据此将给定样本划分成若干个子集，为每个子集创建一个新的节点。

针对得到的每个新节点，重复以上步骤，直到最后所有的节点符合以下三种条件中的一个则停止创建新分支。在此，所述三种条件包括：

节点的样本集合中所有的样本都属于同一类；

针对得到的每个新节点，重复以上步骤，直到最后所有的节点符合以下三种条件中的一个则停止创建新分支，三种条件包括节点的样本集合中所有的样本都属于同一类；节点的样本集合中所有的属性都已经处理完毕，没有剩余属性可以用来进一步划分样本；节点的样本集合中所有样本的剩余属性取值完全相同，但所属类别却不同。

所述采用Boosting算法进行推进的具体过程为：

E、计算权重值的调整因子δ^t，δ^t＝ε^t/1-ε^t；

若样本被正确分类，则若样本被错误分类，则

也就是说，当利用决策树模型对某个测试样本进行分类时，先利用C^t(1≤t≤T)分别对该样本进行分类，一共得到T个分类结果。然后根据每个C^t的权重值统计每种类别的得数，以得数最高的类别作为整个模型的分类结果。

在步骤S33中，构造成本矩阵与代价敏感树，能降低生成的决策树模型发生高成本误判的概率。误判成本值是对某一种误判(分类错误)所产生后果严重性的反映，值越高，说明误判的后果越严重，这种错误在模型的构建过程中应得到重视以减少该类误判，从本质上说，误判成本是应用于特定结果的权重，这些权重可化为模型中的因子，并能在实际上更改评价结果(作为避免高成本错误的一种方式)，将不同的误判成本值以矩阵的形式展现出来，则形成了成本矩阵，成本矩阵显示了预测类别与实际类别每种可能组合的成本。决策树允许用户在成本矩阵中对每一种误判设定成本值，然后根据这些成本值以最小化期望误判成本总和为目标生成决策树，从而有效的降低了生成的决策树模型发生高成本误判的概率。

在步骤S34中，决策树的修剪及交叉验证操作步骤具体如下：

选择平均分类精度最高的决策树作为需要使用的决策树。

选择出了平均分类精度最高的决策树进行训练。

由图4、5可以看出，基于Adaptive Lasso优化后的决策树模型只保留了最重要的指标变量，使得整个模型构建过程、数据训练过程和信用得分计算过程变得更为简洁，提升了整个计算流程的执行效率。

如表1和表2所示，本发明所提的Adaptive Lasso-C5.0方法相比于Lasso-Logistic回归模型和Adaptive Lasso-Logistic回归模型在“好”、“坏”客户的判断准确率的对比。

表1 三个模型对样本的计算结果(人数)

表2 三个模型对样本的计算结果(比例)

从表1和表2可以看到，本发明所提的Adaptive Lasso-C5.0方法相比于Lasso-Logistic回归模型和Adaptive Lasso-Logistic回归模型在“好”、“坏”客户的判断准确率上更高，平均正确比例也更高，从而证明了Adaptive Lasso优化决策树方法在个人信用得分评价上的有效性和可靠性。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种个人信用得分优化评价方法，其特征在于包括以下步骤：

根据历史个人征信数据，将征信覆盖范围内的客户进行信用标签标定；

根据信用标签标定结果，对信用指标进行筛选，获得高信息密度与高数据质量的征信数据；

根据筛选的结果对个人信用进行信用得分进行评价，具体评价步骤如下：构造决策树并对构造好的决策树进行剪枝，精简决策树模型，防止决策树在构造过程中过度拟合；采用Boosting推进，进一步提高决策树的准确性；构造成本矩阵与代价敏感树，能降低生成的决策树模型发生高成本误判的概率；对决策树进行修剪及交叉验证，进一步提高决策树的精确度；输入待评价数据，输出信用得分计算结果：利用构建完成的决策树模型，在决策树中输入待评价使用的征信数据，经过训练获得最终的个人信用得分。

2.根据权利要求1所述的个人信用得分优化评价方法，其特征在于，所述对信用指标进行筛选的具体步骤如下：

设定个人信用评价指标构成的高维数据矩阵X＝{x₁,x₂,…,x_n}和标签标定的信用评价因变量Y，在此，Y＝1或者Y＝0；

通过高维数据矩阵X＝{x₁,x₂,…,x_n}和标签标定的信用评价因变量Y来构建回归模型，设定回归系数向量β＝(β₁,β₂,…,β_n)，则回归模型表示为其中p_i＝P(y_i＝1|x_i)表示给定x_i的条件下y_i＝1的条件概率大小，x_i为x₁,x₂,…,x_n中的一值，i＝1,2,…,n；1-p_i＝P(y_i＝1|x_i)表示给定x_i的条件下y_i＝0的条件概率大小，得到信用得分值的概率为N个信用得分值概率的似然函数为：

将公式(1)的似然函数进行对数化处理，处理后得到：

<mrow> <mi>ln</mi> <mi> </mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>&beta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>ln</mi> <mrow> <mo>&lsqb;</mo> <mrow> <munderover> <mi>&Pi;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>y</mi> <mi>i</mi> </msub> </msup> <msup> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </msup> </mrow> <mo>&rsqb;</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mrow> <mo>&lsqb;</mo> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mrow> <mi>&alpha;</mi> <mo>+</mo> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>-</mo> <mi>ln</mi> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mi>&alpha;</mi> <mo>+</mo> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> </msup> </mrow> <mo>)</mo> </mrow> </mrow> <mo>&rsqb;</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

可以推出变量选择的目标函数为：

<mrow> <msub> <mover> <mi>&beta;</mi> <mo>^</mo> </mover> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>&beta;</mi> </munder> <mrow> <mo>(</mo> <mo>-</mo> <mi>ln</mi> <mi> </mi> <mi>L</mi> <mo>(</mo> <mi>&beta;</mi> <mo>)</mo> <mo>+</mo> <mi>&lambda;</mi> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&omega;</mi> <mi>j</mi> </msub> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>arg</mi> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>&beta;</mi> </munder> <mo>{</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mo>&lsqb;</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>+</mo> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mi>&alpha;</mi> <mo>+</mo> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <msub> <mi>x</mi> <mi>i</mi> </msub> </mrow> </msup> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>+</mo> <mi>&lambda;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&omega;</mi> <mi>j</mi> </msub> <msub> <mi>&beta;</mi> <mi>j</mi> </msub> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

公式(3)中为惩罚项，其中λ为调和因子，ω_j为权向量,为目标值，即所需使用的信用得分评价个人征信数据。

3.根据权利要求1所述的个人信用得分优化评价方法，其特征在于，所述构造决策树并对构造好的决策树进行剪枝具体操作为：

4.根据权利要求3所述的个人信用得分优化评价方法，其特征在于，针对得到的每个新节点，重复以上步骤，直到最后所有的节点符合以下三种条件中的一个则停止创建新分支。

5.根据权利要求4所述的个人信用得分优化评价方法，其特征在于，所述三种条件包括：

节点的样本集合中所有的样本都属于同一类；

6.根据权利要求3所述的个人信用得分优化评价方法，其特征在于，所述采用Boosting算法进行推进的具体过程为：

E、计算权重值的调整因子δ^t，δ^t＝ε^t/1-ε^t；

若样本被正确分类，则若样本被错误分类，则

F、最终得到复合决策树C*为T个决策树模型结合得到的复合决策树。

7.根据权利要求6所述的个人信用得分优化评价方法，其特征在于，决策树的修剪及交叉验证操作步骤具体如下：

选择平均分类精度最高的决策树作为需要使用的决策树。