CN107766418A

CN107766418A - 一种基于融合模型的信用评估方法、电子设备和存储介质

Info

Publication number: CN107766418A
Application number: CN201710807171.9A
Authority: CN
Inventors: 蔡毅
Original assignee: Guangzhou Wangwang Information Technology Co Ltd
Current assignee: Guangzhou Wangwang Information Technology Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-03-06

Abstract

本发明公开了一种基于融合模型的信用评估方法，采集不同个人征信数据作为样本，并同时标注其信用等级；通过随机抽样对征信数据分为若干个元素数量相等的训练集，把训练集放入不同的单分类器内，每个单分类器执行一种分类算法；对每个单分类器生成的结果利用融合算法进行融合，提取最佳的分类方案，并把该方案通过数学模型记录下来，产生初步模型。最后，重新输入数据至初步模型，对其进行验证。本发明还公开了一种应用该方法的电子设备和计算机可读存储介质。本发明以集成学习的方法把多个单分类器融合起来选出最合适的分类方案，克服它们各自的弱势，从而发挥出最大的效果，以提高该融合模型对信用等级评估的准确率。

Description

一种基于融合模型的信用评估方法、电子设备和存储介质

技术领域

本发明涉及信用评估领域，尤其涉及一种基于融合模型的信用评估方法、电子设备和存储介质。

背景技术

随着信用服务的逐渐发展，信用评估技术的重要性与日俱增。信用评估问题本质上是一个分类问题，通过标记好的训练数据训练分类器，得到评估模型。k-NN算法、SVM算法和GBDT算法是一种用于分类数据的算法，常被用于涉及信用评估的领域内。

1.k-NN算法的基本思想

k-NN算法，又称k近邻法，k-NN方法的基本思想是:假定有c个类别为w₁,w₂,w₃,…,w_c的样本集合，每类有标明类别的样本N_i个，i＝1,2,…,c。

设样本的指标有z个，则样本点的指标将可以构成一个z维特征空间，所有的样本点在这个z维特征空间里都有唯一的点与它对应。则对任何一个待识别的样本x，把它也放到这个z维特征空间里，通过构造一个距离公式(一般采用欧氏空间距离公式)，可以找到样本x的k个近邻。又设这N个样本中，来自w₁类的样本有N₁个，来自w₂类的样本有N₂个，…，来自w_c类的样本有N_c个。若k₁，k₂，k₃，…，k_c分别是k个近邻中属于w₁，w₂，w₃，…，w_c类的样本数，则我们可定义判别函数为：

g_j(x)＝k_i,i＝1,2,…,c

分类规则是，若

g_j(x)＝maxk_i

则分类x属于w_j。

这一方法的直观解释相当简单，对未知样本x，我们只要比较x和N个已知类别样本之间的距离，并判定x和离它最近的样本同类。

2.SVM算法的基本思想

SVM，中文名称是支持向量机，SVM是从线性可分情况下的最优分类面发展而来的。过各类中离分类线最近的样本且平行于分类线的直线，它们之间的距离叫做分类间隔，所谓最优分类线就是要求分类线不但能将两类正确分开(训练错误率为0)，而且使分类间隔最大。分类线方程为x·w+b＝0，可以对它进行归一化，使得对线性可分的样本集(x_i,y_i)(i＝1,2,…,n)，x_i∈R^d，y_i∈{+1.-1}，满足

y_i[(w·x_i)+b]-1≥0(i＝1,2,…,n) (1)

此时分类间隔等于2/||w||，使间隔最大等价于使||w||²最小。满足条件式(1)且使||w||²最小的分类面叫做最优分类面。

对于非线性问题，可以通过非线性变换转化为某个高维空间的线性问题，在变换空间求最优分类面。在最优分类面中采用适当的内积函数K(x_i,x_j)就可以实现某一非线性变换后的线性分类，而计算复杂度却没有增加。

这就是支持向量机。概括地说，SVM分类函数形式上类似于一个神经网络，输出是s个支持向量的中间节点的线性组合，每个中间节点对应一个支持向量。

3.GBDT算法的基本思想

GBDT是梯度下降决策树的缩写。它是一种基于决策树的方法。GBDT包含了多棵简单决策树，而最终分类结果由这些简单决策树共同决定。GBDT采用梯度下降的方法来训练每一棵决策树，并将它们整合在一起。

在大数据征信场景中，需要处理的数据是高维且稀疏的。原因是从各个不同数据源可以得到关于用户的许多特征维度，这些维度组合起来的总维度将特别高。并且，同一个人不一定能够在所有数据源都获取得到数据，因此由于数据缺失会导致最终得到稀疏的特征维度。利用传统的SVM与K-NN的算法作为单分类器有其各自的优势，然而不足也很明显。比如，传统的SVM算法分类器可以处理高维数据，然而在稀疏数据中效果不佳。相反的，K-NN算法分类器可以处理稀疏数据，然而对于高维数据其效果不佳。GBDT算法分类器能够处理稀疏并且高维数据，然而它又比较容易过拟合。因此，传统的SVM，KNN以及GBDT算法分类器难以很好地处理这种大数据信用分类任务。因此，如果只采用传统的单分类器对数据进行处理，效果往往是不佳的。

发明内容

为解决上述的问题，本发明的目的之一在于提供了一种基于融合模型的信用评估方法，其能解决传统的信用评估方法不够精准的问题。

本发明目的之二提供了一种电子设备，其能解决传统的信用评估方法不够精准的问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能解决传统的信用评估方法不够精准的问题。

本发明的目的之一采用如下技术方案实现：

一种基于融合模型的信用评估方法，包括以下步骤：

数据采集及标注步骤：采集属于不同个人的征信数据作为样本，并对所述样本内每一个元素标注其对应的信用等级；

单分类器分类步骤：对所述样本进行随机抽样并分成若干组元素数量均等的子训练集；把每组所述子训练集放入分类器内执行分类算法，对所述子训练集的信用等级进行分类；

集成学习步骤：把分类后的所述子训练集通过融合算法进行融合，对各个分类方案进行整合，最终得到初步模型；

验证模型步骤：输入新的样本到所述初步模型，所述初步模型自动产生一个对样本信用的评估结果。

进一步地，所述数据采集及步骤包括以下子步骤：

数据采集步骤：采集属于不同个人的征信数据作为样本；

数据校验步骤：校验所述征信数据的合法性和唯一性，并确认所述征信数据是否存在有缺陷的数据，如果存在，则执行数据清洗步骤，如果不存在则执行数据降维步骤；

数据清洗步骤：对缺失属性的数据进行人工清洗，与要求属性不符的数据利用数值变换和类型变换使其结构化；

数据降维步骤：通过主成分分析法对清洗后的数据进行降维，降维后生成利于计算机识别的样本数据；

信用等级标注步骤：将降维后的数据标注其对应的信用等级时，有五个信用评级，分别是1，2，3，4，5；其中，1是最低的评级，表示该用户有违约风险；5是最高的评级，表示该个人信用状况优秀；在所述数据分类步骤中，标注所述信用等级的所述子训练集结构为：(x₁,x₂,x₃,…,x_n,y),y∈(1,2,3,4,5)。

进一步地，所述单分类器分类步骤中，包括以下子步骤：

k-NN算法分类步骤：抽取一组所述子训练集放入k-NN单分类器内，对所述子训练集执行k-NN算法，对所述子训练集的信用等级进行分类；

SVM算法分类步骤：抽取另一组所述子训练集放入SVM单分类器内，对所述子训练集执行SVM算法，对所述子训练集的信用等级进行分类；

GDBT算法分类步骤：抽取余下的所述子训练集放入GDBT单分类器内，对所述子训练集执行GDBT算法，对所述子训练集的信用等级进行分类。

进一步地，所述集成学习步骤中，包括以下子步骤：

Bagging算法融合步骤：对所述k-NN单分类器、所述SVM单分类器和所述GDBT单分类器执行Bagging算法，从三个单分类器的信用等级分类结果中选取一个最佳的分类方案；

Stacking算法融合步骤：对所述k-NN单分类器、所述SVM单分类器和所述GDBT单分类器执行Stacking算法，从三个单分类器的信用等级分类结果中选取一个最佳的分类方案；

Boosting算法融合步骤：对所述Bagging算法融合步骤的结果和所述Stacking算法融合步骤的结果同时执行Boosting算法，从中选取一个最佳的分类方案；

模型生成步骤：对所有已标注的数据执行上述步骤，获得每个数据的最佳分类方案，并且将所有分类方案通过数学模型的方式记录下来，最终得到初步模型。

进一步地，所述验证模型步骤包括以下子步骤：

验证数据输入步骤：重新采集的样本输入到所述初步模型；

信用评估步骤：所述初步模型对该样本进行信用评估，并产生评估结果；

结果反馈步骤：所述评估结果重新反馈至所述初步模型，进行增类学习。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

验证模型步骤：输入新的样本到所述初步模型，所述初步模型自动产生一个对样本信用的评估结果。。

进一步地，所述数据采集及步骤包括以下子步骤：

数据采集步骤：采集属于不同个人的征信数据作为样本；

进一步地，所述单分类器分类步骤中，包括以下子步骤：

进一步地，所述集成学习步骤中，包括以下子步骤：

进一步地，所述验证模型步骤包括以下子步骤：

验证数据输入步骤：重新采集的样本输入到所述初步模型；

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

相比现有技术，本发明的有益效果在于：

本发明公开的一种基于融合模型的信用评估方法，以集成学习的方法把多个单分类器融合起来选出最合适的分类方案，克服它们各自的弱势，从而发挥出最大的效果，以提高该融合模型对信用等级评估的准确率。

附图说明

图1是一种基于融合模型的信用评估方法的流程图；

图2是一种基于融合模型的信用评估方法内Bagging算法的流程框图；

图3是一种基于融合模型的信用评估方法内Stacking算法的流程框图；

图4是一种基于融合模型的信用评估方法内Boosting算法的流程框图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

如图1所示，本发明提供了一种基于融合模型的信用评估方法，包括以下步骤：

S0：采集属于不同个人的征信数据作为样本，并对所述样本内每一个元素标注其对应的信用等级，该S0步骤包括以下子步骤：

S01：采集来源于政府的属于不同个人的征信数据作为样本，征信数据包括身份属性、履约能力、信用记录、行为特征、社交资料以及例如民事、刑事、行政诉讼判决等公共信息。这六大类型的征信数据代表了六个维度，从这六个维度分析征信数据能够得出个人的信用程度，但是前提需要保证该数据的可靠性。因为基于个人的信用评估需要大量相关数据才能保证预测的准确性，但目前个人消费数据分散在商家、银行、第三方支付机构等，这对数据采集造成了很大的困难，且采集到的数据可能不全面而导致误差较大。本发明使用政府来源的数据作为输入，通过公积金、社会保险、贷款、行政处罚等多维度的数据作为训练数据既可以有效提高本发明集成学习的效果而且同时政府数据较高的可靠性可以降低不可靠数据对模型准确度的影响。

S02:校验征信数据的合法性和唯一性，查找采集的征信数据内是否含有重复的数据，并检测数据是否存在异常而导致失去合法性，当检测到不符合合法性和唯一性的数据存在时，直接放弃使用该数据；最后从个人的六大维度数据内确认征信数据是否存在有缺陷的数据，如果存在，则执行S03，如果不存在则执行S04。

S03:对缺失属性的数据进行人工清洗，与要求属性不符的数据利用数值变换和类型变换使其结构化。比如，对于一些文本属性，像“男”与“女”，我们将其转变为数值1，0等能够被计算机识别的数值。

S04:通过主成分分析法对清洗后的数据进行降维，降维后生成利于计算机识别的样本数据。主成分分析是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量。比如,对于信用评估需要分析每个维度的指标，这六个维度包括身份属性、履约能力、信用记录、行为特征、社交资料以及例如民事、刑事、行政诉讼判决等公共信息，例如，身份属性包括了年龄、婚姻状况、受教育程度和工作稳定情况4个指标；加上其他五个维度各有不同数量的指标，这些指标相互之间对信用评估会有影响，通过主成分分析后对每个维度的指标进行缩减.此时,这缩减得到的主成分指标既涵盖了6个维度中的绝大部分信息,从而让计算机处理的数据得到了简化。

S05：将降维后的数据标注其对应的信用等级时，有五个信用评级，分别是1，2，3，4，5；其中，1是最低的评级，表示该用户有违约风险；5是最高的评级，表示该个人信用状况优秀；在所述数据分类步骤中，标注信用等级的子训练集结构为：(x₁,x₂,x₃,…,x_n,y),y∈(1,2,3,4,5)。

S1：对样本数据进行随机抽样并分成多组元素数量均等的子训练集；把每组子训练集放入分类器内执行分类算法，对子训练集的信用等级进行分类，该S1步骤包括以下子步骤：

S11：抽取一组所述子训练集放入k-NN单分类器内，对所述子训练集执行k-NN算法，对所述子训练集的信用等级进行分类，对于一个未知归属的待识别样本x:x＝(u1,u2,……,u11)，u为指标类型。计算它与所有的样本点xi的距离:这样得出n个距离。比较这里的n个距离,找出最小的k个距离对应的样本点。

S12：抽取一组所述子训练集放入SVM单分类器内，对所述子训练集执行SVM算法，对所述子训练集的信用等级进行分类。

S13：抽取一组所述子训练集放入GBDT单分类器内，对所述子训练集执行GBDT算法，对所述子训练集的信用等级进行分类。梯度提升决策树是后一个子模型对前一个模型的失误进行修正。梯度提升决策树预测的时候，对于输入的一个，首先会赋予一个初值，然后会遍历每一棵决策树，每棵树都会对预测值进行调整修正，最后得到预测的结果。

S2：把分类后的所述子训练集通过多种融合算法进行融合，对各个分类方案进行整合；该S2步骤包括以下子步骤：

S21：如图2所示，对k-NN单分类器、SVM单分类器和GDBT单分类器执行Bagging算法。通过Bagging算法，在原始训练集中每次有放回地抽取S个数据作为新数据集训练分类器，然后使用这些分类器对样本进行分类，采取多数投票或求均值的方法统计决定分类结果。在训练的过程会随机抽取S个样本训练SVM单分类器，接着再次随机抽取S个样本训练KNN单分类，，最后再次抽取S个样本训练GBDT单分类器。当一条新纪录到达时，会分别根据已训练得到的SVM单分类器、KNN单分类器和GBDT单分类器给出一个判断结果。最后根据这个结果通过投票的方式判定最终输出的分类结果。比如，SVM与KNN输出的分类结果是“等级4”，而GBDT输出的分类结果是“等级3”，那最终由于“等级4”的投票次数多于“等级3”，输出的最终结果应该是“等级4”。

S22：如图3所示，对k-NN单分类器、SVM单分类器和GDBT单分类器执行Stacking算法。Stacking将每个单分类器的输出作为输入，分别将数据集放入到SVM单分类器，GBDT单分类器及KNN单分类器的分类结果作为输入再次放入SVM单分类器中。训练一个新的分类器，通过两层分类器得到最终的预测结果。该步骤尝试多种算法，验证后选择一个最优的分类。

S23：如图4所示，在得到了S21以及S22的结果后，我们再次将结果作为输入放入Boosting算法中。Boosting算法通过串行迭代产生新分类器，每次迭代更新样本权重，增大错误分类的数据权重并降低正确分类的数据权重，使得模糊的样本在训练中越来越重要。最后将所有分类器结果加权平均得到最终结果。Boosting算法的基本步骤，通过迭代使用基分类器，并将其结果组合成最终的强分类器。AdaBoost是一种典型的Boosting算法，与Bagging算法不同，AdaBoost中不同的基分类器必须是串行训练的。训练过程中，每次使用的训练数据都相同，但会根据迭代生成的基分类器分类准确率给予样本不同的权重。根据当前分类器的结果，增加错误样本的权重同时减少正确样本的权重，数据被重新加权，来强化对之前分类错误数据点的分类。Boosting算法可以减小结果的偏差。

S24：通过不断输入已标注的数据执行上述训练步骤，对每个分类器进行训练，训练目标是根据已标注的数据集成学习获得每个数据最佳的分类方案，这个分类方案根据标注者的行为模式对其信用进行评估，并且将这个分类方案通过数学模型的方式记录下来，最终得到初步模型。

S3：使用步骤S24得到的初步模型对未标注的数据进行评估，得到信用评估结果后，进行人工评估。该S3步骤包括以下子步骤：

S31：重新采集来源于政府的个人征信数据，且不对该征信数据进行信用等级标注，直接输入至上述的初步模型。

S32：初步模型对新输入的数据进行信用等级评估，产生信用评估结果，并自动把该结果反馈至该初步模型内。

S33：重复进行S31和S32步骤，根据不同新样本的分类结果以分析该模型的准确性、偏差/方差情况、学习曲线等数据，判断是否有过拟合等情况，进行如调节参数、更改算法、调整训练数据等操作，再次训练并优化模型直至获得满意的分类性能。

实施例二

实施例二公开了一种电子设备，该电子设备包括处理器、存储器以及程序，其中处理器和存储器均可采用一个或多个，程序被存储在存储器中，并且被配置成由处理器执行，处理器执行该程序时，实现实施例一的一种基于融合模型的信用评估方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。

实施例三

实施例三公开了一种可读的计算机存储介质，该存储介质用于存储程序，并且该程序被处理器执行时，实现实施例一的一种基于融合模型的信用评估方法。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于融合模型的信用评估方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于融合模型的信用评估方法，其特征在于，所述数据采集及步骤包括以下子步骤：

数据采集步骤：采集属于不同个人的征信数据作为样本；

3.如权利要求1所述的基于融合模型的信用评估方法，其特征在于：所述单分类器分类步骤中，包括以下子步骤：

4.如权利要求3所述的基于融合模型的信用评估方法，其特征在于：所述集成学习步骤中，包括以下子步骤：

5.如权利要求1所述的基于融合模型的信用评估方法，其特征在于，所述验证模型步骤包括以下子步骤：

验证数据输入步骤：重新采集的样本输入到所述初步模型；

6.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

7.如权利要求6所述的电子设备，其特征在于，所述单分类器分类步骤中，包括以下子步骤：

8.如权利要求7所述的电子设备，其特征在于，所述集成学习步骤中，包括以下子步骤：

9.如权利要求6所述的电子设备，其特征在于，所述验证模型步骤包括以下子步骤：

验证数据输入步骤：重新采集的样本输入到所述初步模型；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的方法。