CN110472817B

CN110472817B - 一种结合深度神经网络的XGBoost集成信用评价系统及其方法

Info

Publication number: CN110472817B
Application number: CN201910595039.5A
Authority: CN
Inventors: 贺小伟; 李思奇; 王宾; 贺心畋; 王文强; 张翔
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2023-03-24
Anticipated expiration: 2039-07-03
Also published as: CN110472817A

Abstract

本发明公开了一种结合深度神经网络的XGBoost集成信用评价系统及其方法，包括数据预处理单元、数据划分单元、特征提取单元、训练单元和结果处理单元，利用深度神经网络提取训练集中的隐藏特征，将提取出来的隐藏特征进一步作为XGBoost的输入进行训练，最后对测试集进行预测，所得预测结果为信用概率。原始数据被分为训练集和测试集，在训练集中采用装袋采样方法生成可变训练子集：每个训练子集训练深度神经网络模型，选取出最后一个隐藏层的模型，将训练集和测试集进行特征提取以获得更多隐藏特征；将获得的训练集特征再通过XGBoost进行训练，对提取的测试集特征进行预测，将不同的基分类器的预测结果进行平均获得最终分类结果。该集成方法的准确性有明显的提高。

Description

一种结合深度神经网络的XGBoost集成信用评价系统及其方法

技术领域

本发明属于金融信用风险评估技术领域，涉及一种结合深度神经网络的XGBoost集成信用评价系统及其方法。

背景技术

信用风险一直以来都是金融机构面临的最重要问题之一。随着大众消费观念的改变以及金融行业的发展，信贷业务发展迅速，相对应的金融机构面临的挑战也越来越严峻。信用评分在其中发挥着重要作用，它可以对信用申请人的潜在风险进行建模，将信用申请人划分为“好客户”或“坏客户”，是一个二元分类技术。对于银行，金融机构或者其他互联网金融公司而言，将“坏客户”的申请人划分为“好客户”的损失远远大于将“好客户”的申请人划分为“坏客户”的损失。如何构建一个稳定可靠的信用评分模型引起了学术界和商业界的广泛关注。

信用风险评估有两种主流的分类技术，分别是统计技术和机器学习技术。在统计技术中，常用的方法是线性判别分析(Linear discriminant analysis，LDA)和逻辑回归(Logistic regression，LR)。但LDA和LR都有理想性的统计假设，对复杂的金融系统建模是非常困难的。机器学习技术也被广泛应用于信用评分，其中包括k-最近邻(K-nearestneighbor，KNN)，支持向量机(Support vector machine，SVM)，决策树(Decision tree，DT)，数学规划以及具有单个隐藏层的多层感知机(Multi-layer perceptron，MLP)。

研究人员提出了一种基于滤波方法和多种群遗传算法(Hybrid multiplepopulation genetic algorithm，HMPGA)的两阶段混合模型，该方法在特征选择方面是有效的，参见D.Wang,Z.Zhang,R.Bai,and Y.Mao,“A hybrid system with filter approachand multiple population genetic algorithm for feature selection in creditscoring,”Journal of Computational and Applied Mathematics,vol.329,pp.307–321,2018.虽然单分类器相对容易实现，并且在简单场景中可以得到较满意的结果，但是对于复杂的场景来说，单分类器不能捕捉到个体之间的细微差别。因此有研究人员提出了集成学习方法，He等人构建了一个新的三阶段集成模型，通过扩展的监督欠采样方法构建可调数据子集，随机森林和极端梯度增强算法作为三阶段集成模型的基分类器，采用堆叠的方式进行集成，并通过粒子群优化算法进行参数优化。结果表明，该模型的平均性能优于其他算法。参见H.He,W.Zhang,and S.Zhang,“A novel ensemble method for credit scoring:Adaption of different imbalance ratios,”Expert Systems with Applications,vol.98,pp.105–117,2018.但是该模型主要关注于集成策略，很少关注于原始数据中隐藏的有价值的信息。

发明内容

针对现有技术中的缺陷和不足，本发明提供了一种结合深度神经网络(Deepneural network，DNN)的XGBoost集成信用评价系统及其方法，解决了现有技术中存在的上述问题。通过深度神经网络对原始数据中隐藏的有价值的信息进行充分的提取，采用集成学习方法提高分类器的多样性。

为达到上述目的，本发明采取如下的技术方案：

本发明提供一种结合深度神经网络的XGBoost集成信用评价系统，包括：

数据预处理单元，用于对缺失数据的原始数据集进行缺失值处理，且对原始数据集中的分类属性进行转化；

数据划分单元，用于将从数据预处理单元得到的数据集划分测试集与训练集，并将训练集划分为多个训练子集；采用装袋算法将训练集生成不同的训练子集，给定训练集D，其数据大小为P，使用装袋算法有放回的随机采样N个训练子集，每个训练子集的数据大小为m，其中，m<P；

特征提取单元，用于通过深度神经网络对每一个训练子集进行特征提取，同时根据该训练子集的模型提取测试集特征：对于在数据划分单元中生成的每一个训练子集，训练深度神经网络模型，所述深度神经网络模型包括输入层、多个隐藏层和输出层；选取出每一个训练子集对应的深度神经网络模型中最后一个隐藏层，针对不同的训练子集对应的深度神经网络模型分别对测试集进行特征提取，得到测试集特征，以获得训练集中的隐藏特征；

训练单元，用于通过XGBoost对提取后的训练子集进行训练，并预测信用概率：对于特征提取单元中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练，每一个训练子集训练得到的XGBoost模型为一个基分类器，通过所述基分类器对得到的所述测试集特征进行信用概率预测；

结果处理单元，用于将多个基分类器的结果进行平均，得到最终信用表现：将不同的基分类器所得的测试集的信用概率进行平均，获得最终信用表现。

本发明还包括如下技术特征：

具体的，所述数据处理单元包括：缺失值处理模块，用于在原始数据集中某个数值属性的缺失值大于样本总数的2％时，采用均值的方法进行填充，否则用0填充；并且用于在原始数据集中有分类属性时，填充为新的类别；

还包括分类属性转化模块，用于采用虚拟变量代替分类属性，对分类属性进行处理。

具体的，所述数据划分单元用于分别将数据集中的正样本和负样本的20％用作测试集，剩余的80％用作训练集；

每一个训练子集中样本数量为原始训练集样本数量的90％，训练子集的数量为10-15个。

具体的，所述深度神经网络模型的隐藏层数为3层，DNN的输入层激活函数采用ReLU；输出层的激活函数采用Softmax；代价函数为分类交叉熵；优化器采用Rmsprop；迭代数量为500，Batch_size为30。

具体的，所述XGBoost的学习率为0.03，树的最大深度为5，属性采样比为0.8，迭代次数为100。

本发明还提供一种结合深度神经网络的XGBoost集成信用评价方法，该方法利用深度神经网络提取训练集中的隐藏特征，将提取出来的隐藏特征进一步作为XGBoost的输入进行训练，最后对测试集进行预测，所得预测结果为信用概率[0,1]，其中信用概率大于0.5表示信用良好的申请人，小于0.5为信用不良的申请人。

本发明还包括如下技术特征：

该方法包括如下步骤：

S1：数据预处理：对缺失数据的原始数据集进行缺失值处理，且对原始数据集中的分类属性进行转化；

S2，将步骤一得到的数据集划分测试集与训练集，并将训练集划分为多个训练子集；

其中，采用装袋算法将训练集生成不同的训练子集，给定训练集D，其数据大小为P，使用装袋算法有放回的随机采样N个训练子集，每个训练子集的数据大小为m(m<P)；

S3，使用深度神经网络对每一个训练子集进行特征提取，同时根据该训练子集的模型提取测试集特征：

对于步骤S2中生成的每一个训练子集，训练深度神经网络模型，所述深度神经网络模型包括输入层、多个隐藏层和输出层；选取出每一个训练子集对应的深度神经网络模型中最后一个隐藏层，针对不同的训练子集对应的深度神经网络模型分别对测试集进行特征提取，得到测试集特征，以获得训练集中的隐藏特征；

步骤S4，使用XGBoost对提取后的训练子集进行训练，并预测信用概率：

对于步骤S3中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练，每一个训练子集训练得到的XGBoost模型为一个基分类器，通过所述基分类器对步骤S3中得到的所述测试集特征进行信用概率预测；

步骤S5，多个基分类器的结果进行平均，得到最终信用表现：

将步骤S4中不同的基分类器所得的测试集的信用概率进行平均，获得最终信用表现。

具体的，所述步骤S1中：

进行缺失值处理具体为：若原始数据集中某个数值属性的缺失值大于样本总数的2％，采用均值的方法进行填充，否则用0填充；若原始数据集中有分类属性，则填充为新的类别；

对分类属性的转化是采用虚拟变量代替分类属性(分类特征)，对分类属性进行处理；例如分类属性A4的值包括u，y，l，t。这里分别使用虚拟变量0，1，2，3来代替对应的u，y，l，t，进而转化为离散数值属性。

具体的，所述步骤S2中：分别将数据集中的正样本和负样本的20％用作测试集，剩余的80％用作训练集；正样本是好客户即信用良好的申请人，负样本是坏客户即信用不良的申请人；

具体的，所述步骤S3中：深度神经网络的隐藏层数设置为3层，可达到最优效果，DNN的输入层激活函数采用ReLU；输出层的激活函数采用Softmax；代价函数为分类交叉熵；优化器采用Rmsprop；迭代数量为500，Batch_size为30。

具体的，所述步骤S4中：XGBoost的学习率为0.03，树的最大深度为5，属性采样比为0.8，迭代次数为100。

本发明与现有技术相比，有益的技术效果是：

(Ⅰ)本发明提出了一种结合深度神经网络的集成分类模型用于信用评分。原始数据被分为训练集和测试集，在训练集中采用装袋采样(Bagging)方法来生成可变训练子集。所提出的模型的框架如图1所示，该过程主要分为两个步骤：(1)就每一个训练子集而言，训练深度神经网络(DNN)模型，然后选取出最后一个隐藏层的模型，将训练集和测试集进行特征提取以获得更多有价值的信息。(2)将第一步获得的训练集特征再通过XGBoost进行训练，对提取的测试集特征进行预测。最后将不同的基分类器的预测概率结果进行简单平均以获得最终分类结果。

(Ⅱ)深层提取原始数据特征。在本发明中，利用深度神经网络对原始数据进行了深层的挖掘，生成了原始数据中更高级别的特征，为后面基分类器的训练提供支持。

(Ⅲ)提高分类器的多样性。采用集成学习的方法，随机有放回的从正样本训练集和负样本训练集中抽取一定的比例生成多个训练子集，利用深度神经网络对特征进行提取，进而作为XGBoost的输入进行训练，这有助于提高基分类器的多样性。

(Ⅳ)提高准确性。该集成方法在UCI数据库中的三个公共信用数据集中的准确性都有了明显的提高，并且相比于其他方法，本发明方法的AUC值也有了明显的提高。

附图说明

图1是本发明技术方案的算法流程示意图

图2是本发明技术方案的结合深度神经网络的XGBoost的信用评分集成模型框架图；

图3是本发明中深度神经网络隐藏层数对模型影响的曲线对比图，其中(a)是澳大利亚数据集，(b)是德国数据集，(c)是日本数据集。

具体实施方式

信用风险评估除了应用这些单一分类器进行信用评分外，集合分类往往是提高单个分类器准确性和稳定性的有效方法。集成学习是从不同的算法、特征和训练子集派生出来的分类器以某种方式组合在一起，对未知样本进行类标签的预测。集成分类可以利用基本分类器的多样性来避免他们的弱点，从理论和实验表明，基于集成学习的分类相比于单一分类器在信用评分方面表现更好。近年来，深度神经网络也被广泛用于分类问题中，并且预测效果较浅层架构更好。这种深层结构增加了特征提取能力，可以获取到更多隐藏层的信息。但是深度神经网络应用在信用风险评估中却很少。

本发明提供一种结合深度神经网络的XGBoost集成信用评价系统及其方法，

该系统包括：数据预处理单元，用于对缺失数据的原始数据集进行缺失值处理，且对原始数据集中的分类属性进行转化；

数据处理单元包括：缺失值处理模块，用于在原始数据集中某个数值属性的缺失值大于样本总数的2％时，采用均值的方法进行填充，否则用0填充；并且用于在原始数据集中有分类属性时，填充为新的类别；还包括分类属性转化模块，用于采用虚拟变量代替分类属性，对分类属性进行处理。

数据划分单元用于分别将数据集中的正样本和负样本的20％用作测试集，剩余的80％用作训练集；每一个训练子集中样本数量为原始训练集样本数量的90％，训练子集的数量为10-15个。

深度神经网络模型的隐藏层数为3层，DNN的输入层激活函数采用ReLU；输出层的激活函数采用Softmax；代价函数为分类交叉熵；优化器采用Rmsprop；迭代数量为500，Batch_size为30。

XGBoost的学习率为0.03，树的最大深度为5，属性采样比为0.8，迭代次数为100。

该方法利用深度神经网络提取训练集中的隐藏特征，将提取出来的隐藏特征进一步作为XGBoost的输入进行训练，最后对测试集进行预测，所得预测结果为信用概率[0,1]，其中信用概率大于0.5表示信用良好的申请人，小于0.5为信用不良的申请人。该方法包括如下步骤：

S1：数据预处理：对缺失数据的原始数据集进行缺失值处理，且对原始数据集中的分类属性进行转化；进行缺失值处理具体为：若原始数据集中某个数值属性的缺失值大于样本总数的2％，采用均值的方法进行填充，否则用0填充；若原始数据集中有分类属性，则填充为新的类别；对分类属性的转化是采用虚拟变量代替分类属性(分类特征)，对分类属性进行处理；

其中，采用装袋算法将训练集生成不同的训练子集，给定训练集D，其数据大小为P，使用装袋算法有放回的随机采样N个训练子集，每个训练子集的数据大小为m(m＜P)；

S3，使用深度神经网络对每一个训练子集进行特征提取，同时根据该训练子集的模型提取测试集特征：对于步骤S2中生成的每一个训练子集，训练深度神经网络模型，所述深度神经网络模型包括输入层、多个隐藏层和输出层；选取出每一个训练子集对应的深度神经网络模型中最后一个隐藏层，针对不同的训练子集对应的深度神经网络模型分别对测试集进行特征提取，得到测试集特征，以获得训练集中的隐藏特征；

步骤S4，使用XGBoost对提取后的训练子集进行训练，并预测信用概率：对于步骤S3中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练，每一个训练子集训练得到的XGBoost模型为一个基分类器，通过所述基分类器对步骤S3中得到的所述测试集特征进行信用概率预测；

步骤S5，多个基分类器的结果进行平均，得到最终信用表现：将步骤S4中不同的基分类器所得的测试集的信用概率进行平均，获得最终信用表现。

深度神经网络(DNN)是一个具有三层以上的人工神经网络。它通过深层非线性网络结构，可以实现复杂函数的逼近，表征输入数据分布式表示，并展现了强大的从少数样本集中学习数据集本质特征的能力。

DNN内部的神经网络层可以分为三类：输入层，隐藏层和输出层。层与层之间是全连接的，即，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

DNN模型的每一层是一个线性关系：

z＝∑ω_ix_i+b

加上一个激活函数σ(z)。其中x_i表示第i个神经元的值，ω_i是第i个神经元的权重，b是偏移量。输入层没有ω和b参数。这里，我们使用R_eLU激活函数：

σ(z)＝max(0，z)

若大于等于0则不变，若小于0则激活后为0。假设第l-1层共有m个神经元，第l层共有n个神经元，则第l层的线性系数ω组成了一个n×m的矩阵W^l，第l层的偏倚b组成了一个n×1的向量b^l，第l-1层输出a组成了一个m×1的向量a^l-1。则第l层的输出为：

a^l＝σ(z^l)＝σ(W^la^l-1+b^l)

采用分类交叉熵损失函数用梯度下降法进行迭代优化求极小值，达到一定的迭代次数后，获取到最后一个隐藏层的输出值。将获取到的隐藏层输出值，进一步作为XGBoost的输入。

XGBoost是由Chen Tianqi基于梯度提升算法的改进。它不仅具有传统增强算法的高精度优势，而且可以灵活地实现分布式和并行计算。

给定训练集特征向量

其对应的类标签为y_i∈{-1，+1}，i∈1，…，n。XGBoost的预测模型可以表示为：

其中f_k(x_i)表示第k颗树，K为树的总个数，

表示样本x_i的预测结果。通过最小化以下目标函数来学习函数f_k：

其中

为样本x_i的训练误差，Ω(f_k)表示第k颗树的正则项。对于目标函数的正则项部分，我们从单一的树来考虑。对于其中每一颗回归树，其模型可以写成：

f_t(x)＝w_q(x)，w∈R^r，q：R^d→{1，2，…，T}

其中w为叶子节点的得分值，q(x)表示样本x对应的叶子节点。T为该树的叶子节点个数。因此，我们将该树的复杂度写成：

其中γ是复杂度参数，λ是固定系数。

XGBoost用泰勒展开式来近似原来的目标函数，则原目标函数可以近似地表示为：

其中，

I_j＝{i|q(x_i)＝j}表示在第j个叶子节点上的样本，w_j为第j个叶子节点的得分值。通过定义

将目标函数改写成了包含T个相互独立的单变量二次函数。因此，XGBoost中每一个叶子节点的最优分数/>

和目标函数的解方程如下所示：

Obj只与树的结构q(x)有关，与叶子节点的得分值无关，因此只要确定树的结构就可以计算出相应的目标函数。

XGBoost采用精确贪婪算法，定义增益公式来启发式的寻找最优树结构，若当前树结构I能被分裂成I_L与I_R，I＝I_L∪I_R，增益公式可以表示为：

其中γ表示引入额外叶子节点的复杂性成本。

遵从上述技术方案，以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。下面结合实施例对本发明做进一步详细说明。

实施例1：

本发明实施例1提供一种结合深度神经网络的XGBoost集成信用评价系统，包括：

实施例2：

如图1和图2所示，本发明实施例2提供一种结合深度神经网络的XGBoost集成信用评价系统的评价方法，该方法利用深度神经网络提取训练集中的隐藏特征，将提取出来的隐藏特征进一步作为XGBoost的输入进行训练，最后对测试集进行预测，所得预测结果为信用概率[0,1]，其中信用概率大于0.5表示信用良好的申请人，小于0.5为信用不良的申请人。该方法包括如下步骤：

S1：数据预处理：对缺失数据的原始数据集进行缺失值处理，且对原始数据集中的分类属性进行转化；具体的，步骤S1中：进行缺失值处理具体为：若原始数据集中某个数值属性的缺失值大于样本总数的2％，采用均值的方法进行填充，否则用0填充；若原始数据集中有分类属性，则填充为新的类别；对分类属性的转化是采用虚拟变量代替分类属性(分类特征)，对分类属性进行处理；

其中，采用装袋算法将训练集生成不同的训练子集，给定训练集D，其数据大小为P，使用装袋算法有放回的随机采样N个训练子集，每个训练子集的数据大小为m(m<P)；具体的，在本实施例中，分别将数据集中的正样本和负样本的20％用作测试集，剩余的80％用作训练集；正样本是好客户即信用良好的申请人，负样本是坏客户即信用不良的申请人；每一个训练子集中样本数量为原始训练集样本数量的90％，训练子集的数量为10-15个。

图3中(a)(b)(c)分别展示了三个数据集中不同深度神经网络隐藏层数对模型性能的影响。对于澳大利亚数据集，隐藏层数为3和6时，模型的性能均较好。而隐藏层低于3的性能明显有所下降。隐藏层数为3的Ⅰ型和Ⅱ型错误率分别为0.0658、0.0656。隐藏层数为6时的AUC值为0.9592，准确率为0.9270，F分数也较高为0.9167，Ⅰ型和Ⅱ型错误率分别为0.0526、0.0984。但是更多的隐藏层数意味着时间成本的增加。同样在德国和日本数据集上，隐藏层数为3的性能也明显较更高层数的性能要好。除了Ⅰ型错误率有明显的差异之外，其他的度量指标波动幅度都较小。综上所述，当隐藏层数为3时，提出的模型的性能最佳；因此步骤S3中：深度神经网络的隐藏层数设置为3层，可达到最优效果；更具体的，DNN的输入层激活函数采用ReLU；输出层的激活函数采用Softmax；代价函数为分类交叉熵；优化器采用Rmsprop；迭代数量为500，Batch_size为30。

步骤S4，使用XGBoost对提取后的训练子集进行训练，并预测信用概率：对于步骤S3中每一个提取特征后的训练子集进一步使用XGBoost算法进行训练，每一个训练子集训练得到的XGBoost模型为一个基分类器，通过所述基分类器对步骤S3中得到的所述测试集特征进行信用概率预测；在本实施例中，XGBoost的学习率为0.03，树的最大深度为5，属性采样比为0.8，迭代次数为100。

将本发明技术方案与常用的十个基础分类器方法进行性能比较如表1-3所示：

表1澳大利亚数据集在不同基分类器的结果

表2德国数据集在不同基分类器的结果

表3日本数据集在不同基分类器的结果

AUC表示ROC曲线下面积，ACC为准确率，PREC表示精确率，REC表示召回率，以下所有表中的表示均相同，粗体表示最佳的性能。根据表1-3的结果显示，XGBoost，SVM，GBDT，LDA，LR在三个数据集上都能表现出比较好的性能，而DT和NB的性能相对较差。SVM的Ⅰ型错误率在三个数据集中都比较高，在德国数据集上已经高达0.71，这对于信用评分来说，不是一种好的情况，意味着将更多的不良信用的客户预测为了良好信用，会对金融机构造成巨大的损失。相比之下，本发明技术方案的模型性能较基础分类器有显著的提高。与最好的基本分类器的单个性能相比，澳大利亚，德国，日本的AUC分别提高了2.7％，8.6％，1.6％，同时Ⅰ型错误率分别降低了23.6％，9.5％,54.2％。

Claims

1.一种结合深度神经网络的XGBoost集成信用评价系统，其特征在于，包括：

数据划分单元，用于将从数据预处理单元得到的数据集划分测试集与训练集，并将训练集划分为多个训练子集；其中，采用装袋算法将训练集生成不同的训练子集，给定训练集D，其数据大小为P，使用装袋算法有放回的随机采样N个训练子集，每个训练子集的数据大小为m，其中，m<P；

特征提取单元，用于通过深度神经网络对每一个训练子集进行特征提取，同时根据该训练子集的模型提取测试集特征；

训练单元，用于通过XGBoost对提取后的训练子集进行训练，并预测信用概率，每一个训练子集训练得到的XGBoost模型为一个基分类器，通过所述基分类器对得到的测试集特征进行信用概率预测；

结果处理单元，用于将多个基分类器的结果进行平均，得到最终信用表现。

2.如权利要求1所述的结合深度神经网络的XGBoost集成信用评价系统，其特征在于，所述数据预处理单元包括：缺失值处理模块，用于在原始数据集中某个数值属性的缺失值大于样本总数的2％时，采用均值的方法进行填充，否则用0填充；并且用于在原始数据集中有分类属性时，填充为新的类别；

3.如权利要求1所述的结合深度神经网络的XGBoost集成信用评价系统，其特征在于，所述数据划分单元用于分别将数据集中的正样本和负样本的20％用作测试集，剩余的80％用作训练集；每一个训练子集中样本数量为原始训练集样本数量的90％，训练子集的数量为10-15个。

4.如权利要求1所述的结合深度神经网络的XGBoost集成信用评价系统，其特征在于，所述深度神经网络的隐藏层数为3层，DNN的输入层激活函数采用ReLU；输出层的激活函数采用Softmax；代价函数为分类交叉熵；优化器采用Rmsprop；迭代数量为500，Batch_size为30；所述XGBoost的学习率为0.03，树的最大深度为5，属性采样比为0.8，迭代次数为100。

5.一种权利要求1至4任一权利要求所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法，其特征在于，该方法利用深度神经网络提取训练集中的隐藏特征，将提取出来的隐藏特征进一步作为XGBoost的输入进行训练，最后对测试集进行预测，所得预测结果为信用概率。

6.如权利要求5所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法，其特征在于，该方法包括如下步骤：

其中，采用装袋算法将训练集生成不同的训练子集，给定训练集D，其数据大小为P，使用装袋算法有放回的随机采样N个训练子集，每个训练子集的数据大小为m，其中，m<P；

7.如权利要求5所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法，其特征在于，所述步骤S1中：

对分类属性的转化是采用虚拟变量代替分类属性，对分类属性进行处理。

8.如权利要求5所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法，其特征在于，所述步骤S2中：分别将数据集中的正样本和负样本的20％用作测试集，剩余的80％用作训练集；

9.如权利要求5所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法，其特征在于，所述步骤S3中：深度神经网络的隐藏层数设置为3层，可达到最优效果，DNN的输入层激活函数采用ReLU；输出层的激活函数采用Softmax；代价函数为分类交叉熵；优化器采用Rmsprop；迭代数量为500，Batch_size为30。

10.如权利要求5所述的结合深度神经网络的XGBoost集成信用评价系统的评价方法，其特征在于，所述步骤S4中：XGBoost的学习率为0.03，树的最大深度为5，属性采样比为0.8，迭代次数为100。