CN110232400A

CN110232400A - 一种梯度提升决策神经网络分类预测方法

Info

Publication number: CN110232400A
Application number: CN201910365319.7A
Authority: CN
Inventors: 陈金香; 范谨麒
Original assignee: Automation Research and Design Institute of Metallurgical Industry
Current assignee: Automation Research and Design Institute of Metallurgical Industry
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-09-13

Abstract

一种梯度提升决策神经网络分类预测方法，属于大数据分析以及机器学习分类预测技术领域。首先，根据被预测对象的特征，建立数据样本集，并将此数据样本集中70％‑90％的样本作为训练集，10％‑30％的样本作为测试集。其次，提出梯度提升决策神经网络分类预测方法，对上述数据样本集进行训练和测试。优点在于，通过梯度提升树的特征选择和特征扩充的功能，增加样本的属性特征，解决现存算法处理少特征数据样本时所存在的预测精度低的难题。

Description

一种梯度提升决策神经网络分类预测方法

技术领域

本发明属于大数据分析以及机器学习分类预测技术领域，特别是提供了一种梯度提升决策神经网络分类预测方法，适用于解决各种分类与回归问题，可应用于数据分析、评价与故障预测领域。

背景技术

近年来，人工智能得到了空前的发展，各类智能算法如机器学习、深度学习、神经网络等得到了广泛研究和应用，并取得了不错的成绩。然而，随着数据量的增多和用户对数据预测性能要求的不断提高，现存预测算法已无法满足上述要求，迫切需要对现有算法的改进和提出新的预测算法。

集成学习不是单独的机器学习方法，而是通过构建并结合多个机器学习器来完成任务，集成学习可以用于分类问题集成、回归问题集成、特征选取集成、异常点检测集成等方面。其思想是对于训练数据集，我们通过训练若干个个体学习器，通过一定的结合策略形成一个强学习器，以达到博采众长的目的。梯度提升决策树是一种迭代的决策树算法，由多棵决策树组成，所有树的结论累加起来作为最终答案。梯度提升树的基分类器一般为分类与回归树，通过采用不同的损失函数，可以解决不同的分类或者回归问题。梯度提升树是串行结构，目的在于减少预测结果的偏差，它和随机森林不同，随机森林是并行的，在于减少预测结果的方差，随机森林过于随机，而且噪声过大时预测会容易过拟合，在现实生活中大多数的数据都有比较大的噪声，所以在这里不采用随机森林模型，而采用梯度提升树模型。

神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的，试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络具有四个基本特征：非线性，非局限性，非常定性，非凸性。神经网络是一种运算模型，由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。

发明内容

本发明的目的在于提供一种梯度提升决策神经网络分类预测方法，解决现存预测算法在处理少特征样本分类预测时的低准确率难题。

本发明的技术方案是：首先，根据被预测对象的特征，建立数据样本集，并将此数据样本集中70％-90％的样本作为训练集，10％-30％的样本作为测试集。其次，提出梯度提升决策神经网络分类预测方法，对上述数据样本集进行训练和测试，具体方案如下：

步骤1、将上述数据样本集中的90％作为训练样本，放入梯度提升树模型中进行训练，梯度提升树是由一系列分类与回归树集成的，所以可以统计每个样本落在每棵分类与回归树树叶子节点的位置，对于每棵树，对该位置记为1，其余叶子节点记为0，即独热编码。假设有n棵树，每棵树深度为m，则每个样本可增加的特征数为：n*2^m-1。

步骤2、将步骤1中的特征数据通过梯度提升树计算每个特征的重要程度。重要程度计算如下：对于每个特征，计算梯度提升树中所有分类与回归树每个分支是否选择该特征的总和。这样可以得到每个特征的重要系数，根据实际情况将重要系数比较低，且其和不足10％的特征去掉，留下其余的特征，从而提高后续的预测准确率。

步骤3、将步骤2中得到的新的数据集输入到神经网络模型中，神经网络是一种多层的前馈神经网络，其主要特点是：信号是前向传播的，误差是反向传播的。所以神经网络主要分为两个阶段，第一个阶段是信号的前向传播，从输入层经过隐含层，最后达到输出层；第二阶段是误差的反向传播，从输出层到隐含层，最后进入输入层，依次调节隐含层到输出层的权重和偏置、隐含层之间的权重和偏置以及输入层到隐含层的权重和偏置。本研究中神经网络采用三层隐含层，一层输入层和一层输出层，激活函数采用 Sigmoid函数，Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0，1之间(简记Sigmoid)，如图2。

步骤4、模型的评估。采用数据样本中除了训练样本以外的数据集作为测试样本，验证模型的准确性。对于二分类问题，可以采用如下评估方法：

准确率：

召回率：

F1值：

其中，真正例(TP)：真实类别为正例，预测类别为正例，

假正例(FP)：真实类别为负例，预测类别为正例，

假负例(FN)：真实类别为正例，预测类别为负例，

真负例(TN)：真实类别为负例，预测类别为负例。

对于多分类任务，可以采用采用混淆矩阵的方法评估。混淆矩阵的每一列代表预测类别，每一列的总数表示预测为该类别的数据的数目，每一行代表了数据的真是归属类别，每一行的数据总数表示该类别的实例的数目。

本发明的优点在于：

针对具有特征属性少的数据样本的高精度分类预测问题，提出了一种梯度提升决策神经网络分类预测方法，较大提升了预测能力，解决了现存算法处理此类问题时的困难，为各行各业提供了一种新的数据处理和预测方法。

附图说明

图1为样本编码样例图。

图2为预测函数图

具体实施方式

下面将本发明应用于癌症数据库的分类分析与处理中，说明其应用方法和有效性。以事先处理好的三万用户的特征为训练数据，预测结果分为2类，本发明将详细说明的实施方法，因为该类数据的特征之间独立同分布，而且数据为离散变量，符合本发明算法的大前提条件。

步骤1、梯度提升树中基分类器的选择：线性分类器和分类与回归树树，由于数据是非线性的，所以使用分类与回归树树的非线性特性更强。对所有数据使用梯度提升树进行训练，学习率为0.2，分类与回归树树的深度为3，树的个数为400，每个样本都可以落在每棵树的某个叶子节点中。如图1为一个样本落在一棵树上的编码。

步骤2、分类与回归树树在分支的时候会基于基尼指数大小进行特征选择，每分支一次选择一个特征。给定数据共有十二个特征，可以统计在400颗树中每个特征被选择的次数总和，如表1。由表1可知S8、S9、S10的重要系数很低，可以去掉，只用前9 个特征进行训练。S1～S12表示为12个特征。

表1：特征重要程度系数统计

特征	S1	S2	S3	S4	S5	S6	S7	S8	S9	S10	S11	S12
													权重	0.329	0.27	0.12	0.076	0.06	0.02	0.019	0.005	0.0007	0.008	0.034	0.045

步骤3、将步骤1中编号的码和步骤2中选好的特征结合起来组成新的特征，这样原3万个数据集的特征维数扩增了。将新的数据集划分为训练集(70％)和测试集(30％)，将训练集放入神经网络进行数据训练，神经网络输出层采用一个神经元，0表示没有得病，1表示得病。

步骤4、模型的评估，本发明采用梯度提升树和神经网络模型融合的方法对数据进行了准确率预测，同时对比了采用单模型的梯度提升树、逻辑回归以及支持向量机模型的预测准确率如表2。(支持向量机是一种以几何间隔最大化为目标的分类模型)

表2：模型准确率对比

预测模型	准确率
		逻辑回归	0.764
支持向量机	0.773
		梯度提升树	0.791
梯度提升树和神经网络融合模型	0.820

步骤5、根据表2可以看出采用梯度提升树和神经网络融合模型后准确率有显著的提高。

综上所述，利用模型的优势进行融合，相比单模型，预测结果要好很多，在改进方面，结果评估可以用曲线模型更加准确。本发明采用了梯度提升树和神经网络模型的融合，应用于特征不相关的数据预测，大大提高了预测的准确率，提高企业的工作效率。

Claims

1.一种梯度提升决策神经网络分类预测方法，其特征在于，具体方案如下：

步骤1、首先建立数据样本集，然后将其90％的样本集作为训练样本，放入梯度提升树模型中进行训练，梯度提升树是由一系列分类与回归树集成的，统计每个样本落在每棵分类与回归树树叶子节点的位置，对于每棵树，对该位置记为1，其余叶子节点记为0，即独热编码；假设有n棵树，每棵树深度为m，则每个样本增加的特征数为：n*2^m-1；

步骤2、将步骤1中的特征数据通过梯度提升树计算每个特征的重要程度，重要程度计算如下：对于每个特征，计算梯度提升树中所有分类与回归树树每个分支是否选择该特征的总和；得到每个特征的重要系数，根据实际情况将重要系数比较低且其和不足10％的特征去掉，留下其余特征，从而提高后续的预测准确率；

步骤3、将步骤2中得到的新的数据集输入到神经网络模型中，神经网络采用三层隐含层，一层输入层和一层输出层，激活函数采用Sigmoid函数，Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0，1之间，简记Sigmoid；

神经网络是一种多层的前馈神经网络，信号是前向传播的，误差是反向传播的；神经网络分为两个阶段，第一个阶段是信号的前向传播，从输入层经过隐含层，最后达到输出层；第二阶段是误差的反向传播，从输出层到隐含层，最后进入输入层，依次调节隐含层到输出层的权重和偏置、隐含层之间的权重和偏置以及输入层到隐含层的权重和偏置；

步骤4、模型的评估。采用数据样本中除了训练样本以外的数据集作为测试样本，验证模型的准确性。对于二分类问题，采用如下评估方法：

准确率：

召回率：

F1值：

其中，真正例TP：真实类别为正例，预测类别为正例，

假正例FP：真实类别为负例，预测类别为正例，

假负例FN：真实类别为正例，预测类别为负例，

真负例TN：真实类别为负例，预测类别为负例；

对于多分类任务，采用混淆矩阵的方法评估，混淆矩阵的每一列代表预测类别，每一列的总数表示预测为该类别的数据的数目，每一行代表了数据的真是归属类别，每一行的数据总数表示该类别的实例的数目。