CN108038539A

CN108038539A - 一种集成长短记忆循环神经网络与梯度提升决策树的方法

Info

Publication number: CN108038539A
Application number: CN201711022066.0A
Authority: CN
Inventors: 陈雅雪; 潘炎; 潘文杰
Original assignee: Guangzhou Zhongda Nansha Technology Innovation Industrial Park Co Ltd; National Sun Yat Sen University
Current assignee: Sun Yat Sen University; Guangzhou Zhongda Nansha Technology Innovation Industrial Park Co Ltd; National Sun Yat Sen University
Priority date: 2017-10-26
Filing date: 2017-10-26
Publication date: 2018-05-15

Abstract

本发明提供一种集成长短记忆循环神经网络与梯度提升决策树的方法，该方法将多个决策树森林产生的特征作为网络的输入，可以将决策树深林的那一部分看成是新的网络层，即森林层，森林层在网络中起的作用类似于卷积神经网络里的卷积层，它能够提取非图像类数据的特征。由于LSTM的输入是跟时间序列相关的，因此森林层的决策树森林的个数等于时间序列的时刻数。新模型相比只有LSTM的模型能更好地抽取一般的非图像类序列化数据的特征，而且相比只有GBDT的模型能够保持前后特征的时间性依赖，从而形成与高层的抽象特征之间的映射。

Description

一种集成长短记忆循环神经网络与梯度提升决策树的方法

技术领域

本发明涉及深度学习领域，更具体地，涉及一种集成长短记忆循环神经网络与梯度提升决策树的方法。

背景技术

早期，计算机处理繁琐但能用规则或者数据公式解决的问题。如今，智能化软件能自动完成日常劳动，并能开始了解语音和图像，参与到疾病诊断和基础科学研究中。人们对软件服务的要求越来越高，而相应的处理模型也越来越复杂，从早期的基于规则的模型，再到人工设计特征的简单的机器学习模型，再到现在自动生成抽象特征的复杂深度学习模型。

机器学习算法的研究发展从最初基于人工设计规则到设计特征然后通过模型映射得到输出结果，再到现在的预处理生成特征或者深度学习生成抽象、高层语义的特征，最后由模型映射得到输出，所做工作都是在特征上处理。

近些年用决策树和深度学习方法自动提取特征逐渐成为主流。尤其是深度学习在学术界和工业界得到广泛的关注。深度学习模型擅长从底层语义逐渐形成高层的抽象特征，它在图像、视频、语音、自然语言等具有时间或者空间结构的数据上取得了非常好的效果。

长短记忆循环神经网络（LSTM）是深度神经网络的一个重要分支，它在自然语言、语音等具有时间结构的数据上取得了很好的效果。但是，在许多机器学习任务中，模型的输入是一个由人工构造的特征组成的向量，该向量并没有像图像、视频、语音、自然语言等数据所具有的时间或空间结构。在这些类型的数据上，传统的树集成方法往往比深度学习方法有更好效果。

发明内容

本发明提供一种集成长短记忆循环神经网络（LSTM）与梯度提升决策树（GBDT）的方法，该方法能更好的抽取一般的非图像类序列化数据特征。

为了达到上述技术效果，本发明的技术方案如下：

一种集成长短记忆循环神经网络与梯度提升决策树的方法，包括一下步骤：

S1：输入训练数据集每一时刻的特征到森林层；

其中，长短记忆循环神经网络（LSTM）在自然语言、图像等数据方面已经取得非常好的成绩。一方面是能很好解决了特征之间长短依赖的问题，能有效避免梯度消失和爆炸。另一方面是这一类数据，目前已经有很成熟的特征提取方式或者能够直接输入模型，不需要做更多的预处理。这一类数据一般是低级特征而且是同一类型，不用再做归一化处理。而在更多的实际问题中，一般数据会更加复杂，需要更多人工操作处理；

S2：用森林层里的梯度提升决策树产生固定维度的特征作为长短记忆循环神经网络的输入；

具体的，每一个森林相当于原先LSTM的一个输入神经元，由每个森林计算得到的值相当于原先LSTM输入神经元的值，也就是神经网络的输入值；

S3：长短记忆循环神经网络进行一次前向传播并得到误差；

具体的，正向传播时，输入样本从输入层进入网络，在各层隐层与神经元的权重和偏置进行计算，经隐层逐层传递至输出层，如果输出层的实际输出与期望输出不同，则会产生误差，用于下一步知道网络的参数更新；

S4：长短记忆循环神经网络进行一次反向传播得到森林层的误差梯度；

具体的，要进行残差求解，也就是误差要对LSTM的输入求导。在原来的LSTM网络中，误差只需要对全连接的连接参数求导并更新参数，但是新模型中误差不仅要对参数进行求导，还要对输入求导；

S5：用梯度提升的方法更新森林层；

具体的，误差对于LSTM的每一维输入在每个时刻求导得到的残差，需要该维输入对应的GBDT重新拟合该负梯度，生成一棵新的回归树并添加到当前的GBDT里面。

S6：反复执行步骤S2至步骤S5，直至收敛。

进一步地，所述步骤S2中的森林层由多个梯度提升决策树森林组成的，梯度提升决策树处理混合类型数据，得到对异常值鲁棒性好的输出空间。

进一步地，所述步骤S4中的反向传播包括：

残差求解：不仅对参数进行求导，还对输入求解导数；

更新森林层中的树模型：对于每个时间点求解出来的残差，重新拟合该梯度，生成新一轮树的结构并加入到森林层中。

进一步地，步骤S5用梯度提升的方法更新森林层，需要在每个点的负梯度上求解求解最优步长实现损失函数最小。

与现有技术相比，本发明技术方案的有益效果是：

本发明将多个决策树森林产生的特征作为网络的输入，可以将决策树深林的那一部分看成是新的网络层，即森林层，森林层在网络中起的作用类似于卷积神经网络里的卷积层，它能够提取非图像类数据的特征。由于LSTM的输入是跟时间序列相关的，因此森林层的决策树森林的个数等于时间序列的时刻数。新模型相比只有LSTM的模型能更好地抽取一般的非图像类序列化数据的特征，而且相比只有GBDT的模型能够保持前后特征的时间性依赖，从而形成与高层的抽象特征之间的映射。

附图说明

图1是本发明结合长短记忆循环神经网络（LSTM）和梯度提升决策树（GBDT）的模型方法的流程图；

图2是本发明LSTM单元块结构图；

图3是本发明简单的LSTM网络结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种集成长短记忆循环神经网络与梯度提升决策树的方法，具体步骤如下：

A．输入训练数据集每一时刻的特征到森林层；

给定一组训练数据集,在每一时刻，是时间序列的时刻数，都会有一组对应的训练数据输入。这组输入会进到森林层里面。

B．用森林层里的GBDT产生固定维度的特征作为LSTM的输入；

LSTM在每个时刻t的特征输入为，I是LSTM输入特征的维数。森林层中有I个森林，每个森林的输出对应着LSTM的一维输入，记为森林层中第i+1个森林在t时刻的输出，那么。

C．LSTM进行一次前向传播并得到误差；

LSTM的网络结构与标准的RNN相似。但是在LSTM中，用记忆块代替了隐藏层的网络。一个记忆块里会有一到多个记忆单元，在记忆单元里面，LSTM包含多个门的结构，包括输入门、输出门、忘记门、cell，LSTM能够存储和访问长时间的信息，从而消除梯度消失和梯度爆炸的问题。

如图2LSTM单元块结构所示，LSTM单元块中的输入门（Input Gate）和输出门（Output Gate）通过乘以输入与输出，忘记门（Forget Gate）通过乘以之前的状态来控制信息的输入。中间的cell用于记住状态参数，而且里面不存在激活函数。激活函数f通常是sigmoid函数。输入输出单元的激活函数通常是tanh或者是sigmoid函数。

图3是一个简单但完整的LSTM网络结构，包含4个输入、两个block以及5个输出，并显示了部分连接线。表示在t时刻网络层j的输入值，表示在t时刻网络层j的输出值，表示网络层i，j之间连接的权重，下标分别表示输入门、忘记门和输出门。

输入门：

表示上一层的输出，表示当前层上一时刻其他记忆块的输出，表示当前层上一时刻记忆单元的状态。

忘记门：

Cells：

输出门：

最终输出：

输出门：

D．LSTM进行一次反向传播得到森林层的误差梯度；

LSTM的反向传播过程用的是梯度下降方法，从输出层到输入层每一层的误差传导遵循链式法则来更新每一层的参数。用偏导符号表示损失函数在某一个门j上的导数，用表示为损失函数对激活函数的导数：

Cell输出的导数：

输出门的导数：

状态：

Cell的偏导数：

忘记门的偏导数：

输入门的偏导数：

损失函数对森林层的输出的导数：

其中是损失函数在链式规则中的导数，根据实际需求不同，它会有不同的选择形式。而表示对的导数。

函数：

函数求导：

为函数对cell输入的导数：

输出门对输入求导：

Cell状态对输入求导：

忘记门对输入求导：

输入门对输入求导：

其中是Logistic函数：

其中，是tanh函数：

至此，经过以上的链式法则推导可以得到森林层的残差，只需要在森林层拟合该残差。

E．用梯度提升的方法更新森林层；

森林层是一个分段函数，其本身不能求导，传到LSTM输入层的误差无法继续通过链式法则向森林层传导。GBDT是利用梯度提升的算法，每次迭代用一棵树来拟合当前模型的残差（即负梯度），并将这棵树添加到当前模型。在新模型中，残差可以在LSTM的反向传播过程中求得，那么只需要森林层在每个时刻t拟合这一组残差即可。

在GBDT中，每一轮迭代对负梯度拟合一棵回归树，在新模型里，每一个时刻t，每一个GBDT都会有一个负梯度，因此森林层每一时刻拟合的回归树有I棵，I是LSTM输入的维度。

记为在第m-1轮迭代中的时刻t第i-1个GBDT的残差，根据GBDT拟合残差的算法，求出拟合出来的回归树，然后更新森林层,其中s为收缩系数，为步长。更新的模型是按照最速梯度下降的思想，即沿着当前位置负梯度方向上求解的最优步长，这样使得损失函数最小。但最速下降法越接近目标值，步长越小，下降速度越慢，切求解最优步长过于复杂，不方便求解，为了解决这个问题，可利用三种求解方法：

．固定步长法。

固定步长在每一步前进的大小固定，非常有可能出现步长过大或者过小导致跳动太大无法收敛或者收敛速度太慢。因此需要多次尝试步长，才能有较好的迭代参数，但是固定步长相对于其他方法计算简单，能快速迭代。

．牛顿法。

在牛顿法中，假设具有二阶连续偏导数，在第k次的迭代值为，则在附近的二阶泰勒展开式为，其中是的梯度向量在点处的值，而是的海森矩阵：。

通过推导可以得到，。

．拟牛顿法。

在实际工程应用过程中，求解的过程比较复杂，一般采用近似的方法拟牛顿求解，拟牛顿的思想是考虑用一个n阶的矩阵逼近海森矩阵逆矩阵。可以得到。

反复执行步骤B至步骤E，直至模型收敛。

本发明旨在提出一种集成长短记忆循环神经网络与梯度提升决策树的深度学习模型。模型主要是在一个LSTM的网络模型中嵌入梯度提升回归树森林，将输入层替换成回归树森林结构，形成新的网络。

其特点和优点为：相比LSTM网络新模型能更好地抽取一般的非图像类序列化数据特征，而且相比GBDT，新模型能够保持特征前后的时间性依赖，从而形成与高层的抽象特征之间的映射。

LSTM在自然语言、图像等数据方面已经取得非常好的成绩。一方面是能很好解决了特征之间长短依赖的问题，能有效避免梯度消失和爆炸。另一方面是这一类数据，目前已经有很成熟的特征提取方式或者能够直接输入模型，不需要做更多的预处理。这一类数据一般是低级特征而且是同一类型，不用再做归一化处理。而在更多的实际问题中，一般数据会更加复杂，需要更多人工操作处理。这种方式抽取特征比较耗时而且抽取的特征依赖实际的经验。GBDT在处理这类复杂数据类型的表现尤为突出，能自动提取特征，而不用人工花费大量时间、精力抽取这些特征。

基于以上思考，将GBDT和LSTM结合，既能很好地适应非图像类的特征，又具有深度学习模型逐层学习低级特征到高级特征的优点。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种集成长短记忆循环神经网络与梯度提升决策树的方法，其特征在于，包括一下步骤：

S1：输入训练数据集每一时刻的特征到森林层；

S3：长短记忆循环神经网络进行一次前向传播并得到误差；

S5：用梯度提升的方法更新森林层；

S6：反复执行步骤S2至步骤S5，直至收敛。

2.根据权利要求1所述的集成长短记忆循环神经网络与梯度提升决策树的方法，其特征在于，所述步骤S2中的森林层由多个梯度提升决策树森林组成的，梯度提升决策树处理混合类型数据，得到对异常值鲁棒性好的输出空间。

3.根据权利要求2所述的集成长短记忆循环神经网络与梯度提升决策树的方法，其特征在于，所述步骤S4中的反向传播包括：

残差求解：不仅对参数进行求导，还对输入求解导数；

4.根据权利要求3所述的集成长短记忆循环神经网络与梯度提升决策树的方法，其特征在于，步骤S5用梯度提升的方法更新森林层，需要在每个点的负梯度上求解求解最优步长实现损失函数最小。