CN109241987A

CN109241987A - 基于加权的深度森林的机器学习方法

Info

Publication number: CN109241987A
Application number: CN201810695937.3A
Authority: CN
Inventors: 夏正新
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2019-01-18

Abstract

本发明提供了一种基于加权的深度森林的机器学习方法，其中深度森林包括多粒度扫描与级联森林；多粒度扫描可通过获取多个特征子集产生相应类向量，产生的类向量被拼接到原始的样本特征空间里，作为后面级联森林的输入特征；级联森林用以实现表征学习并包括随机森林和完全随机树森林，森林之间通过层级方式形成级联结构；通过计算每一级森林中每棵子树的预测精度的相应权重，再对各个子树的预测概率向量进行加权求和，从而找出整个森林的预测结果；不但提高了深度森林的预测精度，而且降低了级联级数。

Description

基于加权的深度森林的机器学习方法

技术领域

本发明涉及一种加权的深度森林的机器学习方法，特别适用于图像处理、音频分析等应用领域。

背景技术

深度森林(Deep Forest，DF)与深度神经网络都是通过多级结构进行表征学习，但深度森林以其简单的训练模型以及不依赖于大量数据进行训练的特点弥补了深度神经网络的缺点，并逐渐被应用于工程实践中。可参考文献1：Zhou Z H,Feng J.Deep Forest:Towards An Alternative to Deep Neural Networks[J].arXiv preprint arXiv:1702.08835.2017。

深度森林由多粒度扫描(Multi-Grained Scanning)和级联森林两个部分组成。其中，多粒度扫描通过滑动窗口技术获取多个特征子集，以增强级联森林的差异性。级联森林则是将决策树组成的森林通过级联方式实现表征学习。深度森林沿用了深度学习对样本特征属性的逐层处理机制，利用多级结构实现表征学习。与深度学习不同之处主要表现在以下几个方面。首先，深度森林的级数是随着训练的不断深入自动调节的；其次，深度森林具有很少的超参数且对超参数不敏感；再次，深度森林具有较低的训练开销，既适用于大规模数据集也适用于小规模数据集；最后，其结构适用于并行处理。

多粒度扫描主要处理高维数据和图像数据。整个多粒度扫描结构如图1所示，假设长度为n的一维特征向量，若使用长度为m的窗口进行滑动且每次滑动一个单位长度，将产生n-m+1个具有m维特征向量的数据子集；类似的，对于一个n×n的二维图像数据，若使用m×m的窗口进行滑动，每次滑动一个单位长度，将产生(n-m+1)²个具有m×m特征向量的数据子集。这些数据集将分别输入到1个完全随机森林和1个随机森林。对于c个类别的分类问题，经过两个不同的随机森林分类后，长度为n的一维特征向量将产生长度为2c(n-m+1)的类向量；类似的，对于一个n×n的二维图像数据，将产生长度为2c(n-m+1)²的类向量。随后，这些类向量将被拼接到原始的样本的特征空间里，作为后面级联森林的输入特征。

级联森林主要由随机森林和完全随机树森林两种森林组成。森林之间通过层级方式形成级联结构。级联森林结构和森林中树的结构分别如图2、3所示。对于每一级森林，首先，训练样本通过k折交叉验证，训练其中各棵子树，与此同时，每棵子树对每个训练样本给出一个预测的类概率向量；其次，将测试样本输入训练得到的森林，每棵子树对每个测试样本也给出一个预测的类概率向量；再次，森林对所有子树预测的类概率向量按训练样本和测试样本分别计算平均类概率向量；最后，该级的所有森林将所有样本上的平均类概率向量与样本的原始特征向量拼接后作为下一级森林的输入特征。每级结束预测后，会在验证集上对预测结果进行评估，以决定是否扩展下一级。如果不再扩展，则在已扩展的级中，找出最优评估结果所对应的级，将所有森林在测试样本上的平均类概率向量算术平均后，取概率最高的类向量作为整个深度森林的预测结果。

就每个样本而言，每个森林将其各个子树预测的类概率向量进行算术平均后，作为该森林的预测结果，并与样本的原始特征向量拼接，作为下一级的输入。由于森林中各个子树的预测精度是各不相同的，算术平均会导致子树的错误预测对整个森林的预测产生影响，进而随着级数增加，有可能使错误被进一步放大。

有鉴于此，有必要设计一种改进的方法，以解决上述问题。

发明内容

本发明的目的在于提供一种基于加权的深度森林的机器学习方法，其可提高深度森林的预测精度，降低级联级数。

为实现上述发明目的，本发明提供了一种基于加权的深度森林的机器学习方法，其中深度森林包括多粒度扫描与级联森林；所述多粒度扫描可通过获取多个特征子集产生相应类向量，所述类向量被拼接到原始的样本的特征空间里，作为后面级联森林的输入特征；所述级联森林用以实现表征学习，其包括随机森林和完全随机树森林，森林之间通过层级方式形成级联结构；通过计算每一级森林中每棵子树的预测精度的相应权重，再对各个子树的预测概率向量进行加权求和，从而找出整个森林的预测结果。

作为本发明的进一步改进，该方法包括输入训练样本集及测试样本集，执行以下步骤：

步骤1：当训练样本集为高维数据集时，进行多粒度扫描；当训练样本集为低维数据集时，则无需进行多粒度扫描；

步骤2：使用训练样本集训练子树，计算当前子树的预测准确率；

步骤3：计算当前子树的权重；

步骤4：根据各个子树的权重计算当前森林在训练样本集和测试样本集上的预测类概率矩阵；

步骤5：使用各个森林的预测类概率矩阵计算当前级联森林在训练样本集和测试样本集上的预测类概率矩阵；

步骤6：若评估需继续扩展下一级，则将当前级联森林的预测类概率矩阵拼接到原始特征空间，形成新的训练样本集和测试样本集，返回步骤1继续执行；及

步骤7：若评估无需继续扩展下一级，则在已扩展的级中找出在训练样本集上预测准确率最高值所对应的级，将该级在测试样本集上的预测结果向量和预测准确率作为整个加权的深度森林的预测结果。

作为本发明的进一步改进，获得子树的预测准确率的方法包括：

步骤2-1：获得在训练样本集上子树预测的类概率矩阵：

其中T为训练样本集，S为测试样本集，m和n分别为训练样本集T和测试样本集S的示例个数，c为类别标记的个数并记为L＝{l₁,l₂,...,l_c}，设森林F包含t棵子树，记第k棵子树为T_k(k∈[1,t])，p_ij为第i个训练样本被子树T_k预测为类l_j的概率；

步骤2-2：获得子树对训练样本集的预测结果向量：

其中函数Max(X)表示获取二维矩阵中行向量X的最大值元素所对应的列下标；当有多个相同的最大值时，取最小的列下标，令列下标从1开始；及

步骤2-3：获得子树对训练样本集的预测准确率：

a_k＝Acc(Predict(T_k,T),Y(T))，

其中函数Acc(X₁,X₂)表示两个同维向量X₁,X₂中相同位置元素相等的个数所占的比例，Y(T)是由训练样本集T的真实类映射到类集合中的下标所组成的向量。

作为本发明的进一步改进，第k棵子树的权重通过以下公式计算：

W_k∝log₂(a_k/(1-a_k))。

作为本发明的进一步改进，当前森林在训练样本集和测试样本集上的预测类概率矩阵分别通过以下方式计算:

作为本发明的进一步改进，若当前级联森林中包含h个森林，那么第e级森林组合C_e在训练样本集T和测试样本集S上预测的类概率矩阵可分别由以下公式计算：

作为本发明的进一步改进，第e级森林组合C_e在训练样本集T和测试样本集S上预测的类概率矩阵可改写成行向量组的形式，可分别得到第e级森林组合C_e对训练样本集T和测试样本集S的预测结果向量，分别如下：

作为本发明的进一步改进，第e级森林组合分别在训练样本集T和测试样本集S上的预测准确率A_et和A_es可由以下公式分别计算:

A_et＝Acc(Predict(C_e,T),Y(T))

A_es＝Acc(Predict(C_e,S),Y(S)),

其中Y(T)、Y(S)分别表示由训练样本集T、测试样本集S的真实类映射到类集合中的下标所组成的向量。

本发明的有益效果为：相较于现有技术将深度森林中各棵子树对应不同的预测精度进行简单的算术平均的方法，本发明根据森林中每棵子树的预测精度计算其相应权重，再对各个子树的预测概率向量进行加权求和，克服了现有技术忽略各棵子树之间的预测差异、进而使预测错误率较高的子树对整个森林的预测结果产生较大影响的不足，提高了深度森林的预测精度，降低了级联级数；在高维和低维数据集上性能都获得了一定提升，特别在高维数据集上，这一优势较为明显。

附图说明

图1为多粒度扫描结构。

图2为现有的级联森林结构。

图3为现有的单个森林的结构。

图4为本发明的单个加权森林的结构。

图5为本发明的基于加权的深度森林的机器学习方法的流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明提供了一种基于加权的深度森林的机器学习方法。深度森林包括多粒度扫描与级联森林,多粒度扫描可通过获取多个特征子集产生相应类向量，再将类向量拼接到原始的样本的特征空间里，作为后面级联森林的输入特征。级联森林用以实现表征学习，包括随机森林和完全随机树森林，森林之间通过层级方式形成级联结构。单个加权森林的结构如图4所示，通过计算每一级森林中每棵子树的预测精度的相应权重，再对各个子树的预测概率向量进行加权求和，从而找出整个森林的预测结果。

本发明采用的方法具体如下：假设训练样本集T和测试样本集S的示例个数分别为m和n，类别标记的个数为c，记为L＝{l₁,l₂,...,l_c}。设森林F包含t棵子树，记第k棵子树为T_k(k∈[1,t])，第i个训练样本被子树T_k预测为类l_j的概率为p_ij，则在训练样本集T上，子树T_k预测的类概率矩阵如式(1)所示。

定义函数Max(X)表示获取二维矩阵中行向量X的最大值元素所对应的列下标；当有多个相同的最大值时，取最小的列下标。令列下标从1开始，则子树T_k对训练样本集T的预测结果向量如式(2)所示。

定义函数Acc(X₁,X₂)表示两个同维向量X₁,X₂中相同位置元素相等的个数所占的比例。例如：

令Y(T)是由训练样本集T的真实类映射到类集合中的下标所组成的向量，则子树T_k对训练样本集T的预测准确率a_k可通过式(3)计算。

a_k＝Acc(Predict(T_k,T),Y(T)) (3)

至此，第k棵子树的权重W_k计算如式(4)所示。

W_k∝log₂(a_k/(1-a_k)) (4)

最后，森林F在训练样本集T和测试样本集S上预测的类概率矩阵可分别由式(5)、(6)计算。

更进一步，假设级联森林中每一级又包含h个森林，那么第e级森林组合C_e在训练样本集T和测试样本集S上预测的类概率矩阵可分别由式(7)、(8)计算。

类似的，如果把上述矩阵改写成行向量组的形式，可分别得到第e级森林组合C_e对训练样本集T和测试样本集S的预测结果向量，具体如式(9)、(10)所示。

同理，令Y(T)、Y(S)分别表示由训练样本集T、测试样本集S的真实类映射到类集合中的下标所组成的向量，则第e级森林组合分别在训练样本集T和测试样本集S上预测准确率A_et和A_es可由式(11)、(12)分别计算。

A_et＝Acc(Predict(C_e,T),Y(T)) (11)

A_es＝Acc(Predict(C_e,S),Y(S)) (12)

当级联森林不再扩展时，则在已扩展的级中，找出在训练样本集T上预测准确率最高值所对应的级，将该级森林组合在测试样本集S上预测结果向量和预测准确率作为整个加权深度森林的预测结果。

请一并参考图5所示，本发明机器学习方法的流程说明如下。输入训练样本集T及测试样本集S，执行以下步骤：

步骤1：当训练样本集T为高维数据集时，进行多粒度扫描；当训练样本集T为低维数据集时，则无需进行多粒度扫描。

步骤2：使用训练样本集T训练子树，根据公式(1)、(2)、(3)计算当前子树的预测准确率。

步骤3：根据公式(4)计算当前子树的权重。

步骤4：根据公式(5)、(6)分别计算当前森林在训练样本集T和测试样本集S上的预测类概率矩阵。

步骤5：基于各个森林的预测类概率矩阵，根据公式(7)，(8)分别计算当前级联森林在训练样本集T和测试样本集S上的预测类概率矩阵P。

步骤6：若评估需继续扩展下一级，则将当前级联森林的预测类概率矩阵P拼接到原始特征空间，形成新的训练样本集T^*和测试样本集S^*，返回步骤1继续执行。

步骤7：若评估无需继续扩展下一级，则在已扩展的级中找出在训练样本集上预测准确率最高值所对应的级，将该级在测试样本集上的预测结果向量和预测准确率作为整个加权深度森林的预测结果。

通过在高维和低维数据集上分别对深度森林(DF)和本发明的加权的深度森林(WDF)进行比较，得到实验结果及分析如下。实验平台配置如下：160G内存、24核CPU、64位Ubuntu16.04操作系统、Anaconda2(python2.7)、类库包括Numpy、Scikit-learn、Tensorflow等。

为了公平比较，这里采用与文献1一致的实验参数即每个森林包括500棵子树，随机森林每次随机选择的特征数是(d表示特征总数)；在多粒度扫描结构中，随机森林和完全随机森林各一个，滑动窗口的大小分别取和在级联森林里，每级均包括4个随机森林和4个完全随机森林，采用3折交叉验证方式。

类似的，依然采用文献1中所使用的实验数据集；与原文相同，每个数据集的80％用于训练，20％用于验证。参与实验的高维数据集有：GTZAN、SEMG、MNIST以及IMDB；低维数据集有：ADULT、YEAST、和LETTER，其中，低维数据集无需进行多粒度扫描。

实验分别采用测试样本集上的准确率和扩展的级数作为评价指标。具体实验结果如表1所示。

表1实验结果

从表1可以看出，在低维数据集上，本发明预测准确率要略高于深度森林，但扩展级数多于深度森林；与此相反的是，在高维数据集上，无论准确率还是扩展级数，本发明都要优于深度森林。出现这一现象，主要有以下原因：

首先，低维数据集包含的特征数较少，造成了森林中训练得到的子树之间的差异较少。这样，每棵子树的预测准确率较为接近。从公式(4)可以看出，每棵子树的权重也较为接近。因此，性能提高有限。此外，由于权重的扰动，会延缓级联森林部分的收敛速度。

其次，高维数据集往往包含较多的特征数，再经过多粒度扫描处理后，非常有利于增加后续级联森林中训练所得子树之间的差异。由于每棵子树的预测准确率波动较大，最终导致差异较大的权重分布。这时，加权的优势将得到充分体现。因此，无论在准确率还是扩展级数都有显著提高。

最后，在使用深度森林处理高维数据集时，加权的方法是一种有效的方法。即使在低维数据集上，加权的方法也获得了可比的性能。

本发明基于加权的深度森林的机器学习方法可以利用权重值修正森林的类概率矩阵，将修正的概率矩阵作为下一级的输入，使下一级森林在训练过程中不断优化并提高其预测精度，在一定程度上，不仅提高最终预测精度，还可以减少扩展级数。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于加权的深度森林的机器学习方法，其中深度森林包括多粒度扫描与级联森林；所述多粒度扫描可通过获取多个特征子集产生相应类向量，所述类向量被拼接到原始的样本的特征空间里，作为后面级联森林的输入特征；所述级联森林用以实现表征学习，其包括随机森林和完全随机树森林，森林之间通过层级方式形成级联结构；其特征在于：通过计算每一级森林中每棵子树的预测精度的相应权重，再对各个子树的预测概率向量进行加权求和，从而找出整个森林的预测结果。

2.根据权利要求1所述的基于加权的深度森林的机器学习方法，其特征在于：该方法包括输入训练样本集及测试样本集，执行以下步骤：

步骤3：计算当前子树的权重；

3.根据权利要求2所述的基于加权的深度森林的机器学习方法，其特征在于：在所述步骤2中，子树的预测准确率通过以下方法获得：

步骤2-1：获得在训练样本集上子树预测的类概率矩阵：

步骤2-2：获得子树对训练样本集的预测结果向量：

步骤2-3：获得子树对训练样本集的预测准确率：

a_k＝Acc(Predict(T_k,T),Y(T))，

4.根据权利要求3所述的基于加权的深度森林的机器学习方法，其特征在于：在所述步骤3中，第k棵子树的权重通过以下公式计算：

W_k∝log₂(a_k/(1-a_k))。

5.根据权利要求4所述的基于加权的深度森林的机器学习方法，其特征在于：在所述步骤4中，当前森林在训练样本集和测试样本集上的预测类概率矩阵分别通过以下方式计算:

6.根据权利要求5所述的基于加权的深度森林的机器学习方法，其特征在于：在所述步骤5中，若当前级联森林中包含h个森林，那么第e级森林组合C_e在训练样本集T和测试样本集S上预测的类概率矩阵可分别由以下公式计算：

7.根据权利要求6所述的基于加权的深度森林的机器学习方法，其特征在于：第e级森林组合C_e在训练样本集T和测试样本集S上预测的类概率矩阵可改写成行向量组的形式，可分别得到第e级森林组合C_e对训练样本集T和测试样本集S的预测结果向量，分别如下：

8.根据权利要求7所述的基于加权的深度森林的机器学习方法，其特征在于：第e级森林组合分别在训练样本集T和测试样本集S上的预测准确率A_et和A_es可由以下公式分别计算:

A_et＝Acc(Predict(C_e,T),Y(T))

A_es＝Acc(Predict(C_e,S),Y(S)),