CN111414961A

CN111414961A - 一种基于任务并行的细粒度分布式深度森林训练方法

Info

Publication number: CN111414961A
Application number: CN202010193428.8A
Authority: CN
Inventors: 朱光辉
Original assignee: Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Current assignee: Jiangsu Hongcheng Big Data Technology And Application Research Institute Co ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-14

Abstract

本发明公开了一种基于任务并行的细粒度分布式深度森林训练方法，包括以下步骤：(a)在深度森林的每一层，其中每一个森林被拆分成多个均匀的子森林，其中每个子森林对应一个计算任务；(b)为子森林设置合适的随机状态，为子森林训练时的交叉验证设置合适的随机状态；(c)将子森林训练任务发放到各个计算节点执行；(d)采用Tree‑Reduce树形合并法将属于同一个随机森林的子森林的结果合并，得到该原始随机森林的训练结果，完成多个森林的并行训练。以提高深度森林训练效率，促进其应用与解决实际问题。

Description

一种基于任务并行的细粒度分布式深度森林训练方法

技术领域

本发明涉及分布式机器学习领域，尤其涉及一种基于任务并行的细粒度分布式深度森林训练算法。

背景技术

针对深度神经网络(DNN)需要大量数据样本和昂贵计算资源、超参数调优难以及不适合处理有结构数据等问题，许多研究人员开始探索DNN的替代方案。周志华等提出了深度森林，这为许多机器学习任务开辟了一扇新的大门。深度森林是随机森林的深度集成模型，具有一个级联森林结构，以进行表示学习。与DNN相比，深度森林可以自适应地确定的模型复杂度(例如，级联层的层数)。此外，深度森林在大范围的任务中实现了相比DNN更加优异的精度结果。

在许多任务中，深度森林是DNN的理想的替代品。然而，现有的深度森林训练系统gcForest效率不高。原因有两点，首先，gcForest深度森林的训练过程是串行的。在每个级联层中，森林是顺序地进行训练的。其次，gcForest是一个缺乏可扩展性的单机系统，效率不高。举例来说，在具有2个Intel Xeon 2.1GHz CPU(12个物理核)的商用PC上，gcForest在MNIST数据集上训练一个深度森林需要近10个小时。对于CIFAR10数据集，训练时间甚至超过了一天。

gcForest的低效率会在一定程度上阻碍深度森林的实际应用。与此同时，越来越多的研究人员也意识到，计算效率、计算性能以及底层高性能计算系统在机器学习算法的实际应用中起着至关重要的作用。因此，迫切需要研究一种高效的深度森林系统，来帮助深度森林算法更快速地研究和应用。

发明内容

本发明要解决的技术问题是提供一种基于任务并行的细粒度分布式深度森林训练算法，以提高深度森林训练效率，促进其应用与解决实际问题。

为了解决上述技术问题，本发明的技术方案为：

一种基于任务并行的细粒度分布式深度森林训练方法，包括以下步骤：

(a)在深度森林的每一层，其中每一个森林被拆分成多个均匀的子森林，其中每个子森林对应一个计算任务；

(b)为子森林设置合适的随机状态，为子森林训练时的交叉验证设置合适的随机状态；

(c)将子森林训练任务发放到各个计算节点执行；

(d)采用Tree-Reduce树(树形规约树)分层树形合并法将属于同一个随机森林的子森林的结果合并，得到该原始随机森林的训练结果，完成多个森林的并行训练。

进一步地，在步骤(a)中子森林拆分方法产生的级联层输出类向量与非拆分的方法产生的级联层输出类向量一致。

进一步地，在步骤(a)中将子森林训练任务随机和独立地发送到集群中的各个计算节点执行。

进一步地，在步骤(d)中还包括以下步骤：

(d1)子森林的结果首先发送给底层工作节点；

(d2)本地合并结果后进一步发送给上层工作节点；

(d3)最后，由主节点对所有合并后的完整森林的结果进行合并。

采用上述技术方案，使得本发明所述基于任务并行的细粒度分布式深度森林训练方法能够将深度森林训练效率在大范围的数据集上提升平均一个数量级。

附图说明

图1为本发明的基于任务并行的细粒度分布式深度森林训练方法的总体流程示意图；

图2为本发明的基于任务并行的细粒度分布式深度森林训练方法的拆分过程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出一种基于任务并行的细粒度分布式深度森林训练算法，解决了现有方法无法并行执行、效率低和扩展性差的问题。本发明算法主要包括以下4个步骤：

(1)在深度森林的每一层，每一个森林被拆分成多个均匀的子森林。每个子森林对应一个计算任务。

(2)为子森林设置合适的随机状态，为子森林训练时的交叉验证设置合适的随机状态。

(3)将子森林训练任务发放到各个计算节点执行。

(4)采用Tree-Reduce树形合并法将属于同一个随机森林的子森林的结果合并，得到该原始随机森林的训练结果。

下面以图1中所示的两个森林为例，说明本发明的具体的实施方式。结合本例，本发明的具体的实施方式为：

发明内容里的步骤(1)的具体实施方式为：将森林A,B分别均匀拆分为4个子森林，即sub-forest(子森林)A1-A4，sub-forest B1-B4。

发明内容里的技术方案步骤(2)的具体实施方式为：以图2为例，假设有一个5棵的森林f。采用均匀拆分方法，分别将森林分为具有2，2,1棵树的F₁，F₂，F₃三个子森林。令f的随机状态为s₀，则f中每棵树的随机状态为s_i(1≤i≤5)，这是按顺序生成的。

这种情况下，本发明中的算法显式地设置F₁的初始随机状态为s₀，F₂的初始随机状态为s₂，F₃的初始随机状态为s₃。这样，子森林拆分后各树的随机状态与非拆分方法将完全相同，从而F₁，F₂，F₃可以并行训练；并且，将各子森林的训练结果合并成的最终结果，与原森林f产生的结果完全相同。

发明内容中所述的步骤(3)的具体实施方式为：将子森林训练任务随机、独立地发送到集群中计算节点执行。

发明内容中所述的技术方案的步骤(4)的具体实施方式为：将结果合并任务当做一个可远程并发执行的任务，通过运行多个结果合并任务，首先将每个子森林的4个result(输出结果)合并为每个森林2个result，然后再合并为每个森林1个result，即为最终原始随机森林的result。

发明内容中所述步骤(5)的具体实施方式为：将合并后的Result A和Result B收集到master端，即可得到两个森林A,B的训练结果。也就完成了两个森林的并行训练。

为测试该方法的实际性能，在相同的软件、硬件平台上，采用ADULT、YEAST、LETTER、IMDB、sEMG、MINIST、CIFAR10作为测试数据集，测量了本发明提出的技术方法对数据集进行分布式深度森林训练的执行时间。作为比较，同时测量了现有单机训练算法gcForest的执行时间。表1展示了实际测量的结果，在同样的软件、硬件平台上，本发明所述的技术方案比单纯的全量计算或基于过滤的技术方法的执行时间短。从下表1中可以看出，一方面，即使在单机模式下(仅使用一个计算节点)，本发明方法的性能也优于gcForest。其主要原因是gcForest深度森林训练过程是串行的。在每个级联层中，所有森林都是逐个训练的。相比之下，本发明方法首先将每个森林分成一系列子森林，然后同时训练所有的子森林。因此，本发明方法比gcForest更高效。此外，随着计算节点数量的增加，性能的提升变得更加显著。另一方面，对于所有测试数据集数据集，本发明方法的运行速度要比gcForest快一个数量级。。

表1 gcForest与本发明方法的性能

根据上述的算法核心是拆分-合并(Split-Merge)过程。算法首先将每个级联层的森林拆分成多个均匀的子森林，然后并行地执行所有子森林训练任务。最后，算法将各个子森林的训练结果(即类概率向量)进行合并，得到该级联层所有森林的最终类概率向量。

为了提高计算并行度，同时降低通信开销，算法首先将每一级联层的森林拆分为子森林。在森林的拆分过程中，有两个基本工作原理：

(1)原理1：子森林拆分方法产生的级联层输出类向量应与非拆分的方法产生的级联层输出类向量一致，以保证结果的一致性。

(2)原理2：子森林拆分方法应尽可能地减少期望的训练时间。

具体地，首先提出了一种确定性的随机状态生成方法，以确保结果的一致性。其次，基于加权的“球盒问题”的启发，提出了一种均匀拆分机制，以最小化期望的训练时间。

在本发明设计的算法中，每个子森林都是独立训练的。子森林的训练过程与整个森林的训练过程相似。子森林中每棵树的输入都是原始输入的自主采样(Bootstrap)后的样本。对于随机森林拆分后的子森林来说，算法仍选择

个特征作为决策树节点分裂的候选特征(K为输入特征数)，然后算法从中选择gini系数最佳的特征进行分割。类似的，对于完全随机森林拆分后的子森林，算法为每棵决策树的每个节点随机选择一个特征作为分裂特征。

注意到，随机森林中每棵树的训练结果都是由森林的初始随机状态决定的。众所周知，计算机系统中的随机状态是伪随机值，伪随机值是由计算机系统中的确定性算法产生的。在初始随机种子一致的情况下，计算机可以生成唯一确定的随机数序列。因此，为了保证拆分方法和非拆分方法具有一致的训练结果，本发明设计的算法将为每一个子森林以显式的方式设置特定的随机状态。

具体地，对“加权球盒问题”进行形式化描述。假设有m个小球和n个箱子，球i(i∈{1，...，m})的权重为w_i。令w＝(w₁，...，w_n)为球的权重向量，

为所有球的总权重。令a为分配函数，a(i)代表球i分配的标号。箱子的载荷

是分配到该箱的球的权重之和。其中一种分配方案可以表示为一个载荷向量L(w)＝(l₁(w)，...，l_n(w))。将箱子载荷由从大到小排序，使得l₁≥l₂≥…≥l_n。然后令

为具有最高载荷的k个箱子的总载荷。

基于以下定理：如果

则有

对于子森林拆分问题来说，E[S_k(w)]代表负载最大的k个计算节点的期望总资源负载。如前所述，每一个级联层的完成时间取决于最慢的节点的训练完成时间，所以，E[S_k(w)]越小，代表负载越均衡，级联层的期望训练完成时间越短。同时，

意味着wmajorises w′，换句话说，w′比w更均衡，也即小球的权重更加均衡。

很明显，均匀的权重向量被其他所有权重向量所majorise。因此，可以得出，当小球的权重均等时，能够获得箱子的期望最小载荷。类似的，对于子森林拆分问题来说，划分均匀的子森林(例如，相同的决策树数量)能够最小化节点期望最大负载，从而最小化每个级联层的期望训练完成时间。

因此，根据上述定理，本发明设计的算法将森林拆分成均匀大小的子森林。令g表示拆分粒度，代表每个子森林的决策树数量。假设拆分粒度g为250，一个500棵树组成的森林将被分成2个子森林，每个子森林包含250棵树。

在子森林拆分之后，需要合并每个子森林产生的中间结果。对于具有t棵树的子森林，每个样本的输出是

其中c_i是由子森林中的第i棵树产生的类向量。如果原始森林含有T棵树并且被分成K个子森林。合并之后，最终的类向量如下：

其中t_k表示第k个子森林中的决策树数量

一种容易想到的合并策略是计算工作节点(Worker)直接将结果发送给主节点(Master)，然后主节点合并所有中间结果。这种策略的优点是简单，不容易出错。但是，当中间结果的数量变大时，主节点可能成为性能瓶颈。

为了解决潜在的瓶颈问题，本发明采用分层树形规约合并法。在此方法中，中间结果以分层聚合的形式，自下而上进行从叶子节点到根节点的树型聚合。具体来说，本发明将合并操作也封装为一个可远程执行的计算任务。子森林的结果首先发送给底层工作节点(Bottom Workers)。本地合并结果进一步发送给上层工作节点(Upper Workers)。最后，由主节点对所有合并后的完整森林的结果进行合并。

综合上述的算法，本发明提供了一种基于任务并行的细粒度分布式深度森林训练方法，包括以下步骤：

(c)将子森林训练任务发放到各个计算节点执行；

(d)采用Tree-Reduce分层树形合并法将属于同一个随机森林的子森林的结果合并，得到该原始随机森林的训练结果，完成多个森林的并行训练。

进一步地，在步骤(d)中还包括以下步骤：

(d1)子森林的结果首先发送给底层工作节点；

(d2)本地合并结果后进一步发送给上层工作节点；

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于任务并行的细粒度分布式深度森林训练方法，其特征在于，包括以下步骤：

(c)将子森林训练任务发放到各个计算节点执行；

(d)采用基于树形规约树的分层树形合并法将属于同一个随机森林的子森林的结果合并，得到该原始随机森林的训练结果，完成多个森林的并行训练。

2.根据权利要求1所述的基于任务并行的细粒度分布式深度森林训练方法，其特征在于，在步骤(a)中子森林拆分方法产生的级联层输出类向量与非拆分的方法产生的级联层输出类向量一致。

3.根据权利要求1所述的基于任务并行的细粒度分布式深度森林训练方法，其特征在于，在步骤(a)中将子森林训练任务随机和独立地发送到集群中的各个计算节点执行。

4.根据权利要求1所述的基于任务并行的细粒度分布式深度森林训练方法，其特征在于，在步骤(d)中还包括以下步骤：

(d1)子森林的结果首先发送给底层工作节点；

(d2)本地合并结果后进一步发送给上层工作节点；