CN113688891B - 一种可自适应划分子森林的分布式级联森林方法 - Google Patents

一种可自适应划分子森林的分布式级联森林方法 Download PDF

Info

Publication number
CN113688891B
CN113688891B CN202110940700.9A CN202110940700A CN113688891B CN 113688891 B CN113688891 B CN 113688891B CN 202110940700 A CN202110940700 A CN 202110940700A CN 113688891 B CN113688891 B CN 113688891B
Authority
CN
China
Prior art keywords
forest
sub
forests
cascade
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110940700.9A
Other languages
English (en)
Other versions
CN113688891A (zh
Inventor
王廷
陈泽熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202110940700.9A priority Critical patent/CN113688891B/zh
Publication of CN113688891A publication Critical patent/CN113688891A/zh
Application granted granted Critical
Publication of CN113688891B publication Critical patent/CN113688891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种可自适应划分子森林的分布式级联森林方法,其特点是采用分布式级联森林的方法,使每次子森林进行并行计算时都能得到最大的并行资源,以达到子森林自适应划分的目的,具体包括:分布式级联森林和子森林自适应划分两个部分,所述分布式级联森林通过对树组成的森林来集成并前后串联达到表征学习的效果;所述子森林自适应划分通过对高维输入数据的多粒度扫描进行加强,串联的层数也可以通过自适应的决定。本发明与现有技术相比具有保证每次子森林进行并行计算时都能得到最大的并行资源,同时减少了采样的特征实例,降低了传输特征的资源消耗,有效地提高了分布式深度森林地并行度,较好的解决了森林粒度划分问题。

Description

一种可自适应划分子森林的分布式级联森林方法
技术领域
本发明涉及分布式机器学习技术领域,具体地说是一种高性能可自适应划分子森林的分布式级联森林方法。
背景技术
深度学习和大数据处理是人工智能领域的一大热门,现有的大部分深度学习技术是通过神经网络模型来实现的,而深度森林是基于树的集成方法,其具有比深度神经网络少得多的超参数,并且其模型复杂性以数据相关的方式自动确定。深度森林计算开销小、模型效果好,超参数少,模型对超参数调节不敏感,相对于其他神经网络模型,更容易进行理论分析,可以适应于不同大小的数据集,模型复杂度可自适应伸缩。深度森林已成为深度学习中的一个研究热点,但是从计算架构来看,任务的规模很大程度上限制了深度森林的表现,任务过大会导致内存很快耗光。
深度森林的一个未来研究方向就是研究如何调动更多计算资源,更好利用其自身的高并行性的特点,做任务级的并行。目前已有了一种分布式深度森林方法ForestLayer,该方法在各项数据集上的训练效率比原生的深度森林快7X-20X倍。它的主要思想是将随机森林按照一定粒度划分为多个子森林,每个子森林作为并行计算的一个任务。但是子森林划分的粒度对算法效率有着很大的影响,难以保证最佳的粒度划分,划分的粒度越细,训练效率会先增后降,存在无法自适应划分子森林个数的问题。
因此,如何进一步的提高深度森林的分布式计算效率,并且有效地解决子森林粒度划分问题是相关领域的一个重点任务。研究一种高性能地可自适应划分子森林的分布式深度森林方法,同时将其应用到复杂的大数据分布式环境,为深度森林在大数据情况下提供一种新颖的分布式计算方法。
发明内容:
本发明的目的是针对现有技术的不足而提供的一种可自适应划分子森林的分布式级联森林方法,采用分布式级联森林和子森林自适应划分的深度森林方法,通过对树组成的森林来集成并前后串联起来达到表征学习的效果,以更贴合分布式的方式来减少传输的实例,同时能解决子森林自适应划分粒度的问题,并基于Spark分布式框架进行仿真,进一步提升深度森林分布式训练的效率,表征学习能力可以通过对高维输入数据的多粒度扫描而进行加强,串联的层数也可以通过自适应的决定,有效地提高了分布式深度森林地并行度,较好的解决了森林粒度划分问题,保证每次子森林进行并行计算时都能得到最大的并行资源,同时减少了采样的特征实例,降低了传输特征的资源消耗,在多节点大数据集下速率提升了1.2~1.5倍,能显著提高用户的体验质量,为相关领域的技术提供技术支撑。
本发明的目的是这样实现的:一种可自适应划分子森林的分布式级联森林方法,其特点是采用深度森林算法,通过对树组成的森林来集成并前后串联起来达到表征学习的效果,该表征学习能力可以通过对高维输入数据的多粒度扫描而进行加强,串联的层数也可以通过自适应的决定,它主要分为多粒度扫描和级联森林两大模块。
所述多粒度扫描对原始特征进行多个滑动窗口扫描,生成不同维度的特征实例,将生成的实例数据放入两个随机森林中进行训练,计算出一个类向量,然后再将生成的特征实例和计算的类向量进行聚合,得到最终的特征向量,该特征向量将作为级联森林的输入数据。
所述级联森林由多个级联森林层组成,级联森林层又由多个随机森林组成,通过多个随机森林学习多粒度扫描产生的特征向量后,得到新的特征向量,并将新的特征向量作为下一个级联森林层的输入向量。为了降低过度拟合的风险,每个森林产生的类向量通过K折交叉验证生成。在扩展到新的层级之后,需要在验证集上估计整个级联的性能,并且如果没有显着的性能增益,则训练过程将终止。
本发明主要包括分布式级联森林和子森林自适应划分两个部分,所述分布式级联森具体包括以下步骤:
1-1:设级联森林表示为F={f1…fs},级联森林F由s个随机森林f组成,总共包含l颗决策树。每个随机森林f表示为f={u1…ur},其中随机森林f由r个子森林u 构成,子森林ur包含了q个决策树,则
1-2:对于第t层级联森林Ft,将大小为n特征空间X并行地无放回的采样s次,生成s个子样本集Xr,其大小为b,b<<n,且b=ny,y∈[0.5,1],并分布式地传给级联森林F中的各个随机森林f。
1-3:随机森林f轮询的自适应划分子森林ur,ur对子样本集Xr进行bootstrap(有放回的随机采样)获得大小为n的样本集Xb
1-4:在每一个轮次中,子森林ur的q个决策树并行的处理样本集Xb,得到子森林 ur的统计结果为ξ(ur)。
1-5:将每轮的子森林ur统计结果ξ(ur)进行聚合,得到整个森林f的统计结果为
1-6:将1-3~1-5步骤并行地在各个森林f中进行处理,最后合并ξ(f)得到级联森林Ft的统计结果为
所述子森林ur自适应划分具体包括以下步骤:
2-1:第一层级联森林F1初始化分次数为r,轮询划分子森林ur,计算每轮bootstrap后子森林ur的统计值ξ(ur)并持续更新类向量Vs。
2-2:当类向量Vs收敛后,其收敛判断标准为第k轮的平均类向量,相比前w轮平均类向量Vavg的误差精度都小于σ时,则停止划分子森林ur并记录划分次数r′=k。
2-3:若达到r次依然没有收敛同样停止划分,那么r′=r;对于一个级联森林F, s个森林f会有s个r′,进行取平均得到R是下一层的子森林ur划分次数的最大值。
2-4:对于下一层级联森林Ft+1,同样地进行步骤2-1~2-3步骤的操作,则可达到自适应划分的目的。
本发明与现有技术相比具有以下优点和显著的技术效果:
1)有效地提高了分布式深度森林地并行度,针对级联森林中的一个森林来说,现有的分布式深度森林方法ForestLayer的并行度为O(r),而此方法的并行度O(T/r);r为子森林个数,T为森林中所有树的个数。只要保证r2<T则并行效率大于ForestLayer。
2)提供了自适应划分子森林的判别算法,解决森林粒度划分问题,保证每次子森林进行并行计算时都能得到最大的并行资源,同时减少了采样的特征实例,降低了传输特征的资源消耗;
3)在多节点大数据集下速率提升了约1.2~1.5倍。
附图说明
图1为本发明流程图;
图2为分布式级联森林的算法流程图;
图3为子森林并行计算流程图;
图4为自适应子森林划分的判断算法流程图。
具体实施方式
下面以具体实施对本发明作进一步详细描述和说明:
实施例1
参阅图1,本发明中的分布式级联森林步骤如下:
1、搭建多节点的Spark高可用集群,采用主从模式在分布式机器上部署,其部署的集群规模为N节点,一个主节点,N-1个从节点。对原始特征Z进行多粒度扫描,生成新的特征空间X={x1…xn},包含n个特征实例,X将作为级联森林的输入数据。
参阅图2,设级联森林表示为F={f1…fs},级联森林F由s个随机森林f组成,总共包含l颗决策树。每个随机森林f表示为f={u1…ur},其中:随机森林f由r个子森林u构成,子森林ur包含了q个决策树,则
2、对于第t层级联森林Ft,将大小为n特征空间X并行地无放回的采样s次,生成s个子样本集Xr,其大小为b,b<<n,并分布式地传给级联森林F中的各个随机森林f。整个级联森林F的输入的特征空间大小为b×s,其中b=ny,y∈[0.5,1],如果样本总数n=1,000,000,每一次BLB二次抽样和重抽样需要最多3981个独立样本,将大幅度减传输的实例样本空间。
参阅图3,所述随机森林f轮询的自适应划分子森林ur,其划分过程见下述步骤3,ur对子样本集Xr进行bootstrap(有放回的随机采样)获得大小为n的样本集Xb。在每一个轮次中,子森林ur的q个决策树并行的处理样本集Xb,得到子森林ur的统计结果为ξ(ur),其次将每轮的子森林ur统计结果ξ(ur)进行聚合,得到整个森林f的统计算结果为
参阅图4,子森林自适应划分步骤如下:
1)初始化一个超参数r,作为第一层级联森林F1初始化分次数,然后轮询划分子森林ur,计算每轮bootstrap后子森林ur的统计值ξ(ur)并持续更新类向量Vs。
2)设定超参数w和σ,w为类向量收敛判断的比较次数,σ为每轮类向量的误差阈值。当第k轮的平均类向量,相比前w轮平均类向量Vs的误差精度都小于σ时,则停止划分子森林ur并记录划分次数r′=k。若达到r次依然没有收敛同样停止划分,那么r′=r;对于一个级联森林F,s个森林f会有s个r′,进行取平均得到 R是下一层的子森林u划分次数的最大值。
3)对于下一层级联森林Ft+1,同样地重复上述步骤的操作,则可达到自适应划分的目的。
4)将以上2)~3)步骤并行地在各个森林f中进行处理,最后合并ξ(f)得到级联森林Ft的统计结果为
5)对于下一层级联森林Ft+1,它的输入数据为上一层Ft的统计结果ξ(Ft)聚合上特征空间X,并重复2)~3)步骤。每层级联森林的结果扩展到下一层之后,需要在验证集上估计整个级联的性能,并且如果没有显着的性能增益,则训练过程将终止。
以上所述仅为本发明的具体实施例,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种可自适应划分子森林的分布式级联森林方法,其特征在于采用分布式级联森林的方法,使每次子森林进行并行计算时都能得到最大的并行资源,以达到子森林自适应划分的目的,所述分布式级联森具体包括以下步骤:
1-1:设级联森林F={f1…fs},所述级联森林F由s个随机森林f组成,总共包含l颗决策树,每个随机森林f={u1…ur},其中随机森林f由r个子森林u构成,子森林ur包含了q个决策树,则子森林
1-2:对于第t层级联森林Ft,将大小为n特征空间X并行地无放回的采样s次,生成s个子样本集Xr,其大小为b,b<<n,并分布式地传给级联森林F中的各个随机森林f;
1-3:随机森林f轮询的自适应划分子森林ur,并将子森林ur对子样本集Xr进行有放回的随机采样,获得大小为n的样本集Xb
1-4:在每一个轮次中,子森林ur的q个决策树并行的处理样本集Xb,得到子森林ur的统计值ξ(ur);
1-5:将每一轮的统计值ξ(ur)进行聚合,得到整个森林的统计值
1-6:将步骤1-3~1-5并行地在各个森林f中进行处理,最后合并ξ(f),得到级联森林Ft的统计结果为
2.根据权利要求1所述可自适应划分子森林的分布式级联森林方法,其特征在于所述自适应划分子森林ur具体包括以下步骤:
2-1:第一层级联森林F1初始化分次数为r,轮询划分子森林ur,计算每轮有放回的随机采样后子森林ur的统计值ξ(ur),并持续更新类向量Vs;
2-2:当类向量Vs收敛后,其收敛判断标准为第k轮的平均类向量,相比前w轮平均类向量Vavg的误差精度都小于σ时,则停止划分子森林ur,并记录划分次数r′=k;
2-3:若r次后依然没有收敛则停止划分,即r′=r,对于一个级联森林F,s个森林f会有s个r′,取平均得到其中:R为下一层的子森林ur划分次数的最大值;
2-4:对于下一层级联森林Ft+1,同样地进行步骤2-1~2-3的操作,则可达到自适应划分的目的。
CN202110940700.9A 2021-08-17 2021-08-17 一种可自适应划分子森林的分布式级联森林方法 Active CN113688891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110940700.9A CN113688891B (zh) 2021-08-17 2021-08-17 一种可自适应划分子森林的分布式级联森林方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110940700.9A CN113688891B (zh) 2021-08-17 2021-08-17 一种可自适应划分子森林的分布式级联森林方法

Publications (2)

Publication Number Publication Date
CN113688891A CN113688891A (zh) 2021-11-23
CN113688891B true CN113688891B (zh) 2023-09-29

Family

ID=78580136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110940700.9A Active CN113688891B (zh) 2021-08-17 2021-08-17 一种可自适应划分子森林的分布式级联森林方法

Country Status (1)

Country Link
CN (1) CN113688891B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241987A (zh) * 2018-06-29 2019-01-18 南京邮电大学 基于加权的深度森林的机器学习方法
CN109948726A (zh) * 2019-03-28 2019-06-28 湘潭大学 一种基于深度森林的电能质量扰动分类方法
CN110490043A (zh) * 2019-06-10 2019-11-22 东南大学 一种基于区域划分和特征提取的森林烟火检测方法
CN111414961A (zh) * 2020-03-18 2020-07-14 江苏鸿程大数据技术与应用研究院有限公司 一种基于任务并行的细粒度分布式深度森林训练方法
CN111931953A (zh) * 2020-07-07 2020-11-13 北京工业大学 一种废旧手机多尺度特征深度森林识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11893499B2 (en) * 2019-03-12 2024-02-06 International Business Machines Corporation Deep forest model development and training

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241987A (zh) * 2018-06-29 2019-01-18 南京邮电大学 基于加权的深度森林的机器学习方法
CN109948726A (zh) * 2019-03-28 2019-06-28 湘潭大学 一种基于深度森林的电能质量扰动分类方法
CN110490043A (zh) * 2019-06-10 2019-11-22 东南大学 一种基于区域划分和特征提取的森林烟火检测方法
CN111414961A (zh) * 2020-03-18 2020-07-14 江苏鸿程大数据技术与应用研究院有限公司 一种基于任务并行的细粒度分布式深度森林训练方法
CN111931953A (zh) * 2020-07-07 2020-11-13 北京工业大学 一种废旧手机多尺度特征深度森林识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多维多粒度级联森林的高原地区云雪分类;翁理国;刘万安;施必成;夏旻;;计算机应用(第08期);全文 *

Also Published As

Publication number Publication date
CN113688891A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
You et al. L2-gcn: Layer-wise and learned efficient training of graph convolutional networks
Tang et al. When do random forests fail?
CN112215353B (zh) 一种基于变分结构优化网络的通道剪枝方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN110826617A (zh) 态势要素分类方法及其模型的训练方法、装置及服务器
CN112884149A (zh) 一种基于随机敏感度st-sm的深度神经网络剪枝方法及系统
Chen et al. Distributed text feature selection based on bat algorithm optimization
Ma et al. A survey of sparse-learning methods for deep neural networks
CN113688891B (zh) 一种可自适应划分子森林的分布式级联森林方法
CN112686313A (zh) 基于信息论改进的并行深度森林分类方法
Zhou et al. AdaptCL: Efficient collaborative learning with dynamic and adaptive pruning
Zhao et al. Communication-efficient federated learning for digital twin systems of industrial Internet of Things
Zhang Forward-stagewise clustering: an algorithm for convex clustering
Cheng et al. Bandwidth reduction using importance weighted pruning on ring allreduce
CN114828095A (zh) 一种基于任务卸载的高效数据感知分层联邦学习方法
Cui et al. Weighted particle swarm clustering algorithm for self-organizing maps
Shu et al. Random Forest Algorithm based on GAN for imbalanced data classification
Sarkar et al. An incremental pruning strategy for fast training of CNN models
Su et al. Ship detection in navigation based on broad learning system
CN112926723A (zh) 基于Split LBI算法的自动网络增长方法
Shi et al. Research on Optimization Algorithm of auto-encoding neural network applied to rolling bearing fault diagnosis
Gavande et al. GRAPH NEURAL NETWORK LEARNING IN LARGE GRAPHS-A CRITICAL REVIEW.
Cao Dynamic Allocation Method of Economic Information Integrated Data Based on Deep Learning Algorithm
Wang A weighted K-means algorithm based on differential evolution
Tao et al. A compact neural architecture search for accelerating image classification models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant