CN113688891A - 一种可自适应划分子森林的分布式级联森林方法 - Google Patents
一种可自适应划分子森林的分布式级联森林方法 Download PDFInfo
- Publication number
- CN113688891A CN113688891A CN202110940700.9A CN202110940700A CN113688891A CN 113688891 A CN113688891 A CN 113688891A CN 202110940700 A CN202110940700 A CN 202110940700A CN 113688891 A CN113688891 A CN 113688891A
- Authority
- CN
- China
- Prior art keywords
- forest
- sub
- forests
- cascade
- distributed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种可自适应划分子森林的分布式级联森林方法,其特点是采用分布式级联森林的方法,使每次子森林进行并行计算时都能得到最大的并行资源,以达到子森林自适应划分的目的,具体包括:分布式级联森林和子森林自适应划分两个部分,所述分布式级联森林通过对树组成的森林来集成并前后串联达到表征学习的效果;所述子森林自适应划分通过对高维输入数据的多粒度扫描进行加强,串联的层数也可以通过自适应的决定。本发明与现有技术相比具有保证每次子森林进行并行计算时都能得到最大的并行资源,同时减少了采样的特征实例,降低了传输特征的资源消耗,有效地提高了分布式深度森林地并行度,较好的解决了森林粒度划分问题。
Description
技术领域
本发明涉及分布式机器学习技术领域,具体地说是一种高性能可自适应划分子森林的分布式级联森林方法。
背景技术
深度学习和大数据处理是人工智能领域的一大热门,现有的大部分深度学习技术是通过神经网络模型来实现的,而深度森林是基于树的集成方法,其具有比深度神经网络少得多的超参数,并且其模型复杂性以数据相关的方式自动确定。深度森林计算开销小、模型效果好,超参数少,模型对超参数调节不敏感,相对于其他神经网络模型,更容易进行理论分析,可以适应于不同大小的数据集,模型复杂度可自适应伸缩。深度森林已成为深度学习中的一个研究热点,但是从计算架构来看,任务的规模很大程度上限制了深度森林的表现,任务过大会导致内存很快耗光。
深度森林的一个未来研究方向就是研究如何调动更多计算资源,更好利用其自身的高并行性的特点,做任务级的并行。目前已有了一种分布式深度森林方法ForestLayer,该方法在各项数据集上的训练效率比原生的深度森林快7X-20X倍。它的主要思想是将随机森林按照一定粒度划分为多个子森林,每个子森林作为并行计算的一个任务。但是子森林划分的粒度对算法效率有着很大的影响,难以保证最佳的粒度划分,划分的粒度越细,训练效率会先增后降,存在无法自适应划分子森林个数的问题。
因此,如何进一步的提高深度森林的分布式计算效率,并且有效地解决子森林粒度划分问题是相关领域的一个重点任务。研究一种高性能地可自适应划分子森林的分布式深度森林方法,同时将其应用到复杂的大数据分布式环境,为深度森林在大数据情况下提供一种新颖的分布式计算方法。
发明内容:
本发明的目的是针对现有技术的不足而提供的一种可自适应划分子森林的分布式级联森林方法,采用分布式级联森林和子森林自适应划分的深度森林方法,通过对树组成的森林来集成并前后串联起来达到表征学习的效果,以更贴合分布式的方式来减少传输的实例,同时能解决子森林自适应划分粒度的问题,并基于Spark分布式框架进行仿真,进一步提升深度森林分布式训练的效率,表征学习能力可以通过对高维输入数据的多粒度扫描而进行加强,串联的层数也可以通过自适应的决定,有效地提高了分布式深度森林地并行度,较好的解决了森林粒度划分问题,保证每次子森林进行并行计算时都能得到最大的并行资源,同时减少了采样的特征实例,降低了传输特征的资源消耗,在多节点大数据集下速率提升了1.2~1.5倍,能显著提高用户的体验质量,为相关领域的技术提供技术支撑。
本发明的目的是这样实现的:一种可自适应划分子森林的分布式级联森林方法,其特点是采用深度森林算法,通过对树组成的森林来集成并前后串联起来达到表征学习的效果,该表征学习能力可以通过对高维输入数据的多粒度扫描而进行加强,串联的层数也可以通过自适应的决定,它主要分为多粒度扫描和级联森林两大模块。
所述多粒度扫描对原始特征进行多个滑动窗口扫描,生成不同维度的特征实例,将生成的实例数据放入两个随机森林中进行训练,计算出一个类向量,然后再将生成的特征实例和计算的类向量进行聚合,得到最终的特征向量,该特征向量将作为级联森林的输入数据。
所述级联森林由多个级联森林层组成,级联森林层又由多个随机森林组成,通过多个随机森林学习多粒度扫描产生的特征向量后,得到新的特征向量,并将新的特征向量作为下一个级联森林层的输入向量。为了降低过度拟合的风险,每个森林产生的类向量通过K折交叉验证生成。在扩展到新的层级之后,需要在验证集上估计整个级联的性能,并且如果没有显着的性能增益,则训练过程将终止。
本发明主要包括分布式级联森林和子森林自适应划分两个部分,所述分布式级联森具体包括以下步骤:
1-1:设级联森林表示为F={f1…fs},级联森林F由s个随机森林f组成,总共包含l颗决策树。每个随机森林f表示为f={u1…ur},其中随机森林f由r个子森林u 构成,子森林ur包含了q个决策树,则
1-2:对于第t层级联森林Ft,将大小为n特征空间X并行地无放回的采样s次,生成s个子样本集Xr,其大小为b,b<<n,且b=ny,y∈[0.5,1],并分布式地传给级联森林F中的各个随机森林f。
1-3:随机森林f轮询的自适应划分子森林ur,ur对子样本集Xr进行bootstrap(有放回的随机采样)获得大小为n的样本集Xb。
1-4:在每一个轮次中,子森林ur的q个决策树并行的处理样本集Xb,得到子森林 ur的统计结果为ξ(ur)。
所述子森林ur自适应划分具体包括以下步骤:
2-1:第一层级联森林F1初始化分次数为r,轮询划分子森林ur,计算每轮bootstrap后子森林ur的统计值ξ(ur)并持续更新类向量Vs。
2-2:当类向量Vs收敛后,其收敛判断标准为第k轮的平均类向量,相比前w轮平均类向量Vavg的误差精度都小于σ时,则停止划分子森林ur并记录划分次数r′=k。
2-4:对于下一层级联森林Ft+1,同样地进行步骤2-1~2-3步骤的操作,则可达到自适应划分的目的。
本发明与现有技术相比具有以下优点和显著的技术效果:
1)有效地提高了分布式深度森林地并行度,针对级联森林中的一个森林来说,现有的分布式深度森林方法ForestLayer的并行度为O(r),而此方法的并行度O(T/r);r为子森林个数,T为森林中所有树的个数。只要保证r2<T则并行效率大于ForestLayer。
2)提供了自适应划分子森林的判别算法,解决森林粒度划分问题,保证每次子森林进行并行计算时都能得到最大的并行资源,同时减少了采样的特征实例,降低了传输特征的资源消耗;
3)在多节点大数据集下速率提升了约1.2~1.5倍。
附图说明
图1为本发明流程图;
图2为分布式级联森林的算法流程图;
图3为子森林并行计算流程图;
图4为自适应子森林划分的判断算法流程图。
具体实施方式
下面以具体实施对本发明作进一步详细描述和说明:
实施例1
参阅图1,本发明中的分布式级联森林步骤如下:
1、搭建多节点的Spark高可用集群,采用主从模式在分布式机器上部署,其部署的集群规模为N节点,一个主节点,N-1个从节点。对原始特征Z进行多粒度扫描,生成新的特征空间X={x1…xn},包含n个特征实例,X将作为级联森林的输入数据。
参阅图2,设级联森林表示为F={f1…fs},级联森林F由s个随机森林f组成,总共包含l颗决策树。每个随机森林f表示为f={u1…ur},其中:随机森林f由r个子森林u构成,子森林ur包含了q个决策树,则
2、对于第t层级联森林Ft,将大小为n特征空间X并行地无放回的采样s次,生成s个子样本集Xr,其大小为b,b<<n,并分布式地传给级联森林F中的各个随机森林f。整个级联森林F的输入的特征空间大小为b×s,其中b=ny,y∈[0.5,1],如果样本总数n=1,000,000,每一次BLB二次抽样和重抽样需要最多3981个独立样本,将大幅度减传输的实例样本空间。
参阅图3,所述随机森林f轮询的自适应划分子森林ur,其划分过程见下述步骤3,ur对子样本集Xr进行bootstrap(有放回的随机采样)获得大小为n的样本集Xb。在每一个轮次中,子森林ur的q个决策树并行的处理样本集Xb,得到子森林ur的统计结果为ξ(ur),其次将每轮的子森林ur统计结果ξ(ur)进行聚合,得到整个森林f的统计算结果为
参阅图4,子森林自适应划分步骤如下:
1)初始化一个超参数r,作为第一层级联森林F1初始化分次数,然后轮询划分子森林ur,计算每轮bootstrap后子森林ur的统计值ξ(ur)并持续更新类向量Vs。
2)设定超参数w和σ,w为类向量收敛判断的比较次数,σ为每轮类向量的误差阈值。当第k轮的平均类向量,相比前w轮平均类向量Vs的误差精度都小于σ时,则停止划分子森林ur并记录划分次数r′=k。若达到r次依然没有收敛同样停止划分,那么r′=r;对于一个级联森林F,s个森林f会有s个r′,进行取平均得到 R是下一层的子森林u划分次数的最大值。
3)对于下一层级联森林Ft+1,同样地重复上述步骤的操作,则可达到自适应划分的目的。
5)对于下一层级联森林Ft+1,它的输入数据为上一层Ft的统计结果ξ(Ft)聚合上特征空间X,并重复2)~3)步骤。每层级联森林的结果扩展到下一层之后,需要在验证集上估计整个级联的性能,并且如果没有显着的性能增益,则训练过程将终止。
以上所述仅为本发明的具体实施例,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种可自适应划分子森林的分布式级联森林方法,其特征在于采用分布式级联森林的方法,使每次子森林进行并行计算时都能得到最大的并行资源,以达到子森林自适应划分的目的,所述分布式级联森具体包括以下步骤:
1-2:对于第t层级联森林Ft,将大小为n特征空间X并行地无放回的采样s次,生成s个子样本集Xr,其大小为b,b<<n,并分布式地传给级联森林F中的各个随机森林f;
1-3:随机森林f轮询的自适应划分子森林ur,并将子森林ur对子样本集Xr进行有放回的随机采样,获得大小为n的样本集Xb;
1-4:在每一个轮次中,子森林ur的q个决策树并行的处理样本集Xb,得到子森林ur的统计值ξ(ur);
2.根据权利要求1所述可自适应划分子森林的分布式级联森林方法,其特征在于所述自适应划分子森林ur具体包括以下步骤:
2-1:第一层级联森林F1初始化分次数为r,轮询划分子森林ur,计算每轮有放回的随机采样后子森林ur的统计值ξ(ur),并持续更新类向量Vs;
2-2:当类向量Vs收敛后,其收敛判断标准为第k轮的平均类向量,相比前w轮平均类向量Vavg的误差精度都小于σ时,则停止划分子森林ur,并记录划分次数r′=k;
2-4:对于下一层级联森林Ft+1,同样地进行步骤2-1~2-3的操作,则可达到自适应划分的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110940700.9A CN113688891B (zh) | 2021-08-17 | 2021-08-17 | 一种可自适应划分子森林的分布式级联森林方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110940700.9A CN113688891B (zh) | 2021-08-17 | 2021-08-17 | 一种可自适应划分子森林的分布式级联森林方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688891A true CN113688891A (zh) | 2021-11-23 |
CN113688891B CN113688891B (zh) | 2023-09-29 |
Family
ID=78580136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110940700.9A Active CN113688891B (zh) | 2021-08-17 | 2021-08-17 | 一种可自适应划分子森林的分布式级联森林方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688891B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241987A (zh) * | 2018-06-29 | 2019-01-18 | 南京邮电大学 | 基于加权的深度森林的机器学习方法 |
CN109948726A (zh) * | 2019-03-28 | 2019-06-28 | 湘潭大学 | 一种基于深度森林的电能质量扰动分类方法 |
CN110490043A (zh) * | 2019-06-10 | 2019-11-22 | 东南大学 | 一种基于区域划分和特征提取的森林烟火检测方法 |
CN111414961A (zh) * | 2020-03-18 | 2020-07-14 | 江苏鸿程大数据技术与应用研究院有限公司 | 一种基于任务并行的细粒度分布式深度森林训练方法 |
US20200293906A1 (en) * | 2019-03-12 | 2020-09-17 | International Business Machines Corporation | Deep forest model development and training |
CN111931953A (zh) * | 2020-07-07 | 2020-11-13 | 北京工业大学 | 一种废旧手机多尺度特征深度森林识别方法 |
-
2021
- 2021-08-17 CN CN202110940700.9A patent/CN113688891B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241987A (zh) * | 2018-06-29 | 2019-01-18 | 南京邮电大学 | 基于加权的深度森林的机器学习方法 |
US20200293906A1 (en) * | 2019-03-12 | 2020-09-17 | International Business Machines Corporation | Deep forest model development and training |
CN109948726A (zh) * | 2019-03-28 | 2019-06-28 | 湘潭大学 | 一种基于深度森林的电能质量扰动分类方法 |
CN110490043A (zh) * | 2019-06-10 | 2019-11-22 | 东南大学 | 一种基于区域划分和特征提取的森林烟火检测方法 |
CN111414961A (zh) * | 2020-03-18 | 2020-07-14 | 江苏鸿程大数据技术与应用研究院有限公司 | 一种基于任务并行的细粒度分布式深度森林训练方法 |
CN111931953A (zh) * | 2020-07-07 | 2020-11-13 | 北京工业大学 | 一种废旧手机多尺度特征深度森林识别方法 |
Non-Patent Citations (1)
Title |
---|
翁理国;刘万安;施必成;夏旻;: "基于多维多粒度级联森林的高原地区云雪分类", 计算机应用, no. 08 * |
Also Published As
Publication number | Publication date |
---|---|
CN113688891B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711483B (zh) | 一种基于Sparse Autoencoder的电力系统运行方式聚类方法 | |
WO2021042857A1 (zh) | 图像分割模型的处理方法和处理装置 | |
CN113590321B (zh) | 面向异构分布式机器学习集群的任务配置方法 | |
CN110110852B (zh) | 一种深度学习网络移植到fpag平台的方法 | |
US20220101133A1 (en) | Dynamic quantization for energy efficient deep learning | |
CN112884149A (zh) | 一种基于随机敏感度st-sm的深度神经网络剪枝方法及系统 | |
CN111144500A (zh) | 基于解析高斯机制的差分隐私深度学习分类方法 | |
CN112686376A (zh) | 一种基于时序图神经网络的节点表示方法及增量学习方法 | |
CN114828095A (zh) | 一种基于任务卸载的高效数据感知分层联邦学习方法 | |
CN117272195A (zh) | 基于图卷积注意力网络的区块链异常节点检测方法及系统 | |
Zhao et al. | Communication-efficient federated learning for digital twin systems of industrial Internet of Things | |
CN113688891B (zh) | 一种可自适应划分子森林的分布式级联森林方法 | |
Azizi et al. | Sensitivity-Aware Mixed-Precision Quantization and Width Optimization of Deep Neural Networks Through Cluster-Based Tree-Structured Parzen Estimation | |
CN110288002A (zh) | 一种基于稀疏正交神经网络的图像分类方法 | |
Wang et al. | Depth learning standard deviation loss function | |
CN111340291B (zh) | 一种基于云计算技术的中长期电力负荷组合预测系统及方法 | |
Sarkar et al. | An incremental pruning strategy for fast training of CNN models | |
Pashentsev et al. | Applying big data and machine learning approach to identify noised data | |
CN113111308A (zh) | 基于数据驱动遗传编程算法的符号回归方法及系统 | |
Chen et al. | SMALE: Enhancing Scalability of Machine Learning Algorithms on Extreme-Scale Computing Platforms | |
Su et al. | Ship detection in navigation based on broad learning system | |
Gavande et al. | GRAPH NEURAL NETWORK LEARNING IN LARGE GRAPHS-A CRITICAL REVIEW. | |
Yang | Network Adaptive Node Acceleration Method based on Pruning Technology | |
Mishra et al. | Enhancing Edge Intelligence with Layer-wise Adaptive Precision and Randomized PCA | |
CN108833173A (zh) | 丰富结构信息的深度网络表征方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |