CN106874959A

CN106874959A - 一种多尺度扫描级联森林学习机的训练方法

Info

Publication number: CN106874959A
Application number: CN201710117221.0A
Authority: CN
Inventors: 周志华; 冯霁
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-03-01
Filing date: 2017-03-01
Publication date: 2017-06-20

Abstract

本发明公开一种多尺度扫描级联森林学习机的训练方法，包括如下步骤：(1)通过级联扫描的方式，对训练集进行预处理。(2)将预处理后的数据，分别通过多组决策树集成下的随机森林进行训练，并获得每个样本的分类向量。(3)将前述方式获得的所有分类向量结合成一个单独的输入，进行级联训练。(4)将级联训练的最终结果进行集成平均，获得最终识别预测结果。本发明对高维时空数据进行扫描和预处理，使得该学习机可以感知输入数据的结构性，以达到精准识别的目的。

Description

一种多尺度扫描级联森林学习机的训练方法

技术领域

本发明涉及一种多尺度扫描级联森林学习机的训练方法，用于大规模数据下的人工智能与模式识别任务。

背景技术

近年来，深度神经网络技术在人工智能领域的语音，图像，文本识别方面取得了广泛成功，但存在几点不足：1)深度神经网络对训练数据的需求巨大，在中小规模数据上表现不佳。2)深度神经网络需要昂贵的并行计算芯片(诸如图形加速卡)，以完成运算。3)深度神经网络技术的超参数极其复杂，使用者需要耗费巨大的时间进行参数调整，以获得满意的性能表现。基于以上不足，本发明提出了一种以随机森林为基础的级联森林学习机的训练方法，在辅以多尺度扫描的独特处理技术下，该学习机一方面可以达到同深度神经网络相媲美的性能表现，另一方面，该装置几乎不需要对超参数进行人工调整，在中小数据下同样具有优异的表现，并且不需要额外的图形加速卡进行辅助运算。

发明内容

发明目的：针对深度神经网络在大规模数据下识别任务的不足，本发明提供一种多尺度扫描级联森林学习机的训练方法。基于随机森林学习器，通过一种级联的机制进行级联训练，以达到特征学习的目的，与此同时，针对时序数据和具有空间关联的数据，本发明提出了一种多尺度扫描的方法，对高维时空数据进行扫描和预处理，使得该学习机可以感知输入数据的结构性，以达到精准识别的目的。

技术方案：一种多尺度扫描级联森林学习机的训练方法，通过以下流程运作：

(1)通过级联扫描的方式，对训练集进行预处理。

(2)将预处理后的数据，分别通过多组决策树集成下的随机森林进行训练，并获得每个样本的分类向量。

(3)将前述方式获得的所有分类向量结合成一个单独的输入，进行级联训练。

(4)将级联训练的最终结果进行集成平均，获得最终识别预测结果。

附图说明

图1是本发明级联训练的流程图；

图2是本发明的细粒度扫描的流程图；

图3是本发明的训练流程图；

图4是本发明的使用流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种多尺度扫描级联森林学习机的目的是对输入数据进行分类，在获得已标记数据(训练集)的前提下，进行自动学习，并具备识别新数据的能力。

为了对输入数据进行识别分类任务，需要先对已标注好的数据集合(按照惯例，这里称作训练集)进行自动学习，训练完毕后，该装置即具备了识别新数据的能力。本说明书将分别介绍该装置的训练过程和使用过程。

I.多尺度扫描级联森林学习机的训练学习过程

该装置的训练过程由如下两个子方面构成：

1.级联训练(如图1)。该装置提出了一种新的级联训练过程，具体流程如下。首先，对训练输入数据，分别拟合N个基于决策树的集成森林(图示为4个)，这里N可以是任何正整数。训练完毕后，N个森林可以产生由d*N个元素的向量，其中d是训练集中的类别数目(图中d为3)。将这d*N个元素连同上一层输入一起，形成了(K+d*N)维的向量，这将是下一层级联训练的输入。为了防止过拟合，级连训练的层数L，将以k折交叉验证进行。

2.细粒度扫描训练。针对高维数据或时序/图像类数据，该装置提出了一种新的多尺度扫描的方式，具体过程如图2所示。给定一个输入数据，通过细粒度的扫描窗格对数据进行预处理，将会生成一组维度较低的，具有局部结构特征的数据，然后针对预处理后的数据，分别拟合数个以决策树为基础的集成器，并将预测类别向量的结果连接起来，作为级联学习的输入。(具体训练流程见图2)

基于此，多尺度扫描级联森林学习机的训练过程如图3所示。多尺度级联森林学习机结合了前述1，2两个步骤，将其统一为一个整体流程。具体如下：首先，对输入数据进行多尺度的细粒度扫描。不同的尺度w_i将有尺度集合W预先定义，每个扫描尺度所对应的森林数目为N。其次，将多尺度扫描的结果作为级联训练的输入，按照步骤1的方式进行级联训练，每次级联的集成森林数目为M。级连训练的层数L，由其在独立验证集上的性能表现进行自动确定。

训练完毕后，所有集成森林的参数及级联层数，将会作为训练过程的输出，供该装置进行预测识别任务(具体训练流程如图3)

II.多尺度扫描级联森林学习机的使用过程

多尺度扫描级联森林学习机在经历了前述训练过程后，即可投入使用，换言之，该装置即可对输入数据进行自动识别分类。具体使用过程如下(如图4)：

1.通过读取细粒度扫描窗口集合W，分别处理输入数据，并获得对应森林集成模型的分类向量，将其拼接为一个整体。

2.将前述步骤产生的结果，作为级联预测的输入，分别获得每级级联中M个森林的分类向量，并同步骤1中的结果进行拼接，作为下一级联的输入数据。该步骤重复L次，其中，L为级联层数。

将最后一层的级联森林输出进行平均，并选择最大预测作为输出。

Claims

1.一种多尺度扫描级联森林学习机的训练方法，其特征在于，包括如下步骤：

（1）通过级联扫描的方式，对训练集进行预处理；

（2）将预处理后的数据，分别通过多组决策树集成下的随机森林进行训练，并获得每个样本的分类向量；

（3）将前述方式获得的所有分类向量结合成一个单独的输入，进行级联训练；

（4）将级联训练的最终结果进行集成平均，获得最终识别预测结果。