CN105184368A

CN105184368A - 一种分布式极限学习机优化集成框架方法系统及方法

Info

Publication number: CN105184368A
Application number: CN201510562472.0A
Authority: CN
Inventors: 王书强; 卢哲; 申妍燕; 曾德威
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2015-09-07
Filing date: 2015-09-07
Publication date: 2015-12-23
Anticipated expiration: 2035-09-07
Also published as: CN105184368B

Abstract

本发明属于数据处理技术领域，尤其涉及一种分布式极限学习机优化集成框架的系统，包括数据分布存储模块、Stack-Autoencoder特征提取模块、分布式计算模块和结果输出模块；数据分布存储模块将数据进行分布式存储，并对ELM隐层进行分析和确定；Stack-Autoencoder特征提取模块对数据进行特征学习，获得压缩化的输入数据，并对输入数据进行归一化处理和特征提取；分布式计算模块根据输入数据进行映射和归约处理得到总体最优权值。本发明对大数据的模式分类更为精确，解决因单层ELM的节点过多造成的过拟合问题使高维矩阵的运算分块并行进行，计算效率得到提高；不用提前将数据读入内存，节省了内存资源。

Description

一种分布式极限学习机优化集成框架方法系统及方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种分布式极限学习机优化集成框架方法系统及方法。

背景技术

极限学习机(extremelearningmachine)ELM是一种简单易用、有效的单隐层前馈神经网络SLFNs学习算法。传统的神经网络学习算法(如BP算法)需要人为设置大量的网络训练参数，并且很容易产生局部最优解。极限学习机只需要设置网络的隐层节点个数，在算法执行过程中不需要调整网络的输入权值以及隐元的偏置，并且产生唯一的最优解，因此具有学习速度快且泛化性能好的优点。

极限学习机不同于传统前馈神经网络的训练学习，输入权重与隐层节点偏置无需基于梯度下降法迭代确定，而是根据训练数据与隐层节点的规模随机确定权值，以最小化代价函数为目标，即最小化目标输出与实际输出的误差，通过求矩阵Moore-Penrose广义逆等算法获得最优输出权值。

但是，目前的ELM算法不能支持对于大规模输入样本的学习，由此得到的特征对于样本刻画的不够清晰本质，不利于可视化或分类。针对Basic-ELM算法对处理大数据集产生的网络不稳定与过拟合，和基于支持大数据集处理的衍生ELM算法(如V-ELM，OS-ELM等)造成的训练集规模过大，训练时间过长的问题，需要提出一种将传统单隐层ELM算法推广到多层，实现复杂函数逼近，表征输入数据分布式表示，同时应用Map-Reduce分布式计算框架，既保证了较高的精度，又能使ELM算法的高效计算能力与良好的扩展性得到的体现。

发明内容

本发明提供了一种基于深度学习与极限学习机的优化集成系统及方法，旨在解决现有的Basic-ELM算法不能支持对于大规模输入样本的学习，并且由此得到的特征对于样本刻画的不够清晰本质，不利于可视化或分类，对处理大数据集产生的网络不稳定与过拟合，和基于支持大数据集处理的衍生ELM算法造成的训练集规模过大，训练时间过长的技术问题。

本发明是这样实现的，一种分布式极限学习机优化集成框架系统，包括数据分布存储模块、Stack-Autoencoder特征提取模块、分布式计算模块和结果输出模块；

所述数据分布存储模块用于读入训练数据，并根据数据的类型和规模确定隐层数和隐层节点数；同时根据隐层数将数据分割为多个训练子集，同时将分割的数据分布到不同的训练子集中进行存储；

所述Stack-Autoencoder特征提取模块用于对分布在各个训练子集的训练数据进行特征学习，获得各个训练子集压缩化的输入数据，并对输入数据进行归一化处理和特征提取；

所述分布式计算模块用于根据对各个训练子集压缩化输入数据提取的特征和隐层节点数进行映射和归约处理得到总体最优权值；

所述结果输出模块用于输出最优权值分析结果。

具体的，所述数据分布存储模块包括数据采集单元、分布式存储单元和隐层分析单元；

所述数据采集单元用于采集训练数据；

所述分布式存储单元用于对数据进行分割，同时将分割的数据分布到不同的训练子集中，进行存储和读入；

所述隐层分析单元用于并根据数据的类型和规模，确定ELM隐层数和隐层节点数。

进一步的，所述分布式计算模块包括映射单元和归约单元；

所述映射单元用于根据分布到不同训练子集中的数据计算得到各个分块子集权重值；

所述归约单元用于根据各个分块子集权重值计算得到总体最优权值。

本发明实施例采取的技术方案还包括：所述映射单元具体为：根据隐层节点数与输入数据确定隐层输出矩阵H和键值对HTH，并设置映射过程中隐层输出矩阵和键值对的值，训练子集按照ELM算法对各个子集进行并行计算，经标准误差函数和梯度下降法计算得到各个子集权重，即

Δ α k = η (t - β) (\frac{β k}{Σ_{i = 1}^{k} α i} - \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i) * (Σ_{i = 1}^{k} α i)})

其中η为学习速率，k为子集个数，t为各个子集训练目标值，βk为预测值，αk为各个节点的权重。

本发明实施例采取的技术方案还包括：所述归约单元具体为：确定规约过程中的键值对，并根据各个子集权重计算最终的最优权值，即

β^= \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i)}

其中，αi为上述计算得到的各个分块子集的权值。

一种分布式极限学习机优化集成框架方法，包括：

步骤a：读入训练数据，根据数据的类型和规模，确定隐层数和隐层节点数；

步骤b：根据隐层数将数据分割为多个训练子集，同时将分割的数据分布到不同的训练子集中进行存储；

步骤c：对分布在各训练子集中的数据进行特征学习，获得压缩化的输入数据，并对压缩化的输入数据进行归一化处理和特征提取；

步骤d：根据对压缩化的输入数据提取的特征和步骤a确定的隐层节点数进行映射和归约处理得到总体最优权值；

步骤e：输出最优权值分析结果。

进一步的，在所述步骤d中，映射处理为根据对各个训练子集压缩化输入数据提取的特征和步骤a确定的隐层节点数计算得到各个分块子集权重值；所述归约处理为根据各个分块子集权重值计算得到总体最优权值。

本发明实施例采取的技术方案还包括：所述映射处理具体为：根据隐层节点数与输入数据确定隐层输出矩阵H和键值对HTH，并设置映射过程中隐层输出矩阵和键值对的值，训练子集按照ELM算法对各个子集进行并行计算，经标准误差函数和梯度下降法计算得到各个子集权重，即

Δ α k = η (t - β) (\frac{β k}{Σ_{i = 1}^{k} α i} - \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i) * (Σ_{i = 1}^{k} α i)})

本发明实施例采取的技术方案还包括：所述规约处理具体为：确定规约过程中的键值对，并根据各个子集权重计算最终的最优权值，即

β^= \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i)}

其中，αi为上述计算得到的各个分块子集的权值。

本发明实施例采取的技术方案还包括：所述确定隐层输出矩阵H和HTH的键值对具体为，映射函数输入的键值对中，key为各个训练数据相对于矩阵的位置，即对于N*M的H矩阵，H(i,j)的key为(j-1)*m+i，value为G(ai,bi,xi)；映射函数输出的键值对，其中H在映射输出的key为axi+bi与G(ai,bi,xi)，G(X)为激励函数，value为G(ai,bi,xi)；HTH的key为HTH中各元素在矩阵中的索引,value为HT与H对应行列的乘积之和。

本发明分布式极限学习机优化集成框架方法系统及方法，提供了一种将传统单隐层ELM算法推广到多层，实现复杂函数逼近，表征输入数据分布式表示，同时应用Map-Reduce分布式计算框架，既保证了较高的精度，又能使ELM算法的高效计算能力与良好的扩展性得到体现的算法。该分布式极限学习机优化集成框架方法系统及方法对大数据的模式分类更为精确，学习得到的特征对样本有更本质的刻画，解决因单层ELM的节点过多造成的过拟合问题使高维矩阵的运算分块并行进行，计算效率得到提高；对于大规模输入数据与中间结果分布式存储在HDFS和HBase，不用提前将数据读入内存，节省了内存资源。

附图说明

图1是本发明实施例的分布式极限学习机优化集成框架方法系统的结构示意图；

图2是本发明实施例的分布式极限学习机优化集成框架方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

Hadoop是一个开源分布式数据处理框架,被用于高效地处理海量数据。由于Hadoop具有可伸缩性、高可靠性、低成本性和高效性等优点,已成为一种流行的云计算开发平台。

Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem)，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集(largedataset)的应用程序。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

ELM算法对于给定训练样本集{(xi,ti)},隐层输出函数

G(a,b,x),和隐层节点个数L.

随机生成隐层节点参数(ai,bi),i＝1,2……，L；

计算隐层输出矩阵H；

网络输出最优权值β，β＝H+T.

MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce(归约)函数，用来保证所有映射的键值对中的每一个共享相同的键组。请参阅图1，本发明实施例的一种分布式极限学习机优化集成框架系统。

其包括数据分布存储模块、Stack-Autoencoder特征提取模块、分布式计算模块和结果输出模块；

所述数据分布存储模块用于读入训练数据，并根据数据的类型和规模确定隐层数和隐层节点数；同时根据隐层数将数据分割为多个训练子集，同时将分割的数据分布到不同的训练子集中进行存储；所述Stack-Autoencoder特征提取模块用于对数据进行多层学习，获得压缩化的输入数据，并对输入数据进行归一化处理和特征提取；训练子集按照编写的Map函数的逻辑，即ELM算法，对训练集并行训练，相当于k个不同的学习机。传统的ELM算法针对监督性学习，即在训练之前已有标签，而ELM算法在分类器前添加了autoencoder神经网络，相比传统的利用输入数据X的特征预测目标值Y，autoencoder利用前馈网络计算重构的输入X^；利用平方误差函数计算X^与X的误差；依靠反向传播更新误差权值。对于输入数据的再描述等价于学习到了一种压缩表示的函数，能够少量的存储形式来表示原本较复杂的但信息冗余较大的表示形式。

所述数据采集单元用于读入训练数据；

所述隐层分析单元用于并根据数据的类型和规模，确定ELM隐层数和隐层节点数；

所述分布式存储单元用于对数据进行分割，同时将分割的数据分布到不同的训练子集中，进行存储和读入。

具体的，可以将Autoencoder隐层数目调整到4-6层。由于输入数据多为高阶的视频，图像等数据，在隐层中为了对输入数据进行模拟需要用低阶向量表示高维数据，由此会造成数据规模大等问题，设计此过程的MapReduce的目的是化解处理高维特征的压力，在计算重构输入与真实训练样本误差的过程时，需要通过相关矩阵运算确定误差权值，而用低阶向量表示的高维矩阵往往规模更大，因此分布式计算可极大提高计算效率。具体的，从HDFS文件系统中读入海量训练数据，通过MapReduce的底层框架机制，对样本(设为矩阵S)进行分割，得到k个不同训练子集，k的数目为集群中并行Map的个数。

Stack-Autoencoder特征提取模块用于对分布在各个训练子集的训练数据进行特征学习，获得各个训练子集压缩化的输入数据，并对输入数据进行归一化处理和特征提取；即，在autoencoder网络中对训练数据进行特征学习，该特征学习阶段包括encode阶段和decode阶段；其中encode阶段通过引入未知量编码最优权值，对输入数据进行压缩重构；再进入decode阶段，利用BP算法，最小化重构数据与样本的误差，获取编码最优权值，此时编码最优权值为常量；进一步将常量编码最优权值重新引入encode阶段，提取到最优特征，并对最优特征进行归一化处理。。Stack-Autoencoder特征提取模块也就是对数据进行多层学习，训练子集按照编写的Map函数的逻辑，即ELM算法，对训练集并行训练，相当于k个不同的学习机。

传统的ELM算法针对监督性学习，即在训练之前已有标签，而ELM算法在分类器前添加了autoencoder神经网络，相比传统的利用输入数据X的特征预测目标值Y，autoencoder利用前馈网络计算重构的输入X^；利用平方误差函数计算X^与X的误差；依靠反向传播更新误差权值。对于输入数据的再描述等价于学习到了一种压缩表示的函数，能够少量的存储形式来表示原本较复杂的但信息冗余较大的表示形式。

分布式计算模块包括映射单元和归约单元；所述分布式计算模块用于根据对各个训练子集压缩化输入数据提取的特征和隐层节点数进行映射和归约处理得到总体最优权值；

所述映射单元用于根据分布到不同训练子集中的数据计算得到各个分块子集权重值；所述归约单元用于根据各个分块子集权重值计算得到总体最优权值。

Δ α k = η (t - β) (\frac{β k}{Σ_{i = 1}^{k} α i} - \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i) * (Σ_{i = 1}^{k} α i)})

其中η为学习速率，k为子集个数，t为各个子集训练目标值，βk为预测值，αk为各个节点的权重。将Map操作后的结果，即k个不同学习机的预测值βk，通过MapReduce编程框架的shuffle阶段传输到Reduce阶段。

本发明实施例采取的技术方案还包括：所述归约单元具体为：确定reduce过程中的键值对，即HTH的(key,value)。reduce输入的(key，value)等于map的输出，输出的key为HTH与HTT的字符串连接，value为HTH的计算结果，并根据各个子集权重计算最终的最优权值，即

β^= \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i)}

其中，αi为上述计算得到的各个分块子集的权值。

由于输入数据多为高阶的视频，图像等数据，在隐层中为了对输入数据进行模拟需要用低阶向量表示高维数据，由此会造成数据规模大等问题，设计此过程的MapReduce的目的是化解处理高维特征的压力，在计算重构输入与真实训练样本误差的过程时，需要通过相关矩阵运算确定误差权值，而用低阶向量表示的高维矩阵往往规模更大，因此分布式计算可极大提高计算效率。海量训练数据与高维特征产生了复杂的矩阵运算，通常情况下企业数据可达TB甚至PB级。而分布式计算进行的基础正是各个分块矩阵键值对的确定，(key,value)代表了各个计算量的索引，通过键值对可唯一表示每一个分块矩阵中的计算值，依据唯一标识分配各集群进行分布运算。

最后，获得最终网络输出Hβ^；其中，β＝(HTH)-1HT其计算结果决定了网络的最终输出。通过map过程计算HTH与HTT,依靠一一对应的映射得到各个分布式子结果，最终通过reduce过程中设定的算法依据各分块的权重不同计算最终结果。

请参阅图2，一种分布式极限学习机优化集成框架方法，包括：

步骤e：输出最优权值分析结果。

Δ α k = η (t - β) (\frac{β k}{Σ_{i = 1}^{k} α i} - \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i) * (Σ_{i = 1}^{k} α i)})

β^= \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i)}

其中，αi为上述计算得到的各个分块子集的权值。

本发明针对单隐层ELM网络在进行大数据计算的局限性，结合多层神经网络的设计原理与基于Hadoop平台的Map-Reduce的计算框架，提出了多隐层ELM算法在分布式平台的实现，以此解决大数据计算造成的时间局限与过拟合问题造成的模式分类精度局限。通过Hadoop平台对数量级高的样本进行分布式计算。算法分为两方面：(i).从传统的单隐层ELM算法扩展到多层，结合深度学习理论，对高维的训练数据进行学习，从而获得压缩化，特征更加明显的样本。(ii).利用Map-Reduce框架对多层ELM进行分布式处理，对训练样本进行划分，设计map与reduce过程对各个子集进行计算与合并，重点计算各个隐层输出矩阵H与确定最优权值的矩阵运算HTH。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式极限学习机优化集成框架系统，其特征在于，包括数据分布存储模块、Stack-Autoencoder特征提取模块、分布式计算模块和结果输出模块：

所述数据分布存储模块用于读入训练数据，并根据数据的类型和规模确定隐层数和隐层节点数；同时根据隐层数将数据分割为多个训练子集，并将分割的数据分布到不同的训练子集中进行存储；

所述结果输出模块用于输出最优权值分析结果。

2.根据权利要求1所述的分布式极限学习机优化集成框架系统，其特征在于，所述数据分布存储模块包括数据采集单元、分布式存储单元和隐层分析单元；其中：

所述数据采集单元用于读入训练数据；

所述隐层分析单元用于并根据数据的类型和规模，确定ELM隐层数和隐层节点数

所述分布式存储单元用于根据隐层数将数据分割为多个训练子集，同时将分割的数据分布到不同的训练子集中进行存储。

3.根据权利要求2所述的分布式极限学习机优化集成框架系统，其特征在于，所述分布式计算模块包括映射单元和归约单元；其中：

所述映射单元用于根据对各个训练子集压缩化输入数据提取的特征和隐层节点数计算得到各个分块子集权重值；

4.根据权利要求3所述的分布式极限学习机优化集成框架系统，其特征在于，所述映射单元具体为：根据隐层节点数与输入数据确定隐层输出矩阵H和键值对HTH，并设置映射过程中隐层输出矩阵和键值对的值，训练子集按照ELM算法对各个子集进行并行计算，经标准误差函数和梯度下降法计算得到各个子集权重，即：

Δ α k = η (t - β) (\frac{β k}{Σ_{i = 1}^{k} α i} - \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i) * (Σ_{i = 1}^{k} α i)})

其中，η为学习速率，k为子集个数，t为各个子集训练目标值，βk为预测值，αk为各个节点的权重。

5.根据权利要求4所述的分布式极限学习机优化集成框架系统，其特征在于，所述归约单元具体为：确定规约过程中的键值对，并根据各个子集权重计算最终的最优权值，即：

β^= \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i)}

其中，αi为上述计算得到的各个分块子集的权值。

6.一种分布式极限学习机优化集成框架方法，其特征在于，包括：

步骤e：输出最优权值分析结果。

7.根据权利要求6所述的分布式极限学习机优化集成框架方法，其特征在于，在所述步骤d中，映射处理为根据对各个训练子集压缩化输入数据提取的特征和步骤a确定的隐层节点数计算得到各个分块子集权重值；所述归约处理为根据各个分块子集权重值计算得到总体最优权值。

8.根据权利要求7所述的分布式极限学习机优化集成框架方法，其特征在于，所述映射处理具体为：根据隐层节点数与输入数据确定隐层输出矩阵H和键值对HTH，并设置映射过程中隐层输出矩阵和键值对的值，训练子集按照ELM算法对各个子集进行并行计算，经标准误差函数和梯度下降法计算得到各个子集权重，即：

Δ α k = η (t - β) (\frac{β k}{Σ_{i = 1}^{k} α i} - \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i) * (Σ_{i = 1}^{k} α i)})

9.根据权利要求7所述的分布式极限学习机优化集成框架方法，其特征在于，所述规约处理具体为：确定规约过程中的键值对，并根据各个子集权重计算最终的最优权值，即：

β^= \frac{Σ_{i = 1}^{k} α i β i}{(Σ_{i = 1}^{k} α i)}

其中，αi为上述计算得到的各个分块子集的权值。

10.根据权利要求9所述的分布式极限学习机优化集成框架方法，其特征在于，所述确定隐层输出矩阵H和HTH的键值对具体为，映射函数输入的键值对中，key为各个训练数据相对于矩阵的位置，即对于N*M的H矩阵，H(i,j)的key为(j-1)*m+i，value为G(ai,bi,xi)；映射函数输出的键值对，其中H在映射输出的key为axi+bi与G(ai,bi,xi)，G(X)为激励函数，value为G(ai,bi,xi)；HTH的key为HTH中各元素在矩阵中的索引，value为HT与H对应行列的乘积之和。