CN106502964A

CN106502964A - 一种基于Spark的极限学习机并行化计算方法

Info

Publication number: CN106502964A
Application number: CN201611110439.5A
Authority: CN
Inventors: 刘鹏; 王学奎; 叶帅; 赵慧含; 仰彦妍; 尹良飞; 张国鹏; 丁恩杰
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2016-12-06
Filing date: 2016-12-06
Publication date: 2017-03-15
Anticipated expiration: 2036-12-06
Also published as: CN106502964B

Abstract

本发明公开了一种基于大数据处理平台Spark的极限学习机并行化计算方法，适用于大数据处理平台Spark机器学习领域使用。首先将样本数据集按照每个样本逐行存储于分布式文件系统，并对样本集进行预处理得到特征矩阵以及类别标签向量T；接下来，按照样本特征数以及隐节点数目随机初始化隐层节点参数：权重矩阵ω以及隐层偏差向量b；之后利用矩阵乘并行化方案求解得到隐层输出矩阵H；最后利用矩阵乘并行化方案以及矩阵单机求逆运算得到输出权重向量β的唯一最优解其步骤简单，计算量小，可以将计算步骤在多台计算机上并行计算，从而有效提高计算效率，同时容错性好，能够使得极限学习机算法在大数据背景下进行模型训练的效率大幅提升。

Description

一种基于Spark的极限学习机并行化计算方法

技术领域

本发明涉及一种并行化计算方法，尤其是一种大数据处理平台Spark机器学习计算领域使用的基于Spark的极限学习机并行化计算方法。

背景技术

机器学习是当下最热门的研究领域之一，近年来，随着数据量的不断增长，机器学习的效率问题备受关注，而神经网络的学习效率问题更是亟待解决。对于极限学习机算法而言，由于其随机初始化隐节点参数并直接通过矩阵运算得到隐节点输出权重，因此没有了传统的学习算法中大量的迭代运算，这在算法层面大大提高了运算速度。

由于在极限学习机中被处理数据需要事先加载至内存以及算法中有大量的矩阵运算，因此在面对大规模训练数据时，极限学习机处理效率急剧下降，面临着巨大挑战。2013年中科院何清首次提出了基于MapReduce设计<key，value>键值对来处理极限学习机并行计算问题。2014年浙江大学陈娇燕将训练数据分成n块并分别存储于分布式文件系统中的n个节点，并利用其中n-1个节点进行极限学习机本地训练，得到n-1个本地极限学习机模型，基于投票的原理利用第n块训练集训练得到每个本地极限学习机的投票权重，通过各个本地模型按照权重投票得到极限学习机模型。

已有的极限学习机并行化研究工作使得极限学习机效率得到一定幅度提高，已经基本能够处理大数据下的神经网络训练，但效率依然有待进一步提高。Spark(基于内存运算的分布式计算平台)是新一代基于内存计算的大数据处理平台，相比Hadoop MapReduce作出了大量重要改进。譬如，Hadoop MapReduce每个作业执行结果需要写入磁盘HDFS,因此在包含多作业的复杂任务执行时中需不断地读写磁盘，耗费了大量时间；而Spark创新性地引入了内存分布数据集RDD(resilient distributed dataset)，其中间计算结果都可以保存在内存之中，直到最后结果输出至磁盘，因此可以显著加速作业的执行。

发明内容

发明目的：为了克服目前极限学习机并行化方案效率依然不高的问题，本发明提供了一种基于Spark的极限学习机并行化方案，该方法可以使极限学习机在处理大数据时运行效率相比现有基于hadoop的并行化方案大大提高。

发明内容：为解决上述技术问题，本发明的基于Spark的极限学习机并行化计算方法，其步骤如下：

a.向服务器发送原始学习数据，服务器在磁盘的分布式文件系统HDFS中读取原始学习数据，包括属性以及类别的描述及数值，将原始学习数据的属性以及类别全部解析成数值得到样本数据，将所有样本数据集存储到服务器的分布式文件系统中，每个样本存储为一行，所述存储入服务器分布式文件系统中的所有样本数据均可以被集群网络中所有连接的计算机后续共同访问；

b.利用服务器对所有样本数据集进行预处理操作，将样本数据转化成属性变量矩阵P以及类别变量矩阵T；

c.随机初始化隐层节点参数获得随机生成的输入权重矩阵ω以及隐层偏差向量b，完成服务器作为极限学习机的初始化步骤；

d.针对属性变量矩阵P矩阵以及初始化所得的输入权重矩阵ω，利用矩阵乘并行化方案计算得到二者乘积，对所得乘积的每个元素通过激活函数映射得到隐层输出矩阵H，利用矩阵乘并行化方案以及矩阵单机求逆运算得到输出权重向量β的唯一最优解

对样本数据集进行预处理操作的步骤：对所有样本数据集进行去重操作，将样本数据的每个属性进行归一化得到属性变量矩阵P，将类别标签即类别描述及数据转化为数值标签，将每个数值标签做为一行得到类别变量矩阵T。

随机初始化隐层节点参数方法为：随机初始化生成权重矩阵ω以及隐层偏差向量b，权重矩阵ω的行数为输入样本数据的属性数，列数为单隐层前馈神经网络的隐节点数目，隐层偏差向量b的长度为隐节点数目，权重矩阵ω以及隐层偏差向量b中的每个元素均随机初始化为0～1之间的任意数值。

所述利用矩阵乘并行化方案为：在属性变量矩阵P的第一列前加上一列全为“1”的列向量，将隐层偏差向量b添加至权重矩阵ω的第一行，从而修正属性变量矩阵P以及输入权重矩阵ω，将属性变量矩阵P与权重矩阵ω并行化相乘并在激活函数作用下得到隐层输出矩阵H，通过转置隐层输出矩阵H得到转置矩阵H^T，并利用矩阵并行化相乘方案计算得到H^TH、H^TT，通过单机矩阵求逆运算得到(H^TH)^-1；通过公式求解得到输出权重β的唯一最优解

所述计算隐层输出矩阵H的方法为：首先初始化输入权重矩阵ω和偏差向量b，将输入权重矩阵ω和偏差向量b的每个元素设为0～1之间的随机值，权重矩阵ω的行数为样本属性个数，列数为隐节点数目，偏差向量b的长度为隐节点数目；

考虑偏差向量并将矩阵加法运算转化为矩阵乘运算，在属性变量矩阵第一列前添加一列元素全为“1”的列向量，在输入权重矩阵第一行前添加偏差向量b作为第一行，将修正后的属性变量矩阵与输入权重矩阵相乘并将矩阵乘每一个元素代入sigmoidal函数得到隐层输出矩阵H。

矩阵乘并行化方法为：对于两个矩阵相乘后得到新矩阵C＝A*B的矩阵乘运算，首先将矩阵A按行逐行存储于服务器的分布式文件系统中，将矩阵B按列逐行存储于服务器的分布式文件系统中，设矩阵A的行数为rowA,矩阵B的列数为colB，依次将矩阵A的第i行数据复制colB份，每份逐行存储并在每行前分别添加“i 0”、“i 1”……“i colB”作为后续转化所得PairRDD的key值，得到新的矩阵数据A'，依次将矩阵B的第j行数据复制rowA份，每份逐行存储并在每行前分别添加“0j”、“1j”……“rowA j”作为后续转化所得PairRDD的key值，得到新的矩阵数据B'，将矩阵数据A'和矩阵数据B'存储并添加入分布式文件系统中的存储文件，再将存储文件读入内存RDD中，通过Map to Pair操作，每个RDD的前两个元素作为key，其他元素作为value，将RDD转换成PairRDD，从而得到<key，value>键值对为<i j,value1value2……valuen>，“value1value2……valuen”即为矩阵相应的行列向量；最后通过ReduceByKey操作，将相同key值的两个PairRDD的value进行向量内积运算得到reduce后的value值，key值为(0 0)、(0 1)……(rowA colB)所对应的value值即为所求矩阵乘积的各个元素。

所述单机矩阵求逆运算方法为：利用公式：(H^TH)^-1＝(H^TH)^*/|H^TH|,求解矩阵H^TH的逆矩阵，依次求解H^TH的行列式，

|H^TH|＝(h^Th)₁₁(H^TH)₁₁+(h^Th)₁₂(H^TH)₁₂+…(h^Th)_1cola(H^TH)_1cola，其中(H^TH)_ij＝(-1)^i+jV_ij，V_ij为矩阵H^TH去除第i行以及第j列后矩阵的行列式，(h^Th)_ij为矩阵H^TH第i行第j列的元素。如此循环直至求解得到矩阵行列式；(H^TH)^*为矩阵H^TH的伴随矩阵，将矩阵H^TH的第j行第i列元素替换成(H^TH)_ij即可得到(H^TH)^*。

有益效果：

(1)利用极限学习机向量化运算，将极限学习机的大部分运算转化为矩阵乘运算，从而为极限学习机整体算法并行化打下基础；

(2)在矩阵乘运算中，将矩阵按行和列分别进行处理，减少了中间结果的数量，以减少计算机内存的使用空间，另外，将矩阵的行向量以及列向量按照矩阵乘法原则设置相应键值后可将矩阵的各个行向量以及列向量分散存储于分布式文件系统中，有效消除了矩阵行与列之间的依赖关系，在进行矩阵乘的时候只需根据相应键值寻找相应的行向量以及列向量，然后进行向量内积运算即可得到矩阵乘的相应元素，将多台计算机，均配置在Spark集群之中，且相互之间能够进行ssh免密码通信，使得矩阵乘运算可以在多台计算机之上并行地完成，显著提高计算效率；

(3)基于Spark分布式计算平台设计，由于spark中弹性数据集RDD能够记录数据的转换操作序列，每个内存RDD都包含了他是如何从其他RDD变换过来的以及如何重建某一块数据的信息，因此可以根据RDD所记录的信息对丢失的分区进行重建和恢复，在提高运行效率的同时具有一定的容错性。

附图说明

图1是本发明的流程图；

图2是本发明的对于C＝A*B矩阵乘并行化方案中矩阵A转换成PairRDD示意图；

图3是本发明的对于C＝A*B矩阵乘基于Spark的并行化方案中矩阵B转换成PairRDD示意图；

图4是本发明的对于C＝A*B矩阵乘基于Spark的并行化方案中通过RDD转换操作得到C中元素的示意图；

图5是本发明的基于Spark的极限学习机并行化方案在不同数据集下运行效率相对于基于Hadoop平台得到提高的示意图。

具体的实施方式

下面结合附图对本发明的实施例做进一步说明

如图1所示，本发明的基于Spark的极限学习机并行化计算方法，步骤如下：

a.将原始的特征和类别数据结合具体问题将属性和类别转化为具体数值，然后对每个属性进行归一化操作，每一个样本属性做为一行得到属性变量矩阵，每一个类别做为一行得到类别变量矩阵；

b.随机生成输入权重矩阵ω，权重矩阵的行数为每个样本属性变量数，权重矩阵的列数为神经网络隐层节点数，通过属性变量矩阵与输入权重矩阵ω相乘得到二者乘积，将乘积的每个元素加上相应的隐层偏差之后做为激活函数的输入，得到的输出即隐层输出矩阵H的各个元素；

权重矩阵ω的行数为输入样本数据的属性数，即属性变量矩阵P的列数，列数为单隐层前馈神经网络的隐节点数目(为了保证较高的预测准确率，对于不同大小的数据集以及不同的激活函数而言，隐节点数目选取不同，一般而言数据维度越高，所需隐节点数目越大，具体需要通过实验确定适合的隐节点数目)，隐层偏差向量b的长度为隐节点数目，ω和b中的每个元素均初始化为0～1之间的任意数值，上述为极限学习机初始化步骤；

考虑偏差向量并将矩阵加法运算转化为矩阵乘运算，在属性变量矩阵第一列前添加一列元素全为“1”的列向量，在原先的输入权重矩阵ω的第一行前添加偏差向量b作为新的第一行，从而修正属性变量矩阵以及输入权重矩阵，将修正后的属性变量矩阵与输入权重矩阵相乘并将矩阵乘每一个元素代入sigmoidal函数得到隐层输出矩阵H；

c.通过隐层输出矩阵H得到其的转置矩阵H^T；

d.利用矩阵并行化相乘方案将隐层输出矩阵的转置H^T以及隐层输出矩阵H相乘得到

H^T×H(用H^TH表示)，再次利用矩阵并行化相乘方案将隐层输出矩阵H和类别变量矩阵T相乘得到H^T×T(用H^TT表示)；

e.利用公式：(H^TH)^-1＝(H^TH)^*/|H^TH|,求解矩阵H^TH的逆矩阵，依次求解H^TH的行列式，|H^TH|＝(h^Th)₁₁(H^TH)₁₁+(h^Th)₁₂(H^TH)₁₂+…(h^Th)_1cola(H^TH)_1cola，其中(H^TH)_ij＝(-1)^i+jV_ij，V_ij为矩阵H^TH去除第i行以及第j列后矩阵的行列式，(h^Th)_ij为矩阵H^TH第i行第j列的元素。如此循环直至求解得到矩阵行列式；(H^TH)^*为矩阵H^TH的伴随矩阵，将矩阵H^TH的第j行第i列元素替换成(H^TH)_ij即可得到(H^TH)^*；

f.利用矩阵乘并行化方案代入公式：得到输(H^TH)^-1H^TT出权重β的唯一最优解根据需要增加增强极限学习机的稳定性，可以通过给H^TH以及(H^TH)^-1矩阵增加附加项对角矩阵I/λ实现，其中I为单位矩阵，λ为大于0的常数，I/λ为对角矩阵。

具体实施方式分别说明如下：

样本解析具体实施方式为：首先从分布式文件系统读出原始样本数据，将原始样本数据的属性和类别分别解析为属性变量矩阵以及类别变量矩阵T(对于不同的样本集处理有所不同)，对属性变量矩阵按列进行归一化操作。

然后求解隐层输出矩阵H：

首先初始化输入权重矩阵ω和偏差向量b，将输入权重矩阵ω和偏差向量b的每个元素设为0～1之间的随机值，权重矩阵ω的行数为样本属性个数，列数为隐节点数目，偏差向量b的长度为隐节点数目。

考虑偏差向量并将矩阵加法运算转化为矩阵乘运算，在属性变量矩阵第一列前添加一列元素全为“1”的列向量，在输入权重矩阵第一行前添加偏差向量b作为第一行。然后将修正后的属性变量矩阵与输入权重矩阵相乘并将矩阵乘每一个元素代入sigmoidal函数得到隐层输出矩阵H。

紧接着利用矩阵乘求解H^TH、H^TT，利用单机求逆求解(H^TH)^-1，利用矩阵乘并行化计算

如图2、图3和图4所示，矩阵乘并行化步骤具体如下：对于两个矩阵相乘后得到新矩阵C＝A*B的矩阵乘运算，首先将矩阵A按行逐行存储于服务器的分布式文件系统中，将矩阵B按列逐行存储于服务器的分布式文件系统中，设矩阵A的行数为rowA,矩阵B的列数为colB，依次将矩阵A的第i行数据复制colB份，每份逐行存储并在每行前分别添加“i 0”、“i1”……“i colB”作为后续转化所得PairRDD的key值，方便通过ReduceByKey计算矩阵乘的各个元素，得到新的矩阵数据A'，依次将矩阵B的第j行数据复制rowA份，每份逐行存储并在每行前分别添加“0j”、“1j”……“rowA j”作为后续转化所得PairRDD的key值，方便通过ReduceByKey计算矩阵乘的各个元素，得到新的矩阵数据B'，将矩阵数据A'和矩阵数据B'存储并添加入分布式文件系统中的存储文件，再将存储文件读入内存RDD中，通过Map toPair操作，每个RDD的前两个元素作为key，其他元素作为value，将RDD转换成PairRDD，从而得到<key，value>键值对为<i j,value1value2……valuen>，“value1value2……value n”即为矩阵相应的行列向量；最后通过ReduceByKey操作，将相同key值的两个PairRDD的value进行向量内积运算得到reduce后的value值，key值为(0 0)、(0 1)……(rowA colB)所对应的value值即为所求矩阵乘积的各个元素。

评测结果如图5所示，测试时选用样本数和特征数各不相同的四个数据集，同对每个数据集分别基于Hadoop以及Spark进行模型训练和测试。从运行效率对比结果可以看出，基于Spark的极限学习机并行化相对于Hadoop效率得到大幅提高，而且随着数据量增大，效率提高越明显。

Claims

1.一种基于Spark的极限学习机并行化计算方法，其特征在于包括以下步骤：

2.根据权利要求1所述基于Spark的极限学习机并行化计算方法，其特征在于对样本数据集进行预处理操作的步骤：对所有样本数据集进行去重操作，将样本数据的每个属性进行归一化得到属性变量矩阵P，将类别标签即类别描述及数据转化为数值标签，将每个数值标签做为一行得到类别变量矩阵T。

3.根据权利要求1所述基于Spark的极限学习机并行化计算方法，其特征在于随机初始化隐层节点参数方法为：随机初始化生成权重矩阵ω以及隐层偏差向量b，权重矩阵ω的行数为输入样本数据的属性数，列数为单隐层前馈神经网络的隐节点数目，隐层偏差向量b的长度为隐节点数目，权重矩阵ω以及隐层偏差向量b中的每个元素均随机初始化为0～1之间的任意数值。

4.根据权利要求1所述基于Spark的极限学习机并行化计算方法，其特征在于所述利用矩阵乘并行化方案为：在属性变量矩阵P的第一列前加上一列全为“1”的列向量，将隐层偏差向量b添加至权重矩阵ω的第一行，从而修正属性变量矩阵P以及输入权重矩阵ω，将属性变量矩阵P与权重矩阵ω并行化相乘并在激活函数作用下得到隐层输出矩阵H，通过转置隐层输出矩阵H得到转置矩阵H^T，并利用矩阵并行化相乘方案计算得到H^TH、H^TT，通过单机矩阵求逆运算得到(H^TH)^-1；通过公式求解得到输出权重β的唯一最优解

5.根据权利要求4所述基于Spark的极限学习机并行化计算方法，其特征在于所述计算隐层输出矩阵H的方法为：首先初始化输入权重矩阵ω和偏差向量b，将输入权重矩阵ω和偏差向量b的每个元素设为0～1之间的随机值，权重矩阵ω的行数为样本属性个数，列数为隐节点数目，偏差向量b的长度为隐节点数目；

6.根据权利要求4所述基于Spark的极限学习机并行化计算方法，其特征在于矩阵乘并行化方法为：对于两个矩阵相乘后得到新矩阵C＝A*B的矩阵乘运算，首先将矩阵A按行逐行存储于服务器的分布式文件系统中，将矩阵B按列逐行存储于服务器的分布式文件系统中，设矩阵A的行数为rowA,矩阵B的列数为colB，依次将矩阵A的第i行数据复制colB份，每份逐行存储并在每行前分别添加“i 0”、“i 1”……“i colB”作为后续转化所得PairRDD的key值，得到新的矩阵数据A'，依次将矩阵B的第j行数据复制rowA份，每份逐行存储并在每行前分别添加“0 j”、“1 j”……“rowA j”作为后续转化所得PairRDD的key值，得到新的矩阵数据B'，将矩阵数据A'和矩阵数据B'存储并添加入分布式文件系统中的存储文件，再将存储文件读入内存RDD中，通过Map to Pair操作，每个RDD的前两个元素作为key，其他元素作为value，将RDD转换成PairRDD，从而得到<key，value>键值对为<i j,value1value2……valuen>，“value1value2……valuen”即为矩阵相应的行列向量；最后通过ReduceByKey操作，将相同key值的两个PairRDD的value进行向量内积运算得到reduce后的value值，key值为(0 0)、(0 1)……(rowA colB)所对应的value值即为所求矩阵乘积的各个元素。

7.根据权利要求4所述基于Spark的极限学习机并行化计算方法，其特征在于所述单机矩阵求逆运算方法为：利用公式：(H^TH)^-1＝(H^TH)^*/|H^TH|,求解矩阵H^TH的逆矩阵，依次求解H^TH的行列式，|H^TH|＝(h^Th)₁₁(H^TH)₁₁+(h^Th)₁₂(H^TH)₁₂+…(h^Th)_1cola(H^TH)_1cola，其中(H^TH)_ij＝(-1)^i+jV_ij，V_ij为矩阵H^TH去除第i行以及第j列后矩阵的行列式，(h^Th)_ij为矩阵H^TH第i行第j列的元素。如此循环直至求解得到矩阵行列式；(H^TH)^*为矩阵H^TH的伴随矩阵，将矩阵H^TH的第j行第i列元素替换成(H^TH)_ij即可得到(H^TH)^*。