CN103544528A

CN103544528A - 一种基于Hadoop的BP神经网络分类方法

Info

Publication number: CN103544528A
Application number: CN201310568597.5A
Authority: CN
Inventors: 高阳; 王睿; 史颖欢
Original assignee: JIANGSU WANWEI AISI NETWORK INTELLIGENT INDUSTRY INNOVATION CENTER Co Ltd; Nanjing University
Current assignee: JIANGSU WANWEI AISI NETWORK INTELLIGENT INDUSTRY INNOVATION CENTER Co Ltd; Nanjing University
Priority date: 2013-11-15
Filing date: 2013-11-15
Publication date: 2014-01-29

Abstract

本发明公开了一种基于Hadoop的BP神经网络分类方法，包括如下步骤：数据预处理；在Hadoop平台各个节点的Mapper端启动Map任务，每个Mapper端获得一个训练数据，利用所述训练数据为当前网络的权值计算修正值，将所述修正值发送到Reducer端；在Hadoop平台各个节点的Reducer端启动Reduce任务，每个Reducer端获得一个所述权值的所有修正值，计算出所述修正值的平均值作为输出；采用批训练方式，修正各层权值；重复执行，直到误差达到预设精度或学习次数大于设定的最大次数，得到BP神经网络模型，否则继续迭代。本发明能实现并行计算。

Description

一种基于Hadoop的BP神经网络分类方法

技术领域

本发明涉及一种基于Hadoop的BP神经网络(简称“BP网络”)分类方法。

背景技术

BP（Back Propagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层（input layer）、隐层(hide layer)和输出层(output layer)。误差反传误差反向传播算法的学习过程，由信息的正向传播和误差的反向传播两个过程组成。输入层各神经元负责接收来自外界的输入信息，并传递给中间层各神经元；中间层是内部信息处理层，负责信息变换，根据信息变化能力的需求，中间层可以设计为单隐层或者多隐层结构；最后一个隐层传递到输出层各神经元的信息，经进一步处理后，完成一次学习的正向传播处理过程，由输出层向外界输出信息处理结果。当实际输出与期望输出不符时，进入误差的反向传播阶段。误差通过输出层，按误差梯度下降的方式修正各层权值，向隐层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程，是各层权值不断调整的过程，也是神经网络学习训练的过程，此过程一直进行到网络输出的误差减少到可以接受的程度，或者预先设定的学习次数为止。

传统的BP神经网络训练方法，是在单机上串行处理数据集，但是随着信息化社会的飞速发展，需要进行数据挖掘的数据量急剧增大，达到了海量数据的级别，因此传统的BP神经网络训练方法在处理海量数据集时会有很大的问题，比如耗时非常长，甚至是内存不足无法训练等问题。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种基于Hadoop的BP神经网络分类方法，实现并行计算。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种基于Hadoop的BP神经网络分类方法，包括如下步骤：

（1）数据预处理；

（2）在Hadoop平台各个节点的Mapper端启动Map任务，每个Mapper端获得一个训练数据，利用所述训练数据为当前网络的权值计算修正值，将所述修正值发送到Reducer端；

（3）在Hadoop平台各个节点的Reducer端启动Reduce任务，每个Reducer端获得一个所述权值的所有修正值，计算出所述修正值的平均值作为输出；

（4）采用批训练方式，修正各层权值；

（5）重复执行步骤（2）至（4），直到神经网络正向传播处理值与预期值之间的差值达到预设精度或学习次数大于设定的最大次数，得到BP神经网络模型，否则继续迭代。

进一步的，还包括：以所述步骤（1）中数据预处理的结果为输入，并为每一个训练数据分配一个Mapper端。

进一步的，还包括：以所述步骤（2）中的修正值为输入，并为每一个权值分配一个Reducer端。

有益效果：本发明采用并行化计算BP神经网络中各层权值的修正值，进而采用批训练方式，修正各层权值。实验结果表明，本发明的方法能够大大提升BP神经网络模型的训练速度，对于处理大规模数据的分类问题具有良好的效果，具有很好的加速比。

附图说明

图1为本发明方法的流程图；

图2为本发明方法理论加速比与实际加速比的比较示意图；

图3为本发明方法在不同节点数上的运行时间示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明方法的步骤包括：

步骤1，数据预处理，将数据处理为文本向量；

步骤2，在Hadoop平台各个节点的Mapper端启动Map任务，每个Mapper端获得一个训练数据，利用这个训练数据为当前网络的权值计算修正值，将该修正值发送到Reducer端；具体的，Mapper端的Map函数计算每个权值的修正值，但是并不是输出每个权值的修正值，而是针对每个训练数据输出对应于这个数据的所有的权值的变化量。定义符合Hadoop序列化标准的类WeightWritable用于数据传递，其中记录了一个样本对应的所有的权值的修正值。此外，对于每个训练数据，并不是计算一次就输出结果，而是引入一个本地迭代次数的概念，经过数次的本地迭代后，才输出经过多次本地迭代后的权值修正值；

步骤3，在Hadoop平台各个节点的Reducer端启动Reduce任务，每个Reducer端获得一个权值的所有修正值，计算出该权值的修正值的平均值作为输出；具体的，Reducer端的Reduce函数接收Map函数输出的WeightWritable作为输入的value，统计每个权值的总体修正值，然后将平均值作为对权值的更新输出，写入HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）中，供下次迭代使用；

步骤4，采用批训练方式，修正各层权值；

步骤5，重复执行步骤2至4，直到误差（即“神经网络正向传播处理值与预期值之间的差值”）达到预设精度或学习次数大于设定的最大次数，得到BP神经网络模型，否则继续迭代。

如图2，在数据量很大的情况下本发明方法的加速比随着节点数目的增多而大幅度提高，虽然与理论加速比有略微的差距，但也能够达到200倍以上。图3则表明本发明方法的运行时间会随着节点数增多而降低，和图2的结果是一致的。

Claims

1.一种基于Hadoop的BP神经网络分类方法，包括如下步骤：

（1）数据预处理；

（4）采用批训练方式，修正各层权值；

2.根据权利要求1所述一种基于Hadoop的BP神经网络分类方法，其特征在于，还包括：以所述步骤（1）中数据预处理的结果为输入，并为每一个训练数据分配一个Mapper端。

3.根据权利要求1所述一种基于Hadoop的BP神经网络分类方法，其特征在于，还包括：以所述步骤（2）中的修正值为输入，并为每一个权值分配一个Reducer端。