CN112396154A

CN112396154A - 一种基于卷积神经网络训练的并行方法

Info

Publication number: CN112396154A
Application number: CN201910758686.3A
Authority: CN
Inventors: 宋岚
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2021-02-23

Abstract

本发明公开了一种基于卷积神经网络训练的并行方法，提出一个并行框架，分为三层，数据层，操作层和通信层，数据层又包括卷积层的数据变换和全连接层的数据变换，研究了卷积神经网络训练的并行方法，包含了如何划分训练数据，分配训练任务，调配计算资源，整合训练结果，充分考虑通信与计算的平衡，在不损失精度的基础上，提高计算效率；该基于卷积神经网络训练的并行方法，提出适用于数据集的图像预处理方法，利用CFAR方法对图像进行特征提取，并进行了孤立点移除及孔洞填充；构建了采用多通道输入模式的4层的卷积神经网络模型；用卷积神经网络CNN训练数据集时，通过正则化及数据增强去避免过拟合，得到了测试精度91％的良好分类效果。

Description

一种基于卷积神经网络训练的并行方法

技术领域

本发明涉及并行算法技术领域，具体为一种基于卷积神经网络训练的并行方法。

背景技术

卷积神经网络的训练加速一直是业界研究的热点问题，从硬件角度上来说，目前常用的卷积神经网络加速方法有两种，一种是CPU+GPU结构，可以显著提高网络的运算速度，尤其适合单指令流多数据流的操作(Single Instruction Multiple Data，SIMD)，但数据交换需要CPU进行调度，而CPU与GPU通信上存在速度上的差异，这成为限制加速性能的瓶颈。另一种是CPU+FPGA结构，这种实现方式能兼顾两者间的处理速度，FPGA实现灵活，在实现多指令流单数据流操作(Multiple Instruction Single Data，MISD) 时，比GPU更具优势。深度学习中CPU依旧是主流深度学习平台的重要组成部分，著名的人工神经网络“Google Brain”曾用了16000颗CPU，而“Alpha Go”则使用了1920颗CPU。CPU有着良好的通信控制能力，这是GPU和FPGA 都无法比拟的。

对于深度学习而言，要走出实验室，真正与实际应用结合时，将无法避免海量训练数据、问题复杂程度高等挑战。如单机情况下，训练Inception-v3 模型到78％的精度，大约需要将近半年的时间，这样的训练速度无法应用于实际生产中。卷积神经网络的参数众多，计算量和参数量在各层分布不均匀，提高卷积神经网络的运算性能，研究其网络内部存在的并行性实现训练进行加速是一个有效手段。深度学习训练时间长，主要分为三种情形：一是计算量大，二是训练数据量大，三是模型规模大。对于第一种，解决方案是采用基于共享内存的多线程或多机并行运算。对于第二种情况，解决方案是采用数据并行的方式，要对数据进行划分，并分配到多个工作节点上进行操作与训练，每个工作节点会根据局部数据训练出一个子模型，并按照约定的规则与其它节点进行通信，以便于参数更新，最终整合各个工作节点的计算结果并得到全局数据的训练模型。对于第三种情况，常采用模型并行的方式，即神经网络模型的不同网络层被分配到不同的工作节点，或者同一层内部的不同参数被分配到不同工作节点进行训练。实验研究中，往往属于以上三种情况的混合情况，常常采用几种方法掺杂在一起来解决问题。因此设计一种基于卷积神经网络训练的并行方法是十分有必要的。

发明内容

本发明的目的在于提供一种基于卷积神经网络训练的并行方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于卷积神经网络训练的并行方法，提出一个并行框架，分为三层，数据层，操作层和通信层，各层的功能描述如下：

数据层D-layer：数据集(D₁,…D_n)分散存储在n个数据结点上：对于大量训练数据，单个工作节点无法完成存储和计算时，需要将数据划分并将其分配到各个工作节点上；数据划分从两个角度进行考虑，一是对训练样本进行划分，另一个是对每个样本的特征维度进行划分；设训练数据以维特征向量的方式给出，其中每一维对应一种对输入样本进行刻画的特征，将这维特征顺序切分为N份，把每一份特征对应的数据分配到N个工作节点上；包括卷积层的数据变换和全连接层的数据变换；

操作层O-layer：在工作流程的q阶段，n_q个工作结点

进行独立并发计算，每个节点只处理各自对应的数据，并存储得到的中间结果；

通信层T-layer：在阶段q(q≠p)内，每个通信操作原子t_i,j进行点对点消息传递，它将阶段q内的工作结点o_i(i∈[1,n_q])产生的中间结果传递给阶段q+1 内的工作节点o_j(j∈[1,n_q])，若t_i,_j＝0，则o_j与o_i间不存在通信。

根据上述技术方案，所述卷积层的数据变换中，将图像的尺寸及波段个数看作一个三维立方，长W和高H对应于图像的大小，波段个数对应于立方体的宽C，同时，多个卷积核也可用三维立方体的形式来表示，方法是将输入图像按照卷积核的大小由三维立方体表示，降维为二维的矩阵表示，并按一定策略划分为若干个数据块(D₁,…D_n)；

设第i层卷积核的个数为NC_i，二维情况下，输入图像大小为IH*IW，与大小为Ksize*Ksize卷积核运算后，不进行填充的情况下，特征图大小为 (IH-Ksize+1)*(IW-Ksize+1)；

将输入图像转化为输入矩阵A，矩阵的行数为(IH-Ksize+1)*(IW-Ksize+1)，其列数为Ksize*ksize*depth，卷积图像转化为卷积矩阵B，行数为 Ksize*ksize*depth，列数为NC_i，将输入的图像根椐卷积核大小按一定的padding 规则划分成N个子图像块，每个子图像块是一个三维立方体，每个立方体长为W，高为H，宽为C，转换为大小为CHW×N的矩阵。

根据上述技术方案，所述图像的波段个数决定了卷积核立方体的第三维度C，设某一层卷积层中卷积核立方体的个数为U，对三维的卷积核进行一个变换，得到大小为CHW×U的卷积矩阵，其卷积运算就可以表示为矩阵乘法运算，最后得到大小为N×U的特征图矩阵。

根据上述技术方案，所述全连接层的数据变换中，全连接层可看作为一种卷积操作，可采用和卷积层数据变换相同方法，如前一层是卷积层，则可以将操作转化为与上一层输出图像尺寸大小相等的卷积核的全局卷积，如前一层是全连接层，则将操作转化为与1×1的卷积核的卷积。

根据上述技术方案，所述操作层中，每个工作节点根据分配到的局部训练数据进行并行训练，计算训练样本上的损失函数之和，并利用随机梯度下降法来学习模型参数，即，矩阵数据按约定规则分配给各个工作节点进行存储与计算。

根据上述技术方案，所述操作层中，假设有N个工作节点，共同协作，进行随机梯度下降算法，在每次迭代时，每个工作节点都从共享内存读取当前模型参数和一个样本，在本工作节点上计算当前模型针对所读取到的样本的梯度，然后将计算得到的梯度乘以步长加入到当前模型中；以此类推，直到迭代完成；参数更新与梯度的计算交替进行，参数更新依据N个工作结点的计算出的梯度来确定，类似于批量规模batch＝N的小批量随机梯度下降方法。

根据上述技术方案，所述通信层中，在前面数据并行的框架下，每个工作结点首先各自学习基于局部数据的参数，然后将局部参数聚合在一起实现全局参数更新，结点间的通信机制实现工作结点间的映射及聚合操作；并在上一层操作层的基础上，提出了一个并行通信协议，将其应用于分批次的后向传播算法，协议基于master-worker并行模式，包含了一个master和n个 workers结点，master负责整个训练过程的总体控制，而worker则负责具体的训练时的计算工作；训练前，数据被划分到n个workers结点，每个worker 结点都包含网络的一个复制，及需要完成分配其上的训练集的权重计算及更新；

根据上述技术方案，master和workers结点初始化后，master结点开始广播初始的权重W给所有的workers结点，每个结点在本地的数据集上进行训练，训练包含了前向及后向两个过程，每个worker完成了本地数据集上的权重后，就向master结点发送，当收到所有的worker结点发送的权重信息， master就更新存储的权重，但要避免重复的数据更新和网络传输。

与现有技术相比，本发明所达到的有益效果是：该基于卷积神经网络训练的并行方法，提出适用于数据集的图像预处理方法，利用CFAR方法对图像进行特征提取，并进行了孤立点移除及孔洞填充；构建了采用多通道输入模式的4层的卷积神经网络模型；用卷积神经网络CNN训练数据集时，通过正则化及数据增强去避免过拟合，得到了测试精度91％的良好分类效果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的输入图像到矩阵的变换示意图；

图2是本发明的卷积核到矩阵的变换图；

图3是本发明的卷积运算到矩阵乘法的变换图；

图4是本发明的并行的参数更新流程图；

图5是本发明的通信层流程图；

图6是本发明的协议模型验证框架图；

图7是本发明的master的状态变迁图；

图8是本发明原始的worker状态变迁图；

图9是本发明优化后的worker的状态变迁图；

图10是本发明通信协议spin输出结果图；

图11是本发明通信协议交互的可视化显示图；

图12是本发明验证结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-12，本发明提供一种技术方案：一种基于卷积神经网络训练的并行方法，在卷积神经网络训练时，卷积层和全连接层分别占有网络总参数的约5％和95％左右，但计算量和重要程度却恰好相反。卷积神经网络训练时的运算量大部分集中在模型参数更新部分，模型的参数更新由2个算法共同作用而成，随机梯度下降法(mini-batchSGD)和误差反向传播(error back propogation)；提出一个并行框架，分为三层，数据层，操作层和通信层。各层的功能描述如下：

数据层D-layer:数据集(D₁,…D_n)分散存储在n个数据结点上。

操作层O-layer:在工作流程的q阶段，n_q个工作结点

进行独立并发计算，每个节点只处理各自对应的数据，并存储得到的中间结果。

通信层T-layer:在阶段q(q≠p)内，每个通信操作原子t_i,j进行点对点消息传递，它将阶段q内的工作结点o_i(i∈[1,n_q])产生的中间结果传递给阶段q+1 内的工作节点o_j(j∈[1,n_q])，若t_i,j＝0，则o_j与o_i间不存在通信。

数据层：

对于大量训练数据，单个工作节点无法完成存储和计算时，需要将数据划分并将其分配到各个工作节点上。数据划分从两个角度进行考虑，一是对训练样本进行划分，另一个是对每个样本的特征维度进行划分。设训练数据以m维特征向量的方式给出，其中每一维对应一种对输入样本进行刻画的特征，我们将这m维特征顺序切分为N份，把每一份特征对应的数据分配到N 个工作节点上。

1)卷积层的数据变换：

由于遥感图像存在多个波段，我们将图像的尺寸及波段个数看作一个三维立方，长W和高H对应于图像的大小，波段个数对应于立方体的宽C，同时，多个卷积核也可用三维立方体的形式来表示。方法是将输入图像按照卷积核的大小由三维立方体表示，降维为二维的矩阵表示，并按一定策略划分为若干个数据块(D₁,…D_n)。

设第i层卷积核的个数为NC_i，二维情况下，输入图像大小为IH*IW，与大小为Ksize*Ksize卷积核运算后，不进行填充的情况下，特征图大小为 (IH-Ksize+1)*(IW-Ksize+1)。

将输入图像转化为输入矩阵A，矩阵的行数为(IH-Ksize+1)*(IW-Ksize+1)，其列数为Ksize*ksize*depth，卷积图像转化为卷积矩阵B，行数为 Ksize*ksize*depth，列数为NC_i。操作过程如“图1”所示，左图代表输入图像，已经根椐卷积核大小按一定的padding规则划分成N个子图像块，每个子图像块是一个三维立方体，每个立方体长为W，高为H，宽为C，转换后的矩阵表示为“图1”的右图，矩阵大小为CHW×N，这样就实现了从三维立方体降维为二维矩阵的操作。

图像的波段个数决定了卷积核立方体的第三维度C，设某一层卷积层中卷积核立方体的个数为U。对三维的卷积核进行一个变换，得到“图2”的卷积矩阵，大小为CHW×U，

由“图1”及“图2”得到的卷积矩阵及特征图矩阵，其卷积运算就可以表示为如下的矩阵乘法运算，最后得到的特征图矩阵大小为N×U。

2)全连接层的数据变换：

全连接层的矩阵变换较卷积层简单，全连接层可看作为一种卷积操作，可采用和卷积层数据变换相同方法。如前一层是卷积层，则可以将操作转化为与上一层输出图像尺寸大小相等的卷积核的全局卷积，如前一层是全连接层，则将操作转化为与1×1的卷积核的卷积，以一幅SAR图像数据输入为例，最后一层卷积层可得输出为3×3×64的特征张量，而后一层是2048个神经元的全连接层，则可用卷积核为3×3×64×2048的全局卷积来实现这一全连接运算过程：

卷积核的参数设置为：

经过这一层卷积操作后可得1×1×2048的输出；

如果后面还有一个1024个神经元的全连接层，可设置卷积核的参数为：

操作层

每个工作节点根据分配给自己的局部训练数据进行并行训练，计算训练样本上的损失函数之和，并利用随机梯度下降法来学习模型参数，简而言之，就是矩阵数据按约定规则分配给各个工作节点进行存储与计算；

假设有N个工作节点，共同协作，进行随机梯度下降算法；在每次迭代时，每个工作节点都从共享内存读取当前模型参数和一个样本，在本工作节点上计算当前模型针对所读取到的样本的梯度，然后将计算得到的梯度乘以步长加入到当前模型中；以此类推，直到迭代完成；参数更新与梯度的计算交替进行，参数更新依据N个工作结点的计算出的梯度来确定，类似于批量规模batch＝N的小批量随机梯度下降方法，因此，假设每个工作结点执行的梯度下降算法是batch＝b的随机梯度下降法，则工作结节并行的效果就相当于执行了批量规模batch＝bN的小批量随机梯度下降法。

“图4”中给出了N个工作结点的参数更新流程，每个工作结点根据各自划分到的数据块，存储数据，从不同的模型初始值出发，各自独立的依据本地数据进行模型训练，当本地参数完成一轮参数更新后，所有的结点聚合在一起对全局参数进行更新。

下表是并行的随机梯度下降算法，N个工作结点基于各自的数据块进行梯度计算，同步等待所有工作节点结束梯度计算之后共同更新一次模型：

通信层

在前面数据并行的框架下，每个工作结点首先各自学习基于局部数据的参数，然后将局部参数聚合在一起实现全局参数更新，结点间的通信机制就要实现工作结点间的映射及聚合操作。本节在上一层操作层的基础上，提出了一个并行通信协议，将其应用于分批次的后向传播算法。协议基于 master-worker并行模式，包含了一个master和n个workers结点，master 负责整个训练过程的总体控制，而worker则负责具体的训练时的计算工作。训练前，数据被划分到n个workers结点，每个worker结点都包含网络的一个复制，及需要完成分配其上的训练集的权重计算及更新。

master和workers结点初始化后，master结点开始广播初始的权重W给所有的workers结点，每个结点在本地的数据集上进行训练，训练包含了前向及后向两个过程，每个worker完成了本地数据集上的权重后，就向master 结点发送，当收到所有的worker结点发送的权重信息，master就更新存储的权重，但要避免重复的数据更新和网络传输。

如“图5”所示，master和workers首先进行初始化操作，之后，master 广播初始的权重W给所有workers，workers收到权重W后，同步地在各自所分配的训练集上进行权重的更新，然后将每次epoch时更新的值Δw_locali保存下来，并发送Δw_locali给master。而master等收到全部的Δw_local值后，就用聚类存储中的所有Δw_local去更新上一步骤中广播的权重信息，上面一系列的过程是迭代的，最后，检查是否满足训练终止条件，如满足，终止训练，不满足，则进行下一个epoch的训练。协议模型验证框架如“图6”所示。

master与worker间的通信可用一个PPM模型来描述；依据Poppulation Protocols理论，两个关键组件worker和master作为参与交互的一对实体，且五元组形式化表示，见下式。

PPM＝(Q,Σ,l,ω,δ)

Q＝{send_subdata,init_weight,broadcast,receive_updata,if_convergence,end,wait, receive_subdata,load_subdata,answer,receive_weight,train_weight}

Σ＝{answer,skip,train_weight,Nworkers＜n,Nworkers＝n,no_convergence,convergence,sent_subdata,broadcast}

l＝{(answer,init_weight),(skip,broadcast),(train_weight,receive_updata), (Nworkers＜n,receive_updata),(Nworkers＝n,if_convergence),(no_convergence,init_weight), (convergence,end),(sent_subdata,receive_subdata),(skip,load_subdata),(skip,answer), (broadcast,receive_weight),(convergence,end),(skip,train_weight),(no_convergence,receive_weight}

ω＝{(send_subdata,answer),(init_weight,skip),(broadcast,train_weight),(receive_updata,Nworkers＜n), (receive_updata,Nworkers＝n),(if_convergence,no_convergence),(if_convergence,convergence), (wait,sent_subdata),(receive_subdata,skip),(load_subdata,skip),(answer,broadcast),(receive_weight,convergence),(receive_weight,skip),(train_weight,no_convergence)}

δ＝{(send_subdata,wait)→(init_weight,receive_subdata), (init_weight,receive_subdata)→(broadcast,answer), (broadcast,answer)→(receive_updata,train_weight), (receive_updata,train_weight)→(if_convergence,wait), (if_convergence,wait)→(init_weight,train_weight), (if_convergence,wait)→(end,end)}

其中，五元组PPM＝(Q,Σ,l,ω,δ)中，各符号的含义为，Q是组件状态的有限集合；其中的状态解释如下，send_subdata表示发送给各个计算结点的图像数据，init_weight表示初始化权重，broadcast表示广播权重，receive_updata 表示接收权重，if_convergence表示收敛状态，end表示结束，wait表示等待，receive_subdata表示接收，load_subdata表示存储图像数据，answer 表示回应，receive_weight表示收到权重，train_weight表示训练权重；Σ是输入集合，answer表示回应，skip表示自动到下一阶段，train_weight 权重训练，Nworkers<n表示计算结点个数小于n，Nworkers＝n表示计算结点个数等于n，no_convergence表示没有收敛，convergence表示收敛， sent_subdata表示发送数据，broadcast表示广播；l是从Σ→Q的映射函数， l(σ)表示一个输入为σ的组件的初始状态；ω是从Q→Y的映射函数，ω(q)表示在状态q下组件的输出，Y表示输出集合；

表示一对组件交互所产生的迁移关系；假设两个分别处于状态q1和q2的组件进行交互，交互后的状态迁移为q1’，q2’，那么(q1，q2，q1’，q2’)就处于迁移关系δ中；一个配置(Configuration)由协议中所有组件状态组成的向量来描述，用符号C:A→Q来表示，这里A表示组件集合。

为更直观地表示识别协议模型，用petri_net将模型图形化表示。系统中的进程符号化为一系列状态，对两组件交互过程建模分析，依据进程和事件之间的关系，从而得到状态和输入事件之间的转移关系。Petri_net的描述有四种基本元素：库所(place)、标记(token)、迁移(transition)、带箭头的弧线(arc)；属于有限状态机的一种，它允许多种状态迁移同时交叉发生，对于异步并发过程的描述比有限状态机更为方便。

根据上面的形式化描述，master与worker的petri_net模型分别如“图 7”、“图8”和“图9”所示，其中长方形表示触发的事件，圆圈表示状态，有向箭头表示状态变迁。“图7”中，master的初始状态为send_subdata(发送划分后的图像数据)，在answer(应答)事件发生后，改变状态为 init_weight(初始权重)，其余以此类推，各符号的含义与前面五元组形式化描述相同；将“图8”依据约简规则，将其转化为“图9”，仍旧保持了其性质不变。观察worker的状态变化及变迁发生序列的情况，其有界性和活性并没有因约简而产生变化。

综上所述，设计了LTL来验证所提算法并行的正确性，上面中提出的通信协议用形式化语言(ProcessMetaLanguage,Promela)描述后，使用spin对上述通信协议进行模拟分析，通过设置断言(assertion)来判定是否满足我们定义的LTL公式。协议验证的最主要内容是检测协议是否满足规定的协议性质，即可达性、没有死锁、没有活锁、有界性、不变性等。根据本节描述，状态变迁的3个迁移规则用LTL描述如下：

□((init_weight→○broadcast)∧(broadcast→○receive_updata)∧

(1) (receive_updata→○if_convergence)∧(if_convergence→○end))

表明master从初始化权值开始，其状态按约定的时序变化。

表明通信协议中，在收到所有的更新权重后，master在梯度计算时可能会遇到收敛达不到要求的情况，再重新广播更新后的总权值，要求workers 进行权值计算，如此反复最终能实现梯度值收敛。

(3) □(receive_updata→◇if_convergence)

master最终能收到所有workers传来的权重。从当前状态开始，使 receive_updata为真状态后，总将有使if_convergence为真的状态。

LTL公式p-><>q描述master能得到来自所有其它进程的数据，最终能完成所分配在各workers工作节点上的更新的权重。定义#definept7>0， #defineqt3>0，运行窗口显示验证结果成立。“图12”列出了在仿真过程中所有的消息的发送和接收，以上结果表明了本文所提并行通信机制的在弱公平条件下的正确性，为后续的仿真实验平台搭建奠定基础。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络训练的并行方法，其特征在于：提出一个并行框架，分为三层，数据层，操作层和通信层，各层的功能描述如下：

操作层O-layer：在工作流程的q阶段，n_q个工作结点

通信层T-layer：在阶段q(q≠p)内，每个通信操作原子t_i,j进行点对点消息传递，它将阶段q内的工作结点o_i(i∈[1,n_q])产生的中间结果传递给阶段q+1内的工作节点o_j(j∈[1,n_q])，若t_i,j＝0，则o_j与o_i间不存在通信。

2.根据权利要求1所述的一种基于卷积神经网络训练的并行方法，其特征在于：所述卷积层的数据变换中，将图像的尺寸及波段个数看作一个三维立方，长W和高H对应于图像的大小，波段个数对应于立方体的宽C，同时，多个卷积核也可用三维立方体的形式来表示，方法是将输入图像按照卷积核的大小由三维立方体表示，降维为二维的矩阵表示，并按一定策略划分为若干个数据块(D₁,…D_n)；

设第i层卷积核的个数为NC_i，二维情况下，输入图像大小为IH*IW，与大小为Ksize*Ksize卷积核运算后，不进行填充的情况下，特征图大小为(IH-Ksize+1)*(IW-Ksize+1)；

将输入图像转化为输入矩阵A，矩阵的行数为(IH-Ksize+1)*(IW-Ksize+1)，其列数为Ksize*ksize*depth，卷积图像转化为卷积矩阵B，行数为Ksize*ksize*depth，列数为NC_i，将输入的图像根椐卷积核大小按一定的padding规则划分成N个子图像块，每个子图像块是一个三维立方体，每个立方体长为W，高为H，宽为C，转换为大小为CHW×N的矩阵。

3.根据权利要求2所述的一种基于卷积神经网络训练的并行方法，其特征在于：所述图像的波段个数决定了卷积核立方体的第三维度C，设某一层卷积层中卷积核立方体的个数为U，对三维的卷积核进行一个变换，得到大小为CHW×U的卷积矩阵，其卷积运算就可以表示为矩阵乘法运算，最后得到大小为N×U的特征图矩阵。

4.根据权利要求1所述的一种基于卷积神经网络训练的并行方法，其特征在于：所述全连接层的数据变换中，全连接层可看作为一种卷积操作，可采用和卷积层数据变换相同方法，如前一层是卷积层，则可以将操作转化为与上一层输出图像尺寸大小相等的卷积核的全局卷积，如前一层是全连接层，则将操作转化为与1×1的卷积核的卷积。

5.根据权利要求1所述的一种基于卷积神经网络训练的并行方法，其特征在于：所述操作层中，每个工作节点根据分配到的局部训练数据进行并行训练，计算训练样本上的损失函数之和，并利用随机梯度下降法来学习模型参数，即，矩阵数据按约定规则分配给各个工作节点进行存储与计算。

6.根据权利要求5所述的一种基于卷积神经网络训练的并行方法，其特征在于：所述操作层中，假设有N个工作节点，共同协作，进行随机梯度下降算法。在每次迭代时，每个工作节点都从共享内存读取当前模型参数和一个样本，在本工作节点上计算当前模型针对所读取到的样本的梯度，然后将计算得到的梯度乘以步长加入到当前模型中；以此类推，直到迭代完成；参数更新与梯度的计算交替进行，参数更新依据N个工作结点的计算出的梯度来确定，类似于批量规模batch＝N的小批量随机梯度下降方法。

7.根据权利要求1所述的一种基于卷积神经网络训练的并行方法，其特征在于：所述通信层中，在前面数据并行的框架下，每个工作结点首先各自学习基于局部数据的参数，然后将局部参数聚合在一起实现全局参数更新，结点间的通信机制实现工作结点间的映射及聚合操作；并在上一层操作层的基础上，提出了一个并行通信协议，将其应用于分批次的后向传播算法，协议基于master-worker并行模式，包含了一个master和n个workers结点。master负责整个训练过程的总体控制，而worker则负责具体的训练时的计算工作；训练前，数据被划分到n个workers结点，每个worker结点都包含网络的一个复制，及需要完成分配其上的训练集的权重计算及更新。

8.根据权利要求7所述的一种基于卷积神经网络训练的并行方法，其特征在于：master和workers结点初始化后，master结点开始广播初始的权重W给所有的workers结点，每个结点在本地的数据集上进行训练，训练包含了前向及后向两个过程，每个worker完成了本地数据集上的权重后，就向master结点发送，当收到所有的worker结点发送的权重信息，master就更新存储的权重，但要避免重复的数据更新和网络传输。