CN112712171A - 深度卷积神经网络的分布式训练方法、设备和存储介质 - Google Patents

深度卷积神经网络的分布式训练方法、设备和存储介质 Download PDF

Info

Publication number
CN112712171A
CN112712171A CN202110038535.8A CN202110038535A CN112712171A CN 112712171 A CN112712171 A CN 112712171A CN 202110038535 A CN202110038535 A CN 202110038535A CN 112712171 A CN112712171 A CN 112712171A
Authority
CN
China
Prior art keywords
cluster
sub
nodes
node
working
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110038535.8A
Other languages
English (en)
Other versions
CN112712171B (zh
Inventor
万烂军
龚坤
张根
李泓洋
李长云
肖满生
谭永新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202110038535.8A priority Critical patent/CN112712171B/zh
Publication of CN112712171A publication Critical patent/CN112712171A/zh
Application granted granted Critical
Publication of CN112712171B publication Critical patent/CN112712171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及深度卷积神经网络的分布式训练方法、设备和存储介质,通过混合采用参数服务器的同步参数更新策略和异步参数更新策略,避免了因木桶效应造成的更新全局参数等待时间过长的问题,缓解了因梯度过时导致的梯度下降过程不稳定,加快了模型的分布式并行训练速度,提高了模型的收敛速度和精度。

Description

深度卷积神经网络的分布式训练方法、设备和存储介质
技术领域
本发明涉及深度学习领域,更具体地,涉及深度卷积神经网络的分布式训练方法、设备和存储介质。
背景技术
在深度学习中神经网络模型训练的目标是找到使损失函数值达到最小的最优模型参数,而深度卷积神经网络需要训练的参数个数可能达到千万以上。深度卷积神经网络通常采用海量数据进行训练且在每次迭代训练中需对所有参数进行更新,故存在模型训练速度慢的缺点。深度卷积神经网络模型的训练速度的提升主要从以下三方面进行研究:I)对神经网络结构进行改进,以减少训练参数的数量;II)对参数寻优策略进行改进,如随机梯度下降法,以快速找到最佳模型参数;III)分布式并行训练模型,以利用更多的计算资源来加快模型训练。
异构集群是由多个不同硬件配置的节点构成的分布式计算机集群,每个节点由若干个CPU和GPU等不同计算设备组成。在异构集群中,各节点之间计算资源的不同会导致各节点的模型训练速度存在差异。在深度卷积神经网络模型的分布式并行训练中,由于同步参数更新策略在异构集群中存在较明显的木桶效应问题,而异步参数更新策略在异构集群中存在较严重的梯度过时问题。
在异构集群中若采用同步参数更新策略,则每次更新全局参数都需要所有工作节点的模型的参数梯度会导致木桶效应的出现,即当计算能力较强的工作节点已完成一次模型训练并将参数梯度发送给参数服务器节点时,计算能力较弱的节点仍在训练模型,参数服务器节点开始更新全局参数的时间取决于集群中模型训练速度最慢的工作节点,这会显著加长更新全局参数的等待时间,同时因模型训练速度较快的工作节点处于空闲状态会造成大量计算资源的浪费。
在异构集群中若采用异步参数更新策略,则参数服务器节点接收到某工作节点发送过来的参数梯度就立刻开始全局参数的更新,不必等待其它工作节点发送参数梯度,显著减少了更新全局参数的等待时间。但全局参数的更新会出现梯度过时的问题,这会导致梯度下降的过程变得不稳定,因此异步参数更新可能会降低模型的收敛速度和精度。
现有的技术中,中国发明专利CN103391217B公开了“实现异构集群设备同步的方法和异构集群系统”,公开日为2016年08月10日,包括以下步骤:根据第一集群设备的网络接口的数量,第二集群设备将其网络接口配置为多个虚拟网络接口;第二集群设备检测到第一集群设备出现故障时,将第一集群设备的网络接口的配置对应切换至第二集群设备的网络接口;第二集群设备接收网络协议栈发送至其网络接口的数据包,将数据包分发至相应的网络接口进行处理;该发明中,使得集群系统中集群设备的网络接口的配置可以同步,从而降低了异构集群系统组建的复杂性,但是存在较明显的木桶效应问题。
发明内容
本发明为解决若采用同步参数更新策略,则在异构集群中存在木桶效应问题;若采用异步参数更新策略,则在异构集群中存在梯度过时问题的技术缺陷,提供了深度卷积神经网络的分布式训练方法、设备和存储介质。
为实现以上发明目的,采用的技术方案是:
深度卷积神经网络的分布式训练方法,包括以下步骤:
S1:初始化深度卷积神经网络中集群的主节点的所有参数,并广播到各工作节点,再根据各工作节点的数量将所有训练数据均分为若干个训练子集;
S2:各工作节点读取一个训练子集并根据深度卷积神经网络的初始化参数来训练一个深度卷积神经网络模型;
S3:各工作节点将各自训练的深度卷积神经网络模型得到的参数梯度和训练时间汇总给集群的主节点;
S4:集群的主节点根据各工作节点的训练时间将各工作节点划分为不同的子集群;
S5:根据子集群的个数和训练速度最慢的子集群中的工作节点数量进行判断,来选择子集群的参数服务器节点;
S6:集群的参数服务器主节点根据各工作节点的参数梯度来更新全局参数,各子集群的参数服务器节点从参数服务器主节点拉取最新的全局参数,而各子集群内各工作节点也从其所属的参数服务器节点拉取最新的全局参数;
S7:集群的主节点根据新的工作节点数量将所有训练数据均分为与新的工作节点数量等量的训练子集;
S8:各工作节点读取各自的训练子集并根据最新的全局参数分别执行一次训练;
S9:各子集群内各工作节点将训练一次深度卷积神经网络模型得到的参数梯度发送给其所属的参数服务器节点,各子集群的参数服务器节点接收到其内所有工作节点的参数梯度后计算子集群的平均参数梯度;
S10:当子集群的参数服务器节点完成平均参数梯度的计算后,向集群的参数服务器主节点发送该子集群的平均参数梯度gmean和当前迭代次数tx,参数服务器主节点加权更新全局参数,待全局参数更新后该子集群的参数服务器节点将从参数服务器主节点拉取最新的全局参数,同时该子集群内各工作节点将从该参数服务器节点拉取最新的全局参数;
S11:集群的参数服务器主节点判断深度卷积神经网络模型是否已收敛,若否,则返回S8,若是,则停止训练,输出最终的深度卷积神经网络模型。
上述方案中,通过混合采用参数服务器的同步参数更新策略和异步参数更新策略,避免了因木桶效应造成的更新全局参数等待时间过长的问题,缓解了因梯度过时导致的梯度下降过程不稳定,加快了模型的分布式并行训练速度,提高了模型的收敛速度和精度。
在步骤S4中,包括以下步骤:
S41:将各工作节点的训练时间取倒数并归一化,由此构造各工作节点的训练速度的差值矩阵;
S42:采用基于密度的自适应聚类算法DBSCAN对训练速度的差值矩阵进行聚类分析,将训练速度相近的工作节点聚为一类即划分为一个子集群。
所述差值矩阵为:
Figure BDA0002894423960000031
VDn,m代表工作节点n与工作节点m的模型训练速度的差值的绝对值(1≤n,m≤N)。
自适应聚类算法DBSCAN的参数设置如下:∈-邻域的距离阈值设置为0.3~0.7,∈-邻域的距离阈值的样本数阈值设置为3~7,距离度量采用欧式距离,最近邻算法使用KD树,停止建子树的叶子节点数量阈值设置为20~40。
∈-邻域的距离阈值设置为0.5,∈-邻域的距离阈值的样本数阈值设置为5,停止建子树的叶子节点数量阈值设置为30。
在步骤S5中,子集群的个数为M,工作节点数量为K;
若K≥M+1,则从训练速度最慢的子集群中根据工作节点的训练速度的升序排列选择M个节点作为M个子集群的参数服务器节点;
若K=M,则从训练速度最慢的子集群中根据工作节点的训练速度的降序排列选择M-1个节点作为其余M-1个子集群的参数服务器节点,余下的1个工作节点不参与深度卷积神经网络的分布式并行训练;
若K=M-1,则从训练速度最慢的子集群中选择所有节点作为其余M-1个子集群的参数服务器节点;
若K<M-1,则先按每个子集群中工作节点的最大模型训练速度对所有子集群进行升序排列,再从子集群中根据工作节点的训练速度的升序排列选择工作节点作为参数服务器节点直到满足参数服务器节点的个数为M-n,其中n为工作节点全被选作为参数服务器节点的子集群的数量。
在步骤S9中,各子集群的参数服务器节点接收到其内所有工作节点的参数梯度后按以下公式计算子集群的平均参数梯度:
Figure BDA0002894423960000041
其中x(1≤x≤N)表示工作节点的编号,N表示工作节点的数量、t表示当前迭代次数,
Figure BDA0002894423960000042
表示参数梯度。
在步骤S10中,参数服务器主节点通过以下算法来加权更新全局参数:
Figure BDA0002894423960000043
其中R为参数服务器节点的数量,α为学习率,tx为当前迭代次数,Wt为当前迭代次数时的全局参量。
深度卷积神经网络的分布式训练设备,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行深度卷积神经网络的分布式训练方法。
一种计算机可读的存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行深度卷积神经网络的分布式训练方法。
上述方案中,在面向异构集群的深度卷积神经网络的分布式并行训练中,混合了参数服务器的同步参数更新和异步参数更新。采用参数服务器主节点管理异构集群中的所有工作节点,根据异构集群中的各工作节点的模型训练速度将该集群划分为多个子集群,并为每个子集群指定一个参数服务器节点,子集群内各工作节点的模型的参数更新采用同步参数更新策略,集群内各参数服务器节点的参数更新采用异步参数更新策略。当某子集群的参数服务器节点接收到其负责的所有工作节点的参数梯度后,计算该子集群的平均参数梯度并将平均梯度和当前迭代次数发送给参数服务器主节点,参数服务器主节点立刻加权更新全局参数,待全局参数更新后子集群的参数服务器节点将从参数服务器主节点拉取最新的全局参数,同时该子集群内各工作节点将从该参数服务器节点拉取最新的全局参数。
将各工作节点的模型训练时间取倒数并归一化,由此构造各工作节点的模型训练速度的差值矩阵,采用基于密度的自适应聚类算法DBSCAN对速度差值矩阵进行聚类分析,将模型训练速度相近的工作节点聚为一类即划分为一个子集群,从模型训练速度较慢的子集群中选择工作节点作为子集群的参数服务器节点。
与现有技术相比,本发明的有益效果是:
本发明提供的深度卷积神经网络的分布式训练方法、设备和存储介质,通过混合采用参数服务器的同步参数更新策略和异步参数更新策略,避免了因木桶效应造成的更新全局参数等待时间过长的问题,缓解了因梯度过时导致的梯度下降过程不稳定,加快了模型的分布式并行训练速度,提高了模型的收敛速度和精度。
附图说明
图1为本发明的方法流程图;
图2为本发明的混合参数更新的示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1所示,深度卷积神经网络的分布式训练方法,包括以下步骤:
S1:初始化深度卷积神经网络中集群的主节点的所有参数,并广播到各工作节点,再根据各工作节点的数量将所有训练数据均分为若干个训练子集;
S2:各工作节点读取一个训练子集并根据深度卷积神经网络的初始化参数来训练一个深度卷积神经网络模型;
S3:各工作节点将各自训练的深度卷积神经网络模型得到的参数梯度和训练时间汇总给集群的主节点;
S4:集群的主节点根据各工作节点的训练时间将各工作节点划分为不同的子集群;
S5:根据子集群的个数和训练速度最慢的子集群中的工作节点数量进行判断,来选择子集群的参数服务器节点;
S6:集群的参数服务器主节点根据各工作节点的参数梯度来更新全局参数,各子集群的参数服务器节点从参数服务器主节点拉取最新的全局参数,而各子集群内各工作节点也从其所属的参数服务器节点拉取最新的全局参数;
S7:集群的主节点根据新的工作节点数量将所有训练数据均分为与新的工作节点数量等量的训练子集;
S8:各工作节点读取各自的训练子集并根据最新的全局参数分别执行一次训练;
S9:各子集群内各工作节点将训练一次深度卷积神经网络模型得到的参数梯度发送给其所属的参数服务器节点,各子集群的参数服务器节点接收到其内所有工作节点的参数梯度后计算子集群的平均参数梯度;
S10:当子集群的参数服务器节点完成平均参数梯度的计算后,向集群的参数服务器主节点发送该子集群的平均参数梯度gmean和当前迭代次数tx,参数服务器主节点加权更新全局参数,待全局参数更新后该子集群的参数服务器节点将从参数服务器主节点拉取最新的全局参数,同时该子集群内各工作节点将从该参数服务器节点拉取最新的全局参数;
S11:集群的参数服务器主节点判断深度卷积神经网络模型是否已收敛,若否,则返回S8,若是,则停止训练,输出最终的深度卷积神经网络模型。
上述方案中,通过混合采用参数服务器的同步参数更新策略和异步参数更新策略,避免了因木桶效应造成的更新全局参数等待时间过长的问题,缓解了因梯度过时导致的梯度下降过程不稳定,加快了模型的分布式并行训练速度,提高了模型的收敛速度和精度。
在步骤S4中,包括以下步骤:
S41:将各工作节点的训练时间取倒数并归一化,由此构造各工作节点的训练速度的差值矩阵;
S42:采用基于密度的自适应聚类算法DBSCAN对训练速度的差值矩阵进行聚类分析,将训练速度相近的工作节点聚为一类即划分为一个子集群。
所述差值矩阵为:
Figure BDA0002894423960000071
VDn,m代表工作节点n与工作节点m的模型训练速度的差值的绝对值(1≤n,m≤N)。
自适应聚类算法DBSCAN的参数设置如下:∈-邻域的距离阈值设置为0.3~0.7,∈-邻域的距离阈值的样本数阈值设置为3~7,距离度量采用欧式距离,最近邻算法使用KD树,停止建子树的叶子节点数量阈值设置为20~40。
∈-邻域的距离阈值设置为0.5,∈-邻域的距离阈值的样本数阈值设置为5,停止建子树的叶子节点数量阈值设置为30。
在步骤S5中,子集群的个数为M,工作节点数量为K;
若K≥M+1,则从训练速度最慢的子集群中根据工作节点的训练速度的升序排列选择M个节点作为M个子集群的参数服务器节点;
若K=M,则从训练速度最慢的子集群中根据工作节点的训练速度的降序排列选择M-1个节点作为其余M-1个子集群的参数服务器节点,余下的1个工作节点不参与深度卷积神经网络的分布式并行训练;
若K=M-1,则从训练速度最慢的子集群中选择所有节点作为其余M-1个子集群的参数服务器节点;
若K<M-1,则先按每个子集群中工作节点的最大模型训练速度对所有子集群进行升序排列,再从子集群中根据工作节点的训练速度的升序排列选择工作节点作为参数服务器节点直到满足参数服务器节点的个数为M-n,其中n为工作节点全被选作为参数服务器节点的子集群的数量。
在步骤S9中,各子集群的参数服务器节点接收到其内所有工作节点的参数梯度后按以下公式计算子集群的平均参数梯度:
Figure BDA0002894423960000081
其中x(1≤x≤N)表示工作节点的编号,N表示工作节点的数量、t表示当前迭代次数,
Figure BDA0002894423960000082
表示参数梯度。
在步骤S10中,参数服务器主节点通过以下算法来加权更新全局参数:
Figure BDA0002894423960000083
其中R为参数服务器节点的数量,α为学习率,tx为当前迭代次数,Wt为当前迭代次数时的全局参量。
实施例2
根据图2所示,该方法基于数据并行的思想在异构集群中分布式并行训练深度卷积神经网络模型,并混合了参数服务器的同步参数更新和异步参数更新。混合参数更新的示意图如图2所示,采用参数服务器主节点管理异构集群中的所有工作节点,根据异构集群中的各工作节点的模型训练速度将该集群划分为多个子集群,并为每个子集群指定一个参数服务器节点,子集群内各工作节点的模型的参数更新采用同步参数更新策略,集群内各参数服务器节点的参数更新采用异步参数更新策略。当某子集群的参数服务器节点接收到其负责的所有工作节点的参数梯度后,计算该子集群的平均参数梯度并将平均梯度和当前迭代次数发送给参数服务器主节点,参数服务器主节点立刻加权更新全局参数,待全局参数更新后子集群的参数服务器节点将从参数服务器主节点拉取最新的全局参数,同时该子集群内各工作节点将从该参数服务器节点拉取最新的全局参数。
在面向异构集群的深度卷积神经网络的分布式并行训练中,混合了参数服务器的同步参数更新和异步参数更新。采用参数服务器主节点管理异构集群中的所有工作节点,根据异构集群中的各工作节点的模型训练速度将该集群划分为多个子集群,并为每个子集群指定一个参数服务器节点,子集群内各工作节点的模型的参数更新采用同步参数更新策略,集群内各参数服务器节点的参数更新采用异步参数更新策略。当某子集群的参数服务器节点接收到其负责的所有工作节点的参数梯度后,计算该子集群的平均参数梯度并将平均梯度和当前迭代次数发送给参数服务器主节点,参数服务器主节点立刻加权更新全局参数,待全局参数更新后子集群的参数服务器节点将从参数服务器主节点拉取最新的全局参数,同时该子集群内各工作节点将从该参数服务器节点拉取最新的全局参数。
将各工作节点的模型训练时间取倒数并归一化,由此构造各工作节点的模型训练速度的差值矩阵,采用基于密度的自适应聚类算法DBSCAN对速度差值矩阵进行聚类分析,将模型训练速度相近的工作节点聚为一类即划分为一个子集群,从模型训练速度较慢的子集群中选择工作节点作为子集群的参数服务器节点。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.深度卷积神经网络的分布式训练方法,其特征在于,包括以下步骤:
S1:初始化深度卷积神经网络中集群的主节点的所有参数,并广播到各工作节点,再根据各工作节点的数量将所有训练数据均分为若干个训练子集;
S2:各工作节点读取一个训练子集并根据深度卷积神经网络的初始化参数来训练一个深度卷积神经网络模型;
S3:各工作节点将各自训练的深度卷积神经网络模型得到的参数梯度和训练时间汇总给集群的主节点;
S4:集群的主节点根据各工作节点的训练时间将各工作节点划分为不同的子集群;
S5:根据子集群的个数和训练速度最慢的子集群中的工作节点数量进行判断,来选择子集群的参数服务器节点;
S6:集群的参数服务器主节点根据各工作节点的参数梯度来更新全局参数,各子集群的参数服务器节点从参数服务器主节点拉取最新的全局参数,而各子集群内各工作节点也从其所属的参数服务器节点拉取最新的全局参数;
S7:集群的主节点根据新的工作节点数量将所有训练数据均分为与新的工作节点数量等量的训练子集;
S8:各工作节点读取各自的训练子集并根据最新的全局参数分别执行一次训练;
S9:各子集群内各工作节点将训练一次深度卷积神经网络模型得到的参数梯度发送给其所属的参数服务器节点,各子集群的参数服务器节点接收到其内所有工作节点的参数梯度后计算子集群的平均参数梯度;
S10:当子集群的参数服务器节点完成平均参数梯度的计算后,向集群的参数服务器主节点发送该子集群的平均参数梯度gmean和当前迭代次数tx,参数服务器主节点加权更新全局参数,待全局参数更新后该子集群的参数服务器节点将从参数服务器主节点拉取最新的全局参数,同时该子集群内各工作节点将从该参数服务器节点拉取最新的全局参数;
S11:集群的参数服务器主节点判断深度卷积神经网络模型是否已收敛,若否,则返回S8,若是,则停止训练,输出最终的深度卷积神经网络模型。
2.根据权利要求1所述的深度卷积神经网络的分布式训练方法,其特征在于,在步骤S4中,包括以下步骤:
S41:将各工作节点的训练时间取倒数并归一化,由此构造各工作节点的训练速度的差值矩阵;
S42:采用基于密度的自适应聚类算法DBSCAN对训练速度的差值矩阵进行聚类分析,将训练速度相近的工作节点聚为一类即划分为一个子集群。
3.根据权利要求2所述的深度卷积神经网络的分布式训练方法,其特征在于,所述差值矩阵为:
Figure FDA0002894423950000021
VDn,m代表工作节点n与工作节点m的模型训练速度的差值的绝对值(1≤n,m≤N)。
4.根据权利要求2所述的深度卷积神经网络的分布式训练方法,其特征在于,自适应聚类算法DBSCAN的参数设置如下:∈-邻域的距离阈值设置为0.3~0.7,∈-邻域的距离阈值的样本数阈值设置为3~7,距离度量采用欧式距离,最近邻算法使用KD树,停止建子树的叶子节点数量阈值设置为20~40。
5.根据权利要求4所述的深度卷积神经网络的分布式训练方法,其特征在于,∈-邻域的距离阈值设置为0.5,∈-邻域的距离阈值的样本数阈值设置为5,停止建子树的叶子节点数量阈值设置为30。
6.根据权利要求2所述的深度卷积神经网络的分布式训练方法,其特征在于,在步骤S5中,子集群的个数为M,工作节点数量为K;
若K≥M+1,则从训练速度最慢的子集群中根据工作节点的训练速度的升序排列选择M个节点作为M个子集群的参数服务器节点;
若K=M,则从训练速度最慢的子集群中根据工作节点的训练速度的降序排列选择M-1个节点作为其余M-1个子集群的参数服务器节点,余下的1个工作节点不参与深度卷积神经网络的分布式并行训练;
若K=M-1,则从训练速度最慢的子集群中选择所有节点作为其余M-1个子集群的参数服务器节点;
若K<M-1,则先按每个子集群中工作节点的最大模型训练速度对所有子集群进行升序排列,再从子集群中根据工作节点的训练速度的升序排列选择工作节点作为参数服务器节点直到满足参数服务器节点的个数为M-n,其中n为工作节点全被选作为参数服务器节点的子集群的数量。
7.根据权利要求5所述的深度卷积神经网络的分布式训练方法,其特征在于,在步骤S9中,各子集群的参数服务器节点接收到其内所有工作节点的参数梯度后按以下公式计算子集群的平均参数梯度:
Figure FDA0002894423950000031
其中x(1≤x≤N)表示工作节点的编号,N表示工作节点的数量、t表示当前迭代次数,
Figure FDA0002894423950000032
表示参数梯度。
8.根据权利要求6所述的深度卷积神经网络的分布式训练方法,其特征在于,在步骤S10中,参数服务器主节点通过以下算法来加权更新全局参数:
Figure FDA0002894423950000033
其中R为参数服务器节点的数量,α为学习率,tx为当前迭代次数,Wt为当前迭代次数时的全局参量。
9.深度卷积神经网络的分布式训练设备,其特征在于,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至8任一项所述的深度卷积神经网络的分布式训练方法。
10.一种计算机可读的存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至8任一项所述的深度卷积神经网络的分布式训练方法。
CN202110038535.8A 2021-01-12 2021-01-12 深度卷积神经网络的分布式训练方法、设备和存储介质 Active CN112712171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110038535.8A CN112712171B (zh) 2021-01-12 2021-01-12 深度卷积神经网络的分布式训练方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110038535.8A CN112712171B (zh) 2021-01-12 2021-01-12 深度卷积神经网络的分布式训练方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112712171A true CN112712171A (zh) 2021-04-27
CN112712171B CN112712171B (zh) 2022-08-12

Family

ID=75548867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110038535.8A Active CN112712171B (zh) 2021-01-12 2021-01-12 深度卷积神经网络的分布式训练方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112712171B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656494A (zh) * 2021-07-27 2021-11-16 中南大学 参数服务器的同步方法、系统及可读存储介质
CN114726861A (zh) * 2022-04-02 2022-07-08 中国科学技术大学苏州高等研究院 基于空闲服务器的模型聚合加速方法和装置
CN116962176A (zh) * 2023-09-21 2023-10-27 浪潮电子信息产业股份有限公司 一种分布式集群的数据处理方法、装置、系统及存储介质
WO2024001870A1 (zh) * 2022-06-29 2024-01-04 华为技术有限公司 一种人工智能模型的训练方法及相关设备
CN117687800A (zh) * 2024-02-02 2024-03-12 山东海量信息技术研究院 一种跨域分布式计算方法、系统、存储介质和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107018184A (zh) * 2017-03-28 2017-08-04 华中科技大学 分布式深度神经网络集群分组同步优化方法及系统
CN107578094A (zh) * 2017-10-25 2018-01-12 济南浪潮高新科技投资发展有限公司 基于参数服务器和fpga实现神经网络分布式训练的方法
US20180307986A1 (en) * 2017-04-20 2018-10-25 Sas Institute Inc. Two-phase distributed neural network training system
US20190042934A1 (en) * 2017-12-01 2019-02-07 Meenakshi Arunachalam Methods and apparatus for distributed training of a neural network
US20190205745A1 (en) * 2017-12-29 2019-07-04 Intel Corporation Communication optimizations for distributed machine learning
CN111353582A (zh) * 2020-02-19 2020-06-30 四川大学 一种基于粒子群算法的分布式深度学习参数更新方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107018184A (zh) * 2017-03-28 2017-08-04 华中科技大学 分布式深度神经网络集群分组同步优化方法及系统
US20180307986A1 (en) * 2017-04-20 2018-10-25 Sas Institute Inc. Two-phase distributed neural network training system
CN107578094A (zh) * 2017-10-25 2018-01-12 济南浪潮高新科技投资发展有限公司 基于参数服务器和fpga实现神经网络分布式训练的方法
US20190042934A1 (en) * 2017-12-01 2019-02-07 Meenakshi Arunachalam Methods and apparatus for distributed training of a neural network
US20190205745A1 (en) * 2017-12-29 2019-07-04 Intel Corporation Communication optimizations for distributed machine learning
CN111353582A (zh) * 2020-02-19 2020-06-30 四川大学 一种基于粒子群算法的分布式深度学习参数更新方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LANJUN WAN 等: "Rolling Bearing Fault Prediction Method Based on QPSO-BP Neural Network and Dempster–Shafer on QPSO-BP Neural Network and Dempster–Shafer", 《ENERGIES》 *
QIHUA ZHOU 等: "Falcon: Towards Computation-Parallel Deep Learning in Heterogeneous Parameter Server", 《2019 IEEE 39TH INTERNATIONAL CONFERENCE ON DISTRIBUTED COMPUTING SYSTEMS (ICDCS)》 *
朱虎明 等: "深度神经网络并行化研究综述", 《计算机学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656494A (zh) * 2021-07-27 2021-11-16 中南大学 参数服务器的同步方法、系统及可读存储介质
CN113656494B (zh) * 2021-07-27 2024-06-07 中南大学 参数服务器的同步方法、系统及可读存储介质
CN114726861A (zh) * 2022-04-02 2022-07-08 中国科学技术大学苏州高等研究院 基于空闲服务器的模型聚合加速方法和装置
CN114726861B (zh) * 2022-04-02 2023-07-18 中国科学技术大学苏州高等研究院 基于空闲服务器的模型聚合加速方法和装置
WO2024001870A1 (zh) * 2022-06-29 2024-01-04 华为技术有限公司 一种人工智能模型的训练方法及相关设备
CN116962176A (zh) * 2023-09-21 2023-10-27 浪潮电子信息产业股份有限公司 一种分布式集群的数据处理方法、装置、系统及存储介质
CN116962176B (zh) * 2023-09-21 2024-01-23 浪潮电子信息产业股份有限公司 一种分布式集群的数据处理方法、装置、系统及存储介质
CN117687800A (zh) * 2024-02-02 2024-03-12 山东海量信息技术研究院 一种跨域分布式计算方法、系统、存储介质和电子设备
CN117687800B (zh) * 2024-02-02 2024-05-03 山东海量信息技术研究院 一种跨域分布式计算方法、系统、存储介质和电子设备

Also Published As

Publication number Publication date
CN112712171B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN112712171B (zh) 深度卷积神经网络的分布式训练方法、设备和存储介质
CN110851429B (zh) 一种基于影响力自适应聚合的边缘计算可信协同服务方法
CN109271015B (zh) 一种降低大规模分布式机器学习系统能耗的方法
CN111353582B (zh) 一种基于粒子群算法的分布式深度学习参数更新方法
CN106297774B (zh) 一种神经网络声学模型的分布式并行训练方法及系统
CN108564164B (zh) 一种基于spark平台的并行化深度学习方法
CN110889509B (zh) 一种基于梯度动量加速的联合学习方法及装置
CN110362380B (zh) 一种面向网络靶场的多目标优化虚拟机部署方法
CN104503826B (zh) 一种云计算数据中心的虚拟机映射方法及装置
Zhan et al. Pipe-torch: Pipeline-based distributed deep learning in a gpu cluster with heterogeneous networking
CN109617826A (zh) 一种基于布谷鸟搜索的storm动态负载均衡方法
CN112073237B (zh) 一种云边架构中大规模目标网络构建方法
Cao et al. HADFL: Heterogeneity-aware decentralized federated learning framework
CN115277454B (zh) 用于分布式深度学习训练的聚合通信方法
CN109976873B (zh) 容器化分布式计算框架的调度方案获取方法及调度方法
CN110380906B (zh) 一种大规模多维融合的虚拟网络映射方法
CN112199154A (zh) 一种基于分布式协同采样中心式优化的强化学习训练系统及方法
He et al. Beamer: stage-aware coflow scheduling to accelerate hyper-parameter tuning in deep learning clusters
CN112527450B (zh) 基于不同资源的超融合自适应方法、终端及系统
CN117875454A (zh) 一种基于多级智联的数据异构性联邦学习方法及存储介质
CN117829307A (zh) 一种面向数据异构性的联邦学习方法及系统
CN110557427B (zh) 一种均衡网络性能和安全的智能家居安全控制方法
CN116431281A (zh) 一种基于鲸鱼优化算法的虚拟机迁移方法
CN113296893B (zh) 一种基于混合正弦余弦粒子群优化算法的云平台低资源损耗虚拟机放置方法
CN115643008A (zh) 一种基于划分聚类的pbft算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant