CN108460457A - 一种面向卷积神经网络的多机多卡混合并行异步训练方法 - Google Patents

一种面向卷积神经网络的多机多卡混合并行异步训练方法 Download PDF

Info

Publication number
CN108460457A
CN108460457A CN201810295401.2A CN201810295401A CN108460457A CN 108460457 A CN108460457 A CN 108460457A CN 201810295401 A CN201810295401 A CN 201810295401A CN 108460457 A CN108460457 A CN 108460457A
Authority
CN
China
Prior art keywords
gpu
parameter
training
parallel
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810295401.2A
Other languages
English (en)
Inventor
汪浩源
程诚
王旭光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou's Wisdom And Intelligence Science And Technology Ltd Co
Original Assignee
Suzhou's Wisdom And Intelligence Science And Technology Ltd Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou's Wisdom And Intelligence Science And Technology Ltd Co filed Critical Suzhou's Wisdom And Intelligence Science And Technology Ltd Co
Priority to CN201810295401.2A priority Critical patent/CN108460457A/zh
Publication of CN108460457A publication Critical patent/CN108460457A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种面向卷积神经网络的多机多卡混合并行异步训练方法,包括如下步骤:构建CNN模型,并设置训练参数;将Softmax层的数据并行改为模型并行,将完整模型划分为若干分片,分别对应若干个GPU进行计算;改写Softmax层的源代码,不在计算结果之前交换参数数据,而是将计算结果执行Ring All‑reduce通信算法操作;多机多卡之间选出一块GPU作为参数服务器,其余所有的GPU都作为训练用;在Parameter Server模型中,各Server只负责分到的部分参数和处理任务;各子节点维护自己的参数,更新后,将结果传回主节点进行全局更新,主节点再向子节点传送新参数,依此完成训练。

Description

一种面向卷积神经网络的多机多卡混合并行异步训练方法
技术领域
本发明涉及一种应用于提高深度学习训练效率方法。
背景技术
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。目前,深度学习在几个重要领域获得了突破性的进展,分别是语音识别、图像识别领域、自然语言处理。深度学习是最接近人类大脑的智能学习方法,具有模型参数多,计算量大,训练数据的规模大,需要消耗较多的计算资源等特点。因此,对于大规模的训练数据和模型,必须加速训练可以提高工作效率,将难以完成的任务变成可能。
随着NVIDIA、AMD等公司不断推进其GPU的大规模并行架构支持,面向通用计算的GPU(General-Purposed GPU,GPGPU)已成为加速可并行应用程序的重要手段。得益于GPU众核(many-core)体系结构,程序在GPU系统上的运行速度相较于单核CPU往往提升几十倍乃至上千倍。利用GPU来训练深度神经网络,可以充分发挥其数以千计计算核心的高效并行计算能力,即使在使用海量训练数据的场景下,所耗费的时间大幅缩短,占用的服务器也更少。
目前大部分服务器都有8个或更多的GPU。原则上,使用更多的GPU可以大幅度地提升效率,但是处理器之间大量的数据交互会造成计算难度,并且通信也会大于计算开销。
所述并行架构包括数据并行、模型并行和混合并行架构。
(1)数据并行
数据并行是指对训练数据做切分,同时采用多个模型实例,对多个分片的数据并行训练。主要通过参数交换完成数据并行,通常由一个参数服务器(Parameter Server)来帮助完成。在训练的过程中,多个训练过程相互独立,训练的结果,即模型的变化量ΔW需要汇报给参数服务器,由参数服务器负责更新为最新的模型W’=W–η·ΔW,然后再将最新的模型W’分发给训练程序,以便从新的起点开始训练。
数据并行有同步模式和异步模式之分。
同步模式中,所有训练程序同时训练一个批次的训练数据,完成后经过同步,再同时交换参数。参数交换完成后所有的训练程序就有了共同的新模型作为起点,再训练下一个批次。而异步模式中,训练程序完成一个批次的训练数据,立即和参数服务器交换参数,不考虑其他训练程序的状态。异步模式中一个训练程序的最新结果不会立刻体现在其他训练程序中,直到他们进行下次参数交换。参数服务器只是一个逻辑上的概念,不一定部署为独立的一台服务器。有时候它会附属在某一个训练程序上,有时也会将参数服务器按照模型划分为不同的分片,分别部署。
(2)模型并行
模型并行将模型拆分成几个分片,由几个训练单元分别持有,共同协作完成训练。当一个神经元的输入来自另一个训练单元上的神经元的输出时,会产生通信开销。大多数情况下,模型并行带来的通信开销和同步消耗超过数据并行计算,因此加速不及数据并行。但对于单机内存无法容纳的大模型来说,模型并行是一个很好的选择。令人遗憾的是,数据并行和模型并行都不能无限扩展。数据并行的训练程序太多时,不得不减小学习率,以保证训练过程的平稳;模型并行的分片太多时,神经元输出值的交换量会急剧增加,效率大幅下降。
(3)混合并行
同时进行模型并行和数据并行(即混合并行)也是另外一种优化方案。在一个集群中,既有模型并行,又有数据并行,例如,可以在同一台机器上采用模型并行化(在GPU之间切分模型),在机器之间采用数据并行化。
目前深度学习广泛应用在各个领域,随着大数据时代的到来,利用海量数据进行深度学习模型的训练成为主要的方法。当数据量增多,类别数增大,随之学习模型的参数也在增加。传统的深度学习并行方法都是数据并行,将数据划分为几个分片,每个GPU处理其中一份,并且进行参数交互。
假设一个深度神经网络结构有7层,共有4个GPU,图像数据的batch_size为64,图像特征的维度为128,类别数为100万,最后一层softmax层需要处理的数据参数如下:每个GPU处理的数据参数量为64*128W,模型参数量为128*100W,每个GPU针对不同的数据,在同一模型结构上进行训练,GPU间需要交互的参数量为4*128*100W。即,每个GPU利用部分数据,训练完整的模型,由于GPU间数据有差别,所以最后需要将每个GPU上计算的模型参数汇总。
如图3所示,A,B,C,D分别为每个GPU计算的模型参数,A+B+C+D为需要交互的参数。而4*128*100W这个数量级,严重影响模型的学习效率。
但对于类别数很多的数据,在深度神经网络结构中的最后一层全连接层上,进行参数交互的通信成本太高,花费的通信时间远高过参数计算的时间,成为大类别深度学习并行运算的瓶颈。以及多GPU的情况下,同步等待的时间过长,导致GPU利用率不高。
发明内容
本发明设计目的是:针对多核GPU可以大幅度地提升效率,但是核与核之间大量的数据交互会增加计算难度,在最后一层全连接层上,由于进行参数交互的通信成本太高,超过了计算开销,因此采用数据并行和模型并行的混合架构,保持原有深度学习效果的同时,大幅度提升模型学习效率。同步式的参数通信交互方式严重影响GPU之间的参数共享,因此采用异步的通信方式,减少GPU等待的时间。
为实现上述目的,本发明采用如下技术方案:
一种面向卷积神经网络的多机多卡混合并行异步训练方法,包括如下步骤:
步骤S1:构建CNN(卷积神经网络)模型,包括输入层(Input Layer)、若干卷积层(Convolution Layer)、若干池化层(Pooling layer)、全连接层(Fully Connected Layer,简称FC)和Softmax层,并设置训练参数,保证各机各GPU能正常运行,网络通信没有异常;
步骤S2:将Softmax层的数据并行改为模型并行,则一个完整模型划分为若干分片,分别对应在若干个GPU上进行计算,采用GPU的All-gather算法,使每个GPU上都能获得所有的数据信息,不再需要进行模型参数的通信;
步骤S3:改写Softmax层的源代码,不在计算结果之前交换参数数据,而是将计算结果执行Ring All-reduce通信算法操作;所述Ring All-reduce通信算法将GPU卡的通信模式拼接成一个环形,从而减少随着卡数增加而带来的资源消耗;
步骤S4:多机多卡之间选出一块GPU作为参数服务器,其余所有的GPU都作为训练用。主要采用MXNet开源框架,提供支持其分布式训练特性Parameter Server模型;
步骤S5:在Parameter Server模型中,每个Server只负责分到的部分参数(Servers共同维持一个全局的共享参数),而每个Work也只分到部分数据和处理任务;每个子节点都只维护自己分配到的参数,自己部分更新之后,将计算结果传回到主节点,进行全局的更新,主节点再向子节点传送新的参数,依此完成训练。
进一步地,所述输入层将数据内容识别为若干均匀矩阵架构,卷积层的激活函数为ReLU,其公式为
ReLU(x)=max(0,x);
其中,x为输入。
进一步地,所述Softmax采用激活函数来做数据信息识别的分类,所述激活函数公式定义如下:假设一组数组,元素i的Softmax值为
其中,Vi表示V中的第i个元素,为所有元素指数的和。
进一步地,所述Parameter Server模型与GPU之间的通信采用异步的方式,异步通信不需要停下来等一些机器执行完一个iteration(迭代),这大大减少了延时。为机器学习任务做了一些优化,能够大大减少网络流量和开销。
与现有技术相比,该面向卷积神经网络的多机多卡混合并行异步训练方法具有以下有益效果:
1.模型并行和数据并行混用,大幅度减少了通信开销,提高了GPU运行效率;
2.借助Ring Allreduce通信算法,以前都是一个一个向单个处理器发送数据,速度很慢,而Ring All-reduce算法是同时发送,这样发送时间就大大减少,提高训练效率;
3.GPU之间的数据通信方式由同步换成异步,减少GPU等待的时间,不需要停下来等一些机器执行完一个迭代,这大大减少了延时,为机器学习任务做了一些优化,能够大大减少网络流量和开销;
4.可以线性增加GPU数量,集群增加更能提高训练效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本实施例数据并行的基本架构图;
图2为本实施例模型并行的基本架构图;
图3为本实施例GPU间数据并行Ring All-reduce算法模型示意图;
图4为本实施例所述All-Gather算法模型示意图;
图5为本实施例GPU分布式计算结构示意图;
图6为本实施例GPU卡环形通信模型示意图。
具体实施方式
下面将结合本发明实施例附图,对本发明实施例中的技术方案进行清楚、完整地描述。
实施例
本实施例提出的一种面向卷积神经网络的多机多卡混合并行异步训练方法,包括如下步骤:
步骤S1:构建CNN模型,设置训练参数,保证各机各GPU能正常运行,网络通信没有异常。
步骤S2:将最后一层改为模型并行,则一个完整模型划分为4个分片,分别在4个GPU上进行计算,不再需要进行模型参数的通信。传统的GPU并行方法中,最后一层同样是数据并行,而本发明采用GPU的All-gather算法,使每个GPU上都能获得所有的数据信息(本实施例为所有的图片特征)。GPU可以根据所有的数据信息来训练自己的模型分片,保证了模型的每个部分都是由所有的数据学习得到的。
进一步的实施步骤是:改写Softmax层的源代码,不在计算结果之前交换参数数据,而是将结果计算得出之后,执行All-reduce操作。减少中间不必要的通信开销,即变为模型并行,非数据并行。
请参照图4,A,B,C,D视为每个GPU上处理的数据部分(指图片特征),数据量即为上述的64*128W,本实施例通过All-gather算法,将数据部分(即图片特征)传输至每块GPU上,以保证各个GPU上的数据完全一致。每个GPU只计算自己的模型分片,而传输的信息由模型参数变为特征参数,数据量上由4*128*100W变为4*128*25W。最后4个GPU上的模型分片组合为一个完整的模型。
步骤S3:多机多卡之间选出一块GPU作为参数服务器,其余所有的GPU都作为训练用。采用MXNet开源框架,提供支持其分布式训练特性Parameter Server。通用的分布式系统通常都是:每次迭代都强制同步,通常在几十个节点上,它们的性能可以表现的很好,但是在大规模集群中,这样的每次迭代强制同步的机制会因为木桶效应变得很慢。由于是异步的通信,因此不需要停下来等一些机器执行完一个iteration,这大大减少了延时。为机器学习任务做了一些优化,能够大大减少网络流量和开销;宽松的一致性要求进一步减少了同步的成本和延时。Parameter Server有诸多优点:允许算法设计者根据自身的情况来做算法收敛速度和系统性能之间的Trade-off;使用了一个分布式hash表使得新的Server节点可以随时动态的插入到集合中,因此新增一个节点不需要重新运行系统。
步骤S4:与Parameter Server GPU之间通信采用异步的方式,减少GPU等待的时间。由于是异步的通信,因此不需要停下来等一些机器执行完一个iteration(迭代),这大大减少了延时。为机器学习任务做了一些优化,能够大大减少网络流量和开销。
步骤S5:在Parameter Server中,每个Server实际上都只负责分到的部分参数(Servers共同维持一个全局的共享参数),而每个Work也只分到部分数据和处理任务;每个子节点都只维护自己分配到的参数,自己部分更新之后,将计算结果传回到主节点,进行全局的更新,主节点再向子节点传送新的参数,依此完成训练。
进一步的实施步骤是:将Softmax层改为模型并行,则一个完整模型划分为4个分片,分别在4个GPU上进行计算,不再需要进行模型参数的通信。传统的GPU并行方法中,最后一层同样是数据并行,而本实施例采用GPU的All-gather算法,使每个GPU上都能获得所有的数据信息(本实施例为所有的图片特征)。GPU可以根据所有的数据信息来训练自己的模型分片,保证了模型的每个部分都是由所有的数据学习得到的。
进一步的实施步骤是:本实施例将Softmax层由数据并行改为模型并行。对于网络结构中的其他层,需要交互的参数量不多,在GPU并行过程中,产生的通信成本不高,可以继续沿用传统的数据并行方法。但在Softmax层中,模型参数的数量与数据类别数关系紧密,因此在大类别的深度学习中,最后一层的参数交互就成了提升算法性能的瓶颈。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种面向卷积神经网络的多机多卡混合并行异步训练方法,其特征在于:包括如下步骤:
步骤S1:构建CNN(卷积神经网络)模型,依次包括输入层、若干卷积层、若干池化层、全连接层和Softmax层,并设置训练参数,保证各机各GPU能正常运行,网络通信没有异常;
步骤S2:将Softmax层的数据并行改为模型并行,则一个完整模型划分为若干分片,分别对应在若干个GPU上进行计算,采用GPU的All-gather算法,使每个GPU上都能获得所有的数据信息,不再需要进行模型参数的通信;
步骤S3:改写Softmax层的源代码,不在计算结果之前交换参数数据,而是将计算结果执行Ring All-reduce通信算法操作,所述Ring All-reduce通信算法将GPU卡的通信模式拼接成一个环形;
步骤S4:多机多卡之间选出一块GPU作为参数服务器,其余所有的GPU都作为训练用,主要采用MXNet开源框架,提供支持其分布式训练特性Parameter Server模型;
步骤S5:在Parameter Server模型中,每个Server只负责分到的部分参数,而每个Work也只分到部分数据和处理任务,每个子节点都只维护自己分配到的参数,自己部分更新之后,将计算结果传回到主节点,进行全局的更新,主节点再向子节点传送新的参数,依此完成训练。
2.根据权利要求1所述的面向卷积神经网络的多机多卡混合并行异步训练方法,其特征在于:所述输入层将数据内容识别为若干均匀矩阵架构,卷积层的激活函数为ReLU,其公式为
ReLU(x)=max(0,x);
其中,x为输入。
3.根据权利要求1所述的面向卷积神经网络的多机多卡混合并行异步训练方法,其特征在于:所述Softmax层采用激活函数来做数据信息识别的分类,所述激活函数公式定义如下:假设一组数组,元素i的Softmax值为
其中,Vi表示V中的第i个元素,为所有元素指数的和。
4.根据权利要求1所述的面向卷积神经网络的多机多卡混合并行异步训练方法,其特征在于:所述Parameter Server模型与GPU之间的通信采用异步的方式。
CN201810295401.2A 2018-03-30 2018-03-30 一种面向卷积神经网络的多机多卡混合并行异步训练方法 Pending CN108460457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810295401.2A CN108460457A (zh) 2018-03-30 2018-03-30 一种面向卷积神经网络的多机多卡混合并行异步训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810295401.2A CN108460457A (zh) 2018-03-30 2018-03-30 一种面向卷积神经网络的多机多卡混合并行异步训练方法

Publications (1)

Publication Number Publication Date
CN108460457A true CN108460457A (zh) 2018-08-28

Family

ID=63234696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810295401.2A Pending CN108460457A (zh) 2018-03-30 2018-03-30 一种面向卷积神经网络的多机多卡混合并行异步训练方法

Country Status (1)

Country Link
CN (1) CN108460457A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508785A (zh) * 2018-10-29 2019-03-22 清华大学 一种用于神经网络训练的异步并行优化方法
CN109919310A (zh) * 2019-01-15 2019-06-21 中国科学院信息工程研究所 一种面向深度学习训练任务的gpu内存优化方法及系统
CN110059813A (zh) * 2019-02-13 2019-07-26 阿里巴巴集团控股有限公司 利用gpu集群更新卷积神经网络的方法、装置及设备
CN110389834A (zh) * 2019-06-28 2019-10-29 苏州浪潮智能科技有限公司 一种用于提交深度学习训练任务的方法和装置
CN110618870A (zh) * 2019-09-20 2019-12-27 广东浪潮大数据研究有限公司 一种深度学习训练任务的工作方法及装置
CN110705705A (zh) * 2019-09-25 2020-01-17 浪潮电子信息产业股份有限公司 卷积神经网络模型同步训练方法、集群及可读存储介质
CN110852445A (zh) * 2019-10-28 2020-02-28 广州文远知行科技有限公司 分布式机器学习训练方法、装置、计算机设备和存储介质
CN111198760A (zh) * 2018-11-20 2020-05-26 北京搜狗科技发展有限公司 一种数据处理方法和装置
CN111475250A (zh) * 2019-01-24 2020-07-31 阿里巴巴集团控股有限公司 一种云环境下的网络优化方法和装置
CN111539519A (zh) * 2020-04-30 2020-08-14 成都成信高科信息技术有限公司 一种面向海量数据的卷积神经网络训练引擎方法及系统
CN111783932A (zh) * 2019-04-03 2020-10-16 华为技术有限公司 训练神经网络的方法和装置
CN111898424A (zh) * 2020-06-19 2020-11-06 贝壳技术有限公司 文字识别模型训练方法、装置、电子设备及存储介质
CN112396154A (zh) * 2019-08-16 2021-02-23 华东交通大学 一种基于卷积神经网络训练的并行方法
CN112416293A (zh) * 2020-11-24 2021-02-26 深圳市人工智能与机器人研究院 一种神经网络增强方法、系统及其应用
CN112446484A (zh) * 2019-08-31 2021-03-05 深圳致星科技有限公司 一种多任务训练集群智能网络系统及集群网络优化方法
CN112464784A (zh) * 2020-11-25 2021-03-09 西安烽火软件科技有限公司 一种基于混合并行的分布式训练方法
CN113132141A (zh) * 2019-12-31 2021-07-16 深圳致星科技有限公司 一种存储、业务网分离的分布式训练高效通信网络、方法
CN113177632A (zh) * 2021-04-13 2021-07-27 支付宝(杭州)信息技术有限公司 一种基于流水线并行的模型训练方法、装置以及设备
US11082149B2 (en) 2019-06-20 2021-08-03 Nokia Technologies Oy Communication system having a configurable modulation order and an associated method and apparatus
CN113627603A (zh) * 2021-10-12 2021-11-09 成都时识科技有限公司 在芯片中实现异步卷积的方法、类脑芯片及电子设备
CN113961337A (zh) * 2021-09-14 2022-01-21 上海海洋大学 基于改进的Ring All Reduce算法的面向深度学习的GPU并行方法
CN114035936A (zh) * 2021-10-15 2022-02-11 北京潞晨科技有限公司 一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质
CN114459281A (zh) * 2022-01-26 2022-05-10 广州华凯车辆装备有限公司 一种水炮车用智能人像识别精准打击系统
CN116974654A (zh) * 2023-09-21 2023-10-31 浙江大华技术股份有限公司 一种图像数据的处理方法、装置、电子设备及存储介质
WO2024001870A1 (zh) * 2022-06-29 2024-01-04 华为技术有限公司 一种人工智能模型的训练方法及相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630882A (zh) * 2015-12-18 2016-06-01 哈尔滨工业大学深圳研究生院 基于遥感数据深度学习的近海污染物识别与跟踪方法
US20160267380A1 (en) * 2015-03-13 2016-09-15 Nuance Communications, Inc. Method and System for Training a Neural Network
CN106293942A (zh) * 2016-08-10 2017-01-04 中国科学技术大学苏州研究院 基于多机多卡的神经网络负载均衡优化方法和系统
CN106446433A (zh) * 2016-09-30 2017-02-22 云翼超算(北京)软件科技有限公司 一种求解材料大变形的双层混合并行最优输运无网格方法
US20170132528A1 (en) * 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Joint model training
CN107092960A (zh) * 2017-04-17 2017-08-25 中国民航大学 一种改进的并行通道卷积神经网络训练方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160267380A1 (en) * 2015-03-13 2016-09-15 Nuance Communications, Inc. Method and System for Training a Neural Network
US20170132528A1 (en) * 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Joint model training
CN105630882A (zh) * 2015-12-18 2016-06-01 哈尔滨工业大学深圳研究生院 基于遥感数据深度学习的近海污染物识别与跟踪方法
CN106293942A (zh) * 2016-08-10 2017-01-04 中国科学技术大学苏州研究院 基于多机多卡的神经网络负载均衡优化方法和系统
CN106446433A (zh) * 2016-09-30 2017-02-22 云翼超算(北京)软件科技有限公司 一种求解材料大变形的双层混合并行最优输运无网格方法
CN107092960A (zh) * 2017-04-17 2017-08-25 中国民航大学 一种改进的并行通道卷积神经网络训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEX KRIZHEVSKY: "One weird trick for parallelizing convolutional neural networks", 《ARXIV》 *
MU LI 等: "Scaling Distributed Machine Learning with the Parameter Server", 《OSDI》 *
张逸飞 等: "基于GPU的分块约化算法在小干扰稳定分析中的应用", 《电力系统自动化》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508785A (zh) * 2018-10-29 2019-03-22 清华大学 一种用于神经网络训练的异步并行优化方法
CN111198760A (zh) * 2018-11-20 2020-05-26 北京搜狗科技发展有限公司 一种数据处理方法和装置
CN109919310A (zh) * 2019-01-15 2019-06-21 中国科学院信息工程研究所 一种面向深度学习训练任务的gpu内存优化方法及系统
CN109919310B (zh) * 2019-01-15 2021-05-18 中国科学院信息工程研究所 一种面向深度学习训练任务的gpu内存优化方法及系统
CN111475250B (zh) * 2019-01-24 2023-05-26 阿里巴巴集团控股有限公司 一种云环境下的网络优化方法和装置
CN111475250A (zh) * 2019-01-24 2020-07-31 阿里巴巴集团控股有限公司 一种云环境下的网络优化方法和装置
US11640531B2 (en) 2019-02-13 2023-05-02 Advanced New Technologies Co., Ltd. Method, apparatus and device for updating convolutional neural network using GPU cluster
TWI716102B (zh) * 2019-02-13 2021-01-11 開曼群島商創新先進技術有限公司 利用gpu集群更新卷積神經網路的方法、裝置及設備
CN110059813A (zh) * 2019-02-13 2019-07-26 阿里巴巴集团控股有限公司 利用gpu集群更新卷积神经网络的方法、装置及设备
CN110059813B (zh) * 2019-02-13 2021-04-06 创新先进技术有限公司 利用gpu集群更新卷积神经网络的方法、装置及设备
WO2020164338A1 (zh) * 2019-02-13 2020-08-20 阿里巴巴集团控股有限公司 利用gpu集群更新卷积神经网络的方法、装置及设备
CN111783932A (zh) * 2019-04-03 2020-10-16 华为技术有限公司 训练神经网络的方法和装置
US11082149B2 (en) 2019-06-20 2021-08-03 Nokia Technologies Oy Communication system having a configurable modulation order and an associated method and apparatus
CN110389834A (zh) * 2019-06-28 2019-10-29 苏州浪潮智能科技有限公司 一种用于提交深度学习训练任务的方法和装置
CN112396154A (zh) * 2019-08-16 2021-02-23 华东交通大学 一种基于卷积神经网络训练的并行方法
CN112446484A (zh) * 2019-08-31 2021-03-05 深圳致星科技有限公司 一种多任务训练集群智能网络系统及集群网络优化方法
CN110618870A (zh) * 2019-09-20 2019-12-27 广东浪潮大数据研究有限公司 一种深度学习训练任务的工作方法及装置
CN110618870B (zh) * 2019-09-20 2021-11-19 广东浪潮大数据研究有限公司 一种深度学习训练任务的工作方法及装置
CN110705705B (zh) * 2019-09-25 2022-04-22 浪潮电子信息产业股份有限公司 卷积神经网络模型同步训练方法、集群及可读存储介质
CN110705705A (zh) * 2019-09-25 2020-01-17 浪潮电子信息产业股份有限公司 卷积神经网络模型同步训练方法、集群及可读存储介质
CN110852445A (zh) * 2019-10-28 2020-02-28 广州文远知行科技有限公司 分布式机器学习训练方法、装置、计算机设备和存储介质
CN113132141A (zh) * 2019-12-31 2021-07-16 深圳致星科技有限公司 一种存储、业务网分离的分布式训练高效通信网络、方法
CN111539519A (zh) * 2020-04-30 2020-08-14 成都成信高科信息技术有限公司 一种面向海量数据的卷积神经网络训练引擎方法及系统
CN111898424A (zh) * 2020-06-19 2020-11-06 贝壳技术有限公司 文字识别模型训练方法、装置、电子设备及存储介质
CN112416293B (zh) * 2020-11-24 2024-05-31 深圳市人工智能与机器人研究院 一种神经网络增强方法、系统及其应用
CN112416293A (zh) * 2020-11-24 2021-02-26 深圳市人工智能与机器人研究院 一种神经网络增强方法、系统及其应用
CN112464784A (zh) * 2020-11-25 2021-03-09 西安烽火软件科技有限公司 一种基于混合并行的分布式训练方法
CN113177632A (zh) * 2021-04-13 2021-07-27 支付宝(杭州)信息技术有限公司 一种基于流水线并行的模型训练方法、装置以及设备
CN113177632B (zh) * 2021-04-13 2022-10-14 支付宝(杭州)信息技术有限公司 一种基于流水线并行的模型训练方法、装置以及设备
CN113961337B (zh) * 2021-09-14 2024-05-10 上海海洋大学 基于改进的Ring All Reduce算法的面向深度学习的GPU并行方法
CN113961337A (zh) * 2021-09-14 2022-01-21 上海海洋大学 基于改进的Ring All Reduce算法的面向深度学习的GPU并行方法
CN113627603B (zh) * 2021-10-12 2021-12-24 成都时识科技有限公司 在芯片中实现异步卷积的方法、类脑芯片及电子设备
CN113627603A (zh) * 2021-10-12 2021-11-09 成都时识科技有限公司 在芯片中实现异步卷积的方法、类脑芯片及电子设备
CN114035936A (zh) * 2021-10-15 2022-02-11 北京潞晨科技有限公司 一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质
CN114035936B (zh) * 2021-10-15 2024-05-17 北京潞晨科技有限公司 一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质
CN114459281A (zh) * 2022-01-26 2022-05-10 广州华凯车辆装备有限公司 一种水炮车用智能人像识别精准打击系统
WO2024001870A1 (zh) * 2022-06-29 2024-01-04 华为技术有限公司 一种人工智能模型的训练方法及相关设备
CN116974654B (zh) * 2023-09-21 2023-12-19 浙江大华技术股份有限公司 一种图像数据的处理方法、装置、电子设备及存储介质
CN116974654A (zh) * 2023-09-21 2023-10-31 浙江大华技术股份有限公司 一种图像数据的处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108460457A (zh) 一种面向卷积神经网络的多机多卡混合并行异步训练方法
Liu et al. Adaptive asynchronous federated learning in resource-constrained edge computing
CN106951926A (zh) 一种混合架构的深度学习系统方法及装置
CN106156810B (zh) 通用机器学习算法模型训练方法、系统和计算节点
Dean et al. Large scale distributed deep networks
CN110533183B (zh) 流水线分布式深度学习中异构网络感知的任务放置方法
Khorasani et al. Scalable simd-efficient graph processing on gpus
WO2023240845A1 (zh) 一种分布式计算方法、系统、设备及存储介质
CN109299781A (zh) 基于动量和剪枝的分布式深度学习系统
CN109492753A (zh) 一种去中心化的随机梯度下降的方法
CN111860828B (zh) 一种神经网络的训练方法、存储介质和设备
CN110222005A (zh) 用于异构架构的数据处理系统及其方法
CN113515370A (zh) 一种面向大规模深度神经网络的分布式训练方法
US11544525B2 (en) Systems and methods for artificial intelligence with a flexible hardware processing framework
CN107330516A (zh) 模型参数训练方法、装置及系统
CN104714852A (zh) 一种适用于分布式机器学习的参数同步优化方法及其系统
WO2024016542A1 (zh) 信息融合方法、数据通信方法、装置及电子设备和非易失性可读存储介质
WO2021008260A1 (zh) 数据执行体及其数据处理方法
CN107085743A (zh) 一种基于国产众核处理器的深度学习算法实现方法与平台
JP2022136234A (ja) 連合学習方法及び装置、電子機器、記憶媒体ならびにコンピュータプログラム
CN105335135B (zh) 数据处理方法和中心节点
Zeng et al. AccTFM: An effective intra-layer model parallelization strategy for training large-scale transformer-based models
Shu et al. Design of deep learning accelerated algorithm for online recognition of industrial products defects
CN111695701A (zh) 基于联邦学习实现数据集构建处理的系统及其构建生成方法
CN113515341A (zh) 一种灵活的分布式ai训练云平台部署方法及相关平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Xu Chao

Inventor after: Cheng Cheng

Inventor after: Wang Xuguang

Inventor before: Wang Haoyuan

Inventor before: Cheng Cheng

Inventor before: Wang Xuguang

CB03 Change of inventor or designer information
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180828

WD01 Invention patent application deemed withdrawn after publication