CN111340235A - 一种兼容多种训练方式的深度学习分布式训练方法与系统 - Google Patents
一种兼容多种训练方式的深度学习分布式训练方法与系统 Download PDFInfo
- Publication number
- CN111340235A CN111340235A CN202010132499.7A CN202010132499A CN111340235A CN 111340235 A CN111340235 A CN 111340235A CN 202010132499 A CN202010132499 A CN 202010132499A CN 111340235 A CN111340235 A CN 111340235A
- Authority
- CN
- China
- Prior art keywords
- training
- distributed
- deep learning
- model
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 178
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013135 deep learning Methods 0.000 title claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 9
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000008859 change Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种兼容多种训练方式的深度学习分布式训练方法与系统,本发明通过对深度学习分布式训练接口进行定义,兼容不同分布式训练实现方式,可有效减少用户在使用分布式算法进行模型训练时的代码改动量,用户只需定义一个,metatrainer的实例,并用该实例来训练模型,就可以适配不同的硬件计算规模;另外可有效的丰富用户在开发分布式模型训练过程中所能采用的算法及技术,可方便的在多个技术之间切换,只需在定义metatrainer实例时,选用不同的distributed_backend参数即可实现不同的分布式算法,使用同一个接口,即可兼容后台多种不同的分布式训练实现方式,从而大大减小用户在不同分布式算法间切换代码的难度。
Description
技术领域
本发明涉及深度学习技术领域,特别是一种兼容多种训练方式的深度学习分布式训练方法与系统。
背景技术
目前,深度学习技术方兴未艾,在多个应用领域取得了长足的发展,展现出广阔的应用前景,这些应用领域包括人脸识别、推荐系统、智能语音助手以及无人驾驶等等。但是无论上述哪个领域,应用落地的前提都是设计和训练复杂的深度学习模型,可以看到的是,尽管现有硬件计算设备的计算能力与日俱增,比如现行通用的由Nvidia公司发布的V100GPU单卡的计算能力达到了120TFlops,但是这也不足以满足所有深度学习模型的训练需求,比如目前在自然语言处理领域广泛使用的bert模型,其如果使用单张V100 GPU卡进行训练的话,整个训练时间估计在一年以上。
因此需要更大规模的分布式深度学习计算来解决上述模型的训练问题。分布式深度学习即为在多个计算设备上同时对一个深度学习模型进行训练的方法。为了实施这一方法,诸多因素和细节都需要考虑并被合理的处理。常见的算法主要包括模型并行和数据并行,两者当中,数据并行的思路由于其实现相对简单,计算效率高,是应用更为普遍的一种方法。
当前典型的深度学习计算框架都或多或少的实现了一些基于数据并行的分布式训练方法,比如pytorch中的torch.nn.DataParallel模块和深度学习框架tensorflow中的mirroredstrategy(镜像)模块。对于tensorflow中的mirroredstrategy模块,其初始化一个strategy变量,并把模型定义、优化器定义以及模型的编译部分放到scope函数代码段中,然后按照常规的模型训练方式,即可实现分布式的模型训练。但其需要将大量的代码置于scope(作用域)函数下,如果模型的定义逻辑较为复杂的话,存在大量的代码修改,另外整个策略只适用于单个计算节点内有多个设备,比如有多个GPU卡的情况,不能方便的扩展到多个计算节点的分布式并行,从而在更大的计算规模上进行模型的并行训练。
为了解决上述问题,Uber的工程师开发的horovod分布式训练框架,通过接入mpi通信协议来实现跨计算节点的分布式通信方式。但其缺点是需要用户完成所有操作,任何遗漏都可造成模型训练过程的错误以及模型不收敛等意外情况,这些操作使得horovod对于不熟悉多进程计算过程的用户存在一定的使用门槛。
发明内容
本发明的目的是提供一种兼容多种训练方式的深度学习分布式训练方法与系统,旨在解决现有技术中缺少兼容多种训练方式的分布式训练框架的问题,实现使用同一个接口即可兼容后台多种不同的分布式训练实现方式,减小用户在不同分布式算法间切换代码的难度。
为达到上述技术目的,本发明提供了一种兼容多种训练方式的深度学习分布式训练方法,所述方法包括以下步骤:
S1、基于深度学习框架tensorflow定义一个统一的模型训练接口;
S2、模型训练接口在初始化时根据定义的GPU数目以及计算节点数目判断是否进行分布式训练;
S3、通过模型训练接口的算法策略参数指明实际的分布式算法策略,包括基于深度学习框架tensorflow中的镜像策略、基于深度学习框架horovod的策略以及默认策略;
S4、根据不同的算法策略执行相应的初始化工作;
S5、执行模型训练接口的运行函数,根据初始化的模型训练接口的实例不同执行不同的分布式训练。
优选地,所述步骤S4具体操作如下:
对于深度学习框架tensorflow中的镜像策略,需要执行两步操作,分别是初始化镜像策略的作用域函数,并在作用域函数的作用域内初始化需要训练的模型以及模型的优化器;
对于深度学习框架horovod的策略,需要执行的操作包括初始化horovod进程,并基于horovod的方法重新定义训练的优化器;
对于默认策略,执行默认内置算法。
优选地,所述步骤S5具体操作如下:
如果使用的是镜像策略,则运行函数在作用域函数的作用域内进行模型的训练任务;如果使用的是horovod策略,先根据运行函数输入的训练数据按照进程数进行拆分,然后每个进程再根据拆分到的数据进行训练,并在训练后对每个设备中的模型的梯度数据进行同步。
本发明还提供了一种兼容多种训练方式的深度学习分布式训练系统,所述系统包括:
接口定义模块,用于基于深度学习框架tensorflow定义一个统一的模型训练接口;
分布式训练判断模块,用于模型训练接口在初始化时根据定义的GPU数目以及计算节点数目判断是否进行分布式训练;
算法策略选择模块,用于通过模型训练接口的算法策略参数指明实际的分布式算法策略,包括基于深度学习框架tensorflow中的镜像策略、基于深度学习框架horovod的策略以及默认策略;
初始化模块,用于根据不同的算法策略执行相应的初始化工作;
分布式训练模块,用于执行模型训练接口的运行函数,根据初始化的模型训练接口的实例不同执行不同的分布式训练。
优选地,所述初始化模块包括:
镜像策略初始化单元,用于对于深度学习框架tensorflow中的镜像策略,需要执行两步操作,分别是初始化镜像策略的作用域函数,并在作用域函数的作用域内初始化需要训练的模型以及模型的优化器;
horovod策略初始化单元,用于对于深度学习框架horovod的策略,需要执行的操作包括初始化horovod进程,并基于horovod的方法重新定义训练的优化器;
默认策略初始化单元,用于对于默认策略,执行默认内置算法。
优选地,所述分布式训练模块包括:
镜像分布式训练单元,用于如果使用的是镜像策略,则运行函数在作用域函数的作用域内进行模型的训练任务;
horovod分布式训练单元,用于如果使用的是horovod策略,先根据fit函数输入的训练数据按照进程数进行拆分,然后每个进程再根据拆分到的数据进行训练,并在训练后对每个设备中的模型的梯度数据进行同步。
本发明还提供了一种兼容多种训练方式的深度学习分布式训练设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现所述的兼容多种训练方式的深度学习分布式训练方法。
本发明还提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现所述的兼容多种训练方式的深度学习分布式训练方法。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明通过对深度学习分布式训练接口进行定义,兼容不同分布式训练实现方式,可有效减少用户在使用分布式算法进行模型训练时的代码改动量,用户只需定义一个,metatrainer的实例,并用该实例来训练模型,就可以适配不同的硬件计算规模;另外可有效的丰富用户在开发分布式模型训练过程中所能采用的算法及技术,可方便的在多个技术之间切换,只需在定义metatrainer实例时,选用不同的distributed_backend参数即可实现不同的分布式算法,使用同一个接口,即可兼容后台多种不同的分布式训练实现方式,从而大大减小用户在不同分布式算法间切换代码的难度。
附图说明
图1为本发明实施例中所提供的一种兼容多种训练方式的深度学习分布式训练方法流程图;
图2为本发明实施例中所提供的一种metatrainer接口初始化流程图;
图3为本发明实施例中所提供的一种分布式训练过程示意图;
图4为本发明实施例中所提供的一种兼容多种训练方式的深度学习分布式训练系统框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种兼容多种训练方式的深度学习分布式训练方法与系统进行详细说明。
如图1所示,本发明公开了一种兼容多种训练方式的深度学习分布式训练方法,所述方法包括以下步骤:
S1、基于深度学习框架tensorflow定义一个统一的模型训练接口;
S2、模型训练接口在初始化时根据定义的GPU数目以及计算节点数目判断是否进行分布式训练;
S3、通过模型训练接口的算法策略参数指明实际的分布式算法策略,包括基于深度学习框架tensorflow中的镜像策略、基于深度学习框架horovod的策略以及默认策略;
S4、根据不同的算法策略执行相应的初始化工作;
S5、执行模型训练接口的运行函数,根据初始化的模型训练接口的实例不同执行不同的分布式训练。
本发明实施例基于深度学习框架tensorflow定义一个统一的模型训练接口metatrainer以实现模型的训练过程。
该接口的定义如下:
trainer=metatrainer(model,distributed_backend,gpus,nodes,args)
trainer.fit(dataset,epochs=1)
在本发明实施例中,用户只需将整个模型训练中的model.fit()(运行函数)改为定义一个metatrainer的实例trainer,并根据该实例执行trainer.fit()函数即可完成分布式的训练过程。
通过指定参数distributed_backend来指明实际的分布式实现方法,将参数设置为mirroredstrategy时,表明指定通过tensorflow中的mirroredstrategy来实现分布式并行,参数distributed_backend也可以不指定,此时根据默认内置算法来实现并行。
参数gpus以及nodes来指明实际使用GPU数目以及计算节点数目。
metatrainer接口初始化时,会根据使用的GPU数和节点数以及用户设置的distributed_backend参数来选择初始化哪种类型的trainer实例,每种实例基于不同的分布式算法策略,包含三种策略,分别是基于tensorflow中的mirroredstrategy(镜像)策略、基于horovod的策略以及默认策略,默认策略在本发明实施例中表示为不使用多个计算设备的分布式训练,仅使用一个默认设备的计算策略。
在确定了需要初始化的策略之后,程序会根据该策略的需要对该策略进行实际的初始化工作,该工作根据所选择的策略不同而有很大的不同,对于mirroredstrategy策略,需要执行两步操作,分别是初始化mirroredstrategy的scope()(作用域函数),并在scope()的作用域内初始化需要训练的模型以及模型的优化器等相关参数;对于horovod策略,需要执行的操作包括初始化horovod进程,并基于horovod的方法重新定义训练的优化器等,如图2所示。
在上述流程时,会先定义一个trainer的父类,并在此父类的基础上根据每个分布式策略的实际需要定义不同的子类,比如mirroredstrategy中初始化的scope实例,即为相应子类的一个变量。
metatrainer的fit函数代替了tensorflow.keras中的model.fit()函数来实际执行训练过程,两者的调用方式及输入参数完全相同。但metatrainer的fit函数根据实际初始化的metatrainer的实例不同,所要执行操作也不同。如果使用的是mirroredstrategy,则fit函数会在scope的作用域内进行模型的训练任务,来实现分布式训练的效果;如果使用的是horovod,则操作会相对复杂,其会先根据fit函数输入的训练数据按照进程数进行拆分,然后每个进程再根据拆分到的数据进行训练,并在训练后对每个设备中的模型的梯度数据进行同步,如图3所示。
本发明实施例通过对深度学习分布式训练接口进行定义,兼容不同分布式训练实现方式,可有效减少用户在使用分布式算法进行模型训练时的代码改动量,用户只需定义一个,metatrainer的实例,并用该实例来训练模型,就可以适配不同的硬件计算规模;另外可有效的丰富用户在开发分布式模型训练过程中所能采用的算法及技术,可方便的在多个技术之间切换,只需在定义metatrainer实例时,选用不同的distributed_backend参数即可实现不同的分布式算法,使用同一个接口,即可兼容后台多种不同的分布式训练实现方式,从而大大减小用户在不同分布式算法间切换代码的难度。
如图4所示,本发明实施例还公开了一种兼容多种训练方式的深度学习分布式训练系统,所述系统包括:
接口定义模块,用于基于深度学习框架tensorflow定义一个统一的模型训练接口;
分布式训练判断模块,用于模型训练接口在初始化时根据定义的GPU数目以及计算节点数目判断是否进行分布式训练;
算法策略选择模块,用于通过模型训练接口的算法策略参数指明实际的分布式算法策略,包括基于深度学习框架tensorflow中的mirroredstrategy策略、基于深度学习框架horovod的策略以及默认策略;
初始化模块,用于根据不同的算法策略执行相应的初始化工作;
分布式训练模块,用于执行模型训练接口的fit函数,根据初始化的模型训练接口的实例不同执行不同的分布式训练。
在本发明实施例中,用户只需将整个模型训练中的model.fit()函数改为定义一个metatrainer的实例trainer,并根据该实例执行trainer.fit()函数即可完成分布式的训练过程。
通过指定参数distributed_backend来指明实际的分布式实现方法,将参数设置为mirroredstrategy时,表明指定通过tensorflow中的mirroredstrategy来实现分布式并行,参数distributed_backend也可以不指定,此时根据默认内置算法来实现并行。
参数gpus以及nodes来指明实际使用GPU数目以及计算节点数目。
metatrainer接口初始化时,会根据使用的GPU数和节点数以及用户设置的distributed_backend参数来选择初始化哪种类型的trainer实例,每种实例基于不同的分布式算法策略,包含三种策略,分别是基于tensorflow中的mirroredstrategy策略、基于horovod的策略以及默认策略,默认策略在本发明实施例中表示为不使用多个计算设备的分布式训练,仅使用一个默认设备的计算策略。
所述初始化模块包括:
mirroredstrategy策略初始化单元,用于对于mirroredstrategy策略,执行两步操作,分别是初始化mirroredstrategy的scope,并在scope的作用域内初始化需要训练的模型以及模型的优化器;
horovod策略初始化单元,用于对于horovod策略,需要执行的操作包括初始化horovod进程,并基于horovod的方法重新定义训练的优化器;
默认策略初始化单元,用于对于默认策略,执行默认内置算法。
所述分布式训练模块包括:
mirroredstrategy分布式训练单元,用于如果使用的是mirroredstrategy,则fit函数在scope的作用域内进行模型的训练任务;
horovod分布式训练单元,用于如果使用的是horovod,先根据fit函数输入的训练数据按照进程数进行拆分,然后每个进程再根据拆分到的数据进行训练,并在训练后对每个设备中的模型的梯度数据进行同步。
本发明实施例还公开了一种兼容多种训练方式的深度学习分布式训练设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现所述的兼容多种训练方式的深度学习分布式训练方法。
本发明实施例还公开了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现所述的兼容多种训练方式的深度学习分布式训练方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种兼容多种训练方式的深度学习分布式训练方法,其特征在于,所述方法包括以下步骤:
S1、基于深度学习框架tensorflow定义一个统一的模型训练接口;
S2、模型训练接口在初始化时根据定义的GPU数目以及计算节点数目判断是否进行分布式训练;
S3、通过模型训练接口的算法策略参数指明实际的分布式算法策略,包括基于深度学习框架tensorflow中的镜像策略、基于深度学习框架horovod的策略以及默认策略;
S4、根据不同的算法策略执行相应的初始化工作;
S5、执行模型训练接口的运行函数,根据初始化的模型训练接口的实例不同执行不同的分布式训练。
2.根据权利要求1所述的一种兼容多种训练方式的深度学习分布式训练方法,其特征在于,所述步骤S4具体操作如下:
对于深度学习框架tensorflow中的镜像策略,需要执行两步操作,分别是初始化镜像策略的作用域函数,并在作用域函数的作用域内初始化需要训练的模型以及模型的优化器;
对于深度学习框架horovod的策略,需要执行的操作包括初始化horovod进程,并基于horovod的方法重新定义训练的优化器;
对于默认策略,执行默认内置算法。
3.根据权利要求1所述的一种兼容多种训练方式的深度学习分布式训练方法,其特征在于,所述步骤S5具体操作如下:
如果使用的是镜像策略,则运行函数在作用域函数的作用域内进行模型的训练任务;如果使用的是horovod策略,先根据运行函数输入的训练数据按照进程数进行拆分,然后每个进程再根据拆分到的数据进行训练,并在训练后对每个设备中的模型的梯度数据进行同步。
4.一种兼容多种训练方式的深度学习分布式训练系统,其特征在于,所述系统包括:
接口定义模块,用于基于深度学习框架tensorflow定义一个统一的模型训练接口;
分布式训练判断模块,用于模型训练接口在初始化时根据定义的GPU数目以及计算节点数目判断是否进行分布式训练;
算法策略选择模块,用于通过模型训练接口的算法策略参数指明实际的分布式算法策略,包括基于深度学习框架tensorflow中的镜像策略、基于深度学习框架horovod的策略以及默认策略;
初始化模块,用于根据不同的算法策略执行相应的初始化工作;
分布式训练模块,用于执行模型训练接口的运行函数,根据初始化的模型训练接口的实例不同执行不同的分布式训练。
5.根据权利要求4所述的一种兼容多种训练方式的深度学习分布式训练系统,其特征在于,所述初始化模块包括:
镜像策略初始化单元,用于对于深度学习框架tensorflow中的镜像策略,需要执行两步操作,分别是初始化镜像策略的作用域函数,并在作用域函数的作用域内初始化需要训练的模型以及模型的优化器;
horovod策略初始化单元,用于对于深度学习框架horovod的策略,需要执行的操作包括初始化horovod进程,并基于horovod的方法重新定义训练的优化器;
默认策略初始化单元,用于对于默认策略,执行默认内置算法。
6.根据权利要求4所述的一种兼容多种训练方式的深度学习分布式训练系统,其特征在于,所述分布式训练模块包括:
镜像分布式训练单元,用于如果使用的是镜像策略,则运行函数在作用域函数的作用域内进行模型的训练任务;
horovod分布式训练单元,用于如果使用的是horovod策略,先根据fit函数输入的训练数据按照进程数进行拆分,然后每个进程再根据拆分到的数据进行训练,并在训练后对每个设备中的模型的梯度数据进行同步。
7.一种兼容多种训练方式的深度学习分布式训练设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现根据权利要求1至3任一项所述的兼容多种训练方式的深度学习分布式训练方法。
8.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现根据权利要求1至3任一项所述的兼容多种训练方式的深度学习分布式训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132499.7A CN111340235A (zh) | 2020-02-29 | 2020-02-29 | 一种兼容多种训练方式的深度学习分布式训练方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132499.7A CN111340235A (zh) | 2020-02-29 | 2020-02-29 | 一种兼容多种训练方式的深度学习分布式训练方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111340235A true CN111340235A (zh) | 2020-06-26 |
Family
ID=71183783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010132499.7A Pending CN111340235A (zh) | 2020-02-29 | 2020-02-29 | 一种兼容多种训练方式的深度学习分布式训练方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340235A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112104706A (zh) * | 2020-08-24 | 2020-12-18 | 中国银联股份有限公司 | 分布式系统中模型发布方法、装置、设备、存储介质 |
CN113342361A (zh) * | 2021-05-25 | 2021-09-03 | 上海商汤智能科技有限公司 | 模型部署方法及装置、电子设备和存储介质 |
CN113610241A (zh) * | 2021-08-03 | 2021-11-05 | 曙光信息产业(北京)有限公司 | 深度学习模型的分布式训练方法、装置、设备及存储介质 |
CN113672215A (zh) * | 2021-07-30 | 2021-11-19 | 阿里巴巴新加坡控股有限公司 | 深度学习分布式训练适配方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109032671A (zh) * | 2018-06-25 | 2018-12-18 | 电子科技大学 | 一种基于数据并行策略的分布式深度学习方法及系统 |
CN110689136A (zh) * | 2019-09-06 | 2020-01-14 | 广东浪潮大数据研究有限公司 | 一种深度学习模型获得方法、装置、设备及存储介质 |
-
2020
- 2020-02-29 CN CN202010132499.7A patent/CN111340235A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109032671A (zh) * | 2018-06-25 | 2018-12-18 | 电子科技大学 | 一种基于数据并行策略的分布式深度学习方法及系统 |
CN110689136A (zh) * | 2019-09-06 | 2020-01-14 | 广东浪潮大数据研究有限公司 | 一种深度学习模型获得方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
硅谷程序汪: "Tensorflow上手4: 初探分布式训练", 《HTTPS://WWW.SOHU.COM/A/319999310_775742》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112104706A (zh) * | 2020-08-24 | 2020-12-18 | 中国银联股份有限公司 | 分布式系统中模型发布方法、装置、设备、存储介质 |
CN113342361A (zh) * | 2021-05-25 | 2021-09-03 | 上海商汤智能科技有限公司 | 模型部署方法及装置、电子设备和存储介质 |
CN113672215A (zh) * | 2021-07-30 | 2021-11-19 | 阿里巴巴新加坡控股有限公司 | 深度学习分布式训练适配方法和装置 |
CN113672215B (zh) * | 2021-07-30 | 2023-10-24 | 阿里巴巴新加坡控股有限公司 | 深度学习分布式训练适配方法和装置 |
CN113610241A (zh) * | 2021-08-03 | 2021-11-05 | 曙光信息产业(北京)有限公司 | 深度学习模型的分布式训练方法、装置、设备及存储介质 |
CN113610241B (zh) * | 2021-08-03 | 2024-05-10 | 曙光信息产业(北京)有限公司 | 深度学习模型的分布式训练方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111340235A (zh) | 一种兼容多种训练方式的深度学习分布式训练方法与系统 | |
US11928432B2 (en) | Multi-modal pre-training model acquisition method, electronic device and storage medium | |
WO2021136512A1 (zh) | 基于深度学习节点计算的调度方法、设备及存储介质 | |
CN111798002A (zh) | 一种局部模型占比可控的联邦学习全局模型聚合方法 | |
CN111178507A (zh) | 图谱卷积神经网络数据处理方法及装置 | |
CN114840322B (zh) | 任务调度方法及装置、电子设备和存储 | |
US20230351145A1 (en) | Pipelining and parallelizing graph execution method for neural network model computation and apparatus thereof | |
EP4287074A1 (en) | Mixture-of-experts model implementation method and system, electronic device, and storage medium | |
EP4044070A2 (en) | Neural network processing unit, neural network processing method and device | |
US20220374219A1 (en) | Deployment of service | |
JP2023533404A (ja) | 駆動可能3dキャラクター生成方法、装置、電子機器、及び記憶媒体 | |
US20230316089A1 (en) | Ngraph-based gpu backend distributed training method and system | |
CN112200310B (zh) | 智能处理器、数据处理方法及存储介质 | |
CN107391564A (zh) | 数据转换方法、装置以及电子设备 | |
WO2024040844A1 (zh) | 模型调试方法、装置、电子设备及存储介质 | |
CN111708880A (zh) | 类簇的识别系统及方法 | |
CN105335135A (zh) | 数据处理方法和中心节点 | |
US20220138528A1 (en) | Data processing method for neural network accelerator, device and storage medium | |
CN115292044A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN115114927A (zh) | 一种模型训练方法和相关装置 | |
CN113504966A (zh) | Gpu集群调度策略模拟方法及gpu集群模拟器 | |
CN110619387A (zh) | 一种基于卷积神经网络的通道扩展方法 | |
CN114356540B (zh) | 一种参数更新方法、装置、电子设备和存储介质 | |
JP7379792B2 (ja) | 事前訓練モデル取得方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム | |
CN111861860B (zh) | 一种面向ai智能soc芯片的图像加速处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200626 |
|
RJ01 | Rejection of invention patent application after publication |