CN111858440A - 一种分布式数据并行训练系统、方法、终端及存储介质 - Google Patents
一种分布式数据并行训练系统、方法、终端及存储介质 Download PDFInfo
- Publication number
- CN111858440A CN111858440A CN202010536162.2A CN202010536162A CN111858440A CN 111858440 A CN111858440 A CN 111858440A CN 202010536162 A CN202010536162 A CN 202010536162A CN 111858440 A CN111858440 A CN 111858440A
- Authority
- CN
- China
- Prior art keywords
- training
- gpu
- parameters
- cpu
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012549 training Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000007787 solid Substances 0.000 claims abstract description 30
- 238000004891 communication Methods 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000013500 data storage Methods 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4282—Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种分布式数据并行训练系统、方法、终端及存储介质,包括:CPU、PCIe交换机、GPU和NVMe固态硬盘,所述GPU有多个,多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接,所述PCIe交换机与所述CPU通信连接;所述NVMe固态硬盘用于存放训练数据;所述PCIe交换机用于将所述训练数据下发给多个所述的GPU;所述GPU用于进行数据训练并产生训练模型;所述CPU用于处理训练模型的参数。本发明提出了一种将训练数据集放入NVMe固态硬盘,由此解决训练数据集下发过程出现的GPU与CPU之间的PCIe总线拥堵问题,提高了训练效率。
Description
技术领域
本发明属于深度学习技术领域,具体涉及一种分布式数据并行训练系统、方法、终端及存储介质。
背景技术
随着科技的发展,人工智能已在图像、语音等多个领域上取得了重大的突破,并掀起新的科技革命,在可预见的未来,整个互联网都将因此发生翻天覆地的变化,而作为人工智能主要技术,深度学习正在被广泛的研究和应用。
TensorFlow是目前广泛使用的深度学习框架之一,其支持CPU和GPU的分布式训练。TensorFlow的分布式训练分为数据并行和模型并行两种方式,其中使用模型并行方式训练的模型准确度不稳定,所以目前主要使用数据并行方式训练,该方式下每个GPU上的训练模型相同,但训练数据不同。数据并行方式下使用同步更新参数和异步更新参数求平均参数。同步更新是指每个GPU根据损失计算各自的参数,CPU汇总所有GPU的参数,并求平均参数,根据平均参数更新模型参数,损失下降稳定,容易得到最优解。异步更新是指不用等所有GPU的参数,每个GPU均可更新参数,损失下降过程抖动较大,参数容易移出最优解。所以目前广泛使用同步更新参数的数据并行方式进行训练。
目前多卡GPU服务器使用PCIE总线和NVlink总线两种结构,大部分使用PCIE总线结构,且分布式训练基本采用相同性能GPU。目前使用PCIE接口的GPU服务器是使用PCIeSwitch连接多个GPU和CPU进行通信,训练数据集先分批次由硬盘上传至内存再通过PCIe总线传至GPU,多GPU使用同步更新参数的数据并行方式进行训练,该批次的数据训练完成后,GPU产生的模型参数会同时上传至CPU得到参数平均值,然后再下发给GPU,训练下一批次数据集,如此循环训练。对于单机多卡训练来说在训练数据集下发、模型参数上传和参数平均值下发三个过程容易出现GPU与CPU之间的PCIe总线拥堵,此时所有GPU都需要等待,训练效率较低。
发明内容
针对现有技术的上述不足,本发明提供一种分布式数据并行训练系统、方法、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种分布式数据并行训练系统,包括:CPU、PCIe交换机、GPU和NVMe固态硬盘,所述GPU有多个,多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接,所述PCIe交换机与所述CPU通信连接;
所述NVMe固态硬盘用于存放训练数据;
所述PCIe交换机用于将所述训练数据下发给多个所述的GPU;
所述GPU用于进行数据训练并产生训练模型;
所述CPU用于处理训练模型的参数。
第二方面,本发明提供一种分布式数据并行训练方法包括:
将NVMe固态硬盘分区为缓存空间和训练数据存放空间;
将所述训练数据按批次上传至所述缓存空间,并通过PCIe交换机下发至GPU;
GPU对所有批次的训练数据进行一对一训练,得到训练参数;
CPU根据所有批次的训练参数更新GPU的模型参数,得到最优训练模型。
进一步的,所述方法还包括:
获取GPU的个数;
将所述训练数据划分成与所述GPU的个数相同的批次。
进一步的,所述CPU根据所有批次的训练参数更新GPU的模型参数,包括:
CPU获取所有批次的训练参数,并按照批次数量求取训练参数的平均值;
CPU将所述训练参数的平均值下发给所有GPU;
GPU根据所述训练参数的平均值重新优化训练模型。
进一步的,所述方法还包括:
检测训练数据是否全部训练完成:
若是则清空缓存空间。
进一步的,所述将NVMe固态硬盘分区为缓存空间和训练数据存放空间,包括:
将NVMe固态硬盘分区为两个区域;
将所述两个区域格式化为两个文件系统,将训练数据写入一个文件系统,并指定另一个文件系统为缓存空间。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,
本发明提供的一种分布式数据并行训练系统、方法、终端及存储介质,本发明是针对在GPU性能相同且使用PCIE接口的GPU服务器中使用同步更新参数的数据并行方式的分布式训练存在效率低下的问题,提出了一种将训练数据集放入NVMe固态硬盘,训练数据通过PCIe交换机直接下发给GPU,GPU训练完成后,新一批次的训练数据不需要等待模型参数更新,可直接从NVMe固态硬盘再次下发给GPU,由此解决训练数据集下发过程出现的GPU与CPU之间的PCIe总线拥堵问题,提高了训练效率。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的系统的示意性框图。
图2是本发明一个实施例的方法的示意性流程图。
图3为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
TensorFlow:是一个基于数据流编程的符号数学系统,被广泛应用于各类机器学习算法的编程实现,其前身是谷歌的神经网络算法库。
NVLink:是英伟达开发并推出的一种总线及其通信协议。NVLink采用点对点结构、串列传输,用于中央处理器(CPU)与图形处理器(GPU)之间的连接,也可用于多个图形处理器之间的相互连接。
PCIe交换机:主要作用将PCIe设备互联,芯片与其设备的通信协议都是PCIe;
Fdisk:是linux一个创建和维护分区表的程序,它兼容DOS类型的分区表、BSD或者SUN类型的磁盘列表。
Mkfs:该命令用来在特定的分区创建linux文件系统,
实施例1
如图1所示,本实施例提供一种分布式数据并行训练系统,包括:CPU、PCIe交换机、GPU和NVMe固态硬盘,所述GPU有多个,多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接,所述PCIe交换机与所述CPU通信连接;
所述NVMe固态硬盘用于存放训练数据;
所述PCIe交换机用于将所述训练数据下发给多个所述的GPU;
所述GPU用于进行数据训练并产生训练模型;
所述CPU用于处理训练模型的参数。
图2是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种分布式数据并行训练系统。
如图2所示,该方法100包括:
步骤110,将NVMe固态硬盘分区为缓存空间和训练数据存放空间;
步骤120,将所述训练数据按批次上传至所述缓存空间,并通过PCIe交换机下发至GPU;
步骤130,GPU对所有批次的训练数据进行一对一训练,得到训练参数;
步骤140,CPU根据所有批次的训练参数更新GPU的模型参数,得到最优训练模型。
可选地,作为本发明一个实施例,所述方法还包括:
获取GPU的个数;
将所述训练数据划分成与所述GPU的个数相同的批次。
可选地,作为本发明一个实施例,所述CPU根据所有批次的训练参数更新GPU的模型参数,包括:
CPU获取所有批次的训练参数,并按照批次数量求取训练参数的平均值;
CPU将所述训练参数的平均值下发给所有GPU;
GPU根据所述训练参数的平均值重新优化训练模型。
可选地,作为本发明一个实施例,所述方法还包括:
检测训练数据是否全部训练完成:
若是则清空缓存空间。
可选地,作为本发明一个实施例,所述将NVMe固态硬盘分区为缓存空间和训练数据存放空间,包括:
将NVMe固态硬盘分区为两个区域;
将所述两个区域格式化为两个文件系统,将训练数据写入一个文件系统,并指定另一个文件系统为缓存空间。
为了便于对本发明的理解,下面以本发明一种分布式数据并行训练方法的原理,结合实施例中TensorFlow的分布式训练的过程,对本发明提供的一种分布式数据并行训练方法做进一步的描述。
具体的,所述一种分布式数据并行训练方法包括:
1、计算GPU个数N;
2、使用硬盘分区命令(“fdisk”)将NVMe固态硬盘分区为两个部分;
3、使用创建文件系统命令(“mkfs”)将NVMe固态硬盘第一部分格式化为文件系统F1,第二部分格式化为文件系统F2;
4、在F2中创建缓存文件tf.cache,并将训练数据写入F1;
在tf.data.Dataset类中调用cache(tf.cache),将F2设置为TensorFlow的缓存空间C;tf.data.Dataset.cache命令可以在本地存储中缓存数据集;此处tf.data.Dataset.cache(tf.cache)中使用NVMe固态硬盘中的tf.cache文件作为TensorFlow的训练数据缓存,即指定TensorFlow在NVMe固态硬盘的F2中缓存数据,因此F2即为TensorFlow的缓存空间C;
5、提交深度学习训练任务;
步骤1-4实在进行训练任务之前做的操作,在进行训练任务之前需要保证新的训练数据被写入固态硬盘;
6、从文件系统F1中取出N个批次训练数据,并按照批次上传至缓存空间C,再通过PCIe交换机直接下发至N个GPU,且每个GPU训练1个批次;
7、所有GPU利用其内部的训练模型对训练数据进行训练,训练完成后清空C;
8、将GPU训练产生的模型参数按照批次上传至CPU,同时步骤7仍在进行;
9、模型参数上传后,CPU计算所述模型参数的平均值,并将所述平均值下发GPU;CPU汇总所有GPU的参数,并求平均参数,根据平均参数更新模型参数,从而得到在本次训练中训练模型最优解;
10、当有新的训练数据时,将新的训练数据写入文件系统F1,重复步骤5-9,经过循环训练GPU不断更新训练模型的最优解,最终得到最优训练模型。
图3为本发明实施例提供的一种终端系统300的结构示意图,该终端系统300可以用于执行本发明实施例提供的一种分布式数据并行训练方法。
其中,该终端系统300可以包括:处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器320可以用于存储处理器310的执行指令,存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。当存储器320中的执行指令由处理器310执行时,使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
处理器310为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器310可以仅包括中央处理器(Central Processing Unit,简称CPU)。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
通信单元330,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
因此,本发明是针对在GPU性能相同且使用PCIE接口的GPU服务器中使用同步更新参数的数据并行方式的分布式训练存在效率低下的问题,提出了一种将训练数据集放入NVMe固态硬盘,训练数据通过PCIe交换机直接下发给GPU,GPU训练完成后,新一批次的训练数据不需要等待模型参数更新,可直接从NVMe固态硬盘再次下发给GPU,由此解决训练数据集下发过程出现的GPU与CPU之间的PCIe总线拥堵问题,提高了训练效率,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种分布式数据并行训练系统,其特征在于,包括:CPU、PCIe交换机、GPU和NVMe固态硬盘,所述GPU有多个,多个所述的GPU和所述NVMe固态硬盘分别与所述PCIe交换机通信连接,所述PCIe交换机与所述CPU通信连接;
所述NVMe固态硬盘用于存放训练数据;
所述PCIe交换机用于将所述训练数据下发给多个所述的GPU;
所述GPU用于进行数据训练并产生训练模型;
所述CPU用于处理训练模型的参数。
2.一种分布式数据并行训练方法,其特征在于,包括:
将NVMe固态硬盘分区为缓存空间和训练数据存放空间;
将所述训练数据按批次上传至所述缓存空间,并通过PCIe交换机下发至GPU;
GPU对所有批次的训练数据进行一对一训练,得到训练参数;
CPU根据所有批次的训练参数更新GPU的模型参数,得到最优训练模型。
3.根据权利要求2所述的一种分布式数据并行训练方法,其特征在于,所述方法还包括:
获取GPU的个数;
将所述训练数据划分成与所述GPU的个数相同的批次。
4.根据权利要求2所述的一种分布式数据并行训练方法,其特征在于,所述CPU根据所有批次的训练参数更新GPU的模型参数,包括:
CPU获取所有批次的训练参数,并按照批次数量求取训练参数的平均值;
CPU将所述训练参数的平均值下发给所有GPU;
GPU根据所述训练参数的平均值重新优化训练模型。
5.根据权利要求2所述的一种分布式数据并行训练方法,其特征在于,所述方法还包括:
检测训练数据是否全部训练完成:
若是则清空缓存空间。
6.根据权利要求2所述的一种分布式数据并行训练方法,其特征在于,所述将NVMe固态硬盘分区为缓存空间和训练数据存放空间,包括:
将NVMe固态硬盘分区为两个区域;
将所述两个区域格式化为两个文件系统,将训练数据写入一个文件系统,并指定另一个文件系统为缓存空间。
7.一种终端,其特征在于,包括:
处理器;
用于存储处理器的执行指令的存储器;
其中,所述处理器被配置为执行权利要求2-6任一项所述的方法。
8.一种存储有计算机程序的计算机可读存储介质,其特征在于,该程序被处理器执行时实现如权利要求2-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536162.2A CN111858440A (zh) | 2020-06-12 | 2020-06-12 | 一种分布式数据并行训练系统、方法、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010536162.2A CN111858440A (zh) | 2020-06-12 | 2020-06-12 | 一种分布式数据并行训练系统、方法、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858440A true CN111858440A (zh) | 2020-10-30 |
Family
ID=72987569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010536162.2A Withdrawn CN111858440A (zh) | 2020-06-12 | 2020-06-12 | 一种分布式数据并行训练系统、方法、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858440A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626368A (zh) * | 2021-06-30 | 2021-11-09 | 苏州浪潮智能科技有限公司 | 一种人工智能的数据处理方法及相关装置 |
CN114298329A (zh) * | 2021-08-05 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、设备及存储介质 |
WO2022206717A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 一种模型训练方法及装置 |
-
2020
- 2020-06-12 CN CN202010536162.2A patent/CN111858440A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022206717A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 一种模型训练方法及装置 |
CN113626368A (zh) * | 2021-06-30 | 2021-11-09 | 苏州浪潮智能科技有限公司 | 一种人工智能的数据处理方法及相关装置 |
CN113626368B (zh) * | 2021-06-30 | 2023-07-25 | 苏州浪潮智能科技有限公司 | 一种人工智能的数据处理方法及相关装置 |
CN114298329A (zh) * | 2021-08-05 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858440A (zh) | 一种分布式数据并行训练系统、方法、终端及存储介质 | |
EP3612942B1 (en) | Queue management for direct memory access | |
CN106951926B (zh) | 一种混合架构的深度学习方法及装置 | |
CN109034394B (zh) | 一种机器学习模型的更新方法和装置 | |
JP7454529B2 (ja) | 分散型モデルトレーニング装置および方法、電子機器、記憶媒体、ならびに、コンピュータプログラム | |
CN114356578B (zh) | 自然语言处理模型的并行计算方法、装置、设备及介质 | |
JP2023036774A (ja) | 共有メモリのアクセス制御方法、共有メモリのアクセス制御装置、電子機器および自動運転車両 | |
WO2022095526A1 (zh) | 图形引擎和适用于播放器的图形处理方法 | |
CN115880132A (zh) | 图形处理器、矩阵乘法任务处理方法、装置及存储介质 | |
CN107102889B (zh) | 一种虚拟机资源调整方法及装置 | |
CN115687229A (zh) | 一种ai训练板卡及基于此的服务器、服务器集群、分布式训练方法 | |
CN115150471A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN114448972A (zh) | 分布式存储日志压缩下载方法、系统、终端及存储介质 | |
CN115879543B (zh) | 一种模型训练方法、装置、设备、介质及系统 | |
CN112433812A (zh) | 一种虚拟机跨集群迁移方法、系统、设备及计算机介质 | |
CN109739514B (zh) | 参数处理方法及相关产品 | |
CN111258950B (zh) | 原子访存方法、存储介质、计算机设备、装置和系统 | |
CN116302328A (zh) | 智能合约数据处理方法和系统 | |
CN110221902A (zh) | 一种基于虚拟机的数据传输方法及相关装置 | |
EP4071619A1 (en) | Address generation method, related device and storage medium | |
CN115687233A (zh) | 通信方法、装置、设备及计算机可读存储介质 | |
CN114004730A (zh) | 一种基于图形处理器的深度神经网络多模型并行推理方法 | |
CN114285766A (zh) | 一种网络带宽检测方法、装置、电子设备和存储介质 | |
CN105867847A (zh) | 访存控制方法、装置及系统 | |
CN111913812A (zh) | 一种数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201030 |
|
WW01 | Invention patent application withdrawn after publication |