CN117155929A - 分布式集群的通信方法、系统、电子设备及可读存储介质 - Google Patents

分布式集群的通信方法、系统、电子设备及可读存储介质 Download PDF

Info

Publication number
CN117155929A
CN117155929A CN202311423771.7A CN202311423771A CN117155929A CN 117155929 A CN117155929 A CN 117155929A CN 202311423771 A CN202311423771 A CN 202311423771A CN 117155929 A CN117155929 A CN 117155929A
Authority
CN
China
Prior art keywords
gradient
data
stage
determining
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311423771.7A
Other languages
English (en)
Other versions
CN117155929B (zh
Inventor
高开
王丽
曹芳
唐轶男
郭振华
赵雅倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202311423771.7A priority Critical patent/CN117155929B/zh
Publication of CN117155929A publication Critical patent/CN117155929A/zh
Application granted granted Critical
Publication of CN117155929B publication Critical patent/CN117155929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/625Queue scheduling characterised by scheduling criteria for service slots or service orders
    • H04L47/6275Queue scheduling characterised by scheduling criteria for service slots or service orders based on priority

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种分布式集群的通信方法、系统、电子设备及可读存储介质,涉及分布式集群领域,为解决受网络带宽限制使得集群间通信效率低的问题,该通信方法包括:确定分布式集群中的参数更新节点以及多个子集群;针对每一子集群,获取子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;确定获取到的各个阶段的梯度数据的发送次序;按发送次序从先到后的顺序将梯度数据发送至参数更新节点,以便通过参数更新节点基于梯度数据执行参数更新操作。本发明能够实现对集群间的网络带宽的充分利用,从而提高通信效率。

Description

分布式集群的通信方法、系统、电子设备及可读存储介质
技术领域
本发明涉及分布式集群领域,特别涉及一种分布式集群的通信方法、系统、电子设备及可读存储介质。
背景技术
目前深度学习领域中的大模型通常使用混合并行策略在大规模的分布式集群进行并行分布式训练和推理,影响混合并行策略的性能的一大核心关键因素是各集群之间进行统一参数更新的通信效率。在各个集群之间进行统一的参数更新时,各个集群均需要在获取到模型各个阶段的所有参数之后,将所有参数统一上传,考虑到集群间的通信需要CPU(Central Processing Unit,中央处理器)和网卡处理,受到CPU和网卡的网络带宽的限制,在通信数据量较大时,会造成集群间的通信阻塞,降低通信效率。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种分布式集群的通信方法、系统、电子设备及可读存储介质,能够实现对集群间的网络带宽的充分利用,从而提高通信效率。
为解决上述技术问题,本发明提供了一种分布式集群的通信方法,所述分布式集群的通信方法包括:
确定分布式集群中的参数更新节点以及多个子集群;所述子集群通过对所述分布式集群中的设备进行划分得到;
针对每一所述子集群,获取所述子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;每一所述阶段包括所述预设模型的至少一个网络层,各个所述阶段包括的所述网络层不同;
确定获取到的各个所述阶段的梯度数据的发送次序;每一所述阶段的梯度数据的发送次序和其计算次序呈负相关;
按所述发送次序从先到后的顺序将所述梯度数据发送至所述参数更新节点,以便通过所述参数更新节点基于所述梯度数据执行参数更新操作。
在一示例性实施例中,获取所述子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据之后,所述分布式集群的通信方法还包括:
针对每一所述阶段,对所述阶段的梯度数据进行分块处理,得到多个数据块,为每一所述阶段的所述数据块分配相同的优先级;各个所述阶段的所述数据块的优先级不同;所述优先级与所述梯度数据的计算次序呈负相关;
确定获取到的各个所述阶段的梯度数据的发送次序的过程包括:
将带有所述优先级的所述数据块写入第一存储队列;
在所述第一存储队列中,根据所述优先级确定各个所述数据块的发送次序,所述优先级与所述发送次序呈正相关。
在一示例性实施例中,根据所述优先级确定各个所述数据块的发送次序之后,所述分布式集群的通信方法还包括:
按所述发送次序从先到后的顺序对各个所述数据块在所述第一存储队列中的位置进行重新排列。
在一示例性实施例中,将带有所述优先级的所述数据块写入第一存储队列的过程包括:
将带有所述优先级的所述数据块写入所述子集群对应的所述第一存储队列。
在一示例性实施例中,各个所述阶段的所述数据块的大小相同。
在一示例性实施例中,针对每一所述阶段,对所述阶段的梯度数据进行分块处理,得到多个数据块的过程包括:
针对所有所述阶段中的第一个阶段,获取所述第一个阶段对应的所述梯度数据的大小及预设划分数量,根据所述预设划分数量对所述第一个阶段对应的所述梯度数据进行划分得到多个数据块,并确定每一个所述数据块的标准大小;
针对所有所述阶段中的第i个阶段,获取所述第i个阶段对应的所述梯度数据的大小,基于所述数据块的标准大小和所述第i个阶段对应的所述梯度数据的大小确定第i划分数量,按所述第i划分数量对所述第i个阶段对应的所述梯度数据进行划分,得到多个数据块,i为大于1的整数。
在一示例性实施例中,根据所述预设划分数量对所述第一个阶段对应的所述梯度数据进行划分得到多个数据块,并确定每一个所述数据块的标准大小的过程包括:
基于第一计算关系式确定每一个所述数据块的标准大小,所述第一计算关系式为k=T1/K1;
基于所述数据块的标准大小和所述第i个阶段对应的所述梯度数据的大小确定第i划分数量的过程包括:
基于第二计算关系式确定第i个划分数量,所述第二计算关系式为Ki=Ti/k;
其中,k为所述数据块的标准大小,T1为所述第一个阶段对应的所述梯度数据的大小,K1为所述预设划分数量,Ki为所述第i划分数量,Ti为所述第i个阶段对应的所述梯度数据的大小。
在一示例性实施例中,按所述发送次序从先到后的顺序将所述梯度数据发送至所述参数更新节点的过程包括:
按第一轮询周期读取所述第一存储队列中的所有所述数据块,将读取到的所述数据块写入聚合发送队列;
判断所述聚合发送队列中的所述数据块是否满足发送条件;
若是,将所述聚合发送队列中的所述数据块发送至所述分布式集群中的参数更新节点。
在一示例性实施例中,判断所述聚合发送队列中的所述数据块是否满足发送条件的过程包括:
确定预设存储阈值;
判断所述聚合发送队列中的所述数据块的块数是否等于所述预设存储阈值;
若是,判定所述聚合发送队列中的所述数据块满足发送条件;
若否,判定所述聚合发送队列中的所述数据块不满足所述发送条件。
在一示例性实施例中,所述确定预设存储阈值的过程包括:
获取所述子集群与所述参数更新节点之间的通信参数;所述通信参数包括通信带宽;
基于所述通信参数确定预设存储阈值。
在一示例性实施例中,通过所述参数更新节点基于所述梯度数据执行参数更新操作的过程包括:
通过所述参数更新节点监测到所述聚合发送队列和所述第一存储队列中均不包括所述数据块时,基于所述梯度数据执行参数更新操作。
在一示例性实施例中,通过所述参数更新节点基于所述梯度数据执行参数更新操作的过程包括:
通过所述参数更新节点执行以下操作:
针对每一所述阶段,当获取到的所有所述子集群发送的所述阶段对应的所述数据块时,基于所述阶段对应的所有所述数据块对所述阶段执行参数更新计算,得到所述阶段对应的梯度块,将所述梯度块发送至各个所述子集群,以完成参数更新操作。
在一示例性实施例中,得到所述阶段对应的梯度块,将所述梯度块发送至各个所述子集群的过程包括:
得到所述阶段对应的梯度块,为所述梯度块分配所述阶段对应的所述优先级;
将带有所述优先级的所述梯度块写入第二存储队列;
按第二轮询周期读取所述第二存储队列中的所有所述梯度块,将读取到的所述梯度块写入聚合接收队列;
针对每一所述子集群,从所述聚合接收队列中获取所述梯度块,将所述优先级相同的所述梯度块重组,当重组的所述梯度块的块数达到预设块数时,完成对所述子集群中的所述预设模型的对应阶段的参数更新操作。
在一示例性实施例中,所述设备为图形处理器设备或张量处理单元设备。
在一示例性实施例中,确定分布式集群中的多个子集群的过程包括:
确定预设分组数量;
对分布式集群中的所有所述设备进行划分得到所述预设分组数量的设备组,每个所述设备组构成一个子集群,每个所述子集群的内存容量大于或等于所述预设模型的大小。
在一示例性实施例中,所述确定预设分组数量的过程包括:
确定所述预设模型的大小、每一所述设备的内存容量以及所述分布式集群中的所有所述设备的第一总数量;
基于所述预设模型的大小、所述内存容量及所述第一总数量构建第三计算关系式;
通过所述第三计算关系式计算预设分组数量。
在一示例性实施例中,所述第三计算关系式为n=round(L×E/M),其中,n为所述预设分组数量,L为所述第一总数量,M为所述预设模型的大小,E为所述设备的内存容量,round为取整函数。
在一示例性实施例中,确定分布式集群中的参数更新节点的过程包括:
判断处于所述设备组中的所有所述设备的第二总数量是否小于所述第一总数量;
若是,将未处于所述设备组中的所述设备组成参数更新节点;
若否,在任意一个所述子集群中确定参数更新节点。
为解决上述技术问题,本发明还提供了一种分布式集群的通信系统,分布式集群的通信系统包括:
第一确定模块,用于确定分布式集群中的参数更新节点以及多个子集群;所述子集群通过对所述分布式集群中的设备进行划分得到;
第一计算模块,用于针对每一所述子集群,获取所述子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;每一所述阶段包括所述预设模型的至少一个网络层,各个所述阶段包括的所述网络层不同;
第二确定模块,用于确定获取到的各个所述阶段的梯度数据的发送次序;每一所述阶段的梯度数据的发送次序和其计算次序呈负相关;
更新模块,用于按所述发送次序从先到后的顺序将所述梯度数据发送至所述参数更新节点,以便通过所述参数更新节点基于所述梯度数据执行参数更新操作。
为解决上述技术问题,本发明还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上文任意一项所述的分布式集群的通信方法的步骤。
为解决上述技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文任意一项所述的分布式集群的通信方法的步骤。
本发明提供了一种分布式集群的通信方法,首先对分布式集群进行划分得到参数更新节点和多个子集群,在每一子集群中对预设模型的多个阶段依次进行计算得到各个阶段对应的梯度数据,每计算得到一个阶段的梯度数据,对当前获取到的各个阶段的梯度数据的发送顺序进行一次确定,使后计算得到的梯度数据优先上传到参数更新节点进行参数更新操作,保证计算效率,通过减少每次上传的数据量,实现对集群间的网络带宽的充分利用,从而提高通信效率。本发明还提供了一种分布式集群的通信系统、电子设备及计算机可读存储介质,具有和上述分布式集群的通信系统相同的有益效果。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种分布式集群的通信方法的步骤流程图;
图2为本发明所提供的一种通信优化调度系统的结构示意图;
图3为本发明所提供的一种大规模分布式集群的划分示意图;
图4为本发明所提供的另一种大规模分布式集群的划分示意图;
图5为本发明所提供的一种子集群内部的模型划分示意图;
图6为本发明所提供的一种分布式集群的通信系统的结构示意图。
具体实施方式
本发明的核心是提供一种分布式集群的通信方法、系统、电子设备及可读存储介质,能够实现对集群间的网络带宽的充分利用,从而提高通信效率。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一方面,请参照图1,图1为本发明所提供的一种分布式集群的通信方法的步骤流程图,该分布式集群的通信方法包括:
S101:确定分布式集群中的参数更新节点以及多个子集群;子集群通过对分布式集群中的设备进行划分得到;
可以理解,分布式集群包括多个设备,将多个设备进行划分得到多个子集群,参数更新节点可以由未划分为子集群的设备构成,也可以布设在任一子集群的CPU里,本实施例在此不作具体限定。其中,参数更新节点,用于获取各个子集群上传的梯度数据,进行梯度同步计算,并将计算结果下发给各个子集群。
S102:针对每一子集群,获取子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;每一阶段包括预设模型的至少一个网络层,各个阶段包括的网络层不同;
将预设模型划分为多个阶段,每个阶段包括预设模型的多个网络层,示例性地,假设预设模型包括三个网络层,则第一个阶段包括第一层,第二阶段包括第二层,第三阶段包括第三层,假设预设模型包括五个网络层,则第一个阶段包括第一层和第二层,第二阶段包括第三层和第四层,第三阶段包括第五网络层。每个子集群对预设模型的各个阶段的梯度数据依次进行计算,以一个子集群为例,假设预设模型包括三个阶段,该子集群首先计算第三阶段的各个网络层的梯度数据,然后计算第二阶段的各个网络层的梯度数据,最后计算第一个阶段的各个网络层的梯度数据。
S103:确定获取到的各个阶段的梯度数据的发送次序;每一阶段的梯度数据的发送次序和其计算次序呈负相关;
S104:按发送次序从先到后的顺序将梯度数据发送至参数更新节点,以便通过参数更新节点基于梯度数据执行参数更新操作。
本实施例中,由于子集群是对各个阶段依次进行计算,每计算得到一次梯度数据,就对当前获取到的、未上传的所有阶段的梯度数据的发送次序进行确定,使后计算得到某一阶段的梯度数据优先上传至参数更新节点,以便通过所述参数更新节点基于所述梯度数据执行参数更新操作,得到同步结果,并将同步结果下发到各个子集群,使各个子集群根据该阶段的同步结果进行下一迭代的前向计算。
可见,本实施例中,首先将分布式集群划分为多个子集群,在每一子集群中对预设模型的多个阶段依次进行计算得到各个阶段对应的梯度数据,每计算得到一个阶段的梯度数据,对当前获取到的各个阶段的梯度数据的发送顺序进行一次确定,使后计算得到的梯度数据优先上传到参数更新节点进行参数更新操作,保证计算效率,通过减少每次上传的数据量,实现对集群间的网络带宽的充分利用,从而提高通信效率。
在上述实施例的基础上:
在一示例性实施例中,获取子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据之后,分布式集群的通信方法还包括:
针对每一阶段,对阶段的梯度数据进行分块处理,得到多个数据块,为每一阶段的数据块分配相同的优先级;各个阶段的数据块的优先级不同;优先级与梯度数据的计算次序呈负相关;
确定获取到的各个阶段的梯度数据的发送次序的过程包括:
将带有优先级的数据块写入第一存储队列;
在第一存储队列中,根据优先级确定各个数据块的发送次序,优先级与发送次序呈正相关。
在一示例性实施例中,根据优先级确定各个数据块的发送次序之后,分布式集群的通信方法还包括:
按发送次序从先到后的顺序对各个数据块在第一存储队列中的位置进行重新排列。
在一示例性实施例中,将带有优先级的数据块写入第一存储队列的过程包括:
将带有优先级的数据块写入子集群对应的第一存储队列。
在一示例性实施例中,各个阶段的数据块的大小相同。
在一示例性实施例中,针对每一阶段,对阶段的梯度数据进行分块处理,得到多个数据块的过程包括:
针对所有阶段中的第一个阶段,获取第一个阶段对应的梯度数据的大小及预设划分数量,根据预设划分数量对第一个阶段对应的梯度数据进行划分得到多个数据块,并确定每一个数据块的标准大小;
针对所有阶段中的第i个阶段,获取第i个阶段对应的梯度数据的大小,基于数据块的标准大小和第i个阶段对应的梯度数据的大小确定第i划分数量,按第i划分数量对第i个阶段对应的梯度数据进行划分,得到多个数据块,i为大于1的整数。
在一示例性实施例中,根据预设划分数量对第一个阶段对应的梯度数据进行划分得到多个数据块,并确定每一个数据块的标准大小的过程包括:
基于第一计算关系式确定每一个数据块的标准大小,第一计算关系式为k=T1/K1;
基于数据块的标准大小和第i个阶段对应的梯度数据的大小确定第i划分数量的过程包括:
基于第二计算关系式确定第i个划分数量,第二计算关系式为Ki=Ti/k;
其中,k为数据块的标准大小,T1为第一个阶段对应的梯度数据的大小,K1为预设划分数量,Ki为第i划分数量,Ti为第i个阶段对应的梯度数据的大小。
在一示例性实施例中,按发送次序从先到后的顺序将梯度数据发送至参数更新节点的过程包括:
按第一轮询周期读取第一存储队列中的所有数据块,将读取到的数据块写入聚合发送队列;
判断聚合发送队列中的数据块是否满足发送条件;
若是,将聚合发送队列中的数据块发送至分布式集群中的参数更新节点。
在一示例性实施例中,判断聚合发送队列中的数据块是否满足发送条件的过程包括:
确定预设存储阈值;
判断聚合发送队列中的数据块的块数是否等于预设存储阈值;
若是,判定聚合发送队列中的数据块满足发送条件;
若否,判定聚合发送队列中的数据块不满足发送条件。
为了更好的理解本发明的通信策略,假设每个子集群内部有三个设备,整个模型划分成3个阶段,3个阶段分别部署到对应的设备上,分别记为反向计算为B3,B2,B1,前向计算为F1,F2,F3,参照图2所示。
子集群内部数据分块线程进行梯度数据的分块操作,当子集群内部的反向计算B3计算完成之后得到B3的梯度数据,梯度数据的大小为T3,然后进行数据分块处理,CPU上开启数据分块线程将B3的梯度数据进行分块,共划分成K3份,每一份大小为k=T3/K3。数据分块线程将B3的分块后的梯度赋予一个优先级p3并写入第一存储队列,其中同一个阶段的分块数据的优先级相同,第一存储队列能够自动的进行数据块的排序,将优先级高的数据块插入队列头的位置,因此第一存储队列的写入和读取可以异步进行,提升数据块的访问效率。
在CPU上开启第一存储队列轮询线程,轮询线程轮询读取第一存储队列,将读取的分块数据发送给聚合发送队列,由于第一存储队列里的数据块已经自动排序完成,优先级高的数据块处于队列头,读取时会优先读取。
聚合发送队列中开启线程实时的判断聚合发送队列中的数据块的数量,当聚合发送队列中的数据块数量达到预设存储阈值δ时,聚合发送队列把δ个数据块同时发送给参数更新节点。聚合发送队列能够减少小数据块的频繁发送,提升带宽利用率。
反向B2的计算完成之后同样得到B2的梯度数据,总的梯度大小为T2,将B2的梯度数据进行分块,为了保证和B3的参数分块大小一致,分块的数量K2通过计算得到,其中K2=T2/k,k=T3/K3
数据分块线程将B2的梯度数据分块后的数据块赋予优先级p2,其中p2>p3。然后将B2所有的梯度数据的数据块写入第一存储队列。此时若第一存储队列中还存在B3的数据块,B2的数据块会自动插入到B3的前面。轮询线程下次轮询第一存储队列时将优先读取优先级较高的B2的数据块。
反向B1的计算完成之后同样得到B1的梯度数据,总的梯度大小为T1,数据分块线程将B1的梯度数据进行分块,同时为了保证B1的分块后的大小与B3、B2保持一致,分块的数量为K1份,其中K1=T1/k,k=T3/K3。数据分块线程将B1的梯度数据分块后的数据块赋予优先级p1,其中,p1>p2>p3。将B1所有的梯度数据块写入第一存储队列。此时若第一存储队列中还存在B2、B3的梯度数据的数据块,B1的数据块会自动插入到B2、B3的前面,轮询线程下次轮询时将优先通过CPU读取优先级最高的B1的梯度数据的数据块。
在一示例性实施例中,确定预设存储阈值的过程包括:
获取子集群与参数更新节点之间的通信参数;通信参数包括通信带宽;
基于通信参数确定预设存储阈值。
在一示例性实施例中,通过参数更新节点基于梯度数据执行参数更新操作的过程包括:
通过参数更新节点监测到聚合发送队列和第一存储队列中均不包括数据块时,基于梯度数据执行参数更新操作。
在一示例性实施例中,通过参数更新节点基于梯度数据执行参数更新操作的过程包括:
通过参数更新节点执行以下操作:
针对每一阶段,当获取到的所有子集群发送的阶段对应的数据块时,基于阶段对应的所有数据块对阶段执行参数更新计算,得到阶段对应的梯度块,将梯度块发送至各个子集群,以完成参数更新操作。
在一示例性实施例中,得到阶段对应的梯度块,将梯度块发送至各个子集群的过程包括:
得到阶段对应的梯度块,为梯度块分配阶段对应的优先级;
将带有优先级的梯度块写入第二存储队列;
按第二轮询周期读取第二存储队列中的所有梯度块,将读取到的梯度块写入聚合接收队列;
针对每一子集群,从聚合接收队列中获取梯度块,将优先级相同的梯度块重组,当重组的梯度块的块数达到预设块数时,完成对子集群中的预设模型的对应阶段的参数更新操作。
针对模型的不同阶段B3、B2、B1,参数更新节点异步进行参数的更新操作,参数更新节点中在CPU上开启3个轮询线程实时判断模型每个阶段接收的数据块的数量,对于模型的每一个阶段,当轮询线程判定参数接收模块接收到所有子集群发送来的该阶段的所有数据块时,直接进行该阶段的梯度更新操作,再将更新完的梯度块以同样的第二存储队列和聚合接收队列方式发给各个子集群。
子集群接收更新后的梯度数据时会根据第二存储队列和聚合接收队列中的优先级优先接收优先级高的,也即F1需要的梯度数据,再接收F2需要的梯度数据,最后接收F3需要的梯度数据,实现先用先收的策略。
所有子集群内部在CPU上建立数据重组模块进行分块数据的重组,数据重组模块从聚合接收队列中依次读取梯度块,然后根据梯度块优先级的不同将梯度块重新组合分组,相同优先级的梯度块组成一组,当每组中的梯度块达到相应的数量时,即完成模型相应阶段的参数更新。
在一示例性实施例中,设备为图形处理器设备或张量处理单元设备。
在一示例性实施例中,确定分布式集群中的多个子集群的过程包括:
确定预设分组数量;
对分布式集群中的所有设备进行划分得到预设分组数量的设备组,每个设备组构成一个子集群,每个子集群的内存容量大于或等于预设模型的大小。
在一示例性实施例中,确定预设分组数量的过程包括:
确定预设模型的大小、每一设备的内存容量以及分布式集群中的所有设备的第一总数量;
基于预设模型的大小、内存容量及第一总数量构建第三计算关系式;
通过第三计算关系式计算预设分组数量。
在一示例性实施例中,第三计算关系式为n=round(L×E/M),其中,n为预设分组数量,L为第一总数量,M为预设模型的大小,E为设备的内存容量,round为取整函数。
在一示例性实施例中,确定分布式集群中的参数更新节点的过程包括:
判断处于设备组中的所有设备的第二总数量是否小于第一总数量;
若是,将未处于设备组中的设备组成参数更新节点;
若否,在任意一个子集群中确定参数更新节点。
本实施例中,首先将分布式集群进行均匀分组,对于一个大型集群,遍历集群中的所有服务器上的AI设备,根据模型大小和设备内存将设备划分成均匀的N组,每组设备都可以恰好放下整个模型。假设大型集群内部共有L个内存为E的设备,模型的大小为M。设备的分组数量n=round(L×E/M),其中round为取整函数,划分后每组设备组成新的子集群,即共形成n个子集群。参照图3所示,在对各个设备进行分组得到子集群1和子集群2之后,若存在剩余的设备,则通过剩余的设备组成参数更新节点进行参数的更新操作,其中,子集群1中的两个设备组分别连接第一交换机和第二交换机,参数更新节点连接第二交换机,子集群2中的两个设备组分别连接第二交换机和第三交换机,第二交换机分别与第一交换机和第三交换机连接,通过第一交换机、第二交换机、第三交换机实现子集群1、子集群2和参数更新节点的通信。参照图4所示,在对各个设备进行分组得到子集群1和子集群2之后,若有剩余设备,则在任意一个子集群中的CPU上增加参数更新节点,如在子集群1中的CPU上增加参数更新节点,其中,子集群1中的两个设备组分别连接第一交换机和第二交换机,子集群2中的两个设备组分别连接第二交换机和第三交换机,第二交换机分别与第一交换机和第三交换机连接,通过第一交换机、第二交换机、第三交换机实现子集群1和子集群2的通信。
可以理解,模型训练采用混合并行策略进行设备部署,根据子集群的划分结果,由于每个子集群内部可以放置整个模型。因此在子集群之间采用数据并行的策略,参数更新节点用来聚合更新各子集群间的梯度数据。子集群内部采用模型并行中的流水并行策略进行设备上的部署,将待训练的模型和子集群的设备进行均匀划分,模型中不同的层部署到不同的设备上,如图5所示,各子集群内部的模型并行策略保持一致,各个子集群内部进行模型的划分部署,例如将子集群内部的设备划分为三组D1,D2,D3,模型相应的分为三部分M1,M2及M3,每一组设备分别部署模型每一部分的反向计算和前向计算。即D1部署模型的M1部分,计算B1和F1;D2部署模型的M2部分,计算B2和F2;D3部署模型的M3部分,计算B3和F3。针对每批输入数据,首先进行前向计算F1,F2,F3,然后进行反向计算B3,B2,B1。在每一阶段反向计算完成之后,需要通过参数更新节点进行参数的更新。参数更新时,若参数更新节点独立于子集群1和子集群2设置,子集群1和子集群2分别把计算后的梯度数据通过对应的交换机发送给参数更新节点,参数更新节点进行梯度的求平均计算,然后把更新后的梯度数据发送给所有的子集群;若参数更新节点设于子集群1中,则子集群2把计算后的梯度数据通过对应的交换机发送给子集群1中的参数更新节点。
综上所述,本发明针对大规模分布式计算系统中混合并行中的通信问题提出了一个基于分块技术和优先级队列技术的高效通信策略,该通信策略首先将大规模集群根据模型大小和设备内存大小均等划分成若干个子集群,确定参数更新节点。然后通过数据并行和模型并行策略将模型部署子集群之间和子集群内部的设备上。在子集群内部采用模型并行策略,将模型和设备划分成不同的组,本发明首先将不同阶段反向计算完的梯度数据进行分块,并给每个分块赋予一个优先级,该优先级决定放入优先级队列中的位置和发送顺序,优先级越高的数据块优先发送。同时为了减缓梯度数据分块过小带来的频繁启动发送任务问题,我们在优先级队列后面增加一个聚合发送队列,聚合发送队列首先设定了一个发送阈值δ,当聚合发送队列中的待发送的数据块的数量达到发送阈值δ时,同时将δ个数据块统一发送。参数更新节点完成参数更新之后同样采取分块技术和优先级队列技术实现到各个集群的数据发送,集群中的数据重组模块实现分块数据的排序重组,同时由于模型不同阶段的独立性,该策略还实现了模型不同阶段间的异步参数更新。
第二方面,请参照图6,图6为本发明所提供的一种分布式集群的通信系统的结构示意图,包括:
第一确定模块61,用于确定分布式集群中的参数更新节点以及多个子集群;子集群通过对分布式集群中的设备进行划分得到;
第一计算模块62,用于针对每一子集群,获取子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;每一阶段包括预设模型的至少一个网络层,各个阶段包括的网络层不同;
第二确定模块63,用于确定获取到的各个阶段的梯度数据的发送次序;每一阶段的梯度数据的发送次序和其计算次序呈负相关;
更新模块64,用于按发送次序从先到后的顺序将梯度数据发送至参数更新节点,以便通过参数更新节点基于梯度数据执行参数更新操作。
在一示例性实施例中,分布式集群的通信系统还包括:
分块模块,用于针对每一阶段,对阶段的梯度数据进行分块处理,得到多个数据块,为每一阶段的数据块分配相同的优先级;各个阶段的数据块的优先级不同;优先级与梯度数据的计算次序呈负相关;
确定获取到的各个阶段的梯度数据的发送次序的过程包括:
将带有优先级的数据块写入第一存储队列;
在第一存储队列中,根据优先级确定各个数据块的发送次序,优先级与发送次序呈正相关。
在一示例性实施例中,分布式集群的通信系统还包括:
排列模块,用于按发送次序从先到后的顺序对各个数据块在第一存储队列中的位置进行重新排列。
在一示例性实施例中,将带有优先级的数据块写入第一存储队列的过程包括:
将带有优先级的数据块写入子集群对应的第一存储队列。
在一示例性实施例中,各个阶段的数据块的大小相同。
在一示例性实施例中,针对每一阶段,对阶段的梯度数据进行分块处理,得到多个数据块的过程包括:
针对所有阶段中的第一个阶段,获取第一个阶段对应的梯度数据的大小及预设划分数量,根据预设划分数量对第一个阶段对应的梯度数据进行划分得到多个数据块,并确定每一个数据块的标准大小;
针对所有阶段中的第i个阶段,获取第i个阶段对应的梯度数据的大小,基于数据块的标准大小和第i个阶段对应的梯度数据的大小确定第i划分数量,按第i划分数量对第i个阶段对应的梯度数据进行划分,得到多个数据块,i为大于1的整数。
在一示例性实施例中,根据预设划分数量对第一个阶段对应的梯度数据进行划分得到多个数据块,并确定每一个数据块的标准大小的过程包括:
基于第一计算关系式确定每一个数据块的标准大小,第一计算关系式为k=T1/K1;
基于数据块的标准大小和第i个阶段对应的梯度数据的大小确定第i划分数量的过程包括:
基于第二计算关系式确定第i个划分数量,第二计算关系式为Ki=Ti/k;
其中,k为数据块的标准大小,T1为第一个阶段对应的梯度数据的大小,K1为预设划分数量,Ki为第i划分数量,Ti为第i个阶段对应的梯度数据的大小。
在一示例性实施例中,按发送次序从先到后的顺序将梯度数据发送至参数更新节点的过程包括:
按第一轮询周期读取第一存储队列中的所有数据块,将读取到的数据块写入聚合发送队列;
判断聚合发送队列中的数据块是否满足发送条件;
若是,将聚合发送队列中的数据块发送至分布式集群中的参数更新节点。
在一示例性实施例中,判断聚合发送队列中的数据块是否满足发送条件的过程包括:
确定预设存储阈值;
判断聚合发送队列中的数据块的块数是否等于预设存储阈值;
若是,判定聚合发送队列中的数据块满足发送条件;
若否,判定聚合发送队列中的数据块不满足发送条件。
在一示例性实施例中,确定预设存储阈值的过程包括:
获取子集群与参数更新节点之间的通信参数;通信参数包括通信带宽;
基于通信参数确定预设存储阈值。
在一示例性实施例中,通过参数更新节点基于梯度数据执行参数更新操作的过程包括:
通过参数更新节点监测到聚合发送队列和第一存储队列中均不包括数据块时,基于梯度数据执行参数更新操作。
在一示例性实施例中,通过参数更新节点基于梯度数据执行参数更新操作的过程包括:
通过参数更新节点执行以下操作:
针对每一阶段,当获取到的所有子集群发送的阶段对应的数据块时,基于阶段对应的所有数据块对阶段执行参数更新计算,得到阶段对应的梯度块,将梯度块发送至各个子集群,以完成参数更新操作。
在一示例性实施例中,得到阶段对应的梯度块,将梯度块发送至各个子集群的过程包括:
得到阶段对应的梯度块,为梯度块分配阶段对应的优先级;
将带有优先级的梯度块写入第二存储队列;
按第二轮询周期读取第二存储队列中的所有梯度块,将读取到的梯度块写入聚合接收队列;
针对每一子集群,从聚合接收队列中获取梯度块,将优先级相同的梯度块重组,当重组的梯度块的块数达到预设块数时,完成对子集群中的预设模型的对应阶段的参数更新操作。
在一示例性实施例中,设备为图形处理器设备或张量处理单元设备。
在一示例性实施例中,确定分布式集群中的多个子集群的过程包括:
确定预设分组数量;
对分布式集群中的所有设备进行划分得到预设分组数量的设备组,每个设备组构成一个子集群,每个子集群的内存容量大于或等于预设模型的大小。
在一示例性实施例中,确定预设分组数量的过程包括:
确定预设模型的大小、每一设备的内存容量以及分布式集群中的所有设备的第一总数量;
基于预设模型的大小、内存容量及第一总数量构建第三计算关系式;
通过第三计算关系式计算预设分组数量。
在一示例性实施例中,第三计算关系式为n=round(L×E/M),其中,n为预设分组数量,L为第一总数量,M为预设模型的大小,E为设备的内存容量,round为取整函数。
在一示例性实施例中,确定分布式集群中的参数更新节点的过程包括:
判断处于设备组中的所有设备的第二总数量是否小于第一总数量;
若是,将未处于设备组中的设备组成参数更新节点;
若否,在任意一个子集群中确定参数更新节点。
第三方面,本发明还提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上文任意一个实施例所描述的分布式集群的通信方法的步骤。
当然,电子设备还可以包括各种网络接口,电源等组件。
对于本发明所提供的一种电子设备的介绍请参照上述实施例,本发明在此不再赘述。
本发明所提供的一种电子设备具有和上述分布式集群的通信方法相同的有益效果。
第四方面,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上文任意一个实施例所描述的分布式集群的通信方法的步骤。
其中,计算机可读存储介质包括但不限于U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明所提供的一种计算机可读存储介质的介绍请参照上述实施例,本发明在此不再赘述。
本发明所提供的一种计算机可读存储介质具有和上述分布式集群的通信方法相同的有益效果。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (21)

1.一种分布式集群的通信方法,其特征在于,所述分布式集群的通信方法包括:
确定分布式集群中的参数更新节点以及多个子集群;所述子集群通过对所述分布式集群中的设备进行划分得到;
针对每一所述子集群,获取所述子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;每一所述阶段包括所述预设模型的至少一个网络层,各个所述阶段包括的所述网络层不同;
确定获取到的各个所述阶段的梯度数据的发送次序;每一所述阶段的梯度数据的发送次序和其计算次序呈负相关;
按所述发送次序从先到后的顺序将所述梯度数据发送至所述参数更新节点,以便通过所述参数更新节点基于所述梯度数据执行参数更新操作。
2.根据权利要求1所述的分布式集群的通信方法,其特征在于,获取所述子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据之后,所述分布式集群的通信方法还包括:
针对每一所述阶段,对所述阶段的梯度数据进行分块处理,得到多个数据块,为每一所述阶段的所述数据块分配相同的优先级;各个所述阶段的所述数据块的优先级不同;所述优先级与所述梯度数据的计算次序呈负相关;
确定获取到的各个所述阶段的梯度数据的发送次序的过程包括:
将带有所述优先级的所述数据块写入第一存储队列;
在所述第一存储队列中,根据所述优先级确定各个所述数据块的发送次序,所述优先级与所述发送次序呈正相关。
3.根据权利要求2所述的分布式集群的通信方法,其特征在于,根据所述优先级确定各个所述数据块的发送次序之后,所述分布式集群的通信方法还包括:
按所述发送次序从先到后的顺序对各个所述数据块在所述第一存储队列中的位置进行重新排列。
4.根据权利要求2所述的分布式集群的通信方法,其特征在于,将带有所述优先级的所述数据块写入第一存储队列的过程包括:
将带有所述优先级的所述数据块写入所述子集群对应的所述第一存储队列。
5.根据权利要求2所述的分布式集群的通信方法,其特征在于,各个所述阶段的所述数据块的大小相同。
6.根据权利要求5所述的分布式集群的通信方法,其特征在于,针对每一所述阶段,对所述阶段的梯度数据进行分块处理,得到多个数据块的过程包括:
针对所有所述阶段中的第一个阶段,获取所述第一个阶段对应的所述梯度数据的大小及预设划分数量,根据所述预设划分数量对所述第一个阶段对应的所述梯度数据进行划分得到多个数据块,并确定每一个所述数据块的标准大小;
针对所有所述阶段中的第i个阶段,获取所述第i个阶段对应的所述梯度数据的大小,基于所述数据块的标准大小和所述第i个阶段对应的所述梯度数据的大小确定第i划分数量,按所述第i划分数量对所述第i个阶段对应的所述梯度数据进行划分,得到多个数据块,i为大于1的整数。
7.根据权利要求6所述的分布式集群的通信方法,其特征在于,根据所述预设划分数量对所述第一个阶段对应的所述梯度数据进行划分得到多个数据块,并确定每一个所述数据块的标准大小的过程包括:
基于第一计算关系式确定每一个所述数据块的标准大小,所述第一计算关系式为k=T1/K1;
基于所述数据块的标准大小和所述第i个阶段对应的所述梯度数据的大小确定第i划分数量的过程包括:
基于第二计算关系式确定第i个划分数量,所述第二计算关系式为Ki=Ti/k;
其中,k为所述数据块的标准大小,T1为所述第一个阶段对应的所述梯度数据的大小,K1为所述预设划分数量,Ki为所述第i划分数量,Ti为所述第i个阶段对应的所述梯度数据的大小。
8.根据权利要求2所述的分布式集群的通信方法,其特征在于,按所述发送次序从先到后的顺序将所述梯度数据发送至所述参数更新节点的过程包括:
按第一轮询周期读取所述第一存储队列中的所有所述数据块,将读取到的所述数据块写入聚合发送队列;
判断所述聚合发送队列中的所述数据块是否满足发送条件;
若是,将所述聚合发送队列中的所述数据块发送至所述分布式集群中的参数更新节点。
9.根据权利要求8所述的分布式集群的通信方法,其特征在于,判断所述聚合发送队列中的所述数据块是否满足发送条件的过程包括:
确定预设存储阈值;
判断所述聚合发送队列中的所述数据块的块数是否等于所述预设存储阈值;
若是,判定所述聚合发送队列中的所述数据块满足发送条件;
若否,判定所述聚合发送队列中的所述数据块不满足所述发送条件。
10.根据权利要求9所述的分布式集群的通信方法,其特征在于,所述确定预设存储阈值的过程包括:
获取所述子集群与所述参数更新节点之间的通信参数;所述通信参数包括通信带宽;
基于所述通信参数确定预设存储阈值。
11.根据权利要求8所述的分布式集群的通信方法,其特征在于,通过所述参数更新节点基于所述梯度数据执行参数更新操作的过程包括:
通过所述参数更新节点监测到所述聚合发送队列和所述第一存储队列中均不包括所述数据块时,基于所述梯度数据执行参数更新操作。
12.根据权利要求2所述的分布式集群的通信方法,其特征在于,通过所述参数更新节点基于所述梯度数据执行参数更新操作的过程包括:
通过所述参数更新节点执行以下操作:
针对每一所述阶段,当获取到的所有所述子集群发送的所述阶段对应的所述数据块时,基于所述阶段对应的所有所述数据块对所述阶段执行参数更新计算,得到所述阶段对应的梯度块,将所述梯度块发送至各个所述子集群,以完成参数更新操作。
13.根据权利要求12所述的分布式集群的通信方法,其特征在于,得到所述阶段对应的梯度块,将所述梯度块发送至各个所述子集群的过程包括:
得到所述阶段对应的梯度块,为所述梯度块分配所述阶段对应的所述优先级;
将带有所述优先级的所述梯度块写入第二存储队列;
按第二轮询周期读取所述第二存储队列中的所有所述梯度块,将读取到的所述梯度块写入聚合接收队列;
针对每一所述子集群,从所述聚合接收队列中获取所述梯度块,将所述优先级相同的所述梯度块重组,当重组的所述梯度块的块数达到预设块数时,完成对所述子集群中的所述预设模型的对应阶段的参数更新操作。
14.根据权利要求1所述的分布式集群的通信方法,其特征在于,所述设备为图形处理器设备或张量处理单元设备。
15.根据权利要求1-14任意一项所述的分布式集群的通信方法,其特征在于,确定分布式集群中的多个子集群的过程包括:
确定预设分组数量;
对分布式集群中的所有所述设备进行划分得到所述预设分组数量的设备组,每个所述设备组构成一个子集群,每个所述子集群的内存容量大于或等于所述预设模型的大小。
16.根据权利要求15所述的分布式集群的通信方法,其特征在于,所述确定预设分组数量的过程包括:
确定所述预设模型的大小、每一所述设备的内存容量以及所述分布式集群中的所有所述设备的第一总数量;
基于所述预设模型的大小、所述内存容量及所述第一总数量构建第三计算关系式;
通过所述第三计算关系式计算预设分组数量。
17.根据权利要求16所述的分布式集群的通信方法,其特征在于,所述第三计算关系式为n=round(L×E/M),其中,n为所述预设分组数量,L为所述第一总数量,M为所述预设模型的大小,E为所述设备的内存容量,round为取整函数。
18.根据权利要求16所述的分布式集群的通信方法,其特征在于,确定分布式集群中的参数更新节点的过程包括:
判断处于所述设备组中的所有所述设备的第二总数量是否小于所述第一总数量;
若是,将未处于所述设备组中的所述设备组成参数更新节点;
若否,在任意一个所述子集群中确定参数更新节点。
19.一种分布式集群的通信系统,其特征在于,分布式集群的通信系统包括:
第一确定模块,用于确定分布式集群中的参数更新节点以及多个子集群;所述子集群通过对所述分布式集群中的设备进行划分得到;
第一计算模块,用于针对每一所述子集群,获取所述子集群对预设模型的多个阶段依次进行计算得到的多个梯度数据;每一所述阶段包括所述预设模型的至少一个网络层,各个所述阶段包括的所述网络层不同;
第二确定模块,用于确定获取到的各个所述阶段的梯度数据的发送次序;每一所述阶段的梯度数据的发送次序和其计算次序呈负相关;
更新模块,用于按所述发送次序从先到后的顺序将所述梯度数据发送至所述参数更新节点,以便通过所述参数更新节点基于所述梯度数据执行参数更新操作。
20.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1-18任意一项所述的分布式集群的通信方法的步骤。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-18任意一项所述的分布式集群的通信方法的步骤。
CN202311423771.7A 2023-10-31 2023-10-31 分布式集群的通信方法、系统、电子设备及可读存储介质 Active CN117155929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311423771.7A CN117155929B (zh) 2023-10-31 2023-10-31 分布式集群的通信方法、系统、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311423771.7A CN117155929B (zh) 2023-10-31 2023-10-31 分布式集群的通信方法、系统、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN117155929A true CN117155929A (zh) 2023-12-01
CN117155929B CN117155929B (zh) 2024-02-09

Family

ID=88901152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311423771.7A Active CN117155929B (zh) 2023-10-31 2023-10-31 分布式集群的通信方法、系统、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117155929B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118509387A (zh) * 2024-07-18 2024-08-16 中国电子科技集团公司第十五研究所 一种数据传输优先级调度方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309488A (zh) * 2020-03-23 2020-06-19 普宙飞行器科技(深圳)有限公司 无人机集群的计算资源共享方法与系统及计算机存储介质
CN111367630A (zh) * 2019-07-12 2020-07-03 北京关键科技股份有限公司 一种基于云计算的多用户多优先级的分布式协同处理方法
CN111461290A (zh) * 2020-03-11 2020-07-28 北京百度网讯科技有限公司 模型参数更新方法及装置
CN112187857A (zh) * 2020-08-21 2021-01-05 苏州浪潮智能科技有限公司 一种云平台消息发送调度方法、系统、终端及存储介质
CN112463315A (zh) * 2020-11-13 2021-03-09 苏州浪潮智能科技有限公司 一种集群任务调度方法、装置及相关组件
CN113297127A (zh) * 2020-02-21 2021-08-24 深圳致星科技有限公司 一种大规模分布式训练集群的参数更新方法、平台系统
US20230120785A1 (en) * 2021-10-18 2023-04-20 Sophos Limited Updating a cluster of nodes in a network appliance
CN116955365A (zh) * 2023-09-21 2023-10-27 浪潮电子信息产业股份有限公司 梯度数据同步方法、模型训练方法、系统、设备及介质
CN116962176A (zh) * 2023-09-21 2023-10-27 浪潮电子信息产业股份有限公司 一种分布式集群的数据处理方法、装置、系统及存储介质
CN116962438A (zh) * 2023-09-21 2023-10-27 浪潮电子信息产业股份有限公司 一种梯度数据同步方法、系统、电子设备及可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111367630A (zh) * 2019-07-12 2020-07-03 北京关键科技股份有限公司 一种基于云计算的多用户多优先级的分布式协同处理方法
CN113297127A (zh) * 2020-02-21 2021-08-24 深圳致星科技有限公司 一种大规模分布式训练集群的参数更新方法、平台系统
CN111461290A (zh) * 2020-03-11 2020-07-28 北京百度网讯科技有限公司 模型参数更新方法及装置
CN111309488A (zh) * 2020-03-23 2020-06-19 普宙飞行器科技(深圳)有限公司 无人机集群的计算资源共享方法与系统及计算机存储介质
CN112187857A (zh) * 2020-08-21 2021-01-05 苏州浪潮智能科技有限公司 一种云平台消息发送调度方法、系统、终端及存储介质
CN112463315A (zh) * 2020-11-13 2021-03-09 苏州浪潮智能科技有限公司 一种集群任务调度方法、装置及相关组件
US20230120785A1 (en) * 2021-10-18 2023-04-20 Sophos Limited Updating a cluster of nodes in a network appliance
CN116955365A (zh) * 2023-09-21 2023-10-27 浪潮电子信息产业股份有限公司 梯度数据同步方法、模型训练方法、系统、设备及介质
CN116962176A (zh) * 2023-09-21 2023-10-27 浪潮电子信息产业股份有限公司 一种分布式集群的数据处理方法、装置、系统及存储介质
CN116962438A (zh) * 2023-09-21 2023-10-27 浪潮电子信息产业股份有限公司 一种梯度数据同步方法、系统、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵春扬;肖冰;郭进伟;钱卫宁;: "一致性协议在分布式数据库系统中的应用", 华东师范大学学报(自然科学版), no. 05 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118509387A (zh) * 2024-07-18 2024-08-16 中国电子科技集团公司第十五研究所 一种数据传输优先级调度方法

Also Published As

Publication number Publication date
CN117155929B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN117155929B (zh) 分布式集群的通信方法、系统、电子设备及可读存储介质
CN110442451B (zh) 一种面向深度学习的多类型gpu集群资源管理调度方法和系统
US10318444B2 (en) Collective memory transfer devices and methods for multiple-core processors
CN114169543B (zh) 一种基于模型陈旧性与用户参与度感知的联邦学习方法
CN113723443A (zh) 一种视觉大模型分布式训练方法及系统
CN115168281B (zh) 一种基于禁忌搜索算法的神经网络片上映射方法和装置
CN115237580B (zh) 面向智能计算的流水并行训练自适应调整系统、方法
CN116962438B (zh) 一种梯度数据同步方法、系统、电子设备及可读存储介质
CN109548161A (zh) 一种无线资源调度的方法、装置和终端设备
CN116962176B (zh) 一种分布式集群的数据处理方法、装置、系统及存储介质
CN117234710A (zh) 一种采用强化学习实现ai模型训练内存优化的方法
CN103685492A (zh) Hadoop集群系统的调度方法、调度装置及其应用
CN110929885A (zh) 一种面向智慧校园的分布式机器学习模型参数聚合方法
CN109636709A (zh) 一种适用于异构平台的图计算方法
CN116956756B (zh) 模型部署方法、任务处理方法、装置、设备及存储介质
CN116663639B (zh) 一种梯度数据同步方法、系统、装置及介质
CN117331700A (zh) 一种算力网络资源调度系统及方法
CN106933882B (zh) 一种大数据增量计算方法和装置
CN114398166B (zh) 基于二分法的分布式计算任务调度方法及设备
CN115208954A (zh) 用于分布式数据处理的并行策略预置系统及其方法
CN115987998B (zh) 微服务系统领袖者选举方法、系统、存储介质和电子设备
CN110516795A (zh) 一种为模型变量分配处理器的方法、装置及电子设备
CN118230136B (zh) 一种支持图像动态任务的个性化联邦学习训练方法和系统
CN117032936B (zh) 一种数据调度方法、装置和计算机设备
Yekkehkhany Near-data scheduling for data centers with multiple levels of data locality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant