CN113824802B - 一种去中心化分布式训练拓扑结构、训练系统及方法 - Google Patents

一种去中心化分布式训练拓扑结构、训练系统及方法 Download PDF

Info

Publication number
CN113824802B
CN113824802B CN202111398769.XA CN202111398769A CN113824802B CN 113824802 B CN113824802 B CN 113824802B CN 202111398769 A CN202111398769 A CN 202111398769A CN 113824802 B CN113824802 B CN 113824802B
Authority
CN
China
Prior art keywords
training
local
node
topological structure
decentralized distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111398769.XA
Other languages
English (en)
Other versions
CN113824802A (zh
Inventor
杨非
陈岱渊
石永涛
华炜
鲍虎军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111398769.XA priority Critical patent/CN113824802B/zh
Publication of CN113824802A publication Critical patent/CN113824802A/zh
Application granted granted Critical
Publication of CN113824802B publication Critical patent/CN113824802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种去中心化分布式训练拓扑结构,包括:所述拓扑结构为n维超方形拓扑结构,是封闭的、紧致的、凸的无向图,所述拓扑结构由有限非空节点集合和有限边集合组成,所述拓扑结构的1维骨架是由一群在其所在空间对准每个维度整齐排列的等长的线段组成的,其中相对的线段互相平行,而相交于一点的线段则互相正交,本发明聚焦于去中心化分布式性能训练,将训练任务“均匀化”,将训练任务负荷均匀地分配到分布式训练系统中各个训练节点上,系统性能不再取决于单一训练节点性能,具有迭代耗时短,数据本地化,通信有效性高的优点。

Description

一种去中心化分布式训练拓扑结构、训练系统及方法
技术领域
本发明涉及计算机技术中的分布式训练技术领域,特别涉及一种去中心化分布式训练拓扑结构、训练系统及方法。
背景技术
随着数据的海量增长和人工智能中深度模型大小的急剧增长,需要大量的训练时间和计算资源才能完成有效的训练,因此分布式训练领域受到了大量的关注。
传统的中心化分布式训练系统具有迭代耗时长,带宽要求高的缺点,并且分布式训练系统性能完全依赖于中心训练节点性能,另外去中心化分布式训练系统有多种拓扑结构,不同结构决定了不同的通信频率、通信次数和通信量。这些都极大地影响了去中心化分布式训练系统性能,导致训练任务速度变慢,时间变长。因此设计一种符合去中心化分布式训练系统特性的拓扑结构,并基于此提出高效的训练方法成为了技术人员亟待解决的问题。
发明内容
本发明的目的在于提供一种去中心化分布式训练系统的拓扑结构和训练方法,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种去中心化分布式训练拓扑结构,包括:所述拓扑结构为n维超方形拓扑结构,是封闭的、紧致的、凸的无向图,所述拓扑结构由有限非空节点集合和有限边集合组成,所述拓扑结构的1维骨架是由一群在其所在空间对准每个维度整齐排列的等长的线段组成的,其中相对的线段互相平行,而相交于一点的线段则互相正交。
作为优选的,所述拓扑结构表示为
Figure 100002_DEST_PATH_IMAGE001
,其中n表示所述拓扑结构的维度,所述
Figure 838101DEST_PATH_IMAGE001
Figure 100002_DEST_PATH_IMAGE002
个节点,每个节点代表一个训练节点,有
Figure 286399DEST_PATH_IMAGE003
条边,每条边代表训练节点间的通信设备。
本发明还公开了一种去中心化分布式训练系统,所述训练系统具有n维超方形拓扑结构,构造所述具有n维超方形拓扑结构的去中心化分布式训练系统的步骤如下:
步骤一:构造两个相同的(n-1)维超方形拓扑结构;
步骤二:将两个相同的所述(n-1)维超方形拓扑结构的对应训练节点进行通信耦合。
作为优选的,所述训练系统的计算设备包括电子设备,所述电子设备包括存储器、处理器和接入设备,所述存储器、处理器和接入设备均通过总线相连接,所述接入设备类型包括n维超方形拓扑结构的分布式训练系统和数据库,所述接入设备和所述电子设备通过网络通信。
作为优选的,所述网络包括但不限于公用交换电话网,局域网,广域网,个域网或类似于因特网的通信网络的组合,所述接入设备的示例包括但不限于有线或无线的任何类型的网络接口。
作为优选的,所述电子设备采用一种非存储机器可执行指令的非临时性计算机可读存储介质,其存储由计算机指令,该指令被处理器执行时实现去中心化分布式训练系统的训练方法的任一步骤。
本发明还公开了一种去中心化分布式训练系统的训练方法,包括所述训练方法基于单个训练节点的单批本地数据计算本地梯度,根据拓扑结构确定的平均策略,计算所述梯度的平均值,最后依据去中心化SGD策略更新深度模型参数,其具体步骤如下:
步骤一:获取计算任务;
步骤二:确定所述计算任务的硬件负荷;
步骤三:根据所述硬件负荷,结合性能需求,选择分布式训练系统拓扑结构;
步骤四:开始计算任务;
步骤五:基于单个训练节点上的单批本地数据,计算深度模型的本地梯度;
步骤六:基于拓扑结构确定的平均策略,计算所述本地梯度的平均值;
步骤七:基于去中心化随机梯度下降更新策略,更新深度模型参数;
步骤八:判断训练任务是否收敛,若无则重复步骤五到步骤七;若有,则结束训练任务。
作为优选的,所述步骤五中计算深度模型的本地梯度,具体公式如下:
Figure 100002_DEST_PATH_IMAGE004
其中
Figure 426656DEST_PATH_IMAGE005
Figure 100002_DEST_PATH_IMAGE006
分别表示在t时刻训练节点u上的深度模型的本地参数和梯度,
Figure 353024DEST_PATH_IMAGE007
表示训练任务数据集里的单批数据,
Figure 100002_DEST_PATH_IMAGE008
表示所述单批数据大小,
Figure 698554DEST_PATH_IMAGE009
分别表示在所述单批数据中的数据和标签示例,
Figure 100002_DEST_PATH_IMAGE010
表示对训练任务的损失函数求导,
Figure 862295DEST_PATH_IMAGE011
表示参数为
Figure 394908DEST_PATH_IMAGE005
的深度模型基于数据x的标签预测结果。
作为优选的,所述步骤六中计算所述本地梯度的平均值,具体公式如下:
Figure 100002_DEST_PATH_IMAGE012
Figure 892010DEST_PATH_IMAGE013
其中
Figure 100002_DEST_PATH_IMAGE014
表示任意连通的两个不同节点
Figure 43112DEST_PATH_IMAGE015
的平均策略,也代表具有n-超方形拓扑结构的去中心化分布式训练系统中,基于通信耦合的训练节点的稀疏平均策略,
Figure 692268DEST_PATH_IMAGE005
表示在t时刻训练节点u上的深度模型的本地参数,并定义给定分布式训练系统的拓扑结构G,其由有限非空节点集合V(G)和有限边集合E(G)组成。
作为优选的,所述步骤七中的更新过程为:
Figure 100002_DEST_PATH_IMAGE016
其中
Figure 351658DEST_PATH_IMAGE005
Figure 416566DEST_PATH_IMAGE006
分别表示在t时刻训练节点u上的深度模型的本地参数和梯度,
Figure 893946DEST_PATH_IMAGE017
代表学习率。
本发明的有益效果:
本发明聚焦于去中心化分布式性能训练,将训练任务“均匀化”,将训练任务负荷均匀地分配到分布式训练系统中各个训练节点上,系统性能不再取决于单一训练节点性能,具有迭代耗时短,数据本地化,通信有效性高的优点,当分布式训练系统规模较大,训练节点数较多时,本发明的拓扑结构在通信频率、通信次数、通信量三个比较指标上表现均衡,训练方法能够通过去中心化的数据并行的随机梯度下降方式,减少系统延迟,减低计算复杂度,加速深度模型训练收敛过程。
本发明的特征及优点将通过实施例结合附图进行详细说明。
附图说明
图1是主从拓扑结构示意图;
图2是环状图拓扑结构示意图;
图3是完全图拓扑结构示意图;
图4是3-超方形拓扑结构示意图;
图5是构造本发明提供的具有n维超方形拓扑结构的去中心化分布式训练系统的示意图;
图6是本发明提供的训练方法的流程图;
图7是本发明提供的计算设备的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在详解具体实施方式之前,首先对本发明中多个实例涉及的名词术语进行解释。
分布式训练:基于数据并行、模型并行等多种并行策略,使用多个训练节点进行训练的方式;
去中心化分布式训练:所有训练节点负载均衡的分布式训练方式;
梯度:表示某一函数(通常是损失函数)在输入点处沿着梯度方向函数值变化率最大,趋近于局部最小值,常用来在深度模型训练中找到最小损失函数值,加快训练过程收敛;
训练的次数即梯度的步数;
平均梯度:在分布式训练中,因为训练节点数较多,因此需根据平均策略计算多个训练节点本地梯度的平均梯度,用以更新模型参数。
学习率:表示模型“学习”的速度,即梯度更新的步长。
本发明提供了一种去中心化分布式训练系统的拓扑结构。
其中,所述拓扑结构表示为
Figure 120528DEST_PATH_IMAGE001
,其中n表示该拓扑结构的维度。因此也被称为n维超方形拓扑结构,是一类封闭的、紧致的、凸的图形,它们的1维骨架是由一群在其所在空间对准每个维度整齐排列的等长的线段组成的,其中相对的线段互相平行,而相交于一点的线段则互相正交。
Figure 893312DEST_PATH_IMAGE001
有个
Figure 322762DEST_PATH_IMAGE002
节点,每个节点代表一个训练节点,有
Figure 559709DEST_PATH_IMAGE003
条边,每条边代表训练节点间的通信设备。
图1表示以训练节点1为中心节点的主从拓扑结构,其他所有训练节点都与训练节点1通信耦合。因此所述主从拓扑结构是一种中心化分布式训练拓扑结构。系统的平均梯度的计算和下发都需在中心节点,即训练节点1处进行。c从此结构可知,主从拓扑结构具有中心节点通信频率高,通信量大的特点,当有较多训练节点时,中心节点容易超负载造成分布式训练系统崩溃。
图2表示环状图拓扑结构,任一训练节点都有两个通信耦合的训练节点,所有训练节点耦合成一个环状结构。单个训练节点的平均梯度的计算和下发基于相邻的两个通信耦合节点。因此环状图拓扑结构具有通信量较少,但通信次数大的特点,当有较多训练节点时,会导致分布式训练系统的通信延迟较大。
图3表示完全图拓扑结构,任一训练节点都与其他所有训练节点通信耦合。单个训练节点的平均梯度的计算和下发基于其他所有训练节点。因此完全图拓扑结构具有通信频率高,通信量较大的特点,当有较多训练节点时,对分布式训练系统的带宽要求较高。
图4表示3维超方形拓扑结构,其满足超方形拓扑结构的所有特性,任一训练节点只有3个通信耦合的训练节点。其在通信频率,通信次数,通信量三个指标上表现较为均衡,当分布式训练系统有较多训练节点时,对系统的带宽、延时要求成对数增长。
为了清晰地、数值化地比较不同拓扑结构的特性,我们在此定义任一拓扑结构的通信频率、通信次数以及通信量作为评价指标。我们定义给定分布式训练系统的拓扑结构G,其由有限非空节点集合V(G)和有限边集合E(G)组成,有:
Figure 100002_DEST_PATH_IMAGE018
拓扑结构的通信频率frequency代表最大的单个训练节点的通信耦合的训练节点的个数,我们将其定义为最大的单个节点u的度degree,表示为
Figure 691613DEST_PATH_IMAGE019
,有:
Figure 100002_DEST_PATH_IMAGE020
拓扑结构的通信次数count代表最大的任意两个通信耦合的训练节点所要途径的训练节点个数,我们将其定义为最大的任意连通的两个不同节点
Figure 718737DEST_PATH_IMAGE021
的路径distance,表示为
Figure DEST_PATH_IMAGE022
,有:
Figure 328710DEST_PATH_IMAGE023
拓扑结构的通信量traffic代表最大的单个训练节点要通信一次完整数据所需时间。
根据图1-图4中描述的主从拓扑结构、环状图拓扑结构、完全图拓扑结构的特性以及3维超方形拓扑结构,总结出以下特性对比表格:
Figure 92266DEST_PATH_IMAGE025
在以上表格中,N代表分布式训练系统中的训练节点总数,K代表两个训练节点间通信一次完整数据所需时间,在此假设工作为双工模式,即接收和发送可以同时进行。
从三种指标上来看,主从拓扑结构作为中心化的分布式训练系统常见结构,存在主训练节点通信频率高,通信量大的特点;环状拓扑结构和完全图拓扑结构作为去中心化的分布式训练系统常见结构,分别具有各个训练节点通信次数大和通信频率大,通信量大的特性。而n维超方形拓扑结构在这三种评价指标上表现较为均衡。因此随着分布式训练系统中的训练节点数越来越多时,选择n维超方形拓扑结构可以实现迭代耗时短,通信有效性高的优点,达到通信成本和训练有效之间的平衡。
图5中(1)、(2)、(3)和(4)可视化地说明了(n-1)维超方形拓扑结构构造n维超方形拓扑结构的方式,图5中(1)表示1维超方形拓扑结构其由通信节点0、通信节点1、一段通信配件构成。
当构造如图5中(2)所示的2维超方形拓扑结构时,首先在图5中(1)的基础上复制一份1维超方形拓扑结构,再分别在原结构和复制结构的训练节点编号前增加0、1编码,因此原结构的训练节点编号变更为00、01,复制结构的训练节点编号变更为10、11,最后将原结构和复制结构训练节点编号只有1位不同的训练节点用通信配件相连(在图中以虚线表示),因此新增了
Figure DEST_PATH_IMAGE026
段通信配件,至此完成了2维超方形拓扑结构的构造。
当构造如图5中(3)所示的3维超方形拓扑结构时,首先在图5中(2)的基础上复制一份2维超方形拓扑结构,再分别在原结构和复制结构的训练节点编号前增加0、1编码,因此原结构的训练节点编号变更为000、001、010、011,复制结构的训练节点编号变更为100、101、110、111,最后将原结构和复制结构训练节点编号只有一位不同的训练节点用通信配件相连(在图中以虚线表示),因此新增了
Figure 395072DEST_PATH_IMAGE027
段通信配件,至此完成了3维超方形拓扑结构的构造。
当构造如图5中(4)所示的4维超方形拓扑结构时,首先在图5中(3)的基础上复制一份3维超方形拓扑结构,再分别在原结构和复制结构的训练节点编号前增加0、1编码,因此原结构的训练节点编号变更为0000,0001,0010,0011,0100,0101,0110,0111,复制结构的训练节点编号变更为1000,1001,1010,1011,1100,1101,1110,1111,最后将原结构和复制结构训练节点编号只有一位不同的训练节点用通信配件相连(在图中以虚线表示),因此新增了
Figure DEST_PATH_IMAGE028
段通信配件,至此完成了4维超方形拓扑结构的构造。
以此类推,构造具有n维超方形拓扑结构的去中心化分布式训练系统有如下步骤:
步骤一、具有n维超方形拓扑结构的去中心化分布式训练系统包括两个相同的具有(n-1)维超方形拓扑结构的去中心化分布式训练系统;
步骤二、将所述两个相同的具有(n-1)维超方形拓扑结构的去中心化分布式训练系统的对应训练节点进行通信耦合。
如图6所示,本发明提供的一种去中心化分布式训练系统的训练方法,区别于标准的随机梯度下降Stochastic Gradient Descent(SGD)优化方法。我们提出一种去中心化的数据并行的随机梯度下降方法。为方便表述,在此定义所述训练任务的更新过程为:
Figure 611290DEST_PATH_IMAGE029
其中有:
Figure DEST_PATH_IMAGE030
其中
Figure 24953DEST_PATH_IMAGE031
表示任意连通的两个不同节点
Figure DEST_PATH_IMAGE032
的平均策略。在本发明提供的具有n-超方形拓扑结构的去中心化分布式训练系统中,
Figure 643017DEST_PATH_IMAGE031
代表基于通信耦合的训练节点的稀疏平均策略。
Figure 851144DEST_PATH_IMAGE033
代表学习率。其中
Figure DEST_PATH_IMAGE034
Figure 820237DEST_PATH_IMAGE035
分别表示在t时刻训练节点u上的深度模型的本地参数和梯度。
Figure 240854DEST_PATH_IMAGE035
的具体计算为:
Figure DEST_PATH_IMAGE036
其中
Figure 743117DEST_PATH_IMAGE037
表示训练任务数据集里的单批数据,
Figure DEST_PATH_IMAGE038
表示所述单批数据大小batchsize,
Figure 387725DEST_PATH_IMAGE039
分别表示在所述单批数据中的数据和标签示例,
Figure DEST_PATH_IMAGE040
表示对训练任务的损失函数求导,
Figure DEST_PATH_IMAGE041
表示参数为
Figure 844114DEST_PATH_IMAGE034
的深度模型基于数据x的标签预测结果。
所述训练方法的流程图包括以下步骤:
步骤一:获取计算任务;
步骤二:确定所述计算任务的硬件负荷;
步骤三:根据所述硬件负荷,结合性能需求,选择分布式训练系统拓扑结构;
步骤四:开始计算任务;
步骤五:基于单个训练节点上的单批本地数据,计算深度模型的本地梯度,具体见公式(3);
步骤六:基于拓扑结构确定的平均策略,计算所述本地梯度的平均值,具体见公式(2);
步骤七:基于去中心化SGD更新策略,更新深度模型参数,具体见公式(1);
步骤八:判断训练任务是否收敛,若无则重复步骤五到步骤七;若有,则结束训练任务。
本发明提供了一种非存储机器可执行指令的非临时性计算机可读存储介质,所述机器可执行指令用于使所述计算机执行本发明所提供一种去中心化分布式训练系统的训练方法中的任一所述步骤。
如图7所示,本发明提供的一种去中心化分布式训练系统的计算设备,包括电子设备S1000,所述电子设备S1000包括存储器S1001、处理器S1002和接入设备S1004,所述存储器S1001、处理器S1002和接入设备S1004均通过总线S1003相连接。
接入设备S1004使得电子设备S1000能够经由一个或多个网络S1005通信。所述网络S1005的示例包括但不限于公用交换电话网(PSTN),局域网(LAN),广域网(WAN),个域网(PAN)或类似于因特网的通信网络的组合。所述接入设备S1004的示例包括但不限于有线或无线的任何类型的网络接口。接入设备类型包括但不限于n-超方形拓扑结构的分布式训练系统S1006和数据库S1007。
在本发明的实施例中,所述电子设备S1000的部件以及图4未示出的其他部件也可以彼此相连接。应当理解,图7所示的计算设备结构图仅出于示例的目的,并不是对本发明范围的限制,本领域技术人员可根据需要,增添或替换其他部件。
所述电子设备S1000可以是任何类型的静止或移动计算设备。所述存储器S1001用于存储计算机可执行指令。所述处理器S1002用于执行图6实施例所提供的一种去中心化分布式训练系统的训练方法中的技术方案。
同时,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种去中心化分布式训练方法,其特征在于,包括:所述训练方法基于单个训练节点的单批本地数据计算本地梯度,根据拓扑结构确定的平均策略,计算所述本地梯度的平均值,最后依据去中心化随机梯度下降更新策略,更新深度模型参数,其具体步骤如下:
步骤一:获取计算任务;
步骤二:确定所述计算任务的硬件负荷;
步骤三:根据所述硬件负荷,结合性能需求,选择n维超方形拓扑结构的去中心化分布式训练系统;
步骤四:开始计算任务;
步骤五:基于单个训练节点上的单批本地数据,计算深度模型的本地梯度;
步骤六:基于拓扑结构确定的平均策略,计算所述本地梯度的平均值:
计算所述本地梯度的平均值,具体公式如下:
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
其中
Figure DEST_PATH_IMAGE003
表示任意连通的两个不同节点
Figure DEST_PATH_IMAGE004
的平均策略,也代表具有n维超方形拓扑结构的去中心化分布式训练系统中,基于通信耦合的训练节点的稀疏平均策略,
Figure DEST_PATH_IMAGE005
表示在t时刻训练节点u上的深度模型的本地参数,并定义给定分布式训练系统的拓扑结构G,其由有限非空节点集合V(G)和有限边集合E(G)组成;
步骤七:基于去中心化随机梯度下降更新策略,更新深度模型参数;
步骤八:判断训练任务是否收敛,若无则重复步骤五到步骤七;若有,则结束训练任务。
2.如权利要求1所述的一种去中心化分布式训练方法,其特征在于:所述步骤五中计算深度模型的本地梯度,具体公式如下:
Figure DEST_PATH_IMAGE006
其中
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
分别表示在t时刻训练节点u上的深度模型的本地参数和梯度,
Figure DEST_PATH_IMAGE009
表示训练任务数据集里的单批数据,
Figure DEST_PATH_IMAGE010
表示所述单批本地数据大小,
Figure DEST_PATH_IMAGE011
分别表示在所述单批数据中的数据和标签示例,
Figure DEST_PATH_IMAGE012
表示对训练任务的损失函数求导,
Figure DEST_PATH_IMAGE013
表示参数为
Figure 125637DEST_PATH_IMAGE007
的深度模型基于数据x的标签预测结果。
3.如权利要求1所述的一种去中心化分布式训练方法,其特征在于:所述步骤七中的更新过程为:
Figure DEST_PATH_IMAGE014
其中
Figure DEST_PATH_IMAGE015
表示本地梯度的平均值,
Figure 105095DEST_PATH_IMAGE008
表示在t时刻训练节点u上的深度模型的本地梯度,
Figure DEST_PATH_IMAGE016
代表学习率,
Figure DEST_PATH_IMAGE017
表示在t+1时刻训练节点u上的深度模型的本地参数。
4.如权利要求1所述的一种去中心化分布式训练方法,其特征在于:所述步骤三中的n维超方形拓扑结构是封闭的、紧致的、凸的无向图,所述拓扑结构由有限非空节点集合和有限边集合组成,所述拓扑结构的1维骨架是由一群在其所在空间对准每个维度整齐排列的等长的线段组成的,其中相对的线段互相平行,而相交于一点的线段则互相正交;
构造具有所述n维超方形拓扑结构的去中心化分布式训练系统的步骤如下:
步骤一:构造两个相同的(n-1)维超方形拓扑结构;
步骤二:将两个相同的所述(n-1)维超方形拓扑结构的对应训练节点进行通信耦合。
5.如权利要求1所述的一种去中心化分布式训练方法,其特征在于:所述n维超方形拓扑结构表示为
Figure DEST_PATH_IMAGE018
,其中n表示所述拓扑结构的维度,所述
Figure 510930DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
个节点,每个节点代表一个训练节点,有
Figure DEST_PATH_IMAGE020
条边,每条边代表训练节点间的通信设备。
6.如权利要求1所述的一种去中心化分布式训练方法,其特征在于:所述n维超方形拓扑结构的去中心化分布式训练系统的计算设备包括电子设备,所述电子设备包括存储器、处理器和接入设备,所述存储器、处理器和接入设备均通过总线相连接,所述接入设备包括n维超方形拓扑结构的分布式训练系统和数据库,所述接入设备和所述电子设备通过网络通信。
7.如权利要求6所述的一种去中心化分布式训练方法,其特征在于:所述网络包括但不限于公用交换电话网,局域网,广域网,个域网或因特网的通信网络的组合,所述接入设备的示例包括但不限于有线或无线的任何类型的网络接口。
8.如权利要求6所述的一种去中心化分布式训练方法,其特征在于:所述电子设备采用一种非存储机器可执行指令的非临时性计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现去中心化分布式训练系统的训练方法的任一步骤。
CN202111398769.XA 2021-11-24 2021-11-24 一种去中心化分布式训练拓扑结构、训练系统及方法 Active CN113824802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111398769.XA CN113824802B (zh) 2021-11-24 2021-11-24 一种去中心化分布式训练拓扑结构、训练系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111398769.XA CN113824802B (zh) 2021-11-24 2021-11-24 一种去中心化分布式训练拓扑结构、训练系统及方法

Publications (2)

Publication Number Publication Date
CN113824802A CN113824802A (zh) 2021-12-21
CN113824802B true CN113824802B (zh) 2022-04-01

Family

ID=78919792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111398769.XA Active CN113824802B (zh) 2021-11-24 2021-11-24 一种去中心化分布式训练拓扑结构、训练系统及方法

Country Status (1)

Country Link
CN (1) CN113824802B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304354A (zh) * 2018-01-25 2018-07-20 腾讯科技(深圳)有限公司 一种预测模型训练方法及装置、存储介质、电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10510002B1 (en) * 2019-02-14 2019-12-17 Capital One Services, Llc Stochastic gradient boosting for deep neural networks
CN111382844B (zh) * 2020-03-11 2023-07-07 华南师范大学 一种深度学习模型的训练方法及装置
CN113642734A (zh) * 2020-05-11 2021-11-12 阿里巴巴集团控股有限公司 一种深度学习模型的分布式训练方法、装置以及计算设备
CN112686383B (zh) * 2020-12-30 2024-04-16 中山大学 一种通信并行的分布式随机梯度下降的方法、系统及装置
CN113191503B (zh) * 2021-05-20 2023-06-09 清华大学深圳国际研究生院 一种非共享数据的去中心化的分布式学习方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304354A (zh) * 2018-01-25 2018-07-20 腾讯科技(深圳)有限公司 一种预测模型训练方法及装置、存储介质、电子设备

Also Published As

Publication number Publication date
CN113824802A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
Pelikan et al. The bivariate marginal distribution algorithm
Yu et al. Dynamic density clustering ant colony algorithm with filtering recommendation backtracking mechanism
Ma et al. Finite‐time average consensus based approach for distributed convex optimization
Xue et al. Robust distributed control design for interconnected systems under topology uncertainty
CN113824802B (zh) 一种去中心化分布式训练拓扑结构、训练系统及方法
Qiu et al. Iterative learning control for multi‐agent systems with noninstantaneous impulsive consensus tracking
Lin et al. Latency-driven model placement for efficient edge intelligence service
CN109033603B (zh) 基于源流路径链的智能变电站二次系统仿真方法
James et al. An inter-molecular adaptive collision scheme for chemical reaction optimization
Ho et al. Adaptive communication for distributed deep learning on commodity GPU cluster
Wang et al. Coded alternating least squares for straggler mitigation in distributed recommendations
CN112738225B (zh) 基于人工智能的边缘计算方法
Zhang et al. On continuum limits of Markov chains and network modeling
Chen et al. Consensus of flocks under M-nearest-neighbor rules
Zhang et al. On convergence rate for multi-agent consensus: a community detection algorithm
Gu et al. Group controllability of discrete‐time second‐order multi‐agent systems with two‐time‐scale feature
CN107045535A (zh) 数据库表索引
Tang et al. Impulsive Synchronization of Complex Dynamical Networks
CN111651683A (zh) 一种参数可调的无标度网络生成方法
Hu et al. Improved particle swarm optimization for minimum spanning tree of length constraint problem
Sun Mean square consensus for uncertain multiagent systems with noises and delays
CN109711478A (zh) 一种基于时序密度聚类的大规模数据群组搜索方法
Green et al. A fast algorithm for incremental betweenness centrality
CN116684273B (zh) 一种基于粒子群的机动通信网络结构自动规划方法及系统
CN108320234A (zh) 一种数据处理方法、装置、及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant