CN112702267B - 分布式训练路由方法、系统、储存介质及计算机设备 - Google Patents

分布式训练路由方法、系统、储存介质及计算机设备 Download PDF

Info

Publication number
CN112702267B
CN112702267B CN202110082811.0A CN202110082811A CN112702267B CN 112702267 B CN112702267 B CN 112702267B CN 202110082811 A CN202110082811 A CN 202110082811A CN 112702267 B CN112702267 B CN 112702267B
Authority
CN
China
Prior art keywords
node
multicast tree
nodes
working
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110082811.0A
Other languages
English (en)
Other versions
CN112702267A (zh
Inventor
武继刚
陈招红
龙鑫
陈龙
孙为军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110082811.0A priority Critical patent/CN112702267B/zh
Publication of CN112702267A publication Critical patent/CN112702267A/zh
Application granted granted Critical
Publication of CN112702267B publication Critical patent/CN112702267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/48Routing tree calculation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明针对基于数据融合的分布式机器学习训练中的通信瓶颈,提出了一种分布式训练路由方法、系统、储存介质及计算机设备,其通过在构建梯度更新上传多播树时,根据不同节点发送梯度更新数据的时延差异,将工作节点以最小的跳数加入梯度更新上传多播树中,从而能够最小化对网络资源的占用;同时,本发明利用工作节点计算能力不一致所导致的节点上传梯度更新数据时间有差异的特性,把梯度更新数据路由到同一节点进行数据融合,减小网络中传输的数据量,能显著缓解分布式机器训练过程的通信负载,从而加快分布式机器训练进程。

Description

分布式训练路由方法、系统、储存介质及计算机设备
技术领域
本发明涉及网络路由技术领域,具体涉及分布式训练过程中的通信技术,更具体地,涉及一种分布式训练路由方法、系统、储存介质及计算机设备。
背景技术
分布式训练是当下主流的机器学习训练模式。分布式训练完成一次迭代过程包括以下步骤:工作节点从参数服务器节点获取最新模型参数,然后从本地训练数据中取出一批(即batch,表示一个完整实体的用于训练的输入数据矩阵称为一组,一批可能是一组或者多组)的数据进行梯度更新计算(梯度即用于更新参数矩阵的差值);将梯度更新数据发送至参数服务器;参数服务器利用参数更新数据计算更新模型参数。由于分布式机器学习训练需要进行全局模型参数获取和更新,其中工作节点需要先完成梯度更新计算才能将梯度更新数据发送至参数服务器,而大规模的参数传输需要占用大量的带宽资源,所以分布式机器学习训练中的通信瓶颈是一个亟待解决的技术问题。
目前已经存在许多减小分布式训练通信开销的方法,如通过增加批数据量的大小来减少通信次数、梯度压缩等,这些方法都可以有效减小通信开销,但这些方法经常导致测试精度的严重损失,并且需要复杂的超参数调节。考虑到机器学习中梯度更新数据的可融合性,因此通过数据融合技术更进一步减小分布式机器学习训练的网络负载。如图1所示,数据融合技术可以将传输到同一节点的梯度更新数据融合成为一个数据包,从而减小网络负载。然而,现有的基于数据融合的工作大多假设数据包产生是连续的。分布式训练中,工作节点需要先完成梯度更新计算才能将梯度更新数据发送至参数服务器。由于工作节点是异构的,工作节点的计算能力存在差异,导致计算完成时间也不一致,在数据融合时需要等待计算较慢的节点将梯度更新发送过来。传统的数据融合算法没有考虑工作节点计算所带来的延迟,无法在分布式训练场景中发挥其优势。此外,传统的数据融合算法没有考虑网络节点的缓存限制。在分布式训练中,梯度更新的数据量通常较大,如果融合的数据过多,可能会超出缓存的存储的容量限制。
公开日为2020.04.17,公开号为:CN111027708A的中国发明专利:一种面向分布式机器学习的参数通信优化方法,试图通过采用动态延迟同步策略来解决集群不同计算节点计算性能不同导致性能浪费的问题。但是该方案并未解决前述的技术问题。
发明内容
针对现有技术的局限,本发明提出一种分布式训练路由方法、系统、储存介质及计算机设备,本发明采用的技术方案是:
一种分布式训练路由方法,其为基于数据融合的分布式训练中的网络节点,包括参数服务器节点、若干工作节点以及若干路由节点,获取分布式训练中的数据传递路径,包括以下步骤:
S01,获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力;
S02,根据各网络节点间的连接情况构建带权有向图,根据所述带权有向图,运用最短路径算法获取参数服务器节点到各工作节点的最短路径,以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树;
S03,根据所述带权有向图,运用最短路径算法寻找各工作节点到参数服务器节点的最短路径;根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力,从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径;
S04,构建梯度更新上传多播树,将所述关键路径加入到所述梯度更新上传多播树;
S05,遍历各工作节点,获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径,加入所述梯度更新上传多播树中;重复步骤S05直至所述梯度更新上传多播树包括各工作节点;
S06,根据所述模型参数下发多播树以及所述梯度更新上传多播树获取分布式训练中的数据传递路径。
相较于现有技术,本发明通过在构建梯度更新上传多播树时,根据不同节点发送梯度更新数据的时延差异,将工作节点以最小的跳数加入梯度更新上传多播树中,从而能够最小化对网络资源的占用;同时,本发明利用工作节点计算能力不一致所导致的节点上传梯度更新数据时间有差异的特性,把梯度更新数据路由到同一节点进行数据融合,减小网络中传输的数据量,能显著缓解分布式机器训练过程的通信负载,从而加快分布式机器训练进程。
作为一种优选方案,所述步骤S03中包括以下步骤:
S031,根据所述模型参数下发多播树以及各网络节点间的带宽容量计算模型参数数据从参数服务器节点传输到各工作节点的时间;
S032,根据所述带权有向图,运用最短路径算法寻找各工作节点到参数服务器节点的最短路径;
S033,根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力,结合模型参数数据从参数服务器节点传输到各工作节点的时间,从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径。
进一步的,所述步骤S05中,包括以下步骤:
S051,根据各网络节点的缓存容量以及工作节点的计算能力,计算所述梯度更新上传多播树中的工作节点上传梯度更新数据的时间;
S052,遍历各工作节点,结合所述梯度更新上传多播树中的工作节点上传梯度更新数据的时间,获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径,加入所述梯度更新上传多播树中。
进一步的,所述步骤S031中,模型参数数据从参数服务器节点传输到各工作节点的时间
Figure GDA0004079186850000031
按以下公式计算:
Figure GDA0004079186850000032
其中,M表示网络节点的集合,N表示工作节点的集合,p表示模型参数数据的大小,
Figure GDA0004079186850000033
表示模型参数数据从参数服务器发送至工作节点过程中网络节点i与网络节点j之间的路径,其中网络节点i与网络节点j为相邻节点,若网络节点i将模型参数数据通过网络节点j发送给工作节点,则
Figure GDA0004079186850000034
反之
Figure GDA0004079186850000035
进一步的,所述关键路径L*通过以下公式获取:
Figure GDA0004079186850000036
约束条件:
Figure GDA0004079186850000041
Figure GDA0004079186850000042
Figure GDA0004079186850000043
Figure GDA0004079186850000044
Figure GDA0004079186850000045
其中,Li,ε,i∈{1,2,...,|N|}为第i个工作节点到参数服务器ε的最短路径,Ti为第i个工作节点的梯度更新数据沿着路径Li,ε上传到达参数服务器ε所需的时间;
Figure GDA0004079186850000046
分别表示第i个工作节点的梯度更新计算时间和传输时间,D为单轮训练模型计算量的大小,q为梯度更新数据大小,q值大小与模型参数数据的大小p相等,wj表示网络节点j的带宽容量,gk表示网络节点k的缓存容量,
Figure GDA0004079186850000047
表示梯度更新数据从工作节点发送到参数服务器节点过程中网络节点j与网络节点k之间的路径,其中网络节点j与网络节点k为相邻节点,若网络节点j将模型参数通过网络节点k发送给工作节点,则
Figure GDA0004079186850000048
反之
Figure GDA0004079186850000049
进一步的,所述步骤S051中通过以下公式计算所述梯度更新上传多播树MTu上的工作节点上传梯度更新数据的时间
Figure GDA00040791868500000410
Figure GDA00040791868500000411
约束条件:
Figure GDA00040791868500000412
进一步的,在步骤S052中,通过求解下列非线性整型规划获得所述梯度更新上传多播树中未包含的工作节点i到所述梯度更新上传多播树上的网络节点j的最短路径L:
Figure GDA0004079186850000051
约束条件:
Figure GDA0004079186850000052
Figure GDA0004079186850000053
Figure GDA0004079186850000054
其中,ti,j表示梯度更新数据从网络节点i到网络节点j所需的传输时间。
本发明还提供以下内容:
一种分布式训练路由系统,其为基于数据融合的分布式训练中的网络节点,包括参数服务器节点、若干工作节点以及若干路由节点,获取分布式训练中的数据传递路径,包括网络节点信息获取模块、模型参数下发多播树构建模块、关键路径获取模块、梯度更新上传多播树构建模块、梯度更新上传多播树完善模块以及数据传递路径获取模块;所述网络节点信息获取模块连接所述模型参数下发多播树构建模块、关键路径获取模块、梯度更新上传多播树构建模块,所述关键路径获取模块连接所述模型参数下发多播树构建模块,所述梯度更新上传多播树构建模块连接所述关键路径获取模块,所述梯度更新上传多播树完善模块连接所述梯度更新上传多播树构建模块,所述数据传递路径获取模块连接所述模型参数下发多播树构建模块以及所述梯度更新上传多播树完善模块;其中:
所述网络节点信息获取模块用于获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力;
所述模型参数下发多播树构建模块用于根据各网络节点间的连接情况构建带权有向图,根据所述带权有向图,运用最短路径算法获取参数服务器节点到各工作节点的最短路径,以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树;
所述关键路径获取模块用于根据所述带权有向图,运用最短路径算法寻找各工作节点到参数服务器节点的最短路径;根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力,从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径;
所述梯度更新上传多播树构建模块用于构建梯度更新上传多播树,将所述关键路径加入到所述梯度更新上传多播树;
所述梯度更新上传多播树完善模块用于遍历各工作节点,获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径,加入所述梯度更新上传多播树中,直至所述梯度更新上传多播树包括各工作节点;
所述数据传递路径获取模块用于根据所述模型参数下发多播树以及所述梯度更新上传多播树获取分布式训练中的数据传递路径。
一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述的分布式训练路由方法的步骤。
一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述分布式训练路由方法的步骤。
附图说明
图1为数据融合前后的路由对比示意图;
图2为本发明实施例1提供的分布式训练路由方法的步骤流程图;
图3为本发明实施例1的无线网络环境示例;
图4为本发明实施例1步骤S03的步骤流程图;
图5为本发明实施例1步骤S05的步骤流程图;
图6为本发明实施例2提供的分布式训练路由系统;
附图标记说明:1、网络节点信息获取模块;2、模型参数下发多播树构建模块;3、关键路径获取模块;4、梯度更新上传多播树构建模块;5、梯度更新上传多播树完善模块;6、数据传递路径获取模块。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。以下结合附图和实施例对本发明做进一步的阐述。
为了解决现有技术的局限性,本实施例提供了一种技术方案,下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
请参考图2,一种分布式训练路由方法,其为基于数据融合的分布式训练中的网络节点,包括参数服务器节点、若干工作节点以及若干路由节点,获取分布式训练中的数据传递路径,包括以下步骤:
S01,获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力;
S02,根据各网络节点间的连接情况构建带权有向图,根据所述带权有向图,运用最短路径算法获取参数服务器节点到各工作节点的最短路径,以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树;
S03,根据所述带权有向图,运用最短路径算法寻找各工作节点到参数服务器节点的最短路径;根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力,从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径;
S04,构建梯度更新上传多播树,将所述关键路径加入到所述梯度更新上传多播树;
S05,遍历各工作节点,获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径,加入所述梯度更新上传多播树中;重复步骤S05直至所述梯度更新上传多播树包括各工作节点;
S06,根据所述模型参数下发多播树以及所述梯度更新上传多播树获取分布式训练中的数据传递路径。
相较于现有技术,本发明通过在构建梯度更新上传多播树时,根据不同节点发送梯度更新数据的时延差异,将工作节点以最小的跳数加入梯度更新上传多播树中,从而能够最小化对网络资源的占用;同时,本发明利用工作节点计算能力不一致所导致的节点上传梯度更新数据时间有差异的特性,把梯度更新数据路由到同一节点进行数据融合,减小网络中传输的数据量,能显著缓解分布式机器训练过程的通信负载,从而加快分布式机器训练进程。
具体的,本实施例可应用于具有多个网络节点的无线网络环境中,如图3所示,该无线网络环境包括一个参数服务器节点、多个工作节点和多个路由节点;在实际应用中,工作节点可以是边缘服务器,参数服务器可以是云服务器,路由节点可以是基站。
本实施例所构建的模型参数下发多播树MTd用于反映模型参数从参数服务器发送至各工作节点的路由路径,而梯度更新上传多播树MTu用于反映梯度更新数据从各工作节点经过数据融合后上传至参数服务器的路由路径。所述模型参数下发多播树MTd以及梯度更新上传多播树MTu本身即可视为分布式训练中参数数据的传递路径的集合;在分布式训练中,在梯度更新上传阶段,会对经过同一网络节点的梯度更新数据进行融合后再上传。
所述工作节点的计算能力,具体表现为工作节点的CPU频率f。
上述无线网络环境在进行分布式训练时,可以表示为以下的优化问题:
Figure GDA0004079186850000091
其中,ω0为全局模型参数,ωn为第n个工作节点上的本地模型参数,工作节点数量N,l是第n个工作节点上的精度损失。
若采用同步随机梯度下降法进行分布式机器训练,单次训练过程为:初始化全局模型的参数ω0,工作节点数量N,学习率η;首先读取当前全局模型的参数ω0;对于每个工作节,从训练集中获取训练样本sn,计算这个样本上的随机梯度
Figure GDA0004079186850000092
f(*)为损失函数,更新工作节点的参数
Figure GDA0004079186850000093
最后同步通信获得所有工作节点上的参数的平均
Figure GDA0004079186850000094
并更新全局参数
Figure GDA0004079186850000095
步骤S02、S03中使用的最小路径算法,具体可采用Dijkstra(迪杰斯特拉)算法,Dijkstra算法是一种典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是利用带权有向图,以起始点为中心向外层层扩展,直到扩展到终点为止。
作为一种优选实施例,请参阅图4,所述步骤S03中包括以下步骤:
S031,根据所述模型参数下发多播树以及各网络节点间的带宽容量计算模型参数数据从参数服务器节点传输到各工作节点的时间;
S032,根据所述带权有向图,运用最短路径算法寻找各工作节点到参数服务器节点的最短路径;
S033,根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力,结合模型参数数据从参数服务器节点传输到各工作节点的时间,从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径。
作为一种优选实施例,请参阅图5,所述步骤S05中,包括以下步骤:
S051,根据各网络节点的缓存容量以及工作节点的计算能力,计算所述梯度更新上传多播树中的工作节点上传梯度更新数据的时间;
S052,遍历各工作节点,结合所述梯度更新上传多播树中的工作节点上传梯度更新数据的时间,获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径,加入所述梯度更新上传多播树中。
进一步的,所述步骤S031中,模型参数数据从参数服务器节点传输到各工作节点的时间
Figure GDA0004079186850000101
按以下公式计算:
Figure GDA0004079186850000102
其中,M表示网络节点的集合,N表示工作节点的集合,p表示模型参数数据的大小,
Figure GDA0004079186850000103
表示模型参数数据从参数服务器发送至工作节点过程中网络节点i与网络节点j之间的路径,其中网络节点i与网络节点j为相邻节点,若网络节点i将模型参数数据通过网络节点j发送给工作节点,则
Figure GDA0004079186850000104
反之
Figure GDA0004079186850000105
具体的,本实施例应用在的无线网络环境中只有一个参数服务器,参数服务器负责参数的收集和融合,由于参数融合时间可以忽略,所以最新的模型参数数据到达参数服务器的时间
Figure GDA0004079186850000106
作为一种优选实施例,所述关键路径L*通过以下公式获取:
Figure GDA0004079186850000107
约束条件:
Figure GDA0004079186850000108
Figure GDA0004079186850000109
Figure GDA00040791868500001010
Figure GDA00040791868500001011
Figure GDA00040791868500001012
其中,Li,ε,i∈{1,2,...,|N|}为第i个工作节点到参数服务器ε的最短路径,Ti为第i个工作节点的梯度更新数据沿着路径Li,ε上传到达参数服务器ε所需的时间;
Figure GDA0004079186850000111
分别表示第i个工作节点的梯度更新计算时间和传输时间,D为单轮训练模型计算量的大小,q为梯度更新数据大小,q值大小与模型参数数据的大小p相等,wj表示网络节点j的带宽容量,gk表示网络节点k的缓存容量,
Figure GDA0004079186850000112
表示梯度更新数据从工作节点发送到参数服务器节点过程中网络节点j与网络节点k之间的路径,其中网络节点j与网络节点k为相邻节点,若网络节点j将模型参数通过网络节点k发送给工作节点,则
Figure GDA0004079186850000113
反之
Figure GDA0004079186850000114
作为一种优选实施例,所述步骤S051中通过以下公式计算所述梯度更新上传多播树MTu上的工作节点上传梯度更新数据的时间
Figure GDA0004079186850000115
Figure GDA0004079186850000116
约束条件:
Figure GDA0004079186850000117
进一步的,在步骤S052中,通过求解下列非线性整型规划获得所述梯度更新上传多播树中未包含的工作节点i到所述梯度更新上传多播树上的网络节点j的最短路径L:
Figure GDA0004079186850000118
约束条件:
Figure GDA0004079186850000119
Figure GDA00040791868500001110
Figure GDA00040791868500001111
其中,ti,j表示梯度更新数据从网络节点i到网络节点j所需的传输时间。
实施例2
一种分布式训练路由系统,请参阅图6,其为基于数据融合的分布式训练中的网络节点,包括参数服务器节点、若干工作节点以及若干路由节点,获取分布式训练中的数据传递路径,其特征在于,包括网络节点信息获取模块1、模型参数下发多播树构建模块2、关键路径获取模块3、梯度更新上传多播树构建模块4、梯度更新上传多播树完善模块5以及数据传递路径获取模块6;所述网络节点信息获取模块1连接所述模型参数下发多播树构建模块2、关键路径获取模块3、梯度更新上传多播树构建模块4,所述关键路径获取模块3连接所述模型参数下发多播树构建模块2,所述梯度更新上传多播树构建模块4连接所述关键路径获取模块3,所述梯度更新上传多播树完善模块5连接所述梯度更新上传多播树构建模块4,所述数据传递路径获取模块6连接所述模型参数下发多播树构建模块2以及所述梯度更新上传多播树完善模块5;其中:
所述网络节点信息获取模块1用于获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力;
所述模型参数下发多播树构建模块2用于根据各网络节点间的连接情况构建带权有向图,根据所述带权有向图,运用最短路径算法获取参数服务器节点到各工作节点的最短路径,以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树;
所述关键路径获取模块3用于根据所述带权有向图,运用最短路径算法寻找各工作节点到参数服务器节点的最短路径;根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力,从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径;
所述梯度更新上传多播树构建模块4用于构建梯度更新上传多播树,将所述关键路径加入到所述梯度更新上传多播树;
所述梯度更新上传多播树完善模块5用于遍历各工作节点,获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径,加入所述梯度更新上传多播树中,直至所述梯度更新上传多播树包括各工作节点;
所述数据传递路径获取模块6用于根据所述模型参数下发多播树以及所述梯度更新上传多播树获取分布式训练中的数据传递路径。
实施例3
一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现实施例1中的分布式训练路由方法的步骤。
实施例4
一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现实施例1中的分布式训练路由方法的步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种分布式训练路由方法,其为基于数据融合的分布式训练中的网络节点,包括参数服务器节点、若干工作节点以及若干路由节点,获取分布式训练中的数据传递路径,其特征在于,包括以下步骤:
S01,获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力;
S02,根据各网络节点间的连接情况构建带权有向图,根据所述带权有向图,运用最短路径算法获取参数服务器节点到各工作节点的最短路径,以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树;
S03,根据所述带权有向图,运用最短路径算法寻找各工作节点到参数服务器节点的最短路径;根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力,从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径;
S04,构建梯度更新上传多播树,将所述关键路径加入到所述梯度更新上传多播树;
S05,遍历各工作节点,获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径,加入所述梯度更新上传多播树中;重复步骤S05直至所述梯度更新上传多播树包括各工作节点;
S06,根据所述模型参数下发多播树以及所述梯度更新上传多播树获取分布式训练中的数据传递路径。
2.根据权利要求1所述的分布式训练路由方法,其特征在于,所述步骤S03中包括以下步骤:
S031,根据所述模型参数下发多播树以及各网络节点间的带宽容量计算模型参数数据从参数服务器节点传输到各工作节点的时间;
S032,根据所述带权有向图,运用最短路径算法寻找各工作节点到参数服务器节点的最短路径;
S033,根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力,结合模型参数数据从参数服务器节点传输到各工作节点的时间,从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径。
3.根据权利要求2所述的分布式训练路由方法,其特征在于,所述步骤S05中,包括以下步骤:
S051,根据各网络节点的缓存容量以及工作节点的计算能力,计算所述梯度更新上传多播树中的工作节点上传梯度更新数据的时间;
S052,遍历各工作节点,结合所述梯度更新上传多播树中的工作节点上传梯度更新数据的时间,获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径,加入所述梯度更新上传多播树中。
4.根据权利要求3所述的分布式训练路由方法,其特征在于,所述步骤S031中,模型参数数据从参数服务器节点传输到各工作节点的时间
Figure FDA0004079186840000021
按以下公式计算:
Figure FDA0004079186840000022
其中,M表示网络节点的集合,N表示工作节点的集合,p表示模型参数数据的大小,
Figure FDA0004079186840000023
表示模型参数数据从参数服务器发送至工作节点过程中网络节点i与网络节点j之间的路径,其中网络节点i与网络节点j为相邻节点,若网络节点i将模型参数数据通过网络节点j发送给工作节点,则
Figure FDA0004079186840000024
反之
Figure FDA0004079186840000025
5.根据权利要求4所述的分布式训练路由方法,其特征在于,所述关键路径L*通过以下公式获取:
Figure FDA0004079186840000026
约束条件:
Figure FDA0004079186840000027
Figure FDA0004079186840000028
Figure FDA0004079186840000029
Figure FDA00040791868400000210
Figure FDA00040791868400000211
其中,Li,ε为第i个工作节点到参数服务器ε的最短路径,Ti为第i个工作节点的梯度更新数据沿着路径Li,ε上传到达参数服务器ε所需的时间;
Figure FDA0004079186840000031
分别表示第i个工作节点的梯度更新计算时间和传输时间,D为单轮训练模型计算量的大小,q为梯度更新数据大小,q值大小与模型参数数据的大小p相等,wj表示网络节点j的带宽容量,gk表示网络节点k的缓存容量,
Figure FDA0004079186840000032
表示梯度更新数据从工作节点发送到参数服务器节点过程中网络节点j与网络节点k之间的路径,其中网络节点j与网络节点k为相邻节点,若网络节点j将模型参数通过网络节点k发送给工作节点,则
Figure FDA0004079186840000033
反之
Figure FDA0004079186840000034
6.根据权利要求5所述的分布式训练路由方法,其特征在于,所述步骤S051中通过以下公式计算所述梯度更新上传多播树MTu上的工作节点上传梯度更新数据的时间
Figure FDA0004079186840000035
Figure FDA0004079186840000036
约束条件:
Figure FDA0004079186840000037
7.根据权利要求6所述的分布式训练路由方法,其特征在于,在步骤S052中,通过求解下列非线性整型规划获得所述梯度更新上传多播树中未包含的工作节点i到所述梯度更新上传多播树上的网络节点j的最短路径L:
Figure FDA0004079186840000038
约束条件:
Figure FDA0004079186840000039
Figure FDA00040791868400000310
Figure FDA00040791868400000311
其中,ti,j表示梯度更新数据从网络节点i到网络节点j所需的传输时间。
8.一种分布式训练路由系统,其为基于数据融合的分布式训练中的网络节点,包括参数服务器节点、若干工作节点以及若干路由节点,获取分布式训练中的数据传递路径,其特征在于,包括网络节点信息获取模块(1)、模型参数下发多播树构建模块(2)、关键路径获取模块(3)、梯度更新上传多播树构建模块(4)、梯度更新上传多播树完善模块(5)以及数据传递路径获取模块(6);所述网络节点信息获取模块(1)连接所述模型参数下发多播树构建模块(2)、关键路径获取模块(3)、梯度更新上传多播树构建模块(4),所述关键路径获取模块(3)连接所述模型参数下发多播树构建模块(2),所述梯度更新上传多播树构建模块(4)连接所述关键路径获取模块(3),所述梯度更新上传多播树完善模块(5)连接所述梯度更新上传多播树构建模块(4),所述数据传递路径获取模块(6)连接所述模型参数下发多播树构建模块(2)以及所述梯度更新上传多播树完善模块(5);其中:
所述网络节点信息获取模块(1)用于获取各网络节点间的连接情况、各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力;
所述模型参数下发多播树构建模块(2)用于根据各网络节点间的连接情况构建带权有向图,根据所述带权有向图,运用最短路径算法获取参数服务器节点到各工作节点的最短路径,以参数服务器节点到各工作节点的最短路径构建模型参数下发多播树;
所述关键路径获取模块(3)用于根据所述带权有向图,运用最短路径算法寻找各工作节点到参数服务器节点的最短路径;根据各网络节点间的带宽容量、各网络节点的缓存容量以及工作节点的计算能力,从各工作节点到参数服务器节点的最短路径中筛选出使得梯度更新数据到达参数服务器节点时间最晚的路径作为关键路径;
所述梯度更新上传多播树构建模块(4)用于构建梯度更新上传多播树,将所述关键路径加入到所述梯度更新上传多播树;
所述梯度更新上传多播树完善模块(5)用于遍历各工作节点,获取所述梯度更新上传多播树中未包含的工作节点到所述梯度更新上传多播树上的网络节点的最短路径,加入所述梯度更新上传多播树中,直至所述梯度更新上传多播树包括各工作节点;
所述数据传递路径获取模块(6)用于根据所述模型参数下发多播树以及所述梯度更新上传多播树获取分布式训练中的数据传递路径。
9.一种储存介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的分布式训练路由方法的步骤。
10.一种计算机设备,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的分布式训练路由方法的步骤。
CN202110082811.0A 2021-01-21 2021-01-21 分布式训练路由方法、系统、储存介质及计算机设备 Active CN112702267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110082811.0A CN112702267B (zh) 2021-01-21 2021-01-21 分布式训练路由方法、系统、储存介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110082811.0A CN112702267B (zh) 2021-01-21 2021-01-21 分布式训练路由方法、系统、储存介质及计算机设备

Publications (2)

Publication Number Publication Date
CN112702267A CN112702267A (zh) 2021-04-23
CN112702267B true CN112702267B (zh) 2023-04-07

Family

ID=75515897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110082811.0A Active CN112702267B (zh) 2021-01-21 2021-01-21 分布式训练路由方法、系统、储存介质及计算机设备

Country Status (1)

Country Link
CN (1) CN112702267B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282411B (zh) * 2021-05-19 2022-03-22 复旦大学 一种基于边缘设备的分布式神经网络训练系统
CN114118437B (zh) * 2021-09-30 2023-04-18 电子科技大学 一种面向微云中分布式机器学习的模型更新同步方法
CN114900482B (zh) * 2022-03-28 2023-05-30 中国科学技术大学苏州高等研究院 Ps架构下基于可编程交换机的梯度调度方法和装置
CN114866429B (zh) * 2022-04-28 2023-07-18 中国科学技术大学苏州高等研究院 联合路由决策和网内聚合的分布式模型训练方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043444A (zh) * 2007-04-26 2007-09-26 浙江大学 基于蚁群优化的分布式服务质量多播路由方法
CN101527680A (zh) * 2009-02-20 2009-09-09 西部矿业股份有限公司 基于ddmc的时延约束组播路由的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9563854B2 (en) * 2014-01-06 2017-02-07 Cisco Technology, Inc. Distributed model training
CN106100892A (zh) * 2016-07-04 2016-11-09 广东工业大学 一种构建稳定的动态网络最短路径树的算法
US10945166B2 (en) * 2017-04-07 2021-03-09 Vapor IO Inc. Distributed processing for determining network paths
CN108667734B (zh) * 2018-05-18 2020-12-08 南京邮电大学 一种基于q学习和lstm神经网络的快速路由决策方法
CN108924055B (zh) * 2018-08-23 2019-06-14 北京理工大学 一种基于斯坦纳树的命名数据网络多播路由方法
CN111010341B (zh) * 2019-12-19 2020-10-27 南京大学 一种基于深度学习的覆盖网络路由决策方法
CN111475457A (zh) * 2020-04-08 2020-07-31 苏州浪潮智能科技有限公司 一种片上网络的数据传输路径确定方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043444A (zh) * 2007-04-26 2007-09-26 浙江大学 基于蚁群优化的分布式服务质量多播路由方法
CN101527680A (zh) * 2009-02-20 2009-09-09 西部矿业股份有限公司 基于ddmc的时延约束组播路由的方法

Also Published As

Publication number Publication date
CN112702267A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN112702267B (zh) 分布式训练路由方法、系统、储存介质及计算机设备
CN111770019B (zh) 基于Dijkstra算法的Q-learning光片上网络自适应路由规划方法
JP2505064B2 (ja) 経路選択方法
CN108111411B (zh) 骨干网络及其动态路径规划系统和规划方法
EP3131244A1 (en) Sdn network system, controller and control method
CN109379230B (zh) 一种基于广度优先搜索的服务功能链部署方法
CN110461018B (zh) 基于可计算ap的机会网络路由转发方法
EP3075190A2 (en) Distributed routing in wireless networks
US7158791B2 (en) Route updating method for micromobility network
CN112543151B (zh) Sdn控制器部署方法、装置、电子设备和存储介质
CN105656964B (zh) 数据推送的实现方法及装置
CN106937351B (zh) 一种会话实现方法及核心网元
CN112261681A (zh) 低轨卫星dtn网络路由路径选取方法及系统
CN111064667A (zh) 卫星网络路由优化方法、控制器及数据系统
CN112671631B (zh) 一种分组传送网的优化方法和系统
CN104639557A (zh) 一种建立pcep会话的方法、系统及设备
CN105591773B (zh) 一种创建业务与增量发现并发处理的方法、装置和系统
Zhu et al. Improvement of contact graph routing algorithm in LEO satellite DTN network
CN108337174B (zh) 一种传输网端到端业务路由的搜索方法和装置、存储介质
CN105007190A (zh) 一种p2p组网质量优化方法
CN111342927B (zh) 一种时间同步处理方法及装置
Fedorov et al. Computer Research and Modeling
CN116683981B (zh) 一种基于多维时变资源图的低轨卫星路径规划方法
KR100538357B1 (ko) 비동기 전송망의 경로 제공 장치 및 방법
CN114390489B (zh) 一种端到端网络切片的服务化部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant