CN115250253B - 带宽感知的归约处理方法以及ai模型的训练方法 - Google Patents

带宽感知的归约处理方法以及ai模型的训练方法 Download PDF

Info

Publication number
CN115250253B
CN115250253B CN202210712450.8A CN202210712450A CN115250253B CN 115250253 B CN115250253 B CN 115250253B CN 202210712450 A CN202210712450 A CN 202210712450A CN 115250253 B CN115250253 B CN 115250253B
Authority
CN
China
Prior art keywords
model
nodes
training
blocks
segmentation scheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210712450.8A
Other languages
English (en)
Other versions
CN115250253A (zh
Inventor
罗寿西
王仁毅
李可
邢焕来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202210712450.8A priority Critical patent/CN115250253B/zh
Publication of CN115250253A publication Critical patent/CN115250253A/zh
Application granted granted Critical
Publication of CN115250253B publication Critical patent/CN115250253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的主要目的在于提供带宽感知的归约处理方法以加速分布式场景中AI模型的训练,解决了现有技术中网络链路利用率不足的技术问题。带宽感知的归约处理方法,包括以下步骤:step110,判断工作模式,当工作模式为阻塞模式时进入步骤step120,当工作模式为非阻塞模式时进入步骤step130;step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对AI模型进行切分,将切分得到的模型分块发送给其它节点;step130,在每个节点完成训练后,按照预定义的模型切分方案对AI模型进行切分,然后将切分得到的模型分块发送给其它节点;step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;其中,所述模型切分方案为带宽感知的切分方案。

Description

带宽感知的归约处理方法以及AI模型的训练方法
技术领域
本发明涉及数据通信的技术领域,具体而言,涉及带宽感知的归约处理方法以及AI模型的训练方法。
背景技术
在大数据的环境下,训练大规模神经网络模型成为推动人工智能进一步发展的关键。大量的数据存储在全球各地的数据中心之中,这些数据中心之间由广域网连接。为了从所有数据中学习模型,传统的做法是集中式训练,即将分散的原始数据通过网络传输汇集到一个数据中心,然后在这个数据中心上运行现有的机器学习算法。然而这种方式存在2个问题:(1)为复制原始数据,需要耗费大量跨数据中心的网络带宽,这些带宽资源不仅稀缺昂贵,而且增长速度较慢;(2)对数据隐私和安全性的日益关注,限制了这种集中式训练的开展。为此,分布式机器学习成为解决上述问题的关键,它通过在多个数据中心之间同步模型来完成合作训练。
实际应用中,分布式机器学习可以采用完全同步或者部分同步的方式,即全局归约(All Reduce)和部分归约(Partial Reduce)。作为全局归约的变种,部分归约以降低收敛速度的代价,能够有效容忍异构环境,在真实的训练环境中更具实用性。
目前已有的部分归约方案主要采用基于控制器的方式。具体而言,由控制器挑选出前p个完成本地训练的节点,然后让这p个节点展开一轮模型同步。现有方案主要关注p个节点的选取问题,为了加速收敛,不同方案对节点的选取还设置了额外要求。
但总的来说,现有的这些方案缺少对网络异构性的考虑,不能根据实时网络情况调整模型传输量,导致整体的网络链路利用率不足,存在空闲的链路资源,仍有优化的空间。
发明内容
本发明的主要目的在于提供带宽感知的归约处理方法以及其相关的AI模型的训练方法、计算机设备和计算机可读存储介质,以解决现有技术中网络链路利用率不足的技术问题。
为了实现上述目的,根据本发明的第一个方面,提供了带宽感知的归约处理方法,技术方案如下:
带宽感知的归约处理方法,用于加速分布式场景中AI模型的训练,包括以下步骤:
step110,判断工作模式,当工作模式为阻塞模式时进入步骤step120,当工作模式为非阻塞模式时进入步骤step130;
step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对AI模型进行切分,将切分得到的模型分块发送给其它节点;
step130,在每个节点完成训练后,按照预定义的模型切分方案对AI模型进行切分,然后将切分得到的模型分块发送给其它节点;
step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;
其中,所述模型切分方案为带宽感知的切分方案。
作为上述的带宽感知的归约处理方法的进一步改进,模型切分方案的获取包括以下步骤:
step210,输入:节点间的带宽bi,j,AI模型参数W,AI模型参数W的大小记为v,参与聚合的p个节点集合P={v1,…,vk,…,vp};
step220,对负责聚合模型分块i的节点i,计算其中j∈P;
step230,对负责返回模型分块i的聚合结果的节点i,计算其中j∈P;
step240,计算scatter(指节点将本地训练完成的模型切分后发给其他所有节点的过程)的通信时间上限Tscatter=maxiSi,计算broadcast(指节点聚合p个分块后向分块发送者广播聚合结果的过程)的通信时间上限Tbroadcast=maxiBi
step250,根据求解得到每个模型分块的大小为x1,…,xj,…,xn,即将AI模型切分为W1,…,Wj,…,Wn
作为上述的带宽感知的归约处理方法的进一步改进,在非阻塞模式下,事先根据p=n时计算得到所述预定义的模型切分方案,即计算x1,…,xj,…,xn,并向所有节点广播;在阻塞模式下,指定网络中编号最小的节点根据p个节点的带宽完成模型切分方案的计算,即计算x1,…,xj,…,xn,并将模型切分方案向所有节点广播。
作为上述的带宽感知的归约处理方法的进一步改进,step120包括以下步骤:
step121,监听系统中所有节点的训练完成情况,保存完成训练的节点的信息;
step122,当有p个节点完成训练时,根据p个节点的网络带宽计算新的模型切分方案;
step123,向所有节点公布这p个节点组成的集合和新的模型切分方案;
step124,p个节点解除阻塞,按照新的模型切分方案向其他节点发送模型分块。
作为上述的带宽感知的归约处理方法的进一步改进,step122中,通过维护一个就绪队列,根据前p个就绪节点确定p个节点。
作为上述的带宽感知的归约处理方法的进一步改进,step130包括以下步骤:
step131,检查本地模型分块的接收情况;
step132,当接收到p个模型分块后,将这p个模型分块的发送者作为参与同步的p个节点;
step133,向所有节点公布这p个节点组成的集合。
作为上述的带宽感知的归约处理方法的进一步改进,所有节点一并对p个模型分块进行聚合,并将聚合后的结果返回给模型分块的发送者。
为了实现上述目的,根据本发明的第二个方面,提供了AI模型的训练方法,技术方案如下:
AI模型的训练方法,包括以下步骤:
step100,节点随机取样进行训练,并对AI模型进行更新;
step110,判断工作模式,当工作模式为阻塞模式时进入步骤step120,当工作模式为非阻塞模式时进入步骤step130;
step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对AI模型进行切分,将切分得到的模型分块发送给其它节点;
step130,在每个节点完成训练后,按照预定义的模型切分方案对AI模型进行切分,然后将切分得到的模型分块发送给其它节点;
step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;
step150,根据聚合结果与精度要求或运行时间的关系,判断是否继续训练迭代;
其中,所述模型切分方案为带宽感知的切分方案。
为了实现上述目的,根据本发明的第三个方面,提供了计算机设备,技术方案如下:
计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现上述AI模型的训练方法。
为了实现上述目的,根据本发明的第四个方面,提供了计算机可读存储介质,技术方案如下:
计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时实现上述AI模型的训练方法。本发明存在以下特点及优点:
(1)采用线性规划的带宽感知(network-aware)的切分方案,让所有节点参与每次归约操作,提高系统的负载均衡,能够适应更多复杂情况;
(2)根据网络带宽划分阻塞模式下各节点的任务,充分利用了网络带宽,保证系统的有效运行;
(3)将部分归约的通信从p个节点扩展到n个节点,充分利用了网络中的空闲链路和多余带宽;
(4)根据当前的模型分块的接收情况或者节点的训练完成情况,确定每一轮中参与同步的节点,因此,同时支持阻塞(blocking)和非阻塞(non-blocking)两种的工作模式,保证了一致的部分规约操作:
由此可见,本发明充分考虑了网络异构性,能够根据实时网络情况调整模型传输量,有效提升网络中冗余链路和空闲链路的带宽利用率,提升了系统的负载均衡,适应更多复杂情况,从而能够加快归约操作的完成,让训练更快地迭代,最终提升分布式训练的效率。
下面结合附图和具体实施方式对本发明做进一步的说明。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的附图用来辅助对本发明的理解,附图中所提供的内容及其在本发明中有关的说明可用于解释本发明,但不构成对本发明的不当限定。在附图中:
图1为本发明的带宽感知的归约处理方法的第一实施方式的流程图。
图2为本发明的带宽感知的归约处理方法的第二实施方式的流程图。
图3为本发明的带宽感知的归约处理方法的第一实施方式和第二实施方式中step140的流程图。
图4为本发明的AI模型的训练方法的一种实施方式的流程图。
具体实施方式
下面结合附图对本发明进行清楚、完整的说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。在结合附图对本发明进行说明前,需要特别指出的是:
本发明中在包括下述说明在内的各部分中所提供的技术方案和技术特征,在不冲突的情况下,这些技术方案和技术特征可以相互组合。
此外,下述说明中涉及到的本发明的实施例通常仅是本发明一部分的实施例,而不是全部的实施例。因此,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
关于本发明中术语和单位。本发明的说明书和权利要求书及有关的部分中的术语“包括”、“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
图1为本发明的带宽感知的归约处理方法的第一实施方式的流程图。
如图1所示,带宽感知的归约处理方法在阻塞模式下进行,包括以下步骤:
step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对AI模型进行切分,将切分得到的模型分块发送给其它节点;
step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;
其中,step120包括以下步骤:
step121,监听系统中所有节点的训练完成情况,保存完成训练的节点的信息;
step122,通过维护一个就绪队列,根据前p个就绪节点确定p个节点;当有p个节点完成训练时,根据p个节点的网络带宽计算新的模型切分方案;
step123,向所有节点公布这p个节点组成的集合和新的模型切分方案;
step124,p个节点解除阻塞,按照新的模型切分方案向其他节点发送模型分块。
图2为本发明的带宽感知的归约处理方法的第二实施方式的流程图。
如图2所示,带宽感知的归约处理方法在非阻塞模式下进行,包括以下步骤:
step130,在每个节点完成训练后,按照预定义的模型切分方案对AI模型进行切分,然后将切分得到的模型分块发送给其它节点;
step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;
其中,step130包括以下步骤:
step131,检查本地模型分块的接收情况;
step132,当接收到p个模型分块后,将这p个模型分块的发送者作为参与同步的p个节点;
step133,向所有节点公布这p个节点组成的集合。
上述两个实施方式中,所述模型切分方案为带宽感知的切分方案,模型切分方案的获取包括以下步骤:
step210,输入:节点间的带宽bi,j,AI模型参数W,AI模型参数W的大小记为v,参与聚合的p个节点集合P={v1,…,vk,…,vp};
step220,对负责聚合模型分块i的节点i,计算其中j∈P;
step230,对负责返回模型分块i的聚合结果的节点i,计算其中j∈P;
step240,计算scatter的通信时间上限Tscatter=maxiSi,计算broadcast的通信时间上限Tbroadcast=maxiBi
step250,根据求解得到每个模型分块的大小为x1,…,xj,…,xn,即将AI模型切分为W1,…,Wj,…,Wn
其中,在非阻塞模式下,事先根据p=n时计算得到所述预定义的模型切分方案,即计算x1,…,xj,…,xn,并向所有节点广播;在阻塞模式下,指定网络中编号最小的节点根据p个节点的带宽完成模型切分方案的计算,即计算x1,…,xj,…,xn,并将模型切分方案向所有节点广播。
上述两个实施方式中,步骤step140的流程图如图3所示,其中,所有节点一并对p个模型分块进行聚合,并将聚合后的结果返回给模型分块的发送者,以解除这些发送者的等待。每个节点收到模型分块后,首先对模型分块进行缓存,同时等待控制信息,即聚合哪p个模型分块,如果收到了指定的p个模型分块的聚合信息,且已经收到了这p个模型分块,节点就可以对这p个模型分块进行聚合。
图4为本发明的AI模型的训练方法的一种实施方式的流程图。
如图4所示,AI模型的训练方法采用了上述的任意一种带宽感知的归约处理方法,具体包括以下步骤:
step100,节点随机取样进行训练,并对AI模型进行更新;
step110,判断工作模式,当工作模式为阻塞模式时进入步骤step120,当工作模式为非阻塞模式时进入步骤step130;
step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对AI模型进行切分,将切分得到的模型分块发送给其它节点;
step130,在每个节点完成训练后,按照预定义的模型切分方案对AI模型进行切分,然后将切分得到的模型分块发送给其它节点;
step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;
step150,根据聚合结果与精度要求或运行时间的关系,判断是否继续训练迭代。
在本发明的AI模型的训练方法中,AI模型的训练在广域网多节点分布式训练的场景中进行;所述的AI模型既可以是神经网络模型,也可以是没有神经网络的机器学习模型;其中,目前申请人已知的神经网络模型均可采用上述的训练方法进行训练,而没有神经网络的机器学习模型优选为但是不限于为向量机、进化(遗传)算法、决策树、矩阵分解(Matrix Factorization)、主题模型(Topic Modeling)等中的任意一种。
本发明的计算机设备的第一种实施方式为包括处理器和存储器,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现本发明提供的上述实施方式的AI模型的训练方法,处理器和存储器通过总线连接。
所述处理器可以但是不限于是MCU(微控制单元)、CPU(中央处理单元)、DSP(数字信号处理器)中的任意一种。
所述存储器可以但是不限于是Flash芯片、ROM(只读存储器)磁盘、光盘、U盘或移动硬盘中的任意一种。
所述总线例如可以是I2C(Inter-integrated Circuit)总线。
本发明的计算机设备的第一种实施方式为:在第一实施方式的基础上,计算机设备进一步包括服务器。
本发明的计算机可读存储介质的实施方式为存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现上述实施方式所述的AI模型的训练方法的步骤。
所述计算机可读存储介质既可以是服务器的内部存储单元,例如服务器的硬盘或内存,也可以是服务器的外部存储设备,例如服务器上配备的插接式硬盘、SMC(智能存储卡)、SD(安全数字)卡、闪存卡中的任意一种。
本发明的目的在于让训练更快地迭代以提升训练效率,以下通过具体的实施例来说明本发明的有益效果:
首先,在非阻塞模式下,采用相同的AI模型,进行了以下四组仿真试验,测试了在相同时长下的迭代次数,每组重复测试20次。测试结果如表1所示。
四组试验的区别仅在于:第一组使用先到先服务(FCFS)和均分(evenly-divided)方案,第二组使用FCFS和带宽感知的切分方案,第三组使用公平带宽分配方式(FS)和均分方案,第四组使用FS和带宽感知的切分方案,其余的输入参数相同。
表1
迭代次数 第一组 第二组 第三组 第四组
最大值 72 81 66 76
中值 68 78 58 73
最小值 67 77 56 70
从表1可以看出,无论是FCFS,还是FS,与均分方案相比,引入带宽感知的切分方案的迭代次数均提升了10%以上,说明带宽感知的切分方案不仅能够显著提升迭代次数,而且能够适应多种网络设定,具有极强的实用性。
其次,在阻塞模式下,采用相同的AI模型,进行了以下四组试验,测试了在相同时长下的迭代次数,测试结果如表2所示。
四组试验的区别仅在于:第一组使用FCFS和均分(evenly-divided)方案,第二组使用FCFS和带宽感知的切分方案,第三组使用FS和均分方案,第四组使用FS和带宽感知的切分方案,其余的输入参数相同。
表2
迭代次数 第一组 第二组 第三组 第四组
最大值 68 83 59 78
中值 65 80 53 75
最小值 63 78 52 72
从表2可以看出,在阻塞模式下,本发明的带宽感知的切分方案同样适应FCFS和FS,均能显著提升迭代效率。
在不同网络情况下,两种模式可能展现不同效果,需要依据真实情况选择非阻塞或阻塞模式。但是,本发明在两种模式下均能显著提升训练效率,因此值得推广使用。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
以上对本发明的有关内容进行了说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。基于本发明的上述内容,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

Claims (6)

1.带宽感知的归约处理方法,用于加速分布式场景中AI模型的训练,包括以下步骤:
step110,判断工作模式,当工作模式为阻塞模式时进入步骤step120,当工作模式为非阻塞模式时进入步骤step130;
step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对AI模型进行切分,将切分得到的模型分块发送给其它节点;
step130,在每个节点完成训练后,按照预定义的模型切分方案对AI模型进行切分,然后将切分得到的模型分块发送给其它节点;
step140,所有节点收齐来自p个节点的模型分块后,对分块进行聚合;
其中,所述模型切分方案为带宽感知的切分方案;
模型切分方案的获取包括以下步骤:
step210,输入:节点间的带宽bi,j,AI模型参数W,AI模型参数W的大小记为v,参与聚合的p个节点集合P={v1,...,vk,...,vp};
step220,对负责聚合模型分块i的节点i,计算其中j∈P;
step230,对负责返回模型分块i的聚合结果的节点i,计算其中j∈P;
step240,计算scatter的通信时间上限Tscatter=maxiSi,计算broadcast的通信时间上限Tbroadcast=maxiBi
step250,根据其中xi≥0}求解得到每个模型分块的大小为x1,...,xj,...,xn,即将AI模型切分为W1,...,Wj,...,Wn
在非阻塞模式下,事先根据p=n时计算得到所述预定义的模型切分方案,即计算x1,...,xj,...,xn,并向所有节点广播;在阻塞模式下,指定网络中编号最小的节点根据p个节点的带宽完成模型切分方案的计算,即计算x1,...,xj,...,xn,并将模型切分方案向所有节点广播;
step120包括以下步骤:
step121,监听系统中所有节点的训练完成情况,保存完成训练的节点的信息;
step122,当有p个节点完成训练时,根据p个节点的网络带宽计算得到新的模型切分方案;
step123,向所有节点公布这p个节点组成的集合和新的模型切分方案;
step124,p个节点解除阻塞,按照新的模型切分方案向其他节点发送模型分块;
step130包括以下步骤:
step131,检查本地模型分块的接收情况;
step132,当接收到p个模型分块后,将这p个模型分块的发送者作为参与同步的p个节点;
step133,向所有节点公布这p个节点组成的集合。
2.如权利要求1所述的带宽感知的归约处理方法,其特征在于:step122中,通过维护一个就绪队列,根据前p个就绪节点确定p个节点。
3.如权利要求1所述的带宽感知的归约处理方法,其特征在于:所有节点一并对p个模型分块进行聚合,并将聚合后的结果返回给模型分块的发送者。
4.AI模型的训练方法,包括以下步骤:
step100,节点随机取样进行训练,并对AI模型进行更新;
step110,判断工作模式,当工作模式为阻塞模式时进入步骤step120,当工作模式为非阻塞模式时进入步骤step130;
step120,当有p个节点完成训练后,根据p个节点的带宽获取新的模型切分方案,然后对AI模型进行切分,将切分得到的模型分块发送给其它节点;
step130,在每个节点完成训练后,按照预定义的模型切分方案对AI模型进行切分,然后将切分得到的模型分块发送给其它节点;
step140,所有节点收齐来自p个节点的模型分块后,对模型分块进行聚合;
step150,根据聚合结果与精度要求或运行时间的关系,判断是否继续训练迭代;
其中,所述模型切分方案为带宽感知的切分方案;
模型切分方案的获取包括以下步骤:
step210,输入:节点间的带宽bi,j,AI模型参数W,AI模型参数W的大小记为v,参与聚合的p个节点集合P={v1,...,vk,...,vp};
step220,对负责聚合模型分块i的节点i,计算其中j∈P;
step230,对负责返回模型分块i的聚合结果的节点i,计算其中j∈P;
step240,计算scatter的通信时间上限Tscatter=maxiSi,计算broadcast的通信时间上限Tbroadcast=maxiBi
step250,根据求解得到每个模型分块的大小为x1,...,xj,...,xn,即将AI模型切分为W1,...,Wj,...,Wn
在非阻塞模式下,事先根据p=n时计算得到所述预定义的模型切分方案,即计算x1,...,xj,...,xn,并向所有节点广播;在阻塞模式下,指定网络中编号最小的节点根据p个节点的带宽完成模型切分方案的计算,即计算x1,...,xj,...,xn,并将模型切分方案向所有节点广播;
step120包括以下步骤:
step121,监听系统中所有节点的训练完成情况,保存完成训练的节点的信息;
step122,当有p个节点完成训练时,根据p个节点的网络带宽计算得到新的模型切分方案;
step123,向所有节点公布这p个节点组成的集合和新的模型切分方案;
step124,p个节点解除阻塞,按照新的模型切分方案向其他节点发送模型分块;
step130包括以下步骤:
step131,检查本地模型分块的接收情况;
step132,当接收到p个模型分块后,将这p个模型分块的发送者作为参与同步的p个节点;
step133,向所有节点公布这p个节点组成的集合。
5.计算机设备,其特征在于:所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序并在执行所述计算机程序时实现权利要求4所述AI模型的训练方法。
6.计算机可读存储介质,其特征在于:所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时实现权利要求4所述AI模型的训练方法。
CN202210712450.8A 2022-06-22 2022-06-22 带宽感知的归约处理方法以及ai模型的训练方法 Active CN115250253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210712450.8A CN115250253B (zh) 2022-06-22 2022-06-22 带宽感知的归约处理方法以及ai模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210712450.8A CN115250253B (zh) 2022-06-22 2022-06-22 带宽感知的归约处理方法以及ai模型的训练方法

Publications (2)

Publication Number Publication Date
CN115250253A CN115250253A (zh) 2022-10-28
CN115250253B true CN115250253B (zh) 2024-02-27

Family

ID=83700280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210712450.8A Active CN115250253B (zh) 2022-06-22 2022-06-22 带宽感知的归约处理方法以及ai模型的训练方法

Country Status (1)

Country Link
CN (1) CN115250253B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754060A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 一种神经网络机器学习模型的训练方法及装置
CN112001501A (zh) * 2020-08-14 2020-11-27 苏州浪潮智能科技有限公司 一种ai分布式训练系统的参数更新方法、装置、设备
CN112464784A (zh) * 2020-11-25 2021-03-09 西安烽火软件科技有限公司 一种基于混合并行的分布式训练方法
CN112866059A (zh) * 2021-01-18 2021-05-28 中国信息通信研究院 一种基于人工智能应用的无损网络性能测试方法和装置
CN113094155A (zh) * 2019-12-23 2021-07-09 中国移动通信集团辽宁有限公司 Hadoop平台下的任务调度方法及装置
CN113094168A (zh) * 2020-01-08 2021-07-09 北京奇虎科技有限公司 模型的分布式训练方法、装置和系统
CN114186633A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 模型的分布式训练方法、装置、设备以及存储介质
CN114492152A (zh) * 2020-10-26 2022-05-13 阿里巴巴集团控股有限公司 更新网络模型的方法、图像分类的方法、语言建模的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170091668A1 (en) * 2015-09-30 2017-03-30 Nec Laboratories America, Inc. System and method for network bandwidth aware distributed learning
KR102472282B1 (ko) * 2019-10-12 2022-11-29 바이두닷컴 타임즈 테크놀로지(베이징) 컴퍼니 리미티드 고급 상호 연결 통신기술을 이용한 ai 훈련 가속화 방법 및 시스템

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754060A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 一种神经网络机器学习模型的训练方法及装置
CN113094155A (zh) * 2019-12-23 2021-07-09 中国移动通信集团辽宁有限公司 Hadoop平台下的任务调度方法及装置
CN113094168A (zh) * 2020-01-08 2021-07-09 北京奇虎科技有限公司 模型的分布式训练方法、装置和系统
CN112001501A (zh) * 2020-08-14 2020-11-27 苏州浪潮智能科技有限公司 一种ai分布式训练系统的参数更新方法、装置、设备
CN114492152A (zh) * 2020-10-26 2022-05-13 阿里巴巴集团控股有限公司 更新网络模型的方法、图像分类的方法、语言建模的方法
CN112464784A (zh) * 2020-11-25 2021-03-09 西安烽火软件科技有限公司 一种基于混合并行的分布式训练方法
CN112866059A (zh) * 2021-01-18 2021-05-28 中国信息通信研究院 一种基于人工智能应用的无损网络性能测试方法和装置
CN114186633A (zh) * 2021-12-10 2022-03-15 北京百度网讯科技有限公司 模型的分布式训练方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Zhiwen Xiao,Xin Xu,Huanlai Xing,Shouxi Luo,Penglin Dai,Dawei Zhan.RTFN:A Robust Temporal Feature Network for Time Series Classification.Computer Science.2020,全文. *
面向云计算的分布式机器学习任务调度算法研究;孟彬彬;吴艳;;西安文理学院学报(自然科学版)(第01期);全文 *

Also Published As

Publication number Publication date
CN115250253A (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN112181971B (zh) 一种基于边缘的联邦学习模型清洗和设备聚类方法、系统
CN107871164B (zh) 一种雾计算环境个性化深度学习方法
CN104714852B (zh) 一种适用于分布式机器学习的参数同步优化方法及其系统
CN111708640A (zh) 一种面向边缘计算的联邦学习方法和系统
CN109993299A (zh) 数据训练方法及装置、存储介质、电子装置
CN111381950A (zh) 一种面向边缘计算环境基于多副本的任务调度方法和系统
CN110570075B (zh) 一种电力业务边缘计算任务分配方法及装置
CN107948083B (zh) 一种基于增强学习的sdn数据中心拥塞控制方法
CN108270805B (zh) 用于数据处理的资源分配方法及装置
CN103401939A (zh) 一种采用混合调度策略的负载均衡方法
CN108564164A (zh) 一种基于spark平台的并行化深度学习方法
CN112256413A (zh) 基于物联网的边缘计算任务的调度方法和装置
CN115907038A (zh) 一种基于联邦拆分学习框架的多元控制决策方法
CN109976873B (zh) 容器化分布式计算框架的调度方案获取方法及调度方法
CN115543626A (zh) 采用异构计算资源负载均衡调度的电力缺陷图像仿真方法
CN107656805A (zh) 一种基于Hadoop平台的电力数据作业调度方法
CN106059940A (zh) 一种流量控制方法及装置
CN115250253B (zh) 带宽感知的归约处理方法以及ai模型的训练方法
CN109298932B (zh) 基于OpenFlow的资源调度方法、调度器及系统
CN114401192B (zh) 一种多sdn控制器协同训练方法
CN112738225B (zh) 基于人工智能的边缘计算方法
CN113821313B (zh) 一种任务调度方法、装置及电子设备
CN115118591A (zh) 一种基于联盟博弈的簇联邦学习方法
CN110138670B (zh) 一种基于动态路径的负载迁移方法
CN114090218A (zh) 边缘计算环境下动态任务复制方法、设备和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant