CN111625603A - 一种分布式深度学习的梯度信息更新方法及相关装置 - Google Patents

一种分布式深度学习的梯度信息更新方法及相关装置 Download PDF

Info

Publication number
CN111625603A
CN111625603A CN202010469747.7A CN202010469747A CN111625603A CN 111625603 A CN111625603 A CN 111625603A CN 202010469747 A CN202010469747 A CN 202010469747A CN 111625603 A CN111625603 A CN 111625603A
Authority
CN
China
Prior art keywords
gradient
gradient information
sparse
information
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010469747.7A
Other languages
English (en)
Inventor
张玉彦
陈培
张东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202010469747.7A priority Critical patent/CN111625603A/zh
Publication of CN111625603A publication Critical patent/CN111625603A/zh
Priority to PCT/CN2021/073493 priority patent/WO2021238274A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Complex Calculations (AREA)

Abstract

本申请公开了一种分布式深度学习的梯度信息更新方法,包括:当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;对接收到的梯度信息进行归约处理,得到已归约梯度信息;根据设置的惯量系数对所述已归约梯度信息进行修正处理得到目标梯度,根据所述目标梯度将所述节点中的副本模型进行更新。旨在保障精度不丢失的情况下,减少通信的数据量,降低通信时长。本申请还公开了一种分布式深度学习的梯度信息更新装置、计算机设备以及计算机可读存储介质,具有以上有益效果。

Description

一种分布式深度学习的梯度信息更新方法及相关装置
技术领域
本申请涉及计算机技术领域,特别涉及一种分布式深度学习的梯度信息更新方法、梯度信息更新装置、计算机设备以及计算机可读存储介质。
背景技术
随着信息技术的不断发展,深度学习训练技术的要求越来越高,为了提高训练的效率出现了分布式深度学习。分布式深度学习模型训练时,需进行计算节点间通信,以实现梯度信息的归约处理,保证各计算节点的副本模型同步更新。当模型非常大、样本量非常多、计算集群规模非常大时,计算节点间的通信时间长并且造成冗长的消息处理等待时间,该过程对GPU的利用率低,不能充分利用计算资源,导致模型训练时间长,降低试错和调试的效率。
现有技术中,主要是由于大规模分布式深度学习模型训练时,每个计算节点会产生一份梯度信息(局部梯度信息),节点间需进行梯度交换和归约(全局归约操作),以获取全局梯度值,进而对模型同步更新,保证各计算节点副本模型的一致。该过程中,模型的大小和节点间的通信带宽决定了通信时长,节点的异构特性或者同构设备的制造误差等决定了通信等待时长,上述两者共同影响训练时长。进而面对分布式深度模型训练的过程中,各个节点间的通信策略十分重要。现有技术中的通信策略会严重导致模型训练的效率,减低深度学习的效率。
因此,如何提高分布式深度学习中的效率高或者是稀疏通信的速度,是本领域技术人员关注的重点问题。
发明内容
本申请的目的是提供一种分布式深度学习的梯度信息更新方法、梯度信息更新装置、计算机设备以及计算机可读存储介质,通过当节点的迭代次数大于预设开关次数时才根据梯度门限值进行系数通信,同时当接收到梯度信息后对已归约梯度进行修正处理得到目标梯度,最后采用目标梯度进行副本模型更新,在稀疏通信的基础上降低了通信次数同时还降低了通行的数据量,最后采用修正处理保持了梯度信息的可靠性,实现了数据量更少的稀疏通信,提高了分布式深度学习中的效率高和稀疏通信的速度。
为解决上述技术问题,本申请提供一种分布式深度学习的梯度信息更新方法,包括:
当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;
对接收到的梯度信息进行归约处理,得到已归约梯度信息;
根据设置的惯量系数对所述已归约梯度信息进行修正处理得到目标梯度,根据所述目标梯度将所述节点中的副本模型进行更新。
可选的,当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信,包括:
当所述迭代次数大于所述预设开关次数时,所述节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
将重要程度系数大于预设系数的梯度信息作为稀疏梯度,并将所述稀疏的索引信息进行广播,以便其它节点根据所述索引信息向所述节点发送稀疏梯度的通信请求;
当接收到通信请求时,根据所述梯度门限值对所述稀疏梯度进行归零处理,得到归零梯度信息;
将所述归零梯度信息进行通信。
可选的,当接收到通信请求时,根据所述梯度门限值对所述稀疏梯度进行归零处理,得到归零梯度信息,包括:
当接收到所述通信请求时,将所述稀疏梯度的绝对值小于所述梯度门限值的稀疏梯度值设为零,得到归零梯度值;
将剩余的稀疏梯度和所述归零梯度值作为所述归零梯度信息。
可选的,当所述迭代次数大于所述预设开关次数时,所述节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数,包括:
当所述迭代次数大于所述预设开关次数时,所述节点判断是否将梯度信息计算完成;
若是,则对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
若否,则发送广播等待消息。
本申请还提供一种分布式深度学习的梯度信息更新装置,包括:
稀疏通信模块,用于当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;
归约处理模块,用于对接收到的梯度信息进行归约处理,得到已归约梯度信息;
副本模型更新模块,用于根据设置的惯量系数对所述已归约梯度信息进行修正处理得到目标梯度,根据所述目标梯度将所述节点中的副本模型进行更新。
可选的,所述稀疏通信模块,包括:
重要程度计算单元,用于当所述迭代次数大于所述预设开关次数时,所述节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
索引信息广播单元,用于将重要程度系数大于预设系数的梯度信息作为稀疏梯度,并将所述稀疏的索引信息进行广播,以便其它节点根据所述索引信息向所述节点发送稀疏梯度的通信请求;
归零处理单元,用于当接收到通信请求时,根据所述梯度门限值对所述稀疏梯度进行归零处理,得到归零梯度信息;
稀疏通信单元,用于将所述归零梯度信息进行通信。
可选的,所述归零处理单元,包括:
梯度值设置子单元,用于当接收到所述通信请求时,将所述稀疏梯度的绝对值小于所述梯度门限值的稀疏梯度值设为零,得到归零梯度值;
归零信息获取子单元,用于将剩余的稀疏梯度和所述归零梯度值作为所述归零梯度信息。
可选的,所述重要程度计算单元,包括:
计算完成判断子单元,用于当所述迭代次数大于所述预设开关次数时,所述节点判断是否将梯度信息计算完成;
重要程度计算子单元,用于当所述节点将梯度信息计算完成时,对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
广播等待单元,用于当所述节点将梯度信息计算未完成时,发送广播等待消息。
本申请还提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上所述的梯度信息更新方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的梯度信息更新方法的步骤。
本申请所提供的一种分布式深度学习的梯度信息更新方法,包括:当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;对接收到的梯度信息进行归约处理,得到已归约梯度信息;根据设置的惯量系数对所述已归约梯度信息进行修正处理得到目标梯度,根据所述目标梯度将所述节点中的副本模型进行更新。
通过当节点的迭代次数大于预设开关次数时才根据梯度门限值进行系数通信,同时当接收到梯度信息后对已归约梯度进行修正处理得到目标梯度,最后采用目标梯度进行副本模型更新,在稀疏通信的基础上降低了通信次数同时还降低了通行的数据量,最后采用修正处理保持了梯度信息的可靠性,实现了数据量更少的稀疏通信,提高了分布式深度学习中的效率高和稀疏通信的速度。
本申请还提供一种分布式深度学习的梯度信息更新装置、计算机设备以及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种分布式深度学习的梯度信息更新方法的流程图;
图2为本申请实施例所提供的一种分布式深度学习的梯度信息更新装置的结构示意图。
具体实施方式
本申请的核心是提供一种分布式深度学习的梯度信息更新方法、梯度信息更新装置、计算机设备以及计算机可读存储介质,通过当节点的迭代次数大于预设开关次数时才根据梯度门限值进行系数通信,同时当接收到梯度信息后对已归约梯度进行修正处理得到目标梯度,最后采用目标梯度进行副本模型更新,在稀疏通信的基础上降低了通信次数同时还降低了通行的数据量,最后采用修正处理保持了梯度信息的可靠性,实现了数据量更少的稀疏通信,提高了分布式深度学习中的效率高和稀疏通信的速度。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现有技术中,主要是由于大规模分布式深度学习模型训练时,每个计算节点会产生一份梯度信息(局部梯度信息),节点间需进行梯度交换和归约(全局归约操作),以获取全局梯度值,进而对模型同步更新,保证各计算节点副本模型的一致。该过程中,模型的大小和节点间的通信带宽决定了通信时长,节点的异构特性或者同构设备的制造误差等决定了通信等待时长,上述两者共同影响训练时长。进而面对分布式深度模型训练的过程中,各个节点间的通信策略十分重要。现有技术中的通信策略会严重导致模型训练的效率,减低深度学习的效率。
因此,本申请提供一种分布式深度学习的梯度信息更新方法,通过当节点的迭代次数大于预设开关次数时才根据梯度门限值进行系数通信,同时当接收到梯度信息后对已归约梯度进行修正处理得到目标梯度,最后采用目标梯度进行副本模型更新,在稀疏通信的基础上降低了通信次数同时还降低了通行的数据量,最后采用修正处理保持了梯度信息的可靠性,实现了数据量更少的稀疏通信,提高了分布式深度学习中的效率高和稀疏通信的速度。
请参考图1,图1为本申请实施例所提供的一种分布式深度学习的梯度信息更新方法的流程图。
本实施例中,该方法可以包括:
S101,当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;
本步骤旨在当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通行。也就是,在分布式深度学习进行训练的过程中,实时判断训练的迭代次数是否大于该预设开关次数。当该迭代次数大于该预设开关次数时,在本实施例中通过本步骤根据预设的梯度门限值对计算出的梯度信息进行系数通信。
主要是在现有技术中,为了提高在分布式深度学习的通信效率,通常直接采用稀疏通信策略,以便降低各个节点之间通信数据量,提高数据通信效率。但是,现有技术中采用稀疏通信的方式一般是在分布式深度学习的全程进行稀疏通信。但是,在模型训练的初期,梯度值往往比较大,对目标函数的下降至关重要。因此,本步骤中对该梯度信息更新的过程中加入一种warm-up策略,以便当到达一定的学习率后进行将数据通信进行启动,以便达到更合适的梯度值。
可选的,为了进一步对本步骤进行说明,本步骤可以包括:
步骤1,当迭代次数大于预设开关次数时,节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
步骤2,将重要程度系数大于预设系数的梯度信息作为稀疏梯度,并将稀疏的索引信息进行广播,以便其它节点根据索引信息向节点发送稀疏梯度的通信请求;
步骤3,当接收到通信请求时,根据梯度门限值对稀疏梯度进行归零处理,得到归零梯度信息;
步骤4,将归零梯度信息进行通信。
可见,在本可选方案中主要通过步骤1至步骤4实现了梯度信息的系数通信操作。首先,当迭代次数大于预设开关次数时,节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数。其中,该重要程度系数计算主要是对梯度信息的重要性进行判定,以便在数据传输的过程只传输重要的梯度信息,降低传输的数据量的同时提高数据传输的效率。然后,将重要程度系数大于预设系数的梯度信息作为稀疏梯度,并将稀疏的索引信息进行广播,以便其它节点根据索引信息向节点发送稀疏梯度的通信请求。也就是通知其他节点向本节点进行梯度信息请求,以便将对应的梯度信息发送至其他节点中。紧接着,当接收到通信请求时,根据梯度门限值对稀疏梯度进行归零处理,得到归零梯度信息。也就是,本节点当接收到通信请求时,本节点根据该梯度门限值对该系数梯度进行归零处理,得到归零梯度信息。也就是,将一些小于该梯度门限值的梯度信息直接设置为零,进一步降低数据量。最后,将该归零梯度信息进行通信,以便实现稀疏通行。
本可选方案中,通过该梯度门限值将系数梯度的数据量进一步进行缩减,进一步的降低了进行系数通信的数据量,极大的提高了稀疏通信的效率。
可选的,本可选方案中的步骤3可以包括:
当接收到通信请求时,将稀疏梯度的绝对值小于梯度门限值的稀疏梯度值设为零,得到归零梯度值;将剩余的稀疏梯度和归零梯度值作为归零梯度信息。
也就是根据梯度门限值将稀疏梯度进行分类,分类为绝对值小于该梯度门限值的稀疏梯度和剩余的稀疏梯度。将其中的绝对值小于该梯度门限值的稀疏梯度的梯度值设为零,最后得到了该归零梯度信息。进一步的减少了梯度信息的数据量,提高了稀疏通信的效率。
可选的,本可选方案中的步骤1可以包括:
步骤1.1,当迭代次数大于预设开关次数时,节点判断是否将梯度信息计算完成;若是,则执行步骤1.2;若否,则执行步骤1.3;
步骤1.2,对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
步骤1.3,发送广播等待消息。
当该迭代次数大于该预设开关次数时,也就是本节点是否将梯度信息计算完成。主要是由于不同节点均进行梯度重要程度评估时,会增加计算量,且计算量的增加随着计算节点数线性增加;并且,不同计算节点得到的稀疏梯度信息在维度和位置上不匹配。针对该问题,本可选方案中只对最先计算出梯度的节点进行梯度重要程度评估,得到重要梯度的索引信息,并广播给所有其他节点。所有节点只选取对应索引信息的梯度,用于发起通信请求。因此,在本可选方案中,该节点判断是否将梯度信息计算完成。若是,则进行重要程度计算。若否,就等待广播消息,以便获取到对应的梯度信息。
S102,对接收到的梯度信息进行归约处理,得到已归约梯度信息;
在S101的基础上,由于本实施例中是在分布式网络中进行模型更新。因此,每个进行稀疏通信的节点都在向其他节点发送梯度数据,以便每个节点都进行对应的副本模型的梯度信息更新。本步骤中就是当该节点接收到其他节点发送的梯度信息,对该接收到的梯度信息进行归约处理,得到已归约梯度信息。
其中,本步骤中的归约处理主要是指全局归约处理。具体的,可以采用现有技术提供的任意一种归约处理方法,在此不做赘述。
S103,根据设置的惯量系数对已归约梯度信息进行修正处理得到目标梯度,根据目标梯度将节点中的副本模型进行更新。
在S102的基础上,本步骤旨在根据设置的惯量系数对该已归约梯度信息进行修正处理得到目标梯度,根据该目标梯度将该节点中的副本模型进行更新。也就是每个接收到梯度信息并进行已归约操作,得到最后的已归约梯度信息的节点,根据设置的惯量系数对已归约梯度信息进一步进行修正处理,避免出现梯度信息准确性过低的问题,得到该目标梯度,最后根据该目标梯度将该节点中的副本模型进行更新。
主要是由于现有技术中,丢弃梯度信息会造成随机梯度下降时,重量更新方向与理想方向发生偏移,并且这种偏移会随着迭代的进行得到累加,训练可能不收敛,造成训练无效的情况。因此,为了避免出现训练失效的情况,本步骤中根据设置的惯量系数将已桂圆梯度信息进行修正处理,以便解决无法收敛的问题。具体而言,本实施例中,可以采用如下公式对已归约梯度信息进行修正处理。
具体公式如下:
Gt+1=mGt+sparse(Gt+1)
其中,Gt+1为第t+1次迭代的梯度值,Gt为第t次迭代的梯度值,sparse(·)为经梯度重要程度评估后得到的稀疏梯度,m为惯量系数。
综上,本实施例通过当节点的迭代次数大于预设开关次数时才根据梯度门限值进行系数通信,同时当接收到梯度信息后对已归约梯度进行修正处理得到目标梯度,最后采用目标梯度进行副本模型更新,在稀疏通信的基础上降低了通信次数同时还降低了通行的数据量,最后采用修正处理保持了梯度信息的可靠性,实现了数据量更少的稀疏通信,提高了分布式深度学习中的效率高和稀疏通信的速度。
以下通过一个具体的实施例,对本申请提供的一种分布式深度学习的梯度信息更新方法进行说明。
现有技术中,大规模分布式模型训练通信时间长的问题在于计算节点间的大量通信和计算,本实施例针对此点提出一种稀疏通信策略。主要是是当一个计算节点执行完Forward-Backward时,对梯度的重要程度进行判断,只对重要的梯度发起通信请求,忽略次要的梯度信息。
此外,在深度学习模型在训练过程中,大量的可训练参数为0或者接近0的值。因此,本专利以梯度值的绝对值作为梯度重要程度的判断依据,当梯度值的绝对值大于预设的门限值Threshold,则认为该梯度重要;否则,认为梯度是不重要的,保留梯度值。公式如下:
Figure BDA0002513913410000091
其中,G为所有梯度,Gi为G的第i维。
另外,考虑到训练初期,梯度值往往较大,对目标函数的下降至关重要,因此基于上述的稀疏策略,提出一种warm-up策略。在warm-up策略中,设置开关值Iter,当迭代计数达到Iter时,则进行梯度重要程度评估,选择重要的梯度发起通信请求。公式如下:
Figure BDA0002513913410000101
其中,Itercount为当前计数的迭代次数。
当Iter设置为0,认为训练开始后即进行稀疏通信;当Iter设置为最大迭代次数Itermax,认为不采用稀疏通信。
此外,值得注意的是,丢弃梯度信息会造成随机梯度下降时,重量更新方向与理想方向发生偏移,并且这种偏移会随着迭代的进行得到累加,训练可能不收敛,造成训练无效的情况。针对该情况,提出一种梯度修正策略,具体公式如下:
Gt+1=mGt+sparse(Gt+1)
其中,Gt+1为第t+1次迭代的梯度值,Gt为第t次迭代的梯度值,sparse(·)为经梯度重要程度评估后得到的稀疏梯度,m为惯量系数。
另外,若不同计算节点均进行梯度重要程度评估,会带来2个缺陷:1)增加计算量,且计算量的增加随着计算节点数线性增加;2)不同计算节点得到的稀疏梯度信息在维度和位置上不匹配。针对该问题,提出一种最快处理策略,即只对最先计算出梯度的节点进行梯度重要程度评估,得到重要梯度的索引信息,并广播给所有其他节点。所有节点只选取对应索引的梯度,用于发起通信请求。
基于以上说明,本实施例中该方法可以包括:
步骤1,当达到开关值Iter时,任意节点中最先计算出梯度的节点进行梯度重要程度评估,得到重要梯度的索引信息,并发起全局广播,将索引信息广播到各个正在计算的节点上;
步骤2,每个节点根据索引信息,从梯度中选取对应位置上的梯度,构成稀疏化的梯度,并发起通信请求;
步骤3,进行计算节点间稀疏通信,进行归约操作,得到全局归约处理后的梯度,将梯度用于每个节点上副本模型的更新。
可见,本实施例中的稀疏通信策略,旨在保障精度不丢失的情况下,减少通信的数据量,降低通信时长。
下面对本申请实施例提供的一种分布式深度学习的梯度信息更新装置进行介绍,下文描述的一种分布式深度学习的梯度信息更新装置与上文描述的一种分布式深度学习的梯度信息更新方法可相互对应参照。
请参考图2,图2为本申请实施例所提供的一种分布式深度学习的梯度信息更新装置的结构示意图。
本实施例中,该装置可以包括:
稀疏通信模块100,用于当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;
归约处理模块200,用于对接收到的梯度信息进行归约处理,得到已归约梯度信息;
副本模型更新模块300,用于根据设置的惯量系数对已归约梯度信息进行修正处理得到目标梯度,根据目标梯度将节点中的副本模型进行更新。
可选的,该稀疏通信模块100,可以包括:
重要程度计算单元,用于当迭代次数大于预设开关次数时,节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
索引信息广播单元,用于将重要程度系数大于预设系数的梯度信息作为稀疏梯度,并将稀疏的索引信息进行广播,以便其它节点根据索引信息向节点发送稀疏梯度的通信请求;
归零处理单元,用于当接收到通信请求时,根据梯度门限值对稀疏梯度进行归零处理,得到归零梯度信息;
稀疏通信单元,用于将归零梯度信息进行通信。
可选的,该归零处理单元,可以包括:
梯度值设置子单元,用于当接收到通信请求时,将稀疏梯度的绝对值小于梯度门限值的稀疏梯度值设为零,得到归零梯度值;
归零信息获取子单元,用于将剩余的稀疏梯度和归零梯度值作为归零梯度信息。
可选的,该重要程度计算单元,可以包括:
计算完成判断子单元,用于当迭代次数大于预设开关次数时,节点判断是否将梯度信息计算完成;
重要程度计算子单元,用于当节点将梯度信息计算完成时,对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
广播等待单元,用于当节点将梯度信息计算未完成时,发送广播等待消息。
本申请还提供一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如以上实施例所述的梯度信息更新方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如以上实施例所述的梯度信息更新方法的步骤。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种分布式深度学习的梯度信息更新方法、梯度信息更新装置、计算机设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种分布式深度学习的梯度信息更新方法,其特征在于,包括:
当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;
对接收到的梯度信息进行归约处理,得到已归约梯度信息;
根据设置的惯量系数对所述已归约梯度信息进行修正处理得到目标梯度,根据所述目标梯度将所述节点中的副本模型进行更新。
2.根据权利要求1所述的梯度信息更新方法,其特征在于,当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信,包括:
当所述迭代次数大于所述预设开关次数时,所述节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
将重要程度系数大于预设系数的梯度信息作为稀疏梯度,并将所述稀疏的索引信息进行广播,以便其它节点根据所述索引信息向所述节点发送稀疏梯度的通信请求;
当接收到通信请求时,根据所述梯度门限值对所述稀疏梯度进行归零处理,得到归零梯度信息;
将所述归零梯度信息进行通信。
3.根据权利要求2所述的梯度信息更新方法,其特征在于,当接收到通信请求时,根据所述梯度门限值对所述稀疏梯度进行归零处理,得到归零梯度信息,包括:
当接收到所述通信请求时,将所述稀疏梯度的绝对值小于所述梯度门限值的稀疏梯度值设为零,得到归零梯度值;
将剩余的稀疏梯度和所述归零梯度值作为所述归零梯度信息。
4.根据权利要求2所述的梯度信息更新方法,其特征在于,当所述迭代次数大于所述预设开关次数时,所述节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数,包括:
当所述迭代次数大于所述预设开关次数时,所述节点判断是否将梯度信息计算完成;
若是,则对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
若否,则发送广播等待消息。
5.一种分布式深度学习的梯度信息更新装置,其特征在于,包括:
稀疏通信模块,用于当迭代次数大于预设开关次数时,节点根据预设的梯度门限值对计算出的梯度信息进行稀疏通信;
归约处理模块,用于对接收到的梯度信息进行归约处理,得到已归约梯度信息;
副本模型更新模块,用于根据设置的惯量系数对所述已归约梯度信息进行修正处理得到目标梯度,根据所述目标梯度将所述节点中的副本模型进行更新。
6.根据权利要求5所述的梯度信息更新装置,其特征在于,所述稀疏通信模块,包括:
重要程度计算单元,用于当所述迭代次数大于所述预设开关次数时,所述节点对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
索引信息广播单元,用于将重要程度系数大于预设系数的梯度信息作为稀疏梯度,并将所述稀疏的索引信息进行广播,以便其它节点根据所述索引信息向所述节点发送稀疏梯度的通信请求;
归零处理单元,用于当接收到通信请求时,根据所述梯度门限值对所述稀疏梯度进行归零处理,得到归零梯度信息;
稀疏通信单元,用于将所述归零梯度信息进行通信。
7.根据权利要求5所述的梯度信息更新装置,其特征在于,所述归零处理单元,包括:
梯度值设置子单元,用于当接收到所述通信请求时,将所述稀疏梯度的绝对值小于所述梯度门限值的稀疏梯度值设为零,得到归零梯度值;
归零信息获取子单元,用于将剩余的稀疏梯度和所述归零梯度值作为所述归零梯度信息。
8.根据权利要求5所述的梯度信息更新装置,其特征在于,所述重要程度计算单元,包括:
计算完成判断子单元,用于当所述迭代次数大于所述预设开关次数时,所述节点判断是否将梯度信息计算完成;
重要程度计算子单元,用于当所述节点将梯度信息计算完成时,对计算出的梯度信息进行重要程度系数计算,得到每个梯度信息的重要程度系数;
广播等待单元,用于当所述节点将梯度信息计算未完成时,发送广播等待消息。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述的梯度信息更新方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的梯度信息更新方法的步骤。
CN202010469747.7A 2020-05-28 2020-05-28 一种分布式深度学习的梯度信息更新方法及相关装置 Pending CN111625603A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010469747.7A CN111625603A (zh) 2020-05-28 2020-05-28 一种分布式深度学习的梯度信息更新方法及相关装置
PCT/CN2021/073493 WO2021238274A1 (zh) 2020-05-28 2021-01-25 一种分布式深度学习的梯度信息更新方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010469747.7A CN111625603A (zh) 2020-05-28 2020-05-28 一种分布式深度学习的梯度信息更新方法及相关装置

Publications (1)

Publication Number Publication Date
CN111625603A true CN111625603A (zh) 2020-09-04

Family

ID=72272640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010469747.7A Pending CN111625603A (zh) 2020-05-28 2020-05-28 一种分布式深度学习的梯度信息更新方法及相关装置

Country Status (2)

Country Link
CN (1) CN111625603A (zh)
WO (1) WO2021238274A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570067A (zh) * 2021-07-23 2021-10-29 北京百度网讯科技有限公司 分布式系统的同步方法、装置及程序产品
WO2021238274A1 (zh) * 2020-05-28 2021-12-02 浪潮电子信息产业股份有限公司 一种分布式深度学习的梯度信息更新方法及相关装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117560722A (zh) * 2022-08-05 2024-02-13 索尼集团公司 分层联邦学习网络中的切换
CN115906982B (zh) * 2022-11-15 2023-10-24 北京百度网讯科技有限公司 分布式训练方法、梯度通信方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021982A (zh) * 2016-10-28 2018-05-11 北京市商汤科技开发有限公司 数据传输方法和系统、电子设备
CN109102075A (zh) * 2018-07-26 2018-12-28 联想(北京)有限公司 一种分布式训练中的梯度更新方法及相关设备
CN109472347A (zh) * 2018-10-15 2019-03-15 中山大学 一种分布式深度学习的梯度压缩方法
CN109951438A (zh) * 2019-01-15 2019-06-28 中国科学院信息工程研究所 一种分布式深度学习的通信优化方法及系统
US20190213470A1 (en) * 2018-01-09 2019-07-11 NEC Laboratories Europe GmbH Zero injection for distributed deep learning
CN110287031A (zh) * 2019-07-01 2019-09-27 南京大学 一种减少分布式机器学习通信开销的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814159B (zh) * 2009-02-24 2013-07-24 南京工程学院 基于自联想神经网络和高斯混合背景模型相结合的说话人确认方法
CN111625603A (zh) * 2020-05-28 2020-09-04 浪潮电子信息产业股份有限公司 一种分布式深度学习的梯度信息更新方法及相关装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021982A (zh) * 2016-10-28 2018-05-11 北京市商汤科技开发有限公司 数据传输方法和系统、电子设备
US20190213470A1 (en) * 2018-01-09 2019-07-11 NEC Laboratories Europe GmbH Zero injection for distributed deep learning
CN109102075A (zh) * 2018-07-26 2018-12-28 联想(北京)有限公司 一种分布式训练中的梯度更新方法及相关设备
CN109472347A (zh) * 2018-10-15 2019-03-15 中山大学 一种分布式深度学习的梯度压缩方法
CN109951438A (zh) * 2019-01-15 2019-06-28 中国科学院信息工程研究所 一种分布式深度学习的通信优化方法及系统
CN110287031A (zh) * 2019-07-01 2019-09-27 南京大学 一种减少分布式机器学习通信开销的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021238274A1 (zh) * 2020-05-28 2021-12-02 浪潮电子信息产业股份有限公司 一种分布式深度学习的梯度信息更新方法及相关装置
CN113570067A (zh) * 2021-07-23 2021-10-29 北京百度网讯科技有限公司 分布式系统的同步方法、装置及程序产品
CN113570067B (zh) * 2021-07-23 2022-08-02 北京百度网讯科技有限公司 分布式系统的同步方法、装置

Also Published As

Publication number Publication date
WO2021238274A1 (zh) 2021-12-02

Similar Documents

Publication Publication Date Title
CN111625603A (zh) 一种分布式深度学习的梯度信息更新方法及相关装置
CN109195135B (zh) Lte-v中基于深度强化学习的基站选择方法
WO2021057245A1 (zh) 带宽预测方法、装置、电子设备及存储介质
CN111092823A (zh) 一种自适应调节拥塞控制初始窗口的方法和系统
EP3836435A1 (en) Channel prediction method and related device
CN112016699B (zh) 一种深度学习模型训练方法、工作节点和参数服务器
CN104320805B (zh) 通过少量数据包估计无线传感网络链路质量的方法
CN114743074B (zh) 一种基于强弱对抗训练的船舶检测模型训练方法及系统
CN114945004A (zh) 拥塞控制方法、装置、电子设备及存储介质
CN115941790A (zh) 边缘协同内容缓存方法、装置、设备及存储介质
CN114185677A (zh) 基于多智能体强化学习模型的边缘缓存方法和装置
CN117151208B (zh) 基于自适应学习率的异步联邦学习参数更新方法、电子设备及存储介质
CN113222148A (zh) 一种面向物料识别的神经网络推理加速方法
CN109445279B (zh) 参数调整方法及电子设备
CN116781343A (zh) 一种终端可信度的评估方法、装置、系统、设备及介质
CN116482713A (zh) 一种用于北斗导航接收机的导航数据校验方法
CN116017528A (zh) 流量预测方法、装置及服务器
CN110276455B (zh) 基于全局率权重的分布式深度学习系统
CN108848193B (zh) 一种基于动态加权的工业传感器节点更新率优化方法
CN112564881A (zh) 基于长短时多门限信道状态预测的5g通信自适应传输方法
CN113780526B (zh) 人脸识别网络训练的方法、电子设备及存储介质
CN108737266B (zh) 基于双估计器的动态路由选择方法
CN115242271B (zh) 一种强化学习辅助的大规模MIMO的Damped-BP检测方法
CN112637091B (zh) 跨协议通信的链路质量估计方法和装置
CN113365217B (zh) 一种基于wifi-rtt测距的监听定位系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200904