CN117709486B - 一种面向协作学习的动态聚合方法及装置 - Google Patents

一种面向协作学习的动态聚合方法及装置 Download PDF

Info

Publication number
CN117709486B
CN117709486B CN202410161417.XA CN202410161417A CN117709486B CN 117709486 B CN117709486 B CN 117709486B CN 202410161417 A CN202410161417 A CN 202410161417A CN 117709486 B CN117709486 B CN 117709486B
Authority
CN
China
Prior art keywords
training
learning model
collaborative
collaborative learning
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410161417.XA
Other languages
English (en)
Other versions
CN117709486A (zh
Inventor
徐恪
松永健宏
赵乙
苏家兴
刘欣睿
李奥
谭崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202410161417.XA priority Critical patent/CN117709486B/zh
Publication of CN117709486A publication Critical patent/CN117709486A/zh
Application granted granted Critical
Publication of CN117709486B publication Critical patent/CN117709486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向协作学习的动态聚合方法及装置,该方法应用于协作学习的聚合节点,获取协作学习模型和参与协作学习模型的训练节点,并根据协作学习模型和训练节点的训练节点状态,得到初始化数据集;基于初始化数据集,构建并初始化面向协作学习动态聚合策略的初始强化学习模型;基于训练节点的实时训练节点状态与训练协作学习模型一个轮次所需的实际时间开销,在线训练初始强化学习模型,得到目标强化学习模型;基于目标强化学习模型的预测结果得到目标协作学习聚合策略,并利用目标协作学习聚合策略完成对协作学习模型的训练。本发明保证了协作学习过程中所有训练节点均参与训练,减少了训练节点整体闲置率,提高了全局训练效率与精确度。

Description

一种面向协作学习的动态聚合方法及装置
技术领域
本发明涉及下一代互联网、强化学习与协作学习技术领域,特别是涉及一种面向协作学习的动态聚合方法及装置。
背景技术
协作学习是一种分布式机器学习框架,实现了高效协同训练和保证了数据的隐私性。其中,协作学习由一个聚合节点与多个训练节点组成,具体地,聚合节点将初始的协作学习模型分发到所有的训练节点,各个训练节点利用本地数据集对局部模型进行训练,训练完成后,训练节点将参数汇聚到聚合节点中,并由聚合节点根据聚合策略将各训练节点参数聚合,更新全局模型,直至完成协作学习模型的训练。
传统的协作学习聚合方法中,所有训练节点需要等待其他训练节点完成,使部分训练节点闲置率高,模型训练效率降低。
现有提高效率的方法中,通过抛弃计算能力过低的训练节点,以加快训练速度,提高协作学习效率,从而解决分布式机器学习中算力异构的问题。但是,上述方法将会抛弃部分数据集的特征,导致在部分情况下训练模型会产生偏移以及部分特征丢失,从而降低了模型的精确度。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明提出了一种面向协作学习的动态聚合方法,通过目标强化学习模型,根据训练节点的运行状态调整不同训练节点的分组,从而得到动态聚合策略,进而在平衡了训练效率及训练完成度的基础上,保证了协作学习过程中所有训练节点均参与训练,即训练节点内的数据集的特征都能被模型学习,防止全局模型偏移,并且减少了训练节点整体闲置率,提高了模型的全局训练效率与精确度。
本发明的另一个目的在于提出一种面向协作学习的动态聚合装置。
为达上述目的,本发明一方面提出一种面向协作学习的动态聚合方法,所述方法应用于聚合节点,包括:
协作学习任务开始前,获取协作学习模型和参与所述协作学习模型的训练节点,并根据所述协作学习模型和所述训练节点的训练节点状态,得到初始化数据集;
基于所述初始化数据集,构建并初始化面向协作学习动态聚合策略的初始强化学习模型;
执行协作学习任务中,获取所述训练节点的实时训练节点状态与训练所述协作学习模型一个轮次所需的实际时间开销;
基于所述实时训练节点状态与实际时间开销,在线训练所述初始强化学习模型,得到目标强化学习模型;
基于所述目标强化学习模型的预测结果得到目标协作学习聚合策略,并利用目标协作学习聚合策略完成对所述协作学习模型的训练。
本发明实施例的面向协作学习的动态聚合方法还可以具有以下附加技术特征:
在本发明的一个实施例中,所述根据所述协作学习模型和所述训练节点的训练节点状态,得到初始化数据集,包括:
将所述协作学习模型分发到所述训练节点;
获取所述训练节点根据实时的CPU频率、CPU空闲率、GPU峰值算力、显存空闲率以及通信量得到的训练节点状态;
获取所述训练节点通过所述训练节点状态与本地训练集计算出训练所述协作学习模型一个轮次所需的预估时间开销;
基于各训练节点的训练节点状态与预估时间开销,得到初始化数据集。
在本发明的一个实施例中,所述基于所述初始化数据集,构建并初始化面向协作学习动态聚合策略的初始强化学习模型,包括:
定义强化学习状态,其中,/>表示第/>个训练节点完成一个训练轮次所需要的时间;
定义强化学习动作为个训练节点的分组数量/>,即训练节点被分为/>个组;
基于所述强化学习动作定义强化学习奖励,并基于所述强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合;
基于所述初始化数据集训练强化学习模型,得到初始强化学习模型。
在本发明的一个实施例中,所述基于所述实时训练节点状态与实际时间开销,在线训练所述初始强化学习模型,得到目标强化学习模型,包括:
根据所述实时训练节点状态和所述实际时间开销,得到实时训练节点状态与实际时间开销的数据集;
基于所述实时训练节点状态与实际时间开销的数据集,在协作学习训练过程中,在线训练所述初始强化学习模型,得到目标强化学习模型。
在本发明的一个实施例中,所述基于所述目标强化学习模型的预测结果确定目标协作学习聚合策略,并利用目标协作学习聚合策略完成对所述协作学习模型的训练,包括:
根据所述目标强化学习模型的预测结果,确定所述协作学习模型对应的最佳分组集合;
根据所述最佳分组集合和时间开销,设置协作学习参数聚合算法中聚合函数权重,并获取每个训练节点训练完成的模型参数;
根据所述最佳分组集合和所述聚合函数权重对所述训练节点的模型参数进行组内聚合,得到组内聚合结果;
定义每个分组中所有训练节点从训练到聚合完成的时间为组内时间开销;
根据各组内时间开销和所述组内聚合结果,利用所述协作学习参数聚合算法对所述协作学习模型进行更新,重复上述步骤,直至完成对所述协作学习模型的训练。
为达上述目的,本发明另一方面提出一种面向协作学习的动态聚合装置,所述装置应用于聚合节点,包括:
第一获取模块,协作学习任务开始前,获取协作学习模型和参与所述协作学习模型的训练节点,并根据所述协作学习模型和所述训练节点的训练节点状态,得到初始化数据集;
构建模块,用于基于所述初始化数据集,构建并初始化面向协作学习动态聚合策略的初始强化学习模型;
第二获取模块,用于执行协作学习任务中,获取所述训练节点的实时训练节点状态与训练所述协作学习模型一个轮次所需的实际时间开销;
第一训练模块,用于基于所述实时训练节点状态与实际时间开销,在线训练所述初始强化学习模型,得到目标强化学习模型;
第二训练模块,用于基于所述目标强化学习模型的预测结果得到目标协作学习聚合策略,并利用目标协作学习聚合策略完成对所述协作学习模型的训练。
在本发明的一个实施例中,所述第一获取模块,具体用于:
将所述协作学习模型分发到所述训练节点;
获取所述训练节点根据实时的CPU频率、CPU空闲率、GPU峰值算力、显存空闲率以及通信量得到的训练节点状态;
获取所述训练节点通过所述训练节点状态与本地训练集计算出训练所述协作学习模型一个轮次所需的预估时间开销;
基于各训练节点的训练节点状态与预估时间开销,得到初始化数据集;
在本发明的一个实施例中,所述构建模块,具体用于:
定义强化学习状态,其中,/>表示第/>个训练节点完成一个训练轮次所需要的时间;
定义强化学习动作为个训练节点的分组数量/>,即训练节点被分为/>个组;
基于所述强化学习动作定义强化学习奖励,并基于所述强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合;
基于所述初始化数据集训练强化学习模型,得到初始强化学习模型。
在本发明的一个实施例中,所述第一训练模块,具体用于:
根据所述实时训练节点状态和所述实际时间开销,得到实时训练节点状态与实际时间开销的数据集;
基于所述实时训练节点状态与实际时间开销的数据集,在协作学习训练过程中,在线训练所述初始强化学习模型,得到目标强化学习模型。
在本发明的一个实施例中,所述第二训练模块,具体用于:
根据所述目标强化学习模型的预测结果,确定所述协作学习模型对应的最佳分组集合;
根据所述最佳分组集合和时间开销,设置协作学习参数聚合算法中聚合函数权重,并获取每个训练节点训练完成的模型参数;
根据所述最佳分组集合和所述聚合函数权重对所述训练节点的模型参数进行组内聚合,得到组内聚合结果;
定义每个分组中所有训练节点从训练到聚合完成的时间为组内时间开销;
根据各组内时间开销和所述组内聚合结果,利用所述协作学习参数聚合算法对所述协作学习模型进行更新,重复上述步骤,直至完成对所述协作学习模型的训练。
本发明实施例的面向协作学习的动态聚合方法和装置,通过目标强化学习模型,根据训练节点的运行状态调整不同训练节点的分组,从而得到动态聚合策略,从而在平衡了训练效率及训练完成度的基础上,保证了协作学习过程中所有训练节点均参与训练,即训练节点内的数据集特征都能被模型学习,防止全局模型偏移,并且减少了训练节点整体闲置率,提高了模型的全局训练效率与精确度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的面向协作学习的动态聚合方法的流程图;
图2是根据本发明实施例的面向协作学习的动态聚合装置的结构图;
图3是根据本发明实施例的不同协作学习方案的对比示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面参照附图描述根据本发明实施例提出的面向协作学习的动态聚合方法和装置。
图1是本发明实施例的面向协作学习的动态聚合方法的流程图。
如图1所示,该方法应用于聚合节点,包括:
S1,协作学习任务开始前,获取协作学习模型和参与协作学习模型的训练节点,并根据协作学习模型和训练节点的训练节点状态,得到初始化数据集;
其中,在本发明的一个实施例中,在协作学习任务开始前,获取协作学习模型时,同时可以获取该模型对应的聚合算法、模型网络结构与本地训练算法。以及,上述参与协作学习模型的训练节点为用户指定的训练节点。进一步地,在本发明的一个实施例中,获取协作学习模型和参与协作学习模型的训练节点后,可以根据协作学习模型和训练节点的训练节点状态,得到初始化数据集。
具体地,上述根据协作学习模型和训练节点的训练节点状态,得到初始化数据集的方法可以包括以下步骤:
步骤1、将协作学习模型分发到训练节点;
步骤2、获取训练节点根据实时的CPU频率、CPU空闲率、GPU峰值算力、显存空闲率以及通信量得到的训练节点状态;
步骤3、获取训练节点通过训练节点状态与本地训练集计算出训练协作学习模型一个轮次所需的预估时间开销;
步骤4、基于各训练节点的训练节点状态与预估时间开销,得到初始化数据集。
在本发明的一个实施例中,假设上述为个训练节点,则可以获取每个训练节点根据自身CPU频率、CPU空闲率、GPU峰值算力、显存空闲率以及通信量的硬件信息得到的训练节点状态。其中,训练节点通过训练节点状态结合本地数据集,估算当前训练节点完成协作学习模型一个训练轮次所需的预估时间开销/>
以及,在本发明的一个实施例中,聚合节点可以基于各训练节点的训练节点状态与预估时间开销,得到初始化数据集。
进一步地,在本发明的一个实施例中,聚合节点获取各训练节点完成一个训练轮次所需的预估时间开销后,估算出训练协作学习模型所需的时间开销为,其中,/>为第/>个训练节点完成协作学习模型一个训练轮次所需的预估时间开销。
S2,基于初始化数据集,构建并初始化面向协作学习动态聚合策略的初始强化学习模型;
在本发明的一个实施例中,上述基于初始化数据集,构建并初始化面向协作学习动态聚合策略的初始强化学习模型的方法可以包括:定义强化学习状态,其中,/>表示第/>个训练节点完成一个训练轮次所需要的时间;定义强化学习动作为/>个训练节点的分组数量/>,即训练节点被分为/>个组;基于强化学习动作定义强化学习奖励,并基于强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合;基于初始化数据集训练强化学习模型,得到初始强化学习模型。
其中,在本发明的一个实施例中,上述训练节点的分组集合为,其中/>为第/>个分组集合。以及,在本发明的一个实施例中,在强化学习动作中,通过状态/>可以得到/>个训练节点完成一个训练轮次所需时间/>,/>表示第/>个训练节点完成一个训练轮次所需要的时间,基于上述强化学习动作定义强化学习奖励,并基于强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合。以及,强化学习奖励与训练节点在组内的空闲率之和相关,空闲率为训练节点在完成训练后等待聚合的时间占比,即等待其他训练节点完成训练的时间占比,其中,空闲率之和小,强化学习奖励值越大。
具体地,在本发明的一个实施例中,基于强化学习奖励,通过K-MEANS算法确定目标分组数量和目标分组数据量对应的最佳分组集合。也即是,当根据/>数量,并通过K-MEANS分组所得的强化学习奖励最大时,强化学习将选择该/>,即K-MEANS的目标分组数量/>。其中,通过上述方法能够基于强化学习奖励将花费时间相近的训练节点分为一组,总共/>个组(/>)。
其中,在本发明的一个实施例中,上述强化学习奖励为。其中/>为上述训练节点集合,为训练节点集合/>内某一个训练节点组,/>为训练组g所有节点完成一轮训练所需要的时间,/>和/>为该训练节点组/>内任意一个训练节点,/>为所有/>个训练节点中,完成一个训练轮次所需时间最长的训练节点组(/>)。其中/>由两个部分之和组成,一是计算了/>个组中,各训练节点组内的闲置时间之和,二是在整个任务训练中,所有训练节点组尽可能多地训练后,还需要等最慢的训练节点组的时间。其中,上述强化学习奖励表示了当整体闲置时间越长时,奖励值越小。
进一步地,在本发明的一个实施例中,基于协作学习模型一个训练轮次所需的估算时间以及协作学习任务执行前的训练节点状态结合成的数据集,得到初始化数据集,并基于初始化数据集训练强化学习模型得到初始化强化学习模型。
S3,执行协作学习任务中,获取训练节点的实时训练节点状态与训练协作学习模型一个轮次所需的实际时间开销;
S4,基于实时训练节点状态与实际时间开销,在线训练初始强化学习模型,得到目标强化学习模型;
在本发明的一个实施例中,执行协作学习任务中,训练节点使用该训练节点的本地训练数据集对协作学习模型进行训练,并根据训练节点执行一轮协作学习模型训练的时间作为实际时间开销。
以及,在本发明的一个实施例中,上述基于实时训练节点状态与实际时间开销,在线训练初始强化学习模型,得到目标强化学习模型的方法可以包括以下步骤:
步骤a、根据实时训练节点状态和实际时间开销,得到实时训练节点状态与实际时间开销的数据集;
步骤b、基于实时训练节点状态与实际时间开销的数据集,在协作学习训练过程中,在线训练初始强化学习模型,得到目标强化学习模型。
其中,在本发明的一个实施例中,强化学习模型使用在线训练的方法。具体地,在本发明的一个实施例中,聚合节点收集各训练节点完成一轮训练的实际所需时间后,可以利用高斯分布随机改变部分/>值模拟协作学习任务中的波动,即,其中/>为生成高斯分布随机数的函数,/>,/>代表了训练节点稳定性,稳定性越高值越小。基于此,聚合节点可得/>个训练节点完成一个训练轮次时间/>,并通过生产多个数据得到表示训练节点花费时间状态的数据集,在/>中共有/>条数据,其中,本发明取较小的/>与/>
以及,在本发明的一个实施例中,通过上述步骤得到数据集后,强化学习代理可得到多条/>个训练节点完成一个训练轮次时间的数据,并根据上述/>的定义,强化学习代理将数据集中的每一条作为当前状态/>。以及,在本发明的一个实施例中,根据上述定义的强化学习奖励,计算不同分组策略的奖励值,选取奖励值最高的/>作为本次动作。因此,在协作学习训练的过程中,强化学习模型会根据/>以及/>此对应的/>值不断训练,使得/>最大,即训练节点总体训练时间最少。
S5,基于目标强化学习模型的预测结果得到目标协作学习聚合策略,并利用目标协作学习聚合策略完成对协作学习模型的训练。
在本发明的一个实施例中,上述基于目标强化学习模型的预测结果得到目标协作学习聚合策略,并利用目标协作学习聚合策略完成对协作学习模型的训练的方法可以包括以下步骤:
步骤一、根据目标强化学习模型的预测结果,确定协作学习模型对应的最佳分组集合;
步骤二、根据最佳分组集合和时间开销,设置协作学习参数聚合算法中聚合函数权重,并获取每个训练节点训练完成的模型参数;
步骤三、根据最佳分组集合和聚合函数权重对训练节点的模型参数进行组内聚合,得到组内聚合结果;
步骤四、定义每个分组中所有训练节点从训练到聚合完成的时间为组内时间开销;
步骤五、根据各组内时间开销和组内聚合结果,利用协作学习参数聚合算法对协作学习模型进行更新,重复上述步骤,直至完成对协作学习模型的训练。
其中,在本发明的一个实施例中,通过上述步骤获取个训练节点上一轮完成训练轮次花费的时间,作为本轮的状态/>;若本轮为第一轮则初始化/>为/>,并根据目标强化学习模型通过当前/>计算各/>的/>的值,确定协作学习模型对应的最佳分组集合/>
以及,在本发明的一个实施例中,在上述训练节点进行协作学习模型的训练过程中,聚合节点会设置每个训练节点对应的聚合函数的权重,使得每一轮的训练节点对全局模型参数更新不会过大,防止某些训练节点分组训练速度过快导致部分数据集过拟合。
以及,在本发明的一个实施例中,根据本轮的状态,设置各训练节点的参数/>,使得对所有/>个训练节点,第/>个训练节点每一轮花费时间/>越少,该训练节点聚合函数权重的参数/>越大,且/>
进一步地,在本发明的一个实施例中,通过上述最佳分组集合进行局部参数聚合。具体地,在本发明的一个实施例中,同一组的训练节点会等待所有组内节点训练完成并进行组内聚合,而当存在两组或多组节点同时准备聚合时,则进行多组合并聚合。以及,以最快的一组训练节点的完成作为全局聚合的判断,当任意其他分组完成时,将所有训练节点进行聚合。
其中,在本发明的一个实施例中,,/>代表了第/>个训练节点的加权更新参数,/>代表了参数权重,/>为所有训练节点已训练的总轮次,/>为第/>个训练节点已训练的总轮次,/>表示第/>个训练节点训练一轮后的更新参数。通过上述更新方法可以有效防止计算能力强的训练节点对全局模型的影响,并且对于计算能力弱的服务器能够有效的调整全局模型。
其中,在本发明的一个实施例中,在每一次训练节点聚合时,聚合节点根据从各训练节点获取的加权更新参数,利用聚合算法对全局模型进行更新,并重复上述步骤,直至完成对协作学习模型的训练。
根据本发明实施例的面向协作学习的动态聚合方法,该方法通过目标强化学习模型,根据训练节点的运行状态调整不同训练节点的分组,从而得到动态聚合策略,从而在平衡了训练效率及训练完成度的基础上,保证了协作学习过程中所有训练节点均参与训练,即训练节点内的数据集特征都能被模型学习,防止全局模型偏移,并且减少了训练节点整体闲置率,提高了模型的全局训练效率与精确度。
为了实现上述实施例,如图2所示,本实施例中还提供了面向协作学习的动态聚合装置10,该装置包括,第一获取模块100、构建模块200、第二获取模块300、第一训练模块400和第二训练模块500;
获取模块,用于协作学习任务开始前,获取协作学习模型和参与协作学习模型的训练节点,并根据协作学习模型和训练节点的训练节点状态,得到初始化数据集;
构建模块,用于基于初始化数据集,构建并初始化面向协作学习动态聚合策略的初始强化学习模型;
第二获取模块,用于执行协作学习任务中,获取训练节点的实时训练节点状态与训练协作学习模型一个轮次所需的实际时间开销;
第一训练模块,用于基于实时训练节点状态与实际时间开销,在线训练初始强化学习模型,得到目标强化学习模型;
第二训练模块,用于基于目标强化学习模型的预测结果得到目标协作学习聚合策略,并利用目标协作学习聚合策略完成对协作学习模型的训练。
进一步地,上述第一获取模块100,具体用于:
将所述协作学习模型分发到所述训练节点;
获取所述训练节点根据实时的CPU频率、CPU空闲率、GPU峰值算力、显存空闲率以及通信量得到的训练节点状态;
获取所述训练节点通过所述训练节点状态与本地训练集计算出训练所述协作学习模型一个轮次所需的预估时间开销;
基于各训练节点的训练节点状态与预估时间开销,得到初始化数据集。
进一步地,上述构建模块200,具体用于:
定义强化学习状态,其中,/>表示第/>个训练节点完成一个训练轮次所需要的时间;
定义强化学习动作为个训练节点的分组数量/>,即训练节点被分为/>个组;
基于强化学习动作定义强化学习奖励,并基于强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合;
基于初始化数据集训练强化学习模型,得到初始化强化学习模型。
在本发明的一个实施例中,所述第一训练模块400,具体用于:
根据实时训练节点状态和实际时间开销,得到实时训练节点状态与实际时间开销的数据集;
基于实时训练节点状态与实际时间开销的数据集,在协作学习训练过程中,在线训练初始强化学习模型,得到目标强化学习模型。
在本发明的一个实施例中,所述第二训练模块500,具体用于:
根据目标强化学习模型的预测结果,确定协作学习模型对应的最佳分组集合;
根据最佳分组集合和时间开销,设置协作学习参数聚合算法中聚合函数权重,并获取每个训练节点训练完成的模型参数;
根据最佳分组集合和聚合函数权重对训练节点的模型参数进行组内聚合,得到组内聚合结果;
定义每个分组中所有训练节点从训练到聚合完成的时间为组内时间开销;
根据各组内时间开销和组内聚合结果,利用协作学习参数聚合算法对协作学习模型进行更新,重复上述步骤,直至完成对协作学习模型的训练。
根据本发明实施例的面向协作学习的动态聚合装置,该装置通过目标强化学习模型,根据训练节点的运行状态调整不同训练节点的分组,从而得到动态聚合策略,从而在平衡了训练效率及训练完成度的基础上,保证了协作学习过程中所有训练节点均参与训练,即训练节点内的数据集特征都能被模型学习,防止全局模型偏移,并且减少了训练节点整体闲置率,提高了模型的全局训练效率与精确度。
基于上述描述,图3提出了一种不同协作学习方案的对比示意图,如图3所示,对比了在相同时间内不同协作学习方案的全局模型训练效率。
具体地,在本发明的一个实施例中,图3中设置了四个训练节点A、B、C和D,其中A与B训练时间开销相似,C与D训练时间开销相似,但相比于A与B,C与D需要更多的时间开销。如图3上半部分所示,在传统的协作学习方法中,聚合节点需要获取所有训练节点的更新参数才能够聚合,即所有训练节点需要等待其他训练节点完成。因此训练节点A与B需要长时间等待直到时间开销最大的训练节点D完成一轮训练。且所有节点仅完成了一轮训练,即全局模型只更新了一次,效率较低。
以及,在本发明的一个实施例中,如图3下半部分所示,本发明将时间开销相似的训练节点分组,即A与B分为组1,C与D分为组2。在组2完成一轮训练之前,组1内的A与B已经进行多轮参数更新。在同一时间段,A与B的等待时间减少,并且完成训练的次数增加,提高了整体训练效率。在图3中的情况下,全局模型已更新3轮,即在相同时间内,本发明使模型训练到的AB节点内数据集的特征是传统方法的3倍。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

Claims (6)

1.一种面向协作学习的动态聚合方法,其特征在于,所述方法应用于聚合节点,包括:
协作学习任务开始前,获取协作学习模型和参与所述协作学习模型的训练节点,并根据所述协作学习模型和所述训练节点的训练节点状态,得到初始化数据集;
基于所述初始化数据集,构建并初始化面向协作学习动态聚合策略的初始强化学习模型;
执行协作学习任务中,获取所述训练节点的实时训练节点状态与训练所述协作学习模型一个轮次所需的实际时间开销;
基于所述实时训练节点状态与实际时间开销,在线训练所述初始强化学习模型,得到目标强化学习模型;
基于所述目标强化学习模型的预测结果得到目标协作学习聚合策略,并利用所述目标协作学习聚合策略完成对所述协作学习模型的训练;
其中,所述基于所述初始化数据集,构建并初始化面向协作学习动态聚合策略的初始强化学习模型,包括:
定义强化学习状态,其中,/>表示第/>个训练节点完成一个训练轮次所需要的时间;
定义强化学习动作为个训练节点的分组数量/>,即训练节点被分为/>个组;
基于所述强化学习动作定义强化学习奖励,并基于所述强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合;
基于所述初始化数据集训练强化学习模型,得到初始强化学习模型;
所述根据所述目标强化学习模型的预测结果确定目标协作学习聚合策略,并利用目标协作学习聚合策略完成对所述协作学习模型的训练,包括:
根据所述目标强化学习模型的预测结果,确定所述协作学习模型对应的最佳分组集合;
根据所述最佳分组集合和时间开销,设置协作学习参数聚合算法中聚合函数权重,并获取每个训练节点训练完成的模型参数;
根据所述最佳分组集合和所述聚合函数权重对所述训练节点的模型参数进行组内聚合,得到组内聚合结果;
定义每个分组中所有训练节点从训练到聚合完成的时间为组内时间开销;
根据各组内时间开销和所述组内聚合结果,利用所述协作学习参数聚合算法对所述协作学习模型进行更新,重复上述步骤,直至完成对所述协作学习模型的训练。
2.根据权利要求1所述的方法,其特征在于,所述根据所述协作学习模型和所述训练节点的训练节点状态,得到初始化数据集,包括:
将所述协作学习模型分发到所述训练节点;
获取所述训练节点根据实时的CPU频率、CPU空闲率、GPU峰值算力、显存空闲率以及通信量得到的训练节点状态;
获取所述训练节点通过所述训练节点状态与本地训练集计算出训练所述协作学习模型一个轮次所需的预估时间开销;
基于各训练节点的训练节点状态与预估时间开销,得到初始化数据集。
3.根据权利要求1所述的方法,其特征在于,所述基于所述实时训练节点状态与实际时间开销,在线训练所述初始强化学习模型,得到目标强化学习模型,包括:
根据所述实时训练节点状态和所述实际时间开销,得到实时训练节点状态与实际时间开销的数据集;
基于所述实时训练节点状态与实际时间开销的数据集,在协作学习训练过程中,在线训练所述初始强化学习模型,得到目标强化学习模型。
4.一种面向协作学习的动态聚合装置,其特征在于,所述装置应用于聚合节点,包括:
第一获取模块,协作学习任务开始前,获取协作学习模型和参与所述协作学习模型的训练节点,并根据所述协作学习模型和所述训练节点的训练节点状态,得到初始化数据集;
构建模块,用于基于所述初始化数据集,构建并初始化面向协作学习动态聚合策略的初始强化学习模型;
第二获取模块,用于执行协作学习任务中,获取所述训练节点的实时训练节点状态与训练所述协作学习模型一个轮次所需的实际时间开销;
第一训练模块,用于基于所述实时训练节点状态与实际时间开销,在线训练所述初始强化学习模型,得到目标强化学习模型;
第二训练模块,用于基于所述目标强化学习模型的预测结果得到目标协作学习聚合策略,并利用所述目标协作学习聚合策略完成对所述协作学习模型的训练;
所述构建模块,具体用于:
定义强化学习状态,其中,/>表示第/>个训练节点完成一个训练轮次所需要的时间;
定义强化学习动作为个训练节点的分组数量/>,即训练节点被分为/>个组;
基于所述强化学习动作定义强化学习奖励,并基于所述强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合;
基于所述初始化数据集训练强化学习模型,得到初始化强化学习模型;
所述第二训练模块,具体用于:
根据所述目标强化学习模型的预测结果,确定所述协作学习模型对应的最佳分组集合;
根据所述最佳分组集合和时间开销,设置协作学习参数聚合算法中聚合函数权重,并获取每个训练节点训练完成的模型参数;
根据所述最佳分组集合和所述聚合函数权重对所述训练节点的模型参数进行组内聚合,得到组内聚合结果;
定义每个分组中所有训练节点从训练到聚合完成的时间为组内时间开销;
根据各组内时间开销和所述组内聚合结果,利用所述协作学习参数聚合算法对所述协作学习模型进行更新,重复上述步骤,直至完成对所述协作学习模型的训练。
5.根据权利要求4所述的装置,其特征在于,所述第一获取模块,具体用于:
将所述协作学习模型分发到所述训练节点;
获取所述训练节点根据实时的CPU频率、CPU空闲率、GPU峰值算力、显存空闲率以及通信量得到的训练节点状态;
获取所述训练节点通过所述训练节点状态与本地训练集计算出训练所述协作学习模型一个轮次所需的预估时间开销;
基于各训练节点的训练节点状态与预估时间开销,得到初始化数据集。
6.根据权利要求4所述的装置,其特征在于,所述第一训练模块,具体用于:
根据所述实时训练节点状态和所述实际时间开销,得到实时训练节点状态与实际时间开销的数据集;
基于所述实时训练节点状态与实际时间开销的数据集,在协作学习训练过程中,在线训练所述初始强化学习模型,得到目标强化学习模型。
CN202410161417.XA 2024-02-05 2024-02-05 一种面向协作学习的动态聚合方法及装置 Active CN117709486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410161417.XA CN117709486B (zh) 2024-02-05 2024-02-05 一种面向协作学习的动态聚合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410161417.XA CN117709486B (zh) 2024-02-05 2024-02-05 一种面向协作学习的动态聚合方法及装置

Publications (2)

Publication Number Publication Date
CN117709486A CN117709486A (zh) 2024-03-15
CN117709486B true CN117709486B (zh) 2024-04-19

Family

ID=90157381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410161417.XA Active CN117709486B (zh) 2024-02-05 2024-02-05 一种面向协作学习的动态聚合方法及装置

Country Status (1)

Country Link
CN (1) CN117709486B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357676A (zh) * 2021-12-15 2022-04-15 华南理工大学 一种针对层次化模型训练框架的聚合频率控制方法
CN114584581A (zh) * 2022-01-29 2022-06-03 华东师范大学 面向智慧城市物联网信物融合的联邦学习系统及联邦学习训练方法
CN115085921A (zh) * 2022-07-22 2022-09-20 北京智芯微电子科技有限公司 模型训练方法、节点检测方法、装置、设备及介质
CN115174404A (zh) * 2022-05-17 2022-10-11 南京大学 一种基于sdn组网的多设备联邦学习系统
CN115392481A (zh) * 2022-08-15 2022-11-25 重庆邮电大学 一种基于响应时间实时均衡的联邦学习高效通信方法
CN115408151A (zh) * 2022-08-23 2022-11-29 哈尔滨工业大学 一种联邦学习训练加速方法
CN115426353A (zh) * 2022-08-29 2022-12-02 广东工业大学 一种融合区块链状态分片和信誉机制的联邦学习架构构建的方法
CN116502733A (zh) * 2022-01-19 2023-07-28 中国移动通信有限公司研究院 一种基于联邦学习的模型训练方法和装置
CN116663652A (zh) * 2023-04-20 2023-08-29 华中师范大学 一种强化学习支持下的协作学习干预方法及系统
CN117255356A (zh) * 2023-09-23 2023-12-19 北京理工大学 一种无线接入网中基于联邦学习的高效自协同方法
CN117474116A (zh) * 2022-07-21 2024-01-30 华为技术有限公司 模型的训练方法及通信装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021225879A2 (en) * 2020-05-05 2021-11-11 Siemens Corporation Graph convolutional reinforcement learning with heterogeneous agent groups

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357676A (zh) * 2021-12-15 2022-04-15 华南理工大学 一种针对层次化模型训练框架的聚合频率控制方法
CN116502733A (zh) * 2022-01-19 2023-07-28 中国移动通信有限公司研究院 一种基于联邦学习的模型训练方法和装置
CN114584581A (zh) * 2022-01-29 2022-06-03 华东师范大学 面向智慧城市物联网信物融合的联邦学习系统及联邦学习训练方法
CN115174404A (zh) * 2022-05-17 2022-10-11 南京大学 一种基于sdn组网的多设备联邦学习系统
CN117474116A (zh) * 2022-07-21 2024-01-30 华为技术有限公司 模型的训练方法及通信装置
CN115085921A (zh) * 2022-07-22 2022-09-20 北京智芯微电子科技有限公司 模型训练方法、节点检测方法、装置、设备及介质
CN115392481A (zh) * 2022-08-15 2022-11-25 重庆邮电大学 一种基于响应时间实时均衡的联邦学习高效通信方法
CN115408151A (zh) * 2022-08-23 2022-11-29 哈尔滨工业大学 一种联邦学习训练加速方法
CN115426353A (zh) * 2022-08-29 2022-12-02 广东工业大学 一种融合区块链状态分片和信誉机制的联邦学习架构构建的方法
CN116663652A (zh) * 2023-04-20 2023-08-29 华中师范大学 一种强化学习支持下的协作学习干预方法及系统
CN117255356A (zh) * 2023-09-23 2023-12-19 北京理工大学 一种无线接入网中基于联邦学习的高效自协同方法

Also Published As

Publication number Publication date
CN117709486A (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
Xu et al. Helios: Heterogeneity-aware federated learning with dynamically balanced collaboration
CN102710508B (zh) 虚拟网络资源分配方法
CN108829441A (zh) 一种分布式深度学习的参数更新优化系统
CN114375066B (zh) 一种基于多智能体强化学习的分布式信道竞争方法
CN103973740A (zh) 资源分配方法
CN113724096B (zh) 一种基于公共品演化博弈模型的群体知识共享方法
CN111191728A (zh) 基于异步或同步的深度强化学习分布式训练方法及系统
CN113378474B (zh) 一种基于贡献量的联邦学习客户机选择方法、系统及介质
Zeng et al. Trust-based multi-agent imitation learning for green edge computing in smart cities
CN117687791A (zh) 基于强化学习的物联网采集平台计算资源调度方法
CN115907038A (zh) 一种基于联邦拆分学习框架的多元控制决策方法
CN117392483B (zh) 基于增强学习的相册分类模型训练加速方法、系统及介质
CN117709486B (zh) 一种面向协作学习的动态聚合方法及装置
CN115329985B (zh) 无人集群智能模型训练方法、装置和电子设备
CN110928676B (zh) 一种基于性能评估的电力cps负荷分配方法
CN115115064A (zh) 一种半异步联邦学习方法及系统
CN112036707B (zh) 面向时间不确定生产过程协同的节拍控制方法和系统
CN114022731A (zh) 基于drl的联邦学习节点选择方法
CN112379999A (zh) 一种基于联盟博弈的雾节点任务卸载方法
CN111324444A (zh) 一种云计算任务调度方法及装置
CN110162400B (zh) 复杂网络环境下实现mas系统中智能体合作的方法和系统
Guo et al. A leader-based cooperation-prompt protocol for the prisoner's dilemma game in multi-agent systems
CN117742922A (zh) 任务调度方法、装置及计算机可读存储介质
CN108121771A (zh) 一种基于迭代的排名聚合方法
CN117812564B (zh) 一种应用于车联网的联邦学习方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant