CN117709486B

CN117709486B - 一种面向协作学习的动态聚合方法及装置

Info

Publication number: CN117709486B
Application number: CN202410161417.XA
Authority: CN
Inventors: 徐恪; 松永健宏; 赵乙; 苏家兴; 刘欣睿; 李奥; 谭崎
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-04-19
Anticipated expiration: 2044-02-05
Also published as: CN117709486A

Abstract

本发明公开了一种面向协作学习的动态聚合方法及装置，该方法应用于协作学习的聚合节点，获取协作学习模型和参与协作学习模型的训练节点，并根据协作学习模型和训练节点的训练节点状态，得到初始化数据集；基于初始化数据集，构建并初始化面向协作学习动态聚合策略的初始强化学习模型；基于训练节点的实时训练节点状态与训练协作学习模型一个轮次所需的实际时间开销，在线训练初始强化学习模型，得到目标强化学习模型；基于目标强化学习模型的预测结果得到目标协作学习聚合策略，并利用目标协作学习聚合策略完成对协作学习模型的训练。本发明保证了协作学习过程中所有训练节点均参与训练，减少了训练节点整体闲置率，提高了全局训练效率与精确度。

Description

一种面向协作学习的动态聚合方法及装置

技术领域

本发明涉及下一代互联网、强化学习与协作学习技术领域，特别是涉及一种面向协作学习的动态聚合方法及装置。

背景技术

协作学习是一种分布式机器学习框架，实现了高效协同训练和保证了数据的隐私性。其中，协作学习由一个聚合节点与多个训练节点组成，具体地，聚合节点将初始的协作学习模型分发到所有的训练节点，各个训练节点利用本地数据集对局部模型进行训练，训练完成后，训练节点将参数汇聚到聚合节点中，并由聚合节点根据聚合策略将各训练节点参数聚合，更新全局模型，直至完成协作学习模型的训练。

传统的协作学习聚合方法中，所有训练节点需要等待其他训练节点完成，使部分训练节点闲置率高，模型训练效率降低。

现有提高效率的方法中，通过抛弃计算能力过低的训练节点，以加快训练速度，提高协作学习效率，从而解决分布式机器学习中算力异构的问题。但是，上述方法将会抛弃部分数据集的特征，导致在部分情况下训练模型会产生偏移以及部分特征丢失，从而降低了模型的精确度。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出了一种面向协作学习的动态聚合方法，通过目标强化学习模型，根据训练节点的运行状态调整不同训练节点的分组，从而得到动态聚合策略，进而在平衡了训练效率及训练完成度的基础上，保证了协作学习过程中所有训练节点均参与训练，即训练节点内的数据集的特征都能被模型学习，防止全局模型偏移，并且减少了训练节点整体闲置率，提高了模型的全局训练效率与精确度。

本发明的另一个目的在于提出一种面向协作学习的动态聚合装置。

为达上述目的，本发明一方面提出一种面向协作学习的动态聚合方法，所述方法应用于聚合节点，包括：

协作学习任务开始前，获取协作学习模型和参与所述协作学习模型的训练节点，并根据所述协作学习模型和所述训练节点的训练节点状态，得到初始化数据集；

基于所述初始化数据集，构建并初始化面向协作学习动态聚合策略的初始强化学习模型；

执行协作学习任务中，获取所述训练节点的实时训练节点状态与训练所述协作学习模型一个轮次所需的实际时间开销；

基于所述实时训练节点状态与实际时间开销，在线训练所述初始强化学习模型，得到目标强化学习模型；

基于所述目标强化学习模型的预测结果得到目标协作学习聚合策略，并利用目标协作学习聚合策略完成对所述协作学习模型的训练。

本发明实施例的面向协作学习的动态聚合方法还可以具有以下附加技术特征：

在本发明的一个实施例中，所述根据所述协作学习模型和所述训练节点的训练节点状态，得到初始化数据集，包括：

将所述协作学习模型分发到所述训练节点；

获取所述训练节点根据实时的CPU频率、CPU空闲率、GPU峰值算力、显存空闲率以及通信量得到的训练节点状态；

获取所述训练节点通过所述训练节点状态与本地训练集计算出训练所述协作学习模型一个轮次所需的预估时间开销；

基于各训练节点的训练节点状态与预估时间开销，得到初始化数据集。

在本发明的一个实施例中，所述基于所述初始化数据集，构建并初始化面向协作学习动态聚合策略的初始强化学习模型，包括：

定义强化学习状态，其中，/>表示第/>个训练节点完成一个训练轮次所需要的时间；

定义强化学习动作为个训练节点的分组数量/>，即训练节点被分为/>个组；

基于所述强化学习动作定义强化学习奖励，并基于所述强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合；

基于所述初始化数据集训练强化学习模型，得到初始强化学习模型。

在本发明的一个实施例中，所述基于所述实时训练节点状态与实际时间开销，在线训练所述初始强化学习模型，得到目标强化学习模型，包括：

根据所述实时训练节点状态和所述实际时间开销，得到实时训练节点状态与实际时间开销的数据集；

基于所述实时训练节点状态与实际时间开销的数据集，在协作学习训练过程中，在线训练所述初始强化学习模型，得到目标强化学习模型。

在本发明的一个实施例中，所述基于所述目标强化学习模型的预测结果确定目标协作学习聚合策略，并利用目标协作学习聚合策略完成对所述协作学习模型的训练，包括：

根据所述目标强化学习模型的预测结果，确定所述协作学习模型对应的最佳分组集合；

根据所述最佳分组集合和时间开销，设置协作学习参数聚合算法中聚合函数权重，并获取每个训练节点训练完成的模型参数；

根据所述最佳分组集合和所述聚合函数权重对所述训练节点的模型参数进行组内聚合，得到组内聚合结果；

定义每个分组中所有训练节点从训练到聚合完成的时间为组内时间开销；

根据各组内时间开销和所述组内聚合结果，利用所述协作学习参数聚合算法对所述协作学习模型进行更新，重复上述步骤，直至完成对所述协作学习模型的训练。

为达上述目的，本发明另一方面提出一种面向协作学习的动态聚合装置，所述装置应用于聚合节点，包括：

第一获取模块，协作学习任务开始前，获取协作学习模型和参与所述协作学习模型的训练节点，并根据所述协作学习模型和所述训练节点的训练节点状态，得到初始化数据集；

构建模块，用于基于所述初始化数据集，构建并初始化面向协作学习动态聚合策略的初始强化学习模型；

第二获取模块，用于执行协作学习任务中，获取所述训练节点的实时训练节点状态与训练所述协作学习模型一个轮次所需的实际时间开销；

第一训练模块，用于基于所述实时训练节点状态与实际时间开销，在线训练所述初始强化学习模型，得到目标强化学习模型；

第二训练模块，用于基于所述目标强化学习模型的预测结果得到目标协作学习聚合策略，并利用目标协作学习聚合策略完成对所述协作学习模型的训练。

在本发明的一个实施例中，所述第一获取模块，具体用于：

将所述协作学习模型分发到所述训练节点；

基于各训练节点的训练节点状态与预估时间开销，得到初始化数据集；

在本发明的一个实施例中，所述构建模块，具体用于：

在本发明的一个实施例中，所述第一训练模块，具体用于：

在本发明的一个实施例中，所述第二训练模块，具体用于：

本发明实施例的面向协作学习的动态聚合方法和装置，通过目标强化学习模型，根据训练节点的运行状态调整不同训练节点的分组，从而得到动态聚合策略，从而在平衡了训练效率及训练完成度的基础上，保证了协作学习过程中所有训练节点均参与训练，即训练节点内的数据集特征都能被模型学习，防止全局模型偏移，并且减少了训练节点整体闲置率，提高了模型的全局训练效率与精确度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的面向协作学习的动态聚合方法的流程图；

图2是根据本发明实施例的面向协作学习的动态聚合装置的结构图；

图3是根据本发明实施例的不同协作学习方案的对比示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的面向协作学习的动态聚合方法和装置。

图1是本发明实施例的面向协作学习的动态聚合方法的流程图。

如图1所示，该方法应用于聚合节点，包括：

S1，协作学习任务开始前，获取协作学习模型和参与协作学习模型的训练节点，并根据协作学习模型和训练节点的训练节点状态，得到初始化数据集；

其中，在本发明的一个实施例中，在协作学习任务开始前，获取协作学习模型时，同时可以获取该模型对应的聚合算法、模型网络结构与本地训练算法。以及，上述参与协作学习模型的训练节点为用户指定的训练节点。进一步地，在本发明的一个实施例中，获取协作学习模型和参与协作学习模型的训练节点后，可以根据协作学习模型和训练节点的训练节点状态，得到初始化数据集。

具体地，上述根据协作学习模型和训练节点的训练节点状态，得到初始化数据集的方法可以包括以下步骤：

步骤1、将协作学习模型分发到训练节点；

步骤2、获取训练节点根据实时的CPU频率、CPU空闲率、GPU峰值算力、显存空闲率以及通信量得到的训练节点状态；

步骤3、获取训练节点通过训练节点状态与本地训练集计算出训练协作学习模型一个轮次所需的预估时间开销；

步骤4、基于各训练节点的训练节点状态与预估时间开销，得到初始化数据集。

在本发明的一个实施例中，假设上述为个训练节点，则可以获取每个训练节点根据自身CPU频率、CPU空闲率、GPU峰值算力、显存空闲率以及通信量的硬件信息得到的训练节点状态。其中，训练节点通过训练节点状态结合本地数据集，估算当前训练节点完成协作学习模型一个训练轮次所需的预估时间开销/>。

以及，在本发明的一个实施例中，聚合节点可以基于各训练节点的训练节点状态与预估时间开销，得到初始化数据集。

进一步地，在本发明的一个实施例中，聚合节点获取各训练节点完成一个训练轮次所需的预估时间开销后，估算出训练协作学习模型所需的时间开销为，其中，/>为第/>个训练节点完成协作学习模型一个训练轮次所需的预估时间开销。

S2，基于初始化数据集，构建并初始化面向协作学习动态聚合策略的初始强化学习模型；

在本发明的一个实施例中，上述基于初始化数据集，构建并初始化面向协作学习动态聚合策略的初始强化学习模型的方法可以包括：定义强化学习状态，其中，/>表示第/>个训练节点完成一个训练轮次所需要的时间；定义强化学习动作为/>个训练节点的分组数量/>，即训练节点被分为/>个组；基于强化学习动作定义强化学习奖励，并基于强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合；基于初始化数据集训练强化学习模型，得到初始强化学习模型。

其中，在本发明的一个实施例中，上述训练节点的分组集合为，其中/>为第/>个分组集合。以及，在本发明的一个实施例中，在强化学习动作中，通过状态/>可以得到/>个训练节点完成一个训练轮次所需时间/>，/>表示第/>个训练节点完成一个训练轮次所需要的时间，基于上述强化学习动作定义强化学习奖励，并基于强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合。以及，强化学习奖励与训练节点在组内的空闲率之和相关，空闲率为训练节点在完成训练后等待聚合的时间占比，即等待其他训练节点完成训练的时间占比，其中，空闲率之和小，强化学习奖励值越大。

具体地，在本发明的一个实施例中，基于强化学习奖励，通过K-MEANS算法确定目标分组数量和目标分组数据量对应的最佳分组集合。也即是，当根据/>数量，并通过K-MEANS分组所得的强化学习奖励最大时，强化学习将选择该/>，即K-MEANS的目标分组数量/>。其中，通过上述方法能够基于强化学习奖励将花费时间相近的训练节点分为一组，总共/>个组（/>）。

其中，在本发明的一个实施例中，上述强化学习奖励为。其中/>为上述训练节点集合，为训练节点集合/>内某一个训练节点组，/>为训练组g所有节点完成一轮训练所需要的时间，/>和/>为该训练节点组/>内任意一个训练节点，/>为所有/>个训练节点中，完成一个训练轮次所需时间最长的训练节点组（/>）。其中/>由两个部分之和组成，一是计算了/>个组中，各训练节点组内的闲置时间之和，二是在整个任务训练中，所有训练节点组尽可能多地训练后，还需要等最慢的训练节点组的时间。其中，上述强化学习奖励表示了当整体闲置时间越长时，奖励值越小。

进一步地，在本发明的一个实施例中，基于协作学习模型一个训练轮次所需的估算时间以及协作学习任务执行前的训练节点状态结合成的数据集，得到初始化数据集，并基于初始化数据集训练强化学习模型得到初始化强化学习模型。

S3，执行协作学习任务中，获取训练节点的实时训练节点状态与训练协作学习模型一个轮次所需的实际时间开销；

S4，基于实时训练节点状态与实际时间开销，在线训练初始强化学习模型，得到目标强化学习模型；

在本发明的一个实施例中，执行协作学习任务中，训练节点使用该训练节点的本地训练数据集对协作学习模型进行训练，并根据训练节点执行一轮协作学习模型训练的时间作为实际时间开销。

以及，在本发明的一个实施例中，上述基于实时训练节点状态与实际时间开销，在线训练初始强化学习模型，得到目标强化学习模型的方法可以包括以下步骤：

步骤a、根据实时训练节点状态和实际时间开销，得到实时训练节点状态与实际时间开销的数据集；

步骤b、基于实时训练节点状态与实际时间开销的数据集，在协作学习训练过程中，在线训练初始强化学习模型，得到目标强化学习模型。

其中，在本发明的一个实施例中，强化学习模型使用在线训练的方法。具体地，在本发明的一个实施例中，聚合节点收集各训练节点完成一轮训练的实际所需时间后，可以利用高斯分布随机改变部分/>值模拟协作学习任务中的波动，即，其中/>为生成高斯分布随机数的函数，/>，/>代表了训练节点稳定性，稳定性越高值越小。基于此，聚合节点可得/>个训练节点完成一个训练轮次时间/>，并通过生产多个数据得到表示训练节点花费时间状态的数据集，在/>中共有/>条数据，其中，本发明取较小的/>与/>。

以及，在本发明的一个实施例中，通过上述步骤得到数据集后，强化学习代理可得到多条/>个训练节点完成一个训练轮次时间的数据，并根据上述/>的定义，强化学习代理将数据集中的每一条作为当前状态/>。以及，在本发明的一个实施例中，根据上述定义的强化学习奖励，计算不同分组策略的奖励值，选取奖励值最高的/>作为本次动作。因此，在协作学习训练的过程中，强化学习模型会根据/>以及/>此对应的/>值不断训练，使得/>最大，即训练节点总体训练时间最少。

S5，基于目标强化学习模型的预测结果得到目标协作学习聚合策略，并利用目标协作学习聚合策略完成对协作学习模型的训练。

在本发明的一个实施例中，上述基于目标强化学习模型的预测结果得到目标协作学习聚合策略，并利用目标协作学习聚合策略完成对协作学习模型的训练的方法可以包括以下步骤：

步骤一、根据目标强化学习模型的预测结果，确定协作学习模型对应的最佳分组集合；

步骤二、根据最佳分组集合和时间开销，设置协作学习参数聚合算法中聚合函数权重，并获取每个训练节点训练完成的模型参数；

步骤三、根据最佳分组集合和聚合函数权重对训练节点的模型参数进行组内聚合，得到组内聚合结果；

步骤四、定义每个分组中所有训练节点从训练到聚合完成的时间为组内时间开销；

步骤五、根据各组内时间开销和组内聚合结果，利用协作学习参数聚合算法对协作学习模型进行更新，重复上述步骤，直至完成对协作学习模型的训练。

其中，在本发明的一个实施例中，通过上述步骤获取个训练节点上一轮完成训练轮次花费的时间，作为本轮的状态/>；若本轮为第一轮则初始化/>为/>，并根据目标强化学习模型通过当前/>计算各/>的/>的值，确定协作学习模型对应的最佳分组集合/>。

以及，在本发明的一个实施例中，在上述训练节点进行协作学习模型的训练过程中，聚合节点会设置每个训练节点对应的聚合函数的权重，使得每一轮的训练节点对全局模型参数更新不会过大，防止某些训练节点分组训练速度过快导致部分数据集过拟合。

以及，在本发明的一个实施例中，根据本轮的状态，设置各训练节点的参数/>，使得对所有/>个训练节点，第/>个训练节点每一轮花费时间/>越少，该训练节点聚合函数权重的参数/>越大，且/>。

进一步地，在本发明的一个实施例中，通过上述最佳分组集合进行局部参数聚合。具体地，在本发明的一个实施例中，同一组的训练节点会等待所有组内节点训练完成并进行组内聚合，而当存在两组或多组节点同时准备聚合时，则进行多组合并聚合。以及，以最快的一组训练节点的完成作为全局聚合的判断，当任意其他分组完成时，将所有训练节点进行聚合。

其中，在本发明的一个实施例中，，/>代表了第/>个训练节点的加权更新参数，/>代表了参数权重，/>为所有训练节点已训练的总轮次，/>为第/>个训练节点已训练的总轮次，/>表示第/>个训练节点训练一轮后的更新参数。通过上述更新方法可以有效防止计算能力强的训练节点对全局模型的影响，并且对于计算能力弱的服务器能够有效的调整全局模型。

其中，在本发明的一个实施例中，在每一次训练节点聚合时，聚合节点根据从各训练节点获取的加权更新参数，利用聚合算法对全局模型进行更新，并重复上述步骤，直至完成对协作学习模型的训练。

根据本发明实施例的面向协作学习的动态聚合方法，该方法通过目标强化学习模型，根据训练节点的运行状态调整不同训练节点的分组，从而得到动态聚合策略，从而在平衡了训练效率及训练完成度的基础上，保证了协作学习过程中所有训练节点均参与训练，即训练节点内的数据集特征都能被模型学习，防止全局模型偏移，并且减少了训练节点整体闲置率，提高了模型的全局训练效率与精确度。

为了实现上述实施例，如图2所示，本实施例中还提供了面向协作学习的动态聚合装置10，该装置包括，第一获取模块100、构建模块200、第二获取模块300、第一训练模块400和第二训练模块500；

获取模块，用于协作学习任务开始前，获取协作学习模型和参与协作学习模型的训练节点，并根据协作学习模型和训练节点的训练节点状态，得到初始化数据集；

构建模块，用于基于初始化数据集，构建并初始化面向协作学习动态聚合策略的初始强化学习模型；

第二获取模块，用于执行协作学习任务中，获取训练节点的实时训练节点状态与训练协作学习模型一个轮次所需的实际时间开销；

第一训练模块，用于基于实时训练节点状态与实际时间开销，在线训练初始强化学习模型，得到目标强化学习模型；

第二训练模块，用于基于目标强化学习模型的预测结果得到目标协作学习聚合策略，并利用目标协作学习聚合策略完成对协作学习模型的训练。

进一步地，上述第一获取模块100，具体用于：

将所述协作学习模型分发到所述训练节点；

进一步地，上述构建模块200，具体用于：

基于强化学习动作定义强化学习奖励，并基于强化学习奖励利用聚类算法确定目标分组数量对应的最佳分组集合；

基于初始化数据集训练强化学习模型，得到初始化强化学习模型。

在本发明的一个实施例中，所述第一训练模块400，具体用于：

根据实时训练节点状态和实际时间开销，得到实时训练节点状态与实际时间开销的数据集；

基于实时训练节点状态与实际时间开销的数据集，在协作学习训练过程中，在线训练初始强化学习模型，得到目标强化学习模型。

在本发明的一个实施例中，所述第二训练模块500，具体用于：

根据目标强化学习模型的预测结果，确定协作学习模型对应的最佳分组集合；

根据最佳分组集合和时间开销，设置协作学习参数聚合算法中聚合函数权重，并获取每个训练节点训练完成的模型参数；

根据最佳分组集合和聚合函数权重对训练节点的模型参数进行组内聚合，得到组内聚合结果；

根据各组内时间开销和组内聚合结果，利用协作学习参数聚合算法对协作学习模型进行更新，重复上述步骤，直至完成对协作学习模型的训练。

根据本发明实施例的面向协作学习的动态聚合装置，该装置通过目标强化学习模型，根据训练节点的运行状态调整不同训练节点的分组，从而得到动态聚合策略，从而在平衡了训练效率及训练完成度的基础上，保证了协作学习过程中所有训练节点均参与训练，即训练节点内的数据集特征都能被模型学习，防止全局模型偏移，并且减少了训练节点整体闲置率，提高了模型的全局训练效率与精确度。

基于上述描述，图3提出了一种不同协作学习方案的对比示意图，如图3所示，对比了在相同时间内不同协作学习方案的全局模型训练效率。

具体地，在本发明的一个实施例中，图3中设置了四个训练节点A、B、C和D，其中A与B训练时间开销相似，C与D训练时间开销相似，但相比于A与B，C与D需要更多的时间开销。如图3上半部分所示，在传统的协作学习方法中，聚合节点需要获取所有训练节点的更新参数才能够聚合，即所有训练节点需要等待其他训练节点完成。因此训练节点A与B需要长时间等待直到时间开销最大的训练节点D完成一轮训练。且所有节点仅完成了一轮训练，即全局模型只更新了一次，效率较低。

以及，在本发明的一个实施例中，如图3下半部分所示，本发明将时间开销相似的训练节点分组，即A与B分为组1，C与D分为组2。在组2完成一轮训练之前，组1内的A与B已经进行多轮参数更新。在同一时间段，A与B的等待时间减少，并且完成训练的次数增加，提高了整体训练效率。在图3中的情况下，全局模型已更新3轮，即在相同时间内，本发明使模型训练到的AB节点内数据集的特征是传统方法的3倍。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

Claims

1.一种面向协作学习的动态聚合方法，其特征在于，所述方法应用于聚合节点，包括：

基于所述目标强化学习模型的预测结果得到目标协作学习聚合策略，并利用所述目标协作学习聚合策略完成对所述协作学习模型的训练；

其中，所述基于所述初始化数据集，构建并初始化面向协作学习动态聚合策略的初始强化学习模型，包括：

基于所述初始化数据集训练强化学习模型，得到初始强化学习模型；

所述根据所述目标强化学习模型的预测结果确定目标协作学习聚合策略，并利用目标协作学习聚合策略完成对所述协作学习模型的训练，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述协作学习模型和所述训练节点的训练节点状态，得到初始化数据集，包括：

将所述协作学习模型分发到所述训练节点；

3.根据权利要求1所述的方法，其特征在于，所述基于所述实时训练节点状态与实际时间开销，在线训练所述初始强化学习模型，得到目标强化学习模型，包括：

4.一种面向协作学习的动态聚合装置，其特征在于，所述装置应用于聚合节点，包括：

第二训练模块，用于基于所述目标强化学习模型的预测结果得到目标协作学习聚合策略，并利用所述目标协作学习聚合策略完成对所述协作学习模型的训练；

所述构建模块，具体用于：

基于所述初始化数据集训练强化学习模型，得到初始化强化学习模型；

所述第二训练模块，具体用于：

5.根据权利要求4所述的装置，其特征在于，所述第一获取模块，具体用于：

将所述协作学习模型分发到所述训练节点；

6.根据权利要求4所述的装置，其特征在于，所述第一训练模块，具体用于：