CN116150612A

CN116150612A - 模型训练的方法和通信装置

Info

Publication number: CN116150612A
Application number: CN202111350005.3A
Authority: CN
Inventors: 叶德仕; 陈松扬; 徐晨; 李榕
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2023-05-23
Also published as: WO2023083312A1

Abstract

本申请提供了一种模型训练的方法和通信装置，该方法包括：第k组设备中的第i个设备进行n*M次的模型训练，其中，所述第i个设备在每M次的模型训练中与所述第k组设备中的至少一个其它设备完成模型参数的交换，M为所述第k组设备中的设备数量，M大于或等于2，n为整数；所述第i个设备向目标设备发送模型M_i,n*M，所述模型M_i,n*M为所述第i个设备完成n*M次的模型训练后的模型。本申请提供的方案可以提升模型训练过程中收敛速度以及数据和算力的利用效率，同时，也可以降低设备计算、存储及通信能力的要求。

Description

模型训练的方法和通信装置

技术领域

本申请实施例涉及学习方法，尤其涉及一种模型训练的方法和通信装置。

背景技术

分布式学习是当前人工智能(artificial intelligence，AI)研究的一个重点方向，在分布式学习中，中心节点将数据集D(包括数据集D_n、D_k、D_m)分别下发给多个分布式节点(如图2中的分布式节点n、分布式节点k、分布式节点m)，这多个分布式节点各自利用本地的计算资源进行模型训练，并将训练好的模型W(包括模型W_n、W_k、W_m)上传至中心节点。在这种学习架构中，中心节点拥有全部数据集，分布式节点无需收集本地数据集。这种学习架构利用分布式节点的计算能力，帮助进行模型的训练，可以卸载中心节点的计算压力。

在实际场景中，数据往往由分布式节点进行采集，即数据是分布式存在的。此时，将数据汇总到中心节点会产生数据隐私性的问题，同时也会导致大量的通信资源被用于数据传输，通信开销较大。

针对这一问题，提出了联邦学习(federated learning，FL)和分割学习(splitlearning) 的概念。

1、联邦学习

联邦学习在充分保障用户数据隐私和安全的前提下，促使各个分布式节点和中心节点协同合作以高效地完成模型的学习任务。在FL框架中，数据集存在于分布式节点处，即分布式节点收集本地的数据集，并进行本地训练，将训练得到的本地结果(模型或梯度)上报给中心节点。中心节点本身没有数据集，只负责将分布式节点的训练结果进行融合处理，得到全局模型，并下发给分布式节点。然而，由于FL通过联邦平均(federatedaveraging， FedAvg)算法周期性融合整个模型，收敛速度较慢，收敛性能有一定的缺陷；其次，进行 FL的设备需要保存及发送整个模型，对于设备计算、存储及通信能力要求较高。

2、分割学习

分割学习一般将模型分为两份，分别部署于分布式节点与中心节点，分布式节点与中心节点之间传输神经网络推理的中间结果。对比联邦学习，分割学习在分布式节点和中心节点并不保存完整模型，这可以进一步保证用户的隐私性。同时，中心节点与分布式节点之间的交互内容为数据及对应梯度，在模型参数量较大时能显著降低通信开销。然而，分割学习模型的训练过程为串行，即节点顺序更新，这使得数据和算力的利用效率较低。

发明内容

本申请实施例提供一种模型训练的方法和通信装置，可以提升模型训练过程中收敛速度以及数据和算力的利用效率，同时，也可以降低设备计算、存储及通信能力的要求。

第一方面，提供一种模型训练的方法，该方法包括：第k组设备中的第i个设备进行n*M次的模型训练，其中，所述第i个设备在每M次的模型训练中与所述第k组设备中的至少一个其它设备完成模型参数的交换，M为所述第k组设备中的设备数量，M大于或等于2，n为整数；

所述第i个设备向目标设备发送模型M_i,n*M，所述模型M_i,n*M为所述第i个设备完成n*M次的模型训练后的模型。

本申请实施例提供的方案，第k组设备中的第i个设备进行n*M次的模型训练后，将完成n*M次的模型训练后的模型发送至目标设备，以便于目标设备目标设备对接收到的K组(K*M个)模型进行融合。由于本申请的方案是将组内训练后的模型进行融合，可以提升模型训练过程中的收敛速度，且本申请的方案是K组设备同步对模型进行训练，可以提升模型训练过程中数据和算力的利用效率；此外，本申请中的设备均是基于模型的部分进行处理或收发的，从而可以降低设备计算、存储及通信能力的要求。

结合第一方面，在一些可能的实现方式中，所述目标设备为所述第k组设备中算力最强的设备，或，

所述目标设备为所述第k组设备中通信时延最小的设备，或，

所述目标设备为所述第k组设备之外的设备所指定的设备。

结合第一方面，在一些可能的实现方式中，所述第k组设备中的第i个设备进行n*M次的模型训练，包括：

对于所述n*M次的模型训练中的第j次模型训练，所述第i个设备从第(i-1)个设备接收其推理后的结果；

所述第i个设备根据接收到的结果确定第一梯度和第二梯度，所述第一梯度用于更新模型M_i,j-1，所述第二梯度用于更新模型M_i-1,j-1，所述模型M_i,j-1为所述第i个设备完成第 (j-1)次模型训练后的模型，所述模型M_i-1,j-1为所述第(i-1)个设备完成第(j-1)次模型训练后的模型；

所述第i个设备根据所述第一梯度训练模型M_i,j-1。

本申请实施例提供的方案，对于n*M次的模型训练中的第j次模型训练，第i个设备可以根据从第(i-1)个设备接收的结果确定第一梯度和第二梯度，并根据第一梯度训练模型M_i,j-1，可以提升模型训练过程中的收敛速度。

结合第一方面，在一些可能的实现方式中，当i＝M时，所述第一梯度基于接收的推理结果和从所述第1个设备接收的标签确定；

当i≠M时，所述第一梯度基于第(i+1)个设备传输的第二梯度确定。

结合第一方面，在一些可能的实现方式中，所述方法还包括：

所述第i个设备与所述第k组设备中的至少一个其它设备完成模型参数的交换的同时，所述第i个设备与所述第k组设备中的至少一个其它设备交换本地存储的样本数量。

本申请实施例提供的方案，第i个设备与第k组设备中的至少一个其它设备完成模型参数的交换的同时，也可以交换本地存储的样本数量，第i个设备可以向目标设备发送样本数量(包括本地存储的样本数量和交换得到的样本数量)，以便于目标设备可以根据样本数量，基于融合算法将所述K组模型中每一组模型的第q个模型进行组间融合，可以有效提升模型的泛化能力。

对于所述n*M次的模型训练的下一次训练，所述第i个设备从所述目标设备获取模型 M_r的信息，所述模型M_r为所述目标设备对模型

进行组间融合后的第r个模型， r∈[1,M]，所述模型/>

为所述第k组设备中的第i个设备完成n*M次的模型训练后的模型，i遍历1至M，k遍历1至K。

本申请实施例提供的方案，对于n*M次的模型训练的下一次训练，第i个设备从目标设备获取模型M_r的信息，可以保证模型的信息的准确性，从而可以提高模型训练的准确度。

所述第i个设备接收目标设备发送的选择结果；

所述第i个设备从所述目标设备获取模型M_r的信息，包括：

所述第i个设备根据所述选择结果从所述目标设备获取所述模型M_r的信息。

结合第一方面，在一些可能的实现方式中，所述选择结果包括以下至少一个：

所选择的设备、分组情况、模型的信息。

结合第一方面，在一些可能的实现方式中，所述模型的信息包括：

所述模型的模型结构、所述模型的模型参数、融合轮数周期、总的融合轮数。

第二方面，提供一种模型训练的方法，该方法包括：目标设备接收K组设备中第k组设备中的第i个设备发送的模型

所述模型/>

为所述第k组设备中的第i个设备完成n*M次的模型训练后的模型，所述每一组设备包括的设备数量为M，M大于或等于2，n为整数，i遍历1至M，k遍历1至K；

所述目标设备对K组模型进行组间融合，所述K组模型包括K个模型

本申请实施例提供的方案，目标设备接收到K组(即K*M个)模型，目标设备可以对这K组模型进行融合。由于本申请的方案是将组内训练后的模型进行融合，可以提升模型训练过程中的收敛速度；此外，本申请中的目标设备是基于模型的部分进行处理或收发的，从而可以降低目标设备计算、存储及通信能力的要求。

结合第二方面，在一些可能的实现方式中，所述目标设备为所述K组设备中算力最强的设备，或，

所述目标设备为所述K组设备中通信时延最小的设备，或，

所述目标设备为所述K组设备之外的设备所指定的设备。

结合第二方面，在一些可能的实现方式中，所述目标设备对K组模型进行融合，包括：

所述目标设备基于融合算法将所述K组模型中每一组模型的第q个模型进行组间融合， q∈[1,M]。

本申请实施例提供的方案，目标设备将K组模型中每一组模型的第q个模型进行组间融合得到全局模型，由于本申请的方案是将组内训练后的模型进行融合，可以进一步提升模型训练过程中的收敛速度。

结合第二方面，在一些可能的实现方式中，所述方法还包括：

所述目标设备接收所述第k组设备中的第i个设备发送的样本数量，所述样本数量包括其所述第i个设备本次存储的样本数量和与所述第k组设备中的至少一个其它设备交换后获得的样本数量；

所述目标设备基于融合算法将所述K组模型中每一组模型的第q个模型进行组间融合，包括：

所述目标设备根据所述样本数量，基于融合算法将所述K组模型中每一组模型的第q 个模型进行组间融合。

本申请实施例提供的方案，目标设备可以根据接收的样本数量，基于融合算法将所述 K组模型中每一组模型的第q个模型进行组间融合，由于目标设备接收的样本数量包括第 i个设备本地存储的样本数量和与第k组设备中的至少一个其它设备交换得到的样本数量，可以有效提升模型的泛化能力。

所述目标设备接收N个设备上报的状态信息，所述N个设备包括所述K组设备中每一组设备所包括的M个设备；

所述目标设备根据所述状态信息从所述N个设备中选择所述K组设备中每一组设备所包括的M个设备；

所述目标设备将选择结果广播至所述K组设备中每一组设备所包括的M个设备。

结合第二方面，在一些可能的实现方式中，所述选择结果包括以下至少一个：

所选择的设备、分组情况、模型的信息。

结合第二方面，在一些可能的实现方式中，所述模型的信息包括：

结合第二方面，在一些可能的实现方式中，所述状态信息包括以下信息中的至少一个：

设备算力、存储能力、资源占用、邻接矩阵、超参数。

第三方面，提供一种模型训练的方法，该方法包括：第k组设备中的M个设备根据 M个模型M_j-1的信息对所述M个模型M_j-1进行更新，得到M个模型M_j，j为大于或等于 1的整数；

轮换所述M个设备的模型参数；

基于轮换后的M个设备对所述M个模型M_j进行更新，得到M个模型M_j+1；

当j+1＝n*M，n为正整数时，所述M个设备向目标设备发送所述M个模型M_n*M。

本申请实施例提供的方案，K组设备中每一组设备所包括的M个设备根据M个模型M_j-1的信息对M个模型进行训练后，轮换所述M个设备的模型参数，并基于轮换后的M 个设备对所述M个模型M_j进行更新，当j+1＝n*M，M个设备向目标设备发送M个模型 M_n*M，以便于目标设备对K组模型进行组间融合。由于本申请的方案是将组内训练后的模型进行融合，可以提升模型训练过程中的收敛速度，且本申请的方案是K组设备同步对模型进行训练，可以提升模型训练过程中数据和算力的利用效率；此外，本申请中的设备均是基于模型的部分进行处理或收发的，从而可以降低设备计算、存储及通信能力的要求。

结合第三方面，在一些可能的实现方式中，所述目标设备为所述M个设备中算力最强的设备，或，

所述目标设备为所述M个设备中通信时延最小的设备，或，

所述目标设备为所述M个设备之外的设备所指定的设备。

结合第三方面，在一些可能的实现方式中，所述第k组设备中的M个设备根据M个模型M_j-1的信息对所述M个模型M_j-1进行更新，包括：

所述第k组设备中的第1个设备基于本地存储的数据对模型M_1,j-1进行推理，其中，模型M_1,j-1表示第1个设备完成第(j-1)次模型训练后的模型；

所述第k组设备中的第i个设备获取第(i-1)个设备推理后的结果，i∈(1,M]；

所述第i个设备根据获取到的结果确定第一梯度和第二梯度，所述第一梯度用于更新模型M_i,j-1，所述第二梯度用于更新模型M_i-1,j-1所述模型M_i,j-1为所述第i个设备完成第(j-1) 次模型训练后的模型，所述模型M_i-1,j-1为所述第(i-1)个设备完成第(j-1)次模型训练后的模型；

所述第i个设备根据所述第一梯度更新所述模型M_i,j-1。

本申请实施例提供的方案，第k组设备中的第i个设备可以根据从第(i-1)个设备接收的结果确定第一梯度和第二梯度，并根据第一梯度训练更新模型M_i,j-1，可以提升模型训练过程中的收敛速度。

结合第三方面，在一些可能的实现方式中，当i＝M时，所述第一梯度基于获取的结果和从所述第1个设备接收的标签确定；

结合第三方面，在一些可能的实现方式中，所述轮换所述M个设备的模型参数，包括：

依次将所述M个设备中的第i个设备的模型参数与第1个设备的模型参数交换。

本申请实施例提供的方案，依次将所述M个设备中的第i个设备的模型参数与第1个设备的模型参数交换，并基于轮换后的M个设备对所述M个模型M_j进行更新，可以提高设备的本地数据利用率和隐私性。

结合第三方面，在一些可能的实现方式中，所述方法还包括：

依次将所述M个设备中的第i个设备本地存储的样本数量与第1个设备本地存储的样本数量交换。

本申请实施例提供的方案，依次将第i个设备与第1个设备本地存储的样本数量交换，以便于目标设备可以根据样本数量，基于融合算法将所述K组模型中每一组模型的第q个模型进行组间融合，可以有效提升模型的泛化能力。

对于所述n*M次模型训练的下一次训练，所述M个设备从所述目标设备获取模型M_<r>的信息，所述模型M_<r>为所述目标设备对模型

进行组间融合后的第r个模型，r遍历1至M，所述模型/>

为所述第k组设备中的M个设备完成第n*M次的模型训练后的模型，i遍历1至M，k遍历1至K。

本申请实施例提供的方案，对于n*M次的模型训练的下一次训练，M个设备从目标设备获取模型M_n*M的信息，可以保证模型的信息的准确性，从而可以提高模型训练的准确度。

所述M个设备接收所述目标设备发送的选择结果；

所述M个设备从所述目标设备获取模型M_<r>的信息，包括：

所述M个设备根据所述选择结果从所述目标设备对应获取所述模型M_<r>的信息。

结合第三方面，在一些可能的实现方式中，所述选择结果包括以下至少一个：

所选择的设备、分组情况、模型的信息。

结合第三方面，在一些可能的实现方式中，所述模型的信息包括：

第四方面，提供一种模型训练的方法，该方法包括：目标设备接收K组设备中第k组设备中的M个设备发送的M个模型

所述模型/>

为所述第k组设备中的M个设备完成第n*M次的模型训练后的模型，M大于或等于2，k遍历1至K；

所述目标设备对K组模型进行组间融合，所述K组模型包括M个模型

本申请实施例提供的方案，目标设备接收到K组设备中每一组设备所包括的M个设备发送的M个模型M_n*M，可以对K组模型进行组间融合。由于本申请的方案是将组内训练后的模型进行融合，可以提升模型训练过程中的收敛速度；此外，本申请中的目标设备是基于模型的部分进行处理或收发的，从而可以降低目标设备计算、存储及通信能力的要求。

结合第四方面，在一些可能的实现方式中，所述目标设备为所述M个设备中算力最强的设备，或，

所述目标设备为所述M个设备中通信时延最小的设备，或，

所述目标设备为所述M个设备之外的设备所指定的设备。

结合第四方面，在一些可能的实现方式中，所述目标设备对K组模型进行融合，包括：

结合第四方面，在一些可能的实现方式中，所述方法还包括：

所述目标设备接收所述第k组设备发送的样本数量，所述样本数量包括所述第k组设备本次存储的样本数量和与所述第k组设备中的至少一个其它设备交换后获得的样本数量；

结合第四方面，在一些可能的实现方式中，所述选择结果包括以下至少一个：

所选择的设备、分组情况、模型的信息。

结合第四方面，在一些可能的实现方式中，所述模型的信息包括：

结合第四方面，在一些可能的实现方式中，所述状态信息包括以下信息中的至少一个：

设备算力、存储能力、资源占用、邻接矩阵、超参数。

第五方面，提供一种通信装置，有益效果可以参见第一方面的描述，在此不再赘述。所述通信装置具有实现上述第一方面的方法实施例中行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件包括一个或多个与上述功能相对应的模块。在一个可能的设计中，所述通信装置包括：处理模块，用于进行n*M次的模型训练，其中，所述第i个设备在每M次的模型训练中与所述第k组设备中的至少一个其它设备完成模型参数的交换，M为所述第k组设备中的设备数量，M大于或等于2，n为整数；收发模块，用于向目标设备发送模型M_i,n*M，所述模型M_i,n*M为所述第i个设备完成 n*M次的模型训练后的模型。这些模块可以执行上述第一方面方法示例中的相应功能，具体参见方法示例中的详细描述，此处不做赘述。

第六方面，提供一种通信装置，有益效果可以参见第二方面的描述此处不再赘述。所述通信装置具有实现上述第二方面的方法实例中行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中，所述通信装置包括：收发模块，用于接收K组设备中第k 组设备中的第i个设备发送的模型

所述模型/>

为所述第k组设备中的第i个设备完成n*M次的模型训练后的模型，所述每一组设备包括的设备数量为M，M大于或等于2，n为整数，i遍历1至M，k遍历1至K；处理模块，用于对K组模型进行组间融合，所述K组模型包括K个模型/>

第七方面，提供了一种通信装置，该通信装置可以为上述方法实施例中的第i个设备，或者为设置在第i个设备中的芯片。该通信装置包括通信接口以及处理器，可选的，还包括存储器。其中，该存储器用于存储计算机程序或指令，处理器与存储器、通信接口耦合，当处理器执行所述计算机程序或指令时，使通信装置执行上述方法实施例中由第i个设备所执行的方法

可选地，在一些实施例中，该第i个设备可以为终端设备，也可以为网络设备。

第八方面，提供了一种通信装置，该通信装置可以为上述方法实施例中的目标设备，或者为设置在目标设备中的芯片。该通信装置包括通信接口以及处理器，可选的，还包括存储器。其中，该存储器用于存储计算机程序或指令，处理器与存储器、通信接口耦合，当处理器执行所述计算机程序或指令时，使通信装置执行上述方法实施例中由目标设备所执行的方法。

可选地，在一些实施例中，该目标设备可以为终端设备，也可以为网络设备。

第九方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码并运行时，使得上述各方面中由终端设备执行的方法被执行。

第十方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码被运行时，使得上述各方面中由网络设备执行的方法被执行。

第十一方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于实现上述各方面的方法中终端设备的功能。在一种可能的设计中，所述芯片系统还包括存储器，用于保存程序指令和/或数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

第十二方面，本申请提供了一种芯片系统，该芯片系统包括处理器，用于实现上述各方面的方法中网络设备的功能。在一种可能的设计中，所述芯片系统还包括存储器，用于保存程序指令和/或数据。该芯片系统，可以由芯片构成，也可以包括芯片和其他分立器件。

第十三方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，当该计算机程序被运行时，实现上述各方面中由终端设备执行的方法。

第十四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，当该计算机程序被运行时，实现上述各方面中由网络设备执行的方法。

附图说明

图1为本申请实施例提供的一种基于通信系统的示意图。

图2为本申请实施例提供的一种分布式学习的示意图。

图3为本申请另一实施例提供的一种分布式学习的示意图。

图4为本申请实施例提供的一种模型训练的方法的示意图。

图5为本申请实施例提供的一种全连接神经网络的示意图。

图6为本申请实施例提供的一种损失函数优化的示意图。

图7为本申请实施例提供的梯度反向传播的示意图。

图8为本申请实施例提供的一种多组设备所包括的设备的示意图。

图9为本申请实施例提供的一种基于轮换顺序后的设备对模型进行训练的示意图。

图10为本申请实施例提供的另一种基于轮换顺序后的设备对模型进行训练的示意图。

图11为本申请实施例提供的一种准确度对比的示意图。

图12为本申请实施例提供的一种N个设备与目标设备交互的方法示意图。

图13为本申请另一实施例提供的一种模型训练的方法的示意图。

图14为本申请实施例提供的一种通信装置的示意性结构图。

图15为本申请实施例提供的另一种通信装置的示意性结构图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行描述。

本申请实施例的技术方案可以应用于各种通信系统，例如：窄带物联网(narrowband- internet of things，NB-IoT)系统、全球移动通讯(global system of mobilecommunication， GSM)系统、增强型数据速率全球移动通讯演进(enhanced data rate forGSM evolution， EDGE)系统、码分多址(code division multiple access，CDMA)系统、宽带码分多址 (wideband code division multiple access，WCDMA)系统、码分多址2000(code division multiple access，CDMA2000)系统、时分同步码分多址系统(timedivision-synchronization code division multiple access，TD-SCDMA)、通用分组无线业务(general packet radio service， GPRS)、长期演进(long term evolution，LTE)系统、LTE频分双工(frequency division duplex，FDD)系统、LTE时分双工(time divisionduplex，TDD)、通用移动通信系统(universal mobile telecommunication system，UMTS)、全球互联微波接入(worldwide interoperability for microwave access，WiMAX)通信系统、未来的第五代(5th generation，5G)系统或新无线(new radio，NR)等。

图1是适用于本申请实施例的无线通信系统100的示意图。如图1所示，该无线通信系统100可以包括一个或多个网络设备，例如，图1所示的网络设备10、网络设备20等。该无线通信系统100还可以包括一个或多个终端设备(也可以称为用户设备(user equipment，UE))，例如，图1所示的终端设备30、终端设备40等。其中，网络设备 10、网络设备20、终端设备30和终端设备40这4个终端设备之间可以相互通信。

应理解，图1只是示意图，该通信系统中还可以包括其它网络设备，如还可以包括核心网设备、无线中继设备和无线回传设备，在图1中未画出。本申请的实施例对该移动通信系统中包括的网络设备和终端设备的数量不做限定。

本申请实施例中的终端设备30、终端设备40可以指用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置。终端设备还可以是蜂窝电话、无绳电话、会话启动协议(sessioninitiation protocol，SIP)电话、无线本地环路(wireless local loop，WLL)站、个人数字处理(personal digital assistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备，未来5G网络中的终端设备或者未来演进的公用陆地移动通信网络(public land mobile network，PLMN)中的终端设备等。本申请中将前述终端设备及可应用于前述终端设备的芯片统称为终端设备。应理解，本申请实施例对终端设备所采用的具体技术和具体设备形态不做限定。

本申请实施例中的网络设备10、网络设备20可以是用于与终端设备通信的设备，该网络设备可以是GSM系统或CDMA中的基站(Base Transceiver Station，BTS)，也可以是WCDMA系统中的基站(NodeB，NB)，还可以是LTE系统中的演进型基站(evolutionalNodeB，eNB或eNodeB)，还可以是云无线接入网络(cloud radio access network，CRAN) 场景下的无线控制器，或者该网络设备可以为中继站、接入点、车载设备、可穿戴设备以及未来5G网络中的网络设备或者未来演进的PLMN网络中的网络设备等，或者还可以为 NR系统中的gNB，或者，还可以是构成基站的组件或一部分设备，如汇聚单元(central unit， CU)、分布式单元(distributed unit，DU)或基带单元(baseband unit，BBU)等。应理解，本申请的实施例中，对网络设备所采用的具体技术和具体设备形态不做限定。在本申请中，网络设备可以是指网络设备本身，也可以是应用于网络设备中完成无线通信处理功能的芯片。

应理解，在本申请实施例中，终端设备或网络设备包括硬件层、运行在硬件层之上的操作系统层，以及运行在操作系统层上的应用层。该硬件层包括中央处理器(centralprocessing unit，CPU)、内存管理单元(memory management unit，MMU)和内存(也称为主存)等硬件。该操作系统可以是任意一种或多种通过进程(process)实现业务处理的计算机操作系统，例如，Linux操作系统、Unix操作系统、Android操作系统、iOS操作系统或windows操作系统等。该应用层包含浏览器、通讯录、文字处理软件、即时通信软件等应用。并且，本申请实施例并未对本申请实施例提供的方法的执行主体的具体结构特别限定，只要能够通过运行记录有本申请实施例的提供的方法的代码的程序，以根据本申请实施例提供的方法进行通信即可，例如，本申请实施例提供的方法的执行主体可以是终端设备或网络设备，或者，是终端设备或网络设备中能够调用程序并执行程序的功能模块。

另外，本申请的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如，计算机可读存储介质可以包括，但不限于：磁存储器件(例如，硬盘、软盘或磁带等)，光盘(例如，压缩盘(compact disc，CD)、数字通用盘(digital versatiledisc，DVD)等)，智能卡和闪存器件(例如，可擦写可编程只读存储器(erasableprogrammable read-only memory，EPROM)、卡、棒或钥匙驱动器等)。

另外，本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读存储介质。术语“机器可读存储介质”可包括但不限于，无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。

应理解，本申请实施例中的方式、情况、类别以及实施例的划分仅是为了描述的方便，不应构成特别的限定，各种方式、类别、情况以及实施例中的特征在不矛盾的情况下可以相结合。

还应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

需要说明的是，本申请实施例中，“预先设定”、“预先定义”、“预先配置”等可以通过在设备(例如，包括终端设备和网络设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现，本申请对于其具体的实现方式不做限定，例如本申请实施例中预配置的信息等。

随着大数据时代的到来，每台设备(包括终端设备和网络设备)每天都会以各种形式产生巨量的原始数据，这些数据将以“孤岛”的形式诞生并存在于世界的各个角落。传统的集中式学习要求各个边缘设备将本地数据统一传输到中心端的服务器上，其后中心端的服务器利用收集到的数据进行模型的训练与学习，然而这一架构随着时代的发展逐渐受到如下因素的限制：

(1)边缘设备广泛地分布于世界上各个地区和角落，这些设备以飞快的速度源源不断地产生和积累巨大量级的原始数据。若中心端需要收集来自全部边缘设备的原始数据，会带来巨大的通信损耗和算力需求。

(2)随着现实生活中实际场景的复杂化，越来越多的学习任务要求边缘设备能够做出及时且有效的决策与反馈。传统的集中式学习由于涉及到大量数据的上传会导致较大程度的时延，致使其无法满足实际任务场景的实时需求。

(3)考虑到行业竞争、用户隐私安全、行政手续复杂等问题，将数据进行集中整合将面临越来越大的阻力制约。因而系统部署将越来越倾向于在本地存储数据，同时由边缘设备自身完成模型的本地计算。

如图2所示，为本申请实施例提供的一种分布式学习的示意图。

参考图2，可以看出，在分布式学习中，中心节点将数据集D(包括数据集D_n、D_k、D_m)分别下发给多个分布式节点(如图2中的分布式节点n、分布式节点k、分布式节点m)，这多个分布式节点各自利用本地的计算资源进行模型训练，并将训练好的模型W(包括模型W_n、W_k、W_m)上传至中心节点。在这种学习架构中，中心节点拥有全部数据集，分布式节点无需收集本地数据集。这种学习架构利用分布式节点的计算能力，帮助进行模型的训练，可以卸载中心节点的计算压力。

在实际场景中，数据往往由分布式节点进行采集，即数据是分布式存在的。此时，将

针对这一问题，提出了联邦学习和分割学习的概念。

1、联邦学习

联邦学习在充分保障用户数据隐私和安全的前提下，促使各个分布式节点和中心节点协同合作以高效地完成模型的学习任务。如图3中的(a)所示，其算法流程大致如下：

(1)中心节点初始化待训练模型

并将其广播发送给所有分布式节点，如图中的分布式节点1，…k，…K。

(2)以第k个分布式节点为例，在第t∈[1,T]轮中，分布式节点k基于局部数据集D_k对接收到的全局模型

进行训练以得到本地训练结果/>

并将其上报给中心节点。

(3)中心节点汇总收集来自全部(或部分)分布式节点的本地训练结果，假设第t轮上传局部模型的客户端集合为S^t，中心节点将以对应分布式节点的样本数为权重进行加权求平均得到新的全局模型，具体更新法则为

k∈[1,K]，其中，D'_k表示数据集D_k中所包括的数据的数量。其后中心节点再将最新版本的全局模型/>

广播发送给所有分布式节点进行新一轮的训练。

(4)重复步骤(2)和(3)直至模型最终收敛或训练轮数达到上限。

对于分布式节点k，除了向中心节点上报本地模型

外，还可以上报训练的本地梯度 />

中心节点对本地梯度求平均，并根据这个平均梯度的方向更新全局模型。

因此，在FL框架中，数据集存在于分布式节点处，即分布式节点收集本地的数据集，并进行本地训练，将训练得到的本地结果(模型或梯度)上报给中心节点。中心节点本身没有数据集，只负责将分布式节点的训练结果进行融合处理，得到全局模型，并下发给分布式节点。然而，由于FL通过联邦平均算法周期性融合整个模型，收敛速度较慢，收敛性能有一定的缺陷；其次，进行FL的设备需要保存及发送整个模型，对于设备计算、存储及通信能力要求较高。

2、分割学习

分割学习一般将模型分为两份，分别部署于分布式节点与中心节点，分布式节点与中心节点之间传输神经网络推理的中间结果。如图3中的(b)所示，其算法流程大致如下：

(1)中心节点将模型拆分成两份，分别为子模型0与子模型1，模型的输入层在子模型0，输出层在子模型1。

(2)中心节点将子模型0下发给分布式节点n。

(3)分布式节点n使用本地数据推理，将子模型0的输出X_n发送到中心节点。

(4)中心节点接收X_n，输入子模型1，得到模型的输出结果X'_n，中心节点根据输出结果X'_n及标签更新子模型1，并将中间层梯度G_n反向传回给分布式节点n。

(5)分布式节点n接收G_n，更新子模型0。

(6)分布式节点n将其更新后的子模型0发送给分布式节点k。

(7)分布式节点k重复上述步骤(3)-(6)，将其中分布式节点n替换成分布式节点k。

(8)分布式节点k将其更新后的子模型0发送给分布式节点m，并重复分布式节点 m的训练。

对比联邦学习，分割学习在分布式节点和中心节点并不保存完整模型，这可以进一步保证用户的隐私性。同时，中心节点与分布式节点之间的交互内容为数据及对应梯度，在模型参数量较大时能显著降低通信开销。然而，分割学习模型的训练过程为串行，即节点 n、k、m顺序更新，这使得数据和算力的利用效率较低。

因此，本申请实施例提供一种模型训练的方法，可以提升模型训练过程中收敛速度以及数据和算力的利用效率，同时，也可以降低设备计算、存储及通信能力的要求。

本申请的方案应可以用于多组设备与目标设备这一场景中，假设多组设备包括K组设备，该K组设备中的每一组设备均包括M个设备，则该K组设备中的每一组设备所包括的M个设备对应获取M个子模型的信息，并根据M个子模型的信息对该M个子模型进行多次组内训练，得到经过多次组内训练更新后的子模型；每一组设备所包括的M个设备将训练更新后的M个子模型发送至目标设备，目标设备在接收到K*M个子模型后，可以对这K组(即K*M个)子模型进行组间融合。

下文以K组设备中第k组设备中的第i个设备和目标设备为例介绍本申请的方案。

如图4所示，为本申请实施例提供的一种模型训练的方法400的示意图，该方法400可以包括但不限于步骤S410～S440。

S410，第k组设备中的第i个设备进行n*M次的模型训练，其中，所述第i个设备在每M次的模型训练中与所述第k组设备中的至少一个其它设备完成模型参数的交换，M 为所述第k组设备中的设备数量，M大于或等于2，n为整数。

本申请实施例中的第k组设备包括M个设备，其中，这M个设备可以均是终端设备，也可以均是网络设备，还可以是部分为终端设备，部分为网络设备，不予限制。

本申请实施例中的第i个设备可以为第k组设备所包括的M个设备中的任一设备，该第i个设备进行n*M次的模型训练，在每M次的模型训练中，该第i个设备与第k组设备中的至少一个其它设备完成模型参数的交换。

示例性地，假设第k组设备包括4个设备，分别为设备0、设备1、设备2、设备3，例如，对于设备0来说，进行n*4次的模型训练，在每4次的模型训练中，设备0可以与其它3个设备(设备1、设备2、设备3)中的至少一个设备完成模型参数的交换。换句话说，在每4次的模型训练中，设备0可以与设备1完成模型参数的交换，或者，设备0 可以与设备1、设备2完成模型参数的交换，或者，设备0可以与设备1、设备2、设备3 完成模型参数的交换；对于其它可能不再赘述。

本申请实施例中的所述第i个设备在每M次的模型训练中与所述第k组设备中的至少一个其它设备完成模型参数的交换可以理解为：假设n＝3，M＝4，则在第1～4次的模型训练中，第i个设备与第k组设备中的至少一个其它设备完成模型参数的交换；在第5～8次的模型训练中，第i个设备与第k组设备中的至少一个其它设备完成模型参数的交换；在第9～12次的模型训练中，第i个设备与第k组设备中的至少一个其它设备完成模型参数的交换。

S420，所述第i个设备向目标设备发送模型M_i,n*M，所述模型M_i,n*M为所述第i个设备完成n*M次的模型训练后的模型。

可选地，在一些实施例中，所述目标设备可以为所述k组设备中的设备，或，所述目标设备可以为所述k组设备之外的设备，不予限制。

如上所述，本申请实施例中的第i个设备可以是第k组设备中的任一设备，第i个设备向目标设备发送模型M_i,n*M，该第i个设备向目标设备发送的是该第i个设备完成n*M 次的模型训练后的模型。

示例性地，仍然假设第k组设备包括4个设备，分别为设备0、设备1、设备2、设备3。以设备0为例，若设备0进行了3*4次的模型训练，则该设备0向目标设备发送的是完成3*4次的模型训练后的模型。关于训练的具体过程可以参考下文的内容。

S430，目标设备接收K组设备中第k组设备中的第i个设备发送的模型

所述模型/>

为所述第k组设备中的第i个设备完成n*M次的模型训练后的模型，所述每一组设备包括的设备数量为M，M大于或等于2，n为整数，i遍历1至M，k遍历1至K，所述目标设备为所述K组设备中的设备，或，所述K组设备之外的设备。

本申请实施例中的k遍历1至K，i遍历1至M，即，目标设备接收K组设备每一组设备中每一个设备发送的完成n*M次的模型训练后的模型。

示例性地，假设本申请实施例中的K为3，M为4，对于第1组设备，该第1组设备所包括的4个设备将其训练n*M次后的4个模型发送至目标设备；对于第2组设备，该第2组设备所包括的4个设备将其训练n*M次后的4个模型发送至目标设备；对于第3 组设备，该第3组设备所包括的4个设备将其训练n*M次后的4个模型发送至目标设备。因此，对于目标设备来说，其接收到了12个模型，这12个模型通过3组设备所包括的 12个设备发送。

本申请实施例中的目标设备可以为终端设备，也可以为网络设备。若K组设备为终端设备，则目标设备可以为该K组终端设备中算力最强的设备，也可以为该K组终端设备中通信时延最小的设备，还可以为该K组终端设备之外的设备，如另一终端设备或网络设备，还可以为该K组终端设备之外的设备所指定的设备，如上述网络设备或另一终端设备指定的设备(所指定的设备可以是这K组设备中的设备，也可以是这K组设备之外的设备)。

若K组设备为网络设备，则目标设备可以为该K组网络设备中算力最强的设备，也可以为该K组网络设备中通信时延最小的设备，还可以为该K组网络设备之外的设备，如另一网络设备或终端设备，还可以为该K组网络设备之外的设备所指定的设备，如上述终端设备或另一网络设备指定的设备(所指定的设备可以是这K组设备中的设备，也可以是这K组设备之外的设备)。

应理解，本申请实施例中的目标设备可以为1个，也可以为多个，不予限制。

示例性地，假设第k组设备包括4个设备，分别为设备0、设备1、设备2、设备3，若设备0和设备1与目标设备2之间的通信时延大于其与目标设备1之间的通信时延，设备2和设备3与目标设备1之间的通信时延大于其与目标设备2之间的通信时延，则设备 0和设备1可以分别将其训练n*M次后的模型发送至目标设备1，设备2和设备3可以分别将其训练n*M次后的模型发送至目标设备2。在后续融合的过程中，目标设备1可以对从设备0和设备1接收到的模型进行融合，目标设备2可以对从设备2和设备3接收到的模型进行融合，融合结束后，目标设备1和目标设备2可以将融合后的模型进行同步，便于下一次的模型训练。

S440，所述目标设备对K组模型进行组间融合，所述K组模型包括K个模型

在上述步骤S430中，目标设备接收K组设备每一组设备中每一个设备发送的完成n*M次的模型训练后的模型，相当于目标设备接收到了K组M个模型，因此，对于相同的子模型，目标设备可以对其进行组间融合。在目标设备对接收到的模型进行组间融合后， K组设备中的每一组设备所包括的设备可以从目标设备再次对应获取融合后的模型。

示例性地，仍然假设K为3，M为4，目标设备接收到第1组设备完成n*4次模型训练后发送的4个子模型，分别为子模型0¹、子模型1¹、子模型2¹、子模型3¹，目标设备接收到第2组设备完成n*4次模型训练后发送的4个子模型，分别为子模型0²、子模型 1²、子模型2²、子模型3²，目标设备接收到第3组设备完成n*4次模型训练后发送的4个子模型，分别为子模型0³、子模型1³、子模型2³、子模型3³。因此，目标设备可以将接收到的子模型0(包括子模型0¹、子模型0²、子模型0³)进行融合，将接收到的子模型1 (包括子模型1¹、子模型1²、子模型1³)进行融合，将接收到的子模型2(包括子模型 2¹、子模型2²、子模型2³)进行融合，将接收到的子模型3(包括子模型3¹、子模型3²、子模型3³)进行融合。在目标设备对接收到的子模型进行融合后，得到4这个子模型(包括融合后的子模型0、融合后的子模型1、融合后的子模型2、融合后的子模型3)，该3 组设备中的每一组设备所包括的4个设备可以再次对应获取融合后的子模型，具体请参考下文中关于再次获取融合后的模型的描述。

需要说明的是，在一些实施例中，若目标设备在指定时间阈值(或预设时间阈值)内未全部接收到K组设备中每一组设备发送的模型，则目标设备可以对接收到的模型进行组间融合。

示例性地，仍然假设K为3，M为4，在指定时间阈值(或预设时间阈值)内，目标设备接收到第1组设备完成n*4次模型训练后发送的4个子模型，分别为子模型0¹、子模型1¹、子模型2¹、子模型3¹，目标设备接收到第2组设备完成n*4次模型训练后发送的4 个子模型，分别为子模型0²、子模型1²、子模型2²、子模型3²，目标设备接收到第3组设备中的部分设备完成n*4次模型训练后发送的子模型，分别为子模型0³、子模型1³。则此时目标设备可以对接收到的子模型进行融合，即，将接收到的子模型0(包括子模型0¹、子模型0²、子模型0³)进行融合，将接收到的子模型1(包括子模型1¹、子模型1²、子模型1³)进行融合，将接收到的子模型2(包括子模型2¹、子模型2²)进行融合，将接收到的子模型3(包括子模型3¹、子模型3²)进行融合。

还需要说明的是，本申请实施例中的K组模型中的每一组模型包括M个模型，如上述示例中示出的：3组模型中每一组模型均包括4个子模型。对于任一组模型，其所包括的4个子模型共同构成一个全局模型。换句话说，第k组设备中每一个设备接收或发送的是全局模型的部分模型，并对该部分模型进行处理。

本申请实施例提供的方案，第k组设备中的第i个设备进行n*M次的模型训练后，将完成n*M次的模型训练后的模型发送至目标设备，对于目标设备来说，目标设备接收到K 组(即K*M个)模型，目标设备可以对这K组模型进行融合。由于本申请的方案是将组内训练后的模型进行融合，可以提升模型训练过程中的收敛速度，且本申请的方案是K组设备同步对模型进行训练，可以提升模型训练过程中数据和算力的利用效率；此外，本申请中的设备均是基于模型的部分进行处理或收发的，从而可以降低设备计算、存储及通信能力的要求。

为了便于理解本申请的方案，下文先对应用于本申请的监督学习进行简单介绍。

监督学习的目标是给定一个训练集(包含多对输入和输出)，学习训练集中输入(数据)和输出(标签)的映射关系，同时，希望其映射关系还能应用于训练集之外的数据。训练集为正确的输入输出对的集合。

以全连接神经网络为例，如图5所示，为本申请实施例提供的一种全连接神经网络的示意图。全连接神经网络又叫多层感知机(multilayer perceptron，MLP)，一个MLP包含一个输入层(左侧)，一个输出层(右侧)，及多个隐藏层(中间)，每层包含数个节点，称为神经元。其中，相邻两层的神经元间两两相连。

考虑相邻两层的神经元，下一层的神经元的输出h为所有与之相连的上一层神经元x 的加权和并经过激活函数。用矩阵可以表示为：

h＝f(wx+b)

其中，w为权重矩阵，b为偏置向量，f为激活函数。

则神经网络的输出可以递归表达为：

y＝f_n(w_nf_n-1(…)+b_n)

简单的说，可以将神经网络理解为一个从输入数据集合到输出数据集合的映射关系。而通常神经网络都是随机初始化的，用已有数据从随机的w和b得到这个映射关系的过程被称为神经网络的训练。

训练的具体方式可以采用损失函数(loss function)对神经网络的输出结果进行评价，并将误差反向传播，通过梯度下降的方法迭代优化w和b直到损失函数达到最小值，如图 6所示，为本申请实施例提供的一种损失函数优化的示意图。

梯度下降的过程可以表示为：

其中，θ为待优化参数(如上文中的w、b)，L为损失函数，η为学习率，控制梯度下降的步长。

反向传播的过程可以利用求偏导的链式法则，即前一层参数的梯度可以由后一层参数的梯度递推计算得到，如图7所示，公式可以表示为：

/>

上文步骤S410中指出，第k组设备中的第i个设备进行n*M次的模型训练，具体训练方式请参见下文。

可选地，在一些实施例中，所述第k组设备中的第i个设备进行n*M次的模型训练，包括：

所述第i个设备根据接收到的结果确定第一梯度和第二梯度，所述第一梯度用于更新模型M_i,j-1，所述第二梯度用于更新模型M_i-1,j-1，所述模型M_i,j-1为所述第i个设备完成第(j-1)次模型训练后的模型，所述模型M_i-1,j-1为所述第(i-1)个设备完成第(j-1)次模型训练后的模型；

所述第i个设备根据所述第一梯度训练模型M_i,j-1。

如图8所示，为本申请实施例提供的一种多组设备所包括的设备的示意图。可以看出，该多组设备包括3组设备，其中每一组设备均包括4个设备。具体地，第1组设备包括4个设备，分别为设备0、设备1、设备2、设备3；第2组设备包括4个设备，分别为设备 4、设备5、设备6、设备7；第3组设备包括4个设备，分别为设备8、设备9、设备10、设备11。

以第1组设备所包括的4个设备为例，假设j＝1，在这4个设备获取到4个子模型(包括子模型0、子模型1、子模型2、子模型3)的信息后，可以对这4个子模型进行训练。具体地，设备0基于本地数据x₀根据训练函数f₀对子模型0(即本申请中的模型M_1,0，其中，模型M_1,0表示第1个设备完成第0次模型训练后的模型，即第1个设备获取到的初始化模型)进行训练，得到输出结果y₀，即y₀＝f₀(x₀)，设备0将其输出结果y₀发送至设备 1；设备1基于接收的输出结果y₀根据训练函数f₁对子模型1(即本申请中的模型M_2,0，其中，模型M_2,0表示第2个设备完成第0次模型训练后的模型，即第2个设备获取到的初始化模型)进行训练，得到输出结果y₁，即y₁＝f₁(y₀)，设备1将其输出结果y₁发送至设备2；设备2基于接收的输出结果y₁根据训练函数f₂对子模型2(即本申请中的模型M_3,0，其中，模型M_3,0表示第3个设备完成第0次模型训练后的模型，即第3个设备获取到的初始化模型)进行训练，得到输出结果y₂，即y₂＝f₂(y₁)，设备2将其输出结果y₂发送至设备3；设备3基于接收的输出结果y₂根据训练函数f₃对子模型3(即本申请中的模型M_4,0，其中，模型M_4,0表示第4个设备完成第0次模型训练后的模型，即第4个设备获取到的初始化模型)进行训练，得到输出结果y₃，即y₃＝f₃(y₂)。设备3根据输出结果y₃和从设备0接收的y₃₀进行评价，得到梯度G₃₁、G₃₂，并根据梯度G₃₁将子模型3更新为子模型3’，此外，设备3将梯度G₃₂发送至设备2；设备2根据接收到的梯度G₃₂得到设备2的梯度 G₂₁、G₂₂，并根据梯度G₂₁将子模型2更新为子模型2’，此外将梯度G₂₂发送至设备1；设备 1根据接收到的梯度G₂₂得到设备1的梯度G₁₁、G₁₂，并根据梯度G₁₁将子模型1更新为子模型1’，此外，设备1可以将梯度G₁₂发送至设备0，设备0根据接收到的梯度G₁₂得到设备0 的梯度G₀₁，并根据梯度G₀₁将子模型0更新为子模型0’。基于此，这4个设备将这4个子模型均更新，更新后的子模型分别为子模型0’、子模型1’、子模型2’、子模型3’。

对于其它组设备所包括的4个设备进行模型训练的方式，与上述第1组设备包括的4 个设备进行模型训练的方式类似，不再赘述。

可选地，在一些实施例中，当i＝M时，所述第一梯度基于接收的推理结果和从所述第 1个设备接收的标签确定；

本申请实施例中，当i＝M时，第一梯度基于接收的推理结果和从第1个设备接收的标签确定，如上文中所述的设备3根据从设备2接收的输出结果y₃和从设备0接收的y₃₀进行评价后确定的梯度G₃₁；当i≠M时，第一梯度基于第(i+1)个设备传输的第二梯度确定，如上文中所述的设备2根据从设备3传输的梯度G₃₂确定的梯度G₂₁，上文中所述的设备1 根据从设备2传输的梯度G₂₂确定的梯度G₁₁，以及上文中所述的设备0根据从设备1传输的梯度G₁₂确定的梯度G₀₁。

此外，上述步骤S410中还指出，所述第i个设备在每M次的模型训练中与所述第k组设备中的至少一个其它设备完成模型参数的交换，具体交换的方式如下：

参考图9，仍然以第1组设备所包括的4个设备为例，假设j＝1，在这4个设备获取到4个子模型(包括子模型0、子模型1、子模型2、子模型3)的信息后，可以对这4个子模型进行训练。具体地训练方式如上文所述，则更新后的子模型分别为子模型0’、子模型1’、子模型2’、子模型3’。

j＝2时，可以交换设备0与设备1的模型参数，则设备1获得子模型0’的模型参数，设备0获得子模型1’的模型参数。此时，设备1可以基于本地数据x₁根据训练函数f′₀对子模型0’(即本申请中的模型M_1,1，其中，模型M_1,1表示第1个设备完成第1次模型训练后的模型)进行训练，得到输出结果y′₀，即y′₀＝f′₀(x₁)，设备1将其输出结果y′₀发送至设备0；设备0可以基于接收的输出结果y′₀根据训练函数f′₁对子模型1’(即本申请中的模型 M_2,1，其中，模型M_2,1表示第2个设备完成第1次模型训练后的模型)进行训练，得到输出结果y′₁，即y′₁＝f′₁(y′₀)，设备1将其输出结果y′₁发送至设备2；设备2基于接收的输出结果y′₁根据训练函数f′₂对子模型2’(即本申请中的模型M_3,1，其中，模型M_3,1表示第3个设备完成第1次模型训练后的模型)进行训练，得到输出结果y′₂，即y′₂＝f′₂(y′₁)，设备2 将其输出结果y′₂发送至设备3；设备3基于接收的输出结果y′₂根据训练函数f′₃对子模型3’ (即本申请中的模型M_4,1，其中，模型M_4,1表示第4个设备完成第1次模型训练后的模型) 进行训练，得到输出结果y′₃，即y′₃＝f′₃(y′₂)。设备3根据输出结果y′₃和从设备0接收的y₃₀进行评价，得到梯度G′₃₁、G′₃₂，并根据梯度G′₃₁将子模型3’更新为子模型3”，此外，设备3 将梯度G′₃₂发送至设备2；设备2根据接收到的梯度G′₃₂得到设备2的梯度G′₂₁、G′₂₂，并根据梯度G′₂₁将子模型2’更新为子模型2”，此外，将梯度G′₂₂发送至设备1；设备1根据接收到的梯度G′₂₂得到设备1的梯度G′₁₁、G′₁₂，并根据梯度G′₁₁将子模型1’更新为子模型1”，此外，设备1可以将梯度G′₁₂发送至设备0；设备0根据接收到的梯度G′₁₂得到设备0的梯度G′₀₁，并根据梯度G′₀₁将子模型0’更新为子模型0”。基于此，这4个设备将这4个子模型均更新，更新后的子模型分别为子模型0”、子模型1”、子模型2”、子模型3”。

j＝3时，可以交换设备2与设备1的模型信息，此时，设备2基于本地数据x₂根据训练函数f″₀对子模型0”进行训练，后续过程与上述类似，不再赘述。经过此次更新，更新后的子模型分别为子模型0”’、子模型1”’、子模型2”’、子模型3”’。

j＝4时，可以交换设备3与设备2的模型信息，此时，设备3基于本地数据x₃根据训练函数f″′₀对子模型0”’进行训练，后续过程与上述类似，不再赘述。经过此次更新，更新后的子模型分别为子模型0””、子模型1””、子模型2””、子模型3””。

需要说明的是，对设备之间交换模型参数的顺序包括但不限于上述实施例所示出的，还可以包括其它顺序，如图10所示，为本申请实施例提供的另一种基于轮换顺序后的设备对模型进行训练的示意图。

参考图10，在利用设备0、设备1、设备2、设备3对子模型0、子模型1、子模型2、子模型3训练更新一次后，得到子模型0’、子模型1’、子模型2’、子模型3’。在进行第2 次训练前，可以先将设备3和设备0的模型参数交换，则设备3获得子模型0’的模型参数，设备0获得子模型3’的模型参数，基于交换后的模型参数对子模型0’、子模型1’、子模型2’、子模型3’进行更新，得到第2次训练完成后的更新后的子模型。在进行第3次训练前，可以将设备2和设备3的模型参数交换，并基于交换后的模型参数对第2次训练后得到的更新后的子模型进行更新，得到第3次训练完成后的更新后的子模型。在进行第4次训练前，可以将设备1和设备2的模型参数交换，并基于交换后的模型参数对第3次训练后得到的更新后的子模型进行更新，最终得到第4次训练完成后的更新后的子模型。

结合图9和图10，可以看出，设备之间的模型参数交换的原则是：在每M次模型训练的过程中，所有设备均可以基于本地数据依次对子模型0或更新后的子模型0进行训练更新。

例如，参考上述图9，在第1次模型训练中，设备0基于本地数据x₀对子模型0进行训练更新，得到子模型0’；在第2次模型训练中，设备1基于本地数据x₁对子模型0’进行训练更新，得到子模型0”；在第3次模型训练中，设备2基于本地数据x₂对子模型0” 进行训练更新，得到子模型0”’；在第4次模型训练中，设备3基于本地数据x₃对子模型 0”’进行训练更新，得到子模型0””。

再例如，参考上述图10，在第1次模型训练中，设备0基于本地数据x₀对子模型0 进行训练更新，得到子模型0’；在第2次模型训练中，设备3基于本地数据x₃对子模型0’ 进行训练更新，得到子模型0”；在第3次模型训练中，设备2基于本地数据x₂对子模型 0”进行训练更新，得到子模型0”’；在第4次模型训练中，设备0基于本地数据x₀对子模型0”’进行训练更新，得到子模型0””。

因此，本申请实施例对设备之间交换模型参数的顺序不作具体限定，只要在每M次模型训练的过程中，所有设备可以基于本地数据依次对子模型0或更新后的子模型0进行训练更新均可应用本申请。

本申请实施例提供的方案，在每M次的模型训练中，第i个设备与第k组设备中的至少一个其它设备完成模型参数的交换，且在每M次模型训练的过程中，第k组设备中的所有设备可以基于本地数据依次对第1个子模型或更新后的第1个子模型进行训练更新，可以提高设备的本地数据利用率和隐私性。

上述步骤S440中指出，目标设备对K组模型进行融合，具体融合方式请参见下文。

可选地，在一些实施例中，所述目标设备对K组模型进行融合，包括：

如上所述，目标设备接收到第1组设备发送的4个更新后的子模型，分别为子模型0¹、子模型1¹、子模型2¹、子模型3¹，目标设备接收到第2组设备发送的4个更新后的子模型，分别为子模型0²、子模型1²、子模型2²、子模型3²，目标设备接收到第3组设备发送的4个更新后的子模型，分别为子模型0³、子模型1³、子模型2³、子模型3³。因此，目标设备可以将接收到的子模型0(包括子模型0¹、子模型0²、子模型0³)进行融合，将接收到的子模型1(包括子模型1¹、子模型1²、子模型1³)进行融合，将接收到的子模型 2(包括子模型2¹、子模型2²、子模型2³)进行融合，将接收到的子模型3(包括子模型 3¹、子模型3²、子模型3³)进行融合。

在上文对图9的描述中，第1组设备包括4个设备，且这4个设备进行了3次设备之间的模型参数的交换，并且这4个设备对子模型进行了4次训练更新。若这4个设备在对子模型进行了4次训练更新后，将第4次训练更新后的子模型发送至目标设备，如上述示例中的将第4次训练更新后的子模型0””、子模型1””、子模型2””、子模型3””发送至目标设备，则本申请中的子模型0””、子模型1””、子模型2””、子模型3””即为子模型0¹、子模型1¹、子模型2¹、子模型3¹。

若第1组设备进行了n*4次训练更新，示例性地，如n＝2，相当于这4个设备对子模型进行了8次训练更新，则这4个设备向目标设备发送的是完成了8次训练更新后的子模型，如可能是子模型0””””、子模型1””””、子模型2””””、子模型3””””，则本申请中的子模型0””””、子模型1””””、子模型2””””、子模型3””””即为子模型0¹、子模型1¹、子模型2¹、子模型3¹。

如果n＝2，则这4个设备对子模型进行了4次训练更新得到子模型0””、子模型1””、子模型2””、子模型3””，第5次训练更新时，这4个设备分别对应获取子模型0””、子模型1””、子模型2””、子模型3””的模型信息，并对子模型0””、子模型1””、子模型2””、子模型3””进行训练更新，之后，设备之间再交换模型参数，并根据交换后的模型参数对更新后的子模型进行训练更新，直到对子模型完成8次训练更新，其中，第 5～8次的模型训练可以参考第1～4次的模型训练过程，此处不再赘述。

本申请实施例提供的方案，将K组模型中每一组模型的第q个模型进行组间融合得到全局模型，由于本申请的方案是将组内训练后的模型进行融合，可以进一步提升模型训练过程中的收敛速度。

可选地，在一些实施例中，所述方法400还可以包括：

本申请实施例中，设备之间在交换模型参数的同时，也可以将其本地存储的样本数量进行交换。仍然参考上述图9，在利用设备0、设备1、设备2、设备3对子模型0、子模型1、子模型2、子模型3进行第1次训练后，对于第2次训练，设备1与设备0互相交换模型参数的同时，可以交换本地存储的样本数量，即设备0接收设备1本地存储的样本数量，设备1接收设备0本地存储的样本数量；对于第3次训练，设备2与设备1互相交换模型参数的同时，可以交换本地存储的样本数量，即设备1接收设备2本地存储的样本数量，设备2接收设备1本地存储的样本数量；对于第4次训练，设备3与设备2互相交换模型参数的同时，可以交换本地存储的样本数量，即设备3接收设备2本地存储的样本数量，设备2接收设备3本地存储的样本数量。

对于子模型的融合，可以参考联邦学习算法进行融合，以子模型0为例，目标设备分别接收到第1组设备、第2组设备、第3组设备发送的更新后的子模型0，如上文中的子模型0¹、子模型0²、子模型0³，此时目标设备分别以对应设备的样本数为权重进行加权求平均，根据

q＝1,2,3,4，其中，S＝{子模型0、子模型1、子模型2，子模型3}，q表示第q个子模型，D'_q表示第q个子模型所对应设备的样本数，W_q表示第 q个子模型的权重。

类似地，对于子模型1、子模型2、子模型3也可以参考上述方法进行融合，在此不再赘述。

本申请实施例提供的方案，第i个设备与第k组设备中的至少一个其它设备完成模型参数的交换的同时，也可以交换本地存储的样本数量，第i个设备可以向目标设备发送样本数量(包括本地存储的样本数量和交换得到的样本数量)，目标设备在接收到样本数量后，可以根据样本数量，基于融合算法将所述K组模型中每一组模型的第q个模型进行组间融合，可以有效提升模型的泛化能力。

可选地，在一些实施例中，所述方法400还包括：

对于所述n*M次的模型训练的下一次训练，所述第i个设备从所述目标设备获取模型 M_<r>的信息，所述模型M_<r>为所述目标设备对模型

进行组间融合后的第r个模型， r∈[1,M]，所述模型/>

本申请实施例中，以上述图9为例，对于第1组设备，在这4个设备获取到4个子模型的信息后，可以对这4个子模型进行训练更新，且更新后的子模型为子模型0’、子模型1’、子模型2’、子模型3’。交换设备0与设备1的模型参数后再次对子模型0’、子模型1’、子模型2’、子模型3’进行训练更新，且更新后的子模型为子模型0”、子模型1”、子模型 2”、子模型3”。交换设备0与设备2的模型参数再次对子模型0”、子模型1”、子模型2”、子模型3”进行训练更新，且更新后的子模型为子模型0”’、子模型1”’、子模型2”’、子模型3”’。交换设备0与设备3的模型参数后对子模型0”’、子模型1”’、子模型2”’、子模型3”’进行训练更新，且更新后的子模型为子模型0””、子模型1””、子模型2””、子模型3””。将这4次训练完成后称为1轮训练。

假设M＝3，在每一组设备包括的4个设备对4个子模型进行n轮组内训练完成后，每一组设备包括的4个设备将4个更新后的子模型(即3组子模型，每一组包括4个子模型) 发送至目标设备，目标设备可以对接收到的子模型进行组间融合，如将这3组模型中每一组模型的第q个模型进行组间融合，融合后获得4个子模型，可以记为模型 M_<1>、M_<2>、M_<3>、M_<4>。因此，在进行下一次训练的时候，每一组设备包括的4个设备可以从该目标设备获取相应地融合后的子模型的信息。

本申请实施例提供的方案，对于n*M次的模型训练的下一次训练，第i个设备从目标设备获取模型M_<r>的信息，可以保证模型的信息的准确性，从而可以提高模型训练的准确度。

为了说明本申请方案的优势，将本申请采用的模型训练的方法、分割学习以及联邦学习进行了对比，如表1和图11所示。其中，采用残差(resnet)20神经网络结构，共有1000个可用设备，每一组设备包括的设备数量M＝3，组设备的数量K＝5，融合轮数周期 n＝10。对比算法分别为3分割学习(其中，3表示分割学习中包括的分布式节点的数量)， 5设备联邦学习(其中，5表示联邦学习中包括的分布式节点的数量)，15设备联邦学习 (其中，15表示联邦学习中包括的分布式节点的数量)。从表1中可以看出，本申请方案达到了最佳的性能与训练速度，并且能保持较低的设备平均通信量。

表1

方案	设备平均通信量
		本申请方案	4233975.6
分割学习(3)	4207621.5
		联邦学习(5)	6295541.6
联邦学习(15)	6301323.9

图11为本申请实施例提供的一种准确度对比的示意图。从图11中可以看出，本申请提供的方案与其它方案相比，随着训练轮次的增加，其准确度也相应提升。

上文步骤S430中描述了目标设备接收K组设备中第k组设备中的第i个设备发送的模型

且i遍历1至M，k遍历1至K，对于这K组设备的选择可以根据以下方式进行选择。

可选地，在一些实施例中，所述方法400还可以包括：

对于第k组设备包括的第i个设备：

所述第i个设备接收目标设备发送的选择结果；

所述第i个设备从所述目标设备获取模型M_<r>的信息，包括：

所述第i个设备根据所述选择结果从所述目标设备获取所述模型M_<r>的信息。

如图12所示，为本申请实施例提供的一种N个设备与目标设备交互的方法示意图。参考图12，可以看出，在步骤S1110中，N个设备可以先向目标设备上报其状态信息，目标设备接收到N个设备上报的状态信息后，步骤S1120中目标设备根据状态信息从这N 个设备中选择K组设备，步骤S1130中目标设备将选择结果广播至该K组设备。K组设备在接收到选择结果后，可以根据选择结果对应获取模型的信息。

可选地，在一些实施例中，所述选择结果包括以下至少一个：

所选择的设备、分组情况、模型的信息。

可选地，在一些实施例中，所述模型的信息包括：

可选地，在一些实施例中，所述状态信息包括以下信息中的至少一个：

设备算力、存储能力、资源占用、邻接矩阵、超参数。

本申请实施例中的选择结果可以包括上述信息中的至少一个，具体地，假设共有20 个设备(编号依次为设备0、设备1、设备2……、设备18、设备19)向目标设备上报了状态信息，目标设备需要从中选择12个设备，可以根据这20个设备的状态信息(如设备算力、存储能力、资源占用、邻接矩阵、超参数等)从中选择。若目标设备从中选择了编号依次为设备0、设备1、设备2……、设备11这12个设备，则可以将这12个设备进行分组，如设备0、设备1、设备2、设备3为第1组设备，设备4、设备5、设备6、设备 7为第2组设备，设备8、设备9、设备10、设备11为第3组设备，并将分组情况广播至这12个设备。

本申请实施例中的状态信息可以包括如设备算力、存储能力、资源占用、邻接矩阵、超参数等。其中，设备算力表示设备的计算能力，存储能力表示设备存储数据或信息的能力，资源占用表示设备当前所占用的资源，邻接矩阵表示设备之间的关联程度，如信道好坏、数据相关性高低等，超参数包括学习率，批样本数，融合轮数周期n及总的融合轮数等。

这12个设备在接收到分组情况后，可以根据分组情况对应获取模型的信息，如第1组设备包括的设备0、设备1、设备2、设备3可以分别对应获取子模型 M_1,0、M_2,0、M_3,0、M_4,0(即初始化模型)的信息，第2组设备包括的设备4、设备5、设备6、设备7可以分别对应获取子模型M_1,0、M_2,0、M_3,0、M_4,0的信息，第3组设备包括的设备8、设备9、设备10、设备11可以分别对应获取子模型M_1,0、M_2,0、M_3,0、M_4,0的信息。

本申请实施例中的模型信息可以包括模型结构和/或模型参数，模型结构包括模型的隐藏层的层数，模型参数可以包括初始化参数，随机数种子，训练所需其他超参数(如学习率，批样本数，融合轮数周期n及总的融合轮数等)。

示例性地，假设本申请实施例中的融合轮数周期n为2，M＝4，则3组设备在对获取的模型(如上述子模型M_1,0、M_2,0、M_3,0、M_4,0)进行2轮模型训练后，可以将训练后的模型发送至目标设备，即第k组设备中的第i个设备向目标设备发送模型M_i,3*4，且i遍历1 至4，k遍历1至3。此时，目标设备接收到3组模型，且每一组模型均包括4个模型，目标设备可以对接收到的这3组模型进行融合，融合后的模型包括4个模型，可以记为模型M_<1>、M_<2>、M_<3>、M_<4>。

在目标设备对接收到的模型进行融合后，K组设备中的每一组设备可以再次从目标设备对应获取融合后的模型的信息，并基于获取到的模型信息对融合后的模型(即模型M_<1>、M_<2>、M_<3>、M_<4>)再次进行n*M轮的训练更新，并将训练更新后的模型发送至目标设备，目标设备对接收到的模型再次进行融合，反复循环，直到目标设备完成总的融合轮数。如总的融合轮数为10，则目标设备在融合10次后得到最终的模型。

当然，可选地，在一些实施例中，在目标设备每一次完成组间融合或者多次完成组间融合后，可以重新选择K组设备，重新选择的K组设备可能和上一次所选择的K组设备相同，也可能不同。如上一次所选择的K组设备包括设备编号依次为设备0、设备1、设备2……、设备11这12个设备，重新选择的K组设备可能为编号依次为设备2、设备3、设备4……、设备13这12个设备，或者，重新选择的K组设备可能为编号为设备2、设备3、设备4、设备5、设备8、设备9、设备10、设备11、设备16、设备17、设备18、设备19这12个设备。

参考图12，在步骤S1120中目标设备根据N个设备上报的状态信息确定选择结果，在步骤S1150中目标设备再次根据N个设备上报的状态信息确定选择结果，即就是目标设备在每完成一次或多次组间融合后，可以重新从N个设备中选择K组设备。

当然，在一些实施例中，目标设备在每完成一次或多次组间融合后，接收的状态信息可能不是之前的N个设备上报的信息，可能是其它N个设备上报的状态信息，也可能是其它X(X≠N且X≥K*M)个设备上报的状态信息，不予限制。

基于此，上文以K组设备中第k组设备中的第i个设备和目标设备为例介绍了本申请的方案，下文以K组设备中的第k组设备和目标设备为例介绍本申请的方案。

如图13所示，为本申请另一实施例提供的一种模型训练的方法1200的示意图，该方法1200可以包括但不限于步骤S1210～S1260。

S1210，第k组设备中的M个设备根据M个模型M_j-1的信息对所述M个模型M_j-1进行更新，得到M个模型M_j，j为大于或等于1的整数。

示例性地，假设第k组设备包括4个设备，分别为设备0、设备1、设备2、设备3，对于这4个设备来说，可以根据4个模型(如子模型0、子模型1、子模型2、子模型3) 的信息对这4个模型进行更新，得到子模型0’、子模型1’、子模型2’、子模型3’。

需要说明的是，本申请实施例中，当j＝1时，模型M_j-1表示第k组设备中的M个设备完成第0次模型训练后的模型，即初始化模型；模型M_j表示第k组设备中的M个设备完成第1次模型训练后的模型。当j＝2时，模型M_j-1表示第k组设备中的M个设备完成第1次模型训练后的模型；模型M_j表示第k组设备中的M个设备完成第2次模型训练后的模型。

S1220，轮换所述M个设备的模型参数。

S1230，基于轮换后的M个设备对所述M个模型M_j进行更新，得到M个模型M_j+1。

假设j＝1，上述4个设备可以获取4个子模型(包括子模型0、子模型1、子模型2、子模型3)的信息，并对对这4个子模型进行训练。具体地训练方式如上文所述，则更新后的4个子模型M₁分别为子模型0’、子模型1’、子模型2’、子模型3’。

j＝2时，在第2次模型训练前，可以交换设备0与设备1的模型参数，则设备1获得子模型0’的模型参数，设备0获得子模型1’的模型参数。此时，设备1可以基于本地数据 x₁根据训练函数f′₀对子模型0’进行训练，得到输出结果y′₀，即y′₀＝f′₀(x₁)，设备1将其输出结果y′₀发送至设备0；设备0可以基于接收的输出结果y′₀根据训练函数f′₁对子模型1’ 进行训练，得到输出结果y′₁，即y′₁＝f′₁(y′₀)，设备1将其输出结果y′₁发送至设备2；设备 2基于接收的输出结果y′₁根据训练函数f′₂对子模型2’进行训练，得到输出结果y′₂，即 y′₂＝f′₂(y′₁)，设备2将其输出结果y′₂发送至设备3；设备3基于接收的输出结果y′₂根据训练函数f′₃对子模型3’进行训练，得到输出结果y′₃，即y′₃＝f′₃(y′₂)。设备3根据输出结果y′₃和从设备0接收的y₃₀进行评价，得到梯度G′₃₁、G′₃₂，并根据梯度G′₃₁将子模型3’更新为子模型3”，此外，设备3将梯度G′₃₂发送至设备2；设备2根据接收到的梯度G′₃₂得到设备2的梯度G′₂₁、G′₂₂，并根据梯度G′₂₁将子模型2’更新为子模型2”，此外，将梯度G′₂₂发送至设备 1；设备1根据接收到的梯度G′₂₂得到设备1的梯度G′₁₁、G′₁₂，并根据梯度G′₁₁将子模型1’更新为子模型1”，此外，将梯度G′₁₂发送至设备0；设备0根据接收到的梯度G′₁₂得到设备0 的梯度G′₀₁，并根据梯度G′₀₁将子模型0’更新为子模型0”。基于此，这4个设备将这4个子模型均更新，更新后的4个子模型M₂分别为子模型0”、子模型1”、子模型2”、子模型 3”。

j＝3时，可以交换设备2与设备1的模型信息，此时，设备2基于本地数据x₂根据训练函数f″₀对子模型0”进行训练，后续过程与上述类似，不再赘述。经过此次更新，更新后的4个子模型M₃分别为子模型0”’、子模型1”’、子模型2”’、子模型3”’。

j＝4时，可以交换设备3与设备2的模型信息，此时，设备3基于本地数据x₃根据训练函数f″′₀对子模型0”’进行训练，后续过程与上述类似，不再赘述。经过此次更新，更新后的4个子模型M₄分别为子模型0””、子模型1””、子模型2””、子模型3””。

S1240，当j+1＝n*M，n为正整数时，所述M个设备向目标设备发送所述M个模型M_n*M。

可选地，在一些实施例中，所述目标设备可以为所述k组设备中的设备，或，可以为所述k组设备之外的设备，不予限制。

假设本申请中的n＝1，则M个设备向目标设备发送子模型0””、子模型1””、子模型2””、子模型3””。

S1250，目标设备接收K组设备中第k组设备中的M个设备发送的M个模型

所述模型/>

为所述第k组设备中的M个设备完成第n*M次的模型训练后的模型，M 大于或等于2，k遍历1至K。

本申请实施例中的k遍历1至K，即，目标设备接收K组设备每一组设备中M个设备发送的完成n*M次的模型训练后的模型。

示例性地，假设本申请实施例中的K为3，M为4，对于第1组设备，该第1组设备所包括的4个设备将其训练n*4次后的4个模型发送至目标设备；对于第2组设备，该第 2组设备所包括的4个设备将其训练n*4次后的4个模型发送至目标设备；对于第3组设备，该第3组设备所包括的4个设备将其训练n*4次后的4个模型发送至目标设备。因此，对于目标设备来说，其接收到了12个模型，这12个模型通过3组设备所包括的12个设备发送。

S1260，所述目标设备对K组模型进行组间融合，所述K组模型包括M个模型

在上述步骤S1250中，目标设备接收K组设备每一组设备中的M个设备发送的完成n*M次的模型训练后的模型，相当于目标设备接收到了K组M个模型，因此，对于相同的子模型，目标设备可以对其进行组间融合。

示例性地，仍然假设K为3，M为4，目标设备接收到第1组设备完成n*4次模型训练后发送的4个子模型，分别为子模型0¹、子模型1¹、子模型2¹、子模型3¹，目标设备接收到第2组设备完成n*4次模型训练后发送的4个子模型，分别为子模型0²、子模型 1²、子模型2²、子模型3²，目标设备接收到第3组设备完成n*4次模型训练后发送的4个子模型，分别为子模型0³、子模型1³、子模型2³、子模型3³。因此，目标设备可以将接收到的子模型0(包括子模型0¹、子模型0²、子模型0³)进行融合，将接收到的子模型1 (包括子模型1¹、子模型1²、子模型1³)进行融合，将接收到的子模型2(包括子模型 2¹、子模型2²、子模型2³)进行融合，将接收到的子模型3(包括子模型3¹、子模型3²、子模型3³)进行融合。

需要说明的是，在一些实施例中，若目标设备在指定时间阈值内未全部接收到K组设备中每一组设备发送的模型，则目标设备可以对接收到的模型进行组间融合。

可选地，在一些实施例中，所述第k组设备中的M个设备根据所述M个模型M_j-1的信息对所述M个模型M_j-1进行更新，包括：

所述第i个设备根据所述第一梯度更新所述模型M_i,j-1。

可选地，在一些实施例中，当i＝M时，所述第一梯度基于获取的结果和从所述第1个设备接收的标签确定；

对于某一次组内的模型训练的过程，请参考上述方法400中的相关内容，这里不再赘述。

可选地，在一些实施例中，所述轮换所述M个设备的模型参数，包括：

本申请实施例中，对于第j次模型训练，可以依次将所述M个设备中的第i个设备的模型参数与第1个设备的模型参数交换。

参考上述图9，在利用设备0、设备1、设备2、设备3对子模型0、子模型1、子模型2、子模型3训练更新一次后，得到子模型0’、子模型1’、子模型2’、子模型3’。在进行第2次训练前，可以先将设备1和设备0的模型参数交换，则设备1获得子模型0’的模型参数，设备0获得子模型1’的模型参数，基于交换后的模型参数对子模型0’、子模型1’、子模型2’、子模型3’进行更新，得到第2次训练完成后的更新后的子模型。在进行第3 次训练前，可以将设备2和设备1的模型参数交换，并基于交换后的模型参数对第2次训练后得到的更新后的子模型进行更新，得到第3次训练完成后的更新后的子模型。在进行第4次训练前，可以将设备3和设备2的模型参数交换，并基于交换后的模型参数对第3 次训练后得到的更新后的子模型进行更新，最终得到第4次训练完成后的更新后的子模型。

可选地，在一些实施例中，所述方法1200还包括：

关于目标设备对K组模型进行融合的具体内容请参考上述方法400中的相关内容，不再赘述。

可选地，在一些实施例中，所述方法1200还包括：

进行组间融合后的第r个模型，r遍历1至M，所述模型/>

可选地，在一些实施例中，所述方法1200还包括：

对于第k组设备的M个设备：

所述M个设备接收所述目标设备发送的选择结果；

所述M个设备从所述目标设备获取模型M_<r>的信息，包括：

所述M个设备根据所述选择结果从所述目标设备对应获取所述M_<r>的信息。

所选择的设备、分组情况、模型的信息。

可选地，在一些实施例中，所述模型的信息包括：

设备算力、存储能力、资源占用、邻接矩阵、超参数。

关于目标设备选择K组设备的具体内容请参考上述方法400中的相关内容，不再赘述。

需要说明的是，上述各实施例中所示出的数值仅为举例说明，还可以为其它数值，不应对本申请造成特别限定。

图14和图15为本申请的实施例提供的可能的通信装置的结构示意图。这些通信装置可以实现上述方法实施例中终端设备或网络设备的功能，因此也能实现上述方法实施例所具备的有益效果。在本申请实施例中，该通信装置可以是如图1所示的终端设备30或40，也可以是如图1所示的网络设备10或网络设备20，还可以是应用于终端设备或网络设备的模块(如芯片)。

图14是本申请实施例提供的一种通信装置1000的示意性结构图，该装置1000可以包括处理模块1010和收发模块1020。

当通信装置1000用于实现图4所述方法实施例中第i个设备的功能时，所述处理模块1010，用于进行n*M次的模型训练，其中，所述第i个设备在每M次的模型训练中与所述第k组设备中的至少一个其它设备完成模型参数的交换，M为所述第k组设备中的设备数量，M大于或等于2，n为整数；所述收发模块1020，用于向目标设备发送模型M_i,n*M，所述模型M_i,n*M为所述第i个设备完成n*M次的模型训练后的模型。

可选地，在一些实施例中，所述目标设备为所述第k组设备中算力最强的设备，或，

所述目标设备为所述第k组设备中通信时延最小的设备，或，

所述目标设备为所述第k组设备之外的设备所指定的设备。

可选地，在一些实施例中，所述处理模块1010，具体用于：

对于所述n*M次的模型训练中的第j次模型训练，从第(i-1)个设备接收其推理后的结果；

根据接收到的结果确定第一梯度和第二梯度，所述第一梯度用于更新模型M_i,j-1，所述第二梯度用于更新模型M_i-1,j-1，所述模型M_i,j-1为所述第i个设备完成第(j-1)次模型训练后的模型，所述M_i-1,j-1为所述第(i-1)个设备完成第(j-1)次模型训练后的模型；

根据所述第一梯度训练模型M_i,j-1。

可选地，在一些实施例中，所述处理模块1010还用于：

与所述第k组设备中的至少一个其它设备完成模型参数的交换的同时，与所述第k组设备中的至少一个其它设备交换本地存储的样本数量。

可选地，在一些实施例中，所述处理模块1010还用于：

对于所述n*M次的模型训练的下一次训练，从所述目标设备获取模型M_<r>的信息，所述模型M_<r>为所述目标设备对模型

进行组间融合后的第r个模型，r∈[1,M]，所述模型/>

为所述第k组设备中的第i个设备完成n*M次的模型训练后的模型，i遍历1至M， k遍历1至K。

可选地，在一些实施例中，所述收发模块1020还用于：

接收目标设备发送的选择结果；

所述处理模块1010还用于：

根据所述选择结果从所述目标设备获取所述模型M_<r>的信息。

所选择的设备、分组情况、模型的信息。

可选地，在一些实施例中，所述模型的信息包括：

当通信装置1000用于实现图4所述方法实施例中目标设备的功能时，所述收发模块 1020，用于接收K组设备中第k组设备中的第i个设备发送的模型

所述模型/>

为所述第k组设备中的第i个设备完成n*M次的模型训练后的模型，所述每一组设备包括的设备数量为M，M大于或等于2，n为整数，i遍历1至M，k遍历1至K；所述处理模块1010用于对K组模型进行组间融合，所述K组模型包括K个模型/>

可选地，在一些实施例中，所述目标设备为所述K组设备中算力最强的设备，或，

所述目标设备为所述K组设备中通信时延最小的设备，或，

所述目标设备为所述K组设备之外的设备所指定的设备。

可选地，在一些实施例中，所述处理模块1010，具体用于：

基于融合算法将所述K组模型中每一组模型的第q个模型进行组间融合，q∈[1,M]。

可选地，在一些实施例中，所述收发模块1020还用于：

接收所述第k组设备中的第i个设备发送的样本数量，所述样本数量包括其所述第i 个设备本次存储的样本数量和与所述第k组设备中的至少一个其它设备交换后获得的样本数量；

所述处理模块1010，具体用于：

根据所述样本数量，基于融合算法将所述K组模型中每一组模型的第q个模型进行组间融合。

可选地，在一些实施例中，所述收发模块1020还用于：

接收N个设备上报的状态信息，所述N个设备包括所述K组设备中每一组设备所包括的M个设备；

所述处理模块1010还用于：

根据所述状态信息从所述N个设备中选择所述K组设备中每一组设备所包括的M个设备；

所述收发模块1020还用于：

将选择结果广播至所述K组设备中每一组设备所包括的M个设备。

所选择的设备、分组情况、模型的信息。

可选地，在一些实施例中，所述模型的信息包括：

设备算力、存储能力、资源占用、邻接矩阵、超参数。

关于上述处理模块1010和收发模块1020更详细的描述，可参考上述方法实施例中的相关描述，在此不再说明。

如图15所示，通信装置1500包括处理器1510和接口电路1520。处理器1510和接口电路1520之间相互耦合。可以理解的是，接口电路1520可以为收发器或输入输出接口。可选的，通信装置1500还可以包括存储器1530，用于存储处理器1510执行的指令或存储处理器1510运行指令所需要的输入数据或存储处理器1510运行指令后产生的数据。

当通信装置1500用于实现上述方法实施例中的方法时，处理器1510用于执行上述处理模块1010的功能，接口电路1520用于执行上述收发模块1020的功能。

当上述通信装置为应用于终端设备的芯片时，该终端设备芯片实现上述方法实施例中终端设备的功能。该终端设备芯片从终端设备中的其它模块(如射频模块或天线)接收信息，该信息是网络设备发送给终端设备的；或者，该终端设备芯片向终端设备中的其它模块(如射频模块或天线)发送信息，该信息是终端设备发送给网络设备的。

当上述通信装置为应用于网络设备的芯片时，该网络设备芯片实现上述方法实施例中网络设备的功能。该网络设备芯片从网络设备中的其它模块(如射频模块或天线)接收信息，该信息是终端设备发送给网络设备的；或者，该网络设备芯片向网络设备中的其它模块(如射频模块或天线)发送信息，该信息是网络设备发送给终端设备的。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(centralprocessing unit，CPU)，还可以是其它通用处理器、数字信号处理器(digital signalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于接入网设备或终端设备中。当然，处理器和存储介质也可以作为分立组件存在于接入网设备或终端设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字多功能光盘(digital versatile disc，DVD)；还可以是半导体介质，例如，固态硬盘(solid state disk，SSD)。

在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。在本申请的文字描述中，字符“/”，一般表示前后关联对象是一种“或”的关系；在本申请的公式中，字符“/”，表示前后关联对象是一种“相除”的关系。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

Claims

1.一种模型训练的方法，其特征在于，包括：

第k组设备中的第i个设备进行n*M次的模型训练，其中，所述第i个设备在每M次的模型训练中与所述第k组设备中的至少一个其它设备完成模型参数的交换，M为所述第k组设备中的设备数量，M大于或等于2，n为整数；

所述第i个设备向目标设备发送模型

所述模型/>

为所述第i个设备完成n*M次的模型训练后的模型。

2.根据权利要求1所述的方法，其特征在于，所述目标设备为所述第k组设备中算力最强的设备，或，

所述目标设备为所述第k组设备中通信时延最小的设备，或，

所述目标设备为所述第k组设备之外的设备所指定的设备。

3.根据权利要求1或2所述的方法，其特征在于，所述第k组设备中的第i个设备进行n*M次的模型训练，包括：

所述第i个设备根据所述第一梯度训练模型M_i,j-1。

4.根据权利要求3所述的方法，其特征在于，当i＝M时，所述第一梯度基于接收的推理结果和从所述第1个设备接收的标签确定；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

对于所述n*M次的模型训练的下一次训练，所述第i个设备从所述目标设备获取模型M_<r>的信息，所述模型M_<r>为所述目标设备对模型

进行组间融合后的第r个模型，r∈[1,M]，所述模型/>

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

所述第i个设备接收目标设备发送的选择结果；

所述第i个设备从所述目标设备获取模型M_<r〉的信息，包括：

所述第i个设备根据所述选择结果从所述目标设备获取所述模型M_<r〉的信息。

8.根据权利要求7所述的方法，其特征在于，所述选择结果包括以下至少一个：

所选择的设备、分组情况、模型的信息。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述模型的信息包括：

10.一种模型训练的方法，其特征在于，包括：

目标设备接收K组设备中第k组设备中的第i个设备发送的模型

所述模型/>

11.根据权利要求10所述的方法，其特征在于，所述目标设备为所述K组设备中算力最强的设备，或，

所述目标设备为所述K组设备中通信时延最小的设备，或，

所述目标设备为所述K组设备之外的设备所指定的设备。

12.根据权利要求10或11所述的方法，其特征在于，所述目标设备对K组模型进行融合，包括：

所述目标设备基于融合算法将所述K组模型中每一组模型的第q个模型进行组间融合，q∈[1,M]。

13.根据权利要求10至12中任一项所述的方法，其特征在于，所述方法还包括：

所述目标设备根据所述样本数量，基于融合算法将所述K组模型中每一组模型的第q个模型进行组间融合。

14.根据权利要求10至13中任一项所述的方法，其特征在于，所述方法还包括：

15.根据权利要求14所述的方法，其特征在于，所述选择结果包括以下至少一个：

所选择的设备、分组情况、模型的信息。

16.根据权利要求15所述的方法，其特征在于，所述模型的信息包括：

17.根据权利要求14至16中任一项所述的方法，其特征在于，所述状态信息包括以下信息中的至少一个：

设备算力、存储能力、资源占用、邻接矩阵、超参数。

18.一种通信装置，其特征在于，包括处理器和通信接口，所述通信接口用于接收来自所述通信装置之外的其它通信装置的信号并传输至所述处理器或将来自所述处理器的信号发送给所述通信装置之外的其它通信装置，所述处理器通过逻辑电路或执行代码指令用于实现如权利要求1至9或10至17中任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被运行时，实现如权利要求1至9或10至17中任一项所述的方法。