CN116686266A

CN116686266A - 模型训练的方法和装置

Info

Publication number: CN116686266A
Application number: CN202180087954.9A
Authority: CN
Inventors: 辛阳; 崇卫微; 吴晓波; 阎亚丽
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2023-09-01
Also published as: US20230403206A1; EP4300876A4; WO2022183496A1; EP4300876A1

Abstract

本申请提供了一种模型训练的方法和装置。该方法包括：获取客户端的第一能力信息和第二能力信息；基于所述第一能力信息和所述第二能力信息确定所述客户端上报模型信息到云服务器或者边缘服务器；向所述客户端发送第一指示信息，所述第一指示信息用于指示所述客户端上报模型信息到所述云服务器或者所述边缘服务器。本申请提供的模型训练的方法和装置，在混合模式的横向联邦训练方法下，可以根据客户端的能力信息灵活选择客户端上报本地模型信息的方式，能够提高横向联邦训练的效率。

Description

模型训练的方法和装置

技术领域

本申请涉及通信技术领域，尤其涉及一种模型训练的方法和装置。

背景技术

在横向联邦学习中，存在云-边缘-客户端模式，该过程为：首先，每个客户端将本地训练所得模型信息上报给对应的边缘服务器，随后，系统中所有边缘服务器将其各自覆盖范围内所有的客户端上报的模型信息聚合后得到中间模型，并将中间模型上报给云服务器，经过云服务器将中间模型再次聚合得到最终模型，云服务器将聚合后的模型下发给所有客户端用于本地推理。然而，这种严格的经过边缘服务器聚合的过程并不符合实际网络的部署场景，如何灵活地选择客户端直接上报模型信息给云服务器或者通过边缘服务器进行模型聚合后再上报给云服务器，是本申请亟待解决的问题。

发明内容

本申请提供的模型训练的方法和装置，在混合模式的横向联邦训练方法下，可以根据客户端的能力信息灵活选择客户端上报模型信息的方式，能够提高横向联邦训练的效率。

第一方面，提供了一种模型训练的方法。该方法可以由云服务器或者边缘服务器或者第三方服务器执行，或者，也可以由配置于上述服务器中的芯片或电路执行，本申请对此不作限定。该方法包括：获取客户端的第一能力信息和第二能力信息；基于该第一能力信息和该第二能力信息确定目标服务器，该目标服务器为该客户端上报模型信息的服务器，该目标服务器包括云服务器或者边缘服务器；向该客户端发送指示信息，该指示信息用于指示该客户端将该客户端的模型信息上报给该目标服务器。

根据本申请提供的方案，服务器可以根据获取的客户端的能力信息来确定客户端上报模型信息的方式，使得系统中客户端上报模型信息的方式更加灵活，从而能够使横向联邦训练的效率得到提高。

结合第一方面，在第一方面的某些实现方式中，该第一能力信息包括该客户端的以下信息中的至少一种：内存信息、硬盘信息、算力信息、负载信息、信道带宽信息；或者该第二能力信息包括该客户端的以下信息中的至少一种：联邦学习的客户端能力、联邦学习算法类型、区域信息。

结合第一方面，在第一方面的某些实现方式中，该方法还包括：获取该云服务器的需求信息，该需求信息包括该客户端的数量和/或数据长度；基于该第一能力信息、该第二能力信息和该需求信息确定该目标服务器。

结合第一方面，在第一方面的某些实现方式中，该第一指示信息还包括该云服务器的地址信息和/或该边缘服务器的地址信息。

基于上述方案，通过获取云服务器的需求信息，进一步控制参与训练的客户端的数量和/或数据长度，能够更进一步地提高训练的效率。

第二方面，提供了一种模型训练的方法。该方法可以由云服务器执行。或者，也可以由配置于云服务器中的芯片或电路执行，本申请对此不作限定。该方法包括：云服务器接收第一客户端的模型信息以及边缘服务器的模型信息，该边缘服务器的模型信息是基于第二客户端的模型信息确定的；该云服务器根据该第一客户端的模型信息以及该边缘服务器的模型信息确定目标模型信息；该云服务器向该第一客户端以及该边缘服务器发送该目标模型信息。

需要说明的是，在本申请中，该第一客户端与该第二客户端不同。应理解，在模型训练的过程中，任一客户端的模型信息不会存在既上报给云服务器又上报给边缘服务器的情况。

根据本申请提供的方案，云服务器可以通过接收第一客户端的模型信息以及边缘客户端的模型信息来进行目标模型的训练(如基于第一客户端的模型信息以及边缘客户端的模型信息聚合得到目标模型)，这种混合的横向联邦学习训练的系统，既能具备客户端直接向云服务器上报模型信息的云-客户端横向联邦学习训练系统具备的大量数据集的优点，又能够利用边缘-客户端横向联邦学习训练系统的优势从而有效缓解客户端数量庞大而造成的网络堵塞。因此该系统的训练方法更加灵活和有效。

结合第二方面，在第二方面的某些实现方式中，该方法还包括：该云服务器向该第一客户端发送第一指示信息，该第一指示信息用于指示该第一客户端将该第一客户端的模型信息上报给云服务器。

结合第二方面，在第二方面的某些实现方式中，该第一指示信息包括该云服务器的地址信息。

结合第二方面，在第二方面的某些实现方式中，该方法还包括：该云服务器向该第二客户端发送第二指示信息，该第二指示用于指示该第二客户端将该第二客户端的模型信息上报给该边缘服务器。

结合第二方面，在第二方面的某些实现方式中，该方法还包括：该第二指示信息包括该边缘服务器的地址信息。

结合第二方面，在第二方面的某些实现方式中，该方法还包括：该云服务器向该边缘服务器发送第三指示信息，该第三指示用于指示该边缘服务器将该边缘服务器的模型信息上报给改云服务器。

结合第二方面，在第二方面的某些实现方式中，该第三指示信息包括该第二客户端的地址信息和/或该云服务器的地址信息。

应理解，云服务器向边缘服务器发送第三指示信息，用于指示边缘服务器向云服务器上报该边缘服务器的模型时，该指示信息可以包括第二客户端的地址信息，该地址信息用于边缘服务器获知需要聚合的客户端模型信息来自上述地址信息对应的第二客户端。同时，由于云服务器可以与多个边缘服务器相互通信，因此，上述云服务器的地址信息可以是各个边缘服务器与云服务器通信的互联网协议IP地址和/或信道端口号。

结合第二方面，在第二方面的某些实现方式中，该云服务器向该边缘服务器发送需求信息，该需求信息包括该第一客户端与该第二客户端的数量之和和/或数据长度之和，该需求信息用于确定该第一客户端和第二客户端。

基于上述方案，通过云服务器确定客户端上报模型信息的方式，能够有效提高横向联邦训练的效率。

第三方面，提供了一种模型训练的方法，该方法可以由边缘服务器执行，或者，也可以由配置于边缘服务器中的芯片或电路执行，本申请对此不作限定。该方法包括：边缘服务器接收第二客户端的模型信息；该边缘服务器根据该第二客户端的模型信息确定该边缘服务器的模型信息；该边缘服务器向该云服务器发送该边缘服务器的模型信息。

结合第三方面，在第三方面的某些实现方式中，该方法还包括：该边缘服务器从该云服务器接收第一指示信息，该第一指示信息用于指示该边缘服务器将该边缘服务器的模型信息上报给云服务器。

结合第三方面，在第三方面的某些实现方式中，该第一指示信息包括该第二客户端的地址信息和/或该云服务器的地址信息。

结合第三方面，在第三方面的某些实现方式中，该方法还包括：该边缘服务器向该第二客户端发送第二指示信息，该第二指示信息用于指示该第二客户端将该第二客户端的模型信息上报给该边缘服务器。

结合第三方面，在第三方面的某些实现方式中，该第二指示信息包括该边缘服务器的地址信息。

结合第三方面，在第三方面的某些实现方式中，该方法还包括：该边缘服务器向该第一客户端发送第三指示信息，该第三指示信息用于指示该第一客户端向该云服务器上报该第一客户端的模型信息。

结合第三方面，在第三方面的某些实现方式中，该第二指示信息包括该云服务器的地址信息。

基于上述方案，通过边缘服务器确定客户端上报模型信息的方式，能够提高横向联邦学习训练的效率。

第四方面，提供了一种模型训练装置，包括：处理模块，存储模块。

其中，该装置中的各模块分别用于执行上述第一方面、第一方面任一种可能的实现方式提供的方法的各步骤。

在一种设计中，该装置为模型训练芯片，该模型训练芯片可以包括用于发送信息或数据的输入电路或者接口，以及用于接收信息或数据的输出电路或者接口。

在另一种设计中，该装置为服务器，可以是云服务器，边缘服务器或者第三方其他服务器，本申请不限定。该服务器可以包括用于发送信息或数据的发射机，以及用于接收信息或数据的接收机。

第五方面，提供了一种模型训练装置，包括：处理单元，存储单元。

其中，该装置中的各单元分别用于执行上述第二方面或第二方面任一种可能的实现方式提供的方法的各步骤。

在一种设计中，该装置为模型训练芯片，模型训练芯片可以包括用于发送信息或数据的输入电路或者接口，以及用于接收信息或数据的输出电路或者接口。

在另一种设计中，该装置为云服务器，该云服务器可以包括用于发送信息或数据的发射机，以及用于接收信息或数据的接收机。

第六方面，提供了一种模型训练装置，包括：处理单元，存储单元。

其中，该装置中的各单元分别用于执行上述第三方面或第三方面任一种可能的实现方式提供的方法的各步骤。

在另一种设计中，该装置为边缘服务器，该云服务器可以包括用于发送信息或数据的发射机，以及用于接收信息或数据的接收机。

第七方面，提供了一种模型训练系统，包括上述各方面提供的模型训练设备。

在一个可能的设计中，该模型训练系统还可以包括本申请实施例提供的方案中与模型训练设备进行交互的其他设备。

第八方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当该计算机程序被运行时，使得计算机执行上述第一方面至第三方面以及第一方面至第三方面中任一种可能实现方式中的方法。

第九方面，提供了一种计算机可读介质，该计算机可读介质存储有计算机程序(也可以称为代码，或指令)当其在计算机上运行时，使得计算机执行上述第一方面至第三方面以及第一方面至第三方面中任一种可能实现方式中的方法。

第十方面，提供了一种芯片系统，包括存储器和处理器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得安装有该芯片系统的模型训练设备执行上述第一方面至第三方面以及第一方面至第三方面中任一种可能实现方式中的方法。

其中，该芯片系统可以包括用于发送信息或数据的输入电路或者接口，以及用于接收信息或数据的输出电路或者接口。

附图说明

图1是一种横向联邦学习的示意图。

图2是一种纵向联邦学习的示意图。

图3是一种横向联邦学习的训练过程示意图。

图4是一种横向联邦学习架构示意图。

图5是另一种横向联邦学习架构示意图。

图6是另一种横向联邦学习架构示意图。

图7是混合横向联邦训练模式的系统架构下横向联邦学习的示意图。

图8是基于NWDAF的5G网络架构下的横向联邦学习的示意图。

图9是NWDAF-RAN场景下的横向联邦学习的示意图。

图10是本申请实施例提供的一种联邦学习训练的方法的示意性流程交互图。

图11是本申请实施例提供的另一种联邦学习训练的方法的示意性流程交互图。

图12是本申请实施例提供的另一种联邦学习训练的方法的示意性流程交互图。

图13是本申请实施例提供的另一种联邦学习训练的方法的示意性流程交互图。

图14是本申请的服务器的一例示意性框图。

图15是本申请的云服务器的一例示意性框图。

图16是本申请的边缘服务器的一例示意性框图。

图17是本申请实施例提供的模型训练装置的示意图。

图18是本申请实施例提供的再一例模型训练装置的示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例提及的无线通信系统包括但不限于：全球移动通信(global system of mobile communication，GSM)系统、长期演进(long term evolution，LTE)频分双工(frequency division duplex，FDD)系统、LTE时分双工(time division duplex，TDD)、LTE系统、先进的长期演进(LTE-Advanced，LTE-A)系统、下一代通信系统(例如，6G通信系统)、多种接入系统的融合系统，或演进系统。

本申请实施例中所涉及到的终端设备可以包括各种具有无线通信功能的接入终端、移动设备、用户终端或用户设备(user equipment，UE)。例如，终端设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality，VR)终端设备、增强现实(augmented reality，AR)终端设备、工业控制(industrial control)中的无线终端、机器类型通信(machine type communication，MTC)终端、客户终端设备(customer premise equipment，CPE)、无人驾驶(self-driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等。本申请的实施例对应用场景不做限定。本申请中将前述终端设备及可设置于前述终端设备的芯片统称为终端设备。

作为示例而非限定，在本申请实施例中，该终端设备还可以是可穿戴设备。可穿戴设备也可以称为穿戴式智能设备，是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，例如：智能手表或智能眼镜等，以及只专注于某一类应用功能，需要和其它设备如智能手机配合使用，如各类进行体征监测的智能手环、智能首饰等。

本申请涉及联邦学习。联邦学习(Federated Learning，FL)是一种分布式机器学习技术，或机器学习框架。目前联邦学习可以做到数据不出本地，通过加密机制下的参数交换方式，在不违反数据隐私法规情况下，建立一个公共模型。这个公共模型可以达到与把数据聚合在一起训练得到的模型一样的模型性能或者模型效果(model performance，如准确率、召回率等)。但是在建立公共模型的时候，数据本身不移动，也不泄露隐私和影响数据合规。这样，建好的模型在各自的区域仅为本地的目标服务。

联邦学习可以分为横向联邦学习和纵向联邦学习，分别如图1和图2所示。在联邦学习中，数据矩阵(例如，可以是表格)的横向的一行表示一条训练样本，纵向的一列表示一个数据特征(或标签)。横向联邦学习的本质是样本的联合，其适用于参与者的数据特征重叠较多，而样本标识重叠较少的情况，可以联合多个参与者的具有相同特征的多行样本进行联邦学习，即各个参与者的训练数据是横向划分的，横向联邦使训练样本的总数量增加。纵向联邦学习本质是特征的联合，其适用于参与者训练样本标识重叠较多，而数据特征重叠较少的情况，可以联合多个参与者的共同样本的不同数据特征进行联邦学习，即各个参与者的训练数据是纵向划分的。

图3为横向联邦学习的训练过程示意图，可以看到横向联邦由一个中心服务器(server)节点以及多个边缘客户端(client)节点构成，这其中，原始数据都分布在各个客户端节点，服务器节点不具有原始数据，并且客户端节点不允许将用于训练的原始数据发送给服务器节点。

首先，假设共有K个客户端，那么，各个客户端节点上的数据集可以表示为如下形式，

其中x为样本数据，y为样本数据对应的标签数据。横向联邦学习中每个样本数据都包括标签，即标签和数据存放在一起。

接着，每个客户端节点上的数据分析模块可以根据线性回归算法各自训练自己的模型，称之为子模型或者本地模型，即：

假设线性回归所使用的损失函数是均方误差(mean squared error，MSE)，那么每个子模型训练的目标函数如下，

其中，n _I为第I个客户端中样本的个数。

应理解，整个训练过程就是使损失函数L _I最小。

以线性回归模型为例，训练过程可以分为以下5步：

步骤1，每个客户端节点生成子模型梯度：

步骤2，每个客户端向服务器上报样本个数以及本地梯度值，即，n _I以及

步骤3，当服务器收到每个客户端的样本个数以及子模型梯度值后，服务器对梯度值进行聚合：

其中，‖K‖为客户端的个数，P _I＝n _I/∑ _In _I。

步骤4，服务器将聚合后的梯度下发给每一个参与训练的客户端节点，然后客户端节点进行本地更新模型参数，

即，每个客户端节点将本地Θ _I进行替换。其中α为训练优化步长。

步骤5，当客户端节点进行子模型更新后，客户端节点计算损失函数L _I的值。若训练并未结束，则客户端节点转至步骤1，继续执行横向联邦训练过程。

训练结束后，每个客户端节点都会保留着一份本地模型，用于本地推理。

应理解，上述训练过程，服务器节点可以通过迭代次数控制训练结束，比如训练10000 次后终止训练，或者通过设置损失函数的阈值控制训练结束，例如，L _I≤0.0001时，训练结束，或者相邻两次训练的结果相差小于0.0001时等，其他表示训练结束方式，本申请在此不做限定。

需要说明的是，在本申请中客户端的模型信息指的是客户端基于本地数据确定的上述样本个数以及本地梯度值，即，n _I以及边缘服务器的模型信息指的是，边缘服务器将客户端上报的模型信息进行聚合后对应的梯度信息以及边缘服务器覆盖范围内的获取到的模型信息对应的样本个数。而云服务器的目标模型信息指的是云服务器将客户端直接上报的模型信息与边缘服务器上报的模型信息进行聚合后对应的梯度信息。

接下来，分别介绍不同3种不同的横向联邦学习架构。其中，图4为云-客户端(cloud-client)模式的横向联邦学习架构、图5为边缘-客户端(edge-client)模式的横向联邦学习架构、图6为云-边缘-客户端(cloud-edge-client)模式的横向联邦学习架构。

需要说明的是，横向联邦中包括一个协调方和若干个参与方，参与方负责使用本地的数据进行模型训练，协调方负责对各个参与方的模型进行聚合。

首先，在如图4所示的云-客户端模式中，该种模式下，参与的客户端总数可能达到数百万，提供深度学习所需的大量数据集。但是，客户端本地训练模型可能很大，例如，以神经网络模型为例，假设输入参数为1000个，隐藏层数为200层，每个隐藏层节点个数为500个，那么每个客户端训练所得的神经网络模型大小就有可能达到100MB的级别。由于网络拥塞等原因，客户端与云服务器的通信将变得速度缓慢且不可预测，如果网络拥塞，模型可能要很长时间才可以传输到云端，导致训练效率极其低下。此外，每个客户端的数据分布也不一致，使得训练时长不一致，从而影响整个横向联邦训练的时长。

在如图5所示的边缘-客户端模式下，该模式可以有效缓解由于客户端上报模型带给云端服务器的冲击，也就是说，客户端训练完模型之后，可以将模型上报给本地边缘服务器，然后由边缘服务器对客户端上报的子模型进行本地聚合，然后边缘服务器将聚合后的模型发送给客户端进行推理。但是，由于每个边缘服务器可以接入的客户端数量有限，这会导致数据量不够从而不可避免的训练性能损失。

如图6所示的云-边缘-客户端模式是以上两种模式的折中，客户端首先将子模型上传给边缘服务器，边缘服务器将子模型本地聚合后，将聚合后的模型上传到云端服务器，云端服务器最终聚合来自所有边缘服务器聚合后的中间模型。

本申请可以应用的系统架构主要是混合横向联邦训练模式的系统架构，如图7所示。在图7中，客户端与云服务器可以通过云-客户端模式上报子模型，也可以通过云-边缘-客户端模式上报子模型。

进一步地，本申请也可以扩展到其它系统架构下，如图8所示的基于NWDAF的5G网络架构下的横向联邦学习，其中，下层网络数据分析功能(network data analytics function，NWDAF)以及中层NWDAF为横向联邦过程中的参与方，上层NWDAF为横向联邦过程中的协调方。

或者本申请也可以扩展到图9所示的NWDAF-RAN场景下的横向联邦学习，在该场景下，多个UE之间进行横向联邦，UE与RAN为横向联邦过程中的参与方，NWDAF为横向联邦过程中的协调方。

应理解，本申请还可存在类似于图7至图9下的其他系统架构，或其他场景，即横向联邦的参与方与协调方满足上述三种包含的关系，都应在本申请的保护范围内，本申请不做限定。

图10示出了本申请提供的联邦学习训练的方法的示意性流程图。该方法1000包括：

S1001，获取客户端的第一能力信息和第二能力信息。

需要说明的是，在本实施例中，获取客户端的第一能力信息和第二能力信息的可以是云服务器，或者边缘服务器或者而其他第三方服务器均可，本申请并不限定。

具体地，该第一能力信息可以包括内存信息、硬盘信息、算力信息、负载信息、信道带宽信息中的一种或多种。应理解，该第一能力信息是动态变化的，换句话说，在不同时刻。由于客户端处于不同的位置或客户端的网络信道或者环境因素或者业务场景的不同，该第一能力信息会发生变化。值得解释的是，第一能力信息是指当前客户端可用的第一能力信息，如内存信息是指当前客户端可用的内存信息。

具体地，该第二能力信息可以包括联邦学习的客户端能力、联邦学习算法类型、区域信息中的一种或多种。应理解，该第二能力信息是客户端固有的能力信息，也就是说，该第二能力信息不会因为客户端所处的环境、客户端网络信道的条件、或者业务场景的转变而发生变化。此外，该第二能力信息也并不限于上述列举的能力信息。该第二能力信息可以是预存在服务器中的，例如可以是预存在服务器的预配置信息中。当然的，该第二能力信息也可以是从外部设备中接收的，例如服务器可以向客户端发送请求信息来请求客户端的第二能力信息，当客户端收到该请求信息后，向服务器返回的响应消息中携带该第二能力信息，本申请对获取该第二能力信息的方法不做任何限定。

S1002，基于该第一能力信息和该第二能力信息确定目标服务器。

具体地，服务器根据第一能力信息，确定参与联邦训练的客户端上报模型信息的对象，即客户端是将模型信息直接上报给云服务器还是上报给边缘服务器。

应理解，根据上述描述可知，该第一能力信息是动态信息，因此，服务器会根据在训练时间段内客户端的第一能力信息来确定其上报模型信息的对象。例如，当服务器确定获得的客户端的第一能力信息中内存大于或等于1G时，或硬盘大于或等于10G时，或者算力中图形处理单元(graphical processing unit，GPU)个数大于或等于4时，或负载大于或等于3时，以及客户端与云服务器之间的带宽大于或等于5M/bps时，该服务器确定该客户端可以直接将模型信息上报给云服务器，反之若客户端的第一能力信息中的一个或多个参数都小于上述取值时，服务器确定该客户端将模型信息上报给边缘服务器。

需要说明的是，上述取值可以在不同的训练时设定不同的取值，当客户端的第一能力信息大于或等于该取值时，表明该客户端对训练带宽的要求较小或者与云服务器之间信道质量较好，适合直接上报模型信息到云服务器，而不需要经过先向边缘服务器上报模型信息，经过边缘服务器聚合后，再将聚合后的模型上报给云服务器，从而提高了联邦训练的效率。

此外，服务器还会根据获得的第二能力信息进一步选择参与训练的客户端，例如，在某一次联邦训练中，服务器是采用线性回归算法进行联邦训练的，那么对于不支持线性回归算法的客户端将不会参与该次联邦训练。

S1003，向客户端发送第一指示信息，该第一指示信息用于指示该客户端上报模型信息到云服务器或者边缘服务器。

具体地，当服务器根据步骤1002确定客户端上报模型信息到云服务器时，该服务器向客户端发送第一指示信息，该第一指示信息可以包括云服务器的地址信息。当服务器根据步骤1002确定客户端上报模型信息到边缘服务器时，该服务器向客户端发送第一指示信息，该第一指示信息可以包括边缘服务器的地址信息。

因此，本申请提供的模型训练的方法，服务器可以根据客户端的能力信息，动态判断客户端上报模型信息到云服务器还是边缘服务器，使得在一个横向联邦学习训练系统中客户端上报模型信息变得更加灵活，从而提高了联邦训练的效率。

值得说明的是，本发明中涉及到的客户端或者云服务器或者边缘服务器的地址信息可以是该客户端或者该云服务器或者该边缘服务器对应的以下信息中的一个或者多个：标识信息、互联网协议IP地址、隧道端点标识(tunnel endpoint identifier，TEID)、统一资源定位符(Uniform Resource Locator，URL)、完全限定域名(fully qualified domain name，FQDN)，或其他涉及地址信息的描述均可以参考此处，不再赘述。

根据图10示出的方法1000，图11示出了本申请提供的联邦学习训练的方法1100的示意性流程图，该方法中还包括：

服务器获取云服务器的需求信息，该需求信息包括客户端的数量和/或数据长度。此时，服务器根据获取的第一能力信息、第二能力信息以及需求信息确定客户端上报模型信息的途径。

应理解，服务器可以获取多个客户端的第一能力信息和第二能力信息，此时，由于训练时间的有限以及训练结果并不会随着参与训练的客户端的数量而具有明显改变时，服务器在训练之前可以预先设定参与训练的客户端的数量以及每个客户端数据的长度，即需求信息，从而避免无效的训练过程导致的训练效率较低的状况。

应理解，在本实施例中，与图10中相同的步骤，为了简便，在此不再赘述。

接下来，对服务器分别是云服务器(图12)和边缘服务器(图13)进行本方案具体实现的说明。

图12示出了本申请提供的联邦学习训练的方法1200的示意性流程图，该方法通过云服务器确定客户端上报模型信息的方式，能够有效提高横向联邦训练的效率。

S1201(S1201a、S1201b)，客户端固有能力注册。

具体地，客户端向云服务器发送请求信息，该请求信息用于将客户端的固有能力注册在云服务器上。其中固有能力(第二能力信息)可以包括，例如支持横向联邦学习的客户端的能力、客户端支持的横向联邦学习算法的类型、以及客户端的位置信息等。

可选地，该请求信息可以承载在固有能力注册请求消息或其他消息中，本申请不做限定。

需要说明的是，该固有能力可以理解为静态不变的能力，即上述客户端的固有能力信息不会随时间的改变而发生动态变化。

S1202(S1202a、S1202b)，客户端固有能力注册响应。

具体地，云服务器收到客户端的固有能力信息后，向客户端发送响应消息，该响应消息用于通知客户端其固有能力信息已经注册成功。

可选地，该响应消息可以是客户端固有能力注册响应消息。

S1203(S1203a、S1203b)，边缘服务器固有能力注册。

具体地，边缘服务器向云服务器发送请求信息，该请求信息用于将边缘服务器的固有能力注册在云服务器上。其中固有能力可以包括，例如支持的横向联邦学习算法的类型、支持横向联邦的边缘服务器的能力、服务区域、服务区域内的客户端标识的列表等。

S1204(S1204a、S1204b)，边缘服务器固有能力注册响应。

具体地，云服务器收到边缘服务器的固有能力信息后，向边缘服务器发送响应消息，该响应消息用于通知边缘服务器其固有能力信息已经注册成功。

可选地，该响应消息可以是边缘服务器固有能力注册响应消息。

S1205(S1205a、S1205b)，客户端可变能力查询。

具体地，云服务器向客户端发送查询请求信息，该查询请求信息用于查询客户端的可变能力(第一能力信息)。其中可变能力可以包括，例如内存、硬盘、算力、负载以及客户端与云服务器之间的信道带宽等。

可选地，该查询请求信息可以承载在可变能力查询请求消息或其他消息中，本申请不做限定。

应理解，该云服务器可以向客户端查询多个时间段内的客户端的动态能力信息。

S1206(S1206a、S1206b)，客户端可变能力查询响应。

具体地，客户端收到可变能力查询信息后，向云服务器发送响应消息，该响应消息用于上报客户端的可变能力信息。

可选地，该响应消息可以是客户端可变能力查询响应消息。

应理解，由于云服务器查询的客户端的可变能力信息可以是多个时间段内客户端的可变能力信息，因此，客户端需要上报这多个时间段内的可变能力信息。

S1207(S1207a、S1207b)，边缘服务器可变能力查询。

具体地，云服务器向边缘服务器发送查询请求信息，该查询请求信息用于查询边缘服务器的可变能力。其中可变能力可以包括，例如内存、硬盘、算力、负载以及边缘服务器与云服务器之间的信道带宽等。

同样的，云服务器也可以查询与步骤1204同样的多个时间段的边缘服务器的可变能力信息。

S1208(S1208a、S1208b)，边缘服务器可变能力查询响应。

具体地，边缘服务器收到可变能力查询信息后，向云服务器发送响应消息，该响应消息用于上报边缘服务器的可变能力信息。

可选地，该响应消息可以是边缘服务器可变能力查询响应消息。

同样的，云服务器查询的边缘服务器的可变能力信息多个时间内边缘服务器的可变能力信息，该时间段为云服务器预备进行横向联邦学习训练的时间段，与上述步骤1205中的时间段相同。该预备表示最终云服务器可以从多个时间段内选择其中的一个子时间段进行横向联邦学习训练。

S1209，云服务器确定第一客户端上报模型信息到云服务器，第二客户端通过边缘服务器上报模型信息到云服务器。

具体地，云服务器根据步骤1206和步骤1208分别获得的客户端可变能力信息和边缘服务器可变能力信息，确定参与训练的客户端列表，以列表中各个客户端的类型是属于第一客户端还是第二客户端。

应理解，云服务器在确定第一客户端与第二客户端时，会将获得的可变能力信息与其预存的客户端的可变能力阈值进行比较，只要其中某个可变能力信息小于阈值时，就可以判断其为第二客户端，否则为第一客户端。

例如，云服务器预存客户端的内存阈值可以是1G，硬盘阈值可以是12G，算力(如GPU个数)阈值可以取4，负载的阈值可以为3，以及客户端与云服务器之间的带宽阈值可以是5M/bps。

应理解上述阈值仅作为示例而非限定，云服务器预存的阈值可以根据设备的特性或其它因素而有所变化，本申请对此不做限定。

应理解，上述中的第一客户端与第二客户端表示一类客户端，极端的，当其中该类的客户端只有一个时，也可以表示单个客户端。其中第一客户端代表直接向云服务器上报模型信息的这类客户端，第二客户端代表要将模型信息上报给边缘服务器，有边缘服务器将模型信息聚合后，再将聚合后的模型上报给云服务器的这类客户端。

还需要说明的是，云服务器在确定需要参与训练的客户端时，可以从查询的客户端中随机选取需要的数量下的客户端来参与最终的训练。换句话说，云服务器并不一定会将所有查询过的客户端用于训练，而是随机选取查询的客户端中的一个子集。

S1210，云服务器分别向第一客户端和第二客户端发送横向联邦模型训练请求。

具体地，S1210a，当客户端为第一客户端时，云服务器发送的横向联邦模型训练请求消息中可以包括以下信息中的至少一种：算法信息(如线性回归)、初始模型文件、训练数据长度、云端聚合点指示信息。

其中，初始模型文件指的是图3所示的横向联邦学习训练过程中每个客户端中用于生成本地模型的Θ _A，Θ _B，……Θ _K等。训练数据的长度指的是每个客户端中参与训练的数据的个数，也就是图3中的n _I。云端聚合点指示信息用于指示客户端将本地梯度值与训练数据长度上报给云服务器，该云端聚合点指示信息为第一指示信息的一例，其可以包括云端服务器的地址信息。

S1210b，当客户端为第二客户端时，云服务器发送的横向联邦模型训练请求消息中可以包括以下信息中的至少一种：算法信息(如线性回归)、初始模型文件、训练数据长度、边缘聚合点指示信息、边缘服务器的标识。

其中，初始模型文件、训练数据长度与上述叙述相同，边缘聚合点指示信息用于指示客户端需要将模型信息上报给边缘服务器，可以是第二指示信息中的一例，其中，边缘服务器的标识用于定位或指示客户端上报模型信息的边缘服务器。

应理解，该边缘服务器的标识信息用于指示第二客户端将模型信息上报给该标识信息对应的边缘服务器。

S1211，横向联邦模型训练配置通知。

具体地，针对步骤1210b，云服务器可以向边缘服务器发送横向联邦模型训练配置通知，该消息可以是第三指示信息中的一例，该消息中可以包括第二客户端的标识信息，例如第二客户端的地址信息。该通知消息用于通知该边缘服务器上报边缘服务器的模型信息。应理解，该边缘服务器需要等待第二客户端上报模型信息后，将第二客户端的模型信息聚合后，再将聚合后的模型上报给云服务器。

需要说明的是，由于云服务器可以与多个边缘服务器之间进行通信，因此，该消息中还可以携带云服务器的地址信息，该地址信息可以是云服务器与该边缘服务器通信的互联网协议IP地址和/或信道端口号。

应理解，该步骤1211可以在步骤1210之前也可以在1210之后，即步骤1210与步骤1211之间没有必然的先后顺序，但需要注意的是，上述两个步骤该需要在步骤1210之前。换句话说，在客户端上报模型信息给云服务器或边缘服务期之前，需要完成训练请求和训练配置。

S1212(S1212a、S1212b)，横向联邦训练响应。

具体地，S1212a，第一客户端将本地更新后的梯度信息训练数据长度n _I(客户端的模型信息)发送给对应的云服务器。

S1212b，第二客户端将本地更新后的梯度信息训练数据长度n _I发送给对应的边缘服务器。

S1213，本地梯度信息的边缘聚合。

具体地，边缘服务器对本域负责的客户端(即，第二客户端)上报的模型信息，根据步骤1212b上报的信息进行聚合。其聚合的公式依然沿用上述图3中的步骤3，在此不再赘述。

S1214，横向联邦模型训练响应。

具体地，边缘服务器将第二客户端的模型信息聚合后，生成聚合后的梯度信息，即边缘服务器的模型信息，并将该边缘服务器的模型信息通过横向联邦模型训练响应消息上报给云服务器。

S1215，本地梯度信息的聚合。

具体地，云服务器针对来自第一客户端的模型信息以及边缘服务器上报的模型信息进行最终聚合。其中该聚合的方法依然可以沿用图3的步骤3，即得到聚合后的梯度信息即云服务器的目标模型信息。

需要注意的是，在该聚合过程中，某个客户端只能有一种上报模型信息的方式。

S1216(S1216a、S1216b)，云服务器向第一客户端和边缘服务器发送聚合后的梯度信息。

具体地，云服务器向第一客户端和边缘服务器发送步骤1215的到的聚合后的梯度信息

S1217，边缘服务器向第二客户端发送聚合后的梯度信息。

具体地，边缘服务器将从云服务器接收到的梯度信息转发给第二客户端。

S1218(S1218a、S1218b)，第一客户端与第二客户端进行模型信息更新。

具体地，第一客户端与第二客户端得到云服务器发送的聚合后的梯度信息后，根据上述图3中的步骤4将本地Θ _I进行替换。

应理解，步骤1218a与1218b可能不会同时进行，换句话说，第一客户端收到云服务器发送的聚合后的梯度信息后即可开始更新过程，而不必与第二客户端同时进行更新的操作。

需要说明的是，在本实施例中，边缘服务器指的是为第二客户端服务的边缘服务器，即第二客户端位于该边缘服务器的服务区域范围内。由于第二客户端可处于不同的区域其可以是一个或者多个，因此，该边缘服务器也可以为一个或者多个。

本申请实施例，通过云服务器基于客户端以及边缘服务器的可变能力信息，灵活选择客户端上报模型信息的方式，可以缓解云端服务器的访问压力，能够提高横向联邦训练的效率。

图13示出了本申请提供的联邦学习训练的方法1300的示意性流程图，该方法通过边缘服务器确定客户端上报模型信息的方式，能够有效提高横向联邦训练的效率。

S1301(S1301a、S1301b)，客户端固有能力注册请求。

具体地，边缘服务器覆盖区域内每个横向联邦学习的客户端将固有能力信息，例如可以包括支持横向联邦学习的客户端能力、客户端支持的横向联邦学习算法类型、客户端所在位置等注册在边缘服务器上。

可选的，客户端可以通过向边缘服务器发送第一消息来上报固有能力，该第一消息可以是承载客户端固有能力的客户端固有能力注册请求消息。

S1302(S1302a、S1302b)，客户端固有能力注册响应。

具体地，当边缘服务器收到其覆盖区域内的客户端上报的固有能力信息之后，边缘服务器向客户端发送响应消息，用于表示客户端固有能力注册成功。可选地，该响应消息可以是客户端固有能力注册响应消息。

S1303(S1303a、S1303b)，边缘服务器固有能力注册请求。

具体地，各个横向联邦学习边缘服务器将固有能力信息，例如，可以包括支持的横向联邦学习算法类型、支持横向联邦的边缘服务器能力、服务区域、服务区域内的客户端标识的列表等，注册在横向联邦学习云服务器上。

S1304(S1304a、S1304b)，边缘服务器固有能力注册响应。

具体地，云服务器向各个边缘服务器发送响应消息，该响应消息用于表示云服务器接收到边缘服务器的固有能力信息。

S1305(S1305a、S1305b)，边缘服务器可变能力查询。

具体地，云服务器向各个边缘服务器发送查询请求信息，该查询请求信息用于查询边缘服务器的可变能力。其中可变能力可以包括，例如内存、硬盘、算力、负载以及边缘服务器与云服务器之间的信道带宽等。

可选地，该查询请求信息可以承载在边缘服务器可变能力查询请求消息或其他消息中，本申请不做限定。

应理解，云服务器查询的边缘服务器的可变能力信息可以为一段时间内边缘服务器的可变能力信息，最终云服务器可以在该段时间段内选择一段作为横向联邦学习训练的时间。

S1306(S1306a、S1306b)，边缘服务器可变能力查询响应。

具体地，边缘服务器收到云服务器发送的可变能力查询信息后，向云服务器发送响应消息，该响应消息用于上报边缘服务器的可变能力信息。

应理解，边缘服务器上报的可变能力信息应为步骤1305中云服务器查询的时间段内的可变能力信息。

S1307，确定每个边缘服务器聚合的客户端个数和/或总数据长度。

具体地，云服务器根据步骤1306获得的边缘服务器在训练时间段内的可变能力信息之后，确定每个边缘服务器需要聚合的客户端的数目和/或总数据长度。

需要说明的是，该需要聚合的客户端数目表示的是，参与训练的客户端的数目。这些客户端中的某一些可能会直接上报模型信息给云服务器，还有一些也可能上报模型信息给边缘服务器，先经由边缘服务器聚合后再将聚合后的边缘服务器的模型信息上报给云服务器，由云服务器统一再进行聚合。该总数据长度表示的是该边缘服务器需要聚合的客户端中的数据的数目之和。

此外，云服务器能够确定每个边缘服务器聚合的客户端个数和/或总数据长度的前提在于，云服务器可以根据边缘服务器上报的可变能力信息确定每个边缘服务器需要的负载或内存或算力或硬盘信息。

S1308(S1308a、S1308b)，云服务器训练请求。

具体地，云服务器向每个边缘服务器发送横向联邦训练请求，包括算法信息，初始模型，需求的客户端的数目和/或需求的数据长度。

S1309(S1309a、S1309b)，客户端可变能力查询请求。

具体地，边缘服务器向客户端发送查询请求消息，用于查询客户端的可变能力，该可变能力可以包括内存、硬盘、算力、负载以及客户端与云服务器之间的信道带宽。

可选地，该查询请求消息可以是客户端可变能力查询请求消息。

应理解，该步骤中的可变能力是云服务器查询的时间段内的可变能力。

S1310(S1310a、S1310b)，客户端可变能力查询响应。

具体地，客户端将其在云服务器执行训练的时间段内的可变能力通过响应消息上报给其对应的边缘服务器。

可选的，该响应消息可以是客户端可变能力查询响应消息。

S1311(S1311a、S1311b)，确定客户端上报模型信息的方式。

具体地，各个边缘服务器根据步骤1308的需求信息以及步骤1310所获得到的信息，确定覆盖区域内哪些横向联邦学习客户端可以直接上报模型信息给云服务器，例如图13中所示的边缘服务器A下的第一客户端，或者边缘服务器确定覆盖区域内哪些横向联邦学习客户端可以通过本地边缘服务器聚合将聚合后的模型给云服务器，例如图13中所示的边缘服务器B下的第二客户端。

需要说明的是，该确定的过程与图12中云服务器确定第一客户端与第二客户端的过程大致相同，不同在于，可变能力信息的阈值在本实施例中预存在边缘服务器中，当边缘服务器判断查询到的客户端的可变能力信息大于阈值时，将该客户端确定为第一客户端中的一例，否则确定为第二客户端中的一例。此外，参与训练的客户端的数目可以是查询的客户端中根据云服务器的需求随机选取的。

应理解，边缘服务器A下仍然可存在通过边缘服务器A先聚合模型信息之后再将聚合后的模型上报给云服务器的客户端类型，也即第二客户端。同样的边缘服务器B下也可存在第一客户端。换句话说，边缘服务器可以根据云服务器的需求以及客户端的可变能力确定出其下的第一客户端的数目以及第二客户端的数目。因此，图13仅为了表示的更清楚或者说叙述的方便，而并未画出其他步骤，本领域技术人员也可以清楚地理解，即该图示例而非限定。

S1312，横向联邦训练配置通知。

具体地，各个边缘服务器向云服务器发送横向联邦训练配置通知，用于通知云服务器需要等待第一客户端上报模型信息，该通知消息中可以包括第一客户端的标识信息。

应理解，当边缘服务器范围内的客户端存在第一客户端时，该边缘服务器就需要向云服务器发送该配置通知消息，使云服务器可以清楚地知道直接上报模型信息的客户端有哪些，能够节约训练的时间和训练的效率。

应理解，该图13的步骤1312仅仅为了简洁并未画出其他客户端的相同操作，因此该图13不应该对本申请的实施方案构成限定。

S1313(S1313a、S1313b)，边缘服务器训练请求。

具体地，边缘服务器向客户端发送横向联邦训练请求。对于第一客户端来说，步骤1313a，边缘服务发送的请求消息中可以包括：算法信息(如线性回归)、初始模型文件、训练数据长度、云端聚合点指示信息、云端服务器的标识。对于第二客户端来说，步骤1313b，边缘服务发送的请求消息中可以包括：算法信息(如线性回归)、初始模型文件、训练数据长度、边缘聚合点指示信息。

S1314(S1314a、S1314b)，横向联邦训练响应。

具体地，步骤1314a，第一客户端将本地的梯度信息训练数据长度n _I发送给对应的云服务器。步骤1314b，第二客户端将本地的梯度信息训练数据长度n _I发送给对应的边缘服务器。

S1315，本地梯度信息的边缘聚合。

具体地，边缘服务器在步骤1314中接收到的来自第二客户端发送的客户端的模型信息，即本地梯度信息和训练长度后，边缘服务器先将本地梯度信息利用图3的步骤3进行聚合。

S1316，训练响应。

具体地，边缘服务器将其聚合后的边缘服务器的模型信息上报给云服务器。该边缘服务器的模型信息可以承载在训练响应消息中。

S1317，本地梯度信息的聚合。

具体地，云服务器针对来自第一客户端的模型信息以及边缘服务器上报的模型信息进行最终聚合。其中该聚合的方法依然可以沿用图3的步骤3，即得到聚合后的梯度信息

S1318(S1318a、S1318b)，云服务器向第一客户端和边缘服务器发送聚合后的梯度信息。

具体地，云服务器向第一客户端和边缘服务器发送步骤1015的到的聚合后的梯度信息

S1319，边缘服务器向第二客户端发送聚合后的梯度信息。

S1320(S1320a、S1320b)，第一客户端与第二客户端进行模型信息更新。

应理解，步骤1320a与1320b可能不会同时进行，换句话说，第一客户端收到云服务器发送的聚合后的梯度信息后即可开始更新过程，而不必与第二客户端同时进行更新的操作。

本申请实施例，通过边缘服务器基于客户端的可变能力信息以及云服务器的需求，灵活选择客户端上报模型信息的方式，可以缓解云端服务器的访问压力，提高横向联邦训练的效率。

以上，结合图10至图13详细说明了本申请实施例提供的方法。以下，结合图14至图17详细说明本申请实施例提供的模型训练装置。

图14是本申请实施例提供的模型训练装置的示意性框图。如图所示，该模型训练装置10可以包括处理模块11和收发模块12。

在一种可能的设计中，该模型训练装置10可对应于上文方法实施例中的服务器。

具体地，该模型训练装置10可对应于根据本申请实施例的方法1000、方法1100、方法1200以及方法1300中的服务器，该模型训练装置10可以包括用于执行图10中的方法1000或图11中的方法1100或图12中的方法1200或图13中的方法1300中的服务器执行的方法的模块。并且，该模型训练装置10中的各单元和上述其他操作和/或功能分别为了实现图10中的方法1000或图11中的方法1100或图12中的方法1200或图13中的方法1300的相应流程。

其中，当该模型训练装置10用于执行图10中的方法1000时，处理模块11可用于执行方法1000中的步骤1001和步骤1002。收发模块12可用于执行方法1000中的步骤1003。

当该模型训练装置10用于执行图11中的方法1100时，处理模块11可用于执行方法1100中的步骤1101和步骤1102。收发模块12可用于执行方法1100中的步骤S1103。

当该模型训练装置10用于执行图12中的方法1200时，处理模块11可用于执行方法1200中的步骤1209，步骤1215。收发模块12可用于执行方法1200中的步骤1201至步骤1208以及步骤1210、步骤1211、步骤1214、步骤1216。

当该模型训练装置10用于执行图13中的方法1300时，处理模块11可用于执行方法1300中的步骤1311、步骤1315。收发模块12可用于执行方法1300中的步骤1301至步骤1330、步骤1306、步骤1308至步骤1310、步骤1312至步骤1314、步骤1316、步骤1318、步骤319。

图15是本申请实施例提供的模型训练装置的示意性框图。如图所示，该模型训练装置20可以包括收发模块21和处理模块22。

在一种可能的设计中，该模型训练装置20可对应于上文方法实施例中的云服务器，或者配置于云服务器中的芯片。

具体地，该模型训练装置20可对应于根据本申请实施例的方法1000、方法1100、方法1200中的服务器，该模型训练装置20可以包括用于执行图10中的方法1000或图11中的方法1100或图12中的方法1200中的服务器执行的方法的模块。并且，该模型训练装置20中的各单元和上述其他操作和/或功能分别为了实现图10中的方法1000或图11中的方法1100或图12中的方法1200的相应流程。

当该模型训练装置20用于执行图10中的方法1000时，收发模块21可用于执行方法1000中的步骤1003。处理模块22可用于执行方法1000中的步骤1001，步骤1002。

当该模型训练装置20用于执行图11中的方法1100时，收发模块21可用于执行方法1100中的步骤1103。处理模块22可用于执行方法1100中的步骤1101和步骤1102。

当该模型训练装置20用于执行图12中的方法1200时，处理模块11可用于执行方法1200中的步骤1209，步骤1215。收发模块12可用于执行方法1200中的步骤1201至步骤1208以及步骤1210、步骤1211、步骤1214、步骤1216。

图16是本申请实施例提供的模型训练装置的示意性框图。如图所示，该模型训练装置30可以包括处理模块31和收发模块32。

在一种可能的设计中，该模型训练装置30可对应于上文方法实施例中的边缘服务器。

具体地，该模型训练装置30可对应于根据本申请实施例的方法1000、方法1100以及方法1300中的服务器，该模型训练装置30可以包括用于执行图10中的方法1000或图11中的方法1100或图13中的方法1300中的服务器执行的方法的模块。并且，该模型训练装置30中的各单元和上述其他操作和/或功能分别为了实现图10中的方法1000或图11中的方法1100或图13中的方法1300的相应流程。

其中，当该模型训练装置30用于执行图10中的方法1000时，处理模块31可用于执行方法1000中的步骤1001和步骤1002。收发模块32可用于执行方法1000中的步骤1003。

当该模型训练装置30用于执行图11中的方法1100时，处理模块31可用于执行方法1100中的步骤1101和步骤1102。收发模块32可用于执行方法1100中的步骤S1103。

当该模型训练装置30用于执行图13中的方法1300时，处理模块31可用于执行方法1300中的步骤1311、步骤1315。收发模块32可用于执行方法1300中的步骤1301至步骤1330、步骤1306、步骤1308至步骤1310、步骤1312至步骤1314、步骤1316、步骤1318、步骤319。

根据前述方法，图17为本申请实施例提供的模型训练装置40的示意图，如图17所示，该装置40可以为模型训练设备。

该装置40可以包括处理器41(即，处理模块的一例)和存储器42。该存储器42用于存储指令，该处理器41用于执行该存储器42存储的指令，以使该装置40实现如图10、图11或图12或图13对应的方法中服务器执行的步骤。

进一步地，该装置40还可以包括输入口43(即，收发模块的一例)和输出口44(即，收发模块的另一例)。进一步地，该处理器41、存储器42、输入口43和输出口44可以通过内部连接通路互相通信，传递控制和/或数据信号。该存储器42用于存储计算机程序，该处理器41可以用于从该存储器42中调用并运行该计算机程序，以控制输入口43接收信号，控制输出口44发送信号，完成上述方法中服务器的步骤。该存储器42可以集成在处理器41中，也可以与处理器41分开设置。

可选地，该输入口43可以为接收器，该输出口44可以为发送器。其中，接收器和发送器可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为收发器。

可选地，若该模型训练装置40为芯片或电路，该输入口43为输入接口，该输出口44为输出接口。

作为一种实现方式，输入口43和输出口44的功能可以考虑通过收发电路或者收发的专用芯片实现。处理器41可以考虑通过专用处理芯片、处理电路、处理器或者通用芯片实现。

作为另一种实现方式，可以考虑使用通用计算机的方式来实现本申请实施例提供的模型训练设备。即将实现处理器41、输入口43和输出口44功能的程序代码存储在存储器42中，通用处理器通过执行存储器42中的代码来实现处理器41、输入口43和输出口44的功能。

其中，模型训练装置40中各单元或单元可以用于执行上述方法中服务器所执行的各动作或处理过程，这里，为了避免赘述，省略其详细说明。

该装置40所涉及的与本申请实施例提供的技术方案相关的概念，解释和详细说明及其他步骤请参见前述方法或其他实施例中关于这些内容的描述，此处不做赘述。

根据前述方法，图18为本申请实施例提供的模型训练装置50的示意图，如图18所示，该装置50可以为云服务器。

该装置50可以包括处理器51(即，处理模块的一例)和存储器52。该存储器52用于存储指令，该处理器51用于执行该存储器52存储的指令，以使该装置50实现如图10、图11或图12或图13中终端设备执行的步骤。

进一步地，该装置50还可以包括输入口53(即，收发模块的一例)和输出口54(即，收发模块的另一例)。进一步地，该处理器51、存储器52、输入口53和输出口54可以通过内部连接通路互相通信，传递控制和/或数据信号。该存储器52用于存储计算机程序，该处理器51可以用于从该存储器52中调用并运行该计算机程序，以控制输入口53接收信号，控制输出口54发送信号，完成上述方法中终端设备的步骤。该存储器52可以集成在处理器51中，也可以与处理器51分开设置。

可选地，该输入口53可以为接收器，该输出口54可以为发送器。其中，接收器和发送器可以为相同或者不同的物理实体。为相同的物理实体时，可以统称为收发器。

可选地，若该模型训练装置50为芯片或电路，该输入口53为输入接口，该输出口54为输出接口。

作为一种实现方式，输入口53和输出口54的功能可以考虑通过收发电路或者收发的专用芯片实现。处理器51可以考虑通过专用处理芯片、处理电路、处理器或者通用芯片实现。

作为另一种实现方式，可以考虑使用通用计算机的方式来实现本申请实施例提供的云服务器。即将实现处理器51、输入口53和输出口54功能的程序代码存储在存储器52中，通用处理器通过执行存储器52中的代码来实现处理器51、输入口53和输出口54的功能。

其中，模型训练装置50中各模块或单元可以用于执行上述方法中云服务器所执行的各动作或处理过程，这里，为了避免赘述，省略其详细说明。

该装置50所涉及的与本申请实施例提供的技术方案相关的概念，解释和详细说明及其他步骤请参见前述方法或其他实施例中关于这些内容的描述，此处不做赘述。

在本说明书中使用的术语“部件”、“模块”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，部件可以是但不限于，在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。通过图示，在计算设备上运行的应用和计算设备都可以是部件。一个或多个部件可驻留在进程和/或执行线程中，部件可位于一个计算机上和/或分布在两个或更多个计算机之间。此外，这些部件可从在上面存储有各种数据结构的各种计算机可读介质执行。部件可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一部件交互的二个部件的数据，例如通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种模型训练的方法，其特征在于，包括：

获取客户端的第一能力信息和第二能力信息；

基于所述第一能力信息和所述第二能力信息确定目标服务器，所述目标服务器为所述客户端上报模型信息的服务器，所述目标服务器包括云服务器或者边缘服务器；

向所述客户端发送指示信息，所述指示信息用于指示所述客户端将所述客户端的模型信息上报给所述目标服务器。
根据权利要求1所述的方法，其特征在于，

所述第一能力信息包括所述客户端的以下信息中的至少一种：

内存信息、硬盘信息、算力信息、负载信息、信道带宽信息，或，

所述第二能力信息包括所述客户端的以下信息中的至少一种：

联邦学习的客户端能力、联邦学习算法类型、区域信息。
根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取所述云服务器的需求信息，所述需求信息包括所述客户端的数量和/或数据长度；

其中，所述基于所述第一能力信息和所述第二能力信息确定目标服务器，包括：

基于所述第一能力信息、所述第二能力信息和所述需求信息确定所述目标服务器。
根据权利要求1至3中任一项所述的方法，其特征在于，所述指示信息还包括所述云服务器的地址信息和/或所述边缘服务器的地址信息。
一种模型训练的方法，其特征在于，包括：

云服务器接收第一客户端的模型信息以及边缘服务器的模型信息，所述边缘服务器的模型信息是基于第二客户端的模型信息确定的；

所述云服务器根据所述第一客户端的模型信息以及所述边缘服务器的模型信息确定目标模型信息；

所述云服务器向所述第一客户端以及所述边缘服务器发送所述目标模型信息。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

所述云服务器向所述第一客户端发送第一指示信息，所述第一指示信息用于指示所述第一客户端将所述第一客户端的模型信息上报给所述云服务器。
根据权利要求6所述的方法，其特征在于，所述第一指示信息包括所述云服务器的地址信息。
根据权利要求5至7中任一项所述的方法，其特征在于，所述方法还包括：

所述云服务器向所述第二客户端发送第二指示信息，所述第二指示用于指示所述第二客户端将所述第二客户端的模型信息上报给所述边缘服务器。
根据权利要求8所述的方法，其特征在于，所述第二指示信息包括所述边缘服务器的地址信息。
根据权利要求5至9中任一项所述的方法，其特征在于，所述方法还包括：

所述云服务器向所述边缘服务器发送第三指示信息，所述第三指示信息用于指示所述边缘服务器将所述边缘服务器的模型信息上报给所述云服务器。
根据权利要求8所述的方法，其特征在于，

所述第三指示信息包括所述第二客户端的地址信息和/或所述云服务器的地址信息。
根据权利要求5所述的方法，其特征在于，所述方法还包括：

所述云服务器向所述边缘服务器发送需求信息，所述需求信息包括所述第一客户端与所述第二客户端的数量之和和/或数据长度之和，所述需求信息用于确定所述第一客户端和第二客户端。
一种模型训练装置，其特征在于，包括：

处理模块，用于获取客户端的第一能力信息和第二能力信息，基于所述第一能力信息和所述第二能力信息确定目标服务器，所述目标服务器为所述客户端上报模型信息的服务器，所述目标服务器包括云服务器或者边缘服务器；

收发模块，用于向所述客户端发送指示信息，所述指示信息用于指示所述客户端将所述客户端的模型信息上报给所述目标服务器。
根据权利要求13所述的装置，其特征在于，

所述第一能力信息包括所述客户端的以下信息中的至少一种：

内存信息、硬盘信息、算力信息、负载信息、信道带宽信息，或，

所述第二能力信息包括所述客户端的以下信息中的至少一种：

联邦学习的客户端能力、联邦学习算法类型、区域信息。
根据权利要求13或14所述的装置，其特征在于，所述处理模块还用于：

获取所述云服务器的需求信息，所述需求信息包括所述客户端的数量和/或数据长度，并具体用于，基于所述第一能力信息、所述第二能力信息和所述需求信息确定所述目标服务器。
根据权利要求13至15中任一项所述的装置，其特征在于，所述指示信息还包括所述云服务器的地址信息和/或所述边缘服务器的地址信息。
一种模型训练的装置，其特征在于，包括：

收发模块，用于接收第一客户端的模型信息以及边缘服务器的模型信息，所述边缘服务器的模型信息是基于第二客户端的模型信息确定的；

处理模块，用于根据所述第一客户端的模型信息以及所述边缘服务器的模型信息确定目标模型信息；

收发模块，还用于向所述第一客户端以及所述边缘服务器发送所述目标模型信息。
根据权利要求17所述的装置，其特征在于，所述收发模块还用于：

向所述第一客户端发送第一指示信息，所述第一指示信息用于指示所述第一客户端将所述第一客户端的模型信息上报给所述云服务器。
根据权利要求18所述的装置，其特征在于，

所述第一指示信息包括所述云服务器的地址信息。
根据权利要求17至19中任一项所述的装置，其特征在于，所述收发模块还用于：

向所述第二客户端发送第二指示信息，所述第二指示用于指示所述第二客户端将所述第二客户端的模型信息上报给所述边缘服务器。
根据权利要求20所述的装置，其特征在于，所述第二指示信息包括所述边缘服务器的地址信息。
根据权利要求17至21中任一项所述的装置，其特征在于，所述收发模块还用于：

向所述边缘服务器发送第三指示信息，所述第三指示信息用于指示所述边缘服务器将所述边缘服务器的模型信息上报给所述云服务器。
根据权利要求22所述的装置，其特征在于，

所述第三指示信息包括所述第二客户端的地址信息和/或所述云服务器的地址信息。
根据权利要求17所述的装置，其特征在于，所述收发模块还用于：

向所述边缘服务器发送需求信息，所述需求信息包括所述第一客户端与所述第二客户端的数量之和和/或数据长度之和，所述需求信息用于确定所述第一客户端和第二客户端。
一种模型训练装置，其特征在于，包括：

处理器和存储介质，所述存储介质存储有指令，所述指令被所述处理器运行时，

使得所述处理器执行如权利要求1至4中任意一项所述的方法，或者

使得所述处理器执行如权利要求5或12所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序在计算机上运行时，

使得所述计算机执行如权利要求1至4中任意一项所述的方法，或者

使得所述计算机执行如权利要求5至12中任意一项所述的方法。
一种芯片系统，其特征在于，包括：处理器，用于从存储器中调用并运行计算机程序，

使得安装有所述芯片系统的模型训练设备执行如权利要求1至4中任意一项所述的方法，或者

使得安装有所述芯片系统的模型训练设备执行如权利要求5至12中任意一项所述的方法。