CN114065864B

CN114065864B - 联邦学习方法、联邦学习装置、电子设备以及存储介质

Info

Publication number: CN114065864B
Application number: CN202111381852.6A
Authority: CN
Inventors: 刘吉; 周晨娣; 马北辰; 周吉文; 窦德景
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2023-08-11
Anticipated expiration: 2041-11-19
Also published as: CN114065864A; EP4184400A1; US20230162087A1

Abstract

本公开提供了一种联邦学习方法、联邦学习装置、电子设备以及存储介质，涉人工智能技术领域，尤其涉及分布式数据处理和深度学习技术领域。具体实现方案为：在当前学习周期中，针对至少一个任务中的每个任务，基于调度策略，根据与任务对应的多个备选设备各自的调度信息，确定与任务对应的目标设备集合，其中，调度策略用于使得完成当前学习周期的任务的时间成本信息和设备公平性评估信息满足预定条件；向与每个任务对应的目标设备集合发送与每个任务对应的全局模型，以便利用对应的目标设备集合训练与每个任务对应的全局模型；响应于接收到来自对应的目标设备集合的训练后模型，基于训练后模型更新对应的全局模型，完成当前学习周期。

Description

联邦学习方法、联邦学习装置、电子设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及分布式数据处理和深度学习技术领域。具体地，涉及一种联邦学习方法、联邦学习装置、电子设备以及存储介质。

背景技术

联邦学习(Federated Learning，FL)是一种分布式机器学习技术。联邦学习能够在不公开每个设备的本地数据的情况下，利用多个设备和多个设备各自的本地数据进行模型的协作训练。

发明内容

本公开提供了一种联邦学习方法、联邦学习装置、电子设备以及存储介质。

根据本公开的一方面，提供了一种联邦学习方法，包括：在当前学习周期中，针对至少一个任务中的每个任务，基于调度策略，根据与上述任务对应的多个备选设备各自的调度信息，确定与上述任务对应的目标设备集合，其中，上述调度策略用于使得完成上述当前学习周期的上述任务的时间成本信息和设备公平性评估信息满足预定条件；向与上述每个任务对应的目标设备集合发送与上述每个任务对应的全局模型，以便利用上述对应的目标设备集合训练与上述每个任务对应的全局模型；以及，响应于接收到来自对应的目标设备集合的训练后模型，基于上述训练后模型更新对应的全局模型，完成上述当前学习周期。

根据本公开的另一方面，提供了一种联邦学习装置，包括：第一确定模块，用于在当前学习周期中，针对至少一个任务中的每个任务，基于调度策略，根据与上述任务对应的多个备选设备各自的调度信息，确定与上述任务对应的目标设备集合，其中，上述调度策略用于使得完成上述当前学习周期的上述任务的时间成本信息和设备公平性评估信息满足预定条件；发送模块，用于向与上述每个任务对应的目标设备集合发送与上述每个任务对应的全局模型，以便利用上述对应的目标设备集合训练与上述每个任务对应的全局模型；以及，训练模块，用于响应于接收到来自对应的目标设备集合的训练后模型，基于上述训练后模型更新对应的全局模型，完成上述当前学习周期。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用联邦学习方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的联邦学习方法的流程图；

图3示意性示出了根据本公开实施例的联邦学习的示例示意图；

图4示意性示出了根据本公开实施例的目标设备训练全局模型的示例示意图；

图5示意性示出了根据本公开实施例的联邦学习装置的框图；以及

图6示意性示出了根据本公开实施例的适于实现联邦学习方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

联邦学习的研究越来越受到关注。联邦学习的收敛效率和收敛精度的提高是联邦学习研究的较为重要的方面，但是大多数的研究都是在单任务情况下模型达到收敛的性能，有关多个任务的联邦学习的性能研究较少。如果存在多个任务需要训练，则如何为每个任务分配目标设备集合来更快地使全部任务的全局模型达到收敛，并且收敛效率和收敛精度满足要求是研究的主要问题。

为此，本公开实施例提出了一种联邦学习方案。在当前学习周期中，针对至少一个任务中的每个任务，基于调度策略，根据与任务对应的多个备选设备各自的调度信息，确定与任务对应的目标设备集合。调度策略用于使得完成当前学习周期的任务的时间成本信息和设备公平性评估信息满足预定条件。向与每个任务对应的目标设备集合发送与每个任务对应的全局模型，以便利用对应的目标设备集合训练与每个任务对应的全局模型。响应于接收到来自对应的目标设备集合的训练后模型，基于训练后模型更新对应的全局模型，完成当前学习周期。

每个备选设备可以存储有与每个任务对应的训练数据，因此，数据与设备是关联的，由此，数据公平性可以体现用设备公平性表征。时间成本信息可以体现设备处理能力。调度策略是用于使得完成当前学习周期的任务的时间成本信息和设备公平性评估信息满足预定条件的策略，因此，不仅考虑了设备处理能力，而且还考虑了数据公平性，由此，基于调度策略能够为多个任务合理地确定各自的目标设备集合。在此基础上，利用与任务对应的目标设备集合对任务进行联邦学习，有效保证了多任务的全局模型的收敛精度和收敛效率。

图1示意性示出了根据本公开实施例的可以应用联邦学习方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用联邦学习方法及装置的示例性系统架构可以包括设备，但设备可以无需与服务器进行交互，即可实现本公开实施例提供的联邦学习方法及装置。

如图1所示，根据该实施例的系统架构100可以包括设备101、102、103，网络104和服务器105。网络104用以在设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等。

用户可以使用设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。此外，设备101、102、103可以是边缘设备。

服务器105可以是提供各种服务的各种类型的服务器。例如，服务器105可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，解决了传统物理主机与VPS服务(Virtual Private Server，VPS)中，存在的管理难度大，业务扩展性弱的缺陷。服务器105也可以为分布式系统的服务器，或者是结合了区块链的服务器。

需要说明的是，本公开实施例所提供的联邦学习方法一般可以由服务器105执行。相应地，本公开实施例所提供的联邦学习装置一般可以设置于服务器105中。本公开实施例所提供的联邦学习方法也可以由不同于服务器105且能够与设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的联邦学习装置也可以设置于不同于服务器105且能够与设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的联邦学习方法的流程图。

如图2所示，该方法200包括操作S210～S230。

在操作S210，在当前学习周期中，针对至少一个任务中的每个任务，基于调度策略，根据与任务对应的多个备选设备各自的调度信息，确定与任务对应的目标设备集合。调度策略用于使得完成当前学习周期的任务的时间成本信息和设备公平性评估信息满足预定条件。

在操作S220，向与每个任务对应的目标设备集合发送与每个任务对应的全局模型，以便利用对应的目标设备集合训练与每个任务对应的全局模型。

在操作S230，响应于接收到来自对应的目标设备集合的训练后模型，基于训练后模型更新对应的全局模型，完成当前学习周期。

根据本公开的实施例，每个学习周期可以指一个模型训练轮次。学习周期可以包括多个。任务可以指待执行的任务。至少一个任务可以包括图像处理任务、音频处理任务和文本处理任务中的至少一项。例如，图像处理任务可以包括图像分类、目标检测和语义分割等中的至少一项。音频处理任务可以包括语义识别等。文本处理任务可以包括译文翻译和文本生成等中的至少一项。

根据本公开的实施例，多个任务可以指多个独立的任务。不同任务的全局模型不同。每个任务可以对应于多个学习周期，即，每个任务通过多个学习周期的训练得到满足预期性能的全局模型。预期性能可以包括预测精度小于或等于预定精度阈值、损失函数的输出值收敛和训练轮次达到最大训练轮次中的至少一项。

根据本公开的实施例，参与联邦学习的备选设备的数目可以包括多个。每个备选设备可以设置有与每个任务对应的训练数据(即本地数据)。备选设备的调度信息可以根据备选设备的资源信息和与调度相关的统计信息确定。资源信息可以包括设备硬件资源和存储数据资源中的至少一项。与调度相关的统计信息可以包括被调度的次数的统计值。统计值可以包括平均值或标准差。

根据本公开的实施例，针对至少一个任务中的每个任务，调度策略可以指用于使得完成当前学习周期的任务的时间成本信息和设备公平性评估信息满足预定条件的策略。时间成本信息可以表征训练消耗的时间成本。时间成本信息可以用执行任务所消耗的时长信息表征。设备公平性可以指不同备选设备能够公平地参与联邦学习的模型训练。设备公平性评估值可以用与备选设备调度相关的统计信息表征。例如，与备选设备相关的统计信息可以包括根据备选设备被调度的次数确定的统计值。每个备选设备可以存储有与每个任务对应的训练数据，因此，数据与设备是关联的，由此，数据公平性可以体现用设备公平性表征。数据公平性可以指多个训练数据能够公平地参与联邦学习的模型训练。

根据本公开的实施例，与当前学习周期对应的时间成本信息和设备公平性评估信息可以是根据参与当前学习周期的模型训练的备选设备的调度信息确定的。可以根据与当前学习周期对应的时间成本信息和设备公平性评估信息确定与当前学习周期对应的性能评估信息。性能评估信息可以表征全局模型的训练性能。训练性能可以包括收敛效率和收敛精度。

根据本公开的实施例，多个备选设备可以形成多个组合方式，由此，可以针对当前学习周期得到多个调度方案，每个调度方案包括与至少一个任务中的每个任务对应的备选设备集合。预定条件可以指性能评估信息最优。性能评估信息可以是根据设备时间成本信息和设备公平性评估信息确定的，设备时间成本信息和设备公平性评估信息可以是根据参与当前学习周期的模型训练的备选设备的调度信息确定的，因此，预定条件用于作为从多个调度方案中确定目标调度方案的条件。与目标调度方案对应的备选设备集合可以称为目标设备集合。

根据本公开的实施例，在当前学习周期中，可以针对至少一个任务中的每个任务，基于调度策略，根据与任务对应的多个备选设备各自的调度信息，确定与任务对应的目标设备集合。由此得到至少一个任务各自的目标设备集合。确定至少一个任务中的每个任务的目标设备集合的操作可以是并行执行的。

根据本公开的实施例，针对至少一个任务中的每个任务，可以将与任务对应的全局模型发送给与任务对应的目标设备集合，目标设备集合包括的每个目标设备可以利用目标设备的训练数据训练与任务对应的全局模型，得到与任务对应的训练后模型。与任务对应的每个目标设备模型将训练后模型发送给服务器，服务器对与任务对应的全部训练后模型进行聚合，得到在当前学习周期中与任务对应的新的全局模型。由此得到在当前学习周期全部任务各自的新的全局模型。可以重复上述操作S210～S230，直至满足联合训练结束条件。

根据本公开的实施例，多个任务的全局模型的训练过程可以是异步并行执行的。

根据本公开的实施例，每个备选设备可以存储有与每个任务对应的训练数据，因此，数据与设备是关联的，由此，数据公平性可以体现用设备公平性表征。时间成本信息可以体现设备处理能力。调度策略是用于使得完成当前学习周期的任务的时间成本信息和设备公平性评估信息满足预定条件的策略，因此，不仅考虑了设备处理能力，而且还考虑了数据公平性，由此，基于调度策略能够为多个任务合理地确定各自的目标设备集合。在此基础上，利用与任务对应的目标设备集合对任务进行联邦学习，有效保证了多任务的全局模型的收敛精度和收敛效率。

下面参考图3～图4，结合具体实施例对根据本公开实施例所述的联邦学习方法做进一步说明。

图3示意性示出了根据本公开实施例的联邦学习的示例示意图。

如图3所示，在300中包括服务器301和多个备选设备。服务器301存储有P个任务，每个任务具有与其对应的全局模型，由此包括P个全局模型，包括全局模型301-1至全局模型301-P。与第1任务对应的全局模型为全局模型301-1，与第P任务对应的全局模型为全局模型301-P。

与第1任务对应的备选设备集合为备选设备集合302。与第P个任务对应的备选设备集合为备选设备集合303。备选设备集合302包括备选设备302-1至备选设备302-G。备选设备集合303包括备选设备303-1至备选设备303-Q。P和Q是大于或等于2的整数。

例如，在当前学习周期中，服务器301针对第1任务，基于调度策略，根据与第1任务对应的备选设备集合302各自的调度信息，确定与第1任务对应的目标设备集合。与第1任务对应的目标设备集合包括备选设备302-1和备选设备302-G。

服务器301向与第1任务对应的目标设备集合发送与第1任务对应的全局模型301-1。由于与第1任务对应的目标设备集合包括备选设备302-1和备选设备302-G，因此，分别利用备选设备302-1和备选设备302-G训练全局模型301-1，得到训练后模型301-10和训练后模型301-11。

备选设备302-1将训练后模型301-10发送给服务器301。备选设备302-G将训练后模型301-11发送给服务器301。服务器301基于训练后模型301-10和训练后模型301-11对全局模型301-1进行更新。

服务器301针对第P任务，基于调度策略，根据与第P任务对应的备选设备集合303各自的调度信息，确定与第P任务对应的目标设备集合。与第P任务对应的目标设备集合包括备选设备303-1和备选设备303-Q。

服务器301向与第P任务对应的目标设备集合发送与第P任务对应的全局模型302-P。由于与第P任务对应的目标设备集合包括备选设备303-1和备选设备303-Q，因此，分别利用备选设备303-1和备选设备303-Q训练全局模型302-P，得到训练后模型302-P0和训练后模型302-P1。

备选设备303-1将训练后模型302-P0发送给服务器301。备选设备303-Q将训练后模型302-P1发送给服务器301。服务器301基于训练后模型302-P0和训练后模型302-P1对全局模型302-P进行更新。

图4示意性示出了根据本公开实施例的目标设备训练全局模型的示例示意图。

如图4所示，备选设备302-1利用训练数据302-10训练全局模型301-1，得到训练后模型301-10。

根据本公开的实施例，上述联邦学习方法还可以包括如下操作。

针对与任务对应的多个备选设备中的每个备选设备，根据备选设备的资源信息，确定备选设备执行任务的时长信息。确定备选设备在当前学习周期之前的学习周期中执行任务的次数，作为调度次数。根据时长信息和调度次数，得到备选设备的调度信息。

根据本公开的实施例，资源信息可以包括以下至少一项：CPU(CentralProcessing Unit，中央处理器)的数目、CPU的频率、内存的容量、GPU(GraphicsProcessing Unit，图形处理器)的数目、计算资源的占用信息、本地数据的数据量、通信方式和带宽占用信息等。时长信息可以包括训练时长信息和通信时长信息中的至少一项。

根据本公开的实施例，当前学习周期之前的学习周期可以指当前学习周期之前的全部或部分学习周期。备选设备在当前学习周期之前的学习周期中执行任务的次数可以指备选设备在当前学习周期之前的学习周期被调度的总次数。

根据本公开的实施例，根据备选设备的资源信息，确定备选设备执行任务的时长信息，可以包括如下操作。

根据备选设备的资源信息，确定备选设备的计算指标。计算指标表征备选设备的计算能力。利用预定位移指数分布函数，根据计算指标和备选设备中存储的与任务对应的训练数据的数据量，确定备选设备执行任务的时长信息。

根据本公开的实施例，计算指标可以包括计算能力与通信能力的最大值和计算能力与通信能力的波动值。

根据本公开的实施例，可以根据如下公式(1)～(2)确定计算指标a_k和计算指标μ_k。

根据本公开的实施例，k表征设备的索引，k∈{1，2，......，K-1，K}，K表征全部设备集合，|K|表征全部设备集合包括的设备的数目。全部设备集合可以是由全部设备组成的集合。|K|是大于或等于2的整数。MAC表征与全局模型的权重相关的参数。MAC与权重的数目成正比。f表征CPU的频率。a_k表征与备选设备k对应的计算指标，a_k的单位为ms/sample。μ_k表征与备选设备k对应的另一计算指标。

根据本公开的实施例，可以根据如下公式(3)确定备选设备执行任务的时长信息。

根据本公开的实施例，表征预定位移指数分布函数。/>表征备选设备k存储的与任务m对应的训练数据的数据量。/>表征备选设备k训练与任务m对应的全局模型的训练次数。/>表征备选设备k执行任务m的时长信息。t表征预定时长。

根据本公开的实施例，与任务对应的时间成本信息是根据与任务对应的备选设备集合的时长信息和与全部或部分其他任务对应的目标设备集合的时长信息确定的，其他任务表征至少一个任务中除任务以外的任意一个任务。

根据本公开的实施例，与任务对应的设备公平性评估信息是根据与任务对应的备选设备集合的调度平衡方差和与全部或部分其他任务对应的目标设备集合的调度平衡方差确定的，调度平衡方差是根据设备集合包括的设备的调度次数确定的，设备集合包括备选设备集合或目标设备集合。

根据本公开的实施例，与任务对应的目标设备集合是在任务的时间成本信息和设备公平性评估信息满足预定条件的情况下的备选设备集合。

根据本公开的实施例，针对至少一个任务中的每个任务，在确定与该任务对应的目标设备集合的过程中，可以是建立在任意一个其他任务已经确定了各自的目标设备集合的情况下进行的。

根据本公开的实施例，在确定与该任务对应的目标设备集合的过程中，可以将在该任务的时间成本信息和设备公平性评估信息满足预定条件的情况下得到的备选设备集合确定为与该任务对应的目标设备集合。

根据本公开的实施例，针对当前学习周期，与任务对应的时间成本信息可以是与任务对应的时长信息和与全部或部分其他任务对应的时长信息确定的。与任务对应的时长信息可以是根据与任务对应的备选设备集合的时长信息确定的。例如，备选设备集合包括的多个备选设备各自具有时长信息，与任务对应的时长信息可以是多个时长信息中最长的时长信息。

根据本公开的实施例，可以根据如下公式(4)确定与任务对应的备选设备集合对应的时长信息。

根据本公开的实施例，r表征学习周期。表征在第r个学习周期中，与任务m对应的备选设备集合。/>表征与备选设备集合/>对应的时长信息。M表征全部任务集合，m表征任务的索引，m∈{1，2，......，M-1，M}。|M|表征任务的数目，|M|是大于或等于2的整数。

根据本公开的实施例，调度平衡方差可以是根据设备集合包括的设备的调度次数确定的。如果设备集合是目标设备集合，则调度平衡方差是根据目标设备集合包括的目标设备的调度次数确定的。如果设备集合是备选设备集合，则调度平衡方差是根据备选设备集合包括的备选设备的调度次数确定的。

根据本公开的实施例，可以根据如下公式(5)确定与设备集合对应的调度平衡方差。

根据本公开的实施例，表征与备选设备集合/>对应的调度平衡方差。表征备选设备k在第r个学习周期之前的(r-1)个学习周期执行任务m的总次数。在满足预定条件的情况下，备选设备k即为目标设备k。

根据本公开的实施例，每个任务的调度结果可能会对其他任务的调度产生潜在的影响，因此，在时间成本信息和设备公平性评估信息考虑了其他任务对当前任务的调度设备的影响。上述充分考虑了当前调度方案对其他任务的影响，可以为每个任务更合理地调度设备资源以提高收敛效率。

根据本公开的实施例，操作S210还可以包括如下操作。

基于调度策略，确定调度约束函数，其中，调度约束函数的参数项包括在当前学习周期的情况下，与每个任务的时间成本信息对应的时间成本项和与每个任务的设备公平性评估信息对应的设备公平性评估项。利用调度算法，根据与任务对应的多个备选设备各自的调度信息，确定与任务对应的目标设备集合。目标设备集合的调度信息使得调度约束函数的第一输出值满足预定条件。

根据本公开的实施例，调度约束函数可以是根据调度策略确定的。调度约束函数的参数项可以包括在当前学习周期的情况下，与每个任务的时间成本信息对应的时间成本项和与每个任务的设备公平性评估信息对应的设备公平性评估项。时间成本评估信息和设备公平性评估信息可以根据设备集合的调度信息确定。

根据本公开的实施例，针对至少一个任务中的每个任务，调度约束函数的第一输出值是根据与每个任务对应的目标设备集合的调度信息集合确定的。调度算法可以包括一个或多个。

根据本公开的实施例，可以利用调度算法处理与任务对应的多个备选设备各自的调度信息，使得调度约束函数的第一输出值满足预定条件，将在调度约束函数的第一输出值满足预定条件的情况下确定的与任务对应的备选设备集合，作为与任务对应的目标设备集合。

根据本公开的实施例，可以根据如下公式(6)～(8)确定调度约束函数。

根据本公开的实施例，表征在第r个学习周期已经被调度的设备集合，/> 表征在第r个学习周期中，与任务m对应的多个备选设备。表征在第r个学习周期中，与任务j对应的目标设备集合，j∈{1，2，.....，M-1，M}，j≠m。公式(7)和公式(8)的计算过程可以参见上文所述的公式(1)～(6)。

根据本公开的实施例，可以根据公式(9)确定目标设备集合。

根据本公开的实施例，表征在第r个学习周期中，与任务m对应的目标设备集合。

根据本公开的实施例，调度算法包括至少一个第一调度算法、至少一个第二调度算法和第三调度算法。

根据本公开的实施例，利用调度算法，根据与任务对应的多个备选设备各自的调度信息，确定与任务对应的目标设备集合，可以包括如下操作。

利用至少一个第一调度算法中的每个第一调度算法处理多个备选设备的调度信息，得到与任务对应的第一备选设备集合。第一备选设备集合的调度信息使得调度约束函数的第二输出值满足预定条件且第二输出值大于第一输出值。利用至少一个第二调度算法中的每个第二调度算法处理多个备选设备的调度信息，得到与至少一个任务中的每个任务对应的第二备选设备集合。利用第三调度算法处理至少一个第一备选设备集合和至少一个第二备选设备集合的调度信息，得到与任务对应的目标设备集合。

根据本公开的实施例，调度算法可以包括第一类调度算法、第二类调度算法和第三调度算法。第一类调度算法可以用于实现在使得调度约束函数的第二输入值满足预定条件的情况下，根据多个备选设备各自的调度信息，确定第一备选设备集合。第二类调度算法可以用于实现直接根据多个备选设备各自的调度新，确定第二备选设备集合。

根据本公开的实施例，第一类调度算法可以包括一个或多个第一调度算法。多个第一调度算法可以包括贝叶斯优化(Bayesian Optimization，BO)算法、强化学习(Reinforcement Learning，RL)算法、遗传算法(Genetic Algorithm，GA)和贪心算法(Greedy Algorithm，GA)中的至少一项。

根据本公开的实施例，第二类调度算法可以包括一个或多个第二调度算法。多个第二调度算法可以包括联邦平均(Federated Average，FedAvg)算法和基于联邦学习的启发式设备选择算法中的至少一项。联邦平均算法可以包括随机选择(Random)算法。基于联邦学习的启发式设备选择算法可以包括FedCS(Client Selection for FederatedLearing with Heterogeneous Resources in Mobile Edge)算法。

根据本公开的实施例，针对至少一个任务中的每个任务，可以针对至少一个第一调度算法中的每个第一调度算法，利用第一调度算法处理与任务对应的多个备选设备各自的调度信息，得到使得调度约束函数的第二输出值满足预定条件的第一备选设备集合。即，在使得调度约束函数的第二输出值满足预定条件的情况下，利用第一调度算法处理与任务对应的多个备选设备各自的调度信息，从多个备选设备中确定第一备选设备集合。由此，针对每个第一调度算法，均可以利用上述方式得到第一备选设备集合，由此得到至少一个第一备选设备集合。

根据本公开的实施例，针对至少一个第二调度算法中的每个第二调度算法，利用第二调度算法处理与任务对应的多个备选设备各自的调度信息，得到与第二调度算法对应的第二备选设备集合。由此得到至少一个第二备选设备集合。

根据本公开的实施例，在获得至少一个第一备选设备集合和至少一个第二备选设备集合之后，可以利用第三调度算法处理至少一个第一备选设备集合的调度信息集合和至少一个第二备选设备集合的调度信息集合，得到使得调度约束函数的第一输出值满足预定条件，且第一输出值小于第二输出值的目标设备集合。

例如，在第r个学习周期中，针对任务m，可以分别利用BO算法、RL算法、遗传算法和贪心算法来求解公式(6)，得到与贝叶斯优化算法对应的第一备选设备集合与强化学习算法对应的第一备选设备集合/>与遗传算法对应的第一备选设备集合/>与贪心算法对应的第一备选设备集合/>

分别利用FedCS算法和Random算法处理与任务m对应的多个备选设备集合各自的调度信息，得到与FedCS算法的对应的第二备选设备集合与Random算法对应的第二备选设备集合/>

利用第三调度算法在中选择满足公式(6)的与任务m对应的目标设备集合，

根据本公开的实施例，操作210可以包括如下操作。

并行执行以下操作，得到与每个任务对应的目标设备集合：基于调度策略，根据与每个任务对应的多个备选设备各自的调度信息，得到与每个任务对应的目标设备集合。

根据本公开的实施例，多个任务的各自的目标设备集合的确定操作可以并行执行，而不互相等待，提高了收敛效率。

根据本公开的实施例，可以根据如下公式(10)确定学习周期的数目。

根据本公开的实施例，知/>均表征与任务m对应的超参数。超参数表征与任务m的收敛曲线相关的参数。l_m表征预定损失函数的输出值。R_m表征实现预定损失函数的输出值所需要的学习周期的数目。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他联邦学习方法，只要能够提高收敛效率和收敛精度即可。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图5示意性示出了根据本公开实施例的联邦学习装置的框图。

如图5所示，联邦学习装置500可以包括第一确定模块510、发送模块520和训练模块530。

第一确定模块510，用于在当前学习周期中，针对至少一个任务中的每个任务，基于调度策略，根据与任务对应的多个备选设备各自的调度信息，确定与任务对应的目标设备集合。调度策略用于使得完成当前学习周期的任务的时间成本信息和设备公平性评估信息满足预定条件。

发送模块520，用于向与每个任务对应的目标设备集合发送与每个任务对应的全局模型，以便利用对应的目标设备集合训练与每个任务对应的全局模型。

训练模块530，用于响应于接收到来自对应的目标设备集合的训练后模型，基于训练后模型更新对应的全局模型，完成当前学习周期。

根据本公开的实施例，上述联邦学习装置500还可以包括第二确定模块、第三确定模块和获得模块。

第二确定模块，用于针对与任务对应的多个备选设备中的每个备选设备，根据备选设备的资源信息，确定备选设备执行任务的时长信息。

第三确定模块，用于确定备选设备在当前学习周期之前的学习周期中执行任务的次数，作为调度次数。

获得模块，用于根据时长信息和调度次数，得到备选设备的调度信息。

根据本公开的实施例，第二确定模块可以包括第一确定子模块和第二确定子模块。

第一确定子模块，用于根据备选设备的资源信息，确定备选设备的计算指标。计算指标表征备选设备的计算能力。

第二确定子模块，用于利用预定位移指数分布函数，根据计算指标和备选设备中存储的与任务对应的训练数据的数据量，确定备选设备执行任务的时长信息。

根据本公开的实施例，第一确定模块510可以包括第三确定子模块和第四确定子模块。

第三确定子模块，用于基于调度策略，确定调度约束函数。调度约束函数的参数项包括在当前学习周期的情况下，与每个任务的时间成本信息对应的时间成本项和与每个任务的设备公平性评估信息对应的设备公平性评估项。

第四确定子模块，用于利用调度算法，根据与任务对应的多个备选设备各自的调度信息，确定与任务对应的目标设备集合。目标设备集合的调度信息使得调度约束函数的第一输出值满足预定条件。

根据本公开的实施例，第四确定子模块可以包括第一获得单元、第二获得单元和第三获得单元。

第一获得单元，用于利用至少一个第一调度算法中的每个第一调度算法处理多个备选设备的调度信息，得到与任务对应的第一备选设备集合，其中，第一备选设备集合的调度信息使得调度约束函数的第二输出值满足预定条件且第二输出值大于第一输出值。

第二获得单元，用于利用至少一个第二调度算法中的每个第二调度算法处理多个备选设备的调度信息，得到与至少一个任务中的每个任务对应的第二备选设备集合。

第三获得单元，用于利用第三调度算法处理至少一个第一备选设备集合和至少一个第二备选设备集合的调度信息，得到与任务对应的目标设备集合。

根据本公开的实施例，所述至少一个第一调度算法包括以下至少一项：贝叶斯优化算法、强化学习算法、遗传算法和贪心算法。

根据本公开的实施例，所述至少一个第二调度算法包括以下至少一项：联邦平均算法和基于联邦学习的启发式设备选择算法。

根据本公开的实施例，第一确定模块510可以包括并行执行子模块。

并行执行子模块，用于并行执行以下操作，得到与每个任务对应的目标设备集合：基于调度策略，根据与每个任务对应的多个备选设备各自的调度信息，得到与每个任务对应的目标设备集合。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图6示意性示出了根据本公开实施例的适于实现联邦学习方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，电子设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如联邦学习方法。例如，在一些实施例中，联邦学习方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的联邦学习方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行联邦学习方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种联邦学习方法，包括：

在当前学习周期中，针对至少一个任务中的每个任务，基于调度策略，根据与所述任务对应的多个备选设备各自的调度信息，确定与所述任务对应的目标设备集合，其中，所述调度策略用于使得完成所述当前学习周期的所述任务的时间成本信息和设备公平性评估信息满足预定条件；

向与所述每个任务对应的目标设备集合发送与所述每个任务对应的全局模型，以便利用所述对应的目标设备集合训练与所述每个任务对应的全局模型；以及

响应于接收到来自对应的目标设备集合的训练后模型，基于所述训练后模型更新对应的全局模型，完成所述当前学习周期；

其中，与所述任务对应的时间成本信息是根据与所述任务对应的备选设备集合的时长信息和与全部或部分其他任务对应的目标设备集合的时长信息确定的，所述其他任务表征所述至少一个任务中除所述任务以外的任意一个任务；

其中，与所述任务对应的设备公平性评估信息是根据与所述任务对应的备选设备集合的调度平衡方差和与全部或部分所述其他任务对应的目标设备集合的调度平衡方差确定的，所述调度平衡方差是根据设备集合包括的设备的调度次数确定的，所述设备集合包括所述备选设备集合或所述目标设备集合。

2.根据权利要求1所述的方法，还包括：

针对与所述任务对应的多个备选设备中的每个备选设备，根据所述备选设备的资源信息，确定所述备选设备执行所述任务的时长信息；

确定所述备选设备在所述当前学习周期之前的学习周期中执行所述任务的次数，作为调度次数；以及

根据所述时长信息和所述调度次数，得到所述备选设备的调度信息。

3.根据权利要求2所述的方法，其中，所述根据所述备选设备的资源信息，确定所述备选设备执行所述任务的时长信息，包括：

根据所述备选设备的资源信息，确定所述备选设备的计算指标，其中，所述计算指标表征所述备选设备的计算能力；以及

利用预定位移指数分布函数，根据所述计算指标和所述备选设备中存储的与所述任务对应的训练数据的数据量，确定所述备选设备执行所述任务的时长信息。

4.根据权利要求2或3所述的方法，其中，与所述任务对应的目标设备集合是在所述任务的时间成本信息和设备公平性评估信息满足预定条件的情况下的备选设备集合。

5.根据权利要求4所述的方法，其中，所述基于调度策略，根据与所述任务对应的多个备选设备各自的调度信息，确定与所述任务对应的目标设备集合，包括：

基于所述调度策略，确定调度约束函数，其中，所述调度约束函数的参数项包括在所述当前学习周期的情况下，与所述每个任务的时间成本信息对应的时间成本项和与所述每个任务的设备公平性评估信息对应的设备公平性评估项；以及

利用调度算法，根据与所述任务对应的多个备选设备各自的调度信息，确定与所述任务对应的目标设备集合，其中，所述目标设备集合的调度信息使得所述调度约束函数的第一输出值满足所述预定条件。

6.根据权利要求5所述的方法，其中，所述调度算法包括至少一个第一调度算法、至少一个第二调度算法和第三调度算法；

其中，所述利用调度算法，根据与所述任务对应的多个备选设备各自的调度信息，确定与所述任务对应的目标设备集合，包括：

利用所述至少一个第一调度算法中的每个第一调度算法处理所述多个备选设备的调度信息，得到与所述任务对应的第一备选设备集合，其中，所述第一备选设备集合的调度信息使得调度约束函数的第二输出值满足所述预定条件且所述第二输出值大于所述第一输出值；

利用所述至少一个第二调度算法中的每个第二调度算法处理所述多个备选设备的调度信息，得到与所述至少一个任务中的每个任务对应的第二备选设备集合；以及

利用所述第三调度算法处理至少一个所述第一备选设备集合和至少一个所述第二备选设备集合的调度信息，得到与所述任务对应的目标设备集合。

7.根据权利要求6所述的方法，其中，所述至少一个第一调度算法包括以下至少一项：贝叶斯优化算法、强化学习算法、遗传算法和贪心算法；

其中，所述至少一个第二调度算法包括以下至少一项：联邦平均算法和基于联邦学习的启发式设备选择算法。

8.根据权利要求1～3中任一项所述的方法，其中，所述针对至少一个任务中的每个任务，基于调度策略，根据与所述任务对应的多个备选设备各自的调度信息，确定与所述任务对应的目标设备集合，包括：

并行执行以下操作，得到与所述每个任务对应的目标设备集合：

基于所述调度策略，根据与所述每个任务对应的多个备选设备各自的调度信息，得到与所述每个任务对应的目标设备集合。

9.一种联邦学习装置，包括：

第一确定模块，用于在当前学习周期中，针对至少一个任务中的每个任务，基于调度策略，根据与所述任务对应的多个备选设备各自的调度信息，确定与所述任务对应的目标设备集合，其中，所述调度策略用于使得完成所述当前学习周期的所述任务的时间成本信息和设备公平性评估信息满足预定条件；

发送模块，用于向与所述每个任务对应的目标设备集合发送与所述每个任务对应的全局模型，以便利用所述对应的目标设备集合训练与所述每个任务对应的全局模型；以及

训练模块，用于响应于接收到来自对应的目标设备集合的训练后模型，基于所述训练后模型更新对应的全局模型，完成所述当前学习周期；

10.根据权利要求9所述的装置，还包括：

第二确定模块，用于针对与所述任务对应的多个备选设备中的每个备选设备，根据所述备选设备的资源信息，确定所述备选设备执行所述任务的时长信息；

第三确定模块，用于确定所述备选设备在所述当前学习周期之前的学习周期中执行所述任务的次数，作为调度次数；以及

获得模块，用于根据所述时长信息和所述调度次数，得到所述备选设备的调度信息。

11.根据权利要求10所述的装置，其中，所述第二确定模块，包括：

第一确定子模块，用于根据所述备选设备的资源信息，确定所述备选设备的计算指标，其中，所述计算指标表征所述备选设备的计算能力；以及

第二确定子模块，用于利用预定位移指数分布函数，根据所述计算指标和所述备选设备中存储的与所述任务对应的训练数据的数据量，确定所述备选设备执行所述任务的时长信息。

12.根据权利要求10或11所述的装置，其中，与所述任务对应的目标设备集合是在所述任务的时间成本信息和设备公平性评估信息满足预定条件的情况下的备选设备集合。

13.根据权利要求12所述的装置，其中，所述第一确定模块，包括：

第三确定子模块，用于基于所述调度策略，确定调度约束函数，其中，所述调度约束函数的参数项包括在所述当前学习周期的情况下，与所述每个任务的时间成本信息对应的时间成本项和与所述每个任务的设备公平性评估信息对应的设备公平性评估项；以及

第四确定子模块，用于利用调度算法，根据与所述任务对应的多个备选设备各自的调度信息，确定与所述任务对应的目标设备集合，其中，所述目标设备集合的调度信息使得所述调度约束函数的第一输出值满足所述预定条件。

14.根据权利要求13所述的装置，其中，所述调度算法包括至少一个第一调度算法、至少一个第二调度算法和第三调度算法；

其中，所述第四确定子模块，包括：

第一获得单元，用于利用所述至少一个第一调度算法中的每个第一调度算法处理所述多个备选设备的调度信息，得到与所述任务对应的第一备选设备集合，其中，所述第一备选设备集合的调度信息使得调度约束函数的第二输出值满足所述预定条件且所述第二输出值大于所述第一输出值；

第二获得单元，用于利用所述至少一个第二调度算法中的每个第二调度算法处理所述多个备选设备的调度信息，得到与所述至少一个任务中的每个任务对应的第二备选设备集合；以及

第三获得单元，用于利用所述第三调度算法处理至少一个所述第一备选设备集合和至少一个所述第二备选设备集合的调度信息，得到与所述任务对应的目标设备集合。

15.根据权利要求14所述的装置，其中，所述至少一个第一调度算法包括以下至少一项：贝叶斯优化算法、强化学习算法、遗传算法和贪心算法；

16.根据权利要求9～11中任一项所述的装置，其中，所述第一确定模块，包括：

并行执行子模块，用于并行执行以下操作，得到与所述每个任务对应的目标设备集合：

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～8中任一项所述的方法。