CN115936361A

CN115936361A - 云边缘系统联邦学习需求响应的在线调度方法及相关装置

Info

Publication number: CN115936361A
Application number: CN202211549023.9A
Authority: CN
Inventors: 朱孔林; 王飞; 徐天行; 张琳
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-12-05
Filing date: 2022-12-05
Publication date: 2023-04-07

Abstract

本申请公开了一种云边缘系统联邦学习需求响应的在线调度方法及相关装置，方法包括获取各联邦学习任务的任务参数，并基于各任务参数以及调度参数确定任务社会福利及系统社会福利；以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束及能量上限约束，基于任务社会福利及系统社会福利构建长期社会福利最大化问题；解耦所述长期社会福利最大化问题，得到调度结果。本申请以联邦学习任务的在线学习问题为出发点，以在动态环境中构建长期社会福利最大化问题，通过解耦构建长期社会福利最大化问题来实现边缘完了的长期社会福利最大化，从而可以降低联邦学习任务的训练成本。

Description

云边缘系统联邦学习需求响应的在线调度方法及相关装置

技术领域

本申请涉及联邦学习技术领域，特别涉及一种云边缘系统联邦学习需求响应的在线调度方法及相关装置。

背景技术

分布式云边缘系统通常会消耗电网中的大量能量，并且非常适合应急需求响应(EDR)计划。通常，在EDR期间，电网会向云边缘系统发送具有时变能量上限的信号，而云边缘系统必须将其能耗降至能量上限以下，以助于确保电网的稳定性和供需平衡。为此，云边缘系统运营商需要在EDR期间仔细管理其工作负载，特别是在不同用户向系统提交工作负载的公共或共享环境中。然而，每个用户通常只关心自己工作量的执行，而不考虑整个系统的能耗或EDR，这一问题称为“分割激励”。

解决分割激励的一种方法是基于拍卖。也就是说，云边缘运营商充当拍卖商，每个用户充当一个投标人，以自己的估价提交投标书，以执行自己的工作量或任务；拍卖商根据EDR策略性地选择中标者，并安排相应任务的执行。然而，由于用户越来越多地执行人工智能(AI)或机器学习(ML)工作负载这一新兴的范式使得拍卖方法更加困难。

联邦学习为是以分布式方式训练ML模型，其可以使大量设备能够在不共享原始数据的情况下协作学习模型。这样虽然可以就学习时间和能耗而言，具有实际效率和有效性，但是就学习时间和能耗而言，也会产生相当大的成本。由此，如何确定联邦学习任务数量以及每轮训练中的本地迭代次数，成为降低成本的关键问题。

为了解决上述问题，目前普遍采用的方法是以最优地选择联邦学习的控制变量，并以最小化总成本为目标函数来进行调度。然而，现有的方法是针对单个联邦学习任务的，无法解决多个联邦任务的在线学习问题。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种云边缘系统联邦学习需求响应的在线调度方法及相关装置。

为了解决上述技术问题，本申请实施例第一方面提供了一种云边缘系统联邦学习需求响应的在线调度方法，所述的方法包括：

获取当前时刻接收到的各联邦学习任务的任务参数；

以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束及能量上限约束为约束条件，基于各任务参数构建长期社会福利最大化问题；

解耦所述长期社会福利最大化问题，以得到各联邦学习任务对应的调度结果。

在一个实现方式中，所述任务参数包括到达时间、期望准确性、本地迭代次数、离开时间、投标报酬以及超时惩罚函数。

在一个实现方式中，所述以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束及能量上限约束为约束条件，基于各任务参数构建长期社会福利最大化问题具体包括：

基于各任务参数确定各联邦学习任务的任务社会福利以及云边缘系统的系统社会福利；

基于各任务社会福利以及系统社会福利构建目标函数；

以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束和能量上限约束为约束条件，基于所述目标函数构建长期社会福利最大化问题。

在一个实现方式中，所述长期社会福利最大化问题为：

其中，I表示联邦学习任务请求集合，T表示预设时间段，x_i表示联邦学习任务i的投标结果，

表示时刻t联邦学习任务i的训练状态，b_i表示联邦学习任务i的投标报酬，g_i(.)表示联邦学习任务i的超时惩罚函数，τ_i表示联邦学习任务i的超时时隙数，ni表示联邦学习任务i的模型精度，r_i表示联邦学习任务i的全局迭代次数，e_t表示t时刻的电量消耗值，f_t(.)表示时刻t对应的电费计算函数,γ和γ均是常数，θ_i(n_i)是n_i的函数,

表示集合，在t时刻选择联邦学习任务i的边缘服务器，E_i,k(n_i)E'_i,k(n_i)E”_i(n_i)是关于n_i的函数，ε_i表示期望准确性。

在一个实现方式中，所述解耦所述长期社会福利最大化问题，以得到各联邦学习任务对应的调度结果具体包括：

将所述长期社会福利最大化问题转换为时刻表选择问题；

采用原始对偶算法解耦所述时刻表选择问题，以得到各联邦学习任务对应的调度结果。

在一个实现方式中，所述将所述长期社会福利最大化问题转换为时刻表选择问题具体包括：

将预设时间段划分为若干时隙；

对于每个时隙，将

设置为定值以将长期社会福利最大化问题转换为时刻表选择问题，其中，x_i表示联邦学习任务i的投标结果，

表示时刻t联邦学习任务i的训练状态，τ_i表示联邦学习任务i的超时时隙数，n_i表示联邦学习任务i的模型精度，r_i表示联邦学习任务i的全局迭代次数。

在一个实现方式中，所述通过原始对偶算法求解所述时刻表选择问题，以得到各联邦学习任务对应的调度结果具体包括：

对于每个联邦学习任务，通过拉格朗日对偶算法确定所述时刻表选择问题对应的对偶问题；

通过动态规划算法解耦所述对偶问题，以得到各联邦学习任务对应的调度结果。

本申请实施例第二方面提供了一种云边缘系统联邦学习需求响应的在线调度系统，所述系统包括：

获取模块，用于获取当前时刻接收到的各联邦学习任务的任务参数；

构建模块，用于以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束及能量上限约束为约束条件，基于各任务参数构建长期社会福利最大化问题；

解耦模块，用于解耦所述长期社会福利最大化问题，以得到各联邦学习任务对应的调度结果。

本申请实施例第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的云边缘系统联邦学习需求响应的在线调度方法中的步骤。

本申请实施例第四方面提供了一种终端设备，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的云边缘系统联邦学习需求响应的在线调度方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种云边缘系统联邦学习需求响应的在线调度方法及相关装置，方法包括获取当前时刻接收到的各联邦学习任务的任务参数，以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束及能量上限约束为约束条件，基于各任务参数构建长期社会福利最大化问题；解耦所述长期社会福利最大化问题，以得到各联邦学习任务对应的调度结果。本申请以联邦学习任务的在线学习问题为出发点，以在动态环境中构建长期社会福利最大化问题，通过解耦构建长期社会福利最大化问题来实现边缘完了的长期社会福利最大化，从而可以降低联邦学习任务的训练成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的云边缘系统联邦学习需求响应的在线调度方法的流程图。

图2为本申请提供的云边缘系统联邦学习需求响应的在线调度方法的流程示例图。

图3为实施例一的示例图。

图4为实施例二的示例图。

图5为本申请提供的云边缘系统联邦学习需求响应的在线调度系统的结构原理图。

图6为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种云边缘系统联邦学习需求响应的在线调度方法及相关装置，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

经过研究发现，分布式云边缘系统通常会消耗电网中的大量能量，并且非常适合应急需求响应(EDR)计划。通常，在EDR期间，电网会向云边缘系统发送具有时变能量上限的信号，而云边缘系统必须将其能耗降至能量上限以下，以助于确保电网的稳定性和供需平衡。为此，云边缘系统运营商需要在EDR期间仔细管理其工作负载，特别是在不同用户向系统提交工作负载的公共或共享环境中。然而，每个用户通常只关心自己工作量的执行，而不考虑整个系统的能耗或EDR，这一问题称为“分割激励”。

对于多个联邦任务的在线学习，每个联邦学习任务的信息(联邦学习任务到达时间、模型精度、本地迭代次数、全局迭代次数、离开时间)在到达之前都是时变的、不可预测的，从而多个联邦任务的在线学习为一个动态环境。此外，每个联邦学习任务的投标通常都有一个截止日期，而这个截止日期是可以违反超过的，当违反截止日期时，云边缘系统服务质量会下降，产生一定的惩罚，而调整模型的精度会影响训练完成的时间。因此，在适应每个联邦学习任务的最后期限的同时，还需要确定每个联邦学习任务模型的精度，这样会影响能源供应，从而影响在这些投标实际到达之前购买未来联邦学习任务投标的决定。从而如何通过对多个联邦任务的在线学习进行调度以确定社会福利最大化成为一个难题。

为此，在本申请实施例中，获取当前时刻接收到的各联邦学习任务的任务参数，并基于各任务参数以及云边缘系统的调度参数确定各联邦学习任务的任务社会福利及云边缘系统的系统社会福利；以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束及能量上限约束，基于任务社会福利以及系统社会福利，构建长期社会福利最大化问题；解耦所述长期社会福利最大化问题，以得到各联邦学习任务对应的调度结果。本申请以联邦学习任务的在线学习问题为出发点，以在动态环境中构建长期社会福利最大化问题，通过解耦构建长期社会福利最大化问题来实现边缘完了的长期社会福利最大化，从而可以降低联邦学习任务的训练成本。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种云边缘系统联邦学习需求响应的在线调度方法，如图1和图2所示，所述方法包括：

S10、获取当前时刻接收到的各联邦学习任务的任务参数。

具体地，云边缘系统包括若干边缘设备，联邦学习任务为需要云边缘系统在预设时间段内训练的联邦学习任务。也就是说，联邦学习任务在当前时刻向云边缘系统发送任务请求，通过该任务请求来请求云边缘系统在预设时间段内对该联邦学习任务进行训练，其中，云边缘系统可以接收联邦学习任务的请求，也可以拒绝联邦学习任务的请求。

任务参数为联邦学习任务的任务参数，其中，任务参数包括到达时间、期望准确性、本地迭代次数、离开时间、投标报酬以及超时惩罚函数。可以理解的是，联邦学习任务在请求云边缘系统执行该联邦学习任务时，会向云边缘系统发送任务需求，即发送任务参数。这里将任务参数记为B_i＝{t_i,ε_i,L_i,d_i,b_i,g_i(.)}，其中，t_i表示联邦学习任务的到达时间，ε_i是联邦学习任务模型想要达到的准确性，L_i是本地迭代次数，d_i是离开时间，b_i是联邦学习任务的投标报酬，g_i(.)是超过离开时间的惩罚函数。

进一步，云边缘系统接收到所有联邦学习任务后，会确定各联邦学习任务各自对应的调度参数，其中，调度参数包括投标结果、训练时刻、模型精度、超时时隙数、全局迭代次数以及耗电量。也就是说，云边网络会将各联邦学习任务各自对应的调度参数作为自变量来构建模型，通过求解模型来确定各联邦学习任务对应的调度参数。这里将调度参数记为

其中，x_i表示联邦学习任务_i的投标结果，x_i∈{0,1}，x_i＝1表示竞标成功，x_i＝0表示竞标失败，

表示时刻t联邦学习任务_i的训练状态，

表示联邦学习任务i是在t时刻训练，

表示联邦学习任务i是在t时刻不训练；n_i∈{1,…,n_max}表示联邦学习任务i的模型精度，即训练时的所使用的位数；τ_i∈{0,1,…,T-d_i}表示联邦学习任务i超时时隙数，即实际离开时间超过计划离开时间的时隙数量；r_i∈{1,…,r_max}表示联邦学习任务i的全局迭代次数；e_t≥0表示云边缘系统在t时刻的总耗电量e_t≥0。此外，云边缘系统会根据各联邦学习任务各自对应的调度参数来决定被执行的联邦学习任务，也就是说，云边缘系统会根据确定调度参数来确定被执行的联邦学习任务以及不被执行的联邦学习任务，以及被执行的联邦学习任务的训练时刻以及模型精度。

S20、以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束、能量上限约束，任务社会福利以及系统社会福利，构建长期社会福利最大化问题。

具体地，任务社会福利用于反映联邦学习任务的收益，系统社会福利用于云边缘系统的收益，其中，系统社会福利基于各联邦学习任务所支持的投标报酬以及训练联邦学习任务所花费的电费所决定，任务社会福利基于投标价格以及超过离开时间的惩罚款项。基于此，联邦学习任务的任务社会福和可以表示为x_ib_i-g_i(τ_i)-p_i，系统社会福利可表示∑_i∈Ip_i-∑_t∈Tf_t(e_t)，其中，p_i表示竞标成功者最终付出的报酬，p_i可以不等于b_i。此外，在确定所有联邦学习任务的任务社会福和系统社会福利后，可以基于两者构建目标函数。

基于各任务社会福利以及系统社会福利构建目标函数；

具体地，目标函数可以为各任务社会福利以及系统社会福利的和，即目标函数＝各任务社会福利+系统社会福利。由此，目标函数可以表示为：P＝∑_i∈I(x_ib_i-g_i(τ_i))-∑_t∈ _Tf_t(e_t)。此外，对于联邦学习任务而言，联邦学习任务训练只能当联邦学习到达后才开始训练，对于云边缘系统而言，云边缘系统自身容量有限，在同一时刻能够全局聚合的联邦学习任务存在上限，只有在拍卖中获胜的联邦学习任务才能在云边缘系统只训练，竞拍成功的联邦学习任务需要在系统中全局聚合足够的次数，以达到目标精度，每个时间段从电网消耗足够的能量来训练联邦学习任务。从而，长期社会福利最大化问题需要采用联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束和能量上限约束作为约束条件。

基于此，所述长期社会福利最大化问题为：

表示时刻t联邦学习任务i的训练状态，b_i表示联邦学习任务i的投标报酬，即如果中标，联邦学习任务i愿意支付的报酬，其可以与联邦学习任务i最后支付的报酬p_i不同，g_i(.)表示联邦学习任务i的超时惩罚函数，τ_i表示联邦学习任务i的超时时隙数，n_i表示联邦学习任务i的模型精度，r_i表示联邦学习任务i的全局迭代次数，et表示t时刻的电量消耗值，f_t(.)表示时刻t对应的电费计算函数,Υ和γ均是常数，θ_i(n_i)是n_i的函数,

S30、解耦所述长期社会福利最大化问题，以得到各联邦学习任务对应的调度结果。

具体地，调度结果为基于待确定的调度参数确定，其中，调度结果包括被接收的联邦学习任务，该联邦学习任务的支付费用，模型精度，全局迭代次数以及离开时间，并且云边缘系统基于调度结果对联邦学习任务进行调度，即确定接收的联邦学习任务以及拒绝的联邦学习任务，以及按照模型精度，全局迭代次数以及离开时间对联邦学习任务进行训练。此外，长期社会福利最大化问题为线性整数规划问题，在解耦长期社会福利最大化问题时，可以将长期社会福利最大化问题转换为时刻表选择问题，然后解耦时刻表选择问题来得到各联邦学习任务对应的调度结果。

将预设时间段划分为若干时隙；

对于每个时隙，将

具体地，预设时间段为预先设置的，为云边缘系统明确当前来自电网的需求响应信号后，需求响应信号所对应的时间段。每个时隙均为预设时间段中的一部分，并且云边缘系统获知每个时隙对应的电能上限。例如，预设时间段为168小时，若干时间段为168个时间段，每个时间段的时长为1小时。

对于每个时隙，将长期社会福利最大化问题中的

设置为定值，那么长期社会福利最大化问题中的自变量变为x_il∈{0,1}和e_t≥0。此外，由于

设置为定值，从而长期社会福利最大化问题中的约束条件(1a)、(1c)和(1d)被去掉，保留约束条件(1f)，将约束条件(1b)和约束条件(1e)分别变化为：

同时，增加约束条件：

基于此，时刻表选择问题可以表示为：

其中，ξ_i表示对于联邦学习任务i而言满足约束条件(1a)(1d)时刻表集合。

将所述长期社会福利最大化问题转换为时刻表选择问题；

具体地，所述时刻表选择问题为NP-hard，从而标准的VCG方法无法解耦时刻表选择问题。为此，本实施例通过原始对偶算法来解耦时刻表选择问题，其中，原始对偶算法为基于原始对偶优化的赢家和付款确定算法，其通过同时处理原始问题的对偶问题来计算赢家情况并输出近似解，其中，赢家指的是被接受的联邦学习任务，通过原始对偶算法可以得到联邦学习任务对应的训练时隙表，并根据社会福利计算竞拍成功者的支付费用，确定联邦学习任务的模型精度、全局迭代次数以及离开时间。

处理原始问题的对偶问题时，保证对偶问题中的对偶变量不断增加，直到对偶约束条件变紧，然后相应的原始变量可以设置为非零值。在满足约束条件之前(即从全局迭代的次数要足够多，使得模型满足其准确度要求)，迭代不会终止。

进一步，在通过原始对偶算法解耦时刻表选择问题时，引入对偶变量μ_i,m_t,v_t，将时刻表选择问题中的变量变换为对偶变量，将时刻表选择问题转换为对偶问题，其中，对偶问题表示为：

其中，

h_t表示t时刻的电价。

在获取到对偶问题后，通过动态规划算法求得对偶变量μ_i的最大值，如果μ_i最大值大于0，表示联邦学习任务i竞拍成功，此时x_il＝1。

综上所述，本实施例提供了一种云边缘系统联邦学习需求响应的在线调度方法，方法包括获取当前时刻接收到的各联邦学习任务的任务参数，以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束及能量上限约束为约束条件，基于各任务参数构建长期社会福利最大化问题；解耦所述长期社会福利最大化问题，以得到各联邦学习任务对应的调度结果。本申请串联起每次的联邦学习拍卖，以长期社会福利最大化为目标，确定每个联邦学习任务的训练时隙、模型精度和全局迭代次数。此外，在解耦所述长期社会福利最大化问题时，通过拉格朗日对偶算法将问题时刻表选择问题转化为每个任务的福利最大化问题，然后通过动态规划算法在多项式时间内选择社会福利最大化的训练时隙，并根据社会福利计算竞拍成功者的支付费用，确定联邦学习任务的模型精度、全局迭代次数以及离开时间。

为了进一步说明本实施例提供的云边缘系统联邦学习需求响应的在线调度方法，下面给出两个具体实施例加以说明。

实施例一

如图3所示，云边缘系统接收到当前来自电网的需求响应信号后，发起反向拍卖活动，征集所有联邦学习任务的竞标，联邦学习任务确定其自身对应的任务参数，其中，任务参数{t_i,∈_i,L_i,d_i,b_i,g_i(.)}包括任务到达时间、模型准确度、局部迭代次数、计划离开时间、竞价、惩罚函数；云边缘系统基于本实施例提供的云边缘系统联邦学习需求响应的在线调度方法确定在云边缘系统中进行训练的目标联邦学习任务，并且各目标联邦学习任务的拍卖结果以及收取费用，云边缘系统目标联邦学习任务的训练时刻以及模型精度对目标联邦学习任务进行训练。

在本实施例中，云边缘系统的社会福利计算方式为∑_i∈Ip_i-∑_t∈tf_t(e_t)，p_i收取的训练任务的费用，f_t(e_t)表示上交给电网的电费，联邦学习任务的社会福利为∑_i∈I(x_ib-g_i(τ_i)-p_i)。由此，长期社会福利最大化问题的目标函数为：

∑_i∈I(x_ib_i-g_i(τ_i))-∑_t∈Tf_t(e_t)

此外，长期社会福利最大化问题的约束条件包括：

1)、需要确保只有联邦学习任务到达后才开始训练，即：

2)、只有竞标成功的联邦学习任务才能被训练，即：

3)、联邦学习任务的全局迭代次数要满足目标准确率要求，即：

其中，Υ是常数，θ_i(n_i)是n_i的函数，ε_i表示任务精度，γ也是常数，

4)、总体能量消耗满足模型训练的要求，即：

其中，

表示集合，在t时刻选择训练任务i的边缘服务器，E_i,k(n_i)E'_i,k(n_i)E”_i(n_i)是关于n_i的函数。

长期社会福利最大化问题的求解过程为：

对于每个给定的n_i，r_i，通过动态规划算法找到

的最大值，当联邦学习任务到达后，在生成联邦学习任务i每个t时刻参与的边缘服务器

将n_i从1遍历到最大值，将r_i从1便利到最大值，找到最大的

值，并输出此时的时刻表l，其中，b_il＝b_ix_i-g_i(τ_i)对应时刻表为l时，b_ix_i-g_i(τ_i)的值，

z_t表示t时刻执行的任务数，

的最大值大于0时，此时接收任务此时时刻表l对应的x_il＝1，y_it＝1,x_i＝1，精度选择n_i,l，全局迭代次数选择r_i,l。当b_i,l-

的最大值小于等于0时，拒绝任务x_il＝0，y_it＝0,x_i＝0。

实施例二

考虑|T|＝168个连续时隙，每个时隙等于一小时。联邦学习任务为图像分类FL任务，使用10类70K灰度手写数字图像的MNIST数据集(训练用60K，测试用10K)，以及10类60K彩色图像的CIFAR-10数据集(训练使用50K，测试使用10K)，采用LeNet-5[38]和具有两个3×3卷积层(其中第一层有16个通道，第二层有32个通道)的卷积神经网络(CNN)，每个层随后是ReLU激活和2×2最大池化层、全连接层和softmax输出层。

如图4所示，在获取到两个数据集和两个模型，可以构建四种类型的FL任务，共计100～500个FL任务，其中，每种类型的FL任务占总FL任务的四分之一。每个FL任务的到达时间t_i取自范围[0,100]。根据谷歌集群中每个任务的服务器数量，对每个FL任务进行培训的边缘K_i数量取自[10,30]。使用r_max和n_max估计每个FL任务或投标的截止日期(注意，在实际安排和培训FL任务时，为了节省精力，仍然可以违反该截止日期)，除非另有规定，否则将使用线性截止日期违规惩罚函数。在不损失通用性的情况下，每个全局迭代的局部迭代次数设置为L_i＝5；每个时隙的最大全局迭代次数设置为r_max＝9；量化的最大比特精度被设置为n_max＝32；目标精度设置为ε_i＝0.01。FL任务i的投标价格设置在[0.1$，1$]范围内，边缘服务器的数量设置为50。

对于上述问题的调度结果的确定过程为：在每个时隙内，所有参与拍卖活动的联邦学习任务提交其竞标值。当云边缘系统接受到报价后，对于FL任务i，通过迭代n_i和r_i来找到最佳调度，其具体过程为：首先，通过云边缘系统的容量和能量找到可行时隙的集合，计算出至少需要多少全局迭代次数来对联邦学习任务进行训练达到目标精度ε_i。然后，通过动态规划计算出最优的时刻表，再找出对偶变量的最大值来确定竞拍是否成功，最后根据对偶变量确定报酬。最后，将调度结果中的赢家以及报酬反馈给竞标者们，云边缘系统根据调度结果中的训练参数对联邦学习任务进行训练，直到整个仿真时隙全部结束。

基于上述云边缘系统联邦学习需求响应的在线调度方法，本实施例提供了一种云边缘系统联邦学习需求响应的在线调度系统，如图5所示，所述系统包括：

获取模块100，用于获取当前时刻接收到的各联邦学习任务的任务参数；

构建模块200，用于以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束及能量上限约束为约束条件，基于各任务参数构建长期社会福利最大化问题；

解耦模块300，用于解耦所述长期社会福利最大化问题，以得到各联邦学习任务对应的调度结果。

基于上述云边缘系统联邦学习需求响应的在线调度方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的云边缘系统联邦学习需求响应的在线调度方法中的步骤。

基于上述云边缘系统联邦学习需求响应的在线调度方法，本申请还提供了一种终端设备，如图6所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-On ly Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种云边缘系统联邦学习需求响应的在线调度方法，其特征在于，所述的方法包括：

获取当前时刻接收到的各联邦学习任务的任务参数；

2.根据权利要求1所述云边缘系统联邦学习需求响应的在线调度方法，其特征在于，所述任务参数包括到达时间、期望准确性、本地迭代次数、离开时间、投标报酬以及超时惩罚函数。

3.根据权利要求1或2所述云边缘系统联邦学习需求响应的在线调度方法，其特征在于，所述以联邦学习任务训练时间约束、联邦学习任务训练条件约束、联邦学习任务的期望准确性约束及能量上限约束为约束条件，基于各任务参数构建长期社会福利最大化问题具体包括：

基于各任务社会福利以及系统社会福利构建目标函数；

4.根据权利要求3所述云边缘系统联邦学习需求响应的在线调度方法，其特征在于，所述长期社会福利最大化问题为：

x_i∈{0,1},

n_i∈{1,…,n_max},r_i∈{1,…,r_max},τ_i∈{0,1,…,|T|-d_i},e_t≥0,

表示时刻t联邦学习任务i的训练状态，b_i表示联邦学习任务i的投标报酬，g_i(.)表示联邦学习任务i的超时惩罚函数，τ_i表示联邦学习任务i的超时时隙数，n_i表示联邦学习任务i的模型精度，r_i表示联邦学习任务i的全局迭代次数，e_t表示t时刻的电量消耗值，f_t(.)表示时刻t对应的电费计算函数,Υ和γ均是常数，

是n_i的函数,

表示集合，在t时刻选择联邦学习任务i的边缘服务器，E_i,k(n_i)E'_i,k(n_i)E″_i(n_i)是关于n_i的函数，ε_i表示期望准确性。

5.根据权利要求1所述云边缘系统联邦学习需求响应的在线调度方法，其特征在于，所述解耦所述长期社会福利最大化问题，以得到各联邦学习任务对应的调度结果具体包括：

将所述长期社会福利最大化问题转换为时刻表选择问题；

6.根据权利要求5所述云边缘系统联邦学习需求响应的在线调度方法，其特征在于，所述将所述长期社会福利最大化问题转换为时刻表选择问题具体包括：

将预设时间段划分为若干时隙；

对于每个时隙，将

7.根据权利要求6所述云边缘系统联邦学习需求响应的在线调度方法，其特征在于，所述通过原始对偶算法求解所述时刻表选择问题，以得到各联邦学习任务对应的调度结果具体包括：

8.一种云边缘系统联邦学习需求响应的在线调度系统，其特征在于，所述系统包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-7任意一项所述的云边缘系统联邦学习需求响应的在线调度方法中的步骤。

10.一种终端设备，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的云边缘系统联邦学习需求响应的在线调度方法中的步骤。