CN117692939B

CN117692939B - 一种动态通信环境下的客户端调度方法

Info

Publication number: CN117692939B
Application number: CN202410149801.8A
Authority: CN
Inventors: 郭永安; 王国成; 李嘉靖; 王宇翱
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-02-02
Filing date: 2024-02-02
Publication date: 2024-04-12
Anticipated expiration: 2044-02-02
Also published as: CN117692939A

Abstract

本发明属于动态通信环境下的客户端调度技术领域，涉及一种动态通信环境下的客户端调度方法；将所有客户端都进行本地模型训练，然后基于客户端训练的状态（通信延迟、资源能耗）定义客户端的状态向量，再结合客户端的两个动作状态选择性能最优的一批客户端；根据客户端的状态向量和动作空间定义客户端可用性，再选择一组客户端上传本地模型进行全局聚合，本发明状态向量是根据客户端的实时状态进行动态调整和适应，这使得系统能够根据客户端的实际情况做出更合理的决策，最大效率的选择合适的客户端参与模型聚合，客户端可用性可以更准确的评估每个客户端的性能和可参与度，提高模型训练的精度和效率。

Description

一种动态通信环境下的客户端调度方法

技术领域

本发明属于动态通信环境下的客户端调度技术领域，具体来说是一种动态通信环境下的客户端调度方法。

背景技术

随着分布式设备数据的爆炸式增长，数据隐私安全问题日益突出，集中式模型训练方案可能不再适用。因此，联邦学习应运而生，但是现有的联邦学习研究仍有许多可以优化的方面。一方面，由于客户端的异质性和不平衡性问题，某些客户端的数据可能更具有代表性，训练出的模型效果更佳，但是该客户端在全局聚合阶段可能不会被选中参与模型聚合，因此引发公平性问题。另一方面，由于计算资源不足、网络连接问题等原因，某些客户端与服务器断开，无法参与到模型训练过程中，导致模型训练不平衡以及模型漂移等危害。

在主流的联邦学习研究中，采用随机选择的方式进行客户端调度，该方法会降低模型训练的效率。在此基础上，有些研究进行了改进，比如通过二进制选择机制选择客户端参与聚合等等，但仍未考虑客户端实时状态的影响。因此引入深度强化学习算法的客户端选择策略为该问题提供了解决思路。另一方面，在现有的联邦学习研究中，均默认客户端和服务器是一直相连的，忽略了客户端的间歇可用性，这与实际情况有很大差距，因此在联邦学习研究中考虑客户端实际情况下的间歇可用性是很有必要的。

目前，针对客户端间歇可用性问题，在2023年的一篇JSTSP期刊文章中指出，该论文是第一个正式解决联邦学习中的客户端间歇不确定性的工作。在这篇文章中，提前给定每个客户端的可用概率，再通过概率论的方法求解出每个客户端的长期参与率，即客户端被选择参与模型聚合的频率。每个客户端在模型聚合时的贡献程度取决于长期参与率的大小。但该方法存在一个弊端，客户端的可用概率是固定的，并不能适应动态的时变环境。另外，可用概率的不当设定会给全局模型注入偏差和方差。例如，申请公布号为CN 116755883A的中国发明专利公开了联邦学习客户端优化选择方法，公开用贪心算法进行客户端选择，是在每一轮中指定[M×q]个随机客户端参与本轮的训练任务，该方法忽略了客户端的异质性，未综合考虑所有客户端的性能，且只对固定选择的几个客户端考虑了更新和上传时间，因此训练出的模型效果不佳，另外，该专利默认客户端在模型训练过程中始终与服务器连接，忽略了客户端掉线的问题。

因此，需要一种动态通信环境下的客户端调度方法，以解决未全面考虑客户端的异质性和不平衡性问题以及客户端间歇性问题。

发明内容

本发明针对上述现有技术中存在的问题，提供一种动态通信环境下的客户端调度方法，引入客户端选择策略和客户端间歇可用性来解决上述问题，提出了FCSTV算法，基于客户端的实时状态，智能地选择客户端子集，加强了模型训练在分布式环境中的准确性，也提高了模型的训练效率。同时，结合客户端间歇性问题，引入客户端可用性作为评估指标，统计调整客户端选择策略，提高模型训练的稳定性。

为了实现上述目的，本发明采用以下技术方案：一种动态通信环境下的客户端调度方法，所述方法包括以下步骤：

步骤1，通过1个边缘服务器和N个客户端构成联邦学习模型；客户端的集合为U，每个客户端拥有一个本地数据集，该本地数据集是随时间的变化而变化的；

步骤2，k轮次迭代训练中，边缘服务器将全局模型分配给N个客户端，客户端n基于其本地数据集进行训练，得到本地模型；

步骤3，根据客户端的通信延迟和资源能耗得到客户端的状态向量；

步骤4，定义客户端的动作空间，动作空间包括两个动作：客户端未被选中参与联邦学习模型的聚合和客户端被选中参与联邦学习模型的聚合；

步骤5，基于客户端的两个动作分别获得奖励，奖励可以反馈当前状态下采取的动作，通过奖励评估客户端选择某个动作的利弊；

步骤6，根据客户端的状态向量、动作空间和奖励定义Q函数，通过Q函数计算客户端每个动作的Q值，并选择两个动作中Q值大的作为客户端当前的动作；通过学习Q函数，评估客户端在当前状态下采取某个动作之后所能获得的奖励价值，帮助客户端选择最优的动作，以最大化未来的累积奖励；

步骤7，将当前动作为客户端被选中参与联邦学习模型的聚合的客户端形成客户端子集C；

步骤8，为了避免在模型训练过程中，部分客户端在某些时间点无法参与聚合的问题，根据客户端状态向量和动作空间定义客户端可用性，来描述客户端在参与模型聚合过程中的可靠性；然后计算客户端子集C中每个客户端的客户端可用性；

步骤9，将计算得到的客户端可用性从大到小进行排序，并判断客户端是否与边缘服务器连通，最后进行遍历，按照客户端可用性从大到小的顺序从与边缘服务器连通的客户端中选择前s个客户端，形成被选中参与联邦学习模型的客户端集合S；如果第一次遍历时，与边缘服务器连通的客户端数量小于s，则从客户端子集C中剩下的客户端进行下一次或多次遍历，直至被选中参与联邦学习模型聚合的客户端集合S中的客户端数量达到s；

步骤10，完成客户端的选择，集合S中的客户端上传本地模型参与联邦学习模型的聚合，得到全局模型。

进一步地，步骤3中所述的客户端的通信延迟，具体为：

假设边缘服务器通过具有带宽的无线链路与其范围内的客户端进行通信，而没有小区间干扰；边缘服务器在每个轮次中以的比例将带宽平均分配给其范围内的客户端，在时隙t中，客户端n的传输速率表示为：

其中，表示整体带宽，表示客户端n到边缘服务器的传输功率，表示无线链路的信道增益，表示噪声谱密度；

客户端n基于本地数据集训练得到本地模型，被选择的客户端将本地模型上传到边缘服务器的大小为：

其中，为本地数据集的大小；表示本地模型在第k轮迭代中对样本的预测和实际输出的损失函数；表示损失函数的维度；和分别表示输入样本和输出标记的维度，表示权重因子。综合考虑了本地模型对每个样本的损失函数维度，同时还考虑了输入样本和输出标记的维度，通过引入权重因子，用以平衡每个样本在模型大小计算中的贡献。

客户端n传输到边缘服务器的通信延迟为：

。

所述的客户端的资源能耗，具体为：客户端根据本地数据集进行本地更新训练，考虑产生的能耗包括计算能耗和更新能耗；其中计算能耗由本地训练产生，更新能耗由上传本地模型至边缘服务器所产生；

在k轮次迭代训练中，计算能耗的计算公式为：

其中，表示客户端n执行一个本地数据集的CPU周期数，表示客户端n运行一轮所需的CPU周期数，表示客户端n的CPU周期频率；是客户端n的计算芯片组的有效电容系数；

在k轮次迭代训练中，客户端训练完成得到本地模型，边缘服务器基于客户端选择策略选择一个客户端子集，客户端子集中的客户端上传自身的本地模型到边缘服务器进行模型聚合，更新能耗的计算公式为：

其中，表示客户端n到边缘服务器的传输功率，表示客户端n传输到边缘服务器的通信延迟；

因此得到资源能耗为：

其中，表示权重系数，用于平衡计算能耗和更新能耗在资源能耗计算中所占的比重。

进一步地，步骤4中动作空间的定义如下：

，表示在第k轮迭代训练时，客户端未被选中参与联邦学习模型的聚合；

，表示在第k轮迭代训练时，客户端被选中参与联邦学习模型的聚合。

进一步地，步骤5中，奖励函数的定义如下：

在k轮次中，客户端采取动作后会获得一个奖励，奖励可以反馈当前状态下所采取的动作，并评估选择动作的利弊：

其中，表示在第k轮次后客户端n的本地模型精度，表示目标精度。

进一步地，步骤6中Q值函数的定义具体如下：

定义目标Q值函数，通过下一轮的客户端动作的最大Q值与当前的奖励相加计算目标Q值，具体表示如下：

表示折扣因子，表示客户端n的两个动作中Q值最大值；表示客户端n第k+1轮次的状态向量；表示客户端n第k+1轮次的动作空间；通过调节来优化Q网络，获得更准确的客户端的动作选择决策；

定义Q值近似误差，用来度量当前计算的Q值与目标值之间的差异，通过最小化Q值近似误差，指导算法进行Q网络的更新和优化，使客户端能够更有效地选择和更新动作，实现更精确的决策和更高的任务性能：

。

进一步地，由于客户端可用性计算所包含的变量具有不同量纲和范围，首先对参与计算的变量进行归一化处理：

其中，分别表示时间间隔、通信延迟、资源能耗的方差，表示客户端参与联邦学习模型聚合的时间间隔，表示客户端参与联邦学习模型聚合的平均时间间隔，为客户端距离上一次参与联邦学习模型聚合时间间隔的归一化表示；表示客户端的归一化通信延迟，表示平均通信延迟；表示客户端的归一化资源能耗，表示平均资源能耗，表示客户端被选中参与联邦学习模型训练的累计次数。

本发明具有以下技术效果：（1）本发明通过在联邦学习模型训练过程中的客户端选择阶段，提出FCSTV算法，所有客户端都进行本地模型训练，然后基于客户端训练的状态（通信延迟、资源能耗）定义客户端的状态向量，再结合客户端的两个动作选择性能最优的一批客户端；根据客户端的状态向量和动作空间定义客户端可用性，客户端可用性越大，则客户端在更新过程中更可靠，发生断开的概率越小；可以更准确的评估每个客户端的性能和可参与度，进一步判断客户端的连接性；同时，状态向量是根据客户端的实时状态进行动态调整和适应，这使得系统能够根据客户端的实际情况做出更合理的决策，最大效率的选择合适的客户端参与模型聚合，以此来提高模型训练的精度和效率，也能更好的适应不同的客户端环境和条件。

（2）本发明充分考虑了客户端间歇可用性问题。某些客户端由于计算资源不足、网络问题等原因无法与服务器建立连接，进而无法上传模型参数，影响联邦学习模型训练的整体性能。本发明定义了客户端可用性这一指标来衡量客户端在联邦学习过程中能够参与模型聚合的概率。

附图说明

图1为本发明中动态通信环境下的客户端调度方法的架构图；

图2为本发明中基于FCSTV算法的客户端选择方法流程示意图；

图3为本发明中基于深度强化学习的客户端选择方案流程示意图；

图4为本发明中基于动态通信环境约束的客户端选择方法流程示意图；

图5为本发明基于FCSTV算法的客户端选择方法与三种方法FedAvg、Favor、F3AST的训练损失的对比图；

图6为本发明基于FCSTV算法的客户端选择方法与三种方法FedAvg、Favor、F3AST的模型精度的对比图。

具体实施方式

下面将对本发明的内容和附图作详细说明，本实施例在以本发明技术方案为前提下进行实施，涉及到详细的实施方案与操作过程，但本发明的保护范围不仅限于下列的具体实施例，在本发明中使用的术语仅仅是出于描述特定实施例的目的，而非旨在限制本发明。

图1为动态通信环境下的客户端调度方法的架构图，本发明构建了一个具有1个边缘服务器和N个客户端的场景，提出FCSTV算法，客户端的集合为U，每个客户端拥有一个本地数据集，该数据集是随时间的变化而变化的；因此每个客户端可以基于其时变的本地数据集参与联邦学习训练过程，在每轮次的迭代训练中，从集合U中选择一个客户端子集，然后将客户端子集S中所有的本地模型上传到边缘服务器聚合生成全局模型。

图2为基于FCSTV算法的客户端选择方法流程示意图，一种动态通信环境下的客户端调度方法，具体步骤如下：

步骤1，在k轮次中，边缘服务器将全局模型分配给N个客户端，然后客户端n根据其本地数据集训练全局模型，得到自己的本地模型：

；

其中，表示步长，在仿真实验中设置数值为0.01。表示客户端损失函数的梯度；

接下来，集合S中被选择的客户端将本地模型上传到边缘服务器进行全局聚合，聚合得到的全局模型为：

；

提出的联邦学习训练方法目标是获得全局模型的最优值，用最小化全局损失函数获得全局模型的最优值：

；

其中，表示正则化项，用于控制模型的复杂度，放置过拟合，在仿真中用模型的权重参数绝对值之和来表示；表示正则化系数，仿真实验中设置为5.0。用于平衡损失函数中分类损失和正则化项，表示每个客户端的损失函数：

其中，表示客户端的本地数据集的大小；将给定的本地数据集定义为一组输入输出——{，}，其中是一个具有d特征的输入样本向量，是样本的标记输出值。在一个典型的学习问题中，对于带有输入的样本数据{，}，任务是找到表征输出的模型和损失函数；

在联邦学习中，往往需要多轮迭代训练才能达到收敛效果，用k代表迭代轮次，k的数值有设定的目标精度阈值动态决定，具体地，当全局模型的精度达到所预定的目标精度阈值时，数值设置为0.95，训练终止，目标精度满足以下公式：

。

步骤2，定义客户端的状态，根据客户端的通信延迟和资源能耗得到客户端的状态向量；

（1）通信延迟：本地模型经由无线链路上传至边缘服务器进行聚合；假设边缘服务器通过具有带宽的无线链路与其范围内的客户端进行通信，而没有小区间干扰；边缘服务器在每个轮次中以的比例将带宽平均分配给其范围内的客户端，由香农公式可以得出，在时隙t中，客户端n的传输速率表示为：

其中，表示整体带宽，表示客户端n到边缘服务器的传输功率，表示无线链路的信道增益，表示噪声谱密度。

客户端n基于本地数据集训练得到本地模型，随后，被选择的客户端将本地模型上传到边缘服务器，上传模型的大小为：

其中，表示本地模型在第k轮迭代中对样本的预测和实际输出的损失函数；表示损失函数的维度；和分别表示输入样本和输出标记的维度，表示权重因子，仿真实验中设为0.4或0.6或0.8；

客户端n传输到边缘服务器的通信延迟为：

（2）资源能耗：客户端根据本地数据集进行本地训练，本发明考虑产生的能耗包括计算能耗和更新能耗，其中计算能耗由本地训练产生，更新能耗由上传本地模型至边缘服务器所产生；

计算能耗：用表示客户端n执行一个本地数据集的CPU周期数，用表示客户端n运行一轮所需的CPU周期数，表示客户端n的CPU周期频率；然后，客户端的一个本地计算回合的CPU能耗表示为：

其中，是客户端n的计算芯片组的有效电容系数；

更新能耗：本地设备训练完成得到本地模型，边缘服务器基于客户端选择策略选择一个客户端子集，客户端子集中的客户端上传自身的本地模型到边缘服务器进行模型聚合，客户端的本地模型上传到边缘服务器的传输能耗为：

因此得到资源能耗为：

其中，表示权重系数，仿真实验中设置为0.5或0.6。

步骤3，定义客户端的动作空间，动作空间是客户端根据时隙t中的当前状态所做出的决策，在本发明中，动作空间的定义如下：

步骤4，基于客户端的两个动作分别获得奖励，，通过奖励评估客户端选择某个动作的利弊；

在k轮次中，客户端依据采取的动作会获得一个奖励：

，

其中，表示在第k轮次后客户端n的本地模型精度，表示目标精度，设置为0.95

步骤4，定义Q值函数，根据客户端的状态向量、动作空间和奖励定义Q函数；

通过学习函数，评估客户端在当前状态下采取某个动作之后所能获得的奖励价值，帮助客户端选择最优动作，具体的，计算客户端每个动作的Q值，选择两个动作中Q值最大的动作执行；Q值函数定义如下：

表示Q网络参数；

定义目标Q值函数，通过下一状态客户端动作的最大Q值与当前状态的奖励相加计算目标值，具体表达如下：

表示折扣因子，仿真实验中设置为0.6，表示两个动作中Q值最大值；表示客户端n第k+1轮次的状态向量；表示客户端n第k+1轮次的动作空间；

定义Q值近似误差，用来度量当前计算的Q值与目标值之间的差异。通过最小化Q值近似误差，指导算法进行Q网络的更新和优化：

步骤5，在一轮次的迭代训练中，将当前动作为客户端被选中参与联邦学习模型的聚合的客户端形成客户端子集C；图3为基于深度强化学习的客户端选择方案流程示意图，如图3所示，

步骤6，图4为基于动态通信环境约束的客户端选择方法流程示意图，如图4所示，为了避免在模型训练过程中，部分客户端在某些时间点无法参与聚合的问题，引入客户端可用性这一指标：

其中，分别表示时间间隔、通信延迟、资源能耗的方差，表示客户端参与联邦学习模型聚合的时间间隔，表示客户端参与联邦学习模型聚合的平均时间间隔，为客户端距离上一次参与联邦学习模型聚合时间间隔的归一化表示；表示客户端的归一化通信延迟，表示平均通信延迟；表示客户端的归一化资源能耗，表示平均资源能耗，表示客户端被选中参与联邦学习模型训练的累计次数；

然后，计算客户端子集C中每个客户端的客户端可用性。

步骤7，设置一个子集S，用于存放客户端子集C中可以连接边缘服务器且客户端可用性高的客户端，即子集S中的客户端被选中参与联邦学习模型的聚合，子集S中允许参与聚合的客户端数量不超过s：

步骤8，将计算得到的客户端可用性从大到小进行排序，随后进行遍历，按照客户端可用性从大到小的判断客户端是否与边缘服务器连通，用表示客户端和边缘服务器连接，否则为0，选择与边缘服务器相连的客户端进入子集。

具体包括两种情况：（1）在第一次遍历选择的时候，的客户端数量大于，则按照客户端可用性的大小选取前个客户端参与全局聚合。（2）在第一次遍历选择的时候，的客户端数量小于，则进行下一次或者多次遍历，直至子集中的客户端数量达到。

本发明模拟了一个跨设备FL系统，包括1个边缘服务器和20个客户端。设置子集S中的客户端数量s为8。在某一轮次中进行客户端的动作Q值计算结果如表1：

表1 客户端的动作Q值计算结果

因此子集C中包括1、3、4、5、6、8、10、11、12、14、16、18、20这13个客户端。随后对这13个客户端进行客户端可用性计算，结果如表2：

表2 客户端可用性计算结果

基于客户端可用性进行排序，结果如表3：

表3 客户端可用性排序结果

然后，基于客户端可用性从大到小的顺序进行遍历，判断客户端与边缘服务器的连接性，如表4：

表4 客户端与边缘服务器的连接性结果

在第一次遍历选择的时候，的客户端数量大于，则按照客户端可用性的大小选取前个客户端参与全局聚合。则子集S中包含客户端16、10、6、12、1、5、3、11这8个客户端参与模型聚合。

而在另一种情况中：

在某一轮次中进行客户端的动作Q值计算结果如表5：

表5 客户端的动作Q值计算结果

因此子集C中包括2、3、4、6、9、10、14、15、18、19、20这11个客户端。随后对这11个客户端进行客户端可用性计算，结果如表6：

表6客户端可用性计算结果

基于客户端可用性进行排序，结果如表7：

表7客户端可用性排序结果

然后，基于客户端可用性从大到小的顺序进行遍历，判断客户端与边缘服务器的连接性，如表8：

表8 第一次遍历的客户端与边缘服务器的连接性结果

在第一次遍历选择的时候，的客户端数量小于，则进行下一次或者多次遍历，直至子集中的客户端数量达到。则子集S中包含客户端3、19、10、9、18。因客户端数少于8个，则进行第二次遍历，结果如表9：

表9第二次遍历的客户端与边缘服务器的连接性结果

则选择客户端6、14、2进入子集S。故最终子集S中包含客户端3、19、10、9、18、6、14、2。

本发明构建了动态通信环境下的联邦学习客户端选择架构，提出了FCSTV算法，实现精确的选择高效的客户端参与模型聚合。通过对比基于联邦学习经典算法FedAvg、基于DQN客户端选择机制的Favor算法、以及用概率论方法求解客户端长期参与率的F3AST算法，在常用数据集MNIST上比较本发明创造提出方法和三种对比算法的损失和精度，如图5、图6所示。结果表明本发明提出的方法相比于三个对比算法，可以获得更低的训练损失和更高的测试准确率，以及更少的迭代收敛轮次。

具体的，本发明已经用PyTorch实现了FCSTV，通过Python线程库，FCSTV可以模拟大量具有轻量级线程的设备，每个设备都运行真实世界的PyTorch模型。我们模拟了一个跨设备FL系统，包括1个边缘服务器和20个客户端。另外，我们模拟了一个客户端在模型训练过程中因为某些原因与边缘服务器断开连接的场景。每个客户端的有20%的概率掉线，即与边缘服务器连接中断。我们将FCSTV与3个基线算法进行比较，包括FedAvg、Favor、F3AST。在MNIST数据集上对包括FCSTV在内的四个算法进行迭代训练。25%的本地数据形成测试数据集，其余75%的数据用于训练。我们将所有的任务在不同的参数设置下进行200轮次的迭代训练，并得到200组测试精度和训练损失数据，并在Origin软件上绘制折线图。

对所公开的实施例的上述说明，使本领域专业技术人员能够使用本发明。同时以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种动态通信环境下的客户端调度方法，其特征在于，所述方法包括以下步骤：

步骤1，通过1个边缘服务器和N个客户端构成联邦学习模型；客户端的集合为U＝{1,2,…n,…,N}，每个客户端拥有一个本地数据集；

步骤2，k轮次迭代训练中，边缘服务器将全局模型ω^k分配给N个客户端，客户端n基于其本地数据集D_n进行训练，得到本地模型

步骤3，根据客户端的通信延迟和资源能耗/>得到客户端的状态向量

步骤4，定义客户端的动作空间动作空间/>包括两个动作：客户端未被选中参与联邦学习模型的聚合和客户端被选中参与联邦学习模型的聚合；

步骤5，基于客户端的两个动作分别获得奖励通过奖励/>评估客户端选择某个动作的利弊；

步骤6，根据客户端的状态向量动作空间/>和奖励/>定义Q函数，通过Q函数计算客户端每个动作的Q值，并选择两个动作中Q值大的作为客户端当前的动作；

步骤8，根据客户端的状态向量和动作空间/>定义客户端可用性/>然后，计算客户端子集C中每个客户端的客户端可用性；

客户端可用性具体为：

其中，∈₁，∈₂，∈₃分别表示时间间隔、通信延迟、资源能耗的方差，表示客户端参与联邦学习模型聚合的时间间隔，/>表示客户端参与联邦学习模型聚合的平均时间间隔，为客户端距离上一次参与联邦学习模型聚合时间间隔的归一化表示；/>表示客户端的归一化通信延迟，/>表示平均通信延迟；/>表示客户端的归一化资源能耗，/>表示平均资源能耗，K_{participations}表示客户端被选中参与联邦学习模型训练的累计次数；

步骤9，将计算得到的客户端可用性从大到小排序，并判断客户端是否和边缘服务器连通，最后进行遍历，按照客户端可用性从大到小的顺序从与边缘服务器连通的客户端中选择前s个客户端，形成被选中参与联邦学习模型聚合的客户端集合S；如果第一次遍历时，与边缘服务器连通的客户端数量小于s，则从客户端子集C中剩下的客户端进行下一次或多次遍历，直至被选中参与联邦学习模型聚合的客户端集合S中客户端数量达到s；

步骤10，完成客户端的选择，集合S中的客户端上传本地模型参与联邦学习模型的聚合，得到全局模型ω^k+1。

2.根据权利要求1所述的动态通信环境下的客户端调度方法，其特征在于，步骤3中所述的客户端的通信延迟具体为：

假设边缘服务器通过具有带宽B的无线链路与其范围内的客户端进行通信，而没有小区间干扰；边缘服务器在每个轮次中以的比例将带宽平均分配给其范围内的客户端，在时隙t中，客户端n的传输速率/>表示为：

其中，B表示整体带宽，表示客户端n到边缘服务器的传输功率，/>表示无线链路的信道增益，/>表示噪声谱密度；

客户端n基于本地数据集D_n训练得到本地模型被选择的客户端将本地模型/>上传到边缘服务器的大小为：

其中，|D_n|为本地数据集D_n的大小；表示本地模型/>在第k轮迭代中对样本x_i的预测和实际输出y_i的损失函数；/>表示损失函数的维度；dim(x_i)和dim(y_i)分别表示输入样本x_i和输出标记y_i的维度，β表示权重因子；

客户端n传输到边缘服务器的通信延迟为：

3.根据权利要求1所述的动态通信环境下的客户端调度方法，其特征在于，步骤3中所述的客户端的资源能耗具体为：资源能耗包括计算能耗和更新能耗；

在k轮次迭代训练中，计算能耗的计算公式为：

其中，c_n表示客户端n执行一个本地数据集D_n的CPU周期数，c_nD_n表示客户端n运行一轮所需的CPU周期数，f_l,n表示客户端n的CPU周期频率；是客户端n的计算芯片组的有效电容系数；

在k轮次迭代训练中，更新能耗的计算公式为：

其中，表示客户端n到边缘服务器的传输功率，/>表示客户端n传输到边缘服务器的通信延迟；

因此得到资源能耗为：

其中，τ表示权重系数。

4.根据权利要求1所述的动态通信环境下的客户端调度方法，其特征在于，步骤4中，具体为：动作空间的定义如下：

表示在第k轮迭代训练时，客户端未被选中参与联邦学习模型的聚合；

表示在第k轮迭代训练时，客户端被选中参与联邦学习模型的聚合。

5.根据权利要求1所述的动态通信环境下的客户端调度方法，其特征在于，步骤5中，奖励的计算公式如下：

其中，表示在第k轮次后客户端n的本地模型精度，θ表示目标精度。

6.根据权利要求1所述的动态通信环境下的客户端调度方法，其特征在于，步骤6中Q值函数的定义具体为：

其中，ρ表示Q网络参数；表示客户端n的状态向量，/>表示客户端n动作空间。

7.根据权利要求6所述的动态通信环境下的客户端调度方法，其特征在于，

定义Q值近似误差L(ρ)，用来度量当前计算的Q值与目标Q_target值之间的差异：

其中，γ表示折扣因子，表示客户端n的两个动作中Q值最大值；表示客户端n第k+1轮次的状态向量；/>表示客户端n第k+1轮次的动作空间；

通过调节ρ来优化Q网络，获得更准确的客户端的动作选择决策。