CN117273119A

CN117273119A - 一种基于强化学习的动态公平联邦学习方法及装置

Info

Publication number: CN117273119A
Application number: CN202311076328.7A
Authority: CN
Inventors: 李雅文; 陈尉康; 薛哲; 王嘉
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-12-22
Anticipated expiration: 2043-08-24
Also published as: CN117273119B

Abstract

本发明提供一种基于强化学习的动态公平联邦学习方法及装置，在一轮联邦训练中，各客户端根据各自的本地数据对服务器下发的模型进行训练，生成本地模型，并计算本地模型的本地训练损失；将本地模型、本地训练损失和本地数据规模上传至服务器进行聚合；在聚合阶段，将本地训练损失作为强化学习状态输入，根据状态及当前策略选择执行动作，根据执行动作和本地规模占比计算聚合权重，基于聚合权重完成该轮联邦聚合；根据当前全局联邦模型准确率设置奖励值，以优化强化学习；重复多轮联邦训练，直至得到最终全局联邦模型。本发明提供的方法能够在保护隐私和较小通信开销基础上，将各本地训练损失作为公平性度量，优化联邦聚合过程，实现公平联邦学习。

Description

一种基于强化学习的动态公平联邦学习方法及装置

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于强化学习的动态公平联邦学习方法及装置。

背景技术

深度学习模型的效果与数据的质与量是高度相关的。模型可以从高质量有代表性的数据中心学习有用的知识。但是，高质量的数据通常掌握在众多公司、组织与设备中，由于隐私、法规与利益等因素，这些数据不能在各方自由流动，难以集中起来训练模型。联邦学习可以在数据不出本地的条件下，采用多方协作的方式，学习各个客户端数据中隐含的知识，共同训练一个有效的模型。联邦学习的核心问题是非独立同分布问题，现有方法主要关注各客户端训练数据分布的差异。

目前，经典的联邦学习算法通过基于本地训练数据规模从而计算加权平均值来聚合不同参与客户端的模型，进而得到全局联邦模型。由于联邦环境下不同客户端上数据规模和分布的异构性，仅最小化全局联邦模型中的总损失会不成比例地对某些客户端的模型表现产生影响，尤其会导致客户端之间结果的一致性丧失。尽管全局联邦模型在测试集上平均精度很高，但无法保证该模型在单个设备的准确性。

强化学习是一种通过智能体与环境的交互，根据反馈学习一种策略的技术，这种策略可以表示为一组参数，这种由参数表示的策略，可以通过联邦学习的方式迭代训练。

现有技术中，一部分研究着重于分析客户端回传的梯度冲突情况以调整联邦聚合时的公平性问题，如AFL、FedFV等。但这类方法在每轮联邦通信中采用随机选择客户端进行联邦聚合优化，在聚合阶段，不同客户端上的本地数据分布不均衡，导致各个客户端上的梯度方差可能远大于来自多个选定客户端的加权平均，从而导致潜在的收敛稳定性问题。

另一部分研究工作则是借鉴公平性指标，如以各个客户端上的损失、准确率等指标量化联邦聚合的公平情况，从公平分配角度调整聚合权重实现公平性学习。如q-FFL借用资源配置的思路，将公平性作为资源进行分配，对训练时具有较高损失值的客户端调整更大的占比权重以实现联邦聚合时均匀分配，还提出一种类似FedAvg的算法q-FedAvg来解决其提出的目标，并利用估计的Lipschitz常数来避免调整不同q的学习率。α-FedAvg借鉴公平度量计算方式融入到对联邦模型系统的公平量化中，并采用梯度逼近算法求解联邦聚合权重，进而达到联邦学习系统公平和有效性的平衡。PG-FFL通过引入Gini系数衡量全局联邦模型在各个客户端上的表现，并采用强化学习的方式将模型的精度和公平性作为优化目标，将求解最优模型问题转化为马尔可夫决策问题，以一个公平性调整插件的形式融入到联邦学习中。DRFL则融合了α-fairness，并将损失偏差和客户端选择策略相结合，动态分配每个客户端的权重，促进公平联邦学习。但这类方法在使用α-fairness公平量化指标时参数难以确定，依赖数据集和联邦环境，对调参有较高的要求；且由于联邦学习是在每轮中都需要对准确性和公平性进行调整，这类方法当指标计算方式确定后，便缺乏动态适应性。

发明内容

鉴于此，本发明实施例提供了一种基于强化学习的动态公平联邦学习方法及装置，以消除或改善现有技术中存在的一个或更多个缺陷，解决现有技术由于不同客户端本地数据分布不均衡导致的收敛稳定性问题、在使用α-fairness公平量化指标时参数难以确定，依赖数据集和联邦环境，对调参有较高要求的问题、以及缺乏动态适应性的问题。

一方面，本发明提供了一种基于强化学习的动态公平联邦学习方法，其特征在于，所述方法包括以下步骤：

在一轮联邦训练中，各客户端根据各自的本地数据对服务器下发的模型进行训练，生成本地模型；计算所述本地模型的本地训练损失；

各客户端将本地数据规模、所述本地模型以及所述本地训练损失上传至所述服务器，基于公平动态调整机制进行联邦聚合，得到初步全局联邦模型；

其中，所述公平动态调整机制根据各客户端的本地训练损失构建强化学习的状态空间，根据状态按照策略选择相应的执行动作；计算各客户端的本地数据规模占比；根据所述本地数据规模占比和所述执行动作确定各客户端的聚合权重；

采用经验回放的方法对所述公平动态调整机制进行训练，根据所述初步全局联邦模型的准确率设置奖励值，以最大化奖励值为目标，优化所述公平动态调整机制；

基于上述步骤进行多轮联邦训练，直至满足预设性能要求，得到最终全局联邦模型。

在本发明的一些实施例中，计算所述本地模型的本地训练损失，计算式为：

其中，F_k(ω^t+1)表示第t+1轮联邦训练得到的全局联邦模型ω^t+1在客户端k的本地训练损失，k∈[1,m]；p_k表示客户端k的本地数据规模占比；q_t-1表示第t-1轮联邦训练在所述公平动态调整机制中根据状态选择的执行动作。

在本发明的一些实施例中，所述公平动态调整机制根据各客户端的本地训练损失构建强化学习的状态空间，计算式为：

S_t＝{F₁(ω^t),F₂(ω^t),...,F_m(ω^t)}；

其中，S_t表示第t轮联邦训练所述公平动态调整机制中强化学习状态空间；F_m(ω^t)表示第t轮联邦训练得到的全局联邦模型ω^t在客户端m的本地训练损失。

在本发明的一些实施例中，根据所述本地数据规模占比和所述执行动作确定各客户端的聚合权重，计算式为：

其中，W_k表示客户端k的聚合权重，k∈[1,m]；p_k表示客户端k的本地数据规模占比；q_t-1表示第t-1轮联邦训练在所述公平动态调整机制中根据状态选择的执行动作；ω^t表示第t轮联邦训练得到的全局联邦模型。

在本发明的一些实施例中，根据状态按照策略选择相应的执行动作，得到T步轨迹的概率，计算式为：

其中，P(τ|π)表示所述T步轨迹的概率；τ表示决策序列；π表示所述策略；ρ₀表示初始状态分布；s₀表示初始状态；P(s_t+1|s_t,a_t)表示智能体根据执行动作a_t从状态s_t转移到状态s_t+1的概率。

在本发明的一些实施例中，对所述公平动态调整机制进行训练，以找到最大化长期奖励期望的最佳策略，计算式为：

π^*＝arg_πmaxJ(π)；

其中，

J(π)＝∫_τP(τ|π)R(τ)＝E_τ～π[R(π)]；

其中，π^*表示所述最佳策略；π表示所述策略；J(π)表示长期奖励期望；τ表示决策序列；P(τ|π)表示所述T步轨迹的概率；R(τ)表示奖励函数。

在本发明的一些实施例中，在所述公平动态调整机制中，采用策略优化方式训练智能体，并利用梯度优化方式更新所述策略，计算式为：

其中，θ表示可学习的智能体参数；J(π_θ)表示长期奖励期望；τ表示决策序列；π₀表示初始策略；s_t表示状态；a_t表示执行动作；R(τ)表示奖励函数。

在本发明的一些实施例中，根据所述初步全局联邦模型的准确率设置奖励值，所述奖励值计算式为：

其中，r^t-1表示t-1轮联邦训练的奖励值；a^t表示当前初步全局联邦模型ω^t在测试集上的表现效果；F_m(ω^t)表示第t轮联邦训练得到的全局联邦模型ω^t在客户端m的本地训练损失。

在本发明的一些实施例中，计算所述本地模型的本地训练损失，还包括：

所述客户端选择一个批处理大小的本地数据对所述本地模型进行预测，构建预测结果和真实标签之间的损失函数，以得到所述本地训练损失。

另一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中提及的任意一项所述方法的步骤。

本发明的有益效果至少是：

本发明提供一种基于强化学习的动态公平联邦学习方法及装置，在一轮联邦训练中，各客户端根据各自的本地数据对服务器下发的模型进行训练，生成本地模型，并计算本地模型的本地训练损失；将本地模型、本地训练损失和本地数据规模上传至服务器进行聚合；在聚合阶段，将本地训练损失作为强化学习状态输入，根据状态及当前策略选择执行动作，根据执行动作和本地规模占比计算聚合权重，基于聚合权重完成该轮联邦聚合；根据当前全局联邦模型准确率设置奖励值，以优化强化学习；重复多轮联邦训练，直至得到最终全局联邦模型。本发明提供的方法能够在保护隐私和较小通信计算开销的基础上，将全局联邦模型在参与计算地各个客户端的本地训练损失作为公平性度量，优化联邦聚合过程，实现公平联邦学习。进一步的，基于公平动态调整机制，将联邦学习中各客户端上的本地训练损失作为智能体状态，根据智能体的执行动作动态调整联邦聚合权重，解决联邦学习过程中公平性动态量化问题。进一步的，通过分析α-fairness公平度量方式和联邦学习的训练方式，降低参数对数据集的依赖，同时降低强化学习最优策略的成本，加速模型收敛。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例中基于强化学习的动态公平联邦学习方法的步骤示意图。

图2为本发明一实施例中基于强化学习的动态公平联邦学习方法的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

这里需要强调的是，在下文中提及的各步骤标记并不是对各步骤先后顺序的限定，而应当理解为可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

为了解决现有技术由于不同客户端本地数据分布不均衡导致的收敛稳定性问题、在使用α-fairness公平量化指标时参数难以确定，依赖数据集和联邦环境，对调参有较高要求的问题、以及缺乏动态适应性的问题，本发明提供一种基于强化学习的动态公平联邦学习方法，如图1所示，该方法包括以下步骤S101～S104：

步骤S101：在一轮联邦训练中，各客户端根据各自的本地数据对服务器下发的模型进行训练，生成本地模型；计算本地模型的本地训练损失。

步骤S102：各客户端将本地数据规模、本地模型以及本地训练损失上传至服务器，基于公平动态调整机制进行联邦聚合，得到初步全局联邦模型。

其中，公平动态调整机制将各客户端的本地训练损失作为强化学习的状态空间，根据状态按照策略选择相应的执行动作；计算各客户端的本地数据规模占比；根据本地数据规模占比和执行动作确定各客户端的聚合权重。

步骤S103：采用经验回放的方法对公平动态调整机制进行训练，根据初步全局联邦模型的准确值设置奖励值，最大化奖励值为目标，优化公平动态调整机制。

步骤S104：基于上述步骤进行多轮联邦训练，直至满足预设性能要求，得到最终全局联邦模型。

如图2所示，为基于强化学习的动态公平联邦学习方法的结构示意图，上侧为公平动态调整机制，下侧为联邦学习。

在步骤S101中，在任意一轮联邦训练中，服务器随机选择确定参与本次训练的客户端，将上一轮训练得到的初步全局联邦模型、训练参数广播至选择的各客户端。若为第一轮联邦训练，则将初始模型、初始参数广播至选择的各客户端。

各客户端基于本地数据构建用于训练的训练集，即，利用本地数据对服务器下发的模型进行训练，生成本地模型。

在一些实施例中，各客户端选择一个批处理大小的本地数据对本地模型进行预测，构建预测结果和真实标签之间的损失函数，以计算得到本地训练损失。同时在训练集上采用局部优化算法更新模型。其中，批处理大小(batchsize)是指每次从本地数据(训练集)中选择的样本数量。示例性的，将本地数据划分为多个较小的批次，并选择一个批处理大小来指定每个批次中的样本数量。在本发明中，批处理大小可根据计算资源、内存限制和模型性能等因素进行调整，在本发明中不作限定。

计算本地训练损失的方法包括以下步骤：

确定批处理大小，在本地数据中随机选择该数量的样本。

将样本输入到本地模型中进行前向传播，得到相应的预测结果。

将预测结果与实际标签进行比较，计算损失值，即构建预测结果和真实标签之间的损失函数。示例性的，损失函数可以采用均方误差(Mean Squared Error，MSE)、交叉熵损失(Cross-Entropy Loss)等。

根据损失值使用反向传播算法更新本地模型的参数，以便本地模型能够逐渐优化并减小损失。

在一些实施例中，本地模型的本地训练损失计算式如公式(1)所示：

其中，F_k(ω^t+1)表示第t+1轮联邦训练得到的全局联邦模型ω^t+1在客户端k的本地训练损失，k∈[1，m]；p_k表示客户端k的本地数据规模占比；q_t-1表示第t-1轮联邦训练在公平动态调整机制中根据状态选择的执行动作。

在步骤S102中，各客户端将步骤S101中得到的本地模型、本地训练损失以及本地数据规模一同上传至服务器，以进行联邦聚合。

在本发明中，设计了基于强化学习的公平动态调整机制，将联邦学习中各个客户端上的本地训练损失作为智能体状态，根据智能体的输出动作动态调整联邦聚合权重，解决联邦学习过程中公平性动态量化问题。

在本发明中，通过结合联邦学习每轮通信更迭的情况以满足强化学习对状态、动作和奖励的设计要求，具体的：

状态：将各客户端的本地训练损失作为强化学习的状态空间：在第t轮联邦训练(通信)中，将基于全局联邦模型ω^t计算得到的在客户端上的本地训练损失构建状态空间S_t，计算式如公式(2)所示：

S_t＝{F₁(ω^t)，F₂(ω^t)，…，F_m(ω^t)}； (2)

其中，S_t表示第t轮联邦训练公平动态调整机制中强化学习状态空间；F_m(ω^t)表示第t轮联邦训练得到的全局联邦模型ω^t在客户端m的本地训练损失。

动作：在每一轮的联邦训练(通信)中，当状态发生更新后，智能体需要根据当前的状态选择相应的执行动作，即根据当前参与训练客户端计算得到的损失情况确定当前的执行动作，实现在联邦训练过程中动态评估聚合时各个参与计算客户端之间公平性。

奖励：奖励是用于平衡联邦学习过程中公平性和准确性，优化联邦全局模型达到最佳效果。在一些实施例中，奖励值的计算式如公式(3)所示：

其中，r^t-1表示t-1轮联邦训练的奖励值；a^t表示当前初步全局联邦模型ω^t在测试集上的表现效果，鼓励模型实现最佳和公平的性能；F_m(ω^t)表示第t轮联邦训练得到的全局联邦模型ω^t在客户端m的本地训练损失。

在本发明中，引入了基于α-faimess的参数敏感性策略。公式(3)中，a^t(表现效果)为全局联邦模型在客户端测试集上预测结果的准确率，将准确率作为均衡性度量，根据公平性量化修改联邦聚合时的权重，对本地更新时具有更大训练损失的客户端给予更多权重。

在构建强化学习框架的同时，根据上传的本地数据规模计算本地数据规模占比，得到传统联邦聚合权重。

在一些实施例中，本地数据规模占比计算式如公式(4)所示：

其中，p_i表示客户端i的本地数据规模占比；D_i和D_j分别表示客户端i和j的本地数据规模，i，j∈[1，m]。

根据本地数据规模占比和执行动作确定各客户端的聚合权重，计算式如公式(5)所示：

其中，W_k表示客户端k的聚合权重，k∈[1，m]；p_k表示客户端k的本地数据规模占比；q_t-1表示第t-1轮联邦训练在公平动态调整机制中根据状态选择的执行动作；ω^t表示第t轮联邦训练得到的全局联邦模型。

基于上述说明，在聚合阶段，利用公平动态调整机制调整各客户端的聚合权重，以实现联邦聚合，得到全局联邦模型。

在步骤S103中，本发明考虑到在联邦学习训练中，由于每轮随机选择一定比例的客户端参与更新，且需要考虑聚合时模型在各个客户端上的表现，因此最佳权重分布是不可微分的。将全局联邦模型中不同局部模型的权重分布问题建模为深度强化学习问题，以解决联邦聚合阶段考虑客户端准确性和公平性兼顾的问题。

强化学习与监督学习的不同之处在于不依赖标签给予的反馈信息，也不需要显式纠正次优操作。相反的，强化学习的重点是在探索未知领域和开发当前知识之间找到平衡。运行在服务器上的智能体根据状态(即各客户端回传的本地训练损失)以及当前策略选择相应的执行动作，可以得到T步轨迹的概率，计算式如公式(6)所示：

其中，P(τ|π)表示T步轨迹的概率；τ表示决策序列；π表示策略；ρ₀表示初始状态分布；s₀表示初始状态；P(s_t+1|s_t，a_t)表示智能体根据执行动作a_t从状态s_t转移到状态s_t+1的概率。

深度强化学习的目的是找到一个最大化长期奖励期望的最佳策略，计算式如公式(7)所示：

π^*＝arg_πmaxJ(π)； (7)

其中，J(π)的计算式如公式(8)所示：

J(π)＝∫_τP(τ|π)R(τ)＝E_τ～π[R(τ)]； (8)

公式(7)和公式(8)中，π^*表示最佳策略；π表示策略；J(π)表示长期奖励期望；τ表示决策序列；P(τ|π)表示T步轨迹的概率；R(τ)表示奖励函数，用于评估智能体策略的优劣。

在一些实施例中，考虑到联邦学习训练过程中，每轮通信后需要更改状态，并需要依赖强化学习为各客户端下一轮联邦聚合设定权重，因此，采用策略优化方式训练智能体，并利用梯度优化方式更新策略，计算式如公式(9)所示：

在步骤S104中，基于步骤S101～S103(即一轮联邦训练的步骤)，进行多轮联邦训练，直至满足预设性能要求，得到最终全局联邦模型。

基于上述说明，在强化联邦训练过程中，服务器负责选择客户端参与联邦学习的训练和维护强化学习智能体策略的优化，以实现公平聚合。基于强化学习的公平动态调整机制利用当前全局联邦模型在各个客户端上的本地训练损失情况构建状态空间，根据当前的最优策略选择相应的执行动作，基于本地数据规模占比和执行动作确定联邦聚合时各个客户端模型的权重，实现对有高损失的客户端赋予更大的惩罚，调整传统联邦聚合中因数据规模较小而在聚合阶段占比值较小的情况。客户端根据本地数据对全局联邦模型进行更新，并利用全局联邦模型在本地数据上的表现效果(准确率)为服务器对公平性度量提供依据。

本发明提供的基于强化学习的动态公平联邦学习方法适用于多种应用场景，下面结合一具体实施例，对本发明作进一步说明。

该具体实施例提供一种公共安全突发事件检测方法，包括以下步骤：

获取待检测数据，该待检测数据中包含有社交平台上关于公共安全突发事件的文本信息。

将待检测数据输入基于本发明提供的基于强化学习的动态公平联邦学习方法训练得到的公共安全突发事件检测模型中，得到待检测数据中各文本信息相对应的公共安全突发事件，实现分类。

其中，公共安全突发事件检测模型的训练方法包括以下步骤：

在一轮联邦训练中，各客户端根据各自的本地数据对服务器下发的模型进行训练，生成本地模型，并计算本地模型的本地训练损失。其中。本地数据包括设有实际标签的各社交平台上关于公共安全突发事件的文本信息，保证了各平台数据的隐私性。

各客户端将本地数据规模、本地模型以及本地训练损失上传至服务器，基于公平动态调整机制进行联邦聚合，得到初步全局联邦模型。

按照上文所述的训练方法对公平动态调整机制中的强化学习进行训练优化；并进行多轮联邦训练，直至满足预设性能要求，得到最终全局联邦模型，将最终全局联邦模型作为公共安全突发事件检测模型。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现基于强化学习的动态公平联邦学习方法的步骤。

与上述方法相应地，本发明还提供了一种设备，该设备包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该设备实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

综上所述，本发明提供一种基于强化学习的动态公平联邦学习方法及装置，在一轮联邦训练中，各客户端根据各自的本地数据对服务器下发的模型进行训练，生成本地模型，并计算本地模型的本地训练损失；将本地模型、本地训练损失和本地数据规模上传至服务器进行聚合；在聚合阶段，将本地训练损失作为强化学习状态输入，根据状态及当前策略选择执行动作，根据执行动作和本地规模占比计算聚合权重，基于聚合权重完成该轮联邦聚合；根据当前全局联邦模型准确率设置奖励值，以优化强化学习；重复多轮联邦训练，直至得到最终全局联邦模型。本发明提供的方法能够在保护隐私和较小通信计算开销的基础上，将全局联邦模型在参与计算地各个客户端的本地训练损失作为公平性度量，优化联邦聚合过程，实现公平联邦学习。进一步的，基于公平动态调整机制，将联邦学习中各客户端上的本地训练损失作为智能体状态，根据智能体的执行动作动态调整联邦聚合权重，解决联邦学习过程中公平性动态量化问题。进一步的，通过分析α-fairness公平度量方式和联邦学习的训练方式，降低参数对数据集的依赖，同时降低强化学习最优策略的成本，加速模型收敛。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的动态公平联邦学习方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于强化学习的动态公平联邦学习方法，其特征在于，计算所述本地模型的本地训练损失，计算式为：

3.根据权利要求2所述的基于强化学习的动态公平联邦学习方法，其特征在于，所述公平动态调整机制根据各客户端的本地训练损失构建强化学习的状态空间，计算式为：

S_t＝{F₁(ω^t),F₂(ω^t),...,F_m(ω^t)}；

4.根据权利要求1所述的基于强化学习的动态公平联邦学习方法，其特征在于，根据所述本地数据规模占比和所述执行动作确定各客户端的聚合权重，计算式为：

5.根据权利要求1所述的基于强化学习的动态公平联邦学习方法，其特征在于，根据状态按照策略选择相应的执行动作，得到T步轨迹的概率，计算式为：

6.根据权利要求5所述的基于强化学习的动态公平联邦学习方法，其特征在于，对所述公平动态调整机制进行训练，以找到最大化长期奖励期望的最佳策略，计算式为：

π^*＝arg_πmaxJ(π)；

其中，

J(π)＝∫_τP(τ|π)R(τ)＝E_τ～π[R(τ)]；

7.根据权利要求1所述的基于强化学习的动态公平联邦学习方法，其特征在于，在所述公平动态调整机制中，采用策略优化方式训练智能体，并利用梯度优化方式更新所述策略，计算式为：

8.根据权利要求1所述的基于强化学习的动态公平联邦学习方法，其特征在于，根据所述初步全局联邦模型的准确率设置奖励值，所述奖励值计算式为：

9.根据权利要求1所述的基于强化学习的动态公平联邦学习方法，其特征在于，计算所述本地模型的本地训练损失，还包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。