CN114598667A

CN114598667A - 一种基于联邦学习的高效设备选择与资源分配方法

Info

Publication number: CN114598667A
Application number: CN202210236158.3A
Authority: CN
Inventors: 唐伦; 汪智平; 蒲昊; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-06-07

Abstract

本发明涉及一种基于联邦学习的高效设备选择与资源分配方法，属于移动通信领域，包括以下步骤：S1：在集中训练阶段开始时，初始化所有边缘智能体的行动者和批评家网络参数，并按照学习步骤进行更新，实例化经验回放池；S2：部署体验重放池，在采样阶段，所有边缘智能体的经验都存储在其中，在训练阶段，每个边缘智能体从经验池中随机抽取一批经验，以非策略的方式对网络参数进行训练；S3：在参数更新阶段，协调边缘智能体，在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新，基于初始经验池中采样的批量经验池中转化多维元组中更新参数；S4：将更新完成的参数用于智能体目标网络更新，并获得全局最佳联合决策。

Description

一种基于联邦学习的高效设备选择与资源分配方法

技术领域

本发明属于移动通信领域，涉及一种基于联邦学习的高效设备选择与资源分配方法。

背景技术

近年来，许多联邦学习方案成功地运用在移动边缘计算(Mobile EdgeComputing,MEC)网络场景中，特别是在工业物联网场景中，应用联邦学习可以在保证数据隐私的前提下有效地提高工业数据的利用率。工业物联网的智能工厂一般位于不同的地理区域，数据分布也存在异构性，为了为所有工厂提供服务，例如异常流量识别，因此需要一个全局检测模型来实现由各个工厂生成的数据的高效性能。然而，传统的两层架构，即云-端架构，由于参数传输过多，数据量集中上传至云端，因此导致了骨干网通信开销过高。

针对联邦学习过程中通信开销过大的问题，主要的解决思路通常以降低梯度交换通信频率以及降低单轮通信上传总比特数入手，使用降低通信频率的模型优化算法的确可以有效降低联邦学习的通信开销，但同时大大增加了系统算法复杂度，并且由于边缘设备自身计算资源与电量受限，因此这种优化方式局限性较大，不能广泛地应用。

现有的主要优化方案均集中于通信频率的优化，但实际上并不能在工业环境中广泛应用，因此亟需一种能够合理分配通信资源及设备选择参与的联合算法来解决联邦学习中通信开销过大问题的方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于联邦学习的资源分配及边缘协同优化策略方法，通过合理选择设备参与及资源分配来降低联邦学习通信开销。

为达到上述目的，本发明提供如下技术方案：

一种基于联邦学习的高效设备选择与资源分配方法，包括以下步骤：

S1：初始化参数：在集中训练阶段开始时，初始化所有边缘智能体的行动者和批评家网络的参数，并按照学习步骤进行更新，另外，一个经验回放池

被实例化；

S2：经验抽样：采用基于经验回放技术的off-policy技术，部署一个具有一定内存容量的体验重放池，在采样阶段，所有边缘智能体的经验都存储在其中，在训练阶段，每个边缘智能体从经验池中随机抽取一批经验，以非策略的方式对网络参数进行训练。

S3：参数更新：在参数更新阶段，边缘智能体被协调起来，在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新，并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数；

S4：将步骤S3中更新完成的参数用于智能体目标网络更新，并获得全局最佳联合决策。

进一步，步骤S1中，各个所述边缘智能体分别在其对应的边缘控制器上运行，采用集中训练，分散执行的机制，每个边缘智能体只能从它所处的个体环境中观察到局部信息，其所做的决策对其他边缘智能体是不敏感的。

进一步，在集中训练阶段，所述边缘智能体相互获取其他边缘智能体的信息，包括所有边缘智能体的状态和动作；边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态，然后针对单个环境做出决策；边缘智能体的批评家网络通过所有边缘主体的行为-状态对来生成Q值来评估决策；在去中心化执行阶段，边缘智能体的行动者和批评家的网络参数不再更新。

进一步，步骤S2中，边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示，并由以下步骤得到：

S21：每个边缘智能体分别从各自的环境中观察本地状态信息；

S22：智能体的行动者网络根据本地信息独立地用自己的策略生成决策；

S23：智能体获得奖励，并且个体环境演化到下一个状态；

S24：将公式化的转换元组存储在经验回放池中，用于算法参数更新。

进一步，步骤S3中，采用最大熵强化学习方法，其要求行动者网络同时最大化期望和策略分布的熵，在保证任务成果的同时希望策略尽可能的随机；

每个边缘智能体的行动者-批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成；行动者网络用自己的策略生成动作，批评家网络分别计算一对Q值来评估所述行动者网络的策略。

进一步，对于边缘智能体m，具体更新步骤如下：

步骤1)通过最小化损失函数L(φ_m,v)来独立更新评价批评家网络的参数φ_m,v,

v表示优化因子：

其中，

表示为目标Q值，其中

和

分别表示所有智能体当前和下一个状态集；m为智能体个数索引，t为迭代轮次索引；log(·)是返回动作熵值的函数；Υ()是返回状态函数最小值函数；

和

分别是由评价网络和目标评价网络计算的状态-动作Q值；

在评价批评家网络和目标批评家网络中分别设置两个参数φ_m,v,φ′_m,v,

以缓解政策改进中的正偏置，损耗计算只使用这两个Q值的最小值，从而得到用于更新批评家网络参数的随机梯度：

其中，

表示梯度计算；α_m为最大熵目标权值；

表示智能体m实时策略。

步骤2)通过策略梯度方法对行动者网络进行更新，目标函数定义为：

其中，策略函数通过FCNN网络重新参数化表示为

其中E()表示期望函数，其中加入一个噪声ε_t，从而获得一个较低的方差估计，公式(4)重新表示为：

其中ε_t服从高斯分布，由此计算出策略的梯度：

步骤3)采用FCNN来自动设定最大熵目标的权值权值α_m，α_m的梯度通过以下目标来计算：

其中为

所有智能体的决策集合，H′为目标熵的值；

采用软更新方法，从评价批评家的参数φ_m,v中更新目标批评家网络的参数φ′_m,v：

φ′_m,v＝τφ_m,v+(1-τ)φ′_m,v (8)

其中τ∈(0,1)为更新因子。

进一步，每个边缘智能体的马尔科夫过程定义为一个多元组M＝＜S,A,P,R＞，其中S代表状态空间，A是动作空间，P表示不同状态之间的转移概率，R表示奖励函数；使用权值参数θ_m来描述边缘智能体m的策略

最优策略表示为

状态空间S表示为

其中

表示为设备在可用时延限制下的剩余可用值，即

表示为设备的剩余能耗，即

动作空间A表示为

a_m,t定义为一个二元量，ψ_m,n,t＝1时，a_m,t才有意义；

当边缘智能体根据观察到的设备状态s_m,t并采取动作a_m,t后，将会得到一个即时奖励，从而评估该动作的质量；为了使联邦学习评估损失最小化，多智能体学习算法的奖励函数定义为：

其中，t表示边缘端聚合次数，t_c表示云中心聚合次数，F_e(ω_m)和F_c(ω)分别为模型在边缘和云端聚合后的损失函数，将这两种聚合情况下的损失函数作为每个智能体的奖励，将损失函数取负值，即将损失最小化问题转化为奖励最大化问题；

首先，在边缘服务器上计算的损失值F_m(ω_m)被传输到云服务器；其次，由云服务器计算平均损耗

最后，将F_e(ω_m)下发到每个边缘服务器，作为边缘智能体的奖励；U是一个惩罚因子，它取一个相对较大的值来惩罚那些不能在每轮联邦学习中约束条件下聚合任何模型参数的决策；在MDP中，每个边缘智能体的目标是通过最优的设备选择和资源分配策略使其自身的累积折扣奖励最大化。

本发明的有益效果在于：本发明可以在保障工业物联网海量设备场景下，高精度完成分布式机器学习任务，并且避免了因分布式机器学习带来的设备之间数据隐私泄露的风险。此外，该方法以分布式的方式运行，可以有效地减少收集网络信息的系统信令开销，特别是在资源受限的网络中。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为一种基于联邦学习的高效设备选择与资源分配方法的流程示意图；

图2为基于多智能体强化学习算法结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图2，图1为本发明提供的一种基于联邦学习的高效设备选择与资源分配方法的流程示意图，具体包括以下步骤：

S1：初始化参数：在集中训练阶段开始时，初始化边缘智能体的行动者和批评家网络的参数，并按照学习步骤进行更新。另外，一个经验回放池

被实例化。

S2：经验抽样：边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示，。并由以下步骤得到。首先，边缘智能体分别从各自的环境中观察本地状态信息。然后，智能体的行动者网络根据本地信息独立地用自己的策略生成决策。然后，智能体获得奖励，并且个体环境演化到下一个状态。最后，将公式化的转换元组存储在经验回放池中，用于算法参数更新。

S3：参数更新：在参数更新阶段，边缘智能体被协调起来，算法在从所有个体环境中收集经验与当前代理的策略之间进行交替更新，并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数。

可选地，该方法中每个智能体只能从它所处的个体环境中观察到局部信息，其所做的决策对其他智能体是不敏感的。采用集中训练，分散执行的机制。该机制允许策略在执行阶段不使用附加信息的情况下，利用附加信息简化训练过程。在集中训练阶段，除局部信息外，还可以相互获取其他信息，包括所有智能体的状态和动作。具体来说，边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态，然后针对单个环境做出决策。批评家网络需要所有边缘主体的行为-状态对来生成Q值来评估决策。在去中心化执行阶段，行动者和批评家的网络参数不再需要更新。因此，每个边缘智能体的参与者只需要局部状态信息，决策就可以独立获得，而不需要知道其他智能体的状态信息。

可选地，步骤S2中，为了提高采样效率，采用了基于经验回放技术的off-policy技术。具体来说，部署一个具有一定内存容量的体验重放池

在采样阶段，所有智能体的经验都存储在

中。在训练阶段，每个智能体从经验池中随机抽取一批经验，以非策略的方式对网络参数进行训练，这样可以有效地利用采样的经验实现收敛。

可选地，步骤S3中，引入了两个主要组件来提高算法学习性能:最大化熵学习；“行动者-批评家”网络架构；具体如下：

熵最大化：最大熵强化学习要求行动者网络同时最大化期望和策略分布的熵，也就是说，在保证任务成果的同时希望策略尽可能的随机，有效增强学习稳定性和探索性。有了这个最大化熵目标，智能体策略的随机性可以大大提高，同时可以探索更多可能的最优决策。

行动者-批评家网络：每个边缘智能体的行动者-批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成。行动者网络用自己的策略π_θm生成动作a_m,t。批评家网络分别计算了一对Q值来评估该政策。

对于边缘智能体m，具体更新步骤如下：

其中，

表示为目标Q值。其中

和

分别表示所有智能体当前和下一个状态集；m为智能体个数索引，t为迭代轮次索引；log(·)是返回动作熵值的函数；

和

分别是由评价网络和目标评价网络计算的状态-动作Q值。此外，在评价批评家网络和目标批评家网络中分别设置了两个参数φ_m,v,φ′_m,v,

以缓解政策改进中的正偏置。更重要的是，损耗计算只使用这两个Q值的最小值。因此，可以得到用于更新批评家网络参数的随机梯度，即:

其中，策略函数通过FCNN网络重新参数化表示为

其中加入一个噪声ε_t，从而获得一个较低的方差估计。因此，公式(4)可以重新表示为：

其中ε_t服从高斯分布。由此可以计算出策略的梯度，即：

步骤3)不采用人工选取权值α_m，而是采用FCNN来自动设定最大熵目标的权值。α_m的梯度可以通过以下目标来计算，即：

其中为

所有智能体的决策集合，H′为目标熵的值。

其中，为稳定学习过程，采用软更新方法，从评价批评家的参数φ_m,v中更新目标批评家网络的参数φ′_m,v，即:

φ′_m,v＝τφ_m,v+(1-τ)φ′_m,v (8)

其中τ∈(0,1)为更新因子。

本发明通过对联邦学习中的设备选择以及链路带宽频谱资源进行最优分配来优化整体模型性能，建立了一个随机优化问题。但该问题是一个混合整数非线性优化问题，目标函数是隐函数，且能耗约束条件是时间相关，因此使用传统方法不易求解。但设备选择和资源分配以最小化长期评估损失为目标，因此可重新转化为一个马尔可夫决策过程。为了获得最优解，深度强化学习是一种具有较强表示能力的有效方法，可以有效地解决具有混合决策变量和时间相关约束的资源优化问题。然而，基于单智能体的深度强化算法通常需要一个全局服务器来收集分布式设备的所有状态信息，并观察整个网络环境，这会产生主干信令开销。为了解决这个问题，本发明采用深度多智能体强化算法，每个边缘服务器作为一个智能体，协同学习动态资源管理策略并解决问题如图2所示：

每个边缘服务器视为一个智能体，每个智能体都可以从各自的环境中观察状态，如设备的计算资源分配、剩余能量等信息，从而学习到该环境下的最优策略。马尔科夫过程定义为一个多元组M＝＜S,A,P,R＞，其中S代表状态空间，A是动作空间，P表示不同状态之间的转移概率，R表示奖励函数。我们使用权值参数θ_m来描述边缘服务器m的策略

最优策略表示为

在每一轮联邦学习迭代过程中，每个边缘智能体从各自的环境中收集状态信息，这些信息反映了设备的剩余时间和能量。因此，状态空间S可以表示为

其中

表示为设备在可用时延限制下的剩余可用值，即

表示为设备的剩余能耗，即

边缘智能体根据观察到的设备环境状态，协同决策出参与当前轮次迭代的设备，并分配用于支持联邦学习参数上传下发的上、下行频谱资源以及设备上的计算资源，因此，动作空间A可表示为

这里a_m,t定义为一个二元量，因为只有当设备选择参与联邦学习时，即ψ_m,n,t＝1时，a_m,t才有意义，才会有后续的频谱及计算资源的分配。

当边缘智能体根据观察到的设备状态s_m,t并采取动作a_m,t后，将会得到一个即时奖励，从而评估该动作的质量。为了使联邦学习评估损失最小化，多智能体学习算法的奖励函数可以定义为：

其中，F_e(ω_m)和F_c(ω)分别为模型在边缘和云端聚合后的损失函数，将这两种聚合情况下的损失函数作为每个智能体的奖励，将损失函数取负值，即将损失最小化问题转化为奖励最大化问题。首先，在边缘服务器上计算的损失值F_m(ω_m)被传输到云服务器。其次，由云服务器计算平均损耗F_e(ω_m)＝1/M∑_m∈MF_m(ω_m)。最后，将F_e(ω_m)下发到每个边缘服务器，作为边缘智能体的奖励。此外，U是一个惩罚因子，它取一个相对较大的值来惩罚那些不能在每轮联邦学习中约束条件C1-C3下聚合任何模型参数的决策。

在MDP中，每个边缘智能体的目标是通过最优的设备选择和资源分配策略使其自身的累积折扣奖励最大化。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于联邦学习的高效设备选择与资源分配方法，其特征在于：包括以下步骤：

被实例化；

S2：经验抽样：采用基于经验回放技术的off-policy技术，部署一个具有一定内存容量的体验重放池，在采样阶段，所有边缘智能体的经验都存储在其中，在训练阶段，每个边缘智能体从经验池中随机抽取一批经验，以非策略的方式对网络参数进行训练；

2.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法，其特征在于：步骤S1中，各个所述边缘智能体分别在其对应的边缘控制器上运行，采用集中训练，分散执行的机制，每个边缘智能体只能从它所处的个体环境中观察到局部信息，其所做的决策对其他边缘智能体是不敏感的。

3.根据权利要求2所述的一种基于联邦学习的高效设备选择与资源分配方法，其特征在于：在集中训练阶段，所述边缘智能体相互获取其他边缘智能体的信息，包括所有边缘智能体的状态和动作；边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态，然后针对单个环境做出决策；边缘智能体的批评家网络通过所有边缘主体的行为-状态对来生成Q值来评估决策；在去中心化执行阶段，边缘智能体的行动者和批评家的网络参数不再更新。

4.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法，其特征在于：步骤S2中，边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示，并由以下步骤得到：

S23：智能体获得奖励，并且个体环境演化到下一个状态；

5.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法，其特征在于：步骤S3中，采用最大熵强化学习方法，其要求行动者网络同时最大化期望和策略分布的熵，在保证任务成果的同时希望策略尽可能的随机；

6.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法，其特征在于：对于边缘智能体m，具体更新步骤如下：

步骤1)通过最小化损失函数L(φ_m,v)来独立更新评价批评家网络的参数

v表示优化因子：

其中，

表示为目标Q值，其中

和

和

分别是由评价网络和目标评价网络计算的状态-动作Q值；

在评价批评家网络和目标批评家网络中分别设置两个参数

其中，

表示梯度计算；α_m为最大熵目标权值；

表示智能体m实时策略；

其中，策略函数通过FCNN网络重新参数化表示为

其中E()表示期望函数，其中加入一个高斯噪声ε_t，从而获得一个较低的方差估计，公式(4)重新表示为：

其中ε_t服从高斯分布，由此计算出策略的梯度：

步骤3)采用FCNN来自动设定最大熵目标的权值α_m，α_m的梯度通过以下目标来计算：

其中为

所有智能体的决策集合，H′为目标熵的值；

φ′_m,v＝τφ_m,v+(1-τ)φ′_m,v (8)

其中τ∈(0,1)为更新因子。

7.根据权利要求6所述的一种基于联邦学习的高效设备选择与资源分配方法，其特征在于：每个边缘智能体的马尔科夫过程定义为一个多元组M＝＜S,A,P,R＞，其中S代表状态空间，A是动作空间，P表示不同状态之间的转移概率，R表示奖励函数；使用权值参数θ_m来描述边缘智能体m的策略

最优策略表示为

状态空间S表示为

其中

表示为设备在可用时延限制下的剩余可用值，即

表示为设备的剩余能耗，即

动作空间A表示为

a_m,t定义为一个二元量，ψ_m,n,t＝1时，a_m,t才有意义；

其中，t表示边缘端聚合次数，t_c表示云中心全局聚合次数，F_e(ω_m)和F_c(ω)分别为模型在边缘和云端聚合后的损失函数，将这两种聚合情况下的损失函数作为每个智能体的奖励，将损失函数取负值，即将损失最小化问题转化为奖励最大化问题；

首先，在边缘服务器上计算的损失值F_m(ω_m)被传输到云服务器；其次，由云服务器计算平均损耗F_e(ω_m)＝1/M∑_m∈MF_m(ω_m)；最后，将F_e(ω_m)下发到每个边缘服务器，作为边缘智能体的奖励；U是一个惩罚因子，它取一个相对较大的值来惩罚那些不能在每轮联邦学习中约束条件下聚合任何模型参数的决策；在MDP中，每个边缘智能体的目标是通过最优的设备选择和资源分配策略使其自身的累积折扣奖励最大化。