CN117255356A

CN117255356A - 一种无线接入网中基于联邦学习的高效自协同方法

Info

Publication number: CN117255356A
Application number: CN202311234106.3A
Authority: CN
Inventors: 王亚彤; 李云杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-09-23
Filing date: 2023-09-23
Publication date: 2023-12-19
Anticipated expiration: 2043-09-23
Also published as: CN117255356B

Abstract

本发明提出的一种无线接入网中基于联邦学习的高效自协同方法，其中ADCL算法通过强化学习设计协作节点的自适应协作策略，提高协同学习效率。首先定义了自适应协同模型来支持协作节点的间灵活通信和本地训练策略。其次设计了Q函数的平均场表征机制，从而缓解了标准Q函数中联合动作空间爆炸的问题。然后针对强化学习中过拟合问题，设计了双层神经架构将动作选择和动作评估解耦。数值结果表明，提出的ADCL算法相较于传统的算法可以有效地提升协同学习效率，减少协同学习中运行时间和通信开销。

Description

一种无线接入网中基于联邦学习的高效自协同方法

技术领域

本发明属于无线通信技术领域，具体涉及一种无线接入网中基于联邦学习的高效自协同方法。

背景技术

随着通信技术的蓬勃发展，未来无线接入网逐步演进的更加复杂和异构。因此，仅依赖传统模型驱动的通信系统设计将难以捕捉网络中动态复杂特征，进而不足以支撑未来无线网络中极致化的应用需求。此外，随着智能设备的普及以及多样应用的出现，无线通信网络产生了空前的海量数据。这些海量数据以及并行计算技术的发展助长了包括无线通信在内的许多领域对机器学习的研究兴趣。因此，国际标准开发组织3GPP已确定将数据驱动的机器学习技术作为可行解决方案来应对通信行业面临的紧迫挑战。与此同时，随着移动计算和物联网技术的发展，数据来源正在从云数据中心转移到例如智能手机、监视摄像头和可穿戴设备等网络边缘节点上。根据思科公司统计估算，2021年数据中心产生的数据只能达到20ZB，而网络边缘节点预计生成了近850ZB的数据。然而，由于带宽有限和时延的限制，传统的集中式方法，即通过把原始数据上传到数据中心进行数据处理的方案会消耗大量的通信资源。此外，随着对数据隐私和数据安全方面需求的提高，这种传输原始数据的方法也变得不再适用。

此外，随着各界对数据隐私性和安全性的重视，直接进行原始数据交换的方式也变得不再适用。随着计算能力的下沉，各界纷纷提出无线网络中的拥有数据的智能节点(例如：各类用户设备以及基站)可通过协同学习的方法来本地化处理数据。目前，各界纷纷提出将计算能力下沉到无线接入网边缘，这为无线节点之间的协同提供了基础。因此，未来无线接入网可通过协同学习实现知识共享和信息传递，从而提高网络的效率和吞吐量。具体来说，通过节点之间的模型交换和分析，无线接入网的节点协同学习可以更准确地预测用户需求和网络状态，提高网络的响应速度和数据传输效率，同时避免了数据隐私性担忧。

目前，机器学习算法和大数据技术已经被公认为是一种可行的解决方案来应对通信技术产业面临的挑战。面对海量数据，传统的集中式数据处理需要巨大的通信开销。因此，亟需设计高效的分布式框架来支持无线接入网中的协同学习。随着联邦学习技术的发展，目前基于联邦学习框架下的无线接入网的协同问题引起了各界的关注。

联邦学习作为一种新型的分布式机器学习算法避免了大量原始数据的传输，可以为协同数据处理提供有效的解决方案，并且保证了数据的隐私性。如图1，联邦学习分为两种基本架构：有中心的架构(左)和全分布式架构(右)。在有中心的架构下，所有拥有本地数据的worker节点(通常为用户设备)训练本地机器学习模型并将本地模型传输到ParameterServer(PS)节点(通常为基站)。PS节点收到模型后进行模型聚合，并将聚合后的模型向下传输给所有的worker节点。然而，在模型上传和下发过程中，可能会有大量流量涌向PS节点，从而导致PS很容易成为系统瓶颈。此外，中心式架构存在不可避免的单点故障问题以及可扩展性差的弊端。与中心式架构相比，在全分布式架构下，协作节点通过本地训练以及与邻居节点交换传输模型来不断提升本地模型性能，进而可以有效避免单点故障并且具有灵活的可扩展性。因此，本发明考虑在全分布式架构下研究无线接入网的协同机制。

然而，无线接入网中的两个重要属性，即：动态性和异构性，对全分布式的协同学习造成了挑战。具体来说，由于节点位置变化以及无线信道的时变特性，导致无线接入网具有极高的动态性。因此，亟需针对无线环境的动态性设计自适应的协同策略从而提高协作节点的学习效率。其次，在无线接入网中，协作节点通常是异构的，包括数据集、计算能力、通信能力等方面。多个维度的异构性会导致难以通过传统的优化方法来挖掘节点间的隐含关系，从而增加了协同策略设计的难度。现有的大多数解决方案通常是基于中心式的架构的联邦学习来实现无线接入网中的高效协同学习，因此对于全分布式场景并不适用。目前，有一部分文献研究了全分布式架构下的协同学习设计，但仍采用较为固定的协作策略且没有关注无线接入网环境的动态性，例如D-PSGD，CDSGD等。因此，亟需设计针对分布式异构无线接入网场景下的高效自协同机制。

发明内容

有鉴于此，本发明的目的是提供一种无线接入网中基于联邦学习的高效自协同方法，可以有效地提升协同学习效率，减少协同学习中运行时间和通信开销。

一种无线接入网中基于联邦学习的高效自协同方法，包括：

步骤一、构建自适应协同模型：

针对每一个协作节点定义分布式的随机协同策略：协作节点i的协同策略表示在第k次迭代时协同动作a_i(k)的概率分布：

其中，a_i,0(k)代表本地训练指示变量，如果节点i在第k次迭代进行本地模型训练，则a_i,0(k)＝1，否则a_i,0(k)＝0；a_i,j(k)是模型参数请求指示变量，如果节点i在迭代步骤k时从其邻居中请求模型参数，则a_i,j(k)＝1，否则a_i,j(k)＝0；其中，/>表示协作节点i的邻居集合；

在第k次迭代时，协作节点i请求模型参数的邻居集合表示为：

步骤二、构建问题模型：

定义分布式协同学习的学习效率为：

其中，E_i(k)表示协作节点i在第k迭代的学习效率；acc_i(θ_i(k))表示协作节点i在迭代次数k时模型的准确度；acc_i(θ_i(k))-acc_i(θ_i(k-1))表示第k迭代后协作节点i的模型精度的改变量；τ_i(k)表示协作节点i在第k次迭代时所需的时间；

将分布式协同学习问题建模为马尔可夫博弈问题；马尔可夫博弈问题由多元组定义，其中/>表示协作节点的集合；/>表示协作节点观察到的状态空间，/>表示协作节点i的动作空间；/>表示协作节点的联合动作空间；/>表示通过动作/>从/>中的一个状态s到/>中的任意状态s′的转移概率；/>是协作节点i执行动作后收到的即时奖励；γ∈(0,1]是折扣因子；

针对分布式协同学习问题，每一个协作节点都充当一个学习最优协作策略的智能体；用状态空间/>描述智能体的状态，其中包括在协作节点本地模型的准确度；在迭代步骤k时各方的状态表示为：

其中acc_i(k-1)是协作节点i在迭代步骤k-1时的准确度；在迭代步骤k时，协作节点i的动作a_i(k)由协作策略中式(1)定义；执行动作后，状态s(k)将转换到下一个状态s(k+1)；

在完成一轮迭代后，协作节点i将获得即时奖励，即R_i(k)，作为采取特定行动的反馈；即时奖励函数R_i(k)定义为：

优化目标是通过学习最优合作策略设计一个高效的无线接入网分布式协同学习策略，使各协作节点在纳什均衡的情况下最大化长期平均收益；协作节点i的目标函数表示为:

其中，γ是一个折扣因子；π_i表示节点i的随机协作策略；-i表示中除节点i外所有协作节点的索引；π_-i表示除了节点i外所有协作节点联合协作策略；

在联合协作策略下，将协作节点i的值函数Vⁱ被定义为：

其中，s表示当前状态；

其中，值函数是预期的累积折扣奖励；/>是各个协作节点的联合行动；节点i的联合协作策略π下的动作值函数表示为：

其中，a表示当前的动作；

步骤三、采用纳什均衡策略来保证各个协作节点策略的收敛性，采用自适应分布式协同学习，获得协作策略：

步骤3.1、Q函数的平均场表征

首先将第i协作节点标准Q函数分解为成对局部Q函数和的形式：

其中，是协作节点i及其邻居/>的成对的局部Q函数；

采用平均场理论来近似表征Q函数：平均场Q函数是通过计算协作节点i的邻居的平均动作/>来近似标准Q函数/>其中/>是协作节点j的独热编码动作a_j；

当成对的局部Q函数为M-smooth时，标准Q函数由平均场Q函数和一个有界值b∈[-2M,2M]表示：

其中，M为一个常数；

根据贝尔曼方程式，平均场Q函数进一步表示为：

其中，协作节点i的平均场值函数为：

每个协作节点i均采用玻尔兹曼探索策略来进行学习：

其中，ξ是玻尔兹曼探索策略的参数；

步骤3.2、采用ADCL算法实现无线接入网全分布式协同学习：

对于每个迭代步骤k，协作节点首先根据式(4)得到当前环境，然后根据式(14)计算协作策略；根据协同策略，每个协作节点i执行本地训练流程；其中，每个协作节点i决定在协同策略中a_i,0(k)＝1时训练本地模型；本地训练阶段的模型参数更新公式为：

其中，Δθ_i(k)是模型参数的梯度向量，β是学习率；

接下来，每个协作节点i进行模型的传输，即如果协作策略中的a_i,j(k)＝1，则以从其邻居中获取模型/>如果a_j,i(k)＝1，则协作节点i向其邻居/>发送自身的模型/>之后，各个协作节点在聚合阶段根据以下公式聚合获取的模型参数:

其中，ρ_i是用于聚合模型参数的权重；

然后，各个协作节点根据参数更新后模型得到协作策略，并计算奖励函数；

然后，观察下一步的状态，计算平均动作，并将得到的经验数据存储在回放缓冲区B中；

返回步骤3.2，进入下一轮的决策过程；当满足迭代条件，输出最后的协作策略，完成自协同；

其中，采用双层神经网络对每个协作节点的Q函数进行拟合，具体包括：

双层神经网络包括全连接网络形式的主网络和目标网络；主网络和目标网络的输入分别为s,a_i,和s,a_i,/>网络参数表示为ω_i和/>按照以下方法对双层神经网络训练完成后，输出协作节点的Q函数；

针对每个协作节点i，从回放缓冲区B中抽取一个批次的经验数据，基于经验数据，双层神经网络的主网络的损失函数表示为：

其中，K是设定的批次大小，是目标网络的平均场值函数值；然后，主网络的参数ω_i通过以下方式更新：

其中，ξ_t是主网络的学习率；目标网络参数根据主网络参数ω_i进行定期的软更新；目标网络的参数更新公式为：

其中，τ是目标网络的软更新因子。

较佳的，所述步骤一中，在第k次迭代时，协作节点i需要通过无线传输得到模型参数的邻居集合，表示为

本发明具有如下有益效果：

附图说明

图1为无线接入网中有中心式架构与全分布式架构两种联邦学习架构；

图2为异构无线接入网下的全分布式协作学习架构；

图3为协作节点的动作值函数双层神经网络模型；

图4为协作节点的学习效率；

图5为协同学习的平均运行时间；

图6为协同学习中节点平均每轮协作的通信开销；

图7为ADCL算法下协同学习收敛性。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明研究了基于联邦学习的无线接入网高效自协同问题，其本质上为一个贯序决策问题。具体来说，在每次联邦学习迭代时，各个协作节点需要确定各自协同的策略来最大化协同学习效率。然而，由于资源的限制，多个协作节点存在复杂的合作与竞争的关系。因此，本发明将该协同问题建模为马尔科夫博弈过程，其优化目标为最大化各个协作节点的协同学习效率。针对该问题，本发明提出了自适应的分布式协同学习(AdaptiveDecentralizedCollaborationLearning,ADCL)算法，并通过理论证明了提出的ADCL算法能够收敛到纳什均衡策略。此外，在ADCL算法中，分别设计了平均场表征机制和双层神经网络拟合架构来解决动作空间爆炸以及值函数过拟合的问题。最后，本发明通过基于开源数据集的仿真实验，验证了提出的ADCL算法的性能优势。

一、系统模型

本部分将首先介绍无线接入网协同网络拓扑，然后详细描述协同学习的训练、传输、聚合模型过程，最后分析了自适应协同模型。

1.1、无线协同网络拓扑

本发明考虑一个多用户多基站无线接入网络，如图2所示，其中多个用户设备及基站的目的是通过协同学习的方式获得高效的机器学习模型。具体来说，本发明考虑去中心化的场景，即各个节点根据网络状态(邻居协作节点的模型精度、信道条件)以及自身能力(通信能力、计算能力、本地数据)采用自适应的协作训练策略来参与协同学习任务，而不需要拥有全局信息的中心节点进行调度。

本部分将网络中协作节点(包括基站和用户设备)的关系通过一个无向连通图表示，其中顶点集合表示为/>边集合表示为/>协作节点的数量表示为/> 为第i个协作节点。

在协作学习过程中，假设协作节点具有相同类型的神经网络模型，其参数表示为其中θ_i表示协作节点i的模型参数；|θ_i|表示模型参数的大小。此外，用f_i(·)表示协作节点i的本地神经网络模型的损失函数。根据协作学习任务不同，网络模型和损失函数也相应不同。例如，卷积神经网络和交叉熵损失函数多用于图像分类任务，递归神经网络和均方误差多用于时间序列的预测任务。本发明提出的模型可拓展到多类协作任务中。多个协作节点通过传递参数不断迭代更新本地模型来提高模型的精度。本发明中用k表示协作节点的迭代步数，并在协作节点模型更新后递增。通常情况下，不同协作节点具备异构性，例如基站和不同用户设备拥有的数据的分布和数据集大小、通信资源、计算能力可能是不均衡的。因此，本部分考虑泛化的异构场景，对于每一个协作节点/>有以下属性：

异构的数据集：由于协作节点所处的位置和环境不同，各个协作节点的本地数据的分布通常是非独立同分布的。协作节点i的本地数据用表示，其中/>表示其数据集的大小。

异构的计算能力：每一个协作节点i具有一定的计算能力来进行模型学习和聚合。然而，不同的协作节点的计算处理能力存在差异，用Z_i(cycles/s)表示协作节点i的CPU的每秒的周期数。由于协作节点有可能同时执行其他计算任务，用δ_i(k)表示协作节点当前的计算负载(即：已占用处理能力的百分比)。因此，协作节点i在第k次迭代时的空余的计算能力表示为：

异构的通信能力：为了与邻居协作节点进行模型的交换，协作节点需要具备一定的通信能力。本系统中存在有线传输(例如基站之间)、蜂窝传输(例如基站与用户之间)、点对点通信D2D(例如用户与用户之间)传输三种方式。通过有线传输的节点i和j之间的传输时延可以用表示。另外,如图2所示，系统中协作节点也存在无线传输方式：例如基站与用户设备之间基于蜂窝网络中的授权频带传输模型、用户设备之间通过复用授权频带内的信道资源进行点对点通信传输。因此，本系统考虑协作节点的无线通信资源包括信道资源和信号发射功率。协作节点i在第k次迭代用于模型传输的信道的数量表示为R_i(k)，并且最大发射功率表示为P_i ^max(k)。

协作节点间通过与其一跳的邻居节点进行模型参数传输来提高模型精度。对于需要无线通信的节点，当两个协作节点信干噪比(SINR)达到阈值γ＝-3dB，则认为两个协作节点可以进行无线通信，即e_i,j＝1。对于有线传输的节点i和j，则认为两个节点可以进行模型的传输，即e_i,j＝1。反之，则e_i,j＝0。因此，协作节点i的邻居集合可表示为：

1.2、协同学习训练、传输、聚合过程

本部分考虑的全分布式联邦学习支持多个协作节点协同完成模型训练任务。各个协作节点通过训练本地数据集、与邻居协作节点间模型参数传输、以及模型聚合更新的方式迭代训练高效的ML模型。本部分考虑异步的协同过程，并用k表示迭代次数。下面将依次阐述自适应联邦学习过程中每次迭代的三个步骤，包括本地训练、模型传输、模型聚合。

1.2.1、本地训练

现有的关于联邦学习算法的相关文献通常考虑协作节点在每次迭代时都要利用本地数据集进行本地训练。尽管每个协作节点都有自己的数据集，但有些协作节点可能不愿意在某些特定的迭代轮次基于本地数据集训练模型。原因有以下两方面：1)本地模型训练会产生训练成本。在异构场景中，各个协作节点的计算能力是不均匀的。因此，计算资源较少的协作节点可能更倾向于从邻居协作节点获取精确的模型参数，而不是本地训练。2)随着本地训练迭代次数的增加，本地模型通过学习本地数据集上信息会逐步收敛到局部最优并且模型性能的提升会变得缓慢。因此，在协同学习后期，本地模型通过基于本地数据集上的训练会变得低效。为了解决这些问题，不同于传统的联邦学习算法，本发明设计的自适应联邦学习允许每一个协作节点i决定是否在迭代步骤k时进行本地模型训练。具体地，本发明引入一个二进制指示变量a_i,0(k)来表示本地训练策略，其中如果协作节点i在第k次迭代时训练本地模型，则a_i,0(k)＝1，否则a_i,0(k)＝0。

当节点i决定在第k次迭代进行本地训练时，即a_i,0(k)＝1时，协作节点i首先从需要从本地数据集中采样一个批次的数据，记作/>其中M为批次的大小。然后，基于该批次的数据，协作节点i需要计算出本地模型参数θ_i的梯度，可表示为:

其中θ_i和f_i(·)分别表示i的本地机器学习模型的参数和损失函数。然后，每个协作节点i根据随机梯度下降的方法更新本地模型。更新公式可表示为：

其中β是学习率，a_i,0(k)代表协作节点i在第k次迭代的本地训练策略。协作节点本地模型训练的计算时间可表示为：

其中，w_i(cycles/bit)是协作节点i计算一条样本数据的所需要的CPU周期数。

1.2.2、模型传输

现有大多数联邦学习算法在模型传输阶段是采用固定的策略进行模型交换。

例如，在D-PSGD中，协作节点在每个迭代步骤中随机地与它的一个邻居进行通信，这可能限制了具有高通信能力的协作节点的潜力。同样的，在CDSGD中，每一协作节点在每次迭代时都需要获取所有邻居的模型参数，这消耗了巨大的通信资源，并且传输时延也会极大增加。因此，在动态的网络环境下，自适应的协作策略对于提高协作效率十分重要。不同于现有工作，本发明设计的自适应联邦学习允许每一个协作节点i决定是否在迭代步骤k时请求其邻居节点的模型参数。具体地，本发明引入一组二进制指示变量/>表示传输策略，其中a_i,0(k)＝1表示协作节点i在第k次迭代时请求邻居节点j发送模型参数，反之a_i,0(k)＝0表示不请求。

对于无线传输的节点，本部分假设所考虑系统应用正交频分多址(OFDMA)技术。协作节点j向协作节点i发送模型参数的传输速率可表示为：

其中，a_i,j(k)为二进变量；表示协作节点j用于向节点i传输模型参数的信道数量；B^U表示信道的单位带宽；/>表示节点j的发射功率。h_i,j(k)表示节点i与节点j之间的信道增益；N₀表示噪声的功率谱密度。

对于有线传输的节点，本发明考虑节点之间的时延为固定值因此，协作节点j向协作节点i发送模型参数的传输时延表示为：

1.2.3、模型聚合

当接收到邻居的模型后，协作节点则进行模型聚合。在模型聚合阶段，每个协作节点根据本地的模型与收到的模型进行聚合更新。更新公式可表示为：

其中ρ_i∈(0,1)表示模型聚合的更新步长。由于模型的聚合所需要的计算量较小，因此模型聚合的时延相较于模型的训练和模型传输的时间可忽略不计。

1.3、自适应协同模型

由于协作节点的通信、计算能力的动态异构性，以及本地数据分布的异构性，自适应的协作策略对于提高协同学习的效率至关重要。因此，本发明针对每一个协作节点定义了分布式的随机协同策略。

定义1、协同策略：协作节点i的协同策略表示在第k次迭代时协同动作a_i(k)的概率分布：

其中a_i,0(k)代表本地训练指示变量，如果节点i在第k次迭代进行本地模型训练，则a_i,0(k)＝1，否则a_i,0(k)＝0；a_i,j(k)是模型参数请求指示变量，如果节点i在迭代步骤k时从其邻居中请求模型参数，则a_i,j(k)＝1，否则a_i,j(k)＝0。

因此，在第k次迭代时，协作节点i请求模型参数的邻居集合可表示为：

进一步，在第k次迭代时，协作节点i需要通过无线传输得到模型参数的邻居集合可表示为

二、问题建模

本步骤主要阐述高效率的分布式协同学习问题。该问题的研究目标是通过调整自适应协同策略最大化各个协作节点的长期学习效率。本发明定义分布式协同学习的学习效率为：

其中，E_i(k)表示协作节点i的在第k迭代的学习效率；acc_i(θ_i(k))表示协作节点i在迭代次数k时的模型的准确度；acc_i(θ_i(k))-acc_i(θ_i(k-1))表示第k迭代后协作节点i的模型精度的改变量；τ_i(k)表示协作节点i在第k次迭代时所需的时间。协同学习过程的时间主要分为模型本地训练时间、模型传播时间、以及模型聚合时间，其中模型聚合时间相较于其他两个时间来说可忽略不计。由于邻居模型接收可以同步进行，因此协作节点i在第k次迭代的运行时间可表示为：

基于多智能体系统的博弈论建模和协同策略的随机性质(见定义1)，高效率的分布式协同学习问题可以建模为马尔可夫博弈问题。马尔可夫博弈问题通常由多元组定义，其中/>表示/>个协作节点的集合；/>表示协作节点观察到的状态空间，/>表示协作节点i的动作空间；/>表示协作节点的联合动作空间；/>表示通过动作/>从/>中的一个状态s到/>中的任意状态s′的转移概率；/>是协作节点i执行动作后收到的即时奖励；γ∈(0,1]是折扣因子。

针对考虑的分布式协同学习问题，每一个协作节点都充当一个学习最优协作策略的智能体。状态空间/>描述了智能体的状态，其中包括在协作节点本地模型的准确度。因此，在迭代步骤k时各方的状态可表示为：

其中acc_i(θ_i(k-1))是节点i在迭代步骤k-1时的准确度。此外，在迭代步骤k时，协作节点i的动作a_i(k)由协作策略中式(8)定义。执行动作后，状态s(k)将转换到下一个状态s(k+1)，其转移概率p满足：

在完成一轮迭代后，协作节点i将获得即时奖励，即R_i(k)，作为采取特定行动的反馈。在本发明中，即时奖励函数R_i(k)定义为

由于协作节点的模型以及训练策略之间存在复杂的隐含关系，因此一个有效的协作策略对于模型的收敛性是至关重要的。纳什均衡是博弈论中的一种标准解，可保证任何一个协作节点都不能通过单方面偏离合作策略来提高自己长期收益(即长期协同学习效率)。

因此，本研究的优化目标是通过学习最优合作策略设计一个高效的无线接入网分布式协同学习策略，使各协作节点在纳什均衡的情况下最大化长期平均收益。协作节点i的目标函数可以表示为:

其中，表示期望；γ是一个折扣因子；π_i表示节点i的随机协作策略；-i表示中除节点i外所有协作节点的索引；π_-i表示除了节点i外所有协作节点联合协作策略。

在联合协作策略下，将协作节点i的值函数Vⁱ定义为：

其中值函数是预期的累积折扣奖励；/>是各个协作节点的联合行动。因此，节点i的联合协作策略π下的动作值函数(Q函数)表示为：

每个协作节点的最优收益不仅受其自身协作策略的控制，还受马尔可夫博弈过程中其他各协作节点的选择控制。因此，本发明考虑纳什均衡策略来保证各个协作节点策略的收敛性，其定义如下：

定义2、在马尔可夫博弈的纳什均衡表示对于任意状态/>和节点/>纳什均衡联合协作策略/>应满足：/>即在纳什均衡联合协作策略下的值函数大于任何其他策略的值函数。

纳什均衡刻画了一个均衡点π^*，任何协作节点无法通过仅改变自身的策略来提高长期收益。换句话说，对于任何协作节点协作策略/>是对其他节点策略/>的最佳响应。

三、自适应分布式协同学习算法

目前，马尔可夫博弈问题的主要解决方案有两种，即基于博弈论的方法和基于多智能体强化学习的方法。传统的基于博弈论的方法，如Stackelberg博弈通常要求各协作节点拥有完美的信息，即各协作节点须充分了解当前环境，包括其他协作节点的协作策略。然而，对于无线接入网中全分布式协同学习场景，完美的信息是通常需要高额的信令开销以及同步过程，因此降低了协作学习的效率。此外，协作节点通常也由于保护隐私性或者安全性等不会共享自身的协作策略。因此，传统的基于博弈论的方法并不适用于本发明所考虑的全分布式场景。最近，多智能体强化学习在解决马尔可夫博弈问题方面展示了巨大潜力。具体来说，多智能体强化学习中无需关于环境的准确模型，而是通过不断与环境的交互和反馈来优化决策策略。因此，针对全分布式架构，本发明设计了基于无模型的多智能体强化学习的无线接入网协作机制。

然而，在设计协作机制时还需解决以下两个关键挑战。首先，协作机制的联合动作维度与参与协作的节点数量成指数增长，这使得各个协作节点动作值函数的估计变得十分复杂。其次，由于协作节点在每次训练过程中仅收集一条学习经验，因此协作策略在训练初期会出现经验样本不足的问题。这会导致协作节点的动作值函数(Q函数)出现过估计进而影响协作策略的收敛性。因此，本发明分别设计了基于平均场理论的Q函数的近似表征算法和双层架构模型来解决上述两个挑战。下面将详细阐述自适应分布式协同学习算法的设计。

3.1、Q函数的平均场表征

为了降低标准Q函数中联合动作的维数，本发明首先将第i协作节点标准Q函数分解为成对局部Q函数和的形式：

其中是协作节点i及其邻居/>的成对的局部Q函数。成对的局部Q函数分解表征显著的降低了智能体之间交互的复杂性和联合动作的维度，同时被证明可以隐式地保留全局交互。然而，分解成对Q函数仍然需要每一对协作节点之间的交互，这限制了无线接入网协同学习的可扩展性。因此，本发明进一步采用平均场理论来近似表征Q函数。标准Q函数中联合动作的维度与协作节点的数量成比例增长。平均场表示的主要思想是通过一个虚拟的节点来代表多个协作节点分布之间的相互作用，因此大大降低了Q函数的动作空间维度。

下面给出基于平均场理论的平均场Q函数的定义。

定义3、平均场Q函数是通过计算协作节点i的邻居的平均动作/>来近似标准Q函数/>其中/>是协作节点j的独热编码(one-hot)动作a_j。

当成对的局部Q函数为M-smooth时，标准Q函数可以由平均场Q函数和一个有界值b∈[-2M,2M]表示：

因此，通过使用平均场Q函数来近似标准Q函数，可以显著降低各方之间联合行动和交互的维度。根据贝尔曼方程式，平均场Q函数可以进一步表示为：

,其中协作节点i的平均场值函数为：

此外，为了平衡协作策略中开发和利用关系，每个协作节点i均采用了玻尔兹曼探索策略来进行学习：

其中ξ是玻尔兹曼探索策略的参数。

3.2、基于双层神经网络的Q函数拟合

在传统的Q学习方法中，通常需要构建一个Q值表来存储所有可能的平均场Q函数然而，对于高维动作空间场景，构建Q值表变得十分低效。因此，针对本发明考虑的无线接入网分布式协同的场景，可通过神经网络拟合的方法来近似平均场Q函数。同时，为了解决过估计的问题，本发明设计了双层神经网络方法来近似每个协作节点i的平均场Q函数。如图3所示，本发明分别设计了参数化主网络/>和参数化目标网络/>来进行相互迭代学习，其中ω_i和/>分别是主网络和目标网络的参数。双层神经网络的思想是通过将动作选择和动作评估操作分解到两个交互的神经网络中，从而减缓协同策略学习过程中的过估计问题。此外，本发明在双层神经网络中设计了经验回放机制来存储和采样经验/>

具体来说，协作节点i从其回放缓冲区B中抽取一个小批次的经验，其中K是批次大小。基于这个小批次的数据，协作节点i主网络的损失函数可表示为：

/>

其中是目标网络的平均场值函数值。然后，主网络的参数ω_i可以通过以下方式更新：

其中ξ_t是主网络的学习率。目标网络参数可以根据主网络参数ω_i进行定期的软更新。因此，目标网络的参数更新公式可表示为：

其中τ是目标网络的软更新因子。总而言之，本部分通过设计了两个交互的神经网络来实现平均场Q函数无偏估并且有助于缓解过估计问题。

3.3、ADCL算法描述

基于上述平均场表征方法和双层神经网络的Q函数拟合设计，本部分提出了ADCL算法来解决无线接入网全分布式协同学习策略。如表1所示，ADCL算法详细描述了每一协作节点的迭代步骤。首先，每个协作节点初始化本地模型参数θ_i、双层神经网络参数ω_i和/>平均动作/>和缓存B(表1中第1行)。对于每个迭代步骤k，协作节点首先根据式(12)得到当前环境(第3行)，然后根据式(22)计算协作策略(第4行)。根据协同策略，每个协作节点i执行本地训练流程(第5-7行)。与现有联邦学习算法不同，每个协作节点i决定在协同策略中a_i,0(k)＝1时训练本地模型。因此，本地训练阶段的更新公式可改写为：

其中Δθ_i(k)是通过式(3)计算的梯度向量，β是学习率。接下来，每个协作节点i进行模型的传输(第8-11行)，即如果协作策略中的a_i,j(k)＝1，则以从其邻居中获取模型/>类似地，如果a_j,i(k)＝1，则协作节点i向其邻居/>发送自身的模型之后，各个协作节点在聚合阶段(第12行)根据以下公式聚合获取的模型参数:

其中，ρ_i是用于聚合模型参数的权重。下面，各个节点计算奖励函数(第13行)。

然后，观察下一步的状态，根据定义3计算平均动作，并将经验数据存储在缓冲区中(第14-16行)。最后，各个节点训练双层神经网络(第17-21行)。

表1、ADCL算法的过程

四、仿真实验与性能分析

为了验证提出的ADCL算法的有效性，本部分基于开源数据集进行了大量的仿真实验。下面，本部分将首先详细介绍仿真设置，然后针对实验结果进行分析。

4.1、仿真设置

4.1.1、数据集与本地模型

本仿真中，使用了CIFAR10数据集来评估提出算法的性能。CIFAR10数据集是被广泛使用的分类任务图像数据集，它由60000个样本和3072个特征组成，主要分为10个类别，包括飞机、汽车、鸟类等，其中每个类别有6000张图像。由于在异构通信网络环境环境中不同的协作节点收集到的数据通常是非独立同分布的，因此在数据划分本部分将采用非独立同分布的划分方式。具体来说，每个协作节点的数据集在每个类的分布服从Dirichlet分布。并且，每个协作节点的样本数量都是不均衡的，其方差服从Log-Normal分布。此外，每个协作节点的子数据集被以7:1:2的比例划分，用于训练、验证和测试。同时，为训练基于CIFAR-10数据集的分类任务，仿真中采用了VGG-19作为每个协作节点的本地模型。

4.1.2、无线协作网络环境

本仿真考虑的异构无线协同网络拓扑，其仿真参数设置如下：协作节点数量取值为{4,8,12,16}，除非另有说明，实验中协作节点数量默认设置为8；仿真中考虑三类协作节点，分别为基站、I类型用户、II类型用户；实验设置基站的个数取值为{1,2,3}，其中基站的CPU每秒周期数为$2.4$GHz，基站间有线传输时延基站用于协同学习的RB数量在

$[80,100]$之间均匀分布，基站的最大发射功率为600mW；I类用户的CPU周期数为2GHz，RB数量在[40,50]之间均匀分布，最大发射功率为200mW；II类用户PU周期数为1.8GHz，RB数量在[20,30]在之间均匀分布，最大发射功率为100mW；协作节点的计算负载δ_i(k)随机分布在[0,70％]之间；每条数据的cpu周期数为730Kcycle/sample；协作节点i和j之间的无线信道功率增益h_i,j(k)是均值为的呈指数分布，其中/>是参考距离为1m路损常数；协作节点之间的距离d_i,j随机分布在[1,100]m之间。

4.1.3、对比算法与性能指标

为了衡量提出的ADCL算法的性能，仿真中对比了多个广泛使用的算法，例如Solo、D-PSGD、CDSGD、和Allreduce。为了公平性，仿真中所有算法均在相同的网络配置运行。以下总结了仿真中使用的所有算法的特点。

Solo是一个基线算法，其中每个协作节点都仅使用本地数据集进行本地模型训练，而不与邻居进行模型的交互。因此，此算法可以在没有数据协作的情况下给出了模型准确度的下限。

D-PSGD是一种分布式并行随机梯度下降算法，用于解决大规模机器学习问题，其中每协作节点在每个迭代步骤中随机与其中一个邻居进行模型的通信。

CDSGD在协作深度学习中实现数据并行化和分布计算，其中每一协作节点在每次迭代中与所有的邻居进行模型通信。

Allreduce是一种用于聚合多方模型参数的三阶段all-reduce算法，其中每一协作节点都可以在每个迭代步骤中获得所有其他协作节点的的模型参数。

ADCL是本发明中所提出的基于异构网络的自适应无线协作算法，其中每个协作节点通过双层神经网络来学习最优的协作策略。

同时，为了全面评估框架的性能，仿真中采用了以下指标：

(1)最优平均测试

准确度(BestMeanTestingAccuracy,BMTA)是协作节点在测试数据集上的最佳准确度的平均值。

(2)平均学习效率是协作节点在训练过程中学习效率Ei的平均值。

(3)平均运行时间是统计平局每次迭代的运行时间，包括本地训练时间和模型传输时间。

(4)通信开销用于衡量平均每次迭代协作节点在协同学习中传输的模型数据量。

4.1.4、超参数设置

仿真使用SGD优化器进行本地模型训练，训练批量大小为128、动量为0.9、权重衰减为1e-4。初始的模型训练的学习率为0.01。当迭代步骤为T3或23T时，学习率衰减10倍。Q网络是4层MLP，每个隐藏层有64个神经元，其中参数设置为：K＝10、B＝100、γ＝0.8、τ＝0.5。

4.2、仿真结果分析

第一个实验首先比较提出的ADCL算法与基线方法的模型有效性。表1总结了BMTA在非IID设置下测8个协作节点的模型的MBTA的值，并给出了所有协作节点的平均BMTA值。首先，正如预估所有的去中心化协同学习方法，如D-PSGD、CDSGD、Allreduce和提出的ADCL算法的BMTA明显高于Solo方法。这验证了协作学习框架的有效性。其次，针对每个协作节点的BMTA和平均所有节点BMTA，ADCL算法都显著优于D-PSGD、CDSGD、和Allreduce算法。原因是Allreduce、D-PSGD和CDSGD均采用传统的协作策略，例如与全部协作节点通信、与随机邻居或所有邻居通信。这可能会导致在异构环境下，协作节点可能会获取其他节点无用的参数，从而降低其局部模型的准确性。相比之下，提出的ADCL算法可以根据每次迭代的反馈使每个协作节点自适应地调整协作策略，以最大化协同学习的效率。

表2、不同协同学习算法下各协作节点的BMTA

第二个实验比较了不同算法下平均每个节点的协同学习效率。从图4中可以看出提出的ADCL算法的协同学习效率最高，其次是D-PSGD和CDSGD算法，Allreduce算法最低。这是由于提出的ADCL算法以最大化学习效率为目标来学习自适应的协作效率。而其他算法为固定的或者随机的协作策略。这说明提出的基于多智体强化学习的协作策略设计可以学到动态环境的变化以及协作节点之间拓扑和数据之间的隐含关联关系。此外，可以观察到Allreduce算法需要获取所有协作节点的模型信息，因此Allreduce每轮的通信等待时间最多(见图5)，进而导致其学习效率最低。

第三个实验将分析不同算法的平均每个迭代的运行时间，主要包括本地训练时间和通信时间。从图5可以看出提出的ADCL算法的运行时间相比其他三种算法最少，这验证了提出自适应协同策略的有效性。具体来说，CDSGD、Allreduce、D-PSGD的平均本地训练时间几乎相同，均为1.91s左右。而提出的ADCL算法的平均本地训练时间为0.89s。这是由于不同于其他算法每轮迭代均需要进行本地训练，本发明提出的自适应协作策略可根据状态决定在特定迭代轮次是否进行本地训练。因此，相较于其他三种算法，提出的ADCL算法的本地训练时间显著降低。其次，可以观察到在无线接入网协同学习中，所需的通信时间远远多于本地训练时间，因此提高协同学习效率很有必要。正如预期，从5可以看到提出的ADCL算法的通信时间最小，其次是D-PSGD和CDSGD，Allreduce算法的通信时间最长，此结果映证了前文的分析。

第四个实验对比了不同算法下协同学习中平均每轮协作的通信开销。在本实验下无线通信网络中协作节点的个数从4递增到16。本实验中通信开销是指传输模型的通信量(MB)。VGG-19模型大小为79.46MB。从图6中可以首先可以看出，所有算法的通信开销随着节点数量的增长而增加。这是由于协作节点的增加，每轮协作的通信频次增加，因此传输的数据量也随之增长。其次，可以观察到提出的ADCL算法下通信开销相比于其他三种算法最小。这是由于提出的协作策略通过强化学习可以有效地学习协作策略，从而挖掘节点间的隐含关系以及适应环境的动态性。

最后一个实验验证了ADCL算法下协同学习收敛性。结果如图7所示。可以观察到随着协同学习的迭代次数增加，协作节点模型的精确度逐渐收敛。此外，可以看出随着迭代次数的增加，基于训练数据集的模型精确度逐渐逼近于1。这是由于本地神经网络是基于训练数据集进行训练，因此可以很好的学习训练数据集上的隐含关系，这体现了神经网络的有效的拟合能力。然而基于测试数据集的测试精度要小于训练精度。这是由于测试数据集并没作为输入来训练模型，并且由于数据集本身和本地神经网络结构的局限性，限制了本地模型的通用性。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种无线接入网中基于联邦学习的高效自协同方法，其特征在于，包括：