CN116681126B

CN116681126B - 一种自适应等待时长的异步加权联邦学习方法

Info

Publication number: CN116681126B
Application number: CN202310659294.8A
Authority: CN
Inventors: 崔太平; 刘文浩; 陈前斌
Original assignee: Space Communication Research Institute Of Chongqing University Of Posts And Telecommunications
Current assignee: Space Communication Research Institute Of Chongqing University Of Posts And Telecommunications
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2024-03-12
Anticipated expiration: 2043-06-06
Also published as: CN116681126A

Abstract

本发明属于移动通信技术领域，特别涉及一种自适应等待时长的异步加权联邦学习方法，包括服务器向客户端发起学习任务，并广播初始化全局模型参数；客户端开始本地训练，并上传训练好的模型参数及参数生成轮数k；服务器采用DDQN算法决策出本轮训练等待时长；服务器执行自适应等待时长算法收集用户数据；服务器执行异步加权聚合联邦学习算法将收集到的客户端上传的模型参数进行聚合，得到全局模型参数；将聚合得到的全局模型参数广播给本轮参与聚合的用户；重复以上步骤直到全局模型参数达到目标精度；本发明可以在节约能耗的同时提高边缘计算网络中联邦学习的训练效率和模型性能，为边缘计算网络中的各种应用提供更好的支持。

Description

一种自适应等待时长的异步加权联邦学习方法

技术领域

本发明属于移动通信技术领域，特别涉及一种自适应等待时长的异步加权联邦学习方法。

背景技术

随着现代无线通信技术的快速发展以及智能设备的不断进步，我们的日常生活正源源不断地产生着大量数据，并且所产生的数据量呈现指数级增长，数据价值愈发显著。为了充分挖掘这些数据潜在价值，有必要对其进行整合、分析和处理。然而，在传统集中式计算框架下，数据传输和处理所需时间和计算资源颇为显著，且存在数据隐私和安全等一系列挑战

联邦学习以分布式机器学习为框架，在保障用户数据安全隐私以及遵守相关法律法规的前提下，实现数据共享，共同建模，解决了“数据孤岛”现象，促进了人工智能的发展。

边缘计算网络的出现使得移动设备的计算能力得到大幅提升，同时也为联邦学习的应用提供了更好的支持。

边缘计算和联邦学习在智能交通中的应用可以解决许多问题，例如交通流量预测、智能路况监控和智能交通安全等。以交通流量预测为例，交通数据和地理数据分布到多个边缘设备上，例如路边的摄像头、交通信号灯等，在每个边缘设备上，利用联邦学习算法进行模型训练，例如基于神经网络的模型，预测未来几小时的交通流量，将训练好的模型上传到云端，进行模型聚合，获得最终的预测结果。通过这种方式，可以实现交通流量预测的实时性和精准性，并且不需要将原始数据传输到云端，保证了数据隐私和安全性。

但当前联邦学习在边缘计算中的应用也存在许多问题：

1)传统的联邦学习是同步学习，采用固定等待时长，通常要花费大量的等待时间，将参与训练的用户全部等来，因此时间利用率低，收敛速度慢；

2)在异步联邦学习中，异步通信需要在每个客户端和中心服务器之间进行频繁的通信，并且在传输模型参数时需要进行额外的同步和解析操作；这些操作不仅会增加通信的延迟和带宽开销，还会影响计算资源的利用效率；

3)异步联邦学习中，每个设备可以以不同的速度更新其本地模型，不同设备的模型参数可能会相互抵消或产生不良影响，这种不一致可能会导致模型性能下降，降低训练过程的稳定性。

综合上述问题，本发明设计了一种自适应等待时长的异步联邦学习方案，中心服务器利用DDQN算法，通过不断地调整每一轮训练的等待时长，来控制每一轮参与全局模型聚合的用户数量，避免了无效的等待，以此方式来达到最优化收敛时间和能耗的目的；同时在全局模型聚合时，采用时间权值，贡献度权值，数据量权值综合加权聚合，提高了训练进程的稳定性，加快了全局模型的收敛速度。

发明内容

有鉴于此，本发明提出一种自适应等待时长的异步加权联邦学习方法，具体包括以下步骤：

101、服务器向客户端发起学习任务，并广播初始化全局模型参数；

102、客户端开始本地训练，并上传训练好的模型参数及参数生成轮数k；

103、服务器采用DDQN算法决策出本轮训练等待时长；

104、服务器执行自适应等待时长算法收集用户数据；

105、服务器执行异步加权聚合联邦学习算法将收集到的客户端上传的模型参数进行聚合，得到全局模型参数；

106、将聚合得到的全局模型参数广播给本轮参与聚合的用户；

107、重复步骤102～106直到全局模型参数达到目标精度。

进一步的，服务器采用DDQN算法决策出本轮训练等待时长的过程包括：

设置状态空间S∈{S＝s|θ_r,T_r,N_r}，动作空间A∈{A＝a|±τ,±2τ,±3τ,±4τ,±5τ}，以及奖励G∈{G＝g|-(αT_r+βN_r)·f(θ_r)+γ·Δθ_r}；

服务器将上一轮的全局模型测试精度，耗时以及参与聚合的用户数量输入到DQN算法中的Q网络，得到本轮的等待时间τ；

本轮聚合结束后，服务器记录第r轮总耗时T_total，及第r轮参与全局聚合的用户的数量N_r，测试第r轮聚合后全局模型的精度θ_r，及第r轮精度增长幅度Δθ_r，最后服务器获得奖励{-(αT_r+βN_r)·f(θ_r)+γ·Δθ_r}；

其中，s表示一个状态，(θ_r,T_r,N_r)表示一个状态的状态参数；T_r为第r轮的耗时；a表示一个动作，τ为动作空间一最小时间单位；g表示一个奖励值；α、β、γ为奖励函数系数；f(θ_r)为一随测试精度不断增加而衰减的函数。

进一步的，服务器执行自适应等待时长算法收集用户数据，即服务器收到客户端用户上传的数据后，根据步骤104的等待时长进行等待，若在等待时长时间内再次收到用户数据，则重新根据等待时长进行等待；若在等待时长时间内没有收到任何用户数据，则结束收集用户数据。

进一步的，步骤105服务器执行异步加权聚合联邦学习算法将收集到的客户端上传的模型参数进行聚合，聚合公式为：

其中，W_r为全局模型参数；N为客户端数量；D_n为第n个用户的数据量大小；D为全体用户总数据量大小；为第n个用户在第r轮上传的模型参数；/>为模型参数新鲜度与贡献度权值。

进一步的，模型参数新鲜度与贡献度权值表示为：

其中，r为当前训练轮次；k为用户端的全局模型参数所属的训练轮次；为第n个用户第k轮训练前的原始参数；e为自然常数；μ、/>为统一权重数量级的系数。

本发明可以在节约能耗的同时提高边缘计算网络中联邦学习的训练效率和模型性能，为边缘计算网络中的各种应用提供更好的支持。同时，本发明可以对于用户隐私保护、模型安全性等问题提供一定的解决思路，具有一定的理论和实践意义。

附图说明

图1为本发明自适应等待时长的异步加权联邦学习模型图；

图2为本发明方案中的自适应等待时长算法模型图；

图3为本发明方案的整体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种自适应等待时长的异步加权联邦学习方法，具体包括以下步骤：

103、服务器采用DDQN算法决策出本轮训练等待时长；

104、服务器执行自适应等待时长算法收集用户数据；

107、重复步骤102～106直到全局模型参数达到目标精度。

边缘计算网络中，利用联邦学习技术，在保障用户数据安全隐私以及遵守相关法律法规的前提下，实现数据共享，共同建模，解决了“数据孤岛”现象。例如，边缘计算和联邦学习技术相结合，应用于智能交通系统中，实现交通流量预测、智能路况监控和智能交通安全等。然而由于在同步联邦学习中，学习收敛速度慢，等待时间长，效率低，同时在异步联邦学习中，通信、计算资源消耗过高，且训练具有不稳定性，为联邦学习在实际生活中的应用提供了层层阻碍。为了解决上述问题，本发明首先设计了一种自适应等待时长的异步联邦学习算法，用来减少无用的等待时间，加快收敛速度。其次，本发明的方案中，服务器利用深度强化学习中的DDQN(Double Deep Q Network)算法决策出每一轮最佳等待时长，以此方式来控制每一轮的耗时以及资源消耗，优化联邦学习的收敛速度和能耗。最后本发明设计异步加权聚合算法，服务器根据用户上传数据的“新鲜度”、“贡献度”以及数据量的大小，赋予其相应的权值以参与全局模型聚合，提高训练过程的稳定性。本发明可以在节约能耗的同时提高边缘计算网络中联邦学习的训练效率和模型性能，为边缘计算网络中的各种应用提供更好的支持。本实施例目的是提供一种自适应等待时长的异步联邦学习方案。该方案根据边缘计算网络中联邦学习场景的特性，联合优化联邦学习的收敛耗时，用户资源消耗，模型精度，该方法包括以下步骤：

S1：服务器向参与联邦学习的客户端发起学习任务；

S2：参与联邦学习的客户端开始本地训练，并上传训练好的模型参数和参数生成轮数k；

S3：服务器决策出本轮训练等待时长τ；

S4：服务器执行自适应等待时长联邦学习算法收集用户上传的数据；

S5：服务器执行异步加权聚合算法将收集到的客户端上传的模型参数进行聚合；

S6：将更新好的全局模型广播给本轮参与聚合的用户；

S7：重复S2-S6直到全局模型测试精度达到目标精度要求

进一步，在步骤S2中，中心服务器通过DDQN算法，动态的调整每一轮的等待时长，控制每一轮参与聚合用户数量，减少无效的等待时间。以此方式，达到加快联邦学习的收敛速度，减少能耗的目的。

在步骤S4中，中心服务器在收到客户端用户上传的数据(数据包括用户本地训练好的模型参数w以及轮数k)后，开始等待时间τ，如果在等待时间τ内再次收到用户数据，则重新等待时间τ；若等待时间τ内没有接收到任何数据，则对已经收集到的模型参数进行聚合。聚合后将更新后的全局模型参数发送给参与聚合的用户，开启下一轮训练。

在步骤S5中，服务器停止等待后，将用户上传的模型参数加权后聚合更新，获得新的模型参数，聚合公式如下：

其中，W_r为第r轮聚合后的模型参数；为第n个用户在第r轮上传的模型参数，为模型参数新鲜度与贡献度权值，/>为第n个用户的数据量大小权值，D为全体用户总数据量大小，D_n为第n个用户的数据量大小。/>的计算公式如下：

其中，贡献度权值为其中r表示服务器第r轮聚合，k表示模型参数生成的轮数即用户上传的参数是基于第几次聚合后的全局模型参数进行本地训练的。/>为第n个用户第k轮更新好的模型参数，/>为第n个用户第k轮在训练前的原始参数。/>为用户模型对全局模型的贡献度，研究表明，/>越大，对全局模型的快速收敛越有利。

由于本发明的架构特点，用户在某一轮训练好的参数由于自身训练速度慢，或者设备短时间离线等因素，导致没有参与当前轮数的聚合，而是参与了往后几轮的全局模型聚合，为了削弱旧参数对新一轮模型聚合的不利影响，使其发挥对全局模型聚合的促进作用，故对用户模型参数赋予时间新鲜度权值。为时间新鲜度权值，简称时间权值，时间越久的参数，对全局聚合的贡献就越低，会被赋予低的权值，越新的模型参数，权值越高；设置μ和/>两个系数来控制各个权重的量级。

通过本发明中聚合公式进行对服务器收到的用户上传的模型参数进行全局模型的聚合，提高了异步联邦学习进程的稳定性，加快联邦学习的收敛速度。

1.建模分析及优化目标：

设联邦学习训练m轮后达到目标精度要求，第n个用户在第r轮计算能耗为第r个用户第r轮的传输速率/>由香农公式得：

其中，为第n个用户在第r轮的信道增益，/>为第n个用户在第r轮的发射机功率，/>为n个用户在第r轮的带宽。

第n个用户在第r轮的传输能耗为：

其中，表示第n个用户在第r轮的传输能耗；/>为第n个用户在第r轮的上传模型的数据量的大小，N₀为噪声功率谱密度，/>0表示第n个用户在第r轮不参与聚合，1表示参与聚合。因此，第n个用户训练m轮后总能耗：

除首轮训练外，每一轮训练以收到上一轮参与训练的用户返回来的第一个数据为起始时刻，开始计时等待，则训练m轮后总等待耗时为：

其中，表示第r轮最后一个用户被选择时服务器等待的时长，τ_r为第r轮的等待时间间隔。总的通信次数：

其中，N_r表示第r轮一共有N_r个用户参与聚合。客户端向服务器发起的的每一次通信，都会产生通信资源的消耗，同时，也代表着客户端完成一次本地训练，产生能源消耗，因此我们通过降低总通信次数来减少联邦学习中的能耗。

每一轮是随机的，每一轮的耗时也是随机的，但每一轮的耗时有上限，上限为N_r·τ_r。即第r轮N_r个用户参与聚合，且从第一个用户到第N_r个用户，以τ_r为时间间隔，等间隔陆续被服务器接收。

因此，

本发明优化目标如下：

约束条件：L^m(W)-L(W^*)≤ε (9)

即最小化收敛时间及通信次数。

其中，(8)中N_r，为第r轮参与聚合的用户数量，也为第r轮的通信次数，为总的通信次数，/>为收敛时间上限；α，β为系数，用于统一单位和数量级；(9)要求联邦学习训练结果最终全局模型参数要收敛于最优全局模型参数，L^m(W)为全局模型参数W在第m轮的损失函数；(10)为用户设备的设备资源限制，E_n _limit为第n个用户可使用的资源；(11)是保证服务器每一轮不会无休止的等待，防止特殊情况发生；(13)和(14)分别为每一轮等待时长的取值范围和每一轮参与训练的用户数量的取值范围，N为总的用户数量。

设用户到达过程满足泊松过程，到达率为λ，则第r轮参与训练的用户数量关于τ_r的期望为：

E(τ_r)＝e^λτ[1-(1-e^-λτ)^N] (15)

因此，我们将优化目标改为如下：

存在最优等待时间间隔向量τ^*＝[τ₁,τ₂,τ₃...τ_m]，以及最优收敛轮数m^*使得：

且：其中，/>为最优等待时间间隔向量τ^*下对应的全局模型参数的损失函数，L(W^*)为全局最优损失函数，ε为收敛间隙。

2.解决方案

在异步联邦学习中，忽略中心服务器聚合时间，其耗时主要来源于等待，智能交通系统对实时性要求非常高，在本实施例中对等待时长进行优化。

步骤S2中，服务器通过不断地调整每一轮的等待时间，动态的控制每一轮参与训练的用户数量，从而最小化收敛时间和通信能耗，这是一个复杂的决策问题，这类问题无法确定当前状态和操作之间的关系，现有的动态规划算法很难解决。因此，本发明提出了一种基于深度强化学习的自适应等待时长算法来解决这个问题。同时，为了在有限的资源下更快地得完成模型的训练，本发明采用了一种奖励和惩罚相结合的方案，该方案将在具体实施方安中将详细介绍。

采用DDQN算法，服务器中的智能体根据每一轮的聚合情况，决策出每一轮的τ_r，利用过去的轮数产生的经验不断学习，优化未来轮数的方案选择，最终获得通信次数与收敛时间都最小化的方案。本发明中，由于服务器中的智能体也是部署在服务器上，因此本实施例将执行全局模型聚合的服务器与执行深度强化学习的智能体统称为服务器。

在本实施例中将当前状态输入Q网络，当前状态包括当前全局模型精度、当前训练耗时、当前能耗情况，当执行一个动作后，获得本轮次的等待时长，在本轮次全局聚合后获得新的状态。

DDQN算法中，本发明将状态空间，动作空间，奖励设置如下：

状态空间：S∈{S＝s|(θ_r,T_r,N_r)}；

动作空间：A∈{A＝a|±τ,±2τ,±3τ,±4τ,±5τ}；

奖励：G∈{G＝g|-(αT_r+βN_r)·f(θ_r)+γ·Δθ_r}；

其中，状态空间中，θ_r为第r轮的聚合后的测试精度，T_r是第r轮耗时，N_r为第r轮参与全局聚合的用户的数量，在本实施例中假设各用户通信能耗近似相等，每当有一个用户参与一次全局模型聚合，就会对服务器进行一次数据传输，就会产生一次通信资源的消耗，因此用N_r来评估本发明中通信能耗，N_r越大，第r轮通信资源消耗就越多，N_r也可以用来表示第r轮的能耗情况。

动作空间中τ为一最小时间单位，服务器每一轮利用DDQN算法，决定本轮等待时长比较上一轮时增加还是减少，以及增加或者减少的数值为多少；

奖励Δθ_r＝θ_r-θ_r-1为第r轮训练精度增长幅度；T_r为第r轮耗时，N_r在本实施例中可以表示第r轮能耗，α、β、γ为系数，f(θ_r)为一随测试精度不断增加而衰减的函数；

本轮聚合结束后，服务器记录本轮总耗时T_total，及本轮参与全局聚合的用户的数量N_r，测试本轮聚合后全局模型的精度θ_r，及精度增长幅度Δθ_r，最后服务器获得奖励{-(αT_r+βN_r)·f(θ_r)+γ·Δθ_r}，服务器的目标是使累计奖励最大化。

如图1，本实施例给出一种自适应等待时长的异步联邦学习方法，具体包括以下步骤：

①在服务器中通过DDQN设定本轮等待时间；

②服务器向用户发送全局模型参数(用户包括电脑、手机、平板、车辆等类型的终端)；

③用户进行本地训练；

④用户向服务器发送本地训练结束后的模型参数；

⑤执行自适应等待时长算法收集用户数据；

⑥执行异步加权聚合算法更新全局模型参数；

⑦向参与聚合的用户广播更新后的全局模型参数。

如图2所示，纵轴为时间轴，刻度为用户数据到达服务器时刻。服务器首先通过DDQN算法计算出本轮等待时长为2s，当接收到用户1发来的数据时，开始等待，2s内接收到用户2上传的数据，并在接收到用户2数据的时刻重新等待；当接收到用户4上传的数据后，等待2s后没有接收到任何用户上传的数据，服务器停止等待，选择用户1、用户2、用户3、用户4的模型参数进行全局聚合。下一轮，服务器通过DDQN算法得到本轮等待时间为2.5s，服务器收到用户5的数据后开始等待，在收到用户4上传的数据后，等待2.5s后，没有收到任何数据，服务器停止等待，选择用户5、用户6、用户2、用户1、用户4开始本轮全局模型聚合。注意，在本轮中，用户5与用户6的模型参数并不是基于上一轮服务器刚更新好的全局模型参数训练得到，因此在参与全局模型聚合时的时间权值会低于用户1、用户2、用户4。

图3是本实施例给出的本发明一种自适应等待时长的异步加权联邦学习方法的一个具体实施流程，具体包括：

步骤301：服务器向参与训练的全体用户发送初始化全局模型参数；初始化DDQN网络参数；设置最大等待时长T_max和全局模型目标精度θ₀；初始化集合S，集合S用户存放用户上传的数据；初始化计时器时间T＝0，用户数量N＝0；

步骤302：用户接收到全局模型参数后，开始本地训练，训练结束后，向服务器上传训练好的模型参数w和模型生成轮数k；

步骤303：服务器通过DDQN算法输出本轮训练等待时长τ；

步骤304：服务器第一次接收到用户上传的数据后，开始计时；

步骤305：将接收到的用户数据放入集合S，同时参与聚合的用户数量更新：N＝N+1；

步骤306：服务器在用户数据到达后，等待时间τ，如果时间τ内再次接收到用户上传的数据，则执行步骤305，之后在新数据到达的时刻重新等待时间τ，如果等待时间τ后，没有用户数据抵达或者计时器时间T大于T_max，则服务器停止等待；

步骤307：服务器执行异步加权聚合算法，聚合集合S中参数，得到新全局模型参数；

步骤308：记录全局模型测试精度θ＝θ_r，精度增长率Δθ，本轮耗时T，用户数量N；

步骤309：服务器获得本轮奖励{-(αT_r+βN_r)·f(θ_r)+γ·Δθ_r}；

步骤310：判断测试精度θ是否大于目标精度θ₀，如果θ>θ₀，则执行步骤312，如果θ<θ₀，则执行步骤311；

步骤311：将测试精度θ_r＝θ，本轮参与聚合的用户数量N_r＝N，以及本轮耗时T_r＝T输入到DDQN网络，之后向参与本次聚合用户发送更新好的全局模型参数并跳转至步骤302；

步骤312：结束联邦学习任务。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种自适应等待时长的异步加权联邦学习方法，其特征在于，具体包括以下步骤：

103、服务器采用DDQN算法依据当前联邦学习任务进程以及能耗决策出本轮训练等待时长；

104、服务器收到客户端用户上传的数据后，根据等待时长进行等待，若在等待时长时间内再次收到用户数据，则重新根据等待时长进行等待；若在等待时长时间内没有收到任何用户数据，则结束收集用户数据；

107、重复步骤102～106直到全局模型参数达到目标精度。

2.根据权利要求1所述的一种自适应等待时长的异步加权联邦学习方法，其特征在于，服务器采用DDQN算法决策出本轮训练等待时长的过程包括：

设置状态空间S∈{S＝s|θ_r，T_r，N_r}，动作空间A∈{A＝a|±τ，±2τ，±3τ，±4τ，±5τ}，以及奖励G∈{G＝g|-(αT_r+βN_r)·f(θ_r)+γ·Δθ_r}；

其中，s表示一个状态，(θ_r，T_r，N_r)表示一个状态的状态参数；T_r为第r轮的耗时；a表示一个动作，τ为动作空间一最小时间单位；g表示一个奖励值；α、β、γ为奖励函数系数；f(θ_r)为一随测试精度不断增加而衰减的函数。

3.根据权利要求1所述的一种自适应等待时长的异步加权联邦学习方法，其特征在于，步骤105服务器执行异步加权聚合联邦学习算法将收集到的客户端上传的模型参数进行聚合，聚合公式为：

4.根据权利要求3所述的一种自适应等待时长的异步加权联邦学习方法，其特征在于，模型参数新鲜度与贡献度权值表示为：

其中，r为当前训练轮次；k为用户端的全局模型参数所属的训练轮次；为第n个用户第k轮训练前的原始参数；e为自然常数；/>为统一权重数量级的系数。