CN116542342A

CN116542342A - 一种可防御拜占庭攻击的异步联邦优化方法

Info

Publication number: CN116542342A
Application number: CN202310553063.9A
Authority: CN
Inventors: 吴琼; 王思远; 张翠; 李正权
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-04
Anticipated expiration: 2043-05-16
Also published as: CN116542342B

Abstract

本发明涉及一种可防御拜占庭攻击的异步联邦优化方法，其包括：配置可信数据集D_RSU至路边单元；选择异步联邦聚合所需的车辆；被选择的车辆从路边单元处下载全局模型，路边单元复制全局模型；被选择的车辆利用本地数据训练下载的全局模型，得到车辆本地模型以及车辆损失值L_wk；路边单元利用可信数据集D_RSU训练复制的全局模型，得到路边本地模型以及路边损失值L_RSU；被选择的车辆将车辆本地模型以及车辆损失值L_wk上传到路边单元；当满足L_wk≤β_R·L_RSU时，将车辆本地模型与全局模型联邦聚合，得到更新的全局模型；其中，β_R为预设参数。本发明能够有效筛选出被恶意攻击的车辆，从而避免全局模型精度受影响。

Description

一种可防御拜占庭攻击的异步联邦优化方法

技术领域

本发明涉及车载网络技术领域，尤其是指一种可防御拜占庭攻击的异步联邦优化方法。

背景技术

在传统的车辆网络中，车辆会将所需要计算的任务发送到云端进行处理。然而这往往会产生较大的时延。这在高速移动的车辆场景中是不适用的。于是便产生了车载边缘计算。在车载边缘计算中，可以将具有一定计算能力的路边单元作为边缘端，进行对车辆数据的收集和处理工作。

然而在车辆将本地数据上传到路边单元的过程中会产生隐私安全问题，从而阻碍了用户对数据的上传。于是联邦学习应运而生。联邦学习允许车辆在本地使用本地数据训练本地模型，上传本地模型而不是原始数据到路边单元从而极大的保护了用户的隐私。然而个别训练时间大的车辆会导致一轮全局聚合时间大。

异步联邦学习中路边单元每收到一个本地模型就进行一次全局聚合来更新全局模型，从而有效的降低了聚合的时延。但是，由于每辆车自身训练过程中，可能会受到拜占庭攻击的影响，其会对车辆自身携带的数据集中的数据和标签进行恶意篡改，从而影响车辆本地模型精度，导致进一步影响全局模型的更新，降低全局模型的精度。

发明内容

本发明所要解决的技术问题在于克服现有技术中存在的不足，提供一种可防御拜占庭攻击的异步联邦优化方法，其能够有效筛选出被恶意攻击的车辆，从而避免全局模型精度受影响。

按照本发明提供的技术方案，所述可防御拜占庭攻击的异步联邦优化方法包括：

配置可信数据集D_RSU至路边单元；选择异步联邦聚合所需的车辆；

被选择的车辆从所述路边单元处下载全局模型，所述路边单元复制所述全局模型；

被选择的车辆利用本地数据训练下载的全局模型，得到车辆本地模型以及车辆损失值并将所述车辆本地模型以及车辆损失值/>上传到路边单元；所述路边单元利用所述可信数据集D_RSU训练复制的全局模型，得到路边本地模型以及路边损失值L_RSU；

当车辆本地模型损失值以及路边损失值L_RSU满足/>时，将所述车辆本地模型与全局模型联邦聚合，得到更新的全局模型，否则，舍弃所述所述车辆本地模型，并返回异步联邦聚合所需车辆的步骤；其中，β_R为预设参数。

在本发明的一个实施例中，多次更新后得到训练完成的全局模型，训练全局模型过程中，多次选择异步联邦聚合所需的车辆包括：

构建DDPG模型，所述DDPG模型包括系统奖励函数；

获取系统状态；

所述DDPG模型根据系统状态选择动作；

根据选择的动作选择异步联邦聚合所需的车辆；

所述DDPG模型根据车辆损失值以及系统奖励函数输出奖励；

返回获取系统状态的步骤，直至所述全局模型训练完成；

其中，系统状态、动作以及奖励形成历史数据，车辆选择过程中，所述DDPG模型根据历史数据进行训练。

在本发明的一个实施例中，所述系统奖励函数为：

其中，r(t)为时隙t的系统奖励，ω₁和ω₂为非负的权重因子，a_di(t)为时隙t的系统动作，λ_i(t)，i∈[1，K]表示选择车辆i的概率，Loss(t)为时隙t的车辆损失值，为车辆i本地训练所产生的时延，/>为车辆i在时隙t上传本地模型的传输时延，a(t)为时隙t的系统动作，s(t)为时隙t的系统状态。

在本发明的一个实施例中，所述训练时延根据以下公式确定：

其中，为车辆i本地训练所产生的时延，C₀为训练一个数据所需要的CPU周期数，μ_i为车辆i的计算资源，用CPU周期频率来衡量，每辆车i(1≤i≤K)都携带不同的数据量D_i。

在本发明的一个实施例中，所述传输时延根据以下公式确定：

d_i(t)＝||P_i(t)-P_r||

其中，为车辆i在时隙t上传本地模型的传输时延，|w|为每辆车本地训练得到的本地模型大小，tr_i(t)为t时隙车辆i的传输速率，B为传输带宽，p₀为每辆车的发送功率，为定值，h_i(t)为t时隙的信道增益，α为路径损耗指数，σ²为噪声功率，车辆i在时隙t的位置P_i(t)设置为(d_ix(t)，d_y，0)，其中d_ix(t)和d_y分别为在时隙t车辆i沿x轴和y轴距离路边单元的天线的位，d_y为一个固定值，d_ix(t)＝d_i0+vt，d_i0为车辆i的初始位置沿x轴的坐标，v为车辆速度，t为时隙，将路边单元的天线高度设置为H_r，则路边单元的天线位置表示为P_r＝(0，0，H_r)。

在本发明的一个实施例中，在得到车辆本地模型后，将所述车辆本地模型上传到路边单元之前，考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响，对车辆本地模型进行权重优化，得到权重优化后的本地模型。

在本发明的一个实施例中，所述权重包括训练权重和传输权重，所述训练权重为：

其中，β_1，k为训练权重，m₁∈(0，1)为参数，其使β_1，k随着本地训练时延增加而减小，为车辆V_k的本地计算时延；

所述传输权重为：

其中，β_2，k(t)为传输权重，m₂∈(0，1)为参数，其使β_2，k(t)随着传输时延增加而减小，为车辆V_k的传输时延。

在本发明的一个实施例中，根据公式w_kw＝w_k*β_1，k*β_2，k，得到权重优化后的车辆本地模型，其中，W_k为车辆本地模型，W_kw为权重优化后的车辆本地模型，β_1，k为训练权重，β_2，k(t)为传输权重。

在本发明的一个实施例中，根据以下公式进行联邦聚合：

w_new＝βw_old+(1-β)w_kw

其中，w_old为路边单元处当前的全局模型，W_new为更新后的全局模型，w_kw为权重优化后的车辆本地模型，β∈(0，1)为聚合比例。

在本发明的一个实施例中，基于时隙t的系统奖励，系统的期望长期折扣奖励可以表示为：

其中，γ∈(0，1)为折扣因子，N为总时隙数，μ为系统的策略，J(μ)为系统的期望长期折扣奖励。

本发明的上述技术方案相比现有技术具有以下优点：

路边单元设有一个干净可靠的数据集，即不会受到恶意攻击或者污染的数据集，称为可信数据集D_RSU。最开始在路边单元下发全局模型给各个车辆进行车辆本地训练的时候，路边单元自身也同时利用自身数据集进行路边本地模型的训练。当车辆本地训练完成上传车辆本地模型后，路边单元会将上传的车辆本地模型与其自身训练的路边本地模型进行对比，如果车辆上传的车辆损失值与路边单元自身训练的路边损失值L_RSU满足则认为车辆未受到恶意攻击从而可以参与全局模型的更新，采用此种方法能够防止拜占庭攻击对车辆自身携带的数据集中的数据和标签进行恶意篡改，提高路边单元处全局模型的精度。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明异步联邦优化方法的流程图；

图2为Class flip攻击方法下本文方案和拜占庭-鲁棒性方案的精度对比；

图3为Data flip攻击方法下本文方案和拜占庭-鲁棒性方案的精度对比；

图4为Class flip攻击方法下本文方案和拜占庭-鲁棒性方案的损失对比；

图5为Data flip攻击方法下本文方案和拜占庭-鲁棒性方案的损失对比；

图6为Class flip攻击方法下本文方案和拜占庭-鲁棒性方案的测试错误率对比；

图7为Data flip攻击方法下本文方案和拜占庭-鲁棒性方案的测试错误率对比；

图8为测试阶段，坏节点存在的情况下，我们的方案与传统的异步联邦学习和传统的联邦学习的损失对比；

图9为测试阶段，在同样的选择节点的情况下，本文方案与没有本地权重处理的传统异步联邦学习和传统的联邦学习的损失对比。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1所示，为了防止拜占庭攻击对车辆自身携带的数据集中的数据和标签进行恶意篡改，提高路边单元处全局模型的精度，本发明包括：

具体地，路边单元设有一个干净可靠的数据集，即不会受到恶意攻击或者污染的数据集，称为可信数据集D_RSU。最开始在路边单元下发全局模型给各个车辆进行车辆本地训练的时候，路边单元自身也同时利用自身数据集进行路边本地模型的训练。当车辆本地训练完成上传车辆本地模型后，路边单元会将上传的车辆本地模型与其自身训练的路边本地模型进行对比，如果车辆上传的车辆损失值L_wk与路边单元自身训练的路边损失值L_RSU满足则认为车辆未受到恶意攻击从而可以参与全局模型的更新，采用此种方法能够防止拜占庭攻击对车辆自身携带的数据集中的数据和标签进行恶意篡改，提高路边单元处全局模型的精度。

具体过程如下：首先路边单元初始化全局模型为w₀，整个训练由E_pi个回合组成。选择出来的K_DDPG辆车首先进行全局模型下载。然后再进行本地训练。其中我们以K_DDPG辆车中的车辆V_Dk,k∈[1,K_DDPG]为例。车辆V_Dk先下载全局模型，然后进行l轮本地迭代，计算得到车辆本地模型。然后计算得到w_k的损失值同时计算车辆使用权重更新过的车辆本地模型w_Dkw。然后将车辆损失值/>和车辆本地模型w_Dkw上传到路边单元。路边单元根据当前全局模型和自身数据集，计算路边本地模型w_RSU以及路边损失值L_RSU，如果满足/>则进行全局模型的更新。否则不进行更新，等待下一个车辆训练的车辆本地模型和车辆损失值的上传。直到执行够E_pi个回合，路边单元停止全局模型的更新，得到最终的全局模型。

详细的算法伪代码见算法1所示。

通过上述实验，本发明方法有以下结论：

1、如图2和图3所示，在Class flip攻击或Data flip攻击下，本发明异步联邦优化方法与现有拜占庭-鲁棒性方案相比，全局模型具有更高的精度。其中拜占庭-鲁棒性方案参考“Huang S,Zhou Y,Wang T,et al.Byzantine-Resilient Federated MachineLearning via Over-the-Air Computation[C].2021 IEEE International Conferenceon Communications Workshops(ICC Workshops),Montreal,QC,Canada,2021:1-6.”。

2、如图4和图5所示，在Class flip攻击或Data flip攻击下，本发明异步联邦优化方法与现有拜占庭-鲁棒性方案相比，具有更低的损失。

3、如图6和图7所示，在Class flip攻击或Data flip攻击下，本发明异步联邦优化方法与现有拜占庭-鲁棒性方案相比，具有更低的测试错误率。

进一步地，为了在选择车辆时选择以下性能好的车辆，去除车辆中可能存在的坏节点，多次更新后得到训练完成的全局模型，训练全局模型过程中，多次选择异步联邦聚合所需的车辆包括：

构建DDPG模型，所述DDPG模型包括系统奖励函数；

获取系统状态；

所述DDPG模型根据系统状态选择动作；

根据选择的动作选择异步联邦聚合所需的车辆；

所述DDPG模型根据车辆损失值以及系统奖励函数输出奖励；

返回获取系统状态的步骤，直至所述全局模型训练完成；

具体地，使用深度强化学习算法根据车辆自身传输速率、可用计算资源大小以及车辆位置等方面对参与训练的车辆进行选择，然后被选择的车辆采用异步联邦技术训练车辆本地模型然后上传至路边单元最终得到一个较为精确的全局模型。

由于车辆的移动性可以由其位置变化体现，车辆的本地模型的训练时间以及上传时间与车辆自身时变的可用计算资源以及当前信道状况有关，于是将时隙t的系统状态s(t)定义为：

s(t)＝(Tr(t)，μ(t)，d_x(t)，a(t-1))

其中，s(t)为时隙t的系统状态，Tr(t)表示所有车辆在时隙t各自的传输速率的集合，μ(t)为所有车辆在时隙t各自的可用计算资源的集合，d_x(t)为所有车辆在时隙t各自沿x轴的位置坐标的集合，a(t-1)为时隙t-1的系统动作。

由于本发明目的是根据当前状态选出较好的车辆进行异步联邦学习的训练，于是将t时隙的系统动作a(t)定义为：

a(t)＝(λ₁(t)，λ₂(t)，…，λ_K(t))

其中，a(t)为时隙t的系统动作，λ_i(t)，i∈[1，K]表示选择车辆i的概率，令λ₁(0)＝λ₂(0)＝…＝λ_K(0)＝1。

本发明旨在选择性能较好的车辆进行异步联邦训练以在路边单元处得到较为精确的全局模型，同时考虑时延以及全局模型的精度，所以将时隙t的系统奖励r(t)定义为：

其中，r(t)为时隙t的系统奖励，ω₁和ω₂为非负的权重因子，a_di(t)为时隙t的系统动作，λ_i(t)，i∈[1，K]表示选择车辆i的概率，Loss(t)为异步联邦训练中计算的损失值，为车辆i本地训练所产生的时延，/>为车辆i在时隙t上传本地模型的传输时延。

则系统的期望长期折扣奖励可以表示为：

为选择具体的车辆，设集合a_d(t)＝(a_d1(t)，a_d2(t)，…，a_dK(t))，将λ_i(t)进行归一化处理，设定λ_i(t)取值大于等于0.5的对应a_di(t)记为1，否则为0，最终得到的集合a_d(t)由0跟1组成，1表示选择车辆，0表示不选择车辆。

被选择的车辆利用本地数据进行本地训练得到对应的本地模型，包括以下步骤：

S1：在时隙t下，车辆V_k从路边单元处下载全局模型w_t-1，其中，在时隙1，路边单元处的全局模型使用卷积神经网络初始化为w₀；

S2：车辆V_k基于卷积神经网络对本地数据进行训练，其本地训练由l轮组成，在第m(m∈[1，l])轮本地训练中，车辆V_k首先将每个本地数据a的标签概率即y_a输入到本地模型w_k，m的卷积神经网络中，然后得到卷积神经网络对每个数据的标签的预测概率采用交叉熵损失函数计算w_k，m的损失值，计算公式如下：

S3：使用随机梯度下降算法更新本地模型，公式如下：

其中，为f_k(w_k,m)的梯度，η为学习率；

S4：车辆V_k使用更新后的本地模型进行m+1轮本地训练，当本地训练轮次达到l时本地训练停止，车辆获得更新后的本地模型W_k。

进一步地，车辆在进行本地训练时，会产生训练时延和传输延迟，所述训练时延为：

其中，为车辆i本地训练所产生的时延，C₀为训练一个数据所需要的CPU周期数，μ_i为车辆i的计算资源，用CPU周期频率来衡量，每辆车i(1≤i≤K)都携带不同的数据量D_i；

所述传输时延为：

d_i(t)＝||P_i(t)-P_r||

其中，采用自回归模型来构建h_i(t)和h_i(t-1)之间的关系，即：

其中，ρ_i为连续时隙之间的归一化信道相关系数，e(t)为服从复高斯分布的误差向量并且与h_i(t)相关，根据杰克衰落频谱，其中J₀(·)为第一类零阶贝塞尔函数并且/>为车辆i的多普勒频率/>Λ为波长，θ为移动方向即x₀＝(1，0，0)和上行通信方向即P_r-P_i(t)之间的夹角，因此/>

与传统的异步联邦学习不同，本发明考虑了训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响。具体来说，由于车辆的本地训练和上传车辆本地模型到路边单元都会产生一定时延，所以当一辆车从进行本地训练到上传到路边单元的过程中，可能存在路边单元已经收到来自其他车辆上传的车辆本地模型并且进行全局模型的更新的情况。该情况下，这辆车所训练的车辆本地模型就具有一定的迟滞性。于是本发明对车辆Vk的车辆本地模型进行一定的权重处理，即设置训练权重以及传输权重。具体计算方法如下：

对车辆本地模型进行权重优化，所述权重包括训练权重和传输权重，所述训练权重为：

所述传输权重为：

其中，β_2，k(t)为传输权重，m₂∈(0，1)为参数，其使β_2，k(t)随着传输时延增加而减小，为车辆V_k的传输时延；

根据公式w_kw＝w_k*β_1，k*β_2，k，得到权重优化后的车辆本地模型；

其中，W_k为车辆本地模型，w_kw为权重优化后的车辆本地模型，β_1，k为训练权重，β_2，k(t)为传输权重。

进一步地，训练完的车辆将权重优化后的车辆本地模型异步上传到路边单元处进行异步联邦聚合，通过多轮重复训练，最终路边单元得到全局模型具体包括：

当车辆V_k将权重优化后的车辆本地模型上传到路边单元后，路边单元就进行一次全局聚合，其公式如下：

W_new＝βw_old+(1-β)w_kw

其中，w_old为路边单元处当前的全局模型，W_new，为更新后的全局模型，w_kw，为权重优化后的车辆本地模型，β∈(0，1)为聚合比例；

在每个时隙最开始路边单元收到第一个上传的本地模型时，w_old＝w_t-1，当路边单元接收到所有被选择车辆的本地模型并得到更新K₁次后的全局模型w_t后该时隙的全局模型更新结束。

同时可以得到参与训练的车辆的平均损失Loss(t)，其可以表示为：

其中，f_k(w_k)为本地模型w_k的损失值。

为了进一步阐述本发明的原理以及有益效果，下面结合具体的实验进行说明。

本发明旨在于找到一个最优策略μ^*来最大化系统的期望长期折扣奖励。

本发明具体采用的整体算法包括两个部分，基于DAFL(Data-Free Learning，数据免费学习)框架的训练阶段的算法以及基于DAFL框架的测试阶段的算法。

其中基于DAFL框架的训练阶段算法步骤如表1所示。

表1

本发明使用DDPG算法优化异步联邦方法，其中DDPG算法基于actor-critic网络架构。actor网络用来进行策略提升，critic网络用来进行策略评估。具体来说，actor网络用来近似策略μ，其近似的策略被表示为μ_δ。actor网络基于策略μ_δ并且观察状态从而输出动作。

本发明通过迭代来提升和评估策略从而最后得到最优策略。DDPG算法为了保证该算法的稳定性，还采用了由target actor网络和target critic网络组成的target网络，其架构分别与actor网络和critic网络相同。

设置δ为actor网络参数，ξ为critic网络参数，δ^*为优化后的actor网络参数，ξ^*为优化后的critic网络参数，δ₁为target actor网络参数，ξ₁为target critic网络参数。τ为target网络的更新参数，Δ_t为时隙t动作探索的噪声。I为小批量大小。接下来将详细介绍训练阶段的算法。

首先，随机初始化δ和ξ，并且同时将target网络中的δ₁和ξ₁分别初始化为δ和ξ。同时，将经验回放缓冲区R_b进行初始化。

接下来，算法将执行E_max个回合。在第一个回合中，重置全部车辆的位置、信道状态以及车辆自身可用计算资源大小。且设置λ₁(0)＝λ₂(0)＝…＝λ_K(0)＝1，则在第一个时隙，系统可以获得最初的状态s(1)＝(Tr(1)，μ(1)，d_x(1)，a(0))。同时使用CNN(ConvolutionalNeural Networks，卷积神经网络)初始化路边单元处的全局模型w₀。

之后，算法将连续从时隙1执行到最大时隙数N。在第一个时隙中，actor网络根据状态得到输出μ_δ(s|δ)，这里对动作添加一个随机噪声Δ_t，于是系统得到动作a(1)＝μ_δ(s(1)|δ)+Δ_t。随后根据动作计算a_d(1)，确定该时隙选择的车辆。被选择出来的车辆执行异步联邦训练，即车辆根据本地数据训练本地模型，然后异步上传到路边单元进行全局模型的更新，之后计算损失值Loss(1)。同时，计算车辆的本地训练时延和传输时延，从而可以得到时隙1下的系统奖励。然后，更新车辆位置，重新计算信道状况以及车辆自身可用计算资源，更新车辆的传输速率，从而系统可以观察到下一状态s(2)。然后将元组(s(1)，a(1)，r(1)，s(2))存进R_b中。

当R_b中的元组数小于等于I时，系统直接将下一状态输入actor网络并且进行下一次迭代。

当R_b中的元组数大于I时，actor网络、critic网络以及target网络中的参数δ、ξ、δ₁和ξ₁开始进行更新，来最大化J(μ_δ)。actor网络的参数δ朝着J(μ_δ)的梯度方向也就是进行更新。将在s(t)和a(t)下服从策略μ_δ的动作值函数设为Q_μδ(s(t)，a(t))，其表达式为：

其表示时隙t系统的长期期望折扣奖励。

求解可以通过求解Q_uδ(s(t)，a(t))的梯度/>来代替。critic网络使用参数ξ对Q_μδ(s(t)，a(t))近似为Q_ξ(s(t)，a(t))。

接下来将介绍时隙t下参数δ、ξ、δ₁和ξ₁的更新方法。当R_b中的元组数大于I时，系统从R_b中随机抽取I个元组构成一个小批量。设(s_x，a_x，r_x，s′_x)，x∈[1，2，...，I]为小批量中第x个元组。然后系统首先将s′_x输入target actor网络，从而得到输出的动作然后再将s′_x和a′_x输入target critic网络，得到输出的动作值函数然后目标值可以被计算为：

然后，根据s_x和a_x，critic网络会有一个输出Q_ξ(s_x，a_x)，于是可计算出元组x的损失为：

L_x＝[y_x-Q_ξ(s_x，a_x)]²

当所有元组都被输入到critic网络和target网络时，可得到损失函数：

critic网络通过对使用梯度下降的方法最小化损失函数L(ξ)从而更新参数ξ。

类似的，actor网络通过对使用梯度上升的方法最大化J(μ_δ)从而更新参数δ。其中/>通过由critic网络近似的动作值函数计算，公式如下：

其中Q_ξ的输入为

在时隙t最后，更新target网络的参数，更新公式为：

ξ₁←τξ+(1-τ)ξ₁

δ₁←τδ+(1-τ)δ₁

其中τ为常数且满足τ＜＜1。

最后系统将s′输入actor网络并且开始下一个时隙的迭代计算。当时隙t达到最大值N时，该回合结束。然后系统再初始化状态值s(1)＝(Tr(1)，μ(1)，d_x(1)，a(0))，并且进行下一个回合的训练。当回合数达到最大值E_max时训练结束，并获得优化后的actor网络、critic网络、target actor网络以及target critic网络的参数即δ^*、ξ^*、和/>

测试阶段模拟了训练阶段的critic网络、target actor网络以及target critic网络。并且使用具有最优参数δ^*的最优策略。

其中基于DAFL框架的测试阶段算法步骤如表2所示。

表2

1.对于每个回合1≤epi≤E′_max执行：
	2.重置系统模型的仿真参数，初始化路边单元处的全局模型
3.获得最初的状态s(1)
	4.对于每个时隙1≤t≤N执行：
5.根据当前策略产生动作a＝μ_δ(s\|δ)
	6.计算a_d，确定所选择的车辆
7.被选择的车辆进行基于权重的AFL更新训练
	8.从当前系统获得奖励r和下一状态s′

本发明根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙，对参与训练的车辆进行选择，去除车辆中可能存在的坏节点；被选择的车辆利用本地数据进行本地训练得到对应的本地模型，在车辆进行本地模型时，考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响，对本地模型进行权重优化，提高了路边单元处全局模型的精度；训练完的车辆将权重优化后的本地模型异步上传到路边单元处进行异步联邦聚合，通过多轮重复训练，最终路边单元得到全局模型，本发明车辆采用异步联邦训练，路边单元每收到一个来自车辆上传的本地模型就进行一次全局模型的聚合，这能够更快的更新路边单元处的全局模型而不用等待其他车辆的上传。本发明方法计算简便，系统模型合理，仿真实验验证了该方法在车辆环境下能够得到较高的全局模型精度。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种可防御拜占庭攻击的异步联邦优化方法，其特征在于，包括：

2.根据权利要求1所述的可防御拜占庭攻击的异步联邦优化方法，其特征在于，多次更新后得到训练完成的全局模型，训练全局模型过程中，多次选择异步联邦聚合所需的车辆包括：

构建DDPG模型，所述DDPG模型包括系统奖励函数；

获取系统状态；

所述DDPG模型根据系统状态选择动作；

根据选择的动作选择异步联邦聚合所需的车辆；

所述DDPG模型根据车辆损失值以及系统奖励函数输出奖励；

返回获取系统状态的步骤，直至所述全局模型训练完成；

3.根据权利要求2所述的可防御拜占庭攻击的异步联邦优化方法，其特征在于，所述系统奖励函数为：

4.根据权利要求3所述的可防御拜占庭攻击的异步联邦优化方法，其特征在于，基于时隙t的系统奖励，系统的期望长期折扣奖励可以表示为：

5.根据权利要求2所述的可防御拜占庭攻击的异步联邦优化方法，其特征在于，所述训练时延根据以下公式确定：

6.根据权利要求2所述的可防御拜占庭攻击的异步联邦优化方法，其特征在于，所述传输时延根据以下公式确定：

d_i(t)＝||P_i(t)-P_r||

其中，为车辆i在时隙t上传本地模型的传输时延，|w|为每辆车本地训练得到的本地模型大小，tr_i(t)为t时隙车辆i的传输速率，B为传输带宽，p₀为每辆车的发送功率，为定值，h_i(t)为t时隙的信道增益，α为路径损耗指数，σ²为噪声功率，车辆i在时隙t的位置Pi(t)设置为(d_ix(t)，d_y，0)，其中d_ix(t)和d_y分别为在时隙t车辆i沿x轴和y轴距离路边单元的天线的位，d_y为一个固定值，d_ix(t)＝d_i0+vt，d_i0为车辆i的初始位置沿x轴的坐标，v为车辆速度，t为时隙，将路边单元的天线高度设置为H_r，则路边单元的天线位置表示为P_r＝(0，0，H_r)。

7.根据权利要求1所述的可防御拜占庭攻击的异步联邦优化方法，其特征在于：在得到车辆本地模型后，将所述车辆本地模型上传到路边单元之前，考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响，对车辆本地模型进行权重优化，得到权重优化后的本地模型。

8.根据权利要求7所述的可防御拜占庭攻击的异步联邦优化方法，其特征在于，所述权重包括训练权重和传输权重，所述训练权重为：

所述传输权重为：

9.根据权利要求7所述的可防御拜占庭攻击的异步联邦优化方法，其特征在于：根据公式w_kw＝w_k*β_1，k*β_2，k，得到权重优化后的车辆本地模型，其中，w_k为车辆本地模型，W_kw为权重优化后的车辆本地模型，β_1，k为训练权重，β_2，k(t)为传输权重。

10.根据权利要求1所述的可防御拜占庭攻击的异步联邦优化方法，其特征在于，根据以下公式进行联邦聚合：

W_new＝βw_old+(1-β)w_kw