CN116542342A - 一种可防御拜占庭攻击的异步联邦优化方法 - Google Patents
一种可防御拜占庭攻击的异步联邦优化方法 Download PDFInfo
- Publication number
- CN116542342A CN116542342A CN202310553063.9A CN202310553063A CN116542342A CN 116542342 A CN116542342 A CN 116542342A CN 202310553063 A CN202310553063 A CN 202310553063A CN 116542342 A CN116542342 A CN 116542342A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- model
- local
- federal
- asynchronous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000005457 optimization Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 72
- 230000002776 aggregation Effects 0.000 claims abstract description 26
- 238000004220 aggregation Methods 0.000 claims abstract description 26
- 230000005540 biological transmission Effects 0.000 claims description 44
- 230000009471 action Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000007774 longterm Effects 0.000 claims description 8
- 230000007423 decrease Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1466—Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种可防御拜占庭攻击的异步联邦优化方法,其包括:配置可信数据集DRSU至路边单元;选择异步联邦聚合所需的车辆;被选择的车辆从路边单元处下载全局模型,路边单元复制全局模型;被选择的车辆利用本地数据训练下载的全局模型,得到车辆本地模型以及车辆损失值Lwk;路边单元利用可信数据集DRSU训练复制的全局模型,得到路边本地模型以及路边损失值LRSU;被选择的车辆将车辆本地模型以及车辆损失值Lwk上传到路边单元;当满足Lwk≤βR·LRSU时,将车辆本地模型与全局模型联邦聚合,得到更新的全局模型;其中,βR为预设参数。本发明能够有效筛选出被恶意攻击的车辆,从而避免全局模型精度受影响。
Description
技术领域
本发明涉及车载网络技术领域,尤其是指一种可防御拜占庭攻击的异步联邦优化方法。
背景技术
在传统的车辆网络中,车辆会将所需要计算的任务发送到云端进行处理。然而这往往会产生较大的时延。这在高速移动的车辆场景中是不适用的。于是便产生了车载边缘计算。在车载边缘计算中,可以将具有一定计算能力的路边单元作为边缘端,进行对车辆数据的收集和处理工作。
然而在车辆将本地数据上传到路边单元的过程中会产生隐私安全问题,从而阻碍了用户对数据的上传。于是联邦学习应运而生。联邦学习允许车辆在本地使用本地数据训练本地模型,上传本地模型而不是原始数据到路边单元从而极大的保护了用户的隐私。然而个别训练时间大的车辆会导致一轮全局聚合时间大。
异步联邦学习中路边单元每收到一个本地模型就进行一次全局聚合来更新全局模型,从而有效的降低了聚合的时延。但是,由于每辆车自身训练过程中,可能会受到拜占庭攻击的影响,其会对车辆自身携带的数据集中的数据和标签进行恶意篡改,从而影响车辆本地模型精度,导致进一步影响全局模型的更新,降低全局模型的精度。
发明内容
本发明所要解决的技术问题在于克服现有技术中存在的不足,提供一种可防御拜占庭攻击的异步联邦优化方法,其能够有效筛选出被恶意攻击的车辆,从而避免全局模型精度受影响。
按照本发明提供的技术方案,所述可防御拜占庭攻击的异步联邦优化方法包括:
配置可信数据集DRSU至路边单元;选择异步联邦聚合所需的车辆;
被选择的车辆从所述路边单元处下载全局模型,所述路边单元复制所述全局模型;
被选择的车辆利用本地数据训练下载的全局模型,得到车辆本地模型以及车辆损失值并将所述车辆本地模型以及车辆损失值/>上传到路边单元;所述路边单元利用所述可信数据集DRSU训练复制的全局模型,得到路边本地模型以及路边损失值LRSU;
当车辆本地模型损失值以及路边损失值LRSU满足/>时,将所述车辆本地模型与全局模型联邦聚合,得到更新的全局模型,否则,舍弃所述所述车辆本地模型,并返回异步联邦聚合所需车辆的步骤;其中,βR为预设参数。
在本发明的一个实施例中,多次更新后得到训练完成的全局模型,训练全局模型过程中,多次选择异步联邦聚合所需的车辆包括:
构建DDPG模型,所述DDPG模型包括系统奖励函数;
获取系统状态;
所述DDPG模型根据系统状态选择动作;
根据选择的动作选择异步联邦聚合所需的车辆;
所述DDPG模型根据车辆损失值以及系统奖励函数输出奖励;
返回获取系统状态的步骤,直至所述全局模型训练完成;
其中,系统状态、动作以及奖励形成历史数据,车辆选择过程中,所述DDPG模型根据历史数据进行训练。
在本发明的一个实施例中,所述系统奖励函数为:
其中,r(t)为时隙t的系统奖励,ω1和ω2为非负的权重因子,adi(t)为时隙t的系统动作,λi(t),i∈[1,K]表示选择车辆i的概率,Loss(t)为时隙t的车辆损失值,为车辆i本地训练所产生的时延,/>为车辆i在时隙t上传本地模型的传输时延,a(t)为时隙t的系统动作,s(t)为时隙t的系统状态。
在本发明的一个实施例中,所述训练时延根据以下公式确定:
其中,为车辆i本地训练所产生的时延,C0为训练一个数据所需要的CPU周期数,μi为车辆i的计算资源,用CPU周期频率来衡量,每辆车i(1≤i≤K)都携带不同的数据量Di。
在本发明的一个实施例中,所述传输时延根据以下公式确定:
di(t)=||Pi(t)-Pr||
其中,为车辆i在时隙t上传本地模型的传输时延,|w|为每辆车本地训练得到的本地模型大小,tri(t)为t时隙车辆i的传输速率,B为传输带宽,p0为每辆车的发送功率,为定值,hi(t)为t时隙的信道增益,α为路径损耗指数,σ2为噪声功率,车辆i在时隙t的位置Pi(t)设置为(dix(t),dy,0),其中dix(t)和dy分别为在时隙t车辆i沿x轴和y轴距离路边单元的天线的位,dy为一个固定值,dix(t)=di0+vt,di0为车辆i的初始位置沿x轴的坐标,v为车辆速度,t为时隙,将路边单元的天线高度设置为Hr,则路边单元的天线位置表示为Pr=(0,0,Hr)。
在本发明的一个实施例中,在得到车辆本地模型后,将所述车辆本地模型上传到路边单元之前,考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响,对车辆本地模型进行权重优化,得到权重优化后的本地模型。
在本发明的一个实施例中,所述权重包括训练权重和传输权重,所述训练权重为:
其中,β1,k为训练权重,m1∈(0,1)为参数,其使β1,k随着本地训练时延增加而减小,为车辆Vk的本地计算时延;
所述传输权重为:
其中,β2,k(t)为传输权重,m2∈(0,1)为参数,其使β2,k(t)随着传输时延增加而减小,为车辆Vk的传输时延。
在本发明的一个实施例中,根据公式wkw=wk*β1,k*β2,k,得到权重优化后的车辆本地模型,其中,Wk为车辆本地模型,Wkw为权重优化后的车辆本地模型,β1,k为训练权重,β2,k(t)为传输权重。
在本发明的一个实施例中,根据以下公式进行联邦聚合:
wnew=βwold+(1-β)wkw
其中,wold为路边单元处当前的全局模型,Wnew为更新后的全局模型,wkw为权重优化后的车辆本地模型,β∈(0,1)为聚合比例。
在本发明的一个实施例中,基于时隙t的系统奖励,系统的期望长期折扣奖励可以表示为:
其中,γ∈(0,1)为折扣因子,N为总时隙数,μ为系统的策略,J(μ)为系统的期望长期折扣奖励。
本发明的上述技术方案相比现有技术具有以下优点:
路边单元设有一个干净可靠的数据集,即不会受到恶意攻击或者污染的数据集,称为可信数据集DRSU。最开始在路边单元下发全局模型给各个车辆进行车辆本地训练的时候,路边单元自身也同时利用自身数据集进行路边本地模型的训练。当车辆本地训练完成上传车辆本地模型后,路边单元会将上传的车辆本地模型与其自身训练的路边本地模型进行对比,如果车辆上传的车辆损失值与路边单元自身训练的路边损失值LRSU满足则认为车辆未受到恶意攻击从而可以参与全局模型的更新,采用此种方法能够防止拜占庭攻击对车辆自身携带的数据集中的数据和标签进行恶意篡改,提高路边单元处全局模型的精度。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明异步联邦优化方法的流程图;
图2为Class flip攻击方法下本文方案和拜占庭-鲁棒性方案的精度对比;
图3为Data flip攻击方法下本文方案和拜占庭-鲁棒性方案的精度对比;
图4为Class flip攻击方法下本文方案和拜占庭-鲁棒性方案的损失对比;
图5为Data flip攻击方法下本文方案和拜占庭-鲁棒性方案的损失对比;
图6为Class flip攻击方法下本文方案和拜占庭-鲁棒性方案的测试错误率对比;
图7为Data flip攻击方法下本文方案和拜占庭-鲁棒性方案的测试错误率对比;
图8为测试阶段,坏节点存在的情况下,我们的方案与传统的异步联邦学习和传统的联邦学习的损失对比;
图9为测试阶段,在同样的选择节点的情况下,本文方案与没有本地权重处理的传统异步联邦学习和传统的联邦学习的损失对比。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参照图1所示,为了防止拜占庭攻击对车辆自身携带的数据集中的数据和标签进行恶意篡改,提高路边单元处全局模型的精度,本发明包括:
配置可信数据集DRSU至路边单元;选择异步联邦聚合所需的车辆;
被选择的车辆从所述路边单元处下载全局模型,所述路边单元复制所述全局模型;
被选择的车辆利用本地数据训练下载的全局模型,得到车辆本地模型以及车辆损失值并将所述车辆本地模型以及车辆损失值/>上传到路边单元;所述路边单元利用所述可信数据集DRSU训练复制的全局模型,得到路边本地模型以及路边损失值LRSU;
当车辆本地模型损失值以及路边损失值LRSU满足/>时,将所述车辆本地模型与全局模型联邦聚合,得到更新的全局模型,否则,舍弃所述所述车辆本地模型,并返回异步联邦聚合所需车辆的步骤;其中,βR为预设参数。
具体地,路边单元设有一个干净可靠的数据集,即不会受到恶意攻击或者污染的数据集,称为可信数据集DRSU。最开始在路边单元下发全局模型给各个车辆进行车辆本地训练的时候,路边单元自身也同时利用自身数据集进行路边本地模型的训练。当车辆本地训练完成上传车辆本地模型后,路边单元会将上传的车辆本地模型与其自身训练的路边本地模型进行对比,如果车辆上传的车辆损失值Lwk与路边单元自身训练的路边损失值LRSU满足则认为车辆未受到恶意攻击从而可以参与全局模型的更新,采用此种方法能够防止拜占庭攻击对车辆自身携带的数据集中的数据和标签进行恶意篡改,提高路边单元处全局模型的精度。
具体过程如下:首先路边单元初始化全局模型为w0,整个训练由Epi个回合组成。选择出来的KDDPG辆车首先进行全局模型下载。然后再进行本地训练。其中我们以KDDPG辆车中的车辆VDk,k∈[1,KDDPG]为例。车辆VDk先下载全局模型,然后进行l轮本地迭代,计算得到车辆本地模型。然后计算得到wk的损失值同时计算车辆使用权重更新过的车辆本地模型wDkw。然后将车辆损失值/>和车辆本地模型wDkw上传到路边单元。路边单元根据当前全局模型和自身数据集,计算路边本地模型wRSU以及路边损失值LRSU,如果满足/>则进行全局模型的更新。否则不进行更新,等待下一个车辆训练的车辆本地模型和车辆损失值的上传。直到执行够Epi个回合,路边单元停止全局模型的更新,得到最终的全局模型。
详细的算法伪代码见算法1所示。
通过上述实验,本发明方法有以下结论:
1、如图2和图3所示,在Class flip攻击或Data flip攻击下,本发明异步联邦优化方法与现有拜占庭-鲁棒性方案相比,全局模型具有更高的精度。其中拜占庭-鲁棒性方案参考“Huang S,Zhou Y,Wang T,et al.Byzantine-Resilient Federated MachineLearning via Over-the-Air Computation[C].2021 IEEE International Conferenceon Communications Workshops(ICC Workshops),Montreal,QC,Canada,2021:1-6.”。
2、如图4和图5所示,在Class flip攻击或Data flip攻击下,本发明异步联邦优化方法与现有拜占庭-鲁棒性方案相比,具有更低的损失。
3、如图6和图7所示,在Class flip攻击或Data flip攻击下,本发明异步联邦优化方法与现有拜占庭-鲁棒性方案相比,具有更低的测试错误率。
进一步地,为了在选择车辆时选择以下性能好的车辆,去除车辆中可能存在的坏节点,多次更新后得到训练完成的全局模型,训练全局模型过程中,多次选择异步联邦聚合所需的车辆包括:
构建DDPG模型,所述DDPG模型包括系统奖励函数;
获取系统状态;
所述DDPG模型根据系统状态选择动作;
根据选择的动作选择异步联邦聚合所需的车辆;
所述DDPG模型根据车辆损失值以及系统奖励函数输出奖励;
返回获取系统状态的步骤,直至所述全局模型训练完成;
其中,系统状态、动作以及奖励形成历史数据,车辆选择过程中,所述DDPG模型根据历史数据进行训练。
具体地,使用深度强化学习算法根据车辆自身传输速率、可用计算资源大小以及车辆位置等方面对参与训练的车辆进行选择,然后被选择的车辆采用异步联邦技术训练车辆本地模型然后上传至路边单元最终得到一个较为精确的全局模型。
由于车辆的移动性可以由其位置变化体现,车辆的本地模型的训练时间以及上传时间与车辆自身时变的可用计算资源以及当前信道状况有关,于是将时隙t的系统状态s(t)定义为:
s(t)=(Tr(t),μ(t),dx(t),a(t-1))
其中,s(t)为时隙t的系统状态,Tr(t)表示所有车辆在时隙t各自的传输速率的集合,μ(t)为所有车辆在时隙t各自的可用计算资源的集合,dx(t)为所有车辆在时隙t各自沿x轴的位置坐标的集合,a(t-1)为时隙t-1的系统动作。
由于本发明目的是根据当前状态选出较好的车辆进行异步联邦学习的训练,于是将t时隙的系统动作a(t)定义为:
a(t)=(λ1(t),λ2(t),…,λK(t))
其中,a(t)为时隙t的系统动作,λi(t),i∈[1,K]表示选择车辆i的概率,令λ1(0)=λ2(0)=…=λK(0)=1。
本发明旨在选择性能较好的车辆进行异步联邦训练以在路边单元处得到较为精确的全局模型,同时考虑时延以及全局模型的精度,所以将时隙t的系统奖励r(t)定义为:
其中,r(t)为时隙t的系统奖励,ω1和ω2为非负的权重因子,adi(t)为时隙t的系统动作,λi(t),i∈[1,K]表示选择车辆i的概率,Loss(t)为异步联邦训练中计算的损失值,为车辆i本地训练所产生的时延,/>为车辆i在时隙t上传本地模型的传输时延。
则系统的期望长期折扣奖励可以表示为:
其中,γ∈(0,1)为折扣因子,N为总时隙数,μ为系统的策略,J(μ)为系统的期望长期折扣奖励。
为选择具体的车辆,设集合ad(t)=(ad1(t),ad2(t),…,adK(t)),将λi(t)进行归一化处理,设定λi(t)取值大于等于0.5的对应adi(t)记为1,否则为0,最终得到的集合ad(t)由0跟1组成,1表示选择车辆,0表示不选择车辆。
被选择的车辆利用本地数据进行本地训练得到对应的本地模型,包括以下步骤:
S1:在时隙t下,车辆Vk从路边单元处下载全局模型wt-1,其中,在时隙1,路边单元处的全局模型使用卷积神经网络初始化为w0;
S2:车辆Vk基于卷积神经网络对本地数据进行训练,其本地训练由l轮组成,在第m(m∈[1,l])轮本地训练中,车辆Vk首先将每个本地数据a的标签概率即ya输入到本地模型wk,m的卷积神经网络中,然后得到卷积神经网络对每个数据的标签的预测概率采用交叉熵损失函数计算wk,m的损失值,计算公式如下:
S3:使用随机梯度下降算法更新本地模型,公式如下:
其中,为fk(wk,m)的梯度,η为学习率;
S4:车辆Vk使用更新后的本地模型进行m+1轮本地训练,当本地训练轮次达到l时本地训练停止,车辆获得更新后的本地模型Wk。
进一步地,车辆在进行本地训练时,会产生训练时延和传输延迟,所述训练时延为:
其中,为车辆i本地训练所产生的时延,C0为训练一个数据所需要的CPU周期数,μi为车辆i的计算资源,用CPU周期频率来衡量,每辆车i(1≤i≤K)都携带不同的数据量Di;
所述传输时延为:
di(t)=||Pi(t)-Pr||
其中,为车辆i在时隙t上传本地模型的传输时延,|w|为每辆车本地训练得到的本地模型大小,tri(t)为t时隙车辆i的传输速率,B为传输带宽,p0为每辆车的发送功率,为定值,hi(t)为t时隙的信道增益,α为路径损耗指数,σ2为噪声功率,车辆i在时隙t的位置Pi(t)设置为(dix(t),dy,0),其中dix(t)和dy分别为在时隙t车辆i沿x轴和y轴距离路边单元的天线的位,dy为一个固定值,dix(t)=di0+vt,di0为车辆i的初始位置沿x轴的坐标,v为车辆速度,t为时隙,将路边单元的天线高度设置为Hr,则路边单元的天线位置表示为Pr=(0,0,Hr)。
其中,采用自回归模型来构建hi(t)和hi(t-1)之间的关系,即:
其中,ρi为连续时隙之间的归一化信道相关系数,e(t)为服从复高斯分布的误差向量并且与hi(t)相关,根据杰克衰落频谱,其中J0(·)为第一类零阶贝塞尔函数并且/>为车辆i的多普勒频率/>Λ为波长,θ为移动方向即x0=(1,0,0)和上行通信方向即Pr-Pi(t)之间的夹角,因此/>
与传统的异步联邦学习不同,本发明考虑了训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响。具体来说,由于车辆的本地训练和上传车辆本地模型到路边单元都会产生一定时延,所以当一辆车从进行本地训练到上传到路边单元的过程中,可能存在路边单元已经收到来自其他车辆上传的车辆本地模型并且进行全局模型的更新的情况。该情况下,这辆车所训练的车辆本地模型就具有一定的迟滞性。于是本发明对车辆Vk的车辆本地模型进行一定的权重处理,即设置训练权重以及传输权重。具体计算方法如下:
对车辆本地模型进行权重优化,所述权重包括训练权重和传输权重,所述训练权重为:
其中,β1,k为训练权重,m1∈(0,1)为参数,其使β1,k随着本地训练时延增加而减小,为车辆Vk的本地计算时延;
所述传输权重为:
其中,β2,k(t)为传输权重,m2∈(0,1)为参数,其使β2,k(t)随着传输时延增加而减小,为车辆Vk的传输时延;
根据公式wkw=wk*β1,k*β2,k,得到权重优化后的车辆本地模型;
其中,Wk为车辆本地模型,wkw为权重优化后的车辆本地模型,β1,k为训练权重,β2,k(t)为传输权重。
进一步地,训练完的车辆将权重优化后的车辆本地模型异步上传到路边单元处进行异步联邦聚合,通过多轮重复训练,最终路边单元得到全局模型具体包括:
当车辆Vk将权重优化后的车辆本地模型上传到路边单元后,路边单元就进行一次全局聚合,其公式如下:
Wnew=βwold+(1-β)wkw
其中,wold为路边单元处当前的全局模型,Wnew,为更新后的全局模型,wkw,为权重优化后的车辆本地模型,β∈(0,1)为聚合比例;
在每个时隙最开始路边单元收到第一个上传的本地模型时,wold=wt-1,当路边单元接收到所有被选择车辆的本地模型并得到更新K1次后的全局模型wt后该时隙的全局模型更新结束。
同时可以得到参与训练的车辆的平均损失Loss(t),其可以表示为:
其中,fk(wk)为本地模型wk的损失值。
为了进一步阐述本发明的原理以及有益效果,下面结合具体的实验进行说明。
本发明旨在于找到一个最优策略μ*来最大化系统的期望长期折扣奖励。
本发明具体采用的整体算法包括两个部分,基于DAFL(Data-Free Learning,数据免费学习)框架的训练阶段的算法以及基于DAFL框架的测试阶段的算法。
其中基于DAFL框架的训练阶段算法步骤如表1所示。
表1
本发明使用DDPG算法优化异步联邦方法,其中DDPG算法基于actor-critic网络架构。actor网络用来进行策略提升,critic网络用来进行策略评估。具体来说,actor网络用来近似策略μ,其近似的策略被表示为μδ。actor网络基于策略μδ并且观察状态从而输出动作。
本发明通过迭代来提升和评估策略从而最后得到最优策略。DDPG算法为了保证该算法的稳定性,还采用了由target actor网络和target critic网络组成的target网络,其架构分别与actor网络和critic网络相同。
设置δ为actor网络参数,ξ为critic网络参数,δ*为优化后的actor网络参数,ξ*为优化后的critic网络参数,δ1为target actor网络参数,ξ1为target critic网络参数。τ为target网络的更新参数,Δt为时隙t动作探索的噪声。I为小批量大小。接下来将详细介绍训练阶段的算法。
首先,随机初始化δ和ξ,并且同时将target网络中的δ1和ξ1分别初始化为δ和ξ。同时,将经验回放缓冲区Rb进行初始化。
接下来,算法将执行Emax个回合。在第一个回合中,重置全部车辆的位置、信道状态以及车辆自身可用计算资源大小。且设置λ1(0)=λ2(0)=…=λK(0)=1,则在第一个时隙,系统可以获得最初的状态s(1)=(Tr(1),μ(1),dx(1),a(0))。同时使用CNN(ConvolutionalNeural Networks,卷积神经网络)初始化路边单元处的全局模型w0。
之后,算法将连续从时隙1执行到最大时隙数N。在第一个时隙中,actor网络根据状态得到输出μδ(s|δ),这里对动作添加一个随机噪声Δt,于是系统得到动作a(1)=μδ(s(1)|δ)+Δt。随后根据动作计算ad(1),确定该时隙选择的车辆。被选择出来的车辆执行异步联邦训练,即车辆根据本地数据训练本地模型,然后异步上传到路边单元进行全局模型的更新,之后计算损失值Loss(1)。同时,计算车辆的本地训练时延和传输时延,从而可以得到时隙1下的系统奖励。然后,更新车辆位置,重新计算信道状况以及车辆自身可用计算资源,更新车辆的传输速率,从而系统可以观察到下一状态s(2)。然后将元组(s(1),a(1),r(1),s(2))存进Rb中。
当Rb中的元组数小于等于I时,系统直接将下一状态输入actor网络并且进行下一次迭代。
当Rb中的元组数大于I时,actor网络、critic网络以及target网络中的参数δ、ξ、δ1和ξ1开始进行更新,来最大化J(μδ)。actor网络的参数δ朝着J(μδ)的梯度方向也就是进行更新。将在s(t)和a(t)下服从策略μδ的动作值函数设为Qμδ(s(t),a(t)),其表达式为:
其表示时隙t系统的长期期望折扣奖励。
求解可以通过求解Quδ(s(t),a(t))的梯度/>来代替。critic网络使用参数ξ对Qμδ(s(t),a(t))近似为Qξ(s(t),a(t))。
接下来将介绍时隙t下参数δ、ξ、δ1和ξ1的更新方法。当Rb中的元组数大于I时,系统从Rb中随机抽取I个元组构成一个小批量。设(sx,ax,rx,s′x),x∈[1,2,...,I]为小批量中第x个元组。然后系统首先将s′x输入target actor网络,从而得到输出的动作然后再将s′x和a′x输入target critic网络,得到输出的动作值函数然后目标值可以被计算为:
然后,根据sx和ax,critic网络会有一个输出Qξ(sx,ax),于是可计算出元组x的损失为:
Lx=[yx-Qξ(sx,ax)]2
当所有元组都被输入到critic网络和target网络时,可得到损失函数:
critic网络通过对使用梯度下降的方法最小化损失函数L(ξ)从而更新参数ξ。
类似的,actor网络通过对使用梯度上升的方法最大化J(μδ)从而更新参数δ。其中/>通过由critic网络近似的动作值函数计算,公式如下:
其中Qξ的输入为
在时隙t最后,更新target网络的参数,更新公式为:
ξ1←τξ+(1-τ)ξ1
δ1←τδ+(1-τ)δ1
其中τ为常数且满足τ<<1。
最后系统将s′输入actor网络并且开始下一个时隙的迭代计算。当时隙t达到最大值N时,该回合结束。然后系统再初始化状态值s(1)=(Tr(1),μ(1),dx(1),a(0)),并且进行下一个回合的训练。当回合数达到最大值Emax时训练结束,并获得优化后的actor网络、critic网络、target actor网络以及target critic网络的参数即δ*、ξ*、和/>
测试阶段模拟了训练阶段的critic网络、target actor网络以及target critic网络。并且使用具有最优参数δ*的最优策略。
其中基于DAFL框架的测试阶段算法步骤如表2所示。
表2
1.对于每个回合1≤epi≤E′max执行: |
2.重置系统模型的仿真参数,初始化路边单元处的全局模型 |
3.获得最初的状态s(1) |
4.对于每个时隙1≤t≤N执行: |
5.根据当前策略产生动作a=μδ(s|δ) |
6.计算ad,确定所选择的车辆 |
7.被选择的车辆进行基于权重的AFL更新训练 |
8.从当前系统获得奖励r和下一状态s′ |
本发明根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙,对参与训练的车辆进行选择,去除车辆中可能存在的坏节点;被选择的车辆利用本地数据进行本地训练得到对应的本地模型,在车辆进行本地模型时,考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响,对本地模型进行权重优化,提高了路边单元处全局模型的精度;训练完的车辆将权重优化后的本地模型异步上传到路边单元处进行异步联邦聚合,通过多轮重复训练,最终路边单元得到全局模型,本发明车辆采用异步联邦训练,路边单元每收到一个来自车辆上传的本地模型就进行一次全局模型的聚合,这能够更快的更新路边单元处的全局模型而不用等待其他车辆的上传。本发明方法计算简便,系统模型合理,仿真实验验证了该方法在车辆环境下能够得到较高的全局模型精度。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种可防御拜占庭攻击的异步联邦优化方法,其特征在于,包括:
配置可信数据集DRSU至路边单元;选择异步联邦聚合所需的车辆;
被选择的车辆从所述路边单元处下载全局模型,所述路边单元复制所述全局模型;
被选择的车辆利用本地数据训练下载的全局模型,得到车辆本地模型以及车辆损失值并将所述车辆本地模型以及车辆损失值/>上传到路边单元;所述路边单元利用所述可信数据集DRSU训练复制的全局模型,得到路边本地模型以及路边损失值LRSU;
当车辆本地模型损失值以及路边损失值LRSU满足/>时,将所述车辆本地模型与全局模型联邦聚合,得到更新的全局模型,否则,舍弃所述所述车辆本地模型,并返回异步联邦聚合所需车辆的步骤;其中,βR为预设参数。
2.根据权利要求1所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,多次更新后得到训练完成的全局模型,训练全局模型过程中,多次选择异步联邦聚合所需的车辆包括:
构建DDPG模型,所述DDPG模型包括系统奖励函数;
获取系统状态;
所述DDPG模型根据系统状态选择动作;
根据选择的动作选择异步联邦聚合所需的车辆;
所述DDPG模型根据车辆损失值以及系统奖励函数输出奖励;
返回获取系统状态的步骤,直至所述全局模型训练完成;
其中,系统状态、动作以及奖励形成历史数据,车辆选择过程中,所述DDPG模型根据历史数据进行训练。
3.根据权利要求2所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,所述系统奖励函数为:
其中,r(t)为时隙t的系统奖励,ω1和ω2为非负的权重因子,adi(t)为时隙t的系统动作,λi(t),i∈[1,K]表示选择车辆i的概率,Loss(t)为时隙t的车辆损失值,为车辆i本地训练所产生的时延,/>为车辆i在时隙t上传本地模型的传输时延,a(t)为时隙t的系统动作,s(t)为时隙t的系统状态。
4.根据权利要求3所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,基于时隙t的系统奖励,系统的期望长期折扣奖励可以表示为:
其中,γ∈(0,1)为折扣因子,N为总时隙数,μ为系统的策略,J(μ)为系统的期望长期折扣奖励。
5.根据权利要求2所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,所述训练时延根据以下公式确定:
其中,为车辆i本地训练所产生的时延,C0为训练一个数据所需要的CPU周期数,μi为车辆i的计算资源,用CPU周期频率来衡量,每辆车i(1≤i≤K)都携带不同的数据量Di。
6.根据权利要求2所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,所述传输时延根据以下公式确定:
di(t)=||Pi(t)-Pr||
其中,为车辆i在时隙t上传本地模型的传输时延,|w|为每辆车本地训练得到的本地模型大小,tri(t)为t时隙车辆i的传输速率,B为传输带宽,p0为每辆车的发送功率,为定值,hi(t)为t时隙的信道增益,α为路径损耗指数,σ2为噪声功率,车辆i在时隙t的位置Pi(t)设置为(dix(t),dy,0),其中dix(t)和dy分别为在时隙t车辆i沿x轴和y轴距离路边单元的天线的位,dy为一个固定值,dix(t)=di0+vt,di0为车辆i的初始位置沿x轴的坐标,v为车辆速度,t为时隙,将路边单元的天线高度设置为Hr,则路边单元的天线位置表示为Pr=(0,0,Hr)。
7.根据权利要求1所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于:在得到车辆本地模型后,将所述车辆本地模型上传到路边单元之前,考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响,对车辆本地模型进行权重优化,得到权重优化后的本地模型。
8.根据权利要求7所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,所述权重包括训练权重和传输权重,所述训练权重为:
其中,β1,k为训练权重,m1∈(0,1)为参数,其使β1,k随着本地训练时延增加而减小,为车辆Vk的本地计算时延;
所述传输权重为:
其中,β2,k(t)为传输权重,m2∈(0,1)为参数,其使β2,k(t)随着传输时延增加而减小,为车辆Vk的传输时延。
9.根据权利要求7所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于:根据公式wkw=wk*β1,k*β2,k,得到权重优化后的车辆本地模型,其中,wk为车辆本地模型,Wkw为权重优化后的车辆本地模型,β1,k为训练权重,β2,k(t)为传输权重。
10.根据权利要求1所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,根据以下公式进行联邦聚合:
Wnew=βwold+(1-β)wkw
其中,wold为路边单元处当前的全局模型,Wnew为更新后的全局模型,Wkw为权重优化后的车辆本地模型,β∈(0,1)为聚合比例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310553063.9A CN116542342A (zh) | 2023-05-16 | 2023-05-16 | 一种可防御拜占庭攻击的异步联邦优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310553063.9A CN116542342A (zh) | 2023-05-16 | 2023-05-16 | 一种可防御拜占庭攻击的异步联邦优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116542342A true CN116542342A (zh) | 2023-08-04 |
Family
ID=87450383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310553063.9A Pending CN116542342A (zh) | 2023-05-16 | 2023-05-16 | 一种可防御拜占庭攻击的异步联邦优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116542342A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112714106A (zh) * | 2020-12-17 | 2021-04-27 | 杭州趣链科技有限公司 | 一种基于区块链的联邦学习搭便车攻击防御方法 |
WO2021196701A1 (zh) * | 2020-03-31 | 2021-10-07 | 深圳前海微众银行股份有限公司 | 一种应对攻击的方法及联邦学习装置 |
WO2021204040A1 (zh) * | 2020-10-29 | 2021-10-14 | 平安科技(深圳)有限公司 | 联邦学习数据处理方法、装置、设备及存储介质 |
CN113779563A (zh) * | 2021-08-05 | 2021-12-10 | 国网河北省电力有限公司信息通信分公司 | 联邦学习的后门攻击防御方法及装置 |
CN115358412A (zh) * | 2022-08-19 | 2022-11-18 | 江南大学 | 一种基于边缘辅助车辆网络的异步联邦优化方法 |
CN116017571A (zh) * | 2022-12-14 | 2023-04-25 | 南京航空航天大学 | 基于联邦强化学习的多智能体风险感知安全计算方法 |
CN116055489A (zh) * | 2023-01-10 | 2023-05-02 | 江南大学 | 一种基于ddpg算法选择车辆的异步联邦优化方法 |
CN116050546A (zh) * | 2022-12-22 | 2023-05-02 | 广西师范大学 | 一种数据非独立同分布下的拜占庭鲁棒的联邦学习方法 |
-
2023
- 2023-05-16 CN CN202310553063.9A patent/CN116542342A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021196701A1 (zh) * | 2020-03-31 | 2021-10-07 | 深圳前海微众银行股份有限公司 | 一种应对攻击的方法及联邦学习装置 |
WO2021204040A1 (zh) * | 2020-10-29 | 2021-10-14 | 平安科技(深圳)有限公司 | 联邦学习数据处理方法、装置、设备及存储介质 |
CN112714106A (zh) * | 2020-12-17 | 2021-04-27 | 杭州趣链科技有限公司 | 一种基于区块链的联邦学习搭便车攻击防御方法 |
CN113779563A (zh) * | 2021-08-05 | 2021-12-10 | 国网河北省电力有限公司信息通信分公司 | 联邦学习的后门攻击防御方法及装置 |
CN115358412A (zh) * | 2022-08-19 | 2022-11-18 | 江南大学 | 一种基于边缘辅助车辆网络的异步联邦优化方法 |
CN116017571A (zh) * | 2022-12-14 | 2023-04-25 | 南京航空航天大学 | 基于联邦强化学习的多智能体风险感知安全计算方法 |
CN116050546A (zh) * | 2022-12-22 | 2023-05-02 | 广西师范大学 | 一种数据非独立同分布下的拜占庭鲁棒的联邦学习方法 |
CN116055489A (zh) * | 2023-01-10 | 2023-05-02 | 江南大学 | 一种基于ddpg算法选择车辆的异步联邦优化方法 |
Non-Patent Citations (3)
Title |
---|
QIONG WU ET AL.: "Deep Reinforcement Learning Based Vehicle Selection for Asynchronous Federated Learning Enabled Vehicular Edge Computing", 《ARXIV》, 6 April 2023 (2023-04-06) * |
SHAOMING HUANG ET AL.: "Byzantine-Resilient Federated Machine Learning via Over-the-Air Computation", 《ARXIV》, 23 May 2021 (2021-05-23) * |
李海洋 等: "FLTrust: Byzantine-robust Federated Learning viaTrust Bootstrapping", 《西安电子科技大学学报》, 10 May 2023 (2023-05-10) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112118601B (zh) | 一种减少6g数字孪生边缘计算网络任务卸载延迟的方法 | |
JP7301156B2 (ja) | 量子系をシミュレートするための量子変分法、装置及び記憶媒体 | |
CN112668128B (zh) | 联邦学习系统中终端设备节点的选择方法及装置 | |
CN111754000B (zh) | 质量感知的边缘智能联邦学习方法及系统 | |
Gu et al. | Mean-field controls with Q-learning for cooperative MARL: convergence and complexity analysis | |
CN109871702B (zh) | 联邦模型训练方法、系统、设备及计算机可读存储介质 | |
WO2024027164A1 (zh) | 一种支持异构模型的自适应个性化联邦学习方法 | |
CN106062786B (zh) | 用于训练神经网络的计算系统 | |
JP2019525329A (ja) | 複数の機械学習タスクに関する機械学習モデルのトレーニング | |
Wang et al. | Cell selection with deep reinforcement learning in sparse mobile crowdsensing | |
Swenson et al. | Distributed inertial best-response dynamics | |
CN112766497A (zh) | 深度强化学习模型的训练方法、装置、介质及设备 | |
CN113158550B (zh) | 一种联邦学习方法、装置、电子设备及存储介质 | |
de Oliveira et al. | Comparing multi-armed bandit algorithms and Q-learning for multiagent action selection: a case study in route choice | |
WO2020028770A1 (en) | Artificial neural network growth | |
CN116055489A (zh) | 一种基于ddpg算法选择车辆的异步联邦优化方法 | |
CN115376031A (zh) | 基于联邦自适应学习的公路无人机巡检数据处理方法 | |
CN116700984A (zh) | 一种基于云游戏服务的动态防入侵的资源调度系统 | |
CN116389270A (zh) | 联邦学习中基于drl联合优化客户端选择和带宽分配的方法 | |
CN112235062A (zh) | 一种对抗通信噪声的联邦学习方法和系统 | |
CN113726894B (zh) | 一种基于深度强化学习的多车应用计算卸载方法及终端 | |
Hussain et al. | Optimizing traffic lights with multi-agent deep reinforcement learning and v2x communication | |
CN116542342A (zh) | 一种可防御拜占庭攻击的异步联邦优化方法 | |
CN111510473B (zh) | 访问请求处理方法、装置、电子设备和计算机可读介质 | |
CN116166406B (zh) | 个性化边缘卸载调度方法、模型训练方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |