CN114554459B - 一种近端策略优化辅助的车联网联邦学习客户端选择方法 - Google Patents

一种近端策略优化辅助的车联网联邦学习客户端选择方法 Download PDF

Info

Publication number
CN114554459B
CN114554459B CN202210060912.2A CN202210060912A CN114554459B CN 114554459 B CN114554459 B CN 114554459B CN 202210060912 A CN202210060912 A CN 202210060912A CN 114554459 B CN114554459 B CN 114554459B
Authority
CN
China
Prior art keywords
icv
candidate
strategy
function
mec server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210060912.2A
Other languages
English (en)
Other versions
CN114554459A (zh
Inventor
于天琪
陈中悦
刘昌荣
羊箭锋
胡剑凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210060912.2A priority Critical patent/CN114554459B/zh
Publication of CN114554459A publication Critical patent/CN114554459A/zh
Application granted granted Critical
Publication of CN114554459B publication Critical patent/CN114554459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种近端策略优化辅助的车联网联邦学习客户端选择方法,包括:S1、通过MEC服务器初始化AI全局模型;S2、ICV发送联邦学习参与请求消息至MEC服务器,MEC服务器标记所述ICV为候选ICV;S3、MEC服务器发送联邦学习参与请求反馈消息至候选ICV,通知候选ICV准备接收AI全局模型;S4、MEC服务器下载AI全局模型至全部候选ICV;S5、候选ICV执行一轮本地AI模型训练;S6、候选ICV上传本地信息至MEC服务器;S7、MEC服务器通过PPO辅助的决策算法确立策略函数,用以选择实际参与联邦学习的ICV;S8、MEC服务器发送联邦学习参与接受消息至选中ICV,发送联邦学习参与拒绝消息至未选中ICV。本发明具有稳定性高、能耗小、精度高等优点。

Description

一种近端策略优化辅助的车联网联邦学习客户端选择方法
技术领域
本发明涉及车联网利用人工智能技术领域,特别涉及一种近端策略优化辅助的车联网联邦学习客户端选择方法。
背景技术
车联网利用人工智能(artificial intelligence,AI)技术为网联汽车提供智能化的服务,例如,高级驾驶辅助系统、无人驾驶。在传统的车联网中,汽车通过车载单元利用车辆与基础设施无线通信技术将本地车辆信息与驾驶数据统一上传至云服务器进行存储。基于存储的历史数据,利用云服务器的计算资源针对AI模型进行中心化训练。然而,信息与数据在从车辆上传至云服务器的过程中,数据传输的往返时延较长,且无线通信在开放空间以电磁波为载体进行传输,存在着数据隐私泄露的风险。因此,基于云服务器的数据采集、存储、与AI模型训练难以满足车联网系统服务对于超高可靠超低时延通信的需求。
联邦学习技术具有分布式本地化模型训练与安全多方计算的特点,已成为车联网中AI模型训练潜在的解决方案。客户端-服务器模式的车联网联邦学习架构如图1所示,该架构有三层组成,分别是本地计算层、边缘计算层、和云计算层。
本地计算层由多个智能网联汽车(intelligent connected vehicle,ICV)构成。智能网联汽车通过车载传感器实现传感数据的采集,通过车载计算单元实现本地计算,通过C-V2X无线通信接口与基站进行通信。在客户端-服务器模式的车联网联邦学习架构中,ICV作为底层客户端,负责传感数据采集和本地AI模型训练。
边缘计算层由多个配有移动边缘计算(mobile edge computing,MEC)服务器的基站构成。MEC服务器与基站共同部署于边缘计算层,通过Ethernet有线通信技术相互连接。其中,基站负责边缘计算层通信功能的实现,即南向通过C-V2X无线通信技术与智能网联汽车通信,北向通过Ethernet有线通信技术与云服务器通信;MEC服务器负责边缘计算层计算功能的实现,为智能网联汽车的实时服务提供支撑。在客户端-服务器模式的车联网联邦学习架构中,MEC服务器作为参数服务器,负责AI全局模型的初始化与训练过程中的参数聚合。
云计算层由公有云服务器构成。云服务器在车联网中作为远程的数据与控制中心,负责系统信息的存储与备份。
依托于该架构的AI模型联邦学习过程为:1)由MEC服务器初始化AI全局模型并下载至ICV;2)ICV利用存储的信息与数据对AI模型进行本地化训练,并将训练后的AI模型参数上传至MEC服务器;3)MEC服务器对分布式训练的AI模型参数进行聚合,并更新AI全局模型;4)MEC服务器下载AI全局模型至ICV,并重复步骤2-4直至AI模型收敛或达到训练时限。其中,MEC服务器部署于基站处,相较于远程的云服务器,能够降低系统传输时延;以AI模型参数上传替代原始车辆信息与数据上传,能够降低数据上传量并保障数据隐私安全。然而,车联网联邦学习架构中,如何选择本地训练客户端,仍是亟待解决的关键问题。现有的几种算法如下:
朴素选择算法专注于特定的选择标准,以便有针对性地提高性能。在文献[1]中,对于每一轮联邦学习,服务器等待m个可用客户端,并选择最早发送参与请求的k个客户端进行训练(k<m),称为时间最优(m,k)对,这在确保收敛的同时减少了平均迭代时间。在文献[2]中,为了提高模型精度,引入了权差的概念来评估客户端本地数据集的非独立同分布程度,并提出了一种称为CSFedAvg的联邦学习算法,选择权差较低的客户端作为实际的参与方。
基于优化算法的方法将客户端选择抽象为一个优化问题,兼顾多个选择标准。文献[3]最大化参与每轮模型训练的客户端数量,以缩短联邦学习过程的时间,其中以本地模型更新和上传时间作为选择标准,并针对背包约束下的最大化问题,提出了一种基于贪婪算法的求解方法。文献[4]中的选择标准除时间外,还包括CPU周期频率、内存和客户端能量,以缩短联邦学习过程的时间并优化网络流量。针对该组合优化问题,提出了一种改进的贪婪算法作为求解方法。
基于博弈论的方法将基于多个标准的客户端选择描述为一个博弈问题。在文献[5]中,提出了基于Stackelberg博弈的激励机制,其中效用函数由服务器提供的奖励值和客户端的信誉值、计算成本和通信成本构成,以该博弈问题的纳什均衡作为客户端选择方案。在文献[6]中,客户端选择被表述为二维契约理论问题,其中效用函数是基于图像质量和计算成本形成的,该方法提高了模型聚合的精度和效率。
基于多臂老虎机的方法:多臂老虎机问题是一个序贯决策问题,其目标是按序选择拉杆以使总奖励值最大化。在文献[7]中,提出了基于多臂老虎机的客户端选择算法以减少联邦学习过程的时间,其中基于模型分布、更新和上传时间设置置信上限分数。Xia等人也将客户端选择表述为多臂老虎机问题,并且进一步考虑了客户端的本地数据集是非独立同分布和不平衡的情况[8]。
基于深度强化学习的方法:在[9]中,自适应客户端选择问题被描述为马尔可夫决策过程。状态空间建立在客户端资源上,包括CPU周期频率、电池容量和无线带宽。动作空间是二元客户端选择的组合。通过将深度强化学习的方法,即深度双Q网络,应用于马尔可夫决策过程问题求解,与基于贪婪算法的方法相比,能耗和延迟显著降低。
[1]B.Buyukates and S.Ulukus,“Timely Communication in FederatedLearning,”in IEEE INFOCOM-IEEE Conf.Comput.Commun.Workshops(INFOCOM Wkshps),2021,pp.1–6.
[2]W.Zhang,X.Wang,P.Zhou,W.Wu,and X.Zhang,“Client Selection forFederated Learning With Non-IID Data in Mobile Edge Computing,”IEEE Access,vol.9,pp.24462–24474,2021.
[3]T.Nishio and R.Yonetani,“Client Selection for Federated Learningwith Heterogeneous Resources in Mobile Edge,”in IEEE Int.Conf.Commun.(ICC),2019,pp.1–7.
[4]S.AbdulRahman,H.Tout,A.Mourad,and C.Talhi,“FedMCCS:MulticriteriaClient Selection Model for Optimal IoT Federated Learning,”IEEE InternetThings J.,vol.8,no.6,pp.4723–4735,2020.
[5]W.Sun,N.Xu,L.Wang,H.Zhang,and Y.Zhang,“Dynamic Digital Twin andFederated Learning with Incentives for Air-Ground Networks,”IEEETrans.Netw.Sci.Eng.,2020.
[6]D.Ye,R.Yu,M.Pan,and Z.Han,“Federated Learning in Vehicular EdgeComputing:A Selective Model Aggregation Approach,”IEEE Access,vol.8,pp.23920–23935,2020.
[7]N.Yoshida,T.Nishio,M.Morikura,and K.Yamamoto,“MAB-based ClientSelection for Federated Learning with Uncertain Resources in MobileNetworks,”in IEEE Globecom Workshops(GC Wkshps),2020,pp.1–6.
[8]W.Xia,T.Q.Quek,K.Guo,W.Wen,H.H.Yang,and H.Zhu,“Multi-Armed Bandit-based Client Scheduling for Federated Learning,”IEEE Trans.Wireless Commun.,vol.19,no.11,pp.7108–7123,2020.
[9]H.Zhang,Z.Xie,R.Zarei,T.Wu,and K.Chen,“Adaptive Client Selectionin Resource Constrained Federated Learning Systems:A Deep ReinforcementLearningApproach,”IEEEAccess,vol.9,pp.98423–98432,2021。
发明内容
本发明要解决的技术问题是提供一种稳定性高、能耗小、精度高的近端策略优化辅助的车联网联邦学习客户端选择方法。
为了解决上述问题,本发明提供了一种近端策略优化辅助的车联网联邦学习客户端选择方法,所述近端策略优化辅助的车联网联邦学习客户端选择方法包括以下步骤:
S1、通过MEC服务器初始化AI全局模型;
S2、ICV发送联邦学习参与请求消息至MEC服务器,MEC服务器标记所述ICV为候选ICV;
S3、MEC服务器发送联邦学习参与请求反馈消息至候选ICV,通知候选ICV准备接收AI全局模型;
S4、MEC服务器下载AI全局模型至全部候选ICV;
S5、候选ICV执行一轮本地AI模型训练;
S6、候选ICV上传本地信息至MEC服务器;
S7、MEC服务器通过PPO辅助的决策算法确立策略函数,用以选择实际参与联邦学习的ICV;
S8、MEC服务器发送联邦学习参与接受消息至选中ICV,发送联邦学习参与拒绝消息至未选中ICV。
作为本发明的进一步改进,步骤S7包括:
S70、构建候选ICV的状态参数集合;
S71、初始化策略函数神经网络;
S72、初始化价值函数神经网络;
S73、初始化迭代次数为1;
S74、生成策略函数执行轨迹;
S75、根据策略函数执行轨迹,计算优势函数;
S76、根据策略函数执行轨迹和优势函数,更新策略函数的参数;
S77、根据策略函数执行轨迹,计算奖励值;
S78、根据策略函数执行轨迹和奖励值,更新价值函数的参数;
S79、迭代次数增加1次,并判断是否到达最大迭代次数:若不是,返回步骤S74;若是,结束。
作为本发明的进一步改进,步骤S74包括:
S741、初始化策略函数执行次数为0;
S742、根据状态计算不同选择策略概率;
S743、根据概率最大值确定选择策略;
S744、根据确定的选择策略计算奖励值;
S745、记录当前时刻的状态、选择策略和奖励值;
S746、根据确定的选择策略更新状态;
S747、执行次数增加1,并判断是否到达最大执行次数:若不是,返回步骤S742;若是,结束。
作为本发明的进一步改进,步骤S70包括:
S701、MEC服务器根据收到的AI模型参数聚合生成AI全局模型参数;
S702、计算候选ICV的权差作为评估候选ICV本地数据质量的量化指标;
S703、基站通过测量估计候选ICV的数据传输速率;
S704、构建候选ICV的状态参数集合。
作为本发明的进一步改进,所述策略函数神经网络的输入为全部K个候选ICV状态参数的并集,输出为ICV选择策略的概率;ICV选择策略的集合为单一ICV选择策略集合的笛卡尔乘积;单一ICV选择策略集合Aj={0,1},1代表选择第j个ICV,0代表不选择第j个ICV,ICV选择策略的数量为|A|=2K,K≥2。
作为本发明的进一步改进,所述价值函数神经网络输入为全部K个候选ICV状态参数的并集,输出为奖励值的估计值,K≥2。
作为本发明的进一步改进,步骤S75中,优势函数
Figure BDA0003478151650000061
的计算公式如下:
Figure BDA0003478151650000062
Figure BDA0003478151650000063
其中,γ为折扣值,λ为平滑参数,s为状态S的值,Vφ为价值函数神经网络,k为迭代次数,t为策略函数执行次数,Ts为最大执行次数,r为奖励值。
作为本发明的进一步改进,步骤S76包括:
根据策略函数执行轨迹和优势函数,更新策略函数的参数θk+1
Figure BDA0003478151650000064
其中,πθ为策略函数神经网络,at为选择策略。
作为本发明的进一步改进,步骤S77包括:
根据策略函数执行轨迹,计算奖励值
Figure BDA0003478151650000065
公式如下:
Figure BDA0003478151650000066
步骤S78包括:
根据策略函数执行轨迹和奖励值,更新价值函数的参数φk+1,公式如下:
Figure BDA0003478151650000067
作为本发明的进一步改进,所述本地信息包括一轮训练后更新的AI模型参数、CPU周期频率、电池容量。
本发明的有益效果:
本发明近端策略优化辅助的车联网联邦学习客户端选择方法通过定义候选智能网联汽车的权差,作为评估候选智能网联汽车的本地数据质量的量化指标,从而有效量化评估本地数据集的质量;
同时采用智能网联汽车的本地数据质量、CPU周期频率、电池容量、以及传输速率作为客户端选择标准,以兼顾系统在AI模型训练精度、系统传输时延、系统能耗方面的性能;
采用近端策略优化作为多目标优化问题的求解方案,能够同时实现最大化AI模型训练精度、最小化系统传输时延、最小化系统能耗的目标。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是现有客户端-服务器模式的车联网联邦学习架构示意图;
图2是本发明优选实施例中近端策略优化辅助的车联网联邦学习客户端选择方法的示意图;
图3是本发明优选实施例中PPO辅助的决策算法流程图;
图4是本发明优选实施例中生成策略函数执行轨迹流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
本发明提出一种近端策略优化(proximal policy optimization,PPO)辅助的车联网联邦学习客户端选择方法。在该方法中,采用智能网联汽车(intelligent connectedvehicle,ICV)的本地数据质量、CPU周期频率、电池容量、以及传输速率作为选择标准,以最大化AI模型训练精度、最小化系统传输时延、最小化系统能耗为目标,从候选ICV中选择实际参与联邦学习的本地训练客户端,其核心为PPO辅助的决策算法。
在PPO辅助的车联网联邦学习客户端选择方法中,人为设计并增加的方法相关的特定功能性消息包括:
FL-REQ消息,即联邦学习参与请求消息,由ICV发送至MEC服务器,用于在MEC服务器处标记该ICV为候选ICV;
FL-REQ-ACK消息,即联邦学习参与请求反馈消息,由MEC服务器发送至候选ICV,用于告知ICV发送的FL-REQ消息已成功接收并请切换至数据接收状态,准备接收AI全局模型;
FL-ACC消息,即联邦学习参与接受消息,由MEC服务器发送至候选ICV,告知该ICV已被选为联邦学习参与客户端;
FL-REJ消息,即联邦学习参与拒绝消息,由MEC服务器发送至候选ICV,告知该ICV未被选为联邦学习参与客户端。
如图2所示,本发明优选实施例公开了一种近端策略优化辅助的车联网联邦学习客户端选择方法,所述近端策略优化辅助的车联网联邦学习客户端选择方法包括以下步骤:
S1、通过MEC服务器初始化AI全局模型;其中AI全局模型是根据服务需求、人为预先完成模型结构设计的AI模型;
S2、ICV发送联邦学习参与请求消息至MEC服务器,MEC服务器标记所述ICV为候选ICV;
S3、MEC服务器发送联邦学习参与请求反馈消息至候选ICV,通知候选ICV准备接收AI全局模型;
S4、MEC服务器下载AI全局模型至全部候选ICV;
S5、候选ICV执行一轮本地AI模型训练;
S6、候选ICV上传本地信息至MEC服务器;所述本地信息包括一轮训练后更新的AI模型参数
Figure BDA0003478151650000081
CPU周期频率fj、电池容量ej,j=1,2,…,K;K为候选ICV个数;
S7、MEC服务器通过PPO辅助的决策算法确立策略函数,用以选择实际参与联邦学习的ICV;
S8、MEC服务器发送联邦学习参与接受消息至选中ICV,发送联邦学习参与拒绝消息至未选中ICV。
如图3所示,在一些实施例中,步骤S7包括以下步骤:
S70、构建候选ICV的状态参数集合;
具体地:步骤S70包括:
S701、MEC服务器根据收到的AI模型参数
Figure BDA0003478151650000091
聚合生成AI全局模型参数:
Figure BDA0003478151650000092
S702、计算候选ICV的权差wdj,作为评估候选ICV本地数据质量的量化指标:
Figure BDA0003478151650000093
S703、基站通过测量估计候选ICV的数据传输速率rj,j=1,2,…,K;
S704、构建候选ICV的状态参数集合Sj={wdj,fj,ej,rj},j=1,2,…,K。
S71、初始化策略函数神经网络πθ
在本实施例中,所述策略函数神经网络的输入为全部K个候选ICV状态参数的并集:
Figure BDA0003478151650000094
输出为ICV选择策略的概率P={pi|i=1,2,…,2K};ICV选择策略的集合为单一ICV选择策略集合的笛卡尔乘积:
Figure BDA0003478151650000095
单一ICV选择策略集合Aj={0,1},1代表选择第j个ICV,0代表不选择第j个ICV,ICV选择策略的数量为|A|=2K,K≥2。
S72、初始化价值函数神经网络Vφ;在本实施例中,所述价值函数神经网络输入为全部K个候选ICV状态参数的并集:
Figure BDA0003478151650000096
输出为奖励值的估计值,K≥2。
S73、初始化迭代次数为k=1;
S74、生成策略函数执行轨迹Γ={(st,at,rt)|t=0,1,…,Ts};
如图4所示,在一些实施例中,步骤S74包括:
S741、初始化策略函数πθ执行次数为t=0;
S742、根据状态计算不同选择策略概率;具体地,以状态S的值st,作为策略函数πθ的输入,得到不同选择策略的概率集合P={pi|i=1,2,…,2K};
S743、根据概率最大值确定选择策略;具体地,以概率集P中概率最大值对应的选择策略,作为此时刻的选择策略at={at,j|j=1,2,…,K},at,j为0或者1;
S744、根据确定的选择策略计算奖励值;公式如下:
Figure BDA0003478151650000101
S745、记录当前时刻的状态、选择策略和奖励值(st,at,rt);
S746、根据确定的选择策略更新状态;具体地,根据选择策略at生成t+1时刻的状态S的值st+1,公式如下:
st+1,j={wdj,fj,ej-Ejat,j,rj},
Figure BDA0003478151650000102
S747、执行次数t增加1,并判断是否到达最大执行次数Ts:若不是,返回步骤S742;若是,结束。
S75、根据策略函数执行轨迹,计算优势函数;
具体地,优势函数
Figure BDA0003478151650000103
的计算公式如下:
Figure BDA0003478151650000104
Figure BDA0003478151650000105
其中,γ为折扣值,通常取0.9-0.99;λ为平滑参数,通常取0.9-0.99;s为状态S的值,Vφ为价值函数神经网络,k为迭代次数,t为策略函数执行次数,Ts为最大执行次数,r为奖励值。
S76、根据策略函数执行轨迹和优势函数,更新策略函数的参数;
具体地,根据策略函数执行轨迹和优势函数,更新策略函数的参数θk+1
Figure BDA0003478151650000111
其中,πθ为策略函数神经网络,at为选择策略。
S77、根据策略函数执行轨迹,计算奖励值;
具体地,根据策略函数执行轨迹,计算奖励值
Figure BDA0003478151650000112
公式如下:
Figure BDA0003478151650000113
S78、根据策略函数执行轨迹和奖励值,更新价值函数的参数;
具体地,根据策略函数执行轨迹和奖励值,更新价值函数的参数φk+1,公式如下:
Figure BDA0003478151650000114
S79、迭代次数增加1次,并判断是否到达最大迭代次数:若不是,返回步骤S74;若是,结束。
其中,策略函数神经网络是一个多层的神经网络,以全部K个候选ICV状态参数的并集作为输入,以ICV选择策略的概率作为输出,每一层的功能结构、神经元数目、激活函数,根据决策任务特征、人为预先完成模型结构设计;参照表1,为其中一个实施例中的策略函数神经网络结构。
表1策略函数神经网络结构举例
Figure BDA0003478151650000115
其中,None表示该数值由实际神经网络模型训练过程中,一次训练数据样本数目决定,tanh是双曲正切函数。
其中,价值函数神经网络是一个多层的神经网络,输入为全部K个候选ICV状态参数的并集,输出为奖励值的估计值,每一层的功能结构、神经元数目、激活函数,根据决策任务特征、人为预先完成模型结构设计;参照表2,为其中一个实施例中的价值函数神经网络结构。
表2价值函数神经网络结构举例
Figure BDA0003478151650000121
其中,None表示该数值由实际神经网络模型训练过程中,一次训练数据样本数目决定,tanh是双曲正切函数。
本发明的近端策略优化辅助的车联网联邦学习客户端选择方法定义候选智能网联汽车的权差作为量化指标,从而有效量化评估本地数据集的质量;
同时采用智能网联汽车的本地数据质量、CPU周期频率、电池容量、以及传输速率作为客户端选择标准,以兼顾系统在AI模型训练精度、系统传输时延、系统能耗方面的性能;
相较于基于深度双Q网络的方法,本发明所提方法提高了AI模型训练精度与系统性能;
基于深度双Q网络的方法在每一轮次的客户端数量和目标客户端选择方面呈现出更高的随机性,造成系统在传输时延和系统能耗的性能方面的不稳定性,相较于已有方法,本发明所提方法在客户端选择时,稳定性更高。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (3)

1.一种近端策略优化辅助的车联网联邦学习客户端选择方法,其特征在于,包括以下步骤:
S1、通过MEC服务器初始化AI全局模型;
S2、ICV发送联邦学习参与请求消息至MEC服务器,MEC服务器标记所述ICV为候选ICV;
S3、MEC服务器发送联邦学习参与请求反馈消息至候选ICV,通知候选ICV准备接收AI全局模型;
S4、MEC服务器下载AI全局模型至全部候选ICV;
S5、候选ICV执行一轮本地AI模型训练;
S6、候选ICV上传本地信息至MEC服务器;
S7、MEC服务器通过PPO辅助的决策算法确立策略函数,用以选择实际参与联邦学习的ICV;
S8、MEC服务器发送联邦学习参与接受消息至选中ICV,发送联邦学习参与拒绝消息至未选中ICV;
步骤S7包括:
S70、构建候选ICV的状态参数集合;
S71、初始化策略函数神经网络;
S72、初始化价值函数神经网络;
S73、初始化迭代次数为1;
S74、生成策略函数执行轨迹;
S75、根据策略函数执行轨迹,计算优势函数;
S76、根据策略函数执行轨迹和优势函数,更新策略函数的参数;
S77、根据策略函数执行轨迹,计算奖励值;
S78、根据策略函数执行轨迹和奖励值,更新价值函数的参数;
S79、迭代次数增加1次,并判断是否到达最大迭代次数:若不是,返回步骤S74;若是,结束;
步骤S75中,优势函数
Figure FDA0003925234300000021
的计算公式如下:
Figure FDA0003925234300000022
Figure FDA0003925234300000023
其中,γ为折扣值,λ为平滑参数,s为状态S的值,Vφ为价值函数神经网络,k为迭代次数,t为策略函数执行次数,Ts为最大执行次数,r为奖励值;
步骤S76包括:
根据策略函数执行轨迹和优势函数,更新策略函数的参数θk+1
Figure FDA0003925234300000024
其中,πθ为策略函数神经网络,at为选择策略;
步骤S74包括:
S741、初始化策略函数执行次数为0;
S742、根据状态计算不同选择策略概率;
S743、根据概率最大值确定选择策略;
S744、根据确定的选择策略计算奖励值;
S745、记录当前时刻的状态、选择策略和奖励值;
S746、根据确定的选择策略更新状态;
S747、执行次数增加1,并判断是否到达最大执行次数:若不是,返回步骤S742;若是,结束;
步骤S70包括:
S701、MEC服务器根据收到的AI模型参数聚合生成AI全局模型参数;
S702、计算候选ICV的权差作为评估候选ICV本地数据质量的量化指标;公式如下:
Figure FDA0003925234300000031
wdj为候选ICV的权差;
Figure FDA0003925234300000032
为一轮训练后更新的AI模型参数;
Figure FDA0003925234300000033
为聚合生成的AI全局模型参数;
S703、基站通过测量估计候选ICV的数据传输速率;
S704、构建候选ICV的状态参数集合;
步骤S77包括:
根据策略函数执行轨迹,计算奖励值
Figure FDA0003925234300000034
公式如下:
Figure FDA0003925234300000035
步骤S78包括:
根据策略函数执行轨迹和奖励值,更新价值函数的参数φk+1,公式如下:
Figure FDA0003925234300000036
所述本地信息包括一轮训练后更新的AI模型参数、CPU周期频率、电池容量。
2.如权利要求1所述的近端策略优化辅助的车联网联邦学习客户端选择方法,其特征在于,所述策略函数神经网络的输入为全部K个候选ICV状态参数的并集,输出为ICV选择策略的概率;ICV选择策略的集合为单一ICV选择策略集合的笛卡尔乘积;单一ICV选择策略集合Aj={0,1},1代表选择第j个ICV,0代表不选择第j个ICV,ICV选择策略的数量为|A|=2K,K≥2。
3.如权利要求1所述的近端策略优化辅助的车联网联邦学习客户端选择方法,其特征在于,所述价值函数神经网络输入为全部K个候选ICV状态参数的并集,输出为奖励值的估计值,K≥2。
CN202210060912.2A 2022-01-19 2022-01-19 一种近端策略优化辅助的车联网联邦学习客户端选择方法 Active CN114554459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210060912.2A CN114554459B (zh) 2022-01-19 2022-01-19 一种近端策略优化辅助的车联网联邦学习客户端选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210060912.2A CN114554459B (zh) 2022-01-19 2022-01-19 一种近端策略优化辅助的车联网联邦学习客户端选择方法

Publications (2)

Publication Number Publication Date
CN114554459A CN114554459A (zh) 2022-05-27
CN114554459B true CN114554459B (zh) 2023-01-06

Family

ID=81670724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210060912.2A Active CN114554459B (zh) 2022-01-19 2022-01-19 一种近端策略优化辅助的车联网联邦学习客户端选择方法

Country Status (1)

Country Link
CN (1) CN114554459B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115174396B (zh) * 2022-07-02 2024-04-16 华北电力大学 一种基于数字孪生的低碳能源管控通信网业务管理方法
CN115021883B (zh) * 2022-07-13 2022-12-27 北京物资学院 无线蜂窝系统中应用联邦学习的信令机制
CN115378961A (zh) * 2022-08-16 2022-11-22 重庆邮电大学 一种基于区块链的分层联邦学习方法
CN116681126B (zh) * 2023-06-06 2024-03-12 重庆邮电大学空间通信研究院 一种自适应等待时长的异步加权联邦学习方法
CN116541712B (zh) * 2023-06-26 2023-12-26 杭州金智塔科技有限公司 基于非独立同分布数据的联邦建模方法及系统
CN117278540B (zh) * 2023-11-23 2024-02-13 中国人民解放军国防科技大学 自适应边缘联邦学习客户端调度方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230068386A1 (en) * 2020-02-03 2023-03-02 Intel Corporation Systems and methods for distributed learning for wireless edge dynamics
CN112637883B (zh) * 2020-12-09 2023-04-28 深圳智芯微电子科技有限公司 电力物联网中对无线环境变化具有鲁棒性的联邦学习方法
CN112668128B (zh) * 2020-12-21 2024-05-28 国网辽宁省电力有限公司物资分公司 联邦学习系统中终端设备节点的选择方法及装置
CN113191484B (zh) * 2021-04-25 2022-10-14 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113419849A (zh) * 2021-06-04 2021-09-21 国网河北省电力有限公司信息通信分公司 边缘计算节点选择方法及终端设备

Also Published As

Publication number Publication date
CN114554459A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN114554459B (zh) 一种近端策略优化辅助的车联网联邦学习客户端选择方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN113435472A (zh) 车载算力网络用户需求预测方法、系统、设备、介质
CN114615265B (zh) 边缘计算环境下基于深度强化学习的车载任务卸载方法
Lv et al. Edge computing task offloading for environmental perception of autonomous vehicles in 6G networks
CN112929849B (zh) 一种基于强化学习的可靠车载边缘计算卸载方法
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
CN117149434A (zh) 基于双重延迟深度确定性策略梯度算法的多无人机辅助计算迁移方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
CN115065728A (zh) 一种基于多策略强化学习的多目标内容存储方法
CN117221951A (zh) 车载边缘环境下基于深度强化学习的任务卸载方法
He et al. Deep reinforcement learning based task-oriented communication in multi-agent systems
CN115173926B (zh) 基于拍卖机制的星地融合中继网络的通信方法和通信系统
CN116193516A (zh) 一种物联网场景下用于高效联邦学习的成本优化方法
Di Giacomo et al. Edge-assisted gossiping learning: Leveraging v2v communications between connected vehicles
Gao et al. Learning for semantic knowledge base-guided online feature transmission in dynamic channels
Chen et al. Deep reinforcement learning based contract incentive for UAVs and energy harvest assisted computing
Hu et al. Enhanced Federated Reinforcement Learning for Mobility-Aware Node Selection and Model Compression
Yang et al. Knowledge-defined edge computing networks assisted long-term optimization of computation offloading and resource allocation strategy
CN118612754B (zh) 可智能组网的三合一终端控制系统及方法
Hlophe A model-based deep learning approach to spectrum management in distributed cognitive radio networks
Doe et al. DSORL: Data Source Optimization With Reinforcement Learning Scheme for Vehicular Named Data Networks
CN116306988A (zh) 一种基于数字孪生辅助的经济高效联邦学习方法
CN115834580B (zh) 面向海洋大数据的分布式数据处理方法、装置和设备
CN117544680B (zh) 一种基于电力物联网缓存放置方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant