CN115640852A - 联邦学习参与节点选择优化方法、联邦学习方法及系统 - Google Patents

联邦学习参与节点选择优化方法、联邦学习方法及系统 Download PDF

Info

Publication number
CN115640852A
CN115640852A CN202211105723.9A CN202211105723A CN115640852A CN 115640852 A CN115640852 A CN 115640852A CN 202211105723 A CN202211105723 A CN 202211105723A CN 115640852 A CN115640852 A CN 115640852A
Authority
CN
China
Prior art keywords
vehicle
network
time
vehicles
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211105723.9A
Other languages
English (en)
Other versions
CN115640852B (zh
Inventor
何典
程雅婷
李闯
胡春华
梁英
李伊航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202211105723.9A priority Critical patent/CN115640852B/zh
Publication of CN115640852A publication Critical patent/CN115640852A/zh
Application granted granted Critical
Publication of CN115640852B publication Critical patent/CN115640852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种联邦学习参与节点选择优化方法、联邦学习方法及系统,本发明技术方案提出将车辆节点选择问题转换为部分马尔可夫决策过程,进而利用循环确定性策略梯度RDPG算法求解部分马尔可夫决策过程得到当前训练中参与的车辆节点。本发明通过所述节点选择优化方法,可以有效解决车联网场景下车辆等参与节点数目急剧增多的问题,此外,利用RDPG算法来寻找联邦学习中节点选择的最优解,提高联邦学习过程中全局聚合的效率与聚合质量。

Description

联邦学习参与节点选择优化方法、联邦学习方法及系统
技术领域
本发明属于深度强化学习技术领域与信息安全领域,具体涉及一种基于循环确定性策略梯度(Recurrent Deterministic Policy Gradient,RDPG)的联邦学习参与节点选择优化方法、联邦学习方法及系统。
背景技术
随着物联网和第五代移动通信技术的发展,边缘网络中产生了大量的来自用户的数据。数据已经渗透到工作生活的每一个领域,成为一种重要的生产要素,而数据的交易和流通要满足数据监管及数据隐私保护的要求。这个趋势在全世界范围内形成一个新的数据化潮流,无论是政府还是社会,人们对数据隐私的安全保护都非常在意。联邦学习的技术产生于上述的社会和法律背景下,利用分散在各参与方的数据集,通过隐私保护的技术融合多方数据信息,协同构建全局模型的一种分布式训练方式。
在车联网场景的边缘网络中,联邦学习的参与节点由车辆、路旁单元(RSUs)与5G基站组成。这些节点都具有计算和通信能力,其中,5G基站具有较高的计算与通信能力。RSUs配备移动边缘计算(MEC)服务器,RSUs上与5G基站连接,下与车辆连接。在该车联网场景中数据通过车辆对车辆的传输或者车辆对RSUs通信传输。当车辆对某类数据发出共享请求Req时,其目的可以是通过所请求的数据进行诸如交通流量预测或者路径规划等。即利用所共享数据获取相应的计算结果。因此,可以将该数据共享过程等同为一个计算任务。则针对数据请求Req,相应的计算任务是从分布式数据集中学习数据模型。
现有的方法主要利用联邦学习来实现前述针对数据共享的计算任务,其中,车辆是参与本地训练的节点(客户端),5G基站是负责全局聚合的节点(服务器)。但是,由于车辆的移动性,车辆间通信连接的不可靠性和车辆的增多,给数据共享带来了新的挑战。联邦学习会带来额外的时延,阻碍了联邦学习中全局聚合的高效执行。
目前联邦学习中,对提升系统整体效率的方法大多采用加快全局模型的更新或收敛速度,基本方法有:联邦服务器采用绝对平均的方法对收到的本地模型进行聚合或使用加权平均的策略对本地模型进行聚合,然而这两种方法都缺乏优化高效、高质量的考虑,如果参与节点非常多,将每个参与节点的本地模型都进行全局聚合不仅效率慢,而且聚合的全局模型质量也得不到保证。因此,为提升联邦学习中全局聚合的高效执行和聚合模型的质量,在全局聚合前对参与节点选择优化是非常有必要。相应地,在车联网场景中,一方面由于车辆的移动性带来的通讯连接的不稳定性以及车辆数量增加;另一方面对本地模型进行聚合时,参与的车辆节点数量极大影响模型精度以及聚合效率,因此,在全局聚合之前对参与的车辆节点进行优化极为重要。
发明内容
本发明的目的是为了解决联邦学习中节点选择问题,提升聚合效率以及聚合得到的全局模型质量,提供一种联邦学习参与节点选择优化方法、联邦学习方法及系统。具体是将车辆节点选择问题转换为部分马尔可夫决策过程,进而利用RDPG算法求解部分马尔可夫决策过程得到当前训练中参与的车辆节点。其中,一方面以最小化时间开销和最大化聚合模型质量为优化目标,进而得到的车辆节点选择将满足累计回报最大,降低了时间开销以及提升了模型质量;另一方面,车联网中由于车辆的移动性以及车辆的数量庞大,进行车辆节点的选择优化实属必要,本发明技术方案利用部分马尔可夫决策以及RDPG算法进行车辆节点的优选,可用有效解决上述问题,进而提升后续模型的聚合效率。
一方面,本发明提供的一种基于RDPG的联邦学习参与节点选择优化方法,其包括以下步骤:
步骤S1:将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;
其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;在所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;
步骤S2:依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点;
其中,所述观察值表示车联网场景中被观察到的各车辆节点状态。
进一步可选地,步骤S2中采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前训练中参与的车辆节点的过程如下:
步骤S31:随机选取经验片段,并利用主critic网络分别计算出执行经验片段中各个时刻的动作at得到的预测价值,以及分别利用目标actor网络预测出经验片段中对应下一时刻的动作at+1,进而利用目标critic网络计算出执行动作at+1得到的目标价值;
其中,主critic网络和目标critic网络的网络结构相同,对应的网络参数分别表示为θQ、θQ′,分别用于计算执行动作得到的预测价值、目标价值;主actor网络和目标actor网络的网络结构相同,对应的网络参数分别表示为θπ、θπ′,分别用于得到选取的车辆节点,即输出动作;动作at表示t时刻对应的车辆节点选择结果,动作为1,对应车辆节点被选择;为0,对应车辆节点未被选择;
步骤S32:基于预测价值以及目标价值之间的误差得到主critic网络的误差损失梯度,再利用所述误差损失梯度更新主critic网络的网络参数θQ
步骤S33:利用主critic网络的误差损失梯度计算主actor网络的损失函数梯度,进而以损失最小化更新主actor网络的网络参数θπ
步骤S34:分别根据主critic网络、主actor网络的网络参数θQ、θπ更新对应目标critic网络、目标actor网络的网络参数θQ′、θπ′
步骤S35:基于更新后的主actor网络,利用当前时刻τ1的观察值预测当前时刻τ1的动作aτ1
步骤S36:基于当前时刻τ1以及历史时刻的各个动作对应的回报,计算出执行当前时刻τ1的动作aτ1对应的累计回报;其中,按照预设的迭代轮数N,重复执行步骤S31-步骤S36共N次,进而从中选择出累计回报最大的一轮计算得到的动作aτ1为当前时刻τ1的最优动作。
进一步可选地,所述累计回报函数表示为:
Figure BDA0003840429960000031
式中,γ是回报折扣因子,γ∈(0,1];T为当前轮运算中的最大时序长度,即t=1,2,3…T;R(St,at)为执行时刻t对应的动作at得到的回报;
Figure BDA0003840429960000034
为1,2,3…T时刻的回报期望。
存在:
Figure BDA0003840429960000032
式中,St为t时刻对应的系统状态,
Figure BDA0003840429960000035
为车辆vi对应的t时刻的动作,n为车辆总数,
Figure BDA0003840429960000036
为车辆vi对应t时刻的系统总开销;dj表征车辆vi所持有的训练数据;βm是训练一次模型所需的CPU执行周期次数;ξi(t)是车辆vi对应t时刻的计算资源;τi是车辆vi可用的传输速率;|wi|是车辆vi上训练模型的模型参数的大小,
Figure BDA0003840429960000037
表示车辆vi对应t时刻的模型训练质量;wt是t时刻后所聚合的模型。以上变量的值可以在车辆本地存储的原始数据以及训练后存储的数据获得,由于是本领域的常规指标/参数,因此对其不进行具体的介绍。
进一步可选地,所述主critic网络的误差损失梯度以及所述主actor网络的梯度分别如下所示:
Figure BDA0003840429960000033
所述主actor网络的梯度:
Figure BDA0003840429960000041
式中,
Figure BDA0003840429960000042
表示所述主critic网络的误差损失梯度,X为经验片段的总个数,T为当前轮次运算中的最大时序长度,
Figure BDA0003840429960000043
为预测价值,
Figure BDA0003840429960000044
为目标价值,ht,i为第i个经验片段中t时刻对应的历史信息,
Figure BDA0003840429960000045
是主critic网络计算动作的值函数;
Figure BDA0003840429960000046
表示计算梯度;
Figure BDA0003840429960000047
表示所述主actor网络的梯度;
其中,t时刻的历史信息ht,i定义为:(a0,o0,…,ot-1,at-1,ot),其中,a0,o0分别表示初始时刻的观测值、动作;ot-1、at-1分别表示t-1时刻对应的观测值、动作,ot表示t时刻对应的动作。
进一步可选地,步骤S34中依据如下公式更新对应目标critic网络、目标actor网络的网络参数θQ,θπ′
θQ′←ωθQ+(1-ω)θQ′
θπ′←ωθπ+(1-ω)θπ′
其中,ω∈[0,1],为预设权重系数。
进一步可选地,所述观测值包括:车辆间的数据集无线传输速度,车辆的可用计算资源以及车辆的位置坐标。
进一步可选地,所述部分马尔可夫决策过程M表示为:
Figure BDA0003840429960000048
其中,S表示系统状态,A表示动作空间,P表示观测概率分布,
Figure BDA0003840429960000049
表示观测结果集,Z表示观察函数,R为回报函数;
其中,时刻t对应的系统状态St定义为:
St={τ(t),ξ(t),p(t),at-1}
其中,τ(t)为t时刻对应的车辆间的数据集无线传输速度,ξ(t)表示时刻t对应的车辆的可用计算资源,p(t)为时刻t对应的车辆的位置坐标,at-1为时刻t-1对应的车辆是否被选择,等于1表示被选中,等于0表示未被选中;
动作空间A由所有车辆的动作构成,所述动作表示车辆选择与否的决策;观测结果集
Figure BDA00038404299600000410
表示系统所观察到的车辆状态;观测函数Z表示系统状态与观测值之间的关系。
第二方面,本发明提供的一种基于上述方法的车联网的联邦学习方法,其包括:
实时获取车联网场景下的观测值;
按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点,进而被选择的车辆节点利用自身可用数据进行本地模型训练,并将训练后的模型参数通过路边单元上传至基站。
其中,被选择的车辆节点利用自身可用数据进行模型训练是指背景技术中提到的车联网场景中,基于联邦学习的思路,各个车辆节点利用本地数据及共享数据对本地模型进行训练。自身可用数据的类型是依据应用场景以及本地模型来确定的,由于本地模型训练过程不是本发明的核心,且是现有技术,因此对其不进行具体的约束以及陈述。
第三方面,本发明提供的一种基于上述方法的系统,其包括:
转换模块,用于将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;
其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;
选择模块,用于依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到确定当前模型训练中参与的车辆节点;
其中,所述观察值表示车联网场景中被观察到的各车辆状态。
第四方面,本发明提供的一种电子终端,其包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
其中,所述处理器调用所述计算机程序以实现:
一种基于RDPG的联邦学习参与节点选择优化方法的步骤。
第五方面,本发明提供的一种可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以实现:
一种基于RDPG的联邦学习参与节点选择优化方法的步骤;
或者以实现:一种车联网的联邦学习方法的步骤。
有益效果
本发明技术方案是将车联网场景下车辆节点选择问题建立为部分马尔可夫决策过程,并用深度强化学习中的RDPG算法解决部分马尔可夫决策过程定义的问题,进而选择出高质量的车辆节点。通过上述技术手段,筛选了车辆节点,可以有效提升聚合效率;同时,以最小化时间开销和最大化聚合模型质量为优化目标,进而得到的车辆节点选择将满足累计回报最大,降低了时间开销以及提升了模型质量。
此外,在车联网真实环境中,由于车辆等参与节点的增多,路况和通信状态的不确定性,难以获取从一开始到现在的整个车联网实时的环境状态,不仅如此还会导致车辆等参与节点在联邦学习训练时带来额外的时延,阻碍了联邦学习中全局聚合的高效执行。而本发明的技术方案中,依据当前车联网场景下的观察值、历史车联网场景下的观察值以及车辆节点选择结果、回报值进行求解,因此,历史数据已经存储在系统中,进而每次仅仅需要增加当前时刻新观察到的车辆信息片段即可,可以提升算法效率。
附图说明
图1为本发明实施例提供的一种基于RDPG的联邦学习参与节点选择优化方法的步骤流程图。
图2为本发明的联邦学习参与节点选择架构图。
图3为RDPG算法的流程图。
具体实施方式
本发明技术方案提供一种基于RDPG的联邦学习参与节点选择优化方法,用于解决车联网场景中利用联邦学习进行模型训练时的车辆节点选择问题。具体是将车辆节点选择问题转换为部分马尔可夫决策过程,进而利用RDPG算法求解部分马尔可夫决策过程得到当前训练中参与的车辆节点。下面根据附图描述本发明,本发明的目的和效果将变得更加明白。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
实施例1:
本实施例提供一种基于RDPG的联邦学习参与节点选择优化方法,包括以下步骤:
步骤1:以车联网场景下,在使用联邦学习训练模型时为达到最小化时间开销和最大化聚合模型质量的目标构建为一个车辆节点选择问题。
步骤2:将步骤S1中的车辆节点选择问题建模为部分马尔可夫决策过程
Figure BDA0003840429960000061
Figure BDA0003840429960000062
即将该场景下车辆节点选择问题转化为求解部分马尔可夫决策过程中最大化累积回报。
步骤3:使用循环确定性策略梯度(RDPG)算法对部分马尔可夫决策过程进行求解,找到满足联邦学习训练过程中车辆节点。具体是依据当前车联网场景下车辆节点的观察值、历史车联网场景下车辆节点的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点。
下文将详细描述各个步骤的具体思路以及细节。
关于步骤1中提及的时间开销,具体描述如下:
在每个时刻t,定义车辆的被选择状态为
Figure BDA0003840429960000063
其中,
Figure BDA0003840429960000064
表示车辆vi被选中,
Figure BDA0003840429960000065
表示未被选中。车辆vi的时间开销
Figure BDA0003840429960000071
表示为:
Figure BDA0003840429960000072
其中,dj是车辆vi所持有的训练数据;βm是训练一次模型m所需的CPU;ξi是车辆vi自身的计算资源,fl表示计算时间开销的函数。
车辆vi的通信开销
Figure BDA0003840429960000073
表示为:
Figure BDA0003840429960000074
其中,τi是车辆vi可用的传输速率;|wi|是在时刻t所训练的模型参数的大小。因此,针对当前系统,时刻t对应总的时间开销
Figure BDA0003840429960000075
表示为:
Figure BDA0003840429960000076
其中,Vp是所有车辆vi的集合。
关于步骤1中提及的在联邦学习过程聚合模型的质量,具体描述如下:
本实施例通过Quality ofLearning(QoL)来衡量模型的训练质量
Figure BDA0003840429960000077
其定义如下:
Figure BDA0003840429960000078
其中,wt是时刻t后所聚合的模型;L(·)是损失函数;dj={(xj,yj)}是车辆vi的训练数据;Vp是所有车辆vi的集合。因此,在时刻t对应联邦学习中系统的总开销ct(at)为:
Figure BDA0003840429960000079
进而将步骤S1中所述车辆节点选择问题描述如下:
Figure BDA00038404299600000710
其中,
Figure BDA00038404299600000711
为被选中的车辆节点概率;Pc(t)为被选中5G基站服务器的概率;r0表示限定了所选择的节点与服务器距离。
关于步骤2中将步骤1中的车辆节点选择问题建模为部分马尔可夫决策过程
Figure BDA00038404299600000712
Figure BDA00038404299600000713
具体实现过程如下:
定义系统状态S:在联邦学习的每个训练时刻t,系统状态St定义为:
St={τ(t),ξ(t),p(t),at-1} (7)
其中,τ(t)为车辆间的数据集无线传输速度,ξ(t)表示车辆的可用计算资源,p(t)为车辆的位置坐标,at-1为车辆是否被选择,at-1=1表示车辆vi被选中,at-1=0表示未被选中。
定义动作空间A:在训练时刻t的动作是指对车辆选择与否的决策,可以被视为一个0-1问题。针对第n辆车辆,动作
Figure BDA0003840429960000081
一个向量表示:
Figure BDA0003840429960000082
其中,
Figure BDA0003840429960000083
表示t时刻对应第n辆车辆的动作。
定义观测概率分布P:对于一个部分可见马尔可夫状态S及其后继状态S',其状态转移概率
Figure BDA0003840429960000084
由下式定义:
Figure BDA0003840429960000085
其中,
Figure BDA0003840429960000086
的下标ot+1表示t+1时刻被观测到系统状态;St+1表示t+1时刻的系统状态;at表示t时刻采取的动作,也就是被选中的车辆。
定义一组观察结果集
Figure BDA0003840429960000089
:车辆等参与节点可能由于网络状态的不稳定性,导致在系统状态中车辆节点不能完全被观察到,而能被观察到的车辆状态则组成一组观察结果。
定义观察函数z:
Figure BDA0003840429960000087
是一个观察函数,表明系统状态和观察值之间的关系。具体是执行动作at进入环境状态S'后得到的观察值的概率。具体表示如下:
Z(S',at,o')=Pr(ot+1=o'|St+1=S',At=at) (10)
其中,o'表示进入状态S'后得到的观察值;at表示根据当前状态和观察值选取的车辆节点。
定义下一个状态:在状态St下执行动作at后,系统的状态由St转化为St+1。更新后的新状态包括t+1时刻对应的车辆间的数据集无线传输速度τ(t+1)、时刻t+1对应的车辆的可用计算资源ξ(t+1)、时刻t+1对应的车辆的位置坐标p(t+1)、时刻t的动作。为了模拟车辆vi变化的通信状态,优选τi对添加随机噪声,
Figure BDA00038404299600000810
其中,
Figure BDA00038404299600000811
是高斯随机噪声。系统可用的计算资源状态以同样的方式更新。车辆vi位置依据车辆的轨迹数据集进行更新变化。
将在部分可见马尔可夫决策过程中,通过观察和动作的历史信息来做决策,t时刻观察和动作的历史信息ht定义为:
ht=(a0,o0,…,ot-1,at-1,ot) (11)
定义回报函数R:系统通过回报函数R来评估采取某个动作所带来的影响。在训练时刻t中执行节点选择任务的代理在状态st下采取动作at。所采取的动作at将依据如下回报函数进行评估:
Figure BDA0003840429960000088
Figure BDA0003840429960000091
其中,dj是车辆vi所持有的训练数据;βm是训练一次模型所需的CPU执行周期次数;ξi是车辆自身的计算资源;
Figure BDA0003840429960000094
为在联邦学习迭代t中系统的总开销;τi是车辆可用的传输速率;|wi|是在迭代t所训练的模型参数的大小。
回报函数R(st,at)量化了采取动作at的收益,对应总的累积回报函数为:
Figure BDA0003840429960000092
其中,γ∈(0,1]是回报折扣因子,T为每轮训练的最大时序长度,即t=1,2,3…T。
在联邦学习中,车辆节点选择的目标是最小化总的开销。而将车辆节点选中优化问题建模为部分可见马尔可夫决策过程,目标则为找到动作空间A中定义的动作即车辆节点选择与否at,它最大化累积回报(最小化总的累积开销),即:
Figure BDA0003840429960000093
关于步骤3中循环确定性策略梯度(RDPG)算法的具体描述如下:
RDPG是使用循环神经网络来构造估计策略的确定性策略梯度算法,用以解决本场景中车辆节点优化选择问题。RDPG算法主要由四个网络和一个经验复用池
Figure BDA0003840429960000095
构成,四个网络分别是主actor、主critic网络和目标actor和目标critic网络,其对应的网络参数分别为θπ,θQ,θπ′,θQ′。目标网络与主网络具有相同结构。其中,主actor、主critic网络和目标actor和目标critic网络均是现有网络架构,本发明对此并未进行优化。具体的,主critic网络对当前车联网场景的系统状态St包括:车辆状态,包括车辆可用的计算资源、车辆的位置、车辆被选择的状态和动作at进行预测,产生执行该动作应该得到预测价值。目标critic网络的输入是下一时刻的车联网的系统状态St+1和动作at+1,产生执行该动作的目标价值。主actor网络输入车辆的历史信息和当前新加入的车辆状态得到预测选取的车辆。目标actor网络输入下一时刻的车辆状态得到下一时刻状态下应该选择的目标车辆。
步骤S3中所述的循环确定性策略梯度(RDPG)算法的具体实现如下所示:
S3.1:从经验复用池
Figure BDA0003840429960000096
中随机选取X个经验片段,使用目标critic网络计算目标价值,以及利用主critic网络对当前状态和动作进行预测,产生预测价值;然后基于目标价值和预测价值计算critic网络的损失,根据最小化损失函数更新主critic网络参数θQ
步骤S3.1中的具体过程描述如下:
S3.1.1:从经验复用池
Figure BDA0003840429960000097
中选取经验片段。其中,经验复用池
Figure BDA0003840429960000098
中存储以往车联网场景得到的观察值ot、车辆是否被选择这一动作at;选取动作at产生的回报Rt。其中,观察值ot包括:车辆间的数据集无线传输速度,表示车辆的可用计算资源,车辆的位置坐标。经验复用池
Figure BDA00038404299600001010
的定义方式如下:
(o1,a1,R1…,oT,aT,RT) (15)
经验片段为
Figure BDA00038404299600001011
中的数据,与
Figure BDA00038404299600001012
数据格式一样,是表示从当前时刻τ向前取不同时序长度的历史数据。不同经验片段的时序长度不同,即选取的时刻点不同,经验片段的定义如下:
Figure BDA0003840429960000101
其中,o1,i,
Figure BDA0003840429960000102
R1,i分别表示第i个片段中第1时刻对应的观测值、动作以及回报。
S3.1.2将下一时刻t+1的系统状态放入目标actor网络中,计算得到下一状态的目标动作。将产生的目标动作放入目标critic网络中,计算出下一个状态的目标价值
Figure BDA0003840429960000103
Figure BDA0003840429960000104
其中,π是一个确定性映射,给定状态和参数,输出的动作是确定的;π'表示目标critic网络中的确定性映射;π'(ht+1,iπ′)表示基于目标actor网络确定的下一时刻t+1的动作;ht+1,i为车联网场景中下一时刻t+1对应的观测和动作的历史信息,即包含下一时刻t+1新加入的车辆信息以及t+1时刻之前的观察和动作,所述下一时刻t+1新加入的车辆信息包括车辆状态,车辆可用的计算资源、车辆的位置、车辆被选择的状态;θQ′为目标critic网络的参数;
Figure BDA0003840429960000105
为回报值;γ为回报折扣;θπ′为目标actor网络的参数。以及Q'(ht+1,i,π'(ht+1,iπ′)|θQ′)表示目标critic网络计算动作的值函数。其中,确定性映射以及值函数的选择和设定是现有技术,因此对其不进行具体的陈述。
S3.1.3:将当前状态和当前动作放入主critic网络中,产生对于当前动作状态的预测值
Figure BDA00038404299600001013
Figure BDA0003840429960000106
其中,ht,i为当前时刻车联网场景中的车辆信息,包括车辆状态,车辆可用的计算资源、车辆的位置、车辆被选择的状态;
Figure BDA0003840429960000107
为当前被选中的车辆;θQ为主critic网络的参数。
Figure BDA0003840429960000108
表示主critic网络计算动作的值函数。目标网络与主网络的值函数相同,应当理解,目标网络与主网络是输入的数据不同,即目标网络就是输入目标数据,得到目标值。
S3.1.4通过最小化上述critic网络目标价值与预测值的误差来更新critic网络,误差梯度如下所示:
Figure BDA0003840429960000109
其中,
Figure BDA0003840429960000111
为目标价值;
Figure BDA0003840429960000112
为预测值;N为算法一共进行了多少轮;X为从经验复用池
Figure BDA0003840429960000119
中采取了多少个经验片段;T为每轮训练的最大时序长度,即t=1,2,3…T。
其中,依据误差梯度,使这个损失尽可能的最小,即让critic网络的目标值与预测值尽可能的接近,在这个过程中,critic网络参数的权重与偏重将得到调整。即θQ包括权重和偏重。
步骤S3.2:使用critic网络的梯度计算actor网络的梯度,并更新actor网络参数θπ,利用主critic网络和主actor网络的参数更新目标网络的参数。
步骤S3.2中更新主actor网络的具体步骤如下:
根据步骤S3.1.4中的(19)更新critic网络,并根据critic网络的梯度,计算主actor网络梯度,更新主actor网络。
Figure BDA0003840429960000113
其中,θπ表示主actor网络的参数;
Figure BDA0003840429960000114
表示计算梯度;h=ht,i表示历史信息;ht,i为当前状态下的观察的车辆信息和被选中的车辆信息;
Figure BDA0003840429960000115
为当前选中的车辆节点;θQ为主critic网络的参数。应当理解,更新critic网络后,
Figure BDA0003840429960000116
的梯度值相应变化,从而计算出主actor网络梯度,更新主actor网络。
步骤S3.2中更新目标网络的参数具体步骤如下:
S3.2.3:分别根据主critic和主actor网络的参数θQ和θπ更新对应目标网络的参数θQ′,θπ′。具体步骤如下:
θQ′←ωθQ+(1-ω)θQ′ (21)
θπ′←ωθπ+(1-ω)θπ′ (22)
其中ω∈[0,1]。
步骤S3.3:利用更新后的主actor网络,当前时刻τ1的观察值预测当前时刻τ1的动作aτ1
Figure BDA0003840429960000117
其中,(hτ1,i)表示历史信息,包括车联网场景范围内的车辆状态,车辆可用的计算资源、车辆的位置、车辆被选择的状态;当前观察则是根据该场景新加入的车辆节点得到的信息;预测动作
Figure BDA0003840429960000118
则是新加入的车辆节点是否被选中。
步骤S3.3:基于当前时刻τ1以及历史时间的各个动作对应的回报,计算出执行当前时刻τ1的动作aτ1对应的累计回报;其中,通过循环步骤S3.1与S3.2训练critic网络和actor网络寻找这两个网络参数θQ和θπ的最优解,即找到联邦学习中节点选择的最优解,使得累积回报最大,具体步骤如下:
Figure BDA0003840429960000121
其中,γ∈(0,1]是回报折扣因子,R(st,at)是当前状态所执行的动作at获得的回报值。
具体是,按照预设的迭代轮数N,重复执行步骤S31-步骤S36共N次,进而从中选择出累计回报最大的一轮计算得到的动作aτ1为当前时刻τ1的最优动作。
实施例2
基于前述实施例1提供的方法的车联网的联邦学习方法,其包括:
实时获取车联网场景下的观测值;按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点,进而被选择的车辆节点利用自身可用数据进行模型训练,并将训练后的模型参数通过路边单元上传至基站。
其中,路测单元选定训练任务并将模型参数发送至建立有通信连接的各车辆,依据本发明基于RDPG的联邦学习参与节点选择优化方法确定车辆节点,对应各车辆使用本地数据对接收到的任务模型参数,在本地训练后上传至路测单元,路测单元通过全局聚合将生成的新参数返回至各车辆。
实施例3:
本实施例提供一种基于实施例1提供的方法的系统,其包括:
转换模块,用于将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;
其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;
选择模块,用于依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到确定当前模型训练中参与的车辆节点。
具体各个模块的实现过程请参照上述方法的内容,在此不再赘述。应该理解到,上述功能模块的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
实施例4:
本实施例提供一种电子终端,其包括:一个或多个处理器;以及存储了一个或多个计算机程序的存储器;其中,所述处理器调用所述计算机程序以实现:一种基于RDPG的联邦学习参与节点选择优化方法的步骤。
具体执行:
步骤S1:将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程。
步骤S2:依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点。
其中,存储器可能包含高速RAM存储器,也可能还包括非易失性除颤器,例如至少一个磁盘存储器。
如果存储器、处理器独立实现,则存储器、处理器和通信接口可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构总线,外部设备互联总线或扩展工业标准体系结构总线等。所述总线可以分为地址总线、数据总线、控制总线等。
可选的,在具体实现上,如果存储器、处理器集成在一块芯片上,则存储器、处理器可以通过内部接口完成相互之间的通信。
各个步骤的具体实现过程请参照前述方法的阐述。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
实施例5:
本实施例提供一种可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以执行:一种基于RDPG的联邦学习参与节点选择优化方法的步骤。
具体执行:
步骤S1:将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程。
步骤S2:依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点。
或者用以实现:一种基于上述方法的车联网的联邦学习方法
实时获取车联网场景下的观测值;
按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点,进而被选择的车辆节点利用自身可用数据进行模型训练,并将训练后的模型参数通过路边单元上传至基站。
各个步骤的具体实现过程请参照前述方法的阐述。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。

Claims (10)

1.一种基于RDPG的联邦学习参与节点选择优化方法,其特征在于:包括以下步骤:
步骤S1:将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;
其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;在所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;
步骤S2:依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点;
其中,所述观察值表示车联网场景中被观察到的各车辆节点状态。
2.根据权利要求1所述的方法,其特征在于:步骤S2中采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前训练中参与的车辆节点的过程如下:
步骤S31:随机选取经验片段,并利用主critic网络分别计算出执行经验片段中各个时刻的动作at得到的预测价值,以及分别利用目标actor网络预测出经验片段中对应下一时刻的动作at+1,进而利用目标critic网络计算出执行动作at+1得到的目标价值;
其中,主critic网络和目标critic网络的网络结构相同,对应的网络参数分别表示为θQ、θQ′,分别用于计算执行动作得到的预测价值、目标价值;主actor网络和目标actor网络的网络结构相同,对应的网络参数分别表示为θπ、θπ′,分别用于得到选取的车辆节点,即输出动作;动作at表示t时刻对应的车辆节点选择结果;
步骤S32:基于预测价值以及目标价值之间的误差得到主critic网络的误差损失梯度,再利用所述误差损失梯度更新主critic网络的网络参数θQ
步骤S33:利用主critic网络的误差损失梯度计算主actor网络的梯度,进而更新主actor网络的网络参数θπ
步骤S34:分别根据主critic网络、主actor网络的网络参数θQ、θπ更新对应目标critic网络、目标actor网络的网络参数θQ′、θπ′
步骤S35:基于更新后的主actor网络,利用当前时刻τ1的观察值预测当前时刻τ1的动作aτ1
步骤S36:基于当前时刻τ1以及历史时刻的各个动作对应的回报,计算出执行当前时刻τ1的动作aτ1对应的累计回报;
其中,按照预设的迭代轮数N,重复执行步骤S31-步骤S36共N次,进而从中选择出累计回报最大的一轮计算得到的动作aτ1为当前时刻τ1的最优动作。
3.根据权利要求2所述的方法,其特征在于:所述累计回报函数表示为:
Figure FDA0003840429950000021
式中,γ是回报折扣因子,γ∈(0,1];T为当前轮运算中的最大时序长度,即t=1,2,3…T;R(St,at)为执行时刻t对应的动作at得到的回报;
Figure FDA0003840429950000022
表示1,2,3…T时刻的回报期望。
存在:
Figure FDA0003840429950000023
式中,St为t时刻对应的系统状态,
Figure FDA0003840429950000024
为车辆vi对应的t时刻的动作,n为车辆总数,
Figure FDA0003840429950000025
为车辆vi对应t时刻的系统总开销;dj表征车辆vi所持有的训练数据;βm是训练一次模型所需的CPU执行周期次数;ξi(t)是车辆vi对应t时刻的计算资源;τi是车辆vi可用的传输速率;|wi|是车辆vi上训练模型的模型参数的大小,
Figure FDA0003840429950000026
表示车辆vi对应t时刻的模型训练质量;wt是t时刻后所聚合的模型。
4.根据权利要求2所述的方法,其特征在于:所述主critic网络的误差损失梯度以及所述主actor网络的梯度分别如下所示:
Figure FDA0003840429950000027
所述主actor网络的梯度:
Figure FDA0003840429950000028
式中,
Figure FDA0003840429950000029
表示所述主critic网络的误差损失梯度,X为经验片段的总个数,T为当前轮次运算中的最大时序长度,
Figure FDA00038404299500000210
为预测价值,
Figure FDA00038404299500000211
为目标价值,ht,i为第i个经验片段中t时刻对应的历史信息,
Figure FDA00038404299500000212
是主critic网络计算动作的值函数;
Figure FDA00038404299500000213
表示计算梯度;
Figure FDA00038404299500000214
表示所述主actor网络的梯度;
Figure FDA00038404299500000215
是基于主actor网络确定的动作。
其中,t时刻的历史信息ht,i定义为:(a0,o0,…,ot-1,at-1,ot),其中,a0,o0分别表示初始时刻的观测值、动作;ot-1、at-1分别表示t-1时刻对应的观测值、动作,ot表示t时刻对应的动作。
5.根据权利要求2所述的方法,其特征在于:所述观测值包括:车辆间的数据集无线传输速度,车辆的可用计算资源以及车辆的位置坐标。
6.根据权利要求1所述的方法,其特征在于:所述部分马尔可夫决策过程M表示为:
Figure FDA0003840429950000031
Figure FDA0003840429950000032
其中,S表示系统状态,A表示动作空间,P表示观测概率分布,
Figure FDA0003840429950000033
表示观测结果集,Z表示观察函数,R为回报函数;
其中,时刻t对应的系统状态St定义为:
st={τ(t),ξ(t),p(t),at-1}
其中,τ(t)为时刻t对应的车辆间的数据集无线传输速度,ξ(t)表示时刻t对应的车辆的可用计算资源,p(t)为时刻t对应的车辆的位置坐标,at-1为时刻t-1对应的车辆是否被选择,等于1表示被选中,等于0表示未被选中;
动作空间A由所有车辆的动作构成,所述动作表示车辆选择与否的决策;观测结果集
Figure FDA0003840429950000034
表示系统所观察到的车辆状态;观测函数Z表示系统状态与观测值之间的关系。
7.一种基于权利要求1-6任一项所述方法的车联网的联邦学习方法,其特征在于:包括:
实时获取车联网场景下的观测值;
按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点,进而被选择的车辆节点利用自身可用数据进行本地模型训练,并将训练后的模型参数通过路边单元上传至基站。
8.一种基于权利要求1-6任一项所述方法的系统,其特征在于:包括:
转换模块,用于将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;
其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;
选择模块,用于依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到确定当前模型训练中参与的车辆节点;
其中,所述观察值表示车联网场景中被观察到的各车辆状态。
9.一种电子终端,其特征在于:包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
其中,所述处理器调用所述计算机程序以实现:
权利要求1-6任一项所述方法的步骤。
10.一种可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用以实现:
权利要求1-6任一项所述方法的步骤;
或者以实现:
权利要求7所述的方法的步骤。
CN202211105723.9A 2022-09-09 2022-09-09 联邦学习参与节点选择优化方法、联邦学习方法及系统 Active CN115640852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211105723.9A CN115640852B (zh) 2022-09-09 2022-09-09 联邦学习参与节点选择优化方法、联邦学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211105723.9A CN115640852B (zh) 2022-09-09 2022-09-09 联邦学习参与节点选择优化方法、联邦学习方法及系统

Publications (2)

Publication Number Publication Date
CN115640852A true CN115640852A (zh) 2023-01-24
CN115640852B CN115640852B (zh) 2023-06-09

Family

ID=84942364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211105723.9A Active CN115640852B (zh) 2022-09-09 2022-09-09 联邦学习参与节点选择优化方法、联邦学习方法及系统

Country Status (1)

Country Link
CN (1) CN115640852B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117294640A (zh) * 2023-10-13 2023-12-26 北京亿美芯科技有限公司 一种基于ppo算法的车载机会路由节点选择方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754000A (zh) * 2020-06-24 2020-10-09 清华大学 质量感知的边缘智能联邦学习方法及系统
CN112668128A (zh) * 2020-12-21 2021-04-16 国网辽宁省电力有限公司物资分公司 联邦学习系统中终端设备节点的选择方法及装置
CN113641504A (zh) * 2021-09-24 2021-11-12 天津大学 用于提升多智能体强化学习边缘计算效果的信息交互方法
CN114022731A (zh) * 2021-11-03 2022-02-08 国网宁夏电力有限公司信息通信公司 基于drl的联邦学习节点选择方法
EP3961598A1 (en) * 2020-08-27 2022-03-02 Bayerische Motoren Werke Aktiengesellschaft Method and system for enabling cooperative coordination between autonomously acting entities
WO2022079278A2 (en) * 2020-10-16 2022-04-21 Quadsat Aps Antenna evaluation test system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754000A (zh) * 2020-06-24 2020-10-09 清华大学 质量感知的边缘智能联邦学习方法及系统
EP3961598A1 (en) * 2020-08-27 2022-03-02 Bayerische Motoren Werke Aktiengesellschaft Method and system for enabling cooperative coordination between autonomously acting entities
WO2022079278A2 (en) * 2020-10-16 2022-04-21 Quadsat Aps Antenna evaluation test system
CN112668128A (zh) * 2020-12-21 2021-04-16 国网辽宁省电力有限公司物资分公司 联邦学习系统中终端设备节点的选择方法及装置
CN113641504A (zh) * 2021-09-24 2021-11-12 天津大学 用于提升多智能体强化学习边缘计算效果的信息交互方法
CN114022731A (zh) * 2021-11-03 2022-02-08 国网宁夏电力有限公司信息通信公司 基于drl的联邦学习节点选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAJU QI 等: ""Federated Reinforcement Learning: Techniques, Applications, and Open Challenges"" *
YUNLONG LU 等: ""Blockchain and Federated Learning for 5G Beyond"", vol. 35, no. 1, pages 219 - 225, XP011838067, DOI: 10.1109/MNET.011.1900598 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117294640A (zh) * 2023-10-13 2023-12-26 北京亿美芯科技有限公司 一种基于ppo算法的车载机会路由节点选择方法及系统
CN117294640B (zh) * 2023-10-13 2024-05-24 北京亿美芯科技有限公司 一种基于ppo算法的车载机会路由节点选择方法及系统

Also Published As

Publication number Publication date
CN115640852B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN110610242B (zh) 一种联邦学习中参与者权重的设置方法及装置
WO2022121510A1 (zh) 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN108133330B (zh) 一种面向社交众包任务分配方法及其系统
US20190332944A1 (en) Training Method, Apparatus, and Chip for Neural Network Model
CN110458663B (zh) 一种车辆推荐方法、装置、设备及存储介质
CN113361680B (zh) 一种神经网络架构搜索方法、装置、设备及介质
CN111985649A (zh) 基于联邦学习的数据处理方法和装置
CN107948083B (zh) 一种基于增强学习的sdn数据中心拥塞控制方法
CN114827198A (zh) 一种应用于车联网的多层中心异步联邦学习方法
CN113537580B (zh) 一种基于自适应图学习的公共交通客流预测方法及系统
Li et al. FEEL: Federated end-to-end learning with non-IID data for vehicular ad hoc networks
CN115640852A (zh) 联邦学习参与节点选择优化方法、联邦学习方法及系统
Geisslinger et al. Watch-and-learn-net: Self-supervised online learning for probabilistic vehicle trajectory prediction
Zhao et al. A digital twin-assisted intelligent partial offloading approach for vehicular edge computing
WO2022217210A1 (en) Privacy-aware pruning in machine learning
Liu et al. GA-DRL: Graph Neural Network-Augmented Deep Reinforcement Learning for DAG Task Scheduling over Dynamic Vehicular Clouds
CN111710153B (zh) 交通流量的预测方法、装置、设备及计算机存储介质
Zhang et al. Federated learning-assisted vehicular edge computing: Architecture and research directions
CN116645130A (zh) 基于联邦学习与gru结合的汽车订单需求量预测方法
CN114238658A (zh) 时序知识图谱的链接预测方法、装置及电子设备
Morell et al. A multi-objective approach for communication reduction in federated learning under devices heterogeneity constraints
CN114841355A (zh) 一种基于注意力机制的联合学习方法和系统
Zhao et al. Multi-modal trajectory forecasting with Multi-scale Interactions and Multi-pseudo-target Supervision
CN115174681B (zh) 一种边缘计算服务请求调度方法、设备及存储介质
CN112434817B (zh) 构建通信算法数据库的方法、装置和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant