CN115640852B - 联邦学习参与节点选择优化方法、联邦学习方法及系统 - Google Patents
联邦学习参与节点选择优化方法、联邦学习方法及系统 Download PDFInfo
- Publication number
- CN115640852B CN115640852B CN202211105723.9A CN202211105723A CN115640852B CN 115640852 B CN115640852 B CN 115640852B CN 202211105723 A CN202211105723 A CN 202211105723A CN 115640852 B CN115640852 B CN 115640852B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- vehicles
- network
- time
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000005457 optimization Methods 0.000 title claims abstract description 31
- 230000008569 process Effects 0.000 claims abstract description 48
- 230000009471 action Effects 0.000 claims description 78
- 238000012549 training Methods 0.000 claims description 68
- 230000000875 corresponding effect Effects 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 33
- 238000003860 storage Methods 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 14
- 239000012634 fragment Substances 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000001186 cumulative effect Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000006855 networking Effects 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 abstract description 16
- 230000002776 aggregation Effects 0.000 abstract description 16
- 238000004422 calculation algorithm Methods 0.000 abstract description 12
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种联邦学习参与节点选择优化方法、联邦学习方法及系统,本发明技术方案提出将车辆节点选择问题转换为部分马尔可夫决策过程,进而利用循环确定性策略梯度RDPG算法求解部分马尔可夫决策过程得到当前训练中参与的车辆节点。本发明通过所述节点选择优化方法,可以有效解决车联网场景下车辆等参与节点数目急剧增多的问题,此外,利用RDPG算法来寻找联邦学习中节点选择的最优解,提高联邦学习过程中全局聚合的效率与聚合质量。
Description
技术领域
本发明属于深度强化学习技术领域与信息安全领域,具体涉及一种基于循环确定性策略梯度(Recurrent Deterministic Policy Gradient,RDPG)的联邦学习参与节点选择优化方法、联邦学习方法及系统。
背景技术
随着物联网和第五代移动通信技术的发展,边缘网络中产生了大量的来自用户的数据。数据已经渗透到工作生活的每一个领域,成为一种重要的生产要素,而数据的交易和流通要满足数据监管及数据隐私保护的要求。这个趋势在全世界范围内形成一个新的数据化潮流,无论是政府还是社会,人们对数据隐私的安全保护都非常在意。联邦学习的技术产生于上述的社会和法律背景下,利用分散在各参与方的数据集,通过隐私保护的技术融合多方数据信息,协同构建全局模型的一种分布式训练方式。
在车联网场景的边缘网络中,联邦学习的参与节点由车辆、路旁单元(RSUs)与5G基站组成。这些节点都具有计算和通信能力,其中,5G基站具有较高的计算与通信能力。RSUs配备移动边缘计算(MEC)服务器,RSUs上与5G基站连接,下与车辆连接。在该车联网场景中数据通过车辆对车辆的传输或者车辆对RSUs通信传输。当车辆对某类数据发出共享请求Req时,其目的可以是通过所请求的数据进行诸如交通流量预测或者路径规划等。即利用所共享数据获取相应的计算结果。因此,可以将该数据共享过程等同为一个计算任务。则针对数据请求Req,相应的计算任务是从分布式数据集中学习数据模型。
现有的方法主要利用联邦学习来实现前述针对数据共享的计算任务,其中,车辆是参与本地训练的节点(客户端),5G基站是负责全局聚合的节点(服务器)。但是,由于车辆的移动性,车辆间通信连接的不可靠性和车辆的增多,给数据共享带来了新的挑战。联邦学习会带来额外的时延,阻碍了联邦学习中全局聚合的高效执行。
目前联邦学习中,对提升系统整体效率的方法大多采用加快全局模型的更新或收敛速度,基本方法有:联邦服务器采用绝对平均的方法对收到的本地模型进行聚合或使用加权平均的策略对本地模型进行聚合,然而这两种方法都缺乏优化高效、高质量的考虑,如果参与节点非常多,将每个参与节点的本地模型都进行全局聚合不仅效率慢,而且聚合的全局模型质量也得不到保证。因此,为提升联邦学习中全局聚合的高效执行和聚合模型的质量,在全局聚合前对参与节点选择优化是非常有必要。相应地,在车联网场景中,一方面由于车辆的移动性带来的通讯连接的不稳定性以及车辆数量增加;另一方面对本地模型进行聚合时,参与的车辆节点数量极大影响模型精度以及聚合效率,因此,在全局聚合之前对参与的车辆节点进行优化极为重要。
发明内容
本发明的目的是为了解决联邦学习中节点选择问题,提升聚合效率以及聚合得到的全局模型质量,提供一种联邦学习参与节点选择优化方法、联邦学习方法及系统。具体是将车辆节点选择问题转换为部分马尔可夫决策过程,进而利用RDPG算法求解部分马尔可夫决策过程得到当前训练中参与的车辆节点。其中,一方面以最小化时间开销和最大化聚合模型质量为优化目标,进而得到的车辆节点选择将满足累计回报最大,降低了时间开销以及提升了模型质量;另一方面,车联网中由于车辆的移动性以及车辆的数量庞大,进行车辆节点的选择优化实属必要,本发明技术方案利用部分马尔可夫决策以及RDPG算法进行车辆节点的优选,可用有效解决上述问题,进而提升后续模型的聚合效率。
一方面,本发明提供的一种基于RDPG的联邦学习参与节点选择优化方法,其包括以下步骤:
步骤S1:将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;
其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;在所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;
步骤S2:依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点;
其中,所述观察值表示车联网场景中被观察到的各车辆节点状态。
进一步可选地,步骤S2中采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前训练中参与的车辆节点的过程如下:
步骤S31:随机选取经验片段,并利用主critic网络分别计算出执行经验片段中各个时刻的动作at得到的预测价值,以及分别利用目标actor网络预测出经验片段中对应下一时刻的动作at+1,进而利用目标critic网络计算出执行动作at+1得到的目标价值;
其中,主critic网络和目标critic网络的网络结构相同,对应的网络参数分别表示为θQ、θQ′,分别用于计算执行动作得到的预测价值、目标价值;主actor网络和目标actor网络的网
络结构相同,对应的网络参数分别表示为θπ、θπ′,分别用于得到选取的车辆节点,即输出动作;动作at表示t时刻对应的车辆节点选择结果,动作为1,对应车辆节点被选择;为0,对应车辆节点未被选择;
步骤S32:基于预测价值以及目标价值之间的误差得到主critic网络的误差损失梯度,再利用所述误差损失梯度更新主critic网络的网络参数θQ;
步骤S33:利用主critic网络的误差损失梯度计算主actor网络的损失函数梯度,进而以损失最小化更新主actor网络的网络参数θπ;
步骤S34:分别根据主critic网络、主actor网络的网络参数θQ、θπ更新对应目标critic网络、目标actor网络的网络参数θQ′、θπ′;
步骤S35:基于更新后的主actor网络,利用当前时刻τ1的观察值预测当前时刻τ1的动作aτ1;
步骤S36:基于当前时刻τ1以及历史时刻的各个动作对应的回报,计算出执行当前时刻τ1的动作aτ1对应的累计回报;其中,按照预设的迭代轮数N,重复执行步骤S31-步骤S36共N次,进而从中选择出累计回报最大的一轮计算得到的动作aτ1为当前时刻τ1的最优动作。
进一步可选地,所述累计回报函数表示为:
存在:
式中,St为t时刻对应的系统状态,为车辆vi对应的t时刻的动作,n为车辆总数,为车辆vi对应t时刻的系统总开销;di表征车辆vi所持有的训练数据;βm是训练一次模型所需的CPU执行周期次数;ξi(t)是车辆vi对应t时刻的计算资源;τi是车辆vi可用的传输速率;|wi|是车辆vi上训练模型的模型参数的大小,表示车辆vi对应t时刻的模型训练质量;wt是t时刻后所聚合的模型。以上变量的值可以在车辆本地存储的原始数据以及训练后存储的数据获得,由于是本领域的常规指标/参数,因此对其不进行具体的介绍。
进一步可选地,所述主critic网络的误差损失梯度以及所述主actor网络的梯度分别如下所示:
所述主actor网络的梯度:
式中,表示所述主critic网络的误差损失梯度,X为经验片段的总个数,T为当前轮次运算中的最大时序长度,为预测价值,为目标价值,ht,i为第i个经验片段中t时刻对应的历史信息,是主critic网络计算动作的值函数;表示计算梯度;表示所述主actor网络的梯度;
其中,t时刻的历史信息ht,i定义为:(a0,o0,…,at-1,ot-1,ot),其中,a0,o0分别表示初始时刻的动作、观察值;ot-1、at-1分别表示t-1时刻对应的观察值、动作,ot表示t时刻对应的观察值。
进一步可选地,步骤S34中依据如下公式更新对应目标critic网络、目标actor网络的网络参数θQ′,θπ′:
θQ′←ωθQ+(1-ω)θQ′
θπ′←ωθπ+(1-ω)θπ′
其中,ω∈[0,1],为预设权重系数。
进一步可选地,所述观察值包括:车辆间的数据集无线传输速度,车辆的可用计算资源以及车辆的位置坐标。
其中,时刻t对应的系统状态St定义为:
St={τ(t),ξ(t),p(t),at-1}
其中,τ(t)为t时刻对应的车辆间的数据集无线传输速度,ξ(t)表示时刻t对应的车辆的可用计算资源,p(t)为时刻t对应的车辆的位置坐标,at-1为时刻t-1对应的车辆是否被选择,等于1表示被选中,等于0表示未被选中;
第二方面,本发明提供的一种基于上述方法的车联网的联邦学习方法,其包括:
实时获取车联网场景下的观察值;
按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点,进而被选择的车辆节点利用自身可用数据进行本地模型训练,并将训练后的模型参数通过路边单元上传至基站。
其中,被选择的车辆节点利用自身可用数据进行模型训练是指背景技术中提到的车联网场景中,基于联邦学习的思路,各个车辆节点利用本地数据及共享数据对本地模型进行训练。自身可用数据的类型是依据应用场景以及本地模型来确定的,由于本地模型训练过程不是本发明的核心,且是现有技术,因此对其不进行具体的约束以及陈述。
第三方面,本发明提供的一种基于上述方法的系统,其包括:
转换模块,用于将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;
其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;
选择模块,用于依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到确定当前模型训练中参与的车辆节点;
其中,所述观察值表示车联网场景中被观察到的各车辆状态。
第四方面,本发明提供的一种电子终端,其包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
其中,所述处理器调用所述计算机程序以实现:
一种基于RDPG的联邦学习参与节点选择优化方法的步骤。
第五方面,本发明提供的一种可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以实现:
一种基于RDPG的联邦学习参与节点选择优化方法的步骤;
或者以实现:一种车联网的联邦学习方法的步骤。
有益效果
本发明技术方案是将车联网场景下车辆节点选择问题建立为部分马尔可夫决策过程,并用深度强化学习中的RDPG算法解决部分马尔可夫决策过程定义的问题,进而选择出高质量的车辆节点。通过上述技术手段,筛选了车辆节点,可以有效提升聚合效率;同时,以最小化时间开销和最大化聚合模型质量为优化目标,进而得到的车辆节点选择将满足累计回报最大,降低了时间开销以及提升了模型质量。
此外,在车联网真实环境中,由于车辆等参与节点的增多,路况和通信状态的不确定性,难以获取从一开始到现在的整个车联网实时的环境状态,不仅如此还会导致车辆等参与节点在联邦学习训练时带来额外的时延,阻碍了联邦学习中全局聚合的高效执行。而本发明的技术方案中,依据当前车联网场景下的观察值、历史车联网场景下的观察值以及车辆节点选择结果、回报值进行求解,因此,历史数据已经存储在系统中,进而每次仅仅需要增加当前时刻新观察到的车辆信息片段即可,可以提升算法效率。
附图说明
图1为本发明实施例提供的一种基于RDPG的联邦学习参与节点选择优化方法的步骤流程图。
图2为本发明的联邦学习参与节点选择架构图。
图3为RDPG算法的流程图。
具体实施方式
本发明技术方案提供一种基于RDPG的联邦学习参与节点选择优化方法,用于解决车联网场景中利用联邦学习进行模型训练时的车辆节点选择问题。具体是将车辆节点选择问题转换为部分马尔可夫决策过程,进而利用RDPG算法求解部分马尔可夫决策过程得到当前训练中参与的车辆节点。下面根据附图描述本发明,本发明的目的和效果将变得更加明白。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
实施例1:
本实施例提供一种基于RDPG的联邦学习参与节点选择优化方法,包括以下步骤:
步骤1:以车联网场景下,在使用联邦学习训练模型时为达到最小化时间开销和最大化聚合模型质量的目标构建为一个车辆节点选择问题。
步骤3:使用循环确定性策略梯度(RDPG)算法对部分马尔可夫决策过程进行求解,找到满足联邦学习训练过程中车辆节点。具体是依据当前车联网场景下车辆节点的观察值、历史车联网场景下车辆节点的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点。
下文将详细描述各个步骤的具体思路以及细节。
关于步骤1中提及的时间开销,具体描述如下:
其中,dj是车辆vi所持有的训练数据;βm是训练一次模型m所需的CPU;ξi是车辆vi自身的计算资源,fl表示计算时间开销的函数。
其中,Vp是所有车辆vi的集合。
关于步骤1中提及的在联邦学习过程聚合模型的质量,具体描述如下:
其中,wt是时刻t后所聚合的模型;L(·)是损失函数;dj={(xj,yj)}是车辆vi的训练数据;Vp是所有车辆vi的集合。因此,在时刻t对应联邦学习中系统的总开销ct(at)为:
进而将步骤S1中所述车辆节点选择问题描述如下:
定义系统状态S:在联邦学习的每个训练时刻t,系统状态St定义为:
St={τ(t),ξ(t),p(t),at-1} (7)
其中,τ(t)为车辆间的数据集无线传输速度,ξ(t)表示车辆的可用计算资源,p(t)为车辆的位置坐标,at-1为车辆是否被选择,at-1=1表示车辆vi被选中,at-1=0表示未被选中。
Z(S',at,o')=Pr(ot+1=o'|St+1=S',At=at) (10)
其中,o'表示进入状态S'后得到的观察值;at表示根据当前状态和观察值选取的车辆节点。
定义下一个状态:在状态St下执行动作at后,系统的状态由St转化为St+1。更新后的新状态包括t+1时刻对应的车辆间的数据集无线传输速度τ(t+1)、时刻t+1对应的车辆的可用计算资源ξ(t+1)、时刻t+1对应的车辆的位置坐标p(t+1)、时刻t的动作。为了模拟车辆vi变化的通信状态,优选τi对添加随机噪声,其中,是高斯随机噪声。系统可用的计算资源状态以同样的方式更新。车辆vi位置依据车辆的轨迹数据集进行更新变化。
将在部分可见马尔可夫决策过程中,通过观察和动作的历史信息来做决策,t时刻观察和动作的历史信息ht定义为:
ht=(a0,o0,…,at-1,ot-1,ot) (11)
定义回报函数R:系统通过回报函数R来评估采取某个动作所带来的影响。在训练时刻t中执行节点选择任务的代理在状态st下采取动作at。所采取的动作at将依据如下回报函数进行评估:
其中,di是车辆vi所持有的训练数据;βm是训练一次模型所需的CPU执行周期次数;ξi是车辆自身的计算资源;为在联邦学习迭代t中系统的总开销;τ是车辆可用的传输速率;|wi|是在迭代t所训练的模型参数的大小。
回报函数R(st,at)量化了采取动作at的收益,对应总的累积回报函数为:
其中,γ∈(0,1]是回报折扣因子,T为每轮训练的最大时序长度,即t=1,2,3…T。
在联邦学习中,车辆节点选择的目标是最小化总的开销。而将车辆节点选中优化问题建模为部分可见马尔可夫决策过程,目标则为找到动作空间A中定义的动作即车辆节点选择与否at,它最大化累积回报(最小化总的累积开销),即:
关于步骤3中循环确定性策略梯度(RDPG)算法的具体描述如下:
RDPG是使用循环神经网络来构造估计策略的确定性策略梯度算法,用以解决本场景中车辆节点优化选择问题。RDPG算法主要由四个网络和一个经验复用池构成,四个网络分别是主actor、主critic网络和目标actor和目标critic网络,其对应的网络参数分别为θπ,θQ,θπ′,θQ′。目标网络与主网络具有相同结构。其中,主actor、主critic网络和目标actor和目标critic网络均是现有网络架构,本发明对此并未进行优化。具体的,主critic网络对当前车联网场景的系统状态St包括:车辆状态,包括车辆可用的计算资源、车辆的位置、车辆被选择的状态和动作at进行预测,产生执行该动作应该得到预测价值。目标critic网络的输入是下一时刻的车联网的系统状态St+1和动作at+1,产生执行该动作的目标价值。主actor网络输入车辆的历史信息和当前新加入的车辆状态得到预测选取的车辆。目标actor网络输入下一时刻的车辆状态得到下一时刻状态下应该选择的目标车辆。
步骤S3中所述的循环确定性策略梯度(RDPG)算法的具体实现如下所示:
S3.1:从经验复用池中随机选取X个经验片段,使用目标critic网络计算目标价值,以及利用主critic网络对当前状态和动作进行预测,产生预测价值;然后基于目标价值和预测价值计算critic网络的损失,根据最小化损失函数更新主critic网络参数θQ。
步骤S3.1中的具体过程描述如下:
S3.1.1:从经验复用池中选取经验片段。其中,经验复用池中存储以往车联网场景得到的观察值ot、车辆是否被选择这一动作at;选取动作at产生的回报Rt。其中,观察值ot包括:车辆间的数据集无线传输速度,表示车辆的可用计算资源,车辆的位置坐标。经验复用池的定义方式如下:
(o1,a1,R1…,oT,aT,RT) (15)
其中,π是一个确定性映射,给定状态和参数,输出的动作是确定的;π'表示目标critic网络中的确定性映射;π'(ht+1,i|θπ′)表示基于目标actor网络确定的下一时刻t+1的动作;ht+1,i为车联网场景中下一时刻t+1对应的观测和动作的历史信息,即包含下一时刻t+1新加入的车辆信息以及t+1时刻之前的观察和动作,所述下一时刻t+1新加入的车辆信息包括车辆状态,车辆可用的计算资源、车辆的位置、车辆被选择的状态;θQ′为目标critic网络的参数;为回报值;γ为回报折扣;θπ′为目标actor网络的参数。以及Q'(ht+1,i,π'(ht+1,i|θπ′)|θQ′)表示目标critic网络计算动作的值函数。其中,确定性映射以及值函数的选择和设定是现有技术,因此对其不进行具体的陈述。
其中,ht,i为当前时刻车联网场景中的车辆信息,包括车辆状态,车辆可用的计算资源、车辆的位置、车辆被选择的状态;为当前被选中的车辆;θQ为主critic网络的参数。表示主critic网络计算动作的值函数。目标网络与主网络的值函数相同,应当理解,目标网络与主网络是输入的数据不同,即目标网络就是输入目标数据,得到目标值。
S3.1.4通过最小化上述critic网络目标价值与预测值的误差来更新critic网络,误差梯度如下所示:
其中,依据误差梯度,使这个损失尽可能的最小,即让critic网络的目标值与预测值尽可能的接近,在这个过程中,critic网络参数的权重与偏重将得到调整。即θQ包括权重和偏重。
步骤S3.2:使用critic网络的梯度计算actor网络的梯度,并更新actor网络参数θπ,利用主critic网络和主actor网络的参数更新目标网络的参数。
步骤S3.2中更新主actor网络的具体步骤如下:
根据步骤S3.1.4中的(19)更新critic网络,并根据critic网络的梯度,计算主actor网络梯度,更新主actor网络。
其中,θπ表示主actor网络的参数;表示计算梯度;h=ht,i表示历史信息;ht,i为当前状态下的观察的车辆信息和被选中的车辆信息;为当前选中的车辆节点;θQ为主critic网络的参数。应当理解,更新critic网络后,的梯度值相应变化,从而计算出主actor网络梯度,更新主actor网络。
步骤S3.2中更新目标网络的参数具体步骤如下:
S3.2.3:分别根据主critic和主actor网络的参数θQ和θπ更新对应目标网络的参数θQ′,θπ′。具体步骤如下:
θQ′←ωθQ+(1-ω)θQ′ (21)
θπ′←ωθπ+(1-ω)θπ′ (22)
其中ω∈[0,1]。
步骤S3.3:利用更新后的主actor网络,当前时刻τ1的观察值预测当前时刻τ1的动作aτ1。
其中,(hτ1,i)表示历史信息,包括车联网场景范围内的车辆状态,车辆可用的计算资源、车辆的位置、车辆被选择的状态;当前观察则是根据该场景新加入的车辆节点得到的信息;预测动作则是新加入的车辆节点是否被选中。
步骤S3.3:基于当前时刻τ1以及历史时间的各个动作对应的回报,计算出执行当前时刻τ1的动作aτ1对应的累计回报;其中,通过循环步骤S3.1与S3.2训练critic网络和actor网络寻找这两个网络参数θQ和θπ的最优解,即找到联邦学习中节点选择的最优解,使得累积回报最大,具体步骤如下:
其中,γ∈(0,1]是回报折扣因子,R(st,at)是当前状态所执行的动作at获得的回报值。
具体是,按照预设的迭代轮数N,重复执行步骤S31-步骤S36共N次,进而从中选择出累计回报最大的一轮计算得到的动作aτ1为当前时刻τ1的最优动作。
实施例2
基于前述实施例1提供的方法的车联网的联邦学习方法,其包括:
实时获取车联网场景下的观察值;按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点,进而被选择的车辆节点利用自身可用数据进行模型训练,并将训练后的模型参数通过路边单元上传至基站。
其中,路测单元选定训练任务并将模型参数发送至建立有通信连接的各车辆,依据本发明基于RDPG的联邦学习参与节点选择优化方法确定车辆节点,对应各车辆使用本地数据对接收到的任务模型参数,在本地训练后上传至路测单元,路测单元通过全局聚合将生成的新参数返回至各车辆。
实施例3:
本实施例提供一种基于实施例1提供的方法的系统,其包括:
转换模块,用于将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;
其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;
选择模块,用于依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到确定当前模型训练中参与的车辆节点。
具体各个模块的实现过程请参照上述方法的内容,在此不再赘述。应该理解到,上述功能模块的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
实施例4:
本实施例提供一种电子终端,其包括:一个或多个处理器;以及存储了一个或多个计算机程序的存储器;其中,所述处理器调用所述计算机程序以实现:一种基于RDPG的联邦学习参与节点选择优化方法的步骤。
具体执行:
步骤S1:将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程。
步骤S2:依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点。
其中,存储器可能包含高速RAM存储器,也可能还包括非易失性除颤器,例如至少一个磁盘存储器。
如果存储器、处理器独立实现,则存储器、处理器和通信接口可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构总线,外部设备互联总线或扩展工业标准体系结构总线等。所述总线可以分为地址总线、数据总线、控制总线等。
可选的,在具体实现上,如果存储器、处理器集成在一块芯片上,则存储器、处理器可以通过内部接口完成相互之间的通信。
各个步骤的具体实现过程请参照前述方法的阐述。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
实施例5:
本实施例提供一种可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以执行:一种基于RDPG的联邦学习参与节点选择优化方法的步骤。
具体执行:
步骤S1:将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程。
步骤S2:依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点。
或者用以实现:一种基于上述方法的车联网的联邦学习方法
实时获取车联网场景下的观察值;
按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点,进而被选择的车辆节点利用自身可用数据进行模型训练,并将训练后的模型参数通过路边单元上传至基站。
各个步骤的具体实现过程请参照前述方法的阐述。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。
Claims (8)
1.一种基于RDPG的联邦学习参与节点选择优化方法,其特征在于:包括以下步骤:
步骤S1:将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;
其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;在所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;
其中,时刻t对应的系统状态St定义为:
St={τ(t),ξ(t),p(t),at-1}
其中,τ(t)为时刻t对应的车辆间的数据集无线传输速度,ξ(t)表示时刻t对应的车辆的可用计算资源,p(t)为时刻t对应的车辆的位置坐标,at-1为时刻t-1对应的车辆是否被选择,等于1表示被选中,等于0表示未被选中;
动作空间A由所有车辆的动作构成,所述动作表示车辆选择与否的决策;观测结果集表示系统所观察到的车辆状态;观察函数Z表示系统状态与观察值之间的关系;回报函数R表示系统通过回报函数R来评估采取某个动作所带来的影响;观测概率分布P表示对于一个部分可见马尔可夫状态S及其后继状态S'的状态转移概率;
步骤S2:依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点;所述观察值表示车联网场景中被观察到的各车辆节点状态;
其中,步骤S2中采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前训练中参与的车辆节点的过程如下:
步骤S31:随机选取经验片段,并利用主critic网络分别计算出执行经验片段中各个时刻的动作at得到的预测价值,以及分别利用目标actor网络预测出经验片段中对应下一时刻的动作at+1,进而利用目标critic网络计算出执行动作at+1得到的目标价值;
其中,主critic网络和目标critic网络的网络结构相同,对应的网络参数分别表示为θQ、θQ′,分别用于计算执行动作得到的预测价值、目标价值;主actor网络和目标actor网络的网络结构相同,对应的网络参数分别表示为θπ、θπ′,分别用于得到选取的车辆节点,即输出动作;动作at表示t时刻对应的车辆节点选择结果;
步骤S32:基于预测价值以及目标价值之间的误差得到主critic网络的误差损失梯度,再利用所述误差损失梯度更新主critic网络的网络参数θQ;
步骤S33:利用主critic网络的误差损失梯度计算主actor网络的梯度,进而更新主actor网络的网络参数θπ;
步骤S34:分别根据主critic网络、主actor网络的网络参数θQ、θπ更新对应目标critic网络、目标actor网络的网络参数θQ′、θπ′;
步骤S35:基于更新后的主actor网络,利用当前时刻τ1的观察值预测当前时刻τ1的动作aτ1;
步骤S36:基于当前时刻τ1以及历史时刻的各个动作对应的回报,计算出执行当前时刻τ1的动作aτ1对应的累计回报;
其中,按照预设的迭代轮数N,重复执行步骤S31-步骤S36共N次,进而从中选择出累计回报最大的一轮计算得到的动作aτ1为当前时刻τ1的最优动作。
2.根据权利要求1所述的方法,其特征在于:所述累计回报函数表示为:
存在:
3.根据权利要求1所述的方法,其特征在于:所述主critic网络的误差损失梯度以及所述主actor网络的梯度分别如下所示:
所述主actor网络的梯度:
式中,表示所述主critic网络的误差损失梯度,X为经验片段的总个数,T为当前轮次运算中的最大时序长度,为预测价值,为目标价值,ht,i为第i个经验片段中t时刻对应的历史信息,是主critic网络计算动作的值函数;表示计算梯度;表示所述主actor网络的梯度;是基于主actor网络确定的动作;
其中,t时刻的历史信息ht,i定义为:(a0,o0,…,at-1,ot-1,ot),其中,a0,o0分别表示初始时刻的动作、观察值;ot-1、at-1分别表示t-1时刻对应的观察值、动作,ot表示t时刻对应的观察值。
4.根据权利要求1所述的方法,其特征在于:所述观察值包括:车辆间的数据集无线传输速度,车辆的可用计算资源以及车辆的位置坐标。
5.一种基于权利要求1-4任一项所述方法的车联网的联邦学习方法,其特征在于:包括:
实时获取车联网场景下的观察值;
按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点,进而被选择的车辆节点利用自身可用数据进行本地模型训练,并将训练后的模型参数通过路边单元上传至基站。
6.一种基于权利要求1-4任一项所述方法的系统,其特征在于:包括:
转换模块,用于将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程;
其中,所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的,用于选择每次模型训练中参与的车辆节点;所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值;
选择模块,用于依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值,采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到确定当前模型训练中参与的车辆节点;
其中,所述观察值表示车联网场景中被观察到的各车辆状态。
7.一种电子终端,其特征在于:包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
其中,所述处理器调用所述计算机程序以实现:
权利要求1-4任一项所述方法的步骤。
8.一种可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用以实现:
权利要求1-4任一项所述方法的步骤;
或者以实现:
权利要求5所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211105723.9A CN115640852B (zh) | 2022-09-09 | 2022-09-09 | 联邦学习参与节点选择优化方法、联邦学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211105723.9A CN115640852B (zh) | 2022-09-09 | 2022-09-09 | 联邦学习参与节点选择优化方法、联邦学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115640852A CN115640852A (zh) | 2023-01-24 |
CN115640852B true CN115640852B (zh) | 2023-06-09 |
Family
ID=84942364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211105723.9A Active CN115640852B (zh) | 2022-09-09 | 2022-09-09 | 联邦学习参与节点选择优化方法、联邦学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115640852B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117294640B (zh) * | 2023-10-13 | 2024-05-24 | 北京亿美芯科技有限公司 | 一种基于ppo算法的车载机会路由节点选择方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754000A (zh) * | 2020-06-24 | 2020-10-09 | 清华大学 | 质量感知的边缘智能联邦学习方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3961598A1 (en) * | 2020-08-27 | 2022-03-02 | Bayerische Motoren Werke Aktiengesellschaft | Method and system for enabling cooperative coordination between autonomously acting entities |
GB2617893A (en) * | 2020-10-16 | 2023-10-25 | Quadsat Aps | Antenna evaluation test system |
CN112668128B (zh) * | 2020-12-21 | 2024-05-28 | 国网辽宁省电力有限公司物资分公司 | 联邦学习系统中终端设备节点的选择方法及装置 |
CN113641504B (zh) * | 2021-09-24 | 2023-09-01 | 天津大学 | 用于提升多智能体强化学习边缘计算效果的信息交互方法 |
CN114022731A (zh) * | 2021-11-03 | 2022-02-08 | 国网宁夏电力有限公司信息通信公司 | 基于drl的联邦学习节点选择方法 |
-
2022
- 2022-09-09 CN CN202211105723.9A patent/CN115640852B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754000A (zh) * | 2020-06-24 | 2020-10-09 | 清华大学 | 质量感知的边缘智能联邦学习方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115640852A (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Knowledge-driven service offloading decision for vehicular edge computing: A deep reinforcement learning approach | |
WO2021169577A1 (zh) | 一种基于加权联邦学习的无线业务流量预测方法 | |
WO2022121510A1 (zh) | 基于随机策略梯度的交通信号控制方法、系统及电子设备 | |
WO2021254114A1 (zh) | 构建多任务学习模型的方法、装置、电子设备及存储介质 | |
Hajbabaie et al. | Traffic signal timing optimization: Choosing the objective function | |
CN116523079A (zh) | 一种基于强化学习联邦学习优化方法及系统 | |
CN113887748B (zh) | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 | |
CN115640852B (zh) | 联邦学习参与节点选择优化方法、联邦学习方法及系统 | |
Li et al. | FEEL: Federated end-to-end learning with non-IID data for vehicular ad hoc networks | |
CN113778691B (zh) | 一种任务迁移决策的方法、装置及系统 | |
CN113537580B (zh) | 一种基于自适应图学习的公共交通客流预测方法及系统 | |
EP3685266A1 (en) | Power state control of a mobile device | |
Zhao et al. | Adaptive swarm intelligent offloading based on digital twin-assisted prediction in VEC | |
CN114238658A (zh) | 时序知识图谱的链接预测方法、装置及电子设备 | |
CN116828515A (zh) | 一种车联网下基于时空图卷积的边缘服务器负载预测方法 | |
CN116645130A (zh) | 基于联邦学习与gru结合的汽车订单需求量预测方法 | |
Mu et al. | Deep reinforcement learning based adaptive threshold multi-tasks offloading approach in mec | |
Chen et al. | Traffic signal optimization control method based on adaptive weighted averaged double deep Q network | |
Morell et al. | A multi-objective approach for communication reduction in federated learning under devices heterogeneity constraints | |
CN117369964A (zh) | 边缘计算系统的任务处理方法及相关装置 | |
CN116151478A (zh) | 改进麻雀搜索算法的短时交通流预测方法、设备和介质 | |
Luo et al. | AlphaRoute: large-scale coordinated route planning via Monte Carlo tree search | |
CN112434817B (zh) | 构建通信算法数据库的方法、装置和计算机存储介质 | |
Zhang et al. | Approximate inference of traffic flow state at signalized intersections using a Bayesian learning framework | |
Wu et al. | Two-level scheduling algorithms for deep neural network inference in vehicular networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |