CN115640852B

CN115640852B - 联邦学习参与节点选择优化方法、联邦学习方法及系统

Info

Publication number: CN115640852B
Application number: CN202211105723.9A
Authority: CN
Inventors: 何典; 程雅婷; 李闯; 胡春华; 梁英; 李伊航
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2023-06-09
Anticipated expiration: 2042-09-09
Also published as: CN115640852A

Abstract

本发明公开了一种联邦学习参与节点选择优化方法、联邦学习方法及系统，本发明技术方案提出将车辆节点选择问题转换为部分马尔可夫决策过程，进而利用循环确定性策略梯度RDPG算法求解部分马尔可夫决策过程得到当前训练中参与的车辆节点。本发明通过所述节点选择优化方法，可以有效解决车联网场景下车辆等参与节点数目急剧增多的问题，此外，利用RDPG算法来寻找联邦学习中节点选择的最优解，提高联邦学习过程中全局聚合的效率与聚合质量。

Description

联邦学习参与节点选择优化方法、联邦学习方法及系统

技术领域

本发明属于深度强化学习技术领域与信息安全领域，具体涉及一种基于循环确定性策略梯度(Recurrent Deterministic Policy Gradient，RDPG)的联邦学习参与节点选择优化方法、联邦学习方法及系统。

背景技术

随着物联网和第五代移动通信技术的发展，边缘网络中产生了大量的来自用户的数据。数据已经渗透到工作生活的每一个领域，成为一种重要的生产要素，而数据的交易和流通要满足数据监管及数据隐私保护的要求。这个趋势在全世界范围内形成一个新的数据化潮流，无论是政府还是社会，人们对数据隐私的安全保护都非常在意。联邦学习的技术产生于上述的社会和法律背景下，利用分散在各参与方的数据集，通过隐私保护的技术融合多方数据信息，协同构建全局模型的一种分布式训练方式。

在车联网场景的边缘网络中，联邦学习的参与节点由车辆、路旁单元(RSUs)与5G基站组成。这些节点都具有计算和通信能力，其中，5G基站具有较高的计算与通信能力。RSUs配备移动边缘计算(MEC)服务器，RSUs上与5G基站连接，下与车辆连接。在该车联网场景中数据通过车辆对车辆的传输或者车辆对RSUs通信传输。当车辆对某类数据发出共享请求Req时，其目的可以是通过所请求的数据进行诸如交通流量预测或者路径规划等。即利用所共享数据获取相应的计算结果。因此，可以将该数据共享过程等同为一个计算任务。则针对数据请求Req，相应的计算任务是从分布式数据集中学习数据模型。

现有的方法主要利用联邦学习来实现前述针对数据共享的计算任务，其中，车辆是参与本地训练的节点(客户端)，5G基站是负责全局聚合的节点(服务器)。但是，由于车辆的移动性，车辆间通信连接的不可靠性和车辆的增多，给数据共享带来了新的挑战。联邦学习会带来额外的时延，阻碍了联邦学习中全局聚合的高效执行。

目前联邦学习中，对提升系统整体效率的方法大多采用加快全局模型的更新或收敛速度，基本方法有：联邦服务器采用绝对平均的方法对收到的本地模型进行聚合或使用加权平均的策略对本地模型进行聚合，然而这两种方法都缺乏优化高效、高质量的考虑，如果参与节点非常多，将每个参与节点的本地模型都进行全局聚合不仅效率慢，而且聚合的全局模型质量也得不到保证。因此，为提升联邦学习中全局聚合的高效执行和聚合模型的质量，在全局聚合前对参与节点选择优化是非常有必要。相应地，在车联网场景中，一方面由于车辆的移动性带来的通讯连接的不稳定性以及车辆数量增加；另一方面对本地模型进行聚合时，参与的车辆节点数量极大影响模型精度以及聚合效率，因此，在全局聚合之前对参与的车辆节点进行优化极为重要。

发明内容

本发明的目的是为了解决联邦学习中节点选择问题，提升聚合效率以及聚合得到的全局模型质量，提供一种联邦学习参与节点选择优化方法、联邦学习方法及系统。具体是将车辆节点选择问题转换为部分马尔可夫决策过程，进而利用RDPG算法求解部分马尔可夫决策过程得到当前训练中参与的车辆节点。其中，一方面以最小化时间开销和最大化聚合模型质量为优化目标，进而得到的车辆节点选择将满足累计回报最大，降低了时间开销以及提升了模型质量；另一方面，车联网中由于车辆的移动性以及车辆的数量庞大，进行车辆节点的选择优化实属必要，本发明技术方案利用部分马尔可夫决策以及RDPG算法进行车辆节点的优选，可用有效解决上述问题，进而提升后续模型的聚合效率。

一方面，本发明提供的一种基于RDPG的联邦学习参与节点选择优化方法，其包括以下步骤：

步骤S1：将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程；

其中，所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的，用于选择每次模型训练中参与的车辆节点；在所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值；

步骤S2：依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值，采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点；

其中，所述观察值表示车联网场景中被观察到的各车辆节点状态。

进一步可选地，步骤S2中采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前训练中参与的车辆节点的过程如下：

步骤S31：随机选取经验片段，并利用主critic网络分别计算出执行经验片段中各个时刻的动作a^t得到的预测价值，以及分别利用目标actor网络预测出经验片段中对应下一时刻的动作a^t+1，进而利用目标critic网络计算出执行动作a^t+1得到的目标价值；

其中，主critic网络和目标critic网络的网络结构相同，对应的网络参数分别表示为θ^Q、θ^Q′，分别用于计算执行动作得到的预测价值、目标价值；主actor网络和目标actor网络的网

络结构相同，对应的网络参数分别表示为θ^π、θ^π′，分别用于得到选取的车辆节点，即输出动作；动作a^t表示t时刻对应的车辆节点选择结果，动作为1，对应车辆节点被选择；为0，对应车辆节点未被选择；

步骤S32：基于预测价值以及目标价值之间的误差得到主critic网络的误差损失梯度，再利用所述误差损失梯度更新主critic网络的网络参数θ^Q；

步骤S33：利用主critic网络的误差损失梯度计算主actor网络的损失函数梯度，进而以损失最小化更新主actor网络的网络参数θ^π；

步骤S34：分别根据主critic网络、主actor网络的网络参数θ^Q、θ^π更新对应目标critic网络、目标actor网络的网络参数θ^Q′、θ^π′；

步骤S35：基于更新后的主actor网络，利用当前时刻τ1的观察值预测当前时刻τ1的动作a^τ1；

步骤S36：基于当前时刻τ1以及历史时刻的各个动作对应的回报，计算出执行当前时刻τ1的动作a^τ1对应的累计回报；其中，按照预设的迭代轮数N，重复执行步骤S31-步骤S36共N次，进而从中选择出累计回报最大的一轮计算得到的动作a^τ1为当前时刻τ1的最优动作。

进一步可选地，所述累计回报函数表示为：

式中，γ是回报折扣因子，γ∈(0,1]；T为当前轮运算中的最大时序长度，即t＝1,2,3…T；R(S^t,a^t)为执行时刻t对应的动作a^t得到的回报；

为1,2,3…T时刻的回报期望。

存在：

式中，S^t为t时刻对应的系统状态，

为车辆v_i对应的t时刻的动作，n为车辆总数，

为车辆v_i对应t时刻的系统总开销；d_i表征车辆v_i所持有的训练数据；β_m是训练一次模型所需的CPU执行周期次数；ξ_i(t)是车辆v_i对应t时刻的计算资源；τ_i是车辆v_i可用的传输速率；|w_i|是车辆v_i上训练模型的模型参数的大小，

表示车辆v_i对应t时刻的模型训练质量；w^t是t时刻后所聚合的模型。以上变量的值可以在车辆本地存储的原始数据以及训练后存储的数据获得，由于是本领域的常规指标/参数，因此对其不进行具体的介绍。

进一步可选地，所述主critic网络的误差损失梯度以及所述主actor网络的梯度分别如下所示：

所述主actor网络的梯度：

式中，

表示所述主critic网络的误差损失梯度，X为经验片段的总个数，T为当前轮次运算中的最大时序长度，

为预测价值，

为目标价值，h_t,i为第i个经验片段中t时刻对应的历史信息，

是主critic网络计算动作的值函数；

表示计算梯度；

表示所述主actor网络的梯度；

其中，t时刻的历史信息h_t,i定义为：(a⁰,o⁰,…,a^t-1,o^t-1,o^t)，其中，a⁰,o⁰分别表示初始时刻的动作、观察值；o^t-1、a^t-1分别表示t-1时刻对应的观察值、动作，o^t表示t时刻对应的观察值。

进一步可选地，步骤S34中依据如下公式更新对应目标critic网络、目标actor网络的网络参数θ^Q′，θ^π′：

θ^Q′←ωθ^Q+(1-ω)θ^Q′

θ^π′←ωθ^π+(1-ω)θ^π′

其中，ω∈[0,1]，为预设权重系数。

进一步可选地，所述观察值包括：车辆间的数据集无线传输速度，车辆的可用计算资源以及车辆的位置坐标。

进一步可选地，所述部分马尔可夫决策过程M表示为：

其中，S表示系统状态，A表示动作空间，P表示观测概率分布，

表示观测结果集，Z表示观察函数，R为回报函数；

其中，时刻t对应的系统状态S^t定义为：

S^t＝{τ(t),ξ(t),p(t),a^t-1}

其中，τ(t)为t时刻对应的车辆间的数据集无线传输速度，ξ(t)表示时刻t对应的车辆的可用计算资源，p(t)为时刻t对应的车辆的位置坐标，a^t-1为时刻t-1对应的车辆是否被选择，等于1表示被选中，等于0表示未被选中；

动作空间A由所有车辆的动作构成，所述动作表示车辆选择与否的决策；观测结果集

表示系统所观察到的车辆状态；观察函数Z表示系统状态与观察值之间的关系。

第二方面，本发明提供的一种基于上述方法的车联网的联邦学习方法，其包括：

实时获取车联网场景下的观察值；

按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点，进而被选择的车辆节点利用自身可用数据进行本地模型训练，并将训练后的模型参数通过路边单元上传至基站。

其中，被选择的车辆节点利用自身可用数据进行模型训练是指背景技术中提到的车联网场景中，基于联邦学习的思路，各个车辆节点利用本地数据及共享数据对本地模型进行训练。自身可用数据的类型是依据应用场景以及本地模型来确定的，由于本地模型训练过程不是本发明的核心，且是现有技术，因此对其不进行具体的约束以及陈述。

第三方面，本发明提供的一种基于上述方法的系统，其包括：

转换模块，用于将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程；

其中，所述车辆节点选择问题是以使用联邦学习训练模型的最小化时间开销和最大化聚合模型质量为优化目标构建的，用于选择每次模型训练中参与的车辆节点；所述部分马尔可夫决策过程中将所述优化目标转换为计算累计回报函数的最大值；

选择模块，用于依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值，采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到确定当前模型训练中参与的车辆节点；

其中，所述观察值表示车联网场景中被观察到的各车辆状态。

第四方面，本发明提供的一种电子终端，其包括：

一个或多个处理器；

存储了一个或多个计算机程序的存储器；

其中，所述处理器调用所述计算机程序以实现：

一种基于RDPG的联邦学习参与节点选择优化方法的步骤。

第五方面，本发明提供的一种可读存储介质，其存储了计算机程序，所述计算机程序被处理器调用以实现：

一种基于RDPG的联邦学习参与节点选择优化方法的步骤；

或者以实现：一种车联网的联邦学习方法的步骤。

有益效果

本发明技术方案是将车联网场景下车辆节点选择问题建立为部分马尔可夫决策过程，并用深度强化学习中的RDPG算法解决部分马尔可夫决策过程定义的问题，进而选择出高质量的车辆节点。通过上述技术手段，筛选了车辆节点，可以有效提升聚合效率；同时，以最小化时间开销和最大化聚合模型质量为优化目标，进而得到的车辆节点选择将满足累计回报最大，降低了时间开销以及提升了模型质量。

此外，在车联网真实环境中，由于车辆等参与节点的增多，路况和通信状态的不确定性，难以获取从一开始到现在的整个车联网实时的环境状态，不仅如此还会导致车辆等参与节点在联邦学习训练时带来额外的时延，阻碍了联邦学习中全局聚合的高效执行。而本发明的技术方案中，依据当前车联网场景下的观察值、历史车联网场景下的观察值以及车辆节点选择结果、回报值进行求解，因此，历史数据已经存储在系统中，进而每次仅仅需要增加当前时刻新观察到的车辆信息片段即可，可以提升算法效率。

附图说明

图1为本发明实施例提供的一种基于RDPG的联邦学习参与节点选择优化方法的步骤流程图。

图2为本发明的联邦学习参与节点选择架构图。

图3为RDPG算法的流程图。

具体实施方式

本发明技术方案提供一种基于RDPG的联邦学习参与节点选择优化方法，用于解决车联网场景中利用联邦学习进行模型训练时的车辆节点选择问题。具体是将车辆节点选择问题转换为部分马尔可夫决策过程，进而利用RDPG算法求解部分马尔可夫决策过程得到当前训练中参与的车辆节点。下面根据附图描述本发明，本发明的目的和效果将变得更加明白。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

实施例1：

本实施例提供一种基于RDPG的联邦学习参与节点选择优化方法，包括以下步骤：

步骤1：以车联网场景下，在使用联邦学习训练模型时为达到最小化时间开销和最大化聚合模型质量的目标构建为一个车辆节点选择问题。

步骤2：将步骤S1中的车辆节点选择问题建模为部分马尔可夫决策过程

即将该场景下车辆节点选择问题转化为求解部分马尔可夫决策过程中最大化累积回报。

步骤3：使用循环确定性策略梯度(RDPG)算法对部分马尔可夫决策过程进行求解，找到满足联邦学习训练过程中车辆节点。具体是依据当前车联网场景下车辆节点的观察值、历史车联网场景下车辆节点的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值，采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点。

下文将详细描述各个步骤的具体思路以及细节。

关于步骤1中提及的时间开销，具体描述如下：

在每个时刻t，定义车辆的被选择状态为

其中，

表示车辆v_i被选中，

表示未被选中。车辆v_i的时间开销

表示为：

其中，d_j是车辆v_i所持有的训练数据；β_m是训练一次模型m所需的CPU；ξ_i是车辆v_i自身的计算资源，f_l表示计算时间开销的函数。

车辆v_i的通信开销

表示为：

其中，τ_i是车辆v_i可用的传输速率；|w_i|是在时刻t所训练的模型参数的大小。因此，针对当前系统，时刻t对应总的时间开销

表示为：

其中，V_p是所有车辆v_i的集合。

关于步骤1中提及的在联邦学习过程聚合模型的质量，具体描述如下：

本实施例通过Quality ofLearning(QoL)来衡量模型的训练质量

其定义如下：

其中，w^t是时刻t后所聚合的模型；L(·)是损失函数；d_j＝{(x_j,y_j)}是车辆v_i的训练数据；V_p是所有车辆v_i的集合。因此，在时刻t对应联邦学习中系统的总开销c^t(a^t)为：

进而将步骤S1中所述车辆节点选择问题描述如下：

其中，

为被选中的车辆节点概率；P_c(t)为被选中5G基站服务器的概率；r₀表示限定了所选择的节点与服务器距离。

关于步骤2中将步骤1中的车辆节点选择问题建模为部分马尔可夫决策过程

具体实现过程如下：

定义系统状态S：在联邦学习的每个训练时刻t，系统状态S^t定义为：

S^t＝{τ(t),ξ(t),p(t),a^t-1} (7)

其中，τ(t)为车辆间的数据集无线传输速度，ξ(t)表示车辆的可用计算资源，p(t)为车辆的位置坐标，a^t-1为车辆是否被选择，a^t-1＝1表示车辆v_i被选中，a^t-1＝0表示未被选中。

定义动作空间A：在训练时刻t的动作是指对车辆选择与否的决策，可以被视为一个0-1问题。针对第n辆车辆，动作

一个向量表示：

其中，

表示t时刻对应第n辆车辆的动作。

定义观测概率分布P：对于一个部分可见马尔可夫状态S及其后继状态S'，其状态转移概率

由下式定义：

其中，

的下标o^t+1表示t+1时刻被观测到系统状态；S^t+1表示t+1时刻的系统状态；a^t表示t时刻采取的动作，也就是被选中的车辆。

定义一组观察结果集

车辆等参与节点可能由于网络状态的不稳定性，导致在系统状态中车辆节点不能完全被观察到，而能被观察到的车辆状态则组成一组观察结果。

定义观察函数Z：

是一个观察函数，表明系统状态和观察值之间的关系。具体是执行动作a^t进入环境状态S'后得到的观察值的概率。具体表示如下：

Z(S',at,o')＝P_r(o^t+1＝o'|S^t+1＝S',A^t＝a^t) (10)

其中，o'表示进入状态S'后得到的观察值；a^t表示根据当前状态和观察值选取的车辆节点。

定义下一个状态：在状态S^t下执行动作a^t后，系统的状态由S^t转化为S^t+1。更新后的新状态包括t+1时刻对应的车辆间的数据集无线传输速度τ(t+1)、时刻t+1对应的车辆的可用计算资源ξ(t+1)、时刻t+1对应的车辆的位置坐标p(t+1)、时刻t的动作。为了模拟车辆v_i变化的通信状态，优选τ_i对添加随机噪声，

其中，

是高斯随机噪声。系统可用的计算资源状态以同样的方式更新。车辆v_i位置依据车辆的轨迹数据集进行更新变化。

将在部分可见马尔可夫决策过程中，通过观察和动作的历史信息来做决策，t时刻观察和动作的历史信息h_t定义为：

h_t＝(a⁰,o⁰,…,a^t-1,o^t-1,o^t) (11)

定义回报函数R：系统通过回报函数R来评估采取某个动作所带来的影响。在训练时刻t中执行节点选择任务的代理在状态s^t下采取动作a^t。所采取的动作a^t将依据如下回报函数进行评估：

其中，d_i是车辆v_i所持有的训练数据；β_m是训练一次模型所需的CPU执行周期次数；ξ_i是车辆自身的计算资源；

为在联邦学习迭代t中系统的总开销；τ是车辆可用的传输速率；|w_i|是在迭代t所训练的模型参数的大小。

回报函数R(s^t,a^t)量化了采取动作a^t的收益，对应总的累积回报函数为：

其中，γ∈(0,1]是回报折扣因子，T为每轮训练的最大时序长度，即t＝1,2,3…T。

在联邦学习中，车辆节点选择的目标是最小化总的开销。而将车辆节点选中优化问题建模为部分可见马尔可夫决策过程，目标则为找到动作空间A中定义的动作即车辆节点选择与否a^t，它最大化累积回报(最小化总的累积开销)，即：

关于步骤3中循环确定性策略梯度(RDPG)算法的具体描述如下：

RDPG是使用循环神经网络来构造估计策略的确定性策略梯度算法，用以解决本场景中车辆节点优化选择问题。RDPG算法主要由四个网络和一个经验复用池

构成，四个网络分别是主actor、主critic网络和目标actor和目标critic网络，其对应的网络参数分别为θ^π，θ^Q，θ^π′，θ^Q′。目标网络与主网络具有相同结构。其中，主actor、主critic网络和目标actor和目标critic网络均是现有网络架构，本发明对此并未进行优化。具体的，主critic网络对当前车联网场景的系统状态S^t包括：车辆状态，包括车辆可用的计算资源、车辆的位置、车辆被选择的状态和动作a^t进行预测，产生执行该动作应该得到预测价值。目标critic网络的输入是下一时刻的车联网的系统状态S^t+1和动作a^t+1,产生执行该动作的目标价值。主actor网络输入车辆的历史信息和当前新加入的车辆状态得到预测选取的车辆。目标actor网络输入下一时刻的车辆状态得到下一时刻状态下应该选择的目标车辆。

步骤S3中所述的循环确定性策略梯度(RDPG)算法的具体实现如下所示：

S3.1：从经验复用池

中随机选取X个经验片段，使用目标critic网络计算目标价值，以及利用主critic网络对当前状态和动作进行预测，产生预测价值；然后基于目标价值和预测价值计算critic网络的损失，根据最小化损失函数更新主critic网络参数θ^Q。

步骤S3.1中的具体过程描述如下：

S3.1.1：从经验复用池

中选取经验片段。其中，经验复用池

中存储以往车联网场景得到的观察值o^t、车辆是否被选择这一动作a^t；选取动作a^t产生的回报R_t。其中，观察值o^t包括：车辆间的数据集无线传输速度，表示车辆的可用计算资源，车辆的位置坐标。经验复用池

的定义方式如下：

(o¹,a¹,R₁…,o^T,a^T,R_T) (15)

经验片段为

中的数据，与

数据格式一样，是表示从当前时刻τ向前取不同时序长度的历史数据。不同经验片段的时序长度不同，即选取的时刻点不同，经验片段的定义如下：

其中，o^1,i,

R_1,i分别表示第i个片段中第1时刻对应的观察值、动作以及回报。

S3.1.2将下一时刻t+1的系统状态放入目标actor网络中，计算得到下一状态的目标动作。将产生的目标动作放入目标critic网络中，计算出下一个状态的目标价值

其中，π是一个确定性映射，给定状态和参数，输出的动作是确定的；π'表示目标critic网络中的确定性映射；π'(h_t+1,i|θ^π′)表示基于目标actor网络确定的下一时刻t+1的动作；h_t+1,i为车联网场景中下一时刻t+1对应的观测和动作的历史信息，即包含下一时刻t+1新加入的车辆信息以及t+1时刻之前的观察和动作，所述下一时刻t+1新加入的车辆信息包括车辆状态，车辆可用的计算资源、车辆的位置、车辆被选择的状态；θ^Q′为目标critic网络的参数；

为回报值；γ为回报折扣；θ^π′为目标actor网络的参数。以及Q'(h_t+1,i,π'(h_t+1,i|θ^π′)|θ^Q′)表示目标critic网络计算动作的值函数。其中，确定性映射以及值函数的选择和设定是现有技术，因此对其不进行具体的陈述。

S3.1.3：将当前状态和当前动作放入主critic网络中，产生对于当前动作状态的预测值

其中，h_t,i为当前时刻车联网场景中的车辆信息，包括车辆状态，车辆可用的计算资源、车辆的位置、车辆被选择的状态；

为当前被选中的车辆；θ^Q为主critic网络的参数。

表示主critic网络计算动作的值函数。目标网络与主网络的值函数相同，应当理解，目标网络与主网络是输入的数据不同，即目标网络就是输入目标数据，得到目标值。

S3.1.4通过最小化上述critic网络目标价值与预测值的误差来更新critic网络，误差梯度如下所示：

其中，

为目标价值；

为预测值；N为算法一共进行了多少轮；X为从经验复用池

中采取了多少个经验片段；T为每轮训练的最大时序长度，即t＝1,2,3…T。

其中，依据误差梯度,使这个损失尽可能的最小，即让critic网络的目标值与预测值尽可能的接近，在这个过程中，critic网络参数的权重与偏重将得到调整。即θ^Q包括权重和偏重。

步骤S3.2：使用critic网络的梯度计算actor网络的梯度，并更新actor网络参数θ^π，利用主critic网络和主actor网络的参数更新目标网络的参数。

步骤S3.2中更新主actor网络的具体步骤如下：

根据步骤S3.1.4中的(19)更新critic网络，并根据critic网络的梯度，计算主actor网络梯度，更新主actor网络。

其中，θ^π表示主actor网络的参数；

表示计算梯度；h＝h_t,i表示历史信息；h_t,i为当前状态下的观察的车辆信息和被选中的车辆信息；

为当前选中的车辆节点；θ^Q为主critic网络的参数。应当理解，更新critic网络后，

的梯度值相应变化，从而计算出主actor网络梯度，更新主actor网络。

步骤S3.2中更新目标网络的参数具体步骤如下：

S3.2.3：分别根据主critic和主actor网络的参数θ^Q和θ^π更新对应目标网络的参数θ^Q′，θ^π′。具体步骤如下：

θ^Q′←ωθ^Q+(1-ω)θ^Q′ (21)

θ^π′←ωθ^π+(1-ω)θ^π′ (22)

其中ω∈[0,1]。

步骤S3.3：利用更新后的主actor网络，当前时刻τ1的观察值预测当前时刻τ1的动作a^τ1。

其中，(h_τ1,i)表示历史信息，包括车联网场景范围内的车辆状态，车辆可用的计算资源、车辆的位置、车辆被选择的状态；当前观察则是根据该场景新加入的车辆节点得到的信息；预测动作

则是新加入的车辆节点是否被选中。

步骤S3.3：基于当前时刻τ1以及历史时间的各个动作对应的回报，计算出执行当前时刻τ1的动作aτ¹对应的累计回报；其中，通过循环步骤S3.1与S3.2训练critic网络和actor网络寻找这两个网络参数θ^Q和θ^π的最优解，即找到联邦学习中节点选择的最优解，使得累积回报最大，具体步骤如下：

其中，γ∈(0,1]是回报折扣因子，R(s^t,a^t)是当前状态所执行的动作a_t获得的回报值。

具体是，按照预设的迭代轮数N，重复执行步骤S31-步骤S36共N次，进而从中选择出累计回报最大的一轮计算得到的动作a^τ1为当前时刻τ1的最优动作。

实施例2

基于前述实施例1提供的方法的车联网的联邦学习方法，其包括：

实时获取车联网场景下的观察值；按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点，进而被选择的车辆节点利用自身可用数据进行模型训练，并将训练后的模型参数通过路边单元上传至基站。

其中，路测单元选定训练任务并将模型参数发送至建立有通信连接的各车辆，依据本发明基于RDPG的联邦学习参与节点选择优化方法确定车辆节点，对应各车辆使用本地数据对接收到的任务模型参数，在本地训练后上传至路测单元，路测单元通过全局聚合将生成的新参数返回至各车辆。

实施例3：

本实施例提供一种基于实施例1提供的方法的系统，其包括：

选择模块，用于依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值，采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到确定当前模型训练中参与的车辆节点。

具体各个模块的实现过程请参照上述方法的内容，在此不再赘述。应该理解到，上述功能模块的划分仅仅是一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。同时，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

实施例4：

本实施例提供一种电子终端，其包括：一个或多个处理器；以及存储了一个或多个计算机程序的存储器；其中，所述处理器调用所述计算机程序以实现：一种基于RDPG的联邦学习参与节点选择优化方法的步骤。

具体执行：

步骤S1：将车联网场景下利用联邦学习训练模型时的车辆节点选择问题表示为部分马尔可夫决策过程。

步骤S2：依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值，采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点。

其中，存储器可能包含高速RAM存储器，也可能还包括非易失性除颤器，例如至少一个磁盘存储器。

如果存储器、处理器独立实现，则存储器、处理器和通信接口可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构总线，外部设备互联总线或扩展工业标准体系结构总线等。所述总线可以分为地址总线、数据总线、控制总线等。

可选的，在具体实现上，如果存储器、处理器集成在一块芯片上，则存储器、处理器可以通过内部接口完成相互之间的通信。

各个步骤的具体实现过程请参照前述方法的阐述。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

实施例5：

本实施例提供一种可读存储介质，其存储了计算机程序，所述计算机程序被处理器调用以执行：一种基于RDPG的联邦学习参与节点选择优化方法的步骤。

具体执行：

或者用以实现：一种基于上述方法的车联网的联邦学习方法

实时获取车联网场景下的观察值；

按照步骤S1-S2的方式确定每个训练时刻参与的车辆节点，进而被选择的车辆节点利用自身可用数据进行模型训练，并将训练后的模型参数通过路边单元上传至基站。

各个步骤的具体实现过程请参照前述方法的阐述。

所述可读存储介质为计算机可读存储介质，其可以是前述任一实施例所述的控制器的内部存储单元，例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备，例如所述控制器上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种基于RDPG的联邦学习参与节点选择优化方法，其特征在于：包括以下步骤：

所述部分马尔可夫决策过程M表示为：

表示观测结果集，Z表示观察函数，R为回报函数，γ∈(0,1]是回报折扣因子；

其中，时刻t对应的系统状态S^t定义为：

S^t＝{τ(t),ξ(t),p(t),a^t-1}

其中，τ(t)为时刻t对应的车辆间的数据集无线传输速度，ξ(t)表示时刻t对应的车辆的可用计算资源，p(t)为时刻t对应的车辆的位置坐标，a^t-1为时刻t-1对应的车辆是否被选择，等于1表示被选中，等于0表示未被选中；

表示系统所观察到的车辆状态；观察函数Z表示系统状态与观察值之间的关系；回报函数R表示系统通过回报函数R来评估采取某个动作所带来的影响；观测概率分布P表示对于一个部分可见马尔可夫状态S及其后继状态S'的状态转移概率；

步骤S2：依据当前车联网场景下的观察值、历史车联网场景下的观察值以及所述历史车联网场景下的车辆节点选择结果、回报值，采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前模型训练中参与的车辆节点；所述观察值表示车联网场景中被观察到的各车辆节点状态；

其中，步骤S2中采用循环确定性策略梯度RDPG求解部分马尔可夫决策过程得到当前训练中参与的车辆节点的过程如下：

其中，主critic网络和目标critic网络的网络结构相同，对应的网络参数分别表示为θ^Q、θ^Q′，分别用于计算执行动作得到的预测价值、目标价值；主actor网络和目标actor网络的网络结构相同，对应的网络参数分别表示为θ^π、θ^π′，分别用于得到选取的车辆节点，即输出动作；动作a^t表示t时刻对应的车辆节点选择结果；

步骤S33：利用主critic网络的误差损失梯度计算主actor网络的梯度，进而更新主actor网络的网络参数θ^π；

步骤S36：基于当前时刻τ1以及历史时刻的各个动作对应的回报，计算出执行当前时刻τ1的动作a^τ1对应的累计回报；

其中，按照预设的迭代轮数N，重复执行步骤S31-步骤S36共N次，进而从中选择出累计回报最大的一轮计算得到的动作a^τ1为当前时刻τ1的最优动作。

2.根据权利要求1所述的方法，其特征在于：所述累计回报函数表示为：