CN116600316A

CN116600316A - 一种基于深度双q网络和联邦学习的空地一体化物联网联合资源分配方法

Info

Publication number: CN116600316A
Application number: CN202310512150.XA
Authority: CN
Inventors: 程梦倩; 宋晓勤; 赵晨辰; 刘宇; 陈思祺
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-08-15

Abstract

本发明公开了一种针对灾害应急场景的基于横向联邦学习和深度双Q网络的资源分配方法，该方法面向应急场景，构建无人机辅助的空地一体化网络，采用功能分簇的思想将无人机进行聚类，综合考虑计算卸载和感知信息传输两类任务，构造多目标优化问题，利用深度双Q网络模型获得最优的信道分配和发射功率联合优化策略，引入联邦学习，在保护用户数据安全的前提下，实现全局聚合，并且引入优先经验回放机制，加快网络训练的收敛速度，提升性能。本发明使用的HFL‑DDQN算法可以在满足时延和功率等约束下，最小化系统的时间和能量成本，有效解决应急场景中车辆用户和感知节点的信道分配和功率选择的联合优化问题。

Description

一种基于深度双Q网络和联邦学习的空地一体化物联网联合资源分配方法

技术领域

本发明涉及空天地一体化物联网领域，特别涉及一种基于横向联邦学习和深度双Q网络(Horizontal federated learning and Double Deep Q-Network，HFL-DDQN)的多任务多目标资源分配方法。

背景技术

自然灾害和突发应急事件的频频发生，要求现场救援通信和计算设施具有更高的机动性、可靠性和灵活性。物联网(Internet of Things，IoT)设备通常配备有限的计算资源，无法满足多数设备密集计算和超低时延的需求，因此在应急场景中部署多接入边缘计算(Multi-access Edge Computing，MEC)辅助移动网络十分必要。然而，在应急场景中，提前部署的MEC容易产生不灵活和服务不均的问题，预设的基站也容易被毁无法提供服务，传统的地面网络无法满足应急场景中快速响应的需求。针对上述情况，空天地一体化物联网更加适用，将在辅助和补充地面系统方面发挥关键作用。

无人机(Unmanned Aerial Vehicles，UAV)具有成本低、机动灵活等优势，可以作为空中计算平台，辅助边缘计算，被广泛应用于无线通信领域，UAV辅助的MEC也特别适用于高密度的公共应急场景。

此外，由于各种随机因素(如噪声和信道衰落)和非线性因素(如硬件缺陷)，无线通信系统无法准确建模，即使可以准确建模，模型和算法也会非常复杂，无法保证实时处理与响应。人工智能(Artificial Intelligenee，AI)技术，特别是深度强化学习(DeepReinforcement Learning，DRL)具有强大的数据处理能力、表示能力和较低的推理复杂度，被广泛应用于物联网中的资源分配和计算卸载方法之中。

发明内容

本发明的目的是针对灾害应急场景，构建无人机辅助的空地一体化网络架构，综合考虑计算任务卸载和现场感知信息传输两类任务，提出一种基于DRL和联邦学习的多目标资源分配方法，降低通信的时间和能量成本。为了实现该目的，本发明所采用的步骤是：

步骤1：构建无人机辅助的空地一体化网络系统模型，按照计算卸载和感知信息传输两种任务将地面节点聚类，按照功能不同将无人机聚类；

步骤2：分别对计算卸载和感知信息传输两种模型进行建模；

步骤3：基于上述模型，综合考虑两类任务，以最小化系统的时间和能量成本为目标，构建多任务多目标优化问题；

步骤4：采用分布式资源分配方法，根据优化问题构建深度强化学习模型，设置DDQN关键参数；

步骤5：在DDQN中引入优先经验回放机制，加快训练的收敛速度，改善系统性能；

步骤6：为了在保护用户隐私和数据安全的同时提升分布式深度强化学习模型的性能，利用联邦学习优化DDQN；

步骤7：设计HFL-DDQN训练算法，并进行资源分配DRL模型的训练；

步骤8：在执行阶段，利用训练好的HFL-DDQN模型，得到最优的用户发射功率和信道分配策略；

进一步的，所述步骤1包括如下具体步骤：

步骤1-1：考虑一个灾害发生区域内有多个无人机的微型小区，其中有M个无人机配备有计算资源，可以在一定的空间范围内按照预定的轨迹移动，称为UAV-MEC，用于完成计算卸载任务；其余R个无人机作为中继节点，均匀分布在区域上空，并且保持悬停状态，称为UAV-Relay，负责快速传输现场感知数据，UAV-MEC和UAV-Relay的集合分别表示为M＝{1，2，...，m，...，M}和R＝{1，2，...，r，...，R}；

步骤1-2：在地面上，有N个应急车辆用户(Emergency vehicle users，EVUs)需要执行计算密集和延迟敏感的任务，每个EVU会发生移动，其集合表示为N＝{1，2，...，n，...，N}；假设每一个EVU在每个时隙内只有一个计算任务，表示为其中，c_n表示完成计算任务所需的CPU转数；i_n表示输入的计算数据量；/>表示任务n最大可以容忍的时延；

步骤1-3：设有S个静止的地面传感器(Ground Sensor Nodes，GSNs)，位置随机均匀分布，用于感知区域内的状况，传感器感知的数据需要快速向外传输，以便救援指挥中心(Rescue Command Center，RCC)实时判断灾情，S个传感器节点集合表示为S＝{1，2，...，s，...，S}；

进一步的，所述步骤2包括如下具体步骤：

步骤2-1：定义来指示第n个EVU计算任务执行的位置，当/>时，表示EVU n的计算任务在本地执行，/>m＞0表示EVU n选择在UAV-MEC m完成计算卸载任务，反之，/>m＞0则表示EVU n没有选择UAV-MEC m完成计算卸载任务，假设每个EVU只能选择一个计算节点，则

步骤2-2：EVU n通过UAV-MEC m完成计算卸载任务时，EVU和UAV之间V2U链路的信干噪比(Signal-interference-plus-noise ratio，SINR)可以表示为

其中，P_EVU[n]表示EVU n的发射功率；表示EVU n和UAV-MEC m之间的信道系数；σ²表示加性高斯白噪声的功率；I_V2U[n]表示EVU n来自其它使用相同子波段的V2U链路的干扰，可通过下式计算

其中，表示使用相同V2U链路的EVU n和UAV-MEC m之间的信道系数，/>与/>使用相同的定义，将式中的n改为n′；

步骤2-3：因为EVU和UAV之间的信道是自由空间的视线(Line of sight，LOS)，所以信道系数与路径损耗的影响有关，可以表示为

其中，是用距离/>表示的路径损耗；把V2U链路的发送端和接收端的位置用三维直角坐标表示，分别为/>则EVU n和UAV-MEC m之间的欧式距离可以表示为

步骤2-4：则EVU n与UAV-MEC m的V2U链路传输速率可以用下式计算

其中B₀表示V2U链路的带宽；

步骤2-5：则所有EVU执行任务时，总的传输时延可以表示为

其中，表示EVU n选择UAV-MEC m后的传输时延；

步骤2-6：所有EVU执行任务总的计算时延可以表示为

其中，表示分配给计算任务T_n的计算资源；/>表示可以获得本地计算资源/>执行计算任务；m＞0时，/>表示UAV-MEC服务器每秒钟分配给EVU n的CPU转数；/>表示EVUn选择UAV-MEC m执行任务所需的计算时间；

步骤2-7：则所有任务车计算卸载时总的时间成本可以表示为

步骤2-8：所有任务车中选择本地计算所产生的总能耗为

其中，ξ表示能量系数，与CPU的芯片结构有关；

步骤2-9：如果选择计算卸载，能量损耗包括传输时的能量损耗和计算时的能量损耗/>两部分，则所有EVU中选择计算卸载产生的总能耗可以表示为

其中，p_n表示分配给EVU n的发射功率，p_m表示UAV-MEC执行计算时的CPU功率；

步骤2-10：则计算卸载模型总的能量损耗可以表示为

步骤2-11：定义来指示GSN s选择的中继节点，表示GSN s选择UAV-Relay r作为中继，否则表示没有选择r作为中继；

步骤2-12：当GSN s通过UAV-Relay r传输数据时，GSN和UAV-Relay之间S2U链路的可以表示为

其中，P_S[s]表示GSN s的发射功率；表示GSN s和UAV-Relay r之间的信道系数；σ²表示加性高斯白噪声的功率；I_S2U[s]表示GSN s来自其它使用相同子波段的S2U链路的干扰，可以通过下式计算

其中，表示使用相同S2U子频段的GSN s′和UAV-Relay r之间的信道系数；

步骤2-13：如前文所述，信道系数与路径损耗有关，即

其中，表示GSN s和UAV-Relay r之间的欧式距离，把S2U链路的发送端和接收端位置用三维直角坐标表示，分别为/>则

步骤2-14：则GSN s和UAV-Relay r之间S2U链路的传输速率可以表示为

其中，B₁表示S2U链路的带宽；

步骤2-15：相似地，UAV-Relay与RCC进行数据传输时，它们之间的U2C链路的SINR可以表示为

其中，P_R[r]表示UAV-Relay r的发射功率；表示UAV-Relay r与RCC之间的信道系数；I_U2C[r]表示UAV-Relay r来自其它使用相同子波段的U2C链路的干扰，可以用下式计算

其中，指示当前UAV-Relay r′是否正在向RCC传输数据，/>表示UAV-Relay r正在向RCC传输数据，反之则表示没有向RCC传输数据，/>表示使用相同U2C子频段的UAV-Relay r′和RCC之间的信道系数；

步骤2-16：如前文所述，信道系数与路径损耗有关，可以表示为

设RCC位置的三维直角坐标为(x_c，y_c，z_c)，则UAV-Relay r和RCC之间的欧式距离为

步骤2-17：因此，UAV-Relay r与RCC之间的传输速率可以表示为

其中，B₂表示UAV-Relay r与RCC之间U2C链路的带宽；

进一步的，所述步骤3包括如下具体步骤：

步骤3-1：对于计算卸载模型，将成本函数定义为时延和能量消耗的加权和，表示为

C_off(w₁，w₂)＝w₁T_total+w₂E_total (23)

其中，w₁和w₂分别表示式(9)定义的计算卸载模型中总传输时延和式(12)定义的总能量消耗的权重，w₁和w₂需要满足w₁+w₂＝1，0≤w₁≤1，0≤w₂≤1，此外，为了满足不同场景和服务要求，w₁和w₂可以根据需要灵活调整；

步骤3-2：根据上述定义，将计算卸载问题表述为在若干系统约束条件下的成本函数最小化问题

其中，K，C，P分别表示计算节点、信道和用户发射功率的分配策略，表示UAV-MEC m的最大的计算资源，/>表示每个EVU最大的发射功率；约束C1指出每一个EVU只能选择一个设备进行计算卸载；约束C2表示任务T_n的最大可容忍延迟时间限制；约束C3和C4是UAV-MEC服务器计算资源的约束条件；约束C5规定了每个EVU发射功率的范围；约束C6指出了权重系数的限制；

步骤3-3：对于中继传输模型，由于在应急场景下现场的感知数据需要快速传输，将优化目标设置为在一些约束条件下最大化最小链路传输速率，可以表示为

其中，G，C，P分别表示中继节点、信道和发射功率的分配策略；data_s表示GSN s需要传输的数据量；表示GSN传输数据最大可容忍延时；/>表示GSN的最大发射功率；/>表示UAV-Relay的最大发射功率；约束C7指出每一个GSN只能选择一个UAV-Relay进行数据传输；约束C8表示GSN数据传输可容忍的最大传输时延限制；约束C9、C10分别规定了GSN发射功率和UAV-Relay发射功率的限制，既不能为负数，也不能超过最大限制；

步骤3-4：综合上述定义，系统总的优化目标定可以定义为

其中λ₁和λ₂为比例系数，用于将前后两项调整到相同的数量级，可以根据实际情况灵活调整；考虑到实际情况，GSN的发射功率比UAV-Relay的发射功率小得多，S2U链路的速率就比U2C链路的速率小得多，所以上述优化目标可以简化为

在评估系统性能时，将上式作为系统的总开销；

进一步的，所述步骤4包括如下具体步骤：

步骤4-1：对地面节点进行聚类，分为有计算任务的节点和感知节点，对于计算卸载模型，EVUs作为智能体进行训练；对于中继传输模型，在优化时只需优化GSN与UAV-Relay之间的通信，所以GSNs作为智能体进行训练；

步骤4-2：对于计算卸载模型，定义状态空间Z_t为与资源分配有关的信息，包括计算任务信息T_t ⁿ，与计算卸载有关的信道状态信息UAV-MEC的状态信息/>训练回合数e和ε-贪心算法中的随机探索变量ε，即

将EVU视为智能体，每次EVU基于当前状态选择信道和发射功率；

步骤4-3：对于中继传输模型，定义状态空间Z′由需要传输的数据信息T_t ^s，与中继传输有关的信道状态信息UAV-Relay的状态信息/>训练回合数e和ε-贪心算法中的随机探索变量ε，即

将GSN视为智能体，每次GSN基于当前状态选择信道和发射功率；

步骤4-4：对于计算卸载模型，定义智能体n的动作空间为卸载策略子信道/>和发射功率/>的选择，表示为

其中，指示智能体的计算位置，如果智能体选择在本地计算则/>不会进入训练阶段；如果EVU选择了UAV-MEC m进行计算卸载，就会从子信道集C_m中选择一个子信道；发射功率/>限制在4个级别，即[23，10，5，0]dBm；

步骤4-5：同理，可以定义中继传输模型中智能体s的动作空间

其中，指示GSN智能体选择的中继节点，/>表示GSN s选择UAV-Relay r作为中继节点；/>表示智能体选择的子信道，如果智能体选择UAV-Relay r作为中继节点，则从子信道集C_r中选择子信道；/>表示GSN s选择的发射功率，也被限制在[23，10，5，0]dBm 4个等级；

步骤4-6：则所有EVU智能体和GSN智能体联合动作空间A和A′可以分别表示为和/>

步骤4-7：对于计算卸载模型，定义每一个智能体在t时的单步奖励函数为

r_t＝C-C_off (32)

其中C是一个常数，用于调整r_t以便训练，C_off在(23)中已经定义；

步骤4-8：对于中继传输模型，定义每个智能体的单步奖励函数为

步骤4-9：为了获得长期的良好回报，在训练时不仅要考虑当前的奖励还需考虑未来的奖励，即需要找到一种最佳策略，以最大化累计折扣回报

其中，β_i∈[0，1]表示折扣因子，β_i→1表示更加注重未来的奖励，而β_i→0表示更加注重当前的奖励；

步骤4-10：在训练过程中，采用DDQN以缓解Q值过高估计的问题，首先找到预测网络中Q值最大化的动作，然后用它来获得目标网络中的目标Q值，该目标值可以表示为

其中θ_t和分别表示预测网络和目标网络的参数；Q(Z_t+1，A_t；θ_t)表示神经网络θ_t下对于状态Z_t+1采取动作A_t获得的价值函数；

进一步的，所述步骤5包括如下具体步骤：

步骤5-1：智能体n的训练数据会被存放在记忆回放池中，作为更新网络参数的样本用于后续训练，使用随机抽样的方法，在纯贪婪抽样和均匀随机抽样之间进行插值，定义每个样本i被抽取的概率为

其中，σ是一个指数，当σ＝0时对应于均匀抽样；b表示小批量；表示样本i的优先级，τ是一个较小的正数，防止样本的优先级一旦为0则不再被重新访问，δ_i表示样本i的时间差分误差(Temporal difference error，TD-error)，表示为

步骤5-2：在更新网络时，每个智能体都需要最小化损失函数实现梯度下降，考虑样本优先级时，损失函数定义为

其中，w_i表示抽样重要性(Importance-sampling，IS)权重，可以通过下式计算

其中，B表示经验回放池大小，μ为一个指数，当μ＝1时，w_i完全补偿非均匀概率P(i)；

进一步的，上述步骤6包括如下具体步骤：

步骤6-1：在每个聚合间隔，用户EVU或GSN将本地预测网络参数上传给对应的UAV中心服务器；

步骤6-2：UAV服务器执行聚合算法，获得全局网络参数，聚合算法将所有参与联邦学习的客户端模型按照贡献度进行加权平均以利用全局经验训练并最大化聚合效果，具体公式如下

其中，和/>分别表示t时刻全局网络和第n个本地预测网络的参数，D_n和D分别是第n个客户端和所有客户端的训练批量大小；

步骤6-3：UAV服务器将聚合后的网络参数θ^global下发给各个客户端；

进一步的，上述步骤7包括如下具体步骤：

步骤7-1：将地面节点进行聚类，分为有计算任务的节点EVUs和感知节点GSNs；对于有计算任务的节点，EVU作为智能体训练；对于感知节点，GSN作为智能体；对两类智能体分别进行如下的步骤；

步骤7-2：启动环境仿真器，初始化智能体的预测网络参数和目标网络参数/>初始化更新频率/>聚合间隔aggr等参数；初始化优先经验回放的相关参数，设置回放池大小B，指数σ，μ；

步骤7-3：初始化训练回合数e；

步骤7-4：初始化e回合中的时间步t；

步骤7-5：更新位置、路径损耗、大尺度衰落参数，设置UAV-MEC或UAV-Relay参数

步骤7-6：每个智能体n观测当前状态根据ε贪心策略选择动作/>并获得即时奖励/>同时转移到下一个状态/>将得到的训练数据/>存入记忆回放池；

步骤7-7：每个智能体从经验回放池按照式(36)所示的抽取概率抽取训练数据作为样本，根据式(39)计算IS权重并更新样本优先级；根据式(38)得到损失值，采用小批量梯度下降策略，通过神经网络的反向传播来更新智能体预测网络的参数

步骤7-8：训练次数达到目标网络更新间隔时，根据预测网络参数更新目标网络参数/>

步骤7-9：判断是否满足t＜T，T为e回合中的总时间步，若是，t＝t+1，进入步骤(7-5)，否则，进入步骤(7-10)；

步骤7-10：训练回合数e达到聚合间隔aggr时，所有智能体上传本地预测网络参数给中心服务器，UAV中心服务器进行聚合，并下发全局网络参数/>给各个智能体，各个智能体将网络参数更新为全局网络参数；

步骤7-11：判断是否满足e＜I，I为设置的总训练回合数，若是，e＝e+1，进入步骤(7-4)，否则，优化结束，得到训练好的网络模型；

进一步的，上述步骤8包括如下具体步骤：

步骤8-1：利用HFL-DDQN算法训练好的网络模型，输入智能体在某一时刻观测的状态信息或/>

步骤8-2：输出最优策略或/>得到EVU选择的计算卸载节点和GSN选择的中继节点，以及相应的信道和功率分配。

附图说明

图1为本发明实施例提供的HFL-DDQN算法框架图；

图2为本发明实施例提供的系统平均开销随计算任务量变化的仿真结果图；

图3为本发明实施例提供的系统平均开销随EVU数量变化的仿真结果图；

图4为本发明实施例提供的不同EVU数量和计算任务量条件下计算卸载平均时延的仿真结果图；

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

本发明的核心思想在于，针对灾害应急场景，构建无人机辅助的空地一体化网络架构，综合考虑计算任务卸载和现场感知信息传输两类任务，提出一种基于深度强化学习的资源分配方法以降低通信的时间和能量成本，并引入联邦学习和优先经验回放机制改善性能，基于横向联邦学习和深度双Q网络(Horizontal federated learning and DoubleDeep Q-Network，HFL-DDQN)的算法框架图如附图1所示，根据训练好的模型，可以得到最优的计算节点和中继节点的选择策略，以及相应的信道和功率分配策略。

下面对本发明做进一步详细描述。

步骤1：构建无人机辅助的空地一体化网络系统模型，按照任务不同将地面节点聚类，按照功能不同将无人机聚类，包括如下步骤：

步骤1-1：考虑一个灾害发生区域内有多个无人机的微型小区模型，其中有M个无人机配备有计算资源，可以在一定的空间范围内按照预定的轨迹移动，称为UAV-MEC，可用于完成计算卸载任务；其余R个无人机作为中继节点，均匀分布在区域上空，并且保持悬停状态，称为UAV-Relay，负责将传感器感知的数据快速传出，UAV-MEC和UAV-Relay的集合分别表示为M＝{1，2，...，m，...，M}和R＝{1，2，...，r，...，R}；

步骤1-2：在地面上，有N个应急车辆用户(Emergency vehicle users，EVUs)需要执行计算密集和延迟敏感的任务，每个EVU会发生移动，EVU的集合表示为N＝{1，2，...，n，...，N}；假设每一个EVU在每个时隙内只有一个计算任务，表示为其中，c_n表示完成计算任务所需的CPU转数；i_n表示输入的计算数据量；/>表示任务n最大可以容忍的时延；

步骤2：分别对计算卸载和感知信息传输两种模型进行建模，包括如下步骤：

步骤2-3：因为EVU和UAV之间的信道是自由空间的视线，所以信道系数与路径损耗的影响有关，可以表示为

步骤2-4：则EVU n与UAV-MEC m的V2U链路传输速率可以用下式计算

其中B₀表示V2U链路的带宽；

步骤2-5：则所有EVU执行任务时，总的传输时延可以表示为

其中，表示EVU n选择UAV-MEC m后的传输时延；

步骤2-6：所有EVU执行任务总的计算时延可以表示为

步骤2-7：则所有任务车计算卸载时总的时间成本可以表示为

步骤2-8：所有任务车中选择本地计算所产生的总能耗为

其中，ξ表示能量系数，与CPU的芯片结构有关；

步骤2-10：则计算卸载模型总的能量损耗可以表示为

步骤2-13：如前文所述，信道系数与路径损耗有关，即

/>

其中，B₁表示S2U链路的带宽；

步骤2-17：因此，UAV-Relay r与RCC之间的传输速率可以表示为

其中，B₂表示UAV-Relay r与RCC之间U2C链路的带宽；

步骤3：基于上述模型，综合考虑两类任务，以最小化系统的时间和能量成本为目标，构建多任务多目标优化问题，包括如下步骤：

C_off(w₁，w₂)＝w₁T_total+w₂E_total (23)

其中，K，C，P分别表示计算节点、信道和发射功率的分配策略，表示UAV-MEC m的最大的计算资源，/>表示每个EVU最大的发射功率；约束C1指出每一个EVU只能选择一个设备进行计算卸载；约束C2表示任务T_n的最大可容忍延迟时间限制；约束C3和C4是UAV-MEC服务器计算资源的约束条件；约束C5规定了每个EVU发射功率的范围；约束C6指出了权重系数的限制；

步骤3-4：综合上述定义，系统总的优化目标定可以定义为

其中λ₁和λ₂为比例系数，用于将前后两项调整到相同的数量级，可以根据实际情况灵活调整；由于GSN的发射功率比UAV-Relay的发射功率小得多，S2U链路的速率就比U2C链路的速率小得多，所以上述优化目标可以简化为

在评估系统性能时，将上式作为系统的总开销；

深度Q网络的深度强化学习模型包括预测网络和目标网络两个网络，预测网络用于预测当前状态当前动作的Q值，目标网络用于评估下一时刻状态所有动作的Q值，预测网络参数不断更新，目标网络参数每隔一段时间更新一次；为了解决Q值过高估计的问题，采用DDQN算法，利用预测网络选择使Q值最大的动作，再用目标网络计算该动作带来的Q值，这样即使目标网络高估了某一个动作的Q值，只要预测网络不选择这个动作，这个高估值就不会被选中，从而有效解决了迭代过程中Q值被过高估计的问题；

进一步的，所述步骤4包括如下具体步骤：

步骤4-1：对地面节点进行聚类，分为有计算任务的节点和感知节点，对于计算卸载模型，EVUs作为智能体进行训练；对于中继传输模型，考虑到实际情况，由于GSN的发射功率比UAV-Relay的发射功率小得多，S2U链路的速率就比U2C链路的速率小得多，所以在优化时只需优化GSN与UAV-Relay之间的通信，所以GSNs作为智能体进行训练；

步骤4-3：对于中继传输模型，定义状态空间Z′由需要传输的数据信息T_t ^s，中继传输有关的信道状态信息UAV-Relay的状态信息/>训练回合数e和ε-贪心算法中的随机探索变量ε，即

其中，指示智能体的计算位置，如果智能体选择在本地计算则/>则不会进入训练阶段；如果EVU选择了UAV-MEC m进行计算卸载，就会从子信道集C_m中选择一个子信道；发射功率/>限制在4个级别，即[23，10，5，0]dBm；/>

步骤4-5：同理，可以定义中继传输模型中智能体s的动作空间

r_t＝C-C_off (32)

步骤4-8：对于中继传输模型，考虑到实际情况，相比于无人机的发射功率，传感器的发射功率很低，所以U2C链路的速率比S2U链路的速率大得多，因此只需要优化GSN和UAV-Relay之间的传输速率，定义每个智能体的单步奖励函数为

其中，β_i∈[0，1]表示折扣因子，β_i→1表示对未来的奖励给予重视，而β_i→0表示更加注重当前的奖励；

经验回放机制通常随机均匀地进行抽样，事实上有一些样本可以加速网络的收敛，即样本的价值是不同的，如果提前为每个样本设置优先级，并根据其优先级进行样本选择，可以使训练更加高效；

进一步的，所述步骤5包括如下具体步骤：

步骤5-1：智能体n的训练数据会被存放在记忆回放池中，作为更新网络参数的样本用于后续训练，使用随机抽样的方法，在纯贪婪抽样和均匀随机抽样之间进行插值，定义每个样本i被抽取的概率为/>

联邦学习采用客户端-服务器架构，在中心服务器的调度下，允许多个智能体联合训练模型，而无需共享其私有数据；由于联邦学习上传的是本地训练模型的参数，而不是原始的本地信息，因此在通信过程中不会泄露用户的数据；此外，联邦学习聚合了全局的模型，而不再局限于本地观察，从而可以提高分布式系统的性能；

进一步的，所述步骤6包括如下具体步骤：

步骤7：设计HFL-DDQN训练算法，并进行资源分配DRL模型的训练，包括如下步骤：

步骤7-1：将地面节点进行聚类，分为有计算任务的节点EVUs和感知节点GSNs；对于有计算任务的节点，EVU作为智能体训练；对于感知节点，GSN作为智能体；对两类智能体分别进行如下的步骤：

步骤7-3：初始化训练回合数e；

步骤7-4：初始化e回合中的时间步t；

步骤8：在执行阶段，利用训练好的HFL-DDQN模型，得到最优的用户发射功率和信道分配的策略，包括如下具体步骤：

为了验证HFL-DDQN方法的有效性，本文利用Pycharm进行仿真，仿真环境设置在一个长2000m，宽500m的空间，应急救援车辆行驶在长2000m，路宽14m的双向四车道上，地面传感器节点随机均匀分布在地面上；UAV-MEC和UAV-Relay的仿真参数如表1所示：

表1 UAV-MEC和UAV-Relay主要仿真参数

参数	UAV-MEC	UAV-Relay
			节点数量	2	2
子信道数量	4	4
			带宽	4MHz	4MHz
覆盖范围直径	500m	500m
			天线高度	50m～120m	100m
移动速度	10m/s	0
			计算资源	2GHz	0

仿真时，V2U和S2U链路只考虑LOS信道，路径损耗设置为32.4+22log₁₀(d)+20log₁₀(f_c)，其中，f_c表示载波频率，单位为GHz，d表示三维空间内EVU和UAV-MEC(或GSN和UAV-Relay)之间的欧氏距离；阴影衰落分布设置为对数正态分布，阴影衰落标准差为4dB；大尺度衰落每个训练回合更新一次；小尺度衰落每个训练步骤更新一次；仿真中的DDQN由1个输入层、3个隐藏层和1个输出层组成，输入层的大小与状态空间维度D_s相同，输出层的大小与动作空间维度D_a相同；3个隐藏层为全连接层，分别包含128，64和64个神经元，训练时，ReLU作为激活函数，使用RMSProp优化器更新参数，具体的训练参数如表2所示：

表2训练参数

将HFL-DDQN算法与几种基准算法进行对比：1.不引入联邦学习和优先经验回放的DDQN算法，简称为“DDQN”；2.引入优先经验回放的DDQN算法，简称为“DDQN+PER”；3.引入联邦学习的DDQN算法，简称为“MAFRL”；

图2和图3分别描述了不同计算任务量和不同EVU用户数量条件下，几种算法的性能对比，可以看出，HFL-DDQN算法的系统平均开销始终最低，具有明显的性能优势；图4描述了不同EVU数量和计算任务大小下HFL-DDQN算法计算卸载的平均时延，可以看出，当EVU的数量固定时，时延几乎随着计算任务量的增加而线性变化，当计算任务大小固定时，时延也随着EVU数量的增加而近似线性增加，说明HFL-DDQN算法可以有效地帮助每个EVU选择合适的UAV-MEC用于计算卸载。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种针对应急场景的，基于横向联邦学习和深度双Q网络的空地一体化物联网资源分配方法，其特征在于，包括步骤如下：

步骤2：分别对计算卸载和感知信息传输两种模型进行建模；

步骤7：设计HFL-DDQN训练算法，并进行资源分配深度强化学习模型的训练；

进一步的，所述步骤1包括如下具体步骤：

步骤1-2：在地面上，有N个应急车辆用户(Emergency vehicle users，EVUs)需要执行计算密集和延迟敏感的任务，每个EVU会发生移动，其集合表示为N＝{1，2，...，n，...，N|；假设每一个EVU在每个时隙内只有一个计算任务，表示为其中，c_n表示完成计算任务所需的CPU转数；i_n表示输入的计算数据量；/>表示任务n最大可以容忍的时延；

进一步的，所述步骤3包括如下具体步骤：

C_off(w₁，w₂)＝w₁T_total+w₂E_total (1)

其中，T_total和E_total分别表示计算卸载模型的总时延和总能量消耗，w₁和w₂分别表示两者的权重，w₁和w₂需要满足w₁+w₂＝1，0≤w₁≤1，0≤w₂≤1，此外，为了满足不同场景和服务要求，w₁和w₂可以根据需要灵活调整；

步骤3-2：将计算卸载问题表述为在若干系统约束条件下的成本函数最小化问题

其中，K，C，P分别表示计算节点、信道和用户发射功率的分配策略，指示计算任务执行的位置，/>表示EVU n与UAV-MEC m之间V2U链路的传输速率，/>表示分配给计算任务T_n的计算资源，P_EVU[n]表示EVUn的发射功率，/>表示UAV-MEC m的最大的计算资源，/>表示每个EVU最大的发射功率；约束C1指出每一个EVU只能选择一个设备进行计算卸载；约束C2表示任务T_n的最大可容忍延迟时间限制；约束C3和C4是UAV-MEC服务器计算资源的约束条件；约束C5规定了每个EVU发射功率的范围；约束C6指出了权重系数的限制；

其中，G，C，P分别表示中继节点、信道和发射功率的分配策略，指示GSN s选择的中继节点，/>和/>分别表示GSN s与UAV-Relay r之间S2U链路的传输速率和UAV-Relay r与RCC之间U2C链路的传输速率，data_s表示GSNs需要传输的数据量，P_S[s]和P_R[r]分别表示GSNs和UAV-Relay r的发射功率，/>表示GSN传输数据最大可容忍延时，/>表示GSN的最大发射功率，/>表示UAV-Relay的最大发射功率；约束C7指出每一个GSN只能选择一个UAV-Relay进行数据传输；约束C8表示GSN数据传输可容忍的最大传输时延限制；约束C9、C10分别规定了GSN发射功率和UAV-Relay发射功率的限制，既不能为负数，也不能超过最大限制；

步骤3-4：综合上述定义，系统总的优化目标定可以定义为

进一步的，所述步骤7包括如下具体步骤：

步骤7-3：初始化训练回合数e；

步骤7-4：初始化e回合中的时间步t；

步骤7-5：更新位置、路径损耗、大尺度衰落参数，设置UAV-MEC或UAV-Relay参数；

步骤7-6：每个智能体n观测当前状态根据ε贪心策略选择动作/>并获得即时奖励同时转移到下一个状态/>将得到的训练数据/>存入记忆回放池；

步骤7-7：每个智能体从经验回放池按照如下的抽取概率抽取训练数据作为样本

其中，σ是一个指数，当σ＝0时对应于均匀抽样，b表示小批量，表示样本i的优先级，τ是一个较小的正数，防止样本的优先级一旦为0则不再被重新访问，δ_i表示样本i的时间差分误差(Temporal difference error，TD-error)，表示为

之后更新样本优先级并按照下式计算抽样重要性(Importance-sampling，IS)权重w_i

其中，B表示经验回放池大小，μ为一个指数，当μ＝1时，w_i完全补偿非均匀概率P(i)；进而得到损失函数

采用小批量梯度下降策略，通过神经网络的反向传播来更新智能体预测网络的参数

步骤7-8：训练次数达到目标网络更新间隔时，根据预测网络参数更新目标网络参数

步骤7-10：训练回合数e达到聚合间隔aggr时，所有智能体上传本地预测网络参数给中心服务器，UAV中心服务器按照下式进行聚合，

其中，和/>分别表示t时刻全局网络和第n个本地预测网络的参数，D_n和D分别是第n个客户端和所有客户端的训练批量大小，聚合后下发全局网络参数/>给各个智能体，各个智能体将网络参数更新为全局网络参数；

步骤7-11：判断是否满足e＜I，I为设置的总训练回合数，若是，e＝e+1，进入步骤(7-4)，否则，优化结束，得到训练好的网络模型。