CN116546462A

CN116546462A - 一种基于联邦学习的多智能体空地网络资源分配方法

Info

Publication number: CN116546462A
Application number: CN202310463309.3A
Authority: CN
Inventors: 李楠; 宋晓勤; 江榕天; 李佳俊; 朱敏; 张予聪
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-08-04

Abstract

本发明公开了一种基于联邦学习的多智能体空地网络资源分配方法包括在空地网络中，地面网络构成高数据速率服务的V2I链路；空中网络构成与地面车辆直接通信的V2U链路；V2U链路共享V2I链路频谱资源，采用混合频谱接入技术进行传输；构建由M对V2I链路和K对V2U链路组成的网络资源分配系统模型；采用多智能体的资源分配方法，以V2I链路信道传输总时延最小化为目标构建深度强化学习模型；利用联邦学习优化深度强化学习模型；在执行阶段，V2U链路根据观察获得当前状态，利用训练好的模型得到最优资源分配策略。本发明能够在高度动态的空地网络中具有很好的稳定性。

Description

一种基于联邦学习的多智能体空地网络资源分配方法

技术领域

本发明属于车联网技术领域，尤其涉及一种车联网的资源分配方法，尤其涉及一种基于联邦学习的多智能体空地网络资源分配方法。

背景技术

在智能交通系统中，由于单纯依赖地面基础设施的车联网络覆盖范围有限、传播环境复杂，难以满足车载网络在自动驾驶、动态智能交通管理以及应急、野外等恶劣环境中的应用要求。而若采用高中轨卫星构建的天基平台，往往会引入较大的延时，无法满足车联网中大多数时延敏感型业务的需求。因此，空地网络更适用于车联网的要求。低空作业的无人机因具有高响应速度、高带宽、高可靠视距传输以及灵活机动等特点，可构成车联网的空中平台，作为地面车联网的重要补充。通过车对无人机(vehicle-to-UAV,V2U)链路进行有效协作，在地空子网之间传输传感数据和控制信息，进一步增强地面车联网的计算能力，并为车辆提供计算资源辅助车联网实现低时延、高可靠通信。

然而，由于车辆和无人机均处于运动状态，空地网络拓扑高速动态变化，车辆和无人机的状态与动作空间维度不断递增，很难获得全局环境的准确信息。难以对网络进行精确的描述和建模的同时，终端设备的增加、海量数据的增长和服务质量(qualityofservice,QoS)的需求使得紧缺的网络资源分配极为困难。另外，终端实体面临比地面普通终端实体更严重的安全风险，由于不可信的网络环境、不可靠的不当行为追踪和低质量的共享数据，车辆和无人机之间的数据共享存在潜在的安全威胁。

机器学习(Machine learning,ML)，特别是深度强化学习(DeepReinforcementLearning,DRL)，一种新兴的处理大数据和数据分析的算法，利用深度学习提供的学习和预测能力可以有效地支持车辆网络的资源管理。大多数方法提出的DRL模型都是基于集中式的，没有考虑到高度动态空地网络中不可靠的通信连接环境。然而，如果为保护用户的数据隐私，数据则以孤岛形式存在，基于数据集中式的机器学习将无法实施，难以满足网络智能化对数据标签和特征维度的要求。而且，严格的时延要求和有限的本地训练数据也给DRL模型的训练带来了巨大的挑战。

因此，亟待解决上述问题。

发明内容

发明目的：本发明的目的是提供一种基于联邦学习的多智能体空地网络资源分配方法，该方法针对空地网络中不同链路的QoS需求，优化目标为最小化车对基础设施(Vehicle-to-Infrastructure，V2I)链路信道传输总时延，通过约束功率时延保证V2U链路可靠性，在高度动态的空地网络中具有很好的稳定性。

技术方案：为实现以上目的，本发明公开了一种基于联邦学习的多智能体空地网络资源分配方法，包括以下步骤：

(1)在空地网络中，地面网络由基础设施和车辆用户设备组成，构成高数据速率服务的V2I链路；空中网络由无人机组成，构成与地面车辆直接通信的V2U链路；V2U链路用于收集与驾驶安全相关的重要信息；

(2)V2U链路共享V2I链路频谱资源，采用混合频谱接入技术进行传输；

(3)构建由M对V2I链路和K对V2U链路组成的网络资源分配系统模型；

(4)采用多智能体的资源分配方法，在考虑V2U链路可靠性和时延的情况下，以V2I链路信道传输总时延最小化为目标构建深度强化学习模型；

(5)为提高多智能体深度强化学习模型性能的同时保护用户隐私和数据安全，利用联邦学习优化深度强化学习模型；

(6)在执行阶段，V2U链路根据观察获得当前状态，利用训练好的模型得到最优资源分配策略。

其中步骤(3)包括如下具体步骤：

(3.1)网络资源分配系统模型包括M对V2I链路和K对V2U链路，分别由集合M＝{1，2，…，M}和K＝{1，2…，K}表示；V2I和V2U通信采用了正交频分复用技术，将信道等分成M个带宽为W的平坦性衰落正交子信道，第m个VUE用户提前占用第m个子信道进行通信；

(3.2)第m个V2I链路子波段的第k个V2U链路的信道功率增益，定义为：

g_k[m]＝η_kh_k[m]

其中，η_k为大尺度衰落，包括路径损耗和阴影衰落，假设与频率无关；h_k[m]为小尺度衰落，在子带内和非相关时间上是按照瑞利衰落变化的；

第m条V2I链路的SINR可以表示为：

由香农公式计算，第m条V2I链路的信道容量可以表示为：

其中，和/>分别表示第m个VEU和第k个UAV的发射功率，σ²表示噪声功率，g_m[m]表示第m条V2I的信道的功率增益，/>表示第k条V2U链路到第m条V2I链路的干扰功率增益；ρ_k[m]表示频谱复用标志的二进制子带分配指示符，ρ_k[m]＝1表示第k个UAV复用第m个VEU的频谱，否则ρ_k[m]＝0；

(3.3)对于第k条V2U链路，其子带选择信息为：

ρ_k＝{ρ_k[1]，ρ_k[2]，…，ρ_k[m]，…，ρ_k[M]}

规定每个链路在同一时刻仅能选择一个资源块进行传输，即

(3.4)第k条V2U链路在第m个子带上的SINR可以表示为：

第k条V2U链路在第m个子带上的信道容量可以表示为：

其中，

分别表示使用相同频谱的V2I链路的干扰和其余V2U对的干扰，是第k′条V2U链路对第k条V2U链路的干扰增益；

(3.5)V2U链路主要负责可靠地传播安全关键信息，安全关键信息根据车辆的移动性定期生成；考虑UAV端去中心化的资源分配，仅考虑传输时延作为V2U链路的时延，确定V2U链路对时延的约束；

(3.6)V2U通信的可靠性约束可以通过控制中断事件的概率实现，将中断事件描述为接收到的低于预定阈值/>确定可靠性要求；

(3.7)在空地通信网络中，设计目标是最大限度地降低V2I链路传输的总时延，定义为

(3.8)综合考虑不同链路的服务质量要求，建立目标函数和优化条件。

进一步，步骤(3.5)中V2U链路对时延的约束可以写为

其中，B_k为UAV需要传输的剩余负载，T_k≤T_max为从最大可容忍时延T_max开始计算的剩余时延。

优选的，步骤(3.6)中可靠性要求表示为：

其中，Pr{·}为输入的概率，为UAV建立可靠链路所需的最小SINR，p₀为V2U链路的最小可中断概率；瑞利衰落条件下，把可靠性约束进一步转化为：

其中，γ^th是第k条V2U链路上的UAV接收机的SINR门限。

再者，步骤(3.8)中建立目标函数和优化条件为：

其中，目标函数是最小化V2I链路的总时延，约束条件C1和C2是对V2U链路的可靠性和时延约束，约束条件C3说明UAV在所有子带上发射的总功率不能超过最大额定发射功率，约束条件C4和C5意味着每条V2U链路只能分配到一个子带，但是同一个子带可以有多条V2U链路的接入。

进一步，步骤(4)包括如下具体步骤：

(4.1)定义状态空间包括与资源分配有关的所有的本地观察信息，

(4.2)定义每个智能体动作空间为V2U链路的频谱子频带的选择和传输功率的控制，表述为，

其中，为第k个V2U链路用户的发射功率，C_k∈{1，2，…，M}表示第k个V2U链路用户接入了第m个子信道；

(4.3)定义奖励函数用于体现约束问题的优化目标，所有V2I链路的瞬时总时延最小化的优化目标和V2U链路服务质量的约束体现在每个时间t的奖励中，表述为，

其中，

其中，D_m[m，t]为每个V2I链路的延迟，当总延迟越小时，奖励就越大；L_k(t)为有效的V2U链路的传输速率，它反映了V2U链路的传输成功率；λ_v和λ_u是用于平衡V2I和V2U目标对奖励功能的贡献的正权重，需要通过依赖经验进行调整；

(4.4)引入深度学习，采用深度神经网络替代Q表拟合状态-动作价值Q，得到DQN；

(4.5)引入双深度Q网络方法算法，构建两个结构相同参数不同的神经网络分别作为训练网络Q_E(s，a；θ)与目标网络Q_T(s，a；θ)，将动作选择与Q值估计解耦，表示为：

训练网络通过不断更新参数θ选择动作，目标网络Q_T用于估计Q值，参数θ^-固定不动，每隔一段时间替换为最新的估值网络参数θ；

(4.6)引入竞争网络，其中神经网络由指状态价值网络V(s；θ^V)和动作优势函数网络A(s，a；θ^A)共同组成，以平衡训练网络和目标网络中动作对Q值的影响，去除奖励偏差，最后输出的Q值是由状态的价值函数V(s)与每个动作的优势函数A(s，a)相加得到，减去某状态下所有动作优势函数的平均值，以确保给定一个Q值，缩小Q值的范围，有唯一确定的V(s)和A(s,a)，去除多余的自由度，提高算法稳定性，表示为：

(4.7)动作优势函数表示该状态下某个动作相对其他动作的好坏程度，是对当前状态下不同行为相对好坏的衡量，不同于DQN直接学出所有的Q值，D3QN能够区分目前奖励是由状态本身引起还是由选择的动作引起的，结合DDQN估计方法，D3QN的估计表示为：

(4.8)每个智能体估计Q值后利用梯度下降法最小化损失函数对神经网络参数进行更新，目标网络参数隔固定步数复制训练网络参数完成对目标网络的更新，表示为

再者，步骤(4.1)中定义状态空间表述为：

s_t(k)＝{{G_k[m]}_m∈M,{I_k[m]}_m∈M,B_k,T_k,e,ε}

其中，

G_k[m]＝{g_m[m],g_m,k[m],g_k[m],{g_k',k[m]}_k'≠k}

是子信道m上链路的本地瞬时信道信息集合，g_m[m]表示第m条V2I链路的信道功率增益，表示第k条V2U链路到第m条V2I链路的干扰功率增益，g_k[m]是第k条V2U链路的信道功率增益，/>是第k'条V2U链路对第k条V2U链路的干扰功率增益；

其中，

是相同频谱的V2I链路的和其余V2U对的干扰/>的总和；

其中，B_k和T_k分别为V2U用户需要传输的剩余负载和剩余时延。

优选的，步骤(4.4)中DQN具体表示为：

其中，θ是神经网络参数，γ是折扣因子。

再者，步骤(5)包括如下具体步骤：

(5.1)V2U链路客户端将本地模型上传给服务器执行聚合算法，获得全局网络参数；聚合算法将所有参与联邦学习的客户端模型按照贡献度进行加权平均以利用全局经验训练并最大化聚合效果，具体公式如下：

其中，θ_t是t时刻服务器神经网络的参数，为第k个客户端在t时刻的神经网络参数；N_k和N分别是第k个客户端和所有客户端的训练批量大小，以它们的比值来衡量第k个客户端的贡献度，作为聚合的权重值；

(5.2)中央服务器聚合平均后，所得的全局网络反馈下载给对应的V2U链路客户端，客户端的训练网络和目标网络更新为收到的全局模型，利用本地经验各自进行一定回合的训练，如果训练回合数小于预设值，则进入步骤(5.1)，待达到聚合间隔后训练结束。

进一步，步骤(6)，包括如下步骤：

(6.1)利用Fed-D3QN算法训练好的深度强化学习模型，输入某时刻的状态信息s_t(k)；

(6.2)输出最优动作策略得到最优的V2I用户发射功率/>和分配信道C_k。

有益效果：与现有技术相比，本发明具有以下显著优点：本发明采用深度强化学习算法联合优化信道选择和功率控制，引入联邦学习保证用户隐私和数据安全，能够满足不同链路服务质量的需求，降低V2I链路信道传输的总延迟，同时提高V2U链路的有效载荷传输速率。本发明使用Fed-D3QN算法可以合理高效地利用有限的频谱资源实现资源共享，在高度动态的空地网络中具有很好的稳定性；在保证资源分配合理，满足V2I和V2U链路服务质量要求的情况下，本发明提出的一种基于联邦深度强化学习的多智能体空地网络资源分配方法对于高动态环境下的资源分配问题具有可行性和优越性。

附图说明

图1为本发明中多智能体空地网络资源分配方法的示意图；

图2为本发明中平均积累回报与迭代次数的仿真结果图；

图3为本发明中V2I链路的总延迟与负载关系的仿真结果图；

图4为本发明中V2U链路的传输成功率与负载关系的仿真结果图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明的核心思想在于：根据链路需求提出有约束条件的优化问题，并定义了强化学习的状态空间、动作空间和奖励函数，用D3QN训练神经网络参数，引入联邦学习将用户本地强化学习后上传至基站聚合平均训练。根据Fed-D3QN模型，得到空地网络中V2I和V2U链路的最佳资源分配策略。

如图1所示，本发明一种基于联邦学习的多智能体空地网络资源分配方法一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于，包括以下步骤：

(1)在空地网络中，地面网络由基础设施和车辆用户设备组成，构成高数据速率服务的V2I链路；空中网络由无人机组成，构成与地面车辆直接通信的V2U链路；V2U链路的通信覆盖范围广泛，用于收集与驾驶安全相关的重要信息；

(3)构建由M对V2I链路和K对V2U链路组成的网络资源分配系统模型；具体包括如下步骤：

(3.1)网络资源分配系统模型包括M对V2I链路和K对V2U链路，分别由集合M＝{1,2，...，M}和K＝{1,2...，K}表示；V2I和V2U通信采用了正交频分复用技术，将信道等分成M个带宽为W的平坦性衰落正交子信道，为了简化分析，第m个VUE用户提前占用第m个子信道进行通信；

g_k[m]＝η_kh_k[m]

第m条V2I链路的SINR可以表示为：

由香农公式计算，第m条V2I链路的信道容量可以表示为：

(3.3)对于第k条V2U链路，其子带选择信息为：

ρ_k＝{ρ_k[1],ρ_k[2],…,ρ_k[m],…,ρ_k[M]}

规定每个链路在同一时刻仅能选择一个资源块进行传输，即

(3.4)第k条V2U链路在第m个子带上的SINR可以表示为：

第k条V2U链路在第m个子带上的信道容量可以表示为：

其中，

(3.5)V2U链路主要负责可靠地传播安全关键信息，这些信息根据车辆的移动性定期生成，对通信的高可靠和低延迟有很高的要求；考虑UAV端去中心化的资源分配，仅考虑传输时延作为V2U链路的时延；V2U链路对时延的约束可以写为

其中，B_k为UAV需要传输的剩余负载，T_k≤T_max为从最大可容忍时延T_max开始计算的剩余时延；

(3.6)V2U通信的可靠性约束可以通过控制中断事件的概率实现，将中断事件描述为接收到的低于预定阈值/>可靠性要求表示为：

其中，γ^th是第k条V2U链路上的UAV接收机的SINR门限；

(3.8)综合考虑不同链路的服务质量要求，建立目标函数和优化条件为：

其中，目标函数是最小化V2I链路的总时延，约束条件C1和C2是对V2U链路的可靠性和时延约束，约束条件C3说明UAV在所有子带上发射的总功率不能超过最大额定发射功率，约束条件C4和C5意味着每条V2U链路只能分配到一个子带，但是同一个子带可以有多条V2U链路的接入；

进一步，所述步骤(4)包括如下具体步骤：

(4.1)定义状态空间包括与资源分配有关的所有的本地观察信息，表述为：

s_t(k)＝{{G_k[m]}_m∈M,{I_k[m]}_m∈M,B_k,T_k,e,ε}

其中，

G_k[m]＝{g_m[m],g_m,k[m],g_k[m],{g_k',k[m]}_k'≠k}

其中，

是相同频谱的V2I链路的和其余V2U对的干扰/>的总和；

其中，B_k和T_k分别为V2U用户需要传输的剩余负载和剩余时延；

其中，为第k个V2U链路用户的发射功率，C_k∈{1,2,...,M}表示第k个V2U链路用户接入了第m个子信道；

其中，

其中，D_m[m,t]为每个V2I链路的延迟，当总延迟越小时，奖励就越大；L_k(t)为有效的V2U链路的传输速率，它反映了V2U链路的传输成功率；λ_v和λ_u是用于平衡V2I和V2U目标对奖励功能的贡献的正权重，需要通过依赖经验进行调整；

(4.4)引入深度学习，采用深度神经网络替代Q表拟合状态-动作价值Q，DQN具体表示为：

其中，θ是神经网络参数，γ是折扣因子；

(4.5)引入双深度Q网络方法算法，构建两个结构相同参数不同的神经网络分别作为训练网络Q_E(s,a；θ)与目标网络Q_T(s,a；θ)，将动作选择与Q值估计解耦，表示为：

(4.6)引入竞争网络，其中神经网络由指状态价值网络V(s；θ^V)和动作优势函数网络A(s,a；θ^A)共同组成，以平衡训练网络和目标网络中动作对Q值的影响，去除奖励偏差，最后输出的Q值是由状态的价值函数V(s)与每个动作的优势函数A(s,a)相加得到，减去某状态下所有动作优势函数的平均值，以确保给定一个Q值，缩小Q值的范围，有唯一确定的V(s)和A(s,a)，去除多余的自由度，提高算法稳定性，表示为：

(5)为提高多智能体深度强化学习模型性能的同时保护用户隐私和数据安全，利用联邦学习优化深度强化学习模型，包括如下步骤：

(5.2)中央服务器聚合平均后，所得的全局网络反馈下载给对应的V2U链路客户端，客户端的训练网络和目标网络更新为收到的全局模型，利用本地经验各自进行一定回合的训练，如果训练回合数小于预设值，则进入步骤(5.1)，待达到聚合间隔后训练结束；

(6)在执行阶段，V2U链路根据观察获得当前状态s_t(k)，利用训练好的模型得到最优资源分配策略，包括如下步骤：

如图1所示，描述了基于Fed-D3QN的多智能体空地网络资源分配方法的结构，利用深度强化学习方法寻求最优解，生成具有优先经验和状态的训练数据，引入联邦学习增强用户隐私保护和数据安全。

如图2所示，描述了Fed-D3QN算法下平均积累回报与迭代次数的仿真结果，可以看出随着迭代次数的增多，平均积累回报增大，最后趋于稳定，有效收敛。

如图3所示，描述了Fed-D3QN算法下V2I链路的总延迟与负载关系的仿真结果，在不同V2U链路负载情况下，Fed-D3QN算法下V2I链路的总时延相比D3QN算法能够降低6％左右，相比随机算法能够降低12％。

如图4所示，描述了Fed-D3QN算法下V2U链路的传输成功率与负载关系的仿真结果，在不同V2U链路负载情况下，Fed-D3QN算法下V2U链路的传输成功率比D3QN算和随机算法高，性能更优更稳定。

根据对本发明的说明，本领域的技术人员应该不难看出，本发明可以提高网络性能并且能保证用户隐私。

Claims

1.一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于：所述步骤(3)包括如下具体步骤：

(3.1)网络资源分配系统模型包括M对V2I链路和K对V2U链路，分别由集合M＝{1,2，...，M}和K＝{1,2...，K}表示；V2I和V2U通信采用了正交频分复用技术，将信道等分成M个带宽为W的平坦性衰落正交子信道，第m个VUE用户提前占用第m个子信道进行通信；

g_k[m]＝η_kh_k[m]

第m条V2I链路的SINR可以表示为：

由香农公式计算，第m条V2I链路的信道容量可以表示为：

(3.3)对于第k条V2U链路，其子带选择信息为：

ρ_k＝{ρ_k[1],ρ_k[2],…,ρ_k[m],…,ρ_k[M]}

规定每个链路在同一时刻仅能选择一个资源块进行传输，即

(3.4)第k条V2U链路在第m个子带上的SINR可以表示为：

第k条V2U链路在第m个子带上的信道容量可以表示为：

其中，

3.根据权利要求2所述的一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于：所述步骤(3.5)中V2U链路对时延的约束可以写为

4.根据权利要求3所述的一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于：所述步骤(3.6)中可靠性要求表示为：

其中，γ^th是第k条V2U链路上的UAV接收机的SINR门限。

5.根据权利要求4所述的一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于：所述步骤(3.8)中建立目标函数和优化条件为：

6.根据权利要求5所述的一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于：所述步骤(4)包括如下具体步骤：

其中，

7.根据权利要求6所述的一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于：所述步骤(4.1)中定义状态空间表述为：

s_t(k)＝{{G_k[m]}_m∈M,{I_k[m]}_m∈M,B_k,T_k,e,ε}

其中，

G_k[m]＝{g_m[m],g_m,k[m],g_k[m],{g_k',k[m]}_k'≠k}

其中，

是相同频谱的V2I链路的和其余V2U对的干扰/>的总和；

8.根据权利要求7所述的一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于：所述步骤(4.4)中DQN具体表示为：

其中，θ是神经网络参数，γ是折扣因子。

9.根据权利要求8所述的一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于：所述步骤(5)包括如下具体步骤：

10.根据权利要求9所述的一种基于联邦学习的多智能体空地网络资源分配方法，其特征在于：所述步骤(6)，包括如下步骤：