CN117320083B

CN117320083B - 一种基于规模无关强化学习的多无人机通信资源分配方法

Info

Publication number: CN117320083B
Application number: CN202311623576.9A
Authority: CN
Inventors: 刘春辉; 黄丽珍
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-01-26
Anticipated expiration: 2043-11-30
Also published as: CN117320083A

Abstract

本发明公开了一种基于规模无关强化学习的多无人机通信资源分配方法，属于无人机通信技术领域，包括以下步骤：步骤一、建立任务需求模型和通信要素模型；步骤二、求出无人机节点接收端的信干噪比模型；步骤三、建立求解通信资源分配问题的强化学习基础模型；步骤四、建立规模无关的状态特征表示方法；步骤五、建立规模无关的可变节点通信资源分配方法；步骤六、对规模无关的可变节点通信资源分配方法进行验证。本发明提供了一种基于规模无关强化学习的多无人机通信资源分配方法，针对无人集群节点变化场景，考虑在不改变现有强化学习求解框架的前提下，构建节点规模无关的Agent状态观测模型，增强模型适配性。

Description

一种基于规模无关强化学习的多无人机通信资源分配方法

技术领域

本发明属于无人机通信技术领域，尤其是涉及一种基于规模无关强化学习的多无人机通信资源分配方法。

背景技术

随着无人机（Unmanned Aerial Vehicle，UAV）成本的不断降低和机载设备的小型化，其应用领域逐渐由国防领域扩展到许多民用新兴领域，例如气候监测、交通控制、紧急搜救、物流运输等。尤其在区域物流运输领域，相较于传统的地面配送，利用无人机配送可大幅度提高配送效率，特别是在偏远山地、农村等地区，无人机可以有效弥补地面交通的不足，因此利用无人机进行末段配送也成为各大物流企业探索最多的应用场景。

随着多无人机系统节点数目的增多，有限的频谱、功率等通信资源变得异常紧张，多无人机通信网络成为系统走向实用的瓶颈。通信资源分配技术可以在不升级网络硬件的前提下，通过对有限的无线通信资源（信道、功率等）进行实时配置，能够大幅改善网络能量效率，降低系统能耗，实现干扰管理，是最直接提高多无人机通信网络能效的手段。由于无人机平台具有快速移动的特点，通信网络需要在节点拓扑的动态变化中实时保证较高的系统服务质量（QoS, quality of service），才能让多无人机系统安全完成任务。同时，任务多样性和环境复杂性使得仅依靠事先规划的通信资源分配方案不可行，需要集群系统具备自学习能力，即在任务中学会与环境交互。在诸多现代学习类方法中，强化学习方法（Reinforcement learning, RL）能够通过智能体（Agent）与环境的交互学习，使得智能体自主决策实现任务目标，这为解决动态任务场景通信网络资源分配问题提供了新的解决思路。

强化学习模型需要智能体在每个时间步上首先感知环境的状态信息，然后采取相应的动作完成试错交互学习，从而使环境转变为新的状态。然而，在无人机系统完成配送任务时，由于任务目标的变化、节点的故障或损毁等因素，无人机节点常需要临时加入或退出整个系统，这使得Agent的观测空间不能提供固定维度的状态信息，这导致需要固定维度输入的Q学习算法或神经网络求解模型都不再适用。因此，针对无人集群节点变化场景，考虑在不改变现有强化学习求解框架的前提下，构建节点规模无关的Agent状态观测模型，是增强模型适配性的有效解决途径。

发明内容

本发明的目的是提供一种基于规模无关强化学习的多无人机通信资源分配方法，解决现有技术存在的节点规模变化导致状态空间维度变化而不能适用于固定维度神经网络的问题。

为实现上述目的，本发明提供一种基于规模无关强化学习的多无人机通信资源分配方法，包括以下步骤：

步骤一、建立任务需求模型和通信要素模型；

步骤二、求出无人机节点接收端的信干噪比模型；

步骤三、建立求解通信资源分配问题的强化学习基础模型；

步骤四、建立规模无关的状态特征表示方法；

步骤五、建立规模无关的可变节点通信资源分配方法；

步骤六、对规模无关的可变节点通信资源分配方法进行验证。

优选的，所述任务需求模型包括任务场景模型和无人机规划路径模型；所述任务场景模型包括单任务配送场景模型和多任务配送场景模型，所述单任务配送属于点到点任务，任务本身并不具有可替代性，任务执行过程中除了取消配送，不会有任务交换的情况出现；所述多任务配送根据无人机载重量限制、配送需求合理安排配送的地点和货物，无人机在配送过程中可服务若干个地面用户，可临时调整货物配送顺序。

优选的，所述无人机规划路径模型的具体表达式如下：

(1)

(2a)

(2b)

其中，是无人机在时隙n飞行的路径长度，/>和/>分别代表无人机和障碍物在二维平面的位置，/>和/>分别代表无人机在t和t+1时刻的飞行方向，C表示单位时间内无人机的飞行距离，式（2a）表示无人机与区域中任何障碍物的距离不得超过C以避免碰撞，式（2b）限制无人机的最大转弯角不大于90°，所述无人机规划路径模型采用模拟退火算法求解。

优选的，所述通信要素模型包括通信网络架构设计和传输信道建模，通信网络包括地面基站、U2I链路、U2U链路。

优选的，步骤二中求出无人机节点接收端的信干噪比模型的过程为：

S21、推导得到第m个U2I链路的信干噪比和第k对U2U链路接收端的信干噪比/>，具体表达式如下：

(3)

(4)

其中，表示接收机的环境噪声功率，/>表示第k对U2U链路发射机对第m个U2I链路接收机的干扰增益，/>和/>分别表示第m个U2I链路和第k对U2U链路的发射功率；和/>分别表示第m个U2I链路和第k对U2U链路的信道功率增益；/>表示第k对U2U链路复用第m个U2I链路的频谱，反之则没有复用，且每对U2U链路只能复用一个U2I链路的频谱，/>表示U2I链路对第k对U2U链路的干扰功率，表达式为：

(5)

其中，为第m个U2I链路发射机到第k对U2U链路接收机的干扰功率增益，表示来自所有与第k个U2U链路共享同一频谱资源的其它U2U链路产生的干扰功率，表达式为：

(6)

其中，为第/>对U2U链路发射机到第k对U2U链路接收机的干扰功率增益；

S22、建立U2I链路和U2U链路的信道容量表达式，具体如下：

(7)

(8)

其中，W表示总带宽，表示第m个U2I链路的信道容量，/>表示第k对U2U链路的信道容量，/>表示第m个U2I链路的信干噪比，/>表示第k对U2U链路接收端的信干噪比。

优选的，步骤三中建立求解通信资源分配问题的强化学习基础模型具体包括以下步骤：

S31、设计状态空间，建立包含各个频谱子带衰减情况、U2I链路衰减情况、U2U链路接收到的干扰信号强度、邻居节点频谱子带选择情况、剩余要传输的负载量和剩余可传输的时间的智能体观测状态空间，具体表达式如下：

(9)

其中，表示当前U2U链路使用各个频谱子带的衰减情况，/>表示kth U2U链路在t时刻使用第m个频谱子带时信道的衰减情况；表示U2I链路衰减情况，/>表示mth U2I链路在t时刻使用第m个频谱子带时信道的衰减情况；/>是当前U2U链路在t-1时刻接收到的干扰信号强度，/>表示kth U2U链路在t-1时刻使用第m个频谱子带时接收端接收到干扰信号强度；/>代表与之距离最近的三对U2U链路在t-1时刻选择的频谱子带；/>是剩余要传输的负载量，/>是剩余可传输的时间，/>表示第k对U2U链路t时刻观察到的状态；

S32、设计动作空间，包含频谱选择和功率控制的智能体动作空间，其中频谱有M种选择，对应M个频谱子带，可选择功率等级有4种，表示为，具体表达式如下：

(10)

其中，动作空间的维度为/>；

S33、设计奖励函数，包含正奖励和传输失败，具体表达式如下：

正奖励的表示为：

(11)

其中，为U2U链路在t时刻获得的正奖励值，/>为调节U2I和U2U链路的信道容量的权重系数，M为U2I链路数目，K为U2U链路数目，/>表示第/>条U2I链路的信道容量，/>表示第/>条U2U链路的信道容量；

传输失败的表达式为：

(12)

其中，是第k对U2U链路的最大允许时延，/>是剩余可用于信息传输的时间；

综上，奖励函数设置为：

(13)

其中，和/>分别是正奖励和传输失败的权重值。

优选的，步骤四中建立规模无关的状态特征表示方法包括以下步骤：

S41、可变节点状态空间建模，包括规模无关状态特征和规模相关状态特征部分，具体表达式如下：

规模无关状态特征的表达式如下：

(14)

其中，表示当前U2U链路使用各个频谱子带的衰减情况，/>表示kth U2U链路在t时刻使用第m个频谱子带时信道的衰减情况；表示U2I链路的衰减情况，/>表示mth U2I链路在t时刻使用第m个频谱子带时信道的衰减情况；是当前U2U链路在t-1时刻接收到的干扰信号强度，/>表示kth U2U链路在t-1时刻使用第m个频谱子带时接收端接收到干扰信号强度；/>是剩余要传输的负载量，/>是剩余可传输的时间大小；

规模相关状态特征的表达式如下：

(15)

其中，表示近邻U2U链路的数量，/>表示jth近邻U2U链路的状态信息，具体表达式如下所示：

(16)

其中，表示该近邻U2U链路在t-1时刻使用的频谱子带，/>该近邻U2U链路在t-1使用该频谱子带接收端接收到的干扰信号强度，/>表示该近邻U2U链路发射端与当前U2U链路接收端的空间距离；

综上所述，状态空间表示为：

(17)

状态空间由规模无关的和规模相关的/>组成，总体还是规模相关的，无法输入到固定输入维度的神经网络；

S42、建立描述规模相关状态集特定特征的的规模相关状态特征表示模型。

优选的，步骤五中建立规模无关的可变节点通信资源分配方法的具体过程如下：利用步骤四提出的规模无关状态特征表示方法处理规模相关的状态信息，得到规模无关的状态信息/>，并与/>合成新的状态/>，具体表达式如下：

(18)

上式将整U2U链路观测到的可变节点状态空间模型划分为规模无关和规模相关两部分，通过S42中的规模相关状态特征表示模型对规模相关部分包含的多个邻居节点信息进行“平均化”处理，使通信范围内的全部邻居节点平均化为一个固定维度信息的“虚拟邻居节点”。

因此，本发明采用上述一种基于规模无关强化学习的多无人机通信资源分配方法，将整U2U链路观测到的可变节点状态空间模型划分为规模无关和规模相关两部分，对规模相关部分包含的多个邻居节点信息进行“平均化”处理，使通信范围内的全部邻居节点平均化为一个固定维度信息的“虚拟邻居节点”，从而构建与节点规模无关的多无人机可变节点通信资源分配方法，增强了模型的适配性。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明多无人机物流配送任务场景模型图，其中（a）为单任务配送场景模型图；（b）为多任务配送场景模型图；

图2是本发明物流末端配送场景分布示意图；

图3是本发明多无人机通信网络结构图；

图4是本发明第k条U2U链路及其近邻U2U链路分布图；

图5是本发明状态特征表示模型图；

图6是本发明基于D3QN的深度强化学习求解框图；

图7是本发明路径规划结果图，其中（a）为单任务场景路径规划结果图；（b）为多任务场景路径规划结果图；

图8是本发明不同DRL算法每轮平均奖赏的变化情况图，其中（a）为单任务场景DRL算法平均奖励图；（b）为多任务场景DRL算法平均奖励图；

图9是本发明不同方法下U2I信道总容量随频谱子带数量的变化情况图，其中（a）为单任务场景不同方法对比图；（b）为多任务场景不同方法对比图；

图10是本发明多任务场景不同方法下U2U传输成功率随频谱子带数量的变化情况图；

图11是本发明U2I信道总容量随着无人机规模的变化情况图；

图12是本发明功率分配行为随剩余传输时延的变化情况，其中（a）为单任务场景功率选择行为图；（b）为多任务场景功率选择行为图。

具体实施方式

以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图12，一种基于规模无关强化学习的多无人机通信资源分配方法，包括以下步骤：

步骤一、建立任务需求模型和通信要素模型；任务需求模型包括任务场景模型和无人机规划路径模型；任务场景模型包括单任务配送场景模型和多任务配送场景模型，单任务配送属于点到点任务，任务本身并不具有可替代性，任务执行过程中除了取消配送，不会有任务交换的情况出现；多任务配送根据无人机载重量限制、配送需求合理安排配送的地点和货物，无人机在配送过程中可服务若干个地面用户，可临时调整货物配送顺序。

图1为多无人机物流配送任务场景模型，包括图1中的（a）单任务配送场景模型和图1中的（b）多任务配送场景模型。其中，是目标区域的仓库，无人机从仓库出发进行货物配送。/>表示无人机配送目的地，/>表示无人机，/>表示配送的货物。单任务配送属于点到点任务，任务本身并不具有可替代性，任务执行过程中除了取消配送，不会有任务交换等情况出现。任务分配需要总和考虑无人机载重量、飞行时长的限制条件，合理安排其配送的目的地和货物。例如，无人机/>的最大载重量大于货物/>的重量，并且其剩余可飞行时长可以支持无人机一次往返配送目的地/>，那么无人机/>负责前往目的地/>配送货物/>。

当物流末端配送任务量大且配送需求多变时，考虑多任务配送场景。多任务配送需要根据无人机载重量限制、配送需求等合理安排配送的地点和货物，无人机在配送过程中可以服务多个地面用户，甚至可以临时调整货物配送顺序，任务调度的灵活性比较大。然而，当无人机因故障或任务调整加入和退出系统时，会对整个系统产生较大影响，需要无人机能够快速响应。例如，无人机根据载重量限制、配送地点以及配送优先性安排无人机负责将货物/>分别配送至目的地/>，由于任务调整，这条配送线路不存在，此时无人机/>便暂时退出系统，等到需要时，重新加入系统。除了任务需求外，多无人机节点的运动信息也是影响通信资源分配效果的重要观测量，如图2所示，考虑N架同质无人机在空旷区域的某个固定高度（200m）飞行，为目标区域的地面用户配送货物。使用2D网格对目标区域近似单元分解，其中目标区域设置为/>的矩形区域，单元大小为。静态障碍物（如建筑物、山脉和树木等）随机分布在该区域中。在每一个时间步，无人机选择合适的航行方向飞行，其中可选的航行方向有8个。与将方向建模为连续变量的模型相比，离散化模型降低了算法的复杂度，提高了路线规划的时效性。由于无人机的能量限制，需要规划最短的无碰撞安全路径来完成物流末端配送任务。因此无人机规划路径模型的具体表达式如下：

(1)

(2a)

(2b)

其中，是无人机在时隙n飞行的路径长度，/>和/>分别代表无人机和障碍物在二维平面的位置，/>和/>分别代表无人机在t和t+1时刻的飞行方向，C表示单位时间内无人机的飞行距离，式（2a）表示无人机与区域中任何障碍物的距离不得超过C以避免碰撞，式（2b）限制无人机的最大转弯角不大于90°，无人机规划路径模型采用模拟退火算法求解。

通信要素模型包括通信网络架构设计和传输信道建模，通信网络包括地面基站、无人机对地通信链路（UAV-to-Infrastructure，U2I）、无人机对无人机通信链路（UAV-to-UAV，U2U）。如图3，M架无人机与基站建立U2I链路，用于传输系统控制信息和数据，链路集合表示为。N架联网无人机用户与附近的三架无人机建立K对U2U链路，链路集合表示为/>。这些U2U链路用于定期传输可靠的状态消息，为无人机之间的直接通信提供支持，实现了多节点间信息共享和任务协作。

对于多无人机通信网络，3GPP工作组基于已有城市/郊区环境中的测量和验证结果，形成了TR 36.777技术报告和TR 38.901技术标准，并结合5G应用场景，形成了无人机系统技术规范TS 22.125。基于上述标准文件，设定基站天线高度为35m，无人机高度为200m，载波频率为700MHz，基于农村宏基站（RuralMacro Base Station with Aerial Vehicle,RMa-AV）场景进行信道模型描述。因传输距离、障碍物遮挡以及多径传播等，U2I和U2U通信链路都存在不同程度的衰减。因此，需要对复杂信道环境进行分析，包括路径损耗、阴影衰落以及信道快慢衰落等情况，构建合适的通信信道模型，如表1所示。

表1 通信要素建模涉及的信道模型

步骤二、求出无人机节点接收端的信干噪比模型；

如图3，假设蜂窝网络中互不干扰的M条正交子信道分配给U2I链路，U2U链路共享U2I链路的频谱资源以提高频谱利用率。U2I链路以固定发射功率进行信号传输，而U2U链路根据通信环境选择合适的信号发射功率。假设无人机采用离散发射功率控制策略，U2U链路的可用传输功率等级可以表示为，U2U链路选择的功率等级不能超过最大功耗/>，即/>。由于无人机的通信传输范围有限，本发明假设当前U2U链路只关注在其通信距离范围内的邻近无人机的状态，即U2U链路不具备无线通信环境的全局信息。为了解决不合理的频谱复用和功率控制可能引起的干扰问题，采用信干噪比（Signal-to-Interference-plus-Noise Ratio，SINR）作为通信质量的衡量指标，通过优化频谱和功率分配策略，减小通信干扰，提高通信服务质量。求出无人机节点接收端的信干噪比模型的具体过程为：

(3)

(4)

(5)

(6)

S22、建立U2I链路和U2U链路的信道容量表达式，具体如下：

(7)

(8)

步骤三、建立求解通信资源分配问题的强化学习基础模型；具体包括以下步骤：

(9)

(10)

其中，动作空间的维度为/>；

正奖励的表示为：

(11)

传输失败的表达式为：

(12)

综上，奖励函数设置为：

(13)

其中，和/>分别是正奖励和传输失败的权重值。

步骤四、建立规模无关的状态特征表示方法；

在实际配送场景中，无人机故障以及任务调整等原因会动态加入和退出，无人机的数量规模随之发生变化。在如此高度动态变化的场景中，传统方法必然不适合求解可变节点的通信资源分配问题，因此首先需要建立可变节点状态空间模型。在建模过程中，多无人机通信系统仍被看作是环境，状态空间包含自身的状态信息以及通信距离范围内其他U2U链路的状态信息，自身的状态信息包含所可使用通信链路的衰减情况、干扰信号强度以及信息传输相关的状态，这部分是规模无关的，其表达式如下所示：

(14)

其中，表示当前U2U链路使用各个频谱子带的衰减情况，/>表示kth U2U链路在t时刻使用第m个频谱子带时信道的衰减情况；表示U2I链路的衰减情况，/>表示mth U2I链路在t时刻使用第m个频谱子带时信道的衰减情况；/>是当前U2U链路在t-1时刻接收到的干扰信号强度，/>表示kth U2U链路在t-1时刻使用第m个频谱子带时接收端接收到干扰信号强度；/>是剩余要传输的负载量，/>是剩余可传输的时间大小；

如图4所示，第k条U2U链路通信距离范围内其它U2U链路分布状况近邻U2U链路的状态信息可以获取，可获取的状态信息包括其频谱动作、受干扰信号强度以及位置分布信息等，这部分信息是规模相关的，即随着通信范围内邻近U2U链路数目变化而变化，其表达式如下：

(15)

(16)

综上，状态空间表示为：

(17)

S42、建立描述规模相关状态集特定特征的的规模相关状态特征表示模型，如图5所示。

步骤五、建立规模无关的可变节点通信资源分配方法，具体过程如下：利用步骤四提出的规模无关状态特征表示方法处理规模相关的状态信息，得到规模无关的状态信息/>，并与/>合成新的状态/>，具体表达式如下：

(18)

上式将整U2U链路观测到的可变节点状态空间模型划分为规模无关和规模相关两部分，通过S42中的规模相关状态特征表示模型对规模相关部分包含的多个邻居节点信息进行“平均化”处理，使通信范围内的全部邻居节点平均化为一个固定维度信息的“虚拟邻居节点”。从而解决了节点规模变化导致状态空间维度变化而不能适用于固定维度神经网络的问题，即建立了与无人机节点规模无关的多无人机可变节点通信资源分配方法。与步骤三建立的通信资源分配强化学习基础模型相比，规模无关可变节点通信资源分配方法仅在状态空间表达上有所区别，动作空间设计与子步骤S32过程相同，奖励函数设计与子步骤S33过程相同。在规模无关的可变节点通信资源分配求解方面，本发明搭建了一个解决规模无关通信资源分配问题的通用DRL求解框架，DRL网络可以是DQN、DDQN以及D3QN三种网络模型任选其一。如图6，根据无人机的变动情况重新调整多无人机通信网络，每个U2U链路获取自身状态信息和通信距离范围内的近邻U2U链路状态信息/>。因为状态集/>的维数是动态变化的，因此需要利用状态特征表示方法进行特征表示，获得规模无关的状态/>，并将状态/>和状态/>连接形成新的状态向量/>。输入状态/>到DRL网络中，根据网络输出和/>策略，选出当前状态下要执行的动作，包括频谱子带和发射功率。执行动作之后状态转移为/>，获取对应的奖励值/>。根据公式（18）获取能直接输入到神经网络的状态，同时将元组/>存入经验回放池中。当DRL网络进行训练学习的时候从记忆库中随机抽取小批量数据进行训练，并且定期更新目标Q神经网络的参数，循环这个过程直至网络收敛。

步骤六、对规模无关的可变节点通信资源分配方法进行验证，首先设置环境参数和信道参数，然后生成多无人机路径规划结果，最后验证本发明算法在每轮平均奖赏的变化情况、U2I信道总容量随频谱子带数量的变化情况、U2U传输成功率随频谱子带数量的变化情况、U2I信道总容量随着无人机规模的变化情况和率分配行为随剩余传输时延的变化情况。

在实验验证方面，环境参数及信道参数依据3GPP TR 36.777中的RMa-AV场景设置，详见表2，多无人机路径规划与通信资源分配算法参数算法的相关参数如表3所示。

表2 环境参数

表3 路径规划与通信资源分配算法参数

如图7所示，基于SA的方法可以精确地避开任务区域中的障碍物，并且保持路径长度尽可能短如图7中的（a）。此外，该路径规划方法可以扩展到更复杂的场景，包括多任务场景如图7中的（b）。总的来说，结果表明使用SA算法可以处理各种不同类型的场景，实现高效、安全的无人机路径规划。

图8显示了在不同场景下，基于DRL的方法获得的平均归一化奖励值在训练过程中的变化情况，如图8中的（a）和图8中的（b）。随着训练步骤数的增加，平均归一化奖励值逐渐收敛。且三种基于DRL的方法产生相似的平均归一化奖励，表明它们在收敛性方面具有可比性。

图9展示了在不同场景下，使用不同方法获得的U2I链路平均总容量与频谱子带数量之间的关系，如图9中的（a）和图9中的（b），其中本发明选用基于贪婪的方法（Greedy-based）和随机方法（Random）作为对比。结果表明，增加频谱子带数量会导致更高的U2I总容量。这是因为增加频谱子带数量可以为每个U2U链路提供更多的选择，从而减少对其他U2U链路和U2I链路的干扰。此外，研究中提出的基于DRL的算法始终比基于贪婪的方法和随机方法获得更高的平均容量。这是因为基于贪婪的方法优先考虑短期收益，而随机方法则是随机选择动作而不考虑环境。相比之下，基于DRL的算法能够根据对环境的部分观测做出决策，并注重长期利益。总体而言，所提出的基于DRL的方法能够根据快速变化的信道状态适当地调整频谱和发射功率，展现出对动态环境的显著适应性。

图10展示了在多任务场景中，使用不同方法获得的U2U传输成功率与频谱子带数量之间的关系。结果显示，基于D3QN的方法在整体上实现了更高的U2U传输成功率，并且具有更好的稳定性，相比其他两种基于DRL的方法。同时，在多任务场景下，基于DDQN的方法相较于基于DQN的方法表现更好，因为它能够消除过高估计的问题，提升了算法的性能。

图11描述了在单任务和多任务场景中，当无人机规模发生变化时，所提出的基于强化学习求解框架的稳定性。结果显示，系统中加入或退出一架无人机时，所提出的基于DRL的方法表现最佳。这是因为这种变化会激励智能体探索更稳定的策略来适应不断变化的情况，相比于固定数量无人机的情况。然而，随着无人机数量的增加，多无人机通信系统变得更加复杂。学习到的策略可能无法很好地适应快速变化的系统，从而导致性能下降。尽管如此，在单任务场景中，所提出的基于DRL的方法仍能保持比基线稍差的性能。然而，在多任务场景中，由于多无人机通信系统的复杂性增加，其性能比单任务场景更加不稳定。

图12显示了单任务和多任务场景下，U2U链路在传输过程中的功率选择行为，如图12中的（a）和图12中的（b）。结果表明，当有足够的传输时间时，U2U链路不太可能选择最大功率级别进行传输。但在时间有限的情况下，U2U链路会以大概率选择最大发射功率来保证传输成功。当只剩下10ms时，U2U链路选择最大功率水平的概率突然下降。这是因为U2U链路意识到，即使使用最大发射功率，他们也可能违反时间延迟约束。因此，它们更倾向于选择较低的功率级别进行传输，以尽量减少对U2I链路和其他U2U链路的干扰，从而最大化传输效果并提高系统的回报。综合来看，U2U链路会根据时间约束和干扰控制的考虑，选择合适的功率级别以优化传输性能和系统效益。

因此，本发明采用上述一种基于规模无关强化学习的多无人机通信资源分配方法，针对节点规模变化导致状态空间维度变化而不能适用于固定维度神经网络的问题，将整U2U链路观测到的可变节点状态空间模型划分为规模无关和规模相关两部分，对规模相关部分包含的多个邻居节点信息进行“平均化”处理，使通信范围内的全部邻居节点平均化为一个固定维度信息的“虚拟邻居节点”，从而构建与节点规模无关的多无人机可变节点通信资源分配方法，增强模型的适配性。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于规模无关强化学习的多无人机通信资源分配方法，其特征在于，包括以下步骤：

步骤一、建立任务需求模型和通信要素模型；

步骤二、求出无人机节点接收端的信干噪比模型；

步骤三、建立求解通信资源分配问题的强化学习基础模型；

步骤四、建立规模无关的状态特征表示方法；

步骤五、建立规模无关的可变节点通信资源分配方法；

步骤六、对规模无关的可变节点通信资源分配方法进行验证；

步骤四中建立规模无关的状态特征表示方法包括以下步骤：

规模无关状态特征的表达式如下：

(14)

规模相关状态特征的表达式如下：

(15)

(16)

综上所述，状态空间表示为：

(17)

S42、建立描述规模相关状态集特定特征的的规模相关状态特征表示模型；

步骤五中建立规模无关的可变节点通信资源分配方法的具体过程如下：利用步骤四提出的规模无关状态特征表示方法处理规模相关的状态信息，得到规模无关的状态信息，并与/>合成新的状态/>，具体表达式如下：

(18)

2.根据权利要求1所述的一种基于规模无关强化学习的多无人机通信资源分配方法，其特征在于：所述任务需求模型包括任务场景模型和无人机规划路径模型；所述任务场景模型包括单任务配送场景模型和多任务配送场景模型，所述单任务配送属于点到点任务；所述多任务配送根据无人机载重量限制、配送需求合理安排配送的地点和货物，无人机在配送过程中服务若干个地面用户，临时调整货物配送顺序。

3.根据权利要求2所述的一种基于规模无关强化学习的多无人机通信资源分配方法，其特征在于，所述无人机规划路径模型的具体表达式如下：

(1)

(2a)

(2b)

4.根据权利要求3所述的一种基于规模无关强化学习的多无人机通信资源分配方法，其特征在于：所述通信要素模型包括通信网络架构设计和传输信道建模，通信网络包括地面基站、U2I链路、U2U链路。

5.根据权利要求4所述的一种基于规模无关强化学习的多无人机通信资源分配方法，其特征在于，步骤二中求出无人机节点接收端的信干噪比模型的过程为：

S21、推导得到第m个U2I链路的信干噪比和第k对U2U链路接收端的信干噪比，具体表达式如下：

(3)

(4)

(5)

其中，为第m个U2I链路发射机到第k对U2U链路接收机的干扰功率增益，/>表示来自所有与第k个U2U链路共享同一频谱资源的其它U2U链路产生的干扰功率，表达式为：

(6)

S22、建立U2I链路和U2U链路的信道容量表达式，具体如下：

(7)

(8)

6.根据权利要求5所述的一种基于规模无关强化学习的多无人机通信资源分配方法，其特征在于，步骤三中建立求解通信资源分配问题的强化学习基础模型具体包括以下步骤：

(9)

(10)

其中，动作空间的维度为/>；

正奖励的表示为：

(11)

传输失败的表达式为：

(12)

综上，奖励函数设置为：

(13)

其中，和/>分别是正奖励和传输失败的权重值。