CN116506965B

CN116506965B - 一种多无人机通信资源分配方法及终端

Info

Publication number: CN116506965B
Application number: CN202310729799.7A
Authority: CN
Inventors: 宋轩; 宋歌; 张浩然; 谢洪彬
Original assignee: Southern University of Science and Technology
Current assignee: Southern University of Science and Technology
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-19
Anticipated expiration: 2043-06-20
Also published as: CN116506965A

Abstract

本发明提供的一种多无人机通信资源分配方法及终端，通过构建多个无人机之间的通信网络，实现了通信资源的分布式管理方法，使得无人机之间相互通信实现指定信息的传递，并且根据通信网络能够通过其他无人机获取更多的环境信息，提高系统的鲁棒性以及训练效率，方便后期无人机数量部署于扩展。此外，基于通信网络实时监测无人机之间的当前通信延迟，保证无人机通信状态。同时，无人机能够基于第一奖励值、第二奖励值以及第三奖励值三个不同维度自主更新对应的强化学习模型，使得无人机在当前环境下自主决策，从而对行进路线以及通信资源进行动态调整达到最佳效果，对不同的环境都表现出较高的适应性。

Description

一种多无人机通信资源分配方法及终端

技术领域

本发明涉及无人机通信领域，尤其涉及一种多无人机通信资源分配方法及终端。

背景技术

目前多无人机通信资源分配方法中，专利（专利公开号为CN112423304B）公开了一种多无人机调度通信频段分配方法及系统，通过分段方式，将调度服务器的通信频谱资源划分为多个频段，为无人机预先设定通信的最佳频段，使用贪心原则，使得多个无人机均能获得最佳的匹配频段，并且防止无人机与调度服务器之间的通信冲突或阻滞，提高通信效率。而这种方法主要是通过分段方式，对频谱资源进行固定分段，进而通过不同频段控制通信，其需要根据无人机的具体情况对频谱进行分段，迁移能力较低，并且其固定分段在规模到达一定程度时，过多分段会导致通信质量下降、对通信设备要求提高等问题，不适合当前城市中多种设备发送通信的复杂环境。

专利（专利公开号为CN114828253A）公开了一种RIS（Reconfigure intelligentsurface，智能反射面）辅助多无人机通信系统的资源分配方法，通过搭建引入智能反射面系统协助通信，通过对无人机及反射面通信传输功率进行数学建模，并添加约束条件，计算通信传输功率最小化方式。但是传统数学建模方法多设置固定算式，不考虑复杂环境变化所产生的影响，在进行资源分配时无法应对复杂环境做出相应的变化，导致其出现鲁棒性低，迁移困难等问题，也不适用于当前快速发展的无人机部署环境；并且通过引入无人机反射面进行通信传输协助，无人机反射面本身不适合部署在多高楼、多遮挡物的城市环境当中，其部署成本较高，且引入固定环境物体不仅提高了环境复杂度，同时导致系统本身不适合进行不同环境间的迁移，同样不适用于当前对于高可适应性的需求。

发明内容

本发明所要解决的技术问题是：提供一种多无人机通信资源分配方法及终端，根据当前无人机的通信状态以及环境状态动态调整其行进路线，在保证通信需求的同时提高无人机对不同环境的适应性。

为了解决上述技术问题，本发明采用的技术方案为：

基于无人机的网络通信指标计算第一奖励值，通过所述第一奖励值更新第一强化学习模型，并通过所述第一强化学习模型构建多个无人机之间的通信网络；

基于所述通信网络的当前通信延迟计算第二奖励值，通过所述第二奖励值更新第二强化学习模型，并通过所述第二强化学习模型调整所述多个无人机之间的通信流量；

基于所述无人机的行进结果计算第三奖励值，通过所述第三奖励值更新第三强化学习模型，并通过所述第三强化学习模型调整所述无人机的行进路线。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种多无人机通信资源分配终端，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种多无人机通信资源分配方法中的各个步骤。

本发明的有益效果在于：通过构建多个无人机之间的通信网络，实现了通信资源的分布式管理方法，使得无人机之间相互通信实现指定信息的传递，并且根据通信网络能够通过其他无人机获取更多的环境信息，提高系统的鲁棒性以及训练效率，方便后期无人机数量部署于扩展。此外，基于通信网络实时监测无人机之间的当前通信延迟，保证无人机通信状态。同时，无人机能够基于第一奖励值、第二奖励值以及第三奖励值三个不同维度自主更新对应的强化学习模型，使得无人机在当前环境下自主决策，从而对行进路线以及通信资源进行动态调整达到最佳效果，对不同的环境都表现出较高的适应性。

附图说明

图1为本发明公开的一种多无人机通信资源分配方法的步骤流程图；

图2为本发明实施例提供的一种初始通信网络的结构示意图；

图3为本发明公开的一种多无人机通信资源分配的结构示意图；

标号说明：

401、存储器；402、处理器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，本发明实施例提供了一种多无人机通信资源分配方法，包括步骤：

从上述描述可知，本发明的有益效果在于：通过构建多个无人机之间的通信网络，实现了通信资源的分布式管理方法，使得无人机之间相互通信实现指定信息的传递，并且根据通信网络能够通过其他无人机获取更多的环境信息，提高系统的鲁棒性以及训练效率，方便后期无人机数量部署于扩展。此外，基于通信网络实时监测无人机之间的当前通信延迟，保证无人机通信状态。同时，无人机能够基于第一奖励值、第二奖励值以及第三奖励值三个不同维度自主更新对应的强化学习模型，使得无人机在当前环境下自主决策，从而对行进路线以及通信资源进行动态调整达到最佳效果，对不同的环境都表现出较高的适应性。

进一步的，所述基于无人机的网络通信指标计算第一奖励值之前包括：

每一无人机接收所有信号发射源的广播信息，根据所述广播信息获取通信测度指标；所述信号发射源包括地面基站以及其他无人机；

根据所述通信测度指标生成每一所述信号发射源的通信质量指标；

将所述通信质量指标输入所述第一强化学习模型得到所述无人机与信号发射源建立通信的概率；

根据所述概率在所述信号发射源中选择进行通信连接的目标，得到多个无人机之间的初始通信网络。

由上述描述可知，先根据广播信息确定当前无人机能够进行通信的地面基站以及其他无人机，由此确定无人机当前的通信环境；同时获取无人机与信号发射源之间的通信质量指标，从而判断无人机与其成功建立通信的概率，根据通信成功概率选择对应的通信连接目标，构建通信网络，以此保证无人机之间的通信稳定，且灵活性高，能够针对不同的通信环境进行适应性调整。

进一步的，所述网络通信指标包括可用性、吞吐量、延迟以及丢包率；

所述基于无人机的网络通信指标计算第一奖励值，通过所述第一奖励值更新第一强化学习模型，并通过所述第一强化学习模型构建多个无人机之间的通信网络包括：

根据所述初始通信网络获取无人机数量以及位置信息，根据所述无人机数量以及位置信息接收对应的任务信息，同时计算所述可用性、吞吐量、延迟以及丢包率；

根据下述公式计算所述第一奖励值：

；

其中，α₁为超参数，U为可用性，T为吞吐量，D为延迟，P为丢包率；

通过所述第一奖励值更新第一强化学习模型，并通过所述第一强化学习模型构建多个无人机之间的通信网络。

由上述描述可知，在无人机构建完初始通信网络后，通过监控通信网络以获取网络通信指标，从而根据网络通信指标评估初始通信网络的构建效果，同时基于深度学习网络模型的第一奖励值对当前通信网络的通信质量进行评估，从而基于第一奖励值迭代更新对应的第一强化学习模型，以此方式调整优化通信网络的构建效果，保证无人机的通信稳定性。

进一步的，所述基于所述通信网络的当前通信延迟计算第二奖励值，通过所述第二奖励值更新第二强化学习模型，并通过所述第二强化学习模型调整所述多个无人机之间的通信流量包括：

基于所述通信网络获取所述无人机的接收通信延迟，将所述接收通信延迟标记为当前通信状态；

当所述无人机执行信息发送，则根据所述当前通信状态动态调整所述无人机所发送的信息大小，并设置对应的通信功率，得到当前信息发送动作；

当所述无人机执行信息接收，则获取所述通信网络中地面基站以及无人机的序列，根据所述当前通信状态选择所述序列中的部分无人机建立信道连接，得到当前信息接收动作；

根据所述当前通信状态、当前信息发送动作以及当前信息接收动作获取当前通信延迟；

根据所述当前通信延迟计算第二奖励值：

；

其中，α₂为超参数且为正值，T_delay为当前通信延迟；

通过所述第二奖励值更新第二强化学习模型，并通过所述第二强化学习模型调整所述多个无人机之间的通信流量。

由上述描述可知，在无人机建立通信网络后，由于无人机在完成任务的过程中传递的信息量大，因此需要对通信网络中的通信流量进行合理分配。通过获取无人机的接收通信延迟，从而得知无人机等待接收信息的时间；再通过获取无人机信息发送和信息接收动作，从而得知无人机从接收信息到发送信息所要花费的总时间，以此判断无人机是否存在通信延迟。而第二强化学习模型通过调整无人机发送信息的大小，即通信流量，同时选择部分无人机建立信道连接，以达到在通信网络中对信息流量进行控制的目的，降低通信延迟；同时基于第二强化学习模型对调整后的通信延迟进行评估，从而基于第二奖励值迭代更新对应的第二强化学习模型，以此方式调整优化通信流量的控制效果，保证无人机的通信实时性。

进一步的，所述基于所述无人机的行进结果计算第三奖励值，通过所述第三奖励值更新第三强化学习模型，并通过所述第三强化学习模型调整所述无人机的行进路线包括：

获取所述通信网络的传递信息以及所述无人机的分配任务；

根据所述传递信息以及分配任务得到所述无人机的自身环境信息；

将所述传递信息以及所述自身环境信息标记为当前自身状态；

根据所述当前自身状态更新当前行进路线，得到对应的行进结果；

根据所述行进结果计算第三奖励值：

；

其中，α₃为超参数且为正值，d_t表示t时刻所述无人机位置到行进终点的距离；d_t-1表示t-1时刻所述无人机位置到行进终点的距离；

通过所述第三奖励值更新第三强化学习模型，并通过所述第三强化学习模型调整所述无人机的下一行进路线。

由上述描述可知，无人机通过通信网络不仅能够便于信息传递，还能够通过其他位置的无人机获取更多的环境信息，从而丰富无人机自身环境信息，便于其对行进路线的规划与决策。同时基于第三强化学习模型对规划后的行进路线进行评估，从而基于第三奖励值迭代更新对应的第三强化学习模型，以此方式调整优化行进路线的规划效果，提高无人机的环境适应性。

进一步的，所述通过所述第一奖励值更新第一强化学习模型包括：

根据所述第一奖励值更新所述第一强化学习模型的第一Q评估值；基于损失函数，根据所述第一Q评估值更新所述第一强化学习模型；

所述通过所述第二奖励值更新第二强化学习模型包括：

根据所述第二奖励值更新所述第二强化学习模型的第二Q评估值，基于损失函数，根据所述第二Q评估值更新所述第二强化学习模型；

所述通过所述第三奖励值更新第三强化学习模型包括：

根据所述第三奖励值更新所述第三强化学习模型的第三Q评估值，基于损失函数，根据所述第三Q评估值更新所述第三强化学习模型；

所述损失函数为：

；

其中，s_i为当前状态，a_i为当前策略Q在状态为s_i时采用的动作，s_i’为采用动作a_i后下一状态，a’为当前策略Q在状态为s_i’时采用的动作，r_i为当前策略Q在状态为s_i时采用动作a_i的奖励值，γ为超参数；

所述当前策略Q为所述第一Q评估值、第二Q评估值或第三Q评估值。

由上述描述可知，通过构建三个不同维度的强化学习模型，分别用于建立通信连接网络、通信网络中的流量控制以及规划行进路线。通过其对应的奖励值得到对应的Q评估值，从而根据Q评估值对强化学习模型进行迭代更新，以获得通信资源分配以及行进路线规划效果更好的强化学习模型。

进一步的，所述通信测度指标包括接收率、误码率以及链路质量指示；

所述根据所述通信测度指标生成所述信号发射源的通信质量指标具体为：

；

其中，N_i为通信质量指标，α₄为超参数，LQI为链路质量指示，PDR为接收率，BER为误码率。

由上述描述可知，将三个不同的通信测度指标量化为一个通信质量指标，便于后续步骤评估当前无人机之间的通信质量，且保证评估因素的全面性，提高第一强化学习模型的鲁棒性及训练效率。

进一步的，所述无人机所发送的信息包括行进路线数据；

所述根据所述当前通信状态动态调整所述无人机所发送的信息大小具体为：

若当前通信状态充裕，则增加所述无人机所发送的行进路线数据；

若当前通信状态紧张，则减少所述无人机所发送的行进路线数据。

由上述描述可知，在通信状态充裕时，则增加无人机发送行进路线数据，从而保证无人机之间通信稳定，同时确保无人机行驶路线正常。在通信状态紧张时，减少无人机发送行进路线数据，仅保持必要信息传输；以此方式控制通信网络中的信息流量，降低通信延迟。

进一步的，所述根据所述行进结果计算第三奖励值还包括：

若所述行进结果为无人机抵达终点，则设置额外奖励值；

若所述行进结果为无人机产生碰撞，则设置第一惩罚值；

若所述行进结果为无人机在预设时间段内未收到确认信号，则设置第二惩罚值；

根据所述额外奖励值、第一惩罚值以及第二惩罚值更新所述第三奖励值。

由上述描述可知，当无人机抵达终点，则表明第三强化学习模型对行进路线的规划是合理的，故通过设置额外奖励值，用于表征当前第三强化学习模型的路线规划效果较好。当无人机发生碰撞以及未收到确认信号时，则设置对应的惩罚值，用于表征第三强化学习模型的路线规划效果较差，以此方式提高系统的鲁棒性以及训练效率，可用于多种场景。

请参照图3，本发明另一实施例提供了一种多无人机通信资源分配终端，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种多无人机通信资源分配方法中的各个步骤。

本发明实施例提供了一种多无人机通信资源分配方法及终端，可应用于智能制造车间中用于物料分拣和运货管理的无人机，使得无人机能够满足复杂环境下的通信需求，实现自主路径优化，实现无人机的智能化运行，以下通过具体实施例来说明：

请参照图1，本发明的实施例一：

一种多无人机通信资源分配方法，包括步骤：

S1、基于无人机的网络通信指标计算第一奖励值，通过所述第一奖励值更新第一强化学习模型，并通过所述第一强化学习模型构建多个无人机之间的通信网络。

具体地，所述S1之前包括：

S101、每一无人机接收所有信号发射源的广播信息，根据所述广播信息获取通信测度指标；所述信号发射源包括地面基站以及其他无人机；

S102、根据所述通信测度指标生成每一所述信号发射源的通信质量指标；

S103、将所述通信质量指标输入对应的所述第一强化学习模型得到所述无人机与信号发射源建立通信的概率；即每一无人机生成与自身对应的所有信号发射源建立通信的概率。

S104、根据所述概率在所述信号发射源中选择进行通信连接的目标，得到多个无人机之间的初始通信网络。

具体地，所述网络通信指标包括可用性、吞吐量、延迟以及丢包率。

所述S1包括：

S11、根据所述初始通信网络获取无人机数量以及位置信息，根据所述无人机数量以及位置信息接收对应的任务信息，同时计算所述可用性、吞吐量、延迟以及丢包率；

需要说明的是，所述网络通信指标（可用性、吞吐量、延迟以及丢包率）为整个通信网络（通信网络中的所有无人机）的综合网络通信指标。

S12、根据下述公式计算所述第一奖励值：

；

S13、通过所述第一奖励值更新第一强化学习模型，并通过所述第一强化学习模型构建多个无人机之间的通信网络。

需要说明的是，在建立初始通信网络后，通过监视初始通信网络的通信情况，从而计算初始通信网络的可用性U、吞吐量T、延迟D以及丢包率P。

具体地，所述S13中：通过所述第一奖励值更新第一强化学习模型，包括：

S131、根据所述第一奖励值更新所述第一强化学习模型的第一Q评估值；基于损失函数，根据所述第一Q评估值更新所述第一强化学习模型。

需要说明的是，根据第一奖励值更新所述第一强化学习模型的第一Q评估值，当通过第一Q评估值计算损失函数达到优化目标（最小值）时，则第一强化学习模型输出当前第一Q评估值下所对应的通信网络，即该通信网络为最优通信网络。

S2、基于所述通信网络的当前通信延迟计算第二奖励值，通过所述第二奖励值更新第二强化学习模型，并通过所述第二强化学习模型调整所述多个无人机之间的通信流量。

具体地，所述S2包括：

S21、基于所述通信网络获取所述无人机的接收通信延迟，将所述接收通信延迟标记为当前通信状态。

需要说明的是，所述接收通信延迟T_load为通信网络在当前时间段内接收信息的平均排队时延与平均处理时延的总和；其中，每个无人机维持自身的接收通信延迟。

S22、当所述无人机执行信息发送，则根据所述当前通信状态动态调整所述无人机所发送的信息大小，并设置对应的通信功率，得到当前信息发送动作。

其中，所述无人机所发送的信息包括行进路线数据；

所述S22中：根据所述当前通信状态动态调整所述无人机所发送的信息大小，具体为：

S221、若当前通信状态充裕，则增加所述无人机所发送的行进路线数据；

S222、若当前通信状态紧张，则减少所述无人机所发送的行进路线数据。

需要说明的是，所述当前通信状态充裕表示当前无人机信道容量较大，所述当前通信状态紧张表示当前无人机信道容量较小。

S23、当所述无人机执行信息接收，则获取所述通信网络中地面基站以及无人机的序列，根据所述当前通信状态选择所述序列中的部分无人机建立信道连接，得到当前信息接收动作。

需要说明的是，当每个无人机获取到自身的接收通信延迟，即获取到自身的当前通信状态后，两个信息交互的无人机（即执行信息发送的无人机与执行信息接收的无人机）之间分别根据步骤S22和步骤S23动态调整二者传输信息的大小。

S24、根据所述当前通信状态、当前信息发送动作以及当前信息接收动作获取当前通信延迟。

需要说明的是，所述当前通信延迟为无人机从发出信息到接收确认回信所经过的时间，即根据信息发送时间和接收时间进行计算，其中包括了无人机发送信息前的打包时间和接收信息后的处理时间。

S25、根据所述当前通信延迟计算第二奖励值：

；

其中，α₂为超参数且为正值，T_delay为当前通信延迟。

S26、通过所述第二奖励值更新第二强化学习模型，并通过所述第二强化学习模型调整所述多个无人机之间的通信流量。

需要说明的是，上述步骤S21-S25为通过所述第二强化学习模型所执行的步骤。

具体地，所述S26中：通过所述第二奖励值更新第二强化学习模型，包括：

S261、根据所述第二奖励值更新所述第二强化学习模型的第二Q评估值，基于损失函数，根据所述第二Q评估值更新所述第二强化学习模型。

需要说明的是，根据第二奖励值更新所述第二强化学习模型的第二Q评估值，当通过第二Q评估值计算损失函数达到优化目标（最小值）时，则第二强化学习模型输出当前第二Q评估值下所对应的通信流量，即该通信流量为最优通信流量。

S3、基于所述无人机的行进结果计算第三奖励值，通过所述第三奖励值更新第三强化学习模型，并通过所述第三强化学习模型调整所述无人机的行进路线。

需要说明的是，每个无人机只考虑自身的行进路线优化，当每个无人机行进路线达到最优时，则该应用场景下多无人机系统的整体行进路线也达到最优。

具体地，所述S3包括：

S31、获取所述通信网络的传递信息以及所述无人机的分配任务。

S32、根据所述传递信息以及分配任务得到所述无人机的自身环境信息。

需要说明的是，所述无人机的自身环境信息可通过摄像头或红外线等方式进行获取，记录无人机到四周障碍物的位置距离。

S33、将所述传递信息以及所述自身环境信息标记为当前自身状态。

S34、根据所述当前自身状态更新当前行进路线，得到对应的行进结果。

在一些实施例中，将当前自身状态S_t输入第三强化学习模型，输出对应的行进结果P_t+x为一个n×3的矩阵，得到行进结果序列为T_rat={P_t+0,P_t+1,P_t+2,...,P_t+n}。

S35、根据所述行进结果计算第三奖励值：

；

其中，α₃为超参数且为正值，d_t表示t时刻所述无人机位置到行进终点的距离；d_t-1表示t-1时刻所述无人机位置到行进终点的距离。

需要说明的是，无人机在行进过程中每隔一段时间t计算无人机当前位置到行进终点之间的距离d_t。其中，α为正值能够保证无人机在原地不动时，第三奖励值会减小，即对无人机进行惩罚。

具体的，所述S35还包括：

若所述行进结果为无人机抵达终点，则设置额外奖励值。

若所述行进结果为无人机产生碰撞，则设置第一惩罚值。

若所述行进结果为无人机在预设时间段内未收到确认信号，则设置第二惩罚值。

在一些实施例中，所述额外奖励值为20，即当无人机抵达终点，则更新所述第三奖励值R₃’=R₃+20。

在一些实施例中，所述第一惩罚值为5，即当无人机产生碰撞，则更新所述第三奖励值R₃’=R₃-5；

在一些实施例中，所述预设时间段为T_confirm，T_confirm即为通信双方时延的两倍；所述第二惩罚值为-α₅，即当无人机在T_confirm内未收到确认信号，则更新所述第三奖励值R₃’=-α₅。

S36、通过所述第三奖励值更新第三强化学习模型，并通过所述第三强化学习模型调整所述无人机的下一行进路线。

具体地，所述S36中：通过所述第三奖励值更新第三强化学习模型，包括：

S361、根据所述第三奖励值更新所述第三强化学习模型的第三Q评估值，基于损失函数，根据所述第三Q评估值更新所述第三强化学习模型。

需要说明的是，根据第三奖励值更新所述第三强化学习模型的第三Q评估值，当通过第三Q评估值计算损失函数达到优化目标（最小值）时，则第三强化学习模型输出当前第三Q评估值下所对应的行进路线，即该行进路线为最优行进路线。

具体地，上述步骤S131、步骤S261以及步骤S361的所述损失函数为：

；

所述当前策略Q包括所述第一Q评估值、第二Q评估值以及第三Q评估值。

参照图2，本发明的实施例二：

本实施例与实施例一的不同在于，限定了所述步骤S101-S104的具体实施方式。

S101、每一无人机接收附近地面基站以及其他无人机的广播信息，根据广播信息获取通信测度指标，该通信测度指标用于衡量无人机与地面基站或其他无人机之间无线链路的通信质量。

S102、根据所述通信测度指标生成所述信号发射源的通信质量指标。

在一种可选的实施方式中，所述通信测度指标包括接收率、误码率以及链路质量指示；则所述S102具体为：

；

需要说明的是，N_i中的i为指定信号发射源，则N_i为当前无人机与该指定信号发射源之间无线链路的通信质量指标。

S103、将所述通信质量指标N_i输入所述第一强化学习模型得到所述无人机与信号发射源i建立通信的概率P_i。

S104、根据所述概率P_i在所述信号发射源中选择进行通信连接的目标，得到多个无人机之间的初始通信网络。

具体地，获取所述概率P_i分布所对应的概率表，在所述概率表中为每一个概率P_i选取一个随机数P，若随机数P大于概率P_i，则所述无人机与信号发射源i建立通信连接；反之则不建立通信连接；最终得到多个无人机之间的初始通信网络如图2所示。

本发明的实施例三：

本实施例与实施例一的不同在于，限定了所述步骤S22以及S23的具体实施方式。

其中，所述无人机所发送的信息包括行进路线数据；

在本实施例中，如表1所示，所述无人机所发送的信息内容包括起始IP、目标IP、位置信息、数据总长度、是否包含路线数据、路线数据长度、是否优先、是否新命令、命令数据长度、是否中继、中继剩余次数。表1中路线数据即为行进路线数据，增加行进路线数据即增加路线数据长度，减少行进路线数据即减少路线数据长度。

表1 无人机所发送的信息内容

在本实施例中，无人机所发送的信息还包括头部信息，所述头部信息包括信息类型以及信息长度，而所述头部信息为预设参数，即所述头部信息不跟随通信状态进行动态调整。所述S22中：根据所述当前通信状态动态调整所述无人机所发送的信息大小，即动态调整表1中所示的部分信息内容，其信息内容可包括目的地、取件、放件、存取物件等任务信息。

例如，无人机向已建立信道连接的其他无人机发送信息，所述信息内容包括自身位置信息P_t以及行进路线数据T_rat={P_t,P_t+1,P_t+2,...,P_t+n}，其中，行进路线数据T_rat中的P为无人机需要抵达的目标点，当信道充裕时，则增加路线数据T_rat长度；当信道紧张时，则减少路线数据T_rat长度。

在本实施例中，所述通信网络中地面基站以及无人机的序列为{BS₁,BS₂,…BS_n,UAV_n+1,UAV_n+2,...,UAV_m}，其中BS表示地面基站，UAV表示无人机；根据当前通信状态选择所述序列中对应数量的无人机建立信道连接，从而增加或减少信道。

在一种可选的实施方式中，当通信网络中存在无法与地面基站进行通信的第一无人机时，则获取当前通信网络中通信状态充裕的第二无人机，将所述第二无人机标记为中继器，从而辅助地面基站与第一无人机之间传递信息。

请参照图3，本发明的实施例四：

一种多无人机通信资源分配终端，包括存储器401、处理器402及存储在所述存储器401上并在所述处理器402上运行的计算机程序，所述处理器402执行所述计算机程序时实现实施例一至实施例三所述的一种多无人机通信资源分配方法中的各个步骤。

综上所述，本发明提供的一种多无人机通信资源分配方法及终端，通过构建多个无人机之间的通信网络，实现了通信资源的分布式管理方法，使得无人机之间相互通信进行任务分配及路径规划，并且根据通信网络能够通过其他无人机获取更多的环境信息，提高系统的鲁棒性以及训练效率，方便后期无人机数量部署于扩展。此外，基于通信网络，无人机根据当前环境中的信息量，实时分配无人机之间通信信息长度以及通信功率，实现通信资源的合理调配，在保证无人机通信成功的同时尽可能减少无人机功耗及频率的占用，在控制其运行成本的同时保证运行效果。同时，无人机能够基于第一奖励值、第二奖励值以及第三奖励值三个不同维度自主更新对应的强化学习模型，使得无人机在当前环境下自主决策，从而对行进路线以及通信资源进行动态调整达到最佳效果，对不同的环境都表现出较高的适应性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多无人机通信资源分配方法，其特征在于，包括步骤：

基于所述无人机的行进结果计算第三奖励值，通过所述第三奖励值更新第三强化学习模型，并通过所述第三强化学习模型调整所述无人机的行进路线；

所述基于无人机的网络通信指标计算第一奖励值之前包括：

根据所述概率在所述信号发射源中选择进行通信连接的目标，得到多个无人机之间的初始通信网络；

所述网络通信指标包括可用性、吞吐量、延迟以及丢包率；

根据下述公式计算所述第一奖励值：

；

通过所述第一奖励值更新第一强化学习模型，并通过所述第一强化学习模型构建多个无人机之间的通信网络；

所述基于所述通信网络的当前通信延迟计算第二奖励值，通过所述第二奖励值更新第二强化学习模型，并通过所述第二强化学习模型调整所述多个无人机之间的通信流量包括：

根据所述当前通信延迟计算第二奖励值：

；

其中，α₂为超参数且为正值，T_delay为当前通信延迟；

2.根据权利要求1所述的一种多无人机通信资源分配方法，其特征在于，所述基于所述无人机的行进结果计算第三奖励值，通过所述第三奖励值更新第三强化学习模型，并通过所述第三强化学习模型调整所述无人机的行进路线包括：

获取所述通信网络的传递信息以及所述无人机的分配任务；

根据所述行进结果计算第三奖励值：

；

3.根据权利要求1所述的一种多无人机通信资源分配方法，其特征在于，所述通过所述第一奖励值更新第一强化学习模型包括：

所述通过所述第二奖励值更新第二强化学习模型包括：

所述通过所述第三奖励值更新第三强化学习模型包括：

所述损失函数为：

；

4.根据权利要求1所述的一种多无人机通信资源分配方法，其特征在于，所述通信测度指标包括接收率、误码率以及链路质量指示；

；

5.根据权利要求1所述的一种多无人机通信资源分配方法，其特征在于，所述无人机所发送的信息包括行进路线数据；

6.根据权利要求2所述的一种多无人机通信资源分配方法，其特征在于，所述根据所述行进结果计算第三奖励值还包括：

若所述行进结果为无人机抵达终点，则设置额外奖励值；

若所述行进结果为无人机产生碰撞，则设置第一惩罚值；

7.一种多无人机通信资源分配终端，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任意一项所述的一种多无人机通信资源分配方法中的各个步骤。