CN116017479A

CN116017479A - 一种分布式多无人机中继网络覆盖的方法

Info

Publication number: CN116017479A
Application number: CN202211741057.8A
Authority: CN
Inventors: 敖天勇; 张凯欣; 石华光; 晋占齐; 王宪东; 周毅
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-04-25

Abstract

本发明提出了一种分布式多无人机中继网络覆盖的方法，其步骤为：首先，建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型，并转换为马尔科夫博弈模型；其次，搭建集中训练分布式执行的多智能体深度强化学习算法，为每个无人机配备一个行动器和一个评价器，行动器根据无人机状态信息输出飞行轨迹，评价器输出对应的行动价值以训练行动器；最后，构建了双数据流结构的行动器，以提高无人机的动态性；构建了分层多头注意力编码器，利用注意力机制，使无人机能够抑制冗余信息，增加相关协作无人机的关系权重，从而建立正确复杂的协作关系。本发明通过协同优化无人机集群的飞行轨迹和协作策略，实现最大化无人机的网络吞吐量和能效。

Description

一种分布式多无人机中继网络覆盖的方法

技术领域

本发明涉及多无人机协同的轨迹优化和无线通讯技术领域，特别是指一种分布式多无人机中继网络覆盖的方法，用于多无人机无线中继网络覆盖协同优化轨迹。

背景技术

随着无人机技术快速发展，其已经成为现代社会不可或缺的工具，无人机可以部署在任意复杂环境，配合人类完成各种任务。自然灾害、突发事件、战争等，原有的通信设施受到破坏，无人机可以提供应急的通讯服务。然而由于带宽、覆盖范围和无人机数量的限制，空中基站需要动态部署，按需分配网络资源。无人机动态部署可以在不影响通信质量的前提下减少设备数量，在地面基站故障时及时填补信号覆盖空白。

多无人机之间建立多节点的动态中继组网，可以大大提高网络覆盖半径，增强应急网络的鲁棒性，但需要无人机之间建立良好的协作关系能够自主分配任务并协同优化飞行路径。现有无人机轨迹优化的方案中，通常使用传统凸优化的方法，但随着任务复杂度的提升这一问题通常变成非凸难以求解，这类方法很难应用在未知多变场景下的无人机应急组网中。综上所述，在复杂的应急组网环境中，多无人机部署无线中继网络主要面临两个挑战：(1)如何最大化无人机的通信效率(如：吞吐量、能效)。(2)如何实现无人机的合作轨迹优化。

对于上述通信效率优化问题，大多数研究将无人机的能效和吞吐量作为主要优化目标。Saxena等人提出了近似策略优化算法来最大化GUs的吞吐量。Zhang等人提出了一个safe-deep-Q-network算法优化无人机飞行轨迹已实现最大化无人机吞吐量和能效。Gupta等人提出了顶点方法和顺序优化算法方法，以无人机轨迹和功耗为优化目标，在一定的用户间公平性下，实现了地面用户的吞吐量最大化。Zhang等人采用逐次凸逼近的方法，优化中继节点无人机的轨迹和信号发射功率，实现最大吞吐量和最优功耗。在上述算法中，无人机只根据当前获得的状态信息执行行动，而没有感知到地面用户和其他无人机的运动趋势，这就降低了无人机的通信效率。

对于无人机的合作轨迹优化，以前的工作主要是建立无人机的有效合作策略。Wu等人提出了一种基于联合的多代理深度确定性策略梯度的轨迹优化算法，以实现平均频谱效率最大化。Liu等人将单无人机Q-learning扩展到多无人机，每次只训练一个无人机，其他无人机的策略固定不变。然而，随着无人机数量的增加和网络拓扑结构的复杂化，无人机在合作优化飞行轨迹时需要考虑不同层次的关联性。此外，无人机和地面用户数量的增加将导致维度的诅咒。

综上所述，在现有方案中，多无人机之间均未建立复杂的协作关系，多智能体协同执行复杂任务问题，通常是一个非凸问题，用传统方法难以求解，而强化学习方法随着动作空间和智能体数量增加会出现维度灾难，制约着无人机组网的规模和节点数量。

发明内容

针对上述背景技术中存在的不足，本发明提出了一种分布式多无人机中继网络覆盖的方法，解决了在复杂环境中无人机集群未建立良好的协同关系得问题并保证每个网络节点的连通性。

本发明的技术方案是这样实现的：

一种分布式多无人机中继网络覆盖的方法，其步骤如下：

步骤一：建立多无人机通讯信道模型、能耗模型以及协同轨迹优化数学模型，并将协同轨迹优化数学模型转换为马尔科夫博弈模型；

步骤二：基于马尔科夫博弈模型，搭建集中训练分布式执行的多智能体深度强化学习算法，为每个无人机配备一个行动器和一个评价器，行动器根据无人机状态信息输出飞行轨迹，评价器输出对应的行动价值以训练行动器；

步骤三：针对行动器，建立双数据流结构网络，利用双数据流结构网络处理无人机的状态信息，输出无人机飞行轨迹；

步骤四：针对评价器，建立分层多头注意力编码器，通过注意力机制去除其他无人机的冗余信息，根据任务关联程度生成不同注意力等级，建立有效的合作策略；

步骤五：设计安全势场、吞吐量、无人机能耗相关的奖励函数，引导无人机学习到正确的协同轨迹优化策略实现中继网络覆盖；

步骤六：搭建多无人机协同部署中继网络的仿真环境，采用交互式训练的方式，训练每个无人机互相协作完成多跳的中继网络覆盖任务。

所述多无人机通讯信道模型的构建方法为：

设置无人机集合为

其相对坐标为

地面用户集合为

其相对坐标为

无人机之间的通讯为视距链路模型，无人机i和无人机j之间的链路损耗模型定义为：

其中，

为无人机i和无人机j之间的链路损耗，d_i,j为无人机i和无人机j之间的距离，f₀为通讯的载波频率，c为光速，η_LoS为附加衰减系数；

根据无人机i和无人机j之间的链路损耗计算无人机通讯信道的接受端平均功率、信噪比以及通讯速率：

其中，

表示无人机接受端的平均功率，P_U为无人机发射端功率，

为无人机通讯信道的信噪比，I_i,j(t)为其它无人机的信道干扰，σ²为加性高斯，

为无人机i和无人机j之间的通讯速率，B为通信带宽；

建立无人机与地面设备之间的信道模型：

其中，

为无人机i和地面设备k之间的通讯速率，

为无人机i对地面用户k之间的链路损耗，I_i,k(t)表示为其它无人机的信道干扰；

其中，

为视距链路损耗，

为非视距链路损耗，d_i,k(t)为无人机i与地面用户k之间的距离，η_LoS和η_NLoS表示为附加衰减系数；

为无人机i对地面用户k视距连接的概率，α、β均为环境因素的常量，θ_i,k(t)为地面设备到无人机的仰角。

所述能耗模型为：

其中，E_i(T)为无人机的总能耗，P_dyn(V(t))为飞行功耗，P_com为通讯功耗；

其中，P₀为叶片轮廓功率，P_i为悬停功率，U为叶尖线速度，V表示无人机飞行速度，v₀为悬停时转子诱导速度，d₀为机身阻力系数，s为电机体积，ρ为空气密度，A为电机面积。

所述协同轨迹优化数学模型为：

s.t.C1:E_i(T)≤e_safe；

C4:l_i(t),l_k(t)∈Ω_task；

C5:V_i<V_max；

C6:a_i<a_max；

其中，l_i(t)为无人机i的位置，

是地面用户的速率，M表示用户集合中元素个数，N表示无人机集合中元素个数，e_safe表示安全电量，R_min为节点间建立的最小通讯速率值，

为无人机安全域，Ω_obs∈R^3×1为障碍安全域，

为任务限定区域，V_max为最大速度约束，a_max为最大加速的约束。

所述将协同轨迹优化数学模型转换为马尔科夫博弈模型的方法为：

将任务时间T划分为M个时隙m∈[0,Mδ_t]，其满足T＝Mδ_t，在一个时隙内无人机动作、策略、网络参数保持不变；建立马尔科夫博弈过程参数{S,A,P,R}，S为状态空间，A为动作空间，P表示为状态转移函数，R为奖励函数，具体定义如下：

为无人机i在时隙m的状态

l_i(m)为无人机i在时隙m的位置，d_i,j(m)为与其他无人机的相对距离，d_i,k(m)为与目标服务用户的相对距离，d_i,obs(m)为与障碍的相对距离，R_i(m)为自身节点的通讯速率，E_i(m)为剩余电量；

A为无人机的动作空间

F_i(m)为无人机i在时隙m的飞行驱动力；P表示为状态转移函数S_m+1＝P(S_m,A_m)；R为模型的奖励函数。

所述奖励函数分为通讯奖励、能耗奖励、安全奖励；

首先建立通信奖励函数，当无人机i与地面用户建立连接后会得到自身奖励r_c，以及与此同时该链路上的所有无人机都会得到一个全局联通奖励r_g：

其中，

表示通讯奖励；

将无人机剩余电量作为奖励的一部分，无人机的能耗奖励值为：

其中，

表示无人机能耗奖励，μ表示能耗奖励系数，e₀为无人机安全电量阈值，E_i(m)为无人机剩余电量；

建立一种安全势场，d代表与障碍和无人机的距离，D_safe代表安全距离阈值，△d保证分母不为零：

其中，

表示无人机安全奖励，η表示惩罚系数，λ_safe表示无人机速度系数，d_i,obs(m)表示无人机i与障碍物的距离；

最终，无人机i在时隙m获得的奖励函数为：

所述多智能体深度强化学习算法为：

N个无人机的状态集合为

为每个智能体观测到的局部信息，以及无人机的动作集

状态转换函数为P(S_m+1|S_m,A_m)，即给定每个智能体当前状态和行动，输出下一时刻状态概率分布；奖励函数R(S_m,A_m)，给定无人机的当前状态和行动集合，输出每个无人机的奖励；期望折现回报函数J_i(π_i)表示为：

其中，

为在S_m状态下，所有智能体分别采取

动作获得奖励值，π_i为每个智能体学习到的策略函数，γ∈[0,1]代表奖励的衰减值；

为在a₁～π₁,…,a_N～π_N条件下的期望；

引入行动熵的策略梯度公式如下：

其中，

表示梯度，

表示期望折现回报函数，Ε_o～B,a～π表示期望，

为策略函数，其网络输出为每个动作对应的概率值，

为评价器，

表示所有无人机的局部状态信息，

表示所有无人机的动作，α为动作熵的系数，θ_i和ψ_i分别为行动器和评价器的网络参数，B是存储经验的缓冲区，它存储每个无人机时隙m的局部状态观察值

选取的动作值

采取动作

后的得到的状态值

以及对应获得的奖励

网络的损失函数为：

其中，

ε∈[0,1]，

是目标Q值网络，

为目标策略网络，

是目标批评家网络的网络参数，

是目标策略网络的网络参数。

行动器的运行策略为：

每个无人机会部署一个由人工神经网络构成的行动器，行动器根据无人机获取的状态信息输出对应的飞行动作；无人机的行动器中拥有一个缓存空间存储上一时隙的信息

与当前状态信息

做作差，得到状态的微分值

具体公式如下：

双数据流结构的行动器网络包括多层感知机层、批归一化层，以及残差连接结构；每个网络分支独立处理状态信息

和状态的微分值

无人机可以通过额外的

信息，感知障碍物、目标或者其他无人机的运动趋势，提前做出合适的动作。

评价器的运行策略为：

将注意力模块与评价器结合，通过输入编码器先将每个智能体的状态值与动作值进行编码得到e_i，将e_i输入分层多头注意力编码器得到e_a，再将e_a与e_i合并输入评价器输出Q值；其中多头注意力模块，每个头拥有三个权重矩阵：W_q、W_k、W_v，分别与每个无人机的状态值与动作值编码值e_i相乘得到，q_i、k_i、v_i三个向量，所有无人机的向量组合生成三个编码矩阵Q、K、V；

q_i＝W_qe_i

k_i＝W_ke_i；

v_i＝W_ve_i

H＝Vα_soft；

其中，α_soft为软注意力权重矩阵，d_k为注意力比例因子，α_soft再与V相乘得到输出矩阵H∈{h₁,h₂,...,h_n}，h_i融合了注意力权重的智能体信息。

与现有技术相比，本发明产生的有益效果为：本发明通过协同优化无人机集群的飞行轨迹和协作策略，实现最大化无人机的网络吞吐量和能效。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中多无人机协同路径优化算法流程图。

图2为本发明实施例中多无人机协同路径优化算分结构示意图。

图3为本发明实施例中无人机双数据流行动器的网络结构示意图。

图4为本发明实施例中无人机分层多头注意力编码器的网络结构示意图。

图5为本发明实施例中多无人机仿真训练环境示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1和2所示，本发明实施例提供了一种分布式多无人机中继网络覆盖的方法，具体步骤如下：

在应急通讯场景中，地面基站数量有限且无法大范围部署，地形复杂未知，地面人员和车辆需要鸟瞰视角以供导航以及稳定高带宽的通讯。部署一种无人机综合服务系统，该系统利用无人机集群与应急网路基站建立无线Mesh网络，将地面应急基站网络范围按需动态扩展。设置无人机集合为

其相对坐标为

地面用户集合为

其相对坐标为

地面用户分为快速移动的救援车辆，以恒定速度在路面上行驶,以及移动较慢的救援人员，移动方向不断随机变化。

在多无人机通讯场景中信道环境复杂，为了更符合实际通讯条件，将信道模型设定为空对空链路损耗模型和空对地链路损耗模型，并考虑视距链路损耗和非视距链路损耗。无人机之间的通讯为视距链路模型，无人机i和无人机j之间的链路损耗模型定义为：

其中，

其中，

表示无人机接受端的平均功率，P_U为无人机发射端功率，

为无人机i和无人机j之间的通讯速率，B为通信带宽。

建立无人机与地面用户和基站的信道模型，无人机应急通讯环境复杂多变，空对地的信道模型通常为视距链路损耗模型和非视距链路损耗模型的概率加权组合。由此无人机i对地面用户k之间的链路损耗模型为：

其中，

为视距链路损耗，

为非视距链路损耗，d_i,k(t)表示为无人机i与地面用户k之间的距离，η_LoS和η_NLoS表示为附加衰减系数；

无人机i和地面设备k之间的通讯速率为：

其中，

为无人机i和地面设备k之间的通讯速率，

建立无人机能耗模型，无人机能耗主要由两个部分组成，其分为通信能耗和飞行能耗，通信能耗对于无人机整体能耗占比低，并且浮动较小，因此为了简化系统模型的复杂度，本实施例将通讯部分功耗设为定值P_com。飞行功耗设定为：

其中，P₀为叶片轮廓功率，P_i为悬停功率，U为叶尖线速度，V表示无人机飞行速度，v₀为悬停时转子诱导速度，d₀为机身阻力系数，s为电机体积，ρ为空气密度，A为电机面积。公式的第一项为克服叶片阻力所产生的功耗，公式第三项为克服机身阻力的功耗，这两项随着速度增加而增加。公式第二项为克服叶片产生的诱导阻力的功耗，与速度成反比。最后无人机的总能耗为：

其中，E_i(T)为无人机的总能耗，P_dyn(V(t))为飞行功耗，P_com为通讯功耗。

将网络数据总吞吐量和任务能耗作为优化目标，以实现最大化通信能效，同时所有无人机节点和基站保持一定网络速率的有效通讯。避免无人机之间发生碰撞，并有效规避灾后复杂地形中的障碍物。优化无人机的机动速度与轨迹，降低无人机功耗，以增加留空时间。根据上述问题，本实施例建立了一个多约束多目标的优化模型，通过优化无人机的轨迹和协作策略，来实现最大化通讯能效，具体的数学模型如下：

s.t.C1:E_i(T)≤e_safe (12)

C4:l_i(t),l_k(t)∈Ω_task (15)

C5:V_i<V_max (16)

C6:a_i<a_max (17)

其中，l_i(t)为无人机i的位置，

为无人机安全域，Ω_obs∈R^3×1为障碍安全域，

为任务限定区域，V_max为最大速度约束，a_max为最大加速的约束。约束C1为无人机安全电量限制，确保无人机保留返航电量。约束C2表示网络节点之间通讯速率到达一定数值，以满足地面救援人员与车辆的通讯需求。约束C3中

为无人机安全域，Ω_obs∈R^3×1为障碍安全域，系统会限定无人机无法飞入该区域。约束C4中

为任务限定区域，无人机只能在该区域飞行。C5和C6为最大速度约束和最大加速的约束。

协同轨迹优化数学模型是一个混合整数优化问题，很难通过传统的轨迹优化算法来解决。因此，问题被表述为一种马尔科夫博弈问题，可以通过采用多智能体强化学习算法来解决，具体为：

将任务时间T划分为M个时隙m∈[0,Mδ_t]，其满足T＝Mδ_t，在一个时隙内无人机动作、策略、网络参数等近似不变；建立马尔科夫博弈过程参数{S,A,P,R}，S为状态空间，A为动作空间，P表示为状态转移函数，R为奖励函数，具体定义如下：

为无人机i在时隙m的状态

A为无人机的动作空间

F_i(m)为无人机i在时隙m的飞行驱动力；P表示为状态转移函数S_m+1＝P(S_m,A_m)，由于模型的状态空间很大，很难提前对状态转移提前建模，强化学习可以很好的解决这类无模型的优化问题。R为模型的奖励函数，是强化学习的能够完成训练的关键，直接影响模型性能。本文的奖励函数分为局部奖励和全局奖励，局部奖励是无人机完成自身任务的奖励，全局奖励是达到某些条件后所有智能体都会获得的奖励，以鼓励无人机之间的合作。奖励函数分为通讯奖励、能耗奖励、安全奖励。

其中，

表示通讯奖励。

将无人机剩余电量作为奖励的一部分，以最大可能的保存电量，无人机的能耗奖励值为：

其中，

表示无人机能耗奖励，μ表示能耗奖励系数，e₀为无人机安全电量阈值，E_i(m)为无人机剩余电量。

建立一种安全势场，来提高无人机避障功能的学习速度。障碍物、无人机以及服务区边界都建立一个势场，其范围随着速度动态调整，当无人机越靠近势场的中心其惩罚值就越大。d代表与障碍和无人机的距离，D_safe代表安全距离阈值，△d保证分母不为零：

其中，

表示无人机安全奖励，η表示惩罚系数，λ_safe表示无人机速度系数，d_i,obs(m)表示无人机i与障碍物的距离。

最终，无人机i在时隙m获得的奖励函数为：

利用多智能体深度强化学习来优化上述多无人机协同轨迹优化问题，具体的算法内容如下：

假设N个无人机的状态集合为

为每个智能体观测到的局部信息，以及无人机的动作集

其中，

为在S_m状态下，所有智能体分别采取

表示为在a₁～π₁,…,a_N～π_N条件下的期望；最大熵强化学习是在策略梯度的基础上增加了动作采样熵值，当智能选择可能性小的动作时，动作采样熵值就会较大，引入该项后算法会更鼓励智能体探索，避免陷入局部最优解，更适合复杂任务，其中引入行动熵的策略梯度公式如下：

其中，

表示梯度，

表示期望折现回报函数，Ε_o～B,a～π表示期望，

为策略函数，其网络输出为每个动作对应的概率值，

为评价器，两者都由人工神经网络构成。本实施例采用集中训练分散式执行的架构，其评价器共享一个损失函数，共同更新参数最小化误差值。

表示所有无人机的局部状态信息，

选取的动作值

采取动作

后的得到的状态值

以及对应获得的奖励

网络的损失函数为：

其中，

ε∈[0,1]，

是目标Q值网络，

为目标策略网络，

是目标批评家网络的网络参数，

是目标策略网络的网络参数，他们通过ψ和θ网络参数软更新的方式更新，ε为软更新的原数据保留系数。

步骤三：针对行动器，建立双数据流结构网络，利用双数据流结构网络处理无人机的状态信息，输出无人机飞行轨迹；在行动器中构建一种双数据流结构，同时处理无人机的状态信息和状态信息的微分从而提高无人机动态性能。

上述提到的策略网络

对应的是强化学习中的行动器，为了无人机更适应动态场景，本发明提出了一种双数据流的行动器网络结构如图3所示，具体内容如下：

与当前状态信息

做作差，得到状态的微分值

具体公式如下：

和状态的微分值

无人机可以通过额外的

信息，感知障碍物、目标或者其他无人机的运动趋势，提前做出合适的动作。另外，增加网络微分信息可以实时监控无人机链路的信号变化趋势，提前做出应对策略，也可以感知到网络节点连接和断开等状态变化的上升沿和下降沿。该动作器网络由人工神经网络构成，由多层感知机(MLP)，全连接层(Linear)，批归一化(BN)以及残差网络结构组成。

步骤四：针对评价器，建立分层多头注意力编码器，通过注意力机制去除其他无人机的冗余信息，根据任务关联程度生成不同注意力等级，建立有效的合作策略；在评价器中建立一种分层多头注意力编码器，通过注意力机制去除其他无人机的冗余信息，根据任务关联程度生成不同注意力等级，建立有效的合作策略。

上述提到的

网络为强化学习中的评价器网路，在传统的集中训练分散式执行的训练框架下，每个行动器都分配一个评价器，每个评价器将所有智能的状态信息与动作信息作为输入，输出对应动作的评价值。由此造成两个问题，1、随着智能体以及用户数量的增加，评价器的网络规模会呈指数增加，将会造成维度灾难。2、智能体之间的关系与重要程度是不同的，且随着任务的进行、状态的变化而实时变化，如果评价器均等考虑所有智能体的信息，就会造成过多无关智能体信息的干扰，也很难建立的复杂的协作策略。

为了解决上述问题，本发明提出了一个分层多头注意力编码器，该编码器通过注意力机制，增加关联无人机信息编码权重抑制无关无人机的信息减少干扰，从而建立正确的协助关系，其结构由图4所示，具体内容如下：

H＝Vα_soft (29)

其中，α_soft为软注意力权重矩阵，d_k为注意力比例因子，α_soft再与V相乘得到输出矩阵H∈{h₁,h₂,...,h_n}，h_i融合了注意力权重的智能体信息。该编码器网络由人工神经网络构成，由多层感知机(MLP)，全连接层(Linear)，层归一化(LN)以及残差网络结构组成。

算法运行平台为Intel Core i9-11900H、NVIDIA GeForce RTX3090、基于python3.6、pytorch1.7软件平台。利用OpenAI的多粒子环境，搭建了一个2km x 2km的正方形区域内构造一个简易路网和地面用户以及障碍物，地面用户沿着道路以随机的速度移动，中心区域架设地面网络基站，无人机集群通过组网中继的方式将基站网络覆盖到用户所在的区域如图5所示。每个无人机配备一个评价器和行动器，评价器根据全部无人机的状态和动作来训练行动器，当完成训练后，每个无人机不再需要评价器，只利用行动器根据自身观测到的局部状态信息，实现多无人机的协同。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。