CN115407794A

CN115407794A - 基于强化学习的海域安全通信无人机轨迹实时规划方法

Info

Publication number: CN115407794A
Application number: CN202211024919.5A
Authority: CN
Inventors: 王伟; 杨永杰; 陈俊杰; 曹张华; 孙强; 刘锦涛; 吴磊
Original assignee: Nantong University; Nantong Research Institute for Advanced Communication Technologies Co Ltd
Current assignee: Nantong University; Nantong Research Institute for Advanced Communication Technologies Co Ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-29

Abstract

本发明提供了基于强化学习的海域安全通信无人机轨迹实时规划方法，属于通信技术领域。解决了传统优化方法无法实时处理海洋动态场景的问题。其技术方案为：步骤一、建立联合大尺度衰落和小尺度衰落的UAV‑船舶信道模型；步骤二、得到移动船舶、窃听节点接收的信干燥比和速率；步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹；步骤四、使用Q‑learning和DDPG算法来进行轨迹优化；步骤五、设置相关仿真参数；步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果。本发明的有益效果为：本发明针对不同船舶的通信需求实时的规划出UAV飞行轨迹，有效保障海洋通信的实时性。

Description

基于强化学习的海域安全通信无人机轨迹实时规划方法

技术领域

本发明涉及通信技术领域，尤其涉及基于强化学习的海域安全通信无人机轨迹实时规划方法。

背景技术

目前海上通信以卫星通信和移动通信为主。然而，卫星通信传输时延大且成本高，大多只能提供窄带通信。移动通信覆盖范围小，无法满足远海通信需求。相比于海事卫星和岸基基站，无人机辅助的海洋通信具有部署灵活，覆盖范围大等优势。且UAV还可以通过轨迹设计来更加接近目标用户，提供良好的视距链路，从而显著提高传输速率和缩短通信时延。然而， UAV的LOS广播传输易被潜在的窃听者所拦截。因此，我们特别考虑一种UAV辅助的海洋安全通信场景，UAV的飞行轨迹应在接近目标用户的同时远离潜在窃听者。由于UAV不能在海面上着陆或补充能量，其在海洋上的飞行轨迹应在起飞前规划。同时，在实际的海洋环境中，UAV的初始起飞位置和船舶的航线可能是随机的，这将导致一个时变的动态环境。因此，现有方法无法解决海域UAV安全通信中的轨迹实时规划问题。

发明内容

本发明的目的在于提供基于强化学习的海域安全通信无人机轨迹实时规划方法；解决了传统优化方法无法实时处理海洋动态场景的问题，针对不同船舶的通信需求实时的规划出UAV飞行轨迹，有效保障海洋通信的实时性。

发明的思想为：首先考虑海洋传播的独特性带来了新的信道特性，如散射体稀疏性、海浪运动影响、海洋表面波导效应、气候影响等，与陆地场景的UAV-地面自由空间损耗模型相比，本发明提出了联合大尺度和小尺度衰落的UAV-船舶信道建模，可以较好的反映海浪运动和海洋散射等带来的影响；其次，与现有算法相比，本发明提出的基于Q-learning与DDPG的强化学习算法都将UAV的初始位置考虑在内(UAV起飞点随机分布在岸边)，在每次优化轨迹前UAV的初始位置都是随机选择的，因此提出的两种算法都可以解决UAV 不同起飞点的动态轨迹规划问题；最后，与现有算法相比，本发明提出的基于Q-learning 与DDPG的强化学习算法可以对船载AIS获取的不同船舶航道信息进行学习，从而针对不同船舶的通信需求可以实时的规划出UAV飞行轨迹，有效保障海洋通信的实时性。

为了实现上述发明目的，本发明采用技术方案具体为：所述方法包括以下步骤：

步骤一、建立联合大尺度衰落和小尺度衰落的UAV-船舶信道模型；

步骤二、通过船载AIS获得船舶的航道信息，并分别得到移动船舶、窃听节点接收的信干燥比和速率；

步骤三、通过求解系统最大平均保密速率来获得无人机的最优轨迹；

步骤四、基于离散空间的无人机运动模型和基于连续空间的无人机运动模型，分别使用Q-learning和DDPG算法来进行轨迹优化；

步骤五、设置相关仿真参数；

步骤六、展示不同起飞位置下两种算法的UAV轨迹实时规划结果、不同船舶航迹下两种算法的UAV轨迹实时规划结果、两种算法每次迭代得到的平均奖励和不同飞行时间下不同算法得到的平均保密速率。

所述步骤一中，假设将无人机S的飞行时间T按极小等间隔d_t化分成N个时隙，即 T＝Nd_t；在每个时隙内，考虑到实际的海域信道特性容易受到海面状况和气象条件环境因素的影响，因此，无人机-移动船舶或窃听的信道衰落模型建模成包括大尺度衰落和小尺度衰落的表示形式：

其中，g_sd[n]为无人机S到移动船舶D的信道功率增益，

为无人机S到窃听节点 E_k的信道功率增益；

式中，

表示UAV到船舶D 的距离，

表示UAV到窃听E_k的距离。

所述步骤二中，海洋上的船只是沿着预先规划好的航道行驶，而航道信息通过船载AIS 获得，因此假设船舶D的航线为：

其中，V_d为船舶最大航运速度，d_t表示时隙，x_d[n]表示船舶D在n时隙在x轴的坐标，x_d[n+1]表示船舶D在n+1时隙在x轴的坐标，y_d[n]表示船舶D在n时隙在y轴的坐标， y_d[n+1]表示船舶D在n+1时隙在y轴的坐标，(x_d[n],y_d[n])和(x_d[n+1],y_d[n+1])分别表示船舶在n和n+1时隙的位置；

移动船舶D接收的信干燥比和速率为：

式中：SINR表示信干燥比，SINR_d表示船舶D的信干燥比，R_d表示船舶D的速率，P_s[n]表示UAV的发射功率；

表示船舶D处的噪声方差；

窃听节点接收的信干燥比和速率为：

式中，SINR表示信干燥比，

表示窃听节点E的信干燥比，

表示窃听E 处的噪声方差；

对系统进行优化，系统最大的平均保密速率表示为：

式中，

为无人机最大水平飞行速度。

所述步骤四中，基于Q-learning的海域无人机轨迹优化：

首先，提出了一个解决离散轨迹优化问题的Q-learning框架，将Q-learning算法视为一个马尔可夫决策过程，它表示为一个集合<S，A，R，P，γ>；

S＝{s₁,s₂,....}表示每个时隙UAV出现的位置或状态集合；

其中，第n个时隙的状态可表示为：S_n＝{x_s(n),y_s(n),H}，(x_s(n),y_s(n))表示UAV的水平坐标，H表示UAV的垂直坐标；

A表示UAV可用的动作集，在Q-learning框架下的离散空间内有9个可用动作{上，下，左，右，左上，右上，左下，右下，悬停}；

R是UAV的奖励函数，表示为r_n＝r_s+r_b+r_f；

其中r_s表示保密速率奖励，r_b表示UAV飞出边界的惩罚，r_f表示飞行时间惩罚；

P表示状态转移概率，P(s′|s，a)表示UAV在当前状态s采取动作a后移动到下一个状态s′的概率分布；

γ表示折扣因子，决定着UAV重视未来奖励还是当前奖励；

在每一次迭代开始时，随机选择岸上的一个UAV起飞点进行训练，且由于移动船舶按照固定航道航行，航道信息通过船载AIS历史信息得到；

首先UAV会在第n个时隙根据探索率ε选择一个动作a_n，当该动作导致UAV飞出边界或无法按时返航时，UAV将受到r_b和r_f的惩罚，

其中：r_b和r_f为负常数；

否则UAV将根据a_n移动到下一个状态s′并且获得奖励r_n；

然后根据更新公式：

Q_π(s_n，a_n)←Q_π(s_n，a_n)+α(r_n+γmaxQ_π(s_n+1，a_n+1)-Q_π(s_n，a_n))来更新Q表；

其中，Q_π(s,a)＝Ε(R_n＝|s_n＝s,a_n＝a)，表示当UAV遵循策略π(a|s)在状态s采取动作a 后得到的未来奖励期望；

表示在第n个时隙UAV总的折扣奖励，

表示学习率；

针对不同的船舶航道信息，按照以上训练过程进行训练，有效解决UAV不同起飞点和船舶不同航道下的动态轨迹规划问题。

所述步骤四中，基于DDPG的海域无人机轨迹优化：

建立解决连续轨迹优化问题的DDPG框架，在每一次迭代开始时，随机选择岸上的一个UAV起飞点进行训练，且由于移动船舶按照固定航道航行，航道信息通过船载AIS历史信息得到；

在每个时隙，首先在Actor当前网络中加入随机噪声n_N来避免UAV陷入局部优化，这时动作a＝π_θ(s)+n_N，这里

其中：Actor当前网络表示：负责通过梯度下降法更新参数θ，并且根据当前状态s得到采取的动作a，用以与环境交互产生下一个状态s′和奖励r_n；

其次，同样考虑边界与飞行时间的问题，当该动作导致UAV飞出边界或无法按时返航时，UAV将受到r_b和r_f的惩罚，其中，r_b和r_f为负常数；

否则UAV将根据a_n移动到下一个状态s′并且获得奖励r_n；接着将相应的元素 (s_n，a_n，r_n，s_n+1)放入经验池R_b中；

当经验池放满后，从经验池中批量采样并根据损失函数

和梯度函数

分别来更新Critic当前网络和Actor当前网络的参数θ和ω，其中，N_b为小批量采样的样本数，并且 y_n＝r+γQ′(s′，a′，ω′)；

其中：Critic当前网络表示：负责计算当前Q(s，a，ω)值，并且根据目标值y_n＝r+γQ′(s′，a′，ω′)来更新参数ω，其中r为UAV的奖励；

最后采取软更新的方式，即θ′←τθ+(1+τ)θ′，ω′←τω+(1+τ)ω′将当前网络参数θ和ω更新至Criticr目标网络和Actor目标网络中，其中τ＜＜1表示更新因子；

其中：Actor目标网络表示：负责将参数θ定期更新到θ′，然后根据经验池中的状态s′得到下一个动作a′；

Critic目标网络表示：负责将参数ω定期更新到ω′，并且计算Q′(s′，a′，ω′)给当前网络更新参数ω。

同样，针对不同的船舶航道信息，按照以上训练过程进行训练，有效解决UAV不同起飞点和船舶不同航道下的动态轨迹规划问题。

所述步骤五中，UAV的初始位置(x₀，y₀)在(0，[0，300])m的范围内随机选择，终点位置 (x_F，y_F)＝(300，150)m，其中(x₀，y₀)和(x_F，y_F)分别表示UAV初始位置和终点位置的水平坐标；移动船舶D的初始位置水平坐标(x_d[0]，y_d[0])＝(0，150)m；假设海洋上存在两个窃听者，水平坐标分别为

和

此外，假设信道功率增益p₀以及莱斯因子K[n]分别为40dBm和31.3；噪声方差

UAV的传输功率

UAV的最大飞行速度

船舶的最大航行速度

UAV的飞行高度H＝50m；Q-learning 算法的参数设置如下，学习率α＝0.3，折扣因子γ＝0.99，一开始的探索率ε＝1，探索率的衰减因子κ＝0.99995；DDPG算法的参数设置如下，经验池的大小R_b＝100000，小批量采样数N_b＝64，Actor与Critic网络的学习率分别为10^-4和10^-3。

与现有技术相比，本发明的有益效果为：

1、本发明提出的基于Q-learning与DDPG的强化学习算法都将UAV的初始位置考虑在内，在每次优化轨迹前UAV的初始位置都是随机选择的，因此提出的两种算法都可以解决UAV不同起飞点的动态轨迹实时规划的问题。

2、与现有的传统优化算法相比，本发明提出的基于Q-learning与DDPG的强化学习算法都将UAV的初始位置考虑在内(UAV起飞点随机分布在岸边)，在每次优化轨迹前UAV 的初始位置都是随机选择的；同时提出的基于Q-learning与DDPG的强化学习算法可以对船载AIS的不同航道信息进行学习，从而针对不同船舶的通信需求可以实时的规划出UAV 飞行轨迹，有效保障海洋通信的实时性。因此提出的两种算法都可以解决不同UAV起飞点和不同船舶航道的动态轨迹规划问题。

3、本发明提出的强化学习方案主要面对的是海洋场景，其中海上用户不像陆地用户是固定的或随机分布，海上船舶有各自固定的航道，且具有可预测的移动模式；同时，相比于陆地场景，海域信道特性更加容易受海面状况和气象条件等环境因素影响，虑海洋传播的独特性带来了新的信道特性，散射体稀疏性、海浪运动影响、海洋表面波导效应、气候影响。因此，本发明提出的强化学习算法充分考虑了海洋固有环境的约束影响，解决了现有算法无法直接拓展到海洋场景问题。与陆地场景的UAV-地面自由空间损耗模型相比，本发明提出了联合大尺度和小尺度衰落的UAV-船舶信道建模，可以较好的反映海浪运动和海洋散射等带来的影响。

4、本发明基于强化学习算法实现海域动态环境下UAV轨迹的实时规划，大大提升了海洋通信的性能和效率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明的整体流程图。

图2为本发明基于Q-learning算法的无人机轨迹优化流程图。

图3为本发明基于DDPG算法的无人机轨迹优化流程图。

图4为本发明不同起飞位置下基于Q-learning算法和基于DDPG算法的UAV轨迹实时规划结果。

图5为本发明中不同船舶航迹下基于Q-learning算法和基于DDPG算法的UAV轨迹实时规划结果。

图6为本发明基于Q-learning算法和基于DDPG算法每次迭代得到的平均奖励曲线图。

图7为本发明不同飞行时间下不同算法得到的平均保密速率曲线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

请参考图1，基于强化学习的海域安全通信无人机轨迹实时规划方法，所述方法包括：

所述方法包括以下步骤：

步骤五、设置相关仿真参数；

其中，g_sd[n]为无人机S到移动船舶D的信道功率增益，

为无人机S到窃听节点 E_k的信道功率增益；

式中，

表示UAV到船舶D 的距离，

表示UAV到窃听E_k的距离。

移动船舶D接收的信干燥比和速率为：

表示船舶D处的噪声方差；

窃听节点接收的信干燥比和速率为：

式中，SINR表示信干燥比，

表示窃听节点E的信干燥比，

表示窃听E 处的噪声方差；

对系统进行优化，系统最大的平均保密速率表示为：

式中，

为无人机最大水平飞行速度。

请参考图2，所述步骤四中，基于Q-learning的海域无人机轨迹优化：

S＝{s₁,s₂,....}表示每个时隙UAV出现的位置或状态集合；

R是UAV的奖励函数，表示为r_n＝r_s+r_b+r_f；

γ表示折扣因子，决定着UAV重视未来奖励还是当前奖励；

其中：r_b和r_f为负常数；

否则UAV将根据a_n移动到下一个状态s′并且获得奖励r_n；

然后根据更新公式：

表示在第n个时隙UAV总的折扣奖励，

表示学习率；

请参考图3，所述步骤四中，基于DDPG的海域无人机轨迹优化：

当经验池放满后，从经验池中批量采样并根据损失函数

和梯度函数

其中：Critic当前网络表示：负责计算当前Q(s，a，ω)值，并且根据目标值 y_n＝r+γQ′(s′，a′，ω′)来更新参数ω，其中r为UAV的奖励；

和

UAV的传输功率P_s[n]＝15dBm，UAV的最大飞行速度

船舶的最大航行速度

请参考图4-7，图4中移动船舶D的初始位置由☆表示，×表示窃听者E_n的位置，△和▽分别表示UAV的起始位置以及终点位置。由于在实际场景中UAV起飞点随机分布在岸边，传统算法无法处理这种动态起飞点情况。而在我们提出的Q-learning与DDPG算法都将UAV的初始位置考虑在内，在每次优化轨迹前UAV的初始位置都是随机选择的，因此两种算法都可以解决UAV的动态轨迹优化问题。从图4所示的仿真结果来看，对于任意给定的UAV初始位置(x₀，y₀)＝(0，210)m和(x₀，y₀)＝(0，90)m(如在实际中，选择提供通信服务的无人机不空闲，需要选择另一架无人机提供服务)，Q-learning与DDPG算法都能实时规划出无人机的轨迹。从轨迹图可以看出，UAV都是首先在避开窃听者E₁的情况下去追船，然后尽可能长的时间跟随船舶，最后由于飞行时间限制，UAV会在避开窃听者E₂的情况下朝着终点飞行。UAV的这种飞行模式表明当它在接近目标的同时也要避开窃听者，这样才能尽可能的最大化安全速率。

图5中展示了Q-learning与DDPG算法对于不同船舶航道lane(x_d[n]，y_d[n])和航速

下获得的UAV轨迹实时规划图，船舶的航道信息可以通过船载AIS获得。从仿真结果我们可以看出，对于移动船舶1(实线△，最大航行速度

)和移动船舶2(虚线△，最大航行速度

)来说，Q-learning与DDPG算法得到的UAV轨迹都是在尽可能避开窃听的情况下长时间跟船后返航。而对比移动船舶1和移动船舶2中UAV的轨迹，我们可以发现，在移动船舶2中UAV在经过两个窃听时，没有像以前一样紧跟移动船舶，而是在两个窃听者的中间地段飞行。这主要是由于在窃听者中间飞行，可以尽可能的同时远离两个窃听。

图6中展示了Q-learning与DDPG算法在每次迭代后获得的奖励。从图中我们可以看出，随着迭代次数的增加，两种算法得到的平均保密速率首先都会增加，然后逐渐趋于稳定。此外，对比两种算法，我们可以看到，DDPG算法明显比Q-learning更早收敛，这主要是由于随着不断的训练，Actor网络逐渐趋于稳定后，每次都会得到最优的动作，而使训练效率提高。另外，我们还可以发现，相比于Q-learning算法，DDPG算法最后收敛的保密速率更高，这主要归功于DDPG算法可以使UAV更加自由的选择飞行动作，使得UAV可以更好的接近移动船舶，提供更好的通信服务。

图7中展示了提出的Q-learning与DDPG算法性能与A3C算法和传统优化算法(COA算法)进行对比。对比A3C与DDPG算法，我们发现它们性能比较接近，DDPG算法略优，这是由于它们都使用了Actor-Critic框架。而与Q-learning算法相比，所提DDPG算法效果更好，这主要是因为DDPG算法可以解决智能体在连续空间下的轨迹优化问题，使UAV可以更好的接近移动船舶。最后，我们看出COA算法相较于其他强化学习算法性能较差，这主要是由于传统优化算法无法很好的适应高度动态化的海洋环境。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于强化学习的海域安全通信无人机轨迹实时规划方法，其特征在于，包括以下步骤：

步骤五、设置相关仿真参数；

2.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法，其特征在于，所述步骤一中，假设将无人机S的飞行时间T按极小等间隔d_t化分成N个时隙，即T＝Nd_t；在每个时隙内，考虑到实际的海域信道特性容易受到海面状况和气象条件环境因素的影响，因此，无人机-移动船舶或窃听的信道衰落模型建模成包括大尺度衰落和小尺度衰落的表示形式：

其中，g_sd[n]为无人机S到移动船舶D的信道功率增益，

为无人机S到窃听节点E_k的信道功率增益；

式中，

表示UAV到船舶D的距离，

表示UAV到窃听E_k的距离。

3.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法，其特征在于，所述步骤二中，海洋上的船只是沿着预先规划好的航道行驶，而航道信息通过船载AIS获得，因此假设船舶D的航线为：

其中，V_d为船舶最大航运速度，d_t表示时隙，x_d[n]表示船舶D在n时隙在x轴的坐标，x_d[n+1]表示船舶D在n+1时隙在x轴的坐标，y_d[n]表示船舶D在n时隙在y轴的坐标，y_d[n+1]表示船舶D在n+1时隙在y轴的坐标，(x_d[n],y_d[n])和(x_d[n+1],y_d[n+1])分别表示船舶在n和n+1时隙的位置；

移动船舶D接收的信干燥比和速率为：

表示船舶D处的噪声方差；

窃听节点接收的信干燥比和速率为：

式中，SINR表示信干燥比，

表示窃听节点E的信干燥比，

表示窃听E处的噪声方差；

对系统进行优化，系统最大的平均保密速率表示为：

式中，

为无人机最大水平飞行速度。

4.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法，其特征在于，所述步骤四中，基于Q-learning的海域无人机轨迹优化：

S＝{s₁,s₂,....}表示每个时隙UAV出现的位置或状态集合；

R是UAV的奖励函数，表示为r_n＝r_s+r_b+r_f；

γ表示折扣因子，决定着UAV重视未来奖励还是当前奖励；

其中：r_b和t_f为负常数；

否则UAV将根据a_n移动到下一个状态s′并且获得奖励r_n；

然后根据更新公式：

来更新Q表；

其中，Q_π(s,a)＝Ε(R_n＝|s_n＝s,a_n＝a)，表示当UAV遵循策略π(a|s)在状态s采取动作a后得到的未来奖励期望；

表示在第n个时隙UAV总的折扣奖励，

表示学习率。

5.根据权利要求4所述的基于强化学习的海域安全通信无人机轨迹实时规划方法，其特征在于，所述步骤四中，基于DDPG的海域无人机轨迹优化：

否则UAV将根据a_n移动到下一个状态s′并且获得奖励r_n；接着将相应的元素(s_n，a_n，r_n，s_n+1)放入经验池R_b中；

当经验池放满后，从经验池中批量采样并根据损失函数

和梯度函数

分别来更新Critic当前网络和Actor当前网络的参数θ和ω，其中，N_b为小批量采样的样本数，并且γ_n＝r+γQ′(s′,a′ω′）；

采取软更新的方式，即θ′←τθ+(1+τ)θ′，ω′←τω+(1+τ)ω′将当前网络参数θ和ω更新至Criticr目标网络和Actor目标网络中，其中τ＜＜1表示更新因子；

6.根据权利要求1所述的基于强化学习的海域安全通信无人机轨迹实时规划方法，其特征在于，所述步骤五中，UAV的初始位置(x₀，y₀)在(0，[0，300])m的范围内随机选择，终点位置(x_F，y_F)＝(300，150)m，其中(x₀，y₀)和(x_F，y_F)分别表示UAV初始位置和终点位置的水平坐标；移动船舶D的初始位置水平坐标(x_d[0]，y_d[0])＝(0，150)m；假设海洋上存在两个窃听者，水平坐标分别为

和

UAV的传输功率P_s[n]＝15dBm，UAV的最大飞行速度

船舶的最大航行速度

UAV的飞行高度H＝50m；Q-learning算法的参数设置如下，学习率α＝0.3，折扣因子γ＝0.99，一开始的探索率ε＝1，探索率的衰减因子κ＝0.99995；DDPG算法的参数设置如下，经验池的大小R_b＝100000，小批量采样数N_b＝64，Actor与Critic网络的学习率分别为10^-4和10^-3。