CN115119174A

CN115119174A - 灌区场景中基于能耗优化的无人机自主部署方法

Info

Publication number: CN115119174A
Application number: CN202210758217.3A
Authority: CN
Inventors: 王侃; 郑翔; 刘卓琳; 舒永翔; 徐凯歌; 郑霖
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-27

Abstract

本发明公开的灌区场景中基于能耗优化的无人机自主部署方法，首先，构建由地面基站、无人机基站、地面终端组成的空地协作无人机组网模型；针对空对地通信过程的路径损耗，构建能耗优化模型；搭建基于DQN算法的强化学习神经网络模型，训练神经网络，通过梯度下降法优化损失函数，得到当前状态下最优无人机位置部署策略。本方法通过结合强化学习的决策能力和深度学习的感知能力，提高无人机基站的部署速度，快速组建空中移动基站，同时减少部署过程中的路径损耗和能耗，能在复杂灌区环境中增强蜂窝网络覆盖服务并节约部署能耗。

Description

灌区场景中基于能耗优化的无人机自主部署方法

技术领域

本发明属于无人机控制技术领域，具体涉及一种灌区场景中基于能耗优化的无人机基站自主部署方法。

背景技术

当前无人机应用飞速发展，无人机自身固有的机动性和灵活性使其在无线系统中有非常大的应用潜力。我国是传统农业大国，农业灌区中水资源的配置及农作物生长情况影响总体农业生产，为提升农业生产效率，需对灌区水资源配置与作物生长情况进行数据监测，并通过蜂窝网络将采集的数据信息传输至灌区信息化系统，进行数据的集中管理与分析，从而提高灌区用水效率。传统的灌区网络管理方式，对于一些偏远的有网络通信需求却无需长时间网络覆盖的灌区，效率低下，造成人力物力的浪费。现有灌区蜂窝网络的容量和覆盖极为紧张，部署低空无人机被认为是复杂灌区地理区域中提供无线连通的有效方法。一方面，高空平台无人机可提供更长期的持续解决方案，为灌区提供网络覆盖并为信息化灌区终端设备按需提供连接和高数据率无线通信服务。另一方面，物联网技术应用中，空地一体化协同组网架构在增强灌区移动通信系统性能方面有巨大潜力，能够在由于障碍物或相隔距离太远而无法直接通信的环境中，保持可靠的通信链路。

目前无人机大多采用电池供电，执行任务时间有限，因此现有研究主要考虑将能量更多的用于飞行过程；另一方面，无人机基站部署的速度也会对网络通信质量和数据传输效率造成影响，因此无人机基站自主部署所面临的最大挑战为：如何利用最低能耗来快速部署无人机基站，以为终端用户提供智能接入服务。提高无人机组建空中移动基站的速度、实现部署最优覆盖、减少部署过程中的路径损耗以及能量消耗和快速选择最优位置是提升部署效率、节省能量的有效方法。已有的针对控制无人机解决通信问题的方法主要包括以下两个方向：第一，传统强化学习算法，其具有一定局限性，如较早在通信领域应用的强化学习算法Q-learning只适用于离散动作空间较小的无人机部署场景中，从而在灌区多终端复杂环境下无法实时获得连续动作获取的最优策略；第二，粒子群算法，该方法局部搜索能力差，容易陷入局部极值。

发明内容

本发明的目的是提供一种灌区场景中基于能耗优化的无人机基站自主部署方法，利用深度强化学习算法通过神经网络训练来得到无人机部署的模型参数，从而得到灌区场景中无人机自主部署过程中所应采取的最优动作和最佳位置。

本发明所采用的技术方案是，灌区场景中基于能耗优化的无人机基站自主部署方法，具体按照以下步骤实施：

步骤1、构建由地面基站、无人机基站和地面终端组成的空地协作无人机组网模型；

步骤2、基于步骤1构建的空地协作无人机组网模型，针对空对地通信过程的路径损耗，构建能耗优化模型，得到能耗奖励值；

步骤3、针对步骤2得到的过程能耗奖励值，搭建基于DQN算法的强化学习神经网络模型；

步骤4、训练步骤3得到的神经网络模型，实时得到最优动作，对无人机进行自主部署。

本发明的特点还在于：

步骤1具体操作为：

步骤1.1、地面基站与终端间的通信链路为非可视距链路，地面基站和无人机基站之间以及无人机基站和终端之间的通信链路为可视距链路；

步骤1.2、将无人机提供通信覆盖的目标灌区划分为i*j个单元，并用B＝{b₁₁,b₁₂,b₁₃,…b_ij}表示地面传感设备的分布指示变量集合，即：若单元ij(i∈{1,2,3,…I},j∈{1,2,3,…J})中有传感设备时,指示变量b_ij＝1；否则，b_ij＝0；用C＝{c₁₁,c₁₂,c₁₃,…,c_ij}表示无人机覆盖的指示变量集合，即：单元ij被无人机覆盖时，c_ij＝1；否则，c_ij＝0；由集合B和C可以得到地面终端覆盖状态的集合W＝{w₁₁,w₁₂,w₁₃,…,w_ij}，若w_ij＝1表示该位置有终端且被覆盖，可以进行通信；

设定无人机的初始位置为(u_X0,u_y0,0)，在t时刻无人机的位置为

为了寻找一个相对最优策略，在平衡覆盖率的和能耗的前提下，无人机以最少的能耗部署，t时刻的覆盖率定义为被覆盖地面终端的数量除以地面终端总数量：

步骤1.3、基于空对地信道模型，目标单元ij和无人机基站之间的视距(Line-of-Sight，LoS)链路定义为：

其中，a，b是基于环境的常数权重，其取值大小有环境中障碍物占地面积与总土地面积的比值和灌区中单位面积障碍物数量及高度发布的比例参数所决定，h表示无人机基站高度，r_ij为无人机基站与单元ij之间的水平距离；非视距(Non Line-of-Sight，NLoS)链路计算为：

P_NLoS＝1-P_LoS。 (3)

步骤2具体按照以下步骤实施：

步骤2.1、空地协作无人机组网模型的通信过程中视距链路与非视距链路的路径损失：

其中，f_c为载波频率，η_LoS为基于环境因素的视距信号传输平均附加路径损耗，η_NLoS为基于环境因素的强反射信号传输平均附加路径损耗，d_ij为无人机和单元ij的直线距离，即

基于步骤1的LoS和NLoS型，空对地链路平均损失为：

L(h,r_ij)＝L_LoS*P_LoS+L_NLoS*P_NLoS (7)

对于给定的无人机发射功率P_t，单元ij接收的功率为P_r：

P_r＝P_t-L(h,r_ij) (8)

其中，P_r需要超过一个阈值P_min，若单元ij的链路经历的路径损耗不超过某个阈值k，则单元ij将被覆盖，即

L(h,r_ij)≤k； (9)

步骤2.2、最小化其部署过程中的能量消耗，具体为：设定无人机水平飞行单位距离的能耗为e₁，垂直飞行单位距离能耗为ηe₁，η参数根据无人机型号代入相应的参数，部署过程的能耗为：

为达到要求覆盖率的同时移动能耗最少，t时刻的奖励函数定义为：

其中R_t为t时刻的奖励值，Δe＝e^t-e^t-1为覆盖率增量。

当路径损耗L(h,r_ij)大于k时：

R_t＝R_t-p (12)

步骤3具体按照以下步骤实施：

针对过程能耗奖励值，搭建基于DQN算法的深度强化学习神经网络，该网络输入的是状态，输出的是该状态对应的所有行为所给予的奖励，选择最大奖励对应的行为，网络结构设置为全连接网络，设有三个隐含层，每层有48个节点，激活函数为ReLU函数；

DQN引入深度学习，优势在于可以处理大规模的状态输入，同时考虑没有出现过的状态也可以尽力拟合数据，

值函数更新公式：

Q(s,a)←Q(s,a)+α(R+γmax_a'Q'(s',a')-Q(s,a)) (13)

式中，当前智能体处于s状态，执行了a这个动作，获得了R奖励，此时智能体处于s'状态，然后选择了a'这个动作但是没有执行，通过行为价值函数得到Q'(s',a')以及即时奖励R来更新Q(s,a)的价值，然后继续执行a'动作。

步骤4具体按照以下步骤实施：

步骤4.1、训练神经网络参数，然后初始化一个经验回放库，通过抽取批量记忆的方式训练神经网络模型，同时使用样本无偏估计总体，使得神经网络模型更容易朝着极值点优化；

步骤4.2、训练神经网络，每次迭代步中，均使用ε-贪婪策略选择行为，对于某个单一样本来说，时序差分强化学习目标值：

y＝R+γmax_a'Q'(s',a'；θ') (14)

其中，γ为衰减因子，θ'为DQN模型的权重向量，R的设计十分重要，需要不断调试，一般来说是给一个较大的值，然后通过贝尔曼方程前向更新；

步骤4.3、通过梯度下降法优化损失函数，将TD误差最小化，

损失函数为：

本发明的有益效果是：

本发明的灌区场景中基于能耗优化的无人机自主部署方法，结合强化学习的决策能力和深度学习强大的感知能力，通过深度强化学习算法指导无人机基站做出部署决策，通过部署无人机基站的方式来增强蜂窝信号覆盖，同时考虑通信过程能耗优化的无人机基站自主部署系统；本发明可有效提高灌区场景中无人机基站的部署速度，快速组建空中移动基站，提升对灌区地面终端的通信效率，同时，对无人机基站部署能耗优化方案进行设计，在实现最优无人机坐标部署的前提下，减少部署过程中的路径损耗和部署能耗，有效提高部署效率。

附图说明

图1是本发明灌区场景中基于能耗优化的无人机自主部署方法的流程框图；

图2是本发明灌区场景中基于能耗优化的无人机自主部署方法的无人机基站部署运作模式图；

图3是本发明灌区场景中基于能耗优化的无人机自主部署方法的神经网络结构图；

图4是本发明灌区场景中基于能耗优化的无人机自主部署方法中SARSA和Q-learning算法对比图；

图5是本发明灌区场景中基于能耗优化的无人机自主部署方法中深度强化学习算法对比图；

图6是本发明灌区场景中基于能耗优化的无人机自主部署方法中学习速率变化图；

图7是本发明灌区场景中基于能耗优化的无人机自主部署方法中不同概率密度对DQN算法的影响图；

图8是本发明灌区场景中基于能耗优化的无人机自主部署方法中不同概率密度对Q-learning算法的影响图；

图9是本发明灌区场景中基于能耗优化的无人机自主部署方法中多无人机自主部署图；

图10是本发明灌区场景中基于能耗优化的无人机自主部署方法的多无人机算法对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明的灌区场景中基于能耗优化的无人机自主部署方法，流程如图1所示，具体按照以下步骤实施：

步骤1.1、地面基站与终端间的通信链路为非可视距链路，地面基站和无人机基站之间以及无人机基站和终端之间的通信链路为可视距链路，为了增加灌区地面终端的通信性能，本发明采用部署无人机基站的方式来增强灌区蜂窝信号覆盖，无人机基站部署运作模式如图2所示；

步骤1.2、将无人机提供通信覆盖的目标灌区划分为i*j个单元，并用B＝{b₁₁,b₁₂,b₁₃,…b_ij}表示地面传感设备的分布指示变量集合，即：若单元ij(i∈{1,2,3,…I},j∈{1,2,3,…J})中有传感设备时,指示变量b_ij＝1；否则，b_ij＝0；拟进一步用C＝{c₁₁,c₁₂,c₁₃,…,c_ij}表示无人机覆盖的指示变量集合，即：单元ij被无人机覆盖时，c_ij＝1；否则，c_ij＝0；

由集合B和C可以得到地面终端覆盖状态的集合W＝{w₁₁,w₁₂,w₁₃,…,w_ij}，若w_ij＝1表示该位置有终端且被覆盖，可以进行通信；

设定无人机的初始位置为(u_X0,u_y0,0)，一般直接设置为(0,0,0)，在t时刻无人机的位置为

步骤1.3、基于空对地信道模型，目标单元ij和无人机基站之间的视距(LoS)链路定义为：

其中，a，b是基于环境的常数权重，其取值大小有环境中障碍物占地面积与总土地面积的比值和灌区中单位面积障碍物数量及高度发布的比例参数所决定，h表示无人机基站高度，r_ij为无人机基站与单元ij之间的水平距离。非视距(Non Line-of-Sight，NLoS)链路计算为：

P_NLoS＝1-P_LoS (3)

步骤2、基于所构建的空地协作无人机组网模型，针对空对地通信过程的路径损耗，构建能耗优化模型，得到能耗奖励值；

基于步骤1的LoSNLoS型，空对地链路平均损失为：

L(h,r_ij)＝L_LoS*P_LoS+L_NLoS*P_NLoS (7)

对于给定的无人机发射功率P_t，单元ij接收的功率为P_r：

P_r＝P_t-L(h,r_ij) (8)

L(h,r_ij)≤k (9)

步骤2.2、为了延长无人机的服务时间，需要最小化其部署过程中的能量消耗。具体为：无人机水平飞行和垂直飞行的能耗不同，设定无人机水平飞行单位距离的能耗为e₁，垂直飞行单位距离能耗为ηe₁，η参数根据无人机型号代入相应的参数，部署过程的能耗为：

最后要实现的目标是达到要求覆盖率的同时移动能耗最少，所以t时刻的奖励函数定义为：

其中R_t为t时刻的奖励值，Δe＝e^t-e^t-1为覆盖率增量。

当路径损耗L(h,r_ij)大于k时：

R_t＝R_t-p (12)

相当于给一个惩罚。

步骤3、针对过程能耗奖励值，搭建基于DQN算法的强化学习神经网络模型；

具体为：针对过程能耗奖励值，搭建基于DQN算法的深度强化学习神经网络，该网络输入的是状态，输出的是该状态对应的所有行为所给予的奖励，选择最大奖励对应的行为。网络结构设置为全连接网络，设有三个隐含层，每层有48个节点，激活函数为ReLU函数；

值函数更新公式：

Q(s,a)←Q(s,a)+α(R+γmax_a'Q'(s',a')-Q(s,a)) (13)

步骤4、训练所搭建的神经网络模型，实时得到最优动作，对无人机进行自主部署。

步骤4具体按照以下步骤实施：

步骤4.1、训练神经网络参数，然后初始化一个经验回放库，传统的Q-learning算法单步运行就更新表格，但是这种做法不适合DQN，因为前后状态相关性强，对某次行为选择的估值只是针对某个策略下的某个状态，这种估值方式就会产生偏颇，所以通过随机抽取记忆的方式打破这种相关性，其次，相较于Q-learning算法单步运行，通过抽取批量记忆的方式训练神经网络模型，其训练速度更快，同时使用样本无偏估计总体，使得神经网络模型更容易朝着极值点优化；

步骤4.2、训练神经网络，每次迭代步中，均使用ε-贪婪策略选择行为，目的是让智能体更多探索环境，增强动作选区的随机性。对于某个单一样本来说，时序差分强化学习目标值：

y＝R+γmax_a'Q'(s',a'；θ') (14)

其中，γ为衰减因子，θ'为DQN模型的权重向量。

步骤4.3、通过梯度下降法优化损失函数，将TD误差最小化。

损失函数为：

通过使用反向传播算法来最小化损失函数并更新网络参数。对于不同的网络数据，需要选择合适的损失函数，才能保证网络模型能够高效收敛。

传统的强化学习的SARSA和Q-learning实现效果对比如图4所示，两种方法都需要结果100多次Episode才基本稳定，但是每轮平均奖励却很低，此外平均奖励仍然在一个范围的振荡，很难稳定。并且在测试过程中发现很难寻找到最优位置，原因就在于基于表格存储记忆的方式无法泛化学习过的知识。另外从图中可以发现在250次Episode以后Q-learning的平均奖励要大于SARSA算法，所以后续的实现也都是继续Q-learning算法的升级。

深度强化学习需要感知能力极强的深度学习神经网络，神经网络结构如图3所示，添加深度学习后的效果如图5所示。可以发现Priorized Experience Replay方法是最快爬升的，原因就在于其挑选的就是TD偏差最大的经验用于学习。其次Double DQN以及DuelingDQN效果类似。

本申请使用了学习率下降的技巧，随着训练的进行，学习速率不断下降，其学习速率变化图如图6所示。

考虑一般强化学习方法和深度强化学习方法应对不同终端密度的能力，分别设置终端概率密度为0.3和0.5，对DQN算法和Q-learning算法进行测试，效果图如图7、图8所示。对比图7、图8两图，DQN算法对于高概率密度的终端来说，既加快了收敛时间，同时收敛结果更加稳定；但是Q-learning算法对于不同概率密度的终端结果差距不大，仅仅是收敛的时间稍微早一点，对于收敛后的结果同样不稳定，而且平均奖励对于终端概率的变化不明显。

仿真实验：模拟多无人机(设置数量为2)自主部署情况，地面设置为10*10的区域，无人机基站初始位置为(0,0,0)，地面区域随机抛撒随机数量的终端，其余相关参数如下：

参数表

多无人机自主部署模拟情况如图9所示。同时，考虑了为多无人机分配单个网络和多个网络两种情况。单个网络即多个无人机共享一个记忆库，共享一套参数；多个网络即每个无人机有自己的记忆库和网络参数，多无人机之间通过奖励函数进行交流。效果对比图如图10所示，从图中可以看到。多个网络平均奖励效果高于单个网络。