CN112566209A

CN112566209A - 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法

Info

Publication number: CN112566209A
Application number: CN202011332358.6A
Authority: CN
Inventors: 潘晓光; 张媛媛; 张娜; 李娟�; 韩丹
Original assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Current assignee: Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-26

Abstract

本发明属于无人机轨迹设计技术领域，具体涉及一种基于双Q学习的UAV‑BSs能量和服务优先级轨迹设计方法，包括下列步骤：将地面服务区域建模为网格，设置状态空间，由无人机对自身位置、节点位置及每个节点服务优先级创建，并将无人机视为Q‑Learning模型；无人机在飞行过程不断与节点设备进行数据交互并根据交互回报更新算法函数；使用Epsilon‑Greedy算法与Double Q‑Learning算法进行效果对比，实现轨迹优化。本发明通过使用Double Q‑Learning优化了无人机的航迹，以减少能耗，同时根据其所需的服务优先级为请求节点提供服务，使得基于Q‑Learning的轨迹在降低UAV‑BSs的平均能耗以及提高优先级节点服务延迟方面均优于基准节点服务算法，即Greedily‑served算法，从而增强了此类系统的实用性。本发明用于UAV‑BSs轨迹的设计。

Description

一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法

技术领域

本发明属于无人机轨迹设计技术领域，具体涉及一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法。

背景技术

下一代移动网络提出了无人机作为空中基站(UAV-BSs)的集成，为地面节点服务，尽管使用UAV-BSs具有优势，但它们对车载、有限容量电池的依赖妨碍了它们的服务连续性，较短的飞行轨迹可以节省飞行能量，但由于节点的服务需求并不总是相同，无人机UAV-BSs还必须根据其服务优先级为节点服务，在一种面向物联网系统的无人机辅助节点优先级中，设计了UAV-BSs的轨迹，从而最大程度地降低了飞行成本，同时根据优先级为节点提供服务，因此，需要一种智能模型，UAV-BSs可以使用该模型在不同状态下做出最佳的节点访问决策，可以表述为基于对环境的重复观察从一组有限的选择中选择一个动作的问题，Double Q-Learning 是一种无模型的强化学习算法，使用Double Q-Learning优化无人机路径，不仅可以在经历一些经验之后了解UAV-BSs应该按照哪种顺序服务节点，而且还可以在环境或节点行为发生变化时动态更新决策策略。

现有技术存在的问题或缺陷：目前，使用旅行商问题方法对UAV-BSs的轨迹设计进行了优化，以提高能效，但是在必须考虑服务优先级的情况下，TSP的适用性也受到限制。

发明内容

针对上述现有的轨迹设计在必须考虑服务优先级的情况下TSP的适用性受到限制的技术问题，本发明提供了一种实用性强、耗能低、延迟低的基于双Q学习的UAV-BSss能量和服务优先级轨迹设计方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法，包括下列步骤：

S1、将地面服务区域建模为网格，设置状态空间，由无人机对自身位置、节点位置及每个节点服务优先级创建，并将无人机视为Q-Learning模型；

S2、无人机在飞行过程不断与节点设备进行数据交互并根据交互回报更新算法函数；

S3、使用Epsilon-Greedy算法与Double Q-Learning算法进行效果对比，实现轨迹优化。

所述S1中Q-Learning模型包括Agent模块、Action模块、State模块、Revenue模块，所述Agent模块为飞行基站，根据节点的位置和服务优先级逐个为节点提供服务；所述Action 模块为无人机的下一个飞行目的地，由下一个要服务的节点的位置决定；所述State模块为根据观察到的无人机当前位置信息和节点信息定义的，系统状态被定义为S＝{L_uav,L_nd,Ω_nd}, L_uav是无人机的位置，

是一个向量，表示节点的位置1到n和

是一个向量，表示节点的服务优先级sp和状态；所述Revenue模块为一个函数，所述Revenue模块为Q-Learning模型之后的每个状态动作对返回一个实数。

所述S2中数据交互过程中，根据Q-Learning模型，每个状态行为的奖励被保存在q-Table 中，并更新为Double Q-Learning算法，所述Double Q-Learning算法使用两个q-Table来避免可能的局部最优，从而达到全局最优，两个q-Table分别表示为QA-Table和QB-Table，为每个节点服务后，用于为节点服务的q-Table中的q-values，使用相关的双Q-Learning方程更新，公式如下：

所述α为学习率，所述γ为折现系数，所述R是收益函数，所述s'是在状态s上执行动作a后的下一个状态，所述a*和b*是状态s'上所有状态动作对的Q-value最大值，

对于Q-Learning模型的收益函数R(s,a)，当无人机提供高优先级服务时，将考虑给予奖励，对于服务交付延迟和飞行能耗，将采用不同的惩罚措施，用于Q-Learning模型并找到最佳轨迹，将总能耗降至最低，首先服务于延迟最小的节点，并提高整体体验质量，收益函数 R计算为：

所述w₁,w₂,w₃是调优参数，所述nd_a为服务的节点，所述t_s为最后一个节点提供服务所花费的时间，所述P(V)为无人机以速度V飞行时的功耗，计算方法为：

其中P₀和P_i是定义的两个常数，分别表示叶片轮廓功率和悬停状态下的感应功率，U表示转子叶片的叶尖速度，v₀称为悬停时的平均转子感应速度，d₀和s分别为机身阻力比和旋翼强度，ρ和A分别代表空气密度和旋翼盘面积。

所述S3中效果对比，在算法中使用Epsilon-Greedy方案，该算法在学习过程的开始就随机采取行动，而Agent模块完全处于探索模式，通过减小ε值，增加了利用的机会，并且在每个步骤中采取具有最高Q-Values的动作，随着时间的推移，这已进行调整以逐渐依赖 Double Q-Learning策略，以Greedy算法为基准，最近邻居中，无人机在每个步骤中选择要服务的最近节点，而Double Q-Learning试图在距离和节点优先级之间取得平衡。

本发明与现有技术相比，具有的有益效果是：

本发明通过使用Double Q-Learning优化了无人机的航迹，以减少能耗，同时根据其所需的服务优先级为请求节点提供服务，使得基于Q-Learning的轨迹在降低UAV-BSs的平均能耗以及提高优先级节点服务延迟方面均优于基准节点服务算法，即Greedily-served算法，从而增强了此类系统的实用性。

附图说明

图1为本发明的工作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法，如图1所示，包括如下步骤：

步骤1、将地面服务区域建模为网格，设置状态空间，由无人机对自身位置、节点位置及每个节点服务优先级创建，并将无人机视为Q-Learning Agent；

步骤2、无人机在飞行过程不断与节点设备进行数据交互并根据交互回报更新算法函数；

步骤3、使用Epsilon-Greedy算法与Double Q-Learning算法进行效果对比，实现轨迹优化。

进一步，假设静态地面节点随机分布在不同的位置，并需要具有不同优先级的UAV提供的数据收集服务，优先级值随着节点剩余能量级别的变化而变化，节点的位置和初始服务优先级在UAV软件中预先加载，Q-Learning Agent必须采取行动并飞到下一个需要服务的节点，可能采取行动的数量等于未服务节点的数量，每次UAV从一个节点收集数据时，它学习更新节点的剩余能量水平，当所有节点都得到服务后，UAV使用新值来确定下一轮的优先级，既然UAV应该根据观察到的环境采取行动，而且每次经验都有助于增强决策，这种优化适合于强化学习。

进一步，步骤1中Q-Learning模型由以下四个基本组成部分组成：

Agent模块：智能体是飞行基站，根据节点的位置和服务优先级逐个为节点提供服务；

Action模块：动作是UAV的下一个飞行目的地，由下一个要服务的节点的位置决定；

State模块：状态是根据观察到的无人机当前位置信息和节点信息定义的，系统状态被定义为S＝{L_uav,L_nd,Ω_nd},L_uav是无人机的位置，

是一个向量,表示节点的位置1到n和

是一个向量，表示节点的服务优先级(sp)和状态；

Revenue模块：收益是一个函数，它为Q-Learning Agent之后的每个状态-动作对返回一个实数。

进一步，在该模型中，由于无人机与地面节点之间的距离不同，我们考虑了时间步长的变化，在每个时间步，无人机选择下一个等待节点并飞向该节点，服务时间假设是可以忽略不计的，并且假设无人机以固定速度飞行并快速与节点通信，为了节省地面节点的能量，无人机在距离最近的地方与这些设备进行数据通信，这意味着无人机在地面节点上收集数据。

进一步，步骤2中所述数据交互过程中，根据Q-Learning模型，每个状态行为的奖励被保存在q-Table中，并通过新的实验进行更新，传统的Q-Learning使用一个q-Table，Double Q-Learning使用两个q-Table来避免可能的局部最优，从而达到全局最优，将这些q-Table表示为QA-Table和QB-Table，为每个节点服务后，用于为节点服务的q-Table中的q-values，使用相关的双Q-Learning方程更新，公式如下:

其中，α为学习率，γ为折现系数，R是收益函数，s'是在状态s上执行动作a后的下一个状态，a*和b*是状态s'上所有状态动作对的Q-value最大值:

对于Q-Learning的收益函数R(s,a)，当UAV提供高优先级服务时，将考虑给予奖励，对于服务交付延迟和飞行能耗，将采用不同的惩罚措施，此类考虑的奖励和惩罚有助于Q-Learning代理学习模型并找到最佳轨迹，该轨迹可将总能耗降至最低，首先服务于延迟最小的节点，并提高整体QoE，收益函数R计算为：

其中，w₁,w₂,w₃是调优参数，nd_a为服务的节点，t_s为最后一个节点提供服务所花费的时间。P(V)为UA V以速度V飞行时的功耗，计算方法为

进一步，步骤3中效果对比，在算法中使用epsilon-greedy方案，该算法在学习过程的开始就随机采取行动，而Agent完全处于探索模式，通过减小ε值，可增加利用的机会，并且可以在每个步骤中采取具有最高Q-Values的动作，随着时间的推移，这已进行调整以逐渐依赖Double Q-Learning策略，在时间的每一步，UAV观察状态s，然后采取行动a，并在移动到状态s0后获得收益，训练阶段的目标是找到服务节点的顺序，使未来总收入最大化。收益功能将找到一条将能源消耗降至最低并改善QoE的飞行路线。Q_A(s,a)和Q_B(s,a)在 Q_A-Table和Q_B-Table中保存和更新，算法迫使UAV为每个决定选择勘探或开发方法，在探索过程中，UAV随机选择下一个节点进行服务，在开发过程中，UAV依次在其中一个Q-Table 中对观察到的状态进行Q-Table最高的动作。探索率由ε调整，在最初场景中将其设置为1，以使动作完全随机并加强训练，在整个场景中，当Double Q-Learning策略足够可靠并且大多数操作是基于Q-Values时，它会细化为零或很小的值，为了比较Double Q-Learning的效果，以Greedy算法为基准，最近邻居中，UAV在每个步骤中选择要服务的最近节点，而Double Q-Learning试图在距离和节点优先级之间取得平衡。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法，其特征在于：包括下列步骤：

2.根据权利要求1所述的一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法，其特征在于：所述S1中Q-Learning模型包括Agent模块、Action模块、State模块、Revenue模块，所述Agent模块为飞行基站，根据节点的位置和服务优先级逐个为节点提供服务；所述Action模块为无人机的下一个飞行目的地，由下一个要服务的节点的位置决定；所述State模块为根据观察到的无人机当前位置信息和节点信息定义的，系统状态被定义为S＝{L_uav,L_nd,Ω_nd},L_uav是无人机的位置，

是一个向量，表示节点的位置1到n和

3.根据权利要求1所述的一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法，其特征在于：所述S2中数据交互过程中，根据Q-Learning模型，每个状态行为的奖励被保存在q-Table中，并更新为Double Q-Learning算法，所述Double Q-Learning算法使用两个q-Table来避免可能的局部最优，从而达到全局最优，两个q-Table分别表示为QA-Table和QB-Table，为每个节点服务后，用于为节点服务的q-Table中的q-values，使用相关的双Q-Learning方程更新，公式如下：

对于Q-Learning模型的收益函数R(s,a)，当无人机提供高优先级服务时，将考虑给予奖励，对于服务交付延迟和飞行能耗，将采用不同的惩罚措施，用于Q-Learning模型并找到最佳轨迹，将总能耗降至最低，首先服务于延迟最小的节点，并提高整体体验质量，收益函数R计算为：

4.根据权利要求1所述的一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法，其特征在于：所述S3中效果对比，在算法中使用Epsilon-Greedy方案，该算法在学习过程的开始就随机采取行动，而Agent模块完全处于探索模式，通过减小ε值，增加了利用的机会，并且在每个步骤中采取具有最高Q-Values的动作，随着时间的推移，这已进行调整以逐渐依赖Double Q-Learning策略，以Greedy算法为基准，最近邻居中，无人机在每个步骤中选择要服务的最近节点，而Double Q-Learning试图在距离和节点优先级之间取得平衡。