CN112566209A - 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法 - Google Patents

一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法 Download PDF

Info

Publication number
CN112566209A
CN112566209A CN202011332358.6A CN202011332358A CN112566209A CN 112566209 A CN112566209 A CN 112566209A CN 202011332358 A CN202011332358 A CN 202011332358A CN 112566209 A CN112566209 A CN 112566209A
Authority
CN
China
Prior art keywords
learning
node
double
service
uav
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011332358.6A
Other languages
English (en)
Inventor
潘晓光
张媛媛
张娜
李娟�
韩丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Sanyouhe Smart Information Technology Co Ltd
Original Assignee
Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Sanyouhe Smart Information Technology Co Ltd filed Critical Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority to CN202011332358.6A priority Critical patent/CN112566209A/zh
Publication of CN112566209A publication Critical patent/CN112566209A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/04Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
    • H04W40/10Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on available power or energy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/20Communication route or path selection, e.g. power-based or shortest path routing based on geographic position or location
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Geometry (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Astronomy & Astrophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明属于无人机轨迹设计技术领域,具体涉及一种基于双Q学习的UAV‑BSs能量和服务优先级轨迹设计方法,包括下列步骤:将地面服务区域建模为网格,设置状态空间,由无人机对自身位置、节点位置及每个节点服务优先级创建,并将无人机视为Q‑Learning模型;无人机在飞行过程不断与节点设备进行数据交互并根据交互回报更新算法函数;使用Epsilon‑Greedy算法与Double Q‑Learning算法进行效果对比,实现轨迹优化。本发明通过使用Double Q‑Learning优化了无人机的航迹,以减少能耗,同时根据其所需的服务优先级为请求节点提供服务,使得基于Q‑Learning的轨迹在降低UAV‑BSs的平均能耗以及提高优先级节点服务延迟方面均优于基准节点服务算法,即Greedily‑served算法,从而增强了此类系统的实用性。本发明用于UAV‑BSs轨迹的设计。

Description

一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
技术领域
本发明属于无人机轨迹设计技术领域,具体涉及一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法。
背景技术
下一代移动网络提出了无人机作为空中基站(UAV-BSs)的集成,为地面节点服务,尽管使用UAV-BSs具有优势,但它们对车载、有限容量电池的依赖妨碍了它们的服务连续性,较短的飞行轨迹可以节省飞行能量,但由于节点的服务需求并不总是相同,无人机UAV-BSs还必须根据其服务优先级为节点服务,在一种面向物联网系统的无人机辅助节点优先级中,设计了UAV-BSs的轨迹,从而最大程度地降低了飞行成本,同时根据优先级为节点提供服务,因此,需要一种智能模型,UAV-BSs可以使用该模型在不同状态下做出最佳的节点访问决策,可以表述为基于对环境的重复观察从一组有限的选择中选择一个动作的问题,Double Q-Learning 是一种无模型的强化学习算法,使用Double Q-Learning优化无人机路径,不仅可以在经历一些经验之后了解UAV-BSs应该按照哪种顺序服务节点,而且还可以在环境或节点行为发生变化时动态更新决策策略。
现有技术存在的问题或缺陷:目前,使用旅行商问题方法对UAV-BSs的轨迹设计进行了优化,以提高能效,但是在必须考虑服务优先级的情况下,TSP的适用性也受到限制。
发明内容
针对上述现有的轨迹设计在必须考虑服务优先级的情况下TSP的适用性受到限制的技术问题,本发明提供了一种实用性强、耗能低、延迟低的基于双Q学习的UAV-BSss能量和服务优先级轨迹设计方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法,包括下列步骤:
S1、将地面服务区域建模为网格,设置状态空间,由无人机对自身位置、节点位置及每个节点服务优先级创建,并将无人机视为Q-Learning模型;
S2、无人机在飞行过程不断与节点设备进行数据交互并根据交互回报更新算法函数;
S3、使用Epsilon-Greedy算法与Double Q-Learning算法进行效果对比,实现轨迹优化。
所述S1中Q-Learning模型包括Agent模块、Action模块、State模块、Revenue模块,所述Agent模块为飞行基站,根据节点的位置和服务优先级逐个为节点提供服务;所述Action 模块为无人机的下一个飞行目的地,由下一个要服务的节点的位置决定;所述State模块为根据观察到的无人机当前位置信息和节点信息定义的,系统状态被定义为S={Luav,Lndnd}, Luav是无人机的位置,
Figure BDA0002796186700000021
是一个向量,表示节点的位置1到n和
Figure BDA0002796186700000022
是一个向量,表示节点的服务优先级sp和状态;所述Revenue模块为一个函数,所述Revenue模块为Q-Learning模型之后的每个状态动作对返回一个实数。
所述S2中数据交互过程中,根据Q-Learning模型,每个状态行为的奖励被保存在q-Table 中,并更新为Double Q-Learning算法,所述Double Q-Learning算法使用两个q-Table来避免可能的局部最优,从而达到全局最优,两个q-Table分别表示为QA-Table和QB-Table,为每个节点服务后,用于为节点服务的q-Table中的q-values,使用相关的双Q-Learning方程更新,公式如下:
Figure BDA0002796186700000023
Figure BDA0002796186700000024
所述α为学习率,所述γ为折现系数,所述R是收益函数,所述s'是在状态s上执行动作a后的下一个状态,所述a*和b*是状态s'上所有状态动作对的Q-value最大值,
Figure BDA0002796186700000025
对于Q-Learning模型的收益函数R(s,a),当无人机提供高优先级服务时,将考虑给予奖励,对于服务交付延迟和飞行能耗,将采用不同的惩罚措施,用于Q-Learning模型并找到最佳轨迹,将总能耗降至最低,首先服务于延迟最小的节点,并提高整体体验质量,收益函数 R计算为:
Figure BDA0002796186700000026
所述w1,w2,w3是调优参数,所述nda为服务的节点,所述ts为最后一个节点提供服务所花费的时间,所述P(V)为无人机以速度V飞行时的功耗,计算方法为:
Figure BDA0002796186700000027
其中P0和Pi是定义的两个常数,分别表示叶片轮廓功率和悬停状态下的感应功率,U表示转子叶片的叶尖速度,v0称为悬停时的平均转子感应速度,d0和s分别为机身阻力比和旋翼强度,ρ和A分别代表空气密度和旋翼盘面积。
所述S3中效果对比,在算法中使用Epsilon-Greedy方案,该算法在学习过程的开始就随机采取行动,而Agent模块完全处于探索模式,通过减小ε值,增加了利用的机会,并且在每个步骤中采取具有最高Q-Values的动作,随着时间的推移,这已进行调整以逐渐依赖 Double Q-Learning策略,以Greedy算法为基准,最近邻居中,无人机在每个步骤中选择要服务的最近节点,而Double Q-Learning试图在距离和节点优先级之间取得平衡。
本发明与现有技术相比,具有的有益效果是:
本发明通过使用Double Q-Learning优化了无人机的航迹,以减少能耗,同时根据其所需的服务优先级为请求节点提供服务,使得基于Q-Learning的轨迹在降低UAV-BSs的平均能耗以及提高优先级节点服务延迟方面均优于基准节点服务算法,即Greedily-served算法,从而增强了此类系统的实用性。
附图说明
图1为本发明的工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法,如图1所示,包括如下步骤:
步骤1、将地面服务区域建模为网格,设置状态空间,由无人机对自身位置、节点位置及每个节点服务优先级创建,并将无人机视为Q-Learning Agent;
步骤2、无人机在飞行过程不断与节点设备进行数据交互并根据交互回报更新算法函数;
步骤3、使用Epsilon-Greedy算法与Double Q-Learning算法进行效果对比,实现轨迹优化。
进一步,假设静态地面节点随机分布在不同的位置,并需要具有不同优先级的UAV提供的数据收集服务,优先级值随着节点剩余能量级别的变化而变化,节点的位置和初始服务优先级在UAV软件中预先加载,Q-Learning Agent必须采取行动并飞到下一个需要服务的节点,可能采取行动的数量等于未服务节点的数量,每次UAV从一个节点收集数据时,它学习更新节点的剩余能量水平,当所有节点都得到服务后,UAV使用新值来确定下一轮的优先级,既然UAV应该根据观察到的环境采取行动,而且每次经验都有助于增强决策,这种优化适合于强化学习。
进一步,步骤1中Q-Learning模型由以下四个基本组成部分组成:
Agent模块:智能体是飞行基站,根据节点的位置和服务优先级逐个为节点提供服务;
Action模块:动作是UAV的下一个飞行目的地,由下一个要服务的节点的位置决定;
State模块:状态是根据观察到的无人机当前位置信息和节点信息定义的,系统状态被定义为S={Luav,Lndnd},Luav是无人机的位置,
Figure BDA0002796186700000041
是一个向量,表示节点的位置1到n和
Figure BDA0002796186700000042
是一个向量,表示节点的服务优先级(sp)和状态;
Revenue模块:收益是一个函数,它为Q-Learning Agent之后的每个状态-动作对返回一个实数。
进一步,在该模型中,由于无人机与地面节点之间的距离不同,我们考虑了时间步长的变化,在每个时间步,无人机选择下一个等待节点并飞向该节点,服务时间假设是可以忽略不计的,并且假设无人机以固定速度飞行并快速与节点通信,为了节省地面节点的能量,无人机在距离最近的地方与这些设备进行数据通信,这意味着无人机在地面节点上收集数据。
进一步,步骤2中所述数据交互过程中,根据Q-Learning模型,每个状态行为的奖励被保存在q-Table中,并通过新的实验进行更新,传统的Q-Learning使用一个q-Table,Double Q-Learning使用两个q-Table来避免可能的局部最优,从而达到全局最优,将这些q-Table表示为QA-Table和QB-Table,为每个节点服务后,用于为节点服务的q-Table中的q-values,使用相关的双Q-Learning方程更新,公式如下:
Figure BDA0002796186700000043
Figure BDA0002796186700000044
其中,α为学习率,γ为折现系数,R是收益函数,s'是在状态s上执行动作a后的下一个状态,a*和b*是状态s'上所有状态动作对的Q-value最大值:
Figure BDA0002796186700000045
对于Q-Learning的收益函数R(s,a),当UAV提供高优先级服务时,将考虑给予奖励,对于服务交付延迟和飞行能耗,将采用不同的惩罚措施,此类考虑的奖励和惩罚有助于Q-Learning代理学习模型并找到最佳轨迹,该轨迹可将总能耗降至最低,首先服务于延迟最小的节点,并提高整体QoE,收益函数R计算为:
Figure BDA0002796186700000051
其中,w1,w2,w3是调优参数,nda为服务的节点,ts为最后一个节点提供服务所花费的时间。P(V)为UA V以速度V飞行时的功耗,计算方法为
Figure BDA0002796186700000052
其中P0和Pi是定义的两个常数,分别表示叶片轮廓功率和悬停状态下的感应功率,U表示转子叶片的叶尖速度,v0称为悬停时的平均转子感应速度,d0和s分别为机身阻力比和旋翼强度,ρ和A分别代表空气密度和旋翼盘面积。
进一步,步骤3中效果对比,在算法中使用epsilon-greedy方案,该算法在学习过程的开始就随机采取行动,而Agent完全处于探索模式,通过减小ε值,可增加利用的机会,并且可以在每个步骤中采取具有最高Q-Values的动作,随着时间的推移,这已进行调整以逐渐依赖Double Q-Learning策略,在时间的每一步,UAV观察状态s,然后采取行动a,并在移动到状态s0后获得收益,训练阶段的目标是找到服务节点的顺序,使未来总收入最大化。收益功能将找到一条将能源消耗降至最低并改善QoE的飞行路线。QA(s,a)和QB(s,a)在 QA-Table和QB-Table中保存和更新,算法迫使UAV为每个决定选择勘探或开发方法,在探索过程中,UAV随机选择下一个节点进行服务,在开发过程中,UAV依次在其中一个Q-Table 中对观察到的状态进行Q-Table最高的动作。探索率由ε调整,在最初场景中将其设置为1,以使动作完全随机并加强训练,在整个场景中,当Double Q-Learning策略足够可靠并且大多数操作是基于Q-Values时,它会细化为零或很小的值,为了比较Double Q-Learning的效果,以Greedy算法为基准,最近邻居中,UAV在每个步骤中选择要服务的最近节点,而Double Q-Learning试图在距离和节点优先级之间取得平衡。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法,其特征在于:包括下列步骤:
S1、将地面服务区域建模为网格,设置状态空间,由无人机对自身位置、节点位置及每个节点服务优先级创建,并将无人机视为Q-Learning模型;
S2、无人机在飞行过程不断与节点设备进行数据交互并根据交互回报更新算法函数;
S3、使用Epsilon-Greedy算法与Double Q-Learning算法进行效果对比,实现轨迹优化。
2.根据权利要求1所述的一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法,其特征在于:所述S1中Q-Learning模型包括Agent模块、Action模块、State模块、Revenue模块,所述Agent模块为飞行基站,根据节点的位置和服务优先级逐个为节点提供服务;所述Action模块为无人机的下一个飞行目的地,由下一个要服务的节点的位置决定;所述State模块为根据观察到的无人机当前位置信息和节点信息定义的,系统状态被定义为S={Luav,Lndnd},Luav是无人机的位置,
Figure FDA0002796186690000011
是一个向量,表示节点的位置1到n和
Figure FDA0002796186690000012
是一个向量,表示节点的服务优先级sp和状态;所述Revenue模块为一个函数,所述Revenue模块为Q-Learning模型之后的每个状态动作对返回一个实数。
3.根据权利要求1所述的一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法,其特征在于:所述S2中数据交互过程中,根据Q-Learning模型,每个状态行为的奖励被保存在q-Table中,并更新为Double Q-Learning算法,所述Double Q-Learning算法使用两个q-Table来避免可能的局部最优,从而达到全局最优,两个q-Table分别表示为QA-Table和QB-Table,为每个节点服务后,用于为节点服务的q-Table中的q-values,使用相关的双Q-Learning方程更新,公式如下:
Figure FDA0002796186690000013
Figure FDA0002796186690000014
所述α为学习率,所述γ为折现系数,所述R是收益函数,所述s'是在状态s上执行动作a后的下一个状态,所述a*和b*是状态s'上所有状态动作对的Q-value最大值,
Figure FDA0002796186690000015
对于Q-Learning模型的收益函数R(s,a),当无人机提供高优先级服务时,将考虑给予奖励,对于服务交付延迟和飞行能耗,将采用不同的惩罚措施,用于Q-Learning模型并找到最佳轨迹,将总能耗降至最低,首先服务于延迟最小的节点,并提高整体体验质量,收益函数R计算为:
Figure FDA0002796186690000021
所述w1,w2,w3是调优参数,所述nda为服务的节点,所述ts为最后一个节点提供服务所花费的时间,所述P(V)为无人机以速度V飞行时的功耗,计算方法为:
Figure FDA0002796186690000022
其中P0和Pi是定义的两个常数,分别表示叶片轮廓功率和悬停状态下的感应功率,U表示转子叶片的叶尖速度,v0称为悬停时的平均转子感应速度,d0和s分别为机身阻力比和旋翼强度,ρ和A分别代表空气密度和旋翼盘面积。
4.根据权利要求1所述的一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法,其特征在于:所述S3中效果对比,在算法中使用Epsilon-Greedy方案,该算法在学习过程的开始就随机采取行动,而Agent模块完全处于探索模式,通过减小ε值,增加了利用的机会,并且在每个步骤中采取具有最高Q-Values的动作,随着时间的推移,这已进行调整以逐渐依赖Double Q-Learning策略,以Greedy算法为基准,最近邻居中,无人机在每个步骤中选择要服务的最近节点,而Double Q-Learning试图在距离和节点优先级之间取得平衡。
CN202011332358.6A 2020-11-24 2020-11-24 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法 Pending CN112566209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011332358.6A CN112566209A (zh) 2020-11-24 2020-11-24 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011332358.6A CN112566209A (zh) 2020-11-24 2020-11-24 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法

Publications (1)

Publication Number Publication Date
CN112566209A true CN112566209A (zh) 2021-03-26

Family

ID=75043414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011332358.6A Pending CN112566209A (zh) 2020-11-24 2020-11-24 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法

Country Status (1)

Country Link
CN (1) CN112566209A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342367A (zh) * 2021-07-04 2021-09-03 聊城大学 一种基于Q-Learning强化学习的状态空间缩减方法
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458283A (zh) * 2019-08-13 2019-11-15 南京理工大学 基于深度强化学习的静态环境下的最大化全局吞吐量方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN111132192A (zh) * 2019-12-13 2020-05-08 广东工业大学 一种无人机基站在线轨迹优化方法
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
CN111595343A (zh) * 2020-04-29 2020-08-28 西北工业大学 一种基于定位误差校正的无人机航迹规划方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110458283A (zh) * 2019-08-13 2019-11-15 南京理工大学 基于深度强化学习的静态环境下的最大化全局吞吐量方法
CN111132192A (zh) * 2019-12-13 2020-05-08 广东工业大学 一种无人机基站在线轨迹优化方法
CN111595343A (zh) * 2020-04-29 2020-08-28 西北工业大学 一种基于定位误差校正的无人机航迹规划方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAYED AMIR HOSEINI;AYUB BOKANI;JAHAN HASSAN;SHAVBO SALEHI等: "Energy and Service-priority aware Trajectory Design for UAV-BSs using Double Q-Learning", 《HTTPS://ARXIV.ORG/ABS/2010.13346》 *
董超; 沈赟; 屈毓锛: "基于无人机的边缘智能计算研究综述", 《智能科学与技术学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342367A (zh) * 2021-07-04 2021-09-03 聊城大学 一种基于Q-Learning强化学习的状态空间缩减方法
CN113342367B (zh) * 2021-07-04 2024-03-29 聊城大学 一种基于Q-Learning强化学习的状态空间缩减方法
CN114489144A (zh) * 2022-04-08 2022-05-13 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机

Similar Documents

Publication Publication Date Title
CN110488861A (zh) 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110602633B (zh) 一种面向爆发性流量的移动边缘计算无人机群辅助通信方法
CN111432433B (zh) 基于强化学习的无人机中继智能流量卸载方法
CN112566209A (zh) 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN113433967A (zh) 一种可充电无人机路径规划方法及系统
CN113660681B (zh) 一种应用于无人机集群辅助传输的多智能体资源优化方法
CN112367111A (zh) 一种无人机中继部署方法、系统、计算机设备及应用
CN114169234A (zh) 一种无人机辅助移动边缘计算的调度优化方法及系统
CN115494732B (zh) 一种基于近端策略优化的无人机轨迹设计和功率分配方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN113206701A (zh) 一种无人机飞行基站的三维部署和功率分配联合优化方法
CN114630397B (zh) 一种基于时隙划分的无人机接入选择方法
Hua et al. Drl-based energy efficient communication coverage control in hierarchical hap-lap network
CN117580105B (zh) 一种面向电网巡检的无人机任务卸载优化方法
CN114020024A (zh) 基于蒙特卡洛树搜索的无人机路径规划方法
CN116321237A (zh) 一种基于深度强化学习的无人机辅助车联网数据收集方法
CN113283013A (zh) 一种基于深度强化学习的多无人机充电及任务调度方法
CN117499867A (zh) 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法
CN116774584A (zh) 一种基于多智能体深度强化学习的无人机差异化服务轨迹优化方法
CN116847293A (zh) 一种无人机辅助车联网下的联合缓存决策和轨迹优化方法
CN117236561A (zh) 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质
CN116882270A (zh) 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及系统
CN116828539A (zh) 基于深度强化学习的联合计算迁移和无人机轨迹优化方法
CN114879726A (zh) 一种基于多无人机辅助数据收集的路径规划方法
Tian et al. Energy-Efficient Multimedia Services with UAV-BS Intelligent Trajectory Planning for Emergency Communications in 6G Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210326