CN114594793B - 一种基站无人机的路径规划方法 - Google Patents

一种基站无人机的路径规划方法 Download PDF

Info

Publication number
CN114594793B
CN114594793B CN202210224326.7A CN202210224326A CN114594793B CN 114594793 B CN114594793 B CN 114594793B CN 202210224326 A CN202210224326 A CN 202210224326A CN 114594793 B CN114594793 B CN 114594793B
Authority
CN
China
Prior art keywords
model
unmanned aerial
aerial vehicle
reviewer
base station
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210224326.7A
Other languages
English (en)
Other versions
CN114594793A (zh
Inventor
彭舰
刘唐
黄飞虎
周永涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210224326.7A priority Critical patent/CN114594793B/zh
Publication of CN114594793A publication Critical patent/CN114594793A/zh
Application granted granted Critical
Publication of CN114594793B publication Critical patent/CN114594793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基站无人机的路径规划方法,通过当前基站无人机的状态,采用执行者模型得到基站无人机下一步要执行的基站无人机动作,再通过评论者模型对基站无人机动作进行评估,从而将合理的基站无人机动作给到智能体,使得基站无人机能及时合理的进行路径规划,解决了传统算法很难在连续空间中计算无人机的飞行动作的问题。

Description

一种基站无人机的路径规划方法
技术领域
本发明涉及无人机技术领域,具体涉及一种基站无人机的路径规划方法。
背景技术
无人机具有可灵活控制、机动性高、成本较低等特点,被广泛应用于军事和民用领域,如军用无人机、消防救援无人机、农业灌溉无人机、快递运输无人机等。在无线通信领域,无人机可以作为空中基站提供临时无线通信服务。相较于传统地面基站,空中基站能够被灵活调整部署位置,空中基站也有更大的机会与地面用户建立视距链路连接。
目前关于基站无人机的研究中,较多工作致力于寻找无人机的最优飞行路径,以增强无线通信网络性能。这类研究很少考虑到地面用户位置变化对无人机路径规划的影响。地面用户的活动往往呈现动态性和随机性,地面用户位置变化可能降低用户与基站无人机间的无线通信速率,从而造成网络性能的损失。因此,在规划基站无人机飞行路径时考虑地面用户位置变化是必要的。
在考虑地面用户位置变化的环境中,传统启发式算法需要不断初始化和更新以规划无人机的飞行路径,这会造成计算资源和时间成本的增加。无人机路径规划问题属于连续控制问题,无人机的飞行距离和飞行方向都是连续变量,传统算法很难在连续空间中计算无人机的飞行动作。
发明内容
针对现有技术中的上述不足,本发明提供的一种基站无人机的路径规划方法解决了传统算法很难在连续空间中计算无人机的飞行动作的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基站无人机的路径规划方法,包括以下步骤:
S1、采集基站无人机的状态数据和动作数据,构建状态训练数据集和动作训练数据集;
S2、采用状态训练数据集对执行者模型进行训练,得到训练完成的执行者模型;
S3、采用动作训练数据集对评论者模型进行训练,得到训练完成的评论者模型;
S4、采集待进行路径规划的基站无人机的状态数据;
S5、根据待进行路径规划的基站无人机的状态数据,采用训练完成的执行者模型获取基站无人机动作;
S6、采用训练完成的评论者模型对基站无人机动作进行评估;
S7、将通过评估的基站无人机动作发送至基站无人机的智能体,完成路径规划。
综上,本发明的有益效果为:本发明通过当前基站无人机的状态,得到基站无人机下一步要执行的基站无人机动作,再通过对基站无人机动作进行评估,从而将合理的基站无人机动作给到智能体,使得基站无人机能及时合理的进行路径规划,解决了传统算法很难在连续空间中计算无人机的飞行动作的问题。
进一步地,所述步骤S1和S5中基站无人机的状态数据包括:基站无人机在时隙t的位置坐标和地面用户在时隙t的位置坐标。
进一步地,所述步骤S2中在对执行者模型进行训练时,执行者模型的梯度函数为:
Figure BDA0003535044190000021
其中,
Figure BDA0003535044190000022
为梯度函数,E[]为数学期望,Q(,)为评论者模型,s和a为变量,
Figure BDA0003535044190000023
为对执行动作at求偏导,
Figure BDA0003535044190000024
为对执行者模型权重θπ求偏导,θQ为评论者模型权重,θπ为执行者模型权重,π(|)为执行者模型,t为时隙,st为时隙t的状态数据,|为概率条件符号。
上述进一步方案的有益效果为:通过计算梯度
Figure BDA0003535044190000031
更新θπ,帮助执行者模型选择获得收益最大的动作策略,即在状态st下选择输出能够获得最大收益的动作at
进一步地,所述步骤S3中在对评论者模型进行训练时,评论者模型的损失函数为:
L(θQ)=E[r(st,at)+γQ′(st+1,π′(st+1π′)|θQ′)-Q(st,atQ)]
Figure BDA0003535044190000032
Figure BDA0003535044190000033
其中,L(θQ)为评论者模型的损失函数,E[]为数学期望,r(st,at)为时隙t状态st下执行动作at获得的奖励,γ为折扣因子,Q′(,)为评论者目标模型,π′(|)为执行者目标模型,θQ′为更新后的评论者目标模型权重,
Figure BDA0003535044190000034
为更新前的评论者目标模型权重,θπ′为更新后的执行者目标模型权重,
Figure BDA0003535044190000035
为更新前的执行者目标模型权重,|为概率条件符号,Q(,)为评论者模型,θQ为评论者模型权重,τ为评论者模型中的学习率,τ′为执行者模型中的学习率,t为时隙,st为时隙t的状态数据,st+1为时隙t+1的状态数据,at为状态数据st下选择的动作。
上述进一步方案的有益效果为:通过最小化损失函数L(θQ),帮助评论者模型更准确地计算出在st下选择动作at后的收益。损失函数中对评论者目标模型的输出做了折扣,这是为了防止在计算收益时产生过度估计问题。
进一步地,所述评论者模型、执行者模型、执行者目标模型和评论者目标模型包括第一全连接层和第二全连接层;所述第一全连接层的神经元为600个,所述第二全连接层的神经元为500个。
进一步地,所述评论者模型输出层的函数为relu激活函数,所述执行者模型输出层的函数为sigmoid激活函数。
上述进一步方案的有益效果为:执行者模型输出层采用sigmoid函数是为了防止输出值超出动作的边界值。
附图说明
图1为一种基站无人机的路径规划方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基站无人机的路径规划方法,包括以下步骤:
S1、采集基站无人机的状态数据和动作数据,构建状态训练数据集和动作训练数据集;
步骤S1中基站无人机的状态数据用于构建状态训练数据集,基站无人机的动作数据用于构建动作训练数据集。
所述步骤S1和S5中基站无人机的状态数据包括:基站无人机在时隙t的位置坐标和地面用户在时隙t的位置坐标。
所述动作数据包括:基站无人机的飞行方向和飞行距离。
在进行基站无人机数据采集时,将采集的数据进行离散处理,处理得到时间间隔为t的数据,用于对执行者模型和评论者模型进行训练。
S2、采用状态训练数据集对执行者模型进行训练,得到训练完成的执行者模型;
所述步骤S2中在对执行者模型进行训练时,执行者模型的梯度函数为:
Figure BDA0003535044190000051
其中,
Figure BDA0003535044190000052
为梯度函数,E[]为数学期望,Q(,)为评论者模型,s和a为变量,
Figure BDA0003535044190000053
为对执行动作at求偏导,
Figure BDA0003535044190000054
为对执行者模型权重θπ求偏导,θQ为评论者模型权重,θπ为执行者模型权重,π(|)为执行者模型,t为时隙,st为时隙t的状态数据,|为概率条件符号。
S3、采用动作训练数据集对评论者模型进行训练,得到训练完成的评论者模型;
所述步骤S3中在对评论者模型进行训练时,评论者模型的损失函数为:
L(θQ)=E[r(st,at)+γQ′(st+1,π′(st+1π′)|θQ′)-Q(st,atQ)]
Figure BDA0003535044190000055
Figure BDA0003535044190000056
其中,L(θQ)为评论者模型的损失函数,E[]为数学期望,r(st,at)为时隙t状态st下执行动作at获得的奖励,γ为折扣因子,Q′(,)为评论者目标模型,π′(|)为执行者目标模型,θQ′为更新后的评论者目标模型权重,
Figure BDA0003535044190000057
为更新前的评论者目标模型权重,θπ′为更新后的执行者目标模型权重,
Figure BDA0003535044190000058
为更新前的执行者目标模型权重,|为概率条件符号,Q(,)为评论者模型,θQ为评论者模型权重,τ为评论者模型中的学习率,τ′为执行者模型中的学习率,t为时隙,st为时隙t的状态数据,st+1为时隙t+1的状态数据,at为状态数据st下选择的动作。
S4、采集待进行路径规划的基站无人机的状态数据;
S5、根据待进行路径规划的基站无人机的状态数据,采用训练完成的执行者模型获取基站无人机动作;
S6、采用训练完成的评论者模型对基站无人机动作进行评估;
S7、将通过评估的基站无人机动作发送至基站无人机的智能体,完成路径规划。
所述评论者模型、执行者模型、执行者目标模型和评论者目标模型包括第一全连接层和第二全连接层;所述第一全连接层的神经元为600个,所述第二全连接层的神经元为500个。
所述评论者模型输出层的函数为relu激活函数,所述执行者模型输出层的函数为sigmoid激活函数。
在上述过程中数据可通过经验回放池进行存储,也可采用其他存储单元。在每次训练时,可从经验回放池中随机选择大小为256的训练数据集和动作训练数据集,在训练前可分别对训练数据集和动作训练数据集进行归一化处理,再用于训练评论者模型和执行者模型,训练次数可设定,也可在训练评论者模型和执行者模型收敛时,停止训练。

Claims (3)

1.一种基站无人机的路径规划方法,其特征在于,包括以下步骤:
S1、采集基站无人机的状态数据和动作数据,构建状态训练数据集和动作训练数据集;
S2、采用状态训练数据集对执行者模型进行训练,得到训练完成的执行者模型;
S3、采用动作训练数据集对评论者模型进行训练,得到训练完成的评论者模型;
S4、采集待进行路径规划的基站无人机的状态数据;
S5、根据待进行路径规划的基站无人机的状态数据,采用训练完成的执行者模型获取基站无人机动作;
S6、采用训练完成的评论者模型对基站无人机动作进行评估;
S7、将通过评估的基站无人机动作发送至基站无人机的智能体,完成路径规划;
其中,所述步骤S1和S5中基站无人机的状态数据包括:基站无人机在时隙t的位置坐标和地面用户在时隙t的位置坐标;
所述步骤S2中在对执行者模型进行训练时,执行者模型的梯度函数为:
Figure FDA0004131968330000011
其中,
Figure FDA0004131968330000012
为梯度函数,E[]为数学期望,Q(,)为评论者模型,s和a为变量,
Figure FDA0004131968330000013
为对执行动作at求偏导,
Figure FDA0004131968330000014
为对执行者模型权重θπ求偏导,θQ为评论者模型权重,θπ为执行者模型权重,π(|)为执行者模型,t为时隙,st为时隙t的状态数据,|为概率条件符号;
所述步骤S3中在对评论者模型进行训练时,评论者模型的损失函数为:
L(θQ)=E[r(st,at)+γQ′(st+1,π′(st+1π′)|θQ′)-Q(st,atQ)]
Figure FDA0004131968330000021
Figure FDA0004131968330000022
其中,L(θQ)为评论者模型的损失函数,E[]为数学期望,r(st,at)为时隙t状态st下执行动作at获得的奖励,γ为折扣因子,Q′(,)为评论者目标模型,π′(|)为执行者目标模型,θQ′为更新后的评论者目标模型权重,
Figure FDA0004131968330000024
为更新前的评论者目标模型权重,θπ′为更新后的执行者目标模型权重,
Figure FDA0004131968330000023
为更新前的执行者目标模型权重,|为概率条件符号,Q(,)为评论者模型,θQ为评论者模型权重,τ为评论者模型中的学习率,τ′为执行者模型中的学习率,t为时隙,st为时隙t的状态数据,st+1为时隙t+1的状态数据,at为状态数据st下选择的动作。
2.根据权利要求1所述的基站无人机的路径规划方法,其特征在于,所述评论者模型、执行者模型、执行者目标模型和评论者目标模型包括第一全连接层和第二全连接层;所述第一全连接层的神经元为600个,所述第二全连接层的神经元为500个。
3.根据权利要求1所述的基站无人机的路径规划方法,其特征在于,所述评论者模型输出层的函数为relu激活函数,所述执行者模型输出层的函数为sigmoid激活函数。
CN202210224326.7A 2022-03-07 2022-03-07 一种基站无人机的路径规划方法 Active CN114594793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210224326.7A CN114594793B (zh) 2022-03-07 2022-03-07 一种基站无人机的路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210224326.7A CN114594793B (zh) 2022-03-07 2022-03-07 一种基站无人机的路径规划方法

Publications (2)

Publication Number Publication Date
CN114594793A CN114594793A (zh) 2022-06-07
CN114594793B true CN114594793B (zh) 2023-04-25

Family

ID=81806929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210224326.7A Active CN114594793B (zh) 2022-03-07 2022-03-07 一种基站无人机的路径规划方法

Country Status (1)

Country Link
CN (1) CN114594793B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117295096B (zh) * 2023-11-24 2024-02-09 武汉市豪迈电力自动化技术有限责任公司 基于5g短共享的智能电表数据传输方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264505A (zh) * 2019-06-05 2019-09-20 北京达佳互联信息技术有限公司 一种单目深度估计方法、装置、电子设备及存储介质
CN113032904A (zh) * 2021-03-22 2021-06-25 北京航空航天大学杭州创新研究院 模型构建方法、任务分配方法、装置、设备及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110462544A (zh) * 2017-03-20 2019-11-15 御眼视觉技术有限公司 自主车辆的轨迹选择
CN108170162B (zh) * 2017-12-30 2022-03-25 天津职业技术师范大学 多尺度风扰分析无人机机群协调控制系统性能评估方法
CN108803615B (zh) * 2018-07-03 2021-03-23 东南大学 一种基于深度强化学习的虚拟人未知环境导航算法
KR102267316B1 (ko) * 2019-03-05 2021-06-21 네이버랩스 주식회사 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템
US11562228B2 (en) * 2019-06-12 2023-01-24 International Business Machines Corporation Efficient verification of machine learning applications
CN110673637B (zh) * 2019-10-08 2022-05-13 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法
CN110703766B (zh) * 2019-11-07 2022-01-11 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
EP3832420B1 (en) * 2019-12-06 2024-02-07 Elektrobit Automotive GmbH Deep learning based motion control of a group of autonomous vehicles
CN112200266B (zh) * 2020-10-28 2024-04-02 腾讯科技(深圳)有限公司 基于图结构数据的网络训练方法、装置以及节点分类方法
CN112286218B (zh) * 2020-12-29 2021-03-26 南京理工大学 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN113115344B (zh) * 2021-04-19 2021-12-14 中国人民解放军火箭军工程大学 基于噪声优化的无人机基站通信资源分配策略预测方法
CN113254188B (zh) * 2021-07-07 2021-11-19 北京航空航天大学杭州创新研究院 调度优化方法和装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264505A (zh) * 2019-06-05 2019-09-20 北京达佳互联信息技术有限公司 一种单目深度估计方法、装置、电子设备及存储介质
CN113032904A (zh) * 2021-03-22 2021-06-25 北京航空航天大学杭州创新研究院 模型构建方法、任务分配方法、装置、设备及介质

Also Published As

Publication number Publication date
CN114594793A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN113095481B (zh) 一种基于并行自我博弈的空战机动方法
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN110488872B (zh) 一种基于深度强化学习的无人机实时路径规划方法
CN111580544B (zh) 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN112799386B (zh) 基于人工势场与强化学习的机器人路径规划方法
CN113159432A (zh) 一种基于深度强化学习的多智能体路径规划方法
CN114594793B (zh) 一种基站无人机的路径规划方法
CN113377131B (zh) 一种使用强化学习获得无人机收集数据轨迹的方法
CN114169234A (zh) 一种无人机辅助移动边缘计算的调度优化方法及系统
CN113962012A (zh) 无人机对抗策略优化方法及装置
CN113268081A (zh) 一种基于强化学习的小型无人机防控指挥决策方法及系统
CN115494732B (zh) 一种基于近端策略优化的无人机轨迹设计和功率分配方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN113378466A (zh) 一种基于dqn的雷达对抗智能决策方法
CN114003059A (zh) 运动学约束条件下基于深度强化学习的uav路径规划方法
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
CN117236561A (zh) 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质
CN113222468A (zh) 一种基于深度强化学习的成像卫星资源调度方法
CN114727323A (zh) 无人机基站控制方法及装置、模型训练方法及装置
CN115032996A (zh) 一种路径规划方法、装置、电子设备及存储介质
CN113919188A (zh) 一种基于上下文-mab的中继无人机路径规划方法
Zhang et al. Trajectory Design for UAV-Based Inspection System: A Deep Reinforcement Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant