CN114594793A - 一种基站无人机的路径规划方法 - Google Patents
一种基站无人机的路径规划方法 Download PDFInfo
- Publication number
- CN114594793A CN114594793A CN202210224326.7A CN202210224326A CN114594793A CN 114594793 A CN114594793 A CN 114594793A CN 202210224326 A CN202210224326 A CN 202210224326A CN 114594793 A CN114594793 A CN 114594793A
- Authority
- CN
- China
- Prior art keywords
- model
- base station
- reviewer
- unmanned aerial
- aerial vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 230000009471 action Effects 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基站无人机的路径规划方法,通过当前基站无人机的状态,采用执行者模型得到基站无人机下一步要执行的基站无人机动作,再通过评论者模型对基站无人机动作进行评估,从而将合理的基站无人机动作给到智能体,使得基站无人机能及时合理的进行路径规划,解决了传统算法很难在连续空间中计算无人机的飞行动作的问题。
Description
技术领域
本发明涉及无人机技术领域,具体涉及一种基站无人机的路径规划方法。
背景技术
无人机具有可灵活控制、机动性高、成本较低等特点,被广泛应用于军事和民用领域,如军用无人机、消防救援无人机、农业灌溉无人机、快递运输无人机等。在无线通信领域,无人机可以作为空中基站提供临时无线通信服务。相较于传统地面基站,空中基站能够被灵活调整部署位置,空中基站也有更大的机会与地面用户建立视距链路连接。
目前关于基站无人机的研究中,较多工作致力于寻找无人机的最优飞行路径,以增强无线通信网络性能。这类研究很少考虑到地面用户位置变化对无人机路径规划的影响。地面用户的活动往往呈现动态性和随机性,地面用户位置变化可能降低用户与基站无人机间的无线通信速率,从而造成网络性能的损失。因此,在规划基站无人机飞行路径时考虑地面用户位置变化是必要的。
在考虑地面用户位置变化的环境中,传统启发式算法需要不断初始化和更新以规划无人机的飞行路径,这会造成计算资源和时间成本的增加。无人机路径规划问题属于连续控制问题,无人机的飞行距离和飞行方向都是连续变量,传统算法很难在连续空间中计算无人机的飞行动作。
发明内容
针对现有技术中的上述不足,本发明提供的一种基站无人机的路径规划方法解决了传统算法很难在连续空间中计算无人机的飞行动作的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基站无人机的路径规划方法,包括以下步骤:
S1、采集基站无人机的状态数据和动作数据,构建状态训练数据集和动作训练数据集;
S2、采用状态训练数据集对执行者模型进行训练,得到训练完成的执行者模型;
S3、采用动作训练数据集对评论者模型进行训练,得到训练完成的评论者模型;
S4、采集待进行路径规划的基站无人机的状态数据;
S5、根据待进行路径规划的基站无人机的状态数据,采用训练完成的执行者模型获取基站无人机动作;
S6、采用训练完成的评论者模型对基站无人机动作进行评估;
S7、将通过评估的基站无人机动作发送至基站无人机的智能体,完成路径规划。
综上,本发明的有益效果为:本发明通过当前基站无人机的状态,得到基站无人机下一步要执行的基站无人机动作,再通过对基站无人机动作进行评估,从而将合理的基站无人机动作给到智能体,使得基站无人机能及时合理的进行路径规划,解决了传统算法很难在连续空间中计算无人机的飞行动作的问题。
进一步地,所述步骤S1和S5中基站无人机的状态数据包括:基站无人机在时隙t的位置坐标和地面用户在时隙t的位置坐标。
进一步地,所述步骤S2中在对执行者模型进行训练时,执行者模型的梯度函数为:
其中,为梯度函数,E[]为数学期望,Q(,)为评论者模型,s和a为变量,为对执行动作at求偏导,为对执行者模型权重θπ求偏导,θQ为评论者模型权重,θπ为执行者模型权重,π(|)为执行者模型,t为时隙,st为时隙t的状态数据,|为概率条件符号。
进一步地,所述步骤S3中在对评论者模型进行训练时,评论者模型的损失函数为:
L(θQ)=E[r(st,at)+γQ′(st+1,π′(st+1|θπ′)|θQ′)-Q(st,at|θQ)]
其中,L(θQ)为评论者模型的损失函数,E[]为数学期望,r(st,at)为时隙t状态st下执行动作at获得的奖励,γ为折扣因子,Q′(,)为评论者目标模型,π′(|)为执行者目标模型,θQ′为更新后的评论者目标模型权重,为更新前的评论者目标模型权重,θπ′为更新后的执行者目标模型权重,为更新前的执行者目标模型权重,|为概率条件符号,Q(,)为评论者模型,θQ为评论者模型权重,τ为评论者模型中的学习率,τ′为执行者模型中的学习率,t为时隙,st为时隙t的状态数据,st+1为时隙t+1的状态数据,at为状态数据st下选择的动作。
上述进一步方案的有益效果为:通过最小化损失函数L(θQ),帮助评论者模型更准确地计算出在st下选择动作at后的收益。损失函数中对评论者目标模型的输出做了折扣,这是为了防止在计算收益时产生过度估计问题。
进一步地,所述评论者模型、执行者模型、执行者目标模型和评论者目标模型包括第一全连接层和第二全连接层;所述第一全连接层的神经元为600个,所述第二全连接层的神经元为500个。
进一步地,所述评论者模型输出层的函数为relu激活函数,所述执行者模型输出层的函数为sigmoid激活函数。
上述进一步方案的有益效果为:执行者模型输出层采用sigmoid函数是为了防止输出值超出动作的边界值。
附图说明
图1为一种基站无人机的路径规划方法的流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基站无人机的路径规划方法,包括以下步骤:
S1、采集基站无人机的状态数据和动作数据,构建状态训练数据集和动作训练数据集;
步骤S1中基站无人机的状态数据用于构建状态训练数据集,基站无人机的动作数据用于构建动作训练数据集。
所述步骤S1和S5中基站无人机的状态数据包括:基站无人机在时隙t的位置坐标和地面用户在时隙t的位置坐标。
所述动作数据包括:基站无人机的飞行方向和飞行距离。
在进行基站无人机数据采集时,将采集的数据进行离散处理,处理得到时间间隔为t的数据,用于对执行者模型和评论者模型进行训练。
S2、采用状态训练数据集对执行者模型进行训练,得到训练完成的执行者模型;
所述步骤S2中在对执行者模型进行训练时,执行者模型的梯度函数为:
其中,为梯度函数,E[]为数学期望,Q(,)为评论者模型,s和a为变量,为对执行动作at求偏导,为对执行者模型权重θπ求偏导,θQ为评论者模型权重,θπ为执行者模型权重,π(|)为执行者模型,t为时隙,st为时隙t的状态数据,|为概率条件符号。
S3、采用动作训练数据集对评论者模型进行训练,得到训练完成的评论者模型;
所述步骤S3中在对评论者模型进行训练时,评论者模型的损失函数为:
L(θQ)=E[r(st,at)+γQ′(st+1,π′(st+1|θπ′)|θQ′)-Q(st,at|θQ)]
其中,L(θQ)为评论者模型的损失函数,E[]为数学期望,r(st,at)为时隙t状态st下执行动作at获得的奖励,γ为折扣因子,Q′(,)为评论者目标模型,π′(|)为执行者目标模型,θQ′为更新后的评论者目标模型权重,为更新前的评论者目标模型权重,θπ′为更新后的执行者目标模型权重,为更新前的执行者目标模型权重,|为概率条件符号,Q(,)为评论者模型,θQ为评论者模型权重,τ为评论者模型中的学习率,τ′为执行者模型中的学习率,t为时隙,st为时隙t的状态数据,st+1为时隙t+1的状态数据,at为状态数据st下选择的动作。
S4、采集待进行路径规划的基站无人机的状态数据;
S5、根据待进行路径规划的基站无人机的状态数据,采用训练完成的执行者模型获取基站无人机动作;
S6、采用训练完成的评论者模型对基站无人机动作进行评估;
S7、将通过评估的基站无人机动作发送至基站无人机的智能体,完成路径规划。
所述评论者模型、执行者模型、执行者目标模型和评论者目标模型包括第一全连接层和第二全连接层;所述第一全连接层的神经元为600个,所述第二全连接层的神经元为500个。
所述评论者模型输出层的函数为relu激活函数,所述执行者模型输出层的函数为sigmoid激活函数。
在上述过程中数据可通过经验回放池进行存储,也可采用其他存储单元。在每次训练时,可从经验回放池中随机选择大小为256的训练数据集和动作训练数据集,在训练前可分别对训练数据集和动作训练数据集进行归一化处理,再用于训练评论者模型和执行者模型,训练次数可设定,也可在训练评论者模型和执行者模型收敛时,停止训练。
Claims (6)
1.一种基站无人机的路径规划方法,其特征在于,包括以下步骤:
S1、采集基站无人机的状态数据和动作数据,构建状态训练数据集和动作训练数据集;
S2、采用状态训练数据集对执行者模型进行训练,得到训练完成的执行者模型;
S3、采用动作训练数据集对评论者模型进行训练,得到训练完成的评论者模型;
S4、采集待进行路径规划的基站无人机的状态数据;
S5、根据待进行路径规划的基站无人机的状态数据,采用训练完成的执行者模型获取基站无人机动作;
S6、采用训练完成的评论者模型对基站无人机动作进行评估;
S7、将通过评估的基站无人机动作发送至基站无人机的智能体,完成路径规划。
2.根据权利要求1所述的基站无人机的路径规划方法,其特征在于,所述步骤S1和S5中基站无人机的状态数据包括:基站无人机在时隙t的位置坐标和地面用户在时隙t的位置坐标。
4.根据权利要求3所述的基站无人机的路径规划方法,其特征在于,所述步骤S3中在对评论者模型进行训练时,评论者模型的损失函数为:
L(θQ)=E[r(st,at)+γQ′(st+1,π′(st+1|θπ′)|θQ′)-Q(st,at|θQ)]
5.根据权利要求1所述的基站无人机的路径规划方法,其特征在于,所述评论者模型、执行者模型、执行者目标模型和评论者目标模型包括第一全连接层和第二全连接层;所述第一全连接层的神经元为600个,所述第二全连接层的神经元为500个。
6.根据权利要求1所述的基站无人机的路径规划方法,其特征在于,所述评论者模型输出层的函数为relu激活函数,所述执行者模型输出层的函数为sigmoid激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210224326.7A CN114594793B (zh) | 2022-03-07 | 2022-03-07 | 一种基站无人机的路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210224326.7A CN114594793B (zh) | 2022-03-07 | 2022-03-07 | 一种基站无人机的路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114594793A true CN114594793A (zh) | 2022-06-07 |
CN114594793B CN114594793B (zh) | 2023-04-25 |
Family
ID=81806929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210224326.7A Active CN114594793B (zh) | 2022-03-07 | 2022-03-07 | 一种基站无人机的路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114594793B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117295096A (zh) * | 2023-11-24 | 2023-12-26 | 武汉市豪迈电力自动化技术有限责任公司 | 基于5g短共享的智能电表数据传输方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170162A (zh) * | 2017-12-30 | 2018-06-15 | 天津职业技术师范大学 | 多尺度风扰分析无人机机群协调控制系统性能评估方法 |
WO2018172849A1 (en) * | 2017-03-20 | 2018-09-27 | Mobileye Vision Technologies Ltd. | Trajectory selection for an autonomous vehicle |
CN108803615A (zh) * | 2018-07-03 | 2018-11-13 | 东南大学 | 一种基于深度强化学习的虚拟人未知环境导航算法 |
CN110264505A (zh) * | 2019-06-05 | 2019-09-20 | 北京达佳互联信息技术有限公司 | 一种单目深度估计方法、装置、电子设备及存储介质 |
CN110673637A (zh) * | 2019-10-08 | 2020-01-10 | 福建工程学院 | 一种基于深度强化学习的无人机伪路径规划的方法 |
CN110703766A (zh) * | 2019-11-07 | 2020-01-17 | 南京航空航天大学 | 一种基于迁移学习策略深度q网络的无人机路径规划方法 |
US20200394471A1 (en) * | 2019-06-12 | 2020-12-17 | International Business Machines Corporation | Efficient database maching learning verification |
CN112200266A (zh) * | 2020-10-28 | 2021-01-08 | 腾讯科技(深圳)有限公司 | 基于图结构数据的网络训练方法、装置以及节点分类方法 |
CN112286218A (zh) * | 2020-12-29 | 2021-01-29 | 南京理工大学 | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 |
EP3832420A1 (en) * | 2019-12-06 | 2021-06-09 | Elektrobit Automotive GmbH | Deep learning based motion control of a group of autonomous vehicles |
CN113032904A (zh) * | 2021-03-22 | 2021-06-25 | 北京航空航天大学杭州创新研究院 | 模型构建方法、任务分配方法、装置、设备及介质 |
CN113115344A (zh) * | 2021-04-19 | 2021-07-13 | 中国人民解放军火箭军工程大学 | 基于噪声优化的无人机基站通信资源分配策略预测方法 |
CN113254188A (zh) * | 2021-07-07 | 2021-08-13 | 北京航空航天大学杭州创新研究院 | 调度优化方法和装置、电子设备及存储介质 |
US20210397961A1 (en) * | 2019-03-05 | 2021-12-23 | Naver Labs Corporation | Method and system for training autonomous driving agent on basis of deep reinforcement learning |
-
2022
- 2022-03-07 CN CN202210224326.7A patent/CN114594793B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018172849A1 (en) * | 2017-03-20 | 2018-09-27 | Mobileye Vision Technologies Ltd. | Trajectory selection for an autonomous vehicle |
CN108170162A (zh) * | 2017-12-30 | 2018-06-15 | 天津职业技术师范大学 | 多尺度风扰分析无人机机群协调控制系统性能评估方法 |
CN108803615A (zh) * | 2018-07-03 | 2018-11-13 | 东南大学 | 一种基于深度强化学习的虚拟人未知环境导航算法 |
US20210397961A1 (en) * | 2019-03-05 | 2021-12-23 | Naver Labs Corporation | Method and system for training autonomous driving agent on basis of deep reinforcement learning |
CN110264505A (zh) * | 2019-06-05 | 2019-09-20 | 北京达佳互联信息技术有限公司 | 一种单目深度估计方法、装置、电子设备及存储介质 |
US20200394471A1 (en) * | 2019-06-12 | 2020-12-17 | International Business Machines Corporation | Efficient database maching learning verification |
CN110673637A (zh) * | 2019-10-08 | 2020-01-10 | 福建工程学院 | 一种基于深度强化学习的无人机伪路径规划的方法 |
CN110703766A (zh) * | 2019-11-07 | 2020-01-17 | 南京航空航天大学 | 一种基于迁移学习策略深度q网络的无人机路径规划方法 |
EP3832420A1 (en) * | 2019-12-06 | 2021-06-09 | Elektrobit Automotive GmbH | Deep learning based motion control of a group of autonomous vehicles |
CN112200266A (zh) * | 2020-10-28 | 2021-01-08 | 腾讯科技(深圳)有限公司 | 基于图结构数据的网络训练方法、装置以及节点分类方法 |
CN112286218A (zh) * | 2020-12-29 | 2021-01-29 | 南京理工大学 | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 |
CN113032904A (zh) * | 2021-03-22 | 2021-06-25 | 北京航空航天大学杭州创新研究院 | 模型构建方法、任务分配方法、装置、设备及介质 |
CN113115344A (zh) * | 2021-04-19 | 2021-07-13 | 中国人民解放军火箭军工程大学 | 基于噪声优化的无人机基站通信资源分配策略预测方法 |
CN113254188A (zh) * | 2021-07-07 | 2021-08-13 | 北京航空航天大学杭州创新研究院 | 调度优化方法和装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117295096A (zh) * | 2023-11-24 | 2023-12-26 | 武汉市豪迈电力自动化技术有限责任公司 | 基于5g短共享的智能电表数据传输方法及系统 |
CN117295096B (zh) * | 2023-11-24 | 2024-02-09 | 武汉市豪迈电力自动化技术有限责任公司 | 基于5g短共享的智能电表数据传输方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114594793B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113364495B (zh) | 一种多无人机轨迹和智能反射面相移联合优化方法及系统 | |
CN113095481B (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN111580544B (zh) | 一种基于强化学习ppo算法的无人机目标跟踪控制方法 | |
CN112433525A (zh) | 基于模仿学习及深度强化学习的移动机器人导航方法 | |
CN113159432A (zh) | 一种基于深度强化学习的多智能体路径规划方法 | |
CN112215350B (zh) | 一种基于强化学习的智能体控制方法及装置 | |
CN107992090A (zh) | 一种应用于网络化集群智能体系统的自适应编队方法 | |
CN114415735B (zh) | 面向动态环境的多无人机分布式智能任务分配方法 | |
CN111752304B (zh) | 无人机数据采集方法及相关设备 | |
CN117350175B (zh) | 人工智能生态因子空气环境质量监测方法及系统 | |
CN114594793A (zh) | 一种基站无人机的路径规划方法 | |
CN115494732B (zh) | 一种基于近端策略优化的无人机轨迹设计和功率分配方法 | |
CN114237222A (zh) | 一种基于强化学习的取送货车辆路径规划方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN113283827A (zh) | 一种基于深度强化学习的两阶段无人机物流路径规划方法 | |
CN117236561A (zh) | 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质 | |
CN115903885B (zh) | 一种基于任务牵引的蜂群Agent模型的无人机飞控方法 | |
CN116859989A (zh) | 一种基于群体协同的无人机集群智能对抗策略生成方法 | |
CN114828049B (zh) | 一种基于多智能体强化学习的无线网络拓扑优化控制方法 | |
CN113705115B (zh) | 地面无人车辆底盘运动与目标打击协同控制方法和系统 | |
CN114298244A (zh) | 一种智能体群体交互的决策控制方法、装置及系统 | |
CN114727323A (zh) | 无人机基站控制方法及装置、模型训练方法及装置 | |
CN114611664A (zh) | 一种多智能体学习方法、装置及设备 | |
Gu et al. | UAV-enabled mobile radiation source tracking with deep reinforcement learning | |
Lin et al. | Choice of discount rate in reinforcement learning with long-delay rewards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |