CN113848974A - 一种基于深度强化学习的飞行器轨迹规划方法及系统 - Google Patents
一种基于深度强化学习的飞行器轨迹规划方法及系统 Download PDFInfo
- Publication number
- CN113848974A CN113848974A CN202111144858.1A CN202111144858A CN113848974A CN 113848974 A CN113848974 A CN 113848974A CN 202111144858 A CN202111144858 A CN 202111144858A CN 113848974 A CN113848974 A CN 113848974A
- Authority
- CN
- China
- Prior art keywords
- information
- neural network
- action
- aircraft
- unmanned aerial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000002787 reinforcement Effects 0.000 title claims abstract description 20
- 230000009471 action Effects 0.000 claims abstract description 60
- 238000013528 artificial neural network Methods 0.000 claims abstract description 48
- 230000006870 function Effects 0.000 claims abstract description 37
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 230000007123 defense Effects 0.000 claims description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 231100001261 hazardous Toxicity 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/106—Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
Abstract
一种基于深度强化学习的飞行器轨迹规划方法及系统,包括以下步骤:无人机利用模拟激光点云在飞行环境中交互产生态势信息;态势信息传入网络模型生成无人机执行机构动作;无人机执行动作得到下一时刻态势信息以及奖励信息;神经网络模型根据由奖励信息的态势‑动作值函数更新网络参数;判断飞行轨迹是否到达目标点,若是,规划结束,否则神经网络产生新的动作,无人机进行下一次态势更新。本发明利用深度强化学习方法对飞行器在复杂障碍下的轨迹规划问题进行研究,实现在信息不完备情境下更加自主,更加可靠、更加智能的轨迹规划。
Description
技术领域
本发明属于机器学习路径规划技术领域,特别涉及一种基于深度强化学习的飞行器轨迹规划方法及系统。
背景技术
近年来,无人机技术已逐渐成熟,研究热点已从无人机开发变为如何更好地使用无人机执行各种复杂任务,如航空摄影,交通巡逻,检查,危险区域检查和救灾。随着飞行器任务场景的复杂化,飞行器需要在飞行过程中根据环境变化自主规划飞行轨迹。传统的预先设计的飞行器轨迹严重依赖于已知的环境的先验知识,例如专利CN111707269A中需要全局障碍信息参与轨迹规划,无法适应信息不完备的复杂任务。而专利CN106595671ACN112506216A将飞行空域离散为网格,利用强化学习,粒子搜索等方法进行规划,这些方法存在规划精度不高的问题,规划的轨迹往往多为可行解而不是最优解。如何能使飞行器更加智能化,实现复杂环境下飞行轨迹的自主决策成为了研究热点。
发明内容
本发明的目的在于提供一种基于深度强化学习的飞行器轨迹规划方法及系统,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种基于深度强化学习的飞行器轨迹规划方法,包括以下步骤:
无人机利用模拟激光点云在飞行环境中交互产生态势信息,包括自身信息和部分障碍信息;
态势信息传入网络模型生成无人机执行机构动作;
无人机执行动作得到下一时刻态势信息以及奖励信息;
神经网络模型根据由奖励信息的态势-动作值函数更新网络参数;
判断飞行轨迹是否到达目标点,若是,规划结束,否则神经网络产生新的动作,无人机进行下一次态势更新。
进一步的,无人机利用模拟激光点云在飞行环境中交互产生态势信息包括:建立无人机运动学模型,建立模拟激光电云传感器模型,初始化无人机飞行态势和传感器初值。
进一步的,建立模拟激光电云传感器模型具体包括:飞行器正前方为传感器正方向,将传感器初值归一化为D,值为1,被探测到的障碍物与无人机之间的距离在0~1之间;在机体坐标系下,利用海伦面积公式解算模拟雷达探测范围中障碍的方位,通过坐标变换将机体坐标系下的雷达数据转换为地面坐标系,作为神经网络的另一部分输入信息;传感器数量为m,雷达数据表示为一维数组,数值在0~1之间;传感器与障碍物距离为OA,传感器顶端与障碍物距离为OB;障碍物半径为R;利用传感器与障碍物距离Dis判断传感器与障碍物是否相交,并由此确定障碍物相对于飞行器的位置。
进一步的,生成无人机执行机构动作具体为:
飞行器方位信息与传感器信息向量作为神经网络输入数据训练规划决策模型;
神经网络模型采用长短期记忆网络LSTM结合深度神经网络DNN的神经网络模型作为非线性函数拟合器拟合规划策略;神经网络模型使用一层LSTM网络将归一化的态势信息转化为数据特征并存储,得到的数据特征输入深度神经网络层DNN,输出飞行器动作指令。
进一步的,监督网络作为评估飞行器在某状态下采取某动作的价值,监督网络的输入为动作网络输入信息和输出信息,即飞行器状态信息与动作值;监督网络输出当前状态采取当前动作的动作值函数Q(s,a);其中,Q(s,a)为s态势下采取动作a所得的状态-动作值函数。
进一步的,神经网络超参数包括学习率、折扣因子、批量数、经验池容量;神经网络在层与层之间均采用ReLU激活函数,神经网络梯度下降采用Adam优化器来优化神经网络,采用min-max归一化方法,将实时位置信息、速度信息、相对距离数据输入整合为无量纲标量。
进一步的,神经网络模型根据由奖励信息的态势-动作值函数更新网络参数:
定义初始点与目标点矢量形式为Vector0,则位置奖励函数Rposition表示为
设当前质心位置分量为X,Y,Z,目标点坐标分量EX,EY,EZ,起始点为OX,OY,OZ,位置奖励函数,具体形式如下:
根据高斯分布建模避障项,根据当前位置N相对防御模型位置B求得二者相对距离DBN;DBN越小表示被拦截风险越高,智能体将会获得更多的惩罚项
目标引导项:
Rtriplet=[|Vector|2-D2 BN-α]+ (0.8)
[·]+符号表示当[·]内的值大于0的时候,函数值正常输出,反之则输出为0。
进一步的,一种基于深度强化学习的飞行器轨迹规划系统,包括:
态势信息生成模块,用于无人机利用模拟激光点云在飞行环境中交互产生态势信息,包括自身信息和部分障碍信息;
执行机构动作生成模块,用于态势信息传入网络模型生成无人机执行机构动作;
奖励信息模块,用于无人机执行动作得到下一时刻态势信息以及奖励信息;
网络参数更新模块,用于神经网络模型根据由奖励信息的态势-动作值函数更新网络参数;
判断模块,用于判断飞行轨迹是否到达目标点,若是,规划结束,否则神经网络产生新的动作,无人机进行下一次态势更新。
与现有技术相比,本发明有以下技术效果:
本发明利用深度强化学习方法对飞行器在复杂障碍下的轨迹规划问题进行研究,实现在信息不完备情境下更加自主,更加可靠、更加智能的轨迹规划,将深度强化学习和飞行器轨迹规划结合起来的智能轨迹规划技术主要应用于飞行器在不确定环境、存在参数扰动或者突发的故障等情况下,克服各种干扰和威胁,通过智能决策系统进行在线自主轨迹规划,实时改变飞行策略,从而确保飞行器稳定完成飞行任务,有效提高飞行器的生存能力。
附图说明
图1传感器结构图;
图2传感原理示意图;
图3神经网络结构图
图4流程图;
具体实施方式
以下结合附图对本发明进一步说明:
请参阅图1至图4,本发明实例提供一种无人机的轨迹规划方法,所述轨迹规划方法包括:
无人机利用模拟激光点云在飞行环境中交互产生态势信息,包括自身信息和部分障碍信息;
态势信息传入网络模型生成无人机执行机构动作;
无人机执行动作得到下一时刻态势信息以及奖励信息;
神经网络模型根据由奖励信息的态势-动作值函数更新网络参数;
判断飞行轨迹是否到达目标点,若是,规划结束,否则神经网络产生新的动作,无人机进行下一次态势更新。
关键技术:
1.激光雷达模型:
设计一种具有一定探测范围的束状激光雷达模型,在探测范围内飞行器能够感知障碍方位信息。如图1所示。
飞行器正前方为传感器正方向。该模型能够在设定的长度、角度范围内,探测无人机所处环境,模型范围内障碍物相对于无人机的方位信息。将传感器初值归一化为D,值为1。被探测到的障碍物与无人机之间的距离在0~1之间。在机体坐标系下,利用海伦面积公式解算模拟雷达探测范围中障碍的方位。通过坐标变换将机体坐标系下的雷达数据转换为地面坐标系,作为神经网络的另一部分输入信息。传感器数量为m,雷达数据表示为一维数组[n1,n2,n3,...nm],数值在0~1之间。模型感知障碍物的原理图如图2。其中,传感器与障碍物距离为OA,传感器顶端与障碍物距离为OB;障碍物半径为R。利用传感器与障碍物距离Dis判断传感器与障碍物是否相交,并由此确定障碍物相对于飞行器的位置。
2.动作-监督双神经网络:
飞行器方位信息与传感器信息向量作为神经网络输入数据训练规划决策模型。
神经网络模型采用长短期记忆网络LSTM结合深度神经网络DNN的神经网络模型作为非线性函数拟合器拟合规划策略。神经网络模型使用一层LSTM网络将归一化的态势信息转化为数据特征并存储,得到的数据特征输入深度神经网络层DNN,输出飞行器动作指令。
监督网络作为评估飞行器在某状态下采取某动作的价值。因此,监督网络的输入为动作网络输入信息和输出信息,即飞行器状态信息与动作值。监督网络输出当前状态采取当前动作的动作值函数Q(s,a)。其中,Q(s,a)为s态势下采取动作a所得的状态-动作值函数。
神经网络超参数包括学习率、,折扣因子、批量数、经验池容量。
神经网络在层与层之间均采用ReLU激活函数,神经网络梯度下降采用Adam优化器来优化神经网络。由于本文数据集较大,所以神经网络采用dropout正则化来防止过拟合现象的发生。为避免网络梯度的爆炸风险,采用min-max归一化方法,将实时位置信息、速度信息、相对距离等数据输入整合为无量纲标量。
在训练阶段,神经网络需要大量数据对神经网络进行更新。而在飞行器与环境交互的过程中,由于飞行器状态转换概率为1,即确定的动作指令得到确定且唯一的状态值,在状态S下,神经网络采用贪婪策略采取Q值最大的动作。在此过程中,神经网络易陷入局部最优解。因此在输出飞行器动作指令时,加入探索机制,根据领域知识评估当前动作在参数空间中的优劣程度,并将评估结果作为探索程度的一项决定因素。与目标点参数误差能够直观表征动作的优劣程度,作为模型探索幅度,利用当前动作指令输出与建立高斯分布:
为经过探索后的动作指令。探索范围取决于飞行器与目标点误差的大小。当飞行器距离目标点远时,探索幅度大而当飞行器距离目标点远时探索幅度随之变小以避免无效探索。同时这种探索能够有效增加数据多样性,加快神经网络收敛速度。
4.奖励函数:
当前位置与目标点的三维矢量作为智能体的一种形式化奖励能够很好地避免稀疏奖励所带来的弊端。定义初始点与目标点矢量形式为。则位置奖励函数表示为
设当前质心位置分量为,目标点坐标分量,起始点为,位置奖励函数,具体形式如下:
根据高斯分布建模避障项,根据当前位置N相对防御模型位置B求得二者相对距离。越小表示被拦截风险越高,智能体将会获得更多的惩罚项
目标引导项:为了让既能避开障碍物B又能快速靠近目标点,受Triplet损失函数的设计思想启发,目标引导项公式所示:
Rtriplet=[|Vector|2-D2 BN-α]+ (5.65)
符号表示当内的值大于0的时候,函数值正常输出,反之则输出为0。
进一步的,所述方法包括态势信息的数据处理,神经网络超参数设计;飞行障碍设计。
进一步的,所述无人机利用模拟激光点云在飞行环境中交互产生态势信息包括:建立无人机运动学模型;建立模拟激光电云传感器模型,初始化无人机飞行态势和传感器初值;
进一步的,所述态势信息传入神经网络模型生成执行机构动作包括:搭建神经网络模型;初始化神经网络权重;神经网络超参数设计。
步骤一:
搭建动作-监督双网络模型并初始化网络权重;初始化经验池容量
步骤二:
初始化飞行器态势信息s,包括飞行器位置信息【=】,速度信息,航迹倾角航机偏角,飞行器与目标再入点距离误差信息、虚拟雷达信息。
步骤三:
态势信息s输入actor神经网络,得到飞行器动作指令a。
态势信息s与飞行器动作指令a输入监督神经网络,得到Q(s,a)。
步骤四:
动作指令a输入飞行器模型得到下一时刻态势信息s_
步骤五:
根据s_计算奖励值r
步骤六:
存储[s,a,r,s_]至经验池
步骤七:
s_传递当前状态s,若经验池数量大于经验池设置阈值,进行步骤八;若小于经验池设置阈值,进行步骤九
步骤八:
利用经验池中存储的[s,a,r,s_]数组更新动作网络;
利用经验池中存储的[s,a,r,s_]数组更新监督网络;
步骤九:
判断飞行器是否到达目标点:若是,训练结束,若不是,进行步骤三
实例1:
步骤一:
初始化动作网络权重;初始化目标网络权重;初始化经验池容量为20000.
进一步的,动作网络与价值网络结构均为三层深度神经网络DNN,各隐层神经元个数选择如下表所示:
神经网络结构
神经网络参数设置
步骤二:
初始化飞行器态势信息s。
进一步的,所述初始化虚拟雷达信息的过程为:设置虚拟感知传感器范围为180°,飞行器正前方为正方向,传感器均匀分布在飞行器前方半圆形区域;
步骤三:
态势信息s输入actor神经网络,得到飞行器动作指令a。
态势信息s与飞行器动作指令a输入监督神经网络,得到Q(s,a)。
进一步的,Q*(s1,a1)=Q(s1,a1)+γ(R+max(Q(s2,a2)))-Q(s1,a1)
步骤四:
动作指令a输入飞行器模型得到下一时刻态势信息s_
步骤五:
根据s_计算奖励值R。
进一步的,奖励函数分为位置奖励函数Rposition避障奖励函数Rbarrier。
其中,位置奖励函数计算过程为:
设当前质心位置分量为X,Y,Z,目标点坐标分量EX,EY,EZ,起始点为OX,OY,OZ,位置奖励函数,具体形式如下:
根据高斯分布建模避障项Rbarrier,根据当前位置N相对防御模型位置B求得二者相对距离DBN。DBN越小表示被拦截风险越高,智能体将会获得更多的惩罚项
步骤六:
存储[s,a,r,s_]至经验池
步骤七:
s_传递当前状态s,若经验池数量大于经验池设置阈值,进行步骤八;若小于经验池设置阈值,进行步骤九
步骤八:
利用经验池中存储的[s,a,r,s_]数组更新动作网络;
利用经验池中存储的[s,a,r,s_]数组更新监督网络;
步骤九:
判断飞行器是否到达目标点:若是,训练结束,若不是,进行步骤三。
Claims (8)
1.一种基于深度强化学习的飞行器轨迹规划方法,其特征在于,包括以下步骤:
无人机利用模拟激光点云在飞行环境中交互产生态势信息,包括自身信息和部分障碍信息;
态势信息传入网络模型生成无人机执行机构动作;
无人机执行动作得到下一时刻态势信息以及奖励信息;
神经网络模型根据由奖励信息的态势-动作值函数更新网络参数;
判断飞行轨迹是否到达目标点,若是,规划结束,否则神经网络产生新的动作,无人机进行下一次态势更新。
2.根据权利要求1所述的一种基于深度强化学习的飞行器轨迹规划方法,其特征在于,无人机利用模拟激光点云在飞行环境中交互产生态势信息包括:建立无人机运动学模型,建立模拟激光电云传感器模型,初始化无人机飞行态势和传感器初值。
3.根据权利要求2所述的一种基于深度强化学习的飞行器轨迹规划方法,其特征在于,建立模拟激光电云传感器模型具体包括:飞行器正前方为传感器正方向,将传感器初值归一化为D,值为1,被探测到的障碍物与无人机之间的距离在0~1之间;在机体坐标系下,利用海伦面积公式解算模拟雷达探测范围中障碍的方位,通过坐标变换将机体坐标系下的雷达数据转换为地面坐标系,作为神经网络的另一部分输入信息;传感器数量为m,雷达数据表示为一维数组,数值在0~1之间;传感器与障碍物距离为OA,传感器顶端与障碍物距离为OB;障碍物半径为R;利用传感器与障碍物距离Dis判断传感器与障碍物是否相交,并由此确定障碍物相对于飞行器的位置。
4.根据权利要求1所述的一种基于深度强化学习的飞行器轨迹规划方法,其特征在于,生成无人机执行机构动作具体为:
飞行器方位信息与传感器信息向量作为神经网络输入数据训练规划决策模型;
神经网络模型采用长短期记忆网络LSTM结合深度神经网络DNN的神经网络模型作为非线性函数拟合器拟合规划策略;神经网络模型使用一层LSTM网络将归一化的态势信息转化为数据特征并存储,得到的数据特征输入深度神经网络层DNN,输出飞行器动作指令。
5.根据权利要求1所述的一种基于深度强化学习的飞行器轨迹规划方法,其特征在于,监督网络作为评估飞行器在某状态下采取某动作的价值,监督网络的输入为动作网络输入信息和输出信息,即飞行器状态信息与动作值;监督网络输出当前状态采取当前动作的动作值函数Q(s,a);其中,Q(s,a)为s态势下采取动作a所得的状态-动作值函数。
6.根据权利要求1所述的一种基于深度强化学习的飞行器轨迹规划方法,其特征在于,神经网络超参数包括学习率、折扣因子、批量数、经验池容量;神经网络在层与层之间均采用ReLU激活函数,神经网络梯度下降采用Adam优化器来优化神经网络,采用min-max归一化方法,将实时位置信息、速度信息、相对距离数据输入整合为无量纲标量。
7.根据权利要求1所述的一种基于深度强化学习的飞行器轨迹规划方法,其特征在于,神经网络模型根据由奖励信息的态势-动作值函数更新网络参数:
定义初始点与目标点矢量形式为Vector0,则位置奖励函数Rposition表示为
设当前质心位置分量为X,Y,Z,目标点坐标分量EX,EY,EZ,起始点为OX,OY,OZ,位置奖励函数,具体形式如下:
根据高斯分布建模避障项,根据当前位置N相对防御模型位置B求得二者相对距离DBN;DBN越小表示被拦截风险越高,智能体将会获得更多的惩罚项
目标引导项:
Rtriplet=[|Vector|2-D2 BN-α]+ (0.4)
[·]+符号表示当[·]内的值大于0的时候,函数值正常输出,反之则输出为0。
8.一种基于深度强化学习的飞行器轨迹规划系统,其特征在于,基于权利要求1至7任意一项所述的一种基于深度强化学习的飞行器轨迹规划方法,包括:
态势信息生成模块,用于无人机利用模拟激光点云在飞行环境中交互产生态势信息,包括自身信息和部分障碍信息;
执行机构动作生成模块,用于态势信息传入网络模型生成无人机执行机构动作;
奖励信息模块,用于无人机执行动作得到下一时刻态势信息以及奖励信息;
网络参数更新模块,用于神经网络模型根据由奖励信息的态势-动作值函数更新网络参数;
判断模块,用于判断飞行轨迹是否到达目标点,若是,规划结束,否则神经网络产生新的动作,无人机进行下一次态势更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111144858.1A CN113848974B (zh) | 2021-09-28 | 2021-09-28 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111144858.1A CN113848974B (zh) | 2021-09-28 | 2021-09-28 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113848974A true CN113848974A (zh) | 2021-12-28 |
CN113848974B CN113848974B (zh) | 2023-08-15 |
Family
ID=78980439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111144858.1A Active CN113848974B (zh) | 2021-09-28 | 2021-09-28 | 一种基于深度强化学习的飞行器轨迹规划方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113848974B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114355980A (zh) * | 2022-01-06 | 2022-04-15 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN115328196A (zh) * | 2022-08-05 | 2022-11-11 | 北京航空航天大学 | 一种基于学习的飞行器实时航路点决策-轨迹规划方法 |
CN116208968A (zh) * | 2022-12-30 | 2023-06-02 | 北京信息科技大学 | 基于联邦学习的轨迹规划方法及装置 |
CN116307331A (zh) * | 2023-05-15 | 2023-06-23 | 北京航空航天大学 | 航空器轨迹的规划方法 |
CN116522802A (zh) * | 2023-06-29 | 2023-08-01 | 北京天航华创科技股份有限公司 | 一种基于气象数据的无人飞艇智能飞行规划方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104571113A (zh) * | 2015-01-20 | 2015-04-29 | 博康智能网络科技股份有限公司 | 移动机器人的路径规划方法 |
CN105139072A (zh) * | 2015-09-09 | 2015-12-09 | 东华大学 | 应用于非循迹智能小车避障系统的强化学习算法 |
CN107479368A (zh) * | 2017-06-30 | 2017-12-15 | 北京百度网讯科技有限公司 | 一种基于人工智能的训练无人机控制模型的方法及系统 |
CN109298712A (zh) * | 2018-10-19 | 2019-02-01 | 大连海事大学 | 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法 |
CN109540151A (zh) * | 2018-03-25 | 2019-03-29 | 哈尔滨工程大学 | 一种基于强化学习的auv三维路径规划方法 |
CN109726866A (zh) * | 2018-12-27 | 2019-05-07 | 浙江农林大学 | 基于q学习神经网络的无人船路径规划方法 |
CN110032189A (zh) * | 2019-04-22 | 2019-07-19 | 河海大学常州校区 | 一种不依赖地图的智能仓储移动机器人路径规划方法 |
CN110502033A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于强化学习的固定翼无人机群集控制方法 |
CN111515932A (zh) * | 2020-04-23 | 2020-08-11 | 东华大学 | 一种基于人工势场与强化学习的人机共融流水线实现方法 |
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
CN113435644A (zh) * | 2021-06-25 | 2021-09-24 | 天津大学 | 基于深度双向长短期记忆神经网络的突发事件预测方法 |
-
2021
- 2021-09-28 CN CN202111144858.1A patent/CN113848974B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104571113A (zh) * | 2015-01-20 | 2015-04-29 | 博康智能网络科技股份有限公司 | 移动机器人的路径规划方法 |
CN105139072A (zh) * | 2015-09-09 | 2015-12-09 | 东华大学 | 应用于非循迹智能小车避障系统的强化学习算法 |
CN107479368A (zh) * | 2017-06-30 | 2017-12-15 | 北京百度网讯科技有限公司 | 一种基于人工智能的训练无人机控制模型的方法及系统 |
CN109540151A (zh) * | 2018-03-25 | 2019-03-29 | 哈尔滨工程大学 | 一种基于强化学习的auv三维路径规划方法 |
CN109298712A (zh) * | 2018-10-19 | 2019-02-01 | 大连海事大学 | 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法 |
CN109726866A (zh) * | 2018-12-27 | 2019-05-07 | 浙江农林大学 | 基于q学习神经网络的无人船路径规划方法 |
CN110032189A (zh) * | 2019-04-22 | 2019-07-19 | 河海大学常州校区 | 一种不依赖地图的智能仓储移动机器人路径规划方法 |
JP2021034050A (ja) * | 2019-08-21 | 2021-03-01 | 哈爾浜工程大学 | 強化学習に基づくauv行動計画及び動作制御方法 |
CN110502033A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于强化学习的固定翼无人机群集控制方法 |
CN111515932A (zh) * | 2020-04-23 | 2020-08-11 | 东华大学 | 一种基于人工势场与强化学习的人机共融流水线实现方法 |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
CN113435644A (zh) * | 2021-06-25 | 2021-09-24 | 天津大学 | 基于深度双向长短期记忆神经网络的突发事件预测方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114355980A (zh) * | 2022-01-06 | 2022-04-15 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN114355980B (zh) * | 2022-01-06 | 2024-03-08 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN115328196A (zh) * | 2022-08-05 | 2022-11-11 | 北京航空航天大学 | 一种基于学习的飞行器实时航路点决策-轨迹规划方法 |
CN116208968A (zh) * | 2022-12-30 | 2023-06-02 | 北京信息科技大学 | 基于联邦学习的轨迹规划方法及装置 |
CN116208968B (zh) * | 2022-12-30 | 2024-04-05 | 北京信息科技大学 | 基于联邦学习的轨迹规划方法及装置 |
CN116307331A (zh) * | 2023-05-15 | 2023-06-23 | 北京航空航天大学 | 航空器轨迹的规划方法 |
CN116307331B (zh) * | 2023-05-15 | 2023-08-04 | 北京航空航天大学 | 航空器轨迹的规划方法 |
CN116522802A (zh) * | 2023-06-29 | 2023-08-01 | 北京天航华创科技股份有限公司 | 一种基于气象数据的无人飞艇智能飞行规划方法 |
CN116522802B (zh) * | 2023-06-29 | 2023-09-19 | 北京天航华创科技股份有限公司 | 一种基于气象数据的无人飞艇智能飞行规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113848974B (zh) | 2023-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
Zhang et al. | Autonomous navigation of UAV in multi-obstacle environments based on a deep reinforcement learning approach | |
Wu | Coordinated path planning for an unmanned aerial-aquatic vehicle (UAAV) and an autonomous underwater vehicle (AUV) in an underwater target strike mission | |
CN108319293B (zh) | 一种基于lstm网络的uuv实时避碰规划方法 | |
CN111780777A (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
Karimi et al. | Optimal maneuver-based motion planning over terrain and threats using a dynamic hybrid PSO algorithm | |
You et al. | Target tracking strategy using deep deterministic policy gradient | |
CN113268074B (zh) | 一种基于联合优化的无人机航迹规划方法 | |
Ni et al. | An improved real-time path planning method based on dragonfly algorithm for heterogeneous multi-robot system | |
Wu et al. | Learning-based fixed-wing UAV reactive maneuver control for obstacle avoidance | |
Grando et al. | Deep reinforcement learning for mapless navigation of unmanned aerial vehicles | |
Niu et al. | UAV track planning based on evolution algorithm in embedded system | |
Liang et al. | Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network | |
Xie et al. | Long and short term maneuver trajectory prediction of UCAV based on deep learning | |
CN114138022A (zh) | 一种基于精英鸽群智能的无人机集群分布式编队控制方法 | |
Zhao et al. | Path planning for a tracked robot traversing uneven terrains based on tip‐over stability | |
Li et al. | A warm-started trajectory planner for fixed-wing unmanned aerial vehicle formation | |
CN113485323A (zh) | 一种级联多移动机器人灵活编队方法 | |
Huang et al. | An autonomous UAV navigation system for unknown flight environment | |
CN108459614B (zh) | 一种基于cw-rnn网络的uuv实时避碰规划方法 | |
CN113959446B (zh) | 一种基于神经网络的机器人自主物流运输导航方法 | |
Wu et al. | Multi-objective reinforcement learning for autonomous drone navigation in urban areas with wind zones | |
CN116448119A (zh) | 一种面向突发威胁的无人蜂群协同航迹规划方法 | |
CN114609925B (zh) | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 | |
CN114326826B (zh) | 多无人机队形变换方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230104 Address after: 710077 Room 12004, Block A, Xi'an National Digital Publishing Base, No.996, Tiangu 7th Road, Yuhua Street Office, Hi tech Zone, Xi'an, Shaanxi Applicant after: XI'AN INNNO AVIATION TECHNOLOGY Co.,Ltd. Address before: Beilin District Shaanxi province Xi'an City friendship road 710072 No. 127 Applicant before: Northwestern Polytechnical University |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |