CN115097853A - 一种基于细粒度重复策略的无人机机动飞行控制方法 - Google Patents
一种基于细粒度重复策略的无人机机动飞行控制方法 Download PDFInfo
- Publication number
- CN115097853A CN115097853A CN202210551472.0A CN202210551472A CN115097853A CN 115097853 A CN115097853 A CN 115097853A CN 202210551472 A CN202210551472 A CN 202210551472A CN 115097853 A CN115097853 A CN 115097853A
- Authority
- CN
- China
- Prior art keywords
- network
- unmanned aerial
- grained
- aerial vehicle
- fine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 title claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 230000003252 repetitive effect Effects 0.000 claims abstract description 10
- 230000000875 corresponding effect Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 239000012723 sample buffer Substances 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 7
- 238000011217 control strategy Methods 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 4
- 239000000523 sample Substances 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 abstract description 7
- 230000009191 jumping Effects 0.000 abstract description 3
- 230000001133 acceleration Effects 0.000 description 2
- 239000003638 chemical reducing agent Substances 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本申请属于无人机智能控制领域,为一种基于细粒度重复策略的无人机机动飞行控制方法,基于无人机气动力参数构建全量六自由度模型和飞行控制率模块,用于模拟飞行控制环境,而后通过建立马尔科夫决策过程来分析各个控制指令以及对应的奖惩函数,而后通过DDPG算法和细粒度策略网络的结合形成各个控制指令与时间相对应的集合,对无人机进行控制。与传统机动控制器相比较不需要精确的线性化控制建模,能够生成连续的机动控制指令,不存在控制器切换而产生的指令反复跳变等问题。与经典的深度强化学习算法相比,该方法生成的机动飞行控制指令更加平滑,减少飞行任务中的指令有害切换次数,进而能够加快深度强化学习算法的训练速度。
Description
技术领域
本申请属于无人机智能控制领域,特别涉及一种基于细粒度重复策略的无人机机动飞行控制方法。
背景技术
无人机机动飞行控制属于无人机智能飞行控制领域,传统的机动飞行控制器采用底层线性控制率和顶层机动逻辑相结合的方式,该方法属于多模态线性控制器的组合使用,具有切换边界不稳定,控制指令存在跳变和对线性化控制模型严重依赖等缺陷。而现有的基于DQN和DDPG等经典深度强化学习算法的智能机动飞行控制器则具有控制指令切换频率快,机动控制策略不平滑等缺点,会给无人机作动器带来灾难性的影响。
因此,如何减少无人机作动器控制指令的切换频率、提高机动控制策略的平滑性是一个需要解决的问题。
发明内容
本申请的目的是提供了一种基于细粒度重复策略的无人机机动飞行控制方法,以解决现有技术中传统的机动飞行控制器控制策略不平滑的问题。
本申请的技术方案是:一种基于细粒度重复策略的无人机机动飞行控制方法,包括:基于无人机气动力参数构建全量六自由度模型和飞行控制率模块,形成机动飞行控制环境模拟器;建立马尔科夫决策过程,设定奖惩函数,进行最优策略的求解;将细粒度策略和DDPG相结合,训练无人机自主机动飞行控制智能体;进行智能机动飞行控制策略部署。
优选地,所述细粒度策略与DDPG的训练方法为:初始化细粒度重复网络θx、Actor网络、Actor-target网络的神经网络参数θμ,初始化Critic网络、Critic-target网络的神经网络参数θφ;根据Actor网络和细粒度重复网络选择无人机控制指令(a,x)并与环境交互,其中a是Actor网络的输出,使用OU随机过程进行探索;x是细粒度重复网络的输出,单位是step,构建n种选择x∈{20,21,...,2n},使用ε-贪婪策略进行探索;无人机响应模型控制指令(a,x)与环境进行多轮交互,并将产生的样本(s,a,x,r,s',d)存入样本缓冲区;开始训练,从样本缓冲区中随机抽取批数据进行训练,计算Critic神经网络的loss,并更新Critic网络参数;根据链式法则更新细粒度重复网络和Actor网络的参数;采用软更新方式更新Critic-target的网络参数θQ'和Actor-target的网络参数θμ'。
优选地,所述Critic神经网络的loss的计算方法为:
优选地,所述细粒度重复网络和Actor网络参数的更新算法为:
优选地,所述Critic-target的网络参数θQ'和Actor-target的网络参数θμ'的更新算法为:
优选地,所述全量六自由度模型的构建方法为:
设定载机为理想刚体,地表面是平面,不考虑地球形状;载机受到的重力恒定不变;不考虑风的因素;无人机的姿态角包括俯仰角、偏航角和滚转角以及三轴角速度,无人机的速度矢量主要包括三轴速度,机体轴与速度轴的夹角为攻角和侧滑角;
定义机体坐标系中机头方向为x轴,z轴垂直于机体向下,y轴由右手定则判定为右机翼方向;俯仰角θ为x轴与水平面夹角,向上为正,向下为负;偏航角ψ为x轴在地面上的投影与北向的夹角,向右为正,向左为负;滚转角φ为z轴与通过x轴的铅垂平面的夹角;载机向右转时为正;三轴角速度中滚转角速度p与x轴重合,俯仰角速度q与y轴重合,偏航角速度r与z轴重合;攻角α是速度向量在载机对称面上的投影与x轴的夹角;侧滑角β为速度向量与飞机对称面的夹角,向右为正,向左为负;
其中:
优选地,利用标准动态逆方法构建飞行控制率模块。
优选地,在t=t1,t2,…tn时刻,所述马尔科夫决策模型为:
其中S为状态空间集合,s和s'表示S中的状态,是S的元素;A(s)为动作集合,所有可能动作a的集合;为转移概率,采取相应的动作a导致系统的状态由s转移到s'的转移概率,其中at∈A,st∈S,为奖惩函数,采取相应的动作a导致系统的状态由s转移到s'所得到的奖惩函数,
本申请的一种基于细粒度重复策略的无人机机动飞行控制方法,基于无人机气动力参数构建全量六自由度模型和飞行控制率模块,用于模拟飞行控制环境,而后通过建立马尔科夫决策过程来分析各个控制指令以及对应的奖惩函数,而后通过DDPG算法和细粒度策略网络的结合形成各个控制指令与时间相对应的集合,对无人机进行控制。与传统机动控制器相比较不需要精确的线性化控制建模,能够生成连续的机动控制指令,不存在控制器切换而产生的指令反复跳变等问题。与经典的深度强化学习算法相比,该方法生成的机动飞行控制指令更加平滑,减少飞行任务中的指令有害切换次数,进而能够加快深度强化学习算法的训练速度。
附图说明
为了更清楚地说明本申请提供的技术方案,下面将对附图作简单地介绍。显而易见地,下面描述的附图仅仅是本申请的一些实施例。
图1为本申请整体流程示意图;
图2为本申请无人机飞行状态和坐标系定义图;
图3为本申请基于细粒度重复策略的无人机机动飞行控制方法示意图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。
一种基于细粒度重复策略的无人机机动飞行控制方法,通过建立细粒度策略网络与DDPG算法相结合的方式进行无人机自动机动飞行的控制,解决由于策略平滑而带来的控制指令频繁切换的问题。
如图1所示,具体包括如下步骤:
步骤S100,基于无人机气动力参数构建机动飞行控制环境模拟器;
无人机机动飞行控制环境模拟器由全量六自由度模型和飞行控制率模块组成,
首先对无人机模型做如下四个假设:载机为理想刚体,其质量一直不变(不考虑油耗);假设地表面是平面,不考虑地球形状;载机受到的重力恒定不变;不考虑风的因素。无人机的姿态角包括俯仰角、偏航角和滚转角以及三轴角速度,无人机的速度矢量主要包括三轴速度,机体轴与速度轴的夹角为攻角和侧滑角。
如图2所示,定义机体坐标系中机头方向为x轴,z轴垂直于机体向下,y轴由右手定则判定为右机翼方向;俯仰角θ为x轴与水平面夹角,向上为正,向下为负;偏航角ψ为x轴在地面上的投影与北向的夹角,向右为正,向左为负;滚转角φ为z轴与通过x轴的铅垂平面的夹角。载机向右转时为正;三轴角速度中滚转角速度p与x轴重合,俯仰角速度q与y轴重合,偏航角速度r与z轴重合;攻角α是速度向量在载机对称面上的投影与x轴的夹角;侧滑角β为速度向量与飞机对称面的夹角,向右为正,向左为负。
无人机的飞行动力学方程为:
将合外力F,速度矢量V,和姿态角速率ω写成在机体坐标系中三轴的分量可知:
带入动力学方程则有:
其中I表示无人机转动惯量,变形可得:
其中:
基于上述无人机模型,结合气动力参数,利用标准动态逆方法可以构建飞行控制率模块,响应无人机机动飞行控制算法输出的俯仰角速率/过载指令、滚转角速率指令、油门指令、方向舵指令和减速板指令。
通过全量六自由度的无人机模型和飞行控制率模块能够接收无人机的飞行状态参数,能够模拟飞行环境,为无人机训练提供假象环境。
步骤S200,建立马尔科夫决策过程,设定奖惩函数,进行最优策略的求解;
使用马尔科夫决策过程方法来进行最优策略的求解。在t=t1,t2,…tn时刻,马尔科夫决策过程可表示如下:
公式中的变量具体含义如下:
s,状态空间集合。s和s'表示S中的状态,是S的元素;A(s),动作集合,所有可能动作a的集合;转移概率,采取相应的动作a导致系统的状态由s转移到s'的转移概率,其中at∈A,st∈S;奖惩函数,采取相应的动作a导致系统的状态由s转移到s'所得到的奖惩函数,
在无人机机动飞行控制问题中,马尔科夫决策过程的变量含义为:
状态空间集合s由无人机三轴位置矢量、三轴速度矢量、三轴加速度矢量、姿态四元数、攻角、侧滑角和航迹角等机载传感器可观测的状态组成;动作集合A(s)包括俯仰角速率/过载指令、滚转角速率指令、油门指令、方向舵指令和减速板指令;转移概率即仿真环境是确定性环境,不存在随机过程;奖惩函数是依据当前无人机的机动飞行任务而定,如快速转弯,爬升俯冲等具有不同的奖惩函数。
通过建立马尔科夫决策过程,能够识别无人机的各个指令,并对无人机机动飞行任务重的各个指令进行评价,根据不同的评价值也就能够对无人机不同的控制指令输出不同的状态量,根据不同的状态量形成不同的飞行状态,从而为能够生成连续的机动控制指令提供基础。
步骤S300,利用DDPG算法和细粒度策略网络对环境进行交互,建立样本缓存区,从样本缓存区中抽取参数,利用DDPG算法获得参数的控制指令和评价值,将评价值输入值细粒度策略网络中获取对应控制指令的持续时间,如此反复,训练无人机自主机动飞行控制智能体;
优选地,本发明提出的基于细粒度重复策略的无人机机动飞行控制方法,其神经网络结构包括细粒度重复网络、Critic网络、Actor网络和Critic-target网络、Actor-target网络,根据链式法则分别对细粒度重复网络,Critic网络和Actor网络进行参数更新,根据软更新的方式更新Critic-target网络和Actor-target网络。
如图3所示,细粒度策略与DDPG的训练方法为:
1)初始化细粒度重复网络θx、Actor网络、Actor-target网络的神经网络参数θμ,初始化Critic网络、Critic-target网络的神经网络参数θφ;
2)根据Actor网络和细粒度重复网络选择无人机控制指令(a,x)并与环境交互,其中a是Actor网络的输出,表示无人机控制动作指令集合,使用OU随机过程进行探索,也就是与Actor网络的输出相加a=π(s|θμ)+OU;x是细粒度重复网络的输出,表示重复当前动作的时间长度,单位是step,构建n种选择x∈{20,21,...,2n},使用ε-贪婪策略进行探索;
3)无人机响应模型控制指令(a,x)与环境进行多轮交互,并将产生的样本(s,a,x,r,s',d)存入样本缓冲区;
4)开始训练,从样本缓冲区中随机抽取批数据进行训练,计算Critic神经网络的loss,并更新Critic网络参数,Qπ(s,a,x)和Qπ'(s,a,x)分别代表Critic网络和Critic-target网络输出;和分别代表Actor网络和Actor-target网络输出;代表细粒度重复网络输出;
其中,loss函数为:
5)根据链式法则更新细粒度重复网络和Actor网络的参数;
细粒度重复网络和Actor网络的参数更新算法为:
6)采用软更新方式更新Critic-target的网络参数θQ'和Actor-target的网络参数θμ',Critic-target的网络参数θQ'和Actor-target的网络参数θμ'的更新算法为:
在实际的飞机控制中,先对从样本缓存区中抽取的参数进行评价,评价量一部分通过Actor网络的参数输入至Actor网络内,进行控制指令的输出,另一部分通过细粒度重复网络参数输入至细粒度重复网络内,确定该控制指令的持续时间,两者结合形成控制指令与对应持续时间的集合,在训练中将该数据保存,在实际飞行中用于无人机控制器对无人机的实际指令输出,通过该飞行训练,对无人机的自主飞行进行有效模拟,不断修正模型。
步骤S400,将训练完成的DDPG算法和细粒度策略网络部署至无人机中,进行智能机动飞行控制策略部署。
满足机动飞行训练指标后,保存细粒度重复网络和Actor-target网络并在真实无人机上部署。基于细粒度重复策略的无人机机动飞行控制算法输入为无人机机载传感器实时测量的环境状态量state,包括无人机位置矢量、速度矢量、加速度矢量、姿态四元数、攻角、侧滑角和航迹角;输出为(a,x),其中即在x个环境step内执行控制指令a。
在无人机的飞行中,无人机将实际采集的参数输入至DDPG算法中,DDPG算法通过Actor网络计算得出的控制指令如快速左转弯,Critic对采集的参数进行评价,将评价量输入至细粒度重复网络中,细粒度重复网络通过采集的参数判断出左侧一定距离内为危险区域,最多能够左转弯的时间为1min,这样无人机得到的该指令为{快速左转弯、1min},在该指令结束之前,无人机不会指令其它的指令,而不会像现有的无人机那样会产生反复的左右转弯指令。在该指令结束之后,才会根据后续的参数判断后续需要指令的控制指令。
本申请通过先基于无人机气动力参数构建全量六自由度模型和飞行控制率模块,用于模拟飞行控制环境,而后通过建立马尔科夫决策过程来分析各个控制指令以及对应的奖惩函数,而后通过DDPG算法和细粒度策略网络的结合形成各个控制指令与时间相对应的集合,对无人机进行控制。与传统机动控制器相比较不需要精确的线性化控制建模,能够生成连续的机动控制指令,不存在控制器切换而产生的指令反复跳变等问题。与经典的深度强化学习算法相比,该方法生成的机动飞行控制指令更加平滑,减少飞行任务中的指令有害切换次数,进而能够加快深度强化学习算法的训练速度。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种基于细粒度重复策略的无人机机动飞行控制方法,其特征在于,包括:
基于无人机气动力参数构建全量六自由度模型和飞行控制率模块,形成机动飞行控制环境模拟器;
建立马尔科夫决策过程,设定奖惩函数,进行最优策略的求解;
利用DDPG算法和细粒度策略网络对环境进行交互,建立样本缓存区,从样本缓存区中抽取参数,利用DDPG算法获得参数的控制指令和评价值,将评价值输入值细粒度策略网络中获取对应控制指令的持续时间,如此反复,训练无人机自主机动飞行控制智能体;
将训练完成的DDPG算法和细粒度策略网络部署至无人机中,进行智能机动飞行控制策略部署。
2.如权利要求1所述的基于细粒度重复策略的无人机机动飞行控制方法,其特征在于,所述细粒度策略与DDPG的训练方法为:
初始化细粒度重复网络θx、Actor网络、Actor-target网络的神经网络参数θμ,初始化Critic网络、Critic-target网络的神经网络参数θφ;
根据Actor网络和细粒度重复网络选择无人机控制指令(a,x)并与环境交互,其中a是Actor网络的输出,使用OU随机过程进行探索;x是细粒度重复网络的输出,单位是step,构建n种选择x∈{20,21,...,2n},使用ε-贪婪策略进行探索;
无人机响应模型控制指令(a,x)与环境进行多轮交互,并将产生的样本(s,a,x,r,s',d)存入样本缓冲区;
开始训练,从样本缓冲区中随机抽取批数据进行训练,计算Critic神经网络的loss,并更新Critic网络参数;
根据链式法则更新细粒度重复网络和Actor网络的参数;
采用软更新方式更新Critic-target的网络参数θQ'和Actor-target的网络参数θμ'
6.如权利要求1所述的基于细粒度重复策略的无人机机动飞行控制方法,其特征在于,所述全量六自由度模型的构建方法为:
设定载机为理想刚体,地表面是平面,不考虑地球形状;载机受到的重力恒定不变;不考虑风的因素;无人机的姿态角包括俯仰角、偏航角和滚转角以及三轴角速度,无人机的速度矢量主要包括三轴速度,机体轴与速度轴的夹角为攻角和侧滑角;
定义机体坐标系中机头方向为x轴,z轴垂直于机体向下,y轴由右手定则判定为右机翼方向;俯仰角θ为x轴与水平面夹角,向上为正,向下为负;偏航角ψ为x轴在地面上的投影与北向的夹角,向右为正,向左为负;滚转角φ为z轴与通过x轴的铅垂平面的夹角;载机向右转时为正;三轴角速度中滚转角速度p与x轴重合,俯仰角速度q与y轴重合,偏航角速度r与z轴重合;攻角α是速度向量在载机对称面上的投影与x轴的夹角;侧滑角β为速度向量与飞机对称面的夹角,向右为正,向左为负;
其中:
7.如权利要求1所述的基于细粒度重复策略的无人机机动飞行控制方法,其特征在于:利用标准动态逆方法构建飞行控制率模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210551472.0A CN115097853B (zh) | 2022-05-18 | 2022-05-18 | 一种基于细粒度重复策略的无人机机动飞行控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210551472.0A CN115097853B (zh) | 2022-05-18 | 2022-05-18 | 一种基于细粒度重复策略的无人机机动飞行控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115097853A true CN115097853A (zh) | 2022-09-23 |
CN115097853B CN115097853B (zh) | 2023-07-07 |
Family
ID=83288544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210551472.0A Active CN115097853B (zh) | 2022-05-18 | 2022-05-18 | 一种基于细粒度重复策略的无人机机动飞行控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115097853B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN110806756A (zh) * | 2019-09-10 | 2020-02-18 | 西北工业大学 | 基于ddpg的无人机自主引导控制方法 |
CN111667513A (zh) * | 2020-06-01 | 2020-09-15 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
CN113093802A (zh) * | 2021-04-03 | 2021-07-09 | 西北工业大学 | 一种基于深度强化学习的无人机机动决策方法 |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
CN113721645A (zh) * | 2021-08-07 | 2021-11-30 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于分布式强化学习的无人机连续机动控制方法 |
KR20220000229A (ko) * | 2020-06-25 | 2022-01-03 | 금오공과대학교 산학협력단 | 해킹 방지 기술이 적용된 딥러닝 기반의 무인 항공기 및 이를 이용한 무인 항공기 시스템 |
CN114020001A (zh) * | 2021-12-17 | 2022-02-08 | 中国科学院国家空间科学中心 | 基于深度确定性策略梯度学习的火星无人机智能控制方法 |
-
2022
- 2022-05-18 CN CN202210551472.0A patent/CN115097853B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110806756A (zh) * | 2019-09-10 | 2020-02-18 | 西北工业大学 | 基于ddpg的无人机自主引导控制方法 |
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN111667513A (zh) * | 2020-06-01 | 2020-09-15 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
KR20220000229A (ko) * | 2020-06-25 | 2022-01-03 | 금오공과대학교 산학협력단 | 해킹 방지 기술이 적용된 딥러닝 기반의 무인 항공기 및 이를 이용한 무인 항공기 시스템 |
CN113093802A (zh) * | 2021-04-03 | 2021-07-09 | 西北工业大学 | 一种基于深度强化学习的无人机机动决策方法 |
CN113110592A (zh) * | 2021-04-23 | 2021-07-13 | 南京大学 | 一种无人机避障与路径规划方法 |
CN113721645A (zh) * | 2021-08-07 | 2021-11-30 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于分布式强化学习的无人机连续机动控制方法 |
CN114020001A (zh) * | 2021-12-17 | 2022-02-08 | 中国科学院国家空间科学中心 | 基于深度确定性策略梯度学习的火星无人机智能控制方法 |
Non-Patent Citations (2)
Title |
---|
KAIFANG WAN, 等: "Robust Motion Control for UAV in Dynamic Uncertain Environments Using Deep Reinforcement Learning", vol. 12, pages 1 - 21 * |
张堃,等: "基于深度强化学习的UAV航路自主引导机动控制决策算法", vol. 42, no. 7, pages 1567 - 1574 * |
Also Published As
Publication number | Publication date |
---|---|
CN115097853B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109343341B (zh) | 一种基于深度强化学习的运载火箭垂直回收智能控制方法 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN112034888B (zh) | 一种固定翼无人机自主控制协作策略训练方法 | |
CN111027143B (zh) | 一种基于深度强化学习的舰载机进近引导方法 | |
CN114237267B (zh) | 基于强化学习的飞行机动决策的辅助方法 | |
CN112462792A (zh) | 一种基于Actor-Critic算法的水下机器人运动控制方法 | |
CN111538255B (zh) | 一种反蜂群无人机的飞行器控制方法及系统 | |
CN115755956B (zh) | 一种知识与数据协同驱动的无人机机动决策方法与系统 | |
Sarabakha et al. | Y6 tricopter autonomous evacuation in an indoor environment using Q-learning algorithm | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
Deshpande et al. | Robust deep reinforcement learning for quadcopter control | |
CN113741433A (zh) | 一种水面无人船的分布式编队方法 | |
CN116820134A (zh) | 基于深度强化学习的无人机编队保持控制方法 | |
CN116301007A (zh) | 基于强化学习的多四旋翼无人机集结型任务路径规划方法 | |
CN116697829A (zh) | 一种基于深度强化学习的火箭着陆制导方法及系统 | |
CN115097853A (zh) | 一种基于细粒度重复策略的无人机机动飞行控制方法 | |
CN116774731A (zh) | 一种基于强化学习的无人机编队路径规划方法 | |
CN113821057B (zh) | 一种基于强化学习的行星软着陆控制方法及系统和存储介质 | |
Doncieux et al. | Evolving neural networks for the control of a lenticular blimp | |
CN113050420B (zh) | 基于s面控制和td3的auv路径跟踪方法及系统 | |
CN112161626B (zh) | 一种基于航路跟踪映射网络的高可飞性航路规划方法 | |
Xian et al. | An Intelligent Attitude Control Method for UAV Based on DDPG Algorithm | |
Wang et al. | Generation and Simulation of Basic Maneuver Action Library for 6-DOF Aircraft by Reinforcement Learning. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Yu Jin Inventor after: Pu Haiyin Inventor after: Sun Yang Inventor after: Fan Songyuan Inventor after: Zhan Guang Inventor after: Yu Xiaoqiang Inventor after: Feng Yongming Inventor before: Yu Jin Inventor before: Fan Songyuan Inventor before: Zhan Guang |
|
GR01 | Patent grant | ||
GR01 | Patent grant |