CN115097853A - 一种基于细粒度重复策略的无人机机动飞行控制方法 - Google Patents

一种基于细粒度重复策略的无人机机动飞行控制方法 Download PDF

Info

Publication number
CN115097853A
CN115097853A CN202210551472.0A CN202210551472A CN115097853A CN 115097853 A CN115097853 A CN 115097853A CN 202210551472 A CN202210551472 A CN 202210551472A CN 115097853 A CN115097853 A CN 115097853A
Authority
CN
China
Prior art keywords
network
unmanned aerial
grained
aerial vehicle
fine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210551472.0A
Other languages
English (en)
Other versions
CN115097853B (zh
Inventor
于津
樊松源
詹光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Original Assignee
Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC filed Critical Shenyang Aircraft Design and Research Institute Aviation Industry of China AVIC
Priority to CN202210551472.0A priority Critical patent/CN115097853B/zh
Publication of CN115097853A publication Critical patent/CN115097853A/zh
Application granted granted Critical
Publication of CN115097853B publication Critical patent/CN115097853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本申请属于无人机智能控制领域,为一种基于细粒度重复策略的无人机机动飞行控制方法,基于无人机气动力参数构建全量六自由度模型和飞行控制率模块,用于模拟飞行控制环境,而后通过建立马尔科夫决策过程来分析各个控制指令以及对应的奖惩函数,而后通过DDPG算法和细粒度策略网络的结合形成各个控制指令与时间相对应的集合,对无人机进行控制。与传统机动控制器相比较不需要精确的线性化控制建模,能够生成连续的机动控制指令,不存在控制器切换而产生的指令反复跳变等问题。与经典的深度强化学习算法相比,该方法生成的机动飞行控制指令更加平滑,减少飞行任务中的指令有害切换次数,进而能够加快深度强化学习算法的训练速度。

Description

一种基于细粒度重复策略的无人机机动飞行控制方法
技术领域
本申请属于无人机智能控制领域,特别涉及一种基于细粒度重复策略的无人机机动飞行控制方法。
背景技术
无人机机动飞行控制属于无人机智能飞行控制领域,传统的机动飞行控制器采用底层线性控制率和顶层机动逻辑相结合的方式,该方法属于多模态线性控制器的组合使用,具有切换边界不稳定,控制指令存在跳变和对线性化控制模型严重依赖等缺陷。而现有的基于DQN和DDPG等经典深度强化学习算法的智能机动飞行控制器则具有控制指令切换频率快,机动控制策略不平滑等缺点,会给无人机作动器带来灾难性的影响。
因此,如何减少无人机作动器控制指令的切换频率、提高机动控制策略的平滑性是一个需要解决的问题。
发明内容
本申请的目的是提供了一种基于细粒度重复策略的无人机机动飞行控制方法,以解决现有技术中传统的机动飞行控制器控制策略不平滑的问题。
本申请的技术方案是:一种基于细粒度重复策略的无人机机动飞行控制方法,包括:基于无人机气动力参数构建全量六自由度模型和飞行控制率模块,形成机动飞行控制环境模拟器;建立马尔科夫决策过程,设定奖惩函数,进行最优策略的求解;将细粒度策略和DDPG相结合,训练无人机自主机动飞行控制智能体;进行智能机动飞行控制策略部署。
优选地,所述细粒度策略与DDPG的训练方法为:初始化细粒度重复网络θx、Actor网络、Actor-target网络的神经网络参数θμ,初始化Critic网络、Critic-target网络的神经网络参数θφ;根据Actor网络和细粒度重复网络选择无人机控制指令(a,x)并与环境交互,其中a是Actor网络的输出,使用OU随机过程进行探索;x是细粒度重复网络的输出,单位是step,构建n种选择x∈{20,21,...,2n},使用ε-贪婪策略进行探索;无人机响应模型控制指令(a,x)与环境进行多轮交互,并将产生的样本(s,a,x,r,s',d)存入样本缓冲区;开始训练,从样本缓冲区中随机抽取批数据进行训练,计算Critic神经网络的loss,并更新Critic网络参数;根据链式法则更新细粒度重复网络和Actor网络的参数;采用软更新方式更新Critic-target的网络参数θQ'和Actor-target的网络参数θμ'
优选地,所述Critic神经网络的loss的计算方法为:
Figure BDA0003650881600000021
Figure BDA0003650881600000022
其中,Qπ(s,a,x)和Qπ'(s,a,x)分别代表Critic网络输出和Critic-target网络输出,
Figure BDA0003650881600000023
Figure BDA0003650881600000024
分别代表Actor网络和Actor-target网络输出;
Figure BDA0003650881600000025
代表细粒度重复网络输出。
优选地,所述细粒度重复网络和Actor网络参数的更新算法为:
Figure BDA0003650881600000026
Figure BDA0003650881600000027
优选地,所述Critic-target的网络参数θQ'和Actor-target的网络参数θμ'的更新算法为:
Figure BDA0003650881600000031
优选地,所述全量六自由度模型的构建方法为:
设定载机为理想刚体,地表面是平面,不考虑地球形状;载机受到的重力恒定不变;不考虑风的因素;无人机的姿态角包括俯仰角、偏航角和滚转角以及三轴角速度,无人机的速度矢量主要包括三轴速度,机体轴与速度轴的夹角为攻角和侧滑角;
定义机体坐标系中机头方向为x轴,z轴垂直于机体向下,y轴由右手定则判定为右机翼方向;俯仰角θ为x轴与水平面夹角,向上为正,向下为负;偏航角ψ为x轴在地面上的投影与北向的夹角,向右为正,向左为负;滚转角φ为z轴与通过x轴的铅垂平面的夹角;载机向右转时为正;三轴角速度中滚转角速度p与x轴重合,俯仰角速度q与y轴重合,偏航角速度r与z轴重合;攻角α是速度向量在载机对称面上的投影与x轴的夹角;侧滑角β为速度向量与飞机对称面的夹角,向右为正,向左为负;
无人机模型为:
Figure BDA0003650881600000032
Figure BDA0003650881600000033
其中:
Figure BDA0003650881600000034
Figure BDA0003650881600000041
优选地,利用标准动态逆方法构建飞行控制率模块。
优选地,在t=t1,t2,…tn时刻,所述马尔科夫决策模型为:
Figure BDA0003650881600000042
其中S为状态空间集合,s和s'表示S中的状态,是S的元素;A(s)为动作集合,所有可能动作a的集合;
Figure BDA0003650881600000043
为转移概率,采取相应的动作a导致系统的状态由s转移到s'的转移概率,其中at∈A,st∈S,
Figure BDA0003650881600000044
为奖惩函数,采取相应的动作a导致系统的状态由s转移到s'所得到的奖惩函数,
Figure BDA0003650881600000045
本申请的一种基于细粒度重复策略的无人机机动飞行控制方法,基于无人机气动力参数构建全量六自由度模型和飞行控制率模块,用于模拟飞行控制环境,而后通过建立马尔科夫决策过程来分析各个控制指令以及对应的奖惩函数,而后通过DDPG算法和细粒度策略网络的结合形成各个控制指令与时间相对应的集合,对无人机进行控制。与传统机动控制器相比较不需要精确的线性化控制建模,能够生成连续的机动控制指令,不存在控制器切换而产生的指令反复跳变等问题。与经典的深度强化学习算法相比,该方法生成的机动飞行控制指令更加平滑,减少飞行任务中的指令有害切换次数,进而能够加快深度强化学习算法的训练速度。
附图说明
为了更清楚地说明本申请提供的技术方案,下面将对附图作简单地介绍。显而易见地,下面描述的附图仅仅是本申请的一些实施例。
图1为本申请整体流程示意图;
图2为本申请无人机飞行状态和坐标系定义图;
图3为本申请基于细粒度重复策略的无人机机动飞行控制方法示意图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行更加详细的描述。
一种基于细粒度重复策略的无人机机动飞行控制方法,通过建立细粒度策略网络与DDPG算法相结合的方式进行无人机自动机动飞行的控制,解决由于策略平滑而带来的控制指令频繁切换的问题。
如图1所示,具体包括如下步骤:
步骤S100,基于无人机气动力参数构建机动飞行控制环境模拟器;
无人机机动飞行控制环境模拟器由全量六自由度模型和飞行控制率模块组成,
首先对无人机模型做如下四个假设:载机为理想刚体,其质量一直不变(不考虑油耗);假设地表面是平面,不考虑地球形状;载机受到的重力恒定不变;不考虑风的因素。无人机的姿态角包括俯仰角、偏航角和滚转角以及三轴角速度,无人机的速度矢量主要包括三轴速度,机体轴与速度轴的夹角为攻角和侧滑角。
如图2所示,定义机体坐标系中机头方向为x轴,z轴垂直于机体向下,y轴由右手定则判定为右机翼方向;俯仰角θ为x轴与水平面夹角,向上为正,向下为负;偏航角ψ为x轴在地面上的投影与北向的夹角,向右为正,向左为负;滚转角φ为z轴与通过x轴的铅垂平面的夹角。载机向右转时为正;三轴角速度中滚转角速度p与x轴重合,俯仰角速度q与y轴重合,偏航角速度r与z轴重合;攻角α是速度向量在载机对称面上的投影与x轴的夹角;侧滑角β为速度向量与飞机对称面的夹角,向右为正,向左为负。
无人机的飞行动力学方程为:
Figure BDA0003650881600000061
Figure BDA0003650881600000062
式中
Figure BDA0003650881600000063
为无人机上的受力总和,由空气阻力,重力和发动机推力组成;m为载机质量;
Figure BDA0003650881600000064
为无人机速度矢量;
Figure BDA0003650881600000065
为无人机受到的外力矩之和;
Figure BDA0003650881600000066
为动量矩。
将合外力F,速度矢量V,和姿态角速率ω写成在机体坐标系中三轴的分量可知:
Figure BDA0003650881600000067
Figure BDA0003650881600000068
Figure BDA0003650881600000069
带入动力学方程则有:
Figure BDA00036508816000000610
Figure BDA00036508816000000611
其中I表示无人机转动惯量,变形可得:
Figure BDA00036508816000000612
Figure BDA0003650881600000071
其中:
Figure BDA0003650881600000072
Figure BDA0003650881600000073
基于上述无人机模型,结合气动力参数,利用标准动态逆方法可以构建飞行控制率模块,响应无人机机动飞行控制算法输出的俯仰角速率/过载指令、滚转角速率指令、油门指令、方向舵指令和减速板指令。
通过全量六自由度的无人机模型和飞行控制率模块能够接收无人机的飞行状态参数,能够模拟飞行环境,为无人机训练提供假象环境。
步骤S200,建立马尔科夫决策过程,设定奖惩函数,进行最优策略的求解;
使用马尔科夫决策过程方法来进行最优策略的求解。在t=t1,t2,…tn时刻,马尔科夫决策过程可表示如下:
Figure BDA0003650881600000074
公式中的变量具体含义如下:
s,状态空间集合。s和s'表示S中的状态,是S的元素;A(s),动作集合,所有可能动作a的集合;
Figure BDA0003650881600000075
转移概率,采取相应的动作a导致系统的状态由s转移到s'的转移概率,其中at∈A,st∈S;
Figure BDA0003650881600000076
奖惩函数,采取相应的动作a导致系统的状态由s转移到s'所得到的奖惩函数,
Figure BDA0003650881600000077
在无人机机动飞行控制问题中,马尔科夫决策过程的变量含义为:
状态空间集合s由无人机三轴位置矢量、三轴速度矢量、三轴加速度矢量、姿态四元数、攻角、侧滑角和航迹角等机载传感器可观测的状态组成;动作集合A(s)包括俯仰角速率/过载指令、滚转角速率指令、油门指令、方向舵指令和减速板指令;转移概率
Figure BDA0003650881600000081
即仿真环境是确定性环境,不存在随机过程;奖惩函数
Figure BDA0003650881600000082
是依据当前无人机的机动飞行任务而定,如快速转弯,爬升俯冲等具有不同的奖惩函数。
通过建立马尔科夫决策过程,能够识别无人机的各个指令,并对无人机机动飞行任务重的各个指令进行评价,根据不同的评价值也就能够对无人机不同的控制指令输出不同的状态量,根据不同的状态量形成不同的飞行状态,从而为能够生成连续的机动控制指令提供基础。
步骤S300,利用DDPG算法和细粒度策略网络对环境进行交互,建立样本缓存区,从样本缓存区中抽取参数,利用DDPG算法获得参数的控制指令和评价值,将评价值输入值细粒度策略网络中获取对应控制指令的持续时间,如此反复,训练无人机自主机动飞行控制智能体;
优选地,本发明提出的基于细粒度重复策略的无人机机动飞行控制方法,其神经网络结构包括细粒度重复网络、Critic网络、Actor网络和Critic-target网络、Actor-target网络,根据链式法则分别对细粒度重复网络,Critic网络和Actor网络进行参数更新,根据软更新的方式更新Critic-target网络和Actor-target网络。
如图3所示,细粒度策略与DDPG的训练方法为:
1)初始化细粒度重复网络θx、Actor网络、Actor-target网络的神经网络参数θμ,初始化Critic网络、Critic-target网络的神经网络参数θφ
2)根据Actor网络和细粒度重复网络选择无人机控制指令(a,x)并与环境交互,其中a是Actor网络的输出,表示无人机控制动作指令集合,使用OU随机过程进行探索,也就是与Actor网络的输出相加a=π(s|θμ)+OU;x是细粒度重复网络的输出,表示重复当前动作的时间长度,单位是step,构建n种选择x∈{20,21,...,2n},使用ε-贪婪策略进行探索;
3)无人机响应模型控制指令(a,x)与环境进行多轮交互,并将产生的样本(s,a,x,r,s',d)存入样本缓冲区;
4)开始训练,从样本缓冲区中随机抽取批数据进行训练,计算Critic神经网络的loss,并更新Critic网络参数,Qπ(s,a,x)和Qπ'(s,a,x)分别代表Critic网络和Critic-target网络输出;
Figure BDA0003650881600000091
Figure BDA0003650881600000092
分别代表Actor网络和Actor-target网络输出;
Figure BDA0003650881600000093
代表细粒度重复网络输出;
其中,loss函数为:
Figure BDA0003650881600000094
Figure BDA0003650881600000095
5)根据链式法则更新细粒度重复网络和Actor网络的参数;
细粒度重复网络和Actor网络的参数更新算法为:
Figure BDA0003650881600000096
Figure BDA0003650881600000097
6)采用软更新方式更新Critic-target的网络参数θQ'和Actor-target的网络参数θμ',Critic-target的网络参数θQ'和Actor-target的网络参数θμ'的更新算法为:
Figure BDA0003650881600000098
在实际的飞机控制中,先对从样本缓存区中抽取的参数进行评价,评价量一部分通过Actor网络的参数输入至Actor网络内,进行控制指令的输出,另一部分通过细粒度重复网络参数输入至细粒度重复网络内,确定该控制指令的持续时间,两者结合形成控制指令与对应持续时间的集合,在训练中将该数据保存,在实际飞行中用于无人机控制器对无人机的实际指令输出,通过该飞行训练,对无人机的自主飞行进行有效模拟,不断修正模型。
步骤S400,将训练完成的DDPG算法和细粒度策略网络部署至无人机中,进行智能机动飞行控制策略部署。
满足机动飞行训练指标后,保存细粒度重复网络
Figure BDA0003650881600000102
和Actor-target网络
Figure BDA0003650881600000103
并在真实无人机上部署。基于细粒度重复策略的无人机机动飞行控制算法输入为无人机机载传感器实时测量的环境状态量state,包括无人机位置矢量、速度矢量、加速度矢量、姿态四元数、攻角、侧滑角和航迹角;输出为(a,x),其中
Figure BDA0003650881600000104
即在x个环境step内执行控制指令a。
在无人机的飞行中,无人机将实际采集的参数输入至DDPG算法中,DDPG算法通过Actor网络计算得出的控制指令如快速左转弯,Critic对采集的参数进行评价,将评价量输入至细粒度重复网络中,细粒度重复网络通过采集的参数判断出左侧一定距离内为危险区域,最多能够左转弯的时间为1min,这样无人机得到的该指令为{快速左转弯、1min},在该指令结束之前,无人机不会指令其它的指令,而不会像现有的无人机那样会产生反复的左右转弯指令。在该指令结束之后,才会根据后续的参数判断后续需要指令的控制指令。
本申请通过先基于无人机气动力参数构建全量六自由度模型和飞行控制率模块,用于模拟飞行控制环境,而后通过建立马尔科夫决策过程来分析各个控制指令以及对应的奖惩函数,而后通过DDPG算法和细粒度策略网络的结合形成各个控制指令与时间相对应的集合,对无人机进行控制。与传统机动控制器相比较不需要精确的线性化控制建模,能够生成连续的机动控制指令,不存在控制器切换而产生的指令反复跳变等问题。与经典的深度强化学习算法相比,该方法生成的机动飞行控制指令更加平滑,减少飞行任务中的指令有害切换次数,进而能够加快深度强化学习算法的训练速度。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种基于细粒度重复策略的无人机机动飞行控制方法,其特征在于,包括:
基于无人机气动力参数构建全量六自由度模型和飞行控制率模块,形成机动飞行控制环境模拟器;
建立马尔科夫决策过程,设定奖惩函数,进行最优策略的求解;
利用DDPG算法和细粒度策略网络对环境进行交互,建立样本缓存区,从样本缓存区中抽取参数,利用DDPG算法获得参数的控制指令和评价值,将评价值输入值细粒度策略网络中获取对应控制指令的持续时间,如此反复,训练无人机自主机动飞行控制智能体;
将训练完成的DDPG算法和细粒度策略网络部署至无人机中,进行智能机动飞行控制策略部署。
2.如权利要求1所述的基于细粒度重复策略的无人机机动飞行控制方法,其特征在于,所述细粒度策略与DDPG的训练方法为:
初始化细粒度重复网络θx、Actor网络、Actor-target网络的神经网络参数θμ,初始化Critic网络、Critic-target网络的神经网络参数θφ
根据Actor网络和细粒度重复网络选择无人机控制指令(a,x)并与环境交互,其中a是Actor网络的输出,使用OU随机过程进行探索;x是细粒度重复网络的输出,单位是step,构建n种选择x∈{20,21,...,2n},使用ε-贪婪策略进行探索;
无人机响应模型控制指令(a,x)与环境进行多轮交互,并将产生的样本(s,a,x,r,s',d)存入样本缓冲区;
开始训练,从样本缓冲区中随机抽取批数据进行训练,计算Critic神经网络的loss,并更新Critic网络参数;
根据链式法则更新细粒度重复网络和Actor网络的参数;
采用软更新方式更新Critic-target的网络参数θQ'和Actor-target的网络参数θμ'
3.如权利要求2所述的基于细粒度重复策略的无人机机动飞行控制方法,其特征在于,所述Critic神经网络的loss的计算方法为:
Figure FDA0003650881590000021
Figure FDA0003650881590000022
其中,Qπ(s,a,x)和Qπ'(s,a,x)分别代表Critic网络输出和Critic-target网络输出,
Figure FDA0003650881590000023
Figure FDA0003650881590000024
分别代表Actor网络和Actor-target网络输出;
Figure FDA0003650881590000025
代表细粒度重复网络输出。
4.如权利要求2所述的基于细粒度重复策略的无人机机动飞行控制方法,其特征在于,所述细粒度重复网络和Actor网络参数的更新算法为:
Figure FDA0003650881590000026
Figure FDA0003650881590000027
5.如权利要求2所述的基于细粒度重复策略的无人机机动飞行控制方法,其特征在于,所述Critic-target的网络参数θQ'和Actor-target的网络参数θμ'的更新算法为:
Figure FDA0003650881590000028
6.如权利要求1所述的基于细粒度重复策略的无人机机动飞行控制方法,其特征在于,所述全量六自由度模型的构建方法为:
设定载机为理想刚体,地表面是平面,不考虑地球形状;载机受到的重力恒定不变;不考虑风的因素;无人机的姿态角包括俯仰角、偏航角和滚转角以及三轴角速度,无人机的速度矢量主要包括三轴速度,机体轴与速度轴的夹角为攻角和侧滑角;
定义机体坐标系中机头方向为x轴,z轴垂直于机体向下,y轴由右手定则判定为右机翼方向;俯仰角θ为x轴与水平面夹角,向上为正,向下为负;偏航角ψ为x轴在地面上的投影与北向的夹角,向右为正,向左为负;滚转角φ为z轴与通过x轴的铅垂平面的夹角;载机向右转时为正;三轴角速度中滚转角速度p与x轴重合,俯仰角速度q与y轴重合,偏航角速度r与z轴重合;攻角α是速度向量在载机对称面上的投影与x轴的夹角;侧滑角β为速度向量与飞机对称面的夹角,向右为正,向左为负;
无人机模型为:
Figure FDA0003650881590000031
Figure FDA0003650881590000032
其中:
Figure FDA0003650881590000033
Figure FDA0003650881590000034
7.如权利要求1所述的基于细粒度重复策略的无人机机动飞行控制方法,其特征在于:利用标准动态逆方法构建飞行控制率模块。
8.如权利要求1所述的基于细粒度重复策略的无人机机动飞行控制方法,其特征在于,在t=t1,t2,…tn时刻,所述马尔科夫决策模型为:
Figure FDA0003650881590000041
其中S为状态空间集合,s和s'表示S中的状态,是S的元素;A(s)为动作集合,所有可能动作a的集合;
Figure FDA0003650881590000042
为转移概率,采取相应的动作a导致系统的状态由s转移到s'的转移概率,其中at∈A,st∈S,
Figure FDA0003650881590000043
Figure FDA0003650881590000044
为奖惩函数,采取相应的动作a导致系统的状态由s转移到s'所得到的奖惩函数,
Figure FDA0003650881590000045
CN202210551472.0A 2022-05-18 2022-05-18 一种基于细粒度重复策略的无人机机动飞行控制方法 Active CN115097853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210551472.0A CN115097853B (zh) 2022-05-18 2022-05-18 一种基于细粒度重复策略的无人机机动飞行控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210551472.0A CN115097853B (zh) 2022-05-18 2022-05-18 一种基于细粒度重复策略的无人机机动飞行控制方法

Publications (2)

Publication Number Publication Date
CN115097853A true CN115097853A (zh) 2022-09-23
CN115097853B CN115097853B (zh) 2023-07-07

Family

ID=83288544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210551472.0A Active CN115097853B (zh) 2022-05-18 2022-05-18 一种基于细粒度重复策略的无人机机动飞行控制方法

Country Status (1)

Country Link
CN (1) CN115097853B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110806756A (zh) * 2019-09-10 2020-02-18 西北工业大学 基于ddpg的无人机自主引导控制方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法
CN113721645A (zh) * 2021-08-07 2021-11-30 中国航空工业集团公司沈阳飞机设计研究所 一种基于分布式强化学习的无人机连续机动控制方法
KR20220000229A (ko) * 2020-06-25 2022-01-03 금오공과대학교 산학협력단 해킹 방지 기술이 적용된 딥러닝 기반의 무인 항공기 및 이를 이용한 무인 항공기 시스템
CN114020001A (zh) * 2021-12-17 2022-02-08 中国科学院国家空间科学中心 基于深度确定性策略梯度学习的火星无人机智能控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110806756A (zh) * 2019-09-10 2020-02-18 西北工业大学 基于ddpg的无人机自主引导控制方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
KR20220000229A (ko) * 2020-06-25 2022-01-03 금오공과대학교 산학협력단 해킹 방지 기술이 적용된 딥러닝 기반의 무인 항공기 및 이를 이용한 무인 항공기 시스템
CN113093802A (zh) * 2021-04-03 2021-07-09 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法
CN113721645A (zh) * 2021-08-07 2021-11-30 中国航空工业集团公司沈阳飞机设计研究所 一种基于分布式强化学习的无人机连续机动控制方法
CN114020001A (zh) * 2021-12-17 2022-02-08 中国科学院国家空间科学中心 基于深度确定性策略梯度学习的火星无人机智能控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAIFANG WAN, 等: "Robust Motion Control for UAV in Dynamic Uncertain Environments Using Deep Reinforcement Learning", vol. 12, pages 1 - 21 *
张堃,等: "基于深度强化学习的UAV航路自主引导机动控制决策算法", vol. 42, no. 7, pages 1567 - 1574 *

Also Published As

Publication number Publication date
CN115097853B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN109343341B (zh) 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN112034888B (zh) 一种固定翼无人机自主控制协作策略训练方法
CN111027143B (zh) 一种基于深度强化学习的舰载机进近引导方法
CN114237267B (zh) 基于强化学习的飞行机动决策的辅助方法
CN112462792A (zh) 一种基于Actor-Critic算法的水下机器人运动控制方法
CN111538255B (zh) 一种反蜂群无人机的飞行器控制方法及系统
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
Sarabakha et al. Y6 tricopter autonomous evacuation in an indoor environment using Q-learning algorithm
CN113671825A (zh) 一种基于强化学习的机动智能决策规避导弹方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
Deshpande et al. Robust deep reinforcement learning for quadcopter control
CN113741433A (zh) 一种水面无人船的分布式编队方法
CN116820134A (zh) 基于深度强化学习的无人机编队保持控制方法
CN116301007A (zh) 基于强化学习的多四旋翼无人机集结型任务路径规划方法
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
CN115097853A (zh) 一种基于细粒度重复策略的无人机机动飞行控制方法
CN116774731A (zh) 一种基于强化学习的无人机编队路径规划方法
CN113821057B (zh) 一种基于强化学习的行星软着陆控制方法及系统和存储介质
Doncieux et al. Evolving neural networks for the control of a lenticular blimp
CN113050420B (zh) 基于s面控制和td3的auv路径跟踪方法及系统
CN112161626B (zh) 一种基于航路跟踪映射网络的高可飞性航路规划方法
Xian et al. An Intelligent Attitude Control Method for UAV Based on DDPG Algorithm
Wang et al. Generation and Simulation of Basic Maneuver Action Library for 6-DOF Aircraft by Reinforcement Learning.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yu Jin

Inventor after: Pu Haiyin

Inventor after: Sun Yang

Inventor after: Fan Songyuan

Inventor after: Zhan Guang

Inventor after: Yu Xiaoqiang

Inventor after: Feng Yongming

Inventor before: Yu Jin

Inventor before: Fan Songyuan

Inventor before: Zhan Guang

GR01 Patent grant
GR01 Patent grant