CN110673620B - 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 - Google Patents

一种基于深度强化学习的四旋翼无人机航线跟随控制方法 Download PDF

Info

Publication number
CN110673620B
CN110673620B CN201911002811.4A CN201911002811A CN110673620B CN 110673620 B CN110673620 B CN 110673620B CN 201911002811 A CN201911002811 A CN 201911002811A CN 110673620 B CN110673620 B CN 110673620B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
quad
rotor
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911002811.4A
Other languages
English (en)
Other versions
CN110673620A (zh
Inventor
李波
杨志鹏
万开方
高晓光
甘志刚
梁诗阳
越凯强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201911002811.4A priority Critical patent/CN110673620B/zh
Publication of CN110673620A publication Critical patent/CN110673620A/zh
Application granted granted Critical
Publication of CN110673620B publication Critical patent/CN110673620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • G05D1/0816Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
    • G05D1/0825Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability using mathematical models
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提出了一种基于深度强化学习的四旋翼无人机航线跟随控制方法,该方法首先建立了四旋翼无人机航线跟随深度强化学习算法的马尔可夫模型,然后采用深度确定性策略梯度(DDPG)算法进行深度强化学习,克服以往基于强化学习的方法控制精度较低、无法实现连续控制和学习过程不稳定等问题,实现高精度的四旋翼无人机航线跟随控制。本发明方法将强化学习与深度神经网络相结合,提高了模型的学习能力和泛化能力,避免了在不确定性环境中人为操作无人机飞行的繁琐性和粗疏性,使得无人机完成航线跟随任务更为安全高效,同时在无人机目标跟踪、自主避障等场景中有很好的应用前景。

Description

一种基于深度强化学习的四旋翼无人机航线跟随控制方法
技术领域
本发明属于智能控制领域,尤其涉及一种无人机航线跟随控制方法。
背景技术
近年来,随着四旋翼无人机在工业巡检、抢险救灾、生活辅助等诸多领域的大放异彩,其逐渐成为军事航空学术研究中新的前沿和热点。针对无人机完成高空航线跟随、目标跟踪等人类无法到达现场操作的任务场景,保证无人机飞行的自主性和可控性是一项最基本且重要的功能要求,是实现各项复杂作业任务的前提。由于诸多原因,无人机自主决策与控制在智能控制领域仍然面临巨大的挑战。其一,无人机飞行控制输入输出量繁多,其运动学和动力学模型复杂,具有高度非线性、强耦合和时变等特点;其二,受诸多不可控因素影响,无人机在高空飞行时,无法对内外部不确定因素的改变做出合理反应;其三,无人机作为一种欠驱动系统,高精度、高质量完成飞行任务较为困难。因此,如何实现无人机执行任务的自主决策,成为无人机在军事应用领域得到更加广泛应用的关键问题。
现有技术中无人机智能控制方法有很多。公开专利CN109544597A提出一种基于视觉的四旋翼无人机目标跟踪方法,通过无人机拍摄获取跟踪目标的图像,通过深度神经网络对其进行特征提取,进而控制无人机飞行轨迹实现目标跟踪。该发明使用基于视觉的方法,自适应能力较弱,在视觉装置无法正常使用时,无法对未知环境做出判断进而做出正确决策。公开专利CN109933086A提出一种基于深度Q学习的无人机环境感知与自主避障方法,将深度强化学习运用于无人机自主决策之中,实现无人机在未知环境的感知与决策。然而,该方法对四旋翼无人机模型进行了解耦或线性化处理,很难满足四旋翼无人机在特定应用场景下的高精度控制。
发明内容
为了克服现有技术的不足,本发明提出了一种基于深度强化学习的四旋翼无人机航线跟随控制方法,该方法首先建立了四旋翼无人机航线跟随深度强化学习算法的马尔科夫模型,然后采用深度确定性策略梯度(DDPG)算法进行深度强化学习,克服以往基于强化学习的方法控制精度较低、无法实现连续控制和学习过程不稳定等问题,实现高精度的四旋翼无人机航线跟随控制。通过四旋翼无人机与环境的交互,采用离线学习对神经网络进行训练,并结合四旋翼无人机飞行特性和姿态控制要求,设计环境空间、状态空间、动作空间和奖惩机制,提高深度强化学习模型的泛化能力,最终实现四旋翼无人机完成状态输入-神经网络分析-动作输出工作,从而执行飞行动作完成航线跟随任务。
为达到上述目的,本发明提供的一种基于深度强化学习的四旋翼无人机航线跟随控制方法,包括以下步骤:
步骤1:采用如下步骤定义四旋翼无人机航线跟随深度强化学习算法的马尔科夫模型:
对马尔科夫决策过程MDP的五元组(s,A,P,R,γ)进行建模,其中s为四旋翼无人机的输入状态,A为四旋翼无人机的输出动作集,P为状态转移概率函数,R为奖励函数,γ为折扣系数;
步骤1-1:确定四旋翼无人机的输入状态s:
建立机体坐标系cb和惯性坐标系ci,定义φ、θ、ψ分别表示机体坐标系下四旋翼无人机的滚动角、俯仰角和偏航角;
四旋翼无人机每个旋翼电机产生的升力fj=cTωj 2,其中j=1,2,3,4,cT为推力系数,ωj为第j个旋翼电机转速,机体坐标系下无人机受到的总升力为fz=f1+f2+f3+f4
在惯性坐标系中,用rx、ry、rz分别表示无人机在x、y、z轴的位置量,vx、vy、vz分别表示无人机在x、y、z轴的速度量,设定z轴向上为正方向,计算从机体坐标系cb到惯性坐标系ci的转换矩阵Λ:
Figure GDA0002597816180000021
计算无人在惯性坐标系下受到的升力F=Λfz,进而推出:
Figure GDA0002597816180000022
其中m表示四旋翼无人机质量,g表示重力加速度,
Figure GDA0002597816180000023
分别表示惯性坐标系下四旋翼无人机在x、y、z轴的线加速度,进而得到:
Figure GDA0002597816180000031
其中ω1、ω2、ω3、ω4分别表示四旋翼无人机4个旋翼电机的转速;
在欧拉方程
Figure GDA0002597816180000032
τb为四旋翼无人机电机产生的旋转扭矩矩阵,J为惯性矩阵,ωb为角速度矩阵,
Figure GDA0002597816180000033
为角加速度矩阵,欧拉方程可转化为:
Figure GDA0002597816180000034
其中Jxx、Jyy、Jzz分别表示惯性矩阵在x、y、z轴上的分量,d表示无人机力臂长度,从而计算出机体坐标系下的无人机滚动角、俯仰角、偏航角角速度
Figure GDA0002597816180000035
和角速度变化率
Figure GDA0002597816180000036
计算惯性坐标系中四旋翼无人机沿x、y、z轴运动的角速度Ωx、Ωy、Ωz
Figure GDA0002597816180000037
则四旋翼无人机的输入状态为:
s=[φ θ ψ rx ry rz vx vy vz Ωx Ωy Ωz]
步骤1-2:定义四旋翼无人机的输出动作集A为:
A=[0,ωmax]
A表示四旋翼无人机在接受到外界反馈值之后,针对自身状态值,所能采取的所有动作的集合,其中,ωmax表示四旋翼无人机旋翼电机最大转速;四旋翼无人机的四个旋翼电机转速在A范围内改变;
步骤1-3:定义四旋翼无人机由当前时刻输入状态s且采取动作量为a的条件下,能够到达下一输入状态s'的概率为状态转移概率函数P;
步骤1-4:设定当前航线起点为C(rxc,ryc,rzc),当前航线终点为D(rxd,ryd,rzd),四旋翼无人机当前位置为U(rx,ry,rz),则四旋翼无人机到当前航线终点D的距离d1为:
Figure GDA0002597816180000041
找到当前航线上一点E(rxe,rye,rze)使UE⊥CD,则联立直线方程求出E(rxe,rye,rze),得到无人机到当前航线距离d2为:
Figure GDA0002597816180000042
定义奖励函数R,表示无人机在当前输入状态下,选择某动作后,得到的瞬时反馈,公式如下:
R=-(αd1+βd2)+λnΔt
其中α为第一增益参数,β为第二增益参数,λ为第三增益参数,n为无人机运动步数,Δt为无人机单步运动时间;
步骤1-5:定义折扣系数0<γ<1,用于计算整个过程中的回报累计值,折扣系数越大,表示越注重长期收益;
步骤2:根据步骤1建模出的马尔科夫决策过程五元组(s,A,P,R,γ),使用深度确定性策略梯度(DDPG)算法实现四旋翼无人机的航线跟随控制,步骤如下:
步骤2-1:采用两种独立的神经网络—Actor网络和Critic网络,并随机初始化Critic网络的网络状态-行为值函数Q(s,a|θQ)和Actor网络的策略函数μ(s,a|θμ),将Critic网络和Actor网络的权重复制到各自网络的目标网络参数,即θQ→θQ'μ→θμ',其中θQ、θμ分别表示Critic网络参数和Actor网络参数,θQ'、θμ'分别表示Critic目标网络参数和Actor目标网络参数;
步骤2-2:设置单个回合内最大动作步数K,最大训练回合数E,经验池最大容量值C,初始化训练回合数e=1;
步骤2-3:初始化动作步数k=0,时间t=0,初始化四旋翼无人机的输入状态为:
s0=[0 0 0 0 0 0 0 0 0 0 0 0];
步骤2-4:在当前输入状态下选取动作at=μ(stμ)+M,at指t时刻下执行的动作,μ为动作策略函数,st为t时刻的输入状态,M为噪声;
步骤2-5:在输入状态st下,执行动作at,计算无人机到当前航线终点D的距离d1和无人机到航线距离d2,从而计算出当前奖励函数值Rt,利用步骤1-1的方法重新得到下一输入状态st',然后将经验条(st,at,Rt,st')保存于经验池之中,新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位;
步骤2-6:如果经验池中的经验条数量达到经验池最大容量值C,则新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位,删除最后一个经验条;同时从经验池中随机提取部分样本进行训练,训练过程表示为:
Yt=Rt+γQ'(st',μ'(st'|θμ')|θQ')
其中Yt代表目标网络,θμ'、θQ'表示Actor、Critic目标网络参数,μ'表示对st'进行分析得到的策略,Q'表示在st'时采取μ'策略得到的状态-行为值;
步骤2-7:计算最小损失函数:
Figure GDA0002597816180000051
L表示Loss损失函数,N表示从经验池中抽取的样本数量;
步骤2-8:根据Actor网络、Critic网络参数更新策略梯度:
Figure GDA0002597816180000052
Figure GDA0002597816180000053
表示在Actor网络参数θμ下的策略梯度,
Figure GDA0002597816180000054
Figure GDA0002597816180000055
分别表示Critic网络状态-行为值函数梯度和Actor网络策略函数梯度,μ(st)表示在Actor网络输入状态st时选取的动作策略,
Figure GDA0002597816180000056
Figure GDA0002597816180000057
分别表示输入状态st时采取动作a=μ(st)的Critic网络状态-行为值函数和输入状态st下的Actor网络策略函数;
步骤2-9:分别复制Actor目标网络参数和Critic目标网络参数,即
Figure GDA0002597816180000058
Figure GDA0002597816180000059
利用当前的网络参数,对Actor目标网络和Critic目标网络进行更新:
Actor目标网络更新:
Figure GDA00025978161800000510
Critic目标网络更新:
Figure GDA00025978161800000511
τ表示更新比例系数;
步骤3:采用如下步骤对模型进行训练:
步骤3-1:令动作步数k加1,并对k进行判定:若k<K,则执行t=t+Δt并跳转至步骤2-4,否则当k≥K进入步骤3-2;
步骤3-2:令训练回合数e加1,并对e进行判定:若e<E,则跳转至步骤2-3,否则当e≥E进入步骤3-3;
步骤3-3:迭代完成,终止神经网络训练过程,并保存当前Actor目标网络数据和Critic目标网络数据;将保存好的数据加载至四旋翼无人机系统之中,从而执行飞行动作完成航线跟随任务。
本发明的有益效果是:
(1)本发明方法建立的四旋翼无人机运动学和动力学模型完整,通过无人机在飞行过程中的采样数据,自主学习使得控制目标达到最优的目标策略。该过程中的环境较为真实,有很高的实际应用价值。
(2)本发明方法使用的深度确定性策略梯度(DDPG)算法,有效的解决了无人机连续性控制问题,使得无人机在飞行时姿态、速度更为稳定。
(3)本发明方法将强化学习与深度神经网络相结合,提高了模型的学习能力和泛化能力,避免了在不确定性环境中人为操作无人机飞行的繁琐性和粗疏性,使得无人机完成航线跟随任务更为安全高效,同时在无人机目标跟踪、自主避障等场景中有很好的应用前景。
附图说明
图1为基于DDPG的无人机航线跟随算法总体框架图。
图2为四旋翼无人机执行航线跟随任务飞行示意图。
图3为基于DDPG的无人机航线跟随算法流程图。
图4为四旋翼无人机训练效果图。
图5为四旋翼无人机完成航线跟随任务轨迹展示图。
图中:Cn-第n条航线起点,Dn-第n条航线终点,U-无人机中心位置,d1-无人机到航线终点距离,d2-无人机到航线偏差距离。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提供的一种基于深度强化学习的四旋翼无人机航线跟随控制方法,包括以下步骤:
步骤1:采用如下步骤定义四旋翼无人机航线跟随深度强化学习算法的马尔科夫模型:
对马尔科夫决策过程MDP的五元组(s,A,P,R,γ)进行建模,其中s为四旋翼无人机的输入状态,A为四旋翼无人机的输出动作集,P为状态转移概率函数,R为奖励函数,γ为折扣系数;
步骤1-1:确定四旋翼无人机的输入状态s:
建立机体坐标系cb和惯性坐标系ci,定义φ、θ、ψ分别表示机体坐标系下四旋翼无人机的滚动角、俯仰角和偏航角;
四旋翼无人机每个旋翼电机产生的升力fj=cTωj 2,其中j=1,2,3,4,cT为推力系数,ωj为第j个旋翼电机转速,机体坐标系下无人机受到的总升力为fz=f1+f2+f3+f4
在惯性坐标系中,用rx、ry、rz分别表示无人机在x、y、z轴的位置量,vx、vy、vz分别表示无人机在x、y、z轴的速度量,设定z轴向上为正方向,计算从机体坐标系cb到惯性坐标系ci的转换矩阵Λ:
Figure GDA0002597816180000071
计算无人在惯性坐标系下受到的升力F=Λfz,进而推出:
Figure GDA0002597816180000072
其中m表示四旋翼无人机质量,g表示重力加速度,
Figure GDA0002597816180000073
分别表示惯性坐标系下四旋翼无人机在x、y、z轴的线加速度,进而得到:
Figure GDA0002597816180000074
其中ω1、ω2、ω3、ω4分别表示四旋翼无人机4个旋翼电机的转速;
在欧拉方程
Figure GDA0002597816180000075
中,τb为四旋翼无人机电机产生的旋转扭矩矩阵,J为惯性矩阵,ωb为角速度矩阵,
Figure GDA0002597816180000076
为角加速度矩阵,欧拉方程可转化为:
Figure GDA0002597816180000081
其中Jxx、Jyy、Jzz分别表示惯性矩阵在x、y、z轴上的分量,d表示无人机力臂长度,从而计算出机体坐标系下的无人机滚动角、俯仰角、偏航角角速度
Figure GDA0002597816180000082
和角速度变化率
Figure GDA0002597816180000083
计算惯性坐标系中四旋翼无人机沿x、y、z轴运动的角速度Ωx、Ωy、Ωz
Figure GDA0002597816180000084
则四旋翼无人机的输入状态为:
s=[φ θ ψ rx ry rz vx vy vz Ωx Ωy Ωz]
步骤1-2:定义四旋翼无人机的输出动作集A为:
A=[0,ωmax]
A表示四旋翼无人机在接受到外界反馈值之后,针对自身状态值,所能采取的所有动作的集合,其中,ωmax表示四旋翼无人机旋翼电机最大转速;四旋翼无人机的四个旋翼电机转速在A范围内改变;
步骤1-3:定义四旋翼无人机由当前时刻输入状态s且采取动作量为a的条件下,能够到达下一输入状态s'的概率为状态转移概率函数P;
步骤1-4:设定当前航线起点为C(rxc,ryc,rzc),当前航线终点为D(rxd,ryd,rzd),四旋翼无人机当前位置为U(rx,ry,rz),则四旋翼无人机到当前航线终点D的距离d1为:
Figure GDA0002597816180000085
找到当前航线上一点E(rxe,rye,rze)使UE⊥CD,则联立直线方程求出E(rxe,rye,rze),得到无人机到当前航线距离d2为:
Figure GDA0002597816180000086
定义奖励函数R,表示无人机在当前输入状态下,选择某动作后,得到的瞬时反馈,公式如下:
R=-(αd1+βd2)+λnΔt
其中α为第一增益参数,β为第二增益参数,λ为第三增益参数,n为无人机运动步数,Δt为无人机单步运动时间;
步骤1-5:定义折扣系数0<γ<1,用于计算整个过程中的回报累计值,折扣系数越大,表示越注重长期收益;
步骤2:根据步骤1建模出的马尔科夫决策过程五元组(s,A,P,R,γ),使用深度确定性策略梯度(DDPG)算法实现四旋翼无人机的航线跟随控制,步骤如下:
步骤2-1:采用两种独立的神经网络—Actor网络和Critic网络,并随机初始化Critic网络的网络状态-行为值函数Q(s,a|θQ)和Actor网络的策略函数μ(s,a|θμ),将Critic网络和Actor网络的权重复制到各自网络的目标网络参数,即θQ→θQ'μ→θμ',其中θQ、θμ分别表示Critic网络参数和Actor网络参数,θQ'、θμ'分别表示Critic目标网络参数和Actor目标网络参数;
步骤2-2:设置单个回合内最大动作步数K,最大训练回合数E,经验池最大容量值C,初始化训练回合数e=1;
步骤2-3:初始化动作步数k=0,时间t=0,初始化四旋翼无人机的输入状态为:
s0=[0 0 0 0 0 0 0 0 0 0 0 0];
步骤2-4:在当前输入状态下选取动作at=μ(stμ)+M,at指t时刻下执行的动作,μ为动作策略函数,st为t时刻的输入状态,M为噪声;
步骤2-5:在输入状态st下,执行动作at,计算无人机到当前航线终点D的距离d1和无人机到航线距离d2,从而计算出当前奖励函数值Rt,利用步骤1-1的方法重新得到下一输入状态st',然后将经验条(st,at,Rt,st')保存于经验池之中,新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位;
步骤2-6:如果经验池中的经验条数量达到经验池最大容量值C,则新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位,删除最后一个经验条;同时从经验池中随机提取部分样本进行训练,训练过程表示为:
Yt=Rt+γQ'(st',μ'(st'|θμ')|θQ')
其中Yt代表目标网络,θμ'、θQ'表示Actor、Critic目标网络参数,μ'表示对st'进行分析得到的策略,Q'表示在st'时采取μ'策略得到的状态-行为值;
步骤2-7:计算最小损失函数:
Figure GDA0002597816180000101
L表示Loss损失函数,N表示从经验池中抽取的样本数量;
步骤2-8:根据Actor网络、Critic网络参数更新策略梯度:
Figure GDA0002597816180000102
Figure GDA0002597816180000103
表示在Actor网络参数θμ下的策略梯度,
Figure GDA0002597816180000104
Figure GDA0002597816180000105
分别表示Critic网络状态-行为值函数梯度和Actor网络策略函数梯度,μ(st)表示在Actor网络输入状态st时选取的动作策略,
Figure GDA0002597816180000106
Figure GDA0002597816180000107
分别表示输入状态st时采取动作a=μ(st)的Critic网络状态-行为值函数和输入状态st下的Actor网络策略函数;
步骤2-9:分别复制Actor目标网络参数和Critic目标网络参数,即
Figure GDA0002597816180000108
Figure GDA0002597816180000109
利用当前的网络参数,对Actor目标网络和Critic目标网络进行更新:
Actor目标网络更新:
Figure GDA00025978161800001010
Critic目标网络更新:
Figure GDA00025978161800001011
τ表示更新比例系数;
步骤3:采用如下步骤对模型进行训练:
步骤3-1:令动作步数k加1,并对k进行判定:若k<K,则执行t=t+Δt并跳转至步骤2-4,否则当k≥K进入步骤3-2;
步骤3-2:令训练回合数e加1,并对e进行判定:若e<E,则跳转至步骤2-3,否则当e≥E进入步骤3-3;
步骤3-3:迭代完成,终止神经网络训练过程,并保存当前Actor目标网络数据和Critic目标网络数据;将保存好的数据加载至四旋翼无人机系统之中,从而执行飞行动作完成航线跟随任务。
实施例:
本实施用例实现了四旋翼无人机完成随机航线跟随的自主飞行。设定无人机质量m=0.62千克,重力加速度g=9.81米/秒2。设定无人机初始为悬停状态,从起始坐标(0,0,0)处飞行执行任务。当无人机完成目标航线跟随到达航线终点后,系统自动刷新出新目标航线,无人机执行航线跟随任务飞行示意图如图2所示。
初始φ、θ、ψ都为0°,由无人机传感器识别导出。为方便神经网络处理,将滚动角、俯仰角和偏航角输入到状态中时,分别做余弦化处理。设置无人机单步运动时间Δt=0.05秒,四旋翼无人机推力系数cT=0.00003,力臂长度d=0.23米。
由步骤1-1求解无人机在惯性坐标系下的位置量rx、ry、rz和速度量vx、vy、vz
Figure GDA0002597816180000111
Figure GDA0002597816180000112
其中rx0、ry0、rz0和vx0、vy0、vz0分别表示惯性坐标系下无人机上一时刻在x、y、z轴向的位置量(单位:米)和线速度(单位:米/秒)。
计算无人机运动的角速度。在机体坐标系中,四旋翼无人机电机产生的旋转扭矩矩阵τb为:
Figure GDA0002597816180000113
其中τx、τy、τz为机体坐标下电机旋转扭矩矩阵在x、y、z轴上的分量,cT为推力系数,d为力臂长度(单位:米)。设定惯性矩阵J=diag[Jxx Jyy Jzz],无人机角速度矩阵
Figure GDA0002597816180000114
角加速度矩阵
Figure GDA0002597816180000115
根据欧拉方程
Figure GDA0002597816180000116
可以计算出:
Figure GDA0002597816180000117
其中Jxx、Jyy、Jzz表示惯性矩阵在x、y、z轴上的分量,
Figure GDA0002597816180000121
Figure GDA0002597816180000122
分别表示机体坐标系下无人机的滚动角、俯仰角、偏航角角速度(单位:弧度/秒)和角速度变化率(单位:弧度/秒2)。
计算惯性坐标系下四旋翼无人机沿x、y、z轴运动的角速度Ωx、Ωy、Ωz
Figure GDA0002597816180000123
最后,四旋翼无人的输入状态确立为:
s=[φ θ ψ rx ry rz vx vy vz Ωx Ωy Ωz]
设定电机最大转速为ωmax=319.1567400弧度/秒,无人机悬停时电机转速大小为225.6778900弧度/秒。
定义奖励函数如下:
R=-(100d1+10d2)+5nΔt
为使无人机安全、平稳、高效的完成任务,考虑其权重,分别设定奖励函数中的第一增益参数α=100,第二增益参数β=10,第三增益参数λ=5。
本实验中,考虑无人机平稳、持续飞行等因素,设定折扣系数γ=0.90。
构建神经网络结构,Actor、Critic网络都有三层:输入层,隐藏层,输出层,设置隐藏层神经元数量为150。
设置单位回合内最大动作数量K=300,最大训练回合数E=10000,设置经验池容量大小C=10000。
本发明中设定更新比例系数τ=0.95。
在仿真环境中,将时间状态t加入到无人机的输入状态S之中。设定T=15s为虚拟环境中无人机满电量时的飞行续航时间:当无人机在设定时间T内未完成飞行任务时,无人机能源耗尽,航线跟随任务失败;当完成航线跟随任务或飞行续航时间内未完成航线跟随任务时,回合终止,进入下回合学习。
根据以上设定的各值,按照步骤1-步骤3,得到算法流程如下:初始化神经网络,设置学习率等超参数,对神经网络进行训练。回合起始时,无人机执行动作改变电机转速,得到新的状态,并将每一回合的经验条保存于经验池之中作为学习样本,以此更新神经网络,不断迭代重复。当训练完成时,保存训练好的神经网络参数,应用于无人机智能控制算法网络。至此,四旋翼无人机航线跟随控制训练完成,其跟随算法总体框架图如图1所示,具体流程如图3所示。
基于以上步骤,可实现无人机在复杂飞行场景下,通过提前训练好的DDPG神经网络,进行指定航线跟随,安全到达目的地。
表1为四旋翼无人机航线跟随运动数据(部分)展示。
表1四旋翼无人机模型位置和电机转速数据
Figure GDA0002597816180000131
Figure GDA0002597816180000141
无人机训练效果图如图4所示,大约3000回合后,无人机能够实现平均奖励函数的收敛。给无人机动作值赋予噪声M=3,无人机会随机探索未知动作。随着四旋翼无人机不断的训练学习,每一百回合令噪声值乘以0.995进行指数衰减。由于无人机对随机动作进行学习,函数会产生较高的跳变,再不断学习使神经网络重新收敛,直至稳定状态。
四旋翼无人机航线完成航线跟随任务轨迹展示图如图5所示,可看出,无人机在建立的模型中,可以完成指定航线跟随并安全到达终点。结果表明基于深度强化学习的无人机航线跟随算法能够在复杂的飞行场景中完成航线跟随飞行。

Claims (1)

1.一种基于深度强化学习的四旋翼无人机航线跟随控制方法,其特征在于,包括以下步骤;
步骤1:采用如下步骤定义四旋翼无人机航线跟随深度强化学习算法的马尔科夫模型:
对马尔科夫决策过程MDP的五元组(s,A,P,R,γ)进行建模,其中s为四旋翼无人机的输入状态,A为四旋翼无人机的输出动作集,P为状态转移概率函数,R为奖励函数,γ为折扣系数;
步骤1-1:确定四旋翼无人机的输入状态s:
建立机体坐标系cb和惯性坐标系ci,定义φ、θ、ψ分别表示机体坐标系下四旋翼无人机的滚动角、俯仰角和偏航角;
四旋翼无人机每个旋翼电机产生的升力fj=cTωj 2,其中j=1,2,3,4,cT为推力系数,ωj为第j个旋翼电机转速,机体坐标系下无人机受到的总升力为fz=f1+f2+f3+f4
在惯性坐标系中,用rx、ry、rz分别表示无人机在x、y、z轴的位置量,vx、vy、vz分别表示无人机在x、y、z轴的速度量,设定z轴向上为正方向,计算从机体坐标系cb到惯性坐标系ci的转换矩阵Λ:
Figure FDA0002597816170000011
计算无人在惯性坐标系下受到的升力F=Λfz,进而推出:
Figure FDA0002597816170000012
其中m表示四旋翼无人机质量,g表示重力加速度,
Figure FDA0002597816170000013
分别表示惯性坐标系下四旋翼无人机在x、y、z轴的线加速度,进而得到:
Figure FDA0002597816170000014
其中ω1、ω2、ω3、ω4分别表示四旋翼无人机4个旋翼电机的转速;
在欧拉方程
Figure FDA0002597816170000015
中,τb为四旋翼无人机电机产生的旋转扭矩矩阵,J为惯性矩阵,ωb为角速度矩阵,
Figure FDA0002597816170000021
为角加速度矩阵,欧拉方程可转化为:
Figure FDA0002597816170000022
其中Jxx、Jyy、Jzz分别表示惯性矩阵在x、y、z轴上的分量,d表示无人机力臂长度,从而计算出机体坐标系下的无人机滚动角、俯仰角、偏航角角速度
Figure FDA0002597816170000023
和角速度变化率
Figure FDA0002597816170000024
计算惯性坐标系中四旋翼无人机沿x、y、z轴运动的角速度Ωx、Ωy、Ωz
Figure FDA0002597816170000025
则四旋翼无人机的输入状态为:
s=[φ θ ψ rx ry rz vx vy vz Ωx Ωy Ωz]
步骤1-2:定义四旋翼无人机的输出动作集A为:
A=[0,ωmax]
A表示四旋翼无人机在接受到外界反馈值之后,针对自身状态值,所能采取的所有动作的集合,其中,ωmax表示四旋翼无人机旋翼电机最大转速;四旋翼无人机的四个旋翼电机转速在A范围内改变;
步骤1-3:定义四旋翼无人机由当前时刻输入状态s且采取动作量为a的条件下,能够到达下一输入状态s'的概率为状态转移概率函数P;
步骤1-4:设定当前航线起点为C(rxc,ryc,rzc),当前航线终点为D(rxd,ryd,rzd),四旋翼无人机当前位置为U(rx,ry,rz),则四旋翼无人机到当前航线终点D的距离d1为:
Figure FDA0002597816170000026
找到当前航线上一点E(rxe,rye,rze)使UE⊥CD,则联立直线方程求出E(rxe,rye,rze),得到无人机到当前航线距离d2为:
Figure FDA0002597816170000027
定义奖励函数R,表示无人机在当前输入状态下,选择某动作后,得到的瞬时反馈,公式如下:
R=-(αd1+βd2)+λnΔt
其中α为第一增益参数,β为第二增益参数,λ为第三增益参数,n为无人机运动步数,Δt为无人机单步运动时间;
步骤1-5:定义折扣系数0<γ<1,用于计算整个过程中的回报累计值,折扣系数越大,表示越注重长期收益;
步骤2:根据步骤1建模出的马尔科夫决策过程五元组(s,A,P,R,γ),使用深度确定性策略梯度(DDPG)算法实现四旋翼无人机的航线跟随控制,步骤如下:
步骤2-1:采用两种独立的神经网络—Actor网络和Critic网络,并随机初始化Critic网络的网络状态-行为值函数Q(s,a|θQ)和Actor网络的策略函数μ(s,a|θμ),将Critic网络和Actor网络的权重复制到各自网络的目标网络参数,即θQ→θQ'μ→θμ',其中θQ、θμ分别表示Critic网络参数和Actor网络参数,θQ'、θμ'分别表示Critic目标网络参数和Actor目标网络参数;
步骤2-2:设置单个回合内最大动作步数K,最大训练回合数E,经验池最大容量值C,初始化训练回合数e=1;
步骤2-3:初始化动作步数k=0,时间t=0,初始化四旋翼无人机的输入状态为:
s0=[0 0 0 0 0 0 0 0 0 0 0 0];
步骤2-4:在当前输入状态下选取动作at=μ(stμ)+M,at指t时刻下执行的动作,μ为动作策略函数,st为t时刻的输入状态,M为噪声;
步骤2-5:在输入状态st下,执行动作at,计算无人机到当前航线终点D的距离d1和无人机到航线距离d2,从而计算出当前奖励函数值Rt,利用步骤1-1的方法重新得到下一输入状态st',然后将经验条(st,at,Rt,st')保存于经验池之中,新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位;
步骤2-6:如果经验池中的经验条数量达到经验池最大容量值C,则新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位,删除最后一个经验条;同时从经验池中随机提取部分样本进行训练,训练过程表示为:
Yt=Rt+γQ'(st',μ'(st'|θμ')|θQ')
其中Yt代表目标网络,θμ'、θQ'表示Actor、Critic目标网络参数,μ'表示对st'进行分析得到的策略,Q'表示在st'时采取μ'策略得到的状态-行为值;
步骤2-7:计算最小损失函数:
Figure FDA0002597816170000041
L表示Loss损失函数,N表示从经验池中抽取的样本数量;
步骤2-8:根据Actor网络、Critic网络参数更新策略梯度:
Figure FDA0002597816170000042
Figure FDA0002597816170000043
表示在Actor网络参数θμ下的策略梯度,
Figure FDA0002597816170000044
Figure FDA0002597816170000045
分别表示Critic网络状态-行为值函数梯度和Actor网络策略函数梯度,μ(st)表示在Actor网络输入状态st时选取的动作策略,
Figure FDA0002597816170000046
Figure FDA0002597816170000047
分别表示输入状态st时采取动作a=μ(st)的Critic网络状态-行为值函数和输入状态st下的Actor网络策略函数;
步骤2-9:分别复制Actor目标网络参数和Critic目标网络参数,即
Figure FDA0002597816170000048
Figure FDA0002597816170000049
利用当前的网络参数,对Actor目标网络和Critic目标网络进行更新:
Actor目标网络更新:
Figure FDA00025978161700000410
Critic目标网络更新:
Figure FDA00025978161700000411
τ表示更新比例系数;
步骤3:采用如下步骤对模型进行训练:
步骤3-1:令动作步数k加1,并对k进行判定:若k<K,则执行t=t+Δt并跳转至步骤2-4,否则当k≥K进入步骤3-2;
步骤3-2:令训练回合数e加1,并对e进行判定:若e<E,则跳转至步骤2-3,否则当e≥E进入步骤3-3;
步骤3-3:迭代完成,终止神经网络训练过程,并保存当前Actor目标网络数据和Critic目标网络数据;将保存好的数据加载至四旋翼无人机系统之中,从而执行飞行动作完成航线跟随任务。
CN201911002811.4A 2019-10-22 2019-10-22 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 Active CN110673620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911002811.4A CN110673620B (zh) 2019-10-22 2019-10-22 一种基于深度强化学习的四旋翼无人机航线跟随控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911002811.4A CN110673620B (zh) 2019-10-22 2019-10-22 一种基于深度强化学习的四旋翼无人机航线跟随控制方法

Publications (2)

Publication Number Publication Date
CN110673620A CN110673620A (zh) 2020-01-10
CN110673620B true CN110673620B (zh) 2020-10-27

Family

ID=69083471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911002811.4A Active CN110673620B (zh) 2019-10-22 2019-10-22 一种基于深度强化学习的四旋翼无人机航线跟随控制方法

Country Status (1)

Country Link
CN (1) CN110673620B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319295B (zh) * 2018-01-22 2021-05-28 深圳市大疆创新科技有限公司 避障控制方法、设备及计算机可读存储介质
CN111263332A (zh) * 2020-03-02 2020-06-09 湖北工业大学 基于深度强化学习的无人机轨迹及功率联合优化方法
CN111460650B (zh) * 2020-03-31 2022-11-01 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN111487992A (zh) * 2020-04-22 2020-08-04 北京航空航天大学 基于深度强化学习的无人机感知与避障一体化方法及设备
CN111667513B (zh) * 2020-06-01 2022-02-18 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111859541B (zh) * 2020-07-17 2022-10-14 西北工业大学 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN111880563B (zh) * 2020-07-17 2022-07-15 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112034872B (zh) * 2020-08-31 2023-01-17 东南大学 一种四旋翼无人机积分补偿确定性策略梯度控制方法
CN112198890B (zh) * 2020-12-03 2021-04-13 中国科学院自动化研究所 基于强化学习的飞行器姿态控制方法、系统、装置
CN112698646B (zh) * 2020-12-05 2022-09-13 西北工业大学 一种基于强化学习的航行器路径规划方法
CN114619907B (zh) * 2020-12-14 2023-10-20 中国科学技术大学 基于分布式深度强化学习的协调充电方法及协调充电系统
CN112650058B (zh) * 2020-12-23 2022-07-12 西北工业大学 一种基于强化学习的四旋翼无人机轨迹控制方法
CN112286218B (zh) * 2020-12-29 2021-03-26 南京理工大学 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN113093802B (zh) * 2021-04-03 2022-08-02 西北工业大学 一种基于深度强化学习的无人机机动决策方法
CN113110547B (zh) * 2021-04-21 2022-06-07 吉林大学 一种微型航空飞行器的飞行控制方法、装置及设备
CN113340324B (zh) * 2021-05-27 2022-04-29 东南大学 一种基于深度确定性策略梯度的视觉惯性自校准方法
CN113467248A (zh) * 2021-07-22 2021-10-01 南京大学 基于强化学习的无人机传感器故障时容错控制方法
CN114020001A (zh) * 2021-12-17 2022-02-08 中国科学院国家空间科学中心 基于深度确定性策略梯度学习的火星无人机智能控制方法
CN114675535B (zh) * 2022-03-07 2024-04-02 大连理工大学 一种基于强化学习的航空发动机过渡态寻优控制方法
CN115097853B (zh) * 2022-05-18 2023-07-07 中国航空工业集团公司沈阳飞机设计研究所 一种基于细粒度重复策略的无人机机动飞行控制方法
CN114954840B (zh) * 2022-05-30 2023-09-05 武汉理工大学 一种变稳船变稳控制方法、系统、装置及存储介质
CN115857556B (zh) * 2023-01-30 2023-07-14 中国人民解放军96901部队 一种基于强化学习的无人飞行器协同探测规划方法
CN117707207B (zh) * 2024-02-06 2024-04-19 中国民用航空飞行学院 基于深度强化学习的无人机对地目标跟踪与避障规划方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN108427286A (zh) * 2018-04-12 2018-08-21 合肥工业大学 用于强对抗环境下无人机深度决策的训练方法及训练网络
CN109445456A (zh) * 2018-10-15 2019-03-08 清华大学 一种多无人机集群导航方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045443B (zh) * 2018-10-11 2021-07-02 北京航空航天大学 无人机通信网络移动控制方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN108427286A (zh) * 2018-04-12 2018-08-21 合肥工业大学 用于强对抗环境下无人机深度决策的训练方法及训练网络
CN109445456A (zh) * 2018-10-15 2019-03-08 清华大学 一种多无人机集群导航方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning Approach withMultiple Experience Pools for UAV’s AutonomousMotion Planning in Complex Unknown Environments;Zijian Hu 等;《MDPI》;20200329;全文 *
Robust Motion Control for UAV in Dynamic Uncertain Environments Using Deep Reinforcement Learning;KaifangWan 等;《MDPI》;20200214;全文 *
基于深度增强学习的四旋翼无人机控制方法研究;余伟;《CNKI》;20190501;全文 *
基于深度强化学习的多机器人协同导航;周世正;《CNKI》;20190131;全文 *
深度强化学习理论及其应用综述;万里鹏 等;《模式识别与人工智能》;20190131;全文 *

Also Published As

Publication number Publication date
CN110673620A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110673620B (zh) 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN111667513B (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111880567B (zh) 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
Nie et al. Three-dimensional path-following control of a robotic airship with reinforcement learning
Rosaldo-Serrano et al. Observer-based time-varying backstepping control for a quadrotor multi-agent system
CN112650058B (zh) 一种基于强化学习的四旋翼无人机轨迹控制方法
CN114253296A (zh) 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN113671825A (zh) 一种基于强化学习的机动智能决策规避导弹方法
Sarabakha et al. Y6 tricopter autonomous evacuation in an indoor environment using Q-learning algorithm
Chowdhary et al. Experimental results of concurrent learning adaptive controllers
Sun et al. Aggressive quadrotor flight using curiosity-driven reinforcement learning
CN113110546A (zh) 一种基于离线强化学习的无人机自主飞行控制方法
Huang et al. Attitude control of fixed-wing UAV based on DDQN
Wu et al. Improved reinforcement learning using stability augmentation with application to quadrotor attitude control
İlhan et al. Type-2 fuzzy based quadrotor control approach
dos Santos et al. An experimental validation of reinforcement learning applied to the position control of UAVs
Aruneshwaran et al. Neural adaptive flight controller for ducted-fan UAV performing nonlinear maneuver
Agarwal et al. Improving energy efficiency in UAV attitude control using deep reinforcement learning
CN117215197A (zh) 四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质
Richter et al. Using double deep q-learning to learn attitude control of fixed-wing aircraft
Shakev et al. Continuous sliding mode control of a quadrotor
CN113741491A (zh) 一种基于故障诊断结果的x型四旋翼无人机控制方法
Yuan et al. Distributed model predictive formation control for a group of uavs with newton-euler dynamics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant