CN110673620B - 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 - Google Patents
一种基于深度强化学习的四旋翼无人机航线跟随控制方法 Download PDFInfo
- Publication number
- CN110673620B CN110673620B CN201911002811.4A CN201911002811A CN110673620B CN 110673620 B CN110673620 B CN 110673620B CN 201911002811 A CN201911002811 A CN 201911002811A CN 110673620 B CN110673620 B CN 110673620B
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- quad
- rotor
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002787 reinforcement Effects 0.000 title claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 17
- 230000001133 acceleration Effects 0.000 claims description 11
- 230000009191 jumping Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000005096 rolling process Methods 0.000 claims description 4
- 230000007774 longterm Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
- G05D1/0816—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
- G05D1/0825—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability using mathematical models
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提出了一种基于深度强化学习的四旋翼无人机航线跟随控制方法,该方法首先建立了四旋翼无人机航线跟随深度强化学习算法的马尔可夫模型,然后采用深度确定性策略梯度(DDPG)算法进行深度强化学习,克服以往基于强化学习的方法控制精度较低、无法实现连续控制和学习过程不稳定等问题,实现高精度的四旋翼无人机航线跟随控制。本发明方法将强化学习与深度神经网络相结合,提高了模型的学习能力和泛化能力,避免了在不确定性环境中人为操作无人机飞行的繁琐性和粗疏性,使得无人机完成航线跟随任务更为安全高效,同时在无人机目标跟踪、自主避障等场景中有很好的应用前景。
Description
技术领域
本发明属于智能控制领域,尤其涉及一种无人机航线跟随控制方法。
背景技术
近年来,随着四旋翼无人机在工业巡检、抢险救灾、生活辅助等诸多领域的大放异彩,其逐渐成为军事航空学术研究中新的前沿和热点。针对无人机完成高空航线跟随、目标跟踪等人类无法到达现场操作的任务场景,保证无人机飞行的自主性和可控性是一项最基本且重要的功能要求,是实现各项复杂作业任务的前提。由于诸多原因,无人机自主决策与控制在智能控制领域仍然面临巨大的挑战。其一,无人机飞行控制输入输出量繁多,其运动学和动力学模型复杂,具有高度非线性、强耦合和时变等特点;其二,受诸多不可控因素影响,无人机在高空飞行时,无法对内外部不确定因素的改变做出合理反应;其三,无人机作为一种欠驱动系统,高精度、高质量完成飞行任务较为困难。因此,如何实现无人机执行任务的自主决策,成为无人机在军事应用领域得到更加广泛应用的关键问题。
现有技术中无人机智能控制方法有很多。公开专利CN109544597A提出一种基于视觉的四旋翼无人机目标跟踪方法,通过无人机拍摄获取跟踪目标的图像,通过深度神经网络对其进行特征提取,进而控制无人机飞行轨迹实现目标跟踪。该发明使用基于视觉的方法,自适应能力较弱,在视觉装置无法正常使用时,无法对未知环境做出判断进而做出正确决策。公开专利CN109933086A提出一种基于深度Q学习的无人机环境感知与自主避障方法,将深度强化学习运用于无人机自主决策之中,实现无人机在未知环境的感知与决策。然而,该方法对四旋翼无人机模型进行了解耦或线性化处理,很难满足四旋翼无人机在特定应用场景下的高精度控制。
发明内容
为了克服现有技术的不足,本发明提出了一种基于深度强化学习的四旋翼无人机航线跟随控制方法,该方法首先建立了四旋翼无人机航线跟随深度强化学习算法的马尔科夫模型,然后采用深度确定性策略梯度(DDPG)算法进行深度强化学习,克服以往基于强化学习的方法控制精度较低、无法实现连续控制和学习过程不稳定等问题,实现高精度的四旋翼无人机航线跟随控制。通过四旋翼无人机与环境的交互,采用离线学习对神经网络进行训练,并结合四旋翼无人机飞行特性和姿态控制要求,设计环境空间、状态空间、动作空间和奖惩机制,提高深度强化学习模型的泛化能力,最终实现四旋翼无人机完成状态输入-神经网络分析-动作输出工作,从而执行飞行动作完成航线跟随任务。
为达到上述目的,本发明提供的一种基于深度强化学习的四旋翼无人机航线跟随控制方法,包括以下步骤:
步骤1:采用如下步骤定义四旋翼无人机航线跟随深度强化学习算法的马尔科夫模型:
对马尔科夫决策过程MDP的五元组(s,A,P,R,γ)进行建模,其中s为四旋翼无人机的输入状态,A为四旋翼无人机的输出动作集,P为状态转移概率函数,R为奖励函数,γ为折扣系数;
步骤1-1:确定四旋翼无人机的输入状态s:
建立机体坐标系cb和惯性坐标系ci,定义φ、θ、ψ分别表示机体坐标系下四旋翼无人机的滚动角、俯仰角和偏航角;
四旋翼无人机每个旋翼电机产生的升力fj=cTωj 2,其中j=1,2,3,4,cT为推力系数,ωj为第j个旋翼电机转速,机体坐标系下无人机受到的总升力为fz=f1+f2+f3+f4;
在惯性坐标系中,用rx、ry、rz分别表示无人机在x、y、z轴的位置量,vx、vy、vz分别表示无人机在x、y、z轴的速度量,设定z轴向上为正方向,计算从机体坐标系cb到惯性坐标系ci的转换矩阵Λ:
计算无人在惯性坐标系下受到的升力F=Λfz,进而推出:
其中ω1、ω2、ω3、ω4分别表示四旋翼无人机4个旋翼电机的转速;
计算惯性坐标系中四旋翼无人机沿x、y、z轴运动的角速度Ωx、Ωy、Ωz:
则四旋翼无人机的输入状态为:
s=[φ θ ψ rx ry rz vx vy vz Ωx Ωy Ωz]
步骤1-2:定义四旋翼无人机的输出动作集A为:
A=[0,ωmax]
A表示四旋翼无人机在接受到外界反馈值之后,针对自身状态值,所能采取的所有动作的集合,其中,ωmax表示四旋翼无人机旋翼电机最大转速;四旋翼无人机的四个旋翼电机转速在A范围内改变;
步骤1-3:定义四旋翼无人机由当前时刻输入状态s且采取动作量为a的条件下,能够到达下一输入状态s'的概率为状态转移概率函数P;
步骤1-4:设定当前航线起点为C(rxc,ryc,rzc),当前航线终点为D(rxd,ryd,rzd),四旋翼无人机当前位置为U(rx,ry,rz),则四旋翼无人机到当前航线终点D的距离d1为:
找到当前航线上一点E(rxe,rye,rze)使UE⊥CD,则联立直线方程求出E(rxe,rye,rze),得到无人机到当前航线距离d2为:
定义奖励函数R,表示无人机在当前输入状态下,选择某动作后,得到的瞬时反馈,公式如下:
R=-(αd1+βd2)+λnΔt
其中α为第一增益参数,β为第二增益参数,λ为第三增益参数,n为无人机运动步数,Δt为无人机单步运动时间;
步骤1-5:定义折扣系数0<γ<1,用于计算整个过程中的回报累计值,折扣系数越大,表示越注重长期收益;
步骤2:根据步骤1建模出的马尔科夫决策过程五元组(s,A,P,R,γ),使用深度确定性策略梯度(DDPG)算法实现四旋翼无人机的航线跟随控制,步骤如下:
步骤2-1:采用两种独立的神经网络—Actor网络和Critic网络,并随机初始化Critic网络的网络状态-行为值函数Q(s,a|θQ)和Actor网络的策略函数μ(s,a|θμ),将Critic网络和Actor网络的权重复制到各自网络的目标网络参数,即θQ→θQ',θμ→θμ',其中θQ、θμ分别表示Critic网络参数和Actor网络参数,θQ'、θμ'分别表示Critic目标网络参数和Actor目标网络参数;
步骤2-2:设置单个回合内最大动作步数K,最大训练回合数E,经验池最大容量值C,初始化训练回合数e=1;
步骤2-3:初始化动作步数k=0,时间t=0,初始化四旋翼无人机的输入状态为:
s0=[0 0 0 0 0 0 0 0 0 0 0 0];
步骤2-4:在当前输入状态下选取动作at=μ(st|θμ)+M,at指t时刻下执行的动作,μ为动作策略函数,st为t时刻的输入状态,M为噪声;
步骤2-5:在输入状态st下,执行动作at,计算无人机到当前航线终点D的距离d1和无人机到航线距离d2,从而计算出当前奖励函数值Rt,利用步骤1-1的方法重新得到下一输入状态st',然后将经验条(st,at,Rt,st')保存于经验池之中,新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位;
步骤2-6:如果经验池中的经验条数量达到经验池最大容量值C,则新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位,删除最后一个经验条;同时从经验池中随机提取部分样本进行训练,训练过程表示为:
Yt=Rt+γQ'(st',μ'(st'|θμ')|θQ')
其中Yt代表目标网络,θμ'、θQ'表示Actor、Critic目标网络参数,μ'表示对st'进行分析得到的策略,Q'表示在st'时采取μ'策略得到的状态-行为值;
步骤2-7:计算最小损失函数:
L表示Loss损失函数,N表示从经验池中抽取的样本数量;
步骤2-8:根据Actor网络、Critic网络参数更新策略梯度:
表示在Actor网络参数θμ下的策略梯度,和分别表示Critic网络状态-行为值函数梯度和Actor网络策略函数梯度,μ(st)表示在Actor网络输入状态st时选取的动作策略,和分别表示输入状态st时采取动作a=μ(st)的Critic网络状态-行为值函数和输入状态st下的Actor网络策略函数;
τ表示更新比例系数;
步骤3:采用如下步骤对模型进行训练:
步骤3-1:令动作步数k加1,并对k进行判定:若k<K,则执行t=t+Δt并跳转至步骤2-4,否则当k≥K进入步骤3-2;
步骤3-2:令训练回合数e加1,并对e进行判定:若e<E,则跳转至步骤2-3,否则当e≥E进入步骤3-3;
步骤3-3:迭代完成,终止神经网络训练过程,并保存当前Actor目标网络数据和Critic目标网络数据;将保存好的数据加载至四旋翼无人机系统之中,从而执行飞行动作完成航线跟随任务。
本发明的有益效果是:
(1)本发明方法建立的四旋翼无人机运动学和动力学模型完整,通过无人机在飞行过程中的采样数据,自主学习使得控制目标达到最优的目标策略。该过程中的环境较为真实,有很高的实际应用价值。
(2)本发明方法使用的深度确定性策略梯度(DDPG)算法,有效的解决了无人机连续性控制问题,使得无人机在飞行时姿态、速度更为稳定。
(3)本发明方法将强化学习与深度神经网络相结合,提高了模型的学习能力和泛化能力,避免了在不确定性环境中人为操作无人机飞行的繁琐性和粗疏性,使得无人机完成航线跟随任务更为安全高效,同时在无人机目标跟踪、自主避障等场景中有很好的应用前景。
附图说明
图1为基于DDPG的无人机航线跟随算法总体框架图。
图2为四旋翼无人机执行航线跟随任务飞行示意图。
图3为基于DDPG的无人机航线跟随算法流程图。
图4为四旋翼无人机训练效果图。
图5为四旋翼无人机完成航线跟随任务轨迹展示图。
图中:Cn-第n条航线起点,Dn-第n条航线终点,U-无人机中心位置,d1-无人机到航线终点距离,d2-无人机到航线偏差距离。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提供的一种基于深度强化学习的四旋翼无人机航线跟随控制方法,包括以下步骤:
步骤1:采用如下步骤定义四旋翼无人机航线跟随深度强化学习算法的马尔科夫模型:
对马尔科夫决策过程MDP的五元组(s,A,P,R,γ)进行建模,其中s为四旋翼无人机的输入状态,A为四旋翼无人机的输出动作集,P为状态转移概率函数,R为奖励函数,γ为折扣系数;
步骤1-1:确定四旋翼无人机的输入状态s:
建立机体坐标系cb和惯性坐标系ci,定义φ、θ、ψ分别表示机体坐标系下四旋翼无人机的滚动角、俯仰角和偏航角;
四旋翼无人机每个旋翼电机产生的升力fj=cTωj 2,其中j=1,2,3,4,cT为推力系数,ωj为第j个旋翼电机转速,机体坐标系下无人机受到的总升力为fz=f1+f2+f3+f4;
在惯性坐标系中,用rx、ry、rz分别表示无人机在x、y、z轴的位置量,vx、vy、vz分别表示无人机在x、y、z轴的速度量,设定z轴向上为正方向,计算从机体坐标系cb到惯性坐标系ci的转换矩阵Λ:
计算无人在惯性坐标系下受到的升力F=Λfz,进而推出:
其中ω1、ω2、ω3、ω4分别表示四旋翼无人机4个旋翼电机的转速;
计算惯性坐标系中四旋翼无人机沿x、y、z轴运动的角速度Ωx、Ωy、Ωz:
则四旋翼无人机的输入状态为:
s=[φ θ ψ rx ry rz vx vy vz Ωx Ωy Ωz]
步骤1-2:定义四旋翼无人机的输出动作集A为:
A=[0,ωmax]
A表示四旋翼无人机在接受到外界反馈值之后,针对自身状态值,所能采取的所有动作的集合,其中,ωmax表示四旋翼无人机旋翼电机最大转速;四旋翼无人机的四个旋翼电机转速在A范围内改变;
步骤1-3:定义四旋翼无人机由当前时刻输入状态s且采取动作量为a的条件下,能够到达下一输入状态s'的概率为状态转移概率函数P;
步骤1-4:设定当前航线起点为C(rxc,ryc,rzc),当前航线终点为D(rxd,ryd,rzd),四旋翼无人机当前位置为U(rx,ry,rz),则四旋翼无人机到当前航线终点D的距离d1为:
找到当前航线上一点E(rxe,rye,rze)使UE⊥CD,则联立直线方程求出E(rxe,rye,rze),得到无人机到当前航线距离d2为:
定义奖励函数R,表示无人机在当前输入状态下,选择某动作后,得到的瞬时反馈,公式如下:
R=-(αd1+βd2)+λnΔt
其中α为第一增益参数,β为第二增益参数,λ为第三增益参数,n为无人机运动步数,Δt为无人机单步运动时间;
步骤1-5:定义折扣系数0<γ<1,用于计算整个过程中的回报累计值,折扣系数越大,表示越注重长期收益;
步骤2:根据步骤1建模出的马尔科夫决策过程五元组(s,A,P,R,γ),使用深度确定性策略梯度(DDPG)算法实现四旋翼无人机的航线跟随控制,步骤如下:
步骤2-1:采用两种独立的神经网络—Actor网络和Critic网络,并随机初始化Critic网络的网络状态-行为值函数Q(s,a|θQ)和Actor网络的策略函数μ(s,a|θμ),将Critic网络和Actor网络的权重复制到各自网络的目标网络参数,即θQ→θQ',θμ→θμ',其中θQ、θμ分别表示Critic网络参数和Actor网络参数,θQ'、θμ'分别表示Critic目标网络参数和Actor目标网络参数;
步骤2-2:设置单个回合内最大动作步数K,最大训练回合数E,经验池最大容量值C,初始化训练回合数e=1;
步骤2-3:初始化动作步数k=0,时间t=0,初始化四旋翼无人机的输入状态为:
s0=[0 0 0 0 0 0 0 0 0 0 0 0];
步骤2-4:在当前输入状态下选取动作at=μ(st|θμ)+M,at指t时刻下执行的动作,μ为动作策略函数,st为t时刻的输入状态,M为噪声;
步骤2-5:在输入状态st下,执行动作at,计算无人机到当前航线终点D的距离d1和无人机到航线距离d2,从而计算出当前奖励函数值Rt,利用步骤1-1的方法重新得到下一输入状态st',然后将经验条(st,at,Rt,st')保存于经验池之中,新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位;
步骤2-6:如果经验池中的经验条数量达到经验池最大容量值C,则新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位,删除最后一个经验条;同时从经验池中随机提取部分样本进行训练,训练过程表示为:
Yt=Rt+γQ'(st',μ'(st'|θμ')|θQ')
其中Yt代表目标网络,θμ'、θQ'表示Actor、Critic目标网络参数,μ'表示对st'进行分析得到的策略,Q'表示在st'时采取μ'策略得到的状态-行为值;
步骤2-7:计算最小损失函数:
L表示Loss损失函数,N表示从经验池中抽取的样本数量;
步骤2-8:根据Actor网络、Critic网络参数更新策略梯度:
表示在Actor网络参数θμ下的策略梯度,和分别表示Critic网络状态-行为值函数梯度和Actor网络策略函数梯度,μ(st)表示在Actor网络输入状态st时选取的动作策略,和分别表示输入状态st时采取动作a=μ(st)的Critic网络状态-行为值函数和输入状态st下的Actor网络策略函数;
τ表示更新比例系数;
步骤3:采用如下步骤对模型进行训练:
步骤3-1:令动作步数k加1,并对k进行判定:若k<K,则执行t=t+Δt并跳转至步骤2-4,否则当k≥K进入步骤3-2;
步骤3-2:令训练回合数e加1,并对e进行判定:若e<E,则跳转至步骤2-3,否则当e≥E进入步骤3-3;
步骤3-3:迭代完成,终止神经网络训练过程,并保存当前Actor目标网络数据和Critic目标网络数据;将保存好的数据加载至四旋翼无人机系统之中,从而执行飞行动作完成航线跟随任务。
实施例:
本实施用例实现了四旋翼无人机完成随机航线跟随的自主飞行。设定无人机质量m=0.62千克,重力加速度g=9.81米/秒2。设定无人机初始为悬停状态,从起始坐标(0,0,0)处飞行执行任务。当无人机完成目标航线跟随到达航线终点后,系统自动刷新出新目标航线,无人机执行航线跟随任务飞行示意图如图2所示。
初始φ、θ、ψ都为0°,由无人机传感器识别导出。为方便神经网络处理,将滚动角、俯仰角和偏航角输入到状态中时,分别做余弦化处理。设置无人机单步运动时间Δt=0.05秒,四旋翼无人机推力系数cT=0.00003,力臂长度d=0.23米。
由步骤1-1求解无人机在惯性坐标系下的位置量rx、ry、rz和速度量vx、vy、vz:
其中rx0、ry0、rz0和vx0、vy0、vz0分别表示惯性坐标系下无人机上一时刻在x、y、z轴向的位置量(单位:米)和线速度(单位:米/秒)。
计算无人机运动的角速度。在机体坐标系中,四旋翼无人机电机产生的旋转扭矩矩阵τb为:
其中τx、τy、τz为机体坐标下电机旋转扭矩矩阵在x、y、z轴上的分量,cT为推力系数,d为力臂长度(单位:米)。设定惯性矩阵J=diag[Jxx Jyy Jzz],无人机角速度矩阵角加速度矩阵根据欧拉方程可以计算出:
计算惯性坐标系下四旋翼无人机沿x、y、z轴运动的角速度Ωx、Ωy、Ωz:
最后,四旋翼无人的输入状态确立为:
s=[φ θ ψ rx ry rz vx vy vz Ωx Ωy Ωz]
设定电机最大转速为ωmax=319.1567400弧度/秒,无人机悬停时电机转速大小为225.6778900弧度/秒。
定义奖励函数如下:
R=-(100d1+10d2)+5nΔt
为使无人机安全、平稳、高效的完成任务,考虑其权重,分别设定奖励函数中的第一增益参数α=100,第二增益参数β=10,第三增益参数λ=5。
本实验中,考虑无人机平稳、持续飞行等因素,设定折扣系数γ=0.90。
构建神经网络结构,Actor、Critic网络都有三层:输入层,隐藏层,输出层,设置隐藏层神经元数量为150。
设置单位回合内最大动作数量K=300,最大训练回合数E=10000,设置经验池容量大小C=10000。
本发明中设定更新比例系数τ=0.95。
在仿真环境中,将时间状态t加入到无人机的输入状态S之中。设定T=15s为虚拟环境中无人机满电量时的飞行续航时间:当无人机在设定时间T内未完成飞行任务时,无人机能源耗尽,航线跟随任务失败;当完成航线跟随任务或飞行续航时间内未完成航线跟随任务时,回合终止,进入下回合学习。
根据以上设定的各值,按照步骤1-步骤3,得到算法流程如下:初始化神经网络,设置学习率等超参数,对神经网络进行训练。回合起始时,无人机执行动作改变电机转速,得到新的状态,并将每一回合的经验条保存于经验池之中作为学习样本,以此更新神经网络,不断迭代重复。当训练完成时,保存训练好的神经网络参数,应用于无人机智能控制算法网络。至此,四旋翼无人机航线跟随控制训练完成,其跟随算法总体框架图如图1所示,具体流程如图3所示。
基于以上步骤,可实现无人机在复杂飞行场景下,通过提前训练好的DDPG神经网络,进行指定航线跟随,安全到达目的地。
表1为四旋翼无人机航线跟随运动数据(部分)展示。
表1四旋翼无人机模型位置和电机转速数据
无人机训练效果图如图4所示,大约3000回合后,无人机能够实现平均奖励函数的收敛。给无人机动作值赋予噪声M=3,无人机会随机探索未知动作。随着四旋翼无人机不断的训练学习,每一百回合令噪声值乘以0.995进行指数衰减。由于无人机对随机动作进行学习,函数会产生较高的跳变,再不断学习使神经网络重新收敛,直至稳定状态。
四旋翼无人机航线完成航线跟随任务轨迹展示图如图5所示,可看出,无人机在建立的模型中,可以完成指定航线跟随并安全到达终点。结果表明基于深度强化学习的无人机航线跟随算法能够在复杂的飞行场景中完成航线跟随飞行。
Claims (1)
1.一种基于深度强化学习的四旋翼无人机航线跟随控制方法,其特征在于,包括以下步骤;
步骤1:采用如下步骤定义四旋翼无人机航线跟随深度强化学习算法的马尔科夫模型:
对马尔科夫决策过程MDP的五元组(s,A,P,R,γ)进行建模,其中s为四旋翼无人机的输入状态,A为四旋翼无人机的输出动作集,P为状态转移概率函数,R为奖励函数,γ为折扣系数;
步骤1-1:确定四旋翼无人机的输入状态s:
建立机体坐标系cb和惯性坐标系ci,定义φ、θ、ψ分别表示机体坐标系下四旋翼无人机的滚动角、俯仰角和偏航角;
四旋翼无人机每个旋翼电机产生的升力fj=cTωj 2,其中j=1,2,3,4,cT为推力系数,ωj为第j个旋翼电机转速,机体坐标系下无人机受到的总升力为fz=f1+f2+f3+f4;
在惯性坐标系中,用rx、ry、rz分别表示无人机在x、y、z轴的位置量,vx、vy、vz分别表示无人机在x、y、z轴的速度量,设定z轴向上为正方向,计算从机体坐标系cb到惯性坐标系ci的转换矩阵Λ:
计算无人在惯性坐标系下受到的升力F=Λfz,进而推出:
其中ω1、ω2、ω3、ω4分别表示四旋翼无人机4个旋翼电机的转速;
计算惯性坐标系中四旋翼无人机沿x、y、z轴运动的角速度Ωx、Ωy、Ωz:
则四旋翼无人机的输入状态为:
s=[φ θ ψ rx ry rz vx vy vz Ωx Ωy Ωz]
步骤1-2:定义四旋翼无人机的输出动作集A为:
A=[0,ωmax]
A表示四旋翼无人机在接受到外界反馈值之后,针对自身状态值,所能采取的所有动作的集合,其中,ωmax表示四旋翼无人机旋翼电机最大转速;四旋翼无人机的四个旋翼电机转速在A范围内改变;
步骤1-3:定义四旋翼无人机由当前时刻输入状态s且采取动作量为a的条件下,能够到达下一输入状态s'的概率为状态转移概率函数P;
步骤1-4:设定当前航线起点为C(rxc,ryc,rzc),当前航线终点为D(rxd,ryd,rzd),四旋翼无人机当前位置为U(rx,ry,rz),则四旋翼无人机到当前航线终点D的距离d1为:
找到当前航线上一点E(rxe,rye,rze)使UE⊥CD,则联立直线方程求出E(rxe,rye,rze),得到无人机到当前航线距离d2为:
定义奖励函数R,表示无人机在当前输入状态下,选择某动作后,得到的瞬时反馈,公式如下:
R=-(αd1+βd2)+λnΔt
其中α为第一增益参数,β为第二增益参数,λ为第三增益参数,n为无人机运动步数,Δt为无人机单步运动时间;
步骤1-5:定义折扣系数0<γ<1,用于计算整个过程中的回报累计值,折扣系数越大,表示越注重长期收益;
步骤2:根据步骤1建模出的马尔科夫决策过程五元组(s,A,P,R,γ),使用深度确定性策略梯度(DDPG)算法实现四旋翼无人机的航线跟随控制,步骤如下:
步骤2-1:采用两种独立的神经网络—Actor网络和Critic网络,并随机初始化Critic网络的网络状态-行为值函数Q(s,a|θQ)和Actor网络的策略函数μ(s,a|θμ),将Critic网络和Actor网络的权重复制到各自网络的目标网络参数,即θQ→θQ',θμ→θμ',其中θQ、θμ分别表示Critic网络参数和Actor网络参数,θQ'、θμ'分别表示Critic目标网络参数和Actor目标网络参数;
步骤2-2:设置单个回合内最大动作步数K,最大训练回合数E,经验池最大容量值C,初始化训练回合数e=1;
步骤2-3:初始化动作步数k=0,时间t=0,初始化四旋翼无人机的输入状态为:
s0=[0 0 0 0 0 0 0 0 0 0 0 0];
步骤2-4:在当前输入状态下选取动作at=μ(st|θμ)+M,at指t时刻下执行的动作,μ为动作策略函数,st为t时刻的输入状态,M为噪声;
步骤2-5:在输入状态st下,执行动作at,计算无人机到当前航线终点D的距离d1和无人机到航线距离d2,从而计算出当前奖励函数值Rt,利用步骤1-1的方法重新得到下一输入状态st',然后将经验条(st,at,Rt,st')保存于经验池之中,新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位;
步骤2-6:如果经验池中的经验条数量达到经验池最大容量值C,则新保存的经验条存储在经验池中第一个位置,经验池中原有的经验条依次后移一位,删除最后一个经验条;同时从经验池中随机提取部分样本进行训练,训练过程表示为:
Yt=Rt+γQ'(st',μ'(st'|θμ')|θQ')
其中Yt代表目标网络,θμ'、θQ'表示Actor、Critic目标网络参数,μ'表示对st'进行分析得到的策略,Q'表示在st'时采取μ'策略得到的状态-行为值;
步骤2-7:计算最小损失函数:
L表示Loss损失函数,N表示从经验池中抽取的样本数量;
步骤2-8:根据Actor网络、Critic网络参数更新策略梯度:
表示在Actor网络参数θμ下的策略梯度,和分别表示Critic网络状态-行为值函数梯度和Actor网络策略函数梯度,μ(st)表示在Actor网络输入状态st时选取的动作策略,和分别表示输入状态st时采取动作a=μ(st)的Critic网络状态-行为值函数和输入状态st下的Actor网络策略函数;
τ表示更新比例系数;
步骤3:采用如下步骤对模型进行训练:
步骤3-1:令动作步数k加1,并对k进行判定:若k<K,则执行t=t+Δt并跳转至步骤2-4,否则当k≥K进入步骤3-2;
步骤3-2:令训练回合数e加1,并对e进行判定:若e<E,则跳转至步骤2-3,否则当e≥E进入步骤3-3;
步骤3-3:迭代完成,终止神经网络训练过程,并保存当前Actor目标网络数据和Critic目标网络数据;将保存好的数据加载至四旋翼无人机系统之中,从而执行飞行动作完成航线跟随任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911002811.4A CN110673620B (zh) | 2019-10-22 | 2019-10-22 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911002811.4A CN110673620B (zh) | 2019-10-22 | 2019-10-22 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110673620A CN110673620A (zh) | 2020-01-10 |
CN110673620B true CN110673620B (zh) | 2020-10-27 |
Family
ID=69083471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911002811.4A Active CN110673620B (zh) | 2019-10-22 | 2019-10-22 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110673620B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319295B (zh) * | 2018-01-22 | 2021-05-28 | 深圳市大疆创新科技有限公司 | 避障控制方法、设备及计算机可读存储介质 |
CN111263332A (zh) * | 2020-03-02 | 2020-06-09 | 湖北工业大学 | 基于深度强化学习的无人机轨迹及功率联合优化方法 |
CN111460650B (zh) * | 2020-03-31 | 2022-11-01 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111487992A (zh) * | 2020-04-22 | 2020-08-04 | 北京航空航天大学 | 基于深度强化学习的无人机感知与避障一体化方法及设备 |
CN111667513B (zh) * | 2020-06-01 | 2022-02-18 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
CN111859541B (zh) * | 2020-07-17 | 2022-10-14 | 西北工业大学 | 一种基于迁移学习改进的pmaddpg多无人机任务决策方法 |
CN111880563B (zh) * | 2020-07-17 | 2022-07-15 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN112034872B (zh) * | 2020-08-31 | 2023-01-17 | 东南大学 | 一种四旋翼无人机积分补偿确定性策略梯度控制方法 |
CN112198890B (zh) * | 2020-12-03 | 2021-04-13 | 中国科学院自动化研究所 | 基于强化学习的飞行器姿态控制方法、系统、装置 |
CN112698646B (zh) * | 2020-12-05 | 2022-09-13 | 西北工业大学 | 一种基于强化学习的航行器路径规划方法 |
CN114619907B (zh) * | 2020-12-14 | 2023-10-20 | 中国科学技术大学 | 基于分布式深度强化学习的协调充电方法及协调充电系统 |
CN112650058B (zh) * | 2020-12-23 | 2022-07-12 | 西北工业大学 | 一种基于强化学习的四旋翼无人机轨迹控制方法 |
CN112286218B (zh) * | 2020-12-29 | 2021-03-26 | 南京理工大学 | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 |
CN113093802B (zh) * | 2021-04-03 | 2022-08-02 | 西北工业大学 | 一种基于深度强化学习的无人机机动决策方法 |
CN113110547B (zh) * | 2021-04-21 | 2022-06-07 | 吉林大学 | 一种微型航空飞行器的飞行控制方法、装置及设备 |
CN113340324B (zh) * | 2021-05-27 | 2022-04-29 | 东南大学 | 一种基于深度确定性策略梯度的视觉惯性自校准方法 |
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
CN114020001A (zh) * | 2021-12-17 | 2022-02-08 | 中国科学院国家空间科学中心 | 基于深度确定性策略梯度学习的火星无人机智能控制方法 |
CN114675535B (zh) * | 2022-03-07 | 2024-04-02 | 大连理工大学 | 一种基于强化学习的航空发动机过渡态寻优控制方法 |
CN115097853B (zh) * | 2022-05-18 | 2023-07-07 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于细粒度重复策略的无人机机动飞行控制方法 |
CN114954840B (zh) * | 2022-05-30 | 2023-09-05 | 武汉理工大学 | 一种变稳船变稳控制方法、系统、装置及存储介质 |
CN115857556B (zh) * | 2023-01-30 | 2023-07-14 | 中国人民解放军96901部队 | 一种基于强化学习的无人飞行器协同探测规划方法 |
CN117707207B (zh) * | 2024-02-06 | 2024-04-19 | 中国民用航空飞行学院 | 基于深度强化学习的无人机对地目标跟踪与避障规划方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107479368A (zh) * | 2017-06-30 | 2017-12-15 | 北京百度网讯科技有限公司 | 一种基于人工智能的训练无人机控制模型的方法及系统 |
CN108427286A (zh) * | 2018-04-12 | 2018-08-21 | 合肥工业大学 | 用于强对抗环境下无人机深度决策的训练方法及训练网络 |
CN109445456A (zh) * | 2018-10-15 | 2019-03-08 | 清华大学 | 一种多无人机集群导航方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111045443B (zh) * | 2018-10-11 | 2021-07-02 | 北京航空航天大学 | 无人机通信网络移动控制方法、装置、设备及存储介质 |
-
2019
- 2019-10-22 CN CN201911002811.4A patent/CN110673620B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107479368A (zh) * | 2017-06-30 | 2017-12-15 | 北京百度网讯科技有限公司 | 一种基于人工智能的训练无人机控制模型的方法及系统 |
CN108427286A (zh) * | 2018-04-12 | 2018-08-21 | 合肥工业大学 | 用于强对抗环境下无人机深度决策的训练方法及训练网络 |
CN109445456A (zh) * | 2018-10-15 | 2019-03-08 | 清华大学 | 一种多无人机集群导航方法 |
Non-Patent Citations (5)
Title |
---|
Deep Reinforcement Learning Approach withMultiple Experience Pools for UAV’s AutonomousMotion Planning in Complex Unknown Environments;Zijian Hu 等;《MDPI》;20200329;全文 * |
Robust Motion Control for UAV in Dynamic Uncertain Environments Using Deep Reinforcement Learning;KaifangWan 等;《MDPI》;20200214;全文 * |
基于深度增强学习的四旋翼无人机控制方法研究;余伟;《CNKI》;20190501;全文 * |
基于深度强化学习的多机器人协同导航;周世正;《CNKI》;20190131;全文 * |
深度强化学习理论及其应用综述;万里鹏 等;《模式识别与人工智能》;20190131;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110673620A (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110673620B (zh) | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 | |
CN111667513B (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
CN111880567B (zh) | 基于深度强化学习的固定翼无人机编队协调控制方法及装置 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
Nie et al. | Three-dimensional path-following control of a robotic airship with reinforcement learning | |
Rosaldo-Serrano et al. | Observer-based time-varying backstepping control for a quadrotor multi-agent system | |
CN112650058B (zh) | 一种基于强化学习的四旋翼无人机轨迹控制方法 | |
CN114253296A (zh) | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 | |
CN113671825A (zh) | 一种基于强化学习的机动智能决策规避导弹方法 | |
Sarabakha et al. | Y6 tricopter autonomous evacuation in an indoor environment using Q-learning algorithm | |
Chowdhary et al. | Experimental results of concurrent learning adaptive controllers | |
Sun et al. | Aggressive quadrotor flight using curiosity-driven reinforcement learning | |
CN113110546A (zh) | 一种基于离线强化学习的无人机自主飞行控制方法 | |
Huang et al. | Attitude control of fixed-wing UAV based on DDQN | |
Wu et al. | Improved reinforcement learning using stability augmentation with application to quadrotor attitude control | |
İlhan et al. | Type-2 fuzzy based quadrotor control approach | |
dos Santos et al. | An experimental validation of reinforcement learning applied to the position control of UAVs | |
Aruneshwaran et al. | Neural adaptive flight controller for ducted-fan UAV performing nonlinear maneuver | |
Agarwal et al. | Improving energy efficiency in UAV attitude control using deep reinforcement learning | |
CN117215197A (zh) | 四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质 | |
Richter et al. | Using double deep q-learning to learn attitude control of fixed-wing aircraft | |
Shakev et al. | Continuous sliding mode control of a quadrotor | |
CN113741491A (zh) | 一种基于故障诊断结果的x型四旋翼无人机控制方法 | |
Yuan et al. | Distributed model predictive formation control for a group of uavs with newton-euler dynamics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |