CN112148025A - 一种基于积分补偿强化学习的无人飞行器稳定控制算法 - Google Patents
一种基于积分补偿强化学习的无人飞行器稳定控制算法 Download PDFInfo
- Publication number
- CN112148025A CN112148025A CN202011014279.0A CN202011014279A CN112148025A CN 112148025 A CN112148025 A CN 112148025A CN 202011014279 A CN202011014279 A CN 202011014279A CN 112148025 A CN112148025 A CN 112148025A
- Authority
- CN
- China
- Prior art keywords
- strategy
- state
- aerial vehicle
- unmanned aerial
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 21
- 230000002787 reinforcement Effects 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 13
- 238000011217 control strategy Methods 0.000 claims abstract description 12
- 238000004088 simulation Methods 0.000 claims abstract description 11
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 claims abstract description 7
- 230000008901 benefit Effects 0.000 claims abstract description 5
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 230000009191 jumping Effects 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于积分补偿强化学习的无人飞行器稳定控制算法,通过模型参数设定、期望速度设定、初始化、策略网络,最终查看是否收敛,通过离线仿真阶段和在线实际飞行阶段的学习训练,策略不断迭代更新,最终通过对飞行器的速度实时跟踪实现精确稳定的飞行控制策略的构建。本发明实现了无人飞行系统稳定安全的飞行控制策略,并且针对速度跟踪上存在稳态误差问题,通过提出状态积分补偿器处理状态向量里的速度误差分量,来降低速度跟踪的稳态误差,具有创新性,并且该算法适应的范围较广,在无人飞行系统的姿态控制存在稳态误差问题上同样适用,有良好的经济效益和社会效益,适合推广使用。
Description
技术领域
本发明属于无人飞行器控制领域,具体涉及一种基于积分补偿强化学习的无人飞行器稳定控制算法。
背景技术
过去几十年里,我国无人飞行机技术的快速发展得到了广泛关注,并在农业领域,工业检查和海洋搜救等领域发挥巨大作用。这导致对无人飞行器的大量研究,并在实际中得到应用,虽然其结构简单,但仍然存在很多问题。第一,飞行器的实时控制意味着数据的实时采集和计算,这需要很高时间灵敏度的传感器和先进计算设备。第二,飞行过程需要应对各种复杂恶劣的环境以及可能出现的故障。第三,无人飞行器是个高度非线性、多输入多输出的欠耦合系统,而且会包含大量的未建模动态和非线性外部扰动。
为了解决这些问题,设计出一种具有抗干扰能力控制算法,保证无人飞行器的安全稳定运行,现有的方法是比例-积分-微分(PID)控制算法,PID控制算法是实际应用中常见的控制方法,在许多研究中PID算法作为基线控制算法。但是由于抗干扰依赖于其积分项,当干扰不恒定时,控制精度非常差,只有在受到影响后才能抑制干扰,而且实现无人机的高精度控制也越来越困难,且PID的增益选择也是经过反复试验的,难以满足动态性能要求。
发明内容
为解决上述问题,本发明公开了一种基于动作器-评判器的深度强化学习算法框架实现无人飞行器控制,并在评判器里引入状态积分补偿器,以通过对误差状态积分来减少稳态误差,提高了无人飞行器速度跟踪控制的准确性和控制器的鲁棒性。策略训练阶段采用在线和离线的双阶段学习模式来训练控制策略,在离线阶段,通过仿真来训练简化无人飞行器模型以取得鲁棒性能良好的控制器,在在线阶段,通过实际场景中训练真正的无人飞行器模型,并不断优化控制策略最终实现稳定高精度的飞行控制策略器。
为达到上述目的,本发明的技术方案如下:
一种基于积分补偿强化学习的无人飞行器稳定控制算法(PPOIS),包括以下步骤:
步骤A:在离线仿真阶段,无人飞行器模型各参数初始化,建立简化动力学方程;
步骤B:每轮实验迭代开始时随机初始化一个期望速度[xe,ye,ze]作为训练目标;
步骤D:观测无人飞行器状态向量St,批量的状态向量作为神经网络输入,其中xΔ,yΔ,zΔ表示各个轴向实际速度与期望速度之差,神经网络输出一个高斯分布,依概率采样一个值并归一化到[0,1]区间作为电机转子的PWM信号ai(i=1,2,...N),N个转子的PWM信号组成一组策略向量at=[a1,a2,...,aN];
步骤F:策略at作用于飞行器上,进入新的状态St+1,如果St+1是安全域以内的状态则跳到步骤G,如果状态St+1偏离安全域,则跳回步骤C重新采集;
步骤I:抽取这E批的轨迹样本数据出来,计算每个轨迹样本的优势函数At=∑t′>tγt′-trt′-Vυ(st),其中Vυ(st)是由评估网络生成的状态值函数;
步骤J:以当前的策略网络给出的策略为基准,迭代更新策略网络的参数ω来取得性能更好的策略,策略参数更新约束方程为:
Jppo(ω)=Et[min(rt(ω)At,clip(rt(ω),1-ε,1+ε)At)]
其中比率rt(ω)∈[0,1],表示在同样状态动作对时,待训练更新的策略和当前策略的差异比值;
步骤K:根据这E批量轨迹样本,迭代更新评估网络的参数υ,评估参数更新约束方程:
步骤L:循环步骤C至步骤K,直到策略网络和评估网络的参数最终收敛;
步骤M:循环步骤B和步骤L,直到算法完成收敛,此时控制策略具有较强鲁棒性和稳定性,离线阶段的训练过程结束;
步骤N:将离线仿真阶段训练结束后的策略参数迁移到在线实际飞行阶段作为初始策略参数,在线阶段的飞行器模型是完整模型,建立完整动力学方程;
步骤O:在线阶段过程中,以离线阶段学习到的策略为基准,继续优化策略参数,如果在现阶段飞行器进入受限不安全状态,立即切换到离线策略以保证飞行器继续安全稳定飞行;
步骤P:通过离线仿真阶段和在线实际飞行阶段的学习训练,策略不断迭代更新,最终通过对飞行器的速度实时跟踪实现精确稳定的飞行控制策略的构建。
本发明的有益效果是:
本发明提出了一种基于状态积分补偿的近端策略优化控制算法(PPOIS),实现了无人飞行系统稳定安全的飞行控制策略,并且针对速度跟踪上存在稳态误差问题,通过提出状态积分补偿器处理状态向量里的速度误差分量,来降低速度跟踪的稳态误差,具有创新性,并且该算法适应的范围较广,在无人飞行系统的姿态控制存在稳态误差问题上同样适用,有良好的经济效益和社会效益,适合推广使用。
附图说明
图1为基于状态积分补偿的近端策略优化控制算法PPOIS算法流程图。
图2为四旋翼飞行器模型框架图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1
对于典型的无人飞行系统四旋翼飞行器,模型结构如附图1,算法步骤实施如下:
步骤A:在离线仿真阶段,无人飞行器模型各参数初始化,以及动力学简化模型方程描述如下
z=(Mzcosφcosθ-mg)/m,
其中x,y,z分别表示无人飞行器X,Y,Z三个轴向的位移,φ,θ,分别表示三个轴向姿态角,tφ,tθ,表示三个轴向阻力系数,m是质量,κφ,κθ,分别是绕X,Y,Z轴的控制转矩,I=diag(Ix,Iy,Iz)是对角惯性矩阵,Ix,Iy,Iz是三个轴向的分量,是由四个转子产生的相对于机架的向上升力总和;
步骤B:每轮实验迭代开始时随机初始化一个期望速度[xe,ye,ze]作为训练目标;
步骤D:观测无人飞行器状态向量St,批量的状态向量作为神经网络输入,其中xΔ,yΔ,zΔ表示各个轴向实际速度与期望速度之差,每个神经网络输出一个高斯分布,依概率采样一个值并归一化到[0,1]区间作为电机转子的PWM信号ai(i=1,2,3,4),四个转子PWM信号组成一组策略向量at=[a1,a2,a3,a4];
步骤F:策略at作用于飞行器上,进入新的状态St+1,如果St+1是安全域以内的状态则跳到步骤F,如果状态St+1偏离安全域,则跳回步骤C重新采集;
步骤J:以当前的策略网络给出的策略为基准,迭代更新策略网络的参数ω来取得性能更好的策略,策略参数更新约束方程为:
其中比率rt(ω)∈[0,1],表示要在同样状态动作时,待训练更新的策略和当前策略的差异;
步骤K:根据这E批量轨迹样本,迭代更新评估网络的参数υ,评估参数更新约束方程:
步骤L:循环步骤C至步骤K,直到策略网络和评估网络的参数最终收敛;
步骤M:循环步骤B和步骤L,直到算法完成收敛,此时控制策略具有较强鲁棒性和稳定性,离线阶段的训练过程结束;
步骤N:将离线仿真阶段训练结束后的策略参数迁移到在线实际飞行阶段作为初始策略参数,在线阶段的飞行器模型是完整模型,动力学方程描述如下
z=(Mzcosφcosθ-tzz-mg)/m,
其中x,y,z分别表示无人飞行器X,Y,Z三个轴向的位移,φ,θ,分别表示三个轴向姿态角,tφ,tθ,表示三个轴向阻力系数,m是质量,κφ,κθ,分别是绕X,Y,Z轴的控制转矩,Ip是每个转子的惯性矩,ζ是每个转子产生的干扰效应,I=diag(Ix,Iy,Iz)是对角惯性矩阵,Ix,Iy,Iz是三个轴向的分量,是由四个转子产生的相对于机架的向上升力总和;
步骤O:在线阶段过程中,以离线阶段学习到的策略为基准,继续优化策略参数如果在现阶段飞行器进入受限不安全状态,立即切换到离线策略以保证飞行器继续安全稳定飞行;
步骤P:通过离线仿真阶段和在线实际飞行阶段的学习训练,策略不断迭代更新,最终通过对飞行器的速度实时跟踪实现精确稳定的飞行控制策略的构建。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。
Claims (3)
1.一种基于积分补偿强化学习的无人飞行器稳定控制算法,其特征在于:包括以下步骤:
步骤A:在离线仿真阶段,无人飞行器模型各参数初始化,建立简化动力学方程;
步骤B:每轮实验迭代开始时随机初始化一个期望速度[xe,ye,ze]作为训练目标;
步骤D:观测无人飞行器状态向量St,批量的状态向量作为神经网络输入,其中xΔ,yΔ,zΔ表示各个轴向实际速度与期望速度之差,神经网络输出一个高斯分布,依概率采样一个值并归一化到[0,1]区间作为电机转子的PWM信号ai(i=1,2,...N),N个转子的PWM信号组成一组策略向量at=[a1,a2,...,aN];
步骤F:策略at作用于飞行器上,进入新的状态St+1,如果St+1是安全域以内的状态则跳到步骤G,如果状态St+1偏离安全域,则跳回步骤C重新采集;
步骤I:抽取这E批的轨迹样本数据出来,计算每个轨迹样本的优势函数At=∑t′>tγt′- trt′-Vυ(st),其中Vυ(st)是由评估网络生成的状态值函数;
步骤J:以当前的策略网络给出的策略为基准,迭代更新策略网络的参数ω来取得性能更好的策略,策略参数更新约束方程为:
Jppo(ω)=Et[min(rt(ω)At,clip(rt(ω),1-ε,1+ε)At)]
其中比率rt(ω)∈[0,1],表示在同样状态动作对时,待训练更新的策略和当前策略的差异比值;
步骤K:根据这E批量轨迹样本,迭代更新评估网络的参数υ,评估参数更新约束方程:
步骤L:循环步骤C至步骤K,直到策略网络和评估网络的参数最终收敛;
步骤M:循环步骤B和步骤L,直到算法完成收敛,此时控制策略具有较强鲁棒性和稳定性,离线阶段的训练过程结束;
步骤N:将离线仿真阶段训练结束后的策略参数迁移到在线实际飞行阶段作为初始策略参数,在线阶段的飞行器模型是完整模型,建立完整动力学方程;
步骤O:在线阶段过程中,以离线阶段学习到的策略为基准,继续优化策略参数,如果在现阶段飞行器进入受限不安全状态,立即切换到离线策略使飞行器继续安全稳定飞行;
步骤P:通过离线仿真阶段和在线实际飞行阶段的学习训练,策略不断迭代更新,最终通过对飞行器的速度实时跟踪实现精确稳定的飞行控制策略的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011014279.0A CN112148025A (zh) | 2020-09-24 | 2020-09-24 | 一种基于积分补偿强化学习的无人飞行器稳定控制算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011014279.0A CN112148025A (zh) | 2020-09-24 | 2020-09-24 | 一种基于积分补偿强化学习的无人飞行器稳定控制算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112148025A true CN112148025A (zh) | 2020-12-29 |
Family
ID=73896550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011014279.0A Pending CN112148025A (zh) | 2020-09-24 | 2020-09-24 | 一种基于积分补偿强化学习的无人飞行器稳定控制算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148025A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112904890A (zh) * | 2021-01-15 | 2021-06-04 | 北京国网富达科技发展有限责任公司 | 一种电力线路的无人机自动巡检系统及方法 |
CN113050418A (zh) * | 2021-03-02 | 2021-06-29 | 山东罗滨逊物流有限公司 | 自适应增益调度人工智能控制方法 |
CN113721655A (zh) * | 2021-08-26 | 2021-11-30 | 南京大学 | 一种控制周期自适应的强化学习无人机稳定飞行控制方法 |
CN114707410A (zh) * | 2022-04-02 | 2022-07-05 | 郑州铁路职业技术学院 | 具有强化补偿能力的铁路轨道高低不平顺诊断方法及系统 |
CN115057006A (zh) * | 2022-06-15 | 2022-09-16 | 中国科学院软件研究所 | 一种基于强化学习的蒸馏策略评估的方法、装置及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050033489A1 (en) * | 2003-08-08 | 2005-02-10 | Fuji Jukogyo Kabushiki Kaisha | Landing-control device and landing-control method for aircraft |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN110018687A (zh) * | 2019-04-09 | 2019-07-16 | 大连海事大学 | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 |
CN110806759A (zh) * | 2019-11-12 | 2020-02-18 | 清华大学 | 一种基于深度强化学习的飞行器航线跟踪方法 |
-
2020
- 2020-09-24 CN CN202011014279.0A patent/CN112148025A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050033489A1 (en) * | 2003-08-08 | 2005-02-10 | Fuji Jukogyo Kabushiki Kaisha | Landing-control device and landing-control method for aircraft |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN110018687A (zh) * | 2019-04-09 | 2019-07-16 | 大连海事大学 | 基于强化学习方法的无人水面船最优轨迹跟踪控制方法 |
CN110806759A (zh) * | 2019-11-12 | 2020-02-18 | 清华大学 | 一种基于深度强化学习的飞行器航线跟踪方法 |
Non-Patent Citations (1)
Title |
---|
HUAN HU: "Proximal policy optimization with an integral compensator for quadrotor control", 《FRONTIERS OF INFORMATION TECHNOLOGY & ELECTRONIC ENGINEERING》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112904890A (zh) * | 2021-01-15 | 2021-06-04 | 北京国网富达科技发展有限责任公司 | 一种电力线路的无人机自动巡检系统及方法 |
CN113050418A (zh) * | 2021-03-02 | 2021-06-29 | 山东罗滨逊物流有限公司 | 自适应增益调度人工智能控制方法 |
CN113721655A (zh) * | 2021-08-26 | 2021-11-30 | 南京大学 | 一种控制周期自适应的强化学习无人机稳定飞行控制方法 |
CN114707410A (zh) * | 2022-04-02 | 2022-07-05 | 郑州铁路职业技术学院 | 具有强化补偿能力的铁路轨道高低不平顺诊断方法及系统 |
CN115057006A (zh) * | 2022-06-15 | 2022-09-16 | 中国科学院软件研究所 | 一种基于强化学习的蒸馏策略评估的方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112148025A (zh) | 一种基于积分补偿强化学习的无人飞行器稳定控制算法 | |
Cheng et al. | Fixed-time fault-tolerant formation control for heterogeneous multi-agent systems with parameter uncertainties and disturbances | |
Sun et al. | Fixed-time sliding mode disturbance observer-based nonsmooth backstepping control for hypersonic vehicles | |
CN110488606B (zh) | 一种多四旋翼主从式保性能神经自适应协同编队控制方法 | |
Liu et al. | Tracking control of small-scale helicopters using explicit nonlinear MPC augmented with disturbance observers | |
CN107357166B (zh) | 小型无人直升机的无模型自适应鲁棒控制方法 | |
Li et al. | Robust tracking control strategy for a quadrotor using RPD-SMC and RISE | |
Cui et al. | Adaptive super-twisting trajectory tracking control for an unmanned aerial vehicle under gust winds | |
CN103760905B (zh) | 基于模糊前馈单旋翼无人直升机姿态非线性鲁棒控制方法 | |
CN105607473B (zh) | 小型无人直升机的姿态误差快速收敛自适应控制方法 | |
CN109460050B (zh) | 一种针对变体无人机的复合分层抗干扰控制方法 | |
Zhu et al. | Robust attitude control of a 3-DOF helicopter considering actuator saturation | |
CN112631316B (zh) | 变负载四旋翼无人机的有限时间控制方法 | |
CN106681345A (zh) | 基于人群搜索算法的无人机自抗扰控制方法 | |
Gong et al. | Distributed adaptive fault-tolerant formation–containment control with prescribed performance for heterogeneous multiagent systems | |
CN115220472B (zh) | 一种切换拓扑下空-地异构编队系统的容错控制方法 | |
Liu et al. | Observer-based linear parameter varying control design with unmeasurable varying parameters under sensor faults for quad-tilt rotor unmanned aerial vehicle | |
Li et al. | Anti-disturbance control for attitude and altitude systems of the helicopter under random disturbances | |
Flores et al. | Output feedback control for a quadrotor aircraft using an adaptive high gain observer | |
Raza et al. | Robust output feedback control of fixed-wing aircraft | |
Mu et al. | Formation control strategy for underactuated unmanned surface vehicles subject to unknown dynamics and external disturbances with input saturation | |
Zou et al. | Robust neural network trajectory-tracking control of underactuated surface vehicles considering uncertainties and unmeasurable velocities | |
Huang et al. | Datt: Deep adaptive trajectory tracking for quadrotor control | |
Enjiao et al. | Finite-time control of formation system for multiple flight vehicles subject to actuator saturation | |
Michailidis et al. | Robust nonlinear control of the longitudinal flight dynamics of a circulation control fixed wing UAV |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201229 |