CN111142383A - 一种非线性系统最优控制器的在线学习方法 - Google Patents
一种非线性系统最优控制器的在线学习方法 Download PDFInfo
- Publication number
- CN111142383A CN111142383A CN201911396754.2A CN201911396754A CN111142383A CN 111142383 A CN111142383 A CN 111142383A CN 201911396754 A CN201911396754 A CN 201911396754A CN 111142383 A CN111142383 A CN 111142383A
- Authority
- CN
- China
- Prior art keywords
- strategy
- learning
- network
- optimal controller
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
一种非线性系统最优控制器的在线学习方法,所述方法包括:获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;建立连续时间系统模型;定义目标函数;建立最优控制器;建立基于离策略学习的同步策略迭代算法;对最优控制器进行在线训练学习;将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。
Description
技术领域
本发明涉及一种非线性系统最优控制器的在线学习方法,尤其涉及一种
背景技术
在工程实践过程中,工程技术人员经常需要对机器人、飞行器等复杂非线性系统的控制器进行优化。从控制论和数学的角度来看,寻找非线性系统的最优控制器难度巨大,经典的动态规划方法往往会面临“维数灾”问题,即计算复杂度随着系统状态维数的增加呈指数增长。此外,获得最优控制器需要求解复杂的哈密顿-雅可比-贝尔曼方程(HJB方程),但HJB方程为非线性的偏微分方程,非常难求解。
近年来,强化学习技术正成为求解复杂非线性系统最优控制器的有力工具。强化学习是机器学习中除监督学习和非监督学习的第三类算法,其基本思想是采用不断试错的方法对最优控制器在线学习。Kyriakos G.Vamvoudakis和Frank L.Lewis在论文“Onlineactor–critic algorithm to solve the continuous-time infinite horizon optimalcontrol problem”中首次提出了一种新型的强化学习算法,即所谓的同步策略迭代,用于非线性仿射系统最优控制器的在线学习,其基本思想是利用两个神经网络,即执行网络和评价网络,分别对最优控制器和其对应的最优值函数进行近似,进而利用广义策略迭代的思想,在系统运行的过程中实时对两个神经网络进行训练。与传统强化学习方法相比,该方法无需在策略评估与策略提高之间反复迭代,而是在系统运行的过程中同步进行策略评估和策略提高,实现了真正意义上的在线学习。但是该方法仍存在以下问题和缺点:1)该方法属于在策略方法(on-policy),具有探索不足的问题,为提高算法对策略空间的探索能力,需要在执行网络的输出中加入一定的探索噪声,而探索噪声会引起一定的激励噪声偏差;2)该方法只适用于仿射系统,对于更一般的非仿射系统则不再适用。Bian Tao等人在论文“Adaptive dynamic programming and optimal control of nonlinear nonaffinesystems”提出了适用于一般非仿射系统的离策略(off-policy)强化学习方法,有效解决了同步策略迭代方法探索不足的问题,但该方法属于传统的策略迭代算法,无法实现对最优控制器的在线学习。总的来说,对于一般的非线性非仿射系统的最优控制问题,目前尚未提出可以实现实时在线学习的强化学习方法。
为克服现有同步策略迭代方法无法应用到一般的非线性非仿射系统以及同步策略迭代对策略空间探索不足的问题,本专利所要解决的技术问题包括:1、对于一般的非线性非仿射系统,提出一种可以对最优控制器进行实时在线学习的强化学习方法。2、采用离策略学习技术克服同步策略迭代方法对状态空间和策略空间探索不足的问题。
发明内容
针对现有技术的缺陷,本发明提出一种非线性系统最优控制器的在线学习方法。具体方案如下:
一种非线性系统最优控制器的在线学习方法,包括如下步骤:
S1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;
S2.建立连续时间系统模型:
x=f(x(t),u(t)),x(0)=x0
S3.定义目标函数:
式中,函数r:Rn×Rm→R为连续的正定函数;
S4.建立最优控制器,最优控制器u*满足如下的HJB方程:
最优控制器u*对应的值函数,即:
S5.建立基于离策略学习的同步策略迭代算法;
S6.对最优控制器进行在线训练学习;
S7.将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。
优选的,所述步骤S5包括下列步骤:
S51.行为策略设计,选择一个行为策略u并将其应用于系统以生成学习用到的状态x(t);
S52.同步策略评估,在时刻t,对于行为策略u(t)和由其生成的状态x(t),定义如下的Q-函数:
在上式的基础上采用时间差分学习方法对最优值函数V*进行估计,根据神经网络的通用近似定理,利用两个评价网络在Ω内对V*和Q-函数分别进行近似,其中,两个神经网络的激活函数的基分别为和N1和N2分别为两个神经网络隐藏层激活函数的个数。设V*和Q-函数的最优近似值分别为和其中,W1和W2分别为隐藏层到输出层的权重。由于W1和W2均未知,我们用W1(t)和W2(t)分别表示t时刻对W1和W2的估计,用和替换上式中的V*(x(t))和Q(x(t),u(t))可得如下的时间差分误差e(t):
e(t)=r(x(t),u(t))+W(t)Tσ(x(t),u(t))
采用归一化的梯度下降法对两个评价网络的权重W(t)进行调节:
其中,Φc(t)=(1+σT(x(t),u(t))σ(x(t),u(t)))2为评价网络的归一化项,α>0为评价网络的学习率;
S53.策略提高,利用其中一个评价网络的输出对策略进行改进,引入一个执行网络对最优控制器进行近似,其中,执行网络激活函数的构成的基为N3为隐藏层激活函数的个数,为u*的最优近似值,其中,W3为隐藏层到输出层的最优权重,用W3(t)表示t时刻对W3的估计值,用目标策略代替中的行为策略u(x(t))便得到接下来,利用重要性加权的方法对执行网络的权重进行调节:
其中,β>0为执行网络的学习率,Φa(t)=(1+σ3(x(t))Tσ3(x(t)))2为执行网络的归一化项,Ua(t)为执行网络在t时刻的目标值,Ua(t)=0;
当评价网络和执行网络的权重收敛后,算法结束。
本发明的非线性系统最优控制器的在线学习方法与以往的同步策略迭代方法相比,不仅适用于非线性仿射系统,同时也适用于更一般的非线性非仿射系统。由于采用了离策略学习技术,该方法对最优控制器具有更好的探索能力。与迭代式强化学习方法相比,该方法无需在策略评估和策略提高之间反复迭代,而是利用系统实时生成的状态数据对最优控制器进行在线学习。
附图说明
图1为用于近似最优值函数的评价网络结构。
图2为用于近似Q-函数的评价网络结构。
图3为用于近似最优控制器的执行网络结构。
具体实施方式
一种非线性系统最优控制器的在线学习方法,包括如下步骤:
S1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统。
S2.建立连续时间系统模型:
x=f(x(t),u(t)),x(0)=x0
S3.定义目标函数:
式中,函数r:Rn×Rm→R为连续的正定函数。
S4.建立最优控制器,最优控制器u*满足如下的HJB方程:
S5.建立基于离策略学习的同步策略迭代算法。在基于离策略学习的同步策略迭代算法中,学习过程中用到的所有状态数据均由行为策略u产生,为了确保算法对策略空间具有一定的探测能力,行为策略产生的状态数据需要足够丰富并满足一定的持续激励条件,以确保算法的收敛性。本发明中行为策略为:u(x(t))=u(x(t))+n(t),其中u为任意的一个可行控制策略,通常根据被控系统的特征和经验选择,n(t)为探索噪声,n(t)可以是包含足够多频率的正弦、余弦信号或者幅值有限的随机信号。
S6.对最优控制器进行在线训练学习。
S7.将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。
优选的,所述步骤S5包括下列步骤:
S51.行为策略设计,选择一个行为策略u并将其应用于系统以生成学习用到的状态x(t);
S52.同步策略评估,在时刻t,对于行为策略u(t)和由其生成的状态x(t),定义如下的Q-函数:
在上式的基础上采用时间差分学习方法对最优值函数V*进行估计,根据神经网络的通用近似定理,参见附图1、附图2,利用两个评价网络在Ω内对V*和Q-函数分别进行近似,其中,两个神经网络的激活函数的基分别为和N1和N2分别为两个神经网络隐藏层激活函数的个数。设V*和Q-函数的最优近似值分别为和其中,W1和W2分别为隐藏层到输出层的权重。由于W1和W2均未知,我们用W1(t)和W2(t)分别表示t时刻对W1和W2的估计,用和替换上式中的V*(x(t))和Q(x(t),u(t))可得如下的时间差分误差e(t):
e(t)=r(x(t),u(t))+W(t)Tσ(x(t),u(t))
采用归一化的梯度下降法对两个评价网络的权重W(t)进行调节:
其中,Φc(t)=(1+σT(x(t),u(t))σ(x(t),u(t)))2为评价网络的归一化项,α>0为评价网络的学习率;
S53.策略提高,利用其中一个评价网络的输出对策略进行改进,参见附图3,引入一个执行网络对最优控制器进行近似,其中,执行网络激活函数的构成的基为N3为隐藏层激活函数的个数,为u*的最优近似值,其中,W3为隐藏层到输出层的最优权重,用W3(t)表示t时刻对W3的估计值,用目标策略代替中的行为策略u(x(t))便得到接下来,利用重要性加权的方法对执行网络的权重进行调节:
其中,β>0为执行网络的学习率,Φa(t)=(1+σ3(x(t))Tσ3(x(t)))2为执行网络的归一化项,Ua(t)为执行网络在t时刻的目标值,Ua(t)=0。
当评价网络和执行网络的权重收敛后,算法结束。
算法中的两个评价网络和一个执行网络均采用具有单隐藏层的感知器模型,其中,用于近似Q-函数的评价网络的输入为状态和控制输入,用于近似最优值函数的评价网络的输入为状态,二者的输出均为标量。执行网络的输入同样为系统状态,其输出为多维向量。在学习的过程中,三个神经网络均只调节隐藏层到输出层的权重,输入层到隐藏层的权重在学习过程开始之前随机生成,在学习的过程中保持不变。三个神经网络隐藏层的激活函数可以选择为常用的双曲正切函数、Sigmoid函数、线性整流器、多项式函数等。
评价网络和执行网络也可以选为具有多个隐藏层的前馈神经网络,在学习的过程中也可以调节所有连接的权重,本专利选择具有单个隐藏层的神经网络并且仅调节隐藏层到输出层的权重主要是为了计算方便。评价网络的学习率和执行网络的学习率通常选择0到1之间的一个较小的正数。此外,三个神经网络隐藏层到输出层的初始权重可随机生成。
本发明通过上述实施例来说明本发明的详细过程和组成,但是本发明并不局限于上述详细过程和组成。本领域的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。
Claims (3)
1.一种非线性系统最优控制器的在线学习方法,其特征在于包括如下步骤:
S1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;
S2.建立连续时间系统模型:
x=f(x(t),u(t)),x(0)=x0
S3.定义目标函数:
式中,函数r:Rn×Rm→R为连续的正定函数;
S4.建立最优控制器,最优控制器u*满足如下的HJB方程:
S5.建立基于离策略学习的同步策略迭代算法;
S6.对最优控制器进行在线训练学习;
S7.将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。
2.根据权利要求1所述的非线性系统最优控制器的在线学习方法,其特征在于,所述步骤S5包括下列步骤:
S51.行为策略设计,选择一个行为策略u并将其应用于系统以生成学习用到的状态x(t);
S52.同步策略评估,在时刻t,对于行为策略u(t)和由其生成的状态x(t),定义如下的Q-函数:
在上式的基础上采用时间差分学习方法对最优值函数V*进行估计,根据神经网络的通用近似定理,利用两个评价网络在Ω内对V*和Q-函数分别进行近似,其中,两个神经网络的激活函数的基分别为和N1和N2分别为两个神经网络隐藏层激活函数的个数。设V*和Q-函数的最优近似值分别为和其中,W1和W2分别为隐藏层到输出层的权重。由于W1和W2均未知,我们用W1(t)和W2(t)分别表示t时刻对W1和W2的估计,用和替换上式中的V*(x(t))和Q(x(t),u(t))可得如下的时间差分误差e(t):
e(t)=r(x(t),u(t))+W(t)Tσ(x(t),u(t))
采用归一化的梯度下降法对两个评价网络的权重W(t)进行调节:
其中,Φc(t)=(1+σT(x(t),u(t))σ(x(t),u(t)))2为评价网络的归一化项,α>0为评价网络的学习率;
S53.策略提高,利用其中一个评价网络的输出对策略进行改进,引入一个执行网络对最优控制器进行近似,其中,执行网络激活函数的构成的基为N3为隐藏层激活函数的个数,为u*的最优近似值,其中,W3为隐藏层到输出层的最优权重,用W3(t)表示t时刻对W3的估计值,用目标策略代替中的行为策略u(x(t))便得到接下来,利用重要性加权的方法对执行网络的权重进行调节:
其中,β>0为执行网络的学习率,Φa(t)=(1+σ3(x(t))Tσ3(x(t)))2为执行网络的归一化项,Ua(t)为执行网络在t时刻的目标值,Ua(t)=0;
当评价网络和执行网络的权重收敛后,算法结束。
3.根据权利要求2所述的非线性系统最优控制器的在线学习方法,其特征在于,所述评价网络和执行网络为具有单个隐藏层的前馈神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911396754.2A CN111142383B (zh) | 2019-12-30 | 2019-12-30 | 一种非线性系统最优控制器的在线学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911396754.2A CN111142383B (zh) | 2019-12-30 | 2019-12-30 | 一种非线性系统最优控制器的在线学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111142383A true CN111142383A (zh) | 2020-05-12 |
CN111142383B CN111142383B (zh) | 2022-09-23 |
Family
ID=70521843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911396754.2A Active CN111142383B (zh) | 2019-12-30 | 2019-12-30 | 一种非线性系统最优控制器的在线学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111142383B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112947430A (zh) * | 2021-02-03 | 2021-06-11 | 浙江工业大学 | 一种移动机器人的智能轨迹跟踪控制方法 |
CN113485099A (zh) * | 2020-12-31 | 2021-10-08 | 中国电子科技集团公司信息科学研究院 | 一种非线性离散时间系统的在线学习控制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324085A (zh) * | 2013-06-09 | 2013-09-25 | 中国科学院自动化研究所 | 基于监督式强化学习的最优控制方法 |
CN110502034A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
-
2019
- 2019-12-30 CN CN201911396754.2A patent/CN111142383B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324085A (zh) * | 2013-06-09 | 2013-09-25 | 中国科学院自动化研究所 | 基于监督式强化学习的最优控制方法 |
CN110502034A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
Non-Patent Citations (2)
Title |
---|
DERONG LIU等: "Decentralized Stabilization for a Class of Continuous-Time Nonlinear Interconnected Systems Using Online Learning Optimal Control Approach", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
XINING LI等: "Off-policy Q-learning for Infinite Horizon LQR Problem with Unknown Dynamics", 《2018 IEEE 27TH INTERNATIONAL SYMPOSIUM ON INDUSTRIAL ELECTRONICS(ISIE)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113485099A (zh) * | 2020-12-31 | 2021-10-08 | 中国电子科技集团公司信息科学研究院 | 一种非线性离散时间系统的在线学习控制方法 |
CN113485099B (zh) * | 2020-12-31 | 2023-09-22 | 中国电子科技集团公司信息科学研究院 | 一种非线性离散时间系统的在线学习控制方法 |
CN112947430A (zh) * | 2021-02-03 | 2021-06-11 | 浙江工业大学 | 一种移动机器人的智能轨迹跟踪控制方法 |
CN112947430B (zh) * | 2021-02-03 | 2022-07-15 | 浙江工业大学 | 一种移动机器人的智能轨迹跟踪控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111142383B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alimi et al. | Finite-time and fixed-time synchronization of a class of inertial neural networks with multi-proportional delays and its application to secure communication | |
Wang et al. | Neural network disturbance observer-based distributed finite-time formation tracking control for multiple unmanned helicopters | |
Wang et al. | Adaptive dynamic surface control for cooperative path following of marine surface vehicles with input saturation | |
Tang et al. | Exponential synchronization of inertial neural networks with mixed time-varying delays via periodically intermittent control | |
Zhang et al. | Adaptive neural tracking control of pure-feedback nonlinear systems with unknown gain signs and unmodeled dynamics | |
CN107422741B (zh) | 基于学习的保预设性能集群飞行分布式姿态追踪控制方法 | |
Liu et al. | Adaptive neural network control with optimal number of hidden nodes for trajectory tracking of robot manipulators | |
Yang et al. | Formation control of multiple underwater vehicles subject to communication faults and uncertainties | |
Cui et al. | Adaptive decentralized NN control of large-scale stochastic nonlinear time-delay systems with unknown dead-zone inputs | |
CN111142383B (zh) | 一种非线性系统最优控制器的在线学习方法 | |
CN111176122B (zh) | 一种基于双bp神经网络q学习技术的水下机器人参数自适应反步控制方法 | |
CN111880412B (zh) | 基于单评判网络的可重构机器人零和神经最优控制方法 | |
Shi et al. | Actor-critic-based predefined-time control for spacecraft attitude formation system with guaranteeing prescribed performance on SO (3) | |
Du et al. | Adaptive functional link network control of near-space vehicles with dynamical uncertainties | |
Ramezani et al. | Neuro-adaptive backstepping control of SISO non-affine systems with unknown gain sign | |
US6000827A (en) | System identifying device and adaptive learning control device | |
Wang et al. | Adaptive neural finite-time containment control for nonlower triangular nonlinear multi-agent systems with dynamics uncertainties | |
Tong et al. | Adaptive fuzzy decentralized control for stochastic large-scale nonlinear systems with unknown dead-zone and unmodeled dynamics | |
Fu et al. | A cross‐coupling control approach for coordinated formation of surface vessels with uncertain disturbances | |
Wang et al. | Guaranteed cost spacecraft attitude stabilization under actuator misalignments using linear partial differential equations | |
Liu et al. | Robust adaptive self-Structuring neural network bounded target tracking control of underactuated surface vessels | |
CN113485099B (zh) | 一种非线性离散时间系统的在线学习控制方法 | |
Ji | Adaptive neural network dynamic surface control for perturbed nonlinear time-delay systems | |
Xu et al. | A general motion control framework for an autonomous underwater vehicle through deep reinforcement learning and disturbance observers | |
CN114638076A (zh) | 一种基于物理神经网络的流体拓扑优化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |