CN103399488A - 基于自学习的多模型控制方法 - Google Patents

基于自学习的多模型控制方法 Download PDF

Info

Publication number
CN103399488A
CN103399488A CN2013103282908A CN201310328290A CN103399488A CN 103399488 A CN103399488 A CN 103399488A CN 2013103282908 A CN2013103282908 A CN 2013103282908A CN 201310328290 A CN201310328290 A CN 201310328290A CN 103399488 A CN103399488 A CN 103399488A
Authority
CN
China
Prior art keywords
model
output
state
control method
partiald
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013103282908A
Other languages
English (en)
Other versions
CN103399488B (zh
Inventor
徐昕
杨慧媛
郭琦
黄振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201310328290.8A priority Critical patent/CN103399488B/zh
Publication of CN103399488A publication Critical patent/CN103399488A/zh
Application granted granted Critical
Publication of CN103399488B publication Critical patent/CN103399488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于自学习的多模型控制方法,步骤为:(1)构建模型库,由非线性模型的一组局部模型组成;(2)构建一组控制器,根据模型库中的局部模型设计出来一组局部控制器;(3)执行性能评测:观察输出误差以及系统输出y和模型输出yi之间的差异;基于这些信号,一个性能反馈或者价值函数将被计算出并送到API模块;(4)执行近似策略迭代算法:观察性能反馈信号,接收参考输出和系统输出之间的误差信号,这些信号将作为Markov决策过程的状态,同时状态反馈将成为增强学习的回报信号。本发明具有原理简单、适应范围广、可靠性强、能够保证控制的一般性能以及收敛性等优点。

Description

基于自学习的多模型控制方法
技术领域
本发明主要涉及到复杂非线性系统的控制领域,特指一种基于自学习的多模型控制方法,它是利用增强学习和近似动态规划思想来实现多个控制器之间的最优转换,因此属于一种多模型自学习转换控制方法。
背景技术
随着现代工业和技术的发展,工程系统装置的复杂程度正具有着一个平稳上升的趋势。更重要的是,这一趋势在很大程度上强调了对于一种方法需求:那就是可以帮助工程技术人员更好地理解和演绎复杂模型以及完成控制任务的实用方法。
几十年来,尽管已经出现了很多关于解决复杂非线性模型的研究,但是在这些研究中提出的高级模型和先进控制方法并没有被广泛地用于解决实际问题。其困难就在于以下两个方面:一是由于这些方法复杂难懂,需要大量的理论知识;二是由于这些方法仍对控制模型的表述具有很强的要求,但同时可利用的精确系统知识却很少。
正是因为上述两项困难,近年来关于多模型的控制方法研究才受到了越来越多人的关注。现今主要的一些多模型研究方法是拆分系统的工作范围,从而解决复杂的非线性建模以及控制问题。此方法的原理是:对于局部模型之间所出现的相关现象的交互要比全局模型来的简单得多,因此,局部模型更加的简单,并且局部模型的建立方法还具有诸如更好的理解性、更少的计算复杂性以及更多的包含先验知识等优势。
正因为上述这些优势的存在,这一领域已经投入了大量的研究工作,并且也取得了一定的成果。到目前为止,现有的多模型控制方法可被分为许多种,其中主要包括增益调度控制(gain scheduling control)、多模型自适应控制(multiple model adaptive control,MMAC)和多模型预测控制(multiple model predictive control)。从传统意义上来讲,增益调度控制是实际运用中最普遍的对于严重非线性系统的控制方法。但是,这种控制方式所表现出的瞬态特性却不是很好。与增益调度控制关系密切的多模型预测控制或者监督控制,它们与增益调度控制最主要的区别就在于运用了一个基于调度算法的估计器。而多模型自适应控制方法提出的主要动机就是要在不增加系统稳态噪声灵敏度的基础上提高它的瞬态特性。MMAC方法最早是被用于解决线性系统的控制问题,但近些年来,由于非线性模型的预测控制被广泛关注,MMAC方法才被延伸用于对非线性系统进行控制。而当今对于非线性系统多模型预测控制方法的进一步推进,则是出现了多模型的动态矩阵控制方式,它除了具有先进的理论意义之外,还有成功的应用案例。
不同于局部控制器已有的成熟设计方法,对于多模型之间的转换策略问题并没有被很好的研究,而且可用于进行设计的控制工具也非常短缺。现有的例如增益调度控制,其转换策略是基于模糊逻辑或者是内插法。此方法的最大缺陷就是自主优化能力和瞬态性能都不是很能令人满意。而另一种多模型自适应控制方法,它的转换策略是基于由估计误差驱动的微小监控信号。虽然这种方法能在一定程度上提高系统的瞬态性能,但是当有未知干扰存在时,系统反馈缺乏鲁棒性,当然,这也是自适应方法存在的通病。
发明内容
本发明要解决的技术问题在于:针对现有技术存在的技术问题,本发明提供一种原理简单、适应范围广、可靠性强、能够保证控制的一般性能以及收敛性的基于自学习的多模型控制方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于自学习的多模型控制方法,其步骤为:
(1)构建模型库,由非线性模型的一组局部模型组成;
(2)构建一组控制器,根据模型库中的局部模型设计出来一组局部控制器;
(3)执行性能评测:观察输出误差以及系统输出y和模型输出yi之间的差异;基于这些信号,一个性能反馈或者价值函数将被计算出并送到API模块;一个基于实际输出与预期输出误差的价值函数被定义为r(t)=R[|e(t)|]=R[|ysp-y(t)|],其中R为非负的函数并且关于|e(t)|单调递减;
(4)执行近似策略迭代算法:观察性能反馈信号,接收参考输出和系统输出之间的误差信号,这些信号将作为Markov决策过程的状态,同时状态反馈将成为增强学习的回报信号。
作为本发明的进一步改进:
所述步骤(1)中,构建模型库的流程为:
模型组由n个局部模型组成:
Σ c : x · = f i ( x , u , t ) , i = 1,2 , . . . , n ;
或者是其离散时间形式:
d=x(t)=fi(x(t-1),...,x(t-n),u(t-1),...,u(t-m-1));
线性模型为:
x · = A i x + B i u
离散时间的局部线性模型为:
Ai(z-1)x(t)=z-1Bi(z-1)u(t)+d
其中:
Ai(z-1)=1+ai1z-1+…+ainz-n,Bi(z-1)=bi0+bi1z-1+…+bimz-m
d i = ( Σ j = 1 n a ij ) y i 0 - ( Σ k = 0 m b ik ) u i 0
a ij = - ∂ f ∂ x ( t - j ) | ( u i 0 , y i 0 ) , b ik = ∂ f ∂ u ( t - 1 - k ) | ( u i 0 , y i 0 ) .
所述步骤(3)的具体流程为:
(3.1)将系统输出与参考信号之间的误差记为:e(t)=yst-y(t);
将系统输出设定为系统的状态向量,而跟踪误差就变为:e(t)=xst-x(t);
在MDP建模中,e(t)或者是向量组合
Figure BDA00003598465700033
被定义为MDP的状态;在多时间点上的向量组合则是将系统的阶数考虑进来,从而使状态转换
Figure BDA00003598465700035
Figure BDA00003598465700036
满足Markov特性;
(3.2)假设局部控制器的编号为1,2,…,n,记基于API的增强式学习模块在t时刻的输出为a(t),则a(t)就等于所选控制器的编号,即:
1≤a(t)≤n
在t时刻,当API模块的输出确定后,对象的控制变量就为:
u ( t ) = - K a ( t ) e → ( t )
而在下一时刻的误差则由下式确定:
e → ( t + 1 ) = F ( e → ( t ) , a ( t ) )
其中F(.)由对象的动态特性和反馈控制器所决定。
所述步骤(4)的具体流程为:
先初始化价值函数近似器和第0次迭代的策略,其中用一个特定的策略来构建这一初始策略,接着就是不断重复近似策略迭代过程;
在每一次的API迭代中,对象都在一开始被设定为初始状态,并且在每一个时间步长,都会基于当前策略π[k]的价值函数选出一个局部控制器;通过观察对象在下一时间点上的状态,计算出一个性能回报值,同时一对状态转换值将被表示成[x(t),at,rt,x(t+1)]的形式;在收集到足够多的状态转换数据后,运用LSPI或者KLSPI方法得到Qπ[k]的估计值;对于LSPI或者KLSPI方法的提高,可在Qπ[k]基础上产生贪婪策略π[k+1],即为:
π [ k + 1 ] = arg max a Q π [ k ] ( s , a )
重复这一迭代过程直到策略π[k]和策略π[k+1]之间不存在差异,就会收敛得到一个最优策略。
所述KLSPI的终止条件选择最大迭代次数或者两次相继策略之间的距离。
在LSPI中,行动-状态价值函数由基函数的线性组合来近似并且用LS-TD(λ)算法来计算权值向量W,通过解方程直接得到,即:
W LS - TD ( λ ) = A T - 1 b T = ( Σ t = 1 T A ( X t ) ) - 1 ( Σ t = 1 T b ( X t ) )
在KLSPI中,通过在API的策略评估过程中引入Mercer核,利用KLSTD(λ)的一个新变量来近似行动状态价值函数:
Q ~ ( s ) = Σ i = 1 t α i k ( s , s i )
其中k(.,.)是Mercer核方程,s,si分别是状态行动组(x,a)和(xi,ai)的组合特性;αi(i=1,2,…,t)是系数,并且(xi,ai)是在采样数据中被选中的状态行动组,也就是说是由Markov决策过程产生的轨迹。
与现有技术相比,本发明的优点在于:本发明原理简单、适应范围广、可靠性强,能够保证控制的一般性能以及收敛性。在多个局部控制器进行转换时,优化了系统的瞬态性能;相较于传统的固定转换策略,本发明能够持续保证较好的性能,特别是当闭环系统中存在未知干扰和噪声的情况下。
附图说明
图1是本发明在应用时的原理示意图。
图2是本发明采用近似策略迭代和执行器-评判学习控制结构的原理示意图。
图3是本发明中API算法的流程示意图。
图4是本发明中自学习转换控制器和固定策略转换控制器性能的比较示意图;其中,图4(a)为变量u(t),图4(b)为变量w(t),图4(c)为变量q(t),图4(d)为变量θ(t)。
图5是不同转换策略的转换动作示意图;其中,图5(a)为固定转换策略,图5(b)为LSPI近似最优策略。
图6是本发明在具体应用实例中自学习转换控制器和固定策略转换控制器性能的比较示意图;其中,图6(a)为变量u(t),图6(b)为变量w(t),图6(c)为变量v(t),图6(d)为变量θ(t)。
图7是本发明在不同策略的转换动作示意图;其中,图7(a)为固定转换策略,图7(b)为LSPI近似最优策略。
具体实施方式
以下将结合附图对本发明做进一步详细说明。
如图1所示,本发明基于自学习的多模型控制方法,其步骤为:
(1)构建模型库;由非线性模型的一组局部模型组成;
(2)构建一组控制器,其根据模型库中的局部模型设计出来,这是由于对局部模型控制器的设计要比对全局非线性模型控制器的设计更加的简单与灵活,例如:对于线性化的模型,LQR控制器可以设计为ui=-Kix(i=1,2,...,n);
(3)执行性能评估:观察输出误差以及系统输出y和模型输出yi之间的差异。基于这些信号,一个性能反馈或者价值函数将被计算出并送到API模块。一个基于实际输出与预期输出误差的价值函数被定义为r(t)=R[|e(t)|]=R[|ysp-y(t)|],其中R为非负的函数并且关于|e(t)|单调递减;
(4)执行近似策略迭代算法:不仅要观察性能反馈信号,同时还要接收参考输出和系统输出之间的误差信号,这些信号将作为Markov决策过程的状态,同时状态反馈将成为增强学习的回报信号。基于API的增强学习算法的最终目标就是要最大化性能价值,也就是说要使输出误差得到最小化,其中 J = Σ t = 0 T r ( t ) = Σ t = 0 T R [ | y sp - y ( t ) | ] .
在上述步骤(1)中,模型组由n个局部模型组成:
Σ c : x · = f i ( x , u , t ) , i = 1,2 , . . . , n ;
或者是其离散时间形式:
d=x(t)=fi(x(t-1),...,x(t-n),u(t-1),...,u(t-m-1))
一个得到局部模型的常用方法,就是在不同的工作区间将全局非线性模型进行线性化。选定一个平衡点及其周围的微小扰动,表达如下:
Δx=x-xie,Δu=u-uie
然后可以得到:
Δ x · = [ ∂ f ∂ x ] x = x ie Δx + [ ∂ f ∂ u ] u = u ie Δu
记:
A i = [ ∂ f ∂ x ] x = x ie , B i = [ ∂ f ∂ u ] u = u ie
因此可以导出线性模型为:
x · = A i x + B i u
同样的,可以得到离散时间的局部线性模型为:
Ai(z-1)x(t)=z-1Bi(z-1)u(t)+d
其中:
Ai(z-1)=1+ai1z-1+…+ainz-n,Bi(z-1)=bi0+bi1z-1+…+bimz-m
d i = ( Σ j = 1 n a ij ) y i 0 - ( Σ k = 0 m b ik ) u i 0
a ij = - ∂ f ∂ x ( t - j ) | ( u i 0 , y i 0 ) , b ik = ∂ f ∂ u ( t - 1 - k ) | ( u i 0 , y i 0 ) .
在上述步骤(3)中,由于增强学习算法是用于Markov决策问题,因此自学习转换控制的关键就在于MDP建模。
首先,将系统输出与参考信号之间的误差记为:
e(t)=yst-y(t)
由于在某些情况下,目标是控制系统的全部状态轨迹。因此,系统的输出就可以被设定为系统的状态向量,而跟踪误差就变为:
e(t)=xst-x(t)
在MDP建模中,e(t)或者是向量组合
Figure BDA00003598465700073
被定义为MDP的状态。在多时间点上的向量组合
Figure BDA00003598465700074
则是将系统的阶数考虑进来,从而使状态转换
Figure BDA00003598465700075
Figure BDA00003598465700076
满足Markov特性。对于连续对象,由于转换策略和控制信号均只在采样时刻产生,因此,只需考虑在离散时间点上的误差和状态。
假设局部控制器的编号为1,2,…,n。记基于API的增强式学习模块在t时刻的输出为a(t),则a(t)就等于所选控制器的编号,即:
1≤a(t)≤n
在t时刻,当API模块的输出确定后,对象的控制变量就为:
u ( t ) = - K a ( t ) e → ( t )
而在下一时刻的误差则由下式确定:
e → ( t + 1 ) = F ( e → ( t ) , a ( t ) )
其中F(.)由对象的动态特性和反馈控制器所决定。
在上述步骤(4)中,如图3所示,算法的具体流程为:最开始先要初始化价值函数近似器和第0次迭代的策略,其中将会用一个特定的策略来构建这一初始策略。接着,就是不断重复近似策略迭代过程。
在每一次的API迭代中,对象都在一开始被设定为初始状态,并且在每一个时间步长,都会基于当前策略π[k]的价值函数选出一个局部控制器。通过观察对象在下一时间点上的状态,计算出一个性能回报值,同时一对状态转换值将被表示成[x(t),at,rt,x(t+1)]的形式。在收集到足够多的状态转换数据后,就可运用LSPI或者KLSPI方法得到Qπ[k]的估计值。对于LSPI或者KLSPI方法的提高,可在Qπ[k]基础上产生贪婪策略π[k+1],即为:
π [ k + 1 ] = arg max a Q π [ k ] ( s , a )
因此,贪婪策略Qπ[k+1]是一种决定性的策略,并且当价值函数Qπ[k]能够很好的近似π[k]时,π[k+1]不会比π[k]差。重复这一迭代过程直到策略π[k]和策略π[k+1]之间不存在差异。通常在很少的几步迭代后,就会收敛得到一个最优策略。
KLSPI的终止条件可以选择最大迭代次数或者两次相继策略之间的距离。
基于此,上述近似策略迭代的具体算法为:
近似策略迭代同增强式学习的执行器-评判学习控制结构(actor-critic learningcontrol architecture)有着很密切的关系,它可由图2来描述。在图中,评判部分和执行器部分分别用来演绎策略评估和策略提高过程。在策略评估的过程中,TD学习算法通常被用于在没有任何模型信息的前提下估计价值函数Qπ[t]的值。然而,由于策略迭代的收敛性在很大程度上依赖价值函数的估计精度,因此选用LS-TD(λ)和它的核形式,即KLS-TD(λ);因为它们在收敛性、估计精度和复杂度方面相较于其他算法有很大的优势。在多模型自学习转换控制框架中,LS-TD(λ)方法和KLS-TD(λ)方法均可用于策略评估过程,它们也是LSPI和KLSPI的主要思想。
在LSPI中,行动-状态价值函数由基函数的线性组合来近似并且用LS-TD(λ)算法来计算权值向量W,并且可以通过解方程直接得到,即:
W LS - TD ( λ ) = A T - 1 b T = ( Σ t = 1 T A ( X t ) ) - 1 ( Σ t = 1 T b ( X t ) )
对于拥有大规模非线性价值函数的Markov决策过程,往往需要对价值函数进行非线性估计。KLSPI算法被提出正是由于该方法具有很好的普遍性和非线性近似能力的优势。在KLSPI中,通过在API的策略评估过程中引入Mercer核,利用KLSTD(λ)的一个新变量来近似行动状态价值函数:
Q ~ ( s ) = Σ i = 1 t α i k ( s , s i )
其中k(.,.)是Mercer核方程,s,si分别是状态行动组(x,a)和(xi,ai)的组合特性。αi(i=1,2,…,t)是系数,并且(xi,ai)是在采样数据中被选中的状态行动组,也就是说是由Markov决策过程产生的轨迹。
以下将结合对非线性直升机模型进行的多模型控制的具体应用实例,对本发明做进一步详细说明。
直升机模型控制大致上分为3个操作控制,分别为油门控制、总变矩控制θ0,θ0T以及周期变矩操纵θ1s,θ1c。在实验中,只关注直升机纵向运动的动力学,也就是说假设油门控制为常数。直升机纵向运动的状态具有6个自由度,包括直升机沿机身轴的平移速度(u,w,v),直升机的角速度(p,q,r),并且相对于地球定义直升机方向的欧拉角为(θ,φ,ψ)。因此,直升机的动态方程就包含9维状态和4维输入。
直升机的非线性动力学方程为:
x · = F ( x , u , t ) - - - ( 1 )
其中F(·)是一个非线性的方程,x和u分别为飞行状态和控制输入:
x={u,w,q,θ,v,p,φ,r,ψ},u={θ01s1c0T}   (2)
动力学方程包含以下9个等式:
u · = ( rv - qw + X M a - g sin θ )
v · = ( pw - ru + Y M a + g sin φ cos θ ) - - - ( 3 )
w · = ( qu - pv + Z M a + g cos φ cos θ )
I xx p · = ( I yy - I zz ) qr + I xz ( r · + pq ) + L I yy q · = ( I zz - I xx ) rp + I xz ( r 2 - p 2 ) + M I zz r · = ( I xx - I yy ) pq - I xz ( p · + qr ) + N - - - ( 4 )
ψ · = q sin φ sec θ + r cos φ sec θ θ · = q cos φ - r sin φ φ · = p + q sin φ tan θ + r cos φ tan θ - - - ( 5 )
令xe为直升机的平衡状态。基于微小平衡原理,直升机的状态可以近似为:
x = x e + ∂ x ∂ u Δu + ∂ x ∂ w Δw + ∂ x ∂ q Δq + ∂ x ∂ θ Δθ + ∂ x ∂ v Δv + ∂ x ∂ p Δp + ∂ x ∂ φ Δφ + ∂ x ∂ r Δr + ∂ x ∂ ψ Δψ + ∂ x ∂ θ 0 Δ θ 0 + ∂ x ∂ θ 1 s Δ θ 1 s + ∂ x ∂ θ 1 c Δ θ 1 c + ∂ x ∂ θ 0 T Δθ 0 T - - - ( 6 )
然后,在每一个平衡点,直升机的动力学方程可以近似为一个线性系统:
x · = Ax + Bu - - - ( 7 )
考虑直升机的前向飞行控制问题。假设xe=[52,0,0,0,0,0,0,0]′是直升机纵向动力学的一个平衡点,其中前向速度u=52m/s。控制的目标是要将前向速度加速到u=62m/s,然后再减速到u=52m/s。同时,要保证直升机其他状态的振幅尽可能的小。
选择下列三个平衡状态来设计多个局部模型及其控制器:
xe1=[52,0,0,0,0,0,0,0]′     (8)
xe2=[57,0,0,0,0,0,0,0]′     (9)
xe3=[62,0,0,0,0,0,0,0]′      (10)
然后,就可以得到如下所示的在上述三个平衡状态得到的三个线性局部模型,从而来近似非线性的直升机模型:
A 1 = - 4.7373 e - 006 6.8906 e - 007 0.0002584 - 9.81 1.0336 e - 006 5.6848 e - 005 0 0 - 4.4789 e - 006 6.8906 e - 007 52 0 5.168 e - 006 0.00014643 0 0 0.03 - 0.025 - 0.75 0 - 0.004 - 0.22 0 0 0 0 1 0 0 0 0 0 - 8.6133 e - 007 3.876 e - 006 5.6848 e - 005 0 - 2.2911 e - 005 0.0002584 9.81 - 52.009 - 4.387 e - 007 - 5.2893 e - 006 9.9549 e - 005 0 - 4.4032 e - 006 0.00016888 0 - 4.1075 e - 005 0 0 0 0 0 1 0 0 3.4673 e - 007 1.8067 e - 006 - 1.8216 e - 005 0 1.1511 e - 006 1.4521 e - 005 0 - 2.061 e - 005 - - - ( 11 )
A 2 = - 4.7373 e - 006 6.8906 e - 007 0.0002584 - 9.81 1.0336 e - 006 5.6848 e - 005 0 0 - 4.4789 e - 006 6.8906 e - 007 57 0 5.168 e - 006 0.00014643 0 0 0.03 - 0.025 - 0.75 0 - 0.004 - 0.22 0 0 0 0 1 0 0 0 0 0 - 8.6133 e - 007 3.876 e - 006 5.6848 e - 005 0 - 2.2911 e - 005 0.0002584 9.81 - 57.009 - 4.387 e - 007 - 5.2893 e - 006 9.9549 e - 005 0 - 4.4032 e - 006 0.00016888 0 - 4.1075 e - 005 0 0 0 0 0 1 0 0 3.4673 e - 007 1.8067 e - 006 - 1.8216 e - 005 0 1.1511 e - 006 1.4521 e - 005 0 - 2.061 e - 005 - - - ( 12 )
A 3 = - 4.7373 e - 006 6.8906 e - 007 0.0002584 - 9.81 1.0336 e - 006 5.6848 e - 005 0 0 - 4.4789 e - 006 6.8906 e - 007 62 0 5.168 e - 006 0.00014643 0 0 0.03 - 0.025 - 0.75 0 - 0.004 - 0.22 0 0 0 0 1 0 0 0 0 0 - 8.6133 e - 007 3.876 e - 006 5.6848 e - 005 0 - 2.2911 e - 005 0.0002584 9.81 - 62.009 - 4.387 e - 007 - 5.2893 e - 006 9.9549 e - 005 0 - 4.4032 e - 006 0.00016888 0 - 4.1075 e - 005 0 0 0 0 0 1 0 0 3.4673 e - 007 1.8067 e - 006 - 1.8216 e - 005 0 1.1511 e - 006 1.4521 e - 005 0 - 2.061 e - 005 - - - ( 13 )
通过利用LQP定理,可以将三个局部反馈控制器设计为:
K 1 = 0.26067 - 0.97275 - 0.75952 - 2.3747 - 0.030298 - 9.0266 - 0.44729 - 0.26977 - 0.98029 - 0.22786 1.2558 10.309 0.001 39.071 1.8865 1.0645 0.10721 - 0.024782 0.032682 0.17279 0.87298 80.864 4.373 1.7747 - 0.18655 - 0.012749 - 0.26072 0.19098 0.48766 - 151.61 - 5.8863 - 14.103 - - - ( 14 )
K 2 = 0.25761 - 0.97349 - 0.80663 - 2.3519 - 0.0299 - 8.9422 - 0.44264 - 0.294 - 0.98112 - 0.22462 1.2837 10.36 - 0.0012832 39.248 1.8938 1.1762 0.10542 0.024895 0.026774 0.19466 0.87298 80.956 4.3752 1.9577 - 0.18842 - 0.012818 - 0.26493 0.21134 0.4877 - 151.56 - 5.8805 15.472 - - - ( 15 )
K 3 = 0.25451 - 0.97422 - 0.85386 - 2.3287 - 0.029517 - 8.8566 - 0.43794 - 0.31779 - 0.98195 - 0.22134 1.3127 10.412 - 0.0035536 39.428 1.9014 1.2895 0.10365 - 0.025006 0.020928 0.21649 0.87296 81.047 4.3775 2.1422 - 0.1903 - 0.012886 - 0.26914 0.23194 0.48774 - 151.51 - 5.8748 - 16.842 - - - ( 16 )
为了应用多模型自学习转换控制控制方法,将直升机模型的状态向量选为MDP过程的状态,由于直升机在水平面上的飞行方向不会影响空气动力学和动力学受力及运动,因此,将航向改变角ψ忽略,状态向量就变为[u,w,q,θ,v,p,φ,r]。
为了最小化直升机其他状态的改变量,将回报函数定义如下:
r(t)=e-||w||/2+e-||q||/2+e-||θ||/2+e-||v||/2+e-||p||/2+e-||φ||/2+e-||r||/2      (17)
在仿真中,将控制器转换的时间间隔设定为0.2s,每一次的总仿真时间为30s。利用一个随机初始策略来产生LSPI的初始训练样本,从而得到了1000个数据样本。在实施多模型自学习转换控制的基础上,为了进行比较,进一步测试利用固定策略进行控制器转换的效果。固定策略是通过估计实际系统模型与局部模型的距离来设计的。在仿真中,利用直升机的前向速度来测量非线性系统模型与局部模型之间的距离。当局部模型与系统动态具有最小距离是,相应的局部控制器将被选择。
LSPI算法利用如下基函数来近似价值函数:
φ[u,w,q,θ,v,p,φ,r]=[1,u,u2,w,w2,q,q2,θ,θ2,v,v2,p,p2,φ,φ2,r,r2]′      (18)
仿真结果如图4所示,在其中同时画出了在LSPI近似最优转换策略和固定转换策略控制下的直升机状态变量。
LSPI近似最优转换策略在5次迭代后得到。图4(a)显示了两种转换控制器均可以控制直升机的前向速度并且具有令人满意的性能。最优化的目标是要最小化如方向角、角速度q(t)和横向速度w(t)这样的其他一些状态向量。通过观察图4(b)~图4(d)可以得出,基于LSPI的自学习转换控制能够比固定转换策略实现更好的性能要求。在下表中比较了在固定策略和近似最优策略控制下最大状态变化,可以明显的看出基于LSPI的自学习转换控制的控制效能。
    表1不同策略下最大状态变化
Figure BDA00003598465700121
固定策略和LSPI方法的近似最优策略得到的转换策略分别如图5(a)和图5(b)所示。
由于在实际应用中,在非线性系统的建模中往往会存在许多的不确定性,包括不可建模的动态特性,未知的外界烦扰以及噪声等。尽管已经存在了许多相关的研究,但是这些不确定性仍然给控制理论和工程带来了巨大的挑战。通过利用增强学习的自适应最优化能力,多模型自学习转换控制方法提供了一个具有很好前景的办法去抑制实际非线性系统中不确定性的影响。在仿真中,当未知干扰对直升机所有状态方程作为附加输入产生时转换控制器的性能。
对于动态方程(3)、(4)、(5),将下列随机干扰加到每个等式的右侧:
uvwpqrψθφ};
上述干扰均是平均值为0的随机信号,并且它们的方差如下:
{0.1,0.1,0.1,0.01,0.01,0.01,0.01,0.01,0.01};
实验中,在自学习转换控制器中利用相同的LSPI算法,并且在6次迭代后LSPI收敛到近似最优策略。固定转换策略也在直升机上进行了控制任务测试。性能比较如图6(a)~图6(d)所示。正如在图6中实线显示的那样,自学习转换控制器仍然能够控制前向飞行动态在一个令人满意的水平。然而当运用固定转换策略时,直升机系统将变得不稳定,这一点从图6中的点状线就可以看出。
对于受到干扰的直升机动力学系统,由固定策略和通过LSPI得到的近似最优策略得出的转换策略分别如图7(a)和图7(b)所示。
由上面的仿真结果可以清楚看出本发明的基于自学习的多模型控制方法能够最优化多模型控制系统的性能,并具有相当高的学习效率。此外,当存在未知的外界干扰时,由于近似最优策略能够高效的再生成,因此本发明将极大地提高多模型转换控制系统的鲁棒性。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (7)

1.一种基于自学习的多模型控制方法,其特征在于,步骤为:
(1)构建模型库,由非线性模型的一组局部模型组成;
(2)构建一组控制器,根据模型库中的局部模型设计出来一组局部控制器;
(3)执行性能评测:观察输出误差以及系统输出y和模型输出yi之间的差异;基于这些信号,一个性能反馈或者价值函数将被计算出并送到API模块;一个基于实际输出与预期输出误差的价值函数被定义为r(t)=R[|e(t)|]=R[|ysp-y(t)|],其中R为非负的函数并且关于|e(t)|单调递减;
(4)执行近似策略迭代算法:观察性能反馈信号,接收参考输出和系统输出之间的误差信号,这些信号将作为Markov决策过程的状态,同时状态反馈将成为增强学习的回报信号。
2.根据权利要求1所述的基于自学习的多模型控制方法,其特征在于,所述步骤(1)中,构建模型库的流程为:
模型组由n个局部模型组成:
Σ c : x · = f i ( x , u , t ) , i = 1,2 , . . . , n ;
或者是其离散时间形式:
d=x(t)=fi(x(t-1),...,x(t-n),u(t-1),...,u(t-m-1));
线性模型为:
x · = A i x + B i u
离散时间的局部线性模型为:
Ai(z-1)x(t)=z-1Bi(z-1)u(t)+d
其中:
Ai(z-1)=1+ai1z-1+…+ainz-n,Bi(z-1)=bi0+bi1z-1+…+bimz-m
d i = ( Σ j = 1 n a ij ) y i 0 - ( Σ k = 0 m b ik ) u i 0
a ij = - ∂ f ∂ x ( t - j ) | ( u i 0 , y i 0 ) , b ik = ∂ f ∂ u ( t - 1 - k ) | ( u i 0 , y i 0 ) .
3.根据权利要求1所述的基于自学习的多模型控制方法,其特征在于,所述步骤(3)的具体流程为:
(3.1)将系统输出与参考信号之间的误差记为:e(t)=yst-y(t);
将系统输出设定为系统的状态向量,而跟踪误差就变为:e(t)=xst-x(t);
在MDP建模中,e(t)或者是向量组合
Figure FDA00003598465600022
被定义为MDP的状态;在多时间点上的向量组合
Figure FDA00003598465600023
则是将系统的阶数考虑进来,从而使状态转换
Figure FDA00003598465600024
Figure FDA00003598465600025
满足Markov特性;
(3.2)假设局部控制器的编号为1,2,…,n,记基于API的增强式学习模块在t时刻的输出为a(t),则a(t)就等于所选控制器的编号,即:
1≤a(t)≤n
在t时刻,当API模块的输出确定后,对象的控制变量就为:
u ( t ) = - K a ( t ) e → ( t )
而在下一时刻的误差则由下式确定:
e → ( t + 1 ) = F ( e → ( t ) , a ( t ) )
其中F(.)由对象的动态特性和反馈控制器所决定。
4.根据权利要求1所述的基于自学习的多模型控制方法,其特征在于,所述步骤(4)的具体流程为:
先初始化价值函数近似器和第0次迭代的策略,其中用一个特定的策略来构建这一初始策略,接着就是不断重复近似策略迭代过程;
在每一次的API迭代中,对象都在一开始被设定为初始状态,并且在每一个时间步长,都会基于当前策略π[k]的价值函数选出一个局部控制器;通过观察对象在下一时间点上的状态,计算出一个性能回报值,同时一对状态转换值将被表示成[x(t),at,rt,x(t+1)]的形式;在收集到足够多的状态转换数据后,运用LSPI或者KLSPI方法得到Qπ[k]的估计值;对于LSPI或者KLSPI方法的提高,可在Qπ[k]基础上产生贪婪策略π[k+1],即为:
π [ k + 1 ] = arg max a Q π [ k ] ( s , a )
重复这一迭代过程直到策略π[k]和策略π[k+1]之间不存在差异,就会收敛得到一个最优策略。
5.根据权利要求4所述的基于自学习的多模型控制方法,其特征在于,所述KLSPI的终止条件选择最大迭代次数或者两次相继策略之间的距离。
6.根据权利要求4所述的基于自学习的多模型控制方法,其特征在于,在LSPI中,行动-状态价值函数由基函数的线性组合来近似并且用LS-TD(λ)算法来计算权值向量W,通过解方程直接得到,即:
W LS - TD ( λ ) = A T - 1 b T = ( Σ t = 1 T A ( X t ) ) - 1 ( Σ t = 1 T b ( X t ) ) .
7.根据权利要求4所述的基于自学习的多模型控制方法,其特征在于,在KLSPI中,通过在API的策略评估过程中引入Mercer核,利用KLSTD(λ)的一个新变量来近似行动状态价值函数:
Q ~ ( s ) = Σ i = 1 t α i k ( s , s i )
其中k(.,.)是Mercer核方程,s,si分别是状态行动组(x,a)和(xi,ai)的组合特性;αi(i=1,2,…,t)是系数,并且(xi,ai)是在采样数据中被选中的状态行动组,也就是说是由Markov决策过程产生的轨迹。
CN201310328290.8A 2013-07-31 2013-07-31 基于自学习的多模型控制方法 Active CN103399488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310328290.8A CN103399488B (zh) 2013-07-31 2013-07-31 基于自学习的多模型控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310328290.8A CN103399488B (zh) 2013-07-31 2013-07-31 基于自学习的多模型控制方法

Publications (2)

Publication Number Publication Date
CN103399488A true CN103399488A (zh) 2013-11-20
CN103399488B CN103399488B (zh) 2018-01-09

Family

ID=49563131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310328290.8A Active CN103399488B (zh) 2013-07-31 2013-07-31 基于自学习的多模型控制方法

Country Status (1)

Country Link
CN (1) CN103399488B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104238363A (zh) * 2014-09-23 2014-12-24 江南大学 多模态混杂系统的暂态性能控制方法
CN104238364A (zh) * 2014-09-23 2014-12-24 江南大学 二重随机跳变系统的有限短时间控制方法
CN104298126A (zh) * 2014-09-23 2015-01-21 江南大学 非齐次Markov跳变控制系统的观测器设计方法
CN106094840A (zh) * 2016-07-20 2016-11-09 深圳洲际通航投资控股有限公司 飞行控制系统及方法
CN104238363B (zh) * 2014-09-23 2017-01-04 江南大学 多模态混杂系统的暂态性能控制方法
CN106338919A (zh) * 2016-11-02 2017-01-18 哈尔滨工程大学 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN108227482A (zh) * 2016-12-14 2018-06-29 发那科株式会社 控制系统以及机器学习装置
CN115576205A (zh) * 2022-11-03 2023-01-06 南栖仙策(南京)科技有限公司 反馈控制方法、通用反馈控制器、训练方法、可读存储介质、计算机程序产品及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224535A1 (en) * 2005-03-08 2006-10-05 Microsoft Corporation Action selection for reinforcement learning using influence diagrams
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索系统
CN103034122A (zh) * 2012-11-28 2013-04-10 上海交通大学 基于时间序列的多模型自适应控制器及控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060224535A1 (en) * 2005-03-08 2006-10-05 Microsoft Corporation Action selection for reinforcement learning using influence diagrams
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索系统
CN103034122A (zh) * 2012-11-28 2013-04-10 上海交通大学 基于时间序列的多模型自适应控制器及控制方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
XIN XU ET AL.: "A Kernel-based Reinforcement Learning Approach to Stochastic Pole Balancing Control Systems", 《2010 IEEE/ASME INTERNATIONAL CONFERENCE ON ADVANCED INTELLIGENT MECHATRONICS MONTRÉAL, CANADA》, 9 July 2010 (2010-07-09) *
XIN XU ET AL.: "Kernel-Based Least Squares Policy Iteration for Reinforcement Learning", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》, vol. 18, no. 4, 31 July 2007 (2007-07-31), XP011186890, DOI: doi:10.1109/TNN.2007.899161 *
刘春明 等: "基于LSPI 和滚动窗口的移动机器人反应式导航方法", 《中南大学学报 (自然科学版)》, vol. 44, no. 3, 31 March 2013 (2013-03-31) *
徐昕 等: "基于马氏决策过程模型的动态系统学习控制:研究前沿与展望", 《自动化学报》, vol. 38, no. 5, 31 May 2012 (2012-05-31) *
徐昕: "增强学习及其在移动机器人导航与控制中的应用研究", 《中国优秀博士学位论文全文数据库 信息科技辑》, no. 2, 15 June 2003 (2003-06-15) *
王泉德: "机器学习及其在多Agent对策学习中的应用研究", 《中国优秀博士学位论文全文数据库 信息科技辑 》, no. 5, 15 May 2006 (2006-05-15) *
蔡文澜: "基于增强学习的小型无人直升机控制方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, no. 7, 15 July 2009 (2009-07-15) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104238363A (zh) * 2014-09-23 2014-12-24 江南大学 多模态混杂系统的暂态性能控制方法
CN104238364A (zh) * 2014-09-23 2014-12-24 江南大学 二重随机跳变系统的有限短时间控制方法
CN104298126A (zh) * 2014-09-23 2015-01-21 江南大学 非齐次Markov跳变控制系统的观测器设计方法
CN104238363B (zh) * 2014-09-23 2017-01-04 江南大学 多模态混杂系统的暂态性能控制方法
CN106094840A (zh) * 2016-07-20 2016-11-09 深圳洲际通航投资控股有限公司 飞行控制系统及方法
CN106094840B (zh) * 2016-07-20 2019-03-01 深圳洲际通航投资控股有限公司 飞行控制系统及方法
CN106338919A (zh) * 2016-11-02 2017-01-18 哈尔滨工程大学 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN106338919B (zh) * 2016-11-02 2019-04-19 哈尔滨工程大学 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN108227482A (zh) * 2016-12-14 2018-06-29 发那科株式会社 控制系统以及机器学习装置
CN115576205A (zh) * 2022-11-03 2023-01-06 南栖仙策(南京)科技有限公司 反馈控制方法、通用反馈控制器、训练方法、可读存储介质、计算机程序产品及系统
CN115576205B (zh) * 2022-11-03 2023-08-29 南栖仙策(南京)高新技术有限公司 反馈控制方法、通用反馈控制器、训练方法、可读存储介质、计算机程序产品及系统

Also Published As

Publication number Publication date
CN103399488B (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN103399488A (zh) 基于自学习的多模型控制方法
Jiang et al. Adaptive fault-tolerant tracking control of near-space vehicle using Takagi–Sugeno fuzzy models
CN106444701B (zh) 领导-跟随型多智能体系统的有限时间鲁棒故障诊断设计方法
Jiang et al. Adaptive neural observer‐based backstepping fault tolerant control for near space vehicle under control effector damage
CN104020774B (zh) 基于动态控制重新分配的飞行器姿态容错控制方法
CN105068427B (zh) 一种多机器人系统有限时间鲁棒协同跟踪控制方法
Guechi et al. PDC control design for non-holonomic wheeled mobile robots with delayed outputs
CN102866635B (zh) 基于等价模型的高超声速飞行器离散神经网络自适应控制方法
CN103676646B (zh) 一种具有随机发生的不确定性和分布式传感器时滞的网络化控制系统的状态估计方法
CN104238357A (zh) 一种近空间飞行器的容错滑模控制方法
CN105093934A (zh) 考虑干扰与模型不确定性的多机器人系统分布式有限时间跟踪控制方法
CN109986562B (zh) 一种平面机械臂系统及其分散式容错控制方法
CN112016194A (zh) 基于Koopman算子的全方位移动机械臂数据驱动模型预测控制方法
CN102880056B (zh) 基于等价模型的高超声速飞行器离散滑模控制方法
CN106547207A (zh) 一种非线性多输入多输出系统混合式观测器构建方法
CN104730920A (zh) 一种神经网络自适应动态面控制器结构与设计方法
CN100483276C (zh) 一种基于噪声估计的自适应状态反馈预测控制方法
CN105676852A (zh) 小型无人直升机无动力学模型结构自适应姿态控制方法
CN104808662B (zh) 一种基于数据驱动的抑制船舶航向扰动的控制方法
CN110750049B (zh) 带有时滞和扰动的间歇过程2d预测容错控制方法
CN104678989A (zh) 一种噪声环境下提高故障可诊断性的状态感知优化方法
Folkestad et al. Quadrotor trajectory tracking with learned dynamics: Joint Koopman-based learning of system models and function dictionaries
CN105197185A (zh) 一种船舶舵机的迭代学习控制算法
Wu et al. Adaptive iterative learning control of robotic manipulator with second-order terminal sliding mode method
CN104749952A (zh) 一种自适应动态面控制器结构及设计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant