CN104834221A - 一种基于可变误差的非线性系统自适应最优控制方法 - Google Patents

一种基于可变误差的非线性系统自适应最优控制方法 Download PDF

Info

Publication number
CN104834221A
CN104834221A CN201510272090.4A CN201510272090A CN104834221A CN 104834221 A CN104834221 A CN 104834221A CN 201510272090 A CN201510272090 A CN 201510272090A CN 104834221 A CN104834221 A CN 104834221A
Authority
CN
China
Prior art keywords
iteration
gamma
overbar
performance index
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510272090.4A
Other languages
English (en)
Inventor
刘德荣
魏庆来
林汉权
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010240156.2A priority Critical patent/CN111308896B/zh
Priority to CN201510272090.4A priority patent/CN104834221A/zh
Publication of CN104834221A publication Critical patent/CN104834221A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种可变误差的非线性自适应控制方法,通过引入合适的近似误差来逼近性能指标函数和策略控制函数,并使得指标函数能最终一致收敛。本发明结合神经网络,由于神经网络的良好的逼近性能,通过同时调节评价网络和策略网络的近似误差,使最终的性能指标函数能够收敛到最优评价函数的一个邻域内。

Description

一种基于可变误差的非线性系统自适应最优控制方法
技术领域
本发明涉及智能控制技术领域,尤其涉及一种基于可变误差的非线性系统自适应最优控制方法。
背景技术
在当今的社会生活和工业领域存在着大量的复杂系统,如电力系统、交通系统、制造系统、化工过程系统、通信网络系统等,都需要被控系统在有限的资源条件下完成控制目标。最优控制是使控制系统的性能指标实现最优化的基本条件和综合方法,可概括为:对一个受控的动力学系统或运动过程,从一类允许的控制方案中找出一个最优的控制方案,使系统的运动在由某个初始状态转移到指定的目标状态的同时,其性能指标值为最优。
随着科技的发展,人们对控制系统的性能也提出了越来越高的要求。而这些复杂系统通常具有高度的非线性、未知的动态特性、模型的不确定性等,难于建立精确的数学模型。而自适应控制可以看作是一个能根据环境变化智能调节自身特性的反馈控制系统,以使系统能按照一些设定的标准工作在最优状态。因此,如何设计出一种非线性系统自适应最优控制方法显得尤为重要。
发明内容
有鉴于此,本发明的主要目的在于提出一种基于可变误差的非线性系统自适应最优控制方法,以便满足对复杂系统的自适应控制。
为了实现上述目的,本发明提出了一种基于可变误差的非线性系统自适应最优控制方法,包括以下步骤:
步骤1、选择随机初始状态x0;选择任意半正定函数Ψ(xk)≥0;选择收敛精度ζ;给定参数序列{qi},其中0<qi<1;给定两个常数0<ξ<1分别表示可变误差的衰减率;令迭代参数i=0;
步骤2、令初始性能指标函数并求得参数γ0,使其满足V0(F(xk,uk))≤γ0U(xk,uk),其中F(xk,uk)是系统状态方程,V0(xk)为初始性能指标函数,U(xk,uk)是系统的效用函数,Ψ(xk)为半正定函数;
步骤3、计算得到初始控制律 v ^ 0 ( x k ) = arg min u k { U ( x k , u k ) + V ^ 0 ( x k + 1 ) } + ρ 0 ( x k ) , 以及初始迭代性能指标函数 V ^ 1 ( x k ) = U ( x k , v ^ 0 ( x k ) ) + V ^ 0 ( F ( x k , v ^ 0 ( x k ) ) ) + π 0 ( x k ) ; 其中,ρ0(xk)为迭代控制近似误差,π0(xk)为迭代性能指标函数近似误差;
步骤4、定义单步迭代的目标迭代性能指标函数为定义全局迭代目标函数为计算获得参数σ1使其满足给定任意0<q0≤1,如果σ1满足其中γ0可由步骤2得到,则估计参数γ1使其满足V1(F(xk,uk))≤γ1U(xk,uk),并令i=i+1,继续执行下一步;否则,令和π0(xk)=ξπ0(xk),返回步骤3继续执行;
步骤5、对于任意i=1,2,...,计算得到迭代控制律 v ^ i ( x k ) = arg min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } + ρ i ( x k ) 和迭代性能指标函数 V ^ i + 1 ( x k ) = U ( x k , v ^ i ( x k ) ) + V ^ i ( F ( x k , v ^ i ( x k ) ) ) + π i ( x k ) ; 其中ρi(xk)为迭代控制近似误差,πi(xk)迭代性能指标函数近似误差;
步骤6、定义全局迭代目标函数为 V i + 1 ( x k ) = min u k { U ( x k , u k ) + V i ( x k + 1 ) } ; 根据目标迭代性能指标函数 Γ i + 1 ( x k ) = min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } , 计算获得参数σi使其满足 V ^ i + 1 ( x k ) ≤ σ i + 1 Γ i + 1 ( x k ) ;
给定任意0<qi≤1,如果σi满足则估计γi+1使其满足Vi+1(F(xk,uk))≤γi+1U(xk,uk),并继续执行下一步;否则,令和πi(xk)=ξπi(xk),返回步骤5继续执行;
步骤7、如果ζ是收敛精度,即可获得最优性能指标函数和最优控制律;否则令i=i+1继续返回步骤5执行。
其中,在步骤5中采用两个神经网络,即执行网络与评判网络分别逼近迭代控制律与迭代性能指标函数。
其中,所述评判网络与执行网络均采用BP神经网络进行构建。
其中,在步骤6中获得参数γi的步骤为:
步骤I-1、令μ(xk)为任意给定的容许控制;
步骤I-2、对于i=1,2,...,根据μ(xk)构造新的性能指标函数Pi(xk),满足Pi+1(xk)=U(xk,μ(xk))+Pi(xk+1),其中P0(xk)=V0(xk)=Ψ(xk);
步骤I-3、给出使其满足 γ ~ i U ( x k , u k ) ≥ P i ( F ( x k , u k ) ) ;
步骤I-4、令
其中,在步骤6中获得参数γi的步骤为:
步骤II-1、对于迭代性能指标函数可以通过下式获得 V ^ i + 1 ( x k ) = U ( x k , v ^ i ( x k ) ) + V ^ i ( F ( x k , v ^ i ( x k ) ) ) + π i ( x k ) ; 其中πi(xk)为评判网络近似误差;
步骤II-2、令|πi(xk)|为πi(xk)的上界,定义新的迭代性能指标函数为
步骤II-3、令 V ^ i ( x k ) = v ^ i ( x k ) ;
步骤II-4、由 γ ^ i U ( x k , u k ) ≥ V ^ i ( F ( x k , u k ) ) 得出
步骤II-5、令
其中,在步骤6中获得参数γi的步骤为:
步骤III-1、记录σ 0σ 1,…,σ i-1γ 0γ 1,…,γ i-1
步骤III-2、通过 V ^ i + 1 ( x k ) = U ( x k , v ^ i ( x k ) ) + V ^ i ( F ( x k , v ^ i ( x k ) ) ) + π i ( x k ) 获得迭代性能指标函数通过 Γ i + 1 ( x k ) = min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } 获得目标迭代性能指标函数Γi(xk);
步骤III-3、对于根据如下不等式获得σ i;如果 V ^ i ( x k ) ≥ Γ i ( x k ) , σ i=1;根据如下不等式 γ ^ i U ( x k , u k ) ≥ V ^ i ( F ( x k , u k ) ) 获得
步骤III-4、令 Δ ‾ i = σ ‾ i [ 1 + Σ j = 1 i - 1 ( σ ‾ i - 1 σ ‾ i - 2 . . . σ ‾ i - j + 1 ( σ ‾ i - j - 1 ) × γ ‾ i - 1 γ ‾ i - 2 . . . γ ‾ i - j ( γ ‾ i - 1 + 1 ) ( γ ‾ i - 2 + 1 ) . . . ( γ ‾ i - j + 1 ) ) ] ,
通过下式解出γ i
γ i ‾ = γ ^ i Δ ‾ i ;
步骤III-5、令γiγ i
基于上述技术方案可知,现有的自适应动态规划方法没有考虑到神经网络等近似结构的逼近误差,在误差存在条件下,现有方法无法在每次迭代中保证系统的稳定性和算法的收敛性,同时迭代时间较长;而本发明的自适应最优控制方法在自适应动态规划框架下,提出一种可变误差的策略迭代方法,该方法通过引入合适的近似误差来逼近性能指标函数和策略控制函数,并使得指标函数能最终一致收敛。本发明结合神经网络,由于神经网络的良好的逼近性能,通过同时调节评价网络和策略网络的近似误差,使最终的性能指标函数能够收敛到最优评价函数的一个邻域内。
附图说明
图1是作为本发明一个实施例的基于可变误差的非线性系统自适应最优控制方法的流程图;
图2是作为本发明一个实施例的基于可变误差的非线性系统自适应最优控制方法的神经网络实现框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明公开了一种可变误差的非线性自适应控制方法,属于最优控制领域。在现有的最优控制方法中,自适应动态规划被广泛应用于非线性系统。传统的自适应动态规划一般分为两个步骤:策略性能指标函数评价过程和策略更新过程,它要求每一次的性能指标函数和策略控制函数都能精确地得到,但在实际计算应用中往往不能实现。
具体来说,本发明所研究的非线性系统为xk+1=F(xk,uk),k=0,1,2,...,其中是n维的系统状态向量,是m维的系统控制向量,x0是系统的初始状态,F(xk,uk)为系统方程。
u k=(uk,uk+1,...)是时刻k→∞时的随机控制序列。将状态为x0,控制序列为u 0=(u0,u1,...)时的性能指标函数定义为其中对于任意的xk,uk≠0,U(xk,uk)>0是系统的效用函数。
本发明的目的是找到一个最优的控制序列能使系统xk+1=F(xk,uk)稳定,同时性能指标函数J(xku k)达到最小。
定义控制序列集合对于任意的控制序列u kΘ k,最优性能指标函数定义为
J * ( x k ) = inf u ‾ k { J ( x k , u ‾ k ) : u ‾ k ∈ Θ ‾ k } .
根据Bellman最优性原理,J*(xk)满足离散时间HJB方程
J * ( x k ) = inf u k { U ( x k , u k ) + J * ( F ( x k , u k ) ) } .
由此,最优控制可以表示为
u * ( x k ) = arg inf u k { U ( x k , u k ) + J * ( F ( x k , u k ) ) } .
将最优控制带入离散时间HJB方程可得,最优性能指标函数
J*(xk)=U(xk,u*(xk))+J*(F(xk,u*(xk))).
对于非线性系统,最优性能指标函数J*(xk)具有非线性且通常没有解析形式。这使得最优控制无法通过直接求解HJB方程来得到。因此,本发明提出了一种基于可变误差的非线性系统自适应最优控制方法。
图1示出了本发明的基于可变误差的非线性系统自适应最优控制方法的流程图。该迭代自适应最优控制方法是通过神经网络函数对最优性能指标函数J*(xk)进行逼近,具体步骤表示如下:
步骤1、初始化:选择随机初始状态x0;选择任意半正定函数Ψ(xk)≥0;选择收敛精度ζ;给定参数序列{qi},其中0<qi<1;给定两个常数0<ξ<1;令迭代参数i=0;
步骤2、令初始性能指标函数并求得参数γ0,使其满足
V0(F(xk,uk))≤γ0U(xk,uk);
其中,F(xk,uk)是系统的状态方程,U(xk,uk)是系统的效用函数。
步骤3、计算得到初始控制律
v ^ 0 ( x k ) = arg min u k { U ( x k , u k ) + V ^ 0 ( x k + 1 ) } + ρ 0 ( x k )
以及初始迭代性能指标函数
V ^ 1 ( x k ) = U ( x k , v ^ 0 ( x k ) ) + V ^ 0 ( F ( x k , v ^ 0 ( x k ) ) ) + π 0 ( x k )
其中ρ0(xk)为迭代控制近似误差,π0(xk)为迭代性能指标函数近似误差;
步骤4、定义单步迭代的目标迭代性能指标函数
Γ 1 ( x k ) = min u k { U ( x k , u k ) + V ^ 0 ( x k + 1 ) } .
定义全局迭代目标函数为:
V 1 ( x k ) = min u k { U ( x k , u k ) + V 0 ( x k + 1 ) } .
计算获得参数σ1使对于任意的状态xk其满足
V ^ 1 ( x k ) ≤ σ 1 Γ 1 ( x k ) .
给定任意0<q0≤1,如果σ1满足
1 ≤ σ 1 ≤ q 0 γ 0 + 1 γ 0 ,
则估计参数γ1使其满足
V1(F(xk,uk))≤γ1U(xk,uk),
并令i=i+1继续执行下一步。否则,减小神经网络近似误差,即令和π0(xk)=ξπ0(xk),其中ξ是误差衰减率,返回步骤3继续执行;
步骤5、对于任意i=1,2,...,计算得到迭代控制律
v ^ i ( x k ) = arg min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } + ρ i ( x k )
和迭代性能指标函数
V ^ i + 1 ( x k ) = U ( x k , v ^ i ( x k ) ) + V ^ i ( F ( x k , v ^ i ( x k ) ) ) + π i ( x k ) ;
其中ρi(xk)为迭代控制近似误差,πi(xk)迭代性能指标函数近似误差。
步骤6、定义全局迭代目标函数为
V i + 1 ( x k ) = min u k { U ( x k , u k ) + V i ( x k + 1 ) } .
根据目标迭代性能指标函数
Γ i + 1 ( x k ) = min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } ,
计算获得参数σi使其满足
V ^ i + 1 ( x k ) ≤ σ i + 1 Γ i + 1 ( x k ) .
给定任意0<qi≤1,如果σi满足
1 ≤ σ i + 1 ≤ q i γ i + 1 γ i ,
则估计γi+1使其满足
Vi+1(F(xk,uk))≤γi+1U(xk,uk)。
并继续执行下一步。否则,减小神经网络近似误差即令和πi(xk)=ξπi(xk),返回步骤5继续执行;
步骤7、如果其中ζ是收敛精度,那么最优性能指标函数和最优控制律即可获得;否则令i=i+1继续返回步骤5执行。
算法描述完毕。
为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图,对本发明作进一步的详细说明。
本发明的自适应最优控制方法是一种值迭代算法,在该算法中性能指标函数和控制律通过迭代进行更新(迭代指标i:0→∞)。
对于任意的状态Ψ(xk)≥0是一任意的半正定函数,令初始性能指标函数迭代控制律可按下式计算
v ^ 0 ( x k ) = arg min u k { U ( x k , u k ) + V ^ 0 ( x k + 1 ) } + ρ 0 ( x k ) ,
其中性能指标函数更新为
V ^ 1 ( x k ) = U ( x k , v ^ 0 ( x k ) ) + V ^ 0 ( F ( x k , v ^ 0 ( x k ) ) ) + π 0 ( x k ) ,
其中ρ0(xk)和π0(xk)分别为初始迭代控制近似误差和初始迭代性能指标函数近似误差。
之后,i=1,2,...时,迭代自适应动态规划算法在如下两式之间进行迭代:
v ^ i ( x k ) = arg min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } + ρ i ( x k ) ,
V ^ i + 1 ( x k ) = U ( x k , v ^ i ( x k ) ) + V ^ i ( F ( x k , v ^ i ( x k ) ) ) + π i ( x k ) ,
其中ρi(xk)和πi(xk)分别为第i次迭代控制近似误差和第i次迭代性能指标函数近似误差。
由以上分析可知该算法用迭代性能指标函数来近似最优性能指标函数J*(xk),用迭代控制律来近似最优控制律u*(xk)。因此当i→∞时,该算法应当是收敛的,即都收敛到最优值。
然而,由于初始性能指标函数Ψ(xk)是任意给定的,收敛性分析方法不同于其他传统的值迭代。在每一次迭代过程中,无法获得准确的迭代性能指标函数和准确的迭代控制律。这使得收敛性无法保证,为了克服这一缺点,建立了新的收敛性分析方法与收敛性判断标准。
本发明的自适应最优控制方法采用了两个神经网络,即执行网络(Action Network)与评判网络(Critic Network)分别逼近迭代控制律与迭代性能指标函数,使得基于可变误差的非线性系统自适应最优控制方法可以运行并使得迭代性能指标函数收敛到最优性能指标函数的有限临域之内。本发明中,评判网络与执行网络均采用BP神经网络进行构建。
BP神经网络的结构包括输入层、隐含层和输出层三层结构,激活函数为双极S型函数。令隐含层神经元个数为L,输入层与隐含层间权值矩阵为Y,隐含层与输出层间权值矩阵为W,神经网络的输入为X,那么神经网络可以表示为
F ^ N ( X , Y , W ) = Wσ ( YX ) ,
其中σ(YX)∈RL,是神经网络隐含层的输出向量,具体表达式是 [ σ ( z ) ] i = e z i - e - z i e z i + e - z i , i=1,...L。
为了加快神经网络的训练速度,令输入层与隐含层间权值矩阵Y为任意随机权值矩阵。当Y给定后其值固定不变,其值不进行更新,只调节隐含层与输出层权值矩阵W。因此,神经网络可以简化成如下形式
F ^ N ( X , W ) = Wσ ( X )
对于执行网络的作用是逼近迭代控制律。定义执行网络的逼近目标为
v ‾ i ( x k ) = arg min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } .
执行网络的输出可以表示为
v ^ i j ( x k ) = W ai jT σ ( x k ) ,
其中为执行网络权值。定义执行网络误差为
e ai j ( k ) = v ^ i j ( x k ) - v ‾ i ( x k ) .
那么执行网络的评价指标可以定义为
E ai j ( k ) = 1 2 ( e ai j ( k ) ) T ( e ai j ( k ) ) .
执行网络权值更新过程可以表示为
W ai j + 1 ( k ) = W ai j ( k ) + ΔW ai j ( k ) = W ai j ( k ) - l a [ ∂ E ai j ( k ) ∂ e ai j ( k ) ∂ e ai j ( k ) ∂ v ^ i j ( k ) ∂ v ^ i j ( k ) ∂ W ai j ( k ) ] = W ai j ( k ) - l a e ai j ( k ) σ ( x k ) ,
其中la>0为执行网络的学习律。训练执行网络使得迭代控制律满足
| v ^ i j ( x k ) - v ‾ i ( x k ) | ≤ ρ i ( x k )
那么我们即可获得迭代控制律
v ^ i ( x k ) = v ^ i j ( x k ) .
对于评判网络的作用是逼近迭代性能指标函数。定义评判网络的逼近目标为
Γ i + 1 ( x k ) = min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } .
评判网络的输出可以表示为
V ^ i + 1 j ( x k ) = W ci jT σ ( x k ) ,
其中为评判网络权值。定义评判网络误差为
e ci j ( k ) = V ^ i + 1 j ( x k ) - V i + 1 ( x k ) .
那么评判网络的评价指标可以定义为
E ai j ( k ) = 1 2 ( e ai j ( k ) ) T ( e ai j ( k ) ) .
执行网络权值更新过程可以表示为
W ci j + 1 ( k ) = W ci j ( k ) + ΔW ci j ( k ) , = W ci j ( k ) - l c [ ∂ E ci j ( k ) ∂ V ^ i + 1 j ( e ( k ) ) ∂ V ^ i + 1 j ( e ( k ) ) ∂ W ci j ( k ) ] = W ci j ( k ) - l c e ci j ( k ) σ c ( x k ) ,
其中lc>0为执行网络的学习律,训练评判网络使得迭代性能指标函数律满足
| V ^ i + 1 j ( x k ) - Γ i + 1 ( x k ) | ≤ π i ( x k ) .
那么我们即可获得迭代性能指标函数
V ^ i + 1 ( x k ) = V ^ i + 1 j ( x k ) .
可以看到,采用评判网络与执行神经网络,本发明中的迭代自适应动态规划方法即可运行。
是随机的可控的状态,对于若步骤6中不等式
1 ≤ σ i + 1 ≤ q i γ i + 1 γ i
成立,其中0<qi<1满足,可知当i→∞时,迭代性能指标函数收敛到最优性能指标函数J*(xk)的一个有界邻域内。
有界误差收敛准则的设计过程
由迭代误差σi+1满足可知误差σi+1是参数γi的函数。当获得参数γi后,可以通过迭代误差σi+1来保证迭代性能指标函数收敛。
Ω γ i = { γ i | γ i U ( x k , u k ) ≥ V i ( F ( x k , u k ) ) } 为满足Vi(F(xk,uk))≤γiU(xk,uk)成立的γi的集合。由于近似误差的存在,准确的迭代性能指标函数Vi(xk)通常无法直接获得。因此参数γi无法直接由Vi(F(xk,uk))≤γiU(xk,uk)获得。本发明给出三种算法来获得参数γi
算法I:
步骤I-1、令μ(xk)为任意给定的容许控制。
步骤I-2、对于i=1,2,...,根据μ(xk)构造新的性能指标函数Pi(xk),满足
Pi+1(xk)=U(xk,μ(xk))+Pi(xk+1)
其中P0(xk)=V0(xk)=Ψ(xk);
步骤I-3、给出使其满足
γ ~ i U ( x k , u k ) ≥ P i ( F ( x k , u k ) ) ;
步骤I-4、令
算法II:
步骤II-1、对于迭代性能指标函数可以通过下式获得
V ^ i + 1 ( x k ) = U ( x k , v ^ i ( x k ) ) + V ^ i ( F ( x k , v ^ i ( x k ) ) ) + π i ( x k ) ;
其中πi(xk)为评判网络近似误差。
步骤II-2、令|πi(xk)|为πi(xk)的上界。定义新的迭代性能指标函数为
步骤II-3、令
步骤II-4、由 γ ^ i U ( x k , u k ) ≥ V ^ i ( F ( x k , u k ) ) 得出
步骤II-5、令
算法III:
步骤III-1、记录σ 0σ 1,…,σ i-1γ 0γ 1,…,γ i-1
步骤III-2、通过
V ^ i + 1 ( x k ) = U ( x k , v ^ i ( x k ) ) + V ^ i ( F ( x k , v ^ i ( x k ) ) ) + π i ( x k )
获得迭代性能指标函数通过
Γ i + 1 ( x k ) = min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) }
获得目标迭代性能指标函数Γi(xk);
步骤III-3、对于根据如下不等式
V ^ i ( x k ) ≥ σ ‾ i Γ i ( x k )
获得σ i。如果σ i=1。根据如下不等式
γ ^ i U ( x k , u k ) ≥ V ^ i ( F ( x k , u k ) ) ,
获得
步骤III-4、令
Δ ‾ i = σ ‾ i [ 1 + Σ j = 1 i - 1 ( σ ‾ i - 1 σ ‾ i - 2 . . . σ ‾ i - j + 1 ( σ ‾ i - j - 1 ) × γ ‾ i - 1 γ ‾ i - 2 . . . γ ‾ i - j ( γ ‾ i - 1 + 1 ) ( γ ‾ i - 2 + 1 ) . . . ( γ ‾ i - j + 1 ) ) ]
通过下式解出γ i
γ i ‾ = γ ^ i Δ ‾ i ;
步骤III-5、令γiγ i
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于可变误差的非线性系统自适应最优控制方法,包括以下步骤:
步骤1、选择随机初始状态x0;选择任意半正定函数Ψ(xk)≥0;选择收敛精度ζ;给定参数序列{qi},其中0<qi<1;给定两个常数0<ξ<1分别表示可变误差的衰减率;令迭代参数i=0;
步骤2、令初始性能指标函数并求得参数γ0,使其满足V0(F(xk,uk))≤γ0U(xk,uk),其中F(xk,uk)是系统状态方程,V0(xk)为初始性能指标函数,U(xk,uk)是系统的效用函数,Ψ(xk)为半正定函数;
步骤3、计算得到初始控制律 v ^ 0 ( x k ) = arg min u k { U ( x k , u k ) + V ^ 0 ( x k + 1 ) } + ρ 0 ( x k ) , 以及初始迭代性能指标函数 V ^ 1 ( x k ) = U ( x k , v ^ 0 ( x k ) ) + V ^ 0 ( F ( x k , v ^ 0 ( x k ) ) ) + π 0 ( x k ) ; 其中,ρ0(xk)为迭代控制近似误差,π0(xk)为迭代性能指标函数近似误差;
步骤4、定义单步迭代的目标迭代性能指标函数为定义全局迭代目标函数为计算获得参数σ1使其满足给定任意0<q0≤1,如果σ1满足其中γ0可由步骤2得到,则估计参数γ1使其满足V1(F(xk,uk))≤γ1U(xk,uk),并令i=i+1,继续执行下一步;否则,令和π0(xk)=ξπ0(xk),返回步骤3继续执行;
步骤5、对于任意i=1,2,…,计算得到迭代控制律 v ^ i ( x k ) = arg min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } + ρ i ( x k ) 和迭代性能指标函数 V ^ i + 1 ( x k ) = U ( x k , v ^ i ( x k ) ) + V ^ i ( F ( x k , v ^ i ( x k ) ) ) + π i ( x k ) ; 其中ρi(xk)为迭代控制近似误差,πi(xk)迭代性能指标函数近似误差;
步骤6、定义全局迭代目标函数为 V i + 1 ( x k ) = min u k { U ( x k , u k ) + V i ( x k + 1 ) } ; 根据目标迭代性能指标函数 Γ i + 1 ( x k ) = min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } , 计算获得参数σi使其满足 V ^ i + 1 ( x k ) ≤ σ i + 1 Γ i + 1 ( x k ) ;
给定任意0<qi≤1,如果σi满足则估计γi+1使其满足Vi+1(F(xk,uk))≤γi+1U(xk,uk),并继续执行下一步;否则,令和πi(xk)=ξπi(xk),返回步骤5继续执行;
步骤7、如果ζ是收敛精度,即可获得最优性能指标函数和最优控制律;否则令i=i+1继续返回步骤5执行。
2.如权利要求1所述的非线性系统自适应最优控制方法,其特征在于,在步骤5中采用两个神经网络,即执行网络与评判网络分别逼近迭代控制律与迭代性能指标函数。
3.如权利要求2所述的非线性系统自适应最优控制方法,其特征在于,所述评判网络与执行网络均采用BP神经网络进行构建。
4.如权利要求1所述的非线性系统自适应最优控制方法,其特征在于,在步骤6中获得参数γi的步骤为:
步骤I-1、令μ(xk)为任意给定的容许控制;
步骤I-2、对于i=1,2,…,根据μ(xk)构造新的性能指标函数Pi(xk),满足Pi+1(xk)=U(xk,μ(xk))+Pi(xk+1),其中P0(xk)=V0(xk)=Ψ(xk);
步骤I-3、给出使其满足 γ ~ i U ( x k , u k ) ≥ P i ( F ( x k , u k ) ) ;
步骤I-4、令
5.如权利要求1所述的非线性系统自适应最优控制方法,其特征在于,在步骤6中获得参数γi的步骤为:
步骤II-1、对于迭代性能指标函数可以通过下式获得 V ^ i + 1 ( x k ) = U ( x k , v ^ i ( x k ) ) + V ^ i ( F ( x k , v ^ i ( x k ) ) ) + π i ( x k ) ; 其中πi(xk)为评判网络近似误差;
步骤II-2、令|πi(xk)|为πi(xk)的上界,定义新的迭代性能指标函数为
步骤II-3、令 V ^ i ( x k ) = V ^ i ( x k ) ;
步骤II-4、由 γ ^ i U ( x k , u k ) ≥ V ^ i ( F ( x k , u k ) ) 得出
步骤II-5、令
6.如权利要求1所述的非线性系统自适应最优控制方法,其特征在于,在步骤6中获得参数γi的步骤为:
步骤III-1、记录
步骤III-2、通过 V ^ i + 1 ( x k ) = U ( x k , v ^ i ( x k ) ) + V ^ i ( F ( x k , v ^ i ( x k ) ) ) + π i ( x k ) 获得迭代性能指标函数通过 Γ i + 1 ( x k ) = min u k { U ( x k , u k ) + V ^ i ( x k + 1 ) } 获得目标迭代性能指标函数Γi(xk);
步骤III-3、对于根据如下不等式获得如果 V ^ i ( x k ) ≥ Γ i ( x k ) , σ ‾ i = 1 ; 根据如下不等式 γ ^ i U ( x k , u k ) ≥ V ^ i ( F ( x k , u k ) ) 获得
步骤III-4、令 Δ ‾ i = σ ‾ i [ 1 + Σ j = 1 i - 1 ( σ ‾ i - 1 σ ‾ i - 2 . . . σ ‾ i - j + 1 ( σ ‾ i - j - 1 ) × γ ‾ i - 1 γ ‾ i - 2 . . . γ ‾ i - j ( γ ‾ i - 1 + 1 ) ( γ ‾ i - 2 + 1 ) . . . ( γ ‾ i - j + 1 ) ) ] ,
通过下式解出
γ ‾ i = γ ^ i Δ ‾ i ;
步骤III-5、令
CN201510272090.4A 2015-05-25 2015-05-25 一种基于可变误差的非线性系统自适应最优控制方法 Pending CN104834221A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010240156.2A CN111308896B (zh) 2015-05-25 2015-05-25 基于可变误差的非线性系统自适应最优控制方法
CN201510272090.4A CN104834221A (zh) 2015-05-25 2015-05-25 一种基于可变误差的非线性系统自适应最优控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510272090.4A CN104834221A (zh) 2015-05-25 2015-05-25 一种基于可变误差的非线性系统自适应最优控制方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010240156.2A Division CN111308896B (zh) 2015-05-25 2015-05-25 基于可变误差的非线性系统自适应最优控制方法

Publications (1)

Publication Number Publication Date
CN104834221A true CN104834221A (zh) 2015-08-12

Family

ID=53812175

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201510272090.4A Pending CN104834221A (zh) 2015-05-25 2015-05-25 一种基于可变误差的非线性系统自适应最优控制方法
CN202010240156.2A Active CN111308896B (zh) 2015-05-25 2015-05-25 基于可变误差的非线性系统自适应最优控制方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202010240156.2A Active CN111308896B (zh) 2015-05-25 2015-05-25 基于可变误差的非线性系统自适应最优控制方法

Country Status (1)

Country Link
CN (2) CN104834221A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105071421A (zh) * 2015-08-17 2015-11-18 中国科学院自动化研究所 办公建筑能耗管理方法
CN105644548A (zh) * 2015-12-28 2016-06-08 中国科学院深圳先进技术研究院 混合动力汽车的能量控制方法及装置
CN108196446A (zh) * 2017-12-14 2018-06-22 北京理工大学 模型未知的双电机负载的动态规划最优控制方法
CN109031949A (zh) * 2018-07-06 2018-12-18 广东工业大学 一种智能制造系统协同控制方法
CN110531715A (zh) * 2019-08-08 2019-12-03 北京北方华创微电子装备有限公司 Lpcvd工艺生产环境的控制方法及系统
CN110609525A (zh) * 2019-08-20 2019-12-24 南京航空航天大学 一种基于在线adp的非线性时滞系统最优控制方法
CN110888323A (zh) * 2019-11-26 2020-03-17 大连理工大学 一种用于切换系统智能优化的控制方法
CN112149361A (zh) * 2020-10-10 2020-12-29 中国科学技术大学 一种线性系统自适应最优控制方法和装置
CN114488783A (zh) * 2020-10-23 2022-05-13 太原理工大学 一种基于Scara机械臂的神经网络优化控制方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112346342B (zh) * 2020-11-03 2022-10-11 中国人民解放军空军工程大学 一种非仿射动力学系统的单网络自适应评价设计方法
CN112650290B (zh) * 2020-12-24 2023-12-08 广东工业大学 带有扰动补偿的高层消防无人机编队优化控制方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609305A (zh) * 2008-06-18 2009-12-23 中国科学院自动化研究所 一种基于音圈电机的主动隔振控制方法
JP2010263754A (ja) * 2009-05-11 2010-11-18 Chugoku Electric Power Co Inc:The 配電系統状態推定方法及び配電系統状態推定装置
CN104022503A (zh) * 2014-06-18 2014-09-03 中国科学院自动化研究所 一种带有储能设备的智能微电网电能优化控制方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8086328B2 (en) * 2008-08-29 2011-12-27 Honeywell International Inc. Systems and methods for vibration rectification error reduction in closed-loop accelerometer systems
US9240360B2 (en) * 2012-07-25 2016-01-19 International Business Machines Corporation Run-to-run control utilizing virtual metrology in semiconductor manufacturing
US9292010B2 (en) * 2012-11-05 2016-03-22 Rockwell Automation Technologies, Inc. Online integration of model-based optimization and model-less control
CN103217899B (zh) * 2013-01-30 2016-05-18 中国科学院自动化研究所 基于数据的q函数自适应动态规划方法
CN103294029A (zh) * 2013-05-15 2013-09-11 华南理工大学 一种针对工业过程的高效数据驱动内模多项式控制器
CN104460721B (zh) * 2014-09-23 2017-01-25 北京矿冶研究总院 一种湿法冶金浓密洗涤过程底流浓度优化控制方法
CN104238565B (zh) * 2014-09-30 2017-07-18 清华大学 一种应用于容错飞行控制系统的鲁棒控制分配方法
CN104614985B (zh) * 2014-11-27 2017-09-12 北京航空航天大学 一种基于非线性规划的高阶系统最优降阶方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609305A (zh) * 2008-06-18 2009-12-23 中国科学院自动化研究所 一种基于音圈电机的主动隔振控制方法
JP2010263754A (ja) * 2009-05-11 2010-11-18 Chugoku Electric Power Co Inc:The 配電系統状態推定方法及び配電系統状態推定装置
CN104022503A (zh) * 2014-06-18 2014-09-03 中国科学院自动化研究所 一种带有储能设备的智能微电网电能优化控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FEI-YUE WANG 等: "Adaptive Dynamic Programming for Finite-Horizon Optimal Control of Discrete-Time Nonlinear Systems with ε-Error Bound", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》 *
丁强: "有限时间ADP算法的若干问题研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
林小峰 等: "基于评价网络近似误差的自适应动态规划优化控制", 《控制与决策》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105071421A (zh) * 2015-08-17 2015-11-18 中国科学院自动化研究所 办公建筑能耗管理方法
CN105644548A (zh) * 2015-12-28 2016-06-08 中国科学院深圳先进技术研究院 混合动力汽车的能量控制方法及装置
CN105644548B (zh) * 2015-12-28 2019-07-02 中国科学院深圳先进技术研究院 混合动力汽车的能量控制方法及装置
CN108196446B (zh) * 2017-12-14 2020-04-17 北京理工大学 模型未知的双电机负载的动态规划最优控制方法
CN108196446A (zh) * 2017-12-14 2018-06-22 北京理工大学 模型未知的双电机负载的动态规划最优控制方法
CN109031949A (zh) * 2018-07-06 2018-12-18 广东工业大学 一种智能制造系统协同控制方法
CN110531715A (zh) * 2019-08-08 2019-12-03 北京北方华创微电子装备有限公司 Lpcvd工艺生产环境的控制方法及系统
CN110531715B (zh) * 2019-08-08 2021-03-02 北京北方华创微电子装备有限公司 Lpcvd工艺生产环境的控制方法及系统
CN110609525A (zh) * 2019-08-20 2019-12-24 南京航空航天大学 一种基于在线adp的非线性时滞系统最优控制方法
CN110609525B (zh) * 2019-08-20 2021-11-23 南京航空航天大学 一种基于在线adp的非线性时滞系统最优控制方法
CN110888323A (zh) * 2019-11-26 2020-03-17 大连理工大学 一种用于切换系统智能优化的控制方法
CN112149361A (zh) * 2020-10-10 2020-12-29 中国科学技术大学 一种线性系统自适应最优控制方法和装置
CN114488783A (zh) * 2020-10-23 2022-05-13 太原理工大学 一种基于Scara机械臂的神经网络优化控制方法
CN114488783B (zh) * 2020-10-23 2023-12-22 太原理工大学 一种基于Scara机械臂的神经网络优化控制方法

Also Published As

Publication number Publication date
CN111308896A (zh) 2020-06-19
CN111308896B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN104834221A (zh) 一种基于可变误差的非线性系统自适应最优控制方法
CN109492287A (zh) 一种基于bp神经网络的固态电解质离子电导率预测方法
CN105138006A (zh) 一种时滞非线性多智能体系统的协同追踪控制方法
CN104407515B (zh) 一种基于不确定模型的LMIs状态反馈系统控制方法
Yu et al. Multilayer neural networks-based direct adaptive control for switched nonlinear systems
CN104539601B (zh) 动态网络攻击过程可靠性分析方法及系统
CN104950672A (zh) 一种最优积分滑模控制方法
CN109725537A (zh) 一种改进的线性最优半主动控制方法
CN109598381A (zh) 一种基于状态频率记忆神经网络的短时交通流预测方法
Li et al. A free search krill herd algorithm for functions optimization
CN105023056A (zh) 基于群智能强化学习的电网最优碳能复合流获取方法
CN107194460A (zh) 金融时间序列预测的量子粒子群优化递归神经网络方法
CN105184400A (zh) 一种烟田土壤水分预测方法
CN109858798A (zh) 关联改造措施与电压指标的电网投资决策建模方法及装置
CN102663493A (zh) 一种用于时间序列预测的迟滞神经网络
CN103559541A (zh) 一种大数据中面向乱序数据流的反向传播方法
CN117052457A (zh) 隧道施工粉尘治理控制方法、系统、设备及介质
CN106371321A (zh) 一种焦化炉炉膛压力系统模糊网络优化pid控制方法
Wei et al. Adaptive dynamic programming with stable value iteration algorithm for discrete-time nonlinear systems
Guo et al. Learning automata-based algorithms for solving the stochastic shortest path routing problems in 5G wireless communication
CN113110061B (zh) 基于改进粒子群算法优化的智能灌溉模糊控制方法及系统
Wei et al. Optimal tracking control scheme for discrete-time nonlinear systems with approximation errors
Taitler et al. Minimum time optimal control of second order system with quadratic drag and state constraints
CN106444389A (zh) 一种废塑料裂解温度系统的模糊rbf网络优化pi控制方法
CN103812696A (zh) 一种基于混合蛙跳算法的物联网节点信誉评估方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150812