CN106227043A - 自适应最优控制方法 - Google Patents
自适应最优控制方法 Download PDFInfo
- Publication number
- CN106227043A CN106227043A CN201610815563.5A CN201610815563A CN106227043A CN 106227043 A CN106227043 A CN 106227043A CN 201610815563 A CN201610815563 A CN 201610815563A CN 106227043 A CN106227043 A CN 106227043A
- Authority
- CN
- China
- Prior art keywords
- representing
- function
- following formula
- iteration
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 9
- 230000009471 action Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 143
- 238000011156 evaluation Methods 0.000 claims description 87
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 10
- 238000013459 approach Methods 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 230000007935 neutral effect Effects 0.000 abstract 1
- 238000005192 partition Methods 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种自适应最优控制方法。其中,将控制系统的状态空间进行子空间划分;基于局部迭代算法,确定初始性能指标函数;判断控制系统的当前状态是否处于现行子空间中;若是,则根据判断结果优化当前状态下的动作;否则,保持上一时刻的动作,并根据状态所属子空间,确定初始迭代控制律以及初始迭代性能指标函数;接着,针对任一迭代,利用神经网络确定迭代性能指标函数和迭代控制律;再确定相邻两次迭代评价网络是否满足一定的收敛条件;最后,将得到的性能指标函数和控制律确定为最优性能指标函数和最优控制律。本发明实施例加快了收敛速度,实现了在系统状态稳定的情况下性能指标函数达到最小的效果。
Description
技术领域
本发明实施例涉及智能控制技术领域,尤其是涉及一种自适应最优控制方法。
背景技术
在当今的社会生活和工业领域存在着大量的复杂系统,如电力系统、交通系统、制造系统、化工过程系统、通信网络系统等,其都需要被控系统在有限的资源条件下完成控制目标。最优控制是使控制系统的性能指标实现最优化的基本条件和综合方法。可概括为:对一个受控的动力学系统或运动过程,从一类允许的控制方案中找出一个最优的控制方案,使系统的运动在由某个初始状态转移到指定目标状态的同时,其性能指标最优。
随着科技的发展,人们对控制系统的性能也提出了越来越高的要求。而这些复杂的系统通常具有高度的非线性、未知的动态特性、模型的不确定性等。除此之外,一般的复杂系统均有大量数据,若采用全局迭代方法使系统达到最优,则需要搜集系统的全部数据,使得系统收敛速度变慢。
定义控制序列集合为:
对于任意的控制序列:u k∈Θ k,最优性能指标函数可以为:
根据Bellman最优性原理,J*(xk)满足离散时间HJB方程:
根据以下公式确定最优控制:
将最优控制代入离散时间HJB方程可得最优性能指标函数为:
J*(xk)=U(xk,u*(xk))+J*(F(xk,u*(xk)))。
对于非线性系统,最优性能指标函数J*(xk)具有非线性且通常没有解析形式,这使得无法通过直接求解HJB方程来得到最优控制。
有鉴于此,特提出本发明。
发明内容
鉴于上述问题,提出了本发明以便提供一种自适应最优控制方法,以实现在系统状态稳定的情况下性能指标函数达到最小。
为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:
一种自适应最优控制方法,所述方法包括:
步骤1:对控制系统的状态空间进行子空间划分;
步骤2:基于局部迭代算法,根据以下公式确定初始性能指标函数:
V0(xk)=ψ(xk);
其中,所述xk表示所述控制系统的状态;所述ψ(xk)表示任意半正定函数;所述V0(xk)表示在所述xk下的所述初始性能指标函数;
步骤3:判断所述控制系统的当前状态是否处于现行子空间中,若是,则执行步骤4;否则,执行步骤5;
步骤4:优化所述当前状态下的动作;
步骤5:保持上一时刻的动作,并根据状态所属子空间,确定初始迭代控制律以及初始迭代性能指标函数:
V1(xk)=U(xk,v1(xk))+V1(F(xk,v1(xk)));
其中,所述v1(xk)表示所述初始迭代控制律;所述V1(xk)表示所述初始迭代性能指标函数;所述uk表示系统控制向量;所述F(xk,v1(xk))表示系统状态函数;所述U(xk,uk)表示效用函数;
步骤6:针对任一迭代,利用神经网络根据以下公式确定迭代性能指标函数和迭代控制律:
Vi(xk)=U(xk,vi(xk))+Vi(F(xk,vi(xk)));
其中,所述i表示迭代指标,i=1,2,...∞;所述Vi(xk)表示所述迭代性能指标函数;所述vi(xk)表示所述迭代控制律;
步骤7:确定相邻两次迭代评价网络是否满足如下收敛条件:
|Vi+1(xk)-Vi(xk)|≤ε;其中,所述ε表示收敛精度;若是,执行步骤8;否则,执行步骤6;
步骤8:将得到的性能指标函数和控制律确定为最优性能指标函数和最优控制律。
优选地,所述控制系统输入容许控制,根据以下步骤来确定初始容许控制:
步骤S1:确定所述任意半正定函数、最大迭代值及所述迭代精度,并采用小随机权值初始化第一评价网络和第二评价网络;
步骤S2:采用小随机权值建立一执行网络,并利用所述执行网络生成初始控制律;
步骤S3:在第一次迭代时,训练所述第一评价网络逼近Φ1(xk),使所述Φ1(xk)满足:Φ1(xk)=(1-α0(xk))Φ0(xk)+α0(xk)(U(xk,μ(xk))+Φ0(xk+1))。
其中,所述Φ0(xk)=Γ(xk);所述Γ(xk)表示所述任意半正定函数;所述xk表示所述控制系统的系统状态;所述μ(xk)表示初始控制律;所述U(xk,μ(xk))表示效用函数;
步骤S4:将所述第一评价网络的权值赋给所述第二评价网络;
步骤S5:从第二次迭代开始,利用所述第二评价网络产生Φi(xk+1),训练所述第一评价网络逼近所述Φi(xk+1),并使所述Φi(xk+1)满足:
Φi+1(xk)=(1-αi(xk))Φi(xk)+αi(xk)(U(xk,μ(xk))+Φi(xk+1))
步骤S6:通过所述第一评价网络获得Φi+1(xk),并通过所述第二评价网络获得Φi(xk),进行如下判断:|Φi+1(xk)-Φi(xk)|<ε;其中,所述ε表示迭代精度;若是,则执行步骤S8;否则执行步骤S7;
步骤S7:若i>imax,跳到步骤S8;否则跳到步骤S4;其中,所述imax表示所述最大迭代值;
步骤S8:将所述初始控制律作为所述初始容许控制。
优选地,所述方法还包括:
确定所述控制系统的初始状态:x0=[1,-1]T;
根据以下公式确定初始控制律:
其中,所述v0(xk)表示初始控制律;
根据以下公式更新局部迭代值函数:
其中,所述表示所述局部迭代值函数;
根据以下公式确定第一全局迭代值函数:
其中,所述xk∈Ωx;所述α0(xk)表示状态依赖的学习率函数;
令α0(xk)为标量函数并满足:
根据以下公式更新策略:
根据以下公式更新评价:
根据以下公式确定第二全局迭代值函数:
其中,将学习率函数序列定义为:{αi(xk)},i=1,2,...;
令学习率函数αi(xk)为标量函数,并满足:
优选地,所述步骤6具体包括:
根据以下公式确定执行网络的逼近目标:
其中,所述i表示迭代指标;所述表示所述执行网络的所述逼近目标;
确定所述执行网络的输出为:
其中,所述表示所述执行网络的权值;
根据以下公式确定所述执行网络的误差:
其中,所述表示所述执行网络的误差;所述表示所述执行网络的输出;所述表示所述执行网络的所述逼近目标;
根据以下公式确定所述执行网络的评价指标:
其中,所述表示所述执行网络的所述评价指标;
根据以下公式对所述执行网络的所述权值进行更新:
其中,所述la表示所述执行网络的学习率,所述la>0。
优选地,所述步骤6还具体包括:
根据以下公式确定所述评价网络的逼近目标:
其中,αi(xk)表示学习率函数,并满足:
根据以下公式确定所述评价网络的输出:
其中,所述表示所述评价网络的权值;
根据以下公式确定评价网络误差:
其中,所述表示所述评价网络误差;
根据以下公式确定所述评价网络的评价指标:
其中,所述表示所述评价网络的所述评价指标;
根据以下公式对所述评价网络的所述权值进行更新:
其中,所述lc表示所述评价网络的学习率;
训练评价网络,以使得迭代性能指标函数律满足下式:
其中,所述表示所述迭代性能指标函数律;所述Vi+1(xk)表示所述迭代性能指标函数;
根据以下公式确定所述迭代性能指标函数:
优选地,所述将得到的性能指标函数确定为最优性能指标函数具体包括:
根据以下公式确定所述性能指标函数:
其中,所述k表示时刻;所述u k=(uk,uk+1,...)表示由所述时刻k到∞的控制序列;所述x0表示控制系统的状态;
根据以下公式确定控制序列集合:
其中,所述Θ k表示所述控制序列集合;
根据以下公式确定所述最优性能指标函数:
其中,所述J*(xk)表示所述最优性能指标函数;
根据以下公式使得所述迭代性能指标函数收敛于所述最优性能指标函数:
其中,所述Vi+1(xk)表示所述迭代性能指标函数。
本发明实施例提出一种自适应最优控制方法,通过将控制系统的状态空间进行子空间划分;基于局部迭代算法,确定初始性能指标函数;判断控制系统的当前状态是否处于现行子空间中;若是,则根据判断结果优化当前状态下的动作;否则,保持上一时刻的动作,并根据状态所属子空间,确定初始迭代控制律以及初始迭代性能指标函数;接着,针对任一迭代,利用神经网络确定迭代性能指标函数和迭代控制律;再确定相邻两次迭代评价网络是否满足一定的收敛条件;最后,将得到的性能指标函数和控制律确定为最优性能指标函数和最优控制律。可见,本发明实施例只需要收集局部空间的状态数据来更新性能指标函数和策略控制函数,加快了收敛速度,也更适合应用于实际的系统控制中。另外,本发明实施例结合神经网络,利用神经网络的逼近性能,使最终的性能指标函数能够收敛到最优,实现了在系统状态稳定的情况下性能指标函数达到最小的技术效果。
附图说明
图1为根据一示例性实施例示出的自适应最优控制方法的流程示意图。
具体实施方式
下面结合附图以及具体实施例对本发明实施例解决的技术问题、所采用的技术方案以及实现的技术效果进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。基于本申请中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。
需要说明的是,在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本发明的实现可以没有这些具体细节。
在现有的最优控制方法中,自适应动态规划因其强大的学习和优化能力而被广泛应用于复杂系统。传统的自适应动态规划在每次迭代时,需要搜集全部状态空间的数据,但在实际应用中全部数据的收集是很困难的。另外传统的自适应动态规划必须在获得全部状态空间数据后才能更新性能指标函数和策略控制函数,这使得算法的收敛速度非常慢,不利于实际应用。为此,本发明实施例提出一种自适应最优控制方法。如图1所示,该控制方法可以包括:
S100:对控制系统的状态空间进行子空间划分。
在本步骤中,控制系统例如可以是扭摆系统。本文中提到的控制系统为非线性系统。例如:xk+1=F(xk,uk),k=0,1,2,...。其中,是n维的系统状态向量,xk表示任意状态;是m维的系统控制向量;x0是系统的初始状态;F(xk,uk)表示系统方程(也可视为扭摆的系统状态函数),其物理模型可以为:
其中,M=1/3kg,l=2/3m,令J=4/3Ml2,fd=0.2,g=9.8m/s2,ΔT=0.1s,则系统方程可化为:
可以假设子空间使其满足其中,Ωx表示控制系统整个状态空间,Ωx={(x1k,x2k)|-1≤x1k≤1,-1≤x2k≤1}。
划分出的子空间可以使性能指标函数和控制律在其中通过迭代进行更新(迭代指标i:0→∞)。
S110:基于局部迭代算法,根据以下公式确定初始性能指标函数:
V0(xk)=ψ(xk)
其中,ψ(xk)表示任意的半正定函数;V0(xk)表示状态xk下的初始性能指标函数。
本步骤中,可以选择初始状态:x0=[1,-1]T。令迭代指标i=0;则根据以下公式确定初始控制律:
其中,v0(xk)表示初始控制律。
根据以下公式更新局部迭代值函数:
其中,表示局部迭代值函数。
根据以下公式确定第一全局迭代值函数:
其中,xk∈Ωx;α0(xk)表示状态依赖的学习率函数。
其中,令α0(xk)为标量函数并满足:
其中,可以根据状态所属子空间,计算初始迭代控制律:
在以后的迭代i=1,2,...中,迭代自适应动态规划算法在策略vi(xk)和评价Vi(xk)提升中循环。
其中,根据以下公式更新策略:
根据以下公式更新评价:
根据以下公式确定第二全局迭代值函数:
其中,xk∈Ωx;学习率函数序列定义为:{αi(xk)},i=1,2,...。对i=1,2,...且令学习率函数αi(xk)为标量函数,并满足:
由于控制律vi(xk)是根据xk的所属子空间来更新的,若xk位于当前系统子空间内,那么控制律vi(xk)更新,反之控制律vi(xk)保持不变。用迭代性能指标函数Vi(xk)来近似最优性能指标函数J*(xk),用迭代控制律vi(xk)来近似最优控制律u*(xk)。因此当i→∞时,该算法是收敛的,即Vi(xk)与vi(xk)都收敛到最优值。
系统一开始输入为容许控制,然后通过子空间的状态数据来更新性能指标函数和策略控制函数,系统最后输出在评价函数的可接受误差邻域内,保证了系统迭代的收敛性。
具体地,确定容许控制的步骤具体可以包括:
S1:确定任意半正定函数、最大迭代值及迭代精度,并采用小随机权值初始化第一评价网络和第二评价网络。
本步骤中,评价网络可以采用BP神经网络来构建。BP神经网络的结构包括输入层、隐层和输出层三层结构,激活函数为双极S型函数。令隐含层神经元个数为L,输入层与隐含层间权值矩阵为Y,隐含层与输出层间权值矩阵为W,神经网络的输入为X,则神经网络可以表示为:
其中,σ(YX)∈RL,
为了加快神经网络的训练速度,令输入层与隐含层间权值矩阵Y为任意随机权值矩阵。当Y给定后其值固定不变,不进行更新,只调节隐含层与输出层权值矩阵W。因此神经网络的可以简化成如下形式:
具体地,本步骤可以选择任意半正定函数Γ(xk)≥0;设两个评价网络为cnet1(第一评价网络)与cnet2(第二评价网络),采用小随机权值初始化两个评价网络cnet1与cnet2;令Φ0(xk)=Γ(xk);选择最大迭代值imax及迭代精度ε。
S2:采用小随机权值建立一个执行网络,并利用该执行网络生成初始控制律。
本步骤中,执行网络可以采用BP神经网络来构建。
S3:在第一次迭代时,训练第一评价网络逼近Φ1(xk),使Φ1(xk)满足:Φ1(xk)=(1-α0(xk))Φ0(xk)+α0(xk)(U(xk,μ(xk))+Φ0(xk+1))。
其中,Φ0(xk)=Γ(xk);Γ(xk)表示任意半正定函数;xk表示控制系统的系统状态;μ(xk)表示初始控制律;U(xk,μ(xk))表示效用函数。
S4:将第一评价网络的权值赋给第二评价网络。
本步骤将cnet1的权值赋给cnet2,即cnet2=cnet1。
S5:从第二次迭代开始,利用第二评价网络产生Φi(xk+1),训练第一评价网络逼近Φi(xk+1),并使Φi(xk+1)满足:
Φi+1(xk)=(1-αi(xk))Φi(xk)+αi(xk)(U(xk,μ(xk))+Φi(xk+1))。
S6:通过第一评价网络获得Φi+1(xk),并通过第二评价网络获得Φi(xk),进行如下判断:|Φi+1(xk)-Φi(xk)|<ε;若是,则执行步骤S8;否则执行步骤S7;其中,ε表示迭代精度。
S7:若i>imax,跳到步骤S8;否则跳到步骤S4;其中,imax表示最大迭代值。
S8:将初始控制律作为初始容许控制。
例如:根据以下公式得到初始容许控制:
v0(xk)=μ(xk);
其中,μ(xk)表初始控制律示;v0(xk)表示初始容许控制。
S120:判断控制系统的当前状态是否处于现行子空间中,若是,则执行步骤S130;否则,执行步骤S140。
S130:优化当前状态下的动作。
S140:保持上一时刻的动作,并确定初始迭代控制律以及初始迭代性能指标函数:
V1(xk)=U(xk,v1(xk))+V1(F(xk,v1(xk)))
其中,v1(xk)表示初始迭代控制律;V1(xk)表示初始迭代性能指标函数;F(xk,v1(xk))表示系统状态函数;U(xk,uk)表示效用函数。
其中,Q=I1,R=I2,I1和I2分别表示对应维度的单位矩阵。
S150:针对任一迭代,利用神经网络根据以下公式确定迭代性能指标函数和迭代控制律:
Vi(xk)=U(xk,vi(xk))+Vi(F(xk,vi(xk)))
其中,i表示迭代指标,i=1,2,...∞;Vi(xk)表示迭代性能指标函数;vi(xk)表示迭代控制律。
在迭代过程中,控制律的更新依赖于当前控制系统状态的所属空间,如果系统当前状态包含于系统当前子空间中,那么控制律更新,否则系统控制律维持不变。
本发明实施例在策略评价和策略提升中循环,分别按照上述公式进行迭代。
不同于传统的策略迭代算法,迭代控制律vi(xk)是根据xk的所属子空间来更新的,若xk位于当前系统子空间内,那么控制律vi(xk)更新,反之迭代控制律vi(xk)保持不变。
在实际应用中,本发明实施例采用两个神经网络,即执行网络(Action Network)与评价网络(Critic Network)分别逼近迭代控制律与迭代性能指标函数,使得迭代性能指标函数收敛到最优性能指标函数的有限邻域内。
优选地,评价网络与执行网络可以均采用BP神经网络来构建。BP神经网络的结构为包括输入层、隐层和输出层的三层结构。其中,激活函数为双极S型函数。
根据以下公式确定BP神经网络:
其中,L表示隐含层神经元个数;Y表示输入层与隐含层间权值矩阵;W表示隐含层与输出层间权值矩阵;X表示BP神经网络的输入;σ(YX)∈RL;
在具体实施中,为了加快BP神经网络的训练速度,令输入层与隐含层间权值矩阵Y为任意随机权值矩阵。当Y给定后其值固定不变,不进行更新,只调节隐含层与输出层权值矩阵W。可以根据以下简化形式来确定BP神经网络:
具体地,利用执行网络确定迭代控制律具体可以包括:
对于根据以下公式确定执行网络的逼近目标:
其中,i表示迭代指标;表示执行网络的逼近目标。
则,执行网络的输出为:
其中,表示执行网络的权值。
其中,根据以下公式确定执行网络误差:
其中,表示执行网络误差;表示执行网络的输出;表示执行网络的逼近目标。
根据以下公式确定执行网络的评价指标:
其中,表示执行网络的评价指标;表示执行网络误差。
根据以下公式对执行网络权值进行更新:
其中,la表示执行网络的学习率,la>0。
另外,利用评价网络确定迭代性能指标函数具体可以包括:根据以下公式确定评价网络的逼近目标:
其中,αi(xk)表示标量函数,并满足:
则,根据以下公式确定评价网络的输出:
其中,表示评价网络的权值。
根据以下公式确定评价网络误差:
其中,表示评价网络误差;
根据以下公式确定评价网络的评价指标:
其中,表示评价网络的评价指标;
根据以下公式对评价网络的权值进行更新:
其中,lc表示评价网络的学习率。
训练评价网络,以使得迭代性能指标函数律满足下式:
其中,表示迭代性能指标函数律;Vi+1(xk)表示迭代性能指标函数。
在迭代性能指标函数律满足上式时,根据以下公式确定迭代性能指标函数:
可见,采用评价网络与执行神经网络即可运行本发明实施例提出的方法。
S160:确定相邻两次迭代评价网络是否满足如下收敛条件:
|Vi+1(xk)-Vi(xk)|≤ε
若是,执行步骤S170;否则,执行步骤S150。
其中,ε表示收敛精度。
S170:将得到的性能指标函数和控制律确定为最优性能指标函数和最优控制律。
具体地,确定最优性能指标函数的步骤可以包括:
根据以下公式确定性能指标函数:
其中,uk=(uk,uk+1,...)表示由时刻k到∞的控制序列;x0表示控制系统的状态。
根据以下公式确定控制序列集合:
其中,Θ k表示所述控制序列集合。
根据以下公式确定最优性能指标函数:
其中,J*(xk)表示最优性能指标函数。
根据以下公式使得迭代性能指标函数收敛于最优性能指标函数:
其中,Vi+1(xk)表示迭代性能指标函数。
本步骤用迭代性能指标函数Vi(xk)来近似最优性能指标函数J*(xk);用迭代控制律vi(xk)来近似最优控制律u*(xk)。因此当i→∞时,该算法是收敛的,即Vi(xk)与vi(xk)都收敛到最优值。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现;本发明的各个步骤也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),。因此,本发明不限于任何特定的硬件和软件或者其结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种自适应最优控制方法,其特征在于,所述方法包括:
步骤1:对控制系统的状态空间进行子空间划分;
步骤2:基于局部迭代算法,根据以下公式确定初始性能指标函数:
V0(xk)=ψ(xk);
其中,所述xk表示所述控制系统的状态;所述ψ(xk)表示任意半正定函数;所述V0(xk)表示在所述xk下的所述初始性能指标函数;
步骤3:判断所述控制系统的当前状态是否处于现行子空间中,若是,则执行步骤4;否则,执行步骤5;
步骤4:优化所述当前状态下的动作;
步骤5:保持上一时刻的动作,并根据状态所属子空间,确定初始迭代控制律以及初始迭代性能指标函数:
V1(xk)=U(xk,v1(xk))+V1(F(xk,v1(xk)));
其中,所述v1(xk)表示所述初始迭代控制律;所述V1(xk)表示所述初始迭代性能指标函数;所述uk表示系统控制向量;所述F(xk,v1(xk))表示系统状态函数;所述U(xk,uk)表示效用函数;
步骤6:针对任一迭代,利用神经网络根据以下公式确定迭代性能指标函数和迭代控制律:
Vi(xk)=U(xk,vi(xk))+Vi(F(xk,vi(xk)));
其中,所述i表示迭代指标,i=1,2,...∞;所述Vi(xk)表示所述迭代性能指标函数;所述vi(xk)表示所述迭代控制律;
步骤7:确定相邻两次迭代评价网络是否满足如下收敛条件:
|Vi+1(xk)-Vi(xk)|≤ε;其中,所述ε表示收敛精度;若是,执行步骤8;否则,执行步骤6;
步骤8:将得到的性能指标函数和控制律确定为最优性能指标函数和最优控制律。
2.根据权利要求1所述的方法,其特征在于,所述控制系统输入容许控制,根据以下步骤来确定初始容许控制:
步骤S1:确定所述任意半正定函数、最大迭代值及所述迭代精度,并采用小随机权值初始化第一评价网络和第二评价网络;
步骤S2:采用小随机权值建立一执行网络,并利用所述执行网络生成初始控制律;
步骤S3:在第一次迭代时,训练所述第一评价网络逼近Φ1(xk),使所述Φ1(xk)满足:Φ1(xk)=(1-α0(xk))Φ0(xk)+α0(xk)(U(xk,μ(xk))+Φ0(xk+1))。
其中,所述Φ0(xk)=Γ(xk);所述Γ(xk)表示所述任意半正定函数;所述xk表示所述控制系统的系统状态;所述μ(xk)表示初始控制律;所述U(xk,μ(xk))表示效用函数;
步骤S4:将所述第一评价网络的权值赋给所述第二评价网络;
步骤S5:从第二次迭代开始,利用所述第二评价网络产生Φi(xk+1),训练所述第一评价网络逼近所述Φi(xk+1),并使所述Φi(xk+1)满足:
Φi+1(xk)=(1-αi(xk))Φi(xk)+αi(xk)(U(xk,μ(xk))+Φi(xk+1))
步骤S6:通过所述第一评价网络获得Φi+1(xk),并通过所述第二评价网络获得Φi(xk),进行如下判断:|Φi+1(xk)-Φi(xk)|<ε;其中,所述ε表示迭代精度;若是,则执行步骤S8;否则执行步骤S7;
步骤S7:若i>imax,跳到步骤S8;否则跳到步骤S4;其中,所述imax表示所述最大迭代值;
步骤S8:将所述初始控制律作为所述初始容许控制。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述控制系统的初始状态:x0=[1,-1]T;
根据以下公式确定初始控制律:
其中,所述v0(xk)表示初始控制律;
根据以下公式更新局部迭代值函数:
其中,所述表示所述局部迭代值函数;
根据以下公式确定第一全局迭代值函数:
其中,所述xk∈Ωx;所述α0(xk)表示状态依赖的学习率函数;
令α0(xk)为标量函数并满足:
根据以下公式更新策略:
根据以下公式更新评价:
根据以下公式确定第二全局迭代值函数:
其中,将学习率函数序列定义为:{αi(xk)},i=1,2,...;
令学习率函数αi(xk)为标量函数,并满足:
4.根据权利要求1所述的方法,其特征在于,所述步骤6具体包括:
根据以下公式确定执行网络的逼近目标:
其中,所述i表示迭代指标;所述表示所述执行网络的所述逼近目标;
确定所述执行网络的输出为:
其中,所述表示所述执行网络的权值;
根据以下公式确定所述执行网络的误差:
其中,所述表示所述执行网络的误差;所述表示所述执行网络的输出;所述表示所述执行网络的所述逼近目标;
根据以下公式确定所述执行网络的评价指标:
其中,所述表示所述执行网络的所述评价指标;
根据以下公式对所述执行网络的所述权值进行更新:
其中,所述la表示所述执行网络的学习率,所述la>0。
5.根据权利要求1所述的方法,其特征在于,所述步骤6还具体包括:
根据以下公式确定所述评价网络的逼近目标:
其中,αi(xk)表示学习率函数,并满足:
根据以下公式确定所述评价网络的输出:
其中,所述表示所述评价网络的权值;
根据以下公式确定评价网络误差:
其中,所述表示所述评价网络误差;
根据以下公式确定所述评价网络的评价指标:
其中,所述表示所述评价网络的所述评价指标;
根据以下公式对所述评价网络的所述权值进行更新:
其中,所述lc表示所述评价网络的学习率;
训练评价网络,以使得迭代性能指标函数律满足下式:
其中,所述表示所述迭代性能指标函数律;所述Vi+1(xk)表示所述迭代性能指标函数;
根据以下公式确定所述迭代性能指标函数:
6.根据权利要求1所述的方法,其特征在于,所述将得到的性能指标函数确定为最优性能指标函数具体包括:
根据以下公式确定所述性能指标函数:
其中,所述k表示时刻;所述u k=(uk,uk+1,...)表示由所述时刻k到∞的控制序列;所述x0表示控制系统的状态;
根据以下公式确定控制序列集合:
其中,所述Θ k表示所述控制序列集合;
根据以下公式确定所述最优性能指标函数:
其中,所述J*(xk)表示所述最优性能指标函数;
根据以下公式使得所述迭代性能指标函数收敛于所述最优性能指标函数:
其中,所述Vi+1(xk)表示所述迭代性能指标函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610815563.5A CN106227043A (zh) | 2016-09-09 | 2016-09-09 | 自适应最优控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610815563.5A CN106227043A (zh) | 2016-09-09 | 2016-09-09 | 自适应最优控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106227043A true CN106227043A (zh) | 2016-12-14 |
Family
ID=58075496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610815563.5A Pending CN106227043A (zh) | 2016-09-09 | 2016-09-09 | 自适应最优控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106227043A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106873379A (zh) * | 2017-03-31 | 2017-06-20 | 北京工业大学 | 一种基于迭代adp算法的污水处理最优控制方法 |
CN107193210A (zh) * | 2017-05-08 | 2017-09-22 | 西北工业大学 | 一种非线性系统的自适应学习预设性能控制方法 |
CN107608208A (zh) * | 2017-08-24 | 2018-01-19 | 南京航空航天大学 | 一种面向任务约束的航天器姿态控制系统在轨重构方法 |
CN109696830A (zh) * | 2019-01-31 | 2019-04-30 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN110170992A (zh) * | 2019-04-02 | 2019-08-27 | 长春工业大学 | 一种基于动态规划的模块化机械臂多故障容错控制方法 |
CN110531715A (zh) * | 2019-08-08 | 2019-12-03 | 北京北方华创微电子装备有限公司 | Lpcvd工艺生产环境的控制方法及系统 |
CN110888323A (zh) * | 2019-11-26 | 2020-03-17 | 大连理工大学 | 一种用于切换系统智能优化的控制方法 |
CN111103802A (zh) * | 2019-12-31 | 2020-05-05 | 中南大学 | 锌液净化过程除杂反应器智能自主控制方法和系统 |
CN112859889A (zh) * | 2021-01-18 | 2021-05-28 | 湖南大学 | 基于自适应动态规划的自主式水下机器人控制方法和系统 |
CN113134834A (zh) * | 2021-03-31 | 2021-07-20 | 广州大学 | 一种机器人的控制信号确定方法、装置及存储介质 |
-
2016
- 2016-09-09 CN CN201610815563.5A patent/CN106227043A/zh active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106873379A (zh) * | 2017-03-31 | 2017-06-20 | 北京工业大学 | 一种基于迭代adp算法的污水处理最优控制方法 |
CN106873379B (zh) * | 2017-03-31 | 2019-12-27 | 北京工业大学 | 一种基于迭代adp算法的污水处理最优控制方法 |
CN107193210A (zh) * | 2017-05-08 | 2017-09-22 | 西北工业大学 | 一种非线性系统的自适应学习预设性能控制方法 |
CN107193210B (zh) * | 2017-05-08 | 2020-10-16 | 西北工业大学 | 一种非线性系统的自适应学习预设性能控制方法 |
CN107608208B (zh) * | 2017-08-24 | 2020-03-24 | 南京航空航天大学 | 一种面向任务约束的航天器姿态控制系统在轨重构方法 |
CN107608208A (zh) * | 2017-08-24 | 2018-01-19 | 南京航空航天大学 | 一种面向任务约束的航天器姿态控制系统在轨重构方法 |
CN109696830A (zh) * | 2019-01-31 | 2019-04-30 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN109696830B (zh) * | 2019-01-31 | 2021-12-03 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN110170992A (zh) * | 2019-04-02 | 2019-08-27 | 长春工业大学 | 一种基于动态规划的模块化机械臂多故障容错控制方法 |
CN110170992B (zh) * | 2019-04-02 | 2022-11-04 | 长春工业大学 | 一种基于动态规划的模块化机械臂多故障容错控制方法 |
CN110531715B (zh) * | 2019-08-08 | 2021-03-02 | 北京北方华创微电子装备有限公司 | Lpcvd工艺生产环境的控制方法及系统 |
CN110531715A (zh) * | 2019-08-08 | 2019-12-03 | 北京北方华创微电子装备有限公司 | Lpcvd工艺生产环境的控制方法及系统 |
CN110888323A (zh) * | 2019-11-26 | 2020-03-17 | 大连理工大学 | 一种用于切换系统智能优化的控制方法 |
CN111103802A (zh) * | 2019-12-31 | 2020-05-05 | 中南大学 | 锌液净化过程除杂反应器智能自主控制方法和系统 |
CN111103802B (zh) * | 2019-12-31 | 2021-11-12 | 中南大学 | 锌液净化过程除杂反应器智能自主控制方法和系统 |
CN112859889A (zh) * | 2021-01-18 | 2021-05-28 | 湖南大学 | 基于自适应动态规划的自主式水下机器人控制方法和系统 |
CN112859889B (zh) * | 2021-01-18 | 2022-02-15 | 湖南大学 | 基于自适应动态规划的自主式水下机器人控制方法和系统 |
CN113134834A (zh) * | 2021-03-31 | 2021-07-20 | 广州大学 | 一种机器人的控制信号确定方法、装置及存储介质 |
CN113134834B (zh) * | 2021-03-31 | 2022-06-03 | 广州大学 | 一种机器人的控制信号确定方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106227043A (zh) | 自适应最优控制方法 | |
Zhong et al. | Model-free adaptive control for unknown nonlinear zero-sum differential game | |
Han et al. | An improved evolutionary extreme learning machine based on particle swarm optimization | |
Moerland et al. | A0c: Alpha zero in continuous action space | |
CN106953862B (zh) | 网络安全态势的感知方法和装置及感知模型训练方法和装置 | |
Li et al. | Development and investigation of efficient artificial bee colony algorithm for numerical function optimization | |
CN110651280A (zh) | 投影神经网络 | |
CN109983480A (zh) | 使用聚类损失训练神经网络 | |
CN104636801A (zh) | 一种基于优化bp神经网络的预测输电线路可听噪声方法 | |
CN112784362A (zh) | 一种用于无人机辅助边缘计算的混合优化方法及系统 | |
CN112488183A (zh) | 一种模型优化方法、装置、计算机设备及存储介质 | |
CN115066694A (zh) | 计算图优化 | |
CN104217258A (zh) | 一种电力负荷条件密度预测方法 | |
CN108090621A (zh) | 一种基于分阶段整体优化的短期风速预测方法与系统 | |
Pan et al. | Multi-source transfer ELM-based Q learning | |
CN104539601A (zh) | 动态网络攻击过程可靠性分析方法及系统 | |
Gao et al. | Multi-UAV task allocation based on improved algorithm of multi-objective particle swarm optimization | |
CN112272074A (zh) | 一种基于神经网络的信息传输速率控制方法及系统 | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
CN113516163B (zh) | 基于网络剪枝的车辆分类模型压缩方法、装置及存储介质 | |
Song et al. | Fmint: Bridging human designed and data pretrained models for differential equation foundation model | |
CN111343602A (zh) | 基于进化算法的联合布局与任务调度优化方法 | |
CN111767991B (zh) | 一种基于深度q学习的测控资源调度方法 | |
CN117436627A (zh) | 任务分配方法、装置、终端设备及介质 | |
Kanthaswamy et al. | Control of dead-time systems using derivative free particle swarm optimisation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161214 |
|
RJ01 | Rejection of invention patent application after publication |