CN111880414A - 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 - Google Patents
一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 Download PDFInfo
- Publication number
- CN111880414A CN111880414A CN202010840032.8A CN202010840032A CN111880414A CN 111880414 A CN111880414 A CN 111880414A CN 202010840032 A CN202010840032 A CN 202010840032A CN 111880414 A CN111880414 A CN 111880414A
- Authority
- CN
- China
- Prior art keywords
- control
- robust
- uncertainty
- control strategy
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 title claims abstract description 41
- 230000002787 reinforcement Effects 0.000 title claims abstract description 12
- 230000003044 adaptive effect Effects 0.000 title claims description 13
- 238000011217 control strategy Methods 0.000 claims abstract description 74
- 238000013528 artificial neural network Methods 0.000 claims abstract description 48
- 230000006870 function Effects 0.000 claims description 61
- 238000005457 optimization Methods 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,属于工业控制技术领域,包括如下步骤:(1)基于最优控制的问题,推导匹配和不匹配DT仿射非线性系统鲁棒稳定条件;(2)结合神经网络逼近的交错RL方法寻找一致最终有界(UUB)稳定性的鲁棒控制策略。本发明通过建立一种简化哈密顿‑雅可比贝尔曼(HJB)方程来求解DT仿射非线性系统的鲁棒控制器,在未知结构匹配不确定性和非结构匹配不确定性的适用性意义上更具一般性。
Description
技术领域
本发明属于工业控制技术领域,具体涉及一种基于匹配或不匹配不确定性的不确定仿射非线性离散时间(DT)仿射非线性系统的自适应交错强化学习方。
背景技术
虽然在鲁棒控制领域已经有了大量的研究成果,但从离散时间采样的角度设计非线性系统的鲁棒控制器仍然是一个值得研究的问题。上述关于鲁棒控制的结果仅适用于连续时间线性或非线性系统。由于离散时间控制器具有可以用现代嵌入式硬件直接以数字形式实现的重要优点,那么如何直接在离散时间内为系统,特别是非线性DT系统设计鲁棒控制器就自然而然地提出了一个问题。DT系统与连续时间系统的本质差异对解决这一问题提出了挑战,而DT系统的非线性特性又会使其变得更加复杂。利用求解广义HJB方程的思想,提出了一种具有匹配不确定性的DT非线性系统的鲁棒控制策略。应该关注的包括两个方面。其一是针对DT非线性系统在自适应动态规划ADP结构下的鲁棒控制方法,该方法既适用于匹配的未知不确定性,也适用于不匹配的未知不确定性。另一种是在求解优化问题时,用简化的HJB方程代替Generalized Hamilton-Jacobi-Bellman(GHJB)方程,使得DT仿射非线性系统的鲁棒控制器可以用交错RL方法学习,计算量较小。
发明内容
本发明涉及一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,是一种针对非线性离散系统在自适应动态规划结构下的鲁棒控制方法。该方法既适用于结构匹配的未知确定性,也适用于非结构匹配的未知确定性。在用ADP方法求解优化问题时,提出一种简化的HJB方程使得离散仿射非线性系统的鲁棒控制器可以用交错RL方法学习。
本发明的目的是通过以下技术方案实现的:
一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,包括如下步骤:(1)基于最优控制的问题,推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件;(2)结合神经网络逼近的交错RL方法寻找UUB稳定性的鲁棒控制策略;
所述步骤(1)分为三个阶段:1)鲁棒控制问题;2)增广效用函数的标准系统的最优控制问题;3)设计鲁棒控制器:
阶段1)鲁棒控制问题具体为:建立具有任意有界不确定性的DT仿射非线性系统的鲁棒控制问题,基于给出假设和定义,跟踪关注鲁棒控制问题;DT仿射非线性系统(1)描述为:
xk+1=f(xk)+g(xk)uk+Δf(xk) (1)
其中xk∈Rn和uk∈Rm分别为状态和控制输入,Δf(xk)为未建模的动力学、扰动或系统识别不准确引起的不确定性Δf(0)=0,这里,一般不确定性的一种形式的对系统(1),D(xk)是一个有界函数,其中是一个未知项被界定,h(xk)∈Rm×n是已知的函数矩阵;
阶段2)最优控制的优化问题求解具体为:首先基于动态规划方法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程,然后基于李雅普诺夫(Lyapunov)稳定性理论证明求解耦合协同博弈HJB方程得到的控制策略,然后找出系统的鲁棒控制与相应标准系统的最优控制之间的内在联系,找到两类不确定DT仿射非线性系统的鲁棒控制器通过最优控制的方法;具体为:
关于系统(1)的标称系统(2),
xk+1=f(xk)+g(xk)uk (2)
假设,对于系统(2),希望找到控制律uk使下面的特定性能指标最小化:
阶段3)基于阶段2)获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中,所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略确保系统对于不确定性系统的所有可能实现的稳定性;
简化后的HJB方程成立。
利用满足(8)的最优值函数V*(xk),在控制策略(5)下沿不确定系统(1)的轨迹产生关于操作点xk+1的泰勒级数展开式:
所述步骤(2)具体为:
1)值函数和控制协议估计控制策略分别使用基于Value函数近似的带误差的神经网络(NNs)来表示,给出近似策略迭代方法,估计最右控制性;
2)分析算法的收敛性:分别定义在系统中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得任意接近简化的HJB方程的解;如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差尽可能小,采用在时间步长处的权重和权重的交织单步更新,从而开发出以下交织RL方法,在本方法中,权重和将与迭代指数交错训练,直到在每个时间步长k收敛为止;
3)自适应控制协议设计:采用梯度下降法执行三重指标迭代策略,方法是最小化近似误差;
具体为:用于强化控制策略的交错式RL;
提出交错的RL方法逼近鲁棒控制器,使得DT仿射非线性系统(1)的轨迹为UUB;平滑值函数和控制策略分别使用基于Value函数近似的带误差的NNs来表示为:
分别定义在(1)和(2)中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得任意接近简化的HJB方程的解;具体地说,在每个迭代i处,NN被表示为:
因此
并且在每次迭代i时,控制策略由下式给出:
其中la表示学习率,近似误差eai(k)定义为:
其中xk+1是由最后一个时间步长k的产生的,如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差可以尽可能小,采用在时间步长k处的权重ωci(k)和权重ωai(k)的交织单步更新,从而开发出以下交错RL算法;
不确定系统的交错RL方法:
Ⅰ.初始化:设置时间步长k=1,迭代指数i=0,给定初始状态x1和x2;
Ⅱ.交错迭代:给定权重υc和υa,初始化评论者NN和执行者NN的权重ωci(k)和ωai(k),并设置初始学习率lc和la;根据(7)更新权重ωci(k);根据(8)更新权重ωai(k);
Ⅳ.||ωa(k)-ωa(k-1)||≤ε,||ωc(k)-ωc(k-1)||≤ε进行下一步;否则进行k的迭代并返回步骤Ⅱ;
权重ωci(k)和ωai(k)与迭代指数i交错训练,直到在每个时间步长收敛为止,得到控制动作并行为系统(2)用于下次生成新数据。
进一步地,所述阶段1)给出假设和定义具体为:
定义1:如果存在一种控制策略uk,该策略下系统(1)对于所有不确定性Δf(xk)渐近稳定,则系统(1)称为鲁棒可稳定,该控制策略uk称为鲁棒控制器;
定义2:系统(1)假设在原点,如果存在一个绑定M和时间步N(N是一个正整数),这样解集xk∈Ω上的||xk||≤M。
进一步地,还包括证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性;对所提方法的有效性进行验证,采用仿真软件,联合验证理论方法和结果的有效性。
进一步地,所述证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性的具体步骤如下:
①收敛性验证:
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络的递归方程,此神经网络权有三重指标,包括近似策略迭代步骤指标i,神经网络权递归方程步骤指标j和时间指标k(i,j为正整数,k为第k次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性;
②不确定系统的UBB稳定性:
进一步地,所述方法实现后,采用学习到的鲁棒控制策略的近似值作为系统的控制行为,以容忍不确定性。
本发明的优点与效果是:本发明提出的方法的主要优点是首次建立了一种简化的HJB方程,用于求解DT仿射非线性系统的鲁棒控制器,在未知匹配不确定性和非匹配不确定性的适用性意义上更具一般性。此外,本发明还对所设计的控制器下的交错RL方法的收敛性和有界不确定闭环系统的UUB稳定性进行了严格的证明。这种方法的提出,从长远来看,可以保证工业上的系统高效,稳定的运行,从而提高了效率。
附图说明
图1为不确定性交错RL方法框图;
图2为批判者NN和行为者NN的权重演变;
图3为案例模拟中评论家和演员NN的权重的训练结果。
具体实施方式
一种基于匹配或不匹配不确定性DT仿射非线性系统的自适应交错强化学习方法,通过选择合适的效用函数,将鲁棒控制问题转化为标准系统的最优控制问题,在求解简化的HJB方程时,在每个时间步交替实施性能评估和控制策略更新,结合神经网络逼近,从而保证DT仿射非线性系统的一致最终有界(UUB)稳定性,允许所有未知有界不确定性的实现。对所提出的交错RL方法的收敛性和不确定系统的UUB稳定性进行了严格的理论证明;具体步骤如下:(1)基于最优控制的问题,推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件。(2)提出结合神经网络逼近的交错RL来寻找UUB稳定性意义下的鲁棒控制策略。(3)证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性。对所提方法的有效性进行验证,采用仿真软件,联合验证理论方法和结果的有效性。
所述步骤(1)分为三个阶段:1)鲁棒控制问题2)增广效用函数的标准系统的最优控制问题3)鲁棒控制器设计。
阶段2)优化问题求解具体为:首先基于动态规划方法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程,然后基于李雅普诺夫(Lyapunov)稳定性理论证明求解耦合协同博弈HJB方程得到的控制策略。然后找出系统(1)的鲁棒控制与相应标准系统(2)的最优控制之间的内在联系,找到两类不确定DT仿射非线性系统的鲁棒控制器可以通过最优控制的方法。
阶段3)基于阶段2获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中。所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统(1)的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略可以确保系统(1)对于不确定性系统的所有可能实现的稳定性。
所述步骤(2)具体为:
1)值函数和控制协议估计控制策略可以分别使用基于Value函数近似的带误差的神经网络(NNs)来表示。给出近似策略迭代方法,估计最右控制性。
2)分析收敛性:由于交错RL具有折衷系统的方法和控制更新的收敛速度的能力,因此与标准策略迭代(PI)和值迭代(VI)RLS不同,分别定义在(1)和(2)中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得我们可以任意接近简化的HJB方程的解。如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差可以尽可能小。采用在时间步长处的权重和权重的交织单步更新,从而开发出以下交织RL方法。在方法中,权重和将与迭代指数交错训练,直到在每个时间步长k收敛为止。
3)自适应控制协议设计:采用梯度下降法执行三重指标迭代策略,方法是最小化近似误差。
所述步骤(3)具体步骤如下:
①神经网络权的收敛性:
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络的递归方程,此神经网络权有三重指标,包括近似策略迭代步骤指标i,神经网络权递归方程步骤指标j和时间指标k(i,j为正整数,k为第k次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性;
②不确定系统的UBB稳定性:
所述步骤③具体步骤如下:
①通过三个案例说明提出的交错RL方法的有效性。
一是使用具有匹配不确定性的扭摆系统来检查所开发的方法的性能;二是具有匹配不确定性的仿射非线性系统;最后是使用具有不匹配不确定性的仿射非线性系统来展示其有效性。
②在仿真平台上进行数据挖掘和优化控制方法的验证。
在本发明中,通过集成动态规划,Lyapunov理论和泰勒级数展开式给出了简化的HJB方程,从而解决该问题使控制器能够保证仿射非线性DT系统的UUB稳定性受到未知匹配和不匹配不确定性的影响。逐次交错地执行值函数逼近和控制策略更新,并在每个时间步使用迭代索引来逐次逼近简化的HJB方程的解,从而得出控制器,在该控制器下,具有匹配和不匹配不确定性的DT仿射非线性系统可以是UUB。提出了针对一般DT仿射非线性系统的鲁棒控制方法的系统推导和分析。对于不考虑不确定性的线性二次调节,所提出的交错式RL方法可以学习近似最优控制器,否则它是一种能够保证DT仿射非线性系统为UUB的控制器。仿真结果证明了该方法的有效。
一、鲁棒控制问题
建立具有任意有界不确定性的DT仿射非线性系统的鲁棒控制问题。此外,还给出了一些假设和定义,以便更容易地跟踪关注的鲁棒控制问题。考虑描述为的DT仿射非线性系统(1):
xk+1=f(xk)+g(xk)uk+Δf(xk) (1)
其中xk∈Rn和uk∈Rm分别为状态和控制输入,Δf(xk)为未建模的动力学、扰动或系统识别不准确引起的不确定性Δf(0)=0,这里,一般不确定性的一种形式的对系统(1),D(xk)是一个有界函数,其中是一个未知项被界定,h(xk)∈Rm×n是已知的函数矩阵;
定义1:如果存在一种控制策略uk,该策略下系统(1)对于所有不确定性Δf(xk)渐近稳定,则系统(1)称为鲁棒可稳定,该控制策略uk称为鲁棒控制器。
定义2:系统(1)假设在原点,如果存在一个绑定M和时间步N(N是一个正整数),这样解集xk∈Ω上的||xk||≤M。
二、鲁棒控制器设计及简化HJB方程推导
具增广效用函数的标称系统的最优控制问题,分别推导了允许匹配不确定性和不匹配不确定性的DT仿射非线性系统鲁棒稳定性的两个充分条件。在推导过程中,给出了简化的HJB方程。
关于系统(1)的标称系统(2),
xk+1=f(xk)+g(xk)uk (2)
假设,对于系统(2),希望找到控制律uk使下面的特定性能指标最小化
阶段3)基于阶段2)获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中,所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略确保系统对于不确定性系统的所有可能实现的稳定性;
简化后的HJB方程成立
利用满足(8)的最优值函数V*(xk),在控制策略(5)下沿不确定系统(1)的轨迹产生关于操作点xk+1的泰勒级数展开式:
这表明V*(xk)可以是系统(1)的Lyapunov函数候选者,并且(5)中的控制策略可以确保系统(1)对于不确定性Δf(xk)的所有可能实现都是稳定的根据李雅普诺夫稳定性理论。在展开关于操作点的最优值函数时,高阶项已被忽略。此外,考虑泰勒级数展开的高阶项V*(xk)可能会以增加计算量为代价提高近似精度,因此应从实际实现的角度来权衡精度和计算复杂度。
将定理1的结果扩展到系统(1)具有无与伦比的不确定性的鲁棒稳定性。定理2:对于系统(2),若假设1成立则需将γ(xk)设置为:
Ω上存在一个正定的两次连续可微函数,V(xk)满足以下简化的HJB方程:
控制策略uk可以保证不确定系统(1)的稳定性。将由(14)导出的函数V(xk)视为李雅普诺夫函数候选,在运算点xk+1沿系统(1)的轨迹进行泰勒展开,有
这表明系统(1)对于限制在范围内的不确定性的所有可能实现是稳定的。
三、用于强化控制策略的交错式RL
开发一种交错的RL来逼近鲁棒控制器,使得DT仿射非线性系统(1)的轨迹为UUB。众所周知,平滑值函数V(xk)和控制策略uk可以分别使用基于Value函数近似的带误差的NNs来表示为:
在每个迭代i处,NN被表示为:
并且在每次迭代i时,uk由下式给出:
ωci(k)是通过使用梯度下降来实现的,方法是最小化近似误差。
其中la表示学习率,近似误差eai(k)定义为
其中xk+1是由最后一个时间步长k的产生的。如果增加批判者神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差可以尽可能小。现在将采用在时间步长k处的权重ωci(k)和ωai(k)的交错单步更新,从而开发出以下交错RL。
四、不确定系统的交错RL方法
Ⅰ.初始化:设置时间步长k=1,迭代指数i=0。给定初始状态x1和x2;
Ⅱ.交错迭代:给定权重υc和υa,初始化评论者NN和执行者NN的权重ωci(k)和ωai(k),并设置初始学习率lc和la;根据(7)更新权重ωci(k);根据(8)更新权重ωai(k)。
Ⅳ.||ωa(k)-ωa(k-1)||≤ε,||ωc(k)-ωc(k-1)||≤ε进行下一步;否则进行k的迭代并返回步骤2;
在本方法中,权重ωci(k)和ωai(k)将与迭代指数i交错训练,直到在每个时间步长收敛为止,此时可以得到控制动作并行为系统(2)用于下次生成新数据。从这个意义上讲,方法实际上是交错的RL,而不是策略迭代(PI)或值迭代(VI)。
注意,在所示的时间步长k处,使用执行者NN估计控制策略可以成功地克服由于未来状态不可用而造成的困难。
方法实现后,将采用学习到的鲁棒控制策略的近似值作为系统(1)的控制行为,以容忍不确定性。为了消除在大多数实际工业中非常常见的死区、间隙、饱和执行器非线性对系统性能甚至稳定性的负面影响,可以用类在效用函数中增加一个非二次泛函,这样即使对于不确定系统(1),也可以处理这些非线性控制约束。
五、理论分析
在这一部分中,对方法1的收敛性和不确定系统的UUB稳定性进行了全面的分析。
假设迭代值函数Vi(xk)的值可以精确地表示为,
根据定理3,通过实现方法1,经过i和k的迭代,可以得到控制策略和近似值函数需要指出的是,控制策略是的uk近似值,并且界λμ取决于评论者和参与者NNS的神经元数量、学习率和初始权重。进一步可以证明可以保证不确定系统(1)的UUB稳定性。
选择简化的HJB方程的解V(xk)作为Lyapunov函数候选,有
此外,将(45)改写为使用泰勒级数展开式
其中ωk+1=f(xk)+(uk)Tuk
而后,可推导出
六、案例模拟
通过代表性的例子说明了所提出的交错RL的有效性。
例:通过使用具有匹配不确定性的扭摆系统来检查所开发的方法1的性能。扭转摆的动力学描述如下:
其中,角度θ和角速度ω被视为系统状态。参数J,M,l,fd分别表示旋转惯性,质量,摆杆的长度和摩擦系数,如果采样周期选择为Δt=0.1s,则可以将系统离散化为以下形式:
xk+1=f(xk)+g(xk)(uk+psin(x1(k))x2(k)) (34)
其中p∈[-10,10]是未知的有界参数,
通过使用具有匹配不确定性的倒立摆系统来检查所开发的方法的性能。在实现方法之前,将批判网络和行为者网络的结构分别设置。选择Q=diag(1,1)和NNs激活函数σ(·)=tanh(·)。让评论网和行动网的学习率分别为0.1和0.3。在这个例子中,我们发现在计算机仿真中,对于批判神经网络和演员神经网络,在隐含层中选择8个神经元和2个神经元可以得到令人满意的结果。
选择探测噪声为ek=0.2rand(1,1),以满足持续激励条件。实现方法产生图2(a)和图2(a)的训练结果,表明了这些权重的收敛性。为了验证学习控制策略的有效性,我们假设p=10。选择初始状态x0=[0.3,0.3]T,图3(a)显示了学习控制策略下的系统状态轨迹,图3(b)表明方法学习的控制策略可以保证系统即使在系统存在不确定性的情况下也是稳定的。
综上,本发明以具有匹配不确定性的倒立摆系统为例,来检验本发明提出的方法的性能。仿真结果表明了学习的控制策略的有效性和可行性以及系统即使在不确定性的情况下,系统仍然能够保持稳定。因此,这种方法的提出,从长远来看,可以保证工业上的系统高效,稳定的运行,从而提高了效率。
Claims (5)
1.一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,其特征在于:包括如下步骤:(1)基于最优控制的问题,推导匹配和不匹配不确定DT仿射非线性系统鲁棒稳定条件;(2)结合神经网络逼近的交错RL方法寻找UUB稳定性的鲁棒控制策略;
所述步骤(1)分为三个阶段:1)鲁棒控制问题;2)增广效用函数的标准系统的最优控制问题;3)设计鲁棒控制器:
阶段1)鲁棒控制问题具体为:建立具有任意有界不确定性的DT仿射非线性系统的鲁棒控制问题,基于给出假设和定义,跟踪关注鲁棒控制问题;DT仿射非线性系统(1)描述为:
xk+1=f(xk)+g(xk)uk+Δf(xk) (1)
其中xk∈Rn和uk∈Rm分别为状态和控制输入,Δf(xk)为未建模的动力学、扰动或系统识别不准确引起的不确定性Δf(0)=0,这里,一般不确定性的一种形式的对系统(1),D(xk)是一个有界函数,其中是一个未知项被界定,h(xk)∈Rm×n是已知的函数矩阵;
阶段2)最优控制的优化问题求解具体为:首先基于动态规划方法和不动点原理,获得耦合协同博弈Hamiltonian-Jacobi-Bellman(HJB)方程,然后基于李雅普诺夫(Lyapunov)稳定性理论证明求解耦合协同博弈HJB方程得到的控制策略,然后找出系统的鲁棒控制与相应标准系统的最优控制之间的内在联系,找到两类不确定DT仿射非线性系统的鲁棒控制器通过最优控制的方法;具体为:
关于系统(1)的标称系统(2),
xk+1=f(xk)+g(xk)uk (2)
假设,对于系统(2),希望找到控制律uk使下面的特定性能指标最小化
阶段3)基于阶段2)获得的耦合协同博弈HJB方程,扩展到系统模型完全未知的优化控制中,所述阶段3)中具体为:①给出最优值函数;②利用最优值函数,在控制策略下沿不确定系统的轨迹产生泰勒级数展开式;③基于李亚普诺夫稳定性理论,证明控制策略确保系统对于不确定性系统的所有可能实现的稳定性;
简化后的HJB方程成立;
利用满足(8)的最优值函数V*(xk),在控制策略(5)下沿不确定系统(1)的轨迹产生关于操作点xk+1的泰勒级数展开式:
所述步骤(2)具体为:
1)值函数和控制协议估计控制策略分别使用基于Value函数近似的带误差的神经网络(NNs)来表示,给出近似策略迭代方法,估计最右控制性;
2)分析算法的收敛性:分别定义在系统中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得任意接近简化的HJB方程的解;如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差尽可能小,采用在时间步长处的权重和权重的交织单步更新,从而开发出以下交错RL方法,在本方法中,权重和将与迭代指数交错训练,直到在每个时间步长k收敛为止;
3)自适应控制协议设计:采用梯度下降法执行三重指标迭代策略,方法是最小化近似误差;
具体为:用于强化控制策略的交错式RL;
提出交错的RL方法逼近鲁棒控制器,使得DT仿射非线性系统(1)的轨迹为UUB;平滑值函数和控制策略分别使用基于Value函数近似的带误差的NNs来表示为:
分别定义在(1)和(2)中的值函数和控制策略在时间步长k处交替迭代足够多的次数,使得任意接近简化的HJB方程的解;具体地说,在每个迭代i处,NN被表示为:
因此
并且在每次迭代i时,控制策略由下式给出:
其中la表示学习率,近似误差eai(k)定义为:
其中xk+1是由最后一个时间步长k的产生的,如果增加批判神经网络和行为者神经网络的神经元数目,并选择合适的学习率,则神经网络的估计误差可以尽可能小,采用在时间步长k处的权重ωci(k)和权重ωai(k)的交错单步更新,从而开发出以下交错RL算法;
不确定系统的交错RL方法:
Ⅰ.初始化:设置时间步长k=1,迭代指数i=0,给定初始状态x1和x2;
Ⅱ.交错迭代:给定权重υc和υa,初始化评论者NN和执行者NN的权重ωci(k)和ωai(k),并设置初始学习率lc和la;根据(7)更新权重ωci(k);根据(8)更新权重ωai(k);
Ⅳ.||ωa(k)-ωa(k-1)||≤ε,||ωc(k)-ωc(k-1)||≤ε进行下一步;否则进行k的迭代并返回步骤Ⅱ;
权重ωci(k)和ωai(k)与迭代指数i交错训练,直到在每个时间步长收敛为止,得到控制动作并行为系统(2)用于下次生成新数据。
3.根据权利要求1所述的一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,其特征在于:还包括证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性;对所提方法的有效性进行验证,采用仿真软件,联合验证理论方法和结果的有效性。
4.根据权利要求3所述的一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,其特征在于:所述证明所提方法的收敛性和系统在学习控制策略下的UUB稳定性的具体步骤如下:
①收敛性验证:
首先,根据获得的无模型性能和控制行为迭代方程,利用梯度下降法,选择调节因子,构建关于神经网络的递归方程,此神经网络权有三重指标,包括近似策略迭代步骤指标i,神经网络权递归方程步骤指标j和时间指标k(i,j为正整数,k为第k次采样时刻);然后,参考无模型性能和控制行为迭代方程,分析神经网络权的收敛性;
②不确定系统的UBB稳定性:
5.根据权利要求1所述的一种基于匹配或不匹配不确定性的DT仿射非线性系统的自适应交错强化学习方法,其特征在于:所述方法实现后,采用学习到的鲁棒控制策略的近似值作为系统的控制行为,以容忍不确定性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010840032.8A CN111880414B (zh) | 2020-08-20 | 2020-08-20 | 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010840032.8A CN111880414B (zh) | 2020-08-20 | 2020-08-20 | 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111880414A true CN111880414A (zh) | 2020-11-03 |
CN111880414B CN111880414B (zh) | 2022-11-01 |
Family
ID=73203985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010840032.8A Active CN111880414B (zh) | 2020-08-20 | 2020-08-20 | 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111880414B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112965368A (zh) * | 2021-01-19 | 2021-06-15 | 云南卫士盾科技有限公司 | stacklberg博弈下矿山事故灾害应急投资的微分对策模型构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544261A (zh) * | 2017-10-26 | 2018-01-05 | 长春工业大学 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
CN110609525A (zh) * | 2019-08-20 | 2019-12-24 | 南京航空航天大学 | 一种基于在线adp的非线性时滞系统最优控制方法 |
CN110782011A (zh) * | 2019-10-21 | 2020-02-11 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
-
2020
- 2020-08-20 CN CN202010840032.8A patent/CN111880414B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107544261A (zh) * | 2017-10-26 | 2018-01-05 | 长春工业大学 | 不确定环境接触下的可重构机器人分散学习最优控制方法 |
CN110609525A (zh) * | 2019-08-20 | 2019-12-24 | 南京航空航天大学 | 一种基于在线adp的非线性时滞系统最优控制方法 |
CN110782011A (zh) * | 2019-10-21 | 2020-02-11 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
Non-Patent Citations (2)
Title |
---|
JINNA LI等: "Off-Policy Interleaved Q -Learning: Optimal Control for Affine Nonlinear Discrete-Time Systems", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS 》 * |
张莉等: "基于强化学习的无模型离散时间系统H-∞静态输出反馈问题", 《第30届中国过程控制会议》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112965368A (zh) * | 2021-01-19 | 2021-06-15 | 云南卫士盾科技有限公司 | stacklberg博弈下矿山事故灾害应急投资的微分对策模型构建方法 |
CN112965368B (zh) * | 2021-01-19 | 2022-07-26 | 云南卫士盾科技有限公司 | stacklberg博弈下矿山事故灾害应急投资的微分对策模型构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111880414B (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ławryńczuk | A family of model predictive control algorithms with artificial neural networks | |
Kulikov et al. | Accurate cubature and extended Kalman filtering methods for estimating continuous-time nonlinear stochastic systems with discrete measurements | |
Xiao et al. | Online optimal control of unknown discrete-time nonlinear systems by using time-based adaptive dynamic programming | |
Xiong et al. | Neural network model-based on-line re-optimisation control of fed-batch processes using a modified iterative dynamic programming algorithm | |
CN111459051A (zh) | 一种带扰动观测器的离散终端滑模无模型控制方法 | |
CN112904728A (zh) | 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法 | |
CN108762072B (zh) | 基于核范数子空间法和增广向量法的预测控制方法 | |
CN111722531A (zh) | 一种切换线性系统在线无模型最优控制方法 | |
Yan et al. | Error bound analysis of $ Q $-function for discounted optimal control problems with policy iteration | |
Mu et al. | An ADDHP-based Q-learning algorithm for optimal tracking control of linear discrete-time systems with unknown dynamics | |
Zhao et al. | Goal representation adaptive critic design for discrete-time uncertain systems subjected to input constraints: The event-triggered case | |
Ahmadi et al. | Control-oriented learning of Lagrangian and Hamiltonian systems | |
CN111880414B (zh) | 一种基于匹配或不匹配不确定性的dt仿射非线性系统的自适应交错强化学习方法 | |
Vrabie | Online adaptive optimal control for continuous-time systems | |
CN114740710A (zh) | 一种随机非线性多智能体的强化学习优化编队控制方法 | |
Chen et al. | Novel adaptive neural networks control with event-triggered for uncertain nonlinear system | |
Yu et al. | Safe model-based reinforcement learning with an uncertainty-aware reachability certificate | |
Song et al. | Adaptive dynamic event-triggered control for constrained modular reconfigurable robot | |
Eade | Gauss-newton/levenberg-marquardt optimization | |
CN114200830A (zh) | 一种多智能体一致性强化学习控制方法 | |
CN114428460A (zh) | 一种数据驱动的动态内模控制技术 | |
Colombo et al. | Variational integrators for non-autonomous systems with applications to stabilization of multi-agent formations | |
Torres et al. | Towards benchmarking of state estimators for multibody dynamics | |
Wang et al. | Novel optimal trajectory tracking for nonlinear affine systems with an advanced critic learning structure | |
Ellinas et al. | Correctness Verification of Neural Networks Approximating Differential Equations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20201103 Assignee: Liaoning Hengyi special material Co.,Ltd. Assignor: Liaoming Petrochemical University Contract record no.: X2023210000276 Denomination of invention: An adaptive interleaving reinforcement learning method for DT affine nonlinear systems based on matching or mismatch uncertainty Granted publication date: 20221101 License type: Common License Record date: 20231130 |
|
EE01 | Entry into force of recordation of patent licensing contract |