CN104834221A

CN104834221A - 一种基于可变误差的非线性系统自适应最优控制方法

Info

Publication number: CN104834221A
Application number: CN201510272090.4A
Authority: CN
Inventors: 刘德荣; 魏庆来; 林汉权; 李超
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2015-08-12
Also published as: CN111308896B; CN111308896A

Abstract

本发明公开了一种可变误差的非线性自适应控制方法，通过引入合适的近似误差来逼近性能指标函数和策略控制函数，并使得指标函数能最终一致收敛。本发明结合神经网络，由于神经网络的良好的逼近性能，通过同时调节评价网络和策略网络的近似误差，使最终的性能指标函数能够收敛到最优评价函数的一个邻域内。

Description

一种基于可变误差的非线性系统自适应最优控制方法

技术领域

本发明涉及智能控制技术领域，尤其涉及一种基于可变误差的非线性系统自适应最优控制方法。

背景技术

在当今的社会生活和工业领域存在着大量的复杂系统，如电力系统、交通系统、制造系统、化工过程系统、通信网络系统等，都需要被控系统在有限的资源条件下完成控制目标。最优控制是使控制系统的性能指标实现最优化的基本条件和综合方法，可概括为：对一个受控的动力学系统或运动过程，从一类允许的控制方案中找出一个最优的控制方案，使系统的运动在由某个初始状态转移到指定的目标状态的同时，其性能指标值为最优。

随着科技的发展，人们对控制系统的性能也提出了越来越高的要求。而这些复杂系统通常具有高度的非线性、未知的动态特性、模型的不确定性等，难于建立精确的数学模型。而自适应控制可以看作是一个能根据环境变化智能调节自身特性的反馈控制系统，以使系统能按照一些设定的标准工作在最优状态。因此，如何设计出一种非线性系统自适应最优控制方法显得尤为重要。

发明内容

有鉴于此，本发明的主要目的在于提出一种基于可变误差的非线性系统自适应最优控制方法，以便满足对复杂系统的自适应控制。

为了实现上述目的，本发明提出了一种基于可变误差的非线性系统自适应最优控制方法，包括以下步骤：

步骤1、选择随机初始状态x₀；选择任意半正定函数Ψ(x_k)≥0；选择收敛精度ζ；给定参数序列{q_i}，其中0＜q_i＜1；给定两个常数0＜ξ＜1分别表示可变误差的衰减率；令迭代参数i＝0；

步骤2、令初始性能指标函数并求得参数γ₀，使其满足V₀(F(x_k，u_k))≤γ₀U(x_k，u_k)，其中F(x_k，u_k)是系统状态方程，V₀(x_k)为初始性能指标函数，U(x_k，u_k)是系统的效用函数，Ψ(x_k)为半正定函数；

步骤3、计算得到初始控制律

{\hat{v}}_{0} (x_{k}) = \arg \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{0} (x_{k + 1})} + ρ_{0} (x_{k}),

以及初始迭代性能指标函数

{\hat{V}}_{1} (x_{k}) = U (x_{k}, {\hat{v}}_{0} (x_{k})) + {\hat{V}}_{0} (F (x_{k}, {\hat{v}}_{0} (x_{k}))) + π_{0} (x_{k});

其中，ρ₀(x_k)为迭代控制近似误差，π₀(x_k)为迭代性能指标函数近似误差；

步骤4、定义单步迭代的目标迭代性能指标函数为定义全局迭代目标函数为计算获得参数σ₁使其满足给定任意0＜q₀≤1，如果σ₁满足其中γ₀可由步骤2得到，则估计参数γ₁使其满足V₁(F(x_k，u_k))≤γ₁U(x_k，u_k)，并令i＝i+1，继续执行下一步；否则，令和π₀(x_k)＝ξπ₀(x_k)，返回步骤3继续执行；

步骤5、对于任意i＝1，2，...，计算得到迭代控制律

{\hat{v}}_{i} (x_{k}) = \arg \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})} + ρ_{i} (x_{k})

和迭代性能指标函数

{\hat{V}}_{i + 1} (x_{k}) = U (x_{k}, {\hat{v}}_{i} (x_{k})) + {\hat{V}}_{i} (F (x_{k}, {\hat{v}}_{i} (x_{k}))) + π_{i} (x_{k});

其中ρ_i(x_k)为迭代控制近似误差，π_i(x_k)迭代性能指标函数近似误差；

步骤6、定义全局迭代目标函数为

V_{i + 1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + V_{i} (x_{k + 1})};

根据目标迭代性能指标函数

Γ_{i + 1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})},

计算获得参数σ_i使其满足

{\hat{V}}_{i + 1} (x_{k}) \leq σ_{i + 1} Γ_{i + 1} (x_{k});

给定任意0＜q_i≤1，如果σ_i满足则估计γ_i+1使其满足V_i+1(F(x_k，u_k))≤γ_i+1U(x_k，u_k)，并继续执行下一步；否则，令和π_i(x_k)＝ξπ_i(x_k)，返回步骤5继续执行；

步骤7、如果ζ是收敛精度，即可获得最优性能指标函数和最优控制律；否则令i＝i+1继续返回步骤5执行。

其中，在步骤5中采用两个神经网络，即执行网络与评判网络分别逼近迭代控制律与迭代性能指标函数。

其中，所述评判网络与执行网络均采用BP神经网络进行构建。

其中，在步骤6中获得参数γ_i的步骤为：

步骤I-1、令μ(x_k)为任意给定的容许控制；

步骤I-2、对于i＝1，2，...，根据μ(x_k)构造新的性能指标函数P_i(x_k)，满足P_i+1(x_k)＝U(x_k，μ(x_k))+P_i(x_k+1)，其中P₀(x_k)＝V₀(x_k)＝Ψ(x_k)；

步骤I-3、给出使其满足

{\tilde{γ}}_{i} U (x_{k}, u_{k}) &GreaterEqual; P_{i} (F (x_{k}, u_{k}));

步骤I-4、令

其中，在步骤6中获得参数γ_i的步骤为：

步骤II-1、对于迭代性能指标函数可以通过下式获得

{\hat{V}}_{i + 1} (x_{k}) = U (x_{k}, {\hat{v}}_{i} (x_{k})) + {\hat{V}}_{i} (F (x_{k}, {\hat{v}}_{i} (x_{k}))) + π_{i} (x_{k});

其中π_i(x_k)为评判网络近似误差；

步骤II-2、令|π_i(x_k)|为π_i(x_k)的上界，定义新的迭代性能指标函数为

步骤II-3、令

{\hat{V}}_{i} (x_{k}) = {\hat{v}}_{i} (x_{k});

步骤II-4、由

{\hat{γ}}_{i} U (x_{k}, u_{k}) &GreaterEqual; {\hat{V}}_{i} (F (x_{k}, u_{k}))

得出

步骤II-5、令

其中，在步骤6中获得参数γ_i的步骤为：

步骤III-1、记录σ ₀，σ ₁，…，σ _i-1和γ ₀，γ ₁，…，γ _i-1；

步骤III-2、通过

{\hat{V}}_{i + 1} (x_{k}) = U (x_{k}, {\hat{v}}_{i} (x_{k})) + {\hat{V}}_{i} (F (x_{k}, {\hat{v}}_{i} (x_{k}))) + π_{i} (x_{k})

获得迭代性能指标函数通过

Γ_{i + 1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})}

获得目标迭代性能指标函数Γ_i(x_k)；

步骤III-3、对于根据如下不等式获得σ _i；如果

{\hat{V}}_{i} (x_{k}) &GreaterEqual; Γ_{i} (x_{k}),

则σ _i＝1；根据如下不等式

{\hat{γ}}_{i} U (x_{k}, u_{k}) &GreaterEqual; {\hat{V}}_{i} (F (x_{k}, u_{k}))

获得

步骤III-4、令

\begin{matrix} {\underset{&OverBar;}{Δ}}_{i} = {\underset{&OverBar;}{σ}}_{i} [1 + Σ_{j = 1}^{i - 1} ({\underset{&OverBar;}{σ}}_{i - 1} {\underset{&OverBar;}{σ}}_{i - 2} . . . {\underset{&OverBar;}{σ}}_{i - j + 1} ({\underset{&OverBar;}{σ}}_{i - j} - 1) \\ \times \frac{{\underset{&OverBar;}{γ}}_{i - 1} {\underset{&OverBar;}{γ}}_{i - 2} . . . {\underset{&OverBar;}{γ}}_{i - j}}{({\underset{&OverBar;}{γ}}_{i - 1} + 1) ({\underset{&OverBar;}{γ}}_{i - 2} + 1) . . . ({\underset{&OverBar;}{γ}}_{i - j} + 1)})] \end{matrix},

通过下式解出γ _i：

\underset{&OverBar;}{γ_{i}} = \frac{{\hat{γ}}_{i}}{{\underset{&OverBar;}{Δ}}_{i}};

步骤III-5、令γ_i＝γ _i。

基于上述技术方案可知，现有的自适应动态规划方法没有考虑到神经网络等近似结构的逼近误差，在误差存在条件下，现有方法无法在每次迭代中保证系统的稳定性和算法的收敛性，同时迭代时间较长；而本发明的自适应最优控制方法在自适应动态规划框架下，提出一种可变误差的策略迭代方法，该方法通过引入合适的近似误差来逼近性能指标函数和策略控制函数，并使得指标函数能最终一致收敛。本发明结合神经网络，由于神经网络的良好的逼近性能，通过同时调节评价网络和策略网络的近似误差，使最终的性能指标函数能够收敛到最优评价函数的一个邻域内。

附图说明

图1是作为本发明一个实施例的基于可变误差的非线性系统自适应最优控制方法的流程图；

图2是作为本发明一个实施例的基于可变误差的非线性系统自适应最优控制方法的神经网络实现框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明公开了一种可变误差的非线性自适应控制方法，属于最优控制领域。在现有的最优控制方法中，自适应动态规划被广泛应用于非线性系统。传统的自适应动态规划一般分为两个步骤：策略性能指标函数评价过程和策略更新过程，它要求每一次的性能指标函数和策略控制函数都能精确地得到，但在实际计算应用中往往不能实现。

具体来说，本发明所研究的非线性系统为x_k+1＝F(x_k，u_k)，k＝0，1，2，...，其中是n维的系统状态向量，是m维的系统控制向量，x₀是系统的初始状态，F(x_k，u_k)为系统方程。

令u _k＝(u_k，u_k+1，...)是时刻k→∞时的随机控制序列。将状态为x₀，控制序列为u ₀＝(u₀，u₁，...)时的性能指标函数定义为其中对于任意的x_k，u_k≠0，U(x_k，u_k)＞0是系统的效用函数。

本发明的目的是找到一个最优的控制序列能使系统x_k+1＝F(x_k，u_k)稳定，同时性能指标函数J(x_k，u _k)达到最小。

定义控制序列集合对于任意的控制序列u _k∈Θ _k，最优性能指标函数定义为

J^{*} (x_{k}) = \inf_{{\underset{&OverBar;}{u}}_{k}} {J (x_{k}, {\underset{&OverBar;}{u}}_{k}) : {\underset{&OverBar;}{u}}_{k} &Element; {\underset{&OverBar;}{Θ}}_{k}} .

根据Bellman最优性原理，J^*(x_k)满足离散时间HJB方程

J^{*} (x_{k}) = \inf_{u_{k}} {U (x_{k}, u_{k}) + J^{*} (F (x_{k}, u_{k}))} .

由此，最优控制可以表示为

u^{*} (x_{k}) = \arg \inf_{u_{k}} {U (x_{k}, u_{k}) + J^{*} (F (x_{k}, u_{k}))} .

将最优控制带入离散时间HJB方程可得，最优性能指标函数

J^*(x_k)＝U(x_k，u^*(x_k))+J^*(F(x_k，u^*(x_k))).

对于非线性系统，最优性能指标函数J^*(x_k)具有非线性且通常没有解析形式。这使得最优控制无法通过直接求解HJB方程来得到。因此，本发明提出了一种基于可变误差的非线性系统自适应最优控制方法。

图1示出了本发明的基于可变误差的非线性系统自适应最优控制方法的流程图。该迭代自适应最优控制方法是通过神经网络函数对最优性能指标函数J^*(x_k)进行逼近，具体步骤表示如下：

步骤1、初始化：选择随机初始状态x₀；选择任意半正定函数Ψ(x_k)≥0；选择收敛精度ζ；给定参数序列{q_i}，其中0＜q_i＜1；给定两个常数0＜ξ＜1；令迭代参数i＝0；

步骤2、令初始性能指标函数并求得参数γ₀，使其满足

V₀(F(x_k，u_k))≤γ₀U(x_k，u_k)；

其中，F(x_k，u_k)是系统的状态方程，U(x_k，u_k)是系统的效用函数。

步骤3、计算得到初始控制律

{\hat{v}}_{0} (x_{k}) = \arg \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{0} (x_{k + 1})} + ρ_{0} (x_{k})

以及初始迭代性能指标函数

{\hat{V}}_{1} (x_{k}) = U (x_{k}, {\hat{v}}_{0} (x_{k})) + {\hat{V}}_{0} (F (x_{k}, {\hat{v}}_{0} (x_{k}))) + π_{0} (x_{k})

其中ρ₀(x_k)为迭代控制近似误差，π₀(x_k)为迭代性能指标函数近似误差；

步骤4、定义单步迭代的目标迭代性能指标函数

Γ_{1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{0} (x_{k + 1})} .

定义全局迭代目标函数为：

V_{1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + V_{0} (x_{k + 1})} .

计算获得参数σ₁使对于任意的状态x_k其满足

{\hat{V}}_{1} (x_{k}) \leq σ_{1} Γ_{1} (x_{k}) .

给定任意0＜q₀≤1，如果σ₁满足

1 \leq σ_{1} \leq q_{0} \frac{γ_{0} + 1}{γ_{0}},

则估计参数γ₁使其满足

V₁(F(x_k，u_k))≤γ₁U(x_k，u_k)，

并令i＝i+1继续执行下一步。否则，减小神经网络近似误差，即令和π₀(x_k)＝ξπ₀(x_k)，其中ξ是误差衰减率，返回步骤3继续执行；

步骤5、对于任意i＝1，2，...，计算得到迭代控制律

{\hat{v}}_{i} (x_{k}) = \arg \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})} + ρ_{i} (x_{k})

和迭代性能指标函数

{\hat{V}}_{i + 1} (x_{k}) = U (x_{k}, {\hat{v}}_{i} (x_{k})) + {\hat{V}}_{i} (F (x_{k}, {\hat{v}}_{i} (x_{k}))) + π_{i} (x_{k});

其中ρ_i(x_k)为迭代控制近似误差，π_i(x_k)迭代性能指标函数近似误差。

步骤6、定义全局迭代目标函数为

V_{i + 1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + V_{i} (x_{k + 1})} .

根据目标迭代性能指标函数

Γ_{i + 1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})},

计算获得参数σ_i使其满足

{\hat{V}}_{i + 1} (x_{k}) \leq σ_{i + 1} Γ_{i + 1} (x_{k}) .

给定任意0＜qi≤1，如果σi满足

1 \leq σ_{i + 1} \leq q_{i} \frac{γ_{i} + 1}{γ_{i}},

则估计γ_i+1使其满足

V_i+1(F(x_k，u_k))≤γ_i+1U(x_k，u_k)。

并继续执行下一步。否则，减小神经网络近似误差即令和π_i(x_k)＝ξπ_i(x_k)，返回步骤5继续执行；

步骤7、如果其中ζ是收敛精度，那么最优性能指标函数和最优控制律即可获得；否则令i＝i+1继续返回步骤5执行。

算法描述完毕。

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图，对本发明作进一步的详细说明。

本发明的自适应最优控制方法是一种值迭代算法，在该算法中性能指标函数和控制律通过迭代进行更新(迭代指标i：0→∞)。

对于任意的状态Ψ(x_k)≥0是一任意的半正定函数，令初始性能指标函数迭代控制律可按下式计算

{\hat{v}}_{0} (x_{k}) = \arg \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{0} (x_{k + 1})} + ρ_{0} (x_{k}),

其中性能指标函数更新为

{\hat{V}}_{1} (x_{k}) = U (x_{k}, {\hat{v}}_{0} (x_{k})) + {\hat{V}}_{0} (F (x_{k}, {\hat{v}}_{0} (x_{k}))) + π_{0} (x_{k}),

其中ρ₀(x_k)和π₀(x_k)分别为初始迭代控制近似误差和初始迭代性能指标函数近似误差。

之后，i＝1，2，...时，迭代自适应动态规划算法在如下两式之间进行迭代：

{\hat{v}}_{i} (x_{k}) = \arg \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})} + ρ_{i} (x_{k}),

{\hat{V}}_{i + 1} (x_{k}) = U (x_{k}, {\hat{v}}_{i} (x_{k})) + {\hat{V}}_{i} (F (x_{k}, {\hat{v}}_{i} (x_{k}))) + π_{i} (x_{k}),

其中ρ_i(x_k)和π_i(x_k)分别为第i次迭代控制近似误差和第i次迭代性能指标函数近似误差。

由以上分析可知该算法用迭代性能指标函数来近似最优性能指标函数J^*(x_k)，用迭代控制律来近似最优控制律u^*(x_k)。因此当i→∞时，该算法应当是收敛的，即和都收敛到最优值。

然而，由于初始性能指标函数Ψ(x_k)是任意给定的，收敛性分析方法不同于其他传统的值迭代。在每一次迭代过程中，无法获得准确的迭代性能指标函数和准确的迭代控制律。这使得收敛性无法保证，为了克服这一缺点，建立了新的收敛性分析方法与收敛性判断标准。

本发明的自适应最优控制方法采用了两个神经网络，即执行网络(Action Network)与评判网络(Critic Network)分别逼近迭代控制律与迭代性能指标函数，使得基于可变误差的非线性系统自适应最优控制方法可以运行并使得迭代性能指标函数收敛到最优性能指标函数的有限临域之内。本发明中，评判网络与执行网络均采用BP神经网络进行构建。

BP神经网络的结构包括输入层、隐含层和输出层三层结构，激活函数为双极S型函数。令隐含层神经元个数为L，输入层与隐含层间权值矩阵为Y，隐含层与输出层间权值矩阵为W，神经网络的输入为X，那么神经网络可以表示为

{\hat{F}}_{N} (X, Y, W) = Wσ (YX),

其中σ(YX)∈R^L，是神经网络隐含层的输出向量，具体表达式是

{[σ (z)]}_{i} = \frac{e^{z_{i}} - e^{{- z}_{i}}}{e^{z_{i}} + e^{{- z}_{i}}},

i＝1，...L。

为了加快神经网络的训练速度，令输入层与隐含层间权值矩阵Y为任意随机权值矩阵。当Y给定后其值固定不变，其值不进行更新，只调节隐含层与输出层权值矩阵W。因此，神经网络可以简化成如下形式

{\hat{F}}_{N} (X, W) = Wσ (X)

对于执行网络的作用是逼近迭代控制律。定义执行网络的逼近目标为

{\overset{&OverBar;}{v}}_{i} (x_{k}) = \arg \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})} .

执行网络的输出可以表示为

{\hat{v}}_{i}^{j} (x_{k}) = W_{ai}^{jT} σ (x_{k}),

其中为执行网络权值。定义执行网络误差为

e_{ai}^{j} (k) = {\hat{v}}_{i}^{j} (x_{k}) - {\overset{&OverBar;}{v}}_{i} (x_{k}) .

那么执行网络的评价指标可以定义为

E_{ai}^{j} (k) = \frac{1}{2} {(e_{ai}^{j} (k))}^{T} (e_{ai}^{j} (k)) .

执行网络权值更新过程可以表示为

\begin{matrix} W_{ai}^{j + 1} (k) = W_{ai}^{j} (k) + {ΔW}_{ai}^{j} (k) \\ = W_{ai}^{j} (k) - l_{a} [\frac{{&PartialD; E}_{ai}^{j} (k)}{{&PartialD; e}_{ai}^{j} (k)} \frac{{&PartialD; e}_{ai}^{j} (k)}{&PartialD; {\hat{v}}_{i}^{j} (k)} \frac{&PartialD; {\hat{v}}_{i}^{j} (k)}{&PartialD; W_{ai}^{j} (k)}] \\ = W_{ai}^{j} (k) - l_{a} e_{ai}^{j} (k) σ (x_{k}), \end{matrix}

其中l_a＞0为执行网络的学习律。训练执行网络使得迭代控制律满足

| {\hat{v}}_{i}^{j} (x_{k}) - {\overset{&OverBar;}{v}}_{i} (x_{k}) | \leq ρ_{i} (x_{k})

那么我们即可获得迭代控制律

{\hat{v}}_{i} (x_{k}) = {\hat{v}}_{i}^{j} (x_{k}) .

对于评判网络的作用是逼近迭代性能指标函数。定义评判网络的逼近目标为

Γ_{i + 1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})} .

评判网络的输出可以表示为

{\hat{V}}_{i + 1}^{j} (x_{k}) = W_{ci}^{jT} σ (x_{k}),

其中为评判网络权值。定义评判网络误差为

e_{ci}^{j} (k) = {\hat{V}}_{i + 1}^{j} (x_{k}) - V_{i + 1} (x_{k}) .

那么评判网络的评价指标可以定义为

E_{ai}^{j} (k) = \frac{1}{2} {(e_{ai}^{j} (k))}^{T} (e_{ai}^{j} (k)) .

执行网络权值更新过程可以表示为

\begin{matrix} W_{ci}^{j + 1} (k) = W_{ci}^{j} (k) + {ΔW}_{ci}^{j} (k), \\ = W_{ci}^{j} (k) - l_{c} [\frac{{&PartialD; E}_{ci}^{j} (k)}{&PartialD; {\hat{V}}_{i + 1}^{j} (e (k))} \frac{&PartialD; {\hat{V}}_{i + 1}^{j} (e (k))}{&PartialD; W_{ci}^{j} (k)}] \\ = W_{ci}^{j} (k) - l_{c} e_{ci}^{j} (k) σ_{c} (x_{k}), \end{matrix}

其中l_c＞0为执行网络的学习律，训练评判网络使得迭代性能指标函数律满足

| {\hat{V}}_{i + 1}^{j} (x_{k}) - Γ_{i + 1} (x_{k}) | \leq π_{i} (x_{k}) .

那么我们即可获得迭代性能指标函数

{\hat{V}}_{i + 1} (x_{k}) = {\hat{V}}_{i + 1}^{j} (x_{k}) .

可以看到，采用评判网络与执行神经网络，本发明中的迭代自适应动态规划方法即可运行。

令是随机的可控的状态，对于若步骤6中不等式

1 \leq σ_{i + 1} \leq q_{i} \frac{γ_{i} + 1}{γ_{i}}

成立，其中0＜q_i＜1满足，可知当i→∞时，迭代性能指标函数收敛到最优性能指标函数J^*(x_k)的一个有界邻域内。

有界误差收敛准则的设计过程

由迭代误差σ_i+1满足可知误差σ_i+1是参数γ_i的函数。当获得参数γ_i后，可以通过迭代误差σ_i+1来保证迭代性能指标函数收敛。

令

Ω_{γ_{i}} = {γ_{i} | γ_{i} U (x_{k}, u_{k}) &GreaterEqual; V_{i} (F (x_{k}, u_{k}))}

为满足V_i(F(x_k，u_k))≤γ_iU(x_k，u_k)成立的γ_i的集合。由于近似误差的存在，准确的迭代性能指标函数V_i(x_k)通常无法直接获得。因此参数γ_i无法直接由V_i(F(x_k，u_k))≤γ_iU(x_k，u_k)获得。本发明给出三种算法来获得参数γ_i。

算法I：

步骤I-1、令μ(x_k)为任意给定的容许控制。

步骤I-2、对于i＝1，2，...，根据μ(x_k)构造新的性能指标函数P_i(x_k)，满足

P_i+1(x_k)＝U(x_k，μ(x_k))+P_i(x_k+1)

其中P₀(x_k)＝V₀(x_k)＝Ψ(x_k)；

步骤I-3、给出使其满足

{\tilde{γ}}_{i} U (x_{k}, u_{k}) &GreaterEqual; P_{i} (F (x_{k}, u_{k}));

步骤I-4、令

算法II：

步骤II-1、对于迭代性能指标函数可以通过下式获得

{\hat{V}}_{i + 1} (x_{k}) = U (x_{k}, {\hat{v}}_{i} (x_{k})) + {\hat{V}}_{i} (F (x_{k}, {\hat{v}}_{i} (x_{k}))) + π_{i} (x_{k});

其中π_i(x_k)为评判网络近似误差。

步骤II-2、令|πi(x_k)|为π_i(x_k)的上界。定义新的迭代性能指标函数为

步骤II-3、令

步骤II-4、由

{\hat{γ}}_{i} U (x_{k}, u_{k}) &GreaterEqual; {\hat{V}}_{i} (F (x_{k}, u_{k}))

得出

步骤II-5、令

算法III：

步骤III-2、通过

{\hat{V}}_{i + 1} (x_{k}) = U (x_{k}, {\hat{v}}_{i} (x_{k})) + {\hat{V}}_{i} (F (x_{k}, {\hat{v}}_{i} (x_{k}))) + π_{i} (x_{k})

获得迭代性能指标函数通过

Γ_{i + 1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})}

获得目标迭代性能指标函数Γ_i(x_k)；

步骤III-3、对于根据如下不等式

{\hat{V}}_{i} (x_{k}) &GreaterEqual; {\underset{&OverBar;}{σ}}_{i} Γ_{i} (x_{k})

获得σ _i。如果则σ _i＝1。根据如下不等式

{\hat{γ}}_{i} U (x_{k}, u_{k}) &GreaterEqual; {\hat{V}}_{i} (F (x_{k}, u_{k})),

获得

步骤III-4、令

\begin{matrix} {\underset{&OverBar;}{Δ}}_{i} = {\underset{&OverBar;}{σ}}_{i} [1 + Σ_{j = 1}^{i - 1} ({\underset{&OverBar;}{σ}}_{i - 1} {\underset{&OverBar;}{σ}}_{i - 2} . . . {\underset{&OverBar;}{σ}}_{i - j + 1} ({\underset{&OverBar;}{σ}}_{i - j} - 1) \\ \times \frac{{\underset{&OverBar;}{γ}}_{i - 1} {\underset{&OverBar;}{γ}}_{i - 2} . . . {\underset{&OverBar;}{γ}}_{i - j}}{({\underset{&OverBar;}{γ}}_{i - 1} + 1) ({\underset{&OverBar;}{γ}}_{i - 2} + 1) . . . ({\underset{&OverBar;}{γ}}_{i - j} + 1)})] \end{matrix}

通过下式解出γ _i

\underset{&OverBar;}{γ_{i}} = \frac{{\hat{γ}}_{i}}{{\underset{&OverBar;}{Δ}}_{i}};

步骤III-5、令γ_i＝γ _i。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于可变误差的非线性系统自适应最优控制方法，包括以下步骤：

步骤3、计算得到初始控制律

{\hat{v}}_{0} (x_{k}) = \arg \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{0} (x_{k + 1})} + ρ_{0} (x_{k}),

以及初始迭代性能指标函数

{\hat{V}}_{1} (x_{k}) = U (x_{k}, {\hat{v}}_{0} (x_{k})) + {\hat{V}}_{0} (F (x_{k}, {\hat{v}}_{0} (x_{k}))) + π_{0} (x_{k});

步骤5、对于任意i＝1，2，…，计算得到迭代控制律

{\hat{v}}_{i} (x_{k}) = \arg \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})} + ρ_{i} (x_{k})

和迭代性能指标函数

{\hat{V}}_{i + 1} (x_{k}) = U (x_{k}, {\hat{v}}_{i} (x_{k})) + {\hat{V}}_{i} (F (x_{k}, {\hat{v}}_{i} (x_{k}))) + π_{i} (x_{k});

步骤6、定义全局迭代目标函数为

V_{i + 1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + V_{i} (x_{k + 1})};

根据目标迭代性能指标函数

Γ_{i + 1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})},

计算获得参数σ_i使其满足

{\hat{V}}_{i + 1} (x_{k}) \leq σ_{i + 1} Γ_{i + 1} (x_{k});

2.如权利要求1所述的非线性系统自适应最优控制方法，其特征在于，在步骤5中采用两个神经网络，即执行网络与评判网络分别逼近迭代控制律与迭代性能指标函数。

3.如权利要求2所述的非线性系统自适应最优控制方法，其特征在于，所述评判网络与执行网络均采用BP神经网络进行构建。

4.如权利要求1所述的非线性系统自适应最优控制方法，其特征在于，在步骤6中获得参数γ_i的步骤为：

步骤I-1、令μ(x_k)为任意给定的容许控制；

步骤I-2、对于i＝1，2，…，根据μ(x_k)构造新的性能指标函数P_i(x_k)，满足P_i+1(x_k)＝U(x_k，μ(x_k))+P_i(x_k+1)，其中P₀(x_k)＝V₀(x_k)＝Ψ(x_k)；

步骤I-3、给出使其满足

{\tilde{γ}}_{i} U (x_{k}, u_{k}) &GreaterEqual; P_{i} (F (x_{k}, u_{k}));

步骤I-4、令

5.如权利要求1所述的非线性系统自适应最优控制方法，其特征在于，在步骤6中获得参数γ_i的步骤为：

步骤II-1、对于迭代性能指标函数可以通过下式获得

{\hat{V}}_{i + 1} (x_{k}) = U (x_{k}, {\hat{v}}_{i} (x_{k})) + {\hat{V}}_{i} (F (x_{k}, {\hat{v}}_{i} (x_{k}))) + π_{i} (x_{k});

其中π_i(x_k)为评判网络近似误差；

步骤II-3、令

{\hat{V}}_{i} (x_{k}) = {\hat{V}}_{i} (x_{k});

步骤II-4、由

{\hat{γ}}_{i} U (x_{k}, u_{k}) &GreaterEqual; {\hat{V}}_{i} (F (x_{k}, u_{k}))

得出

步骤II-5、令

6.如权利要求1所述的非线性系统自适应最优控制方法，其特征在于，在步骤6中获得参数γ_i的步骤为：

步骤III-1、记录和

步骤III-2、通过

{\hat{V}}_{i + 1} (x_{k}) = U (x_{k}, {\hat{v}}_{i} (x_{k})) + {\hat{V}}_{i} (F (x_{k}, {\hat{v}}_{i} (x_{k}))) + π_{i} (x_{k})

获得迭代性能指标函数通过

Γ_{i + 1} (x_{k}) = \min_{u_{k}} {U (x_{k}, u_{k}) + {\hat{V}}_{i} (x_{k + 1})}

获得目标迭代性能指标函数Γ_i(x_k)；

步骤III-3、对于根据如下不等式获得如果

{\hat{V}}_{i} (x_{k}) &GreaterEqual; Γ_{i} (x_{k}),

则

{\underset{&OverBar;}{σ}}_{i} = 1;

根据如下不等式

{\hat{γ}}_{i} U (x_{k}, u_{k}) &GreaterEqual; {\hat{V}}_{i} (F (x_{k}, u_{k}))

获得

步骤III-4、令

\begin{matrix} {\underset{&OverBar;}{Δ}}_{i} = {\underset{&OverBar;}{σ}}_{i} [1 + Σ_{j = 1}^{i - 1} ({\underset{&OverBar;}{σ}}_{i - 1} {\underset{&OverBar;}{σ}}_{i - 2} . . . {\underset{&OverBar;}{σ}}_{i - j + 1} ({\underset{&OverBar;}{σ}}_{i - j} - 1) \\ \times \frac{{\underset{&OverBar;}{γ}}_{i - 1} {\underset{&OverBar;}{γ}}_{i - 2} . . . {\underset{&OverBar;}{γ}}_{i - j}}{({\underset{&OverBar;}{γ}}_{i - 1} + 1) ({\underset{&OverBar;}{γ}}_{i - 2} + 1) . . . ({\underset{&OverBar;}{γ}}_{i - j} + 1)})] \end{matrix},

通过下式解出

{\underset{&OverBar;}{γ}}_{i} = \frac{{\hat{γ}}_{i}}{{\underset{&OverBar;}{Δ}}_{i}};

步骤III-5、令