CN102645894B

CN102645894B - 模糊自适应动态规划方法

Info

Publication number: CN102645894B
Application number: CN201210118982.5A
Authority: CN
Inventors: 赵冬斌; 朱圆恒
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-04-20
Filing date: 2012-04-20
Publication date: 2014-05-28
Anticipated expiration: 2032-04-20
Also published as: CN102645894A

Abstract

本发明公开了一种模糊自适应动态规划方法。所述方法包括以下步骤：步骤1，对自适应动态规划方法中的动作模块和评价模块的参数进行初始化；步骤2，采集被控制对象的状态变量；步骤3，对评价模块进行学习直至其满足学习指标要求；步骤4，对当前模糊控制器也进行学习，使评价模块和当前模糊控制器同时满足学习指标要求；步骤5，重复步骤2～4，利用下一个时刻的状态变量重复进行学习，直到用完所有数据；步骤6：将获得的模糊控制器的输出控制量输出到被控对象上，对被控对象进行实时控制。本发明利用模糊控制的结构简单、不需要精确模型的特性和自适应动态规则的学习特点，从而能够对欠驱动系统进行高效地智能控制。

Description

模糊自适应动态规划方法

技术领域

本发明涉及智能控制技术领域，尤其是一种模糊自适应动态规划方法。

背景技术

欠驱动系统是指系统的独立控制变量个数小于系统自由度个数的一类非线性系统，在节约能量、降低造价、减轻重量、增强系统灵活度等方面都较完全驱动系统优越。欠驱动系统结构简单，便于进行整体的动力学分析和试验。同时由于系统的高度非线性、参数摄动、多目标控制要求及控制量受限等原因，欠驱动系统又足够复杂，便于研究和验证各种算法的有效性。传统的欠驱动系统控制方法一般都需要被控系统的数学模型，然后才能设计欠驱动系统的控制器。但被控系统的数学模型往往很难得到，而且不精确，这样得到的控制器控制效果不太令人满意。

自适应动态规划自20世纪80年代提出，其基于人工神经网络能以任意精度逼近非线性函数的特性，通过单步计算实现对动态规划的一段时间序列的性能指标函数的估计，有效地解决了动态规划性能指标函数计算维数灾的难题，为高维复杂系统的最优控制提供了一种切实可行的理论和方法。

模糊控制不论是在理论研究还是实际应用上都占有了重要的地位。类似于人类的思考和自然语言，模糊控制不需要精确的输入输出关系，而是基于模糊规则，将建立在专家知识的语言性控制策略转变为自动控制策略。它主要包括隶属度函数和模糊规则。隶属度函数将精确变量转换为模糊变量，而典型的模糊规则如下所示：

如果x为A，y为B，那么z为C，

其中，x，y和z是模糊变量，A，B和C是相应的模糊集。大多数情况下，隶属度函数和模糊规则需要专家根据他们过去的经验和知识给出。一旦给出的参数不能够成功的控制，则需要反复的对其进行修正才能达到令人满意的结果。

发明内容

针对欠驱动系统的强复杂性和高非线性的特性，本发明将模糊控制和自适应动态规划两者结合起来，利用模糊控制的结构简单、不需要精确模型的特性，和自适应动态规则的学习特点，从而得到一种能够高效地对欠驱动系统进行智能控制的方法。将本发明方法应用在一阶倒立摆的结果表明其具有很好的控制效果。

模糊控制器中的隶属度函数和模糊规则是需要学习的对象。将它们都初始为随机值后，利用自适应动态规则对它们进行学习，能够迅速地学习出成功的控制器，使对被控对象的控制过程达到令人满意的效果。

本发明提出的一种模糊自适应动态规划方法，其特征在于，该方法包括以下步骤：

步骤1，将模糊控制器作为自适应动态规划方法中的动作模块并对所述自适应动态规划方法中的动作模块和评价模块的参数进行初始化，得到所述模糊控制器输出的控制变量；

步骤2，采集被控制对象的状态变量；

步骤3，将采集得到的所述被控制对象的状态变量和所述模糊控制器输出的控制变量作为所述评价模块的输入，对评价模块进行学习直至其满足学习指标要求；

步骤4，在对所述评价模块进行学习的同时，对当前模糊控制器也进行学习，以使所述评价模块和所述当前模糊控制器同时满足学习指标要求；

步骤5，重复上述步骤2～4，利用下一个时刻采集得到的被控制对象的状态变量对评价模块和模糊控制器进行学习，使下一个时刻的评价模块和模糊控制器同时满足学习指标要求，直到利用完所有时刻的数据为止；

步骤6，将最终获得的模糊控制器的输出控制量输出到被控对象上，对被控对象进行实时控制。

本发明中直接利用从欠驱动系统采集到测量信号，不依赖于模型模块。将旋转倒立摆作为该发明的研究对象，如图3所示。旋转倒立摆的控制目标是控制水平臂上施加的力矩，使得联接在水平臂末端的摆杆平衡在垂直位置的最顶端。

综上所述，与传统的欠驱动系统控制方法相比，本发明提出的模糊自适应动态规划方法具有以下优点：

●本发明提出的模糊自适应动态规划方法不依赖于被控对象模型，适用性较广；

●模糊控制器参数不再根据专家的经验和知识进行获得，而是由不断的学习最终得到一个能够完全对被控对象控制得了的值。

●本发明采用了模糊控制器，并对隶属度函数和模糊规则同时进行学习，控制效果优于其他控制器。

附图说明

图1是本发明模糊自适应动态规划方法流程图。

图2是自适应动态规划方法实现结构图。

图3是旋转倒立摆结构图。

图4是模糊双曲线模型示意图。

图5是三层前向神经网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1是基于模糊自适应动态规划方法的应用流程图。为了方便起见，下文以欠驱动系统的一个典型实例——旋转倒立摆为例进行解释和说明。

如图1所示，该方法包括以下几个步骤：

图2是自适应动态规划方法实现结构图。在图2中，欠驱动系统可以是实际被控制对象也可以是计算机模拟的数学模型。从欠驱动系统得到的测量数据传递到计算机中的自适应动态规划程序中，进行评价模块和动作模块的学习。

为了综合利用模糊控制器结构简单、不需要精确模型的特性，和自适应动态规则的学习特点，本发明将模糊控制器作为自适应动态规划方法的动作模块，并采用模糊双曲线模型作为所述模糊控制器的隶属度函数，模糊双曲线模型如图4所示。该模型用公式表示为：

其中，

表示求取

的双曲正切值，μ_i，N为隶属度函数Negative计算得到的模糊变量，μ_i，P为隶属度函数Positive计算得到的模糊变量，i＝1…n，n为被控制对象状态变量的个数，在旋转倒立摆中为4，N、P分别来自隶属度函数Negative和隶属度函数Positive的首字母，X_i为被控制对象的状态变量，即旋转倒立摆的状态变量，

是隶属度函数参数。

所述模糊控制器采用如下模糊规则：

如果X₁为N，X₂为N...并且X_n为N，那么输出为R₁；

如果X₁为N，X₂为N...但X_n为P，那么输出为R₂；

如果X₁为j₁，X₂为j₂...X_n为j_n，那么输出为R_m；

如果X₁为P，X₂为P...并且X_n为P，那么输出为

其中，j_i＝N或P，m＝1…2ⁿ。R_m是每条模糊规则相应的输出变量，每个m都与一组(j₁，j₂，...，j_n)相对应。

如果将N用数据0表示，P用1表示，则可以将m以二进值表示。那么对每一个模糊规则输出变量R_m，其相应的权重可表示为：

ω_{m} = Π_{i = 1}^{n} μ_{{i, j}_{i}}, m = {(\overset{&OverBar;}{j_{1} j_{2} . . . j_{n}})}_{2} + 1,

其中，为将二进制数j₁j₂...j_n转换为十进制数。

然后将相应的模糊规则输出变量和权重相乘加和后，就得到模糊控制器输出的控制变量u(t)：

u (t) = Σ_{m = 1}^{2^{n}} ω_{m} \cdot R_{m} .

对旋转倒立摆而言，就可以根据模糊控制器控制变量u(t)的正负号输出一个固定大小但方向相反的力，也可以对控制变量u(t)放大一定的增益后用作旋转倒立摆的控制信号。

而评价模块采用标准三层前向人工神经网络模型，如图5所示，以充分利用人工神经网络的非线性函数逼近能力。人工神经网络的学习就是通过对隐含层神经元权重的调节，使学习误差信号减小到一定阈值，满足人工神经网络的逼近能力。

本发明评价模块中使用的人工神经网络模型，输入层有5个节点，隐藏层有6个节点，输出层是1个节点，输出节点的输出可表示为：

J (t) = Σ_{i = 1}^{N_{h}} ω_{c_{i}}^{(2)} (t) p_{i} (t),

p_{i} (t) = \frac{1 - ex p^{- q_{i} (t)}}{1 + \exp^{- q_{i} (t)}}, i = 1, . . ., N_{h},

q_{i} (t) = Σ_{j = 1}^{n + 1} ω_{c_{ij}}^{(1)} (t) x_{j} (t), i = 1, . . ., N_{h},

其中，ω_c是评价模块神经网络权值向量，上标(1)、(2)分别表示神经网络中从第一层到第二层、以及从第二层到第三层，q_i、p_i和N_h分别是神经网络隐藏节点的输入、输出和个数，n+1是神经网络输入节点的个数，x_j(t)是神经网络输入变量，且x(t)＝[X(t)；u(t)]，其中，X(t)为旋转倒立摆的状态变量。

因此，对模糊自适应动态规划进行初始化时，需要对模糊控制器的隶属函数中参数和模糊规则中参数R_m以及评价模块中的神经网络参数

进行初始化，如隶属函数参数根据每个状态变量范围确定，模糊规则参数和神经网络的权重则是(-1，1)之间。

步骤2，采集被控制对象的状态变量；

图3是旋转倒立摆的结构图，图3中，水平臂在转轴上沿水平面进行旋转，垂直的摆杆在水平臂的末端沿与水平臂的垂直面上进行旋转。旋转倒立摆只对水平臂施加控制转矩，垂直摆杆的控制则依靠水平臂的摆动进行被动控制。利用旋转倒立摆中的各个测量单元，可对旋转倒立摆的关键状态进行测量。对旋转倒立摆来说，其状态变量X_i包括4个(i＝1，...，4)：1)θ(t)，摆杆的偏移角度；2)

摆杆的角速度；3)β(t)，水平臂的偏移角度；4)

水平臂的角速度。

将旋转倒立摆测量得到的4个状态变量X(t)和模糊控制器输出的控制变量u(t)合并成评价模块神经网络输入变量x(t)输入到评价模块，评价模块输出性能指标函数J(t)。利用J(t)、J(t-1)和评价变量r(t)构造出评价模块学习的误差信号e_c(t)和目标函数E_c(t)，如下式所示(图2中Z^-1表示前一时刻的变量)：

e_c(t)＝γJ(t)-J(t-1)+r(t)，

E_{c} (t) = \frac{1}{2} e_{c}^{2} (t)

其中，γ＝0.95是折扣因子。

对旋转倒立摆这一控制对象来说，其控制目标是力求将其水平臂和摆杆控制在中央和垂直位置。因此，需要预先规定水平臂偏移角度β和摆杆偏移角度θ的范围，比如[-40°，40°]和[-12°，12°]。评价变量r(t)定义为当系统任意状态变量超出了预先定义的范围时，r(t)取-1，否则取0，即：

同时，如果系统任意状态变量超出了预先定义的范围时，则表示此次训练已经失败，需要将被控系统的状态变量重新给到预先定义的范围内，回到步骤2中，重新开始一个新的训练。

假设评价模块的目标函数E_c(t)趋于零，可以递推得到：

J (t) = Σ_{k = t + 1}^{\infty} γ^{k - t - 1} r (k),

上式与动态规划的性能指标函数的定义相同，因此，本发明的评价模块能够准确估计出模糊控制器(即图2中的动作模块)的性能指标函数，以用来定量指导动作模块的优化。

接下来以使性能指标函数J(t)为零为目标对评价模块进行学习，直至满足学习指标要求，即评价模块目标函数E_c(t)减小到0.05、或学习到50次。学习的方法主要包括以下两种：梯度下降法(GD)和粒子群优化算法(PSO)。

梯度下降法(GD)用公式可表示为：

Δ ω_{c_{i}}^{(2)} (t) = l_{c} (t) [- \frac{&PartialD; E_{c} (t)}{&PartialD; ω_{c_{i}}^{(2)} (t)}]

= - l_{c} (t) \frac{&PartialD; E_{c} (t)}{&PartialD; J (t)} \frac{&PartialD; J (t)}{&PartialD; ω_{c_{i}}^{(2)} (t)} = - l_{c} (t) γ e_{c} (t) p_{i} (t) .

Δ ω_{c_{ij}}^{(1)} (t) = l_{c} (t) [- \frac{&PartialD; E_{c} (t)}{&PartialD; ω_{c_{ij}}^{(1)} (t)}]

= - l_{c} (t) \frac{&PartialD; E_{c} (t)}{&PartialD; J (t)} \frac{&PartialD; J (t)}{&PartialD; p_{i} (t)} \frac{{&PartialD; p}_{i} (t)}{{&PartialD; q}_{i} (t)} \frac{&PartialD; q_{i} (t)}{{&PartialD; ω}_{c_{ij}}^{(1)} (t)}

= - l_{c} (t) γ e_{c} (t) ω_{c_{i}}^{(2)} (t) [\frac{1}{2} (1 - p_{i}^{2} (t))] x_{j} (t) .

其中，l_c(t)＝0.005是评价模块的学习速率。

而粒子群优化算法(PSO)一般可以分为以下几个步骤：

1)初始化粒子群，包括初始化以下参数：x_id(某一粒子当前的位置)，v_id(某个粒子当前的速度)，p_id(某一粒子能够达到的最优值)，p_gd(所有粒子能够达到的全局最优值)。

2)对每个粒子计算适应度，选择适应度为exp[-E_c(t)]。

3)对每个粒子更新个体适应度的最优值p_id，即针对每个粒子在当前以及之前位置计算的适应度值的最大值。

4)对所有粒子更新全局适应度的最优值p_gd，即针对所有粒子在当前以及之前位置计算的适应度值的最大值。

5)计算每个粒子的速度v_id和每个粒子的位置：

v_id＝ωv_id+c₁r₁(p_id-x_id)+c₂r₂(p_gd-x_id)，

x_id＝x_id+v_id，

ω＝ω_min+(iter/iter_max)·(ω_max-ω_min)，

6)进行判断是否达到约束条件或是达到最大迭代次数，如果是则迭代结束输出全局最优值p_gd；否则，返回步骤2)中重新进行迭代计算。

其中，c₁＝c₂＝2是学习因子，r₁与r₂是(0，1)之间的随机数，ω_min＝0.4，ω_max＝0.9是惯性权重，iter为当前已迭代的次数，iter_max为预先定义的最大迭代次数。

在使用粒子群优化算法学习评价模块时，将评价模块人工神经网络的全部权值作为x_id的元素。

上面提到的两种学习方法，梯度下降法比较简单，适合于可以误差反向传播的连续系统；粒子群优化算法则相对要复杂些，但不仅适用于误差反向传播的连续系统，同时对非连续的、如模糊查表法那种无法误差反向传播的系统也同样适用。

当前模糊控制器，即图2中的动作模块的误差信号e_a(t)和目标函数E_a(t)定义为：

e_a(t)＝J(t)-U_c(t)，

E_{α} (t) = \frac{1}{2} e_{a}^{2} (t)

其中，U_c(t)定义为效用函数，通常设定为所述性能指标函数J(t)能够接近的一个值。在评价变量r(t)的最小值为零的情况下，可以设定效用函数U_c(t)也为零。

对动作模块的学习过程通过调节模糊控制器的隶属函数参数和模糊规则参数R_m的取值范围，来对模糊控制器进行优化，即，使性能指标函数J(t)为零，最终满足学习指标要求，即目标函数E_a(t)减小到小于0.005、或学习到100次。

同样梯度下降法和粒子群优化算法都适用于动作模块的学习。对梯度下降法来说，学习公式如下表示：

Δ θ_{i} (t) = l_{a} (t) [- \frac{&PartialD; E_{a} (t)}{&PartialD; θ_{i} (t)}]

= - l_{a} (t) \frac{&PartialD; E_{a} (t)}{&PartialD; J (t)} \frac{&PartialD; J (t)}{&PartialD; u (t)} \frac{&PartialD; u (t)}{&PartialD; θ_{i} (t)}

= - l_{a} (t) e_{a} (t) Σ_{j = 1}^{N_{h}} [ω_{c_{i}}^{(2)} (t) \frac{1}{2} (1 - p_{j}^{2} (t)) ω_{c_{j, n + 1}}^{(1)} (t)]

Σ_{r = 1}^{16} [R_{r} ({\underset{t = 1}{Π}}_{t &NotEqual; i}^{4} μ_{t, j_{t}}) \frac{&PartialD; μ_{{i, j}_{i}}}{&PartialD; θ_{i}}] .

Δ R_{r} (t) = l_{a} (t) [- \frac{&PartialD; E_{a} (t)}{&PartialD; R_{r} (t)}]

= - l_{a} (t) \frac{&PartialD; E_{a} (t)}{&PartialD; J (t)} \frac{&PartialD; J (t)}{&PartialD; u (t)} \frac{&PartialD; u (t)}{&PartialD; R_{r} (t)}

= - l_{a} (t) e_{a} (t) ω_{r} Σ_{i = 1}^{N_{h}} [ω_{c_{i}}^{(2)} (t) \frac{1}{2} (1 - p_{i}^{2} (t)) ω_{c_{i, n + 1}}^{(1)} (t)] .

其中，l_a(t)＝0.005是动作模块的学习速率，

\frac{&PartialD; μ_{i, j_{i}}}{&PartialD; θ_{i}} = \{\begin{matrix} - \frac{1}{2} {sech}^{2} (θ_{i} X_{i}) \cdot X_{i}, if j_{i} = N, \\ \frac{1}{2} {sech}^{2} (θ_{i} X_{i}) \cdot X_{i}, if j_{i} = P . \end{matrix}

其中sech(θ_iX_i)表示求取θ_iX_i的双曲正割值。

对粒子群优化算法来说，除了将x_id的元素变为隶属度函数

与模糊规则R_m，其学习过程和参数与学习评价模块时的学习过程和参数相近，在此不做赘述。

由于两个模块的学习过程耦合、学习结果互相影响，因此，有必要在对所述评价模块进行学习的同时，对当前模糊控制器也进行学习，以使评价模块和动作模块同时满足学习指标要求，比如评价模块的目标函数E_c(t)和模糊控制器的目标函数E_a(t)同时减小到一定阈值或学习到一定次数。

重复上述步骤2～4，利用下一个时刻采集得到的被控制对象的状态变量对评价模块和模糊控制器进行学习，使下一个时刻的评价模块和动作模块同时满足学习指标要求，这个过程一直持续下去，直到利用完所有时刻的数据为止，以实现模糊控制器的泛化。

经过上述步骤1～5后，最终获得的模糊控制器被认为是优化的被控对象控制器，将其输出的控制变量输出到被控对象上，以对被控对象进行实时控制。

若最终获得的模糊控制器的控制性能低下，或者被控对象参数变化、所优化的模糊控制器的控制性能下降，则重复上述步骤1～5，进行模糊控制器的优化更新。比如对于旋转倒立摆，当使用最终获得的模糊控制器对其进行控制时，如果水平臂和摆杆偏移角度中的任意一个超过所述允许范围后便认定为学习失败，则回到步骤1中对神经网络和模糊控制器中的参数重新进行初始化(如选取一组新的随机值)，重新开始学习。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种模糊自适应动态规划方法，其特征在于，该方法包括以下步骤：

步骤1，将模糊控制器作为自适应动态规划方法中的动作模块，并对所述自适应动态规划方法中的动作模块和评价模块的参数进行初始化，得到所述模糊控制器输出的控制变量；

步骤2，采集被控制对象的状态变量，所述被控制对象为旋转倒立摆，其状态变量包括4个：摆杆的偏移角度θ(t)；摆杆的角速度水平臂的偏移角度β(t)以及水平臂的角速度

步骤6，将最终获得的模糊控制器的输出控制量输出到被控制对象上，对被控制对象进行实时控制；

所述步骤4进一步为使用梯度下降法或粒子群优化算法，通过调节模糊控制器的隶属函数参数和模糊规则的取值范围，来对模糊控制器进行优化，即使评价模块输出的性能指标函数J(t)为零，最终满足学习指标要求，即当前模糊控制器的目标函数E_a(t)减小到小于0.005或学习到100次：其中所述目标函数E_a(t)表示为：

其中，e_a(t)=J(t)-U_c(t)，U_c(t)为效用函数。

2.根据权利要求1所述的方法，其特征在于，采用模糊双曲线模型作为所述模糊控制器的隶属度函数，所述模糊双曲线模型用公式表示为：

其中，

表示求取

的双曲正切值，μ_i,N为隶属度函数Negative计算得到的模糊变量，μ_i,P为隶属度函数Positive计算得到的模糊变量，i＝1…n，n为被控制对象状态变量的个数，X_i为被控制对象的状态变量，

是隶属度函数参数。

3.根据权利要求2所述的方法，其特征在于，所述模糊控制器采用如下模糊规则：

如果X₁为N，X₂为N…并且X_n为N,那么输出为R₁;

如果X₁为N，X₂为N…但X_n为P,那么输出为R₂;

.

如果X₁为j₁，X₂为j₂…X_n为j_n,那么输出为R_m;

.

如果X₁为P，X₂为P…并且X_n为P,那么输出为

其中，j_i＝N或P，m＝1…2ⁿ，R_m是每条模糊规则相应的输出变量。

4.根据权利要求3所述的方法，其特征在于，对每一个模糊规则输出变量R_m，其相应的权重为：

ω_{m} = Π_{i = 1}^{n} μ_{{i, j}_{i}}, m = {(\overset{&OverBar;}{j_{i} j_{2} \cdot \cdot \cdot j_{n}})}_{2} + 1,

其中，

为将二进制数j₁j₂…j_n转换为十进制数；

那么，所述模糊控制器输出的控制变量u(t)为：

u (t) = Σ_{m = 1}^{2^{n}} ω_{m} \cdot R_{m} .

5.根据权利要求1所述的方法，其特征在于，所述评价模块采用标准三层前向人工神经网络模型。

6.根据权利要求1所述的方法，其特征在于，所述步骤3进一步包括：将被控制对象的状态变量X(t)和模糊控制器输出的控制变量u(t)合并成输入变量x(t)输入到评价模块，评价模块输出性能指标函数J(t)，利用J(t)、J(t-1)和评价变量r(t)构造出评价模块学习的误差信号e_c(t)和目标函数E_c(t)：

e_c(t)=γJ(t)-J(t-1)+r(t)，

E_{c} (t) = \frac{1}{2} e_{c}^{2} (t),

其中，γ＝0.95是折扣因子；使用梯度下降法或粒子群优化算法以使性能指标函数J(t)为零为目标对评价模块进行学习，直至满足学习指标要求，即所述目标函数E_c(t)减小到0.05或学习到50次。

7.根据权利要求1所述的方法，其特征在于，若最终获得的模糊控制器的控制性能低下或者被控制对象参数变化、所优化的模糊控制器的控制性能下降，则重复所述步骤1～5，进行模糊控制器的优化更新。