CN102645894B - 模糊自适应动态规划方法 - Google Patents

模糊自适应动态规划方法 Download PDF

Info

Publication number
CN102645894B
CN102645894B CN201210118982.5A CN201210118982A CN102645894B CN 102645894 B CN102645894 B CN 102645894B CN 201210118982 A CN201210118982 A CN 201210118982A CN 102645894 B CN102645894 B CN 102645894B
Authority
CN
China
Prior art keywords
mrow
msub
fuzzy
evaluation module
fuzzy controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210118982.5A
Other languages
English (en)
Other versions
CN102645894A (zh
Inventor
赵冬斌
朱圆恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201210118982.5A priority Critical patent/CN102645894B/zh
Publication of CN102645894A publication Critical patent/CN102645894A/zh
Application granted granted Critical
Publication of CN102645894B publication Critical patent/CN102645894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明公开了一种模糊自适应动态规划方法。所述方法包括以下步骤:步骤1,对自适应动态规划方法中的动作模块和评价模块的参数进行初始化;步骤2,采集被控制对象的状态变量;步骤3,对评价模块进行学习直至其满足学习指标要求;步骤4,对当前模糊控制器也进行学习,使评价模块和当前模糊控制器同时满足学习指标要求;步骤5,重复步骤2~4,利用下一个时刻的状态变量重复进行学习,直到用完所有数据;步骤6:将获得的模糊控制器的输出控制量输出到被控对象上,对被控对象进行实时控制。本发明利用模糊控制的结构简单、不需要精确模型的特性和自适应动态规则的学习特点,从而能够对欠驱动系统进行高效地智能控制。

Description

模糊自适应动态规划方法
技术领域
本发明涉及智能控制技术领域,尤其是一种模糊自适应动态规划方法。
背景技术
欠驱动系统是指系统的独立控制变量个数小于系统自由度个数的一类非线性系统,在节约能量、降低造价、减轻重量、增强系统灵活度等方面都较完全驱动系统优越。欠驱动系统结构简单,便于进行整体的动力学分析和试验。同时由于系统的高度非线性、参数摄动、多目标控制要求及控制量受限等原因,欠驱动系统又足够复杂,便于研究和验证各种算法的有效性。传统的欠驱动系统控制方法一般都需要被控系统的数学模型,然后才能设计欠驱动系统的控制器。但被控系统的数学模型往往很难得到,而且不精确,这样得到的控制器控制效果不太令人满意。
自适应动态规划自20世纪80年代提出,其基于人工神经网络能以任意精度逼近非线性函数的特性,通过单步计算实现对动态规划的一段时间序列的性能指标函数的估计,有效地解决了动态规划性能指标函数计算维数灾的难题,为高维复杂系统的最优控制提供了一种切实可行的理论和方法。
模糊控制不论是在理论研究还是实际应用上都占有了重要的地位。类似于人类的思考和自然语言,模糊控制不需要精确的输入输出关系,而是基于模糊规则,将建立在专家知识的语言性控制策略转变为自动控制策略。它主要包括隶属度函数和模糊规则。隶属度函数将精确变量转换为模糊变量,而典型的模糊规则如下所示:
如果x为A,y为B,那么z为C,
其中,x,y和z是模糊变量,A,B和C是相应的模糊集。大多数情况下,隶属度函数和模糊规则需要专家根据他们过去的经验和知识给出。一旦给出的参数不能够成功的控制,则需要反复的对其进行修正才能达到令人满意的结果。
发明内容
针对欠驱动系统的强复杂性和高非线性的特性,本发明将模糊控制和自适应动态规划两者结合起来,利用模糊控制的结构简单、不需要精确模型的特性,和自适应动态规则的学习特点,从而得到一种能够高效地对欠驱动系统进行智能控制的方法。将本发明方法应用在一阶倒立摆的结果表明其具有很好的控制效果。
模糊控制器中的隶属度函数和模糊规则是需要学习的对象。将它们都初始为随机值后,利用自适应动态规则对它们进行学习,能够迅速地学习出成功的控制器,使对被控对象的控制过程达到令人满意的效果。
本发明提出的一种模糊自适应动态规划方法,其特征在于,该方法包括以下步骤:
步骤1,将模糊控制器作为自适应动态规划方法中的动作模块并对所述自适应动态规划方法中的动作模块和评价模块的参数进行初始化,得到所述模糊控制器输出的控制变量;
步骤2,采集被控制对象的状态变量;
步骤3,将采集得到的所述被控制对象的状态变量和所述模糊控制器输出的控制变量作为所述评价模块的输入,对评价模块进行学习直至其满足学习指标要求;
步骤4,在对所述评价模块进行学习的同时,对当前模糊控制器也进行学习,以使所述评价模块和所述当前模糊控制器同时满足学习指标要求;
步骤5,重复上述步骤2~4,利用下一个时刻采集得到的被控制对象的状态变量对评价模块和模糊控制器进行学习,使下一个时刻的评价模块和模糊控制器同时满足学习指标要求,直到利用完所有时刻的数据为止;
步骤6,将最终获得的模糊控制器的输出控制量输出到被控对象上,对被控对象进行实时控制。
本发明中直接利用从欠驱动系统采集到测量信号,不依赖于模型模块。将旋转倒立摆作为该发明的研究对象,如图3所示。旋转倒立摆的控制目标是控制水平臂上施加的力矩,使得联接在水平臂末端的摆杆平衡在垂直位置的最顶端。
综上所述,与传统的欠驱动系统控制方法相比,本发明提出的模糊自适应动态规划方法具有以下优点:
●本发明提出的模糊自适应动态规划方法不依赖于被控对象模型,适用性较广;
●模糊控制器参数不再根据专家的经验和知识进行获得,而是由不断的学习最终得到一个能够完全对被控对象控制得了的值。
●本发明采用了模糊控制器,并对隶属度函数和模糊规则同时进行学习,控制效果优于其他控制器。
附图说明
图1是本发明模糊自适应动态规划方法流程图。
图2是自适应动态规划方法实现结构图。
图3是旋转倒立摆结构图。
图4是模糊双曲线模型示意图。
图5是三层前向神经网络结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1是基于模糊自适应动态规划方法的应用流程图。为了方便起见,下文以欠驱动系统的一个典型实例——旋转倒立摆为例进行解释和说明。
如图1所示,该方法包括以下几个步骤:
步骤1,将模糊控制器作为自适应动态规划方法中的动作模块并对所述自适应动态规划方法中的动作模块和评价模块的参数进行初始化,得到所述模糊控制器输出的控制变量;
图2是自适应动态规划方法实现结构图。在图2中,欠驱动系统可以是实际被控制对象也可以是计算机模拟的数学模型。从欠驱动系统得到的测量数据传递到计算机中的自适应动态规划程序中,进行评价模块和动作模块的学习。
为了综合利用模糊控制器结构简单、不需要精确模型的特性,和自适应动态规则的学习特点,本发明将模糊控制器作为自适应动态规划方法的动作模块,并采用模糊双曲线模型作为所述模糊控制器的隶属度函数,模糊双曲线模型如图4所示。该模型用公式表示为:
Figure BDA0000155318580000041
Figure BDA0000155318580000042
其中,
Figure BDA0000155318580000043
表示求取
Figure BDA0000155318580000044
的双曲正切值,μi,N为隶属度函数Negative计算得到的模糊变量,μi,P为隶属度函数Positive计算得到的模糊变量,i=1…n,n为被控制对象状态变量的个数,在旋转倒立摆中为4,N、P分别来自隶属度函数Negative和隶属度函数Positive的首字母,Xi为被控制对象的状态变量,即旋转倒立摆的状态变量,
Figure BDA0000155318580000045
是隶属度函数参数。
所述模糊控制器采用如下模糊规则:
如果X1为N,X2为N...并且Xn为N,那么输出为R1
如果X1为N,X2为N...但Xn为P,那么输出为R2
如果X1为j1,X2为j2...Xn为jn,那么输出为Rm
如果X1为P,X2为P...并且Xn为P,那么输出为
Figure BDA0000155318580000046
其中,ji=N或P,m=1…2n。Rm是每条模糊规则相应的输出变量,每个m都与一组(j1,j2,...,jn)相对应。
如果将N用数据0表示,P用1表示,则可以将m以二进值表示。那么对每一个模糊规则输出变量Rm,其相应的权重可表示为:
ω m = Π i = 1 n μ i , j i , m = ( j 1 j 2 . . . j n ‾ ) 2 + 1 ,
其中,为将二进制数j1j2...jn转换为十进制数。
然后将相应的模糊规则输出变量和权重相乘加和后,就得到模糊控制器输出的控制变量u(t):
u ( t ) = Σ m = 1 2 n ω m · R m .
对旋转倒立摆而言,就可以根据模糊控制器控制变量u(t)的正负号输出一个固定大小但方向相反的力,也可以对控制变量u(t)放大一定的增益后用作旋转倒立摆的控制信号。
而评价模块采用标准三层前向人工神经网络模型,如图5所示,以充分利用人工神经网络的非线性函数逼近能力。人工神经网络的学习就是通过对隐含层神经元权重的调节,使学习误差信号减小到一定阈值,满足人工神经网络的逼近能力。
本发明评价模块中使用的人工神经网络模型,输入层有5个节点,隐藏层有6个节点,输出层是1个节点,输出节点的输出可表示为:
J ( t ) = Σ i = 1 N h ω c i ( 2 ) ( t ) p i ( t ) ,
p i ( t ) = 1 - ex p - q i ( t ) 1 + exp - q i ( t ) , i = 1 , . . . , N h ,
q i ( t ) = Σ j = 1 n + 1 ω c ij ( 1 ) ( t ) x j ( t ) , i = 1 , . . . , N h ,
其中,ωc是评价模块神经网络权值向量,上标(1)、(2)分别表示神经网络中从第一层到第二层、以及从第二层到第三层,qi、pi和Nh分别是神经网络隐藏节点的输入、输出和个数,n+1是神经网络输入节点的个数,xj(t)是神经网络输入变量,且x(t)=[X(t);u(t)],其中,X(t)为旋转倒立摆的状态变量。
因此,对模糊自适应动态规划进行初始化时,需要对模糊控制器的隶属函数中参数和模糊规则中参数Rm以及评价模块中的神经网络参数
Figure BDA0000155318580000056
进行初始化,如隶属函数参数根据每个状态变量范围确定,模糊规则参数和神经网络的权重则是(-1,1)之间。
步骤2,采集被控制对象的状态变量;
图3是旋转倒立摆的结构图,图3中,水平臂在转轴上沿水平面进行旋转,垂直的摆杆在水平臂的末端沿与水平臂的垂直面上进行旋转。旋转倒立摆只对水平臂施加控制转矩,垂直摆杆的控制则依靠水平臂的摆动进行被动控制。利用旋转倒立摆中的各个测量单元,可对旋转倒立摆的关键状态进行测量。对旋转倒立摆来说,其状态变量Xi包括4个(i=1,...,4):1)θ(t),摆杆的偏移角度;2)
Figure BDA0000155318580000061
摆杆的角速度;3)β(t),水平臂的偏移角度;4)
Figure BDA0000155318580000062
水平臂的角速度。
步骤3,将采集得到的所述被控制对象的状态变量和所述模糊控制器输出的控制变量作为所述评价模块的输入,对评价模块进行学习直至其满足学习指标要求;
将旋转倒立摆测量得到的4个状态变量X(t)和模糊控制器输出的控制变量u(t)合并成评价模块神经网络输入变量x(t)输入到评价模块,评价模块输出性能指标函数J(t)。利用J(t)、J(t-1)和评价变量r(t)构造出评价模块学习的误差信号ec(t)和目标函数Ec(t),如下式所示(图2中Z-1表示前一时刻的变量):
ec(t)=γJ(t)-J(t-1)+r(t),
E c ( t ) = 1 2 e c 2 ( t )
其中,γ=0.95是折扣因子。
对旋转倒立摆这一控制对象来说,其控制目标是力求将其水平臂和摆杆控制在中央和垂直位置。因此,需要预先规定水平臂偏移角度β和摆杆偏移角度θ的范围,比如[-40°,40°]和[-12°,12°]。评价变量r(t)定义为当系统任意状态变量超出了预先定义的范围时,r(t)取-1,否则取0,即:
Figure BDA0000155318580000064
同时,如果系统任意状态变量超出了预先定义的范围时,则表示此次训练已经失败,需要将被控系统的状态变量重新给到预先定义的范围内,回到步骤2中,重新开始一个新的训练。
假设评价模块的目标函数Ec(t)趋于零,可以递推得到:
J ( t ) = Σ k = t + 1 ∞ γ k - t - 1 r ( k ) ,
上式与动态规划的性能指标函数的定义相同,因此,本发明的评价模块能够准确估计出模糊控制器(即图2中的动作模块)的性能指标函数,以用来定量指导动作模块的优化。
接下来以使性能指标函数J(t)为零为目标对评价模块进行学习,直至满足学习指标要求,即评价模块目标函数Ec(t)减小到0.05、或学习到50次。学习的方法主要包括以下两种:梯度下降法(GD)和粒子群优化算法(PSO)。
梯度下降法(GD)用公式可表示为:
Δ ω c i ( 2 ) ( t ) = l c ( t ) [ - ∂ E c ( t ) ∂ ω c i ( 2 ) ( t ) ]
= - l c ( t ) ∂ E c ( t ) ∂ J ( t ) ∂ J ( t ) ∂ ω c i ( 2 ) ( t ) = - l c ( t ) γ e c ( t ) p i ( t ) .
Δ ω c ij ( 1 ) ( t ) = l c ( t ) [ - ∂ E c ( t ) ∂ ω c ij ( 1 ) ( t ) ]
= - l c ( t ) ∂ E c ( t ) ∂ J ( t ) ∂ J ( t ) ∂ p i ( t ) ∂ p i ( t ) ∂ q i ( t ) ∂ q i ( t ) ∂ ω c ij ( 1 ) ( t )
= - l c ( t ) γ e c ( t ) ω c i ( 2 ) ( t ) [ 1 2 ( 1 - p i 2 ( t ) ) ] x j ( t ) .
其中,lc(t)=0.005是评价模块的学习速率。
而粒子群优化算法(PSO)一般可以分为以下几个步骤:
1)初始化粒子群,包括初始化以下参数:xid(某一粒子当前的位置),vid(某个粒子当前的速度),pid(某一粒子能够达到的最优值),pgd(所有粒子能够达到的全局最优值)。
2)对每个粒子计算适应度,选择适应度为exp[-Ec(t)]。
3)对每个粒子更新个体适应度的最优值pid,即针对每个粒子在当前以及之前位置计算的适应度值的最大值。
4)对所有粒子更新全局适应度的最优值pgd,即针对所有粒子在当前以及之前位置计算的适应度值的最大值。
5)计算每个粒子的速度vid和每个粒子的位置:
vid=ωvid+c1r1(pid-xid)+c2r2(pgd-xid),
xid=xid+vid
ω=ωmin+(iter/itermax)·(ωmaxmin),
6)进行判断是否达到约束条件或是达到最大迭代次数,如果是则迭代结束输出全局最优值pgd;否则,返回步骤2)中重新进行迭代计算。
其中,c1=c2=2是学习因子,r1与r2是(0,1)之间的随机数,ωmin=0.4,ωmax=0.9是惯性权重,iter为当前已迭代的次数,itermax为预先定义的最大迭代次数。
在使用粒子群优化算法学习评价模块时,将评价模块人工神经网络的全部权值作为xid的元素。
上面提到的两种学习方法,梯度下降法比较简单,适合于可以误差反向传播的连续系统;粒子群优化算法则相对要复杂些,但不仅适用于误差反向传播的连续系统,同时对非连续的、如模糊查表法那种无法误差反向传播的系统也同样适用。
步骤4,在对所述评价模块进行学习的同时,对当前模糊控制器也进行学习,以使所述评价模块和所述当前模糊控制器同时满足学习指标要求;
当前模糊控制器,即图2中的动作模块的误差信号ea(t)和目标函数Ea(t)定义为:
ea(t)=J(t)-Uc(t),
E α ( t ) = 1 2 e a 2 ( t )
其中,Uc(t)定义为效用函数,通常设定为所述性能指标函数J(t)能够接近的一个值。在评价变量r(t)的最小值为零的情况下,可以设定效用函数Uc(t)也为零。
对动作模块的学习过程通过调节模糊控制器的隶属函数参数和模糊规则参数Rm的取值范围,来对模糊控制器进行优化,即,使性能指标函数J(t)为零,最终满足学习指标要求,即目标函数Ea(t)减小到小于0.005、或学习到100次。
同样梯度下降法和粒子群优化算法都适用于动作模块的学习。对梯度下降法来说,学习公式如下表示:
Δ θ i ( t ) = l a ( t ) [ - ∂ E a ( t ) ∂ θ i ( t ) ]
= - l a ( t ) ∂ E a ( t ) ∂ J ( t ) ∂ J ( t ) ∂ u ( t ) ∂ u ( t ) ∂ θ i ( t )
= - l a ( t ) e a ( t ) Σ j = 1 N h [ ω c i ( 2 ) ( t ) 1 2 ( 1 - p j 2 ( t ) ) ω c j , n + 1 ( 1 ) ( t ) ]
Σ r = 1 16 [ R r ( Π t = 1 t ≠ i 4 μ t , j t ) ∂ μ i , j i ∂ θ i ] .
Δ R r ( t ) = l a ( t ) [ - ∂ E a ( t ) ∂ R r ( t ) ]
= - l a ( t ) ∂ E a ( t ) ∂ J ( t ) ∂ J ( t ) ∂ u ( t ) ∂ u ( t ) ∂ R r ( t )
= - l a ( t ) e a ( t ) ω r Σ i = 1 N h [ ω c i ( 2 ) ( t ) 1 2 ( 1 - p i 2 ( t ) ) ω c i , n + 1 ( 1 ) ( t ) ] .
其中,la(t)=0.005是动作模块的学习速率,
∂ μ i , j i ∂ θ i = - 1 2 sech 2 ( θ i X i ) · X i , if j i = N , 1 2 sech 2 ( θ i X i ) · X i , if j i = P .
其中sech(θiXi)表示求取θiXi的双曲正割值。
对粒子群优化算法来说,除了将xid的元素变为隶属度函数
Figure BDA0000155318580000099
与模糊规则Rm,其学习过程和参数与学习评价模块时的学习过程和参数相近,在此不做赘述。
由于两个模块的学习过程耦合、学习结果互相影响,因此,有必要在对所述评价模块进行学习的同时,对当前模糊控制器也进行学习,以使评价模块和动作模块同时满足学习指标要求,比如评价模块的目标函数Ec(t)和模糊控制器的目标函数Ea(t)同时减小到一定阈值或学习到一定次数。
步骤5,重复上述步骤2~4,利用下一个时刻采集得到的被控制对象的状态变量对评价模块和模糊控制器进行学习,使下一个时刻的评价模块和模糊控制器同时满足学习指标要求,直到利用完所有时刻的数据为止;
重复上述步骤2~4,利用下一个时刻采集得到的被控制对象的状态变量对评价模块和模糊控制器进行学习,使下一个时刻的评价模块和动作模块同时满足学习指标要求,这个过程一直持续下去,直到利用完所有时刻的数据为止,以实现模糊控制器的泛化。
步骤6,将最终获得的模糊控制器的输出控制量输出到被控对象上,对被控对象进行实时控制。
经过上述步骤1~5后,最终获得的模糊控制器被认为是优化的被控对象控制器,将其输出的控制变量输出到被控对象上,以对被控对象进行实时控制。
若最终获得的模糊控制器的控制性能低下,或者被控对象参数变化、所优化的模糊控制器的控制性能下降,则重复上述步骤1~5,进行模糊控制器的优化更新。比如对于旋转倒立摆,当使用最终获得的模糊控制器对其进行控制时,如果水平臂和摆杆偏移角度中的任意一个超过所述允许范围后便认定为学习失败,则回到步骤1中对神经网络和模糊控制器中的参数重新进行初始化(如选取一组新的随机值),重新开始学习。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种模糊自适应动态规划方法,其特征在于,该方法包括以下步骤:
步骤1,将模糊控制器作为自适应动态规划方法中的动作模块,并对所述自适应动态规划方法中的动作模块和评价模块的参数进行初始化,得到所述模糊控制器输出的控制变量;
步骤2,采集被控制对象的状态变量,所述被控制对象为旋转倒立摆,其状态变量包括4个:摆杆的偏移角度θ(t);摆杆的角速度水平臂的偏移角度β(t)以及水平臂的角速度
Figure FDA0000479712490000013
步骤3,将采集得到的所述被控制对象的状态变量和所述模糊控制器输出的控制变量作为所述评价模块的输入,对评价模块进行学习直至其满足学习指标要求;
步骤4,在对所述评价模块进行学习的同时,对当前模糊控制器也进行学习,以使所述评价模块和所述当前模糊控制器同时满足学习指标要求;
步骤5,重复上述步骤2~4,利用下一个时刻采集得到的被控制对象的状态变量对评价模块和模糊控制器进行学习,使下一个时刻的评价模块和模糊控制器同时满足学习指标要求,直到利用完所有时刻的数据为止;
步骤6,将最终获得的模糊控制器的输出控制量输出到被控制对象上,对被控制对象进行实时控制;
所述步骤4进一步为使用梯度下降法或粒子群优化算法,通过调节模糊控制器的隶属函数参数和模糊规则的取值范围,来对模糊控制器进行优化,即使评价模块输出的性能指标函数J(t)为零,最终满足学习指标要求,即当前模糊控制器的目标函数Ea(t)减小到小于0.005或学习到100次:其中所述目标函数Ea(t)表示为:
Figure FDA0000479712490000011
其中,ea(t)=J(t)-Uc(t),Uc(t)为效用函数。
2.根据权利要求1所述的方法,其特征在于,采用模糊双曲线模型作为所述模糊控制器的隶属度函数,所述模糊双曲线模型用公式表示为:
Figure FDA0000479712490000021
Figure FDA0000479712490000022
其中,
Figure FDA0000479712490000023
表示求取
Figure FDA0000479712490000024
的双曲正切值,μi,N为隶属度函数Negative计算得到的模糊变量,μi,P为隶属度函数Positive计算得到的模糊变量,i=1…n,n为被控制对象状态变量的个数,Xi为被控制对象的状态变量,
Figure FDA0000479712490000025
是隶属度函数参数。
3.根据权利要求2所述的方法,其特征在于,所述模糊控制器采用如下模糊规则:
如果X1为N,X2为N…并且Xn为N,那么输出为R1;
如果X1为N,X2为N…但Xn为P,那么输出为R2;
.
.
.
如果X1为j1,X2为j2…Xn为jn,那么输出为Rm;
.
.
.
如果X1为P,X2为P…并且Xn为P,那么输出为
Figure FDA0000479712490000026
其中,ji=N或P,m=1…2n,Rm是每条模糊规则相应的输出变量。
4.根据权利要求3所述的方法,其特征在于,对每一个模糊规则输出变量Rm,其相应的权重为:
ω m = Π i = 1 n μ i , j i , m = ( j i j 2 · · · j n ‾ ) 2 + 1 ,
其中,
Figure FDA0000479712490000028
为将二进制数j1j2…jn转换为十进制数;
那么,所述模糊控制器输出的控制变量u(t)为:
u ( t ) = Σ m = 1 2 n ω m · R m .
5.根据权利要求1所述的方法,其特征在于,所述评价模块采用标准三层前向人工神经网络模型。
6.根据权利要求1所述的方法,其特征在于,所述步骤3进一步包括:将被控制对象的状态变量X(t)和模糊控制器输出的控制变量u(t)合并成输入变量x(t)输入到评价模块,评价模块输出性能指标函数J(t),利用J(t)、J(t-1)和评价变量r(t)构造出评价模块学习的误差信号ec(t)和目标函数Ec(t):
ec(t)=γJ(t)-J(t-1)+r(t),
E c ( t ) = 1 2 e c 2 ( t ) ,
其中,γ=0.95是折扣因子;使用梯度下降法或粒子群优化算法以使性能指标函数J(t)为零为目标对评价模块进行学习,直至满足学习指标要求,即所述目标函数Ec(t)减小到0.05或学习到50次。
7.根据权利要求1所述的方法,其特征在于,若最终获得的模糊控制器的控制性能低下或者被控制对象参数变化、所优化的模糊控制器的控制性能下降,则重复所述步骤1~5,进行模糊控制器的优化更新。
CN201210118982.5A 2012-04-20 2012-04-20 模糊自适应动态规划方法 Active CN102645894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210118982.5A CN102645894B (zh) 2012-04-20 2012-04-20 模糊自适应动态规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210118982.5A CN102645894B (zh) 2012-04-20 2012-04-20 模糊自适应动态规划方法

Publications (2)

Publication Number Publication Date
CN102645894A CN102645894A (zh) 2012-08-22
CN102645894B true CN102645894B (zh) 2014-05-28

Family

ID=46658759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210118982.5A Active CN102645894B (zh) 2012-04-20 2012-04-20 模糊自适应动态规划方法

Country Status (1)

Country Link
CN (1) CN102645894B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103197596B (zh) * 2013-03-14 2015-10-28 天津大学 一种数控加工参数自适应模糊控制规则优化方法
CN103324085B (zh) * 2013-06-09 2016-03-02 中国科学院自动化研究所 基于监督式强化学习的最优控制方法
TWI503640B (zh) * 2014-03-26 2015-10-11 Univ Kun Shan 倒單擺車之監督式模糊控制方法
CN105870942B (zh) * 2016-05-18 2022-04-29 中国电力科学研究院 一种基于近似动态规划算法的一次调频附加学习控制方法
CN107065561B (zh) * 2017-05-16 2019-11-22 清华大学 两轮自平衡车的机器学习控制方法
CN109333531B (zh) * 2018-10-09 2021-01-26 深圳前海达闼云端智能科技有限公司 用于规划移动设备速度的方法及装置
CN109176529B (zh) * 2018-10-19 2021-11-30 福州大学 一种空间机器人协调运动的自适应模糊控制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6950712B2 (en) * 2002-07-30 2005-09-27 Yamaha Hatsudoki Kabushiki Kaisha System and method for nonlinear dynamic control based on soft computing with discrete constraints
JP2006072733A (ja) * 2004-09-02 2006-03-16 Fujitsu Ten Ltd モデル予測制御装置およびモデル予測制御方法
JP2006127079A (ja) * 2004-10-28 2006-05-18 Yamatake Corp 制御対象モデル生成装置および生成方法

Also Published As

Publication number Publication date
CN102645894A (zh) 2012-08-22

Similar Documents

Publication Publication Date Title
CN102645894B (zh) 模糊自适应动态规划方法
Liang et al. A deep reinforcement learning network for traffic light cycle control
CN108284442B (zh) 一种基于模糊神经网络的机械臂柔性关节控制方法
US11958365B2 (en) Method for dual-motor control on electric vehicle based on adaptive dynamic programming
CN111351488B (zh) 飞行器智能轨迹重构再入制导方法
CN105843073B (zh) 一种基于气动力不确定降阶的机翼结构气动弹性稳定性分析方法
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
WO2020207219A1 (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110877333A (zh) 一种柔性关节机械臂控制方法
CN114199248B (zh) 一种基于混合元启发算法优化anfis的auv协同定位方法
CN107608208B (zh) 一种面向任务约束的航天器姿态控制系统在轨重构方法
US20230166397A1 (en) Method for obstacle avoidance in degraded environments of robots based on intrinsic plasticity of snn
CN108168577A (zh) 基于bp神经网络的mems陀螺随机误差补偿方法
CN117268391B (zh) 一种基于目标分层架构的变形飞行器智能规划方法及系统
CN106570562A (zh) 一种基于自适应de算法的桥式吊车模糊建模方法
CN107193210A (zh) 一种非线性系统的自适应学习预设性能控制方法
CN102968662B (zh) 一种飞行器复飞风险评测方法
CN116027669A (zh) 一种高速列车自适应滑模控制方法、系统及电子设备
CN114384931B (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN117055605A (zh) 多无人机姿态控制方法及系统
CN115755598A (zh) 一种智能航天器集群分布式模型预测路径规划方法
CN114740710A (zh) 一种随机非线性多智能体的强化学习优化编队控制方法
Wang et al. A data driven method of feedforward compensator optimization for autonomous vehicle control
CN101540504B (zh) 一种基于变步长神经网络的潮流分析装置及方法
CN106646452A (zh) 一种基于摄动多高斯拟合的空间目标跟踪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant