CN109946975B - 一种未知伺服系统的强化学习最优跟踪控制方法 - Google Patents

一种未知伺服系统的强化学习最优跟踪控制方法 Download PDF

Info

Publication number
CN109946975B
CN109946975B CN201910295400.2A CN201910295400A CN109946975B CN 109946975 B CN109946975 B CN 109946975B CN 201910295400 A CN201910295400 A CN 201910295400A CN 109946975 B CN109946975 B CN 109946975B
Authority
CN
China
Prior art keywords
neural network
optimal
motor
model
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910295400.2A
Other languages
English (en)
Other versions
CN109946975A (zh
Inventor
任雪梅
吕永峰
李慧超
李林伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201910295400.2A priority Critical patent/CN109946975B/zh
Publication of CN109946975A publication Critical patent/CN109946975A/zh
Application granted granted Critical
Publication of CN109946975B publication Critical patent/CN109946975B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明主要涉及模型未知伺服系统的强化学习最优跟踪控制器的设计方法。主要基于简化的强化学习评价‑执行结构,应用高阶神经网络逼近方法,介绍模型未知伺服系统的强化学习最优跟踪控制器的设计方法,加快电机最优跟踪控制求解速度。针对模型未知的伺服系统,首先应用多层神经网络智能辨识系统模型,求解稳态控制;给定性能指标,应用高阶神经网络逼近最优性能指标函数;根据近似的性能指标函数和辨识的系统模型建立哈密尔顿‑雅克比‑贝尔曼(HJB)方程,求得伺服系统最优反馈控制。根据求得的稳态控制和最优反馈控制,计算最优跟踪控制,使负载转角和转速快速跟踪给定信号的同时,跟踪误差积累值和系统能耗同时达到最小。

Description

一种未知伺服系统的强化学习最优跟踪控制方法
技术领域
本发明涉及一种未知伺服系统的强化学习最优跟踪控制方法,属于智能控制技术领域。
背景技术
现今针对伺服系统的控制方式主要是PID控制。为了达到更好的控制效果,自适应控制、滑模控制、自抗扰控制等控制方法被用来控制伺服系统。这些控制方法不仅要求伺服系统动态已知,而且在伺服系统跟踪给定信号的过程中,耗能较大,即不能使跟踪性能达到最优。
发明内容
本发明的目的是为了解决现有方法在伺服系统跟踪给定信号的过程中耗能大的问题,提供一种未知伺服系统的强化学习最优跟踪控制方法。该方法基于强化学习方法,应用神经网络和自适应算法,逼近哈密尔顿-雅克比-贝尔曼(HJB,Hamilton-Jacobi-Bellman)方程的最优解,计算得到模型未知伺服系统的最优跟踪控制,保证系统稳定运行的同时,跟踪性能最优化、系统耗能最小。
本发明的目的是通过下述技术方案实现的。
一种未知伺服系统的强化学习最优跟踪控制方法,包括以下步骤:
步骤一、对被控电机伺服系统进行分析,并按照机理建模方法,根据电机的结构和物理定律,建立含摩擦的电机驱动伺服系统的数学模型。建立该模型的目的是为了更好理解电机系统的特性,使设计的辨识器与建立的系统模型误差为零,进而基于辨识器设计最优跟踪控制器。所述数学模型如下:
Figure GDA0002369999120000021
其中,q表示系统角位置,
Figure GDA0002369999120000022
表示系统的角速度,
Figure GDA0002369999120000023
表示系统的角加速度,J表示电机惯量,K1和K2为系统动态参数,u为输入电压,T为伺服系统摩擦、扰动和负载的总和,即
T=Tf+Td+TL (2)
其中,Tf表示系统的摩擦力矩,Td表示系统的扰动力矩,TL表示系统的负载力矩。
步骤二、在上述电机系统模型未知的情况下,基于三层神经网络对系统进行逼近,并利用梯度下降法对神经网络权重参数进行估计。
隐层的激活函数为h(z)=tanh(z),输出层为线性激活函数,则n0-n1-n2神经网络的输入输出关系可以表示为:
Figure GDA0002369999120000024
di=h(υi) (4)
Figure GDA0002369999120000025
其中,i和j为正整数。
Figure GDA0002369999120000026
为步骤一建立的数学模型
Figure GDA0002369999120000027
的神经网络辨识器,ωij为隐层第i个神经元对输入层第j个神经元的权值,θi为隐层第i个神经元的阈值,υi为隐层第i个神经元的输入,di为隐层第i个神经元的输出,ωi 2为输出层对隐层第i个神经元的权值,
Figure GDA0002369999120000031
本发明定义n0=2,n1=5,n2=1。
ωij、θi和ωi 2的更新律表示为
Figure GDA0002369999120000032
Figure GDA0002369999120000033
Figure GDA0002369999120000034
Figure GDA0002369999120000035
为ωij的更新值,
Figure GDA0002369999120000036
为ωi 2的更新值,
Figure GDA0002369999120000037
为θ的更新值。
步骤三、基于辨识系统,设计稳态控制,并给定性能指标,用强化学习高阶神经网络逼近性能指标函数,求解近似最优控制,根据稳态控制和近似最优控制设计模型未知电机的最优跟踪控制器。
对于电机转角和转速,给定跟踪状态qd,定义跟踪误差
Figure GDA0002369999120000038
为了实现对电机转速的控制,稳态控制器可设计为
Figure GDA0002369999120000039
其中,
Figure GDA00023699991200000310
表示电机模型的近似动态特性,
Figure GDA00023699991200000311
为电机系统输入动态特性的伪逆。给定性能指标为
Figure GDA00023699991200000312
其中
Figure GDA00023699991200000313
根据跟踪误差和近似最优控制确定,由近似最优控制ue和状态跟踪误差e组成,Q和R分别是维数与e和ue相匹配的正定对称矩阵。
针对逼近的神经网络辨识系统设计近似最优控制ue使得性能指标函数最小。因此,定义哈密尔顿函数为:
Figure GDA0002369999120000041
其中
Figure GDA0002369999120000042
则V(e)*可以用一个高阶神经网络构逼近为:
V(e)*=W1 Tφ(e)+εV(e) (12)
其中,
Figure GDA0002369999120000043
表示理想的神经网络权值,
Figure GDA0002369999120000044
表示神经网络基函数向量,k表示神经网络隐含层神经元个数。其中各元素激活函数的高次连接为
Figure GDA0002369999120000045
dk(j)为非负整数,σ(e)为sigmoid函数。式对跟踪误差e的偏微分如下所示:
Figure GDA0002369999120000046
其中,
Figure GDA0002369999120000047
表示φ(e)对e的偏微分,
Figure GDA0002369999120000048
表示εV(e)对e的偏微分。则的近似式表示为
Figure GDA0002369999120000049
则HJB方程表示为
Figure GDA00023699991200000410
其中,em表示哈密尔顿雅可比方程误差。设计神经网络的权值
Figure GDA00023699991200000411
使得下列目标函数E最小,设目标函数为:
Figure GDA00023699991200000412
使用最速下降法来在线更新神经网络的权值
Figure GDA00023699991200000413
Figure GDA0002369999120000051
其中,η>0表示神经网络的学习速率,
Figure GDA0002369999120000052
Figure GDA0002369999120000053
得到ue表达式如下:
Figure GDA0002369999120000054
根据和,最优跟踪控制策略u(t)可以设计为:
u(t)=ud+ue (20)
有益效果
1、本发明所提出的多层神经网络辨识方法能够对物理模型未知的电机伺服系统实现较精确的智能建模。
2、本发明所提出的最优跟踪控制方法,能够使系统在时域上的跟踪误差和最小的同时,系统耗能最小。
3、本发明所设计最优跟踪控制器,能使伺服系统跟踪速度快、时间短,系统稳定性能较强。
附图说明
图1为本发明的电机最优跟踪控制系统结构图;
图2为辨识神经网络估计权值
Figure GDA0002369999120000055
图3为辨识神经网络估计权值
Figure GDA0002369999120000056
图4为辨识神经网络估计阈值
Figure GDA0002369999120000057
图5为系统辨识误差;
图6为评价神经网络的权值
Figure GDA0002369999120000061
参数;
图7为伺服系统跟踪预定轨迹的跟踪效果图;
图8为跟踪误差;
图9最优跟踪控制策略。
具体实施方式
已知条件:电机伺服系统用在电动智能机器人各关节。关节按照预定目标轨迹转动,需要设计控制器。传统的PID控制器、滑模控制器会使关节转动过程出现超调抖动,能耗较大等问题。为使关节转动过程平稳,耗能最小,从而延长电池耐用时间,本发明通过求解最优控制,最小化包含跟踪误差和输入的性能指标,达到关节运行过程中积累误差最优、能耗最小的目的。
一种未知伺服系统的强化学习最优跟踪控制方法,包括以下步骤:
步骤一、按照机理建模方法,根据电机的结构和物理定律,建立含摩擦的电机驱动伺服系统的数学模型,具体如下:
Figure GDA0002369999120000062
其中,q表示系统角位置,
Figure GDA0002369999120000063
表示系统的角速度,
Figure GDA0002369999120000064
表示系统的角加速度,J表示电机惯量,K1和K2为系统动态参数,u为输入电压,T为伺服系统摩擦、扰动和负载的总和,即
T=Tf+Td+TL (22)
其中,Tf表示系统的摩擦力矩,Td表示系统的扰动力矩,TL表示系统的负载力矩。
步骤二、在上述电机系统模型未知的情况下,基于三层神经网络对系统进行逼近,并利用梯度下降法对神经网络权重参数进行估计。
隐层的激活函数为h(z)=tanh(z),输出层为线性激活函数,则n0-n1-n2神经网络的输入输出关系可以表示为:
Figure GDA0002369999120000071
di=h(υi) (24)
Figure GDA0002369999120000072
其中,i和j为正整数。
Figure GDA0002369999120000073
为神经网络辨识器,ωij为隐层第i个神经元对输入层第j个神经元的权值,θi为隐层第i个神经元的阈值,υi为隐层第i个神经元的输入,di为隐层第i个神经元的输出,ωi 2为输出层对隐层第i个神经元的权值,
Figure GDA00023699991200000711
本发明定义n0=2,n1=5,n2=1。
各权值更新表示为
Figure GDA0002369999120000074
Figure GDA0002369999120000075
Figure GDA0002369999120000076
Figure GDA0002369999120000077
为ωij的更新值,
Figure GDA0002369999120000078
为ωi 2的更新值,
Figure GDA0002369999120000079
为θ的更新值。
步骤三、基于辨识系统,设计稳态控制,并给定性能指标,用强化学习神经网络逼近性能指标函数,求解近似最优控制,根据稳态控制和近似最优控制设计模型未知电机的最优跟踪控制器。
对于电机转角和转速,给定跟踪状态qd,定义跟踪误差
Figure GDA00023699991200000710
为了实现对电机转速的控制,稳态控制器可设计为
Figure GDA0002369999120000081
其中,
Figure GDA0002369999120000082
表示电机模型的近似动态特性,
Figure GDA0002369999120000083
为电机系统输入动态特性的伪逆。给定性能指标为
Figure GDA0002369999120000084
其中
Figure GDA0002369999120000085
根据跟踪误差和近似最优控制确定,由近似最优控制ue和状态跟踪误差e组成,Q和R分别是维数与e和ue相匹配的正定对称矩阵。
针对逼近的神经网络辨识系统设计近似最优控制ue使得性能指标函数最小。因此,定义哈密尔顿函数为:
Figure GDA0002369999120000086
其中
Figure GDA0002369999120000087
则V(e)*可以用一个神经网络构逼近为:
V(e)*=W1 Tφ(e)+εV(e) (32)
其中,
Figure GDA0002369999120000088
表示理想的神经网络权值,
Figure GDA0002369999120000089
表示神经网络基函数向量,k表示神经网络隐含层神经元个数。其中各元素激活函数的高次连接为
Figure GDA00023699991200000810
dk(j)为非负整数,σ(e)为sigmoid函数。式对跟踪误差e的偏微分如下所示:
Figure GDA0002369999120000091
其中,
Figure GDA0002369999120000092
表示φ(e)对e的偏微分,
Figure GDA0002369999120000093
表示εV(e)对e的偏微分。则的近似式表示为
Figure GDA0002369999120000094
则HJB方程表示为
Figure GDA0002369999120000095
设计神经网络的权值
Figure GDA0002369999120000096
使得下列目标函数E最小:
Figure GDA0002369999120000097
使用最速下降法来在线更新神经网络的权值
Figure GDA0002369999120000098
表示为:
Figure GDA0002369999120000099
其中,η>0表示神经网络的学习速率,
Figure GDA00023699991200000910
Figure GDA00023699991200000911
得到ue表达式如下:
Figure GDA00023699991200000912
根据和,最优跟踪控制策略u(t)可以设计为:
u(t)=ud+ue (40)
仿真结果
对上述处理结果进行仿真验证。假设伺服系统动力学模型为:
Figure GDA00023699991200000913
其中,
Figure GDA0002369999120000101
表示摩擦力矩,预定的跟踪轨迹设为:
Figure GDA0002369999120000102
首先对伺服系统进行在线辨识。BP神经网络中,隐含层对输入层神经网络权值参数初始值设置为W(0)=[0.7818 0.9186;-0.7014-0.4850;0.6286-0.5130;-0.6068-0.4978;-0.2967 0.6617],输出层对隐含层神经网络权值参数初始值设置为W2(0)=[0.8344-0.4283 0.5144 0.5075-0.2351]T,隐含层神经元的阈值初始值设置为θ(0)=[0.5 0.5 0.5 0.5 0.5]T。图2为辨识神经网络估计权值
Figure GDA0002369999120000103
图3为辨识神经网络估计权值ωi 2,图4为辨识神经网络估计阈值
Figure GDA0002369999120000104
图5为系统辨识误差。
用一个评价神经网络逼近性能指标函数,使用最速下降法进行权值更新,评价神经网络的激励函数选择为φ(e)=[3S3(e),2S2(e),S(e)]T,S(x)表示Sigmoid函数。在仿真中,将仿真参数设置如下:学习因子η=0.1,神经网络权值参数初值为W1(0)=[0,0,0]T,初始状态设置为
Figure GDA0002369999120000105
求解近似最优反馈控制ue时,所估计的评价神经网络的权值参数如图6所示,可以得出神经网络权值收敛。图7表示伺服系统跟踪预定轨迹的跟踪效果图,图8表示跟踪误差,由仿真图可知所提出的最优跟踪控制策略能够使伺服系统跟踪上预定轨迹。图9所示为最优跟踪控制策略。
本发明针对系统模型未知伺服系统,根据发明中提出的基于强化学习的辨识-评价方法,应用一种自适应梯度算法,能够对未知伺服系统模型精确辨识,对基于跟踪误差的性能指标精确逼近,进而求得伺服系统的最优跟踪控制输入。通过仿真可以看出,本发明具有良好的控制性能和较强的实用价值。

Claims (1)

1.一种未知伺服系统的强化学习最优跟踪控制方法,其特征在于:包括以下步骤:
步骤一、对被控电机伺服系统进行分析,并按照机理建模方法,根据电机的结构和物理定律,建立含摩擦的电机驱动伺服系统的数学模型;建立该模型的目的是为了更好理解电机系统的特性,使设计的辨识器与建立的系统模型误差为零,进而基于辨识器设计最优跟踪控制器;所述数学模型如下:
Figure FDA0002369999110000011
其中,q表示系统角位置,
Figure FDA0002369999110000012
表示系统的角速度,
Figure FDA0002369999110000013
表示系统的角加速度,J表示电机惯量,K1和K2为系统动态参数,u为输入电压,T为伺服系统摩擦、扰动和负载的总和,即
T=Tf+Td+TL (2)
其中,Tf表示系统的摩擦力矩,Td表示系统的扰动力矩,TL表示系统的负载力矩;
步骤二、在上述电机系统模型未知的情况下,基于三层神经网络对系统进行逼近,并利用梯度下降法对神经网络权重参数进行估计;
隐层的激活函数为h(z)=tanh(z),输出层为线性激活函数,则n0-n1-n2神经网络的输入输出关系可以表示为:
Figure FDA0002369999110000014
di=h(υi) (4)
Figure FDA0002369999110000015
其中,i和j为正整数;
Figure FDA0002369999110000016
为步骤一建立的数学模型
Figure FDA0002369999110000017
的神经网络辨识器,ωij为隐层第i个神经元对输入层第j个神经元的权值,xj为神经网络输入元素,
Figure FDA0002369999110000018
θi为隐层第i个神经元的阈值,υi为隐层第i个神经元的输入,di为隐层第i个神经元的输出,
Figure FDA0002369999110000021
为输出层对隐层第i个神经元的权值,定义n0=2,n1=5,n2=1;
ωij、θi
Figure FDA0002369999110000022
的更新律表示为
Figure FDA0002369999110000023
Figure FDA0002369999110000024
Figure FDA0002369999110000025
Figure FDA0002369999110000026
为ωij的更新值,
Figure FDA0002369999110000027
Figure FDA0002369999110000028
的更新值,
Figure FDA0002369999110000029
为θ的更新值;
步骤三、基于辨识系统,设计稳态控制,并给定性能指标,用强化学习高阶神经网络逼近性能指标函数,求解近似最优控制,根据稳态控制和近似最优控制设计模型未知电机的最优跟踪控制器;
对于电机转角和转速,给定跟踪状态qd,定义跟踪误差
Figure FDA00023699991100000210
为了实现对电机转速的控制,稳态控制器可设计为
Figure FDA00023699991100000211
其中,
Figure FDA00023699991100000212
表示电机模型的近似动态特性,
Figure FDA00023699991100000213
为电机系统输入动态特性的伪逆;给定性能指标为
Figure FDA00023699991100000214
其中
Figure FDA00023699991100000215
根据跟踪误差和近似最优控制确定,由近似最优控制ue和状态跟踪误差e组成,Q和R分别是维数与e和ue相匹配的正定对称矩阵;
针对逼近的神经网络辨识系统设计近似最优控制ue使得性能指标函数最小;因此,定义哈密尔顿函数为:
Figure FDA00023699991100000216
其中
Figure FDA00023699991100000217
则V(e)*可以用一个高阶神经网络构逼近为:
V(e)*=W1 Tφ(e)+εV(e) (12)
其中,
Figure FDA0002369999110000031
表示理想的神经网络权值,
Figure FDA0002369999110000032
表示神经网络基函数向量,k表示神经网络隐含层神经元个数;其中各元素激活函数的高次连接为
Figure FDA0002369999110000033
dk(j)为非负整数,σ(e)为sigmoid函数;式对跟踪误差e的偏微分如下所示:
Figure FDA0002369999110000034
其中,
Figure FDA0002369999110000035
表示φ(e)对e的偏微分,
Figure FDA0002369999110000036
表示εV(e)对e的偏微分;则的近似式表示为
Figure FDA0002369999110000037
则HJB方程表示为
Figure FDA0002369999110000038
其中,em表示哈密尔顿雅可比方程误差;设计神经网络的权值
Figure FDA0002369999110000039
使得下列目标函数E最小,设目标函数为:
Figure FDA00023699991100000310
使用最速下降法来在线更新神经网络的权值
Figure FDA00023699991100000311
Figure FDA00023699991100000312
其中,η>0表示神经网络的学习速率,
Figure FDA00023699991100000313
Figure FDA00023699991100000314
得到ue表达式如下:
Figure FDA00023699991100000315
根据和,最优跟踪控制策略u(t)可以设计为:
u(t)=ud+ue (20)。
CN201910295400.2A 2019-04-12 2019-04-12 一种未知伺服系统的强化学习最优跟踪控制方法 Expired - Fee Related CN109946975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910295400.2A CN109946975B (zh) 2019-04-12 2019-04-12 一种未知伺服系统的强化学习最优跟踪控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910295400.2A CN109946975B (zh) 2019-04-12 2019-04-12 一种未知伺服系统的强化学习最优跟踪控制方法

Publications (2)

Publication Number Publication Date
CN109946975A CN109946975A (zh) 2019-06-28
CN109946975B true CN109946975B (zh) 2020-04-24

Family

ID=67015064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910295400.2A Expired - Fee Related CN109946975B (zh) 2019-04-12 2019-04-12 一种未知伺服系统的强化学习最优跟踪控制方法

Country Status (1)

Country Link
CN (1) CN109946975B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445131A (zh) * 2019-08-30 2021-03-05 天津大学 一种线性系统自适应最优跟踪控制方法
CN111308890B (zh) * 2020-02-27 2022-08-26 大连海事大学 一种带有指定性能的无人船数据驱动强化学习控制方法
CN111665718B (zh) * 2020-06-05 2022-05-10 长春工业大学 一种基于q学习算法的对角递归神经网络控制方法
CN112034715B (zh) * 2020-09-17 2021-07-13 福州大学 一种基于改进q学习算法的电机伺服系统无模型反馈控制器设计方法
CN114488783B (zh) * 2020-10-23 2023-12-22 太原理工大学 一种基于Scara机械臂的神经网络优化控制方法
CN112506057B (zh) * 2020-12-02 2021-09-17 郑州轻工业大学 不确定奇异摄动系统在线多时间尺度快速自适应控制方法
CN112643670B (zh) * 2020-12-07 2022-07-29 洛阳尚奇机器人科技有限公司 一种基于滑模观测器的柔性关节控制方法
CN112455460B (zh) * 2020-12-07 2022-05-03 安徽江淮汽车集团股份有限公司 车辆控制方法、装置、设备及存储介质
CN112925203A (zh) * 2021-01-21 2021-06-08 深圳翱诺科技有限公司 一种基于加强学习的最优跟踪控制算法
CN112987564A (zh) * 2021-02-02 2021-06-18 浙江工业大学 一种基于策略迭代的伺服电机自适应智能控制方法
CN112947430B (zh) * 2021-02-03 2022-07-15 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN112965487B (zh) * 2021-02-05 2022-06-17 浙江工业大学 基于策略迭代的移动机器人轨迹跟踪控制方法
CN112947084B (zh) * 2021-02-08 2022-09-23 重庆大学 一种基于强化学习的模型未知多智能体一致性控制方法
CN113359452B (zh) * 2021-06-10 2022-03-11 哈尔滨工业大学 基于Barzilai Borwein智能学习算法的控制器设计方法、系统
CN114035186B (zh) * 2021-10-18 2022-06-28 北京航天华腾科技有限公司 一种目标方位跟踪指示系统及方法
CN114114905B (zh) * 2021-10-25 2023-02-28 南京理工大学 一种数据驱动的舰载火箭炮发射装置最优跟踪控制方法
CN114200830B (zh) * 2021-11-11 2023-09-22 辽宁石油化工大学 一种多智能体一致性强化学习控制方法
CN114200837B (zh) * 2021-12-08 2023-10-10 北京理工大学 一种干扰未知球形机器人的分层滑模控制方法
CN115933383B (zh) * 2022-11-21 2023-05-30 中国矿业大学 一种基于强化学习的非线性双时间尺度工业系统h无穷组合控制方法
CN116149262B (zh) * 2023-04-23 2023-07-04 山东科技大学 一种伺服系统的跟踪控制方法及系统
CN117439193A (zh) * 2023-10-31 2024-01-23 南方电网电力科技股份有限公司 一种多源协同发电系统的最优功率控制方法
CN117335689B (zh) * 2023-11-24 2024-02-20 太原理工大学 多伺服驱动采煤机截割部的力矩最优控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101977014A (zh) * 2010-11-28 2011-02-16 沈阳工业大学 直线电机伺服系统能耗-时间最优控制方法及所建立系统
CN107065540A (zh) * 2017-03-15 2017-08-18 东北电力大学 一种基于神经网络的自适应动态面分布控制方法
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
CN108196446A (zh) * 2017-12-14 2018-06-22 北京理工大学 模型未知的双电机负载的动态规划最优控制方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101977014A (zh) * 2010-11-28 2011-02-16 沈阳工业大学 直线电机伺服系统能耗-时间最优控制方法及所建立系统
CN107065540A (zh) * 2017-03-15 2017-08-18 东北电力大学 一种基于神经网络的自适应动态面分布控制方法
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
CN108196446A (zh) * 2017-12-14 2018-06-22 北京理工大学 模型未知的双电机负载的动态规划最优控制方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Adaptive optimal tracking controls of unknown multi-input systems based on nonzero-sum game theory;Yongfeng Lv 等;《sciencedirect》;20190726;全文 *
Approximate Optimal Stabilization Control of Servo Mechanisms based on Reinforcement Learning Scheme;Yongfeng Lv 等;《Automation and Systems》;20191031;全文 *
基于BP神经网络的永磁同步电机自适应控制研究;邓娟;《CNKI》;20070630;全文 *
基于梯度估计的非线性系统最优控制及仿真;缪应锋 等;《计算机系统应用》;20161231;全文 *
基于梯度算法的跟踪最优控制器设计及仿真;姚庆华 等;《计算机与现代化》;20161231;全文 *
基于近似动态规划的连续非线性系统最优控制及应用;吕永峰;《CNKI》;20160430;全文 *
自适应最优跟踪控制及在SCARA机器人系统应用;侯大为;《CNKI》;20180430;全文 *

Also Published As

Publication number Publication date
CN109946975A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109946975B (zh) 一种未知伺服系统的强化学习最优跟踪控制方法
WO2022121923A1 (zh) 复杂工业过程数字孪生系统智能建模方法、装置、设备及存储介质
Sánchez-Sánchez et al. Learning the optimal state-feedback using deep networks
Qi et al. Stable indirect adaptive control based on discrete-time T–S fuzzy model
CN108196446B (zh) 模型未知的双电机负载的动态规划最优控制方法
CN109884887B (zh) 一种基于自校正小波神经网络的连续回转马达控制方法
CN116382071B (zh) 深度学习网络修正补偿的气动参数智能辨识方法
Xu et al. Finite-time robust intelligent control of strict-feedback nonlinear systems with flight dynamics application
CN114169230A (zh) 一种机器人动力学参数的辨识方法
Kayacan et al. Design of an adaptive interval type-2 fuzzy logic controller for the position control of a servo system with an intelligent sensor
CN113703319A (zh) 基于强化学习的关节模组不等式约束最优鲁棒控制方法
Goecks et al. Control of morphing wing shapes with deep reinforcement learning
Dang et al. Event-triggered model predictive control with deep reinforcement learning for autonomous driving
Bobtsov et al. Hybrid parallel neuro-controller for multirotor unmanned aerial vehicle
Wu et al. Improved reinforcement learning using stability augmentation with application to quadrotor attitude control
Zhang et al. Adaptive control of discrete-time nonlinear systems using ITF-ORVFL
Mistry et al. Indirect control of a class of nonlinear dynamic systems
Sanchez et al. Adaptive recurrent neural control for nonlinear system tracking
Abdulla et al. Roll control system design using auto tuning LQR technique
Rutherford et al. Modelling nonlinear vehicle dynamics with neural networks
CN112388620A (zh) 一种用于气动肌肉驱动系统的轨迹跟踪控制算法
CN115344047A (zh) 基于神经网络模型的机器人切换式预测控制轨迹跟踪方法
CN110389525B (zh) 基于极限学习机的混联机构自适应反步控制方法
V〈 rkonyi et al. Improved neural network control of inverted pendulums
dos Santos Coelho et al. Fuzzy inference system approach using clustering and differential evolution optimization applied to identification of a twin rotor system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200424

Termination date: 20210412

CF01 Termination of patent right due to non-payment of annual fee