CN113703319A - 基于强化学习的关节模组不等式约束最优鲁棒控制方法 - Google Patents

基于强化学习的关节模组不等式约束最优鲁棒控制方法 Download PDF

Info

Publication number
CN113703319A
CN113703319A CN202110990167.7A CN202110990167A CN113703319A CN 113703319 A CN113703319 A CN 113703319A CN 202110990167 A CN202110990167 A CN 202110990167A CN 113703319 A CN113703319 A CN 113703319A
Authority
CN
China
Prior art keywords
joint module
reinforcement learning
optimal
neural network
particle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110990167.7A
Other languages
English (en)
Other versions
CN113703319B (zh
Inventor
甄圣超
王君
刘晓黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110990167.7A priority Critical patent/CN113703319B/zh
Publication of CN113703319A publication Critical patent/CN113703319A/zh
Application granted granted Critical
Publication of CN113703319B publication Critical patent/CN113703319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及基于强化学习的关节模组不等式约束最优鲁棒控制方法,包括:在仿真平台上搭建关节模组虚拟仿真环境,构建强化学习神经网络模型;初始化关节模组虚拟仿真环境;调整强化学习神经网络模型中多层神经元之间的连接权值;随机失活强化学习神经网络模型的一部分神经元,输出关节模组的控制参数信息;收集当前关节模组虚拟仿真环境下的训练数据集;将强化学习神经网络训练得到的最优参数输入到不等式约束最优鲁棒控制器内,将电机运行轨迹约束在一个指定的范围内并显著提高其控制精度。本发明采用粒子群最优算法来调整强化学习神经网络模型中多层神经元之间的连接权值,可以显著提高电机控制精度且能将电机的运行轨迹约束在一个指定的范围内。

Description

基于强化学习的关节模组不等式约束最优鲁棒控制方法
技术领域
本发明涉及机器人控制技术领域,尤其是一种基于强化学习的关节模组不等式约束最优鲁棒控制方法。
背景技术
关节模组已经广泛得应用于中小型电力驱动领域,如航空航天、机器人、电动汽车等领域。有关于它的高性能控制是一个多变量、高度耦合和时变的非线性系统,传统控制方法中需要得到电机精确的系统参数。然而,结构不确定性,如系统参数变化、系统建模不足,和非结构不确定性,如负载转矩扰动、控制目标多样性等,可能会影响关节模组特别是永磁同步电机系统的伺服性能。提高关节模组的鲁棒性和动态性能是解决系统不确定性的有效方法。
现有的针对关节模组的控制方法主要包括以下两个方面:第一,在控制器搭建完毕后,参数需要从零开始盲目调节,并不知道电机控制的最优阈值;第二,现有鲁棒控制方法不能够很好的将关节模组控制在一个指定范围内,且精确度不够,可能会使关节模组运行偏离轨迹,在现实的生产生活中可能会因此导致一些重大事故。
发明内容
本发明的目的在于提供一种能够利用神经网络训练来得到电机控制参数的最优阈值,并通过模糊方法来消除电机的非线性和不确定性,将得到的参数输入到不等式约束最优鲁棒控制器中,将电机运行轨迹约束在一个指定的范围内并显著提高其控制精度的基于强化学习的关节模组不等式约束最优鲁棒控制方法。
为实现上述目的,本发明采用了以下技术方案:一种基于强化学习的关节模组不等式约束最优鲁棒控制方法,该方法包括下列顺序的步骤:
(1)首先在仿真平台上搭建具备神经网络训练能力的关节模组虚拟仿真环境,构建具备Dropout随机失活神经元方法的强化学习神经网络模型;
(2)初始化关节模组虚拟仿真环境;
(3)采用改进的粒子群优化算法调整强化学习神经网络模型中多层神经元之间的连接权值,实现面向关节模组轨迹跟踪控制的强化学习神经网络的自适应学习;
(4)随机失活强化学习神经网络模型的一部分神经元,将预先设定的干扰参数输入到每个关节模组虚拟仿真环境中,控制强化学习神经网络结合每个关节模组虚拟仿真环境,输出关节模组的控制参数信息;
(5)判断关节模组虚拟仿真环境训练终止条件,收集当前关节模组虚拟仿真环境下的训练数据集;
(6)将强化学习神经网络训练得到的最优参数输入到不等式约束最优鲁棒控制器内,首先通过模糊方法来消除电机的非线性和不确定性,再通过不等式约束将电机运行轨迹限制在一个指定的范围内并显著提高其控制精度。
在步骤(1)中,所述强化学习神经网络为全连接网络,包括两个隐含层和一个池化层,每层包含256个节点,激活函数选择Relu函数,且通过Dropout随机失活神经元方法来防止过拟合现象。
所述步骤(2)初始化关节模组虚拟仿真环境包括初始化关节模组所在的仿真环境、初始化电机初始位置和负载重量以及扰动项。
所述步骤(3)包括以下步骤:
(3a)将多层神经元之间的连接权值的选取问题转化为最优化问题,最优化问题的目标函数即输出向量与期望信号向量的范数,如式(1)所示,期望信号即关节模组目标运行位置坐标,输出向量即关节模组的实际运行位置:
Figure BDA0003232034480000021
式(1)中,Error为最优化问题的目标函数,xd(k)、yd(k)分别为关节模组第k步的期望速度及期望加速度值,yx(k)、yy(k)为第k步的实际速度及实际加速度值;
(3b)确定每个连接权值的取值范围,即确定寻优范围;
(3c)在寻优范围内随机初始化一群粒子,即粒子群,包括初始化粒子的初始位置与初始速度,用位置、速度和适应度这三个指标表示粒子特征,位置表示强化学习神经网络模型中所有的连接权值取值,速度表示每个粒子演化的方向,适应度值由适应度函数求得,即每个粒子对应的目标函数;
粒子的速度依据粒子的当前位置、当前速度﹑粒子的历史最佳位置Pbest与粒子群中最优粒子的位置Gbest更新,粒子的速度
Figure BDA0003232034480000022
的更新公式如式(2)所示:
Figure BDA0003232034480000031
式(2)中,id为粒子群中粒子的编号,
Figure BDA0003232034480000032
为第i代粒子的速度,
Figure BDA0003232034480000033
为第i代粒子在第i代之前的历史最佳位置,
Figure BDA0003232034480000034
为第i代粒子群中最优粒子的位置;ω(i)为第i代粒子的惯性权重,其大小决定速度在多大程度上继承上一代粒子的运动速度;c1,c2为加速度因子,取值为非负常数;r1,r2为0到1之间的随机数;
Figure BDA0003232034480000035
是第i代粒子的位置;初始化时ω的取值ωstart为0.9,迭代结束时ωstart的取值ωend为0.01,在迭代过程中惯性权重ω加速衰减,初期优先寻优速度,后期着重寻优精度,惯性权重ω的更新公式如式(3)所示:
Figure BDA0003232034480000036
式(3)中,maxgen为最大迭代次数;得到更新后的粒子的位置
Figure BDA0003232034480000037
后,更新该粒子的位置,粒子的位置
Figure BDA0003232034480000038
的更新公式如式(4)所示:
Figure BDA0003232034480000039
若式(4)求取的
Figure BDA00032320344800000310
对应的目标函数小于
Figure BDA00032320344800000311
对应的适应度函数,则
Figure BDA00032320344800000312
反之,
Figure BDA00032320344800000313
同时,更新种群中最优粒子的位置,得到
Figure BDA00032320344800000314
如此,进行多次迭代即得到近似最优解,使强化学习神经网络模型控制误差最小的近似最优权值。
在步骤(4)中,所述的关节模组的控制参数包括不等式约束模糊最优鲁棒控制器里的比例系数Kp、微分系数Kd。
所述步骤(6)具体是指:将强化学习神经网络训练得到的最优参数输入不等式约束最优鲁棒控制器执行控制操作,接收检测输入量,将该检测输入量与设定值的偏差映射到输入论域上,得到模糊输入量,再由模糊输入量进行模糊推理和决策,得到模糊控制输出量,将模糊控制输出量转化为控制输出量,输入不等式约束最优鲁棒控制器内进行控制;
考虑摩擦的关节模组动力学模型如下:
Figure BDA00032320344800000315
其中:
Figure BDA0003232034480000041
其中:J,B表示关节模组的转子惯性矩,Tlj表示负载扭矩,Tfric表示摩擦,Td外部扰动,τ表示关节模组的输出力矩,Θ,
Figure BDA0003232034480000042
分别表示转子的角位移,角速度和角加速度,η,r分别表示传动效率和减速比,fc,fs分别表示库仑和静摩擦系数,G表示重力矩阵;
Figure BDA0003232034480000043
其中:a,b,c,d都是增益参数,
Figure BDA0003232034480000044
表示考虑摩擦力之后的速度;
不等式状态转换方程如下:
Θm<Θ<ΘM (8)
其中,Θm,ΘM分别是状态变量Θ的下限和上限;
Figure BDA0003232034480000045
Figure BDA0003232034480000046
其中,θ,
Figure BDA0003232034480000047
分别为无状态约束下的转子角位移,角速度,角加速度;θd是期望的转子角位移;
Figure BDA0003232034480000048
Figure BDA0003232034480000049
Figure BDA00032320344800000410
将式(11)、(12)、(13)代入式(5)式得:
Figure BDA0003232034480000051
Figure BDA0003232034480000052
其中,M为惯性矩阵,C为加速度补偿矩阵,Tsum为扭矩及外部力矩总和;
Figure BDA0003232034480000053
不等式约束最优鲁棒控制器的设计如下:
e(t)=θ(t)-θd(t) (17)
Figure BDA0003232034480000054
Figure BDA0003232034480000055
其中:e(t)为输出角误差,g为重力项,
Figure BDA0003232034480000056
为名义矩阵,ΔM,ΔC,ΔTsum,Δg为不确定性部分,δ代表不确定性参数;
Figure BDA0003232034480000057
Figure BDA0003232034480000058
Figure BDA0003232034480000061
Figure BDA0003232034480000062
Figure BDA0003232034480000063
其中:
Figure BDA0003232034480000066
表示上界估计值,P为不确定系数,Kp,Kd分别表示比例系数和微分系数,
Figure BDA0003232034480000064
表示控制器中的鲁棒项,
Figure BDA0003232034480000065
为误差方程,t表示时间,ε是一个定值,来决定鲁棒项的表示形式。
由上述技术方案可知,本发明的有益效果为:本发明首先通过迁移学习的方法将先前经验参数输入到一种新型的带有Dropout随机失活方法的强化学习神经网络模型中,采用粒子群最优算法来调整强化学习神经网络模型中多层神经元之间的连接权值,结合环境参数及干扰项来进行训练获得一个最优的训练值,所述强化学习神经网络训练得到的最优参数输入不等式约束最优鲁棒控制器中,其中包含两个步骤:首先通过模糊方法来消除电机的非线性和不确定性,再将得到的参数输入不等式约束最优鲁棒控制器中,实验结果表明,该控制方法可以显著提高电机控制精度且能将电机的运行轨迹约束在一个指定的范围内。
附图说明
图1为本发明的方法流程图;
图2、3均为阶跃跟踪仿真图;
图4、5为正弦跟踪仿真图;
图6为阶跃跟踪实验图;
图7为正弦跟踪实验图。
具体实施方式
如图1所示,一种基于强化学习的关节模组不等式约束最优鲁棒控制方法,该方法包括下列顺序的步骤:
(1)首先在仿真平台上搭建具备神经网络训练能力的关节模组虚拟仿真环境,构建具备Dropout随机失活神经元方法的强化学习神经网络模型;
(2)初始化关节模组虚拟仿真环境;
(3)采用改进的粒子群优化算法调整强化学习神经网络模型中多层神经元之间的连接权值,实现面向关节模组轨迹跟踪控制的强化学习神经网络的自适应学习;
(4)随机失活强化学习神经网络模型的一部分神经元,将预先设定的干扰参数输入到每个关节模组虚拟仿真环境中,控制强化学习神经网络结合每个关节模组虚拟仿真环境,输出关节模组的控制参数信息;预先设定的干扰参数如负载、外部摩擦等参数;
(5)判断关节模组虚拟仿真环境训练终止条件,收集当前关节模组虚拟仿真环境下的训练数据集;
(6)将强化学习神经网络训练得到的最优参数输入到不等式约束最优鲁棒控制器内,首先通过模糊方法来消除电机的非线性和不确定性,再通过不等式约束将电机运行轨迹限制在一个指定的范围内并显著提高其控制精度。
在步骤(1)中,所述强化学习神经网络为全连接网络,包括两个隐含层和一个池化层,每层包含256个节点,激活函数选择Relu函数,且通过Dropout随机失活神经元方法来防止过拟合现象。
所述步骤(2)初始化关节模组虚拟仿真环境包括初始化关节模组所在的仿真环境、初始化电机初始位置和负载重量以及扰动项。
所述步骤(3)包括以下步骤:
(3a)将多层神经元之间的连接权值的选取问题转化为最优化问题,最优化问题的目标函数即输出向量与期望信号向量的范数,如式(1)所示,期望信号即关节模组目标
运行位置坐标,输出向量即关节模组的实际运行位置:
Figure BDA0003232034480000071
式(1)中,Error为最优化问题的目标函数,xd(k)、yd(k)分别为关节模组第k步的期望速度及期望加速度值,yx(k)、yy(k)为第k步的实际速度及实际加速度值;
(3b)确定每个连接权值的取值范围,即确定寻优范围;利用先前经验确定每个连接权值的取值范围,粒子群算法之前有论文研究过它最合适的取值范围,对于关节模组这种不确定性大的机器人核心零部件,为了减小误差,它的取值范围也要相应的大一些;
(3c)在寻优范围内随机初始化一群粒子,即粒子群,包括初始化粒子的初始位置与初始速度,用位置、速度和适应度这三个指标表示粒子特征,位置表示强化学习神经网络模型中所有的连接权值取值,速度表示每个粒子演化的方向,适应度值由适应度函数求得,即每个粒子对应的目标函数;
粒子的速度依据粒子的当前位置、当前速度﹑粒子的历史最佳位置Pbest与粒子群中最优粒子的位置Gbest更新,粒子的速度
Figure BDA0003232034480000081
的更新公式如式(2)所示:
Figure BDA0003232034480000082
式(2)中,id为粒子群中粒子的编号,
Figure BDA0003232034480000083
为第i代粒子的速度,
Figure BDA0003232034480000084
为第i代粒子在第i代之前的历史最佳位置,
Figure BDA0003232034480000085
为第i代粒子群中最优粒子的位置;ω(i)为第i代粒子的惯性权重,其大小决定速度在多大程度上继承上一代粒子的运动速度;c1,c2为加速度因子,取值为非负常数;r1,r2为0到1之间的随机数;
Figure BDA0003232034480000086
是第i代粒子的位置;初始化时ω的取值ωstart为0.9,迭代结束时ωstart的取值ωend为0.01,在迭代过程中惯性权重ω加速衰减,初期优先寻优速度,后期着重寻优精度,惯性权重ω的更新公式如式(3)所示:
Figure BDA0003232034480000087
式(3)中,maxgen为最大迭代次数;得到更新后的粒子的位置
Figure BDA0003232034480000088
后,更新该粒子的位置,粒子的位置
Figure BDA0003232034480000089
的更新公式如式(4)所示:
Figure BDA00032320344800000810
若式(4)求取的
Figure BDA00032320344800000811
对应的目标函数小于
Figure BDA00032320344800000812
对应的适应度函数,则
Figure BDA00032320344800000813
反之,
Figure BDA00032320344800000814
同时,更新种群中最优粒子的位置,得到
Figure BDA00032320344800000815
如此,进行多次迭代即得到近似最优解,使强化学习神经网络模型控制误差最小的近似最优权值。
在步骤(4)中,所述的关节模组的控制参数包括不等式约束模糊最优鲁棒控制器里的比例系数Kp、微分系数Kd。比例系数Kp用于消除误差,但可能会增加超调,微分系数Kd用于加快响应速度,削弱超调趋势。
所述步骤(6)具体是指:将强化学习神经网络训练得到的最优参数输入不等式约束最优鲁棒控制器执行控制操作,接收检测输入量,将该检测输入量与设定值的偏差映射到输入论域上,得到模糊输入量,再由模糊输入量进行模糊推理和决策,得到模糊控制输出量,将模糊控制输出量转化为控制输出量,输入不等式约束最优鲁棒控制器内进行控制;
考虑摩擦的关节模组动力学模型如下:
Figure BDA0003232034480000091
其中:
Figure BDA0003232034480000092
其中:J,B表示关节模组的转子惯性矩,Tlj表示负载扭矩,Tfric表示摩擦,Td外部扰动,τ表示关节模组的输出力矩,Θ,
Figure BDA0003232034480000098
分别表示转子的角位移,角速度和角加速度,η,r分别表示传动效率和减速比,fc,fs分别表示库仑和静摩擦系数,G表示重力矩阵;
Figure BDA0003232034480000093
其中:a,b,c,d都是增益参数,
Figure BDA0003232034480000094
表示考虑摩擦力之后的速度;
不等式状态转换方程如下:
Θm<Θ<ΘM (8)
其中,Θm,ΘM分别是状态变量Θ的下限和上限;
Figure BDA0003232034480000095
Figure BDA0003232034480000096
其中,θ,
Figure BDA0003232034480000097
分别为无状态约束下的转子角位移,角速度,角加速度;θd是期望的转子角位移;
Figure BDA0003232034480000101
Figure BDA0003232034480000102
Figure BDA0003232034480000103
将式(11)、(12)、(13)代入式(5)式得:
Figure BDA0003232034480000104
Figure BDA0003232034480000105
其中,M为惯性矩阵,C为加速度补偿矩阵,Tsum为扭矩及外部力矩总和;
Figure BDA0003232034480000106
不等式约束最优鲁棒控制器的设计如下:
e(t)=θ(t)-θd(t) (17)
Figure BDA0003232034480000107
Figure BDA0003232034480000108
其中:e(t)为输出角误差,g为重力项,
Figure BDA0003232034480000111
为名义矩阵,ΔM,ΔC,ΔTsum,Δg为不确定性部分,δ代表不确定性参数;
Figure BDA0003232034480000112
Figure BDA0003232034480000113
Figure BDA0003232034480000114
Figure BDA0003232034480000115
Figure BDA0003232034480000116
其中:
Figure BDA0003232034480000119
表示上界估计值,P为不确定系数,Kp,Kd分别表示比例系数和微分系数,
Figure BDA0003232034480000117
表示控制器中的鲁棒项,
Figure BDA0003232034480000118
为误差方程,t表示时间,ε是一个定值,来决定鲁棒项的表示形式。
如图2所示,在MATLAB仿真里阶跃跟踪,不加不等式约束的情况:最优鲁棒控制器(RBC)和PID控制器的控制效果对比,可以看出二者都超出了预设的边界,但是最优鲁棒控制器(RBC)控制效果更佳且响应更快。
如图3所示,在MATLAB仿真里阶跃跟踪,增加不等式约束的情况:最优鲁棒控制器(RBC)和PID控制器的控制效果对比,可以看出最优鲁棒控制器(RBC)没有超出预设的边界且响应更快,且最优鲁棒控制器(RBC)控制效果更佳而PID超出了预设的边界。
如图4所示,在MATLAB仿真里正弦跟踪,不加不等式约束的情况:最优鲁棒控制器(RBC)和PID控制器的控制效果对比,可以看出二者都超出了预设的边界,但是最优鲁棒控制器(RBC)控制效果更佳。
如图5所示,在MATLAB仿真里正弦跟踪,增加不等式约束的情况:最优鲁棒控制器(RBC)和PID控制器的控制效果对比,可以看出最优鲁棒控制器(RBC)没有超出预设的边界且完美跟踪与预设曲线,且最优鲁棒控制器(RBC)控制效果更佳,而PID超出了预设的边界。
如图6所示,在实验平台上阶跃跟踪,左边为不加不等式约束的情况,右边为增加不等式约束的情况,根据最优鲁棒控制器(RBC)和PID控制器的控制效果对比,可以看出最优鲁棒控制器(RBC)控制效果更佳且响应更快,且加了不等式约束之后两种算法的超调和误差都降低了不少,精度有很大的提高。
如图7所示,在实验平台上正弦跟踪,左边为不加不等式约束的情况,右边为增加不等式约束的情况,根据最优鲁棒控制器(RBC)和PID控制器的控制效果对比,可以看出最优鲁棒控制器(RBC)控制效果更佳且响应更快,且加了不等式约束之后两种算法的超调和误差都降低了不少,精度有很大的提高。
综上所述,本发明首先通过迁移学习的方法将先前经验参数输入到一种新型的带有Dropout随机失活方法的强化学习神经网络模型中,采用粒子群最优算法来调整强化学习神经网络模型中多层神经元之间的连接权值,结合环境参数及干扰项来进行训练获得一个最优的训练值,将强化学习神经网络训练得到的最优参数输入到不等式约束最优鲁棒控制器内,可以显著提高电机控制精度且能将电机的运行轨迹约束在一个指定的范围内。

Claims (6)

1.一种基于强化学习的关节模组不等式约束最优鲁棒控制方法,其特征在于:该方法包括下列顺序的步骤:
(1)首先在仿真平台上搭建具备神经网络训练能力的关节模组虚拟仿真环境,构建具备Dropout随机失活神经元方法的强化学习神经网络模型;
(2)初始化关节模组虚拟仿真环境;
(3)采用改进的粒子群优化算法调整强化学习神经网络模型中多层神经元之间的连接权值,实现面向关节模组轨迹跟踪控制的强化学习神经网络的自适应学习;
(4)随机失活强化学习神经网络模型的一部分神经元,将预先设定的干扰参数输入到每个关节模组虚拟仿真环境中,控制强化学习神经网络结合每个关节模组虚拟仿真环境,输出关节模组的控制参数信息;
(5)判断关节模组虚拟仿真环境训练终止条件,收集当前关节模组虚拟仿真环境下的训练数据集;
(6)将强化学习神经网络训练得到的最优参数输入到不等式约束最优鲁棒控制器内,首先通过模糊方法来消除电机的非线性和不确定性,再通过不等式约束将电机运行轨迹限制在一个指定的范围内并显著提高其控制精度。
2.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法,其特征在于:在步骤(1)中,所述强化学习神经网络为全连接网络,包括两个隐含层和一个池化层,每层包含256个节点,激活函数选择Relu函数,且通过Dropout随机失活神经元方法来防止过拟合现象。
3.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法,其特征在于:所述步骤(2)初始化关节模组虚拟仿真环境包括初始化关节模组所在的仿真环境、初始化电机初始位置和负载重量以及扰动项。
4.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法,其特征在于:所述步骤(3)包括以下步骤:
(3a)将多层神经元之间的连接权值的选取问题转化为最优化问题,最优化问题的目标函数即输出向量与期望信号向量的范数,如式(1)所示,期望信号即关节模组目标运行位置坐标,输出向量即关节模组的实际运行位置:
Figure FDA0003232034470000021
式(1)中,Error为最优化问题的目标函数,xd(k)、yd(k)分别为关节模组第k步的期望速度及期望加速度值,yx(k)、yy(k)为第k步的实际速度及实际加速度值;
(3b)确定每个连接权值的取值范围,即确定寻优范围;
(3c)在寻优范围内随机初始化一群粒子,即粒子群,包括初始化粒子的初始位置与初始速度,用位置、速度和适应度这三个指标表示粒子特征,位置表示强化学习神经网络模型中所有的连接权值取值,速度表示每个粒子演化的方向,适应度值由适应度函数求得,即每个粒子对应的目标函数;
粒子的速度依据粒子的当前位置、当前速度﹑粒子的历史最佳位置Pbest与粒子群中最优粒子的位置Gbest更新,粒子的速度
Figure FDA0003232034470000022
的更新公式如式(2)所示:
Figure FDA0003232034470000023
式(2)中,id为粒子群中粒子的编号,
Figure FDA0003232034470000024
为第i代粒子的速度,
Figure FDA0003232034470000025
为第i代粒子在第i代之前的历史最佳位置,
Figure FDA0003232034470000026
为第i代粒子群中最优粒子的位置;ω(i)为第i代粒子的惯性权重,其大小决定速度在多大程度上继承上一代粒子的运动速度;c1,c2为加速度因子,取值为非负常数;r1,r2为0到1之间的随机数;
Figure FDA0003232034470000027
是第i代粒子的位置;初始化时ω的取值ωstart为0.9,迭代结束时ωstart的取值ωend为0.01,在迭代过程中惯性权重ω加速衰减,初期优先寻优速度,后期着重寻优精度,惯性权重ω的更新公式如式(3)所示:
Figure FDA0003232034470000028
式(3)中,maxgen为最大迭代次数;得到更新后的粒子的位置
Figure FDA0003232034470000029
后,更新该粒子的位置,粒子的位置
Figure FDA00032320344700000210
的更新公式如式(4)所示:
Figure FDA0003232034470000031
若式(4)求取的
Figure FDA0003232034470000032
对应的目标函数小于
Figure FDA0003232034470000033
对应的适应度函数,则
Figure FDA0003232034470000034
反之,
Figure FDA0003232034470000035
同时,更新种群中最优粒子的位置,得到
Figure FDA0003232034470000036
如此,进行多次迭代即得到近似最优解,使强化学习神经网络模型控制误差最小的近似最优权值。
5.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法,其特征在于:在步骤(4)中,所述的关节模组的控制参数包括不等式约束模糊最优鲁棒控制器里的比例系数Kp、微分系数Kd。
6.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法,其特征在于:所述步骤(6)具体是指:将强化学习神经网络训练得到的最优参数输入不等式约束最优鲁棒控制器执行控制操作,接收检测输入量,将该检测输入量与设定值的偏差映射到输入论域上,得到模糊输入量,再由模糊输入量进行模糊推理和决策,得到模糊控制输出量,将模糊控制输出量转化为控制输出量,输入不等式约束最优鲁棒控制器内进行控制;
考虑摩擦的关节模组动力学模型如下:
Figure FDA0003232034470000037
其中:
Figure FDA0003232034470000038
其中:J,B表示关节模组的转子惯性矩,Tlj表示负载扭矩,Tfric表示摩擦,Td外部扰动,τ表示关节模组的输出力矩,Θ,
Figure FDA0003232034470000039
分别表示转子的角位移,角速度和角加速度,η,r分别表示传动效率和减速比,fc,fs分别表示库仑和静摩擦系数,G表示重力矩阵;
Figure FDA00032320344700000310
其中:a,b,c,d都是增益参数,
Figure FDA0003232034470000041
表示考虑摩擦力之后的速度;
不等式状态转换方程如下:
Θm<Θ<ΘM (8)
其中,Θm,ΘM分别是状态变量Θ的下限和上限;
Figure FDA0003232034470000042
Figure FDA0003232034470000043
其中,θ,
Figure FDA0003232034470000044
分别为无状态约束下的转子角位移,角速度,角加速度;θd是期望的转子角位移;
Figure FDA0003232034470000045
Figure FDA0003232034470000046
Figure FDA0003232034470000047
将式(11)、(12)、(13)代入式(5)式得:
Figure FDA0003232034470000048
Figure FDA0003232034470000049
其中,M为惯性矩阵,C为加速度补偿矩阵,Tsum为扭矩及外部力矩总和;
Figure FDA0003232034470000051
不等式约束最优鲁棒控制器的设计如下:
e(t)=θ(t)-θd(t)
(17)
Figure FDA0003232034470000052
Figure FDA0003232034470000053
其中:e(t)为输出角误差,g为重力项,
Figure FDA0003232034470000054
为名义矩阵,ΔM,ΔC,ΔTsum,Δg为不确定性部分,δ代表不确定性参数;
Figure FDA0003232034470000055
Figure FDA0003232034470000056
Figure FDA0003232034470000057
Figure FDA0003232034470000058
Figure FDA0003232034470000059
其中:
Figure FDA0003232034470000061
表示上界估计值,P为不确定系数,Kp,Kd分别表示比例系数和微分系数,
Figure FDA0003232034470000062
表示控制器中的鲁棒项,
Figure FDA0003232034470000063
为误差方程,t表示时间,ε是一个定值,来决定鲁棒项的表示形式。
CN202110990167.7A 2021-08-26 2021-08-26 基于强化学习的关节模组不等式约束最优鲁棒控制方法 Active CN113703319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110990167.7A CN113703319B (zh) 2021-08-26 2021-08-26 基于强化学习的关节模组不等式约束最优鲁棒控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110990167.7A CN113703319B (zh) 2021-08-26 2021-08-26 基于强化学习的关节模组不等式约束最优鲁棒控制方法

Publications (2)

Publication Number Publication Date
CN113703319A true CN113703319A (zh) 2021-11-26
CN113703319B CN113703319B (zh) 2023-07-28

Family

ID=78655431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110990167.7A Active CN113703319B (zh) 2021-08-26 2021-08-26 基于强化学习的关节模组不等式约束最优鲁棒控制方法

Country Status (1)

Country Link
CN (1) CN113703319B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114326438A (zh) * 2021-12-30 2022-04-12 北京理工大学 基于控制障碍函数的安全强化学习四旋翼控制系统及方法
CN114721414A (zh) * 2022-04-08 2022-07-08 合肥工业大学 一种四足机器人基于trot步态的平衡控制算法
CN116810803A (zh) * 2023-08-30 2023-09-29 合肥工业大学 一种协作机器人关节模组鲁棒控制方法
CN117389341A (zh) * 2023-12-13 2024-01-12 深圳威洛博机器人有限公司 一种机器人模组传动的速度控制系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108365784A (zh) * 2017-11-24 2018-08-03 天津大学 基于改进pso-bp神经网络的无刷直流电机控制方法
CN111037560A (zh) * 2019-12-25 2020-04-21 广东省智能制造研究所 一种协作机器人柔顺力控制方法及系统
AU2020103709A4 (en) * 2020-11-26 2021-02-11 Daqing Oilfield Design Institute Co., Ltd A modified particle swarm intelligent optimization method for solving high-dimensional optimization problems of large oil and gas production systems
CN113110069A (zh) * 2021-05-24 2021-07-13 武汉大学 一种基于磁悬浮平面电机迭代神经网络鲁棒控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108365784A (zh) * 2017-11-24 2018-08-03 天津大学 基于改进pso-bp神经网络的无刷直流电机控制方法
CN111037560A (zh) * 2019-12-25 2020-04-21 广东省智能制造研究所 一种协作机器人柔顺力控制方法及系统
AU2020103709A4 (en) * 2020-11-26 2021-02-11 Daqing Oilfield Design Institute Co., Ltd A modified particle swarm intelligent optimization method for solving high-dimensional optimization problems of large oil and gas production systems
CN113110069A (zh) * 2021-05-24 2021-07-13 武汉大学 一种基于磁悬浮平面电机迭代神经网络鲁棒控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
武俊峰;王显博;赵建新;: "粒子群优化神经网络PID的三自由度直升机", 哈尔滨理工大学学报, no. 04 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114326438A (zh) * 2021-12-30 2022-04-12 北京理工大学 基于控制障碍函数的安全强化学习四旋翼控制系统及方法
CN114326438B (zh) * 2021-12-30 2023-12-19 北京理工大学 基于控制障碍函数的安全强化学习四旋翼控制系统及方法
CN114721414A (zh) * 2022-04-08 2022-07-08 合肥工业大学 一种四足机器人基于trot步态的平衡控制算法
CN116810803A (zh) * 2023-08-30 2023-09-29 合肥工业大学 一种协作机器人关节模组鲁棒控制方法
CN116810803B (zh) * 2023-08-30 2024-04-12 合肥工业大学 一种协作机器人关节模组鲁棒控制方法
CN117389341A (zh) * 2023-12-13 2024-01-12 深圳威洛博机器人有限公司 一种机器人模组传动的速度控制系统
CN117389341B (zh) * 2023-12-13 2024-02-23 深圳威洛博机器人有限公司 一种机器人模组传动的速度控制系统

Also Published As

Publication number Publication date
CN113703319B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN113703319A (zh) 基于强化学习的关节模组不等式约束最优鲁棒控制方法
CN111413966B (zh) 一种递进式模型预测无人驾驶规划跟踪协同控制方法
CN112904728B (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
Hashemi et al. Model-based PI–fuzzy control of four-wheeled omni-directional mobile robots
Dian et al. Modeling and trajectory tracking control for magnetic wheeled mobile robots based on improved dual-heuristic dynamic programming
CN110989597B (zh) 一种集成模糊神经网络的自适应路径跟踪方法
CN114510063B (zh) 一种无人履带车辆及其轨迹跟踪控制方法和系统
CN101520857B (zh) 一种基于神经网络的永磁球形电动机逆运动学求解方法
Lin et al. Sliding-mode-controlled slider-crank mechanism with fuzzy neural network
CN101369132A (zh) 基于神经网络辨识器的永磁球形电动机力学解耦控制方法
CN115990888B (zh) 一种具有死区和时变约束功能的机械臂控制方法
CN113093538A (zh) 一种模块化机器人系统的非零和博弈神经-最优控制方法
Fang et al. Robust tracking control for magnetic wheeled mobile robots using adaptive dynamic programming
Wu et al. TS adaptive neural network fuzzy control applied in two-wheeled self-balancing robot
Qian et al. Finite-time neural network-based hierarchical sliding mode antiswing control for underactuated dual ship-mounted cranes with unmatched sea wave disturbances suppression
Moreno et al. A self-tuning neuromorphic controller: application to the crane problem
Hu et al. Prescribed time tracking control without velocity measurement for dual-arm robots
Mistry et al. Indirect control of a class of nonlinear dynamic systems
CN116560375A (zh) 基于神经网络观测器的轮式移动机器人轨迹跟踪控制方法
Nagata et al. Adaptive learning with large variability of teaching signals for neural networks and its application to motion control of an industrial robot
Gao et al. Receding horizon tracking control for wheeled mobile robots with time-delay
CN116088299A (zh) 卫星天线混联运动机构神经网络反步控制方法
Hu et al. An efficient neural controller for a nonholonomic mobile robot
Ping et al. Improved LuGre-based friction modeling of the electric linear load simulator
Yegerlehner et al. Experimental implementation of neural network controller for robot undergoing large payload changes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant