CN113703319A

CN113703319A - 基于强化学习的关节模组不等式约束最优鲁棒控制方法

Info

Publication number: CN113703319A
Application number: CN202110990167.7A
Authority: CN
Inventors: 甄圣超; 王君; 刘晓黎
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-11-26
Anticipated expiration: 2041-08-26
Also published as: CN113703319B

Abstract

本发明涉及基于强化学习的关节模组不等式约束最优鲁棒控制方法，包括：在仿真平台上搭建关节模组虚拟仿真环境，构建强化学习神经网络模型；初始化关节模组虚拟仿真环境；调整强化学习神经网络模型中多层神经元之间的连接权值；随机失活强化学习神经网络模型的一部分神经元，输出关节模组的控制参数信息；收集当前关节模组虚拟仿真环境下的训练数据集；将强化学习神经网络训练得到的最优参数输入到不等式约束最优鲁棒控制器内，将电机运行轨迹约束在一个指定的范围内并显著提高其控制精度。本发明采用粒子群最优算法来调整强化学习神经网络模型中多层神经元之间的连接权值，可以显著提高电机控制精度且能将电机的运行轨迹约束在一个指定的范围内。

Description

基于强化学习的关节模组不等式约束最优鲁棒控制方法

技术领域

本发明涉及机器人控制技术领域，尤其是一种基于强化学习的关节模组不等式约束最优鲁棒控制方法。

背景技术

关节模组已经广泛得应用于中小型电力驱动领域，如航空航天、机器人、电动汽车等领域。有关于它的高性能控制是一个多变量、高度耦合和时变的非线性系统，传统控制方法中需要得到电机精确的系统参数。然而，结构不确定性，如系统参数变化、系统建模不足，和非结构不确定性，如负载转矩扰动、控制目标多样性等，可能会影响关节模组特别是永磁同步电机系统的伺服性能。提高关节模组的鲁棒性和动态性能是解决系统不确定性的有效方法。

现有的针对关节模组的控制方法主要包括以下两个方面：第一，在控制器搭建完毕后，参数需要从零开始盲目调节，并不知道电机控制的最优阈值；第二，现有鲁棒控制方法不能够很好的将关节模组控制在一个指定范围内，且精确度不够，可能会使关节模组运行偏离轨迹，在现实的生产生活中可能会因此导致一些重大事故。

发明内容

本发明的目的在于提供一种能够利用神经网络训练来得到电机控制参数的最优阈值，并通过模糊方法来消除电机的非线性和不确定性，将得到的参数输入到不等式约束最优鲁棒控制器中，将电机运行轨迹约束在一个指定的范围内并显著提高其控制精度的基于强化学习的关节模组不等式约束最优鲁棒控制方法。

为实现上述目的，本发明采用了以下技术方案：一种基于强化学习的关节模组不等式约束最优鲁棒控制方法，该方法包括下列顺序的步骤：

(1)首先在仿真平台上搭建具备神经网络训练能力的关节模组虚拟仿真环境，构建具备Dropout随机失活神经元方法的强化学习神经网络模型；

(2)初始化关节模组虚拟仿真环境；

(3)采用改进的粒子群优化算法调整强化学习神经网络模型中多层神经元之间的连接权值,实现面向关节模组轨迹跟踪控制的强化学习神经网络的自适应学习；

(4)随机失活强化学习神经网络模型的一部分神经元，将预先设定的干扰参数输入到每个关节模组虚拟仿真环境中，控制强化学习神经网络结合每个关节模组虚拟仿真环境，输出关节模组的控制参数信息；

(5)判断关节模组虚拟仿真环境训练终止条件，收集当前关节模组虚拟仿真环境下的训练数据集；

(6)将强化学习神经网络训练得到的最优参数输入到不等式约束最优鲁棒控制器内，首先通过模糊方法来消除电机的非线性和不确定性，再通过不等式约束将电机运行轨迹限制在一个指定的范围内并显著提高其控制精度。

在步骤(1)中，所述强化学习神经网络为全连接网络，包括两个隐含层和一个池化层，每层包含256个节点，激活函数选择Relu函数，且通过Dropout随机失活神经元方法来防止过拟合现象。

所述步骤(2)初始化关节模组虚拟仿真环境包括初始化关节模组所在的仿真环境、初始化电机初始位置和负载重量以及扰动项。

所述步骤(3)包括以下步骤：

(3a)将多层神经元之间的连接权值的选取问题转化为最优化问题,最优化问题的目标函数即输出向量与期望信号向量的范数,如式(1)所示,期望信号即关节模组目标运行位置坐标,输出向量即关节模组的实际运行位置：

式(1)中，Error为最优化问题的目标函数,xd(k)、yd(k)分别为关节模组第k步的期望速度及期望加速度值，y_x(k)、y_y(k)为第k步的实际速度及实际加速度值；

(3b)确定每个连接权值的取值范围，即确定寻优范围；

(3c)在寻优范围内随机初始化一群粒子,即粒子群,包括初始化粒子的初始位置与初始速度,用位置、速度和适应度这三个指标表示粒子特征,位置表示强化学习神经网络模型中所有的连接权值取值,速度表示每个粒子演化的方向,适应度值由适应度函数求得,即每个粒子对应的目标函数；

粒子的速度依据粒子的当前位置、当前速度﹑粒子的历史最佳位置Pbest与粒子群中最优粒子的位置Gbest更新,粒子的速度

的更新公式如式(2)所示:

式(2)中，id为粒子群中粒子的编号，

为第i代粒子的速度，

为第i代粒子在第i代之前的历史最佳位置,

为第i代粒子群中最优粒子的位置；ω(i)为第i代粒子的惯性权重,其大小决定速度在多大程度上继承上一代粒子的运动速度；c₁,c₂为加速度因子，取值为非负常数；r₁,r₂为0到1之间的随机数；

是第i代粒子的位置；初始化时ω的取值ω_start为0.9,迭代结束时ω_start的取值ω_end为0.01,在迭代过程中惯性权重ω加速衰减,初期优先寻优速度,后期着重寻优精度,惯性权重ω的更新公式如式(3)所示:

式(3)中,maxgen为最大迭代次数；得到更新后的粒子的位置

后,更新该粒子的位置,粒子的位置

的更新公式如式(4)所示:

若式(4)求取的

对应的目标函数小于

对应的适应度函数,则

反之，

同时,更新种群中最优粒子的位置,得到

如此,进行多次迭代即得到近似最优解,使强化学习神经网络模型控制误差最小的近似最优权值。

在步骤(4)中，所述的关节模组的控制参数包括不等式约束模糊最优鲁棒控制器里的比例系数Kp、微分系数Kd。

所述步骤(6)具体是指：将强化学习神经网络训练得到的最优参数输入不等式约束最优鲁棒控制器执行控制操作，接收检测输入量，将该检测输入量与设定值的偏差映射到输入论域上，得到模糊输入量，再由模糊输入量进行模糊推理和决策，得到模糊控制输出量，将模糊控制输出量转化为控制输出量，输入不等式约束最优鲁棒控制器内进行控制；

考虑摩擦的关节模组动力学模型如下：

其中：

其中：J，B表示关节模组的转子惯性矩，T_lj表示负载扭矩，T_fric表示摩擦，T_d外部扰动，τ表示关节模组的输出力矩，Θ，

分别表示转子的角位移，角速度和角加速度，η，r分别表示传动效率和减速比，f_c，f_s分别表示库仑和静摩擦系数，G表示重力矩阵；

其中：a，b，c，d都是增益参数，

表示考虑摩擦力之后的速度；

不等式状态转换方程如下：

Θ_m＜Θ＜Θ_M (8)

其中，Θ_m，Θ_M分别是状态变量Θ的下限和上限；

其中，θ，

分别为无状态约束下的转子角位移，角速度，角加速度；θ_d是期望的转子角位移；

将式(11)、(12)、(13)代入式(5)式得：

其中，M为惯性矩阵，C为加速度补偿矩阵，T_sum为扭矩及外部力矩总和；

不等式约束最优鲁棒控制器的设计如下:

e(t)＝θ(t)-θ^d(t) (17)

其中：e(t)为输出角误差，g为重力项，

为名义矩阵，ΔM，ΔC，ΔT_sum，Δg为不确定性部分，δ代表不确定性参数；

其中：

表示上界估计值，P为不确定系数，K_p，K_d分别表示比例系数和微分系数，

表示控制器中的鲁棒项，

为误差方程，t表示时间，ε是一个定值，来决定鲁棒项的表示形式。

由上述技术方案可知，本发明的有益效果为：本发明首先通过迁移学习的方法将先前经验参数输入到一种新型的带有Dropout随机失活方法的强化学习神经网络模型中，采用粒子群最优算法来调整强化学习神经网络模型中多层神经元之间的连接权值，结合环境参数及干扰项来进行训练获得一个最优的训练值，所述强化学习神经网络训练得到的最优参数输入不等式约束最优鲁棒控制器中，其中包含两个步骤：首先通过模糊方法来消除电机的非线性和不确定性，再将得到的参数输入不等式约束最优鲁棒控制器中，实验结果表明，该控制方法可以显著提高电机控制精度且能将电机的运行轨迹约束在一个指定的范围内。

附图说明

图1为本发明的方法流程图；

图2、3均为阶跃跟踪仿真图；

图4、5为正弦跟踪仿真图；

图6为阶跃跟踪实验图；

图7为正弦跟踪实验图。

具体实施方式

如图1所示，一种基于强化学习的关节模组不等式约束最优鲁棒控制方法，该方法包括下列顺序的步骤：

(2)初始化关节模组虚拟仿真环境；

(4)随机失活强化学习神经网络模型的一部分神经元，将预先设定的干扰参数输入到每个关节模组虚拟仿真环境中，控制强化学习神经网络结合每个关节模组虚拟仿真环境，输出关节模组的控制参数信息；预先设定的干扰参数如负载、外部摩擦等参数；

所述步骤(3)包括以下步骤：

(3a)将多层神经元之间的连接权值的选取问题转化为最优化问题,最优化问题的目标函数即输出向量与期望信号向量的范数,如式(1)所示,期望信号即关节模组目标

运行位置坐标,输出向量即关节模组的实际运行位置：

(3b)确定每个连接权值的取值范围，即确定寻优范围；利用先前经验确定每个连接权值的取值范围，粒子群算法之前有论文研究过它最合适的取值范围，对于关节模组这种不确定性大的机器人核心零部件，为了减小误差，它的取值范围也要相应的大一些；

的更新公式如式(2)所示:

式(2)中，id为粒子群中粒子的编号，

为第i代粒子的速度，

为第i代粒子在第i代之前的历史最佳位置,

式(3)中,maxgen为最大迭代次数；得到更新后的粒子的位置

后,更新该粒子的位置,粒子的位置

的更新公式如式(4)所示:

若式(4)求取的

对应的目标函数小于

对应的适应度函数,则

反之，

同时,更新种群中最优粒子的位置,得到

在步骤(4)中，所述的关节模组的控制参数包括不等式约束模糊最优鲁棒控制器里的比例系数Kp、微分系数Kd。比例系数K_p用于消除误差，但可能会增加超调，微分系数K_d用于加快响应速度，削弱超调趋势。

考虑摩擦的关节模组动力学模型如下：

其中：

其中：a，b，c，d都是增益参数，

表示考虑摩擦力之后的速度；

不等式状态转换方程如下：

Θ_m＜Θ＜Θ_M (8)

其中，Θ_m，Θ_M分别是状态变量Θ的下限和上限；

其中，θ，

将式(11)、(12)、(13)代入式(5)式得：

不等式约束最优鲁棒控制器的设计如下:

e(t)＝θ(t)-θ^d(t) (17)

其中：e(t)为输出角误差，g为重力项，

其中：

表示控制器中的鲁棒项，

如图2所示，在MATLAB仿真里阶跃跟踪，不加不等式约束的情况：最优鲁棒控制器(RBC)和PID控制器的控制效果对比，可以看出二者都超出了预设的边界，但是最优鲁棒控制器(RBC)控制效果更佳且响应更快。

如图3所示，在MATLAB仿真里阶跃跟踪，增加不等式约束的情况：最优鲁棒控制器(RBC)和PID控制器的控制效果对比，可以看出最优鲁棒控制器(RBC)没有超出预设的边界且响应更快，且最优鲁棒控制器(RBC)控制效果更佳而PID超出了预设的边界。

如图4所示，在MATLAB仿真里正弦跟踪，不加不等式约束的情况：最优鲁棒控制器(RBC)和PID控制器的控制效果对比，可以看出二者都超出了预设的边界，但是最优鲁棒控制器(RBC)控制效果更佳。

如图5所示，在MATLAB仿真里正弦跟踪，增加不等式约束的情况：最优鲁棒控制器(RBC)和PID控制器的控制效果对比，可以看出最优鲁棒控制器(RBC)没有超出预设的边界且完美跟踪与预设曲线，且最优鲁棒控制器(RBC)控制效果更佳，而PID超出了预设的边界。

如图6所示，在实验平台上阶跃跟踪，左边为不加不等式约束的情况，右边为增加不等式约束的情况，根据最优鲁棒控制器(RBC)和PID控制器的控制效果对比，可以看出最优鲁棒控制器(RBC)控制效果更佳且响应更快，且加了不等式约束之后两种算法的超调和误差都降低了不少，精度有很大的提高。

如图7所示，在实验平台上正弦跟踪，左边为不加不等式约束的情况，右边为增加不等式约束的情况，根据最优鲁棒控制器(RBC)和PID控制器的控制效果对比，可以看出最优鲁棒控制器(RBC)控制效果更佳且响应更快，且加了不等式约束之后两种算法的超调和误差都降低了不少，精度有很大的提高。

综上所述，本发明首先通过迁移学习的方法将先前经验参数输入到一种新型的带有Dropout随机失活方法的强化学习神经网络模型中，采用粒子群最优算法来调整强化学习神经网络模型中多层神经元之间的连接权值，结合环境参数及干扰项来进行训练获得一个最优的训练值，将强化学习神经网络训练得到的最优参数输入到不等式约束最优鲁棒控制器内，可以显著提高电机控制精度且能将电机的运行轨迹约束在一个指定的范围内。

Claims

1.一种基于强化学习的关节模组不等式约束最优鲁棒控制方法，其特征在于：该方法包括下列顺序的步骤：

(2)初始化关节模组虚拟仿真环境；

2.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法，其特征在于：在步骤(1)中，所述强化学习神经网络为全连接网络，包括两个隐含层和一个池化层，每层包含256个节点，激活函数选择Relu函数，且通过Dropout随机失活神经元方法来防止过拟合现象。

3.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法，其特征在于：所述步骤(2)初始化关节模组虚拟仿真环境包括初始化关节模组所在的仿真环境、初始化电机初始位置和负载重量以及扰动项。

4.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法，其特征在于：所述步骤(3)包括以下步骤：

(3b)确定每个连接权值的取值范围，即确定寻优范围；

的更新公式如式(2)所示:

式(2)中，id为粒子群中粒子的编号，

为第i代粒子的速度，

为第i代粒子在第i代之前的历史最佳位置,

式(3)中,maxgen为最大迭代次数；得到更新后的粒子的位置

后,更新该粒子的位置,粒子的位置

的更新公式如式(4)所示:

若式(4)求取的

对应的目标函数小于

对应的适应度函数,则

反之，

同时,更新种群中最优粒子的位置,得到

5.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法，其特征在于：在步骤(4)中，所述的关节模组的控制参数包括不等式约束模糊最优鲁棒控制器里的比例系数Kp、微分系数Kd。

6.根据权利要求1所述的基于强化学习的关节模组不等式约束最优鲁棒控制方法，其特征在于：所述步骤(6)具体是指：将强化学习神经网络训练得到的最优参数输入不等式约束最优鲁棒控制器执行控制操作，接收检测输入量，将该检测输入量与设定值的偏差映射到输入论域上，得到模糊输入量，再由模糊输入量进行模糊推理和决策，得到模糊控制输出量，将模糊控制输出量转化为控制输出量，输入不等式约束最优鲁棒控制器内进行控制；

考虑摩擦的关节模组动力学模型如下：