CN112000009A

CN112000009A - 一种基于状态与扰动估计的物料转送器强化学习控制方法

Info

Publication number: CN112000009A
Application number: CN202010731483.8A
Authority: CN
Inventors: 钱林方; 邹权; 孙乐; 徐亚栋; 陈龙淼; 尹强; 王满意; 陈光宋; 陈红彬; 魏凯
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-11-27
Anticipated expiration: 2040-07-27
Also published as: CN112000009B

Abstract

本发明公开了一种基于状态与扰动估计的物料转送器强化学习控制方法，首先建立物料转送器电液伺服系统的控制模型；然后采用一种新型的非线性扩张状态观测器估计液压伺服系统未知状态和等效扰动，该非线性扩张状态观测器理论上的估计误差为零；基于上述状态和等效扰动估计，设计滑模控制器实现液压伺服系统快速、高精度控制；最后采用强化学习方法，通过系统自适应学习对滑模控制器参数进行在线自适应学习，提高液压伺服系统的控制性能。本发明能够根据液压伺服系统位置信息得到其他状态和扰动信息；能够通过强化学习方法实现控制滑模控制器参数自整定，不需要人工大量的实验进行整定，降低了工作量，提高了控制精度。

Description

一种基于状态与扰动估计的物料转送器强化学习控制方法

技术领域

本发明属于流体传动与控制领域，特别是一种基于状态与扰动估计的物料转送器强化学习控制方法。

背景技术

电液伺服系统具有输出力矩/力大、刚度大、精度高、响应速度快等特点，在机器人、航空航天、国防工业以及大型工程机械中得到广泛使用。近年来随着技术的发展，对液压控制系统要求也越来越高，但是由于液压系统具有很强的非线性以及不确定性，液压系统实现高性能控制比较困难。目前在很大程度上液压伺服系统仍然采用PID的控制策略，不仅PID参数的整定困难、适应系统参数变化的能力弱，而且控制精度和响应速度难以要求日益增长的控制性能需求，因此需要进行具有较强自适应和自学习能力的电液伺服系统控制方法设计。

发明内容

本发明的目的在于提供一种基于状态与扰动估计的物料转送器强化学习控制方法，以实现物料转送器电液系统控制参数的自整定，提高物料转送系统的控制性能。

实现本发明目的的技术解决方案为：一种基于状态与扰动估计的物料转送器强化学习控制方法，物料转送器通过液压系统驱动齿轮副带动输送链传输，液压系统由电液伺服系控制，通过编码器实时反馈电液伺服系统位置信息；

首先建立物料转送电液伺服系统的动力学模型，以电液伺服系统简化数学模型为基础，用扩张状态观测器在线估计系统的未知状态和等效扰动，基于上述状态与扰动估计值设计滑模控制器实现位置跟踪控制，并引入强化学习算法在线调整滑模控制器参数，实现物料转送电液伺服系统的控制。

本发明与现有技术相比，其显著优点是：

(1)本发明基于状态与扰动估计的物料转送器强化学习控制方法，引入强化学习算法在线调整滑模控制器参数，实现控制参数自整定，提高物料转送系统的控制性能。

(2)采用非线性扩张状态观测器实现液压伺服系统未知状态与扰动实时在线估计，理论上估计误差为零，结合扩张状态观测技术、滑模控制技术和强化学习技术，简化了系统结构，提高了系统的可靠性。

(3)引入强化学习方法，在线调整滑模控制器的参数，提高了系统的自适应和自学习能力。

附图说明

图1是本发明物料转送器结构简图。

图2是本发明物料转送器结构示意图。

图3是本发明基于状态与扰动估计的物料转送器强化学习控制方法框图。

图4是本发明基于状态与扰动估计的物料转送器强化学习控制方法流程图。

图5是本发明中径向基网络(RBF)结构图。

图6是本发明中被控液压伺服系统运动轨迹。

图7是本发明中被控液压伺服系统位置误差。

图8是本发明中被控液压伺服系统速度误差。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的介绍。

结合图1-图2，物料转送器主要由控制器1、液压伺服阀2、液压缸3、齿条4、齿轮5、编码器6、链轮7、链条8组成，链条8与链轮7啮合，链轮7通过传动齿轮与齿轮5啮合、齿轮5与齿条4啮合，齿条4与液压缸3相连，通过与液压缸3相连的齿条4的直线运动带动齿轮5的回转；齿轮5与链轮7通过传动齿轮传动，链轮7的回转带动链条8往复运动，通过链条8的往复运动实现物料的转送功能；液压缸3的运动由控制器1控制的伺服阀2来实现；编码器6实时反馈电液伺服系统位置信息，与控制器1相连实现闭环控制，电液伺服系统控制框图如图3。首先建立物料转送电液伺服系统的动力学模型，以电液伺服系统简化数学模型为基础，用扩张状态观测器在线估计系统的未知状态和等效扰动，引入滑模控制算法实现物料转送电液伺服系统的高性能控制，滑模控制器控制参数通过强化学习方法自整定。

本发明首先采用机理建模法建立物料转送电液伺服系统的动力学模型，然后设计扩张状态观测器实现系统位置状态和等效扰动的同时在线精确估计，基于上述状态与扰动估计值设计滑模控制器，并引入强化学习技术在线调整滑模控制器参数，实现物料转送电液伺服系统的高性能控制。下面结合附图和具体实施例对本发明进行详细说明：

步骤1、建立物料转送器电液伺服系统的动力学模型：

物料转送系统由液压系统驱动，对液压系统做以下假设：1)系统使用液压油为理想流体；2)系统温度不变；3)忽略密封等带来的泄露；4)系统压力等波动可以忽略。根据以上假设，建立物料转送器电液伺服系统的动力学模型。

1.1、对物料转送器进行分析，得出物料转送动力学方程：

式中，F为油缸给物料转动器驱动力；m_eq为油缸端等效质量；x为油缸位移；B_eq为油缸端等效阻尼系数；F_d为扰动力，包括外部扰动和未建模动态及建模误差等；A₁为油缸无杆腔面积，P₁为无杆腔压力，A₂为油缸有杆腔面积，P₂为有杆腔压力。

1.2、在电液伺服系统中液压缸的流量方程为：

式中，Q₁为油缸无杆腔流量，Q₂为油缸有杆腔流量，C_d为流量系数，W为阀口面积梯度，ρ为液压油密度，P_s、P_r分别为供油压力和回油压力，阀芯位移x_v＝K_uu，K_u为伺服阀放大系数，u为伺服阀控制输入。函数s(·)按照以下取值：

1.3、液压缸有杆腔和无杆腔流量是连续的，得到无杆腔和有杆腔流量连续方程为：

式中：V_t1,V_t2分别为运动开始时无杆腔和有杆腔油液体积，Δl为油缸伸长量，β_e为液压油体积弹性模量，C_i为油缸内内部泄露系数。

1.4、建立物料转送器电液伺服系统数学模型：由式(1)～式(3)可得：

其中：T_d为外界及不确定项引起的扰动，H₁,H₂取值如下

令系统状态

将物料转运伺服系统简化为三阶线性状态方程：

式中：

u(t)为系统控制输入变量。d(t)为未知的等效扰动，x₁(t),x₂(t)和x₃(t)分别为油缸的位移、速度和加速度。

步骤2、基于物料转送电液伺服系统的动力学模型式(4)设计状态与扰动估计器：

假设等效扰动d(t)是可导的且其导数有界，即存在一个正的常数δ满足：|d(t)|＜δ。把未知的等效扰动d(t)等效为系统状态x₄(t)且其导数为h(t)，即x₄(t)＝d(t)，

采用如下的非线性扩张状态观测器完成对系统状态和等效扰动的估计：

式中：

为系统状态的估计值，位置误差

x_d1(t)为期望的位移，扩张状态观测器参数w＞0，扩张状态观测器参数H₁,H₂,H₃,H₄＞0，扩张状态观测器参数L＞δ，

为扩张状态观测器误差，函数sig^α(x)＝|x|^α·sign(x)，α为相应指数。

步骤3、基于动力学模型式(4)和状态与扰动观测器式(5)建立滑模控制器：

定义系统跟踪误差

其中e₁(t),e₂(t),e₃(t)分别为位置、速度和加速度误差，

x_d(t)＝[x_d1(t),x_d2(t),x_d3(t),x_d4(t)]为期望的位置、速度、加速度、加加速度。

定义滑模面函数s(t)：

s(t)＝c_A1(t)e₁(t)+c_A2(t)e₂(t)+e₃(t) (7)

式中：c_A1(t)＞0,c_A2(t)＞0为滑模面参数，根据以上变量建立以下滑模控制器：

式中f,k(t)为可调增益，a₀为滑模控制器参数，sign(·)函数为符号函数，取值为下：

步骤4、建立图5所示，建立基于径向基函数网络的强化学习模型：

4.1、建立强化学习径向基函数网络。强化学习模型采用径向基函数网络的Actor-Critic学习，采用如图3所示RBF结构，RBF输入层输入步骤2中为t时刻跟踪误差e(t)，t时刻隐含层输出为：

式中：h_i(t)为t时刻第i个节点的隐含层输出，c_i(t)＝[c_i1(t),c_i2(t),c_i3(t)]为t时刻第i个节点的隐含层中心向量，b_i(t)为t时刻第i个节点的隐含层节点宽度。t时刻输出层由两部分组成，Actor输出y(t)＝[y₁(t),y₂(t),y₃(t)]和Critic输出V(t)，分别由以下公式得出：

式中w_ij(t)为t时刻第i个隐含层节点到第j个Actor网络输出层权值，v_i(t)为为t时刻第i个隐含层节点到Critic网络输出的权值。

Actor网络输出并不直接传递给滑模控制器，而是在输出y(t)上叠加一个高斯扰动η_k(0,σ_V(t))：

[c_A1(t),c_A2(t),k(t)]＝y(t)+η_k(0,σ_V(t)) (12)

其中

rand(1,3)为随机函数。

定义网络输出偏差向量为：

K(t)＝[c_A1(t),c_A2(t),k(t)]-[y₁(t),y₂(t),y₃(t)] (13)

定义回报函数为：

式中：ε为容许的位置跟踪误差。

4.2、强化学习径向基网络更新，在Actor-Critic网络学习中计算误差δ_TD(t)：

δ_TD(t)＝r(t)+γV(t+1)-V(t) (15)式中：0＜γ＜1为折扣因子。V(t+1)为t+1时刻Critic输出。

采用梯度下降法更新Actor-Critic网络，具体公式为：

式中：α_A,α_V分别为Actor和Critic的学习率，w_ij(t+1)为t+1时刻第i个隐含层节点到第j个Actor网络输出层权值，v_i(t+1)为为t+1时刻第i个隐含层节点到Critic网络输出的权值。

按照以下公式对中心向量和节点宽度进行更新：

式中：α_c,α_b分别为中心向量以及节点宽度的学习率，c_i(t+1)为t+1时刻第i个节点的隐含层中心向量，b_i(t+1)为t时刻第i+1个节点的隐含层节点宽度，同理可得到c_i(t)、b_i(t)含义。

步骤5、根据跟踪误差式(14)计算奖励函数。

步骤6、分别根据式(10)和式(11)计算Actor-Critic网络输出。

步骤7、将Actor网络的输出(式(12))应用于滑模控制器(式(8))，并根据跟踪误差(式(6))计算滑模控制器输出u(t)。

步骤8、将步骤7中得到的控制信号作用于物料转送器电液伺服系统。

步骤9、根据编码器采集的位置信息周期状态，计算Actor网络输出V(t)和奖励函数r(t)(分别根据式(11)和式(14))。

步骤10、根据步骤9中的Actor网络输出V(t)和奖励函数r(t)的值计算时序差分方法TD误差δ_TD(t)(式(15))。

步骤11、采用梯度下降法(式(16))更新Actor-Critic网络权值以及节点中心向量以及节点宽度(式(17))。

步骤12、根据当前位置判断被控对象是否运动到位，当一定时间T内|x₁(t)-x_set|＜＝τ视为到位，其中x_set为设定的目标位置，τ为设定的误差带；如果运动到位转向步骤13，否则回到步骤5。

步骤13、运动结束。

使用MATLAB仿真工具，按照以上方法在Simulink中构建物料转送电液伺服系统仿真模型，使物料转送器按照图6所示的理想运动轨迹运动，得到物料转送器位置误差图7、速度误差图8。将仿真数据与传统PID相比，可以看出，与传统PID相比，到位精度得到了有效的提高，大大降低了运动过程中的位置动态误差与速度动态误差，并且通过仿真可以看出，本发明无需复杂的PID参数整定的过程，大大降低了工作量，提高了效率，并有效的提高了控制系统性能。

Claims

1.一种基于状态与扰动估计的物料转送器强化学习控制方法，物料转送器通过液压系统驱动齿轮副带动输送链传输，液压系统由电液伺服系统控制，通过编码器实时反馈电液伺服系统位置信息；其特征在于，

首先建立物料转送电液伺服系统的动力学模型，以电液伺服系统简化数学模型为基础，用扩张状态观测器在线估计系统的未知状态和等效扰动，基于上述状态与扰动估计值设计滑模控制器实现位置跟踪控制，并引入强化学习算法在线调整滑模控制器参数，实现物料转送器电液伺服系统的控制。

2.根据权利要求1所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于，包括以下步骤：

步骤1、建立物料转送器电液伺服系统的动力学模型：建立物料转送动力学方程和液压缸的流量方程以及无杆腔和有杆腔流量连续方程，联立建立物料转送器电液伺服系统数学模型；

步骤2、基于物料转送电液伺服系统的动力学模型式设计状态与扰动估计器：采用非线性扩张状态观测器完成对系统状态和等效扰动的估计；

步骤3、基于动力学模型式和状态与扰动观测器式建立滑模控制器；

步骤4、建立强化学习径向基函数网络：强化学习模型采用径向基函数网络的Actor-Critic学习；

步骤5、根据强化学习模型中的跟踪误差计算奖励函数；

步骤6、分别根据强化学习模型中的Actor输出公式和Critic输出公式计算Actor-Critic网络输出；

步骤7、将Actor网络的输出应用于滑模控制器，并根据跟踪误差计算滑模控制器输出；

步骤8、将步骤7中得到的控制信号作用于物料转送器电液伺服系统；

步骤9、根据编码器采集的位置信息周期状态，计算Actor网络输出V(t)和奖励函数r(t)；

步骤10、根据步骤9中的Actor网络输出V(t)和奖励函数r(t)的值计算TD误差；

步骤11、采用梯度下降法更新Actor-Critic网络权值以及节点中心向量以及节点宽度；

步骤12、根据当前位置判断被控对象是否运动到位如果运动到位则运动结束，否则回到步骤5。

3.根据权利要求2所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于，步骤1建立物料转送器电液伺服系统的动力学模型为：

其中

u(t)为系统控制输入变量；d(t)为未知的等效扰动，x₁(t),x₂(t)和x₃(t)分别为油缸的位移、速度和加速度；A₁为油缸无杆腔面积；A₂为油缸有杆腔面积；V_t1,V_t2分别为运动开始时无杆腔和有杆腔油液体积，；Δl为油缸伸长量；β_e为液压油体积弹性模量；B_eq为油缸端等效阻尼系数；m_eq为油缸端等效质量；C_d为流量系数，W为阀口面积梯度；K_u为伺服阀放大系数。

4.根据权利要求3所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于，步骤2中所述非线性扩张状态观测器采用如下：

式中：

为系统状态的估计值，位置误差

为扩张状态观测器误差。

5.根据权利要求3所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于，步骤3建立滑模控制器为：

其中f,k(t)为可调增益，a₀为滑模控制器参数；c_A1(t)＞0,c_A2(t)＞0为滑模面参数；e₃(t)为加速度误差，x_d2(t),x_d3(t),x_d4(t)分别为期望的速度、加速度、加加速；度。

6.根据权利要求2所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于，步骤4建立基于径向基函数网络的强化学习模型，具体包括以下步骤：

步骤4.1、建立强化学习径向基函数网络，采用RBF结构，t时刻Actor输出和Critic输出分别为：

式中w_ij(t)为t时刻第i个隐含层节点到第j个Actor网络输出层权值，v_i(t)为为t时刻第i个隐含层节点到Critic网络输出的权值；h_i(t)为t时刻第i个节点的隐含层输出；

步骤4.2、强化学习径向基网络更新，在Actor-Critic网络学习中计算误差δ_TD(t)：

采用梯度下降法更新Actor-Critic网络：

式中：

α_A,α_V分别为Actor和Critic的学习率，w_ij(t+1)为t+1时刻第i个隐含层节点到第j个Actor网络输出层权值，v_i(t+1)为为t+1时刻第i个隐含层节点到Critic网络输出的权值；K(t)为网络输出偏差向量；

对中心向量和节点宽度进行更新：

式中：α_c,α_b分别为中心向量以及节点宽度的学习率，c_i(t+1)为t+1时刻第i个节点的隐含层中心向量，b_i(t+1)为t时刻第i+1个节点的隐含层节点宽度；e(t)为系统跟踪误差。