CN112000009B - 一种基于状态与扰动估计的物料转送器强化学习控制方法 - Google Patents

一种基于状态与扰动估计的物料转送器强化学习控制方法 Download PDF

Info

Publication number
CN112000009B
CN112000009B CN202010731483.8A CN202010731483A CN112000009B CN 112000009 B CN112000009 B CN 112000009B CN 202010731483 A CN202010731483 A CN 202010731483A CN 112000009 B CN112000009 B CN 112000009B
Authority
CN
China
Prior art keywords
servo system
sliding mode
material transfer
hydraulic servo
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010731483.8A
Other languages
English (en)
Other versions
CN112000009A (zh
Inventor
钱林方
邹权
孙乐
徐亚栋
陈龙淼
尹强
王满意
陈光宋
陈红彬
魏凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202010731483.8A priority Critical patent/CN112000009B/zh
Publication of CN112000009A publication Critical patent/CN112000009A/zh
Application granted granted Critical
Publication of CN112000009B publication Critical patent/CN112000009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Abstract

本发明公开了一种基于状态与扰动估计的物料转送器强化学习控制方法,首先建立物料转送器电液伺服系统的控制模型;然后采用一种新型的非线性扩张状态观测器估计液压伺服系统未知状态和等效扰动,该非线性扩张状态观测器理论上的估计误差为零;基于上述状态和等效扰动估计,设计滑模控制器实现液压伺服系统快速、高精度控制;最后采用强化学习方法,通过系统自适应学习对滑模控制器参数进行在线自适应学习,提高液压伺服系统的控制性能。本发明能够根据液压伺服系统位置信息得到其他状态和扰动信息;能够通过强化学习方法实现控制滑模控制器参数自整定,不需要人工大量的实验进行整定,降低了工作量,提高了控制精度。

Description

一种基于状态与扰动估计的物料转送器强化学习控制方法
技术领域
本发明属于流体传动与控制领域,特别是一种基于状态与扰动估计的物料转送器强化学习控制方法。
背景技术
电液伺服系统具有输出力矩/力大、刚度大、精度高、响应速度快等特点,在机器人、航空航天、国防工业以及大型工程机械中得到广泛使用。近年来随着技术的发展,对液压控制系统要求也越来越高,但是由于液压系统具有很强的非线性以及不确定性,液压系统实现高性能控制比较困难。目前在很大程度上液压伺服系统仍然采用PID的控制策略,不仅PID参数的整定困难、适应系统参数变化的能力弱,而且控制精度和响应速度难以要求日益增长的控制性能需求,因此需要进行具有较强自适应和自学习能力的电液伺服系统控制方法设计。
发明内容
本发明的目的在于提供一种基于状态与扰动估计的物料转送器强化学习控制方法,以实现物料转送器电液系统控制参数的自整定,提高物料转送系统的控制性能。
实现本发明目的的技术解决方案为:一种基于状态与扰动估计的物料转送器强化学习控制方法,物料转送器通过液压系统驱动齿轮副带动输送链传输,液压系统由电液伺服系控制,通过编码器实时反馈电液伺服系统位置信息;
首先建立物料转送电液伺服系统的动力学模型,以电液伺服系统简化数学模型为基础,用扩张状态观测器在线估计系统的未知状态和等效扰动,基于上述状态与扰动估计值设计滑模控制器实现位置跟踪控制,并引入强化学习算法在线调整滑模控制器参数,实现物料转送电液伺服系统的控制。
本发明与现有技术相比,其显著优点是:
(1)本发明基于状态与扰动估计的物料转送器强化学习控制方法,引入强化学习算法在线调整滑模控制器参数,实现控制参数自整定,提高物料转送系统的控制性能。
(2)采用非线性扩张状态观测器实现液压伺服系统未知状态与扰动实时在线估计,理论上估计误差为零,结合扩张状态观测技术、滑模控制技术和强化学习技术,简化了系统结构,提高了系统的可靠性。
(3)引入强化学习方法,在线调整滑模控制器的参数,提高了系统的自适应和自学习能力。
附图说明
图1是本发明物料转送器结构简图。
图2是本发明物料转送器结构示意图。
图3是本发明基于状态与扰动估计的物料转送器强化学习控制方法框图。
图4是本发明基于状态与扰动估计的物料转送器强化学习控制方法流程图。
图5是本发明中径向基网络(RBF)结构图。
图6是本发明中被控液压伺服系统运动轨迹。
图7是本发明中被控液压伺服系统位置误差。
图8是本发明中被控液压伺服系统速度误差。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的介绍。
结合图1-图2,物料转送器主要由控制器1、液压伺服阀2、液压缸3、齿条4、齿轮5、编码器6、链轮7、链条8组成,链条8与链轮7啮合,链轮7通过传动齿轮与齿轮5啮合、齿轮5与齿条4啮合,齿条4与液压缸3相连,通过与液压缸3相连的齿条4的直线运动带动齿轮5的回转;齿轮5与链轮7通过传动齿轮传动,链轮7的回转带动链条8往复运动,通过链条8的往复运动实现物料的转送功能;液压缸3的运动由控制器1控制的伺服阀2来实现;编码器6实时反馈电液伺服系统位置信息,与控制器1相连实现闭环控制,电液伺服系统控制框图如图3。首先建立物料转送电液伺服系统的动力学模型,以电液伺服系统简化数学模型为基础,用扩张状态观测器在线估计系统的未知状态和等效扰动,引入滑模控制算法实现物料转送电液伺服系统的高性能控制,滑模控制器控制参数通过强化学习方法自整定。
本发明首先采用机理建模法建立物料转送电液伺服系统的动力学模型,然后设计扩张状态观测器实现系统位置状态和等效扰动的同时在线精确估计,基于上述状态与扰动估计值设计滑模控制器,并引入强化学习技术在线调整滑模控制器参数,实现物料转送电液伺服系统的高性能控制。下面结合附图和具体实施例对本发明进行详细说明:
步骤1、建立物料转送器电液伺服系统的动力学模型:
物料转送系统由液压系统驱动,对液压系统做以下假设:1)系统使用液压油为理想流体;2)系统温度不变;3)忽略密封等带来的泄露;4)系统压力等波动可以忽略。根据以上假设,建立物料转送器电液伺服系统的动力学模型。
1.1、对物料转送器进行分析,得出物料转送动力学方程:
Figure BDA0002603338090000031
式中,F为油缸给物料转动器驱动力;meq为油缸端等效质量;x为油缸位移;Beq为油缸端等效阻尼系数;Fd为扰动力,包括外部扰动和未建模动态及建模误差等;A1为油缸无杆腔面积,P1为无杆腔压力,A2为油缸有杆腔面积,P2为有杆腔压力。
1.2、在电液伺服系统中液压缸的流量方程为:
Figure BDA0002603338090000032
式中,Q1为油缸无杆腔流量,Q2为油缸有杆腔流量,Cd为流量系数,W为阀口面积梯度,ρ为液压油密度,Ps、Pr分别为供油压力和回油压力,阀芯位移xv=Kuu,Ku为伺服阀放大系数,u为伺服阀控制输入。函数s(·)按照以下取值:
Figure BDA0002603338090000033
1.3、液压缸有杆腔和无杆腔流量是连续的,得到无杆腔和有杆腔流量连续方程为:
Figure BDA0002603338090000034
式中:Vt1,Vt2分别为运动开始时无杆腔和有杆腔油液体积,Δl为油缸伸长量,βe为液压油体积弹性模量,Ci为油缸内内部泄露系数。
1.4、建立物料转送器电液伺服系统数学模型:由式(1)~式(3)可得:
Figure BDA0002603338090000041
其中:Td为外界及不确定项引起的扰动,H1,H2取值如下
Figure BDA0002603338090000042
Figure BDA0002603338090000043
令系统状态
Figure BDA0002603338090000044
将物料转运伺服系统简化为三阶线性状态方程:
Figure BDA0002603338090000045
式中:
Figure BDA0002603338090000046
Figure BDA0002603338090000047
u(t)为系统控制输入变量。d(t)为未知的等效扰动,x1(t),x2(t)和x3(t)分别为油缸的位移、速度和加速度。
步骤2、基于物料转送电液伺服系统的动力学模型式(4)设计状态与扰动估计器:
假设等效扰动d(t)是可导的且其导数有界,即存在一个正的常数δ满足:|d(t)|<δ。把未知的等效扰动d(t)等效为系统状态x4(t)且其导数为h(t),即x4(t)=d(t),
Figure BDA0002603338090000048
采用如下的非线性扩张状态观测器完成对系统状态和等效扰动的估计:
Figure BDA0002603338090000051
式中:
Figure BDA0002603338090000052
为系统状态的估计值,位置误差
Figure BDA0002603338090000053
xd1(t)为期望的位移,扩张状态观测器参数w>0,扩张状态观测器参数H1,H2,H3,H4>0,扩张状态观测器参数L>δ,
Figure BDA0002603338090000054
为扩张状态观测器误差,函数sigα(x)=|x|α·sign(x),α为相应指数。
步骤3、基于动力学模型式(4)和状态与扰动观测器式(5)建立滑模控制器:
定义系统跟踪误差
Figure BDA0002603338090000055
其中e1(t),e2(t),e3(t)分别为位置、速度和加速度误差,
xd(t)=[xd1(t),xd2(t),xd3(t),xd4(t)]为期望的位置、速度、加速度、加加速度。
定义滑模面函数s(t):
s(t)=cA1(t)e1(t)+cA2(t)e2(t)+e3(t) (7)
式中:cA1(t)>0,cA2(t)>0为滑模面参数,根据以上变量建立以下滑模控制器:
Figure BDA0002603338090000056
式中f,k(t)为可调增益,a0为滑模控制器参数,sign(·)函数为符号函数,取值为下:
Figure BDA0002603338090000057
步骤4、建立图5所示,建立基于径向基函数网络的强化学习模型:
4.1、建立强化学习径向基函数网络。强化学习模型采用径向基函数网络的Actor-Critic学习,采用如图3所示RBF结构,RBF输入层输入步骤2中为t时刻跟踪误差e(t),t时刻隐含层输出为:
Figure BDA0002603338090000061
式中:hi(t)为t时刻第i个节点的隐含层输出,ci(t)=[ci1(t),ci2(t),ci3(t)]为t时刻第i个节点的隐含层中心向量,bi(t)为t时刻第i个节点的隐含层节点宽度。t时刻输出层由两部分组成,Actor输出y(t)=[y1(t),y2(t),y3(t)]和Critic输出V(t),分别由以下公式得出:
Figure BDA0002603338090000062
Figure BDA0002603338090000063
式中wij(t)为t时刻第i个隐含层节点到第j个Actor网络输出层权值,vi(t)为为t时刻第i个隐含层节点到Critic网络输出的权值。
Actor网络输出并不直接传递给滑模控制器,而是在输出y(t)上叠加一个高斯扰动ηk(0,σV(t)):
[cA1(t),cA2(t),k(t)]=y(t)+ηk(0,σV(t)) (12)
其中
Figure BDA0002603338090000064
rand(1,3)为随机函数。
定义网络输出偏差向量为:
K(t)=[cA1(t),cA2(t),k(t)]-[y1(t),y2(t),y3(t)] (13)定义回报函数为:
Figure BDA0002603338090000065
式中:ε为容许的位置跟踪误差。
4.2、强化学习径向基网络更新,在Actor-Critic网络学习中计算误差δTD(t):
δTD(t)=r(t)+γV(t+1)-V(t) (15)式中:0<γ<1为折扣因子。V(t+1)为t+1时刻Critic输出。
采用梯度下降法更新Actor-Critic网络,具体公式为:
Figure BDA0002603338090000071
式中:αAV分别为Actor和Critic的学习率,wij(t+1)为t+1时刻第i个隐含层节点到第j个Actor网络输出层权值,vi(t+1)为为t+1时刻第i个隐含层节点到Critic网络输出的权值。
按照以下公式对中心向量和节点宽度进行更新:
Figure BDA0002603338090000072
式中:αcb分别为中心向量以及节点宽度的学习率,ci(t+1)为t+1时刻第i个节点的隐含层中心向量,bi(t+1)为t时刻第i+1个节点的隐含层节点宽度,同理可得到ci(t)、bi(t)含义。
步骤5、根据跟踪误差式(14)计算奖励函数。
步骤6、分别根据式(10)和式(11)计算Actor-Critic网络输出。
步骤7、将Actor网络的输出(式(12))应用于滑模控制器(式(8)),并根据跟踪误差(式(6))计算滑模控制器输出u(t)。
步骤8、将步骤7中得到的控制信号作用于物料转送器电液伺服系统。
步骤9、根据编码器采集的位置信息周期状态,计算Actor网络输出V(t)和奖励函数r(t)(分别根据式(11)和式(14))。
步骤10、根据步骤9中的Actor网络输出V(t)和奖励函数r(t)的值计算时序差分方法TD误差δTD(t)(式(15))。
步骤11、采用梯度下降法(式(16))更新Actor-Critic网络权值以及节点中心向量以及节点宽度(式(17))。
步骤12、根据当前位置判断被控对象是否运动到位,当一定时间T内|x1(t)-xset|<=τ视为到位,其中xset为设定的目标位置,τ为设定的误差带;如果运动到位转向步骤13,否则回到步骤5。
步骤13、运动结束。
使用MATLAB仿真工具,按照以上方法在Simulink中构建物料转送电液伺服系统仿真模型,使物料转送器按照图6所示的理想运动轨迹运动,得到物料转送器位置误差图7、速度误差图8。将仿真数据与传统PID相比,可以看出,与传统PID相比,到位精度得到了有效的提高,大大降低了运动过程中的位置动态误差与速度动态误差,并且通过仿真可以看出,本发明无需复杂的PID参数整定的过程,大大降低了工作量,提高了效率,并有效的提高了控制系统性能。

Claims (2)

1.一种基于状态与扰动估计的物料转送器强化学习控制方法,物料转送器通过液压系统驱动齿轮副带动输送链传输,液压系统由电液伺服系统控制,通过编码器实时反馈电液伺服系统位置信息;其特征在于,
首先建立物料转送电液伺服系统的动力学模型:
Figure FDA0003838532980000011
其中
Figure FDA0003838532980000012
Figure FDA0003838532980000013
u(t)为系统控制输入变量;d(t)为未知的等效扰动,x1(t),x2(t)和x3(t)分别为油缸的位移、速度和加速度;A1为油缸无杆腔面积;A2为油缸有杆腔面积;Vt1,Vt2分别为运动开始时无杆腔和有杆腔油液体积;Δl为油缸伸长量;βe为液压油体积弹性模量;Beq为油缸端等效阻尼系数;meq为油缸端等效质量;Cd为流量系数,W为阀口面积梯度;Ku为伺服阀放大系数;
以电液伺服系统简化数学模型为基础,用扩张状态观测器在线估计系统的未知状态和等效扰动,采用的非线性扩张状态观测器采用如下:
Figure FDA0003838532980000014
式中:
Figure FDA0003838532980000015
为系统状态的估计值,位置误差
Figure FDA0003838532980000016
xd1(t)为期望的位移,扩张状态观测器参数w>0,扩张状态观测器参数H1,H2,H3,H4>0,扩张状态观测器参数L>δ,
Figure FDA0003838532980000017
为扩张状态观测器误差;δ为一个正的常数,满足:|d(t)|<δ;
基于上述状态与扰动估计值设计滑模控制器实现位置跟踪控制,建立滑模控制器为:
Figure FDA0003838532980000021
其中f,k(t)为可调增益,a0为滑模控制器参数;cA1(t)>0,cA2(t)>0为滑模面参数;e2(t)为速度误差;e3(t)为加速度误差,xd2(t),xd3(t),xd4(t)分别为期望的速度、加速度、加加速度;s(t)为滑模面函数;
引入强化学习算法在线调整滑模控制器参数,实现物料转送器电液伺服系统的控制,建立强化学习径向基函数网络,采用RBF结构,t时刻Actor输出和Critic输出分别为:
Figure FDA0003838532980000022
Figure FDA0003838532980000023
式中wij(t)为t时刻第i个隐含层节点到第j个Actor网络输出层权值,υi(t)为t时刻第i个隐含层节点到Critic网络输出的权值;hi(t)为t时刻第i个节点的隐含层输出;
强化学习径向基网络更新,在Actor-Critic网络学习中计算误差δTD(t):
采用梯度下降法更新Actor-Critic网络:
Figure FDA0003838532980000024
式中:
Figure FDA0003838532980000025
αA,αV分别为Actor和Critic的学习率,ωij(t+1)为t+1时刻第i个隐含层节点到第j个Actor网络输出层权值,υi(t+1)为t+1时刻第i个隐含层节点到Critic网络输出的权值;K(t)为网络输出偏差向量。
2.根据权利要求1所述的基于状态与扰动估计的物料转送器强化学习控制方法,其特征在于,还包括
对中心向量和节点宽度进行更新:
Figure FDA0003838532980000031
式中:αc,αb分别为中心向量以及节点宽度的学习率,ci(t+1)为t+1时刻第i个节点的隐含层中心向量,bi(t+1)为t时刻第i+1个节点的隐含层节点宽度;e(t)为系统跟踪误差。
CN202010731483.8A 2020-07-27 2020-07-27 一种基于状态与扰动估计的物料转送器强化学习控制方法 Active CN112000009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010731483.8A CN112000009B (zh) 2020-07-27 2020-07-27 一种基于状态与扰动估计的物料转送器强化学习控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010731483.8A CN112000009B (zh) 2020-07-27 2020-07-27 一种基于状态与扰动估计的物料转送器强化学习控制方法

Publications (2)

Publication Number Publication Date
CN112000009A CN112000009A (zh) 2020-11-27
CN112000009B true CN112000009B (zh) 2022-11-04

Family

ID=73467782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010731483.8A Active CN112000009B (zh) 2020-07-27 2020-07-27 一种基于状态与扰动估计的物料转送器强化学习控制方法

Country Status (1)

Country Link
CN (1) CN112000009B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113062601B (zh) * 2021-03-17 2022-05-13 同济大学 一种基于q学习的混凝土布料机器人轨迹规划方法
CN113126502B (zh) * 2021-04-28 2022-11-08 天津理工大学 一种欠驱动吊车系统的控制方法及控制系统
CN113325804B (zh) * 2021-06-08 2022-03-29 中国科学院数学与系统科学研究院 一种运动控制系统的q学习扩张状态观测器设计方法
CN115877747B (zh) * 2022-09-16 2023-10-17 杭州世宝汽车方向机有限公司 电液耦合的线控转向系统及其转角跟踪控制器的设计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345268A (zh) * 2017-01-23 2018-07-31 南京理工大学 考虑输入时滞约束的电液伺服系统位置跟踪控制方法
CN110488759A (zh) * 2019-08-09 2019-11-22 西安交通大学 一种基于Actor-Critic算法的数控机床进给控制补偿方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345268A (zh) * 2017-01-23 2018-07-31 南京理工大学 考虑输入时滞约束的电液伺服系统位置跟踪控制方法
CN110488759A (zh) * 2019-08-09 2019-11-22 西安交通大学 一种基于Actor-Critic算法的数控机床进给控制补偿方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于扩张状态观测器的泵控电液伺服系统滑模控制;郭新平等;《北京航空航天大学学报》;20200630;第46卷(第6期);第1160-1168页 *
滑模控制器参数整定的actor-critic学习算法;宋仕元等;《电光与控制》;20200620;第27卷(第9期);第24-27页 *

Also Published As

Publication number Publication date
CN112000009A (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN112000009B (zh) 一种基于状态与扰动估计的物料转送器强化学习控制方法
CN111546350B (zh) 一种多关节重载液压机器人系统及高精度运动控制方法
CN106402089B (zh) 一种基于耦合干扰观测器的级联电液伺服系统控制方法及系统
CN104317198B (zh) 具有时变输出约束的电液伺服系统非线性鲁棒位置控制方法
CN109884894B (zh) 电液助力转向系统神经网络积分滑模控制方法
CN104698844A (zh) 液压位置伺服系统的不确定性补偿的滑模控制方法
Zhou et al. Adaptive robust control design for underwater multi-dof hydraulic manipulator
CN111338209A (zh) 一种基于扩张干扰观测器的电液伺服系统自适应控制方法
CN110081046A (zh) 一种基于反步控制的多电液伺服执行器跟踪同步控制方法
CN111428317A (zh) 一种基于5g和循环神经网络的关节摩擦力矩补偿方法
CN103728988A (zh) 基于内模的scara机器人轨迹跟踪控制方法
CN111648758B (zh) 一种水井钻机推进装置无模型自适应控制方法及系统
CN108107728B (zh) 一种基于干扰补偿的电液位置伺服系统控制方法
CN111255756B (zh) 一种液压系统中的变速泵控制系统
CN116661294B (zh) 基于强化学习的阀控液压缸分数阶控制方法及控制系统
CN113431814B (zh) 一种基于升沉补偿平台多液压缸并联运动的同步控制方法
Pan et al. Force tracking control for an electro-hydraulic actuator based on an intelligent feed forward compensator
CN109281894B (zh) 一种微型容积式远程控制的静液作动器非线性补偿方法
Inoan Movement control of an unloading machine from a rotary furnace
Zhang et al. Velocity Feedback Control of Swing Phase for 2-DoF Robotic Leg Driven by Electro-hydraulic Servo System.
CN113126484A (zh) 液压系统改进的无模型滑模控制系统和方法
Liang-kuan et al. Compound control strategy for MDF continuous hot pressing electrohydraulic servo system with uncertainties and input saturation
CN117289612B (zh) 一种液压机械臂自适应神经网络控制方法
CN108345268B (zh) 考虑输入时滞约束的电液伺服系统位置跟踪控制方法
CN109695607A (zh) 一种用于预应力智能张拉设备的泵阀协同控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant