CN112000009A - 一种基于状态与扰动估计的物料转送器强化学习控制方法 - Google Patents
一种基于状态与扰动估计的物料转送器强化学习控制方法 Download PDFInfo
- Publication number
- CN112000009A CN112000009A CN202010731483.8A CN202010731483A CN112000009A CN 112000009 A CN112000009 A CN 112000009A CN 202010731483 A CN202010731483 A CN 202010731483A CN 112000009 A CN112000009 A CN 112000009A
- Authority
- CN
- China
- Prior art keywords
- material transfer
- state
- hydraulic servo
- transfer device
- servo system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于状态与扰动估计的物料转送器强化学习控制方法,首先建立物料转送器电液伺服系统的控制模型;然后采用一种新型的非线性扩张状态观测器估计液压伺服系统未知状态和等效扰动,该非线性扩张状态观测器理论上的估计误差为零;基于上述状态和等效扰动估计,设计滑模控制器实现液压伺服系统快速、高精度控制;最后采用强化学习方法,通过系统自适应学习对滑模控制器参数进行在线自适应学习,提高液压伺服系统的控制性能。本发明能够根据液压伺服系统位置信息得到其他状态和扰动信息;能够通过强化学习方法实现控制滑模控制器参数自整定,不需要人工大量的实验进行整定,降低了工作量,提高了控制精度。
Description
技术领域
本发明属于流体传动与控制领域,特别是一种基于状态与扰动估计的物料转送器强化学习控制方法。
背景技术
电液伺服系统具有输出力矩/力大、刚度大、精度高、响应速度快等特点,在机器人、航空航天、国防工业以及大型工程机械中得到广泛使用。近年来随着技术的发展,对液压控制系统要求也越来越高,但是由于液压系统具有很强的非线性以及不确定性,液压系统实现高性能控制比较困难。目前在很大程度上液压伺服系统仍然采用PID的控制策略,不仅PID参数的整定困难、适应系统参数变化的能力弱,而且控制精度和响应速度难以要求日益增长的控制性能需求,因此需要进行具有较强自适应和自学习能力的电液伺服系统控制方法设计。
发明内容
本发明的目的在于提供一种基于状态与扰动估计的物料转送器强化学习控制方法,以实现物料转送器电液系统控制参数的自整定,提高物料转送系统的控制性能。
实现本发明目的的技术解决方案为:一种基于状态与扰动估计的物料转送器强化学习控制方法,物料转送器通过液压系统驱动齿轮副带动输送链传输,液压系统由电液伺服系控制,通过编码器实时反馈电液伺服系统位置信息;
首先建立物料转送电液伺服系统的动力学模型,以电液伺服系统简化数学模型为基础,用扩张状态观测器在线估计系统的未知状态和等效扰动,基于上述状态与扰动估计值设计滑模控制器实现位置跟踪控制,并引入强化学习算法在线调整滑模控制器参数,实现物料转送电液伺服系统的控制。
本发明与现有技术相比,其显著优点是:
(1)本发明基于状态与扰动估计的物料转送器强化学习控制方法,引入强化学习算法在线调整滑模控制器参数,实现控制参数自整定,提高物料转送系统的控制性能。
(2)采用非线性扩张状态观测器实现液压伺服系统未知状态与扰动实时在线估计,理论上估计误差为零,结合扩张状态观测技术、滑模控制技术和强化学习技术,简化了系统结构,提高了系统的可靠性。
(3)引入强化学习方法,在线调整滑模控制器的参数,提高了系统的自适应和自学习能力。
附图说明
图1是本发明物料转送器结构简图。
图2是本发明物料转送器结构示意图。
图3是本发明基于状态与扰动估计的物料转送器强化学习控制方法框图。
图4是本发明基于状态与扰动估计的物料转送器强化学习控制方法流程图。
图5是本发明中径向基网络(RBF)结构图。
图6是本发明中被控液压伺服系统运动轨迹。
图7是本发明中被控液压伺服系统位置误差。
图8是本发明中被控液压伺服系统速度误差。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的介绍。
结合图1-图2,物料转送器主要由控制器1、液压伺服阀2、液压缸3、齿条4、齿轮5、编码器6、链轮7、链条8组成,链条8与链轮7啮合,链轮7通过传动齿轮与齿轮5啮合、齿轮5与齿条4啮合,齿条4与液压缸3相连,通过与液压缸3相连的齿条4的直线运动带动齿轮5的回转;齿轮5与链轮7通过传动齿轮传动,链轮7的回转带动链条8往复运动,通过链条8的往复运动实现物料的转送功能;液压缸3的运动由控制器1控制的伺服阀2来实现;编码器6实时反馈电液伺服系统位置信息,与控制器1相连实现闭环控制,电液伺服系统控制框图如图3。首先建立物料转送电液伺服系统的动力学模型,以电液伺服系统简化数学模型为基础,用扩张状态观测器在线估计系统的未知状态和等效扰动,引入滑模控制算法实现物料转送电液伺服系统的高性能控制,滑模控制器控制参数通过强化学习方法自整定。
本发明首先采用机理建模法建立物料转送电液伺服系统的动力学模型,然后设计扩张状态观测器实现系统位置状态和等效扰动的同时在线精确估计,基于上述状态与扰动估计值设计滑模控制器,并引入强化学习技术在线调整滑模控制器参数,实现物料转送电液伺服系统的高性能控制。下面结合附图和具体实施例对本发明进行详细说明:
步骤1、建立物料转送器电液伺服系统的动力学模型:
物料转送系统由液压系统驱动,对液压系统做以下假设:1)系统使用液压油为理想流体;2)系统温度不变;3)忽略密封等带来的泄露;4)系统压力等波动可以忽略。根据以上假设,建立物料转送器电液伺服系统的动力学模型。
1.1、对物料转送器进行分析,得出物料转送动力学方程:
式中,F为油缸给物料转动器驱动力;meq为油缸端等效质量;x为油缸位移;Beq为油缸端等效阻尼系数;Fd为扰动力,包括外部扰动和未建模动态及建模误差等;A1为油缸无杆腔面积,P1为无杆腔压力,A2为油缸有杆腔面积,P2为有杆腔压力。
1.2、在电液伺服系统中液压缸的流量方程为:
式中,Q1为油缸无杆腔流量,Q2为油缸有杆腔流量,Cd为流量系数,W为阀口面积梯度,ρ为液压油密度,Ps、Pr分别为供油压力和回油压力,阀芯位移xv=Kuu,Ku为伺服阀放大系数,u为伺服阀控制输入。函数s(·)按照以下取值:
1.3、液压缸有杆腔和无杆腔流量是连续的,得到无杆腔和有杆腔流量连续方程为:
式中:Vt1,Vt2分别为运动开始时无杆腔和有杆腔油液体积,Δl为油缸伸长量,βe为液压油体积弹性模量,Ci为油缸内内部泄露系数。
1.4、建立物料转送器电液伺服系统数学模型:由式(1)~式(3)可得:
其中:Td为外界及不确定项引起的扰动,H1,H2取值如下
步骤2、基于物料转送电液伺服系统的动力学模型式(4)设计状态与扰动估计器:
假设等效扰动d(t)是可导的且其导数有界,即存在一个正的常数δ满足:|d(t)|<δ。把未知的等效扰动d(t)等效为系统状态x4(t)且其导数为h(t),即x4(t)=d(t),采用如下的非线性扩张状态观测器完成对系统状态和等效扰动的估计:
式中:为系统状态的估计值,位置误差xd1(t)为期望的位移,扩张状态观测器参数w>0,扩张状态观测器参数H1,H2,H3,H4>0,扩张状态观测器参数L>δ,为扩张状态观测器误差,函数sigα(x)=|x|α·sign(x),α为相应指数。
步骤3、基于动力学模型式(4)和状态与扰动观测器式(5)建立滑模控制器:
定义系统跟踪误差
其中e1(t),e2(t),e3(t)分别为位置、速度和加速度误差,
xd(t)=[xd1(t),xd2(t),xd3(t),xd4(t)]为期望的位置、速度、加速度、加加速度。
定义滑模面函数s(t):
s(t)=cA1(t)e1(t)+cA2(t)e2(t)+e3(t) (7)
式中:cA1(t)>0,cA2(t)>0为滑模面参数,根据以上变量建立以下滑模控制器:
式中f,k(t)为可调增益,a0为滑模控制器参数,sign(·)函数为符号函数,取值为下:
步骤4、建立图5所示,建立基于径向基函数网络的强化学习模型:
4.1、建立强化学习径向基函数网络。强化学习模型采用径向基函数网络的Actor-Critic学习,采用如图3所示RBF结构,RBF输入层输入步骤2中为t时刻跟踪误差e(t),t时刻隐含层输出为:
式中:hi(t)为t时刻第i个节点的隐含层输出,ci(t)=[ci1(t),ci2(t),ci3(t)]为t时刻第i个节点的隐含层中心向量,bi(t)为t时刻第i个节点的隐含层节点宽度。t时刻输出层由两部分组成,Actor输出y(t)=[y1(t),y2(t),y3(t)]和Critic输出V(t),分别由以下公式得出:
式中wij(t)为t时刻第i个隐含层节点到第j个Actor网络输出层权值,vi(t)为为t时刻第i个隐含层节点到Critic网络输出的权值。
Actor网络输出并不直接传递给滑模控制器,而是在输出y(t)上叠加一个高斯扰动ηk(0,σV(t)):
[cA1(t),cA2(t),k(t)]=y(t)+ηk(0,σV(t)) (12)
定义网络输出偏差向量为:
K(t)=[cA1(t),cA2(t),k(t)]-[y1(t),y2(t),y3(t)] (13)
定义回报函数为:
式中:ε为容许的位置跟踪误差。
4.2、强化学习径向基网络更新,在Actor-Critic网络学习中计算误差δTD(t):
δTD(t)=r(t)+γV(t+1)-V(t) (15)式中:0<γ<1为折扣因子。V(t+1)为t+1时刻Critic输出。
采用梯度下降法更新Actor-Critic网络,具体公式为:
式中:αA,αV分别为Actor和Critic的学习率,wij(t+1)为t+1时刻第i个隐含层节点到第j个Actor网络输出层权值,vi(t+1)为为t+1时刻第i个隐含层节点到Critic网络输出的权值。
按照以下公式对中心向量和节点宽度进行更新:
式中:αc,αb分别为中心向量以及节点宽度的学习率,ci(t+1)为t+1时刻第i个节点的隐含层中心向量,bi(t+1)为t时刻第i+1个节点的隐含层节点宽度,同理可得到ci(t)、bi(t)含义。
步骤5、根据跟踪误差式(14)计算奖励函数。
步骤6、分别根据式(10)和式(11)计算Actor-Critic网络输出。
步骤7、将Actor网络的输出(式(12))应用于滑模控制器(式(8)),并根据跟踪误差(式(6))计算滑模控制器输出u(t)。
步骤8、将步骤7中得到的控制信号作用于物料转送器电液伺服系统。
步骤9、根据编码器采集的位置信息周期状态,计算Actor网络输出V(t)和奖励函数r(t)(分别根据式(11)和式(14))。
步骤10、根据步骤9中的Actor网络输出V(t)和奖励函数r(t)的值计算时序差分方法TD误差δTD(t)(式(15))。
步骤11、采用梯度下降法(式(16))更新Actor-Critic网络权值以及节点中心向量以及节点宽度(式(17))。
步骤12、根据当前位置判断被控对象是否运动到位,当一定时间T内|x1(t)-xset|<=τ视为到位,其中xset为设定的目标位置,τ为设定的误差带;如果运动到位转向步骤13,否则回到步骤5。
步骤13、运动结束。
使用MATLAB仿真工具,按照以上方法在Simulink中构建物料转送电液伺服系统仿真模型,使物料转送器按照图6所示的理想运动轨迹运动,得到物料转送器位置误差图7、速度误差图8。将仿真数据与传统PID相比,可以看出,与传统PID相比,到位精度得到了有效的提高,大大降低了运动过程中的位置动态误差与速度动态误差,并且通过仿真可以看出,本发明无需复杂的PID参数整定的过程,大大降低了工作量,提高了效率,并有效的提高了控制系统性能。
Claims (6)
1.一种基于状态与扰动估计的物料转送器强化学习控制方法,物料转送器通过液压系统驱动齿轮副带动输送链传输,液压系统由电液伺服系统控制,通过编码器实时反馈电液伺服系统位置信息;其特征在于,
首先建立物料转送电液伺服系统的动力学模型,以电液伺服系统简化数学模型为基础,用扩张状态观测器在线估计系统的未知状态和等效扰动,基于上述状态与扰动估计值设计滑模控制器实现位置跟踪控制,并引入强化学习算法在线调整滑模控制器参数,实现物料转送器电液伺服系统的控制。
2.根据权利要求1所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于,包括以下步骤:
步骤1、建立物料转送器电液伺服系统的动力学模型:建立物料转送动力学方程和液压缸的流量方程以及无杆腔和有杆腔流量连续方程,联立建立物料转送器电液伺服系统数学模型;
步骤2、基于物料转送电液伺服系统的动力学模型式设计状态与扰动估计器:采用非线性扩张状态观测器完成对系统状态和等效扰动的估计;
步骤3、基于动力学模型式和状态与扰动观测器式建立滑模控制器;
步骤4、建立强化学习径向基函数网络:强化学习模型采用径向基函数网络的Actor-Critic学习;
步骤5、根据强化学习模型中的跟踪误差计算奖励函数;
步骤6、分别根据强化学习模型中的Actor输出公式和Critic输出公式计算Actor-Critic网络输出;
步骤7、将Actor网络的输出应用于滑模控制器,并根据跟踪误差计算滑模控制器输出;
步骤8、将步骤7中得到的控制信号作用于物料转送器电液伺服系统;
步骤9、根据编码器采集的位置信息周期状态,计算Actor网络输出V(t)和奖励函数r(t);
步骤10、根据步骤9中的Actor网络输出V(t)和奖励函数r(t)的值计算TD误差;
步骤11、采用梯度下降法更新Actor-Critic网络权值以及节点中心向量以及节点宽度;
步骤12、根据当前位置判断被控对象是否运动到位如果运动到位则运动结束,否则回到步骤5。
6.根据权利要求2所述的基于状态与扰动估计的物料转送器强化学习控制方法其特征在于,步骤4建立基于径向基函数网络的强化学习模型,具体包括以下步骤:
步骤4.1、建立强化学习径向基函数网络,采用RBF结构,t时刻Actor输出和Critic输出分别为:
式中wij(t)为t时刻第i个隐含层节点到第j个Actor网络输出层权值,vi(t)为为t时刻第i个隐含层节点到Critic网络输出的权值;hi(t)为t时刻第i个节点的隐含层输出;
步骤4.2、强化学习径向基网络更新,在Actor-Critic网络学习中计算误差δTD(t):
采用梯度下降法更新Actor-Critic网络:
式中:αA,αV分别为Actor和Critic的学习率,wij(t+1)为t+1时刻第i个隐含层节点到第j个Actor网络输出层权值,vi(t+1)为为t+1时刻第i个隐含层节点到Critic网络输出的权值;K(t)为网络输出偏差向量;
对中心向量和节点宽度进行更新:
式中:αc,αb分别为中心向量以及节点宽度的学习率,ci(t+1)为t+1时刻第i个节点的隐含层中心向量,bi(t+1)为t时刻第i+1个节点的隐含层节点宽度;e(t)为系统跟踪误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010731483.8A CN112000009B (zh) | 2020-07-27 | 2020-07-27 | 一种基于状态与扰动估计的物料转送器强化学习控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010731483.8A CN112000009B (zh) | 2020-07-27 | 2020-07-27 | 一种基于状态与扰动估计的物料转送器强化学习控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112000009A true CN112000009A (zh) | 2020-11-27 |
CN112000009B CN112000009B (zh) | 2022-11-04 |
Family
ID=73467782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010731483.8A Active CN112000009B (zh) | 2020-07-27 | 2020-07-27 | 一种基于状态与扰动估计的物料转送器强化学习控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112000009B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113062601A (zh) * | 2021-03-17 | 2021-07-02 | 同济大学 | 一种基于q学习的混凝土布料机器人轨迹规划方法 |
CN113126502A (zh) * | 2021-04-28 | 2021-07-16 | 天津理工大学 | 一种欠驱动吊车系统的控制方法及控制系统 |
CN113325804A (zh) * | 2021-06-08 | 2021-08-31 | 中国科学院数学与系统科学研究院 | 一种运动控制系统的q学习扩张状态观测器设计方法 |
CN115877747A (zh) * | 2022-09-16 | 2023-03-31 | 杭州世宝汽车方向机有限公司 | 电液耦合的线控转向系统及其转角跟踪控制器的设计方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345268A (zh) * | 2017-01-23 | 2018-07-31 | 南京理工大学 | 考虑输入时滞约束的电液伺服系统位置跟踪控制方法 |
CN110488759A (zh) * | 2019-08-09 | 2019-11-22 | 西安交通大学 | 一种基于Actor-Critic算法的数控机床进给控制补偿方法 |
-
2020
- 2020-07-27 CN CN202010731483.8A patent/CN112000009B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345268A (zh) * | 2017-01-23 | 2018-07-31 | 南京理工大学 | 考虑输入时滞约束的电液伺服系统位置跟踪控制方法 |
CN110488759A (zh) * | 2019-08-09 | 2019-11-22 | 西安交通大学 | 一种基于Actor-Critic算法的数控机床进给控制补偿方法 |
Non-Patent Citations (2)
Title |
---|
宋仕元等: "滑模控制器参数整定的actor-critic学习算法", 《电光与控制》 * |
郭新平等: "基于扩张状态观测器的泵控电液伺服系统滑模控制", 《北京航空航天大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113062601A (zh) * | 2021-03-17 | 2021-07-02 | 同济大学 | 一种基于q学习的混凝土布料机器人轨迹规划方法 |
CN113062601B (zh) * | 2021-03-17 | 2022-05-13 | 同济大学 | 一种基于q学习的混凝土布料机器人轨迹规划方法 |
CN113126502A (zh) * | 2021-04-28 | 2021-07-16 | 天津理工大学 | 一种欠驱动吊车系统的控制方法及控制系统 |
CN113126502B (zh) * | 2021-04-28 | 2022-11-08 | 天津理工大学 | 一种欠驱动吊车系统的控制方法及控制系统 |
CN113325804A (zh) * | 2021-06-08 | 2021-08-31 | 中国科学院数学与系统科学研究院 | 一种运动控制系统的q学习扩张状态观测器设计方法 |
CN113325804B (zh) * | 2021-06-08 | 2022-03-29 | 中国科学院数学与系统科学研究院 | 一种运动控制系统的q学习扩张状态观测器设计方法 |
CN115877747A (zh) * | 2022-09-16 | 2023-03-31 | 杭州世宝汽车方向机有限公司 | 电液耦合的线控转向系统及其转角跟踪控制器的设计方法 |
CN115877747B (zh) * | 2022-09-16 | 2023-10-17 | 杭州世宝汽车方向机有限公司 | 电液耦合的线控转向系统及其转角跟踪控制器的设计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112000009B (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112000009B (zh) | 一种基于状态与扰动估计的物料转送器强化学习控制方法 | |
CN111546350B (zh) | 一种多关节重载液压机器人系统及高精度运动控制方法 | |
CN106402089B (zh) | 一种基于耦合干扰观测器的级联电液伺服系统控制方法及系统 | |
CN104698844A (zh) | 液压位置伺服系统的不确定性补偿的滑模控制方法 | |
CN109884894B (zh) | 电液助力转向系统神经网络积分滑模控制方法 | |
CN103728988B (zh) | 基于内模的scara机器人轨迹跟踪控制方法 | |
CN111428317B (zh) | 一种基于5g和循环神经网络的关节摩擦力矩补偿方法 | |
CN111290276B (zh) | 一种液压位置伺服系统神经网络分数阶积分滑模控制方法 | |
CN111338209A (zh) | 一种基于扩张干扰观测器的电液伺服系统自适应控制方法 | |
CN112096696B (zh) | 泵控非对称液压位置系统自适应反演控制方法 | |
CN111648758B (zh) | 一种水井钻机推进装置无模型自适应控制方法及系统 | |
CN110744552A (zh) | 一种基于奇异摄动理论的柔性机械臂运动控制方法 | |
Pan et al. | Force tracking control for an electro-hydraulic actuator based on an intelligent feed forward compensator | |
CN103309280B (zh) | 一种用于重型并联机床的双前馈控制系统 | |
CN109281894B (zh) | 一种微型容积式远程控制的静液作动器非线性补偿方法 | |
Inoan | Movement control of an unloading machine from a rotary furnace | |
CN108333919B (zh) | 一种考虑路面波动干扰的非平衡身管俯仰位置控制方法 | |
Zhang et al. | Velocity Feedback Control of Swing Phase for 2-DoF Robotic Leg Driven by Electro-hydraulic Servo System. | |
CN116088299A (zh) | 卫星天线混联运动机构神经网络反步控制方法 | |
CN113126484A (zh) | 液压系统改进的无模型滑模控制系统和方法 | |
Huang et al. | Indirect adaptive fuzzy sliding-mode control for hydraulic manipulators | |
CN116661294B (zh) | 基于强化学习的阀控液压缸分数阶控制方法及控制系统 | |
Du et al. | The trajectory optimization of mobile crossbeam in composite hydraulic press based on modified multi-island genetic algorithm | |
CN117289612B (zh) | 一种液压机械臂自适应神经网络控制方法 | |
CN108345268B (zh) | 考虑输入时滞约束的电液伺服系统位置跟踪控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |