CN113126502B - 一种欠驱动吊车系统的控制方法及控制系统 - Google Patents

一种欠驱动吊车系统的控制方法及控制系统 Download PDF

Info

Publication number
CN113126502B
CN113126502B CN202110465965.8A CN202110465965A CN113126502B CN 113126502 B CN113126502 B CN 113126502B CN 202110465965 A CN202110465965 A CN 202110465965A CN 113126502 B CN113126502 B CN 113126502B
Authority
CN
China
Prior art keywords
training
crane system
disturbance
state
control law
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110465965.8A
Other languages
English (en)
Other versions
CN113126502A (zh
Inventor
刘俊杰
高强
李大华
吉月辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN202110465965.8A priority Critical patent/CN113126502B/zh
Publication of CN113126502A publication Critical patent/CN113126502A/zh
Application granted granted Critical
Publication of CN113126502B publication Critical patent/CN113126502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66CCRANES; LOAD-ENGAGING ELEMENTS OR DEVICES FOR CRANES, CAPSTANS, WINCHES, OR TACKLES
    • B66C13/00Other constructional features or details
    • B66C13/16Applications of indicating, registering, or weighing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66CCRANES; LOAD-ENGAGING ELEMENTS OR DEVICES FOR CRANES, CAPSTANS, WINCHES, OR TACKLES
    • B66C13/00Other constructional features or details
    • B66C13/18Control systems or devices
    • B66C13/48Automatic control of crane drives for producing a single or repeated working cycle; Programme control

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种欠驱动吊车系统的控制方法及控制系统,先利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动。然后利用强化学习控制器对系统状态进行处理,得到虚拟控制律,并根据虚拟控制律和总扰动计算实际控制律,再利用实际控制律对吊车系统进行控制,能够在控制跟踪误差消除的过程中,融入强化学习智能控制机制,解决了吊车系统跟踪控制的反馈误差消除问题,提高了控制精度。

Description

一种欠驱动吊车系统的控制方法及控制系统
技术领域
本发明涉及欠驱动吊车系统控制技术领域,特别是涉及一种欠驱动吊车系统的扰动补偿及强化学习控制方法及控制系统。
背景技术
吊车是一种作循环、间歇运动的机械起吊搬运设备,其被广泛应用于各类工业现场,如港口、车间、电力、工地等,在吊装设备、抢险救灾、起重、救援等领域具有显著功能优势。常见的起重机系统根据不同的结构分为多种类型,例如塔式吊车,旋转吊车,桥式吊车等。对于吊车系统,未激活状态通常会导致控制输入的数量少于自由度,这是欠驱动系统的主要特征,即吊车系统具备欠驱动系统的特性。
近年来,吊车的应用广泛受到各个方面的重视。以桥式吊车为例,吊车首先将有效载荷提升到一定的安全高度,将其悬挂在推车上,然后将其水平移动到所需位置的正上方。当有效载荷下降到所需位置时,整个操作过程结束。通常应在推车高速移动期间和结束时保持足够小的振幅摆幅,这决定了整个过程的控制性能。但受欠驱动特性的影响,高速推车调节和摆动衰减相互矛盾。除了欠驱动特性外,模型不确定性,测量噪声和外部干扰也是影响实际应用中桥式吊车系统有效性的常见问题。因此,上述困难给桥式吊车的防摆控制带来了很大的挑战。
常用的吊车控制算法有input shaping-based控制,反步控制,滑模控制等,这些方法虽然能够在一定程度上实现对吊车的跟踪控制以及干扰减弱,但值得指出的是,这些方法都是基于模型的,没有足够的能力来处理参数不确定性和外部干扰,例如摩擦力。
因此,亟需一种能够处理参数不确定性和外部干扰,同时对吊车系统进行控制的控制方法及控制系统。
发明内容
本发明的目的是提供一种欠驱动吊车系统的控制方法及控制系统,能够克服各种内部不确定性和外部干扰的影响,提高对欠驱动吊车系统进行控制的控制精度。
为实现上述目的,本发明提供了如下方案:
一种欠驱动吊车系统的控制方法,所述控制方法包括如下步骤:
利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动;
利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律;
根据所述虚拟控制律和所述总扰动计算实际控制律;
利用所述实际控制律对所述吊车系统进行控制。
一种欠驱动吊车系统的控制系统,所述控制系统包括:
观测模块,用于利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动;
处理模块,用于利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律;
计算模块,用于根据所述虚拟控制律和所述总扰动计算实际控制律;
控制模块,用于利用所述实际控制律对所述吊车系统进行控制。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种欠驱动吊车系统的控制方法及控制系统,先利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动,能够克服内部不确定性和外部干扰的影响,有效解决不确定吊车系统的稳定跟踪和干扰抑制问题。然后利用强化学习控制器对系统状态进行处理,得到虚拟控制律,并根据虚拟控制律和总扰动计算实际控制律,再利用实际控制律对吊车系统进行控制,能够在控制跟踪误差消除的过程中,融入强化学习智能控制机制,解决了吊车系统跟踪控制的反馈误差消除问题,提高了控制精度。本发明所提供的控制方法及控制系统,通过扰动观测器能够使得滑模面和观测误差在有限时间内收敛到零,有效抑制外部扰动,无需建立模型也可以对摩擦进行直接观测和补偿,并引入强化学习方法进行跟踪误差优化消除,能够实现对欠驱动吊车系统的稳定跟踪控制,降低了模型依赖性,并可实现不确定性和扰动的抑制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1所提供的控制方法的方法流程图。
图2为本发明实施例1所提供的控制方法的控制原理图。
图3为本发明实施例1所提供的建立扰动观测器的方法流程图。
图4为本发明实施例1所提供的吊车系统的结构示意图。
图5为本发明实施例1所提供的实验结果图。
图6为本发明实施例2所提供的控制系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种欠驱动吊车系统的控制方法及控制系统,能够克服各种内部不确定性和外部干扰的影响,提高对欠驱动吊车系统进行控制的控制精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
近年来,强化学习已成为人工智能领域的一个重要分支,其在控制设计中的应用已成为一个热门问题,这在机器人系统的自治方面显示了良好的应用前景。深度确定性策略梯度算法是一种高级的,无需模型的,脱离策略的深度强化学习算法,它使用深度函数逼近器,可以学习高维连续动作空间中的策略。深度确定性策略梯度算法是在确定性策略梯度算法的基础上,基于动作-评价机制和深度Q学习算法开发的,已被广泛用于设计各种控制器。尽管深度确定性策略梯度算法可以实现良好的控制性能,但仍可以通过结合其他控制技术来提高其处理未知干扰的能力。扰动观测器是一种在控制器设计过程中抑制干扰的有效技术。而且,对于一个真实的系统,不确定性也可以归类为干扰的一部分,而干扰补偿是一种有效抑制方法。于是,充分利用强化学习控制的智能优势,进一步发展和推广非线性欠驱动系统的扰动观测补偿理论,并且将该理论应用到欠驱动吊车系统的镇定控制和干扰抑制问题中,具有重要的理论意义和实际应用价值。
基于上述内容,本实施例用于提供一种欠驱动吊车系统的控制方法,如图1和图2所示,所述控制方法包括如下步骤:
S1:利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动;
为了实现观测的功能,本实施例的控制方法还包括建立扰动观测器,如图3所示,可以包括:
S11:建立所述吊车系统的数学模型;
如图4所示,其给出了欠驱动吊车系统的结构示意图。基于这一欠驱动吊车系统,所建立的数学模型为:
Figure BDA0003043973570000041
式1中,q=[x,θ]T为状态矢量,x为吊车系统中可直接驱动的导轨车的位置,θ为吊车系统中间接驱动的负载的摆动角度。q是随时间变化的矢量,故可记为:q(t)=[x(t),θ(t)]T∈∈R2
Moc(q)为惯性矩阵;
Figure BDA0003043973570000044
为科里奥利力矩阵;G(q)为重力矢量;U为增广控制矢量。
各个状态矢量矩阵的具体表达形式分别为:
Figure BDA0003043973570000042
G(q)=[0 mpglpsinθ]T,U=[u+d 0]T. (2)
式2中,mt,mp,lp,g分别为导轨车质量,负载质量,连接绳长度以及重力加速度;d为吊车系统的外部扰动,包括摩檫力、参数不确定性以及未建模动态,d是一个随时间变化的量,可记为d(t);u为实际控制律。
S12:选取所述吊车系统的等效被控变量,将所述数学模型转化为等效模型;
分别将各个状态矢量矩阵的具体表达形式(式2)代入式1中,将所建立的欠驱动吊车系统的数学模型进行展开,得到:
Figure BDA0003043973570000043
根据式3中的第二个方程,得出
Figure BDA0003043973570000051
的具体表达式,并将
Figure BDA0003043973570000052
的具体表达式代入式3中的第一个方程中,将式3进行重新表达,可得:
Figure BDA0003043973570000053
式4中,第一中间变量fm(θ)=mtlp+mplpsin2θ。
在式4中,欠驱动吊车系统的待控制量有两个,分别是x和θ。此时,控制过程非常繁琐,且不易实现。基于此,可重新选取等效被控变量xΔ为:
Figure BDA0003043973570000054
式5中,kα为可调参数;τ为积分变量。
对式5进行微分求导,并令
Figure BDA0003043973570000055
可得:
Figure BDA0003043973570000056
式6中,xΔ1和xΔ2均为系统状态,式6即为转化得到的等效模型。
S13:对所述吊车系统的状态进行扩张,将所述等效模型转化为扰动模型;
欠驱动吊车的扰动观测器及强化学习控制器设计分为两步:第一步,通过扩张状态将问题转化为总扰动估计补偿问题,并通过设计相应的有限时间观测器(扰动观测器)完成估计补偿。第二步,设计强化学习控制器,处理反馈误差的消除问题。根据这种框架,设计扰动观测器过程如下:
令预设系数
Figure BDA0003043973570000057
总扰动
Figure BDA0003043973570000058
则式6所示的等效模型可以描述为:
Figure BDA0003043973570000059
定义f=xΔ3作为吊车系统新的状态,以对吊车系统的状态进行扩张,且采用
Figure BDA00030439735700000510
表示其微分,则式7所示的吊车系统可重新描述为:
Figure BDA0003043973570000061
式8所示即为转化得到的扰动模型。
S14:根据所述扰动模型建立扰动观测器。
基于式8所示的扰动模型,设计相应的有限时间扩张状态观测器,所得到的扰动观测器为:
Figure BDA0003043973570000062
式9中,zi(i=1,2,3)分别为xΔi(i=1,2,3)的估计值;
e1=xΔ1-z1,e2=xΔ2-z2,σ=c1e1+e2;γ为可调参数且0<γ<1;
c1>0和ki(i=1,2,3,4,5)>0均为观测器可调增益。
那么,扰动观测器的观测误差动态可表达为:
Figure BDA0003043973570000063
式10中,e3=f-z3表示总扰动的观测误差。
进而可基于所建立的扰动观测器来对吊车系统的系统状态xΔ1和xΔ2以及总扰动f进行观测,得到z1、z2和z3
S2:利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律;
本实施例基于深度确定性策略梯度算法(Deep Deterministic PolicyGradient,DDPG)设计强化学习控制器,其算法的参数更新思想通过借鉴深度Q网络(Deep QNetwork,DQN)中的双网络延时更新和经验回放机制来切断数据相关性。
所述控制方法还包括对强化学习控制器进行训练,强化学习控制器包括online动作网络,online评价网络,目标动作网络和目标评价网络。训练过程具体包括:
1)利用扰动观测器对吊车系统进行观测,得到训练系统状态和训练总扰动。将吊车系统的预设控制目标与训练系统状态进行做差,得到训练状态。
具体的,设定xΔr为欠驱动吊车系统的预设控制目标,具体可表达为:
Figure BDA0003043973570000071
其中,xd为导轨车的预设位置。则可定义ez1=xΔr-z1
Figure BDA0003043973570000072
将ez1和ez2作为online动作网络的输入,即训练过程中的训练状态s=(ez1,ez2)。
初始化online动作网络的网络参数Θμ和online评价网络的网络参数ΘQ,同时将网络参数Θμ和ΘQ对应拷贝给目标动作网络的参数Θμ′和目标评价网络的参数ΘQ′,并初始化经验池参数R;
2)以训练状态作为输入,利用online动作网络计算训练虚拟控制律;
在第k时刻,online动作网络根据输入的当前训练状态sk=(ez1k,ez2k),选择一个当前时刻的动作ak=μ(skμ)=u0k(u0k表示当前时刻的训练虚拟控制律)。
3)根据训练虚拟控制律和训练总扰动,得到训练实际控制律。利用训练实际控制律对吊车系统进行控制,得到奖励值和下一时刻的训练状态。
具体的,将训练虚拟控制律与训练总扰动进行做差,再计算二者的差值与预设系数b之间的比值,得到训练实际控制律。吊车系统根据当前时刻执行的动作ak=u0k返回奖励值rk和下一时刻的训练状态sk+1=(ez1k+1,ez2k+1),并将数据存储在经验池中。
4)根据训练状态、训练虚拟控制律、奖励值和下一时刻的训练状态,对online评价网络进行更新,得到更新后的online评价网络;
具体的,将sk=(ez1k,ez2k)和ak=u0k共同输入到online评价网络。同时online评价网络计算Q(sk,akQ)的值,并通过最小化损失函数L(ΘQ)来判断当前动作ak=μ(skμ)=u0k的优劣,并更新网络参数ΘQ。损失函数L(ΘQ)为:
Figure BDA0003043973570000073
式11中,yk=rk+γQ′(sk+1,ak+1Q′)=rk+γQ′(sk+1,μ′(sk+1μ′)|ΘQ′),是通过目标动作网络和目标评价网络进行计算更新的,γ为折扣因子且0≤γ≤1。
5)根据训练状态、训练虚拟控制律和更新后的online评价网络对online动作网络进行更新,得到更新后的online动作网络;
online动作网络的参数通过采用策略梯度进行更新,具体如下:
Figure BDA0003043973570000081
式12中,
Figure BDA0003043973570000082
表示梯度;N为训练过程中时刻的总数,k=1,2,..N。
6)根据更新后的online评价网络对目标评价网络进行更新,得到更新后的目标评价网络;根据更新后的online动作网络对目标动作网络进行更新,得到更新后的目标动作网络;
目标动作网络的参数Θμ′和目标评价网络的参数ΘQ′通过如下规则进行更新:
Figure BDA0003043973570000083
式13中,τ为更新系数,一般取值较小,为0.01或0.001。
7)以下一时刻的训练状态作为下一轮的训练状态,分别以更新后的online评价网络、更新后的online动作网络、更新后的目标评价网络和更新后的目标动作网络作为下一轮的online评价网络、online动作网络、目标评价网络和目标动作网络,返回“以所述训练状态作为输入,利用所述online动作网络计算训练虚拟控制律”的步骤进行迭代,直至所述深度确定性策略梯度算法收敛,得到强化学习控制器。
当整个深度确定性策略梯度算法框架的学习训练达到收敛时,结束迭代。
在对强化学习控制器训练完成后,S2可以包括:
将吊车系统的预设控制目标与系统状态进行做差,得到第一差值,第一差值为:e=xΔr-z1
Figure BDA0003043973570000084
以第一差值作为输入,利用强化学习控制器计算虚拟控制律,具体利用online动作网络根据第一差值计算虚拟控制律u0
S3:根据所述虚拟控制律和所述总扰动计算实际控制律;
具体的,将虚拟控制律与总扰动进行做差,得到第二差值,计算第二差值与预设系数之间的比值,得到实际控制律。
实际控制律u的表达式为:
Figure BDA0003043973570000085
式14中,f为总扰动;b为预设系数,
Figure BDA0003043973570000086
S4:利用所述实际控制律对所述吊车系统进行控制。
作为一种可选的实施方式,本实施例的控制方法还包括对扰动观测器进行稳定性分析,具体包括:
对于所设计的有限时间扩张状态观测器(扰动观测器),假设总扰动微分h满足在域Dx内,且其二范数||h||2≤Lh,Lh为利普希兹常数且Lh>0,在满足这一假设的情况下,观测误差在有限时间内趋于零,且借助提出的扰动观测器和深度强化学习控制器,吊车的状态可以渐近收敛至设计的平衡点。
证明过程如下:
1)分别计算滑模面与所述扰动观测器对总扰动的观测误差的微分;
对σ进行微分可得:
Figure BDA0003043973570000091
那关于σ和e3的微分表达式可以描述为
Figure BDA0003043973570000092
2)根据所述滑模面的微分和所述观测误差的微分选取第一李亚普诺夫函数;
为分析式16中σ和e3的收敛性,选取第一李亚普诺夫函数为:
Figure BDA0003043973570000093
式17中,
Figure BDA0003043973570000094
Figure BDA0003043973570000095
3)对所述第一李亚普诺夫函数进行求解,得到第一求解结果;
当σ≠0时,
Figure BDA0003043973570000096
可以表述为:
Figure BDA0003043973570000101
式18中,
Figure BDA0003043973570000102
为了完成证明,作如下定义
Figure BDA0003043973570000103
式19中,
Figure BDA0003043973570000104
若合适选择ki(i=1,2,3,4,5),满足
Ω11>0,Ω22>0,
则可得
Figure BDA0003043973570000111
此外,有λmin(P)||ξ||2≤Vσ≤λmax(P)||ξ||2,且|σ|≤||ξ||2,其中,λmin(max)(P)表示矩阵P的最小或最大特征值,则可得
Figure BDA0003043973570000112
4)根据所述第一求解结果确定所述滑模面的收敛性,得到第一收敛性判断结果;
式21表明所设计的滑模面能够在有限时间内收敛到零,且收敛时间T1满足:
Figure BDA0003043973570000113
5)根据所述第一收敛性判断结果选取第二李亚普诺夫函数;
由式22可知,当t≥T1时,有σ=0,则可得
σ=c1e1+e2=0→e2=-c1e1 (23)
将式23代入观测误差表达式(式10),可得
Figure BDA0003043973570000114
则可选取第二李亚普诺夫函数为
Figure BDA0003043973570000115
6)对所述第二李亚普诺夫函数进行求解,得到第二求解结果;
Figure BDA0003043973570000116
7)根据所述第二求解结果确定所述扰动观测器对导轨车位置的观测误差的收敛性,得到第二收敛性判断结果。
式25表明观测误差e1能够在T2后收敛到零,且T2满足:
Figure BDA0003043973570000121
当xΔ通过所设计的控制器调节到预定位置时,有
Figure BDA0003043973570000122
Figure BDA0003043973570000123
则易推导得:
Figure BDA0003043973570000124
将式27代入重新表达的吊车系统,可得
Figure BDA0003043973570000125
选取第三李亚普诺夫函数为
Figure BDA0003043973570000126
对其求微分可得:
Figure BDA0003043973570000127
通过上面
Figure BDA0003043973570000128
Figure BDA0003043973570000129
的表达式可得出如下不变集:
Γ={(θ12):θ1=0,θ2=0}. (30)
由LaSalle不变性原理可得,状态变量
Figure BDA00030439735700001210
Figure BDA00030439735700001211
可以收敛到Γ。同时,位置变量的微分亦能够收敛到零。对于实际吊车系统而言,模型中的第二行表达可以重新描述为:
Figure BDA00030439735700001212
Figure BDA00030439735700001213
对其进行积分可得
Figure BDA00030439735700001214
表明xΔ→x,因此所设定位置调节能够通过所提控制策略实现。图5所示的实验结果图同样证明了本实施例所用控制方法的有效性。
本实施例针对欠驱动吊车系统的镇定和扰动抑制问题,考虑扰动观测器是解决不确定系统干扰抑制问题的有效工具,而强化学习方法能够提高控制的鲁棒性。由于吊车系统不可避免的受到负载振荡问题的影响,而且由于系统特性常常涉及欠驱动控制设计问题,而通过变量等效变化以及扰动观测器的使用,恰好可以解决这些问题。使用强化学习方法设计控制器消除跟踪误差,提高了吊车系统镇定的精度问题,并配合扰动观测补偿,降低了系统的模型依赖性。由于吊车系统在运行过程中,不可避免的受到各种内部不确定性和外部干扰的影响,而扰动观测补偿策略恰好可以有效解决这些问题。在此基础上,在控制跟踪误差消除的过程中,融入强化学习智能控制机制,解决了吊车系统跟踪控制的反馈误差消除问题,提高了控制精度。本实施例设计的控制方法实现了对欠驱动吊车系统的稳定跟踪控制,降低了模型依赖性,并可实现不确定性和扰动的抑制。通过对模型重构,基于选取等效状态变量设计的有限时间扩张状态观测器能够使得滑模面和观测误差在有限时间内收敛到零,有效抑制外部扰动,无需建立模型也可以对摩擦进行直接观测和补偿,并引入强化学习方法进行跟踪误差优化消除。不仅适用于欠驱动吊车系统,在对本实施例的控制方法的公式作适当推广、变形的情况下,本实施例方法还适用于其他类两自由度欠驱动机械系统。
实施例2:
本实施例用于提供一种欠驱动吊车系统的控制系统,参见图6,所述控制系统包括:
观测模块M1,用于利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动;
处理模块M2,用于利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律;
计算模块M3,用于根据所述虚拟控制律和所述总扰动计算实际控制律;
控制模块M4,用于利用所述实际控制律对所述吊车系统进行控制。
所述控制系统还包括建立模块,具体包括:
建立单元,用于建立所述吊车系统的数学模型;
等效单元,用于选取所述吊车系统的等效被控变量,将所述数学模型转化为等效模型;
扩张单元,用于对所述吊车系统的状态进行扩张,将所述等效模型转化为扰动模型;
获取单元,用于根据所述扰动模型建立扰动观测器。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.一种欠驱动吊车系统的控制方法,其特征在于,所述控制方法包括如下步骤:
建立扰动观测器,具体包括:建立吊车系统的数学模型;选取所述吊车系统的等效被控变量,将所述数学模型转化为等效模型;对所述吊车系统的状态进行扩张,将所述等效模型转化为扰动模型;根据所述扰动模型建立扰动观测器;所述等效被控变量为:
Figure FDA0003722055990000011
其中,xΔ为所述等效被控变量;x为所述吊车系统中的导轨车位置,kα为可调参数;θ为所述吊车系统中负载的摆动角度;τ为积分变量;
所述扰动观测器为:
Figure FDA0003722055990000012
其中,zi(i=1,2,3)分别为xΔi(i=1,2,3)的估计值;
Figure FDA0003722055990000013
f=xΔ3;f为总扰动;e1=xΔ1-z1,e2=xΔ2-z2,σ=c1e1+e2;γ为可调参数且0<γ<1;c1>0和ki(i=1,2,3,4,5)>0均为观测器可调增益;b为预设系数;u为实际控制律;
所述扰动观测器的观测误差动态为:
Figure FDA0003722055990000014
其中,
Figure FDA0003722055990000015
e3=f-z3
利用所述扰动观测器对所述吊车系统进行观测,得到系统状态和总扰动;
将所述吊车系统的预设控制目标与所述系统状态进行做差,得到第一差值;以所述第一差值作为输入,利用强化学习控制器计算虚拟控制律;所述第一差值包括:e=xΔr-z1
Figure FDA0003722055990000016
其中,xΔr为所述预设控制目标;z1和z2为所述系统状态,分别为xΔ1和xΔ2的估计值;基于深度确定性策略梯度算法设计所述强化学习控制器,所述强化学习控制器包括online动作网络,online评价网络,目标动作网络和目标评价网络;
将所述虚拟控制律与所述总扰动进行做差,得到第二差值;计算所述第二差值与所述预设系数之间的比值,得到所述实际控制律;所述预设系数
Figure FDA0003722055990000021
其中,mt,mp,lp分别为导轨车质量,负载质量和连接绳长度;
利用所述实际控制律对所述吊车系统进行控制。
2.根据权利要求1所述的控制方法,其特征在于,所述吊车系统的数学模型为:
Figure FDA0003722055990000022
其中,q=[x,θ]T为状态矢量,x为所述吊车系统中的导轨车位置,θ为所述吊车系统中负载的摆动角度;
Moc(q)∈为惯性矩阵;
Figure FDA0003722055990000023
为科里奥利力矩阵;G(q)为重力矢量;U为增广控制矢量。
3.根据权利要求1所述的控制方法,其特征在于,所述控制方法还包括对所述强化学习控制器进行训练,训练过程具体包括:
利用所述扰动观测器对所述吊车系统进行观测,得到训练系统状态和训练总扰动;将所述吊车系统的预设控制目标与所述训练系统状态进行做差,得到训练状态;
以所述训练状态作为输入,利用所述online动作网络计算训练虚拟控制律;
根据所述训练虚拟控制律和所述训练总扰动,得到训练实际控制律;利用所述训练实际控制律对所述吊车系统进行控制,得到奖励值和下一时刻的训练状态;
根据所述训练状态、所述训练虚拟控制律、所述奖励值和所述下一时刻的训练状态,对所述online评价网络进行更新,得到更新后的online评价网络;
根据所述训练状态、所述训练虚拟控制律和所述更新后的online评价网络对所述online动作网络进行更新,得到更新后的online动作网络;
根据所述更新后的online评价网络对所述目标评价网络进行更新,得到更新后的目标评价网络;
根据所述更新后的online动作网络对所述目标动作网络进行更新,得到更新后的目标动作网络;
以所述下一时刻的训练状态作为下一轮的训练状态,分别以所述更新后的online评价网络、所述更新后的online动作网络、所述更新后的目标评价网络和所述更新后的目标动作网络作为下一轮的online评价网络、online动作网络、目标评价网络和目标动作网络,返回“以所述训练状态作为输入,利用所述online动作网络计算训练虚拟控制律”的步骤进行迭代,直至所述深度确定性策略梯度算法收敛,得到强化学习控制器。
4.根据权利要求1所述的控制方法,其特征在于,所述控制方法还包括对所述扰动观测器进行稳定性分析,具体包括:
分别计算滑模面与所述扰动观测器对总扰动的观测误差的微分;
根据所述滑模面的微分和所述观测误差的微分选取第一李亚普诺夫函数;
对所述第一李亚普诺夫函数进行求解,得到第一求解结果;
根据所述第一求解结果确定所述滑模面的收敛性,得到第一收敛性判断结果;
根据所述第一收敛性判断结果选取第二李亚普诺夫函数;
对所述第二李亚普诺夫函数进行求解,得到第二求解结果;
根据所述第二求解结果确定所述扰动观测器对导轨车位置的观测误差的收敛性,得到第二收敛性判断结果。
5.一种欠驱动吊车系统的控制系统,其特征在于,所述控制系统包括:
建立模块,具体包括:
建立单元,用于建立吊车系统的数学模型;
等效单元,用于选取所述吊车系统的等效被控变量,将所述数学模型转化为等效模型;所述等效被控变量为:
Figure FDA0003722055990000031
其中,xΔ为所述等效被控变量;x为所述吊车系统中的导轨车位置,kα为可调参数;θ为所述吊车系统中负载的摆动角度;τ为积分变量;
扩张单元,用于对所述吊车系统的状态进行扩张,将所述等效模型转化为扰动模型;
获取单元,用于根据所述扰动模型建立扰动观测器;
所述扰动观测器为:
Figure FDA0003722055990000032
其中,zi(i=1,2,3)分别为xΔi(i=1,2,3)的估计值;
Figure FDA0003722055990000033
f=xΔ3;f为总扰动;e1=xΔ1-z1,e2=xΔ2-z2,σ=c1e1+e2;γ为可调参数且0<γ<1;c1>0和ki(i=1,2,3,4,5)>0均为观测器可调增益;b为预设系数;u为实际控制律;
所述扰动观测器的观测误差动态为:
Figure FDA0003722055990000041
其中,
Figure FDA0003722055990000042
e3=f-z3
观测模块,用于利用所述扰动观测器对所述吊车系统进行观测,得到系统状态和总扰动;
处理模块,用于将所述吊车系统的预设控制目标与所述系统状态进行做差,得到第一差值;以所述第一差值作为输入,利用强化学习控制器计算虚拟控制律;所述第一差值包括:e=xΔr-z1
Figure FDA0003722055990000043
其中,xΔr为所述预设控制目标;z1和z2为所述系统状态,分别为xΔ1和xΔ2的估计值;基于深度确定性策略梯度算法设计所述强化学习控制器,所述强化学习控制器包括online动作网络,online评价网络,目标动作网络和目标评价网络;
计算模块,用于将所述虚拟控制律与所述总扰动进行做差,得到第二差值;计算所述第二差值与所述预设系数之间的比值,得到所述实际控制律;所述预设系数
Figure FDA0003722055990000044
其中,mt,mp,lp分别为导轨车质量,负载质量和连接绳长度;
控制模块,用于利用所述实际控制律对所述吊车系统进行控制。
CN202110465965.8A 2021-04-28 2021-04-28 一种欠驱动吊车系统的控制方法及控制系统 Active CN113126502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110465965.8A CN113126502B (zh) 2021-04-28 2021-04-28 一种欠驱动吊车系统的控制方法及控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110465965.8A CN113126502B (zh) 2021-04-28 2021-04-28 一种欠驱动吊车系统的控制方法及控制系统

Publications (2)

Publication Number Publication Date
CN113126502A CN113126502A (zh) 2021-07-16
CN113126502B true CN113126502B (zh) 2022-11-08

Family

ID=76781576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110465965.8A Active CN113126502B (zh) 2021-04-28 2021-04-28 一种欠驱动吊车系统的控制方法及控制系统

Country Status (1)

Country Link
CN (1) CN113126502B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000009A (zh) * 2020-07-27 2020-11-27 南京理工大学 一种基于状态与扰动估计的物料转送器强化学习控制方法
CN112087063A (zh) * 2020-03-25 2020-12-15 中国矿业大学 一种无线电能传输系统的改进型自抗扰控制方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109696830B (zh) * 2019-01-31 2021-12-03 天津大学 小型无人直升机的强化学习自适应控制方法
CN109911773B (zh) * 2019-04-17 2020-09-01 中南大学 一种单参数调整的欠驱动吊车作业全过程自抗扰控制方法
CN110138184A (zh) * 2019-06-26 2019-08-16 哈尔滨工业大学 一种三相功率整流器的自适应控制方法及控制装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112087063A (zh) * 2020-03-25 2020-12-15 中国矿业大学 一种无线电能传输系统的改进型自抗扰控制方法及系统
CN112000009A (zh) * 2020-07-27 2020-11-27 南京理工大学 一种基于状态与扰动估计的物料转送器强化学习控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Active disturbance rejection controller for multi-area interconnected power system based on reinforcement learning;Yuemin Zheng;《Neurocomputing》;20200408;Pages 149-159 *
Maopeng Ran ; Juncheng Li ; Lihua Xie.Reinforcement-Learning-Based Disturbance Rejection Control for Uncertain Nonlinear Systems.《IEEE Transactions on Cybernetics (Early Access)》.2021, *
基于参数学习的船舶航向自抗扰智能控制研究;秦贝贝;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20210315;C036-63 *
欠驱动步行机器人自抗扰控制系统的设计与分析;费蓝冰等;《江苏大学学报(自然科学版)》;20160930(第05期);全文 *

Also Published As

Publication number Publication date
CN113126502A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN106959610B (zh) 桥式吊车系统apd-smc控制器、桥式吊车系统及控制方法
CN108875253B (zh) 基于干扰观测器的欠驱动吊车系统的终端滑模消摆控制方法及系统
CN106444799B (zh) 基于模糊扩张状态观测器和自适应滑模的四旋翼无人机控制方法
CN112817231B (zh) 一种具有强鲁棒性的机械臂高精度跟踪控制方法
CN106938462B (zh) 一种基于自适应pd和模糊逻辑的遥操作双边控制方法
CN106315414B (zh) 基于滑模面的桥式吊车控制方法
CN105152020B (zh) 带有跟踪误差约束的桥式吊车自适应跟踪控制器及方法
CN105600683B (zh) 带初始负载摆角及台车位移的桥式吊车误差跟踪器及方法
CN106249602A (zh) 桥式吊车有限时间轨迹跟踪控制器及其设计方法
CN106647267A (zh) 带有不确定动力学的吊车有限时间轨迹跟踪控制器及方法
CN108549229A (zh) 一种桥式吊车神经网络自适应控制器及其设计方法
CN109132860B (zh) 带负载摆动抑制的三维桥式吊车系统pd-smc控制方法及系统
CN107450326A (zh) 反步有限时间双边遥操作控制方法及计算机可读存储介质
CN108406779A (zh) 一种基于未知输入观测器的机械臂运动控制方法
CN107765548B (zh) 基于双观测器的发射平台高精度运动控制方法
CN113942934B (zh) 基于速度控制的集装箱桥式起重机精准定位及防摇控制方法
Miao et al. Artificial-neural-network-based optimal Smoother design for oscillation suppression control of underactuated overhead cranes with distributed mass beams
CN113126502B (zh) 一种欠驱动吊车系统的控制方法及控制系统
CN116068893A (zh) 一种机械臂自适应分数阶滑模控制方法、设备及介质
CN109814393B (zh) 一种悬吊漂浮物随动系统的降维观测器和控制器设计方法
CN114167725A (zh) 协作机器人轨迹跟踪控制方法及系统
Hsu Adaptive PI Hermite neural control for MIMO uncertain nonlinear systems
Van Doan et al. Robust optimal control for uncertain wheeled mobile robot based on reinforcement learning: ADP approach
Hua et al. Neural network based adaptive feedback control for tower cranes
Heyu et al. Impedance control method with reinforcement learning for dual-arm robot installing slabstone

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant