CN113126502B - 一种欠驱动吊车系统的控制方法及控制系统 - Google Patents
一种欠驱动吊车系统的控制方法及控制系统 Download PDFInfo
- Publication number
- CN113126502B CN113126502B CN202110465965.8A CN202110465965A CN113126502B CN 113126502 B CN113126502 B CN 113126502B CN 202110465965 A CN202110465965 A CN 202110465965A CN 113126502 B CN113126502 B CN 113126502B
- Authority
- CN
- China
- Prior art keywords
- training
- crane system
- disturbance
- state
- control law
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002787 reinforcement Effects 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 57
- 230000009471 action Effects 0.000 claims description 39
- 238000011156 evaluation Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000013178 mathematical model Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000005484 gravity Effects 0.000 claims description 3
- 230000003416 augmentation Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 241000288140 Gruiformes Species 0.000 description 74
- 230000001629 suppression Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 241000124872 Grus grus Species 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000006641 stabilisation Effects 0.000 description 2
- 238000011105 stabilization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B66—HOISTING; LIFTING; HAULING
- B66C—CRANES; LOAD-ENGAGING ELEMENTS OR DEVICES FOR CRANES, CAPSTANS, WINCHES, OR TACKLES
- B66C13/00—Other constructional features or details
- B66C13/16—Applications of indicating, registering, or weighing devices
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B66—HOISTING; LIFTING; HAULING
- B66C—CRANES; LOAD-ENGAGING ELEMENTS OR DEVICES FOR CRANES, CAPSTANS, WINCHES, OR TACKLES
- B66C13/00—Other constructional features or details
- B66C13/18—Control systems or devices
- B66C13/48—Automatic control of crane drives for producing a single or repeated working cycle; Programme control
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Mechanical Engineering (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种欠驱动吊车系统的控制方法及控制系统,先利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动。然后利用强化学习控制器对系统状态进行处理,得到虚拟控制律,并根据虚拟控制律和总扰动计算实际控制律,再利用实际控制律对吊车系统进行控制,能够在控制跟踪误差消除的过程中,融入强化学习智能控制机制,解决了吊车系统跟踪控制的反馈误差消除问题,提高了控制精度。
Description
技术领域
本发明涉及欠驱动吊车系统控制技术领域,特别是涉及一种欠驱动吊车系统的扰动补偿及强化学习控制方法及控制系统。
背景技术
吊车是一种作循环、间歇运动的机械起吊搬运设备,其被广泛应用于各类工业现场,如港口、车间、电力、工地等,在吊装设备、抢险救灾、起重、救援等领域具有显著功能优势。常见的起重机系统根据不同的结构分为多种类型,例如塔式吊车,旋转吊车,桥式吊车等。对于吊车系统,未激活状态通常会导致控制输入的数量少于自由度,这是欠驱动系统的主要特征,即吊车系统具备欠驱动系统的特性。
近年来,吊车的应用广泛受到各个方面的重视。以桥式吊车为例,吊车首先将有效载荷提升到一定的安全高度,将其悬挂在推车上,然后将其水平移动到所需位置的正上方。当有效载荷下降到所需位置时,整个操作过程结束。通常应在推车高速移动期间和结束时保持足够小的振幅摆幅,这决定了整个过程的控制性能。但受欠驱动特性的影响,高速推车调节和摆动衰减相互矛盾。除了欠驱动特性外,模型不确定性,测量噪声和外部干扰也是影响实际应用中桥式吊车系统有效性的常见问题。因此,上述困难给桥式吊车的防摆控制带来了很大的挑战。
常用的吊车控制算法有input shaping-based控制,反步控制,滑模控制等,这些方法虽然能够在一定程度上实现对吊车的跟踪控制以及干扰减弱,但值得指出的是,这些方法都是基于模型的,没有足够的能力来处理参数不确定性和外部干扰,例如摩擦力。
因此,亟需一种能够处理参数不确定性和外部干扰,同时对吊车系统进行控制的控制方法及控制系统。
发明内容
本发明的目的是提供一种欠驱动吊车系统的控制方法及控制系统,能够克服各种内部不确定性和外部干扰的影响,提高对欠驱动吊车系统进行控制的控制精度。
为实现上述目的,本发明提供了如下方案:
一种欠驱动吊车系统的控制方法,所述控制方法包括如下步骤:
利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动;
利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律;
根据所述虚拟控制律和所述总扰动计算实际控制律;
利用所述实际控制律对所述吊车系统进行控制。
一种欠驱动吊车系统的控制系统,所述控制系统包括:
观测模块,用于利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动;
处理模块,用于利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律;
计算模块,用于根据所述虚拟控制律和所述总扰动计算实际控制律;
控制模块,用于利用所述实际控制律对所述吊车系统进行控制。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种欠驱动吊车系统的控制方法及控制系统,先利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动,能够克服内部不确定性和外部干扰的影响,有效解决不确定吊车系统的稳定跟踪和干扰抑制问题。然后利用强化学习控制器对系统状态进行处理,得到虚拟控制律,并根据虚拟控制律和总扰动计算实际控制律,再利用实际控制律对吊车系统进行控制,能够在控制跟踪误差消除的过程中,融入强化学习智能控制机制,解决了吊车系统跟踪控制的反馈误差消除问题,提高了控制精度。本发明所提供的控制方法及控制系统,通过扰动观测器能够使得滑模面和观测误差在有限时间内收敛到零,有效抑制外部扰动,无需建立模型也可以对摩擦进行直接观测和补偿,并引入强化学习方法进行跟踪误差优化消除,能够实现对欠驱动吊车系统的稳定跟踪控制,降低了模型依赖性,并可实现不确定性和扰动的抑制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1所提供的控制方法的方法流程图。
图2为本发明实施例1所提供的控制方法的控制原理图。
图3为本发明实施例1所提供的建立扰动观测器的方法流程图。
图4为本发明实施例1所提供的吊车系统的结构示意图。
图5为本发明实施例1所提供的实验结果图。
图6为本发明实施例2所提供的控制系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种欠驱动吊车系统的控制方法及控制系统,能够克服各种内部不确定性和外部干扰的影响,提高对欠驱动吊车系统进行控制的控制精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
近年来,强化学习已成为人工智能领域的一个重要分支,其在控制设计中的应用已成为一个热门问题,这在机器人系统的自治方面显示了良好的应用前景。深度确定性策略梯度算法是一种高级的,无需模型的,脱离策略的深度强化学习算法,它使用深度函数逼近器,可以学习高维连续动作空间中的策略。深度确定性策略梯度算法是在确定性策略梯度算法的基础上,基于动作-评价机制和深度Q学习算法开发的,已被广泛用于设计各种控制器。尽管深度确定性策略梯度算法可以实现良好的控制性能,但仍可以通过结合其他控制技术来提高其处理未知干扰的能力。扰动观测器是一种在控制器设计过程中抑制干扰的有效技术。而且,对于一个真实的系统,不确定性也可以归类为干扰的一部分,而干扰补偿是一种有效抑制方法。于是,充分利用强化学习控制的智能优势,进一步发展和推广非线性欠驱动系统的扰动观测补偿理论,并且将该理论应用到欠驱动吊车系统的镇定控制和干扰抑制问题中,具有重要的理论意义和实际应用价值。
基于上述内容,本实施例用于提供一种欠驱动吊车系统的控制方法,如图1和图2所示,所述控制方法包括如下步骤:
S1:利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动;
为了实现观测的功能,本实施例的控制方法还包括建立扰动观测器,如图3所示,可以包括:
S11:建立所述吊车系统的数学模型;
如图4所示,其给出了欠驱动吊车系统的结构示意图。基于这一欠驱动吊车系统,所建立的数学模型为:
式1中,q=[x,θ]T为状态矢量,x为吊车系统中可直接驱动的导轨车的位置,θ为吊车系统中间接驱动的负载的摆动角度。q是随时间变化的矢量,故可记为:q(t)=[x(t),θ(t)]T∈∈R2。
各个状态矢量矩阵的具体表达形式分别为:
G(q)=[0 mpglpsinθ]T,U=[u+d 0]T. (2)
式2中,mt,mp,lp,g分别为导轨车质量,负载质量,连接绳长度以及重力加速度;d为吊车系统的外部扰动,包括摩檫力、参数不确定性以及未建模动态,d是一个随时间变化的量,可记为d(t);u为实际控制律。
S12:选取所述吊车系统的等效被控变量,将所述数学模型转化为等效模型;
分别将各个状态矢量矩阵的具体表达形式(式2)代入式1中,将所建立的欠驱动吊车系统的数学模型进行展开,得到:
式4中,第一中间变量fm(θ)=mtlp+mplpsin2θ。
在式4中,欠驱动吊车系统的待控制量有两个,分别是x和θ。此时,控制过程非常繁琐,且不易实现。基于此,可重新选取等效被控变量xΔ为:
式5中,kα为可调参数;τ为积分变量。
式6中,xΔ1和xΔ2均为系统状态,式6即为转化得到的等效模型。
S13:对所述吊车系统的状态进行扩张,将所述等效模型转化为扰动模型;
欠驱动吊车的扰动观测器及强化学习控制器设计分为两步:第一步,通过扩张状态将问题转化为总扰动估计补偿问题,并通过设计相应的有限时间观测器(扰动观测器)完成估计补偿。第二步,设计强化学习控制器,处理反馈误差的消除问题。根据这种框架,设计扰动观测器过程如下:
则式6所示的等效模型可以描述为:
式8所示即为转化得到的扰动模型。
S14:根据所述扰动模型建立扰动观测器。
基于式8所示的扰动模型,设计相应的有限时间扩张状态观测器,所得到的扰动观测器为:
式9中,zi(i=1,2,3)分别为xΔi(i=1,2,3)的估计值;
e1=xΔ1-z1,e2=xΔ2-z2,σ=c1e1+e2;γ为可调参数且0<γ<1;
c1>0和ki(i=1,2,3,4,5)>0均为观测器可调增益。
那么,扰动观测器的观测误差动态可表达为:
式10中,e3=f-z3表示总扰动的观测误差。
进而可基于所建立的扰动观测器来对吊车系统的系统状态xΔ1和xΔ2以及总扰动f进行观测,得到z1、z2和z3。
S2:利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律;
本实施例基于深度确定性策略梯度算法(Deep Deterministic PolicyGradient,DDPG)设计强化学习控制器,其算法的参数更新思想通过借鉴深度Q网络(Deep QNetwork,DQN)中的双网络延时更新和经验回放机制来切断数据相关性。
所述控制方法还包括对强化学习控制器进行训练,强化学习控制器包括online动作网络,online评价网络,目标动作网络和目标评价网络。训练过程具体包括:
1)利用扰动观测器对吊车系统进行观测,得到训练系统状态和训练总扰动。将吊车系统的预设控制目标与训练系统状态进行做差,得到训练状态。
具体的,设定xΔr为欠驱动吊车系统的预设控制目标,具体可表达为:其中,xd为导轨车的预设位置。则可定义ez1=xΔr-z1和将ez1和ez2作为online动作网络的输入,即训练过程中的训练状态s=(ez1,ez2)。
初始化online动作网络的网络参数Θμ和online评价网络的网络参数ΘQ,同时将网络参数Θμ和ΘQ对应拷贝给目标动作网络的参数Θμ′和目标评价网络的参数ΘQ′,并初始化经验池参数R;
2)以训练状态作为输入,利用online动作网络计算训练虚拟控制律;
在第k时刻,online动作网络根据输入的当前训练状态sk=(ez1k,ez2k),选择一个当前时刻的动作ak=μ(sk|Θμ)=u0k(u0k表示当前时刻的训练虚拟控制律)。
3)根据训练虚拟控制律和训练总扰动,得到训练实际控制律。利用训练实际控制律对吊车系统进行控制,得到奖励值和下一时刻的训练状态。
具体的,将训练虚拟控制律与训练总扰动进行做差,再计算二者的差值与预设系数b之间的比值,得到训练实际控制律。吊车系统根据当前时刻执行的动作ak=u0k返回奖励值rk和下一时刻的训练状态sk+1=(ez1k+1,ez2k+1),并将数据存储在经验池中。
4)根据训练状态、训练虚拟控制律、奖励值和下一时刻的训练状态,对online评价网络进行更新,得到更新后的online评价网络;
具体的,将sk=(ez1k,ez2k)和ak=u0k共同输入到online评价网络。同时online评价网络计算Q(sk,ak|ΘQ)的值,并通过最小化损失函数L(ΘQ)来判断当前动作ak=μ(sk|Θμ)=u0k的优劣,并更新网络参数ΘQ。损失函数L(ΘQ)为:
式11中,yk=rk+γQ′(sk+1,ak+1|ΘQ′)=rk+γQ′(sk+1,μ′(sk+1|Θμ′)|ΘQ′),是通过目标动作网络和目标评价网络进行计算更新的,γ为折扣因子且0≤γ≤1。
5)根据训练状态、训练虚拟控制律和更新后的online评价网络对online动作网络进行更新,得到更新后的online动作网络;
online动作网络的参数通过采用策略梯度进行更新,具体如下:
6)根据更新后的online评价网络对目标评价网络进行更新,得到更新后的目标评价网络;根据更新后的online动作网络对目标动作网络进行更新,得到更新后的目标动作网络;
目标动作网络的参数Θμ′和目标评价网络的参数ΘQ′通过如下规则进行更新:
式13中,τ为更新系数,一般取值较小,为0.01或0.001。
7)以下一时刻的训练状态作为下一轮的训练状态,分别以更新后的online评价网络、更新后的online动作网络、更新后的目标评价网络和更新后的目标动作网络作为下一轮的online评价网络、online动作网络、目标评价网络和目标动作网络,返回“以所述训练状态作为输入,利用所述online动作网络计算训练虚拟控制律”的步骤进行迭代,直至所述深度确定性策略梯度算法收敛,得到强化学习控制器。
当整个深度确定性策略梯度算法框架的学习训练达到收敛时,结束迭代。
在对强化学习控制器训练完成后,S2可以包括:
将吊车系统的预设控制目标与系统状态进行做差,得到第一差值,第一差值为:e=xΔr-z1和以第一差值作为输入,利用强化学习控制器计算虚拟控制律,具体利用online动作网络根据第一差值计算虚拟控制律u0。
S3:根据所述虚拟控制律和所述总扰动计算实际控制律;
具体的,将虚拟控制律与总扰动进行做差,得到第二差值,计算第二差值与预设系数之间的比值,得到实际控制律。
实际控制律u的表达式为:
S4:利用所述实际控制律对所述吊车系统进行控制。
作为一种可选的实施方式,本实施例的控制方法还包括对扰动观测器进行稳定性分析,具体包括:
对于所设计的有限时间扩张状态观测器(扰动观测器),假设总扰动微分h满足在域Dx内,且其二范数||h||2≤Lh,Lh为利普希兹常数且Lh>0,在满足这一假设的情况下,观测误差在有限时间内趋于零,且借助提出的扰动观测器和深度强化学习控制器,吊车的状态可以渐近收敛至设计的平衡点。
证明过程如下:
1)分别计算滑模面与所述扰动观测器对总扰动的观测误差的微分;
对σ进行微分可得:
那关于σ和e3的微分表达式可以描述为
2)根据所述滑模面的微分和所述观测误差的微分选取第一李亚普诺夫函数;
为分析式16中σ和e3的收敛性,选取第一李亚普诺夫函数为:
3)对所述第一李亚普诺夫函数进行求解,得到第一求解结果;
式18中,
为了完成证明,作如下定义
若合适选择ki(i=1,2,3,4,5),满足
Ω1-Δ1>0,Ω2-Δ2>0,
则可得
此外,有λmin(P)||ξ||2≤Vσ≤λmax(P)||ξ||2,且|σ|≤||ξ||2,其中,λmin(max)(P)表示矩阵P的最小或最大特征值,则可得
4)根据所述第一求解结果确定所述滑模面的收敛性,得到第一收敛性判断结果;
式21表明所设计的滑模面能够在有限时间内收敛到零,且收敛时间T1满足:
5)根据所述第一收敛性判断结果选取第二李亚普诺夫函数;
由式22可知,当t≥T1时,有σ=0,则可得
σ=c1e1+e2=0→e2=-c1e1 (23)
将式23代入观测误差表达式(式10),可得
6)对所述第二李亚普诺夫函数进行求解,得到第二求解结果;
7)根据所述第二求解结果确定所述扰动观测器对导轨车位置的观测误差的收敛性,得到第二收敛性判断结果。
式25表明观测误差e1能够在T2后收敛到零,且T2满足:
将式27代入重新表达的吊车系统,可得
Γ={(θ1,θ2):θ1=0,θ2=0}. (30)
表明xΔ→x,因此所设定位置调节能够通过所提控制策略实现。图5所示的实验结果图同样证明了本实施例所用控制方法的有效性。
本实施例针对欠驱动吊车系统的镇定和扰动抑制问题,考虑扰动观测器是解决不确定系统干扰抑制问题的有效工具,而强化学习方法能够提高控制的鲁棒性。由于吊车系统不可避免的受到负载振荡问题的影响,而且由于系统特性常常涉及欠驱动控制设计问题,而通过变量等效变化以及扰动观测器的使用,恰好可以解决这些问题。使用强化学习方法设计控制器消除跟踪误差,提高了吊车系统镇定的精度问题,并配合扰动观测补偿,降低了系统的模型依赖性。由于吊车系统在运行过程中,不可避免的受到各种内部不确定性和外部干扰的影响,而扰动观测补偿策略恰好可以有效解决这些问题。在此基础上,在控制跟踪误差消除的过程中,融入强化学习智能控制机制,解决了吊车系统跟踪控制的反馈误差消除问题,提高了控制精度。本实施例设计的控制方法实现了对欠驱动吊车系统的稳定跟踪控制,降低了模型依赖性,并可实现不确定性和扰动的抑制。通过对模型重构,基于选取等效状态变量设计的有限时间扩张状态观测器能够使得滑模面和观测误差在有限时间内收敛到零,有效抑制外部扰动,无需建立模型也可以对摩擦进行直接观测和补偿,并引入强化学习方法进行跟踪误差优化消除。不仅适用于欠驱动吊车系统,在对本实施例的控制方法的公式作适当推广、变形的情况下,本实施例方法还适用于其他类两自由度欠驱动机械系统。
实施例2:
本实施例用于提供一种欠驱动吊车系统的控制系统,参见图6,所述控制系统包括:
观测模块M1,用于利用扰动观测器对吊车系统进行观测,得到系统状态和总扰动;
处理模块M2,用于利用强化学习控制器对所述系统状态进行处理,得到虚拟控制律;
计算模块M3,用于根据所述虚拟控制律和所述总扰动计算实际控制律;
控制模块M4,用于利用所述实际控制律对所述吊车系统进行控制。
所述控制系统还包括建立模块,具体包括:
建立单元,用于建立所述吊车系统的数学模型;
等效单元,用于选取所述吊车系统的等效被控变量,将所述数学模型转化为等效模型;
扩张单元,用于对所述吊车系统的状态进行扩张,将所述等效模型转化为扰动模型;
获取单元,用于根据所述扰动模型建立扰动观测器。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (5)
1.一种欠驱动吊车系统的控制方法,其特征在于,所述控制方法包括如下步骤:
建立扰动观测器,具体包括:建立吊车系统的数学模型;选取所述吊车系统的等效被控变量,将所述数学模型转化为等效模型;对所述吊车系统的状态进行扩张,将所述等效模型转化为扰动模型;根据所述扰动模型建立扰动观测器;所述等效被控变量为:其中,xΔ为所述等效被控变量;x为所述吊车系统中的导轨车位置,kα为可调参数;θ为所述吊车系统中负载的摆动角度;τ为积分变量;
所述扰动观测器为:
其中,zi(i=1,2,3)分别为xΔi(i=1,2,3)的估计值;f=xΔ3;f为总扰动;e1=xΔ1-z1,e2=xΔ2-z2,σ=c1e1+e2;γ为可调参数且0<γ<1;c1>0和ki(i=1,2,3,4,5)>0均为观测器可调增益;b为预设系数;u为实际控制律;
所述扰动观测器的观测误差动态为:
利用所述扰动观测器对所述吊车系统进行观测,得到系统状态和总扰动;
将所述吊车系统的预设控制目标与所述系统状态进行做差,得到第一差值;以所述第一差值作为输入,利用强化学习控制器计算虚拟控制律;所述第一差值包括:e=xΔr-z1和其中,xΔr为所述预设控制目标;z1和z2为所述系统状态,分别为xΔ1和xΔ2的估计值;基于深度确定性策略梯度算法设计所述强化学习控制器,所述强化学习控制器包括online动作网络,online评价网络,目标动作网络和目标评价网络;
利用所述实际控制律对所述吊车系统进行控制。
3.根据权利要求1所述的控制方法,其特征在于,所述控制方法还包括对所述强化学习控制器进行训练,训练过程具体包括:
利用所述扰动观测器对所述吊车系统进行观测,得到训练系统状态和训练总扰动;将所述吊车系统的预设控制目标与所述训练系统状态进行做差,得到训练状态;
以所述训练状态作为输入,利用所述online动作网络计算训练虚拟控制律;
根据所述训练虚拟控制律和所述训练总扰动,得到训练实际控制律;利用所述训练实际控制律对所述吊车系统进行控制,得到奖励值和下一时刻的训练状态;
根据所述训练状态、所述训练虚拟控制律、所述奖励值和所述下一时刻的训练状态,对所述online评价网络进行更新,得到更新后的online评价网络;
根据所述训练状态、所述训练虚拟控制律和所述更新后的online评价网络对所述online动作网络进行更新,得到更新后的online动作网络;
根据所述更新后的online评价网络对所述目标评价网络进行更新,得到更新后的目标评价网络;
根据所述更新后的online动作网络对所述目标动作网络进行更新,得到更新后的目标动作网络;
以所述下一时刻的训练状态作为下一轮的训练状态,分别以所述更新后的online评价网络、所述更新后的online动作网络、所述更新后的目标评价网络和所述更新后的目标动作网络作为下一轮的online评价网络、online动作网络、目标评价网络和目标动作网络,返回“以所述训练状态作为输入,利用所述online动作网络计算训练虚拟控制律”的步骤进行迭代,直至所述深度确定性策略梯度算法收敛,得到强化学习控制器。
4.根据权利要求1所述的控制方法,其特征在于,所述控制方法还包括对所述扰动观测器进行稳定性分析,具体包括:
分别计算滑模面与所述扰动观测器对总扰动的观测误差的微分;
根据所述滑模面的微分和所述观测误差的微分选取第一李亚普诺夫函数;
对所述第一李亚普诺夫函数进行求解,得到第一求解结果;
根据所述第一求解结果确定所述滑模面的收敛性,得到第一收敛性判断结果;
根据所述第一收敛性判断结果选取第二李亚普诺夫函数;
对所述第二李亚普诺夫函数进行求解,得到第二求解结果;
根据所述第二求解结果确定所述扰动观测器对导轨车位置的观测误差的收敛性,得到第二收敛性判断结果。
5.一种欠驱动吊车系统的控制系统,其特征在于,所述控制系统包括:
建立模块,具体包括:
建立单元,用于建立吊车系统的数学模型;
等效单元,用于选取所述吊车系统的等效被控变量,将所述数学模型转化为等效模型;所述等效被控变量为:其中,xΔ为所述等效被控变量;x为所述吊车系统中的导轨车位置,kα为可调参数;θ为所述吊车系统中负载的摆动角度;τ为积分变量;
扩张单元,用于对所述吊车系统的状态进行扩张,将所述等效模型转化为扰动模型;
获取单元,用于根据所述扰动模型建立扰动观测器;
所述扰动观测器为:
其中,zi(i=1,2,3)分别为xΔi(i=1,2,3)的估计值;f=xΔ3;f为总扰动;e1=xΔ1-z1,e2=xΔ2-z2,σ=c1e1+e2;γ为可调参数且0<γ<1;c1>0和ki(i=1,2,3,4,5)>0均为观测器可调增益;b为预设系数;u为实际控制律;
所述扰动观测器的观测误差动态为:
观测模块,用于利用所述扰动观测器对所述吊车系统进行观测,得到系统状态和总扰动;
处理模块,用于将所述吊车系统的预设控制目标与所述系统状态进行做差,得到第一差值;以所述第一差值作为输入,利用强化学习控制器计算虚拟控制律;所述第一差值包括:e=xΔr-z1和其中,xΔr为所述预设控制目标;z1和z2为所述系统状态,分别为xΔ1和xΔ2的估计值;基于深度确定性策略梯度算法设计所述强化学习控制器,所述强化学习控制器包括online动作网络,online评价网络,目标动作网络和目标评价网络;
计算模块,用于将所述虚拟控制律与所述总扰动进行做差,得到第二差值;计算所述第二差值与所述预设系数之间的比值,得到所述实际控制律;所述预设系数其中,mt,mp,lp分别为导轨车质量,负载质量和连接绳长度;
控制模块,用于利用所述实际控制律对所述吊车系统进行控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110465965.8A CN113126502B (zh) | 2021-04-28 | 2021-04-28 | 一种欠驱动吊车系统的控制方法及控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110465965.8A CN113126502B (zh) | 2021-04-28 | 2021-04-28 | 一种欠驱动吊车系统的控制方法及控制系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113126502A CN113126502A (zh) | 2021-07-16 |
CN113126502B true CN113126502B (zh) | 2022-11-08 |
Family
ID=76781576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110465965.8A Active CN113126502B (zh) | 2021-04-28 | 2021-04-28 | 一种欠驱动吊车系统的控制方法及控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113126502B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000009A (zh) * | 2020-07-27 | 2020-11-27 | 南京理工大学 | 一种基于状态与扰动估计的物料转送器强化学习控制方法 |
CN112087063A (zh) * | 2020-03-25 | 2020-12-15 | 中国矿业大学 | 一种无线电能传输系统的改进型自抗扰控制方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109696830B (zh) * | 2019-01-31 | 2021-12-03 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN109911773B (zh) * | 2019-04-17 | 2020-09-01 | 中南大学 | 一种单参数调整的欠驱动吊车作业全过程自抗扰控制方法 |
CN110138184A (zh) * | 2019-06-26 | 2019-08-16 | 哈尔滨工业大学 | 一种三相功率整流器的自适应控制方法及控制装置 |
-
2021
- 2021-04-28 CN CN202110465965.8A patent/CN113126502B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112087063A (zh) * | 2020-03-25 | 2020-12-15 | 中国矿业大学 | 一种无线电能传输系统的改进型自抗扰控制方法及系统 |
CN112000009A (zh) * | 2020-07-27 | 2020-11-27 | 南京理工大学 | 一种基于状态与扰动估计的物料转送器强化学习控制方法 |
Non-Patent Citations (4)
Title |
---|
Active disturbance rejection controller for multi-area interconnected power system based on reinforcement learning;Yuemin Zheng;《Neurocomputing》;20200408;Pages 149-159 * |
Maopeng Ran ; Juncheng Li ; Lihua Xie.Reinforcement-Learning-Based Disturbance Rejection Control for Uncertain Nonlinear Systems.《IEEE Transactions on Cybernetics (Early Access)》.2021, * |
基于参数学习的船舶航向自抗扰智能控制研究;秦贝贝;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20210315;C036-63 * |
欠驱动步行机器人自抗扰控制系统的设计与分析;费蓝冰等;《江苏大学学报(自然科学版)》;20160930(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113126502A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106959610B (zh) | 桥式吊车系统apd-smc控制器、桥式吊车系统及控制方法 | |
CN108875253B (zh) | 基于干扰观测器的欠驱动吊车系统的终端滑模消摆控制方法及系统 | |
CN106444799B (zh) | 基于模糊扩张状态观测器和自适应滑模的四旋翼无人机控制方法 | |
CN112817231B (zh) | 一种具有强鲁棒性的机械臂高精度跟踪控制方法 | |
CN106938462B (zh) | 一种基于自适应pd和模糊逻辑的遥操作双边控制方法 | |
CN106315414B (zh) | 基于滑模面的桥式吊车控制方法 | |
CN105152020B (zh) | 带有跟踪误差约束的桥式吊车自适应跟踪控制器及方法 | |
CN105600683B (zh) | 带初始负载摆角及台车位移的桥式吊车误差跟踪器及方法 | |
CN106249602A (zh) | 桥式吊车有限时间轨迹跟踪控制器及其设计方法 | |
CN106647267A (zh) | 带有不确定动力学的吊车有限时间轨迹跟踪控制器及方法 | |
CN108549229A (zh) | 一种桥式吊车神经网络自适应控制器及其设计方法 | |
CN109132860B (zh) | 带负载摆动抑制的三维桥式吊车系统pd-smc控制方法及系统 | |
CN107450326A (zh) | 反步有限时间双边遥操作控制方法及计算机可读存储介质 | |
CN108406779A (zh) | 一种基于未知输入观测器的机械臂运动控制方法 | |
CN107765548B (zh) | 基于双观测器的发射平台高精度运动控制方法 | |
CN113942934B (zh) | 基于速度控制的集装箱桥式起重机精准定位及防摇控制方法 | |
Miao et al. | Artificial-neural-network-based optimal Smoother design for oscillation suppression control of underactuated overhead cranes with distributed mass beams | |
CN113126502B (zh) | 一种欠驱动吊车系统的控制方法及控制系统 | |
CN116068893A (zh) | 一种机械臂自适应分数阶滑模控制方法、设备及介质 | |
CN109814393B (zh) | 一种悬吊漂浮物随动系统的降维观测器和控制器设计方法 | |
CN114167725A (zh) | 协作机器人轨迹跟踪控制方法及系统 | |
Hsu | Adaptive PI Hermite neural control for MIMO uncertain nonlinear systems | |
Van Doan et al. | Robust optimal control for uncertain wheeled mobile robot based on reinforcement learning: ADP approach | |
Hua et al. | Neural network based adaptive feedback control for tower cranes | |
Heyu et al. | Impedance control method with reinforcement learning for dual-arm robot installing slabstone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |