CN113126502B

CN113126502B - 一种欠驱动吊车系统的控制方法及控制系统

Info

Publication number: CN113126502B
Application number: CN202110465965.8A
Authority: CN
Inventors: 刘俊杰; 高强; 李大华; 吉月辉
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2022-11-08
Anticipated expiration: 2041-04-28
Also published as: CN113126502A

Abstract

本发明涉及一种欠驱动吊车系统的控制方法及控制系统，先利用扰动观测器对吊车系统进行观测，得到系统状态和总扰动。然后利用强化学习控制器对系统状态进行处理，得到虚拟控制律，并根据虚拟控制律和总扰动计算实际控制律，再利用实际控制律对吊车系统进行控制，能够在控制跟踪误差消除的过程中，融入强化学习智能控制机制，解决了吊车系统跟踪控制的反馈误差消除问题，提高了控制精度。

Description

一种欠驱动吊车系统的控制方法及控制系统

技术领域

本发明涉及欠驱动吊车系统控制技术领域，特别是涉及一种欠驱动吊车系统的扰动补偿及强化学习控制方法及控制系统。

背景技术

吊车是一种作循环、间歇运动的机械起吊搬运设备，其被广泛应用于各类工业现场，如港口、车间、电力、工地等，在吊装设备、抢险救灾、起重、救援等领域具有显著功能优势。常见的起重机系统根据不同的结构分为多种类型，例如塔式吊车，旋转吊车，桥式吊车等。对于吊车系统，未激活状态通常会导致控制输入的数量少于自由度，这是欠驱动系统的主要特征，即吊车系统具备欠驱动系统的特性。

近年来，吊车的应用广泛受到各个方面的重视。以桥式吊车为例，吊车首先将有效载荷提升到一定的安全高度，将其悬挂在推车上，然后将其水平移动到所需位置的正上方。当有效载荷下降到所需位置时，整个操作过程结束。通常应在推车高速移动期间和结束时保持足够小的振幅摆幅，这决定了整个过程的控制性能。但受欠驱动特性的影响，高速推车调节和摆动衰减相互矛盾。除了欠驱动特性外，模型不确定性，测量噪声和外部干扰也是影响实际应用中桥式吊车系统有效性的常见问题。因此，上述困难给桥式吊车的防摆控制带来了很大的挑战。

常用的吊车控制算法有input shaping-based控制，反步控制，滑模控制等，这些方法虽然能够在一定程度上实现对吊车的跟踪控制以及干扰减弱，但值得指出的是，这些方法都是基于模型的，没有足够的能力来处理参数不确定性和外部干扰，例如摩擦力。

因此，亟需一种能够处理参数不确定性和外部干扰，同时对吊车系统进行控制的控制方法及控制系统。

发明内容

本发明的目的是提供一种欠驱动吊车系统的控制方法及控制系统，能够克服各种内部不确定性和外部干扰的影响，提高对欠驱动吊车系统进行控制的控制精度。

为实现上述目的，本发明提供了如下方案：

一种欠驱动吊车系统的控制方法，所述控制方法包括如下步骤：

利用扰动观测器对吊车系统进行观测，得到系统状态和总扰动；

利用强化学习控制器对所述系统状态进行处理，得到虚拟控制律；

根据所述虚拟控制律和所述总扰动计算实际控制律；

利用所述实际控制律对所述吊车系统进行控制。

一种欠驱动吊车系统的控制系统，所述控制系统包括：

观测模块，用于利用扰动观测器对吊车系统进行观测，得到系统状态和总扰动；

处理模块，用于利用强化学习控制器对所述系统状态进行处理，得到虚拟控制律；

计算模块，用于根据所述虚拟控制律和所述总扰动计算实际控制律；

控制模块，用于利用所述实际控制律对所述吊车系统进行控制。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种欠驱动吊车系统的控制方法及控制系统，先利用扰动观测器对吊车系统进行观测，得到系统状态和总扰动，能够克服内部不确定性和外部干扰的影响，有效解决不确定吊车系统的稳定跟踪和干扰抑制问题。然后利用强化学习控制器对系统状态进行处理，得到虚拟控制律，并根据虚拟控制律和总扰动计算实际控制律，再利用实际控制律对吊车系统进行控制，能够在控制跟踪误差消除的过程中，融入强化学习智能控制机制，解决了吊车系统跟踪控制的反馈误差消除问题，提高了控制精度。本发明所提供的控制方法及控制系统，通过扰动观测器能够使得滑模面和观测误差在有限时间内收敛到零，有效抑制外部扰动，无需建立模型也可以对摩擦进行直接观测和补偿，并引入强化学习方法进行跟踪误差优化消除，能够实现对欠驱动吊车系统的稳定跟踪控制，降低了模型依赖性，并可实现不确定性和扰动的抑制。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1所提供的控制方法的方法流程图。

图2为本发明实施例1所提供的控制方法的控制原理图。

图3为本发明实施例1所提供的建立扰动观测器的方法流程图。

图4为本发明实施例1所提供的吊车系统的结构示意图。

图5为本发明实施例1所提供的实验结果图。

图6为本发明实施例2所提供的控制系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

近年来，强化学习已成为人工智能领域的一个重要分支，其在控制设计中的应用已成为一个热门问题，这在机器人系统的自治方面显示了良好的应用前景。深度确定性策略梯度算法是一种高级的，无需模型的，脱离策略的深度强化学习算法，它使用深度函数逼近器，可以学习高维连续动作空间中的策略。深度确定性策略梯度算法是在确定性策略梯度算法的基础上，基于动作-评价机制和深度Q学习算法开发的，已被广泛用于设计各种控制器。尽管深度确定性策略梯度算法可以实现良好的控制性能，但仍可以通过结合其他控制技术来提高其处理未知干扰的能力。扰动观测器是一种在控制器设计过程中抑制干扰的有效技术。而且，对于一个真实的系统，不确定性也可以归类为干扰的一部分，而干扰补偿是一种有效抑制方法。于是，充分利用强化学习控制的智能优势，进一步发展和推广非线性欠驱动系统的扰动观测补偿理论，并且将该理论应用到欠驱动吊车系统的镇定控制和干扰抑制问题中，具有重要的理论意义和实际应用价值。

基于上述内容，本实施例用于提供一种欠驱动吊车系统的控制方法，如图1和图2所示，所述控制方法包括如下步骤：

S1：利用扰动观测器对吊车系统进行观测，得到系统状态和总扰动；

为了实现观测的功能，本实施例的控制方法还包括建立扰动观测器，如图3所示，可以包括：

S11：建立所述吊车系统的数学模型；

如图4所示，其给出了欠驱动吊车系统的结构示意图。基于这一欠驱动吊车系统，所建立的数学模型为：

式1中，q＝[x，θ]^T为状态矢量，x为吊车系统中可直接驱动的导轨车的位置，θ为吊车系统中间接驱动的负载的摆动角度。q是随时间变化的矢量，故可记为：q(t)＝[x(t),θ(t)]^T∈∈R²。

M_oc(q)为惯性矩阵；

为科里奥利力矩阵；G(q)为重力矢量；U为增广控制矢量。

各个状态矢量矩阵的具体表达形式分别为：

G(q)＝[0 m_pgl_psinθ]^T,U＝[u+d 0]^T. (2)

式2中，m_t,m_p,l_p,g分别为导轨车质量，负载质量，连接绳长度以及重力加速度；d为吊车系统的外部扰动，包括摩檫力、参数不确定性以及未建模动态，d是一个随时间变化的量，可记为d(t)；u为实际控制律。

S12：选取所述吊车系统的等效被控变量，将所述数学模型转化为等效模型；

分别将各个状态矢量矩阵的具体表达形式(式2)代入式1中，将所建立的欠驱动吊车系统的数学模型进行展开，得到：

根据式3中的第二个方程，得出

的具体表达式，并将

的具体表达式代入式3中的第一个方程中，将式3进行重新表达，可得：

式4中，第一中间变量f_m(θ)＝m_tl_p+m_pl_psin²θ。

在式4中，欠驱动吊车系统的待控制量有两个，分别是x和θ。此时，控制过程非常繁琐，且不易实现。基于此，可重新选取等效被控变量x_Δ为：

式5中，k_α为可调参数；τ为积分变量。

对式5进行微分求导，并令

可得：

式6中，x_Δ1和x_Δ2均为系统状态，式6即为转化得到的等效模型。

S13：对所述吊车系统的状态进行扩张，将所述等效模型转化为扰动模型；

欠驱动吊车的扰动观测器及强化学习控制器设计分为两步：第一步，通过扩张状态将问题转化为总扰动估计补偿问题，并通过设计相应的有限时间观测器(扰动观测器)完成估计补偿。第二步，设计强化学习控制器，处理反馈误差的消除问题。根据这种框架，设计扰动观测器过程如下：

令预设系数

总扰动

则式6所示的等效模型可以描述为：

定义f＝x_Δ3作为吊车系统新的状态，以对吊车系统的状态进行扩张，且采用

表示其微分，则式7所示的吊车系统可重新描述为：

式8所示即为转化得到的扰动模型。

S14：根据所述扰动模型建立扰动观测器。

基于式8所示的扰动模型，设计相应的有限时间扩张状态观测器，所得到的扰动观测器为：

式9中，z_i(i＝1,2,3)分别为x_Δi(i＝1,2,3)的估计值；

e₁＝x_Δ1-z₁,e₂＝x_Δ2-z₂,σ＝c₁e₁+e₂；γ为可调参数且0＜γ＜1；

c₁＞0和k_i(i＝1,2,3,4,5)＞0均为观测器可调增益。

那么，扰动观测器的观测误差动态可表达为：

式10中，e₃＝f-z₃表示总扰动的观测误差。

进而可基于所建立的扰动观测器来对吊车系统的系统状态x_Δ1和x_Δ2以及总扰动f进行观测，得到z₁、z₂和z₃。

S2：利用强化学习控制器对所述系统状态进行处理，得到虚拟控制律；

本实施例基于深度确定性策略梯度算法(Deep Deterministic PolicyGradient，DDPG)设计强化学习控制器，其算法的参数更新思想通过借鉴深度Q网络(Deep QNetwork，DQN)中的双网络延时更新和经验回放机制来切断数据相关性。

所述控制方法还包括对强化学习控制器进行训练，强化学习控制器包括online动作网络，online评价网络，目标动作网络和目标评价网络。训练过程具体包括：

1)利用扰动观测器对吊车系统进行观测，得到训练系统状态和训练总扰动。将吊车系统的预设控制目标与训练系统状态进行做差，得到训练状态。

具体的，设定x_Δr为欠驱动吊车系统的预设控制目标，具体可表达为：

其中，x_d为导轨车的预设位置。则可定义e_z1＝x_Δr-z₁和

将e_z1和e_z2作为online动作网络的输入，即训练过程中的训练状态s＝(e_z1,e_z2)。

初始化online动作网络的网络参数Θ^μ和online评价网络的网络参数Θ^Q，同时将网络参数Θ^μ和Θ^Q对应拷贝给目标动作网络的参数Θ^μ′和目标评价网络的参数Θ^Q′，并初始化经验池参数R；

2)以训练状态作为输入，利用online动作网络计算训练虚拟控制律；

在第k时刻，online动作网络根据输入的当前训练状态s_k＝(e_z1k,e_z2k)，选择一个当前时刻的动作a_k＝μ(s_k|Θ^μ)＝u_0k(u_0k表示当前时刻的训练虚拟控制律)。

3)根据训练虚拟控制律和训练总扰动，得到训练实际控制律。利用训练实际控制律对吊车系统进行控制，得到奖励值和下一时刻的训练状态。

具体的，将训练虚拟控制律与训练总扰动进行做差，再计算二者的差值与预设系数b之间的比值，得到训练实际控制律。吊车系统根据当前时刻执行的动作a_k＝u_0k返回奖励值r_k和下一时刻的训练状态s_k+1＝(e_z1k+1,e_z2k+1)，并将数据存储在经验池中。

4)根据训练状态、训练虚拟控制律、奖励值和下一时刻的训练状态，对online评价网络进行更新，得到更新后的online评价网络；

具体的，将s_k＝(e_z1k,e_z2k)和a_k＝u_0k共同输入到online评价网络。同时online评价网络计算Q(s_k,a_k|Θ^Q)的值，并通过最小化损失函数L(Θ^Q)来判断当前动作a_k＝μ(s_k|Θ^μ)＝u_0k的优劣，并更新网络参数Θ^Q。损失函数L(Θ^Q)为：

式11中，y_k＝r_k+γQ′(s_k+1,a_k+1|Θ^Q′)＝r_k+γQ′(s_k+1,μ′(s_k+1|Θ^μ′)|Θ^Q′)，是通过目标动作网络和目标评价网络进行计算更新的，γ为折扣因子且0≤γ≤1。

5)根据训练状态、训练虚拟控制律和更新后的online评价网络对online动作网络进行更新，得到更新后的online动作网络；

online动作网络的参数通过采用策略梯度进行更新，具体如下：

式12中，

表示梯度；N为训练过程中时刻的总数，k＝1，2，..N。

6)根据更新后的online评价网络对目标评价网络进行更新，得到更新后的目标评价网络；根据更新后的online动作网络对目标动作网络进行更新，得到更新后的目标动作网络；

目标动作网络的参数Θ^μ′和目标评价网络的参数Θ^Q′通过如下规则进行更新：

式13中，τ为更新系数，一般取值较小，为0.01或0.001。

7)以下一时刻的训练状态作为下一轮的训练状态，分别以更新后的online评价网络、更新后的online动作网络、更新后的目标评价网络和更新后的目标动作网络作为下一轮的online评价网络、online动作网络、目标评价网络和目标动作网络，返回“以所述训练状态作为输入，利用所述online动作网络计算训练虚拟控制律”的步骤进行迭代，直至所述深度确定性策略梯度算法收敛，得到强化学习控制器。

当整个深度确定性策略梯度算法框架的学习训练达到收敛时，结束迭代。

在对强化学习控制器训练完成后，S2可以包括：

将吊车系统的预设控制目标与系统状态进行做差，得到第一差值，第一差值为：e＝x_Δr-z₁和

以第一差值作为输入，利用强化学习控制器计算虚拟控制律，具体利用online动作网络根据第一差值计算虚拟控制律u₀。

S3：根据所述虚拟控制律和所述总扰动计算实际控制律；

具体的，将虚拟控制律与总扰动进行做差，得到第二差值，计算第二差值与预设系数之间的比值，得到实际控制律。

实际控制律u的表达式为：

式14中，f为总扰动；b为预设系数，

S4：利用所述实际控制律对所述吊车系统进行控制。

作为一种可选的实施方式，本实施例的控制方法还包括对扰动观测器进行稳定性分析，具体包括：

对于所设计的有限时间扩张状态观测器(扰动观测器)，假设总扰动微分h满足在域D_x内，且其二范数||h||₂≤L_h，L_h为利普希兹常数且L_h＞0，在满足这一假设的情况下，观测误差在有限时间内趋于零，且借助提出的扰动观测器和深度强化学习控制器，吊车的状态可以渐近收敛至设计的平衡点。

证明过程如下：

1)分别计算滑模面与所述扰动观测器对总扰动的观测误差的微分；

对σ进行微分可得：

那关于σ和e₃的微分表达式可以描述为

2)根据所述滑模面的微分和所述观测误差的微分选取第一李亚普诺夫函数；

为分析式16中σ和e₃的收敛性，选取第一李亚普诺夫函数为：

式17中，

且

3)对所述第一李亚普诺夫函数进行求解，得到第一求解结果；

当σ≠0时，

可以表述为：

式18中，

为了完成证明，作如下定义

式19中，

若合适选择k_i(i＝1,2,3,4,5)，满足

Ω₁-Δ₁＞0,Ω₂-Δ₂＞0，

则可得

此外，有λ_min(P)||ξ||²≤V_σ≤λ_max(P)||ξ||²，且|σ|≤||ξ||²，其中，λ_min(max)(P)表示矩阵P的最小或最大特征值，则可得

4)根据所述第一求解结果确定所述滑模面的收敛性，得到第一收敛性判断结果；

式21表明所设计的滑模面能够在有限时间内收敛到零，且收敛时间T₁满足：

5)根据所述第一收敛性判断结果选取第二李亚普诺夫函数；

由式22可知，当t≥T₁时，有σ＝0，则可得

σ＝c₁e₁+e₂＝0→e₂＝-c₁e₁ (23)

将式23代入观测误差表达式(式10)，可得

则可选取第二李亚普诺夫函数为

6)对所述第二李亚普诺夫函数进行求解，得到第二求解结果；

7)根据所述第二求解结果确定所述扰动观测器对导轨车位置的观测误差的收敛性，得到第二收敛性判断结果。

式25表明观测误差e₁能够在T₂后收敛到零，且T₂满足：

当x_Δ通过所设计的控制器调节到预定位置时，有

和

则易推导得：

将式27代入重新表达的吊车系统，可得

选取第三李亚普诺夫函数为

对其求微分可得：

通过上面

和

的表达式可得出如下不变集：

Γ＝{(θ₁,θ₂):θ₁＝0,θ₂＝0}. (30)

由LaSalle不变性原理可得，状态变量

和

可以收敛到Γ。同时，位置变量的微分亦能够收敛到零。对于实际吊车系统而言，模型中的第二行表达可以重新描述为：

即

对其进行积分可得

表明x_Δ→x，因此所设定位置调节能够通过所提控制策略实现。图5所示的实验结果图同样证明了本实施例所用控制方法的有效性。

本实施例针对欠驱动吊车系统的镇定和扰动抑制问题，考虑扰动观测器是解决不确定系统干扰抑制问题的有效工具，而强化学习方法能够提高控制的鲁棒性。由于吊车系统不可避免的受到负载振荡问题的影响，而且由于系统特性常常涉及欠驱动控制设计问题，而通过变量等效变化以及扰动观测器的使用，恰好可以解决这些问题。使用强化学习方法设计控制器消除跟踪误差，提高了吊车系统镇定的精度问题，并配合扰动观测补偿，降低了系统的模型依赖性。由于吊车系统在运行过程中，不可避免的受到各种内部不确定性和外部干扰的影响，而扰动观测补偿策略恰好可以有效解决这些问题。在此基础上，在控制跟踪误差消除的过程中，融入强化学习智能控制机制，解决了吊车系统跟踪控制的反馈误差消除问题，提高了控制精度。本实施例设计的控制方法实现了对欠驱动吊车系统的稳定跟踪控制，降低了模型依赖性，并可实现不确定性和扰动的抑制。通过对模型重构，基于选取等效状态变量设计的有限时间扩张状态观测器能够使得滑模面和观测误差在有限时间内收敛到零，有效抑制外部扰动，无需建立模型也可以对摩擦进行直接观测和补偿，并引入强化学习方法进行跟踪误差优化消除。不仅适用于欠驱动吊车系统，在对本实施例的控制方法的公式作适当推广、变形的情况下，本实施例方法还适用于其他类两自由度欠驱动机械系统。

实施例2：

本实施例用于提供一种欠驱动吊车系统的控制系统，参见图6，所述控制系统包括：

观测模块M1，用于利用扰动观测器对吊车系统进行观测，得到系统状态和总扰动；

处理模块M2，用于利用强化学习控制器对所述系统状态进行处理，得到虚拟控制律；

计算模块M3，用于根据所述虚拟控制律和所述总扰动计算实际控制律；

控制模块M4，用于利用所述实际控制律对所述吊车系统进行控制。

所述控制系统还包括建立模块，具体包括：

建立单元，用于建立所述吊车系统的数学模型；

等效单元，用于选取所述吊车系统的等效被控变量，将所述数学模型转化为等效模型；

扩张单元，用于对所述吊车系统的状态进行扩张，将所述等效模型转化为扰动模型；

获取单元，用于根据所述扰动模型建立扰动观测器。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种欠驱动吊车系统的控制方法，其特征在于，所述控制方法包括如下步骤：

建立扰动观测器，具体包括：建立吊车系统的数学模型；选取所述吊车系统的等效被控变量，将所述数学模型转化为等效模型；对所述吊车系统的状态进行扩张，将所述等效模型转化为扰动模型；根据所述扰动模型建立扰动观测器；所述等效被控变量为：

其中，xΔ为所述等效被控变量；x为所述吊车系统中的导轨车位置，k_α为可调参数；θ为所述吊车系统中负载的摆动角度；τ为积分变量；

所述扰动观测器为：

其中，z_i(i＝1,2,3)分别为x_Δi(i＝1,2,3)的估计值；

f＝x_Δ3；f为总扰动；e₁＝x_Δ1-z₁,e₂＝x_Δ2-z₂,σ＝c₁e₁+e₂；γ为可调参数且0＜γ＜1；c₁＞0和k_i(i＝1,2,3,4,5)＞0均为观测器可调增益；b为预设系数；u为实际控制律；

所述扰动观测器的观测误差动态为：

其中，

e₃＝f-z₃；

利用所述扰动观测器对所述吊车系统进行观测，得到系统状态和总扰动；

将所述吊车系统的预设控制目标与所述系统状态进行做差，得到第一差值；以所述第一差值作为输入，利用强化学习控制器计算虚拟控制律；所述第一差值包括：e＝x_Δr-z₁和

其中，x_Δr为所述预设控制目标；z₁和z₂为所述系统状态，分别为xΔ₁和xΔ₂的估计值；基于深度确定性策略梯度算法设计所述强化学习控制器，所述强化学习控制器包括online动作网络，online评价网络，目标动作网络和目标评价网络；

将所述虚拟控制律与所述总扰动进行做差，得到第二差值；计算所述第二差值与所述预设系数之间的比值，得到所述实际控制律；所述预设系数

其中，m_t,m_p,l_p分别为导轨车质量，负载质量和连接绳长度；

利用所述实际控制律对所述吊车系统进行控制。

2.根据权利要求1所述的控制方法，其特征在于，所述吊车系统的数学模型为：

其中，q＝[x，θ]^T为状态矢量，x为所述吊车系统中的导轨车位置，θ为所述吊车系统中负载的摆动角度；

M_oc(q)∈为惯性矩阵；

为科里奥利力矩阵；G(q)为重力矢量；U为增广控制矢量。

3.根据权利要求1所述的控制方法，其特征在于，所述控制方法还包括对所述强化学习控制器进行训练，训练过程具体包括：

利用所述扰动观测器对所述吊车系统进行观测，得到训练系统状态和训练总扰动；将所述吊车系统的预设控制目标与所述训练系统状态进行做差，得到训练状态；

以所述训练状态作为输入，利用所述online动作网络计算训练虚拟控制律；

根据所述训练虚拟控制律和所述训练总扰动，得到训练实际控制律；利用所述训练实际控制律对所述吊车系统进行控制，得到奖励值和下一时刻的训练状态；

根据所述训练状态、所述训练虚拟控制律、所述奖励值和所述下一时刻的训练状态，对所述online评价网络进行更新，得到更新后的online评价网络；

根据所述训练状态、所述训练虚拟控制律和所述更新后的online评价网络对所述online动作网络进行更新，得到更新后的online动作网络；

根据所述更新后的online评价网络对所述目标评价网络进行更新，得到更新后的目标评价网络；

根据所述更新后的online动作网络对所述目标动作网络进行更新，得到更新后的目标动作网络；

以所述下一时刻的训练状态作为下一轮的训练状态，分别以所述更新后的online评价网络、所述更新后的online动作网络、所述更新后的目标评价网络和所述更新后的目标动作网络作为下一轮的online评价网络、online动作网络、目标评价网络和目标动作网络，返回“以所述训练状态作为输入，利用所述online动作网络计算训练虚拟控制律”的步骤进行迭代，直至所述深度确定性策略梯度算法收敛，得到强化学习控制器。

4.根据权利要求1所述的控制方法，其特征在于，所述控制方法还包括对所述扰动观测器进行稳定性分析，具体包括：

分别计算滑模面与所述扰动观测器对总扰动的观测误差的微分；

根据所述滑模面的微分和所述观测误差的微分选取第一李亚普诺夫函数；

对所述第一李亚普诺夫函数进行求解，得到第一求解结果；

根据所述第一求解结果确定所述滑模面的收敛性，得到第一收敛性判断结果；

根据所述第一收敛性判断结果选取第二李亚普诺夫函数；

对所述第二李亚普诺夫函数进行求解，得到第二求解结果；

根据所述第二求解结果确定所述扰动观测器对导轨车位置的观测误差的收敛性，得到第二收敛性判断结果。

5.一种欠驱动吊车系统的控制系统，其特征在于，所述控制系统包括：

建立模块，具体包括：

建立单元，用于建立吊车系统的数学模型；

等效单元，用于选取所述吊车系统的等效被控变量，将所述数学模型转化为等效模型；所述等效被控变量为：