CN116661294B

CN116661294B - 基于强化学习的阀控液压缸分数阶控制方法及控制系统

Info

Publication number: CN116661294B
Application number: CN202310963171.3A
Authority: CN
Inventors: 邵书义; 焦广鑫; 陈谋; 孙栋
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-11-07
Anticipated expiration: 2043-08-02
Also published as: CN116661294A

Abstract

本发明公开了一种基于强化学习的阀控液压缸分数阶控制方法及控制系统，根据阀控液压缸控制原理，建立阀控液压缸的数学模型；设计分数阶PID控制器对阀控液压缸系统进行控制；通过强化学习对分数阶PID控制器的参数进行优化调整；通过强化学习优化后的分数阶PID控制器对阀控液压缸进行控制。通过构建一个分数阶PID控制器来对系统进行优化控制，充分发挥了分数阶PID更强的适应性和更好的性能。利用强化学习算法来补充传统控制器调参技术的设计方案。使分数阶PID参数的调节无需过多的人工干预，能基于目前系统状态自动优化参数。

Description

基于强化学习的阀控液压缸分数阶控制方法及控制系统

技术领域

本发明涉及阀控液压缸控制，具体是涉及一种基于强化学习的阀控液压缸分数阶控制方法及控制系统。

背景技术

阀控液压缸是一种常见的液压执行元件，在工业和机械控制领域具有广泛的应用。它具有以下优点：高力密度、平稳运动、可靠性高和负载适应性强。阀控液压缸能够提供高力输出，适用于需要大功率输出的应用。通过精确的液压控制，它能够实现平稳、精确的运动，具有较高的运动控制精度。阀控液压缸的结构简单、操作可靠，具有较长的使用寿命和稳定的性能。此外，它可以适应不同负载和工况条件下的工作，能够实现力、速度的调节和控制。

阀控液压缸的应用领域广泛。它常用于工业自动化设备，如机床、搬运设备、装配线等，用于实现工件夹持、运输、定位和加工等操作。在建筑工程中，阀控液压缸可用于挖掘机、推土机、起重机等设备，用于实现重物的举升、转动和定位等功能。在农业机械领域，它可以应用于拖拉机、收割机、灌溉设备等，用于实现农田作业、种植和灌溉等操作。此外，阀控液压缸在航空航天和机器人技术领域也有重要应用，用于实现飞机和航天器的控制和机器人的运动、抓取、定位和力控制等功能。

综上所述，阀控液压缸凭借其优越的性能特点，在多个领域都发挥着重要作用，并具有广阔的应用前景。

分数阶PID控制器是一种新型的PID控制器，它可以更好地描述分数阶动力学系统。与传统的PID控制器不同，分数阶PID控制器的控制器输出与误差的分数阶次之间存在比例关系。因此，优化分数阶PID控制器的参数是一项非常具有挑战性的任务。

发明内容

发明目的：针对以上缺点，本发明提供一种更好地控制阀控液压缸系统的基于强化学习的阀控液压缸分数阶控制方法及控制系统。

技术方案：为解决上述问题，本发明采用一种基于强化学习的阀控液压缸分数阶控制方法，包括以下步骤：

（1）根据阀控液压缸控制原理，建立阀控液压缸的数学模型；

（2）设计分数阶PID控制器对阀控液压缸系统进行控制；

（3）通过强化学习对分数阶PID控制器的参数进行优化调整；

（4）通过强化学习优化后的分数阶PID控制器对阀控液压缸进行控制。

进一步的，所述步骤(1)中阀控液压缸数学模型的动态特性方程式为：

，

其中，为液压缸活塞作用面积，/>为负载位移，/>为对/>求一阶导，/>为对/>求二阶导，/>为液压缸总的内泄漏系数，/>为液压缸两腔压差，/>为液压缸油腔总的体积，/>为油液体积弹性模量，/>液压缸的压力-流量方程，/>为滑阀的流量增益，/>为滑阀的流量压力放大系数，/>为伺服阀阀芯输入位移，/>为控制窗口处的流系数，/>为伺服阀节流口面积梯度，/>为油液密度，/>为供油压力，/>是活塞及负载折算到活塞上的总质量，是活塞及负载的粘性阻尼系数，/>是弹簧度，/>为阀控液压缸系统未知摩擦力和未知干扰力，/>是控制器增益，/>是伺服阀增益，/>是控制信号。

进一步的，定义状态变量，阀控液压缸的系统状态方程为：

，

其中，，/>，/>，，/>为阀控液压缸的系统复合扰动，/>是无控制器情况下的伺服阀增益，/>为对/>求一阶导，/>为对/>求一阶导，/>为对/>求一阶导。

进一步的，所述系统复合扰动的表达式为：

，

其中，为/>的误差，/>为粘性摩擦系数，/>为负载质量，/>为系统未知摩擦力和未知干扰力。

进一步的，所述分数阶PID控制器的表达式为：

，

其中，为比例系数，/>为积分系数，/>为积分算子，/>为积分阶次，为微分系数，/>为微分算子，/>为微分阶次，/>表示系统误差函数。

进一步的，所述步骤(3)中采用Critic网络和Actor网络对分数阶PID控制器的参数进行优化调整，其中，Actor网络的输入为系统状态信号，输出为动作信号，；Critic网络的输入包括系统状态信号，以及基于Actor网络做出动作信号/>下的系统奖励信号以及Actor网络的t时刻与t+1时刻的动作信号，系统奖励信号与系统状态信号均由系统误差函数/>计算而来；

奖励信号的表达式为：

，

其中，为系统的期望输出，/>为系统的实际输出，/>为当前系统状态。

进一步的，所述Actor网络包括输入层、隐含层和输出层；所述输入层将系统状态直接输入到隐藏层进行计算，系统状态；在隐藏层中，/>是一个n维向量，即/>，其中n是隐藏单元的数量，选择高斯函数作为其核函数；输出层直接输出动作信号/>，Actor网络的输出是隐含层输出的简单加权和，故有：

，

其中，表示第j个隐藏单元与输出层之间的权重。

进一步的，所述Critic网络包括输入层、隐含层和输出层；Critic网络输入层的输入是一个七维向量，即，/>；在隐藏层中，/>是一个m维向量，即/>，其中m是隐藏单元的数量，选择高斯函数作为其核函数，输出层直接输出Critic网络对动作信号/>的打分，Critic网络的输出是仍然是隐含层输出的简单加权和，故有：

，

其中，表示第i个隐含单元与输出层之间的权重。

进一步的，Critic网络参数更新算法为：

，

其中，为学习率，/>为时序误差；

Actor网络参数更新采用梯度上升法，具体算法如下所示：

，

其中，为学习率，/>为代价函数。

本发明还采用一种基于强化学习的阀控液压缸分数阶控制系统，包括模型建立模块，用于根据阀控液压缸控制原理，建立阀控液压缸的数学模型，设计分数阶PID控制器对阀控液压缸系统进行控制；

优化模块，用于通过强化学习对分数阶PID控制器的参数进行优化调整；

控制模块，通过强化学习优化后的分数阶PID控制器对阀控液压缸进行控制。

有益效果：本发明相对于现有技术，其显著优点是通过构建一个分数阶PID控制器来对系统进行优化控制，充分发挥了分数阶PID更强的适应性和更好的性能。利用强化学习算法来补充传统控制器调参技术的设计方案。使分数阶PID参数的调节无需过多的人工干预，能基于目前系统状态自动优化参数。

附图说明

图1为本发明阀控液压缸分数阶控制方法的流程示意图。

实施方式

如图1所示，本实施例中的一种基于强化学习的阀控液压缸分数阶控制方法，包括以下步骤：

步骤1：根据阀控液压缸控制原理，建立阀控液压缸的数学模型。

阀控液压缸系统中的单向阀、定量泵、电机和油箱为对整个系统供油的元件，溢流阀起到定压溢流作用；双出杆对称液压缸为作动器，位移信号通过位移传感器进行反馈；控制器基于位移误差对伺服阀进行控制，最终实现作动器的位移跟踪控制。

由牛顿第二定律可得惯性负载的动力学方程为：

(1)，

其中，为负载位移；/>为液压缸活塞作用面积；液压缸两腔压差/>（/>，分别为液压缸两腔的压力）；/>为负载质量；/>是活塞及负载的粘性阻尼系数；/>为系统未知摩擦力和未知干扰力。

液压缸的压力-流量方程为：

(2)，

其中，为油液体积弹性模量；/>为液压缸油腔总的体积；/>为负载流量（/>、/>分别为液压缸进油流量和回油流量）；/>为液压缸总的内泄漏系数。

定义符号函数：

(3)，

负载流量-伺服阀阀芯位移方程为：

(4)，

其中，是控制窗口处的流系数，/>是伺服阀节流口面积梯度，/>是阀芯输入位移，/>是供油压力，/>是油液密度。

由于伺服阀的响应频率远大于液压缸动作的频宽，阀芯输入位移与控制输入可以近似等同于线性关系，即：

(5)，

其中，为无控制器情况下的伺服阀增益；/>为系统的控制输入。

模型的动态特性方程式为：

(6)，

(7)，

(8)，

其中，是滑阀的流量增益，/>是滑阀的流量压力放大系数，/>是活塞及负载折算到活塞上的总质量，/>是弹簧度，/>是控制器增益，/>是伺服阀增益，/>是控制信号。而活塞位移/>与阀芯输入位移/>及外负载力同时作用的函数关系为：

(9)，

活塞位移与控制信号/>之间的函数关系可以写成：

(10)，

其中，是伺服放大器增益，/>是伺服阀增益，/>是滑阀的流量增益，/>是液压油弹性模量，/>是液压缸的活塞作用面积，/>是活塞及负载折算到活塞上的总质量，/>是液压缸两腔总面积，/>是滑阀的流量压力放大系数，/>是活塞及负载的粘性阻尼系数，/>是弹簧度，/>是系统未知摩擦力和未知干扰力，/>是活塞位移，/>是阀芯输入位移，/>是控制信号。

定义状态变量，系统状态方程为：

(11)，

其中，，/>，/>。

定义系统复合扰动：，由于粘性摩擦系数/>、油液体积弹性模量/>等参数无法得到其准确值，所以式(11)中/>为根据这些近似参数得到的近似值，/>为其误差；伺服阀说明书中都会给出额定压降/>下的流量公式：

(12)，

其中，为伺服阀额定流量；/>为伺服阀最大控制输入；由于参数/>、/>、/>的准确值较难得到；所以将式(12)代入/>得：

(13)，

式(13)可以看出的值随符号函数和负载压力的变化在一定范围内变化，由于/>含有系统不确定参数和关于/>的符号函数，而所提出的控制算法可以对误差进行补偿，所以为了简化算法，这里/>取其中间近似值，/>为其误差。

步骤2、设计分数阶PID控制器对阀控液压缸系统进行控制。

采用Riemann-Liouville定义的分数阶PID控制器对系统进行控制，与传统的整数阶PID控制器相比，它能够更好地适应非线性和时变系统。它的基本概念如下：

(14)，

FOPID控制器的结构包括一个比例环节、一个积分环节和一个微分环节，其中比例环节、积分环节和微分环节分别对应着分数阶微积分的比例、积分和微分。在式(14)中，为比例环节，/>为比例系数；/>为积分环节，/>为积分系数；为微分环节，/>为微分系数；其中/>表示系统的误差函数，即，即希望输出/>与实际输出/>之间的差值。

相比于传统的整数阶PID控制器，分数阶PID控制器具有更好的适应性，其对于系统的参数变化反应没有特别敏感，故可以更好地应对非线性和时变系统，提高控制系统的稳定性和鲁棒性。

步骤3、通过强化学习对分数阶PID控制器的参数进行优化调整。

将强化学习用于分数阶PID五个参数的优化调整。由Critic网络与Actor网络组成的Agent将从系统中获取输入其网络的状态信号与奖励信号/>，其中奖励信号与状态信号均由系统误差信号/>计算而来。其中Actor网络的输入仅由状态信号组成，其输出的动作信号/>是一个五维向量，即/>；Critic网络的输入除系统状态信号之外，还包括基于Actor网络做出动作信号/>下的系统奖励信号以及Actor网络的t时刻与t+1时刻的动作信号，Critic网络进行系统性能评估并输出的是一个值函数，即时序误差(TD error)/>，它对于控制器参数的更新具有至关重要的作用。

而对于所构造的两个网络的作用可以简述为，在系统的任意时刻t总会对应一个最佳控制器参数以及一个对此参数的最佳评估值，因此对于一个完整时序/>来说，将会得到两条绝佳的控制参数轨迹与评估轨迹，而所构建的两个网络即是对这两条轨迹的绝佳拟合。

系统的输出目的是尽可能的减小偏差，而在强化学习中集合了Actor网络与Critic网络的智能体Agent总是会追求奖励的最大化，故奖励信号可以按照如下规则定义：

(15)，

其中，为系统的期望输出，/>为系统的实际输出，/>为当前系统状态，/>为当前控制器的参数，该奖励函数的设置说明对于此时做出的控制器输出，只有通过当前时刻系统误差才能进行评估。

在强化学习的算法中，对于折扣回报可以有以下定义：

(16)，

其中，是一个值函数，表示系统在t时刻以后一个连续过程中所期望获得的奖励的总和，其中/>表示折扣率。

对式(16)进行整理可得：

(17)，

对式(17)进行首相分离并整理可得：

(18)，

(19)，

由式(18)，式(19)可知，在数学运算中我们用当前时刻的动作信号计算当前的折扣奖励/>而非求其无穷级数之和，式(18)也被称为Bellman方程。

将式(18)和式(19)联立，并根据时序逻辑进行调整进行整理可得：

(20)，

对式(20)两侧基于此刻的状态与动作求取期望，可得下式：

(21)，

对于式(21)结果则有：

(22)，

其中，为动作价值函数由Critic输出，表示在当前状态/>下，Actor做出动作/>的优劣性。

当Actor-Critic处于最佳控制策略与最佳评价策略时式(22)等号成立，但这仅出现在理想情况下，因此，基于Bellman方程，时序误差(TD error)可以定义为式(22)两边的差值，即如下式：

(23)，

这里需要注意的是，由于时序误差取决于下一个状态和下一个动作，因此必须是在t+1时刻才能通过式(23)计算出来。

因此代价函数可以定义为：

(24),

设计的Actor网络与Critic网络均由三层结构组成，首先是输入层，它是由可测量的系统状态量以及控制器的具体参数组成；其次是隐含层，其由一个激活函数作为其核函数，在本设计中采用高斯函数作为其核函数；最后是输出层，其输出值由隐含层与输出层之间的权值和叠加组成，下面分别对每个网络的每一层进行具体阐述。

对于Actor网络，其输入由系统状态组成，在这里其输入是一个二维向量，即，输入层将其直接输入到隐藏层进行计算；在隐藏层中，/>是一个n维向量，即/>，其中n是隐藏单元的数量，选择高斯函数作为其核函数，即为：

(25),

其中，表示输入网络的状态量，即/>；/>为欧几里得范数，/>为中心向量，/>为径向基函数的宽度。

第三层是输出层，直接输出的动作为分数阶PID控制器的五个参数，根据前面的描述可知，Actor网络的输出是隐含层输出的简单加权和，故有：

(26),

(27),

(28),

其中，表示第j个隐含单元与输出层之间的权重。

对于Critic网络，其输入由系统状态以及Actor网络的输出动作组成，因此，输入是一个七维向量，即，其中：

(29),

(30),

输入层将其直接输入到隐藏层进行计算；在隐藏层中，是一个m维向量，即，其中m是隐藏单元的数量，选择高斯函数作为其核函数，即为：

(31),

其中，表示输入网络的状态量，即如式(29)所示；/>为欧几里得范数，/>为中心向量，/>为径向基函数的宽度。

第三层是输出层，直接输出Critic网络对动作的打分，根据前面的描述我们可知，Critic网络的输出是仍然是隐含层输出的简单加权和，故有：

(32),

对于Critic来说，其追求的目标即是完美的评价轨迹，因此其总是期望尽可能小，也即是代价函数尽可能小，因此以梯度下降法更新Critic网络参数。

(33)，

其中，表示第i个隐藏单元与输出层之间的权重，/>表示第i个隐藏单元，为学习率，而对于/>的运算则可由下式得出。

(34)，

将式(34)代入式(33)中可得：

(35)，

式(35)即为Critic网络参数更新算法。

对于Actor网络来说，它的控制目标是找出空间中一条最佳的控制器参数轨迹，在此过程中，Actor总是追求奖励的最大化，因为代价函数是由两部分组成，即系统在做出动作/>后所获得的现实奖励信号以及Agent在获取奖励信号之后与之前，由Critic网络做出的评价值，所以对于Actor网络来讲，由于其只追求奖励的最大化，故采用梯度上升法更新Actor网络参数。具体算法如下所示：

(36)，

其中，对于式(36)来说，的计算过程如下所示：

(37)，

以此类推，则对于积分系数与微分系数依次有：

(38)，

(39)，

而对于积分阶次与微分阶次则有：

(40)，

其中，，/>。并且可得：

(41)，

其中，，/>在以上的参数更新中，/>表示在t时刻系统的输出/>对时刻t的输入/>的响应程度，即当输入信号/>在t时刻发生微小变化时，输出信号y在t时刻相应地发生的变化量。它是描述系统灵敏度和响应速度的重要参数。

步骤4、证明在该强化学习算法下网络输出最终收敛到最优解。

设计并证明在该强化学习算法下网络输出最终收敛到最优解，首先定义为有限状态集，定义/>为有限动作集，/>为从状态/>到状态/>的状态转移概率。根据Actor-Critic方法的原理，由于Actor网络逼近的是一个能产生由每一个最佳动作构成的最佳策略函数，为简化运算定义该最佳策略函数为/>；同理，根据对于Critic网络的原理，定义其逼近的最佳动作价值函数为/>。

基于最优策略所做出的最优评价可表示为下式：

(42)，

其中，表示t时刻所获得的现实奖励，/>、/>表示在各时刻最优策略下所做出的最优动作，/>表示在最优动作/>与新状态/>下所做出的评价。

定义收缩算子H为：

(43)，

其中，表示状态转移的平均概率分布。

在强化学习的过程中，可认为价值函数每经过一次学习更新，都会对当前的Q函数进行一次算子运算，即如下式所示：

(44)，

其中，表示做出动作/>后，下一时刻的状态，/>为状态更新后，基于最优策略所做出的新动作，/>为在/>状态下，从状态/>到状态/>的状态转移概率。

因此，最优价值函数可以视为在算子运算中的一个不动点，即当函数达到最优价值函数时无论再进行多少次算子运算都不会再次发生变化。

可知，在任意两个时刻，都分别存在一个q函数，对于所有的状态x与动作a，都会有对应的价值函数q(x , a)，故可将这两个q函数视为以x, a为横坐标，以具体Q价值为纵坐标的函数，在学习过程中两个时刻的运算过程中，假设后一时刻状态y已取定为z，考虑其最大偏差，则有如下所示运算：

(45)，

其中，为无穷范数。因此可得以下结论：

(46)，

若假定其中某一个为算子运算中的不动点，则所有的运算过程最终将收敛于这一点。因此根据上式，我们可以推断，算法具有收敛性。

Actor网络接收状态输入并产生对于各个动作的概率预测，因此我们可将这一过程定义为策略函数，由于在学习的每一步中，策略函数总是追求当前奖励的最大值，因此可将每一步的策略函数定义如下：

(47)，

根据式(18)，式(19)可知包含当前时刻奖励与未来期望奖励折扣总和。

故上式可以写作：

(48)，

其中，为当前时刻的真实奖励，即在当前阶段，最优策略函数是使当前时刻现实奖励达到最大值的那一个。/>表示在此之后根据当前做出的动作，以及在此之后状态的形式进行评估后期望所获得的折扣奖励的总和。

结合式(18)，式(19)定义收缩算子A为：

(49)，

其中，表示在策略/>下状态转移的平均概率分布。

在强化学习的过程中，可认为策略函数每经过一次学习更新，都会对当前的策略函数进行一次算子运算，即如下式所示：

(50)，

其中，表示做出动作/>后，下一时刻的状态，/>为当前时刻的真实奖励值，为在状态/>下，从状态/>到状态/>的状态转移概率。

因此，最优策略函数亦可以视为在算子运算中的一个不动点，即当函数达到最优价值函数时无论再进行多少次算子运算都不会再次发生变化。

任取学习过程中的两次迭代，则有如下运算：

(51)，/>

其中，、/>分别为两个时刻奖励的最大值，/>为t+2时刻期待获得的最大奖励的总和，p为/>最大差值，因为根据奖励的定义可知在每个时刻奖励的最大值都趋于0，而整个过程并非无穷时间，因此定义无穷小数/>，因此可得下式：

(52)，

因此可知，算法具有收敛性，若取后一个时刻为最优策略则可知前一时刻与后一时刻策略值的最远距离趋近于零，因此可知该学习过程最终会收敛到该最优策略。

步骤5、通过强化学习优化后的分数阶PID控制器对阀控液压缸进行控制。

Claims

1.一种基于强化学习的阀控液压缸分数阶控制方法，其特征在于，包括以下步骤：

（2）设计分数阶PID控制器对阀控液压缸系统进行控制；所述分数阶PID控制器的表达式为：

，

其中，为比例系数，/>为积分系数，/>为积分算子，/>为积分阶次，/>为微分系数，/>为微分算子，/>为微分阶次，/>表示系统误差函数；

（3）通过强化学习对分数阶PID控制器的参数进行优化调整；采用Critic网络和Actor网络对分数阶PID控制器的参数进行优化调整，其中，Actor网络的输入为系统状态信号，输出为动作信号，/>，/>表示五维向量；Critic网络的输入包括系统状态信号，以及基于Actor网络做出动作信号/>下的系统奖励信号以及Actor网络的t时刻与t+1时刻的动作信号，系统奖励信号与系统状态信号均由系统误差函数/>计算而来；

奖励信号的表达式为：

，

其中，为系统的期望输出，/>为系统的实际输出，/>为当前系统状态；

所述Actor网络包括输入层、隐含层和输出层；所述输入层将系统状态直接输入到隐藏层进行计算，系统状态，其中，/>表示二维向量，/>为对/>求一阶导；在隐藏层中，/>是一个n维向量，即/>，其中、/>、…、/>表示隐藏单元，n是隐藏单元的数量，选择高斯函数作为其核函数；即为：

(25),

其中，表示输入网络的状态量，即/>；/>为欧几里得范数，为中心向量，/>为径向基函数的宽度；

输出层直接输出动作信号，Actor网络的输出是隐含层输出的简单加权和；故有：

，

其中，表示第j个隐藏单元与输出层之间的权重；

所述Critic网络包括输入层、隐含层和输出层；Critic网络输入层的输入是一个七维向量，即，/>；在隐藏层中，/>是一个m维向量，即，其中，/> 、/> 、…、/>表示隐藏单元，m是隐藏单元的数量，选择高斯函数作为其核函数，即为：

(31),

其中，表示输入网络的状态量，即如式(29)所示；/>为欧几里得范数，/>为中心向量，/>为径向基函数的宽度；

输出层直接输出Critic网络对动作信号的打分，Critic网络的输出是仍然是隐含层输出的简单加权和，故有：

，

其中，表示第i个隐含单元与输出层之间的权重；Actor网络参数更新采用梯度上升法，具体算法如下所示：

(36)，

其中，对于式(36)来说，的计算过程如下所示：

(37)，

以此类推，则对于积分系数与微分系数依次有：

(38)，

(39)，

而对于积分阶次与微分阶次则有：

(40)，

其中，，/>；并且可得：

(41)，

其中，，/>在以上的参数更新中，/>表示在t时刻系统的输出/>对时刻t的输入/>的响应程度，即当输入信号/>在t时刻发生微小变化时，输出信号y在t时刻相应地发生的变化量。

2.根据权利要求1所述的阀控液压缸分数阶控制方法，其特征在于，Critic网络参数更新算法为：

，

其中，表示第i个隐藏单元与输出层之间的权重，/>表示第i个隐藏单元，为学习率，/>为时序误差；

Actor网络参数更新采用梯度上升法；

3.根据权利要求1所述的阀控液压缸分数阶控制方法，其特征在于，所述步骤(1)中阀控液压缸数学模型的动态特性方程式为：

，

其中，为液压缸活塞作用面积，/>为负载位移，/>为对/>求一阶导，/>为对/>求二阶导，/>为液压缸总的内泄漏系数，/>为液压缸两腔压差，/>为液压缸油腔总的体积，/>为油液体积弹性模量，/>液压缸的压力-流量方程，/>为滑阀的流量增益，/>为滑阀的流量压力放大系数，/>为伺服阀阀芯输入位移，/>为控制窗口处的流系数，/>为伺服阀节流口面积梯度，/>为油液密度，/>为供油压力，/>是活塞及负载折算到活塞上的总质量，/>是活塞及负载的粘性阻尼系数，/>是弹簧度，/>为阀控液压缸系统未知摩擦力和未知干扰力，/>是控制器增益，/>是伺服阀增益，/>是控制信号。

4.根据权利要求2所述的阀控液压缸分数阶控制方法，其特征在于，定义状态变量，阀控液压缸的系统状态方程为：

，

5.根据权利要求3所述的阀控液压缸分数阶控制方法，其特征在于，所述系统复合扰动的表达式为：

，

其中，为/>的误差，/>为粘性摩擦系数，/>为负载质量，/>为系统未知摩擦力和未知干扰力，/>为对/>求一阶导。

6.一种采用权利要求1所述的方法的基于强化学习的阀控液压缸分数阶控制系统，其特征在于，包括模型建立模块，用于根据阀控液压缸控制原理，建立阀控液压缸的数学模型，设计分数阶PID控制器对阀控液压缸系统进行控制；