CN117826580B

CN117826580B - 基于td3算法的阀控液压缸强化学习分数阶控制方法及系统

Info

Publication number: CN117826580B
Application number: CN202410246853.7A
Authority: CN
Inventors: 邵书义; 焦广鑫; 陈谋; 孙栋
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2024-03-05
Filing date: 2024-03-05
Publication date: 2024-06-07
Anticipated expiration: 2044-03-05
Also published as: CN117826580A

Abstract

本发明公开了一种基于TD3算法的阀控液压缸强化学习分数阶控制方法及系统，根据阀控液压缸控制原理，建立阀控液压缸的数学模型；设计加入干扰观测器的分数阶PID控制器对阀控液压缸系统进行控制；通过改进的TD3算法对分数阶PID控制器的参数进行优化调整；通过优化后的分数阶PID控制器对阀控液压缸进行控制。通过设计干扰观测器，提升系统的抗干扰能力，提升了控制系统鲁棒性，进一步通过改进的TD3算法不仅加快了网络的收敛性而且能更加有效的对分数阶PID的参数进行在线优化调整，使控制器能更好的发挥适应性与控制性能。

Description

基于TD3算法的阀控液压缸强化学习分数阶控制方法及系统

技术领域

本发明涉及阀控液压缸控制，具体是涉及一种基于TD3算法的阀控液压缸强化学习分数阶控制方法及系统。

背景技术

阀控液压缸是一种常见的液压执行元件，在工业和机械控制领域具有广泛的应用。它具有高力密度、平稳运动、高可靠性以及适应性强等优点。阀控液压缸能够提供高力输出，适用于需要大功率输出的应用。通过精确的液压控制实现平稳、精确的运动，具有较高的运动控制精度。阀控液压缸的结构简单、操作可靠，具有较长的使用寿命和稳定的性能。可以适应不同负载和工况条件下的工作，能够实现力、速度的调节和控制。

分数阶PID控制器是一种新型的PID控制器，它可以更好地描述分数阶动力学系统。与传统的PID控制器不同，分数阶PID控制器的控制器输出与误差的分数阶次之间存在比例关系。采用分数阶PID控制器可以对阀控液压缸进行优化控制，但是优化分数阶PID控制器的参数仍是一项非常具有挑战性的任务。

发明内容

发明目的：针对以上缺点，本发明提供一种更好控制效果的TD3算法的阀控液压缸强化学习分数阶控制方法及系统。

技术方案：为解决上述问题，本发明采用一种基于TD3算法的阀控液压缸强化学习分数阶控制方法，包括以下步骤：

（1）根据阀控液压缸控制原理，建立阀控液压缸的数学模型；

（2）设计加入干扰观测器的分数阶PID控制器对阀控液压缸系统进行控制；

（3）通过改进的TD3算法对分数阶PID控制器的参数进行优化调整；所述改进的TD3算法中的奖励信号的表达式为：

；

其中，为当前环境状态信号，/>为Actor网络输出的动作信号，/>为阀控液压缸系统的误差信号；

（4）通过优化后的分数阶PID控制器对阀控液压缸进行控制。

进一步的，所述步骤(1)中阀控液压缸数学模型的动态特性方程式为：

；

其中，为液压缸活塞作用面积，/>为负载位移，/>为对/>求一阶导，/>为对求二阶导，/>为液压缸总的内泄漏系数，/>为液压缸两腔压差，/>为液压缸油腔总的体积，/>为油液体积弹性模量，/>液压缸的压力-流量方程，/>为滑阀的流量增益，/>为滑阀的流量压力放大系数，/>为伺服阀阀芯输入位移，/>为控制窗口处的流系数，/>为伺服阀节流口面积梯度，/>为油液密度，/>为供油压力，/>是活塞及负载折算到活塞上的总质量，/>是活塞及负载的粘性阻尼系数，/>是弹簧度，/>为阀控液压缸系统未知摩擦力和未知干扰力，/>是控制器增益，/>是伺服阀增益，/>是控制信号。

进一步的，所述干扰观测器为：

，

其中，为干扰观测器辅助向量，/>为干扰观测器增益，/>为/>对求一阶导；

定义状态变量，阀控液压缸的系统状态方程为：

，

其中，，/>，，/>为阀控液压缸的系统复合扰动，/>是无控制器情况下的伺服阀增益，/>为对/>求一阶导，/>为对/>求一阶导，/>为对/>求一阶导。

进一步的，所述分数阶PID控制器的表达式为：

，

其中，为比例系数，/>为积分系数，/>为积分算子，/>为积分阶次，/>为微分系数，/>为微分算子，/>为微分阶次。

进一步的，所述改进的TD3算法中的时序误差为：

，

其中，为在策略/>下的Critic网络输出，/>为Critic网络参数，/>为折扣率，。

进一步的，所述改进的TD3算法包括Actor网络与双Critic网络，以及根据Critic网络的网络结构与参数构建的Target Critic网络，根据Actor网络的网络结构与参数构建的Target Actor网络；所述Critic网络的损失函数为：

，

其中，为样本数；/>为Target Critic网络的目标值；/>为第/>个样本中第/>个Critic网络的输出值。

进一步的，所述Actor网络的损失函数为：

，

其中，为当前状态与动作下的价值期望值，/>表示当前时刻奖励，/>为权重参数，/>为度量策略分布不确定性的指标。

进一步的，所述Critic网络参数采用梯度下降进行更新，更新算法为：

，

其中，为Critic网络更新学习率，/>为关于/>参数求取梯度；

所述Actor网络参数采用梯度下降进行更新，更新算法为：

，

其中，为Actor网络更新学习率，/>为关于/>参数求取梯度。

进一步的，所述Target Critic网络和Target Actor网络的网络参数进行软更新；具体为：

，

其中，为网络参数的更新移动量。

本发明还采用一种上述基于TD3算法的阀控液压缸强化学习分数阶控制方法的控制系统，包括：

模型建立模块，用于根据阀控液压缸控制原理，建立阀控液压缸的数学模型，设计加入干扰观测器的分数阶PID控制器对阀控液压缸系统进行控制；

优化模块，用于通过改进的TD3算法对分数阶PID控制器的参数进行优化调整；

控制模块，用于通过优化后的分数阶PID控制器对阀控液压缸进行控制。

有益效果：本发明相对于现有技术，其显著优点是通过设计干扰观测器，提升系统的抗干扰能力，提升了控制系统鲁棒性，进一步通过改进的TD3算法不仅加快了网络的收敛性而且能更加有效的对分数阶PID的参数进行在线优化调整，使控制器能更好的发挥适应性与控制性能。

附图说明

图1为本发明控制方法的流程示意图。

具体实施方式

如图1所示，本实施例中的一种基于TD3算法的阀控液压缸强化学习分数阶控制方法，包括以下步骤：

步骤1：根据阀控液压缸控制原理，建立阀控液压缸的数学模型。

阀控液压缸系统中的单向阀、定量泵、电机和油箱为对整个系统供油的元件，溢流阀起到定压溢流作用；双出杆对称液压缸为作动器，位移信号通过位移传感器进行反馈；控制器基于位移误差对伺服阀进行控制，最终实现作动器的位移跟踪控制。

阀控液压缸的数学模型的动态特性方程式为：

(1)，

(2)，

(3)，

其中，是滑阀的流量增益，/>是滑阀的流量压力放大系数，/>是活塞及负载折算到活塞上的总质量，/>是弹簧度，/>是控制器增益，/>是伺服阀增益，/>是控制信号。

活塞位移与控制信号/>之间的函数关系可以写成：

(4)，

其中，是伺服放大器增益，/>是伺服阀增益，/>是滑阀的流量增益，/>是液压油弹性模量，/>是液压缸的活塞作用面积，/>是活塞及负载折算到活塞上的总质量，/>是液压缸两腔总面积，/>是滑阀的流量压力放大系数，/>是活塞及负载的粘性阻尼系数，/>是弹簧度，/>是系统未知摩擦力和未知干扰力，/>是活塞位移，/>是阀芯输入位移，是控制信号。

定义状态变量，系统状态方程为：

(5)，

其中，；/>；；/>。

定义系统复合扰动：，由于粘性摩擦系数/>、油液体积弹性模量/>等参数无法得到其准确值，所以/>为根据这些近似参数得到的近似值，/>为其误差。

步骤2、设计分数阶PID控制器对阀控液压缸系统进行控制。

采用Riemann-Liouville定义的分数阶PID控制器对系统进行控制，与传统的整数阶PID控制器相比，它能够更好地适应非线性和时变系统。它的基本概念如下：

(6)，

FOPID控制器的结构包括一个比例环节、一个积分环节和一个微分环节，其中比例环节、积分环节和微分环节分别对应着分数阶微积分的比例、积分和微分。为比例环节，/>为比例系数；/>为分数阶积分环节，/>为分数阶积分系数；/>为分数阶微分环节，/>为分数阶微分系数；其中/>表示系统的误差函数，即，即希望输出/>与实际输出/>之间的差值。

相比于传统的整数阶PID控制器，分数阶PID控制器具有更好的适应性与记忆性，故可以更好地应对非线性和时变系统，提高控制系统的稳定性和鲁棒性。

步骤3、根据阀控液压缸特点设计对应的干扰观测器。

为解决系统状态在工程应用中难以测定问题，在所提出控制器设计过程中使用干扰观测器：

(7)，

其中，为干扰观测器辅助向量，/>为干扰观测器增益，且/>，/>为对干扰的估计量。

根据所设计干扰观测器特点，假设干扰及其导数有界，即满足，，定义干扰的估计误差为：

(8)，

可得，对于所提出的分数阶干扰观测器，其对于干扰的估计误差是有界的，即存在一个正常数/>，使得：

(9)，

证明：对干扰的估计误差求导数可得：

(10)，

取可得微分方程：

(11)，

对上式求解可得：

(12)，

对上式取范数，并且由于，所以/>，可得：

(13)，

取，可以证明所设计的干扰观测器对于干扰的估计误差是有界的。

为证明干扰观测器观测误差在有限时间内趋于零，取Lypunov函数为：

(14)，

对Lyapunov函数求导，并结合假设1与引理可得：

(15)，

可知，干扰观测器误差最终将趋于零，即所设计的干扰观测器对于干扰信号的观测是有效的。

步骤4、将双延迟深度确定性策略梯度算法（TD3算法）用于分数阶PID五个参数的优化调整。

TD3算法用于分数阶PID五个参数的优化调整。TD3算法是一种改进的DDPG算法，通过Actor-Critic群网络的运算法能较好的抑制Actor-Critic方法的自举。在TD3算法中，对于折扣回报可以有以下定义：

(16)，

在式(16)中，为奖励信号，由当前Actor网络输出/>与环境状态/>共同决定，即。/>是一个值函数，表示系统在/>时刻以后一个连续过程中所期望获得的奖励的总和，其中/>表示折扣率。

根据Bellman方程，在时刻可得：

(17)，

对式(17)两侧基于此刻的状态与动作求取期望，可得下式：

(18)，

对于式(18)结果则有：

(19)，

其中，为动作价值函数，表示在当前状态/>下，智能体Agent做出动作/>的优劣性，智能体Agent包括Actor-Critic群网络。

由于在实际操作中，动作价值函数与Agent动作均由网络进行逼近，故式(19)存在误差，因此，基于Bellman方程，时序误差(TD error)可以定义为式(19)两边的差值，即如下式：

(20)，

其中，为Critic网络参数。

在本设计中，环境状态与奖励信号均由系统误差计算而来，其中环境状态信号定义为/>，奖励信号/>可以定义为：

(21)，

其中，Actor输出的动作信号是一个五维向量，即；

为了解决传统的AC算法存在高估现象，TD3算法主要采用两个措施来尽量减小高估。首先，构建两个结构与参数相同的Critic网络，分别称为Critic1网络与Critic2网络/>，再构建一套与Critic网络结构与参数完全相同的TargetCritic网络，分别称为Target Critic1网络/>与Target Critic2网络。

在计算目标值时，会选取两个TargetCritic网络的最小值，即：

(22)，

在此基础上按式(20)所示计算时，对于q值的选取则是在Critic1网络输出与Critic2网络输出/>中进行随机选择。基于这种机制在很大程度上弱化了智能体的高估现象。

其次，采用了策略平滑正则性减小估计的误差并增加对于动作空间的探索，通过在Target Actor网络输出动作中添加均值为零的随机噪声并在小批量样本中求平均值来实现的：

(23)，

其中，添加的噪声服从正态分布，并且进行了裁剪使目标更接近原始动作。

对于Critic网络与Actor网络的更新分别基于两个网络的损失函数进行，根据式(20)所示时序误差的定义，从经验池选取N个样本，采用均方误差的形式设计改进的Critic网络的损失函数为：

(24)，

为第/>个样本中第/>个Critic网络的输出值；对于Actor网络损失函数的构建要考虑两个问题，一方面为实现当前状态下未来所有期望回报的最大化即，另一方面为构建的损失函数能提高actor网络对动作空间的探索性防止陷入局部最优解，因此构建改进的损失函数为：

(25)，

其中，为当前状态与动作下的价值期望值，/>表示当前时刻奖励，/>是一个度量策略分布不确定性的指标，/>为该项的权重参数。

通过式(24)与式(25)定义的损失函数形式，对于Critic网络与Actor网络的参数，/>采用梯度下降法进行更新：

(26)，

(27)，

对于Target网络参数进行软更新，即将之前的目标网络参数和对应网络更新后的参数做加权平均，赋值给新的目标网络，具体如下式：

(28)，

其中，为网络参数的更新移动量。/>

Claims

1.一种基于TD3算法的阀控液压缸强化学习分数阶控制方法，其特征在于，包括以下步骤：

（2）设计加入干扰观测器的分数阶PID控制器对阀控液压缸系统进行控制；所述干扰观测器为：

，

其中，为干扰观测器辅助向量，/>为干扰观测器增益，/>为对/>求一阶导；

定义状态变量，阀控液压缸的系统状态方程为：

，

其中，，/>，，/>为阀控液压缸的系统复合扰动，/>是无控制器情况下的伺服阀增益，/>为对/>求一阶导，/>为对/>求一阶导，/>为对/>求一阶导，/>为液压缸活塞作用面积，/>为油液体积弹性模量，/>是活塞及负载折算到活塞上的总质量，/>为液压缸油腔总的体积，/>是活塞及负载的粘性阻尼系数，/>为控制窗口处的流系数，/>为伺服阀节流口面积梯度，/>为供油压力，/>为液压缸两腔压差，/>为油液密度，/>是控制信号；

；

（4）通过优化后的分数阶PID控制器对阀控液压缸进行控制。

2.根据权利要求1所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述步骤(1)中阀控液压缸数学模型的动态特性方程式为：；

；

其中，为液压缸活塞作用面积，/>为负载位移，/>为对/>求一阶导，/>为对/>求二阶导，/>为液压缸总的内泄漏系数，/>为液压缸两腔压差，/>为液压缸油腔总的体积，/>为油液体积弹性模量，/>液压缸的压力-流量方程，/>为滑阀的流量增益，/>为滑阀的流量压力放大系数，/>为伺服阀阀芯输入位移，/>为控制窗口处的流系数，/>为伺服阀节流口面积梯度，/>为油液密度，/>为供油压力，/>是活塞及负载折算到活塞上的总质量，/>是活塞及负载的粘性阻尼系数，/>是弹簧度，/>为阀控液压缸系统未知摩擦力和未知干扰力，/>是控制器增益，/>是伺服阀增益，/>是控制信号。

3.根据权利要求2所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述分数阶PID控制器的表达式为：

，

其中，为比例系数，/>为积分系数，/>为积分算子，/>为积分阶次，/>为微分系数，为微分算子，/>为微分阶次。

4.根据权利要求3所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述改进的TD3算法中的时序误差为：

，

5.根据权利要求4所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述改进的TD3算法包括Actor网络与双Critic网络，以及根据Critic网络的网络结构与参数构建的Target Critic网络，根据Actor网络的网络结构与参数构建的Target Actor网络；所述Critic网络的损失函数为：

，

6.根据权利要求5所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述Actor网络的损失函数为：

，

其中，为当前状态与动作下的价值期望值，/>表示当前时刻奖励，为权重参数，/>为度量策略分布不确定性的指标。

7.根据权利要求5所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述Critic网络参数采用梯度下降进行更新，更新算法为：

，

其中，为Critic网络更新学习率，/>为关于/>参数求取梯度；

所述Actor网络参数采用梯度下降进行更新，更新算法为：

，

其中，为Actor网络更新学习率，/>为关于/>参数求取梯度。

8.根据权利要求7所述的阀控液压缸强化学习分数阶控制方法，其特征在于，所述Target Critic网络和Target Actor网络的网络参数进行软更新；具体为：

，

其中，为网络参数的更新移动量。

9.一种采用权利要求1所述基于TD3算法的阀控液压缸强化学习分数阶控制方法的控制系统，其特征在于，包括：