CN113093526A

CN113093526A - 一种基于强化学习的无超调pid控制器参数整定方法

Info

Publication number: CN113093526A
Application number: CN202110359952.2A
Authority: CN
Inventors: 禹鑫燚; 王俊杭; 朱嘉宁; 欧林林; 邹超
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-07-09
Anticipated expiration: 2041-04-02
Also published as: CN113093526B

Abstract

本申请涉及一种基于强化学习的无超调PID控制器参数整定方法。本申请通过构造学习智能体，观测当前状态数据输入到动作神经网络得到动作参数，之后再观测下一状态的数据以及奖励。当前状态，动作，转移后状态，奖励值，四个元素组成了状态转移元组，每一次被控对象执行动作时都会进行一次状态转移，并将状态转移元组存入经验池内。智能体抽取一定量的状态转移元组，用于训练动作网络和评价网络。重复训练动作网络和评价网络直到参数收敛，保存参数权重。最终智能体根据当前状态数据输出最优PID参数提供给PID控制器，使得被控对象的状态值在无超调的基础上以较快的速度达到设定值，进而实现对控制器PID参数无超调整定的方面改进。

Description

一种基于强化学习的无超调PID控制器参数整定方法

技术领域

本发明设计了一种基于强化学习的PID控制器调参方法。针对无超调的工程，通过对当前状态的判断，利用神经网络能够输出一组控制性能较好的PID参数，降低由超调引起安全事故的概率。

技术背景

随着工业的快速发展，机器人逐渐替代了人类，在分拣、装配以及生产等其他工作中成为了不可缺少的一个环节。如何让机器人能够快速而精准完成预先设定的目标成为了当前工业机器人领域所需要解决问题之一。比例积分微分控制(PID控制)作为最早发展起来的控制策略之一，由于其算法简单、鲁棒性好和适应性较强，被广泛应用于工业过程控制。但是，由于PID控制的性能高度依赖于PID控制的三个参数k_p，k_i，k_d，而这些参数一般是通过经验调参法或者是试错调整法，高度依赖工程师的经验，所以存在效率低和控制效果不佳等问题。如果这些参数挑选不当，控制器输出的状态不可预测，在控制过程中可能发生震荡、过量超调等现象，严重影响控制的效果。

PID控制技术正处于不断发展与变化中，基于传统PID参数调整方法，模糊PID控制、神经网络PID控制、遗传算法PID控制等控制思想相继被提出。模糊PID控制将离线的模糊规则与PID相结合，提高了控制精度，但无法针对整个控制过程，且其性能过于依赖模糊规则的设定。神经网络PID控制通过迭代训练反向优化权值和阈值，对PID参数进行动态微调达到精确控制的目的，但需要大量的训练数据进行在线训练。遗传算法PID控制通过模拟自然进化过程搜索最优解，能够实现较好的动态性能和稳态性能，但是编码方式的选取依靠工程师的经验，且该算法存在过早收敛和低效率的问题。

在专利发明方面，中国专利文献CN102621883A和CN108227479A是本发明最接近的现有技术。专利CN102621883A介绍了一种基于数学模型误差判断的PID参数整定方法，而专利CN108227479A通过整体增益、比例增益、积分增益、微分增益的综合调节进行PID参数整定。但是这两种方法侧重于经验公式或在线学习的方法，在实际应用中专利CN102621883A需要监控人员根据误差判断进行调整，不能达到自动整定的效果，而专利CN108227479A中整体增益单元依赖于经验公式，过于繁琐。

近年来，在人工智能博弈取得了巨大成功的深度强化学习被引入以解决各类控制问题。深度强化学习通过一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制。该方法通常构造代理智能体，与环境的反复实验试错和交互，学习最佳行为而无需人参与其中。AndrewHynes等研究人员在2020年Irish Conference on Artificial Intelligence andCognitive Science期刊上发表了Optimising PID Control with Residual PolicyReinforcement，研究带残差策略的PID控制优化，通过强化学习实现PID参数的优化，得到了良好的PID参数自整定效果，但是此工作没有考虑到如何对超调量进行控制。在某些情况下，例如在机械臂控制或电机控制中，超调量过大可能造成机器本身的损坏甚至引起安全事故。在实际情况中，需要兼顾系统调节时间快慢以及超调量的大小获得最佳的控制策略。

发明内容

针对PID控制器的参数设定问题，本发明要克服传统PID参数设定中参数整定困难，性能依赖于工程师设计经验的缺点。本发明提供了一种基于强化学习的无超调PID控制器参数整定方法，旨在帮助实际应用场景中，PID控制器的参数整定更简便有效。控制方案如下所述：

步骤1，建立深度强化模型；

构建深度强化学习智能体，初始化动作网络和评价网络，分别用于选取PID控制器的参数以及评价当前状态下的动作选取。由于动作网络和评价网络的参数更新相互依赖，会造成不易收敛的结果。因此为每个神经网络都设置一个目标网络，对应的目标网络和当前的网络结构相同。动作网络和评价网络的结构相似，均由若干层全连接层组成，隐藏层的激活函数均为Relu函数。两个网络区别在于动作网络的最后一层的激活函数为Sigmoid函数，而评价网络的最后一层没有激活函数。初始化经验池D，用于存放状态转移元组。

步骤2，构建并存储状态转移元组；

智能体通过观测，或传感器得到当前状态的数据，与设定的目标值进行比较得到误差值δ，把其作为当前状态s_t输入到动作网络中。动作网络会根据当前状态s_t计算得到初始动作a_t′：

a_t′＝μ(s_t|θ) (1)

其中μ为动作网络函数，a_t′为动作网络的输出结果，θ为动作网络的参数。

为了能够尽可能地探索动作空间，在原有的动作基础上，添加高斯噪声信号

其中a_t为动作网络输出的最终动作。由于动作网络的输出维度是3，所以a_t为一组三维的向量，即PID控制器的最终参数k_p，k_i，k_d，并用下述公式计算控制量：

其中u(t)为PID控制器输出的控制量。被控对象执行控制量所对应的动作，当前状态发生转移，得到改变后的状态s_t+1并计算奖励值r_t。

具体奖励公式设计如下：

其中e表示自然常数。为了能够在避免超调的情况下尽量地兼顾调节时间，将奖励值设置为三个区间：当误差小于所允许的范围ε时的奖励值最大；当误差大于所允许的范围ε但没有发生超调时的奖励值次之；而误差大于所允许的范围ε且发生了超调时的奖励值最小。

当前状态s_t，动作a_t，转移后状态s_t+1，奖励值r_t，四个元素组成了状态转移元组T。每一次被控对象执行动作时都会进行一次状态转移，并将状态转移元组T存入经验池D内。当经验池D的容量达到上限后，每存入一个新的状态转移元组，便会剔除一个原有的状态转移元组。

步骤3，抽取状态转移元组来训练神经网络；

智能体抽取一定量的状态转移元组，用于训练动作网络和评价网络。根据状态转移元组中的转移后状态s_t+1以及动作a_t，可以得到下一状态预测Q值，即目标值函数y_i：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ)|w) (5)

其中Q′为目标评价网络函数，其结构与评价网络Q结构一致；μ′为目标动作网络函数，其结构与动作网络结构一致；w为评价网络的参数。目标网络函数的意义在于固定目标值函数，加快收敛速度。

对目标值函数y_i和当前评价网络使用均方差损失函数进行更新：

式(6)中N表示训练所抽取的样本数量，Q(s_i，a_i)表示评价网络的输出值，通过神经网络的反向传播来更新当前评价网络的所有参数。由于动作网络输出的是动作s_t，没有参数更新的梯度方向，所以根据评价网络的Q值提供梯度信息进行训练，损失函数如下：

同样采用通过神经网络的反向传播来更新当前动作网络的所有参数。

步骤4，更新目标网络的参数；

在步骤3中，下一状态预测Q值是通过目标神经网络获得。而目标网络需要进行更新，以确保目标值函数y_i的正确性。通过下述公式，来对目标网络进行更新：

τ是更新系数，w是当前评价网络的参数，w′是目标评价网络的参数，θ是当前动作网络的参数，θ′是目标动作网络的参数。通过网络参数的缓慢滑动减少目标值的波动，增强了训练过程的稳定性。

步骤5，智能体通过动作网络生成PID控制器参数；

不断重复步骤2至步骤4，神经网络参数不断迭代直至收敛。将网络权重文件进行保存。智能体通过动作网络函数可以根据不同的误差值状态，输出相应的一组PID控制器的参数，最终使得被控对象的状态值在无超调的基础上以较快的速度达到设定值。由于智能体针对不同的控制任务，根据奖励值r_t优化策略，即动作网络的参数，从而得到最大的奖励值。因此本发明面对不同的控制环境，均可适用，具有较好的泛化能力。

本发明与现有技术相比具有以下特点：

本发明提出了一种基于强化学习的无超调PID控制方法，其能够在无超调的基础上，以较快的速度将误差减小至零。并且是智能体自主探索动作空间，所以不需要训练集，也不依赖于工程师的设计经验，设计简便，实用性强。同时奖励值的设计使得被控对象不会产生超调现象，本发明可以广泛运用于各种对超调量敏感的控制任务中，避免安全事故的发生。

附图说明

图1为本发明的训练流程图。

图2为本发明实例中的动作网络结构。

图3为本发明实例中的评价网络结构。

图4为本发明实例中的仿真机械臂角度变化与固定PID参数角度变化的比较图(3号关节)。

图5为本发明实例中的仿真机械臂的PID控制器参数变化图(3号关节)。

具体实施方式

本发明提出了一种基于强化学习的无超调PID控制方法，下面结合附图和具体实施例中的附图对本发明进一步详细说明如下：

在本实施实例中采用了Universal Robots UR5机械臂。机械臂的任务设定为在一个长宽均为0.5m的正方形区间内，使得机械臂末端移动至正方形区间内5×5共计25个的格点。根据机器人逆运动学计算机械臂的各个关节所需的关节角，对各个关节进行控制。

步骤1，建立深度强化模型；

构建深度强化学习智能体，初始化动作网络和评价网络，具体网络构造如图2和图3所示，分别用于选取PID控制器的参数以及评价当前状态下的动作选取。由于动作网络和评价网络的参数更新相互依赖，会造成不容易收敛的结果。因此为每个神经网络都设置一个目标网络，目标网络分别和当前的动作网络与评价网络结构相同。动作网络和评价网络的结构相似，均由三层全连接层组成，隐藏层的神经元个数均为350，隐藏层的激活函数均为Relu函数，区别在于动作网络的最后一层的激活函数为Sigmoid函数，而评价网络的最后一层没有激活函数。同时初始化经验池D，容量为2000，用于存放状态转移元组。

步骤2，构建并存储状态转移元组；

智能体通过传感器得到当前各个关节实际角度的数据，与设定的目标角度进行比较得到误差值δ，把其作为当前状态s_t输入到动作网络中。而动作网络会根据当前状态s_t计算得到动作a_t′：

a_t′＝μ(s_t|θ) (1)

其中μ为动作网络函数，a_t′为动作网络的输出结果。

由于动作网络的输出维度是3，所以μ′(s_t)为一组三维的向量，即PID控制器的最终参数k_p，k_i，k_d，并用下述公式计算控制量：

其中u(t)为PID控制器输出的关节角转动的速度值。关节电机执行PID控制器输出的速度值，当前角度值发生变化，得到改变后的角度值s_t+1并计算奖励值r_t。

具体奖励公式设计如下：

其中e表示自然常数。为了能够在避免超调的情况下能够尽量地兼顾调节时间。将奖励值设置为三个区间：当误差小于所允许的范围ε时的奖励值最大；当误差大于所允许的范围ε但没有发生超调时的奖励值次之；而误差大于所允许的范围ε且发生了超调时的奖励值最小。

当前角度s_t，动作a_t，变化后角度s_t+1，奖励值r_t，四个元素组成了状态转移元组T。每一次被控对象执行动作时都会进行一次状态转移，并将状态转移元组T存入经验池D内。当经验池D的容量达到上限后，每存入一个新的状态转移元组，便会剔除一个原有的状态转移元组。

步骤3，抽取状态转移元组来训练神经网络；

智能体抽取128个状态转移元组，用于训练动作网络和评价网络。根据状态转移元组中的转移后角度s_t+1以及动作a_t，可以得到下一状态预测Q值，计算目标值函数y_i：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ)|w) (5)

其中Q′为目标评价网络函数，其结构与评价网络Q结构一致；μ′为目标动作网络函数，其结构与动作网络结构一致。目标网络函数的意义在于固定目标值函数，加快收敛速度。

式(6)中训练所抽取的样本数量为128，Q(s_i,a_i)表示评价网络的输出值，通过神经网络的反向传播来更新当前评价网络的所有参数。由于动作网络输出的是动作s_t，没有参数更新的梯度方向，所以根据评价网络的Q值提供梯度信息进行训练，优化函数如下：

步骤4，更新目标网络的参数；

τ是更新系数为0.01，w是当前评价网络的参数，w′是目标评价网络的参数，θ是当前动作网络的参数，θ′是目标动作网络的参数。通过网络参数的缓慢滑动减少目标值的波动，增强了训练过程的稳定性。

步骤5，智能体通过动作网络生成PID控制器参数；

不断重复步骤2至步骤4，神经网络参数不断迭代直至收敛。将网络权重文件进行保存。智能体通过动作网络函数可以根据不同的误差值状态，输出相应的一组PID控制器的参数，最终使得被控对象的状态值在无超调的基础上以较快的速度达到设定值。由于智能体针对不同的控制任务，根据奖励值rt优化策略，即动作网络的参数，从而得到最大的奖励值。因此本发明面对不同的控制环境，均可适用，具有较好的泛化能力。

Claims

1.基于强化学习的无超调PID控制器参数整定方法，具体步骤如下：

步骤1，建立深度强化模型；

构建深度强化学习智能体，初始化动作网络和评价网络，分别用于选取PID控制器的参数以及评价当前状态下的动作选取。由于动作网络和评价网络的参数更新相互依赖，会造成不易收敛的结果。因此为每个神经网络都设置一个目标网络，对应的目标网络和当前的网络结构相同。动作网络和评价网络的结构相似，均由若干层全连接层组成，隐藏层的激活函数均为Relu函数。两个网络区别在于动作网络的最后一层的激活函数为Sigmoid函数，而评价网络的最后一层没有激活函数。初始化经验池D，用于存放每一次的状态转移元组。

步骤2，构建并存储状态转移元组；

a_t′＝μ(s_t|θ) (1)

其中μ为动作网络函数，a_t为动作网络的输出结果。

具体奖励公式设计如下：

步骤3，抽取状态转移元组来训练神经网络；

智能体抽取一定量的状态转移元组，用于训练动作网络和评价网络。根据状态转移元组中的转移后状态s_t+1以及动作a_t，可以得到下一状态预测Q值，计算目标值函数y_i：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ)|w) (5)

式(6)中N表示训练所抽取的样本数量，Q(s_i，a_i)表示评价网络的输出值，通过神经网络的反向传播来更新当前评价网络的所有参数。由于动作网络输出的是动作s_t，没有参数更新的梯度方向，所以根据评价网络的Q值提供梯度信息进行训练，优化函数如下：

步骤4，更新目标网络的参数；

步骤5，智能体通过动作网络生成PID控制器参数；