CN116400582A

CN116400582A - 一种基于强化学习算法的比例控制器参数自整定方法

Info

Publication number: CN116400582A
Application number: CN202310400856.7A
Authority: CN
Inventors: 刘亚俊; 郭能昌; 全霖锋; 高筠砚
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-07

Abstract

本发明公开了一种基于强化学习算法的比例控制器参数自整定方法，包括以下步骤：通过算法损失函数设计，并对网络输入量进行预处理；构建深度确定性策略梯度强化学习算法与影子演员网络的算法复合框架；基于环境信息，批评家网络进行参数更新；基于环境信息与批评家网络输出，对表演家网路参数进行优化，并与影子网路数据进行同步；重复上述步骤，直至满足强化学习算法终止条件，并输出表演家网络参数。与传统控制器参数整定方法相比，本发明方法主要面向应用于变工况场景的控制器，本发明的比例参数可基于当前状态，通过神经网络动态调节，使系统具有较小的超调量、上升时间、调节时间等。

Description

一种基于强化学习算法的比例控制器参数自整定方法

技术领域

本发明涉及控制器参数整定领域，具体涉及一种基于强化学习算法的比例控制器参数自整定方法。

技术背景

参数调整是一项控制器设计过程中枯燥但是关键的工作。研究者们一直在尝试摆脱使用试凑的方法进行控制器参数选定。对于已知参数的带时延的一阶惯性环节，Ziegler-Nichols方法可通过整定公式计算出PID参数值。Ziegler和Nichols的工作，是PID参数调整方法的起源，为许多后来的工作提供了经验与基准、粒子群优化(PSO)和蚁群优化(ACO)算法，一些有效的控制器参数调整策略被提出。不同于前面所述的控制器参数调整方法，这些使用这些算法时，不需要对被控对象建立相关模型。然而，这些无模型的参数调整方法，却非常容易陷入局部最优解。为了获得全局最优解，基于强化学习算法的无模型的参数调整方法被提出。强化学习采用自我监督学习的形式，它与环境相互作用，并通过试错改进。原则上，它们可能会超过人类的能力，并在缺乏人类专业知识的领域运作。研究人员已经实现利用强化学习算法将参数整定的工作相结合，以提高获取全局最优解的可能性，并在仿真系统、实物系统中进行了验证。这些基于强化学习算法的无模型的控制器设计方法在以往的研究中都被取得了一定的实验效果(Double Q-PID algorithm for mobilerobot controllgnacio Carlucho,Mariano De Paula；Gerardo G.Acosta INTEIYMEL,Centro de lmvestigaciones en Fisica e Ilngenierin del Centro ClFICEN-LNICEN-CICpBA-CONICET,Olavarria 7400,Argentina)。然而实际应用中，这些基于强化学习算法的无模型的控制器设计方法存在局限性：缺乏有效改进，以应对控制器算力紧张问题。对于控制器而言，算力一直是稀缺的资源。在控制器计算单元中，一个完整的强化学习算法，特别是是深度强化学习算法的计算，是耗时和资源密集型的。两类不够完美的方法被提出以解决该问题：第一种方法是提高控制器性能，但该方案将提高设备成本。另外一种方法是在在强化学习算法运行结束后，固定相关网络参数，以降低应用强化学习经验的计算成本，但该方案只适用于工况单一的场景，无法实现参数自整定

发明内容

为了解决控制器参数自整定领域中，现有基于强化学习方法技术应用成本高、算力消耗大等缺点，同时实现在算力有限设备中，获得全局最优控制器控制参数的目的。本发明提出了一种基于强化学习算法的比例控制器参数自整定方法，通过构建强化学习算法与影子演员网络的复合结构，经过数据预处理、网络模型训练等过程，实现强化学习网络与影子演员网络参数的调整，并利用影子演员网络实现控制器参数自整定，以最终达到优化控制器综合控制性能的目的。

本发明至少通过如下技术方案之一实现。

一种基于强化学习算法的比例控制器参数自整定方法，包括以下步骤：

利用预实验，对变工况场景下电机的转速数据进行采集；

将电机的转速数据进行预测处理，对负载变化区间进行预测；

搭建基于强化学习网络的控制器参数整定网络并训练，控制器参数整定网络包括批评家网络、表演家网络、影子演员网络；

将训练过程中的转速信号进行归一化，基于信号中的环境信息，批评家网络进行参数更新；基于环境信息与批评家网络输出，对表演家网络参数进行优化，并与影子演员网络进行同步；基于批评家网络与表演家网络对批评家目标网络与表演家目标网络的网络参数进行更新；影子演员网络结合转速变化信息，对比例控制器的比例参数进行调整，以优化控制器综合控制性能；

对所述影子演员网络实现独立运行。

进一步地，所述预实验是指在电机实际应用场景下，在通过恒电压、恒功率方式，对被控对象的被控量的变化范围进行初步采集，对于电机恒转速控制器，采集并记录电机的转速信号。

进一步地，预测处理是指通过所采集的预实验数据，确定经过修正的转速变化标准差σ_s，即经修正后的离均差平方的算术平均数的算术平方根，通过将用缩放系数修正后的计算公式如下：

其中，N为数据总数，n为数据编号，x_n为每个独立的数据，

为数据平均值，γ为缩放系数。

进一步地，对训练过程中的转速信号进行归一化为：利用转速运动标准差σ_s，对输入网络的环境向量进行标准化，强化学习网络中输入向量含转速变化项的标准公式为：

其中，x′为经过归一化后的用于传入强化学习框架的各物理参数，x为当前传感器所采集的电机转速，x₀为目标转速。

进一步地，通过构建损失函数，并对批评家网络进行参数更新：

其中，M为输入向量数据总数，s_i为输入网络的环境信息，a_i为表演家网络的输出，Q(·)函数即为批评家网络，L为损失函数输出值，y_i为批评家网络输出的期望值，由奖励函数计算得出。

进一步地，基于环境信息与批评家网络输出，对表演家网络参数进行优化，优化目标为：

其中，s即为输入网络的环境信息向量，μ(·)函数即为表演家网络，Q(·)函数即为批评家网络，E(·)函数表示期望，

函数表示优化目标寻找的网络参数θ，使得函数内关于参数θ目标函数取值趋向最大化；批评家网络利用梯度上升方向对表演家网络参数进行优化。

进一步地，所述影子演员网络的权重通过下式更新：

θ^μs←θ^μmix

θ^μmix＝(1-α)θ^μ+αθ^μs

其中，θ^μmix为用于影子演员网络所更新的网络参数，θ^μs为影子演员网络参数，θ^μ为表演家网络参数，α为随机变量且α∈[0，1]。

进一步地，所述基于批评家网络与表演家网络对批评家目标网络与表演家目标网络的网络参数进行更新是指，通过下式对批评家目标网络与表演家目标网络参数进行迭代更新：

θ^μt←ρθ^μt+(1-ρ)θ^μ

θ^Qt←ρθ^Qt+(1-ρ)θ^Q

其中，θ^μt为表演家目标网络参数，θ^Qt为批评家目标网络参数，θ^μ为表演家网络参数，θ^Q为批评家网络参数，ρ为定值且ρ∈[0，1]。

进一步地，影子演员网络结合转速变化信息，对比例控制器的比例参数进行调整包括影子演员网络使用嵌入式控制器所采集的包含电机转速在内的环境信息，通过下式计算出一个新的比例控制器比例参数，并作用于嵌入式控制器的比例控制过程中。

K＝μ^s(s|θ^μs)

Δu(k)＝K[e(k)-e(k-1)]

其中，K为比例控制器参数，μ^s(·)为影子演员网络，s为输入网络的环境信息向量，θ^μs为影子演员网络参数，Δu(·)为控制电机转动的控制量的变化值，e(·)为电机目标转速与实际转速的偏差，k即为当前采样时刻。

进一步地，影子演员网络实现独立运行是在强化学习算法完成训练过程后，将表演家网络参数直接与影子演员网络参数进行同步，即：

θ^μs＝θ^μ

其中，θ^μs为影子演员网络参数，θ^μ为电脑端的表演家网络参数。

与现有的技术相比，本发明的有益效果为：

本发明通过构建强化学习算法与影子演员网络的复合结构，实现了一种面向全局最优控制参数、算力受限设备、变工况场景的控制器参数自整定方法。由于该方法通过利用影子演员网络，降低了强化学习算法调整控制器参数的经验的应用算力成本，为变工况场景实现控制器参数的实时自整定，大幅提高控制器在变负载、算力受限等环境下的控制性能。同时由于本发明所依赖的算法框架具有自动化程度高、框架参数调参简易等特点，具有较大的应用价值和推广前景。

与传统控制器参数整定方法相比，本发明方法主要面向应用于变工况场景的控制器。本发明的比例参数可基于当前状态，通过神经网络动态调节，使系统具有较小的超调量、上升时间、调节时间等。系统动态响应性能指标以及系统抗干扰能力得到显著改善。

附图说明

图1为本发明实施例所述的一种基于强化学习算法的比例控制器参数自整定方法的整体结构的平面示意图；

图2为本发明实施例所述的一种基于强化学习算法的比例控制器参数自整定方法的立体结构图；

图3为本发明实施例所述的强化学习算法模型的训练过程损失函数变化曲线；

图4为本发明实施例所述的控制器参数自整定流程图；

图5为本发明实施例在变负载与空载条件下的实验效果图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，以下将结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

前期需对变负载工况进行初步探究，即使电机以恒电压/恒功率等方式在变负载工况下工作，并对被控对象的被控量的变化范围进行初步采集。该过程被称为预实验。对于预实验数据，主要用于确定经过修正的转速变化标准差σ_s，即经修正后的离均差平方的算术平均数的算术平方根。

作为一种优选的实施例，通过将用缩放系数修正后的计算公式如下：

其中，N为数据总数，n为数据编号，x_n为每个独立的数据，

为数据平均值，γ为由实验者结合实际工况确定的缩放系数；

搭建基于强化学习网络与影子演员网络所组成的控制器参数整定框架并训练，如图1所示，包括两个部分：计算机端运行的强化学习网络框架，控制器端运行的影子演员网络，搭建主要包括以下步骤：

(1)、建立并训练由计算机运行的强化学习网络即深度确定性策略梯度强化学习算法ddpg算法；所述强化学习网络为(演员-评论家算法(Actor-Critic Algorithm))包括批评家网络、批评家目标网络、表演家网络、表演家目标网络；

(2)、建立并训练由嵌入式开发板运行的影子演员网络、比例控制器。

上述两个步骤在不同硬件中运行，并在该强化学习算法与影子演员网络的复合结构完成训练后退出，并进入图3所示的后续步骤中。

作为一种优选的实施例，影子演员网络与表演家网络共享网络结构，即二者具有相同的网络结构。

图1所示内容包括以下具体实施步骤。

步骤一、对训练过程中的转速信号进行归一化过程，主要利用由预实验所确定的转速运动标准差σ_s，对输入网络的环境向量进行标准化，以实现网络参数的平稳变化，避免训练过程不收敛等情况的出现。强化学习网络中输入向量含转速变化项的标准公式为：

其中，x′为经过归一化后的用于传入强化学习框架的各物理参数，x为当前传感器所采集的电机转速，x₀为目标转速，σ_s为经预实验通过下式选定的标准差；

其中，N为数据总数，n为数据编号，x_n为每个独立的数据，

为数据平均值，γ为缩放系数；

步骤二、将所述环境信息，即包括电机运动转速变化信息在内的与电机在变工况条件下运行相关的所有传感器所获取的信息，将所述环境信息打包并传入强化学习网络框架中。

步骤三、通过下式构建损失函数，并对批评家网络进行参数更新：

其中，M为输入向量数据总数，s_i为输入网络的环境信息，环境信息即包含转速，转速变化速率，电机振动信号等一系列物理参数在内的数据集合，a_i为表演家网络的输出，Q(·)函数即为批评家网络，L为损失函数输出值。y_i为批评家网络输出的期望值，由奖励函数计算得出。

步骤四、基于环境信息与批评家网络输出，对表演家网络参数进行优化，表演家网络优化目标为：

其中，μ(·)函数即为表演家网络，Q(·)函数即为批评家网络，E(·)函数表示期望，

函数表示优化目标为寻找网络参数θ，使得函数内关于参数θ目标函数取值趋向最大化；通过该方法可就批评家网络利用梯度上升方向对表演家网络参数进行优化。所述网络参数指神经网络的参数，包括网络层连接权重、偏置等参数等。

步骤五、将强化学习网络中的表演家网路与影子网路数据进行同步，将运行在计算机中的表演家网络参数，周期性地的将参数同步至嵌入式控制器中，本实施例的嵌入式控制器为电机控制器，使得嵌入式控制器中的影子演员网络能够不断更新由强化学习算法框架所学习到的知识。这一过程中，引入随机量是实现动作空间的探索的关键，通过下式构建具有随机扰动的影子演员网络：

θ^μs←θ^μmix

θ^μmix＝(1-α)θ^μ+αθ^μs

其中，θ^μmix为用于影子演员网络所更新的网络参数，θ^μs为影子演员网络参数，θ^μ为的表演家网络参数，α为随机变量且α∈[0，1]。

如图2所示，即电脑与嵌入式控制器建立连接，将表演家网络参数，经上式计算后，将计算结果发送至嵌入式控制器中。

步骤六、基于批评家网络与表演家网络对批评家目标网络与表演家目标网络的网络参数进行更新，通过下式对批评家目标网络与表演家目标网络参数进行迭代更新：

θ^μt←ρθ^μt+(1-ρ)θ^μ

θ^Qt←ρθ^Qt+(1-ρ)θ^Q

其中，θ^μt为表演家目标网络参数，θ^Qt为批评家目标网络参数，θ^μ为表演家网络参数，θ^Q为批评家网络参数，ρ为定值且ρ∈[0，1]。计算机端强化学习网络通过步骤一至六实现参数的迭代更新，该过程中强化学习算法的奖励函数输出结果的变化曲线，如图3所示。在图3中随着网络训练过程的进行，奖励函数输出值不断提高，表明网络参数已实现正常收敛。

步骤七、嵌入式控制器结合影子演员网络结合短时转速变化信息，对比例控制器的比例参数进行调整。影子演员网络使用嵌入式控制器所采集的包含电机转速在内的环境信息，通过下式计算出一个新的比例控制器比例参数，并作用于嵌入式控制器的比例控制过程中。

K＝μ^s(s|θ^μs)

Δu(k)＝K[e(k)-e(k-1)]

其中，K为比例控制器参数，μ^s(·)为影子演员网络，s为输入网络的环境信息，θ^μs为影子演员网络参数，Δu(·)为控制电机转动的控制量的变化值，e(·)为电机目标转速与实际转速的偏差，k即为当前采样时刻，(k-1)即为上一采样时刻。

上述过程如图1所示，k表示当前采样时刻，r(k)则为当前时刻目标转速，其经过与转速传感器返回值相减后，得到当时刻的偏差e(k)。通过当前时刻转速偏差与上一时刻转速偏差，比例控制器通过上式计算得到控制电机转动的控制量的变化值Δu(k)，而后通过上一时刻的输出电压，最后得到用于控制电机转动的控制量u(k)。

u(k)＝Δu(k)+u(k-1)

最后，被控对象电机中的各输出量，含电机当前转速、转速变化速率，电机振动信号等一系列物理参数，被同一标记为y(k)，经传感器记录后，被标记为强化学习算法的环境信息，并通过串口桥接器传入强化学习网络。

完成上述步骤后，该强化学习算法与影子演员网络的复合结构将被拆分，影子演员网络将独立运行，减少算法运行所需算力。在该复合结构拆分的过程中，表演家网络参数直接与影子演员网络参数进行同步，即：

θ^μs＝θ^μ

参数同步后，嵌入式控制器与强化学习网络训练框架断开连接，嵌入式控制器独立运行，影子演员网络参数保持固定，嵌入式控制器比例参数，由影子演员网络基于电机运行状态进行动态调整，以实现在变工况条件下嵌入式控制器依然能够高效运行。

图4为影子演员网络实现独立运行时的实施步骤：目标转速与实际转速的差值作为图中所述误差值，传入比例控制器的比例环节，实现对电机的比例控制。演员影子网络构成比例参数的调整网络，该网络以目标电机转速、当前电机转速、以及电机运行过程中的历史信息，对比例参数进行实时调整，使之能够在具有时变外负载，即外部扰动的工况下，实现对比例参数的自整定，并进而实现更为稳定转速的控制效果。

最终，影子演员网络实现独立运行时，在无负载与带时变负载不同条件下的转速变化对比图，如图5所示。图5中，在无负载工况下，经过传感器约80次采样后，电机转速接近目标转速且超调量少，能逐渐稳定在目标转速附近；在具有时变负载的工况下，经过传感器约60次采样后电机转速接近目标转速。此后，电机转速在时变工况中，控制器可将电机的转速的均值控制在目标转述附近。

本发明基于强化学习网络与影子演员网络所组成的控制器参数整定复合框架的构建；构建该方法中的相关数据预处理方式，复合框架中各网络参数更新过程的优化，电机控制器对影子演员网络的的应用，能够在线进行控制器参数设计。该在线整定的方法能够没有先验知识的情况下，帮助工程师设计高性能控制器。最后，本方法的应用过程简单、硬件成本较低，有利于技术的实施推广。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于强化学习算法的比例控制器参数自整定方法，其特征在于，包括以下步骤：

利用预实验，对变工况场景下电机的转速数据进行采集；

对所述影子演员网络实现独立运行。

2.根据权利要求1所述的一种基于强化学习算法的比例控制器参数自整定方法，其特征在于，所述预实验是指在电机实际应用场景下，在通过恒电压、恒功率方式，对被控对象的被控量的变化范围进行初步采集，对于电机恒转速控制器，采集并记录电机的转速信号。

3.根据权利要求1所述的一种基于强化学习算法的比例控制器参数自整定方法，其特征在于，预测处理是指通过所采集的预实验数据，确定经过修正的转速变化标准差σ_s，即经修正后的离均差平方的算术平均数的算术平方根，通过将用缩放系数修正后的计算公式如下：

其中，N为数据总数，n为数据编号，x_n为每个独立的数据，

为数据平均值，γ为缩放系数。

4.根据权利要求3所述的一种基于强化学习算法的比例控制器参数自整定方法，其特征在于，对训练过程中的转速信号进行归一化为：利用转速运动标准差σ_s，对输入网络的环境向量进行标准化，强化学习网络中输入向量含转速变化项的标准公式为：

5.根据权利要求1所述的一种基于强化学习算法的比例控制器参数自整定方法，其特征在于，通过构建损失函数，并对批评家网络进行参数更新：

6.根据权利要求1所述的一种基于强化学习算法的比例控制器参数自整定方法，其特征在于，基于环境信息与批评家网络输出，对表演家网络参数进行优化，优化目标为：

7.根据权利要求1所述的一种基于强化学习算法的比例控制器参数自整定方法，其特征在于，所述影子演员网络的权重通过下式更新：

θ^μs←θ^μmix

θ^μmix＝(1-α)θ^μ+αθ^μs

8.根据权利要求1所述的一种基于强化学习算法的比例控制器参数自整定方法，其特征在于，所述基于批评家网络与表演家网络对批评家目标网络与表演家目标网络的网络参数进行更新是指，通过下式对批评家目标网络与表演家目标网络参数进行迭代更新：

θ^μt←ρθ^μt+(1-ρ)θ^μ

θ^Qt←ρθ^Qt+(1-ρ)θ^Q

9.根据权利要求1～8任一项所述的一种基于强化学习算法的比例控制器参数自整定方法，其特征在于，影子演员网络结合转速变化信息，对比例控制器的比例参数进行调整包括影子演员网络使用嵌入式控制器所采集的包含电机转速在内的环境信息，通过下式计算出一个新的比例控制器比例参数，并作用于嵌入式控制器的比例控制过程中：

K＝μ^s(s|θ^μs)

Δu(k)＝K[e(k)-e(k-1)]

10.根据权利要求9所述的一种基于强化学习算法的比例控制器参数自整定方法，其特征在于，影子演员网络实现独立运行是在强化学习算法完成训练过程后，将表演家网络参数直接与影子演员网络参数进行同步，即：

θ^μs＝θ^μ