CN115097736A

CN115097736A - 一种基于深度强化学习的自抗扰控制器参数优化方法

Info

Publication number: CN115097736A
Application number: CN202210955313.7A
Authority: CN
Inventors: 房淑华; 王翌丞
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-09-23

Abstract

本发明公开了一种基于深度强化学习的自抗扰控制器参数优化方法，属于机电领域，其中，所述方法包括：以永磁同步电机自抗扰控制器参数作为优化目标；搭建深度强化学习模型，将控制系统作为环境，将电机转速作为状态，以转速平稳程度和抗干扰能力设置奖励，使用Actor‑Critic算法训练智能体根据环境和状态选择优化动作，依据动作后获得奖励大小改进优化动作，使智能体自主学习自抗扰参数优化；设计深度确定性策略梯度方法，使参数优化过程收敛，完成基于深度强化学习的参数优化模型训练，获得最优参数。采用上述方案，能以最小人工调试成本获得自抗扰控制器最优参数，进而解决自抗扰控制器参数多，耦合性强，敏感性低，难于调试使其工作在最优状态的问题。

Description

一种基于深度强化学习的自抗扰控制器参数优化方法

技术领域

本发明涉及机电领域，尤其涉及一种基于深度强化学习的自抗扰控制器参数优化方法。

背景技术

自抗扰控制器作为一种热门的电机控制技术，被广泛地研究和应用在自动化控制与工业生产的各个领域中。

现有技术中，由于自抗扰控制器内部参数数量多，耦合性强，敏感性低，导致自抗扰控控制器的参数一般都是靠手动调试和经验调试，耗费时间长，效率低，不能发挥出控制器的最优性能。

发明内容

针对现有技术的不足，本发明提出了一种基于深度强化学习的自抗扰控制器参数优化方法。以实现根据电机与自抗扰控制器的模型自适应调节自抗扰控制器参数，达到自抗扰控制器参数最优的效果，进而解决自抗扰控制器参数难以调节，传统方法效率低且不能保证参数最优的问题。

本发明的目的可以通过以下技术方案实现：一种基于深度强化学习的自抗扰控制器参数优化方法，包括：建立速度环自抗扰控制器模型，并设置参数优化目标；结合马尔科夫过程搭建自抗扰控制器参数的深度强化学习模型；使用Actor-Critic(AC)算法使智能体不断与环境交互，自主学习自抗扰控制参数优化方法；设计深度确定性策略梯度方法，使参数优化过程收敛，完成基于深度强化学习的自抗扰控制器参数优化模型的训练。主要步骤如下：

步骤1：建立速度环自抗扰控制器模型；根据实际模型选出需要被优化的参数及数量，设置优化目标。

具体地，自抗扰控制器包含三个部分，分别是跟踪微分器，扩张状态观测器，以及非线性状态误差反馈。跟踪-微分器(Tracking Differentiator,TD)可以对输入信号进行跟踪，并安排过渡状态，使控制快速且无超调。扩张状态观测器(Extended StateObserver,ESO)是用来观测输出以及其各阶微分量，与此同时将系统内部扰动以及外部变量作为总扰动，对总扰动进行观察与估计。非线性状态误差反馈(Nonlinear State ErrorFeedback,NLSEF)主要控制参考输入以及扩张状态的误差信号的非线性组合，同时对观测到的总扰动进行补偿。

速度环的控制器为一阶模型。其一阶跟踪微分器模型为：

式中：Z₁₁表示跟踪微分器处理过后的输入值状态，

表示跟踪微分器处理过后的输入值状态微分量。ω*表示给定速度，e₁为给定与跟踪的误差，r为增益系数，fal函数是非线性函数，其表达式为：

式中：x为函数输入，α为表示非线性因子的常数，δ为影响滤波效果的常数。自抗扰控制器不同模块所使用的fal函数中的α和δ各不同，以下标作为区分，如在跟踪微分器中，参数为α₁和δ₁。

一阶扩张状态观测器模型为：

式中：ω表示采集到的实际速度，Z₂₁表示扩张状态观测器对系统输出的观测量，e₂为二者误差；Z₂₂表示对总扰动的观测量，β₂₁，β₂₂为增益系数，

表示误差观测量的微分形式，b表示补偿系数u表示非线性状态误差反馈的输出。

一阶非线性状态误差反馈模型为：

式中：Z₁₁表示跟踪微分器处理过后的输入值状态，Z₂₁表示扩张状态观测器对系统输出的观测量，e为Z₁₁和Z₂₁的差值，β₃为增益系数。

将设定转速值输入自抗扰控制器，经过跟踪微分器得到给定转速的状态量；将采集到的转速实际值输入扩张状态观测器，得到实际转速的状态量以及观测到的总误差值；将给定转速状态量与实际转速状态量做差，差值经过非线性状态误差反馈得出初始输出值u₀，加入对扩张状态观测器观测到的总扰动的补偿得到最终的输出值u，也就是弱磁系统需要的转矩初始给定值。

可以看出，自抗扰控制器共有12个参数需要优化调节：

步骤2：结合马尔可夫决策过程搭建自抗扰控制器参数的深度强化学习模型,将当前电机控制系统作为环境，将电机转速曲线作为状态，以转速平稳程度和抗干扰能力设置奖励。

具体地，电机转速值设置为：状态(State)，用于评估参数优化效果；电机控制环境设置为：环境(Environment)，负责在参数变化后给出实时状态；动作(Action),学习对12个参数进行调整与探索；奖励(Reward)，采用动作后依据此时环境给出的新的状态进行评估。所采用的奖励函数为：

R＝r₁e_os/s₁+r₂t_rs/s₂+r₃t_rl/s₃+r₄|e_l|/s₄ (6)

式中：e_os、e_l、t_rs和t_rl是优化目标，e_os和e_l分别是启动和突然负载转换时的速度误差，t_rs和t_rl分别是启动时间和突然负载后速度恢复正常的时间，s₁、s₂、s₃和s₄是标准化系数，因为优化目标之间的维度不同；r₁、r₂、r₃和r₄是四个优化目标的权重系数，根据应用环境的不同需求进行更改，当最终评估值R最小时，将获得最佳优化结果。

步骤3：使用AC算法训练智能体根据环境和状态选择不同的优化动作，并依据动作后获得的奖励大小改进优化动作，使智能体不断与环境交互，自主学习到自抗扰控制参数优化的方法。

具体地，经典的行为-批评结构AC算法包含：行动者Actor，可以学习和构建策略网络，并根据网络在不同状态下选择不同的行动；评价者Critic，它可以评估优化政策网络的行动的价值。智能体根据奖励值进行评价，根据评价决定行动者该如何行动，即参数的调整方向与幅度。此AC回合结束后进行新一轮的交互与学习，直到参数的调整和优化收敛为止。除此以外，在行动者采取优化行为后，智能体会为此次行为添加噪声，可以模拟系统的干扰，使结果更加准确。

Actor结构网络可表示为μ(s|θ^μ)，θ^μ是策略网络μ的内部参数。当前状态和动作分别表示为s_t和a_t。智能体根据基于s_t的μ(s|θ^μ)采取行动a_t。加入的噪声可表示为：

a_t＝μ(s_t|θ^μ)+Noise (7)

当一个动作完成时，奖励r_t和下一个状态s_t+1被反馈，数据(s_t,a_t,r_t,s_t+1)将存储在数据库中。{(s_i,a_i,r_i,s_i+1)|i＝1,2,…,N}则包含从数据库中随机选择的一些数据集，用于训练。随后，由Q(s,a|θ^Q)表示的Critic评价网络将根据上一步的s和a进行评价。

步骤4：设计深度确定性策略梯度方法，使参数优化过程收敛，完成基于深度强化学习的自抗扰控制器参数优化模型的训练；

目标网络的评估值为y_i，目标网络与实际网络之间的损失为L，二者可根据(9)计算。用最小的L作为优化目标即可优化Q网络参数θ^Q。用(10)中网络的负平均值J作为优化目标更新θ^μ，即可使实际网络Critic的评价值最大化。

动作设置允许算法校正需要优化的ADRC参数，并使用(11)实现参数的归一化、恢复和校正。(12)用于使优化参数处在可行的范围内。

式中：θ_max,θ_min θⁱ,

分别是第i代参数的上限、下限、原始值、正则化后的值。(13)用于评估和处理设定优化目标后实际值与给定值之间的误差。(14)用于惩罚和奖励参数修正，以及(15)用作优化的最终评估。

R_Obs＝error evaluation (13)

R＝-(α_ObsR_Obs+α_θR_θ) (15)

式中：α_Obs,α_θ分别是观测奖励和参数校正奖惩的相应权重。

本发明的有益效果：与现有技术相比，本发明具有如下显著优点：通过自适应调节自抗扰控制器参数，能够提高参数调节效率，节省参数调节时间，避免参数落入局部优化，充分发挥自抗扰控制器性能。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明实施例中的基于深度强化学习的永磁电机用速度环自抗扰控制器参数优化控制系统图；

图2为本发明实施例中的自抗扰控制器结构示意图。

图3为本发明实施例中的永磁电机用速度环自抗扰控制结构示意图。

图4为本发明实施例中的基于深度强化学习的自抗扰参数优化框架结构示意图。

图5为本发明实施例中的深度确定性梯度策略与AC算法结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例中提供一种基于深度强化学习的自抗扰控制器参数优化方法，包括：建立速度环自抗扰控制器模型，并设置参数优化目标；结合马尔科夫过程搭建自抗扰控制器参数的深度强化学习模型；使用AC算法使智能体不断与环境交互，自主学习自抗扰控制参数优化方法；设计深度确定性策略梯度方法，使参数优化过程收敛，完成基于深度强化学习的自抗扰控制器参数优化模型的训练。具体优化过程与控制结构可参阅图1所示。主要步骤如下：

具体地，参阅图2，自抗扰控制器包含三个部分，分别是跟踪微分器，扩张状态观测器，以及非线性状态误差反馈。跟踪-微分器(Tracking Differentiator，TD)可以对输入信号进行跟踪，并安排过渡状态，使控制快速且无超调。扩张状态观测器(Extended StateObserver,ESO)是用来观测输出以及其各阶微分量，与此同时将系统内部扰动以及外部变量作为总扰动，对总扰动进行观察与估计。非线性状态误差反馈(Nonlinear State ErrorFeedback,NLSEF)主要控制参考输入以及扩张状态的误差信号的非线性组合，同时对观测到的总扰动进行补偿。

速度环的控制器为一阶模型。其一阶跟踪微分器模型为：

式中：Z₁₁表示跟踪微分器处理过后的输入值状态，

表示跟踪微分器处理过后的输入值状态微分量。ω*表示给定速度，r为增益系数，fal函数是非线性函数，其表达式为：

一阶扩张状态观测器模型为：

式中：ω表示采集到的实际速度，Z₂₁表示扩张状态观测器对系统输出的观测量，Z₂₂表示对总扰动的观测量，β₂₁，β₂₂为增益系数，Z₂₂表示误差观测量的微分形式，b表示补偿系数。

一阶非线性状态误差反馈模型为：

式中：u表示非线性状态误差反馈的输出。

此时，永磁电机速度环自抗扰控制系统搭建完毕，可参阅图3。

可以看出，自抗扰控制器共有12个参数需要优化调节：

步骤2：结合马尔可夫决策过程搭建自抗扰控制器参数的深度强化学习模型，将当前电机控制系统作为环境，将电机转速曲线作为状态，以转速平稳程度和抗干扰能力设置奖励。

具体地，电机转速值设置为：状态(State)，用于评估参数，化效果；电机控制环境设置为：环境(Environment)，负责在参数变化后给出实时状态，具体结构参阅图3所示；动作(Action),学习对12个参数进行调整与探索；奖励(Reward)，采用动作后依据此时环境给出的新的状态进行评估。所采用的奖励函数为：

R＝r₁e_os/s₁+r₂t_rs/s₂+r₃t_rl/s₃+r₄|e_l|/s₄ (6)

式中：e_os,e_l,t_rs,和t_rl是优化目标。e_os和e_l分别是启动和突然负载转换时的速度误差。t_rs和t_rl分别是启动时间和突然负载后速度恢复正常的时间。s₁,s₂,s₃,s₄是标准化系数，因为优化目标之间的维度不同。r₁,r₂,r₃,r₄是四个优化目标的权重系数，可以根据应用环境的不同需求进行更改。当最终评估值R最小时，将获得最佳优化结果。优化结构参阅图4所示。

具体地，经典的行为-批评结AC构算法包含：行动者Actor，可以学习和构建策略网络，并根据网络在不同状态下选择不同的行动；评价者Critic，它可以评估优化政策网络的行动的价值。智能体根据奖励值进行评价，根据评价决定行动者该如何行动，即参数的调整方向与幅度。此AC回合结束后进行新一轮的交互与学习，直到参数的调整和优化收敛为止。除此以外，在行动者采取优化行为后，智能体会为此次行为添加噪声，可以模拟系统的干扰，使结果更加准确。

参阅图5所示，Actor结构网络可表示为μ(s|θ^μ)，θ^μ是策略网络μ的内部参数。当前状态和动作分别表示为s_t和a_t。智能体根据基于s_t的μ(s|θ^μ)采取行动a_t。加入的噪声可表示为：

a_t＝μ(s_t|θ^μ)+Noise (7)

式中：θ_max,θ_min θⁱ,

R_Obs＝error evaluation (13)

R＝-(α_ObsR_Obs+α_θR_θ) (15)

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于深度强化学习的自抗扰控制器参数优化方法，其特征在于，包括：

建立起速度环自抗扰控制器模型；根据速度环自抗扰控制器模型选出需要被优化的自抗扰控制器参数及数量，设置优化目标；

结合马尔可夫决策过程搭建自抗扰控制器参数的深度强化学习模型，将当前电机控制系统作为环境，将电机转速曲线作为状态，以转速平稳程度和抗干扰能力设置奖励；

结合马尔科夫过程搭建自抗扰控制器参数的深度强化学习模型；使用Actor-Critic算法使智能体不断与环境交互，自主学习自抗扰控制参数优化方法使用Actor-Critic算法训练智能体根据环境和状态选择不同的优化动作，并依据动作后获得的奖励大小改进优化动作，使智能体不断与环境交互，自主学习到自抗扰控制参数优化的方法；

设计深度确定性策略梯度方法，使参数优化过程收敛，完成基于深度强化学习的自抗扰控制器参数优化模型的训练。

2.根据权利要求1所述的基于深度强化学习的自抗扰控制器参数优化方法，其特征在于，速度环自抗扰控制器模型为一阶模型，一阶速度环自抗扰控制器模型包括跟踪微分器、扩张状态观测器和非线性误差状态反馈。

3.根据权利要求1所述的基于深度强化学习的自抗扰控制器参数优化方法，其特征在于，将马尔可夫决策过程与自抗扰控制环境结合，电机转速值设置为：状态，用于评估参数优化效果；电机控制环境设置为：环境，负责在参数变化后给出实时状态；动作，学习对参数进行调整与探索；奖励，采用动作后依据此时环境给出的新的状态进行评估；所采用的奖励函数为：

R＝r₁e_os/s₁+r₂t_rs/s₂+r₃t_rl/s₃+r₄|e_l|/s₄

其中e_os、e_l、t_rs和t_rl是优化目标，e_os和e_l分别是启动和突然负载转换时的速度误差，t_rs和t_rl分别是启动时间和突然负载后速度恢复正常的时间，s₁、s₂、s₃和s₄是标准化系数，因为优化目标之间的维度不同；r₁、r2、r₃和r₄是四个优化目标的权重系数，根据应用环境的不同需求进行更改，当最终评估值R最小时，将获得最佳优化结果。

4.根据权利要求1所述的基于深度强化学习的自抗扰控制器参数优化方法，其特征在于，采用Actor-Critic算法训练智能体，奖励值作为评价器，动作作为行动者，智能体根据奖励值进行评价，根据评价决定行动者该如何行动；此Actor-Critic回合结束后进行新一轮的交互与学习，直到参数的调整和优化收敛为止。

5.根据权利要求1所述的基于深度强化学习的自抗扰控制器参数优化方法，其特征在于，使用深度确定性梯度策略进行Actor-Critic算法的优化收敛；计算每一步动作梯度下降的方向，为避免陷入局部优化，构建了两个梯度下降网络，实时更新实际网络，延迟更新要使用的目标网络；在智能体学习结束后采用目标网络对Actor-Critic算法进行梯度下降，使参数优化过程收敛。

6.根据权利要求2所述的基于深度强化学习的自抗扰控制器参数优化方法，其特征在于，跟踪-微分器对输入信号进行跟踪，并安排过渡状态，使控制快速且无超调。

7.根据权利要求2所述的基于深度强化学习的自抗扰控制器参数优化方法，其特征在于，扩张状态观测器是用来观测输出以及其各阶微分量，与此同时将系统内部扰动以及外部变量作为总扰动，对总扰动进行观察与估计。

8.根据权利要求2所述的基于深度强化学习的自抗扰控制器参数优化方法，其特征在于，非线性状态误差反馈主要控制参考输入以及扩张状态的误差信号的非线性组合，同时对观测到的总扰动进行补偿。

9.根据权利要求3所述的基于深度强化学习的自抗扰控制器参数优化方法，其特征在于，Actor-Critic算法包含：行动者，学习和构建策略网络，并根据网络在不同状态下选择不同的行动；评价者，评估优化政策网络的行动的价值。

10.根据权利要求9所述的基于深度强化学习的自抗扰控制器参数优化方法，其特征在于，在行动者采取优化行为后，智能体会为此次行为添加噪声，可以模拟系统的干扰，使结果更加准确。