CN113919217A

CN113919217A - 自抗扰控制器自适应参数整定方法及装置

Info

Publication number: CN113919217A
Application number: CN202111170976.XA
Authority: CN
Inventors: 陶金; 郑月敏; 孙青林
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2022-01-11
Anticipated expiration: 2041-10-08
Also published as: CN113919217B

Abstract

本发明涉及一种自抗扰控制器自适应参数整定方法及装置，所述方法包括根据被控系统阶次搭建线性自抗扰控制器初始参数；初始化环境和DQN中的网络参数；根据所述初始参数和网络参数采用ε‑greedy策略进行经验积累，并将经验样本存放在记忆回放单元；利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络；利用训练好的决策网络选择控制器参数。本发明实现了自抗扰控制器的参数自适应优化，提高了控制器控制性能，通过本申请提供的技术方案得到的控制器能够适应不同工况下的控制，提高了控制器的鲁棒性。实现了控制器的智能化，在不依赖模型信息的前提下可以根据系统状态做出决策。

Description

自抗扰控制器自适应参数整定方法及装置

技术领域

本发明属于强化学习技术领域，具体涉及一种自抗扰控制器自适应参数整定方法及装置。

背景技术

线性自抗扰控制器适用于对对象模型一无所知到完全掌握对象模型的任何情况，近年来得到了广泛的应用。控制器参数的选择会直接影响控制器的控制性能，因此参数整定是控制器设计过程中不可忽略的一部分。

相关技术中，控制器参数整定方法按照参数特性可以分为两种，一种是基于启发算法，例如粒子群算法或者遗传算法等，通过这些算法可以得到某种工况下控制器的一组相对最优参数。但该组参数在另一种工况下可能不再适用。另一种是通过像模糊控制，神经网络等方法得到控制器的自适应参数。模糊控制较依赖人类经验，神经网络具有较强的非线性函数逼近能力，但决策能力差。

因此，一种既不依赖模型和经验信息，又能够自适应决策出控制器参数的方法是具有实际意义的。DQN算法可以利用智能体对动作(待优化参数)未来的收益(奖励)进行预测，并对高收益的动作进行强化，从而使得智能体自己学习出达到控制目标的最优策略。

DQN是结合深度学习与强化学习的一种典型算法，其即利用了人工神经网络强大的计算能力，又吸取了强化学习中Q-learning算法的决策优势。相比于Q-learning算法，DQN算法克服了利用表格表达系统状态的局限性，更适用于具有连续状态的系统，因而更好地解决实际问题。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种自抗扰控制器自适应参数整定方法及装置，以解决现有技术控制器参数整定方法的决策能力差的问题。

为实现以上目的，本发明采用如下技术方案：一种自抗扰控制器自适应参数整定方法，包括：

根据被控系统阶次搭建线性自抗扰控制器初始参数；

初始化环境和DQN中的网络参数；

根据所述初始参数和网络参数采用ε-greedy策略进行经验积累，并将经验样本存放在记忆回放单元；

利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络；

利用训练好的决策网络选择控制器参数。

进一步的，所述根据被控系统阶次搭建线性自抗扰控制器初始参数，包括：

设所述被控系统阶次为n阶系统，

被控对象为：y⁽ⁿ⁾＝f+b₀u；

其中，y，u分别为系统输出和输入；f为总扰动，所述总扰动包含系统内部未建模动态、参数摄动和外部扰动；b₀为可调参数，选取状态为x₁＝y,

x_n+1＝f，可以得到状态空间方程为：

式中，

对应的线性扩张状态观测器为：

其中，

为x的估计值；L为观测器的误差反馈控制增益矩阵，L＝[β₀₁β₀₂…β_0(n+1)]^T；当(A-LC)渐进稳定时，可以实现对系统各状态量的跟踪，即有

利用极点配置方法将观测器增益配置到极点-ω_o：

|sI-(A-LC)|＝sⁿ⁺¹+β₀₁sⁿ+…+β_0(n+1)＝(s+ωo)ⁿ⁺¹；

从而可以得到

i＝1,2,…n+1；

设计消除扰动的控制率为：

式中，

K＝[β₁β₂…β_n 1]为反馈控制器增益矩阵；利用极点配置法将控制器增益配置到极点-ω_c：

|sI-(A-BK)|＝s(sⁿ+β_ns^n-1+…+β₁)＝s(s+ω_c)ⁿ；

得到

i＝1,2,…n；从而可以确定线性自抗扰控制器需要调整的初始参数为ω_o、ω_c和b₀。

进一步的，所述环境包括：状态空间S，动作空间A以及奖励函数r；

所述DQN中网络参数包括当前值神经网络权重，目标值神经网络权重和记忆回放单元D。

进一步的，所述根据所述初始参数和网络参数采用ε-greedy策略进行经验积累，并将经验样本存放在记忆回放单元，包括：

初始化贪婪系数ε；其中，ε∈[0,1)；

将当前状态s∈S输入DQN的当前值网络中，输出对应动作空间中每一个动作值a∈A对应的Q值；

随机生成一个数alpha∈(0,1)，若alpha≤ε，则随机从动作空间中选择一个动作值，否则，选取最大Q值对应的动作值；

执行得到的动作值，得到下一个状态s′，并根据奖励函数计算出奖励值r，将向量(s,a,s′,r)保存至记忆回放单元。

进一步的，所述利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络，包括：

从所述记忆回放单元随机抽取m个经验样本，并输入DQN网络中；

当前值网络输出为Q(s,a；θ)，其中θ为网络权重，目标值网络输出为

其中θ′为目标网络权重；

计算更新当前值网络的损失函数：

其中，γ∈[0,1]为折扣因子；

利用梯度下降法更新当前值网络的权重θ，每经过T_n回合，令θ′＝θ，从而实现目标值网络权重的更新；

判断当前值神经网络的损失函数值是否小于预设阈值，若是，结束训练，输出决策网络，否则继续训练。

进一步的，所述利用训练好的决策网络选择控制器参数，包括：

输入系统当前状态至决策网络；

所述决策网络输出对应动作空间中每个动作的Q值，从而选择出最大Q对应的动作，重复此过程直至达到控制目标。

进一步的，所述网络为全连接神经网络。

本申请实施例提供一种自抗扰控制器自适应参数整定装置，包括：

搭建模块，用于根据被控系统阶次搭建线性自抗扰控制器初始参数；

初始化模块，用于初始化环境和DQN中的网络参数；

存放模块，用于根据所述初始参数和网络参数采用ε-greedy策略进行经验积累，并将经验样本存放在记忆回放单元；

训练模块，用于利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络；

选择模块，用于利用训练好的决策网络选择控制器参数。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种自抗扰控制器自适应参数整定方法及装置，所述方法包括根据被控系统阶次搭建线性自抗扰控制器初始参数；初始化环境和DQN中的网络参数；根据所述初始参数和网络参数采用ε-greedy策略进行经验积累，并将经验样本存放在记忆回放单元；利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络；利用训练好的决策网络选择控制器参数。本发明实现了自抗扰控制器的参数自适应优化，提高了控制器控制性能，通过本申请提供的技术方案得到的控制器能够适应不同工况下的控制，提高了控制器的鲁棒性。实现了控制器的智能化，在不依赖模型信息的前提下可以根据系统状态做出决策。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明自抗扰控制器自适应参数整定方法的步骤示意图；

图2为本发明自抗扰控制器自适应参数整定方法的流程示意图；

图3为一个三区域互联电力系统控制示意图；

图4为本申请提供的DQN算法的结构图；

图5为本发明自抗扰控制器自适应参数整定装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的自抗扰控制器自适应参数整定方法及装置。

如图1所示，本申请提供了一种基于DQN算法的线性自抗扰控制参数整定方法，该方法利用DQN算法优化线性自抗扰控制器中的参数ω_o,ω_c和b₀。

如图2所示，本申请实施例中提供的自抗扰控制器自适应参数整定方法，包括：

S101，根据被控系统阶次搭建线性自抗扰控制器；

具体的，如图3所示，假设被控对象为阶次为3的三区域互联电力系统：

式中，y，u分别为电力系统的输出和输入，f为总扰动(包含系统内部未建模动态，参数摄动和外部负荷扰动)，b₀为可调参数。由于电力系统中三个区域结构相同，因此三个区域的控制器设计可以相同，本方法中三个控制器参数选择也一致。以区域1为例，选取状态为x₁＝y,

x₄＝f，可以得到状态空间方程为：

式中，

对应的LESO为：

式中，

为x的估计值。L为观测器的误差反馈控制增益矩阵，L＝[β₀₁β₀₂β₀₃β₀₄]^T。当(A-LC)渐进稳定时，可以实现对系统各状态量的跟踪，即有

通常，利用极点配置方法将观测器增益配置到极点-ω_o，可以得到：

设计消除扰动的控制率为：

式中，

K＝[β₁β₂β₃1]为反馈控制器增益矩阵。同样利用极点配置法将控制器增益配置到极点-ω_c，可以得到：

从而可以确定线性自抗扰控制器需要调整的参数为ω_o,ω_c和b₀。

S102，初始化环境和DQN中的网络参数；

具体的，环境包含系统状态空间S，动作空间A和奖励函数r。对电力系统，为了实现负荷频率控制，需要使得系统克服负荷的扰动实现频率y稳定至0。因此，系统状态定义为：

系统动作空间由三个参数ω_o,ω_c和b₀决定。三个参数选取为：

式中，ω_o和ω_c的离散采样间隔均为0.1，b₀的离散采样间隔为0.5。也就是说ω_o,ω_c和b₀分别有26,18和41个，那么排列组合起来动作空间A维度为26×18×41＝19188。

奖励函数是根据观察到的状态定义的，本实施例中，第i个区域的奖励函数定义为：

DQN算法中，当前值网络和目标值网络的结构相同，本实施例中，神经网络为全连接神经网络，网络输入层神经元个数与每一时刻状态数一致，即为6。网络输出层神经元个数与动作空间维度一致，即为19188。神经网络具有两个隐含层，隐含层神经元个数分别为10和6。初始状态下，两个网络权重一致，θ＝θ′。初始化记忆回放单元D用于存储数据。

S103，根据所述初始参数和网络参数采用ε-greedy策略进行经验积累，并将经验存放在记忆回放单元；

具体的，根据所述初始参数和网络参数采用ε-greedy策略进行经验积累，并将经验存放在记忆回放单元，具体步骤为：

初始化贪婪系数ε,ε∈[0,1)，本实施例中ε＝0.99；

将当前状态s＝[s₁₁,s₁₂,s₂₁,s₂₂,s₃₁,s₃₂]^T输入DQN的当前值网络中，输出对应动作空间中每一个动作a＝[ω_o；ω_c；b₀]的Q值Q(s,a；θ)；

随机生成一个数alpha∈(0,1)，若alpha≤ε，则随机从动作空间中选择一组动作值，否则，选取最大Q值对应的动作值；所述Q值为网络输出值；

执行得到的动作，得到下一个状态s′，并根据奖励函数计算出奖励值r，将向量(s,a,s′,r)保存至记忆回放单元。

利用记忆回放单元中的样本对网络进行训练从而获得决策网络。

这里，结合图4，可以看出DQN算法的主要结构，算法中两个网络训练过程具体步骤为：

S104，利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络；

具体的，从当前记忆回放单元随机抽取m个经验样本，并输入DQN网络中；

当前值网络输出为Q(s,a；θ)，目标值网络输出为

计算更新当前值网络的损失函数：

式中，γ∈[0,1]为折扣因子；

具体的，本申请利用训练好的决策网络在线选择控制器参数，即输入系统当前状态至决策网络，可以输出对应动作空间中每个动作的Q值，从而选择出最大Q对应的动作，重复此过程直至达到控制目标。

优选的，所述网络为全连接神经网络。

如图5所示，本申请实施例提供一种自抗扰控制器自适应参数整定装置，包括：

初始化模块，用于初始化环境和DQN中的网络参数；

选择模块，用于利用训练好的决策网络选择控制器参数。

本申请实施例提供的自抗扰控制器自适应参数整定装置的工作原理为，搭建模块根据被控系统阶次搭建线性自抗扰控制器初始参数；初始化模块初始化环境和DQN中的网络参数；存放模块根据所述初始参数和网络参数采用ε-greedy策略进行经验积累，并将经验样本存放在记忆回放单元；训练模块利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络；选择模块利用训练好的决策网络选择控制器参数。

本申请实施例提供一种计算机设备，包括处理器，以及与处理器连接的存储器；

存储器用于存储计算机程序，计算机程序用于执行上述任一实施例提供的自抗扰控制器自适应参数整定方法；

处理器用于调用并执行存储器中的计算机程序。

综上所述，本发明提供一种自抗扰控制器自适应参数整定方法及装置，包括所述方法包括根据被控系统阶次搭建线性自抗扰控制器初始参数；初始化环境和DQN中的网络参数；根据所述初始参数和网络参数采用ε-greedy策略进行经验积累，并将经验样本存放在记忆回放单元；利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络；利用训练好的决策网络选择控制器参数。本发明实现了自抗扰控制器的参数自适应优化，提高了控制器控制性能，通过本申请提供的技术方案得到的控制器能够适应不同工况下的控制，提高了控制器的鲁棒性。实现了控制器的智能化，在不依赖模型信息的前提下可以根据系统状态做出决策。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。