CN113919217A - 自抗扰控制器自适应参数整定方法及装置 - Google Patents

自抗扰控制器自适应参数整定方法及装置 Download PDF

Info

Publication number
CN113919217A
CN113919217A CN202111170976.XA CN202111170976A CN113919217A CN 113919217 A CN113919217 A CN 113919217A CN 202111170976 A CN202111170976 A CN 202111170976A CN 113919217 A CN113919217 A CN 113919217A
Authority
CN
China
Prior art keywords
network
parameters
controller
value
playback unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111170976.XA
Other languages
English (en)
Other versions
CN113919217B (zh
Inventor
陶金
郑月敏
孙青林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202111170976.XA priority Critical patent/CN113919217B/zh
Publication of CN113919217A publication Critical patent/CN113919217A/zh
Application granted granted Critical
Publication of CN113919217B publication Critical patent/CN113919217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种自抗扰控制器自适应参数整定方法及装置,所述方法包括根据被控系统阶次搭建线性自抗扰控制器初始参数;初始化环境和DQN中的网络参数;根据所述初始参数和网络参数采用ε‑greedy策略进行经验积累,并将经验样本存放在记忆回放单元;利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络;利用训练好的决策网络选择控制器参数。本发明实现了自抗扰控制器的参数自适应优化,提高了控制器控制性能,通过本申请提供的技术方案得到的控制器能够适应不同工况下的控制,提高了控制器的鲁棒性。实现了控制器的智能化,在不依赖模型信息的前提下可以根据系统状态做出决策。

Description

自抗扰控制器自适应参数整定方法及装置
技术领域
本发明属于强化学习技术领域,具体涉及一种自抗扰控制器自适应参数整定方法及装置。
背景技术
线性自抗扰控制器适用于对对象模型一无所知到完全掌握对象模型的任何情况,近年来得到了广泛的应用。控制器参数的选择会直接影响控制器的控制性能,因此参数整定是控制器设计过程中不可忽略的一部分。
相关技术中,控制器参数整定方法按照参数特性可以分为两种,一种是基于启发算法,例如粒子群算法或者遗传算法等,通过这些算法可以得到某种工况下控制器的一组相对最优参数。但该组参数在另一种工况下可能不再适用。另一种是通过像模糊控制,神经网络等方法得到控制器的自适应参数。模糊控制较依赖人类经验,神经网络具有较强的非线性函数逼近能力,但决策能力差。
因此,一种既不依赖模型和经验信息,又能够自适应决策出控制器参数的方法是具有实际意义的。DQN算法可以利用智能体对动作(待优化参数)未来的收益(奖励)进行预测,并对高收益的动作进行强化,从而使得智能体自己学习出达到控制目标的最优策略。
DQN是结合深度学习与强化学习的一种典型算法,其即利用了人工神经网络强大的计算能力,又吸取了强化学习中Q-learning算法的决策优势。相比于Q-learning算法,DQN算法克服了利用表格表达系统状态的局限性,更适用于具有连续状态的系统,因而更好地解决实际问题。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种自抗扰控制器自适应参数整定方法及装置,以解决现有技术控制器参数整定方法的决策能力差的问题。
为实现以上目的,本发明采用如下技术方案:一种自抗扰控制器自适应参数整定方法,包括:
根据被控系统阶次搭建线性自抗扰控制器初始参数;
初始化环境和DQN中的网络参数;
根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验样本存放在记忆回放单元;
利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络;
利用训练好的决策网络选择控制器参数。
进一步的,所述根据被控系统阶次搭建线性自抗扰控制器初始参数,包括:
设所述被控系统阶次为n阶系统,
被控对象为:y(n)=f+b0u;
其中,y,u分别为系统输出和输入;f为总扰动,所述总扰动包含系统内部未建模动态、参数摄动和外部扰动;b0为可调参数,选取状态为x1=y,
Figure BDA0003293167060000021
xn+1=f,可以得到状态空间方程为:
Figure BDA0003293167060000022
式中,
Figure BDA0003293167060000023
对应的线性扩张状态观测器为:
Figure BDA0003293167060000024
其中,
Figure BDA0003293167060000025
为x的估计值;L为观测器的误差反馈控制增益矩阵,L=[β01β02…β0(n+1)]T;当(A-LC)渐进稳定时,可以实现对系统各状态量的跟踪,即有
Figure BDA0003293167060000026
利用极点配置方法将观测器增益配置到极点-ωo
|sI-(A-LC)|=sn+101sn+…+β0(n+1)=(s+ωo)n+1
从而可以得到
Figure BDA0003293167060000031
i=1,2,…n+1;
设计消除扰动的控制率为:
Figure BDA0003293167060000032
式中,
Figure BDA0003293167060000033
K=[β1β2…βn 1]为反馈控制器增益矩阵;利用极点配置法将控制器增益配置到极点-ωc
|sI-(A-BK)|=s(snnsn-1+…+β1)=s(s+ωc)n
得到
Figure BDA0003293167060000034
i=1,2,…n;从而可以确定线性自抗扰控制器需要调整的初始参数为ωo、ωc和b0
进一步的,所述环境包括:状态空间S,动作空间A以及奖励函数r;
所述DQN中网络参数包括当前值神经网络权重,目标值神经网络权重和记忆回放单元D。
进一步的,所述根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验样本存放在记忆回放单元,包括:
初始化贪婪系数ε;其中,ε∈[0,1);
将当前状态s∈S输入DQN的当前值网络中,输出对应动作空间中每一个动作值a∈A对应的Q值;
随机生成一个数alpha∈(0,1),若alpha≤ε,则随机从动作空间中选择一个动作值,否则,选取最大Q值对应的动作值;
执行得到的动作值,得到下一个状态s′,并根据奖励函数计算出奖励值r,将向量(s,a,s′,r)保存至记忆回放单元。
进一步的,所述利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络,包括:
从所述记忆回放单元随机抽取m个经验样本,并输入DQN网络中;
当前值网络输出为Q(s,a;θ),其中θ为网络权重,目标值网络输出为
Figure BDA0003293167060000035
其中θ′为目标网络权重;
计算更新当前值网络的损失函数:
Figure BDA0003293167060000041
其中,γ∈[0,1]为折扣因子;
利用梯度下降法更新当前值网络的权重θ,每经过Tn回合,令θ′=θ,从而实现目标值网络权重的更新;
判断当前值神经网络的损失函数值是否小于预设阈值,若是,结束训练,输出决策网络,否则继续训练。
进一步的,所述利用训练好的决策网络选择控制器参数,包括:
输入系统当前状态至决策网络;
所述决策网络输出对应动作空间中每个动作的Q值,从而选择出最大Q对应的动作,重复此过程直至达到控制目标。
进一步的,所述网络为全连接神经网络。
本申请实施例提供一种自抗扰控制器自适应参数整定装置,包括:
搭建模块,用于根据被控系统阶次搭建线性自抗扰控制器初始参数;
初始化模块,用于初始化环境和DQN中的网络参数;
存放模块,用于根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验样本存放在记忆回放单元;
训练模块,用于利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络;
选择模块,用于利用训练好的决策网络选择控制器参数。
本发明采用以上技术方案,能够达到的有益效果包括:
本发明提供一种自抗扰控制器自适应参数整定方法及装置,所述方法包括根据被控系统阶次搭建线性自抗扰控制器初始参数;初始化环境和DQN中的网络参数;根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验样本存放在记忆回放单元;利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络;利用训练好的决策网络选择控制器参数。本发明实现了自抗扰控制器的参数自适应优化,提高了控制器控制性能,通过本申请提供的技术方案得到的控制器能够适应不同工况下的控制,提高了控制器的鲁棒性。实现了控制器的智能化,在不依赖模型信息的前提下可以根据系统状态做出决策。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明自抗扰控制器自适应参数整定方法的步骤示意图;
图2为本发明自抗扰控制器自适应参数整定方法的流程示意图;
图3为一个三区域互联电力系统控制示意图;
图4为本申请提供的DQN算法的结构图;
图5为本发明自抗扰控制器自适应参数整定装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面结合附图介绍本申请实施例中提供的一个具体的自抗扰控制器自适应参数整定方法及装置。
如图1所示,本申请提供了一种基于DQN算法的线性自抗扰控制参数整定方法,该方法利用DQN算法优化线性自抗扰控制器中的参数ωoc和b0
如图2所示,本申请实施例中提供的自抗扰控制器自适应参数整定方法,包括:
S101,根据被控系统阶次搭建线性自抗扰控制器;
具体的,如图3所示,假设被控对象为阶次为3的三区域互联电力系统:
Figure BDA0003293167060000061
式中,y,u分别为电力系统的输出和输入,f为总扰动(包含系统内部未建模动态,参数摄动和外部负荷扰动),b0为可调参数。由于电力系统中三个区域结构相同,因此三个区域的控制器设计可以相同,本方法中三个控制器参数选择也一致。以区域1为例,选取状态为x1=y,
Figure BDA0003293167060000062
x4=f,可以得到状态空间方程为:
Figure BDA0003293167060000063
式中,
Figure BDA0003293167060000064
对应的LESO为:
Figure BDA0003293167060000065
式中,
Figure BDA0003293167060000066
为x的估计值。L为观测器的误差反馈控制增益矩阵,L=[β01β02β03β04]T。当(A-LC)渐进稳定时,可以实现对系统各状态量的跟踪,即有
Figure BDA0003293167060000067
通常,利用极点配置方法将观测器增益配置到极点-ωo,可以得到:
Figure BDA0003293167060000068
设计消除扰动的控制率为:
Figure BDA0003293167060000069
式中,
Figure BDA00032931670600000610
K=[β1β2β31]为反馈控制器增益矩阵。同样利用极点配置法将控制器增益配置到极点-ωc,可以得到:
Figure BDA00032931670600000611
从而可以确定线性自抗扰控制器需要调整的参数为ωoc和b0
S102,初始化环境和DQN中的网络参数;
具体的,环境包含系统状态空间S,动作空间A和奖励函数r。对电力系统,为了实现负荷频率控制,需要使得系统克服负荷的扰动实现频率y稳定至0。因此,系统状态定义为:
Figure BDA0003293167060000071
系统动作空间由三个参数ωoc和b0决定。三个参数选取为:
Figure BDA0003293167060000072
式中,ωo和ωc的离散采样间隔均为0.1,b0的离散采样间隔为0.5。也就是说ωoc和b0分别有26,18和41个,那么排列组合起来动作空间A维度为26×18×41=19188。
奖励函数是根据观察到的状态定义的,本实施例中,第i个区域的奖励函数定义为:
Figure BDA0003293167060000073
DQN算法中,当前值网络和目标值网络的结构相同,本实施例中,神经网络为全连接神经网络,网络输入层神经元个数与每一时刻状态数一致,即为6。网络输出层神经元个数与动作空间维度一致,即为19188。神经网络具有两个隐含层,隐含层神经元个数分别为10和6。初始状态下,两个网络权重一致,θ=θ′。初始化记忆回放单元D用于存储数据。
S103,根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验存放在记忆回放单元;
具体的,根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验存放在记忆回放单元,具体步骤为:
初始化贪婪系数ε,ε∈[0,1),本实施例中ε=0.99;
将当前状态s=[s11,s12,s21,s22,s31,s32]T输入DQN的当前值网络中,输出对应动作空间中每一个动作a=[ωo;ωc;b0]的Q值Q(s,a;θ);
随机生成一个数alpha∈(0,1),若alpha≤ε,则随机从动作空间中选择一组动作值,否则,选取最大Q值对应的动作值;所述Q值为网络输出值;
执行得到的动作,得到下一个状态s′,并根据奖励函数计算出奖励值r,将向量(s,a,s′,r)保存至记忆回放单元。
利用记忆回放单元中的样本对网络进行训练从而获得决策网络。
这里,结合图4,可以看出DQN算法的主要结构,算法中两个网络训练过程具体步骤为:
S104,利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络;
具体的,从当前记忆回放单元随机抽取m个经验样本,并输入DQN网络中;
当前值网络输出为Q(s,a;θ),目标值网络输出为
Figure BDA0003293167060000081
计算更新当前值网络的损失函数:
Figure BDA0003293167060000082
式中,γ∈[0,1]为折扣因子;
利用梯度下降法更新当前值网络的权重θ,每经过Tn回合,令θ′=θ,从而实现目标值网络权重的更新;
判断当前值神经网络的损失函数值是否小于预设阈值,若是,结束训练,输出决策网络,否则继续训练。
具体的,本申请利用训练好的决策网络在线选择控制器参数,即输入系统当前状态至决策网络,可以输出对应动作空间中每个动作的Q值,从而选择出最大Q对应的动作,重复此过程直至达到控制目标。
优选的,所述网络为全连接神经网络。
如图5所示,本申请实施例提供一种自抗扰控制器自适应参数整定装置,包括:
搭建模块,用于根据被控系统阶次搭建线性自抗扰控制器初始参数;
初始化模块,用于初始化环境和DQN中的网络参数;
存放模块,用于根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验样本存放在记忆回放单元;
训练模块,用于利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络;
选择模块,用于利用训练好的决策网络选择控制器参数。
本申请实施例提供的自抗扰控制器自适应参数整定装置的工作原理为,搭建模块根据被控系统阶次搭建线性自抗扰控制器初始参数;初始化模块初始化环境和DQN中的网络参数;存放模块根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验样本存放在记忆回放单元;训练模块利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络;选择模块利用训练好的决策网络选择控制器参数。
本申请实施例提供一种计算机设备,包括处理器,以及与处理器连接的存储器;
存储器用于存储计算机程序,计算机程序用于执行上述任一实施例提供的自抗扰控制器自适应参数整定方法;
处理器用于调用并执行存储器中的计算机程序。
综上所述,本发明提供一种自抗扰控制器自适应参数整定方法及装置,包括所述方法包括根据被控系统阶次搭建线性自抗扰控制器初始参数;初始化环境和DQN中的网络参数;根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验样本存放在记忆回放单元;利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络;利用训练好的决策网络选择控制器参数。本发明实现了自抗扰控制器的参数自适应优化,提高了控制器控制性能,通过本申请提供的技术方案得到的控制器能够适应不同工况下的控制,提高了控制器的鲁棒性。实现了控制器的智能化,在不依赖模型信息的前提下可以根据系统状态做出决策。
可以理解的是,上述提供的方法实施例与上述的装置实施例对应,相应的具体内容可以相互参考,在此不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种自抗扰控制器自适应参数整定方法,其特征在于,包括:
根据被控系统阶次搭建线性自抗扰控制器初始参数;
初始化环境和DQN中的网络参数;
根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验样本存放在记忆回放单元;
利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络;
利用训练好的决策网络选择控制器参数。
2.根据权利要求1所述的方法,其特征在于,所述根据被控系统阶次搭建线性自抗扰控制器初始参数,包括:
设所述被控系统阶次为n阶系统,
被控对象为:y(n)=f+b0u;
其中,y,u分别为系统输出和输入;f为总扰动,所述总扰动包含系统内部未建模动态、参数摄动和外部扰动;b0为可调参数,选取状态为
Figure FDA0003293167050000011
可以得到状态空间方程为:
Figure FDA0003293167050000012
式中,
Figure FDA0003293167050000013
对应的线性扩张状态观测器为:
Figure FDA0003293167050000014
其中,
Figure FDA0003293167050000015
为x的估计值;L为观测器的误差反馈控制增益矩阵,L=[β01 β02 … β0(n+1)]T;当(A-LC)渐进稳定时,可以实现对系统各状态量的跟踪,即有
Figure FDA0003293167050000016
利用极点配置方法将观测器增益配置到极点-ωo
|sI-(A-LC)|=sn+101sn+…+β0(n+1)=(s+ωo)n+1
从而可以得到
Figure FDA0003293167050000021
设计消除扰动的控制率为:
Figure FDA0003293167050000022
式中,
Figure FDA0003293167050000023
K=[β1 β2 … βn 1]为反馈控制器增益矩阵;利用极点配置法将控制器增益配置到极点-ωc
|sI-(A-BK)|=s(snnsn-1+…+β1)=s(s+ωc)n
得到
Figure FDA0003293167050000024
从而可以确定线性自抗扰控制器需要调整的初始参数为ωo、ωc和b0
3.根据权利要求2所述的方法,其特征在于,
所述环境包括:状态空间S,动作空间A以及奖励函数r;
所述DQN中网络参数包括当前值神经网络权重,目标值神经网络权重和记忆回放单元D。
4.根据权利要求3所述的方法,其特征在于,所述根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验样本存放在记忆回放单元,包括:
初始化贪婪系数ε;其中,ε∈[0,1);
将当前状态s∈S输入DQN的当前值网络中,输出对应动作空间中每一个动作值a∈A对应的Q值;
随机生成一个数alpha∈(0,1),若alpha≤ε,则随机从动作空间中选择一个动作值,否则,选取最大Q值对应的动作值;
执行得到的动作值,得到下一个状态s′,并根据奖励函数计算出奖励值r,将向量(s,a,s′,r)保存至记忆回放单元。
5.根据权利要求1所述的方法,其特征在于,所述利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络,包括:
从所述记忆回放单元随机抽取m个经验样本,并输入DQN网络中;
当前值网络输出为Q(s,a;θ),其中θ为网络权重,目标值网络输出为
Figure FDA0003293167050000025
其中θ′为目标网络权重;
计算更新当前值网络的损失函数:
Figure FDA0003293167050000031
其中,γ∈[0,1]为折扣因子;
利用梯度下降法更新当前值网络的权重θ,每经过Tn回合,令θ′=θ,从而实现目标值网络权重的更新;
判断当前值神经网络的损失函数值是否小于预设阈值,若是,结束训练,输出决策网络,否则继续训练。
6.根据权利要求5所述的方法,其特征在于,所述利用训练好的决策网络选择控制器参数,包括:
输入系统当前状态至决策网络;
所述决策网络输出对应动作空间中每个动作的Q值,从而选择出最大Q对应的动作,重复此过程直至达到控制目标。
7.根据权利要求1至6任一项所述的方法,其特征在于,
所述网络为全连接神经网络。
8.一种自抗扰控制器自适应参数整定装置,其特征在于,包括:
搭建模块,用于根据被控系统阶次搭建线性自抗扰控制器初始参数;
初始化模块,用于初始化环境和DQN中的网络参数;
存放模块,用于根据所述初始参数和网络参数采用ε-greedy策略进行经验积累,并将经验样本存放在记忆回放单元;
训练模块,用于利用记忆回放单元中的经验样本对网络进行训练从而获得决策网络;
选择模块,用于利用训练好的决策网络选择控制器参数。
CN202111170976.XA 2021-10-08 2021-10-08 自抗扰控制器自适应参数整定方法及装置 Active CN113919217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111170976.XA CN113919217B (zh) 2021-10-08 2021-10-08 自抗扰控制器自适应参数整定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111170976.XA CN113919217B (zh) 2021-10-08 2021-10-08 自抗扰控制器自适应参数整定方法及装置

Publications (2)

Publication Number Publication Date
CN113919217A true CN113919217A (zh) 2022-01-11
CN113919217B CN113919217B (zh) 2024-05-17

Family

ID=79238163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111170976.XA Active CN113919217B (zh) 2021-10-08 2021-10-08 自抗扰控制器自适应参数整定方法及装置

Country Status (1)

Country Link
CN (1) CN113919217B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114488815A (zh) * 2022-01-27 2022-05-13 北京航空航天大学 空空弹自抗扰控制参数整定方法、装置及电子设备
CN114637209A (zh) * 2022-03-22 2022-06-17 华北电力大学 一种基于强化学习的神经网络逆控制器进行控制的方法
CN116107267A (zh) * 2023-03-07 2023-05-12 苏州经贸职业技术学院 一种数控机床控制参数优化方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
CN110323981A (zh) * 2019-05-14 2019-10-11 广东省智能制造研究所 一种控制永磁同步直线电机的方法及系统
CN111461321A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于Double DQN的改进深度强化学习方法及系统
CN111898728A (zh) * 2020-06-02 2020-11-06 东南大学 一种基于多Agent强化学习的团队机器人决策方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
CN110323981A (zh) * 2019-05-14 2019-10-11 广东省智能制造研究所 一种控制永磁同步直线电机的方法及系统
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
CN111461321A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于Double DQN的改进深度强化学习方法及系统
CN111898728A (zh) * 2020-06-02 2020-11-06 东南大学 一种基于多Agent强化学习的团队机器人决策方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李扬;王京;张勇军: "一种线性自抗扰控制器参数自整定方法", 工程科学学报, vol. 37, no. 11, 3 December 2015 (2015-12-03) *
秦贝贝;陈增强;孙明玮;孙青林: "基于自适应神经模糊推理系统的船舶航向自抗扰控制", 智能系统学报, no. 002, 31 December 2020 (2020-12-31) *
黄旭;柳嘉润;骆无意;: "基于DDQN的运载火箭姿态控制器参数设计", 航天控制, no. 04, 15 August 2020 (2020-08-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114488815A (zh) * 2022-01-27 2022-05-13 北京航空航天大学 空空弹自抗扰控制参数整定方法、装置及电子设备
CN114488815B (zh) * 2022-01-27 2024-07-16 北京航空航天大学 空空弹自抗扰控制参数整定方法、装置及电子设备
CN114637209A (zh) * 2022-03-22 2022-06-17 华北电力大学 一种基于强化学习的神经网络逆控制器进行控制的方法
CN116107267A (zh) * 2023-03-07 2023-05-12 苏州经贸职业技术学院 一种数控机床控制参数优化方法及装置
CN116107267B (zh) * 2023-03-07 2023-07-18 苏州经贸职业技术学院 一种数控机床控制参数优化方法及装置

Also Published As

Publication number Publication date
CN113919217B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN113919217A (zh) 自抗扰控制器自适应参数整定方法及装置
Sambariya et al. Robust tuning of power system stabilizer for small signal stability enhancement using metaheuristic bat algorithm
Hsu et al. Emotional fuzzy sliding-mode control for unknown nonlinear systems
Khettab et al. Enhanced fractional order indirect fuzzy adaptive synchronization of uncertain fractional chaotic systems based on the variable structure control: robust H∞ design approach
CN111582445A (zh) 一种基于脉冲神经网络的高效学习系统及学习方法
CN115293052A (zh) 电力系统有功潮流在线优化控制方法、存储介质和装置
Tiwari et al. Fractional order PID (FOPID) controller based temperature control of bioreactor
Al-Duwaish et al. A neural network based adaptive sliding mode controller: Application to a power system stabilizer
CN115940294A (zh) 多级电网实时调度策略调整方法、系统、设备及存储介质
CN114355774B (zh) 模型预测控制方法及装置
Kojima et al. An artificial bee colony algorithm for solving dynamic optimization problems
CN111488208B (zh) 基于可变步长蝙蝠算法的边云协同计算节点调度优化方法
Hussain et al. Design of a fuzzy logic controller for regulating substrate feed to fed-batch fermentation
de Jesús Rubio et al. Backpropagation to train an evolving radial basis function neural network
CN113852080A (zh) 一种智能电网的潮流优化方法、系统、设备及存储介质
Ikemoto et al. Continuous deep Q-learning with a simulator for stabilization of uncertain discrete-time systems
CN108089442B (zh) 一种基于预测函数控制与模糊控制的pi控制器参数自整定方法
Lian et al. Performance enhancement for T–S fuzzy control using neural networks
Scardua et al. Optimal control of ship unloaders using reinforcement learning
Soukkou et al. Optimal control of a CSTR process
Kaheni et al. Soft variable structure control of linear systems via desired pole paths
CN113485099B (zh) 一种非线性离散时间系统的在线学习控制方法
CN110320796A (zh) 一种基于pid控制器的电气控制方法、装置以及设备
Chen WEIGHT SPEEDY Q-LEARNING FOR FEEDBACK STABILIZATION OF PROBABILISTIC BOOLEAN CONTROL NETWORKS: http://dx. doi. org/10.17654/0972096023009
Rayme et al. Control System based on Reinforcement Learning applied to a Klatt-Engell Reactor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant