CN115097736A - 一种基于深度强化学习的自抗扰控制器参数优化方法 - Google Patents

一种基于深度强化学习的自抗扰控制器参数优化方法 Download PDF

Info

Publication number
CN115097736A
CN115097736A CN202210955313.7A CN202210955313A CN115097736A CN 115097736 A CN115097736 A CN 115097736A CN 202210955313 A CN202210955313 A CN 202210955313A CN 115097736 A CN115097736 A CN 115097736A
Authority
CN
China
Prior art keywords
optimization
disturbance rejection
rejection controller
active disturbance
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210955313.7A
Other languages
English (en)
Inventor
房淑华
王翌丞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210955313.7A priority Critical patent/CN115097736A/zh
Publication of CN115097736A publication Critical patent/CN115097736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化学习的自抗扰控制器参数优化方法,属于机电领域,其中,所述方法包括:以永磁同步电机自抗扰控制器参数作为优化目标;搭建深度强化学习模型,将控制系统作为环境,将电机转速作为状态,以转速平稳程度和抗干扰能力设置奖励,使用Actor‑Critic算法训练智能体根据环境和状态选择优化动作,依据动作后获得奖励大小改进优化动作,使智能体自主学习自抗扰参数优化;设计深度确定性策略梯度方法,使参数优化过程收敛,完成基于深度强化学习的参数优化模型训练,获得最优参数。采用上述方案,能以最小人工调试成本获得自抗扰控制器最优参数,进而解决自抗扰控制器参数多,耦合性强,敏感性低,难于调试使其工作在最优状态的问题。

Description

一种基于深度强化学习的自抗扰控制器参数优化方法
技术领域
本发明涉及机电领域,尤其涉及一种基于深度强化学习的自抗扰控制器参数优化方法。
背景技术
自抗扰控制器作为一种热门的电机控制技术,被广泛地研究和应用在自动化控制与工业生产的各个领域中。
现有技术中,由于自抗扰控制器内部参数数量多,耦合性强,敏感性低,导致自抗扰控控制器的参数一般都是靠手动调试和经验调试,耗费时间长,效率低,不能发挥出控制器的最优性能。
发明内容
针对现有技术的不足,本发明提出了一种基于深度强化学习的自抗扰控制器参数优化方法。以实现根据电机与自抗扰控制器的模型自适应调节自抗扰控制器参数,达到自抗扰控制器参数最优的效果,进而解决自抗扰控制器参数难以调节,传统方法效率低且不能保证参数最优的问题。
本发明的目的可以通过以下技术方案实现:一种基于深度强化学习的自抗扰控制器参数优化方法,包括:建立速度环自抗扰控制器模型,并设置参数优化目标;结合马尔科夫过程搭建自抗扰控制器参数的深度强化学习模型;使用Actor-Critic(AC)算法使智能体不断与环境交互,自主学习自抗扰控制参数优化方法;设计深度确定性策略梯度方法,使参数优化过程收敛,完成基于深度强化学习的自抗扰控制器参数优化模型的训练。主要步骤如下:
步骤1:建立速度环自抗扰控制器模型;根据实际模型选出需要被优化的参数及数量,设置优化目标。
具体地,自抗扰控制器包含三个部分,分别是跟踪微分器,扩张状态观测器,以及非线性状态误差反馈。跟踪-微分器(Tracking Differentiator,TD)可以对输入信号进行跟踪,并安排过渡状态,使控制快速且无超调。扩张状态观测器(Extended StateObserver,ESO)是用来观测输出以及其各阶微分量,与此同时将系统内部扰动以及外部变量作为总扰动,对总扰动进行观察与估计。非线性状态误差反馈(Nonlinear State ErrorFeedback,NLSEF)主要控制参考输入以及扩张状态的误差信号的非线性组合,同时对观测到的总扰动进行补偿。
速度环的控制器为一阶模型。其一阶跟踪微分器模型为:
Figure BDA0003791069980000021
式中:Z11表示跟踪微分器处理过后的输入值状态,
Figure BDA0003791069980000023
表示跟踪微分器处理过后的输入值状态微分量。ω*表示给定速度,e1为给定与跟踪的误差,r为增益系数,fal函数是非线性函数,其表达式为:
Figure BDA0003791069980000022
式中:x为函数输入,α为表示非线性因子的常数,δ为影响滤波效果的常数。自抗扰控制器不同模块所使用的fal函数中的α和δ各不同,以下标作为区分,如在跟踪微分器中,参数为α1和δ1
一阶扩张状态观测器模型为:
Figure BDA0003791069980000031
式中:ω表示采集到的实际速度,Z21表示扩张状态观测器对系统输出的观测量,e2为二者误差;Z22表示对总扰动的观测量,β21,β22为增益系数,
Figure BDA0003791069980000034
表示误差观测量的微分形式,b表示补偿系数u表示非线性状态误差反馈的输出。
一阶非线性状态误差反馈模型为:
Figure BDA0003791069980000032
式中:Z11表示跟踪微分器处理过后的输入值状态,Z21表示扩张状态观测器对系统输出的观测量,e为Z11和Z21的差值,β3为增益系数。
将设定转速值输入自抗扰控制器,经过跟踪微分器得到给定转速的状态量;将采集到的转速实际值输入扩张状态观测器,得到实际转速的状态量以及观测到的总误差值;将给定转速状态量与实际转速状态量做差,差值经过非线性状态误差反馈得出初始输出值u0,加入对扩张状态观测器观测到的总扰动的补偿得到最终的输出值u,也就是弱磁系统需要的转矩初始给定值。
可以看出,自抗扰控制器共有12个参数需要优化调节:
Figure BDA0003791069980000033
步骤2:结合马尔可夫决策过程搭建自抗扰控制器参数的深度强化学习模型,将当前电机控制系统作为环境,将电机转速曲线作为状态,以转速平稳程度和抗干扰能力设置奖励。
具体地,电机转速值设置为:状态(State),用于评估参数优化效果;电机控制环境设置为:环境(Environment),负责在参数变化后给出实时状态;动作(Action),学习对12个参数进行调整与探索;奖励(Reward),采用动作后依据此时环境给出的新的状态进行评估。所采用的奖励函数为:
R=r1eos/s1+r2trs/s2+r3trl/s3+r4|el|/s4 (6)
式中:eos、el、trs和trl是优化目标,eos和el分别是启动和突然负载转换时的速度误差,trs和trl分别是启动时间和突然负载后速度恢复正常的时间,s1、s2、s3和s4是标准化系数,因为优化目标之间的维度不同;r1、r2、r3和r4是四个优化目标的权重系数,根据应用环境的不同需求进行更改,当最终评估值R最小时,将获得最佳优化结果。
步骤3:使用AC算法训练智能体根据环境和状态选择不同的优化动作,并依据动作后获得的奖励大小改进优化动作,使智能体不断与环境交互,自主学习到自抗扰控制参数优化的方法。
具体地,经典的行为-批评结构AC算法包含:行动者Actor,可以学习和构建策略网络,并根据网络在不同状态下选择不同的行动;评价者Critic,它可以评估优化政策网络的行动的价值。智能体根据奖励值进行评价,根据评价决定行动者该如何行动,即参数的调整方向与幅度。此AC回合结束后进行新一轮的交互与学习,直到参数的调整和优化收敛为止。除此以外,在行动者采取优化行为后,智能体会为此次行为添加噪声,可以模拟系统的干扰,使结果更加准确。
Actor结构网络可表示为μ(s|θμ),θμ是策略网络μ的内部参数。当前状态和动作分别表示为st和at。智能体根据基于st的μ(s|θμ)采取行动at。加入的噪声可表示为:
at=μ(stμ)+Noise (7)
当一个动作完成时,奖励rt和下一个状态st+1被反馈,数据(st,at,rt,st+1)将存储在数据库中。{(si,ai,ri,si+1)|i=1,2,…,N}则包含从数据库中随机选择的一些数据集,用于训练。随后,由Q(s,a|θQ)表示的Critic评价网络将根据上一步的s和a进行评价。
步骤4:设计深度确定性策略梯度方法,使参数优化过程收敛,完成基于深度强化学习的自抗扰控制器参数优化模型的训练;
具体地,采用确定性策略梯度法使批评家收敛并更新网络参数。构建了两个梯度下降网络:实时更新的实际网络θμ,和延迟更新,要在最后使用的目标网络θQ。算法的优化更新是通过更新θμ和θQ来实现的。为了使算法有足够的学习时间,μ(s|θμ)和Q(s,a|θQ)没有直接使用,通过使用μ’(s|θμ’)和Q’(s,μ’(s|θμ’)|θQ’)对参数更新的过程进行拆分和放大,目标网络与实际网络具有相同的结构,目标网络以参数更新率τ缓慢跟踪实际网络的参数,τ≤1:
Figure BDA0003791069980000051
目标网络的评估值为yi,目标网络与实际网络之间的损失为L,二者可根据(9)计算。用最小的L作为优化目标即可优化Q网络参数θQ。用(10)中网络的负平均值J作为优化目标更新θμ,即可使实际网络Critic的评价值最大化。
Figure BDA0003791069980000052
Figure BDA0003791069980000053
动作设置允许算法校正需要优化的ADRC参数,并使用(11)实现参数的归一化、恢复和校正。(12)用于使优化参数处在可行的范围内。
Figure BDA0003791069980000061
Figure BDA0003791069980000062
式中:θmaxmin θi,
Figure BDA0003791069980000063
分别是第i代参数的上限、下限、原始值、正则化后的值。(13)用于评估和处理设定优化目标后实际值与给定值之间的误差。(14)用于惩罚和奖励参数修正,以及(15)用作优化的最终评估。
RObs=error evaluation (13)
Figure BDA0003791069980000064
R=-(αObsRObsθRθ) (15)
式中:αObsθ分别是观测奖励和参数校正奖惩的相应权重。
本发明的有益效果:与现有技术相比,本发明具有如下显著优点:通过自适应调节自抗扰控制器参数,能够提高参数调节效率,节省参数调节时间,避免参数落入局部优化,充分发挥自抗扰控制器性能。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明实施例中的基于深度强化学习的永磁电机用速度环自抗扰控制器参数优化控制系统图;
图2为本发明实施例中的自抗扰控制器结构示意图。
图3为本发明实施例中的永磁电机用速度环自抗扰控制结构示意图。
图4为本发明实施例中的基于深度强化学习的自抗扰参数优化框架结构示意图。
图5为本发明实施例中的深度确定性梯度策略与AC算法结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例中提供一种基于深度强化学习的自抗扰控制器参数优化方法,包括:建立速度环自抗扰控制器模型,并设置参数优化目标;结合马尔科夫过程搭建自抗扰控制器参数的深度强化学习模型;使用AC算法使智能体不断与环境交互,自主学习自抗扰控制参数优化方法;设计深度确定性策略梯度方法,使参数优化过程收敛,完成基于深度强化学习的自抗扰控制器参数优化模型的训练。具体优化过程与控制结构可参阅图1所示。主要步骤如下:
步骤1:建立速度环自抗扰控制器模型;根据实际模型选出需要被优化的参数及数量,设置优化目标。
具体地,参阅图2,自抗扰控制器包含三个部分,分别是跟踪微分器,扩张状态观测器,以及非线性状态误差反馈。跟踪-微分器(Tracking Differentiator,TD)可以对输入信号进行跟踪,并安排过渡状态,使控制快速且无超调。扩张状态观测器(Extended StateObserver,ESO)是用来观测输出以及其各阶微分量,与此同时将系统内部扰动以及外部变量作为总扰动,对总扰动进行观察与估计。非线性状态误差反馈(Nonlinear State ErrorFeedback,NLSEF)主要控制参考输入以及扩张状态的误差信号的非线性组合,同时对观测到的总扰动进行补偿。
速度环的控制器为一阶模型。其一阶跟踪微分器模型为:
Figure BDA0003791069980000081
式中:Z11表示跟踪微分器处理过后的输入值状态,
Figure BDA0003791069980000085
表示跟踪微分器处理过后的输入值状态微分量。ω*表示给定速度,r为增益系数,fal函数是非线性函数,其表达式为:
Figure BDA0003791069980000082
一阶扩张状态观测器模型为:
Figure BDA0003791069980000083
式中:ω表示采集到的实际速度,Z21表示扩张状态观测器对系统输出的观测量,Z22表示对总扰动的观测量,β21,β22为增益系数,Z22表示误差观测量的微分形式,b表示补偿系数。
一阶非线性状态误差反馈模型为:
Figure BDA0003791069980000084
式中:u表示非线性状态误差反馈的输出。
将设定转速值输入自抗扰控制器,经过跟踪微分器得到给定转速的状态量;将采集到的转速实际值输入扩张状态观测器,得到实际转速的状态量以及观测到的总误差值;将给定转速状态量与实际转速状态量做差,差值经过非线性状态误差反馈得出初始输出值u0,加入对扩张状态观测器观测到的总扰动的补偿得到最终的输出值u,也就是弱磁系统需要的转矩初始给定值。
此时,永磁电机速度环自抗扰控制系统搭建完毕,可参阅图3。
可以看出,自抗扰控制器共有12个参数需要优化调节:
Figure BDA0003791069980000091
步骤2:结合马尔可夫决策过程搭建自抗扰控制器参数的深度强化学习模型,将当前电机控制系统作为环境,将电机转速曲线作为状态,以转速平稳程度和抗干扰能力设置奖励。
具体地,电机转速值设置为:状态(State),用于评估参数,化效果;电机控制环境设置为:环境(Environment),负责在参数变化后给出实时状态,具体结构参阅图3所示;动作(Action),学习对12个参数进行调整与探索;奖励(Reward),采用动作后依据此时环境给出的新的状态进行评估。所采用的奖励函数为:
R=r1eos/s1+r2trs/s2+r3trl/s3+r4|el|/s4 (6)
式中:eos,el,trs,和trl是优化目标。eos和el分别是启动和突然负载转换时的速度误差。trs和trl分别是启动时间和突然负载后速度恢复正常的时间。s1,s2,s3,s4是标准化系数,因为优化目标之间的维度不同。r1,r2,r3,r4是四个优化目标的权重系数,可以根据应用环境的不同需求进行更改。当最终评估值R最小时,将获得最佳优化结果。优化结构参阅图4所示。
步骤3:使用AC算法训练智能体根据环境和状态选择不同的优化动作,并依据动作后获得的奖励大小改进优化动作,使智能体不断与环境交互,自主学习到自抗扰控制参数优化的方法。
具体地,经典的行为-批评结AC构算法包含:行动者Actor,可以学习和构建策略网络,并根据网络在不同状态下选择不同的行动;评价者Critic,它可以评估优化政策网络的行动的价值。智能体根据奖励值进行评价,根据评价决定行动者该如何行动,即参数的调整方向与幅度。此AC回合结束后进行新一轮的交互与学习,直到参数的调整和优化收敛为止。除此以外,在行动者采取优化行为后,智能体会为此次行为添加噪声,可以模拟系统的干扰,使结果更加准确。
参阅图5所示,Actor结构网络可表示为μ(s|θμ),θμ是策略网络μ的内部参数。当前状态和动作分别表示为st和at。智能体根据基于st的μ(s|θμ)采取行动at。加入的噪声可表示为:
at=μ(stμ)+Noise (7)
当一个动作完成时,奖励rt和下一个状态st+1被反馈,数据(st,at,rt,st+1)将存储在数据库中。{(si,ai,ri,si+1)|i=1,2,…,N}则包含从数据库中随机选择的一些数据集,用于训练。随后,由Q(s,a|θQ)表示的Critic评价网络将根据上一步的s和a进行评价。
步骤4:设计深度确定性策略梯度方法,使参数优化过程收敛,完成基于深度强化学习的自抗扰控制器参数优化模型的训练;
具体地,采用确定性策略梯度法使批评家收敛并更新网络参数。参阅图5所示,构建了两个梯度下降网络:实时更新的实际网络θμ,和延迟更新,要在最后使用的目标网络θQ。算法的优化更新是通过更新θμ和θQ来实现的。为了使算法有足够的学习时间,μ(s|θμ)和Q(s,a|θQ)没有直接使用,通过使用μ’(s|θμ’)和Q’(s,μ’(s|θμ’)|θQ’)对参数更新的过程进行拆分和放大,目标网络与实际网络具有相同的结构,目标网络以参数更新率τ缓慢跟踪实际网络的参数,τ≤1:
Figure BDA0003791069980000111
目标网络的评估值为yi,目标网络与实际网络之间的损失为L,二者可根据(9)计算。用最小的L作为优化目标即可优化Q网络参数θQ。用(10)中网络的负平均值J作为优化目标更新θμ,即可使实际网络Critic的评价值最大化。
Figure BDA0003791069980000112
Figure BDA0003791069980000113
动作设置允许算法校正需要优化的ADRC参数,并使用(11)实现参数的归一化、恢复和校正。(12)用于使优化参数处在可行的范围内。
Figure BDA0003791069980000114
Figure BDA0003791069980000115
式中:θmaxmin θi,
Figure BDA0003791069980000116
分别是第i代参数的上限、下限、原始值、正则化后的值。(13)用于评估和处理设定优化目标后实际值与给定值之间的误差。(14)用于惩罚和奖励参数修正,以及(15)用作优化的最终评估。
RObs=error evaluation (13)
Figure BDA0003791069980000121
R=-(αObsRObsθRθ) (15)
式中:αObsθ分别是观测奖励和参数校正奖惩的相应权重。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (10)

1.一种基于深度强化学习的自抗扰控制器参数优化方法,其特征在于,包括:
建立起速度环自抗扰控制器模型;根据速度环自抗扰控制器模型选出需要被优化的自抗扰控制器参数及数量,设置优化目标;
结合马尔可夫决策过程搭建自抗扰控制器参数的深度强化学习模型,将当前电机控制系统作为环境,将电机转速曲线作为状态,以转速平稳程度和抗干扰能力设置奖励;
结合马尔科夫过程搭建自抗扰控制器参数的深度强化学习模型;使用Actor-Critic算法使智能体不断与环境交互,自主学习自抗扰控制参数优化方法使用Actor-Critic算法训练智能体根据环境和状态选择不同的优化动作,并依据动作后获得的奖励大小改进优化动作,使智能体不断与环境交互,自主学习到自抗扰控制参数优化的方法;
设计深度确定性策略梯度方法,使参数优化过程收敛,完成基于深度强化学习的自抗扰控制器参数优化模型的训练。
2.根据权利要求1所述的基于深度强化学习的自抗扰控制器参数优化方法,其特征在于,速度环自抗扰控制器模型为一阶模型,一阶速度环自抗扰控制器模型包括跟踪微分器、扩张状态观测器和非线性误差状态反馈。
3.根据权利要求1所述的基于深度强化学习的自抗扰控制器参数优化方法,其特征在于,将马尔可夫决策过程与自抗扰控制环境结合,电机转速值设置为:状态,用于评估参数优化效果;电机控制环境设置为:环境,负责在参数变化后给出实时状态;动作,学习对参数进行调整与探索;奖励,采用动作后依据此时环境给出的新的状态进行评估;所采用的奖励函数为:
R=r1eos/s1+r2trs/s2+r3trl/s3+r4|el|/s4
其中eos、el、trs和trl是优化目标,eos和el分别是启动和突然负载转换时的速度误差,trs和trl分别是启动时间和突然负载后速度恢复正常的时间,s1、s2、s3和s4是标准化系数,因为优化目标之间的维度不同;r1、r2、r3和r4是四个优化目标的权重系数,根据应用环境的不同需求进行更改,当最终评估值R最小时,将获得最佳优化结果。
4.根据权利要求1所述的基于深度强化学习的自抗扰控制器参数优化方法,其特征在于,采用Actor-Critic算法训练智能体,奖励值作为评价器,动作作为行动者,智能体根据奖励值进行评价,根据评价决定行动者该如何行动;此Actor-Critic回合结束后进行新一轮的交互与学习,直到参数的调整和优化收敛为止。
5.根据权利要求1所述的基于深度强化学习的自抗扰控制器参数优化方法,其特征在于,使用深度确定性梯度策略进行Actor-Critic算法的优化收敛;计算每一步动作梯度下降的方向,为避免陷入局部优化,构建了两个梯度下降网络,实时更新实际网络,延迟更新要使用的目标网络;在智能体学习结束后采用目标网络对Actor-Critic算法进行梯度下降,使参数优化过程收敛。
6.根据权利要求2所述的基于深度强化学习的自抗扰控制器参数优化方法,其特征在于,跟踪-微分器对输入信号进行跟踪,并安排过渡状态,使控制快速且无超调。
7.根据权利要求2所述的基于深度强化学习的自抗扰控制器参数优化方法,其特征在于,扩张状态观测器是用来观测输出以及其各阶微分量,与此同时将系统内部扰动以及外部变量作为总扰动,对总扰动进行观察与估计。
8.根据权利要求2所述的基于深度强化学习的自抗扰控制器参数优化方法,其特征在于,非线性状态误差反馈主要控制参考输入以及扩张状态的误差信号的非线性组合,同时对观测到的总扰动进行补偿。
9.根据权利要求3所述的基于深度强化学习的自抗扰控制器参数优化方法,其特征在于,Actor-Critic算法包含:行动者,学习和构建策略网络,并根据网络在不同状态下选择不同的行动;评价者,评估优化政策网络的行动的价值。
10.根据权利要求9所述的基于深度强化学习的自抗扰控制器参数优化方法,其特征在于,在行动者采取优化行为后,智能体会为此次行为添加噪声,可以模拟系统的干扰,使结果更加准确。
CN202210955313.7A 2022-08-10 2022-08-10 一种基于深度强化学习的自抗扰控制器参数优化方法 Pending CN115097736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210955313.7A CN115097736A (zh) 2022-08-10 2022-08-10 一种基于深度强化学习的自抗扰控制器参数优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210955313.7A CN115097736A (zh) 2022-08-10 2022-08-10 一种基于深度强化学习的自抗扰控制器参数优化方法

Publications (1)

Publication Number Publication Date
CN115097736A true CN115097736A (zh) 2022-09-23

Family

ID=83300396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210955313.7A Pending CN115097736A (zh) 2022-08-10 2022-08-10 一种基于深度强化学习的自抗扰控制器参数优化方法

Country Status (1)

Country Link
CN (1) CN115097736A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117140527A (zh) * 2023-09-27 2023-12-01 中山大学·深圳 一种基于深度强化学习算法的机械臂控制方法及系统
CN117911414A (zh) * 2024-03-20 2024-04-19 安徽大学 一种基于强化学习的自动驾驶汽车运动控制方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117140527A (zh) * 2023-09-27 2023-12-01 中山大学·深圳 一种基于深度强化学习算法的机械臂控制方法及系统
CN117140527B (zh) * 2023-09-27 2024-04-26 中山大学·深圳 一种基于深度强化学习算法的机械臂控制方法及系统
CN117911414A (zh) * 2024-03-20 2024-04-19 安徽大学 一种基于强化学习的自动驾驶汽车运动控制方法

Similar Documents

Publication Publication Date Title
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
CN115097736A (zh) 一种基于深度强化学习的自抗扰控制器参数优化方法
He et al. Reinforcement learning-based output feedback control of nonlinear systems with input constraints
Yang et al. Direct heuristic dynamic programming for nonlinear tracking control with filtered tracking error
CN111812968B (zh) 基于模糊神经网络pid控制器的阀位串级控制方法
CN114217524A (zh) 一种基于深度强化学习的电网实时自适应决策方法
CN106788028B (zh) 无轴承永磁同步电机强化学习控制器及其构造方法
CN110531614B (zh) 新颖的无刷直流电机模糊神经网络pi控制器
CN111665718A (zh) 一种基于q学习算法的对角递归神经网络控制策略
WO2018145498A1 (zh) 基于强化学习算法的双馈感应风力发电机自校正控制方法
CN103312249A (zh) 一种同步发电机自适应励磁控制方法
Meng et al. NN-based asymptotic tracking control for a class of strict-feedback uncertain nonlinear systems with output constraints
CN113093526A (zh) 一种基于强化学习的无超调pid控制器参数整定方法
CN107511830B (zh) 一种五自由度混联机器人控制器参数自适应调整实现方法
CN117439184A (zh) 一种基于强化学习的风电场站控制方法及系统
CN116719286A (zh) 一种基于强化学习的超超临界机组协调控制系统自抗扰控制器参数智能在线优化方法
CN116880191A (zh) 一种基于时序预测的过程工业生产系统的智能控制方法
CN114859725B (zh) 一种非线性系统自适应事件触发控制方法及系统
CN110210113B (zh) 基于确定性策略梯度的风电场动态等值参数智能校核方法
CN115903510A (zh) 自抗扰控制器设计方法、设备及存储介质
Kato et al. A skill-based PID controller using artificial neural networks
CN114384931A (zh) 一种基于策略梯度的无人机多目标最优控制方法和设备
CN110209058A (zh) 水下机器人运动的滑模面指数衰减动态状态滑模控制法
Huang et al. Performance optimisation of discrete time linear active disturbance rejection control approach
Sun Research on PID Control of BP Neural Networks Based on PSO Optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination