CN116880190A - 一种基于深度强化学习干扰估计器的高性能抗干扰方法 - Google Patents

一种基于深度强化学习干扰估计器的高性能抗干扰方法 Download PDF

Info

Publication number
CN116880190A
CN116880190A CN202310873806.0A CN202310873806A CN116880190A CN 116880190 A CN116880190 A CN 116880190A CN 202310873806 A CN202310873806 A CN 202310873806A CN 116880190 A CN116880190 A CN 116880190A
Authority
CN
China
Prior art keywords
disturbance
state
interference
motion control
control system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310873806.0A
Other languages
English (en)
Inventor
吴祥
林文杰
黄光普
徐轲
董辉
郭方洪
陈积明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202310873806.0A priority Critical patent/CN116880190A/zh
Publication of CN116880190A publication Critical patent/CN116880190A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于抗干扰技术领域,具体涉及一种基于深度强化学习干扰估计器的高性能抗干扰方法。该控制器包括:输入信号内模、状态反馈控制器、等价输入干扰估计器和状态观测器,所述等价输入干扰估计器,用于对控制系统总和扰动进行估计,通过在系统控制输入中加入对扰动估计的补偿,可有效主动抑制系统总和扰动影响,所述滤波器采用深度Q网络学习调整增益,可改变系统控制性能从而自适应调整扰动估计和噪声衰减能力。本发明通过深度强化学习方法在时变扰动及不确定测量噪声环境下自动学习滤波器增益,针对突变扰动可快速重构扰动信号,在慢变扰动时可有效抑制噪声放大,从而有效提高运动控制系统的综合性能,进而实现机械加工过程中的高精控制。

Description

一种基于深度强化学习干扰估计器的高性能抗干扰方法
技术领域
本发明属于抗干扰技术领域,具体涉及一种基于深度强化学习干扰估计器的高性能抗干扰方法。
背景技术
在数控机床、工业机器人、裁床、雕刻机等各类自动化设备机械加工过程中,加工精度都会受负载惯量变化、刀具磨损、不确定性外力及模型不确定性等扰动影响。抗干扰技术作为机械加工的关键技术之一,如何有效抑制扰动是提高控制精度关键。另一方面,测量噪声对加工性能的影响同样不可忽视,噪声过度放大会降低控制性能。因此,如何实现抑制扰动同时弱化噪声的影响是机械加工的关键,对提升加工精度和系统性能,从而满足高端制造的精度需求具有重要实际意义。
一种有效解决方案是将控制系统的负载惯量变化、外部扰动等影响视为系统总和扰动,并利用干扰估计技术对其进行估计与补偿。在过去的几十年里,人们提出了几种基于观测器的主动抗干扰技术,例如,扰动观测器、未知输入观测器、扩张状态观测器和等价输入干扰(Equivalent-Input-Disturbance,EID)方法。其中,基于等价输入干扰方法设计简单,且不需被控对象的逆动力学模型以及扰动信息模型,被成功地应用于各种扰动抑制。
值得注意的是,当系统存在测量噪声时,基于观测器的扰动估计性能势必会受到噪声影响。对于基于等价输入干扰估计器的闭环控制系统,可以通过调节观测器增益提高扰动抑制性能;高观测器增益可获得高精扰动抑制性能,然而同时也会过度放大噪声。因此,扰动抑制与噪声衰减是一对矛盾问题,需根据不同的控制需求权衡扰动抑制与噪声衰减。根据扰动作用形式不同,扰动可分为突变扰动和慢变扰动。对于突变扰动,需要快速估计干扰并补偿;对于慢变扰动,在扰动抑制同时需尽可能避免噪声放大。
因此,考虑自动化装备控制系统存在扰动和测量噪声,设计一种高性能自适应的基于深度强化学习干扰估计器的抗干扰方法,进而提高机械加工精度尤为重要。
发明内容
为了减小机械加工过程中控制系统负载惯量变化、外部扰动等因素对运动控制的性能影响,同时考虑测量噪声对扰动估计精度和系统性能的影响,本申请基于等价输入干扰估计器,提出了一种基于深度强化学习干扰估计器的高性能抗干扰方法,设计了一种基于深度强化学习的自适应滤波器结构,通过深度强化学习方法在时变扰动及不确定测量噪声环境下自动学习滤波器增益,针对突变扰动可快速重构扰动信号,在慢变扰动时可有效抑制噪声放大,从而有效提高运动控制系统的综合性能,进而实现机械加工过程中的高精控制。
为实现上述目的,本发明所采取的技术方案是:一种基于深度强化学习干扰估计器的高性能抗干扰方法,应用于运动控制系统,所述基于深度强化学习干扰估计器的高性能抗干扰方法,包括:
建立运动控制系统的等价输入干扰状态空间模型;
设计状态观测器,根据运动控制系统的系统输出y(k)和所述状态观测器的状态观测器增益L得到状态观测值
设计内模系统,并根据运动控制系统的等价输入干扰状态空间模型和内模系统建立运动控制系统的状态反馈控制器,所述状态反馈控制器根据内模系统的状态xI(k)和状态观测值得到状态反馈输出uf(k),公式表示如下;
其中,k为采样时刻,且k=1,2,3…为正整数,KI为内模系统的状态xI(k)的反馈增益,Kp为状态观测值的反馈增益;
设计深度强化学习干扰估计器,所述深度强化学习干扰估计器包括等价输入干扰估计器和滤波器F(z);
所述等价输入干扰估计器根据观测器增益L、状态反馈输出uf(k)和系统控制输入u(k)得到总和扰动估计值
基于深度强化学习调整所述滤波器的滤波器增益;
深度强化学习干扰估计器的最终输出为表示对总和扰动估计值/>滤波后的扰动估计值,/>采用公式表示如下:
式中,Z[]和Z-1[]分别代表Z变换和Z逆变换,和/>分别表示扰动估计值和总和扰动估计值/>的Z变换;
基于扰动估计值在状态反馈控制输出uf(k)中加入对其的负补偿量,得到带有扰动补偿的系统控制输入表示如下:
其中,u(k)表示运动控制系统的系统控制输入。
进一步的,所述建立运动控制系统的等价输入干扰状态空间模型,包括:
将运动控制系统表示为:
式中,x(k)=[x1 x2]表示k时刻的运动控制系统的系统状态,x1和x2分别为系统位置和速度,x(k+1)表示k+1时刻的运动控制系统的系统状态,u(k)为运动控制系统的系统控制输入,y(k)为运动控制系统的系统输出,v(k)为传感器测量噪声,A,B,C是具有系统阶数相同维度的系统矩阵,d(k)表示外部扰动,Bd表示外部扰动对应的增益矩阵,公式(6)满足约束条件:(A,B,C)构成的运动控制系统具有能观性和能控性;
引入等价输入干扰概念,定义de(k)为运动控制系统的等价输入干扰,即de(k)对系统输出产生的影响等价外部扰动d(k)对系统输出y(k)的影响,则改写运动控制系统为:
得到运动控制系统的等价输入干扰状态空间模型。
进一步的,所述设计状态观测器,包括:
设计状态观测器为:
式中,表示k+1时刻的状态观测值,A,B,C是具有系统阶数相同维度的系统矩阵,/>为系统输出y(k)的观测值,L为状态观测器增益。
进一步的,所述滤波器采用公式表示如下:
式中,z为Z变换算子,e为指数函数,T为运动控制系统的采样周期,ωa为截止角频率,φa为滤波器增益。
进一步的,所述基于深度强化学习调整所述滤波器的滤波器增益,包括:
采用深度Q网络在给定干扰和随机传感器测量噪声环境下进行滤波器增益学习;
所述深度Q网络的状态空间、动作空间、奖励函数设计如下:
s(k)=[y(k)-r(k),x(k),φa(k)]
E={-el,0,eu},e∈(0,1)
φa(k+1)=φa(k)+a(k),a(k)∈E
φa(k)∈(φminmax)
re=-β×abs(yk-rk)+(φa(k)-φmin)
式中,s(k)为状态空间,r(k)为输入信号,y(k)为运动控制系统的系统输出,y(k)-r(k)为轨迹跟踪误差,φa(k)表示第k个控制周期的滤波器增益,φa(k+1)表示第k+1个控制周期的滤波器增益,E为动作空间,a(k)表示动作,包含增益φa(k)减速、保持、加速动作,el表示减小值、eu表示增大值,φmax、φmin表示φa(k)的上、下界,re为奖励函数,abs表示绝对值函数,β为权重参数,设定为正常数,abs(yk-rk)表示输出误差绝对值,φa(k)-φmin表示关联噪声抑制指标。
进一步的,滤波器F(Z)采用深度Q网络学习调整滤波器增益φa的步骤包括:
步骤1:用随机网络参数ω初始化网络Qω(s(k),a(k)),复制相同的参数ω-←ω来初始化目标网络初始化经验回放池R,选取折扣因子γ,探索概率ε;
步骤2:从状态空间中选择状态;
步骤3:随机生成阈值Ra∈[01],若Ra≤ε,选取动作序号argmaxQω(s(k),a(k)),执行动作a(k);否则,随机选取动作序号,执行动作a(k);
步骤4:调整滤波器增益φa(k+1)=φa(k)+a(k);
步骤5:计算奖励re=-β×abs(yk-rk)+(φa(k)-φmin),状态变为s(k+1);
步骤6:将{s(k),a(k),r(k),s(k+1)}存储到经验池R中;
步骤7:若R中数据达到数量阈值,从中选取M个数据{s(i),a(i),r(i),s(i+1)}i=1,...,M,对每个数据用目标网络计算临时项随后,最小化目标损失函数/>更新当前网络Qω
步骤8:间隔m次采样后,复制相同的参数ω-←ω来更新目标网络
进一步的,所述内模系统用公式表示如下:
xI(k+1)=AIxI(k)+BI[r(k)-y(k)]
式中,xI(k+1)表示k+1时刻的内模系统的状态,AI和BI为具有内模系统阶数相同维度的系统矩阵。
与现有技术相比,本发明的有益效果为:通过在系统控制输入u(k)中加入对扰动估计的补偿,可有效主动抑制系统总和扰动影响,且扰动估计值中包含了对系统扰动和噪声影响的综合性能权衡,最终实现自动化装备的高精跟踪控制。
附图说明
图1为本发明中基于强化学习的等价输入干扰估计器的框架图;
图2为本发明加入的系统总和扰动和测量噪声的示意图;
图3为本发明强化学习迭代曲线图;
图4为本发明滤波器增益φa变化图;
图5为本发明扰动估计对比图;
图6为本发明输出误差对比图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提出了一种基于深度强化学习干扰估计器的高性能抗干扰系统,用于机械加工过程中的轨迹跟踪控制,包括:输入信号内模、状态反馈控制器、等价输入干扰估计器和状态观测器。所述输入信号内模,用于对输入信号进行处理,其处理过程通过如下公式表示:
xI(k+1)=AIxI(k)+BI[r(k)-y(k)] (1)
式中,k为采样时刻,且k=1,2,3…为正整数,xI(k)为系统的内模状态,r(k)为输入信号,y(k)为系统输出,AI和BI为内模矩阵;
所述状态反馈控制器,采用极点配置法计算得到状态反馈增益,进而计算得到状态反馈输出uf(k),采用公式表示如下:
式中,KI、Kp代表状态反馈增益,表示系统状态x(k)的观测值。
所述状态观测器,用于运动控制系统的系统状态的观测估计,采用公式表示如下:
式中,表示x(k)的观测值,/>表示系统输出y(k)的观测值,L表示状态观测器增益,uf(k)为状态反馈输出,A,B,C是系统矩阵。
所述等价输入干扰估计器,用于对由各种外部扰动组成的总和扰动进行估计,得到总和扰动估计值采用公式如下:
式中,表示系统状态x(k)的观测值,B+表示穆尔-彭罗斯广义逆矩阵,即B+=(BTB)-1BT,u(k)为控制输入,uf(k)为状态反馈输出,/>为观测误差,v(k)为系统的测量噪声。
所述等价输入干扰估计器最终输出为表示对总和扰动/>滤波后的扰动估计值,其中滤波器表示为F(z);则滤波后的扰动估计值/>采用公式表示如下:
式中,Z[]和Z-1[]分别代表Z变换和Z逆变换,和/>分别表示/>和/>的Z变换。
所述滤波器F(z),设计了一种基于深度强化学习的智能化学习机制,可根据扰动特征和测量噪声自适应调整滤波器带宽,采用公式表示如下:
式中,z为Z变换算子,e为指数函数,T为系统的采样周期,ωa为截止角频率,φa为滤波器增益。调整φa可改变系统控制性能从而自适应调整扰动估计和噪声衰减能力。
进一步,采用深度Q网络学习调整滤波器F(Z)增益φa。该方法的状态空间、动作空间、奖励函数设计如下:
s(k)=[y(k)-r(k),x(k),φa(k)] (9)
re=-β×abs(yk-rk)+(φa(k)-φmin) (11)
s(k)为状态空间,r(k)为输入信号,y(k)为运动控制系统的系统输出,y(k)-r(k)为轨迹跟踪误差,φa(k)表示第k个控制周期滤波器增益;E为动作空间,a(k)表示动作,包含增益φa(k)减速、保持、加速动作,el表示减小值、eu表示增大值,φmax、φmin表示φa(k)的上、下界,φmax一般可设为1。当系统存在突变干扰时,可通过减速动作减小φa(k),从而提高扰动估计精度并增加闭环系统稳定裕度;相反,当系统更多关注噪声抑制性能时,加速动作可以增大φa(k)从而消除测量噪声。当系统控制性能良好时,可选择保持动作维持φa(k)不变。re为奖励函数,abs表示绝对值函数,β为权重参数,设定为正常数;第一项abs(yk-rk)表示输出误差绝对值,是扰动抑制效果的直接体现,其值越小说明扰动重构精度越高;第二项φa(k)-φmin表示关联噪声抑制指标。
滤波器F(Z)采用深度Q网络学习调整滤波器增益φa的步骤如下:
综上,可得具有扰动补偿及噪声抑制项的系统控制输入u(k)表示如下:
因此,通过在系统控制输入u(k)中加入对扰动估计的补偿,可有效主动抑制系统总和扰动影响,且扰动估计值中包含了对系统扰动和噪声影响的综合性能权衡,最终实现自动化装备的高精跟踪控制。
在另一个实施例中,基于深度强化学习干扰估计器的高性能抗干扰系统,运行一种基于深度强化学习干扰估计器的高性能抗干扰方法,具体步骤如下:
步骤S1:建立运动控制系统的等价输入干扰状态空间模型。
首先,将运动控制系统表示为:
式中,x(k)=[x1 x2]表示公式(13)所述系统状态,x1和x2分别为系统位置和速度,u(k)为系统控制输入,y(k)为系统输出,v(k)为传感器测量噪声,A,B,C是具有系统阶数相同维度的系统矩阵,d(k)表示由负载惯量变化、刀具磨损、不确定性外力及模型不确定性等带来的外部扰动,Bd表示外部扰动对应的增益矩阵。公式(13)满足条件:(A,B,C)构成的系统具有能观性和能控性。
其次,引入等价输入干扰概念,定义de(k)为公式(13)的等价输入干扰,即de(k)对系统输出产生的影响等价外部扰动d(k)对系统输出y(k)的影响。则,可得到等价运动控制系统为:
步骤S2:设计状态观测器,实现系统的稳定状态估计。
设计状态观测器为:
式中,表示系统状态的观测值,y(k)为系统输出,/>为系统输出的观测值,uf(k)为状态反馈输出,L为状态观测器增益。
随后,利用极点配置设计状态观测器增益L,实现观测器稳定化设计。
步骤S3:深度强化学习干扰估计器,包括等价输入干扰估计器和滤波器,实现精确扰动估计。
等价输入干扰估计器用于对由各种外部扰动组成的总和扰动进行估计,得到总和扰动估计值采用公式如下:
式中,B+表示穆尔-彭罗斯广义逆矩阵,即B+=(BTB)-1BT,u(k)为系统控制输入,为观测误差,/>表示状态x(k)的观测值,v(k)为测量噪声,uf(k)为状态反馈输出。
由分析可知,公式(16)中计算当前需要利用当前时刻的控制输入u(k),而控制输入u(k)的计算又与/>有关联,存在因果关系问题。因此,设计如下形式滤波器F(z),采用公式:
式中,T为系统的采样周期,e为指数函数,ωa为截止角频率,φa为滤波器增益。调整φa可改变系统控制性能从而自适应调整扰动估计和噪声衰减能力。
式中,Z[]和Z-1[]分别代表Z变换和Z逆变换,表示滤波后的扰动估计值。根据公式(18),且令F(z)≈1则有:
那么,可使得
从而,实现总和扰动信号的精确估计。
步骤S4:设计基于深度强化学习的滤波器增益调整机制,在高精扰动估计同时有效消除噪声影响。
进一步,为权衡扰动估计与噪声衰减问题,可通过调整φa实现扰动抑制和噪声衰减的不同侧重。于是,采用深度Q网络在给定扰动和随机测量噪声(如图2所示)环境下进行φa学习,干扰d(t)用公式表示如下:
式中,N表示自然数,i=1,2,…,N,d(t)由两组干扰信号累加组成,分别是d1(t)和d2(t),Ad1、Ad2代表幅值,t表示系统时间;则d(k)为干扰d(t)的离散采样信号;测量噪声v(k)=150random[-11]×10-6,random[-11]代表[-1 1]之间的随机数。
再者,深度Q网络的状态空间、动作空间、奖励函数设计如下:
s(k)=[y(k)-r(k),x(k),φa(k)] (24)
re=-β×abs(yk-rk)+(φa(k)-φmin) (26)
s(k)为状态空间,r(k)为输入信号,y(k)为运动控制系统的系统输出,y(k)-r(k)为轨迹跟踪误差,φa(k)表示第k个控制周期滤波器增益;E为动作空间,a(k)表示动作,包含增益φa(k)减速、保持、加速动作,el表示减小值、eu表示增大值,φmax、φmin表示φa(k)的上、下界,φmax一般可设为1。当系统存在突变干扰时,可通过减速动作减小φa(k),从而提高扰动估计精度并增加闭环系统稳定裕度;相反,当系统更多关注噪声抑制性能时,加速动作可以增大φa(k)从而消除测量噪声。当系统控制性能良好时,可选择保持动作维持φa(k)不变。re为奖励函数,abs表示绝对值函数,β为权重参数,设定为正常数;第一项abs(yk-rk)表示输出误差绝对值,是扰动抑制效果的直接体现,其值越小说明扰动重构精度越高;第二项φa(k)-φmin关联噪声抑制指标。
训练流程如下:
通过上述步骤,滤波器可自动权衡扰动抑制和噪声衰减,利用滤波器增益调整后的滤波器根据总和扰动估计值输出扰动估计值/>根据式(16)-(20)可计算各控制周期扰动估计值/>
步骤S5:设计状态反馈控制器,实现系统的稳定跟踪控制。
给定参考输入r(k),采用输入信号内模提高轨迹跟踪精度,设计内模系统如下:
xI(k+1)=AIxI(k)+BI[r(k)-y(k)] (27)
式中,xI(k)为内模系统状态,y(k)为系统输出,AI和BI为具有内模系统阶数相同维度的系统矩阵;
联合式(14)和式(27),由此可得运动控制系统的状态反馈控制具体形式为:
采用极点配置方法设计状态反馈控制器增益KI和Kp,其中KI为内模系统状态xI(k)的反馈增益,Kp为状态观测器系统状态的反馈增益,则状态反馈输出uf(k)可以表示为:
步骤S6:设计带有扰动补偿的控制输入,实现基于深度强化学习抗干扰的鲁棒控制策略。
基于扰动估计在状态反馈控制输出uf(k)中加入对其的负补偿量,得到带有扰动补偿的运动控制系统控制输入u(k)为:
从而,基于所提出的基于深度强化学习干扰估计器的智能化抗干扰方法,通过对系统总和扰动的有效补偿和测量噪声的有效抑制,实现高精度跟踪控制。
下面通过跟踪直线轨迹案例验证方法的有效性及优越性。
运动控制系统矩阵B=[04.41]T,C=[10],控制系统总和扰动和测量噪声如图2所示。根据式(29),运动控制系统的内模设定为/>BI=[01]T。此外,控制周期h=10ms,配置等价输入干扰估计参数为L=[1.32 27.28],观测器极点poles=[-200-200],滤波器参数ωa=100,状态反馈增益K=[244.482.50]。配置改进滤波器强化学习动作调整参数el=eu=0.1,滤波器增益最小值φmin=0.4,最大值φmax=1,奖励权重项β=400,深度Q网络经验池R=10000,探索率ε=0.9,折扣因子γ=0.9,记忆库每次提取数据N=64,交换频率m=1000,学习时长8秒,每隔4个控制周期学习一次。采用“等价输入干扰器”对比验证算法的有效性及优越性,10次迭代的奖励函数均值曲线如图3所示,横坐标表示迭代次数,纵坐标表示累计奖励,图3表明了所提算法的收敛性。滤波器增益自适应调整结果如图4所示,增益可根据总和扰动的快变及慢变特征进行自适应调整;扰动估计对比图如图5所示,输出误差对比图如图6所示。由图5和图6可知,同时受到外部扰动运动控制系统在上述两种控制策略下均能有效抑制扰动抑制与衰减噪声,并具有较高的控制精度。经对比说明,本发明“基于深度强化学习干扰估计器的高性能抗干扰方法”相比传统的“基于等价输入干扰估计器的控制方法”而言在突变扰动时具有较好的扰动抑制效果,而在慢变扰动时对噪声的抑制效果良好。在实际应用中,可根据不同的侧重调节控制效果,从而能够有效提高运动控制系统的轨迹跟踪控制性能,实现高精跟踪控制。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于深度强化学习干扰估计器的高性能抗干扰方法,应用于运动控制系统,其特征在于,所述基于深度强化学习干扰估计器的高性能抗干扰方法,包括:
建立运动控制系统的等价输入干扰状态空间模型;
设计状态观测器,根据运动控制系统的系统输出y(k)和所述状态观测器的状态观测器增益L得到状态观测值
设计内模系统,并根据运动控制系统的等价输入干扰状态空间模型和内模系统建立运动控制系统的状态反馈控制器,所述状态反馈控制器根据内模系统的状态xI(k)和状态观测值得到状态反馈输出uf(k),公式表示如下;
其中,k为采样时刻,且k=1,2,3…为正整数,KI为内模系统的状态xI(k)的反馈增益,Kp为状态观测值的反馈增益;
设计深度强化学习干扰估计器,所述深度强化学习干扰估计器包括等价输入干扰估计器和滤波器F(z);
所述等价输入干扰估计器根据观测器增益L、状态反馈输出uf(k)和系统控制输入u(k)得到总和扰动估计值
基于深度强化学习调整所述滤波器的滤波器增益;
深度强化学习干扰估计器的最终输出为表示对总和扰动估计值/>滤波后的扰动估计值,/>采用公式表示如下:
式中,Z[]和Z-1[]分别代表Z变换和Z逆变换,和/>分别表示扰动估计值/>和总和扰动估计值/>的Z变换;
基于扰动估计值在状态反馈控制输出uf(k)中加入对其的负补偿量,得到带有扰动补偿的系统控制输入表示如下:
其中,u(k)表示运动控制系统的系统控制输入。
2.根据权利要求1所述的基于深度强化学习干扰估计器的高性能抗干扰方法,其特征在于,所述建立运动控制系统的等价输入干扰状态空间模型,包括:
将运动控制系统表示为:
式中,x(k)=[x1 x2]表示k时刻的运动控制系统的系统状态,x1和x2分别为系统位置和速度,x(k+1)表示k+1时刻的运动控制系统的系统状态,u(k)为运动控制系统的系统控制输入,y(k)为运动控制系统的系统输出,v(k)为传感器测量噪声,A,B,C是具有系统阶数相同维度的系统矩阵,d(k)表示外部扰动,Bd表示外部扰动对应的增益矩阵,公式满足约束条件:(A,B,C)构成的运动控制系统具有能观性和能控性;
引入等价输入干扰概念,定义de(k)为运动控制系统的等价输入干扰,即de(k)对系统输出产生的影响等价外部扰动d(k)对系统输出y(k)的影响,则改写运动控制系统为:
得到运动控制系统的等价输入干扰状态空间模型。
3.根据权利要求1所述的基于深度强化学习干扰估计器的高性能抗干扰方法,其特征在于,所述设计状态观测器,包括:
设计状态观测器为:
式中,表示k+1时刻的状态观测值,A,B,C是具有系统阶数相同维度的系统矩阵,为系统输出y(k)的观测值,L为状态观测器增益。
4.根据权利要求1所述的基于深度强化学习干扰估计器的高性能抗干扰方法,其特征在于,所述滤波器采用公式表示如下:
式中,z为Z变换算子,e为指数函数,T为运动控制系统的采样周期,ωa为截止角频率,φa为滤波器增益。
5.根据权利要求1所述的基于深度强化学习干扰估计器的高性能抗干扰方法,其特征在于,所述基于深度强化学习调整所述滤波器的滤波器增益,包括:
采用深度Q网络在给定干扰和随机传感器测量噪声环境下进行滤波器增益学习;
所述深度Q网络的状态空间、动作空间、奖励函数设计如下:
s(k)=[y(k)-r(k),x(k),φa(k)]
E={-el,0,eu},e∈(0,1)
φa(k+1)=φa(k)+a(k),a(k)∈E
φa(k)∈(φminmax)
re=-β×abs(yk-rk)+(φa(k)-φmin)
式中,s(k)为状态空间,r(k)为输入信号,y(k)为运动控制系统的系统输出,y(k)-r(k)为轨迹跟踪误差,φa(k)表示第k个控制周期的滤波器增益,φa(k+1)表示第k+1个控制周期的滤波器增益,E为动作空间,a(k)表示动作,包含增益φa(k)减速、保持、加速动作,el表示减小值、eu表示增大值,φmax、φmin表示φa(k)的上、下界,re为奖励函数,abs表示绝对值函数,β为权重参数,设定为正常数,abs(yk-rk)表示输出误差绝对值,φa(k)-φmin表示关联噪声抑制指标。
6.根据权利要求5所述的基于深度强化学习干扰估计器的高性能抗干扰方法,其特征在于,滤波器F(Z)采用深度Q网络学习调整滤波器增益φa的步骤包括:
步骤1:用随机网络参数ω初始化网络Qω(s(k),a(k)),复制相同的参数ω-←ω来初始化目标网络初始化经验回放池R,选取折扣因子γ,探索概率ε;
步骤2:从状态空间中选择状态;
步骤3:随机生成阈值Ra∈[0 1],若Ra≤ε,选取动作序号argmaxQω(s(k),a(k)),执行动作a(k);否则,随机选取动作序号,执行动作a(k);
步骤4:调整滤波器增益φa(k+1)=φa(k)+a(k);
步骤5:计算奖励re=-β×abs(yk-rk)+(φa(k)-φmin),状态变为s(k+1);
步骤6:将{s(k),a(k),r(k),s(k+1)}存储到经验池R中;
步骤7:若R中数据达到数量阈值,从中选取M个数据{s(i),a(i),r(i),s(i+1)}i=1,...,M,对每个数据用目标网络计算临时项随后,最小化目标损失函数/>更新当前网络Qω
步骤8:间隔m次采样后,复制相同的参数ω-←ω来更新目标网络
7.根据权利要求5所述的基于深度强化学习干扰估计器的高性能抗干扰方法,其特征在于,所述内模系统用公式表示如下:
xI(k+1)=AIxI(k)+BI[r(k)-y(k)]
式中,xI(k+1)表示k+1时刻的内模系统的状态,AI和BI为具有内模系统阶数相同维度的系统矩阵。
CN202310873806.0A 2023-07-17 2023-07-17 一种基于深度强化学习干扰估计器的高性能抗干扰方法 Pending CN116880190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310873806.0A CN116880190A (zh) 2023-07-17 2023-07-17 一种基于深度强化学习干扰估计器的高性能抗干扰方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310873806.0A CN116880190A (zh) 2023-07-17 2023-07-17 一种基于深度强化学习干扰估计器的高性能抗干扰方法

Publications (1)

Publication Number Publication Date
CN116880190A true CN116880190A (zh) 2023-10-13

Family

ID=88260066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310873806.0A Pending CN116880190A (zh) 2023-07-17 2023-07-17 一种基于深度强化学习干扰估计器的高性能抗干扰方法

Country Status (1)

Country Link
CN (1) CN116880190A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117490675A (zh) * 2024-01-03 2024-02-02 西北工业大学 一种阵列式mems陀螺高精度抗干扰控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117490675A (zh) * 2024-01-03 2024-02-02 西北工业大学 一种阵列式mems陀螺高精度抗干扰控制方法
CN117490675B (zh) * 2024-01-03 2024-03-15 西北工业大学 一种阵列式mems陀螺高精度抗干扰控制方法

Similar Documents

Publication Publication Date Title
CN116880190A (zh) 一种基于深度强化学习干扰估计器的高性能抗干扰方法
Dabroom et al. Discrete-time implementation of high-gain observers for numerical differentiation
Abdul-Adheem et al. Improved sliding mode nonlinear extended state observer based active disturbance rejection control for uncertain systems with unknown total disturbance
CN105652662B (zh) 一种窄带自适应滤波的压电结构振动主动控制方法
EP0463934A1 (en) Time delay controlled processes
CN110162739B (zh) 基于变遗忘因子的rffklms算法权值更新优化方法
CN111546346B (zh) 一种柔性关节扰动观测方法、力矩控制方法和设备
CN116165885B (zh) 一种高速列车的无模型自适应鲁棒控制方法及系统
KR101813615B1 (ko) 액추에이터 제어 장치 및 방법
CN113406886B (zh) 单连杆机械臂的模糊自适应控制方法、系统及存储介质
CN101131573A (zh) 一种应用于磁悬浮反作用飞轮的自适应神经网络控制方法
CN115085611B (zh) 一种直线电机运动控制方法、装置、设备及存储介质
CN117318555B (zh) 一种基于扰动补偿的直线电机自适应控制方法
Beijen et al. Self-tuning feedforward control for active vibration isolation of precision machines
CN117762015A (zh) 一种肩关节康复机器人轨迹跟踪的控制方法
CN110034715B (zh) 一种基于扰动估计的音圈电机运动控制方法及相关设备
CN107104618A (zh) 一种磁悬浮电机转子的控制方法及系统
Beijen et al. Performance trade-offs in disturbance feedforward compensation of active hard-mounted vibration isolators
CN115750592A (zh) 一种主动磁悬浮轴承转子的解耦和不平衡振动控制方法
CN112147897B (zh) 离散不确定多时滞四旋翼系统的容错控制方法
CN110824910B (zh) 一种确定磁轴承的乘性pid稳定域的方法
CN117784593B (zh) 一种基于卡尔曼滤波器的无模型振动主动控制方法
CN102064798B (zh) 一种负反馈自适应在线实时滤波方法及系统
CN114624994B (zh) 高阶柔性直线系统的新型自抗扰控制方法及系统
CN114962168A (zh) 用于风力发电机组的变桨控制方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination