CN110308655A - 一种基于a3c算法的伺服系统补偿方法 - Google Patents
一种基于a3c算法的伺服系统补偿方法 Download PDFInfo
- Publication number
- CN110308655A CN110308655A CN201910587449.5A CN201910587449A CN110308655A CN 110308655 A CN110308655 A CN 110308655A CN 201910587449 A CN201910587449 A CN 201910587449A CN 110308655 A CN110308655 A CN 110308655A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- servo system
- compensation
- time
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000004044 response Effects 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 25
- 230000009471 action Effects 0.000 claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 15
- 238000005520 cutting process Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000008859 change Effects 0.000 claims abstract description 3
- 238000004904 shortening Methods 0.000 claims abstract description 3
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 8
- 230000001360 synchronised effect Effects 0.000 claims description 7
- 238000004088 simulation Methods 0.000 claims description 6
- 238000004880 explosion Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003321 amplification Effects 0.000 claims description 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 2
- 230000003111 delayed effect Effects 0.000 abstract description 3
- 230000000630 rising effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于A3C算法的伺服系统补偿方法,针对伺服系统特点即运行存在时滞性,欠阻尼系统存在超调的问题,首先在PID环节中设计补偿环节;然后设置A3C并行计算worker数量,设置更新间隔,根据缩短调节时间、减小超调量的控制需求建立评价指标,利用评价指标设计A3C算法奖励函数,并根据控制补偿环节确定A3C算法动作参数,确定算法迭代终止条件;最后,对A3C算法进行梯度裁剪,控制梯度变化范围,运行A3C算法,确定最优补偿参数;本发明利用伺服系统上升具有延迟性的过程,在PID环节之后施加补偿,通过A3C学习算法得到最优化补偿参数,提高系统响应速度,同时减小超调量,保证系统稳定性。
Description
技术领域
本发明属于机电一体化与自动控制技术领域,具体涉及一种基于A3C算法的伺服系统补偿方法。
背景技术
随着现代控制与智能控制理论以及机电一体化技术的不断深入发展,工业机器人参与数控生产线迅猛发展,广泛应用于航空航天、电子产品、汽车、金属加工等各个行业。在这一过程中,由于高功率密度、高效率等特性,伺服系统得到了广泛的应用,尤其是在高精度工业生产领域,以伺服系统为依托的工业机器人、数控生产线等技术取得了长足的进步。
伺服系统现已成为工业机器人与数控生产线的核心,然而,由于伺服系统具有强耦合、非线性、鲁棒性差的特性,加之PID控制器的有差控制特性,难以满足跟踪性能和抗扰性能的要求,伺服系统在可靠性、调节速度、控制精度等方面仍存在不足,在实际工作中,可能导致生产效率降低、产品质量下降。通过对现有控制策略施加补偿,并通过机器学习对补偿参数进行寻优将显著改善这一问题,尤其对于对伺服系统有高精度、高速度要求的应用领域具有重要的影响。然而在伺服系统补偿领域,补偿策略优化方法发展滞后,难以获得最优补偿参数,制约了伺服系统补的应用效果。因此,实现伺服系统补偿优化成为亟待解决的问题。
异步优势演员-评论家算法(Asynchronous Advantage Actor-criticAlgorithm),以下简称为A3C(Mnih,V.et al.Asynchronous methods for deepreinforcement learning,https://arxiv.org/abs/1602.01783),是深度强化学习领域新一代算法,目的在于解决贯序决策问题。算法的基础是演员-评论家强化学习算法(Actor-Critic Algorithm),包括Actor和Critic两个网络,Actor是一个以策略为基础的网络,通过奖惩信息来进行调节不同状态下采取各种动作的概率;Critic是一个以值为基础的学习网络,可以计算每一步的奖惩值。二者相结合,Actor来选择动作,Critic告诉Actor选择的动作是否合适。在这一过程中,Actor不断迭代,得到每一个状态下选择每一动作的合理概率,Critic也不断迭代,不断完善每个状态下选择每一个动作的奖励值。A3C算法创建多个并行的环境,每个并行环境同时运行Actor-Critic,让多个拥有副结构的agent同时在这些并行环境上更新主结构中的参数。并行中的agent互不干扰,而主结构的参数更新通过副结构上传各并行agent的更新梯度实现,具有不连续性,所以相对于Actor-Critic算法,A3C算法中数据之间的相关性降低,收敛性显著提高。A3C算法在策略寻优方面体现出了非凡的性能,现阶段被广泛应用于金融、自动控制、游戏等行业,并取得了良好的效果。但在伺服系统补偿与性能优化领域,A3C算法尚未得到应用。
发明内容
为了克服上述现有技术缺点,本发明目的在于提供一种基于A3C算法的伺服系统补偿方法,利用伺服系统上升具有延迟性的过程,在PID环节之后施加补偿,通过A3C学习算法得到最优化补偿参数,提高系统响应速度,同时减小超调量,保证系统稳定性。
为实现上述目的,本发明采取的技术解决方案是:
一种基于A3C算法的伺服系统补偿方法,针对伺服系统特点即运行存在时滞性,欠阻尼系统存在超调的问题,首先在PID环节中设计补偿环节;然后设置A3C并行计算worker数量,设置更新间隔,根据缩短调节时间、减小超调量的控制需求建立评价指标,利用评价指标设计A3C算法奖励函数,并根据控制补偿环节确定A3C算法动作参数,确定算法迭代终止条件;最后,对A3C算法进行梯度裁剪,控制梯度变化范围,运行A3C算法,确定最优补偿参数。
一种基于A3C算法的伺服系统补偿方法,包括以下步骤:
步骤1)通过Simulink仿真模型对伺服系统进行建模,伺服系统仿真模型应包括控制器、被控对象、执行、检测、比较、补偿六个环节,其中检测环节包括位置、速度、电流、扭矩信号的检测;运行伺服系统仿真模型,从检测环节中获取伺服系统位置、速度、扭矩、电流响应信号时域波形;
步骤2)从位置、扭矩、电流时域响应波形中计算伺服系统调节时间ts、超调量σ%、效率指标η三个时间响应性能指标,效率指标η为电流与扭矩有效值之比,将上述三个时间响应性能指标作为算法评价指标,设置评价指标向量即状态向量St,
St={σ%,tsp,ηs}
其中,
ts=t'98%
其中,c(tp)为伺服系统位置时域响应最大偏离值,c(∞)为伺服系统位置时域响应终值,t'98%为伺服系统位置时域响应稳定至终值的98%所用的时间,Trms为伺服系统扭矩时域响应有效值,Irms为伺服系统电流时域响应有效值;
对状态向量中各元素进行归一化处理,处理过程如下:
其中,σmin%为样本最小超调量,取值为0,σmax%为样本最大超调,tsmin为样本最小调节时间,tsmax为最大调节时间,ηsmin为样本最小效率指标,ηsmax为样本最大效率指标,所有样本指标均通过伺服系统多次运行采样得到;
将归一化后的向量作为Actor网络的输入向量;
步骤3)设置补偿函数形式为线性函数,函数形式为
其中,td为补偿截止时间,根据补偿评价指标在补偿环节中设置补偿截止时间td,补偿截止时间td应小于调节时间ts;选择补偿放大增益K作为算法输出动作,作为Actor网络的输出;状态向量st与动作K作为Critic网络的输入;同时根据所选择指标设计A3C算法奖励函数R(st,a)
步骤4)根据计算机硬件信息确定A3C并行计算池worker数目,即所使用CPU核心数,worker数目应少于计算机总核心数;设置梯度汇总与更新参数,包括步长tu与折扣系数γ,由于应用中为连续选择动作形式,步长tu=1,折扣系数γ=1;
步骤5)根据输入状态及动作分别设计Actor-Critic算法中Actor与Critic参数化网络参数φ(s),选择RBF神经网络作为参数化手段,于[0,1]中等间隔设置神经网络中心,随机配置初始Actor网络权值参数θ与Critic网络权值参数w;根据所设计神经网络中心、网络权值参数配置网络,根据需求配置算法学习率α,设置α=0.001,参数更新方式如下
dθ←dθ+▽θ′logπ(aisi;θ')(R-V(si;θv'))
其中,π(aisi;θ')为策略函数,V(si;θv')为Critic网络输出,R为奖励函数,为价值梯度,用来更新Critic网络参数梯度,▽θ′logπ(aisi;θ')为策略梯度,用来更新Actor网络参数;
步骤6)设计算法终止条件,设置算法最大迭代次数T作为终止条件,设置梯度裁剪阈值以消除梯度爆炸问题,梯度裁剪过程为:
其中,||g||为梯度向量g的二范数,θ为梯度裁剪阈值;
步骤7)运行A3C算法进行迭代,观察运行结果,如果价值函数R在最后20回合的变化ΔR10≤5,则认为算法收敛;如果算法收敛,则说明算法配置成功;如果算法不收敛,则将迭代步数加大50%,重复步骤6)-7),运行补偿后的伺服系统验证补偿结果。
所述的步骤2)中的伺服系统为永磁同步电机伺服系统,包含位置、速度、电流三环PID控制,其中补偿加在PID输出后,补偿信号为幂函数方式。
本发明的有益效果为
1.本发明对伺服系统进行补偿,缩短伺服系统调节时间,提高稳定性,在不引入超调的前提下提高瞬态能量转化效率,同时减小超调,使得补偿后的伺服系统动态性能得到显著提高。
2.本发明通过强化学习的手段对伺服系统进行补偿,有利于寻找到最优化参数,优化伺服系统运行状态,显著提高伺服系统瞬态性能,延长使用寿命。
附图说明
图1是本发明方法的流程图。
图2是本发明实施例1伺服系统补偿方法的示意图。
图3是本发明实施例1伺服系统补偿Simulink模型。
图4是本发明实施例1的位置补偿之前位置响应时域波形图。
图5是本发明实施例1的位置补偿之后位置响应时域波形图。
图6是本发明实施例1的位置补偿前后响应时域波形对比图。
图7是本发明实施例1的位置补偿价值函数波形图。
具体实施方式
以下结合附图和实施例对本发明进一步的详细说明。
实施例1,参照图1,一种基于A3C算法的伺服系统补偿方法,包括以下步骤:
步骤1)选取Simulink伺服系统模型为以永磁同步电机为执行器的伺服系统模型,根据图1所示方法流程设计伺服系统补偿方法如图2所示,设置位置参考为1000,运行初始状态下的永磁同步电机模型,获取电机位置、速度信号时间幅值序列{st},{Vs},{t=1,2,…,N},N为采样点数,本实施例中N=10k;通过时域响应信号得到取电机调节时间ts、超调量σ%、电流与扭矩有效值之比即效率指标η等时间响应性能指标;
步骤2)本实施例目的在于减小超调,提高调节速度,并提高电机效率,所以选择超调量σ%、调节时间ts、电流与扭矩有效值之比即效率指标η作为评价指标;对评价指标进行简化,最终得到状态向量St
St={σ%,tsp,ηs}
其中,
其中,c(tp)为伺服系统位置时域响应最大偏离值,c(∞)为伺服系统位置时域响应终值,t'98%为伺服系统位置时域响应稳定至终值的98%所用的时间,Trms为伺服系统扭矩时域响应有效值,Irms为伺服系统电流时域响应有效值;
对状态向量中各元素进行归一化处理,使其处于[0,1]区间,便于后续神经网络计算;
处理过程如下:
其中,σmin%为样本最小超调量,取值为0,σmax%为样本最大超调,tsmin为样本最小调节时间,tsmax为最大调节时间,ηsmin为样本最小效率指标,ηsmax为样本最大效率指标,所有样本指标均通过伺服系统多次运行采样得到;
将归一化后的向量作为Actor网络的输入向量;
本实施例中,补偿前的±2%调节时间为tsp=2.9131s,超调量σ%为0,效率指标为0.2350;将状态向量作为Actor网络的Sta,本实施例中设置评价指标EIndex(St)=St;
步骤3)设置补偿函数形式为线性函数,函数形式为
其中,td为补偿截止时间,根据调节时间ts确定补偿函数的补偿截止时间td,补偿截止时间应小于调节时间以避免引入额外的超调;本实施例中设置补偿截止时间td=2s;补偿增益K作为Actor网络产生的动作At,将St与At组合,作为Critic网络的输入Stc
Stc={σ%,tsp,ηs,At}
设置参考奖励Rref={σ0%,tsp0,ηs0},即时奖励函数为R=Rref-EIndex(St);
步骤4)根据计算机硬件信息确定A3C并行计算池worker数目,本实施例中设置并行计算池worker数目为15;设置梯度汇总与更新参数,包括步长tu与折扣系数γ,由于应用中为连续选择动作形式,步长tu=1,折扣系数γ=1;
步骤5)根据输入状态及动作分别设计Actor-Critic算法中Actor与Critic参数化网络参数φ(s),选用RBF神经网络作为用于近似的神经网络,于[0,1]中等间隔设置神经网络中心,配置网络参数,本实施例中随机配置初始Actor网络参数θ与Critic网络参数w,本实施例中配置学习率α=0.001;
步骤6)设计算法终止条件,设置算法最大迭代次数T作为终止条件,设置梯度裁剪阈值以消除梯度爆炸问题,梯度裁剪过程为:
其中,||g||为梯度向量g的二范数,θ为梯度裁剪阈值,本实施例中设置θ=10;
步骤7)运行A3C算法进行迭代,观察运行结果,如果价值函数R在最后20回合的变化ΔR10≤5,则认为算法收敛;如果算法收敛,则说明算法配置成功;如果算法不收敛,则将迭代步数加大50%,重复步骤6)-7),运行补偿后的伺服系统验证补偿结果。
本实施例价值函数R在最后10回合的变化ΔR10≤1.5,认为算法收敛。
参照图3,本实施例采用以永磁同步电机为执行器的伺服系统,由PID控制器、逆变器、永磁同步电机、监测系统几个部分组成;其中,永磁同步电机极数为8,预设位置参考为1000,初始补偿增益为0。
参照图4,补偿前的±2%调节时间为tsp=2.9131s,超调量σ%为0,效率指标为0.2350。
参照图5,补偿后的±2%调节时间为tsp=2.5575s,超调量σ%为0,效率指标为0.2548。
参照图6,补偿之后在没有引入超调的前提下,σ=1%的上升时间缩短12.20%,效率指标提高8.4%。
参照图7,A3C算法在大约220回合价值函数收敛至最大值,最大价值函数值约为43.7,最优补偿增益为K=53.5645。
Claims (3)
1.一种基于A3C算法的伺服系统补偿方法,针对伺服系统特点即运行存在时滞性,欠阻尼系统存在超调的问题,其特征在于:首先在PID环节中设计补偿环节;然后设置A3C并行计算worker数量,设置更新间隔,根据缩短调节时间、减小超调量的控制需求建立评价指标,利用评价指标设计A3C算法奖励函数,并根据控制补偿环节确定A3C算法动作参数,确定算法迭代终止条件;最后,对A3C算法进行梯度裁剪,控制梯度变化范围,运行A3C算法,确定最优补偿参数。
2.一种基于A3C算法的伺服系统补偿方法,其特征在于,包括以下步骤:
步骤1)通过Simulink仿真模型对伺服系统进行建模,伺服系统仿真模型应包括控制器、被控对象、执行、检测、比较、补偿六个环节,其中检测环节包括位置、速度、电流、扭矩信号的检测;运行伺服系统仿真模型,从检测环节中获取伺服系统位置、速度、扭矩、电流响应信号时域波形;
步骤2)从位置、扭矩、电流时域响应波形中计算伺服系统调节时间ts、超调量σ%、效率指标η三个时间响应性能指标,效率指标η为电流与扭矩有效值之比,将上述三个时间响应性能指标作为算法评价指标,设置评价指标向量即状态向量St,
St={σ%,tsp,ηs}
其中,
ts=t'98%
其中,c(tp)为伺服系统位置时域响应最大偏离值,c(∞)为伺服系统位置时域响应终值,t'98%为伺服系统位置时域响应稳定至终值的98%所用的时间,Trms为伺服系统扭矩时域响应有效值,Irms为伺服系统电流时域响应有效值;
对状态向量中各元素进行归一化处理,处理过程如下:
其中,σmin%为样本最小超调量,取值为0,σmax%为样本最大超调,tsmin为样本最小调节时间,tsmax为最大调节时间,ηsmin为样本最小效率指标,ηsmax为样本最大效率指标,所有样本指标均通过伺服系统多次运行采样得到;
将归一化后的向量St a作为Actor网络的输入向量;
步骤3)设置补偿函数形式为线性函数,函数形式为
其中,td为补偿截止时间,根据补偿评价指标在补偿环节中设置补偿截止时间td,补偿截止时间td应小于调节时间ts;选择补偿放大增益K作为算法输出动作,作为Actor网络的输出;状态向量st与动作K作为Critic网络的输入;同时根据所选择指标设计A3C算法奖励函数R(st,a)
步骤4)根据计算机硬件信息确定A3C并行计算池worker数目,即所使用CPU核心数,worker数目应少于计算机总核心数;设置梯度汇总与更新参数,包括步长tu与折扣系数γ,由于应用中为连续选择动作形式,步长tu=1,折扣系数γ=1;
步骤5)根据输入状态及动作分别设计Actor-Critic算法中Actor与Critic参数化网络参数φ(s),选择RBF神经网络作为参数化手段,于[0,1]中等间隔设置神经网络中心,随机配置初始Actor网络权值参数θ与Critic网络权值参数w;根据所设计神经网络中心、网络权值参数配置网络,根据需求配置算法学习率α,设置α=0.001,参数更新方式如下
其中,π(ai|si;θ')为策略函数,V(si;θ’v)为Critic网络输出,R为奖励函数,为价值梯度,用来更新Critic网络参数梯度,为策略梯度,用来更新Actor网络参数;
步骤6)设计算法终止条件,设置算法最大迭代次数T作为终止条件,设置梯度裁剪阈值以消除梯度爆炸问题,梯度裁剪过程为:
其中,||g||为梯度向量g的二范数,θ为梯度裁剪阈值;
步骤7)运行A3C算法进行迭代,观察运行结果,如果价值函数R在最后20回合的变化ΔR10≤5,则认为算法收敛;如果算法收敛,则说明算法配置成功;如果算法不收敛,则将迭代步数加大50%,重复步骤6)-7),运行补偿后的伺服系统验证补偿结果。
3.根据权利要求2所述的一种基于A3C算法的伺服系统补偿方法,其特征在于:所述的步骤2)中的伺服系统为永磁同步电机伺服系统,包含位置、速度、电流三环PID控制,其中补偿加在PID输出后,补偿信号为幂函数方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910587449.5A CN110308655B (zh) | 2019-07-02 | 2019-07-02 | 一种基于a3c算法的伺服系统补偿方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910587449.5A CN110308655B (zh) | 2019-07-02 | 2019-07-02 | 一种基于a3c算法的伺服系统补偿方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110308655A true CN110308655A (zh) | 2019-10-08 |
CN110308655B CN110308655B (zh) | 2020-10-23 |
Family
ID=68078137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910587449.5A Active CN110308655B (zh) | 2019-07-02 | 2019-07-02 | 一种基于a3c算法的伺服系统补偿方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110308655B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112817240A (zh) * | 2020-12-30 | 2021-05-18 | 西安交通大学 | 一种基于深度强化学习算法的离心压缩机调控方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008252799A (ja) * | 2007-03-30 | 2008-10-16 | Kyocera Kinseki Corp | 圧電デバイス |
CN108008627A (zh) * | 2017-12-13 | 2018-05-08 | 中国石油大学(华东) | 一种并行优化的强化学习自适应pid控制方法 |
CN109682392A (zh) * | 2018-12-28 | 2019-04-26 | 山东大学 | 基于深度强化学习的视觉导航方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109193075B (zh) * | 2018-09-28 | 2020-06-05 | 合肥工业大学 | 基于强化学习的纯电动汽车动力电池冷却系统控制方法 |
-
2019
- 2019-07-02 CN CN201910587449.5A patent/CN110308655B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008252799A (ja) * | 2007-03-30 | 2008-10-16 | Kyocera Kinseki Corp | 圧電デバイス |
CN108008627A (zh) * | 2017-12-13 | 2018-05-08 | 中国石油大学(华东) | 一种并行优化的强化学习自适应pid控制方法 |
CN109682392A (zh) * | 2018-12-28 | 2019-04-26 | 山东大学 | 基于深度强化学习的视觉导航方法及系统 |
Non-Patent Citations (3)
Title |
---|
段友祥: "基于异步优势执行器评价器的自适应PID控制", 《计算机测量与控制》 * |
段友祥等: "基于异步优势执行器评价器学习的自适应PID控制设计", 《信息与控制》 * |
陈学松等: "基于执行器-评价器学习的自适应PID控制", 《控制理论与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112817240A (zh) * | 2020-12-30 | 2021-05-18 | 西安交通大学 | 一种基于深度强化学习算法的离心压缩机调控方法 |
CN112817240B (zh) * | 2020-12-30 | 2022-03-22 | 西安交通大学 | 一种基于深度强化学习算法的离心压缩机调控方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110308655B (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110488759B (zh) | 一种基于Actor-Critic算法的数控机床进给控制补偿方法 | |
CN109617485B (zh) | 一种基于Tabu和DOB的永磁直线电机推力波动复合抑制方法 | |
CN111628687A (zh) | 一种基于熵权法的永磁同步电机多目标参数优化方法 | |
CN113489014B (zh) | 一种快速灵活全纯嵌入式电力系统最优潮流评估方法 | |
CN114509949A (zh) | 一种机器人预定性能的控制方法 | |
CN111474922B (zh) | 一种连续非线性系统的控制器构建方法 | |
CN110308655B (zh) | 一种基于a3c算法的伺服系统补偿方法 | |
CN111766775A (zh) | 具有未知饱和pi回滞的非线性系统动态面隐逆控制器 | |
CN104167968B (zh) | 一种异步电机矢量控制方法 | |
CN115890668A (zh) | 一种机器人关节模组分散式优化学习控制方法及系统 | |
Jingzhuo et al. | Predictive iterative learning speed control with on-line identification for ultrasonic motor | |
CN110932629B (zh) | 基于单神经元网络的惯量估计方法及其自适应调整策略 | |
CN110048694A (zh) | 基于变元步长的随机傅里叶特征核最小均方算法 | |
CN112346342B (zh) | 一种非仿射动力学系统的单网络自适应评价设计方法 | |
CN115562008A (zh) | 一种基于改进固定时间的电力系统混沌现象分层滑模控制方法 | |
CN117614270B (zh) | 基于神经网络的Buck变换器导通模式切换控制方法 | |
CN118012125B (zh) | 基于强化动态学习的2-dof直升机多轨迹跟踪控制方法及系统 | |
CN116760289B (zh) | 一种基于遗传算法的DCDC buck变换器离散滑模控制算法 | |
CN115951364B (zh) | 一种提高压电式快速转向镜平台定位精度的方法 | |
CN114624994B (zh) | 高阶柔性直线系统的新型自抗扰控制方法及系统 | |
CN118646309A (zh) | 一种永磁同步电机矢量解耦控制方法及相关装置 | |
CN116995922A (zh) | 一种基于离散自适应滑模的直流降压变换器复合控制方法 | |
CN118611493A (zh) | 直线感应电机级联优化型无模型预测磁链控制方法及系统 | |
Latosiński et al. | Model-based trajectory tracking in sliding mode control of continuous-time systems | |
Jin et al. | High-precision position tracking control for permanent magnet linear servo system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220511 Address after: 528437 101, No.43 Keji West Road, Torch Development Zone, Zhongshan City, Guangdong Province Patentee after: ZHONGSHAN MLTOR CNC TECHNOLOGY Co.,Ltd. Address before: Beilin District Xianning West Road 710049, Shaanxi city of Xi'an province No. 28 Patentee before: XI'AN JIAOTONG University |