CN110308655A

CN110308655A - 一种基于a3c算法的伺服系统补偿方法

Info

Publication number: CN110308655A
Application number: CN201910587449.5A
Authority: CN
Inventors: 张庆; 魏晓晗; 王紫琦
Original assignee: Xian Jiaotong University
Current assignee: Zhongshan Mltor Cnc Technology Co ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2019-10-08
Anticipated expiration: 2039-07-02
Also published as: CN110308655B

Abstract

一种基于A3C算法的伺服系统补偿方法，针对伺服系统特点即运行存在时滞性，欠阻尼系统存在超调的问题，首先在PID环节中设计补偿环节；然后设置A3C并行计算worker数量，设置更新间隔，根据缩短调节时间、减小超调量的控制需求建立评价指标，利用评价指标设计A3C算法奖励函数，并根据控制补偿环节确定A3C算法动作参数，确定算法迭代终止条件；最后，对A3C算法进行梯度裁剪，控制梯度变化范围，运行A3C算法，确定最优补偿参数；本发明利用伺服系统上升具有延迟性的过程，在PID环节之后施加补偿，通过A3C学习算法得到最优化补偿参数，提高系统响应速度，同时减小超调量，保证系统稳定性。

Description

一种基于A3C算法的伺服系统补偿方法

技术领域

本发明属于机电一体化与自动控制技术领域，具体涉及一种基于A3C算法的伺服系统补偿方法。

背景技术

随着现代控制与智能控制理论以及机电一体化技术的不断深入发展，工业机器人参与数控生产线迅猛发展，广泛应用于航空航天、电子产品、汽车、金属加工等各个行业。在这一过程中，由于高功率密度、高效率等特性，伺服系统得到了广泛的应用，尤其是在高精度工业生产领域，以伺服系统为依托的工业机器人、数控生产线等技术取得了长足的进步。

伺服系统现已成为工业机器人与数控生产线的核心，然而，由于伺服系统具有强耦合、非线性、鲁棒性差的特性，加之PID控制器的有差控制特性，难以满足跟踪性能和抗扰性能的要求，伺服系统在可靠性、调节速度、控制精度等方面仍存在不足，在实际工作中，可能导致生产效率降低、产品质量下降。通过对现有控制策略施加补偿，并通过机器学习对补偿参数进行寻优将显著改善这一问题，尤其对于对伺服系统有高精度、高速度要求的应用领域具有重要的影响。然而在伺服系统补偿领域，补偿策略优化方法发展滞后，难以获得最优补偿参数，制约了伺服系统补的应用效果。因此，实现伺服系统补偿优化成为亟待解决的问题。

异步优势演员-评论家算法(Asynchronous Advantage Actor-criticAlgorithm)，以下简称为A3C(Mnih,V.et al.Asynchronous methods for deepreinforcement learning,https://arxiv.org/abs/1602.01783)，是深度强化学习领域新一代算法，目的在于解决贯序决策问题。算法的基础是演员-评论家强化学习算法(Actor-Critic Algorithm)，包括Actor和Critic两个网络，Actor是一个以策略为基础的网络,通过奖惩信息来进行调节不同状态下采取各种动作的概率；Critic是一个以值为基础的学习网络，可以计算每一步的奖惩值。二者相结合，Actor来选择动作，Critic告诉Actor选择的动作是否合适。在这一过程中，Actor不断迭代，得到每一个状态下选择每一动作的合理概率，Critic也不断迭代，不断完善每个状态下选择每一个动作的奖励值。A3C算法创建多个并行的环境，每个并行环境同时运行Actor-Critic，让多个拥有副结构的agent同时在这些并行环境上更新主结构中的参数。并行中的agent互不干扰,而主结构的参数更新通过副结构上传各并行agent的更新梯度实现，具有不连续性,所以相对于Actor-Critic算法，A3C算法中数据之间的相关性降低,收敛性显著提高。A3C算法在策略寻优方面体现出了非凡的性能，现阶段被广泛应用于金融、自动控制、游戏等行业，并取得了良好的效果。但在伺服系统补偿与性能优化领域，A3C算法尚未得到应用。

发明内容

为了克服上述现有技术缺点，本发明目的在于提供一种基于A3C算法的伺服系统补偿方法，利用伺服系统上升具有延迟性的过程，在PID环节之后施加补偿，通过A3C学习算法得到最优化补偿参数，提高系统响应速度，同时减小超调量，保证系统稳定性。

为实现上述目的，本发明采取的技术解决方案是：

一种基于A3C算法的伺服系统补偿方法，针对伺服系统特点即运行存在时滞性，欠阻尼系统存在超调的问题，首先在PID环节中设计补偿环节；然后设置A3C并行计算worker数量，设置更新间隔，根据缩短调节时间、减小超调量的控制需求建立评价指标，利用评价指标设计A3C算法奖励函数，并根据控制补偿环节确定A3C算法动作参数，确定算法迭代终止条件；最后，对A3C算法进行梯度裁剪，控制梯度变化范围，运行A3C算法，确定最优补偿参数。

一种基于A3C算法的伺服系统补偿方法，包括以下步骤：

步骤1)通过Simulink仿真模型对伺服系统进行建模，伺服系统仿真模型应包括控制器、被控对象、执行、检测、比较、补偿六个环节，其中检测环节包括位置、速度、电流、扭矩信号的检测；运行伺服系统仿真模型，从检测环节中获取伺服系统位置、速度、扭矩、电流响应信号时域波形；

步骤2)从位置、扭矩、电流时域响应波形中计算伺服系统调节时间t_s、超调量σ％、效率指标η三个时间响应性能指标，效率指标η为电流与扭矩有效值之比，将上述三个时间响应性能指标作为算法评价指标，设置评价指标向量即状态向量S_t，

S_t＝{σ％,t_sp,η_s}

其中，

t_s＝t'_98％

其中，c(tp)为伺服系统位置时域响应最大偏离值，c(∞)为伺服系统位置时域响应终值，t'_98％为伺服系统位置时域响应稳定至终值的98％所用的时间，T_rms为伺服系统扭矩时域响应有效值，I_rms为伺服系统电流时域响应有效值；

对状态向量中各元素进行归一化处理，处理过程如下:

其中，σ_min％为样本最小超调量，取值为0，σ_max％为样本最大超调，t_smin为样本最小调节时间，t_smax为最大调节时间，η_smin为样本最小效率指标，η_smax为样本最大效率指标，所有样本指标均通过伺服系统多次运行采样得到；

将归一化后的向量作为Actor网络的输入向量；

步骤3)设置补偿函数形式为线性函数，函数形式为

其中，t_d为补偿截止时间，根据补偿评价指标在补偿环节中设置补偿截止时间t_d，补偿截止时间t_d应小于调节时间t_s；选择补偿放大增益K作为算法输出动作，作为Actor网络的输出；状态向量s_t与动作K作为Critic网络的输入；同时根据所选择指标设计A3C算法奖励函数R(s_t,a)

步骤4)根据计算机硬件信息确定A3C并行计算池worker数目，即所使用CPU核心数，worker数目应少于计算机总核心数；设置梯度汇总与更新参数，包括步长t_u与折扣系数γ，由于应用中为连续选择动作形式，步长t_u＝1，折扣系数γ＝1；

步骤5)根据输入状态及动作分别设计Actor-Critic算法中Actor与Critic参数化网络参数φ(s)，选择RBF神经网络作为参数化手段，于[0,1]中等间隔设置神经网络中心，随机配置初始Actor网络权值参数θ与Critic网络权值参数w；根据所设计神经网络中心、网络权值参数配置网络，根据需求配置算法学习率α，设置α＝0.001，参数更新方式如下

dθ←dθ+▽_θ′logπ(a_is_i；θ')(R-V(s_i；θ_v'))

其中，π(a_is_i；θ')为策略函数，V(s_i；θ_v')为Critic网络输出，R为奖励函数，为价值梯度，用来更新Critic网络参数梯度，▽_θ′logπ(a_is_i；θ')为策略梯度，用来更新Actor网络参数；

步骤6)设计算法终止条件，设置算法最大迭代次数T作为终止条件，设置梯度裁剪阈值以消除梯度爆炸问题，梯度裁剪过程为：

其中，||g||为梯度向量g的二范数，θ为梯度裁剪阈值；

步骤7)运行A3C算法进行迭代，观察运行结果，如果价值函数R在最后20回合的变化ΔR₁₀≤5，则认为算法收敛；如果算法收敛，则说明算法配置成功；如果算法不收敛，则将迭代步数加大50％，重复步骤6)-7)，运行补偿后的伺服系统验证补偿结果。

所述的步骤2)中的伺服系统为永磁同步电机伺服系统，包含位置、速度、电流三环PID控制，其中补偿加在PID输出后，补偿信号为幂函数方式。

本发明的有益效果为

1.本发明对伺服系统进行补偿，缩短伺服系统调节时间，提高稳定性，在不引入超调的前提下提高瞬态能量转化效率，同时减小超调，使得补偿后的伺服系统动态性能得到显著提高。

2.本发明通过强化学习的手段对伺服系统进行补偿，有利于寻找到最优化参数，优化伺服系统运行状态，显著提高伺服系统瞬态性能，延长使用寿命。

附图说明

图1是本发明方法的流程图。

图2是本发明实施例1伺服系统补偿方法的示意图。

图3是本发明实施例1伺服系统补偿Simulink模型。

图4是本发明实施例1的位置补偿之前位置响应时域波形图。

图5是本发明实施例1的位置补偿之后位置响应时域波形图。

图6是本发明实施例1的位置补偿前后响应时域波形对比图。

图7是本发明实施例1的位置补偿价值函数波形图。

具体实施方式

以下结合附图和实施例对本发明进一步的详细说明。

实施例1，参照图1，一种基于A3C算法的伺服系统补偿方法，包括以下步骤：

步骤1)选取Simulink伺服系统模型为以永磁同步电机为执行器的伺服系统模型，根据图1所示方法流程设计伺服系统补偿方法如图2所示，设置位置参考为1000，运行初始状态下的永磁同步电机模型，获取电机位置、速度信号时间幅值序列{s_t}，{V_s}，{t＝1,2,…,N}，N为采样点数，本实施例中N＝10k；通过时域响应信号得到取电机调节时间t_s、超调量σ％、电流与扭矩有效值之比即效率指标η等时间响应性能指标；

步骤2)本实施例目的在于减小超调，提高调节速度，并提高电机效率，所以选择超调量σ％、调节时间t_s、电流与扭矩有效值之比即效率指标η作为评价指标；对评价指标进行简化，最终得到状态向量S_t

S_t＝{σ％,t_sp,η_s}

其中，

对状态向量中各元素进行归一化处理，使其处于[0,1]区间，便于后续神经网络计算；

处理过程如下:

将归一化后的向量作为Actor网络的输入向量；

本实施例中，补偿前的±2％调节时间为t_sp＝2.9131s，超调量σ％为0，效率指标为0.2350；将状态向量作为Actor网络的S_ta，本实施例中设置评价指标E_Index(S_t)＝S_t；

步骤3)设置补偿函数形式为线性函数，函数形式为

其中，t_d为补偿截止时间，根据调节时间t_s确定补偿函数的补偿截止时间t_d，补偿截止时间应小于调节时间以避免引入额外的超调；本实施例中设置补偿截止时间t_d＝2s；补偿增益K作为Actor网络产生的动作A_t，将S_t与A_t组合，作为Critic网络的输入S_tc

S_tc＝{σ％,t_sp,η_s,A_t}

设置参考奖励R_ref＝{σ₀％,t_sp0,η_s0}，即时奖励函数为R＝R_ref-E_Index(S_t)；

步骤4)根据计算机硬件信息确定A3C并行计算池worker数目,本实施例中设置并行计算池worker数目为15；设置梯度汇总与更新参数，包括步长t_u与折扣系数γ，由于应用中为连续选择动作形式，步长t_u＝1，折扣系数γ＝1；

步骤5)根据输入状态及动作分别设计Actor-Critic算法中Actor与Critic参数化网络参数φ(s)，选用RBF神经网络作为用于近似的神经网络，于[0,1]中等间隔设置神经网络中心，配置网络参数，本实施例中随机配置初始Actor网络参数θ与Critic网络参数w，本实施例中配置学习率α＝0.001；

其中，||g||为梯度向量g的二范数，θ为梯度裁剪阈值，本实施例中设置θ＝10；

本实施例价值函数R在最后10回合的变化ΔR₁₀≤1.5，认为算法收敛。

参照图3，本实施例采用以永磁同步电机为执行器的伺服系统，由PID控制器、逆变器、永磁同步电机、监测系统几个部分组成；其中，永磁同步电机极数为8，预设位置参考为1000，初始补偿增益为0。

参照图4，补偿前的±2％调节时间为t_sp＝2.9131s，超调量σ％为0，效率指标为0.2350。

参照图5，补偿后的±2％调节时间为t_sp＝2.5575s，超调量σ％为0，效率指标为0.2548。

参照图6，补偿之后在没有引入超调的前提下，σ＝1％的上升时间缩短12.20％，效率指标提高8.4％。

参照图7，A3C算法在大约220回合价值函数收敛至最大值，最大价值函数值约为43.7，最优补偿增益为K＝53.5645。

Claims

1.一种基于A3C算法的伺服系统补偿方法，针对伺服系统特点即运行存在时滞性，欠阻尼系统存在超调的问题，其特征在于：首先在PID环节中设计补偿环节；然后设置A3C并行计算worker数量，设置更新间隔，根据缩短调节时间、减小超调量的控制需求建立评价指标，利用评价指标设计A3C算法奖励函数，并根据控制补偿环节确定A3C算法动作参数，确定算法迭代终止条件；最后，对A3C算法进行梯度裁剪，控制梯度变化范围，运行A3C算法，确定最优补偿参数。

2.一种基于A3C算法的伺服系统补偿方法，其特征在于,包括以下步骤：

S_t＝{σ％,t_sp,η_s}

其中，

t_s＝t'98％

对状态向量中各元素进行归一化处理，处理过程如下:

将归一化后的向量S_t ^a作为Actor网络的输入向量；

步骤3)设置补偿函数形式为线性函数，函数形式为

其中，π(a_i|s_i；θ')为策略函数，V(s_i；θ’_v)为Critic网络输出，R为奖励函数，为价值梯度，用来更新Critic网络参数梯度，为策略梯度，用来更新Actor网络参数；

其中，||g||为梯度向量g的二范数，θ为梯度裁剪阈值；

3.根据权利要求2所述的一种基于A3C算法的伺服系统补偿方法，其特征在于：所述的步骤2)中的伺服系统为永磁同步电机伺服系统，包含位置、速度、电流三环PID控制，其中补偿加在PID输出后，补偿信号为幂函数方式。