CN114932546A

CN114932546A - 一种基于未知机械臂模型的深度强化学习抑振系统及方法

Info

Publication number: CN114932546A
Application number: CN202210292577.9A
Authority: CN
Inventors: 丁伟利; 张恒; 华长春; 王文娜
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-08-23
Anticipated expiration: 2042-03-23
Also published as: CN114932546B

Abstract

本发明公开了一种基于未知机械臂模型的深度强化学习抑振系统及方法，属于机器人控制领域，所述抑振系统包括机械臂模块、振动采集模块、处理器和抑振控制模块；所述抑振方法是将深度强化学习与输入整形器二者相结合，在机器人机械臂精确动力学模型未知的情况下，通过深度强化学习DDPG算法的训练，不断优化输入整形器的参数，以此来对机械臂振动进行优化，提高机械臂工作效率。本发明不需要明确的机械臂的动力学模型，通过此方法便可以达到较好的抑振效果，具有较强的鲁棒性，能够适应各种类型的机械臂，有着较强的普适性。

Description

一种基于未知机械臂模型的深度强化学习抑振系统及方法

技术领域

本发明涉及机器人控制领域，尤其是一种基于未知机械臂模型的深度强化学习抑振系统及方法。

背景技术

为了满足工业生产质量和效率的不断提高需求，工业机器人向着更加智能化的方向发展，各类工业机械臂应运而生。其中，机械臂的吊装在生产中比较常见，如龙门/桁架机器人的悬臂、天车的吊臂等等。吊装的机械臂具有高灵活性，高工作效率，低成本与低能耗等优势，但机械臂在工作过程中会产生一定程度的振动，从而对其工作稳定性和精度造成影响，尤其在一些精度要求较高的地方，如高精度上下料、装配等。机械臂无法满足其工作要求。专利号为CN201710548814.2的发明专利提出的一种基于时滞补偿的风洞支杆抑振方法，分析了振动控制中加速度传感器与压电作动器激励信号的相位差，在控制器中编制移相算法程序做时滞补偿，最终实现主动振动控制，此方法需要利用锤击法来获得系统的频率响应函数，较为复杂；专利号为CN201710975489.8的发明专利通过一种基于输入整形器的机器人关节末端残余振动抑制方法，采用拉格朗日乘子法解出脉冲幅值表达式，再将参考信号与输入整形器做卷积运算得到新的整形信号，对其做预测路径规划处理后，再利用该信号去驱动系统以抑制机器人末端残余振动，虽然该发明并不需要建立精确的系统动力学模型，但正因如此，其只能对振动抑制有效果，很难达到最优抑振效果。

随着机器学习技术的广泛应用，无监督的强化学习得到越来越多人的重视，尤其在将强化学习与深度学习相结合，在解决一些非线性问题上取得了不错的效果。但考虑到大部分被控对象的精确数学模型难以获得，有必要研发一种基于未知机械臂模型的深度强化学习抑振系统及方法，以克服现有技术存在的不足。

发明内容

本发明需要解决的技术问题是提供一种基于未知机械臂模型的深度强化学习抑振系统及方法，将深度强化学习与输入整形器二者相结合，在机器人机械臂精确动力学模型未知的情况下，通过深度强化学习DDPG算法的训练，不断优化输入整形器的参数，以此来对机械臂振动进行优化，提高机械臂工作效率。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于未知机械臂模型的深度强化学习抑振系统，包括机械臂模块、振动采集模块、处理器和抑振控制模块；

所述机械臂模块，是振动抑制的对象，能够是机器人的悬臂，也能够是单独存在的机械臂，如串联在桁架机器人横梁上的倒装机器人；

所述振动采集模块，包括陀螺仪和TTL转485模块，陀螺仪通过固定装置固定在机械臂的末端，实时采集机械臂末端的偏航、俯仰、横滚姿态的振动数据，所述振动数据以TTL电平信号发送至TTL转485模块，以提高其传输距离至1000m，然后将其转化为485电平信号，发送至抑振控制模块；

所述处理器，用来接收实时采集到的机械臂振动数据，并进行处理分析，同时搭载抑振控制模块，实现对机械臂的振动抑制控制；

所述抑振控制模块，其功能为根据实时接收采集到的机械臂振动数据，推导出机械臂系统的阻尼比与频率，进而设计输入整形器，对机械臂运行的加速度信号进行整形，并再次得到振动数据；此时根据深度强化学习DDPG算法选取一个动作，再次对机械臂运行的加速度信号进行整形，得到振动数据，对此次过程的振动数据进行处理，再次根据强化学习DDPG算法选取动作，不断循环此训练过程，直至机械臂达到较好的抑振效果。

一种基于未知机械臂模型的深度强化学习抑振方法，将深度强化学习与输入整形二者结合；在机器人机械臂精确动力学模型未知的情况下，通过深度强化学习DDPG算法，不断优化输入整形器参数，以此来对机械臂振动进行优化，以提高机械臂工作效率。

本发明技术方案的进一步改进在于：该方法不需要已知机械臂精确的动力学模型，而是将机械臂系统近似为二阶系统，通过陀螺仪传感器采集机械臂末端振动数据，以此来求解系统的阻尼比与频率，进而设计输入整形器；具体实现步骤如下：

步骤1，根据机械臂振动数据推导出其阻尼比与频率参数，将机械臂系统近似为二阶系统，取机械臂振动数据中的俯仰数据，取俯仰数据的最大值为系统的峰值Y_P，对应的时间为峰值时间t_P，对应的超调量为σ，超调量的计算公式如下：

σ＝[Y_P-Y(∞)]/Y(∞)*100％ (1)

其中，Y(∞)为系统稳定下的输出，ε为系统的阻尼比，联立(1)(2)式求得系统的阻尼比ε，计算公式如下：

系统的峰值时间t_P计算公式如下：

由式(3)计算出系统的阻尼比，峰值时间t_P直接读取，由此得系统的频率w_n计算公式为：

由此便求出机械臂系统的阻尼比与频率；

步骤2；根据第一步求出的机械臂系统的阻尼比与频率，将机械臂系统近似为二阶系统，表达式为：

根据拉普拉斯变换，将系统的表达式改写为传递函数的形式：

输入整形器的时域表达式为：

其中，A_i为脉冲幅值，t_i为脉冲时滞，n为输入整形所包含的脉冲个数，对其进行拉普拉斯变换，得到其频域表达式为：

引入输入整形后，二阶系统的响应为：

考虑到系统响应的快速性，取n＝2,则有：

t₁＝0 (11)

A₁+A₂＝1 (15)

由式(11)-(15)便求得输入整形器的参数t₁、t₂、A₁、A₂，由此完成输入整形器的设计；

步骤3，对机械臂的加速度进行输入整形，设整形前加速度为a₀,整形后的加速度：在0至t₂时间段内，加速度a₁＝A₁*a₀/(A₁+A₂)，在t₂之后，加速度a₂＝a₀，以此完成对机械臂加速度的整形；通过振动采集模块将整形后机械臂的振动数据再次发送至抑振模块；

步骤4，深度强化学习DDPG算法训练：将强化学习DDPG算法与输入整形器两者结合，通过DDPG算法的训练得到最优的输入整形器参数，以此达到最佳抑振效果。

本发明技术方案的进一步改进在于：步骤4中，强化学习DDPG算法训练过程如下：

基于深度确定性策略梯度算法，应用深度学习技术，同时基于Actor-Critic算法的确定性策略算法，该算法中的Actor和Critic都使用深度神经网络来建立近似函数，直接从Actor的策略生成确定性的行为；该算法在学习阶段在确定性行为基础上增加一个噪声函数，以实现在确定性行为周围进行小范围探索；此外，该算法还为Actor和Critic网络分别备份了一套参数来计算行为价值的期待值，以更稳定的提升Critic的策略指导水平，从而减少因近似数据的引导性而发生不收敛的情况，共用到了两个Actor网络，两个Critic网络共4个网络；

奖励机制：在每个循环周期内，求该周期内的振动数据的方差，公式如下：

其中，D_i为第i次训练周期，[x₁ x₂ x₃…x_n]为每个振动采样周期的振动数据，x₀为0，将D_i作为DDPG算法奖励函数的输入，奖励函数公式如下：

能够看到振动数据的方差越小，表示机械臂运行越平稳，其奖励值便越大，反之，方差越大，运行过程中振动越剧烈，其奖励值越小；

搭建Critic网络：Critic网络接收的输入是状态以及行为动作，输出“状态-行为对”的价值，所设计的Critic共有3个隐藏层，处理状态的隐藏层和行为的隐藏层先分开运算，其中处理状态的隐藏层有两个，分别为256个神经元，128个神经元，处理行为的隐藏层为128个神经元，最后通过一个隐藏层全连接在一起输出“状态-行为对”价值；

搭建Actor网络：Actor网络的输入为状态，输出为行为动作，所设计的Actor共有3个隐藏层，分别为256个、128个、64个神经元，层与层之间全连接；

确定性策略下探索的实现：在生成的行为基础上添加一个随机噪声，使其在确切的行为周围实现一定范围的探索；噪声模型为Ornstein-Uhlenbeck，能够生成符合马尔科夫过程的随机过程；

至此，完成DDPG算法框架的搭建，最后对该算法的学习率参数进行配置，完成DDPG算法的设计，通过此算法的训练，不断优化输入整形器参数，使机械臂工作越来越平顺。

由于采用了上述技术方案，本发明取得的技术进步是：

1、本发明将深度强化学习与输入整形相结合，通过深度强化学习的不断训练，在数据驱动下不断优化输入整形器，使得机械臂模型未知的情况下，以达到较好的抑振效果，所提出的方法鲁棒性较好，具有较强的普适性，可以适用于各种串联机器人、桁架机器人悬臂的振动抑制控制。

2、本发明不需要明确的机械臂的动力学模型，通过基于强化学习在未知机械臂模型下的抑振方法便可以达到较好的抑振效果，具有较强的鲁棒性，能够适应各种类型的机械臂，有着较强的普适性。

3、本发明通过基于强化学习在未知机械臂模型下的抑振方法进行对机械臂进行抑振，在其全生命周期，不会因为其工作时长的增加导致抑振性能下降，相反，其对振动的抑制会越来越好。

附图说明

图1是本发明系统组成框图；

图2是本发明控制框图；

图3是本发明实施例中龙门机器人悬臂抑振系统组成示意图；

图4是本发明实施例中机器人悬臂抑振方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步详细说明：

本发明的目的为提供一种基于未知机械臂模型的深度强化学习抑振系统及方法，将强化学习与输入整形二者相结合，可以在不清楚机器人机械臂精确动力学模型的情况下，通过强化学习不断训练输入整形器参数，实现在对系统快速性影响最小的情况下，机械臂的振动最小，以提高机械臂工作效率，下面以龙门机器人悬臂的抑振为具体实施方式对本发明进行详细说明。

如图1所示，龙门机器人悬臂的抑振系统包括机械臂模块、振动采集模块、处理器和抑振控制模块；

所述机械臂模块，为龙门机器人Z方向的悬臂，其可在XYZ空间内自由移动。在悬臂启动与停止过程中，存在较长时间的低频振动，对龙门机器人的工作效率产生较大的影响。龙门机器人悬臂采用德国倍福控制器，国产埃斯顿的驱动器与伺服电机，其运动的速度、加速度、加加速度可以通过控制器进行配置。

所述振动采集模块，其功能为固定在龙门机器人悬臂末端，实时采集龙门机器人悬臂末端振动情况。硬件由三驰惯性的陀螺仪，型号为100D2与TTL转485模块组成，陀螺仪实时采集机械臂末端的偏航、俯仰、横滚姿态，数据以TTL电平信号发送至TTL转485模块，以提高其传输距离至1000m，将其转化为485电平信号，发送至抑振模块。

所述处理器，主要用来接收实时采集到的机械臂振动数据，并进行处理分析，同时搭载抑振模块，实现对机械臂的振动抑制控制。采用个人笔记本，处理器为i5-8300H，显卡为1050Ti。基于matlab2020a开发抑振控制模块，通过USB转485模块实时接收振动采集模块数据。

所述抑振控制模块，其功能为根据实时接收采集到的龙门机器人悬臂振动数据，推导出龙门机器人悬臂系统的阻尼比与频率，进而设计输入整形器，对龙门机器人悬臂运行的加速度信号进行整形，并再次得到振动数据。此时根据深度强化学习DDPG算法选取一个动作(输入整形器的参数)，再次对龙门机器人运行的加速度信号进行整形，得到振动数据，对此次过程的振动数据进行处理，再次根据强化学习DDPG算法选取动作(输入整形器的时滞)，不断循环此训练过程，直至龙门机器人悬臂达到较好的抑振效果。

如图2所示，龙门机器人悬臂的抑振系统的抑振方法，具体操作步骤如下：

步骤1，根据龙门机器人悬臂振动数据推导出其阻尼比与频率参数，将系统近似为二阶系统，取振动数据中的俯仰数据，以俯仰数据的最大值为系统的峰值Y_P，对应的时间为峰值时间t_P，对应的超调量为σ，利用超调量的计算公式：

σ＝[Y_P-Y(∞)]/Y(∞)*100％ (1)

其中，Y(∞)为系统稳定下的输出，ε为系统的阻尼比，通过推导求得系统的阻尼比ε，计算公式如下：

系统的峰值时间t_P计算公式如下：

根据阻尼比公式求出阻尼比ε，峰值时间t_P可直接读取，由此可得系统的频率w_n计算公式为：

由此便求出机械臂系统的阻尼比ε与频率w_n。

步骤2，根据第一步求出系统的阻尼比ε与频率w_n，设计输入整形器，输入整形技术为前馈控制方式，将该系统近似为二阶系统，表达式为：

根据拉普拉斯理论，将系统的表达式改写为传递函数的形式：

输入整形器的时域表达式为：

引入输入整形后，二阶系统的响应为：

考虑到系统响应的快速性，取n＝2，则有：

t₁＝0 (11)

A₁+A₂＝1 (15)

由上述(11)-(15)各式便可求得输入整形器的参数t₁、t₂、A₁、A₂，由此完成输入整形器的设计。

步骤3，对龙门机器人悬臂的加速度进行输入整形，设整形前的加速度为a₀，整形后的加速度：在0至t₂时间段内，加速度a₁＝A₁*a₀/(A₁+A₂)，在t₂之后，加速度a₂＝a₀，以此完成对龙门机器人悬臂加速度的输入整形。通过振动采集模块将此次的振动数据再次发送至抑振模块。

步骤4，深度强化学习DDPG算法训练：将深度强化学习DDPG算法与输入整形器两者结合，通过DDPG算法的训练得到最优的输入整形器参数，以此达到最佳抑振效果。

步骤4中：DDPG算法具体如下如下：

基于深度确定性策略梯度(DDPG)算法，应用深度学习技术，同时基于Actor-Critic算法的确定性策略算法，该算法中的Actor和Critic都使用深度神经网络来建立近似函数，直接从Actor的策略生成确定性的行为。该算法在学习阶段在确定性行为基础上增加一个噪声函数，以实现在确定性行为周围进行小范围探索。此外，该算法还为Actor和Critic网络分别备份了一套参数来计算行为价值的期待值，以更稳定的提升Critic的策略指导水平，从而减少因近似数据的引导性而发生不收敛的情况，共用到了两个Actor网络，两个Critic网络共4个网络。

该算法应用到龙门机器人悬臂抑振中具体如下：

智能体为龙门机器人悬臂，动作空间为输入整形器的参数t₂、A₁，状态空间为输入机械臂的振动反馈。在每个循环周期内，求该周期内的振动数据的方差，公式如下：

可以看到振动数据的方差越小，奖励值越大。

搭建Critic网络：Critic网络接收的输入是状态(振动数据的方差)以及行为动作(输入整形器参数)，输出状态-行为对的价值，所设计的Critic共有3个隐藏层，处理状态的隐藏层和行为的隐藏层先分开运算，其中处理状态的隐藏层有两个，分别为256个神经元，128个神经元，处理行为的隐藏层为128个神经元，最后通过一个隐藏层全连接在一起输出“状态-行为对”价值。

搭建Actor网络：Actor网络的输入是状态(振动数据的方差)，输出为行动作(输入整形器参数)，所设计的Actor共有3个隐藏层，分别为256个、128个、64个神经元，层与层之间全连接。

确定性策略下探索的实现：在生成的行为基础上添加一个随机噪声，使其在确切的行为周围实现一定范围的探索，噪声模型为Ornstein-Uhlenbeck，可以生成符合马尔科夫过程的随机过程。

至此，完成DDPG算法框架的搭建，最后对该算法的学习率等参数进行配置，完成DDPG算法的设计，通过此算法的训练，不断优化输入整形器参数，机械臂在工作过程中越来越平顺。

图3、4所示，龙门机器人悬臂抑振系统的示意图和流程图：开始输入原始龙门机器人控制信号，通过振动采集模块获得龙门机器人悬臂的振动信息，首次判断并非为输入整形后的数据，故不进行深度强化学习，通过计算获得系统阻尼比与频率信息，以此获得输入整形器时滞与幅值信息，之后进行输入整形，将整形后的控制型号重新输入控制器。由于并非通过精确动力学模型求得的输入整形器参数，故必然达不到抑振目标，因此再次通过振动采集模块采集当前的振动信息，通过价值评估，获取此次奖励，按照奖励大小，基于深度强化学习DDPG算法再次获得时滞幅值数据，进行输入整形，通过振动采集模块所采集的振动数据判断是否达到抑振目标，如果没有，继续执行上述强化学习训练的过程，直到达到抑振目标结束。