CN110083160A

CN110083160A - 一种基于深度学习的机器人轨迹规划方法

Info

Publication number: CN110083160A
Application number: CN201910406713.0A
Authority: CN
Inventors: 李建刚; 钟刚刚; 吴雨璁; 苏中秋
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-08-02
Anticipated expiration: 2039-05-16
Also published as: CN110083160B

Abstract

本发明公开了一种基于深度学习的机器人轨迹规划方法，先通过建立机器人的运动学模型，并给机器人一个基础规划轨迹，让机器人运动起来，采集机器人的实时信息，包括位置，力矩等信息，建立机器人的动力学模型，然后，利用Q‑learning强化学习得到最优的规划轨迹；该发明基于实际采集数据进行建模和学习，避免了在理想环境下建模。该套方法可以在各种复杂的环境中应用于工业机器人因为其具有参数自学习，自调整的能力。在机器人一致性较好的情况下，机器人学习到的模型可以共享给同类型机器人平台。这一研究在工业生产中，具有广泛的应用前景。

Description

一种基于深度学习的机器人轨迹规划方法

技术领域

本发明涉及工业机器人的轨迹规划以及深度学习领域，具体为一种基于深度学习的智能机器人轨迹规划方法。

背景技术

自第一次和第二次工业革命以来，工业机器人一直表现出强大的社会生产力。国产的工业机器人正从传统的汽车行业转向机械、轻工业、电子、食品等领域扩展，尤其是在连续轨迹方面如喷涂、打磨、抛光等方面。轨迹规划是工业机器人系统中最重要的模块之一，关于机器人轨迹规划方面的研究很多，主要是基于运动学模型和基于动力学模型两类。基于机器人运动学模型的轨迹规划算法由于只考虑了运动学约束，具有实现简单和计算量小的优点，因而在实际中被广泛应用。但是由于只考虑了机器人的运动学约束，机器人无法高速运转，造成机器人的性能无法得到充分利用。基于机器人动力学模型的轨迹规划算法可以让机器人在高性能下运转，但是要考虑机器人的动力学约束，而机器人的动力学模型由于其本身高度非线性以及环境对机器人的参数影响较大，这使得很难准确建立机器人的动力学模型。

常规的工业机器人关节空间轨迹规划方法一般有多项式插补、梯形速度插补、样条曲线插补等。样条曲线插补在路径点过渡以及曲线平滑度方面较前几者有较大优势。常用的有B样条曲线插值以及三次非均匀有理B样条曲线(NURBS)插值。国内有学者采用抛物线插补路径点，用等弦长方式，由抛物线内弦逼近插值曲线，并采用B样条对关节角度关键点进行插补，速度、加速度、加加速度连续的关节轨迹，使得关节空间得到最优配置。有学者在处理给定路径的时间最优轨迹规划时，考虑全动力学模型，将问题转换为凸优化问题，但是实际机器人的全动力学模型往往未知，这使得该方法不适用。还有学者结合蚁群算法和遗传算法，用来轨迹规划生成最短路径。综合目前的机器人轨迹规划现状，机器人连续轨迹规划的研究相对较少，还有很多问题需要深入研究。

近些年来，从数据中学习机器人模型变成了一种有效的方法。首先机器人在环境中运动，需要基于模型的控制来高度跟随指令。其次，标准模型如刚体动力学模型只是对机器人的粗略近似。再者，机械磨损和其它环境因素也会造成机器人模型的改变。针对机器人的连续轨迹规划问题，有学者使用基于随机梯度下降的强化学习方法学习机器人连续动作。还有学者使用深度学习方法修改轨迹输入，让无人机的真实轨迹更加接近规划轨迹。随着深度学习的发展，其应用逐渐向工业领域发展。

发明内容

本发明的目的在于解决机器人的连续轨迹规划问题，提出一种使用深度神经网络修改参考轨迹，拟合机器人的动力学模型参数，运用强化学习寻找最优轨迹的方法。具体内容如下：包括机器人本体、所述机器人本体包括机器人控制系统，所述机器人控制系统包括轨迹规划模块、状态观测模块和智能学习模块，所述轨迹规划模块用于建立运动学模型和样条曲线规划；所述状态观测模块包括数据采集单元和加工执行单元，具体的轨迹规划方法包括如下步骤：

步骤一：所述轨迹规划模块使用DH参数建立机器人的运动学模型，设置机器人的运动学限制；并进行基础的轨迹规划，滤波后得到基础规划轨迹；

步骤二：将基础规划轨迹作为机器人运动的参考轨迹让机器人运动起来，所述状态观测模块内的数据采集单元采集得到机器人的实际运行轨迹；将所述实际运行轨迹作为所述智能学习模块的输入，将所述基础规划轨迹作为所述智能学习模块的输出，训练所述智能学习模块后得到所述实际运行轨迹与所述基础规划轨迹之间的映射关系；

步骤三：利用步骤二得到的映射关系，将理想轨迹输入给所述智能学习模块，使机器人按照所述智能学习模块输出的参考轨迹运动，并且，所述状态观测模块内的数据采集单元采集到每个关节的位置、速度、加速度以及力矩；将每个关节的位置、速度、加速度作所述智能学习模块的输入，相对应的关节的力矩作为所述智能学习模块的输出；训练所述智能学习模块后得到每个关节的位置、速度、加速度和力矩的映射关系；

步骤四：利用步骤三生成的映射关系，得到机器人在运行轨迹的各个位置下的关节力矩大小，判断所述关节力矩是否超出限制，并且确定连续轨迹。

优选的，所述基础规划轨迹采用B样条插值算法或多项式插值算法。

优选的，所述智能学习模块采用深度神经网络算法进行学习。

优选的，在所述步骤四确定连续轨迹后，所述智能学习模块使用强化学习Q-learning的轨迹优化方式将运行精度、运行平稳性以及运行速度按照权重定义奖励函数reward；位置误差为position_error，震动为jerk，运行速度为velocity，α，β是负数，γ是一个正值，对应的奖励函数如下：reward(i)＝α*position_error+β*jerk+γ*velocity

将运行轨迹中的所有时间段的奖励函数值求和，得到整个的奖励函数值，其表达式如下：

然后对奖励行数进行训练使得Reward尽可能大。

本发明的有益效果为：

1.针对机器人在大批量加工的工业现场这一事实，本发明将轨迹规划分为两步，第一步：进行基础的轨迹规划；第二步：在第一步的实际运行基础上，机器人通过自学习进行模型学习，将学得的模型应用于轨迹规划，提高机器人运行精度和平稳性。

2.由于机器人的动力学模型难以直接获得，并且深度神经网络有强大的拟合能力和学习速度快的特点，通过机器人在基础规划轨迹上运行得到实际的运行轨迹，对机器人的响应特性和动力学模型进行学习得到机器人的动力学模型，提高运行效率。

3.本发明还利用Q-learning强化学习在轨迹规划上进行优化，探索机器人在允许范围内能达到的最佳运行状态。

附图说明

图1为本发明一种基于深度学习的机器人轨迹规划方法的总体设计方案；

图2为本发明一种基于深度学习的机器人轨迹规划方法的基础轨迹规划框图；

图3为本发明一种基于深度学习的机器人轨迹规划方法的机器人运行进度学习框图；

图4为本发明一种基于深度学习的机器人轨迹规划方法的基于深度神经网络的动力学模型学习框图；

图5为本发明一种基于深度学习的机器人轨迹规划方法的基于强化学习Q-learning的轨迹规划框图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

如图1所示，本发明包括机器人本体，所述机器人本体包括机器人控制系统，所述机器人控制系统包括轨迹规划模块、状态观测模块和智能学习模块，所述轨迹规划模块用于建立运动学模型和样条曲线规划，所述状态观测模块包括数据采集单元和加工执行单元；所述智能学习模块用于进行深度神经网络学习和强化学习。由于机器人的动力学模型较复杂，简单神经网络可能无法正确拟合其轨迹，所以在本发明中，所述智能学习模块采用深度神经网络进行学习。

对于工业机器人的轨迹规划中因为模型误差导致机器人的性能变化的问题，本发明将这一问题分为三个部分，第一部分：针对机器人的运行精度问题，通过所述状态观测模块内的数据采集单元获得机器人运行的实际数据，将得到的数据用于所述智能学习模块内的神经网络拟合建立准确的响应模型；第二部分，针对机器人的运行平稳性问题，通过所述状态观测模块内的数据采集单元采集到每个关节的位置、速度、加速度以及力矩，使用所述智能学习模块内的神经网络进行动力学模型拟合，解决动力学模型的建模误差问题；第三部分，针对机器人的运行效率问题，采用所述智能学习模块内的强化学习技术与机器人交互，不断提高机器人奖励函数值，达到最优状态，系统通过学习得到的模型可以泛化到任意轨迹。

本实施例所述基于深度学习的机器人轨迹规划方法，包括如下步骤：

步骤一：如图2所示，所述轨迹规划模块使用DH参数建立机器人的运动学模型，设置机器人的运动学限制；并进行基础的轨迹规划，滤波后得到基础规划轨迹；滤波是为了得到平滑的轨迹。所述基础轨迹规划采用B样条插值算法或多项式插值算法，连续轨迹规划相比离散的轨迹规划，需要得到的轨迹点比较多，我们实际画的轨迹点不多，所以要在轨迹点之间再插一些点，才能更平滑，具体采用什么样的插值方法要根据具体情况分析，如果要实现简单，采用多项式插值就可以了，但是如果要高精度，就可以选择B样条插值。

如图3所示，将所述实际运行轨迹作为所述智能学习模块的输入，基础规划轨迹作为输出，将数据归一化后，使用神经网络拟合输入输出关系，这样我们输入理想轨迹给所述智能学习模块，智能学习模块内的神经网络就会拟合出应该给机器人系统的轨迹，机器人系统得到神经网络拟合出的轨迹作为参考轨迹，使机器人按照参考轨迹运动。与现有技术相比，所述参考轨迹精度相对较高，所以，机器人的运行精度会相对有所提高。

步骤三：如图4所示，利用步骤二得到的映射关系，将理想轨迹输入给所述智能学习模块，使机器人按照所述智能学习模块输出的参考轨迹运动，并且，所述状态观测模块内的数据采集单元采集到每个关节的位置、速度、加速度以及力矩；将每个关节的位置、速度、加速度作所述智能学习模块的输入，相对应的关节的力矩作为所述智能学习模块的输出；训练所述智能学习模块后得到每个关节的位置、速度、加速度和力矩的映射关系；

使机器人按照精度较高的参考轨迹运行，然后采集每个关节的位置、速度、加速度以及力矩后，应用所述智能学习模块内的深度神经网络拟合动力学模型，解决了现有技术中动力学模型难以获得的问题；所述动力学模型，能达到机器人高性能运行的目的，用于进一步修正机器人的运行轨迹。

步骤四：利用步骤三生成的映射关系，得到机器人在运行轨迹的各个位置下的关节力矩大小，判断所述关节力矩是否超出限制，并且确定连续轨迹。是因为一个电机能够提供的转矩是有限的，如果超出限制，电机的加速度太大，就会加剧抖动，不利于运行平稳性，运行轨迹精度也会下降。并且如果电机长期处于超负荷运动，会降低电机寿命，所以需要判断关节力矩是否超出限制，如果力矩太大，则在动力学约束里面限制。

然后对奖励函数进行训练使得Reward尽可能大，从而得到α、β和γ的值。如图5所示。

因为，在工业应用中，机器人的运行速度相较于精度和震动更受人关注，所以，使用强化学习Q-learning的轨迹优化方式将运行精度、运行平稳性以及运行速度按照权重定义奖励函数reward，并对位置误差和震动进行负奖励，即鼓励其变小，对速度进行正奖励，即鼓励速度变大，所以，利用Q-learning强化学习得到最优的规划轨迹。

本发明首先建立机器人的运动学模型，规划其基础轨迹，让机器人运行起来。然后通过采集机器人的关节位置、速度、加速度与力矩信息，通过深度学习的方式调整机器人的动力学参数，建立其动力学模型，让机器人在高性能下运行，并利用神经网络建立规划轨迹与机器人实际运行轨迹的位置关系，以修正参考轨迹以提高位置精度。通过震动传感器测量震动以及测的位置，计算速度和位置误差，通过强化学习Q-learning方法训练得到最佳规划轨迹。

本发明基于实际采集数据进行建模和学习，避免了在理想环境下建模，并且解决了由于工业现场的各种扰动造成建模不准确以及轨迹规划效果一般的问题。本发明所提供的一种基于深度学习的机器人轨迹规划方法可以在各种复杂的环境中应用于工业机器人，因为其具有参数自学习，自调整的能力。在机器人一致性较好的情况下，机器人学习到的模型可以共享给同类型机器人平台。这一研究在工业生产中，具有广泛的应用前景。

以上对本发明所提供的一种基于深度学习的机器人轨迹规划方法实施例进行了详细阐述。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明的原理的前提下，还可以本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于深度学习的机器人轨迹规划方法，其特征在于：包括机器人本体、所述机器人本体包括机器人控制系统，所述机器人控制系统包括轨迹规划模块、状态观测模块和智能学习模块，所述轨迹规划模块用于建立运动学模型和样条曲线规划；所述状态观测模块包括数据采集单元和加工执行单元，具体的轨迹规划方法包括如下步骤：

2.如权利要求1所述的一种基于深度学习的机器人轨迹规划方法，其特征在于：所述基础规划轨迹采用B样条插值算法或多项式插值算法。

3.如权利要求2所述的一种基于深度学习的机器人轨迹规划方法，其特征在于：所述智能学习模块采用深度神经网络算法进行学习。

4.如权利要求1所述的一种基于深度学习的机器人轨迹规划方法，其特征在于：在所述步骤四确定连续轨迹后，所述智能学习模块使用强化学习Q-learning的轨迹优化方式将运行精度、运行平稳性以及运行速度按照权重定义奖励函数reward；位置误差为position_error，震动为jerk，运行速度为velocity，α，β是负数，γ是一个正值，对应的奖励函数如下：reward(i)＝α*position_error+β*jerk+γ*velocity

然后对奖励函数进行训练使得Reward尽可能大。