CN114800529A

CN114800529A - 一种基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法

Info

Publication number: CN114800529A
Application number: CN202210637360.7A
Authority: CN
Inventors: 郑联语; 周健; 王艺玮; 樊伟; 曹彦生
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-07-29
Anticipated expiration: 2042-06-07
Also published as: CN114800529B

Abstract

本发明公开了一种基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法，首先研究机器人位姿与定位误差之间的定性关系并确定不同误差等级下机器人位姿坐标阈值，接着提出机器人定位误差在线补偿方法，利用增量模型重构算法自动生成表征机器人末端实际位姿与目标位姿对应关系的深度学习映射模型，将误差提前补偿至规划路径中。在线补偿算法执行过程中，根据机器人位姿变化判断误差等级变化并触发对映射模型的精度验证，当模型精度不满足要求时则依次触发增量学习和模型重构机制，直至映射模型满足精度要求。以上特点使得本发明方法能有效实现工业机器人定位误差的在线补偿与实时校准。

Description

一种基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法

技术领域

本发明属于工业机器人绝对定位精度补偿方法技术领域，具体涉及基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法。

背景技术神经结构搜索

串联工业机器人是现代制造业重要的自动化设备，具有较强的通用性、操作灵活性和空间可达性，在焊接、装配、磨抛等复杂工况下得到广泛应用。而对于铣削、钻削等典型加工领域，对串联工业机器人的绝对定位精度要求比较高，致使串联工业机器人(以下简称机器人)在该领域的应用及其发展还相对保守。因此，如何提高机器人的绝对定位精度是其在加工领域拓展应用亟需解决的重要问题和发展方向之一。

目前业界普遍认为，机器人定位误差的来源包括两个方面：1)几何参数误差，主要由机械结构误差(如连杆参数误差、关节转角参数误差等)构成，也称之为系统误差；2)非几何误差，则主要由连接挠度、摩擦、连接间隙甚至是外部温度等因素引起，也称之为非系统误差(或称之为随机误差)。针对这两类误差，当前研究可分为参数方法和非参数方法两种类型。这两种方法的主要区别在于是否改变机器人的运动学参数。对于参数方法，以机器人运动学建模为基础，建立其运动学模型参数(如DH参数)与定位误差之间的定量关系，再利用相关算法对DH参数进行优化，调整机器人各关节处相邻连杆之间的坐标转换关系，从而达到补偿机器人定位误差的目的。对于非参数方法，不需调整机器人的运动学模型，而是基于数据驱动的方法直接建立机器人执行末端目标位姿与实际位姿之间的映射关系，识别机器人的定位误差并将其补偿在控制器内部设置的控制模型上。

现有这两类方法存在不足，前者无法有效补偿非几何因素带来的定位误差，后者当前以机器学习方法和简单的多层感知网络方法为主，在建立映射关系能力上较弱，定位精度提升有限。此外，随着机器人服役时间增加，其工作性能和精度逐渐退化，相应地运动学模型参数也在发生变化，末端定位精度也在不断恶化。目前这两类方法都以离线模式为主，不能满足机器人长期在线服役工作需要。特别是对于非参数方法，为解决上述问题需要对建立的执行末端目标位姿与实际位姿之间的映射关系进行重新优化、训练，这个重复过程耗费时间且依赖专业知识，因此亟需在线补偿方法来解决串联工业机器人的定位误差补偿问题。

在线模式下，方法的轻量化决定着其敏捷性也直接影响着其应用效果，为此引入了增量学习范式，一方面提高模型从新数据中整合新知识和提炼已有知识的能力(可塑性)，另一方面防止新输入对已有知识的显著干扰(稳定性)，这两个互相冲突的需求构成了所谓的稳定性-可塑性困境。增量学习目前仍是定义、界限比较模糊的技术，在机器人绝对定位精度补偿领域尚未有应用。目前，增量学习主要分为两类：基于正则化和基于回放的范式。前者通过给新任务的损失函数施加约束来保护旧知识不被覆盖，后者则是保留一部分具有代表性的旧数据与新数据一起训练模型。同时，由于固定结构的深度学习模型的映射能力存在上限，为保证其在机器人工作空间中的任何位置或者在机器人任何退化阶段均能较准确地建立起机器人执行末端位姿与其定位误差的映射关系，从而达到机器人执行末端定位误差在线补偿的目的。于是，在所提方法中引入模型重构机制，即当模型精度无法通过增量学习提升至目标精度水平时则自动重建模型，确保机器人定位精度平稳且保持在目标水平线以上。

发明内容

针对现有技术方法存在的不足，本发明的目的在于提供一种基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法。该方法解决了常规参数方法无法有效补偿非几何因素导致的机器人定位误差、非参数方法建立映射关系能力较弱，定位精度提升有限以及离线误差补偿方法耗时、时效性差且依赖专业知识等问题。

为实现上述目的，本发明一种基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法，具体包括以下步骤：

S1、创建机器人误差分布图，建立误差等级与机器人位姿空间的对应关系；

S2、利用模型重构算法创建建立机器人末端实际位姿与其目标位姿对应关系的映射模型，并利用映射模型补偿机器人定位精度；

S3、触发映射模型自适应优化机制，利用增量学习算法优化映射模型；

S4、验证优化后的映射模型，当精度不满足要求时利用模型重构算法重新创建映射模型，直至达到目标精度要求。

进一步，所述步骤S1具体为：

S11、将机器人常用工作空间划分为不同区块，驱动机器人末端运动到不同区块；

S12、采集末端的目标位姿和实际位姿数据，计算末端定位误差；

S13、创建末端位姿的误差分布图，建立误差等级与末端位姿空间的对应关系。

进一步，所述步骤S13中建立的误差等级与末端位姿空间对应关系表示如下：

式中

表示根据第i个定位误差等级确定的位姿空间，而位姿空间又包含不同位姿坐标的阈值范围

机器人末端位姿由六维坐标确定，确定位姿空间的坐标维数m≤6。

进一步，所述步骤S2中的模型重构算法是基于神经结构搜索技术并结合增量学习机制创建的；

所述神经结构搜索技术包含三个要素：控制器、搜索空间和候选模型；

所述候选模型即为映射模型，最深九层结构，前部分由卷积神经网络搭建，是为稳定块，最多包含五层；后部分由全连接网络搭建，是为塑性块，最多包含四层；

所述搜索空间提供了五种卷积神经网络层和五种全连接网络层供控制器决策搜索；

所述控制器由并行连接的卷积神经网络层构成，输入是(9,1)的随机向量，表示候选模型9个网络层待搜索；选用五层小尺寸的卷积网络层进行特征提取，将五层卷积网络提取的特征合并在一起，构成深度为5的混合特征，紧接着将特征平均池化得到(9,5)的决策矩阵；输出激活函数选用SoftMax，9行表示确定候选模型需要9维决策，分别对应候选模型的9个网络层，前5维决策确定稳定块，后4维决策确定塑性块；5列表示每维决策有5个可选项，即可从搜索空间中任选一种神经网络层；

所述增量学习机制表示设置三个连续的学习周期，按照增量学习范式训练并验证候选模型，表示为：

式中，

表示t时刻的模型重构算法，

表示待确定的映射模型，(x_t-2,y_t-2)、(x_t-1,y_t-1)、(x_t,y_t)分别表示t-2、t-1和t时刻下的末端位姿对数据，

分别表示t-2、t-1和t时刻下的重构映射模型，M_t-2、M_t-1、M_t则分别表示存储在记忆中的t-2、t-1和t时刻的部分样本数据。

进一步，所述步骤S2具体为：

S21、将机器人末端位姿数据对划分为三个学习周期的数据流；

S22、根据控制器输出的决策矩阵创建候选模型；

S23、在增量学习范式下训练、验证候选模型，从前进性、正确性和效率三个维度评价候选模型；

S24、计算控制器的决策奖励，进而计算控制器的训练损失梯度；

S25、朝着损失梯度下降的方向优化控制器，直至控制器决策创建最优的映射模型。

进一步，所述步骤S23中的前进性旨在评价不同学习周期之间映射模型的精度变化；

所述步骤S23中的正确性旨在评价不同重构周期之间映射模型的精度变化；

所述步骤S23中的效率旨在评价不同重构周期之间映射模型的训练时间变化。

进一步，述步骤S24中计算控制器的决策奖励表示如下：

式中

分别表示重构周期e下映射模型在第1、2、3学习周期中的映射损失，

分别表示重构周期e-1下映射模型在第1、2、3学习周期中的映射损失，

分别表示重构周期e下映射模型在第1、2、3学习周期中的训练时间，

分别表示重构周期e-1下映射模型在第1、2、3学习周期中的训练时间；

所述步骤S24中计算控制器的训练损失表示如下：

式中θ泛指控制器的权值参数，a_e,i表示重构周期e时控制器决策序列中的第i个决策分量，R_e表示周期e时控制器的决策奖励，N为样本批量。

进一步，所述步骤S3中的映射模型自适应优化机制即通过监测机器人末端位姿坐标是否超阈判断末端定位误差是否发生变化并触发对映射模型的精度验证程序，以此确保模型长期稳定运行。

进一步，所述步骤S3中的增量学习算法表示为：

式中，

表示t时刻下的增量学习算法，f_t-1和f_t分别表示t-1、t时刻下的映射模型，(x_t,y_t)是t时刻的一个批次样本，M_t-6:t-1＝{M_t-6,M_t-5,…,M_t-1}，M_t是存储在记忆中的部分t时刻样本数据；

所述步骤S3中的增量学习算法旨在训练映射模型从数据流中不断学习新的样本，而不影响在之前样本上的映射性能，那么形式上，在时间步τ，算法试图通过优化映射模型的权值参数θ最小化之前所有样本的损失，在仅访问当前时刻批量样本(x_τ,y_τ)和记忆M_τ-6:τ-1的条件下，表示为：

式中

表示以时刻τ下样本(x_τ,y_τ)为输入计算映射模型的损失期望，l(f_τ(x_t；θ_s；θ_t),y_t)表示参数为θ_s和θ_t的当前时刻映射模型f_τ以x_t为输入，y_t为标签的损失；

所述步骤S3中的增量学习算法设计了固定时间步长度为5的记忆窗口，以平衡算法的精度和效率；

所述步骤S3中的增量学习算法将映射模型参数划分为稳定块参数和塑性块参数，以平衡模型的稳定性和可塑性，兼顾新旧知识的学习。

进一步，所述步骤S3具体为：

S31、监测机器人末端坐标，判断是否超过当前误差等级下的末端坐标阈值，若误差等级发生变化，则认为当前映射模型不再适用，触发模型精度验证程序；

S32、若验证结果不满足要求，在增量学习范式下优化映射模型；

S33、利用当前时刻样本优化模型塑性块参数权值，利用记忆样本来优化模型稳定块参数权值，得到更新后的映射模型。

本发明的有益效果为：

本发明提出了一种基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法，在所发明的方法中，首先研究机器人位姿与定位误差之间的定性关系并确定不同误差等级下机器人位姿坐标阈值，接着提出机器人定位误差在线补偿方法，基于神经结构搜索技术自动生成表征机器人末端实际位姿与目标位姿对应关系的深度学习映射模型，将误差提前补偿至规划路径中。在线补偿算法执行过程中，根据机器人位姿变化判断误差等级变化并触发对映射模型的精度验证，当模型精度不满足要求时则依次触发增量学习和模型重构机制，直至映射模型满足精度要求。机器人执行任务过程中，应用映射模型调整规划路径可根据现场加工条件设置时间间隔，可将对机器人工作的影响降至最低。

附图说明

图1为本发明提供的基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法实现流程图；

图2为本发明提供的模型重构算法中的控制器结构图；

图3为本发明提供的联合控制系统软硬件布局图；

图4为本发明提供的机器人工作空间规划图；

图5为本发明提供的映射模型验证损失对比图；

图6为本发明提供的映射模型效率对比图；

图7为本发明提供的补偿前后机器人定位误差对比图；

图8为本发明提供的补偿后机器人定位误差图；

图9为本发明提供的补偿后机器人定位误差空间展示图；

具体实施方式

如图1所示，本发明一种基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法分为三个阶段：初始化阶段、在线补偿阶段和模型优化阶段，包括以下步骤：

S2、利用模型重构算法创建建立机器人末端实际位姿和目标位姿对应关系的映射模型，并利用映射模型补偿机器人定位精度；

上述步骤S1具体为：

上述步骤S13中建立的误差等级与末端位姿空间对应关系表示如下：

式中

上述步骤S2中的模型重构算法是基于神经结构搜索技术并结合增量学习机制创建的；

上述神经结构搜索技术包含三个要素：控制器、搜索空间和候选模型；

上述候选模型即为映射模型，最深九层结构，前部分由卷积神经网络搭建，是为稳定块，最多包含五层；后部分由全连接网络搭建，是为塑性块，最多包含四层；

上述搜索空间提供了五种卷积神经网络层和五种全连接网络层供控制器决策搜索，如表1所示。

表1搜索空间

上述控制器由并行连接的卷积神经网络层构成，如图2所示。输入是(9,1)的随机向量，表示候选模型9个网络层待搜索；选用五层小尺寸的卷积网络层进行特征提取，将五层卷积网络提取的特征合并在一起，构成深度为5的混合特征，紧接着将特征平均池化得到(9,5)的决策矩阵；输出激活函数选用SoftMax，9行表示确定候选模型需要9维决策，分别对应候选模型的9个网络层，前5维决策确定稳定块，后4维决策确定塑性块；5列表示每维决策有5个可选项，即可从搜索空间中任选一种神经网络层；

上述增量学习机制表示设置三个连续的学习周期，按照增量学习范式训练并验证候选模型，表示为：

式中

表示t时刻的模型重构算法，

上述步骤S2具体为：

S22、根据控制器输出的决策矩阵创建候选模型；

上述步骤S23中的前进性旨在评价不同学习周期之间映射模型的精度变化；

上述步骤S23中的正确性旨在评价不同重构周期之间映射模型的精度变化；

上述步骤S23中的效率旨在评价不同重构周期之间映射模型的训练时间变化。

上述步骤S24中计算控制器的决策奖励表示如下：

式中

上述步骤S24中计算控制器的训练损失表示如下：

上述步骤S3中的映射模型自适应优化机制即通过监测机器人末端位姿坐标是否超阈判断末端定位误差是否发生变化并触发对映射模型的精度验证程序，以此确保模型长期稳定运行。

上述步骤S3中的增量学习算法表示为：

式中，

上述步骤S3中的增量学习算法旨在训练映射模型从数据流中不断学习新的样本，而不影响在之前样本上的映射性能，那么形式上，在时间步τ，算法试图通过优化映射模型的权值参数θ最小化之前所有样本的损失，在仅访问当前时刻批量样本(x_τ,y_τ)和记忆M_τ-6:τ-1的条件下，表示为：

式中

上述步骤S3中的增量学习算法设计了固定时间步长度为5的记忆窗口，以平衡算法的精度和效率；

上述步骤S3中的增量学习算法将映射模型参数划分为稳定块参数和塑性块参数，以平衡模型的稳定性和可塑性，兼顾新旧知识的学习。

上述步骤S3具体为：

在本发明的实施例中，提供了采用本发明方法完成机器人定位精度在线优化的实验过程：

1.实验描述：

为了验证本发明所提方法，开发了激光跟踪仪和UR机器人的联合控制系统，其软硬件布局如图3所示。通过TCP/IP协议，控制系统可分别将测量指令与控制命令传输至激光跟踪仪、机器人的控制器，驱动机器人工作移动的同时控制激光跟踪仪测量机器人末端位姿，并实时保存末端的目标位姿和实际位姿数据。本文所提定位精度在线补偿方法部署在联合控制系统中，实时补偿机器人的定位误差。

2.实验方案

为了测量末端的转动姿态，采用T-Probe与激光跟踪仪结合的测量方案。T-Probe自身带有靶标点阵，将其与机器人末端固定连接，不仅可以测量末端的三个方向移动坐标(x,y,z)，也可以通过测量T-Probe靶标的转动表征末端的转动坐标(rx,ry,rz)。以机器人基坐标系为基准规划工作空间如图4所示，x∈(-200,200,50)，y∈(-200,-350,50)，z∈(350,500,50)，rx∈(-π/9,π/9,π/9)，ry∈(-π/9,π/9,π/9)，rz∈(-π/9,π/9,π/9)，其中x∈(-200,200,50)表示x从-200mm处逐步移动至200mm处，单元移动长度50mm；rx∈(-π/9,π/9,π/9)表示末端绕着基座标系X轴从-20°转动至20°，单元转动角度20°。那么总共可采集3888对目标和实际位姿数据。

3.实验对比

本发明所提方法引入增量学习范式，旨在克服传统深度学习在面向数据流不断学习新知识时固有的灾难性遗忘缺陷，将映射模型划分为稳定块和塑性块以平衡映射模型的稳定性和可塑性，同时设计了固定时间步长度的记忆窗口寻求效率和精度最大效用的平衡。为此，开展了以下实验，既是对上述设计的支撑又是验证。

将采集的机器人末端目标、实际位姿对按照时间顺序划分为10个学习周期，采用一样的映射模型设计三种学习方式进行对比，a)每个周期，映射模型只学习当前时刻的样本数据；b)每个周期，映射模型学习当前时刻及以前的所有样本数据；c)每个周期，映射模型按照本发明所提增量学习范式学习当前时刻的样本数据以及保存的记忆数据。三种学习方式下，映射模型在每个学习周期的映射损失如图5所示，(a)的结果表明灾难性遗忘会导致模型对前面数据的精度越来越低，传统深度学习方式不适合面向数据流的持续学习；(b)的结果表明对比利用当前阶段以前所有的数据来训练模型，的确能获得较好的精度表现，但由于训练数据量逐渐加大，模型建立映射的难度逐渐变大，越接近当前周期模型损失越大；(c)与(a)、(b)结果对比表明本发明所提增量学习方式能有效克服灾难性遗忘缺陷，尽管在初始几个周期精度表现不如(b)，但越到后面，(c)轻量化的优势就体现出来，模型的表现逐渐优于(b)。

从训练效率的角度设计了三种实验，a)与上面实验b)设置相同；b)与上面实验c)设置相同；c)与上面实验c)设置相同，将位姿对数据划分为20个学习周期。实验结果如图6所示，(b)与(a)结果对比表明，在相同数据量、周期数的条件下，增量学习的效率更高，能提高近50％；(a)与(b)的结果均表明随着时间累积，数据总量不断变大，数据增量不断变小，模型训练效率逐渐降低，训练时间线性递增特性越明显，尽管(b)更轻量化，但仍然具有这种特性；实验(c)的学习周期数不同，但也具有这种特性，并且三者的结果表明，均是在超过5个学习周期后，训练时间开始线性递增。因此，所提方法设计了固定5个周期的记忆窗口，通过滑窗形式进行增量学习，兼顾了映射模型的精度和效率。

4.精度验证

将测量的所有机器人末端位姿数据对划分为500个样本，验证所提方法创建的最优映射模型，如图7所示。在应用所提方法之前，机器人的位移误差均值在3.0mm左右，转动误差均值在0.05rad左右；应用所提方法后，将机器人的定位误差补偿至位移误差均值在0.25mm左右，转动误差均值在0.0017rad左右。同时将500个样本按照时间顺序划分为10组，分别计算各组的误差均值和标准差，如图8所示，可以看到所提方法在长期应用过程中能够有效补偿机器人定位误差，同时保持较高的稳定性，位移误差的标准差均值为0.04mm，转动误差的标准差为0.0009rad。

为了更直观地展示所提方法的补偿效果，将工作空间中的极限位姿点连接成空间环形，对比展示目标轨迹、校准前轨迹以及校准后轨迹，以及目标转动姿态、校准前转动姿态以及校准后转动姿态，如图9所示。

5.方法对比

将所提方法与当前较先进的机器人定位误差补偿相关研究进行对比，如表2所示。对比研究均发表于2021年及以后，发表在领域内较有影响力的期刊和会议上，包括参数方法、非参数方法和混合方法，其中表现最优的方法可将位移误差优化至0.262mm，将转动误差优化至0.0035rad，而本文所提方法可将位移误差提升至0.25mm，转动误差提升至0.0017rad，优于当前方法。此外，表中相关研究均是离线方法，而所提方法能够做到在线精度优化，更具先进性。

表2所提方法与相关研究对比

本发明的有益效果为：

本发明提出了一种基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法，在所发明的方法中，首先研究机器人位姿与定位误差之间的定性关系并确定不同误差等级下机器人位姿坐标阈值，接着提出机器人定位误差在线补偿方法，利用增量模型重构算法自动生成表征机器人末端实际位姿与目标位姿对应关系的深度学习映射模型，将误差提前补偿至规划路径中。在线补偿算法执行过程中，根据机器人位姿变化判断误差等级变化并触发对映射模型的精度验证，当模型精度不满足要求时则依次触发增量学习和模型重构机制，直至映射模型满足精度要求。机器人执行任务过程中，应用映射模型调整规划路径可根据现场加工条件设置时间间隔，可将对机器人工作的影响降至最低。

Claims

1.一种基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法，其特征在于，所述步骤S1具体为：

3.如权利要求1所述的基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法，其特征在于，所述步骤S13中建立的误差等级与末端位姿空间对应关系表示如下：

式中

4.如权利要求1所述的基于定长记忆窗口增量学习和增量模型重构的工业机器人定位误差在线补偿方法，其特征在于，所述步骤S2中的模型重构算法是基于神经结构搜索技术并结合增量学习机制创建的；

所述控制器由并行连接的卷积神经网络层构成，输入是(9,1)的随机向量，表示候选模型9个网络层待搜索；选用五层小尺寸的卷积网络层进行特征提取，将五层卷积网络提取的特征合并在一起，构成深度为5的混合特征，紧接着将特征平均池化得到(9,5)的决策矩阵；输出激活函数选用SoftMax，9行表示确定候选模型需要9维决策，分别对应候选模型的9个网络层，前5维决策确定稳定块，后4维决策确定塑性块；5列表示每维决策有5个可选项；