CN112847235B

CN112847235B - 基于深度强化学习的机器人分阶力引导装配方法及系统

Info

Publication number: CN112847235B
Application number: CN202011561769.2A
Authority: CN
Inventors: 宋锐; 杨旭亭; 李凤鸣; 李贻斌; 马昕; 柴汇
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-09-09
Anticipated expiration: 2040-12-25
Also published as: CN112847235A

Abstract

本公开提供了一种基于深度强化学习的机器人分阶力引导装配方法及系统，获取待装配工件的位姿数据和接触力数据；将获取的数据输入到预设的网络模型中，得到工件的当前装配阶段以及当前装配阶段对应的装配动作；根据装配动作，得到携带工件的机械臂位置控制量和力觉控制量，通过机械臂的阻抗控制，完成工件装配；本公开结合深度强化学习的分阶段力引导装配策略，根据不同装配阶段的力模型，结合装配机理，实现了精准力控，装配效果更加准确。

Description

基于深度强化学习的机器人分阶力引导装配方法及系统

技术领域

本公开涉及人工智能技术领域，特别涉及一种基于深度强化学习的机器人分阶力引导装配方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

在当前工业应用中，装配零部件结构复杂，装配路径多变，零部件的装配大多由手工完成。但由于一些工件的尺寸越来越小同时其精度要求越来越高，在高标准、严要求的工业生产中，人工装配普遍存在效率不高和精度不足的问题。

本公开发明人发现，当前机器人完成装配的方法以基于视觉的装配方法为主，但是基于视觉的定位过程会受到光照稳定、视觉遮挡、光源以及视角等问题的影响，从而导致定位不准确，影响最终的装配成功率。

发明内容

为了解决现有技术的不足，本公开提供了一种基于深度强化学习的机器人分阶力引导装配方法及系统，结合深度强化学习的分阶段力引导装配策略，根据不同装配阶段的力模型，结合装配机理，实现了精准力控，装配效果更加准确。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于深度强化学习的机器人分阶力引导装配方法。

一种基于深度强化学习的机器人分阶力引导装配方法，包括以下步骤：

获取待装配工件的位姿数据和接触力数据；

将获取的数据输入到预设的网络模型中，得到工件的当前装配阶段以及当前装配阶段对应的装配动作；

根据装配动作，得到携带工件的机械臂位置控制量和力觉控制量，通过机械臂的阻抗控制，完成工件装配。

本公开第二方面提供了一种基于深度强化学习的机器人分阶力引导装配系统。

一种基于深度强化学习的机器人分阶力引导装配系统，包括：

状态感知模块，被配置为：获取待装配工件的位姿数据和接触力数据；

融合决策模块，被配置为：将获取的数据输入到预设的网络模型中，得到工件的当前装配阶段以及当前装配阶段对应的装配动作；

装配控制模块，被配置为：根据装配动作，得到携带工件的机械臂位置控制量和力觉控制量，通过机械臂的阻抗控制，完成工件装配。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于深度强化学习的机器人分阶力引导装配方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于深度强化学习的机器人分阶力引导装配方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质或电子设备，结合深度强化学习的分阶段力引导装配策略，根据不同装配阶段的力模型，结合装配机理，实现了精准力控，装配效果更加准确。

2、本公开所述的方法、系统、介质或电子设备，装配动作不仅包含位置控制量，更包含针对不同阶段的力和力矩控制量，机械臂使用阻抗控制完成装配动作，从而完成精准力控。

3、本公开所述的方法、系统、介质或电子设备，机器人通过深度强化学习掌握装配技能，可以主动适应环境的变化，装配操作更具备柔性泛化能力。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于深度强化学习的机器人分阶力引导装配方法的流程示意图。

图2为本公开实施例1提供的机器人分阶段装配力约束模型生成方法示意图。

图3为本公开实施例1提供的线性弹簧力模型示意图。

图4为本公开实施例1提供的扭转弹簧力模型示意图。

图5为本公开实施例1提供的机械臂分阶力引导装配操作网络示意图。

图6为本公开实施例1提供的机器人装配分阶力引导装配学习网络示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，本公开实施例1提供了一种基于深度强化学习的机器人分阶力引导装配方法，包括以下步骤：

获取待装配工件的位姿数据和接触力数据；

本实施例所述方法，依据装配工艺流程特性，将装配过程分为装配空间自由阶段、找孔阶段、半入孔阶段、入孔阶段、装配完成五个阶段，依序分析装配各个阶段力学特性，得出分阶段的装配力学约束模型，在此基础上，提出融合接触力觉，待装配工件位姿等状态描述的机械臂柔性装配技能获得方法。

本实施例所述方法在构建的装配环境中训练学习，生成基于环境反馈的机械臂位置控制量和力觉控制量，进而通过机械臂的阻抗控制，施加装配力和装配力矩驱动装配件进行移动和转动来完成装配动作，完成机械臂的柔性精准力控装配。

具体的，包括以下内容：

S1：机器人分阶段装配力约束模型的建立过程如图2所示，通过模型分析，可得出各阶段的装配力；通过建立分阶段装配力学约束模型，可得出机器人分阶力引导装配操作学习网络输出的机械臂控制量对应的力觉信息。

S1.1：在装配空间自由阶段，装配件无接触，可将工件移动的过程近似为一个匀加速-匀速-匀减速的过程；

根据牛顿第二定律，F_R+G＝m·a，其中F_R为装配力，G为重力，可通过力引导装配操作网络调整机械臂移动速度v，以满足装配接触力的要求，通过力学分析得出装配力F_a与速度v的关系设为F_a＝f₁(v)。

在之后的分阶力引导装配操作网络中，力引导装配动作可定义为a_t-a＝(Δx_a,v)，其中Δx_a＝(Δx_a,Δy_a,Δz_a，Δα_a,Δβ_a,Δγ_a)表示目标轨迹的增量，v_a＝(v_a,v_a,v_a,v_a,v_a,v_a)表示线性弹簧力模型的线性刚度。

S2：在找孔阶段，装配件克服摩擦力，以与目标件表面相对滑动的方式向目标位置移动，也可将工件移动的过程近似为一个匀加速-匀速-匀减速的过程，F_L+f_L＝m·a，其中f_L为工件的摩擦力。通过力学分析得出装配力F_b与速度v的关系设为F_b＝f₂(v)。

在之后的分阶力引导装配操作网络中，力引导装配动作可定义为a_t-b＝(Δx_b,v)，其中Δx_b＝(Δx_b,Δy_b,Δz_b,Δα_b,Δβ_b,Δγ_b)表示目标轨迹的增量，v_b＝(v_b,v_b,v_b,v_b,v_b,v_b)表示线性弹簧力模型的线性刚度。

S3：在半入孔阶段，有可能因为少许位置偏差导致装配件过渡不到全入孔状态，此时根据目标估计位置施加装配力F_S来微移装配件以修正位置偏差。

采用线性弹簧力模型LS_xoy来模拟F_c，如图3所示：

在之后的分阶力引导装配操作网络中，力引导装配动作可定义为a_t-c＝(Δx_c,K)，其中Δx_d＝(Δx_d,Δy_d,Δz_d)表示目标轨迹的增量，K表示线性弹簧力模型的线性刚度。

S4：入孔阶段，因其基准纵面和目标特征基准纵面的角度误差过大而不能顺利入孔。为消减该角度误差，在前期装配空间漫游阶段姿态调整的基础上，会根据目标估计姿态基准纵面XOZ的方位施加装配力F_d来驱动装配特征基准纵面进行轻微转动，如图4所示。

在之后的分阶力引导装配操作网络中，力引导装配动作可定义为a_t-d＝(Δγ_d,K)，其中Δλ_d＝(Δα_d,Δβ_d,Δγ_d)表示目标轨迹旋转角度的增量，K表示扭转弹簧力模型的扭转刚度。

S2：机械臂分阶力引导装配操作网络如图5所示，具体步骤包含如下：

S2.1：定义机械臂装配状态s

机械臂装配状态用12个特征属性来描述：s＝(s_l,s_f)，其中，s_l＝(X,Y,Z,α,β,γ)为装配过程中待装配工件的位姿，s_f＝(f_x,f_y,f_z,τ_x,τ_y,τ_z)是装配过程中接触力信息，其中f_x,f_y,f_z表示笛卡尔力，τ_x,τ_y,τ_z表示笛卡尔轴的力矩。

S2.2：定义机械臂装配动作a

将机械臂装配状态输入装配状态分类器后，可得出当前装配阶段，针对当前的装配阶段，参考分阶段装配力约束模型，装配动作a可分别定义为a_t-a，a_t-b，a_t-c和a_t-d。

S2.3：定义装配质量评价奖励函数r：

分别表示对位移、接触力的奖惩，可通过调节前面系数来调节奖励函数，r_end表示是否装配成功，装配成功即为1，否则为0。

S2.4：搭建机器人装配分阶力引导装配学习网络如下图6所示。

其中，Critic为评价网络Q(s,a|θ^Q),网络输入为装配状态s＝(s_l,s_f)，以及装配动作a＝(θ₁,θ₂,θ₃,θ₄,θ₅,θ₆,f_a,f_b,f_c,f_d，τ_a,τ_b,τ_c,τ_d)，输出为相应的Q函数值，网络参数为θ^Q。Target Critic为目标评价网络Q′(s,a|θ^Q′)，网络结构与评价网络结构相同且初始化相同权重。Actor为策略网络μ(s,a|θ^μ)，网络输入为装配状态s＝(s_l,s_f)，输出为相应的动作值a＝(θ₁,θ₂,θ₃,θ₄,θ₅,θ₆,f_a,f_b,f_c,f_d，τ_a,τ_b,τ_c,τ_d)。构建目标策略网络Target actorμ′(s,a|θ^μ′)，网络结构与策略网络μ(s,a|θ^μ)结构相同且初始化相同权重。

Buffer为经验池R＝(s,a,r,s′)，式中s为机械臂当前装配状态，a为当前执行装配动作，r为执行动作a后的奖励，s′为执行动作a后的装配状态。

S2.5：训练机器人装配分阶力引导装配学习网络

S2.5.1：随机初始化评价网络参数θ^Q和策略网络参数θ^μ；

S2.5.2：用相同的参数初始化目标网络评价网络参数θ^Q′和策略网络参数θ^μ′；

S2.5.3：以FIFO方式初始化经验池buffer存储空间；

S2.5.4：对网络进行M次周期训练；

S2.5.4.1：随机初始化初始状态s_t，根据下式选择动作a_t，传递给装配环境执行该动作；

S2.5.4.2：机械臂执行动作a_t，在装配环境中得到奖励r和下一时刻状态s_t+1，然后将(s,a,r,s′)存入经验池；

S2.5.4.3：对四个网络参数进行更新；

S2.5.4.4：重复步骤S2.5.4.1～S2.5.4.3，直至M次周期训练完成，μ′(s,a|θ^μ′)为网络训练结果。

S2.6：使用训练好的网络作为机械臂装配操作动作控制器，通过阻抗控制来实现对机械臂各关节角度和装配力矩的输出。

实施例2：

本公开实施例2提供了一种基于深度强化学习的机器人分阶力引导装配系统，包括：

所述系统的工作方法与实施例1提供的基于深度强化学习的机器人分阶力引导装配方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于深度强化学习的机器人分阶力引导装配方法中的步骤，所述步骤为：

获取待装配工件的位姿数据和接触力数据；

详细步骤与实施例1提供的基于深度强化学习的机器人分阶力引导装配方法相同，这里不再赘述。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于深度强化学习的机器人分阶力引导装配方法中的步骤，所述步骤为：

获取待装配工件的位姿数据和接触力数据；

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于深度强化学习的机器人分阶力引导装配方法，其特征在于：包括以下步骤：

获取待装配工件的位姿数据和接触力数据；

工件的装配阶段包括装配空间自由阶段、找孔阶段、半入孔阶段、入孔阶段和装配完成，依序分析工件装配各个阶段力学特性，得出分阶段的装配力学约束模型，结合各阶段的装配力学约束模型进行装配阶段和装配动作识别；将获取的数据输入到预设的网络模型中，得到工件的当前装配阶段以及当前装配阶段对应的装配动作；其中，根据当前装配环境，得到位移和接触力的奖惩，网络模型根据奖惩进行参数调整；

2.如权利要求1所述的基于深度强化学习的机器人分阶力引导装配方法，其特征在于：

在装配空间自由阶段，装配工件无接触，将工件移动的过程设定为一个先匀加速，然后匀速，最后匀减速的过程，得到自由空间动力学模型。

3.如权利要求1所述的基于深度强化学习的机器人分阶力引导装配方法，其特征在于：

在找孔阶段，装配件克服摩擦力，以与目标件表面相对滑动的方式向目标位置移动，将工件移动的过程设定为一个先匀加速，然后匀速，最后匀减速的过程，得到耦合摩擦力动力学模型。

4.如权利要求1所述的基于深度强化学习的机器人分阶力引导装配方法，其特征在于：

在半入孔阶段，根据目标估计位置施加装配力来移动装配件以修正位置偏差，并采用线性弹簧力模型来模拟装配力，得到线性弹簧力学模型。

5.如权利要求1所述的基于深度强化学习的机器人分阶力引导装配方法，其特征在于：

在入孔阶段，在装配空间漫游阶段姿态调整的基础上，根据目标估计姿态基准纵面XOZ的方位施加装配力来驱动装配特征基准纵面进行转动，得到扭转弹簧力学模型。

6.一种基于深度强化学习的机器人分阶力引导装配系统，其特征在于：包括：

融合决策模块，被配置为：依序分析包括装配空间自由阶段、找孔阶段、半入孔阶段、入孔阶段和装配完成的工件装配各个阶段力学特性，得出分阶段的装配力学约束模型，结合各阶段的装配力学约束模型进行装配阶段和装配动作识别；将获取的数据输入到预设的网络模型中，得到工件的当前装配阶段以及当前装配阶段对应的装配动作；根据当前装配环境，得到位移和接触力的奖惩，网络模型根据奖惩进行参数调整；

7.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一项所述的基于深度强化学习的机器人分阶力引导装配方法中的步骤。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任一项所述的基于深度强化学习的机器人分阶力引导装配方法中的步骤。