CN114571456A

CN114571456A - 基于机器人技能学习的电连接器装配方法及系统

Info

Publication number: CN114571456A
Application number: CN202210248295.9A
Authority: CN
Inventors: 宋锐; 靳李岗; 李凤鸣; 门渔; 田新诚; 王艳红
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2022-06-03
Anticipated expiration: 2042-03-14
Also published as: CN114571456B

Abstract

本发明涉及基于机器人技能学习的电连接器装配方法及系统，包括以下步骤：基于图像信息调整待装配电连接器处于初始位姿，控制机器人携带待装配电连接器接触装配孔位并执行轨迹搜索，当待装配电连接器落入装配孔内时，轨迹搜索完毕；以机器人末端携带待装配电连接器的位姿和接触力作为已构建的机器人装配技能学习网络的输入值，机器人下一步动作的关节角度为输出值；基于机器人装配技能学习网络中的奖励函数，迭代使网络收敛，并判断待装配电连接器落入装配孔内的装配深度和接触力满足设定值时，电连接器装配完毕。待装配电连接器先接触装配孔位经轨迹搜索后落入装配孔内，再控制待装配电连接器落入装配孔内的装配进给过程，最终完成装配。

Description

基于机器人技能学习的电连接器装配方法及系统

技术领域

本发明涉及自动控制技术领域，具体为基于机器人技能学习的电连接器装配方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在利用机器人实现电连接器(如USB、HDMI等)的装配过程中，由于装配的连接器结构复杂、装配尺寸较为精密，导致装配过程受力多且复杂，在装配过程中容易出现零部件损坏及装配失败的问题。目前的装配机器人在纯位置控制、操作刚性较强的物体装配能力已经相对成熟，但是对于弱刚度、复杂构型零部件的装配能力相对较弱，难以应对电连接器等复杂结构的装配作业任务。

现有的机器人针对复杂零部件的装配方法大多基于对零部件的几何建模，建立精确的物理模型，根据几何模型及装配过程中的力/位信息，调整机械臂装配动作。然而基于物理模型的方法，需要机器人预先了解零部件的精确模型，此种方式很难实现。而基于数据模型的方法，又会出现奖励函数设置困难的问题。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供基于机器人技能学习的电连接器装配方法及系统，采用基于数据驱动的策略，将外部传授与内部增强的方法相结合，配合专家数据信息，学习出最优的奖励函数，并采用强化学习的方法决策机器人下一步动作，避免了人工设置奖励函数的困难和零部件物理模型的构建，并且相比以往的DDPG算法(深度确定性策略梯度算法)做了优化，采用TD3算法(双延迟深度确定性策略梯度算法)，避免了调参数的困难。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于机器人技能学习的电连接器装配方法，包括以下步骤：

利用图像信息调整待装配电连接器处于初始位姿，基于初始位姿控制机器人携带待装配电连接器接触装配孔位，获取待装配电连接器与装配孔位的接触力大小的和电连接器落入装配孔位时的装配深度；

以机器人末端携带待装配电连接器的位姿和接触力作为已构建的机器人装配技能学习网络的输入值，机器人下一步动作的关节角度为输出值；

基于机器人装配技能学习网络中的奖励函数，判断待装配电连接器落入装配孔内的装配深度和接触力满足设定值时，电连接器装配完毕。

控制机器人携带待装配电连接器接触装配孔位后，执行轨迹搜索。

轨迹搜索的过程包括，机器人携带待装配电连接器依据正弦轨迹搜索装配孔位，当待装配电连接器和装配孔位接触后的接触力小于设定值时，待装配电连接器落入装配孔内。

机器人装配技能学习网络的构建过程包括：

机器人预先经人工示教获取专家数据，专家数据包括机器人执行装配时每一步的状态和对应的动作信息；

利用机器人的状态与对应动作信息的特征基函数，和特征基函数对应的权重值，构建以预先示教后的专家数据为目标的奖励函数；

将奖励函数输入强化学习网络中训练网络，迭代至网络收敛。

当零部件装配深度增大，且机器人携带的待装配电连接器的末端接触力中的各个分量均小于设定的阈值时，奖励函数为正；当装配深度不变，且机器人携带的待装配电连接器的末端接触力中的各个分量均小于设定的阈值时，奖励函数为零；其余情况奖励函数为负值。

本发明的第二个方面提供实现上述方法的系统，包括：

分别与上位机模块连接的力检测模块、视觉检测模块和机械臂模块，力检测模块和视觉检测模块分别获取待装配电连接器的位姿信息和力信息，利用上位机模块中预先训练好的机器人装配技能学习网络控制机械臂模块执行装配动作。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于机器人技能学习的电连接器装配方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于机器人技能学习的电连接器装配方法中的步骤。

与现有技术相比，以上一个或多个技术方案存在以下有益效果：

1、机器人携带待装配电连接器先接触装配孔位，经轨迹搜索后落入装配孔内，再利用预先构建的机器人装配技能学习网络，输出机械臂动作，控制待装配电连接器落入装配孔内的进给过程，最终完成电连接器的装配。

2、预先构建的机器人装配技能学习网络，以模仿学习与强化学习相结合的方式，从预先示教后的专家数据中以模仿学习的方式获得相适应的奖励函数，再将奖励函数输入强化学习网络中训练网络，直至网络收敛，相比传统强化学习方式，动态的奖励函数学习过程避免了奖励函数设置困难的问题。

3、机器人装配技能学习网络使得机器人能够适应不同种类的复杂装配对象，具有较好的泛化能力。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明一个或多个实施例提供的装配系统结构示意图；

图2是本发明一个或多个实施例提供的装配方法流程示意图；

图3是本发明一个或多个实施例提供的装配方法中正弦搜索路径示意图；

图4是本发明一个或多个实施例提供的装配方法中的零部件结构示意图；

图5是本发明一个或多个实施例提供的装配方法中奖励函数学习过程示意图；

图6是本发明一个或多个实施例提供的装配过程中机器人装配技能学习网络示意图；

图7(a)-(c)是本发明一个或多个实施例提供的装配过程中零部件进给过程的侧视示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如背景技术中所描述的，目前，机器人针对复杂零部件(例如，USB、HDMI等电连接器)的装配方法大多基于对零部件的几何建模，建立精确的物理模型，根据几何模型及装配过程中的力/位信息，调整机械臂装配动作。然而基于物理模型的方法，需要机器人预先了解零部件的精确模型，此种方式很难实现。而基于数据模型的方法，又会出现奖励函数设置困难的问题。

因此，以下实施例给出了基于机器人技能学习的电连接器装配方法及系统，融合外部模仿学习与内部强化学习的机器人装配技能学习方法。该方法结合专家数据，训练生成相匹配的奖励函数，在搭建的装配环境中训练学习，输出机械臂的控制量，引导机械臂完成装配动作，获得装配技能。

实施例一：

如图2所示，基于机器人技能学习的电连接器装配方法，包括以下步骤：

基于待装配电连接器的图像信息确定机器人机械臂抓取插头的初始位姿；

基于正弦轨迹搜索插座孔位，当电连接器的插头和插座接触后的接触力小于设定值时，插头落入插座孔内，轨迹搜索完毕；

以机器人末端零部件的位姿和接触力作为已构建的机器人装配技能学习网络的输入值，机器人下一步动作的关节角度为输出值；

基于逆强化学习学习机器人装配技能学习网络中的奖励函数，不断迭代使网络逐渐收敛，并判断插头落入插座孔内的装配深度和接触力满足设定值时，电连接器装配成功；

其中，当零部件装配深度增大，且机器人末端零部件的接触力中的各个分量均小于设定的阈值时，奖励函数为正；当装配深度不变，且机器人末端零部件的接触力中的各个分量均小于设定的阈值时，奖励函数为零；其余情况奖励函数为负值。

以图4所示的零部件“插座”为例，举例说明装配方法的各步骤：

(1)初始化机械臂，对图像信息进行滤波，根据图像信息调整好装配对象位姿并采用笛卡尔空间位置控制到达插座上方后，首先执行搜索策略，插头与插座接触之后，通过正弦轨迹搜索孔位。其中x＝v_x·t，y＝a·sinωx，实时监测接触力，当接触力突然减小时，表明插头落入孔内，一次搜索完成；同时展开二次搜索，可适当调小上述x,y中的v_x,a,ω等参数值，至搜索成功。正弦搜索路径及零部件插座示意图分别如图3和图4所示。

x,y分别表示机器人携带插头运动的方向，v_x表示x轴方向运动速度，t表示运动时间，a表示y轴方向运动幅度，ω表示正弦运动的频率。

本实施例采取两次搜索由零部件的结构所决定，当一次搜索到插座的孔之后，插头可能会继续碰撞插座中心的连接片，如图4中的三维结构图，两次搜索之后才能继续执行插入进给动作。本实施采取的正弦搜索，搜索密度大、范围广，因此搜索效率高，可快速找到孔位。

(2)定义网络输入状态s_t＝(s_p,s_τ)，其中s_p＝[x,y,z,α,β,γ],表示机械臂末端零部件的位姿；s_τ＝[F_x,F_y,F_z,M_x,M_y,M_z]表示机械臂末端的接触力/力矩。

(3)定义网络输出值Δθ_t＝[Δθ₁,Δθ₂,Δθ₃,Δθ₄,Δθ₅,Δθ₆]，式中Δθ₁,Δθ₂,Δθ₃,Δθ₄,Δθ₅,Δθ₆分别表示六轴机械臂下一步动作的关节角度。

(4)构建机器人装配技能学习网络，如图6所示，具体步骤如下：

1)给定一组提前示教好的专家数据D，专家数据是机器人预先经过人工示教电连接器插拔过程，期间记录下过程中的状态s和动作a的信息，数据中包含拔插时机器人每一步的状态和对应的动作(以关节角度的形式)，例如当机器人需要六步执行完装配动作时，每一步的状态都对应着一组关节角度。具体如下：

τ_i＝{(s_i1,a_i1),(s_i2,a_i2),...,(s_i(n-1),a_i(n-1)),s_in}；

其中s_i＝s_ti,a_i＝Δθ_ti。

假定奖励函数是与状态相关的几个特征基函数的线性组合：

r(s_t,a_t)＝α·f(s_t,a_t)

其中，r是奖励函数，f是关于状态s_t和动作a_t的特征基函数，α是各项的权重。

在t时刻，状态s_t，动作a_t的奖励函数应具备如下特征：当零部件装配深度增大，且s_τ＝[F_x,F_y,F_z,M_x,M_y,M_z]中的各个分量均小于某个设定的阈值时，此时奖励函数为正；当装配深度不变，且s_τ＝[F_x,F_y,F_z,M_x,M_y,M_z]中的各个分量均小于某个设定的阈值时，此时奖励函数为零；其余情况奖励函数为负值。需要注意，上述阈值没有具体范围，可根据连接器材质、刚度等灵活设置，主要目的为防止接触力过大损坏零部件。

2)选择具有最高的总回报策略：

Z(α)为对专家数据D中所有路径求和得到的配分函数。

3)奖励函数中各项的权重α由下式X获得：

其中，

表示专家示教数据中的某一组轨迹，

表示损失函数L对α的梯度，利用梯度变化可求解出最佳的权重α，由此，可计算出奖励函数中各项的权重α，并代入后续策略学习过程。奖励函数学习过程如图5所示。

4)首先初始化3个网络Q_φ1、Q_φ2、μ_θ，再初始化3个Target网络Q_φ1'、Q_φ2'、μ_θ'，并将开始的3个网络参数分别赋值给对应的Target网络：φ1'←φ1，φ2'←φ2，θ'←θ。

5)初始化经验池R。

6)在状态s下，通过式X选择动作：

a_t＝μ_θ(s)+ε,ε～N(0,σ)

其中ε用于产生随机噪声，机械臂执行动作a_t，采用3)中获得的奖励函数得到奖励r，并进入下一状态s_t+1，并且将(s_t,a_t,r_t,s_t+1)存放入经验池R中。

7)从经验池中随机采样一组数据，迭代次数n←n+1,通过式X计算出s'状态下对应的动作a'：

a'～μ_θ'(s')+ε,ε～clip(N(0,σ'),-c,c)

利用s'，a'，通过式X计算出targetQ1,targetQ2值，并获取min(targetQ1,targetQ2),作为s'的targetQ值，如下：

y(s,a)＝r(s,a)+γmin(Q_φ1'(s',μ_θ'(s')),Q_φ2'(s',μ_θ'(s')))

8)Critic中的targetQ值每更新两次后，再更新Actor中的两个Q网络，使用同一个target:y(s,a)，其目标是：

其中TD3算法，是属于Actor-Critic(演员-评论家)框架下的一种强化学习算法。Actor表示动作，Critic表示评价机制。

使用梯度下降的方法更新参数，因此迭代公式为：

9)如果n≠N，N为每个周期内的episode数目，返回7)，否则继续执行。

10)更新策略网络μθ：

11)利用Polyak Averaging算法(Polyak平均算法)，更新φ1',φ2',θ'：

φ1'←ρφ1'+(1-ρ)φ1

φ2'←ρφ2'+(1-ρ)φ2

θ'←ρθ'+(1-ρ)θ

式中ρ值一般取0.001。

12)返回步骤2)，直至所有的网络均收敛。

(5)利用训练好的装配技能学习网络，可执行复杂零部件的装配任务，零部件装配进给过程侧视图如图7(a)-图7(c)所示。

上述装配方法结合模仿学习与强化学习方法提供了一种解决机器人装配电连接器的方案；

利用模仿学习的方法，从专家数据中学习合适的奖励函数，避免了奖励函数设置困难的问题；

机器人装配技能的学习可以适应不同种类的复杂装配对象，具有较好的泛化能力。

实施例二：

本实施例提供了实现上述方法的系统，包括：

为了验证所提方法，本实施例搭建了装配系统，如图1所示。该机器人装配系统包括视觉检测、力检测、上位机和机械臂四个模块。该系统视觉检测模块借助RGB-D深度相机实时获取装配图像信息，力检测模块利用安装在机械臂末端的六维力传感器实时获取装配对象接触的力和力矩，上位机模块是将视觉和力觉采集的信息处理为机器人装配技能学习网络的输入，并训练装配技能获得网络，将网络输出的机械臂的动作作用于装配对象。机器人执行装配动作导致视觉和力状态发生改变，并被检测模块实时感知。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一中提出的基于机器人技能学习的电连接器装配方法中的步骤。

本实施例中的计算机程序所执行的基于机器人技能学习的电连接器装配方法中，利用预先构建的机器人装配技能学习网络，以模仿学习与强化学习相结合的方式，从专家数据中学习相适应的奖励函数，避免了奖励函数设置困难的问题。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述程序时实现如上述实施例一提出的基于机器人技能学习的电连接器装配方法中的步骤。

本实施例处理器执行的基于机器人技能学习的电连接器装配方法中，利用预先构建的机器人装配技能学习网络，以模仿学习与强化学习相结合的方式，从专家数据中学习相适应的奖励函数，避免了奖励函数设置困难的问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于机器人技能学习的电连接器装配方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于机器人技能学习的电连接器装配方法，其特征在于：控制机器人携带待装配电连接器接触装配孔位后，执行轨迹搜索。

3.如权利要求2所述的基于机器人技能学习的电连接器装配方法，其特征在于：所述执行轨迹搜索的过程包括，机器人携带待装配电连接器依据正弦轨迹搜索装配孔位，当待装配电连接器和装配孔位接触后的接触力小于设定值时，待装配电连接器落入装配孔内。

4.如权利要求1所述的基于机器人技能学习的电连接器装配方法，其特征在于：机器人装配技能学习网络的构建过程包括，

机器人预先经人工示教获取专家数据，专家数据包括机器人执行装配时每一步的状态和对应的动作信息。

5.如权利要求4所述的基于机器人技能学习的电连接器装配方法，其特征在于：机器人装配技能学习网络的构建过程还包括，

利用机器人的状态与对应动作信息的特征基函数，和特征基函数对应的权重值，构建以专家数据为目标的奖励函数。

6.如权利要求5所述的基于机器人技能学习的电连接器装配方法，其特征在于：机器人装配技能学习网络的构建过程还包括，

7.如权利要求5所述的基于机器人技能学习的电连接器装配方法，其特征在于：当零部件装配深度增大，且机器人携带的待装配电连接器的末端接触力中的各个分量均小于设定的阈值时，奖励函数为正；当装配深度不变，且机器人携带的待装配电连接器的末端接触力中的各个分量均小于设定的阈值时，奖励函数为零；其余情况奖励函数为负值。

8.基于权利要求1-7中任一项所述方法实现电连接器装配的系统，其特征在于：包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于机器人技能学习的电连接器装配方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于机器人技能学习的电连接器装配方法中的步骤。