CN111444954A

CN111444954A - 一种基于多模态感知与学习的机器人自主装配方法

Info

Publication number: CN111444954A
Application number: CN202010214129.8A
Authority: CN
Inventors: 吴鸿敏; 苏乾鑫; 周雪峰; 徐智浩; 鄢武
Original assignee: Guangdong Institute of Intelligent Manufacturing
Current assignee: Guangdong Institute of Intelligent Manufacturing
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-24

Abstract

本发明公开了一种基于多模态感知与学习的机器人自主装配方法，所述方法包括：获取机器人可用的感知数据信息，并将所述感知数据信息进行信息融合，得到融合后的多模态信息；将所述融合后的多模态信息输入至深度强化学习算法中进行训练，获取所述机器人的自主装配策略；基于所述机器人的自主装配策略控制所述机器人的动作；基于评估模型判断所述机器人的动作是否成功，进而判断所述机器人是否自主装配完成。在本发明实施中，提高机器人装配策略的鲁棒性和稳定性，提升机器人的自主学习与泛化能力，完成快速而精确的装配任务。

Description

一种基于多模态感知与学习的机器人自主装配方法

技术领域

本发明涉及机器人自主装配技术领域，尤其涉及一种基于多模态感知与学习的机器人自主装配方法。

背景技术

装配作业是工业机器人领域最重要的挑战之一，因为它具有复杂的环境、多样的对象、复杂的动作类型和灵活性要求，所以装配过程中的不确定性尤其明显。现有的机器人装配作业常见的是依靠教学复制或基于编程的操作来完成一些特定的、简单的装配工作。一些传统的处理不确定性的方法，虽然也能使装配过程更加灵活。例如通过对接触状态的分析，确定了不同的装配阶段，以保证装配的顺利进行，或者通过柔性夹持器或阻抗控制方法实现了装配的一致性。但大多数方法针对已知的接触状态和规则对象，对于复杂的环境、对象，传统的方法并不能做出令人满意的表现。

在传统的机器人装配作业中，机器人获取外界信息方法单一，装配成功率并不是很理想，而且面对装配任务的多样性和非结构化，仍然还有许多问题有待解决，如：感知能力太低、装配环境要求高、装配适应性差、装配效率低下及无法完成复杂环境的复杂装配等。近两年来，基于深度强化学习的装配技术也逐渐被提出来，目前国内外提到的基于深度强化学习的装配方法有的只用到了力/力矩传感器，有的是将视觉传感器和力/力矩传感器一起使用，能够初步达到机器人完成自主装配的目的；但是这样的装配机器人获取外界信息的途径是很狭隘的，缺乏多样性，往往装配成功率也不是很高。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于多模态感知与学习的机器人自主装配方法，实现机器人完成自主装配任务。

为了解决上述技术问题，本发明实施例提供了一种基于多模态感知与学习的机器人自主装配方法，所述方法包括：

获取机器人可用的感知数据信息，并将所述感知数据信息进行信息融合，得到融合后的多模态信息；

将所述融合后的多模态信息输入至深度强化学习算法中进行训练，获取所述机器人的自主装配策略；

基于所述机器人的自主装配策略控制所述机器人的动作；

基于评估模型判断所述机器人的动作是否成功，进而判断所述机器人是否自主装配完成。

可选的，所述机器人可用的感知数据信息包括：固定摄像头的RGB图像的感知数据信息、和腕式力-力矩传感器的触觉反馈的感知数据信息、和机器人手臂关节编码器本体感受数据的感知数据信息。

可选的，所述获取固定摄像头的RGB图像的感知数据信息包括：使用6层卷积神经网络进行编码128×128×3RGB图像，并在所述卷积神经网络后增加一个全连接层，得到128-d的特征向量；

所述获取腕式力-力矩传感器的触觉反馈的感知数据信息包括：将6轴力-力矩传感器的最后32个读书作为32×6的时间序列，并用步长2进行5层因果卷积，得到64-d的特征向量；

所述获取机器人手臂关节编码器本体感受数据的感知数据信息包括：通过2层多层感知器对末端执行器的当前位置和速度进行编码，得到32-d的特征向量。

可选的，所述将所述感知数据信息进行信息融合，得到融合后的多模态信息包括：

将所述128-d的特征向量、所述64-d的特征向量、所述32-d的特征向量连接形成一个总的向量；

基于所述总的向量，通过多模态融合模块得到最终多模态信息，用128-d多模态表示。

可选的，所述128-d多模态表示还与动作编码器对所述机器人的运动做出估计，并判断所述机器人是否与装配物体进行了接触；其中，包括：

基于流预测器采用带上采样的6层卷积解码器，生成128×128×2的流量图；

基于接触预测器执行二进制分类，判断所述机器人是否与装配物进行了接触；

基于对齐预测器采用将低维表示作为输入，并对所述输入是否对齐进行二分类，判断传感器输入是否为时间对齐。

可选的，所述深度强化学习算法是基于深度确定性策略梯度算法，包括动作网络和评价网络。

可选的，所述动作网络用于策略网络来更新策略。

可选的，所述评价网络用于实现逼近函数，并得到梯度信息。

可选的，所述动作网络和所述评价网络前两层采用全连接网络层，最后一层采用Dropout层。

可选的，所述基于评估模型判断所述机器人的动作是否成功，进而判断所述机器人是否自主装配完成包括：

基于评估模型判断所述机器人的动作是否成功；

若所述机器人的动作成功，则所述机器人自主装配完成；

若所述机器人的动作不成功，则返回至所述获取机器人可用的感知数据信息，并将所述感知数据信息进行信息融合，得到融合后的多模态信息。

在本发明实施中，通过多模态感知与融合的方法结合深度强化学习算法代替传统的基于编程的方法，克服传统机器人在面对复杂多变的环境中的适应能力和感知能力差以及几乎没有泛化能力的问题，从而提高机器人装配策略的鲁棒性和稳定性，提升机器人的自主学习与泛化能力，完成快速而精确的装配任务，与此同时，机器人的自适应能力更强，具有较好的泛化能力，即使面对装配任务的改变，机器人也能很快的做出调整，并学习出快速、准确且稳定的装配方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施中的基于多模态感知与学习的机器人自主装配方法的流程示意图；

图2是本发明实施中的多模态感知表征模型图；

图3是本发明实施中的自主装配策略学习网络模型图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，图1是本发明实施中的基于多模态感知与学习的机器人自主装配方法的流程示意图。

如图1所示，一种基于多模态感知与学习的机器人自主装配方法，所述方法包括：

S11：获取机器人可用的感知数据信息，并将所述感知数据信息进行信息融合，得到融合后的多模态信息；

在本发明具体实施过程中，如图2所示，图2示出本发明实施中的多模态感知表征模型图，所述机器人可用的感知数据信息包括：固定摄像头的RGB图像的感知数据信息、和腕式力-力矩传感器的触觉反馈的感知数据信息、和机器人手臂关节编码器本体感受数据的感知数据信息。

具体的，所述获取固定摄像头的RGB图像的感知数据信息包括：使用6层卷积神经网络进行编码128×128×3RGB图像，并在所述卷积神经网络后增加一个全连接层，得到128-d的特征向量；所述获取腕式力-力矩传感器的触觉反馈的感知数据信息包括：将6轴力-力矩传感器的最后32个读书作为32×6的时间序列，并用步长2进行5层因果卷积，得到64-d的特征向量；所述获取机器人手臂关节编码器本体感受数据的感知数据信息包括：通过2层多层感知器对末端执行器的当前位置和速度进行编码，得到32-d的特征向量。

在本发明具体实施过程中，将所述感知数据信息进行信息融合，得到融合后的多模态信息包括：将所述128-d的特征向量、所述64-d的特征向量、所述32-d的特征向量连接形成一个总的向量；基于所述总的向量，通过多模态融合模块，即2层MLP，得到最终多模态信息，用128-d多模态表示。

另外，所述128-d多模态表示还与动作编码器对所述机器人的运动做出估计，并判断所述机器人是否与装配物体进行了接触；其中，包括：基于流预测器采用带上采样的6层卷积解码器，生成128×128×2的流量图；基于接触预测器执行二进制分类，判断所述机器人是否与装配物进行了接触；基于对齐预测器采用将低维表示作为输入，并对所述输入是否对齐进行二分类，判断传感器输入是否为时间对齐。

需要说明的是，下一个动作，即末端执行器的运动，是由2层MLP编码的。它与多模态表示一起构成流和接触预测器的输入。流预测器采用带上采样的6层卷积解码器，生成大小为128×128×2的流量图。接触预测器是一个两层的MLP，执行二进制分类。为了预测两个传感器流是否为时间对齐的。本发明混合采样时间对齐的多模态数据和随机移位的数据。对齐预测器(2层MLP)采用将低维表示作为输入，并对输入是否对齐进行二分类。

S12：将所述融合后的多模态信息输入至深度强化学习算法中进行训练，获取所述机器人的自主装配策略；

在本发明具体实施过程中，所述深度强化学习算法是基于深度确定性策略梯度算法，包括动作网络和评价网络；其中，所述动作网络用于策略网络来更新策略，确定性策略用a＝π(s|θ^μ)表示；所述评价网络用于实现逼近函数，实现逼近值函数Q(s,a|θ^Q)，并得到梯度信息。需要说明的是，所述动作网络和所述评价网络前两层采用全连接网络层，激活函数用的是relu，最后一层采用Dropout层，激活函数用的是tanh。

具体的，如图3所示，图3是本发明实施中的自主装配策略学习网络模型图，目标函数是带有权重的累加奖励值：

并采用随机梯度下降法优化。由于目标函数与Q值函数关于θ^μ的梯度等价，即：

由a＝π(s|θ^μ)可得：

评价网络通过该更新值网络的方法，可求得梯度信息为：

其中，

和

分别表示目标策略网络和目标值网络的参数，通过缓慢更新的方式来增加学习过程的稳定性：

深度确定性策略梯度算法沿着提升Q值得方向不断对策略网络进行更新。此外，为了有效的对连续动作实现冒险探索，深度确定性策略梯度算法通过增加一个噪声项N来构建探索策略μ′：

综上所述，深度确定性策略梯度算法动作网络参数θ^μ和评价网络参数θ^Q的更新公式如下所示：

将每一个episode的装配奖励函数函数定义为：

其中h_t是t时刻装配插入的深度，h_max表示目标要求的装配插入深度，F_t是t时刻在Z轴受到的力，F₀是装配成功所受力阈值。h_t<h_maxor F_t<F₀表示装配任务失败，此时的奖励值会是-1，h_t＝h_maxand F_t≥F₀表示装配任务成功，此时奖励值为1，如有发生其他情况，则奖励值为0。定义R_t为T时间段内所获得的经折扣后的未来收益之和，

其中i为完成一次装配过程中的第i次装配动作，γ为远小于1的折扣因子。该函数在评价网络的Q值函数中应用。

评估网络和决策网络中的优化器均用来调节优化当前网络参数，与目标网络中的参数无直接关系，目标网络的参数更新在当前网络参数更新的基础上实现，目标Q值网络的参数以预测输出形式给当前Q值网络；装配作业环境的参数是装配状态矩阵形式S，以6自由度为例即为24维矩阵，可表示为：

其中，[x,y,z,α_x,β_y,η_z]是由机器人正运动学解算出来的末端效应器的位姿，[F_x,F_y,F_z,τ_x,τ_y,τ_z]表示装配零部件接触时的力/力矩信息。

在本发明具体实施过程中，输入至深度强化学习算法中进行训练包括：

(1)初始化动作网络和评价网络参数：θ^μ和θ^Q；

(2)初始化记忆缓冲器；

(3)对于每一个episode：初始化OU随机过程；

(4)对于t∈[1,T]：

①动作网络依据行为策略选择a_t，发送给机器人；

a_t＝μ(s_t|θ^μ)+N_t；

②执行该动作，从环境中获取reward和下一个状态的s_t+1；

③将这个动作转换(s_t,a_t,r_t,s_t+1)存储到记忆缓冲器中；

④从记忆缓冲器中随机采样N个转换数据即(s_t,a_t,r_t,s_t+1)，作为动作网络和评价网络的训练数据；

⑤定义损失函数为均方误差：

其中，y_i可以看做“标签”：

y_i＝r_i+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)；

基于标准的反向传播方法，就可求得L针对θ^Q的梯度：

⑥利用公式θ^Q′←τθ^Q-(1-τ)θ^Q′来更新动作网络参数θ^Q，其中η＝0.001；

⑦计算评估网络的策略梯度：

⑧利用公式θ^u′←τθ^u-(1-τ)θ^u′来更新动作网络参数θ^u，其中η＝0.001；

⑨参数更新后，动作网络输出新的装配动作a_t作用在机器人上进行装配；

⑩设定每个episode机器人装配动作尝试20次，用评估模型评估装配成功是否，若20次过后仍不成功则重新经过算法生成新的策略。

S13：基于所述机器人的自主装配策略控制所述机器人的动作；

S14：基于评估模型判断所述机器人的动作是否成功，进而判断所述机器人是否自主装配完成。

在本发明具体实施过程中，所述基于评估模型判断所述机器人的动作是否成功，进而判断所述机器人是否自主装配完成包括：基于评估模型判断所述机器人的动作是否成功；若所述机器人的动作成功，则所述机器人自主装配完成；若所述机器人的动作不成功，则返回至所述获取机器人可用的感知数据信息，并将所述感知数据信息进行信息融合，得到融合后的多模态信息。

具体实施中，第一步，在内存条与卡位未接触之前，利用视觉传感器与机器人本体信息对装配的内存条卡位进行定位，机器人做出相应的动作，将内存条移动到内存条卡位上方；第二步，融合视觉传感器和力/力矩传感器信息以及机器人位姿信息，进行初步装配动作，收集数据传送到深度强化学习算法获取更优的装配策略；在更新策略后，机器人进行姿态调整，重新执行内存条的装配任务；第三步，因为是内存条的装配任务，这是属于有卡扣的任务，会有声音的发出，所以在装配是否成功的评估模型里面，本发明将声音信息添加在评估模型里面；综合机器人的力-视-听来对机器人的装配进行评估，以此提高机器人的装配精度。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于多模态感知与学习的机器人自主装配方法进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多模态感知与学习的机器人自主装配方法，其特征在于，所述方法包括：

基于所述机器人的自主装配策略控制所述机器人的动作；

2.根据权利要求1所述的一种基于多模态感知与学习的机器人自主装配方法，其特征在于，所述机器人可用的感知数据信息包括：固定摄像头的RGB图像的感知数据信息、和腕式力-力矩传感器的触觉反馈的感知数据信息、和机器人手臂关节编码器本体感受数据的感知数据信息。

3.根据权利要求2所述的一种基于多模态感知与学习的机器人自主装配方法，其特征在于，所述获取固定摄像头的RGB图像的感知数据信息包括：使用6层卷积神经网络进行编码128×128×3RGB图像，并在所述卷积神经网络后增加一个全连接层，得到128-d的特征向量；

4.根据权利要求1所述的一种基于多模态感知与学习的机器人自主装配方法，其特征在于，所述将所述感知数据信息进行信息融合，得到融合后的多模态信息包括：

5.根据权利要求4所述的一种基于多模态感知与学习的机器人自主装配方法，其特征在于，所述128-d多模态表示还与动作编码器对所述机器人的运动做出估计，并判断所述机器人是否与装配物体进行了接触；其中，包括：

6.根据权利要求1所述的一种基于多模态感知与学习的机器人自主装配方法，其特征在于，所述深度强化学习算法是基于深度确定性策略梯度算法，包括动作网络和评价网络。

7.根据权利要求6所述的一种基于多模态感知与学习的机器人自主装配方法，其特征在于，所述动作网络用于策略网络来更新策略。

8.根据权利要求6所述的一种基于多模态感知与学习的机器人自主装配方法，其特征在于，所述评价网络用于实现逼近函数，并得到梯度信息。

9.根据权利要求6所述的一种基于多模态感知与学习的机器人自主装配方法，其特征在于，所述动作网络和所述评价网络前两层采用全连接网络层，最后一层采用Dropout层。

10.根据权利要求1所述的一种基于多模态感知与学习的机器人自主装配方法，其特征在于，所述基于评估模型判断所述机器人的动作是否成功，进而判断所述机器人是否自主装配完成包括：

基于评估模型判断所述机器人的动作是否成功；

若所述机器人的动作成功，则所述机器人自主装配完成；