CN118081758A

CN118081758A - 一种杂乱场景下机器人自主拾取与放置位姿获取方法

Info

Publication number: CN118081758A
Application number: CN202410340460.2A
Authority: CN
Inventors: 张辉; 郭朝建; 江一鸣; 李康; 许智文; 陈为立; 尹松涛; 黄长庆
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2024-03-25
Filing date: 2024-03-25
Publication date: 2024-05-28

Abstract

本发明公开了一种杂乱场景下机器人自主拾取与放置位姿获取方法，该方案将相机获取的工作场景彩色、深度图像作为输入，利用语义分割模型获取目标信息并加强输入信息表征能力，采用一种演员‑评论家形式的深度强化学习方法自主移除障碍物探索目标物体位姿，再利用基于深度特征模板匹配的方法获取目标放置位姿，最后拾取放置物体到特定位姿，该方案可以实现在复杂场景中探索出被遮挡目标物体并放置到特定的位姿。该方案实现了依据拾取位姿对目标放置位姿的高精度定位，在杂乱场景中目标拾取成功率可达80％以上，从整体提高了目标放置位姿获取任务的成功率和稳定性。

Description

一种杂乱场景下机器人自主拾取与放置位姿获取方法

技术领域

本发明涉及杂乱场景下机械臂抓取放置物体领域，具体为一种杂乱场景下机器人自主拾取与放置位姿获取方法。

背景技术

机器人传统抓取放置任务已经得到了深入的研究，并在结构化场景中取得了巨大的成功。传统系统使用已知对象的先验知识，如机械手和物体的3D模型及其物理特性，为已知物体抓取找到稳定的力闭合，再设计脚本规划和运动控制。虽然这些系统在结构化环境(如制造业)中是稳健的，但在非结构化环境(例如物流、农业、家庭)中目标物体常会被障碍物遮挡，传统系统很难部署。该方法在面对目标不可见等杂乱场景时采取先探索拾取目标后匹配放置的方式执行，能有效部署在非结构化场景中。

在探索拾取目标任务中，最近的数据驱动方法利用学习算法和数据(从人类或物理实验中收集)，将视觉观察直接映射到动作表示。该方法是数据驱动和模型不可知的，学习模型是通过自我监督来训练的。为了减轻杂乱场景带来的不确定性和碰撞，在模型驱动方法和数据驱动方法中都研究了使用不可感知的操作来避免碰撞，如推送。随着推动的增加，推动抓取系统得到了改进。与这些方法类似，该方法学习了推抓协同策略重新排列杂乱场景中的物体以便于无碰撞拾取目标，但进一步考虑了场景复杂性，该方法没有假设目标的初始可见性，而是利用实例推送的优势在具有挑战性的杂乱场景中探索目标实例。

在匹配放置任务中，通常采用以目标对象为中心的表达。在视觉伺服控制方面，人们对目标检测和位姿估计进行了大量研究，这些方法通常需要特定于对象的训练数据，包括关键点和密集描述符在内的替代表示已被证明能够进行类别级概括并表示可变形对象，但仍难以表示具有未知数量的对象(例如，成堆的小对象)或被遮挡对象的场景。该方法在没有以对象为中心的表示的情况下，可以实现样本高效的端到端学习，并证明了该目标放置位姿获取模型能够更好地处理需要精确放置、多步骤排序和闭环视觉反馈的任务，并且能够推广到具有看不见的对象、可变数量的对象和不同形状的对象任务。

发明内容

本发明提供了一种基于强化学习的杂乱场景下机器人自主拾取与放置位姿获取方法，实现在复杂场景中探索出被遮挡目标物体并放置到特定的位姿。

本发明提出的技术方案如下：

一方面，一种基于强化学习的杂乱场景下机器人自主拾取位姿获取方法，包括如下步骤：

S1、获取工作空间中目标随机杂乱堆放且被障碍物遮挡场景的图像；

S2、利用已知的相机外参对S1获得的图像做正交投影以及语义分割，得到彩色、深度高度图以及目标掩码，并对彩色、深度高度图以及目标掩码作等角旋转得到图像作为视觉观察；

利用已知的相机外参对图像做正交投影得到彩色、深度高度图，并使用鲁棒的语义分割模块来注释感兴趣的对象并检测目标的存在，得到目标预测掩码，将彩色高度图、深度高度图以及目标预测掩码做等角度旋转，得到不同角度的高度图像作为视觉观察；

S3、构建并训练基于演员-评论家深度强化学习的目标拾取位姿获取模型；

所述基于演员-评论家深度强化学习的目标拾取位姿获取模型由一个评论家网络和两个演员执行器组成，两个演员执行器分别为基于贝叶斯的演员执行器和基于分类器的演员执行器；

所述目标拾取位姿获取模型训练过程中，以视觉观察作为强化学习状态表示，评论家网络依据状态信息评判所有潜在动作，演员执行器根据所有动作的得分和经验知识执行该状态下的最佳动作，改变当前状态得到下一个状态，以此往复，得到演员执行器的执行动作序列，移除障碍物后，演员执行器下一执行动作对应的位姿，作为最终获取最佳拾取位姿；在每一次迭代训练中视觉观察为输入信息，输出信息为机器人依据当前状态下做出的非抓握动作和/或抓握动作；

潜在动作是指预先设定的像素对应的机器人的规范动作；

一个状态就是一个时刻的视觉观察，非抓握动作是指推送，抓握动作是指抓取，因为每一次动作执行后，场景发生变化，机器人根据变化后的场景执行动作，场景变化的不可预知造成动作是不可预知的，所以机器人是自主的；

S4、将实时获取的图像按照S2处理后得到的视觉观察，输入训练好的目标拾取位姿获取模型，输出一系列不可预知的动作序列，通过不可预知的动作序列重新排列目标周围杂乱的物体来移除障碍物探索目标，直至目标周围空间满足无碰撞抓握时，获取该状态下的执行动作对应的目标最佳拾取位姿。

进一步地，所述评论家网络将视觉观察映射到机器人动作的预期回报来衡量所有可执行动作的Q值，Q值越大说明机器人在该位姿执行动作后得到的奖励回报越大；

演员执行器依据评论家网络得出的所有可执行动作的Q值和预先设定的经验知识选择最佳动作执行：

若语义分割模块输出的预测掩码图像没有包含目标，则判定目标不可见，基于贝叶斯的演员执行器则会依据障碍物先验概率和通用推动作的Q值预测执行最佳探索推送，来探索目标；

反之，若语义分割模块输出的预测掩码图像包含目标，则判定目标可见，基于分类器的演员执行器则会依据抓动作的Q值和推动作的Q值预测协调面向目标的推、抓动作。

对深度高度图进行等角度逆时针旋转16次，得到16个不同角度的高度图，用来表征执行动作的不同方向。

进一步地，所述评论家网络采用深度Q函数强化学习网络，包括卷积层，特征提取层和推/抓网络层(全卷积网络)，所述评论家网络以不同角度的彩色高度图像、深度高度图像和目标预测掩码作为强化学习状态表示并作为输入，输出视觉状态空间到动作空间的逐像素映射，即每一个可执行动作的Q值。

Q值可以有效地评判演员执行器动作的优劣；

进一步地，所述演员执行器通过将评论家网络输出的可执行动作的Q值与经验知识相结合，获取两个演员执行器在不同场景中需要做出的推或抓动作；

基于贝叶斯的演员执行器使用通用推动作Q值分布与障碍物先验概率分布的乘积作为探索动作的先验概率，并在最近的三次目标探索失败动作位姿构建一个具有低峰值的多模态高斯核，核函数表示为上次探索失败动作的概率，每次执行都以上次的探索失败动作概率作为条件得到探索动作后验概率，机器人根据后验概率执行探索动作；

其中，通用推动作Q值分布通过将常数全1掩码送入评论家网络获得，概率常数全1掩码表示将工作空间中的所有对象表示为潜在目标；障碍物先验以概率图的形式对障碍物进行编码得到，障碍物先验概率分布编码了关于障碍物在预期推动方向上边缘的先验；

基于二元分类器的演员执行器将最大推送动作Q值、最大抓取动作Q值、目标边界占用率、目标边界占用阈值和连续抓取失败的次数作为输入，若目标可见，通过基于二元分类器的演员执行器来实现最佳推动作或最佳抓动作，选取并执行。

两个执行器，一个是探索推动作序列，一个是推抓结合动作序列；

第二方面，一种基于强化学习的杂乱场景下机器人自主放置位姿获取方法，其特征在于，首先采用上述一种基于强化学习的杂乱场景下机器人自主拾取位姿获取方法，获取目标最佳拾取位姿；

接着，将获取的放置区域图像以目标最佳拾取位姿为中心进行裁剪获得目标物体局部区域，将目标物体局部区域和放置区域图像进行特征提取后，通过深度特征模板匹配预测目标空间位移，获得目标最佳放置位姿。

进一步地，对放置区域图像进行特征提取前进行预处理，具体是指将放置区域的深度图像做处理，利用深度信息映射到一个三维点云，其中对于每个像素，使用深度值将其映射到相应的三维空间坐标，形成点云数据；然后利用正交投影将生成的三维点云数据映射到二维平面上，其中每个像素代表三维空间中的一个固定窗口，用于对应预先设定的机器人的规范动作。

进一步地，通过深度特征模板匹配预测目标空间位移是指，将目标物体局部区域经过特征提取得到目标局部深度特征后，将目标局部深度特征旋转为多个方向作为模板去匹配放置区域深度特征，将目标局部深度特征逐一叠加到放置区域深度特征，通过卷积运算找出具备最高特征相关性的区域，以匹配出目标最佳放置位姿。

具体实例中为裁剪的局部特征被视为卷积核，将放置区域深度特征和卷积核进行逐元素相乘，并将结果求和，从而生成输出最佳放置局部特征图。

目标局部图像具体为以最佳拾取位姿为中心的大小为c的部分裁剪区域图像，然后提取特征获取目标局部区域特征；

进一步地，所述特征提取网络为双流前馈FCN网络，输入数据为拾取和放置区域的视觉观察信息，所述拾取和放置区域的视觉观察信息包括拾取局部区域深度图像和放置区域深度图像，输出为目标局部区域深度特征和放置区域深度特征；

所述双流前馈FCN网络使用hourglass编码器-解码器架构：每个流都是一个8步长43层的ResNet，包含8步长的12个残差块，在编码器中有3个2步长的卷积层，在解码器中有3个双线性上采样层，然后接一个整体图像的softmax层；在第一个卷积层之后，每个卷积层都配备有扩张层，并在最后一层之前使用ReLU激活函数交叉排列。

选择8步长是为了在最大化每个像素预测感受野覆盖的同时，最小化网络的潜在中层特征的分辨率损失之间取得平衡。

进一步地，特征提取网络在训练过程中，将每个动作分解为两个训练标签，分别用于生成二进制独热像素映射；训练损失为所有独热像素映射与拾取放置预测成功率之间的交叉熵，每个回归通道上使用Huber损失进行训练。

进一步地，所述通过深度特征模板匹配预测目标空间位移，是指将与放置成功相关的像素级数值的相关性计算作为卷积运算，裁剪的局部特征被视为卷积核，将放置区域深度特征和卷积核进行逐元素相乘，并将结果求和，从而生成输出最佳放置局部特征图，放置局部区域的中心为最佳放置位姿。

有益效果

本发明实施例提供了一种杂乱场景下机器人自主拾取与放置位姿获取方法，该方案将相机获取的工作场景视觉信息作为输入，视觉信息输入之前需做预处理，其中利用语义分割模型分割出目标掩码作为目标拾取位姿获取模型的输入的一部分可以有效提高智能体对拾取环境的感知能力，增强拾取位姿获取任务执行的效率和准确性；目标拾取位姿获取模型采用自主设计的一种演员-评论家形式的深度强化学习方法，使得机器人在非结构化场景下无需手工提取特征或设计复杂的规则即可完成高维度状态空间和动作空间的自主移除障碍物探索目标物体位姿问题，增强了系统的灵活性、适应性和泛化能力，如附图11所示，该方案在杂乱场景中目标拾取成功率可达80％以上；目标放置位姿获取模型设计为基于深度特征模板匹配的方案，该方案利用深度学习提取的特征与预先定义的模板进行匹配，可以实现依据拾取位姿对目标放置位姿的高精度定位，从而提高目标放置位姿获取任务的成功率和稳定性。

以上技术方案在仿真环境和现实世界中均进行了实验，以验证所提出方法在挑战性环境中执行的有效性，如附图14所示，在真实环境中相同训练步数下本发明方法放置拾取成功率最高可达90％以上，而其他方法成功率则在50％以下。

附图说明

图1为本发明实施例提供的整体系统示意图；

图2为本发明实施例提供的探索拾取解决方案示意图，其中，(a)为目标被遮挡场景下非目标物体(障碍物)抓动作示例，(b)为探索目标和/或移除障碍物推动作示例，(c)为面向目标物体拾取动作；

图3为本发明实施例提供的评论家网络流程图；

图4为本发明实施例提供的语义分割模型预测可视化示例图，其中，(a)为待分割的障碍物和目标物体随机堆放彩色图示例，(b)为分割出的目标物体示例；

图5为本发明实施例提供的奖励设定可视化示意图，其中，(a)为预定推动向量通过目标掩码示例，(b)为推动作实施后释放目标周围抓取空间示例，(c)为预定抓取向量无遮挡通过目标掩码示例，(d)为目标成功拾取示例；

图6为本发明实施例提供的探索者执行器流程图；

图7为本发明实施例提供的经验知识设定可视化示意图，其中，(a)为障碍物先验设定示例，(b)为预设定的通用推动作概率示例，(c)为多模态高斯核设定示例，(d)为依据后验概率执行的探索推动作示例；

图8为本发明实施例提供的协调执行器流程图；

图9为本发明实施例提供的目标拾取位姿获取模型训练场景示例图；

图10为本发明实施例提供的目标拾取位姿获取模型训练结构示意图；

图11为本发明实施例提供的目标拾取位姿获取模型训练结果示意图

图12为本发明实施例提供的目标放置位姿获取模型流程图；

图13为本发明实施例提供的深度模板匹配流程可视化示意图；

图14为本发明实施例提供的各方法表现对比示意图；

图15为本发明实施例提供的现实实验场景示意图。

具体实施方式

下面将结合附图和具体实例对本发明技术方案做进一步地解释说明。

实施例1

本实施例公开了一种基于强化学习的杂乱场景自主拾取位姿与放置位姿获取方法，具体步骤包括：

S2、利用已知的相机外参对图像做正交投影得到彩色、深度高度图，并使用鲁棒的语义分割模块来注释感兴趣的对象得到预测掩码，通过预测掩码检测目标是否存在，并将彩色高度图、深度高度图以及目标预测掩码做等角度旋转，得到不同角度的高度图像作为视觉观察；

潜在动作是指预先设定的像素对应的机器人的规范动作；

S4、将实时获取的图像按照S2处理后得到的视觉观察，输入训练好的目标拾取位姿获取模型，输出一系列不可预知的动作序列，通过不可预知的动作序列重新排列目标周围杂乱的物体来移除障碍物探索目标，直至目标周围空间满足无碰撞抓握时，获取该状态下的执行动作(具有最大Q值的动作)对应的目标最佳拾取位姿。

因为通过强化学习训练出来的策略是根据环境不断变化的，所以，每一次执行动作后下一状态都不同，所以下一次的动作均属于不可预知的。

如附图1所示，该方案的一个实施例方案具体包括，获取工作空间中杂乱堆放(如附图2-(a)所示)场景的图像，包括RGB彩色图像与RGB-D深度图像，将彩色图像与深度图像输入语义分割模块判断目标的存在并得到目标掩码，将彩色图像、深度图像与目标掩码正交投影为相应的高度图作为强化学习状态表示，并不断输入目标拾取位姿获取模型来获取一系列不可预知的动作，通过这一系列不可预知的动作来探索目标并重新排列周围杂乱的物体来获取目标拾取位姿，如附图2-(b，c)所示。将目标拾取位姿与放置区域图像一同输入目标放置位姿获取模型，目标放置位姿获取模型提取裁剪目标局部区域和放置区域特征，将目标局部区域特征与放置区域特征做深度特征模板匹配以输出最佳放置位姿预测。最后使用目标拾取位姿预测和放置位姿预测参数化机器人操作，执行动作完成拾取放置任务。

本发明提出一种以演员-评论家深度强化学习框架解决目标被遮挡的情况下探索预测最佳拾取位姿，其中通过动作价值函数来构建评论家网络，该网络根据视觉输入以及设定的奖励机制评判执行器动作的得分Q_p和Q_g。演员执行器接收评论家网络的期望回报Q(Q_p、Q_g)和经验知识D在不同场景中做出动作改变环境，如目标不可见则演员执行器执行推动作探索目标，如果目标可见则基于分类器的演员执行器协调挑选推动作和抓动作，机械臂根据挑选出的动作再依据评论家网络在该动作的得分Q选择推动动作或抓取动作，即智能体拾取策略π＝f(Q,D)，当目标能被无碰撞抓取时，输出最佳拾取位姿

根据拾取策略指定动作得出最佳目标拾取位姿后，裁剪出目标为中心的局部区域将目标局部区域与放置区域RGB-D图像投影到3D点云，然后渲染到正交投影，提取来自以/>为中心的部分裁剪区域和放置区域的像素级特征，然后经过模板匹配覆盖在以候选位姿姿态/>为中心的裁剪区域/>的顶部，其中o_t是拾取前的放置区域的观测。目标放置位姿获取模型在一组模板姿态/>上匹配局部裁剪区域/>以探索其最佳放置位姿/>即具有最高特征相关性的/>最后，机器人根据/>和/>执行拾取放置动作A_t，并且/>和/>属于每一个像素都有可能执行的规范拾取放置动作/>

该实施例的重要内容在于评论家网络设计、演员执行器设计与目标放置位姿获取过程设计：

1.评论家网络设计

输入：拾取区域RGB图像和RGB-D图像

输出：推动映射图Q_p和抓取映射图Q_g

评论家网络采用深度Q函数强化学习网络，包括卷积层，特征提取层和推/抓网络层(全卷积网络)，所述评论家网络以不同角度的彩色高度图像、深度高度图像和目标预测掩码作为强化学习状态表示并作为输入，输出视觉状态空间到动作空间的逐像素映射，即每一个可执行动作的Q值。

本实施例将评论家网络建模为马尔可夫决策过程，在状态s_t中执行动作a_t，然后转换到状态s_t+1，并接收相应的奖励R(s_t,a_t,s_t+1)。评论家网络的目标是学习一个行动价值函数用于预测在策略π下状态s下推动或抓住执行动作a的价值(Q值)映射Q。

如附图3所示，首先固定安装的RGB-D相机捕捉预定义的44.8cm×44.8cm大小的拾取区域图像(RGB和RGB-D)，RGB图像和RGB-D图像传递到经过预训练的语义分割模块中以得到目标掩码。然后，RGB、RGB-D和目标掩码图像在重力方向上依据已知的相机外部参数做正交投影，以构建RGB彩色高度图c_t、RGB-D深度高度图d_t和目标掩码高度图m_t，将每个状态s_t表示为在时间t下的RGB-D-mask高度图，即s_t＝(c_t,d_t,m_t)。RGB高度图、RGB-D深度高度图和掩码高度图分别等角度逆时针旋转16得到16个不同角度的RGB-D-mask高度图来代表不同运动角度，RGB-D-mask高度图分别被送到相应的2层残差网络中用于特征提取，输出特征输入在ImageNet上预训练的DenseNet-121进行像素级特征提取，输出像素级特征图。推动网络和抓取网络/>将像素级特征图作为输入，以输出推动映射图Q_p和抓取映射图Q_g，Q_p和Q_g中的每个像素都参数化了原始的推动和抓取，因此存在从Q_p和Q_g到原始运动的直接映射，其中每个2D像素通过深度高度图映射到3D动作执行位姿，所以推动映射图Q_p和抓取映射图Q_g能有效评判执行动作的得分。

在本实施例中，使用Light-Weight RefineNet作为语义分割模块，并在本实施例的数据集上进行预训练，包括通过合成生成包含所有目标候选实例、对象的姿态变化以及带有少量标记数据的遮挡的训练数据集。语义分割预训练模型能够稳健地分割杂乱的场景，如附图4所示。最终如分割出整体和/或部分目标则表示目标可见，如没有分割出整体和/或部分目标则表示目标不可见。

推动网络和抓取网络/>具有相同全卷积网络结构，具有一个三层残差网络，后采用双线性进行上采样，3层的残差网络来学习图像特征，然后通过双线性上采样将特征图放大，以实现输入图像的映射重建。

在评论家网络进行训练时，通过最小化时间差异来定义误差δ_t：

采用Huber损失函数进行训练：

其中，θ_t是评论家网络在时间t的参数，目标网络参数在迭代之间保持固定，在时间t时刻，仅通过执行运动基元的单个像素传递梯度，而所有其他像素以0损失反向传播。Q(θ_t；s_t,a_t)表示在状态s_t下采取动作a_t的Q值、a为所有动作集合、γ为折扣因子、下一状态s_t+1采取动作a_t的Q值，/>代表状态s_t执行动作a_t到状态s_t+1所获得的奖励。折扣因子的取值范围为0～1，它权衡了执行动作当前收益与未来收益，本实施例取为0.5。

评论家网络的奖励方案分为行动前阶段和行动后阶段，并计算选取最大的一个作为奖励。对于行动前阶段奖励，检查行动是否是面向目标的；对于行动后阶段奖励，如果执行动作达到预期效果，则给予奖励。动作前阶段的奖励被设计成可以帮助优化像素级别的学习过程，而动作后阶段的奖励可能会相对稀疏，只在达到特定条件时才给予奖励。

如果预期的推动向量通过目标掩码m_t(如附图5(a)所示)，则设定奖励R_P(s_t,s_t+1)＝0.25；如果推动后目标物体周围出现了更多空间(如附图5(b)所示)，设定奖励R_P(s_t,s_t+1)＝0.5。围绕m_t扩张以构建目标边界m_b的掩码(显示为浅红色掩码)，并且如果边界占用值o_b(定义为m_b中高于地面以上高度的像素数)减少某个阈值n_b，则说明检测到空间增加,则说明推动运动释放了目标周围的空间(如附图5(c)所示)，因此给出了0.5的奖励。类似地，那些在m_t中具有预期抓取位姿的抓取，指定R_g(s_t,s_t+1)＝0.5，如果目标被成功抓取(如附图5(d)所示)，则指定R_g(s_t,s_t+1)＝1。

为了处理稀疏的奖励，例如抓握，通过事后优先经验回放来训练评论家网络，具体为如果在时间t抓住了非目标对象，保存执行的动作a_t、状态s_t、被抓住对象的掩码m'_t和事后标记的奖励用于进一步的经验回放训练。

2.演员执行器设计

输入：推动映射图Q_p和抓取映射图Q_g

输出：机器人执行动作和最佳拾取位姿

为应对复杂场景中，目标被遮挡，演员家设计为探索和协调执行器。

如附图6所示，当目标不可见时，探索执行器将评论家网络输出的推动映射图Q_p和障碍物先验P_c作为输入，输出最佳探索动作。P_c的设定方式通过以概率图的形式编码关于障碍物在预期推动方向上边缘的先验获得((如附图7-(a))所示)。为了在拾取区域中有效地探索目标，将常数全1掩码送入推动网络以获得的通用推动作概率图Q_p，常数全1掩码表示将工作空间中的所有对象表示为潜在目标(如附图7-(b))。使用通用推动作概率图Q_p和障碍物的先验P_c的乘积作为探索动作的先验概率，为了避免机器人陷入某个局部区域，同时考虑过去的失败经验，在最近的三次失败动作位姿构建了一个具有低峰值的多模态高斯核K_G，核函数K_G表示上次探索失败动作的概率(如附图7-(c))。探索执行动作策略π_e(如附图7-(d))根据后验概率执行：

其中*表示哈达玛乘积或者叫做分素乘积(逐元素乘积)，a表示所有探索动作集合。最终探索执行器根据执行动作策略π_e执行动作。

障碍物先验的编码方案方式，将高度图沿一个固定轴平移25个像素(大约是夹爪关闭宽度的两倍)，然后记录原始高度图和平移后高度图之间具有足够深度差异的像素为1，否则为0。然后，将该二进制图使用一个25x25的全1核进行滤波，得到一个逐像素的概率图。与Q图一样，高度图也旋转16个方向，构造16个概率图。

如附图8所示，当目标可见时，基于分类器的协调器执行面向目标的动作(推送和抓取)，不同于贪婪确定性策略，本方法使用一个动作分类器以协调推送和抓取。二元分类器将最大推送价值q_p＝maxQ_p、最大抓取价值q_g＝maxQ_g、目标边界占用率目标边界占用阈值/>和连续抓取失败的次数c_g作为输入，q_p和q_g可以在某种程度上反映实例抓取的成功率，将经验知识(r_b、n_b和c_g)作为分类器的输入，原因是1)r_b和n_b是目标周围障碍物的指标，网络很难直接学习；2)如果机器人持续抓握失败了，应该鼓励推动。

在每一迭代训练步数中，如果成功抓取目标，程序会自动将成功概率数据标记为1，如果抓取位姿在掩码m_t内但抓取失败表示目标周围有密集障碍物，则程序会自动将成功概率数据标记为0。协调执行器根据预测的概率选择动作类型，执行对应动作Q值最大的动作。将分类器表示为动作分类器f_a，协调执行器策略π_c被表述为：

其中，f_a被建模为三个全连接层组成的函数逼近器，使用批量归一化层(BN)和激活函数层(ReLU)，通过权重来表示输入变量的影响性，并通过ReLU激活函数丢弃不重要的变量。

协调执行器使用二元交叉熵损失来进行训练：

其中，y是分类器预测值，是真实的标签。

训练过程为随机选择n个目标候选实例(即，可由语义分割模块检测)和m个普通对象(障碍物)，随机生成在拾取区域工作空间(如附图9所示)，机器人需要随机选择一个目标进行抓取，一旦成功地获取该目标，就指定新的目标。如果工作空间中没有目标候选者，则物体会再次随机放置，反复迭代训练。

多阶段学习被用于训练目标拾取位姿获取模型，如附图10所示。在第一阶段，只训练评论家网络以达到良好的初始化状态，机器人在杂乱的环境∈下执行贪婪策略π_∈。随后，根据推动或抓取的难易程度，逐渐增加普通物体的数量m，一开始设置m＝3来简要学习推或抓。然后m增加到8，并且切换为协调执行器学习在密集杂波中的协调策略π_c，与此同时，评论家网络仍在接受训练，即从微调至/>在第一阶段(前1000轮迭代)，只有评论家网络训练策略π_∈探索并达到高实例抓取成功率(定义为/>)。在迭代1000轮以后，开始训练协调执行器策略π_c，总共训练迭代3000次，训练结果如附图11所示。训练出的模型根据一系列不可预知的推动作探索目标，并使用一系列不可预知的推动作和抓动作将目标周围障碍物移除获取目标最佳拾取位姿/>

3.目标放置位姿获取过程设计

输入：目标最佳拾取位姿和放置区域图像

输出：目标最佳放置位姿

目标放置位姿获取过程，使用全卷积网络(FCN)来对与拾取成功相关的动作值函数Q_p((u,v)|o_t)进行建模：

视觉观察o_t是场景RGB-D图像重建的投影图像，将其定义在顺序重排任务的时间步长t的像素{(u，v)}的规则网格上，通过相机到机器人的参数校准，将o_t中的每个像素对应于该位姿的拾取放置动作：由两个像素级特征嵌入ψ(·)和φ(·)的互相关进行模板匹配得到：

其中，是二维坐标，/>是一个与放置成功相关的动作值函数，也是由全卷积网络(FCN)进行建模，其中/>覆盖了所有可能放置姿势的空间。FCN本质上是平移等变的，如果场景中要拾取的对象被平移，那么拾取姿势也会跟着平移。

具体来说，如附图12所示，对于拾取放置任务，视觉观察o_t是拾取放置区域的自上而下正投影视图，使用已知的相机内参和外参校准相机拍摄的480×640RGB-D图像生成。自上而下的视觉观察o_t的像素分辨率为160×320，每个像素代表工作空间中三维空间的3.125×3.125mm垂直列。

本实施例中全卷积网络为双流前馈型全卷积网络(FCN)，每个流都是一个8步长43层的ResNet，但最后一层没有非线性激活层。它以目标拾取位姿和拾取放置区域视觉观察为输入，输出最佳放置位姿/>目标放置位姿获取在训练过程中，将每个动作分解为两个训练标签：/>和/>分别用于生成二进制独热像素映射/>和对于给定的拾取标签，对所有可能的像素位置进行求和，并考虑每个位置拾取操作的可能性，得到的期望值/>对于给定的放置标签，对所有可能的像素位置进行求和，并考虑每个位置放置操作的可能性，得到的期望值/>这两个期望值用于计算训练损失/>是拾取操作的交叉熵与放置操作的交叉熵之差：

在每个回归通道上使用Huber损失进行训练，这种损失能够学习多模态非各向同性空间动作分布。

将以目标拾取位姿为中心的大小为c的局部区域提取出的目标局部特征与放置区域提取出的场景匹配特征图φ(o_t)交叉相关以输出与放置成功相关的像素级数值：/> 从而得出最佳放置位姿/>

裁剪出目标为中心的局部区域将目标局部区域与放置区域RGB-D图像投影到3D点云，然后渲染到正交投影，提取来自以/>为中心的部分裁剪区域和放置区域的像素级特征，然后经过模板匹配覆盖在以候选位姿姿态/>为中心的裁剪区域/>的顶部，其中o_t是拾取前的放置区域的观测。目标放置位姿获取模型在一组模板姿态/>上匹配局部裁剪区域/>以探索其最佳放置位姿/>即具有最高特征相关性的/>如附图13所示。

综上所述，机器人接收最佳拾取位姿和最佳放置位姿，利用机器人运动学进行动作解算与规划，完成拾取放置任务。为评估该方法的有效性，使用10^-5的固定学习速率，在相同的模拟环境中训练Form2Fit、ConvMLP以及Transporter(本公开发明的方法)。如附图14所示，本发明实施例提供的方法通常收敛速度更快，在3000次训练迭代后就有较好表现，而其他两个方法从收敛速度和拾取放置成功率都远不及本方法。在现实世界中，实验使用了通用机器人UR5、Linux PC、RG2夹爪和深度摄像机(静态安装在工作站上方)，Photoneo相机提供深度(0.1毫米额定深度精度)和灰度红外图像，均在1032×772分辨率。Kinect相机提供了深度和1280×720分辨率的彩色RGB图像。为了在机器人坐标系内校准相机，使用了一个两步程序。首先，通过捕获一个不同方向的大型平面的二维码面板的多幅图像来校准相机的内部，使用OpenCV来计算相机的内部参数。其次，为了校准外部图像，将二维码标签附加到UR5腕关节上，并以随机的末端执行器姿态捕获机器人的多张图像。然后利用这些图像来求解机器人底座的位姿以及二维码标签对其各自关节的偏移量。嵌入了该机器人的Linux系统可以收集机器人和摄像头的数据，如附图15所示。在真实环境中，本发明实施例提供的方法在目标不可见的环境下使用夹爪末端执行器表现达85.5％拾取放置成功率。

基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种杂乱场景下机器人自主拾取位姿获取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述评论家网络将视觉观察映射到机器人动作的预期回报来衡量所有可执行动作的Q值，Q值越大说明机器人在该位姿执行动作后得到的奖励回报越大；

3.根据权利要求1所述的方法，其特征在于，所述评论家网络采用深度Q函数强化学习网络，包括卷积层，特征提取层和推/抓网络层，所述评论家网络以不同角度的彩色高度图像、深度高度图像和目标预测掩码作为强化学习状态表示并作为输入，输出视觉状态空间到动作空间的逐像素映射，即每一个可执行动作的Q值。

4.根据权利要求1所述的方法，其特征在于，所述演员执行器通过将评论家网络输出的可执行动作的Q值与经验知识相结合，获取两个演员执行器在不同场景中需要做出的推或抓动作；

5.一种杂乱场景下机器人自主放置位姿获取方法，其特征在于，首先采用权利要求1-4任一项所述的方法，获取目标最佳拾取位姿；

6.根据权利要求5所述的方法，其特征在于，对放置区域图像进行特征提取前进行预处理，具体是指将放置区域的深度图像做处理，利用深度信息映射到一个三维点云，其中对于每个像素，使用深度值将其映射到相应的三维空间坐标，形成点云数据；然后利用正交投影将生成的三维点云数据映射到二维平面上，其中每个像素代表三维空间中的一个固定窗口，用于对应预先设定的机器人的规范动作。

7.根据权利要求5所述的方法，其特征在于，通过深度特征模板匹配预测目标空间位移是指，将目标物体局部区域经过特征提取得到目标局部深度特征后，将目标局部深度特征旋转为多个方向作为模板去匹配放置区域深度特征，将目标局部深度特征逐一叠加到放置区域深度特征，通过卷积运算找出具备最高特征相关性的区域，以匹配出目标最佳放置位姿。

8.根据权利要求5所述的方法，其特征在于，所述特征提取网络为双流前馈FCN网络，输入数据为拾取和放置区域的视觉观察信息，所述拾取和放置区域的视觉观察信息包括拾取局部区域深度图像和放置区域深度图像，输出为目标局部区域深度特征和放置区域深度特征；

9.根据权利要求8所述的方法，其特征在于，特征提取网络在训练过程中，将每个动作分解为两个训练标签，分别用于生成二进制独热像素映射；训练损失为所有独热像素映射与拾取放置预测成功率之间的交叉熵，每个回归通道上使用Huber损失进行训练。

10.根据权利要求7所述的方法，其特征在于，所述通过深度特征模板匹配预测目标空间位移，是指将与放置成功相关的像素级数值的相关性计算作为卷积运算，裁剪的局部特征被视为卷积核，将放置区域深度特征和卷积核进行逐元素相乘，并将结果求和，从而生成输出最佳放置局部特征图，放置局部区域的中心为最佳放置位姿。