CN111428719B

CN111428719B - 一种物体姿态估计方法、装置及电子设备和存储介质

Info

Publication number: CN111428719B
Application number: CN202010254967.8A
Authority: CN
Inventors: 刘文印; 梁达勇; 陈俊洪; 朱展模; 黄可思; 莫秀云
Original assignee: Guangzhou Kebo Ruishi Technology Co ltd
Current assignee: Guangzhou Kebo Ruishi Technology Co.,Ltd.
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2021-04-06
Anticipated expiration: 2040-04-02
Also published as: CN111428719A

Abstract

本申请公开了一种物体姿态估计方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取目标物体的ROI裁剪图，从ROI裁剪图中提取RGB特征；通过多层感知机对RGB特征进行整合以便得到全局特征，并对RGB特征和全局特征进行特征对接得到像素特征；利用回归网络模型预测每个像素特征对应的四元数矩阵和平移矩阵，并选取最优四元数矩阵和最优平移矩阵；利用最优平移矩阵对应的目标像素特征的点云特征微调最优平移矩阵，并利用相机的内参将最优四元数矩阵转换为旋转矩阵；基于旋转矩阵和微调后的最优平移矩阵生成目标物体的姿态估计。本申请提供的物体姿态估计方法，提高了物体姿态估计的鲁棒性。

Description

一种物体姿态估计方法、装置及电子设备和存储介质

技术领域

本申请涉及机器人技术领域，更具体地说，涉及一种物体姿态估计方法、装置及一种电子设备和一种计算机可读存储介质。

背景技术

基于RGB-D的物体6DoF姿态估计是现实环境中机器人操作应用的核心步骤。机器人必须获取物体在三维空间的6D姿态，才能根据物体姿态调整机械手抓取的角度与位置，从而实现准确抓取。在相关技术中，由于场景环境恶劣、摄像机采集信息质量很差、数据严重缺失的情况下，至今所提出的方法框架未能整合可见的数据特征进行姿态估计。

因此，如何降低视觉信息对于物体姿态估计的受干扰程度、提高物体姿态估计的鲁棒性是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种物体姿态估计方法、装置及一种电子设备和一种计算机可读存储介质，降低了视觉信息对于物体姿态估计的受干扰程度、提高了物体姿态估计的鲁棒性。

为实现上述目的，本申请提供了一种物体姿态估计方法，包括：

获取目标物体的ROI裁剪图，从所述ROI裁剪图中提取RGB特征；

通过多层感知机对所述RGB特征进行整合以便得到全局特征，并对所述RGB特征和所述全局特征进行特征对接得到像素特征；

利用回归网络模型预测每个所述像素特征对应的四元数矩阵和平移矩阵，并选取最优四元数矩阵和最优平移矩阵；

利用所述最优平移矩阵对应的目标像素特征的点云特征微调所述最优平移矩阵，并利用相机的内参将所述最优四元数矩阵转换为旋转矩阵；

基于所述旋转矩阵和微调后的最优平移矩阵生成所述目标物体的姿态估计。

其中，所述获取目标物体的ROI裁剪图，包括：

利用Mask R-CNN网络通过语义分割得到目标物体的ROI裁剪图。

其中，所述利用回归网络模型预测每个所述像素特征对应的四元数矩阵和平移矩阵，并选取最优四元数矩阵和最优平移矩阵，包括：

利用回归网络模型预测每个所述像素特征对应的四元数矩阵、平移矩阵和矩阵评分；

选取所述矩阵评分最高的四元数矩阵和平移矩阵为最优四元数矩阵和最优平移矩阵。

其中，还包括：

获取所述目标物体的视图特征；

相应的，对所述RGB特征和所述全局特征进行特征对接得到像素特征，包括：

对所述RGB特征、所述全局特征和所述视图特征进行特征对接得到像素特征。

其中，所述获取所述目标物体的视图特征，包括：

通过物体三维合成模型生成预设数量的所述目标物体的视图，从所述视图中提取所述目标物体的视图特征。

为实现上述目的，本申请提供了一种物体姿态估计装置，包括：

提取模块，用于获取目标物体的ROI裁剪图，从所述ROI裁剪图中提取RGB特征；

对接模块，用于通过多层感知机对所述RGB特征进行整合以便得到全局特征，并对所述RGB特征和所述全局特征进行特征对接得到像素特征；

预测模块，用于利用回归网络模型预测每个所述像素特征对应的四元数矩阵和平移矩阵，并选取最优四元数矩阵和最优平移矩阵；

微调模块，用于利用所述最优平移矩阵对应的目标像素特征的点云特征微调所述最优平移矩阵；

转换模块，用于利用相机的内参将所述最优四元数矩阵转换为旋转矩阵；

生成模块，用于基于所述旋转矩阵和微调后的最优平移矩阵生成所述目标物体的姿态估计。

其中，还包括：

获取模块，用于获取所述目标物体的视图特征；

相应的，所述对接模块包括：

整合单元，用于通过多层感知机对所述RGB特征进行整合以便得到全局特征；

对接单元，用于对所述RGB特征、所述全局特征和所述视图特征进行特征对接得到像素特征。

其中，所述获取模块具体为通过物体三维合成模型生成预设数量的所述目标物体的视图，从所述视图中提取所述目标物体的视图特征的模块。

为实现上述目的，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述物体姿态估计方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述物体姿态估计方法的步骤。

通过以上方案可知，本申请提供的一种物体姿态估计方法，包括：获取目标物体的ROI裁剪图，从所述ROI裁剪图中提取RGB特征；通过多层感知机对所述RGB特征进行整合以便得到全局特征，并对所述RGB特征和所述全局特征进行特征对接得到像素特征；利用回归网络模型预测每个所述像素特征对应的四元数矩阵和平移矩阵，并选取最优四元数矩阵和最优平移矩阵；利用所述最优平移矩阵对应的目标像素特征的点云特征微调所述最优平移矩阵，并利用相机的内参将所述最优四元数矩阵转换为旋转矩阵；基于所述旋转矩阵和微调后的最优平移矩阵生成所述目标物体的姿态估计。

本申请提供的物体姿态估计方法，表征像素点深度信息的点云特征通过微调平移矩阵的方式进行融合，优化深度信息的融入方式，降低深度信息的预处理难度，简化了分析步骤。首先对局部的RGB特征与全局特征进行融合，再利用回归网络模型进行预测，提升了特征处理速度。由此可见，本申请提供的物体姿态估计方法，提高了物体姿态估计的鲁棒性，即便场景环境恶劣，摄像机采集信息质量很差，仍能实现姿态估计。本申请还公开了一种物体姿态估计装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为根据一示例性实施例示出的一种物体姿态估计方法的流程图；

图2为根据一示例性实施例示出的一种embedding特征提取结构图；

图3为根据一示例性实施例示出的一种6D姿态回归网络的结构图；

图4为根据一示例性实施例示出的另一种物体姿态估计方法的流程图；

图5为根据一示例性实施例示出的一种物体视图优化结构图；

图6为根据一示例性实施例示出的一种物体姿态估计装置的结构图；

图7为根据一示例性实施例示出的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种物体姿态估计方法，降低了视觉信息对于物体姿态估计的受干扰程度、提高了物体姿态估计的鲁棒性。

参见图1，根据一示例性实施例示出的一种物体姿态估计方法的流程图，如图1所示，包括：

S101：获取目标物体的ROI裁剪图，从所述ROI裁剪图中提取RGB特征；

本实施例的目的在于对目标物体在三维空间下的6D姿态进行估计。6D姿态表示从物体坐标系到摄像机坐标系下的刚性变换，用[R|T]表示，其中R表示旋转矩阵，T表示平移矩阵。旋转矩阵决定物体在相机坐标系下的旋转角度，而平移矩阵决定了三维平移距离。

在本步骤中，利用Mask R-CNN网络通过语义分割得到目标物体的ROI(中文全称：感兴趣区域，英文全称：region of interest)裁剪图，RGB特征提取网络的目标是根据ROI裁剪图提取出每个选取像素的特征。在多物体遮挡的环境下，通过语义分割得到的ROI裁剪图通常会包含其他物体特征以及背景信息。特征提取结构(embedding)如图2所示，包括Resnet-18特征编码器、根据Pyramid Pooling Module(PPM)设计的解码器和CNN(中文全称：卷积神经网络，英文全称：Convolutional Neural Networks)结构。

S102：通过多层感知机对所述RGB特征进行整合以便得到全局特征，并对所述RGB特征和所述全局特征进行特征对接得到像素特征；

在本步骤中，经过RGB特征提取网络后，将特定物体的相关RGB特征(局部特征)通过多层感知机进行整合，作为物体的全局特征，然后通过简单的特征对接融合物体的局部特征以及全局特征。

S103：利用回归网络模型预测每个所述像素特征对应的四元数矩阵和平移矩阵，并选取最优四元数矩阵和最优平移矩阵；

6D姿态回归网络的目标是回归旋转矩阵、平移矩阵以及矩阵评分。6D姿态回归网络的结构及相关参数设置如图3所示，对于每个像素特征，网络都预测一个四元数矩阵、一个未经优化的平移矩阵以及对应的矩阵评分，最后再根据矩阵评分选出最优矩阵。即本步骤可以包括：利用回归网络模型预测每个所述像素特征对应的四元数矩阵、平移矩阵和矩阵评分；选取所述矩阵评分最高的四元数矩阵和平移矩阵为最优四元数矩阵和最优平移矩阵。

S104：利用所述最优平移矩阵对应的目标像素特征的点云特征微调所述最优平移矩阵，并利用相机的内参将所述最优四元数矩阵转换为旋转矩阵；

在本实施例中，表征像素点深度信息的点云特征在本步骤中结合到损失函数中，具体表现在平移矩阵上，

其中pi代表了对应像素特征的点云特征，以此融合深度信息，对平移矩阵进行微调。另外，在本步骤中，还需要利用相机的内参将最优四元数矩阵转换为旋转矩阵。

S105：基于所述旋转矩阵和微调后的最优平移矩阵生成所述目标物体的姿态估计。

本申请实施例提供的物体姿态估计方法，表征像素点深度信息的点云特征通过微调平移矩阵的方式进行融合，优化深度信息的融入方式，降低深度信息的预处理难度，简化了分析步骤。首先对局部的RGB特征与全局特征进行融合，再利用回归网络模型进行预测，提升了特征处理速度。由此可见，本申请实施例提供的物体姿态估计方法，提高了物体姿态估计的鲁棒性，即便场景环境恶劣，摄像机采集信息质量很差，仍能实现姿态估计。

本申请实施例公开了一种物体姿态估计方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图4，根据一示例性实施例示出的另一种物体姿态估计方法的流程图，如图4所示，包括：

S201：利用Mask R-CNN网络通过语义分割得到目标物体的ROI裁剪图；

S202：通过多层感知机对所述RGB特征进行整合以便得到全局特征；

S203：获取所述目标物体的视图特征；

为了进一步提高物体数据丢失时模型的鲁棒性，增强物体外观信息的特征表示，本实施例在像素特征中融入了物体视图特征。具体的，本步骤可以包括：通过物体三维合成模型生成预设数量的所述目标物体的视图，从所述视图中提取所述目标物体的视图特征。在具体实施中，通过物体三维合成模型可以生成12张物体视图作为像素融合网络的附加嵌入特征。对于每一个物体模型截取规格可以为12×120×120的物体视图，截取角度可以为0度到300度的方位角以及-30度和30度的仰角。当获取不同方向上的物体形状和外观信息时，这些合成模型视图能够弥补物体像素融合特征的不足，从而降低严重遮挡场景中缺少外观信息的影响。

S204：对所述RGB特征、所述全局特征和所述视图特征进行特征对接得到像素特征；

如图5所示，目标物体的所有视图特征都是通过上述的RGB特征提取网络和融合网络进行融合与传递。其中，物体视图的embedding结构跟RGB特征提取的结构相似，仅增加了拼接层整合连接12层视图特征。最后，将视图特征、RGB特征、全局特征进行融合作为特征输入继续完成6D姿态回归阶段。在模型训练以及测试过程中，物体模型视图可以预先离线进行特征提取的，以节省模型运行时间。

S205：利用回归网络模型预测每个所述像素特征对应的四元数矩阵、平移矩阵和矩阵评分，选取所述矩阵评分最高的四元数矩阵和平移矩阵为最优四元数矩阵和最优平移矩阵；

S206：利用所述最优平移矩阵对应的目标像素特征的点云特征微调所述最优平移矩阵，并利用相机的内参将所述最优四元数矩阵转换为旋转矩阵；

S207：基于所述旋转矩阵和微调后的最优平移矩阵生成所述目标物体的姿态估计。

由此可见，本实施例提供了一种基于多特征融合的6D姿态估计神经网络模型，融合了RGB信息、深度信息以及物体模型信息，巧妙融合了物体的模型视图特征，极大提升了物体外观信息的特征表示。同时，本实施例不需要耗时的后期优化步骤，也不需要增加点云特征提取的PointNet分支结构，大大加快了计算效率。

下面对本申请实施例提供的一种物体姿态估计装置进行介绍，下文描述的一种物体姿态估计装置与上文描述的一种物体姿态估计方法可以相互参照。

参见图6，根据一示例性实施例示出的一种物体姿态估计装置的结构图，如图6所示，包括：

提取模块601，用于获取目标物体的ROI裁剪图，从所述ROI裁剪图中提取RGB特征；

对接模块602，用于通过多层感知机对所述RGB特征进行整合以便得到全局特征，并对所述RGB特征和所述全局特征进行特征对接得到像素特征；

预测模块603，用于利用回归网络模型预测每个所述像素特征对应的四元数矩阵和平移矩阵，并选取最优四元数矩阵和最优平移矩阵；

微调模块604，用于利用所述最优平移矩阵对应的目标像素特征的点云特征微调所述最优平移矩阵；

转换模块605，用于利用相机的内参将所述最优四元数矩阵转换为旋转矩阵；

生成模块606，用于基于所述旋转矩阵和微调后的最优平移矩阵生成所述目标物体的姿态估计。

本申请实施例提供的物体姿态估计装置，表征像素点深度信息的点云特征通过微调平移矩阵的方式进行融合，优化深度信息的融入方式，降低深度信息的预处理难度，简化了分析步骤。首先对局部的RGB特征与全局特征进行融合，再利用回归网络模型进行预测，提升了特征处理速度。由此可见，本申请实施例提供的物体姿态估计装置，提高了物体姿态估计的鲁棒性，即便场景环境恶劣，摄像机采集信息质量很差，仍能实现姿态估计。

在上述实施例的基础上，作为一种优选实施方式，所述提取模块601具体为利用Mask R-CNN网络通过语义分割得到目标物体的ROI裁剪图，从所述ROI裁剪图中提取RGB特征的模块。

在上述实施例的基础上，作为一种优选实施方式，所述预测模块603包括：

预测单元，用于利用回归网络模型预测每个所述像素特征对应的四元数矩阵、平移矩阵和矩阵评分；

选取单元，用于选取所述矩阵评分最高的四元数矩阵和平移矩阵为最优四元数矩阵和最优平移矩阵。

在上述实施例的基础上，作为一种优选实施方式，还包括：

获取模块，用于获取所述目标物体的视图特征；

相应的，所述对接模块602包括：

在上述实施例的基础上，作为一种优选实施方式，所述获取模块具体为通过物体三维合成模型生成预设数量的所述目标物体的视图，从所述视图中提取所述目标物体的视图特征的模块。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图7，本申请实施例提供的一种电子设备700的结构图，如图7所示，可以包括处理器11和存储器12。该电子设备700还可以包括多媒体组件13，输入/输出(I/O)接口14，以及通信组件15中的一者或多者。

其中，处理器11用于控制该电子设备700的整体操作，以完成上述的物体姿态估计方法中的全部或部分步骤。存储器12用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件13可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器12或通过通信组件15发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口14为处理器11和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件15用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件15可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的物体姿态估计方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述物体姿态估计方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器12，上述程序指令可由电子设备700的处理器11执行以完成上述的物体姿态估计方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种物体姿态估计方法，其特征在于，包括：

获取目标物体的ROI裁剪图，从所述ROI裁剪图中提取RGB特征；

2.根据权利要求1所述物体姿态估计方法，其特征在于，所述获取目标物体的ROI裁剪图，包括：

利用Mask R-CNN网络通过语义分割得到目标物体的ROI裁剪图。

3.根据权利要求1所述物体姿态估计方法，其特征在于，所述利用回归网络模型预测每个所述像素特征对应的四元数矩阵和平移矩阵，并选取最优四元数矩阵和最优平移矩阵，包括：

4.根据权利要求1至3中任一项所述物体姿态估计方法，其特征在于，还包括：

获取所述目标物体的视图特征；

5.根据权利要求4所述物体姿态估计方法，其特征在于，所述获取所述目标物体的视图特征，包括：

6.一种物体姿态估计装置，其特征在于，包括：

提取模块，用于获取目标物体的ROI裁剪图，并从所述ROI裁剪图中提取RGB特征；

7.根据权利要求6所述物体姿态估计装置，其特征在于，还包括：

获取模块，用于获取所述目标物体的视图特征；

相应的，所述对接模块包括：

8.根据权利要求7所述物体姿态估计装置，其特征在于，所述获取模块具体为通过物体三维合成模型生成预设数量的所述目标物体的视图，从所述视图中提取所述目标物体的视图特征的模块。

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述物体姿态估计方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述物体姿态估计方法的步骤。