CN112837367B

CN112837367B - 语义分解式物体位姿估计方法及系统

Info

Publication number: CN112837367B
Application number: CN202110113620.6A
Authority: CN
Inventors: 季向阳; 李志刚
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-11-25
Anticipated expiration: 2041-01-27
Also published as: CN112837367A

Abstract

本发明公开了一种语义分解式物体位姿估计方法及系统，所述方法包括以下步骤：S1，在二维图像中检测和提取目标物体；S2，对目标物体进行多层次的语义分解；S3，通过网络模块对语义分解后的目标物体进行训练，得到位姿结果。根据本发明的语义分解式物体位姿估计方法，首先通过对目标物体进行多层次的语义分解，然后再对物体位姿进行估计，从而达到更好的位姿估计效果。

Description

语义分解式物体位姿估计方法及系统

技术领域

本发明涉及物体位姿估计技术领域，尤其是涉及一种语义分解式物体位姿估计方法及系统。

背景技术

目前，在物体位姿估计领域，对于利用RGB图片来估计物体的位姿这一问题,通常直接在RGB图像上训练模型，来提取RGB图像中的物体的特征，并根据提取的特征来识别物体的位姿。

现有方法直接利用原始的RGB图像来估计物体的位姿，然而RGB图片容易受到噪声、模糊、遮挡、光照变化等外界环境因素的影响，这对位姿估计模型的效果造成很大影响。另外，当没有真实的训练数据，只依赖于人工合成图像对模型进行训练时，人工合成图像和真实图像在RGB的表示方式上存在较大差异，这使得在人工合成图像上训练的模型往往在真实场景使用时效果很差。因此，上述技术存在改进空间。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种语义分解式物体位姿估计方法，所述语义分解式物体位姿估计方法，首先通过对目标物体进行多层次的语义分解，然后再对物体位姿进行估计，从而达到更好的位姿估计效果。

本发明还提出了一种采用了上述语义分解式物体位姿估计方法的系统。

根据本发明实施例的语义分解式物体位姿估计方法，包括以下步骤：

S1，在二维图像中检测和提取目标物体；

S2，对目标物体进行多层次的语义分解；

S3，通过网络模块对语义分解后的目标物体进行训练，得到位姿结果。

根据本发明的语义分解式物体位姿估计方法，首先通过对目标物体进行多层次的语义分解，然后再对物体位姿进行估计，从而达到更好的位姿估计效果。

根据本发明一个实施例的语义分解式物体位姿估计方法，在步骤S1中，检测和提取目标物体包括：检测目标物体的中心点的像素坐标(c_x，c_y)和目标物体在二维图像中的尺寸(h，w)。

根据本发明一个实施例的语义分解式物体位姿估计方法，在步骤S3中，网络模块包括：跨语义表示的物体坐标预测网络模块、上下文感知特征融合网络模块和物体坐标集成网络模块。

根据本发明一个实施例的语义分解式物体位姿估计方法，跨语义表示的物体坐标预测网络模块包括：特征网络模块和坐标预测网络模块，特征网络模块用于对多层次的语义分解表示图进行特征参数提取，坐标预测网络模块根据特征参数对目标物体的三维坐标进行预测，得到第一预测值。

根据本发明一个实施例的语义分解式物体位姿估计方法，将特征参数输入至上下文感知特征融合网络模块，得到融合参数；将融合参数输入至坐标预测网络模块，坐标预测网络模块根据融合参数对目标物体的三维坐标进行预测，得到第二预测值。

根据本发明一个实施例的语义分解式物体位姿估计方法，将第一预测值和第二预测值输入至物体坐标集成网络模块，物体坐标集成网络模块根据第一预测值和第二预测值对目标物体的三维坐标进行预测，得到第三预测值。

根据本发明一个实施例的语义分解式物体位姿估计方法，根据第三预测值，建立目标物体的二维图像到三维坐标之间的对应关系，利用随机抽样一致性算法对目标物体的六自由度位姿进行求解，得到位姿结果。

根据本发明的第二方面的语义分解式物体位姿估计系统，采用了有如第一方面任一种所述的语义分解式物体位姿估计方法。所述系统与上述的语义分解式物体位姿估计方法相对于现有技术所具有的优势相同，在此不再赘述。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的语义分解式物体位姿估计方法的流程图；

图2是根据本发明实施例的表示图的转化示意图；

图3是根据本发明实施例的多层次多语义的表示图；

图4是根据本发明实施例的跨语义表示的物体坐标预测网络模块的工作流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

下面参考图1-4描述根据本发明实施例的语义分解式物体位姿估计方法。如图1所示，根据本发明实施例的语义分解式物体位姿估计方法，包括以下步骤：

S1，在二维图像中检测和提取目标物体；

S2，对目标物体进行多层次的语义分解；

S3，通过网络模块对语义分解后的目标物体进行训练，得到位姿结果。需要说明的是，网络模块可以设置一个，也可以设置多个。

根据本发明一个实施例的语义分解式物体位姿估计方法，在步骤S1中，检测和提取目标物体包括：检测目标物体的中心点的像素坐标(c_x，c_y)和目标物体在二维图像中的尺寸(h，w)。具体地，在训练阶段，目标物体的中心点的像素坐标和尺寸可由标签获得。进一步地，在提取目标物体时，可对(c_x，c_y)和(h，w)添加噪声，这样有利于提高目标物体检测误差的鲁棒性。进一步地，在一个具体的实施例中，可对(c_x，c_y)和(h，w)添加高斯分布或均匀分布的噪声。进一步地，在测试阶段，(c_x，c_y)和(h，w)可由实现训练好的检测器(图中未示出)在图像中对目标物体进行检测得到。

根据本发明一个实施例的语义分解式物体位姿估计方法，在步骤S2中，可以对目标物体缩放到预设的分辨率；具体地，对目标物体的局部图像区域在保持长宽比例不变的情况下，缩放到统一的分辨率，例如，在一个具体的实施例中，预设的分辨率可以为256x256；进一步地，在对目标物体缩放的过程中，可以按照需要对局部图像的周边进行补零操作，进而可以使缩放的目标物体更好地满足分辨率的要求。

根据本发明一个实施例的语义分解式物体位姿估计方法，在步骤S2中，多层次的语义分解式表示图可以包括：RGB图、灰度图、素描图和边缘图。进一步地，灰度图可以通过RGB图中像素值和灰度像素值的转换关系得到，例如，在一个具体的实施例中，RGB像素值在R、G、B通道上的值分别为R、G、B，则其相应的灰度像素值为0.299*R+0.587*G+0.114*B。进一步地，素描图可以通过OpenCV提供的铅笔滤波器得到。进一步地，边缘图可以通过OpenCV提供的拉普拉斯滤波器得到。需要说明的是，Gray表示灰度图，Sketch表示素描图，Edge表示边缘图。

需要说明的是，多层次的语义分解式表示图不限于上述四种图形模式。

根据本发明一个实施例的语义分解式物体位姿估计方法，在步骤S3中，网络模块可以包括：跨语义表示的物体坐标预测网络模块、上下文感知特征融合网络模块和物体坐标集成网络模块。

根据本发明一个实施例的语义分解式物体位姿估计方法，跨语义表示的物体坐标预测网络模块可以包括：特征网络模块(Feature Net,简称FNet)和坐标预测网络模块(Coordinates Net，简称CNet)，进一步地，特征网络模块可对多层次的语义分解表示图进行特征参数提取，例如可以对RGB图、灰度图、素描图、边缘图进行特征参数提取，坐标预测网络模块根据特征参数对目标物体的三维坐标进行预测，得到第一预测值。

需要说明的是，通过跨语义表示的物体坐标预测网络模块处理多层次的语义分解式表示图时，需要将表示图整理为同样的格式，例如，在一个具体的实施例中，可以将表示图的大小设置为256x256x3，这样对于灰度图和素描图，可以将单通道的表示图重复三遍来得到三通道的表示图。

进一步地，特征网络模块可以用34层的残差卷积网络进行实现，例如，在一个具体的实施例中，特征网络模块的输入为256x256x3大小的表示图，输出为512x8x8大小的特征图；坐标预测网络模块由三个放大网络模块和一个输出层实现。进一步地，三个放大网络模型的结构分别为{deconv1-conv2-conv3g}，{up1-conv2-conv3g}，{up1-conv2-conv3}，其中deconv表示反卷积层，conv表示卷积层，up表示上采样层。

进一步地，坐标预测网络模块采用分类的方式对目标物体的三维坐标图和目标物体分割图进行预测，例如，输入为512x8x8大小的特征图，输出为64×64×64×3大小的坐标图和64×64×2大小的分割图。其中，特征图可分为三个大小为64×64×64的坐标子图，每个坐标子图对应三维空间的一个坐标轴(x轴、y轴或者z轴)。进一步地，每一个坐标子图的64×64的每个位置上都有一个长度为64的坐标向量，用来指示这个位置对应的目标物体三维坐标在相应坐标轴上的坐标值。进一步地，对于64×64×2大小的分割图，在64×64的每个位置上都包含了长度为2的向量，其中向量的每个位置的值分别代表该64×64分辨率中的该位置属于目标物体的概率和不输入目标物体的概率。进一步地，通过比较每个长度为2的向量中属于目标物体的概率和不属于目标物体的概率，最终可以得到64×64的目标物体分割图。

进一步地，跨语义表示的物体坐标预测网络模块的训练采用交叉熵损失函数，对于每种表示图，其损失函数如下所示：

其中

和

分别表示单个表示图对应的物体分割图及物体坐标图，n_c表示坐标轴的数量，例如n_c＝3表示坐标轴的数量为3，°为哈达玛德积，

为交叉熵损失，需要说明的是，公式中符号上带波浪线表示真值，不带波浪线表示预测值。

根据本发明一个实施例的语义分解式物体位姿估计方法，将特征参数输入至上下文感知特征融合网络模块，得到融合参数；进一步地，将融合参数输入至坐标预测网络模块，坐标预测网络模块根据融合参数对目标物体的三维坐标进行预测，得到第二预测值。

进一步地，融合参数公式如下：

其中Si为每个表示图预测的分数。

进一步地，上下文感知特征融合网络模块包含三个卷积层和三个全连接层。输入为大小为2048x8x8的特征参数(例如将4个512x8x8的特征参数合并而成)，输入为4个分数，分别对应每一种表示图(例如RGB图、灰度图、素描图和边缘图)。

需要说明的是，在训练过程中，上下文感知特征融合网络模块的更新参数的梯度来自于根据融合的特征预测的坐标图和分割图的误差损失函数。

根据本发明一个实施例的语义分解式物体位姿估计方法，将第一预测值和第二预测值输入至物体坐标集成网络模块，进一步地，物体坐标集成网络模块根据第一预测值和第二预测值对目标物体的三维坐标进行预测，得到第三预测值。

需要说明的是，物体坐标集成网络模块由8个卷积层堆叠而成，物体坐标集成网络模块的训练损失函数的表示方式和跨语义表示的物体坐标预测网络模块的相同。

进一步地，根据本发明一个实施例的语义分解式物体位姿估计方法，在对跨语义表示的物体坐标预测网络模块、上下文感知特征融合网络模块和物体坐标集成网络模块的训练过程采用所有网络的端到端的训练方式，即对三个网络同时训练。进一步地，对于跨语义表示的物体坐标预测网络模块在每种表示图以及在融合特征上的输出，均有相应的损失函数，类似地，对于物体坐标集成网络模块的输出也有相应的损失函数。进一步地，模型的训练损失函数公式如下：

其中

为跨语义表示的物体坐标预测网络模块在融合特征上的输出和在每种表示图的输出上的损失函数，

是物体坐标集成网络模块的输出上的损失函数，

是总的损失函数，α，β，γ是相应的权重。

综上所述，根据本发明的语义分解式物体位姿估计方法，首先通过对目标物体进行多层次的语义分解进而得到不同层次的表示图，包括RGB图、灰度图、素描图和边缘图，然后通过这些表示图对物体位姿进行估计，从而达到更好的位姿估计效果。

本发明还提供了一种语义分解式物体位姿估计系统，该系统包括上述的语义分解式物体位姿估计方法，从而具有位姿估计效果更佳等优点。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种语义分解式物体位姿估计方法，其特征在于，包括以下步骤：

S1，在二维图像中检测和提取目标物体；

S2，对目标物体进行多层次的语义分解，得到多层次的语义分解式表示图，多层次的语义分解式表示图包括：RGB图、灰度图、素描图和边缘图；

S3，通过网络模块对语义分解后的目标物体进行训练，得到位姿结果；

在步骤S3中，网络模块包括：跨语义表示的物体坐标预测网络模块、上下文感知特征融合网络模块和物体坐标集成网络模块；

跨语义表示的物体坐标预测网络模块包括：特征网络模块和坐标预测网络模块，特征网络模块用于对多层次的语义分解表示图进行特征参数提取，坐标预测网络模块根据特征参数对目标物体的三维坐标进行预测，得到第一预测值；

将特征参数输入至上下文感知特征融合网络模块，得到融合参数；将融合参数输入至坐标预测网络模块，坐标预测网络模块根据融合参数对目标物体的三维坐标进行预测，得到第二预测值；

将第一预测值和第二预测值输入至物体坐标集成网络模块，物体坐标集成网络模块根据第一预测值和第二预测值对目标物体的三维坐标进行预测，得到第三预测值。

2.根据权利要求1所述的语义分解式物体位姿估计方法，其特征在于，在步骤S1中，检测和提取目标物体包括：检测目标物体的中心点的像素坐标(c_x，c_y)和目标物体在二维图像中的尺寸(h，w)。

3.根据权利要求1所述的语义分解式物体位姿估计方法，其特征在于，根据第三预测值，建立目标物体的二维图像到三维坐标之间的对应关系，利用随机抽样一致性算法对目标物体的六自由度位姿进行求解，得到位姿结果。