CN110660101B

CN110660101B - 基于rgb图像和坐标系变换的物体6d姿势预测方法

Info

Publication number: CN110660101B
Application number: CN201910764580.4A
Authority: CN
Inventors: 李霖烨; 田秋红
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Dragon Totem Technology Hefei Co ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2022-06-07
Anticipated expiration: 2039-08-19
Also published as: CN110660101A

Abstract

本发明公开了一种基于RGB图像和坐标系变换的物体6D姿势预测方法。将物体6D姿势参数进行解耦，通过解决六个参数求解问题实现物体6D姿势预测。本作品通过定位图像中物体中心及估计它与相机的距离来预测物体的3D平移。通过坐标系变换将预测物体的3D旋转转化为预测相机的位姿，再将相机位姿参数解耦为方位角、仰角、绕主光轴的旋转角，通过对这三个参数进行预测，从而间接实现对物体的3D旋转预测。本发明提出了一个对于物体6D姿势预测通用的框架，实现从一张RGB图像中同时进行2D目标检测和6D姿势预测，对光照条件复杂、摆放混乱、物体之间相互遮挡等情况都有较好的鲁棒性。

Description

基于RGB图像和坐标系变换的物体6D姿势预测方法

技术领域

本发明属于物体目标检测和姿势预测领域，具体涉及一种基于RGB图像和坐标系变换的物体6D姿势预测方法，强调只使用RGB信息同时进行2D目标检测和6D姿势预测，对物体相互遮挡、杂乱摆放、光照条件复杂等情况具有较好的鲁棒性。

背景技术

目前，物体目标检测及其6D姿势(3D平移和3D旋转)预测是计算机视觉领域的一个研究热点，在增强现实、机器人作业、无人驾驶等方面都有着重要的应用。然而由于实际场景中存在物体之间相互遮挡、杂乱摆放、光照条件复杂等情况，6D姿势预测问题仍然是一个具有挑战性的问题。

目前6D姿势预测方法主要有模板匹配和基于特征学习。模板匹配使用固定的模板对输入图片的不同位置进行滑动窗口扫描，得到不同位置的相似度得分，通过比较这些相似度得分获得最佳匹配结果，但无法处理物体之间遮挡、光照条件十分苛刻的情况；基于特征学习的方法通过提取图像中的局部特征和3D模型的特征建立2D-3D对应，获得6D姿势，该类方法需要足够多的纹理来计算局部特征，且在处理对称的物体会遭遇歧义。现有的方法主要依赖于RGB-D传感器获得的深度信息或是将深度信息与RGB信息相结合进行6D姿势预测，使用成本较高。

发明内容

针对6D姿势预测领域数据集难以标注，实际测试中存在遮挡、光照条件复杂等情况，本发明的目的在于基于OpenGL渲染3D模型生成数据集，利用Faster-R-CNN目标检测网络定位待预测物体，通过坐标系变换将物体位姿转换成相机位姿进行预测，解决了现有6D姿势预测数据集较少、模型对于复杂场景适应性差的问题。

本发明解决其技术问题所采用的技术方案步骤如下：

1)对多个不同物体进行3D扫描获得多个3D模型，基于OpenGL中的虚拟相机对多个3D模型进行渲染生成训练数据集，训练数据集包括多张RGB图像，每张RGB图像中包含的物体种类数以及各类物体数量均随机生成，再从COCO目标检测数据集或ImageNet数据集中随机选取图片作为RGB图像的渲染背景。

2)基于渲染生成的RGB图像获得其中包含的各个物体的所属类别信息、矩形框标签信息和相机位姿标签信息，矩形框标签信息包括矩形框中心坐标(x,y)和矩形框的宽高尺寸；相机位姿标签信息是虚拟相机在物体坐标系下通过位姿变换得到该物体位姿的相机位姿。所属类别信息、矩形框标签信息和相机位姿标签信息均是在渲染的时候自动生成。矩形框标签信息是在相机坐标系下获得的，相机位姿标签信息是在物体坐标系下获得的。相机坐标系是指以虚拟相机的光心为坐标原点，成像平面相互垂直的两个方向分别作为X轴和Y轴，虚拟相机的光轴为Z轴。矩形框标签信息是对物体进行矩形框(bounding box)标注得到。

3)建立Faster-R-CNN目标检测网络模型作为物体平移预测网络，将依次进行归一化处理、数据增强后的训练数据集输入到物体平移预测网络中输出得到类别预测结果和预测矩形框信息，计算预测矩形框信息与矩形框标签信息的损失函数值，迭代训练直至损失函数值最小，完成对平移姿势预测网络的训练。

4)建立ResNet50网络模型作为相机位姿预测网络，将RGB图像中的所有矩形框(bounding box)切割出图像外作为感兴趣区域(RoIs)，将得到的所有感兴趣区域(RoIs)依次进行归一化处理和数据增强，数据增强后的感兴趣区域(RoIs)输入到相机位姿预测网络中并输出得到相机位姿预测信息，旋转预测信息包括虚拟相机的预测方位角、预测仰角和预测旋转角，计算相机位姿预测信息与相机位姿标签信息的损失函数值，迭代训练直至损失函数值最小，完成对平移姿势预测网络的训练。

5)将待测物体放置在真实摄像头的视场内，对摄像头进行内参标定使其与虚拟相机相同，摄像头获取待测物体运动的视频流，待测物体运动包括平移、旋转及其组合运动，将视频流的逐帧图像的尺寸进行归一化处理后输入到物体平移预测网络中输出获得预测矩形框信息，根据预测矩形框信息获得待测物体在相机坐标系下的平移信息；再将预测矩形框作为感兴趣区域(RoIs)输入到相机位姿预测网络获得相机位姿预测信息，将相机位姿预测信息通过坐标系变换得到待测物体在相机坐标系下的旋转信息，将每帧图像的平移信息和旋转信息作为物体实时的6D姿势信息；待测物体是训练阶段训练过的已知种类，待测物体输入到物体平移预测网络中同样会输出所属类别。

所述的步骤3)中，对训练数据集进行数据增强具体是指：随机改变RGB图像的对比度、饱和度、色调、颜色空间转换、均值滤波、高斯滤波、中值滤波、加入椒盐噪声、加入线条、随机水平翻转或随机垂直翻转，以模拟复杂的现实环境；所述的步骤4)中所述的对训练数据集进行数据增强，除不包括随机水平翻转和随机垂直翻转外其余均与步骤3)的数据增强相同，因为随机水平翻转和随机垂直翻转这两种数据增强方式会改变相机的位姿信息。步骤3)和步骤4)中的归一化处理均是指对尺寸大小进行归一化处理。

一种基于RGB图像和坐标系变换的物体6D姿势预测方法，其特征在于：步骤3)所述的平移姿势预测网络的损失函数L具体是：

L＝α₁L_cls+α₂L_box (1)

式中，L_cls表示分类损失函数，L_box表示2D bounding box的回归损失函数，L_cls和L_box分别采用softmax loss和smooth L₁ loss，α₁、α₂分别表示分类损失函数和回归损失函数的权重系数。

步骤4)所述的平移姿势预测网络的损失函数L具体是：

L_pose＝β₁L_azimuth+β₂L_elevation+β₃L_rotation (2)

式中，方位角损失函数L_azimuth，仰角损失函数L_elevation以及绕主光轴的旋转角损失函数L_rotation均采用softmax loss，β₁、β₂、β₃分别表示方位角损失函数、仰角损失函数、旋转角损失函数的权重系数。

步骤5)所述的根据预测矩形框信息获得待测物体的平移信息，具体是：预测矩形框信息包括预测矩形框的中心坐标和宽高尺寸，将预测矩形框中心坐标的x坐标、y坐标分别作为平移信息的x轴、y轴平移分量，将矩形框的中心距离摄像头中心的距离作为z轴平移分量，x轴、y轴和z轴平移分量构成平移信息。

z轴的平移分量的具体是：首先利用OpenGL获得距离待测物体d_std＝1米时渲染得到的2D bounding box的参考对角线长度l_std，再根据预测矩形框的宽高尺寸获得真实对角线长度l_pred，通过比例计算，得到此时相机距离物体的距离，计算公式如下，z轴平移分量为d_pred：

步骤5)所述的相机位姿预测信息通过坐标系变换得到待测物体的旋转信息，具体是：根据获得的相机位姿预测信息计算摄像头在物体坐标系中的旋转矩阵R_o，再求得旋转矩阵R_o的逆矩阵获得待测物体在相机坐标系下的旋转矩阵R_c，旋转矩阵即为旋转信息。步骤5)所述的相机坐标系是指以摄像头的光心为坐标原点，成像平面相互垂直的两个方向分别作为X轴和Y轴，虚拟相机的光轴为Z轴。本发明中存在一个虚拟相机和一个真实摄像头，在渲染生成数据集时的相机均指虚拟相机，在测试阶段的相机均指真实相机即罗技摄像头。两个对应的相机坐标系也分别是以虚拟相机或摄像头的光心为坐标原点建立得到的。

当摄像头绕物体坐标系X轴旋转θ_x时，由于物体坐标系X轴与相机的光轴同轴，因此也就是相机绕其主光轴旋转角为θ_x，预测旋转角θ_x的旋转矩阵R_x(θ_x)为：

摄像头绕Y轴旋转θ_y，即相机的仰角为θ_y，预测仰角θ_y的旋转矩阵R_y(θ_y)为

摄像头绕Z轴旋转θ_z，即相机的方位角为θ_z，预测方位角的旋转矩阵R_z(θ_z)为

则物体坐标系下的相机旋转矩阵为R_o：

R_o＝R_z(θ_z)R_y(θ_y)R_x(θ_x) (6)

根据相机旋转矩阵R_o求得相机坐标系下的物体旋转矩阵R_c，即待测物体在摄像头下的旋转位姿：

R_c＝R_o ^-1 (7)

步骤5)所述的相机位姿即虚拟相机分别绕物体坐标系的x轴、y轴、z轴旋转得到的旋转角、俯仰角和方位角，虚拟相机在该相机旋转位姿下对物体进行拍摄得到RGB图像中呈现的物体位姿。相机位姿标签信息的获得具体是：以物体所在位置为中心建立物体坐标系，物体所在平面相互垂直的两个方向分别为x轴和y轴，垂直于物体所在平面的方向为z轴，相机的位姿变换均位于以物体为中心的半径已知的半球面上，虚拟相机分别绕物体坐标系的X轴、Y轴、Z轴旋转得到的旋转角、仰角、方位角共同构成虚拟相机在物体坐标系的相机位姿，虚拟相机通过在物体坐标下的位姿变换对该物体进行拍摄，从而生成该物体图像。因此每个物体的旋转位姿均可以通过唯一的相机位姿表示，将对应的相机位姿作为该物体图像的相机位姿标签信息。

本发明创新点在于：一是仅利用RGB图像信息进行物体6D姿势预测，并通过数据增强提升了模型对付复杂环境的适应性。二是用虚拟相机在物体坐标系的位姿变换来模拟在虚拟相机固定下物体的姿势变换，将物体对应的虚拟相机的方位角、仰角和绕主光轴的旋转角作为旋转标签信息。最后再通过通过坐标系变换转换得到物体在相机体系下的物体位姿，大化地利用三个参数表达物体6D姿势，避免了参数浪费。使用相机的仰角、方位角和绕主光轴地旋转角最为预测目标，既避免了像欧拉角存在的万向角问题，也避免了用四元数参数之间互相限制的问题。

本发明具有的有益效果是：

(1)本发明采用OpenGL渲染3D模型生成数据集，无需人工标注，数据集制作成本低，标注精度高，通过设置复杂背景增强数据集的多样性，使得训练出来的模型更具有鲁棒性。

(2)本发明无需昂贵的深度传感器，仅需一张RGB图像，便可对图像中的物体进行姿势预测。通过数据增强提升了模型对付复杂环境的抗干扰能力，成本低，实用性强。

(3)本发明通过坐标系变换，巧妙地将预测物体位姿转换为预测相机位姿，通过方位角、仰角和绕主光轴的旋转角来表示相机位姿，最大化地利用了参数，既具有用欧拉角表示简洁清楚的特点，又避免了欧拉角中存在的万向锁的问题。

附图说明

图1为本发明方法的流程图。

图2为本发明方法网络模型结构图。

图3为本发明实施例渲染生成的数据集。

图4为本发明实施例的2D目标检测效果图。

图5为本发明实施例的6D姿势预测效果图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明方法的实施装置包括罗技摄像头、待测试物体、装有GPU的计算机。待测试物体置于载物台上，罗技摄像头固定在距载物台半米高、距待测试物体半米远处，摄像头对准物体，并与计算机相连接。

如图1所示，本发明方法的实施例如下：

第一步，对已知的物体使用3D扫描仪创建3D点云模型以及表面贴图。使用OpenCV对罗技摄像头(型号：C270)进行相机内参标定，将获取到的相机内参设置为OpenGL中相机的内参，使用OpenGL对扫描到的3D模型进行渲染，渲染出的图像分辨率不需要和罗技摄像头的分辨率一致，但分辨率的宽高比必须保持一致。将每一种相机仰角、方位角、绕主光轴旋转角的姿势组合渲染在10张不同的背景图片上，背景可以从目标检测或图像分类数据集中随机选取，或者选择实际使用场景作为背景，同时获得物体的6D姿势信息和2D boundingbox信息。渲染出的数据集如图3所示。

虚拟相机与摄像头的内参是相同的，具体实施中先对真实摄像头进行内参标定，然后将虚拟相机的内参和真实相机设置为相同。

对于物体3D旋转的旋转向量R，采取不直接训练模型去预测物体在欧几里得空间中的旋转的方法，而是假定以物体为中心建立物体坐标系，虚拟相机在距离物体坐标系原点1米的球面上变换位姿，通过相机的位姿变换模拟物体的位姿变换。将相机在物体坐标系中的位姿解耦成方位角、仰角和绕相机主光轴的旋转角来表示，因此物体的每一个旋转向量R都有与之对应的相机方位角、仰角和绕主光轴的旋转角。

因此虚拟相机在对单个3D模型进行渲染时，我们以虚拟相机的位姿变换进行采样，获得每次采样下的物体图像后再渲染到背景图片上，这样就使得RGB图像中每个物体图像均对应一个虚拟相机的方位角、仰角和绕主光轴的旋转角，将对应的虚拟相机的方位角、仰角和绕主光轴的旋转角作为相机位姿标签信息。

具体采样中，相机的方位角的采样范围为[0,2π)，仰角的采样范围为[0,π/2]，相机绕主光轴的旋转角的采样范围为[-π/4,π/4]，模拟物体相对于相机左右倾斜的情况，这个范围可以调整得更大，以模拟更复杂的倾斜状况。对方位角、仰角、旋转角有效范围内的角度每5°采样一次，从而减少模型的计算量。

第二步，进行模型的训练：模型的训练分为Faster-R-CNN目标检测模型训练和相机位姿预测模型训练，使用的GPU为Tesla V100。

Faster-R-CNN目标检测模型训练和相机位姿预测模型训练均为多输出网络，多输出网络每个输出的损失值分配相应的权重采用以下方法进行处理：

Faster-R-CNN需要同时训练2D bounding box分类、2D bounding box回归，其损失函数定义如公式(1)：

L＝α₁L_cls+α₂L_box (1)

分类损失L_cls和2D bounding box回归损失L_box都和Faster-R-CNN原文中定义的一样，分别是softmax loss和smooth L₁ loss。α₁、α₂系数是控制每个loss在训练过程中的重要性的。

具体实施中，Faster-R-CNN目标检测模型的训练过程如下：先将训练图像缩放到300×300大小，进行数据增强，然后对图像进行归一化。将归一化后的图像输入Faster-R-CNN目标检测网络。设置初始学习率为0.01，权值衰减率为0.00005，batch size为2，使用随机梯度下降优化器进行模型训练。每训练80k次迭代，学习率衰减为原来的十分之一，最终的学习率为0.0001。分类损失L_cls和2D bounding box回归损失的权重分别为2和1。

相机位姿预测网络需要同时训练仰角分类、方位角分类和相机绕主光轴的旋转角分类，其损失函数定义如公式(2)：

L_pose＝β₁L_azimuth+β₂L_elevation+β₃L_rotation (2)

方位角损失L_azimuth，仰角损失L_elevation以及绕主光轴的旋转角损失L_rotation都是softmax loss，β₁、β₂、β₃用于控制每个loss在训练过程中的重要性。姿势预测网络的backbone是ResNet50，ResNet50对输入的RoI提取特征，提取的特征在三个分类分支进行共享。

具体实施中，相机位姿预测网络的训练过程如下：根据训练集中的2D boundingbox的标注信息精确切割出RoIs，缩放到300×300大小。在数据增强上，不对图像进行水平翻转、垂直翻转，因为这会改变RoIs对应的相机位姿，产生歧义。只对RoIs进行了水平和竖直方向上的偏移，以模拟Faster-R-CNN没有精确地回归出2D bounding box的情况。在经过数据增强，对图像进行归一化，然后输入到网络模型中进行训练。设置初始学习率为0.001，权值衰减率为0.00005，batch size为32，使用随机梯度下降优化器进行模型训练。每训练50k次迭代，学习率衰减为原来的十分之一，最终的学习率为0.0001。仰角分类损失、方位角分类损失、绕主光轴的旋转角分类损失值的权重分别为1、2、1。

第三步，模型部署及使用流程如下：

使用dell xps13 9360进行模型部署测试，搭载的gpu为GTX 1070。将罗技摄像头C270连接至计算机并进行视频流捕捉，将捕捉到的视频流逐帧缩放到300×300大小，不进行数据增强。将图像归一化处理后输入到Faster-R-CNN进行前向传播，设置置信值阈值，如0.5，挑选置信值前200的RoIs进行非极大值抑制，输出最终的RoIs。输出的RoIs可视化如图4所示。将Faster-R-CNN输出的RoIs输入到相机位姿预测网络，输出每个RoI中物体对应的相机位姿。此时获得的相机位姿表示的是以物体坐标系为参考系。所以，只要将相机位姿预测网络输出的方位角、仰角和绕主光轴的旋转角构成相机绕物体坐轴旋转的3个角度，再取反，便得到了3D旋转R。

在物体坐标系下，采用公式(6)获得相机在物体坐标系中的旋转矩阵R_o，采用公式7获得最终的物体旋转向量R。通过RoI的坐标信息获得平移向量T的x与y轴平移分量，计算2d bounding box的对角线长度，根据公式8得到物体距离相机的距离，即平移向量T在z轴的分量，从而得到3D平移T。

第四步，通过OpenGL对预测出的6D姿势(3D平移T和3D旋转R)进行渲染，得到紧紧包裹住物体的3D bounding box，将渲染出的3D bounding box与输入的测试图像进行叠加，得到可视化的6D姿势预测结果，如图5所示。

Claims

1.一种基于RGB图像和坐标系变换的物体6D姿势预测方法，其特征在于包括以下步骤：

1)对多个不同物体进行3D扫描获得多个3D模型，基于OpenGL中的虚拟相机对多个3D模型进行渲染生成训练数据集，训练数据集包括多张RGB图像，每张RGB图像中包含的物体种类数以及各类物体数量均随机生成，再从COCO目标检测数据集或ImageNet数据集中随机选取图片作为RGB图像的渲染背景；

2)基于渲染生成的RGB图像获得其中包含的各个物体的所属类别信息、矩形框标签信息和相机位姿标签信息，矩形框标签信息包括矩形框中心坐标(x,y)和矩形框的宽高尺寸；相机位姿标签信息是虚拟相机在物体坐标系下通过位姿变换得到该物体位姿的相机位姿；

3)建立Faster-R-CNN目标检测网络模型作为物体平移预测网络，将依次进行归一化处理、数据增强后的训练数据集输入到物体平移预测网络中输出得到类别预测结果和预测矩形框信息，计算预测矩形框信息与矩形框标签信息的损失函数值，迭代训练直至损失函数值最小，完成对平移姿势预测网络的训练；

4)建立ResNet50网络模型作为相机位姿预测网络，将RGB图像中的所有矩形框(2Dbounding box)切割出图像外作为感兴趣区域(RoIs)，将得到的所有感兴趣区域(RoIs)依次进行归一化处理和数据增强，数据增强后的感兴趣区域(RoIs)输入到相机位姿预测网络中并输出得到相机位姿预测信息，计算相机位姿预测信息与相机位姿标签信息的损失函数值，迭代训练直至损失函数值最小，完成相机位姿预测网络的建立；

5)将待测物体放置在摄像头的视场内，摄像头与虚拟相机的内参相同，摄像头获取待测物体运动的视频流，将视频流的逐帧图像进行归一化处理后输入到物体平移预测网络中输出获得预测矩形框信息，根据预测矩形框信息获得待测物体的平移信息；再将预测矩形框作为感兴趣区域(RoIs)输入到相机位姿预测网络获得相机位姿预测信息，将相机位姿预测信息通过坐标系变换得到待测物体的旋转信息，将每帧图像的平移信息和旋转信息作为物体实时的6D姿势信息；

步骤5)所述的相机位姿预测信息通过坐标系变换得到待测物体的旋转信息，具体是：根据获得的相机位姿预测信息计算摄像头在物体坐标系中的旋转矩阵R_o，再求得旋转矩阵R_o的逆矩阵获得待测物体在相机坐标系下的旋转矩阵R_c，旋转矩阵即为旋转信息。

2.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法，其特征在于：所述的步骤3)中，对训练数据集进行数据增强具体是指：随机改变RGB图像的对比度、饱和度、色调、颜色空间转换，随机进行均值滤波、高斯滤波、中值滤波、加入椒盐噪声、加入线条、随机水平翻转或随机垂直翻转，以模拟复杂的现实环境；所述的步骤4)中所述的数据增强，除不包括随机水平翻转和随机垂直翻转外其余均与步骤3)的数据增强相同。

3.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法，其特征在于：步骤3)所述的物体平移预测网络的损失函数L具体是：

L＝α₁L_cls+α₂L_box (1)

式中，L_cls表示分类损失函数，L_box表示矩形框的回归损失函数，L_cls和L_box分别采用softmax loss和smooth L₁ loss，α₁、α₂分别表示分类损失函数和回归损失函数的权重系数；

步骤4)所述的相机位姿预测网络的损失函数L_pose具体是：

L_pose＝β₁L_azimuth+β₂L_elevation+β₃L_rotation (2)

4.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法，其特征在于：步骤5)所述的根据预测矩形框信息获得待测物体的平移信息，具体是：预测矩形框信息包括预测矩形框的中心坐标和宽高尺寸，将预测矩形框中心坐标的x坐标、y坐标分别作为平移信息的x轴、y轴平移分量，将矩形框的中心距离摄像头中心的距离作为z轴平移分量，x轴、y轴和z轴平移分量构成平移信息。

5.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法，其特征在于：步骤2)所述的相机位姿标签信息的获得具体是：以物体所在位置为中心建立物体坐标系，物体所在平面相互垂直的两个方向分别为x轴和y轴，垂直于物体所在平面的方向为z轴，相机的位姿变换均位于以物体为中心的半径已知的半球面上，虚拟相机分别绕物体坐标系的X轴、Y轴、Z轴旋转得到的旋转角、仰角、方位角共同构成虚拟相机在物体坐标系的相机位姿，虚拟相机通过在物体坐标下的位姿变换对该物体进行拍摄，从而生成该物体图像。