CN110660101B - 基于rgb图像和坐标系变换的物体6d姿势预测方法 - Google Patents
基于rgb图像和坐标系变换的物体6d姿势预测方法 Download PDFInfo
- Publication number
- CN110660101B CN110660101B CN201910764580.4A CN201910764580A CN110660101B CN 110660101 B CN110660101 B CN 110660101B CN 201910764580 A CN201910764580 A CN 201910764580A CN 110660101 B CN110660101 B CN 110660101B
- Authority
- CN
- China
- Prior art keywords
- camera
- information
- pose
- prediction
- coordinate system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000009466 transformation Effects 0.000 title claims abstract description 24
- 238000013519 translation Methods 0.000 claims abstract description 45
- 230000003287 optical effect Effects 0.000 claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000009877 rendering Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000006002 Pepper Substances 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000005286 illumination Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 17
- 206010061274 Malocclusion Diseases 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本发明公开了一种基于RGB图像和坐标系变换的物体6D姿势预测方法。将物体6D姿势参数进行解耦,通过解决六个参数求解问题实现物体6D姿势预测。本作品通过定位图像中物体中心及估计它与相机的距离来预测物体的3D平移。通过坐标系变换将预测物体的3D旋转转化为预测相机的位姿,再将相机位姿参数解耦为方位角、仰角、绕主光轴的旋转角,通过对这三个参数进行预测,从而间接实现对物体的3D旋转预测。本发明提出了一个对于物体6D姿势预测通用的框架,实现从一张RGB图像中同时进行2D目标检测和6D姿势预测,对光照条件复杂、摆放混乱、物体之间相互遮挡等情况都有较好的鲁棒性。
Description
技术领域
本发明属于物体目标检测和姿势预测领域,具体涉及一种基于RGB图像和坐标系变换的物体6D姿势预测方法,强调只使用RGB信息同时进行2D目标检测和6D姿势预测,对物体相互遮挡、杂乱摆放、光照条件复杂等情况具有较好的鲁棒性。
背景技术
目前,物体目标检测及其6D姿势(3D平移和3D旋转)预测是计算机视觉领域的一个研究热点,在增强现实、机器人作业、无人驾驶等方面都有着重要的应用。然而由于实际场景中存在物体之间相互遮挡、杂乱摆放、光照条件复杂等情况,6D姿势预测问题仍然是一个具有挑战性的问题。
目前6D姿势预测方法主要有模板匹配和基于特征学习。模板匹配使用固定的模板对输入图片的不同位置进行滑动窗口扫描,得到不同位置的相似度得分,通过比较这些相似度得分获得最佳匹配结果,但无法处理物体之间遮挡、光照条件十分苛刻的情况;基于特征学习的方法通过提取图像中的局部特征和3D模型的特征建立2D-3D对应,获得6D姿势,该类方法需要足够多的纹理来计算局部特征,且在处理对称的物体会遭遇歧义。现有的方法主要依赖于RGB-D传感器获得的深度信息或是将深度信息与RGB信息相结合进行6D姿势预测,使用成本较高。
发明内容
针对6D姿势预测领域数据集难以标注,实际测试中存在遮挡、光照条件复杂等情况,本发明的目的在于基于OpenGL渲染3D模型生成数据集,利用Faster-R-CNN目标检测网络定位待预测物体,通过坐标系变换将物体位姿转换成相机位姿进行预测,解决了现有6D姿势预测数据集较少、模型对于复杂场景适应性差的问题。
本发明解决其技术问题所采用的技术方案步骤如下:
1)对多个不同物体进行3D扫描获得多个3D模型,基于OpenGL中的虚拟相机对多个3D模型进行渲染生成训练数据集,训练数据集包括多张RGB图像,每张RGB图像中包含的物体种类数以及各类物体数量均随机生成,再从COCO目标检测数据集或ImageNet数据集中随机选取图片作为RGB图像的渲染背景。
2)基于渲染生成的RGB图像获得其中包含的各个物体的所属类别信息、矩形框标签信息和相机位姿标签信息,矩形框标签信息包括矩形框中心坐标(x,y)和矩形框的宽高尺寸;相机位姿标签信息是虚拟相机在物体坐标系下通过位姿变换得到该物体位姿的相机位姿。所属类别信息、矩形框标签信息和相机位姿标签信息均是在渲染的时候自动生成。矩形框标签信息是在相机坐标系下获得的,相机位姿标签信息是在物体坐标系下获得的。相机坐标系是指以虚拟相机的光心为坐标原点,成像平面相互垂直的两个方向分别作为X轴和Y轴,虚拟相机的光轴为Z轴。矩形框标签信息是对物体进行矩形框(bounding box)标注得到。
3)建立Faster-R-CNN目标检测网络模型作为物体平移预测网络,将依次进行归一化处理、数据增强后的训练数据集输入到物体平移预测网络中输出得到类别预测结果和预测矩形框信息,计算预测矩形框信息与矩形框标签信息的损失函数值,迭代训练直至损失函数值最小,完成对平移姿势预测网络的训练。
4)建立ResNet50网络模型作为相机位姿预测网络,将RGB图像中的所有矩形框(bounding box)切割出图像外作为感兴趣区域(RoIs),将得到的所有感兴趣区域(RoIs)依次进行归一化处理和数据增强,数据增强后的感兴趣区域(RoIs)输入到相机位姿预测网络中并输出得到相机位姿预测信息,旋转预测信息包括虚拟相机的预测方位角、预测仰角和预测旋转角,计算相机位姿预测信息与相机位姿标签信息的损失函数值,迭代训练直至损失函数值最小,完成对平移姿势预测网络的训练。
5)将待测物体放置在真实摄像头的视场内,对摄像头进行内参标定使其与虚拟相机相同,摄像头获取待测物体运动的视频流,待测物体运动包括平移、旋转及其组合运动,将视频流的逐帧图像的尺寸进行归一化处理后输入到物体平移预测网络中输出获得预测矩形框信息,根据预测矩形框信息获得待测物体在相机坐标系下的平移信息;再将预测矩形框作为感兴趣区域(RoIs)输入到相机位姿预测网络获得相机位姿预测信息,将相机位姿预测信息通过坐标系变换得到待测物体在相机坐标系下的旋转信息,将每帧图像的平移信息和旋转信息作为物体实时的6D姿势信息;待测物体是训练阶段训练过的已知种类,待测物体输入到物体平移预测网络中同样会输出所属类别。
所述的步骤3)中,对训练数据集进行数据增强具体是指:随机改变RGB图像的对比度、饱和度、色调、颜色空间转换、均值滤波、高斯滤波、中值滤波、加入椒盐噪声、加入线条、随机水平翻转或随机垂直翻转,以模拟复杂的现实环境;所述的步骤4)中所述的对训练数据集进行数据增强,除不包括随机水平翻转和随机垂直翻转外其余均与步骤3)的数据增强相同,因为随机水平翻转和随机垂直翻转这两种数据增强方式会改变相机的位姿信息。步骤3)和步骤4)中的归一化处理均是指对尺寸大小进行归一化处理。
一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于:步骤3)所述的平移姿势预测网络的损失函数L具体是:
L=α1Lcls+α2Lbox (1)
式中,Lcls表示分类损失函数,Lbox表示2D bounding box的回归损失函数,Lcls和Lbox分别采用softmax loss和smooth L1 loss,α1、α2分别表示分类损失函数和回归损失函数的权重系数。
步骤4)所述的平移姿势预测网络的损失函数L具体是:
Lpose=β1Lazimuth+β2Lelevation+β3Lrotation (2)
式中,方位角损失函数Lazimuth,仰角损失函数Lelevation以及绕主光轴的旋转角损失函数Lrotation均采用softmax loss,β1、β2、β3分别表示方位角损失函数、仰角损失函数、旋转角损失函数的权重系数。
步骤5)所述的根据预测矩形框信息获得待测物体的平移信息,具体是:预测矩形框信息包括预测矩形框的中心坐标和宽高尺寸,将预测矩形框中心坐标的x坐标、y坐标分别作为平移信息的x轴、y轴平移分量,将矩形框的中心距离摄像头中心的距离作为z轴平移分量,x轴、y轴和z轴平移分量构成平移信息。
z轴的平移分量的具体是:首先利用OpenGL获得距离待测物体dstd=1米时渲染得到的2D bounding box的参考对角线长度lstd,再根据预测矩形框的宽高尺寸获得真实对角线长度lpred,通过比例计算,得到此时相机距离物体的距离,计算公式如下,z轴平移分量为dpred:
步骤5)所述的相机位姿预测信息通过坐标系变换得到待测物体的旋转信息,具体是:根据获得的相机位姿预测信息计算摄像头在物体坐标系中的旋转矩阵Ro,再求得旋转矩阵Ro的逆矩阵获得待测物体在相机坐标系下的旋转矩阵Rc,旋转矩阵即为旋转信息。步骤5)所述的相机坐标系是指以摄像头的光心为坐标原点,成像平面相互垂直的两个方向分别作为X轴和Y轴,虚拟相机的光轴为Z轴。本发明中存在一个虚拟相机和一个真实摄像头,在渲染生成数据集时的相机均指虚拟相机,在测试阶段的相机均指真实相机即罗技摄像头。两个对应的相机坐标系也分别是以虚拟相机或摄像头的光心为坐标原点建立得到的。
当摄像头绕物体坐标系X轴旋转θx时,由于物体坐标系X轴与相机的光轴同轴,因此也就是相机绕其主光轴旋转角为θx,预测旋转角θx的旋转矩阵Rx(θx)为:
摄像头绕Y轴旋转θy,即相机的仰角为θy,预测仰角θy的旋转矩阵Ry(θy)为
摄像头绕Z轴旋转θz,即相机的方位角为θz,预测方位角的旋转矩阵Rz(θz)为
则物体坐标系下的相机旋转矩阵为Ro:
Ro=Rz(θz)Ry(θy)Rx(θx) (6)
根据相机旋转矩阵Ro求得相机坐标系下的物体旋转矩阵Rc,即待测物体在摄像头下的旋转位姿:
Rc=Ro -1 (7)
步骤5)所述的相机位姿即虚拟相机分别绕物体坐标系的x轴、y轴、z轴旋转得到的旋转角、俯仰角和方位角,虚拟相机在该相机旋转位姿下对物体进行拍摄得到RGB图像中呈现的物体位姿。相机位姿标签信息的获得具体是:以物体所在位置为中心建立物体坐标系,物体所在平面相互垂直的两个方向分别为x轴和y轴,垂直于物体所在平面的方向为z轴,相机的位姿变换均位于以物体为中心的半径已知的半球面上,虚拟相机分别绕物体坐标系的X轴、Y轴、Z轴旋转得到的旋转角、仰角、方位角共同构成虚拟相机在物体坐标系的相机位姿,虚拟相机通过在物体坐标下的位姿变换对该物体进行拍摄,从而生成该物体图像。因此每个物体的旋转位姿均可以通过唯一的相机位姿表示,将对应的相机位姿作为该物体图像的相机位姿标签信息。
本发明创新点在于:一是仅利用RGB图像信息进行物体6D姿势预测,并通过数据增强提升了模型对付复杂环境的适应性。二是用虚拟相机在物体坐标系的位姿变换来模拟在虚拟相机固定下物体的姿势变换,将物体对应的虚拟相机的方位角、仰角和绕主光轴的旋转角作为旋转标签信息。最后再通过通过坐标系变换转换得到物体在相机体系下的物体位姿,大化地利用三个参数表达物体6D姿势,避免了参数浪费。使用相机的仰角、方位角和绕主光轴地旋转角最为预测目标,既避免了像欧拉角存在的万向角问题,也避免了用四元数参数之间互相限制的问题。
本发明具有的有益效果是:
(1)本发明采用OpenGL渲染3D模型生成数据集,无需人工标注,数据集制作成本低,标注精度高,通过设置复杂背景增强数据集的多样性,使得训练出来的模型更具有鲁棒性。
(2)本发明无需昂贵的深度传感器,仅需一张RGB图像,便可对图像中的物体进行姿势预测。通过数据增强提升了模型对付复杂环境的抗干扰能力,成本低,实用性强。
(3)本发明通过坐标系变换,巧妙地将预测物体位姿转换为预测相机位姿,通过方位角、仰角和绕主光轴的旋转角来表示相机位姿,最大化地利用了参数,既具有用欧拉角表示简洁清楚的特点,又避免了欧拉角中存在的万向锁的问题。
附图说明
图1为本发明方法的流程图。
图2为本发明方法网络模型结构图。
图3为本发明实施例渲染生成的数据集。
图4为本发明实施例的2D目标检测效果图。
图5为本发明实施例的6D姿势预测效果图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明方法的实施装置包括罗技摄像头、待测试物体、装有GPU的计算机。待测试物体置于载物台上,罗技摄像头固定在距载物台半米高、距待测试物体半米远处,摄像头对准物体,并与计算机相连接。
如图1所示,本发明方法的实施例如下:
第一步,对已知的物体使用3D扫描仪创建3D点云模型以及表面贴图。使用OpenCV对罗技摄像头(型号:C270)进行相机内参标定,将获取到的相机内参设置为OpenGL中相机的内参,使用OpenGL对扫描到的3D模型进行渲染,渲染出的图像分辨率不需要和罗技摄像头的分辨率一致,但分辨率的宽高比必须保持一致。将每一种相机仰角、方位角、绕主光轴旋转角的姿势组合渲染在10张不同的背景图片上,背景可以从目标检测或图像分类数据集中随机选取,或者选择实际使用场景作为背景,同时获得物体的6D姿势信息和2D boundingbox信息。渲染出的数据集如图3所示。
虚拟相机与摄像头的内参是相同的,具体实施中先对真实摄像头进行内参标定,然后将虚拟相机的内参和真实相机设置为相同。
对于物体3D旋转的旋转向量R,采取不直接训练模型去预测物体在欧几里得空间中的旋转的方法,而是假定以物体为中心建立物体坐标系,虚拟相机在距离物体坐标系原点1米的球面上变换位姿,通过相机的位姿变换模拟物体的位姿变换。将相机在物体坐标系中的位姿解耦成方位角、仰角和绕相机主光轴的旋转角来表示,因此物体的每一个旋转向量R都有与之对应的相机方位角、仰角和绕主光轴的旋转角。
因此虚拟相机在对单个3D模型进行渲染时,我们以虚拟相机的位姿变换进行采样,获得每次采样下的物体图像后再渲染到背景图片上,这样就使得RGB图像中每个物体图像均对应一个虚拟相机的方位角、仰角和绕主光轴的旋转角,将对应的虚拟相机的方位角、仰角和绕主光轴的旋转角作为相机位姿标签信息。
具体采样中,相机的方位角的采样范围为[0,2π),仰角的采样范围为[0,π/2],相机绕主光轴的旋转角的采样范围为[-π/4,π/4],模拟物体相对于相机左右倾斜的情况,这个范围可以调整得更大,以模拟更复杂的倾斜状况。对方位角、仰角、旋转角有效范围内的角度每5°采样一次,从而减少模型的计算量。
第二步,进行模型的训练:模型的训练分为Faster-R-CNN目标检测模型训练和相机位姿预测模型训练,使用的GPU为Tesla V100。
Faster-R-CNN目标检测模型训练和相机位姿预测模型训练均为多输出网络,多输出网络每个输出的损失值分配相应的权重采用以下方法进行处理:
Faster-R-CNN需要同时训练2D bounding box分类、2D bounding box回归,其损失函数定义如公式(1):
L=α1Lcls+α2Lbox (1)
分类损失Lcls和2D bounding box回归损失Lbox都和Faster-R-CNN原文中定义的一样,分别是softmax loss和smooth L1 loss。α1、α2系数是控制每个loss在训练过程中的重要性的。
具体实施中,Faster-R-CNN目标检测模型的训练过程如下:先将训练图像缩放到300×300大小,进行数据增强,然后对图像进行归一化。将归一化后的图像输入Faster-R-CNN目标检测网络。设置初始学习率为0.01,权值衰减率为0.00005,batch size为2,使用随机梯度下降优化器进行模型训练。每训练80k次迭代,学习率衰减为原来的十分之一,最终的学习率为0.0001。分类损失Lcls和2D bounding box回归损失的权重分别为2和1。
相机位姿预测网络需要同时训练仰角分类、方位角分类和相机绕主光轴的旋转角分类,其损失函数定义如公式(2):
Lpose=β1Lazimuth+β2Lelevation+β3Lrotation (2)
方位角损失Lazimuth,仰角损失Lelevation以及绕主光轴的旋转角损失Lrotation都是softmax loss,β1、β2、β3用于控制每个loss在训练过程中的重要性。姿势预测网络的backbone是ResNet50,ResNet50对输入的RoI提取特征,提取的特征在三个分类分支进行共享。
具体实施中,相机位姿预测网络的训练过程如下:根据训练集中的2D boundingbox的标注信息精确切割出RoIs,缩放到300×300大小。在数据增强上,不对图像进行水平翻转、垂直翻转,因为这会改变RoIs对应的相机位姿,产生歧义。只对RoIs进行了水平和竖直方向上的偏移,以模拟Faster-R-CNN没有精确地回归出2D bounding box的情况。在经过数据增强,对图像进行归一化,然后输入到网络模型中进行训练。设置初始学习率为0.001,权值衰减率为0.00005,batch size为32,使用随机梯度下降优化器进行模型训练。每训练50k次迭代,学习率衰减为原来的十分之一,最终的学习率为0.0001。仰角分类损失、方位角分类损失、绕主光轴的旋转角分类损失值的权重分别为1、2、1。
第三步,模型部署及使用流程如下:
使用dell xps13 9360进行模型部署测试,搭载的gpu为GTX 1070。将罗技摄像头C270连接至计算机并进行视频流捕捉,将捕捉到的视频流逐帧缩放到300×300大小,不进行数据增强。将图像归一化处理后输入到Faster-R-CNN进行前向传播,设置置信值阈值,如0.5,挑选置信值前200的RoIs进行非极大值抑制,输出最终的RoIs。输出的RoIs可视化如图4所示。将Faster-R-CNN输出的RoIs输入到相机位姿预测网络,输出每个RoI中物体对应的相机位姿。此时获得的相机位姿表示的是以物体坐标系为参考系。所以,只要将相机位姿预测网络输出的方位角、仰角和绕主光轴的旋转角构成相机绕物体坐轴旋转的3个角度,再取反,便得到了3D旋转R。
在物体坐标系下,采用公式(6)获得相机在物体坐标系中的旋转矩阵Ro,采用公式7获得最终的物体旋转向量R。通过RoI的坐标信息获得平移向量T的x与y轴平移分量,计算2d bounding box的对角线长度,根据公式8得到物体距离相机的距离,即平移向量T在z轴的分量,从而得到3D平移T。
第四步,通过OpenGL对预测出的6D姿势(3D平移T和3D旋转R)进行渲染,得到紧紧包裹住物体的3D bounding box,将渲染出的3D bounding box与输入的测试图像进行叠加,得到可视化的6D姿势预测结果,如图5所示。
Claims (5)
1.一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于包括以下步骤:
1)对多个不同物体进行3D扫描获得多个3D模型,基于OpenGL中的虚拟相机对多个3D模型进行渲染生成训练数据集,训练数据集包括多张RGB图像,每张RGB图像中包含的物体种类数以及各类物体数量均随机生成,再从COCO目标检测数据集或ImageNet数据集中随机选取图片作为RGB图像的渲染背景;
2)基于渲染生成的RGB图像获得其中包含的各个物体的所属类别信息、矩形框标签信息和相机位姿标签信息,矩形框标签信息包括矩形框中心坐标(x,y)和矩形框的宽高尺寸;相机位姿标签信息是虚拟相机在物体坐标系下通过位姿变换得到该物体位姿的相机位姿;
3)建立Faster-R-CNN目标检测网络模型作为物体平移预测网络,将依次进行归一化处理、数据增强后的训练数据集输入到物体平移预测网络中输出得到类别预测结果和预测矩形框信息,计算预测矩形框信息与矩形框标签信息的损失函数值,迭代训练直至损失函数值最小,完成对平移姿势预测网络的训练;
4)建立ResNet50网络模型作为相机位姿预测网络,将RGB图像中的所有矩形框(2Dbounding box)切割出图像外作为感兴趣区域(RoIs),将得到的所有感兴趣区域(RoIs)依次进行归一化处理和数据增强,数据增强后的感兴趣区域(RoIs)输入到相机位姿预测网络中并输出得到相机位姿预测信息,计算相机位姿预测信息与相机位姿标签信息的损失函数值,迭代训练直至损失函数值最小,完成相机位姿预测网络的建立;
5)将待测物体放置在摄像头的视场内,摄像头与虚拟相机的内参相同,摄像头获取待测物体运动的视频流,将视频流的逐帧图像进行归一化处理后输入到物体平移预测网络中输出获得预测矩形框信息,根据预测矩形框信息获得待测物体的平移信息;再将预测矩形框作为感兴趣区域(RoIs)输入到相机位姿预测网络获得相机位姿预测信息,将相机位姿预测信息通过坐标系变换得到待测物体的旋转信息,将每帧图像的平移信息和旋转信息作为物体实时的6D姿势信息;
步骤5)所述的相机位姿预测信息通过坐标系变换得到待测物体的旋转信息,具体是:根据获得的相机位姿预测信息计算摄像头在物体坐标系中的旋转矩阵Ro,再求得旋转矩阵Ro的逆矩阵获得待测物体在相机坐标系下的旋转矩阵Rc,旋转矩阵即为旋转信息。
2.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于:所述的步骤3)中,对训练数据集进行数据增强具体是指:随机改变RGB图像的对比度、饱和度、色调、颜色空间转换,随机进行均值滤波、高斯滤波、中值滤波、加入椒盐噪声、加入线条、随机水平翻转或随机垂直翻转,以模拟复杂的现实环境;所述的步骤4)中所述的数据增强,除不包括随机水平翻转和随机垂直翻转外其余均与步骤3)的数据增强相同。
3.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于:步骤3)所述的物体平移预测网络的损失函数L具体是:
L=α1Lcls+α2Lbox (1)
式中,Lcls表示分类损失函数,Lbox表示矩形框的回归损失函数,Lcls和Lbox分别采用softmax loss和smooth L1 loss,α1、α2分别表示分类损失函数和回归损失函数的权重系数;
步骤4)所述的相机位姿预测网络的损失函数Lpose具体是:
Lpose=β1Lazimuth+β2Lelevation+β3Lrotation (2)
式中,方位角损失函数Lazimuth,仰角损失函数Lelevation以及绕主光轴的旋转角损失函数Lrotation均采用softmax loss,β1、β2、β3分别表示方位角损失函数、仰角损失函数、旋转角损失函数的权重系数。
4.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于:步骤5)所述的根据预测矩形框信息获得待测物体的平移信息,具体是:预测矩形框信息包括预测矩形框的中心坐标和宽高尺寸,将预测矩形框中心坐标的x坐标、y坐标分别作为平移信息的x轴、y轴平移分量,将矩形框的中心距离摄像头中心的距离作为z轴平移分量,x轴、y轴和z轴平移分量构成平移信息。
5.根据权利要求1所述的一种基于RGB图像和坐标系变换的物体6D姿势预测方法,其特征在于:步骤2)所述的相机位姿标签信息的获得具体是:以物体所在位置为中心建立物体坐标系,物体所在平面相互垂直的两个方向分别为x轴和y轴,垂直于物体所在平面的方向为z轴,相机的位姿变换均位于以物体为中心的半径已知的半球面上,虚拟相机分别绕物体坐标系的X轴、Y轴、Z轴旋转得到的旋转角、仰角、方位角共同构成虚拟相机在物体坐标系的相机位姿,虚拟相机通过在物体坐标下的位姿变换对该物体进行拍摄,从而生成该物体图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764580.4A CN110660101B (zh) | 2019-08-19 | 2019-08-19 | 基于rgb图像和坐标系变换的物体6d姿势预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764580.4A CN110660101B (zh) | 2019-08-19 | 2019-08-19 | 基于rgb图像和坐标系变换的物体6d姿势预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110660101A CN110660101A (zh) | 2020-01-07 |
CN110660101B true CN110660101B (zh) | 2022-06-07 |
Family
ID=69037011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910764580.4A Active CN110660101B (zh) | 2019-08-19 | 2019-08-19 | 基于rgb图像和坐标系变换的物体6d姿势预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110660101B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11407111B2 (en) * | 2018-06-27 | 2022-08-09 | Abb Schweiz Ag | Method and system to generate a 3D model for a robot scene |
CN111372051B (zh) * | 2020-03-17 | 2021-06-01 | 三一重工股份有限公司 | 多相机联动盲区检测方法、装置和电子设备 |
CN111951333A (zh) * | 2020-07-27 | 2020-11-17 | 中国科学院深圳先进技术研究院 | 六维姿态数据集自动生成方法、系统、终端以及存储介质 |
CN112435297B (zh) * | 2020-12-02 | 2023-04-18 | 达闼机器人股份有限公司 | 目标物体位姿确定方法、装置、存储介质及电子设备 |
CN112346074B (zh) * | 2021-01-07 | 2021-04-20 | 北京海天瑞声科技股份有限公司 | 点云数据标注方法、点云数据标注装置及存储介质 |
CN113128434B (zh) * | 2021-04-27 | 2023-11-21 | 南京大学 | 一种对单目rgb图像进行3d目标检测的方法 |
CN114998425B (zh) * | 2022-08-04 | 2022-10-25 | 吉奥时空信息技术股份有限公司 | 一种基于人工智能的目标物体地理坐标定位方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1447770A2 (de) * | 2003-02-11 | 2004-08-18 | KUKA Roboter GmbH | Verfahren und Vorrichtung zur Visualisierung rechnergestützter Informationen |
US9736368B2 (en) * | 2013-03-15 | 2017-08-15 | Spatial Cam Llc | Camera in a headframe for object tracking |
CN107437099A (zh) * | 2017-08-03 | 2017-12-05 | 哈尔滨工业大学 | 一种基于机器学习的特定服饰图像识别与检测方法 |
CN108171748A (zh) * | 2018-01-23 | 2018-06-15 | 哈工大机器人(合肥)国际创新研究院 | 一种面向机器人智能抓取应用的视觉识别与定位方法 |
CN109063301A (zh) * | 2018-07-24 | 2018-12-21 | 杭州师范大学 | 一种基于热力图的单幅图像室内物体姿态估计方法 |
CN109215080A (zh) * | 2018-09-25 | 2019-01-15 | 清华大学 | 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置 |
CN109523520A (zh) * | 2018-10-25 | 2019-03-26 | 北京大学第三医院 | 一种基于深度学习的染色体自动计数方法 |
CN109754362A (zh) * | 2018-12-24 | 2019-05-14 | 哈尔滨工程大学 | 一种用可旋转的边界框标注海参目标检测结果的方法 |
CN110136202A (zh) * | 2019-05-21 | 2019-08-16 | 杭州电子科技大学 | 一种基于ssd与双摄像头的多目标识别与定位方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010053204A1 (en) * | 2000-02-10 | 2001-12-20 | Nassir Navab | Method and apparatus for relative calibration of a mobile X-ray C-arm and an external pose tracking system |
US10534960B2 (en) * | 2016-04-01 | 2020-01-14 | California Institute Of Technology | System and method for locating and performing fine grained classification from multi-view image data |
-
2019
- 2019-08-19 CN CN201910764580.4A patent/CN110660101B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1447770A2 (de) * | 2003-02-11 | 2004-08-18 | KUKA Roboter GmbH | Verfahren und Vorrichtung zur Visualisierung rechnergestützter Informationen |
US9736368B2 (en) * | 2013-03-15 | 2017-08-15 | Spatial Cam Llc | Camera in a headframe for object tracking |
CN107437099A (zh) * | 2017-08-03 | 2017-12-05 | 哈尔滨工业大学 | 一种基于机器学习的特定服饰图像识别与检测方法 |
CN108171748A (zh) * | 2018-01-23 | 2018-06-15 | 哈工大机器人(合肥)国际创新研究院 | 一种面向机器人智能抓取应用的视觉识别与定位方法 |
CN109063301A (zh) * | 2018-07-24 | 2018-12-21 | 杭州师范大学 | 一种基于热力图的单幅图像室内物体姿态估计方法 |
CN109215080A (zh) * | 2018-09-25 | 2019-01-15 | 清华大学 | 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置 |
CN109523520A (zh) * | 2018-10-25 | 2019-03-26 | 北京大学第三医院 | 一种基于深度学习的染色体自动计数方法 |
CN109754362A (zh) * | 2018-12-24 | 2019-05-14 | 哈尔滨工程大学 | 一种用可旋转的边界框标注海参目标检测结果的方法 |
CN110136202A (zh) * | 2019-05-21 | 2019-08-16 | 杭州电子科技大学 | 一种基于ssd与双摄像头的多目标识别与定位方法 |
Non-Patent Citations (3)
Title |
---|
Face-MagNet: Magnifying Feature Maps to Detect Small Faces;Pouya Samangouei等;《2018 IEEE Winter Conference on Applications of Computer Vision (WACV)》;20180314;第122-130页 * |
SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again;Wadim Kehl等;《2017 IEEE International Conference on Computer Vision (ICCV)》;20171127;第1530-1538页 * |
水下球形机器人视觉系统研究;李健;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190815(第08期);第I140-332页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110660101A (zh) | 2020-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110660101B (zh) | 基于rgb图像和坐标系变换的物体6d姿势预测方法 | |
CN109461180B (zh) | 一种基于深度学习的三维场景重建方法 | |
KR100793838B1 (ko) | 카메라 모션 추출장치, 이를 이용한 해상장면의 증강현실 제공 시스템 및 방법 | |
US11051000B2 (en) | Method for calibrating cameras with non-overlapping views | |
CN107155341B (zh) | 三维扫描系统和框架 | |
US20030012410A1 (en) | Tracking and pose estimation for augmented reality using real features | |
CN112067233B (zh) | 一种用于风洞模型六自由度运动捕获方法 | |
SG189284A1 (en) | Rapid 3d modeling | |
CN114666564B (zh) | 一种基于隐式神经场景表示进行虚拟视点图像合成的方法 | |
CN110648274B (zh) | 鱼眼图像的生成方法及装置 | |
Nguyen et al. | 3D scanning system for automatic high-resolution plant phenotyping | |
CN110276791B (zh) | 一种参数可配置的深度相机仿真方法 | |
CN110838164A (zh) | 基于物体点深度的单目图像三维重建方法、系统及装置 | |
CN113686314B (zh) | 船载摄像头的单目水面目标分割及单目测距方法 | |
CN111768452A (zh) | 一种基于深度学习的非接触式自动贴图方法 | |
Andersen et al. | AR HMD guidance for controlled hand-held 3D acquisition | |
CN113362467B (zh) | 基于点云预处理和ShuffleNet的移动端三维位姿估计方法 | |
CN116681839B (zh) | 一种基于改进NeRF的实景三维目标重建与单体化方法 | |
CN113436251A (zh) | 一种基于改进的yolo6d算法的位姿估计系统及方法 | |
CN111192308B (zh) | 图像处理方法及装置、电子设备和计算机存储介质 | |
Nguyen et al. | Towards high-throughput 3D insect capture for species discovery and diagnostics | |
WO2022217470A1 (en) | Hair rendering system based on deep neural network | |
Hold-Geoffroy et al. | A perceptual measure for deep single image camera and lens calibration | |
Ahmad Yusri et al. | Preservation of cultural heritage: a comparison study of 3D modelling between laser scanning, depth image, and photogrammetry methods | |
CN117593618B (zh) | 基于神经辐射场和深度图的点云生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240112 Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province Patentee after: Dragon totem Technology (Hefei) Co.,Ltd. Address before: No.928, No.2 street, Jianggan Economic Development Zone, Hangzhou City, Zhejiang Province, 310018 Patentee before: ZHEJIANG SCI-TECH University |