CN112598735B - 一种融合三维模型信息的单张图像物体位姿估计方法 - Google Patents
一种融合三维模型信息的单张图像物体位姿估计方法 Download PDFInfo
- Publication number
- CN112598735B CN112598735B CN202011518313.8A CN202011518313A CN112598735B CN 112598735 B CN112598735 B CN 112598735B CN 202011518313 A CN202011518313 A CN 202011518313A CN 112598735 B CN112598735 B CN 112598735B
- Authority
- CN
- China
- Prior art keywords
- image
- dimensional
- pixel
- features
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims description 49
- 238000001514 detection method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000001502 supplementing effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种融合三维模型信息的单张图像物体位姿估计方法,从图像中获得图像特征、三维坐标预测结果以及物体的分割结果,利用物体的分割结果提取初始的坐标预测结果以及图像特征,将其融合之后可以获得初始的物体局部三维点云以及其特征;将初始的局部三维点云特征与从完整三维模型提取的全局特征进行局部‑全局特征融合,可以在初始的三维坐标基础上进行精细化,获得更加精确的三维坐标预测;更加精确的三维坐标预测可以获得更加精确的二维‑三维对应,依据二维‑三维对应可以获得精确的物体位姿。
Description
技术领域
本发明属于计算机视觉领域,尤其涉及一种姿态预测方法。
背景技术
基于视觉的物体姿态估计在空间操作、工业制造、机器人导航等领域扮演着举足轻重的角色。目标位姿的准确测量是直接关系到空间或空中任务,比如航天器交会对接、在轨装配、空中加油等工作成功与否的一项重要工作。
从视觉进行物体位姿的估计是指从图像中准确的估计出目标对象相对于相机的位置和姿态,其中位置表示相机坐标系相当于物体坐标系的平移关系,姿态表示相机相对于目标物体坐标系的旋转关系。
传统的基于单目图像的位姿估计方法主要依靠关键点的匹配来建立图像和三维模型之间的二维-三维关系,然后根据二维-三维对应关系优化重投影误差函数来实现目标位姿估计。基于深度学习的位姿估计方法在近年来被广泛使用,第一种普遍使用的策略是利用深度学习方法预测三维模型关键点对应的二维图像坐标,然后依据二维-三维对应关系获得目标物体的位姿。但是此种方法容易受到遮挡以及光照变化等因素的影响,无法在具有挑战性的场景进行物体位姿估计。第二种策略是预测二维图像对应的三维坐标,通常可以利用RGB颜色空间来编码三维空间,从图像中预测物体所对应的RGB编码信息,间接建立二维-三维对应关系,利用优化方法获得目标物体的位姿。从图像中直接预测二维像素点对应的三维坐标,然后依据二维-三维对应关系进行姿态估计方法具有比较好的效果,其主要的流程图如图1所示。但是直接从图像中预测三维坐标的方法未能有效的利用物体完整三维模型信息,从图像中直接获得的三维坐标信息具有较大的不确定性。
发明内容
为了克服现有技术的不足,本发明提供一种融合三维模型信息的单张图像物体位姿估计方法,能够提供更加精确的三维坐标预测。
本发明解决其技术问题所采用的技术方案包括以下步骤:
1)对待进行位姿估计的输入图像进行目标检测,确定目标物体所在区域;
2)将目标物体基础区域从输入图像中截取,获得目标物体图像;
3)从目标物体图像中提取特征,将提取出的特征称为图像特征;根据图像特征对目标物体的三维坐标进行预测;根据图像特征对目标物体图像进行物体分割,获得物体像素级分割结果;根据图像特征对目标物体图像再次进行特征提取,获得像素特征,表示目标物体图像中每一个像素点对应的特征;
4)提取目标物体图像中物体区域的三维坐标以及像素特征,获得包含n个点的三维点云;
5)对包含n个点的三维点云进行点云特征提取;将提取的特征以及步骤4)提取的像素特征在通道维度上进行拼接,获得物体局部拼接特征;
6)对所述物体局部拼接特征进行融合,获得物体局部融合特征;
7)提取目标物体完整的三维点云特征,输出物体全局特征;
8)将物体局部特征、物体全局特征扩展维度至所述物体像素级分割结果中物体区域像素个数n,然后将扩维后的物体局部融合特征、扩维后的物体全局特征以及物体局部拼接特征在通道维度上进行拼接,获得局部-全局拼接特征;对局部-全局拼接特征进行处理,最终获得精确三维坐标预测结果;
9)根据精确三维坐标预测结果,依据其与二维图像的对应关系,由透视n点算法求得目标物体位姿。
所述的目标所在区域是指包含目标物体的矩形框,以矩形框中心点以及矩形框的高和宽中的最大值所确定的区域作为目标物体所在基础区域。
所述的三维坐标预测采用多层卷积神经网络结构,其输入维度符合图像特征维度,输出为三通道的坐标预测;三通道坐标预测表示目标物体图像中每一个像素点处的三通道坐标,三通道坐标表示目标物体在三维坐标系中三个维度的坐标值,分别为三维笛卡尔坐标系的x轴、y轴、z轴。
所述的物体分割采用多层卷积神经网络结构,其输入维度符合图像特征维度,输出为一通道的物体像素分割图;物体像素分割图通过像素值指明属于物体的像素。
所述的像素特征提取采用多层卷积神经网络结构,其输入维度符合图像特征维度,输出为多通道的像素特征。
所述的提取目标物体图像中物体区域的三维坐标以及像素特征使用矩阵索引的方式。
所述的物体局部融合特征采用多层感知机对物体局部拼接特征进行处理获得。
所述的物体全局特征采用多层感知机对物体完整的三维点云进行特征提取获得。
本发明的有益效果是:
1)充分利用已有数据,从局部-全局特征融合的角度将完整三维模型信息融合;
2)从图像中获得图像特征、三维坐标预测结果以及物体的分割结果,利用物体的分割结果提取初始的坐标预测结果以及图像特征,将其融合之后可以获得初始的物体局部三维点云以及其特征;
3)将初始的局部三维点云特征与从完整三维模型提取的全局特征进行局部-全局特征融合,可以在初始的三维坐标基础上进行精细化,获得更加精确的三维坐标预测;
4)更加精确的三维坐标预测可以获得更加精确的二维-三维对应,依据二维-三维对应可以获得精确的物体位姿。
附图说明
图1是现有基础算法流程图。
图2是本发明一实施例的姿态预测方法流程图。
图3是本发明一实施例的姿态预测详细方法结构图。
图4是本发明坐标预测-物体分割-图像特征提取模块一个可能的实现。
图5是本发明一实施例的完整网络结构图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
本发明旨在解决直接由图像中预测三维坐标的位姿估计方法所预测的三维坐标不确定性比较大的问题,以及未能充分利用物体全局信息的问题,提出一种融合三维模型信息获得更高精确度三维坐标的方法。
如图2示出了本发明一实施例的姿态预测方法流程图,本发明包括以下步骤:
1)对待进行位姿估计的输入图像进行目标检测,确定目标物体所在基础区域。采用目标检测器输出的包含目标物体的矩形框,以矩形框中心点以及矩形框的高和宽中的最大值所确定的区域作为目标物体所在基础区域。
目标检测器可以采用任何能从图像中进行目标检测的网络,本发明不做限制。
2)根据所述目标物体所在基础区域,确定目标物体图像。由于目标物体图像需要作为后续坐标预测-物体分割-像素特征提取模块的输入,因此,目标物体的图像应该与坐标预测-物体分割-像素特征提取模块所需的尺寸一致。将目标物体基础区域从输入图像中截取,然后保持截取后图像的长宽比例不变,采用图像插值的方法将截取后图像缩放至坐标预测-物体分割-像素特征提取模块所需的尺寸。
在目标物体处于输入图像边缘的导致所述基础区域部分处于输入图像外,可以采用在缺失的部分补0的方式,获得的目标物体图像。
在一种可能的实现方式中,可以用目标检测器输出的包含目标物体的矩形框,以矩形框中心点以及矩形框的高和宽中的最大值所确定的基础区域从输入图像中裁剪出来。将裁剪后所得的图像保持长宽比不变的情况下,采用最近邻插值或者双线性内插法对裁剪后的图像进行缩放。并且保证缩放后图像的最长边尺寸为128、256等数值,如果物体位于输入图像边缘,导致物体所在基础局域有部分区域处于输入图像外,可以采用在缺失的部分补0的方式,得到完全方正的图像,获得目标物体图像。因此目标物体图像可能尺寸为128x128或256x256像素。
3)将所述目标物体图像输入至“坐标预测-物体分割-像素特征提取”模块,所述坐标预测-物体分割-像素特征提取模块包括基本网络、坐标预测分支网络、目标物体分割分支网络、像素特征提取分支网络。
基本网络用于从所述目标物体图像提取特征,将提取出的特征称为图像特征。所述坐标预测分支网络用于从所述图像特征对所述目标物体的三维坐标进行预测,所述目标物体分割分支网络用于从所述图像特征对所述目标物体图像进行物体分割,获得物体像素级分割结果,所述图像特征提取分支网络用于从所述图像特征对所述目标物体图像再次进行特征提取,获得像素特征,因为其表示目标物体图像中每一个像素点对应的特征,因此称为像素特征。
所述基本网络可以是能够从图像中提取特征的任何网络,本发明不做限制。所述坐标预测分支网络为任何可能的多层卷积神经网络结构,需要保证其输入维度符合图像特征维度以及输出为三通道的坐标预测。三通道坐标预测表示目标物体图像中每一个像素点处的三通道坐标,三通道的坐标分别表示目标物体在三维坐标系中三个维度的坐标值,其中三个维度的坐标值为三维笛卡尔坐标系的x轴、y轴、z轴。
所述物体分割分支网络为任何可能的多层卷积神经网络结构,需要保证其输入维度符合图像特征维度以及输出为一通道的物体像素分割图。物体像素分割图指明了哪些像素属于物体,哪些像素不属于物体。举例说明,像素值为0的部分表示该像素位置不属于目标物体,像素值为1的部分表示该像素位置为目标物体。
像素特征提取分支网络为任何可能的多层卷积神经网络结构,需要保证其输入维度符合图像特征维度以及输出为多通道的像素特征。
所述基本网络的一个可能的实现为12层全卷积神经网络结构,其中可以采用跳接的方式组合特征图,具体为将第3层的输出特征通过跳接,在通道维度上拼接在第6层输出的特征上,将第9层输出的特征图通过一个卷积层获得一个新的特征图,将其在通道维度上拼接在第12层输出的特征图上,将其作为目标物体图像的图像特征。
所述坐标预测分支网络的一个可能实现为采用全卷积神经网络结构,输出与目标图像对应的三通道的坐标。在一种可能的实现中,三通道坐标维度为3x256x256,也就是说每个像素点处预测一个三维坐标。三通道的坐标分别表示目标物体在三维坐标系中三个维度的坐标值,三个维度的坐标值表示在三维笛卡尔坐标系的x轴、y轴、z轴。
所述目标分割分支网络输出一个一通道的物体像素分割图,获得物体像素级的分割结果。一个可能的实现为像素值为0的部分表示该像素位置不属于目标物体,像素值为1的部分表示该像素位置为目标物体。
所述像素特征提取网络的一个可能实现为采用全卷积神经网络结构,用于从所述基本网络提取的图像特征中提取像素特征,输出64通道的像素特征,表示目标物体图像中与每一个像素点对应的特征。
4)初始预测提取模块提取目标物体图像中物体区域的三维坐标以及像素特征。所述坐标预测-物体分割-像素特征提取模块输出的三通道的坐标图、多通道的像素特征中有包含非物体区域(背景区域)的无效结果,因此需要用像素级物体分割结果对坐标预测-物体分割-像素特征提取模块输出的三通道坐标、像素特征进行提取,获得目标物体图像中物体区域的像素对应的三维坐标以及像素特征。可以但不限于使用矩阵索引的方式对三通道坐标、像素特征进行提取。
举例来说,目标物体分割分支网络输出的像素级物体分割中,像素值为1的表示该像素属于目标物体,像素值为0的表示该像素不属于物体,因此可以直接采用矩阵索引的方式,提取出像素值为1处的三通道坐标、多通道的像素特征。假设物体像素级分割结果中值为1的像素个数为n,像素特征的通道数为q,那么提取之后的像素特征的维度为n x q,三维坐标维度为n x 3,可以将提取后三维坐标看成包含n个点的三维点云,每个点是由x、y、z坐标组成。
5)物体局部特征拼接模块包含对初始预测提取模块获得的包含n个点的三维点云进行点云特征提取,点云特征提取采用任何能够从点云中提取特征的网络,本发明不做限制。然后将由点云提取的特征以及初始预测提取模块提取出来的像素特征在通道维度上进行拼接,获得局部拼接特征。举例来说,从点云提取的特征维度为n x p,其通道数为p,像素特征维度为n x q,其通道数为q,那么在对两个特征在通道维度上拼接之后的特征通道数为p+q,特征维度则为n x(p+q)。
所述三维点云以及所述像素特征均为所述目标物体的某一可见部分的三维坐标和像素特征,因此将物体局部拼接特征模块的输出的特征称为物体局部拼接特征。
6)因为所述物体局部拼接特征为从所述三维点云中提取的特征和所述像素特征在通道维度上拼接,因此物体局部特征融合模块用于对所述物体局部拼接特征进行融合,输出物体局部融合特征。局部拼接特征相当于在点云特征的基础上增加了通道数,因此可以使用类似于点云提取网络的任何结构。
在一种可能的实现方式中,可以采用多层感知机对物体局部拼接特征进行处理,获得物体局部融合特征。
7)全局特征提取模块提取物体完整的三维点云特征,输出物体全局特征。因为所述物体全局特征为从物体完整三维点云提取的特征,因此称为物体全局特征。全局特征提取模块可以采用任何能够从点云中提取特征的网络,本发明不做限制。
在一种可能的实现中,可以采用类似于PointNet网络的多层感知机对物体完整的三维点云进行特征提取。
8)局部-全局特征融合模块将所述物体局部融合特征、所述物体局部拼接特征以及所述物体全局特征进行局部-全局特征融合。所述局部-全局特征融合包括将所述物体局部特征、所述物体全局特征扩展维度至所述物体像素级分割结果中物体区域像素个数n,然后将扩维后的物体局部融合特征、扩维后的物体全局特征以及所述物体局部拼接特征在通道维度上进行拼接,获得局部-全局拼接特征。局部-全局拼接特征也相当于在点云特征的基础上增加了通道数,因此可以使用类似于点云提取网络的任何结构来对局部-全局拼接特征进行处理,最终获得精确的三维坐标预测结果。
举例来说,扩维后的物体局部融合特征维度为n x i,扩维后的物体全局特征维度为n x j,所述物体局部拼接特征维度为n x k,在通道维度上进行拼接后获得的局部-全局拼接特征维度为n x(i+j+k),然后对拼接后的局部-全局拼接特征进行处理,获得维度为nx 3的三维坐标预测结果。
在一种可能的实现方式中,扩维后的物体局部融合特征维度为n x 1024,扩维后的物体全局特征维度为n x 1024,所述物体局部拼接特征维度为n x 128,在通道维度上进行拼接后获得的局部-全局拼接特征维度为n x 2176,然后采用多层感知机对拼接后的局部-全局拼接特征进行处理,获得维度为n x 3的三维坐标预测结果。
9)根据所述局部-全局特征模块输出的精确三维坐标预测结果,依据其与二维图像的对应关系,由透视n点算法求得物体位姿。
本发明公开了一种利用局部-全局特征融合的方法获得更加精确的物体三维坐标方法,可以获得更加精确的二维-三维对应,因此可以获得更加精确的物体位姿。
本发明在由图像中获得三维坐标然后进行位姿估计的方法上进行扩展,融合物体全局的三维信息,获得更加精确的物体三维坐标,然后再利用二维-三维对应获得精确的物体位姿。图3示出了本发明实施例的姿态预测详细方法结构图,其具体步骤为:
1)输入待进行位姿估计的输入图像,输入图像中包括带进行姿态预测的目标物体,输入图像不限制其图像大小,对输入图像进行目标检测,本公开的实施例中目标检测可以采用任何目标检测网络,不对其进行限制。目标检测确定目标物体所在区域。在本公开的一个实施例中,采用矩形框作为目标所在区域。
在一种可能的实施方式中,可以采用矩形框的中心点(Cu,Cv)以及矩形框的高h和宽w中的最大值的a倍S=a*max(h,w)来表示目标物体所在基础区域.
2)根据目标所在基础局域,获得目标物体图像。由于目标图像需要进一步输入至坐标预测-物体分割-图像特征提取模块,因此需要将目标图像尺寸转换至坐标预测-物体分割-图像特征提取模块需要的尺寸。在本发明的一实施例中,从所述输入图像中将所述目标物体所在基础区域裁剪,在保持裁剪后图像长宽比不变的情况下将其缩放至坐标预测-物体分割-图像特征提取模块需要的尺寸,得到目标物体图像。如果物体位于输入图像边缘,导致物体所在基础局域有部分区域处于输入图像外,可以采用在缺失的部分补0的方式,得到完全方正的图像,获得目标物体图像。
在一种可能的实现方式中,给定一个目标检测器输出的矩形框,该矩形框包含位置为Cu,v的目标对象。检测框的高和宽分别是h和w像素。可以认为边界框的大小为S=max(h,w)。然后使用边界框的中心点Cu,v作为参考点来放大边界框至最后根据/>来裁剪图像。如果裁剪的范围超过完整图像区域,可以对缺失的部分进行补零。然后将裁剪后的图像放大至一个固定大小S*,得到目标物体图像,具体的S*可以为128,256等数值,但是不宜过大或者过小,放大可以采用最近邻插值算法或者双线性内插算法。
3)将所述目标物体图像输入至坐标预测-物体分割-像素特征提取模块,所述坐标预测-物体分割-图像特征提取模块包括基本网络,坐标预测分支网络、目标物体分割分支网络、图像特征提取分支网络。
所述基本网络的一个可能的实现为12层全卷积神经网络结构,其中可以采用跳接的方式组合特征图,具体为将第3层的输出特征通过跳接,拼接在第6层输出的特征上,将第9层输出的特征图通过一个卷积层获得一个新的特征图,将其拼接在第12层输出的特征图上,将其作为目标物体图像的基本特征。
所述坐标预测分支网络的一个可能实现为采用全卷积神经网络结构,输出三个通道的目标物体坐标图,三通道目标物体坐标图分别表示目标物体在三维坐标系中三个维度的坐标值,三个维度的坐标值表示在三维笛卡尔坐标系的x轴、y轴、z轴。
所述目标分割分支网络输出一个一通道的物体像素分割,一个可能的实现为像素值为0的部分表示该像素位置不属于目标物体,像素值为1的部分表示该像素位置为目标物体。
所述像素特征提取网络的一个可能实现为采用全卷积神经网络结构,输出64通道的图像特征图,表示图像像素点对应的图像特征。
坐标预测-物体分割-图像特征提取模块一个可能的实现如图4所示。将三通道分辨率为256x256的目标物体图像输入坐标预测-物体分割-像素特征提取模块,三个分支网络分别得到64通道的像素特征、一通道的物体分割、三通道的三维坐标预测。
4)初始预测提取模块根据所述目标物体分割分支网络输出物体分割结果找到物体所在像素位置的三维坐标预测结果、像素特征结果。假设物体分割结果中包含物体的像素个数为n,那么提取之后的图像特征维度为n x 64,三维坐标维度为n x 3,可以将其视为包含n个点的三维点云。
5)物体局部特征拼接模块包含对初始预测提取模块获得的包含n个点的三维点云进行点云特征提取,然后物体局部特征拼接模块将由点云提取的特征以及初始预测提取模块提取出来的像素特征在通道维度上进行拼接,获得局部拼接特征。
对于提取出来的三维点云,可以采用点云提取网络对其进行特征提取,点云提取网络包括PointNet但不限于PointNet,可以得到n x 64维度的三维点特征,然后将三维点特征与图像特征在通道维度上进行拼接,可以得到n x 128维度的局部拼接特征,所述三维坐标预测结果以及图像特征均为所述目标物体的某一可见部分的三维坐标预测和图像特征,因此将物体局部融合特征模块的输出称为物体局部融合特征。
6)物体局部特征融合模块用于对所述物体局部拼接特征进行融合,输出物体局部融合特征。在融合特征的一种可能的实现中,可以采用多层感知机对物体局部拼接特征进行处理,获得物体局部融合特征。特征提取模块也可以采用类似于PointNet结构提取特征,并且采用最大池化层将特征维度进行压缩,得到1x 1024维度的物体局部融合特征。
7)已知物体的完整三维点云,设物体三维点云中点的个数为m,m可以包括10000但不限于10000,可以为其他数值,保证点云尽可能的包含完整的物体模型。全局特征提取模块可以提取物体完整的三维点云特征,输出物体全局特征;全局特征提取模块的一个可能实现为类似于PointNet结构的点云特征提取网络,但是不限于PointNet结构,全局特征提取模块首先获得mx 64为特征,然后采用平均池化层获得1x 1024为特征,获得物体全局特征。因为所述物体全局特征为从物体完整三维点云提取的特征,因此称为物体全局特征;
8)局部-全局特征融合模块将所述物体局部融合特征、所述物体局部拼接特征以及所述物体全局特征进行局部-全局特征融合。所述局部-全局特征融合包括将所述物体局部融合特征、所述物体全局特征维度分别扩展至n x 1024维,然后将所述扩维后的物体局部融合特征、扩维后物体全局特征以及所述物体局部拼接特征在通道维度上进行拼接,得到n x 2176维度的特征,采用多层感知机对拼接后的特征进行处理,最终获得n x 3维的精确三维坐标预测结果。
9)根据所述局部-全局特征模块输出的精确三维坐标预测结果,依据其与二维图像的对应关系,由透视n点算法求得物体位姿。
如图5为本发明一实施例的完整网络结构图,其中MLP表示多层感知机,Avgpool表示平均池化操作。
Claims (8)
1.一种融合三维模型信息的单张图像物体位姿估计方法,其特征在于,包括以下步骤:
1)对待进行位姿估计的输入图像进行目标检测,确定目标物体所在区域;
2)将目标物体基础区域从输入图像中截取,获得目标物体图像;
3)从目标物体图像中提取特征,将提取出的特征称为图像特征;根据图像特征对目标物体的三维坐标进行预测;根据图像特征对目标物体图像进行物体分割,获得物体像素级分割结果;根据图像特征对目标物体图像再次进行特征提取,获得像素特征,表示目标物体图像中每一个像素点对应的特征;
4)提取目标物体图像中物体区域的三维坐标以及像素特征,获得包含n个点的三维点云;
5)对包含n个点的三维点云进行点云特征提取;将提取的特征以及步骤4)提取的像素特征在通道维度上进行拼接,获得物体局部拼接特征;
6)对所述物体局部拼接特征进行融合,获得物体局部融合特征;
7)提取目标物体完整的三维点云特征,输出物体全局特征;
8)将物体局部特征、物体全局特征扩展维度至所述物体像素级分割结果中物体区域像素个数n,然后将扩维后的物体局部融合特征、扩维后的物体全局特征以及物体局部拼接特征在通道维度上进行拼接,获得局部-全局拼接特征;对局部-全局拼接特征进行处理,最终获得精确三维坐标预测结果;
9)根据精确三维坐标预测结果,依据其与二维图像的对应关系,由透视n点算法求得目标物体位姿。
2.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法,其特征在于,所述的目标所在区域是指包含目标物体的矩形框,以矩形框中心点以及矩形框的高和宽中的最大值所确定的区域作为目标物体所在基础区域。
3.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法,其特征在于,所述的三维坐标预测采用多层卷积神经网络结构,其输入维度符合图像特征维度,输出为三通道的坐标预测;三通道坐标预测表示目标物体图像中每一个像素点处的三通道坐标,三通道坐标表示目标物体在三维坐标系中三个维度的坐标值,分别为三维笛卡尔坐标系的x轴、y轴、z轴。
4.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法,其特征在于,所述的物体分割采用多层卷积神经网络结构,其输入维度符合图像特征维度,输出为一通道的物体像素分割图;物体像素分割图通过像素值指明属于物体的像素。
5.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法,其特征在于,所述的像素特征提取采用多层卷积神经网络结构,其输入维度符合图像特征维度,输出为多通道的像素特征。
6.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法,其特征在于,所述的提取目标物体图像中物体区域的三维坐标以及像素特征使用矩阵索引的方式。
7.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法,其特征在于,所述的物体局部融合特征采用多层感知机对物体局部拼接特征进行处理获得。
8.根据权利要求1所述的融合三维模型信息的单张图像物体位姿估计方法,其特征在于,所述的物体全局特征采用多层感知机对物体完整的三维点云进行特征提取获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011518313.8A CN112598735B (zh) | 2020-12-21 | 2020-12-21 | 一种融合三维模型信息的单张图像物体位姿估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011518313.8A CN112598735B (zh) | 2020-12-21 | 2020-12-21 | 一种融合三维模型信息的单张图像物体位姿估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112598735A CN112598735A (zh) | 2021-04-02 |
CN112598735B true CN112598735B (zh) | 2024-02-27 |
Family
ID=75199657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011518313.8A Active CN112598735B (zh) | 2020-12-21 | 2020-12-21 | 一种融合三维模型信息的单张图像物体位姿估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598735B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI804845B (zh) * | 2021-04-08 | 2023-06-11 | 中強光電股份有限公司 | 物件定位方法及物件定位系統 |
CN113298948B (zh) * | 2021-05-07 | 2022-08-02 | 中国科学院深圳先进技术研究院 | 三维网格重建方法、装置、设备及存储介质 |
CN113393522B (zh) * | 2021-05-27 | 2022-05-06 | 湖南大学 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179324A (zh) * | 2019-12-30 | 2020-05-19 | 同济大学 | 基于颜色和深度信息融合的物体六自由度位姿估计方法 |
CN111626217A (zh) * | 2020-05-28 | 2020-09-04 | 宁波博登智能科技有限责任公司 | 一种基于二维图片和三维点云融合的目标检测和追踪方法 |
CN111815707A (zh) * | 2020-07-03 | 2020-10-23 | 北京爱笔科技有限公司 | 点云确定方法、点云筛选方法、装置、计算机设备 |
CN111915677A (zh) * | 2020-07-08 | 2020-11-10 | 哈尔滨工程大学 | 一种基于三维点云特征的船舶位姿估计方法 |
-
2020
- 2020-12-21 CN CN202011518313.8A patent/CN112598735B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179324A (zh) * | 2019-12-30 | 2020-05-19 | 同济大学 | 基于颜色和深度信息融合的物体六自由度位姿估计方法 |
CN111626217A (zh) * | 2020-05-28 | 2020-09-04 | 宁波博登智能科技有限责任公司 | 一种基于二维图片和三维点云融合的目标检测和追踪方法 |
CN111815707A (zh) * | 2020-07-03 | 2020-10-23 | 北京爱笔科技有限公司 | 点云确定方法、点云筛选方法、装置、计算机设备 |
CN111915677A (zh) * | 2020-07-08 | 2020-11-10 | 哈尔滨工程大学 | 一种基于三维点云特征的船舶位姿估计方法 |
Non-Patent Citations (3)
Title |
---|
NTIRE 2017 Challenge on Single Image Super-Resolution: Methods and Results;Timofte, Radu;《 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW)》;20170101;全文 * |
Stereo Computation for a Single Mixture Image.《SPRINGER-VERLAG BERLIN》.2018,全文. * |
大尺寸工业视觉测量系统;刘建伟;《光学精密工程》;20100131;第18卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112598735A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598735B (zh) | 一种融合三维模型信息的单张图像物体位姿估计方法 | |
CN111563415B (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
CN111862126B (zh) | 深度学习与几何算法结合的非合作目标相对位姿估计方法 | |
CN110298884B (zh) | 一种适于动态环境中单目视觉相机的位姿估计方法 | |
US9420265B2 (en) | Tracking poses of 3D camera using points and planes | |
CN112270249A (zh) | 一种融合rgb-d视觉特征的目标位姿估计方法 | |
CN109145747B (zh) | 一种水面全景图像语义分割方法 | |
JP6491517B2 (ja) | 画像認識ar装置並びにその姿勢推定装置及び姿勢追跡装置 | |
CN111899301A (zh) | 一种基于深度学习的工件6d位姿估计方法 | |
US8503730B2 (en) | System and method of extracting plane features | |
CN111829532B (zh) | 一种飞行器重定位系统和重定位方法 | |
KR20190030474A (ko) | 신뢰도에 기초하여 깊이 맵을 산출하는 방법 및 장치 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN111738033B (zh) | 基于平面分割的车辆行驶信息确定方法及装置、车载终端 | |
CN110599522A (zh) | 一种视频序列中动态目标检测剔除方法 | |
CN112767486A (zh) | 基于深度卷积神经网络的单目6d姿态估计方法及装置 | |
CN115410167A (zh) | 目标检测与语义分割方法、装置、设备及存储介质 | |
CN110348351B (zh) | 一种图像语义分割的方法、终端和可读存储介质 | |
US9392146B2 (en) | Apparatus and method for extracting object | |
CN112085842B (zh) | 深度值确定方法及装置、电子设备和存储介质 | |
JP2006113832A (ja) | ステレオ画像処理装置およびプログラム | |
CN115546027B (zh) | 图像缝合线确定方法、装置以及存储介质 | |
Kurka et al. | Automatic estimation of camera parameters from a solid calibration box | |
CN112419409A (zh) | 一种基于实时视频的位姿估计方法 | |
CN117689990B (zh) | 一种基于6d姿态估计的三支流双向融合网络方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |