CN108648194A - 基于cad模型三维目标识别分割和位姿测量方法及装置 - Google Patents
基于cad模型三维目标识别分割和位姿测量方法及装置 Download PDFInfo
- Publication number
- CN108648194A CN108648194A CN201810367445.1A CN201810367445A CN108648194A CN 108648194 A CN108648194 A CN 108648194A CN 201810367445 A CN201810367445 A CN 201810367445A CN 108648194 A CN108648194 A CN 108648194A
- Authority
- CN
- China
- Prior art keywords
- target
- model
- segmentation
- dimensional
- feature points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 238000013519 translation Methods 0.000 claims abstract description 22
- 238000005259 measurement Methods 0.000 claims description 40
- 230000000007 visual effect Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 20
- 238000000691 measurement method Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 abstract description 9
- 239000000284 extract Substances 0.000 abstract description 4
- 238000011960 computer-aided design Methods 0.000 description 57
- 238000013527 convolutional neural network Methods 0.000 description 27
- 238000004364 calculation method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于CAD模型三维目标识别分割和位姿测量方法及装置,其中,方法包括:进行二维目标识别,以提取目标矩形框;根据目标矩形框复用Faster RCNN网络的CNN网络结构;对目标矩形框的特征点进行部件化约束,并将约束后的特征点输入复用后的CNN网络结构,提取鲁棒性的特征点;获取合适目标的匹配模型;恢复目标相对空间模型的投影矩阵,并获取平移和旋转状态;根据目标相对空间模型的投影矩阵、平移和旋转状态将匹配模型相应平移和旋转后的模型投影到目标区域内,以完成目标分割。该方法建立了对目标的全面理解,为对场景的理解建立基础,并具备响应速度快,精度高,鲁棒性好的特点。
Description
技术领域
本发明涉及图像识别技术领域,特别涉及一种基于CAD(Computer AidedDrafting,计算机辅助设计)模型的三维目标识别分割和位姿测量方法及装置。
背景技术
目前,随着计算机视觉理论发展以及硬件设备水平的提升,在识别领域产生了大量三维目标数据,由于三维目标数据包含了目标完整的信息,能够弥补二维目标识别的固有缺陷,所以三维目标识别技术受到越来越多的重视。其主要的任务为:识别图像中目标的类型,给出目标在场景中的相对位置和目标姿态。
相关技术中,对于三维目标识别和姿态测量主要包括接触式方法和非接触式方法两种方法。
接触式方法主要是通过在目标物体搭载加速计,陀螺仪等设备,进行主动的测量。在目标物体上安装测量轴分别与载体坐标系的纵轴、横轴、竖轴相重合的三个加速计以及测量轴分别与横轴、竖轴相重合的两个速率陀螺仪,通过测量合成旋转角速度,然后借助捷联导航中的理论进行姿态解算。此种方法测量精度较高,响应速度快,但缺点是需要在目标物体上进行搭载,不适用于与未知的非合作目标物体,对于远程目标的位姿信息无法测量。
非接触式方法中,主要以光学方法为主。对于三维目标识别主要是采用双目相机或者单相机搭配激光测距装置,对目标空间位置和特征点就行识别,并进行匹配,确定目标及其姿态。此方法适用性较强,可以对非合作目标进行测量,但受到特征点和类别数目的制约。当特征点较多或待识别的类别较多时,会使系统精度下降以及实时性差,并且对相机标定的精度要求较高。近年来,出现了以神经网络为主的计算方法,其能够较精确的完成多类别2D目标识别,如Faster RCNN,其通过在数据集上的训练获得较强的识别能力,例如ImageNet,Pascal 3D+数据集等。但对如姿态、分割等任务中连续变量的计算,还没能达到足够的精度。此外,在很多不具测距设备的情况下,单相机三维重建识别和位姿测量还没达到足够的精度和效率。另一方面,对于场景认知来说,目标的三维语义分割也是非常重要的一个任务,以往采用神经网络的分割方法在训练时需要对每一个像素进行标注,十分耗费人力物力,而不进行像素级标注的其他方法又不能达到足够好的分割效果。更重要的是,对目标的三维场景理解也仅停留在将其划分为识别、分割、姿态测量等不同任务之上,并不能建立对目标的整体理解。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于CAD模型三维目标识别分割和位姿测量方法,该方法建立了对目标的全面理解,为对场景的理解建立基础,并具备响应速度快,精度高,鲁棒性好的特点。
本发明的另一个目的在于提出一种基于CAD模型三维目标识别分割和位姿测量装置。
为达到上述目的,本发明一方面实施例提出了一种基于CAD模型三维目标识别分割和位姿测量方法,包括以下步骤:通过Faster RCNN网络在Pascal 3D+数据集上训练,并对输入图像进行二维目标识别,以提取目标矩形框;根据所述目标矩形框复用所述FasterRCNN网络的CNN(Convolutional Neural Network,卷积神经网络)网络结构,其中,修改输出层为离散的视角值,代价函数修改为视角偏差值;对所述目标矩形框的特征点进行部件化约束,并将约束后的特征点输入复用后的所述CNN网络结构,并修改输入输出层为特征点位置,以提取鲁棒性的特征点;获取合适目标的匹配模型;通过所述匹配模型的3D特征点建立与所述鲁棒性的特征点的匹配关系,以恢复所述目标相对空间模型的投影矩阵,并获取平移和旋转状态;根据所述目标相对空间模型的投影矩阵、所述平移和旋转状态将所述匹配模型相应平移和旋转后的模型投影到目标区域内,以完成目标分割。
本发明实施例的基于CAD模型三维目标识别分割和位姿测量方法,通过在2D识别的基础上,复用CNN网络结构,并结合视角估计和主特征点识别建立空间模型,并与模型库中适合的CAD模型建立匹配关系,实现位姿的测量,进一步将相应位姿的CAD模型投影至目标矩形框中,完成对目标的分割,从而建立了对目标的全面理解,为对场景的理解建立基础,并具备响应速度快,精度高,鲁棒性好的特点。
另外,根据本发明上述实施例的基于CAD模型三维目标识别分割和位姿测量方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述通过Faster RCNN网络在Pascal 3D+数据集上训练,并对输入图像进行二维目标识别,进一步包括:在训练阶段,通过所述Pascal3D+数据对待识别目标的不同角度和状态图片进行训练;在识别阶段,完成端对端的所述二维目标识别。
进一步地,在本发明的一个实施例中,所述对所述目标矩形框的特征点进行部件化约束,并将约束后的特征点输入复用后的所述CNN网络结构,并修改输入输出层为特征点位置,以提取鲁棒性的特征点,进一步包括:通过部件化约束去掉部件之外的特征点,以得到图像描述的描述子;将所述图像描述的描述子输入到所述复用后的所述CNN网络结构中,并修改输入输出层为特征点位置,以提取所述鲁棒性的特征点。
进一步地,在本发明的一个实施例中,所述合适目标的匹配模型为在相同视角估计下的特征点具有相同分布的CAD模型,其中,根据所述离散的视角值和所述视角偏差值进行视角估计。
进一步地,在本发明的一个实施例中,所述投影矩阵为:
其中,为三维CAD模型j的特征点在投影变换P下的2D特征点,c为选出的最优模型的序号。
为达到上述目的,本发明另一方面实施例提出了一种基于CAD模型三维目标识别分割和位姿测量装置,包括:二维目标识别模块,用于通过Faster RCNN网络在Pascal 3D+数据集上训练,并对输入图像进行二维目标识别,以提取目标矩形框;视角估计模块,用于根据所述目标矩形框复用所述Faster RCNN网络的CNN网络结构,其中,修改输出层为离散的视角值,代价函数修改为视角偏差值;特征点识别模块,用于对所述目标矩形框的特征点进行部件化约束,并将约束后的特征点输入复用后的所述CNN网络结构,并修改输入输出层为特征点位置,以提取鲁棒性的特征点;获取模块,用于获取合适目标的匹配模型;位姿测量模块,用于通过所述匹配模型的3D特征点建立与所述鲁棒性的特征点的匹配关系,以恢复所述目标相对空间模型的投影矩阵,并获取平移和旋转状态;目标分割模块,用于根据所述目标相对空间模型的投影矩阵、所述平移和旋转状态将所述匹配模型相应平移和旋转后的模型投影到目标区域内,以完成目标分割。
本发明实施例的基于CAD模型三维目标识别分割和位姿测量装置,通过在2D识别的基础上,复用CNN网络结构,并结合视角估计和主特征点识别建立空间模型,并与模型库中适合的CAD模型建立匹配关系,实现位姿的测量,进一步将相应位姿的CAD模型投影至目标矩形框中,完成对目标的分割,从而建立了对目标的全面理解,为对场景的理解建立基础,并具备响应速度快,精度高,鲁棒性好的特点。
另外,根据本发明上述实施例的基于CAD模型三维目标识别分割和位姿测量装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述二维目标识别模块进一步用于在训练阶段,通过所述Pascal 3D+数据对待识别目标的不同角度和状态图片进行训练,并在识别阶段,完成端对端的所述二维目标识别。
进一步地,在本发明的一个实施例中,所述特征点提取模块进一步用于通过部件化约束去掉部件之外的特征点,以得到图像描述的描述子,并将所述图像描述的描述子输入到所述复用后的所述CNN网络结构中,并修改输入输出层为特征点位置,以提取所述鲁棒性的特征点。
进一步地,在本发明的一个实施例中,所述合适目标的匹配模型为在相同视角估计下的特征点具有相同分布的CAD模型,其中,根据所述离散的视角值和所述视角偏差值进行视角估计。
进一步地,在本发明的一个实施例中,所述投影矩阵为:
其中,为三维CAD模型j的特征点在投影变换P下的2D特征点,c为选出的最优模型的序号。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于CAD模型三维目标识别分割和位姿测量方法的流程图;
图2为根据本发明一个具体实施例的基于CAD模型三维目标识别分割和位姿测量方法的流程图;
图3为根据本发明一个实施例的卷积神经网络结构示意图;
图4为根据本发明一个实施例的主特征点识别的流程图;
图5为根据本发明一个实施例的部件化约束示意图;
图6为根据本发明一个实施例的CAD模型示意图;
图7为根据本发明一个实施例的基于CAD模型三维目标识别分割和位姿测量装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于CAD模型三维目标识别分割和位姿测量方法及装置,首先将参照附图描述根据本发明实施例提出的基于CAD模型三维目标识别分割和位姿测量方法。
图1是本发明一个实施例的基于CAD模型三维目标识别分割和位姿测量方法的流程图。
如图1所示,该基于CAD模型三维目标识别分割和位姿测量方法包括以下步骤:
在步骤S101中,通过Faster RCNN网络在Pascal 3D+数据集上训练,并对输入图像进行二维目标识别,以提取目标矩形框。
可以理解的是,如图2所示,本发明实施例进行2D目标识别,采用Faster RCNN网络,在Pascal 3D+数据集上训练,完成二维目标识别,提取目标的矩形框。
进一步地,在本发明的一个实施例中,通过Faster RCNN网络在Pascal 3D+数据集上训练,并对输入图像进行二维目标识别,进一步包括:在训练阶段,通过Pascal 3D+数据对待识别目标的不同角度和状态图片进行训练;在识别阶段,完成端对端的二维目标识别。
可以理解的是,本发明实施例在已获得的单帧图像上完成2D目标识别,这里采用Faster RCNN网络进行目标识别,其主要包括候选窗口提取网络RPN(risk prioritynumber,风险优先数)以及判别网络RCNN(Regions with CNN features,基于候选区域的目标检测)。在训练阶段,采用Pascal 3D+数据集以及待识别目标的多个不同角度以及状态的照片;在识别阶段,完成端对端的2D目标识别。在后面的计算流程中,本发明也会在后续的视角估计和2D鲁棒性特征点中复用这个RCNN的网络结构。
具体而言,如图2所示,输入图像可以是灰度图像、彩色图像或红外图像等,现以彩色RGB(red、green、blue,红、绿、蓝三色)图像为例。得到单张输入图像后,首先进行2D目标识别,即在图像中找出目标的矩形包围框。如图3所示,faster RCNN结构,此网络结构主要包括多层卷积与池化网络层、卷积层、结合候选窗口提取网络、获得特征区域,并进行不同大小的特征区域池化,输入最后的全卷积网络,最终的代价函数为加权分类代价和定位代价,即分类的差别代价以及目标包围框的大小与偏差代价如下式。其中Lcls为分类代价,Lloc为定位代价,λ为加权参数。
其中,虚线框内的部分将会在后面视角估计和主特征点识别中复用,而特征候选窗口提取以及代价函数可以为2D图像目标识别所适用。
在卷积与池化网络中,包含多层卷积与池化层,一般卷积层需大于10层,主要用以提取图像的多个特征,结合池化层,形成多个特征图。在特征区域池化层中,主要是将不同大小的候选窗口映射到相同维的特征向量中,从而统一进行训练和判别。经过2D目标识别后,针对获得矩形包围框。进行视角估计以及主特征点识别。
在步骤S102中,根据目标矩形框复用Faster RCNN网络的CNN网络结构,其中,修改输出层为离散的视角值,代价函数修改为视角偏差值。
可以理解的是,如图2所示,本发明实施例进行视角估计,通过获得的目标矩形框,复用Faster RCNN网络中的CNN网络结构,修改输出层为离散的视角值,代价函数修改为视角偏差值。其中,CNN网络被复用在多个子任务中,仅需根据需要修改输入和输出层以及代价函数,采用相同的主网络结构。
具体而言,在图像中,对每一个已获得的目标窗口,对其进行窗内目标视角的回归。输出层为连续视角变量,输入层为同一目标在识别窗口内的视角数据,也即偏航角(yaw)。此视角估计将作为后续2D-3D抬升的初始值,通过视角估计产生三维抬升时的初始,并通过视角约束待匹配的特征点,提高计算效率和精度。
在视角估计(即偏航角)中,复用相同的CNN结构,修改输出层为不同的视角分类,代价函数为视角类别误差代价。例如,将视角每10度为一个区间,分为36个类别,进行视角估计。此处对视角的估计为后续姿态测量7和目标分割8的初值,能显著提升算法计算速度和精度。
在步骤S103中,对目标矩形框的特征点进行部件化约束,并将约束后的特征点输入复用后的CNN网络结构,并修改输入输出层为特征点位置,以提取鲁棒性的特征点。
可以理解的是,如图2所示,本发明实施例进行主特征点的识别,为提高模型的鲁棒性以及获得更高的姿态测量和目标分割精度,本发明对目标矩形框中的特征点,采取部件化约束,并输入复用的CNN网络,修改输入输出层为特征点位置,提取出鲁棒性的特征点。其中,采用训练的方法获得与3D模型对应的鲁棒性特征点,并通过部件化约束,去掉冗余的和非代表性的特征点。
具体而言,在三维模型方面,因目标具备形态多样性以及细节多样性,所以对某一类目标需要选取多个不同的模型,建立对于特定目标的三维模型库。在每次图像识别后,在模型库中找到相应视觉上看起来最相似的模型,作为待匹配的三维模型。
另一方面,为后续图像到三维模型的转换,此处对二维图像中目标的特征点进行筛选,选出鲁棒性强的图像特征点,也即物体固有特征。此处仍采用用于目标识别的RCNN网络结构,输入层为已检测出的目标窗口,输出为目标窗口中的特征点位置。为此,本发明实施例需要对待识别的目标进行鲁棒特征点标注,以此对网络进行训练。
进一步地,在本发明的一个实施例中,对目标矩形框的特征点进行部件化约束,并将约束后的特征点输入复用后的CNN网络结构,并修改输入输出层为特征点位置,以提取鲁棒性的特征点,进一步包括:通过部件化约束去掉部件之外的特征点,以得到图像描述的描述子;将图像描述的描述子输入到复用后的CNN网络结构中,并修改输入输出层为特征点位置,以提取鲁棒性的特征点。
具体而言,主特征点识别主要是训练目标中的特征点,提取出目标中的鲁棒性特征点,能够全面并简洁代表目标特征的主要特征点,并与其具体流程图如图4所示,在获取的目标矩形窗口中,引入部件化约束,将目标中的主特征点约束在各个的部件中。具体部件模型如图5所示,每一种目标可以将其部件切割成不同的部件,在每一个部件中提取其对应的特征点并在其中选择鲁棒性的特征点。对部件之外的区域的特征点进行舍弃,得到图像描述的描述子,通过输入到RCNN网络中,得到能够匹配CAD模型的主特征点。其中RCNN网络复用相同CNN结构,将其输入输出层修改为特征点的位置。
在步骤S104中,获取合适目标的匹配模型。
进一步地,在本发明的一个实施例中,合适目标的匹配模型为在相同视角估计下的特征点具有相同分布的CAD模型,其中,根据离散的视角值和视角偏差值进行视角估计。
可以理解的是,如图2所示,形成空间模型,空间模型主要包括视角估计,主特征点以及适合的CAD模型。其中,在模型库中,选取在相同估计视角下的具有特征点具有相同分布的CAD模型作为目标适合的匹配模型。
其中,本发明实施例获得对视角的估计值以及鲁棒性特征点的筛选之后,进一步,为便于后续三维匹配,提高3D目标识别和姿态测量的精度以及计算速度,在此对特征点和视角进行预处理。主要包括两方面,其一约束每一类物体特征点的位置范围以及将视角与特征的相对位置关系。
需要说明的是,CAD模型即为用CAD软件(计算机辅助设计软件)设计的三维模型。如图6所示,CAD模型的每个模型包含多个用于匹配的空间特征点10,例如,不同视角的特征点个数应大于10个,以便于与二维目标进行匹配。其中的特征点应为鲁棒性的特征点,应能代表整个一类目标的主要特点,与主特征点识别相对应。此外,CAD库中的每一个CAD模型应具备足够细节,较高的分辨率,并处于相同的尺度下。对每一个类别,例如,应具备多于5个模型,以备选取最适宜匹配的模型。当候选模型越多时,姿态测量和目标分割的精度就会越高。
具体而言,获得视角估计和主特征点之后,形成空间模型,用以与合适的CAD模型匹配。为保证整个流程的自动化进行,通过粗匹配的方式在模型库中选出适合的模型。具体来说,在模型库选取CAD模型时,通过在提取的矩形框中得到的初步特征点与模型相同视角下的特征点相匹配,选出最优模型,并以此进行三维抬升。
在步骤S105中,通过匹配模型的3D特征点建立与鲁棒性的特征点的匹配关系,以恢复目标相对空间模型的投影矩阵,并获取平移和旋转状态。
可以理解的是,如图2所示,位姿测量通过空间模型中的3D特征点,建立与2D识别矩形框中相应鲁棒特征点的匹配关系,恢复出2D目标相对空间模型的投影矩阵,并计算出相对的平移和旋转状态。
也就是说,在三维匹配阶段,根据所求出的视角初值,根据特征点匹配的关系,还原二维目标中的三维信息,完成2D-3D的抬升
进一步地,在本发明的一个实施例中,投影矩阵为:
其中,为三维CAD模型j的特征点在投影变换P下的2D特征点,c为选出的最优模型的序号。
具体而言,空间模型与CAD模型匹配的三维抬升过程6,是采用2D鲁棒性主特征点,结合视角初值与CAD相应的空间特征点相匹配,优化函数如下:
其中,为三维CAD模型j的特征点在投影变换P下的2D特征点,c为选出的最优模型的序号,P*为最优的投影矩阵。其中,视角估计得到的角度估计作为P*矩阵的初值,通过相应鲁棒特征点的匹配,优化目标函数,获得位姿测量结果。
在步骤S106中,根据目标相对空间模型的投影矩阵、平移和旋转状态将匹配模型相应平移和旋转后的模型投影到目标区域内,以完成目标分割。
可以理解的是,本发明实施例通过位姿测量的结果,将CAD模型相应平移和旋转后的模型投影到目标区域内,完成目标分割。其中,本发明实施例对匹配的三维模型进行投影,获得原图像上的目标分割。具体地,将同位姿的CAD模型投影至输入图像中,完成目标分割任务。从而在2D识别的基础上,同时完成三维重建、位姿测量以及目标分割,本发明实施例仅用单帧图像同时获得较好的识别、分割和位姿测量结果,形成对目标的理解。
综上,本发明实施例主要解决了现有方法,仅针对目标识别、分割、姿态测量等单独任务进行处理,不能建立对目标的全面理解的问题。本发明实施例的方法可以同时完成三维识别、姿态测量、目标分割,对于单帧图像更加高效精确,建立对目标的全面理解。首先采用卷积神经网络完成对二维图像目标的识别,得到图像上目标的位置,并对其视角进行回归估计。之后,从三维模型库中筛选出较为合适的三维CAD模型,结合已估计得到的视角为初值,以及此CAD模型完成二维目标与三维模型的匹配,其中,由于匹配是通过特征点进行的,所以在匹配前先要完成鲁棒性特征点的检测,同时修正视角得到对目标三维姿态的计算,提升由此完成二维到三维的提升,进一步,完成基于目标的分割。
另外,本发明实施例具有如下优点:
(1)仅通过一张图像完成三维目标的重建:以往方法多通过特征点匹配的方法,与人类的视觉过程不同。本发明实施例可以仅通过一张图片完成三维重建的过程与人类的视觉过程更类似,并完成对目标的三维估计以及理解。
(2)同时完成目标识别三维重建、姿态测量和三维分割,建立对目标的初步理解:以往方法只是针对其中一个任务进行设计,而本发明实施例更与人类认识过程相近,同时完成对目标的三维识别、姿态测量和分割。为后面对场景的认知等工作作了充分铺垫。
(3)计算效率高,响应速度快:由于本发明实施例方法中不存在对大量特征点的匹配,不依赖相机的标定精度,减少了累积误差。以及采用共用神经网络结构的结构,使得本发明实施例的计算和训练效率较高。
根据本发明实施例提出的基于CAD模型三维目标识别分割和位姿测量方法,通过在2D识别的基础上,复用CNN网络结构,并结合视角估计和主特征点识别建立空间模型,并与模型库中适合的CAD模型建立匹配关系,实现位姿的测量,进一步将相应位姿的CAD模型投影至目标矩形框中,完成对目标的分割,从而建立了对目标的全面理解,为对场景的理解建立基础,并具备响应速度快,精度高,鲁棒性好的特点。
其次参照附图描述根据本发明实施例提出的基于CAD模型三维目标识别分割和位姿测量装置。
图7是本发明一个实施例的基于CAD模型三维目标识别分割和位姿测量装置的结构示意图。
如图7所示,该基于CAD模型三维目标识别分割和位姿测量装置10包括:二维目标识别模块100、视角估计模块200、特征点识别模块300、获取模块400、位姿测量模块500和目标分割模块600。
其中,二维目标识别模块100用于通过Faster RCNN网络在Pascal 3D+数据集上训练,并对输入图像进行二维目标识别,以提取目标矩形框。视角估计模块200用于根据目标矩形框复用Faster RCNN网络的CNN网络结构,其中,修改输出层为离散的视角值,代价函数修改为视角偏差值。特征点识别模块300用于对目标矩形框的特征点进行部件化约束,并将约束后的特征点输入复用后的CNN网络结构,并修改输入输出层为特征点位置,以提取鲁棒性的特征点。获取模块400用于获取合适目标的匹配模型。位姿测量模块500用于通过匹配模型的3D特征点建立与鲁棒性的特征点的匹配关系,以恢复目标相对空间模型的投影矩阵,并获取平移和旋转状态。目标分割模块600用于根据目标相对空间模型的投影矩阵、平移和旋转状态将匹配模型相应平移和旋转后的模型投影到目标区域内,以完成目标分割。本发明实施例的装置10建立了对目标的全面理解,为对场景的理解建立基础,并具备响应速度快,精度高,鲁棒性好的特点。
进一步地,在本发明的一个实施例中,二维目标识别模块100进一步用于在训练阶段,通过Pascal 3D+数据对待识别目标的不同角度和状态图片进行训练,并在识别阶段,完成端对端的二维目标识别。
进一步地,在本发明的一个实施例中,特征点提取模块300进一步用于通过部件化约束去掉部件之外的特征点,以得到图像描述的描述子,并将图像描述的描述子输入到复用后的CNN网络结构中,并修改输入输出层为特征点位置,以提取鲁棒性的特征点。
进一步地,在本发明的一个实施例中,合适目标的匹配模型为在相同视角估计下的特征点具有相同分布的CAD模型,其中,根据离散的视角值和视角偏差值进行视角估计。
进一步地,在本发明的一个实施例中,投影矩阵为:
其中,为三维CAD模型j的特征点在投影变换P下的2D特征点,c为选出的最优模型的序号。
需要说明的是,前述对基于CAD模型三维目标识别分割和位姿测量方法实施例的解释说明也适用于该实施例的基于CAD模型三维目标识别分割和位姿测量装置,此处不再赘述。
根据本发明实施例提出的基于CAD模型三维目标识别分割和位姿测量装置,通过在2D识别的基础上,复用CNN网络结构,并结合视角估计和主特征点识别建立空间模型,并与模型库中适合的CAD模型建立匹配关系,实现位姿的测量,进一步将相应位姿的CAD模型投影至目标矩形框中,完成对目标的分割,从而建立了对目标的全面理解,为对场景的理解建立基础,并具备响应速度快,精度高,鲁棒性好的特点。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于CAD模型三维目标识别分割和位姿测量方法,其特征在于,包括以下步骤:
通过Faster RCNN网络在Pascal 3D+数据集上训练,并对输入图像进行二维目标识别,以提取目标矩形框;
根据所述目标矩形框复用所述Faster RCNN网络的CNN网络结构,其中,修改输出层为离散的视角值,代价函数修改为视角偏差值;
对所述目标矩形框的特征点进行部件化约束,并将约束后的特征点输入复用后的所述CNN网络结构,并修改输入输出层为特征点位置,以提取鲁棒性的特征点;
获取合适目标的匹配模型;
通过所述匹配模型的3D特征点建立与所述鲁棒性的特征点的匹配关系,以恢复所述目标相对空间模型的投影矩阵,并获取平移和旋转状态;以及
根据所述目标相对空间模型的投影矩阵、所述平移和旋转状态将所述匹配模型相应平移和旋转后的模型投影到目标区域内,以完成目标分割。
2.根据权利要求1所述的基于CAD模型三维目标识别分割和位姿测量方法,其特征在于,所述通过Faster RCNN网络在Pascal 3D+数据集上训练,并对输入图像进行二维目标识别,进一步包括:
在训练阶段,通过所述Pascal 3D+数据对待识别目标的不同角度和状态图片进行训练;
在识别阶段,完成端对端的所述二维目标识别。
3.根据权利要求1所述的基于CAD模型三维目标识别分割和位姿测量方法,其特征在于,所述对所述目标矩形框的特征点进行部件化约束,并将约束后的特征点输入复用后的所述CNN网络结构,并修改输入输出层为特征点位置,以提取鲁棒性的特征点,进一步包括:
通过部件化约束去掉部件之外的特征点,以得到图像描述的描述子;
将所述图像描述的描述子输入到所述复用后的所述CNN网络结构中,并修改输入输出层为特征点位置,以提取所述鲁棒性的特征点。
4.根据权利要求1所述的基于CAD模型三维目标识别分割和位姿测量方法,其特征在于,所述合适目标的匹配模型为在相同视角估计下的特征点具有相同分布的CAD模型,其中,根据所述离散的视角值和所述视角偏差值进行视角估计。
5.根据权利要求1所述的基于CAD模型三维目标识别分割和位姿测量方法,其特征在于,所述投影矩阵为:
其中,为三维CAD模型j的特征点在投影变换P下的2D特征点,c为选出的最优模型的序号。
6.一种基于CAD模型三维目标识别分割和位姿测量装置,其特征在于,包括:
二维目标识别模块,用于通过Faster RCNN网络在Pascal 3D+数据集上训练,并对输入图像进行二维目标识别,以提取目标矩形框;
视角估计模块,用于根据所述目标矩形框复用所述Faster RCNN网络的CNN网络结构,其中,修改输出层为离散的视角值,代价函数修改为视角偏差值;
特征点识别模块,用于对所述目标矩形框的特征点进行部件化约束,并将约束后的特征点输入复用后的所述CNN网络结构,并修改输入输出层为特征点位置,以提取鲁棒性的特征点;
获取模块,用于获取合适目标的匹配模型;
位姿测量模块,用于通过所述匹配模型的3D特征点建立与所述鲁棒性的特征点的匹配关系,以恢复所述目标相对空间模型的投影矩阵,并获取平移和旋转状态;以及
目标分割模块,用于根据所述目标相对空间模型的投影矩阵、所述平移和旋转状态将所述匹配模型相应平移和旋转后的模型投影到目标区域内,以完成目标分割。
7.根据权利要求6所述的基于CAD模型三维目标识别分割和位姿测量装置,其特征在于,所述二维目标识别模块进一步用于在训练阶段,通过所述Pascal 3D+数据对待识别目标的不同角度和状态图片进行训练,并在识别阶段,完成端对端的所述二维目标识别。
8.根据权利要求6所述的基于CAD模型三维目标识别分割和位姿测量装置,其特征在于,所述特征点提取模块进一步用于通过部件化约束去掉部件之外的特征点,以得到图像描述的描述子,并将所述图像描述的描述子输入到所述复用后的所述CNN网络结构中,并修改输入输出层为特征点位置,以提取所述鲁棒性的特征点。
9.根据权利要求6所述的基于CAD模型三维目标识别分割和位姿测量装置,其特征在于,所述合适目标的匹配模型为在相同视角估计下的特征点具有相同分布的CAD模型,其中,根据所述离散的视角值和所述视角偏差值进行视角估计。
10.根据权利要求6所述的基于CAD模型三维目标识别分割和位姿测量装置,其特征在于,所述投影矩阵为:
其中,为三维CAD模型j的特征点在投影变换P下的2D特征点,c为选出的最优模型的序号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810367445.1A CN108648194B (zh) | 2018-04-23 | 2018-04-23 | 基于cad模型三维目标识别分割和位姿测量方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810367445.1A CN108648194B (zh) | 2018-04-23 | 2018-04-23 | 基于cad模型三维目标识别分割和位姿测量方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108648194A true CN108648194A (zh) | 2018-10-12 |
CN108648194B CN108648194B (zh) | 2020-11-24 |
Family
ID=63747306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810367445.1A Active CN108648194B (zh) | 2018-04-23 | 2018-04-23 | 基于cad模型三维目标识别分割和位姿测量方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108648194B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109658454A (zh) * | 2018-12-04 | 2019-04-19 | 深圳前海达闼云端智能科技有限公司 | 一种位姿信息确定方法、相关装置及存储介质 |
CN109658415A (zh) * | 2018-12-27 | 2019-04-19 | 福建省晨曦信息科技股份有限公司 | 一种图纸分割方法、电子设备以及存储介质 |
CN110231939A (zh) * | 2019-05-16 | 2019-09-13 | 平安科技(深圳)有限公司 | 模型生成方法、系统、计算机设备和存储介质 |
CN110807784A (zh) * | 2019-10-30 | 2020-02-18 | 北京百度网讯科技有限公司 | 用于分割物体的方法和装置 |
CN111047548A (zh) * | 2020-03-12 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 姿态变换数据处理方法、装置、计算机设备和存储介质 |
CN111145248A (zh) * | 2018-11-06 | 2020-05-12 | 北京地平线机器人技术研发有限公司 | 位姿信息确定方法、确定装置和电子设备 |
CN111242952A (zh) * | 2020-01-15 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置及计算设备 |
CN111553247A (zh) * | 2020-04-24 | 2020-08-18 | 上海锘科智能科技有限公司 | 一种基于改进骨干网络的视频结构化系统、方法及介质 |
CN111968235A (zh) * | 2020-07-08 | 2020-11-20 | 杭州易现先进科技有限公司 | 一种物体姿态估计方法、装置、系统和计算机设备 |
CN115063483A (zh) * | 2022-06-14 | 2022-09-16 | 广东天太机器人有限公司 | 一种基于2d图像识别的模板姿态修正方法及系统 |
US12106225B2 (en) | 2019-05-30 | 2024-10-01 | The Research Foundation For The State University Of New York | System, method, and computer-accessible medium for generating multi-class models from single-class datasets |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102015113434A1 (de) * | 2015-07-28 | 2017-02-02 | GM Global Technology Operations LLC (n. d. Gesetzen des Staates Delaware) | Verfahren zur Objektlokalisierung und Posenschätzung für ein interessierendes Objekt |
CN106845515A (zh) * | 2016-12-06 | 2017-06-13 | 上海交通大学 | 基于虚拟样本深度学习的机器人目标识别和位姿重构方法 |
-
2018
- 2018-04-23 CN CN201810367445.1A patent/CN108648194B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102015113434A1 (de) * | 2015-07-28 | 2017-02-02 | GM Global Technology Operations LLC (n. d. Gesetzen des Staates Delaware) | Verfahren zur Objektlokalisierung und Posenschätzung für ein interessierendes Objekt |
CN106845515A (zh) * | 2016-12-06 | 2017-06-13 | 上海交通大学 | 基于虚拟样本深度学习的机器人目标识别和位姿重构方法 |
Non-Patent Citations (1)
Title |
---|
HUAJUN ZHOU 等: "CAD: Scale Invariant Framework for Real-Time Object Detection", 《2017IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION WORKSHOPS》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145248B (zh) * | 2018-11-06 | 2023-06-27 | 北京地平线机器人技术研发有限公司 | 位姿信息确定方法、确定装置和电子设备 |
CN111145248A (zh) * | 2018-11-06 | 2020-05-12 | 北京地平线机器人技术研发有限公司 | 位姿信息确定方法、确定装置和电子设备 |
CN109658454A (zh) * | 2018-12-04 | 2019-04-19 | 深圳前海达闼云端智能科技有限公司 | 一种位姿信息确定方法、相关装置及存储介质 |
CN109658415A (zh) * | 2018-12-27 | 2019-04-19 | 福建省晨曦信息科技股份有限公司 | 一种图纸分割方法、电子设备以及存储介质 |
CN109658415B (zh) * | 2018-12-27 | 2020-07-07 | 福建省晨曦信息科技股份有限公司 | 一种图纸分割方法、电子设备以及存储介质 |
CN110231939A (zh) * | 2019-05-16 | 2019-09-13 | 平安科技(深圳)有限公司 | 模型生成方法、系统、计算机设备和存储介质 |
CN110231939B (zh) * | 2019-05-16 | 2024-05-28 | 平安科技(深圳)有限公司 | 模型生成方法、系统、计算机设备和存储介质 |
US12106225B2 (en) | 2019-05-30 | 2024-10-01 | The Research Foundation For The State University Of New York | System, method, and computer-accessible medium for generating multi-class models from single-class datasets |
CN110807784A (zh) * | 2019-10-30 | 2020-02-18 | 北京百度网讯科技有限公司 | 用于分割物体的方法和装置 |
CN110807784B (zh) * | 2019-10-30 | 2022-07-26 | 北京百度网讯科技有限公司 | 用于分割物体的方法和装置 |
CN111242952A (zh) * | 2020-01-15 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置及计算设备 |
CN111242952B (zh) * | 2020-01-15 | 2023-06-30 | 腾讯科技(深圳)有限公司 | 图像分割模型训练方法、图像分割方法、装置及计算设备 |
CN111047548A (zh) * | 2020-03-12 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 姿态变换数据处理方法、装置、计算机设备和存储介质 |
CN111553247A (zh) * | 2020-04-24 | 2020-08-18 | 上海锘科智能科技有限公司 | 一种基于改进骨干网络的视频结构化系统、方法及介质 |
CN111553247B (zh) * | 2020-04-24 | 2023-08-08 | 上海锘科智能科技有限公司 | 一种基于改进骨干网络的视频结构化系统、方法及介质 |
CN111968235B (zh) * | 2020-07-08 | 2024-04-12 | 杭州易现先进科技有限公司 | 一种物体姿态估计方法、装置、系统和计算机设备 |
CN111968235A (zh) * | 2020-07-08 | 2020-11-20 | 杭州易现先进科技有限公司 | 一种物体姿态估计方法、装置、系统和计算机设备 |
CN115063483B (zh) * | 2022-06-14 | 2023-04-11 | 广东天太机器人有限公司 | 一种基于2d图像识别的模板姿态修正方法及系统 |
CN115063483A (zh) * | 2022-06-14 | 2022-09-16 | 广东天太机器人有限公司 | 一种基于2d图像识别的模板姿态修正方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108648194B (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648194B (zh) | 基于cad模型三维目标识别分割和位姿测量方法及装置 | |
Fan et al. | Pothole detection based on disparity transformation and road surface modeling | |
CN110135455B (zh) | 影像匹配方法、装置及计算机可读存储介质 | |
CN110569704B (zh) | 一种基于立体视觉的多策略自适应车道线检测方法 | |
CN111563415B (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
US10373380B2 (en) | 3-dimensional scene analysis for augmented reality operations | |
WO2020155522A1 (en) | Three-dimension (3d) assisted personalized home object detection | |
CN108475433B (zh) | 用于大规模确定rgbd相机姿势的方法和系统 | |
CN112991413A (zh) | 自监督深度估测方法和系统 | |
CN109658454B (zh) | 一种位姿信息确定方法、相关装置及存储介质 | |
CN109472828B (zh) | 一种定位方法、装置、电子设备及计算机可读存储介质 | |
CN110298884B (zh) | 一种适于动态环境中单目视觉相机的位姿估计方法 | |
CN114424250A (zh) | 结构建模 | |
CN111340922B (zh) | 定位与地图构建的方法和电子设备 | |
US11651581B2 (en) | System and method for correspondence map determination | |
JP5538868B2 (ja) | 画像処理装置、その画像処理方法及びプログラム | |
CN110378995B (zh) | 一种利用投射特征进行三维空间建模的方法 | |
CN115222884A (zh) | 一种基于人工智能的空间对象分析及建模优化方法 | |
He et al. | Ground and aerial collaborative mapping in urban environments | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN110443228B (zh) | 一种行人匹配方法、装置、电子设备及存储介质 | |
EP2800055A1 (en) | Method and system for generating a 3D model | |
CN118429524A (zh) | 基于双目立体视觉的车辆行驶环境建模方法及系统 | |
CN113096016A (zh) | 一种低空航拍图像拼接方法和系统 | |
Shao | A Monocular SLAM System Based on the ORB Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |