CN112508007B - 基于图像分割Mask和神经渲染的空间目标6D姿态估计方法 - Google Patents
基于图像分割Mask和神经渲染的空间目标6D姿态估计方法 Download PDFInfo
- Publication number
- CN112508007B CN112508007B CN202011295359.8A CN202011295359A CN112508007B CN 112508007 B CN112508007 B CN 112508007B CN 202011295359 A CN202011295359 A CN 202011295359A CN 112508007 B CN112508007 B CN 112508007B
- Authority
- CN
- China
- Prior art keywords
- target
- rendering
- image
- mask
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
为解决现有方法特征提取稳定性低、多实例高粒度视点采样人力时间成本高的问题,本发明公开了一种基于图像分割Mask和神经渲染的空间目标6D姿态估计方法,提出了以图像分割Mask为稳定的图像表征和神经网络可微分渲染为姿态真值进行匹配计算的方法,通过引入新的图像姿态表征,以计算机视觉实例分割和计算机图形学可微分渲染技术进行姿态表征的提取和生成,提升特征提取稳定性,利用神经渲染技术对目标三维模型进行可微渲染和剪影掩模二值化操作,提高渲染精度和匹配效率。
Description
技术领域
本发明属于计算机视觉中刚体目标姿态估计领域,具体涉及一种基于图像分割Mask和神经渲染的空间目标姿态估计方法。
背景技术
姿态估计是多类计算机视觉任务的重要分支,其核心是从图像中解算出单类或多类目标实体的位置平移和方位旋转,实现了从二维图像信息到三维空间信息的扩展。图像分割是指通过目标检测、定位、识别将图像中各实例划分成若干互不交叠的区域,主要利用如图像灰度、纹理,色彩梯度,边缘轮廓等低维图像特征和高维抽象特征等,将像素汇聚成块分割目标实例,而掩模mask是图像分割的结果。神经渲染是将深度学习技术与计算机图形学中的物理技术相结合,通过输入已知参数渲染控制场景元素,生成要素可控的高质量新颖图像。
随着姿态估计方法在工业操控、智能驾驶、航空航天等领域的应用日益深入,精确的空间场景解析和高效的姿态估计结果是实现各类视觉应用的核心,同时也是连接更高层视觉任务的纽带。
然而现有的方法主要依赖图像点对特征、模板特征、3D坐标、特征描述符等提取的表征空间,提取稳定性难以保证,此外在离线阶段对真值数据集的制作依赖于高粒度和稠密视点采样,时间和效率成本高。
发明内容
为了解决现有姿态估计方法特征提取稳定性低、多实例高粒度视点采样人力时间成本高的问题,提出了以图像分割Mask为稳定的图像表征和神经网络可微分渲染为姿态真值进行匹配计算的技术。
本发明的技术解决方案是:以单幅空间目标图像为输入,首先对空间图像进行实例分割,检测、定位空间目标位置,得到航天器分割掩模mask;其次,应用神经渲染技术对航天器模型进行连续可微的渲染,得到某一场景条件和姿态参数输入下的图形渲染mask;最后通过计算未知姿态航天器分割mask与渲染器输出mask间的损失,不断更新渲染器姿态参数,实现非合作航天器姿态估计。
所述的空间目标实例分割过程,继承了深度学习框架中目标检测网络Faster R-CNN的思想,采用预训练权重参数的ResNet网络结果作为主干网络提取图像共享特征。之后利用RPN(Region Proposal Network)对提取特征进行目标框预测和修正得到特征Proposals,由于以RPN为基础的两阶段目标检测方法在精度和运行时间方面的优势,使其更适合高精度天基平台应用。在RPN之后,平行运行三路分别预测目标分类、边界框和二进制掩模,其中分类和边界框回归从全连接层进行预测,掩模从每个提取的ROI(Region OfInterest)特征获得。该过程采用实例分割mask作为目标整体特征,相对于纹理细节等局部特征更具稳定性。
所述的神经渲染分支包括光栅器、着色器、场景参数控制器,整个渲染分支可理解为输入控制端,通过对相机视点,光照条件(环境光、定向光、高光),几何信息,投影模式(透视、正交、扭曲),场景布局以及目标3D模型未知姿态等场景参数进行设置,实现环境的组合控制。光栅器是计算3D模型每个顶点投影至2D屏幕的像素位置坐标,通过连点描边近似的绘制预设姿态下目标模型的图形。着色器是通过访问光栅器绘制后的目标位置坐标、深度和颜色信息,结合场景中光源位置,计算得到每个像素的亮度值,实现预设渲染效果。
有益效果:
现有的姿态估计方法存在特征提取稳定性低、高粒度视点采样时间和人工成本高的问题,本发明采取目标分割mask作为图像姿态表征,对低维图像特征依赖性低,稳定提高了姿态表征的计算精度。
此外,传统方法主要依靠对目标3D模型进行高粒度视点采样构建真值姿态数据集,训练深度神经网络,时间和人工成本高,本发明以分割mask为姿态表征,结合神经渲染mask匹配优化姿态参数的方法,对神经网络参数的训练仅存在图像分割阶段,应用更易获取的图像分割训练数据集,极大地减轻了人力和时间成本,提高了技术发明应用的可迁移性。
本发明以解算空间目标mask表征的姿态信息为物理基础,且天基应用时效性要求高,因此在实例分割阶段可应用预训练网络参数节省训练时间,提高神经网络的多场景泛化应用能力。
以binary mask为姿态匹配介质,能有效节省图形渲染生成时间,提高匹配计算效率。
附图说明
图1为本发明的基于图像分割Mask和神经渲染的空间目标6D姿态估计方法示意图;
图2为本发明的实例分割过程示意图;
图3为本发明的神经渲染视点姿态匹配结构示意图。
图4为本发明的mask图像相似性匹配示意图。
具体实施方案
下面结合附图和具体实施例对本发明作进一步说明。
如图1所示,本发明提供了一种基于图像分割Mask和神经渲染的空间目标6D姿态估计方法,包括实例分割分支1、神经渲染分支2、相似性匹配损失3、姿态优化4。
实例分割分支1如图2所示,为实现精确地分割结果,首先对原始的输入图像进行重新裁剪,在保证原始宽高比的情况下,规范图像尺寸为1024×1024,对于非正方形图像,短边需进行zero padding,如图2(a)所示。随后,在RPN的各尺寸特征图下生成anchors检测目标,进行边界框回归,通过精调边框位置和尺寸,能够将目标准确的框定在边界框中,实现目标检测,其回归结果见图2(b)。对目标mask的获取依赖全卷积预测分支,它通过RPN提取的ROIs,以像素到像素的方式预测分割掩码,通过多次卷积和反卷积操作将7×7的ROI特征图提升至28×28的二进制掩模,预测结果如图2(c)、(d)所示,其中图(c)用虚线框表示多个ROIs,可视化该操作的中间过程,(d)显示了目标检测与实例分割分支的最终结果。
实例分割分支为定义了多任务损失函数,L=αLclass+βLbox+γLmask,分别对目标类、边界框、掩模mask进行损失计算。其中α、β、γ是权重平衡的超参数,当进行单类、单目标数据集训练和预测时,可将目标类损失权重α设为零以减少训练时间,提升网络运行效率。
目标类预测损失函数Lclass以softmax损失运算实现预测,假定训练集存在K类目标,输出结果中,且/>oi为网络输出,/>为softmax运算的预测值输出概率:
目标边界框预测损失函数Lbox采用smooth L1 loss损失函数,x为真值边界框与预测边界框顶点的差值:
目标mask预测损失函数Lmask采用平均二进制交叉熵损失函数(average binarycross-entropy loss),其中,H表示预测值与真值的交叉熵;
神经渲染分支2中,神经渲染分支主要依赖渲染器。通过创建一个由光栅器和着色器构成的剪影网格渲染器,获取目标剪影轮廓进行相机姿态优化,由于优化过程依赖目标剪影,此处无需进行光照和着色操作;通过应用完全的冯着色器并在目标前方增加点光源,建立新的渲染器显示后续可视化输出结果。
如图3所示,为了便于匹配比较,建立相机的基准位置和世界坐标系,并在基准视点对航天器模型进行渲染,得到剪影轮廓作为初始姿态下的mask。
相似性匹配损失3如图4所示,采用直接比对的思想,建立与已知姿态图像间的相似性度量,实现未知航天器图像的姿态估计。通过对两幅mask图像进行逐像素对比,计算mask的总损失,然后取最小值作为估计姿态结果。其中puv为输入的未知姿态图像mask中的像素,pij为参考图像mask中的像素,匹配损失为:
Loss=∑[(puv-pij)2] (4)
姿态优化4中,利用优化器对相机姿态参数进行调整,通过多次迭代不断缩小损失,并设置损失门限值,当损失小于该门限时,停止迭代过程,输出该mask下的目标姿态,完成估计过程。
本发明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述仅是本发明的一种实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.基于图像分割Mask和神经渲染的空间目标6D姿态估计方法,其特征在于,包括以下步骤:
步骤1,以未知姿态参数图像的单幅空间目标图像为输入,对该单幅空间目标图像进行实例分割,检测、定位空间目标位置,得到未知姿态的目标分割掩模mask;
其中,实例分割的深度神经网络模型以预训练网络参数的ResNet为主干网络提取图像共享特征,随后由Region Proposal Network对所述图像共享特征进行目标框预测和修正得到特征Proposals,最后平行运行三路分别预测目标分类、边界框和二进制掩模
步骤2,应用神经渲染技术对确定姿态参数下的空间目标三维模型进行连续可微的渲染,比较两幅mask间的剪影误差,以预设误差损失参数为优化截止门限,得到已知姿态下的图形渲染mask;
步骤3,通过计算所述目标分割掩模mask与所述图形渲染mask的损失,不断更新渲染器姿态参数,迭代优化得到最相近的两组mask,将预设参数视为最优姿态,从而实现非合作航天器姿态估计。
2. 根据权利要求1所述的基于图像分割Mask和神经渲染的空间目标6D姿态估计方法,其特征在于:步骤1中,分类和边界框回归从全连接层进行预测,二进制掩模从每个提取的Region Of Interest特征获得。
3.根据权利要求1所述的基于图像分割Mask和神经渲染的空间目标6D姿态估计方法,其特征在于:步骤2均采用二值化操作,得到渲染模型的二进制掩模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011295359.8A CN112508007B (zh) | 2020-11-18 | 2020-11-18 | 基于图像分割Mask和神经渲染的空间目标6D姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011295359.8A CN112508007B (zh) | 2020-11-18 | 2020-11-18 | 基于图像分割Mask和神经渲染的空间目标6D姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112508007A CN112508007A (zh) | 2021-03-16 |
CN112508007B true CN112508007B (zh) | 2023-09-29 |
Family
ID=74956832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011295359.8A Active CN112508007B (zh) | 2020-11-18 | 2020-11-18 | 基于图像分割Mask和神经渲染的空间目标6D姿态估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508007B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114120062B (zh) * | 2021-11-26 | 2023-07-28 | 北京百度网讯科技有限公司 | 样本生成方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710882A (zh) * | 2018-05-11 | 2018-10-26 | 武汉科技大学 | 一种基于卷积神经网络的屏幕渲染文本识别方法 |
CN109215080A (zh) * | 2018-09-25 | 2019-01-15 | 清华大学 | 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置 |
CN111783986A (zh) * | 2020-07-02 | 2020-10-16 | 清华大学 | 网络训练方法及装置、姿态预测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977827B2 (en) * | 2018-03-27 | 2021-04-13 | J. William Mauchly | Multiview estimation of 6D pose |
-
2020
- 2020-11-18 CN CN202011295359.8A patent/CN112508007B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710882A (zh) * | 2018-05-11 | 2018-10-26 | 武汉科技大学 | 一种基于卷积神经网络的屏幕渲染文本识别方法 |
CN109215080A (zh) * | 2018-09-25 | 2019-01-15 | 清华大学 | 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置 |
CN111783986A (zh) * | 2020-07-02 | 2020-10-16 | 清华大学 | 网络训练方法及装置、姿态预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于卷积神经网络的单幅图像室内物体姿态估计;方鹏飞;刘复昌;姚争为;;杭州师范大学学报(自然科学版)(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112508007A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798475B (zh) | 一种基于点云深度学习的室内环境3d语义地图构建方法 | |
CN112258618B (zh) | 基于先验激光点云与深度图融合的语义建图与定位方法 | |
CN109636905B (zh) | 基于深度卷积神经网络的环境语义建图方法 | |
Nguyen et al. | Unsupervised deep homography: A fast and robust homography estimation model | |
CN106780576B (zh) | 一种面向rgbd数据流的相机位姿估计方法 | |
CN111914698B (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN111127631B (zh) | 基于单图像的三维形状和纹理重建方法、系统及存储介质 | |
CN113506318B (zh) | 一种车载边缘场景下的三维目标感知方法 | |
Ye et al. | Gaussian grouping: Segment and edit anything in 3d scenes | |
CN113139453A (zh) | 一种基于深度学习的正射影像高层建筑基底矢量提取方法 | |
CN112784736A (zh) | 一种多模态特征融合的人物交互行为识别方法 | |
CN112396655B (zh) | 一种基于点云数据的船舶目标6d位姿估计方法 | |
CN113450396A (zh) | 基于骨骼特征的三维/二维图像配准方法及装置 | |
CN114782417A (zh) | 基于边缘强化图像分割的风机数字孪生特征实时检测方法 | |
CN112508007B (zh) | 基于图像分割Mask和神经渲染的空间目标6D姿态估计方法 | |
Safadoust et al. | Self-supervised monocular scene decomposition and depth estimation | |
CN116993947B (zh) | 一种三维场景可视化展示方法及系统 | |
CN111724428A (zh) | 基于图上信号模型的深度图采样与重构方法 | |
US20200364877A1 (en) | Scene segmentation using model subtraction | |
Zhang et al. | Hybrid iteration and optimization-based three-dimensional reconstruction for space non-cooperative targets with monocular vision and sparse lidar fusion | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 | |
CN110751153B (zh) | 一种室内场景rgb-d图像的语义标注方法 | |
CN104751448A (zh) | 基于pca和噪声分离的在线视频跟踪方法 | |
CN111462181B (zh) | 一种基于矩形非对称逆布局模型的视频单目标跟踪方法 | |
CN117541755B (zh) | 一种基于rgb-d三维重建的刚性物体虚实遮挡方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |