CN112508007B

CN112508007B - 基于图像分割Mask和神经渲染的空间目标6D姿态估计方法

Info

Publication number: CN112508007B
Application number: CN202011295359.8A
Authority: CN
Inventors: 杜小平; 杨步一; 方宇强; 郜魏柯; 吕潇磊; 张建伟; 曹璐; 柳志远; 倪健
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2023-09-29
Anticipated expiration: 2040-11-18
Also published as: CN112508007A

Abstract

为解决现有方法特征提取稳定性低、多实例高粒度视点采样人力时间成本高的问题，本发明公开了一种基于图像分割Mask和神经渲染的空间目标6D姿态估计方法，提出了以图像分割Mask为稳定的图像表征和神经网络可微分渲染为姿态真值进行匹配计算的方法，通过引入新的图像姿态表征，以计算机视觉实例分割和计算机图形学可微分渲染技术进行姿态表征的提取和生成，提升特征提取稳定性，利用神经渲染技术对目标三维模型进行可微渲染和剪影掩模二值化操作，提高渲染精度和匹配效率。

Description

基于图像分割Mask和神经渲染的空间目标6D姿态估计方法

技术领域

本发明属于计算机视觉中刚体目标姿态估计领域，具体涉及一种基于图像分割Mask和神经渲染的空间目标姿态估计方法。

背景技术

姿态估计是多类计算机视觉任务的重要分支，其核心是从图像中解算出单类或多类目标实体的位置平移和方位旋转，实现了从二维图像信息到三维空间信息的扩展。图像分割是指通过目标检测、定位、识别将图像中各实例划分成若干互不交叠的区域，主要利用如图像灰度、纹理，色彩梯度，边缘轮廓等低维图像特征和高维抽象特征等，将像素汇聚成块分割目标实例，而掩模mask是图像分割的结果。神经渲染是将深度学习技术与计算机图形学中的物理技术相结合，通过输入已知参数渲染控制场景元素，生成要素可控的高质量新颖图像。

随着姿态估计方法在工业操控、智能驾驶、航空航天等领域的应用日益深入，精确的空间场景解析和高效的姿态估计结果是实现各类视觉应用的核心，同时也是连接更高层视觉任务的纽带。

然而现有的方法主要依赖图像点对特征、模板特征、3D坐标、特征描述符等提取的表征空间，提取稳定性难以保证，此外在离线阶段对真值数据集的制作依赖于高粒度和稠密视点采样，时间和效率成本高。

发明内容

为了解决现有姿态估计方法特征提取稳定性低、多实例高粒度视点采样人力时间成本高的问题，提出了以图像分割Mask为稳定的图像表征和神经网络可微分渲染为姿态真值进行匹配计算的技术。

本发明的技术解决方案是：以单幅空间目标图像为输入，首先对空间图像进行实例分割，检测、定位空间目标位置，得到航天器分割掩模mask；其次，应用神经渲染技术对航天器模型进行连续可微的渲染，得到某一场景条件和姿态参数输入下的图形渲染mask；最后通过计算未知姿态航天器分割mask与渲染器输出mask间的损失，不断更新渲染器姿态参数，实现非合作航天器姿态估计。

所述的空间目标实例分割过程，继承了深度学习框架中目标检测网络Faster R-CNN的思想，采用预训练权重参数的ResNet网络结果作为主干网络提取图像共享特征。之后利用RPN(Region Proposal Network)对提取特征进行目标框预测和修正得到特征Proposals，由于以RPN为基础的两阶段目标检测方法在精度和运行时间方面的优势，使其更适合高精度天基平台应用。在RPN之后，平行运行三路分别预测目标分类、边界框和二进制掩模，其中分类和边界框回归从全连接层进行预测，掩模从每个提取的ROI(Region OfInterest)特征获得。该过程采用实例分割mask作为目标整体特征，相对于纹理细节等局部特征更具稳定性。

所述的神经渲染分支包括光栅器、着色器、场景参数控制器，整个渲染分支可理解为输入控制端，通过对相机视点，光照条件(环境光、定向光、高光)，几何信息，投影模式(透视、正交、扭曲)，场景布局以及目标3D模型未知姿态等场景参数进行设置，实现环境的组合控制。光栅器是计算3D模型每个顶点投影至2D屏幕的像素位置坐标，通过连点描边近似的绘制预设姿态下目标模型的图形。着色器是通过访问光栅器绘制后的目标位置坐标、深度和颜色信息，结合场景中光源位置，计算得到每个像素的亮度值，实现预设渲染效果。

有益效果：

现有的姿态估计方法存在特征提取稳定性低、高粒度视点采样时间和人工成本高的问题，本发明采取目标分割mask作为图像姿态表征，对低维图像特征依赖性低，稳定提高了姿态表征的计算精度。

此外，传统方法主要依靠对目标3D模型进行高粒度视点采样构建真值姿态数据集，训练深度神经网络，时间和人工成本高，本发明以分割mask为姿态表征，结合神经渲染mask匹配优化姿态参数的方法，对神经网络参数的训练仅存在图像分割阶段，应用更易获取的图像分割训练数据集，极大地减轻了人力和时间成本，提高了技术发明应用的可迁移性。

本发明以解算空间目标mask表征的姿态信息为物理基础，且天基应用时效性要求高，因此在实例分割阶段可应用预训练网络参数节省训练时间，提高神经网络的多场景泛化应用能力。

以binary mask为姿态匹配介质，能有效节省图形渲染生成时间，提高匹配计算效率。

附图说明

图1为本发明的基于图像分割Mask和神经渲染的空间目标6D姿态估计方法示意图；

图2为本发明的实例分割过程示意图；

图3为本发明的神经渲染视点姿态匹配结构示意图。

图4为本发明的mask图像相似性匹配示意图。

具体实施方案

下面结合附图和具体实施例对本发明作进一步说明。

如图1所示，本发明提供了一种基于图像分割Mask和神经渲染的空间目标6D姿态估计方法，包括实例分割分支1、神经渲染分支2、相似性匹配损失3、姿态优化4。

实例分割分支1如图2所示，为实现精确地分割结果，首先对原始的输入图像进行重新裁剪，在保证原始宽高比的情况下，规范图像尺寸为1024×1024，对于非正方形图像，短边需进行zero padding，如图2(a)所示。随后，在RPN的各尺寸特征图下生成anchors检测目标，进行边界框回归，通过精调边框位置和尺寸，能够将目标准确的框定在边界框中，实现目标检测，其回归结果见图2(b)。对目标mask的获取依赖全卷积预测分支，它通过RPN提取的ROIs，以像素到像素的方式预测分割掩码，通过多次卷积和反卷积操作将7×7的ROI特征图提升至28×28的二进制掩模，预测结果如图2(c)、(d)所示，其中图(c)用虚线框表示多个ROIs，可视化该操作的中间过程，(d)显示了目标检测与实例分割分支的最终结果。

实例分割分支为定义了多任务损失函数，L＝αL_class+βL_box+γL_mask，分别对目标类、边界框、掩模mask进行损失计算。其中α、β、γ是权重平衡的超参数，当进行单类、单目标数据集训练和预测时，可将目标类损失权重α设为零以减少训练时间，提升网络运行效率。

目标类预测损失函数L_class以softmax损失运算实现预测，假定训练集存在K类目标，输出结果中，且/>o_i为网络输出，/>为softmax运算的预测值输出概率：

目标边界框预测损失函数L_box采用smooth L1 loss损失函数，x为真值边界框与预测边界框顶点的差值：

目标mask预测损失函数L_mask采用平均二进制交叉熵损失函数(average binarycross-entropy loss)，其中，H表示预测值与真值的交叉熵；

神经渲染分支2中，神经渲染分支主要依赖渲染器。通过创建一个由光栅器和着色器构成的剪影网格渲染器，获取目标剪影轮廓进行相机姿态优化，由于优化过程依赖目标剪影，此处无需进行光照和着色操作；通过应用完全的冯着色器并在目标前方增加点光源，建立新的渲染器显示后续可视化输出结果。

如图3所示，为了便于匹配比较，建立相机的基准位置和世界坐标系，并在基准视点对航天器模型进行渲染，得到剪影轮廓作为初始姿态下的mask。

相似性匹配损失3如图4所示，采用直接比对的思想，建立与已知姿态图像间的相似性度量，实现未知航天器图像的姿态估计。通过对两幅mask图像进行逐像素对比，计算mask的总损失，然后取最小值作为估计姿态结果。其中p_uv为输入的未知姿态图像mask中的像素，p_ij为参考图像mask中的像素，匹配损失为：

Loss＝∑[(p_uv-p_ij)²] (4)

姿态优化4中，利用优化器对相机姿态参数进行调整，通过多次迭代不断缩小损失，并设置损失门限值，当损失小于该门限时，停止迭代过程，输出该mask下的目标姿态，完成估计过程。

本发明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅是本发明的一种实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于图像分割Mask和神经渲染的空间目标6D姿态估计方法，其特征在于，包括以下步骤：

步骤1，以未知姿态参数图像的单幅空间目标图像为输入，对该单幅空间目标图像进行实例分割，检测、定位空间目标位置，得到未知姿态的目标分割掩模mask；

其中，实例分割的深度神经网络模型以预训练网络参数的ResNet为主干网络提取图像共享特征，随后由Region Proposal Network对所述图像共享特征进行目标框预测和修正得到特征Proposals，最后平行运行三路分别预测目标分类、边界框和二进制掩模

步骤2，应用神经渲染技术对确定姿态参数下的空间目标三维模型进行连续可微的渲染，比较两幅mask间的剪影误差，以预设误差损失参数为优化截止门限，得到已知姿态下的图形渲染mask；

步骤3，通过计算所述目标分割掩模mask与所述图形渲染mask的损失，不断更新渲染器姿态参数，迭代优化得到最相近的两组mask，将预设参数视为最优姿态，从而实现非合作航天器姿态估计。

2. 根据权利要求1所述的基于图像分割Mask和神经渲染的空间目标6D姿态估计方法，其特征在于：步骤1中，分类和边界框回归从全连接层进行预测，二进制掩模从每个提取的Region Of Interest特征获得。

3.根据权利要求1所述的基于图像分割Mask和神经渲染的空间目标6D姿态估计方法，其特征在于：步骤2均采用二值化操作，得到渲染模型的二进制掩模。