CN116745814A

CN116745814A - 多维度对象姿态估计和细化

Info

Publication number: CN116745814A
Application number: CN202180091142.1A
Authority: CN
Inventors: S·伊利克; I·帕夫洛夫; I·舒古罗夫; S·扎哈罗夫
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2020-12-18
Filing date: 2021-12-09
Publication date: 2023-09-12
Also published as: US20240104774A1; WO2022128741A1; EP4241240A1

Abstract

本发明涉及一种方法和一种装置，用于在多个维度上特别是分别针对六个维度和六个自由度(6DoF)估计感兴趣对象的姿态，特别是用于细化估计的姿态。用于细化对象的初始多维度姿态T_pr(0)以生成其中NL≥1的细化的多维度对象姿态T_pr(NL)的方法包括步骤S1，提供初始对象姿态T_pr(0)和其中i＝1，...，I和I≥1的至少一个2D‑3D对应性图(I)，以及步骤S2，根据给定的损失函数LF(k)并取决于在一个或多个所提供的2D‑3D对应性图(I)以及一个或多个相应渲染的2D‑3D对应性图(II)之间的差异，通过损失的迭代优化15过程IOP来估计细化的对象姿态T_pr(NL)。

Description

多维度对象姿态估计和细化

技术领域

本发明涉及一种方法和装置，用于在多个维度上，特别是分别针对六个维度和六个自由度(6DoF)，对感兴趣对象的姿态进行估计，特别是对估计的姿态进行细化。

背景技术

对象检测和被检测对象的多维度姿态估计是计算机视觉中经常解决的问题，因为它们可应用于在不同领域中的广泛范围的应用。仅仅举例而言，在2D和3D中没有快速且精确的对象定位的情况下，自动驾驶、增强现实和机器人技术几乎是不可能的。过去已经投入了大量工作，但深度学习的最新进展为开始主导该领域的基于RGB(红绿蓝)的方法打开了新视野。通常，RGB图像和相应的深度数据被用来确定姿态。当前的技术水平结合RGB图像和深度信息利用深度学习方法。因此，人工神经网络经常被应用于基于来自不同视角的该对象图像和基于综合数据库来估计场景中对象的姿态。然而，这种方法通常是耗时的，并且特别是，几乎没有获得合适的数据库，该数据库具有足够数量的综合种类的被标记的训练数据，其允许准确检测宽范围的对象。

因此，从单目RGB图像进行多维度姿态估计，在最好的情况下覆盖六个自由度(6DoF)，仍然是一个具有挑战性的问题。这种姿态的粗略估计方法是可用的，但是精度通常不足以用于工业应用。

发明内容

因此，需要一种方法，该方法满足确定感兴趣对象的精确多维度姿态的需要。这通过权利要求1中建议的方法和权利要求13中建议的系统来解决。从属权利要求描述了进一步的有利实施例。

计算机实现的姿态估计方法PEM通过细化感兴趣对象OBJ的初始多维度姿态T_pr(0)来解决该问题并生成其中NL≥1的细化的多维度对象姿态T_pr(NL)。该方法包括步骤S1，提供初始对象姿态T_pr(0)和至少一个2D-3D对应性图其中i＝1，...，I和I≥1。在估计细化的对象姿态T_pr(NL)的步骤S2中，应用迭代优化(即最小化)过程IOP，其包括损失的数量为NL的循环k＝1，...，NL，该损失根据给定的损失函数LF(k)并取决于在一个或多个提供的2D-3D对应性图/>以及一个或多个相应渲染的2D-3D对应性图/>之间的差异。

6DoF姿态估计首先利用预测的初始姿态T_pr(0)。然后，初始预测姿态T_pr(0)在NL≥1次迭代和循环k次中被细化，从而最终得到细化的姿态T_pr(k＝NL)。姿态细化是基于用于每个i的在所提供的对应性图和相关渲染的对应性图/>之间的差异的优化。渲染的对应性图/>以及相应地差异直接取决于假定的对象姿态T_pr(k)，从而对象姿态T_pr(k)的变化导致差异的变化，使得最小差异可以被认为是假定的对象姿态T_pr(NL)的正确性的指示符。

损失函数LF被定义为在所提供的对应性图和渲染的对应性图/>上的每像素损失函数，其中损失函数LF(k)将所提供的对应性图/>和相应渲染的对应性图/>的每像素差异与对象的3D结构以及它的姿态T_pr(k)相关，其中所渲染的对应性图/>以及随之的损失函数LF(k)取决于假定的对象姿态T_pr(k)和该假定的对象姿态T_pr(k)在迭代优化过程的循环k中变化。

步骤S2的迭代优化过程IOP包括NL≥1个迭代循环k，其中k＝1，...，NL。在每次迭代循环k中，假定对象姿态T_pr(k)，并且渲染器dREND渲染用于每个提供的2D-3D对应性图的一个或多个模型2D-3D对应性图Ψ_rend(k，i)中的一个相应的2D-3D对应性图/>为此目的，渲染器dREND利用感兴趣对象OBJ的3D模型MODOBJ、假定的对象姿态T_pr(k)和成像参数PARA(i)作为输入，该成像参数PARA(i)表示捕获构成相应提供的2D-3D对应性图/>的基础的图像IMA(i)的一个或多个参数。

其中，“用于每个提供的2D-3D对应性图”表达中的术语“用于”本质上表示所提供的2D-3D对应性图/>和相应的渲染的2D-3D对应性图/>分配给彼此。此外，它表示“相关”渲染的2D-3D对应性图/>的渲染和构成确定所提供的2D-3D对应性图/>的基础(即被选择和用于确定所提供的2D-3D对应性图/>)的图像IMA(i)的较早捕获利用相同的成像参数PARA(i)。

总之，给定3D模型，成像参数PARA(i)包括例如应用于捕获图像IMA(i)的相机位置POS(i)和相应的固有相机参数CAM(i)，以及假定的对象姿态Tpr(k)，可以计算3D模型MODOBJ的哪个顶点将被投影到渲染的2D图像IMA(i)的哪个像素上，反之亦然。这种对应性由相应的2D-3D对应性图来表示。这个过程是确定的且没有错误的。优选地，应用可微分的渲染器来实现这一点，并且所得到的渲染对应性图/>对应于从相应相机位置POS(i)的视角PER(i)的给定姿态T_pr(k)中的3D模型。

当损失函数LF收敛或落在给定阈值或类似阈值之下时，步骤S2的迭代优化过程在k＝NL处结束。即NL不是预定义的，而是取决于T_pr(k)的变化和损失函数LF的所得结果。然而，用于结束损失函数的迭代优化过程的一般标准在现有技术中严格意义上来说是众所周知的，并且不形成本发明的本质方面。

选择迭代优化过程IOP的循环k的假定对象姿态T_pr(k)，使得T_pr(k)不同于先前循环k-1的假定对象姿态T_pr(k-1)，其中迭代优化过程应用基于梯度的方法进行所述选择，其中损失函数LF在对象姿态更新ΔT方面被最小化，使得T_pr(k)＝ΔT·T_pr(k-1)。即，通过在对象姿态更新ΔT上的梯度下降来迭代地最小化损失函数LF。这可以用任何基于梯度的方法来完成，例如[Kingma2014]。收敛可能在例如50个优化步骤即NL＝50内实现。

此外，在每个迭代循环k中，由渲染器dREND为相应渲染的2D-3D对应性图中的每一个获得分割掩模SEG_rend(k，i)，该分割掩模SEG_rend(k，i)对应于假定的对象姿态T_pr(k)中的感兴趣的对象OBJ，其中每个分割掩模SEG_rend(k，i)是通过使用假定的对象姿态T_pr(k)和成像参数PARA(i)渲染3D模型MODOBJ而获得的。分割掩模是二进制掩模，具有像素值“1”或“0”。

损失函数LF(k)可以被定义为迭代优化过程IOP的循环k中的每像素损失函数，其中

其中

并且其中

-I表示所提供的2D-3D对应性图的数量

-x，y是对应性图中的像素坐标，

-ρ代表3D中的任意距离函数，

-SEG_pr(i)∩SEG_rend(k，i)是由相应分割掩模SEG_pr(i)，SEG_rend(k，i)表示的预测的和渲染的对应性图的交叉点组，

-N是由相应分割掩模SEG_pr(i)，SEG_rend(k，i)表示的预测的和渲染的对应性图的这种交叉点的数量；

-是用于将相应自变数变换为合适坐标系的算子，/>可以是“NOCS”算子的逆。

优选地，渲染器dREND是可微分渲染器。其中，可微分渲染器是标准渲染器的可微分实现，例如从计算机图形应用中已知的。例如，这种可微分的渲染器采用纹理化的对象模型、对象的姿态、光路线等并产生相应的图像。与标准渲染相反，可微分渲染器允许在图像上定义任何函数，并关于所有渲染器输入计算其导数，该输入例如纹理化的对象模型、对象的姿态、光路线等，如上所述。通过这种方式，可能直接更新对象、其颜色、其位置等以便获得期望的渲染图像。

要在第一步骤S1中提供的初始对象姿态T_pr(0)可以在步骤S0中确定，因此该步骤在步骤S1之前执行。在步骤S0中，提供感兴趣对象OBJ的数量为I的图像IMA(i)，其中i＝1，...I和I≥2以及已知的成像参数PARA(i)，其中不同的图像IMA(i)由不同的成像参数PARA(i)表征，例如相机位置POS(i)和固有相机参数CAM(i)。即不同的图像IMA(i)表示感兴趣对象OBJ上的不同视角PER(i)，即不同的图像IMA(i)是从不同的相机位置POS(i)捕获的，并且可能具有不同的固有相机参数CAM(i)。对于所有视图PER(i)的所有那些成像参数PARA(i)，以及视情况而定，所有相机可以被认为是从较早的图像捕获步骤中已知的，在该较早的图像捕获步骤期间，通过定位在POS(i)处的不同相机或者通过移动到不同位置POS(i)的一个相机，已经从不同的相机位置POS(i)捕获了各个图像IMA(i)。虽然对于不同的图像IMA(i)，固有相机参数CAM(i)可能是相同的，但是对于不同的图像IMA(i)，至少位置POS(i)和视角PER(i)分别是不同的。然后，在确定步骤DCS中处理所提供的图像IMA(i)，以便为每个图像IMA(i)确定相应的2D-3D对应性图以及相应的分割掩模SEG_pr(i)。在粗略姿态估计步骤CPES中进一步处理至少一个2D-3D对应性图/>以确定初始对象姿态T_pr(0)。

在一个实施例中，确实只有一个2D-3D对应性图在粗略姿态估计步骤CPES中被进一步处理以确定初始对象姿态T_pr(0)。在另一个实施例中，J个2D-3D对应性图/>中的每一j(其中j＝1，...J和I≥J≥2)在粗略姿态估计步骤CPES中被处理，以确定相应的初步对象姿态T_pr，j(0)，其中初始对象姿态T_pr(0)表示初步对象姿态T_pr，j(0)的平均值。

在准备步骤PS中，应用体现为经过训练的人工神经网络的密集姿态对象检测器DPOD来从相应图像IMA(i)确定2D-3D对应性图和分割掩模SEG_pr(i)。如在[ZAKHAROV2019]中详细描述的，DPOD分别回归多类对象掩模和分割掩模SEG_pr(i)，以及在图像IMA(i)的图像像素和在图像IMA(i)中描绘的对象OBJ的相应3D模型MODOB之间的密集2D-3D对应性图/>因此，DPOD估计分割掩模SEG_pr(i)和在输入图像IMA(i)和来自图像IMA(i)的可用3D模型(例如MODOBJ)之间的密集多类2D-3D对应性图/>

粗略姿态估计步骤CPES应用透视n点方法(PnP)，特别是由随机样本一致性方法(RANSAC)补充，以视情况而定从至少一个2D-3D对应性图确定相应的初始或初步的对象姿态T_pr(0)，T_pr，j(0)。给定估计的ID掩模，我们可以观察到在图像中检测到哪些对象及其2D位置，而对应性图将每个2D点映射到实际3D模型上的坐标。然后使用例如在[ZHANG2000]中描述的透视n点(PnP)姿态估计方法来估计6D姿态，该方法在给定相机的对应性和固有参数的情况下估计相机姿态。由于为每个模型生成了大量的对应性集合，RANSAC与PnP结合使用，以使相机姿态预测对可能的异常值更加鲁棒：在点对应性集合中出现异常值的情况下，PnP容易出错。RANSAC可用于使相机姿态的最终解决方案对此类异常值更加稳健。

一种用于细化感兴趣对象OBJ的初始多维度姿态T_pr(0)以生成其中NL≥1的细化多维度对象姿态T_pr(NL)的姿态估计系统包括被配置为执行上述姿态估计方法PEM的控制系统。

总的来说，通过引入新颖的几何细化方法，在较早确定的初始粗略姿态估计T_pr(0)中建立，本解决方案实现的目标是进一步减小在合成数据和真实数据上训练的检测器的性能之间的差异。在常规操作中，所提出的姿态细化过程在推理阶段利用了可微分渲染器。它分别使用多个视图PER(i)、POS(i)和PARA(i)，添加相对相机姿态POS(i)作为姿态优化过程的约束。这是通过比较用于每个图像IMA(i)的提供的和渲染的密集对应性/>以及然后通过可微分渲染器将该误差传回以更新姿态T_pr(k)来完成。这假定相机位置POS(i)或视角PER(i)的可用性，其中这样的姿态或视角可能是相对信息，涉及一个参考位置，例如POS(0)，或参考视角，例如PER(0)。在实践中，视情况而定，POS(i)和PER(i)可以通过许多不同的方法容易地获得，例如将对象放置在标记板上，并且或者使用实际的多相机系统，或者使用单个相机但是移动标记板或相机。标记板将允许在标记板坐标系中计算相机姿态POS(i)，PER(i)，从而计算相机之间的相对姿态。此外，在机器人抓取的情况下，机械臂可以配备有相机，以从几个视点POS(i)观察对象。在那里，人们可以依靠在机械臂提供的它们之间精确的相对姿态。然而，图像中对象的6DOF姿态仍然未知。因此，我们的目标是估计一个参考视图中的6DoF对象姿态，使用相对相机姿态作为约束。

进一步总结来说，提出了一种多视图细化方法，该方法可用于经由多视图姿态细化来显著改善在合成数据上训练的检测器。这样，所提出的方法完全避免了使用标记的真实数据进行训练。

应当理解，所附权利要求中列举的元素和特征可以以不同的方式组合，以产生同样落入本发明范围内的新权利要求。因此，尽管下面所附的从属权利要求仅从属于单个独立或从属权利要求，但是应当理解，这些从属权利要求可以替代地从属于任何前面或后面的权利要求的替换中，无论是独立的还是从属的，并且这种新的组合应当理解为形成本说明书的一部分。

本说明书提供了以下出版物以实现对本发明及其实施的详细解释：

-[Barron2019]J.T.Barron，″A general and adaptive robust lossfunction，″in CVPR，2019.

-[Kingma2014]D.P.Kingma and J.Ba，″Adam：A method for stochasticoptimization，″arXiv preprint arXiv：1412.6980，2014.

-[Redmon2016]Joseph Redmon，Santosh Divvala，Ross Girshick，and AliFarhadi.″You only look once：Unified，real-time object detection″.In CVPR，2016.

-[Redmon2017]Joseph Redmon and Ali Farhadi.Yolo9000：better，faster，stronger.In CVPR，2017.

-[Redmon2018]Joseph Redmon and Ali Farhadi.″Yolov3：An incrementalimprovement″，arXiv preprint arXiv：1804.02767，2018.

-[Wang2019]He Wang，Srinath Sridhar，Jingwei Huang，Julien Valentin，Shuran Song，and Leonidas J Guibas.″Normalized object coordinate space forcategory-level 6d object pose and size estimation″.InCVPR，2019.

-[Zakharov2019]Sergey Zakharov，Ivan Shugurov，and Slobodan Ilic."Dpod：6d pose object detector and refiner″.In ICCV，2019.

-[Zhou2019]Y.Zhou，C.Barnes，J.Lu，J.Yang，and H.Li，″On the continuity ofrotation representations in neural networks，″in CVPR，2019.

-[Zhang2000]Zhengyou Zhang.″A flexible new technique for cameracalibration″.IEEE Transactions on pattern analysis and machine intelligence，22，2000.

附图说明

在下文中，参考附图更详细地描述了本发明不同方面的可能实施例。从下面结合附图对优选实施例的描述中，本实施例的目的以及进一步的优点将变得更加明显和容易理解，其中：

图1示出了具有感兴趣对象的真实世界场景，

图2是姿态估计方法PEM，

图3是初始姿态估计过程PEP，

图4是姿态细化过程PRP。

具体实施方式

图1示出了具有感兴趣对象OBJ的示例性真实世界场景。对象在场景中的OBJ真实位置是这样的，使得它可以由地面真实6D对象姿态T_gt来描述，包括分别三个平移自由度和坐标，以及分别三个旋转自由度和坐标。然而，真实姿态T_gt是未知的，并且必须由这里描述的姿态估计系统100来估计。

姿态估计系统100包括用于执行下述姿态估计方法PEM的控制系统120和具有多个相机110-i的相机系统110，其中i＝1，...，I和I≥2，它们位于不同的位置POS(i)。在仅是示例性的图1所示的设置中，示出了I＝3个相机110-i。相机110-i被定位成使得它们捕捉场景的图像IMA(i)，随即描绘感兴趣的对象OBJ。特别地，相机110-i被定位成使得它们从不同的视角PER(i)描绘对象OBJ，例如在不同的观看角度下。

代替使用多个相机，也可能使用一个可移动的单个相机(未示出)，从而它可以移动到不同的位置POS(i)，以从相应的不同视角PER(i)描绘对象。

不管是使用可移动的相机还是多个相机来从不同的位置POS(i)捕获图像IMA(i)，下面描述的方法都假定相机位置POS(i)或视角PER(i)是已知的。其中，位置POS(i)可以是相对位置，或者相对于彼此表示，或者通过选择它们中的一个，例如POS(1)，作为参考位置POS_ref，并且相对于POS_ref表示剩余的位置。因此，相机位置POS(i)之间的变换也是已知的。实际上，位置POS(i)可以通过多种不同的方法获得，例如将对象放置在标记板上，并且使用实际的多相机系统或者使用单个相机但是移动标记板。标记板将允许计算标记板坐标系中的相机位置POS(i)，并因此计算相机110-i之间的相对姿态。在机器人抓取的情况下，机械臂可以配备相机以从几个视点观察对象。其中，人们可以依靠由机械臂提供的它们之间的精确相对姿态。然而，图像中对象的6DOF姿态仍然未知。因此，应用了一个参考视图中的6DoF对象姿态的估计，其中相对相机姿态被用作约束。

此外，假定用于捕获感兴趣对象OBJ的相应图像IMA(i)的固有相机参数CAM(i)是已知的。其中，“固有相机参数”是一个明确定义的术语，指的是相机如何将3D场景投影到2D平面上。这些参数包括焦距、主点，有时还包括失真系数。

作为总结，对于每个图像IMA(i)，假定应用于捕获相应图像IMA(i)的成像参数PARA(i)是已知的。成像参数PARA(i)包括相应的相机位置POS(i)和相应的固有相机参数CAM(i)。例如，参数PARA(i)可以被提供给控制系统120，用于利用捕获的图像IMA(i)进行进一步处理。

此外，下面描述的方法需要感兴趣对象OBJ的3D模型MODOBJ，例如3D CAD模型的可用性。这可以存储在控制系统120的相应存储器中，或者它可以在需要时从别处提供。

如图2所示，姿态估计方法PEM被细分为两个过程，即初始姿态估计过程PEP和随后的姿态细化过程PRP。PEM至少接收图像IMA(i)、参数PARA(i)和模型MODOBJ作为输入，并产生对象姿态T_pr(NL)作为输出。

对于图3所示的初始姿态估计过程PEP中的感兴趣对象OBJ的粗略对象姿态T_pr(0)的初始估计，必须在捕获步骤CAP中捕获具有相应成像参数PARA(1)的至少一个这样的图像IMA(i)，例如IMA(1)。然而，由于具有不同成像参数PARA(i)的多于一个图像IMA(i)在姿态细化过程PRP中应该是可用的，所以仍然满足i＝1，...，I和I≥2的几个图像IMA(i)在捕获步骤CAP中捕获。在为每个图像IMA(i)确定相应的分割掩模SEG_pr(i)以及在感兴趣对象OBJ的2D图像IMA(i)和3D模型MODOBJ之间的相应的2D-3D对应性图的步骤DCS中，处理捕获的图像IMA(i)。步骤DCS形成姿态估计过程PEP的第一步骤。

其中，图像IMA(i)的分割掩模SEG_pr(i)是具有像素值“1”或“0”的二进制2D矩阵，标记图像IMA(i)中的感兴趣对象。即，只有对应于IMA(i)的像素的SEG_pr(i)的像素在SEG_pr(i)中接收像素值“1”，所述像素属于IMA(i)中对象OBJ的所描绘的表示。

在[Zakharov2019]中描述了2D-3D对应性图。在图像IMA(i)的像素和3D模型MODOBJ之间的2D-3D对应性图直接提供了在2D IMA(i)图像像素和3D模型MODOBJ顶点之间的关系。例如，2D-3D对应性图可以具有2D帧的形式，描述对象OBJ的3D模型的顶点和图像IMA(i)上的像素之间的双射映射。这提供了易于阅读的2D-3D对应性，因为给定像素颜色，可以通过选择具有相同颜色值的顶点来即时估计其在模型表面上的位置。

为每个图像IMA(i)确定相应的分割掩模SEG_pr(i)以及相应的2D-3D对应性图的步骤DCS可以通过[Zakharov2019]中详细描述的DPOD方法来执行：DPOD基于人工神经网络ANN，其处理图像IMA(i)作为输入，以产生分割掩模SEG_pr(i)和2D-3D对应性图/>为了分别训练ANN和DPOD，网络ANN针对每个感兴趣的潜在对象被单独训练。为了训练对象的网络ANN，需要该对象的纹理模型MOD。模型MOD以随机姿态渲染以产生相应的图像IMA_pose。对于每个渲染的图像IMA_pose，生成前景/背景分割掩模SEG_pose和每像素2D-3D对应性图Ψ_pose。2D-3D对应性图Ψ_pose的可用性意味着对于渲染图像IMA_pose中的每个前景像素，它对应于3D模型MOD上的哪个点是已知的。然后，训练网络ANN以获得RGB图像并输出分割掩模SEG和对应性图Ψ。以这种方式，网络ANN记忆从对象视图到正确的2D-3D对应性图Ψ的映射，并且可以将其外推到看不见的视图。

例如，在一个实施例中，为每个图像IMA(i)确定相应的分割掩模SEG_pr(i)和相应的2D-3D对应性图的步骤DCS可以应用修改的DPOD方法，其被细分为两个子步骤DCS1、DCS2。

在第一子步骤DCS1中，对所提供的图像IMA(i)进行处理，以检测相应图像IMA(i)中的相应感兴趣对象OBJ，并输出围绕所检测对象OBJ的紧边界框BB(i)和表征所检测对象的相应语义标签LAB(i)，例如对象类别。标签LAB(i)在这里描述的方法中是必需的，因为DPOD是为每个对象单独训练的。这意味着一个DPOD只能预测用于一个特定对象的对应性。因此，需要对象类来选择正确的DPOD。DCS1可以应用在[Redmon2016]、[Redmon2017]以及特别是[Redmon2018]中描述的被称为“YOLO”的方法，即被训练来检测图像中的对象并输出相应的边界框和标签的人工神经网络ANN′。

步骤DCS的第二子步骤DCS2，即为每个图像IMA(i)确定相应的分割掩模SEG_pr(i)以及相应的2D-3D对应性图可以应用类似DPOD的体系结构DPOD′，该体系结构从DCS1提供的检测预测对象掩模SEG_pr(i)和密集对应性/>即DPOD′为每个像素预测对象表面上的对应点。因此，产生了在图像像素和3D模型表面的点之间的2D-3D对应性。

包括DCS1和DCS2的两阶段DCS方法简化并加速了每个子步骤的训练过程，并改进了对应性的质量，但是本质上不影响经由DPOD的原始一步方法的准确性。

作为另一可选实施例，与[Zakharov2019]中描述的利用UV映射的DPOD方法相比，该另一可选实施例应用[Wang2019]中描述的3D归一化对象坐标空间(NOCS)。NOCS的每个维度对应于对象的均匀缩放维度，以适合[0，1]范围。这种参数化允许在对象坐标系和NOCS坐标系之间进行简单的转换，这更适合于具有深度学习的回归。模型M可以定义为它的顶点v的集合，其中此外，可以定义沿着顶点维度DIMi的最大和最小值的算子，因为/>然后，对于任一点px，NOCS投影算子关于模型M定义为：

其中具有相应的逆

然而，初始姿态估计过程PEP的后续粗略姿态估计步骤CPES提供了对象姿态的初始估计T_pr(0)。粗略姿态估计步骤CPES应用例如在[Zhang2000]中描述的透视n点方法(PnP)，优选地由随机样本一致性方法(RANSAC)补充，以基于前面的确定步骤DCS的输出来确定初始对象姿态T_pr(0)。RANSAC与PnP结合使用，使T_pr(0)的估计对可能的异常值更加稳健。在点对应性集合中出现异常值的情况下，PnP容易出错。RANSAC可用于使最终估计对这些异常值更加稳健。

在CPES的第一实施例中，由DCS提供的I个2D-3D对应性图中不是所有而是只有一个参考图是由PnP和RANSAC利用来确定T_Pr(0)，例如其中i＝1。

在第二实施例中，不是一个而是J个2D-3D对应性图其中I≥J≥2被选择用来确定T_pr(0)。每个选择的2D-3D对应性图/>如上所述用PnP和RANSAC处理以确定相应的初步对象姿态T_pr，j(0)。然后，初始对象姿态T_pr(0)被计算为初步对象姿态T_pr，j(0)的平均值。

作为中间总结，在总体姿态估计方法PEM的这一点上完成的初始姿态估计过程PEP包括确定步骤DCS，该确定步骤DCS为在上游图像捕获步骤CAP中捕获的每个图像IMA(i)确定相应的分割掩模SEG_pr(i)以及相应的2D-3D对应性图以及粗略姿态估计步骤CPES，其中进一步处理至少一个2D-3D对应性图/>以确定初始对象姿态T_pr(0)。因此，在整体姿态估计方法PEM的这一点上，多个2D-3D对应性图/>相应的多个分割掩模SEG_pr(i)、初始对象姿态T_pr(0)、模型MODOBJ以及成像参数PARA(i)是可用的，并且被提供给姿态估计方法的下一步骤，即提供给姿态细化过程PRP。

如图4所示并且如下面详细描述的姿态细化过程PRP是基于可微分渲染器dREND。它使用多个视图i，添加相机位置POS(i)作为对迭代姿态T_pr(k)优化过程的约束，数目为NL的循环k＝1，...，NL，其基于损失函数LF的优化。该过程通过可微分渲染器dREND比较通过姿势估计程序PEP提供的2D-3D对应性图与为每个i计算的渲染的对应性图/>然后通过可微分渲染器dREND传回误差，以在对象姿态更新ΔT方面将对象姿态从T_pr(k-1)更新到T_pr(k)，使得T_pr(k)＝ΔT·T_pr(k-1)。姿态细化过程PRP首先利用初始对象姿态T_pr(0)。然后，初始预测姿态T_pr(0)在NL≥1次迭代中被细化，并循环k次，从而最终得到细化的姿态T_pr(k＝NL)。姿态细化是基于在为每个i所提供的对应性图/>和相关渲染对应性图/>之间的差异的优化。渲染的对应性图/>并且相应地，差异直接取决于假定的对象姿态T_pr(k)，从而对象姿态T_pr(k)的变化导致差异的变化，使得最小差异可以被认为是假定的对象姿态T_pr(NL)的正确性的指示符。因此，姿态细化过程PRP通过损失的迭代优化过程IOP来估计细化的对象姿态T_pr(NL)。损失是根据给定的损失函数LF(k)，并且取决于所提供的2D-3D对应性图/>和相应的渲染的2D-3D对应性图/>之间的差异。因此，对于每个所提供的2D-3D对应性图/>需要相应的渲染2D-3D对应性图/>从而比较成为可能。此类对应性图可能被认为是分配给彼此的，并且共同点是它们分别都涉及相同的图像IMA(i)、位置POS(i)、视角PER(i)和成像参数PARA(i)，由公共参数“i”表示。

例如，当分别取决于T_pr(k)和ΔT的相应损失函数LF收敛或落在给定阈值或类似阈值之下时，迭代优化过程IOP可能在k＝NL处结束。即NL不是预定义的，而是取决于T_pr(k)的变化和损失函数LF的所得结果。结束损失函数的迭代优化过程的一般标准从严格意义上来说在现有技术中是众所周知的，并且不形成本发明的本质方面。然而，在循环k＝L中实现的对象姿态T_pr(NL)最终被假定为期望的、细化的对象姿态。

更详细地，迭代优化过程IOP的每个循环k中的姿态细化过程PRP的起始点将是用于每个i的渲染的2D-3D对应性图和分割图SEG_rend(k，i)的渲染。这种渲染是通过上述可微分的渲染器dREND来实现的。其中，可微分的渲染器dREND可以是标准渲染器的可微分实现，例如从计算机图形应用中已知的。例如，这种可微分的渲染器采用纹理化的对象模型、对象的姿态、光路线等并产生相应的图像。与标准渲染相反，可微分渲染器允许在图像上定义任何函数，并关于所有渲染器输入计算其导数，该输入例如纹理化的对象模型、对象的姿态、光路线等，如上所述。通过这种方式，可以直接更新对象、其颜色、其位置等，以便获得所需的渲染数据集合。

在每个循环k中，从k＝1开始，可微分渲染器dREND需要假定的对象姿态T_pr(k)、感兴趣对象OBJ的3D模型MODOBJ和成像参数PARA(i)，尤其是相机位置POS(i)和固有参数CAM(i)作为输入。在那个循环k中，可微分渲染器dREND从提供的输入为每个相应i产生渲染的2D-3D对应性图和分割图SEG_rend(k，i)作为输出。即，给定3D模型MODOBJ、相机位置POS(i)、相应的固有相机参数CAM(i)和T_pr(k)，可能计算3D模型MODOBJ的哪个顶点将被投影到渲染的2D图像的哪个像素上。这种对应性由相应的2D-3D对应性图/>来表示。这种过程是确定性的和无错误的，并且可以由可微分渲染器dREND执行。所得的对应性图/>精确地对应于从相应相机位置POS(i)的视角PER(i)的在给定姿态T_pr(k)中的模型MODOBJ,并且可以与相应提供的2D-3D对应性图/>进行比较。

基于对每像素(x，y)损失函数LF(k)的确定，在损失确定步骤LDS中评估在循环k中假定的对象姿态T_pr(k)是否足够正确，其中LF(k)被定义为：

其中被加数

其中，I表示所提供的2D-3D对应性图的数量，x，y是对应性图/>中的像素坐标，SEG_pr(i)∩SEG_rend(k，i)是由相应分割掩模SEG_pr(i)，SEG_rend(k，i)表示的所提供的和渲染的对应性图/>的交点组，N是由相应分割掩模SEG_pr(i)，SEG_rend(k，i)表示的所提供的/>和渲染的对应性图/>的这种交点的数量以及ρ代表3D中的任意距离函数。有多种可能方式实现距离函数ρ：/>由于所提供的/>和渲染的对应性图/>可能包含潜在的大量异常值，必须使用稳健函数来缓解该问题。例如，[Barron2019]中介绍的一般稳健函数符合条件。此外，可以应用使用来自[Zhou2019]的连续旋转参数化。这种参数化能够在优化过程期间实现更快和更稳定的收敛。/>和其逆/>表示如上介绍的NOCS变换。

实际上，损失函数LF描述了和/>的逐像素比较，以及逐像素差异在迭代优化过程IOP的循环k中最小化。其中，选择循环k中假定的对象姿态T_pr(k)，使得T_pr(k)不同于先前循环k-1的假定对象姿态T_pr(k-1)，其中迭代优化过程IOP应用基于梯度的方法进行所述选择，其中损失函数LF在对象姿态更新ΔT方面被最小化，使得T_pr(k)＝ΔT·T_pr(k-1)。即，通过在对象姿态更新ΔT上的梯度下降，在循环k上迭代地最小化损失函数LF(k)。这可以用任何基于梯度的方法来完成，例如[Kingma2014]。收敛可能在例如50个优化步骤即NL＝50内实现。

总的来说，所描述的方法允许精确的6DoF姿态估计，即使在其中I＝1的只有一个图像IMA(i)并且相应地只有一个渲染的对应性图被使用的单目情况下。当从不同的视角PER(j)观察对象OBJ时，在单目情况下不可见的姿态估计的任何不精确将容易被看到。

例如，在姿态细化过程PRP期间，仅优化了单个变换，即参考姿态T_pr。对于校准的相机集合中的每个图像，使用已知的相对相机位置POS(i)，将对象姿态从参考图像(例如，IMA(1))的坐标系变换到每个特定相机CAM(i)的坐标系。给定在模型坐标系中一个顶点经由/>将其变换到第i个相机CAM(i)坐标系。相应地，由渲染器dREND使用变换P_i ^rel·T_pr，用于渲染第i幅图像IMA(i)的SEG_rend(i)和/>然后，每个帧中的损失用于通过渲染器dREND计算梯度，以便计算联合更新T_pr(k)＝ΔT·T_pr(k-1)。

本发明的目的是进一步克服在合成数据和真实数据上训练的检测器的性能之间的差异。遵循DPOD的密集对应性范式，DPOD检测器仅在合成生成的数据上被训练。在推理阶段，引入的姿态细化过程PRP基于可微分渲染器dREND。这里，细化过程从其中I＝1的单个视图扩展到其中I＞1的多个视图，添加相对相机姿态POS(i)作为对迭代优化过程IOP的约束。实际上，通过将感兴趣的对象放置在标记板上，并且使用实际的多相机系统或者使用单个相机但是移动标记板或相机，可以容易地获得相对相机姿态POS(i)。标记板将允许在标记板坐标系中计算相机姿态，从而计算相机之间的相对姿态。实际上，对于机器人抓取来说，这种情况很容易想象，其中配备有相机的机械臂可以从几个视点观察对象。在那里，人们可以依靠机械臂提供的精确的相对姿态。图像中对象的6DOF姿态保持未知。因此，我们的目标是估计一个参考视图中的6DoF对象姿态，使用相对相机姿态作为约束。

Claims

1.一种计算机实现的姿态估计方法PEM，用于细化感兴趣对象OBJ的初始多维度姿态T_pr(0)，以生成其中NL≥1的细化多维度对象姿态T_pr(NL)，包括：

-步骤S1，提供初始对象姿态T_pr(0)和其中i＝1，...，I和I≥1的至少一个2D-3D对应性图

-步骤S2，根据给定的损失函数LF(k)并且取决于在一个或多个所提供的2D-3D对应性图与一个或多个相应的渲染的2D-3D对应性图/>之间的差异，通过损失的迭代优化过程IOP来估计细化的对象姿态T_pr(NL)。

2.根据权利要求1所述的方法，其中损失函数LF被定义为在所提供的对应性图和渲染的对应性图/>上的每像素损失函数，其中损失函数LF(k)将所提供的对应性图/>和相应渲染的对应性图/>的每像素差异和该对象的3D结构和其姿态Tpr(k)相关，其中渲染的对应性图/>取决于假定的对象姿态T_pr(k)以及在迭代优化过程的循环k中改变假定的对象姿态T_pr(k)。

3.根据权利要求1至2中任一项所述的方法，其中，步骤S2的迭代优化过程包括NL≥1个迭代循环k，其中k＝1，...，NL，其中在每个迭代循环k中

-假定对象姿态T_pr(k)，

-渲染器dREND为每个提供的2D-3D对应性图渲染一个相应的2D-3D对应性图用作输入，

-感兴趣对象OBJ的3D模型MODOBJ，

-假定的对象姿态T_pr(k)，以及

-成像参数PARA(i)，其表示捕获图像IMA(i)的一个或多个参数，所述图像构成相应提供的2D-3D对应性图的基础。

4.根据权利要求3所述的方法，其中选择迭代优化过程IOP的循环k的假定对象姿态T_pr(k)，使得T_pr(k)不同于先前循环k-1的假定对象姿态T_pr(k-1)，其中迭代优化过程应用基于梯度的方法进行所述选择，其中损失函数LF在对象姿态更新ΔT方面被最小化，使得T_pr(k)＝ΔT·T_pr(k-1)。

5.根据权利要求3至4中任一项所述的方法，其中，在每个迭代循环k中，由渲染器dREND为相应渲染的2D-3D对应性图中的每一个获得分割掩模SEG_rend(k，i)，所述分割掩模SEG_rend(k，i)对应于假定的对象姿态T_pr(k)中的感兴趣对象OBJ，其中每个分割掩模SEG_rend(k，1)是通过使用假定的对象姿态T_pr(k)和成像参数PARA(i)渲染3D模型MODOBJ而获得的。

6.根据权利要求5所述的方法，其中损失函数LF(k)被定义为迭代优化过程IOP的循环k中的每像素损失函数，其中

其中

并且其中

-I表示所提供的2D-3D对应性图的数量，

-x，y是对应性图中的像素坐标，

-ρ代表3D中的距离函数，

-SEG_pr(i)∩SEG_rend(k，i)是由相应分割掩模SEG_pr(i)，SEG_rend(k，i)表示的所预测的和渲染的对应性图的交点组，

-N是所预测的和所渲染的对应性图的这种交点的数量，

是用于将相应自变数变换为合适坐标系的算子。

7.根据权利要求3至6中任一权利要求所述的方法，其中所述渲染器dREND是可微分渲染器。

8.根据权利要求1至7中任一项所述的方法，其中，在步骤S0中，确定将在第一步骤S1中提供的感兴趣对象OBJ的初始对象姿态T_pr(0)，

-提供其中i＝1，...，I和I≥2的感兴趣对象OBJ的数量为I的图像IMA(i)以及已知成像参数PARA(i)，其中不同图像IMA(i)由不同成像参数PARA(i)表征，

-在确定步骤DCS中处理所提供的图像IMA(i)以为每个图像IMA(i)确定相应2D-3D对应性图以及相应分割掩膜SEG_pr(i)；

-在粗略姿态估计步骤CPES中进一步处理至少一个2D-3D对应性图以确定初始对象姿态T_pr(0)。

9.根据权利要求8所述的方法，其中在粗略姿态估计步骤CPES中进一步处理其中j＝1，...，J和I≥J≥2的J个2D-3D对应性图之一以确定初始对象姿态T_pr(0)。

10.根据权利要求8所述的方法，其中在粗略姿态估计步骤CPES中进一步处理其中j＝1，...，J和I≥J≥2的J个2D-3D对应性图的每个j以确定相应初步对象姿态T_pr，j(0)，其中初始对象姿态T_pr(0)表示初步对象姿态T_pr，j(0)的平均值。

11.根据权利要求8至10中任一项所述的方法，其中在准备步骤PS中应用体现为经训练的人工神经网络的密集姿态对象检测器DPOD，以从相应图像IMA(i)中确定2D-3D对应性图和分割掩模SEG_pr(i)。

12.根据权利要求8至11中任一项所述的方法，其中，所述粗略姿态估计步骤CPES应用透视n点方法(PnP)，特别是由随机样本一致性方法(RANSAC)补充，以从所述至少一个2D-3D对应性图中确定相应的对象姿态T_pr(0)，T_pr，j(0)。

13.一种姿态估计系统(100)，用于细化感兴趣对象OBJ的初始多维度姿态T_pr(0)，以生成其中NL≥1的细化多维度对象姿态T_pr(NL)，包括控制系统(120)，其被配置用于执行根据权利要求1至12中任一项的姿态估计方法PEM。