CN111566700A

CN111566700A - 用于借助多任务学习确定对象在对象的周围环境中的姿势的方法和控制设备

Info

Publication number: CN111566700A
Application number: CN201880085840.9A
Authority: CN
Inventors: M.布伊; S.扎卡罗夫; S.阿尔巴库尼; S.伊利克
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2018-01-11
Filing date: 2018-12-18
Publication date: 2020-08-21
Anticipated expiration: 2038-12-18
Also published as: US20200357137A1; WO2019137758A1; EP3511904B1; CN111566700B; EP3511904A1; US11244475B2

Abstract

本发明涉及一种用于确定对象在其周围环境中的姿势的方法，其中借助光学采集设备来采集对象以及其周围环境作为当前图像(x_i)，并且借助光学图像分析来确定对象的姿势，并且其中借助神经网络(1)将对象的姿势确定为神经网络(1)的输出，其中借助通过使用姿势回归(L_pose)和描述符学习(L_d)的多任务学习(L_MTL)来训练神经网络(1)，该描述符学习通过使用三元组损失函数(L_triplet)和成对损失函数(L_pair)来确定，其中姿势回归(L_pose)借助四元数来确定，三元组损失函数(L_triplet)依据动态裕度项(m)来确定并且成对损失函数(L_pair)仅作为锚定函数来确定。

Description

用于借助多任务学习确定对象在对象的周围环境中的姿势的方法和控制设备

技术领域

本发明涉及一种用于确定对象在其周围环境中的姿势的方法。借助光学采集设备来采集对象以及其周围环境作为当前图像，并且借助光学图像分析来确定对象的姿势。借助神经网络将姿势确定为神经网络的输出。借助通过姿势回归和描述符学习的多任务学习来训练神经网络，该描述符学习通过使用三元组损失函数(Triplet-wise-Loss-Funktion)和成对损失函数(Pair-wise-Loss-Funktion)来确定。此外，本发明涉及一种控制设备。

背景技术

在计算机视觉领域中，对对象的姿势的确定已经是已知的。例如，可以借助2D视图专用模板(2D-View-spezifische Vorlage)来执行对象识别和姿势估计。通过针对一组已知的视图来计算手动产生的属性表示，可以为具有未知类别和姿势的给定模板找到最相似的对应。

同样已知，使用基于学习的方法来面对该问题，而不是依赖于手动产生的属性，从而能够推断出更多描述性和鲁棒性的属性表示来查询对象位置。例如，Kehl等人的“DeepLearning of Local RGB-D Patches of 3D Object Detection and 6D PoseEstimation，3D对象识别和6D姿势估计的局部RGB-D补丁的深度学习”描述了自动编码器的使用以便学习针地RGB-D图像补丁的属性描述符(Eigenschafts-Deskriptor)。

Wohlhart和Lepetit在他们的公开“Learning Descriptors for ObjectRecognition and 3D Pose Estimation，用于对象识别和3D姿势估计的学习描述符”中提出了利用神经网络来扩展这种描述符学习的思路。通过在来自彼此靠近的相似视图的图像之间和来自相距较远的不同对象的图像之间实施欧几里得损失，可以将对象的身份和姿势信息存储在高度可分离的属性描述符中。可以通过搜索最近的邻居来估计给定的测试图像的姿势，以便找到对象的最靠近的相应姿势。该方法的主要缺点之一是，该方法没有考虑平面的旋转，这在实际中很少是这种情况。

用于估计对象位置和用于照相机定位的现代方法提出了，依赖于像素到3D点的对应关系预测(Pixel-zu-3D-Punkt-Korrespondenzvorhersage)，其基于“森林”分类方法并且基于迭代姿势细化。

新的方法再次引入了直接回归方法，以便回归针对内部和外部图像的照相机的位置和取向。尽管该方法通常能够仅利用一个RGB图像作为输入信号就导出照相机的六个自由度，但其精确度明显低于上面提到的方法基于像素到3D点的对应关系预测所能达到的精确度。

Bui等人的公开“X-Ray PoseNet:6 DoF Pose Estimation for Mobile X-RayDevices，X-Ray PoseNet：移动X射线设备的6DoF姿势估计”中使用了一种使用了一种回归方法，用于预测移动X射线系统的几何参数，以便可以计算以断层成像方式重建的体积。除了通过姿势来损失来训练模型之外，还附加地在使用当前姿势估计的情况下使用现场试验的X射线投影图像与预测图像之间的重建损失，以针对模型的最终应用(断层成像的重建)来改进模型。

在Balntas等人的公开“Pose Guided RGBD Feature Learning for 3D ObjectPose Estimation，用于3D对象姿势估计的姿势引导RGBD特征学习”中研究了使用对象姿势作为用于学习3D对象姿势估计的鲁棒属性的指导的效果。研究了训练模式之间的确切的姿势差异，并且目标在于，学习嵌入，使得姿势空间中的距离与属性空间中的距离成比例。如果对象是对称的，则提出了数据控制的权重，该权重可以反映如在测量姿势距离时的对象对称性。此外还研究了端到端姿势回归，并且在神经网络中执行姿势识别，因此将其用作针对属性学习的另外的姿势指导。

发明内容

因此，本发明要解决的技术问题是，实现一种方法和一种控制设备，借助该方法或借助该控制设备可以更好地确定对象在其周围环境中的姿势。

上述技术问题通过根据独立权利要求的方法和控制设备来解决。

本发明的一个方面涉及一种用于确定对象在其周围环境中的姿势的方法。借助光学采集设备来采集对象以及其周围环境作为当前图像，并且借助光学图像分析来确定对象的姿势。借助神经网络将姿势确定为神经网络的输出。借助通过姿势回归和描述符学习的多任务学习来训练神经网络，该描述符学习通过使用三元组损失函数和成对损失函数来确定。

在此规定：姿势回归借助四元数来确定，三元组损失函数依据动态裕度项(dynamischer Margin-Term)来确定并且成对损失函数仅作为锚定函数来确定。

由此可以实现，可以将回归和多种多样的学习的优势结合起来，以学习可分离的属性描述符，由此可以使用在确定光学属性时的优点。由此可以发展出鲁棒的属性描述符，属性描述符尤其是从当前图像中学习的。相比于用于解决这些问题的迄今的方法(这些方法使用在估计的描述符空间中搜索最近的邻居)，根据本发明规定，使用具有直接姿势回归的、有效的多任务学习框架。

L_MTL＝L_pose+L_d，

其中L_MTL相应于多任务学习、L_pose相应于姿势回归并且L_d相应于描述符学习。由此可以直接估计姿势，而不是仅应用搜索最近邻居的方法，该方法的复杂度会随着对象数量的增加而线性增加。由此可以简化地执行对对象的姿势的确定。此外，由此可以借助属性描述符和回归来执行对搜索最靠近的邻居的详细分析。由此，同样可以改进地确定对象的姿势。

特别地，将对象在对象的周围环境中的取向和/或位置视为对象的姿势。

借助根据本发明的成对丢失函数，可以考虑不同对象和姿势的训练图像之间的精确的姿势差异。以有利的方式，在姿势空间中直接改善姿势，即可以将四元数表示的角度误差最小化。

特别地，已经表明，姿势回归对描述符学习具有积极影响，并且描述符学习对姿势回归进行支持。特别地，这对端到端学习具有有利影响。尤其是对于大的对象数据库，这导致对对象的姿势的改进的处理并且导致对对象的姿势的改进的确定。

根据有利的实施方式，通过确定对象的姿势来识别对象类型和/或确定对象相对于对象的周围环境的位置。特别地，由此可以根据当前图像进行对象识别，并且替换地或补充地可以确定对象在对象的周围环境中的位置。由此可以灵活地使用该方法，并且可以在许多技术领域中使用该方法。

此外，已经证明有利的是：在姿势回归中将到神经网络的输入x映射到较低维度的属性向量f(x)∈R^d。这意味着，在利用下面的损失函数将最后完全连接的层的输出用于姿势回归之前，最后完全连接的层的输出具有如下函数：

其中q是相应的现场试验姿势。

进一步有利的是：为了学习三元组损失函数，确定与当前图像相对应的锚图像并且选择拉图像，使得对象的当前图像与对象的具有相似姿势的图像相对应。为了与基线方法进行比较，可以利用训练组S_train来生成具有用于搜索最近邻居的图像属性描述符的数据库，然后使用该数据库以针对未知的测试图像获得最佳的对应姿势。为了达到有效的回归，必须创建鲁棒的图像属性描述符f(x)。使用表示损失函数的三元组损失函数L_triplets来训练神经网络。神经网络通过一系列三元组(s_i,s_j,s_k)∈T进行训练，其中样本s_i(anchor，锚图像)相应于当前图像x_i，并且选择样本s_j(puller，拉图像)，使得图像相应于从相似的姿势q_j观察的相同的对象c_j。

同样有利的是，为了学习三元组损失函数，确定与当前图像相对应的锚图像并且选择推图像，使得对象的当前图像与具有另外对象的图像相对应或者与对象的具有不同姿势的图像相对应。选择样本s_k(pusher，推图像)，使得图像x_k要么相应于另外的对象c_k要么相应于相同但是在完全不同的姿势

下观察的对象c_i。

特别地，如下列出了通过一组三元组定义的损失：

在有利的实施方式中，在当前图像与对象的具有相似姿势的图像相对应的况下，通过反余弦函数来确定动态裕度项。如下定义了动态裕度项m：

情

动态裕度项m负责将不同类别的对象进一步推开，其中相同对象的裕度项m取决于当前视角q_i和q_j之间的角度间隔。

根据另外的有利的实施方式，当前图像与具有另外对象的图像相对应或者与对象的具有不同姿势的图像相对应的动态裕度项可以被确定为线性函数。如下定义了动态裕度项m：

同样有利的是：借助成对损失函数将描述符推到一起，该描述符描述了在相同或至少相似的姿势中但是分别具有不同周围环境的相同对象，以及该描述符源自不同的域。根据对(s_i,s_j)∈P来计算损失函数L_pairs并且将其定义为：

其中f(x_i)是图像属性描述符q，其是从神经网络针对当前图像x_i提取的。

同样有利的是，附加地或替换地，借助特定的属性向量f(x)借助最近邻居搜索来确定对象相对于对象的周围环境的位置。由此可以根据其姿势将所形成的属性描述符分开，并且利用其关系来添加直接的回归方法。

同样有利的是：在图像分析中考虑对象的至少一个对称属性，特别地仅分析对称对象的第一部分，该第一部分至少相对于对称对象的第二部分对称。特别地，通过仅保留唯一的姿势来限制改变的姿势的数量。这是有利的，因为(通过额外渲染的姿势)需要较少的存储空间。由此，在确定对象的属性时可以节省计算能力和计算时间。

同样有利的是：采集当前图像作为深度图像。对于深度图像，通过图像分析可以在2D图像中使用深度信息，以便为图像分析获得关于关于深度层的信息。深度图像不是RGB图像。由此，特别是相对于现有技术可以节省计算时间，因为仅将深度图像用于确定对象的姿势。

本发明的另一方面涉及一种控制设备，该控制设备被设计为用于执行根据前述方面或其有利的实施方式的方法。该控制设备尤其是电子计算设备。

将该方法的有利的实施方式视为控制设备的有利的实施方式。为此，控制设备具有能够执行该方法或其有利的实施方式的具体的特征。

附图说明

参照附图可以从下面的描述中获得另外的特征和优点。在附图中，相同的附图标记表示相同的特征和功能。实施例仅用于解释本发明并且不应限制本发明。

在此，唯一的附图示出了该方法的实施方式的示意图。

在附图中，相同和功能上相同的元素具有相同的附图标记。

具体实施方式

该附图以示意图示出了该方法的实施方式。利用输入深度图像补丁(Input-Tiefen-Aufnahmepatch)在训练期间产生了相应的三元组和对，以便执行各种各样的嵌入和鲁棒属性描述符的创建以及姿势回归L_pose。

附图中所示方法的实施例开始于针对给定的、由N个样本S组成的训练组S_train＝{s₁，…，s_N}＝{(x₁，c₁，q₁)，…，(x_N，c_N，q_N)}来训练神经网络1。每个样本s由对象c∈N的深度图像部分

与相应的姿势矢量

一起组成，姿势矢量给出了通过四元数表示的取向。

规定：对映射函数φ：X→Q进行建模，即，针对给定的输入x，如下获得预测的姿势矢量

其中w是模型参数。规定，针对所有不可见的数据获得准确的姿势估计。附加地规定，具有良好的群集的属性空间。为了实现这点，执行了多任务学习L_MTL。借助姿势回归L_pose和描述符学习L_d来执行多任务学习L_MTL。由此，如下描述了上级的目标函数：

L_MTL＝L_pose+L_d，

其中L_pose和L_d是姿势回归任务和描述符学习任务的目标函数。

在测试期间，神经网络1将给定的输入x映射到较低维度的属性向量f(x)∈R^d，即映射到最后完全连接的层的输出(在将该输出用于姿势回归之前)，其中使用如下的损失函数：

其中q是相应的现场试验姿势。

为了与基线方法进行比较，可以利用训练组S_train来生成具有用于搜索最近邻居的图像属性描述符q的数据库，然后使用该数据库以针对未知的测试图像获得最佳的对应姿势。为了达到有效的回归，必须创建鲁棒的图像属性描述符q。使用表示损失函数的三元组损失函数L_triplets来训练神经网络1。该神经网络通过一系列三元组(s_i,s_j,s_k)∈T进行训练，其中样本s_i(anchor，锚图像)相应于当前图像x_i，并且选择样本s_j(puller，拉图像)，使得图像相应于从相似的姿势q_j观察的相同的对象c_j。但是，选择样本s_k(pusher，推图像)，使得图像x_k相应于另外的对象c_k或相应于相同但是在完全不同的姿势

下观察的对象c_i。如下列出了通过一组三元组定义的损失：

其中将相似姿势下的视角彼此紧密地拉到一起，并且将不相等或不同的对象进一步推开。如下定义了动态裕度项m：

此外，使用成对损失函数L_pairs，以便将相同或非常相似姿势下的、但是具有不同背景或源自不同域的同一对象的图像属性描述符q(合成地和真实地)拉在一起。基于对(s_i,s_j)∈P来计算损失函数L_pairs并且将其定义为：

其中f(x_i)是图像属性描述符q，其是从神经网络1针对当前图像x_i提取的。

但是，不仅仅依赖于所计算的特征来搜索最近的邻居，而且还附加地规定利用以下事实：根据其姿势将所形成的图像属性描述符q分开，并且利用其关系来添加直接的回归方法。

总体上，获得了如下用于描述符学习的损失函数L_d：

L_d＝L_triplets+L_pairs

描述符学习L_d存储在描述符存储器2中。由此提出了用于对象识别和姿势估计的端到端多任务学习框架。通过引入具有鲁棒的图像属性描述符学习的回归框架，相比于基线方法，可以完全消除搜索最近邻居的必要性，这又引起了对存储消耗和方法的效率的改善。通过促进姿势回归L_pose和描述符学习L_d并且改善所形成的准确性来查询最邻近的相邻位置产生了优点。

Claims

1.一种用于确定对象在其周围环境中的姿势的方法，其中借助光学采集设备来采集对象以及其周围环境作为当前图像(x_i)，并且借助光学图像分析来确定对象的姿势，并且其中借助神经网络(1)将对象的姿势确定为所述神经网络(1)的输出，其中借助通过使用姿势回归(L_pose)和描述符学习(L_d)的多任务学习(L_MTL)来训练所述神经网络(1)，所述描述符学习通过使用三元组损失函数(L_triplet)和成对损失函数(L_pair)来确定，

其特征在于，

所述姿势回归(L_pose)借助四元数来确定，所述三元组损失函数(L_triplet)依据动态裕度项(m)来确定并且所述成对损失函数(L_pair)仅作为锚定函数来确定。

2.根据权利要求1所述的方法，其中通过确定对象的姿势来识别对象类型和/或确定对象相对于对象的周围环境的位置。

3.根据上述权利要求中任一项所述的方法，其中在所述姿势回归(L_pose)中将到所述神经网络(1)的输入x映射到较低维度的属性向量f(x)∈R^d。

4.根据上述权利要求中任一项所述的方法，其中为了学习所述三元组损失函数(L_triplet)，确定与当前图像(x_i)相对应的锚图像(s_i)并且选择拉图像(s_j)，使得对象的当前图像(x_i)与对象的具有相似姿势的图像相对应。

5.根据上述权利要求中任一项所述的方法，其中为了学习所述三元组损失函数(L_triplet)，确定与当前图像(x_i)相对应的锚图像(s_i)并且选择推图像(s_k)，使得对象的当前图像(x_i)与具有另外对象的图像相对应或者与对象的具有不同姿势的图像相对应。

6.根据权利要求4所述的方法，其中在当前图像(x_i)与对象的具有相似姿势的图像相对应的情况下，通过反余弦函数来确定所述动态裕度项(m)。

7.根据权利要求5所述的方法，其中在当前图像(x_i)与具有另外对象的图像相对应或者与对象的具有不同姿势的图像相对应的情况下，将所述动态裕度项(m)确定为线性函数。

8.根据上述权利要求中任一项所述的方法，其中借助所述成对损失函数(L_pair)将描述符(q)推到一起，所述描述符描述了在相同或至少相似的姿势中但是分别具有不同周围环境的相同对象，或者所述描述符源自不同的域。

9.根据上述权利要求中任一项所述的方法，其中附加地或替换地，借助特定的属性向量f(x)借助最近邻居搜索来确定对象相对于对象的周围环境的位置。

10.根据上述权利要求中任一项所述的方法，其中在图像分析中考虑对象的至少一个对称属性，特别地仅分析对称对象的第一部分，所述第一部分至少相对于对称对象的第二部分对称。

11.根据上述权利要求中任一项所述的方法，其中采集当前图像(x_i)作为深度图像。

12.一种控制设备，所述控制设备被设计为用于执行根据上述权利要求中任一项所述的方法。