CN111566700A - 用于借助多任务学习确定对象在对象的周围环境中的姿势的方法和控制设备 - Google Patents

用于借助多任务学习确定对象在对象的周围环境中的姿势的方法和控制设备 Download PDF

Info

Publication number
CN111566700A
CN111566700A CN201880085840.9A CN201880085840A CN111566700A CN 111566700 A CN111566700 A CN 111566700A CN 201880085840 A CN201880085840 A CN 201880085840A CN 111566700 A CN111566700 A CN 111566700A
Authority
CN
China
Prior art keywords
image
pose
loss function
determined
triplet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880085840.9A
Other languages
English (en)
Other versions
CN111566700B (zh
Inventor
M.布伊
S.扎卡罗夫
S.阿尔巴库尼
S.伊利克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN111566700A publication Critical patent/CN111566700A/zh
Application granted granted Critical
Publication of CN111566700B publication Critical patent/CN111566700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种用于确定对象在其周围环境中的姿势的方法,其中借助光学采集设备来采集对象以及其周围环境作为当前图像(xi),并且借助光学图像分析来确定对象的姿势,并且其中借助神经网络(1)将对象的姿势确定为神经网络(1)的输出,其中借助通过使用姿势回归(Lpose)和描述符学习(Ld)的多任务学习(LMTL)来训练神经网络(1),该描述符学习通过使用三元组损失函数(Ltriplet)和成对损失函数(Lpair)来确定,其中姿势回归(Lpose)借助四元数来确定,三元组损失函数(Ltriplet)依据动态裕度项(m)来确定并且成对损失函数(Lpair)仅作为锚定函数来确定。

Description

用于借助多任务学习确定对象在对象的周围环境中的姿势的 方法和控制设备
技术领域
本发明涉及一种用于确定对象在其周围环境中的姿势的方法。借助光学采集设备来采集对象以及其周围环境作为当前图像,并且借助光学图像分析来确定对象的姿势。借助神经网络将姿势确定为神经网络的输出。借助通过姿势回归和描述符学习的多任务学习来训练神经网络,该描述符学习通过使用三元组损失函数(Triplet-wise-Loss-Funktion)和成对损失函数(Pair-wise-Loss-Funktion)来确定。此外,本发明涉及一种控制设备。
背景技术
在计算机视觉领域中,对对象的姿势的确定已经是已知的。例如,可以借助2D视图专用模板(2D-View-spezifische Vorlage)来执行对象识别和姿势估计。通过针对一组已知的视图来计算手动产生的属性表示,可以为具有未知类别和姿势的给定模板找到最相似的对应。
同样已知,使用基于学习的方法来面对该问题,而不是依赖于手动产生的属性,从而能够推断出更多描述性和鲁棒性的属性表示来查询对象位置。例如,Kehl等人的“DeepLearning of Local RGB-D Patches of 3D Object Detection and 6D PoseEstimation,3D对象识别和6D姿势估计的局部RGB-D补丁的深度学习”描述了自动编码器的使用以便学习针地RGB-D图像补丁的属性描述符(Eigenschafts-Deskriptor)。
Wohlhart和Lepetit在他们的公开“Learning Descriptors for ObjectRecognition and 3D Pose Estimation,用于对象识别和3D姿势估计的学习描述符”中提出了利用神经网络来扩展这种描述符学习的思路。通过在来自彼此靠近的相似视图的图像之间和来自相距较远的不同对象的图像之间实施欧几里得损失,可以将对象的身份和姿势信息存储在高度可分离的属性描述符中。可以通过搜索最近的邻居来估计给定的测试图像的姿势,以便找到对象的最靠近的相应姿势。该方法的主要缺点之一是,该方法没有考虑平面的旋转,这在实际中很少是这种情况。
用于估计对象位置和用于照相机定位的现代方法提出了,依赖于像素到3D点的对应关系预测(Pixel-zu-3D-Punkt-Korrespondenzvorhersage),其基于“森林”分类方法并且基于迭代姿势细化。
新的方法再次引入了直接回归方法,以便回归针对内部和外部图像的照相机的位置和取向。尽管该方法通常能够仅利用一个RGB图像作为输入信号就导出照相机的六个自由度,但其精确度明显低于上面提到的方法基于像素到3D点的对应关系预测所能达到的精确度。
Bui等人的公开“X-Ray PoseNet:6 DoF Pose Estimation for Mobile X-RayDevices,X-Ray PoseNet:移动X射线设备的6DoF姿势估计”中使用了一种使用了一种回归方法,用于预测移动X射线系统的几何参数,以便可以计算以断层成像方式重建的体积。除了通过姿势来损失来训练模型之外,还附加地在使用当前姿势估计的情况下使用现场试验的X射线投影图像与预测图像之间的重建损失,以针对模型的最终应用(断层成像的重建)来改进模型。
在Balntas等人的公开“Pose Guided RGBD Feature Learning for 3D ObjectPose Estimation,用于3D对象姿势估计的姿势引导RGBD特征学习”中研究了使用对象姿势作为用于学习3D对象姿势估计的鲁棒属性的指导的效果。研究了训练模式之间的确切的姿势差异,并且目标在于,学习嵌入,使得姿势空间中的距离与属性空间中的距离成比例。如果对象是对称的,则提出了数据控制的权重,该权重可以反映如在测量姿势距离时的对象对称性。此外还研究了端到端姿势回归,并且在神经网络中执行姿势识别,因此将其用作针对属性学习的另外的姿势指导。
发明内容
因此,本发明要解决的技术问题是,实现一种方法和一种控制设备,借助该方法或借助该控制设备可以更好地确定对象在其周围环境中的姿势。
上述技术问题通过根据独立权利要求的方法和控制设备来解决。
本发明的一个方面涉及一种用于确定对象在其周围环境中的姿势的方法。借助光学采集设备来采集对象以及其周围环境作为当前图像,并且借助光学图像分析来确定对象的姿势。借助神经网络将姿势确定为神经网络的输出。借助通过姿势回归和描述符学习的多任务学习来训练神经网络,该描述符学习通过使用三元组损失函数和成对损失函数来确定。
在此规定:姿势回归借助四元数来确定,三元组损失函数依据动态裕度项(dynamischer Margin-Term)来确定并且成对损失函数仅作为锚定函数来确定。
由此可以实现,可以将回归和多种多样的学习的优势结合起来,以学习可分离的属性描述符,由此可以使用在确定光学属性时的优点。由此可以发展出鲁棒的属性描述符,属性描述符尤其是从当前图像中学习的。相比于用于解决这些问题的迄今的方法(这些方法使用在估计的描述符空间中搜索最近的邻居),根据本发明规定,使用具有直接姿势回归的、有效的多任务学习框架。
LMTL=Lpose+Ld
其中LMTL相应于多任务学习、Lpose相应于姿势回归并且Ld相应于描述符学习。由此可以直接估计姿势,而不是仅应用搜索最近邻居的方法,该方法的复杂度会随着对象数量的增加而线性增加。由此可以简化地执行对对象的姿势的确定。此外,由此可以借助属性描述符和回归来执行对搜索最靠近的邻居的详细分析。由此,同样可以改进地确定对象的姿势。
特别地,将对象在对象的周围环境中的取向和/或位置视为对象的姿势。
借助根据本发明的成对丢失函数,可以考虑不同对象和姿势的训练图像之间的精确的姿势差异。以有利的方式,在姿势空间中直接改善姿势,即可以将四元数表示的角度误差最小化。
特别地,已经表明,姿势回归对描述符学习具有积极影响,并且描述符学习对姿势回归进行支持。特别地,这对端到端学习具有有利影响。尤其是对于大的对象数据库,这导致对对象的姿势的改进的处理并且导致对对象的姿势的改进的确定。
根据有利的实施方式,通过确定对象的姿势来识别对象类型和/或确定对象相对于对象的周围环境的位置。特别地,由此可以根据当前图像进行对象识别,并且替换地或补充地可以确定对象在对象的周围环境中的位置。由此可以灵活地使用该方法,并且可以在许多技术领域中使用该方法。
此外,已经证明有利的是:在姿势回归中将到神经网络的输入x映射到较低维度的属性向量f(x)∈Rd。这意味着,在利用下面的损失函数将最后完全连接的层的输出用于姿势回归之前,最后完全连接的层的输出具有如下函数:
Figure BDA0002575106230000041
其中q是相应的现场试验姿势。
进一步有利的是:为了学习三元组损失函数,确定与当前图像相对应的锚图像并且选择拉图像,使得对象的当前图像与对象的具有相似姿势的图像相对应。为了与基线方法进行比较,可以利用训练组Strain来生成具有用于搜索最近邻居的图像属性描述符的数据库,然后使用该数据库以针对未知的测试图像获得最佳的对应姿势。为了达到有效的回归,必须创建鲁棒的图像属性描述符f(x)。使用表示损失函数的三元组损失函数Ltriplets来训练神经网络。神经网络通过一系列三元组(si,sj,sk)∈T进行训练,其中样本si(anchor,锚图像)相应于当前图像xi,并且选择样本sj(puller,拉图像),使得图像相应于从相似的姿势qj观察的相同的对象cj
Figure BDA0002575106230000042
同样有利的是,为了学习三元组损失函数,确定与当前图像相对应的锚图像并且选择推图像,使得对象的当前图像与具有另外对象的图像相对应或者与对象的具有不同姿势的图像相对应。选择样本sk(pusher,推图像),使得图像xk要么相应于另外的对象ck要么相应于相同但是在完全不同的姿势
Figure BDA0002575106230000043
下观察的对象ci
Figure BDA0002575106230000044
特别地,如下列出了通过一组三元组定义的损失:
Figure BDA0002575106230000045
在有利的实施方式中,在当前图像与对象的具有相似姿势的图像相对应的况下,通过反余弦函数来确定动态裕度项。如下定义了动态裕度项m:
Figure BDA0002575106230000046
动态裕度项m负责将不同类别的对象进一步推开,其中相同对象的裕度项m取决于当前视角qi和qj之间的角度间隔。
根据另外的有利的实施方式,当前图像与具有另外对象的图像相对应或者与对象的具有不同姿势的图像相对应的动态裕度项可以被确定为线性函数。如下定义了动态裕度项m:
Figure BDA0002575106230000051
动态裕度项m负责将不同类别的对象进一步推开,其中相同对象的裕度项m取决于当前视角qi和qj之间的角度间隔。
同样有利的是:借助成对损失函数将描述符推到一起,该描述符描述了在相同或至少相似的姿势中但是分别具有不同周围环境的相同对象,以及该描述符源自不同的域。根据对(si,sj)∈P来计算损失函数Lpairs并且将其定义为:
Figure BDA0002575106230000052
其中f(xi)是图像属性描述符q,其是从神经网络针对当前图像xi提取的。
同样有利的是,附加地或替换地,借助特定的属性向量f(x)借助最近邻居搜索来确定对象相对于对象的周围环境的位置。由此可以根据其姿势将所形成的属性描述符分开,并且利用其关系来添加直接的回归方法。
同样有利的是:在图像分析中考虑对象的至少一个对称属性,特别地仅分析对称对象的第一部分,该第一部分至少相对于对称对象的第二部分对称。特别地,通过仅保留唯一的姿势来限制改变的姿势的数量。这是有利的,因为(通过额外渲染的姿势)需要较少的存储空间。由此,在确定对象的属性时可以节省计算能力和计算时间。
同样有利的是:采集当前图像作为深度图像。对于深度图像,通过图像分析可以在2D图像中使用深度信息,以便为图像分析获得关于关于深度层的信息。深度图像不是RGB图像。由此,特别是相对于现有技术可以节省计算时间,因为仅将深度图像用于确定对象的姿势。
本发明的另一方面涉及一种控制设备,该控制设备被设计为用于执行根据前述方面或其有利的实施方式的方法。该控制设备尤其是电子计算设备。
将该方法的有利的实施方式视为控制设备的有利的实施方式。为此,控制设备具有能够执行该方法或其有利的实施方式的具体的特征。
附图说明
参照附图可以从下面的描述中获得另外的特征和优点。在附图中,相同的附图标记表示相同的特征和功能。实施例仅用于解释本发明并且不应限制本发明。
在此,唯一的附图示出了该方法的实施方式的示意图。
在附图中,相同和功能上相同的元素具有相同的附图标记。
具体实施方式
该附图以示意图示出了该方法的实施方式。利用输入深度图像补丁(Input-Tiefen-Aufnahmepatch)在训练期间产生了相应的三元组和对,以便执行各种各样的嵌入和鲁棒属性描述符的创建以及姿势回归Lpose
附图中所示方法的实施例开始于针对给定的、由N个样本S组成的训练组Strain={s1,…,sN}={(x1,c1,q1),…,(xN,cN,qN)}来训练神经网络1。每个样本s由对象c∈N的深度图像部分
Figure BDA0002575106230000061
与相应的姿势矢量
Figure BDA0002575106230000062
一起组成,姿势矢量给出了通过四元数表示的取向。
规定:对映射函数φ:X→Q进行建模,即,针对给定的输入x,如下获得预测的姿势矢量
Figure BDA0002575106230000063
Figure BDA0002575106230000064
其中w是模型参数。规定,针对所有不可见的数据获得准确的姿势估计。附加地规定,具有良好的群集的属性空间。为了实现这点,执行了多任务学习LMTL。借助姿势回归Lpose和描述符学习Ld来执行多任务学习LMTL。由此,如下描述了上级的目标函数:
LMTL=Lpose+Ld
其中Lpose和Ld是姿势回归任务和描述符学习任务的目标函数。
在测试期间,神经网络1将给定的输入x映射到较低维度的属性向量f(x)∈Rd,即映射到最后完全连接的层的输出(在将该输出用于姿势回归之前),其中使用如下的损失函数:
Figure BDA0002575106230000065
其中q是相应的现场试验姿势。
为了与基线方法进行比较,可以利用训练组Strain来生成具有用于搜索最近邻居的图像属性描述符q的数据库,然后使用该数据库以针对未知的测试图像获得最佳的对应姿势。为了达到有效的回归,必须创建鲁棒的图像属性描述符q。使用表示损失函数的三元组损失函数Ltriplets来训练神经网络1。该神经网络通过一系列三元组(si,sj,sk)∈T进行训练,其中样本si(anchor,锚图像)相应于当前图像xi,并且选择样本sj(puller,拉图像),使得图像相应于从相似的姿势qj观察的相同的对象cj。但是,选择样本sk(pusher,推图像),使得图像xk相应于另外的对象ck或相应于相同但是在完全不同的姿势
Figure BDA0002575106230000071
下观察的对象ci。如下列出了通过一组三元组定义的损失:
Figure BDA0002575106230000072
其中将相似姿势下的视角彼此紧密地拉到一起,并且将不相等或不同的对象进一步推开。如下定义了动态裕度项m:
Figure BDA0002575106230000073
动态裕度项m负责将不同类别的对象进一步推开,其中相同对象的裕度项m取决于当前视角qi和qj之间的角度间隔。
此外,使用成对损失函数Lpairs,以便将相同或非常相似姿势下的、但是具有不同背景或源自不同域的同一对象的图像属性描述符q(合成地和真实地)拉在一起。基于对(si,sj)∈P来计算损失函数Lpairs并且将其定义为:
Figure BDA0002575106230000074
其中f(xi)是图像属性描述符q,其是从神经网络1针对当前图像xi提取的。
但是,不仅仅依赖于所计算的特征来搜索最近的邻居,而且还附加地规定利用以下事实:根据其姿势将所形成的图像属性描述符q分开,并且利用其关系来添加直接的回归方法。
总体上,获得了如下用于描述符学习的损失函数Ld
Ld=Ltriplets+Lpairs
描述符学习Ld存储在描述符存储器2中。由此提出了用于对象识别和姿势估计的端到端多任务学习框架。通过引入具有鲁棒的图像属性描述符学习的回归框架,相比于基线方法,可以完全消除搜索最近邻居的必要性,这又引起了对存储消耗和方法的效率的改善。通过促进姿势回归Lpose和描述符学习Ld并且改善所形成的准确性来查询最邻近的相邻位置产生了优点。

Claims (12)

1.一种用于确定对象在其周围环境中的姿势的方法,其中借助光学采集设备来采集对象以及其周围环境作为当前图像(xi),并且借助光学图像分析来确定对象的姿势,并且其中借助神经网络(1)将对象的姿势确定为所述神经网络(1)的输出,其中借助通过使用姿势回归(Lpose)和描述符学习(Ld)的多任务学习(LMTL)来训练所述神经网络(1),所述描述符学习通过使用三元组损失函数(Ltriplet)和成对损失函数(Lpair)来确定,
其特征在于,
所述姿势回归(Lpose)借助四元数来确定,所述三元组损失函数(Ltriplet)依据动态裕度项(m)来确定并且所述成对损失函数(Lpair)仅作为锚定函数来确定。
2.根据权利要求1所述的方法,其中通过确定对象的姿势来识别对象类型和/或确定对象相对于对象的周围环境的位置。
3.根据上述权利要求中任一项所述的方法,其中在所述姿势回归(Lpose)中将到所述神经网络(1)的输入x映射到较低维度的属性向量f(x)∈Rd
4.根据上述权利要求中任一项所述的方法,其中为了学习所述三元组损失函数(Ltriplet),确定与当前图像(xi)相对应的锚图像(si)并且选择拉图像(sj),使得对象的当前图像(xi)与对象的具有相似姿势的图像相对应。
5.根据上述权利要求中任一项所述的方法,其中为了学习所述三元组损失函数(Ltriplet),确定与当前图像(xi)相对应的锚图像(si)并且选择推图像(sk),使得对象的当前图像(xi)与具有另外对象的图像相对应或者与对象的具有不同姿势的图像相对应。
6.根据权利要求4所述的方法,其中在当前图像(xi)与对象的具有相似姿势的图像相对应的情况下,通过反余弦函数来确定所述动态裕度项(m)。
7.根据权利要求5所述的方法,其中在当前图像(xi)与具有另外对象的图像相对应或者与对象的具有不同姿势的图像相对应的情况下,将所述动态裕度项(m)确定为线性函数。
8.根据上述权利要求中任一项所述的方法,其中借助所述成对损失函数(Lpair)将描述符(q)推到一起,所述描述符描述了在相同或至少相似的姿势中但是分别具有不同周围环境的相同对象,或者所述描述符源自不同的域。
9.根据上述权利要求中任一项所述的方法,其中附加地或替换地,借助特定的属性向量f(x)借助最近邻居搜索来确定对象相对于对象的周围环境的位置。
10.根据上述权利要求中任一项所述的方法,其中在图像分析中考虑对象的至少一个对称属性,特别地仅分析对称对象的第一部分,所述第一部分至少相对于对称对象的第二部分对称。
11.根据上述权利要求中任一项所述的方法,其中采集当前图像(xi)作为深度图像。
12.一种控制设备,所述控制设备被设计为用于执行根据上述权利要求中任一项所述的方法。
CN201880085840.9A 2018-01-11 2018-12-18 用于借助多任务学习确定对象在对象的周围环境中的姿势的方法和控制设备 Active CN111566700B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18151255.9 2018-01-11
EP18151255.9A EP3511904B1 (de) 2018-01-11 2018-01-11 Verfahren zum bestimmen einer pose eines objekts in einer umgebung des objekts mittels multi-task-lernens, sowie steuerungsvorrichtung
PCT/EP2018/085460 WO2019137758A1 (de) 2018-01-11 2018-12-18 Verfahren zum bestimmen einer pose eines objekts in einer umgebung des objekts mittels multi-task-lernens, sowie steuerungsvorrichtung

Publications (2)

Publication Number Publication Date
CN111566700A true CN111566700A (zh) 2020-08-21
CN111566700B CN111566700B (zh) 2024-01-26

Family

ID=61007466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880085840.9A Active CN111566700B (zh) 2018-01-11 2018-12-18 用于借助多任务学习确定对象在对象的周围环境中的姿势的方法和控制设备

Country Status (4)

Country Link
US (1) US11244475B2 (zh)
EP (1) EP3511904B1 (zh)
CN (1) CN111566700B (zh)
WO (1) WO2019137758A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429582B2 (en) * 2020-04-09 2022-08-30 Capital One Services, Llc Techniques for creating and utilizing multidimensional embedding spaces
EP4064125A1 (en) 2021-03-22 2022-09-28 Siemens Aktiengesellschaft Multi-dimensional object pose regression
US12097431B2 (en) * 2022-02-11 2024-09-24 Electronic Arts Inc. Goal driven animation
EP4242981A1 (en) 2022-03-11 2023-09-13 Siemens Aktiengesellschaft Multi-stage object pose estimation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017160688A1 (en) * 2016-03-14 2017-09-21 Siemens Aktiengesellschaft Method and system for efficiently mining dataset essentials with bootstrapping strategy in 6dof pose estimate of 3d objects

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016207311A1 (en) * 2015-06-24 2016-12-29 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Skinned multi-person linear model
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US11151766B2 (en) * 2019-06-06 2021-10-19 Magic Leap, Inc. Photoreal character configurations for spatial computing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017160688A1 (en) * 2016-03-14 2017-09-21 Siemens Aktiengesellschaft Method and system for efficiently mining dataset essentials with bootstrapping strategy in 6dof pose estimate of 3d objects

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MAI BUI等: "When Regression Meets Manifold Learning for object Recognition and Pose Estimation" *
SERGEY ZAKHAROV等: "3D Object instance recognition and pose estimation using triplet loss with dynamic margin" *
王一达: "基于三维模型自约束学习的真实物体识别" *
郭武;党惠娟;: "环境习惯法及其现代价值展开" *

Also Published As

Publication number Publication date
US20200357137A1 (en) 2020-11-12
WO2019137758A1 (de) 2019-07-18
EP3511904B1 (de) 2020-05-27
CN111566700B (zh) 2024-01-26
EP3511904A1 (de) 2019-07-17
US11244475B2 (en) 2022-02-08

Similar Documents

Publication Publication Date Title
Labbé et al. Cosypose: Consistent multi-view multi-object 6d pose estimation
Pavlakos et al. Expressive body capture: 3d hands, face, and body from a single image
Zakharov et al. Dpod: 6d pose object detector and refiner
Wald et al. Rio: 3d object instance re-localization in changing indoor environments
Jiang et al. Seeing invisible poses: Estimating 3d body pose from egocentric video
US10949649B2 (en) Real-time tracking of facial features in unconstrained video
CN111566700A (zh) 用于借助多任务学习确定对象在对象的周围环境中的姿势的方法和控制设备
Oszust et al. Polish sign language words recognition with Kinect
Choi et al. Depth analogy: Data-driven approach for single image depth estimation using gradient samples
WO2017099097A1 (en) Method and system for detecting and localizing object and slam method
CN110110694B (zh) 一种基于目标检测的视觉slam闭环检测方法
CN109086706A (zh) 应用于人机协作中的基于分割人体模型的动作识别方法
CN111062263A (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
Fang et al. Dynamic gesture recognition using inertial sensors-based data gloves
CN116958584B (zh) 关键点检测方法、回归模型的训练方法、装置及电子设备
Cheng et al. Parametric human body reconstruction based on sparse key points
Laporte et al. Efficient discriminant viewpoint selection for active bayesian recognition
Wang et al. Joint head pose and facial landmark regression from depth images
Lepetit Recent advances in 3d object and hand pose estimation
CN118261979A (zh) 一种基于几何信息增强的类别级6d姿态估计方法
CN115880740A (zh) 人脸活体检测方法、装置、计算机设备和存储介质
CN117711066A (zh) 一种三维人体姿态估计方法、装置、设备及介质
JP2024515873A (ja) 姿勢パーサ
EP1810216B1 (en) 3d object recognition
Arowolo et al. Development of a human posture recognition system for surveillance application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant