CN110363793B - 一种对象的跟踪方法及装置 - Google Patents
一种对象的跟踪方法及装置 Download PDFInfo
- Publication number
- CN110363793B CN110363793B CN201910671888.4A CN201910671888A CN110363793B CN 110363793 B CN110363793 B CN 110363793B CN 201910671888 A CN201910671888 A CN 201910671888A CN 110363793 B CN110363793 B CN 110363793B
- Authority
- CN
- China
- Prior art keywords
- tracked
- model
- depth map
- preset
- parameter value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种对象的跟踪方法及装置,其中,方法包括:获取待跟踪对象的深度图,将深度图输入预设的检测模型,得到检测模型输出的待跟踪对象的空间状态参数值,检测模型使用样本深度图以及样本深度图的标注空间状态参数值训练得到,样本深度图依据由标注空间状态参数值驱动的待跟踪对象的预设模型获得。本申请具有更快的响应速度,提高了实现实时跟踪的可能性。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种对象的跟踪方法及装置。
背景技术
随着混合现实(Mixed Reality,MR)技术的发展,MR在众多领域得到了关注和使用,三维重建是MR技术的基本需求,三维重建需要获取对象的几何信息,例如,位置信息和姿态信息。将实时对对象进行三维重建的过程,称为对对象的跟踪过程。
目前,三维重建的方式包括Kinect Fusion算法和Dynamic Fusion算法。其中,Kinect Fusion算法基于相邻帧点云的迭代最邻近点的匹配精度进行三维重建。
但是,Kinect Fusion算法只能对刚性物体进行三维重建。Dynamic Fusion算法是在Kinect Fusion算法基础上改进得到的,可以对非刚性物体进行三维重建,但是,运算量太大,从而运算速度较慢,因此,很难实现实时跟踪。
发明内容
本申请提供了一种对象的跟踪方法及装置,目的在于解决如何实现实时跟踪的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请提供了一种对象的跟踪方法,包括:
获取待跟踪对象的深度图;
将所述深度图输入预设的检测模型,得到所述检测模型输出的所述待跟踪对象的空间状态参数值,所述检测模型使用样本深度图以及所述样本深度图的标注空间状态参数值训练得到,所述样本深度图依据由所述标注空间状态参数值驱动的所述待跟踪对象的预设模型获得。
可选的,所述空间状态参数值包括:姿态参数值和形状参数值;所述检测模型是通过采用所述样本深度图以及所述样本深度图的标注空间状态参数值对预设的神经网络模型训练得到;
训练所述神经网络模型使用的损失函数由预设项确定;所述预设项包括:距离均方误差、投影均方误差、姿态参数的约束损失和形状参数的约束损失;
所述距离均方误差为在所述标注空间状态参数值下所述待跟踪对象的立体模型与所述样本深度图的深度图点云间,相同位置的点构成的点对的距离间的均方误差;所述立体模型为通过所述标注空间状态参数值驱动待跟踪对象的预设模型得到的模型;
所述投影均方误差为在所述标注空间状态参数值下所述待跟踪对象的立体模型的投影图像,与所述样本深度图之间,相同位置的点构成的点对的距离间的均方误差;
所述姿态参数的约束损失指:所述姿态参数值分别与对应的第一预设范围的差距值之和;
所述形状参数的约束损失指:所述形状参数值分别与对应的第二预设范围的差距值之和。
可选的,所述预设项还包括:自碰撞损失;在所述标注空间状态参数值下所述待跟踪对象的立体模型的组成部分间存在交叠的情况下,所述自碰撞损失的取值趋于无穷大;在所述标注空间状态参数值下所述待跟踪对象的立体模型的组成部分间未交叠的情况下,所述自碰撞损失的取值为零,所述立体模型为通过所述标注空间状态参数值驱动所述待跟踪对象的预设模型得到的模型。
可选的,所述待跟踪对象为具有标准模型的非刚性物体,依据所述标注空间状态参数值驱动所述待跟踪对象的所述预设模型获得所述样本深度图,包括:
采用所述标注空间状态参数值驱动所述待跟踪对象的预设模型,得到用于描述立体模型的数据;所述立体模型为通过所述标注空间状态参数值驱动所述待跟踪对象的预设模型得到的模型;
依据预设的视场角和分辨率,采用Opengl对所述用于描述立体模型的数据进行渲染,得到在所述标注空间状态参数值下所述待跟踪对象的立体模型的深度图。
可选的,在将所述深度图输入预设的检测模型,得到所述检测模型输出的所述待跟踪对象的空间状态参数值之后,还包括:
通过所述检测模型输出的所述待跟踪对象的空间状态参数值驱动所述待跟踪对象的预设模型,得到在所述空间状态参数值下所述待跟踪对象的立体模型。
本申请还提供了一种对象的跟踪装置,包括:
获取模块,用于获取待跟踪对象的深度图;
检测模块,用于将所述深度图输入预设的检测模型,得到所述检测模型输出的所述待跟踪对象的空间状态参数值,所述检测模型使用样本深度图以及所述样本深度图的标注空间状态参数值训练得到,所述样本深度图依据由所述标注空间状态参数值驱动的所述待跟踪对象的预设模型获得。
可选的,还包括:
训练模块,用于通过采用所述样本深度图以及所述样本深度图的标注空间状态参数值对预设的神经网络模型训练,得到所述检测模型;
所述训练模块训练所述神经网络模型使用的损失函数由预设项确定;所述预设项包括:距离均方误差、投影均方误差、姿态参数的约束损失和形状参数的约束损失;
所述距离均方误差为在所述标注空间状态参数值下所述待跟踪对象的立体模型与所述样本深度图的深度图点云间,相同位置的点构成的点对的距离间的均方误差;所述立体模型为通过所述标注空间状态参数值驱动待跟踪对象的预设模型得到的模型;
所述投影均方误差为在所述标注空间状态参数值下所述待跟踪对象的立体模型的投影图像,与所述样本深度图之间,相同位置的点构成的点对的距离间的均方误差;
所述姿态参数的约束损失指:所述姿态参数值分别与对应的第一预设范围的差距值之和;
所述形状参数的约束损失指:所述形状参数值分别与对应的第二预设范围的差距值之和。
可选的,所述预设项还包括:自碰撞损失;在所述标注空间状态参数值下所述待跟踪对象的立体模型的组成部分间存在交叠的情况下,所述自碰撞损失的取值趋于无穷大;在所述标注空间状态参数值下所述待跟踪对象的立体模型的组成部分间未交叠的情况下,所述自碰撞损失的取值为零,所述立体模型为通过所述标注空间状态参数值驱动所述待跟踪对象的预设模型得到的模型。
可选的,还包括:
样本深度图获取模块,用于依据所述标注空间状态参数值驱动所述待跟踪对象的所述预设模型获得所述样本深度图;
所述样本深度图获取模块,用于依据所述标注空间状态参数值驱动所述待跟踪对象的所述预设模型获得所述样本深度图,包括:
采用所述标注空间状态参数值驱动所述待跟踪对象的预设模型,得到用于描述立体模型的数据;所述立体模型为通过所述标注空间状态参数值驱动所述待跟踪对象的预设模型得到的模型;
依据预设的视场角和分辨率,采用Opengl对所述用于描述立体模型的数据进行渲染,得到在所述标注空间状态参数值下所述待跟踪对象的立体模型的深度图。
可选的,还包括:
构建模块,用于在所述检测模型将所述深度图输入预设的检测模型,得到所述检测模型输出的所述待跟踪对象的空间状态参数值之后,通过所述检测模型输出的所述待跟踪对象的空间状态参数值驱动所述待跟踪对象的预设模型,得到在所述空间状态参数值下所述待跟踪对象的立体模型。
本申请提供的对象跟踪方法及装置中,获取待跟踪对象的深度图,将深度图输入预设的检测模型,得到检测模型输出的待跟踪对象的空间状态参数值。其中,检测模型是使用样本深度图以及样本深度图的标注空间状态参数值训练得到,深度图依据由标注空间状态参数值驱动的待跟踪对象的预设模型获得。因为使用了检测模型实现跟踪,因此与现有的跟踪方法相比,具有更快的响应速度,提高了实现实时跟踪的可能性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种应用场景示意图;
图2为本申请实施例公开的一种检测模型的训练过程示意图;
图3为本申请实施例公开的一种神经网络模型的结构示意图;
图4为本申请实施例公开的一种立方体框取后的人手深度图的示意图;
图5为本申请实施例公开的一种对象的跟踪方法的流程图;
图6为本申请实施例公开的一种对象的跟踪装置的结构示意图。
具体实施方式
图1为本申请提供的对象的跟踪装置的应用场景示意图,包括:本申请实施例提供的对象的跟踪装置和现有技术的输入装置。其中,输入装置用于为对象的跟踪装置提供待跟踪对象的深度图,对象的跟踪装置用于实时对输入装置提供的深度图进行三维重建。其中,本申请实施例提供的对象的跟踪装置可以对非刚性物体的深度图快速地进行三维重建,当然,本申请实施例提供的对象的跟踪装置也可以对刚性物体的深度图快速地进行三维重建。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,待跟踪对象为刚体物体或非刚体物体的情况下,本申请实施例的实现原理相同,本申请实施例以待跟踪对象为非刚体物体为例进行介绍。
图2为本申请实施例提供的一种检测模型的生成过程,包括以下步骤:
S201、获取训练样本。
在本实施例中,训练样本包括:待跟踪对象的多组标注空间状态参数值和多幅深度图。其中,一组标注空间状态参数值对应一幅深度图,任意一幅深度图为待跟踪对象在该组标注空间状态参数值下的深度图像。
在本实施例中,空间状态参数包括:姿态参数和形状参数,其中,待跟踪对象的姿态参数和形状参数分别具体包括哪些参数,可以根据待跟踪对象的预设模型所设定的参数确定。其中,待跟踪对象的预设模型为待跟踪对象的标准模型,待跟踪对象的标准模型是现有技术中提供的用于描述待跟踪对象的标准模型。并且,待跟踪对象的标准模型所设定的参数的任意一种取值,得到待跟踪对象的一组空间状态参数值。
在本实施例中,根据实际情况,对待跟踪对象的每个空间状态参数设定一个取值范围,并且,每个空间状态参数在对应的取值范围中随机取值,进而可以得到待跟踪对象的多组空间状态参数值,为了描述方便,将得到的多组空间状态参数值称为多组标注空间状态参数值。
例如,待跟踪对象为人手,现有技术中存在人手的标准模型(例如,SMPL模型或MANO模型),并且,人手标准模型事先已设定了姿态参数和形状参数。其中,姿态参数可以包括:26个自由度(Degree Of Freedom,DOF),分别为手掌的6个自由度(3个平移参数和3个旋转参数)、五指根关节的10个自由度(每个指头根关节对应一个弯曲参数和一个摆动参数)、五指中关节的5个自由度和五指指尖关节的5个自由度。形状参数可以包括:手指长度、手指粗细、手掌宽度、手掌长度和手掌厚度。
其中,人手的姿态参数和形状参数中的每个参数的一种取值,就是一组空间状态参数值。根据实际情况,对每个姿态参数和形状参数设定一个取值范围,并为每个参数从所对应的取值范围中随机取值,将所有参数的一种取值作为一组空间状态参数值,进而,可以得到多组空间状态参数值。
在获取到待跟踪对象的各组标注空间状态参数值后,依据获取的各组标注空间状态参数值确定该待跟踪对象的深度图,具体过程可以包括步骤A1~步骤A2:
A1、采用待跟踪对象的标注空间状态参数值驱动待跟踪对象的标准模型,得到模型数据。
在本步骤中,模型数据为用于描述立体模型的数据,其中,立体模型为通过标注空间状态参数值驱动待跟踪对象的标准模型得到的模型。
在本步骤中,采用待跟踪对象的多组标注空间状态参数值分别驱动待跟踪对象的标准模型,得到多种模型数据,其中,一组标注空间状态参数对应一种模型数据。
例如,采用人手的各组标注空间状态参数值(人手的姿态参数值和形状参数值)分别驱动人手的标准模型,得到多种模型数据。
A2、依据预设的视场角和分辨率,采用Opengl对模型数据进行渲染,得到标注空间状态参数下待跟踪对象的深度图。
在本步骤中,事先根据所使用的传感器的内参设置opengl的渲染参数,其中,渲染参数包括:视场角和分辨率等。然后,通过Opengl将模型数据渲染为深度图像。具体的,本步骤的具体实现过程为现有技术,这里不再赘述。
在本步骤中,采用Opengl分别对待跟踪对象的每种模型数据进行渲染,得到待跟踪对象在每组标注空间状态参数值下的深度图,即待跟踪对象的一组标注空间状态参数值对应一幅深度图。
待跟踪对象的每组标注空间状态参数值与对应的深度图,构成了本步骤的训练样本。
S202、采用训练样本对预设的神经网络模型进行训练。
在本实施例中,神经网络模型的结构示意图如图3所示,包括:四部分,从左到右分别是第一部分、第二部分、第三部分和第四部分。其中,第一部分表示输入层,第二部分表示卷积层,第三部分表示全连接层,第四部分表示输出层,输出层用于输出姿态参数和形状参数。
采用训练样本对神经网络模型的训练过程,可以包括以下步骤B1~步骤B2:
B1、对训练样本中每幅深度图进行预处理,得到预处理后的训练样本。
具体的,在本步骤中,对训练样本中的任意一幅深度图进行的预处理包括:首先,根据该深度图中待跟踪对象的尺寸,从该深度图的深度图点云上进行立方体框取,得到立方体框取后的深度图点云,并将立方体框取后的深度图点云转换为深度图,得到框取后的深度图。具体的,立方体框取后的深度图点云中包括完整的待跟踪对象,并且,待跟踪对象与立方体的框间的距离不大于预设阈值。本实施例不对立方体的具体大小,以及预设阈值的取值作限定。
然后,将框取后的深度图标准化到第一预设区间,以及将各组标注空间状态参数值标准化到第二预设区间,其中,第一预设区间可以为[0,1],也可以为[-1,1]。第二预设区间可以为[0,1],也可以为[-1,1],本实施例不对第一预设区间和第二预设区间的取值作限定。
具体的,以待跟踪对象为人手为例,在本步骤中,得到的立方体框取后的人手深度图,如图4所示。
在本步骤中,对训练样本中的每幅深度图以及每组标注空间状态参数值进行本步骤的预处理后,得到预处理的深度图和预处理后的标注空间状态参数值。为了描述方便,本步骤将待跟踪对象的预处理后的每组标注空间状态参数值以及对应的预处理后的深度图,称为预处理后的训练样本。其中,预处理后的训练样本中,一幅预处理后的深度图对应一组预处理后的标注空间状态参数值。
B2、将预处理后的训练样本输入预设的神经网络模型,采用预设的损失函数对神经网络模型进行训练,得到检测模型。
在本实施例中,对预设的神经网络模型进行训练所采用的预设的损失函数如下公式所示,该损失函数包括ED、EP、Eθ、Eβ和EC这五项,具体的,是这五项的加权和,当然,在实际中,损失函数还可以为通过除加权和之外的其他运算方式,本实施例不对损失函数的具体形式作限定。
E=λDED+λPEP+λθEθ+λβEβ+λCEC
预处理后的训练样本中的一个训练样本对应损失函数的一种取值,为了方便描述,以任意一个训练样本(任意一组预处理后的标注空间状态参数值以及对应的预处理后的深度图)为例,对式中的各项的含义进行介绍。
其中,ED表示距离均方误差,具体的,ED为通过该组预处理后的标注空间状态参数值驱动待跟踪对象的标准模型得到的立体模型与该预处理后的深度图的深度图点云间,相同位置的点构成的点对的距离间的均方误差。在本实施例中,为了描述方便,将通过标注空间状态参数值驱动待跟踪对象的标准模型得到的立体模型,称为在该标注空间状态参数值下待跟踪对象的立体模型。
由于在该组预处理后的标注空间状态参数下待跟踪对象的立体模型是个三维模型,该组预处理后的标注空间状态参数值对应的预处理后的深度图对应的深度图点云描述的是三维空间信息。因此,立体模型与深度图点云描述的三维空间信息中相同位置的点,就构成了一个点对,因此,对于立体模型和深度图点云之间存在多组点对,计算每组点对间的距离,得到多个距离。在本步骤中,计算所有距离间的均方误差,具体的,计算所有距离间的均方误差的过程为现有技术,这里不再赘述。
EP表示投影均方误差,具体的,EP为在该组预处理后的标注空间状态参数值下待跟踪对象的立体模型的投影图像(对立体模型投影所得到的图像)与该预处理后的深度图间,待跟踪对象所在区域中相同位置的点构成点对,得到多个点对,分别计算每个点对间的距离,得到多个距离,并计算所有点对间的距离间的均方误差。具体的,计算所有点对间距离的均方误差的计算过程为现有技术,这里不再赘述。
Eθ表示姿态参数的约束损失,具体的,Eθ为该组预处理后的标注空间状态参数值中的各姿态参数值分别与对应的第一预设范围的差距值之和。具体的,在本实施例中,为待跟踪对象的预处理后的标注空间状态参数中的每个姿态参数的取值设置一个预设范围,为了描述方便,将为任意一个姿态参数的取值设置的预设范围,称为该姿态参数对应的第一预设范围。对于任意一个姿态参数对应的第一预设范围包括上限值和下限值,对于该组标注空间状态参数值中的任意一个姿态参数值,该姿态参数值与对应的第一预设范围间的差距值包括:如果该姿态参数值小于对应的第一预设范围的下限值,则该姿态参数值与对应的第一预设范围间的差距值为该第一姿态参数值与下限值间的差值。如果该姿态参数值大于上限值,则该姿态参数值与对应的第一预设范围间的差距值为上限值与该姿态参数值的差值。
Eβ表示形状参数的约束损失,具体的,Eβ表示该组预处理后的标注空间状态参数中的各形状参数值与对应的第二预设范围间的差距值之和。具体的,在本实施例中,为待跟踪对象的空间状态参数中的每个形状参数的取值设置预设取值范围,为了描述方便,将为任意一个形状参数的取值设置的预设取值范围称为该形状参数对应的第二预设范围。对于任意一个形状参数对应的第二预设范围包括上限值和下限值,对于该组预处理后的标注空间状态参数值中的任意一个形状参数值,该形状参数值对应的第二预设范围间的差距值包括:如果该形状参数值小于下限值,则该形状参数值与对应的第二预设范围间的差距值为该形状参数值与下限值间的差值,如果该形状参数值大于上限值,则该形状参数值与对应的第二预设范围间的差距值为上限值与该形状参数值间的差值。
EC表示自碰撞损失,具体的,EC为一个预先设定的取值,在不同的情况下,EC的取值不同。具体的,在该组预处理后的标注空间状态参数值下待跟踪对象的立体模型的组成部分间存在交叠的情况下,EC的取值趋于无穷大。在该组预处理后的空间状态参数值下待跟踪对象的立体模型的组成部分间不存在交叠的情况下,EC的取值趋于零。
例如,待跟踪对象为人手,在该组预处理后的空间状态参数下人手的立体模型的组成部分间存在交叠的情况下(例如,手指与手指之间,或者,手指与手掌之间等存在交叠的情况),EC的取值趋于无穷大。在该组预处理后的空间状态参数下人手的立体模型的组成部分间不存在交叠的情况下(例如,手指与手指之间,以及,手指与手掌之间等不存在交叠的情况),EC的取值趋于零。
式中,λD表示ED的权值,λP表示EP的权值,λθ表示Eθ的权值,λβ表示Eβ的权值,λC表示EC的权值。其中,在本实施例中,λD和λP的取值,由点对的数量决定,λθ和λβ的取值可以为1000000以上,λC的取值可以为100~10000之间的数值,当然,在实际中,这5个参数还可以为其他取值,本实施例不对这5个参数的具体取值作限定。
在本步骤中,对预设的神经网络模型进行训练,得到训练后的模型,为了描述方便,本实施例将对预设的神经网络模型进行训练后得到的模型,称为检测模型。
本实施例具有以下有益效果:
有益效果一、
在本实施例中,以待跟踪对象的各组空间状态参数值,以及与每组空间状态参数值分别对应的样本深度图为训练样本,对预设的神经网络模型进行训练。其中,训练样本中的任意一组空间状态参数值包括姿态参数值和形状参数值,并且,该组空间状态参数值对应的样本深度图是:对该组空间状态参数值驱动待跟踪对象的标准模型所得到的模型数据进行渲染得到的,并且,是通过采用opengl按照不同摄像机参数对模型数据进行渲染得到的,因此,本申请实施例提供的训练样本具有较高的准确性。
有益效果二、
在本实施例中,对预设的神经网络模型进行训练所使用的损失函数中包括:姿态参数的约束损失和形状参数的约束损失,使得神经网络模型可以按照几何约束的方向进行学习并收敛,进而,减少了不可预知的学习方向。并且,在损失函数中还包括自碰撞损失,由于在待跟踪对象的组成部分中存在交叠的情况下,自碰撞损失的取值趋于无穷大,在待跟踪对象的组成部分间不存在交叠的情况下,自碰撞损失的取值趋于零,使得神经网络模型能够学习到预设的限制条件。
因此,采用本实施例提供的损失函数对神经网络模型进行训练,可以减少神经网络在学习过程中的不可预知的学习方向,并且,可以学习到预设的限制条件,进而,使得神经网络模型可以学习到非刚性物体的运动规律及限制,当然,也可以学习到刚体物体运动规律及限制,使得训练后的神经网络模型能够准确地输出待跟踪对象的空间状态参数值(姿态参数值和形状参数值),进而,在输出的空间状态参数值下待跟踪对象的立体模型具有较高的准确性。
在得到检测模型后,可以通过检测模型确定待检测的深度图下待跟踪对象的空间状态参数值,其中,待检测深度图下的待跟踪对象的空间状态参数值是指:待检测深度图描述的待跟踪对象的空间状态参数值。在本申请实施例中,检测模型既适用于非刚体物体,也适用于刚体物体,即该检测模型既可以确定非刚体物体的深度图下该非刚体物体的空间状态参数值,也可以确定刚体物体的深度图下该刚体物体的空间状态参数值。
在本申请实施例中,确定不同时刻生成的深度图中的待跟踪对象的空间状态参数的过程,就是对象的跟踪过程。图5为本申请实施例提供的一种对象的跟踪方法,以非刚体物体为例进行介绍,包括以下步骤:
S501、获取待跟踪对象的深度图。
具体的,获取待跟踪对象的深度图的过程为现有技术,这里不再赘述。
S502、将待跟踪对象的深度图输入检测模型,得到检测模型输出的待跟踪对象在深度图下的空间状态参数值。
在本步骤中,检测模型为图2对应的实施例训练得到的神经网络模型。待跟踪对象在深度图下的空间状态参数值是指:深度图描述的待跟踪对象的空间状态参数值。
在本实施例中,对多幅深度图分别确定待跟踪对象的空间状态参数值,具体的,可以针对每幅深度图像执行S501~S502,即S501~S502是一个进程。也可以是S501和S502分别是独立的进程,并且,这两个进程独立执行。
通过上述S501~S502可以实现对待跟踪对象的空间状态参数值的跟踪过程。在实际中,在跟踪到待跟踪对象的空间状态参数值后,可以依据跟踪到的空间状态参数值构建待跟踪对象在该空间状态参数值下的立体模型,具体的,依据检测模型输出的空间状态参数值构建待跟踪对象的立体模型的过程为现有技术,这里不再赘述。例如,采用空间状态参数值驱动待跟踪对象的标准模型,得到待跟踪对象的立体模型。
在本实施例中,通过向检测模型中输入深度图,检测模型输出该深度图下的待跟踪对象的空间状态参数值。其中,检测模型是对预设的神经网络模型训练得到的,并且,神经网络模型具有运算速度快的优点,因此,在本实施例中,从向检测模型中输入深度图到检测模型输出待跟踪对象的空间状态参数值的速度较快,进而,使得从获取到深度图到得到深度图下的待跟踪对象的空间状态参数值所需的时间,比现有技术中,基于KF算法所需的时间短,进而,从获取到待跟踪对象的深度图到得到在该深度图下的空间状态参数值,再到得到待跟踪对象在该空间参数值下的立体模型的过程,所需的时间减少,即速度得到提高。
图6为本申请实施例提供的一种对象的跟踪装置,包括:获取模块601和检测模块602。其中,获取模块601,用于获取待跟踪对象的深度图。检测模块602,用于将深度图输入预设的检测模型,得到检测模型输出的待跟踪对象的空间状态参数值,检测模型使用样本深度图以及样本深度图的标注空间状态参数值训练得到,样本深度图依据由标注空间状态参数值驱动的待跟踪对象的预设模型获得。
可选的,该装置还包括:训练模块603,其中,训练模块603,用于通过采用样本深度图以及样本深度图的标注空间状态参数值对预设的神经网络模型训练,得到所述检测模型。
其中,训练模块603训练神经网络模型使用的损失函数由预设项确定。其中,预设项包括:距离均方误差、投影均方误差、姿态参数的约束损失和形状参数的约束损失。
距离均方误差为在标注空间状态参数值下待跟踪对象的立体模型与样本深度图的深度图点云间,相同位置的点构成的点对的距离间的均方误差。立体模型为通过标注空间状态参数值驱动待跟踪对象的预设模型得到的模型。
投影均方误差为在标注空间状态参数值下待跟踪对象的立体模型的投影图像,与样本深度图之间,相同位置的点构成的点对的距离间的均方误差。
姿态参数的约束损失指:姿态参数值分别与对应的第一预设范围的差距值之和。
形状参数的约束损失指:形状参数值分别与对应的第二预设范围的差距值之和。
可选的,预设项还包括:自碰撞损失。其中,在标注空间状态参数值下待跟踪对象的立体模型的组成部分间存在交叠的情况下,自碰撞损失的取值趋于无穷大。在标注空间状态参数值下待跟踪对象的立体模型的组成部分间未交叠的情况下,自碰撞损失的取值为零,立体模型为通过标注空间状态参数值驱动待跟踪对象的预设模型得到的模型。
可选的,该装置还包括:样本深度图获取模块604。其中,样本深度图获取模块604,用于依据标注空间状态参数值驱动待跟踪对象的预设模型获得样本深度图。其中,样本深度图获取模块604,用于依据标注空间状态参数值驱动待跟踪对象的预设模型获得样本深度图,包括:采用标注空间状态参数值驱动待跟踪对象的预设模型,得到用于描述立体模型的数据。其中,立体模型为通过标注空间状态参数值驱动待跟踪对象的预设模型得到的模型。依据预设的视场角和分辨率,采用Opengl对用于描述立体模型的数据进行渲染,得到在标注空间状态参数值下待跟踪对象的立体模型的深度图。
可选的,还包括:构建模块605,其中,构建模块605,用于在检测模型将深度图输入预设的检测模型,得到检测模型输出的待跟踪对象的空间状态参数值之后,通过检测模型输出的待跟踪对象的空间状态参数值驱动待跟踪对象的预设模型,得到在空间状态参数值下待跟踪对象的立体模型。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种对象的跟踪方法,其特征在于,包括:
获取待跟踪对象的深度图;
将所述深度图输入预设的检测模型,得到所述检测模型输出的所述待跟踪对象的空间状态参数值,所述检测模型使用样本深度图以及所述样本深度图的标注空间状态参数值训练得到,所述样本深度图依据由所述标注空间状态参数值驱动的所述待跟踪对象的预设模型获得;
所述空间状态参数值包括:姿态参数值和形状参数值;所述检测模型是通过采用所述样本深度图以及所述样本深度图的标注空间状态参数值对预设的神经网络模型训练得到;
训练所述神经网络模型使用的损失函数由预设项确定;所述预设项包括:距离均方误差、投影均方误差、姿态参数的约束损失和形状参数的约束损失;
所述距离均方误差为在所述标注空间状态参数值下所述待跟踪对象的立体模型与所述样本深度图的深度图点云间,相同位置的点构成的点对的距离间的均方误差;所述立体模型为通过所述标注空间状态参数值驱动待跟踪对象的预设模型得到的模型;
所述投影均方误差为在所述标注空间状态参数值下所述待跟踪对象的立体模型的投影图像,与所述样本深度图之间,相同位置的点构成的点对的距离间的均方误差;
所述姿态参数的约束损失指:所述姿态参数值分别与对应的第一预设范围的差距值之和;
所述形状参数的约束损失指:所述形状参数值分别与对应的第二预设范围的差距值之和。
2.根据权利要求1所述的方法,其特征在于,所述预设项还包括:自碰撞损失;在所述标注空间状态参数值下所述待跟踪对象的立体模型的组成部分间存在交叠的情况下,所述自碰撞损失的取值趋于无穷大;在所述标注空间状态参数值下所述待跟踪对象的立体模型的组成部分间未交叠的情况下,所述自碰撞损失的取值为零,所述立体模型为通过所述标注空间状态参数值驱动所述待跟踪对象的预设模型得到的模型。
3.根据权利要求1所述的方法,其特征在于,所述待跟踪对象为具有标准模型的非刚性物体,依据所述标注空间状态参数值驱动所述待跟踪对象的所述预设模型获得所述样本深度图,包括:
采用所述标注空间状态参数值驱动所述待跟踪对象的预设模型,得到用于描述立体模型的数据;所述立体模型为通过所述标注空间状态参数值驱动所述待跟踪对象的预设模型得到的模型;
依据预设的视场角和分辨率,采用Opengl对所述用于描述立体模型的数据进行渲染,得到在所述标注空间状态参数值下所述待跟踪对象的立体模型的深度图。
4.根据权利要求1所述的方法,其特征在于,在将所述深度图输入预设的检测模型,得到所述检测模型输出的所述待跟踪对象的空间状态参数值之后,还包括:
通过所述检测模型输出的所述待跟踪对象的空间状态参数值驱动所述待跟踪对象的预设模型,得到在所述空间状态参数值下所述待跟踪对象的立体模型。
5.一种对象的跟踪装置,其特征在于,包括:
获取模块,用于获取待跟踪对象的深度图;
检测模块,用于将所述深度图输入预设的检测模型,得到所述检测模型输出的所述待跟踪对象的空间状态参数值,所述检测模型使用样本深度图以及所述样本深度图的标注空间状态参数值训练得到,所述样本深度图依据由所述标注空间状态参数值驱动的所述待跟踪对象的预设模型获得;
训练模块,用于通过采用所述样本深度图以及所述样本深度图的标注空间状态参数值对预设的神经网络模型训练,得到所述检测模型;
所述训练模块训练所述神经网络模型使用的损失函数由预设项确定;所述预设项包括:距离均方误差、投影均方误差、姿态参数的约束损失和形状参数的约束损失;
所述距离均方误差为在所述标注空间状态参数值下所述待跟踪对象的立体模型与所述样本深度图的深度图点云间,相同位置的点构成的点对的距离间的均方误差;所述立体模型为通过所述标注空间状态参数值驱动待跟踪对象的预设模型得到的模型;
所述投影均方误差为在所述标注空间状态参数值下所述待跟踪对象的立体模型的投影图像,与所述样本深度图之间,相同位置的点构成的点对的距离间的均方误差;
所述姿态参数的约束损失指:所述姿态参数值分别与对应的第一预设范围的差距值之和;
所述形状参数的约束损失指:所述形状参数值分别与对应的第二预设范围的差距值之和。
6.根据权利要求5所述的装置,其特征在于,所述预设项还包括:自碰撞损失;在所述标注空间状态参数值下所述待跟踪对象的立体模型的组成部分间存在交叠的情况下,所述自碰撞损失的取值趋于无穷大;在所述标注空间状态参数值下所述待跟踪对象的立体模型的组成部分间未交叠的情况下,所述自碰撞损失的取值为零,所述立体模型为通过所述标注空间状态参数值驱动所述待跟踪对象的预设模型得到的模型。
7.根据权利要求5所述的装置,其特征在于,还包括:
样本深度图获取模块,用于依据所述标注空间状态参数值驱动所述待跟踪对象的所述预设模型获得所述样本深度图;
所述样本深度图获取模块,用于依据所述标注空间状态参数值驱动所述待跟踪对象的所述预设模型获得所述样本深度图,包括:
采用所述标注空间状态参数值驱动所述待跟踪对象的预设模型,得到用于描述立体模型的数据;所述立体模型为通过所述标注空间状态参数值驱动所述待跟踪对象的预设模型得到的模型;
依据预设的视场角和分辨率,采用Opengl对所述用于描述立体模型的数据进行渲染,得到在所述标注空间状态参数值下所述待跟踪对象的立体模型的深度图。
8.根据权利要求5所述的装置,其特征在于,还包括:
构建模块,用于在所述检测模型将所述深度图输入预设的检测模型,得到所述检测模型输出的所述待跟踪对象的空间状态参数值之后,通过所述检测模型输出的所述待跟踪对象的空间状态参数值驱动所述待跟踪对象的预设模型,得到在所述空间状态参数值下所述待跟踪对象的立体模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910671888.4A CN110363793B (zh) | 2019-07-24 | 2019-07-24 | 一种对象的跟踪方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910671888.4A CN110363793B (zh) | 2019-07-24 | 2019-07-24 | 一种对象的跟踪方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110363793A CN110363793A (zh) | 2019-10-22 |
CN110363793B true CN110363793B (zh) | 2021-09-21 |
Family
ID=68219751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910671888.4A Active CN110363793B (zh) | 2019-07-24 | 2019-07-24 | 一种对象的跟踪方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110363793B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509074A (zh) * | 2011-10-18 | 2012-06-20 | Tcl集团股份有限公司 | 一种目标识别方法和设备 |
CN104732559A (zh) * | 2015-02-02 | 2015-06-24 | 大连民族学院 | 一种基于rgb-d数据的多目标检测与跟踪方法 |
CN107103613A (zh) * | 2017-03-28 | 2017-08-29 | 深圳市未来媒体技术研究院 | 一种三维手势姿态估计方法 |
CN107784663A (zh) * | 2017-11-14 | 2018-03-09 | 哈尔滨工业大学深圳研究生院 | 基于深度信息的相关滤波跟踪方法及装置 |
CN108230278A (zh) * | 2018-02-24 | 2018-06-29 | 中山大学 | 一种基于生成对抗网络的图像去雨滴方法 |
CN108256421A (zh) * | 2017-12-05 | 2018-07-06 | 盈盛资讯科技有限公司 | 一种动态手势序列实时识别方法、系统及装置 |
CN109064423A (zh) * | 2018-07-23 | 2018-12-21 | 福建帝视信息科技有限公司 | 一种基于非对称循环生成对抗损失的智能修图方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8787663B2 (en) * | 2010-03-01 | 2014-07-22 | Primesense Ltd. | Tracking body parts by combined color image and depth processing |
KR20170058361A (ko) * | 2014-07-10 | 2017-05-26 | 모하메드 라쉬완 마푸즈 | 뼈 재건 및 정형외과용 임플란트 |
-
2019
- 2019-07-24 CN CN201910671888.4A patent/CN110363793B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509074A (zh) * | 2011-10-18 | 2012-06-20 | Tcl集团股份有限公司 | 一种目标识别方法和设备 |
CN104732559A (zh) * | 2015-02-02 | 2015-06-24 | 大连民族学院 | 一种基于rgb-d数据的多目标检测与跟踪方法 |
CN107103613A (zh) * | 2017-03-28 | 2017-08-29 | 深圳市未来媒体技术研究院 | 一种三维手势姿态估计方法 |
CN107784663A (zh) * | 2017-11-14 | 2018-03-09 | 哈尔滨工业大学深圳研究生院 | 基于深度信息的相关滤波跟踪方法及装置 |
CN108256421A (zh) * | 2017-12-05 | 2018-07-06 | 盈盛资讯科技有限公司 | 一种动态手势序列实时识别方法、系统及装置 |
CN108230278A (zh) * | 2018-02-24 | 2018-06-29 | 中山大学 | 一种基于生成对抗网络的图像去雨滴方法 |
CN109064423A (zh) * | 2018-07-23 | 2018-12-21 | 福建帝视信息科技有限公司 | 一种基于非对称循环生成对抗损失的智能修图方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110363793A (zh) | 2019-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4068150A1 (en) | Hand key point detection method, gesture recognition method, and related devices | |
Memo et al. | Head-mounted gesture controlled interface for human-computer interaction | |
Liu et al. | Robust and efficient relative pose with a multi-camera system for autonomous driving in highly dynamic environments | |
Wang et al. | Video-based hand manipulation capture through composite motion control | |
CN110799992A (zh) | 使用模拟和域适配以用于机器人控制 | |
CN105144236A (zh) | 实时立体匹配 | |
Zieliński et al. | 3D robotic navigation using a vision-based deep reinforcement learning model | |
CN112562001B (zh) | 一种物体6d位姿估计方法、装置、设备及介质 | |
EP3185212B1 (en) | Dynamic particle filter parameterization | |
Cao et al. | Fast incremental structure from motion based on parallel bundle adjustment | |
Lin et al. | The Manipulation of Real‐Time Kinect‐Based Robotic Arm Using Double‐Hand Gestures | |
Corke et al. | What can robotics research learn from computer vision research? | |
Xiong et al. | Spatiotemporal correlation-based accurate 3D face imaging using speckle projection and real-time improvement | |
Valentini | Natural interface in augmented reality interactive simulations: This paper demonstrates that the use of a depth sensing camera that helps generate a three-dimensional scene and track user's motion could enhance the realism of the interactions between virtual and physical objects | |
CN110363793B (zh) | 一种对象的跟踪方法及装置 | |
Kiyokawa et al. | Efficient collection and automatic annotation of real-world object images by taking advantage of post-diminished multiple visual markers | |
Yuan et al. | SHREC 2020 track: 6D object pose estimation | |
Li et al. | Fast grasp planning using cord geometry | |
van Dam et al. | Face reconstruction from image sequences for forensic face comparison | |
Nakano | Stereo vision based single-shot 6d object pose estimation for bin-picking by a robot manipulator | |
Jin et al. | DOPE++: 6D pose estimation algorithm for weakly textured objects based on deep neural networks | |
Zheng et al. | Multi-task View Synthesis with Neural Radiance Fields | |
Yu et al. | HandO: a hybrid 3D hand–object reconstruction model for unknown objects | |
Wang et al. | Personalized Hand Modeling from Multiple Postures with Multi‐View Color Images | |
Abdelrahman et al. | Data-Based dynamic haptic interaction model with deformable 3D objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |