CN114332156A - 基于图卷积神经网络的实时三维运动补全方法 - Google Patents
基于图卷积神经网络的实时三维运动补全方法 Download PDFInfo
- Publication number
- CN114332156A CN114332156A CN202111415886.2A CN202111415886A CN114332156A CN 114332156 A CN114332156 A CN 114332156A CN 202111415886 A CN202111415886 A CN 202111415886A CN 114332156 A CN114332156 A CN 114332156A
- Authority
- CN
- China
- Prior art keywords
- dimensional motion
- nodes
- dimensional
- neural network
- graph convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请提出了一种基于图卷积神经网络的实时三维运动补全方法,该方法包括:通过测距设备对动态场景进行拍摄,获得深度图像序列,并将每帧深度图像转换为三维点云数据,其中,动态场景包括进行三维运动的目标对象;通过点云匹配确定相邻两帧深度图像之间的匹配点对,获得目标对象的可见部分的三维运动;根据深度图像序列对目标对象进行三维重建,获得目标对象对应的完整的物体几何模型;基于物体几何模型和可见部分的三维运动,通过预先训练完成的图卷积神经网络估计不可见部分的三维运动,获取目标对象完整的三维运动。该方法能够实时准确地对不连续、不完整的三维运动进行补全,提高了获取完整的三维运动的实时性和适用性。
Description
技术领域
本申请涉及计算机视觉和计算机图形学技术领域,尤其涉及一种基于图卷积神经网络的实时三维运动补全方法。
背景技术
目前,基于测距传感器的场景运动跟踪系统,在计算机视觉、虚拟现实、增强现实以及机器人应用等领域有广泛的应用前景和重要的应用价值。
相关技术中,使用单个测距传感器理解三维场景的运动,是许多计算机视觉、虚拟现实、增强现实、机器人应用的核心。然而,由于测距传感器受到物体遮挡等物理限制,使用单视角测距传感器不能捕获遮挡区域的数据,导致对三维环境的观察不完整,因此,相关技术中的方法只能跟踪物体可见部分的运动,导致估计得到的三维运动不连续、不完整。
然而,从部分观察中推断出完整运动的能力对于许多高级任务来说是不可或缺的。举例而言,作为一个护理机器人,为了安全地照顾一个老人(例如,预测老人的行动并做出相应的反应),它需要了解完整的身体运动状态。而相关技术中使用单视角测距传感器进行三维运动跟踪时,往往被限制在场景的可观察部分,无法得到完整的三维运动。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于图卷积神经网络的实时三维运动补全方法,该方法根据单视角测距传感器观测得到的不连续、不完整的三维运动场以及通过三维重建方法得到的完整物体几何模型,使用图卷积神经网络估计出完整的三维运动场,且具有实时的运算性能,适用性广。
本申请的第二个目的在于提出一种基于图卷积神经网络的实时三维运动补全装置。
本申请的第三个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请的第一方面实施例提出了一种基于图卷积神经网络的实时三维运动补全方法,包括以下步骤:
通过测距设备对动态场景进行拍摄,获得深度图像序列,并将每帧深度图像转换为三维点云数据,其中,所述动态场景包括进行三维运动的目标对象;
通过点云匹配确定相邻两帧所述深度图像之间的匹配点对,获得所述目标对象的可见部分的三维运动;
根据所述深度图像序列对所述目标对象进行三维重建,获得所述目标对象对应的完整的物体几何模型;
基于所述物体几何模型和所述可见部分的三维运动,通过预先训练完成的图卷积神经网络估计不可见部分的三维运动,获取所述目标对象完整的三维运动。
可选地,在本申请的一个实施例中,基于所述物体几何模型和所述可见部分的三维运动,通过预先训练完成的图卷积神经网络估计不可见部分的三维运动,包括:根据所述物体几何模型构建层级式节点图;计算所述层级式节点图中每个节点的特征向量;基于所述节点的特征向量和节点之间的连接关系通过图卷积运算进行信息传递;通过所述预先训练完成的图卷积神经网络输出每个节点的三维运动向量。
可选地,在本申请的一个实施例中,根据所述物体几何模型构建层级式节点图,包括:确定节点图层级数,并为每个层级设置节点之间的距离阈值;在所述物体几何模型的表面均匀的抽取节点,其中,任一层级中任意两个节点之间的距离大于所述任一层级对应的所述距离阈值;对于同一层级上的节点,根据节点之间的近邻关系构建连边。
可选地,在本申请的一个实施例中,基于所述节点的特征向量和节点之间的连接关系通过图卷积运算进行信息传递,包括:对所述节点的特征向量和节点之间的连接关系进行降采样后,进行升采样,并在相同的节点层级之间添加跳层连接。
可选地,在本申请的一个实施例中,将每帧深度图像转换为三维点云数据,包括:通过所述测距设备的内参矩阵将任一深度图像投影到三维空间中,以获取所述任一深度图像的三维点云数据。
可选地,在本申请的一个实施例中,在所述通过测距设备对动态场景进行拍摄之前,还包括:根据预设的数据集生成训练数据;通过虚拟相机生成深度图像,并获取完整的物体几何形状和完整的物体运动;对图卷积神经网络进行训练,并约束图卷积神经网络输出的三维运动和真值三维运动之间的均方误差。
为达上述目的,本申请的第二方面实施例提出了本发明基于一种基于图卷积神经网络的实时三维运动补全装置,包括以下模块:
第一获取模块,用于通过测距设备对动态场景进行拍摄,获得深度图像序列,并将每帧深度图像转换为三维点云数据,其中,所述动态场景包括进行三维运动的目标对象;
第二获取模块,用于通过点云匹配确定相邻两帧所述深度图像之间的匹配点对,获得所述目标对象的可见部分的三维运动;
重建模块,用于根据所述深度图像序列对所述目标对象进行三维重建,获得所述目标对象对应的完整的物体几何模型;
估计模块,用于基于所述物体几何模型和所述可见部分的三维运动,通过预先训练完成的图卷积神经网络估计不可见部分的三维运动,获取所述目标对象完整的三维运动。
可选地,本在申请的一个实施例中,估计模块,具体用于:根据所述物体几何模型构建层级式节点图;计算所述层级式节点图中每个节点的特征向量;基于所述节点的特征向量和节点之间的连接关系通过图卷积运算进行信息传递;通过所述预先训练完成的图卷积神经网络输出每个节点的三维运动向量。
可选地,在本申请的一个实施例中,估计模块,还用于:确定节点图层级数,并为每个层级设置节点之间的距离阈值;在所述物体几何模型的表面均匀的抽取节点,其中,任一层级中任意两个节点之间的距离大于所述任一层级对应的所述距离阈值;对于同一层级上的节点,根据节点之间的近邻关系构建连边。
本申请的实施例提供的技术方案至少带来以下有益效果:本申请以完整的物体几何模型以及不连续、不完整的三维运动为输入,通过训练完成的图卷积神经网络对三维运动进行补全,得到完整的三维运动。从而获取的完整三维运动可用于物体运动跟踪或进行物体运动的分析、理解。并且,由于本申请使用的图卷积神经网络具有轻量化、运算速度快的特点,可以满足实时三维运动跟踪、人机交互等对实时性要求较高的应用需求,提高了获取完整的三维运动的实时性,丰富了可适用的场景。
为了实现上述实施例,本申请第三方面实施例还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的基于图卷积神经网络的实时三维运动补全方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提出的一种基于图卷积神经网络的实时三维运动补全方法的流程图;
图2为本申请实施例提出的一种具体的通过图卷积神经网络估计完整的物体运动的方法的流程示意图;
图3为本申请实施例提出的一种具体的图卷积神经网络的结构示意图;
图4为本申请实施例提出的一种基于图卷积神经网络的实时三维运动补全装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例所提出的一种基于图卷积神经网络的实时三维运动补全方法和装置。
图1为本申请实施例提出的一种基于图卷积神经网络的实时三维运动补全方法的流程图,如图1所示,该方法包括以下步骤:
步骤101,通过测距设备对动态场景进行拍摄,获得深度图像序列,并将每帧深度图像转换为三维点云数据,其中,动态场景包括进行三维运动的目标对象。
其中,深度图像是指将从图像采集器到场景中各点的距离(即深度)作为像素值的图像,因此,本申请可以采用各种类型的具有深度测量功能的测距设备对动态场景进行拍摄。
其中,动态场景包括进行三维运动的目标对象,目标对象即需要获取完整的三维运动以进行运动跟踪、分析的对象,比如,目标对象是待预测行动的老人等。
具体实施时,作为一种示例,本申请可以使用深度相机对动态场景进行拍摄,相比较传统的相机,深度相机具有深度测量功能,可以方便准确的感知周围的环境及变化。在预设时间段内,通过深度相机持续对动态场景进行拍摄,以获取各个时间点对应的一系列的深度图像。
进一步的,将每帧深度图像转换为三维点云数据。需要说明的是,深度图像经过坐标转换可以计算为点云数据,因此本申请获得深度图像序列后,可以将序列中每一张的深度图像依次转换为点云数据。
在本申请一个实施例中,将每帧深度图像转换为三维点云数据,包括通过测距设备的内参矩阵将深度图像序列任一张深度图像投影到三维空间中,以获取该深度图像的三维点云数据。具体而言,可以根据标定测距设备的特征参数,比如深度相机的内参矩阵K,通过以下公式将深度图像投影到三维空间中,得到一组三维点云:
其中,(x,y,z)为三维顶点坐标,(u,v)为像素坐标,D(u,v)为像素深度值。
步骤102,通过点云匹配确定相邻两帧深度图像之间的匹配点对,获得目标对象的可见部分的三维运动。
在本申请实施例中,通过点云匹配方法,找到相邻两帧之间匹配点对,得到可见部分的三维运动。作为一种可能的实现方式,进行点云匹配时可以使用基于神经网络的FlowNet3D方法,估计两组点云之间的相对运动。
需要说明的是,由于在实际应用中障碍物的遮挡等原因,深度图像仅能捕捉到目标对象的运动中可见部分的点云,因此通过此步骤得到的三维运动是不连续和不完整的。
步骤103,根据深度图像序列对目标对象进行三维重建,获得目标对象对应的完整的物体几何模型。
在本申请实施例中,对动态场景中的目标对象进行三维重建,得到目标对象完整的物体几何模型。具体实施时,作为一种可能的实现方式,可以根据实际需要选择不同的动态三维重建算法,比如,使用DynamicFusion,根据深度图像序列中对物体的观察,结合多帧深度图像的信息进行场景的三维重建,得到目标对象对应的完整的物体几何模型。
步骤104,基于物体几何模型和可见部分的三维运动,通过预先训练完成的图卷积神经网络估计不可见部分的三维运动,获取目标对象完整的三维运动。
具体的,在补全步骤102中得到的不连续、不完整的三维运动图像时,先调取在拍摄前预先训练完成的图卷积神经网络,根据当前已获得的物体几何模型和可见部分的三维运动生成图卷积神经网络的输入数据,通过训练完成的图卷积神经网络,根据可见部分的不完整的运动以及完整的物体几何模型估计出完整的物体运动。
在本申请一个实施例中,训练图卷积神经网络时,可以进行线下训练,即在通过测距设备对动态场景进行拍摄以进行运动跟踪之前,可以执行以下步骤:根据预设的数据集生成训练数据;通过虚拟相机生成深度图像,并获取完整的物体几何形状和完整的物体运动;对图卷积神经网络进行训练,并约束图卷积神经网络输出的三维运动和真值三维运动之间的均方误差。
具体而言,为训练图卷积神经网络,本申请可以使用DeformingThings4D数据集生成训练数据,该数据集包含约12万帧合成物体运动数据,丰富了训练数据。借助该数据集,通过引入虚拟相机生成深度图像,进而得到相机可见的三维运动,具体实现方式可参照上述实施例的描述。同时,可从数据集中获取完整的物体几何形状以及完整的物体运动。进而,根据获取的完整的物体几何形状和完整的物体运动,以及虚拟相机生成深度图像对图卷积神经网络进行训练,具体训练方式可参照相关技术中训练图卷积神经网络的方式,比如,通过梯度下降法改变参数从而最小化损失函数。本申请在训练中,约束神经网络输出的三维运动和真值三维运动(真值三维运动可以是从数据集中获取的物体实际和完整的运动)之间的L2误差,其中,L2误差是一种均方根误差,可通过测量预测向量与目标值向量之间的距离确定,在本实施例中,通过约束L2误差提高训练完成的图卷积神经网络进行估计的精度。
由此,完成神经网络训练后,仅需给定可见部分的不完整的运动以及完整的物体几何模型便可估计出完整的物体运动。且由于本申请采用的图卷积网络的轻量性,其计算效率较高,可以满足实时运算的需求。
进一步的,为了更加清楚的说明本申请通过训练完成的图卷积神经网络估计不可见部分的三维运动的具体实现过程,下面以一个具体的通过图卷积神经网络估计完整的物体运动的实施例进行详细说明,如图2所示,该方法包括以下步骤:
步骤201,根据物体几何模型构建层级式节点图。
在本申请实施例中,根据物体几何模型构建层级式节点图时,先确定节点图层级数,并为每个层级设置节点之间的距离阈值,然后在物体几何模型的表面均匀的抽取节点,其中,任一层级中任意两个节点之间的距离大于任一层级对应的距离阈值,最后对于同一层级上的节点,根据节点之间的近邻关系构建连边。
具体的,在得到物体的几何模型后,在物体的表面均匀地抽取节点,抽取节点时,保证任意两个节点之间的距离大于阈值。其中,对于不同层级的节点图,其节点之间的距离阈值不同,高层级中节点数量少于低层级,且节点之间的距离阈值大于低层级节点之间的距离阈值,第k+1层节点图中的节点为第k层节点的子集。在得到多个层级的节点后,对于同一层级上的节点,根据节点之间的近邻关系构建连边。举例而言,在本示例中可设置节点图层级数为4,第1层至第4层节点的距离阈值依次为4cm,8cm,16cm,32cm,节点近邻个数依次为8,6,4,3。
步骤202,计算层级式节点图中每个节点的特征向量。
在本申请实施例中,每个节点的特征向量均为一个7维向量,其前3维对应该节点的三维空间坐标,随后3维对应该节点的三维运动,最后一维表示该节点是否可见。若该节点可被测距传设备观察到则赋值为1,否则赋值为0。对于可见的节点,其三维运动向量的值是通过步骤S1022估计得到的三维运动,对于不可见的节点,可将其三维运动向量赋值为[0,0,0]。
步骤203,基于节点的特征向量和节点之间的连接关系通过图卷积运算进行信息传递。
步骤204,通过预先训练完成的图卷积神经网络输出每个节点的三维运动向量。
具体的,通过步骤201和步骤202构建出了图卷积神经网络的输入数据后,使用上述训练完成的图卷积神经网络,根据输入的数据通过图卷积运算进行信息传递。
在本申请一个实施例中,为增加图卷积网络的感受野,使用先降采样后升采样的U型网络结构,在本示例中图卷积神经网络框架如图3所示,基于节点的特征向量和节点之间的连接关系通过图卷积运算进行信息传递,包括对节点的特征向量和节点之间的连接关系进行降采样后,进行升采样,并在相同的节点层级之间添加跳层连接。具体而言,由于第k+1层节点图中的节点为第k层节点的子集,图节点特征的降采样可直接进行,在升采样时,第k+1层节点的特征使用距离最近的第k层节点特征进行初始化。同时,在相同的节点层级之间添加跳层连接。最终,该图卷积神经网络可输出所有节点的三维运动向量,目标对象的物体模型上任意一个顶点的运动均可通过其近邻节点的运动插值得到,由此可得到完整的物体三维运动。
需要说明的是,在本申请实施例中,可以通过上述方式估计不可见部分的节点的三维运动,再结合步骤102获得目标对象的可见部分的三维运动,通过组合这两个部分的三维运动,确定目标对象完整的三维运动。在申请另一些实施例中,还可以通过上述方式输出每个节点的三维运动向,估计每个节点的三维运动,即直接通过图卷积神经网络估计完整的物体运动。
综上所述,本申请实施例的基于图卷积神经网络的实时三维运动补全方法,以完整的物体几何模型以及不连续、不完整的三维运动为输入,通过训练完成的图卷积神经网络对三维运动进行补全,得到完整的三维运动。从而获取的完整三维运动可用于物体运动跟踪或进行物体运动的分析、理解。并且,由于本申请使用的图卷积神经网络具有轻量化、运算速度快的特点,可以满足实时三维运动跟踪、人机交互等对实时性要求较高的应用需求,提高了获取完整的三维运动的实时性,丰富了可适用的场景。
为了更加清楚的说明本申请实施例的基于图卷积神经网络的实时三维运动补全方法的具体实现过程,下面一个具体实施例进行说明,该实施例包括以下四个步骤:
S1:使用测距传感器(如深度相机)对动态场景进行拍摄,获得深度图像序列,并将单帧深度图像转换为三维点云。根据相机的内参矩阵K,可以将深度图像投影到三维空间中,得到一组三维点云。
S2:通过点云匹配方法,找到相邻两帧之间匹配点对,得到可见部分的三维运动。点云匹配使用基于神经网络的FlowNet3D方法,估计两组点云之间的相对运动。
S3:根据深度图像序列对场景中的目标进行三维重建,得到完整的物体几何模型。具体而言,可以使用DynamicFusion等动态三维重建算法,根据深度图像序列中对物体的观察,结合多帧深度图像的信息进行场景的三维重建,得到完整的物体几何模型。
S4:根据完整的物体几何模型以及可见部分的三维运动,使用图卷积神经网络估计完整的物体运动。
具体而言,首先需要根据物体的几何模型,构建层级式节点图。在得到物体的几何模型后,在物体的表面均匀地抽取节点,抽取节点时,保证任意两个节点之间的距离大于阈值d。对于不同层级的节点图,其节点之间的距离阈值不同,层级越低,节点越多,节点之间的距离阈值越小。其中,第k+1层节点图中的节点为第k层节点的子集。得到多个层级的节点后,对于同一层级上的节点,根据节点之间的近邻关系构建连边。
进一步的,在完成层级式节点图的构建后,需要计算每个节点的特征向量。每个节点的特征向量均为一个7维向量,其前3维对应该节点的三维空间坐标,随后3维对应该节点的三维运动,最后一维表示该节点是否可见。若该节点可被测距传感器观察到则赋值为1,否则赋值为0。对于可见的节点,其运动赋值为通过步骤S2估计得到的三维运动,对于不可见的节点,其运动赋值为[0,0,0]。
由此,构建完成了图卷积神经网络的输入。在图卷积神经网络中,使用图卷积运算根据节点的特征向量以及节点之间的连接关系进行信息传递,为增加图卷积网络的感受野,使用先降采样后升采样的U型网络结构。由于第k+1层节点图中的节点为第k层节点的子集,图节点特征的降采样可直接进行,在升采样时,第k+1层节点的特征使用距离最近的第k层节点特征进行初始化。同时,在相同的节点层级之间添加跳层连接。最终,该图卷积神经网络可输出所有节点的三维运动向量,物体上任意一个顶点的运动均可通过其近邻节点的运动插值得到,由此可得到完整的物体三维运动。
为了实现上述实施例,本申请还提出了一种基于图卷积神经网络的实时三维运动补全装置,图4为本申请实施例提出的一种基于图卷积神经网络的实时三维运动补全装置的结构示意图。
如图4所示,该装置包括第一获取模块100、第二获取模块200、重建模块300和估计模块400。
其中,第一获取模块100,用于通过测距设备对动态场景进行拍摄,获得深度图像序列,并将每帧深度图像转换为三维点云数据,其中,动态场景包括进行三维运动的目标对象。
第二获取模块200,用于通过点云匹配确定相邻两帧所述深度图像之间的匹配点对,获得目标对象的可见部分的三维运动。
重建模块300,用于根据深度图像序列对所述目标对象进行三维重建,获得目标对象对应的完整的物体几何模型。
估计模块400,用于基于物体几何模型和可见部分的三维运动,通过预先训练完成的图卷积神经网络估计不可见部分的三维运动,获取目标对象完整的三维运动。
可选地,本在申请的一个实施例中,估计模块400,具体用于:根据物体几何模型构建层级式节点图;计算层级式节点图中每个节点的特征向量;基于节点的特征向量和节点之间的连接关系通过图卷积运算进行信息传递;通过预先训练完成的图卷积神经网络输出每个节点的三维运动向量。
可选地,本在申请的一个实施例中,估计模块400还用于:确定节点图层级数,并为每个层级设置节点之间的距离阈值;在物体几何模型的表面均匀的抽取节点,其中,任一层级中任意两个节点之间的距离大于任一层级对应的所述距离阈值;对于同一层级上的节点,根据节点之间的近邻关系构建连边。
可选地,本在申请的一个实施例中,估计模块400还用于:对节点的特征向量和节点之间的连接关系进行降采样后,进行升采样,并在相同的节点层级之间添加跳层连接。
可选地,本在申请的一个实施例中,第一获取模块100具体用于通过测距设备的内参矩阵将任一深度图像投影到三维空间中,以获取任一深度图像的三维点云数据。
可选地,本在申请的一个实施例中,第一获取模块100还用于:根据预设的数据集生成训练数据;通过虚拟相机生成深度图像,并获取完整的物体几何形状和完整的物体运动;对图卷积神经网络进行训练,并约束图卷积神经网络输出的三维运动和真值三维运动之间的均方误差。
需要说明的是,前述对于基于图卷积神经网络的实时三维运动补全方法的实施例的说明,也适用于本实施例的装置,其实现原理类似,此处不再赘述。
综上所述,本申请实施例的基于图卷积神经网络的实时三维运动补全装置,以完整的物体几何模型以及不连续、不完整的三维运动为输入,通过训练完成的图卷积神经网络对三维运动进行补全,得到完整的三维运动。从而获取的完整三维运动可用于物体运动跟踪或进行物体运动的分析、理解。并且,由于本申请使用的图卷积神经网络具有轻量化、运算速度快的特点,可以满足实时三维运动跟踪、人机交互等对实时性要求较高的应用需求,提高了获取完整的三维运动的实时性,丰富了可适用的场景。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请第一方面实施例所述的一种基于图卷积神经网络的实时三维运动补全方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于图卷积神经网络的实时三维运动补全方法,其特征在于,包括以下步骤:
通过测距设备对动态场景进行拍摄,获得深度图像序列,并将每帧深度图像转换为三维点云数据,其中,所述动态场景包括进行三维运动的目标对象;
通过点云匹配确定相邻两帧所述深度图像之间的匹配点对,获得所述目标对象的可见部分的三维运动;
根据所述深度图像序列对所述目标对象进行三维重建,获得所述目标对象对应的完整的物体几何模型;
基于所述物体几何模型和所述可见部分的三维运动,通过预先训练完成的图卷积神经网络估计不可见部分的三维运动,获取所述目标对象完整的三维运动。
2.根据权利要求1所述的方法,其特征在于,所述基于所述物体几何模型和所述可见部分的三维运动,通过预先训练完成的图卷积神经网络估计不可见部分的三维运动,包括:
根据所述物体几何模型构建层级式节点图;
计算所述层级式节点图中每个节点的特征向量;
基于所述节点的特征向量和节点之间的连接关系通过图卷积运算进行信息传递;
通过所述预先训练完成的图卷积神经网络输出每个节点的三维运动向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述物体几何模型构建层级式节点图,包括:
确定节点图层级数,并为每个层级设置节点之间的距离阈值;
在所述物体几何模型的表面均匀的抽取节点,其中,任一层级中任意两个节点之间的距离大于所述任一层级对应的所述距离阈值;
对于同一层级上的节点,根据节点之间的近邻关系构建连边。
4.根据权利要求2所述的方法,其特征在于,所述基于所述节点的特征向量和节点之间的连接关系通过图卷积运算进行信息传递,包括:
对所述节点的特征向量和节点之间的连接关系进行降采样后,进行升采样,并在相同的节点层级之间添加跳层连接。
5.根据权利要求1所述的方法,其特征在于,所述将每帧深度图像转换为三维点云数据,包括:
通过所述测距设备的内参矩阵将任一深度图像投影到三维空间中,以获取所述任一深度图像的三维点云数据。
6.根据权利要求1-5任一所述的方法,其特征在于,在所述通过测距设备对动态场景进行拍摄之前,还包括:
根据预设的数据集生成训练数据;
通过虚拟相机生成深度图像,并获取完整的物体几何形状和完整的物体运动;
对图卷积神经网络进行训练,并约束图卷积神经网络输出的三维运动和真值三维运动之间的均方误差。
7.一种基于图卷积神经网络的实时三维运动补全装置,其特征在于,包括:
第一获取模块,用于通过测距设备对动态场景进行拍摄,获得深度图像序列,并将每帧深度图像转换为三维点云数据,其中,所述动态场景包括进行三维运动的目标对象;
第二获取模块,用于通过点云匹配确定相邻两帧所述深度图像之间的匹配点对,获得所述目标对象的可见部分的三维运动;
重建模块,用于根据所述深度图像序列对所述目标对象进行三维重建,获得所述目标对象对应的完整的物体几何模型;
估计模块,用于基于所述物体几何模型和所述可见部分的三维运动,通过预先训练完成的图卷积神经网络估计不可见部分的三维运动,获取所述目标对象完整的三维运动。
8.根据权利要求7所述的装置,其特征在于,所述估计模块,具体用于:
根据所述物体几何模型构建层级式节点图;
计算所述层级式节点图中每个节点的特征向量;
基于所述节点的特征向量和节点之间的连接关系通过图卷积运算进行信息传递;
通过所述预先训练完成的图卷积神经网络输出每个节点的三维运动向量。
9.根据权利要求8所述的装置,其特征在于,所述估计模块,还用于:
确定节点图层级数,并为每个层级设置节点之间的距离阈值;
在所述物体几何模型的表面均匀的抽取节点,其中,任一层级中任意两个节点之间的距离大于所述任一层级对应的所述距离阈值;
对于同一层级上的节点,根据节点之间的近邻关系构建连边。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的基于图卷积神经网络的实时三维运动补全方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111415886.2A CN114332156A (zh) | 2021-11-25 | 2021-11-25 | 基于图卷积神经网络的实时三维运动补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111415886.2A CN114332156A (zh) | 2021-11-25 | 2021-11-25 | 基于图卷积神经网络的实时三维运动补全方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114332156A true CN114332156A (zh) | 2022-04-12 |
Family
ID=81046333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111415886.2A Pending CN114332156A (zh) | 2021-11-25 | 2021-11-25 | 基于图卷积神经网络的实时三维运动补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114332156A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223023A (zh) * | 2022-09-16 | 2022-10-21 | 杭州得闻天下数字文化科技有限公司 | 基于立体视觉和深度神经网络的人体轮廓估计方法及装置 |
-
2021
- 2021-11-25 CN CN202111415886.2A patent/CN114332156A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115223023A (zh) * | 2022-09-16 | 2022-10-21 | 杭州得闻天下数字文化科技有限公司 | 基于立体视觉和深度神经网络的人体轮廓估计方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bozic et al. | Neural deformation graphs for globally-consistent non-rigid reconstruction | |
US20170278302A1 (en) | Method and device for registering an image to a model | |
CN110443874B (zh) | 基于卷积神经网络的视点数据生成方法和装置 | |
CN113284251B (zh) | 一种自适应视角的级联网络三维重建方法及系统 | |
CN108961385B (zh) | 一种slam构图方法及装置 | |
CN112734931B (zh) | 一种辅助点云目标检测的方法及系统 | |
JP5893166B2 (ja) | 3dモデル・モーフィングのための方法および装置 | |
CN112907737A (zh) | 基于隐函数融合的动态人体三维重建方法和装置 | |
Kong et al. | Fdflownet: Fast optical flow estimation using a deep lightweight network | |
CN114332156A (zh) | 基于图卷积神经网络的实时三维运动补全方法 | |
CN113313740B (zh) | 一种基于平面连续性的视差图和表面法向量联合学习方法 | |
CN113158970B (zh) | 一种基于快慢双流图卷积神经网络的动作识别方法与系统 | |
CN112802186B (zh) | 基于二值化特征编码匹配的动态场景实时三维重建方法 | |
CN114387392A (zh) | 一种根据人影重建三维人体姿态的方法 | |
JP2022027464A (ja) | 映像の深度推定に関する方法及び装置 | |
CN117115337A (zh) | 基于稀疏点云帧的三维表面建模方法 | |
Harisankar et al. | Unsupervised depth estimation from monocular images for autonomous vehicles | |
CN113920270B (zh) | 一种基于多视角全景的布局重建方法及其系统 | |
EP4152274A1 (en) | System and method for predicting an occupancy probability of a point in an environment, and training method thereof | |
CN112907733A (zh) | 重建三维模型的方法及装置和三维模型采集及重建系统 | |
Hou et al. | Octree-Based Approach for Real-Time 3D Indoor Mapping Using RGB-D Video Data | |
JP4673241B2 (ja) | 動体追跡装置、動体追跡方法及びその方法を実現したプログラムを格納した記録媒体 | |
CN113344941A (zh) | 一种基于聚焦图像的深度估计方法及图像处理装置 | |
Ammar et al. | Comparative Study of latest CNN based Optical Flow Estimation | |
CN117152231B (zh) | 预设类别目标的三维形状估计方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |