CN114581613A - 一种基于轨迹约束的人体模型姿态和形状优化方法和系统 - Google Patents

一种基于轨迹约束的人体模型姿态和形状优化方法和系统 Download PDF

Info

Publication number
CN114581613A
CN114581613A CN202210466453.8A CN202210466453A CN114581613A CN 114581613 A CN114581613 A CN 114581613A CN 202210466453 A CN202210466453 A CN 202210466453A CN 114581613 A CN114581613 A CN 114581613A
Authority
CN
China
Prior art keywords
human body
model
dimensional
video frame
posture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210466453.8A
Other languages
English (en)
Other versions
CN114581613B (zh
Inventor
戴翘楚
吴翼天
曹静萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yilan Technology Co ltd
Original Assignee
Hangzhou Yilan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yilan Technology Co ltd filed Critical Hangzhou Yilan Technology Co ltd
Priority to CN202210466453.8A priority Critical patent/CN114581613B/zh
Publication of CN114581613A publication Critical patent/CN114581613A/zh
Application granted granted Critical
Publication of CN114581613B publication Critical patent/CN114581613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提出的一种基于轨迹约束的人体模型姿态和形状优化方法和系统,包括接收到的视频帧序列中提取带有多尺度信息的空间特征;采用时空全局关系建模模块对对空间特征中的时序参数进行编码,获取编码中存在的远程依赖关系;利用人体网格恢复网络作为参数回归器,对视频帧序列中的三维人体参数化模板参数和相机参数进行回归;使用脚与地面接触检测器基于视频帧序列内每帧图像中二维关键点信息对人体运动状态进行估计;使用基于物理的轨迹模型,结合学习轨迹的残差修正值对估计值进行优化,完成三维人体模型姿势和形状重建。采用轨迹优化项来鼓励人与场景的交互,产生更真实的人体场景交互。

Description

一种基于轨迹约束的人体模型姿态和形状优化方法和系统
技术领域
本申请涉及计算机视频处理领域,尤其涉及一种基于轨迹约束的人体模型姿态和形状优化方法和系统。
背景技术
从单目视频精确估计三维人体运动需要对运动学(无物理力的身体运动)和动力学(有物理力的运动)进行建模。人体动力学,即带有物理力的人体运动模型,在三维人体姿势估计中相对较少受到关注,而运动学是一个没有物理力的运动模型。
现有用于单目视频三维人体姿势估计的最先进方法都仅基于运动学。运动学方法往往无法产生物理上合理的运动,通常会生成具有明显伪影的身体上不可信的运动:身体部位(如脚)穿透地面;估计的对象是抖动和过度振动的;脚在与地面静态接触时来回滑动。所有这些物理伪影极大地限制了运动学姿态估计方法的应用。
发明内容
本申请提出了一种基于轨迹约束的人体模型姿态和形状优化方法和系统,结合人体与环境交互信息进一步提升人体重建的质量和精度。
本申请提出的一种基于轨迹约束的人体模型姿态和形状优化方法,包括:
S11,采用卷积神经网络作为编码器,从接收到的视频帧序列中提取带有多尺度信息的空间特征;
S12,采用时空全局关系建模模块对对空间特征中的时序参数进行编码,获取编码中存在的远程依赖关系;
S13,利用人体网格恢复网络作为参数回归器,对视频帧序列中的三维人体参数化模板参数和相机参数进行回归;
S14,使用脚与地面接触检测器基于视频帧序列内每帧图像中二维关键点信息对人体运动状态进行估计;
S15,使用基于物理的轨迹模型,结合学习轨迹的残差修正值对估计值进行优化,完成三维人体模型姿势和形状重建。
可选的,所述S11包括:
S111,采用特征对齐金字塔网络进行密集图像预测;
S112,采用在预训练的残差网络作为骨干网络进行空间特征提取。
可选的,所述S13包括:
S131,网络中的回归器采用连续表示法,姿势参数θ中的三维旋转角表示法。
可选的,所述S14包括:
步骤S141,使用脚与地面接触检测器估计当前人体运动状态。
可选的,所述S15包括:
S151,基于物理的轨迹模型通过学习轨迹的残差修正值来优化;
S152,利用人体模板姿态序列和所有图像视频帧序列构建损失函数
Figure 267986DEST_PATH_IMAGE001
,训练网络模 型;
S153,训练完成后,将任意一段视频帧序列导入通过训练好的模型,完成三维人体模型姿势和形状重建。
另一方面,本申请还提出了基于轨迹约束的人体模型姿态和形状优化系统,所述系统包括:
特征提取单元,用于采用卷积神经网络作为编码器,从接收到的视频帧序列中提取带有多尺度信息的空间特征;
关系获取单元,用于采用时空全局关系建模模块对对空间特征中的时序参数进行编码,获取编码中存在的远程依赖关系;
参数回归单元,用于利用人体网格恢复网络作为参数回归器,对视频帧序列中的三维人体参数化模板参数和相机参数进行回归;
状态估计单元,用于使用脚与地面接触检测器基于视频帧序列内每帧图像中二维关键点信息对人体运动状态进行估计;
优化重建单元,用于使用基于物理的轨迹模型,结合学习轨迹的残差修正值对估计值进行优化,完成三维人体模型姿势和形状重建。
可选的,所述特征提取单元包括:
图像预测子单元,用于采用特征对齐金字塔网络进行密集图像预测;
特征获取子单元,用于采用在预训练的残差网络作为骨干网络进行空间特征提取。
可选的,所述参数回归单元用于:
采用连续表示法,姿势参数θ中的三维旋转角表示法。
可选的,所述状态估计单元包括:
状态估计子单元,用于使用脚与地面接触检测器估计当前人体运动状态。
可选的,所述优化重建单元包括:
参数优化子单元,用于基于物理的轨迹模型通过学习轨迹的残差修正值来优化;
模型训练子单元,用于利用人体模板姿态序列和所有图像视频帧序列构建损失函 数
Figure 450706DEST_PATH_IMAGE001
,训练网络模型;
重建子单元,用于训练完成后,将任意一段视频帧序列导入通过训练好的模型,完成三维人体模型姿势和形状重建。
有益效果:
使用基于物理的轨迹优化来优化产生运动学运动的力,投影到物理上合理的运动,使得轨迹优化产生的运动在物理上是合理。结合人体与环境交互信息进一步提升人体重建的质量和精度。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提出的基于轨迹约束的人体模型姿态和形状优化方法的流程示意图;
图2为本申请实施例提出的处理过程示例;
图3为本申请实施例提出的基于轨迹约束的人体模型姿态和形状优化系统的结构示意图。
具体实施方式
为使本申请的结构和优点更加清楚,下面将结合附图对本申请的结构作进一步地描述。
本申请涉及了基于轨迹约束的人体模型姿态和形状优化方法,借助时空全局关系建模模块对时序进行编码,进而利用人体网格恢复网络作为参数回归器,回归三维人体参数化模板参数和相机参数,完成三维人体模型姿势和形状重建。
实施例一,如图1和图2所示,本申请提出的优化方法包括:
S11,采用卷积神经网络作为编码器,从接收到的视频帧序列中提取带有多尺度信息的空间特征;
S12,采用时空全局关系建模模块对对空间特征中的时序参数进行编码,获取编码中存在的远程依赖关系;
S13,利用人体网格恢复网络作为参数回归器,对视频帧序列中的三维人体参数化模板参数和相机参数进行回归;
S14,使用脚与地面接触检测器基于视频帧序列内每帧图像中二维关键点信息对人体运动状态进行估计;
S15,使用基于物理的轨迹模型,结合学习轨迹的残差修正值对估计值进行优化,完成三维人体模型姿势和形状重建。
在实施中,在脚与地面接触检测器中通过二维关键点轨迹优化来捕捉时间信息。在卷积神经网络中将可能预测的二维图片序列作为输入,使用回归人体模板三维人体参数化模板参数,并添加轨迹约束,最终将二维关键点轨迹与投影的三维轨迹相匹配,利用运动轨迹进行遮挡跟踪。
另外还经过特征对齐金字塔网络提取多尺度信息的空间特征,学习像素的变换偏移以上下文对齐上采样的复杂语义特征;同时加入时空全局关系建模模块对时序进行编码,捕获远程依赖关系。
具体的, 在执行步骤S11之前,需要进行视频帧序列的获取过程,具体为:
选取视频帧序列,记作
Figure 496023DEST_PATH_IMAGE002
,其中
Figure 156811DEST_PATH_IMAGE003
为序列长度,也称为图像序列数目,
Figure 971183DEST_PATH_IMAGE004
表示第
Figure 809957DEST_PATH_IMAGE004
张图像,即第i帧。
其中,从视频帧序列中选取后续步骤训练的数据,包括混合的二维和三维数据集,5000段带有二维真值的视频数据集,8000段使用二维关键点检测器得到的伪标签数据集。
对于三维数据集,使用2000段带有参数化人体模板真值的视频数据。
步骤S11用于基于卷积神经网络作为编码器从视频帧序列中提取空间特征,具体包括:
S111,采用特征对齐金字塔网络进行密集图像预测;
S112,采用在预训练的残差网络作为骨干网络进行空间特征提取。
在实施中,用于密集图像预测的特征对齐金字塔网络,由两个模块构成,一个特征对齐模块以及一个特征选择模块。
采用卷积神经网络作为编码器提取带有多尺度信息的空间特征,这里采用特征对齐金字塔网络,这是一种简单而有效的自上而下的金字塔结构,可生成用于密集图像预测的多尺度特征。
步骤S12用于基于卷积神经网络作为编码器从视频帧序列中提取空间特征,具体包括:
S121,采用时空全局关系建模模块对时序进行编码,捕获远程依赖关系。
在实施中,在卷积神经网络中的操作过程为:
将输入X喂到三个1*1卷积,生成三个特征图
Figure 342570DEST_PATH_IMAGE005
,对图滤波进行近似,分别将0 阶和1阶项进行卷积,得到输出Y;
采用时序编码器提取时间特征,记作
Figure 807049DEST_PATH_IMAGE006
,这里采用时空全局关系建模模块,用于 捕获计算机视觉任务中的远程时空依赖性,同时还对视频元素之间丰富的结构化信息进行 编码处理。
步骤S13用于对视频帧序列中的三维人体参数化模板参数和相机参数进行回归,具体包括:
S131,网络中的回归器采用连续表示法,姿势参数θ中的三维旋转角表示法。
在实施中,回归器由两个全连接层组成,每个层有1024个隐藏神经元,中间添加了随机失活层,最后一个层有157维输出,对应于形状和姿态参数的残差。
利用人体网格恢复网络作为参数回归器,记作
Figure 475928DEST_PATH_IMAGE007
,回归三维人体参数化模板参数 和相机参数,记作
Figure 734871DEST_PATH_IMAGE008
步骤S14用于使用脚与地面接触检测器基于视频帧序列内每帧图像中二维关键点信息对人体运动状态进行估计,具体包括:
步骤S141,使用脚与地面接触检测器估计当前人体运动状态。
在实施中,估计当前人体运动状态的关键在于观测根节点与两只脚的点夹角最大 状态定为落脚点,即与地面接触的关键点。通过使用脚与地面接触检测器根据二维关键点 信息估计当前人体运动状态,记作
Figure 754780DEST_PATH_IMAGE009
;
步骤S15用于完成三维人体模型姿势和形状重建,具体包括:
S151,基于物理的轨迹模型通过学习轨迹的残差修正值来优化。
在实施中,需要约束三维人体参数化模板参数的估计,添加一个轨迹预测模型用于预测根关节的绝对坐标,将相机坐标系下绝对的三维姿态投影回二维平面,引入重投影损失。
使用基于物理的轨迹模型通过学习轨迹的残差修正值来优化,进而约束三维人体参数化模板参数的估计,具体的,轨迹优化器通过修正脚部关节点位移量来使人体不再始终固定在屏幕中心,将其带有绝对信息的轨迹重投影到二维图像,并与二维关键点轨迹真值做监督,达到优化三维人体参数化模板参数的目的,最终完成三维人体模型姿势和形状重建任务;
需要引入概念“轨迹模型”进行详细说明。
由于透视投影,屏幕上的二维姿势取决于轨迹(人体根关节的绝对坐标)和三维姿 势(所有关节相对于根关节的位置)。如果没有绝对坐标,人体将始终以固定比例重新投影 到屏幕中心。因此,还可以对人的三维轨迹进行回归,以便能够正确地执行到二维的反投 影。为此,优化了轨迹模型网络,该网络回归相机空间中的全局轨迹。在将其投影回二维之 前,将后者添加到模型中。优化了轨迹的加权平均每关节位置误差损失函数:
Figure 757371DEST_PATH_IMAGE010
轨迹模型中包括初始值:
Figure 546335DEST_PATH_IMAGE011
其中,j代表第j个关节点,t代表第t帧;脚部关节点位移修正项:
Figure 976179DEST_PATH_IMAGE012
;修正后的世界坐标:
Figure 483384DEST_PATH_IMAGE013
因此,可以得出如下推理:
t=1时:
Figure 771890DEST_PATH_IMAGE014
;
Figure 680940DEST_PATH_IMAGE015
;
Figure 16106DEST_PATH_IMAGE016
;
…;
Figure 10607DEST_PATH_IMAGE017
;
t=2时:
Figure 355001DEST_PATH_IMAGE018
;
Figure 118557DEST_PATH_IMAGE019
;
Figure 890204DEST_PATH_IMAGE020
;
…;
Figure 106422DEST_PATH_IMAGE021
;
本申请实施例中,
Figure 254507DEST_PATH_IMAGE022
表示经过特征融合的空间特征,多尺度的 空间特征经过MPL降维之后连接到一起成为
Figure 872570DEST_PATH_IMAGE023
Figure 815118DEST_PATH_IMAGE024
表示经过时间编码后的时 序特征,
Figure 269364DEST_PATH_IMAGE008
表示回归的三维人体参数化模板参数和相机参数,
Figure 955560DEST_PATH_IMAGE025
表示下一帧预测的参数由上一帧的参数初始化,时序特征经 过回归器之后得到的参数预测。
上述处理过程中涉及的整体损失函数如下:
Figure 428130DEST_PATH_IMAGE026
其中
Figure 807159DEST_PATH_IMAGE027
·
Figure 997969DEST_PATH_IMAGE027
表示L2范数,
Figure 222277DEST_PATH_IMAGE028
分别表示二维关键点,三维关节,人体模型参数以 及轨迹坐标点的真实值。
S152,利用人体模板姿态序列和所有图像视频帧序列构建损失函数
Figure 549353DEST_PATH_IMAGE001
,训练网络模 型。
S153,训练完成后,将任意一段视频帧序列导入通过训练好的模型,完成三维人体模型姿势和形状重建。
实施例二,本申请实施例还提出了基于轨迹约束的人体模型姿态和形状优化系统,如图3所示,所述系统包括:
特征提取单元,用于采用卷积神经网络作为编码器,从接收到的视频帧序列中提取带有多尺度信息的空间特征;
关系获取单元,用于采用时空全局关系建模模块对对空间特征中的时序参数进行编码,获取编码中存在的远程依赖关系;
参数回归单元,用于利用人体网格恢复网络作为参数回归器,对视频帧序列中的三维人体参数化模板参数和相机参数进行回归;
状态估计单元,用于使用脚与地面接触检测器基于视频帧序列内每帧图像中二维关键点信息对人体运动状态进行估计;
优化重建单元,用于使用基于物理的轨迹模型,结合学习轨迹的残差修正值对估计值进行优化,完成三维人体模型姿势和形状重建。
在实施中,在实施中,在脚与地面接触检测器中通过二维关键点轨迹优化来捕捉时间信息。在卷积神经网络中将可能预测的二维图片序列作为输入,使用回归人体模板三维人体参数化模板参数,并添加轨迹约束,最终将二维关键点轨迹与投影的三维轨迹相匹配,利用运动轨迹进行遮挡跟踪。
另外还经过特征对齐金字塔网络提取多尺度信息的空间特征,学习像素的变换偏移以上下文对齐上采样的复杂语义特征;同时加入时空全局关系建模模块对时序进行编码,捕获远程依赖关系。
具体的,在特征提取单元进行相应操作前,还需执行视频帧序列的获取过程,具体为:
选取视频帧序列,记作
Figure 99283DEST_PATH_IMAGE002
,其中
Figure 511810DEST_PATH_IMAGE003
为序列长度,也称为图像序列数目,
Figure 805388DEST_PATH_IMAGE004
表示第
Figure 986970DEST_PATH_IMAGE004
张图像,即第i帧。
其中,从视频帧序列中选取后续步骤训练的数据,包括混合的二维和三维数据集,5000段带有二维真值的视频数据集,8000段使用二维关键点检测器得到的伪标签数据集。
对于三维数据集,使用2000段带有参数化人体模板真值的视频数据。
特征提取单元包括:
图像预测子单元,用于采用特征对齐金字塔网络进行密集图像预测;
特征获取子单元,用于采用在预训练的残差网络作为骨干网络进行空间特征提取。
在实施中,用于密集图像预测的特征对齐金字塔网络,由两个模块构成,一个特征对齐模块以及一个特征选择模块。
采用卷积神经网络作为编码器提取带有多尺度信息的空间特征,这里采用特征对齐金字塔网络,这是一种简单而有效的自上而下的金字塔结构,可生成用于密集图像预测的多尺度特征。
参数回归单元用于:
采用连续表示法,姿势参数θ中的三维旋转角表示法。
在实施中,回归器由两个全连接层组成,每个层有1024个隐藏神经元,中间添加了随机失活层,最后一个层有157维输出,对应于形状和姿态参数的残差。
利用人体网格恢复网络作为参数回归器,记作
Figure 442222DEST_PATH_IMAGE007
,回归三维人体参数化模板参数 和相机参数,记作
Figure 358357DEST_PATH_IMAGE008
状态估计单元包括:
状态估计子单元,用于使用脚与地面接触检测器估计当前人体运动状态。
在实施中,估计当前人体运动状态的关键在于观测根节点与两只脚的点夹角最大 状态定为落脚点,即与地面接触的关键点。通过使用脚与地面接触检测器根据二维关键点 信息估计当前人体运动状态,记作
Figure 924468DEST_PATH_IMAGE009
;
优化重建单元包括:
参数优化子单元,用于基于物理的轨迹模型通过学习轨迹的残差修正值来优化。
在实施中,需要约束三维人体参数化模板参数的估计,添加一个轨迹预测模型用于预测根关节的绝对坐标,将相机坐标系下绝对的三维姿态投影回二维平面,引入重投影损失。
使用基于物理的轨迹模型通过学习轨迹的残差修正值来优化,进而约束三维人体参数化模板参数的估计,具体的,轨迹优化器通过修正脚部关节点位移量来使人体不再始终固定在屏幕中心,将其带有绝对信息的轨迹重投影到二维图像,并与二维关键点轨迹真值做监督,达到优化三维人体参数化模板参数的目的,最终完成三维人体模型姿势和形状重建任务;
需要引入概念“轨迹模型”进行详细说明。
由于透视投影,屏幕上的二维姿势取决于轨迹(人体根关节的绝对坐标)和三维姿 势(所有关节相对于根关节的位置)。如果没有绝对坐标,人体将始终以固定比例重新投影 到屏幕中心。因此,还可以对人的三维轨迹进行回归,以便能够正确地执行到二维的反投 影。为此,优化了轨迹模型网络,该网络回归相机空间中的全局轨迹。在将其投影回二维之 前,将后者添加到模型中。优化了轨迹的加权平均每关节位置误差损失函数:
Figure 491715DEST_PATH_IMAGE010
轨迹模型中包括初始值:
Figure 117869DEST_PATH_IMAGE011
其中,j代表第j个关节点,t代表第t帧;脚部关节点位移修正项:
Figure 504988DEST_PATH_IMAGE012
;修正后的世界坐标:
Figure 140368DEST_PATH_IMAGE013
因此,可以得出如下推理:
t=1时:
Figure 30964DEST_PATH_IMAGE014
;
Figure 93598DEST_PATH_IMAGE015
;
Figure 968013DEST_PATH_IMAGE016
;
…;
Figure 141505DEST_PATH_IMAGE017
;
t=2时:
Figure 417766DEST_PATH_IMAGE018
;
Figure 651301DEST_PATH_IMAGE019
;
Figure 747433DEST_PATH_IMAGE020
;
…;
Figure 475349DEST_PATH_IMAGE021
;
本申请实施例中,
Figure 340537DEST_PATH_IMAGE022
表示经过特征融合的空间特征,多尺度的 空间特征经过MPL降维之后连接到一起成为
Figure 744973DEST_PATH_IMAGE023
Figure 593980DEST_PATH_IMAGE024
表示经过时间编码后的时 序特征,
Figure 843696DEST_PATH_IMAGE008
表示回归的三维人体参数化模板参数和相机参数,
Figure 94549DEST_PATH_IMAGE025
表示下一帧预测的参数由上一帧的参数初始化,时序特征经 过回归器之后得到的参数预测。
上述处理过程中涉及的整体损失函数如下:
Figure 669887DEST_PATH_IMAGE026
其中
Figure 740611DEST_PATH_IMAGE027
·
Figure 59597DEST_PATH_IMAGE027
表示L2范数,
Figure 899377DEST_PATH_IMAGE028
分别表示二维关键点,三维关节,人体模型参数以 及轨迹坐标点的真实值。
模型训练子单元,用于利用人体模板姿态序列和所有图像视频帧序列构建损失函 数
Figure 645616DEST_PATH_IMAGE001
,训练网络模型。
重建子单元,用于训练完成后,将任意一段视频帧序列导入通过训练好的模型,完成三维人体模型姿势和形状重建。
本申请专注于提高从视频中估计的人体运动的物理合理性。一方面利用动力学,首先估计运动学运动,然后使用基于物理的轨迹优化来优化产生运动学运动的力。给定的运动学运动投影到物理上合理的运动。轨迹优化产生的运动在物理上是合理的。另一方面结合人体与环境交互信息进一步提升人体重建的质量和精度,使其达到商业可用级别。
本申请利用视频序列的二维观察和三维场景,以实现更精确的人体重建。从二维观察中恢复每个时刻的三维人体,将一系列三维人体网格投影到三维世界坐标系中,采用轨迹优化项来鼓励人与场景的交互。还结合来自整个视频序列的二维线索,综合考虑人与场景交互的合理性产生更真实的人体场景交互。
以上所述仅为本申请的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于轨迹约束的人体模型姿态和形状优化方法,其特征在于,所述方法包括:
S11,采用卷积神经网络作为编码器,从接收到的视频帧序列中提取带有多尺度信息的空间特征;
S12,采用时空全局关系建模模块对对空间特征中的时序参数进行编码,获取编码中存在的远程依赖关系;
S13,利用人体网格恢复网络作为参数回归器,对视频帧序列中的三维人体参数化模板参数和相机参数进行回归;
S14,使用脚与地面接触检测器基于视频帧序列内每帧图像中二维关键点信息对人体运动状态进行估计;
S15,使用基于物理的轨迹模型,结合学习轨迹的残差修正值对估计值进行优化,完成三维人体模型姿势和形状重建。
2.根据权利要求1所述的一种基于轨迹约束的人体模型姿态和形状优化方法,其特征在于,所述S11包括:
S111,采用特征对齐金字塔网络进行密集图像预测;
S112,采用在预训练的残差网络作为骨干网络进行空间特征提取。
3.根据权利要求1所述的一种基于轨迹约束的人体模型姿态和形状优化方法,其特征在于,所述S13包括:
S131,网络中的回归器采用连续表示法,姿势参数θ中的三维旋转角表示法。
4.根据权利要求1所述的一种基于轨迹约束的人体模型姿态和形状优化方法,其特征在于,所述S14包括:
步骤S141,使用脚与地面接触检测器估计当前人体运动状态。
5.根据权利要求1所述的一种基于轨迹约束的人体模型姿态和形状优化方法,其特征在于,所述S15包括:
S151,基于物理的轨迹模型通过学习轨迹的残差修正值来优化;
S152,利用人体模板姿态序列和所有图像视频帧序列构建损失函数
Figure DEST_PATH_IMAGE001
,训练网络模型;
S153,训练完成后,将任意一段视频帧序列导入通过训练好的模型,完成三维人体模型姿势和形状重建。
6.一种基于轨迹约束的人体模型姿态和形状优化系统,其特征在于,所述系统包括:
特征提取单元,用于采用卷积神经网络作为编码器,从接收到的视频帧序列中提取带有多尺度信息的空间特征;
关系获取单元,用于采用时空全局关系建模模块对对空间特征中的时序参数进行编码,获取编码中存在的远程依赖关系;
参数回归单元,用于利用人体网格恢复网络作为参数回归器,对视频帧序列中的三维人体参数化模板参数和相机参数进行回归;
状态估计单元,用于使用脚与地面接触检测器基于视频帧序列内每帧图像中二维关键点信息对人体运动状态进行估计;
优化重建单元,用于使用基于物理的轨迹模型,结合学习轨迹的残差修正值对估计值进行优化,完成三维人体模型姿势和形状重建。
7.根据权利要求6所述的一种基于轨迹约束的人体模型姿态和形状优化系统,其特征在于,所述特征提取单元包括:
图像预测子单元,用于采用特征对齐金字塔网络进行密集图像预测;
特征获取子单元,用于采用在预训练的残差网络作为骨干网络进行空间特征提取。
8.根据权利要求6所述的一种基于轨迹约束的人体模型姿态和形状优化系统,其特征在于,所述参数回归单元用于:
采用连续表示法,姿势参数θ中的三维旋转角表示法。
9.根据权利要求6所述的一种基于轨迹约束的人体模型姿态和形状优化系统,其特征在于,所述状态估计单元包括:
状态估计子单元,用于使用脚与地面接触检测器估计当前人体运动状态。
10.根据权利要求6所述的一种基于轨迹约束的人体模型姿态和形状优化系统,其特征在于,所述优化重建单元包括:
参数优化子单元,用于基于物理的轨迹模型通过学习轨迹的残差修正值来优化;
模型训练子单元,用于利用人体模板姿态序列和所有图像视频帧序列构建损失函数
Figure 670696DEST_PATH_IMAGE001
, 训练网络模型;
重建子单元,用于训练完成后,将任意一段视频帧序列导入通过训练好的模型,完成三维人体模型姿势和形状重建。
CN202210466453.8A 2022-04-29 2022-04-29 一种基于轨迹约束的人体模型姿态和形状优化方法和系统 Active CN114581613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210466453.8A CN114581613B (zh) 2022-04-29 2022-04-29 一种基于轨迹约束的人体模型姿态和形状优化方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210466453.8A CN114581613B (zh) 2022-04-29 2022-04-29 一种基于轨迹约束的人体模型姿态和形状优化方法和系统

Publications (2)

Publication Number Publication Date
CN114581613A true CN114581613A (zh) 2022-06-03
CN114581613B CN114581613B (zh) 2022-08-19

Family

ID=81783740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210466453.8A Active CN114581613B (zh) 2022-04-29 2022-04-29 一种基于轨迹约束的人体模型姿态和形状优化方法和系统

Country Status (1)

Country Link
CN (1) CN114581613B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115348392A (zh) * 2022-10-19 2022-11-15 成都唐米科技有限公司 一种基于模板素材的摄像方法及系统
CN115862149A (zh) * 2022-12-30 2023-03-28 广州紫为云科技有限公司 一种生成3d人体骨骼关键点数据集的方法及系统
CN115908753A (zh) * 2023-01-06 2023-04-04 粤港澳大湾区数字经济研究院(福田) 一种全身人体网格表面重建方法及相关装置
CN116092120A (zh) * 2022-12-30 2023-05-09 北京百度网讯科技有限公司 基于图像的动作确定方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2199983A1 (en) * 2008-12-22 2010-06-23 Nederlandse Centrale Organisatie Voor Toegepast Natuurwetenschappelijk Onderzoek TNO A method of estimating a motion of a multiple camera system, a multiple camera system and a computer program product
CN109087329A (zh) * 2018-07-27 2018-12-25 中山大学 基于深度网络的人体三维关节点估计框架及其定位方法
CN111311729A (zh) * 2020-01-18 2020-06-19 西安电子科技大学 一种基于双向投影网络的自然场景三维人体姿态重建方法
CN111753801A (zh) * 2020-07-02 2020-10-09 上海万面智能科技有限公司 人体姿态跟踪与动画生成方法及装置
CN112200165A (zh) * 2020-12-04 2021-01-08 北京软通智慧城市科技有限公司 模型训练方法、人体姿态估计方法、装置、设备及介质
CN113379904A (zh) * 2021-07-05 2021-09-10 东南大学 一种基于隐空间运动编码的多人人体模型重建方法
CN113538506A (zh) * 2021-07-23 2021-10-22 陕西师范大学 基于全局动态场景信息深度建模的行人轨迹预测方法
CA3126250A1 (en) * 2020-07-29 2022-01-29 Uatc, Llc Recovering and simulating pedestrians in the wild
CN114119912A (zh) * 2020-08-27 2022-03-01 北京陌陌信息技术有限公司 一种人体模型的快速拟合方法、设备和存储介质
US20220067357A1 (en) * 2020-08-25 2022-03-03 Sony Corporation Full skeletal 3d pose recovery from monocular camera
CN114219890A (zh) * 2021-11-10 2022-03-22 中国科学院深圳先进技术研究院 一种三维重建方法、装置、设备及计算机存储介质
US20220114786A1 (en) * 2021-12-22 2022-04-14 Guoqing Zhang Enhanced full-body reconstruction using a single camera

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2199983A1 (en) * 2008-12-22 2010-06-23 Nederlandse Centrale Organisatie Voor Toegepast Natuurwetenschappelijk Onderzoek TNO A method of estimating a motion of a multiple camera system, a multiple camera system and a computer program product
CN109087329A (zh) * 2018-07-27 2018-12-25 中山大学 基于深度网络的人体三维关节点估计框架及其定位方法
CN111311729A (zh) * 2020-01-18 2020-06-19 西安电子科技大学 一种基于双向投影网络的自然场景三维人体姿态重建方法
CN111753801A (zh) * 2020-07-02 2020-10-09 上海万面智能科技有限公司 人体姿态跟踪与动画生成方法及装置
CA3126250A1 (en) * 2020-07-29 2022-01-29 Uatc, Llc Recovering and simulating pedestrians in the wild
US20220067357A1 (en) * 2020-08-25 2022-03-03 Sony Corporation Full skeletal 3d pose recovery from monocular camera
CN114119912A (zh) * 2020-08-27 2022-03-01 北京陌陌信息技术有限公司 一种人体模型的快速拟合方法、设备和存储介质
CN112200165A (zh) * 2020-12-04 2021-01-08 北京软通智慧城市科技有限公司 模型训练方法、人体姿态估计方法、装置、设备及介质
CN113379904A (zh) * 2021-07-05 2021-09-10 东南大学 一种基于隐空间运动编码的多人人体模型重建方法
CN113538506A (zh) * 2021-07-23 2021-10-22 陕西师范大学 基于全局动态场景信息深度建模的行人轨迹预测方法
CN114219890A (zh) * 2021-11-10 2022-03-22 中国科学院深圳先进技术研究院 一种三维重建方法、装置、设备及计算机存储介质
US20220114786A1 (en) * 2021-12-22 2022-04-14 Guoqing Zhang Enhanced full-body reconstruction using a single camera

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
李豪杰等: "基于视频的人体运动捕捉综述", 《计算机辅助设计与图形学学报》 *
王伟楠等: "结合稀疏表示和深度学习的视频中3D人体姿态估计", 《中国图象图形学报》 *
王文中等: "基于局部先验模型的单目视频人体运动跟踪", 《计算机辅助设计与图形学学报》 *
赵凌燕: "人体步态模型实验研究", 《中国优秀博硕士学位论文全文数据库(博士) 工程科技Ⅱ辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115348392A (zh) * 2022-10-19 2022-11-15 成都唐米科技有限公司 一种基于模板素材的摄像方法及系统
CN115348392B (zh) * 2022-10-19 2023-03-24 成都唐米科技有限公司 一种基于模板素材的摄像方法及系统
CN115862149A (zh) * 2022-12-30 2023-03-28 广州紫为云科技有限公司 一种生成3d人体骨骼关键点数据集的方法及系统
CN116092120A (zh) * 2022-12-30 2023-05-09 北京百度网讯科技有限公司 基于图像的动作确定方法、装置、电子设备及存储介质
CN116092120B (zh) * 2022-12-30 2023-12-05 北京百度网讯科技有限公司 基于图像的动作确定方法、装置、电子设备及存储介质
CN115862149B (zh) * 2022-12-30 2024-03-22 广州紫为云科技有限公司 一种生成3d人体骨骼关键点数据集的方法及系统
CN115908753A (zh) * 2023-01-06 2023-04-04 粤港澳大湾区数字经济研究院(福田) 一种全身人体网格表面重建方法及相关装置
CN115908753B (zh) * 2023-01-06 2023-05-19 粤港澳大湾区数字经济研究院(福田) 一种全身人体网格表面重建方法及相关装置

Also Published As

Publication number Publication date
CN114581613B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN114581613B (zh) 一种基于轨迹约束的人体模型姿态和形状优化方法和系统
Luo et al. 3d human motion estimation via motion compression and refinement
Kanazawa et al. End-to-end recovery of human shape and pose
Rong et al. Frankmocap: Fast monocular 3d hand and body motion capture by regression and integration
CN109636831B (zh) 一种估计三维人体姿态及手部信息的方法
Sun et al. Compositional human pose regression
Akhter et al. Trajectory space: A dual representation for nonrigid structure from motion
US11557391B2 (en) Systems and methods for human pose and shape recovery
Saputra et al. Learning monocular visual odometry through geometry-aware curriculum learning
CN110660017A (zh) 一种基于三维姿态识别的舞谱记录与演示方法
CN112200165A (zh) 模型训练方法、人体姿态估计方法、装置、设备及介质
WO2021197143A1 (zh) 动作迁移方法、装置、设备及存储介质
US11963741B2 (en) Systems and methods for human pose and shape recovery
CN113379904B (zh) 一种基于隐空间运动编码的多人人体模型重建方法
CN113762147B (zh) 人脸表情迁移方法、装置、电子设备及存储介质
Zhou et al. Hemlets posh: Learning part-centric heatmap triplets for 3d human pose and shape estimation
Li et al. Hybrik-x: Hybrid analytical-neural inverse kinematics for whole-body mesh recovery
CN111680573B (zh) 人脸识别方法、装置、电子设备和存储介质
CN114581571A (zh) 基于imu和前向变形场的单目人体重建方法及装置
CN116843834A (zh) 一种三维人脸重建及六自由度位姿估计方法、装置及设备
CN114550292A (zh) 一种基于神经运动控制的高物理真实感人体运动捕捉方法
CN111738092B (zh) 一种基于深度学习的恢复被遮挡人体姿态序列方法
CN115965765A (zh) 一种基于神经变形的可变形场景中人体运动捕捉方法
CN114663983A (zh) 网状拓扑结构获取方法、装置、电子设备及存储介质
JP2022036075A (ja) 画像のラベルなしペアを使用して物体の視点を伝達するようにニューラルネットワークを訓練するための方法、及び対応するシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant