CN110992454B - 基于深度学习的实时动作捕捉和三维动画生成方法与装置 - Google Patents

基于深度学习的实时动作捕捉和三维动画生成方法与装置 Download PDF

Info

Publication number
CN110992454B
CN110992454B CN201911206474.0A CN201911206474A CN110992454B CN 110992454 B CN110992454 B CN 110992454B CN 201911206474 A CN201911206474 A CN 201911206474A CN 110992454 B CN110992454 B CN 110992454B
Authority
CN
China
Prior art keywords
skeleton
key points
dimensional
human body
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911206474.0A
Other languages
English (en)
Other versions
CN110992454A (zh
Inventor
杨帆
潘鑫淼
郝强
白立群
胡建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoshi Technology Jiangsu Co ltd
Original Assignee
Nanjing Zhenshi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhenshi Intelligent Technology Co Ltd filed Critical Nanjing Zhenshi Intelligent Technology Co Ltd
Priority to CN201911206474.0A priority Critical patent/CN110992454B/zh
Publication of CN110992454A publication Critical patent/CN110992454A/zh
Application granted granted Critical
Publication of CN110992454B publication Critical patent/CN110992454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种基于深度学习的实时动作捕捉和三维动画生成方法与装置,包括:接收人体动作视频帧;对人体动作视频帧进行插值处理;通过三维人体关键点检测模型进行检测,预测出人体的25个关键点的三维坐标;基于划分的层级进行动作分解,将关键点的三维坐标转换为骨骼绕关键点的旋转四元数;三维动画模型生成;使用旋转四元数驱动三维动画模型;对人体动作视频帧序列按照前述方式重复处理,以设定的帧率将动画图片连接起来,输出与人体动作同步的三维动画视频。本发明的方法只需可见光摄像头结合深度学习模型即可实时预测人体动作并驱动三维模型,成本低、实时性好。

Description

基于深度学习的实时动作捕捉和三维动画生成方法与装置
技术领域
本发明涉及计算机图像处理领域,具体而言涉及一种基于深度学习的实时动作捕捉和三维动画生成方案。
背景技术
现有技术的三维动画制作过程中往往先对演员的动作进行捕捉,再驱动三维动画模型做出相应动作,以达到逼真自然的效果。传统的方法需要演员穿戴装有传感器的设备,再将获取的动作信息渲染到三维动画模型并输出三维动画。这种人体动作驱动三维模型的方法存在两方面弊端,其一是动作捕捉设备不仅价格高昂、操作复杂,还会由于穿戴不适影响演员的表演,且设备的安装与使用受到场地的制约;其二是捕捉到的动作数据需专业人员通过专业软件进行后期渲染合成动画,工序繁琐耗时、人工成本较高,无法做到实时输出。
发明内容
本发明目的在于提供一种使用可见光摄像头结合深度学习模型实时预测人体动作并驱动三维模型的方法。
为实现上述目的,本发明所使用的技术方案如下:
基于深度学习的实时动作捕捉和三维动画生成方法,包括:
接收通过可见光摄像装置获取的人体动作视频帧;
对人体动作视频帧进行插值处理;
通过三维人体关键点检测模型对插值处理后的视频帧进行检测,预测出人体的25个关键点的三维坐标;
根据预设规则将关键点进行前后层级划分,并基于层级进行人体动作分解,将关键点的三维坐标转换为骨骼绕关键点的旋转四元数;
三维动画模型生成,包括建立动画角色的骨骼蒙皮模型;
使用前述的旋转四元数驱动三维动画模型;
对人体动作视频帧序列按照前述方式重复处理,以设定的帧率将动画图片连接起来,输出与人体动作同步的三维动画视频。
优选地,所述的人体动作视频帧的插值处理包括:
对获取的人体动作视频帧使用双线性插值算法,使其放缩到符合三维人体关键点检测模型的像素值。
优选地,所述的三维人体关键点检测模型为基于深度卷积神经网络的三维人体关键点检测模型,其通过标记三维关键点坐标的人体图像数据集进行训练,其中:
人体图像数据集为[In,(xn1,yn1,zn1,xn2,yn2,zn2,...,xn25,yn25,zn25)],其中In为第n幅包含人体的图像;(xnm,ynm,znm)(m=1,2,...,25)为第n幅图的人体第m个关键点的三维坐标;n=1,2,...,N,N为总数据量;
通过深度卷积神经网络进行训练的过程中,使用的损失函数为:
Figure BDA0002297043910000021
其中
Figure BDA0002297043910000022
是指模型对某一批次数据的第b个训练样本Ib预测的第m个关键点的三维坐标,B为批次大小。
优选地,所述的前后层级划分的操作具体包括:
将25个人体关键点划分层级,其中从上到下表示关键点的前后层级;
其中25个人体关键点分别包括:
脊柱底,作为根关键点并据此划分的三个分支
第一分支:左髋、左膝、左踝与左脚;
第二分支:右髋、右膝、右踝与右脚;
第三分支:脊柱中、脊柱顶;
其第三分支具有以脊柱顶为根关键点划分的第一子分支、第二子分支以及第三子分支:
第一子分支:颈与头;
第二子分支:左肩、左肘、左腕、左手与左拇指,以及左指尖;
第三子分支:右肩、右肘、右腕、右手与右拇指,以及右指尖。
优选地,对于任意一骨骼B,骨骼B绕与之相连的前一层级关键点P旋转的角度由关键点P与后两个层级关键点P′和P″坐标处理得到,计算方式为:
骨骼B的前方向向量:
Figure BDA0002297043910000031
骨骼B的上方向向量:
Figure BDA0002297043910000032
骨骼B的右方向向量:
Figure BDA0002297043910000033
再求解骨骼旋转角,具体包括:
对三个方向向量进行归一化:
Figure BDA0002297043910000034
其中,
Figure BDA0002297043910000037
为归一化的前方向向量,
Figure BDA0002297043910000038
为归一化的上方向向量,
Figure BDA0002297043910000039
为归一化的右方向向量,则旋转矩阵为
Figure BDA0002297043910000035
将旋转矩阵转化为旋转四元数Q;
每个骨骼旋转是在前一层级骨骼旋转基础上进行的,设骨骼B前一层级骨骼绕其前一层级关键点的旋转四元数为Qbefore,则在前一层级骨骼旋转基础上,骨骼B绕关键点P的相对旋转四元数为
Figure BDA0002297043910000036
若某骨骼前一层级关键点为脊柱底根关键点,则相对旋转四元数为绝对四元数。
优选地,使用旋转四元数驱动三维动画模型的操作包括:
根据检测输出的人体的脊柱底根关键点确定动画模型的当前位置;
根据关键点计算得到的各骨骼的相对旋转四元数,从脊柱底根关键点开始,使用FK前向动力学方式驱动动画模型的各个骨骼绕关节旋转,再利用LBS线性混合蒙皮实现骨骼控制蒙皮变形,渲染姿势进行更新人体动画模型,得到一帧动画图像。
根据本发明还提出一种基于深度学习的实时动作捕捉和三维动画生成装置,包括:
用于接收通过可见光摄像装置获取的人体动作视频帧的模块;
用于对人体动作视频帧进行插值处理的模块;
用于通过三维人体关键点检测模型对插值处理后的视频帧进行检测,预测出人体的25个关键点的三维坐标的模块;
用于根据预设规则将关键点进行前后层级划分,并基于层级进行人体动作分解,将关键点的三维坐标转换为骨骼绕关键点的旋转四元数的模块;
用于三维动画模型生成的模块,包括建立动画角色的骨骼蒙皮模型;
用于使用前述的旋转四元数驱动三维动画模型的模块;
用于对人体动作视频帧序列按照前述方式重复处理,以设定的帧率将动画图片连接起来,输出与人体动作同步的三维动画视频的模块。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是本发明的基于深度学习的实时动作捕捉和三维动画生成方法的流程示例;
图2是本发明使用的人体关键点示例。
图3是本发明使用的三维人体关键点检测模型结构图。
图4是本发明使用的人体关键点层级图。
图5是本发明使用的骨骼旋转分解示例。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
结合附图所示,本发明旨在针对现有的人体动作驱动三维模型的方法往往需要穿戴专业设备获取人体动作,这些设备价格高昂、使用繁琐,并且还需专业人员配合专业软件进行后期渲染合成动画,工序复杂耗时的问题,提出一种基于深度学习的实时动作捕捉和三维动画生成方法,只需可见光摄像头结合深度学习模型即可实时预测人体动作并驱动三维模型,成本低、实时性好。
根据本发明示例性实施例的基于深度学习的实时动作捕捉和三维动画生成方法,采用深度学习模型实时捕捉人体关键点的三维坐标,使用可见光摄像头获取人体动作视频,通过深度学习模型预测视频每一帧图像中的人体关键点的三维坐标,根据坐标计算出三维模型对应关节的旋转四元数,驱动三维模型做出相应动作并输出动画。
结合图1-5所示,下面更加具体的介绍本发明示例性实施的三维动画生成的过程,其具体操作包括:
接收通过可见光摄像装置获取的人体动作视频帧;
对人体动作视频帧进行插值处理;
通过三维人体关键点检测模型对插值处理后的视频帧进行检测,预测出人体的25个关键点的三维坐标;
根据预设规则将关键点进行前后层级划分,并基于层级进行人体动作分解,将关键点的三维坐标转换为骨骼绕关键点的旋转四元数;
三维动画模型生成,包括建立动画角色的骨骼蒙皮模型;
使用前述的旋转四元数驱动三维动画模型;
对人体动作视频帧序列按照前述方式重复处理,以设定的帧率将动画图片连接起来,输出与人体动作同步的三维动画视频。
进一步地,所述的人体动作视频帧的插值处理包括:
对获取的人体动作视频帧使用双线性插值算法,使其放缩到符合三维人体关键点检测模型的像素值。
例如,根据三维人体关键点检测模型的输入图片,将摄像头获取的当前视频帧使用双线性插值算法放缩到640像素×320像素大小,再输入到关键点检测模型中。
本发明的实施例中,三维人体关键点检测模型为基于深度卷积神经网络的三维人体关键点检测模型,其通过标记三维关键点坐标的人体图像数据集进行训练,其中:
人体图像数据集为[In,(xn1,yn1,zn1,xn2,yn2,zn2,...,xn25,yn25,zn25)],其中In为第n幅包含人体的图像;(xnm,ynm,znm)(m=1,2,...,25)为第n幅图的人体第m个关键点的三维坐标;n=1,2,...,N,N为总数据量;
通过深度卷积神经网络进行训练的过程中,使用的损失函数为:
Figure BDA0002297043910000061
其中
Figure BDA0002297043910000062
是指模型对某一批次数据的第b个训练样本Ib预测的第m个关键点的三维坐标,B为批次大小。
如图3所示,检测模型由卷积层、最大值池化层、全局均值池化层和全连接层组成,卷积层的卷积核大小为3×3,步长为1,补零方式为Same Padding,卷积核个数标注在图3中各卷积层的括号内,卷积层后使用ReLU激活函数进行激活;最大值池化层的池化窗口大小为2×2、步长为2;全连接层的神经元数为75。
三维人体关键点检测模型的输入为含有人体的图像(宽为640像素、高为320像素),输出为25个人体关键点的三维坐标。与人体运动相关的主要关节位置定义为人体关键点。
进一步地,所述的前后层级划分的操作具体包括:
将25个人体关键点划分层级,其中从上到下表示关键点的前后层级;
其中,25个人体关键点分别包括:
脊柱底,作为根关键点并据此划分的三个分支
第一分支:左髋、左膝、左踝与左脚;
第二分支:右髋、右膝、右踝与右脚;
第三分支:脊柱中、脊柱顶;
其第三分支具有以脊柱顶为根关键点划分的第一子分支、第二子分支以及第三子分支:
第一子分支:颈与头;
第二子分支:左肩、左肘、左腕、左手与左拇指,以及左指尖;
第三子分支:右肩、右肘、右腕、右手与右拇指,以及右指尖。
如图4所示,将25个人体关键点划分层级后,进一步将人体动作可分解为,固定与各骨骼相连的前一层级关键点,骨骼依次绕xyz轴从基准状态各旋转某一角度,骨骼基准状态是指前一层级关键点到骨骼的方向为y轴方向。例如如左小腿的运动可以视为“左膝”和“左踝”之间的骨骼绕“左膝”旋转。
结合图5所示,进一步地,对于任意一骨骼B,骨骼B绕与之相连的前一层级关键点P旋转的角度由关键点P与后两个层级关键点P′和P″坐标处理得到,计算方式为:
骨骼B的前方向向量:
Figure BDA0002297043910000071
骨骼B的上方向向量:
Figure BDA0002297043910000072
骨骼B的右方向向量:
Figure BDA0002297043910000073
再求解骨骼旋转角,具体包括:
对三个方向向量进行归一化:
Figure BDA0002297043910000074
其中,
Figure BDA0002297043910000075
为归一化的前方向向量,
Figure BDA0002297043910000076
为归一化的上方向向量,
Figure BDA0002297043910000077
为归一化的右方向向量,则旋转矩阵为
Figure BDA0002297043910000081
将旋转矩阵转化为旋转四元数Q。
每个骨骼旋转是在前一层级骨骼旋转基础上进行的,设骨骼B前一层级骨骼绕其前一层级关键点的旋转四元数为Qbefore,则在前一层级骨骼旋转基础上,骨骼B绕关键点P的相对旋转四元数为
Figure BDA0002297043910000082
若某骨骼前一层级关键点为脊柱底根关键点,则相对旋转四元数为绝对四元数。由此,可通过旋转四元数来驱动三维动画模型。
本发明的实施例中,三维动画模型的设计与生成,可以采用现有的3D(三维)建模软件来实现,例如3DMax、SolidWorks,从而建立动画角色骨骼蒙皮模型。具体包括:定义模型的关键点(与25各人体关键点相对应)位置、骨骼初始姿态、蒙皮网格顶点,并将蒙皮顶点绑定在骨骼上;然后设置关键点位置约束、骨骼旋转约束、放缩约束和位置约束;最后,绘制蒙皮素材,从而生成动画对象角色的骨骼蒙皮模型。
进一步地,本发明使用旋转四元数驱动三维动画模型的操作包括:
根据检测输出的人体的脊柱底根关键点确定动画模型的当前位置;
根据关键点计算得到的各骨骼的相对旋转四元数,从脊柱底根关键点开始,使用FK前向动力学(Forwards Kinematics)方式驱动动画模型的各个骨骼绕关节旋转,再利用LBS线性混合蒙皮(Linear Blending Skinning)实现骨骼控制蒙皮变形,渲染姿势进行更新人体动画模型,得到一帧动画图像。
如前述的,最后再通过对摄像机采集的视频帧(人体动作视频帧序列)按照前述方式重复处理,以设定的帧率将动画图片连接起来,输出与人体动作同步的三维动画视频。
结合图示,本发明的示例性实施过程还可以配置如下:
{基于深度学习的实时动作捕捉和三维动画生成装置}
一种基于深度学习的实时动作捕捉和三维动画生成装置,包括:
用于接收通过可见光摄像装置获取的人体动作视频帧的模块;
用于对人体动作视频帧进行插值处理的模块;
用于通过三维人体关键点检测模型对插值处理后的视频帧进行检测,预测出人体的25个关键点的三维坐标的模块;
用于根据预设规则将关键点进行前后层级划分,并基于层级进行人体动作分解,将关键点的三维坐标转换为骨骼绕关键点的旋转四元数的模块;
用于三维动画模型生成的模块,包括建立动画角色的骨骼蒙皮模型;
用于使用前述的旋转四元数驱动三维动画模型的模块;
用于对人体动作视频帧序列按照前述方式重复处理,以设定的帧率将动画图片连接起来,输出与人体动作同步的三维动画视频的模块。
其中,前述关键点的三维坐标到骨骼绕关键点的旋转四元数的转换操作被设置成按照下述方式操作:
对于任意一骨骼B,骨骼B绕与之相连的前一层级关键点P旋转的角度由关键点P与后两个层级关键点P′和P″坐标处理得到,计算方式为:
骨骼B的前方向向量:
Figure BDA0002297043910000091
骨骼B的上方向向量:
Figure BDA0002297043910000092
骨骼B的右方向向量:
Figure BDA0002297043910000093
再求解骨骼旋转角,具体包括:
对三个方向向量进行归一化:
Figure BDA0002297043910000094
其中,
Figure BDA0002297043910000097
为归一化的前方向向量,
Figure BDA0002297043910000098
为归一化的上方向向量,
Figure BDA0002297043910000099
为归一化的右方向向量,则旋转矩阵为
Figure BDA0002297043910000095
将旋转矩阵转化为旋转四元数Q;
每个骨骼旋转是在前一层级骨骼旋转基础上进行的,设骨骼B前一层级骨骼绕其前一层级关键点的旋转四元数为Qbefore,则在前一层级骨骼旋转基础上,骨骼B绕关键点P的相对旋转四元数为
Figure BDA0002297043910000096
若某骨骼前一层级关键点为脊柱底根关键点,则相对旋转四元数为绝对四元数。
其中,前述的使用旋转四元数驱动三维动画模型的操作包括:
根据检测输出的人体的脊柱底根关键点确定动画模型的当前位置;
根据关键点计算得到的各骨骼的相对旋转四元数,从脊柱底根关键点开始,使用FK前向动力学方式驱动动画模型的各个骨骼绕关节旋转,再利用LBS线性混合蒙皮实现骨骼控制蒙皮变形,渲染姿势进行更新人体动画模型,得到一帧动画图像。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (9)

1.一种基于深度学习的实时动作捕捉和三维动画生成方法,其特征在于,包括:
接收通过可见光摄像装置获取的人体动作视频帧;
对人体动作视频帧进行插值处理;
通过三维人体关键点检测模型对插值处理后的视频帧进行检测,预测出人体的25个关键点的三维坐标;
根据预设规则将关键点进行前后层级划分,并基于层级进行人体动作分解,将关键点的三维坐标转换为骨骼绕关键点的旋转四元数;
三维动画模型生成,包括建立动画角色的骨骼蒙皮模型;
使用前述的旋转四元数驱动三维动画模型;
对人体动作视频帧序列按照前述方式重复处理,以设定的帧率将动画图片连接起来,输出与人体动作同步的三维动画视频;
其中,所述的前后层级划分的操作具体包括:
将25个人体关键点划分层级,其中从上到下表示关键点的前后层级;
其中25个人体关键点分别包括:
脊柱底,作为根关键点并据此划分的三个分支
第一分支:左髋、左膝、左踝与左脚;
第二分支:右髋、右膝、右踝与右脚;
第三分支:脊柱中、脊柱顶;
其第三分支具有以脊柱顶为根关键点划分的第一子分支、第二子分支以及第三子分支:
第一子分支:颈与头;
第二子分支:左肩、左肘、左腕、左手与左拇指,以及左指尖;
第三子分支:右肩、右肘、右腕、右手与右拇指,以及右指尖。
2.根据权利要求1所述的基于深度学习的实时动作捕捉和三维动画生成方法,其特征在于,所述的人体动作视频帧的插值处理包括:
对获取的人体动作视频帧使用双线性插值算法,使其放缩到符合三维人体关键点检测模型的像素值。
3.根据权利要求1所述的基于深度学习的实时动作捕捉和三维动画生成方法,其特征在于,所述的三维人体关键点检测模型为基于深度卷积神经网络的三维人体关键点检测模型,其通过标记三维关键点坐标的人体图像数据集进行训练,其中:
人体图像数据集为
Figure DEST_PATH_IMAGE001
,其中
Figure 680014DEST_PATH_IMAGE002
为第
Figure DEST_PATH_IMAGE003
幅包含人 体的图像;
Figure 26682DEST_PATH_IMAGE004
为第
Figure 219634DEST_PATH_IMAGE003
幅图的人体第
Figure DEST_PATH_IMAGE005
个关键点的三维坐标;
Figure 44371DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 835741DEST_PATH_IMAGE008
为总数据量;
通过深度卷积神经网络进行训练的过程中,使用的损失函数为:
Figure DEST_PATH_IMAGE009
,其中
Figure 87730DEST_PATH_IMAGE010
是指模型对某一批 次数据的第
Figure DEST_PATH_IMAGE011
个训练样本
Figure 290349DEST_PATH_IMAGE012
预测的第
Figure 387618DEST_PATH_IMAGE005
个关键点的三维坐标,
Figure DEST_PATH_IMAGE013
为批次大小。
4.根据权利要求1所述的基于深度学习的实时动作捕捉和三维动画生成方法,其特征在于,所述的人体动作分解的操作包括:
固定与各骨骼相连的前一层级关键点,骨骼依次绕xyz轴从骨骼基准状态各旋转某一角度,其中骨骼基准状态是指前一层级关键点到骨骼的方向为y轴方向。
5.根据权利要求4所述的基于深度学习的实时动作捕捉和三维动画生成方法,其特征 在于,对于任意一骨骼
Figure 33494DEST_PATH_IMAGE013
,骨骼
Figure 925226DEST_PATH_IMAGE013
绕与之相连的前一层级关键点
Figure 843504DEST_PATH_IMAGE014
旋转的角度由关键点
Figure 728152DEST_PATH_IMAGE014
与 后两个层级关键点
Figure DEST_PATH_IMAGE015
Figure 477802DEST_PATH_IMAGE016
坐标处理得到,计算方式为:
骨骼
Figure DEST_PATH_IMAGE017
的前方向向量:
Figure 619065DEST_PATH_IMAGE018
骨骼
Figure 493480DEST_PATH_IMAGE017
的上方向向量:
Figure DEST_PATH_IMAGE019
骨骼
Figure 981486DEST_PATH_IMAGE017
的右方向向量:
Figure 523326DEST_PATH_IMAGE020
再求解骨骼旋转角,具体包括:
对三个方向向量进行归一化:
Figure DEST_PATH_IMAGE021
Figure 101069DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
其中,
Figure 993939DEST_PATH_IMAGE024
为归一化的前方向向量,
Figure DEST_PATH_IMAGE025
为归一化的上方向向量,
Figure 813865DEST_PATH_IMAGE026
为归一化的右方向向 量,则旋转矩阵为
Figure DEST_PATH_IMAGE027
,将旋转矩阵转化为旋转四元数
Figure 492102DEST_PATH_IMAGE028
每个骨骼旋转是在前一层级骨骼旋转基础上进行的,设骨骼
Figure 896539DEST_PATH_IMAGE017
前一层级骨骼绕其前一 层级关键点的旋转四元数为
Figure DEST_PATH_IMAGE029
,则在前一层级骨骼旋转基础上,骨骼
Figure 542284DEST_PATH_IMAGE017
绕关键点
Figure 575355DEST_PATH_IMAGE030
的 相对旋转四元数为
Figure DEST_PATH_IMAGE031
,若某骨骼前一层级关键点为脊柱底根关键点,则 相对旋转四元数为绝对四元数。
6.根据权利要求5所述的基于深度学习的实时动作捕捉和三维动画生成方法,其特征在于,使用旋转四元数驱动三维动画模型的操作包括:
根据检测输出的人体的脊柱底根关键点确定动画模型的当前位置;
根据关键点计算得到的各骨骼的相对旋转四元数,从脊柱底根关键点开始,使用FK前向动力学方式驱动动画模型的各个骨骼绕关节旋转,再利用LBS线性混合蒙皮实现骨骼控制蒙皮变形,渲染姿势进行更新人体动画模型,得到一帧动画图像。
7.一种基于深度学习的实时动作捕捉和三维动画生成装置,其特征在于,包括:
用于接收通过可见光摄像装置获取的人体动作视频帧的模块;
用于对人体动作视频帧进行插值处理的模块;
用于通过三维人体关键点检测模型对插值处理后的视频帧进行检测,预测出人体的25个关键点的三维坐标的模块;
用于根据预设规则将关键点进行前后层级划分,并基于层级进行人体动作分解,将关键点的三维坐标转换为骨骼绕关键点的旋转四元数的模块;
用于三维动画模型生成的模块,包括建立动画角色的骨骼蒙皮模型;
用于使用前述的旋转四元数驱动三维动画模型的模块;
用于对人体动作视频帧序列按照前述方式重复处理,以设定的帧率将动画图片连接起来,输出与人体动作同步的三维动画视频的模块;
其中,所述的前后层级划分的操作具体包括:
将25个人体关键点划分层级,其中从上到下表示关键点的前后层级;
其中25个人体关键点分别包括:
脊柱底,作为根关键点并据此划分的三个分支
第一分支:左髋、左膝、左踝与左脚;
第二分支:右髋、右膝、右踝与右脚;
第三分支:脊柱中、脊柱顶;
其第三分支具有以脊柱顶为根关键点划分的第一子分支、第二子分支以及第三子分支:
第一子分支:颈与头;
第二子分支:左肩、左肘、左腕、左手与左拇指,以及左指尖;
第三子分支:右肩、右肘、右腕、右手与右拇指,以及右指尖。
8.根据权利要求7所述的基于深度学习的实时动作捕捉和三维动画生成装置,其特征在于,所述关键点的三维坐标到骨骼绕关键点的旋转四元数的转换操作被设置成按照下述方式操作:
对于任意一骨骼
Figure 419683DEST_PATH_IMAGE013
,骨骼
Figure 11333DEST_PATH_IMAGE013
绕与之相连的前一层级关键点
Figure 613215DEST_PATH_IMAGE014
旋转的角度由关键点
Figure 197780DEST_PATH_IMAGE014
与后 两个层级关键点
Figure 568719DEST_PATH_IMAGE015
Figure 829805DEST_PATH_IMAGE016
坐标处理得到,计算方式为:
骨骼
Figure 653404DEST_PATH_IMAGE017
的前方向向量:
Figure 41660DEST_PATH_IMAGE018
骨骼
Figure 267105DEST_PATH_IMAGE017
的上方向向量:
Figure 200557DEST_PATH_IMAGE019
骨骼
Figure 777032DEST_PATH_IMAGE017
的右方向向量:
Figure 703400DEST_PATH_IMAGE020
再求解骨骼旋转角,具体包括:
对三个方向向量进行归一化:
Figure 783351DEST_PATH_IMAGE021
Figure 185907DEST_PATH_IMAGE022
Figure 984099DEST_PATH_IMAGE023
其中,
Figure 714158DEST_PATH_IMAGE024
为归一化的前方向向量,
Figure 399348DEST_PATH_IMAGE025
为归一化的上方向向量,
Figure 189449DEST_PATH_IMAGE026
为归一化的右方向向 量,则旋转矩阵为
Figure 474937DEST_PATH_IMAGE027
,将旋转矩阵转化为旋转四元数
Figure 743108DEST_PATH_IMAGE028
每个骨骼旋转是在前一层级骨骼旋转基础上进行的,设骨骼
Figure 46919DEST_PATH_IMAGE017
前一层级骨骼绕其前一 层级关键点的旋转四元数为
Figure 7922DEST_PATH_IMAGE029
,则在前一层级骨骼旋转基础上,骨骼
Figure 515126DEST_PATH_IMAGE017
绕关键点
Figure 586987DEST_PATH_IMAGE030
的 相对旋转四元数为
Figure 512349DEST_PATH_IMAGE031
,若某骨骼前一层级关键点为脊柱底根关键点,则 相对旋转四元数为绝对四元数。
9.根据权利要求8所述的基于深度学习的实时动作捕捉和三维动画生成装置,其特征在于,使用旋转四元数驱动三维动画模型的操作包括:
根据检测输出的人体的脊柱底根关键点确定动画模型的当前位置;
根据关键点计算得到的各骨骼的相对旋转四元数,从脊柱底根关键点开始,使用FK前向动力学方式驱动动画模型的各个骨骼绕关节旋转,再利用LBS线性混合蒙皮实现骨骼控制蒙皮变形,渲染姿势进行更新人体动画模型,得到一帧动画图像。
CN201911206474.0A 2019-11-29 2019-11-29 基于深度学习的实时动作捕捉和三维动画生成方法与装置 Active CN110992454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911206474.0A CN110992454B (zh) 2019-11-29 2019-11-29 基于深度学习的实时动作捕捉和三维动画生成方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911206474.0A CN110992454B (zh) 2019-11-29 2019-11-29 基于深度学习的实时动作捕捉和三维动画生成方法与装置

Publications (2)

Publication Number Publication Date
CN110992454A CN110992454A (zh) 2020-04-10
CN110992454B true CN110992454B (zh) 2020-07-17

Family

ID=70088697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911206474.0A Active CN110992454B (zh) 2019-11-29 2019-11-29 基于深度学习的实时动作捕捉和三维动画生成方法与装置

Country Status (1)

Country Link
CN (1) CN110992454B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783662B (zh) * 2020-06-30 2022-02-08 北京字节跳动网络技术有限公司 姿态估计方法、估计模型训练方法、装置、介质及设备
CN111753801A (zh) * 2020-07-02 2020-10-09 上海万面智能科技有限公司 人体姿态跟踪与动画生成方法及装置
CN111985359A (zh) * 2020-08-04 2020-11-24 山东金东数字创意股份有限公司 基于人体骨骼运动捕捉的识别控制系统和方法
CN112069979B (zh) * 2020-09-03 2024-02-02 浙江大学 一种实时动作识别人机交互系统
CN112257642B (zh) * 2020-10-30 2024-03-15 上海创屹科技有限公司 人体连续动作相似性评价方法及评价装置
CN112686976B (zh) * 2020-12-31 2024-10-01 咪咕文化科技有限公司 骨骼动画数据的处理方法、装置及通信设备
CN112634411B (zh) * 2021-01-06 2023-04-07 上海欣子信息科技有限公司 一种动画生成方法、系统及其可读介质
CN113592986B (zh) * 2021-01-14 2023-05-23 腾讯科技(深圳)有限公司 基于神经网络的动作生成方法、装置及计算设备
CN113033501A (zh) * 2021-05-06 2021-06-25 泽恩科技有限公司 一种基于关节四元数的人体分类方法及装置
CN113409430B (zh) * 2021-06-01 2023-06-23 北京百度网讯科技有限公司 可驱动三维人物生成方法、装置、电子设备及存储介质
CN113420719B (zh) * 2021-07-20 2022-07-22 北京百度网讯科技有限公司 生成动作捕捉数据的方法、装置、电子设备以及存储介质
CN113591709B (zh) * 2021-07-30 2022-09-23 北京百度网讯科技有限公司 动作识别方法、装置、设备、介质和产品
CN113989928B (zh) * 2021-10-27 2023-09-05 南京硅基智能科技有限公司 一种动作捕捉和重定向方法
CN114283228A (zh) * 2021-11-16 2022-04-05 清华大学 一种基于单目彩色相机的虚拟人物驱动方法及系统
CN114519867A (zh) * 2022-02-21 2022-05-20 首都体育学院 一种基于差分时间三维人体结构化深度回归模型的身体活动强度估计方法
CN116638512A (zh) * 2023-05-30 2023-08-25 北京盈锋科技有限公司 基于视频驱动数字人肢体动作的方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376405A (zh) * 2018-02-22 2018-08-07 国家体育总局体育科学研究所 基于双体感追踪系统的人体运动捕捉系统及捕捉方法
CN110398256A (zh) * 2019-06-19 2019-11-01 北京摩高科技有限公司 一种人体单一姿态的初始校正方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005201322B2 (en) * 2004-03-26 2009-11-05 Sri Sports Limited Golf swing-measuring system
CN104463788B (zh) * 2014-12-11 2018-02-16 西安理工大学 基于运动捕捉数据的人体运动插值方法
CN104700433B (zh) * 2015-03-24 2016-04-27 中国人民解放军国防科学技术大学 一种基于视觉的实时人体全身体运动捕捉方法及其系统
CN106296598B (zh) * 2016-07-29 2019-11-26 厦门美图之家科技有限公司 三维姿态处理方法、系统及拍摄终端
CN108829232B (zh) * 2018-04-26 2021-07-23 深圳市同维通信技术有限公司 基于深度学习的人体骨骼关节点三维坐标的获取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376405A (zh) * 2018-02-22 2018-08-07 国家体育总局体育科学研究所 基于双体感追踪系统的人体运动捕捉系统及捕捉方法
CN110398256A (zh) * 2019-06-19 2019-11-01 北京摩高科技有限公司 一种人体单一姿态的初始校正方法

Also Published As

Publication number Publication date
CN110992454A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110992454B (zh) 基于深度学习的实时动作捕捉和三维动画生成方法与装置
CN112150638B (zh) 虚拟对象形象合成方法、装置、电子设备和存储介质
US6163322A (en) Method and apparatus for providing real-time animation utilizing a database of postures
CN111460875B (zh) 图像处理方法及装置、图像设备及存储介质
KR102577472B1 (ko) 동작 인식을 위한 가상 학습 데이터를 생성하는 방법 및 장치
CN111861872B (zh) 图像换脸方法、视频换脸方法、装置、设备和存储介质
US20030020718A1 (en) Approximating motion using a three-dimensional model
CN104376309B (zh) 一种基于手势识别的手势运动基元模型结构化方法
US8180613B1 (en) Wrinkles on fabric software
JP2019204476A (ja) 画像生成装置、画像生成方法及びプログラム
CN112734632B (zh) 图像处理方法、装置、电子设备和可读存储介质
CN109509241A (zh) 角色动画中基于四元数的骨骼重定向方法
WO2022197024A1 (en) Point-based modeling of human clothing
CN115951784B (zh) 一种基于双神经辐射场的穿衣人体运动捕捉和生成方法
CN107038430B (zh) 一种构造人体姿态数据样本的方法及其装置
JPH0887609A (ja) 画像処理装置
CN111968206B (zh) 动画对象的处理方法、装置、设备及存储介质
TW201243766A (en) Motion-coded image, producing module, image processing module and motion displaying module
Cha et al. Mobile. Egocentric human body motion reconstruction using only eyeglasses-mounted cameras and a few body-worn inertial sensors
CN110853131A (zh) 一种用于行为识别的虚拟视频数据生成方法
Stricker et al. From interactive to adaptive augmented reality
JP7251003B2 (ja) 細かいしわを有する顔メッシュ変形
JP3209196B2 (ja) 多関節物体の表示方法及び表示装置
Balasubramanyam et al. Kinematically admissible editing of the measured sensor motion data for virtual reconstruction of plausible human movements
Bakken Using synthetic data for planning, development and evaluation of shape-from-silhouette based human motion capture methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: No.568 longmian Avenue, gaoxinyuan, Jiangning District, Nanjing City, Jiangsu Province, 211000

Patentee after: Xiaoshi Technology (Jiangsu) Co.,Ltd.

Address before: No.568 longmian Avenue, gaoxinyuan, Jiangning District, Nanjing City, Jiangsu Province, 211000

Patentee before: NANJING ZHENSHI INTELLIGENT TECHNOLOGY Co.,Ltd.