CN115222882A - 基于人体运动视频的模型构建方法、装置及存储介质 - Google Patents

基于人体运动视频的模型构建方法、装置及存储介质 Download PDF

Info

Publication number
CN115222882A
CN115222882A CN202210826109.5A CN202210826109A CN115222882A CN 115222882 A CN115222882 A CN 115222882A CN 202210826109 A CN202210826109 A CN 202210826109A CN 115222882 A CN115222882 A CN 115222882A
Authority
CN
China
Prior art keywords
human body
dimensional
detected
model
skeleton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210826109.5A
Other languages
English (en)
Inventor
何辰立
董博
葛昊
陆进
刘玉宇
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210826109.5A priority Critical patent/CN115222882A/zh
Publication of CN115222882A publication Critical patent/CN115222882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能技术领域,揭露一种基于人体运动视频的模型构建方法,包括获取待检测人体的骨骼运动视频,并将待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;通过预训练获得的ResNet网络的骨干网络和分支网络,根据骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;进而获取待检测人体的三维骨骼特征向量;将待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型。本发明能够有效提高人体三维模型中关节点的位置精确度,提高人体三维模型预测效率,进而达到获得更加平滑的三维人体模型的技术效果。

Description

基于人体运动视频的模型构建方法、装置及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人体运动视频的模型构建方法、装置及计算机可读存储介质。
背景技术
在计算机视觉领域中,人体三维重建的研究非常热门。人体三维重建可以提供人体的几何信息和运动信息,广泛应用于人机交互、元宇宙、人体行为识别以及增强现实等领域。而现有的人体三维运动重建是通过传感器所捕捉的数据中估计人体的位资,然后根据位资进行人体三维运动重建;并通过将深度学习的方法与人体三维运动重建相结合,提升了人体三维运动重建的性能。
但是,仍然存在弊端如下:现有的人体三维运动重建的网络结构的人体特征表示方法不合理,导致重建的人体模型存在运动不连续产生人体模型抖动现象。
因此,亟需一种生成平滑度更高的三维人体模型的方法。
发明内容
本发明提供一种基于人体运动视频的模型构建方法、系统、电子设备及存储介质,其主要目的在于解决现有技术中存在的至少一个问题。
为实现上述目的,本发明提供的一种基于人体运动视频的模型构建方法,应用于电子装置,包括:获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;
通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量;
将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型。
进一步,优选的,所述待检测人体的骨骼特征向量的获取方法,包括,
通过ResNet网络模型的骨干网络,根据所述骨骼运动图片序列,确定骨骼运动特征和关键点热力图;
根据所述关键点热力图,获取骨骼关节点的关键点坐标;
根据所述骨骼关节点的关键点坐标,确定待检测人体的骨骼特征向量。
进一步,优选的,所述人体三维生成模型的训练方法包括:
将各预测时序的人体的三维骨骼特征向量输入时序卷积网络,得到各预测时序的预测人体三维骨骼特征,基于预测时序的预测人体三维骨骼特征与所述预测时序对应的实际人体三维骨骼特征,训练时序卷积网络,直至预测人体三维骨骼特征与实际人体三维骨骼特征的损失函数满足预设标准,获取训练好的时序卷积网络;
将时序卷积网络输出的各预测时序的骨骼预测特征输入分类器,得到各预测时序的人体三维模型,基于各预测时序的人体三维模型以及所述预测时序对应的实际人体三维模型,训练分类器;直至预测时序的人体三维模型以及所述预测时序对应的实际人体三维模型的损失函数满足预设标准,获取训练好的分类器,进而获取训练好的人体三维生成模型。
进一步,优选的,所述预测时序对应的实际人体三维模型的损失函数Lg,通过以下公式获取:
Lg=L3D+L2D+LSMPL+Ladv+Lmotion+LskeNet
其中,L3D是3D关节点的损失函数;L2D是2D关节点的损失函数;LSMPL是SMPL形状和位姿的损失函数;Ladv是对抗损失函数;LskeNet是骨骼网络输出的骨骼向量的损失函数;Lmotion是骨骼运动损失函数。
进一步,优选的,所述骨骼运动损失函数的公式如下:
Figure BDA0003746663170000021
其中,M为关节点的数量,T为待检测人体的骨骼运动视频的序列长度,gt为真实值;j为第j个关节,t为第t个时刻,τ为相邻帧的时间间隔;s(θ)为θ的余弦相似度;θ为人体运动引起的同一人体位置在不同时刻向量的夹角。
进一步,优选的,所述对抗损失函数的构建方法为:
利用AMASS数据集的人体骨骼特征数据作为输入数据生成对抗网络;其中,所述人体骨骼特征数据所对应的参考类别通过所述AMASS数据集确定;
通过所述对抗网络对所输入的数据进行分类处理,获取所述输入数据对应的骨骼特征的预测类别;
依据所述骨骼特征的预测类别和所述输入数据对应的参考类别,构建损失函数。
进一步,优选的,通过ResNet网络模型的骨干网络,根据所述骨骼运动图片序列,确定骨骼运动特征和关键点热力图的方法,包括,
将所述骨骼运动图片序列输入ResNet网络模型,通过所述ResNet网络模型的反卷积层进行特征图维度扩充,获取维度扩充后的特征图;
将所述维度扩充后的特征图经过归一层进行归一化处理,获取关键点热力图。
为了解决上述问题,本发明还提供一种基于人体运动视频的模型构建方法,包括:
获取单元,用于获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;
人体的三维骨骼特征向量确定单元,用于通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量;
人体三维模型生成单元,用于将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的基于人体运动视频的模型构建方法中的步骤。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于人体运动视频的模型构建方法。
本发明提供的上述基于人体运动视频的模型构建方法,获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量;将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型;能够有效提高人体三维模型中关节点的位置精确度,达到提高人体三维模型预测效率,进而达到获得更加平滑的三维人体模型的技术效果。
附图说明
图1为根据本发明实施例的基于人体运动视频的模型构建方法的流程示意图;
图2为根据本发明实施例的基于人体运动视频的模型构建方法的人体运动引起的同一人体位置在不同时刻向量的夹角的原理示意图;
图3为根据本发明实施例的基于人体运动视频的模型构建系统的逻辑结构框图;
图4为根据本发明实施例的实现基于人体运动视频的模型构建方法的电子设备的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。本申请中的人工智能软件技术为基于卷积神经网络的机器学习技术。基于卷积神经网络能够应用于多种不同的领域中,如语音识别、医疗诊断、应用程序的测试等。
针对现有技术中人体三维运动重建的网络结构的人体特征表示方法不合理,导致重建的人体模型存在运动不连续产生人体模型抖动现象的技术问题,本发明提出基于人体运动视频的模型构建方法,能够有效提高人体三维模型中关节点的位置精确度,达到提高人体三维模型预测效率,进而达到获得更加平滑的三维人体模型的技术效果。本发明提出的一种新的从视频中重建三维人体的方法,基于骨骼运动的人体三维重建方法,使用骨骼网络提取视频序列中每个人体的骨骼特征,然后将骨骼特征输入时序网络,时序网络以骨骼特征为输入可以得到更准确的参数化人体模型。此外,为了增强视频帧间人体的运动连续性,设计了一个新的骨骼运动损失,使用余弦相似度约束在一段视频帧间骨骼的运动在一个合理的范围内。基于这种网络结构和新的损失函数,可以从视频中重建出更平滑的三维人体模型。
名词解释:
smpl是指2015马普的一篇文章“SMPL:a skinned multi-person linear model”中构建的人体参数化三维模型,人体可以理解为是一个基础模型和在该模型基础上进行形变的总和,在形变基础上进行PCA,得到刻画形状的低维参数——形状参数(shape);同时,使用运动树表示人体的姿势,即运动树每个关节点和父节点的旋转关系,该关系可以表示为三维向量,最终每个关节点的局部旋转向量构成了smpl模型的姿势参数(pose)。
原始AMASS数据集为公开的动作捕捉数据集,将连续动作划分为11类动作(打扫房间、走路、跑步、蹦跳、站立、坐、躺、伸展上肢、伸展下肢、和其他物体交互、上下楼梯),可穿戴式传感器部署在6个身体部位(头部、脊柱、右膝、右手腕、左膝、左手腕),每个部位包含加速度计和陀螺仪两种传感器,采样率为60Hz。真实域的数据来自公开数据集Pamap2,该数据集是从现实生活中采集的真实人体姿态数据,记录了9名受试者进行的12项日常活动(躺、坐、站、步行、跑步、骑自行车、北欧式健走、熨衣服、真空吸尘、跳绳、上下楼梯),手部、头部和脚踝上各有1个IMU(加速度计、陀螺仪、磁力计、温度计),采样率为100Hz;除此之外,胸前还系有一个心率监测器。为使两个域的数据保持一致,在本实施例中虚拟域仅使用AMASS中的头部、右膝和右手腕部位的传感器数据;真实域仅使用Pamap2的加速度计和传感器数据,并且将上下楼梯合并为一类活动。已知类选择“走路、跑步、站立、坐、躺”五类活动,未知类选择Pamap2中剩下的活动类别。
残差网络ResNet中残差是指预测值和观测值之间的差距。X是这一层残差块的输入,也称作F(x)为残差,x为输入值,F(X)是经过第一层线性变化并激活后的输出,在残差网络中,第二层进行线性变化之后激活之前,F(x)加入了这一层输入值X,然后再进行激活后输出。
时序卷积网络(Temporal Convolutional Network,TCN);使用时序卷积网络进行时间序列预测的整个过程主要包括:数据导入、数据清洗、结构转化、建立TCN模型、训练模型(包括动态调整学习率和earlystopping的设置)、预测、结果展示、误差评估等完整的时间序列预测流程。
具体的,作为示例,图1为本发明一实施例提供的基于人体运动视频的模型构建方法的流程示意图。参照图1所示,本发明提供一种基于人体运动视频的模型构建方法,该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于人体运动视频的模型构建方法包括:步骤S110~S140。
S110、获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列。
在具体的实施过程中,为了使生成的人体三维模型更加准确,时序网络的输入应尽可能少的包含与人体无关的信息,因为这些信息对重建三维人体并没有太大帮助;而应尽可能多的包含人体本身的信息,这样的话预测的人体模型会有更好的运动连续性。因此,需要对获取的待检测人体的骨骼运动视频进行清洗预处理。
S120、通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量。
获取待检测人体的骨骼运动视频,并将待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列,即时间为t时的骨骼运动图片,时间为t+1时的骨骼运动图片,时间为t+2时的骨骼运动图片。将按照时间序列分解为骨骼运动图片序列运用骨干网络进行特征提取,这里的特征提取通过残差网络进行实现。其中,残差网络的骨干网络进行关于关节点的骨骼运动特征提取;而残差网络的分支网络进行关于三维外观特征的提取。然后利用上采样层将人体的骨骼特征与三维外观特征进行特征融合,获得待检测人体的三维骨骼特征向量。
在现有技术中,三维外观特征的提取比较普遍,通过对人体的整体形象和位置坐标获取,对人体的衣着或者体型进行精准预测。而通过,对基于骨骼运动的关节点的骨骼运动特征提取,能够有效提高人体三维模型中关节点的位置精确度,达到提高人体三维模型预测效率,进而达到获得更加平滑的三维人体模型的技术效果。
在具体的实施过程中,骨骼运动特征提取网络和三维外观特征提取网络分别包含一个残差网络(Residual Network,ResNet)和一个全连接层。上述残差网络可以是ResNet50,其中包括卷积层、池化层和激活函数层等操作层,残差网络的作用是将原始数据映射到隐层特征空间。其中,残差网络的最主要特点是容易优化,并且能够通过增加相当的深度来提高准确率。并且,残差网络内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。也就是说,残差网络以残差块为基本构造单位,通过若干残差块构建成特征提取层,再由多个特征提取层的堆叠便构成整个ResNet网络,其中残差块的每个块的输出和这个块的输入进行相加,然后作为下一个块的输入,而且在同一层内的每个残差块所输出的特征图的维数都是相同的,在进入下一层时才进行池化操作,使长宽减半以及维数倍增。
全连接层(Fully connected Layers,FC)在整个卷积神经网络中起到“分类器”的作用。全连接层用于将学到的“分布式特征表示”映射到样本标记空间。在训练过程中,需要基于损失函数进行参数更新。其中,损失函数损失函数(Lossfunction)是用来估量模型的预测值f(x)与真实值Y的不一致程度,其通常是一个非负实值函数,通常用L(Y,f(x))来表示。损失函数越小,标识模型的鲁棒性就越好。
具体地说,所述待检测人体的骨骼特征向量的获取方法,包括,S1211、通过ResNet网络模型的骨干网络,根据所述骨骼运动图片序列,确定骨骼运动特征和关键点热力图。具体地说,首先将所述骨骼运动图片序列输入ResNet网络模型,然后通过所述ResNet网络模型的反卷积层进行特征图维度扩充,获取维度扩充后的特征图;最后将所述维度扩充后的特征图经过归一层进行归一化处理,获取关键点热力图。S1212、根据所述关键点热力图,获取骨骼关节点的关键点坐标;S1213、根据所述骨骼关节点的关键点坐标,确定待检测人体的骨骼特征向量。
总的来说,就是通过搭建一个用于骨骼特征提取的ResNet网络,输入按照时间序列分解为骨骼运动图片序列,输出人体的关节点的骨骼向量。对于关节点可以但不限制于为左肩、右肩、脊柱、肩中心、左髋关节、右髋关节、左肘、右肘、左手腕、右手腕、左手、右手、左膝盖、右膝盖、左脚、右脚、头。用于人体三维模型估计的关节点数可以是14个,也可以是17个,还可以是18个,只要可以估计人体三维模型估计,在此对人体关节点数和关节坐标点位置不做限制。而热力图每个位置的值表示关节点在该位置出现的概率,通过对热力图求期望即可得到2D关键点坐标或者3D关键点坐标。进而根据关键点坐标获得人体的骨骼特征向量。
S130、将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型。人体三维生成模型包括一个时序卷积网络和一个分类器;其中利用时序卷积网络对按照历史时序排列的融合特征进行处理,获取预测时序的预测特征。
人体三维生成模型的训练方法包括:S1310、将各预测时序的人体的三维骨骼特征向量输入时序卷积网络,得到各预测时序的预测人体三维骨骼特征,基于预测时序的预测人体三维骨骼特征与所述预测时序对应的实际人体三维骨骼特征,训练时序卷积网络,直至预测人体三维骨骼特征与实际人体三维骨骼特征的损失函数满足预设标准,获取训练好的时序卷积网络;S1320、将时序卷积网络输出的各预测时序的骨骼预测特征输入分类器,得到各预测时序的人体三维模型,基于各预测时序的人体三维模型以及所述预测时序对应的实际人体三维模型,训练分类器;直至预测时序的人体三维模型以及所述预测时序对应的实际人体三维模型的损失函数满足预设标准,获取训练好的分类器,进而获取训练好的人体三维生成模型。也就是说,将残差网络提取的人体的三维骨骼特征向量输入时序卷积网络中,回归得到参数化的人体三维模型。
具体地说,在一个具体的实施例中,时序卷积网络对人体三维模型数据的训练过程中,将输入多维数据与目标数据共同训练,从中不断学习数据特征和数据之间的物理关系,优化目标为最小化预测值与实测值的误差,以自适应学习率调整算法Adadelta(Adaptive Learning Rate Method)作为反向传播过程中梯度下降的优化算法,该算法的优势在于能够自适应调整梯度下降时的学习速率,而不需要手动设置。经观测,随着迭代次数的增加,损失值在不断下降,训练100代后,所使用的时序卷积网络的预测值可以很好地与实测值进行拟合。
具体地说,预测时序对应的实际人体三维模型的损失函数Lg,通过以下公式获取:
Lg=L3D+L2D+LSMPL+Ladv+Lmotion+LskeNet
其中,L3D是3D关节点的损失函数;L2D是2D关节点的损失函数;LSMPL是SMPL形状和位姿的损失函数;Ladv是对抗损失函数;LskeNet是骨骼网络输出的骨骼向量的损失函数;Lmotion是骨骼运动损失函数。
需要说明的是,在具体的实施过程中,实际人体三维模型的损失函数等于各个损失函数的和,但是,各个损失函数所占的权重根据实际应用场景进行设定。也就是说,各个损失函数具有不同的参数,参数值根据实际需要设定。其中,对实际生成的人体三维模型中的3D关节点和2D关节点进行分别获取,并分别构建损失函数。进而获得3D关节点的损失函数和2D关节点的损失函数。对对实际生成的人体三维模型中的SMPL形状和位姿进行分别获取,进而构建SMPL形状和位姿的损失函数;对于骨骼网络输出的骨骼向量的损失函数是现有技术中的惯用技术,在此不再赘述。
在一个具体的实施例中,所述骨骼运动损失函数的公式如下:
Figure BDA0003746663170000101
其中,M为关节点的数量,T为待检测人体的骨骼运动视频的序列长度,gt为真实值;j为第j个关节,t为第t个时刻,τ为相邻帧的时间间隔;s(θ)为θ的余弦相似度;θ为人体运动引起的同一人体位置在不同时刻向量的夹角。也就是说,在一段视频序列中,由于相邻帧时间间隔极短,那么相邻帧的同一段骨骼向量夹角非常小,所以用余弦相似度来衡量角度的大小,余弦相似度越小,则证明视频帧间人体的运动越连续。
图2为根据本发明实施例的基于人体运动视频的模型构建方法的人体运动引起的同一人体位置在不同时刻向量的夹角的原理示意图;如图2所示,人体运动引起的同一人体位置在不同时刻向量的夹角,在具体的实施过程中,人体关节被划分为子节点和父节点的形式。比如左肩为父节点,左肘和左手腕等即为左肩的子节点。
Figure BDA0003746663170000102
s(θ)为θ的余弦相似度;α和β是两个向量;其中,α向量是t1时刻的,手肘到手腕的向量;β向量是t2时刻的,手肘到手腕的向量。
在一个具体的实施例中,对抗损失函数的构建方法为:
S1301、利用AMASS数据集的人体骨骼特征数据作为输入数据生成对抗网络;其中,所述人体骨骼特征数据所对应的参考类别通过所述AMASS数据集确定;S1302、通过所述对抗网络对所输入的数据进行分类处理,获取所述输入数据对应的骨骼特征的预测类别;S1303、依据所述骨骼特征的预测类别和所述输入数据对应的参考类别,构建损失函数。
也就是说,利用AMASS数据集构建对抗损失函数(Multi-Style AdversarialLoss);利用AMASS数据集的人体骨骼特征数据作为对抗网络的输入数据,并通过对抗网络对输入数据进行分类处理,得到输入数据的预测类别;依据预测类别及输入数据所对应的参考类别,构建对抗损失函数。通过对抗网络协助训练时序卷积网络,在训练结束后可取消掉对抗网络。对抗网络用于判断一组三维的关键点的集合是否构成一个合理的运动姿态,比如人体运动姿态,而不会出现例如违反关节运动的情况。
综上,本发明的基于人体运动视频的模型构建方法,获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量;将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型;能够有效提高人体三维模型中关节点的位置精确度,达到提高人体三维模型预测效率,进而达到获得更加平滑的三维人体模型的技术效果。
与上述基于人体运动视频的模型构建方法相对应,本发明还提供一种基于人体运动视频的模型构建方法。图3示出了根据本发明实施例的基于人体运动视频的模型构建系统的功能模块。
如图3所示,本发明提供的基于人体运动视频的模型构建系统300可以安装于电子设备中。根据实现的功能,所述基于人体运动视频的模型构建系统300可以包括获取单元310、人体的三维骨骼特征向量确定单元320、人体三维模型生成单元330。本发明所述单元也可以称之为模块,指的是一种能够被电子设备的处理器所执行,并且能够完成某一固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
获取单元310,用于获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;
人体的三维骨骼特征向量确定单元320,用于通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量;
人体三维模型生成单元330,用于将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型。
本发明所提供的上述基于人体运动视频的模型构建方法的更为具体的实现方式,均可以参照上述对基于人体运动视频的模型构建方法的实施例表述,在此不再一一列举。
通过上述实施例可以看出,本发明提出的基于人体运动视频的模型构建系统,获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量;将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型;能够有效提高人体三维模型中关节点的位置精确度,达到提高人体三维模型预测效率,进而达到获得更加平滑的三维人体模型的技术效果。
如图4所示,本发明提供一种基于人体运动视频的模型构建方法的电子设备4。
该电子设备4可以包括处理器40、存储器41和总线,还可以包括存储在存储器41中并可在所述处理器40上运行的计算机程序,如基于人体运动视频的模型构建程序42。
其中,所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器41在一些实施例中可以是电子设备4的内部存储单元,例如该电子设备4的移动硬盘。所述存储器41在另一些实施例中也可以是电子设备4的外部存储设备,例如电子设备4上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括电子设备4的内部存储单元也包括外部存储设备。所述存储器41不仅可以用于存储安装于电子设备4的应用软件及各类数据,例如基于人体运动视频的模型构建程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器40在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器40是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器41内的程序或者模块(例如基于人体运动视频的模型构建程序等),以及调用存储在所述存储器41内的数据,以执行电子设备4的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器41以及至少一个处理器40等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备4的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备4还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器40逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备4还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备4与其他电子设备之间建立通信连接。
可选地,该电子设备4还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备4中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备4中的所述存储器41存储的基于人体运动视频的模型构建程序42是多个指令的组合,在所述处理器40中运行时,可以实现:获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量;将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型。
具体地,所述处理器40对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述基于人体运动视频的模型构建程序的私密和安全性,上述基于人体运动视频的模型构建程序存储于本服务器集群所处区块链的节点中。
进一步地,所述电子设备4集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明实施例还提供一种计算机可读存储介质,所述存储介质可以是非易失性的,也可以是易失性的,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现:获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量;将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型。
具体地,所述计算机程序被处理器执行时具体实现方法可参考实施例基于人体运动视频的模型构建方法中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等区块链可以存储医疗数据,如个人健康档案、厨房、检查报告等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于人体运动视频的模型构建方法,应用于电子装置,其特征在于,所述方法包括:
获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;
通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量;
将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型。
2.如权利要求1所述的基于人体运动视频的模型构建方法,其特征在于,
所述待检测人体的骨骼特征向量的获取方法,包括,
通过ResNet网络模型的骨干网络,根据所述骨骼运动图片序列,确定骨骼运动特征和关键点热力图;
根据所述关键点热力图,获取骨骼关节点的关键点坐标;
根据所述骨骼关节点的关键点坐标,确定待检测人体的骨骼特征向量。
3.如权利要求1中所述的基于人体运动视频的模型构建方法,其特征在于,所述人体三维生成模型的训练方法包括:
将各预测时序的人体的三维骨骼特征向量输入时序卷积网络,得到各预测时序的预测人体三维骨骼特征,基于预测时序的预测人体三维骨骼特征与所述预测时序对应的实际人体三维骨骼特征,训练时序卷积网络,直至预测人体三维骨骼特征与实际人体三维骨骼特征的损失函数满足预设标准,获取训练好的时序卷积网络;
将时序卷积网络输出的各预测时序的骨骼预测特征输入分类器,得到各预测时序的人体三维模型,基于各预测时序的人体三维模型以及所述预测时序对应的实际人体三维模型,训练分类器;直至预测时序的人体三维模型以及所述预测时序对应的实际人体三维模型的损失函数满足预设标准,获取训练好的分类器,进而获取训练好的人体三维生成模型。
4.如权利要求3所述的基于人体运动视频的模型构建方法,其特征在于,
所述预测时序对应的实际人体三维模型的损失函数Lg,通过以下公式获取:
Lg=L3D+L2D+LSMPL+Ladv+Lmotion+LskeNet
其中,L3D是3D关节点的损失函数;L2D是2D关节点的损失函数;LSMPL是SMPL形状和位姿的损失函数;Ladv是对抗损失函数;LskeNet是骨骼网络输出的骨骼向量的损失函数;Lmotion是骨骼运动损失函数。
5.如权利要求4所述的基于人体运动视频的模型构建方法,其特征在于,
所述骨骼运动损失函数Lmotion的公式如下:
Figure FDA0003746663160000021
其中,M为关节点的数量,T为待检测人体的骨骼运动视频的序列长度,gt为真实值;j为第j个关节,t为第t个时刻,τ为相邻帧的时间间隔;s(θ)为θ的余弦相似度;θ为人体运动引起的同一人体位置在不同时刻向量的夹角。
6.如权利要求4所述的基于人体运动视频的模型构建方法,其特征在于,
所述对抗损失函数的构建方法为:
利用AMASS数据集的人体骨骼特征数据作为输入数据生成对抗网络;其中,所述人体骨骼特征数据所对应的参考类别通过所述AMASS数据集确定;
通过所述对抗网络对所输入的数据进行分类处理,获取所述输入数据对应的骨骼特征的预测类别;
依据所述骨骼特征的预测类别和所述输入数据对应的参考类别,构建损失函数。
7.如权利要求2所述的基于人体运动视频的模型构建方法,其特征在于,
通过ResNet网络模型的骨干网络,根据所述骨骼运动图片序列,确定骨骼运动特征和关键点热力图的方法,包括,
将所述骨骼运动图片序列输入ResNet网络模型,通过所述ResNet网络模型的反卷积层进行特征图维度扩充,获取维度扩充后的特征图;
将所述维度扩充后的特征图经过归一层进行归一化处理,获取关键点热力图。
8.一种基于人体运动视频的模型构建方法,其特征在于,包括:
获取单元,用于获取待检测人体的骨骼运动视频,并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列;
人体的三维骨骼特征向量确定单元,用于通过预训练获得的ResNet网络的骨干网络和分支网络,根据所述骨骼运动图片序列,分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量;将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接,获取待检测人体的三维骨骼特征向量;
人体三维模型生成单元,用于将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中,获取待检测人体的人体三维模型。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于人体运动视频的模型构建方法中的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于人体运动视频的模型构建方法。
CN202210826109.5A 2022-07-14 2022-07-14 基于人体运动视频的模型构建方法、装置及存储介质 Pending CN115222882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210826109.5A CN115222882A (zh) 2022-07-14 2022-07-14 基于人体运动视频的模型构建方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210826109.5A CN115222882A (zh) 2022-07-14 2022-07-14 基于人体运动视频的模型构建方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115222882A true CN115222882A (zh) 2022-10-21

Family

ID=83612248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210826109.5A Pending CN115222882A (zh) 2022-07-14 2022-07-14 基于人体运动视频的模型构建方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115222882A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808976A (zh) * 2024-03-01 2024-04-02 之江实验室 一种三维模型构建方法、装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808976A (zh) * 2024-03-01 2024-04-02 之江实验室 一种三维模型构建方法、装置、存储介质及电子设备
CN117808976B (zh) * 2024-03-01 2024-05-24 之江实验室 一种三维模型构建方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
Liu et al. A system for analyzing and indexing human-motion databases
CN112861624A (zh) 一种人体姿态检测方法、系统、存储介质、设备及终端
Huang et al. Invariant representation learning for infant pose estimation with small data
Chaudhari et al. Yog-guru: Real-time yoga pose correction system using deep learning methods
CN101216952B (zh) 用于人体运动捕捉数据的动态时空耦合降噪处理方法
Rohan et al. Human pose estimation-based real-time gait analysis using convolutional neural network
CN114998934B (zh) 基于多模态智能感知和融合的换衣行人重识别和检索方法
Lv et al. Data-driven inverse dynamics for human motion
Ashry et al. An LSTM-based descriptor for human activities recognition using IMU sensors
CN114758362B (zh) 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法
CN112037310A (zh) 基于神经网络的游戏人物动作识别生成方法
CN113111767A (zh) 一种基于深度学习3d姿态评估的跌倒检测方法
Ahmad et al. Human action recognition using convolutional neural network and depth sensor data
Randhavane et al. Learning perceived emotion using affective and deep features for mental health applications
Ma et al. Human motion gesture recognition based on computer vision
CN113229807A (zh) 人体康复评估装置、方法、电子设备及存储介质
CN115222882A (zh) 基于人体运动视频的模型构建方法、装置及存储介质
Kumar et al. Human activity recognition (har) using deep learning: Review, methodologies, progress and future research directions
Chen et al. Prior-knowledge-based self-attention network for 3D human pose estimation
Van Wouwe et al. Diffusion inertial poser: Human motion reconstruction from arbitrary sparse imu configurations
CN115268531A (zh) 一种智能浴缸的水流调温控制方法、装置、设备及存储介质
Yu et al. Automatic human Gait imitation and recognition in 3D from monocular video with an uncalibrated camera
Zhou A proposed reconstruction method of a 3D animation scene based on a fuzzy long and short-term memory algorithm
Tang et al. Synthetic IMU datasets and protocols can simplify fall detection experiments and optimize sensor configuration
CN110148202B (zh) 用于生成图像的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination