CN113920466A - 先验空间的生成方法、装置、计算机设备和存储介质 - Google Patents

先验空间的生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113920466A
CN113920466A CN202111275623.6A CN202111275623A CN113920466A CN 113920466 A CN113920466 A CN 113920466A CN 202111275623 A CN202111275623 A CN 202111275623A CN 113920466 A CN113920466 A CN 113920466A
Authority
CN
China
Prior art keywords
data
motion
dimensional motion
sample
motion data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111275623.6A
Other languages
English (en)
Inventor
许嘉晨
汪旻
刘文韬
钱晨
马利庄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN202111275623.6A priority Critical patent/CN113920466A/zh
Publication of CN113920466A publication Critical patent/CN113920466A/zh
Priority to PCT/CN2022/124931 priority patent/WO2023071806A1/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种先验空间的生成方法、装置、计算机设备和存储介质,其中,该方法包括:获取目标对象的多种运动分别对应的三维运动数据;三维运动数据包括:对应运动的多个姿态分别对应的姿态数据;对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到每种运动对应的目标运动数据;基于多种运动分别对应的目标运动数据,生成目标先验空间。

Description

先验空间的生成方法、装置、计算机设备和存储介质
技术领域
本公开涉及计算机视觉技术领域,具体而言,涉及一种先验空间的生成方法、装置、计算机设备和存储介质。
背景技术
合理的三维人体运动不仅要求运动对应的每个姿态是合理的,还要求连续的姿态之间的转换也是合理的,从而保证整体三维人体运动的合理性。在通过神经网络进行三维人体运动重建的过程中,利用合理的先验空间进行运动合理性的约束,能够使得神经网络重建的三维人体运动更加合理。
但现有的先验空间存在导致人体运动数据中的上下文信息丢失,影响了神经网络重建的人体运动数据的合理性以及准确性的问题。
发明内容
本公开实施例至少提供一种先验空间的生成方法、装置、计算机设备和存储介质。
第一方面,本公开实施例提供了一种先验空间的生成方法,包括:
获取目标对象的多种运动分别对应的三维运动数据;所述三维运动数据包括:对应运动的多个姿态分别对应的姿态数据;
对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到每种运动对应的目标运动数据;
基于多种运动分别对应的目标运动数据,生成目标先验空间。
该实施方式,通过对每种运动对应的三维运动数据进行去除全局朝向的编码处理,生成能够表征运动的姿态特征的目标运动数据,能够将全局朝向信息从数据空间中去除,降低了数据空间的复杂度,基于目标运动数据生成的目标先验空间,能够提高生成的目标先验空间的合理性以及准确性,进而,利用目标先验空间进行运动合理性、和准确性的约束,能够降低神经网络建模运动数据的难度。
在一种可能的实施方式中,所述基于多种运动分别对应的目标运动数据,生成目标先验空间之后,还包括:
获取所述目标对象在运动时的运动视频;
对所述运动视频进行特征提取,得到运动特征数据;
基于所述运动特征数据,从所述目标先验空间中确定与所述运动特征数据匹配的目标运动数据;
基于与所述运动特征数据匹配的目标运动数据对应的运动类型,确定所述目标对象的运动类型。
该实施方式,利用提取的能够表征目标对象在运动时的各个姿态对应的运动特征数据,与目标先验空间中的目标运动数据进行匹配,首先能够确定与该运动特征数据相匹配的目标运动数据,进而,基于与该运动特征数据相匹配的目标运动数据对应的运动类型,能够准确地确定目标对象的运动类型。
在一种可能的实施方式中,所述对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到所述每种运动对应的目标运动数据,包括:
确定所述三维运动数据在频域对应的第一频域数据,以及
将所述三维运动数据分为多组三维运动子数据,并确定多组三维运动子数据在频域分别对应的第二频域数据;
基于所述第一频域数据、所述第二频域数据,对所述三维运动数据进行去除全局朝向的压缩处理,得到所述目标运动数据。
该实施方式,频域数据能够表征三维运动数据中目标对象的各个关键点在频域上的变化信息,目标对象的各个关键点能够准确反映目标对象的姿态,通过将三维运动数据转换至频域,可以得到能够反映目标对象的各个关键点在运动时的整体变化信息、以及反映目标对象的各个关键点在运动时的整体信息量的第一频域数据;通过将三维运动数据分为多组三维运动子数据,能够实现对目标对象的整体运动的分段处理,实现对目标对象的整体运动的细化分析;通过将多组三维运动子数据分别转换至频域,可以得到能够反映目标对象的各个关键点在每一段运动的变化信息、以及各个关键点在每一段运动对应的信息量的第二频域数据,进而,基于第一频域数据和第二频域数据,有利于实现对三维运动数据的全局朝向的准确去除,得到准确合理的目标运动数据。
在一种可能的实施方式中,所述基于所述第一频域数据、所述第二频域数据,对所述三维运动数据进行去除全局朝向的压缩处理,得到所述目标运动数据,包括:
基于所述第一频域数据,得到所述三维运动数据的频域特征数据;
以及,基于所述第二频域数据,确定多组三维运动子数据分别对应的权重;基于多组三维运动子数据分别对应的权重,对所述三维运动数据进行加权处理,得到第一三维运动数据;
对所述第一三维运动数据进行多种尺度的特征提取,得到多种尺度分别对应的第二三维运动数据;
将所述频域特征数据和多种尺度分别对应的第二三维运动数据进行融合,得到所述目标运动数据。
该实施方式,反映不同信息量的第二频域数据对应的数据压缩程度不同,基于每组三维运动子数据对应的第二频域数据所反映的信息量,能够确定每组三维运动子数据对应的权重,再基于多组三维运动子数据分别对应的权重,对三维运动数据进行加权处理,能够实现对三维运动数据对应的每段运动的高精度压缩,得到合理的第一三维运动数据;对第一三维运动数据进行多种尺度下的特征提取,能够得到第一三维运动数据在不同深度上分别对应的第二三维运动数据,进而,通过将多种尺度分别对应的第二三维运动数据和频域特征数据进行融合,可以得益于第二三维运动数据的在深度维度上的数据丰富性,得到准确的目标运动数据。
在一种可能的实施方式中,所述基于所述第二频域数据,确定多组三维运动子数据分别对应的权重,包括:
对多组三维运动子数据分别对应的第二频域数据进行融合处理,得到融合频域数据;所述融合频域数据的维度与所述三维运动子数据的组数相同;
对所述融合频域数据进行归一化处理,得到多组三维运动子数据分别对应的权重。
该实施方式,融合频域数据能够携带每组三维运动子数据分别对应的第二频域数据,通过对融合频域数据进行归一化处理,可以使每组三维运动子数据对应的权重分布在概率区间(0,1)之间,提高得到的权重的合理性。
在一种可能的实施方式中,所述对所述第一三维运动数据进行多种尺度下的特征提取,得到多种尺度分别对应的第二三维运动数据,包括:
针对多种尺度中的每种尺度,对尺度对应的输入三维运动数据进行卷积处理,并对卷积处理的结果进行全连接映射处理,得到该种尺度对应的第二三维运动数据;
其中,所述输入三维运动数据包括:前一种尺度对应的第二三维运动数据、或者所述第一三维运动数据。
该实施方式,通过对三维运动数据的卷积处理和全连接映射处理,能够实现对三维运动数据的合理编码,得到合理的第二三维运动数据。
在一种可能的实施方式中,所述将所述频域特征数据和多种尺度分别对应的第二三维运动数据进行融合,得到所述目标运动数据,包括:
将所述频域特征数据和多种尺度分别对应的第二三维运动数据进行拼接,得到第三三维运动数据;
对所述第三三维运动数据进行全连接映射处理,得到所述目标运动数据。
该实施方式,通过将频域特征数据和多种尺度分别对应的第二三维运动数据进行拼接,能够实现对频域特征数据和第二三维运动数据的数据统一,得到统一后的第三三维运动数据,再通过对第三三维运动数据的全连接映射处理,能够实现将处于隐层特征空间的第三三维运动数据还原到三维运动数据对应的样本初始空间,得到与样本初始空间相匹配的目标运动数据。
在一种可能的实施方式中,所述对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到每种运动对应的目标运动数据,包括:
针对每种运动分别对应的三维运动数据,利用预先训练的目标编码神经网络,对该种运动对应的三维运动数据进行去除全局朝向的编码处理,得到该种运动对应的目标运动数据。
该实施方式,预先训练的目标编码神经网络进行可靠的预测精度,利用预先训练的目标编码神经网络进行去除全局朝向的编码处理,能够得到准确的目标运动数据。
在一种可能的实施方式中,采用下述方式训练得到所述目标编码神经网络:
获取样本数据;所述样本数据包括:多个样本姿态分别对应的样本姿态数据;
执行多轮训练,并在每轮训练中,执行下述过程:
对所述样本数据进行随机的全局朝向转向处理,得到第一中间样本数据;所述第一中间样本数据包括:多个所述样本姿态分别对应的第一姿态数据;
利用编码神经网络对所述第一中间样本数据进行去除全局朝向的编码处理,得到编码运动数据;
利用解码神经网络对所述编码运动数据进行解码处理,得到第二中间样本数据;所述第二中间样本数据包括:多个所述样本姿态分别对应的第二姿态数据;
基于所述样本数据和所述第二中间样本数据,对所述编码神经网络和所述解码神经网络进行本轮训练;
将经过多轮训练的编码神经网络,确定为所述目标编码神经网络。
该实施方式,通过对样本数据进行全局朝向转向处理,能够实现对样本数据的加噪处理,利用编码神经网络对加噪处理后的第一中间样本数据进行编码处理,能够提高编码神经网络的去噪能力;利用解码神经网络对编码运动数据进行解码处理,能够实现对编码运动数据的还原,在编码神经网络和解码神经网络精度可靠的情况下,解码神经网络输出的第二中间样本数据也将相对准确,即贴近于样本数据,因此,基于样本数据和第二中间样本数据,能够确定出编码神经网络和解码神经网络对应的模型损失,再基于模型损失对编码神经网络和解码神经网络进行多轮训练,能够得到精度可靠的目标编码神经网络和精度可靠的解码神经网络。
在一种可能的实施方式中,所述基于所述样本数据和所述第二中间样本数据,对所述编码神经网络和所述解码神经网络进行本轮训练,包括:
基于所述样本数据、和所述第二中间样本数据,确定模型损失;
基于所述模型损失,对所述编码神经网络和所述解码神经网络进行本轮训练。
该实施方式,基于确定的模型损失对编码神经网络和解码神经网络进行,能够提高编码神经网络和解码神经网络的预测精度。
在一种可能的实施方式中,所述基于所述样本数据、和所述第二中间样本数据,确定模型损失,包括:
基于所述样本数据和所述第二中间样本数据,确定样本数据重构损失和/或编码运动数据和正态分布之间的相似度损失;
基于所述样本数据重构损失和/或编码运动数据和正态分布之间的相似度损失,确定所述模型损失。
该实施方式,样本数据重构损失能够反映编码神经网络在输出编码运动数据时的损失、以及解码神经网络在还原编码运动数据时的损失;编码运动数据和正态分布之间的相似度损失能够表征编码神经网络在输出编码运动数据时的概率损失;基于样本数据重构损失和/或相似度损失,能够确定出更全面的模型损失,进而,有利于提高训练好的编码神经网络和解码神经网络的预测精度。
在一种可能的实施方式中,基于所述样本数据和所述第二中间样本数据,确定样本数据重构损失,包括:
基于所述样本数据中每帧样本姿态数据对应的朝向特征数据、每帧样本姿态数据对应的姿态特征数据、所述第二中间样本数据中每帧第二姿态数据对应的朝向特征数据、以及每帧第二姿态数据对应的姿态特征数据,确定所述样本数据重构损失。
该实施方式,基于朝向特征数据能够确定解码神经网络在还原姿态数据对应的朝向信息时的损失,基于姿态特征数据能够确定解码神经网络在还原每帧姿态时的损失,将两种损失作为样本数据重构损失对编码神经网络和解码神经网络进行训练,能够提高输出的朝向特征数据和姿态特征数据的精度。
在一种可能的实施方式中,所述获取样本数据,包括:
获取多种样本运动分别对应的原始三维运动数据;所述原始三维运动数据包括:多个样本姿态分别对应的姿态数据;
基于多个样本姿态分别对应的姿态数据中,首个样本姿态对应的姿态数据的朝向信息,确定所述原始三维运动数据对应的转向角度;
基于所述转向角度,对所述原始三维运动数据中的每个样本姿态进行转向处理,得到所述样本数据。
该实施方式,基于首个样本姿态对应的姿态数据的朝向信息,能够确定出首个样本姿态对应的朝向在目标方向上的偏置角度,也即,确定出将首个样本姿态对应的朝向调整至目标方向所需要的转向角度,再利用转向角度对原始三维运动数据中的每个样本姿态进行转向处理,能够实现在将首个样本姿态对应的朝向调整至目标方向的基础上,保持原始三维运动数据中的每个样本姿态之间的相对角度不变。
第二方面,本公开实施例还提供一种先验空间的生成装置,包括:
获取模块,用于获取目标对象的多种运动分别对应的三维运动数据;所述三维运动数据包括:对应运动的多个姿态分别对应的姿态数据;
编码模块,用于对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到每种运动对应的目标运动数据;
确定模块,用于基于多种运动分别对应的目标运动数据,生成目标先验空间。
在一种可能的实施方式中,所述装置还包括:
识别模块,用于所述基于多种运动分别对应的目标运动数据,生成目标先验空间之后,获取所述目标对象在运动时的运动视频;
对所述运动视频进行特征提取,得到运动特征数据;
基于所述运动特征数据,从所述目标先验空间中确定与所述运动特征数据匹配的目标运动数据;
基于与所述运动特征数据匹配的目标运动数据对应的运动类型,确定所述目标对象的运动类型。
在一种可能的实施方式中,所述编码模块,用于确定所述三维运动数据在频域对应的第一频域数据,以及
将所述三维运动数据分为多组三维运动子数据,并确定多组三维运动子数据在频域分别对应的第二频域数据;
基于所述第一频域数据、所述第二频域数据,对所述三维运动数据进行去除全局朝向的压缩处理,得到所述目标运动数据。
在一种可能的实施方式中,所述编码模块,用于基于所述第一频域数据,得到所述三维运动数据的频域特征数据;
以及,基于所述第二频域数据,确定多组三维运动子数据分别对应的权重;基于多组三维运动子数据分别对应的权重,对所述三维运动数据进行加权处理,得到第一三维运动数据;
对所述第一三维运动数据进行多种尺度的特征提取,得到多种尺度分别对应的第二三维运动数据;
将所述频域特征数据和多种尺度分别对应的第二三维运动数据进行融合,得到所述目标运动数据。
在一种可能的实施方式中,所述编码模块,用于对多组三维运动子数据分别对应的第二频域数据进行融合处理,得到融合频域数据;所述融合频域数据的维度与所述三维运动子数据的组数相同;
对所述融合频域数据进行归一化处理,得到多组三维运动子数据分别对应的权重。
在一种可能的实施方式中,所述编码模块,用于针对多种尺度中的每种尺度,对尺度对应的输入三维运动数据进行卷积处理,并对卷积处理的结果进行全连接映射处理,得到该种尺度对应的第二三维运动数据;
其中,所述输入三维运动数据包括:前一种尺度对应的第二三维运动数据、或者所述第一三维运动数据。
在一种可能的实施方式中,所述编码模块,用于将所述频域特征数据和多种尺度分别对应的第二三维运动数据进行拼接,得到第三三维运动数据;
对所述第三三维运动数据进行全连接映射处理,得到所述目标运动数据。
在一种可能的实施方式中,所述编码模块,用于针对每种运动分别对应的三维运动数据,利用预先训练的目标编码神经网络,对该种运动对应的三维运动数据进行去除全局朝向的编码处理,得到该种运动对应的目标运动数据。
在一种可能的实施方式中,所述装置还包括:
训练模块,用于采用下述方式训练得到所述目标编码神经网络:
获取样本数据;所述样本数据包括:多个样本姿态分别对应的样本姿态数据;
执行多轮训练,并在每轮训练中,执行下述过程:
对所述样本数据进行随机的全局朝向转向处理,得到第一中间样本数据;所述第一中间样本数据包括:多个所述样本姿态分别对应的第一姿态数据;
利用编码神经网络对所述第一中间样本数据进行去除全局朝向的编码处理,得到编码运动数据;
利用解码神经网络对所述编码运动数据进行解码处理,得到第二中间样本数据;所述第二中间样本数据包括:多个所述样本姿态分别对应的第二姿态数据;
基于所述样本数据和所述第二中间样本数据,对所述编码神经网络和所述解码神经网络进行本轮训练;
将经过多轮训练的编码神经网络,确定为所述目标编码神经网络。
在一种可能的实施方式中,所述训练模块,用于基于所述样本数据、和所述第二中间样本数据,确定模型损失;
基于所述模型损失,对所述编码神经网络和所述解码神经网络进行本轮训练。
在一种可能的实施方式中,所述训练模块,用于基于所述样本数据和所述第二中间样本数据,确定样本数据重构损失和/或编码运动数据和正态分布之间的相似度损失;
基于所述样本数据重构损失和/或编码运动数据和正态分布之间的相似度损失,确定所述模型损失。
在一种可能的实施方式中,所述训练模块,用于基于所述样本数据中每帧样本姿态数据对应的朝向特征数据、每帧样本姿态数据对应的姿态特征数据、所述第二中间样本数据中每帧第二姿态数据对应的朝向特征数据、以及每帧第二姿态数据对应的姿态特征数据,确定所述样本数据重构损失。
在一种可能的实施方式中,所述训练模块,用于获取多种样本运动分别对应的原始三维运动数据;所述原始三维运动数据包括:多个样本姿态分别对应的姿态数据;
基于多个样本姿态分别对应的姿态数据中,首个样本姿态对应的姿态数据的朝向信息,确定所述原始三维运动数据对应的转向角度;
基于所述转向角度,对所述原始三维运动数据中的每个样本姿态进行转向处理,得到所述样本数据。
第三方面,本公开可选实现方式还提供一种计算机设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
关于上述先验空间的生成装置、计算机设备、及计算机可读存储介质的效果描述参见上述先验空间的生成方法的说明,这里不再赘述。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种先验空间的生成方法的流程图;
图2示出了本公开实施例所提供的一种用于确定一种尺度对应的第二三维运动数据的网络结构的结构示意图;
图3示出了本公开实施例所提供的一种用于对第一三维运动数据进行多种尺度下的特征提取,得到多种尺度分别对应的第二三维运动数据的网络结构的结构示意图;
图4示出了本公开实施例所提供的一种训练编码神经网络的方法的流程图;
图5示出了本公开实施例所提供的一种利用编码神经网络和解码神经网络对获取的原始三维运动数据进行处理,得到第二中间样本数据的示意图;
图6示出了本公开实施例所提供的一种先验空间的生成装置的示意图;
图7示出了本公开实施例所提供的一种计算机设备结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
另外,本公开实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
经研究发现,合理的三维人体运动不仅要求运动对应的每个姿态是合理的,还要求连续的姿态之间的转换也是合理的,从而保证整体三维人体运动的合理性。在通过神经网络进行三维人体运动重建的过程中,利用合理的先验空间进行运动合理性的约束,能够使得神经网络重建的三维人体运动更加合理。
而三维运动数据(包括三维人体运动)中的环境信息决定着运动的朝向,一段相同的运动,在不同的环境信息下,该运动对应的各个姿态的朝向不同,三维运动数据也不同,但除运动对应的各个姿态的朝向以外,三维运动数据中的各个姿态均相同,而这种环境信息造成的运动朝向导致了数据空间复杂度较高,提高了对人体运动数据建模的难度。当前为了降低神经网络建模人体运动数据的难度,通常通过减少运动所包含的帧数的方式来减少环境信息对人体运动数据的影响,从而降低人体运动数据对应数据空间的复杂度,但这样的方式得到的先验空间导致人体运动数据中的上下文信息丢失,影响了神经网络重建的人体运动数据的合理性以及准确性。
基于上述研究,本公开提供了一种先验空间的生成方法、装置、计算机设备和存储介质,通过对每种运动对应的三维运动数据进行去除全局朝向的编码处理,生成能够表征运动的姿态特征的目标运动数据,能够将全局朝向信息从数据空间中去除,降低了数据空间的复杂度,基于目标运动数据生成的目标先验空间,能够提高生成的目标先验空间的合理性以及准确性,进而,利用目标先验空间进行运动合理性、和准确性的约束,能够降低神经网络建模运动数据的难度。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,本公开实施例中所提到的特定名词包括:
Yaw:表示以三维运动数据中首帧姿态数据对应的姿态从底部到顶部的方向为y轴,首帧姿态数据对应的姿态从左边到右边为x轴,首帧姿态数据对应的姿态从前面到后面为z轴建立的三维坐标系中,在y轴上旋转的角度;
DCT:Discrete Cosine Transform,离散余弦变换,将数据从空间域变换至频域,能够实现数据或图像的压缩。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种先验空间的生成方法进行详细介绍,本公开实施例所提供的先验空间的生成方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该先验空间的生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面对本公开实施例提供的先验空间的生成方法加以详细说明。
如图1所示,为本公开实施例提供的一种先验空间的生成方法的流程图,可以包括以下步骤:
S101:获取目标对象的多种运动分别对应的三维运动数据;三维运动数据包括:对应运动的多个姿态分别对应的姿态数据。
这里,目标对象可以包括目标人物、目标动物等能够运动的对象。三维运动数据可以为目标对象执行某一运动时,其产生的各个姿态分别对应的姿态数据,姿态数据能够表征目标对象的姿态,具体可以包括姿态、姿态对应的朝向信息,其中,姿态对应的朝向信息是受到目标对象的全局朝向影响的朝向信息。
在获取目标对象对应的三维运动数据时,例如可以采集目标对象运动时的多帧图像,对多帧图像分别进行人体三维姿态的恢复,得到每帧图像对应的一帧姿态数据,由多帧图像分别对应的姿态数据,构成了目标对象的一组三维运动数据。而在对多帧图像分别进行人体三维姿态的恢复时,各帧姿态会受到人体运动时的朝向的影响,该人体运动时的朝向,也即全局朝向。
每个运动对应的三维运动数据中包括预设数量帧的姿态数据,例如,128帧姿态数据。在具体实施时,三维运动数据可以为128帧*72维的运动数据。在72维的数据中,例如包括3维的姿态、以及人体的23个关键点分别对应的三维位置信息。
或者,可以在原始先验空间中获取目标对象的多种运动分别对应的三维运动数据。其中,原始先验空间中可以包括目标对象对应的至少一种运动对应的三维运动数据,每种运动对应的三维运动数据,例如包括多组。根据图像处理任务的不同,目标对象也不同;例如目标对象可以是“人”,对应的多种动作包括:跑、跳、走路、抬腿、转身等多种。
具体实施时,可以基于传感器采集的目标对象在运动时产生的各个姿态,确定各个姿态对应的姿态数据,将确定的姿态数据作为目标对象对应的三维运动数据,基于获取的目标对象在执行多种运动时分别对应的各个姿态,确定每种运动对应的姿态数据。
另外,在目标对象对应的三维运动数据为从原始先验空间中获取的情况下,还可以按照以下方式获取原始先验空间:
一、在基于利用传感器采集到的目标对象在运动时产生的各个姿态,得到每种运动对应的三维运动数据之后,可以基于目标对象的多种运动分别对应的三维运动数据,构成原始先验空间。
或者,也可以利用现有的三维运动数据集,从中选取目标对象的多种运动分别对应的三维运动数据,以得到原始先验空间;再或者,原始先验空间可以为预先生成并存储至预设存储空间,在生成目标先验空间时,直接从该预设存储空间读取原始先验空间。
S102:对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到每种运动对应的目标运动数据。
这里,目标运动数据可以为目标对象的每种运动对应的不包含全局朝向的运动数据,具体的,每个目标运动数据中的首帧姿态对应的朝向均为预先规定的目标方向。全局朝向能够表征三维运动数据对应的运动的朝向。
在对目标对象的运动进行建模时,需要保证运动中各个姿态的合理性、以及连贯性;而对于包含了三维运动数据的数据空间,并非每一个空间点对应的三维运动数据都是合理的,而合理的三维运动数据在该数据空间中分布较为稀疏;这导致了基于原始先验空间进行运动建模得到的三维运动数据存在不合理、不连贯等问题;本公开通过对三维运动数据进行编码处理,能够将三维运动数据进一步的压缩到更小的数据空间中,使得原本在数据空间内分布稀疏的三维运动数据在压缩后形成的数据空间中的分布更加的密集,进而能够更好的对运动建模进行更好的监督,减少运动建模得到的三维运动数据不合理、不连贯等问题。
在具体实施时,可以在获取原始先验空间之后,针对原始先验空间中每种运动对应的三维运动数据,对该三维运动数据进行去除全局朝向的编码处理,也即,将该三维运动数据中的首帧姿态对应的朝向调整为目标方向,其中,目标方向可以为首帧姿态对应的yaw为0度。
然后,再对该三维运动数据中的除首帧姿态以外的每帧姿态,以维持三维运动数据中的各个姿态之间的相对角度和方向不变为目标,对除首帧姿态以外的每帧姿态进行方向的调整,然后基于调整后的各个姿态进行编码处理,得到该三维运动数据对应的目标运动数据。基于上述步骤,可以确定出每种运动对应的目标运动数据。
这样,通过对每种运动对应的三维运动数据进行去除全局朝向的编码处理,生成能够表征运动的姿态特征的目标运动数据,能够将全局朝向信息从数据空间中去除,降低了数据空间的复杂度,基于目标运动数据生成的目标先验空间,能够提高生成的目标先验空间的合理性以及准确性,进而,利用目标先验空间进行运动合理性、和准确性的约束,能够降低神经网络建模运动数据的难度。
S103:基于多种运动分别对应的目标运动数据,生成目标先验空间。
在具体实施中,可以直接基于多种运动分别对应的目标运动数据,作为目标先验空间中的多组先验数据,构成目标先验空间。这里,目标先验空间中的目标运动数据相对于原始先验空间中的数据,在数据空间上进行了进一步的压缩,减少了全局朝向对数据的影响,因此数据空间更加简单、紧凑,更利于运动建模。
在得到目标先验空间后,可以在神经网络建模运动数据时,利用目标先验空间进行运动建模的合理性约束,以实现运动建模。
这样,基于目标运动数据生成目标先验空间,能够提高生成的目标先验空间的合理性,进而,利用目标先验空间进行运动合理性的约束,能够降低神经网络建模运动数据的难度,从而提高神经网络重建的运动数据的合理性和准确性。
在一种实施例中,生成目标先验空间之后,还可以基于目标先验空间,识别目标对象的运动类型。
具体实施时,针对识别目标对象的运动类型的任务,可以在获取到目标对象对应的运动视频之后,基于运动视频中目标对象对应的各个姿态的姿态数据,从目标先验空间中包括的各个目标运动数据对应的姿态数据中,确定与该运动视频中目标对象对应的姿态数据相匹配的姿态数据,将该相匹配的姿态数据对应的运动类型作为运动视频中目标对象的运动类型。
具体实施时,可以按照以下步骤识别目标对象的运动类型:
步骤一、获取目标对象在运动时的运动视频。
这里,可以获取的利用目标采集设备,如相机,采集的目标对象在运动时的运动视频。
步骤二、对运动视频进行特征提取,得到运动特征数据。
这里,运动特征数据能够表征目标对象在运动时的各个姿态对应的姿态数据,各个姿态也不包含朝向信息。
具体实施时,对运动视频对应的每帧图像进行特征提取,确定每帧图像中目标对象的姿态的姿态特征,并将该姿态特征作为该帧图像对应的运动特征数据,从而,可以得到每帧图像对应的运动特征数据。
步骤三、基于运动特征数据,从目标先验空间中确定与运动特征数据匹配的目标运动数据。
本步骤中,可以将运动特征数据中每帧姿态对应的姿态特征和目标先验空间中每个目标运动数据对应的各个姿态的姿态数据进行一致性匹配,确定所包括的各个姿态的姿态数据分别与运动特征数据对应的各个姿态特征相匹配的目标运动数据作为与运动特征数据匹配的目标运动数据。
步骤四、基于与运动特征数据匹配的目标运动数据对应的运动类型,确定目标对象的运动类型。
这里,可以将与运动特征数据匹配的目标运动数据对应的运动类型,作为该运动视频中目标对象的运动类型。
这样,利用提取的能够表征目标对象在运动时的各个姿态对应的运动特征数据,与目标先验空间中的目标运动数据进行匹配,首先能够确定与该运动特征数据相匹配的目标运动数据,进而,基于与该运动特征数据相匹配的目标运动数据对应的运动类型,能够准确地确定目标对象的运动类型。
在一种实施例中,针对S102,针对每种运动分别对应的三维运动数据,可以利用预先训练的目标编码神经网络,对该种运动对应的三维运动数据进行去除全局朝向的编码处理,以得到该种运动对应的目标运动数据。
目标编码神经网络为预先训练好的编码网络,能够对输入的三维运动数据进行去除全局朝向的编码处理。
这样,预先训练的目标编码神经网络进行可靠的预测精度,利用预先训练的目标编码神经网络进行去除全局朝向的编码处理,能够得到准确的目标运动数据。
在一种实施例中,针对S102,例如可以采用以下步骤实施:
S102-1:确定三维运动数据在频域对应的第一频域数据。
这里,三维运动数据对应的各个姿态数据均为空间域上的数据,第一频域数据用于表征各个姿态数据在第一数量个频域分量上的融合系数,其中,第一数量为预先设定的,频域分量用于表征姿态数据对应的信息量。第一频域数据对应的数据维度可以为预设的,例如,第一频域数据对应的数据维度可以为第一数量m。以三维运动数据中包括128帧姿态数据,第一数量为m为例,第一频域数据可以为128帧姿态数据在m个频域分量上的m维的融合系数。
本步骤中,针对每种运动分别对应的三维运动数据,可以利用DCT对该三维运动数据进行变换,得到三维运动数据在频域对应的第一频域数据。具体实施时,可以基于该三维运动数据,确定目标对象的各个关键点对应的整体位置变化,然后,利用DCT将能够表征目标对象的各个关键点对应的整体位置变化的三维运动数据转换为第一频域数据。
或者,也可以利用傅里叶变换对该三维运动数据进行变换,从而得到三维运动数据在频域对应的第一频域数据。
S102-2:将三维运动数据分为多组三维运动子数据,并确定多组三维运动子数据在频域分别对应的第二频域数据。
这里,第二频域数据用于表征每组三维运动子数据对应的各个姿态数据在第二数量个频域分量上的值,第二数量也为预先设定的。第二频域数据对应的数据维度可以为预设的,例如,第二频域数据对应的数据维度可以为n。
具体实施时,可以根据第二数量,按照三维运动数据中的每帧姿态数据对应的姿态在运动中的顺序,将三维运动数据中的多帧姿态数据分为第二数量个组,并将每组姿态数据作为一组三维运动子数据,从而,得到多组三维运动子数据。也即,将三维运动数据对应的运动分为多段,一个分段的运动对应于一组三维运动子数据。
然后,针对每组三维运动子数据,可以基于该组三维运动子数据,确定目标对象的各个关键点在该组三维运动子数据对应的分段的运动中的位置变化。进而,可以利用DCT或傅里叶变换,将能够表征目标对象的各个关键点在该组三维运动子数据对应的分段的运动中的位置变化的三维运动数据,转换为第二频域数据,得到该组三维运动子数据对应的第二频域数据。
示例性的,在三维运动数据包括128帧姿态数据,第二数量为S的情况下,可以先将128帧姿态数据划分至S组,得到S组三维运动子数据,每组三维运动子数据中包括128/S帧姿态数据。然后,可以利用DCT,对每组三维运动子数据进行转换,得到每组三维运动子数据对应的n维第二频域数据。进而,基于对每组三维运动子数据的转换,可以得到S个n维的第二频域数据。
S102-3:基于第一频域数据、第二频域数据,对三维运动数据进行去除全局朝向的压缩处理,得到目标运动数据。
本步骤中,可以基于各组三维运动子数据对应的第二频域数据,对各组三维运动子数据对应的三维运动数据进行压缩处理,再将压缩处理后的运动数据和第一频域数据进行融合,从而完成对三维运动数据进行去除全局朝向的压缩处理,得到目标运动数据。
另外,针对S102-1~S102-3,可以是利用目标编码神经网络执行的,在得到三维运动数据之后,可以将三维运动数据输入至目标编码神经网络,之后,目标编码神经网络中的DCT转换模块,可以输出三维运动数据对应的第一频域数据,以及每组三维运动子数据对应的第二频域数据,之后,再利用第一频域数据、第二频域数据,对三维运动数据进行去除全局朝向的压缩处理,输出目标运动数据。
这样,频域数据能够表征三维运动数据中目标对象的各个关键点在频域上的变化信息,目标对象的各个关键点能够准确反映目标对象的姿态,通过将三维运动数据转换至频域,可以得到能够反映目标对象的各个关键点在运动时的整体变化信息、以及反映目标对象的各个关键点在运动时的整体信息量的第一频域数据;通过将三维运动数据分为多组三维运动子数据,能够实现对目标对象的整体运动的分段处理,实现对目标对象的整体运动的细化分析;通过将多组三维运动子数据分别转换至频域,可以得到能够反映目标对象的各个关键点在每一段运动的变化信息、以及各个关键点在每一段运动对应的信息量的第二频域数据,进而,基于第一频域数据和第二频域数据,有利于实现对三维运动数据的全局朝向的准确去除,得到准确合理的目标运动数据。
在一种实施例中,针对S102-3:可以按照以下步骤实施:
S102-3-1:基于第一频域数据,得到三维运动数据的频域特征数据。
具体实施时,在得到第一频域数据之后,可以利用目标编码神经网络中的全连接层,对第一频域数据进行映射处理,从而得到三维运动数据对应的频域特征数据。例如,可以将m维的第一频域数据转换为512维的频域特征数据。
S102-3-2:基于第二频域数据,确定多组三维运动子数据分别对应的权重;基于多组三维运动子数据分别对应的权重,对三维运动数据进行加权处理,得到第一三维运动数据。
具体实施时,针对基于第二频域数据,确定多组三维运动子数据分别对应的权重的步骤,可以先对多组三维运动子数据分别对应的第二频域数据进行融合处理,得到融合频域数据,其中,融合频域数据对应的维度与三维运动子数据的组数相同。延续上述将128帧姿态数据划分至S组,得到S组三维运动子数据的例子,在得到S个n维的第二频域数据之后,可以将S个n维的第二频域数据融合为S*n的融合频域数据。
具体实施时,针对S组三维运动子数据中的每组三维运动子数据对应的第二频域数据(n维的第二频域数据),可以先基于该第二频域数据,确定该第二频域数据对应的权重向量,然后,可以将确定的每个第二频域数据对应的权重向量进行融合,得到S*n的融合频域数据。
然后,可以对融合频域数据进行归一化处理,得到多组三维运动子数据分别对应的权重。具体的,可以利用softmax函数,对S*n的融合频域数据进行归一化处理,输出S个归一化处理后的权重向量。其中,每个归一化处理后的权重向量对应于一组三维运动子数据中的各个姿态数据。
进而,可以将每组三维运动子数据对应的权重向量作为该组三维运动子数据对应的权重。
进一步的,针对基于多组三维运动子数据分别对应的权重,对三维运动数据进行加权处理,得到第一三维运动数据的步骤,可以基于每组三维运动子数据对应的权重,对该组三维运动子数据对应的各帧姿态数据进行加权处理,得到该组三维运动子数据对应的加权后的三维运动数据。之后,可以将每组三维运动子数据对应的加权后的三维运动数据,作为第一三维运动数据。
S102-3-3:对第一三维运动数据进行多种尺度下的特征提取,得到多种尺度分别对应的第二三维运动数据。
这里,一种尺度可以对应于一个目标编码神经网络中的一个卷积层和至少一个全连接层。在得到第一三维运动数据之后,可以利用目标编码神经网络中部署的多种尺度分别对应的卷积层和全连接层,依次对第一三维运动数据进行多种尺度下的特征提取,得到多种尺度分别对应的第二三维运动数据。
在一种实施例中,针对S102-3-3,针对多种尺度中的每种尺度,可以利用该尺度对应的卷积层,对尺度对应的输入三维运动数据进行卷积处理,并对卷积处理的结果进行全连接映射处理,得到该种尺度对应的第二三维运动数据。其中,输入三维运动数据包括:前一种尺度对应的第二三维运动数据、或者第一三维运动数据。如图2所示,为本公开实施例所提供的一种用于确定一种尺度对应的第二三维运动数据的网络结构的结构示意图,其中,尺度对应于一个卷积层和两个全连接层。如图3所示,为本公开实施例所提供的一种用于对第一三维运动数据进行多种尺度下的特征提取,得到多种尺度分别对应的第二三维运动数据的网络结构的结构示意图,其中,图3中包括3种尺度分别对应的3个提取模块,一个提取模块包括图2中的一个卷积层和两个全连接层,并且,在具体实施时,提取模块可以为残差模块Residual Block。另外,具体的提取模块的数量可以根据需要进行设置,此处不进行限定,本公开实施例中仅以3为例进行说明。
具体实施时,以图3为参考进行说明,针对第一种尺度,其输入三维运动数据为第一三维运动数据,具体的,可以将第一三维运动数据输入至该中尺度对应的卷积层,利用卷积层对第一三维运动数据进行卷积处理,得到卷积处理结果;之后,将卷积处理结果输入至第一个全连接层,利用第一个全连接层对卷积处理结果进行第一次的全连接映射处理,得到第一映射处理结果;再将第一映射处理结果输入至第二个全连接层,利用第二个全连接层对第一映射处理结果进行进一步的全连接映射处理,得到第二映射处理结果;最后,将卷积处理结果和第二映射处理结果进行融合,得到第一种尺度对应的第二三维运动数据。
针对除第一种尺度外的每个尺度,可以将前一尺度输出的第二三维运动数据作为该尺度对应的输入,利用该尺度对应的卷积层对前一尺度输出的第二三维运动数据进行卷积处理,得到该尺度对应的卷积处理结果;之后,将该尺度对应的卷积处理结果输入至第一个全连接层,利用第一个全连接层对卷积处理结果进行第一次的全连接映射处理,得到该尺度对应的第一映射处理结果;再将该尺度对应的第一映射处理结果输入至第二个全连接层,利用第二个全连接层对该尺度对应的第一映射处理结果进行进一步的全连接映射处理,得到该尺度对应的第二映射处理结果;最后,将该尺度对应的卷积处理结果和该尺度对应的第二映射处理结果进行融合,得到该尺度对应的第二三维运动数据。
进而,基于图3所示的3个提取模块,可以得到3种尺度下分别对应的第二三维运动数据。
这样,通过对三维运动数据的卷积处理和全连接映射处理,能够实现对三维运动数据的合理编码,得到合理的第二三维运动数据。
S102-3-4:将频域特征数据和多种尺度分别对应的第二三维运动数据进行融合,得到目标运动数据。
本步骤中,可以利用目标编码神经网络中的全连接层,对频域特征数据和多种尺度分别对应的第二三维运动数据进行融合,得到目标运动数据。
这样,反映不同信息量的第二频域数据对应的数据压缩程度不同,基于每组三维运动子数据对应的第二频域数据所反映的信息量,能够确定每组三维运动子数据对应的权重,再基于多组三维运动子数据分别对应的权重,对三维运动数据进行加权处理,能够实现对三维运动数据对应的每段运动的高精度压缩,得到合理的第一三维运动数据;对第一三维运动数据进行多种尺度下的特征提取,能够得到第一三维运动数据在不同深度上分别对应的第二三维运动数据,进而,通过将多种尺度分别对应的第二三维运动数据和频域特征数据进行融合,可以得益于第二三维运动数据的在深度维度上的数据丰富性,得到准确的目标运动数据。
在一种实施例中,针对S102-3-4,可以先将频域特征数据和多种尺度分别对应的第二三维运动数据进行拼接,得到拼接后的第三三维运动数据。
然后,将拼接后的第三三维运动数据输入至目标编码神经网络中的全连接层,利用全连接层对第三三维运动数据进行全连接映射处理,得到目标运动数据。具体的,得到的目标运动数据可以为目标数量维的特征数据,例如,目标运动数据可以为1*256维的特征数据,也即将128*72维的三维运动数据压缩为1*256维的目标运动数据。
这样,通过将频域特征数据和多种尺度分别对应的第二三维运动数据进行拼接,能够实现对频域特征数据和第二三维运动数据的数据统一,得到统一后的第三三维运动数据,再通过对第三三维运动数据的全连接映射处理,能够实现将处于隐层特征空间的第三三维运动数据还原到三维运动数据对应的样本初始空间,得到与样本初始空间相匹配的目标运动数据。
在一种实施例中,由于得到每种运动对应的目标运动数据可以利用目标编码神经网络执行,因此,本公开实施例还提供了一种训练得到目标编码神经网络的方法。
具体实施时,可以先获取样本数据;其中,样本数据包括:多个样本姿态分别对应的样本姿态数据;样本姿态数据能够表征样本姿态,具体可以包括样本姿态和样本姿态对应的朝向信息。多个样本姿态为一个运动对应的多个连续的姿态,获取的样本数据为去除全局朝向的运动数据。具体的,样本数据可以包括多个样本运动对应的姿态数据,每个样本运动对应的姿态数据为该样本运动的多个样本姿态对应的样本姿态数据。
在一种实施例中,针对获取样本数据的步骤,可以按照以下步骤实施:
P1:获取多种样本运动分别对应的原始三维运动数据;原始三维运动数据包括:多个样本姿态分别对应的姿态数据。
这里,原始三维运动数据为包括全局朝向的运动数据,每个原始三维运动数据中对应的姿态数据可以具体包括姿态、姿态的朝向信息,其中,姿态对应的朝向信息是受到目标对象的全局朝向影响的朝向信息。
具体实施时,可以先获取多种样本运动分别对应的原始三维运动数据。
P2:基于多个样本姿态分别对应的姿态数据中,首个样本姿态对应的姿态数据的朝向信息,确定原始三维运动数据对应的转向角度。
这里,针对每种样本运动对应的原始三维运动数据,可以基于该原始三维数据包括的多个样本姿态分别对应的姿态数据中,首个样本姿态对应的姿态数据,确定首个样本姿态对应的朝向信息,进而,可以基于首个样本姿态对应的朝向信息,确定首个样本姿态对应的yaw,之后,以首个样本姿态对应的yaw为0度为目标,确定首个样本姿态在y轴对应的转向角度以及转向方向(顺时针或逆时针),即在基于该转向角度以及转向方向对首个样本姿态在y轴上进行旋转,旋转后的首个样本姿态对应的yaw为0度。
之后,可以将该转向角度以及转向方向作为原始三维运动数据包括的每个样本姿态对应的转向角度以及转向方向。并且,转向角度和转向方向可以以旋转矩阵的形式表征。
基于上述步骤,可以分别确定每个原始三维运动数据对应的转向角度。
P3:基于转向角度,对原始三维运动数据中的每个样本姿态进行转向处理,得到样本数据。
本步骤中,针对每个原始三维运动数据,可以利用该原始三维运动数据对应的转向角度以及转向方向,依次对原始三维运动数据中的每个样本姿态进行转向处理,得到每个原始三维运动数据对应的样本数据。其中,样本数据中的首个样本姿态对应的yaw为0度,从而实现对首个样本姿态对应的正规化。样本数据中各个样本姿态之间的相对角度和方向与样本数据对应的原始三维运动数据中各个样本姿态之间的相对角度和方向一致,从而,实现对原始三维运动数据各个样本姿态的正规化。
这样,基于每个原始三维运动数据对应的转向角度以及转向方向,可以实现对每个原始三维运动数据对应的样本姿态的转向处理,实现对每个原始三维运动数据对应的各个样本姿态的正规化,得到每个原始三维运动数据对应的样本数据。
然后可以基于样本数据,对编码神经网络(其中,训练好的编码神经网络为目标编码神经网络)执行多轮训练,并在每轮训练中,执行如图4所示的过程,如图4所示,为本公开实施例所提供的一种训练编码神经网络的方法的流程图,可以包括以下步骤:
S401:对样本数据进行随机的全局朝向转向处理,得到第一中间样本数据;第一中间样本数据包括:多个样本姿态分别对应的第一姿态数据。
这里,针对得到的样本数据,可以利用随机旋转模块,对样本数据进行均匀采样处理,得到样本数据对应的一个处于预设范围的随机旋转角度,并利用随机旋转角度对样本数据中的每个样本姿态进行随机的全局朝向转向处理,得到第一中间样本数据。具体的,针对每个样本姿态,可以将该样本姿态在y轴上进行顺时针或逆时针的旋转,旋转角度为随机旋转角度,之后,可以得到该样本姿态对应的旋转后的第一样本姿态,以及第一样本姿态对应的第一姿态数据。
这样,基于对每个样本姿态进行的随机的全局朝向转向处理,可以分别得到每个样本姿态对应的第一样本姿态及第一姿态数据。
S402:利用编码神经网络对第一中间样本数据进行去除全局朝向的编码处理,得到编码运动数据。
具体实施时,可以将第一中间样本数据输入至待训练的编码神经网络,利用编码神经网络按照上述各实施例所提及的编码方法,对第一中间样本数据进行去除全局朝向的编码处理,得到编码运动数据;并且,编码神经网络在对第一中间样本数据进行处理的过程中,将消除第一中间样本数据对应的随机旋转角度,输出不带有随机旋转角度相关的信息的编码运动数据。
S403:利用解码神经网络对编码运动数据进行解码处理,得到第二中间样本数据;第二中间样本数据包括:多个样本姿态分别对应的第二姿态数据。
这里,解码神经网络为与编码神经网络相匹配的神经网络,用于对编码神经网络编码后的数据进行解码还原。具体的,可以将编码运动数据输入至待训练的解码神经网络,利用解码神经网络对编码运动数据进行解码处理,从而,输出解码后的第二中间样本数据。
其中,第二中间样本数据中包括解码神经网络预测的多个样本姿态分别对应的第二姿态数据;由于编码运动数据为输出的不带有随机旋转角度相关的信息的数据,所以第二中间样本数据中也不带有随机旋转角度相关的信息。
如图5所示,为本公开实施例提供的一种利用编码神经网络和解码神经网络对获取的原始三维运动数据进行处理,得到第二中间样本数据的示意图。具体的,在图5中,在获取样本运动分别对应的原始三维运动数据之后,可以先确定原始三维运动数据对应的转向角度,对原始三维运动数据中的每个样本姿态进行转向处理,得到样本数据;然后利用随机旋转模块对样本数据进行随机的全局朝向转向处理,得到第一中间样本数据;再利用编码神经网络对第一中间样本数据进行去除全局朝向的编码处理,输出编码运动数据。之后,利用解码神经网络对编码运动数据进行解码处理,输出第二中间样本数据。
由图5可知,解码神经网络中可以包括解码模块和还原模块,解码模块包括多个全连接层,还原模块中还包括第一解码网络和第二解码网络。针对输出编码运动数据的操作,可以先对第一中间样本数据进行DCT变换,得到第一频域数据和多组中间子样本数据分别对应的第二频域数据,基于多个第二频域数据确定多组中间子样本数据分别对应的权重,再利用得到的权重对第一中间样本数据进行加权处理,得到第一样本三维运动数据;并基于对第一中间样本数据进行的DCT变换,确定第一中间样本数据对应的第一频域数据,再基于第一频域数据确定样本频域特征数据;之后,对第一样本三维运动数据进行多种尺度的特征提取,得到多种尺度分别对应的第二样本三维运动数据;最后,将样本频域特征数据和多种尺度分别对应的第二样本三维运动数据进行融合,得到编码运动数据。
针对输出第二中间样本数据的操作,在得到编码运动数据之后,可以将其输入到解码模块中,利用多个全连接层对编码运动数据进行多种尺度下的还原,最终输出预测的每个样本姿态对应的朝向特征以及每个样本姿态对应的姿态特征。然后,可以解码神经网络中的还原模块,对预测的每个样本姿态对应的朝向特征以及每个样本姿态对应的姿态特征进行特征拼接,得到编码运动数据对应的第二中间样本数据。
具体的,针对解码模块的还原过程,下面以图5所示的4个全连接层进行详细说明:
首先可以将得到的编码运动数据输入到解码模块的第一个全连接层,利用第一个全连接层对编码运动数据进行全连接映射处理,得到第一个全连接层对应的第一输出特征数据;然后,将第一输出特征数据输入至第二个全连接层,利用第二个全连接层对第一输出特征数据进行全连接映射处理,得到第二输出特征数据,并将第二输出特征数据和第一输出特征数据一起输入至第三个全连接层,利用第三个全连接层对第二输出特征数据和第一输出特征数据进行全连接映射处理,得到第三输出特征数据;将第三输出特征数据和第二输出特征数据一起输入至第四个全连接层,利用第四个全连接层对第二输出特征数据和第三输出特征数据进行全连接映射处理,输出每个样本姿态对应的朝向特征数据ψg以及每个样本姿态对应的姿态具体形状的姿态特征数据ψl
示例性的,在编码运动数据为1*256维的数据,样本数据为128*72维的数据的情况下,ψg可以为128*6维的数据,ψl可以为128*32维的数据。
这里,由于得到的ψg和ψl为隐式的特征数据,不能直接作为输出,因此还需要利用还原模块中的第一解码网络Dcont对ψg进行解码,得到显示的第一目标特征数据,以及利用还原模块中的第二解码网络Dvp对ψl进行解码,得到显示的第二目标特征数据,然后,再将第一目标特征数据和第二目标特征数据进行特征拼接,得到第二中间样本数据。
例如,在第一目标特征数据可以为128*3维的数据,第二目标特征数据可以为128*69维的数据的情况下,拼接后得到128*72维的第二中间样本数据。
这样,利用上述多个全连接层,对编码运动数据进行还原,可以防止码运动数据的梯度消失,实现对编码运动数据的充分融合。
S404:基于样本数据和第二中间样本数据,对编码神经网络和解码神经网络进行本轮训练。
本步骤中,可以基于样本数据和第二中间样本数据,确定编码神经网络和解码神经网络对应的模型损失,利用模型损失(在图6中已示出),对编码神经网络和解码神经网络进行本轮训练,得到本轮训练完成的编码神经网络和解码神经网络。
进而,可以基于上述S401~S404,对编码神经网络和解码神经网络进行多轮训练。
S405:将经过多轮训练的编码神经网络,确定为目标编码神经网络。
这里,可以将经过多轮训练的编码神经网络,确定为目标编码神经网络,以及,可以将经过多轮训练的解码神经网络,确定为目标解码神经网络。
其中,多轮训练的轮数可以为预设值,或者,多轮训练的轮数可以根据训练完成的编码神经网络和解码神经网络的精度确定,在训练完成的编码神经网络和解码神经网络的精度满足预设精度的情况下,得到目标编码神经网络和目标解码神经网络。
这样,通过对样本数据进行全局朝向转向处理,能够实现对样本数据的加噪处理,利用编码神经网络对加噪处理后的第一中间样本数据进行编码处理,能够提高编码神经网络的去噪能力;利用解码神经网络对编码运动数据进行解码处理,能够实现对编码运动数据的还原,在编码神经网络和解码神经网络精度可靠的情况下,解码神经网络输出的第二中间样本数据也将相对准确,即贴近于样本数据,因此,基于样本数据和第二中间样本数据,能够确定出编码神经网络和解码神经网络对应的模型损失,再基于模型损失对编码神经网络和解码神经网络进行多轮训练,能够得到精度可靠的目标编码神经网络和精度可靠的解码神经网络。
在一种实施例中,可以利用如下步骤确定模型损失:
S1:基于样本数据和第二中间样本数据,确定样本数据重构损失和/或编码运动数据和正态分布之间的相似度损失。
这里,样本数据重构损失用于表征解码神经网络在解码编码运动数据时的损失以及编码神经网络确定编码运动数据时的损失;相似度损失用于表征编码运动数据在以第一中间样本数据为条件下的概率和正态分布之间的相似度损失。
具体的,针对本步骤中的样本数据重构损失,可以基于样本数据中每帧样本姿态数据对应的朝向特征数据、每帧样本姿态数据对应的姿态特征数据、第二中间样本数据中每帧第二姿态数据对应的朝向特征数据、以及每帧第二姿态数据对应的姿态特征数据,确定样本数据重构损失。
这里,样本数据中每帧样本姿态数据可以包括能够表征每个样本姿态对应朝向的朝向特征数据,以及能够表征每个样本姿态对应的具体姿态形状的姿态特征数据,由上述实施例可知,第二中间样本数据包括的多个样本姿态分别对应的第二姿态数据中也包括每帧第二姿态数据对应的朝向特征数据、以及每帧第二姿态数据对应的姿态特征数据。之后,可以基于如下公式一确定样本数据重构损失:
公式一:
Figure BDA0003329913930000171
其中,Lrec表示样本数据重构损失,M表示编码神经网络和解码神经网络,β为表示形状参数,
Figure BDA0003329913930000172
表示样本姿态对应的朝向特征数据,θl表示样本姿态对应的姿态特征数据。
之后,基于上述公式一,以及样本数据和第二中间样本数据,可以确定出样本数据重构损失。
针对本步骤中的相似度损失,可以利用如下公式二第二确定:
公式二:
Figure BDA0003329913930000173
其中,LKL表示相似度损失,KL表示散度,
Figure BDA0003329913930000174
表示进行了随机的全局朝向转向处理的第一中间样本数据,zmot表示编码运动数据,
Figure BDA0003329913930000175
表示编码运动数据在以第一中间样本数据为条件下的概率,N(0,I)表示均值为0,标准差为I的正态分布。
这样,基于上述公式二,可以确定相似度损失。
S2:基于样本数据重构损失和/或编码运动数据和正态分布之间的相似度损失,确定模型损失。
具体实施时,可以按照以下公式三确定模型损失:
公式三:L=λrecLrecKLLKL
其中,λrec表示样本数据重构损失对应的第一损失系数,λKL表示相似度损失对应的第二损失系数。
具体的,可以将第一损失系数和样本数据重构损失相乘得到的和与第二损失系数和相似度损失的和相加,基于相加得到的结果,确定模型损失。
这样,基于朝向特征数据能够确定解码神经网络在还原姿态数据对应的朝向信息时的损失,基于姿态特征数据能够确定解码神经网络在还原每帧姿态时的损失,将两种损失作为样本数据重构损失对编码神经网络和解码神经网络进行训练,能够提高输出的朝向特征数据和姿态特征数据的精度。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与先验空间的生成方法对应的先验空间的生成装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述先验空间的生成方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图6所示,为本公开实施例提供的一种先验空间的生成装置的示意图,包括:
获取模块601,用于获取目标对象的多种运动分别对应的三维运动数据;所述三维运动数据包括:对应运动的多个姿态分别对应的姿态数据;
编码模块602,用于对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到每种运动对应的目标运动数据;
确定模块603,用于基于多种运动分别对应的目标运动数据,生成目标先验空间。
在一种可能的实施方式中,所述装置还包括:
识别模块604,用于所述基于多种运动分别对应的目标运动数据,生成目标先验空间之后,对所述运动视频进行特征提取,得到运动特征数据;
基于所述运动特征数据,从所述目标先验空间中确定与所述运动特征数据匹配的目标运动数据;
基于与所述运动特征数据匹配的目标运动数据对应的运动类型,确定所述目标对象的运动类型。
在一种可能的实施方式中,所述编码模块602,用于确定所述三维运动数据在频域对应的第一频域数据,以及
将所述三维运动数据分为多组三维运动子数据,并确定多组三维运动子数据在频域分别对应的第二频域数据;
基于所述第一频域数据、所述第二频域数据,对所述三维运动数据进行去除全局朝向的压缩处理,得到所述目标运动数据。
在一种可能的实施方式中,所述编码模块602,用于基于所述第一频域数据,得到所述三维运动数据的频域特征数据;
以及,基于所述第二频域数据,确定多组三维运动子数据分别对应的权重;基于多组三维运动子数据分别对应的权重,对所述三维运动数据进行加权处理,得到第一三维运动数据;
对所述第一三维运动数据进行多种尺度的特征提取,得到多种尺度分别对应的第二三维运动数据;
将所述频域特征数据和多种尺度分别对应的第二三维运动数据进行融合,得到所述目标运动数据。
在一种可能的实施方式中,所述编码模块602,用于对多组三维运动子数据分别对应的第二频域数据进行融合处理,得到融合频域数据;所述融合频域数据的维度与所述三维运动子数据的组数相同;
对所述融合频域数据进行归一化处理,得到多组三维运动子数据分别对应的权重。
在一种可能的实施方式中,所述编码模块602,用于针对多种尺度中的每种尺度,对尺度对应的输入三维运动数据进行卷积处理,并对卷积处理的结果进行全连接映射处理,得到该种尺度对应的第二三维运动数据;
其中,所述输入三维运动数据包括:前一种尺度对应的第二三维运动数据、或者所述第一三维运动数据。
在一种可能的实施方式中,所述编码模块602,用于将所述频域特征数据和多种尺度分别对应的第二三维运动数据进行拼接,得到第三三维运动数据;
对所述第三三维运动数据进行全连接映射处理,得到所述目标运动数据。
在一种可能的实施方式中,所述编码模块602,用于针对每种运动分别对应的三维运动数据,利用预先训练的目标编码神经网络,对该种运动对应的三维运动数据进行去除全局朝向的编码处理,得到该种运动对应的目标运动数据。
在一种可能的实施方式中,所述装置还包括:
训练模块605,用于采用下述方式训练得到所述目标编码神经网络:
获取样本数据;所述样本数据包括:多个样本姿态分别对应的样本姿态数据;
执行多轮训练,并在每轮训练中,执行下述过程:
对所述样本数据进行随机的全局朝向转向处理,得到第一中间样本数据;所述第一中间样本数据包括:多个所述样本姿态分别对应的第一姿态数据;
利用编码神经网络对所述第一中间样本数据进行去除全局朝向的编码处理,得到编码运动数据;
利用解码神经网络对所述编码运动数据进行解码处理,得到第二中间样本数据;所述第二中间样本数据包括:多个所述样本姿态分别对应的第二姿态数据;
基于所述样本数据和所述第二中间样本数据,对所述编码神经网络和所述解码神经网络进行本轮训练;
将经过多轮训练的编码神经网络,确定为所述目标编码神经网络。
在一种可能的实施方式中,所述训练模块605,用于基于所述样本数据、和所述第二中间样本数据,确定模型损失;
基于所述模型损失,对所述编码神经网络和所述解码神经网络进行本轮训练。
在一种可能的实施方式中,所述训练模块605,用于基于所述样本数据和所述第二中间样本数据,确定样本数据重构损失和/或编码运动数据和正态分布之间的相似度损失;
基于所述样本数据重构损失和/或编码运动数据和正态分布之间的相似度损失,确定所述模型损失。
在一种可能的实施方式中,所述训练模块605,用于基于所述样本数据中每帧样本姿态数据对应的朝向特征数据、每帧样本姿态数据对应的姿态特征数据、所述第二中间样本数据中每帧第二姿态数据对应的朝向特征数据、以及每帧第二姿态数据对应的姿态特征数据,确定所述样本数据重构损失。
在一种可能的实施方式中,所述训练模块605,用于获取多种样本运动分别对应的原始三维运动数据;所述原始三维运动数据包括:多个样本姿态分别对应的姿态数据;
基于多个样本姿态分别对应的姿态数据中,首个样本姿态对应的姿态数据的朝向信息,确定所述原始三维运动数据对应的转向角度;
基于所述转向角度,对所述原始三维运动数据中的每个样本姿态进行转向处理,得到所述样本数据。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例还提供了一种计算机设备,如图7所示,为本公开实施例提供的一种计算机设备结构示意图,包括:
处理器71和存储器72;所述存储器72存储有处理器71可执行的机器可读指令,处理器71用于执行存储器72中存储的机器可读指令,所述机器可读指令被处理器71执行时,处理器71执行下述步骤:S101:获取目标对象的多种运动分别对应的三维运动数据;三维运动数据包括:对应运动的多个姿态分别对应的姿态数据;S102:对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到每种运动对应的目标运动数据以及S103:基于多种运动分别对应的目标运动数据,生成目标先验空间。
上述存储器72包括内存721和外部存储器722;这里的内存721也称内存储器,用于暂时存放处理器71中的运算数据,以及与硬盘等外部存储器722交换的数据,处理器71通过内存721与外部存储器722进行数据交换。
上述指令的具体执行过程可以参考本公开实施例中所述的先验空间的生成方法的步骤,此处不再赘述。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的先验空间的生成方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的先验空间的生成方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的先验空间的生成方法的步骤,具体可参见上述方法实施例,在此不再赘述。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (16)

1.一种先验空间的生成方法,其特征在于,包括:
获取目标对象的多种运动分别对应的三维运动数据;所述三维运动数据包括:对应运动的多个姿态分别对应的姿态数据;
对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到每种运动对应的目标运动数据;
基于多种运动分别对应的目标运动数据,生成目标先验空间。
2.根据权利要求1所述的方法,其特征在于,所述基于多种运动分别对应的目标运动数据,生成目标先验空间之后,还包括:
获取所述目标对象在运动时的运动视频;
对所述运动视频进行特征提取,得到运动特征数据;
基于所述运动特征数据,从所述目标先验空间中确定与所述运动特征数据匹配的目标运动数据;
基于与所述运动特征数据匹配的目标运动数据对应的运动类型,确定所述目标对象的运动类型。
3.根据权利要求1或2所述的方法,其特征在于,所述对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到所述每种运动对应的目标运动数据,包括:
确定所述三维运动数据在频域对应的第一频域数据,以及
将所述三维运动数据分为多组三维运动子数据,并确定多组三维运动子数据在频域分别对应的第二频域数据;
基于所述第一频域数据、所述第二频域数据,对所述三维运动数据进行去除全局朝向的压缩处理,得到所述目标运动数据。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一频域数据、所述第二频域数据,对所述三维运动数据进行去除全局朝向的压缩处理,得到所述目标运动数据,包括:
基于所述第一频域数据,得到所述三维运动数据的频域特征数据;
以及,基于所述第二频域数据,确定多组三维运动子数据分别对应的权重;基于多组三维运动子数据分别对应的权重,对所述三维运动数据进行加权处理,得到第一三维运动数据;
对所述第一三维运动数据进行多种尺度的特征提取,得到多种尺度分别对应的第二三维运动数据;
将所述频域特征数据和多种尺度分别对应的第二三维运动数据进行融合,得到所述目标运动数据。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二频域数据,确定多组三维运动子数据分别对应的权重,包括:
对多组三维运动子数据分别对应的第二频域数据进行融合处理,得到融合频域数据;所述融合频域数据的维度与所述三维运动子数据的组数相同;
对所述融合频域数据进行归一化处理,得到多组三维运动子数据分别对应的权重。
6.根据权利要求4或5所述的方法,其特征在于,所述对所述第一三维运动数据进行多种尺度下的特征提取,得到多种尺度分别对应的第二三维运动数据,包括:
针对多种尺度中的每种尺度,对尺度对应的输入三维运动数据进行卷积处理,并对卷积处理的结果进行全连接映射处理,得到该种尺度对应的第二三维运动数据;
其中,所述输入三维运动数据包括:前一种尺度对应的第二三维运动数据、或者所述第一三维运动数据。
7.根据权利要求4-6任一项所述的方法,其特征在于,所述将所述频域特征数据和多种尺度分别对应的第二三维运动数据进行融合,得到所述目标运动数据,包括:
将所述频域特征数据和多种尺度分别对应的第二三维运动数据进行拼接,得到第三三维运动数据;
对所述第三三维运动数据进行全连接映射处理,得到所述目标运动数据。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到每种运动对应的目标运动数据,包括:
针对每种运动分别对应的三维运动数据,利用预先训练的目标编码神经网络,对该种运动对应的三维运动数据进行去除全局朝向的编码处理,得到该种运动对应的目标运动数据。
9.根据权利要求8所述的方法,其特征在于,采用下述方式训练得到所述目标编码神经网络:
获取样本数据;所述样本数据包括:多个样本姿态分别对应的样本姿态数据;
执行多轮训练,并在每轮训练中,执行下述过程:
对所述样本数据进行随机的全局朝向转向处理,得到第一中间样本数据;所述第一中间样本数据包括:多个所述样本姿态分别对应的第一姿态数据;
利用编码神经网络对所述第一中间样本数据进行去除全局朝向的编码处理,得到编码运动数据;
利用解码神经网络对所述编码运动数据进行解码处理,得到第二中间样本数据;所述第二中间样本数据包括:多个所述样本姿态分别对应的第二姿态数据;
基于所述样本数据和所述第二中间样本数据,对所述编码神经网络和所述解码神经网络进行本轮训练;
将经过多轮训练的编码神经网络,确定为所述目标编码神经网络。
10.根据权利要求9所述的方法,其特征在于,所述基于所述样本数据和所述第二中间样本数据,对所述编码神经网络和所述解码神经网络进行本轮训练,包括:
基于所述样本数据、和所述第二中间样本数据,确定模型损失;
基于所述模型损失,对所述编码神经网络和所述解码神经网络进行本轮训练。
11.根据权利要求10所述的方法,其特征在于,所述基于所述样本数据、和所述第二中间样本数据,确定模型损失,包括:
基于所述样本数据和所述第二中间样本数据,确定样本数据重构损失和/或编码运动数据和正态分布之间的相似度损失;
基于所述样本数据重构损失和/或编码运动数据和正态分布之间的相似度损失,确定所述模型损失。
12.根据权利要求11所述的方法,其特征在于,基于所述样本数据和所述第二中间样本数据,确定样本数据重构损失,包括:
基于所述样本数据中每帧样本姿态数据对应的朝向特征数据、每帧样本姿态数据对应的姿态特征数据、所述第二中间样本数据中每帧第二姿态数据对应的朝向特征数据、以及每帧第二姿态数据对应的姿态特征数据,确定所述样本数据重构损失。
13.根据权利要求9-12任一项所述的方法,其特征在于,所述获取样本数据,包括:
获取多种样本运动分别对应的原始三维运动数据;所述原始三维运动数据包括:多个样本姿态分别对应的姿态数据;
基于多个样本姿态分别对应的姿态数据中,首个样本姿态对应的姿态数据的朝向信息,确定所述原始三维运动数据对应的转向角度;
基于所述转向角度,对所述原始三维运动数据中的每个样本姿态进行转向处理,得到所述样本数据。
14.一种先验空间的生成装置,其特征在于,包括:
获取模块,用于获取目标对象的多种运动分别对应的三维运动数据;所述三维运动数据包括:对应运动的多个姿态分别对应的姿态数据;
编码模块,用于对每种运动对应的三维运动数据进行去除全局朝向的编码处理,得到每种运动对应的目标运动数据;
确定模块,用于基于多种运动分别对应的目标运动数据,生成目标先验空间。
15.一种计算机设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述处理器执行如权利要求1至13任意一项所述的先验空间的生成方法的步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被计算机设备运行时,所述计算机设备执行如权利要求1至13任意一项所述的先验空间的生成方法的步骤。
CN202111275623.6A 2021-10-29 2021-10-29 先验空间的生成方法、装置、计算机设备和存储介质 Withdrawn CN113920466A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111275623.6A CN113920466A (zh) 2021-10-29 2021-10-29 先验空间的生成方法、装置、计算机设备和存储介质
PCT/CN2022/124931 WO2023071806A1 (zh) 2021-10-29 2022-10-12 先验空间的生成方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111275623.6A CN113920466A (zh) 2021-10-29 2021-10-29 先验空间的生成方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113920466A true CN113920466A (zh) 2022-01-11

Family

ID=79243890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111275623.6A Withdrawn CN113920466A (zh) 2021-10-29 2021-10-29 先验空间的生成方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN113920466A (zh)
WO (1) WO2023071806A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071806A1 (zh) * 2021-10-29 2023-05-04 上海商汤智能科技有限公司 先验空间的生成方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5555207B2 (ja) * 2011-07-14 2014-07-23 日本電信電話株式会社 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
CN110533752B (zh) * 2019-07-23 2023-04-07 深圳大学 一种人体动作编辑模型的生成方法、存储介质及电子设备
CN111047548B (zh) * 2020-03-12 2020-07-03 腾讯科技(深圳)有限公司 姿态变换数据处理方法、装置、计算机设备和存储介质
CN111401230B (zh) * 2020-03-13 2023-11-28 深圳市商汤科技有限公司 姿态估计方法及装置、电子设备和存储介质
CN112200165A (zh) * 2020-12-04 2021-01-08 北京软通智慧城市科技有限公司 模型训练方法、人体姿态估计方法、装置、设备及介质
CN113920466A (zh) * 2021-10-29 2022-01-11 上海商汤智能科技有限公司 先验空间的生成方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071806A1 (zh) * 2021-10-29 2023-05-04 上海商汤智能科技有限公司 先验空间的生成方法、装置、计算机设备、存储介质、计算机程序及计算机程序产品

Also Published As

Publication number Publication date
WO2023071806A1 (zh) 2023-05-04

Similar Documents

Publication Publication Date Title
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
CN111325851B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
CN112215050A (zh) 非线性3dmm人脸重建和姿态归一化方法、装置、介质及设备
CN111402143A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN112132739B (zh) 3d重建以及人脸姿态归一化方法、装置、存储介质及设备
CN112396645B (zh) 一种基于卷积残差学习的单目图像深度估计方法和系统
CN111598111B (zh) 三维模型生成方法、装置、计算机设备及存储介质
CN110599395A (zh) 目标图像生成方法、装置、服务器及存储介质
CN113160294A (zh) 图像场景深度的估计方法、装置、终端设备和存储介质
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN111524232B (zh) 三维建模方法、装置和服务器
CN114283495B (zh) 一种基于二值化神经网络的人体姿态估计方法
US20220335685A1 (en) Method and apparatus for point cloud completion, network training method and apparatus, device, and storage medium
CN114219890A (zh) 一种三维重建方法、装置、设备及计算机存储介质
CN115461785A (zh) 生成非线性人类形状模型
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
CN111488810A (zh) 人脸识别方法、装置、终端设备及计算机可读介质
CN113298931B (zh) 一种物体模型的重建方法、装置、终端设备和存储介质
CN116309148A (zh) 图像修复模型训练方法、图像修复方法、装置和电子设备
CN113920466A (zh) 先验空间的生成方法、装置、计算机设备和存储介质
CN112926543A (zh) 图像生成、三维模型生成方法、装置、电子设备及介质
WO2022096944A1 (en) Method and apparatus for point cloud completion, network training method and apparatus, device, and storage medium
CA3177593A1 (en) Transformer-based shape models
CN114863013A (zh) 一种目标物体三维模型重建方法
CN113077383B (zh) 一种模型训练方法及模型训练装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40065272

Country of ref document: HK

WW01 Invention patent application withdrawn after publication

Application publication date: 20220111

WW01 Invention patent application withdrawn after publication