CN113808047A - 一种人体运动捕捉数据去噪方法 - Google Patents
一种人体运动捕捉数据去噪方法 Download PDFInfo
- Publication number
- CN113808047A CN113808047A CN202111106625.2A CN202111106625A CN113808047A CN 113808047 A CN113808047 A CN 113808047A CN 202111106625 A CN202111106625 A CN 202111106625A CN 113808047 A CN113808047 A CN 113808047A
- Authority
- CN
- China
- Prior art keywords
- data
- motion
- layer
- motion capture
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000001537 neural effect Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 239000013307 optical fiber Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 47
- 239000011159 matrix material Substances 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000003550 marker Substances 0.000 description 6
- 230000008439 repair process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- QBWCMBCROVPCKQ-UHFFFAOYSA-N chlorous acid Chemical compound OCl=O QBWCMBCROVPCKQ-UHFFFAOYSA-N 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人体运动捕捉数据去噪方法,包括以下步骤:从CMU运动捕捉库中获取人体运动捕捉数据;解析人体运动捕捉数据,得到世界坐标下的人体运动数据,其中包括各个关节点的世界坐标;对解析后的人体运动数据进行预处理,得到数据集,将数据集划分为训练集和测试集,为测试集添加噪声;构建神经网络模型,将训练集输入到神经网络模型,得到优化的神经网络参数;将带噪声的测试集输入,自动检测出噪声并进行噪声数据的修复,得到去噪后重建的运动序列;本发明提出一种基于深度学习的(基于深度神经网络的人体运动捕捉数据去噪)方法,来提高噪声数据的预测精度,使其在大规模标记点丢失时也有较好的修复效果。
Description
技术领域
本发明涉及运动捕捉数据去噪领域。更具体地说,本发明涉及一种人体运动捕捉数据去噪方法。
背景技术
运动捕捉技术是利用外部设备记录人体的运动,并在虚拟三维空间中对其进行重构的技术,可应用于电影动画、游戏互动、虚拟现实、医疗康复、运动分析等领域,拥有十分广泛的市场前景和商业价值。
光学式运动捕捉系统由于具有较成熟的技术、较高的采样率、运动受限小等特点,已经成为运动捕捉的主流技术。光学式运动捕捉时,在捕捉对象的主要关节处粘贴一些具有发光特点的标记点。高速相机通过接收标记点反射回来的光线,获取标记点在二维图像中的位置。如果一个标记点同时为多部相机所见,则可计算出标记点在三维空间中的坐标信息,以此获得光学式运动捕捉数据。
由于光线对传感器的影响以及人体运动时造成标记点的遮挡,使某些标记点不能被相机看到导致数据缺失或错误产生噪声,导致运动捕捉数据失真。虽然商业的运动捕捉系统能够采用一些方法来处理噪声问题,但大部分需要人的手工干预并且效果并不满意。为抑制噪声的影响,需要对运动捕捉数据去噪,使得去噪后的运动数据应尽可能较为精准和完整地体现原始运动对象的实际运动。
针对运动捕捉数据的噪声问题,研究者提出了很多方法,目前主要分为四类:基于插值的方法、基于矩阵的方法、基于滤波器的方法和基于数据驱动的方法。
1.基于插值的方法
插值法主要利用相邻的可用标记来推断缺失的数据,即根据标记点的运动轨迹进行线性插值或样条插值。因其简单有效,被大多数商用软件所使用(如Vicon)。2010年Howarth等人为线性、三次样条和局部坐标系(LCS)三种不同插值技术的修复精度进行比较,得出的结论是基于LCS的插值表现最佳,更适合重构运动数据。2016年等人认为以上插值方法只是基于单个序列中的连续性,当标记数据缺失时间较长时,重建误差可能较大。他利用人体关节间的高度相关性来复原缺失标记的运动轨迹,但该方法还是不适用于大规模标记点的丢失。
2.基于矩阵的方法
如果将人体运动序列用矩阵表示,则矩阵是低秩的,基于这一发现,Lai等人使用低秩矩阵理论来解决运动捕捉数据的填充与去噪问题。2014年,Feng等人同时考虑了运动数据的低秩结构与时间稳定性,加入了平滑度约束,使用增强的拉格朗日乘数(ALM)算法加速求解矩阵,提高了计算性能。但由于低秩矩阵的固有问题,如果矩阵中的一整行或一整列丢失,则不可能完成矩阵重建,即无法修复严重损坏的人体运动数据。
3.基于卡尔曼滤波器的方法
该类方法应用卡尔曼滤波理论来提取隐藏变量并捕获噪声。2001年,Shin等人引入了一种卡尔曼滤波方法实时地将人体运动数据映射到计算机角色上。2005年,Tak与Ko提出了基于物理的运动重定向过滤器,技术人员通过调整过滤器参数以适应不同的运动,其本质是使用卡尔曼滤波器将运动编辑问题转换为约束状态估计问题。2016年Burke等人认为平滑与低秩矩阵的模型太复杂且由于其迭代性质很可能占用大量内存,所以他提出将标记点投影至低维空间,在低维卡尔曼平滑算法中使用卡尔曼滤波器和低秩矩阵完成缺失标记修复。
在运动学和动态约束的基础上,基于卡尔曼滤波及其扩展算法的方法要优于基于矩阵的方法。但由于时空特征受到破坏,结果经常显得不协调或不自然。并且当标记丢失的时间间隔较长时,该方法通常无效且需要人工干预。
4.基于数据驱动的方法
近年来,得益于新型运动捕捉设备的发展和捕捉技术的提高,运动捕捉数据呈现出了爆发性增长,为算法的改进提供了足够多的样本。目前,最大的运动捕捉免费数据库是卡内基梅隆大学的mocap数据库,提供了asf/amc、BVH以及C3D等数据格式供用户下载。
2011年Jan Baumann首次提出一种基于数据驱动的运动捕捉数据去噪方法。他将Mocap数据库中的数据作为先验数据,建立一个全局有效的空间索引结构K近邻树即KD树。通过对KD树的检索,来查找丢失的标记点。该方法可以将所有运动捕捉数据保存在先验数据库中,并且可以很好地对其进行扩展。
通过对大规模的先验数据进行学习,训练深度学习模型进行去噪的思想已经被应用在运动捕捉的去噪问题上,成为一种主流技术。
2015年,Holden等人使用卷积编码器学习人体运动的流形。流形可以看作是人体运动数据的先验概率分布。该工作证明了运动流形的反投影可用于修复损坏的运动数据,并且针对指定噪声(如高斯噪声或标记丢失)可以进行大规模训练。但他所使用的网络中的池化层降低了数据的时间分辨率,导致数据重建后易产生抖动。同年,Fragkiadaki等人在前人的基础上提出了ERD网络,在LSTM网络的前后扩展了全连接层作为硬编码表示。
2016年,Jain等人基于时空图提出S-RNN神经网络,更加注重环境与人体的交互,具有良好的泛化性,为修复缺失标记提供了新方法。同年,Holden等人在原有的网络基础上堆叠了一个单层的前馈神经网络,使输出的动作保持自然不失真。前馈神经网络需要预先指定输入窗口,由于人体骨骼姿态数据是低维的,因此较长滑动窗口的训练不会带来计算上的挑战。文中再次解释了运动流形是卷积编码器隐藏单元的抽象表示,是稀疏分量中的运动数据,可以将其组合以产生大范围的复杂运动,但这种方法只适合离线的生成,因为在实时控制下,高阶参数(如频率、持续时间)都是随时可能发生变化的。2017年,Mall等人在上述ERD模型的基础上提出了EBF模型,其主要改进是利用时间一致性将递归网络改为双向递归网络,使用四层全连接层替代自动解码器。Mall等人使用EBD模型进行人体骨骼重建,然后用EBF模型进行去噪。虽然根据所有的帧来建立骨骼的时间开销较大,但这种使用模型的堆叠为人体动捕的去噪研究提供了一条思路。
2019年,受Holden启发,Li等提出使用双向LSTM(BLSTM)网络来学习先前和后续运动数据之间的时空关系。Li等认为,RNN结构比卷积神经网络结构能更好地表达序列数据,对于提取运动数据的流形也可以有更好的表现。此外,在实验中他还发现模型训练不需要噪声幅度作为先验知识,高振幅噪声训练的网络也可以用于低振幅噪声数据。同年,Cui也使用了BLSTM网络。与Li不同的是,Li等人除了考虑重建损失和骨长损失外,还增加了平滑度损失,而Cui等人在编码过程中引入了Attention机制,目的是通过模仿人类的观看习惯使修复结果更加自然。
综上所述,基于插值的方法、基于矩阵的方法和基于滤波器的方法具有速度快、成本低等特点,但缺点是无法修复大规模缺失标记点的数据。
因此亟需一种在大规模标记点丢失时也有较好的修复效果的人体运动捕捉数据去噪方法。
发明内容
为了实现根据本发明的这些目的和其它优点,提供了一种人体运动捕捉数据去噪方法,包括以下步骤:
从CMU运动捕捉库中获取人体运动捕捉数据;
解析人体运动捕捉数据,得到世界坐标下的人体运动数据,其中包括各个关节点的世界坐标;
对解析后的人体运动数据进行预处理,得到数据集,将数据集划分为训练集和测试集,为测试集添加噪声;
构建神经网络模型,将训练集输入到神经网络模型,得到优化的神经网络参数;
将带噪声的测试集输入,自动检测出噪声并进行噪声数据的修复,得到去噪后重建的运动序列;
其中,构建神经网络模型,包括:
构建神经网络输入层神经单元,神经网络隐藏层神经单元和神经网络输出层神经单元形成的组织结构,设置参数,以及执行前向传播算法、目标优化、后向传播算法之后,共同完成神经网络的训练,确定构建卷积层、循环层、循环跳跃层、自回归组件与全连接层中每层网络的权值W、V和偏移量b。
进一步的,所述从CMU运动捕捉库中获取人体运动捕捉数据包括:
从CMU运动捕捉库中获取ASF/AMC格式运动数据,包含骨架信息和运动信息,所述骨架信息包括人体骨架模型的31个关节点的信息以及每个关节点的初始位置;
所述运动信息为运动视频中各帧中每个关节点的运动数据。
进一步的,所述解析人体运动捕捉数据,得到世界坐标下的人体运动数据,包括:
根据所述人体运动数据解析出运动序列中的每一帧,并获取每一帧中各个关节点在父关节点的局部坐标系下的局部坐标,并将该局部坐标转化为世界坐标。
进一步的,所述对解析后的人体运动数据进行预处理,包括:
将所有关节点的世界坐标数据转化成以根节点为原点的坐标,再找到运动序列的平均位置,将每个关节点的坐标收缩到以平均位置为中心的区间范围,最后缩放运动序列的数据值到[-1,1]之间,得到数据集。
进一步的,所述将数据集划分为训练集和测试集,为测试集添加噪声,包括:
将数据集分为训练集、测试集;
取数据集中的60%的数据作为训练集,取数据集中的40%的数据作为测试集;
为测试集添加噪声,噪声数据包括两种,一种是标记点丢失产生的噪声数据,以伯努利分布随机生成{0,1}的向量蒙版,其中1表示标记点正常,0表示标记点在捕捉过程中丢失;另一种是标记点抖动产生的噪声数据,采用高斯噪声来模拟。
进一步的,确定构建卷积层的权值W、V和偏移量b,包括:
输入数据定义:假定一个人体运动序列包含n帧,每一帧记录所粘贴的d个标记点的三维位置,则标记点的三维坐标位置X∈Rn×3d。time_step用来设置每次批处理的输入数据个数,则输入的人体运动序列数据的维度是一个[n,time_step,3d]的三维向量;n是帧数,一个运动序列包含n帧;
构建一个一维卷积层,将卷积核过滤器个数kernel_size设为48,卷积核大小设为2,卷积核每次移动的长度strides设为1,卷积核填充padding设为0;time_step用来设置每次批处理输入到神经网络的数据个数;
将输入层进行卷积后的维度new-steps设为:
卷积核经过每一个过滤器的输出为:
hk=f(wk*X+bk) (2)
其中,wk和bk是第k个卷积核的张量和偏移,初始值随机,*为卷积操作,hk是第k个卷积核的输出,X是输入神经单元的数据;
则输入层经过卷积层后,输出数据的维度为[n,new_steps,filters]。
进一步的,确定循环层的权值W、V和偏移量b,包括:
假定xt为t时刻的输入,为t-1时刻的输出值,it是输入门,ft是遗忘门,ot是输出门,为循环层LSTM网络权重系数,b为偏移系数,ct表示t时刻的信息,sigmoid是神经元激活函数,输入门it、遗忘门ft、输出门Ot以及ct的公式为:
进一步的,确定循环跳跃层的权值W、V和偏移量b,包括:
进一步的,确定自回归组件的权值W、V和偏移量b,包括:
确定全连接层的权值W、V和偏移量b,包括:
本网络所使用的损失函数为关节点位置损失,即计算修复的标记点位置与原始标记点位置之间的L2损失,定义其为位置损失Lossp:
本发明至少包括以下有益效果:本发明提出一种基于深度学习的方法,来提高噪声数据的预测精度,使其在大规模标记点丢失时也有较好的修复效果。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明中人体运动捕捉数据去噪方法的步骤示意图。
图2为神经网络模型的框架结构示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变形。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
本领域技术人员应理解的是,在本发明的揭露中,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此上述术语不能理解为对本发明的限制。
可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
本发明的一优选实施方案提供一种人体运动捕捉数据去噪方法,如图1所示,包括以下步骤:
从CMU运动捕捉库中获取人体运动捕捉数据;
解析人体运动捕捉数据,得到世界坐标下的人体运动数据,其中包括各个关节点的世界坐标;
对解析后的人体运动数据进行预处理,得到数据集,将数据集划分为训练集和测试集,为测试集添加噪声;
构建神经网络模型,将训练集输入到神经网络模型,得到优化的神经网络参数;
将带噪声的测试集输入,自动检测出噪声并进行噪声数据的修复,得到去噪后重建的运动序列,
其中,所述构建神经网络模型,如图2所示,包括:
构建神经网络输入层神经单元,神经网络隐藏层神经单元和神经网络输出层神经单元形成的组织结构,设置参数,以及执行前向传播算法、目标优化、后向传播算法之后,共同完成神经网络的训练,确定构建卷积层、循环层、循环跳跃层、自回归组件与全连接层中每层网络的权值W、V和偏移量b。
进一步的,①确定构建卷积层的权值W、V和偏移量b,包括:
输入数据定义:假定一个人体运动序列包含n帧,每一帧记录所粘贴的d个标记点的三维位置,则标记点的三维坐标位置X∈Rn×3d。time_step用来设置每次批处理的输入数据个数,则输入的人体运动序列数据的维度是一个[n,time_step,3d]的三维向量;n是帧数,一个运动序列包含n帧;
构建一个一维卷积层,将卷积核过滤器个数kernel_size设为48,卷积核大小设为2,卷积核每次移动的长度strides设为1,卷积核填充padding设为0;time_step用来设置每次批处理输入到神经网络的数据个数;
将输入层进行卷积后的维度new-steps设为:
卷积核经过每一个过滤器的输出为:
hk=f(wk*X+bk) (2)
其中,wk和bk是第k个卷积核的张量和偏移,初始值随机,*为卷积操作,hk是第k个卷积核的输出,X是输入神经单元的数据;
则输入层经过卷积层后,输出数据的维度为[n,new_steps,filters]。
进一步的,②确定循环层的权值W、V和偏移量b,包括:
假定xt为t时刻的输入,为t-1时刻的输出值,it是输入门,ft是遗忘门,ot是输出门,为循环层LSTM网络权重系数,b为偏移系数,ct表示t时刻的信息,sigmoid是神经元激活函数,输入门it、遗忘门ft、输出门Ot以及ct的公式为:
进一步的,③确定循环跳跃层的权值W、V和偏移量b,包括:
进一步的,④确定自回归组件的权值W、V和偏移量b,包括:
确定全连接层的权值W、V和偏移量b,包括:
本网络所使用的损失函数为关节点位置损失,即计算修复的标记点位置与原始标记点位置之间的L2损失,定义其为位置损失Lossp:
需要解释说明的是,所述从CMU运动捕捉库中获取人体运动捕捉数据包括:
从CMU运动捕捉库中获取ASF/AMC格式运动数据,包含骨架信息和运动信息,所述骨架信息包括人体骨架模型的31个关节点的信息以及每个关节点的初始位置;
所述运动信息为运动视频中各帧中每个关节点的运动数据。
进一步的,所述解析人体运动捕捉数据,得到世界坐标下的人体运动数据,包括:
根据所述人体运动数据解析出运动序列中的每一帧,并获取每一帧中各个关节点在父关节点的局部坐标系下的局部坐标,并将该局部坐标转化为世界坐标。
进一步的,所述对解析后的人体运动数据进行预处理,包括:
将所有关节点的世界坐标数据转化成以根节点为原点的坐标,再找到运动序列的平均位置,将每个关节点的坐标收缩到以平均位置为中心的区间范围,最后缩放运动序列的数据值到[-1,1]之间,得到数据集。
进一步的,所述将数据集划分为训练集和测试集,为测试集添加噪声,包括:
将数据集分为训练集、测试集;
取数据集中的60%的数据作为训练集,取数据集中的40%的数据作为测试集;
为测试集添加噪声,噪声数据包括两种,一种是标记点丢失产生的噪声数据,以伯努利分布随机生成{0,1}的向量蒙版,其中1表示标记点正常,0表示标记点在捕捉过程中丢失;另一种是标记点抖动产生的噪声数据,采用高斯噪声来模拟。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
Claims (9)
1.一种人体运动捕捉数据去噪方法,其特征在于,包括以下步骤:
从CMU运动捕捉库中获取人体运动捕捉数据;
解析人体运动捕捉数据,得到世界坐标下的人体运动数据,其中包括各个关节点的世界坐标;
对解析后的人体运动数据进行预处理,得到数据集,将数据集划分为训练集和测试集,为测试集添加噪声;
构建神经网络模型,将训练集输入到神经网络模型,得到优化的神经网络参数;将带噪声的测试集输入,自动检测出噪声并进行噪声数据的修复,得到去噪后重建的运动序列;
其中,构建神经网络模型,包括:
构建神经网络输入层神经单元,神经网络隐藏层神经单元和神经网络输出层神经单元形成的组织结构,设置参数,以及执行前向传播算法、目标优化、后向传播算法之后,共同完成神经网络的训练,确定构建卷积层、循环层、循环跳跃层、自回归组件与全连接层中每层网络的权值W、V和偏移量b。
2.根据权利要求1所述的人体运动捕捉数据去噪方法,其特征在于,所述从CMU运动捕捉库中获取人体运动捕捉数据包括:
从CMU运动捕捉库中获取ASF/AMC格式运动数据,包含骨架信息和运动信息,所述骨架信息包括人体骨架模型的31个关节点的信息以及每个关节点的初始位置;
所述运动信息为运动视频中各帧中每个关节点的运动数据。
3.根据权利要求1所述的人体运动捕捉数据去噪方法,其特征在于,所述解析人体运动捕捉数据,得到世界坐标下的人体运动数据,包括:
根据所述人体运动数据解析出运动序列中的每一帧,并获取每一帧中各个关节点在父关节点的局部坐标系下的局部坐标,并将该局部坐标转化为世界坐标。
4.根据权利要求3述的人体运动捕捉数据去噪方法,其特征在于,所述对解析后的人体运动数据进行预处理,包括:
将所有关节点的世界坐标数据转化成以根节点为原点的坐标,再找到运动序列的平均位置,将每个关节点的坐标收缩到以平均位置为中心的区间范围,最后缩放运动序列的数据值到[-1,1]之间,得到数据集。
5.根据权利要求4所述的人体运动捕捉数据去噪方法,其特征在于,所述将数据集划分为训练集和测试集,为测试集添加噪声,包括:
将数据集分为训练集、测试集;
取数据集中的60%的数据作为训练集,取数据集中的40%的数据作为测试集;
为测试集添加噪声,其中噪声数据包括两种,一种是标记点丢失产生的噪声数据,以伯努利分布随机生成{0,1}的向量蒙版,其中1表示标记点正常,0表示标记点在捕捉过程中丢失;另一种是标记点抖动产生的噪声数据,采用高斯噪声来模拟。
6.根据权利要求1所述的人体运动捕捉数据去噪方法,其特征在于,确定构建卷积层的权值W、V和偏移量b,包括:
输入数据定义:假定一个人体运动序列包含n帧,每一帧记录所粘贴的d个标记点的三维位置,则标记点的三维坐标位置X∈Rn×3d,time_step用来设置每次批处理的输入数据个数,则输入的人体运动序列数据的维度是一个[n,time_step,3d]的三维向量;n是帧数,一个运动序列包含n帧;
构建一个一维卷积层,将卷积核过滤器个数kernel_size设为48,卷积核大小设为2,卷积核每次移动的长度strides设为1,卷积核填充padding设为0;time_step用来设置每次批处理输入到神经网络的数据个数;
将输入层进行卷积后的维度new-steps设为:
卷积核经过每一个过滤器的输出为:
hk=f(wk*X+bk) (2)
其中,wk和bk是第k个卷积核的张量和偏移,初始值随机,*为卷积操作,hk是第k个卷积核的输出,X是输入神经单元的数据;
则输入层经过卷积层后,输出数据的维度为[n,new_steps,filters]。
9.根据权利要求1所述的人体运动捕捉数据去噪方法,其特征在于,确定自回归组件的权值W、V和偏移量b,包括:
确定全连接层的权值W、V和偏移量b,包括:
本网络所使用的损失函数为关节点位置损失,即计算修复的标记点位置与原始标记点位置之间的L2损失,定义其为位置损失Lossp:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111106625.2A CN113808047B (zh) | 2021-09-22 | 2021-09-22 | 一种人体运动捕捉数据去噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111106625.2A CN113808047B (zh) | 2021-09-22 | 2021-09-22 | 一种人体运动捕捉数据去噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113808047A true CN113808047A (zh) | 2021-12-17 |
CN113808047B CN113808047B (zh) | 2023-10-03 |
Family
ID=78939791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111106625.2A Active CN113808047B (zh) | 2021-09-22 | 2021-09-22 | 一种人体运动捕捉数据去噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113808047B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494341A (zh) * | 2021-12-31 | 2022-05-13 | 北京理工大学 | 一种融合时空约束的光学动作捕捉标记点实时补全方法 |
CN115227569A (zh) * | 2022-06-23 | 2022-10-25 | 齐齐哈尔市祥和中医器械有限责任公司 | 基于现实虚拟的人体穴位识别方法和系统 |
CN115861592A (zh) * | 2023-02-16 | 2023-03-28 | 之江实验室 | 基于神经网络的动作捕捉系统的速度精度优化方法及系统 |
CN116645727A (zh) * | 2023-05-31 | 2023-08-25 | 江苏中科优胜科技有限公司 | 一种基于Openpose模型算法的行为捕捉识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416755A (zh) * | 2018-03-20 | 2018-08-17 | 南昌航空大学 | 一种基于深度学习的图像去噪方法及系统 |
US20190297326A1 (en) * | 2018-03-21 | 2019-09-26 | Nvidia Corporation | Video prediction using spatially displaced convolution |
CN112036291A (zh) * | 2020-08-27 | 2020-12-04 | 东北电力大学 | 基于运动大数据和深度学习的运动学数据模型构建方法 |
CN112464844A (zh) * | 2020-12-07 | 2021-03-09 | 天津科技大学 | 一种基于深度学习与运动目标检测的人体行为动作识别方法 |
-
2021
- 2021-09-22 CN CN202111106625.2A patent/CN113808047B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416755A (zh) * | 2018-03-20 | 2018-08-17 | 南昌航空大学 | 一种基于深度学习的图像去噪方法及系统 |
US20190297326A1 (en) * | 2018-03-21 | 2019-09-26 | Nvidia Corporation | Video prediction using spatially displaced convolution |
CN112036291A (zh) * | 2020-08-27 | 2020-12-04 | 东北电力大学 | 基于运动大数据和深度学习的运动学数据模型构建方法 |
CN112464844A (zh) * | 2020-12-07 | 2021-03-09 | 天津科技大学 | 一种基于深度学习与运动目标检测的人体行为动作识别方法 |
Non-Patent Citations (1)
Title |
---|
郭恒意;贾振堂;: "结合残差密集块的卷积神经网络图像去噪方法", 计算机工程与设计, no. 07, pages 206 - 211 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494341A (zh) * | 2021-12-31 | 2022-05-13 | 北京理工大学 | 一种融合时空约束的光学动作捕捉标记点实时补全方法 |
CN115227569A (zh) * | 2022-06-23 | 2022-10-25 | 齐齐哈尔市祥和中医器械有限责任公司 | 基于现实虚拟的人体穴位识别方法和系统 |
CN115227569B (zh) * | 2022-06-23 | 2024-02-23 | 齐齐哈尔市祥和中医器械有限责任公司 | 基于现实虚拟的人体穴位识别系统 |
CN115861592A (zh) * | 2023-02-16 | 2023-03-28 | 之江实验室 | 基于神经网络的动作捕捉系统的速度精度优化方法及系统 |
CN115861592B (zh) * | 2023-02-16 | 2023-05-26 | 之江实验室 | 基于神经网络的动作捕捉系统的速度精度优化方法及系统 |
CN116645727A (zh) * | 2023-05-31 | 2023-08-25 | 江苏中科优胜科技有限公司 | 一种基于Openpose模型算法的行为捕捉识别方法 |
CN116645727B (zh) * | 2023-05-31 | 2023-12-01 | 江苏中科优胜科技有限公司 | 一种基于Openpose模型算法的行为捕捉识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113808047B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110637323B (zh) | 基于部分的跟踪的方法、设备和系统 | |
CN113808047B (zh) | 一种人体运动捕捉数据去噪方法 | |
US9361723B2 (en) | Method for real-time face animation based on single video camera | |
Stoll et al. | Fast articulated motion tracking using a sums of gaussians body model | |
Dockstader et al. | Multiple camera tracking of interacting and occluded human motion | |
CN111899320B (zh) | 数据处理的方法、动捕去噪模型的训练方法及装置 | |
CN110660017A (zh) | 一种基于三维姿态识别的舞谱记录与演示方法 | |
CN112784736B (zh) | 一种多模态特征融合的人物交互行为识别方法 | |
CN105654492A (zh) | 基于消费级摄像头的鲁棒实时三维重建方法 | |
Zhu et al. | Motion capture data denoising based on LSTNet autoencoder | |
CN112037310A (zh) | 基于神经网络的游戏人物动作识别生成方法 | |
Tretschk et al. | State of the Art in Dense Monocular Non‐Rigid 3D Reconstruction | |
WO2024198747A1 (zh) | 动作捕捉数据的处理方法、装置、设备及存储介质 | |
Zhang et al. | Unsupervised multi-view constrained convolutional network for accurate depth estimation | |
Rabby et al. | BeyondPixels: A comprehensive review of the evolution of neural radiance fields | |
CN117422829A (zh) | 一种基于神经辐射场的人脸图像合成优化方法 | |
CN113989928A (zh) | 一种动作捕捉和重定向方法 | |
CN115965765A (zh) | 一种基于神经变形的可变形场景中人体运动捕捉方法 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
Chang et al. | 3D hand reconstruction with both shape and appearance from an RGB image | |
CN113705379A (zh) | 一种手势估计方法、装置、存储介质及设备 | |
Wang et al. | Swimmer’s posture recognition and correction method based on embedded depth image skeleton tracking | |
CN117218713A (zh) | 动作解算方法、装置、设备及存储介质 | |
CN116958872A (zh) | 一种羽毛球运动的智能化辅助训练方法及系统 | |
US20230104702A1 (en) | Transformer-based shape models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |