CN113808047A

CN113808047A - 一种人体运动捕捉数据去噪方法

Info

Publication number: CN113808047A
Application number: CN202111106625.2A
Authority: CN
Inventors: 朱永琼
Original assignee: Wuhan Business University
Current assignee: Wuhan Business University
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-17
Anticipated expiration: 2041-09-22
Also published as: CN113808047B

Abstract

本发明公开了一种人体运动捕捉数据去噪方法，包括以下步骤：从CMU运动捕捉库中获取人体运动捕捉数据；解析人体运动捕捉数据，得到世界坐标下的人体运动数据，其中包括各个关节点的世界坐标；对解析后的人体运动数据进行预处理，得到数据集，将数据集划分为训练集和测试集，为测试集添加噪声；构建神经网络模型，将训练集输入到神经网络模型，得到优化的神经网络参数；将带噪声的测试集输入，自动检测出噪声并进行噪声数据的修复，得到去噪后重建的运动序列；本发明提出一种基于深度学习的(基于深度神经网络的人体运动捕捉数据去噪)方法，来提高噪声数据的预测精度，使其在大规模标记点丢失时也有较好的修复效果。

Description

一种人体运动捕捉数据去噪方法

技术领域

本发明涉及运动捕捉数据去噪领域。更具体地说，本发明涉及一种人体运动捕捉数据去噪方法。

背景技术

运动捕捉技术是利用外部设备记录人体的运动，并在虚拟三维空间中对其进行重构的技术，可应用于电影动画、游戏互动、虚拟现实、医疗康复、运动分析等领域，拥有十分广泛的市场前景和商业价值。

光学式运动捕捉系统由于具有较成熟的技术、较高的采样率、运动受限小等特点，已经成为运动捕捉的主流技术。光学式运动捕捉时,在捕捉对象的主要关节处粘贴一些具有发光特点的标记点。高速相机通过接收标记点反射回来的光线,获取标记点在二维图像中的位置。如果一个标记点同时为多部相机所见,则可计算出标记点在三维空间中的坐标信息,以此获得光学式运动捕捉数据。

由于光线对传感器的影响以及人体运动时造成标记点的遮挡，使某些标记点不能被相机看到导致数据缺失或错误产生噪声，导致运动捕捉数据失真。虽然商业的运动捕捉系统能够采用一些方法来处理噪声问题，但大部分需要人的手工干预并且效果并不满意。为抑制噪声的影响，需要对运动捕捉数据去噪，使得去噪后的运动数据应尽可能较为精准和完整地体现原始运动对象的实际运动。

针对运动捕捉数据的噪声问题，研究者提出了很多方法，目前主要分为四类：基于插值的方法、基于矩阵的方法、基于滤波器的方法和基于数据驱动的方法。

1.基于插值的方法

插值法主要利用相邻的可用标记来推断缺失的数据，即根据标记点的运动轨迹进行线性插值或样条插值。因其简单有效，被大多数商用软件所使用(如Vicon)。2010年Howarth等人为线性、三次样条和局部坐标系(LCS)三种不同插值技术的修复精度进行比较，得出的结论是基于LCS的插值表现最佳，更适合重构运动数据。2016年

等人认为以上插值方法只是基于单个序列中的连续性，当标记数据缺失时间较长时，重建误差可能较大。他利用人体关节间的高度相关性来复原缺失标记的运动轨迹，但该方法还是不适用于大规模标记点的丢失。

2.基于矩阵的方法

如果将人体运动序列用矩阵表示，则矩阵是低秩的，基于这一发现，Lai等人使用低秩矩阵理论来解决运动捕捉数据的填充与去噪问题。2014年，Feng等人同时考虑了运动数据的低秩结构与时间稳定性，加入了平滑度约束，使用增强的拉格朗日乘数(ALM)算法加速求解矩阵，提高了计算性能。但由于低秩矩阵的固有问题，如果矩阵中的一整行或一整列丢失，则不可能完成矩阵重建，即无法修复严重损坏的人体运动数据。

3.基于卡尔曼滤波器的方法

该类方法应用卡尔曼滤波理论来提取隐藏变量并捕获噪声。2001年，Shin等人引入了一种卡尔曼滤波方法实时地将人体运动数据映射到计算机角色上。2005年，Tak与Ko提出了基于物理的运动重定向过滤器，技术人员通过调整过滤器参数以适应不同的运动，其本质是使用卡尔曼滤波器将运动编辑问题转换为约束状态估计问题。2016年Burke等人认为平滑与低秩矩阵的模型太复杂且由于其迭代性质很可能占用大量内存，所以他提出将标记点投影至低维空间，在低维卡尔曼平滑算法中使用卡尔曼滤波器和低秩矩阵完成缺失标记修复。

在运动学和动态约束的基础上，基于卡尔曼滤波及其扩展算法的方法要优于基于矩阵的方法。但由于时空特征受到破坏，结果经常显得不协调或不自然。并且当标记丢失的时间间隔较长时，该方法通常无效且需要人工干预。

4.基于数据驱动的方法

近年来，得益于新型运动捕捉设备的发展和捕捉技术的提高，运动捕捉数据呈现出了爆发性增长，为算法的改进提供了足够多的样本。目前，最大的运动捕捉免费数据库是卡内基梅隆大学的mocap数据库，提供了asf/amc、BVH以及C3D等数据格式供用户下载。

2011年Jan Baumann首次提出一种基于数据驱动的运动捕捉数据去噪方法。他将Mocap数据库中的数据作为先验数据，建立一个全局有效的空间索引结构K近邻树即KD树。通过对KD树的检索，来查找丢失的标记点。该方法可以将所有运动捕捉数据保存在先验数据库中，并且可以很好地对其进行扩展。

通过对大规模的先验数据进行学习，训练深度学习模型进行去噪的思想已经被应用在运动捕捉的去噪问题上，成为一种主流技术。

2015年，Holden等人使用卷积编码器学习人体运动的流形。流形可以看作是人体运动数据的先验概率分布。该工作证明了运动流形的反投影可用于修复损坏的运动数据，并且针对指定噪声(如高斯噪声或标记丢失)可以进行大规模训练。但他所使用的网络中的池化层降低了数据的时间分辨率，导致数据重建后易产生抖动。同年，Fragkiadaki等人在前人的基础上提出了ERD网络，在LSTM网络的前后扩展了全连接层作为硬编码表示。

2016年，Jain等人基于时空图提出S-RNN神经网络，更加注重环境与人体的交互，具有良好的泛化性，为修复缺失标记提供了新方法。同年，Holden等人在原有的网络基础上堆叠了一个单层的前馈神经网络，使输出的动作保持自然不失真。前馈神经网络需要预先指定输入窗口，由于人体骨骼姿态数据是低维的，因此较长滑动窗口的训练不会带来计算上的挑战。文中再次解释了运动流形是卷积编码器隐藏单元的抽象表示，是稀疏分量中的运动数据，可以将其组合以产生大范围的复杂运动，但这种方法只适合离线的生成，因为在实时控制下，高阶参数(如频率、持续时间)都是随时可能发生变化的。2017年，Mall等人在上述ERD模型的基础上提出了EBF模型，其主要改进是利用时间一致性将递归网络改为双向递归网络，使用四层全连接层替代自动解码器。Mall等人使用EBD模型进行人体骨骼重建，然后用EBF模型进行去噪。虽然根据所有的帧来建立骨骼的时间开销较大，但这种使用模型的堆叠为人体动捕的去噪研究提供了一条思路。

2019年，受Holden启发，Li等提出使用双向LSTM(BLSTM)网络来学习先前和后续运动数据之间的时空关系。Li等认为，RNN结构比卷积神经网络结构能更好地表达序列数据，对于提取运动数据的流形也可以有更好的表现。此外，在实验中他还发现模型训练不需要噪声幅度作为先验知识，高振幅噪声训练的网络也可以用于低振幅噪声数据。同年，Cui也使用了BLSTM网络。与Li不同的是，Li等人除了考虑重建损失和骨长损失外，还增加了平滑度损失，而Cui等人在编码过程中引入了Attention机制，目的是通过模仿人类的观看习惯使修复结果更加自然。

综上所述，基于插值的方法、基于矩阵的方法和基于滤波器的方法具有速度快、成本低等特点，但缺点是无法修复大规模缺失标记点的数据。

因此亟需一种在大规模标记点丢失时也有较好的修复效果的人体运动捕捉数据去噪方法。

发明内容

为了实现根据本发明的这些目的和其它优点，提供了一种人体运动捕捉数据去噪方法，包括以下步骤：

从CMU运动捕捉库中获取人体运动捕捉数据；

解析人体运动捕捉数据，得到世界坐标下的人体运动数据，其中包括各个关节点的世界坐标；

对解析后的人体运动数据进行预处理，得到数据集，将数据集划分为训练集和测试集，为测试集添加噪声；

构建神经网络模型，将训练集输入到神经网络模型，得到优化的神经网络参数；

将带噪声的测试集输入，自动检测出噪声并进行噪声数据的修复，得到去噪后重建的运动序列；

其中，构建神经网络模型，包括：

构建神经网络输入层神经单元，神经网络隐藏层神经单元和神经网络输出层神经单元形成的组织结构，设置参数，以及执行前向传播算法、目标优化、后向传播算法之后，共同完成神经网络的训练，确定构建卷积层、循环层、循环跳跃层、自回归组件与全连接层中每层网络的权值W、V和偏移量b。

进一步的，所述从CMU运动捕捉库中获取人体运动捕捉数据包括：

从CMU运动捕捉库中获取ASF/AMC格式运动数据，包含骨架信息和运动信息，所述骨架信息包括人体骨架模型的31个关节点的信息以及每个关节点的初始位置；

所述运动信息为运动视频中各帧中每个关节点的运动数据。

进一步的，所述解析人体运动捕捉数据，得到世界坐标下的人体运动数据，包括：

根据所述人体运动数据解析出运动序列中的每一帧，并获取每一帧中各个关节点在父关节点的局部坐标系下的局部坐标，并将该局部坐标转化为世界坐标。

进一步的，所述对解析后的人体运动数据进行预处理，包括：

将所有关节点的世界坐标数据转化成以根节点为原点的坐标，再找到运动序列的平均位置，将每个关节点的坐标收缩到以平均位置为中心的区间范围，最后缩放运动序列的数据值到[-1,1]之间，得到数据集。

进一步的，所述将数据集划分为训练集和测试集，为测试集添加噪声，包括：

将数据集分为训练集、测试集；

取数据集中的60％的数据作为训练集，取数据集中的40％的数据作为测试集；

为测试集添加噪声，噪声数据包括两种，一种是标记点丢失产生的噪声数据，以伯努利分布随机生成{0，1}的向量蒙版，其中1表示标记点正常，0表示标记点在捕捉过程中丢失；另一种是标记点抖动产生的噪声数据，采用高斯噪声来模拟。

进一步的，确定构建卷积层的权值W、V和偏移量b，包括：

输入数据定义：假定一个人体运动序列包含n帧，每一帧记录所粘贴的d个标记点的三维位置，则标记点的三维坐标位置X∈R^n×3d。time_step用来设置每次批处理的输入数据个数，则输入的人体运动序列数据的维度是一个[n,time_step,3d]的三维向量；n是帧数，一个运动序列包含n帧；

构建一个一维卷积层，将卷积核过滤器个数kernel_size设为48，卷积核大小设为2，卷积核每次移动的长度strides设为1，卷积核填充padding设为0；time_step用来设置每次批处理输入到神经网络的数据个数；

将输入层进行卷积后的维度new-steps设为：

卷积核经过每一个过滤器的输出为：

h_k＝f(w_k*X+b_k) (2)

其中，w_k和b_k是第k个卷积核的张量和偏移，初始值随机，*为卷积操作，h_k是第k个卷积核的输出，X是输入神经单元的数据；

则输入层经过卷积层后，输出数据的维度为[n,new_steps,filters]。

进一步的，确定循环层的权值W、V和偏移量b，包括：

假定x_t为t时刻的输入，

为t-1时刻的输出值，i_t是输入门，f_t是遗忘门，o_t是输出门，

为循环层LSTM网络权重系数，b为偏移系数，c_t表示t时刻的信息，sigmoid是神经元激活函数，输入门i_t、遗忘门f_t、输出门O_t以及c_t的公式为：

进一步的，确定循环跳跃层的权值W、V和偏移量b，包括：

循环跳跃组件的输入为卷积层结果，p为跳跃的隐藏单元的个数，

为t-p时刻的输出值，

为循环跳跃层网络的权重系数，b^lstm_skip为偏移系数，具体操作如下：

进一步的，确定自回归组件的权值W、V和偏移量b，包括：

假定一个时间序列

序列

是前k个序列的线性组合，则自回归组件输出

为：

其中，自回归组件的权重为

b^ar为偏移；

确定全连接层的权值W、V和偏移量b，包括：

将循环层输出信息

和循环跳跃层的输出信息

进行融合用于特征联合得到

即：

再结合自回归模型层的结果

经过全连接层，使用激活函数tanh输出最终预测序列Y_t；

本网络所使用的损失函数为关节点位置损失，即计算修复的标记点位置与原始标记点位置之间的L2损失，定义其为位置损失Loss_p：

其中N表示序列中的帧数，x_i表示原始帧，

表示复原帧，N是运动序列总帧数。

本发明至少包括以下有益效果：本发明提出一种基于深度学习的方法，来提高噪声数据的预测精度，使其在大规模标记点丢失时也有较好的修复效果。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明中人体运动捕捉数据去噪方法的步骤示意图。

图2为神经网络模型的框架结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变形。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

本领域技术人员应理解的是，在本发明的揭露中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系是基于附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。

可以理解的是，术语“一”应理解为“至少一”或“一个或多个”，即在一个实施例中，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个，术语“一”不能理解为对数量的限制。

本发明的一优选实施方案提供一种人体运动捕捉数据去噪方法，如图1所示，包括以下步骤：

从CMU运动捕捉库中获取人体运动捕捉数据；

将带噪声的测试集输入，自动检测出噪声并进行噪声数据的修复，得到去噪后重建的运动序列，

其中，所述构建神经网络模型，如图2所示，包括：

进一步的，①确定构建卷积层的权值W、V和偏移量b，包括：