CN114494341A

CN114494341A - 一种融合时空约束的光学动作捕捉标记点实时补全方法

Info

Publication number: CN114494341A
Application number: CN202111665416.1A
Authority: CN
Inventors: 翁冬冬; 王怡晗; 李冬; 郭署山
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-13
Anticipated expiration: 2041-12-31
Also published as: CN114494341B

Abstract

本发明提供一种融合时空约束的光学动作捕捉标记点实时补全方法，旨在基于人体运动的时空约束，采用权重位置损失函数描述人体不同关节节点对整体位姿的影响，用标记点间距损失函数描述同一段骨骼上标记点之间的刚性结构，用于出前后帧损失函数描述标记点运动轨迹的时间连续性，并将以上损失函数加权组合用于训练深度学习网络，解决“光学动作捕捉系统丢失标记点实时补全”问题，本发明补全后的标记点位置更符合人体运动规律，提高了标记点补全的精度。

Description

一种融合时空约束的光学动作捕捉标记点实时补全方法

技术领域

本发明属于光学动作捕捉技术领域，具体涉及一种融合时空约束的光学动作捕捉标记点实时补全方法。

背景技术

基于标记点的光学动作捕捉是运动获取、分析和映射等过程中的一项关键技术,该技术由空间中的相机等设备采集标记点图像坐标并重建各标记点的空间位置,再根据标记点云的三维位置坐标计算人体各骨骼当前时刻的位置和朝向.空间环境和人体自身动作很容易遮挡标记点,由此造成的标记点丢失可能会导致由标记点重建位姿失败.如何在标记点丢失时对其进行补全是基于标记点的光学动作捕捉技术亟待解决的问题。

基于深度学习的方法精度高，实时性好，但现有方法在训练过程中通常使用标记点位置真实值与预测值的欧式距离作为损失函数，没有全面考虑人体运动的时空约束，有些补全后的标记点会形成不合理的姿态，鲁棒性不足。

文献“Kucherenko T,Beskow J,

H.A neural network approach tomissing marker reconstruction in human motion capture[OL]，[2018-09-25]”将连续64帧有丢失的归一化标记点位置坐标输入双层LSTM(长短期记忆)网络中，输出补全后的标记点序列。其中，损失函数为标记点预测值与真实值的欧式距离。该技术方案鲁棒性不足，补全后的标记点可能会形成扭曲的人体位姿，且标记点轨迹抖动严重。

发明内容

有鉴于此，本发明的目的是提供一种融合时空约束的光学动作捕捉标记点实时补全方法，可以使得补齐后标记点位置更符合人体运动规律，提高了标记点补全的精度。

一种融合时空约束的光学动作捕捉标记点实时补全方法，包括如下步骤：

步骤1、获取训练数据，具体为：

获取已有的各标记点连续多帧的在光学坐标系中三维位置坐标作为原始输入数据；

将原始输入数据从光学坐标系转换至根节点坐标系；根节点坐标系以腰部的标记点的几何中心为原点；

将原始输入数据中标记点位置坐标随机置零来模拟标记点丢失，得到训练数据；

步骤2、网络训练，具体为：

将步骤1的训练数据输入到能处理时间序列的网络结构中，对网络进行训练，其中训练时采用下式所示的融合时空约束的组合损失函数进行网络模型训练：

L＝L_wp+w_mdL_md+w_fdL_fd

L＝Lwp+wmdLmd+wfdLfd

其中,L_wp为权重位置损失：

w_max为人体关节链的根节点和末端子节点上的标记点权重，w_middle为位于其他关节点处的标记点权重，w_min为其余不在关节上的标记点权重；三者大小关系为：w_max＞w_middle＞w_min；

为人体关节链的根节点和末端子节点标记点中标记点的预测位置,

为标记点对应的真实位置；

表示人体关节链上除根节点和末端子节点上标记点的预测位置,

为对应的真实位置；

为除人体关节链上的其他标记点的预测位置，

为对应的真实位置；

L_md为标记点间距损失：

其中,h,g为间距保持不变的两个标记点索引,D_hg为标记点h,g的真实距离；

L_fd为前后帧损失：

其中，

表示第l个标记点在t时刻的预测值，

表示第l个标记点在t-1时刻的预测值；

步骤3、对于实时获取的需要补点的一段动作序列，将各标记点的坐标转换到根节点坐标系，再输入到步骤2训练好的网络模型中，得到位置坐标补齐后的动作序列。

较佳的，所述步骤1中根节点坐标系的建立过程为：

记根节点坐标系的三个坐标轴x，y，z的归一化向量分别为r_x,r_y,r_z,用最优化方法取距离腰部上所有标记点最近的直线和平面,则直线的方向向量和平面的法向量的初始值分别定义为r_x’和r_y’,则z轴归一化向量表示为：

r_z＝r_x’×r_y’ (1)

令r_x’与坐标轴z的归一化向量r_x一致，即r_x＝r_x’,则：r_y＝r_z×r_x；

由此建立根节点坐标系。

较佳的，所述步骤1中标记点位置坐标随机置零的方法为：

将原始输入数据中各标记点的位置矩阵表示为P_raw∈R^f×N,其中位置矩阵的行数为该段序列的帧数f,列数与标记点数量N一致，每个元素存储的为各标记点的根节点坐标系的坐标；

随机置零的过程为：首先生成与位置矩阵大小一致的随机数矩阵A，其中的每个元素a_ij∈[0,1],设定丢失率为α,若a_ij<(1-α),则a_ij＝1,反之a_ij＝0,则得到新的矩阵A_p,则随机置零后的训练数据矩阵为：

P_miss＝A_p·P_raw。

较佳的，所述步骤2的网络结构为BiLSTM网络或者LSTM网络。

较佳的，所述步骤2中，权重w_max、权重w_middle与权重w_min比值为4:2:1。

较佳的，所述步骤2中，权值w_md取0.3-0.7之间的数值。

较佳的，所述步骤2中，取小于0.01的值。

本发明具有如下有益效果：

附图说明

图1为本发明的方法流程图；

图2为将标记点从光学坐标系转换至局部坐标系示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提出一种融合时空约束的光学动作捕捉标记点实时补全方法，通过采用融合时空约束的损失函数训练深度学习网络，来实时补全光学动捕的丢失标记点，整体结构和主要流程如图1所示。

本发明的技术方案主要包括数据获取、数据预处理、网络训练以及网络模型的应用。其中，训练网络时的原始输入数据从光学动作捕捉数据集HDM05获取，网络实际应用时的原始输入数据由光学动作捕捉系统实时捕捉，原始输入数据为光学坐标系中各标记点连续多帧的三维位置坐标，训练和实际应用时的原始输入数据均需要经过数据预处理后再输入标记点补全网络。

步骤1、数据预处理

数据预处理的主要目的是将原始输入数据从光学坐标系转换至根节点坐标系，如图2所示，本发明默认位于腰部的四个标记点不会丢失，记标记点在光学坐标系中的位置坐标为

则局部坐标系的原点为该四个标记点的几何中心，即原点为：

记根节点坐标系的三个坐标轴为归一化向量r_x,r_y,r_z,用最优化方法取距离腰部4个标记点最近的直线和平面,则直线的方向向量和平面的法向量分别坐标轴r_x和r_y的初始值r_x’和r_y’,则z轴向量为：

r_z＝r_x’×r_y’ (1)

由于初始的r_x’和r_y’不一定正交,令r_x’与坐标轴r_x一致，即r_x＝r_x’,则：

r_y＝r_z×r_x(2)

索引号为i的标记点在局部坐标系的三维位置坐标为：

对于训练数据，在将标记点转换至局部坐标系后，还需要通过将标记点位置坐标随机置零来模拟标记点丢失。记一段动作序列中的完整标记点的位置矩阵为P_raw∈R^f×N,其中位置矩阵的行数为该段序列的帧数f,列数与标记点数量N一致，每个元素存储的为各标记点的根节点坐标系坐标；

随机置零的过程为：首先生成与位置矩阵大小一致的随机数矩阵A，其中的每个元素a_ij∈[0,1],设定丢失率为α,若a_ij<(1-α),则a_ij＝1,反之a_ij＝0,则得到新的矩阵A_p,则丢失后的标记点位置为：

P_miss＝A_p·P_raw (3)

步骤2、网络训练

将步骤1的训练数据输入到能处理时间序列的网络结构中，如BiLSTM，LSTM等，对网络进行训练，其中训练时采用式(4)所示的融合时空约束的组合损失函数进行网络模型训练：

L＝L_wp+w_mdL_md+w_fdL_fd (4)

其中,L_wp为权重位置损失,就人体运动而言,肢体末端节点如手、脚、头的位置变化相较于其他关节点更容易被察觉,腰部根节点作为全部关节链的根节点，其运动误差会直接导致所有关节点的误差，为此本发明对不同关节造成的预测误差赋予不同权重,优先保证肢体末端节点和根节点的预测精度,降低了骨骼预测误差对用户视觉体验的影响。本发明在为各关节位置预测误差赋予权重时,不考虑手指和脚趾,将人体关节链的根节点(腰)和末端子节点(头、手腕和脚踝)上的标记点权重w_max设置最大权值,位于其他关节点处的标记点权重w_middle次之,其余不在关节上的标记点权重w_min最小,损失函数具体形式如式(5)：

其中,权重w_max、重w_middle与权重w_min比值为4:2:1；

为标记点对应的真实位置；

为对应的真实位置；

为除人体关节链上的其他标记点的预测位置，

为对应的真实位置。

L_md为标记点间距损失,在空间上,人体骨架在运动中仍保持刚性结构，理想状态下,为了保持人体骨架的稳定结构,位于同一段骨骼的标记点间距在运动过程中应始终保持不变,则损失函数具体公式为式(6)：

其中,h,g为间距保持不变的两个标记点索引,D_hg为标记点h,g的真实距离。权值w_md一般取0.3-0.7之间。

L_fd为前后帧损失,在摄像机采集帧率较高时,标志点的空间坐标在时间轴上应保持连续,同一标记点在连续两帧之间的位置之差较小,具体形式为式(7)。

其中，

表示第l个标记点在t时刻的预测值，

表示第l个标记点在t-1时刻的预测值。正常情况下,运动的标记点在前后两帧的位置不会完全一致,故L_fd对应的权重不能设置得太大，一般取小于0.01。

步骤3、网络应用

对于实时获取的需要补点的一段动作序列，按照步骤1的方法对数据进行坐标转换，输入到步骤2训练好的网络模型中，可得到位置坐标补齐后的动作序列。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。