CN113723163B

CN113723163B - 利用离散姿态学习物理约束的手部运动自监督重建方法

Info

Publication number: CN113723163B
Application number: CN202110291346.1A
Authority: CN
Inventors: 王雁刚; 赵子萌
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2024-04-16
Anticipated expiration: 2041-06-07
Also published as: CN113723163A

Abstract

本发明首先提供了利用离散姿态学习物理约束的手部运动自监督重建方法，基于关键帧技术的编码器‑解码器手部运动重建深度学习网络架构，包括以下单元：单帧手部姿态估计单元，其对于视频序列进行逐帧的手部姿态估计；运动序列编码单元，其作用在于从上述逐帧检测结果中提取能够描述手部运动的关键姿态列表，而冗余的或包含高频抖动的姿态帧被舍弃；运动序列解码单元，其作用在于根据上述关键姿态列表，重建出和原始视频序列描述一致的手部运动。

Description

利用离散姿态学习物理约束的手部运动自监督重建方法

技术领域

本发明涉及涉及计算机视觉、计算机图形学领域，特别是涉及利用离散姿态学习物理约束的手部运动自监督重建方法。

背景技术

使手部姿态运动的重建结果符合物理约束，对于人机交互系统和沉浸式虚拟现实系统都有着重要的意义。以数据手套、多视角标记系统为代表的传统运动重建系统的重建结果虽然具备上述特征，但是由于设备成本高、用户体验感差、标定系统环境要求高等因素，无法得到广泛的商用化。近年来，基于深度学习的单视角手部姿态三维重建克服了传统方法的大多数限制条件，并借助大量的手部姿态数据集，在单帧图像手部姿态重建任务上表现日趋良好。然而，当利用上述算法重建整个运动序列时，无论使用何种迁移方案，都无法使得重建结果具备物理合理性：

1)如果不考虑时序相关性，逐帧检测结果的序列存在大量的高频抖动、手部各部分穿模等违背物理约束的现象；

2)如果使用门控循环单元(GRU)或长短期记忆人工神经网络(LSTM)的网络设计方法进学习，现有手部姿态数据集仅仅包含多样化的姿态，而并不包含多样化的运动。这导致时序算法无法学到可泛化的手部运动特征。

发明内容

为解决上述问题，本发明提出了利用离散姿态学习物理约束的手部运动自监督重建方法，能够利用现有的多样化离散手部静止姿态数据集，学习符合物理约束的手部运动重建。

本发明要解决的技术问题是提供利用离散姿态学习物理约束的手部运动自监督重建方法。在训练过程中，这一系统能够利用现有的多样化手部静止姿态数据集，学习符合物理约束的手部运动。

为达此目的，本发明提供利用离散姿态学习物理约束的手部运动自监督重建方法，具体步骤如下：

利用离散姿态学习物理约束的手部运动自监督重建方法的手部运动重建深度学习网络架构基于关键帧技术的编码器-解码器，包括以下单元：

单帧手部姿态估计单元，其对于视频序列进行逐帧的手部姿态估计；

运动序列编码单元，其作用在于从上述逐帧检测结果中提取能够描述手部运动的关键姿态列表，而冗余的或包含高频抖动的姿态帧被舍弃；

运动序列解码单元，其作用在于根据上述关键姿态列表，重建出和原始视频序列描述一致的手部运动；

步骤1.借助物理引擎的指导，运动序列解码单元被训练掌握由离散的手部姿态生成整个运动轨迹的过程；

步骤2.利用训练好的运动序列解码单元，运动序列编码单元以加入噪声和扰动的解码单元输出作为输入，学习从这一包含噪声的合成运动序列中，提取关键姿态列表，关键姿态列表的监督信号使用运动序列解码单元的输入；

步骤3.将步骤1训练好的运动序列解码单元串联在步骤2训练好的运动序列编码单元之后，使用真实序列数据，对整个网络进行微调训练，使得整个网络更鲁棒的从真实视频序列中抽取关键特征。

作为本发明进一步改进，为了给步骤1提供大量符合真实分布的静态手部姿态分布，一个静态手部姿态数据库被创建，手部姿态的动力学模型的驱动信号被用于整个算法的统一姿态表示，手部姿态的动力学模型为一个完全与真实人手拓扑、自由度相同的物理模型，动力学模型在物理引擎中被创建。

作为本发明进一步改进，静态手部姿态数据库将现有手部姿态数据中的所有姿态都映射到上一步表述的姿态表示，为了增加静态手部数据库的姿态多样性，现有的手部姿态估计网络架构被采用，用于从单帧图像中估计对应的静止姿态表示。

作为本发明进一步改进，步骤1解码单元可以根据任意数目的离散姿态生成贯穿各个静止姿态的运动轨迹，解码单元被设计为循环神经网络模型：每次仅预算关键姿态列表中相邻两个离散状态之间的运动轨迹，之后重复执行这一过程。

作为本发明进一步改进，步骤1编码单元生成的关键帧数目也是根据输入数据来确定而非限定个数，编码单元被设计为一种先学习每个状态对应的偏移量和注意力，之后每一帧的这两个指标进行均值偏移聚类，而聚类时使用的核大小也是可学习的。

作为本发明进一步改进，步骤1训练中，根据同样的离散姿态，运动序列解码单元的输出与由物理引擎逆向动力学求解的输出之间，使用均方误差损失作为距离度量。

作为本发明进一步改进，步骤2训练过程中，编码单元的关键姿态输出与由送入解码单元的离散姿态之间，使用倒角距离进行度量。

作为本发明进一步改进，步骤3微调训练过程中，整个网络架构的输出与输入之间。使用均方误差损失和时间平滑性作为距离度量。

本发明首先提供了一种基于关键帧技术的编码器-解码器手部运动重建深度学习网络架构，包括以下单元：单帧手部姿态估计单元，其对于视频序列进行逐帧的手部姿态估计；运动序列编码单元，其作用在于从上述逐帧检测结果中提取能够描述手部运动的关键姿态列表，而冗余的或包含高频抖动的姿态帧被舍弃；运动序列解码单元，其作用在于根据上述关键姿态列表，重建出和原始视频序列描述一致的手部运动。

附图说明

图1是本发明施例一利用离散姿态数据重建手部运动的流程图；

图2是本发明利用离散姿态数据重建手部运动的网络架构示意图；

图3是本发明利用离散姿态数据重建手部运动的自监督训练流程图；

图4是本发明在整个重建方法在物理引擎中构建的物理手部动力学模型的示意图；

图5是本发明实施例二从单帧图像中估计姿态参数的流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

实施例一

图1为本发明实施例的手部运动重建方法流程图，下面参照图1，详细说明各步骤。

步骤S110，输入为包含离散手部姿态的单视角彩色图像序列，这一序列既可以是由单个相机在连续时间段内捕获的一段手部运动，也可以是不同时刻、不同场景下的手部姿态帧拼接得到的序列。

步骤S120，对上述图像序列逐帧姿态估计，得到原始姿态序列。在表示手部姿态时，算法中采用的是对应手部动力学模型各个自由度的转动角度。由于模型是基于真实物理模型创建，该步骤得到的每一帧结果都具备物理合理性，但整个序列包含抖动和噪声。

步骤S130，运动序列编码单元以逐帧检测结果作为输入，从这一原始姿态序列中提取可以代表整个运动的关键姿态列表。该编码单元的结构如图2的(b)所示，包含基于在手拓扑上进行图卷积的特征提取网络和可学习核大小的均值偏移模块，这使得这一单元可以提取不定数目的关键姿态。它的训练过程如图3的训练过程2所示，需要训练好的解码单元辅助训练。

步骤S140,运动序列解码单元以关键姿态列表作为输入，重建与输入图像中示范手部运动一致的手部运动。该编码单元的结构如图2的(a)所示，包含基于在手拓扑上进行图卷积的特征提取网络和循环网络，可以估计贯穿任意数目的给定离散姿态的手部运动轨迹。它的训练过程如图3的训练过程1所示，由物理引擎指导其学习符合逆向运动学的任意两个状态之间的运动轨迹生成。

步骤S131，在编码单元输出的关键帧列表基础上进行更改；

步骤S141，运动序列解码单元以做了更改的关键姿态列表作为输入，

重建出经过编辑的手部运动：为更改的部分仍然与输入图像中示范手部运动一致，更改部分与给定的更改关键姿态一致。

实施例二

图5为从单帧图像中估计姿态参数的流程图。下面参照图5，详细说明各步骤。

首先如图5的(a)，卷积神经网络被用于估计单帧彩色图像中的手部关键点二维图像坐标和关节点深度热力图。随后，结合二维坐标热力图和深度热力图，即可得到对应关键点在相机坐标系下的三维坐标。骨骼的长度在这一步被分离记作，而之后将每个骨骼长度被设置为1，即统一三维节点位置。

之后如图5的(b),通过线性优化，记录将统一原始姿态骨架的手掌关键点和上一步估计结果对齐时，需要的刚性变换尺度、平移和旋转，将全局变换从上述结果中分离。

之后如图5的(c)，一个基于图卷积的逆向运动学参数估计网络被用于估计手部姿态的非刚性变形参数(动力学模型每个自由度的转角)。为了辅助这一网络的训练，针对手部模型设计的可微前向运动学神经网络被接在上述网络的输出，以产生符合运动学的梯度以改善网络的训练。

借助上述第一步中估计的骨骼比率参数，统一原始姿态骨架可以变形为针对图像的个性化骨架模板；借助上述第二步中估计的全局刚性变换和第三步估计的局部变换参数，个性化骨架模板、三角网格模板以及动力学模型都可以变图像中示例的手部姿态。

实施例三

尽管在实施例一中提供的编码器-解码器架构被联合用于从图像中重建和重编辑手部运动，解码器单元可以单独使用：给定任意手部姿态的初始状态和终止状态，解码器可以推理得到一条符合物理约束的手部运动。因此这一网络可以用于运动生成或运动轨迹规划。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.利用离散姿态学习物理约束的手部运动自监督重建方法，具体步骤如下，其特征在于：

运动序列编码单元，其作用在于运动序列编码单元以逐帧检测结果作为输入，从原始姿态序列中提取代表整个运动的关键姿态列表，而冗余的或包含高频抖动的姿态帧被舍弃；

步骤S110，输入为包含离散手部姿态的单视角彩色图像序列，这一序列既可以是由单个相机在连续时间段内捕获的一段手部运动，也可以是不同时刻、不同场景下的手部姿态帧拼接得到的序列；

步骤S120，对上述图像序列逐帧姿态估计，得到原始姿态序列；

2.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法，其特征在于：为了给步骤1提供大量符合真实分布的静态手部姿态分布，一个静态手部姿态数据库被创建，手部姿态的动力学模型的驱动信号被用于整个算法的统一姿态表示，手部姿态的动力学模型为一个完全与真实人手拓扑、自由度相同的物理模型，动力学模型在物理引擎中被创建。

3.根据权利要求2所述的利用离散姿态学习物理约束的手部运动自监督重建方法，其特征在于：静态手部姿态数据库将现有手部姿态数据中的所有姿态都映射到上一步表述的姿态表示，为了增加静态手部数据库的姿态多样性，现有的手部姿态估计网络架构被采用，用于从单帧图像中估计对应的静止姿态表示。

4.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法，其特征在于：步骤1解码单元根据任意数目的离散姿态生成贯穿各个静

止姿态的运动轨迹，解码单元被设计为循环神经网络模型：每次仅预算关键姿态列表中相邻两个离散状态之间的运动轨迹，之后重复执行这一过程。

5.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法，其特征在于：步骤1编码单元生成的关键帧数目也是根据输入数据来确定而非限定个数，编码单元被设计为一种先学习每个状态对应的偏移量和注意力，之后每一帧的这两个指标进行均值偏移聚类，而聚类时使用的核大小也是可学习的。

6.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法，其特征在于：步骤1训练中，根据同样的离散姿态，运动序列解码单元的输出与由物理引擎逆向动力学求解的输出之间，使用均方误差损失作为距离度量。

7.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法，其特征在于：步骤2训练过程中，编码单元的关键姿态输出与由送入解码单元的离散姿态之间，使用倒角距离进行度量。

8.根据权利要求1所述的利用离散姿态学习物理约束的手部运动自监督重建方法，其特征在于：步骤3微调训练过程中，整个网络架构的输出与输入之间；使用均方误差损失和时间平滑性作为距离度量。