CN115564795A

CN115564795A - 一种基于多模态信息的三维人体姿态估计方法

Info

Publication number: CN115564795A
Application number: CN202211224589.4A
Authority: CN
Inventors: 张建辉; 王瀚翔; 钟朱州; 李南洋; 姚俊; 王嘉诚
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-01-03

Abstract

本发明公开了一种基于多模态信息的三维人体姿态估计方法。该方法设计模拟了人体穿着衣物时的人体与衣物间的受力情况，并记录了这一数据。此外设计了一种适应压力传感器数据的人体姿态视觉真值获取方法，人在穿戴上压力数据获取设备的情况下在本发明设计的视频数据获取系统下做动作，通过视频获得人体三维姿态真值。最后将压力数据和人体三维姿态真值进行多模态对齐生成一个多模态数据集输入到本发明设计的三维人体姿态估计网络中训练模型。该方法有很长远的应用前景，使用人体与衣物间的压力数据进行人体姿态估计具有很好的发展潜力。

Description

一种基于多模态信息的三维人体姿态估计方法

技术领域

本发明属于多模态人体姿态估计技术，针对采集人穿着衣物时的压力进行模拟，提出了一种模拟压力数据获取方法，由于压力数据具有一定的局限性，所以本文还提出了一种适合用压力传感器估计的人体姿态真值获取以及优化方式，最后提出了一种使用压力数据作为输入的人体姿态估计模型。本发明以多模态人体姿态估计为理论基础，设计了压力数据和人体姿态真值的对齐方式，并最后设计了一个以LSTM为基础的高效网络。

背景技术

人体姿态估计在许多领域都有广泛的应用，特别是在VR游戏、人体动作识别和人体异常分析方面。在VR游戏中，可以通过使用一些可穿戴传感器和摄像头来估计人体姿势并在游戏中显示，从而使人们沉浸在游戏中。人体动作识别还可以应用于社会保障领域，比如识别公交车上摔倒的乘客，识别道路上发生的一些违法行为等。可以说，人体姿态估计可以可用于各个行业作为许多问题的解决方案。

目前，人体姿态估计的大部分研究仍以视觉数据为基础，视觉人体姿态估计已经发展到较高水平，但仍存在以下普遍问题：首先基于视觉数据的人体姿态估计受环境影响，在黑暗中难以进行工作；其次基于视觉数据的人体姿态估计容易被遮挡问题干扰其准确度；接着基于视觉的人体姿态估计很难做到日常化，毕竟不是每个地方能都有摄像头；最后基于视觉的人体姿态往往需要高质量的图片做基础，不够轻量。但是以视觉数据在遮挡较少的情况下来获取人体姿态真值是行得通的，因为在遮挡较少的情况下视觉方式估计到的人体姿态还是要比用非视觉方法获取的普遍更高。

由于视觉人体姿态估计的这些问题，越来越多的非视觉人体姿态估计正在出现。由于传感器技术的飞速发展，各种传感器的精度也在不断提高，一些仅应用传感器数据的非视觉人体姿态估计的预测精度已经达到了不逊色于视觉方法的效果。而非视觉的方法能有效解决视觉方法中出现的一些问题，首先，传感器数据不存在遮挡问题，不会受到环境因素的较大影响，另外，传感器的数据也比图片轻量很多。

发明内容

一种基于多模态信息的三维人体姿态估计方法，包括以下步骤：

S1获取人体穿着衣物时的压力数据；

将薄膜压力传感器部署在人体表面，并在所述薄膜压力传感器的外侧设置护具；

通过所述薄膜压力传感器测得的当前压力值和初始压力值的比值来表示压力的增长率，作为压力数据；所述初始压力值是薄膜压力传感器在完成部署后人体静止站立时测得的的压力值。

S2获取人体姿态视觉数据；采用了两个平行放置的相机采集部署完成所述薄膜压力传感器的人体的视频数据，使用Openpose算法获取所述视频数据中的二维姿态后，使用Triangulation方法进行升维，得到三维姿态；

对所述三维姿态根据压力数据进行优化

S3、建立数据集，对所述压力数据和视觉姿态真值根据时间进行对齐，生成多模态信息数据集；

S4构建神经网络，并通过所述三维姿态对应的坐标作为监督值来训练神经网络

S5，使用训练得到的网络，根据压力数据和人体的身高、体重进行三维人体姿态估计。

作为优选，所述S1中，所述薄膜压力传感器的部署方法为：将薄膜压力传感器的一侧贴合在人体表面，所述薄膜压力传感器的另一侧设置有铁片。

作为优选，所述薄膜压力传感器贴合在人体表面的位置为：手肘下方2cm处两边各一个，左右手臂在手肘上方10cm处在手臂自然放置时前后左右各放置四个，膝盖下方2cm处两边各一个，左右大腿在膝盖上方15cm处在静止站立时前后左右两边各放置四个。

作为优选，所述S2包括以下步骤，

步骤一、将两个所述相机平行放置对准拍摄区域，并使用棋盘标定的方式对两个所述相机进行立体标定；

步骤二、两个所述相机同时分别录制部署在人体上的薄膜压力传感器跟随人体完成预设运作过程的视频数据，并分别记录两段所述视频数据中每一帧获取的时间。

步骤三、使用Openpose算法分别处理两个录像，获取每一帧中的二维人体姿态估计结果，并截取Openpose算法输出的前15个关节点的三维坐标，15个关节点按照顺序分别为：鼻子、脖子、左肩、左肘，左手腕、右肩、右肘，右手腕、中臀、左臀、左膝、左脚踝、右臀、右膝、右脚踝；

步骤四、根据两个所述相机的立体标定参数，通过Triangulation方法，将每一帧的二维人体姿态估计结果升到三维，得到三维姿态。

步骤五、将所有得到的三维姿态的各段肢体长度设为固定值，并且将所有三维姿态的三维坐标原点设为某个关节点坐标，使其他所有关节点的坐标代表其和作为三维坐标原点的关节点的相对位置。

作为优选，所述S4中，所述神经网络的结构，根据顺序包括线性层、LSTM层、线性层，每两层之间进行一次ReLU激活和一次批标准化；网络的损失定义为网络输出和真值的L2距离；直到网络的估计误差收敛停止所述训练。

作为优选，所述S3中，在多模态信息数据集中，每五条数据中抽取一条作为测试集，剩下四条作为训练集。

作为优选，所述步骤S2中的步骤五，作为三维坐标原点的所述关节点设定为代表脖子处关节点的人体关节点的第二个节点。

本发明模拟了人和衣服之间产生的压力数据，并用它结合视频数据得到的人体姿态来估计人体姿势。在日常生活中，由于肌肉受力或衣物的牵引，人体与衣物会因相互受压而产生一定的压力。但是由于无法仅仅依靠压力数据来估计人体关节的具体位置，并且肢体的具体长度也无法用压力数据得知，所以通过压力来估计得到的人体姿态有一定的局限性，这就需要在视觉真值的获取和处理方面做出适合于用压力数据估计人体姿态的改变。

在发明中，压力数据通过我们设计的硬件系统获取，并且我们设计了一个适用于压力传感器数据来估计人体姿态的基于视频的真值获取和优化方式，再通过视频和压力数据两个模态的数据进行多模态人姿态估计训练，最后实现直接依靠压力数据估计人体姿态的效果。

附图说明

图1为压力传感器部署以及人体关节示意图。

图2为初始三维姿态真值获取流程示意图。

图3为本发明设计的深度学习网络结构示意图。

图4为本发明实际使用估计效果示意图。

具体实施方式

本发明针对人在穿着衣物下的情况进行模拟，设计了一套压力数据采集和人体姿态真值视频方式获取的方法以及一个主要以压力数据作为输入的网络结构，下面将详细完整地介绍本发明。

(1)首先先详细介绍模拟人穿着衣物时的压力的获取方式，以下为具体流程：

步骤一、安装薄膜压力传感器，将薄膜压力传感器粘在一个铁片上。

步骤二、将安装好的薄膜压力传感器以传感器一面朝人体直接用胶带固定在人体表面的关键位置上，我们设计的具体关键位置为：手肘下方2cm处两边各一个，左右手臂在手肘上方10cm处在手臂自然放置时前后左右各放置四个，膝盖下方2cm处两边各一个，左右大腿在膝盖上方15cm处在静止站立时前后左右两边各放置四个。传感器放置的大概位置如图1中的圈出的区域所示。

步骤三、将上半身的所有薄膜压力传感器和下半身的所有薄膜压力传感器分别连接到两个FSR薄膜压力传感器控制器测试板上，FSR薄膜压力传感器控制器测试板与电脑相连。

步骤四、在电脑上打开两个FSR薄膜压力传感器控制器测试板的上位机分别记录上半身的压力数据和下半身的压力数据。

步骤五、在传感器外侧绑上相应位置的护具以及魔术贴，让传感器达到一定的初始值。

步骤六、最后记录的压力数据为当前压力值和初始压力值的比值。

(2)如图1所示，适应压力传感器数据的人体姿态视觉真值获取方法的具体过程如图2所示：

步骤一、部署两个摄像头平行放置对准拍摄区域，然后使用棋盘标定的方式对两个相机进行立体标定。

步骤二、实验者在穿戴上上文所述的压力传感器数据获取设备的同时在拍摄区域中做我们设计好的一套动作，两个摄像头会分别录像，并记录每一帧获取的时间。

步骤三、使用Openpose分别处理两个录像，获取每一帧中的二维人体姿态估计结果，本发明截取了Openpose的前15个关节点，按照关节点在数据中的顺序包括鼻子、脖子、左肩、左肘，左手腕、右肩、右肘，右手腕、中臀、左臀、左膝、左脚踝、右臀、右膝、右脚踝。具体的关节点位置如图1中的黑色实心圆圈所示。

步骤四、通过之前得到的立体标定参数通过Triangulation方法直接将每一帧的二维人体姿态估计结果升到三维。

步骤五、由于压力数据无法用于估计人体关节的具体位置和肢体长度，所以本发明将所有得到的人体姿态真值的肢体长度固定，并且将所有三维人体姿态的三维坐标原点设为人体的某个关节点坐标，即其他所有关节点的坐标是其和该原点关节的相对位置。将得到的初始三维人体姿态的各段肢体长度调整为固定值，具体为：鼻子到脖子的距离20cm，脖子到到肩膀的距离23cm、肩膀到手肘的距离28cm，手肘到手腕的距离28cm，脖子到中臀的距离56cm，中臀到左右臀的距离分别17.5cm，臀部到膝盖的距离40cm，膝盖到脚踝的距离40cm。并且将所有三维人体姿态的三维坐标的原点设为人体关节点的第二个节点(脖子处的关节点)。

(3)接下来详细介绍使用压力传感器数据作为输入、视觉信息作为真值的一种基于多模态信息的三维人体姿态估计网络：

步骤一、在采集数据时记录了压力数据和视频数据每条数据产生的时间，姿态真值将之前采集的压力数据和视觉姿态真值根据时间进行对齐，生成一个多模态信息数据集。

步骤二、所用到的网络结构如图3所示，根据顺序包括线性层、LSTM层、线性层，每两层之间进行一次ReLU激活和一次批标准化。将所有采集的数据整合，并每五条中抽取一条作为测试集，剩下四条作为训练集。

步骤三、以训练集数据作为输入进行训练，网络的损失定义为网络输出和真值的L2距离，直到网络的估计误差收敛停止训练。

步骤四、将测试集数据输入到训练好的网络中查看结果。

具体实施可如下进行：首先配置压力传感器，将每个压力传感器粘在一个铁片上，接着用胶带以压力传感器一面向着人体粘贴在人体皮肤表面的之前设计的指定位置处。之后将上半身和下半身的压力传感器分别连接到两个FSR薄膜压力传感器控制器测试板上，就可以直接在电脑上查看每个压力传感器的压力值。接着在传感器的外侧绑上魔术贴和护具，并调整保证每个传感器都有一定的初始值。之后就可以在两个标定好的相机前，在穿戴压力传感器的同时做动作。我们在具体实施时设计上半身有如下动作：双手下垂、双手上举、叉腰、阔胸；下半身有如下动作：下蹲、左弓步、右弓步、双腿开叉、静止站立，上半身和下半身的动作两两组合一共20种动作。做完动作之后，将压力数据全部转化为当前压力和初始压力的比值，之后处理视频数据。将视频数据输入到OpenPose算法中处理，可得到二维姿态，接着用Triangulation方法将二维姿态升维成三维姿态。将得到的三维姿态和压力数据按时间进行匹配，将生成的每一条匹配到的三维姿态进行之前所述的优化。具体实践中我们一共采集了三个人的数据，将所有人的数据放在一起后每5条数据种抽取1条作为测试集，剩下4条作为训练集。将训练集数据方法前文所述的网络中进行训练，训练后的网络以测试集数据为输入的估计结果如图4所示。

Claims

1.一种基于多模态信息的三维人体姿态估计方法，其特征在于，包括以下步骤：

S1获取人体穿着衣物时的压力数据；

通过所述薄膜压力传感器测得的当前压力值和初始压力值的比值来表示压力的增长率，作为压力数据；所述初始压力值是薄膜压力传感器在完成部署后人体静止站立时测得的的压力值；

对所述三维姿态根据压力数据进行优化

S3建立数据集，对所述压力数据和视觉姿态真值根据时间进行对齐，生成多模态信息数据集；

S4构建神经网络，并通过所述三维姿态对应的坐标作为监督值来训练神经网络S5使用训练得到的网络，根据压力数据和人体的身高、体重进行三维人体姿态估计。

2.如权利要求1所述的一种基于多模态信息的三维人体姿态估计方法，其特征在于，所述S1中，

所述薄膜压力传感器的部署方法为：将薄膜压力传感器的一侧贴合在人体表面，所述薄膜压力传感器的另一侧设置有铁片。

3.如权利要求2所述的一种基于多模态信息的三维人体姿态估计方法，其特征在于，所述薄膜压力传感器贴合在人体表面的位置为：手肘下方2cm处两边各一个，左右手臂在手肘上方10cm处在手臂自然放置时前后左右各放置四个，膝盖下方2cm处两边各一个，左右大腿在膝盖上方15cm处在静止站立时前后左右两边各放置四个。

4.如权利要求1所述的一种基于多模态信息的三维人体姿态估计方法，其特征在于，所述S2包括以下步骤，

步骤二、两个所述相机同时分别录制部署在人体上的薄膜压力传感器跟随人体完成预设运作过程的视频数据，并分别记录两段所述视频数据中每一帧获取的时间；

步骤四、根据两个所述相机的立体标定参数，通过Triangulation方法，将每一帧的二维人体姿态估计结果升到三维，得到三维姿态；

5.如权利要求4所述的一种基于多模态信息的三维人体姿态估计方法，其特征在于，所述S4中，所述神经网络的结构，根据顺序包括线性层、LSTM层、线性层，每两层之间进行一次ReLU激活和一次批标准化；网络的损失定义为网络输出和真值的L2距离；直到网络的估计误差收敛停止所述训练。

6.如权利要求1所述的一种基于多模态信息的三维人体姿态估计方法，其特征在于，所述S3中，在多模态信息数据集中，每五条数据中抽取一条作为测试集，剩下四条作为训练集。

7.如权利要求4所述的一种基于多模态信息的三维人体姿态估计方法，其特征在于，所述步骤S2中的步骤五，作为三维坐标原点的所述关节点设定为代表脖子处关节点的人体关节点的第二个节点。