CN112099330B

CN112099330B - 基于外部相机和穿戴式显控设备的全息人体重建方法

Info

Publication number: CN112099330B
Application number: CN202010899876.XA
Authority: CN
Inventors: 谢良; 徐晓睿; 印二威; 闫慧炯; 范晓丽; 罗治国; 邓宝松; 闫野
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2021-09-28
Anticipated expiration: 2040-08-31
Also published as: CN112099330A

Abstract

本发明公开了一种结合外部相机和穿戴式显控设备的全息人体重建方法，其步骤为：将四个外部RGBD相机分别放置于要重建场景的四个角落；在无干扰的场景中，获取要重建的人的点云特征，进行非刚体特征提取；利用霍夫变换获得瞳孔位置及中心坐标，将左右眼图片以及瞳孔中心坐标输入神经网络中预测注视点坐标；将预先采集好的肌电信号与指令相对应的数据集，输入到长短时记忆网络中进行训练；将肌电信号输入到训练好的模型中，识别出与之相对应的指令并传递给计算机，进行细节部分拟合来得到最终的重建模型；最后用增强现实技术对最终的重建模型进行显示。本发明中只需要利用一组多视角点云图就可以完成相机的标定得出外参矩阵，省时省力。

Description

基于外部相机和穿戴式显控设备的全息人体重建方法

技术领域

本发明涉及人体特征提取和人体姿态重建领域，尤其涉及到一种结合外部相机和穿戴式显控设备的全息人体重建方法。

背景技术

本发明来自于对室内多人场景的全息人体姿态、形貌、表情、眼动、手势等重建问题。室内多人场景的全息人体姿态、形貌、表情、眼动、手势重建对于远程可视化交互、全息通讯、战场指挥等工作都具有重要作用。人体姿态估计及重建是其中的核心步骤。要获得多人场景内的人物行为状态，对其关节点位置的获取及分析是不可或缺的一部分，也是至关重要的一部分。但当前人体姿态分析与估计技术需要利用复杂的标定程序对彩色图像进行处理，且现在大部分是利用普通的彩色相机进行人体姿态估计，存在在估计过程中并不能很好的处理遮挡等问题。

人体遮挡问题是重建人体姿态的核心问题。目前的人体姿态重建方法，基本都是使用单个或多个彩色相机，但都无法很好地解决关节点的遮挡问题。虽然多个彩色相机相比单个彩色相机在处理遮挡上有明显的改善，但普通的彩色相机只是将相机视角内的所有物体记录下来，所记录的数据不包含这些物体距离相机的距离，目前仅仅可通过图像的语义分析来判断图像中物体距离相机的距离，但难以得到确切的量化数据，导致现有方法在全息人体姿态重建中起不到关键作用，无法判断和得到人和物体之间的准确距离。

本发明从深度相机入手，结合外部相机和穿戴式显控设备实现全息人体重建。在使用该技术时，通过发挥深度相机的优势，所重建的人体模型与物体之间的距离得到了还原，并实现了精准的通信交互。

发明内容

鉴于室内多人场景的全息人体姿态重建问题，本发明的目的在于提供一种结合外部相机和穿戴式显控设备的全息人体重建技术。能够利用现有方案对人体的外貌特征进行提取；能够利用深度相机对相机进行标定，并对人体的关节点信息进行提取及跟踪；能够获得瞳孔中心，结合几何模型推算注视点；能够利用IMU对手势进行识别；能够在所有人的关节点信息提取完毕后，结合增强现实技术对目标人体进行全息影像的重建。

本发明提供一种基于外部相机和穿戴式显控设备的全息人体重建方法，其步骤如下：

S1，将四个外部RGBD相机分别放置于要重建场景的四个角落，使得四个相机可以完整的、无遮挡的拍摄到整个场景，进入重建场景中的人穿上穿戴式显控设备，穿戴式显控设备包括头盔式的头显设备和手部动作捕捉设备；头显设备内部包括三个摄像头，其中两个摄像头位于眼球上方用于捕捉瞳孔中心坐标，另外一个摄像头位于头盔外部，用于捕捉人对外部世界的关注点坐标；手部动作捕捉设备包括放置于手部手套中的IMU传感器。

S2，在无干扰的场景中，利用四个RGBD相机获取要重建的人的点云特征，对要重建的人利用点云特征提取网络进行非刚体特征提取，提取后利用多人线性蒙皮模型，即SMPL，通过10个形态(Shape)参数和75个姿态(Pose)参数对人体标准模型进行拟合，将人体标准模型拟合到与真实模型较为相似的程度，用对应的形态参数和姿态参数代表要重建的人的人体特征。

S3，将属于同一个人的不同视角的多套关节点坐标通过匹配边界方法，即Matching Edges，解算为一套置信度最高的关节点坐标，匹配边界方法的计算过程为：

其中，上述第一个公式为置信度函数，用于选取出不同视角中同一类关节点多个候选点中最正确的关节点，

表示c₁和c₂两个相机中第i个关节点的第m和n个候选点的置信度，c代表相机编号，i表示关节点数，m和n表示不同的候选点，z为标准化因数，

表示c₂相机中第i个关节点的第n个候选点的坐标向量，

表示c₁相机中第i个关节点的第m个候选点的坐标向量；上述第二个公式用于计算点到点距离，

表示向量

和向量

的欧式距离，其中K为相机外参矩阵。

S4，通过装在头盔式头显设备内部的两个摄像头来分别拍摄左右眼图像，利用霍夫变换获得瞳孔位置及中心坐标，先对眼睛图像二值化，然后用边缘算子提取图像边缘，使用霍夫变换在眼睛图像中检测出圆形，圆心坐标即为瞳孔中心坐标；然后利用预先训练好的深度卷积神经网络，将左右眼图片以及瞳孔中心坐标输入神经网络中预测注视点坐标；

所述的使用霍夫变换在眼睛图像中检测出圆形，圆形方程表达为(x-a)²+(y-b)²＝r²，其中(a,b)为圆心坐标，r为圆的半径，则圆形参数空间可以表示为(a,b,r)，图像中的一个圆对应参数空间中一个点；建立一个三维累加器组S(a,b,r)，使a、b在取值范围内变化，解出满足圆的方程的r，每计算出一组(a,b,r)，令S(a,b,r)＝S(a,b,r)+1，使S(a,b,r)最大的参数(a,b,r)对应的圆形方程，即为所求圆的方程，从而完成眼睛图像中圆形的检测。

S5，首先将预先采集好的肌电信号与指令相对应的数据集，输入到长短时记忆网络(即LSTM)中进行训练，并输出训练好的模型；通过手部动作捕捉设备在手部手套中的IMU传感器，捕捉得到相应的肌电信号，将肌电信号输入到训练好的模型中，对重建的人所做的手势进行处理，识别出与之相对应的指令并传递给计算机；

利用长短时记忆网络进行训练的具体步骤如下：

第一步是决定细胞状态需要丢弃哪些信息，其操作是通过一个称为忘记门的sigmoid单元来处理的，sigmoid单元通过查看h_t-1和x_t信息来输出一个取值在0到1之间的向量f_t，该向量中元素的取值表示细胞状态C_t-1中的所保留和丢弃的信息数量，其中0表示不保留，1表示都保留，该过程表达为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)，

其中σ是激活函数，h_t-1是上一时刻的输出，x_t是当前输入，b_f是偏置量，f_t是遗忘门，W_f为该函数的权重取值；

第二步是决定给细胞状态所添加的新信息；首先，利用h_t-1和x_t通过一个称为输入门的操作来决定更新哪些信息；然后，利用h_t-1和x_t通过一个tanh层得到新的候选细胞信息

这些信息被更新到细胞信息中；该过程表达为：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)，

其中，b_i和b_c是偏置量，tanh是一个激活函数，i_t是输出门，W_C为tanh层中的权值，W_i为该激活函数σ的权值；

第三步，是更新旧的细胞信息C_t-1，变为新的细胞信息C_t；更新的规则是通过忘记门选择忘记旧细胞信息的一部分，通过输入门选择添加候选细胞信息

一部分，得到新的细胞信息C_t；该过程表达为：

其中，

是旧的记忆单元，C_t是新的细胞信息，i_t是输入门的输出，C_t-1为上一时刻的记忆单元；

第四步是，更新完细胞状态后，需要根据输入的h_t-1和x_t来判断输出细胞的状态特征，将输入变量输入到一个称为输出门的sigmoid层，得到判断条件，然后将细胞状态经过tanh层得到一个取值在-1到1之间的向量，该向量与输出门得到的判断条件相乘，就得到了最终该RNN单元的输出；该过程表达为：

o_t＝σ(W_o*[h_t-1,x_t]+b_o)，

h_t＝o_t*tanh(C_t)，

其中o_t是输出门的输出，b_o是偏置量，W_o为该激活函数σ的权值。

S6，将关节点坐标和人体外貌特征参数输入到人体标准模型中，对标准模型进行处理得到初步的重建模型，再将眼动和手势信息输入到初步重建模型中，进行细节部分拟合来得到最终的重建模型。最后用增强现实技术对最终的重建模型进行显示。

步骤S3具体包括：

S31，利用深度相机自带的人体骨骼检测模块，对场景中的所有人进行识别并提取骨骼关节点信息。

S32，对多个深度相机所拍到所有骨骼关节点信息与相应人进行匹配，即对骨骼按照出现的顺序进行ID标号，再凭借ID号来区分该套骨骼所属的目标人体。

S33，对同一ID下不同视角拍到的关节点坐标，结合相机内参矩阵进行三角解算，使不同视角的坐标统一到世界坐标系下，再通过匹配边界方法进行置信度计算，得到一套置信度最高的骨骼关节点信息。

在步骤S3中的步骤S32中，利用一个预先通过机器学习学习到的模型，对多套骨骼进行提取特征，以用来区分不同人的骨骼进而方便对骨骼进行ID标示，且该模型对于已经存在于预先学习模型中的人，在离开场景重新进入后也可以重新识别出来，并判断与该模型中哪个人最为相似，并分配给与之前相统一的ID。

通过步骤S1、S2，可获得高准确率的实时人体姿态重建和人体外貌特征。在步骤S5中，本发明需要利用步骤S2得到的人体姿态信息来驱动步骤1得到人体外貌特征模型，用增强现实技术对最终的重建模型进行显示。

如上所述，本发明公布了一种结合外部相机和穿戴式显控设备的全息人体重建方法，具有以下有益效果：

(1)相机的标定步骤简单。不同于之前采用RGB相机时，需要提前对RGB相机花费大量的时间采用张正友相机标定法进行标定来得出相机的内参和外参矩阵。本发明中只需要利用一组多视角点云图就可以完成相机的标定得出外参矩阵，省时省力。

(2)处理人体遮挡鲁棒性更高，重建出来的人体模型还原度更高；由于采用了RGBD相机和对场景进行多视角拍摄，即使在有遮挡情况发生时也能保证至少有一个相机可以完整的拍到被遮挡的部分。与之前只采用单目相机或双目相机的情况相比可以大大提高处理人体遮挡的鲁棒性

(3)能结合姿态、形貌、表情、眼动、手势信息进行全息重建。不用于其他只对姿态和形貌进行重建的方法，本发明还加入了表情、眼动、手势信息等，可以更为细节的在重建模型上表现出人体更详尽的信息。

附图说明

图1为本发明中公开的结合外部相机和穿戴式显控设备的全息人体重建方法处理流程图。

图2为本发明公开的提取人的外貌特征模型处理流程图。

图3为本发明公开的多个深度相机对人体姿态的处理及实时重建处理流程图。

图4为本发明公开的利用增强现实技术对全息人体模型进行高还原度显示处理流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例1：一种基于外部相机和穿戴式显控设备的全息人体重建方法

图1给出了本发明的总体流程图，其中包括3个关键步骤，分别是提取人的外貌特征模型(S2)、多个深度相机对人体姿态的处理及实时重建(S3)、利用增强现实技术对全息人体模型进行高还原度显示(S6)，本实施例将对上述3个关键步骤进行详细描述。

对于人的外貌特征模型提取，图2给出了提取人的外貌特征模型的处理流程图。为了在最终重现时尽可能还原真实人的细节，需要提前对重建目标人进行特征提取，利用四个RGBD相机对要重建的人利用点云特征提取网络进行非刚体特征提取，提取后利用SMPL方法通过10个Shape参数以及75个Pose参数对人体标准模型进行拟合，拟合到与真实模型较为相似的程度，此时的Shape参数和Pose参数就可以完全代表要重建人的人体特征。利用这些数据，可以获得高还原度的全息人体模型供姿态信息来驱动。

对于实时人体姿态处理及重建，图3给出了多个深度相机对人体姿态的处理及实时重建处理流程图。首先，多个视角的深度相机分别对该场景中的人进行识别及跟踪，借助深度相机，利用其自带的人体骨骼检测模块对场景中的所有人进行识别并提取骨骼关节点信息，会得到相机数乘以人数一样多的骨骼数(没有配对关系)。然后对骨骼按照出现的顺序进行ID标号，将同属于同一个人的人体骨骼标注同一个ID以便于下一步的解算。最后，对同一ID下不同视角拍到的关节点坐标结合相机内参矩阵进行三角解算，通过MatchingEdges方法进行置信度计算，合成一套置信度最高的融合了之前多套骨骼优点的总的骨骼关节点信息，用于之后的增强现实重现。

利用增强现实技术对全息人体模型进行高还原度显示。图4给出了利用增强现实技术对全息人体模型进行高还原度显示处理流程图。主要是基于增强现实技术，将关节点坐标和人体外貌特征参数输入到人体标准模型中，对标准模型进行处理得到初步的重建模型，然后再将眼动和手势信息输入到初步重建模型中进行细节部分的拟合来重建出高还原度的全息人体模型来在目标场景中进行显示，来达到远程可视化交互的功能。

实施例2：一种基于外部相机和穿戴式显控设备的全息人体重建方法

表示c₂相机中第i个关节点的第n个候选点的坐标向量，

表示向量

和向量

的欧式距离，其中K为相机外参矩阵。

利用长短时记忆网络进行训练的具体步骤如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)，

这些信息被更新到细胞信息中；该过程表达为：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)，

一部分，得到新的细胞信息C_t；该过程表达为：

其中，

o_t＝σ(W_o*[h_t-1,x_t]+b_o)，

h_t＝o_t*tanh(C_t)，

步骤S3具体包括：

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所覆盖。

Claims

1.一种基于外部相机和穿戴式显控设备的全息人体重建方法，其特征在于，其步骤如下：

S1，将四个外部RGBD相机分别放置于要重建场景的四个角落，使得四个相机可以完整的、无遮挡的拍摄到整个场景，进入重建场景中的人穿上穿戴式显控设备，穿戴式显控设备包括头盔式的头显设备和手部动作捕捉设备；头显设备内部包括三个摄像头，其中两个摄像头位于眼球上方用于捕捉瞳孔中心坐标，另外一个摄像头位于头盔外部，用于捕捉人对外部世界的关注点坐标；手部动作捕捉设备包括放置于手部手套中的IMU传感器；

S2，在无干扰的场景中，利用四个RGBD相机获取要重建的人的点云特征，对要重建的人利用点云特征提取网络进行非刚体特征提取，提取后利用多人线性蒙皮模型，即SMPL，通过10个形态参数和75个姿态参数对人体标准模型进行拟合，将人体标准模型拟合到与真实模型较为相似的程度，用对应的形态参数和姿态参数代表要重建的人的人体特征；

S3，将属于同一个人的不同视角的多套关节点坐标通过匹配边界方法，即MatchingEdges，解算为一套置信度最高的关节点坐标，匹配边界方法的计算过程为：

表示c₁和c₂两个相机中第i个关节点的第m和n个候选点的置信度，c代表相机编号，i表示关节点序号，m和n表示不同的候选点的序号，z为标准化因数，

表示c₂相机中第i个关节点的第n个候选点的坐标向量，

表示c₁相机中第i个关节点的第m个候选点的坐标向量；上述第二个公式用于计算同一关节点下的每两个候选点之间的距离，

表示向量

和向量

的欧式距离，其中K为相机外参矩阵；

S5，首先将预先采集好的肌电信号与指令相对应的数据集，输入到长短时记忆网络中进行训练，并输出训练好的模型；通过手部动作捕捉设备在手部手套中的IMU传感器，捕捉得到相应的肌电信号，将肌电信号输入到训练好的模型中，对重建的人所做的手势进行处理，识别出与之相对应的指令并传递给计算机；

S6，将关节点坐标和人体外貌特征参数输入到人体标准模型中，对标准模型进行处理得到初步的重建模型，再将眼动和手势信息输入到初步重建模型中，进行细节部分拟合来得到最终的重建模型；最后用增强现实技术对最终的重建模型进行显示。

2.如权利要求1所述的基于外部相机和穿戴式显控设备的全息人体重建方法，其特征在于，所述的步骤S3具体包括：

S31，利用深度相机自带的人体骨骼检测模块，对场景中的所有人进行识别并提取骨骼关节点信息；

S32，对多个深度相机所拍到所有骨骼关节点信息与相应人进行匹配，即对骨骼按照出现的顺序进行ID标号，再凭借ID号来区分该套骨骼所属的目标人体；

3.如权利要求2所述的基于外部相机和穿戴式显控设备的全息人体重建方法，其特征在于，所述的步骤S32具体为：

利用一个预先通过机器学习学习到的模型，对多套骨骼进行提取特征，以用来区分不同人的骨骼进而方便对骨骼进行ID标示，且该模型对于已经存在于预先学习模型中的人，在离开场景重新进入后也可以重新识别出来，并判断与该模型中哪个人最为相似，并分配给与之前相统一的ID。

4.如权利要求1所述的基于外部相机和穿戴式显控设备的全息人体重建方法，其特征在于，步骤S4所述的使用霍夫变换在眼睛图像中检测出圆形，圆形方程表达为(x-a)²+(y-b)²＝r²，其中(a,b)为圆心坐标，r为圆的半径，则圆形参数空间可以表示为(a,b,r)，图像中的一个圆对应参数空间中一个点；建立一个三维累加器组S(a,b,r)，使a、b在取值范围内变化，解出满足圆的方程的r，每计算出一组(a,b,r)，令S(a,b,r)＝S(a,b,r)+1，使S(a,b,r)最大的参数(a,b,r)对应的圆形方程，即为所求圆的方程，从而完成眼睛图像中圆形的检测。