CN115937432A

CN115937432A - 基于多模态输入的人体动作重建系统及方法

Info

Publication number: CN115937432A
Application number: CN202211684996.3A
Authority: CN
Inventors: 杨旭波; 陈诺
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-04-07

Abstract

本发明提供了一种基于多模态输入的人体动作重建系统及方法，包括：图像采集模块、视频预处理模块以及动作重建系统；动作重建系统包括肢体动作重建系统、脸部动作重建系统以及动作融合模块；图像采集模块将图像数据传输给视频预处理模块，视频预处理模块将预处理过的图像数据传输给肢体动作重建系统；肢体动作重建系统向脸部动作重建系统、动作融合模块进行数据传输；脸部动作重建系统向动作融合模块进行数据传输；动作融合模块对肢体动作重建系统和脸部动作重建系统传输的数据进行融合。本发明能够避免单纯基于图像进行人体动作追踪时，由于像素、口罩遮挡等问题无法获得面部动作及单纯基于语音进行动作重建时结果不准确的问题。

Description

基于多模态输入的人体动作重建系统及方法

技术领域

本发明涉及人体动作重建技术领域，具体地，涉及一种基于多模态输入的人体动作重建系统及方法，尤其是一种基于图像和语音的多模态输入来重建人体动作的方法。

背景技术

在计算机图形学中，人体动作追踪是一个越来越热门的技术领域。随着元宇宙概念的兴起，越来越多的研究人员与商业公司开始着手研究人体动作的实时重建。目前研究基本都局限于基于单一模态重建动作，例如基于图像重建肢体动作、基于语音重建脸部动作、基于文本重建全身动作等。

基于图像的人体动作重建的研究主要可以分为基于单个RGB相机、基于多个RGB相机和基于RGBD深度相机三种。基于RGB的工作大多数通过构建数据集训练神经网络来预测在人体关节在二维图像上的位置。一些工作会依据人体骨骼及运动的规律来添加额外约束，从而提高预测的准确度。基于多个RGB相机的工作通常可以获得更加精准的结果。一些工作会重复单个RGB相机的工作，然后通过三角化坐标转化、卡尔曼滤波等，综合多个相机的物理信息与时间信息，获得更准确、更稳定的三维预测结果。其他一些工作会统一处理多个RGB相机的图像输入，通过施加时序信息约束、人体运动规律约束来求解最终结果。基于RGBD深度相机的工作会充分利用深度相机提供的深度信息。通常来说，这类工作会利用预训练的神经网络来将需要处理的肢体部分域背景分割开，然后利用深度信息重建出肢体对应的点云，而后对点云与人体肢体进行形状、动作拟合，最终获得肢体动作。

基于语音的人体动作重建主要是基于语音来重建面部表情，尤其是嘴部、下颚运动，该方法主要是通过训练神经网络来获得声音的大小、频率与嘴部运动之间的映射关系，从而对输入的声音应用映射得到相应的嘴部运动及下颚轮廓。

文献1，Lugaresi C,Tang J,Nash H,et al.Mediapipe:A framework forbuilding perception pipelines[J].arXiv preprint arXiv:1906.08172,2019.该文献提供了一种单纯基于图像进行人体动作重建的方法，但是由于基于图像的神经网络无法推测出被口罩遮挡的嘴部、下颚位置，因此该网络会基于脸部的大致形状直接推测，推测结果的时序平滑性非常差，帧与帧之间存在大幅抖动，并且嘴部形状保持闭合状态，无法反映出嘴部说话的动作。实验中，本申请的系统比该文献在佩戴口罩的情境下，追踪结果的时序稳定性提高了70倍，准确性也大大提高。

文献2，Lu Y,Chai J,Cao X.Live speech portraits:real-timephotorealistic talking-head animation[J].ACM Transactions on Graphics(TOG),2021,40(6):1-17.该文献提供了一种单纯基于语音进行人体动作重建的方法，但是单纯基于语音进行动作重建时，存在结果不准确的问题，该文献能够基于语音推测出脸部关键点的动作与头部的旋转信息，但该文献方法无法提供确定的推测值，即该文献方法仅仅是根据语音进行了脸部关键点及头部旋转的推测，与真实值有出入，并且没有根据图像对预测结果进行修正，即该文献方法仅仅提供了在当前语音下，脸部关键点可能位置的一种推测，与真实值无关。

公开号为CN110544301A的专利文献公开了一种三维人体动作重建系统、方法和动作训练系统，通过校正后的基于双目视觉的双目相机捕获目标人体的动作图像，对于动作图像进行二维图像上的二维人体关节点识别，基于双目立体视觉和二维人体关节点重构出目标人体的三维关节点，从而重建出目标人体的三维动作。但是该专利文献仍然存在单纯基于图像进行人体动作追踪的缺陷。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于多模态输入的人体动作重建系统及方法。

根据本发明提供的一种基于多模态输入的人体动作重建系统，包括：图像采集模块、视频预处理模块以及动作重建系统；所述动作重建系统包括肢体动作重建系统、脸部动作重建系统以及动作融合模块；

所述图像采集模块将图像数据传输给所述视频预处理模块，所述视频预处理模块将预处理过的图像数据传输给所述肢体动作重建系统；

所述肢体动作重建系统向所述脸部动作重建系统、所述动作融合模块进行数据传输；所述脸部动作重建系统向所述动作融合模块进行数据传输；

所述动作融合模块对所述肢体动作重建系统和所述脸部动作重建系统传输的数据进行融合。

优选的，所述肢体动作重建系统包括第一基于图像的子系统和逆向动力学子系统；

所述第一基于图像的子系统用于根据图像数据重建人体动作，所述逆向动力学子系统用于补全肢体动作。

优选的，所述脸部动作重建系统包括第二基于图像的子系统和基于语音的子系统；

所述第二基于图像的子系统和所述基于语音的子系统用于补全面部动作。

本发明还提供一种基于多模态输入的人体动作重建方法，基于上述的基于多模态输入的人体动作重建系统，具体包括如下步骤：

步骤1：通过图像采集模块采集图像数据；

步骤2：通过视频预处理模块对图像数据进行预处理；

步骤3：根据预处理后的图像数据，通过肢体动作重建系统的第一基于图像的子系统重建人体动作，通过肢体动作重建系统的逆向动力学子系统补全肢体动作；

步骤4：通过第二基于图像的子系统和基于语音的子系统补全遮挡情况下的面部动作；

步骤5：通过动作融合模块对肢体关节点3D位置与脸部关键地标点的3D位置进行融合。

优选的，所述步骤3中，

通过神经网络处理输入图像，预测出人体关节点的3D位置与对应的可信度；当肢体关节点3D位置可信度未达到预设阈值时，使用逆向动力学方法与可信度达到预设阈值的肢体关节点3D位置计算出新的3D位置，替换可信度未达到预设阈值的关节点位置。

优选的，所述步骤4中，

使用基于图像的方法，通过神经网络预测出脸部关键地标点的3D位置与对应的可信度，当可信度较未达到预设阈值或者脸部关键地标尺度与身体不一致时，使用神经网络通过语音预测出脸部关键地标点的相对位置。

优选的，所述步骤5中，

当使用基于语音补全面部关键点坐标的情况下，对数据点进行归一化处理，通过肢体关节点之间的相对位置与脸部关键地标之间的相对位置，计算得出肢体坐标与面部坐标之间的相对尺度比例，然后调整为预设的尺度比例，并且使用肢体关节点与脸部关键地标之间的历史相对旋转、角速度推测出当前脸部关键点与肢体关节点之间的相对旋转，将两部分数据进行融合。

优选的，所述步骤2中，预处理方法为基于OpenCV的多RGB相机输入预处理方法。

优选的，通过基于Python的多进程的并行处理系统，并行处理各个相机输入。

优选的，处理各个相机输入，包括读取各个RGB相机的图像输入、基于单张RGB图像肢体动作关节点位置追踪以及基于单张RGB图像脸部关键点位置追踪。

与现有技术相比，本发明具有如下的有益效果：

1、本发明使用语音重建得到的人脸动作补全基于图像获得的人体动作追踪的遮挡、使用逆向动力学补全被遮挡的关节位置，使用融合算法将语音重建的人脸关键点坐标与肢体关节点坐标较为真实的融合起来，实现实时全身动作追踪；

2、本发明能够避免单纯基于图像进行人体动作追踪时，由于像素、口罩遮挡等问题无法获得面部动作及单纯基于语音进行动作重建时结果不准确的问题，能够在保证大部分肢体动作精确的情况下补全脸部的动作；

3、本发明是在单一的基于图像的肢体动作追踪与单一的基于语音的面部动作重建中结合二者的优点的混合方法，通过逆向动力学与关键点融合模块，能够较好的将两种方法的结果统一起来，这一方法能够提升动作追踪时对遮挡的容忍度和面部动作重建的精确度；

4、本发明能够在严重面部遮挡的情况下较为准确的重建出面部关键点，并较为自然的与肢体关节点在尺度、旋转上融合，有效解决疫情下佩戴口罩时全身动作追踪时面部动作追踪精度低的技术问题；

5、在提供图像数据时，本发明的系统可以根据图像系统进行面部关键点追踪的修正，保证在无遮挡的情况下追踪结果贴近真实值，有遮挡的情况下预测值具有较好的时序稳定性并且贴近真实值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的基于多模态输入的人体动作重建系统的结构框图；

图2为本发明的基于多视角图像输入的并行框架调度设计示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

如图1和图2所示，本实施例提供一种基于多模态输入的人体动作重建系统，包括：图像采集模块、视频预处理模块以及动作重建系统；动作重建系统包括肢体动作重建系统、脸部动作重建系统以及动作融合模块，图像采集模块将图像数据传输给视频预处理模块，视频预处理模块将预处理过的图像数据传输给肢体动作重建系统，肢体动作重建系统向脸部动作重建系统、动作融合模块进行数据传输；脸部动作重建系统向动作融合模块进行数据传输，动作融合模块对肢体动作重建系统和脸部动作重建系统传输的数据进行融合。

脸部动作重建系统包括第二基于图像的子系统和基于语音的子系统，第二基于图像的子系统和基于语音的子系统用于补全面部动作。

肢体动作重建系统包括第一基于图像的子系统和逆向动力学子系统，第一基于图像的子系统用于根据图像数据重建人体动作，逆向动力学子系统用于补全肢体动作。

本实施例还提供一种基于多模态输入的人体动作重建方法，基于上述的基于多模态输入的人体动作重建系统，具体包括如下步骤：

步骤1：通过图像采集模块采集图像数据。

步骤2：通过视频预处理模块对图像数据进行预处理；预处理方法为基于OpenCV的多RGB相机输入预处理方法；通过基于Python的多进程的并行处理系统，并行处理各个相机输入；处理各个相机输入，包括读取各个RGB相机的图像输入、基于单张RGB图像肢体动作关节点位置追踪以及基于单张RGB图像脸部关键点位置追踪。

步骤3：根据预处理后的图像数据，通过肢体动作重建系统的第一基于图像的子系统重建人体动作，通过肢体动作重建系统的逆向动力学子系统补全肢体动作；通过神经网络处理输入图像，预测出人体关节点的3D位置与对应的可信度；当肢体关节点3D位置可信度未达到预设阈值(可信度较低)时，使用逆向动力学方法与可信度达到预设阈值(可信度较高)的肢体关节点3D位置计算出新的3D位置，替换可信度未达到预设阈值(可信度较低)的关节点位置；当肢体关节由于场景中其他物体或拍摄角度原因被遮挡时，神经网络对该肢体关节点的预测结果通常可信度较低，当关节点未被遮挡且拍摄角度较好时，关节点的位置预测值可信度较高。当神经网络对于某个关节点的位置预测可信度较低时，可以使用逆向动力学方法与可信度较高的肢体关节点3D位置计算出可信度低的关节点的3D位置，替换低可信度的关节点位置。

步骤4：通过第二基于图像的子系统和基于语音的子系统补全遮挡情况下的面部动作；使用基于图像的方法，通过神经网络预测出脸部关键地标点的3D位置与对应的可信度，当可信度未达到预设阈值(可信度较低)或者脸部关键地标尺度与身体不一致时，使用神经网络通过语音预测出脸部关键地标点的相对位置；当脸部被遮挡时，例如佩戴口罩等情况下，神经网络无法通过图像推测出被遮挡部分的脸部关键点的位置，此时预测结果通常可信度较低；当脸部无遮挡时，此时预测结果通常可信度较高。

步骤5：通过动作融合模块对肢体关节点3D位置与脸部关键地标点的3D位置进行融合；当使用基于语音补全面部关键点坐标的情况下，对数据点进行归一化处理，通过肢体关节点之间的相对位置与脸部关键地标之间的相对位置，计算得出肢体坐标与面部坐标之间的相对尺度比例，然后调整为预设的尺度比例，并且使用肢体关节点与脸部关键地标之间的历史相对旋转、角速度推测出当前脸部关键点与肢体关节点之间的相对旋转，将两部分数据进行融合。合适的尺度比例为，头身比通常在6.5至9倍之间，头肩比通常在1.5至2倍之间。

实施例2：

本领域技术人员可以将本实施例理解为实施例1的更为具体的说明。

本实施例基于前人的基于图像的人体动作重建和基于语音的人体动作重现，并针对现有方法存在的不足，提供一种混合方法，提供一种基于多模态输入的人体动作重建系统及方法。

本实施例的基于多模态输入的人体动作重建系统包括：

基于图像数据重建人体动作后基于逆向动力学补全肢体动作的算法，基于图像和基于语音补全遮挡情况下面部动作的算法，基于肢体关节点3D位置与脸部关键地标点的3D位置的融合算法，以及多相机下实时并行处理多分数据的并行算法。

所述的基于图像数据重建人体动作后基于逆向动力学补全肢体动作的算法是指：在本实施例中通过神经网络处理输入图像，预测出人体关节点的3D位置与对应的可信度，当肢体关节点3D位置可信度较低时，使用逆向动力学方法与可信度较高的肢体关节点3D位置计算出新的3D位置，替换低可信度的关节点位置。

所述的基于图像和基于语音补全遮挡情况下面部动作的算法是指：使用基于图像的方法，通过神经网络预测出脸部关键地标点的3D位置与对应的可信度，当可信度较低，或者脸部关键地标尺度与身体不一致时，使用神经网络通过语音预测出脸部关键地标点的相对位置。

所述的基于肢体关节点3D位置与脸部关键地标点的3D位置的融合算法是指：当使用基于语音补全面部关键点坐标的情况下，对数据点进行归一化处理后，通过肢体关节点之间的相对位置与脸部关键地标之间的相对位置，计算得出肢体坐标与面部坐标之间的相对尺度比例，然后调整为合适的尺度比例，并且使用肢体关节点与脸部关键地标之间的历史相对旋转、角速度推测出当前脸部关键点与肢体关节点之间的相对旋转，从而将两部分数据融合的算法。

实施例3：

如图1所示，本实施例的基于多模态输入的人体动作重建方法包括：基于混合方法的人体动作重建和用作对比的单一的基于图像的肢体动作追踪与单一的基于语音的面部动作重建，其中基于混合方法的人体动作重建是本实施例的重点。

所述的基于混合方法的人体动作重建包括：基于OpenCV的多RGB相机输入预处理方法、基于Python的多进程的并行处理系统、前人方法基于图像的肢体动作关节点位置追踪方法、基于逆向动力学的肢体关节点位置补全方法、前人方法基于图像的脸部关键点位置追踪方法、前人方法基于语音的脸部关键点位置重建方法、将肢体关节点3D坐标和脸部关键点3D坐标进行信息融合的方法。

所述的基于OpenCV的多RGB相机输入预处理方法，用于处理多个RGB相机输入的情况下的数据输入。当有多个相机同时接入系统时，使用外接同步盒硬件来保证各个相机在同一个时刻拍摄不同角度的照片，并通过OpenCV获取各个相机拍摄的照片，然后传递给系统下游的动作重建系统。

所述的基于Python的多进程的并行处理系统，用于多个RGB相机输入的情况下，并行处理各个相机输入，包括读取各个RGB相机的图像输入、基于单张RGB图像肢体动作关节点位置追踪和基于单张RGB图像脸部关键点位置追踪。其具体架构如图2所示，以三个RGB相机输入为例，三个视频处理进程分别负责处理各RGB相机输入的视频帧，而后调用基于RGB图像的肢体关节点位置追踪神经网络，获得各个相机视角下像素坐标系中的肢体关节点像素坐标，并将这些数据通过进程间通信的方式传递给主进程，然后主动陷入休眠等待主进程唤醒。主进程获得全部视频处理进程传递的各个相机对应的肢体关节点像素、脸部关键点像素坐标后，即各个视频处理进程都已完成当前帧的计算过程并陷入休眠，主进程即唤醒各个视频处理进程，停止阻塞视频处理进程，使得它们可以立即开始处理下一个采样时刻的RGB图像。主进程通过坐标转换，将各个视频处理进程传递的像素坐标转换为世界坐标系下的三维坐标，并输出给后续模块。本发明中，通过事先求解PNP问题来对各个RGB相机进行标定。

所述的坐标转换是将关键点的二维像素转换到针孔模型下的相机坐标系中，并最后通过相机标定结果转换到世界坐标系中获得关键点的三维坐标方法。

所述的PNP问题为Perspective-n-Point问题，是通过拍摄若干个标定点的图像并测量这些标定点的世界坐标来构建相机内参、外参的方法。

所述的前人方法基于图像的肢体动作关节点位置追踪方法是来自文献1的Mediapipe系列人体追踪框架。Mediapipe系列人体追踪框架基于轻量级的卷积神经网络，利用热力图和关键点坐标回归来完成人体姿态追踪。本实施例中，使用Mediapipe Pose模型，对输入的每帧RGB图像提取共33个肢体关节点像素坐标，包括11个脸部关键点的像素坐标、8个左右手关节点像素坐标、6个左右脚关节点像素坐标和8个肢体关节点像素坐标，这些关节点像素坐标中x轴坐标和y轴坐标的范围均为[0,1]，[0,0]表示位于图像左下角，[1,1]表示位于图像右上角。

所述基于逆向动力学的肢体关节点补全方法是指基于历史数据获得肢体骨骼长度，通过置信度较高的关节点3D位置和关节、骨骼之间的约束与几何关系，求解出中间关节点的3D位置，并取代置信度较低的关节点3D位置。在肢体有明显遮挡时，使用Mediapipe等人体追踪神经网络对图像中的人体进行动作追踪时，被遮挡的关节点的置信度较低，并且所预测的位置通常与真实位置偏差交大，而且不一定满足骨骼长度约束。通过逆向动力学，以历史骨骼长度和已知置信度较高的关节点位置为约束，可以求解出中间关节点的可信3D位置。本实施例中，包含基于几何关系推算并补全关节点的2D像素坐标，和基于循环坐标下降逆向动力学补全关节点的3D世界坐标方法。

所述前人方法基于图像的脸部关键点位置追踪方法是基于谷歌开源的Mediapipe系列人体追踪框架。本实施例中，使用Mediapipe Face Mesh模型，对输入的RGB视频帧提取共468个脸部关键点3D坐标，其中x坐标归一化到输入图像宽度，范围为[0,1]，y坐标归一化到输入图像高度，范围为[0,1]。x坐标、y坐标[0,0]表示位于图像左下角，x坐标、y坐标[1,1]表示位于图像右上角。z坐标使用与x坐标相同的尺度，值越小表示离相机越近。

所述前人方法基于语音的脸部关键点位置重建方法是来自于期刊文献2的LiveSpeech Portrait方法，首先将音频采样得到的数据转换为梅尔频谱，然后使用基于GRU(Gated Recurrent Units)单元的APC模型(Autoregressive Predictive Coding)将梅尔频谱转换为语音信息特征，经过流形投影后通过LSTM(Long Short-term Memory)模型和多层感知机模型将语音信息特征转换为嘴部相关动作。在全脸遮挡的情况下，通过事先采样追踪对象的眉毛、眼睛，并与嘴部动作合并，可以获得全脸关键点坐标信息，并传递给动作融合模块。对于只有嘴部信息被遮挡的情况，例如佩戴口罩的情况，可以直接将基于语音合成的嘴部动画与基于图像追踪到的脸部其他关键点坐标合并，从而获得较为准确的全脸关键点坐标信息。合并时，将嘴部关键点根据双眼距离放缩至合适大小，并平移到双眼正下方。GRU是将LSTM(Long Short-term memory)单元的遗忘门和输入门合并为更新门、隐藏层合并成重置门的单元。APC模型是一种无监督的学习模型，通过进行无监督的预训练抽取语音特征。流行投影为流行学习中的一种提高泛化程度的方式。

所述信息融合方法包括脸部关键点3D坐标的缩放、基于时序连贯性的缩放和旋转。人的头肩比通常为1.5～2，通过历史帧中头部的大小、历史帧中获取的当前追踪对象的头肩比、当前帧中肩部的宽度，可以较为准确的重建出当前帧的头部大小，而后将脸部动作重建系统传递的已经归一化的脸部关键点3D坐标放缩到合适大小。本实施例认为，头部和肢体的相对旋转受以下四个约束：面部在静息状态下倾向于和胸腔朝向一致；头部发生朝某个方向的旋转后倾向于旋转到静息状态；头部旋转的角速度、线速度不会发生突变；脖子关节的旋转角度受限，越接近角度极限时角速度和线速度下降越快，及加速度绝对值越大。基于以上约束，可以将头部相对于肢体的旋转拆解为三个绕轴旋转的叠加：绕颈椎方向的扭动旋转，即始终保持头部在颈椎方向上，同时发生扭动旋转；以穿过头部中心点、平行于肩膀的方向为旋转轴发生摆动旋转；以穿过头部中心点、垂直于胸腔的方向为旋转轴发生的摆动旋转。本实施例中，通过记录历史帧中这三种旋转的角速度变化来估计当前帧的角速度变化，与此同时加入关节约束角度相关的阻尼，使得头部运动不会超出脖颈关节的角度极限。

将上述方法在Windows10、Python3.6、NVIDIA RTX3060Ti、Intel i5-10400f的系统环境、软件环境、硬件环境下实施，在处理3个RGB相机输入时，可以实时产生肢体追踪结果，平均每帧耗时50ms，帧率为20赫兹，误差为1.4cm。基于语音合成脸部关键点的模块在CPU环境下平均每帧耗时1.6ms，在GPU环境下平均每帧耗时3.2ms。

上述工作的技术指标与其他方法的技术比较。

表1技术特性对比

上述基于图像的动作重建方法来自于为文献1，基于语音的动作重建方法来自于期刊文献2。

计算精度(从高到底)：混合方法>基于图像的动作追踪法>基于语音的动作追踪法。

计算速度(时间从短到长)：基于语音的动作追踪法<混合方法＝基于图像的动作追踪法。

本实施例可以应用于佩戴口罩的场景中，这在新冠疫情下是一种有应用价值的动作追踪方法。在此场景下，基于图像的人体追踪会发生严重抖动，且追踪精度低，基于语音的人体追踪结果较为平滑，但追踪结果与真实情况有较大出入。与现有方法相比，该方法结合了两种传统方法的优点，在有遮挡的情况下，大幅度提升了肢体关节点和面部关键点的追踪准确度，在无遮挡的情况下与单纯基于图像的动作重建方法保持了相同的性能与精度，与此同时保证了帧率基本不变。

综上所述，本实施例可以对关节存在严重遮挡、面部存在严重遮挡的情况，实时重建出高精度的人体关节点位置、面部关键点位置，有效克服了人体动作重建领域的遮挡下重建精度低的问题，具有较高的利用价值。

实施例4：

本实施例提供一种基于多模态输入的人体动作重建方法，所述多模态输入的人体动作重建方法包括：基于单RGB相机输入及逆向动力学的肢体动作追踪及补全方法，基于单RGB相机输入及语音信号的人脸遮挡情况下动作追踪方法，多RGB相机输入下并行化架构设计和脸部关键点位置与肢体关节点位置基于运动连贯性的融合算法。

基于人体关节约束相关的头部-肢体旋转角速度预测的建模与实现算法，包括：

将头部-肢体旋转分解为绕三个旋转轴的旋转：绕颈椎方向的扭动旋转；以穿过头部中心点、平行于肩膀的方向为旋转轴的摆动旋转；以穿过头部中心点、垂直于胸腔的方向为旋转轴的摆动旋转；

对这三种旋转使用二次函数进行拟合，并以一段时间窗口内拟合的结果预测当前帧的旋转角速度与旋转角度；

当旋转角度接近关节极限时，对拟合结果的角加速度施加更大的阻尼，迫使旋转角度回到休止状态下的旋转角度。

基于单RGB相机输入和逆向动力学的肢体补全算法，包括：

当基于单RGB相机输入预测得到的中间关节点位置可信度较低时，使用几何分析的方法，利用人体的对称性及历史信息来推测当前时间步中追踪骨骼的长度，并以此计算估测出中间关节点的位置。

基于语音输入补全面部遮挡的算法设计，包括：

基于图像输入重建基础脸部动作，并使用基于语音信号重建的嘴部相关关键点位置补全可信度较低的脸部关键点位置。

本发明能够避免单纯基于图像进行人体动作追踪时，由于像素、口罩遮挡等问题无法获得面部动作及单纯基于语音进行动作重建时结果不准确的问题。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于多模态输入的人体动作重建系统，其特征在于，包括：图像采集模块、视频预处理模块以及动作重建系统；所述动作重建系统包括肢体动作重建系统、脸部动作重建系统以及动作融合模块；

2.根据权利要求1所述的基于多模态输入的人体动作重建系统，其特征在于，所述肢体动作重建系统包括第一基于图像的子系统和逆向动力学子系统；

3.根据权利要求2所述的基于多模态输入的人体动作重建系统，其特征在于，所述脸部动作重建系统包括第二基于图像的子系统和基于语音的子系统；

4.一种基于多模态输入的人体动作重建方法，其特征在于，基于权利要求1至3任一项所述的基于多模态输入的人体动作重建系统，具体包括如下步骤：

步骤1：通过图像采集模块采集图像数据；

步骤2：通过视频预处理模块对图像数据进行预处理；

5.根据权利要求4所述的基于多模态输入的人体动作重建方法，其特征在于，所述步骤3中，

6.根据权利要求5所述的基于多模态输入的人体动作重建方法，其特征在于，所述步骤4中，

使用基于图像的方法，通过神经网络预测出脸部关键地标点的3D位置与对应的可信度，当可信度未达到预设阈值或者脸部关键地标尺度与身体不一致时，使用神经网络通过语音预测出脸部关键地标点的相对位置。

7.根据权利要求6所述的基于多模态输入的人体动作重建方法，其特征在于，所述步骤5中，

8.根据权利要求4所述的基于多模态输入的人体动作重建方法，其特征在于，所述步骤2中，预处理方法为基于OpenCV的多RGB相机输入预处理方法。

9.根据权利要求8所述的基于多模态输入的人体动作重建方法，其特征在于，通过基于Python的多进程的并行处理系统，并行处理各个相机输入。

10.根据权利要求9所述的基于多模态输入的人体动作重建方法，其特征在于，处理各个相机输入，包括读取各个RGB相机的图像输入、基于单张RGB图像肢体动作关节点位置追踪以及基于单张RGB图像脸部关键点位置追踪。