CN115049016A

CN115049016A - 基于情绪识别的模型驱动方法及设备

Info

Publication number: CN115049016A
Application number: CN202210861312.6A
Authority: CN
Inventors: 刘帅; 朱新升; 杨智远; 吴连朋
Original assignee: Juhaokan Technology Co Ltd
Current assignee: Juhaokan Technology Co Ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-09-13

Abstract

本申请涉及三维重建技术领域，提供一种基于情绪识别的模型驱动方法及设备，对获取的目标对象的人脸图像和语音数据进行了完整性判断，当人脸图像和语音数据只有一个数据完整时，基于完整的人脸图像或语音数据进行情绪识别，从而解决由于面部遮挡或语音数据传输失败，导致的面部情绪识别准确率较低或者无法识别出面部情绪的问题；当人脸图像和语音数据两个均完整时，基于完整的人脸图像和语音数据进行情绪识别，提高情绪识别的准确性，进而用情绪识别得到的情绪参数优化参数化头部模型的初始驱动参数，从而将面部情绪引入目标驱动参数中，使得基于目标驱动参数进行参数化头部模型的重建和驱动时，能够提高模型的真实感和重建精度。

Description

基于情绪识别的模型驱动方法及设备

技术领域

本申请涉及三维重建技术领域，提供一种基于情绪识别的模型驱动方法及设备。

背景技术

基于虚拟现实(Virtual Reality，VR)、增强现实(Augmented Reality，AR)技术的远程三维通信系统中，人体三维重建是远程三维通信的基础，而头部作为人体的主要关注点之一，因此，头部重建是人体重建的重点。

目前，大多数头部重建方法中，是基于自然状态下面部动作的表达，并没有考虑用户情绪，无法精确的表达各种微表情乃至极端表情的效果，而头部的重建精度，特别是表情效果在交互终端中的渲染呈现，直接影响了用户的沉浸式感知和体验。因此，将识别的面部情绪引入头部模型的重建和驱动中是非常重要的。

发明内容

本申请提供一种基于情绪识别的模型驱动方法及设备，用于提高头部模型中人脸部分的重建精度。

一方面，本申请提供一种基于情绪识别的模型驱动方法，包括：

获取目标对象的人脸图像和语音数据；

分别确定所述人脸图像和所述语音数据是否完整；

若所述人脸图像不完整，但所述语音数据完整，则对所述语音数据进行情绪识别，得到情绪参数；

若所述人脸图像完整，但所述语音数据不完整，则对所述人脸图像进行情绪识别，得到情绪参数；

若所述人脸图像完整，且所述语音数据完整，则分别对所述人脸图像和所述语音数据进行情绪识别，得到融合后的情绪参数；

根据情绪参数调整预先构建的所述目标对象对应的参数化头部模型的初始驱动参数，得到目标驱动参数；

将所述目标驱动参数传输给渲染终端，以使所述渲染终端根据所述目标驱动参数，驱动所述参数化头部模型。

另一方面，本申请提供一种重建设备，包括相机、麦克风，图形工作站，所述图形工作站包括处理器、存储器和通信接口，所述通信接口、所述存储器和所述处理器通过总线连接；

所述存储器包括数据存储单元和程序存储单元，所述程序存储单元存储有计算机程序，所述处理器根据所述计算机程序，执行以下操作：

通过所述通信接口，获取所述相机采集的目标对象的人脸图像，以及所述麦克风采集的所述目标对象的语音数据，并将获取的人脸图像和语音数据存储至所述数据存储单元；

分别确定所述人脸图像和所述语音数据是否完整；

通过所述通信接口，将所述目标驱动参数传输给渲染终端，以使所述渲染终端根据所述目标驱动参数，驱动所述参数化头部模型。

另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机设备执行本申请实施例提供的基于情绪识别的模型驱动方法。

本申请提供的基于情绪识别的模型驱动方法及设备中，对获取的目标对象的人脸图像和语音数据进行了完整性判断，当人脸图像和语音数据只有一个数据完整时，基于完整的人脸图像或语音数据中识别的情绪，这样，可以解决由于面部遮挡或语音数据传输失败，导致的面部情绪识别准确率较低或者无法识别出面部情绪的问题；当人脸图像和语音数据两个均完整时，基于完整的人脸图像和语音数据中识别的情绪，相对于一个完整数据，情绪识别的准确性更高，通过用情绪识别得到的情绪参数优化参数化头部模型的初始驱动参数，从而将面部情绪引入目标驱动参数中，使得基于目标驱动参数进行参数化头部模型的重建和驱动时，能够提高模型的真实感和重建精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的远程三维通信系统架构图；

图2为本申请实施例提供的基于情绪识别的模型驱动方法架构图；

图3为本申请实施例提供的基于情绪识别的模型驱动方法流程图；

图4为本申请实施例提供的人脸图像的完整性判断方法流程图；

图5为本申请实施例提供的语音数据的完整性判断方法流程图；

图6为本申请实施例提供的人脸图像和语音数据完整时目标驱动参数的计算过程示意图；

图7为本申请实施例提供的另一基于情绪识别的模型驱动方法流程图；

图8为本申请实施例提供的人脸图像的语义分割效果图；

图9为本申请实施例提供的人脸图像的语义分割后的整合效果图；

图10为本申请实施例提供的重建设备的硬件结构图；

图11为本申请实施例提供的重建设备的功能结构图。

具体实施方式

人体三维重建涉及形状、运动和材质数据，高精度模型往往需要较大的数据体量，这与远程三维通信系统中AR/VR终端的实时渲染显示相冲突，而AR/VR终端的沉浸式渲染往往又需要极高的数据量，因此，如何平衡传输的数据量和延迟，提高三维模型的显示质量变得尤为重要。

针对人体模型的三维重建，一般以各类传感器采集的数据作为输入，通过三维重建方法进行处理，从而重建出人体三维信息。近年来，随着成像技术的不断发展，基于RGB相机的视觉三维重建技术逐渐成为研究热点，随后，RGBD相机的出现及双目立体匹配算法的提出和优化，进一步提高了三维重建的质量和效率。

在远程三维通信过程中，头部重建的拟真程度直接影响VR/AR终端中面对面的沉浸式体验，因此，头部重建是人体三维重建的一个重要组成部分。

目前，大多数的头部三维重建为：通过构建的参数化头部模型进行三维表达，基于各类传感器采集的数据进行驱动，从而实现头部模型的实时动态三维重建。经典的参数化头部模型主要包括3DMM、FLAME、DECA等，其中，DECA模型支持单张图像的驱动。

然而，在驱动参数化头部模型时，大多是基于自然状态下面部动作的表达，并没有考虑用户情绪，无法精确的表达出各种微表情乃至极端表情的效果，而头部的重建精度，特别是交互终端中渲染呈现面部情绪，直接影响了用户的沉浸式感知和体验。因此，将识别的面部情绪引入头部模型的重建和驱动中是非常重要的。

在远程全息通讯场景中，人脸是非常重要的情绪信息传递媒介，而语音也是及其重要的情绪信息传递媒介。因此，为了提高头部模型中人脸部分的精度，相关技术进行了面部情绪识别，但目前的情绪识别方法仅是单纯的基于图像或音频识别的。然而，在实际远程三维通信过程中，用户戴上头戴式显示器(Head Mounted Display，HMD)后，面部大部分区域被遮挡，导致提取的情绪的准确性或完整性较低，同时，远程三维通信过程中，受网络影响，可能音频无法被正确传输，导致情绪识别失败，因此，单纯的基于图像或音频识别面部情绪可能不够准确，进而影响了模型的驱动效果。

鉴于此，本申请实施例提供一种基于情绪识别的模型驱动方法及设备，能够同时获取人脸图像和语音数据，这样，当用户面部遮挡较为严重，难以通过视觉方法感知面部情绪时，可以通过语音数据去感知面部情绪，从而将情绪参数引入参数化头部模型的重建与驱动中，增加模型的真实感与精度；当语音数据传输失败或暂时没有发声的情况下，可以通过人脸图像去感知面部情绪，从而将情绪参数引入参数化头部模型的重建与驱动中，增加模型的真实感与精度；当获得的视觉RGB数据和语音数据均较为完整时，可同时基于视觉RGB数据及语音数据这两类多源数据，融合感知面部情绪，提高情绪的识别准确性，进而基于准确的情绪表征的目标驱动参数，提高头部模型的表达效果。

图1为本申请实施例提供的远程三维通信系统的结构图，主要包括采集终端、云端和渲染终端，涉及实时三维重建技术、三维数据的编解码及传输技术、沉浸式VR/AR显示技术等。其中：

采集终端由相机、麦克风和图形工作站组成，用于基于采集数据重建三维模型。具体的，通过相机采集该采集终端关联的目标对象的人脸图像，同时，通过麦克风采集该采集终端关联的目标对象的语音数据。图形工作站基于人脸图像进行头部三维重建，将头部三维模型数据通过云端发送给渲染终端；并且，图形工作站从人脸图像和/或语音数据中识别出目标对象的情绪参数，并用情绪参数优化目标对象的参数化头部模型的初始驱动参数，得到目标驱动参数后，将目标驱动参数通过云端发送给渲染终端。其中，采集终端包括的相机可以是普通的RGB相机，也可以是RGBD相机，当为RGBD相机时，可以同时采集RGB人脸图像和深度图像。

云端由服务器组成，用于对重建的头部三维模型数据和目标驱动参数进行接收、传输和分发。具体的，云端接收到采集终端发送的头部三维模型数据和目标驱动参数后，进行编解码传输。

渲染终端通过云端获取采集终端重建的头部三维模型数据，以及接收采集终端提取的目标驱动参数，并用目标驱动参数驱动头部三维模型，基于驱动后的头部模型进行虚拟人物的渲染显示。其中，渲染终端包括但不限于VR/AR显示设备。

基于图1所述的系统架构图，图2实施例示出了本申请实施例提供的基于情绪识别的模型驱动方法架构图。如图2所示，采集终端对获取的人脸图像和语音数据进行完整性判断，当仅有一类数据完整时(即人脸图像完整或语音数据完整)，则从完整的单一数据中识别目标对象的情绪；当两类数据均完整时(即人脸图像完整且语音数据完整)，则从完整的两类数据中识别目标对象的情绪。通过识别出的情绪参数，优化参数化头部模型的初始驱动参数，得到目标驱动参数。云端对采集终端发送的目标驱动参数进行编解码传输。渲染终端加载预构建的虚拟人物数据(包括头部三维模型数据)，并将目标驱动参数引入虚拟人物数据中，联合驱动虚拟人物的头部三维模型。

其中，虚拟人物的人体模型可通过预先扫描的高精度数据构建的，或者通过参数化估计构建的参数化模型(如SMPL或STAR模型)。

本申请实施例在远程三维通信系统的采集终端中，引入面部情绪识别技术，获得人脸的目标驱动参数，并将目标驱动参数引入参数化头部模型，增加参数化头部模型的情绪表达能力，从而提高了头部三维模型的精度和真实性。

本申请实施例通过完整性判断，可以在缺失基于视觉图像识别的情绪时，利用语音数据进行情绪识别，优化参数化头部模型的驱动参数，从而基于优化后的目标驱动参数驱动参数化头部模型，增强模型的情绪表达效果。当获得的人脸图像的RGB数据较为完整时，可以将人脸图像和语音数据中识别出面部情绪进行融合，多数据源优化参数化头部模型的驱动参数，进一步提高头部模型的表达精度和效果。

本申的请实施例中，采用数据驱动参数化头部模型的方式实现头部模型的动态三维重建。参数化头部模型是指通过对预先扫描的大量高精度三维人体头部模型进行降维分析(如：主成分分析或者网络自编码等)，生成一组基函数，对这组基函数进行线性或非线性混合，即可产生不同的头部模型，这里基函数的混合参数就是人体头部的参数化表达，参数化头部模型主要包括形状参数、表情参数和位姿参数，脸部的形状可以看作这些参数共同作用的结果。其中，表情参数可以驱动人脸进行非刚性形变，来表达人脸的各种表情变化。

以参数化头部模型为FLAME模型为例，其由标准的线性混合蒙皮(Linear blendskinning，LBS)和混合形状(Blend Shape)两部分构成，采用的标准网格模型的网格顶点数为N＝5023，关节数为K＝4(位于颈部、下颚和两个眼球)。FLAME模型的参数化表示如下：

其中，

表示形状参数，

表示姿态参数(包括头部骨架的运动参数)，

为表情参数。

可以唯一标识头部三维几何模型的一个顶点坐标。W(·)表示标准的线性蒙皮函数，用于将头部模型网格T沿关节进行变换，J(·)表示预测不同头部关节点位置的函数，T表示头部模型网格，B_s(·)表示形状参数对头部模型网格T的影响函数，B_p(·)表示姿态参数对头部模型网格T的影响函数，B_e()表示表情参数对头部模型网格T的影响函数，T_p(·)表示在形状参数、姿态参数和表情参数的共同作用下对头部模型网格T进行形变的函数，s、p、e、ω分别表示形状权重、姿态权重、表情权重，蒙皮权重。s、p、e、ω是通过对预先构建的头部样本数据训练得到的。

训练完成后，后续仅需提供

等参数即可得到拓扑一致的参数化头部模型。因此，参数化头部模型能够通过少量的参数，表达一个具有实时非刚性变形特点的人体头部模型，该模型可以作为单张图片生成三维头部模型的基础，并且不受不可见区域几何缺失的影响。

一般的参数化模型(如FLAME、DECA等)中的表情参数中并没有考虑情绪参数的影响，而EMOKA模型基于DECA模型引入了情绪一致性损失项，使得重建的表达更加鲁棒，在较大的情绪中有较好的几何表达能力。

在本申请的实施例中，从人脸图像、语音数据、以及人脸图像和语音数据中识别出的情绪参数，可以作为表情参数的加权值，调整预先构建的参数化头部模型的初始驱动参数，得到目标驱动参数。具体实施时，参考EMOKA模型，通过情绪一致性损失项调整初始表情参数，将调整后的目标表情参数ψ替代原有FLAME模型的表情参数，从而将面部情绪引入参数化头部模型的重建与驱动中，提高情感表达效果。

本申请的实施例中，可通过RGBD相机采集的头部图像和深度数据，预先拟合出采集终端关联的目标对象的参数化头部模型的数据(包括初始形状参数、初始位姿参数和初始表情参数等)，并将预先构建的参数化头部模型的数据发送给渲染终端进行存储。

构建好参数化头部模型后，通过驱动参数化模型，实现头部模型的实时动态重建。下面具体描述本申请实施例提供的基于情绪识别的模型驱动方法流程。

参见图3，该流程由远程三维通信系统中的采集终端执行，主要包括以下几步：

S301：获取目标对象的人脸图像和语音数据。

在远程全息通讯场景中，人脸是非常重要的情绪信息传递媒介，通过人脸图像中的面部表情分析人的情绪，是最基础、直观的基于生理信号的情绪分析方法，因此，可通过获取人脸图像进行情绪识别。而语音也是及其重要的情绪信息传递媒介，通过语音数据中的语调、词语等也可以分析出人的情绪，因此，也可以通过获取语音数据进行情绪识别。

S302：分别确定人脸图像和语音数据是否完整，若人脸图像不完整但语音数据完整，则执行S303，若人脸图像完整但语音数据不完整，则执行S304，若人脸图像完整且语音数据完整，则执行S305。

虽然人脸图像和语音数据均可传递目标对象的情绪，然而，在实际应用场景中，这两类数据在一定的情况下可能无法完整的获取。这是因为：

针对人脸图像，当利用外置摄像头采集人脸图像时，由于目标对象会佩戴VR/AR头戴式显示设备，面部部分区域存在遮挡，这样，目标对象的面部RGB信息无法全部获取到，导致人脸图像不完整；当利用VR/AR头戴式显示设备自带的摄像头时，采集的人脸图像一般仅包含眼部及嘴部的RGB信息，数据不完整。由于人脸图像中RGB信息的不完整，会导致识别出的情绪不准确，影响目标驱动参数的计算。

针对语音数据，受网络传输的影响，当网络异常时，可能无法获取到语音数据，或者当目标对象间歇性说话时，可能导致获取的语音数据不完整，此时，无法识别出有效的情绪，影响目标驱动参数的计算。

因此，在本申请的实施例中，考虑到人脸图像和语音数据的可用性，执行S302时，对人脸图像和语音数据分别进行完整性判断，并根据完整性的判断结果，确定情绪识别的数据源，并提取用于计算目标驱动参数的情绪参数。

人脸图像的完整性判断过程参见图4，主要包括以下几步：

S302_11：从人脸图像中提取人脸特征点。

在S302_11中，对人脸特征点的提取方法不做限制性要求，例如，可以采用高精度人脸关键点检测(Practical Face Landmark Detection，PFLD)模型，还可以采用FAN模型。

S302_12：将人脸特征点的数量与预设数量阈值进行比较，确定人脸特征点的数量是否大于预设数量阈值，若是，则执行S302_13，否则执行S302_14。

在S302_12中，采用不同的特征提取方法，提取的人脸特征点的数量不同。例如，当使用PFLD模型提取人脸特征点时，在人脸图像完整的情况下，可提取出68个人脸特征点。当提取的人脸特征点数大于设定数量阈值时，表明人脸图像较为完整，蕴含丰富的情绪参数；当提取的人脸特征点数小于等于设定数量阈值时，表明人脸图像不完整，需要借助语音数据获取丰富的情绪参数。

S302_13：确定人脸图像完整。

S302_14：确定人脸图像不完整。

本申请的实施例中，通过提取的人脸特征点的数量，判断人脸图像的完整性，当人脸图像完整时，可将人脸图像和语音数据共同作为情绪参数的数据源，当人脸图像不完整时，可将语音数据作为情绪参数的数据源，从而减少面部遮挡对情感参数提取，进而保证目标驱动参数计算的准确性，有效提高驱动后模型的真实性和精度。

语音数据的完整性判断过程参见图5，主要包括以下几步：

S302_21：确定语音数据的时长。

S302_22：确定语音数据的时长是否大于设定时长阈值，若大于，则执行S302_23，否则执行S302_24。

S302_23：确定语音数据完整。

S302_24：确定语音数据不完整。

本申请的实施例中，由于语音数据由内置麦克风或者外置麦克风采集的，在网络情况良好的情况下，语音数据完整性和可用性比较高，其存在的问题可能是，部分时段内目标对象没有说话，无法采集此时段的语音数据。而远程三维通信过程中，目标对象进行语音交互，不会长时间不说话，因此，为保证语音数据的完整性，应保证采集语音数据的时间足够长。

需要说明的是，本申请实施例在判断语音数据的完整性时，不考虑语音数据的质量问题。

S303：对语音数据进行情绪识别，得到情绪参数。

在S303中，当人脸图像不完整但语音数据完整时，可从语音数据中提取情绪参数，以辅助优化参数化头部模型的驱动参数。这是因为，语音数据能够直观的表现目标对象的内心活动，目标对象的情绪能够通过语音的音调、发音轻重、语速等声音特征表现出来。

例如，声音的高亢和低沉，可以体现出情绪的正面和负面信息。再例如，当一个人受到惊吓时，声音尖锐，音量变大，语速变快。

根据声音特征提取的方法不同，声音特征包括谱特征、韵律特征和音质特征。其中，音质特征的包括：共振峰频率及其带宽、频率微扰、振幅微扰、声门特征、声源特征。通过指定的声音特征提取方法提取语音的谱特征、韵律特征和音质特征，能够为情绪识别提供更准确、更有效的信息。

一种可选的实施方式为，在S303中，采用声音操作角色动画(Voice OperatedCharacter Animation，VOCA)模型，从语音数据中提取情绪参数，此情绪参数可作为基函数权重，从而能够驱动参数化头部模型的运动。

其中，VOCA模型使用了一个独特的4D人脸数据集，包括以60fps捕获的约29分钟4D扫描数据和12个说话者的同步音频。基于该人脸数据集训练神经网络，可以学习多种逼真的说话风格，从而得到能够将面部运动与个体(identity)分离开来的VOCA模型。VOCA模型作为学习模型，基于静态的三维头部网格(如FLAM模型)，可以将任何语言的语音数据作为输入进行特征提取，从而逼真地动画化出不同的成人面孔。

在实际情况中，人脸表情往往是多种不同基础情绪的混合结果，例如，目标对象收到一份礼物，此时的表情应该是开心和惊喜这两种情绪(即多模态情绪)共同作用的结果。因此在使用VOCA模型从语音数据中提取情绪参数时，首先从语音数据中提取声音特征，并根据声音特征进行情绪分类，然后根据各类情绪的特征向量，获得情绪参数。

S304：对人脸图像进行情绪识别，得到情绪参数。

在S304中，当人脸图像完整但语音数据不完整时，可从人脸图像中提取情绪参数，以辅助优化参数化头部模型的驱动参数。这是因为，人脸表情可以直观被他人看到并能非常直观的表达目标对象的内心状态，能够为情绪识别提供重要的信息。目前，基于视觉图像进行情绪识别的算法有很多，如支持向量机算法(Support Vector Machines，SVM)、粒子群优化算法(Particle Swarm optimization，PSO)，反向传播(Back Propagation，BP)神经网络算法等。

由于人脸表情往往是多种不同基础情绪的混合结果，因此，S304中的情绪参数为各类情绪共同作用的结果。具体实施时，首先从人脸图像中提取图像特征，并根据图像特征进行情绪分类，然后根据所各类情绪的特征向量，获得情绪参数。例如，当使用SVM模型提取情绪参数时，可以使用人脸图像的方向梯度直方图(Histogram of Oriented Gradient，HOG)特征。

在实际情况中，人脸表情往往是多种不同基础情绪的混合结果，例如，目标对象收到一份礼物，此时的表情应该是开心和惊喜这两种情绪(即多模态情绪)共同作用的结果。因此，在使用VOCA模型从语音数据中提取情绪参数时，首先从语音数据中提取声音特征，并根据声音特征进行情绪分类，然后根据各类情绪的特征向量，获得情绪参数。

S305：分别对人脸图像和语音数据进行情绪识别，得到融合后的情绪参数。

在S305中，当人脸图像完整且语音数据也完整时，可同时从人脸图像和语音数据中共同提取情绪参数，以联合辅助优化参数化头部模型的驱动参数。

其中，根据语音数据进行情绪识别的过程参见S303，根据人脸图像进行情绪识别的过程参见S304，在此不再重复。在S305中，当人脸图像和语音数据均完整时，将人脸图像中提取的情绪参数作为第一子情绪参数，将语音数据中提取的情绪参数作为第二子情绪参数，按照预设权重，对第一子情绪参数和第二子情绪参数进行加权，得到融合后的情绪参数，一定程度上提高系统的泛化能力。

S306：根据情绪参数调整预先构建的目标对象对应的参数化头部模型的初始驱动参数，得到目标驱动参数。

在实际重建过程中，情绪参数引发面部表情变化时，位姿参数一般也会随之改变。例如，当情绪参数表征目标对象处于惊讶表情时，网格模型上嘴部区域的顶点三维坐标(即位姿)会发生变化，使嘴部处于张开状态，从而与惊讶表情相适配。因此，在S306中，可用提取的情绪参数作为调整参数，对预先构建的目标对象对应的参数化头部模型中的初始驱动参数进行优化，得打目标驱动参数，从而将情绪引入头部模型的重建与驱动中。其中，同一个目标对象的头部形状是不变的，因此，实时动态重建时，只需要实时传输表情参数和位姿参数这个两个驱动参数即可，也就是说，在S306中，用情绪参数调整参数化头部模型的初始表情参数和初始位姿参数，得到目标驱动参数中的目标位姿参数和目标表情参数。

本申请的实施中，目标驱动参数的公式表示如下：

其中，Q为目标驱动参数，α、β为权重值，取值[0，1]，

为人脸图像对应的目标位姿参数和目标表情参数，

为语音数据对应的目标位姿参数和目标表情参数。

S307：将目标驱动参数传输给渲染终端，以使渲染终端根据目标驱动参数，驱动参数化头部模型。

在S307中，渲染终端存储有预先构建的目标对象的参数化头部模型的三维重建数据，通过采集终端传输的目标驱动参数，替换三维重建数据中的初始表情参数和初始位姿参数，得到驱动后的参数化头部模型，由于目标驱动参数数据量小，可以被实时传输，从而实现头部三维模型的实时重建与驱动。

参见图6，为本申请实施例提供的基于情绪识别的模型驱动过程示意图，如图6示出的，当人脸图像和语音数据均完整时，从人脸图像中提取图像特征，从语音数据中提取声音特征，通过对图像特征进行情绪分类，得到人脸图像中包含的各类情绪的特征向量，同时，通过对声音特征进行情绪分类，得到各语音数据中包含的各类情绪的特征向量，对各类情绪的特征向量进行融合，得到最终的情绪参数，用情绪参数调整参数化模型的初始驱动参数，得到目标驱动参数，并将目标驱动参数传输给渲染终端，驱动目标对象的参数化头部模型。

本申请实施例以供的基于情绪识别的模型驱动方法中，在佩戴VR/AR头戴式显示设备会引起面部RGB数据缺失时，通过获取的语音数据进行情绪感知，从而用语音数据获得的情绪参数调整初始驱动参数，得到优化后的目标驱动参数，当用目标驱动参数驱动参数化头部模型时，可以将情绪引入头部模型，增强模型表达的效果和真实性；获得的人脸图像较为完整时，可同时由语音数据以及人脸图像来共同计算情绪参数，提高情绪参数的准确性，并将两个数据源融合后的情绪数据作为调整参数，共同优化驱动表达的精度和效果。

在一些实施例中，当人脸图像时采用RGBD相机采集时，还可以利用RGBD相机采集的深度图像对参数化头部模型进行优化。具体的，从深度图像中提取目标对象头部的几何数据，并将几何数据传输给渲染终端，以使渲染终端根据几何数据校正参数化头部模型，提高参数化模型的几何精度。

在一些实施例中，当人脸图像和语音数据完整时，得到目标驱动参数后，除了以全局方式进行驱动外，还可以采用局部驱动方式。具体过程参见图7，主要包括以下几步：

S701：获取目标对象的人脸图像和语音数据。

该步骤的具体描述参见S301，在此不再重复。

S702：当人脸图像和语音数据均完整时，分别对人脸图像和语音数据进行情绪识别，得到融合后的情绪参数。

该步骤的相关描述参见S302-S305，在此不重复。

S703：对人脸图像进行语义分割，得到头部的各个组件。

在S703中，人脸解析是语义分割的一种特殊情况，是在人脸图像分割的基础上，计算人脸图像中不同语义成分(如头发、面部皮肤、眼睛、鼻子、嘴巴等)的像素级标签映射。给定一张人脸图像，人脸解析将为每个语义成分分配一个像素级标签。

具体实施时，采用感兴趣区域变换(RoI Tanh-warping)方法，对人脸图像进行变换，扭曲到固定尺度，利用已训练的模型检测人脸的内部组件(如：鼻子、眼睛、嘴巴等)，在全局特征的基础上，对外部组件(如：头发、帽子等)直接进行分割。参见图8，为本申请实施例提供的人脸图像的语义分割效果图。

S704：从目标驱动参数中，选择出与各个组件分别关联的局部驱动参数。

在S704中，基于语义分割后的结果，从目标驱动参数中，选择出各个组件关联的局部驱动参数。

需要说明的是，各个组件中的外部组件受情绪参数的影响较小，外部组件在目标驱动参数中可能不存在关联的局部驱动参数。

S705：将各个组件分别关联的局部驱动参数传输给渲染终端，以使渲染终端根据各局部驱动参数，分别驱动目标对象对应的参数化头部模型中的相应组件。

在S705中，采集终端将各个组件分别关联的局部驱动参数传输给渲染终端后，渲染终端根据各局部驱动参数，分别驱动目标对象对应的参数化头部模型中的相应组件。

例如，渲染终端使用眼睛关联的局部驱动参数，驱动参数化头部模型中的眼睛。

在S705中，渲染终端分别驱动相应的组件后，对各个组件(包括内部组件和外部组件)进行整合，在通过Roi Tanh-warping的逆函数扭曲，从而恢复出完整的驱动后的参数化头部模型，恢复后的效果如图9所示。

实际应用中，利用语音数据提取的情绪参数优化后的驱动参数，对于嘴部的驱动效果更加好，因此，进行人脸解析，将面部分割为各个组件，然后用语音数据中提取的情绪参数优化后的驱动参数驱动嘴部运动，用人脸图像中提取的情绪参数优化后的驱动参数驱动眼睛、鼻子、眉毛等其他区域运动。

具体的，当人脸图像和语音数据完整时，在一些实施例中，可以用人脸图像中提取的第一子情绪参数，调整嘴巴区域的初始驱动参数，用人脸图像中提取的第二子情绪参数，调整眼睛、眉毛等区域的初始驱动参数，实现驱动参数的局部优化，利用语音数据中提取的情绪参数优化后的驱动参数驱动嘴部运动，用人脸图像中提取的情绪参数优化后的驱动参数驱动眼睛、鼻子、眉毛等其他区域运动。

基于相同的技术构思，本申请实施例提供一种重建设备，该重建设备可以是具有交互功能的笔记本电脑、台式计算机、智能手机、平板、VR眼镜、AR眼镜等客户端，重建设备可实现上述实施例中基于情绪识别的模型驱动方法的步骤，且能达到相同的技术效果。

参见图10，该重建设备包括相机1001、麦克风1002和图形工作站1003，其中，所述图形工作站1003包括处理器1003_1、存储器1003_2和通信接口1003_3，所述通信接口1003_3、所述存储器1003_2和所述处理器1003_1通过总线1004_4连接；

所述存储器1003_2包括数据存储单元和程序存储单元，所述程序存储单元存储有计算机程序，所述处理器1003_1根据所述计算机程序，执行以下操作：

通过所述通信接口1003_3，获取所述相机1001采集的目标对象的人脸图像，以及所述麦克风1002采集的所述目标对象的语音数据，并将获取的人脸图像和语音数据存储至所述数据存储单元；

分别确定所述人脸图像和所述语音数据是否完整；

通过所述通信接口1003_3，将所述目标驱动参数传输给渲染终端，以使所述渲染终端根据所述目标驱动参数，驱动所述参数化头部模型。

可选的，所述处理器1003_1通过以下方式确定所述人脸图像是否完整：

从所述人脸图像中提取人脸特征点；

若所述人脸特征点的数量大于预设数量阈值，则确定所述人脸图像完整；

若所述人脸特征点的数量小于等于所述预设数量阈值，则确定所述人脸图像不完整。

可选的，所述处理器1003_1通过以下方式确定所述语音数据是否完整：

确定所述语音数据的时长；

若所述时长大于设定时长阈值，则确定所述语音数据完整；

若所述时长小于等于所述设定时长阈值，则确定所述语音数据不完整。

可选的，所述处理器1003_1分别对所述人脸图像和所述语音数据进行情绪识别，得到融合后的情绪参数，具体操作为：

从所述人脸图像中提取第一子情绪参数，以及从所述语音数据中提取第二子情绪参数；

按照预设权重，对所述第一子情绪参数和所述第二子情绪参数进行加权，得到融合后的情绪参数。

可选的，所述处理器1003_1从所述人脸图像中提取第一子情绪参数，以及从所述语音数据中提取第二子情绪参数，具体操作为：

从所述人脸图像中提取图像特征，并根据所述图像特征进行情绪分类；

根据所述人脸图像对应的各类情绪的特征向量，生成第一子情绪参数；

从所述语音数据中提取声音特征，并根据所述声音特征进行情绪分类；

根据所述语音数据对应的各类情绪的特征向量，生成第二子情绪参数。

可选的，得到所述目标驱动参数后，所述处理器1003_1还执行：

对所述人脸图像进行语义分割，得到头部的各个组件；

从所述目标驱动参数中，选择出与各个组件分别关联的局部驱动参数；

所述处理器1003_1将所述目标驱动参数传输给渲染终端，以使所述渲染终端根据所述目标驱动参数，驱动所述参数化头部模型，具体操作为：

将所述各个组件分别关联的局部驱动参数传输给渲染终端，以使所述渲染终端根据所述各局部驱动参数，分别驱动所述目标对象对应的参数化头部模型中的相应组件。

可选的，当所述人脸图像为深度图像时，所述处理器1003_1还执行：

从所述深度图像中提取所述目标对象头部的几何数据，并将所述几何数据传输给所述渲染终端，以使所述渲染终端根据所述几何数据校正所述参数化头部模型。

可选的，所述目标驱动参数包括目标姿态参数和目标表情参数。

需要说明的是，图10仅是一种示例，给出重建设备实现本申请实施例提供的基于情绪识别的模型驱动方法步骤所必要的硬件，未示出的，该重建设备还包含扬声器、显示屏、电源、音频处理器等交互设备的常用器件。

本申请实施例图10中涉及的处理器可以是中央处理器(Central ProcessingUnit，CPU)，通用处理器，图形处理器(Graphics Processing Unit，GPU)数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-specific IntegratedCircuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

参见图11，为本申请实施例提供的重建设备的功能结构图，该重建设备主要包括获取模块1101、完整性判断模块1102、情绪识别模块1103、驱动参数计算模块1104和发送模块1105，其中：

所述获取模块1101，用于获取相机采集的目标对象的人脸图像和语音数据；

完整性判断模块1102，用于分别确定所述人脸图像和所述语音数据是否完整；

情绪识别模块1103，用于若所述人脸图像不完整，但所述语音数据完整，则对所述语音数据进行情绪识别，得到情绪参数；若所述人脸图像完整，但所述语音数据不完整，则对所述人脸图像进行情绪识别，得到情绪参数；若所述人脸图像完整，且所述语音数据完整，则分别对所述人脸图像和所述语音数据进行情绪识别，得到融合后的情绪参数；

驱动参数计算模块1104，用于根据情绪参数调整预先构建的所述目标对象对应的参数化头部模型的初始驱动参数，得到目标驱动参数；

发送模块1105，将所述目标驱动参数传输给渲染终端，以使所述渲染终端根据所述目标驱动参数，驱动所述参数化头部模型。

上述各功能模块的具体实现参见前述实施例，在此不再重复描述。

本申请实施例还提供一种计算机可读存储介质，用于存储一些指令，这些指令被执行时，可以完成前述实施例中基于情绪识别的模型驱动方法。

本申请实施例还提供一种计算机程序产品，用于存储计算机程序，该计算机程序用于执行前述实施例中基于情绪识别的模型驱动方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于情绪识别的模型驱动方法，其特征在于，包括：

获取目标对象的人脸图像和语音数据；

分别确定所述人脸图像和所述语音数据是否完整；

2.如权利要求1所述的方法，其特征在于，通过以下方式确定所述人脸图像是否完整：

从所述人脸图像中提取人脸特征点；

3.如权利要求1所述的方法，其特征在于，通过以下方式确定所述语音数据是否完整：

确定所述语音数据的时长；

若所述时长大于设定时长阈值，则确定所述语音数据完整；

4.如权利要求1所述的方法，其特征在于，分别对所述人脸图像和所述语音数据进行情绪识别，得到融合后的情绪参数，包括：

5.如权利要求4所述的方法，其特征在于，所述从所述人脸图像中提取第一子情绪参数，以及从所述语音数据中提取第二子情绪参数，包括：

6.如权利要求1所述的方法，其特征在于，得到所述目标驱动参数后，所述方法还包括：

对所述人脸图像进行语义分割，得到头部的各个组件；

所述将所述目标驱动参数传输给渲染终端，以使所述渲染终端根据所述目标驱动参数，驱动所述参数化头部模型，包括：

7.如权利要求1所述的方法，其特征在于，当所述人脸图像为深度图像时，所述方法还包括：

8.如权利要求1-7中任一项所述的方法，其特征在于，所述目标驱动参数包括目标姿态参数和目标表情参数。

9.一种重建设备，其特征在于，包括相机、麦克风，图形工作站，所述图形工作站包括处理器、存储器和通信接口，所述通信接口、所述存储器和所述处理器通过总线连接；

分别确定所述人脸图像和所述语音数据是否完整；

10.如权利要求9所述的重建设备，其特征在于，所述处理器分别对所述人脸图像和所述语音数据进行情绪识别，得到融合后的情绪参数，具体操作为：