CN112581569A

CN112581569A - 自适应情感表达的说话人面部动画生成方法及电子装置

Info

Publication number: CN112581569A
Application number: CN202011467439.7A
Authority: CN
Inventors: 陈辉; 姚乃明; 李博宇; 乔逢春; 白泽琛; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-30
Anticipated expiration: 2040-12-11
Also published as: CN112581569B

Abstract

本发明公开了一种自适应情感表达的说话人面部动画生成方法及电子装置，包括：获取当前说话人的中性面部状态发音人脸关键点及音频序列的音频特征；依据音频特征得到包含发音信息的运动差分；依据音频特征中的音素特征与发音人脸关键点得到包含情感信息的运动差分；根据发音人脸关键点、包含发音信息的运动差分与包含情感信息的运动差分，生成人脸关键点运动序列；通过人脸关键点发音运动序列，生成当前说话人的面部动画。本发明通过发音表情字典，保证了说话人面部动画情感表达的自然性；设计一种自适应的情感添加方法，保证了说话人表情表达的多样性；不需要预设表情标签，能够表达丰富的情感发音动画。

Description

自适应情感表达的说话人面部动画生成方法及电子装置

技术领域

本发明涉及人机交互技术领域与计算机视觉的相关技术领域，特别是涉及了一种自适应情感表达的说话人面部动画生成方法及电子装置。

背景技术

人脸在日常交流中会被视觉器官首先感知到，可以传递内心中的情感信息，而在人与计算机交流过程中，如果计算机能准确模拟人们情感状态，将会大大缩短人与计算机之间的距离。人工智能是未来发展的趋势，而随着各种功能性的智能机器人的出现和普及，人们希望最终可以和人一样同计算机以及机器人进行交流。而让机器人接收用户的声音信号，观察用户的面部表情状态，通过人工智能的学习能力，准确辨识和迎合说话者或用户的情绪状态，会让交互行为更有意义，给予用户更放松和真实的交流体验。大多数现有方法聚焦于解决语音和视觉表达的非线性对应问题，致力于提升生成人脸动画的真实性水平。这些工作大多不考虑说话人的情感状态，生成的人脸动画给人一种冰冷、机械、呆板或有距离感的感觉，或者在表情建模时未考虑对说话人进行自适应情感添加情况，会导致生成的人脸动画不够自然和丰富。同时一些模板匹配与基于隐马尔可夫模型的方法在发音建模时在发音连续表达上的效果欠佳。

中国专利申请CN201910745062.8中提供了一种基于人工智能的合成说话表情的方法和相关装置，该方法中首先不具备二维说话人发音图片序列与三维虚拟人头部发音运动序列的共同建模的描述，其次该发明中将发音元素和时长的文本、声学特征输入表情模型得到相应表情特征不具备表情添加的自适应过程。

中国专利申请CN201310173929.X中提供了一种实时的语音驱动人脸动画的方法，该方法获取语音参数和视觉参数，构造训练数据集，语音参数转换为视觉参数的建模及模型的训练，构造与人脸模型对应的一组blendshape，建立视觉参数到人脸动画参数的转换，但该发明中对表情控制只在将当前的人脸形状与指定的人脸表情进行插值并非自适应表情控制方法，同时该方法在发音建模连续表达上效果欠佳。

中国专利申请CN201611261096.2中提供了一种基于语音实时驱动人物模型的表情和姿态的方法，该方法获取语音数据，语音驱动模块同步接收语音流和对应语音流设置的情绪标签，计算基本动画的权重值，计算修饰动画的权重值，计算基本口型动画的权重值，利用语音驱动模块对所述语音流进行口型动画分析，计算出基本发音PP、FF、TH、DD、H、CH、SS、NN、RR、AH、EI、IH、OH、WU基本口型动画的权重值，修正合成动画，利用所述语音驱动模块修正合成的所述基本表情动画、所述修饰动画和所述基本口型动画，以生成脸部模型网格，但该发明中在添加表情时需要预设人工系数并非是一种自适应添加表情的方法，而模板匹配与拼接的使用降低了发音表达的连续性。

中国专利申请CN110874869A公开了一种生成虚拟动画表情的方法和装置，但该方法由于在逐帧生成表情时缺乏帧间连贯性，不适用于生成人在自然说话时的面部动画，而是用于逐帧生成指定的面部表情；需要使用表情标签来确定表情的第二权重，导致标签通常不够丰富。此外该方法也未使用语音信息和视觉信息之间的相关性进行建模。

因此，如何更好地保证虚拟说话人表情的自然性与多样性特点的同时保证发音表达的连续性是目前语音驱动三维人脸动画这个领域亟需解决的问题。

发明内容

为了克服上述现有技术的不足，本发明提供了一种自适应情感表达的说话人面部动画生成方法及电子装置，以计算机视觉技术与人工智能领域深度学习技术作为技术基础，保证虚拟说话人发音表达连续性与表情多样性，同时设计了针对不同说话人的自适应添加表情方法，对二维、三维对象均可以有效控制面部情感发音表达。

为了达到上述目的，本发明的技术方法包括：

一种自适应情感表达的说话人面部动画生成方法，其步骤包括：

1)采集当前说话人的音频序列与中性面部状态，提取音频序列的音频特征，获取中性面部状态的发音人脸关键点，其中所述音频特征包括音素特征；

2)将音频特征输入一发音模型，得到包含发音信息的运动差分；

3)将音频特征输入一发音表情词典，得到发音表情词典中各说话人在该音素特征下的样本人脸关键点变化量；

4)依据中性面部状态的发音人脸关键点与各在该音素特征下的样本人脸关键点变化量，得到包含情感信息的运动差分；

5)根据中性面部状态的发音人脸关键点、包含发音信息的运动差分与包含情感信息的运动差分，生成人脸关键点发音运动序列；

6)通过人脸关键点发音运动序列，生成当前说话人的面部动画；

其中，通过以下步骤得到所述发音模型：

a)在中性发音视频数据集中获取连续的样本音频特征与样本视觉特征；

b)将样本音频特征与样本视觉特征输入一深度神经网络，建立样本音频特征与样本视觉特征之间的映射关系，得到所述发音模型；

通过以下步骤得到发音表情词典：

a)依据采集的同一样本音素特征在不同情感情境下的音频特征，得到若干情感音素；

b)依据若干说话人的样本中性人脸关键点及各情感音素下样本人脸关键点，得到若干样本人脸关键点变化量；

c)构建以说话人与情感音素为关键字、存储样本人脸关键点变化量的发音表情词典。

进一步地，发音人脸关键点包括：鼻下、嘴和下颚。

进一步地，所述音频特征还包括：频谱特征。

进一步地，通过以下步骤得到包含情感信息的运动差分：

1)通过普通最小二乘法将该音素特征下的样本人脸关键点变化量聚合；

2)将最接近中性面部状态的发音人脸关键点的聚合结果，作为包含情感信息的运动差分。

进一步地，所述深度神经网络的结构包括：由门控循环单元结构与条件随机场组合的网络结构。

进一步地，所述面部动画包括：二维面部动画或三维面部动画。

进一步地，生成二维面部动画的方法包括：将人脸关键点发音运动序列输入对抗网络结构模型，引导二维面部动画的生成。

进一步地，生成三维面部动画的方法包括：将人脸关键点发音运动序列输入三维动态形变模型，引导三维面部动画的生成。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明的有益效果是：

1、本发明使用了以计算机视觉技术与人工智能领域深度学习技术作为技术基础，在处理语音信号时，考虑了相邻三个音素之间的时序关系，得到具有更好连续性的面部网格，有效保证面部动画发音表达连续性；

2、本发明使用了构建发音表情字典的方法，有效保证了说话人面部动画情感表达的多样性；

3、本发明考虑了不同说话人在不同情境下的表情添加，设计一种自适应的情感添加方法，有效的保证了说话人表情表达自然性；

4、本发明不需要预设表情标签，能够表达丰富的情感发音动画；

5、本发明通过配合情感添加方法的发音模型输出的二维视觉特征，再用此引导二维面部动画与三维虚拟说话人的生成，可以应用在不同空间维度的场景需求下；

6、本发明采用语音信息来回归视觉信息，从而实现情感说话人运动动画。

附图说明

图1是本发明一种自适应情感表达的说话人面部动画生成方法的结构示意图。

图2是图1中方法S100的细节流程说明图。

图3是图1中方法S101中的细节流程说明图。

图4是本发明与一现有技术生成有愤怒情感发音动画的比较图。

具体实施方式

下面结合附图对本发明作具体说明。应该指出，所描述的实施例仅是为了说明的目的，而不是对本发明范围的限制。

本发明公开了一种自适应情感表达的说话人面部动画生成方法，该方法结构示意图如图1所示。

S100，一种连续表达的发音模型构建方法。

发音模型是一种跨模态音视非线性映射的音素级发音拟合模型，建立连续输入音频特征与输出视觉特征之间的映射关系。在发音模型训练前，在中性发音视频数据集中获取连续的音频特征与视觉特征。音频特征包括音素特征与频谱特征，视觉特征包括二维中性表情人脸关键点和初始人脸关键点的运动差分，同时将音频特征与视觉特征在时间上对齐。

所训练的发音模型利用深度学习中的门控循环单元结构与条件随机场组合的网络结构，使用二维中性表情人脸关键点位置运动差分的均方误差损失为监督，建立音频特征与视觉特征之间的映射关系。本方法有效保证了发音表达的连续性。

S101，一种自适应的多样性面部表情添加方法。

该方法为二维中性表情人脸关键点自适应的添加多样性的面部表情，方法包括建立发音表情字典与设计自适应添加表情方法两个部分。

建立发音表情字典过程包括对情感发音视频数据集进行情感运动分析与时间对齐方法两个过程。采用发音表情字典方法可以有效保证面部表情添加的多样性。在情感运动分析过程中，对数据集中同一音素特征下的不同情感二维人脸关键点与中性人脸关键点之间的变化量进行提取。由于同一音素特征下，不同情感与中性情感的时间序列长度存在差异，因此要使用时间对齐方法统一尺度，在本实施例中采用上下采样的方法，最终构建了以说话人为一级关键字、情感音素为二级关键字的方式存储以人脸关键点的变化量描述形变模式的字典形式的模式库。

设计自适应添加表情方法包含但不唯一包含根据发音表情字典以普通最小二乘的方法聚合不同说话人音素情境对当前说话人自适应的情感运动的添加。在添加情感运动时，说话内容被保留，因此与发音相关的人脸关键点位置不变。因此首先将与发音相关的人脸关键点(鼻下、嘴和下颚部分)选择出来，然后通过普通最小二乘法将不同说话人在不同情境下表达的同一种情感音素聚合起来，并使其尽可能接近当前说话人的中性人脸关键点，从而得到适用于当前说话人的包含情感信息的运动差分。在本实施例中采用该方法实现。设计自适应添加表情方法可以有效保证不同说话人发音表情的自然性。

S102，一种说话人面部动画生成方式。

该方法可以满足不同空间维度的应用场景需求，结合连续表达的发音模型与自适应添加的多样性表情方法可以有效让二维面部动画或者三维虚拟说话人自然得进行情感发音的表达。

该方法通过采集当前说话人的音频序列与初始面部状态，提取相应的连续音频特征与初始时刻的视觉特征即二维中性人脸关键点。将音频特征输入上述的发音模型输出相应的视觉特征即包含发音信息的运动差分。根据二维中性人脸关键点结合音频特征自适应地得到关于情感的运动差分。将初始的二维人脸关键点、包含发音信息的运动差分与包含情感信息的运动差分三者相结合得到人脸关键点发音运动序列。

使用深度学习方法中的生成式对抗网络结构模型利用发音表情二维人脸关键点序列引导二维面部动画的生成。使用三维动态形变模型利用发音表情二维人脸关键点序列重建一组三维说话人头序列。

方法S100中的细节流程图如图2所示，在本实施例中获取中性发音视频数据集中的音频序列与相应的视频序列。按照标注数据的音素标签按照视频帧作为最小时间单位进行对应得到音素one-hot编码序列p_1：T＝(p₁，p₂，...，p_T)与MFCC特征序列x_1：T＝(x₁，x₂，...，x_T)作为音频特征。对视频序列依照视频帧得到二维人脸图片序列，将每一帧图片根据仿射变换对齐到正面人脸，提取二维人脸关键点得到人脸关键点序列d_1：T＝(d₁，d₂，...，d_T)。将二维人脸关键点序列每一帧与序列初始帧位置d₁差分得到二维人脸关键点差分序列

作为视觉特征。将音频特征与视频特征对齐得到发音模型训练集。

考虑到发音表达的连续性，有效建立输入音频特征与输出视觉特征间的映射关系，采用深度学习中的门控循环单元结构。将输入的MFCC特征序列x_1：T通过发音模型回归二维人脸关键点差分序列

同时使用条件随机场结构对音素one-hot编码序列进行有效分类，并保证连续时间帧下音素one-hot编码序列过渡的连续性。对数据集中音频特征与视频特征进行训练得到连续表达的发音模型。

方法S101中的发音表情字典的构建流程如图3所示。考虑到由于人脸表情是一种面部动作，是相对于中性人脸的形变结果，本发明使用同一音频特征的情感视觉特征与中性视觉特征之间的变化量来描述表情形变。本实施例中音频特征为音素特征，视觉特征为二维人脸关键点位置，包含了情感信息的运动差分。通过对包含多种情感的发音表情数据集进行情感运动分析，获取同一个人不同情感与中性表情说同一音素的人脸关键点序列，使用他们的一阶差分作为变化量来描述表情形变。同时考虑到情感音素与中性音素时间序列长度存在差异，在本实施例中使用上下采样方法对人脸关键点xy坐标进行插值，将情感音素向中性音素对齐。而在对齐过程中需要选取基准中性音素片段，为此本发明设定一个代价值S，用以表示某一情感音素向其中性音素对齐时所需的帧数变化总和，选择使得S取得最小值时的中性音素片段作为该音素的对齐目标。从而构建了以说话人为一级关键字、情感音素为二级关键字的方式存储以人脸关键点的变化量描述形变模式的字典形式的模式库。

本实施例中设计自适应添加表情方法聚合发音表情字典中不同说话人的三音素片段，通过最小二乘法计算权重使得不同说话人加权结果与当前说话人面部状态间代价函数最小，从而实现对说话人自适应的情感运动的添加。

方法S103中针对不同空间维度场景需求，从方法实施过程设计可以有效控制二维面部动画与三维虚拟说话人。

二维面部动画使用生成对抗网络结构实现，利用真实发音图片与真实二维人脸关键点以及真实的其他帧人脸关键点生成二维图片与相应帧的真实图片对比计算损失，从而训练二维面部动画生成模型。

三维形变模型(Chen Cao,Yanlin Weng,Shun Zhou,et al.“FaceWarehouse:a 3Dfacial expression database for visual computing,”IEEE Transactions onVisualization and Computer Graphics,vol.20,no.3,pp.413-425,2006.)是一种参数化统计模型，它由一个平均脸模型和一组形变基模型组成，即

其中，

表示3D平均脸模型，A_id表示说话人身份的一组基模型，A_exp表示表情变化的一组基模型；α_id和α_exp分别表示身份和表情的权重向量。通过线性模型对平均脸进行形变，可以生成具有不同身份信息和表情信息的三维头部模型。三维形变模型使得我们可以通过拟合方式根据二维人脸关键点重建三维说话人头。其计算模型为

其中，f表示相机焦距，P_r表示投影矩阵，R表示旋转矩阵，t_2d表示2D平移向量；S_i是情感发音二维人脸关键点，可以通过适当的优化算法获得最优的一组α_id，α_exp，R，t_2d参数，由此重建得到的三维说话人头，在二维成像平面上的人脸关键点与目标人脸关键点之间的欧氏距离最小从而驱动三维说话人头的生成。

由上述实施例可知，该实施例通过对连续发音模型的建模与使用自适应添加多样性表情方法，使用一组说话人输入的音频序列与初始面部状态有效驱动了不同空间维度场景下的面部动画与虚拟说话人的生成。

本申请的实验数据包括两部分，表1是本发明与对比文件1(Bo Fan,Lijuan Wang,Frank K Soong,and Lei Xie,“Photo-real talking head with deep bidirectionalLSTM,”in 2015IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2015,pp.4884–4888.)、对比文件2(KonstantinosVougioukas,Stavros Petridis,and Maja Pantic,“End-to-end speech-driven facialanimation with temporal GANs,”arXiv preprint,arXiv:1805.09313,2018.)在三种级别设置下比较的发音误差。数值代表发音关于人脸关键点的均方根误差，反映了发音运动形变的程度，越小越好。如表1所示，本发明在三种级别上关于发音形变误差的测试结果较之对比方法均有提升，说明了本方法的有效性。

	帧级别	音素级别	三音素级别
				基线结果	7.48e-05	2.17e-04	7.23e-04
对比文件1	8.57e-05	2.23e-04	7.14e-04
				对比文件2	7.18e-05	2.01e-04	7.20e-04
本发明	6.98e-05	1.88e-04	7.01e-04

表1

图4为本发明与对比文件3(Zhigang Deng,Ulrich Neumann,John P Lewis,Tae-Yong Kim,Murtaza Bulut,and Shrikanth Narayanan,“Expressive facial animationsynthesis by learning speech coarticulation and expression spaces,”IEEETransactions on Visualization and Computer Graphics,vol.12,no.6,pp.1523–1534,2006.)生成有愤怒情感发音动画的比较图，其中第一行是中性发音动画，第二行是对比文件3的发音动画，第三行是本发明的发音动画。如图4所示，对比文件3不能保持发音内容的一致性，而本发明在添加表情时不会破坏发音内容。

以上实施仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种自适应情感表达的说话人面部动画生成方法，其步骤包括：

其中，通过以下步骤得到所述发音模型：

通过以下步骤得到发音表情词典：

2.如权利要求1所述的方法，其特征在于，发音人脸关键点包括：鼻下、嘴和下颚。

3.如权利要求1所述的方法，其特征在于，所述音频特征还包括：频谱特征。

4.如权利要求1所述的方法，其特征在于，通过以下步骤得到包含情感信息的运动差分：

5.如权利要求1所述的方法，其特征在于，所述深度神经网络的结构包括：由门控循环单元结构与条件随机场组合的网络结构。

6.如权利要求1所述的方法，其特征在于，所述面部动画包括：二维面部动画或三维面部动画。

7.如权利要求6所述的方法，其特征在于，生成二维面部动画的方法包括：将人脸关键点发音运动序列输入对抗网络结构模型，引导二维面部动画的生成。

8.如权利要求6所述的方法，其特征在于，生成三维面部动画的方法包括：将人脸关键点发音运动序列输入三维动态形变模型，引导三维面部动画的生成。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。