CN116233567B

CN116233567B - 一种基于音频情感感知的说话人脸视频生成方法及系统

Info

Publication number: CN116233567B
Application number: CN202310490935.1A
Authority: CN
Inventors: 刘萌; 王旭峰; 宋雪萌; 许海振; 刘慧�; 翟书言; 聂礼强
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-07-25
Anticipated expiration: 2043-05-05
Also published as: CN116233567A

Abstract

本发明公开了一种基于音频情感感知的说话人脸视频生成方法及系统，涉及说话人脸视频生成技术领域。包括步骤：获取音频片段和参考图像，利用有情感的人脸标记生成网络，生成有情感的人脸标记序列；根据有情感的人脸标记序列与参考图像，利用特征自适应视觉变换网络逐帧生成说话人的面部图像，进而生成说话人脸视频，其中，将情感的人脸标记序列转化为情感人脸标记图片；提取标记嵌入表示并重构情感人脸标记图片；根据参考图像生成图像嵌入表示；将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合，得到说话人的面部图像。本发明克服了现有技术中音唇不同步、情感一致性差、生成图像质量低的缺陷。

Description

一种基于音频情感感知的说话人脸视频生成方法及系统

技术领域

本发明涉及说话人脸视频生成技术领域，尤其涉及一种基于音频情感感知的说话人脸视频生成方法及系统。

背景技术

说话人脸视频生成（Talking Face Generation）任务是通过特定人物的面部图像或者视频和一段音频合成该人物说话的视频。合成的说话人的视频既要保留该人物的视觉外观信息，同时，又要令一系列的面部动作和表情与输入音频保持一致，以确保多模态的一致性。该任务在现实场景下具有很强的应用价值，例如：虚拟主播、电影动画和电话会议等。鉴于此，许多研究员致力于研究如何解决说话人视频生成的问题，并提出了一系列基于深度神经网络的解决方法。虽然这些方法都取得了不小的效益，但是由于目前生成的人脸视频存在情感不同步、口型不准确、图像质量不足等问题，所以针对说话人视频生成任务的研究依旧是十分必要的。

随着计算机视觉和音频处理技术的飞速发展，一些解决说话人视频生成任务的方法被提出，大体上可以分为基于视频的说话人视频生成方法和基于图像的说话人视频生成方法两类。前者是根据输入的音频，从输入视频中提取连续的人脸图像从而生成会说话人的视频。尽管现有的基于视频的说话人视频生成方法在一定程度上解决了训练效率低以及情感忽略等问题。例如，通过仅利用给定视频中如表情、几何形状和姿势等重要视觉特征来构建与身份无关的生成模型，这种方式打破了原有低效的训练方式，原有的训练方式只能用目标人物的视频训练特定人物的说话视频，一旦改变说话人身份，只能重新训练。还可以通过联合考虑输入音频中提取的情感信息和输入视频中提取的身份和头部姿势信息生成带有情感的说话人视频。尽管上述基于视频的说话人视频生成方法取得了良好的性能，但是由于这些方法需要对特定的人进行多个连续的面部图像处理，极大限制了该方法在现实中的应用。

由于基于视频的说话人视频生成方法的限制，基于图像的说话人生成方法愈加流行，它仅需要一张人脸图像和音频剪辑便可以生成一系列与音频同步的说话者的面部图像。虽然基于图像的说话人生成方法极大的推进了说话人视频生成的发展，但是目前依然存在如下局限性：

1）生成人脸的情感不同步。面部表情是生成的说话人脸是否逼真的关键因素。虽然可以从额外的数据，如情感标签和情感视频中挖掘情感信息，但是由于情感与音频之间的域差，导致视听情感的不同步，例如，虽然音频呈现出的是快乐的语调，但是由于这种域鸿沟的存在，模型却生成了一个中性或者悲伤的表情，因此，如何使生成的人脸的情感与给定的音频保持一致成为现有技术的一大难题。

2）生成人脸的口型不准确。虽然现有的方法可以产生相对连贯和自然的嘴部动作，但是由于其很难和音频合轨，即很难令人的嘴部动作变化和音频变化保持一致，所以视频的合成痕迹明显，缺乏真实性，因此如何提高生成人物视频的嘴部动作与音频的适配性成为亟待解决的问题之一。

3）生成人脸的图像质量低。由于现存方法往往无法捕捉到由于面部表情变化所引起的面部的纹理变化，所以生成的图片极可能无法辨别其身份信息，即生成的图片模糊，比如，人胡子或者嘴唇细节不清晰，或者生成人的外貌特征与人真实的外貌特征之间存在差异，如胖瘦差异等，因此如何增强模型的生成能力，让生成的不同图像更好的展示情感差异，保持人的既定身份信息也是至关重要的。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种基于音频情感感知的说话人脸视频生成方法及系统，通过有情感的人脸标记（facial landmark）生成网络生成音唇同步且视听情感一致特性的人脸标记，通过特征自适应的视觉变换网络合成更具真实性且高质量的说话人的视频，克服了现有技术中音唇不同步、情感一致性差、生成图像质量低的缺陷。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明第一方面提供了一种基于音频情感感知的说话人脸视频生成方法，包括以下步骤：

获取音频片段和参考图像，利用有情感的人脸标记生成网络，生成有情感的人脸标记序列；

根据有情感的人脸标记序列与参考图像，利用特征自适应视觉变换网络逐帧生成说话人的面部图像；将说话人面部图像逐帧按顺序进行组合，生成说话人脸视频；

其中，利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括：

根据有情感的人脸标记序列提取表情变化信息和唇部运动信息，通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片；

通过挖掘情感人脸标记图片中的空间信息，提取标记嵌入表示，根据标记嵌入表示重构情感人脸标记图片；

根据参考图像中的身份信息和纹理信息，生成图像嵌入表示；

将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合，得到说话人的面部图像。

进一步的，所述参考图像为说话人视频生成任务所需图像，所述参考图像包含身份信息和纹理信息。

进一步的，利用有情感的人脸标记生成网络，生成有情感的人脸标记序列的具体步骤包括：

对音频片段进行编码得到初始编码，通过挖掘初始编码的信息，得到音频的全局特征表示和音频的序列特征表示，将音频的全局特征表示分离，得到音频内容特征表示和音频情感特征表示；

采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调，形成新的音频的全局特征表示；

从参考图像中提取图像的初始人脸标记；

结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列。

更进一步的，采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调，形成新的音频的全局特征表示的具体步骤为：

利用已知的真实人脸标记提取视觉情感特征表示；

利用情感分类预测方法对视觉情感特征表示进行增强，得到增强后的视觉情感特征表示；

采用协调表示的方法，通过相似度度量的计算方式使得音频情感特征表示近似于增强后的视觉情感特征表示。

更进一步的，结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列的具体步骤为：

提取音频的序列特征表示中的每个音频状态；

基于新的音频全局特征表示，利用注意力模块对每个音频状态进行时序增强，得到时序增强后的特征表示；

利用增强后的特征表示和参考图像的初始人脸标记解码每个音频状态的标记，得到有情感的人脸标记序列。

更进一步的，基于新的音频全局特征表示，利用注意力模块对每个音频状态进行时序增强，得到时序增强后的特征表示的具体步骤为：

获取每个音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度；

根据三个连续音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度计算三个连续音频状态的相关性得分；

根据三个连续音频状态的相关性得分和三个连续音频状态得到时序增强后的特征表示。

进一步的，通过挖掘情感人脸标记图片中的空间信息，提取标记嵌入表示，根据标记嵌入表示重构情感人脸标记图片的具体步骤为：

利用多尺度标记编码器充分挖掘情感人脸标记图片的空间信息，得到初步标记嵌入表示；

对初步标记嵌入表示进行情感的特征表示增强，得到最终的标记嵌入表示；

根据最终的标记嵌入表示重构情感人脸标记图片。

进一步的，将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合，得到说话人的面部图像的具体步骤为：

对图像嵌入表示和标记嵌入表示进行拼接；

将拼接后的图像嵌入表示和标记嵌入表示进行卷积；

将卷积后的图像嵌入表示和标记嵌入表示采用条件归一化的方式与上采样嵌入表示结合，得到说话人的面部图像。

更进一步的，所述上采样嵌入表示由解码过程中，上一层的解码结果经过上采样操作得到。

本发明第二方面提供了一种基于音频情感感知的说话人脸视频生成系统，包括：

有情感的人脸标记生成网络模块，被配置为获取音频片段和参考图像，利用有情感的人脸标记生成网络，生成有情感的人脸标记序列；

特征自适应视觉变换网络模块，被配置为根据有情感的人脸标记序列与参考图像，利用特征自适应视觉变换网络逐帧生成说话人的面部图像；将说话人面部图像按顺序进行组合，生成说话人脸视频；

以上一个或多个技术方案存在以下有益效果：

本发明公开了一种基于音频情感感知的说话人脸视频生成方法及系统，包括有情感的人脸标记生成网络和特征自适应的视觉变换网络，考虑了多个关键因素，包括视觉和音频的音唇同步、情感一致性和高质量的面部生成。

本发明的有情感的人脸标记生成网络可以生成音唇同步且视听情感一致特性的人脸标记；为了确保视频中的唇部运动与音频保持一致，通过联合考虑声音模态以及视觉模态信息来生成情感人脸标记。

本发明为了确保序列到序列网络生成人脸标记的情感与输入的音频保持一致，从输入的音频中分离出情感信息，并通过协调表示学习来增强被分离出的情感信息的特征表示。

本发明的特征自适应的视觉变换网络可以合成更具真实性且高质量的说话人的视频。为了可以将情感人脸标记信息无缝地嵌入潜在的图像特征中，本发明通过特征的自适应变换，使得生成的情感信息可以被充分地整合到给定的图像中，从而获得高质量的说话人的面部图像。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一基于音频情感感知的说话人脸视频生成方法中有情感的人脸标记生成网络部分流程图；

图2为本发明实施例一基于音频情感感知的说话人脸视频生成方法中特征自适应的视觉变换网络部分流程图；

图3为本发明实施例一中有情感的人脸标记序列生成过程流程图；

图4为本发明实施例一中特征自适应变换过程示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

应当说明的是，本申请实施例中，涉及到音频和图像等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合；

实施例一：

本发明实施例一提供了一种基于音频情感感知的说话人脸视频生成方法，如图1所示，利用有情感的人脸标记生成网络得到有情感的人脸标记序列特征，其中，有情感的人脸标记生成网包括视觉情感提取器和序列对序列人脸标记生成器，视觉情感提取器通过真实图片的人脸标记和提取视觉情感特征表示，采用情感分类器对视觉情感特征表示进行增强。序列对序列人脸标记生成器中通过音频编码器对音频编码得到正交的音频内容特征表示和音频情感特征表示，并利用视觉情感特征表示对音频情感特征表示进行协调，音频内容特征表示和音频情感特征表示通过人脸标记编码器结合参考图片的初始人脸标记编码生成有情感的人脸标记序列进而得到情感人脸标记图片。如图2所示，将情感人脸标记图片和参考图片通过特征自适应的视觉变换网络生成情感人脸标记图片，并经过自适应变换得到最终的情感人脸标记图片即说话人的面部图像。

具体包括以下步骤：

步骤1，获取音频片段和参考图像，利用有情感的人脸标记生成网络生成有情感的人脸标记序列。

步骤1.1，采用序列对序列人脸标记生成器生成有情感的人脸标记。

步骤1.1.1，对音频片段进行编码得到初始编码。

在一种具体的实施方式中，先经过特征提取：音频初始编码过程为将给定的一个音频片段输入进Mel-spectrogram中，通过拼接其Mel谱的一阶和二阶特征表示构建音频片段的初始编码，其中，表示音频的输入长度。再将提取的特征经过音频编码器特征进行编码。

步骤1.2，通过挖掘初始编码的信息，得到音频的全局特征表示和音频的序列特征表示，将音频的全局特征表示分离，得到音频内容特征表示和音频情感特征表示。

步骤1.2.1，将音频片段的初始编码输入到单层门控循环单元（GRU）中，获得一个具备上下文感知力的音频序列特征表示和一个音频全局特征表示。

步骤1.2.2，由于音频全局特征表示中，不仅包含语音信息，即音频表达的内容，还蕴含着人物的情感信息，所以，音频全局特征表示可以同时对唇部运动变化的生成和情感信息的学习有利。基于此，通过以为激活函数的两个平行的线性层，将音频全局特征分离为音频内容特征表示和音频情感特征表示。为了理清音频内容特征表示和音频情感特征表示，故令二者保持正交，即。

步骤1.3，采用视觉情感提取器生成视觉情感表示，采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调，形成新的音频的全局特征表示。

步骤1.3.1，利用已知的真实人脸标记提取视觉情感特征表示。

在一种具体的实施方式中，构建标记编码器，标记编码器由GRU组成，将真实人脸标记作为它的输入，从中提取视觉情感特征表示。

步骤1.3.2，利用情感分类预测方法对视觉情感特征表示进行增强，得到增强后的视觉情感特征表示。

在一种具体的实施方式中，分类器学习过程中所采用的算法会强化那些对于分类成当前类别有用的特征，并削弱那些对分类类别没有用的特征。因此将视觉情感特征表示输入到情感分类器中去预测情感类别，利用这种方式以达到增强视觉情感特征表示的表达能力的效果。情感分类器是由两层线性层与的组成，其中，第一层线性层的激活函数为。

在一种具体的实施方式中，为了训练视觉情感提取器中的情感分类器，引入了情感分类损失：

(1)

其中，为情感分类损失，为情感类别的数量，为情感分类器对情感的预测概率，为第k种情感信息的类别向量。作为情感分类的类别标签，如果该输入样本存在第种情感信息，则，否则，。

步骤1.3.3，采用协调表示的方法，通过相似度度量的计算方式使得音频情感特征表示近似于增强后的视觉情感特征表示。

在一种具体的实施方式中，为了利用从视觉情感提取器中获得的视觉情感特征表示来监督音频情感特征表示的生成，采用协调表示的方法，通过相似度度量的计算方式，使得音频情感特征表示近似于视觉情感特征表示，公式如下所示：

(2)

其中，为相似度度量损失，为音频情感特征表示，为视觉情感特征表示。

步骤1.4，从参考图像中提取图像的初始人脸标记。

在一种具体的实施方式中，将给定的一个参考图像输入进人脸标记提取器Dlib中，提取它的初始标记编码即为初始人脸标记。其中，参考图像为说话人视频生成任务所需图像，所述参考图像包含身份信息和纹理信息，在全文中均为数字的阈表示符号。

步骤1.5结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列。具体的，用标记解码器合成相应的音唇同步的有情感的人脸标记序列，其定义如下：

(3)

其中，为有情感的人脸标记序列，为标记解码器，为音频情感特征表示，为初始标记编码，为音频内容特征表示，为音频序列特征表示。为了令口型的变化流畅且自然，于是在标记解码器中设计了一个注意力模块。该模块可以联合考虑每个音频状态的上文信息和下文信息。

提取音频的序列特征表示中的每个音频状态。

步骤1.5.2，基于新的音频全局特征表示，利用注意力模块对每个音频状态进行时序增强，得到时序增强后的特征表示。

步骤1.5.2.1，获取每个音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度；

步骤1.5.2.2，根据三个连续音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度计算三个连续音频状态的相关性得分；

步骤1.5.2.3，根据三个连续音频状态的相关性得分和三个连续音频状态得到时序增强后的特征表示。

在一种具体的实施方式中，如图3所示，注意力模块的表述如下：

(4)

其中，表示拼接。表示的是第个音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度。是以为激活函数的两层线性层组成。和分别为的前一个音频状态和后一个音频状态与音频内容特征表示和音频情感特征表示之间的关联程度，它们的计算方式与相同。为三个连续音频状态的相关性得分。代表的是被时序增强的第个音频状态的特征表示。

步骤1.5.3，利用增强后的特征表示和参考图像的初始人脸标记解码每个音频状态的标记，得到有情感的人脸标记序列。

在一种具体的实施方式中，以第个音频状态为例，利用经过时序增强的第个音频状态的特征表示和参考图像的初始标记解码第个音频状态的标记，其表述形式如下：

(5)

其中，是GRU网络。表示结合了时序音频信息和初始标记信息的中层潜在特征。潜在特征的初始状态。是以为激活函数的线性层。为第个音频状态所生成的情感标记，所有状态的情感标记集合即为有情感的人脸标记序列。

步骤1.6，对序列对序列人脸标记生成器引入重构损失，目的是为了令序列到序列人脸标记生成器模块生成的人脸标记更精准。

在一种具体的实施方式中，通过计算真实标记序列和序列对序列人脸标记生成器生成的有情感的人脸标记序列之间的欧式范数，使得生成的有情感的人脸标记序列不断趋近真实人脸标记序列。

更进一步的，可得到有情感的人脸标记生成网络的损失函数为：

(6)

其中，为重构损失，为相似度度量损失，为情感分类损失，和为不同损失的损失系数，用于平衡不同项之间的相对重要性。

步骤2，根据有情感的人脸标记序列与参考图像，利用特征自适应视觉变换网络逐帧生成说话人的面部图像；将说话人面部图像按顺序进行组合，生成说话人脸视频。

步骤2.1，根据有情感的人脸标记序列提取表情变化信息和唇部运动信息，通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片。

在一种具体的实施方式中，用线连接第个音频状态所生成的情感标记的标记坐标，并用不同的颜色标记面部的五个器官，本实施例中为眉毛、眼睛、鼻子、嘴巴、下颌，便得到了大小为的第个人脸标记图片，由于音频状态与人脸标记图片个数对应，为了体现一致性，本实施例中音频对应的图片编号和音频状态编号均用t表示。

步骤2.2，通过挖掘情感人脸标记图片中的空间信息，提取标记嵌入表示，根据标记嵌入表示重构情感人脸标记图片。

步骤2.2.1，利用多尺度标记编码器充分挖掘情感人脸标记图片的空间信息，得到初步标记嵌入表示。其中，多尺度标记编码器是由层的卷积神经网络构成。

步骤2.2.2，对初步标记嵌入表示进行情感的特征表示增强，得到最终的标记嵌入表示。

在一种具体的实施方式中，为了增强特征表示的表达能力，在编码层和解码层之间添加跳接层，利用该结构将初步标记嵌入表示解码为情感标记，即为最终的标记嵌入表示。其中，标记解码器是由与标记编码器对称的个反卷积层组成。

步骤2.2.3，根据最终的标记嵌入表示重构情感人脸标记图片。在经过步骤2.2.1和步骤2.2.2后，原第个人脸标记图片被重构为新的人脸标记图片。

步骤2.3，根据参考图像中的身份信息和纹理信息，生成图像嵌入表示。

在一种具体的实施方式中，通过与标记编码层类似的结构，即采用了层图像编码器，从参考图像中提取当前所需任务的身份信息以及纹理信息，而生成的第个人脸标记图片对应的图像嵌入表示，记为。

步骤2.4，将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合，得到说话人的面部图像。其中，特征自适应变换过程仅存在于图像解码器的前层中，它的输入为图片嵌入表示和标记嵌入表示。

步骤2.4.1，对图像嵌入表示和标记嵌入表示进行拼接。

如图4所示，步骤2.4.2，将拼接后的图像嵌入表示和标记嵌入表示进行卷积。

在一种具体的实施方式中，使用两个的卷积层令图像嵌入表示和标记嵌入表示自适应的融合。

步骤2.4.3，将卷积后的图像嵌入表示和标记嵌入表示采用条件归一化的方式与上采样嵌入表示结合，得到说话人的面部图像。

在一种具体的实施方式中，最后采用条件归一化的方式与上采样嵌入表示相结合的公式为：

(7)

其中，是对于第个音频状态在第个解码层输出，表示位于第个通道的值，是上采样嵌入表示的坐标，和分别代表了的第个通道的平均值和标准差。和是一层卷积层。和分别代表了归一化模块的尺度值和位移值，它们的计算都依赖于图片和标记的嵌入表示，为图片嵌入表示，为标记嵌入表示。因此，这个模块可以灵活的将图片的嵌入表示、标记的嵌入表示、前期解码层的信息集成到之后的解码层中。

在一种具体的实施方式中，所述上采样嵌入表示由解码过程中，上一层的解码结果经过上采样操作得到。

对于第层图像解码层的输出，将其经过反卷积，批归一化以及激活函数的上采样操作后，获得上采样嵌入表示。其中，图像解码器是一个具有跳接操作的层上采样模块。

本发明设计了一个序列到序列具有情感的人脸标记生成器，可以有效地同步给定音频的情感和内容信息。是首次将情感标记生成器用于说话人生成任务的方法，它可以被插入到任一个现有的以人脸标记驱动说话人生成方法中，为这些方法生成的人脸赋予情感。本发明还通过特征的自适应变换，使得生成的情感信息可以被充分地整合到给定的图像中，从而获得高质量的说话人的面部图像。

步骤2.5，为了对特征自适应视觉变换网络进行优化，引入损失函数：

(8)

其中，为特征自适应视觉变换网络的损失，为标记嵌入损失，为对抗损失，为感知损失，、为不同损失函数的损失系数。

步骤2.5.1，为了最小化预测图片与真实图片之间的像素差异，为标记嵌入模块引入了标记嵌入损失，即范数。此目标函数使用的是真实图片作为监督信息，而不是使用未经过标记嵌入模块操作的标记图片作为监督信息，其原因在于，在训练阶段时，可轻微修正的表示。

步骤2.5.2，为了提升图片的质量，为视觉变换网络引入了对抗损失。和是两个不同的条件鉴别器，可以利用它们提高视觉变换网络的生成能力。其中，被训练用于区分全尺度合成图像和真实图像之间的差异，被训练用于区分在半尺度上合成图像和真实图像之间的差异。其定义如下所示：

(9)

其中，为对抗损失，为生成判别损失，为基于辨别器的特征映射损失，表示特征自适应视觉变换网络。为鉴别器，n为鉴别器标号，对于鉴别器和，二者都是由三个卷积层组成，其中，每个卷积层都有一个批归一化层和激活函数。的输入是通过合成图像和真实图像在窗口大小为的平均池化方式获得的。

生成判别损失的定义如下：

(10)

其中，表示数学期望，表示经过第一阶段生成的第个人脸标记图片，是第个人脸标记图片对应的真实的图片，为鉴别器，n为鉴别器标号，是参考图像。

是基于辨别器的特征映射损失，定义如下：

(11)

其中，表示数学期望，表示经过第一阶段生成的第个人脸标记图片是第个人脸标记图片对应的真实的图片，是鉴别器的第层，表示鉴别器的总层数，表示第层的元素总数，T表示人脸标记图片总个数。

步骤2.5.3，感知损失被用于在特征级别上约束网络，从而帮助模型生成高质量的图片，其定义如下：

(12)

其中，表示数学期望，表示经过第一阶段生成的第个人脸标记图片是第个人脸标记图片对应的真实的图片，表示第VGG网络的第j层，Z为总层数，代表第层的元素总数，T表示人脸标记图片总个数。

实施例二：

本发明实施例二提供了一种基于音频情感感知的说话人脸视频生成系统，包括：

以上实施例二中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于音频情感感知的说话人脸视频生成方法，其特征在于，包括：包括以下步骤：

获取音频片段和参考图像，利用有情感的人脸标记生成网络，生成有情感的人脸标记序列；具体步骤包括：对音频片段进行编码得到初始编码，通过挖掘初始编码的信息，得到音频的全局特征表示和音频的序列特征表示，将音频的全局特征表示分离，得到音频内容特征表示和音频情感特征表示；采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调，形成新的音频的全局特征表示；从参考图像中提取图像的初始人脸标记；结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列；

根据有情感的人脸标记序列与参考图像，利用特征自适应视觉变换网络逐帧生成说话人的面部图像；将说话人面部图像按顺序进行组合，生成说话人脸视频；

2.如权利要求1所述的基于音频情感感知的说话人脸视频生成方法，其特征在于，所述参考图像为说话人视频生成任务所需图像，所述参考图像包含身份信息和纹理信息。

3.如权利要求1所述的基于音频情感感知的说话人脸视频生成方法，其特征在于，采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调，形成新的音频的全局特征表示的具体步骤为：

利用已知的真实人脸标记提取视觉情感特征表示；

4.如权利要求3所述的基于音频情感感知的说话人脸视频生成方法，其特征在于，结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列的具体步骤为：

提取音频的序列特征表示中的每个音频状态；

5.如权利要求4所述的基于音频情感感知的说话人脸视频生成方法，其特征在于，基于新的音频全局特征表示，利用注意力模块对每个音频状态进行时序增强，得到时序增强后的特征表示的具体步骤为：

6.如权利要求1所述的基于音频情感感知的说话人脸视频生成方法，其特征在于，通过挖掘情感人脸标记图片中的空间信息，提取标记嵌入表示，根据标记嵌入表示重构情感人脸标记图片的具体步骤为：

根据最终的标记嵌入表示重构情感人脸标记图片。

7.如权利要求6所述的基于音频情感感知的说话人脸视频生成方法，其特征在于，将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合，得到说话人的面部图像的具体步骤为：

对图像嵌入表示和标记嵌入表示进行拼接；

将拼接后的图像嵌入表示和标记嵌入表示进行卷积；

8.如权利要求7所述的基于音频情感感知的说话人脸视频生成方法，其特征在于，所述上采样嵌入表示由解码过程中，上一层的解码结果经过上采样操作得到。

9.一种基于音频情感感知的说话人脸视频生成系统，其特征在于，包括：

有情感的人脸标记生成网络模块，被配置为获取音频片段和参考图像，利用有情感的人脸标记生成网络，生成有情感的人脸标记序列；具体步骤包括：对音频片段进行编码得到初始编码，通过挖掘初始编码的信息，得到音频的全局特征表示和音频的序列特征表示，将音频的全局特征表示分离，得到音频内容特征表示和音频情感特征表示；采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调，形成新的音频的全局特征表示；从参考图像中提取图像的初始人脸标记；结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列；