CN117153195A

CN117153195A - 基于自适应区域遮挡的说话人脸视频生成方法及系统

Info

Publication number: CN117153195A
Application number: CN202311422575.8A
Authority: CN
Inventors: 赵薇; 杨淇涵; 郭红岩; 柴剑平
Original assignee: Zhongyi Instec Technology Co ltd; Communication University of China
Current assignee: Zhongyi Instec Technology Co ltd; Communication University of China
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2023-12-01
Anticipated expiration: 2043-10-31
Also published as: CN117153195B

Abstract

本发明提供了一种基于自适应区域遮挡的说话人脸视频生成方法及系统，包括S1：从多模态信息中分别提取各模态的特征，将所述各模态的特征进行融合，得到融合特征；S2：将所述融合特征输入预训练的深度神经网络，得到情感类型和情感强度；S3：根据所述情感类型和所述情感强度对帧图像中面部相关标记点组成的网格区域进行遮挡，以提取所述真实说话人的身份图像；S4：根据所述身份图像和所述帧图像提取身份信息和姿势信息，并合成所述身份信息和所述姿势信息一致的面部图像的参考；根据所述面部图像的参考、所述情感类型、所述情感强度和所述真实说话人的语音构建视频帧。本发明提高了生成的说话人脸视频的情感准确度和面部运动自然度。

Description

基于自适应区域遮挡的说话人脸视频生成方法及系统

技术领域

本发明涉及说话人脸视频生成技术领域，更为具体地，涉及一种基于自适应区域遮挡的说话人脸视频生成方法及系统。

背景技术

随着深度学习的不断发展，视频创造生成的方式也得到了发展。在深度学习的帮助下，可轻松实现语音驱动说话人脸视频的生成。从一段音频和给定人物形象生成对应人物的讲话视频，使得说话人嘴形与音频内容对应，这就是说话人视频生成，它可以应用在数字虚拟人，游戏/动漫角色配音嘴形同步化，音唇同步的语音翻译等场景。早期的语音驱动说话人脸视频生成工作重点关注嘴部的运动，随着元宇宙和数字人概念的出现，生成的说话人脸视频中情感的重要性逐渐显现。现有的语音驱动说话人脸视频生成的方法大多从单一模态（音频、图片、视频或情感标签）中识别情感，有些研究虽然尝试利用多模态融合来识别情感，但都只停留在对几种情感的简单分类，在实际应用中缺乏灵活性，并且容易出现视觉和听觉的情感不同步的问题。

语音驱动说话人脸视频生成应保留说话人的身份特征和姿势特征，现有的语音驱动人脸视频生成的流程中有的使用对真实说话人的参考帧图像进行遮挡的方式来得到身份特征的参考和姿势特征的参考，遮挡方法有的是对人脸图片下半部分遮挡、有的是对嘴部区域遮挡、有的是整张图片遮挡。但是，这些单一的遮挡方式使得参考信息的提取准确性不足、生成的视频中产生不自然的面部运动或者对情感的识别产生影响。

发明内容

鉴于上述问题，本发明的目的是提供一种基于自适应区域遮挡的说话人脸视频生成方法及系统，通过多模态信息获得真实说话人的情感种类和情感强度，根据情感种类和情感强度，选择参考帧图像的面部相关标记点组成的网格区域进行遮挡，获取自适应的身份特征参考和姿势特征参考，提高了生成的说话人脸视频的情感准确度和面部运动自然度。

本发明提供的一种基于自适应区域遮挡的说话人脸视频生成方法，包括以下步骤：

S1：从真实说话人的多模态信息中分别识别并提取各模态的特征，将所述各模态的特征进行融合，得到融合特征；

S2：将所述融合特征输入预训练的深度神经网络，得到所述真实说话人的情感类型和所述情感类型的情感强度；

S3：根据所述情感类型和所述情感强度对所述真实说话人的帧图像中的面部相关标记点组成的网格区域进行遮挡，以提取所述真实说话人的身份图像；

S4：根据所述身份图像和所述帧图像提取所述真实说话人的身份信息和姿势信息，并合成所述身份信息和所述姿势信息一致的虚拟说话人的面部图像的参考；根据所述面部图像的参考、所述情感类型、所述情感强度和所述真实说话人的语音构建所述虚拟说话人的视频帧。

在所述步骤S1中，所述多模态信息包括语音、文本和视频，所述各模态的特征包括分别从所述语音、所述文本和所述视频中提取的语音特征、文本特征和视觉特征；将所述语音特征、所述视觉特征和所述文本特征采用特征级融合的方式进行特征融合。

在所述步骤S2中，所述预训练的深度神经网络采用MEAD作为训练集，所述MEAD中包括中性、愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶八种情感类型，以及每种情感类型的三级情感强度，所述三级情感强度由小到大包括1级、2级和3级。

在所述步骤S3中，根据所述情感类型和所述情感强度对所述真实说话人的帧图像中的面部相关标记点组成的网格区域进行遮挡的方式包括：在所述帧图像中的面部设置预定数量个标记点，所有标记点分别组成覆盖所述面部的各区域的网格区域；将每种情感类型按其对应的情感强度分别与相关标记点组成的网格区域相关联，形成标记点对照表；根据所述步骤S2中得到的情感类型和情感强度，对所述标记点对照表中相关联的网格区域形成掩码，以通过所述掩码对所述帧图像的对应位置进行遮挡。

所述对所述标记点对照表中相关联的网格区域形成掩码，以通过所述掩码对所述帧图像的对应位置进行遮挡包括：对所述相关联的网格区域添加黑框进行遮挡。

在所述步骤S4中，采用身份编码器、情感编码器、语音编码器、噪声编码器以及视频解码器共同构建所述虚拟说话人的视频帧；

根据所述身份图像和所述帧图像提取所述真实说话人的身份信息和姿势信息，并合成所述身份信息和所述姿势信息一致的虚拟说话人的面部图像的参考包括：采用所述身份编码器编码，将帧图像和身份图像相连的整体作为联合输入，输出所述身份信息和所述姿势信息统一的视觉嵌入，将所述视觉嵌入提供给所述视频解码器，作为所述面部图像的参考。

在所述步骤S4中，根据所述面部图像的参考、所述情感类型、所述情感强度和所述真实说话人的语音构建所述虚拟说话人的视频帧包括：

将所述情感类型输入所述情感编码器，输出情感嵌入，将所述情感嵌入提供给所述视频解码器，作为所述虚拟说话人的情感的参考；

将所述真实说话人的语音输入所述语音编码器进行处理并输出语音嵌入，将所述语音嵌入提供给所述视频解码器，作为所述虚拟说话人的口型和嘴唇运动的参考；

通过所述噪声编码器对所述真实说话人的帧图像逐帧生成服从标准高斯分布的噪声向量序列，采用单层LSTM对所述噪声向量序列进行处理，并输出噪声嵌入，然后将所述噪声嵌入提供给所述视频解码器，作为所述虚拟说话人的头部和眨眼运动的参考；

所述视频解码器根据所述视觉嵌入、所述情感嵌入、所述语音嵌入、所述噪声嵌入和所述情感强度，构建所述虚拟说话人的视频帧。

还包括步骤S5：将所述视频帧和所述帧图像均输入帧鉴别器，通过所述帧鉴别器对所述视频帧和所述帧图像进行图像的真假鉴别以及对所述视频帧的训练，使得虚假的所述视频帧与真实的所述帧图像接近；

将所述视频帧构成的说话人脸视频和所述情感类型均输入情感鉴别器，通过所述情感鉴别器确定根据所述说话人脸视频识别出的不同的情感种类及每一个情感种类的概率，并根据所述概率大于零的情感种类和所述情感类型计算稀疏分类交叉熵损失，通过反复训练使所述稀疏分类交叉熵损失越来越小，以缩小所述说话人脸视频的情感与真实说话人的情感差距。

本发明另一方面提供的一种基于自适应区域遮挡的说话人脸视频生成系统，包括：

情感识别模块：用于从真实说话人的多模态信息中分别识别并提取各模态的特征，将所述各模态的特征进行融合，得到融合特征；将所述融合特征输入预训练的深度神经网络，得到所述真实说话人的情感类型和所述情感类型的情感强度；

身份图像获取模块：根据所述情感类型和所述情感强度对所述真实说话人的帧图像中的面部相关标记点组成的网格区域进行遮挡，以提取所述真实说话人的身份图像；

视频生成模块：用于根据所述身份图像和所述帧图像提取所述真实说话人的身份信息和姿势信息，并合成所述身份信息和所述姿势信息一致的虚拟说话人的面部图像的参考；根据所述面部图像的参考、所述情感类型、所述情感强度和所述真实说话人的语音构建所述虚拟说话人的视频帧。

还包括帧鉴别器和情感鉴别器；其中，

所述帧鉴别器，用于将所述视频帧和所述帧图像作为输入，并对所述视频帧和所述帧图像进行图像的真假鉴别以及对所述视频帧进行训练，使得虚假的所述视频帧与真实的所述帧图像接近；

所述情感鉴别器，用于将所述视频帧构成的说话人脸视频和所述情感类型作为输入，以确定根据所述说话人脸视频识别出的不同的情感种类及每一个情感种类的概率，并根据所述概率大于零的情感种类和所述情感类型计算稀疏分类交叉熵损失，通过反复训练使所述稀疏分类交叉熵损失越来越小，以缩小所述说话人脸视频的情感与真实说话人的情感差距。

利用上述根据本发明的基于自适应区域遮挡的说话人脸视频生成方法及系统，采用了在真实说话人的多模态信息中提取各模态的特征，将各模态的特征融合后，输入深度神经网络得到情感类型和情感类型的强度，不仅有效的利用了多模态信息之间的互补性提高情感识别的准确性，而且为生成的说话人脸视频提供了更精准的情感标签。每个情感类型和强度与相关的区域关联，根据情感类型和强度对帧图像中面部相关标记点组成的网格区域进行遮挡，自适应地选择不同的人脸遮挡方式，得到准确的身份信息的参考和姿势特征参考。本发明充分利用了情感信息，使生成的说话人脸视频拥有更自然的面部运动及微表情。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例1的基于自适应区域遮挡的说话人脸视频生成方法的流程图；

图2为根据本发明实施例1的面部标记点图；

图3为根据本发明实施例2的基于自适应区域遮挡的说话人脸视频生成系统的结构示意图；

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出

本发明可施加各种变更并可具有各种实施例，将特定实施例示例于附图并进行说明。但是，本发明并非限定于该特定实施方式，涵盖落入本发明的思想及技术范围的所有变更、等同物以及替代物，应理解为都包括在内。

本申请中使用的术语只是为了说明特定的实施例而使用，并非指在限定本发明。除非上下文另有明确规定，否则单数的表达包括复数的表达。在本申请中，应当理解“包括”或“具有”等术语用于指定存在说明书中所记载的特征、数字、步骤、操作、构成要素、部件或其组合，并非预先排除一个或其以上的其他特征、数字、步骤、操作、构成要素、部件或其组合的存在或附加可能性。

为了清楚说明本发明的技术方案，下面先对本发明实施例中所涉及的部分技术术语做简要的解释说明：

MISA(Modality-Invariant and Specific Representations for MultimodalSentiment Analysis，多模态情感分析的模态不变量和特定表示)：它将每个模态投射到两个不同的子空间。第一个子空间是模态不变的，不同模态的表示学习它们的共性并减少模态差距。第二个子空间是模态专用的，它是每个模态所特有的，并捕捉到它们的特征。这些表示提供了一个多模态数据的整体视图，它被用于融合，任务预测。

特征级融合：也称为早期融合，表示在提取特征后立即从不同模态提取的特征连接成单个高维特征向量的方法。

MEAD（Multi-view Emotional Audio-visual Dataset，多视图情感视听数据集）：多视图情感视听数据集，是一个大规模、高质量的情感视听数据集。侧重于自然情感语音的面部生成，并考虑了多种情绪状态（三个强度级别上的八种不同情绪）。

300W：发布于2013年，包含了300张室内图和300张室外图，其中数据集内部的表情、光照条件、姿态、遮挡、脸部大小变化非常大，因为是通过Google搜索“party”、“conference”等较难等场景搜集而来。该数据集标注了68个关键点，一定程度上在这个数据集能取得好结果的，在其他数据集也能取得好结果。检测到人脸后，通常都需要定位出图像的轮廓关键点，关键点是人脸形状的稀疏表示，在人脸跟踪、美颜等任务中都很重要。

身份编码器：身份编码器使用将帧图像和身份图像相连的整体作为联合输入，采用卷积神经网络进行特征编码，编码后得到高维的视频特征。

语音编码器：语音编码器采用卷积神经网络进行特征编码。输入语音信号，将语音信号提取梅尔特征图，将梅尔特征图编码为高维的语音特征。

噪声编码器：噪声编码器输入服从标准高斯分布的噪声向量。噪声编码器使用单层LSTM处理噪声向量序列并输出噪声嵌入。

情感编码器：利用Leaky ReLU激活的简单前馈神经网络作为情感编码器。使用情感编码器处理情感类型，输出情感嵌入。

视频解码器：视频解码器用于重新构出的人物视频帧，使得新生成的视频帧中人物身份与输入保持一致，人物情感与情感识别模块的情感保持一致，同时人物嘴型与输入音频保持一致。视频解码器采用卷积神经网络。

帧鉴别器：将真实目标样本帧与生成器生成的虚假样本帧作为帧鉴别器的输入，帧鉴别器采用卷积神经网络来识别图像的真假。

情感鉴别器：情绪鉴别器本质上是一个基于视频的情绪分类器，包含了一个用于虚假视频的附加类。它旨在改善我们的网络所产生的情感表达。

除非另有定义，包括技术术语或科学术语，在此使用的所有术语与本领域技术人员一般所理解的拥有相同的含义。一般使用的词典中所定义的术语，应解释与相关技术的文脉上所具有的含义一致的含义，如果未在本申请中明确定义，不能被解释为理想的或过于形式的含义。

以下将结合附图对本发明的具体实施例进行详细描述。

实施例1

图1为根据本发明实施例1的基于自适应区域遮挡的说话人脸视频生成方法的流程图；图2为根据本发明实施例1的面部标记点图；

如图1和图2所示，本实施例提出的基于自适应区域遮挡的说话人脸视频生成方法，可用于生成逼真的唇语人脸视频，包含贴近真实说话人的情感和相关表情。

本实施例基于自适应区域遮挡的说话人脸视频生成方法包括以下步骤：

S1：从真实说话人的多模态信息中分别识别并提取各模态的特征，将各模态的特征进行融合，得到融合特征。

在真实说话人说话时的各种模态信息中提取各自的特征，识别情感，用于后续说话人脸视频的生成。

在本发明的一个具体实施例中，使用MISA模型分别从多模态信息中提取各自的特征。多模态信息可包括语音、文本和视频等信息，MISA模型从语音、文本和视频中提取各自的特征作为各模态的特征，其中，从语音中提取的特征为语音特征，从视频中提取的特征为视觉特征，从文本中提取的特征为文本特征。

具体的，作为示例，在MISA模型中，采用S-LSTMS(Long Short Term Memory，长短期记忆网络）神经网络进行识别和提取语音特征，采用S-LSTM神经网络进行识别和提取视觉特征，采用S-LSTM或者BERT（Bidirectional Encoder Representation fromTransformers，预训练的语言表征模型）神经网络进行识别和提取文本特征。

将提取的语音特征、视觉特征和文本特征进行融合，可采用特征级融合的方式。特征级融合可将语音、视频、文本的特征向量进行连接，实现输出融合特征。

S2：将融合特征输入预训练的深度神经网络，得到真实说话人的情感类型和情感类型的情感强度。

将融合特征输入预训练的深度神经网络，得出情感类型和情感类型的强度，人脸表现出的情感类型可包括多种，每个情感类型包括程度不同的情感强度。

预训练的深度神经网络可采用MEAD作为训练集，MEAD中包括中性、愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶八种情感类型，以及每种情感类型的三级情感强度，三级情感强度由小到大包括1级、2级和3级。

得到最终预测的情感类型是八种情感类型中的哪种，以及其对应的情感强度，得到准确的情感参考。

S3：根据情感类型和情感强度对真实说话人的帧图像中面部相关标记点组成的网格区域进行遮挡，以提取真实说话人的身份图像。

常用的68个标记点法，标记了眉毛、眼睛、鼻子和嘴部区域。但观察发现，当情绪强度较大时，不仅嘴部、眼部和眉毛有较明显的运动，额头、眼角和唇周区域也有一定的运动。因此本实施例，根据常用的68个标记点改进得到多于68的预定数量个标记点，使用已标记了68个标记点的数据集（如300W数据集），在原数据集的基础上人工添加若干标记点，分别对应额头、眼角和唇周区域，通过训练深度神经网络模型，实现预定数量个标记点的人脸关键点标记。

通过仔细观察可发现，在情感类型以及其情感强度不同的情况下，面部运动涉及到的五官也是各不相同的。例如，情感类型为愤怒、情感强度较小的情况下，嘴部区域对应情感的运动较为明显，而眼睛和眉毛等其他区域的运动则可忽略不计，这时只需对参考帧图像的嘴部区域进行遮挡，得到准确身份图像；再例如，情感类型为愤怒、情感强度较大的情况下，嘴部、眼部、眉毛、眼角和额头区域的运动均较为明显，这时需对帧图像的嘴部、眼部、眉毛、眼角和额头区域进行遮挡，得到准确的身份图像。

根据情感类型和情感强度选择真实说话人的帧图像中的面部相关标记点组成的网格区域进行遮挡的方式可包括，在帧图像中的面部设置预定数量个标记点，所有标记点分别组成覆盖面部的各区域的网格区域，形成面部标记点图；将每种情感类型按其对应的情感强度分别与其面部运动有关的标记点组成的网格区域相关联，形成标记点对照表。

可根据步骤S2中得到的情感类型和情感强度，对标记点对照表中相关联的网格区域形成掩码，以通过掩码对帧图像中与情感类型强度对应区域进行遮挡，只保留身份信息。

本实施例中，预定数量可为82，面部标记点图如图2所示，82个标记点可分布为，脸部轮廓网格区域包括1-17标记点、眉毛网格区域包括18-27标记点、鼻部网格区域包括28-36标记点、眼部网格区域包括37-48标记点、嘴部网格区域包括49-68标记点、额头区域点位群包括69-72标记点、眼角区域包括73-76标记点、唇周区域包括77-82标记点。

作为示例，各个网格区域与情感类型、情感强度的标记点对照表如下表所示，但不限于此表的对照方式。

标记点对照表将每种情感类型按情感强度罗列，情感类型按情感强度与其面部运动相关的网格区域关联。根据步骤S2输出的情感类型和情感强度，选择标记点对照表中相关联的网格区域进行遮挡，可自适应地选择不同的人脸遮挡方式。

例如得到的情感类型为愤怒、情感强度为1级，对嘴部网格区域（49-68标记点）进行遮挡；再例如，情感类型为愤怒、情感强度为2或3级，这时对嘴部、眼部、眉毛、眼角和额头网格区域（18-27、37-48、49-68、69-72、73-76标记点）均进行遮挡。本实施例根据参考帧图像的面部的情感自行调节遮挡的区域，得到身份图像和姿势信息的参考。在情感弱的时候，只遮挡少量的网格区域可得到更多的参考，提高了生成的说话人脸视频的情感准确性和面部运动自然度。

对标记点对照表中相关联的网格区域形成掩码，以通过掩码对帧图像的对应位置进行遮挡，具体可包括：对相关联的网格区域添加黑框进行遮挡。按相关联的网格区域的形状添加黑框遮挡，使其不可见，面部其他区域显示可见。

S4：根据身份图像和帧图像提取真实说话人的身份信息和姿势信息，并合成身份信息和姿势信息一致的虚拟说话人的面部图像的参考；根据面部图像的参考、情感类型、情感强度和真实说话人的语音构建虚拟说话人的视频帧。

采用身份编码器、情感编码器、语音编码器、噪声编码器以及视频解码器共同构建虚拟说话人脸视频。

具体的，作为示例，根据身份图像和帧图像提取真实说话人的身份信息和姿势信息，并合成身份信息和姿势信息一致的虚拟说话人的面部图像的参考包括，使用身份编码器编码，将帧图像和身份图像相连的整体作为联合输入，采用卷积神经网络进行特征编码，输出身份信息和姿势信息统一的视觉嵌入，将视觉嵌入提供给视频解码器，作为虚拟说话人的面部图像的参考。可用于后续合成与身份信息和姿势信息一致的面部图像。

根据面部图像的参考、情感类型、情感强度和真实说话人的语音构建虚拟说话人的视频帧包括：

将情感类型输入情感编码器，输出情感嵌入，将情感嵌入提供给视频解码器，作为虚拟说话人情感的参考。

将真实说话人的语音波形输入语音编码器进行处理并输出语音嵌入，将语音嵌入提供给视频解码器，作为合成虚拟说话人的口型和嘴唇运动的参考。

通过噪声编码器对真实说话人的帧图像逐帧生成服从标准高斯分布的噪声向量序列，采用单层LSTM对噪声向量序列进行处理，并输出噪声嵌入，然后将噪声嵌入提供给视频解码器，作为虚拟说话人的头部和眨眼运动的参考，头部运动是指头部随机的晃动，头部晃动和眨眼运动与语音、面部图像和情感无关。

视频解码器根据前述视觉嵌入、语音嵌入、噪声嵌入、情感嵌入和情感强度，构建虚拟说话人的视频帧。将视觉嵌入、语音嵌入、噪声嵌入、情感嵌入连接起来，并将它们与情感强度馈送到视频解码器中，视频解码器在给定上述嵌入和情感强度的情况下，构建对应的视频帧，即会说话的面部图像，进而生成说话人脸视频。使得新生成的视频帧中人物身份与输入保持一致，人物情感与情感识别出的情感保持一致，同时人物嘴型与输入音频保持一致。

S5：将生成的视频帧和参考帧图像输入帧鉴别器，对生成的视频帧进行鉴别，然后通过不断训练使得生成的视频帧质量更好。

帧鉴别器的作用是负责每一帧的视觉质量，确保每个生成的视频帧看起来像真实的视频帧，并在整个视频中保持目标身份的一致性。将视频帧和帧图像均输入帧鉴别器，通过帧鉴别器对视频帧和帧图像进行图像的真假鉴别以及对视频帧的训练，使得虚假的视频帧与真实的帧图像接近。

此外，还可采用情感鉴别器对生成的虚假的说话人脸视频进行情感分类，使得说话人脸视频的情感与真实说话人的情感差距越来越小，以改善说话人脸视频所产生的情感表达。

将生成的说话人脸视频和真实说话人的情感类型均输入情感鉴别器。通过情感鉴别器确定根据说话人脸视频识别出的不同情感种类及每一个情感种类的概率。有的情感种类的概率较高，有的情感种类的概率较低，有的情感种类的概率为零，将概率大于零的情感种类做为说话人脸视频的情感标签，根据此情感标签和真实说话人的情感类型的情感标签计算稀疏分类交叉熵损失，通过训练使稀疏分类交叉熵损失越来越小，使得说话人脸视频的情感与真实说话人的情感的差距越来越小，以改善说话人脸视频所产生的情感表达。情感鉴别器能够对假视频中的情感进行分类，分出八种情感种类和每个情感种类对应的概率。

本实施例不仅有效地利用了多模态信息之间的互补性来提高特征获取的准确性，而且使用细分的情感类型及情感强度进行情感识别，来代替单一情感识别，为生成的说话人脸视频提供了更精准的情感标签。设计了情感类型强度与遮挡区域的标记点对照表，根据识别的情感类型和强度，自适应地选择不同的人脸遮挡区域。本实施例充分利用了情感信息，使生成的视频拥有更自然的面部运动及微表情。

实施例2

图3为根据本发明实施例2的基于自适应区域遮挡的说话人脸视频生成系统。

如图3所示，本实施例提供的基于自适应区域遮挡的说话人脸视频生成系统，基于实施例1中的方法，与实施例1中的方法一一对应，本实施例可以安装于电子设备中。

本基于自适应区域遮挡的说话人脸视频生成系统包括：情感识别模块、身份图像获取模块、视频生成模块。

情感识别模块可包括多模态特征获取单元和情感分类单元。

多模态特征获取单元，用于从真实说话人的多模态信息中分别识别并提取各模态的特征，将各模态的特征进行融合，得到融合特征。

在真实说话人说话时的各种模态信息中提取各自的特征，将这些特征融合。多模态信息可包括语音、文本和视频等信息，从语音中提取的特征为语音特征，从视频中提取的特征为视觉特征，从文本中提取的特征为文本特征。将提取的语音特征、视觉特征和文本特征进行融合，可采用特征级融合的方式。特征级融合可将语音、视频、文本的特征向量进行连接，实现输出融合特征。

情感分类单元，用于将融合特征输入预训练的深度神经网络，得到真实说话人的情感类型和情感类型的情感强度。

得到最终预测的情感类型是八种情感类型中的哪种，以及其对应的情感强度，得到真实说话人的情绪参考。

身份图像获取模块：用于根据情感类型和情感强度对真实说话人的帧图像中的面部相关标记点组成的网格区域进行遮挡，以提取真实说话人的身份图像。

在帧图像中的面部设置预定数量个标记点，所有的标记点分别组成覆盖面部各区域的网格区域，形成面部标记点图。将每种情感类型按其对应的情感强度级别分别与其面部运动有关的网格区域相关联，形成标记点对照表。

可根据情感识别模块中得到的情感类型和情感强度，选择标记点对照表中相关联的网格区域形成掩码，对帧图像中与情感类型和情感强度相对应区域进行遮挡，只保留身份信息，以提取真实说话人的身份图像。可自适应地选择不同的人脸遮挡方式。

视频生成模块：用于根据身份图像和帧图像提取真实说话人的身份信息和姿势信息，并合成身份信息和姿势信息一致的虚拟说话人的面部图像的参考；根据面部图像的参考、情感类型、情感强度和真实说话人的语音构建虚拟说话人的视频帧。

本模块包括身份编码器、情感编码器、语音编码器、噪声编码器以及视频解码器。

身份编码器：用于编码，将帧图像和身份图像相连的整体作为联合输入，输出身份信息和姿势信息统一的视觉嵌入，将视觉嵌入提供给视频解码器，作为虚拟说话人的面部图像的参考。可用于后续合成与身份信息和姿势信息一致的面部图像。

情感编码器：将情感类型作为输入，输出情感嵌入，将情感嵌入提供给视频解码器，作为虚拟说话人情感的参考。

语音编码器：将真实说话人的语音波形作为输入，进行处理并输出语音嵌入，将语音嵌入提供给视频解码器，作为合成虚拟说话人的口型和嘴唇运动的参考。

噪声编码器：通过噪声编码器对参考帧图像逐帧生成服从标准高斯分布的噪声向量序列，采用单层LSTM对噪声向量序列进行处理，并输出噪声嵌入，然后将噪声嵌入提供给视频解码器，作为虚拟说话人的头部和眨眼运动的参考，头部和眨眼运动与语音、面部图像和情感无关。

视频解码器：将视觉嵌入、情感嵌入、语音嵌入、噪声嵌入连接起来，并将它们与情感强度馈送到视频解码器中，视频解码器在给定上述嵌入和情感强度的情况下，构建对应的视频帧，即会说话的面部图像，进而生成说话人脸视频。

本基于自适应区域遮挡的说话人脸视频生成系统还可包括帧鉴别器和情感鉴别器。

帧鉴别器：用于将视频帧和帧图像作为输入，并对视频帧和帧图像进行图像进行真假鉴别以及对视频帧进行训练，使得虚假的视频帧与真实的帧图像接近，使每一帧的视觉质量看起来像真实的视频帧。

情感鉴别器，用于将视频帧构成的说话人脸视频和情感类型作为输入，以确定根据说话人脸视频识别出的不同的情感种类及每一个情感种类的概率，并根据概率大于零的情感种类和情感类型计算稀疏分类交叉熵损失，通过反复训练使稀疏分类交叉熵损失越来越小，以缩小说话人脸视频的情感与真实说话人的情感差距，改善说话人脸视频所产生的情感表达。

本实施例的系统生成的说话人脸视频的情感准确度高和面部运动自然度高。

如上参照附图以示例的方式描述根据本发明的基于自适应区域遮挡的说话人脸视频生成方法及系统。但是，本领域技术人员应当理解，对于上述本发明所提出的基于自适应区域遮挡的说话人脸视频生成方法及系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，在所述步骤S1中，所述多模态信息包括语音、文本和视频，所述各模态的特征包括分别从所述语音、所述文本和所述视频中提取的语音特征、文本特征和视觉特征；

将所述语音特征、所述视觉特征和所述文本特征采用特征级融合的方式进行特征融合。

3.如权利要求1所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，在所述步骤S2中，所述预训练的深度神经网络采用MEAD作为训练集，所述MEAD中包括中性、愤怒、蔑视、厌恶、恐惧、快乐、悲伤和惊讶八种情感类型，以及每种情感类型的三级情感强度，所述三级情感强度由小到大包括1级、2级和3级。

4.如权利要求3所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，在所述步骤S3中，根据所述情感类型和所述情感强度对所述真实说话人的帧图像中的面部相关标记点组成的网格区域进行遮挡的方式包括：

在所述帧图像中的面部设置预定数量个标记点，所有标记点分别组成覆盖所述面部的各区域的网格区域；

将每种情感类型按其对应的情感强度分别与相关标记点组成的网格区域相关联，形成标记点对照表；

根据所述步骤S2中得到的情感类型和情感强度，对所述标记点对照表中相关联的网格区域形成掩码，以通过所述掩码对所述帧图像的对应位置进行遮挡。

5.如权利要求4所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，所述对所述标记点对照表中相关联的网格区域形成掩码，以通过所述掩码对所述帧图像的对应位置进行遮挡包括：

对所述相关联的网格区域添加黑框进行遮挡。

6.如权利要求1所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，在所述步骤S4中，采用身份编码器、情感编码器、语音编码器、噪声编码器以及视频解码器共同构建所述虚拟说话人的视频帧；

根据所述身份图像和所述帧图像提取所述真实说话人的身份信息和姿势信息，并合成所述身份信息和所述姿势信息一致的虚拟说话人的面部图像的参考包括：

采用所述身份编码器编码，将所述帧图像和所述身份图像相连的整体作为联合输入，输出所述身份信息和所述姿势信息统一的视觉嵌入，将所述视觉嵌入提供给所述视频解码器，作为所述面部图像的参考。

7.如权利要求6所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，在所述步骤S4中，根据所述面部图像的参考、所述情感类型、所述情感强度和所述真实说话人的语音构建所述虚拟说话人的视频帧包括：

8.如权利要求1所述的基于自适应区域遮挡的说话人脸视频生成方法，其特征在于，还包括步骤S5：

将所述视频帧和所述帧图像均输入帧鉴别器，通过所述帧鉴别器对所述视频帧和所述帧图像进行图像的真假鉴别以及对所述视频帧的训练，使得虚假的所述视频帧与真实的所述帧图像接近；

9.一种基于自适应区域遮挡的说话人脸视频生成系统，其特征在于，包括：

10.如权利要求9所述的基于自适应区域遮挡的说话人脸视频生成系统，其特征在于，还包括帧鉴别器和情感鉴别器，其中，

所述情感鉴别器，用于将所述视频帧构成的说话人脸视频和所述情感类型作为输入，以确定根据所述说话人脸视频识别出的不同的情感种类及每一个情感种类的概率，并根据所述概率大于零的情感种类和所述情感类型计算稀疏分类交叉熵损失，通过反复训练使所述稀疏分类交叉熵损失越来越小，以缩小所述说话人脸视频的情感与所述真实说话人的情感差距。