CN111666831B

CN111666831B - 一种基于解耦表示学习的说话人脸视频生成方法

Info

Publication number: CN111666831B
Application number: CN202010420200.8A
Authority: CN
Inventors: 熊盛武; 林承德; 路雄博; 陈燚雷; 刘锋; 陈如意; 曹丹凤
Original assignee: Wuhan Shuixiang Electronic Technology Co ltd; Wuhan University of Technology WUT
Current assignee: Wuhan Shuixiang Electronic Technology Co ltd; Wuhan University of Technology WUT
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2023-06-20
Anticipated expiration: 2040-05-18
Also published as: CN111666831A

Abstract

本发明提出了一种基于解耦表示学习的说话人脸视频生成方法，采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦，并且用分类对抗的方法将视频中的人物身份特征、语音特征及情绪特征解耦，这些特征的解耦提高了本方法对生成说话视频的可操控性。采用对偶学习对音频中的语音特征和静音视频中的语音特征进行映射，对音频中的情绪特征和静音视频中的情绪特征进行映射，实现了音频和视频的跨模态特征转换，极大提高了从音频生成说话人脸视频的便利性，也提高了生成说话人脸视频的连贯与自然程度。本发明可以根据任意单张人脸图片及音频生成真实自然的说话视频，无需大量特定人脸视频，提高了易用性。

Description

一种基于解耦表示学习的说话人脸视频生成方法

技术领域

本发明涉及深度学习与多媒体跨模态生成，具体涉及一种基于解耦表示学习的说话人脸视频生成方法。

背景技术

说话人脸视频生成是指给定单张人脸图片和一段单人说话语音，生成这个人的说话人脸视频，而且该视频中人脸的说话内容与输入语音一致。说话人脸视频生成技术在虚拟主播、人机交互及影视动画制作等领域具有广阔应用前景。

由单张人脸图片和说话语音生成自然流畅的说话人脸视频十分具有挑战性，一方面需要实现保留身份特征的多帧人脸生成，而且要求人脸变化尤其是唇形变化在时域上要与输入语音一致。为此，已有研究者提出基于深度学习的说话人脸视频生成，虽然取得一定效果，但是存在一些问题。说话音频中包含由说话者人物身份特征、情绪及语音特征(说话内容)等多种特征空间，类似的，说话视频也包括说话人物身份特征、情绪及语音特征(说话引起的面部动作)等多种特征空间。现有说话人脸视频生成方法由于未能很好的将音频中的身份特征、语音特征和情绪特征以及视频中的说话人身份特征、语音特征和情绪特征解耦，生成说话视频存在以下问题：(1)音频中语音特征及情绪特征之外的特征以及是视频中人物身份特征之外的信息会严重干扰说话人脸视频生成效果，使得生成视频中唇形与语音不一致，给人不够真实的感觉；(2)由于未能将语音及视频中的情绪特征分离出来，因此生成的说话人脸视频面无表情，情绪上与语音不对应，整体效果不够自然。这些问题的存在极大的影响了说话人脸视频的实际应用。

发明内容：

本发明的目的是为了解决上述背景技术存在的不足，而提出一种基于解耦表示学习的说话人脸视频生成方法。

本发明包括三个方面：使用分类对抗方法对输入音频中的音频人物身份特征、音频语音特征及音频情绪特征进行解耦，得到干净的音频人物身份特征、音频语音特征及音频情绪特征；使用分类对抗方法对输入视频中的视频人物身份特征、视频语音特征及音频情绪特征进行解耦，得到干净的视频人物身份特征、视频语音特征及音频情绪特征；使用对偶学习方法实现音频语音特征和视频语音特征这两个不同隐空间的相互映射，并使用对偶学习方法实现音频情绪特征和视频情绪特征这两个不同隐空间的相互映射；联合视频人物身份特征和映射到该空间的音频语音特征及音频情绪特征，实现由单张图片和说话音频共同生成说话人脸视频。

本发明在训练阶段，采用分类对抗的方法将音频中的人物身份特征、语音特征以及情绪特征解耦，并且用分类对抗的方法将视频中的人物身份息、语音特征及情绪特征解耦，然后采用对偶学习将音频中的语音特征映射到视频中的语音特征，并采用对偶学习将音频中的情绪特征映射到视频中的情绪特征，最后综合视频中的人物身份特征共同完成说话人脸视频的生成。在测试阶段，将给定任意单张人脸图片和说话音频，即可生成该人脸符合音频情绪特征的说话视频。由于对人物身份、语音及情绪等关键信息实施了解耦，可以根据任意单张人脸图片及音频生成真实自然的说话视频。不仅避免了音频和视频中不同隐空间特征对生成说话视频结果的干扰，且视频画面所展现的情绪与输入音频的情绪保持一致，较好的解决现有方法存在的上述两个问题。

为了实现上述目的，本发明所采用的技术方案为：

一种基于解耦表示学习的说话人脸视频生成方法，该方法包括如下步骤：步骤一，用分类对抗的方法将静音视频中的人物身份特征、语音特征及情绪特征解耦；步骤二，采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦；步骤三，然后采用对偶学习的方法将音频中的语音特征映射到静音视频中的语音特征所在空间，并将音频中的情绪特征映射到静音视频中的情绪特征所在空间，步骤四，综合视频中的人物身份特征共同完成说话人脸视频的生成。

较佳地，步骤一中的分类对抗采用长短记忆神经网络从视频中提取人物身份特征，要求该人物身份特征对于人物身份识别有效，但是对语音识别(唇读)和情绪识别无效；而且采用长短记忆神经网络从视频中提取语音特征，并要求该语音特征对于语音识别(唇读)有效，对于人物身份及情绪的识别无效；采用长短记忆神经网络从视频中提取情绪特征，并要求该情绪特征对于情绪识别有效，对于人物身份及语音的识别无效，从而对视频实现人物身份特征、语音特征及情绪特征的解耦。

进一步的，所述步骤一分类对抗的解耦表示学习方法，包括3个编码器以及6个分类器，对于输入视频，第一阶段：先固编码器，训练更新分类器对编码器输出的视频人物身份特征进行视频语音及视频情绪分类；然后固定该分类器，训练更新编码器，使其输出的视频人物身份特征无法对视频样本进行视频语音及视频情绪的分类，从而迫使编码器学习出不包含视频语音特征及视频情绪特征的干净视频人物身份特征；第二阶段：先固编码器，训练更新分类器对编码器输出的视频语音特征对视频样本进行人物身份及视频情绪的分类；然后固定该分类器，训练更新编码器，使其输出的视频语音特征无法对视频样本进行人物身份及视频情绪的分类，从而迫使编码器学习出不包含视频人物身份特征及视频情绪特征的干净视频语音特征；第三阶段：先固编码器，训练更新分类器对编码器输出的视频情绪特征进行视频语音及视频人物身份分类；然后固定该分类器，训练更新编码器，使其输出的视频情绪特征无法对视频样本进行视频语音及视频人物身份的分类，从而迫使编码器学习出不包含视频语音特征及视频人物身份特征的干净视频情绪特征。

进一步的，所述步骤一的具体实现方式如下，

所述的分类对抗的解耦表示学习方法包括3个编码器

和

以及6个分类器/>

及

编码器/>

从说话视频Video中提取视频中说话人物的视频人物身份特征

分类器/>

和/>

对上述视频人物身份特征/>

进行视频语音及视频情绪的分类，该过程表示为：

视频语音特征编码器

从说话视频Video中提取说话的视频语音特征

分类器/>

和/>

对上述视频语音特征/>

进行视频人物身份及视频情绪的分类，该过程表示为：

视频情绪特征编码器

从说话视频Video中提取说话的视频情绪特征

分类器/>

及/>

对上述视频情绪特征/>

进行视频人物身份及视频语音分类，该过程表示为：

为实现步骤一中所述的视频身份特征以及视频语音特征的解耦，步骤一中的分类对抗分为三阶段：

第一阶段，剔除视频人物身份特征中包含的视频语音特征和视频情绪特征，得到单纯的视频人物身份特征，具体迭代实施如下：首先固定视频人物身份特征编码器

训练更新分类器/>

和分类器/>

用视频人物身份特征对视频分别进行视频说话语音及视频情绪的分类，以训练分类器/>

和分类器/>

的分类能力，损失函数如下：

其中，

是第i个样本的语音分类标签，/>

是第i个样本的情绪分类标签，λ_p为权重，取值0～1，N是训练数据集中说话单词的数量；

然后，固定分类器

和/>

迭代更新视频人物身份特征编码器

要求每一个视频的说话词语类别都是一样的，使得编码器/>

提取出来的人物身份特征不能对视频语音和视频情绪进行分类，进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征，从而达到提取纯净的视频人物身份特征的目的；损失函数如下：

第二阶段，剔除视频语音特征中包含的视频人物身份特征和情绪特征，得到单纯的视频语音特征，具体迭代实施如下：首先固定视频语音特征编码器

训练更新分类器/>

和/>

用视频说话语音特征对视频进行视频人物身份特征及视频情绪特征的分类，损失函数如下：

其中，

为第i个样本的语音分类标签，λ_w为权重，取值0～1，M是训练数据集中说话人的个数；

然后，固定分类器

和/>

迭代更新视频语音特征编码器

要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的，从而迫使编码器/>

提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类，进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征，从而达到获取纯净的视频语音特征的目的；

第三阶段，剔除视频人物情绪特征中包含的视频身份特征和视频语音特征，得到单纯的视频情绪特征，具体迭代实施如下：首先固定视频人物情绪特征编码器

训练更新分类器/>

和分类器/>

用视频情绪特征对视频分别进行视频说话语音及视频人物身份的分类，以训练分类器/>

和分类器/>

的分类能力，损失函数如下：

其中，λ_e为权重，取值0～1；

然后，固定分类器

和/>

迭代更新视频情绪特征编码器

要求每一个视频的说话词语类别都是一样的，使得编码器/>

提取出来的情绪特征不能对视频语音和视频人物身份进行分类，进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征，从而达到提取纯净的视频情绪特征的目的；损失函数如下：

较佳地，步骤二中的分类对抗采用长短记忆神经网络从音频中提取人物身份特征，要求该人物身份特征对于人物身份识别有效，但是对语音(说话内容)识别及情绪识别无效；而且采用长短记忆神经网络从音频中提取语音特征，并要求该语音特征对于语音识别有效，对于人物身份及情绪的识别无效；采用长短记忆神经网络从音频中提取情绪特征，并要求该情绪特征对于情绪识别有效，对于人物身份及语音的识别无效；从而对音频实现人物身份特征、语音特征及情绪特征的解耦。

进一步的，所述步骤二分类对抗的解耦表示学习方法，包括3个编码器以及6个分类器，对于输入音频，第一阶段：先固编码器，训练更新分类器对编码器输出的音频人物身份特征进行音频语音及音频情绪分类；然后固定该分类器，训练更新编码器，使其输出的音频人物身份特征无法对音频样本进行音频语音及音频情绪的分类，从而迫使编码器学习出不包含音频语音特征及音频情绪特征的干净音频人物身份特征；第二阶段：先固编码器，训练更新分类器对编码器输出的音频语音特征对音频样本进行人物身份和音频情绪分类；然后固定该分类器，训练更新编码器，使其输出的音频语音特征无法对音频样本进行人物身份及音频情绪的分类，从而迫使编码器学习出不包含音频人物身份特征和音频情绪特征的干净音频语音特征；第三阶段：先固编码器，训练更新分类器对编码器输出的音频情绪特征进行音频语音及音频人物身份分类；然后固定该分类器，训练更新编码器，使其输出的音频情绪特征无法对音频样本进行音频语音及音频人物身份的分类，从而迫使编码器学习出不包含音频语音特征及音频人物身份特征的干净音频情绪特征。

所述步骤二的具体实现方式如下，

所述的分类对抗的解耦表示学习方法包括3个编码器

和

以及6个分类器/>

和

编码器/>

从说话音频Audio中提取说话人物的音频人物身份特征

分类器/>

和/>

分别对上述音频人物身份特征/>

进行音频语音及音频情绪分类；该过程表示为：

音频语音特征编码器

从说话音频Audio中提取音频语音特征/>

分类器/>

和/>

对上述音频语音特征/>

进行音频人物身份及音频情绪的分类，该过程表示为：

音频语音情绪编码器

从说话音频Audio中提取音频情绪特征/>

分类器/>

和/>

对上述音频情绪特征/>

进行音频人物身份及音频语音的分类，该过程表示为：

为实现步骤二中所述的视频人物身份特征以及视频语音特征的解耦，步骤二中的分类对抗分为三个阶段：

第一阶段，剔除音频人物身份特征中包含的音频语音特征和音频情绪特征，得到单纯的音频人物身份特征，具体迭代实施如下：首先固定音频人物身份特征编码器

训练更新分类器/>

和/>

用音频人物身份特征对音频进行音频语音及音频情绪的分类，以训练分类器/>

和/>

根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力，损失函数如下：

其中，

是第i个样本的语音分类标签，/>

然后，固定分类器

和和/>

迭代更新音频人物身份特征编码器

要求每一个音频的说话词语类别都是一样的，使得编码器/>

提取出来的人物身份特征不能对音频语音及音频情绪进行分类，进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征，从而达到提取纯净的音频人物身份特征的目的；损失函数如下：

第二阶段，剔除音频语音特征中包含的音频人物身份特征和音频情绪特征，得到单纯的音频语音特征，具体迭代实施如下：首先固定音频语音特征编码器

训练更新分类器/>

和/>

用音频说话语音特征对音频进行音频人物身份特征及音频情绪特征的分类，以训练分类器/>

和/>

根据音频说话语音特征对音频进行音频人物身份及音频情绪进行分类能力，损失函数如下：

其中，

然后，固定分类器

和/>

迭代更新音频语音特征编码器

要求每一个视频的人物身份及音频情绪的分类结果都是一样的，从而迫使编码器/>

提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类，进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征，从而达到获取纯净的音频语音特征的目的；损失函数如下：

第三阶段，剔除音频情绪特征中包含的音频语音特征和音频人物身份特征，得到单纯的音频情绪特征，具体迭代实施如下：首先固定音频情绪特征编码器

训练更新分类器/>

和/>

用音频情绪特征对音频进行音频语音及音频人物身份分类的能力，损失函数如下：

其中，λ_e为权重，取值0～1；

然后，固定分类器

和/>

迭代更新音频人物身份特征编码器

要求每一个音频的情绪类别都是一样的，使得编码器/>

提取出来的情绪特征不能对音频语音及音频人物身份进行分类，进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征。从而达到提取纯净的音频情绪特征的目的；损失函数如下：

较佳地，步骤三根据说话视频中语音特征(面部特征变化)和对应音频中语音特征之间存在的一致性，将由音频语音特征生成视频语音特征这一问题建模为由视频语音特征生成音频语音特征(唇读问题)的反问题，构建对偶学习模型利用对偶一致性误差及生成误差共同对对偶生成过程进行约束，实现音频语音特征和视频语音特征这两个不同隐空间的相互映射，从而将音频语音特征映射到视频语音特征空间。

步骤三的具体实现方式如下，

假设A和V分别为音频语音特征和视频语音特征，其中音频语音特征记为

视频语音特征记为/>

则对偶对抗生成模型DualGAN的损失函数结构如下：

假设生成器G将

生成/>

生成结果记为/>

则其损失函数：

其中，

表示v采样于说话视频中的语音特征/>

D_v为视频语音真假判别器，/>

表示a采样于音频中的语音特征/>

G(a)表示由a生成/>

假设生成器F将

生成/>

则其损失函数：

其中，D_a为音频语音真假判别器，F(v)表示生成器将

生成/>

对偶一致性损失函数

最终DualGAN的损失函数如下：

L(G,F,D_A,D_V)＝L_GAN(G,D_v,A,V)+L_GAN(F,D_a,V,A)+λL_Dual(G,F)

其中，λ表示权重，取值0～0.5。

同理，利用对偶学习模型完成音频情绪特征

到视频情绪特征/>

的转换，转换结果记为/>

较佳地，步骤四将步骤三转换音频中的语音特征得到为视频中的语音特征和视频或者图片中的人物身份特征结合，采用时序对抗生成网络生成同时满足该语音特征、情绪特征及人物身份特征的说话人脸视频。

步骤四的具体实现方式如下，

将步骤3由音频语音特征

转换得到的视频语音特征/>

及视频情绪特征/>

和步骤2中得到的视频人物身份特征结合，视频人物身份特征记为

利用序列生成模型G_V生成说话人脸视频，对应的真实说话人脸视频groundtruth为GT_V，判别器为D_V，则重构误差损失为：

视频序列生成误差损失为：

最终总的损失函数为：

L_T＝L_rec+λ_TL_GAN

其中，λ_T为生成损失的权重，取值0～0.5。

采用分类对抗的方法将音频中的人物身份特征、语音特征及情绪特征解耦，并且用分类对抗的方法将视频中的人物身份特征、语音特征及情绪特征解耦，这些特征的解耦提高了本方法对生成说话视频的可操控性。采用对偶学习对音频中的语音特征和静音视频中的语音特征进行映射，对音频中的情绪特征和静音视频中的情绪特征进行映射，实现了音频和视频的跨模态特征转换，极大提高了从音频生成说话人脸视频的便利性，也提高了生成说话人脸视频的连贯与自然程度。由于对人物身份及语音等关键信息实施了解耦及跨模态的转换，故可以根据任意单张人脸图片及音频生成真实自然的说话视频，无需大量特定人脸视频，提高了易用性。

附图说明

图1为本发明实施模型的训练流程图；

图2为本发明实施模型的测试及使用流程图；

图3为本发明实施对偶学习模型结构图。

具体实施方式

下面结合附图和实施例对本发明做进一步的说明。

本发明提出了一种基于解耦表示学习的说话人脸视频生成方法，通过对音频及视频中关键特征的解耦，获取干净的生成说话人脸视频所需的音频语音特征、视频人物身份特征及视频情绪特征，不仅避免了其他特征的干扰，提高了生成说话人脸视频的质量，而且能够减少对说话人物面部图像的需求量，即使单张图片也能生成说话人脸视频，极大拓宽了说话人脸视频生成方法的应用场景。首先使用分类对抗方法对输入音频中的音频人物身份特征、音频语音特征及音频情绪特征进行解耦，得到干净的音频人物身份特征、音频语音特征及音频情绪特征，避免了音频中的身份特征对生成说话视频的干扰；然后使用分类对抗方法对输入视频中的视频人物身份特征、视频语音特征及视频情绪特征进行解耦，得到干净的视频人物身份特征、视频语音特征及视频情绪特征，避免了视频中的语音特征及情绪特征对生成说话视频的干扰；接下来使用对偶学习方法将音频语音特征隐空间映射到视频语音特征隐空间，并将音频情绪特征隐空间映射到视频情绪特征隐空间，最后联合视频人物身份特征、映射到该空间的音频语音特征及音频情绪特征，共同生成说话人脸视频。利用该方法，即使输入单证人脸图片和一段说话音频，也能生成符合该图片人物身份特征的且与该音频语音内容及情绪对应的清晰自然的说话人脸视频。

如图1所示，一种基于解耦表示学习的说话人脸视频生成方法，该方法主要包括音频特征解耦、视频特征解耦、音频语音特征及情绪特征到视频语音特征及情绪特征的转换，由音频语音特征及视频人物特征生成说话人脸视频等四个步骤。

步骤1：通过分类对抗的解耦表示学习方法从说话视频中提取说话人物的视频人物身份特征、视频语音特征以及视频情绪特征，实现说话人脸视频关键特征的解耦。

步骤1中所述的说话视频是指包含一个人的说话脸部画面的静音视频，说话内容为一个词语，每个说话视频Video均包含一个视频人物身份类标签、一个视频说话词语类标签和一个情绪类标签；

所述的分类对抗的解耦表示学习方法包括3个编码器

和

以及6个分类器/>

及

编码器/>

从说话视频Video中提取视频中说话人物的视频人物身份特征

分类器/>

和/>

对上述视频人物身份特征/>

进行视频语音及视频情绪的分类。该过程可以表示为：

视频语音特征编码器

从说话视频Video中提取说话的视频语音特征

分类器/>

和/>

对上述视频语音特征/>

进行视频人物身份及视频情绪的分类，该过程可以表示为：

视频情绪特征编码器

从说话视频Video中提取说话的视频情绪特征

分类器/>

及/>

对上述视频情绪特征/>

进行视频人物身份及视频语音分类，该过程可以表示为：

为实现步骤1中所述的视频身份特征以及视频语音特征的解耦，步骤1中的分类对抗分为三阶段：

训练更新分类器/>

和分类器/>

和分类器/>

的分类能力，损失函数如下：

其中，

是第i个样本的语音分类标签，/>

是第i个样本的情绪分类标签，λ_p为权重，取值0～1，N是训练数据集中说话单词的数量。

然后，固定分类器

和/>

迭代更新视频人物身份特征编码器

要求每一个视频的说话词语类别都是一样的，使得编码器/>

提取出来的人物身份特征不能对视频语音和视频情绪进行分类，进而剔除视频人物身份特征中所包含的视频语音特征和视频情绪特征。从而达到提取纯净的视频人物身份特征的目的。损失函数如下：

训练更新分类器/>

和/>

其中，

为第i个样本的语音分类标签，λ_w为权重，取值0～1，M是训练数据集中说话人的个数。

然后，固定分类器

和/>

迭代更新视频语音特征编码器

提取出来的视频语音特征不能对视频人物身份和视频情绪进行分类，进而剔除视频语音特征中包含的视频人物身份特征和视频情绪特征。从而达到获取纯净的视频语音特征的目的。

训练更新分类器/>

和分类器/>

和分类器/>

的分类能力，损失函数如下：

其中，λ_e为权重，取值0～1；

然后，固定分类器

和/>

迭代更新视频情绪特征编码器

要求每一个视频的说话词语类别都是一样的，使得编码器/>

提取出来的情绪特征不能对视频语音和视频人物身份进行分类，进而剔除视频情绪特征中所包含的视频语音特征和视频人物身份特征。从而达到提取纯净的视频情绪特征的目的。损失函数如下：/>

步骤2：通过分类对抗的解耦表示学习方法从说话音频中提取说话人的音频人物身份特征、音频语音特征以及音频情绪特征，实现音频关键特征的解耦。

步骤2中所述的说话音频是指包含一个人的说话音频，说话内容为一个词语，每个说话音频Audio均包含一个音频人物身份类标签、一个音频说话词语类标签和一个音频情绪类标签；

所述的分类对抗的解耦表示学习方法包括3个编码器

和

以及6个分类器/>

和

编码器/>

从说话音频Audio中提取说话人物的音频人物身份特征

分类器/>

和/>

分别对对上述音频人物身份特征/>

进行音频语音及音频情绪分类。该过程可以表示为：

音频语音特征编码器

从说话音频Audio中提取音频语音特征/>

分类器/>

和/>

对上述音频语音特征/>

进行音频人物身份及音频情绪的分类，该过程可以表示为：

音频语音情绪编码器

从说话音频Audio中提取音频情绪特征/>

分类器/>

和/>

对上述音频情绪特征/>

进行音频人物身份及音频语音的分类，该过程可以表示为：

为实现步骤2中所述的视频人物身份特征以及视频语音特征的解耦，步骤2中的分类对抗分为三个阶段：

训练更新分类器/>

和/>

和/>

根据音频人物身份特征对音频进行音频说话语音及音频情绪的分类能力，损失函数如下：/>

然后，固定分类器

和和/>

迭代更新音频人物身份特征编码器

要求每一个音频的说话词语类别都是一样的，使得编码器/>

提取出来的人物身份特征不能对音频语音及音频情绪进行分类，进而剔除音频人物身份特征中所包含的音频语音特征及音频情绪特征。从而达到提取纯净的音频人物身份特征的目的。损失函数如下：

训练更新分类器/>

和/>

和/>

然后，固定分类器

和/>

迭代更新音频语音特征编码器

提取出来的音频语音特征不能对音频人物身份及音频情绪进行分类，进而剔除音频语音特征中包含的音频人物身份特征及音频情绪特征。从而达到获取纯净的音频语音特征的目的。

训练更新分类器/>

和/>

其中，λ_e为权重，取值0～1；

然后，固定分类器

和/>

迭代更新音频人物身份特征编码器

要求每一个音频的情绪类别都是一样的，使得编码器/>

提取出来的情绪特征不能对音频语音及音频人物身份进行分类，进而剔除音频情绪特征中所包含的音频语音特征及音频人物身份特征。从而达到提取纯净的音频情绪特征的目的。损失函数如下：

步骤3：由步骤2可以将说话音频解耦为音频人物身份特征

和音频语音特征/>

并且可以将说话视频解耦为视频人物身份特征/>

和视频语音特征

接下来需要根据视频人物身份特征/>

和音频语音特征/>

重构说话人脸视频，但是/>

和/>

属于不同的隐空间，难以直接用于视频生成。对此，提出用对偶对抗生成模型DualGAN学习这两类特征到彼此隐空间的映射，从而将/>

转换到/>

所在隐空间。假设A和V分别为音频语音特征/>

和视频语音特征/>

则对偶对抗生成模型DualGAN的损失函数结构如下：

假设生成器G将

生成/>

生成结果标记为/>

则其损失函数：

其中，

表示v采样于说话视频中的语音特征/>

D_v为视频语音真假判别器，/>

表示a采样于音频中的语音特征/>

G(a)表示由a生成/>

假设生成器F将

生成/>

则其损失函数：

其中，D_a为音频语音真假判别器，F(v)表示生成器将

生成/>

对偶一致性损失函数

最终DualGAN的损失函数如下：

L(G,F,D_A,D_V)＝L_GAN(G,D_v,A,V)+L_GAN(F,D_a,V,A)+λL_Dual(G,F)

其中，λ表示权重，取值0～0.5。

同理，利用对偶学习模型可以完成音频情绪特征

到视频情绪特征

的转换，转换结果记为/>

步骤4：将步骤3由音频语音特征

转换得到的视频语音特征/>

及视频情绪特征/>

和步骤2中得到的视频人物身份特征/>

结合，利用序列生成模型G_V生成说话人脸视频，对应的真实说话人脸视频groundtruth为GT_V，判别器为D_V。则重构误差损失为：

视频序列生成误差损失为：

最终总的损失函数为：

L_T＝L_rec+λ_TL_GAN

λ_T为生成损失的权重，取值0～0.5。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于解耦表示学习的说话人脸视频生成方法，其特征在于，该方法包含如下步骤：

步骤一，通过分类对抗的解耦表示学习方法从说话视频Video中提取说话人物的视频人物身份特征、视频语音特征以及视频情绪特征，实现说话人脸视频关键特征的解耦；

步骤二，通过分类对抗的解耦表示学习方法从说话音频Audio中提取说话人的音频人物身份特征、音频语音特征以及音频情绪特征，实现音频关键特征的解耦；

步骤三，使用对偶学习模型实现音频语音特征和视频语音特征这两个不同隐空间的相互映射，并使用对偶学习模型实现音频情绪特征和视频情绪特征这两个不同隐空间的相互映射；

步骤三的具体实现方式如下，

视频语音特征记为/>

则对偶对抗生成模型DualGAN的损失函数结构如下：

假设生成器G将

生成/>

生成结果记为/>

则其损失函数：

其中，

表示v采样于说话视频中的语音特征/>

D_v为视频语音真假判别器，/>

表示a采样于音频中的语音特征/>

G(a)表示由a生成/>

假设生成器F将

生成/>

则其损失函数：

其中，D_a为音频语音真假判别器，F(v)表示生成器将

生成/>

对偶一致性损失函数

最终DualGAN的损失函数如下：

L(G,F,D_A,D_V)＝L_GAN(G,D_v,A,V)+L_GAN(F,D_a,V,A)+λL_Dual(G,F)

其中，λ表示权重，取值0～0.5；

同理，利用对偶学习模型完成音频情绪特征

到视频情绪特征/>

的转换，转换结果记为/>

步骤四，最后联合视频人物身份特征、映射到该空间的音频语音特征及音频情绪特征，共同生成说话人脸视频。

2.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法，其特征在于：

所述步骤二分类对抗的解耦表示学习方法，包括3个编码器以及6个分类器，对于输入视频，第一阶段：先固编码器，训练更新分类器对编码器输出的视频人物身份特征进行视频语音及视频情绪分类；然后固定该分类器，训练更新编码器，使其输出的视频人物身份特征无法对视频样本进行视频语音及视频情绪的分类，从而迫使编码器学习出不包含视频语音特征及视频情绪特征的干净视频人物身份特征；第二阶段：先固编码器，训练更新分类器对编码器输出的视频语音特征对视频样本进行人物身份及视频情绪的分类；然后固定该分类器，训练更新编码器，使其输出的视频语音特征无法对视频样本进行人物身份及视频情绪的分类，从而迫使编码器学习出不包含视频人物身份特征及视频情绪特征的干净视频语音特征；第三阶段：先固编码器，训练更新分类器对编码器输出的视频情绪特征进行视频语音及视频人物身份分类；然后固定该分类器，训练更新编码器，使其输出的视频情绪特征无法对视频样本进行视频语音及视频人物身份的分类，从而迫使编码器学习出不包含视频语音特征及视频人物身份特征的干净视频情绪特征。

3.根据权利要求2所述的一种基于解耦表示学习的说话人脸视频生成方法，其特征在于：所述步骤一的具体实现方式如下，

所述的分类对抗的解耦表示学习方法包括3个编码器

和/>

以及6个分类器/>

及/>

编码器/>

从说话视频Video中提取视频中说话人物的视频人物身份特征/>

分类器/>

和/>

对上述视频人物身份特征/>

进行视频语音及视频情绪的分类，具体过程表示为：

视频语音特征编码器

从说话视频Video中提取说话的视频语音特征/>

分类器/>

和/>

对上述视频语音特征/>

进行视频人物身份及视频情绪的分类，具体过程表示为：

视频情绪特征编码器

从说话视频Video中提取说话的视频情绪特征/>

分类器/>

及/>

对上述视频情绪特征/>

进行视频人物身份及视频语音分类，具体过程表示为：

训练更新分类器/>

和分类器/>

和分类器/>

的分类能力，损失函数如下：

其中，

是第i个样本的语音分类标签，/>

然后，固定分类器

和/>

迭代更新视频人物身份特征编码器

要求每一个视频的说话词语类别都是一样的，使得编码器/>

训练更新分类器

和/>

其中，

然后，固定分类器

和/>

迭代更新视频语音特征编码器/>

要求每一个视频的人物身份分类结果以及情绪分类结果都是一样的，从而迫使编码器

训练更新分类器/>

和分类器/>

和分类器/>

的分类能力，损失函数如下：

其中，λ_e为权重，取值0～1；

然后，固定分类器

和/>

迭代更新视频情绪特征编码器/>

要求每一个视频的说话词语类别都是一样的，使得编码器/>

4.根据权利要求1所述的一种基于解耦表示学习的说话人脸视频生成方法，其特征在于：

所述步骤一分类对抗的解耦表示学习方法，包括3个编码器以及6个分类器，对于输入音频，第一阶段：先固编码器，训练更新分类器对编码器输出的音频人物身份特征进行音频语音及音频情绪分类；然后固定该分类器，训练更新编码器，使其输出的音频人物身份特征无法对音频样本进行音频语音及音频情绪的分类，从而迫使编码器学习出不包含音频语音特征及音频情绪特征的干净音频人物身份特征；第二阶段：先固编码器，训练更新分类器对编码器输出的音频语音特征对音频样本进行人物身份和音频情绪分类；然后固定该分类器，训练更新编码器，使其输出的音频语音特征无法对音频样本进行人物身份及音频情绪的分类，从而迫使编码器学习出不包含音频人物身份特征和音频情绪特征的干净音频语音特征；第三阶段：先固编码器，训练更新分类器对编码器输出的音频情绪特征进行音频语音及音频人物身份分类；然后固定该分类器，训练更新编码器，使其输出的音频情绪特征无法对音频样本进行音频语音及音频人物身份的分类，从而迫使编码器学习出不包含音频语音特征及音频人物身份特征的干净音频情绪特征。

5.根据权利要求4所述的一种基于解耦表示学习的说话人脸视频生成方法，其特征在于：所述步骤二的具体实现方式如下，

所述的分类对抗的解耦表示学习方法包括3个编码器