CN108389239A

CN108389239A - 一种基于条件多模式网络的微笑脸部视频生成方法

Info

Publication number: CN108389239A
Application number: CN201810155144.2A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-02-23
Filing date: 2018-02-23
Publication date: 2018-08-10

Abstract

本发明中提出的一种基于条件多模式网络的微笑脸部视频生成方法，其主要内容包括：条件递归标记生成器、多模式递归标记生成器、标记序列到视频的转换、训练，其过程为，条件递归标记生成器先从输入人脸计算标记图像，将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列，其次，多模式递归标记生成器接收这个序列，并产生具有明显不同特征的同一类的K个序列，最后，视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像，产生输出的面部表情视频。本发明提出的条件多模式网络减少了网络参数的数量和训练所需的数据量，大大降低了计算成本，生成的微笑表情视频逼真度较高。

Description

一种基于条件多模式网络的微笑脸部视频生成方法

技术领域

本发明涉及表情合成领域，尤其是涉及了一种基于条件多模式网络的微笑脸部视频生成方法。

背景技术

面部表情是人际交流中最重要的非言语信号之一。几十年来，计算机视觉的研究人员致力于研究如何自动识别这些信号以及如何生成不同的面部表情，例如，脸部自发的微笑。面部表情生成技术(包括微笑表情的生成等)在电影电视剧、动画、智能人机互动等都具有广泛的应用前景。如在影视、游戏或广告中的角色模拟，通过应用面部表情生成技术，可以在无表情面部的基础上生成如微笑、愤怒、伤心等多种表情，从而在降低制作成本的同时提升制作的整体效果。在智能人机交互或手机应用等方面，相关应用可以摄取用户在无表情状态下的图片，利用面部表情生成技术来合成各种表情，满足用户的不同需求。然而，目前很少有关于视频生成的研究或在视频生成预测动作的方法。在这种情况下，由于当前的视频生成模型只关注创建单个序列，因此如何在给定单个输入图像的情况下生成不同的视频序列仍然存在巨大的挑战。

本发明提出了一种基于条件多模式网络的微笑脸部视频生成方法，条件递归标记生成器先从输入人脸计算标记图像，将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列，其次，多模式递归标记生成器接收这个序列，并产生具有明显不同特征的同一类的K个序列，最后，视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像，产生输出的面部表情视频。本发明提出的条件多模式网络减少了网络参数的数量和训练所需的数据量，大大降低了计算成本，生成的微笑表情视频逼真度较高。

发明内容

针对生成不同的视频序列存在困难的问题，本发明的目的在于提供一种基于条件多模式网络的微笑脸部视频生成方法，条件递归标记生成器先从输入人脸计算标记图像，将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列，其次，多模式递归标记生成器接收这个序列，并产生具有明显不同特征的同一类的K个序列，最后，视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像，产生输出的面部表情视频。

为解决上述问题，本发明提供一种基于条件多模式网络的微笑脸部视频生成方法，其主要内容包括：

(一)条件递归标记生成器；

(二)多模式递归标记生成器；

(三)标记序列到视频的转换；

(四)训练。

其中，所述的条件多模式网络，整个体系结构由三个模块组成，它们能够生成对应于人和给定的面部表情类的多个面部表情序列；首先，条件递归标记生成器从输入人脸计算标记图像，将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列；其次，多模式递归标记生成器接收这个序列并产生具有明显不同特征的同一类的K个序列；最后，视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像以产生输出的面部表情视频。

进一步地，所述的输入和输出，整个架构被命名为条件多模式递归网络；输入由无表情面部图像和所需表情标签组成；输出是一组K个面部视频，每个视频包含与指定类相对应的不同面部表情序列。

其中，所述的条件递归标记生成器，接收面部图像和调整面部表情标签作为输入；从人脸图像中自动提取标记图像，并使用标准变分自动编码器(VAE)将其编码为紧凑嵌入，记为h₀；使用条件长短期记忆(LSTM)递归神经网络来生成T个面部界标嵌入序列，由h＝(h₁,…,h_T)表示；条件标签在条件LSTM的所有时间步骤被编码和输入；嵌入序列h被进一步解码成标记图像序列x＝(x₁,…,x_T)，其通过计算逐像素二进制交叉熵(BCE)损失，鼓励其接近训练界标图像序列y；更详细地说，给定N个长度为T的序列的训练集，{yⁿ＝条件递归标记产生器的损失为：

其中，⊙和log分别表示元素结果和自然对数操作

其中，所述的多模式递归标记生成器，设计多模式递归标记生成器，由K个LSTM组成，其输入是由条件LSTM产生的嵌入序列：h₁,…,h_T，并且输出是一组K个生成的序列简而言之，这是一个一对多的序列映射，必须以无监督的方式学习。

进一步地，所述的序列，在形式上，将(h_1*,…,h_T*)定义为模式平均生成的标记编码序列，作为时间平均的标记嵌入序列集；首先，在生成器平均值(h_1*,…,h_T*)和由条件LSTM(h₁,…,h_T)产生的序列之间施加均方误差损失：

使用交叉熵损失来区分从K个生成器获得的序列：

其中，φ_k表示鉴别器的第k个输出(一个全连接层，后面是一个Softmax层)；因此，整体架构是生成对抗网络(GAN)的，即层次型LSTM具有区分不同生成器的鉴别器；在GAN中，生成器和鉴别器相互竞争。

其中，所述的标记序列到视频的转换，该体系结构的最后一个模块负责生成面部视频，即将由两个第一模块生成的面部界标嵌入转换为图像序列；为此，在面部标记图像解码器之后采用类似U-Net的结构；令表示与第n个训练序列相关的输入无表情人脸图像；与已经用于训练先前模块的面部标记图像一起，该数据集包含由表示的人脸图像(从其中注释面部标记)；

为了训练转换模块，采用重建损失和对抗损失的组合，以生成局部接近标定好的真实数据和全局真实的图像；表示以面部标记图像和无表情面部图像生成的面部图像，其参数为

进一步地，所述的重建损失和对抗损失，重建损失为：

对抗损失根据实数生成图像对：

当生成器固定时，鉴别器被训练为最大化公式(5)；当鉴别器固定时，生成器被训练为共同最小化关于的对抗和重建损失：

使用特征映射的像素级的对抗损失；即最粗糙的特征图的每个像素有一个标签，而不是每个图像有一个标签；直观地说，这种损失应该能够单独聚焦在图像的许多部分，而不是将图像看作一个整体。

其中，所述的训练，条件多模式网络体系结构的训练分三个阶段完成；首先，训练标记嵌入VAE，以重建一组标记图像在添加条件LSTM之前，VAE接受了50个时期的训练；第二阶段是对VAE进行微调，并对20个时期的标记图像序列的数据集训练第一层LSTM；第三阶段是添加多模式递归标记生成器；因此，VAE和LSTM可以同时精确调整K个不同的LSTM从头开始学习。

进一步地，所述的添加多模式递归标记生成器，这一阶段包括先前定义的重建，推-拉损失函数，并持续10个时期；最后，视频转化模块的标志性序列与其余20个时期的训练分开。

附图说明

图1是本发明一种基于条件多模式网络的微笑脸部视频生成方法的系统流程图。

图2是本发明一种基于条件多模式网络的微笑脸部视频生成方法的条件递归标记生成器和多模式递归标记生成器。

图3是本发明一种基于条件多模式网络的微笑脸部视频生成方法的标记序列到视频的转换。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于条件多模式网络的微笑脸部视频生成方法的系统流程图。主要包括条件递归标记生成器，多模式递归标记生成器，标记序列到视频的转换，训练。

条件多模式网络整个体系结构由三个模块组成，它们能够生成对应于人和给定的面部表情类的多个面部表情序列；首先，条件递归标记生成器从输入人脸计算标记图像，将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列；其次，多模式递归标记生成器接收这个序列并产生具有明显不同特征的同一类的K个序列；最后，视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像以产生输出的面部表情视频。

整个架构被命名为条件多模式递归网络；输入由无表情面部图像和所需表情标签组成；输出是一组K个面部视频，每个视频包含与指定类相对应的不同面部表情序列。

其中，条件多模式网络体系结构的训练分三个阶段完成；首先，训练标记嵌入VAE，以重建一组标记图像在添加条件LSTM之前，VAE接受了50个时期的训练；第二阶段是对VAE进行微调，并对20个时期的标记图像序列的数据集训练第一层LSTM；第三阶段是添加多模式递归标记生成器；因此，VAE和LSTM可以同时精确调整K个不同的LSTM从头开始学习。这一阶段包括先前定义的重建，推-拉损失函数，并持续10个时期；最后，视频转化模块的标志性序列与其余20个时期的训练分开。

其中，条件递归标记生成器接收面部图像和调整面部表情标签作为输入；从人脸图像中自动提取标记图像，并使用标准变分自动编码器(VAE)将其编码为紧凑嵌入，记为h₀；使用条件长短期记忆(LSTM)递归神经网络来生成T个面部界标嵌入序列，由h＝(h₁,…,h_T)表示；条件标签在条件LSTM的所有时间步骤被编码和输入；嵌入序列h被进一步解码成标记图像序列x＝(x₁,…,x_T)，其通过计算逐像素二进制交叉熵(BCE)损失，鼓励其接近训练界标图像序列y；更详细地说，给定N个长度为T的序列的训练集，条件递归标记产生器的损失为：

其中，⊙和log分别表示元素结果和自然对数操作。

设计多模式递归标记生成器，由K个LSTM组成，其输入是由条件LSTM产生的嵌入序列：h₁,…,h_T，并且输出是一组K个生成的序列简而言之，这是一个一对多的序列映射，必须以无监督的方式学习。

在形式上，将(h_1*,…,h_T*)定义为模式平均生成的标记编码序列，作为时间平均的标记嵌入序列集；首先，在生成器平均值(h_1*,…,h_T*)和由条件LSTM(h₁,…,h_T)产生的序列之间施加均方误差损失：

使用交叉熵损失来区分从K个生成器获得的序列：

图3是本发明一种基于条件多模式网络的微笑脸部视频生成方法的标记序列到视频的转换。该体系结构的最后一个模块负责生成面部视频，即将由两个第一模块生成的面部界标嵌入转换为图像序列；为此，在面部标记图像解码器之后采用类似U-Net的结构；令表示与第n个训练序列相关的输入无表情人脸图像；与已经用于训练先前模块的面部标记图像一起，该数据集包含由表示的人脸图像(从其中注释面部标记)；

重建损失为：

对抗损失根据实数生成图像对：

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于条件多模式网络的微笑脸部视频生成方法，其特征在于，主要包括条件递归标记生成器(一)；多模式递归标记生成器(二)；标记序列到视频的转换(三)；训练(四)。

2.基于权利要求书1所述的条件多模式网络，其特征在于，整个体系结构由三个模块组成，它们能够生成对应于人和给定的面部表情类的多个面部表情序列；首先，条件递归标记生成器从输入人脸计算标记图像，将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列；其次，多模式递归标记生成器接收这个序列并产生具有明显不同特征的同一类的K个序列；最后，视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像以产生输出的面部表情视频。

3.基于权利要求书2所述的输入和输出，其特征在于，整个架构被命名为条件多模式递归网络；输入由无表情面部图像和所需表情标签组成；输出是一组K个面部视频，每个视频包含与指定类相对应的不同面部表情序列。

4.基于权利要求书1所述的条件递归标记生成器(一)，其特征在于，条件递归标记生成器接收面部图像和调整面部表情标签作为输入；从人脸图像中自动提取标记图像，并使用标准变分自动编码器(VAE)将其编码为紧凑嵌入，记为h₀；使用条件长短期记忆(LSTM)递归神经网络来生成T个面部界标嵌入序列，由h＝(h₁,…,h_T)表示；条件标签在条件LSTM的所有时间步骤被编码和输入；嵌入序列h被进一步解码成标记图像序列x＝(x₁,…,x_T)，其通过计算逐像素二进制交叉熵(BCE)损失，鼓励其接近训练界标图像序列y；更详细地说，给定N个长度为T的序列的训练集，条件递归标记产生器的损失为：

其中，⊙和log分别表示元素结果和自然对数操作。

5.基于权利要求书1所述的多模式递归标记生成器(二)，其特征在于，设计多模式递归标记生成器，由K个LSTM组成，其输入是由条件LSTM产生的嵌入序列：h₁,…,h_T，并且输出是一组K个生成的序列简而言之，这是一个一对多的序列映射，必须以无监督的方式学习。

6.基于权利要求书5所述的序列，其特征在于，在形式上，将(h_1*,…,h_T*)定义为模式平均生成的标记编码序列，作为时间平均的标记嵌入序列集；首先，在生成器平均值(h_1*,…,h_T*)和由条件LSTM(h₁,…,h_T)产生的序列之间施加均方误差损失：

使用交叉熵损失来区分从K个生成器获得的序列：

7.基于权利要求书1所述的标记序列到视频的转换(三)，其特征在于，该体系结构的最后一个模块负责生成面部视频，即将由两个第一模块生成的面部界标嵌入转换为图像序列；为此，在面部标记图像解码器之后采用类似U-Net的结构；令表示与第n个训练序列相关的输入无表情人脸图像；与已经用于训练先前模块的面部标记图像一起，该数据集包含由表示的人脸图像(从其中注释面部标记)；

8.基于权利要求书7所述的重建损失和对抗损失，其特征在于，重建损失为：

对抗损失根据实数生成图像对：

9.基于权利要求书1所述的训练(四)，其特征在于，条件多模式网络体系结构的训练分三个阶段完成；首先，训练标记嵌入VAE，以重建一组标记图像在添加条件LSTM之前，VAE接受了50个时期的训练；第二阶段是对VAE进行微调，并对20个时期的标记图像序列的数据集训练第一层LSTM；第三阶段是添加多模式递归标记生成器；因此，VAE和LSTM可以同时精确调整K个不同的LSTM从头开始学习。

10.基于权利要求书9所述的添加多模式递归标记生成器，其特征在于，这一阶段包括先前定义的重建，推-拉损失函数，并持续10个时期；最后，视频转化模块的标志性序列与其余20个时期的训练分开。