CN112785671B

CN112785671B - 虚假人脸动画合成方法

Info

Publication number: CN112785671B
Application number: CN202110021844.4A
Authority: CN
Inventors: 张勇东; 于灵云; 谢洪涛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2024-05-17
Anticipated expiration: 2041-01-07
Also published as: CN112785671A

Abstract

本公开提供了一种虚假人脸动画合成方法，包括：从第一目标视频中提取语音信息和文本信息，并分别提取语音信息中的多帧音频特征和文本信息中的多帧韵律特征；将多帧音频特征和多帧韵律特征输入训练完成的编码器‑解码器网络，输出每一帧音频特征和韵律特征对应的多个关键点所组成的多组关键点序列；根据第二目标视频和多组关键点序列，生成多帧合成人脸草图；以及使用视频生成网络基于多帧合成人脸草图合成虚假人脸动画。

Description

虚假人脸动画合成方法

技术领域

本公开涉及人工智能领域/多模态领域，更具体地，涉及一种虚假人脸动画合成方法。

背景技术

虚假人脸动画生成，旨在给定任意一段语音或文本，生成高自然度的、唇音同步的人脸动画。唇音同步的虚假人脸动画在电影制作和数字电脑游戏等行业具有广泛的应用前景。此外，人脸动画也可以提供有关发音器官运动位置的视觉信息，从而可以应用于语言教学或是针对听觉障碍的患者进行辅助治疗。

现有技术中，大部分虚假人脸动画生成的研究基于单模态输入，即将音频信号映射到逼真的面部运动。然而，现有的方法只考虑了唇部运动而忽略了下巴的运动，导致面部运动的变形。此外，现有的方法通常使用单张图像生成方法来解决虚假人脸的动画生成，忽略了帧间的相关性。

在实现本公开的过程中发现，现有技术忽略了发音器官的协同运动和视频帧间的时间相关性，合成得到的虚假人脸动画唇音不同步、真实感不足。

发明内容

有鉴于此，本公开提出了一种虚假人脸动画合成方法。

本公开的实施例的虚假人脸动画合成方法包括：从第一目标视频中提取语音信息和文本信息，并分别提取上述语音信息中的多帧音频特征和上述文本信息中的多帧韵律特征；将上述多帧音频特征和上述多帧韵律特征输入训练完成的编码器-解码器网络，输出每一帧上述音频特征和上述韵律特征对应的多个关键点所组成的多组关键点序列；根据第二目标视频和上述多组关键点序列生成多帧合成人脸草图；以及使用视频生成网络基于上述多帧合成人脸草图合成虚假人脸动画。

根据本公开的实施例，上述训练完成的编码器-解码器网络通过如下训练方法得到，训练方法包括：从样本视频中提取样本语音信息和样本文本信息，并分别提取上述样本语音信息中的多帧样本音频特征和上述样本文本信息中的多帧样本韵律特征；将上述样本视频按帧解码成多帧样本图像，提取经过归一化处理后的上述多帧样本图像中的唇部区域及下巴区域的关键点，得到多组关键点序列；以及以上述多帧样本音频特征和上述多帧样本韵律特征作为输入，以上述多组关键点序列作为标签，训练初始编码器-解码器网络结构，得到上述训练完成的编码器-解码器网络。

根据本公开的实施例，上述初始编码器-解码器网络结构包括：语音编码器，用于获取并编码上述多帧音频特征或上述多帧样本音频特征；文本编码器，用于获取并编码上述多帧韵律特征或上述多帧样本韵律特征；以及解码器，用于解码上述语音编码器和上述文本编码器获取的特征，输出上述多组关键点序列或上述多组样本关键点序列。

根据本公开的实施例，上述根据第二目标视频和上述多组关键点序列，生成多帧合成人脸草图包括：将上述第二目标视频按帧解码并提取得到多帧人脸草图；基于上述多帧人脸草图中的人脸角度和形状信息，使用嘴部反归一化方法逐个更新上述多组关键点序列中各个关键点的位置，得到多组与上述多帧人脸草图中的人脸角度和形状信息一致的预测关键点序列；以及依次将上述多组预测关键点序列和上述多帧人脸草图进行合成，得到上述多帧合成人脸草图。

根据本公开的实施例，上述使用嘴部反归一化方法逐个更新上述多组关键点序列中各个关键点的位置使用下式实现：

其中，表示一组上述关键点序列中的一个关键点；/>表示与/>对应的一组所述预测关键点序列中的关键点；θ表示上述人脸草图中人脸图像的旋转角度；d₁表示该组上述关键点序列中表示下巴的关键点之间的最大宽度；d₂表示上述人脸草图中下巴最大宽度；c′(x，y₎表示该组上述关键点序列中表示嘴部的关键点的中心点；c″(x，y)表示上述人脸草图中嘴部的中心点。

根据本公开的实施例，上述视频生成网络通过如下训练方法得到，训练方法包括：将样本视频解码成多帧样本图像，从上述样本视频中获取多帧样本合成人脸草图；以及以上述多帧样本合成人脸草图作为输入，以上述多帧样本图像作为标签，训练初始网络模型，得到上述视频生成网络。

根据本公开的实施例，上述训练初始网络模型，得到上述视频生成网络包括：采用光流估计对上述样本视频帧之间的时间动态性能进行建模；以及采用嘴部掩码(mouthmask)函数作为上述视频生成网络的损失函数。

根据本公开的实施例，上述mouth mask函数表示如下：

其中，T表示上述样本图像的帧数；x_t表示第t帧上述样本图像；表示将第t帧上述样本合成人脸草图输入到上述初始网络模型中生成的输出样本图像；m_t表示第t帧上述样本图像对应的嘴部掩码。

根据本公开的实施例，上述使用视频生成网络基于上述多帧合成人脸草图合成虚假人脸动画使用下式实现：

其中，表示已生成的L帧图像；/>表示上述合成人脸草图序列以及嘴部掩码，s_t表示第t帧上述合成人脸草图，m_t表示第t帧上述合成人脸草图对应的嘴部掩码；/>表示第 t帧上述合成人脸草图对应的遮挡掩码；/>表示生成的第t帧伪参考图 (Hallucinated image)，用于合成被遮挡的背景区域；/>表示生成的第t帧嘴部区域的图像；/>表示/>和/>间估计的光流，通过/>可以从/>估计得到/>

根据本公开实施例的虚假人脸动画合成方法，提出了一种关键点预测方法和一种视频生成方法，通过语音和文本的多模态输入，实现了唇音同步、时间连续的虚假人脸动画的合成，合成得到的动画具有较高的真实感。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的虚假人脸动画合成方法100 的流程图；

图2示意性示出了根据本公开另一实施例的虚假人脸动画合成方法 200的示意图；

图3示意性示出了根据本公开另一实施例的编码器-解码器网络的训练方法300的流程图；

图4示意性示出了根据本公开另一实施例的视频生成网络的训练方法400的流程图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释 (例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有 B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C 等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C 的系统等)。

本公开提供了一种虚假人脸动画合成方法，包括：从第一目标视频中提取语音信息和文本信息，并分别提取语音信息中的多帧音频特征和文本信息中的多帧韵律特征；将多帧音频特征和多帧韵律特征输入训练完成的编码器-解码器网络，输出每一帧音频特征和韵律特征对应的多个关键点所组成的多组关键点序列；根据第二目标视频和多组关键点序列生成多帧合成人脸草图；以及使用视频生成网络基于多帧合成人脸草图合成虚假人脸动画。

图1示意性示出了根据本公开实施例的虚假人脸动画合成方法100 的流程图。

如图1所示，该方法100包括操作S110～S140。

在操作S110，从第一目标视频中提取语音信息和文本信息，并分别提取语音信息中的多帧音频特征和文本信息中的多帧韵律特征。

根据本公开的实施例，第一目标视频是所要合成的虚假人脸动画中相关音频信息的来源，第一目标视频的获取方式包括但不限于互联网下载、数据库提取、用户拍摄等。语音信息和文本信息构成该方法100的多模态输入，从语音信息中提取音频特征和从文本信息中提取韵律特征可以通过已有的特征提取工具实现，例如STRAIGHT、Merlin等，这些方法属于现有技术，因此不再赘述。音频特征和韵律特征的采样使用了降采样的方法，其帧数与第一目标视频提取的图像的帧数相同，并且每一帧音频特征和韵律特征与第一目标视频中提取的图像中的某一帧对应。

在操作S120，将多帧音频特征和多帧韵律特征输入训练完成的编码器-解码器网络，输出每一帧音频特征和韵律特征对应的多个关键点所组成的多组关键点序列。

根据本公开的实施例，关键点序列中包含多个唇部区域和下巴区域的关键点，对于每一个关键点，其位置在第一目标视频中的不同图像帧中按一定的规律进行变化，这些变化规律与音频特征和韵律特征具有较高的相关性。编码器-解码器网络事先使用样本视频进行训练，其作用在于根据多模态的输入，输出预测得到的关键点，同时对关键点作局部平滑处理。

在操作S130，根据第二目标视频和多组关键点序列，生成多帧合成人脸草图。

根据本公开的实施例，第二目标视频提供了所要合成的虚假人脸动画中的人脸动画及其背景，通过人脸动画中每一帧图像的角度、下巴宽度、嘴部位置等信息，通过一些方法可以分别将每一帧中的各个关键点与人脸动画中的每一帧图像的唇部和下巴区域进行拟合，得到多帧合成人脸草图。

在操作S140，使用视频生成网络基于多帧合成人脸草图合成虚假人脸动画。

根据本公开的实施例，使用样本视频预先训练得到视频生成网络，视频生成网络可以增强输入的多帧合成人脸草图在帧间的连续性和帧内的一致性，输出唇音同步且流畅的虚假人脸动画。

本公开实施例的虚假人脸动画合成方法可以应用于娱乐行业，例如电源制作、视频配音以及游戏制作等，同时也可以应用于服务行业，如虚拟主播、虚拟客服等。

根据本公开实施例的虚假人脸动画合成方法，提出了一种关键点预测方法和一种视频生成方法，通过语音和文本的多模态输入，实现了高真实感的虚假人脸动画的合成，合成得到的动画具有较高的真实感。

图2示意性示出了根据本公开另一实施例的虚假人脸动画合成方法200的示意图。

如图2所示，本公开另一实施例的虚假人脸动画合成方法200从在线视频数据201中提取语音信息202和文本信息203作为多模态输入。对于语音信息202，采用STRAIGHT工具提取音频特征204；对于文本信息203，采用Merlin提取具有丰富上下文信息的韵律特征205。

根据本公开的另一实施例，编码器-解码器网络206包括语音编码器2061、文本编码器2062和解码器2063。其中语音编码器2061和文本编码器2062是编码器-解码器网络结构206的输入部分，均使用TCN 网络作为其模型架构，分别用于编码音频特征204和韵律特征205并将其输入到编码器-解码器网络206中。解码器2063是编码器-解码器网络206的输出部分，使用双向GRU网络作为其模型架构，用于输出预测得到的多组关键点序列207。

图3示意性示出了根据本公开另一实施例的编码器-解码器网络的训练方法300的流程图。

如图3所示，该方法300包括操作S301～S303，用于实现对方法 100或方法200中编码器-解码器网络的训练。

在操作S301，从样本视频中提取样本语音信息和样本文本信息，并分别提取样本语音信息中的多帧样本音频特征和样本文本信息中的多帧样本韵律特征。

根据本公开的另一实施例，操作S301可依据方法100中的操作 S110实现。

在操作S302，将样本视频按帧解码成多帧样本图像，提取经过归一化处理后的多帧样本图像中的唇部区域及下巴区域的关键点，得到多组样本关键点序列。

根据本公开的另一实施例，对各帧样本图像进行归一化处理，可以有效消除因样本视频中视角切换或人物运动带来的随机误差。在本实施例中采用dlib工具提取唇部区域的20个关键点和下巴区域的13 个关键点。在实际应用中，可以采用任意关键点提取工具，各个区域关键点的数量可以大于或小于本实施例中的数量。

在操作S303，以多帧样本音频特征和多帧样本韵律特征作为输入，以多组样本关键点序列作为标签，训练初始编码器-解码器网络结构，得到训练完成的编码器-解码器网络。

根据本公开的另一实施例，TCN网络和双向GRU网络的网络结构可以有效提取输入数据的时域信息，实现局部平滑的关键点预测。

根据本公开的另一实施例，将目标视频按帧解码，从解码得到的多帧目标图像208中提取得到多帧人脸草图209。人脸草图209包含了完整的唇部区域和下巴区域在空间和时间上的信息，相较于目标图像208具有较少的信息量，同时受噪声因素的影响也较低。人脸草图 209可以是目标图像208的轮廓图，也可以是将目标图像208映射到 YIQ颜色空间中得到的亮点图像。

根据本公开的另一实施例，基于多帧人脸草图209中人脸的角度和形状信息，使用嘴部反归一化方法210逐个更新多组关键点序列207 中各个关键点的位置，得到多组与多帧人脸草图中的人脸角度和形状信息一致的预测关键点序列。角度和形状信息包括人脸草图209中人脸图像的旋转角度、多组关键点序列207和人脸草图209中下巴最大宽度、多组关键点序列207和人脸草图209中嘴部中心点的位置等。

根据本公开的另一实施例，嘴部反归一化方法210的具体计算方法如下式所示：

在式中，表示某一组关键点序列207中的一个关键点；/>表示与/>对应的一组预测关键点序列中的关键点；θ表示人脸草图中人脸图像的旋转角度；d₁表示该组关键点序列中表示下巴的关键点之间的最大宽度；d₂表示人脸草图中下巴最大宽度；c′(x，y₎表示该组关键点序列中表示嘴部的关键点的中心点；c″(x，y)表示人脸草图中嘴部的中心点。

根据本公开的另一实施例，依次将多组预测关键点序列和多帧人脸草图209进行合成，即使用预测关键点序列中的每一个关键点替换多帧人脸草图209的人脸区域的点，即可得到唇音同步的多帧合成人脸草图211。

根据本公开的另一实施例，将多帧合成人脸草图211输入到视频生成网络212中，对其帧间和帧内的相关性进行增强，并利用上述从目标图像208中提取人脸草图209的逆方法将其按帧还原，即可生成虚假人脸动画213。

如图4所示，该方法400包括操作S401～S402，可用于实现对方法100或方法200中视频生成网络的训练。

在操作S401，将样本视频解码成多帧样本图像，从样本视频中获取多帧样本合成人脸草图。

根据本公开的另一实施例，多帧样本合成人脸草图可以采用dilb、 canny等现有方法获取，因此不作赘述。训练视频生成网络时的样本包括使用如方法100中的第一目标视频和第二目标视频作为训练的样本。

在操作S402，以多帧样本合成人脸草图作为输入，以多帧样本图像作为标签，训练初始网络模型，得到视频生成网络。

根据本公开的另一实施例，为实现视频帧间的连续性，采用了例如光流估计的方法对视频帧间的时间动态性能进行建模，保证帧间一致性。同时，为提高嘴部区域纹理合成，在视频生成网络结构中添加了嘴部合成分支，加入了嘴部掩码(mouth mask)作为模型的参数，以实现帧内一致性。

根据本公开的另一实施例，视频生成网络使用了mouth-mask损失函数对网络进行训练，其计算公式如下：

在式中，T表示样本图像的帧数；x_t表示第t帧样本图像；表示将第t帧样本合成人脸草图输入到初始网络模型中生成的输出样本图像；m_t表示第t帧样本图像对应的嘴部掩码。

根据本公开的另一实施例，使用视频生成网络基于多帧合成人脸草图合成虚假人脸动画可示意性地使用下式表示：

在式中，表示合成人脸草图序列以及嘴部掩码，s_t表示第t帧合成人脸草图，m_t表示第t帧合成人脸草图对应的嘴部掩码；/>表示已生成的L帧图像；/>表示第t帧合成人脸草图对应的遮挡掩码(occlusion mask)；表示生成的第t帧伪参考图(Hallucinated image)，用于合成被遮挡的背景区域；表示生成的第t帧嘴部区域的图像；/>表示/>和/>间估计的光流，通过可以从/>估计得到/>

本公开实施例中提出的虚假人脸动画合成方法融合了多模态信息的互补性，所采用的方法保证了唇部运动与语音/文本信息的同步性以及下巴运动与语音/文本的同步性，从而保证唇部区域与下巴运动的一致性，提高了关键点的预测精度。同时，分别采用光流以及嘴部合成分支实现视频帧间以及帧内相关性的建模，实现了唇音同步、时间连续的虚假人脸动画的合成，合成得到的动画具有较高的真实感。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种虚假人脸动画合成方法，包括：

从第一目标视频中提取语音信息和文本信息，并分别提取所述语音信息中的多帧音频特征和所述文本信息中的多帧韵律特征；

将所述多帧音频特征和所述多帧韵律特征输入训练完成的编码器-解码器网络，输出每一帧所述音频特征和所述韵律特征对应的多个关键点所组成的多组关键点序列；

根据第二目标视频和所述多组关键点序列，生成多帧合成人脸草图；以及

使用视频生成网络基于所述多帧合成人脸草图合成虚假人脸动画；

其中，所述训练完成的编码器-解码器网络通过如下训练方法得到，训练方法包括；

从样本视频中提取样本语音信息和样本文本信息，并分别提取所述样本语音信息中的多帧样本音频特征和所述样本文本信息中的多帧样本韵律特征；

将所述样本视频按帧解码成多帧样本图像，提取经过归一化处理后的所述多帧样本图像中的唇部区域及下巴区域的关键点，得到多组样本关键点序列；以及

以所述多帧样本音频特征和所述多帧样本韵律特征作为输入，以所述多组样本关键点序列作为标签，训练初始编码器-解码器网络结构，得到所述训练完成的编码器-解码器网络；

其中，所述初始编码器-解码器网络结构包括：

语音编码器，用于获取并编码所述多帧音频特征或所述多帧样本音频特征；

文本编码器，用于获取并编码所述多帧韵律特征或所述多帧样本韵律特征；以及

解码器，用于解码所述语音编码器和所述文本编码器获取的特征，输出所述多组关键点序列或所述多组样本关键点序列；

其中，所述根据第二目标视频和所述多组关键点序列，生成多帧合成人脸草图包括：

将所述第二目标视频按帧解码并提取得到多帧人脸草图；

基于所述多帧人脸草图中的人脸角度和形状信息，使用嘴部反归一化方法逐个更新所述多组关键点序列中各个关键点的位置，得到多组与所述多帧人脸草图中的人脸角度和形状信息一致的预测关键点序列；以及

依次将所述多组预测关键点序列和所述多帧人脸草图进行合成，得到所述多帧合成人脸草图；

其中，所述使用嘴部反归一化方法逐个更新所述多组关键点序列中各个关键点的位置使用下式实现：

其中，表示一组所述关键点序列中的一个关键点；

表示与/>对应的一组所述预测关键点序列中的关键点；

θ表示所述人脸草图中人脸图像的旋转角度；

d₁表示该组所述关键点序列中表示下巴的关键点之间的最大宽度；

d₂表示所述人脸草图中下巴最大宽度；

c′_(x，y)表示该组所述关键点序列中表示嘴部的关键点的中心点；

c″_(x，y)表示所述人脸草图中嘴部的中心点；

其中，所述使用视频生成网络基于所述多帧合成人脸草图合成虚假人脸动画使用下式实现：

其中，表示已生成的L帧图像；

表示所述合成人脸草图序列以及嘴部掩码，s_t表示第t帧所述合成人脸草图，m_t表示第t帧所述合成人脸草图对应的嘴部掩码；

表示第t帧所述合成人脸草图对应的遮挡掩码(occlusion mask)；

表示生成的第t帧伪参考图(Hallucinated image)，用于合成被遮挡的背景区域；

表示生成的第t帧嘴部区域的图像；

表示/>和/>间估计的光流，通过/>可以从/>估计得到/>

2.根据权利要求1所述的方法，其中，所述视频生成网络通过如下训练方法得到，训练方法包括：

将样本视频解码成多帧样本图像，从所述样本视频中获取多帧样本人脸草图；以及

以所述多帧样本人脸草图作为输入，以所述多帧样本图像作为标签，训练初始网络模型，得到所述视频生成网络。

3.根据权利要求2所述的方法，其中，所述训练初始网络模型，得到所述视频生成网络包括：

采用光流估计对所述样本视频帧之间的时间动态性能进行建模；以及

采用嘴部掩码(mouth mask)函数作为所述视频生成网络的损失函数。

4.根据权利要求3所述的方法，其中，所述mouth mask函数表示如下：

其中，T表示所述样本图像的帧数；

x_t表示第t帧所述样本图像；

表示将第t帧所述样本人脸草图输入到所述初始网络模型中生成的输出样本图像；

m_t表示第t帧所述样本图像对应的嘴部掩码。