CN111508064A

CN111508064A - 基于音素驱动的表情合成方法、装置和计算机存储介质

Info

Publication number: CN111508064A
Application number: CN202010291983.4A
Authority: CN
Inventors: 王骁; 冀志龙; 刘霄
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-07
Anticipated expiration: 2040-04-14
Also published as: CN111508064B

Abstract

一种基于音素驱动的表情合成方法、装置及计算机存储介质，主要包括根据预建数据库识别目标语音文本以获得音素序列，将音素序列转换为替换表情参数序列；基于目标语音文本的语音时长从原始视频数据中提取待替换的原始子视频数据；基于原始子视频数据中的人脸构建三维人脸模型，并逐帧提取三维人脸模型的待替换表情参数以生成待替换表情参数序列，利用替换表情参数序列替换待替换表情参数序列；利用替换表情参数序列驱动三维人脸模型生成目标二维图像序列，逐帧渲染目标二维图像序列；以及拼接渲染后的目标二维图像序列，生成用于替换原始子视频数据的目标子视频数据。本发明可以高效且准确地获取更具真实效果的表情合成视频。

Description

基于音素驱动的表情合成方法、装置和计算机存储介质

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种基于音素驱动的表情合成方法、装置和计算机存储介质。

背景技术

随着计算机技术的进步，基于人脸的图像处理技术已经从二维发展到三维，由于基于三维的图像处理的真实感更强而得到了广泛的关注。

一般而言，人的脸部信息包括表情信息和唇形(口型)信息，在通常情况下，表情信息和唇形信息会随着发音的变化而变化，然而，在目前的相关技术中，尚无法获得如同真实效果的表情合成视频，尤其容易出现脸部模糊、背景缺失或者场景固定等问题。

发明内容

有鉴于此，本发明实施例所解决的技术问题之一在于提供一种基于音素驱动的表情合成方法、装置和计算机存储介质，可以更加高效且准确地获得更具真实效果的表情合成视频。

根据本发明的第一方面，提供了一种基于音素驱动的表情合成方法，其包括：根据预建数据库识别目标语音文本以获得音素序列，并将所述音素序列转换为替换表情参数序列；基于所述目标语音文本的语音时长，从原始视频数据中提取待替换的原始子视频数据；基于所述原始子视频数据中的人脸构建三维人脸模型，且逐帧提取所述三维人脸模型的待替换表情参数以生成待替换表情参数序列，并利用所述替换表情参数序列替换所述待替换表情参数序列；利用所述替换表情参数序列驱动所述三维人脸模型生成目标二维图像序列，并逐帧渲染所述目标二维图像序列；以及拼接渲染后的所述目标二维图像序列，生成用于替换所述原始子视频数据的目标子视频数据。

根据本发明的第二方面，提供了一种计算机存储介质，所述计算机存储介质中存储有用于执行第一方面所述的表情合成方法的各所述步骤的指令。

根据本发明的第三方面，提供了一种基于音素驱动的表情合成装置，其包括：

语音识别模块，用于根据预建数据库识别目标语音文本以一音素序列，并将所述音素序列转换为一替换表情参数序列；

视频提取模块，用于基于所述目标语音文本的语音时长，从原始视频数据中提取待替换的原始子视频数据；

表情替换模块，基于所述原始子视频数据中的人脸构建三维人脸模型，且逐帧提取所述三维人脸模型的待替换表情参数以生成待替换表情参数序列，并利用所述替换表情参数序列替换所述待替换表情参数序列；

视频渲染模块，用于利用所述替换表情参数序列驱动所述三维人脸模型生成一目标二维图像序列，并逐帧渲染所述目标二维图像序列；

视频合成模块，用于拼接渲染后的所述目标二维图像序列，生成用于替换所述原始子视频数据的目标子视频数据。

由以上技术方案可见，本发明实施例所提供的基于音素驱动的表情合成方法、装置及计算机存储介质，利用音素转换视素的方式在三维模型上快速实现目标表情的替换，并通过拼接和平滑处理使得替换后的表情变化更加顺畅。

本发明实施例利用基于WGAN构建并训练的深度渲染模型执行替换后图像的渲染处理，其输入为当前帧的目标二维图像及其前续至少一帧原始二维图像，借此，本申请实施例无需设计复杂的时序模型即可获得高质量的图像渲染效果。

此外，本发明实施例所构建并训练深度渲染模型具有泛化能力，可以确保没有参与训练的原始视频也能通过本发明实施例的技术手段实现表情合成。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领与技术人员应该理解，这些附图未必是按比值绘制的。附图中：

图1示出了本发明第一实施例的基于音素驱动的表情合成方法的流程示意图；

图2A至图2C示出了三维人脸模型中各项参数的效果示意图；

图3示出了本发明第二实施例的基于音素驱动的表情合成方法的流程示意图；

图4示出了本发明第三实施例的基于音素驱动的表情合成方法的流程示意图；

图5为图4所示步骤S41的细部流程示意图；

图6示出了未经渲染的目标二维图像的示意图；

图7示出了本发明第四实施例的基于音素驱动的表情合成方法的流程示意图；

图8示出了本发明第四实施例的生成对抗模型的构建及训练示例图；

图9示出了本发明第五实施例的基于音素驱动的表情合成装置的主要架构；

图10示出了本发明第五实施例的表情合成装置的深度渲染模型的主要架构。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

一般而言，表情合成(例如唇形合成)可以简单分为二维图像的生成和三维模型渲染的两种方法。其中，二维图像的生成方法仅针对嘴唇局部、或者脸局部生成，这类生成方法很容易导致脸部模糊或背景模糊的情况，为了保证生成结果稳定准确，通常还需要将生成部分和原视频进行融合，而融合中容易产生色差或者与原始脸型不匹配导致合成效果差。

目前业界也有使用三维模型渲染方法，其主要通过三维人脸模型投影人脸，再通过深度渲染模型渲染人脸与背景，让合成的面部表情更为真实。这类方法通常将对抗生成网络和循环神经网络相结合，而且需要增加序列的判别器，以保证序列生成无误。这势必加大了神经网络的训练成本和数据量，而且仅能针对一个角色的一个视频训练到过拟合，才能保证生成结果准确。

综上所述，相关技术中所提供的表情(例如唇型姿态)合成技术尚无法获得近似照片级别的真实合成效果，或者存在着神经网络的训练过程繁复，且训练结果仅能用于少量场景等问题。

有鉴于此，本发明实施例提供了一种基于音素驱动的表情合成方法、装置及计算机存储介质。下面将结合本发明实施例附图进一步说明本发明各实施例的具体实现。

第一实施例

图1示出了本发明第一实施例的基于音素驱动的表情合成方法的流程示意图。如图1所示，本实施例的基于音素驱动的表情合成方法主要包括以下步骤：

步骤S1，根据预建数据库识别目标语音文本以获得一个音素序列，并将音素序列转换为对应的替换表情参数序列。

可选的，本发明实施例的目标语音文本是指以文本形式记录的语音文件，其例如为任何现有的语音文本文件，也可以是利用音频转文本软件针对音频文件进行转换处理所生成的语音文本文件。

可选的，所述的音频文件可以是现有的语音资源也可以是临时录制生成的语音资源。此外，音频转文本软件可以是本领域技术人员公知的音频转换软件，在本发明中不做限制。

可选的，音素序列中包含有多个音素数据，替换表情参数序列包含有多个替换表情参数，预建数据库中存储有不同音素数据和不同替换表情参数之间的对应关系，针对预建数据库的构建以及基于预建数据库进行数据转换的相关技术手段请容后在图3中进行详细描述。

步骤S2，基于目标语音文本的语音时长，从原始视频数据中提取待替换的原始子视频数据。

可选的，所提取的原始子视频数据的视频时长最短不少于目标语音文本的语音时长，最长则不超过目标语音文本的语音时长的20％。

步骤S3，基于原始子视频数据中的人脸构建相应的三维人脸模型，且逐帧提取三维人脸模型的待替换表情参数以生成待替换表情参数序列，并利用替换表情参数序列替换待替换表情参数序列。

具体地，通过逐帧提取三维人脸模型的待替换表情参数，可以获得对应于每一帧的待替换表情参数，并基于对应于每一帧的待替换表情参数以生成待替换表情参数序列。

可选的，除了逐帧提取三维人脸模型的各个待替换表情参数之外，还可提取三维人脸模型的其他各项参数，包括但不限于，从原始子视频数据中逐帧提取三维人脸模型的形状参数、纹理参数、位姿参数和光照参数。

于本发明实施例中，上述参数信息在整个表情合成过程中将被保留，仅针对用于驱动三维人脸模型中与说话动作产生直接关联的局部面部表情的表情参数进行替换，从而实现语音变化和表情变化(例如唇形姿态变化)之间的同步。

请配合参阅图2A至图2C，其中，图2A显示了一完整的单帧图像，图2B显示了包含有形状参数和表情参数的三维人脸模型，图2C则显示了包含有纹理参数、位姿参数以及光照参数的三维人脸模型。

可选的，上述三维人脸模型的各项参数，例如待替换表情参数、形状参数、纹理参数、位姿参数、和光照参数等，可以通过训练好的深度学习网络提取，所述深度学习网络可为现有已训练完成的神经网络，也可以是基于本发明实施例所专门构建并训练的，本发明对此不作限制。

步骤S4，利用替换表情参数序列驱动三维人脸模型以获得目标二维图像序列，并逐帧渲染目标二维图像序列。

于本实施例中，利用替换表情参数序列驱动三维人脸模型，可以获得逐帧变化的多个目标三维人脸(即替换后的三维人脸)，再通过将各目标三维人脸逐帧投影到二维图像上，从而获得由多个连续的目标二维图像所构成的目标二维图像序列，并通过逐帧渲染目标二维图像序列中的各目标二维图像可以使得替换后的人脸表情更趋向真实。

可选的，可利用深度渲染模型逐帧渲染目标二维图像序列，所述深度渲染模型例如为生成对抗模型中训练好的生成器，其中，生成对抗模型为基于WGAN构建并训练，针对生成对抗模型的构建及训练细节请容后在图7中予以详述。

步骤S5，拼接渲染后的目标二维图像序列，生成用于替换原始子视频数据的目标子视频数据。

可选的，可按帧时序拼接渲染完成的目标二维图像序列中的各目标二维图像，从而生成渲染完成的视频文件，并将渲染完成的视频文件与目标语音文本进行打包封装，生成用于替换原始子视频数据的目标子视频数据。

由以上本发明实施例可见，本发明实施例通过识别目标语音文件中的音素数据，并将音素数据转换为对应的替换表情参数，以利用替换表情参数对原始子视频数据中的待替换表情参数进行替换，再通过逐帧渲染替换后的各帧图像，并合成渲染后的各帧图像以生成用于替换原始子视频数据的目标子视频数据，所生成的目标子视频数据修改了目标角色的说话内容，并同时输出与修改的说话内容同步的局部面部表情(例如，说话表情及唇形姿态)，从而实现了基于音素驱动的三维人脸模型的表情合成效果。

第二实施例

图3示出了本发明第二实施例的基于音素驱动的表情合成方法的流程示意图。

于本实施例中，上述识别目标语音文本以获得一音素序列，并根据预建数据库将所述音素序列转换为一替换表情参数序列(即步骤S1)还可包括：

步骤S11，编辑各音素数据及各替换表情参数之间的对应关系以生成预建数据库。

可选的，上述步骤S11还包括以下处理步骤：

首先执行步骤S111，构建预建数据库中的音素数据。

于现有技术中，提取的音素一般包括18个元音音素、25个辅音音素，共计43个发音音素，如下列表1所示，再加上静默音素，共44个音素。

为了便于处理语音渐变，保证在唇形姿态准确的前提下提高处理效率，本发明实施例将唇形姿态相近的音素进行合并，将发音音素压缩为21个，如表2所示(其中，表2中的音素“BMP”、“KG”是针对表1中的相关音素进行合并后所新生成的)。

元音

AA

AE

AH

AO

AW

AX

AXR

AY

EH

ER

EY

IH

IX

IY

OW

OY

UH

UW

辅音

B

CH

D

DH

DX

F

G

HH

JH

K

L

M

N

NG

P

R

S

SH

T

TH

V

W

Y

Z

ZH

表1(全部音素表)

AA

AH

AO

AW

AY

BMP

D

EH

ER

F

HH

IH

KG

L

OW

OY

R

SH

TH

W

Z

表2(压缩后音素)

接着执行步骤S112，建立音素数据与替换表情参数(也可称为视素数据)之间的对应关系，也就是建立不同发音与局部面部表情之间的对应关系，使得局部面部表情和唇形姿态能随着发音的变化而相应变化。

步骤S12，根据预建数据库识别目标语音文本，以获得包含多个音素数据的音素序列，并将音素序列中的音素数据转换为各自对应的替换表情参数。

具体而言，可根据预建数据库中存储的音素数据对目标语音文本进行分解识别处理，以获得包含多个音素数据的音素序列，并从预建数据库中检索出与各音素数据对应的各替换表情参数，以将各音素数据转换为对应的各替换表情参数。

于本实施例中，替换表情参数是指用于驱动三维人脸模型中与说话动作产生直接关联的局部面部表情。

可选的，替换表情参数例如包括唇形姿态子参数和说话表情子参数。

具体而言，唇形姿态子参数主要包括唇部部位的表情参数，用于表示说话过程中唇形(口型)发生的唇动变化；说话表情子参数例如为嘴部周围部位(例如下巴部位)的表情参数，用于表示说话过程中人脸的下半部分(例如下巴部分)所发生的局部面部表情变化。

需说明的是，虽然在说话过程中，人脸下半部分发生的表情变化是最为显现的，但并不以此为限，说话表情子参数也可以包括例如眉毛，眼睛或脸颊等面部位置的表情参数，用于表示说话过程中发生的例如挑眉、眨眼、微笑等表情变化，因此，说话表情子参数的范围可依据实际需求而进行任意设定，并不以本发明实施例所述的下巴部分(或人脸下半部分)为限。

步骤S13，撷取音素序列中各音素数据对应的音素时长，并将各个音素数据对应的音素时长转换为各个替换表情参数对应的视频帧数，从而生成对应于每一帧的替换表情参数。

可选的，通过撷取音素序列中各音素数据对应的起始时间与终止时间，计算出各音素对应的音素时长。

步骤S14，基于对应于每一帧的所述替换表情参数生成所述替换表情参数序列。

可选的，可拼接对应于每一帧的替换表情参数，并基于预设滤波算法针对衔接不同的两个音素数据对应的两个替换表情参数执行平滑处理。

具体而言，可按照帧时序来拼接对应于每一帧的替换表情参数生成替换表情参数序列。

再者，考虑到在两个发音差异较大的音素数据之间进行切换时，人脸的局部面部表情和唇形姿态可能会发生大幅度的变化，对此，可利用预设滤波算法针对衔接不同的两个音素数据的两个替换表情参数进行平滑处理，使得局部面部表情和唇形姿态的变化更趋自然。所述预设滤波算法例如为中值滤波算法、高斯滤波算法等，本领域技术人员可按照实际使用需求进行选择，在本文中不做限制。

此外，对应于上述步骤S11至步骤S14，图1所示步骤S3中利用替换表情参数序列替换待替换表情参数序列的处理例如为：通过逐帧提取三维人脸模型的待替换表情参数，以获得对应于每一帧的待替换表情参数，并利用步骤S13所获得的对应于每一帧的替换表情参数与对应于每一帧的待替换表情参数进行逐帧替换，从而完成利用替换表情参数序列替换待替换表情参数序列的处理。

由以上本发明实施例可见，本发明通过预建数据库实现了音素数据和替换表情参数之间的对应转换，并通过拼接和滤波算法实现了不同替换表情参数之间的平滑过渡，可以提高后期表情替换的真实效果。

第三实施例

图4示出了本发明第三实施例的基于音素驱动的表情合成方法的流程示意图。

于一可选实施例中，逐帧渲染目标二维图像序列(即步骤S4)还可包括以下处理步骤：

步骤S41，获取目标二维图像序列中对应于当前帧的一目标二维图像并执行渲染处理。

步骤S42，重复执行步骤S41，即获取目标二维图像序列中对应于当前帧的一目标二维图像并执行渲染处理的步骤，直至目标二维图像序列中对应于每一帧的所有目标二维图像均完成渲染处理。

请继续参阅图5，于一可选实施例中，上述获取目标二维图像序列中对应于当前帧的一目标二维图像并执行渲染处理(即步骤S41)还包括以下处理步骤：

步骤S411，从原始子视频数据中撷取对应于当前帧的原始二维图像(例如原始人脸图像)。

步骤S412，基于对应于当前帧的待替换表情参数驱动三维人脸模型，获得对应于当前帧的待替换二维子图像(例如待替换的局部二维人脸图像)。

于本实施例中，假设待替换表情为位于人脸下半部分的唇形姿态子参数以及下巴部位的说话表情子参数，则通过利用对应于当前帧的待替换表情参数驱动三维人脸模型可以获得对应于当前帧的待替换三维人脸局部部分(即待替换的局部三维人脸)，再将待替换三维人脸局部部分投影到二维图像即可获得对应于当前帧的待替换二维子图像(也就是待替换的局部二维人脸)。

步骤S413，基于对应于当前帧的替换表情参数驱动三维人脸模型，获得对应于当前帧的替换二维子图像。

对应于上述步骤S412，通过利用对应于当前帧的替换表情参数驱动三维人脸模型可以获得对应于当前帧的替换三维人脸局部部分(即替换后的局部三维人脸)，再将替换三维人脸局部部分投影到二维图像即可获得对应于当前帧的替换二维子图像(也就是替换后的局部二维人脸)。

步骤S414，利用替换二维子图像替换原始二维图像中的待替换二维子图像的区域部分，生成对应于当前帧的目标二维图像。

可选的，可先将原始二维图像中的待替换二维子图像部分删除，也就是将原始二维人脸图像中待替换的局部二维人脸部分删除，再利用替换二维子图像对删除的局部二维人脸部分进行填充，从而生成对应于当前帧的目标二维图像(也就是替换二维子图像与原始二维图像进行拼接后形成的合成图像)。

步骤S415，利用深度渲染模型针对对应于当前帧的目标二维图像执行渲染处理。

具体而言，由于步骤S414所生成的目标二维图像是利用替换二维子图像取代待替换二维子图像，并与原始二维图像进行拼接合成的，因此，所生成的目标二维图像容易出现合成画面不真实的问题。

例如，如图6所示，于此未经渲染的目标二维图像中，人脸中的牙齿和胡须等细节部分均出现了缺失，同时，由于不同的唇形对应不同的下巴动作，因此，替换二维子图像与原始二维图像之间存在着投影边界，例如，于图6所示的实施例中，在下巴和脖子部位之间的衔接部分出现了异常，导致所生成的目标二维图像不够真实自然。

有鉴于此，本发明实施例利用深度渲染模型逐帧渲染目标二维图像序列中的各目标二维图像，可以提高合成图像的真实效果。

由以上本发明实施例可见，通过将替换后的三维人脸投影到二维图像上，再利用深度渲染模型进行逐帧渲染，实现了基于音素驱动的三维人脸模型的表情合成，并提高了合成视频的真实效果。

第四实施例

图7示出了本发明第四实施例的基于音素驱动的表情合成方法的流程示意图。如图所示，本发明实施例主要示出了生成对抗模型的构建及训练流程，其主要包括以下处理步骤：

步骤S71，构建生成对抗模型的生成器和判别器。

其中，生成器用于执行解码编码处理，从而针对图像进行渲染处理。判别器则用于针对生成器输出的图像进行真实性判定。

步骤S72，将对应于当前帧的目标二维图像作为当前帧待渲染图像，并从原始子视频数据中提取与当前帧待渲染图像的帧数相同的当前帧原始图像以及与当前帧原始图像连续的至少一帧前续原始图像。

例如，假设当前帧为第5帧，则根据目标二维图像的帧数序列，从原始子视频数据中提取帧数序列与之相同的当前帧原始图像，即第5帧的原始图像，以及至少一帧前续原始图像，例如，若提取一帧前续原始图像，则前续原始图像的帧数序列为第4帧，若提取二帧前续原始图像，则前续原始图像的帧数序列分别为第4帧和第3帧，以此类推。

可选的，提取的与当前帧原始图像连续的至少一帧前续原始图像为连续前1帧到5帧之间，较佳的，所提取的前续原始图像为连续前2帧。

步骤S73，训练生成器，将当前帧待渲染图像与所提取的至少一帧前续原始图像作为生成对抗网络模型的输入，并将针对当前帧待渲染图像执行渲染处理所生成的当前帧渲染后图像作为生成器的输出。

请配合参阅图8，于一可选实施例中，可将连续的三帧图像(分别为图像81,图像82和图像83)作为生成器的输入，其中，图像83为1帧当前帧待渲染图像，而图像81和图像82为与图像83连续的2帧前续原始图像，提供生成器针对当前帧待渲染图像(即图像83)执行渲染处理，并输出1帧当前帧渲染后图像(即图像84)。

步骤S74，训练所述判别器，将当前帧渲染后图像与当前帧原始图像输入到判别器中进行真假判别。

如图8所示，将生成器输出的当前帧渲染后图像(即图像84)与当前帧原始图像(即图像85)输入到判别器中进行真假判别，也就是让判别器判断两张图像中哪一张是原始图像，哪一张是生成器输出的合成图像。

步骤S75，判断生成对抗网络模型的训练是否完成，若判断结果为是，则退出本流程，若判断结果为否，则继续进行步骤S76。

于本发明实施例中，当判别器无法判别出当前帧渲染后图像(即图像84)与当前帧原始图像(即图像85)的真假时，也就是当生成器输出的渲染图像可以以假乱真时，即可判断生成对抗网络模型的训练完成。

步骤S76，基于训练后的判别器优化生成器，并返回步骤S72，以重新依次执行生成器与判别器的训练步骤，并反复交替训练生成器与判别器，直到判别器无法判别出当前帧渲染后图像与当前帧原始图像的真假为止。

可选的，可以按照5:1的训练比例交替训练判别器和生成器。

再者，承上所述，本发明实施例的生成对抗模型为基于WGAN构建并训练，因此，于一可选实施例中，可以采用两个正则项(例如下列公式1和公式2所示)，以使WGAN能够快速且准确收敛到平衡位置。

其中，公式1为表示判别器在真实数据上的表现，采用判别器在真实数据分布上的梯度作为惩罚项；而公式2则表示判别器在伪造数据上的表现，采用判别器在伪造数据分布上的梯度作为惩罚项。

由以上本发明实施例可见，本发明实施例所提供的深度渲染模型仅采用了一个图像质量的判别器即可获得高质量的生成结果，而且不需要复杂的时序模型也能生成和真实视频一样的表情合成效果，包括唇型姿态、嘴部细节和背景细节等。

具体而言，现有的神经网络在训练时，往往是将当前帧的前一帧的编码特征作为循环神经网络的输入，通过循环神经网络生成当前帧的编码结果，并在进行解码后获得当前帧，此方法的缺点在于：计算开销量大，网络复杂，效果不够真实，而且仅能针对特定场景进行训练。

相比之下，本发明实施例所设计的深度渲染模型，通过将连续至少两帧的图像(其中，最后一帧为待渲染图像)输入到生成器中，使得生成器可根据前续至少一帧原始图像中的携带信息自然地补齐待渲染图像的信息，并保持各帧之间的连续性。因此，本发明实施例所提供的深度渲染模型可根据所输入的连续帧图像自动学习时序信息，而无需设计复杂的循环神经网络，即可保证输出结果的连贯性。

此外，采用Wasserstein距离(WGAN)和两种正则项进行训练，可确保深度渲染模型能够快速、准确地收敛到平衡点，并避免模式崩溃等问题。

再者，由于修改仅涉及三维人脸模型中与说话动作产生直接关联的局部面部表情的相关表情参数，因此，本发明实施例能够对同一人物使用大量不同背景，使得深度渲染模型能渲染出不同背景的表情合成结果，因此，本发明实施例所提供的深度渲染模型具有泛化能力，确保没有参与训练的视频也能通过本方法进行表情合成。

第四实施例

本发明的第四实施例提供了一种计算机存储介质，于计算机存储介质中存储有用于执行上述第一至第三实施例中的基于音素驱动的表情合成方法的各步骤的指令。

第五实施例

图9示出了本发明第五实施例的基于音素驱动的表情合成装置的主要架构，如图所示，本发明实施例提供的基于音素驱动的表情合成装置900主要包括：语音识别模块910、视频提取模块920、表情替换模块930、和视频渲染模块940。

语音识别模块910用于根据预建数据库识别目标语音文本以获得音素序列，并将音素序列转换为替换表情参数序列。

可选的，语音识别模块910还包括根据预建数据库识别目标语音文本，以获得包括多个音素数据的音素序列，并将音素序列中的各音素数据转换为各自对应的各替换表情参数；撷取音素序列中各音素数据的起始时间与终止时间以计算各音素数据对应的音素时长，并将各音素时长转换为各替换表情参数对应的视频帧数，生成对应于每一帧的替换表情参数；以及基于对应于每一帧的替换表情参数生成替换表情参数序列。

可选的，语音识别模块910还包括拼接对应于每一帧的替换表情参数，并基于预设滤波算法针对衔接不同的两个音素数据对应的两个替换表情参数执行平滑处理。

可选的，语音识别模块910还包括建立至少存储有多个音素数据及各所述音素数据对应的所述替换表情参数的预建数据库，其中，所述替换表情参数用于驱动所述三维人脸模型中与说话动作产生直接关联的布局面部表情。

视频提取模块920用于基于目标语音文本的时长，从原始视频数据中提取待替换的原始子视频数据。

表情替换模块930用于基于原始子视频数据中的人脸构建三维人脸模型，且逐帧提取三维人脸模型的待替换表情参数以生成待替换表情参数序列，并利用替换表情参数序列替换所述待替换表情参数序列。

视频渲染模块940用于利用替换表情参数序列驱动三维人脸模型以生成目标二维图像序列，并逐帧渲染目标二维图像序列。

可选的，视频渲染模块940还用于获取目标二维图像序列中对应于当前帧的一目标二维图像并执行渲染处理；以及重复所述获取目标二维图像序列中对应于当前帧的一目标二维图像并执行渲染处理的步骤，直至目标二维图像序列中对应于每一帧的所有所述目标二维图像均完成渲染处理；其中，获取目标二维图像序列中对应于当前帧的一目标二维图像并执行渲染处理的步骤包括：从所述原始子视频数据中撷取对应于所述当前帧的原始二维图像；利用对应于当前帧的所述待替换表情参数驱动所述三维人脸模型，获得对应于所述当前帧的待替换二维子图像；利用对应于当前帧的所述替换表情参数驱动所述三维人脸模型，获得对应于所述当前帧的替换二维子图像；利用所述替换二维子图像替换所述原始二维图像中的所述待替换二维子图像的区域部分，生成对应于所述当前帧的所述目标二维图像；以及利用所述深度渲染模型针对对应于所述当前帧的所述目标二维图像执行渲染处理。

视频合成模块950用于拼接渲染后的目标二维图像序列，生成用于替换所述原始子视频数据的目标子视频数据。

请配合参阅图10，于可选实施例中，本发明实施例的表情合成装置900还包括基于WGAN构建并训练的生成对抗模型960，其包括生成器961和判别器962：

生成器961的输入为当前帧待渲染图像与至少一帧前续原始图像，生成器961的输出为针对所述当前帧待渲染图像执行渲染处理所生成的当前帧渲染后图像。判别器962用于对所述当前帧渲染后图像与当前帧原始图像进行真假判别；

于本实施例中，所述当前帧待渲染图像为对应于所述当前帧的所述目标二维图像；所述当前帧原始图像为从所述原始子视频数据中所提取，并与所述当前帧待渲染图像的帧数相同；所述至少一帧前续原始图像为从所述原始子视频数据中提取，其位于当前帧原始图像的前续并与当前帧原始图像连续。且其中，视频渲染模块940还包括利用训练好的生成器961作为深度渲染模型，以逐帧渲染目标二维图像序列。

此外，本发明各实施例的表情合成装置900还可用于实现前述各表情合成方法实施例中的其他步骤，并具有相应的方法步骤实施例的有益效果，在此不再赘述。

综上所述，本发明实施例提供的基于音素驱动的表情合成方法、装置及计算机存储介质通过利用音素转换视素的方式在三维模型上进行目标表情的快速替换，实现了根据修改的说话内容同步输出准确的局部面部表情(例如，说话表情和唇形姿态等)的技术效果，且通过拼接和平滑处理手段可以提高表情合成的真实性。

再者，本发明实施例提供的基于WGAN构建并训练的生成对抗模型，通过输入连续帧图像，即可确保输出图像的连贯性，减少了计算机的运行负荷，并降低了模型设计的复杂度，且还能提高图像的真实效果。

此外，本发明实施例提供的深度渲染模型还具有泛化能力，可以提供没有参与训练的视频也能通过本发明实施例的设计完成表情合成。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的基于音素驱动的表情合成方法。此外，当通用计算机访问用于实现在此示出的教师风格的确定方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的基于音素驱动的表情合成方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种基于音素驱动的表情合成方法，其特征在于，所述方法包括：

根据预建数据库识别目标语音文本以获得音素序列，并将所述音素序列转换为替换表情参数序列；

基于所述目标语音文本的语音时长，从原始视频数据中提取待替换的原始子视频数据；

基于所述原始子视频数据中的人脸构建三维人脸模型，且逐帧提取所述三维人脸模型的待替换表情参数以生成待替换表情参数序列，并利用所述替换表情参数序列替换所述待替换表情参数序列；

利用所述替换表情参数序列驱动所述三维人脸模型生成目标二维图像序列，并逐帧渲染所述目标二维图像序列；以及

拼接渲染后的所述目标二维图像序列，生成用于替换所述原始子视频数据的目标子视频数据。

2.根据权利要求1所述的表情合成方法，其特征在于，所述根据预建数据库识别目标语音文本以获得音素序列，并将所述音素序列转换为替换表情参数序列的步骤包括：

根据所述预建数据库识别所述目标语音文本，以获得包括多个音素数据的所述音素序列，并将所述音素序列中的各所述音素数据转换为各自对应的各替换表情参数；

撷取所述音素序列中各所述音素数据的起始时间与终止时间以计算各所述音素数据对应的音素时长，并将各所述音素时长转换为各所述替换表情参数对应的视频帧数，生成对应于每一帧的所述替换表情参数；以及

基于对应于每一帧的所述替换表情参数生成所述替换表情参数序列。

3.根据权利要求2所述的表情合成方法，其特征在于，所述基于对应于每一帧的所述替换表情参数生成所述替换表情参数序列的步骤还包括：

拼接对应于每一帧的所述替换表情参数生成所述替换表情参数序列，并基于预设滤波算法针对衔接不同的两个所述音素数据对应的两个所述替换表情参数执行平滑处理。

4.根据权利要求2所述的表情合成方法，其特征在于，所述预建数据库中至少存储有多个所述音素数据及各所述音素数据对应的所述替换表情参数，其中，所述替换表情参数用于驱动所述三维人脸模型中与说话动作产生直接关联的局部面部表情。

5.根据权利要求4所述的表情合成方法，其特征在于，所述替换表情参数至少包括唇形姿态子参数和说话表情子参数。

6.根据权利要求4所述的表情合成方法，其特征在于，所述逐帧渲染所述目标二维图像序列的步骤包括：

获取所述目标二维图像序列中对应于当前帧的一目标二维图像并执行渲染处理；以及

重复所述获取所述目标二维图像序列中对应于当前帧的一目标二维图像并执行渲染处理的步骤，直至所述目标二维图像序列中对应于每一帧的所有所述目标二维图像均完成渲染处理；

其中，所述获取所述目标二维图像序列中对应于当前帧的所述目标二维图像并执行渲染处理的步骤包括：

从所述原始子视频数据中撷取对应于所述当前帧的原始二维图像；

利用对应于当前帧的所述待替换表情参数驱动所述三维人脸模型，获得对应于所述当前帧的待替换二维子图像；

利用对应于当前帧的所述替换表情参数驱动所述三维人脸模型，获得对应于所述当前帧的替换二维子图像；

利用所述替换二维子图像替换所述原始二维图像中的所述待替换二维子图像的区域部分，生成对应于所述当前帧的所述目标二维图像；以及

利用深度渲染模型针对对应于所述当前帧的所述目标二维图像执行渲染处理。

7.根据权利要求6所述的表情合成方法，其特征在于，所述方法还包括基于WGAN构建并训练包括生成器和判别器的生成对抗模型，并利用训练好的所述生成器作为所述深度渲染模型以针对对应于所述当前帧的所述目标二维图像执行渲染处理，其中，所述基于WGAN构建并训练包括生成器和判别器的生成对抗模型的步骤包括：

构建所述生成对抗模型的所述生成器和所述判别器；

将对应于所述当前帧的所述目标二维图像作为当前帧待渲染图像，并从所述原始子视频数据中提取与所述当前帧待渲染图像的帧数相同的当前帧原始图像以及与所述当前帧原始图像连续的至少一帧前续原始图像；

训练所述生成器，将所述当前帧待渲染图像与所述至少一帧前续原始图像作为所述生成器的输入，并将针对所述当前帧待渲染图像执行渲染处理所生成的当前帧渲染后图像作为所述生成器的输出；

训练所述判别器，将所述当前帧渲染后图像与所述当前帧原始图像输入所述判别器中进行真假判别，并基于训练后的所述判别器优化所述生成器；以及

重复依次执行所述训练所述生成器与训练所述判别器的步骤，以交替训练所述生成器与所述判别器，直至所述判别器无法判别出所述当前帧渲染后图像与所述当前帧原始图像的真假。

8.根据权利要求7所述的表情合成方法，其特征在于，所述拼接渲染后的所述目标二维图像序列而生成用于替换所述原始子视频数据的目标子视频数据的步骤包括：

按时序拼接各所述当前帧渲染后图像以生成渲染后视频文件，并将所述渲染后视频文件与所述目标语音文本打包封装，生成所述目标子视频数据。

9.根据权利要求1所述的表情合成方法，其特征在于，所述方法还包括：

从所述原始子视频数据中逐帧提取所述三维人脸模型的形状参数、纹理参数、位姿参数和光照参数。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有用于执行根据权利要求1至9中任一项所述的表情合成方法的各所述步骤的指令。

11.一种基于音素驱动的表情合成装置，其特征在于，所述表情合成装置包括：

语音识别模块，用于根据预建数据库识别目标语音文本以获得音素序列，并将所述音素序列转换为替换表情参数序列；

视频渲染模块，用于利用所述替换表情参数序列驱动所述三维人脸模型生成目标二维图像序列，并逐帧渲染所述目标二维图像序列；以及

12.根据权利要求11所述的表情合成装置，其特征在于，所述装置还包括基于WGAN构建并训练的生成对抗模型，其包括：

生成器，所述生成器的输入为当前帧待渲染图像与至少一帧前续原始图像，所述生成器的输出为针对所述当前帧待渲染图像执行渲染处理所生成的当前帧渲染后图像；以及

判别器，用于对所述当前帧渲染后图像与当前帧原始图像进行真假判别；

其中，所述当前帧待渲染图像为所述目标二维图像序列中对应于当前帧的一目标二维图像；所述当前帧原始图像为从所述原始子视频数据中所提取，并与所述当前帧待渲染图像的帧数相同；所述至少一帧前续原始图像为从所述原始子视频数据中提取，并位于所述当前帧原始图像的前续且与所述当前帧原始图像连续；

且其中，所述视频渲染模块利用训练好的所述生成器作为深度渲染模型，以逐帧渲染所述目标二维图像序列。