CN114022597A

CN114022597A - 多风格唇形合成方法、装置、设备及存储介质

Info

Publication number: CN114022597A
Application number: CN202110807540.0A
Authority: CN
Inventors: 吴昊哲; 贾珈; 窦义顺; 段超; 邓清珊
Original assignee: Tsinghua University; Huawei Technologies Co Ltd
Current assignee: Tsinghua University; Huawei Technologies Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2022-02-08
Anticipated expiration: 2041-07-16
Also published as: CN114022597B

Abstract

本申请实施例涉及数据处理技术领域，具体涉及一种多风格唇形合成方法、装置、设备及存储介质，旨在实现生成包含多样化、有表现力的风格化唇形的说话人动画。具体方法包括：将目标脸像、短时唇形风格视频以及目标音频输入多风格唇形合成网络中；所述多风格唇形合成网络通过所述目标脸像、所述短时唇形风格视频以及所述目标音频，得到表情预测参数以及目标脸像的形状参数；将所述表情预测参数与所述形状参数进行结合，得到目标风格的说话人动画。

Description

多风格唇形合成方法、装置、设备及存储介质

技术领域

本申请实施例涉及数据处理技术领域，具体而言，涉及一种多风格唇形合成方法、装置、设备及存储介质。

背景技术

说话人合成就是根据输入的音频，合成音视频同步的动画，在电影制作、电话会议、人机交互等领域有着广泛的应用前景。现有技术中，一种方式是首先对音频进行特征提取，根据得到的音频特征，利用神经网络预测人脸模型的表情参数序列，进而生成说话人视频。还有一种方式是建模不同说话人的说话风格，提取输入音频的音频特征，将音频特征与不同说话人的特征编码进行结合，通过时域卷积得到表情的形变，将表情的形变与原始的模板相加得到合成的说话人，通过调整不同说话人的特征编码，就可以得到不同风格的说话人。

第一种方式存在的问题是合成出来的说话人的说话风格单一，达不到预期效果，第二种方式虽然建模了不同说话人的风格，但是由于同一个体在不同的场景下的说话风格仍有较大差异，对个体进行建模会导致合成的说话风格缺乏多样性，进而导致说话人的表情、口型缺乏表现力。

发明内容

本申请实施例提供一种多风格唇形合成方法、装置、设备及存储介质，旨在实现生成包含多样化、有表现力的风格化唇形的说话人动画。

本申请实施例第一方面提供一种多风格唇形合成方法，所述方法包括：

将目标脸像、短时唇形风格视频以及目标音频输入多风格唇形合成网络中；

所述多风格唇形合成网络通过所述目标脸像、所述短时唇形风格视频以及所述目标音频，得到表情预测参数以及目标脸像的形状参数；

将所述表情预测参数与所述形状参数进行结合，得到目标风格的说话人动画。

可选地，所述说多风格唇形合成网络是经过训练得到的，训练步骤包括：

收集包含单个说话人的短时说话视频；

提取所述短时说话视频对应的音频以及所述短时说话视频中说话人的脸像；

将所述短时说话视频、所述短时说话视频对应的音频以及所述短时说话视频中说话人的脸像输入所述多风格唇形合成网络中，对所述多风格唇形合成网络进行训练，得到训练好的多风格唇形合成网络。

可选地，所述多风格唇形合成网络通过所述目标脸像、所述短时唇形风格视频以及所述目标音频，得到表情预测参数以及目标人脸的形状参数，包括：

对所述目标脸像进行特征提取，得到所述人脸形状参数；

将所述短时唇形风格视频的特征和所述目标音频的特征进行特征融合，得到所述表情预测参数。

可选地，将所述短时唇形风格视频的特征和所述目标音频的特征进行特征融合，得到所述表情预测参数，包括：

对所述短时唇形视频进行特征提取，得到唇形风格特征；

对所述目标音频进行特征提取，得到音频特征；

将所述音频特征与所述唇型风格特征进行融合，得到所述表情预测参数。

可选地，所述唇形风格特征的表达式为：

其中，style code表示唇形风格特征，expression(t)表示表情参数序列，σ(expression(t))表示时域上方差的计算，

表示偏导，

表示向量拼接。

可选地，所述方法还包括：

将与所述短时唇形风格视频中的风格不同的另一段短时唇形风格视频输入所述多风格唇形合成网络中；

所述多风格唇形合成网络根据所述另一段短时唇形风格视频，生成与该视频对应的说话人动画。

本申请实施例第二方面提供一种多风格唇形合成装置，所述装置包括：

数据输入模块，用于将目标脸像、短时唇形风格视频以及目标音频输入多风格唇形合成网络中；

参数提取模块，用于所述多风格唇形合成网络通过所述目标脸像、所述短时唇形风格视频以及所述目标音频，得到表情预测参数以及目标脸像的形状参数；

第一动画生成模块，用于将所述表情预测参数与所述形状参数进行结合，得到目标风格的说话人动画。

收集包含单个说话人的短时说话视频；

可选地，所述参数提取模块包括：

形状参数提取子模块，用于对所述目标脸像进行特征提取，得到所述人脸形状参数；

表情预测参数提取子模块，用于将所述短时唇形风格视频的特征和所述目标音频的特征进行特征融合，得到所述表情预测参数。

可选地，所述表情预测参数提取子模块包括：

唇形风格特征提取子模块，用于对所述短时唇形视频进行特征提取，得到唇形风格特征；

音频特征提取子模块，用于对所述目标音频进行特征提取，得到音频特征；

特征融合子模块，用于将所述音频特征与所述唇型风格特征进行融合，得到所述表情预测参数。

可选地，所述唇形风格特征的表达式为：

表示偏导，

表示向量拼接。

可选地，所述装置还包括：

视频输入子模块，用于将与所述短时唇形风格视频中的风格不同的另一段短时唇形风格视频输入所述多风格唇形合成网络中；

第二动画生成子模块，用于所述多风格唇形合成网络根据所述另一段短时唇形风格视频，生成与该视频对应的说话人动画。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

采用本申请提供的多风格唇形合成方法，将目标脸像、短时唇形风格视频以及目标音频输入多风格唇形合成网络中；所述多风格唇形合成网络通过所述目标脸像、所述短时唇形风格视频以及所述目标音频，得到表情预测参数以及目标脸像的形状参数；将所述表情预测参数与所述形状参数进行结合，得到目标风格的说话人动画。本申请通过提取目标脸像，短时唇形风格视频的特征以及音频特征，进而将表情参数以及目标脸像的形状参数进行结合，得到目标风格的说话人动画，而根据短时唇形风格视频的不同，可以合成出不同目标风格的说话人动画，通过提取短时唇形风格视频的特征，建模短时唇形风格特征，更有利于合成出不同风格的说人话动画，保证了多样化，富有表现力的风格化唇形的合成。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的多风格唇形合成方法的流程图；

图2是本申请一实施例提出的多风格唇形合成方法的方法框图；

图3是本申请一实施例提出的多风格唇形合成装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中，为了准确的合成多样化、富有表现力的风格化唇形，提出了“风格模仿”的范式，主要内容是合成一个说话人动画，与输入的音频同步，且与输入的另一端短时视频中的说话人的风格一致，这一范式可以从更短、更细粒度的时间尺度上，合成多样化的风格化唇形。

参考图1，图1是本申请一实施例提出的XX方法的流程图。如图1所示，该方法包括以下步骤：

S11：将目标脸像、短时唇形风格视频以及目标音频输入多风格唇形合成网络中。

本实施例中，目标脸像就是最终合成的说话人动画中使用的人脸图图像，短时唇形风格视频是一段带有单个说话人说话的画面的短时视频，目标音频就是最终合成的说话人动画中，说话人说的话的音频，多风格唇形合成网络(Latent-Style-Fusion(LSF)Model)是本实施例提出的一种用于生成目标说话人动画的深度神经网络，是一种隐层风格融合模型，主要负责执行图像特征提取和音频特征提取，图像特征和音频特征相结合等任务。

本实施例中，目标脸像，短时唇形风格视频以及目标音频都可以进行自由组合，目标脸像要求图像中的人脸的五官是清晰可见的，便于进行特征提取，短时唇形风格视频的时间一般为5-10秒，一般在10秒内一个说话人的唇形风格是保持不变的，若超过10秒，说话人唇形风格就可能发生改变，导致提取出的特征不具备典型性和代表性，不能准确反映说话人在短时间内的唇形风格特征，目标音频的时长时任意的。多风格唇形合成网络在接收目标脸像、短时唇形风格视频和目标音频后，可以输出一段时长和目标音频时长相同的说话人动画视频，其中说话人的说话的唇形风格与短时唇形风格视频中的说话人的唇形风格是相同的。

示例地，目标脸像可以是任意的人脸图像，只要五官清晰可见即可。短时唇形风格视屏可以是一段10秒钟的演讲视频，要求可以清晰显示视频中说话人的表情动作。目标音频可以是一段演讲的音频，一段唱歌的音频等，不需要与唇形风格视频对应。多风格唇形合成网络合成出的说话人视频中，脸型与目标脸像中的人物相同，说话的唇形与短时唇形风格视频中说话人的唇形是同一个风格，说话的声音和内容是目标音频中的声音和内容。

S12：所述多风格唇形合成网络通过所述目标脸像、所述短时唇形风格视频以及所述目标音频，得到表情预测参数以及目标脸像的形状参数。

本实施例中，多风格唇形合成网络会通过目标脸像得到目标脸像的形状参数，用于生成说话人动画中人物的面部，通过短时唇形风格视频和目标音频得到表情预测参数，表情预测参数就是多风格唇形合成网络输出的目标风格的说话人动画中说话人的表情的参数，不同的表情参数对应了不同的唇形，具体的步骤是：

S12-1：对所述目标脸像进行特征提取，得到所述人脸形状参数。

本实施例中，将目标脸像输入多风格唇形合成网络之后，该网络的特征提取层对目标脸像进行特征提取，是对目标脸像进行深度三维重建，主要是对目标脸像的个体的人脸形状，表情，姿态做建模，得到一个特征向量，该特征向量包含了人脸的形状参数。

示例地，人脸形状参数可以反映目标脸像中人脸的形状，大小，表情姿态等，例如人脸形状参数显示人脸的长度为20厘米，宽度为12厘米，还可以显示五官的具体数值等，根据这些数值可对人脸进行建模。人脸提取可以使用深度网络，例如卷积神经网络CNN等，在此不做限制。

S12-2：将所述短时唇形风格视频的特征和所述目标音频的特征进行特征融合，得到所述表情预测参数。

本实施例中，将短时唇形风格视频的特征和目标音频的特征进行特征融合进行融合，可以得到表情预测参数，具体步骤为：

S12-2-1：对所述短时唇形视频进行特征提取，得到唇形风格特征。

本实施例中，多风格唇形合成网络中的视频特征提取层对输入的短时唇形视频特征进行特征提取，得到唇形风格特征。本实施例中，唇形风格特征的表达式为：

其中，style code表示唇形风格特征，expression(t)表示3D表情参数序列，σ(expression(t))表示时域上方差的计算，

表示偏导，

表示向量拼接。

示例地，可以使用深度神经网络对短时唇形视频中的每一帧画面进行特征识别，得到每一帧画面中说话人的表情、姿态和个体的人脸形状，进而得到唇形风格特征。深度神经网络可以是卷积神经网络CNN等，在此不做限制。

S12-2-2：对所述目标音频进行特征提取，得到音频特征。

本实施例中，可以使用语音识别系统对目标音频进行特征提取，首先对音频特征进行编码，再通过深度神经网络得到音频的隐层特征，即音频特征。

示例地，语音识别系统可以为Deepspeech系统，该系统是一种端到端的语音识别系统，可以识别出音频中的语义特征。

S12-2-3：将所述音频特征与所述唇型风格特征进行融合，得到所述表情预测参数。

本实施例中，音频特征就是通过语音识别系统得到的神经网络的隐层特征，将隐层特征与唇形风格特征进行融合，得到融合后的特征向量，该向量经过深度神经网络的处理后输出表情预测参数。

S13：将所述表情预测参数与所述形状参数进行结合，得到目标风格的说话人动画。

本实施例中，通过深度神经网络输出了表情预测参数和目标脸像的形状参数，将其进行融合，得到融合后的参数向量，该参数向量中带有目标风格的说话人动画中的说话人的表情、姿态、个体的人脸形状等信息，就是根据形状参数生成一个人脸图像，再将根据表情预测参数将唇形合成至人脸图像上，则生成的说话人动画中，目标说话人的人脸图像与目标脸像相同，说话人的唇形风格与短时唇形视频中的说话人的唇形相同，合成的说话人动画与目标音频保持同步，合成的说话人动画就是目标风格的说话人动画，目标风格就是短时唇形风格视频中说话人的唇形风格。提取出的表情参数序列都是3D表情参数序列，生成的说话人动画中的人物为3D说话人，具有丰富的表情和细节表现力。

使用本实施例提供的多风格唇形合成方法，提出了“风格模仿”的范式，提出了短时动作序列的唇形风格化表征，建模了5-10秒内的短时唇形风格视频的唇形风格特征，多风格唇形合成网络通过提取短时唇形风格视频中的唇形风格特征，合成至目标脸像上，生成的说话人动画合成了目标风格特征，实现了多样化、富有表现力的风格化唇形合成，使用5-10秒的短时唇形风格视频，每个短时唇形风格视频提取出的唇形风格特征明显且统一，有助于多风格唇形合成网络进行风格模仿。

在本申请的另一个实施例中，为了生成多风格唇形的说话人动画，还可以通过更换短时风格视频实现风格的变换，具体步骤包括：

S21：将与所述短时唇形风格视频中的风格不同的另一段短时唇形风格视频输入所述多风格唇形合成网络中。

S22：所述多风格唇形合成网络根据所述另一段短时唇形风格视频，生成与该视频对应的说话人动画。

本实施例中，多风格唇形合成网络已经生成了一段说话人动画，通过将另一段短时唇形风格视频输入多风格唇形合成网络中，即可改变该说话人的说话风格，该说话人会模仿最新输入的短时唇形风格视频进行说话，因为只输入了新的短时唇形风格视频，因此多风格唇形合成网络不会更改目标脸像和目标音频，只会根据新的短时唇形风格视频提取出对应的唇形特征，将该唇形特征与原有的音频特征结合，得到对应的表情参数，将对应的表情参数和原有的人脸的形状参数进行结合，得到与该视频对应的说话人的动画，动画中的说话人的风格会更新为新输入的短时唇形风格中的说话人的唇形风格。

本实施例提出的方法，在需要更换说话人动画的唇形风格时，只需要替换输入的短时唇形风格视频，不需要进行别的操作，方便快捷，多风格唇形合成网络会根据当前输入的短时唇形风格视频，重新合成一段具有目标风格的说话人动画。实现了同一个脸像的说话人可以使用不同的唇形风格来说出同一段话，保证了合成的说话人动画的唇形风格的多样性。

在本申请另一个实施例中，多风格唇形合成网络的训练过程包括以下步骤：

S31：收集包含单个说话人的短时说话视频。

本实施例中，首先需要收集多段包含单个说话人的短时说话视频，视频中的说话人需要是单个，若视频中有多个说话人，可能会造成特征提取错误，导致无法正常合成说话人动画。

S32：提取所述短时说话视频对应的音频以及所述短时说话视频中说话人的脸像。

本实施例中，需要对短时说话视频进行处理，首先得到短时说话视频对应的说话人的脸像，可以采用截图的方式获取，再将视频中的说话人说话内容的音频分离出来单独保存，得到目标音频具体方法不做限制。

S33：将所述短时说话视频、所述短时说话视频对应的音频以及所述短时说话视频中说话人的脸像输入所述多风格唇形合成网络中，对所述多风格唇形合成网络进行训练，得到训练好的多风格唇形合成网络。

本实施例中，将短时说话视频、该短时说话视频对应的音频以及该短时说话视频对应的说话人的脸像输入多风格唇形合成网络中，多风格唇形合成网络会提取对应的唇形风格特征、音频特征以及人脸的形状参数，并生成说话人的动画，对比生成的动画与原视频之间的差值，获得一个损失值，将该损失值返回网络中，对网络参数进行调整，调整好后再次进行下一轮训练，直至将参数调整至最优，就得到了训练好的多风格唇形合成网络。

下面将结合附图来对本申请实施例进行进一步的说明：

如图2所示，图2是本申请一实施例提出的多风格唇形合成方法的方法框图。

如图2所述，图2中的输入包括3个部分，脸像输入(目标脸像)，风格参考视频(短时唇形风格视频)，音频输入(目标音频)。之后多风格唇形合成网络对目标脸像和短时唇形风格视频进行深度三维重建，即特征提取，对目标脸像的表情、姿态以及个体(个体的人脸形状)进行建模，通过语音识别系统得到目标音频的特征，目标音频特征通过残差神经网络的编码器进行处理之后得到目标音频的隐层特征，将风格编码(唇形风格特征)与目标音频的隐层特征进行融合，通过残差神经网络编码器，输出表情预测参数，通过表情预测参数结合人脸形状参数，进行动作参数预测，就是预测目标风格的说话人动画中的任务的表情、姿态和个体的人脸形状，根据这些参数生成目标风格的说话人动画，其中Dropout是一种正则化技术，防止网络的过拟合。

基于同一发明构思，本申请一实施例提供一种多风格唇形合成装置。参考图3，图3是本申请一实施例提出的多风格唇形合成装置300的示意图。如图3所示，该装置包括：

数据输入模块301，用于将目标脸像、短时唇形风格视频以及目标音频输入多风格唇形合成网络中；

参数提取模块302，用于所述多风格唇形合成网络通过所述目标脸像、所述短时唇形风格视频以及所述目标音频，得到表情预测参数以及目标脸像的形状参数；

第一动画生成模块303，用于将所述表情预测参数与所述形状参数进行结合，得到目标风格的说话人动画。

收集包含单个说话人的短时说话视频；

可选地，所述参数提取模块包括：

可选地，所述表情预测参数提取子模块包括：

可选地，所述唇形风格特征的表达式为：

表示偏导，

表示向量拼接。

可选地，所述装置还包括：

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的多风格唇形合成方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的多风格唇形合成方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种多风格唇形合成方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。