CN115393945A

CN115393945A - 基于语音的图像驱动方法、装置、电子设备及存储介质

Info

Publication number: CN115393945A
Application number: CN202211327173.5A
Authority: CN
Inventors: 方嘉仪; 何山; 殷兵; 刘聪; 周良; 吴小燕
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2022-11-25

Abstract

本申请提出一种基于语音的图像驱动方法、装置、电子设备及存储介质，方法包括：预测目标语音对应的口唇偏移数据和目标语音对应的头部运动数据；根据目标语音对应的口唇偏移数据和目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到待驱动面部图像的更新后的面部关键点位置；基于待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。采用本申请的技术方案，可以直接预测目标语音对应的口唇偏移数据和头部运动数据，然后根据口唇偏移数据和头部运动数据对待驱动面部图像进行驱动，无需利用目标语音对应的说话视频作为中间媒介，实现了端到端的语音驱动图像，提高了语音驱动图像的效率。

Description

基于语音的图像驱动方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于语音的图像驱动方法、装置、电子设备及存储介质。

背景技术

语音驱动图像是指利用语音来驱动图像中的虚拟形象的口型变化，以使虚拟形象的口型为说出该语音时对应的口型。现有的语音驱动图像通常是基于语音对应的视频来对图像进行驱动，即根据语音生成特定人的说话视频，进而通过说话视频来驱动图像。在利用语音对图像进行驱动的过程中，需要利用语音对应的说话视频作为中间媒介，使得语音驱动图像的效率较低。

发明内容

基于上述现有技术的缺陷和不足，本申请提出一种基于语音的图像驱动方法、装置、电子设备及存储介质，能够提高语音驱动图像的效率。

本申请第一方面提供了一种基于语音的图像驱动方法，包括：

预测目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据；所述口唇偏移数据表示发出所述目标语音时的口唇关键点位置相对于静默时的口唇关键点位置的偏移量；

根据所述目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到所述待驱动面部图像的更新后的面部关键点位置；

基于所述待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。

可选的，预测目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据，包括：

预测目标语音中的各个语音帧对应的口唇偏移量和各个语音帧对应的头部运动参数；

将各个语音帧对应的口唇偏移量组合得到所述目标语音对应的口唇偏移数据，将各个语音帧对应的头部运动参数组合得到所述目标语音对应的头部运动数据。

可选的，预测目标语音中的语音帧对应的口唇偏移量和语音帧对应的头部运动参数，包括：

将语音帧输入到预先训练的参数预测模型中，得到所述语音帧对应的口唇偏移量和所述语音帧对应的头部运动参数；

其中，所述参数预测模型基于第一样本语音以及所述第一样本语音对应的样本标签训练得到，所述第一样本语音对应的样本标签，包括所述第一样本语音对应的头部运动参数，以及与所述头部运动参数解耦的口唇偏移量。

可选的，根据所述目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到所述待驱动面部图像的更新后的面部关键点位置，包括：

根据所述目标语音对应的口唇偏移数据，对待驱动面部图像的口唇区域关键点进行位置偏移处理，确定所述待驱动面部图像的偏移后的面部关键点位置；

基于所述目标语音对应的头部运动数据，对所述待驱动面部图像的偏移后的面部关键点进行位置仿射变换，得到所述待驱动面部图像的更新后的面部关键点位置。

可选的，基于所述待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像，包括：

对所述待驱动面部图像进行人脸前景分割，得到待驱动面部图像的人脸前景区域和人脸背景区域；

基于所述待驱动面部图像的更新后的面部关键点位置，对所述待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域；

将位置调整后的人脸前景区域与所述人脸背景区域进行拼接，得到驱动后的面部图像。

可选的，基于所述待驱动面部图像的更新后的面部关键点位置，对所述待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域之后，所述方法还包括：

对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并且变形优化调整后的人脸前景区域。

可选的，基于所述待驱动面部图像的更新后的面部关键点位置，对所述待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域，以及，对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并且变形优化调整后的人脸前景区域，包括：

将所述待驱动面部图像的人脸前景区域和所述待驱动面部图像的更新后的面部关键点位置输入到预先训练的图像生成网络中，以使所述图像生成网络基于所述待驱动面部图像的更新后的面部关键点位置，对所述待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域，以及，对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并且变形优化调整后的人脸前景区域。

本申请第二方面提供了一种基于语音的图像驱动装置，包括：

预测模块，用于预测目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据；所述口唇偏移数据表示发出所述目标语音时的口唇关键点位置相对于静默时的口唇关键点位置的偏移量；

关键点位置变换模块，用于根据所述目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到所述待驱动面部图像的更新后的面部关键点位置；

面部图像驱动模块，用于基于所述待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。

本申请第三方面提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述基于语音的图像驱动方法。

本申请第四方面提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述基于语音的图像驱动方法。

本申请提出的基于语音的图像驱动方法，预测目标语音对应的口唇偏移数据和目标语音对应的头部运动数据；口唇偏移数据表示发出目标语音时的口唇关键点位置相对于静默时的口唇关键点位置的偏移量；根据目标语音对应的口唇偏移数据和目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到待驱动面部图像的更新后的面部关键点位置；基于待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。采用本申请的技术方案，可以直接预测目标语音对应的口唇偏移数据和头部运动数据，然后根据口唇偏移数据和头部运动数据对待驱动面部图像进行驱动，无需利用目标语音对应的说话视频作为中间媒介，实现了端到端的语音驱动图像，提高了语音驱动图像的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种基于语音的图像驱动方法的流程示意图；

图2是本申请实施例提供的更新待驱动面部图像的面部关键点的处理流程示意图；

图3是本申请实施例提供的一种对待驱动面部图像进行驱动的处理流程示意图；

图4是本申请实施例提供的另一种对待驱动面部图像进行驱动的处理流程示意图；

图5是本申请实施例提供的一种基于语音的图像驱动装置的结构示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于虚拟形象驱动的应用场景。采用本申请实施例技术方案，能够实现端到端的语音驱动图像，提高了语音驱动图像的效率。

图片和视频蕴含的信息量不同，其最大的差距就在视频包含了大量的时序信息，而图片中并不存在时序信息。语音是时序信息的一种载体，因此将语音和图片结合起来，利用语音对图片中的图像进行驱动，从而能够补充单张图片中缺少的时序信息，得到语音驱动图片生成的图片序列，图片序列能够形成图片驱动视频。

语音驱动图像是指利用语音来驱动图像中的虚拟形象的口型变化，以使虚拟形象的口型为发出该语音时对应的口型。现有技术中，通常先获取语音对应的说话视频，然后利用说话视频对图像进行驱动，利用说话视频中各个视频帧的关键点位置来更新图像中的关键点位置，以驱动图像执行说话视频中的动作，从而实现语音驱动图像。但是，在利用语音对图像进行驱动的过程中，需要利用语音对应的说话视频作为中间媒介，才能实现对图像的驱动，使得语音驱动图像的效率较低。

鉴于上述的现有技术的不足以及现实存在的语音对图像进行驱动的过程中，需要利用语音对应的说话视频作为中间媒介，使得语音驱动图像的效率较低的问题，本申请发明人经过研究和试验，提出一种基于语音的图像驱动方法，该方法能够实现端到端的语音驱动图像，提高了语音驱动图像的效率。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出一种基于语音的图像驱动方法，参见图1所示，该方法包括：

S101、预测目标语音对应的口唇偏移数据和目标语音对应的头部运动数据。

具体的，某对象在发出语音时，口唇部位会因语音的发出而运动，并且不同的语音，口唇部位的动作也不相同，因此，在利用目标语音对待驱动面部图像进行驱动时，需要预测该目标语音对应的口唇偏移数据，其中，口唇偏移数据表示发出该目标语音时的口唇关键点位置相对于静默时的口唇关键点位置的偏移量。口唇关键点为因发出语音而产生口唇运动时，所有面部关键点中发生位置偏移的关键点。静默时的口唇关键点位置为待驱动面部图像的中性表情时的口唇关键点位置。

真实对象在发出语音时，会由于说话风格的不同，头部产生相应的动作，并且不同的语音，头部产生的动作也不相同，当利用语音对待驱动面部图像进行驱动时，口唇运动结合头部运动，可以提高待驱动面部图像被驱动时的真实感，因此，本实施例还需要预测出目标语音对应的头部运动数据。其中，头部运动参数包括头部旋转参数和头部平移参数，还可以包括尺度变化参数，由于本实施例是利用语音驱动图像，图像仅仅只会出现口唇运动以及头部运动，通常不会产生尺度变化，因此，本实施例中头部运动参数可以只包括头部旋转参数和头部平移参数。

具体步骤如下：

第一，预测目标语音中的各个语音帧对应的口唇偏移量和各个语音帧对应的头部运动参数。

目标语音中包含有至少一帧语音帧，本实施例需要对每一帧语音帧对应的口唇偏移量和头部运动参数进行预测。由于发出的语音中，不同的音素，口唇的动作不同，因此本实施例可以通过对音视频中，各个视频帧与对应的音频帧的分析，提取出各个音素对应的音频帧，并计算出与音频帧对齐的视频帧中的口唇偏移量和头部运动参数，从而汇总出各个音素对应的口唇偏移量以及各个音素对应的头部运动参数，然后根据目标语音中各个语音帧对应的音素，查询出各个语音帧对应的口唇偏移量和头部运动参数。

本实施例还可以预先训练出参数预测模型，然后将各个语音帧分别输入到该参数预测模型中，得到各个语音帧对应的口唇偏移量和各个语音帧对应的头部运动参数。其中，该参数预测模型可以由长短期记忆网络（LSTM）和多层感知器（MLP）组成，利用预先采集的第一样本语音以及该第一样本语音对应的样本标签训练得到。其中，第一样本语音对应的样本标签包括：第一样本语音对应的头部运动参数，以及与头部运动参数解耦的口唇偏移量。将第一样本语音输入到参数预测模型中，参数预测模型输出第一样本语音对应的样本头部运动参数和样本口唇偏移量，利用样本头部运动参数与样本标签中的头部运动参数之间的损失函数，以及样本口唇偏移量与样本标签中的口唇偏移量之间的损失函数，对参数预测模型的参数进行调整，从而实现对参数预测模型的训练。

第一样本语音为预先收集的音视频数据中的音频帧，第一样本语音对应的样本标签是通过对预先收集的音视频数据中，与音频帧对齐的视频帧进行分析得到的。预先收集的音视频数据可以为若干个高清主播数据，单人时长均值为20min。第一样本语音对应的样本标签的获取方式如下：

首先，计算该第一样本语音所处的音视频数据中的所有视频帧的面部框，该面部框包含了视频帧中的面部区域，可以利用MTCNN人脸检测器计算各个视频帧的面部框。从所有视频帧的面部框中选取最大覆盖范围的面部框作为裁剪框，并按照该裁剪框对所有视频帧进行裁剪，得到每个视频帧中的面部图像，组成该第一样本语音所处的音视频数据对应的面部图像序列。本实施例将所有视频帧的面部框中最大覆盖范围的面部框作为裁剪框，可以保证裁剪出的面部图像组成的图像序列具有连续性。从该面部图像序列中查找出与第一样本语音对齐的视频帧中的面部图像作为第一样本面部图像。

其次，针对第一样本面部图像，确定该第一样本语音对应的头部运动参数。其中，本实施例可以利用人脸3D形变统计模型（3DMM）拟合出第一样本面部图像中的头部运动参数作为该第一样本语音对应的头部运动参数。

然后，对第一样本面部图像进行面部关键点提取，得到第一样本面部图像的面部关键点位置。其中，本实施例可以采用现有的人脸关键点提取网络对第一样本面部图像进行面部关键点提取，面部关键点的数量优选为68个，那么当第一样本面部图像为2维图像时，第一样本面部图像的面部关键点位置则为（68,2）维矩阵。利用拟合出的第一样本面部图像中的头部运动参数，对第一样本面部图像的面部关键点位置进行归一化操作，从而剔除头部运动对面部图像中关键点偏移的影响，以使归一化后的面部关键点位置仅与口唇运动相关，并将归一化后的面部关键点位置作为第一样本面部图像的口唇关键点位置。其中，对面部关键点位置进行归一化操作的计算公式为：

其中，X表示归一化操作之前的面部关键点位置，

表示对面部关键点位置归一化操作之后的面部关键点位置，即口唇关键点位置，R表示头部运动参数中的头部旋转参数，t 表示头部运动参数中的头部平移参数，

表示仿射变换函数。

最后，将第一样本面部图像的口唇关键点位置与第一样本面部图像中的目标对象静默时的面部图像（即目标对象中性表情时的面部图像）的面部关键点位置之间的位置偏移量作为该第一样本语音对应的口唇偏移量。由于第一样本面部图像的口唇关键点位置为与头部运动参数解耦后的关键点位置，剔除了头部运动对面部图像中关键点偏移的影响，提高了计算口唇偏移量的准确度。

另外，第一样本语音可以携带该第一样本语音所处的音视频数据对应的目标对象的对象标识，利用该携带对象标识的第一样本语音和该第一样本语音对应的样本标签对参数预测模型进行训练，可以使得参数预测模型学习到该对象标识对应的口唇偏移习惯和头部运动习惯，利用多个对象标识对应的样本语音对参数预测模型进行训练，那么参数预测模型便可以学习到多个对象标识对应的口唇偏移习惯和头部运动习惯。在参数预测模型的实际应用中，将携带对象标识的目标语音输入到参数预测模型中，参数预测模型便能输出符合该对象标识的口唇偏移习惯的口唇偏移数据和符合该对象标识的头部运动习惯的头部运动数据，从而能够实现发出目标语音的对象的说话风格迁移。

第二，将各个语音帧对应的口唇偏移量组合得到目标语音对应的口唇偏移数据，将各个语音帧对应的头部运动参数组合得到目标语音对应的头部运动数据。

通过上述步骤预测出目标语音中各个语音帧对应的口唇偏移量和各个语音帧对应的头部运动参数之后，将各个语音帧对应的口唇偏移量按照目标语音中各个语音帧的顺序组合成口唇偏移量序列，并将该口唇偏移量序列作为该目标语音对应的口唇偏移数据。将各个语音帧对应的头部运动参数按照目标语音中各个语音帧的顺序组合成头部运动参数序列，并将该头部运动参数序列作为该目标语音对应的头部运动数据。

S102、根据目标语音对应的口唇偏移数据和目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到待驱动面部图像的更新后的面部关键点位置。

具体的，对于利用目标语音驱动的目标图像，本实施例需要检测目标图像中的面部框位置，并从该目标图像中提取面部框内的图像作为待驱动面部图像。然后对待驱动面部图像进行面部关键点提取，得到待驱动面部图像的面部关键点位置。其中，本实施例可以利用MTCNN人脸检测器检测目标图像中的面部框位置，利用现有的人脸关键点提取网络从待驱动面部图像中提取面部关键点，从而确定各个面部关键点的位置。

本实施例利用目标语音中的各个语音帧对应的口唇偏移数据和头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，即对待驱动面部图像的面部关键点位置进行更新，从而得到各个语音帧对应的更新后的面部关键点位置，以使更新后的面部关键点位置结合了语音帧对应的口唇运动和头部运动。本实施例可以按照目标语音中各个语音帧的顺序，将各个语音帧对应的更新后的面部关键点位置组成面部关键点位置序列。

S103、基于待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。

具体的，利用各个语音帧对应的更新后的面部关键点位置，对待驱动面部图像进行关键点位置变换，将关键点位置变换后的图像作为各个语音帧驱动后的面部图像，将所有语音帧驱动后的面部图像按照目标语音中各个语音帧的顺序进行组合，得到了驱动后的面部图像序列。

进一步地，本实施例得到各个语音帧驱动后的面部图像之后，还可以将驱动后的面部图像与目标图像裁剪掉面部图像之后的其余图像进行拼接，例如将面部图像与其他身体部位的图像进行拼接，得到各个语音帧对应的驱动后的完整图像，将所有语音帧驱动后的完整图像按照目标语音中各个语音帧的顺序进行组合，得到了驱动后的完整图像序列，从而能够得到语音驱动目标图像后生成的视频。其中，本实施例可以采用高斯融合的图像融合方式，将每个语音帧驱动后的面部图像与其余图像拼接成完整图像。

通过上述介绍可见，本申请实施例提出的基于语音的图像驱动方法，预测目标语音对应的口唇偏移数据和目标语音对应的头部运动数据；口唇偏移数据表示发出目标语音时的口唇关键点位置相对于静默时的口唇关键点位置的偏移量；根据目标语音对应的口唇偏移数据和目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到待驱动面部图像的更新后的面部关键点位置；基于待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。采用本申请的技术方案，可以直接预测目标语音对应的口唇偏移数据和头部运动数据，然后根据口唇偏移数据和头部运动数据对待驱动面部图像进行驱动，无需利用目标语音对应的说话视频作为中间媒介，实现了端到端的语音驱动图像，提高了语音驱动图像的效率。

作为一种可选的实施方式，参见图2所示，本申请另一实施例公开了，步骤S102包括：

S201、根据目标语音对应的口唇偏移数据，对待驱动面部图像的口唇区域关键点进行位置偏移处理，确定待驱动面部图像的偏移后的面部关键点位置。

具体的，预测出目标语音对应的口唇偏移数据和目标语音对应的头部运动数据后，首先需要利用目标语音对应的口唇偏移数据中包含的各个语音帧对应的口唇偏移量，对待驱动面部图像的口唇区域关键点进行位置偏移处理，即，将待驱动面部图像的面部关键点位置与各个语音帧对应的口唇偏移量相加，实现了按照各个语音帧对应的口唇偏移量，对待驱动面部图像的面部关键点位置中口唇区域关键点位置进行偏移，从而得到了各个语音帧对应的待驱动面部图像的偏移后的面部关键点位置。

S202、基于目标语音对应的头部运动数据，对待驱动面部图像的偏移后的面部关键点进行位置仿射变换，得到待驱动面部图像的更新后的面部关键点位置。

具体的，通过上述步骤得到了各个语音帧对应的待驱动面部图像的口唇区域关键点偏移后的面部关键点位置之后，利用目标语音对应的头部运动数据中，各个语音帧对应的头部运动参数，对各个语音帧对应的待驱动面部图像的口唇区域关键点偏移后的面部关键点位置进行位置仿射变换，得到各个语音帧对应的更新后的面部关键点位置，从而实现各个语音帧对应的口唇运动与头部运动的耦合，提高了各个语音帧对待驱动面部图像驱动后的真实感。

其中，各个语音帧对应的待驱动面部图像的更新后的面部关键点位置的计算公式如下：

其中，R表示语音帧对应的头部运动参数中的头部旋转参数，t表示语音帧对应的头部运动参数中的头部平移参数，

表示待驱动面部图像的面部关键点位置，为包含待驱动面部图像中所有关键点位置坐标的矩阵，

表示语音帧对应的口唇偏移量，为与

的维度相同的矩阵，

表示语音帧对应的待驱动面部图像的偏移后的面部关键点位置，

表示语音帧对应的待驱动面部图像的更新后的面部关键点位置。

作为一种可选的实施方式，参见图3所示，本申请另一实施例公开了，步骤S103包括：

S301、对待驱动面部图像进行人脸前景分割，得到待驱动面部图像的人脸前景区域和人脸背景区域。

具体的，由于利用语音驱动的目标图像被裁剪成待驱动面部图像和目标图像裁剪到面部图像之后的其余图像两部分，那么，利用语音驱动后的面部图像需要与其余图像进行拼接，得到利用语音驱动后的完整图像。为了使驱动后的面部图像能够与其余图像顺利拼接，需要保证在待驱动面部图像被各个语音帧驱动过程中，图像中的背景不发生变化。因此，本实施例可以首先对待驱动面部图像进行人脸前景与背景分割，从而得到该待驱动面部图像的人脸前景区域和人脸背景区域。

本实施例中，对待驱动面部图像进行人脸前景分割可以采用人脸解析（FaceParsing）技术，从待驱动面部图像中把人脸部分分割出来，得到人脸前景区域，将待驱动面部图像中人脸前景区域以外的区域作为人脸背景区域。还可以利用现有的基于直方图的自适应阈值方法，对待驱动面部图像进行人脸前景和人脸背景进行分割，该方法具体分割方式为：首先，采用Matlab对待驱动面部图像进行灰度直方图的构建，然后利用待驱动面部图像中要提取的目标对象与其背景在灰度特性上的差异，或者说利用边界的灰度突变性，把待驱动面部图像视为具有不同灰度级的两类区域（目标对象与背景）的组合，选取一个合适的阈值，以区分待驱动面部图像中每个像素点应该属于目标对象区域还是背景区域，通过对待驱动面部图像中各个像素点的区域划分，从而得到人脸前景区域和人脸背景区域。

S302、基于待驱动面部图像的更新后的面部关键点位置，对待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域。

具体的，为了保证在待驱动面部图像被各个语音帧驱动过程中，图像中的背景不发生变化，本实施例可以利用待驱动面部图像的更新后的面部关键点位置，只对待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域。具体位置调整方式为：根据待驱动面部图像的人脸前景区域中的面部关键点位置，以及待驱动面部图像的更新后的面部关键点位置，分析出待驱动面部图像的人脸前景区域的面部关键点位置更新前后的人脸前景区域形变场，然后根据该形变场对待驱动面部图像的人脸前景区域进行形变，得到位置调整后的人脸前景区域。

S303、将位置调整后的人脸前景区域与人脸背景区域进行拼接，得到驱动后的面部图像。

具体的，本实施例需要将位置调整后的人脸前景区域与人脸背景区域进行拼接，将拼接后的面部图像作为驱动后的面部图像。其中，每一帧语音帧均可以驱动人脸前景区域，得到一帧位置调整后的人脸前景区域，那么则需要对每一帧语音帧驱动后的人脸前景区域与人脸背景区域进行拼接，从而能够得到每一帧语音帧驱动后的面部图像。为了保证人脸前景区域与人脸背景区域之间拼接的准确度，可以采用图像补全算法，对人脸前景区域和人脸背景区域进行拼接，能够将人脸前景区域和人脸背景区域之间的纹理进行合成。

作为一种可选的实施方式，参见图4所示，本申请另一实施例公开了，步骤S302之后，还包括：

S403、对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并且变形优化调整后的人脸前景区域。

具体的，由于对人脸前景区域进行位置调整均是针对口唇偏移以及头部运动进行调整，因此根据根据待驱动面部图像的人脸前景区域中的面部关键点位置，以及待驱动面部图像的更新后的面部关键点位置，分析出的形变场中在眼睛部位缺少眼球信息、在口唇部位缺少牙齿信息等，以使根据该形变场生成的位置调整后的人脸前景区域中，会出现明显的眼睛和唇部的变形。

为了保证位置调整后的人脸前景区域的图像准确度，需要对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，以使位置调整后的人脸前景区域中变形异常区域中的图像趋于正常。变形优化调整的具体方式为：首先采集待驱动面部图像的人脸前景区域中会出现变形异常的变形异常区域的面部关键点位置，并利用预测出的头部运动数据对变形异常区域的面部关键点位置进行仿射变换，得到结合了头部运动后的变形异常区域的面部关键点位置；然后按照结合头部运动的变形异常区域的面部关键点位置，对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，从而能够得到位置调整并且变形优化调整后的人脸前景区域。

S404、将位置调整并且变形优化调整后的人脸前景区域与所述人脸背景区域进行拼接，得到驱动后的面部图像。

图4中的步骤S401-S402与图3中的步骤S301-S302相同，图4中的步骤S404与图3中的步骤S303相同，本实施例不再具体阐述步骤S401-S402、S404。

作为一种可选的实施方式，本申请另一实施例公开了，步骤S402-S403，基于待驱动面部图像的更新后的面部关键点位置，对待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域，以及，对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并且变形优化调整后的人脸前景区域，具体包括：

将待驱动面部图像的人脸前景区域和待驱动面部图像的更新后的面部关键点位置输入到预先训练的图像生成网络中，以使图像生成网络基于待驱动面部图像的更新后的面部关键点位置，对待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域，以及，对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并且变形优化调整后的人脸前景区域。

其中，图像生成网络可以利用预先采集的两帧同一对象的样本面部图像进行训练，首先提取第二帧样本面部图像中与头部运动和口唇运动相关的面部图像关键点位置，然后将第一帧样本面部图像和提取出的第二帧样本面部图像的面部图像关键点位置输入到该图像生成网络中的图像预测子网络中，以使图像预测子网络预测第一帧样本面部图像与第二帧样本面部图像之间的形变场，并根据该形变场生成预测样本面部图像，再将预测样本面部图像输入到该图像生成网络中的图像后处理子网络中，以使图像后处理子网络对预测样本面部图像进行变形优化调整，得到位置调整并且变形优化调整后的样本面部图像，利用输出的位置调整并且变形优化调整后的样本面部图像与第二帧样本面部图像之间的损失函数，对图像生成网络中的图像预测子网络和图像后处理子网络的参数进行调整，从而实现对图像生成网络的训练。其中，对图像预测子网络进行参数调整的损失函数可以包括感知损失函数（perceptual loss）、VGG loss等，对图像后处理子网络进行参数调整的损失函数可以包括用来判断生成图片质量的GAN loss等。

与上述的基于语音的图像驱动方法相对应的，本申请实施例还提出一种基于语音的图像驱动装置，参见图5所示，该装置包括：

预测模块100，用于预测目标语音对应的口唇偏移数据和目标语音对应的头部运动数据；口唇偏移数据表示发出目标语音时的口唇关键点位置相对于静默时的口唇关键点位置的偏移量；

关键点位置变换模块110，用于根据目标语音对应的口唇偏移数据和目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到待驱动面部图像的更新后的面部关键点位置；

面部图像驱动模块120，用于基于待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。

本申请实施例提出的基于语音的图像驱动装置，预测模块100预测目标语音对应的口唇偏移数据和目标语音对应的头部运动数据；口唇偏移数据表示发出目标语音时的口唇关键点位置相对于静默时的口唇关键点位置的偏移量；关键点位置变换模块110根据目标语音对应的口唇偏移数据和目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到待驱动面部图像的更新后的面部关键点位置；面部图像驱动模块120基于待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像。采用本实施例的技术方案，可以直接预测目标语音对应的口唇偏移数据和头部运动数据，然后根据口唇偏移数据和头部运动数据对待驱动面部图像进行驱动，无需利用目标语音对应的说话视频作为中间媒介，实现了端到端的语音驱动图像，提高了语音驱动图像的效率。

作为一种可选的实现方式，本申请另一实施例还公开了，预测模块100包括：单帧预测单元和组合单元。

单帧预测单元，用于预测目标语音中的各个语音帧对应的口唇偏移量和各个语音帧对应的头部运动参数；

组合单元，用于将各个语音帧对应的口唇偏移量组合得到目标语音对应的口唇偏移数据，将各个语音帧对应的头部运动参数组合得到目标语音对应的头部运动数据。

作为一种可选的实现方式，本申请另一实施例还公开了，单帧预测单元，具体用于：

将语音帧输入到预先训练的参数预测模型中，得到语音帧对应的口唇偏移量和语音帧对应的头部运动参数；

其中，参数预测模型基于第一样本语音以及第一样本语音对应的样本标签训练得到，第一样本语音对应的样本标签，包括第一样本语音对应的头部运动参数，以及与头部运动参数解耦的口唇偏移量。

作为一种可选的实现方式，本申请另一实施例还公开了，关键点位置变换模块110，具体用于：

根据目标语音对应的口唇偏移数据，对待驱动面部图像的口唇区域关键点进行位置偏移处理，确定待驱动面部图像的偏移后的面部关键点位置；

基于目标语音对应的头部运动数据，对待驱动面部图像的偏移后的面部关键点进行位置仿射变换，得到待驱动面部图像的更新后的面部关键点位置。

作为一种可选的实现方式，本申请另一实施例还公开了，面部图像驱动模块120包括：前景分割单元、位置调整单元和拼接单元。

前景分割单元，用于对待驱动面部图像进行人脸前景分割，得到待驱动面部图像的人脸前景区域和人脸背景区域；

位置调整单元，用于基于待驱动面部图像的更新后的面部关键点位置，对待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域；

拼接单元，用于将位置调整后的人脸前景区域与人脸背景区域进行拼接，得到驱动后的面部图像。

作为一种可选的实现方式，本申请另一实施例还公开了，面部图像驱动模块120还包括：变形优化调整单元。

变形优化调整单元，用于对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并且变形优化调整后的人脸前景区域。

作为一种可选的实现方式，本申请另一实施例还公开了，位置调整单元和变形优化调整单元具体用于：

本实施例提供的基于语音的图像驱动装置，与本申请上述实施例所提供的基于语音的图像驱动方法属于同一申请构思，可执行本申请上述任意实施例所提供的基于语音的图像驱动方法，具备执行该基于语音的图像驱动方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的基于语音的图像驱动方法的具体处理内容，此处不再加以赘述。

本申请另一实施例还公开了一种电子设备，参见图6所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的基于语音的图像驱动方法。

具体的，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器（CPU）、微处理器等，也可以是特定应用集成电路（application-specific integrated circuit，ASIC），或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器（read-only memory，ROM）、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器（random access memory，RAM）、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网（RAN），无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的基于语音的图像驱动方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例提供的基于语音的图像驱动方法的各个步骤。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于语音的图像驱动方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，预测目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据，包括：

3.根据权利要求2所述的方法，其特征在于，预测目标语音中的语音帧对应的口唇偏移量和语音帧对应的头部运动参数，包括：

4.根据权利要求1所述的方法，其特征在于，根据所述目标语音对应的口唇偏移数据和所述目标语音对应的头部运动数据，对待驱动面部图像的各个面部关键点进行位置变换，得到所述待驱动面部图像的更新后的面部关键点位置，包括：

5.根据权利要求1所述的方法，其特征在于，基于所述待驱动面部图像的更新后的面部关键点位置，生成驱动后的面部图像，包括：

6.根据权利要求5所述的方法，其特征在于，基于所述待驱动面部图像的更新后的面部关键点位置，对所述待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，基于所述待驱动面部图像的更新后的面部关键点位置，对所述待驱动面部图像的人脸前景区域进行关键点位置调整，得到位置调整后的人脸前景区域，以及，对位置调整后的人脸前景区域中的变形异常区域进行变形优化调整，得到位置调整并且变形优化调整后的人脸前景区域，包括：

8.一种基于语音的图像驱动装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至7中任一项所述的基于语音的图像驱动方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的基于语音的图像驱动方法。