CN118038516A

CN118038516A - 照片数字人说话的驱动方法、系统、电子设备和存储介质

Info

Publication number: CN118038516A
Application number: CN202410059505.9A
Authority: CN
Inventors: 李�权; 曾令帆; 王伦基; 成秋喜; 叶俊杰; 卓寿杰; 付玟
Original assignee: Guangzhou Sailingli Technology Co ltd
Current assignee: Guangzhou Sailingli Technology Co ltd
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-05-14

Abstract

本发明公开了一种照片数字人说话的驱动方法、系统、电子设备和存储介质，可广泛应用于数字人技术领域。本发明通过先对输入照片进行预处理后得到对应的人脸图像，然后根据该人脸图像与数字人说话视频模板生成风格视频，再根据该风格视频和驱动音频生成包含说话唇形的人脸视频，将人脸视频与输入照片进行融合后得到照片数字人的说话视频；本实施例通过照片既能得到数字人的说话视频，从而可以有效降低数字人说话的制作成本。

Description

照片数字人说话的驱动方法、系统、电子设备和存储介质

技术领域

本发明涉及数字人技术领域，尤其是一种照片数字人说话的驱动方法、系统、电子设备和存储介质。

背景技术

相关技术中，数字人的应用涵盖虚拟现实、电影制作、游戏设计等多个领域。现有的数字人生产技术主要是定制化2D数字人，需要真人拍摄、从而需要较高要求的拍摄环境，还需要耗费定制数字人身份人的时间和成本，进而增加数字人说话的制作成本。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种照片数字人说话的驱动方法、系统、电子设备和存储介质，能够降低数字人说话的制作成本。

一方面，本发明实施例提供了一种照片数字人说话的驱动方法，包括以下步骤：

获取输入照片；

对所述输入照片进行预处理，得到第一人脸图像；

获取数字人说话视频模板，所述数字人说话视频模板为无声视频且所述数字人说话视频模板包括人脸目标框、头部晃动动作、眨眼动作和面部表情动作；所述人脸目标框的大小与所述第一人脸图像的大小相同；

根据所述第一人脸图像和所述数字人说话视频模板生成风格视频；

获取驱动音频；

根据所述驱动音频和所述风格视频生成人脸视频，所述人脸视频包括说话唇形；

将所述人脸视频与所述输入照片进行融合，得到包含人脸下半身的说话视频。

在一些实施例中，所述对所述输入照片进行预处理，得到第一人脸图像，包括：

提取所述输入照片对应不同尺寸的图像特征；

根据所述不同尺寸的图像特征生成包含脸部的目标框；

根据所述目标框，通过最近邻缩放法生成预设尺寸大小的第一人脸图像。

在一些实施例中，所述获取数字人说话视频模板，包括：

获取预设时长的模特视频，所述模特视频为无声视频且所述模特视频包括头部晃动动作、眨眼动作、面部表情动作和第二人脸图像；

剔除所述模特视频中的第二人脸图像，得到所述数字人说话视频模板。

在一些实施例中，所述根据所述第一人脸图像和所述数字人说话视频模板生成风格视频，包括：

确定所述数字人说话视频模板的第一标签信息和所述人脸图像的第二标签信息；

根据所述第一标签信息和所述第二标签信息，将所述第一人脸图像映射到所述数字人说话视频模板中对应位置，得到风格视频。

在一些实施例中，所述根据所述驱动音频和所述风格视频生成人脸视频，包括：

获取所述驱动音频的第一时长和所述风格视频的第二时长；

若所述第一时长大于所述第二时长，将所述风格视频从起始到结束的顺序循环与所述驱动音频进行匹配，直至所述驱动音频匹配完成，生成所述人脸视频；

若所述第一时长小于等于所述第二时长，将所述风格视频从起始到结束的顺序与所述驱动音频进行匹配，直至所述驱动音频匹配完成，生成所述人脸视频。

在一些实施例中，在所述将所述人脸视频与所述输入照片进行融合这一步骤之前，所述方法还包括以下步骤：

对所述人脸视频的脸部进行网络清晰化处理。

在一些实施例中，所述将所述人脸视频与所述输入照片进行融合，包括：

获取所述人脸视频中的目标框区域图像；

计算所述目标框区域图像与所述输入照片的梯度场；

对所述梯度场进行调整；

将梯度场调整后的目标区域图像嵌入到所述输入照片中。

另一方面，本发明实施例提供了一种照片数字人说话的驱动系统，包括：

第一模块，用于获取输入照片；

第二模块，用于对所述输入照片进行预处理，得到第一人脸图像；

第三模块，用于获取数字人说话视频模板，所述数字人说话视频模板为无声视频且所述数字人说话视频模板包括人脸目标框、头部晃动动作、眨眼动作和面部表情动作；所述人脸目标框的大小与所述第一人脸图像的大小相同；

第四模块，用于根据所述第一人脸图像和所述数字人说话视频模板生成风格视频；

第五模块，用于获取驱动音频；

第六模块，用于根据所述驱动音频和所述风格视频生成人脸视频，所述人脸视频包括说话唇形；

第七模块，用于将所述人脸视频与所述输入照片进行融合，得到包含人脸下半身的说话视频。

另一方面，本发明实施例提供了一种电子设备，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行上述的照片数字人说话的驱动方法。

另一方面，本发明实施例提供了一种计算机存储介质，其中存储有计算机可执行的程序，所述计算机可执行的程序被处理器执行时用于实现上述的照片数字人说话的驱动方法。

本发明实施例具有如下有益效果：

本实施例通过先对输入照片进行预处理后得到对应的人脸图像，然后根据该人脸图像与数字人说话视频模板生成风格视频，再根据该风格视频和驱动音频生成包含说话唇形的人脸视频，将人脸视频与输入照片进行融合后得到照片数字人的说话视频；本实施例通过照片既能得到数字人的说话视频，从而可以有效降低数字人说话的制作成本。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实施例对本发明做进一步的说明，其中：

图1为本发明实施例一种照片数字人说话的驱动方法的流程图；

图2为本发明实施例一种迁移映射算法的应用示意图；

图3为本发明实施例一种唇形说话模型的应用示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

参照图1，本发明实施例提供了一种照片数字人说话的驱动方法，本实施例的方法可应用于2D、3D应用平台对应的处理端、服务器或云端。在应用过程中，本实施例的方法包括但不限于以下步骤：

步骤S110、获取输入照片；

步骤S120、对输入照片进行预处理，得到第一人脸图像；

在本实施例中，输入照片可以是目标显示的图像。例如，数字人说话的显示效果希望是张三，则该输入照片可以是包含张三人脸的图像。该输入照片的尺寸可以是任意大小，也可以包含任意背景。在得到输入照片后，对该输入照片进行预处理，以得到只包含人脸的图像作为第一人脸图像。可以理解的是，本实施例的预处理过程可以是通过提取输入照片对应不同尺寸的图像特征后，根据不同尺寸的图像特征生成包含脸部的目标框，根据该目标框，通过最近邻缩放法生成预设尺寸大小的第一人脸图像。示例性地，以预设尺寸大小为256*256为例，在得到输入照片后，首先需要将输入照片中的人脸部分分割出来，并缩放成256*256宽高的尺寸，以得到的风格图片只包含人脸部分，并采用目标框生成算法在图像中准确生成包含人脸的目标框，再通过最近临插值缩放算法缩放人脸目标框，得到256*256的图片作为第一人脸图像。

步骤S130、获取数字人说话视频模板；

在本申请实施例中，数字人说话视频模板为无声视频且数字人说话视频模板包括人脸目标框、头部晃动动作、眨眼动作和面部表情动作；人脸目标框的大小与第一人脸图像的大小相同，从而可以使得第一人脸图像可以嵌入到数字人说话视频模板对应的人脸区域。在本实施例中，希望在照片说话时，头部有生动真实的晃动和眨眼、眉毛轻微晃动的动作，为此，本实施例通过获取预设时长的无声视频且该视频包含头部晃动动作、眨眼动作、面部表情动作和第二人脸图像作为模特视频后，剔除模特视频中的第二人脸图像，得到数字人说话视频模板，从而使得数字人说话视频模板中包含真实的头部晃动、眨眼和眉毛晃动等表情动作，并且该视频中的人脸可以换成目标对象所期待的人脸。可以理解的是，对于本实施例的模特视频，本实施例可以通过直接拍摄一段15s长度的视频作为模特视频，该视频内容是模特正对镜头做出自然眨眼晃动头部、细微表情但嘴唇不说任何话，且该视频内容和输入照片对应内容相同。该模特视频中只包含人脸的目标框，且视频图像尺寸大小与第一人脸图像的预设尺寸大小相同。例如，预设尺寸大小为256*256，则该视频图像尺寸大小也为256*256。然后直接采用剪辑软件pr分割掉第二人脸图像后的视频作为数字人说话视频模板。

步骤S140、根据第一人脸图像和数字人说话视频模板生成风格视频；

在本实施例中，由于数字人说话视频模板中已经分割掉了第二人脸图像，因此，可以将分割掉了第二人脸图像后的数字人说话视频模板迁移映射到任意人脸图像中，进而生成不同风格的视频。可以理解的是，本实施例可以通过先确定数字人说话视频模板的第一标签信息和人脸图像的第二标签信息后，根据第一标签信息和第二标签信息，将第一人脸图像迁移映射到数字人说话视频模板中对应位置，从而得到风格视频。具体地，如图2所示，迁移映射算法包括两个输入部分，分别是第一人脸图像作为待驱动图片(Source image)的第一输入、数字人说话视频模板作为驱动视频(Driving image)的第二输入。由于该驱动视频的内容只有脖子动作和不说话的表情，因此，通过潜在空间下面部图像重映射算法后，既能得到待驱动图片做出完全相同标签和脖子动作的风格视频(output image)。

步骤S150、获取驱动音频；

步骤S160、根据驱动音频和风格视频生成人脸视频；

在本申请实施例中，驱动输入照片说话的驱动数据实际上是音频，音频与唇形具有强相关性，因此，本实施例可以通过将驱动音频和风格视频一起输入到音频驱动说话模型，以生成包括说话唇形的人脸视频。可以理解的是，本实施例可以通过获取驱动音频的第一时长和风格视频的第二时长后，根据第一时长和第二时长之间的大小关系生成相应的人脸视频。具体地，若第一时长大于第二时长，将风格视频从起始到结束的顺序循环与驱动音频进行匹配，直至驱动音频匹配完成，生成所述人脸视频；若第一时长小于等于第二时长，将风格视频从起始到结束的顺序与驱动音频进行匹配，直至驱动音频匹配完成，生成人脸视频。示例性地，当风格视频的时长为15秒时，如果驱动音频的时间长度大于15s，则将风格视频按照从起始到结束不断循环与音频时间长度匹配；如果驱动音频的时间长度小于等于15s，则最终模型合成的人脸视频长度始终以音频长度为标准。

在本实施例中，由于前面应用的模型很难在高分辨率的说话头部数据集下进行训练，导致生成的人脸视频质量不够清晰，因此，本实施例通过对人脸视频的脸部进行网络清晰化处理，具体可以是清晰化说话阶段牙齿和嘴唇附近的清晰度。可以理解的是，本实施例可以通过gpfgan模型对人脸视频的脸部进行网络清晰化处理，该模型可以在人像复原和超分方面具有真实性和高保真的平衡。

步骤S170、将人脸视频与输入照片进行融合，得到包含人脸下半身的说话视频。

在本实施例中，由于人脸视频是只包含人脸图片的256*256图像大小的视频，因此，本实施例可以通过将人脸视频与输入照片进行融合，从而得到包含人脸下半身的说话视频。可以理解的是，本实施例可以通过opencv工具下的图像融合算法，可以将人脸视频和输入照片融合及输出得到包含人脸下半身的说话视频。具体地，本实施例的融合处理过程可以是通过获取人脸视频中的目标框区域图像后，计算目标框区域图像与输入照片的梯度场；然后对梯度场进行调整，再将梯度场调整后的目标区域图像嵌入到输入照片中。

在一些实施例中，本实施例提出的方法在应用过程的完整实施过程如下：

步骤1、输入一张任意图片，该图片必须包含人脸部分且是正视图。通过单阶段目标检测算法以极快得推理速度得到人脸目标框左上角二维坐标值和宽高数据，目标检测算法采用了一种强大的骨干网络(backbone network)用语提取图像的特征，该骨干网络通常通过Darknet-53等骨干网络进行构建。这些网络具有深度和复杂性，有助于捕捉图像中的高级图像特征，算法映入了多尺度特征金字塔，通过不同深度得网络层提取特征，以便同时检测不同尺寸的目标。这种结构有助于提高模型对于尺寸变化较大目标得检测能力。该网络可以输出得到一个包含脸部任意尺寸矩形框，在通过最近邻缩放算法得到256*256尺寸的图片作为第一人脸图像。

步骤2、通过男女老少组成的模特拍摄四组15s不说任何话下眨眼摇头风格的模特视频，并将步骤1的人脸目标框同步送入到潜在空间下面部图像重演映射算法模型中，该模型分为俩部分：第一步、将人脸目标框对应图像映射到隐空间编码；第二步、通过编码器得到压缩光流场，并对图片进行扭曲。具体的操作过程是指不同视觉变化下的正交基是一个字典，驱动图片会通过编码器预测得到幅度向量，再与字典的向量结合。通过解码器得到压缩光流场，在对图片进行扭曲后，最终得到生成的图片，对375帧图片重复进行上述步骤后，最终得到生成的四组摇头眨眼的风格视频。

步骤3、在步骤2得到风格视频后，将风格视频和驱动音频一起送入到唇形说话模型中。可以理解的是，唇形说话模型如图3所示。该模型框架主要分为三个部分：第一部分是是D-net；第二部分是L-Net；第三部分是E-Net.D-Net；该模型的输入是一个姿态参考图像帧，输入不同模板修改后的姿态参考图帧。D-Net是一个三维人脸重建模型，L-Net输入的是D-Net修改后的姿态参考图像帧，原图mask图像帧和音频，输出是音频驱动的图像帧。L-Net是一个类似与wav2lip的模型。E-Net的左右是超分。最终得到了和音频说话同步的人脸视频。

步骤4、本步骤输出的视频是256*256尺寸的人脸，容易存在模糊的情况，为了高清化视频中的人脸动作细节，本步骤采用一种超分算法。该算法是一种用于生成人脸解析的生成对抗网络模型，能够将模糊的人脸图像分解成更加清晰的形式。其中超分算法包含生成器和判别器两部分，生成器的人物是接受输入的随机噪声或人脸图像，然后生成具有高质量解析的人脸图像，在人脸解析人物中，这通常包括为每个像素分配正确的语义标签。判别器的人物是区分生成器生成的图像与真实人脸解析图像之间的差异，通过对抗训练，判别器促使生成器生成更逼真的解析效果，与一些低级别任务不同，人脸解析要求高分辨率和多通道的输出，超分需要被观察的人脸解析中捕捉详细的语音信息，确保每个像素都正确的分配到相应的部位。

步骤5、为了得到全身的说话视频，需要将步骤4超清化后的视频与原输入图片的身体部分拼接起来。本实施例使用opencv工具下的图像融合算法。该算法也叫做无缝缝合，用于将一个图像的一部分无缝的嵌入到另一个图像中，使得嵌入部分与目标图像的背景融合自然。具体处理包含以下步骤：在原输入图片中选择到人脸目标框的区域，这个区域将嵌入到原输入图片中，计算源图像和目标图像的梯度场。其中，梯度场表示图像中每个像素的颜色变化情况，生成一个与原图像中选择区域相对于的掩膜，这个掩膜通常是一个二值图像。其中嵌入区域为前景，其余部分为背景。使用泊松方程对梯度场进行调整，以确保嵌入区域与目标图像的周围无缝缝合。本步骤的核心是无缝合成，对嵌入区域进行颜色调整，以确保其颜色和光照与周围环境一致。将调整后的嵌入区域通过掩膜叠加到目标图像上。这个股票池利用了泊松方程的结果，确保了无缝的融合。通过以上步骤，最终能够生成全身的与音频同步唇形的说话视频。

通过上述内容可知，本实施例的方法能够快速让照片说话，并且使用成本非常低廉，面部的说话也生动形象。

本发明实施例提供了一种照片数字人说话的驱动系统，包括：

第一模块，用于获取输入照片；

第二模块，用于对输入照片进行预处理，得到第一人脸图像；

第三模块，用于获取数字人说话视频模板，其中，数字人说话视频模板为无声视频且数字人说话视频模板包括人脸目标框、头部晃动动作、眨眼动作和面部表情动作；人脸目标框的大小与第一人脸图像的大小相同；

第四模块，用于根据第一人脸图像和数字人说话视频模板生成风格视频；

第五模块，用于获取驱动音频；

第六模块，用于根据驱动音频和风格视频生成人脸视频，其中，人脸视频包括说话唇形；

第七模块，用于将人脸视频与输入照片进行融合，得到包含人脸下半身的说话视频。

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例提供了一种电子设备，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行图1所示的照片数字人说话的驱动方法。

本发明方法实施例的内容均适用于本电子设备实施例，本电子设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例提供了一种计算机存储介质，其中存储有计算机可执行的程序，所述计算机可执行的程序被处理器执行时用于实现图1所示的照片数字人说话的驱动方法。

本发明方法实施例的内容均适用于本存储介质实施例，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

此外，本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的照片数字人说话的驱动方法。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种照片数字人说话的驱动方法，其特征在于，包括以下步骤：

获取输入照片；

对所述输入照片进行预处理，得到第一人脸图像；

获取驱动音频；

2.根据权利要求1所述的一种照片数字人说话的驱动方法，其特征在于，所述对所述输入照片进行预处理，得到第一人脸图像，包括：

提取所述输入照片对应不同尺寸的图像特征；

根据所述不同尺寸的图像特征生成包含脸部的目标框；

3.根据权利要求1所述的一种照片数字人说话的驱动方法，其特征在于，所述获取数字人说话视频模板，包括：

4.根据权利要求1所述的一种照片数字人说话的驱动方法，其特征在于，所述根据所述第一人脸图像和所述数字人说话视频模板生成风格视频，包括：

5.根据权利要求1所述的一种照片数字人说话的驱动方法，其特征在于，所述根据所述驱动音频和所述风格视频生成人脸视频，包括：

获取所述驱动音频的第一时长和所述风格视频的第二时长；

6.根据权利要求1所述的一种照片数字人说话的驱动方法，其特征在于，在所述将所述人脸视频与所述输入照片进行融合这一步骤之前，所述方法还包括以下步骤：

对所述人脸视频的脸部进行网络清晰化处理。

7.根据权利要求1所述的一种照片数字人说话的驱动方法，其特征在于，所述将所述人脸视频与所述输入照片进行融合，包括：

获取所述人脸视频中的目标框区域图像；

计算所述目标框区域图像与所述输入照片的梯度场；

对所述梯度场进行调整；

将梯度场调整后的目标区域图像嵌入到所述输入照片中。

8.一种照片数字人说话的驱动系统，其特征在于，包括：

第一模块，用于获取输入照片；

第五模块，用于获取驱动音频；

9.一种电子设备，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行如权利要求1-7任一项所述的照片数字人说话的驱动方法。

10.一种计算机存储介质，其特征在于，其中存储有计算机可执行的程序，所述计算机可执行的程序被处理器执行时用于实现如权利要求1-7任一项所述的照片数字人说话的驱动方法。