CN117729298B

CN117729298B - 一种基于动作驱动和口型驱动的照片驱动方法

Info

Publication number: CN117729298B
Application number: CN202311730634.8A
Authority: CN
Inventors: 高春阳; 胡浩俊; 杨宏阳; 刘龙飞
Original assignee: Beijing Sinodata Technology Co ltd
Current assignee: Beijing Sinodata Technology Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-06-21
Anticipated expiration: 2043-12-15
Also published as: CN117729298A

Abstract

本发明公开了一种基于动作驱动和口型驱动的照片驱动方法，根据用户输入的音频或文本信息，驱动模型内置人物的口型，得到目标人物的说话的动作；根据音频驱动得到的动作，驱动用户上传的照片，实现照片驱动；最后为了实现实时驱动速度，将全部网络在TensorRT框架下进行推理。优点是：既能够实现动作效果，又无需进行训练，且能够实现实时照片驱动。通过结合语音驱动和动作驱动相结合的方式，达到提高照片驱动的效率和用户体验，从而满足用户对于高效、便捷和快速响应的需求。

Description

一种基于动作驱动和口型驱动的照片驱动方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于动作驱动和口型驱动的照片驱动方法。

背景技术

近年来，随着人工智能技术的不断发展，图像和语音处理技术也得到了长足的进步。在当前的行业内，许多公司采用音频直接驱动照片的方法来生成视频，但这种方法存在一个问题，就是生成的视频没有动作。

发明内容

本发明的目的在于提供一种基于动作驱动和口型驱动的照片驱动方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于动作驱动和口型驱动的照片驱动方法，包括如下步骤，

S1、语音驱动口型：

将用户输入的音频或根据用户输入的文本信息转换成的音频，输入到预训练好的Bert结构的模型中，预测三维人脸关键点；根据用户输入的是照片或视频，利用相应的姿态信息对获取的三维人脸关键点进行仿射变换，获取相应姿态下的三维人脸关键点；将相应姿态下的三维人脸关键点输入到预训练好的姿态后处理网络中，推理得到校验后的三维人脸关键点；利用校验后的三维人脸关键点为每一帧图像构建条件特征图，并基于条件特征图以及目标人物的候选图像集，获取目标人物的说话动作；

S2、动作驱动照片：

基于目标人物的说话动作和用户上传的图片或视频，利用改进的TPS Motion算法实现动作驱动照片；

S3、模型加速：

将全部的网络模型在TensorRT框架下进行模型推理，实现实时照片驱动。

优选的，步骤S1中，利用TTS方法将用户输入的文本信息转化为音频。

优选的，步骤S1具体包括如下内容，

S11、三维人脸关键点预测：利用DECA模型预测人脸的姿态信息pitch、yaw和roll以及3D人脸关键点信息作为GroundTruth，计算GroundTruth中人脸的姿态信息pitch、yaw和roll以及3D人脸关键点信息的均值和方差，并对计算结果进行归一化处理获取数据集，利用数据集对Bert结构的模型进行预训练，获取训练好的Bert结构的模型；将用户输入的音频或根据用户输入的文本信息转换成的音频，输入到训练好的Bert结构的模型中预测三维人脸关键点；

S12、三维人脸关键点校验：若用户上传的是照片，利用预置姿态对预测到的三维人脸关键点进行仿射变换，获取对应姿态下的三维人脸关键点；若用户上传的是视频，则利用DECA模型预测用户上传的视频中的人物的人脸姿态信息pitch，yaw和roll，再根据姿态信息对预测到的三维人脸关键点进行仿射变换，获取相应姿态下的三维人脸关键点；

S13、姿态域适应：设置姿态后处理网络PostPoseNet，利用姿态估计网络预测目标人视频的姿态作为GroundTruth，利用GroundTruth对姿态后处理网络进行预训练获取训练好的姿态后处理网络PostPoseNet，将相应姿态下的三维人脸关键点输入到训练好的姿态后处理网络PostPoseNet中推理得到校验后的三维人脸关键点；

S14、人脸渲染：为每一帧图像绘制由校验后的三维人脸关键点信息构建的条件特征图，将条件特征图结合目标人物的候选图像集一起输入到解码器中，实现人脸的渲染。

优选的，所述Bert结构的模型包括HuBERT模型和Audio2PoseNet；利用HuBERT模型提取用户输入音频的特征，并将音频特征输入到Audio2PoseNet中，将高维音频特征映射到68x3维，获取三维人脸关键点。

优选的，所述Audio2PoseNet包括顺次相连的四个1x1的卷积层和两个全连接层；除最后一个全连接层外，其他所有层的后面都跟随一个LeakyReLU激活层。

优选的，步骤S21中的所述预置姿态为，用DECA模型预测一段说话人的视频中的人脸姿态信息pitch，yaw和roll，将该人脸姿态信息pitch，yaw和roll作为预置姿态。

优选的，所述姿态后处理网络PostPoseNet包括对X轴做自适应和对Y轴做自适应，这两部分的网络结构相同，由四个全连接层组成，除最后一个全连接层外，其他层的后面都跟随一个LeakyReLU激活层。

优选的，所述改进的TPS Motion算法包括如下模块，

S21、关键点检测模块：基于目标人物的说话动作和用户上传的图片或视频，生成多对关键点用于生成多个TPS变换；

S22、背景运动预测模块：估计背景变换参数；

S23、稠密运动网络：使用多个TPS变换和背景变换参数进行流光估计、多分辨率遮挡mask预测，用于指导缺失区域；

S24、修复网络：使用预测流光扭曲原图的特征图，修复每个尺寸下特征图的缺失区域；实现动作驱动照片；所述修复网络的下采样层包括五个输入，分别是驱动视频的连续帧差、所述稠密运动网络预测得到的Optical flow和Masks、下采样层中相同尺寸的特征图以及上一层的输出特征图。

优选的，连续帧差按照不同层的特征图尺寸进行resize操作，以满足连续帧差经过resize操作后与当前层的特征图尺寸保持一致；具体地，

将Source Image输入到编码器中，得到不同尺寸的特征图，在解码器阶段，第一次上采样层输入光流、掩码、连续帧差和编码器最后一个特征图，用光流对上一层的输出做校验再分别与掩码和连续帧差做点乘并与编码器的对应尺寸的特征图进行concat操作，最后经过两个ResBlock层和一个Upsampling层得到输出的特征图。

优选的，步骤S3具体为，定义好网络模型的尺寸，加载网络模型并读入网络模型的权重，利用torch_tensorrt库编译加载好的网络模型，利用编译好的网络模型替换加载好的网络模型，利用替换后的网络模型进行相应的处理过程，实现模型加速。

本发明的有益效果是：1、本发明方法提供了一种新的照片驱动方法，既能够实现动作效果，又无需进行训练，且能够实现实时照片驱动。通过结合语音驱动和动作驱动相结合的方式，达到提高照片驱动的效率和用户体验，从而满足用户对于高效、便捷和快速响应的需求。2、本发明方法结合语音驱动和动作驱动，实现照片驱动，并且经过模型加速实现了实时照片驱动，该方法具有高效、稳定、易用等优点，能够广泛应用于各个领域。3、本发明相较于传统的音频直接驱动照片的方法，具有更高的效率和更好的用户体验，由于不需要进行训练，因此可以将更多的时间和精力投入到算法的优化上，进一步提高算法的性能和稳定性。4、本发明使用了模型加速技术实现了实时照片驱动。这意味着用户可以在短时间内得到满足他们需求的视频，大大提高了用户的使用效率和便捷性。

附图说明

图1是本发明实施例中方法的流程图；

图2是本发明实施例中语音驱动口型的流程图；

图3是本发明实施例中Audio2PoseNet的结构图；

图4是本发明实施例中三维人脸关键点校验流程图；

图5是本发明实施例中PostPoseNet各部分的结构图；

图6是本发明实施例中TPS Motion算法的结构图；

图7是本发明实施例中Inpainting Network的结构图；

图8是本发明实施例中模型转换的代码图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本实施例中，提供了一种基于动作驱动和口型驱动的照片驱动方法，该方法将语音驱动和动作驱动相结合，实现照片驱动，既有动作又不需要训练。不仅能够减少训练模型的时间和成本，还可以提高照片驱动的速度。方法包括如下几部分内容，

一、语音驱动口型：

将用户输入的音频或根据用户输入的文本信息转换成的音频，输入到预训练好的Bert结构的模型中，预测三维人脸关键点；根据用户输入的是照片或视频，利用相应的姿态信息对获取的三维人脸关键点进行仿射变换，获取相应姿态下的三维人脸关键点；将相应姿态下的三维人脸关键点输入到预训练好的姿态后处理网络中，推理得到校验后的三维人脸关键点；利用校验后的三维人脸关键点为每一帧图像构建条件特征图，并基于条件特征图以及目标人物的候选图像集，获取目标人物的说话动作。

该部分根据用户输入的音频或者文本信息，驱动模型内置人物的口型，得到目标人物的说话的动作。具体包括四个阶段，参见附图2，分别如下：

1.1、三维人脸关键点预测：利用DECA模型预测人脸的姿态信息pitch、yaw和roll以及3D人脸关键点信息作为GroundTruth，计算GroundTruth中人脸的姿态信息pitch、yaw和roll以及3D人脸关键点信息的均值和方差，并对计算结果进行归一化处理获取数据集，利用数据集对Bert结构的模型进行预训练，获取训练好的Bert结构的模型；将用户输入的音频或根据用户输入的文本信息转换成的音频，输入到训练好的Bert结构的模型中预测三维人脸关键点。

本实施例中，当用户输入的是文本信息，需要利用TTS方法将用户输入的文本信息转化为音频。

本实施例中，使用三维人脸关键点，相较于二维关键点，三维关键点具有更多的姿态信息。

本实施例中，所述Bert结构的模型采用ASR网络+CNN的形式根据音频预测三位人脸关键点，ASR网络在本发明中采用HuBERT模型的中文版本，主要用来提取音频的深度特征，CNN采用精心设计计的Audio2PoseNet，用来预测三位人脸关键点。首先利用HuBERT模型提取用户输入音频的特征，并将音频特征输入到Audio2PoseNet中，将高维音频特征映射到68x3维，获取三维人脸关键点。

所述Audio2PoseNet包括顺次相连的四个1x1的卷积层和两个全连接层；除最后一个全连接层外，其他所有层的后面都跟随一个LeakyReLU激活层。其具体结构参见附图3。

1.2、三维人脸关键点校验：在实际推理中，若用户上传的是照片，利用预置姿态(预置姿态为，用DECA模型预测一段说话人的视频中的人脸姿态信息pitch，yaw和roll，将该人脸姿态信息pitch，yaw和roll作为预置姿态)对预测到的三维人脸关键点进行仿射变换，获取对应姿态下的三维人脸关键点；若用户上传的是视频，则利用DECA模型预测用户上传的视频中的人物的人脸姿态信息pitch，yaw和roll，再根据姿态信息对预测到的三维人脸关键点进行仿射变换，获取相应姿态下的三维人脸关键点。执行流程参见附图4。

1.3、姿态域适应：设置姿态后处理网络PostPoseNet，利用姿态估计网络预测目标人视频的姿态作为GroundTruth，利用GroundTruth对姿态后处理网络进行预训练获取训练好的姿态后处理网络PostPoseNet，将相应姿态下的三维人脸关键点输入到训练好的姿态后处理网络PostPoseNet中推理得到校验后的三维人脸关键点。

由于HuBERT模型提取的音频特征具有普适性，但对于特定的人可能存在一些差异，因此，本发明涉及了一个姿态后处理网络PostPoseNet，先利用姿态估计网络预测目标人视频的姿态作为GroundTruth对姿态后处理网络进行预存连，获取训练好的姿态后处理网络PostPoseNet，之后当模型根据音频预测出动作后，再利用姿态后处理网络进行处理获取最终的姿态。

本实施例中，PostPoseNet的输入输出都是预测得到的三维人脸关键点，之所以选择三维人脸关键点，目的是方便用人脸的角度信息作校验，但在人脸渲染过程中我们去掉z轴将三维降低到二维。由于是在2D中，切x轴和y轴是相互独立的，所以PostPoseNet包含两部分，一部分是对x轴做域适应，另一部分是对y轴做域适应，每个部分的网络结构是相同的，由四个全联接层组成，除最后一个全联接层外，其余后面接一个LeakyReLU层。实际执行时，可以根据实际情况(用户根据自身喜好或者结果好坏自行选择)选择是否需要经过PostPoseNet，经过PostPoseNet可以使得驱动后的姿态与目标人本身说话风格更加相似。PostPoseNet中两个部分的具体结构相同，如图5所示。

1.4、人脸渲染：为每一帧图像绘制由校验后的三维人脸关键点信息构建的条件特征图，将条件特征图结合目标人物的候选图像集一起输入到解码器中，实现人脸的渲染。

为了提供面部和上半身的特征，我们从上述预测中为每一帧绘制条件特征图，特征图主要是预测到人脸姿态关键点信息构建的特征图。除了条件特征图外，我们还输入了目标人物的候选图像集，以提供详细的场景和纹理特征。最终拼接后的输入图像大小为13(1+3×4)×512×512，并输入到一个类似UNet的8层解码器中。

二、动作驱动照片：

基于目标人物的说话动作和用户上传的图片或视频，利用改进的TPS Motion算法实现动作驱动照片。参见附图6，改进的TPS Motion算法具体包括如下几部分内容，

2.1、关键点检测模块Ekp：基于目标人物的说话动作和用户上传的图片或视频，生成K*N对关键点用于生成K个TPS变换。

2.2、背景运动预测模块Ebg：估计背景变换参数。

2.3、稠密运动网络(Dense Motion Network)：这是一个hourglass网络，使用Ebg背景变换及Ekp的K个TPS变换进行光流估计、多分辨率遮挡mask预测，用于指导缺失区域。

2.4、修复网络(Inpainting Network)：同为hourglass网络，使用预测流光扭曲原图的特征图，修复每个尺寸下特征图的缺失区域；实现动作驱动照片。

为了更好地实现驱动效果，本发明对Inpainting Network进行了设计，结构如图7所示。所述修复网络的下采样层包括5个输入，分别是驱动视频的连续帧差(frame diff)、所述稠密运动网络预测得到的Optical flow和Masks、下采样层中相同尺寸的特征图以及上一层的输出特征图。从不同维度获取了运动相关的信息。

其中，连续帧差按照不同层的特征图尺寸进行resize操作，以满足连续帧差经过resize操作后与当前层的特征图尺寸保持一致；具体地，

本实施例中，TPS运动估计具体如下：

1、通过TPS可通过最小扭曲，将原图变换到目标图，如下式,表示图X上第i个关键点：

Ekp使用K*N个关键点，计算k个tps变换，每个使用N个关键点(N＝5)，TPS计算如下式,p为坐标，A与w为上式求解到的系数，U为偏置项；

背景变换矩阵如下式，其中Abg由背景运动预测器Ebg生成

通过Dense Motion Network将K+1个变换预测经过softmax得到M，如下式，

将其与K+1个变换结合计算光流，如下式

Dense Motion Network除了预测光流还预测多分辨率遮挡mask，通过在每层编码器添加一个额外的卷积层实现。

三、模型加速：

本实施例中，为了提高模型的推理速度，实现与用户的实时交互，本发明中将全部的网络转到TensorRT框架下进行推理，最终实现输入2s时长的音频，推理时间是1.8s。模型转换代码如图8所示。

转换的具体过程为：定义好网络模型的尺寸，加载网络模型并读入网络模型的权重，利用torch_tensorrt库，按照图8中的代码块编译加载好的网络模型，利用编译好的网络模型替换加载好的网络模型，利用替换后的网络模型进行相应的处理过程，实现模型加速。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明提供了一种基于动作驱动和口型驱动的照片驱动方法，本发明方法提供了一种新的照片驱动方法，既能够实现动作效果，又无需进行训练，且能够实现实时照片驱动。通过结合语音驱动和动作驱动相结合的方式，达到提高照片驱动的效率和用户体验，从而满足用户对于高效、便捷和快速响应的需求。本发明方法结合语音驱动和动作驱动，实现照片驱动，并且经过模型加速实现了实时照片驱动，该方法具有高效、稳定、易用等优点，能够广泛应用于各个领域。本发明相较于传统的音频直接驱动照片的方法，具有更高的效率和更好的用户体验，由于不需要进行训练，因此可以将更多的时间和精力投入到算法的优化上，进一步提高算法的性能和稳定性。本发明使用了模型加速技术实现了实时照片驱动。这意味着用户可以在短时间内得到满足他们需求的视频，大大提高了用户的使用效率和便捷性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于动作驱动和口型驱动的照片驱动方法，其特征在于：包括如下步骤，

S1、语音驱动口型：

步骤S1具体包括如下内容，

S12、三维人脸关键点校验：若用户上传的是照片，利用预置姿态对预测到的三维人脸关键点进行仿射变换，获取对应姿态下的三维人脸关键点；若用户上传的是视频，则利用DECA模型预测用户上传的视频中的人物的人脸姿态信息pitch，yaw和rol l，再根据姿态信息对预测到的三维人脸关键点进行仿射变换，获取相应姿态下的三维人脸关键点；

S14、人脸渲染：为每一帧图像绘制由校验后的三维人脸关键点信息构建的条件特征图，将条件特征图结合目标人物的候选图像集一起输入到解码器中，实现人脸的渲染；

S2、动作驱动照片：

S3、模型加速：

2.根据权利要求1所述的基于动作驱动和口型驱动的照片驱动方法，其特征在于：步骤S1中，利用TTS方法将用户输入的文本信息转化为音频。

3.根据权利要求1所述的基于动作驱动和口型驱动的照片驱动方法，其特征在于：所述Bert结构的模型包括HuBERT模型和Audio2PoseNet；利用HuBERT模型提取用户输入音频的特征，并将音频特征输入到Audio2PoseNet中，将高维音频特征映射到68x3维，获取三维人脸关键点。

4.根据权利要求3所述的基于动作驱动和口型驱动的照片驱动方法，其特征在于：所述Audio2PoseNet包括顺次相连的四个1x1的卷积层和两个全连接层；除最后一个全连接层外，其他所有层的后面都跟随一个LeakyReLU激活层。

5.根据权利要求1所述的基于动作驱动和口型驱动的照片驱动方法，其特征在于：步骤S21中的所述预置姿态为，用DECA模型预测一段说话人的视频中的人脸姿态信息pitch，yaw和roll，将该人脸姿态信息pitch，yaw和roll作为预置姿态。

6.根据权利要求1所述的基于动作驱动和口型驱动的照片驱动方法，其特征在于：所述姿态后处理网络PostPoseNet包括对X轴做自适应和对Y轴做自适应，这两部分的网络结构相同，由四个全连接层组成，除最后一个全连接层外，其他层的后面都跟随一个LeakyReLU激活层。

7.根据权利要求1所述的基于动作驱动和口型驱动的照片驱动方法，其特征在于：所述改进的TPS Motion算法包括如下模块，

S22、背景运动预测模块：估计背景变换参数；

8.根据权利要求7所述的基于动作驱动和口型驱动的照片驱动方法，其特征在于：连续帧差按照不同层的特征图尺寸进行resize操作，以满足连续帧差经过resize操作后与当前层的特征图尺寸保持一致；具体地，

将Source Image输入到编码器中，得到不同尺寸的特征图，在解码器阶段，第一次上采样层输入光流、掩码、连续帧差和编码器最后一个特征图，用光流对上一层的输出做校验再分别与掩码和连续帧差做点乘并与编码器的对应尺寸的特征图进行concat操作，最后经过两个ResBlock层和一个Upsampl ing层得到输出的特征图。

9.根据权利要求1所述的基于动作驱动和口型驱动的照片驱动方法，其特征在于：步骤S3具体为，定义好网络模型的尺寸，加载网络模型并读入网络模型的权重，利用torch_tensorrt库编译加载好的网络模型，利用编译好的网络模型替换加载好的网络模型，利用替换后的网络模型进行相应的处理过程，实现模型加速。