CN116528019A

CN116528019A - 基于语音驱动和人脸自驱动的虚拟人视频合成方法

Info

Publication number: CN116528019A
Application number: CN202310724745.1A
Authority: CN
Inventors: 罗引; 郑洋; 陈博; 徐楠; 李军锋; 曹家; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-08-01
Anticipated expiration: 2043-06-19
Also published as: CN116528019B

Abstract

本发明提供了一种基于语音驱动和人脸自驱动的虚拟人视频合成方法，包括：对原始虚拟人视频素材进行预处理，得到首帧人脸图像为基准人脸图像的第一视频素材；利用设定口型驱动模型驱动所述第一视频素材，得到第二视频素材；将第一视频素材中的首帧人脸图像作为被驱动人脸图像，将第二视频素材中的人脸图像作为口型驱动图像序列，通过设定人脸驱动算法得到第三视频素材；利用第三视频素材中的人脸图像替换原始虚拟人视频素材中对应的人脸图像，得到第四视频素材；将第四视频素材和目标音频文件进行合成，得到虚拟人内容播报视频。本发明能够高清化虚拟人的唇形、牙齿细节，发音和唇形吻合度高，可以对新的人物形象不加训练而快速迁移。

Description

基于语音驱动和人脸自驱动的虚拟人视频合成方法

技术领域

本发明涉及人工智能领域，特别是涉及一种基于语音驱动和人脸自驱动的虚拟人视频合成方法。

背景技术

随着元宇宙热潮的推动，以及计算机技术、AI技术的飞速发展，虚拟数字人已经成为了当下及未来几年的主要趋势之一，在教育、娱乐、文宣、新闻播报等诸多领域有着广泛的应用。在传播传媒类服务中，其核心诉求是如何快速高效地利用文本或音频进行虚拟人视频创作，减少人工录制成本。

针对虚拟人视频创作问题，早期的虚拟人视频主要为人工制作，通过大量后期离线渲染的方式实现，人工制作成本高且效率低，严重限制了传媒内容的输出效率。近年来随着人工智能技术的发展，为虚拟人视频的自动合成提供了较好的解决方案。

目前已有的虚拟人视频合成方法主要是对特定人物形象进行针对性训练，通过AI换脸的方式进行播报视频的生成，算法模型对其他人物形象不具备通用性，且唇形、牙齿、下巴等细节的清晰度和真实度存在不足。如专利文献1(专利申请号：CN202110519344.3)公开的AI主播视频的生成方法、装置、电子设备及存储介质，该技术将唇形图像序列和AI主播图像融合，未考虑牙齿的清晰度和下巴的随动性问题。专利文献2公开了(专利申请号：CN202210061976.4)提供了一种虚拟人讲解视频生成方法及相关装置，该技术需要采集所述人物图像的特征参数以及训练标准人物模型参数，模型不具备通用性。仅考虑虚拟人的唇形会使得合成视频在面部细节和自然度上存在不足，且针对性训练的方案不具备新的人物形象快速部署的条件。即，现有的虚拟人视频合成方法在人脸的整体自然度和真实度方面存在不足，主要存在如下所述问题：

1)生成的人脸、唇形、牙齿清晰度低，且存在牙齿缺失等情况，且算法模型需要对每个角色针对性训练，面部细节自然度和真人存在差距且效果不可控；

2)人脸和人体其它部位或者背景间的过渡不够平滑自然，存在明显的拼接痕迹。虚拟人的下巴不跟随嘴部的张合程度进行相应运动，整体自然度低。

发明内容

针对上述技术问题，本发明采用的技术方案为：

本发明实施例提供一种基于语音驱动和人脸自驱动的虚拟人视频合成方法，所述方法包括如下步骤：

S100，对原始虚拟人视频素材进行预处理，得到首帧人脸图像为基准人脸图像的第一视频素材；

S200，基于目标音频文件，利用设定口型驱动模型驱动所述第一视频素材，得到口型与所述目标音频文件相匹配的第二视频素材；

S300，将所述第一视频素材中的首帧人脸图像作为被驱动人脸图像，所述第二视频素材中的人脸图像作为口型驱动图像序列，通过设定人脸驱动算法得到第三视频素材；

S400，利用所述第三视频素材中的人脸图像替换所述原始虚拟人视频素材中对应的人脸图像，得到第四视频素材；

S500，将所述第四视频素材和所述目标音频文件进行合成，得到最终的虚拟人内容播报视频。

本发明至少具有以下有益效果：

本发明实施例提供的基于语音驱动和人脸自驱动的虚拟人视频合成方法，利用口型生成、形象驱动、图像处理等多项人工智能技术，涉及音频、图像等多个维度的数据处理。首先，基于算法自动选取一段视频中的最优人脸，替换到首帧虚拟人图像上。然后通过人脸检测获得虚拟人的面部区域，基于一段音频去驱动虚拟人原图像的面部口型获得清晰度相对较低的第一阶段人脸图像；利用上述口型驱动后的图像，通过人脸自驱动模型去驱动虚拟人首帧人脸图像以生成高清化的第二阶段虚拟人头像，虚拟人的口型、面部表情、头部姿态与第一阶段图像一致；通过人脸解析模型分割得到人脸各区域的像素范围，将人脸自驱动生成的头部图像的面部及脖子区域通过AI换脸替换到虚拟人原始全身图像相应区域，进行边缘腐蚀和平滑操作保证拼接过渡区域的衔接自然平滑，虚拟人的动作姿态与原图像一致；将生成的虚拟人视频与音频进行合成，最终得到虚拟人内容播报的视频。本发明能够高清化虚拟人的唇形、牙齿细节，使得人物下巴跟随口型运动从而增加整体自然度，可以对新的人物形象不加训练而快速迁移。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于语音驱动和人脸自驱动的虚拟人视频合成方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于语音驱动和人脸自驱动的虚拟人视频合成方法，如图1所示，所述方法可包括如下步骤：

S100，对原始虚拟人视频素材进行预处理，得到首帧人脸图像为基准人脸图像的第一视频素材。

在本发明实施例中，原始虚拟人视频素材为用户提供的视频素材。

在本发明实施例中，会采用人脸自驱动模型基于首帧被驱动的人脸图像去生成相应口型的人脸图像，人脸表情和各器官的细节特征都会沿用被驱动的人脸图像，其选型极大程度影响后续虚拟人人脸自驱动生成图像的效果。因此，通常要被驱动的人脸图像需要面部表情自然，眼睛自然睁开，嘴巴自然张开且露齿，以保证后续唇部和牙齿特征的清晰度。

具体地，S100可具体包括：

S101，对所述原始虚拟人视频素材进行拆帧及人脸检测，获得初始人脸图像集合IMGS_face。

本领域技术人员知晓，对所述原始虚拟人视频素材进行拆帧及人脸检测，获得对应的初始人脸图像集合IMGS_fa可为现有技术。S102，利用设定的人脸姿态估计算法对IMGS_face中的人脸图像进行人脸姿态估计，得到仅包含正脸图像的第一人脸图像集合IMGS1_face。

在本发明实施例中，可采用img2pose算法逐帧对人脸图像进行人脸姿态估计，过滤素材中的侧脸及摆头人脸图像，保留其中的正脸图像。img2pose算法的估计过程可表示为：6DoF＝img2pose(img_face)，其中，6DoF表示人脸的6个自由度，指的是在人体在3D空间里的活动情况，在3自由度(上下俯仰、左右摇摆和滚动)的基础上增加了前/后、上/下、左/右三种移动方式。img_face为原始虚拟人视频素材中的一张即一帧人脸图像。

S103，基于IMGS1_face获取第二人脸图像集合IMGS2_face，IMGS2_face中的任一人脸图像中的眼睛和唇部的张开程度均大于设定值。在本发明实施例中，张开程度可为闭合或者张合的高度和宽度之间的比值，在一个示意性实施例中，设定值可为0.2。

具体地，首先，可利用人脸对齐算法InsightFace对原始虚拟人视频素材中的每张人脸图像进行人脸关键点检测，获取人脸68个轮廓特征点坐标。

接着，选取眼睛和唇部区域的特征点坐标，计算眼睛和嘴部的开合程度。过滤眼睛及唇部闭合或张合程度小于设定值的图像，以唇部为例，特征点61-68为唇部轮廓，开合程度可表示为：Openness＝normalize((P^y ₆₇-P^y ₆₃)/(P^x ₆₅-P^x ₆₁))，normalize()为归一化函数，P^y ₆₇和P^y ₆₃分别表示轮廓点67和63的y坐标，P^x ₆₅和P^x ₆₁分别表示轮廓点65和61的x坐标。

S104，获取相似度集D＝(D₁，D₂，……，D_i，……，D_n)，其中，D_i为IMGS2_face中的第i张人脸图像与设定参考人脸图像之间的相似度，i的取值为1到n，n为IMGS2_face中人脸图像的数量。

在本发明实施例中，相似度可为欧氏距离。D_i可为IMGS2_face中的第i张人脸图像的轮廓特征向量与设定参考人脸图像的轮廓特征向量之间的欧式距离，具体地，D_i＝(∑⁶⁸ _k＝1[(x_ik-x_ck)²+(y_ik-y_ck)²])^1/2，x_ik和y_ik分别为IMGS2_face中的第i张人脸图像的第k个轮廓特征点的横坐标和纵坐标，x_ck和y_ck分别设定参考人脸图像的第k个轮廓特征点的横坐标和纵坐标。

在本发明实施例中，设定参考人脸图像为预先设置的人脸图像，满足面部表情自然，眼睛自然睁开，嘴巴自然张开且露齿的要求。

S105，获取D中最大相似度对应的人脸图像作为所述基准人脸图像。

S106，如果所述基准人脸图像不是所述原始虚拟人视频素材中的首帧人脸图像，则利用所述基准人脸图像替换所述原始虚拟人视频素材中的首帧人脸图像，得到被驱动的首帧人脸图像，进而得到首帧人脸图像为基准人脸图像的第一视频素材。

在本发明实施例中，在视频合成任务中，通常要求首帧图像即为基准人脸，对于不满足条件的首帧图像，为了保证虚拟人动作姿态与后续帧的连贯性，通过FaceSwap换脸技术将符合要求的基准人脸替换到首帧被驱动图片，具体地，所述利用所述基准人脸图像替换所述原始虚拟人视频素材中的首帧人脸图像，可具体包括：

S1061，利用设定人脸检测模型对所述基准人脸图像和所述原始虚拟人视频素材中的首帧人脸图像的面部轮廓和器官的特征边缘进行检测，分别得到包括面部轮廓及器官的特征边缘，得到对应的第一轮廓特征点集和第二轮廓特征点集。

在本发明实施例中，设定人脸检测模型可为InsightFace模型。

S1062，利用人脸对齐算法获取所述基准人脸图像和所述原始虚拟人视频素材中的首帧人脸图像转换为所述设定参考人脸图像的人脸对齐转换矩阵，分别得到第一人脸对齐转换矩阵和第二人脸对齐转换矩阵。

在本发明实施例中，人脸对齐算法可为现有的人脸对齐算法。本领域技术人员知晓，利用人脸对齐算法将所述基准人脸图像和所述首帧人脸图像转换为所述设定参考人脸图像，得到对应的人脸对齐转换矩阵可为现有技术。

S1063，基于所述第一轮廓特征点集和所述第一人脸对齐转换矩阵得到所述基准人脸图像对应的第一分割图像，以及基于所述第二轮廓特征点集和所述第二人脸对齐转换矩阵得到所述原始虚拟人视频素材中的首帧人脸图像对应的第二分割图像。

在本发明实施例中，分割图像Mask可通过下式得到：

Mask＝Trans(imag_f，Lanmarks，mat)

其中，Trans()为Trans函数，imag_f为需要分割的人脸图像，Lanmarks为imag_f对应的轮廓特征点集，mat为imag_f对应的人脸对齐转换矩阵。本领域技术人员知晓的是，基于人脸的轮廓特征点和对应的人脸对齐转换矩阵得到对应的分割图像可为现有技术，例如基于dlib的人脸检测得到。

S1064，分别对所述第一分割图像和所述第二分割图像进行腐蚀操作，得到第一处理分割图像和第二处理分割图像。

在本发明实施例中，对人脸边缘基于一定像素范围进行腐蚀操作，避免分割边界不准确造成的拼接感。具体腐蚀操作方法可为现有方法。

S1065，基于设定换脸工具将第一处理分割图像替换所述原始虚拟人视频素材中对应的第二处理分割图像，得到换脸后的首帧人脸图像。

在本发明实施例中，可通过FaceSwap算法将符合要求的人脸替换到首帧被驱动图像上，对边缘进行模糊处理增加拼接过渡的平滑性，得到最终的被驱动标准人脸图像img_source＝FaceSwap(img⁰ _b，mat₀，img⁰ _f，Mask⁰ _f，img^c _f，Mask^c _f)，其中，img⁰ _b为原始虚拟人视频素材中的首帧图像，mat₀为img⁰ _b对应的人脸对齐转换矩阵，img⁰ _f和Mask⁰ _f分别为原始虚拟人视频素材中的首帧人脸图像对应的分割图像，img^c _f和Mask^c _f分别为基准人脸图和对应的分割图像。

S200，基于目标音频文件，利用设定口型驱动模型驱动所述第一视频素材，得到口型与所述目标音频文件相匹配的第二视频素材。

在本发明实施例中，目标音频文件可为用户提供的一段音频。通过音频文件驱动虚拟人的口型，得到人脸下半部清晰度较低的人脸图像，虚拟人口型和音频同步且吻合，张合程度自然可控，适用于中英文等多语言驱动。

进一步地，S200可具体包括：

S201，利用设定人脸检测模型获取所述第一视频素材中的每张人脸图像的初始人脸区域边界框bbox。

在本发明实施例中，设定人脸检测模型可为YOLOv5模型。通过YOLOv5模型可获取第一视频素材中的每张人脸图像的初始人脸区域边界框的4个角的像素坐标。

S202，对获取的初始人脸区域边界框按照设定比例系数进行放大，得到目标人脸区域边界框bbox2，即bbox2＝a*bbox。a为设定比例系数，可为经验值，优选，0≤a≤0.2。

如果直接对人脸检测区域直接进行人脸口型驱动，不同人物形象口型张合程度不同，存在张合不自然等情况。对人脸检测基于一定的比例系数进行放大，调整口型驱动模型的输入图像范围，能够增加后续口型及下巴驱动的自然度。

S203，获取所述目标人脸区域边界框对应的人脸图像作为目标人脸图像，并对所述目标人脸图像的上半部分区域进行掩码处理，通过设定口型驱动模型驱动所述目标人脸图像的下半部分，得到与所述目标音频文件相匹配的第二视频素材。

在本发明实施例中，可通过裁剪目标人脸区域边界框对应的人脸图像作为目标人脸图像。

在本发明实施例中，设定口型驱动模型可为wav2lip。wav2lip是一个用于通过音频特征生成口型图像的GAN模型(对抗生成神经网络)，是在包含全球各国、各民族语言的超大规模音视频数据集上预训练得到，这种广度的预训练使得该模型能够兼容各类音色、语言，并实现相应口型的准确映射。采用wav2lip得到口型与音频特征相匹配的视频可表示为：

img^p _face＝Wav2lip(img0^p _face，audio^p)

其中，img0^p _face为原始虚拟人视频素材中的第p帧图像，audio^p为目标音频文件对应的音频特征中的第p帧音频特征，img^p _face为将img0^p _face中的口型替换为与audio^p相匹配的口型得到的人脸图像。

本领域技术人员知晓，wav2lip具体工作原理可为现有技术。

S300，将所述第二视频素材中的首帧人脸图像作为被驱动人脸图像，将所述第二视频素材中的除所述首帧人脸图像之外的其余人脸图像作为口型驱动图像序列，通过设定人脸驱动算法得到第三视频素材。

通过S200得到的口型驱动人脸图像存在清晰度较低，拼接痕迹明显且存在牙齿缺失等系列问题。基于此，利用人脸自驱动算法高清化S200生成的口型驱动人脸图像。可通过DaGAN人脸驱动算法实现，算法输入包括首帧被驱动人脸图像和口型驱动图像序列，均基于人脸检测裁剪固定区域的头部图像进行算法生成。利用口型驱动图像去驱动选定的第一帧基准人脸图像，生成图像的人脸表情、姿态、口型、下巴延展程度等与口型驱动人脸图像一致，但更加高清化，消除了边缘拼接感，且弥补口型驱动人脸图像的牙齿缺失问题。同时，算法针对不同人物形象具有通用性。

具体地，S300可具体包括：

S301，基于设定人脸检测模型获取所述第一视频素材中的首帧人脸图像以及第二视频素材中的每张人脸图像的人脸区域边界框，得到初始人脸区域边界框。本发明实施例通过YOLOv5人脸检测模型获取人脸的边界框范围。

S302，对获取的初始人脸区域边界框按照设定比例系数进行放大，得到目标人脸区域边界框，并获取所述目标人脸区域边界框对应的人脸图像作为目标人脸图像；得到目标人脸图像集合。

对获取的初始人脸区域边界框按照设定比例系数进行放大得到的区域内包含虚拟人的完整头部区域，选定该区域作为人脸驱动算法的输入。

S303，利用深度预测编码器和解码器对目标人脸图像集合中的第1张目标人脸图像img₁的深度进行估计，得到对应的第1深度图像Depth₁，以及基于img₁和Depth₁，利用设定人脸关键点检测模型预测得到对应的第1人脸关键点参数kp₁，并作为被驱动人脸关键参数kp_s。

为了人脸驱动效果自然，首帧驱动图像的人脸关键点姿态需与被驱动图像一致，即眼睛、嘴部的张合程度等一致，本方案实施例采用自驱动的方式，被驱动图像同时作为首帧的驱动图像。

本领域技术人员知晓，利用深度预测编码器和解码器对人脸图像的深度进行估计，得到对应的深度图像可为现有技术。

在本发明实施例中，人脸关键点参数可包括15个关键点的坐标。设定人脸关键点检测模型可为现有的人脸关键点检测模型，例如InsightFace模型。

S304，设置图像张数计数变量j＝2。

S305，利用深度预测编码器和解码器对目标人脸图像集合中的第j张目标人脸图像img_j的深度进行估计，得到对应的第j深度图像Depth_j，以及基于img_j和Depth_j，利用设定人脸关键点检测模型预测得到对应的第j人脸关键点参数kp_j。

S306，基于kp₁、kp_s和kp_j，获取kp_j的标准化参数kp^norm _j＝Normalize(kp₁，kp_s，kp_j)，Normalize()为归一化函数。

S307，将img₁、kp₁、kp^norm _j、Depth₁和Depth_j输入人脸合成网络的特征形变模块和跨模态注意力模块中进行扭曲人脸特征并修正，得到img_j对应的自驱动的高清图像img^c _j＝Generator(img₁，kp₁，kp^norm _j，Depth₁，Depth_j)。Generator为人脸合成网络的特征形变模块和跨模态注意力模块。

本领域技术人员知晓，将img₁、kp₁、kp^norm _j、Depth₁和Depth_j输入人脸合成网络的特征形变模块和跨模态注意力模块中进行扭曲人脸特征并修正，得到img_j对应的自驱动的高清图像可为现有技术。

S308，设置j＝j+1，如果j≤m，执行S205，否则，退出当前控制程序，得到所述第三视频素材；m为目标人脸图像集合中的图像数量。

S400，利用所述第三视频素材中的人脸图像替换所述原始虚拟人视频素材中对应的人脸图像，得到第四视频素材。

S300生成的人脸自驱动图像为虚拟人头部高清图像，需要将虚拟人头部图像合成到虚拟人全身图像上，配合虚拟人视频素材的手势动作等使整个视频更加生动自然。常规拼接算法无法精确到面部图像和身体图像的像素级衔接，存在色差、错位或过渡不平滑等明显拼接痕迹。本发明实施例采用了像素级的人脸分割算法，避免全身图像合成时头部区域和其他区域的拼接感；优化了的换脸算法逻辑，细化并扩大了换脸区域的范围，同时也提升了下巴的随动性。具体地，S400可具体包括：

S401，利用人脸细粒度分割算法分别对第三视频素材和原始虚拟人视频素材中的人脸图像中的面部器官、脖子、头发等进行语义分割，分别得到对应的第一分割区域集和第二分割区域集。

在本发明实施例中，分割区域集可包括19个区域。

本领域技术人员知晓，利用人脸细粒度分割算法分别对第三视频素材和原始虚拟人视频素材中的人脸图像中的面部器官、脖子、头发等进行语义分割，分别得到对应的第一分割区域集和第二分割区域集可为现有技术。

S402，分别将第一分割区域集和第二分割区域集中的面部区域和脖子区域进行合并，得到对应的第一合并图像和第二合并图像，并分别对第一合并图像和第二合并图像的边缘基于一定像素范围进行腐蚀操作，得到第一替换图像和第二替换图像。

S403，利用设定换脸工具将第一替换图像替换所述原始虚拟人视频素材中对应的第二替换图像，得到所述第四视频素材。

S403的具体实施可参见前述的S1065。

在本发明实施例中，可通过ffmpeg算法进行音频和视频合成，形成最终的虚拟人内容播报视频。

本发明实施例提供的虚拟人内容播报视频至少具有以下优点：

(1)针对任意一段音频，选择虚拟人形象快速生成虚拟人播报视频，能够节省生成成本；

(2)通过人脸自驱动的方式进行虚拟人面部高清化，无需针对性训练具有通用性，对于新增的虚拟人形象可快速迁移部署；

(3)虚拟人口型和音频吻合度高，唇部和牙齿清晰自然，下巴跟随口型自然运动，表情自然，无明显拼接痕迹。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

Claims

1.一种基于语音驱动和人脸自驱动的虚拟人视频合成方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，S100具体包括：

S101，对所述原始虚拟人视频素材进行拆帧及人脸检测，获得初始人脸图像集合IMGS_face；

S102，利用设定的人脸姿态估计算法对IMGS_face中的人脸图像进行人脸姿态估计，得到仅包含正脸图像的第一人脸图像集合IMGS1_face；

S103，基于IMGS1_face获取第二人脸图像集合IMGS2_face，IMGS2_face中的任一人脸图像中的眼睛和唇部的张开程度均大于设定值；S104，获取相似度集D＝(D₁，D₂，……，D_i，……，D_n)，其中，D_i为IMGS2_face中的第i张人脸图像与设定参考人脸图像之间的相似度，i的取值为1到n，n为IMGS2_face中人脸图像的数量；

S105，获取D中最大相似度对应的人脸图像作为所述基准人脸图像；

3.根据权利要求2所述的方法，其特征在于，利用所述基准人脸图像替换所述原始虚拟人视频素材中的首帧人脸图像，具体包括：

S1061，利用设定人脸检测模型对所述基准人脸图像和所述原始虚拟人视频素材中的首帧人脸图像的面部轮廓和器官的特征边缘进行检测，分别得到第一轮廓特征点集和第二轮廓特征点集；S1062，利用人脸对齐算法获取所述基准人脸图像和所述原始虚拟人视频素材中的首帧人脸图像转换为所述设定参考人脸图像的人脸对齐转换矩阵，分别得到第一人脸对齐转换矩阵和第二人脸对齐转换矩阵；

S1063，基于所述第一轮廓特征点集和所述第一人脸对齐转换矩阵得到所述基准人脸图像对应的第一分割图像，以及基于所述第二轮廓特征点集和所述第二人脸对齐转换矩阵得到所述原始虚拟人视频素材中的首帧人脸图像对应的第二分割图像；

S1064，分别对所述第一分割图像和所述第二分割图像进行腐蚀操作，得到第一处理分割图像和第二处理分割图像；

4.根据权利要求1所述的方法，其特征在于，S200具体包括：

S201，利用设定人脸检测模型获取所述第一视频素材中的每张人脸图像的初始人脸区域边界框；

S202，对获取的初始人脸区域边界框按照设定比例系数进行放大，得到目标人脸区域边界框；

5.根据权利要求1所述的方法，其特征在于，S300具体包括：

S301，基于设定人脸检测模型获取所述第一视频素材中的首帧人脸图像以及第二视频素材中的每张人脸图像的人脸区域边界框，得到初始人脸区域边界框；

S302，对获取的初始人脸区域边界框按照设定比例系数进行放大，得到目标人脸区域边界框，并获取所述目标人脸区域边界框对应的人脸图像作为目标人脸图像；得到目标人脸图像集合；

S303，利用深度预测编码器和解码器对目标人脸图像集合中的第1张目标人脸图像img₁的深度进行估计，得到对应的第1深度图像Depth₁，以及基于img₁和Depth₁，利用设定人脸关键点检测模型预测得到对应的第1人脸关键点参数kp₁，并作为被驱动人脸关键参数kp_s；

S304，设置图像张数计数变量j＝2；

S305，利用深度预测编码器和解码器对目标人脸图像集合中的第j张目标人脸图像img_j的深度进行估计，得到对应的第j深度图像Depth_j，以及基于img_j和Depth_j，利用设定人脸关键点检测模型预测得到对应的第j人脸关键点参数kp_j；

S306，基于kp₁、kp_s和kp_j，获取kp_j的标准化参数kp^norm _j＝Normalize(kp₁，kp_s，kp_j)，Normalize()为归一化函数；

S307，将img₁、kp₁、kp^norm _j、Depth₁和Depth_j输入人脸合成网络的特征形变模块和跨模态注意力模块中进行扭曲人脸特征并修正，得到img_j对应的自驱动的高清图像img^c _j；

6.根据权利要求1所述的方法，其特征在于，S400具体包括：

S401，利用人脸细粒度分割算法分别对第三视频素材和原始虚拟人视频素材中的人脸图像进行语义分割，得到对应的第一分割区域集和第二分割区域集；

S402，分别将第一分割区域集和第二分割区域集中的面部区域和脖子区域进行合并，得到对应的第一合并图像和第二合并图像，并分别对第一合并图像和第二合并图像的边缘进行腐蚀操作，得到第一替换图像和第二替换图像；

7.根据权利要求1所述的方法，其特征在于，所述设定口型驱动模型为wav2lip。

8.根据权利要求3或6所述的方法，其特征在于，所述设定换脸工具为FaceSwap。