CN118097750A

CN118097750A - 视频处理方法、装置、设备及存储介质

Info

Publication number: CN118097750A
Application number: CN202410233563.9A
Authority: CN
Inventors: 秦林; 王�锋; 王俊杰; 翁成航; 武文
Original assignee: Nanjing Xuanjia Network Technology Co ltd
Current assignee: Nanjing Xuanjia Network Technology Co ltd
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-05-28

Abstract

本发明公开一种视频处理方法、装置、设备及存储介质。对待处理视频中的视频帧进行分割，得到初始视频帧、第一人脸图和第一人脸图的关键点信息，初始视频帧为去除第一人脸图后的视频帧；通过第一人脸图的关键点信息和预设关键点信息确定变换矩阵和逆变换矩阵，预设关键点信息为第一人脸图的正面脸型对应的关键点信息；利用变换矩阵将第一人脸图调整为第二人脸图，并基于第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图；基于替换人脸图确定目标增强人脸图，利用逆变换矩阵将目标增强人脸图调整为目标人脸图，并基于目标人脸图和初始视频帧确定目标视频帧。有效提高了替换后的视觉效果，使替换效果更加逼真，替换痕迹有效改善。

Description

视频处理方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种视频处理方法、装置、设备及存储介质。

背景技术

视频处理技术，也被称为人脸合成或人脸交换，是一种通过计算机算法将一个人的脸部特征合成到另一个人的脸部的技术。虽然视频处理技术可能引起一些争议和担忧，但它也有一些正面意义和应用：可以用于娱乐和创意目的，例如制作有趣的视频；或用于电影和电视剧中的特效。视频处理为角色设计提供了更多的可能性，同时减少了对化妆和面具等传统特效的需求。

当前的视频处理方法，存在替换后的视觉效果差，即替换后的人脸不够逼真，替换痕迹明显等问题。

发明内容

本发明提供了一种视频处理方法、装置、设备及存储介质，以解决当前的视频处理方法，存在替换后的视觉效果差，即替换后的人脸不够逼真，替换痕迹明显等问题。

根据本发明的一方面，提供了一种视频处理方法，其特征在于，包括：

对待处理视频中的视频帧进行分割，得到初始视频帧、第一人脸图和所述第一人脸图的关键点信息；其中，所述初始视频帧为去除所述第一人脸图后的视频帧；

通过所述第一人脸图的关键点信息和预设关键点信息确定变换矩阵和逆变换矩阵；其中，所述预设关键点信息为所述第一人脸图的正面脸型对应的关键点信息；

利用所述变换矩阵将所述第一人脸图调整为第二人脸图，并基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图；

基于所述替换人脸图确定目标增强人脸图，利用所述逆变换矩阵将目标增强人脸图调整为目标人脸图，并基于所述目标人脸图和所述初始视频帧，确定目标视频帧。

根据本发明的另一方面，提供了一种视频处理装置，其特征在于，包括：

数据确定模块，用于对待处理视频中的视频帧进行分割，得到初始视频帧、第一人脸图和所述第一人脸图的关键点信息；其中，所述初始视频帧为去除所述第一人脸图后的视频帧；

矩阵确定模块，用于通过所述第一人脸图的关键点信息和预设关键点信息确定变换矩阵和逆变换矩阵；其中，所述预设关键点信息为所述第一人脸图的正面脸型对应的关键点信息；

图像确定模块，用于利用所述变换矩阵将所述第一人脸图调整为第二人脸图，并基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图；

视频帧确定模块，用于基于所述替换人脸图确定目标增强人脸图，利用所述逆变换矩阵将目标增强人脸图调整为目标人脸图，并基于所述目标人脸图和所述初始视频帧，确定目标视频帧。

根据本发明的另一方面，提供了一种视频处理设备，所述视频处理设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的视频处理方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的视频处理方法。

本发明实施例提供的技术方案，对待处理视频中的视频帧进行分割，得到初始视频帧、第一人脸图和所述第一人脸图的关键点信息；其中，所述初始视频帧为去除所述第一人脸图后的视频帧；通过所述第一人脸图的关键点信息和预设关键点信息确定变换矩阵和逆变换矩阵；其中，所述预设关键点信息为所述第一人脸图的正面脸型对应的关键点信息；利用所述变换矩阵将所述第一人脸图调整为第二人脸图，并基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图；基于所述替换人脸图确定目标增强人脸图，利用所述逆变换矩阵将目标增强人脸图调整为目标人脸图，并基于所述目标人脸图和所述初始视频帧，确定目标视频帧。考虑到在进行人脸替换时，第一人脸图中的脸型有可能并非标准的正面脸型，如果直接进行替换，则可能会导致替换的精确度降低，导致视觉效果变差，因此通过上述技术方案，利用变换矩阵对第一人脸图进行调整，可以得到第一人脸图对应的正面脸型的第二人脸图，进而基于第二人脸图进行人脸替换得到替换人脸图，再对替换人脸图进行增强，得到目标增强人脸图，进而利用逆变换矩阵将目标增强人脸图调整为脸型与第一人脸图相同的目标人脸图，有效的提高了替换后的视觉效果，使替换后的人脸效果更加逼真，替换痕迹得到有效改善。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种视频处理方法的流程图；

图2是本发明实施例二提供的一种视频处理方法的流程图；

图3是本发明实施例三提供的一种视频处理装置的结构示意图；

图4是本发明实施例四提供的一种视频处理设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本发明实施例一提供的一种视频处理方法的流程图，本实施例可适用于对视频中的人脸进行替换的情况，该方法可以由视频处理装置来执行，该视频处理装置可以采用硬件和/或软件的形式实现，该视频处理装置可配置于视频处理设备中。如图1所示，该方法包括：

S110、对待处理视频中的视频帧进行分割，得到初始视频帧、第一人脸图和所述第一人脸图的关键点信息；其中，所述初始视频帧为去除所述第一人脸图后的视频帧。

在本实施例中，待处理视频包括需要进行人脸替换处理的视频。待处理视频可以是电子设备中预先保存的视频，也可以是通过网络下载到电子设备的视频，还可以是通过视频采集设备采集并传输至电子设备的视频，具体不作限定。其中，电子设备可以是视频处理设备。视频采集设备可以是摄像机、录像机或图像传感器等。初始视频帧包括去除所述第一人脸图后的视频帧。第一人脸图可以为直接从待处理视频中分割出来的人脸图。第一人脸图的关键点信息可以为脸部的某些部位的位置，例如，眼睛、鼻子和嘴等。

具体的，在进行人脸替换时，需要对待处理视频中的每个视频帧都进行人脸替换。首先获取待处理视频中的单个视频帧，利用人脸检测模型，例如RetinaFace模型，对该视频帧进行人脸检测，其检测结果可以包括多个人脸，以及每个人脸对应的数据，该数据包括人脸检测框、该人脸的置信度分数和该人脸对应的关键点信息。进而采用分割技术基于检测结果中的人脸检测框对该视频帧进行分割，得到初始视频帧和第一人脸图，并将该第一人脸图中人脸对应的关键点信息确定为第一人脸图的关键点信息。其中，每个第一人脸图包含一个人脸。

S120、通过所述第一人脸图的关键点信息和预设关键点信息确定变换矩阵和逆变换矩阵；其中，所述预设关键点信息为所述第一人脸图的正面脸型对应的关键点信息。

在本实施例中，预设关键点信息为所述第一人脸图的正面脸型对应的关键点信息。变换矩阵用于将人脸图中的脸型转换为正面脸型。逆变换矩阵用于将替换后的人脸图中的脸型，由正面脸型转化为与人脸图相同的脸型。示例性的，第一人脸图中的脸型为侧脸，则利用变换矩阵，可以调整为正脸。进一步的，在进行脸型转换的同时，变换矩阵还可以实现将第一人脸图缩小为512*512大小的人脸图，逆变换矩阵还可以实现将512*512大小的人脸图调整为与第一人脸图大小相同的人脸图。

具体的，考虑到在进行人脸替换时，第一人脸图中的脸型有可能并非标准的正面脸型，例如侧脸，如果直接进行替换，则可能会导致替换的精确度降低，导致视觉效果变差，因此本实施例通过变换矩阵和逆变换矩阵辅助进行人脸替换，以此提升人脸替换效果。通过使用图像处理库中的相似变换算法，将第一人脸图的关键点信息转换为预设关键点信息，由此可以得到一个2*3的变换矩阵，利用同样的算法可以计算出对应的逆变换矩阵。

可选的，为了进一步提升人脸替换的效果，计算第一人脸图中各关键点之间的位置距离，基于最大的位置距离与预设距离之间的比值，确定变化比率。进而基于变换比率和变换矩阵对第一人脸图进行调整，基于调整后的人脸图进行人脸替换，再基于变换率和逆变换矩阵将替换后的人脸图中的脸型，由正面脸型转换为与第一人脸图相同的脸型。

S130、利用所述变换矩阵将所述第一人脸图调整为第二人脸图，并基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图。

在本实施例中，预设人脸替换模型可以是提前构建好，例如，预设人脸替换模型可以为Inswapper人脸替换模型。预设角色列表是提前构建好的角色列表。

具体的，利用变换矩阵将第一人脸图进行修正后，得到第二人脸图。该第二人脸图中的脸型为第一人脸图中的脸型的正面脸型，且该第二人脸图的大小，可以根据变换矩阵进行确定，例如，第二人脸图的大小可以为512*512尺寸。进而，根据预设人脸替换模型的输入要求，对第二人脸图进行调整后，再将调整后的第二人脸图和预设角色列表一起输入到预设人脸替换模型中进行人脸替换，得到替换人脸图。

示例性的，将第二人脸图缩小为128*128大小的人脸图，进而再将压缩后的第二人脸图转化为数组，和预设角色列表一起输入到预设人脸替换模型中，预设人脸替换模型会进行人脸替换，得到128*128大小的替换人脸图。

S140、基于所述替换人脸图确定目标增强人脸图，利用所述逆变换矩阵将目标增强人脸图调整为目标人脸图，并基于所述目标人脸图和所述初始视频帧，确定目标视频帧。

在本实施例中，目标人脸图的大小与第一人脸图的大小相同。

具体的，为了增强替换后人脸图的逼真效果，可以根据实际需求对替换人脸图进行调整，例如，对替换人脸图进行维度调整、数值截断以及放缩操作等，得到512*512大小的人脸图，再对调整后的替换人脸图进行增强处理，得到目标增强人脸图，此时目标增强人脸图的大小与第二人脸图大小相同。进而再利用逆变换矩阵将目标增强人脸图调整为与第一人脸图大小相同的目标人脸图，此时目标人脸图中的脸型与第一人脸图中的脸型可保持一致，进而将该目标人脸图添加到该目标人脸图对应的第一人脸图在初始视频帧中的位置，由此可以确定目标视频帧，完成视频的人脸替换。本实施例不对图像增强处理方法进行限定，例如可以对调整替换人脸图进行滤波处理等。

本发明实施例一提供的技术方案，对待处理视频中的视频帧进行分割，得到初始视频帧、第一人脸图和所述第一人脸图的关键点信息；其中，所述初始视频帧为去除所述第一人脸图后的视频帧；通过所述第一人脸图的关键点信息和预设关键点信息确定变换矩阵和逆变换矩阵；其中，所述预设关键点信息为所述第一人脸图的正面脸型对应的关键点信息；利用所述变换矩阵将所述第一人脸图调整为第二人脸图，并基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图；基于所述替换人脸图确定目标增强人脸图，利用所述逆变换矩阵将目标增强人脸图调整为目标人脸图，并基于所述目标人脸图和所述初始视频帧，确定目标视频帧。考虑到在进行人脸替换时，第一人脸图中的脸型有可能并非标准的正面脸型，如果直接进行替换，则可能会导致替换的精确度降低，导致视觉效果变差，因此通过上述技术方案，利用变换矩阵对第一人脸图进行调整，可以得到第一人脸图对应的正面脸型的第二人脸图，进而基于第二人脸图进行人脸替换得到替换人脸图，再对替换人脸图进行增强，得到目标增强人脸图，进而利用逆变换矩阵将目标增强人脸图调整为脸型与第一人脸图相同的目标人脸图，有效的提高了替换后的视觉效果，使替换后的人脸效果更加逼真，替换痕迹得到有效改善。

在一些实施例中，所述基于所述替换人脸图确定目标增强人脸图，包括：利用第二预设强度系数对预处理人脸图和所述替换人脸图中的位置相对应的像素的像素值进行加权求和，得到初始增强人脸图；其中，所述预处理人脸图基于所述第二人脸图确定；基于所述初始增强人脸图确定目标增强人脸图。

在本实施例中，第二预设强度系数可以理解为提前设定好的数值，取值范围为(0,1)。预处理人脸图是通过对第二人脸图进行处理后得到的人脸图，例如，对第二人脸图进行压缩处理，得到的预处理人脸图，该预处理人脸图的大小为128*128。

具体的，将替换人脸图和预处理人脸图进行融合，以增强替换人脸后的视觉效果。首先，根据实际需求对第二人脸图进行处理，得到128*128的预处理人脸图。进而，设置第二预设强度系数，将第二预设强度系数乘以替换人脸图各像素的像素值，以此确定第一中间图，将1减去第二预设强度系数得到的强度系数乘以预处理人脸图各像素的像素值，以此确定第二中间图，将第一中间图和第二中间图中的位置相对应的像素的像素值相加，得到初始增强人脸图，该初始增强人脸图的大小为128*128。进而对初始增强人脸图进行放大处理，得到目标增强人脸图。通过上述技术方案，增强了替换人脸图和预处理人脸图进行融合时，替换人脸图的比重占比，进而增强替换后人脸的视觉效果。

在一些实施例中，所述基于所述替换人脸图确定目标增强人脸图，包括：基于所述替换人脸图和第三预设强度系数，利用预设增强模型进行画质增强，得到目标增强人脸图。

在本实施例中，第三预设强度系数可以理解为提前设定好的数值，取值范围为(0,1)。预设增强模型包括提前设置好的模型，例如基于生成对抗网络的人脸解析模型(Generative Facial Prior GAN，GFPGAN)增强模型。

具体的，根据预设增强模型的输入要求，在进行画质增强之前，需要对替换人脸图进行维度调整、数值截断以及放缩操作等，得到512*512大小的人脸图，并对调整后的替换人脸图进行归一化处理，添加一个额外的维度，将调整后的替换人脸图转换为四维数组，将该四维数组和第三预设强度系数输入到预设增强模型中，得到画质增强图像。进而利用第三预设强度系数对画质增强图像和调整后的替换人脸图中的位置相对应的像素的像素值进行加权求和，得到目标增强人脸图。通过上述技术方案，对替换人脸图进行了画质增强，并增强了画质增强图像的占比，能够有效的增强替换后人脸的视觉效果。

在一些实施例中，所述预设角色列表包括角色人脸图、角色人脸图对应的特征向量、生成人脸图、生成人脸图对应的特征向量以及所述角色人脸图和所述生成人脸图之间的预设对应关系；其中，所述角色人脸图对应的特征向量和所述生成人脸图对应的特征向量通过人脸识别模型确定。

在本实施例中，角色人脸图可以理解为待处理视频中角色对应的人脸图。生成人脸图可以理解为通过生成人脸模型生成的人脸图。角色人脸图对应的特征向量可用于表征角色人脸图。生成人脸图对应的特征向量可用于表征生成人脸图。角色人脸图和生成人脸图之间的预设对应关系可以是提前设定好的，例如角色人脸图A与生成人脸图1之间存在预设对应关系。人脸识别模型可以是提前设置好的模型，用于确定人脸图对应的特征向量。

具体的，首先利用人脸检测模型对待处理视频中的每一帧进行人脸检测，该人脸检测模型可以是RetinaFace模型，得到每个人脸图像对应的检测结果，该检测结果包括人脸检测框、置信度分数以及关键点信息。进而基于检测结果进行分割，可以得到每一个视频帧中的人脸图像，再利用人脸识别模型进行识别，得到每个人脸图像对应的特征向量，该人脸识别模型可以是Arcface模型。

考虑到待处理视频中往往对应多个人脸图像，而这些人脸图像有些是属于同一个角色，但这些图像中的脸型各不相同，为了更好的进行人脸替换，需要找到包含正面脸型的人脸图像，并将该图像作为角色人脸图。基于当前视频帧中第一个人脸图像对应的特征向量与下一个视频帧中每个人脸图像对应的特征向量，通过余弦距离算法计算第一个人脸图像与下一个视频帧中每个人脸图像之间的相似度，确定与第一个人脸图像相似度高的第二个人脸图像，并进一步比较第一个人脸图像与第二个人脸图像之间的置信度，进而将具有高置信度的图像作为候选角色人脸图，并将该图像对应的特征向量作为候选角色人脸图的特征向量，进而基于候选角色人脸图和下一帧图像重复上述计算，直到该待处理视频帧结束，将候选角色人脸图作为角色人脸图存入到预设角色列表中，并将该候选角色人脸图的特征向量作为角色人脸图对应的特征向量存入到预设角色列表中，以此确保存放在预设角色列表中为具有最高置信度的角色人脸图和角色人脸图对应的特征向量。其中，第一个人脸图像可以为视频帧中的任意人脸图。

需要说明的是，两个图像的相似度的计算方法并不局限于余弦距离算法，任何能够用于评估两个图像的相似度的计算方法都可以使用，如：欧几里德距离、曼哈顿距离、闵可夫斯基距离、杰卡德系数等，具体不做限定。选择不同的相似度评估方式，对应的参考阈值以及判断方式都需要做出相应的改变。

示例性的，人脸图像B和人脸图像C之间具有高相似度，但是人脸图像C具有更高的置信度，因此可以将人脸图像C作为候选角色人脸图，并将人脸图像C对应的特征向量作为候选角色人脸图的特征向量，进而基于候选角色人脸图和下一帧图像重复上述计算，直到该待处理视频帧结束，若候选角色人脸图为人脸图像C，候选角色人脸图的特征向量为人脸图像C对应的特征向量，则将人脸图像C作为角色人脸图，将人脸图像C对应的特征向量作为角色人脸图对应的特征向量。

同理，对于生成人脸图来说，考虑到生成模型生成的人脸图，可能存在除脸部以外的其他部位，会影响后续人脸替换的精确度，因此通过人脸检测模型对生成人脸图进行检测，确定生成人脸图，再利用人脸识别模型对该生成人脸图的检测结果进行识别，可以得到生成人脸图对应的特征向量。将该生成人脸图和该生成人脸图对应的特征向量存放到预设角色列表中。

可选的，生成人脸图的数量可以依据角色人脸图的数量确定，以保证对视频中的涉及到的角色都可以进行替换。

进而指定角色人脸图和生成人脸图之间的预设对应关系，并将该预设对应关系存入到预设关系列表中。

由此，可以确定预设角色列表中的内容包括角色人脸图、角色人脸图对应的特征向量、生成人脸图、生成人脸图对应的特征向量以及角色人脸图和生成人脸图之间的预设对应关系。

在一些实施例中，在所述基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图之前，包括：基于所述第一人脸图对应的特征向量，确定预设角色列表中的各所述角色人脸图中与所述第一人脸图相似度最高的目标角色人脸图；根据所述目标角色人脸图和所述预设对应关系确定用于对所述第一人脸图进行替换的目标生成人脸图；所述基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图，包括：基于所述第二人脸图和所述目标生成人脸图在所述预设角色列表中对应的特征向量，利用预设人脸替换模型，生成替换人脸图。

具体的，在进行人脸替换之前，可以先利用人脸识别模型确定第一人脸图对应的特征向量。进而基于第一人脸图对应的特征向量和预设角色列表中各角色人脸图对应的特征向量，计算第一人脸图和各角色人脸图的相似度，找到和第一人脸图相似度最高的目标角色人脸图。进而利用预设角色列表中的预设对应关系，确定对第一人脸图进行替换的目标生成人脸图。根据预设人脸替换模型的输入要求，将第二人脸图缩小为128*128大小的人脸图，进而再将压缩后的第二人脸图转化为数组，和目标生成人脸图对应的特征向量一起输入到预设人脸替换模型中进行人脸替换，得到替换人脸图。通过上述技术方案，有效的提升了人脸替换的精确度。

实施例二

图2是本发明实施例二提供的一种视频处理方法的流程图，本实施例在上述各可选实施例基础上进行优化和扩展，本实施例考虑到在第一人脸图中的脸部存在遮挡的情况下进行人脸增强。在根据第一人脸图得到第二人脸图后，基于接收的文字提示词、第一预设强度系数和第二人脸图，利用预设多模态模型，确定第一脸部掩码图，将第一脸部掩码图和第一预设掩码图中的位置相对应的像素的像素值相乘，得到第二脸部掩码图；其中，第一预设掩码图中各像素的像素值均为1；基于模糊掩码图和第二脸部掩码图，确定第三脸部掩码图；其中，模糊掩码图基于第二预设掩码图确定，第二预设掩码图中各像素的像素值均为0；基于替换人脸图和第三脸部掩码图，确定目标增强人脸图，进而根据目标增强人脸图，确定目标视频帧。

如图2所示，该方法包括：

S210、对待处理视频中的视频帧进行分割，得到初始视频帧、第一人脸图和所述第一人脸图的关键点信息；其中，所述初始视频帧为去除所述第一人脸图后的视频帧。

S220、通过所述第一人脸图的关键点信息和预设关键点信息确定变换矩阵和逆变换矩阵；其中，所述预设关键点信息为所述第一人脸图的正面脸型对应的关键点信息。

S230、利用所述变换矩阵将所述第一人脸图调整为第二人脸图，并基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图。

S240、基于接收的文字提示词、第一预设强度系数和所述第二人脸图，利用预设多模态模型，确定第一脸部掩码图。

在本实施例中，文字提示词可以理解为根据需要输入的提示词，例如在进行人脸检测和识别的过程中，确定第一人脸图中的脸部被手遮挡住了，则会在在第一人脸图中输入“手”的提示词。第一预设强度系数包括提前设置好的强度系数，其对应的取值范围为(0，1)。预设多模态模型包括提前设计好的模型，例如图像和语言的多模态模型(ContrastiveLanguage-Image Pre-Training，CLIP)模型。第二人脸图是基于第一人脸图转换过来的。

具体的，由于待处理视频存在各种复杂情况，使得分割得到的第一人脸图除了包含人脸外可能还会出现遮挡物，例如手、头发、面部妆容等，因此在进行人脸替换时，需要保留这些遮挡物，以使人脸替换效果更加自然、逼真。同时，考虑到预设多模态模型的输入限制，在进行模型输入之前，需要建立一个尺寸大小为352*352的掩码图像，该掩码图像每个元素对应的掩码值均为1。然后将第二人脸图进行转换和扩展处理，以适应预设多模态模型的输入。进而将接收的文字提示词、第一预设强度系数和经过处理后的第二人脸图输入到预设多模态模型中，预设多模态模型会先根据接收的文字提示词对处理过的第二人脸图进行预测，得到预测结果图。进而对预测结果图中的各像素的像素值进行逻辑运算，得到遮挡掩码图。进而根据第一预设强度系数，将遮挡掩码图中大于预设阈值的像素对应的掩码值设置为1，将小于或等于预设阈值的像素对应的掩码值设置为0，之后放缩至128*128大小的第一脸部掩码图并输出。值得注意的是，在本实施例中，掩码值相当于像素值。

S250、将所述第一脸部掩码图和第一预设掩码图中的位置相对应的像素的像素值相乘，得到第二脸部掩码图；其中，所述第一预设掩码图中各像素的像素值均为1。

在本实施例中，第一预设掩码图是预先创建好的，该掩码图中各像素的像素值均为1。

具体的，预先创建好第一预设掩码图。将得到的第一脸部掩码图和预先创建好的第一预设掩码图中的位置相对应的像素的像素值相乘，得到第二脸部掩码图。

S260、基于模糊掩码图和所述第二脸部掩码图，确定第三脸部掩码图；其中，所述模糊掩码图基于第二预设掩码图确定，所述第二预设掩码图中各像素的像素值均为0。

在本实施例中，第二预设掩码图是预先创建好的，该掩码图中各像素的像素值均为0。

具体的，预先创建第二预设掩码图，利用第二预设掩码图进行模糊处理，得到模糊掩码图。进而，绘制边界区域，将该边界区域的像素归一化到0到1的范围内，得到边界区域掩码图。再通过模糊掩码图对第二脸部掩码图进行高斯模糊处理，并利用边界区域掩码图对高斯模糊处理后的第二脸部掩码图进行边界掩码区域限制，实现将大小调整到512*512大小，像素值限制在(0,1)之间的第三脸部掩码图。

S270、基于所述替换人脸图和所述第三脸部掩码图，确定目标增强人脸图。

具体的，对替换人脸图进行维度调整、数值截断以及放缩操作等，得到512*512大小的人脸图，将调整后的替换人脸图和第三脸部掩码图中的位置相对应的像素的像素值相乘，得到目标增强人脸图，以此保留原始遮挡的脸部图像，实现对替换人脸图的增强。

S280、利用所述逆变换矩阵将目标增强人脸图调整为目标人脸图，并基于所述目标人脸图和所述初始视频帧，确定目标视频帧。

本发明实施例二提供的技术方案，在保留遮挡物的情况实现了人脸替换，使人脸替换效果更加自然、逼真，有效的提升了人脸替换的视觉效果。

在一些实施例中，基于所述目标人脸图和所述初始视频帧，确定目标视频帧，包括：利用所述逆变换矩阵将所述第三脸部掩码图调整为目标脸部掩码图；将第三预设掩码图和所述目标脸部掩码图中的位置相对应的像素的像素值作差，得到过渡掩码图；其中，所述第三预设掩码图中各像素的像素值均为1；将所述过渡掩码图和所述第一人脸图中的位置相对应的像素的像素值相乘，得到是视频帧子图；将所述视频帧子图和所述目标人脸图中的位置相对应的像素的像素值相加，得到目标结果人脸图；基于所述目标结果人脸图和所述初始视频帧，确定目标视频帧。

在本实施例中，第三预设掩码图包括预先构建好的掩码图，该第三预设掩码图中各像素的像素值均为1，且该第三预设掩码图的大小与第一人脸图的大小相同。

具体的，利用逆变换矩阵将目标增强人脸图调整为目标人脸图，将第三脸部掩码图调整为目标脸部掩码图，该目标脸部掩码图与目标人脸图大小相同。进而将第三预设掩码图和目标脸部掩码图中的位置相对应的像素的像素值作差，得到过渡掩码图。将过渡掩码图和第一人脸图中的位置相对应的像素的像素值相乘，得到是视频帧子图。进而再将视频帧子图和目标人脸图中的位置相对应的像素的像素值相加，得到目标结果人脸图，以进一步保留原始信息。最后将目标结果人脸图添加到该目标结果人脸图对应的第一人脸图在初始视频帧中的位置，得到目标视频帧，由此完成视频的人脸替换。通过上述技术方案，实现了将增强后的人脸替换图的回填，并进一步保留了原始的图像信息，有效的提高了替换后的视觉效果。

可选的，还可以进一步对目标脸部掩码图进行形状调整和像素提取等操作之后，再回填到视频帧中。

可选的，为了进一步增强替换人脸的视觉效果，在利用预设人脸替换模型，确定替换人脸图后，将第二人脸图确定为预处理人脸图，进而基于第二预设强度系数对预处理人脸图和替换人脸图中的位置相对应的像素的像素值进行加权求和，得到第一目标增强人脸图；再基于第一目标增强人脸图和第三预设强度系数，利用预设增强模型对第一目标增强人脸图进行画质增强，得到第二目标增强人脸图；利用逆变换矩阵将第二目标增强人脸图调整为目标人脸图，并基于目标人脸图和初始视频帧，确定目标视频帧。

可选的，为了进一步增强替换人脸的视觉效果，在利用预设人脸替换模型，确定替换人脸图后，将第二人脸图确定为预处理人脸图，进而基于第二预设强度系数对预处理人脸图和替换人脸图中的位置相对应的像素的像素值进行加权求和，得到第一目标增强人脸图；再基于第一目标增强人脸图和第三预设强度系数，利用预设增强模型对第一目标增强人脸图进行画质增强，得到第二目标增强人脸图；进而基于接收的文字提示词、第一预设强度系数和第二人脸图，利用预设多模态模型，确定第一脸部掩码图，将第一脸部掩码图和第一预设掩码图中的位置相对应的像素的像素值相乘，得到第二脸部掩码图，基于模糊掩码图和第二脸部掩码图，确定第三脸部掩码图，进而基于第三脸部掩码图和第二目标增强人脸图，确定目标增强人脸图。利用逆变换矩阵将目标增强人脸图调整为目标人脸图，将第三脸部掩码图调整为目标脸部掩码图，将第三预设掩码图和目标脸部掩码图中的位置相对应的像素的像素值作差，得到过渡掩码图，将过渡掩码图和第一人脸图中的位置相对应的像素的像素值相乘，得到是视频帧子图，将视频帧子图和目标人脸图中的位置相对应的像素的像素值相加，得到目标结果人脸图；基于目标结果人脸图和初始视频帧，确定目标视频帧。

可选的，为了进一步增强替换人脸的视觉效果，在利用预设人脸替换模型，确定替换人脸图后，将第二人脸图确定为预处理人脸图，进而基于第二预设强度系数对预处理人脸图和替换人脸图中的位置相对应的像素的像素值进行加权求和，得到第一目标增强人脸图；进而基于接收的文字提示词、第一预设强度系数和第二人脸图，利用预设多模态模型，确定第一脸部掩码图，将第一脸部掩码图和第一预设掩码图中的位置相对应的像素的像素值相乘，得到第二脸部掩码图，基于模糊掩码图和第二脸部掩码图，确定第三脸部掩码图，进而基于第三脸部掩码图和第一目标增强人脸图，确定目标增强人脸图。利用逆变换矩阵将目标增强人脸图调整为目标人脸图，将第三脸部掩码图调整为目标脸部掩码图，将第三预设掩码图和目标脸部掩码图中的位置相对应的像素的像素值作差，得到过渡掩码图，将过渡掩码图和第一人脸图中的位置相对应的像素的像素值相乘，得到是视频帧子图，将视频帧子图和目标人脸图中的位置相对应的像素的像素值相加，得到目标结果人脸图；基于目标结果人脸图和初始视频帧，确定目标视频帧。

可选的，为了进一步增强替换人脸的视觉效果，在利用预设人脸替换模型，确定替换人脸图后，基于替换人脸图和第三预设强度系数，利用预设增强模型对替换人脸图进行画质增强，得到第二目标增强人脸图；进而基于接收的文字提示词、第一预设强度系数和第二人脸图，利用预设多模态模型，确定第一脸部掩码图，将第一脸部掩码图和第一预设掩码图中的位置相对应的像素的像素值相乘，得到第二脸部掩码图，基于模糊掩码图和第二脸部掩码图，确定第三脸部掩码图，进而基于第三脸部掩码图和第二目标增强人脸图，确定目标增强人脸图。利用逆变换矩阵将目标增强人脸图调整为目标人脸图，将第三脸部掩码图调整为目标脸部掩码图，将第三预设掩码图和目标脸部掩码图中的位置相对应的像素的像素值作差，得到过渡掩码图，将过渡掩码图和第一人脸图中的位置相对应的像素的像素值相乘，得到是视频帧子图，将视频帧子图和目标人脸图中的位置相对应的像素的像素值相加，得到目标结果人脸图；基于目标结果人脸图和初始视频帧，确定目标视频帧。

实施例三

图3是本发明实施例三提供的一种视频处理装置的结构示意图。如图3所示，该装置包括：

数据确定模块31，用于对待处理视频中的视频帧进行分割，得到初始视频帧、第一人脸图和所述第一人脸图的关键点信息；其中，所述初始视频帧为去除所述第一人脸图后的视频帧；

矩阵确定模块32，用于通过所述第一人脸图的关键点信息和预设关键点信息确定变换矩阵和逆变换矩阵；其中，所述预设关键点信息为所述第一人脸图的正面脸型对应的关键点信息；

图像确定模块33，用于利用所述变换矩阵将所述第一人脸图调整为第二人脸图，并基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图；

视频帧确定模块34，用于基于所述替换人脸图确定目标增强人脸图，利用所述逆变换矩阵将目标增强人脸图调整为目标人脸图，并基于所述目标人脸图和所述初始视频帧，确定目标视频帧。

本发明实施例三提供的技术方案，有效的提高了替换后的视觉效果，使替换后的人脸效果更加逼真，替换痕迹得到有效改善。

可选的，视频帧确定模块34包括：

第一确定单元，用于基于接收的文字提示词、第一预设强度系数和所述第二人脸图，利用预设多模态模型，确定第一脸部掩码图；

第二确定单元，用于将所述第一脸部掩码图和第一预设掩码图中的位置相对应的像素的像素值相乘，得到第二脸部掩码图；其中，所述第一预设掩码图中各像素的像素值均为1；

第三确定单元，用于基于模糊掩码图和所述第二脸部掩码图，确定第三脸部掩码图；其中，所述模糊掩码图基于第二预设掩码图确定，所述第二预设掩码图中各像素的像素值均为0；

第一增强人脸图确定单元，用于基于所述替换人脸图和所述第三脸部掩码图，确定目标增强人脸图。

可选的，视频帧确定模块34包括：

目标掩码图确定单元，用于利用所述逆变换矩阵将所述第三脸部掩码图调整为目标脸部掩码图；

过渡掩码图确定单元，用于将第三预设掩码图和所述目标脸部掩码图中的位置相对应的像素的像素值作差，得到过渡掩码图；其中，所述第三预设掩码图中各像素的像素值均为1；

子图确定单元，用于将所述过渡掩码图和所述第一人脸图中的位置相对应的像素的像素值相乘，得到是视频帧子图；

结果人脸图确定单元，用于将所述视频帧子图和所述目标人脸图中的位置相对应的像素的像素值相加，得到目标结果人脸图；

视频帧确定单元，用于基于所述目标结果人脸图和所述初始视频帧，确定目标视频帧。

可选的，视频帧确定模块34包括：

初始人脸图确定单元，用于增强人脸图确定单元，用于利用第二预设强度系数对预处理人脸图和所述替换人脸图中的位置相对应的像素的像素值进行加权求和，得到初始增强人脸图，其中，所述预处理人脸图基于所述第二人脸图确定；

第二增强人脸图确定单元，用于基于所述初始增强人脸图确定目标增强人脸图。

可选的，视频帧确定模块34包括：

第三增强人脸图确定单元，用于基于所述替换人脸图和第三预设强度系数，利用预设增强模型进行画质增强，得到目标增强人脸图。

可选的，所述预设角色列表包括角色人脸图、角色人脸图对应的特征向量、生成人脸图、生成人脸图对应的特征向量以及所述角色人脸图和所述生成人脸图之间的预设对应关系；其中，所述角色人脸图对应的特征向量和所述生成人脸图对应的特征向量通过人脸识别模型确定。

可选的，视频处理装置还包括：

角色人脸图确定模块，用于基于所述第一人脸图对应的特征向量，确定预设角色列表中的各所述角色人脸图中与所述第一人脸图相似度最高的目标角色人脸图；

生成人脸图确定模块，用于根据所述目标角色人脸图和所述预设对应关系确定用于对所述第一人脸图进行替换的目标生成人脸图；

图像确定模块33，具体用于基于所述第二人脸图和所述目标生成人脸图在所述预设角色列表中对应的特征向量，利用预设人脸替换模型，生成替换人脸图。

本发明实施例所提供的视频处理装置可执行本发明任意实施例所提供的视频处理方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四提供的一种视频处理设备的结构示意图。该视频处理设备可以为电子设备，旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如视频处理方法。

在一些实施例中，视频处理方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的视频处理方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述替换人脸图确定目标增强人脸图，包括：

基于接收的文字提示词、第一预设强度系数和所述第二人脸图，利用预设多模态模型，确定第一脸部掩码图；

将所述第一脸部掩码图和第一预设掩码图中的位置相对应的像素的像素值相乘，得到第二脸部掩码图；其中，所述第一预设掩码图中各像素的像素值均为1；

基于模糊掩码图和所述第二脸部掩码图，确定第三脸部掩码图；其中，所述模糊掩码图基于第二预设掩码图确定，所述第二预设掩码图中各像素的像素值均为0；

基于所述替换人脸图和所述第三脸部掩码图，确定目标增强人脸图。

3.根据权利要求2所述的方法，其特征在于，基于所述目标人脸图和所述初始视频帧，确定目标视频帧，包括：

利用所述逆变换矩阵将所述第三脸部掩码图调整为目标脸部掩码图；

将第三预设掩码图和所述目标脸部掩码图中的位置相对应的像素的像素值作差，得到过渡掩码图；其中，所述第三预设掩码图中各像素的像素值均为1；

将所述过渡掩码图和所述第一人脸图中的位置相对应的像素的像素值相乘，得到是视频帧子图；

将所述视频帧子图和所述目标人脸图中的位置相对应的像素的像素值相加，得到目标结果人脸图；

基于所述目标结果人脸图和所述初始视频帧，确定目标视频帧。

4.根据权利要求1所述的方法，其特征在于，所述基于所述替换人脸图确定目标增强人脸图，包括：

利用第二预设强度系数对预处理人脸图和所述替换人脸图中的位置相对应的像素的像素值进行加权求和，得到初始增强人脸图；其中，所述预处理人脸图基于所述第二人脸图确定；

基于所述初始增强人脸图确定目标增强人脸图。

5.根据权利要求1所述的方法，其特征在于，所述基于所述替换人脸图确定目标增强人脸图，包括：

基于所述替换人脸图和第三预设强度系数，利用预设增强模型进行画质增强，得到目标增强人脸图。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述预设角色列表包括角色人脸图、角色人脸图对应的特征向量、生成人脸图、生成人脸图对应的特征向量以及所述角色人脸图和所述生成人脸图之间的预设对应关系；其中，所述角色人脸图对应的特征向量和所述生成人脸图对应的特征向量通过人脸识别模型确定。

7.根据权利要求6所述的方法，其特征在于，在所述基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图之前，包括：

基于所述第一人脸图对应的特征向量，确定预设角色列表中的各所述角色人脸图中与所述第一人脸图相似度最高的目标角色人脸图；

根据所述目标角色人脸图和所述预设对应关系确定用于对所述第一人脸图进行替换的目标生成人脸图；

所述基于所述第二人脸图和预设角色列表，利用预设人脸替换模型，确定替换人脸图，包括：

基于所述第二人脸图和所述目标生成人脸图在所述预设角色列表中对应的特征向量，利用预设人脸替换模型，生成替换人脸图。

8.一种视频处理装置，其特征在于，包括：

9.一种视频处理设备，其特征在于，所述视频处理设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任一所述的视频处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的视频处理方法。