CN113923493A

CN113923493A - 一种视频处理方法、装置、电子设备以及存储介质

Info

Publication number: CN113923493A
Application number: CN202111153303.3A
Authority: CN
Inventors: 朱子魁
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-11
Anticipated expiration: 2041-09-29
Also published as: CN113923493B

Abstract

本申请提供了一种视频处理方法、装置、电子设备以及存储介质，属于信息处理技术领域，用于解决相关技术中由于人脸角度的变化多样性，导致视频中替换某局部元素后会产生视频不稳定的问题。所述方法包括：获取待处理视频以及所述待处理视频中目标对象的局部替换元素；将所述待处理视频的每一帧中所述目标对象的局部原始元素，替换为所述局部替换元素；根据所述待处理视频中每相邻两帧的位置映射关系，对所述待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，得到目标视频。

Description

一种视频处理方法、装置、电子设备以及存储介质

技术领域

本申请涉及信息处理技术领域，特别是涉及一种视频处理方法、装置、电子设备以及存储介质。

背景技术

随着视频科技的发展，各种类型的视频也快速融入人们的生活；并且，在实际生活中，人们对视频多样性和特异性的需求也逐渐扩大。而为了满足这一需求，本领域技术人员，往往需要针对某一视频进行各种处理，例如，调整视频的色调，替换视频中某一局部元素等特效设计或视频人脸编辑。

在实际操作中，由于局部元素的高度复杂性和视频中人脸角度的变化多样性，致使替换视频中某一局部元素难以实现稳定效果；并且，某一局部元素的高复杂性(例如，头发的高复杂性)，也是直接导致当前还没有哪项工作聚焦于视频领域中元素变换工作的主要原因。然而，视频中的元素变换，又是视频科技发展中必须实现的一项技术难点。因此，本领域技术中，亟需一种既可以实现视频中某局部元素稳定替换，且不影响视频稳定性效果的技术方案。

发明内容

为了解决上述问题，本申请提供了一种视频处理方法、装置、电子设备以及存储介质，旨在实现视频中局部元素的替换，且替换后的视频稳定性好。

根据本公开实施例的第一方面，提供了一种视频处理方法，所述方法包括：

获取待处理视频以及所述待处理视频中目标对象的局部替换元素；

将所述待处理视频的每一帧中所述目标对象的局部原始元素，替换为所述局部替换元素；

根据所述待处理视频中每相邻两帧的位置映射关系，对所述待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，得到目标视频；所述位置映射关系表征前一帧中所述目标对象的各个像素点与后一帧中所述目标对象的各个像素点的相对位置关系。

可选地，所述目标视频是通过预先训练的局部元素替换模型得到的，所述预先训练的局部元素替换模型包括预先训练的光流网络和预先训练的局部元素替换网络；所述方法还包括：

将所述待处理视频的每相邻两帧输入所述预先训练的光流网络，得到所述待处理视频中每相邻两帧的位置映射关系；

其中，所述将所述待处理视频的每一帧中所述目标对象的局部原始元素，替换为所述局部替换元素，根据所述待处理视频中每相邻两帧的位置映射关系，对所述待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，包括：

将所述待处理视频中每相邻两帧的位置映射关系、所述局部替换元素以及所述待处理视频的每一帧，输入所述预先训练的局部元素替换网络，得到所述待处理视频的局部元素替换且位置调整后的每一帧。

可选地，所述预先训练的光流网络包括第一编码器和第一解码器；

所述将所述待处理视频的每相邻两帧输入所述预先训练的光流网络，得到所述待处理视频中每相邻两帧的位置映射关系，包括：

将所述待处理视频的每相邻两帧输入所述第一编码器，通过所述第一编码器对所述每相邻两帧中的目标对象进行特征提取，得到所述目标对象的各个像素点在每帧中的运动位置特征；

将所述目标对象的各个像素点在每帧中的运动位置特征输入所述第一解码器，通过所述第一解码器对所述目标对象的各个像素点在每帧中的位置进行光流预测，得到所述待处理视频中每相邻两帧的位置映射关系。

可选地，所述预先训练的局部元素替换网络包括第二编码器和第二解码器；

将所述局部替换元素以及所述待处理视频的每一帧，输入所述第二编码器，分别得到所述局部替换元素的图像特征和所述待处理视频的每一帧中所述目标对象的各个位置的图像特征；

将所述待处理视频中每相邻两帧的位置映射关系，以及，所述局部替换元素的图像特征和所述待处理视频的每一帧中目标对象的各个位置的图像特征输入所述第二解码器，得到所述待处理视频的局部元素替换且位置调整后的每一帧。

可选地，所述方法还包括：

从样本视频中抽取多个样本帧，所述多个样本帧中样本对象的姿态互不相同；

对所述多个样本帧分别进行图像检测，得到样本对象的局部原始元素的掩码图；

从所述多个样本帧中抽取一帧作为参考样本帧，并将所述参考样本帧中的样本对象的局部原始元素作为局部替换样本元素；

将所述局部替换样本元素和所述多个样本帧中样本对象的局部原始元素的掩码图输入待训练的局部元素替换模型，获得所述待训练的局部元素替换模型对所述多个样本帧进行重建而输出的多个重建图像帧，所述待训练的局部元素替换模型包括待训练的光流网络和待训练的局部元素替换网络；

根据所述多个重建图像帧与各自对应的样本帧之间的损失函数值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整，得到所述局部元素替换模型。

可选地，所述方法还包括：

将所述多个重建图像帧中的样本对象，与各自对应的样本帧中的样本对象比较，确定重建损失值；

根据所述多个重建图像帧与各自对应的样本帧之间的损失函数值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整，包括：

根据所述重建损失值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整。

可选地，所述方法还包括：

将所述多个重建图像帧中的样本对象的局部替换元素，与各自对应的样本帧中的样本对象的局部原始元素比较，确定感知损失值；

根据所述重建损失值和所述感知损失值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整。

根据本公开实施例的第二方面，提供了一种视频处理装置，所述装置包括：

获取模块，用于获取待处理视频以及所述待处理视频中目标对象的局部替换元素；

替换模块，用于将所述待处理视频的每一帧中所述目标对象的局部原始元素，替换为所述局部替换元素；

调整模块，用于根据所述待处理视频中每相邻两帧的位置映射关系，对所述待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，得到目标视频；所述位置映射关系表征前一帧中所述目标对象的各个像素点与后一帧中所述目标对象的各个像素点的相对位置关系。

根据本公开实施例的第三方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行以实现如第一方面所述的视频处理方法所执行的操作。

根据本公开实施例的第四方面，提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种以实现如第一方面所述的视频处理方法所执行的操作。

本申请实施例公开了一种视频处理方法、装置、电子设备以及存储介质。其中，该方法包括：获取待处理视频以及所述待处理视频中目标对象的局部替换元素；将所述待处理视频的每一帧中所述目标对象的局部原始元素，替换为所述局部替换元素；根据所述待处理视频中每相邻两帧的位置映射关系，对所述待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，得到目标视频。

本申请实施例公开的视频处理方法，首先将待处理视频每一帧中需要被替换的局部原始元素替换成局部替换元素，以确保对整个待处理视频的完整替换。然而，由于针对每一帧进行局部替换后，生成的新视频容易出现画面变形、抖动的不稳定现象，因而，本发明实施例提供的方法中，采用根据待处理视频中每相邻两帧的位置映射关系，对待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，这样依据位置映射关系调整后的每相邻两替换帧，将保持替换前该两帧之间的原始位置关系，从而解决了替换后的相邻两帧之间因出现画面变形、抖动而导致的视频不稳定问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请根据一实施例示出的一种视频处理方法的流程图；

图2是本申请根据一实施例示出的待处理视频中目标对象的展示图；

图3是本申请根据一实施例示出的待处理视频中目标对象的局部替换元素的展示图；

图4是本申请根据一实施例示出的基于局部替换元素替换后的展示图；

图5是本申请根据一实施例示出的局部元素替换模型的结构示意图；

图6是本申请根据一实施例示出的基于局部元素替换模型实施的流程图；

图7是本申请根据一实施例示出的一种视频处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在视频科技的发展过程中，还没有一个成熟的技术方案，可以实现对视频中的某局部元素进行直接替换，并且确保替换后的视频仍然具有较好的稳定效果，不会出现warp变形、视频画面抖动的视频不稳定的问题。其中，本实施例中的warp变形可以理解为：一种基于光流信息的像素位置变换。

针对上述本领域未解决的技术问题，本申请提出的主要技术构思为：在生成替换后的每一帧之后，根据帧与帧之间的位置映射关系对替换后的每一帧中的各个像素点的位置进行调整，以得到具有稳定效果的目标视频。基于此，本实施例的具体内容如下：

本实施例第一方面，提供了一种视频处理方法，如图1所示，本申请的视频处理方法包括以下步骤：

S1：获取待处理视频以及所述待处理视频中目标对象的局部替换元素。

具体实施时，首先获取待处理视频以及该待处理视频中目标对象的局部替换元素。待处理视频是指需要针对该视频中的某一局部原始元素进行替换的视频。该局部原始元素可以是发型，也可以是人脸。局部替换元素则是选取的用于替换待处理视频中的局部原始元素的替换样本。在此，为了方便理解，本实施例以及后续实例中的均匀发型为例，对本发明提供的方法进行举例说明。

图2中所示出的人物A的发型则可以理解为局部原始元素，图3中所示出的人物B的发型则可以理解为局部替换元素。结合图2和图3所示内容，本实施步骤可以为：获取待处理视频，然后将待处理视频中目标对象(人物A)的局部原始元素(人物A的发型)，然后选取待处理视频中目标对象(人物A)的局部替换元素(人物B的发型)。

S2：将所述待处理视频的每一帧中所述目标对象的局部原始元素，替换为所述局部替换元素。

本实施步骤中，待处理视频可以理解为需要替换视频中某局部元素的视频，该视频中包含多种局部元素，例如人脸、发型、人物所佩戴的装饰或服饰等局部元素。

具体实施时，承接步骤S1中的实例继续对本实施步骤进行具体说明，本实施步骤为：在待处理视频中，将待处理视频的每一帧中目标对象(人物A)的局部原始元素(人物A的发型)，替换为局部替换元素(人物B的发型)，替换后的结果如图4所示。

S3：根据所述待处理视频中每相邻两帧的位置映射关系，对所述待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，得到目标视频。

由于视频可以理解为是由一系列静态画面按照发展顺序组成的看上去平滑连续的画面，因而，在替换时，可以对每一帧画面进行替换重建，然后再将替换重建后的每一帧画面组合在一起，生成目标视频。然而，在生成目标视频的过程中，由于同一个样本对象(如同一个人)，在第一帧的位置相对于第二帧的位置是有差别的，因而在重建的过程中，帧与帧之间将出现不连续、不平滑甚至画面出现warp变形。针对出现的这些技术问题，申请人提出了本实施步骤的技术手段予以解决。

具体实施时，根据待处理视频中每相邻两帧的位置映射关系，对待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，以得到目标视频。其中，位置映射关系表征前一帧中目标对象的各个像素点与后一帧中目标对象的各个像素点的相对位置关系，具体是指：前一帧中目标对象的各像素点在warp到下一帧中以得到下一帧中的目标对象时，warp所需要参考的参数值。例如，将第一帧中目标对象(如人物头像区域)的像素通过参数M进行wrap到第二帧中相应像素的位置，那么，这个参数M就可以理解为前后两帧的位置映射关系。因而，本实施例中的位置映射关系可以准确地定位下一帧中各个像素点的位置，以使相邻两帧之间的画面平滑连续，不抖动，以及精修出现的wrap变形。

可选地，本发明提供了另一实施例，在本实施例中，为了提高效率，节省人力资源，本发明提出的视频处理方法，可以直接基于预先训练的局部元素替换模型实施。

图5是本申请根据一实施例示出的局部元素替换模型的结构示意图。如图5所示，局部元素替换模型500包括两个嵌入其中的子网络。这两子网络分别为光流网络501和局部元素替换网络502。其中，光流网络501与局部元素替换网络502有线连接或者是无线连接。

在局部元素替换模型500的实际应用中，一方面，将待处理视频中每相邻两帧，输入光流网络501，然后由光流网络501对每相邻两帧中样本对象的位置映射关系进行光流预测，以得到位置映射关系；另一方面，将位置映射关系、局部替换元素和待处理视频的每一帧输入局部元素替换网络502，然后局部元素替换网络502根据位置映射关系，将局部替换元素映射到待处理视频的每一帧中样本对象的局部原始元素对应的位置(即用局部替换元素替换局部原始元素)，以得到样本对象中局部元素替换后的每一帧，并将多个替换后的每一帧组合成目标视频，并输出该目标视频。

具体地，在光流网络501中，针对每相邻两帧，第一编码器对该两帧进行样本对象的图像特征提取，然后第一解码器根据提取的图像特征解析出样本对象在两帧之间的位置映射关系，并将解析出的位置映射关系通过连接通道发送给局部元素替换网络502中的第二解码器。

具体地，在局部元素替换网络502中，首先，通过第二编码器对输入的待处理视频的每一帧中样本对象进行图像特征提取，得到样本对象的局部原始元素的掩码特征(该掩码特征中不包含样本对象的局部原始元素对应的图像特征)，再通过第二编码器对局部替换元素进行图像特征提取，提取出局部替换元素的图像特征；然后，第二编码器将局部原始元素的掩码特征和局部替换元素的图像特征输入第二解码器，第二解码器则按照样本对象在相邻两帧中的位置映射关系，将局部替换元素对应的图像特征与样本对象的局部原始元素的掩码特征进行warp重建，得到目标视频帧(该目标视频帧是指样本对象的局部原始元素被局部替换元素替换后的视频帧)，并且第二解码器将多个目标视频帧进行组合以得到目标视频。

此外，在局部元素替换网络502的实际操作中，还可以直接向局部元素替换网络502输入包含局部替换元素的第一图像，然后局部元素替换网络502会第一图像中的局部替换元素进行特征提取，得到局部替换元素对应的特征，最后第二解码器按照样本对象在相邻两帧中的位置映射关系，将局部替换元素对应的特征与样本对象的局部原始元素的掩码特征进行warp重建，得到目标视频帧(该目标视频帧是指样本对象的局部原始元素被局部替换元素替换后的视频帧)，并且第二解码器将多个目标视频帧进行组合以得到目标视频。

相应地，基于上述预先训练的局部元素替换模型，本实施例提供的视频处理方法，在实施过程中，具体内容如下：

本实施例中，目标视频是通过预先训练的局部元素替换模型得到的。而该预先训练的局部元素替换模型，包括预先训练的光流网络和预先训练的局部元素替换网络。

而待处理视频中每相邻两帧的位置映射关系，则是将待处理视频的每相邻两帧输入预先训练的光流网络，通过预先训练的光流网络对相邻两帧之间的位置映射关系进行学习得到的。具体实施时，本申请中的光流网络，就是基于光流估计方法，学习两不同帧之间的一种位置映射关系，例如，假设第一帧为I，第二帧为R，则基于基于光流估计方法，光流网络输出的I到R的位置映射关系M。并且，I在M的wrap重建下就大致可以得到R，即本申请中所述的根据位置映射关系M，对局部元素替换后每一帧的各个像素点的位置进行调整(该调整即为warp重建)，以得到下一帧。

在本实施中，所述将所述待处理视频的每一帧中所述目标对象的局部原始元素，替换为所述局部替换元素，根据所述待处理视频中每相邻两帧的位置映射关系，对所述待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，具体的执行步骤包括：

将所述待处理视频中每相邻两帧的位置映射关系、所述局部替换元素以及所述待处理视频的每一帧，输入所述预先训练的局部元素替换网络；

通过所述预先训练的局部元素替换网络将所述待处理视频的每一帧中所述目标对象的局部原始元素，替换为所述局部替换元素；

根据所述待处理视频中每相邻两帧的位置映射关系，对所述待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，得到所述待处理视频的局部元素替换且位置调整后的每一帧。

具体实施时，如图6所示，在局部元素替换模型中，将待处理视频中每相邻两帧的位置映射关系、局部替换元素以及待处理视频的每一帧，输入预先训练的局部元素替换网络；然后，通过预先训练的局部元素替换网络将待处理视频的每一帧中目标对象的局部原始元素，替换为局部替换元素；并且，预先训练的局部元素替换网络还会根据待处理视频中每相邻两帧的位置映射关系，将待处理视频的局部元素替换后每一帧的各个像素点按照预设算法(该预设算法可以理解为乘积)，与该位置映射关系对应的参数值进行计算(可以理解为：将替换后局部替换元素的各个像素点的位置与位置映射关系对应的参数值进行乘积，以得到下一帧中的局部替换元素的各个像素点的位置)，从而确定待处理视频的局部元素替换后每一帧的各个像素点的位置，即实现对待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，得到待处理视频的局部元素替换且位置调整后的每一帧；最后，预先训练的局部元素替换网络将调整后的每一帧重新组建成目标视频并输出。

本实施例提供的方法，在局部元素替换模型中，通过单独设计的光流网络来学习不同帧之间的位置映射关系，基于该位置映射关系在局部替换元素替换每一帧中目标对象的局部原始元素后，会对替换后的每一帧中的各个像素点的位置进行调整，起到解决精修光流所带来的wrap变形问题。

可选地，本发明提供了另一实施例，在本实施例中，所述预先训练的光流网络包括第一编码器和第一解码器；

将所述目标对象的各个像素点在每帧中的运动位置特征输入所述第一解码器，通过所述第一解码器对所述目标对象的各个像素点在每帧中的运动位置特征进行光流预测，得到所述待处理视频中每相邻两帧的位置映射关系。

具体实施时，首先，将待处理视频中的所有帧，按照待处理视频的时间域依次将每相邻两帧输入第一编码器，通过第一编码器对每相邻两帧中的目标对象进行特征提取，从而得到目标对象的各个像素点在每帧中的运动位置特征；然后，将目标对象的各个像素点在每帧中的运动位置特征输入第一解码器，由于运动位置特征可以表征目标对象在每相邻两帧中的位置对应关系，因而，通过第一解码器对目标对象的各个像素点在每帧中的运动位置特征进行光流预测，可以得到待处理视频中每相邻两帧中目标对象的位置映射关系。

其中，运动位置特征可以理解为每个像素点在每帧中所处的位置点，可以表征每相邻两帧中目标对象的各个像素点在每相邻两帧所处时间域上的变化关系以及每相邻两帧之间的相关性。该相关性可以理解为：目标对象在每相邻两帧之间的位置变化相关性，用于找到上一帧跟当前帧之间存在的位置对应关系，从而基于找到的位置对应关系计算出每相邻两帧之间目标对象的运动信息。

在本实施例中，待处理视频的每相邻两帧输入第一编码器后，在第一编码器中，由于第一编码器由四个residual block(残差网络)组成，因而每相邻两帧输入这四个residual block(残差网络)后，这四个residual block会首先将输入帧的原始256×256分辨率调整到8×8分辨率，然后对每帧中的目标对象进行特征提取，并在输出特征的同时将输出特征与输入帧的特征进行线性累加(即残差连接)，以输出最终的特征(该最终的特征即为运动位置特征)，从而增加运动位置特征的表征能力，从而提高位置映射关系的准确性。

其中，将原始256×256分辨率调整到8×8分辨率，是为了：使在进行特征提取时，可以高效地提取出目标对象的各个像素点在每帧中的运动位置特征，并舍去视频帧中的背景元素等干扰信息，以使提取的运动位置特征具有较高的准确性。

在本实施例中，将目标对象的各个像素点在每帧中的运动位置特征输入第一解码器后，由于运动位置特征对应的分辨率仍为8×8，因而，在第一编码器中，首先将8×8分辨率的运动位置特征上采样至原始256×256分辨率，以使在进行光流预测时，得到的是原始256×256分辨率的位置映射关系，从而确保在后续根据位置映射关系对重建帧的位置调整进行调整时，进行的是原始256×256分辨率的位置调整，以得到与待处理视频分辨率相同大小的目标视频。

可选地，本发明提供了另一实施例，在本实施例中，所述预先训练的局部元素替换网络包括第二编码器和第二解码器；

所述将所述待处理视频的每一帧中所述目标对象的局部原始元素，替换为所述局部替换元素，根据所述待处理视频中每相邻两帧的位置映射关系，对所述待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，包括：

将所述局部替换元素以及所述待处理视频的每一帧，输入所述第二编码器，分别得到所述局部替换元素的图像特征和所述待处理视频的每一帧中所述目标对象的各个位置的图像特征；其中，“各个位置”是指每一帧中目标对象的每个图像特征各自所对应的位置，如每一帧中目标对象(人物头像)的图像特征(发型特征)对应的位置，每一帧中目标对象(人物头像)的图像特征(人脸特征)对应的位置等；

将所述待处理视频中每相邻两帧的位置映射关系，以及，所述局部替换元素的图像特征和所述待处理视频的每一帧中各个位置的图像特征输入所述第二解码器，得到所述待处理视频的局部元素替换且位置调整后的每一帧。

具体实施时，首先，将局部替换元素和待处理视频的每一帧，输入第二编码器，通过第二编码器对局部替换元素和待处理视频的每一帧进行特征提取，分别得到局部替换元素的图像特征和待处理视频的每一帧中目标对象的各个位置的图像特征(需要指出的是，局部替换元素的图像特征在后续的替换和调整阶段中，将会取代待处理视频的每一帧中目标对象的局部原始元素对应的位置的图像特征，因而，这里的局部替换元素的图像特征，可以理解为待处理视频的局部元素替换后每一帧中目标对象的替换元素对应位置的图像特征，而非局部原始元素的其他图像特征，则可以理解为待处理视频的局部元素替换后每一帧中目标对象的非替换元素所对应位置的图像特征)；然后，将待处理视频中目标对象在每相邻两帧中的位置映射关系，以及，局部替换元素的图像特征和待处理视频的每一帧中目标对象的各个位置的图像特征输入第二解码器，通过第二解码器将待处理视频的每一帧中目标对象的局部原始元素对应位置的图像特征，替换(该替换即为wrap重建的操作过程)为局部替换元素对应位置的图像特征，并根据待处理视频中目标对象在每相邻两帧的位置映射关系，对待处理视频中目标对象的局部元素替换后每一帧中目标对象的各个像素点的位置进行调整，得到待处理视频中目标对象的局部元素替换且位置调整后的每一帧；最后，第二解码器将调整后的每一帧重新组建成目标视频并输出。

为了使本领域技术人员，更好地理解上述实施方式，在此通过下述实例进行举例说明。具体如下：

首先，人物A对应的视频帧A理解为待处理视频的一帧，人物A理解为目标对象，人物A的发型A则可以理解为局部原始元素，人物B的发型B则可以理解为局部替换元素。

然后，具体实施过程则为：将发型B和视频帧A输入第二编码器，通过第二编码器对发型B和视频帧A进行特征提取，分别得到发型B的图像特征和视频帧A中人物A的各个位置的图像特征(需要指出的是，发型B的图像特征在后续的替换和调整阶段中，将会取代视频帧A中人物A的发型A对应位置的图像特征，因而，这里的发型B的图像特征，可以理解为发型替换后视频帧A中人物A的发型所对应位置的图像特征，而人物A的人脸图像特征(人脸即为非发型元素)，则可以理解为发型替换后视频帧A中人物A的人脸所对应位置的图像特征，即人物A中人脸不变，只变发型)；然后，将待处理视频中人物A在每相邻两帧中的位置映射关系，以及，发型B的图像特征和人物A的各个位置(这里的各个位置包括人物A的人脸位置和人物A的发型位置)的图像特征输入第二解码器，通过第二解码器将人物A的发型A对应位置的图像特征，替换为发型B的图像特征，而人物A中除发型之外的其他图像特征直接原样warp重建，再根据待处理视频中人物A在每相邻两帧的位置映射关系，对待处理视频中人物A的发型替换后每一帧中人物A的各个像素点的位置进行调整(即对任务A进行整体调整)，得到待处理视频中人物A的发型替换且位置调整后的每一帧；最后，第二解码器将调整后的每一帧重新组建成目标视频并输出。

本实施例提供的方法，通过可以融合光流信息的局部元素替换网络和可以将局部原始元素warp重建成局部替换元素的解码器(即decoder结构)，来精修光流wrap所带来的变形问题。

可选地，本发明提供了另一实施例，在本实施例中，所述方法还包括：

S0-1:从样本视频中抽取多个样本帧，所述多个样本帧中样本对象的姿态互不相同；

具体实施时，首先收集大量的样本视频，并对这些样本视频进行预处理。。其中，样本视频作为模型训练数据，需要满足的条件有：该样本视频中应包含的有局部原始元素(例如发型)对应的样本对象(例如人)，以及，样本对象的运动角度变化应是多样的，以满足获取较准确的位置映射关系，但是该运动角度不能过大也不能过小。该预处理包括：从这些样本视频中进行抽帧，保证每个视频中抽出的样本帧中样本对象能够在人脸姿态上有所不同，例如人脸角度不同、神态不同等，以提高后续进行光流预测时所预测得到的预测光流的准确性。

S0-2:对所述多个样本帧分别进行图像检测，得到样本对象的局部原始元素的掩码图；

在步骤S0-1获得样本帧后，对样本帧进行本实施步骤的图像检测。具体实施时，首先，针对局部原始元素的位置特征，对样本帧进行剪裁，以去掉对局部原始元素替换时无影响的区域，并将剪裁后的样本帧统一调整到256*256大小；然后，为了实现局部元素替换，预先运行特征解析算法，对局部原始元素对应区域进行图像检测，得到样本对象的局部原始元素的掩码图。

S0-3:从所述多个样本帧中抽取一帧作为参考样本帧，并将所述参考样本帧中的样本对象的局部原始元素作为局部替换样本元素；

具体实施时，从多个样本帧中抽取一帧作为参考样本帧，为了实现局部元素替换，预先运行特征解析算法，对参考样本帧中的局部原始元素对应区域进行图像检测，得到参考样本帧中的样本对象的局部原始元素，并将参考样本帧中的样本对象的局部原始元素作为局部替换样本元素；

S0-4:将所述局部替换样本元素和所述多个样本帧中样本对象的局部原始元素的掩码图输入待训练的局部元素替换模型，获得所述待训练的局部元素替换模型对所述多个样本帧进行重建而输出的多个重建图像帧，所述待训练的局部元素替换模型包括待训练的光流网络和待训练的局部元素替换网络；

具体实施时，首先，对局部替换样本元素和多个样本帧中样本对象的局部原始元素的掩码图进行输入尺寸的统一；然后，将统一尺寸后的局部替换样本元素和多个样本帧中样本对象的局部原始元素的掩码图输入待训练的局部元素替换模型，获得待训练的局部元素替换模型对多个样本帧进行重建而输出的多个重建图像帧。

需要指出的是，本实施例中的warp重建是指对整个样本帧的warp与重建，只是在重建过程中，将局部替换样本元素与样本帧中样本对象的局部原始元素的掩码图进行整体的warp重建，从而得到了重建图像帧。

其中，待训练的局部元素替换模型包括待训练的光流网络和待训练的局部元素替换网络。

本实施例提供的待训练的光流网络，以子网络的形式嵌入到整个局部元素替换模型中。该光流网络包括编码器和解码器。而编码器又包含四个残差网络，会在提取特征的同时将原始输入256×256分辨率降到8×8。解码器作为解码器会生成最终的预测光流(该预测光流即位置映射关系)。

在此，需要指出的是，待训练的光流网络中的编码器，在训练完成后即为上述的第一编码器；待训练的光流网络中的解码器，在训练完成后即为上述的第一解码器。

本实施例提供的待训练的局部元素替换网络，也包括编码器和解码器。其中，编码器进行特征提取，解码器进行warp重建和最终目标视频的输出。

在此，需要指出的是，待训练的局部元素替换网络中的编码器，在训练完成后即为上述的第二编码器；待训练的光流网络中的解码器，在训练完成后即为上述的第二解码器。

在此，申请人还需要说明的是：如果在具体的实际应用中，是进行发型替换，即局部原始元素为发型。则本实施例中，考虑到发型的复杂性，在进行warp重建时，还需要参考参考样本帧头发区域的mask_R，相应地，该warp重建过程可以为：通过人脸解析算法获得参考样本帧头发区域的mask_R，然后样本帧在光流的作用下会被wrap到基本和参考样本帧角度大致相同的状态，此时通过人脸解析获得的mask_R会被局部区域作用到样本帧在wrap后的头发区域上，即将参考样本帧的头发特征替换到wrap后的样本帧的头发区域上。同时，由于wrap会导致样本帧wrap变形，并且当两样本帧的角度过大的情况下会导致更大情况的wrap变形，因此局部元素替换网络的解码器还有一部分精修的作用，用于改善wrap所带来的wrap变形扭曲问题。

S0-5:根据所述多个重建图像帧与各自对应的样本帧之间的损失函数值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整，得到所述局部元素替换模型。

具体实施时，由于无法事先得到训练数据光流的ground truth，因而本实施例提供的光流网络，不做任何损失值的约束，而是以最终的目标视频的质量为标准进行衡量光流效果。因此，本实施步骤为：根据多个重建图像帧与各自对应的样本帧之间的损失函数值，对待训练的光流网络和待训练的局部元素替换网络的模型参数分别进行调整，得到局部元素替换模型。

通过本实施例的方法，训练得到的光流网络，更好地学习了不同帧之间的位置映射关系，为帧与帧之间的wrap重建提供很好的信息。

S0-6:将所述多个重建图像帧中的样本对象，与各自对应的样本帧中的样本对象比较，确定重建损失值；

具体实施时，考虑到模型训练的复杂性，以样本对象为进一步的参考标准，将多个重建图像帧中的样本对象，与各自对应的样本帧中的样本对象比较，确定重建损失值，以其对整个模型的参数进行调整。

其中，重建损失值还可以反映样本对象在warp后的损失值(例如，人物A的脸部区域在warp后存在变形)，因而对整个模型的参数进行调整时，还可进一步改善wrap所带来的变形扭曲问题。相应地，步骤S0-5：根据所述多个重建图像帧与各自对应的样本帧之间的损失函数值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整，包括：

S0-51:根据所述重建损失值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整。

再考虑到模型训练的复杂性，以及，局部替换元素在重建到样本帧中样本对象的局部原始元素对应的区域时容易出现衔接不流畅问题。

具体实施时，以样本帧中的样本对象的局部原始元素与样本对象之前的衔接效果，为更进一步的参考标准，将多个重建图像帧中的样本对象的局部替换元素，与各自对应的样本帧中的样本对象的局部原始元素比较，确定感知损失值，以该感知损失值对整个模型的参数进行调整。

本实施例中，感知损失值可以反映重建图像帧中的样本对象的局部替换元素，与相应的样本帧中的样本对象的局部原始元素之间的差异，可以表征光流网络和局部元素替换网络对局部元素进行替换处理的质量。其中，差异越大，则表征替换的质量越低，可以理解为是越容易被人感知到造假；差异越小，则表征替换的质量越高，可以理解为是越难被人感知到造假。

该感知损失值，是通过重建图像帧中的样本对象的局部替换元素，与各自对应的样本帧中的样本对象的局部原始元素相比后，计算得到的。本实施例中，计算感知损失值所采用的技术手段，可以是基于预训练vgg16模型的特征提取感知损失。

相应地，步骤S0-5：根据所述多个重建图像帧与各自对应的样本帧之间的损失函数值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整，包括：

S0-51’:根据所述重建损失值和所述感知损失值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整。

本实施例中，在对待训练的光流网络和待训练的局部元素替换网络的模型参数分别进行调整时，由于重建损失值是基于样本对象进行整体损失函数计算得到的损失值，感知损失值是针对重建后的样本对象中的局部替换元素的局部损失函数进行计算而得到的损失值。因而，在调整时，首先通过重建损失值对待训练的光流网络和待训练的局部元素替换网络的模型参数进行整体调整，以得到整体上较为准确的模型；然后再通过感知损失值对待训练的光流网络和待训练的局部元素替换网络的模型参数在整体调整后进行局部的精修调整，以得到更为精准的模型。

因此，本实施例是以重建损失值和感知损失值作为双重参考标准，以对整个模型的参数进行调整，以得到更精确性的局部元素替换模型，使得在使用局部元素替换模型时，可以得到具有稳定效果的目标视频。

基于与上述实施例同一发明构思，本公开实施例的第二方面，提供了一种视频处理装置700，如图7所示，该装置包括：

获取模块701，用于获取待处理视频以及所述待处理视频中目标对象的局部替换元素；

替换调整模块702，用于将所述待处理视频的每一帧中所述目标对象的局部原始元素，替换为所述局部替换元素；和用于根据所述待处理视频中每相邻两帧的位置映射关系，对所述待处理视频的局部元素替换后每一帧的各个像素点的位置进行调整，得到目标视频；所述位置映射关系表征前一帧中目标对象的各个像素点与后一帧中目标对象的各个像素点的相对位置关系。

可选地，所述目标视频是通过预先训练的局部元素替换模型得到的，所述预先训练的局部元素替换模型包括预先训练的光流网络和预先训练的局部元素替换网络；所述装置700还包括：

第一输入模块，用于将所述待处理视频的每相邻两帧输入所述预先训练的光流网络，得到所述待处理视频中每相邻两帧的位置映射关系；

所述替换调整模块702，包括：

替换调整子模块，用于将所述待处理视频中每相邻两帧的位置映射关系、所述局部替换元素以及所述待处理视频的每一帧，输入所述预先训练的局部元素替换网络，得到所述待处理视频的局部元素替换且位置调整后的每一帧。

所述第一输入模块，包括：

第一输入子模块，用于将所述待处理视频的每相邻两帧输入所述第一编码器，通过所述第一编码器对所述每相邻两帧中的目标对象进行特征提取，得到所述目标对象的各个像素点在每帧中的运动位置特征；

第二输入子模块，用于将所述目标对象的各个像素点在每帧中的运动位置特征输入所述第一解码器，通过所述第一解码器对所述目标对象的各个像素点在每帧中的运动位置特征进行光流预测，得到所述待处理视频中每相邻两帧的位置映射关系。

所述替换调整模块702，包括：

第三输入子模块，用于将所述局部替换元素以及所述待处理视频的每一帧，输入所述第二编码器，得到所述待处理视频的每一帧中目标对象的各个位置的图像特征；

第四输入子模块，用于将所述待处理视频中每相邻两帧的位置映射关系，以及，所述待处理视频的每一帧中目标对象的各个位置的图像特征输入所述第二解码器，得到所述待处理视频的局部元素替换且位置调整后的每一帧。

可选地，所述装置700还包括：

第一样本抽取模块，用于从样本视频中抽取多个样本帧，所述多个样本帧中样本对象的姿态互不相同；

图像检测模块，用于对所述多个样本帧分别进行图像检测，得到样本对象的局部原始元素的掩码图；

第二样本抽取模块，用于从所述多个样本帧中抽取一帧作为参考样本帧，并将所述参考样本帧中的样本对象的局部原始元素作为局部替换样本元素；

模型训练模块，用于将所述局部替换样本元素和所述多个样本帧中样本对象的局部原始元素的掩码图输入待训练的局部元素替换模型，获得所述待训练的局部元素替换模型对所述多个样本帧进行重建而输出的多个重建图像帧，所述待训练的局部元素替换模型包括待训练的光流网络和待训练的局部元素替换网络；

第一校准模块，用于根据所述多个重建图像帧与各自对应的样本帧之间的损失函数值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整，得到所述局部元素替换模型。

可选地，所述装置700还包括：

第一确定模块，用于将所述多个重建图像帧中的样本对象，与各自对应的样本帧中的样本对象比较，确定重建损失值；

校准模块，包括：

第一校准子模块，用于根据所述重建损失值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整。

可选地，所述装置700还包括：

第二确定模块，用于将所述多个重建图像帧中的样本对象的局部替换元素，与各自对应的样本帧中的样本对象的局部原始元素比较，确定感知损失值；

校准模块，包括：

第二校准子模块，用于根据所述重建损失值和所述感知损失值，对所述待训练的光流网络和所述待训练的局部元素替换网络的模型参数分别进行调整。

基于与上述实施例同一发明构思，本公开实施例的第三方面，提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

基于与上述实施例同一发明构思，本公开实施例的第四方面，提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种以实现如第一方面所述的视频处理方法所执行的操作。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频处理方法、装置、电子设备以及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标视频是通过预先训练的局部元素替换模型得到的，所述预先训练的局部元素替换模型包括预先训练的光流网络和预先训练的局部元素替换网络；所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述预先训练的光流网络包括第一编码器和第一解码器；

4.根据权利要求2所述的方法，其特征在于，所述预先训练的局部元素替换网络包括第二编码器和第二解码器；

将所述待处理视频中每相邻两帧的位置映射关系，以及，所述局部替换元素的图像特征和所述待处理视频的每一帧中所述目标对象的各个位置的图像特征输入所述第二解码器，得到所述待处理视频的局部元素替换且位置调整后的每一帧。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种视频处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行以实现如权利要求1至7任一所述的视频处理方法所执行的操作。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种以实现如权利要求1至7中任一项所述的视频处理方法所执行的操作。