CN113613070B

CN113613070B - 一种人脸视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN113613070B
Application number: CN202111168289.4A
Authority: CN
Inventors: 李天琦
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2022-01-18
Anticipated expiration: 2041-10-08
Also published as: CN113613070A

Abstract

本公开关于一种人脸视频处理方法、装置、电子设备及存储介质，包括：获取待处理人脸视频及对应的参考图像；利用预设第一编码器提取待处理人脸视频中的视频帧的第一特征信息，第一特征信息为视频帧中需要保留的特征信息；利用预设第二编码器提取参考图像的第二特征信息，第二特征信息为预设的与待处理人脸视频的处理结果相匹配的特征信息；根据第一特征信息及第二特征信息，对待处理人脸视频中的视频帧进行处理，得到目标人脸视频。这样，一方面，目标人脸视频能够与待处理人脸视频相吻合，另一方面，从参考图像中提取第二特征信息，使得目标人脸视频中相邻视频帧之间的连续性也得以增强，从而提高了目标人脸视频的稳定性，减少了发生抖动的可能。

Description

一种人脸视频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及视频处理领域，尤其涉及一种人脸视频处理方法、装置、电子设备及存储介质。

背景技术

随着视频平台的发展，视频平台能够提供给用户的功能越来越丰富，在一些场景中，视频平台可以提供人脸视频处理功能，通过识别用户上传视频中的人脸区域，为视频中的人脸添加滤镜或特效，从而满足用户的需求。

现有技术中，先获取训练图像及对应的真实图像，其中，真实图像是指对训练视频中的人脸进行所需要的变换后的真实结果图像，然后，利用训练图像和真实图像对预设模型进行训练，得到人脸处理模型。这样，在调用人脸处理功能时，可以将待处理视频输入至人脸视频处理模型进行处理，得到处理后的视频。

但是，可以理解，视频数据是由连续的视频帧组成的，相邻的视频帧之间具有连续性，而采用由图像数据训练得到的人脸处理模型对待处理视频进行处理，处理过程中无法维持相邻视频帧之间的连续性，导致处理后的视频缺乏连续性和稳定性，人脸处理结果可能发生抖动，比如，在为待处理视频中的人脸添加皱纹效果的场景中，可能导致处理后的视频中虽然每一视频帧都添加了皱纹效果，但相邻视频帧之间的皱纹效果相差较大，处理后的视频不够连贯。

发明内容

本公开提供一种人脸视频处理方法、装置、电子设备及存储介质，以提高人脸视频处理结果的稳定性，减少抖动，提升用户体验。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种人脸视频处理方法，包括：

获取待处理人脸视频及对应的参考图像；

利用预设第一编码器提取所述待处理人脸视频中的视频帧的第一特征信息，所述第一特征信息为所述视频帧中需要保留的特征信息；

利用预设第二编码器提取所述参考图像的第二特征信息，所述第二特征信息为预设的与所述待处理人脸视频的处理结果相匹配的特征信息；

根据所述第一特征信息及所述第二特征信息，对所述待处理人脸视频中的视频帧进行处理，得到目标人脸视频。

可选的，采用如下步骤，训练得到所述预设第一编码器及所述预设第二编码器：

获取训练图像及每个训练图像对应的参考图像，所述训练图像中包括人脸区域；

利用预设第一学习模型提取每个训练图像的第一特征信息，并利用预设第二学习模型提取每个训练图像对应的参考图像的第二特征信息；

针对每个训练图像，根据该训练图像对应的第一特征信息及第二特征信息，对该训练图像进行处理，得到候选图像；

计算所述候选图像的损失值，在所述损失值大于预设阈值的情况下，对所述预设第一学习模型及所述预设第二学习模型中的模型参数进行迭代调整，在所述损失值不大于预设阈值的情况下，将所述预设第一学习模型作为预设第一编码器，将所述预设第二学习模型作为预设第二编码器。

可选的，所述候选图像的损失值包括第一损失值及第二损失值，所述计算所述候选图像的损失值，包括：

利用所述预设第一学习模型提取所述候选图像的第一特征信息，并利用所述预设第二学习模型提取所述候选图像的第二特征信息；

根据所述候选图像的第一特征信息及对应的训练图像的第一特征信息，计算所述候选图像的第一损失值；

根据所述候选图像的第二特征信息及对应的参考图像的第二特征信息，计算所述候选图像的第二损失值。

可选的，所述根据所述候选图像的第一特征信息及对应的训练图像的第一特征信息，计算所述候选图像的第一损失值，包括：

计算所述候选图像的第一特征信息及对应的训练图像的第一特征信息之间的2-范数，作为所述候选图像的第一损失值；

所述根据所述候选图像的第二特征信息及对应的参考图像的第二特征信息，计算所述候选图像的第二损失值，包括：

计算所述候选图像的第二特征信息及对应的参考图像的第二特征信息之间的2-范数，作为所述候选图像的第二损失值。

可选的，所述候选图像的损失值包括第三损失值，所述计算所述候选图像的损失值，包括：

获取每个训练图像对应的真实图像，所述真实图像为对所述训练图像进行处理后得到的真实结果；

根据所述候选图像与所述真实图像之间的差值，计算所述候选图像的第三损失值。

可选的，所述根据所述候选图像与所述真实图像之间的差值，计算所述候选图像的第三损失值，包括：

计算所述候选图像与所述真实图像之间的1-范数，作为所述候选图像的第三损失值。

根据本公开实施例的第二方面，提供一种人脸视频处理装置，包括：

获取模块，用于获取待处理人脸视频及对应的参考图像；

第一特征提取模块，用于利用预设第一编码器提取所述待处理人脸视频中的视频帧的第一特征信息，所述第一特征信息为所述视频帧中需要保留的特征信息；

第二特征提取模块，用于利用预设第二编码器提取所述参考图像的第二特征信息，所述第二特征信息为预设的与所述待处理人脸视频的处理结果相匹配的特征信息；

处理模块，用于根据所述第一特征信息及所述第二特征信息，对所述待处理人脸视频中的视频帧进行处理，得到目标人脸视频。

可选的，所述装置还包括训练模块，用于：

可选的，所述候选图像的损失值包括第一损失值及第二损失值，所述训练模块，具体用于：

可选的，所述训练模块，具体用于：

计算所述候选图像的第一特征信息及对应的训练图像的第一特征信息之间的2-范数，作为所述候选图像的第一损失值；计算所述候选图像的第二特征信息及对应的参考图像的第二特征信息之间的2-范数，作为所述候选图像的第二损失值。

可选的，所述候选图像的损失值包括第三损失值，所述训练模块，具体用于：

可选的，所述训练模块，具体用于：

根据本公开实施例的第三方面，提供一种人脸视频处理电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器;

其中，所述处理器被配置为执行所述指令，以实现上述第一项所述的人脸视频处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由人脸视频处理电子设备的处理器执行时，使得人脸视频处理电子设备能够执行上述任一项所述的人脸视频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现上述第一项所述的人脸视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取待处理人脸视频及对应的参考图像；利用预设第一编码器提取待处理人脸视频中的视频帧的第一特征信息，第一特征信息为视频帧中需要保留的特征信息；利用预设第二编码器提取参考图像的第二特征信息，第二特征信息为预设的与待处理人脸视频的处理结果相匹配的特征信息；根据第一特征信息及第二特征信息，对待处理人脸视频中的视频帧进行处理，得到目标人脸视频。

这样，通过预先获取待处理人脸视频对应的参考图像，并提取参考图像中与待处理人脸视频的处理结果相匹配的第二特征信息，结合第二特征信息与从待处理人脸视频中提取出的第一特征信息，得到目标人脸视频，一方面，目标人脸视频能够与待处理人脸视频相吻合，另一方面，从参考图像中提取与待处理人脸视频的处理结果相匹配的第二特征信息，使得目标人脸视频中每个视频帧的处理结果之间的匹配度提高，相邻视频帧之间的连续性也得以增强，从而提高了目标人脸视频的稳定性，减少了发生抖动的可能性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种人脸视频处理系统的架构图。

图2是根据一示例性实施例示出的一种方案示意图。

图3是根据一示例性实施例示出的一种本方案的训练过程示意图。

图4是根据一示例性实施例示出的一种人脸视频处理装置的框图。

图5是根据一示例性实施例示出的一种用于人脸视频处理的电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

目前对人脸视频的处理通常基于对人脸视频中的单一视频帧的处理进行，但是，视频通常通过连续的视频帧呈现出具有连续性的信息，而单一视频帧所呈现的信息则具有不稳定性，对单一的视频帧的人脸识别结果并不一定与对完整视频的人脸识别结果一致，比如，完整视频中人脸表情的识别结果可能是大笑，但是其中某一视频帧中人脸表情的识别结果却可能是痛苦，在这种情况下，采用上述方法进行人脸视频处理，得到的处理结果可能发生抖动，这样，对人脸区域进行处理的效果较差，用户体验不好。

为了解决上述问题，本发明实施例提出了一种人脸视频处理方法，下面从总体上对本发明实施例提供的人脸视频处理方法进行说明：

获取待处理人脸视频及对应的参考图像；

利用预设第一编码器提取待处理人脸视频中的视频帧的第一特征信息，第一特征信息为视频帧中需要保留的特征信息；

利用预设第二编码器提取参考图像的第二特征信息，第二特征信息为预设的与待处理人脸视频的处理结果相匹配的特征信息；

根据第一特征信息及第二特征信息，对待处理人脸视频中的视频帧进行处理，得到目标人脸视频。

由以上可见，本发明实施例提供的人脸视频处理方法，通过预先获取待处理人脸视频对应的参考图像，并提取参考图像中与待处理人脸视频的处理结果相匹配的第二特征信息，结合第二特征信息与从待处理人脸视频中提取出的第一特征信息，得到目标人脸视频，一方面，目标人脸视频能够与待处理人脸视频相吻合，另一方面，从参考图像中提取与待处理人脸视频的处理结果相匹配的第二特征信息，使得目标人脸视频中每个视频帧的处理结果之间的匹配度提高，相邻视频帧之间的连续性也得以增强，从而提高了目标人脸视频的稳定性，减少了发生抖动的可能性。

下面将通过具体的实施例，对本发明实施例提供的人脸视频处理方法进行详细描述。

图1是根据一示例性实施例示出的一种人脸视频处理方法的流程图，如图1所示，该人脸视频处理方法包括以下步骤。

在步骤S11中，获取待处理人脸视频及对应的参考图像。

在本发明实施例中，待处理人脸视频为包含人脸区域的视频，待处理人脸视频对应的参考图像可以是任一指定的图像，也可以根据对待处理人脸视频的处理需求确定，等等，具体不作限定。

举例而言，在为待处理人脸视频添加美颜滤镜的场景中，可以由用户指定某一特定的参考图像，这样，得到的人脸处理结果的美颜效果将和用户指定的参考图像中的美颜风格和效果相似，或者，在为待处理人脸视频添加皱纹的场景中，可以由用户指定某一特定的参考图像，这样，得到的人脸处理结果的皱纹数量将和用户指定的参考图像相似，等等。这样，最终得到的人脸处理结果将更符合用户的预期，从而提升用户体验。

另外，一种实现方式中，参考图像可以与不同处理需求对应，存储在预设数据库中，根据对待处理人脸视频的处理需求，从预设数据库中获取对应的参考图像，比如，若对待处理人脸视频的处理需求为为待处理人脸视频添加皱纹，那么，可以从预设数据库中获取人脸上有皱纹效果的参考图像。

在步骤S12中，利用预设第一编码器提取待处理人脸视频中的视频帧的第一特征信息，第一特征信息为视频帧中需要保留的特征信息。

在本步骤中，预设第一编码器是预先训练得到的特征提取模型，用于从图像中提取第一特征信息，其中，第一特征信息为视频帧中需要保留的特征信息，比如，可以包括视频帧中人脸的身份信息、姿态信息以及动作信息，等等。

第一特征信息具有较强的稳定性，换句话说，在待处理人脸视频的处理过程中，第一特征信息发生的变化程度较小，或者说，即使在待处理人脸视频的处理过程中，第一特征信息所发生的变化不会造成人脸处理结果的抖动和不稳定。

举例而言，预设第一编码器可以为深度学习模型，也可以为神经网络卷积模型，具体不作限定。

在步骤S13中，利用预设第二编码器提取参考图像的第二特征信息，第二特征信息为预设的与待处理人脸视频的处理结果相匹配的特征信息。

在本步骤中，预设第二编码器也是预先训练得到的特征提取模型，用于从图像中提取第二特征信息，其中，第二特征信息为预设的与待处理人脸视频的处理结果相匹配的特征信息，比如，在为待处理人脸视频添加皱纹的场景中，参考图像可以为带有皱纹的人脸图像，第二特征信息可以为参考图像中的皱纹的信息，等等。

第二特征信息需要在人脸处理结果中呈现出稳定性，这样，在对待处理人脸视频中的视频帧分别进行处理时，相邻视频帧之间的人脸处理结果差异较小，连续性较强，造成人脸处理结果抖动的可能性也较低。

举例而言，预设第二编码器可以为深度学习模型，也可以为神经网络卷积模型，预设第二编码器和预设第一编码器可以采用同一种特征识别模型进行训练得到，也可以采用不同的特征识别模型进行训练得到，具体不作限定。

在步骤S14中，根据第一特征信息及第二特征信息，对待处理人脸视频中的视频帧进行处理，得到目标人脸视频。

在本发明实施例中，对待处理人脸视频中的视频帧进行处理，可以是为人脸区域添加滤镜、贴纸或动画特效等等，具体不作限定。

本发明实施例可以表示为gen=G(inp, ref)，其中，inp为待处理人脸视频，ref为参考图像，gen为目标人脸视频，G表示根据待处理人脸视频inp和参考图像ref，生成目标人脸视频gen。

举例而言，如图2所示，为本发明实施例的方案示意图，其中，E_inp为预设第一编码器，E_ref为预设第二编码器，attr_inp为第一特征信息，attr_ref为第二特征信息，D为解码器，用于根据第一特征信息及第二特征信息，对待处理人脸视频中的视频帧进行处理，得到目标人脸视频，在本方案中，将inp输入至E_inp，得到attr_inp，将ref输入至E_ref，得到attr_ref，然后，由D根据attr_inp和attr_ref，对inp中的视频帧进行处理，得到gen。

一种实现方式中，可以采用如下步骤，训练得到预设第一编码器及预设第二编码器：

首先，获取训练图像及每个训练图像对应的参考图像，训练图像中包括人脸区域；然后，利用预设第一学习模型提取每个训练图像的第一特征信息，并利用预设第二学习模型提取每个训练图像对应的参考图像的第二特征信息；进而，针对每个训练图像，根据该训练图像对应的第一特征信息及第二特征信息，对该训练图像进行处理，得到候选图像；最后，计算候选图像的损失值，在损失值大于预设阈值的情况下，对预设第一学习模型及预设第二学习模型中的模型参数进行迭代调整，在损失值不大于预设阈值的情况下，将预设第一学习模型作为预设第一编码器，将预设第二学习模型作为预设第二编码器。

其中，候选图像的损失值可以为判别损失值、人脸识别损失值或重建损失值等任意一种或多种，具体不作限定。

其中，判别损失值采用如下方式计算得到：将候选图像和训练图像对应的真实图像分别输入判别器的模型，判别器给出候选图像与真实图像不是一张图像的概率。判别损失值的训练目标就是让候选图像尽量能骗过判别器，让判别器分无法区分候选图像和训练图像对应的真实图像。

人脸识别损失值采用如下方式计算得到：将候选图像和训练图像对应的真实图像分别输入预先训练好的人脸识别模型，得到人脸特征，计算两者的人脸特征的1-范数损失值或2-范数损失值。人脸识别损失值的训练目标是让候选图像的人脸特征和真实图像的人脸特征尽量一致，即要保证候选图像中人脸对应的身份不变，不能变成另一个人。

重建损失值采用如下方式计算得到：计算候选图像和训练图像对应的真实图像的1-范数损失值或2-范数损失值，等等，重建损失值和人脸处理的具体需求有关，可以限制候选图像中某些信息要更接近某张图。

一种实现方式中，候选图像的损失值包括第一损失值及第二损失值。具体而言，可以利用预设第一学习模型提取候选图像的第一特征信息，并利用预设第二学习模型提取候选图像的第二特征信息；然后，根据候选图像的第一特征信息及对应的训练图像的第一特征信息，计算候选图像的第一损失值；进而，根据候选图像的第二特征信息及对应的参考图像的第二特征信息，计算候选图像的第二损失值。

其中，第一损失值具体可以为候选图像的第一特征信息及对应的训练图像的第一特征信息之间的2-范数，第二损失值具体可以为候选图像的第二特征信息及对应的参考图像的第二特征信息之间的2-范数。

举例而言，可以采取如下公式计算第一损失值及第二损失值：

L _{attr_inp}= ‖E _inp(A)﹣E _inp(C)‖₂

L _{attr_ref}= ‖E _ref(B´)﹣E _ref(C)‖₂

其中，C表示候选图像，A表示训练图像，B´表示参考图像，E _inp(C)表示候选图像经过预设第一编码器E_inp得到的输出结果，E _ref(C)表示候选图像经过预设第二编码器E_ref得到的输出结果，E _inp(A)表示训练图像经过预设第一编码器E_inp得到的输出结果，E _ref(B ´)表示参考图像经过预设第二编码器E_ref得到的输出结果，“‖‖₂”表示2-范数计算过程，L _{attr_inp}表示第一损失值，L _{attr_ref}表示第二损失值。

可以理解，候选图像C是根据训练图像A的第一特征信息E _inp(A)和参考图像B´的第二特征信息E _ref(B´)生成的，而E_inp和E_ref就是分别对训练图像A和参考图像B´提取对应信息的模块，所以理想情况下，分别利用E_inp和E_ref对候选图像C提取的特征，应该分别和E _inp(A)及E _ref(B´)一致。

如图3所示，为本方案的训练过程示意图，在训练过程中，将训练图像A输入至E_inp，得到E _inp(A)，将参考图像B´输入至E_ref，得到E _ref(B´)，然后，由D根据E _inp(A)及E _ref(B ´)，对训练图像A中的视频帧进行处理，得到候选图像C，进而根据候选图像C计算损失值，对E_inp、E_ref和D的模型参数进行调整。

其中，第一损失值和第二损失值可以表示为Attr loss，是根据E_inp对候选图像C和训练图像A提取的特征之间的差别，以及E_ref对候选图像C和参考图像B´提取的特征之间的差别，衡量E_inp、E_ref和D的预测结果的好坏。

一种实现方式中，候选图像的损失值还可以包括第三损失值。具体而言，首先，可以获取每个训练图像对应的真实图像，真实图像为对训练图像进行处理后得到的真实结果；然后，根据候选图像与真实图像之间的差值，计算候选图像的第三损失值。

其中，第三损失值可以为候选图像与真实图像之间的1-范数。

举例而言，可以采取如下公式计算第三损失值：

L _{pari_l1}= ‖C﹣B‖

其中，B表示真实图像，“‖‖”表示1-范数计算过程，L _{pari_l1}表示第三损失值。

可以理解，在训练时，除了随机选择参考图像外，会有一定比例的参考图像选为真实图像的变换，这样，相当于人为制造了一些具有连续信息的数据，更有助于模型的训练。在理想状态下，候选图像C应该包含A的第一特征信息和B´的第二特征信息，而B´为B的变换，所以B´的第二特征信息即B的第二特征信息，而且，B为对A进行处理后得到的真实结果，B的第一特征信息即A的第一特征信息，那么，C和B均包含A的第一特征信息和B´的第二特征信息，C应该与B相似。

如图3所示，参考图像B´是由真实图像B经过GT（Graph Transformer，图像变换）处理后得到的，第三损失值可以表示为Pair loss，是根据C和B之间的差别，衡量E_inp、E_ref和D的预测结果的好坏。

由以上可见，在本方案中，通过预先获取待处理人脸视频对应的参考图像，并提取参考图像中与待处理人脸视频的处理结果相匹配的第二特征信息，结合第二特征信息与从待处理人脸视频中提取出的第一特征信息，得到目标人脸视频，一方面，目标人脸视频能够与待处理人脸视频相吻合，另一方面，从参考图像中提取与待处理人脸视频的处理结果相匹配的第二特征信息，使得目标人脸视频中每个视频帧的处理结果之间的匹配度提高，相邻视频帧之间的连续性也得以增强，从而提高了目标人脸视频的稳定性，减少了发生抖动的可能性。

图4是根据一示例性实施例示出的一种人脸视频处理装置框图，该装置包括：

获取模块301，用于获取待处理人脸视频及对应的参考图像；

第一特征提取模块302，用于利用预设第一编码器提取所述待处理人脸视频中的视频帧的第一特征信息，所述第一特征信息为所述视频帧中需要保留的特征信息；

第二特征提取模块303，用于利用预设第二编码器提取所述参考图像的第二特征信息，所述第二特征信息为预设的与所述待处理人脸视频的处理结果相匹配的特征信息；

处理模块304，用于根据所述第一特征信息及所述第二特征信息，对所述待处理人脸视频中的视频帧进行处理，得到目标人脸视频。

一种实现方式中，所述装置还包括训练模块，用于：

一种实现方式中，所述候选图像的损失值包括第一损失值及第二损失值，所述训练模块，具体用于：

一种实现方式中，所述训练模块，具体用于：

一种实现方式中，所述候选图像的损失值包括第三损失值，所述训练模块，具体用于：

一种实现方式中，所述训练模块，具体用于：

由以上可见，本公开的实施例提供的技术方案，通过预先获取待处理人脸视频对应的参考图像，并提取参考图像中与待处理人脸视频的处理结果相匹配的第二特征信息，结合第二特征信息与从待处理人脸视频中提取出的第一特征信息，得到目标人脸视频，一方面，目标人脸视频能够与待处理人脸视频相吻合，另一方面，从参考图像中提取与待处理人脸视频的处理结果相匹配的第二特征信息，使得目标人脸视频中每个视频帧的处理结果之间的匹配度提高，相邻视频帧之间的连续性也得以增强，从而提高了目标人脸视频的稳定性，减少了发生抖动的可能性。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信，

存储器703，用于存放计算机程序；

处理器701，用于执行存储器703上所存放的程序时，实现如下步骤：

获取待处理人脸视频及对应的参考图像；

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由以上可见，本发明实施例提供的方案中，通过预先获取待处理人脸视频对应的参考图像，并提取参考图像中与待处理人脸视频的处理结果相匹配的第二特征信息，结合第二特征信息与从待处理人脸视频中提取出的第一特征信息，得到目标人脸视频，一方面，目标人脸视频能够与待处理人脸视频相吻合，另一方面，从参考图像中提取与待处理人脸视频的处理结果相匹配的第二特征信息，使得目标人脸视频中每个视频帧的处理结果之间的匹配度提高，相邻视频帧之间的连续性也得以增强，从而提高了目标人脸视频的稳定性，减少了发生抖动的可能性。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的人脸视频处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的人脸视频处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种人脸视频处理方法，其特征在于，包括：

获取待处理人脸视频及对应的参考图像；

根据所述第一特征信息及所述第二特征信息，对所述待处理人脸视频中的视频帧进行处理，得到目标人脸视频；

其中，采用如下步骤，训练得到所述预设第一编码器及所述预设第二编码器：

2.根据权利要求1所述的人脸视频处理方法，其特征在于，所述候选图像的损失值包括第一损失值及第二损失值，所述计算所述候选图像的损失值，包括：

3.根据权利要求2所述的人脸视频处理方法，其特征在于，所述根据所述候选图像的第一特征信息及对应的训练图像的第一特征信息，计算所述候选图像的第一损失值，包括：

4.根据权利要求1所述的人脸视频处理方法，其特征在于，所述候选图像的损失值包括第三损失值，所述计算所述候选图像的损失值，包括：

5.根据权利要求4所述的人脸视频处理方法，其特征在于，所述根据所述候选图像与所述真实图像之间的差值，计算所述候选图像的第三损失值，包括：

6.一种人脸视频处理装置，其特征在于，包括：

获取模块，用于获取待处理人脸视频及对应的参考图像；

处理模块，用于根据所述第一特征信息及所述第二特征信息，对所述待处理人脸视频中的视频帧进行处理，得到目标人脸视频；

其中，所述装置还包括训练模块，用于：

7.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器;

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的人脸视频处理方法。

8.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由人脸视频处理电子设备的处理器执行时，使得人脸视频处理电子设备能够执行如权利要求1至5中任一项所述的人脸视频处理方法。