CN113076828A

CN113076828A - 视频编辑方法和装置以及模型训练方法和装置

Info

Publication number: CN113076828A
Application number: CN202110301329.1A
Authority: CN
Inventors: 孙亚楠; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-07-06
Anticipated expiration: 2041-03-22
Also published as: CN113076828B

Abstract

本公开关于一种视频编辑方法和装置以及模型训练方法和装置。所述视频编辑方法可包括以下步骤：获取待编辑视频以及所述待编辑视频中的至少一个视频帧的三元图；基于所述至少一个视频帧和获取的三元图获得第一语义特征，并且基于所述待编辑视频中的除所述至少一个视频帧之外的其余视频帧获得第二语义特征；基于第一语义特征和第二语义特征执行特征融合，以获得融合语义特征；基于所述融合语义特征来获得所述其余视频帧的三元图；使用所述至少一个视频帧和所述其余视频帧的三元图对所述待编辑视频进行目标对象提取。

Description

视频编辑方法和装置以及模型训练方法和装置

技术领域

本公开涉及人工智能领域和视频技术领域，尤其涉及一种用于抠图的视频编辑方法和视频编辑装置以及模型训练方法和模型训练装置。

背景技术

目前，图像抠图技术由于深度学习网络的广泛应用而有了极大进展。图像抠图问题可用公式I＝αF+(1-α)B定义，其中，I代表图片，F代表前景图层，B代表背景图层，并且α代表Alpha图层，Alpha图层是图像抠图问题中的待求解变量。从上述公式中可以看出，给定一张图片，在没有额外提示的情况下，网络难以确定需要抠图的前景区域和背景区域，从而难以给出Alpha图层的最优解，因此，现有的抠图算法通常会提供额外输入以用于确定前景区域和背景区域的大致轮廓，其中，最常用的额外输入是Trimap图。

Trimap图是一个三类别的掩膜，其中，每个像素被标识为前景像素、背景像素或者未知像素。前景像素代表像素点属于确定的前景，其对应位置的Alpha值为1，即图片像素完全来源于前景；背景像素代表像素点属于确定的背景，其对应位置的Alpha值为0，即图片像素完全来源于背景。而未知像素表示像素点可能完全来源于前景，或完全来源于背景，或同时来源于前景和背景，前景和背景的占比由Alpha值控制，Trimap图中的未知区域就是抠图任务中的待求解区域。

在图像抠图任务中，Trimap图通常由用户手动标注提供。如果输入的是单张图片，则标注成本较低，在可接受范围内。但是在视频抠图任务中，如果由用户逐帧提供Trimap图，则会为用户带来很大工作量。因此，目前的视频抠图技术由于对逐帧Trimap图的依赖而受到了限制。

发明内容

本公开提供一种视频编辑方法和装置以及模型训练方法和装置，以至少解决问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频编辑方法，所述视频编辑方法可包括：获取待编辑视频以及所述待编辑视频中的至少一个视频帧的三元图(Trimap图)；基于所述至少一个视频帧和获取的Trimap图获得第一语义特征并且基于所述待编辑视频中的除所述至少一个视频帧之外的其余视频帧获得第二语义特征；基于第一语义特征和第二语义特征执行特征融合，以获得融合语义特征；基于所述融合语义特征来获得所述其余视频帧的Trimap图；使用所述至少一个视频帧和所述其余视频帧的Trimap图对所述待编辑视频进行目标对象提取。

可选地，基于第一语义特征和第二语义特征执行特征融合的步骤可包括通过计算第一语义特征与第二语义特征之间的相似度来执行特征融合。

可选地，基于所述至少一个视频帧和获取的Trimap图获得第一语义特征并且基于所述其余视频帧获得第二语义特征的步骤可包括：基于所述至少一个视频帧和获取的Trimap图提取所述至少一个视频帧的每个像素的语义特征，并且利用第一卷积网络将该语义特征编码为第一语义特征并利用第二卷积网络将第一语义特征编码为增强语义特征；基于所述其余视频帧提取所述其余视频帧的每个像素的语义特征，并且利用第三卷积网络将该语义特征编码为第二语义特征。

可选地，基于第一语义特征和第二语义特征执行特征融合以获得融合语义特征的步骤可包括：通过计算第一语义特征与第二语义特征之间的相似度以获得相似度矩阵，利用所述相似度矩阵与所述增强语义特征来获得加权语义特征，并且利用所述加权语义特征和第二语义特征来获得所述融合语义特征。

可选地，基于所述融合语义特征来获得所述其余视频帧的Trimap图的步骤可包括：对所述融合语义特征进行解码以重建所述其余视频帧的原尺寸空间的语义特征；根据重建的语义特征将所述其余视频帧的每个像素分类为前景像素、背景像素或未知像素，以生成所述其余视频帧的Trimap图。

根据本公开实施例的第二方面，提供一种视频编辑装置，所述视频编辑装置可包括：获取模块，被配置为获取待编辑视频以及所述待编辑视频中的至少一个视频帧的Trimap图；生成模块，被配置为：基于所述至少一个视频帧和获取的Trimap图获得第一语义特征并且基于所述待编辑视频中的除所述至少一个视频帧之外的其余视频帧获得第二语义特征；基于第一语义特征和第二语义特征执行特征融合，以获得融合语义特征；基于所述融合语义特征来获得所述其余视频帧的Trimap图；以及处理模块，被配置为使用所述至少一个视频帧和所述其余视频帧的Trimap图对所述待编辑视频进行目标对象提取。

可选地，生成模块可被配置为通过计算第一语义特征与第二语义特征之间的相似度来执行特征融合。

可选地，生成模块可被配置为：基于所述至少一个视频帧和获取的Trimap图提取所述至少一个视频帧的每个像素的语义特征，并且利用第一卷积网络将该语义特征编码为第一语义特征并利用第二卷积网络将第一语义特征编码为增强语义特征；基于所述其余视频帧提取所述其余视频帧的每个像素的语义特征，并且利用第三卷积网络将该语义特征编码为第二语义特征。

可选地，生成模块可被配置为通过计算第一语义特征与第二语义特征之间的相似度来获得相似度矩阵，利用所述相似度矩阵与所述增强语义特征来获得加权语义特征，并且利用所述加权语义特征和第二语义特征来获得所述融合语义特征。

可选地，生成模块可被配置为：对所述融合语义特征进行解码以重建所述其余视频帧的原尺寸空间的语义特征；以及根据重建的语义特征将所述其余视频帧的每个像素分类为前景像素、背景像素或未知像素，以生成所述其余视频帧的Trimap图。

根据本公开实施例的第三方面，提供一种神经网络模型的训练方法，所述训练方法可包括：获取训练样本，其中，所述训练样本包括样本视频帧以及针对所述样本视频帧标注的样本Trimap图；基于所述样本视频帧中的一部分视频帧和所述一部分视频帧的样本Trimap图获得第一语义特征并且基于所述样本视频帧的另一部分视频帧获得第二语义特征；基于第一语义特征和第二语义特征执行特征融合，以获得融合语义特征；基于所述融合语义特征来预测所述另一部分视频帧的预测Trimap图；通过对所述另一部分视频帧的预测Trimap图与所述另一部分视频帧的样本Trimap图进行比较来调整所述神经网络模型的参数。

可选地，基于所述样本视频帧中的一部分视频帧和所述一部分视频帧的样本Trimap图获得第一语义特征并且基于所述样本视频帧的另一部分视频帧获得第二语义特征的步骤可包括：基于所述样本视频帧中的一部分视频帧和所述一部分视频帧的样本Trimap图提取所述一部分视频帧的每个像素的语义特征，并且利用第一卷积网络将该语义特征编码为第一语义特征并利用第二卷积网络将第一语义特征编码为增强语义特征；基于所述样本视频帧中的另一部分视频帧提取所述另一部分视频帧的每个像素的语义特征，并且利用第三卷积网络将该语义特征编码为第二语义特征。

可选地，基于所述融合语义特征来预测所述另一部分视频帧的预测Trimap图的步骤可包括：对所述融合语义特征进行解码以重建所述另一部分视频帧的原尺寸空间的语义特征；根据重建的语义特征将所述另一部分视频帧的每个像素分类为前景像素、背景像素或未知像素，以生成所述另一部分视频帧的预测Trimap图。

根据本公开实施例的第四方面，提供一种神经网络模型的训练装置，所述训练装置可包括：获取模块，被配置为获取训练样本，其中，所述训练样本包括样本视频帧以及针对所述样本视频帧标注的样本Trimap图；训练模块，被配置为：基于所述样本视频帧中的一部分视频帧和所述一部分视频帧的样本Trimap图获得第一语义特征并且基于所述样本视频帧的另一部分视频帧获得第二语义特征；基于第一语义特征和第二语义特征执行特征融合，以获得融合语义特征；基于所述融合语义特征来预测所述另一部分视频帧的预测Trimap图；通过对所述另一部分视频帧的预测Trimap图与所述另一部分视频帧的样本Trimap图进行比较来调整所述神经网络模型的参数。

可选地，训练模块可被配置为通过计算第一语义特征与第二语义特征之间的相似度来执行特征融合。

可选地，训练模块可被配置为：基于所述样本视频帧中的一部分视频帧和所述一部分视频帧的样本Trimap图提取所述一部分视频帧的每个像素的语义特征，并且利用第一卷积网络将该语义特征编码为第一语义特征并利用第二卷积网络将第一语义特征编码为增强语义特征；并且基于所述样本视频帧中的另一部分视频帧提取所述另一部分视频帧的每个像素的语义特征，并且利用第三卷积网络将该语义特征编码为第二语义特征。

可选地，训练模块可被配置为：通过计算第一语义特征与第二语义特征之间的相似度以获得相似度矩阵，利用所述相似度矩阵与所述增强语义特征来获得加权语义特征，并且利用所述加权语义特征和第二语义特征来获得所述融合语义特征。

可选地，训练模块可被配置为：对所述融合语义特征进行解码以重建所述另一部分视频帧的原尺寸空间的语义特征；根据重建的语义特征将所述另一部分视频帧的每个像素分类为前景像素、背景像素或未知像素，以生成所述另一部分视频帧的预测Trimap图。

根据本公开实施例的第五方面，提供一种电子设备，所述电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的视频编辑方法或者模型训练方法。

根据本公开实施例的第六方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的视频编辑方法或者模型训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的视频编辑方法或者模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过利用深度神经网络模型来生成视频帧的Trimap图，不仅减少了人为标注所需的时间成本，而且能够获得更高质量的Trimap图。此外，本公开的Trimap传播算法可应用各种场景，具有良好的扩展性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频编辑方法的流程图。

图2是根据一示例性实施例示出的生成Trimap图的流程示意图。

图3是根据一示例性实施例示出的一种模型训练方法的流程图。

图4是根据一示例性实施例示出的一种视频编辑装置的框图。

图5是根据一示例性实施例示出的一种模型训练装置的框图。

图6是根据一示例性实施例示出的一种音频处理设备的结构示意图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义，而仅由发明人用来实现本公开的清楚且一致的理解。因此，本领域的技术人员应清楚，本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了能够解决视频抠图技术高度依赖逐帧Trimap图的问题，一般采用光流算法来传播Trimap图。具体来讲，给定一段视频，提取部分关键帧并要求用户提供这些关键帧的Trimap图。这里，用下标t来表示在时刻t的视频帧，用上标k来区分关键帧和非关键帧。假设已经为关键帧

和

提供了手动标注的Trimap图，对于t_i和t_j之间的非关键帧，可通过计算相邻帧之间的光流来将Trimap图从t_i传播到t_j，即从时刻t_i到t_i+1之间的光流为O_t,根据O_t能够粗略得到每个像素的运动向量，将t_i帧对应的Trimap图的像素移动相应的位移(即得到的运动向量)从而得到t_i+1帧对应的Trimap图。在得到第t_i+1帧的Trimap图之后，可以继续向下一帧传播，直到遇到下一个关键帧，再重复上述步骤。

然而，上述采用光流算法传播Trimap图的方案需要对光流高度依赖。虽然现有的光流算法也有了进展，但是其性能仍然受限于各种场景。在抠图任务中，待求解区域通常由大量带有透明度的像素组成，但现有的光流算法不能很好的解决带有透明度像素的场景。另外，现有的光流算法也不能很好地处理精细结构(比如毛发等)以及快速运动的物体。例如，当前物体快速移动时，像素的位移通常很大，甚至物体部分区域的像素会从画面中消失，这些情况都会导致光流算法难以定位相邻帧之间的像素映射，从而无法得到精确的光流。而这些场景又是视频抠图任务中最常遇到的场景，因此，使用该方案会导致Trimap图传播中出现很多错误的Trimap图，而错误的Trimap图又直接影响了抠图性能。

基于此，本公开提供了一种Trimap图传播算法，即输入一段视频，利用深度学习网络在仅需要极少量的Trimap图的情况下即可生成整个视频所有帧的Trimap图，极大地减少了人为标注所需要的时间成本，并且更加广泛地适用于各种应用场景。

在下文中，根据本公开的各种实施例，将参照附图对本公开的方法、装置进行详细描述。

图1是根据一示例性实施例示出的一种视频编辑方法的流程图。根据本公开实施例的视频编辑方法可用于视频的目标对象提取，这里，目标对象提取可指抠图处理。图1所示的视频编辑方法可由电子设备执行。电子设备可以是包括如下中的至少一个：例如，智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器(e-book reader)、桌上型PC、膝上型PC、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、相机和可穿戴装置等。

参照图1，在步骤S101，获取待编辑视频以及待编辑视频中的至少一个视频帧的Trimap图。对于将被抠图处理的视频，可首先从该视频中选择一个或者多个视频帧作为参考帧，对选择的参考帧进行手动标注以提供这些参考帧的Trimap图。例如，对于前景物体运动幅度较小的视频，可手动标注该视频的第一帧的Trimap图，对于前景物体运动幅度较大的视频，可从该视频中选择少量的视频帧作为参考帧并为这些参考帧提供Trimap图。或者，可从待编辑的视频中选择少量关键帧作为参考帧。这里，将被选择为参考帧的视频帧的数量和类型可根据实际情况确定，本公开不限于此。

在步骤S102，基于待编辑视频的至少一个视频帧和相应的三元图获得第一语义特征并且基于待编辑视频中的除所述至少一个视频帧之外的其余视频帧获得第二语义特征。

根据本公开的实施例，可由神经网络模型基于待编辑视频的至少一个视频帧和相应的三元图获得第一语义特征并且基于待编辑视频中的除所述至少一个视频帧之外的其余视频帧获得第二语义特征。在下文中，本公开的神经网络模型可称为Trimap传播模型。

对于一段待编辑视频，可将待编辑视频以及待编辑视频中的至少一个视频帧的Trimap图输入至Trimap传播模型，然后可由Trimap传播模型计算第一语义特征和第二语义特征。作为示例，Trimap传播模型可基于具有标注的Trimap图的至少一个视频帧(在下文中可称为参考帧)和相应的Trimap图获得第一语义特征并且基于不具有Trimap图的其余视频(在下文中可称为其他帧)帧获得第二语义特征。

在步骤S103，可利用Trimap传播模型基于第一语义特征和第二语义特征执行特征融合，以获得融合语义特征，在步骤S104，可利用Trimap传播模型基于获得的融合语义特征来获得其他帧的Trimap图。

在步骤S105，利用与待编辑视频中的每个视频帧相应的Trimap图对待编辑视频进行目标对象提取。即，可利用与待编辑视频中的每个视频帧相应的Trimap图对待编辑视频进行抠图处理。

在Trimap传播模型中，获得第一语义特征的操作以及获得第二语义特征的操作可由编码器实现，获得融合语义特征的操作可由注意力模型实现，获得其他帧的Trimap图的操作可由解码器实现。

具体地，可使用两个分享权重的编码器来分别提取参考帧的第一语义特征和其他帧的第二语义特征。例如，第一编码器可基于参考帧和参考帧的Trimap图提取参考帧的每个像素的语义特征，并且利用第一卷积网络将该语义特征编码为第一语义特征并利用第二卷积网络将第一语义特征编码为增强语义特征。这里，第一卷积网络可不同于第二卷积网络。第二编码器可基于其他帧提取其他帧的每个像素的语义特征，并且利用第三卷积网络将该语义特征编码为第二语义特征。这里，第三卷积网络可与第一卷积网络相同。

Trimap传播模型中的注意力模型基于注意力机制。注意力模型可通过计算第一语义特征与第二语义特征之间的相似度来执行特征融合。例如，通过基于注意力机制计算参考帧与其他帧之间的区域相似度，将参考帧的Trimap图传播到其他帧中。具体地，通过计算针对参考帧的第一语义特征与针对其他帧的第二语义特征之间的相似度以获得相似度矩阵，利用相似度矩阵与针对参考帧的增强语义特征来获得加权语义特征以用作残差特征，并且利用加权语义特征和第二语义特征来获得针对其他帧的融合语义特征。

可使用一个解码器和一个分类器基于融合语义特征来生成其他帧的Trimap图。例如，解码器可对获得的融合语义特征进行解码以重建其他帧的原尺寸空间的语义特征，根据重建的语义特征将其他帧的每个像素分类为前景像素、背景像素或未知像素，以生成其他帧的Trimap图。

根据本公开的实施例，可基于获取的至少一个视频帧的Trimap图利用神经网络模型来生成待编辑视频中的除该至少一个视频帧之外的其余视频帧的Trimap图。根据本公开的实施例，可利用神经网络模型将参考帧(即具有Trimap图的视频帧)的Trimap图分别前向和后向传播到待编辑视频的其他帧(即不具有Trimap图的视频帧)。

本公开的用于生成Trimap图的Trimap传播模型的网络结构可根据应用场景来选择。作为示例，在服务端场景下可选择大模型(例如，残差神经网络(Residual NeuralNetwork，ResNet)、ResNet-50或ResNet-101)来实现Trimap传播模型。通过使用大模型，可增加Trimap传播模型的预测精度。在移动端场景下可选择小模型(例如，MobileNet或MobileNet-V2)来实现Trimap传播模型。通过使用小模型，可提高Trimap传播模型的预测速度。然而，上述示例仅是示例性的，本公开不限于此。根据本公开的实施例，Trimap传播模型可以是基于注意力机制的深度神经网络。下面将参照图2详细地描述本公开的生成Trimap图的方法。

图2是根据一示例性实施例示出的生成Trimap图的流程示意图。

参照图2，对于一段待编辑视频，可分为参考帧和其他帧，其中，I_r表示具有Trimap图的参考帧，T_r表示参考帧的Trimap图，I_t表示不具有Trimap图的其他帧，T_t表示其他帧的Trimap图。第一编码器利用参考帧I_r以及参考帧的Trimap图T_r来提取参考帧I_r中的每个像素的语义特征，并且利用卷积网络对提取的语义特征进行编码。例如，第一编码器利用第一卷积网络将提取的语义特征编码为第一语义特征并且利用第二卷积网络将第一语义特征编码为增强语义特征。第二编码器利用其它帧来提取其它帧中的每个像素的语义特征，然后利用第三卷积网络将提取的语义特征编码为第二语义特征。这里，用于第一卷积网络、第二卷积网络和第三卷积网络可相同或不同。

可利用注意力模型来计算参考帧I_r的第一语义特征和其他帧I_t的第二语义特征之间的相似度，以得到相似度矩阵。例如，第一编码器编码后的第一语义特征的尺寸为hw xc，第二编码器编码后的第二语义特征的尺寸为hw x c，对第一语义特征与第二语义特征执行同或运算来获得尺寸为hw x hw的相似度矩阵。或者，对第一语义特征与第二语义特征执行乘法运算来获得尺寸为hw x hw的相似度矩阵。

接下来，注意力模型可对相似度矩阵与由第一编码器获得的增强语义特征执行同或运算或乘法运算以得到加权语义特征。加权语义特征可用作残差特征。这里，针对参考帧的增强语义特征与第一语义特征的尺寸可相同。例如，将尺寸为hw x hw的相似度矩阵与尺寸为hw x c的增强语义特征执行同或运算或相乘以获得尺寸为hw x c的加权语义特征作为残差特征。

然后，注意力模型可将由第二编码器获得的第二语义特征与加权语义特征进行融合(例如，相加/相连)以获得融合语义特征。这里，第二语义特征与第一语义特征的尺寸可相同。例如，将尺寸为hw x c的第二语义特征与尺寸为hw x c的加权语义特征相加以获得尺寸为hw x c的融合语义特征。然而，上述融合方式仅是示例性的，本公开不限于此。

解码器可将融合语义特征解码为原尺寸空间的语义特征，然后分类器根据解码后的语义特征将其他帧的每个像素分类为前景像素、背景像素或未知像素，从而输出其他帧的Trimap图。

在本公开中，Trimap传播模型可基于预先标注有Trimap图的参考帧以及Trimap图来输出未标注有Trimap图的其他帧的Trimap图，或者Trimap传播模型可基于预先标注有Trimap图的参考帧以及Trimap图来输出待编辑视频中的所有视频帧的Trimap图。

根据本公开的实施例，Trimap传播模型通过计算参考帧与其他帧之间的关联性，将Trimap图信息从参考帧传播到其他帧，从而得到鲁棒性高的Trimap图，并且Trimap传播模型可应用于任意抠图算法中。

图3是根据一示例性实施例示出的一种模型训练方法的流程图。图3所示的模型训练方法可由上述电子设备执行。

参照图3，在步骤S301，获取用于训练Trimap传播模型的训练样本。获取的训练样本可包括不同视频中的视频帧以及这些视频帧的Trimap图。可由人工标注训练样本中的视频帧来获得Trimap图。

在步骤S302，利用获取的训练样本对Trimap传播模型进行训练。在本公开中，Trimap传播模型可由基于注意力机制的深度神经网络实现，例如，ResNet、ResNet-50、ResNet-101、MobileNet或MobileNet-V2。然而，上述示例仅是示例性的，本公开不限于此。

在训练过程中，可将获取的训练样本中的一部分视频帧作为参考帧，并且将获取的训练样本的另一部分视频帧作为目标帧，将参考帧与参考帧的Trimap图以及目标帧输入至Trimap传播模型，然后Trimap传播模型输出目标帧的预测的Trimap图，通过对目标帧的预测的Trimap图(预测数据)与目标帧的获取的Trimap图(真实数据)进行比较来调整Trimap传播模型的参数。例如，可基于目标帧的预测的Trimap图与目标帧的真实的Trimap图来构建损失函数，通过使构建的损失函数最小化来调整Trimap传播模型的参数，从而获得能够预测高质量的Trimap图的Trimap传播模型。

作为示例，Trimap传播模型可基于预先获得的样本视频帧中的一部分视频帧(作为参考帧)和该部分视频帧的Trimap图获得第一语义特征并且基于样本视频帧的另一部分视频帧(作为目标帧)获得第二语义特征，基于第一语义特征和第二语义特征执行特征融合，以获得融合语义特征，然后基于融合语义特征来预测另一部分视频帧的Trimap图。通过对预测出的另一部分视频帧的Trimap图与另一部分视频帧的样本Trimap图进行比较来调整Trimap传播模型的参数。

在Trimap传播模型执行特征融合时，可通过计算第一语义特征与第二语义特征之间的相似度来执行特征融合。作为示例，首先，Trimap传播模型可基于样本视频帧中的一部分视频帧和该部分视频帧的Trimap图提取该部分视频帧的每个像素的语义特征，并且利用第一卷积网络将该语义特征编码为第一语义特征并利用第二卷积网络将第一语义特征编码为增强语义特征，可基于样本视频帧中的另一部分视频帧提取另一部分视频帧的每个像素的语义特征，并且利用第三卷积网络将该语义特征编码为第二语义特征，可通过计算第一语义特征与第二语义特征之间的相似度以获得相似度矩阵，利用相似度矩阵与增强语义特征来获得加权语义特征作为残差特征，并且通过将加权语义特征和第二语义特征相连来获得融合语义特征。

通过计算参考帧与目标帧之间的相似度，可得到目标帧中的每个像素对应于参考帧上的像素特征，即如果一个目标帧的像素是前景像素，则该像素可被对应到参考帧的前景像素。通过这种对应关系，可容易地找到目标帧中的每个像素对应于参考帧的是前景像素、背景像素还是未知像素，从而得到目标帧的Trimap图。

Trimap传播模型可对融合语义特征进行解码以重建另一部分视频帧的原尺寸空间的语义特征，然后根据重建的语义特征将另一部分视频帧的每个像素分类为前景像素、背景像素或未知像素，以生成另一部分视频帧的Trimap图。上述Trimap传播模型的训练过程仅是示例性的，本公开不限于此。

根据本公开的实施例，通过计算目标帧与参考帧之间的关联度，将参考帧的Trimap图信息从参照帧传播到目标帧，从而鲁棒地预测Trimap图。与传统依赖光流的算法相比，本公开的算法不受光流限制，预测更稳定，生成的Trimap图质量更高。

此外，本公开的Trimap图传播算法可被应用于各种应用场景，具有良好的扩展性。

图4是根据一示例性实施例示出的一种视频编辑装置的框图。

参照图4，视频编辑装置400可包括获取模块401、生成模块402和处理模块403。视频编辑装置400中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略视频编辑装置400中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

获取模块401可获取待编辑视频以及待编辑视频中的至少一个视频帧的Trimap图。

生成模块402可训练用于生成Trimap图的神经网络模型，然后可基于获取的至少一个视频帧的Trimap图利用神经网络模型来生成待编辑视频中的除获取的至少一个视频帧之外的其余视频帧的Trimap图。或者，生成模块402可从外部(诸如服务器)获取预先训练好的神经网络模型。

处理模块403可使用Trimap图对待编辑视频进行抠图处理。

根据本公开的实施例，用于生成Trimap图的神经网络模型(如Trimap传播模型)可被配置为基于获取的至少一个视频帧和获取的Trimap图获得第一语义特征并且基于其余视频帧获得第二语义特征，基于第一语义特征和第二语义特征执行特征融合以获得融合语义特征，并且基于获得的融合语义特征来生成其余视频帧的Trimap图。

在训练用于生成Trimap图的神经网络模型(如Trimap传播模型)的过程中，生成模块402可将Trimap传播模型划分为若干模块进行训练，使得由生成模块402训练生成的Trimap传播模型的各个模块可实现以下操作。

神经网络模型中的特征融合模块可通过计算第一语义特征与第二语义特征之间的相似度来执行特征融合。根据本公开的实施例，特征融合模块基于注意力机制/注意力模型实现。

神经网络模型中的特征提取模块可基于获取的至少一个视频帧和获取的Trimap图提取至少一个视频帧的每个像素的语义特征，并且利用第一卷积网络将该语义特征编码为第一语义特征并利用第二卷积网络将第一语义特征编码为增强语义特征，可基于其余视频帧提取其余视频帧的每个像素的语义特征，并且利用第三卷积网络将该语义特征编码为第二语义特征。这里，特征提取模块可由两个编码器实现，例如，第一编码器用于基于获取的至少一个视频帧和获取的Trimap图获取第一语义特征，第二编码器用于基于其余视频帧获取第二语义特征。然而上述实现方式仅是示例性的，本公开不限于此。

神经网络模型的特征融合模块可通过计算第一语义特征与第二语义特征之间的相似度来获得相似度矩阵，利用相似度矩阵与增强语义特征来获得加权语义特征，并且利用加权语义特征和第二语义特征来获得融合语义特征。

神经网络模型的预测模块可对融合语义特征进行解码以重建其余视频帧的原尺寸空间的语义特征，然后根据重建的语义特征将其余视频帧的每个像素分类为前景像素、背景像素或未知像素，以生成其余视频帧的Trimap图。这里，预测模块可由解码器和分类器实现，例如，解码器可对融合语义特征进行解码，分类器对解码后的语义特征对其他视频帧的每个像素进行分类。

图5是根据一示例性实施例示出的一种模型训练装置的框图。

参照图5，模型训练装置500可包括获取模块501和训练模块502。模型训练装置500中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略模型训练装置500中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

获取模块501可获取训练样本，其中，训练样本包括样本视频帧以及针对样本视频帧标注的Trimap图。

训练模块502可利用获取的训练样本对神经网络模型进行训练，其中，训练模块502通过对神经网络模型进行训练，使得神经网络模型可被配置为基于获取的样本视频帧中的一部分视频帧和该部分视频帧的样本Trimap图获得第一语义特征并且基于样本视频帧的另一部分视频帧获得第二语义特征，基于第一语义特征和第二语义特征执行特征融合以获得融合语义特征，然后基于融合语义特征来预测所述另一部分视频帧的预测Trimap图，通过对另一部分视频帧的预测Trimap图(预测数据)与另一部分视频帧的样本Trimap图(真实数据)进行比较来调整神经网络模型的参数。

训练模块502可通过训练神经网络模型，使得神经网络模型实现以下操作。

神经网络模型可被配置为通过计算第一语义特征与第二语义特征之间的相似度来执行特征融合。

神经网络模型可被配置为基于获取的样本视频帧中的一部分视频帧和该部分视频帧的样本Trimap图提取该部分视频帧的每个像素的语义特征，并且利用第一卷积网络将该语义特征编码为第一语义特征并利用第二卷积网络将第一语义特征编码为增强语义特征，并且基于获取的样本视频帧中的另一部分视频帧提取该另一部分视频帧的每个像素的语义特征，并且利用第三卷积网络将该语义特征编码为第二语义特征。

神经网络模型可被配置为通过计算第一语义特征与第二语义特征之间的相似度以获得相似度矩阵，利用相似度矩阵与增强语义特征来获得加权语义特征，并且利用加权语义特征和第二语义特征来获得融合语义特征。

神经网络模型可被配置为对融合语义特征进行解码以重建所述另一部分视频帧的原尺寸空间的语义特征，根据重建的语义特征将所述另一部分视频帧的每个像素分类为前景像素、背景像素或未知像素，以生成所述另一部分视频帧的预测Trimap图。

图6是本公开实施例的硬件运行环境的视频编辑设备的结构示意图。

如图6所示，视频编辑设备600可包括：处理组件601、通信总线602、网络接口603、输入输出接口604、存储器605以及电源组件606。其中，通信总线602用于实现这些组件之间的连接通信。输入输出接口604可以包括视频显示器(诸如，液晶显示器)、麦克风和扬声器以及用户交互接口(诸如，键盘、鼠标、触摸输入装置等)，可选地，输入输出接口604还可包括标准的有线接口、无线接口。网络接口603可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器605可以是高速的随机存取存储器，也可以是稳定的非易失性存储器。存储器605可选的还可以是独立于前述处理组件601的存储装置。

本领域技术人员可以理解，图6中示出的结构并不构成对视频编辑设备600的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图6所示，作为一种存储介质的存储器605中可包括操作系统(诸如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、视频编辑程序以及数据库。

在图6所示的视频编辑设备600中，网络接口603主要用于与外部设备/终端进行数据通信；输入输出接口604主要用于与用户进行数据交互；视频编辑设备600中的处理组件601、存储器605可被设置在视频编辑设备600中，视频编辑设备600通过处理组件601调用存储器605中存储的视频编辑程序以及由操作系统提供的各种API，执行本公开实施例提供的视频编辑方法。

处理组件601可以包括至少一个处理器，存储器605中存储有计算机可以执行指令集合，当计算机可以执行指令集合被至少一个处理器执行时，执行根据本公开实施例的视频编辑方法。此外，处理组件601可执行编码操作和解码操作等。然而，上述示例仅是示例性的，本公开不限于此。

处理组件601可获取待编辑视频以及待编辑视频中的至少一个视频帧的Trimap图，基于获取的至少一个视频帧的Trimap图利用神经网络模型来生成待编辑视频中的除至少一个视频帧之外的其余视频帧的Trimap图，然后使用Trimap图对待编辑视频进行抠图处理，其中，神经网络模型可被配置为基于至少一个视频帧和获取的Trimap图获得第一语义特征并且基于其余视频帧获得第二语义特征；基于第一语义特征和第二语义特征执行特征融合，以获得融合语义特征；基于融合语义特征来获得所述其余视频帧的Trimap图。

此外，处理组件601可获取训练样本，其中，训练样本包括样本视频帧以及针对样本视频帧标注的样本Trimap图；利用获取的训练样本对神经网络模型进行训练，其中，神经网络模型可被配置为基于样本视频帧中的一部分视频帧和所述一部分视频帧的样本Trimap图获得第一语义特征并且基于样本视频帧的另一部分视频帧获得第二语义特征，基于第一语义特征和第二语义特征执行特征融合，以获得融合语义特征，基于融合语义特征来预测所述另一部分视频帧的预测Trimap图。

在本公开中，可将训练好的神经网络模型下载至视频编辑设备600中，视频编辑设备600利用下载的神经网络模型(诸如Trimap传播模型)来生成Trimap图，或者可利用视频编辑设备300使用上述模型训练方法来训练Trimap传播模型。

视频编辑设备600可经由输入输出接口604接收或输出视频和/或音频。例如，用户可经由输入输出接口604输出编辑后的视频以分享给其他用户。

作为示例，视频编辑设备600可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，视频编辑设备600并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。视频编辑设备600还可以是集成控制系统或系统管理器的一部分，或者可以被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在视频编辑设备600中，处理组件601可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理组件601还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理组件601可运行存储在存储器中的指令或代码，其中，存储器605还可以存储数据。指令和数据还可以经由网络接口603而通过网络被发送和接收，其中，网络接口603可以采用任何已知的传输协议。

存储器605可以与处理组件601集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器605可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理组件601可以在操作上进行耦合，或者可以例如通过I/O端口、网络连接等互相通信，使得处理组件601能够读取存储在存储器605中的数据。

根据本公开的实施例，可提供一种电子设备。图7是根据本公开实施例的电子设备的框图，该电子设备700可包括至少一个存储器702和至少一个处理器701，所述至少一个存储器702存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器701执行时，执行根据本公开实施例的视频编辑方法或模型训练方法。

处理器701可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器701还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

作为一种存储介质的存储器702可包括操作系统(例如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、视频编辑程序、模型训练程序以及数据库。

存储器702可与处理器701集成为一体，例如，可将RAM或闪存布置在集成电路微处理器等之内。此外，存储器702可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器702和处理器701可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器701能够读取存储在存储器702中的文件。

此外，电子设备700还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备700的所有组件可经由总线和/或网络而彼此连接。

作为示例，电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备700并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

本领域技术人员可理解，图7中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的视频编辑方法或模型训练方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述视频编辑方法或模型训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频编辑方法，其特征在于，所述视频编辑方法包括：

获取待编辑视频以及所述待编辑视频中的至少一个视频帧的三元图；

基于所述至少一个视频帧和获取的三元图获得第一语义特征并且基于所述待编辑视频中的除所述至少一个视频帧之外的其余视频帧获得第二语义特征；

基于第一语义特征和第二语义特征执行特征融合，以获得融合语义特征；

基于所述融合语义特征来获得所述其余视频帧的三元图；

使用所述至少一个视频帧和所述其余视频帧的三元图对所述待编辑视频进行目标对象提取。

2.根据权利要求1所述的视频编辑方法，其特征在于，基于第一语义特征和第二语义特征执行特征融合的步骤包括通过计算第一语义特征与第二语义特征之间的相似度来执行特征融合。

3.根据权利要求1所述的视频编辑方法，其特征在于，基于所述至少一个视频帧和获取的三元图获得第一语义特征并且基于所述待编辑视频中的除所述至少一个视频帧之外的其余视频帧获得第二语义特征的步骤包括：

基于所述至少一个视频帧和获取的三元图提取所述至少一个视频帧的每个像素的语义特征，并且利用第一卷积网络将该语义特征编码为第一语义特征并利用第二卷积网络将第一语义特征编码为增强语义特征；

基于所述其余视频帧提取所述其余视频帧的每个像素的语义特征，并且利用第三卷积网络将该语义特征编码为第二语义特征。

4.根据权利要求3所述的视频编辑方法，其特征在于，基于第一语义特征和第二语义特征执行特征融合以获得融合语义特征的步骤包括：

通过计算第一语义特征与第二语义特征之间的相似度以获得相似度矩阵，利用所述相似度矩阵与所述增强语义特征来获得加权语义特征，并且利用所述加权语义特征和第二语义特征来获得所述融合语义特征。

5.根据权利要求3所述的视频编辑方法，其特征在于，基于所述融合语义特征来获得所述其余视频帧的三元图的步骤包括：

对所述融合语义特征进行解码以重建所述其余视频帧的原尺寸空间的语义特征；

根据重建的语义特征将所述其余视频帧的每个像素分类为前景像素、背景像素或未知像素，以生成所述其余视频帧的三元图。

6.一种视频编辑装置，其特征在于，所述视频编辑装置包括：

获取模块，被配置为获取待编辑视频以及所述待编辑视频中的至少一个视频帧的三元图；

生成模块，被配置为：

基于所述融合语义特征来获得所述其余视频帧的三元图；

处理模块，被配置为使用所述至少一个视频帧和所述其余视频帧的三元图对所述待编辑视频进行目标对象提取。

7.一种神经网络模型的训练方法，其特征在于，所述训练方法包括：

获取训练样本，其中，所述训练样本包括样本视频帧以及针对所述样本视频帧标注的样本三元图；

基于所述样本视频帧中的一部分视频帧和所述一部分视频帧的样本三元图获得第一语义特征并且基于所述样本视频帧的另一部分视频帧获得第二语义特征；

基于所述融合语义特征来预测所述另一部分视频帧的预测三元图；

通过对所述另一部分视频帧的预测三元图与所述另一部分视频帧的样本三元图进行比较来调整所述神经网络模型的参数。

8.一种神经网络模型的训练装置，其特征在于，所述训练装置包括：

获取模块，被配置为获取训练样本，其中，所述训练样本包括样本视频帧以及针对所述样本视频帧标注的样本三元图；

训练模块，被配置为：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的视频编辑方法或者权利要求7所述的训练方法。

10.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至5中任一项所述的视频编辑方法或者权利要求7中任一项所述的训练方法。