CN113095163A

CN113095163A - 视频处理方法、装置、电子设备和存储介质

Info

Publication number: CN113095163A
Application number: CN202110313091.4A
Authority: CN
Inventors: 李昌临; 陶鑫; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-09
Anticipated expiration: 2041-03-24
Also published as: CN113095163B

Abstract

本公开提供了一种视频处理方法、装置、电子设备和存储介质，所述方法包括：获取在视频的帧中针对需要擦除的目标框选的目标范围；基于获取的目标范围通过目标追踪以确定视频中包括所述目标的相关视频帧的目标范围；在相关视频帧的目标范围外的区域中确定与当前目标帧的目标范围内的特征最匹配的目标背景特征；使用确定的目标背景特征来填充当前目标帧的目标范围以擦除当前目标帧中的所述目标。

Description

视频处理方法、装置、电子设备和存储介质

技术领域

本公开涉及视频技术领域，尤其涉及一种用于视频目标擦除的视频处理方法、视频处理装置、电子设备及计算机可读存储介质。

背景技术

图像/视频物体擦除是在视频中擦除指定物体区域，并使用算法将指定物体所在区域进行合理填充的过程。视频物体擦除被广泛的用于视频的剪辑和后期处理以覆盖掉内容创作中不希望出现的物体上。

相关技术的视频擦除方法是基于深度卷积网络和生成对抗网络的方法，可以通过学习到的网络学习到需要填充的高维特征。视频物体擦除算法目的是去除目标视频帧中的某个物体。不同于图像擦除算法，视频中含有大量的冗余信息可以被利用，所以视频物体擦除算法的难点在于如何更好的在运动的物体和背景中捕获到所需的信息并填充到所需位置中。相关技术的视频物体擦除算法需要依靠完全正确的目标物体区域(Ground-truthMask Area)来进行填补，使其应用只能停留在学术界标注的数据集上。另外，由于需要精确的找到视频中的冗余信息，往往需要大量的时间来处理(2秒的视频需要3分钟以上的时间)，所以并不能应用到正常的视频场景中。

发明内容

本公开提供一种视频处理方法、视频处理装置、电子设备及计算机可读存储介质，以至少解决相关技术中的视频目标擦除复杂度过高和速度较慢的问题，也可不解决任何上述问题。

根据本公开的实施例的第一方面，提供了一种视频处理方法，包括：获取在视频的帧中针对需要擦除的目标框选的目标范围；基于获取的目标范围通过目标追踪以确定视频中包括所述目标的相关视频帧的目标范围；在相关视频帧的目标范围外的区域中确定与当前目标帧的目标范围内的特征最匹配的目标背景特征；使用确定的目标背景特征来填充当前目标帧的目标范围以擦除当前目标帧中的所述目标。

根据本公开的实施例的第一方面，所述获取在视频的帧中针对需要擦除的目标框选的目标范围包括：接收用户在视频的视频帧中的框选操作，并将框选的范围作为目标范围。

根据本公开的实施例的第一方面，所述基于获取的目标范围通过目标追踪以确定视频中包括所述目标的相关视频帧的目标范围包括：根据视频和范围框的坐标追踪视频中包括所述目标的所有帧的目标范围。

根据本公开的实施例的第一方面，所述当前目标帧的相关视频帧是所述当前目标帧前后的预定数量的帧。

根据本公开的实施例的第一方面，所述在相关视频帧的目标范围外的区域中确定与当前目标帧的目标范围内的特征最匹配的目标背景特征包括：将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐；在对齐的相关视频帧的目标范围外的部分中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征。

根据本公开的实施例的第一方面，所述将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐包括：基于对齐数据集训练的U型卷积神经网络编码器提取当前目标帧和相关视频帧的高维特征，在高维特征上将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐，并输出在低维帧图像上用于对齐的二通道仿射矩阵以将所有的相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐。

根据本公开的实施例的第一方面，所述在对齐的相关视频帧的目标范围外的部分中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征包括：基于视频目标擦除数据集训练的U型卷积神经网络编码器提取对齐后的当前目标帧和相关视频帧的高维特征，将提取的高维特征输入内容匹配网络以从对齐的相关视频帧中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征，并将得到的最佳匹配的目标背景特征填充到当前目标帧的目标范围中。

根据本公开的实施例的第一方面，所述方法还包括：将填充了目标背景特征的当前目标帧的高维特征解码以得到低维上可辨识的当前视频帧的更新视频帧。

根据本公开的实施例的第一方面，所述方法还包括：将更新视频帧存储到缓存器中以作为后续视频擦除操作的相关视频帧。

根据本公开的实施例的第二方面，提供了一种视频处理装置，包括：目标范围确定模块，被配置为获取在视频的帧中针对需要擦除的目标框选的目标范围；追踪模块，被配置为基于获取的目标范围通过目标追踪以确定视频中包括所述目标的相关视频帧的目标范围；特征确定模块，被配置为在相关视频帧的目标范围外的部分中确定与当前目标帧的目标范围内的特征最匹配的目标背景特征；擦除模块，被配置为使用确定的目标背景特征来填充当前目标帧的目标范围以擦除当前目标帧中的所述目标。

根据本公开的实施例的第二方面，目标范围确定模块被配置为接收用户在视频的视频帧中的框选操作，并将框选的范围作为目标范围。

根据本公开的实施例的第二方面，所述追踪模块被配置为根据视频和范围框的坐标追踪视频中包括所述目标的所有帧的目标范围。

根据本公开的实施例的第二方面，所述当前目标帧的相关视频帧是所述当前目标帧前后的预定数量的帧。

根据本公开的实施例的第二方面，所述特征确定模块包括：对齐模块，被配置为将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐；匹配模块，被配置为在对齐的相关视频帧中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征。

根据本公开的实施例的第二方面，所述对齐模块使用基于对齐数据集训练的U型卷积神经网络编码器提取当前目标帧和相关视频帧的高维特征，在高维特征上将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐，并输出在低维帧图像上用于对齐的二通道仿射矩阵以将所有的相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐。

根据本公开的实施例的第二方面，所述匹配模块使用基于视频目标擦除数据集训练的U型卷积神经网络编码器来提取对齐后的当前目标帧和相关视频帧的高维特征，将提取的高维特征输入内容匹配网络以从对齐的相关视频帧的目标范围之外的区域中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征，并将得到的最佳匹配的目标背景特征填充到当前目标帧的目标范围中。

根据本公开的实施例的第二方面，所述装置还包括：解码模块，被配置为将填充了目标背景特征的当前目标帧的高维特征解码以得到低维上可辨识的当前视频帧的更新视频帧。

根据本公开的实施例的第二方面，所述装置还包括：更新模块，被配置为将更新视频帧存储到缓存器中以作为后续视频擦除操作的相关视频帧。

根据本公开的实施例的第三方面，提供了一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的视频处理方法。

根据本公开的实施例的第四方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由至少一个处理器执行时，使得所述至少一个处理器能够执行如上所述的视频处理方法。

根据本公开的实施例的第五方面，提供了一种计算机程序产品，所述计算机程序产品中的指令被至少一个处理器运行以执行如上所述的视频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：上手门槛低，仅需要框选待擦除物体即可，并且运行速度快，使得用户能够快速、高效、高质量地编辑视频。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出实施根据本公开的示例性实施例的视频处理方法的系统环境的示图。

图2是示出根据本公开的示例性实施例的视频处理方法的流程图。

图3是示出根据本公开的示例性实施例的视频处理过程的示图。

图4是示出根据本公开的示例性实施例的视频处理装置的框图。

图5是示出根据本公开的示例性实施例的用于视频处理的电子设备的示意图。

图6是示出根据本公开的另一示例性实施例的用于视频处理的电子设备的示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在对本公开的实施例进行详细说明以前，先对本公开的实施例可能涉及到的一些术语或缩略语进行说明。

如图1所示，该系统环境可包括多个终端设备100-1、100-2、…100-n、服务器200。这里，终端设备100可以是具有视频处理功能的终端设备，例如，本公开实施例中的终端设备100可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、上网本、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备。在终端设备100上可运行各种视频处理的应用，诸如短视频应用、直播应用、社交应用、视频会议应用等。当终端设备100在运行这些应用时通过网络与服务器200连接并进行通信，从而使用由服务器200提供的相应视频服务。

根据本公开的示例性实施例，终端设备100可产生视频并在视频中指定需要被擦除的目标物体。服务器200可对从终端设备100接收到的视频执行视频目标擦除处理并将擦除了目标物体的视频返回到终端设备100，从而用户可以在终端设备100上浏览到经过视频目标擦除处理的视频。下面将参照图2和图3分别对在服务器端执行的视频目标擦除方法进行说明。应理解，本公开的视频擦除方法同样可以在除了服务器以外的具有相应视频处理能力的设备上执行。

如图2所示，在步骤S210，获取在视频的帧中针对需要擦除的目标框选的目标范围。

根据本公开的示例性实施例，可由用户在视频的视频帧中通过人工框选的范围框得到需要擦除的目标的目标范围。例如，用户可打开终端设备上的视频处理应用，导入需要处理的视频，并定位到首次出现需要擦除的目标物体的视频帧，并在该视频帧上用矩形框框出目标范围。终端设备可将视频和在定位的视频帧中选定的目标范围的位置发送到服务器，从而服务器可从定位的视频帧开始执行目标擦除操作。这里，需要擦除的目标可不限于一个。例如，如图3所示，用户可以用矩形框在图3(a)的视频帧框出想要擦除的目标对象，即，正在骑车的人。

接下来在步骤S220，基于获取的目标范围通过目标追踪以确定视频中包括所述目标的相关视频帧的目标范围。

根据本公开的示例性实施例，可根据视频和范围框的坐标来追踪相关视频帧的目标范围。例如，可将视频和范围框的坐标输入Siammask网络以获取视频中包括所述目标的相关视频帧的目标范围。因为Siammask网络可以通过输入矩形框来得到具体的物体范围，所以可将矩形的范围框的坐标(x,y,w,h)和视频输入到Siammask来追踪视频帧中的目标，从而可以在视频中存在该目标的帧中划出目标范围。这里，x,y可表示矩形框的一个点的坐标，w,h可分别表示矩形框的宽度和高度。假设需要执行目标擦除的视频帧的每一帧均存在需要擦除的目标，因此通过Siammask网络可针对视频的每一帧来确定目标范围。如图3(b)所示，通过Siammask网络可以得到视频的每一帧的目标物体范围。

接下来，在步骤S230，在相关视频帧的目标范围之外的区域中确定与当前目标帧的目标范围内的特征最匹配的目标背景特征。

然后，在步骤S240，使用确定的目标背景特征来填充当前目标帧的目标范围以擦除当前目标帧中的所述目标。

根据本公开的示例性实施例，在步骤S230，可将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐，并在对齐的相关视频帧的目标范围之外的区域中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征。也就是说，可以以在步骤S220确定的目标范围为基准将相关视频帧与当前目标帧对齐。通过对齐操作，可以使得不同视频帧的相同位置中的内容一致，即，均为需要擦除的目标物体，从而可以方便后续的匹配和擦除的操作。

这里，可在存储器中维护一个批处理队列(batch)和缓存队列(buffer)，其中，缓存队列中存储需要执行目标擦除操作的当前目标帧，批处理队列中存储有在视频擦除时将要在其中寻找用于填充目标范围内的特征的相关视频帧。根据本公开的示例性实施例，相关视频帧可以是当前目标帧前后的预定数量(例如，30帧)的视频帧。应理解，根据本公开的示例性实施例的相关视频帧不限于前后预定数量的帧，例如，还可以是视频的所有帧。本领域的技术人员可考虑视频擦除的性能和速度来选取用于参考的相关视频帧。如图3(c)所示，可通过图像变形来将视频的多个相关视频帧向当前目标帧对齐。

根据本公开的示例性实施例，在步骤S230可采用基于对齐数据集训练的U型卷积神经网络编码器来实现当前目标帧与相关视频帧的对齐。基于对齐数据集训练的U型卷积神经网络编码器可提取当前目标帧和相关视频帧的高维特征，在高维特征上将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐，并输出在低维帧图像上用于对齐的二通道仿射矩阵以将所有的相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐。例如，基于对齐数据集训练的U型卷积神经网络编码器可具有7个卷积层和256个通道，从而提取出256通道的高维特征。应理解，可采用其他方式来将相关视频帧与当前目标帧对齐。例如，可通过对目标范围执行特征点匹配、模板匹配和仿射变换来执行对齐。本公开的实施例不限于此。

根据本公开的示例性实施例，在步骤S230，可采用基于视频目标擦除数据集训练的U型卷积神经网络编码器来从对齐后的相关视频帧寻找相应的目标背景特征。这里，基于视频目标擦除数据集训练的U型卷积神经网络编码器可以是基于包括已经对齐的视频帧在目标擦除前后的图像数据集训练的。例如，可使用DAVIS和Youtube-VOS的数据进行训练。在训练的时候，对于目标训练视频，可用随机挑选的视频和对应的mask，将物体贴在原本视频数据上来生成训练集。在2080Ti GPU上，可使用1e-4的学习率和Adam优化器训练1,000,000个迭代来优化U型卷积神经网络的参数。损失函数可采用L1 loss、Perceptual loss、tvloss、style loss等损失函数的加权函数。

基于视频目标擦除数据集训练的U型卷积神经网络编码器可提取对齐后的当前目标帧和相关视频帧的高维特征，将提取的高维特征输入内容匹配网络以从对齐的相关视频帧的目标范围之外的区域中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征，并将得到的最佳匹配的目标背景特征填充到当前目标帧的目标区域中。

根据本公开的示例性实施例，在填充了当前目标帧的目标区域之后，可将填充了目标背景特征的当前目标帧的高维特征解码以得到低维上可辨识的当前视频帧的更新视频帧，从而可以在客户端向用户显示擦除了目标的视频。如图3(d)所示，最终生成的擦除了骑车人的视频帧，在该视频帧中，骑车人部分的图像已经被背景图像所替代。

根据本公开的示例性实施例的视频处理方法可还包括：将更新视频帧存储到缓存器中以作为后续视频擦除操作的相关视频帧。通过这样的更新操作，可以提高后续视频擦除操作的效率。

通过上述的实施例的视频处理方法将目标跟踪与视频擦除相结合，能够以较低的复杂度实现高速视频擦除，并且适应于各种类型的视频的目标擦除。

图4是示出根据本公开的示例性实施例的视频处理装置的框图。可以在诸如服务器的设备中以软件、硬件和/或软硬件结合的方式来实现图4的视频处理装置。

如图4所示，根据本公开的示例性实施例的视频处理装置400可包括：目标范围确定模块410、追踪模块420、特征确定模块430和擦除模块440。

根据本公开的示例性实施例，目标范围确定模块410被配置为获取在视频的帧中针对需要擦除的目标框选的范围。

根据本公开的示例性实施例，追踪模块420被配置为基于获取的范围通过目标追踪以获取视频中包括所述目标的所有帧的目标范围。

根据本公开的示例性实施例，特征确定模块430被配置为在当前目标帧的相关视频帧的目标范围之外的区域中确定与当前目标帧的目标范围内的特征最匹配的目标背景特征。擦除模块440被配置为使用确定的目标背景特征来填充当前目标帧的目标范围以擦除当前目标帧中的所述目标。

根据本公开的示例性实施例，目标范围确定模块410被配置为接收用户在视频的视频帧中的框选操作，并将框选的范围作为目标范围。

根据本公开的示例性实施例，追踪模块420被配置为根据视频和矩形框的坐标获取视频中包括所述目标的所有帧的目标范围。例如，追踪模块420可将视频和矩形框的坐标输入Siammask网络以获取视频中包括所述目标的所有帧的目标范围。

根据本公开的示例性实施例，所述当前目标帧的相关视频帧是所述当前目标帧前后的预定数量的帧。

根据本公开的示例性实施例，特征确定模块430可包括对齐模块431和匹配模块432。

对齐模块431被配置为将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐。

匹配模块432被配置为在对齐的相关视频帧的目标范围之外的区域中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征。

根据本公开的示例性实施例，对齐模块431可使用基于对齐数据集训练的U型卷积神经网络编码器提取当前目标帧和相关视频帧的高维特征，在高维特征上将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐，并输出在低维帧图像上用于对齐的二通道仿射矩阵以将所有的相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐。

根据本公开的示例性实施例，匹配模块432可使用基于视频目标擦除数据集训练的U型卷积神经网络编码器提取对齐后的当前目标帧和相关视频帧的高维特征，将提取的高维特征输入内容匹配网络以从对齐的相关视频帧中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征，并将得到的最佳匹配的目标背景特征填充到当前目标帧的目标区域中。

以上已经参照图2对视频处理装置400的目标范围确定模块410、追踪模块420、特征确定模块430和擦除模块440的操作进行了详细描述，在此不再重复描述。

根据本公开的示例性实施例的视频处理装置400还包括：解码模块450，被配置为将填充了目标背景特征的当前目标帧的高维特征解码以得到低维上可辨识的当前视频帧的更新视频帧。

根据本公开的示例性实施例的视频处理装置400还包括：更新模块460，被配置为将更新视频帧存储到缓存器中以作为后续视频擦除操作的相关视频帧。

图5是示出根据本公开的示例性实施例的一种用于视频处理的电子设备500的结构框图。该终端设备500例如可以是：智能手机、平板电脑、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端设备500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本公开的如图2所示的方法。

在一些实施例中，终端设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、触摸显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置在终端设备500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端设备500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在终端设备500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端设备500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为终端设备500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端设备500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端设备500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端设备500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端设备500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在终端设备500的侧边框时，可以检测用户对终端设备500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时，由处理器501根据用户对触摸显示屏505的压力操作，实现对UI上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端设备500的正面、背面或侧面。当终端设备500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制触摸显示屏505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏505的显示亮度；当环境光强度较低时，调低触摸显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端设备500的前面板。接近传感器516用于采集用户与终端设备500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端设备500的正面之间的距离逐渐变小时，由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端设备500的正面之间的距离逐渐变大时，由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对电子设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图6所示为另一种电子设备600的结构框图。例如，电子设备600可以被提供为一服务器。参照图4，电子设备600包括一个或多个处理处理器610以及存储器620。存储器620可以包括用于执行以上的视频处理方法的一个或一个以上的程序。电子设备600还可以包括一个电源组件630被配置为执行电子设备600的电源管理，一个有线或无线网络接口640被配置为将电子设备600连接到网络，和一个输入输出(I/O)接口650。电子设备600可以操作基于存储在存储器620的操作系统，例如Windows ServerTM、Mac OSXTM、UnixTM、LinuxTM、FreeBSDTM或类似。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的视频处理方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述的视频处理方法。

根据本公开的视频处理方法和装置以及电子设备、计算机可读存储介质提供了一种结合了目标跟踪和视频擦除的半自动视频目标擦除方案，其上手门槛低，仅需要框选待擦除物体即可，并且运行速度快，使得用户能够快速、高效、高质量地编辑视频。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取在视频的帧中针对需要擦除的目标框选的目标范围；

基于获取的目标范围通过目标追踪以确定视频中包括所述目标的相关视频帧的目标范围；

在相关视频帧的目标范围外的区域中确定与当前目标帧的目标范围内的特征最匹配的目标背景特征；

使用确定的目标背景特征来填充当前目标帧的目标范围以擦除当前目标帧中的所述目标。

2.如权利要求1所述的方法，其特征在于，所述获取在视频的帧中针对需要擦除的目标框选的目标范围包括：接收用户在视频的视频帧中的框选操作，并将框选的范围作为目标范围。

3.如权利要求1所述的方法，其特征在于，所述在相关视频帧的目标范围外的区域中确定与当前目标帧的目标范围内的特征最匹配的目标背景特征包括：

将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐；

在对齐的相关视频帧的目标范围外的部分中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征。

4.如权利要求3所述的方法，其特征在于，所述将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐包括：基于对齐数据集训练的U型卷积神经网络编码器提取当前目标帧和相关视频帧的高维特征，在高维特征上将相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐，并输出在低维帧图像上用于对齐的二通道仿射矩阵以将所有的相关视频帧的目标范围的位置与当前目标帧的目标范围的位置对齐。

5.如权利要求3所述的方法，其特征在于，所述在对齐的相关视频帧的目标范围外的部分中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征包括：基于视频目标擦除数据集训练的U型卷积神经网络编码器提取对齐后的当前目标帧和相关视频帧的高维特征，将提取的高维特征输入内容匹配网络以从对齐的相关视频帧中寻找与当前目标帧的目标范围内的特征最匹配的目标背景特征，并将得到的最佳匹配的目标背景特征填充到当前目标帧的目标范围中。

6.如权利要求5所述的方法，其特征在于，还包括：

将填充了目标背景特征的当前目标帧的高维特征解码以得到低维上可辨识的当前视频帧的更新视频帧。

7.如权利要求6所述的方法，其特征在于，还包括：

将更新视频帧存储到缓存器中以作为后续视频擦除操作的相关视频帧。

8.一种视频处理装置，其特征在于，包括：

目标范围确定模块，被配置为获取在视频的帧中针对需要擦除的目标框选的目标范围；

追踪模块，被配置为基于获取的目标范围通过目标追踪确定视频中包括所述目标的相关视频帧的目标范围；

特征确定模块，被配置为在相关视频帧的目标范围外的部分中确定与当前目标帧的目标范围内的特征最匹配的目标背景特征；

擦除模块，被配置为使用确定的目标背景特征来填充当前目标帧的目标范围以擦除当前目标帧中的所述目标。

9.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到9中的任一权利要求所述的视频目标擦除方法。

10.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由至少一个处理器执行时，使得所述至少一个处理器能够执行如权利要求1至7中任一项所述的视频目标擦除方法。