CN111860200B

CN111860200B - 视频帧处理方法及装置

Info

Publication number: CN111860200B
Application number: CN202010599047.XA
Authority: CN
Inventors: 朱斌
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2024-04-19
Anticipated expiration: 2040-06-28
Also published as: CN111860200A

Abstract

本发明实施例提供了一种视频帧处理方法及装置。所述方法包括：在原始视频中，确定至少一帧满足预设条件的第一参考帧，并根据预设处理算法对应的目标选帧策略，确定至少一帧第二参考帧；根据所述预设处理算法、所述第一参考帧和所述第二参考帧，对所述原始视频中的待处理视频帧进行修复，得到目标视频帧；所述目标视频帧不包括第一类型的对象；其中，所述待处理视频帧中包括目标对象，所述预设条件，包括以下至少一种：所述第一类型的对象的像素占比满足第一预设条件；第一对象与所述目标对象之间的第一距离满足第二预设条件。本发明实施例解决了现有技术中的视频去路人算法中，视频帧之间的时间过渡的不够平滑，容易引起视觉缺陷的问题。

Description

视频帧处理方法及装置

技术领域

本发明涉及移动通信技术领域，尤其涉及一种视频帧处理方法及装置。

背景技术

随着移动通信技术的迅速发展，以智能手机为首的电子设备已成为人们生活中各方面不可或缺的工具。电子设备的各种应用程序(Application，APP)的功能也逐渐完善，不再只是单纯地起到通信作用，较多的是为用户提供各种智能化服务，给用户工作、生活带来了极大的便利。

以拍摄功能来说，各种越来越多的用户使用手机等电子设备取代专业拍摄设备拍摄视频；并且由于电子设备的便捷性，已占据较大的市场份额。因此，拍照功能作为电子设备的必备功能，成为用户衡量和选购电子设备的重要标准。

随着拍摄功能的逐渐丰富完善，用户对拍摄功能的要求也逐渐提高，比如视频去路人功能；具体地，视频去路人是指将视频中的非主体人物，即路人消除掉，并在相应区域填入和背景相融合的画面，使视频看起来只有目标主体人物的一种视频处理技术。对于手机用户而言，一种典型的使用场景，就是以游客身份进行景点的视频打卡，视频去路人技术可使用户有一种作为主角的体验感。

不同于图片中人物去除，视频中的人物去除有着更大的难度，其中一个较大原因是因为视频会涉及到时间信息；然而，现有技术中的视频去路人算法中，视频帧之间的时间过渡的不够平滑，容易明显的视觉缺陷。

发明内容

本发明实施例提供一种视频帧处理方法及装置，以解决现有技术中的视频去路人算法中，视频帧之间的时间过渡的不够平滑，容易引起视觉缺陷的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种视频帧处理方法，所述方法包括：

在原始视频中，确定至少一帧满足预设条件的第一参考帧，并根据预设处理算法对应的目标选帧策略，确定至少一帧第二参考帧；

根据所述预设处理算法、所述第一参考帧和所述第二参考帧，对所述原始视频中的待处理视频帧进行修复，得到目标视频帧；所述目标视频帧不包括第一类型的对象；

其中，所述待处理视频帧中包括目标对象，所述预设条件，包括以下至少一种：

所述第一类型的对象的像素占比满足第一预设条件；

第一对象与所述目标对象之间的第一距离满足第二预设条件；

第二对象与第三对象之间的第二距离满足第三预设条件；

其中，所述第一对象、所述第二对象和所述第三对象属于所述第一类型的对象。

可选地，所述得到目标视频帧之后，所述方法还包括：

将所述目标视频帧替换所述原始视频中的所述待处理视频帧，并更新所述原始视频。

可选地，所述在原始视频中，确定至少一帧满足预设条件的第一参考帧之后，所述方法包括：

对所述待处理视频帧进行目标检测，得到所述目标对象以及所述第一类型的对象；

所述对所述待处理视频帧进行目标检测，得到所述目标对象以及所述第一类型的对象，包括：

对所述待处理视频帧进行目标检测，得到第一检测目标；

确定所述第一检测目标中的所述目标对象以及所述第一类型的对象；其中，所述目标对象为预先标记的或在所述待处理视频帧中像素占比最大的所述第一检测目标。

可选地，所述第一距离为所述第一类型的对象所占的像素区域与所述目标对象所占的像素区域之间的距离；

所述第二距离为每一组所述第二对象的所占的像素区域与所述第三对象所占的像素区域之间的距离均值。

可选地，所述第一预设条件为所述像素占比为所述原始视频中的原始参考帧中的最小值，或所述像素占比低于第一预设数值；

所述第二预设条件为所述第一距离为所述原始参考帧中的最大值，或所述第一距离大于第二预设数值；

所述第三预设条件为所述第二距离为所述原始参考帧中的最大值，或所述第一距离大于第三预设数值。

第二方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

参考帧确定模块，用于在原始视频中，确定至少一帧满足预设条件的第一参考帧，并根据预设处理算法对应的目标选帧策略，确定至少一帧第二参考帧；

视频帧修复模块，用于根据所述预设处理算法、所述第一参考帧和所述第二参考帧，对所述原始视频中的待处理视频帧进行修复，得到目标视频帧；所述目标视频帧不包括第一类型的对象；

所述第一类型的对象的像素占比满足第一预设条件；

第二对象与第三对象之间的第二距离满足第三预设条件；

可选地，所述装置还包括：

更新模块，用于将所述目标视频帧替换所述原始视频中的所述待处理视频帧，并更新所述原始视频。

可选地，所述装置包括：

目标检测模块，用于对所述待处理视频帧进行目标检测，得到所述目标对象以及所述第一类型的对象；

所述目标检测模块包括：

检测子模块，用于对所述待处理视频帧进行目标检测，得到第一检测目标；

确定子模块，用于确定所述第一检测目标中的所述目标对象以及所述第一类型的对象；其中，所述目标对象为预先标记的或在所述待处理视频帧中像素占比最大的所述第一检测目标。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的视频帧处理方法中的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的视频帧处理方法中的步骤。

在本发明实施例中，在原始视频中，确定至少一帧满足预设条件的第一参考帧；根据所述预设处理算法、所述第一参考帧和所述第二参考帧，对所述原始视频中的待处理视频帧进行修复，得到目标视频帧；第一参考帧为背景区域较大的帧或物体之间距离较远的帧，通过第一参考帧作为修复参考，可提供更多的修复价值，确保修复后的视频的时间过滤的平滑程度；第二参考帧为根据目标选帧策略选取的参考帧，为待处理视频帧的修复提供足够的参考帧，提升视频去路人时参考帧的质量，从而提升最终的修复视频效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1表示本发明实施例提供的视频帧处理方法的流程图之一；

图2表示本发明实施例的第一示例的示意图之一；

图3表示本发明实施例的第一示例的示意图之二；

图4表示本发明实施例的第二示例的流程图；

图5表示本发明的实施例提供的电子设备的框图之一；

图6表示本发明的实施例提供的电子设备的框图之二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在视频去除人物(或其他物体)的算法中，由于需要涉及到时间的过渡，而时间的过渡往往不够平滑，容易造成明显的视觉缺陷。发明人发现，造成此问题有选取参考帧的原因。具体地，针对一个待修复的视频帧，视频去路人算法主要是通过编码器等深度学习算法提取出参考帧的相关信息，最后将参考帧的信息迁移到被修复的当前帧中，最终视频有去除路人的效果。而现有技术中，从原视频帧中选取参考帧的原则通常较为简单。例如在修复第t帧时，按照特定的时间顺序，选择一定数目的视频帧作为参考帧，以给当前的被修复帧提供更多的参考信息，但是过于简单的选策略，难以保证时间的一致性，因此，本发明实施例提出一种视频帧处理方法以及电子设备，以解决上述问题。

参见图1，本发明一实施例提供了一种视频帧处理方法，应用于电子设备，所述电子设备包括各种手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备，以及各种形式的移动台(Mobile Station，MS)，终端设备(Terminal Device)等等。

所述方法包括：

步骤101，在原始视频中，确定至少一帧满足预设条件的第一参考帧，并根据预设处理算法对应的目标选帧策略，确定至少一帧第二参考帧。

第一参考帧为对待处理视频帧进行修复时的参考帧；待处理视频帧即待修复的视频帧，原始视频为待处理视频帧的来源视频。可选地，在对原始视频进行视频修复的过程中，可以针对每一帧均进行修复，也可选取特定的帧进行修复。

针对待处理视频帧，从原始视频中，选择至少一帧满足预设条件的第一参考帧，并根据预设处理算法对应的目标选帧策略，选择至少一帧第二参考帧；第一参考帧和第二参考帧用于共同对待处理视频帧进行修复。

预设处理算法为用于对待处理视频帧进行修复的算法；与预设处理算法对应的目标选帧策略，目标选帧策略可以包括与预设处理算法对应的选帧时间、选帧数目等。

比如，目标选帧策略包括与预设处理算法对应的选帧时间时，选取与待处理视频帧处于第一预设时间范围内的视频帧作为原始参考帧；第一预设时间范围应当设定的较大，以筛选足够多的原始参考帧，避免所筛选的参考帧集中在目标时刻附近；具体地，第一预设时间范围内可包括目标时刻之前的预设时间至目标时刻之后的预设时间，比如，若目标时刻为t，则t-t1时刻至t+t2时刻之间的视频帧均可作为初始视频帧。

需要说明的是，若是视频在录制的过程中进行实时修复，则选取t-t1时刻至t时刻之间的视频帧作为初始视频帧。

步骤102，根据所述预设处理算法、所述第一参考帧和所述第二参考帧，对所述原始视频中的待处理视频帧进行修复，得到目标视频帧；所述目标视频帧不包括第一类型的对象；

所述第一类型的对象的像素占比满足第一预设条件；

第二对象与第三对象之间的第二距离满足第三预设条件；

其中，目标对象即在修复过程中需要保留的主体对象，第一类型的对象即除目标对象外的对象；所述第一对象、所述第二对象和所述第三对象属于所述第一类型的对象。

从原始视频中选择第一参考帧；具体地，所述预设条件可以包括：第一类型的对象占比满足第一预设条件，比如所述第一预设条件为所述像素占比为所述原始参考帧中的最小值，或所述像素占比低于第一预设数值；也就是说，第一参考帧为可以为像素占比最小的帧，或者像素占比低于第一预设数值的帧，筛选除主体对象之外的物体所占区域面积范围较小的，以获得较多的背景区域，用于修复待处理视频帧；优选的，本发明实施例中，所述物体指人物、动物等处于非静态的物体。

所述预设条件还可以包括：第一对象与所述目标对象之间的第一距离满足第二预设条件；所述第一距离为所述第一类型的对象所占的像素区域与所述目标对象所占的像素区域之间的距离。作为第一示例，参见图2，若像素区域B内的人物为目标对象，则第一距离为像素区域A与像素区域B之间的距离，或像素区域C与像素区域B之间的距离；若存在多个第一对象，则第一距离为每个第一对象与所述目标对象的像素区域的距离均值；所述第二参考帧的画面中，第一对象与目标对象之间的第一距离满足第二预设条件，所述第二预设条件为所述第一距离为所述原始参考帧中的最大值，或所述第一距离大于第二预设数值；目标对象为待处理视频帧中的主体对象，筛选所有原始参考帧中，包括所述目标对象的原始参考帧；然后进一步计算第一类型的对象与目标对象之间的距离，可选地，距离可通过相距的像素点数目确定；通过第二参考帧，筛选其他物体中与目标对象距离较远的参考帧，对待处理视频帧进行修复的过程中，需要保证目标对象的分割精度足够高，特别是在有人物交叉、重叠的情况下，需要准确分割出其中某一个，因此第一类型的对象距离目标对象之间较远，可以保证得到更准确分割主体人物附近的画面信息。

所述预设条件还可以包括：第二对象与第三对象之间的第二距离满足第三预设条件；比如，所述第二距离为每一组所述第二对象的所占的像素区域与所述第三对象所占的像素区域之间的距离均值，仍然参考图2，若像素区域A、B、C内的人物均为第二非目标对象，则第二距离为像素区域A与像素区域B之间的距离1以及或像素区域C与像素区域B之间的距离2的距离均值。满足第三预设条件的第一参考帧中，至少存在一组第二对象与第三对象的第二距离满足所述第二距离为所述原始视频的视频帧中的最大值，或所述第一距离大于第三预设数值；也就是说筛选第一类型的对象之间距离较大的参考帧。

此外，预设条件还可以包括画面中不包括第一类型的对象，比如不包括路人的参考帧，仅有背景，可能有目标对象。

可以理解的是，本发明实施例中，第一对象、第二对象、第三对象以及可能是同一个第一类型的对象，也可能是不同的第一类型的对象。

根据所述第一参考帧、第二参考帧以及预设处理算法，将所述待处理视频帧中的第四第一类型的对象所在的目标区域进行分割，并对分割后的所述目标区域的位置进行填充，得到目标视频帧。

根据选定的第一参考帧以及预设处理算法，对待处理视频帧进行修复处理，分割掉待处理视频帧中的第一类型的对象，并通过第一参考帧或第二参考帧对分割后的目标区域进行填充，并根据所述预设处理算法进行优化，得到目标视频帧。仍然参考图2，若像素区域B内的人物为目标对象，则需要分割掉像素区域C与像素区域A中的人物，并分割后的待处理视频帧中，原像素区域C与原像素区域A的位置(即目标区域)进行像素填充。可以理解的是，图2所示的像素区域为规则图形，在实际应用的过程中，可根据分割精度实现不规则的像素区域分割。

可选地，所述预设处理算法为深度学习算法，通过深度学习算法，依据第一参考帧、第二参考帧修复分割处理后的待处理视频帧，将第一参考帧、第二参考帧中的像素点信息迁移到目标区域中，以填充路人位置的像素；作为第二示例，图2中的视频帧修复后的效果如图3所示，分割掉了像素区域C与像素区域A中的人物。

本发明实施例中，在原始视频中，确定至少一帧满足预设条件的第一参考帧；根据所述预设处理算法、所述第一参考帧和所述第二参考帧，对所述原始视频中的待处理视频帧进行修复，得到目标视频帧；第一参考帧为背景区域较大的帧或物体之间距离较远的帧，通过第一参考帧作为修复参考，可提供更多的修复价值，确保修复后的视频的时间过滤的平滑程度；第二参考帧为根据目标选帧策略选取的参考帧，为待处理视频帧的修复提供足够的参考帧，提升视频去路人时参考帧的质量，从而提升最终的修复视频效果。本发明实施例解决了现有技术中的视频去路人算法中，视频帧之间的时间过渡的不够平滑，容易引起视觉缺陷的问题。

可选地，本发明实施例中，所述得到目标视频帧之后，所述方法还包括：

这样，在修复的过程中，还可实时地将修复后视频帧更新至所述原始视频中，替换原始视频帧，便于继续修复原始视频中的其他视频帧，不断提升修复效果。比如，针对一完整视频进行路人去除，可按照预先挑选出参考价值较大的修复后的参考帧，作为原始视频中的原始参考帧。

或者实时的视频去路人，以一定的频率动态更新原始参考帧，尽可能获得参考价值大的原始参考帧，一方面可不断降低第一参考帧中的像素占比；另一方面不断增加原始参考帧的数量，接近目标时刻的原始参考帧，在光线以及画面内容等方面会更准确，参考价值也更大。这样，可以在录制视频的过程中便能实时的实现路人消除，并将消除路人后的视频画面显示给用户。

可选地，本发明实施例中，所述在原始视频中，确定至少一帧满足预设条件的第一参考帧之后，所述方法包括：

对所述待处理视频帧进行目标检测，得到第一检测目标；

其中，目标检测目的是为了确定待处理图像帧中包括的物体；可选地，可先进行目标检测，得到其中的物体，并确定所述物体中的目标对象，然后将所述目标对象之外的物体作为第一类型的对象。

仍然参见图2，首先检测出A、B、C三个像素区域中的人物，然后确定其中的目标对象，进而确定第一类型的对象。

具体地，所述对所述待处理视频帧进行目标检测，得到所述目标对象以及所述第一类型的对象，包括：

对所述待处理视频帧进行目标检测，得到第一检测目标；第一检测目标包括待处理视频帧中所有物体；

确定所述第一检测目标中的所述目标对象以及所述第一类型的对象；其中，所述目标对象为预先标记的或在所述待处理视频帧中像素占比最大的所述第一检测目标。比如，用户预先标记了所述目标对象，则将标记的默认为目标对象；或未检测到标记，则默认将像素占比最大的所述第一检测目标作为目标对象。第一类型的对象为该待处理视频帧中，用户想要去除的所有对象。

可选地，本发明实施例中，所述在原始视频中，确定至少一帧满足预设条件的第一参考帧，包括：

对所述在原始视频的原始参考帧进行目标检测，得到所述原始参考帧中的第二检测目标，所述第二检测目标包括所述目标对象以及该原始参考帧中的第一类型的对象中的至少一种。

该原始参考帧中的第一类型的对象中可能是上述第一对象、第一类型的对象中的一个；对每个原始参考帧进行目标检测，得到第二检测目标，并在第二检测目标中区分目标对象以及第一类型的对象。

可选地，本发明实施例中，所述对所述原始视频中的待处理视频帧进行修复，包括：对所述待处理视频帧中的第一类型的对象所在的目标区域进行分割，即对所述待处理视频帧中进行语义分割，得到所述第一类型的对象所在的目标区域。

其中，语义分割是指将图中每一点像素标注为某个物体类别，分离开具有不同语义的图像部分；比如，将待处理视频帧中的第一类型的对象的像素的语义标记为第一类型的对象，则将标记为第一类型的对象的像素分割出来，得到第一类型的对象所在的目标区域。

作为第二示例，参见图4，图4示出了应用上述视频帧处理方法的一具体示例，主要包括以下步骤：

步骤401，对于时刻为t的待处理视频帧，可选择t-t1时刻至t+t2时刻之间的时间段的视频帧作为初始视频帧。

首先在时间t前后，按照一定间隔策略，挑选出一定量参考帧。根据被修复视频的状态，状态包括已经完成录制和实时拍摄；具体地，对于已经完成录制的视频，可以从t-t1时刻至t+t2时刻之间的任意时间段选择；对于实时拍摄的视频，

如果是实时的视频去路人，则在t-t1时刻至t时刻之间的帧中挑选若干原始参考帧；

对于待处理视频帧是视频第一帧的场景，在t时刻至t+t2时刻之间的帧中挑选若干原始参考帧。

步骤402，从初始视频帧中选择目标视频帧。

为了从原始参考帧中获取较多有价值的参考信息，按照下述方式选择第一参考帧：画面中人物占比最小的帧；路人(第一类型的对象)距离目标主体人物(目标对象)最远的帧；路人之间距离较远的帧，如选取路人分别在画面中左侧、中侧、右侧等，且路人之间相距较远；画面中不包括路人的背景帧，将该背景帧直接作为参考帧；选择第一参考帧后，获取到待处理视频帧中被修复路人身后的真实画面，从而在最后的修复结果上显得更加真实。

步骤403，将目标视频帧以及待处理视频帧输入至神经网络模型，通过神经网络模型对待处理视频帧进行去路人处理。

由于路人被去除掉的像素区域部分必须使用一些其他像素区域内容来填充，并且填充结果需要和周围部分显得自然一体。去除部分的最终修复结果、自然程度和参考帧的信息相关，因此，需要选择参考价值大的参考帧。

将第一参考帧输入到编码器等深度学习模块中，以提取出相关的语义等高层信息，最后将这些高层信息迁移到待修复帧中，以填充路人位置的像素，得到最终的待处理视频帧的路人去除结果图。

对原始视频的每一帧均进行上述操作，便可得到所有帧的路人去除结果图，最后将这些帧按时间顺序拼接在一起，便得到最终的视频去路人最终效果视频。

在本发明的实施例中，在原始视频中，确定至少一帧满足预设条件的第一参考帧；根据所述预设处理算法、所述第一参考帧和所述第二参考帧，对所述原始视频中的待处理视频帧进行修复，得到目标视频帧；第一参考帧为背景区域较大的帧或物体之间距离较远的帧，通过第一参考帧作为修复参考，可提供更多的修复价值，确保修复后的视频的时间过滤的平滑程度；第二参考帧为根据目标选帧策略选取的参考帧，为待处理视频帧的修复提供足够的参考帧，提升视频去路人时参考帧的质量，从而提升最终的修复视频效果。

以上介绍了本发明实施例提供的视频帧处理方法，下面将结合附图介绍本发明实施例提供的电子设备。

参见图5，本发明实施例还提供了一种视频帧处理装置500，包括：

参考帧确定模块501，用于在原始视频中，确定至少一帧满足预设条件的第一参考帧，并根据预设处理算法对应的目标选帧策略，确定至少一帧第二参考帧。

视频帧修复模块502，用于根据所述预设处理算法、所述第一参考帧和所述第二参考帧，对所述原始视频中的待处理视频帧进行修复，得到目标视频帧；所述目标视频帧不包括第一类型的对象；

所述第一类型的对象的像素占比满足第一预设条件；

第二对象与第三对象之间的第二距离满足第三预设条件；

所述预设条件还可以包括：第一对象与所述目标对象之间的第一距离满足第二预设条件；所述第一距离为所述第一对象所占的像素区域与所述目标对象所占的像素区域之间的距离，作为第一示例，参见图2，若像素区域B内的人物为目标对象，则第一距离为像素区域A与像素区域B之间的距离，或像素区域C与像素区域B之间的距离；若存在多个第一对象，则第一距离为每个第一对象与所述目标对象的像素区域的距离均值；所述第二参考帧的画面中，第一对象与目标对象之间的第一距离满足第二预设条件，所述第二预设条件为所述第一距离为所述原始参考帧中的最大值，或所述第一距离大于第二预设数值；目标对象为待处理视频帧中的主体对象，筛选所有原始参考帧中，包括所述目标对象的原始参考帧；然后进一步计算第一类型的对象与目标对象之间的距离，可选地，距离可通过相距的像素点数目确定；通过第二参考帧，筛选其他物体中与目标对象距离较远的参考帧，对待处理视频帧进行修复的过程中，需要保证目标对象的分割精度足够高，特别是在有人物交叉、重叠的情况下，需要准确分割出其中某一个，因此第一类型的对象距离目标对象之间较远，可以保证得到更准确分割主体人物附近的画面信息。

所述预设条件还可以包括：第二对象与第三对象之间的第二距离满足第三预设条件；比如，所述第二距离为每一组所述第二对象的所占的像素区域与所述第三对象所占的像素区域之间的距离均值，仍然参考图2，若像素区域A、B、C内的人物均为第二非目标镀对象，则第二距离为像素区域A与像素区域B之间的距离1以及或像素区域C与像素区域B之间的距离2的距离均值。满足第三预设条件的第一参考帧中，至少存在一组第二对象与第三对象的第二距离满足所述第二距离为所述原始视频的视频帧中的最大值，或所述第一距离大于第三预设数值；也就是说筛选第一类型的对象之间距离较大的参考帧。

可选地，本发明实施例中，所述装置500还包括：

可选地，本发明实施例中，所述装置500包括：

所述目标检测模块包括：

可选地，本发明实施例中，所述第一距离为所述第一类型的对象所占的像素区域与所述目标对象所占的像素区域之间的距离；

可选地，本发明实施例中，所述第一预设条件为所述像素占比为所述原始视频中的原始参考帧中的最小值，或所述像素占比低于第一预设数值；

本发明实施例提供的视频帧处理装置500能够实现图1至图4的方法实施例中视频帧处理装置500实现的各个过程，为避免重复，这里不再赘述。

本发明的实施例中，参考帧确定模块501在原始视频中，确定至少一帧满足预设条件的第一参考帧；视频帧修复模块502根据所述预设处理算法、所述第一参考帧和所述第二参考帧，对所述原始视频中的待处理视频帧进行修复，得到目标视频帧；第一参考帧为背景区域较大的帧或物体之间距离较远的帧，通过第一参考帧作为修复参考，可提供更多的修复价值，确保修复后的视频的时间过滤的平滑程度；第二参考帧为根据目标选帧策略选取的参考帧，为待处理视频帧的修复提供足够的参考帧，提升视频去路人时参考帧的质量，从而提升最终的修复视频效果。

图6为实现本发明各个实施例的一种电子设备的硬件结构示意图；

该电子设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解，图6中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器610，用于在原始视频中，确定至少一帧满足预设条件的第一参考帧，并根据预设处理算法对应的目标选帧策略，确定至少一帧第二参考帧；

所述第一类型的对象的像素占比满足第一预设条件；

第二对象与第三对象之间的第二距离满足第三预设条件；

本发明的实施例中，在原始视频中，确定至少一帧满足预设条件的第一参考帧；根据所述预设处理算法、所述第一参考帧和所述第二参考帧，对所述原始视频中的待处理视频帧进行修复，得到目标视频帧；第一参考帧为背景区域较大的帧或物体之间距离较远的帧，通过第一参考帧作为修复参考，可提供更多的修复价值，确保修复后的视频的时间过滤的平滑程度；第二参考帧为根据目标选帧策略选取的参考帧，为待处理视频帧的修复提供足够的参考帧，提升视频去路人时参考帧的质量，从而提升最终的修复视频效果。

需要说明的是，本实施例中上述电子设备600可以实现本发明实施例中方法实施例中的各个过程，以及达到相同的有益效果，为避免重复，此处不再赘述。

应理解的是，本发明实施例中，射频单元601可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器610处理；另外，将上行的数据发送给基站。通常，射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元601还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块602为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元603还可以提供与电子设备600执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。

输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。

电子设备600还包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度，接近传感器可在电子设备600移动到耳边时，关闭显示面板6061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板6061。

用户输入单元607可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器610，接收处理器610发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071，用户输入单元607还可以包括其他输入设备6072。具体地，其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板6071可覆盖在显示面板6061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器610以确定触摸事件的类型，随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中，触控面板6071与显示面板6061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板6071与显示面板6061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元608为外部装置与电子设备600连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备600内的一个或多个元件或者可以用于在电子设备600和外部装置之间传输数据。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器609可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器610是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器609内的软件程序和/或模块，以及调用存储在存储器609内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器610可包括一个或多个处理单元；优选的，处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

电子设备600还可以包括给各个部件供电的电源611(比如电池)，优选的，电源611可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备600包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器610，存储器609，存储在存储器609上并可在所述处理器610上运行的计算机程序，该计算机程序被处理器610执行时实现上述视频帧处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述视频帧处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种视频帧处理方法，其特征在于，所述方法包括：

所述第一类型的对象的像素占比满足第一预设条件；

第二对象与第三对象之间的第二距离满足第三预设条件；

2.根据权利要求1所述的视频帧处理方法，其特征在于，所述得到目标视频帧之后，所述方法还包括：

3.根据权利要求1所述的视频帧处理方法，其特征在于，所述在原始视频中，确定至少一帧满足预设条件的第一参考帧之后，所述方法包括：

对所述待处理视频帧进行目标检测，得到第一检测目标；

4.根据权利要求1所述的视频帧处理方法，其特征在于，所述第一距离为所述第一类型的对象所占的像素区域与所述目标对象所占的像素区域之间的距离；

5.根据权利要求1所述的视频帧处理方法，其特征在于，所述第一预设条件为所述像素占比为所述原始视频中的原始参考帧中的最小值，或所述像素占比低于第一预设数值；

6.一种视频帧处理装置，其特征在于，所述装置包括：

所述第一类型的对象的像素占比满足第一预设条件；

第二对象与第三对象之间的第二距离满足第三预设条件；

7.根据权利要求6所述的视频帧处理装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的视频帧处理装置，其特征在于，所述装置包括：

所述目标检测模块包括：

9.根据权利要求6所述的视频帧处理装置，其特征在于，所述第一距离为所述第一类型的对象所占的像素区域与所述目标对象所占的像素区域之间的距离；

10.根据权利要求6所述的视频帧处理装置，其特征在于，所述第一预设条件为所述像素占比为所述原始视频中的原始参考帧中的最小值，或所述像素占比低于第一预设数值；