CN114612321A

CN114612321A - 视频处理方法、装置以及设备

Info

Publication number: CN114612321A
Application number: CN202210220536.9A
Authority: CN
Inventors: 陶鑫; 李昌临; 吴明达; 戴宇荣
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-06-10

Abstract

本申请公开了一种视频处理方法、装置以及设备，应用于图像技术领域。本申请实施例提供的技术方案，在需要对视频进行例如擦除或修复等处理时，能够在针对相邻视频帧检测到场景未发生切换后，可以参考相邻视频帧的图像内容，来执行图像补全，保证了所生成视频的播放效果自然流畅、无明显的闪烁问题。并且，由于所参考的是相邻的视频帧，其整体处理时长也能够控制在合理范围内。

Description

视频处理方法、装置以及设备

技术领域

本申请涉及图像技术领域，特别涉及一种视频处理方法、装置以及设备。

背景技术

随着互联网技术的发展，视频成为一种新潮的内容传播方式，越来越多的用户会通过制作视频进行内容传播。在视频制作过程中，经常需要对视频中一些画面元素进行处理，例如：去除视频中的字幕、水印或乱入的物体等。这时可以通过对视频进行处理，来实现对视频中的画面元素的擦除，进而得到不包含上述画面元素的视频。

相关技术中，有一类视频处理方法是一帧一帧进行的，这类视频处理方法以视频帧中的待处理区域以外的区域为参考，利用神经网络强大的拟合能力，在待处理区域生成丰富且精细的内容细节，从而得到处理完的视频帧，对多个视频帧都进行如上操作，进而得到处理完的视频。还有一类视频处理方法中，以某一个视频帧为例，将该视频帧之前的多个视频帧作为参考帧，运用对齐模块，对于每个参考帧来说，将该视频帧的待处理区域与该参考帧中对应的区域进行对齐，然后计算二者的匹配度，将匹配度最高的参考帧中的对应区域复制到该视频帧的待处理区域中，得到处理完的视频帧，对多个视频帧都进行如上操作，进而得到处理完的视频。

但是，上述第一类视频处理方法，在处理某一个视频帧时，仅是以该视频帧为参考，视频帧的处理结果会随视频帧的微小变化而产生不可预测的改变，致使出现视频帧之间不连贯的情况，进而导致处理得到的视频在播放时存在难以忍受的闪烁。上述第二类视频处理方法，对每个参考帧都进行对齐和匹配度的计算，通常涉及到较大的数据处理量，耗时较长。

发明内容

本申请实施例提供了一种视频处理方法、装置以及设备，可以使所生成视频的播放效果自然流畅、无明显的闪烁问题，且整体处理时长能够控制在合理范围内，技术方案如下：

一方面，提供了一种视频处理方法，该方法包括：

获取视频的多个视频帧；

对该多个视频帧中的每个视频帧，若基于该视频帧以及前一个视频帧，确定该视频帧未发生场景切换，基于该视频帧的前一个视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧；

基于该多个视频帧的第一视频帧，生成目标视频。

在一些实施例中，该方法还包括，若基于该视频帧以及前一个视频帧，确定该视频帧发生场景切换，基于该视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧。

在一些实施例中，该方法还包括，对于该视频帧中的多个像素，获取每个该像素的目标像素值，该目标像素值为该像素点在前一个视频帧中对应邻域内的每一个像素的相似度之和；基于该每个像素的目标像素值，从该多个像素中，提取目标像素值大于像素阈值的像素；获取提取到的像素的目标像素值的平均值；若该平均值大于或等于平均值阈值，则确定发生场景切换。

在一些实施例中，该基于该多个视频帧的第一视频帧，生成目标视频包括：

将该视频帧的第一视频帧输入循环卷积神经网络，由该循环卷积神经网络对该视频帧的第一视频帧的图像特征和该视频帧的前一个视频帧的隐藏态特征进行融合，输出该视频帧的第二视频帧；

基于该多个视频帧的第二视频帧，生成该目标视频。

在一些实施例中，该若基于该视频帧以及前一个视频帧，确定该视频帧未发生场景切换，基于该视频帧的前一个视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧包括：

若基于该视频帧以及前一个视频帧，确定该视频帧未发生场景切换，将该前一个视频帧与该视频帧进行对齐，基于对齐后的该前一个视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧。

在一些实施例中，该对该视频帧进行补全处理通过图像补全网络实现，该图像补全网络为U型网络。

一方面，提供了一种视频处理装置，该装置包括：

获取单元，被配置为执行获取视频的多个视频帧；

补全单元，被配置为执行若基于该视频帧以及前一个视频帧，确定该视频帧未发生场景切换，基于该视频帧的前一个视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧；

生成单元，被配置为执行基于该多个视频帧的第一视频帧，生成目标视频。

在一些实施例中，该补全单元，还被配置为执行若基于该视频帧以及前一个视频帧，确定该视频帧发生场景切换，基于该视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧。

在一些实施例中，该生成单元，被配置为执行将该视频帧的第一视频帧输入循环卷积神经网络，由该循环卷积神经网络对该视频帧的第一视频帧的图像特征和该视频帧的前一个视频帧的隐藏态特征进行融合，输出该视频帧的第二视频帧；基于该多个视频帧的第二视频帧，生成该目标视频。

在一些实施例中，该补全单元，被配置为执行若基于该视频帧以及前一个视频帧，确定该视频帧未发生场景切换，将该前一个视频帧与该视频帧进行对齐，基于对齐后的该前一个视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧。

一方面，提供了一种计算机设备，该计算机设备包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述视频处理方法。

一方面，提供了一种计算机可读存储介质，当该计算机可读存储介质中的程序代码由服务器的处理器执行时，使得该服务器能够执行上述视频处理方法。

一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述视频处理方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频处理方法的实施环境示意图；

图2是本申请实施例提供的一种视频处理方法的流程图；

图3是本申请实施例提供的一种视频处理方法的流程图；

图4是本申请实施例提供的一种图像补全网络结构示意图；

图5是本申请实施例提供的一种循环卷积神经网络结构示意图；

图6是本申请实施例提供的一种视频处理方法的流程图；

图7是本申请实施例提供的一种视频处理装置的结构示意图；

图8是本申请实施例提供的一种终端的结构示意图；

图9是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式做进一步的详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种该示例的范围的情况下，第一图像能够被称为第二图像，并且类似地，第二图像能够被称为第一图像。第一图像和第二图像都能够是图像，并且在某些情况下，能够是单独且不同的图像。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个数据包是指两个或两个以上的数据包。

应理解，在本文中对各种该示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种该示例的描述和所附权利要求书中所使用的那样，单数形式“一个(“a”“an”)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。

还应理解，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”，是一种描述关联对象的关联关系，表示能够存在三种关系，例如，A和/或B，能够表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，根据A确定B并不意味着仅仅根据A确定B，还能够根据A和/或其它信息确定B。

还应理解，术语“包括”(也称“inCludes”、“inCluding”、“Comprises”和/或“Comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的视频等都是在充分授权的情况下获取的。

图1是本申请实施例提供的一种视频处理方法的实施环境示意图，参见图1，该实施环境中可以包括终端101和服务器102。

终端101通过无线网络或有线网络与服务器102相连。可选地，终端101是智能手机、平板电脑、笔记本电脑、台式计算机以及智能电视等，但并不局限于此。终端101安装和运行有支持视频处理的应用程序，例如，该应用程序是插件型应用、小程序或者其他类型应用。

服务器102是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102为终端101上运行的应用程序提供后台服务。可选地，服务器102承担主要处理工作，终端101承担次要处理工作；或者，服务器102承担次要处理工作，终端101承担主要处理工作；或者，服务器102或终端101分别能够单独承担处理工作；或者，服务器102和终端101两者之间采用分布式计算架构进行协同计算。

本领域技术人员能够知晓，上述终端101、服务器102的数量能够更多或更少。比如上述终端101、服务器102能够仅为一个，或者上述终端101、服务器102为几十个或几百个，或者更多数量，本申请实施例对终端或服务器的数量和设备类型不加以限定。

在介绍完本申请实施例的实施环境之后，下面将结合上述实施环境对本申请实施例的应用场景进行介绍，在下述说明过程中，终端也即是上述实施环境中的终端101，服务器也即是上述实施环境中的服务器102。

本申请实施例提供的技术方案能够应用在处理各类视频画面元素的场景下，比如，应用擦除视频字幕的场景下，或者应用在擦除视频水印的场景下，或者应用在擦除视频中乱入的物体等场景下。

在擦除视频水印的场景下，终端启动视频提供平台的应用程序，该应用程序提供视频处理以及视频播放等功能。终端显示该应用程序的主界面，该主界面包括视频处理操作区域，该应用程序通过该视频处理操作区域为用户提供视频处理的功能。用户能够在该视频处理操作区域中传入视频，确定该视频中要擦除的水印，该视频也即是用于视频处理的视频。终端将该视频发送至服务器，由服务器对该视频进行视频处理，得到该视频中的各个视频帧。对于某一个视频帧来说，若场景未发生切换，服务器参考该视频帧的前一个视频帧的图像内容，对该视频帧水印区域执行图像补全；若场景发生切换，服务器基于该视频帧本身的图像内容，对该视频帧水印区域执行图像补全。服务器进一步通过相邻视频帧之间的融合，来抑制视频闪烁的问题，得到处理完的视频。服务器将处理完的视频发送给终端，终端显示该处理完的视频。

需要说明的是，在上述说明过程中，是以服务器擦除视频水印的场景为例进行说明的，在服务器擦除视频字幕以及擦除视频中乱入的物体等场景中，与上述说明过程属于同一发明构思，内容不再赘述。当然，本申请实施例提供的技术方案除了能够应用在上述几个场景之外，还能够应用在处理视频中其他类型的画面元素的场景中，本申请实施例对此不做限定。

接下来介绍本公开提供的技术方案。图2是本申请实施例提供的一种视频处理方法的流程图，如图2所示，以该方法用于服务器102中为例，包括以下步骤：

在步骤201中，获取视频的多个视频帧。

其中，该视频为待擦除某些画面元素或者待进行画面补全的视频。其中，待擦除的画面元素可以为字幕、水印、物体或由用户自定义的任意区域。

在步骤202中，对于该多个视频帧中的每个视频帧，若基于该视频帧以及前一个视频帧，确定该视频帧未发生场景切换，基于该视频帧的前一个视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧。

其中，视频帧的蒙版基于视频帧生成，用于指示视频帧中的待处理区域。

其中，场景切换是指两个相邻视频帧，例如当前视频帧和前一个视频帧，在画面内容上发生了较大程度的变化。当未发生场景切换时，前一视频帧中可能包含对该视频帧的补全具有参考价值的有效信息，所以基于该视频帧和前一个视频帧来进行图像补全，可以有效提高处理得到的视频帧的视觉效果。

在一些实施例中，若该视频帧发生场景切换，基于该视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧。

在一些实施例中，该步骤还包括，对于该视频帧中的多个像素，获取每个该像素的目标像素值，该目标像素值为该像素点在前一个视频帧中对应邻域内的每一个像素的相似度之和；基于该每个像素的目标像素值，从该多个像素中，提取目标像素值大于像素阈值的像素；获取提取到的像素的目标像素值的平均值；若该平均值大于或等于平均值阈值，则确定发生场景切换。

在步骤203中，基于该多个视频帧的第一视频帧，生成目标视频。

本申请实施例提供的技术方案，在需要对视频进行例如擦除或修复等处理时，能够在针对相邻视频帧检测到场景未发生切换后，可以参考相邻视频帧的图像内容，来执行图像补全，保证了所生成视频的播放效果自然流畅、无明显的闪烁问题。并且，由于所参考的是相邻的视频帧，其整体处理时长也能够控制在合理范围内。

在介绍完本申请实施例的实施环境和应用场景之后，下面以执行主体为服务器为例，对本申请实施例提供的技术方案进行介绍。图3是本申请实施例提供的一种视频处理方法的流程图，图4是本申请实施例提供的一种图像补全网络结构示意图，图5是本申请实施例提供的一种循环卷积神经网络结构示意图。参见图3、图4和图5，该视频处理方法包括：

在步骤301中，对视频进行解码，得到多个视频帧。

在本申请实施例中，该视频为待擦除某些画面元素或者待进行画面补全的视频。其中，待擦除的画面元素可以为字幕、水印、物体或由用户自定义的任意区域。

在一些实施例中，上述视频为短视频或小视频，也即是，视频时长小于或等于时长阈值的视频。响应于视频时长小于或等于时长阈值，则执行步骤301的解码以及步骤302之后的场景切换判断，由于时长较短的这类视频可能会发生多次场景切换，因此，针对这类视频执行该视频处理方法的相关流程，可以适用性更强，能够保证这类视频的视觉效果。

可以理解的是，上述步骤301是获取视频的多个视频帧的一种实现方式，本申请实施例对该过程不做限定。

在步骤302中，对该多个视频帧中的每个视频帧，基于该视频帧以及前一个视频帧，判断该视频帧是否发生场景切换，如果是，则执行步骤303。如果否，则执行步骤304。

其中，场景切换是指两个相邻视频帧，例如当前视频帧和前一个视频帧，在画面内容上发生了较大程度的变化。

在本申请实施例中，基于视频帧之间的相似程度来确定是否发生场景切换。在一些实施例中，该过程包括下述步骤302A至302D：

302A、对于该视频帧中的多个像素，获取每个像素的目标像素值，该目标像素值为该像素点在前一个视频帧中对应邻域内的每一个像素的L2范数距离之和。该范数距离之和的计算公式参见下述公式(1)：

其中，I_t和I_t-1为相邻两帧的视频帧，p为视频帧I_t中某一个像素的位置，q为前一个视频帧中该像素p邻域内的另一个像素的位置，t为小于N的正整数，N为视频帧的总数。

在一些实施例中，该邻域范围为以该像素点为中心的5×5的正方形邻域范围。当然，该邻域范围可以根据实际需求进行调整，本申请实施例对此不作限定。

需要说明的是，上述L2范数距离是像素点之间相似度的一种表示形式，在一些实施例中，还可以采用其他方式来表示像素点之间的相似度。

302B、基于该每个像素的目标像素值，从该多个像素中，提取目标像素值大于像素阈值的像素。

其中，该像素阈值为超参数σ，σ＞0。在一些实施例中，该σ＝0.05。

302C、获取提取到的像素的目标像素值的平均值。

由于目标像素值的大小能够体现图像帧中对应区域的画面变化情况，因此，一些较小的目标像素值会影响平均值计算的结果，因此，为了避免这类影响，通过采用目标像素值大于像素阈值的像素，来作为衡量是否发生场景切换的参考像素，提高对场景切换判断的准确性。

302D、将该平均值与平均值阈值进行对比，若平均值大于或等于平均值阈值，则确定发生了场景切换；若平均值小于平均值阈值，则确定未发生场景切换。

其中，该像素阈值为超参数δ，δ＞0。在一些实施例中，该δ＝0.07。

其中，两个超参数均为技术人员自行定义，本申请实施例对此不作限定。

在步骤303中，若该视频帧发生场景切换，将该视频帧、该视频帧和该视频帧的蒙版分别作为图像补全网络的三个输入，输入图像补全网络，得到该视频帧的第一视频帧，执行步骤305。

视频帧的蒙版基于视频帧生成，用于指示视频帧中的待处理区域。

上述步骤303是基于该视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧的一种实现方式，下面针对该实现方式进行说明。在一些实施例中，参见图4，该图像补全网络包括：输入层401、粗略补全网络402、精细补全网络403和输出层404。

该输入层401包括七个输入通道，用于分别输入视频帧以及视频帧的蒙版。该七个输入通道中包括两组视频帧输入通道和一个蒙版输入通道，每组视频帧输入通道包括三个通道，用于输入一个视频帧的三通道的RGB数据。

该粗略补全网络402用于对输入数据进行特征提取，并对提取到的特征进行解码，以实现对该视频帧的粗略补全。该粗略补全网络可以实现为一个U型网络，该U型网络包括多个卷积层，该多个卷积层包括多个第一卷积层、多个空洞卷积层以及多个第二卷积层。其中，多个第一卷积层和多个空洞卷积层分别用于通过卷积操作进行特征提取，该多个第二卷积层用于通过反卷积操作进行解码，来补全视频帧。其中，该粗略补全网络中的卷积层数由技术人员根据实际情况自行定义，本实施例对此不做限定。利用U型网络对视频帧进行粗略补全，提高修复效果。利用空洞卷积层进行进一步的特征提取，可以有效增加网络的感受野，提高修复效果。

该精细修复网络403包括两条支线网络和解码器，其中一条支线包括多个卷积层和上下文注意力单元。两条支线包括多个卷积层和多个空洞卷积层，以该两条支线的输出作为解码器的输入，以得到解码结果。其中，上述两条支线网络分别对输入数据进行特征提取，并通过解码器对上述两条支线网络所分别提取到的视频特征进行合并，并对合并得到的视频特征进行解码，来进一步补全视频帧。其中，该精细修复网络的卷积层数由技术人员根据实际情况自行定义，本实施例对此不做限定。

该输出层404用于输出精细修复网络所输出的图像帧，该输出层还可以包括一些图像处理单元，以对视频帧进行进一步优化。

当然，在本申请实施例中可以采用如上述图4所示的图像补全网络的网络结构，还可以采用其他网络结构以初步进行图像补全，本申请实施例对此不作限定。

在步骤304中，若该视频帧未发生场景切换，将该视频帧、该视频帧的前一个视频帧和该视频帧的蒙版分别作为该图像补全网络的三个输入，输入图像补全网络，得到该视频帧的第一视频帧，执行步骤305。

上述步骤304是基于该视频帧的前一个视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧的一种实现方式，下面针对该实现方式进行说明。

当未发生场景切换时，前一视频帧中可能包含对该视频帧的补全具有参考价值的有效信息，所以基于该视频帧和前一个视频帧来进行图像补全，可以有效提高处理得到的视频帧的视觉效果。

在一些实施例中，当服务器检测到该视频帧与前一个视频帧未发生场景切换时，服务器先将前一个视频帧与该视频帧进行对齐，再将对齐后的该两个视频帧输入到图像补全网络，由图像补全网络进行处理。将前一个视频帧与该视频帧进行对齐后，前一个视频帧中的有效信息对该视频帧的适用性更强，可以有效提高处理得到的视频帧的视觉效果。

基于上述步骤303和304，可以对视频帧进行初步补全，通过图像补全网络，可以将所输入的视频帧和蒙版相融合，进而对融合后的数据在不同阶段进行多次特征提取以及基于提取到的特征进行多次解码，以得到该视频帧的第一视频帧。

在步骤305中，将该视频帧的第一视频帧输入循环卷积神经网络，由该循环卷积神经网络对该视频帧的第一视频帧的图像特征和该视频帧的前一个视频帧的隐藏态特征进行融合，输出该视频帧的第二视频帧。

上述步骤305是基于视频帧的补全处理步骤后的一个可选步骤。其中，循环卷积神经网络能够缓存前一次处理过程中视频帧的隐藏态特征，因此，在将该视频帧的第一视频帧输入到该循环卷积神经网络中后，该循环卷积神经能够将视频帧的第一视频帧与缓存的前一个视频帧的隐藏态特征进行融合，进而通过对融合后的特征进行解码，以得到视频帧的第二视频帧，该第二视频帧较之第一视频帧更加平滑，进一步减少视频播放时可能出现的闪烁，使视频播放效果更好。

在一些实施例中，该循环卷积神经网络采用循环神经网络结构，参见图5。该循环卷积神经网络包括：输入层501、编码器502、加门循环单元503、解码器504和输出层505。

其中，输入层501用于输入该视频帧的第一视频帧。编码器502用于对该视频帧的第一视频帧进行编码，得到该视频帧的图像特征。加门循环单元503对编码得到的图像特征与该视频帧的前一个视频帧的隐藏态特征进行融合，得到融合后的图像特征。解码器504对加门循环单元输出的图像特征进行解码，输出层505输出该视频帧的第二视频帧。

在步骤306中，基于每个视频帧的第二视频帧，生成目标视频。

上述步骤302至305仅是对一个视频帧的处理过程的说明，而对于上述每个视频帧，该服务器均执行相应的过程，以得到每个视频帧的第二视频帧，并基于该多个视频帧的第二视频帧进行视频编码，以得到目标视频。该目标视频由于是经过了如步骤302至304中基于场景切换的图像补全过程以及如步骤305中的闪烁抑制的处理过程，其播放效果大大提升。

图6是本申请实施例提供的一种视频处理方法的流程图，为了便于理解，请参见图6所示的总体流程图。对所获取的多个视频帧中的每个视频帧，基于该视频帧以及前一个视频帧，判断该视频帧是否发生场景切换。若发生场景切换，将该视频帧和该视频帧的蒙版输入图像补全网络，对该视频帧进行补全处理，得到该视频帧的第一视频帧；若未发生场景切换，将该视频帧的前一个视频帧、该视频帧和该视频帧的蒙版输入图像补全网络，对该视频帧进行补全处理，得到该视频帧的第一视频帧。将生成的第一视频帧输入循环卷积神经网络，基于相邻视频帧的隐藏态进行进一步的融合，得到该视频帧的第二视频帧。基于多个视频帧的第二视频帧，生成目标视频。

本申请实施例提供的技术方案，在需要对视频进行例如擦除或修复等处理时，能够针对相邻视频帧来检测是否发生了场景切换，在检测到场景未发生切换后，可以参考相邻视频帧的图像内容，来执行图像补全，在检测到场景发生切换后，可以基于视频帧本身的图像内容，来执行图像补全，保证了所生成视频的播放效果自然流畅、无明显的闪烁问题。并且，由于所参考的是相邻的视频帧，因此，其整体处理时长也能够控制在合理范围内。进一步地，还通过相邻视频帧之间的融合，来抑制视频闪烁的问题，大大提升了播放效果。

图7是本申请实施例提供的一种视频处理装置的结构示意图。参照图7，该装置包括获取单元701、补全单元702和生成单元703。

获取单元701被配置为执行获取视频的多个视频帧。

补全单元702被配置为执行若基于该视频帧以及前一个视频帧，确定该视频帧未发生场景切换，基于该视频帧的前一个视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧；

生成单元703被配置为执行基于该多个视频帧的第一视频帧，生成目标视频。

在一些实施例中，该补全单元702，还被配置为执行若基于该视频帧以及前一个视频帧，确定该视频帧发生场景切换，基于该视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧。

在一些实施例中，该生成单元703，被配置为执行将该视频帧的第一视频帧输入循环卷积神经网络，由该循环卷积神经网络对该视频帧的第一视频帧的图像特征和该视频帧的前一个视频帧的隐藏态特征进行融合，输出该视频帧的第二视频帧；基于该多个视频帧的第二视频帧，生成该目标视频。

在一些实施例中，该补全单元702，被配置为执行若确定该视频帧与前一个视频帧未发生场景切换，将该前一个视频帧与该视频帧进行对齐，基于对齐后的该前一个视频帧和该视频帧的蒙版，对该视频帧进行补全处理，得到该视频帧的第一视频帧。

需要说明的是：上述实施例提供的视频处理装置在处理视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频处理方法与视频处理装置实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种计算机设备，用于执行上述方法，该计算机设备可以实现为终端或者服务器，下面先对终端的结构进行介绍：

图8是本申请实施例提供的一种终端的结构示意图。

通常，终端800包括有：一个或多个处理器801和一个或多个存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器801所执行以实现本申请中方法实施例提供的视频处理方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807和电源808中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。

电源808用于为终端800中的各个组件进行供电。电源808可以是交流电、直流电、一次性电池或可充电电池。

在一些实施例中，终端800还包括有一个或多个传感器809。该一个或多个传感器809包括但不限于：加速度传感器810、陀螺仪传感器811、压力传感器812、光学传感器813以及接近传感器814。

加速度传感器810可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。

陀螺仪传感器811可以终端800的机体方向及转动角度，陀螺仪传感器811可以与加速度传感器810协同采集用户对终端800的3D动作。

压力传感器812可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器812设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器812采集的握持信号进行左右手识别或快捷操作。当压力传感器812设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。

光学传感器813用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器813采集的环境光强度，控制显示屏805的显示亮度。

接近传感器814用于采集用户与终端800的正面之间的距离。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述计算机设备还可以实现为服务器，下面对服务器的结构进行介绍：

图9是本申请实施例提供的一种服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)901和一个或多个的存储器902，其中，该一个或多个存储器902中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该计算机程序由处理器加载并执行以实现上述实施例中的视频处理方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述视频处理方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来控制相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取视频的多个视频帧；

对所述多个视频帧中的每个视频帧，若基于所述视频帧以及前一个视频帧，确定所述视频帧未发生场景切换，基于所述视频帧的前一个视频帧和所述视频帧的蒙版，对所述视频帧进行补全处理，得到所述视频帧的第一视频帧；

基于所述多个视频帧的第一视频帧，生成目标视频。

2.根据权利要求1所述的视频处理方法，其特征在于，所述方法还包括：

若基于所述视频帧以及前一个视频帧，确定所述视频帧发生场景切换，基于所述视频帧和所述视频帧的蒙版，对所述视频帧进行补全处理，得到所述视频帧的第一视频帧。

3.根据权利要求1所述的视频处理方法，其特征在于，所述方法还包括：

对于所述视频帧中的多个像素，获取每个所述像素的目标像素值，所述目标像素值为所述像素点在前一个视频帧中对应邻域内的每一个像素的相似度之和；

基于所述每个像素的目标像素值，从所述多个像素中，提取目标像素值大于像素阈值的像素；

获取提取到的像素的目标像素值的平均值；

若所述平均值大于或等于平均值阈值，则确定发生场景切换。

4.根据权利要求1所述的视频处理方法，其特征在于，所述基于所述多个视频帧的第一视频帧，生成目标视频包括：

将所述视频帧的第一视频帧输入循环卷积神经网络，由所述循环卷积神经网络对所述视频帧的第一视频帧的图像特征和所述视频帧的前一个视频帧的隐藏态特征进行融合，输出所述视频帧的第二视频帧；

基于所述多个视频帧的第二视频帧，生成所述目标视频。

5.根据权利要求1所述的视频处理方法，其特征在于，所述若基于所述视频帧以及前一个视频帧，确定所述视频帧未发生场景切换，基于所述视频帧的前一个视频帧和所述视频帧的蒙版，对所述视频帧进行补全处理，得到所述视频帧的第一视频帧包括：

若基于所述视频帧以及前一个视频帧，确定所述视频帧未发生场景切换，将所述前一个视频帧与所述视频帧进行对齐，基于对齐后的所述前一个视频帧和所述视频帧的蒙版，对所述视频帧进行补全处理，得到所述视频帧的第一视频帧。

6.根据权利要求1所述的视频处理方法，其特征在于，所述对所述视频帧进行补全处理通过图像补全网络实现，所述图像补全网络为U型网络。

7.一种视频处理装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取视频的多个视频帧；

补全单元，被配置为执行若基于所述视频帧以及前一个视频帧，确定所述视频帧未发生场景切换，基于所述视频帧的前一个视频帧和所述视频帧的蒙版，对所述视频帧进行补全处理，得到所述视频帧的第一视频帧；

生成单元，被配置为执行基于所述多个视频帧的第一视频帧，生成目标视频。

8.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至6中任一项所述的视频处理方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序代码由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至6中任一项所述的视频处理方法。

10.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至权利要求6中任一项所述的视频处理方法。