CN111556278A

CN111556278A - 一种视频处理的方法、视频展示的方法、装置及存储介质

Info

Publication number: CN111556278A
Application number: CN202010435683.9A
Authority: CN
Inventors: 陈泳君; 唐梦云; 刘水生; 涂思嘉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-08-18
Anticipated expiration: 2040-05-21
Also published as: CN111556278B

Abstract

本申请公开了一种应用于人工智能领域的视频处理方法，该方法具体应用于计算机视觉领域，并且可基于云计算传输视频数据。本申请提供的方法包括：获取连续的M个视频帧；通过对象分割模型获取第一视频帧所对应的对象分割结果；通过背景模型获取第一视频帧所对应的第一背景图像；若第一视频帧所对应的对象分割结果满足目标移除条件，则从第一视频帧中移除第一像素区域内的像素点；将第一背景图像中的像素点集合填充至第一像素区域，以得到第一目标视频帧。本申请实施例还公开了视频展示的方法、装置及存储介质，本申请不但能够达到无感知消除干扰对象的目的，还可以保留视频背景画面中存在的信息，提升视频的完整度。

Description

一种视频处理的方法、视频展示的方法、装置及存储介质

技术领域

本申请涉及人工智能领域，尤其涉及一种视频处理的方法、视频展示的方法、装置及存储介质。

背景技术

随着通信技术和多媒体技术的飞速发展，信息交换的方式已从纸、笔、书本和电话，发展为视频会议、新闻录制以及视频直播等。在视频播放的过程中容易出现背景干扰，例如，在视频会议进行时，背景区域出现正在走动的人或者正在移动的物体等。

基于上述情形，目前，可采用背景虚化的方式来消除背景干扰，请参阅图1，图1为现有技术中视频背景虚化的一个示意图，如图所示，利用虚化的方式移除背景之后，即可在视频中仅显示前景部分的对象，例如讲话人或者播报员等。

然而，直接将背景虚化的处理方式会使得视频效果显得不够自然，而且对于背景一律进行模糊化处理，还可能丢失背景中存在的有效信息，导致输出的视频完整度较差。

发明内容

本申请实施例提供了一种视频处理的方法、视频展示的方法、装置及存储介质，不但能够达到无感知消除干扰对象的目的，还可以保留视频背景画面中存在的信息，提升视频的完整度。

有鉴于此，本申请一方面提供一种视频处理的方法，包括：

获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

通过对象分割模型获取第一视频帧所对应的对象分割结果，其中，第一视频帧为待处理视频中出现于连续的M个视频帧之后的一个视频帧，对象分割结果包括至少一个可消除对象；

通过背景模型获取第一视频帧所对应的第一背景图像；

若第一视频帧所对应的对象分割结果满足目标移除条件，则从第一视频帧中移除第一像素区域内的像素点，其中，第一像素区域为目标消除对象在第一视频帧中的像素区域，目标消除对象属于至少一个可消除对象；

将第一背景图像中的像素点集合填充至第一像素区域，以得到第一目标视频帧，其中，像素点集合包括至少一个像素点。

本申请另一方面提供一种视频展示的方法，包括：

接收针对于第一视频帧的对象消除请求，其中，第一视频帧出现于连续的M个视频帧之后；

根据对象消除请求确定目标干扰对象；

通过对象分割模型获取第二视频帧所对应的对象分割结果，其中，对象分割结果包括至少一个可消除对象；

通过背景模型获取第二视频帧所对应的目标背景图像；

若根据目标干扰对象以及第二视频帧所对应的对象分割结果确定满足目标移除条件，则从第二视频帧中移除目标像素区域内的像素点；

将目标背景图像中的像素点集合填充至目标像素区域，以得到目标视频帧，其中，像素点集合包括至少一个像素点；

通过显示界面展示目标视频帧。

本申请另一方面提供一种视频处理的方法，包括：

获取待处理媒体视频，其中，待处理媒体视频包括N个视频帧，N为大于1的整数；

从待处理媒体视频中获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

接收针对于第一视频帧的对象消除请求，其中，第一视频帧属于待处理媒体视频，第一视频帧出现于连续的M个视频帧之后；

根据对象消除请求确定目标干扰对象；

通过背景模型获取第二视频帧所对应的目标背景图像；

根据目标视频帧生成合成媒体视频，其中，合成媒体视频包括至少一个合成后的视频帧。

本申请另一方面提供一种视频展示的方法，包括：

通过拍摄装置获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

根据对象消除请求确定目标干扰对象；

通过背景模型获取第二视频帧所对应的目标背景图像；

通过显示界面展示目标视频帧。

本申请另一方面提供一种视频处理装置，包括：

获取模块，用于获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

获取模块，还用于通过对象分割模型获取第一视频帧所对应的对象分割结果，其中，第一视频帧为待处理视频中出现于连续的M个视频帧之后的一个视频帧，对象分割结果包括至少一个可消除对象；

获取模块，还用于通过背景模型获取第一视频帧所对应的第一背景图像；

移除模块，用于若第一视频帧所对应的对象分割结果满足目标移除条件，则从第一视频帧中移除第一像素区域内的像素点，其中，第一像素区域为目标消除对象在第一视频帧中的像素区域，目标消除对象属于至少一个可消除对象；

处理模块，用于将第一背景图像中的像素点集合填充至第一像素区域，以得到第一目标视频帧，其中，像素点集合包括至少一个像素点。

在一种可能的设计中，视频处理装置还包括接收模块以及确定模块；

接收模块，用于在获取模块获取连续的M个视频帧之前，接收帧数设置请求；

确定模块，用于根据帧数设置请求确定帧数取值，其中，帧数取值为M；

获取模块，具体用于根据帧数取值，获取连续的M个视频帧。

在一种可能的设计中，视频处理装置还包括更新模块；

获取模块，还用于获取连续的M个视频帧之后，针对连续的M个视频帧，获取每个视频帧所对应的像素点样本集合，其中，像素点样本集合包括至少一个像素点样本；

更新模块，用于根据连续的M个视频帧中的每个像素点样本，对K个分布模型中每个分布模型所对应的权重值进行更新，得到K个更新后权重值，其中，K为大于或等于1的整数；

确定模块，还用于根据K个更新后权重值，从K个分布模型中确定B个分布模型作为背景模型，其中，B为大于或等于1，且小于或等于K的整数。

在一种可能的设计中，对象分割模型为实例分割模型；

获取模块，具体用于通过实例分割模型获取第一视频帧所对应的对象分割结果，其中，对象分割结果对应于至少一种类型的可消除对象；

或者，对象分割模型为语义分割模型；

获取模块，具体用于通过语义分割模型获取第一视频帧所对应的对象分割结果，其中，对象分割结果对应于同一类型的可消除对象。

在一种可能的设计中，

接收模块，还用于在获取模块获取连续的M个视频帧之后，接收针对于第二视频帧的对象消除请求，其中，第二视频帧出现于连续的M个视频帧之后；

确定模块，还用于根据对象消除请求确定目标干扰对象，其中，目标干扰对象用于确定第一像素区域。

在一种可能的设计中，

确定模块，还用于在获取模块通过对象分割模型获取第一视频帧所对应的对象分割结果之后，根据第一视频帧所对应的对象分割结果，确定每个可消除对象分别与目标干扰对象之间的区域交叠率；

确定模块，还用于若可消除对象与目标干扰对象之间的区域交叠率大于或等于交叠率阈值，则确定第一视频帧所对应的对象分割结果满足目标移除条件，且确定可消除对象为目标消除对象。

在一种可能的设计中，

确定模块，还用于在获取模块通过对象分割模型获取第一视频帧所对应的对象分割结果之后，根据第一视频帧所对应的对象分割结果，确定每个可消除对象的轮廓像素；

获取模块，还用于针对每个可消除对象的轮廓像素，获取每个可消除对象所对应的P个第一轮廓像素位置，其中，P为大于或等于1的整数；

获取模块，还用于获取目标干扰对象的轮廓像素；

获取模块，还用于根据目标干扰对象的轮廓像素获取P个第二轮廓像素位置，其中，第二轮廓像素位置与第一轮廓像素位置之间具有一一对应的关系；

确定模块，还用于根据P个第一轮廓像素位置以及P个第二轮廓像素位置，确定P个像素距离；

确定模块，还用于若P个像素距离之和小于或等于距离阈值，则确定第一视频帧所对应的对象分割结果满足目标移除条件，且确定可消除对象为目标消除对象。

在一种可能的设计中，

获取模块，还用于在通过背景模型获取所述第一视频帧所对应的第一背景图像之后，根据第一像素区域，从第一背景图像中获取第二像素区域，其中，第二像素区域与第一像素区域所包括的像素个数相同；

获取模块，还用于根据第二像素区域获取第一背景图像中的像素点集合。

在一种可能的设计中，

获取模块，还用于通过对象分割模型获取第一视频帧所对应的对象分割结果之后，若对象分割结果未满足目标移除条件，则从待处理视频中获取第三视频帧；

获取模块，还用于通过对象分割模型获取第三视频帧所对应的对象分割结果；

获取模块，还用于通过背景模型获取第三视频帧所对应的第二背景图像；

移除模块，还用于若第三视频帧所对应的对象分割结果满足目标移除条件，则从第三视频帧中移除第三像素区域内的像素点，其中，第三像素区域为目标消除对象在第三视频帧中的像素区域；

处理模块，还用于将第二背景图像中的像素点集合填充至第三像素区域，以得到第二目标视频帧。

本申请另一方面提供一种视频展示装置，包括：

接收模块，用于接收针对于第一视频帧的对象消除请求，其中，第一视频帧出现于连续的M个视频帧之后；

确定模块，用于根据对象消除请求确定目标干扰对象；

获取模块，还用于通过对象分割模型获取第二视频帧所对应的对象分割结果，其中，对象分割结果包括至少一个可消除对象；

获取模块，还用于通过背景模型获取第二视频帧所对应的目标背景图像；

移除模块，用于若根据目标干扰对象以及第二视频帧所对应的对象分割结果确定满足目标移除条件，则从第二视频帧中移除目标像素区域内的像素点；

处理模块，用于将目标背景图像中的像素点集合填充至目标像素区域，以得到目标视频帧，其中，像素点集合包括至少一个像素点；

展示模块，用于通过显示界面展示目标视频帧。

本申请另一方面提供一种视频处理的方法，包括：

获取模块，用于获取待处理媒体视频，其中，待处理媒体视频包括N个视频帧，N为大于1的整数；

获取模块，还用于从待处理媒体视频中获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

接收模块，用于接收针对于第一视频帧的对象消除请求，其中，第一视频帧属于待处理媒体视频，第一视频帧出现于连续的M个视频帧之后；

确定模块，用于根据对象消除请求确定目标干扰对象；

生成模块，用于根据目标视频帧生成合成媒体视频，其中，合成媒体视频包括至少一个合成后的视频帧。

本申请另一方面提供一种视频展示的方法，包括：

获取模块，用于通过拍摄装置获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

确定模块，用于根据对象消除请求确定目标干扰对象；

展示模块，用于通过显示界面展示目标视频帧。

本申请另一方面提供一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面所述的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种视频处理的方法，首先获取连续的M个视频帧，然后通过对象分割模型获取第一视频帧所对应的对象分割结果，再通过背景模型获取第一视频帧所对应的第一背景图像，如果第一视频帧所对应的对象分割结果满足目标移除条件，则从第一视频帧中移除第一像素区域内的像素点，最后将第一背景图像中的像素点集合填充至第一像素区域，以得到第一目标视频帧。通过上述方式，利用语义分割技术消除视频画面中的干扰对象，并将背景模型输出的背景图像填充至已抠除干扰对象的视频画面中，不但能够达到无感知消除干扰对象的目的，还可以保留视频背景画面中存在的信息，提升视频的完整度。

附图说明

图1为现有技术中视频背景虚化的一个示意图；

图2为本申请实施例中视频处理系统的一个环境示意图；

图3为本申请实施例中视频处理方法的一个实施例示意图；

图4为本申请实施例中视频处理方法的一个整体流程示意图；

图5为本申请实施例中初始化帧数取值的一个界面示意图；

图6为本申请实施例中基于实例分割模型实现生成对象分割结果的一个流程示意图；

图7为本申请实施例中基于语义分割模型实现生成对象分割结果的一个流程示意图；

图8为本申请实施例中初始化目标干扰对象的一个界面示意图；

图9为本申请实施例中基于区域交叠率进行对象移除的一个示意图；

图10为本申请实施例中基于轮廓像素进行对象移除的一个示意图；

图11为本申请实施例中生成目标视频帧的一个流程示意图；

图12为本申请实施例中视频处理算法的一个流程示意图；

图13为本申请实施例中视频展示方法的一个实施例示意图；

图14为本申请实施例中基于视频会议场景的一个应用效果示意图；

图15为本申请实施例中视频处理方法的另一个实施例示意图；

图16为本申请实施例中基于新闻录制场景的一个应用效果示意图；

图17为本申请实施例中视频展示方法的另一个实施例示意图；

图18为本申请实施例中基于远程直播场景的一个应用效果示意图；

图19为本申请实施例中视频处理装置的一个实施例示意图；

图20为本申请实施例中视频展示装置的一个实施例示意图；

图21为本申请实施例中视频处理装置的另一个实施例示意图；

图22为本申请实施例中视频展示装置的另一个实施例示意图；

图23为本申请实施例中服务器的一个结构示意图；

图24为本申请实施例中终端设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的视频处理方法以及视频展示方法均涉及人工智能(Artificial Intelligence，AI)技术，具体涉及计算机视觉(Computer Vision，CV)技术。基于CV技术能够从视频中识别出不同的对象，例如，人物、车辆、建筑以及其他物体。其中，CV技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical CharacterRecognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

而CV技术属于AI技术的一个分支，其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

应理解，本申请提供的视频处理方法能够定向移除干扰对象，即利用背景建模技术提取视频中的静态背景，再使用实例分割技术将目标对象分割出来，然后定向移除属于干扰对象的目标对象，最后将属于该目标对象的像素点替换为背景图像中相应的像素点。由此达到定向消除视频画面中存在的人或者物体，保留需要在视频中出现的对象。基于此，本申请提供的视频处理方法适用于多种交互场景，示例性地，在视频会议中可消除与会议无关的对象，例如，其他部门的同事、保洁人员以及路过镜头的人等。示例性地，在已录制的新闻视频中可消除与采访对象无关的对象，例如，来往的车辆、路过镜头的人或者宠物等。示例性地，在直播视频中可消除与直播内容无关的对象，例如，路过镜头的人等。

本申请提供的视频处理方法还适用于云会议场景，其中，云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。

目前国内云会议主要集中在以软件即服务(Software as a Service，SaaS)模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。

在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源处理，用户完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。

云会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问，视频会议运用云计算以后，在方便性、快捷性、易用性上具有更强的吸引力，必将激发视频会议应用新高潮的到来。

为了便于理解，本申请提出了一种视频处理的方法，该方法应用于图1所示的视频处理系统，请参阅图2，图2为本申请实施例中视频处理系统的一个环境示意图，视频处理系统可分为应用于离线处理和在线处理两种情况，如图2中(A)图所示的离线处理场景，由终端设备播放待处理视频，待处理视频是由多个连续视频帧组成的，在处理过程中，需要以视频帧为单位进行识别。具体地，假设终端设备从待处理视频捕获视频帧1，识别出视频帧1中存在两个目标对象，分别为目标对象W1和目标对象W2，然后从视频帧1中选取一个干扰对象，如选择目标对象W1，于是在后一个视频帧中将目标对象W1去除，并进行背景补全，从而得到视频帧2，由此，终端设备将展示视频帧2。

如图2中(B)图所示的在线处理场景，由终端设备播放待处理视频，待处理视频是由多个连续视频帧组成的，在处理过程中，需要以视频帧为单位进行识别。具体地，假设终端设备从待处理视频捕获视频帧1，然后将视频帧1和视频帧2都传输至服务器，由服务器识别出视频帧1中存在两个目标对象，分别为目标对象W1和目标对象W2，再将识别后的视频帧1传输至终端设备，通过终端设备选择一个干扰对象，如选择目标对象W1，于是将选择结果反馈至服务器，服务器在视频帧2中将目标对象W1去除，并进行背景补全，由此，终端设备将展示视频帧2。

需要说明的是，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱以及智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例提供的方案涉及基于AI的CV技术，结合上述介绍，下面将对本申请中视频处理的方法进行介绍，请参阅图3，本申请实施例中视频处理的方法一个实施例包括：

101、获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

本实施例中，视频处理装置获取连续的M个视频帧。如果获取到的是待处理视频，则需要将待处理视频解析为N个视频帧，然后从这N个视频帧中提取出连续的M个视频帧。如果是直接通过拍摄装置实时采集的视频，则直接提取连续的M个视频帧。视频帧表现为图像，假设1秒的视频包括24帧图像，即包括24个视频帧。

基于连续的M个视频帧可进行背景建模(Background Modeling)，其中，背景建模是视频中运动目标检测的一种方式，其基本思想是对视频中的视频帧背景进行建模。在背景模型构建完成之后，将当前的视频帧输入至背景模型，可得到相应的背景图像。背景模型包含但不仅限于单高斯模型(single Gaussian model)、混合高斯模型(Gaussian mixturemodel，GMM)、滑动高斯平均(running Gaussian average)模型、核密度估计模型以及基于颜色信息的背景建模方法等。

需要说明的是，视频处理装置可以部署于终端设备，也可以部署于服务器，此处不做限定。

102、通过对象分割模型获取第一视频帧所对应的对象分割结果，其中，第一视频帧为待处理视频中出现于连续的M个视频帧之后的一个视频帧，对象分割结果包括至少一个可消除对象；

本实施例中，视频处理装置在获取完连续的M个视频帧之后，当获取到第一视频帧时，将该第一视频帧输入至训练好的对象分割模型中，通过对象分割模型输出第一视频帧所对应的对象分割结果。对象分割结果包括至少一个可消除对象，例如，两个可消除对象分别为人物甲和人物乙，或者两个可消除对象分别为车辆A和车辆B，又或者两个可消除对象分别为人物甲和车辆A。由此可见，不同的可消除对象既可以属于同一类型的对象，也可以属于不同类型的对象，而且每个可消除对象具有一个对应的像素区域。

103、通过背景模型获取第一视频帧所对应的第一背景图像；

本实施例中，视频处理装置将第一视频帧输入至训练好的背景模型，由背景模型输出相应的第一背景图像。

104、若第一视频帧所对应的对象分割结果满足目标移除条件，则从第一视频帧中移除第一像素区域内的像素点，其中，第一像素区域为目标消除对象在第一视频帧中的像素区域，目标消除对象属于至少一个可消除对象；

本实施例中，视频处理装置判断第一视频帧所对应的对象分割结果是否满足目标移除条件，如果满足目标移除条件，则可以从第一视频帧中移除目标消除对象所对应的第一像素区域。假设第一视频帧的对象分割结果包括三个可消除对象，分别为可消除对象A、可消除对象B和可消除对象C，那么目标消除对象为这三个可消除对象中的至少一个对象，假设目标消除对象为可消除对象A，那么从第一视频帧中移除可消除对象A对应的第一像素区域。又假设目标消除对象为可消除对象A和可消除对象B，那么从第一视频帧中移除可消除对象A和可消除对象B所对应的第一像素区域。

105、将第一背景图像中的像素点集合填充至第一像素区域，以得到第一目标视频帧，其中，像素点集合包括至少一个像素点。

本实施例中，视频处理装置根据第一像素区域以及背景模型输出的第一背景图像，可以从第一背景图像中抠除与该第一像素区域对应的像素点集合，再将像素点集合填充至第一视频帧对应的第一像素区域上，从而生成第一目标视频帧。

为了便于理解，请参阅图4，图4为本申请实施例中视频处理方法的一个整体流程示意图，如图所示，整体流程主要包括四个部分，分别为背景建模、实例分割、确定移除目标以及定向移除，下面将分别进行说明。在背景建模的过程中，提取相邻的M个视频帧用于训练背景模型，其中，连续的M个视频帧可包括第i-1个视频帧。在实例分割的过程中，以第i个视频帧为例，将该视频帧输入至对象分割模型，通过对象分割模型即可输出相应的对象分割结果。在确定移除目标的过程中，可从实第i个视频帧中选择目标干扰对象。在定向移除的过程中，基于目标干扰对象，从第i+1个视频帧移除该目标干扰对象对应的像素区域，并且基于背景模型得到第i+1个视频帧的背景图像，最后将背景图像中的像素点集合填充至目标干扰对象的像素区域，得到定向移除对象之后的目标视频帧。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频处理方法的一个可选实施例中，获取连续的M个视频帧之前，还可以包括如下步骤：

接收帧数设置请求；

根据帧数设置请求确定帧数取值，其中，帧数取值为M；

获取连续的M个视频帧，可以包括：

根据帧数取值，获取连续的M个视频帧。

本实施例中，介绍了一种初始化帧数取值的方式，在背景建模之前还需要进行初始化的工作，其中，一项工作为设置用于背景建模的视频帧数量。通常情况下，可以将最起始的一些连续视频帧作为背景建模的视频帧。然而，考虑到可能在起始的几帧中都存在着干扰对象，因此，也可以选择后续的若干视频帧作为背景建模的视频帧。

具体地，为了便于介绍，请参阅图5，图5为本申请实施例中初始化帧数取值的一个界面示意图，用户可以通过设置界面输入起始帧号以及帧数取值，其中，起始帧号表示从哪个帧号开始提取视频帧，默认情况下，起始帧号为0。帧数取值表示用于背景建模的视频帧数量，例如，帧数取值为50，起始帧号为0，即M为50，且取出的M个视频帧分别为第0个视频帧至第50个视频帧。在设置完成后，触发“确认”按钮，即触发帧数设置请求，因此，在该帧数设置请求至少携带帧数取值，还可以携带起始帧号。

其次，本申请实施例中，提供了一种初始化帧数取值的方式，通过上述方式，可以根据实际需求调整和设置帧数取值，从而提升方案的灵活性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频处理方法的另一个可选实施例中，获取连续的M个视频帧之后，还可以包括如下步骤：

针对连续的M个视频帧，获取每个视频帧所对应的像素点样本集合，其中，像素点样本集合包括至少一个像素点样本；

根据连续的M个视频帧中的每个像素点样本，对K个分布模型中每个分布模型所对应的权重值进行更新，得到K个更新后权重值，其中，K为大于或等于1的整数；

根据K个更新后权重值，从K个分布模型中确定B个分布模型作为背景模型，其中，B为大于或等于1，且小于或等于K的整数。

本实施例中，介绍了一种基于混合高斯背景建模算法获取背景模型的方式，可以理解的是，背景建模算法包含但不仅限于混合高斯背景建模、滑动高斯平均背景建模、中值滤波法以及本征背景法，本申请以混合高斯背景建模算法为例介绍，然而这不应理解为对本申请的限定。

由于背景的颜色一般持续的时间最长，且更加静止。基于这一特征，背景建模利用一定长度的连续视频帧(即连续的M个视频帧)来构建视频背景。混合高斯背景建模是基于像素样本统计信息的背景表示方法，利用像素在较长时间内大量样本值的率密度等统计信息(如模式数量、每个模式的均值和标准差)表示背景，然后使用统计查分进行目标像素判断，可以对复杂动态背景进行建模。在混合高斯背景建模中，认为像素之间的颜色信息互补相关，对各像素点的处理都是相互独立的。对于视频图像中的每一个像素点，其值在系列图像中的变化可看做是不断产生像素值的随机过程，即用高斯分布来描述每个像素点的颜色呈现规律。本申请可直接调用python开源计算机视觉库(open source computer visionlibrary，OpenCV)中的混合高斯背景建模算法，不断输入连续视频帧，然后获取背景建模后得到的背景图片。

具体地，针对连续的M个视频帧，获取每个视频帧所对应的像素点样本集合{x₁,x₂,...,x_V}，像素点样本集合包括至少一个像素点样本，每个像素点样本可表示为x_t＝(r_t,g_t,b_t)，其中，r_t表示第t个视频帧在红色通道的像素点样本，g_t表示第t个视频帧在绿色通道的像素点样本，b_t表示第t个视频帧在蓝色通道的像素点样本。将连续的M个视频帧中的每个像素点样本与当前的K个分布模型进行比较，直到找到匹配新像素值的分布模型，并在匹配的过程中，对K个分布模型的权重值进行更新。最后，从K个分布模型中取出B个分布模型作为背景模型。

其次，本申请实施例中，提供了一种基于混合高斯背景建模算法获取背景模型的方式，通过上述方式，对视频帧中每个背景采用一个GMM进行模拟，每个背景的混合高斯个数可以自适应，且GMM在不断更新学习中，对动态背景具有更好的鲁棒性，从而在实际预测背景图像时，能够取得更好的效果。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频处理方法的另一个可选实施例中，对象分割模型为实例分割模型；

通过对象分割模型获取第一视频帧所对应的对象分割结果，可以包括如下步骤：

通过实例分割模型获取第一视频帧所对应的对象分割结果，其中，对象分割结果对应于至少一种类型的可消除对象；

或者，对象分割模型为语义分割模型；

通过语义分割模型获取第一视频帧所对应的对象分割结果，其中，对象分割结果对应于同一类型的可消除对象。

本实施例中，介绍了一种基于对象分割模型获取对象分割结果的方式，其中，对象分割模型可以为实例分割(instance segmentation)模型，也可以为语义分割(semanticsegmentation)模型。实例分割模型能够对视频帧进行像素级分割，将具有不同语义的不同个体分割出来，比如人物、车辆、桌子以及狗等不同实例，可以用不同的颜色将属于不同实例的像素点标注出来。语义分割模型能够对视频帧中的每个像素打上类别标签，例如，将视频帧中的对象打上车辆标签或者人物标签等。

需要说明的是，本申请采用的实例分割模型包含但不限于区域掩膜卷积神经网络(mask region convolutional neural networks，Mask R-CNN)、YOLACT、YOLACT++以及中心遮罩(Center Mask)。

具体地，为了便于理解，请参阅图6，图6为本申请实施例中基于实例分割模型实现生成对象分割结果的一个流程示意图，如图所示，假设第一视频帧为第i个视频帧，那么将该第i个视频帧输入至实例分割模型，实例分割模型使用了基于深度学习的Mask R-CNN网络来对视频帧中的人物类别进行像素级别的分割，该将第i个视频帧输入到实例分割模型后，输出对象分割结果。其中，对象分割结果包括W3指示的可消除对象和W4指示的可消除对象，基于此，可在第i个视频帧上展示出可消除对象W3所对应的掩膜以及可消除对象W4所对应的掩膜，且可消除对象W3对应于人物甲，可消除对象W4对应于人物乙。

具体地，为了便于理解，请参阅图7，图7为本申请实施例中基于语义分割模型实现生成对象分割结果的一个流程示意图，如图所示，假设第一视频帧为第i个视频帧，那么将该第i个视频帧输入至语义分割模型，语义分割模型对视频帧中的人物类别和车辆类别进行像素级别的分割，该将第i个视频帧输入到语义分割模型后，输出对象分割结果。其中，对象分割结果包括W5指示的车辆类别下的可消除对象，以及W6指示的人物类别下的可消除对象，基于此，可在第i个视频帧上展示出可消除对象W5所对应的掩膜以及可消除对象W6所对应的掩膜，且可消除对象W5对应于车辆类别下的所有对象，可消除对象W6对应于人物类别下的所有对象。

其次，本申请实施例中，提供了一种基于对象分割模型获取对象分割结果的方式，通过上述方式，可以选择不同类型的对象分割模型实现对象分割，如果选择实例分割模型，则能够从视频帧中分割出每个对象的掩膜和类型，由此，可以根据实际需求选择一个或多个需要消除的干扰对象，从而提升选择的灵活性。如果选择语义分割模型，则能够从视频帧中分割出具有相同类型的对象，由此，可以一次性选择需要消除的干扰对象，从而增加操作的便利性。

接收针对于第二视频帧的对象消除请求，其中，第二视频帧出现于连续的M个视频帧之后；

根据对象消除请求确定目标干扰对象，其中，目标干扰对象用于确定第一像素区域。

本实施例中，介绍了一种选择目标干扰对象的方式，在从第一视频帧中移除第一像素区域内的像素点之前，需要先确定待移除的对象，由此，在后续的视频帧中能够移除相应的像素区域。

具体地，以第二视频帧为例进行介绍，该第二视频帧可以为第一视频帧的前一个视频帧，并且为M个视频帧之后的某一个视频帧。通过终端设备的显示界面展示第二视频帧，用户可以在第二视频帧上选择一个或多个干扰对象，由此触发对象消除请求，对象消除请求中携带对象标识，基于对象消除请求可以确定一个或多个干扰对象即为目标干扰对象。

为了便于理解，请参阅图8，图8为本申请实施例中初始化目标干扰对象的一个界面示意图，如图所示，一种方式为，在终端设备的设置界面上展示第二视视频帧，且该第二视频帧上包括至少一个对象，用户直接从中选择出想要移除的目标干扰对象，例如，采用拖选的方式圈定所要移除的对象。另一种方式为，先将第二视频帧输入至对象分割模型，由该对象分割模型输出对象分割结果，于是在终端设备的设置界面上展示具有掩膜的视频帧，用户从中选择出想要移除的目标干扰对象，例如，直接点选第二视视频帧中的掩膜区域。用户完成对象的选择后，点击“确认”按钮即可触发对象消除请求。基于用户选择的目标干扰对象以及该视频帧的对象分割结果，即可确定需要定向移除的像素区域。

再次，本申请实施例中，提供了一种选择目标干扰对象的方式，通过上述方式，用户可以手动选择需要移除的干扰对象，相比于直接进行背景消除，具有更强的灵活性，此外，在一些场景中，视频背景内可能存在有效信息，比如投影上的内容或者黑板上的内容等，一键消除视频背景中所有的内容，可能会导致重要信息的缺失，因此，用户根据实际需求选择干扰对象能够避免出现重要信息遗漏的情况。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频处理方法的另一个可选实施例中，通过对象分割模型获取第一视频帧所对应的对象分割结果之后，还可以包括如下步骤：

根据第一视频帧所对应的对象分割结果，确定每个可消除对象分别与目标干扰对象之间的区域交叠率；

若可消除对象与目标干扰对象之间的区域交叠率大于或等于交叠率阈值，则确定第一视频帧所对应的对象分割结果满足目标移除条件，且确定可消除对象为目标消除对象。

本实施例中，介绍了一种基于区域交叠率确定目标消除对象的方式，由于用户一开始选中需要移除的目标干扰对象之后，该目标干扰对象在后续帧中极有可能发生移动，因此，需要对用户选中的目标干扰对象进行跟踪，确定正在处理的视频帧中需要移除的像素区域。当用户设定目标干扰对象之后，即可获得该目标干扰对象的像素区域。在后续帧的处理中，将依次根据上一个视频帧中移除对象的像素区域来确定当前视频帧中需要移除的像素区域。为了便于说明，本申请将以相邻两个视频帧(即第一视频帧和第二视频帧)为例进行介绍，在实际应用中，其他相邻的视频帧也采用类似方式进行处理，此处不做穷举。

具体地，为了便于理解，请参阅图9，图9为本申请实施例中基于区域交叠率进行对象移除的一个示意图，如图所示，假设当前帧为第一视频帧，上一帧为第二视频帧，用户首先从第二视频帧上选择出目标干扰对象，对第二视频帧经过实例分割之后可获取该目标干扰对象所对应的像素区域。类似地，对第一视频帧进行实例分割，得到第一视频帧的实例分割结果，于是计算第一视频帧中各个实例的像素区域与第二视频帧中目标干扰对象的像素区域，例如，计算可消除对象A与目标干扰对象的像素区域之间的区域交叠率，即得到K1所指示的区域交叠率(intersection over union，IOU)。类似地，计算可消除对象B与目标干扰对象的像素区域之间的IOU，由图可知，此时的IOU为0。

基于计算得到的IOU，如果该IOU大于或等于交叠率阈值(threshould)，则确定第一视频帧所对应的对象分割结果满足目标移除条件，且确定可消除对象为目标消除对象。假设第一视频帧为第i帧，那么第i帧中第j个实例目标与第二视频帧(即第i-1帧)中目标干扰对象的IOU计算方式如下：

IOU_ij＝u_ij/(R_i-1+C_ij)；

其中，IOU_ij表示第i帧中第j个实例目标与第i-1帧中目标干扰对象的区域交叠率，u_ij表示第i-1帧中目标干扰对象与第i帧中第j个实例目标相交的像素点数量，R_i-1表示第i-1帧中目标干扰对象所占用像素点数量，C_ij表示第i帧中第j个实例目标所占用像素点数量。假设可消除对象A与目标干扰对象之间的IOU大于或等于IOU阈值，则确定可消除对象A为目标消除对象。可以理解的是，IOU阈值可以为0.8，也可以为其他数值，此处不做限定。

进一步地，本申请实施例中，提供了一种基于区域交叠率确定目标消除对象的方式，通过上述方式，将具有较高区域交叠率的可消除对象确定为目标消除对象，从而提升目标消除对象选取的准确性和可靠性。

根据第一视频帧所对应的对象分割结果，确定每个可消除对象的轮廓像素；

针对每个可消除对象的轮廓像素，获取每个可消除对象所对应的P个第一轮廓像素位置，其中，P为大于或等于1的整数；

获取目标干扰对象的轮廓像素；

根据目标干扰对象的轮廓像素获取P个第二轮廓像素位置，其中，第二轮廓像素位置与第一轮廓像素位置之间具有一一对应的关系；

根据P个第一轮廓像素位置以及P个第二轮廓像素位置，确定P个像素距离；

若P个像素距离之和小于或等于距离阈值，则确定第一视频帧所对应的对象分割结果满足目标移除条件，且确定可消除对象为目标消除对象。

本实施例中，介绍了一种基于P个像素距离确定目标消除对象的方式，基于上述实施例可知，由于用户一开始选中需要移除的目标干扰对象之后，该目标干扰对象在后续帧中极有可能发生移动，因此，需要对用户选中的目标干扰对象进行跟踪。为了便于说明，本申请将以继续以相邻两个视频帧(即第一视频帧和第二视频帧)为例进行介绍。

具体地，为了便于理解，请参阅图10，图10为本申请实施例中基于轮廓像素进行对象移除的一个示意图，如图所示，假设当前帧为第一视频帧，上一帧为第二视频帧，用户首先从第二视频帧上选择出目标干扰对象，对第二视频帧经过实例分割之后可获取该目标干扰对象所对应的像素区域，并得到目标干扰对象的轮廓像素(即处于轮廓上的像素)。类似地，对第一视频帧进行实例分割，得到第一视频帧的实例分割结果，并得到各个实例的轮廓像素(即处于轮廓上的像素)。于是从每个可消除对象所对应的P个第一轮廓像素位置，并从目标干扰对象的轮廓像素中选择P个第二轮廓像素位置。以图10为例，假设P为2，可消除对象A的第一轮廓像素位置包括K3和K5所指示的位置，可消除对象B的第一轮廓像素位置包括K6和K7所指示的位置，目标干扰对象的第二轮廓像素位置包括K2和K4所指示的位置。

基于第一轮廓像素位置和第二轮廓像素位置，可以计算P个像素距离，如果P个像素距离之和小于或等于距离阈值(threshould)，则确定第一视频帧所对应的对象分割结果满足目标移除条件，且确定可消除对象为目标消除对象。P个像素距离之和的计算方式如下所示：

其中，D_j表示第一视频帧中第j个实例目标的P个像素距离之和，P表示轮廓像素位置的总数，J表示第一视频帧中实例目标的总数，d_ij表示第j个实例目标中第i个轮廓像素位置，d_i′表示目标干扰对象中第i个轮廓像素位置。

以图10为例，计算K2与K3之间的距离，得到距离1，计算K4和K5之间的距离，得到距离2，将距离1和距离2相加，得到像素距离之和。类似地，计算K2与K6之间的距离，得到距离3，计算K4和K7之间的距离，得到距离4，将距离3和距离4相加，得到像素距离之和。假设可消除对象A与目标干扰对象的像素距离之和小于或等于距离阈值，则确定可消除对象A为目标消除对象。可以理解的是，距离阈值可以为20，也可以为其他数值，此处不做限定。

进一步地，本申请实施例中，提供了一种基于P个像素距离确定目标消除对象的方式，通过上述方式，能够在计算量较小的情况下，采用少量像素点确定目标消除对象，从而提升目标消除对象选取的效率。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频处理方法的另一个可选实施例中，通过背景模型获取第一视频帧所对应的第一背景图像之后，还可以包括如下步骤：

基于第一视频帧，通过背景模型获取第一背景图像；

根据第一像素区域，从第一背景图像中获取第二像素区域，其中，第二像素区域与第一像素区域所包括的像素个数相同；

根据第二像素区域获取第一背景图像中的像素点集合。

本实施例中，介绍了一种生成目标视频帧的方式，将第一视频帧输入至背景模型，由背景模型输出第一背景图像，再从第一背景图像中取出与第一像素区域的像素个数相等，且位置相同的一块区域，即得到第二像素区域，最后取出第二像素区域内的像素点集合，并将该像素点集合填充至第一像素区域。

具体地，为了便于理解，请参阅图11，图11为本申请实施例中生成目标视频帧的一个流程示意图，如图所示，假设当前视频帧为第一视频帧，上一个视频帧为第二视频帧，用户在第二视频帧上选择需要定向移除的目标干扰对象。将第一视频帧输入至对象分割模型，由此输出对象分割结果，基于用户选择的目标干扰对象，确定定向移除的像素区域，即确定第一像素区域。将第一视频帧输入至背景模型，由此输出背景图像，即得到第一背景图像。于是将第一背景图像中的像素点集合替换至第一像素区域，达到移除目标消除对象的目的，最后得到移除目标消除对象的目标视频帧。

其次，本申请实施例中，提供了一种生成目标视频帧的方式，通过上述方式，基于定向移除像素区域的手段，能够在无感知的情况下实现对干扰对象的移除处理，达到更好的视频处理效果。

若对象分割结果未满足目标移除条件，则从待处理视频中获取第三视频帧；

通过对象分割模型获取第三视频帧所对应的对象分割结果；

通过背景模型获取第三视频帧所对应的第二背景图像；

若第三视频帧所对应的对象分割结果满足目标移除条件，则从第三视频帧中移除第三像素区域内的像素点，其中，第三像素区域为目标消除对象在第三视频帧中的像素区域；

将第二背景图像中的像素点集合填充至第三像素区域，以得到第二目标视频帧。

本实施例中，介绍了一种后续视频帧进行干扰对象消除的方式，在完成对第一视频帧的对象分割之后，需要判断对象分割结果是否满足目标移除条件，如果目标干扰对象并未出现在第一视频帧内，则表示第一视频帧不满足目标移除条件，于是继续获取下一个视频帧，即第三视频帧。如果第一视频帧满足目标移除条件，则完成对第一视频帧的消除处理后，继续对第三视频帧进行类似处理，即需要依据前一视频帧(第一视频帧)中目标消除对象的像素区域确定是否满足目标移除条件。如果满足目标移除条件，则从第三视频帧中移除第三像素区域内的像素点，这里的第三像素区域是指目标消除对象在第三视频帧中的像素区域。并且将第二背景图像中的像素点集合填充至第三像素区域，以得到第二目标视频帧，第二目标视频帧是第一目标视频帧相邻的下一个视频帧。

为了便于介绍，请参阅图12，图12为本申请实施例中视频处理算法的一个流程示意图，如图所示，首先开始进行视频处理流程，具体地：

在步骤S1中，进行初始化设置，包括设置需要定向移除的目标干扰对象，以及设置用于背景建模的帧数等，初始化设置之后进入步骤S2。

在步骤S2中，获取视频帧，并对该视频帧进行进一步处理，如果是输入的视频帧，则需要将该视频解析为视频帧。如果是直接以摄像头数据作为输入，则需要获取到摄像头视频帧。

在步骤S3中，获取到视频帧后将判断该视频帧是否为用于背景建模的视频帧，如果是，则跳转至步骤S4，否则将跳转至步骤S5。

在步骤S4中，进行背景建模，即根据前面输入的视频帧对视频的背景进行建模，将基于当前视频帧获取视频背景，如果当前视频帧属于背景建模帧，则该当前视频帧在背景建模完成后结束。

在步骤S5中，进行实例分割，即使用对象分割模型(例如，Mask R-CNN网络)来对视频中的人物类别进行像素级别的分割。将当前视频帧输入到对象分割模型后，经过一系列计算可输出实例分割的结果。

在步骤S6中，确定需要移除的目标，由于用户在一开始选中目标干扰对象后，目标干扰对象在后续帧中可能发生移动，因此需要确定当前视频帧的移除目标位置，也就是计算上一视频帧中移除的像素区域与当前视频帧中检测分割得到的前景实例个体像素点区域的IOU，当IOU大于或等于一个设定的IOU阈值时，则认为其为需要移除的目标。

在步骤S7中，进行定向消除处理，即根据实例分割模块得到的实例分割结果获取选中需要定向移除的像素区域，然后根据背景建模模块得到的背景图像，利用图像处理算法将需要定向移除的像素区域替换为背景图像中对应的像素点集合。这一步骤完成后即完成了当前视频帧的操作，跳转至结束。

其次，本申请实施例中，提供了一种后续视频帧进行干扰对象消除的方式，通过上述方式，在选择完目标干扰对象之后，即可自动对后续的视频帧进行干扰对象消除的操作，从而提升操作的便利性和可行性。

结合上述介绍，下面将从终端设备的角度对本申请中视频展示的方法进行介绍，请参阅图13，本申请实施例中视频展示的方法一个实施例包括：

201终端设备获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

本实施例中，在视频会议中，终端设备通过拍摄装置(例如内置摄像头或者外置摄像头等)拍摄连续的M个视频帧，或者从终端设备内已存储的视频会议中提取连续的M个视频帧。再基于连续的M个视频帧可进行背景建模，背景建模的方式如上述实施例所描述的内容，此处不做赘述。

202、终端设备接收针对于第一视频帧的对象消除请求，其中，第一视频帧出现于连续的M个视频帧之后；

本实施例中，用户可以直接从第一视频帧上选择需要消除的目标干扰对象，由此触发对象消除请求。也可以基于第一视频帧所对应的对象分割结果，再从中选择需要消除的目标干扰对象。假设第一视频帧中存在人物甲和人物乙，可在终端设备的显示界面上突出展示人物甲和人物乙，如果用户选中人物乙，即触发针对于第一视频帧的对象消除请求。

203、终端设备根据对象消除请求确定目标干扰对象；

本实施例中，终端设备基于对象消除请求确定目标干扰对象，例如，如果用户选中人物乙，即根据对象消除请求确定目标干扰对象为人物乙。例如，如果用户选中人物甲和人物乙，即根据对象消除请求确定目标干扰对象包括人物甲和人物乙。

204、终端设备通过对象分割模型获取第二视频帧所对应的对象分割结果，其中，对象分割结果包括至少一个可消除对象；

本实施例中，终端设备在确定目标干扰对象之后，将继续获取下一个视频帧，即获取第二视频帧，类似地，将第二视频帧输入至训练好的对象分割模型中，通过对象分割模型输出第二视频帧所对应的对象分割结果，且第二视频帧的对象分割结果也包括至少一个可消除对象，例如，包括人物甲和人物乙。

205、终端设备通过背景模型获取第二视频帧所对应的目标背景图像；

本实施例中，终端设备将第二视频帧输入至训练好的背景模型，由背景模型输出相应的目标背景图像。

206、若根据目标干扰对象以及第二视频帧所对应的对象分割结果确定满足目标移除条件，则终端设备从第二视频帧中移除目标像素区域内的像素点；

本实施例中，终端设备基于目标干扰对象，对第二视频帧所对应的对象分割结果进行检测，检测的方式可以为计算对象之间的区域交叠率或者计算对象之间的P个像素距离之和，具体方式可参阅上述实施例，此处不做赘述。如果确定第二视频帧所对应的对象分割结果满足目标移除条件，则可以从第二视频帧中移除目标消除对象所对应的目标像素区域。假设第二视频帧的对象分割结果包括两个可消除对象，分别为人物甲和人物乙，那么目标消除对象为这两个可消除对象中的至少一个对象，假设目标消除对象为人物乙，那么从第二视频帧中移除人物乙对应的目标像素区域。又假设目标消除对象为人物甲和人物乙，那么从第二视频帧中移除人物甲和人物乙所对应的目标像素区域。

207、终端设备将目标背景图像中的像素点集合填充至目标像素区域，以得到目标视频帧，其中，像素点集合包括至少一个像素点；

本实施例中，终端设备基于目标像素区域，从目标背景图像中抠除与该目标像素区域对应的像素点集合，再将像素点集合填充至第二视频帧对应的目标像素区域上，从而生成目标视频帧。

208、终端设备通过显示界面展示目标视频帧。

本实施例中，终端设备在得到目标视频帧后，可直接通过显示界面展示该目标视频帧。为了便于理解，请参阅图14，图14为本申请实施例中基于视频会议场景的一个应用效果示意图，随着远程办公的普及，视频会议已经是提高远程协作效率的重要工具。同时随着企业的数字化转型，远程办公以及远程会议已经成为了一种趋势。但在家办公时，由于办公条件的限制，上班族难免会因家人出现在视频会议中而分心或者出现尴尬的情形。例如，图14中(A)图所示的视频帧中存在误入镜的同事甲，采用本申请提供的方法可以从视频帧中去除同事甲的目标像素区域，再将目标背景图像中的像素点集合填充至目标像素区域，从而得到如图14中(B)图所示的目标视频帧，由此可见，定向移除背景中的干扰人物，让参会者高效专注于会议内容，避免视频会议过程中出现干扰目标而尴尬，提升视频会议的质量。

本申请实施例中，提供了一种基于视频会议的视频处理方法，通过上述方式，利用语义分割技术消除视频画面中的干扰对象，并将背景模型输出的背景图像填充至已抠除干扰对象的视频画面中，不但能够达到无感知消除干扰对象的目的，还可以保留视频背景画面中存在的信息，提升视频的完整度。

结合上述介绍，下面将对本申请中视频处理的方法进行介绍，请参阅图15，本申请实施例中视频处理的方法一个实施例包括：

301、终端设备获取待处理媒体视频，其中，待处理媒体视频包括N个视频帧，N为大于1的整数；

本实施例中，终端设备获取待处理媒体视频，待处理媒体视频具体可以是录制好的视频，比如新闻视频、影视作品以及短视频等。

302、终端设备从待处理媒体视频中获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1，且小于N的整数；

本实施例中，终端设备从待处理媒体视频中获取连续的M个视频帧，其中，M个视频帧可以是待处理媒体视频中最靠前的M个视频帧。基于连续的M个视频帧可进行背景建模，背景建模的方式如上述实施例所描述的内容，此处不做赘述。

303、终端设备接收针对于第一视频帧的对象消除请求，其中，第一视频帧属于待处理媒体视频，第一视频帧出现于连续的M个视频帧之后；

本实施例中，用户可以直接从第一视频帧上选择需要消除的目标干扰对象，由此触发对象消除请求。也可以基于第一视频帧所对应的对象分割结果，再从中选择需要消除的目标干扰对象。假设第一视频帧中存在人物甲和人物乙，可在终端设备的显示界面上突出展示人物甲和人物乙，如果用户选中人物甲，即触发针对于第一视频帧的对象消除请求。

304、终端设备根据对象消除请求确定目标干扰对象；

本实施例中，终端设备基于对象消除请求确定目标干扰对象，例如，如果用户选中人物甲，即根据对象消除请求确定目标干扰对象为人物甲。例如，如果用户选中人物甲和人物乙，即根据对象消除请求确定目标干扰对象包括人物甲和人物乙。

305、终端设备通过对象分割模型获取第二视频帧所对应的对象分割结果，其中，对象分割结果包括至少一个可消除对象；

306、终端设备通过背景模型获取第二视频帧所对应的目标背景图像；

307、若根据目标干扰对象以及第二视频帧所对应的对象分割结果确定满足目标移除条件，则终端设备从第二视频帧中移除目标像素区域内的像素点；

本实施例中，终端设备基于目标干扰对象，对第二视频帧所对应的对象分割结果进行检测，检测的方式可以为计算对象之间的区域交叠率或者计算对象之间的P个像素距离之和，具体方式可参阅上述实施例，此处不做赘述。如果确定第二视频帧所对应的对象分割结果满足目标移除条件，则可以从第二视频帧中移除目标消除对象所对应的目标像素区域。假设第二视频帧的对象分割结果包括两个可消除对象，分别为人物甲和人物乙，那么目标消除对象为这两个可消除对象中的至少一个对象，假设目标消除对象为人物甲，那么从第二视频帧中移除人物甲对应的目标像素区域。又假设目标消除对象为人物甲和人物乙，那么从第二视频帧中移除人物甲和人物乙所对应的目标像素区域。

308、终端设备将目标背景图像中的像素点集合填充至目标像素区域，以得到目标视频帧，其中，像素点集合包括至少一个像素点；

309、终端设备根据目标视频帧生成合成媒体视频，其中，合成媒体视频包括至少一个合成后的视频帧。

本实施例中，终端设备在得到目标视频帧后，对第二视频帧之后的视频帧也采用类似的方式进行处理，以得到合成后的视频帧，这些合成后的视频帧中不包括目标干扰对象，得到，最终生成合成媒体视频，合成媒体视频即经过处理的视频。

为了便于理解，请参阅图16，图16为本申请实施例中基于新闻录制场景的一个应用效果示意图，如图所示，以待处理视频为新闻录制视频为例，由于在新闻录制过程中，很有可能出现一些误入镜的路人，这些误入镜者可能进行一些行为来吸引观众的目光，使得正经的新闻播报被不相关人员吸引走目光，影响新闻质量，例如，图16中(A)图所示的视频帧中存在一位误入镜的路人，采用本申请提供的方法可以从视频帧中去除该路人的目标像素区域，再将目标背景图像中的像素点集合填充至目标像素区域，从而得到如图16中(B)图所示的目标视频帧，其中，白色虚线即为经过填充后的目标像素区域。由此可见，通过移除新闻录制视频中的误入境者，可以保证新闻质量。

本申请实施例中，提供了一种基于录制视频的视频处理方法，通过上述方式，利用语义分割技术消除视频画面中的干扰对象，并将背景模型输出的背景图像填充至已抠除干扰对象的视频画面中，不但能够达到无感知消除干扰对象的目的，还可以保留视频背景画面中存在的信息，提升视频的完整度。

结合上述介绍，下面将从终端设备的角度对本申请中视频展示的方法进行介绍，请参阅图17，本申请实施例中视频展示的方法一个实施例包括：

401、终端设备通过拍摄装置获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

本实施例中，在直播场景中，终端设备通过拍摄装置(例如内置摄像头或者外置摄像头等)拍摄连续的M个视频帧，再基于连续的M个视频帧可进行背景建模，背景建模的方式如上述实施例所描述的内容，此处不做赘述。

402、终端设备接收针对于第一视频帧的对象消除请求，其中，第一视频帧出现于连续的M个视频帧之后；

本实施例中，本实施例中，用户可以直接从第一视频帧上选择需要消除的目标干扰对象，由此触发对象消除请求。也可以基于第一视频帧所对应的对象分割结果，再从中选择需要消除的目标干扰对象。假设第一视频帧中存在车辆A和人物甲，可在终端设备的显示界面上突出展示车辆A和人物甲，如果用户选中车辆A，即触发针对于第一视频帧的对象消除请求。

403、终端设备根据对象消除请求确定目标干扰对象；

本实施例中，终端设备基于对象消除请求确定目标干扰对象，例如，如果用户选中车辆A，即根据对象消除请求确定目标干扰对象为车辆A。例如，如果用户选中车辆A和人物甲，即根据对象消除请求确定目标干扰对象包括车辆A和人物甲。

404、终端设备通过对象分割模型获取第二视频帧所对应的对象分割结果，其中，对象分割结果包括至少一个可消除对象；

本实施例中，终端设备在确定目标干扰对象之后，将继续获取下一个视频帧，即获取第二视频帧，类似地，将第二视频帧输入至训练好的对象分割模型中，通过对象分割模型输出第二视频帧所对应的对象分割结果，且第二视频帧的对象分割结果也包括至少一个可消除对象，例如，包括车辆A和人物甲。

405、终端设备通过背景模型获取第二视频帧所对应的目标背景图像；

406、若根据目标干扰对象以及第二视频帧所对应的对象分割结果确定满足目标移除条件，则终端设备从第二视频帧中移除目标像素区域内的像素点；

本实施例中，终端设备基于目标干扰对象，对第二视频帧所对应的对象分割结果进行检测，检测的方式可以为计算对象之间的区域交叠率或者计算对象之间的P个像素距离之和，具体方式可参阅上述实施例，此处不做赘述。如果确定第二视频帧所对应的对象分割结果满足目标移除条件，则可以从第二视频帧中移除目标消除对象所对应的目标像素区域。假设第二视频帧的对象分割结果包括两个可消除对象，分别为车辆A和人物甲，那么目标消除对象为这两个可消除对象中的至少一个对象，假设目标消除对象为车辆A，那么从第二视频帧中移除车辆A对应的目标像素区域。又假设目标消除对象为车辆A和人物甲，那么从第二视频帧中移除车辆A和人物甲所对应的目标像素区域。

407、终端设备将目标背景图像中的像素点集合填充至目标像素区域，以得到目标视频帧，其中，像素点集合包括至少一个像素点；

408、终端设备通过显示界面展示目标视频帧。

本实施例中，终端设备在得到目标视频帧后，可直接通过显示界面展示该目标视频帧。为了便于理解，请参阅图18，图18为本申请实施例中基于远程直播场景的一个应用效果示意图，由于在直播的过程中，很有可能出现一些误入镜的物体，比如车辆或者人物等，这些误入镜者可能会影响直播的质量，例如，图18中(A)图所示的视频帧中存在误入镜的车辆，采用本申请提供的方法可以从视频帧中去除该车辆的目标像素区域，再将目标背景图像中的像素点集合填充至目标像素区域，从而得到如图18中(B)图所示的目标视频帧，由此可见，通过移除直播视频中的误入境者，可以提升直播视频的质量。

此外，在家进行网课直播的老师也可能遇到家人入镜的情况。相对于面对面教学，直播网课学生学习效率较低，极有可能在受到干扰的情况下分散注意力，导致网络教学学习效果差，只是掌握度低。因此，采用本申请提供的方法还可以应用于远程直播中的背景干扰移除，提高网课直播教师授课质量。

本申请实施例中，提供了一种基于直播视频的视频处理方法，通过上述方式，利用语义分割技术消除视频画面中的干扰对象，并将背景模型输出的背景图像填充至已抠除干扰对象的视频画面中，不但能够达到无感知消除干扰对象的目的，还可以保留视频背景画面中存在的信息，提升视频的完整度。

下面对本申请中的视频处理装置进行详细描述，请参阅图19，图19为本申请实施例中视频处理装置一个实施例示意图，视频处理装置50包括：

获取模块501，用于获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

获取模块501，还用于通过对象分割模型获取第一视频帧所对应的对象分割结果，其中，第一视频帧为待处理视频中出现于连续的M个视频帧之后的一个视频帧，对象分割结果包括至少一个可消除对象；

获取模块501，还用于通过背景模型获取第一视频帧所对应的第一背景图像；

移除模块502，用于若第一视频帧所对应的对象分割结果满足目标移除条件，则从第一视频帧中移除第一像素区域内的像素点，其中，第一像素区域为目标消除对象在第一视频帧中的像素区域，目标消除对象属于至少一个可消除对象；

处理模块503，用于将第一背景图像中的像素点集合填充至第一像素区域，以得到第一目标视频帧，其中，像素点集合包括至少一个像素点。

可选地，在上述图19所对应的实施例的基础上，本申请实施例提供的视频处理装置50的另一实施例中，视频处理装置50还包括接收模块504以及确定模块505；

接收模块504，用于在获取模块501获取连续的M个视频帧之前，接收帧数设置请求；

确定模块505，用于根据帧数设置请求确定帧数取值，其中，帧数取值为M；

获取模块501，具体用于根据帧数取值，获取连续的M个视频帧。

可选地，在上述图19所对应的实施例的基础上，本申请实施例提供的视频处理装置50的另一实施例中，视频处理装置50还包括更新模块506；

获取模块501，还用于获取连续的M个视频帧之后，针对连续的M个视频帧，获取每个视频帧所对应的像素点样本集合，其中，像素点样本集合包括至少一个像素点样本；

更新模块506，用于根据连续的M个视频帧中的每个像素点样本，对K个分布模型中每个分布模型所对应的权重值进行更新，得到K个更新后权重值，其中，K为大于或等于1的整数；

确定模块505，还用于根据K个更新后权重值，从K个分布模型中确定B个分布模型作为背景模型，其中，B为大于或等于1，且小于或等于K的整数。

可选地，在上述图19所对应的实施例的基础上，本申请实施例提供的视频处理装置50的另一实施例中，对象分割模型为实例分割模型；

获取模块501，具体用于通过实例分割模型获取第一视频帧所对应的对象分割结果，其中，对象分割结果对应于至少一种类型的可消除对象；

或者，对象分割模型为语义分割模型；

获取模块501，具体用于通过语义分割模型获取第一视频帧所对应的对象分割结果，其中，对象分割结果对应于同一类型的可消除对象。

可选地，在上述图19所对应的实施例的基础上，本申请实施例提供的视频处理装置50的另一实施例中，

接收模块504，还用于在获取模块501获取连续的M个视频帧之后，接收针对于第二视频帧的对象消除请求，其中，第二视频帧出现于连续的M个视频帧之后；

确定模块505，还用于根据对象消除请求确定目标干扰对象，其中，目标干扰对象用于确定第一像素区域。

确定模块505，还用于在获取模块501通过对象分割模型获取第一视频帧所对应的对象分割结果之后，根据第一视频帧所对应的对象分割结果，确定每个可消除对象分别与目标干扰对象之间的区域交叠率；

确定模块505，还用于若可消除对象与目标干扰对象之间的区域交叠率大于或等于交叠率阈值，则确定第一视频帧所对应的对象分割结果满足目标移除条件，且确定可消除对象为目标消除对象。

确定模块505，还用于在获取模块501通过对象分割模型获取第一视频帧所对应的对象分割结果之后，根据第一视频帧所对应的对象分割结果，确定每个可消除对象的轮廓像素；

获取模块501，还用于针对每个可消除对象的轮廓像素，获取每个可消除对象所对应的P个第一轮廓像素位置，其中，P为大于或等于1的整数；

获取模块501，还用于获取目标干扰对象的轮廓像素；

获取模块501，还用于根据目标干扰对象的轮廓像素获取P个第二轮廓像素位置，其中，第二轮廓像素位置与第一轮廓像素位置之间具有一一对应的关系；

确定模块505，还用于根据P个第一轮廓像素位置以及P个第二轮廓像素位置，确定P个像素距离；

确定模块505，还用于若P个像素距离之和小于或等于距离阈值，则确定第一视频帧所对应的对象分割结果满足目标移除条件，且确定可消除对象为目标消除对象。

获取模块501，还用于在通过背景模型获取所述第一视频帧所对应的第一背景图像之后，基于第一视频帧，根据第一像素区域，从第一背景图像中获取第二像素区域，其中，第二像素区域与第一像素区域所包括的像素个数相同；

获取模块501，还用于根据第二像素区域获取第一背景图像中的像素点集合。

获取模块501，还用于通过对象分割模型获取第一视频帧所对应的对象分割结果之后，若对象分割结果未满足目标移除条件，则从待处理视频中获取第三视频帧；

获取模块501，还用于通过对象分割模型获取第三视频帧所对应的对象分割结果；

获取模块501，还用于通过背景模型获取第三视频帧所对应的第二背景图像；

移除模块502，还用于若第三视频帧所对应的对象分割结果满足目标移除条件，则从第三视频帧中移除第三像素区域内的像素点，其中，第三像素区域为目标消除对象在第三视频帧中的像素区域；

处理模块503，还用于将第二背景图像中的像素点集合填充至第三像素区域，以得到第二目标视频帧。

下面对本申请中的视频展示装置进行详细描述，请参阅图20，图20为本申请实施例中视频展示装置一个实施例示意图，视频展示装置60包括：

获取模块601，用于获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

接收模块602，用于接收针对于第一视频帧的对象消除请求，其中，第一视频帧出现于连续的M个视频帧之后；

确定模块603，用于根据对象消除请求确定目标干扰对象；

获取模块601，还用于通过对象分割模型获取第二视频帧所对应的对象分割结果，其中，对象分割结果包括至少一个可消除对象；

获取模块601，还用于通过背景模型获取第二视频帧所对应的目标背景图像；

移除模块604，用于若根据目标干扰对象以及第二视频帧所对应的对象分割结果确定满足目标移除条件，则从第二视频帧中移除目标像素区域内的像素点；

处理模块605，用于将目标背景图像中的像素点集合填充至目标像素区域，以得到目标视频帧，其中，像素点集合包括至少一个像素点；

展示模块606，用于通过显示界面展示目标视频帧。

下面对本申请中的视频处理装置进行详细描述，请参阅图21，图21为本申请实施例中视频处理装置的另一个实施例示意图，视频处理装置70包括：

获取模块701，用于获取待处理媒体视频，其中，待处理媒体视频包括N个视频帧，N为大于1的整数；

获取模块701，还用于从待处理媒体视频中获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1，且小于N的整数；

接收模块702，用于接收针对于第一视频帧的对象消除请求，其中，第一视频帧属于待处理媒体视频，第一视频帧出现于连续的M个视频帧之后；

确定模块703，用于根据对象消除请求确定目标干扰对象；

获取模块701，还用于通过对象分割模型获取第二视频帧所对应的对象分割结果，其中，对象分割结果包括至少一个可消除对象；

获取模块701，还用于通过背景模型获取第二视频帧所对应的目标背景图像；

移除模块704，用于若根据目标干扰对象以及第二视频帧所对应的对象分割结果确定满足目标移除条件，则从第二视频帧中移除目标像素区域内的像素点；

处理模块705，用于将目标背景图像中的像素点集合填充至目标像素区域，以得到目标视频帧，其中，像素点集合包括至少一个像素点；

生成模块706，用于根据目标视频帧生成合成媒体视频，其中，合成媒体视频包括至少一个合成后的视频帧。

下面对本申请中的视频展示装置进行详细描述，请参阅图22，图22为本申请实施例中视频展示装置的另一个实施例示意图，视频展示装置80包括：

获取模块801，用于通过拍摄装置获取连续的M个视频帧，其中，连续的M个视频帧用于构建背景模型，M为大于1的整数；

接收模块802，用于接收针对于第一视频帧的对象消除请求，其中，第一视频帧出现于连续的M个视频帧之后；

确定模块803，用于根据对象消除请求确定目标干扰对象；

获取模块801，还用于通过对象分割模型获取第二视频帧所对应的对象分割结果，其中，对象分割结果包括至少一个可消除对象；

获取模块801，还用于通过背景模型获取第二视频帧所对应的目标背景图像；

移除模块804，用于若根据目标干扰对象以及第二视频帧所对应的对象分割结果确定满足目标移除条件，则从第二视频帧中移除目标像素区域内的像素点；

处理模块805，用于将目标背景图像中的像素点集合填充至目标像素区域，以得到目标视频帧，其中，像素点集合包括至少一个像素点；

展示模块806，用于通过显示界面展示目标视频帧。

本申请中的计算机设备可以是服务器，请参阅图23，图23是本申请实施例提供的一种服务器结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器900上执行存储介质930中的一系列指令操作。

服务器900还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，和/或，一个或一个以上操作系统941，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图23所示的服务器结构。

本申请中的计算机设备可以是终端设备，如图24所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图24示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图24，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图24中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图24对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图24中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图24示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；可选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，可选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图24所示的终端设备结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频处理的方法，其特征在于，包括：

获取连续的M个视频帧，其中，所述连续的M个视频帧用于构建背景模型，所述M为大于1的整数；

通过对象分割模型获取第一视频帧所对应的对象分割结果，其中，所述第一视频帧为待处理视频中出现于所述连续的M个视频帧之后的一个视频帧，所述对象分割结果包括至少一个可消除对象；

通过所述背景模型获取所述第一视频帧所对应的第一背景图像；

若所述第一视频帧所对应的对象分割结果满足目标移除条件，则从所述第一视频帧中移除第一像素区域内的像素点，其中，所述第一像素区域为目标消除对象在所述第一视频帧中的像素区域，所述目标消除对象属于所述至少一个可消除对象；

将所述第一背景图像中的像素点集合填充至所述第一像素区域，以得到第一目标视频帧，其中，所述像素点集合包括至少一个像素点。

2.根据权利要求1所述的视频处理方法，其特征在于，所述获取连续的M个视频帧之前，所述方法还包括：

接收帧数设置请求；

根据所述帧数设置请求确定帧数取值，其中，所述帧数取值为所述M；

所述获取连续的M个视频帧，包括：

根据所述帧数取值，从所述待处理视频中获取所述连续的M个视频帧。

3.根据权利要求1所述的视频处理方法，其特征在于，所述获取连续的M个视频帧之后，所述方法还包括：

针对所述连续的M个视频帧，获取每个视频帧所对应的像素点样本集合，其中，所述像素点样本集合包括至少一个像素点样本；

根据所述连续的M个视频帧中的每个像素点样本，对K个分布模型中每个分布模型所对应的权重值进行更新，得到K个更新后权重值，其中，所述K为大于或等于1的整数；

根据所述K个更新后权重值，从所述K个分布模型中确定B个分布模型作为所述背景模型，其中，所述B为大于或等于1，且小于或等于所述K的整数。

4.根据权利要求1所述的视频处理方法，其特征在于，所述对象分割模型为实例分割模型；

所述通过对象分割模型获取第一视频帧所对应的对象分割结果，包括：

通过所述实例分割模型获取所述第一视频帧所对应的所述对象分割结果，其中，所述对象分割结果对应于至少一种类型的可消除对象；

或者，所述对象分割模型为语义分割模型；

通过所述语义分割模型获取所述第一视频帧所对应的所述对象分割结果，其中，所述对象分割结果对应于同一类型的可消除对象。

5.根据权利要求1至4中任一项所述的视频处理方法，其特征在于，所述获取连续的M个视频帧之后，所述方法还包括：

接收针对于第二视频帧的对象消除请求，其中，所述第二视频帧出现于所述连续的M个视频帧之后；

根据所述对象消除请求确定目标干扰对象，其中，所述目标干扰对象用于确定所述第一像素区域。

6.根据权利要求5所述的视频处理方法，其特征在于，所述通过对象分割模型获取第一视频帧所对应的对象分割结果之后，所述方法还包括：

根据所述第一视频帧所对应的对象分割结果，确定所述每个可消除对象分别与所述目标干扰对象之间的区域交叠率；

若可消除对象与所述目标干扰对象之间的区域交叠率大于或等于交叠率阈值，则确定所述第一视频帧所对应的对象分割结果满足所述目标移除条件，且确定所述可消除对象为所述目标消除对象。

7.根据权利要求5所述的视频处理方法，其特征在于，所述通过对象分割模型获取第一视频帧所对应的对象分割结果之后，所述方法还包括：

根据所述第一视频帧所对应的对象分割结果，确定所述每个可消除对象的轮廓像素；

针对所述每个可消除对象的轮廓像素，获取所述每个可消除对象所对应的P个第一轮廓像素位置，其中，所述P为大于或等于1的整数；

获取所述目标干扰对象的轮廓像素；

根据所述目标干扰对象的轮廓像素获取P个第二轮廓像素位置，其中，所述第二轮廓像素位置与所述第一轮廓像素位置之间具有一一对应的关系；

根据所述P个第一轮廓像素位置以及所述P个第二轮廓像素位置，确定P个像素距离；

若所述P个像素距离之和小于或等于距离阈值，则确定所述第一视频帧所对应的对象分割结果满足所述目标移除条件，且确定所述可消除对象为所述目标消除对象。

8.根据权利要求1所述的视频处理方法，其特征在于，所述通过所述背景模型获取所述第一视频帧所对应的第一背景图像之后，所述方法还包括：

根据所述第一像素区域，从所述第一背景图像中获取第二像素区域，其中，所述第二像素区域与所述第一像素区域所包括的像素个数相同；

根据所述第二像素区域获取所述第一背景图像中的像素点集合。

9.根据权利要求1所述的视频处理方法，其特征在于，所述通过对象分割模型获取第一视频帧所对应的对象分割结果之后，所述方法还包括：

若所述对象分割结果未满足所述目标移除条件，则从所述待处理视频中获取第三视频帧；

通过所述对象分割模型获取第三视频帧所对应的对象分割结果；

通过所述背景模型获取所述第三视频帧所对应的第二背景图像；

若所述第三视频帧所对应的对象分割结果满足目标移除条件，则从所述第三视频帧中移除第三像素区域内的像素点，其中，所述第三像素区域为所述目标消除对象在所述第三视频帧中的像素区域；

将所述第二背景图像中的像素点集合填充至所述第三像素区域，以得到第二目标视频帧。

10.一种视频展示的方法，其特征在于，包括：

接收针对于第一视频帧的对象消除请求，其中，所述第一视频帧出现于所述连续的M个视频帧之后；

根据所述对象消除请求确定目标干扰对象；

通过对象分割模型获取第二视频帧所对应的对象分割结果，其中，所述对象分割结果包括至少一个可消除对象；

通过所述背景模型获取所述第二视频帧所对应的目标背景图像；

若根据所述目标干扰对象以及所述第二视频帧所对应的对象分割结果确定满足目标移除条件，则从所述第二视频帧中移除目标像素区域内的像素点；

将所述目标背景图像中的像素点集合填充至所述目标像素区域，以得到目标视频帧，其中，所述像素点集合包括至少一个像素点；

显示所述目标视频帧。

11.一种视频处理的方法，其特征在于，包括：

获取待处理媒体视频，其中，所述待处理媒体视频包括N个视频帧，所述N为大于1的整数；

从所述待处理媒体视频中获取连续的M个视频帧，其中，所述连续的M个视频帧用于构建背景模型，所述M为大于1，且小于所述N的整数；

接收针对于第一视频帧的对象消除请求，其中，所述第一视频帧属于所述待处理媒体视频，所述第一视频帧出现于所述连续的M个视频帧之后；

根据所述对象消除请求确定目标干扰对象；

根据所述目标视频帧生成合成媒体视频，其中，所述合成媒体视频包括至少一个合成后的视频帧。

12.一种视频展示的方法，其特征在于，包括：

通过拍摄装置获取连续的M个视频帧，其中，所述连续的M个视频帧用于构建背景模型，所述M为大于1的整数；

根据所述对象消除请求确定目标干扰对象；

通过显示界面展示所述目标视频帧。

13.一种视频处理装置，其特征在于，包括：

获取模块，用于获取连续的M个视频帧，其中，所述连续的M个视频帧用于构建背景模型，所述M为大于1的整数；

所述获取模块，还用于通过对象分割模型获取第一视频帧所对应的对象分割结果，其中，所述第一视频帧为所述待处理视频中出现于所述连续的M个视频帧之后的一个视频帧，所述对象分割结果包括至少一个可消除对象；

所述获取模块，还用于通过所述背景模型获取所述第一视频帧所对应的第一背景图像；

移除模块，用于若所述第一视频帧所对应的对象分割结果满足目标移除条件，则从所述第一视频帧中移除第一像素区域内的像素点，其中，所述第一像素区域为目标消除对象在所述第一视频帧中的像素区域，所述目标消除对象属于所述至少一个可消除对象；

处理模块，用于将所述第一背景图像中的像素点集合填充至所述第一像素区域，以得到第一目标视频帧，其中，所述像素点集合包括至少一个像素点。

14.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据所述程序代码中的指令执行权利要求1至9中任一项所述的方法，或，执行权利要求10所述的方法，或，执行权利要求11所述的方法，或，执行权利要求12所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法，或，执行权利要求10所述的方法，或，执行权利要求11所述的方法，或，执行权利要求12所述的方法。