CN112541870A

CN112541870A - 一种视频处理的方法、装置、可读存储介质和电子设备

Info

Publication number: CN112541870A
Application number: CN202011435839.XA
Authority: CN
Inventors: 陈昌儒; 徐培来
Original assignee: Beijing Dami Technology Co Ltd
Current assignee: Beijing Dami Technology Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-23

Abstract

本发明实施例公开了一种视频处理的方法、装置、可读存储介质和电子设备。本发明实施例通过获取第一视频流，所述第一视频流包括至少一帧第一图像；将所述第一图像输入到预先训练的目标检测模型，确定所述第一图像中的目标区域、干扰区域以及背景区域中的至少一项，响应于所述第一图像中包括所述干扰区域以及所述背景区域，根据所述背景区域替换所述干扰区域，生成第二图像；根据所述第二图像生成第二视频流。通过上述方法，确定出第一图像中的干扰区域和背景区域之后，可以通过背景区域替换干扰区域，使生成的第二视频流中只显示目标区域。

Description

一种视频处理的方法、装置、可读存储介质和电子设备

技术领域

本发明涉及视频处理领域，具体涉及一种视频处理的方法、装置、可读存储介质和电子设备。

背景技术

随着科技的进步，当人们需要面对面进行沟通交流时，并不需要约定一个真实的地点后，然后乘坐交通工具前往，浪费双方大量的时间，只需要通过远程沟通即可，例如，通过视频进行沟通交流；视频在人们的生活中起到了越来越重要的作用，工作中可以通过视频会议、和视频聊天的方式进行沟通、学习中可以通过在线教育进行教学，但是由于双方进行视频时，可能会有目标人物以外的其他人员干扰，例如，家人、或者宠物，会影响对方的沟通感受，因此，需要对目标人物以外的其他人员进行屏蔽处理。

现有技术中，可以将目标人物身后一定距离之外移动经过的人或物进行屏蔽，但是无法将距离目标人物较近的干扰人/物进行屏蔽。

综上所述，如何对干扰人/物进行有效屏蔽是目前需要解决的问题。

发明内容

有鉴于此，本发明实施例提供了一种视频处理的方法、装置、可读存储介质和电子设备，可以对视频中的干扰人或干扰物进行有效的屏蔽。

第一方面，本发明实施例提供了一种视频处理的方法，该方法包括：获取第一视频流，其中，所述第一视频流包括至少一帧第一图像；将所述第一图像输入到预先训练的目标检测模型，确定所述第一图像中的目标区域、干扰区域以及背景区域中的至少一项，其中，所述目标检测模型用于识别所述目标区域、所述干扰区域以及所述背景区域；响应于所述第一图像中包括所述干扰区域以及所述背景区域，根据所述背景区域替换所述干扰区域，生成第二图像；根据所述第二图像生成第二视频流。

优选地，该方法还包括：响应于所述第一图像中包括所述干扰区域，根据预设的虚拟背景区域替换所述干扰区域，生成第二图像。

优选地，所述确定所述第一图像中的目标区域之后，该方法还包括：对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪。

优选地，所述对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪，具体包括：通过目标跟踪模型，对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪。

优选地，所述目标区域为所述第一图像中目标人或目标物体所在的区域；所述干扰区域为所述第一图像中非目标人或非目标物体所在的区域。

优选地，所述目标检测模型为分类模型，其中，所述分类模型可以为支持向量机分类器。

优选地，所述目标跟踪模型为神经网络模型。

优选地，所述目标检测模型的训练过程包括：获取任一场景对应的历史图像数据，确定所述历史图像数据中的历史目标区域、历史非目标区域以及历史背景区域；提取所述历史目标区域、所述历史非目标区域以及所述历史背景区域的特征；以所述特征作为输入，所述历史目标区域、所述历史非目标区域以及所述历史背景区域作为输出训练所述目标检测模型。

第二方面，本发明实施例提供了一种视频处理的装置，该装置包括：获取单元，用于获取第一视频流，其中，所述第一视频流包括至少一帧第一图像；确定单元，用于将所述第一图像以及所述第一视频流中所述目标的标记输入到预先训练的目标检测模型，确定所述第一图像中的目标区域、干扰区域以及背景区域中的至少一项，其中，所述目标检测模型用于识别所述目标区域、所述干扰区域以及所述背景区域；处理单元，用于响应于所述第一图像中包括所述干扰区域以及所述背景区域，根据所述背景区域替换所述干扰区域，生成第二图像；所述处理单元还用于，根据所述第二图像生成第二视频流。

优选地，所述处理单元还用于：响应于所述第一图像中包括所述干扰区域，根据预设的虚拟背景区域替换所述干扰区域，生成第二图像。

优选地，该装置还包括：跟踪单元，用于对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪。

优选地，所述跟踪单元具体用于：通过目标跟踪模型，对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪。

优选地，所述目标跟踪模型为神经网络模型。

优选地，所述目标检测模型的训练装置包括：

第一获取单元：用于获取任一场景对应的历史图像数据，确定所述历史图像数据中的历史目标区域、历史非目标区域以及历史背景区域；

提取单元，用于提取所述历史目标区域、所述历史非目标区域以及所述历史背景区域的特征；

训练单元，用于以所述特征作为输入，所述历史目标区域、所述历史非目标区域以及所述历史背景区域作为输出训练所述目标检测模型。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。

本发明实施例通过获取第一视频流，其中，所述第一视频流包括至少一帧第一图像；将所述第一图像输入到预先训练的目标检测模型，确定所述第一图像中的目标区域、干扰区域以及背景区域中的至少一项，其中，所述目标检测模型用于识别所述目标区域、所述干扰区域以及所述背景区域；响应于所述第一图像中包括所述干扰区域以及所述背景区域，根据所述背景区域替换所述干扰区域，生成第二图像；根据所述第二图像生成第二视频流。通过上述方法，确定出第一图像中的干扰区域和背景区域之后，可以通过背景区域替换干扰区域，使生成的第二图像中只不显示干扰区域，只显示目标区域和背景区域，避免了干扰区域对目标区域的影响，进一步地，根据第二图像使生成的第二视频流中只显示目标区域和背景区域，提高了用户的使用感受。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是现有技术中的一种图像示意图；

图2是本发明实施例的一种视频处理的方法流程图；

图3是本发明实施例的一种目标检测模型训练的方法流程图；

图4是本发明实施例的一种图像示意图；

图5是本发明实施例的一种图像示意图；

图6是本发明实施例的一种视频处理的方法流程图；

图7是本发明实施例的一种视频处理的方法流程图；

图8是本发明实施例的一种视频处理的装置示意图；

图9是本发明实施例的一种电子设备的示意图。

具体实施方式

以下基于实施例对本发明公开进行描述，但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在双方通过视频进行沟通交流时，由于在视频过程中目标人物以外的其他人员干扰，例如，家人、或者宠物，会影响对方的沟通感受，需要对目标人物以外的其他人员进行屏蔽处理；在现有技术中，可以将目标人物身后一定距离之外移动经过的人或物进行屏蔽，但是无法将距离目标任务较近的干扰人/物进行屏蔽，例如，图1所示，假设视频过程中其中一方的终端设备获取到的图像中包括目标人a，干扰人b和干扰物c，由于干扰人b距离目标人a的距离较远，可以将干扰人b识别并屏蔽，假设干扰物c为宠物，在目标人a身边，距离目标人a较近，现有技术无法将干扰物c进行屏蔽，造成沟通过程中另一方的感受较差；并且在进行屏蔽的过程中添加虚拟背景，但是添加的虚拟背景会出现时断时续、闪烁等问题，屏蔽效果也比较差。因此，如何对干扰人/物进行有效屏蔽是目前需要解决的问题。

本发明实施例中，为了有效的对干扰人或干扰物进行屏蔽，首先可以确定出第一图像中的干扰区域和背景区域，然后可以通过背景区域替换干扰区域，由于本发明实施例中采用的目标检测模型对第一图像进行检测时，无论干扰人或干扰物与目标人或目标物的距离远近，都可以检测出来，因此，生成的第二图像中不显示干扰区域；进而生成的第二视频流中也只显示目标区域，下面通过一个具体实施例进行详细说明。

图2是本发明第一实施例的一种视频处理的方法流程图。如图1所示，具体包括如下步骤：

步骤S200、获取第一视频流，其中，所述第一视频流包括至少一帧第一图像。

在一种可能的实现方式中，获取视频流的设备在接收视频时是分段接收到时长为500ms(毫秒)的视频流，需要接收20段上述时长为500ms的视频流组成第一视频流，然后对所述时长为10s的第一视频流进行处理；所述第一视频流可以即时更新，假设在第一时刻接收到新的500ms的视频流，可以将10s的第一视频流中最开始接收到的500ms的视频流删除，然后在所述10s的第一视频流最后加入新接收到的500ms的视频流，对所述10s的第一视频流进行更新；本发明实施例中，对所述第一视频流的时长不做限定，只要在使用过程中时长的长度可以实现对第一视频流进行分析处理即可。

在一种可能的实现方式中，所述第一视频流包括多帧按时间戳顺序排序的第一图像。

在一种可能的实现方式中，获取所述第一视频流的设备可以为服务器、也可以为处理器，还可以其他可以对视频流进行处理的设备，本发明实施例对其不做限定。

步骤S201、将所述第一图像输入到预先训练的目标检测模型，确定所述第一图像中的目标区域、干扰区域以及背景区域中的至少一项，其中，所述目标检测模型用于识别所述目标区域、所述干扰区域以及所述背景区域。

具体的，所述目标区域为所述第一图像中目标人或目标物体所在的区域；所述干扰区域为所述第一图像中非目标人或非目标物体所在的区域；其中，所述非目标物体可以为宠物等突然出现在第一图像中的物体。

在一种可能的实现方式中，所述目标检测模型可以为分类模型，其中，所述分类模型可以为支持向量机分类器，还可以为Xgboost分类模型，也可以为其他分类模型，本发明实施例对其不做限定。

下面通过一个具体实施例所述目标检测模型的训练过程进行详细说明，具体如图3所示，包括以下步骤：

步骤S300、获取任一场景对应的历史图像数据，确定所述历史图像数据中的历史目标区域、历史非目标区域以及历史背景区域。

在一种可能的实现方式中，根据不同的场景获取不同的历史图像数据，假设，在线教学场景中，历史图像数据一般都是教师上课时教师终端设备采集到的图像，针对任一教师，该教师的历史图像中历史目标区域是教师的头部及肩部；所述历史非目标区域可以为目标人(教师)之外其他人或者动物，也可以为物体，历史背景区域可以为墙壁、布景板等等。

步骤S301、提取所述历史目标区域、所述历史非目标区域以及所述历史背景区域的特征。

在一种可能的实现方式中，通过卷积神经网络(Convolutional Neural Network，CNN)提取所述历史目标区域、所述历史非目标区域以及所述历史背景区域的特征，其中，所述特征可以通过向量表示。

步骤S302、以所述特征作为输入，所述历史目标区域、所述历史非目标区域以及所述历史背景区域作为输出训练所述目标检测模型。

在一种可能的实现方式中，针对每个教师单独训练一个目标检测模型，由于每个教师的面部特征不同，因此，训练出的目标检测模型可以识别出对应的教师作为目标人，进而当使用所述目标检测模型时，可以准确的确定出第一图像中的目标人所在的目标区域，也可以确定出目标人之外的其他非目标人或非目标物体所在的非目标区域。

通过上述步骤S300至步骤S302训练所述目标检测模型，然后根据所述目标检测模型进行目标检测，获取目标区域、非目标区域以及背景区域。所述目标检测的方法还有其他方式，例如，方式一、基于候选区域的目标检测；方式二、单次目标检测。其中，所述基于候选区域的目标检测首先需要获取候选区域，具体的，采用滑动窗口检测器，从左到右、从上到下滑动窗口，所述窗口是图像上的一个区域，是可以移动的，根据滑动窗口从图像中剪切图像块，然后将图像块通过卷积神经网络CNN进行分类，由于根据不同的目标类型需要不同大小和宽高比的窗口，因此剪切的图像块的大小不同，但进行分类时，只能采用固定大小的图像，图像块需要变形处理；然后将变形的图像块输入CNN分类器中。本发明实施例中，通常采用单次检测器实现所述单次目标检测，所述单次检测器可以为YOLO(You Only Look Once，你只用看一遍)、单发MultiBox探测器(Single-Shot MultiBox Detector，SSD)等，其中，所述YOLO利用多尺度特征进行对象检测。

步骤S202、响应于所述第一图像中包括所述干扰区域以及所述背景区域，根据所述背景区域替换所述干扰区域，生成第二图像。

举例说明，如图4所述，第一图像中检测出目标区域A，干扰区域B和背景区域C，其中，目标区域A中包括目标人，干扰区域B中包括距离目标人很近的动物，背景区域C中包括目标人背后的幕布；根据所述背景区域C替换干扰区域B，具体如图5所示，在特定情况下，若干扰区域B的大小与背景区域C的大小不同，在替换时可以对背景区域C进行放大、缩小或截取其中一部分。

例如，假设干扰区域B的面积为30厘米×50厘米，背景区域C的面积100厘米×100厘米，上述长度和宽度仅仅为示例性说明，具体根据实际情况确定；背景区域C的面积大于干扰区域B的面积，通过背景区域C替换干扰区域B时，需要将背景区域C进行缩小至30厘米×50厘米，然后再进行替换；或者，在背景区域C中截取30厘米×50厘米的局部区域替换干扰区域B。假设干扰区域B的面积为120厘米×100厘米，背景区域C的面积50厘米×80厘米，上述长度和宽度仅仅为示例性说明，具体根据实际情况确定；背景区域C的面积小于干扰区域B的面积，通过背景区域C替换干扰区域B时，需要将背景区域C进行扩大至120厘米×100厘米，然后再进行替换。

在一种可能的实现方式中，所述背景区域C和干扰区域B的面积相同，直接替换即可。

在一种可能的实现方式中，响应于所述第一图像中包括所述干扰区域，根据预设的虚拟背景区域替换所述干扰区域，生成第二图像。

具体的，第一图像中检测出目标区域A和干扰区域B，而并没有检测到背景区域C，无法根据背景区域C替换干扰区域B，则根据预设的虚拟背景区域替换所述干扰区域，所述虚拟背景区域可以根据其他第一图像中的背景区域确定，也可以根据实际应用场景设置，本发明实施例对其不做限定。

步骤S203、根据所述第二图像生成第二视频流。

具体的，第一视频流中的每一帧第一图像具有时间戳，所述第一图像经过处理后生成了无干扰区域的第二图像，第二图像也对应的具有时间戳，根据时间戳对第二图像进行排序，生成的第二视频流中只有目标区域中包含的目标人或目标物体，对视频中的干扰人或干扰物进行有效的屏蔽。

举例说明，第一视频流中包括10帧第一图像，具体为，第一图像1、第一图像2、第一图像3、第一图像4、第一图像5、第一图像6、第一图像7、第一图像8、第一图像9和第一图像10，每张图像上具有时间戳，例如，第一图像1的时间戳为0.01秒(s)、第一图像2的时间戳为0.02s、第一图像3的时间戳为0.03s、第一图像4的时间戳为0.04s、第一图像5的时间戳为0.05s、第一图像6的时间戳为0.06s、第一图像7的时间戳为0.07s、第一图像8的时间戳为0.08s、第一图像9的时间戳为0.09s、第一图像10的时间戳为0.10s；上述举例中的第一图像数量以及每张图像中的时间戳仅仅为示例性说明，具体的，第一图像数量根据实际情况确定，所述时间戳显示的时间也根据实际情况确定，本发明实施例对其不做限定。所述10张第一图像经过处理后生成了无干扰区域的10张第二图像，具体为第二图像1、第二图像2、第二图像3、第二图像4、第二图像5、第二图像6、第二图像7、第二图像8、第二图像9、和第二图像10，第二图像也对应的具有时间戳，第二图像1的时间戳为0.01s、第二图像2的时间戳为0.02s、第二图像3的时间戳为0.03s、第一图像4的时间戳为0.04s、第二图像5的时间戳为0.05s、第二图像6的时间戳为0.06s、第二图像7的时间戳为0.07s、第二图像8的时间戳为0.08s、第二图像9的时间戳为0.09s、第二图像10的时间戳为0.10s；将上述10张第二图像按照时间戳进行排序，生成第二视频流。

在一种可能的实现方式中，为了提高目标检测的准性，除了通过目标检测模型之外，还可以通过预先设置的目标检测策略对目标人所在的区域进行进一步的确认，假设在线教育场景或主播直播场景中，可以通过一段视频流中人员停留的时长、语速、或者语言内容等等判断出现在所述视频流中的人员是否为目标人；由于采用目标策略对目标人进行判断需要一段视频流，而无法仅通过一帧图像进行判断，因此，最初对目标区域进行判断时，无法通过目标检测策略对目标人所在的区域进行进一步的确认；需要收集一段时间的视频流后，才可以通过目标检测模型和预先设置的目标检测策略同时对目标人所在的目标区域进行判断。

举例说明，如图6所示，获取一帧第一图像，将所述第一图像输入到预先训练好的目标检测模型601中，其中，在获取所述第一图像之前还获取了一段历史视频流，将所述历史视频流输根据目标检测策略模块602中；根据目标检测模型601确定出所述第一图像中的目标区域，所述目标区域中包括的目标人或者目标物体，根据所述目标检测模型601确定所述历史视频流中的目标人或目标物体，将目标检测模型601和目标检测策略模块602的输出结果都输入判断模块603，若所述判断模块603判断根据目标检测模型601确定出的第一图像的目标区域中的目标人或目标物体与通过目标检测策略模块602确定出的目标人或目标物体相同，确认所述目标检测模型601对第一图像中目标区域识别正确，通过上述方法进一步确定了所述第一图像中的目标区域的准确性。

在一种可能的实现方式中，所述确定所述第一图像中的目标区域之后，该方法还包括：对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪。具体的，通过目标跟踪模型，对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪，其中，所述目标跟踪模型为神经网络模型。本发明实施例中，根据目标跟踪模型，可以得到视频流里面目标人、非目标人或非目标物的变动信息以及预测其变动信息，能够大幅降低计算量。当需要确定第一图像中的目标区域中的目标人或目标物；或非目标区域中的非目标人或非目标物时，可以根据所述目标跟踪模型进行辅助。

举例说明，如图7所示，获取一帧第一图像，将所述第一图像输入到预先训练好的目标检测模型701中，根据上述目标检测模块701确定出所述第一图像中的目标区域或非目标区域，以目标区域为例，所述目标区域中包括目标人或目标物体，当需要获取所述目标人或目标物体的变动信息时，在所述第一图像之后获取到的视频流输入到目标跟踪模型702中，通过所述目标跟踪模型702对所述目标人或目标物体进行目标跟踪。

具体的，采用所述目标跟踪模型中采用的目标跟踪算法可以基于卷积神经网络CNN，长短期记忆网络(Long Short-Term Memory，LSTM)等；其中，所述卷积神经网络CNN是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理，一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征；该局部特征被提取后，所述局部特征与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等；特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形，该部分功能主要由池化层实现。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显式的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。所述长短期记忆网络LSTM是递归神经网络(RNN:RecurrentNeutral Network，RNN)的一种，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，LSTM是解决循环神经网络RNN结构中存在的梯度消失问题而提出的。

在一种可能的实现方式中，所述目标跟踪模型所采用的目标跟踪算法主要分为两类：生成式模型和判别式模型，其中，所述生成式(generative)模型：通过在线学习方式建立目标模型，然后使用模型搜索重建误差最小的图像区域，完成目标定位。这一类方法没有考虑目标的背景信息，图像信息没有得到较好的应用。通俗点讲就是在当前帧对目标区域建模，下一帧寻找与模型最相似的区域就是预测位置，比较著名的有卡尔曼滤波，粒子滤波，mean-shift等。所述判别式(discrimination)模型：将目标跟踪看作是一个二元分类问题，同时提取目标和背景信息用来训练分类器，将目标从图像序列背景中分离出来，从而得到当前帧的目标位置。CV中的经典方式为图像特征与机器学习相结合，当前帧以目标区域为正样本，背景区域为负样本，机器学习方法训练分类器，下一帧用训练好的分类器找最优区域：与生成类方法最大的区别是，分类器采用机器学习，训练中用到了背景信息，这样分类器就能专注区分前景和背景，所以判别类方法普遍由于生成类方法。

在一种可能的实现方式中，进行目标跟踪时也可以采用目标跟踪模型之外的其他方法实现目标跟踪，例如，目标跟踪可以由以下4个基本部分构成，具体包括：特征提取、运动模型、外观模型和在线更新机制；其中，所述特征提取(Feature Extraction)：适用于目标跟踪的特征一般要求，既能较好地描述跟踪目标又能快速计算。常见的图像特征有灰度特征、颜色特征、纹理特征、Haar-like矩形特征、兴趣点特征、超像素特征等。所述运动模型(Motion Model)：旨在描述帧与帧目标运动状态之间的关系，显式或隐式地在视频帧中预测目标图像区域，并给出一组可能的候选区域.经典的运动模型有均值漂移(Mean shift)、滑动窗口(Slide window)、卡尔曼滤波(Kalman Filtering)、粒子滤波(ParticleFiltering)等。所述外观模型(Appearance Model)：是在当前帧中判断候选图像区域是被跟踪目标的可能性，提取图像区域的视觉特征，输入外观模型进行匹配或决策，最终确定被跟踪目标的空间位置。所述在线更新机制(Online Update Mechanism)：为了捕捉目标和背景在跟踪过程中的变化，目标跟踪需要包含一个在线更新机制，在跟踪过程中不断更新外观模型。常见的外观模型更新方式有模板更新、增量子空间学习算法及在线分类器等。

图8是本发明实施例的一种视频处理的装置示意图。如图8所示，本实施例的装置包括获取单元801、确定单元802和处理单元803。

其中，获取单元801，用于获取第一视频流，其中，所述第一视频流包括至少一帧第一图像；确定单元802，用于将所述第一图像以及所述第一视频流中所述目标的标记输入到预先训练的目标检测模型，确定所述第一图像中的目标区域、干扰区域以及背景区域中的至少一项，其中，所述目标检测模型用于识别所述目标区域、所述干扰区域以及所述背景区域；处理单元803，用于响应于所述第一图像中包括所述干扰区域以及所述背景区域，根据所述背景区域替换所述干扰区域，生成第二图像；所述处理单元803还用于，根据所述第二图像生成第二视频流。

本发明实施例中，确定出第一图像中的干扰区域和背景区域之后，可以通过背景区域替换干扰区域，使生成的第二图像中只显示目标区域，进而使生成的第二视频流中只显示目标区域。

进一步地，所述处理单元还用于：响应于所述第一图像中包括所述干扰区域，根据预设的虚拟背景区域替换所述干扰区域，生成第二图像。

本发明实施例中，通过虚拟背景区域替换所述干扰区域，也可以避免干扰区域对目标区域中目标人或目标物体的干扰。

进一步地，该装置还包括：跟踪单元，用于对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪。

本发明实施例中，通过对目标区域中的目标人或目标物体的跟踪，可以更加准确的确定出目标区域在图像中的准确位置。

进一步地，所述跟踪单元具体用于：通过目标跟踪模型，对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪。

进一步地，所述目标区域为所述第一图像中目标人或目标物体所在的区域；所述干扰区域为所述第一图像中非目标人或非目标物体所在的区域。

进一步地，所述目标检测模型为分类模型，其中，所述分类模型可以为支持向量机分类器。

本发明实施例中，通过分类模型，可以准确的确定出目标区域、干扰区域以及背景区域在图像中的位置。

进一步地，所述目标跟踪模型为神经网络模型。

本发明实施例中，通过所述神经网络模型可以准确的对目标进行跟踪。

进一步地，所述目标检测模型的训练装置包括：

本发明实施例中，通过训练目标检测模型，可以在不同的场景下确定不同的目标区域，提高确定目标区域的准确性。

图9是本发明实施例的电子设备的示意图。图9所示的电子设备为通用视频处理装置，其包括通用的计算机硬件结构，其至少包括处理器91和存储器92。处理器91和存储器92通过总线93连接。存储器92适于存储处理器91可执行的指令或程序。处理器91可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器91通过执行存储器92所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线93将上述多个组件连接在一起，同时将上述组件连接到显示控制器94和显示装置以及输入/输出(I/O)装置95。输入/输出(I/O)装置95可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置95通过输入/输出(I/O)控制器96与系统相连。

其中，存储器92存储的指令被至少一个处理器91执行以实现：获取第一视频流，其中，所述第一视频流包括至少一帧第一图像；将所述第一图像输入到预先训练的目标检测模型，确定所述第一图像中的目标区域、干扰区域以及背景区域中的至少一项，其中，所述目标检测模型用于识别所述目标区域、所述干扰区域以及所述背景区域；响应于所述第一图像中包括所述干扰区域以及所述背景区域，根据所述背景区域替换所述干扰区域，生成第二图像；根据所述第二图像生成第二视频流。

如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明实施例的各个方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程图像处理设备的处理器，以产生机器，使得(经由计算机或其它可编程图像处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程图像处理设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程图像处理设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频处理的方法，其特征在于，该方法包括：

获取第一视频流，其中，所述第一视频流包括至少一帧第一图像；

将所述第一图像输入到预先训练的目标检测模型，确定所述第一图像中的目标区域、干扰区域以及背景区域中的至少一项，其中，所述目标检测模型用于识别所述目标区域、所述干扰区域以及所述背景区域；

响应于所述第一图像中包括所述干扰区域以及所述背景区域，根据所述背景区域替换所述干扰区域，生成第二图像；

根据所述第二图像生成第二视频流。

2.如权利要求1所述的方法，其特征在于，该方法还包括：

响应于所述第一图像中包括所述干扰区域，根据预设的虚拟背景区域替换所述干扰区域，生成第二图像。

3.如权利要求1所述的方法，其特征在于，所述确定所述第一图像中的目标区域之后，该方法还包括：

对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪。

4.如权利要求3所述的方法，其特征在于，所述对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪，具体包括：

通过目标跟踪模型，对所述第一视频流中的所述目标区域中的目标人或目标物体进行目标跟踪。

5.如权利要求1所述的方法，其特征在于，所述目标区域为所述第一图像中目标人或目标物体所在的区域；所述干扰区域为所述第一图像中非目标人或非目标物体所在的区域。

6.如权利要求1所述的方法，其特征在于，所述目标检测模型为分类模型，其中，所述分类模型可以为支持向量机分类器。

7.如权利要求4所述的方法，其特征在于，所述目标跟踪模型为神经网络模型。

8.如权利要求1所述的方法，其特征在于，所述目标检测模型的训练过程包括：

获取任一场景对应的历史图像数据，确定所述历史图像数据中的历史目标区域、历史非目标区域以及历史背景区域；

提取所述历史目标区域、所述历史非目标区域以及所述历史背景区域的特征；

以所述特征作为输入，所述历史目标区域、所述历史非目标区域以及所述历史背景区域作为输出训练所述目标检测模型。

9.一种视频处理的装置，其特征在于，该装置包括：

获取单元，用于获取第一视频流，其中，所述第一视频流包括至少一帧第一图像；

确定单元，用于将所述第一图像输入到预先训练的目标检测模型，确定所述第一图像中的目标区域、干扰区域以及背景区域中的至少一项，其中，所述目标检测模型用于识别所述目标区域、所述干扰区域以及所述背景区域；

处理单元，用于响应于所述第一图像中包括所述干扰区域以及所述背景区域，根据所述背景区域替换所述干扰区域，生成第二图像；

所述处理单元还用于，根据所述第二图像生成第二视频流。

10.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。

11.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8任一项所述的方法。