CN111553362B

CN111553362B - 一种视频处理方法、电子设备和计算机可读存储介质

Info

Publication number: CN111553362B
Application number: CN202010245892.7A
Authority: CN
Inventors: 赵维杰; 富宸
Original assignee: Shanghai Weisha Network Technology Co ltd
Current assignee: Shanghai Weisha Network Technology Co ltd
Priority date: 2019-04-01
Filing date: 2020-03-31
Publication date: 2023-05-05
Anticipated expiration: 2040-03-31
Also published as: CN111553362A

Abstract

本发明涉及一种视频处理方法、电子设备和计算机可读存储介质，其中，所述方法包括：以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在一个或多个操作层输出的当前帧图像的特征图；基于所述语义分割神经网络在任意一个或多个操作层输出的非当前帧图像的特征图，获取待拼接特征图；以及，基于所述当前帧图像的特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。本发明实施例提出的技术方案将非当前帧图像的信息融入当前帧图像的分割，大大提升视频分割效果。

Description

一种视频处理方法、电子设备和计算机可读存储介质

技术领域

本发明属于用于计算机视频处理技术领域，具体涉及一种视频处理方法、电子设备和计算机可读存储介质。

背景技术

在计算机视觉领域，目前神经网络的应用主要有图像识别、目标定位与检测和语义分割，其中，图像识别的目的是识别出图像或图像中的目标物是什么，目标定位与检测是明确图像中的目标物在什么位置，而语义分割则是从像素级别解决图像识别和目标定位与检测。

发明人发现，在视频图像的语义分割中，现有的语义分割仅是针对每一帧图像进行独立分割，导致出现稳定性较差，边缘分割效果差，分割视频抖动，分割不准确等技术问题。

发明内容

为了解决上述稳定性较差，边缘分割效果差，分割视频抖动，分割不准确等技术问题，本发明实施例提出了一种视频处理方法、电子设备和计算机可读存储介质。

在本发明的第一方面，提供一种视频处理方法，包括：

以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在一个或多个操作层输出的当前帧图像的特征图；

基于所述语义分割神经网络在任意一个或多个操作层输出的非当前帧图像的特征图，获取待拼接特征图；以及，

基于所述当前帧图像的特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

在某些实施例中，所述基于所述当前帧图像的特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果，包括：

拼接所述当前帧图像的特征图和所述待拼接特征图，得到当前帧图像的拼接特征图，以所述当前帧图像的拼接特征图作为所述语义分割神经网络中后序的操作层的输入，继续所述语义分割神经网络的运算操作，用以获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

在某些实施例中，所述基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图；包括：

基于存储的所述语义分割神经网络在第一卷积层输出的所述前一帧图像的第一特征图，获取所述待拼接特征图。

在某些实施例中，所述以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图；基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图；包括：

以所述当前帧图像和所述前一帧图像作为所述语义分割神经网络的输入，获取所述语义分割神经网络在第一卷积层输出的所述当前帧图像的第一特征图和所述前一帧图像的第一特征图；以及，

基于所述前一帧图像的第一特征图，获取所述待拼接特征图。

在某些实施例中，所述基于所述当前帧图像的第一特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果，包括：

拼接所述当前帧图像的第一特征图和所述待拼接特征图，得到当前帧图像的第一拼接特征图，以所述当前帧图像的第一拼接特征图作为所述语义分割神经网络中位于所述第一卷积层后序的操作层的输入，继续所述语义分割神经网络的运算操作，用以获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

在某些实施例中，所述基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图，包括：

获取所述语义分割神经网络输出的所述前一帧图像的第一蒙版；

基于所述前一帧图像的第一蒙版将所述前一帧图像的第一特征图分割为所述前一帧图像的前景特征图和所述前一帧图像的背景特征图；

拼接所述前一帧图像的前景特征图和所述前一帧图像的背景特征图，得到前一帧图像的第二拼接特征图；以及，

对所述前一帧图像的第二拼接特征图进行池化，得到的池化特征图为所述待拼接特征图。

在某些实施例中，所述视频处理方法还包括：获取并存储所述语义分割神经网络输出的所述当前帧图像的第一蒙版，以便针对所述当前帧图像的后一帧图像进行语义分割时使用。

在某些实施例中，所述池化采用平均池化的方法。

在本发明的第二方面，提供一种计算机可读存储介质，存储有执行如本发明第一方面所述方法的计算机程序。

在本发明的第三方面，提供一种电子设备，包括处理器和操作上与所述处理器连接的如本发明第二方面所述的计算机可读存储介质，所述处理器运行执行计算机可读介质中的计算机程序。

本发明的有益效果：本发明实施例提出的视频处理方法、电子设备和计算机可读存储介质将前一帧图像的信息(特别是前一帧图像的前景特征图和背景特征图)融入当前帧图像的分割，大大提升视频分割效果。本发明实施例的其他有益效果将在下文中进一步阐述。

附图说明

图1a是本发明实施例提出的视频处理方法的流程框图；

图1b是本发明实施例提出的优选的视频处理方法的流程框图；

图2是本发明实施例提出的优选的视频处理方法的一实施例的流程框图；

图3是本发明实施例提出的优选的视频处理方法的一实施例的流程示意图；

图4是本发明实施例提出的优选的视频处理方法的获取待拼接特征图的流程框图；

图5是本发明实施例提出的优选的视频处理方法的另一实施例的流程框图；

图6是本发明实施例提出的优选的视频处理方法的另一实施例的流程示意图；

图7是本发明实施例提出的优选的视频处理方法的再一实施例的流程框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。但本领域技术人员知晓，本发明并不局限于附图和以下实施例。

如本文中所述，术语“包括”及其各种变体可以被理解为开放式术语，其意味着“包括但不限于”。术语“基于”可以被理解为“至少部分地基于”。术语“一个实施例”可以被理解为“至少一个实施例”。术语“另一实施例”可以被理解为“至少一个其它实施例”。文中所使用的“第一”、“第二”等表述并不表示任何顺序、数量或者重要性等实质含义，仅是用来区分不同的组成部分。

本发明实施例涉及视频处理方法和装置、计算机可读存储介质以及电子设备。例如，利用语义分割神经网络进行视频图像分割处理包括训练阶段和图像分割阶段，其中，训练阶段是指事先利用训练图像对语义分割神经网络进行训练，以调整语义分割神经网络的参数；图像分割阶段是指利用训练好的语义分割神经网络对拟进行图像分割处理的视频图像进行语义分割，本发明实施例主要侧重于利用训练好的语义分割神经网络对视频图像进行语义分割。

需要说明的是，本发明实施例中描述的视频表示的是有时间关联关系的多帧视频图像，可以是视频中的一部分或整段视频，也可以是连续拍摄的多幅图像。本发明实施例中描述的视频可以来自于摄像头等图像获取设备实时获取的视频，也可以是保存在本地设备或者其他设备中的视频文件。本发明实施例中描述的帧图像可以是彩色图像，也可以为灰度图像。

参照图1a，本发明实施例提出一种视频处理方法，包括：

优选的，所述基于所述当前帧图像的特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果，包括：

拼接所述当前帧图像的特征图和所述待拼接特征图，得到当前帧图像的拼接特征图，以所述当前帧图像的拼接特征图作为所述语义分割神经网络中后续的操作层的输入，继续所述语义分割神经网络的运算操作，用以获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

本发明中，所述操作层可以为卷积层也可以为池化层。

本发明中，“一个或多个操作层”可以是一个卷积层，或者是一个池化层，或者是多个卷积层，或者是多个池化层，或者是多个卷积层和池化层。

本发明中，所述“非当前帧图像”既可以是当前帧图像之前的历史帧图像，也可以是当前帧图像之后的未来帧图像。

本发明实施例中，获取待拼接特征图可以基于所述语义分割神经网络在任意一个或多个卷积层输出的历史帧的特征图获取，或者，还可以基于语义分割神经网络在任意一个或多个卷积层输出的未来帧的特征图获取，或者，还可以同时基于语义分割神经网络在任意一个或多个卷积层输出的历史帧和任意一个或多个卷积层输出的未来帧的特征图获取。所述历史帧是指当前帧之前的帧，所述未来帧是指当前帧之后的帧。将递归神经网络结构(RNN)、双向递归神经网络结构用于语义分割神经网络即可利用视频的历史帧和/或未来帧图像的信息，从而能够提高语义分割的精度，保证分割效果的持续稳定性。利用当前帧的前一帧图像的操作层输出的特征图时，能够解决一帧图像的分割错误，有时，相邻的帧中可能不包含分割对象的完整信息，例如，分割对象在前一帧中被遮挡或者分割对象为旋转的物体(每一帧相对于前一帧均有新的部分出现，该新的部分在其之前的旋转周期中曾经出现过)，前述分割对象的被遮挡部分或由于分割对象旋转而在当前帧中出现的新部分的信息能够在较远的历史帧和/或未来帧中找到，由此，本发明实施例将历史帧图像和/或未来帧图像的操作层输出的特征图拼接至当前帧图像的操作层输出的特征图，能够利用历史帧图像和/或未来帧图像的信息，从而提高了语义分割的精度，保证了分割效果的持续稳定。

示例性的，所述基于所述语义分割神经网络在任意一个或多个卷积层输出的非当前帧图像的特征图，获取待拼接特征图；可以包括如下实施方式(当前帧为第n帧)：

在一个实施方式中，将语义神经网络输出的第n-1帧的第一卷积层的第一特征图作为待拼接特征图，用于与语义神经网络输出的当前帧的第一卷积层的第一特征图拼接。

在另一个实施方式中，将语义神经网络输出的第n-1帧的第一卷积层的第一特征图和第n-2帧的第一卷积层的第一特征图作为待拼接特征图，用于与语义神经网络输出的当前帧的第一卷积层的第一特征图拼接。

在另一个实施方式中，将语义神经网络输出的第n-1帧的第一卷积层的第一特征图和第第n-1帧的第一卷积层的前一操作层(例如卷积层或池化层等)的特征图归-化拼接作为待拼接特征图，用于与语义神经网络输出的当前帧的第一卷积层的第一特征图拼接。

在另一个实施方式中，将语义神经网络输出的第n-1帧的第一卷积层的第一特征图和第n+1帧的第一卷积层的第一特征图归一化拼接作为待拼接特征图，用于与语义神经网络输出的当前帧的第一卷积层的第一特征图拼接。

在另一个实施方式中，将语义神经网络输出的第n-1帧的第一卷积层的第一特征图作为待拼接特征图，用于与第n帧的第一卷积层的第一特征图拼接，并且，将语义神经网络输出的第n-1帧的第一卷积层的前一操作层的特征图作为待拼接特征图，用于与第n帧的第一卷积层的前一操作层的特征图拼接。

本发明实施例的视频处理方法还可以实施为其它方式，但最优选的，本发明实施例实施为如下方式。以下，对本发明实施例的较佳方式作进一步详细描述。

本发明实施例提出的一种视频处理方法，包括：

以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图(feature map)；

基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图；以及，

基于所述当前帧图像的第一特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

本领域技术人知晓，所述以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图的步骤和基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图的步骤的先后顺序不受限制，可以一个步骤先进行，另一个步骤进行，还可以同时进行。

本发明实施例在对当前帧图像进行语义分割时，融入了前一帧图像的信息，从而利用了时间信息，可以提高稳定性，确保边缘不会变化，防止分割视频抖动，分割准确。

本领域技术人员可以理解，所述当前帧图像可以为视频的第二帧图像开始的任何一帧图像，当采用历史帧图像的操作层输出的特征图进行拼接时；所述当前帧图像可以为视频的最后一帧图像之外的任何一帧图像，当采用未来帧图像的操作层输出的特征图进行拼接时；第一卷积层可以为语义分割神经网络中的任意一个卷积层(如果有多个卷积层的话)，可以是排序第一的卷积层，也可以是其他的卷积层。

在本发明实施例中，拼接表示的含义是增加通道，一般来说，一个特征图(featuremap)称为一个通道，那么n个特征图就是n个通道，如果将m个特征图和n个特征图拼接，那么拼接后就得到(m+n)个特征图，即(m+n)个通道。所述语义分割神经网络可以采用FCN(全卷积神经网络)、Unet、DeconvNet、SegNet等已有神经网络。如果所述当前帧图像的第一特征图(假设数量为a)和所述待拼接特征图(假设数量为b，一般b等于a，也可以在某些应用场景中b不等于a)拼接，那么拼接后得到(a+b)个特征图，即(a+b)个通道。

在一实施例中，所述语义分割神经网络的第一卷积层输出的前一帧图像的第一特征图的获取包括：在对所述前一帧图像进行语义分割时，存储所述前一帧图像在语义分割神经网络的第一卷积层输出的第一特征图，在对所述当前帧图像进行语义分割时，读取存储的所述前一帧图像的第一特征图。在另一实施例中，所述语义分割神经网络的第一卷积层输出的前一帧图像的第一特征图的获取包括：在对当前帧图像进行语义分割时，既输入当前帧图像，也输入前一帧图像，即当前帧图像和前一帧图像同时输入，从而能够获取前一帧图像在语义分割神经网络的第一卷积层输出的第一特征图。

本发明实施例提出的方法的执行主体不限，例如可以是手机、PC、服务器等电子设备。可以应用本发明实施例的方法的示例性系统架构可以包括一个或多个终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备通过网络与服务器交互，以接收或发送图片等。终端设备上可以安装有各种通讯客户端应用，例如图片查看软件、图片处理软件、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备可以是具有显示屏并且支持图片查看的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务器可以是提供各种服务的服务器，例如对终端设备上显示的图片提供支持的后台图片处理服务器。后台图片处理服务器可以对接收到的待处理图片等进行分析处理，并将处理结果(例如生成的目标图片)反馈给终端设备。本领域技术人员可以理解，上述关于终端设备、网络和服务器的描述仅仅是示意性的。根据实现需要，可以配备终端设备、网络和服务器。

在本实施例中，所述视频的获取可以从网络中获取，也可以从本地设备上获取。

进一步地，所述视频处理方法还包括：获取并存储所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图，以备处理当前帧图像的后一帧图像时使用。

在一实施例中，所述视频处理方法还包括：划分两个存储区域，用于存储前后两帧图像的第一特征图，并且所述两个存储区域交替更新存储的内容。具体来说，在对当前帧图像Fi进行语义分割时，所述两个存储区域中的第一存储区域存储所述前一帧图像F(i-1)的第一特征图，第二存储区域存储所述当前帧图像Fi的第一特征图；在对当前帧图像Fi的后一帧图像F(i+1)进行语义分割时，所述两个存储区域中的第一存储区域存储所述后一帧图像F(i+1)的第一特征图，第二存储区域仍然存储所述当前帧图像Fi的第一特征图；在对当前帧图像Fi的再后一帧图像F(i+2)进行语义分割时，所述两个存储区域中的第一存储区域仍然存储所述后一帧图像F(i+1)的第一特征图，第二存储区域存储所述再后一帧图像F(i+2)的第一特征图。

下面结合具体的实施方式进行更进一步的描述，以期更清楚地表述本发明实施例公开的内容，但不应理解为对本发明实施例的限制，本发明实施例并不限于这些具体的实施例。

实施例1：

本发明实施例1进一步对所述基于所述当前帧图像的第一特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果给出了一种实施方式，可参考图2和图3。

所述基于所述当前帧图像的第一特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果，包括：

相应地，本发明实施例1提出的一种视频处理方法，如图2和图3所示，包括：

步骤11，以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图(feature map)；

在图3中，当前帧图像用F(i)表示，指的是当前正在进行语义分割或者处理的视频帧；当前帧图像的第一特征图用FM(i,j)表示，第一卷积层用Cj表示。需要说明的是，图3中的特征图中的网格线仅是为了示意特征图为图像，并不代表像素或者图像实际大小，后续的图6亦如此。

当前帧图像的第一特征图可以是一幅图，也可以是多幅图，具体数量由第一卷积层Cj的卷积核个数决定。

步骤12，基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图；以及，

步骤13，拼接所述当前帧图像的第一特征图和所述待拼接特征图，得到当前帧图像的第一拼接特征图，以所述当前帧图像的第一拼接特征图作为所述语义分割神经网络中位于所述第一卷积层后序的操作层的输入，继续所述语义分割神经网络的运算操作，用以获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

本领域技术人员可以理解，第一卷积层可以为语义分割神经网络中的任意一个卷积层(如果有多个卷积层的话)。所述语义分割神经网络中位于所述第一卷积层后序的操作层指的是在操作或运算顺序上位于所述第一卷积层之后并相邻的操作层，例如，所述语义分割神经网络在第一卷积层之后的相邻操作层是第一池化层，那么所述语义分割神经网络中位于所述第一卷积层后序的操作层为该第一池化层；所述语义分割神经网络在第一卷积层之后的相邻操作层是第二卷积层，那么所述语义分割神经网络中位于所述第一卷积层后序的操作层为该第二卷积层。

本领域技术人知晓，步骤12和步骤11的先后顺序不受限制，步骤12可以在步骤11之后进行，也可以在步骤11之前进行，还可以同时进行步骤11和步骤12。

在一实施例中，所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图的获取包括：在对所述前一帧图像进行语义分割时，存储前一帧图像在语义分割神经网络的第一卷积层输出的第一特征图，在对所述当前帧图像进行语义分割时，读取存储的所述前一帧图像的第一特征图。在另一实施例中，所述语义分割神经网络的第一卷积层输出的前一帧图像的第一特征图的获取包括：在对当前帧图像进行语义分割时，既输入当前帧图像，也输入前一帧图像，即当前帧图像和前一帧图像同时输入，从而能够获取前一帧图像在语义分割神经网络的第一卷积层输出的第一特征图。

本发明实施例1提出的方法的执行主体不限，例如可以是手机、PC、服务器等电子设备。

本发明实施例1通过将前后两帧图像在语义分割神经网络的同一卷积层的输出进行拼接，并以此作为该卷积层后序操作层的输入，从而将前一帧图像的信息融合到当前帧图像中，从而利用了时间信息，可以提高稳定性，确保边缘不会变化，防止分割视频抖动，分割准确。

进一步地，所述视频处理方法还包括：存储所述获取的所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图。

进一步地，所述视频处理方法还包括：存储所述获取的所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图。

实施例2：

本实施例对所述基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图的一种实施方式进行描述。

如图4和图6所示，所述基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图，包括：

步骤12a，获取所述语义分割神经网络输出的所述前一帧图像的第一特征图和所述前一帧图像的第一蒙版(mask)；

在一实施例中，获取存储的所述语义分割神经网络输出的所述前一帧图像的第一特征图和第一蒙版(mask)。在另一实施例中，在针对所述当前帧进行语义分割时，同时以所述前一帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络输出的所述前一帧图像的第一特征图和第一蒙版(mask)；

在图6中，前一帧图像用F(i-1)表示，前一帧图像的第一蒙版用M(i-1)表示。

步骤12b，基于所述前一帧图像的第一蒙版将所述前一帧图像的第一特征图分割为所述前一帧图像的前景特征图和背景特征图；

步骤12c，拼接所述前景特征图和所述背景特征图，得到前一帧图像的第二拼接特征图；以及，

步骤12d，对所述前一帧图像的第二拼接特征图进行池化，得到的池化特征图为所述待拼接特征图。

在本实施例2中，所述将所述前一帧图像的第一特征图分割为所述前一帧图像的前景特征图和背景特征图中的分割算法可以采用已有算法，例如，BackgroundSubtractorGMG3算法、BackgroundSubtractorMOG算法、BackgroundSubtractorMOG2算法等已有算法。

本实施例2中采用池化的方法对所述前一帧图像的第二拼接特征图进行处理，本领域技术人员知晓，池化方法例如可以包括平均池化、最大池化等。

在本实施例2中，语义分割中一个图像的蒙版(也称遮罩，掩模，mask)是指对图像中每一个像素做出类别标注的文件，通常是一个与原图高宽长度一样的图像，蒙版图像的每一个像素对应着原图相同位置的像素，蒙版图像中像素上的数值代表着分类索引。

在一实施例中，所述获取语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图包括：在对所述前一帧图像进行语义分割时，存储前一帧图像在语义分割神经网络的第一卷积层输出的第一特征图，在对所述当前帧图像进行语义分割时，读取存储的所述前一帧图像的第一特征图。在另一实施例中，所述获取语义分割神经网络的第一卷积层输出的前一帧图像的第一特征图包括：在对当前帧图像进行语义分割时，既输入当前帧图像，也输入前一帧图像，即当前帧图像和前一帧图像同时输入，从而能够获取前一帧图像在语义分割神经网络的第一卷积层输出的第一特征图。

在一实施例中，所述获取所述语义分割神经网络输出的所述前一帧图像的第一蒙版包括：在对所述前一帧图像进行语义分割时，存储语义分割神经网络输出的前一帧图像的第一蒙版，在对所述当前帧图像进行语义分割时，读取存储的所述前一帧图像的第一蒙版。在另一实施例中，所述获取所述语义分割神经网络输出的所述前一帧图像的第一蒙版包括：在针对当前帧图像进行语义分割时，既输入当前帧图像，也输入前一帧图像，即当前帧图像和前一帧图像同时输入，从而能够获取所述语义分割神经网络输出的所述前一帧图像的第一蒙版。

本领域技术人员可以理解，所述前一帧图像的第一特征图和所述前一帧图像的第一蒙版可以都通过前述的存储和读取的方式获取，也可以都通过前述的针对当前帧图像进行语义分割时同时输入当前帧图像和前一帧图像的方式获取，还可以其中一个通过前述的存储和读取的方式获取，另一个通过前述的针对当前帧图像进行语义分割时同时输入当前帧图像和前一帧图像的方式获取。

在本实施例2中，所述视频处理方法，如图5和图6，包括：

步骤111，以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图；

步骤112，获取所述语义分割神经网络在第一卷积层输出的所述前一帧图像的第一特征图和第一蒙版(mask)；基于所述前一帧图像的第一蒙版将所述前一帧图像的第一特征图分割为所述前一帧图像的前景特征图和背景特征图；拼接所述前景特征图和所述背景特征图，得到前一帧图像的第二拼接特征图；对所述前一帧图像的第二拼接特征图进行池化，得到的池化特征图为所述待拼接特征图；以及，

步骤113，基于所述当前帧图像的第一特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

在一实施例中，所述基于所述当前帧图像的第一特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果，包括：拼接所述当前帧图像的第一特征图和所述待拼接特征图，得到当前帧图像的第一拼接特征图，以所述当前帧图像的第一拼接特征图作为所述语义分割神经网络中位于所述第一卷积层后序的操作层的输入，继续所述语义分割神经网络的运算操作，用以获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

本发明实施例2中，进一步地以所述前一帧图像经语义分割神经网络输出的蒙版为参照对所述前一帧图像的第一特征图进行前景特征图和背景特征图的分割，将分割得到的前一帧图像的前景特征图和背景的特征图融入当前帧图像的分割，能够大大提升视频语义分割效果。

进一步地，所述视频处理方法还包括：以当前帧图像作为语义分割神经网络的输入，获取并存储所述语义分割神经网络输出的所述当前帧图像的第一蒙版，用以在对所述当前帧图像的后一帧图像进行语义分割时，基于所述当前帧图像的第一蒙版将所述当前帧图像的第一特征图分割为所述当前帧图像的前景特征图和背景特征图，以供针对所述当前帧图像的后一帧图像获取待拼接特征图时使用。

实施例3：

前述实施例中的第一特征图表示的是所述所述语义分割神经网络在第一卷积层输出的所有第一特征图，针对每个第一特征图，均进行所述步骤13的拼接。

在本实施例3中，如图7所示，所述视频处理方法包括：

步骤211，以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图，所述当前帧图像的第一特征图的数量为n，n为大于1的自然数；

步骤212，获取所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，所述前一帧图像的第一特征图的数量为n，其中，所述前一帧图像的第i个第一特征图与所述当前帧图像的第i个第一特征图对应；并基于所述前一帧图像的第一特征图中的每个第一特征图对应获取待拼接特征图，因此待拼接特征图的数量也为n；以及，

步骤213，对应拼接所述当前帧图像的第一特征图和所述待拼接特征图，得到当前帧图像的第一拼接特征图，所述当前帧图像的第一拼接特征图的数量也为n；以所述当前帧图像的针对所述一个特征图的第一拼接特征图作为所述语义分割神经网络中位于所述第一卷积层后序的操作层的输入，继续所述语义分割神经网络的运算操作，用以获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

本发明实施例提出的视频处理方法同样适用于第一卷积层输出的特征图为多个的情形。基于同样的思路，本领域技术人员能够理解前述实施例的实现方式。

本发明实施例还提出了一种视频处理装置，包括：

获取模块，用于以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在一个或多个操作层输出的当前帧图像的特征图；并基于所述语义分割神经网络在任意一个或多个操作层输出的非当前帧图像的特征图，获取待拼接特征图；以及，

分割模块，基于所述当前帧图像的特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

优选的，本发明实施例还提出了一种视频处理装置，包括：

获取模块，用于以当前帧图像的前一帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图(feature map)；并基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图；以及，

分割模块，用于基于所述当前帧图像的第一特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果。

本发明实施例提出的视频处理装置，在对当前帧图像进行语义分割时，融入了前一帧图像的信息，从而利用了时间信息，可以提高稳定性，确保边缘不会变化，防止分割视频抖动，分割准确。

本领域技术人员可以理解，所述当前帧图像可以为视频的第二帧图像开始的任何一帧图像；第一卷积层可以为语义分割神经网络中的任意一个卷积层(如果有多个卷积层的话)，可以是排序第一的卷积层，也可以是其他的卷积层。获取模块和分割模块可以位于同一执行主体，也可以位于不同执行主体。

本发明实施例提出的装置的执行主体不限，例如可以是手机、PC、服务器等电子设备。可以应用本发明实施例的方法的示例性系统架构可以包括一个或多个终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备通过网络与服务器交互，以接收或发送图片等。终端设备上可以安装有各种通讯客户端应用，例如图片查看软件、图片处理软件、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备可以是具有显示屏并且支持图片查看的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务器可以是提供各种服务的服务器，例如对终端设备上显示的图片提供支持的后台图片处理服务器。后台图片处理服务器可以对接收到的待处理图片等进行分析处理，并将处理结果(例如生成的目标图片)反馈给终端设备。本领域技术人员可以理解，上述关于终端设备、网络和服务器的描述仅仅是示意性的。根据实现需要，可以配备终端设备、网络和服务器。

进一步地，所述视频处理装置还包括：存储模块，用于获取并存储所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图，以备处理当前帧图像的后一帧图像时使用。

在一实施例中，所述存储模块包括两个存储区域，用于存储前后两帧图像的第一特征图，并且所述两个存储区域交替更新存储的内容。具体来说，在对当前帧图像Fi进行语义分割时，所述两个存储区域中的第一存储区域存储所述前一帧图像F(i-1)的第一特征图，第二存储区域存储所述当前帧图像Fi的第一特征图；在对当前帧图像Fi的后一帧图像F(i+1)进行语义分割时，所述两个存储区域中的第一存储区域存储所述后一帧图像F(i+1)的第一特征图，第二存储区域仍然存储所述当前帧图像Fi的第一特征图；在对当前帧图像Fi的再后一帧图像F(i+2)进行语义分割时，所述两个存储区域中的第一存储区域仍然存储所述后一帧图像F(i+1)的第一特征图，第二存储区域存储所述再后一帧图像F(i+2)的第一特征图。

在一实施例中，所述基于所述当前帧图像的第一特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果，包括：

在一实施例中，所述语义分割神经网络的第一卷积层输出的前一帧图像的第一特征图的获取包括：在对所述前一帧图像进行语义分割时，存储前一帧图像在语义分割神经网络的第一卷积层输出的第一特征图，在对所述当前帧图像进行语义分割时，读取存储的所述前一帧图像的第一特征图。在另一实施例中，所述语义分割神经网络的第一卷积层输出的前一帧图像的第一特征图的获取包括：在对当前帧图像进行语义分割时，既输入当前帧图像，也输入前一帧图像，即当前帧图像和前一帧图像同时输入，从而能够获取前一帧图像在语义分割神经网络的第一卷积层输出的第一特征图。

本发明实施例通过将前后两帧图像在语义分割神经网络的同一卷积层的输出进行拼接，并以此作为该卷积层后序操作层的输入，从而将前一帧图像的信息融合到当前帧图像中，从而利用了时间信息，可以提高稳定性，确保边缘不会变化，防止分割视频抖动，分割准确。

在本发明实施例中，所述拼接表示的含义是增加通道，一般来说，一个特征图(feature map)称为一个通道，那么n个特征图就是n个通道，如果将m个特征图和n个特征图拼接，那么拼接后就得到(m+n)个特征图，即(m+n)个通道。所述语义分割神经网络可以采用FCN(全卷积神经网络)、Unet、DeconvNet、SegNet等已有神经网络。

在一实施例中，所述基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图包括：

获取所述语义分割神经网络输出的所述前一帧图像的第一特征图和所述前一帧图像的第一蒙版(mask)；

基于所述前一帧图像的第一蒙版将所述前一帧图像的第一特征图分割为所述前一帧图像的前景特征图和背景特征图；

拼接所述前景特征图和所述背景特征图，得到前一帧图像的第二拼接特征图；以及，

本实施例中采用池化的方法对所述前一帧图像的第二拼接特征图进行处理，本领域技术人员知晓，池化方法例如可以包括平均池化、最大池化等。

本发明实施例提出的视频处理装置进一步地以所述前一帧图像经语义分割神经网络输出的蒙版为参照对所述前一帧图像的第一特征图进行前景特征图和背景特征图的分割，将分割得到的前一帧图像的前景特征图和背景的特征图融入当前帧图像的分割，能够大大提升视频语义分割效果。

本发明实施例提出的视频处理装置与前述视频处理方法相同的内容不再进行赘述，本领域技术人员结合前述对视频处理方法的描述即可理解视频处理装置的实现方式。

本发明实施例还提出一种计算机可读存储介质，存储有执行前述方法的计算机程序。

本发明实施例还提出一种电子设备，包括处理器和操作上与所述处理器连接的上述计算机可读存储介质，所述处理器运行执行计算机可读介质中的计算机程序。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上，对本发明的实施方式进行了说明。但是，本发明不限定于上述实施方式。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述当前帧图像的特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果，包括：

3.如权利要求1所述的方法，其特征在于，所述方法包括：

以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图；

4.如权利要求3所述的方法，其特征在于，所述基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图；包括：

5.如权利要求3所述的方法，其特征在于，所述以当前帧图像作为语义分割神经网络的输入，获取所述语义分割神经网络在第一卷积层输出的当前帧图像的第一特征图；基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图；包括：

6.根据权利要求3所述的方法，其特征在于，所述基于所述当前帧图像的第一特征图和所述待拼接特征图，获取所述语义分割神经网络针对所述当前帧图像的语义分割结果，包括：

7.根据权利要求3或6所述的方法，其特征在于，所述基于所述语义分割神经网络在第一卷积层输出的前一帧图像的第一特征图，获取待拼接特征图，包括：

8.根据权利要求7所述的方法，其特征在于，所述视频处理方法还包括：获取并存储所述语义分割神经网络输出的所述当前帧图像的第一蒙版，以便针对所述当前帧图像的后一帧图像进行语义分割时使用。

9.根据权利要求7所述的方法，其特征在于，所述池化采用平均池化的方法。

10.一种计算机可读存储介质，其特征在于，存储有执行如权利要求1-9中任一项所述方法的计算机程序。

11.一种电子设备，其特征在于，包括处理器和操作上与所述处理器连接的如权利要求10所述的计算机可读存储介质，所述处理器运行执行计算机可读介质中的计算机程序。