CN110852202A

CN110852202A - 一种视频分割方法及装置、计算设备、存储介质

Info

Publication number: CN110852202A
Application number: CN201911032207.6A
Authority: CN
Inventors: 吉长江
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-28

Abstract

本申请公开了一种视频分割方法及装置、计算设备、读存储介质。所述方法包括对convLSTM模型进行改进，将convLSTM模型中每个单元的每个卷积的W*Y操作都转换为W^W*(W^h*Y)操作；采用改进的convLSTM模型进行视频分割。所述装置包括模型改进模块和视频分割模块。所述计算设备包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现本发明所述的方法。所述存储介质内存储有计算机程序，所述计算机程序在由处理器执行时实现本发明所述的方法。改进后的convLSTM模型具有空间可分离性，能够降低模型的计算开销，提高模型的效率。

Description

一种视频分割方法及装置、计算设备、存储介质

技术领域

本申请涉及视频分割技术，特别是涉及视频分割方法及装置、计算设备、存储介质。

背景技术

视频分割是计算机视觉领域的重要研究热点，它是指给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签，在视频处理领域具有广阔应用前景。视频数据的获取一定程度上并不困难，但视频数据本身有很强的冗余性和不确定性，我们可以直接将视频转换为一帧一帧的图像送入图像分割模型，但是这样势必会带来巨大的计算开销，并且由于场景中运动物体的变化，也会导致分割结果不稳定性。所以目前视频语义分割的主要研究重点主要有两个方向：第一个是如何利用视频帧之间的时序信息来提高图像分割的精度，第二个是如何利用帧之间的相似性来减少模型计算量，提高模型的运行速度和吞吐量。目前流行的视频分割网络为LSTM模型以及其扩展模型，它们都是属于RNN((RecurrentNeural Networks，循环神经网络)网络，可以考虑前后帧的图像信息以提高当前帧的分割精度。例如LSTM模型的扩展模型convLSTM(Convolutional LSTM，卷积LSTM)常用于在视频分割领域中，他使用了图像的时间序列信息因此可以减少图像的闪烁对象以此提高视频分割的精度。但将convLSTM用于视频分割有一个重要的问题在于计算成本太高，该网络中参数众多极大的增加了模型的计算消耗。有一些学者在计算消耗问题上进行改进，以提高模型的计算效率，例如将LSTM单元划分为小的独立特征组，并且每个组的输出在末尾连接到公共特征图或是分解LSTM单元，这种方法的优点是可以减少模型的参数但在时间消耗上却并没有太大的改进。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种视频分割方法，包括：

对convLSTM模型进行改进，将convLSTM模型中每个单元的每个卷积的W*Y操作都转换为W^W*(W^h*Y)操作，其中，W是K_x×K_y大小的滤波器内核，W^h和W^W分别是K_x×1和1×K_y大小的滤波器内核；

采用改进的convLSTM模型进行视频分割。

可选地，K_x＝K_y。

可选地，K_x＝K_y＝3，且输入通道与输出通道的数量均为128。

根据本申请的另一个方面，提供了一种视频分割装置，包括：

模型改进模块，其配置成对convLSTM模型进行改进，将convLSTM模型中每个单元的每个卷积的W*Y操作都转换为W^W*(W^h*Y)操作，其中，W是K_x×K_y大小的滤波器内核，W^h和W^W分别是K_x×1和1×K_y大小的滤波器内核；

视频分割模块，其配置成采用改进的convLSTM模型进行视频分割。

可选地，K_x＝K_y。

可选地，K_x＝K_y＝3，且输入通道与输出通道的数量均为128。

根据本申请的另一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现本发明所述的方法。

根据本申请的另一个方面，提供了一种存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现本发明所述的方法。

本申请的视频分割方法及装置、计算设备、以及存储介质，由于将convLSTM模型中每个单元的每个卷积的W*Y操作都转换为W^W*(W^h*Y)操作，(W是K_x×K_y大小的滤波器内核，W^h和W^W分别是K_x×1和1×K_y大小的滤波器内核)，使得改进后的convLSTM模型具有空间可分离性，因此，降低了模型的计算开销，提高了模型的效率。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的一种视频分割方法的示意性流程图；

图2是根据本申请一个实施例的一种视频分割装置的示意性结构框图；

图3是根据本申请一个实施例的一种计算设备的示意性结构框图；

图4是根据本申请一个实施例的一种存储介质的示意性结构框图。

具体实施方式

减少FLOPs数量和参数数量的一种可能性是用n×1的convLSTM层替换n×n的convLSTM层，然后用类似于Inception V3模块的1×nconvLSTM层的方法改进模型，然而convLSTM层不仅包括卷积，还包括其他消耗计算内存的操作，如激活函数或元素乘法，在这种情况下这些操作必须应用两次，又再次加大了模型的计算消耗。因此，更有效的方式是在内部而不是在convLSTM单元外部执行空间分离，使得剩余的操作仅执行一次。

图1是根据本申请一个实施例的一种视频分割方法的示意性流程图，所述方法一般性地可包括：

S1、对convLSTM模型进行改进，将convLSTM模型中每个单元的每个卷积的W*Y操作都转换为W^W*(W^h*Y)操作，其中，W是K_x×K_y大小的滤波器内核，W^h和W^W分别是K_x×1和1×K_y大小的滤波器内核，这样模型就具有了空间可分离性；

S2、采用改进的convLSTM模型进行视频分割。

本实施方式提出的视频分割方法是一种基于空间可分离卷积LSTM的视频分割方法，旨在针对convLSTM模型现有的问题进行改进，以提高模型的计算效率，降低计算内存的消耗。本实施方式采用FLOPs(floating-point operations per second)作为定量的计算内存消耗的指标，FLOPs具体是指“每秒所执行的浮点运算次数”，常被用来估计电脑的执行效能，尤其是在使用到大量浮点运算的科学计算领域中，因此本实施方式用它来代表计算消耗的指标，FLOPs的值越小则代表计算消耗越小。

首先将计算传统convLSTM模型的FLOPs，传统convLSTM模型由输入门、忘记门、输出门、单元、隐藏层(input gate,forget gate,output gate,cell,hidden)组成，它们之间的关系和计算公式如公式1所示:

I_t＝σ(W_xi*X_t+W_hi*H_t-1+b_i)

F_t＝σ(W_xf*X_t+W_hf*H_t-1+b_f)

O_t＝σ(W_xo*X_t+W_ho*H_t-1+b_o)

C_t＝F_tC_t-1+I_ttanh(W_xc*X_t+W_hc*H_t-1+b_c)

H_t＝O_t tanh(C_t) (公式1)

其中I_t、F_t、O_t、C_t、以及H_t分别代表输入门、忘记门、输出门、单元和隐藏层，σ代表模型的Sigmoid函数的激活操作，*代表卷积操作，代表Hadamard积，X代表模型的输入，其下标t代表输入时刻，W代表权重矩阵，W的不同的下标xi、hi、xf、hf、xo、xc、以及hc代表了在模型的不同结构中的不同权重矩阵，b代表了偏差。假设激活函数Sigmoid和tanh需要5个FLOPs，使用的滤波器内核大小为K_x×K_y，特征图的大小为D_x×D_y，输入通道的数量为I，输出通道的数量为O。

传统的convLSTM模型的每一个运算中FLOPs大小的计算情况如下，根据公式1所示，一共包含了5种运算，分别为卷积*、Hadamard积、Sigmoid函数的激活操作σ、tanh的激活操作tanh、以及加法操作+。分别计算每一种操作的FLOPs大小：

卷积*：

公式1中卷积操作一共有8个，那么FLOPs的数量为：8·2·K_x·K_y·I·O·D_x·D_y。

Hadamard积：

公式1中的Hadamard积操作一共有3个，那么FLOPs的数量为：3·O·D_x·D_y。

Sigmoid函数的激活操作σ：

公式1中的Sigmoid函数的激活操作一共有3个，那么FLOPs的数量为：3·5·O·D_x·D_y。

tanh的激活操作tanh：

公式1中的tanh的激活操作一共有2个，那么FLOPs的数量为：2·5·O·D_x·D_y。

加法操作+：

公式1中的加法操作一共有9个，那么FLOPs的数量为：9·O·D_x·D_y。

所有的FLOPs的数量为5种运算的FLOPs数量加和，即为(16·K_x·K_y·I+37)·O·D_x·D_y。

下面计算本实施方式的视频分割方法中改进的convLSTM模型的FLOPs的数量，计算公式如公式2所示：

H_t＝O_totanh(C_t) (公式2)

对比公式1和公式2可知，卷积运算*由原来的8个变为了16个。

在K_x＝K_y时，模型的总体FLOPs数量为：(32·K_x·I+37)·O·D_x·D_y，因此改进的模型的计算开销将减少到：

当K_x＝K_y＝3且I＝O＝128的情况下，理论上可以产生66.73％的加速。

因此本实施方式的改进后的convLSTM模型具有空间可分离性，形成了基于空间可分离卷积LSTM的视频分割模型，降低了模型的计算开销，提高了模型的效率。

图2是根据本申请一个实施例的一种视频分割装置的示意性结构框图，所述装置一般性地可包括：

模型改进模块1，其配置成对convLSTM模型进行改进，将convLSTM模型中每个单元的每个卷积的W*Y操作都转换为WW*(W^h*Y)操作，其中，W是K_x×K_y大小的滤波器内核，W^h和W^W分别是K_x×1和1×K_y大小的滤波器内核；这样模型就具有了空间可分离性；

视频分割模块2，其配置成采用改进的convLSTM模型进行视频分割。

本实施方式提出的视频分割装置是一种基于空间可分离卷积LSTM的视频分割装置，旨在针对convLSTM模型现有的问题进行改进，以提高模型的计算效率，降低计算内存的消耗。本实施方式采用FLOPs(floating-point operations per second)作为定量的计算内存消耗的指标，FLOPs具体是指“每秒所执行的浮点运算次数”，常被用来估计电脑的执行效能，尤其是在使用到大量浮点运算的科学计算领域中，因此本实施方式用它来代表计算消耗的指标，FLOPs的值越小则代表计算消耗越小。

I_t＝σ(W_xi*X_t+W_hi*H_t-1+b_i)

F_t＝σ(W_xf*X_t+W_hf*H_t-1+b_f)

O_t＝σ(W_xo*X_t+W_ho*H_t-1+b_o)

C_t＝F_tC_t-1+I_ttanh(W_xc*X_t+W_hc*H_t-1+b_c)

H_t＝O_t tanh(C_t) (公式1)

卷积*：

Hadamard积：

Sigmoid函数的激活操作σ：

tanh的激活操作tanh：

加法操作+：

下面计算本实施方式的视频分割装置中改进的convLSTM模型的FLOPs的数量，计算公式如公式2所示：

H_t＝O_t otanh(C_t) (公式2)

对比公式1和公式2可知，卷积运算*由原来的8个变为了16个。

本申请实施例还提供了一种计算设备，参照图3，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读的存储介质。参照图4，该存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在存储介质中，或者从一个存储介质向另一个存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidStateDisk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：opticaldisc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频分割方法，包括：

采用改进的convLSTM模型进行视频分割。

2.根据权利要求1所述的方法，其特征在于，K_x＝K_y。

3.根据权利要求2所述的方法，其特征在于，K_x＝K_y＝3，且输入通道与输出通道的数量均为128。

4.一种视频分割装置，包括：

5.根据权利要求4所述的装置，其特征在于，K_x＝K_y。

6.根据权利要求5所述的装置，其特征在于，K_x＝K_y＝3，且输入通道与输出通道的数量均为128。

7.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。

8.一种存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1-3中任一项所述的方法。