CN111860386B

CN111860386B - 一种基于ConvLSTM卷积神经网络的视频语义分割方法

Info

Publication number: CN111860386B
Application number: CN202010732937.3A
Authority: CN
Inventors: 元辉; 周兰; 黄文俊
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2022-04-08
Anticipated expiration: 2040-07-27
Also published as: CN111860386A

Abstract

本发明涉及一种基于ConvLSTM卷积神经网络的视频语义分割方法，包括以下步骤：A、构建并训练视频语义分割网络(1)获取数据集；(2)构建视频语义分割网络；(3)训练视频语义分割网络；(4)测试视频语义分割网络分割的准确度；B、通过训练好的视频语义分割网络结构进行视频语义分割。本发明通过采用ConvLSTM模块考虑视频相邻帧之间的相关性，提高视频语义分割的准确度。本发明还采用了密集连接块、密集连接的空洞空间金字塔池化模块，使得特征和梯度的传递更加有效，解决了深度网络训练过程中的梯度消失问题，并且能够系统地聚合多尺度上下文信息，扩大感受野。

Description

一种基于ConvLSTM卷积神经网络的视频语义分割方法

技术领域

本发明涉及一种基于ConvLSTM卷积神经网络的视频语义分割方法，属于计算机视觉技术领域。

背景技术

神经网络是一种模拟大脑神经系统的机器学习技术，通过学习，网络能够具有特定的非线性表达能力。增加网络层的数量可以提高神经网络的表达性能，目前，深层神经网络已经成为深度学习的基础。

在前馈神经网络的研究基础上，卷积神经网络(Convolutional NeuralNetworks,CNN)、循环神经网络(Recurrent Neural Network,RNN)已成为研究的热点并得到了广泛应用。

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，能够对特征进行有效地提取，在图像处理方面表现出色，目前已经被大范围使用到图像分类、定位等领域中，另外卷积层间的稀疏连接使得网络需要的参数相对较少。

在循环神经网络中，隐藏层的神经元之间也建立连接，上一时刻神经元的信息会通过权值与下一时刻的神经元相连接，这种反馈机制使得RNN能够处理输入之间前后关联的数据。长短期记忆网络(Long Short-Term Memory，LSTM)是RNN的变种，引入输入门、遗忘门和输出门，通过“门”的机制解决了RNN中存在的梯度消失问题，同时具有长期记忆和短期记忆。LSTM可以很好地处理时序数据，但不能刻画空间数据的局部特征，对于空间数据存在冗余。ConvLSTM是LSTM的变种，它将输入与状态、状态与状态之间的前向全连接计算更换为卷积运算，结合了CNN和LSTM，不仅具有时序建模能力，而且还能像CNN一样提取局部特征。

目前，神经网络因其强大的学习和表征能力而被广泛应用于计算机视觉领域。计算机视觉又称为机器视觉，是使用计算机及相关设备对生物视觉的一种模拟，包含诸多不同的研究方向，语义分割是其中热门研究方向之一。

语义分割可以看作是一种特殊的分类，即对图像中的每个像素做分类，不区分同类物体，只关心像素，应用领域包括自动驾驶、视频监控、医疗影像分析、人机交互、虚拟现实与增强现实等。图像语义分割就是从像素级别理解图片，给图像上的每一个像素赋予一个带有语义的标签，视频语义分割就是给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。由于视频本质上就是多幅图像，因此视频语义分割是基于图像语义分割实现的。

目前，用于图像语义分割的网络都得益于2015年提出的全卷积神经网络(FullyConvolutional Network，FCN)，随后残差连接、空洞卷积、金字塔池化、密集连接等网络模块的提出和使用大大提升了网络的性能。与单独的图像不同，视频相邻的帧之间具有很强的相关性，每一帧都不是独立存在的。现有的研究方法对视频中的每一帧依次进行图像语义分割，虽然可以达到语义分割的要求，但这种方法忽略了视频相邻帧之间内在的相关性。因此，为了对视频进行准确的语义分割，需要在图像语义分割的基础上，充分考虑帧之间的时序信息。

发明内容

针对现有技术的不足，本发明提出了一种基于ConvLSTM卷积神经网络的视频语义分割方法，通过该方法可以提升视频语义分割的准确度。

本发明的技术方案为：

一种基于ConvLSTM卷积神经网络的视频语义分割方法，包括以下步骤：

A、构建并训练视频语义分割网络

(1)获取数据集

神经网络需要通过大量的数据来进行学习，大部分网络采用监督学习的方式，即在网络训练过程中输入数据具有相应的标注数据。训练集中的输入数据即数据集为视频序列，数据集相应的标注数据为语义分割后的结果图像；在视频语义分割中，由于视频包含的帧较多，因此一个视频序列中只有若干帧具有对应的标注图像，在Cityscapes数据集中，每一个视频序列具有30帧，其中第20帧具有标注信息。

(2)构建视频语义分割网络

本发明在图像语义分割网络的基础上，采用ConvLSTM模块来捕捉视频相邻帧之间的相关性，以提高视频语义分割的准确度。

所述视频语义分割网络包括依次连接的卷积层、若干个密集连接块(DenseBlock)、密集连接的空洞空间金字塔池化模块(DenseAtrousSpatial PyramidPoolingBlock，DenseAsppBlock)、ConvLSTM模块、上采样层；

所述卷积层用于提取输入图像的特征，输入图像的特征包括边缘、角点、纹理、形状；卷积层数越深，提取到的特征语义程度越高。

所述密集连接块用于：每个密集连接块将之前所有密集连接块的特征进行拼接作为输入，并将输出的特征图传递给之后的所有密集连接块。密集连接块中网络的每一层都接受它前面所有层的特征作为输入，并将产生的特征图传递给之后的所有层，每一层都可以直接利用损失函数的梯度以及最开始的输入信息，可以减轻视频语义分割网络训练过程中的梯度消失现象，并加强特征的传递，使得特征和梯度的传递更加有效。

所述空洞空间金字塔池化模块用于将所述密集连接块的输出送入不同的空洞卷积分支，各个空洞卷积分支采用不同采样率的空洞卷积进行并行计算，将所述密集连接块的输出和各个空洞卷积分支提取的特征按照通道维度进行拼接融合；

DenseAsppBlock就是在ASPP中不同采样率的分支之间采用密集连接，可以捕捉多尺度的信息，能够在不丢失分辨率的情况下系统地聚合多尺度上下文信息，扩大感受野。

ConvLSTM模块即ConvLSTM卷积神经网络用于：通过遗忘门、输入门、输出门来控制信息的保留程度，并且在输入与状态和状态与状态的计算中采用卷积运算。

通过遗忘门、输入门、输出门来控制信息的保留程度，遗忘门、输入门、输出门分别都由一个Sigmoid神经网络层和一个点乘法运算组成，Sigmoid神经网络层的输出在0到1之间，表示控制信息通过的程度，0表示不通过任何信息，1表示全部通过；网络当前时刻的输入为上一时刻的状态和当前时刻的输入信息，遗忘门决定着从之前的状态中丢弃什么信息，输入门决定在当前状态中保存什么信息，输出门决定当前时刻输出什么信息。ConvLSTM将LSTM中输入与状态的前向全连接计算更改为卷积运算，因此，ConvLSTM结合了LSTM和CNN，不仅具有时序建模能力，而且还能像CNN一样提取图像的局部特征。当前帧的信息通过ConvLSTM传递到下一帧，网络可以利用视频相邻帧之间的相关性，以此来提升分割结果的准确度。

上采样层通过双线性插值方法将ConvLSTM模块得到的结果图像调整到原大小；

(3)训练视频语义分割网络

利用步骤(1)获取的数据集中训练集的数据对视频语义分割网络进行训练，通过梯度下降和反向传播对网络中的权重参数进行不断优化；

(4)测试视频语义分割网络分割的准确度

利用步骤(1)获取的数据集中验证集的数据对视频语义分割网络的性能进行测试，先通过网络生成语义分割结果图像，后根据相应的标注数据计算分割结果的准确度。

B、通过训练好的视频语义分割网络进行视频语义分割

将需要语义分割的视频序列输入训练好的视频语义分割网络，得到最终的结果。

根据本发明优选的，目前有不同的用于语义分割的公开数据集，步骤(1)中，数据集为Cityscapes数据集。Cityscapes数据集包含来自50个不同城市的街道场景中记录的多种视频序列，包括20000个弱注释帧和5000帧的高质量像素级注释，可以从其官网进行下载。

根据本发明优选的，所述视频语义分割网络包括四个依次连接的密集连接块，四个依次连接的密集连接块中的密集连接的网络层数分别为6、12、36、24。

根据本发明优选的，所述空洞空间金字塔池化模块采用五个不同采样率的空洞卷积分支，五个不同采样率的空洞卷积分支的采样率分别为3、6、12、18、24。

根据本发明优选的，在所述ConvLSTM模块的前后分别使用1*1卷积层。来实现降低特征通道维数和升高特征通道维数，以减少网络参数。

根据本发明优选的，执行步骤(3)之前，对数据集中训练集的数据进行数据增广，包括：对训练集的数据进行随机水平翻转、随机亮度调整和随机裁剪，扩大训练集的数据。从而避免网络发生过拟合，提高网络的泛化能力。

根据本发明优选的，步骤(3)中，采用学习率衰减策略训练视频语义分割网络。随着迭代次数增加，学习率逐渐减小，可以保证模型在训练后期不会有太大的波动，从而更加接近最优解。

进一步优选的，设置初始学习率l₀为0.0003，训练过程中学习率l通过式(I)进行衰减：

式(I)中，epoch_num指当前视频语义分割网络训练迭代次数，max_epoch_num指视频语义分割网络训练最大迭代次数。

根据本发明优选的，步骤(4)中，通常使用mIoU(mean Intersection overUnion)，衡量语义分割的准确度，mIoU指所有类别的平均IoU，IoU的求取如式(II)所示：

式(II)中，IoU是指每一个类别的交集与并集之比，在语义分割的问题中，这两个集合为真实值(ground truth)和预测值；

A4ea of Union指预测出的分割区域和标注图像的分割区域的并集，34ea ofOverlap指预测出的分割区域和标注图像的分割区域的交集，A_pred指预测出的分割区域，A_true指标注图像的分割区域。

本发明的有益效果为：

1.本发明提出了一种基于ConvLSTM卷积神经网络的视频语义分割方法，通过采用ConvLSTM模块考虑视频相邻帧之间的相关性，提高视频语义分割的准确度。

2.本发明的网络结构中除了具有普通的卷积层和ConvLSTM模块，还采用了密集连接块、密集连接的空洞空间金字塔池化模块，使得特征和梯度的传递更加有效，解决了深度网络训练过程中的梯度消失问题，并且能够系统地聚合多尺度上下文信息，扩大感受野。

3.本发明在训练网络的过程中对数据进行了数据增广，并采用学习率衰减策略，有效避免了网络训练过程中的过拟合现象，提高了网络的泛化能力。

附图说明

图1是本发明ConvLSTM模块的结构示意图；

图2是密集连接块的结构示意图；

图3(a)是卷积核为3*3的卷积示意图；

图3(b)是卷积核为3*3，采样率为2的空洞卷积示意图；

图4是密集连接的空洞空间金字塔池化模块的结构示意图；

图5是本发明视频语义分割网络的结构示意图；

图6(a)是测试视频的其中一帧图像示意图；

图6(b)是采用已有网络对图6(a)处理后得到的分割结果图像示意图；

图6(c)是采用本发明方法对图6(a)处理后得到的分割结果图像示意图；

图6(d)是该图像的标注结果图像示意图；

图7(a)是测试视频的其中另一帧图像示意图；

图7(b)是采用已有网络对图7(a)处理后得到的分割结果图像示意图；

图7(c)是采用本发明方法对图7(a)处理后得到的分割结果图像示意图；

图7(d)是该图像的标注结果图像。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

A、构建并训练视频语义分割网络

(1)获取数据集

神经网络需要通过大量的数据来进行学习，大部分网络采用监督学习的方式，即在网络训练过程中输入数据具有相应的标注数据。训练集中的输入数据即数据集为视频序列，数据集相应的标注数据为语义分割后的结果图像；在视频语义分割中，由于视频包含的帧较多，因此一个视频序列中只有若干帧具有对应的标注图像，在Cityscapes数据集中，每一个视频序列具有30帧，其中第20帧具有标注信息。数据集为Cityscapes数据集。Cityscapes数据集包含来自50个不同城市的街道场景中记录的多种视频序列，包括20000个弱注释帧和5000帧的高质量像素级注释，可以从其官网进行下载。

(2)构建视频语义分割网络

如图5所示，视频语义分割网络包括依次连接的卷积层、若干个密集连接块(DenseBlock)、密集连接的空洞空间金字塔池化模块(DenseAtrousSpatial PyramidPoolingBlock，DenseAsppBlock)、ConvLSTM模块、上采样层；

卷积层用于提取输入图像的特征，输入图像的特征包括边缘、角点、纹理、形状；卷积层数越深，提取到的特征语义程度越高。提取输入图像的特征的方法是通过现有的卷积层运算，卷积层的主要作用就是提取图像的各种特征图(feature map)，通过卷积运算来完成。卷积运算，主要是通过设定各种特征提取滤波器矩阵即卷积核(通常设定大小为3x3或者5x5的矩阵)，使用该卷积核在原图像矩阵滑动，实现卷积运算。

密集连接块用于：每个密集连接块将之前所有密集连接块的特征进行拼接作为输入，并将输出的特征图传递给之后的所有密集连接块。密集连接块中网络的每一层都接受它前面所有层的特征作为输入，并将产生的特征图传递给之后的所有层，每一层都可以直接利用损失函数的梯度以及最开始的输入信息，可以减轻视频语义分割网络训练过程中的梯度消失现象，并加强特征的传递，使得特征和梯度的传递更加有效。视频语义分割网络包括四个依次连接的密集连接块，四个依次连接的密集连接块中的密集连接的网络层数分别为6、12、36、24。如图2所示，网络层数为4层的一个密集连接块包括H₁、H₂、H₃、H₄，x₀是密集连接块的输入特征图，H₁的输入是x₀，H₁的输出是x₁，H₂的输入是x₀和x₁按通道拼接后的结果，H₂的输出是x₂，H₃的输入是x₀、x₁、x₂按通道拼接后的结果，H₃的输出是x₃，H₄的输入是x₀、x₁、x₂、x₃按通道拼接后的结果，H₄的输出是x₄。

空洞空间金字塔池化模块用于将所述密集连接块的输出送入不同的空洞卷积分支，各个空洞卷积分支采用不同采样率的空洞卷积进行并行计算，将所述密集连接块的输出和各个空洞卷积分支提取的特征按照通道维度进行拼接融合；空洞空间金字塔池化模块采用五个不同采样率的空洞卷积分支，五个不同采样率的空洞卷积分支的采样率分别为3、6、12、18、24。空洞空间金字塔池化模块的结构如图4所示。采样率指卷积核的间隔数量，当采样率为1时，空洞卷积就是普通的卷积运算，如图3(a)所示，当采样率大于1时，扩张后的卷积核对输入数据进行采样计算，如图3(b)所示。

ConvLSTM模块即ConvLSTM卷积神经网络用于：通过遗忘门、输入门、输出门来控制信息的保留程度，并且在输入与状态和状态与状态的计算中采用卷积运算。通过遗忘门、输入门、输出门来控制信息的保留程度，遗忘门、输入门、输出门分别都由一个Sigmoid神经网络层和一个点乘法运算组成，Sigmoid神经网络层的输出在0到1之间，表示控制信息通过的程度，0表示不通过任何信息，1表示全部通过；网络当前时刻的输入为上一时刻的状态和当前时刻的输入信息，遗忘门决定着从之前的状态中丢弃什么信息，输入门决定在当前状态中保存什么信息，输出门决定当前时刻输出什么信息。ConvLSTM将LSTM中输入与状态的前向全连接计算更改为卷积运算，因此，ConvLSTM结合了LSTM和CNN，不仅具有时序建模能力，而且还能像CNN一样提取图像的局部特征。当前帧的信息通过ConvLSTM传递到下一帧，网络可以利用视频相邻帧之间的相关性，以此来提升分割结果的准确度。ConvLSTM模块的结构如图1所示，图1中，“A”代表ConvLSTM模块，结构同图1中的中间模块；x_t-1是上一时刻的输入，h_t-1是上一时刻的输出状态，x_t是当前时刻的输入，σ是Sigmoid激活函数，Banh是双曲正切激活函数，h_t是当前时刻的输出状态，x_t+1是下一时刻的输入，h_t+1是下一时刻的输出状态。

上一时刻的输出状态h_t-1和当前时刻的输入x_t经过Sigmoid激活函数，通过点乘运算构成遗忘门，作用于上一时刻的状态信息；上一时刻的输出状态h_t-1和当前时刻的输入x_t经过Sigmoid激活函数，通过点乘运算构成输入门，作用于当前时刻的输入信息；上一时刻的输出状态h_t-1和当前时刻的输入x_t经过Sigmoid激活函数，通过点乘运算构成输出门，作用于当前时刻的输出信息；

ConvLSTM模块的前后分别使用1*1卷积层，来实现降低特征通道维数和升高特征通道维数，以减少网络参数。

(3)训练视频语义分割网络

(4)测试视频语义分割网络分割的准确度

B、通过训练好的视频语义分割网络进行视频语义分割

实施例2

根据实施例1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法，其区别在于：

执行步骤(3)之前，对数据集中训练集的数据进行数据增广，包括：对训练集的数据进行随机水平翻转、随机亮度调整和随机裁剪，扩大训练集的数据。从而避免网络发生过拟合，提高网络的泛化能力。

步骤(3)中，采用学习率衰减策略训练视频语义分割网络。随着迭代次数增加，学习率逐渐减小，可以保证模型在训练后期不会有太大的波动，从而更加接近最优解。设置初始学习率l₀为0.0003，训练过程中学习率l通过式(I)进行衰减：

步骤(4)中，衡量语义分割的准确度通常使用mIoU(mean Intersection overUnion)，mIoU指所有类别的平均IoU，IoU的求取如式(II)所示：

Area of Union指预测出的分割区域和标注图像的分割区域的并集，Area ofOverlap指预测出的分割区域和标注图像的分割区域的交集，A_pred指预测出的分割区域，A_true指标注图像的分割区域。

图6(a)是测试视频的其中一帧图像示意图；图6(b)是采用已有网络DenseASPP对图6(a)处理后得到的分割结果图像示意图；图6(c)是采用本发明方法对图6(a)处理后得到的分割结果图像示意图；图6(d)是该图像的标注结果图像示意图，即ground truth。

图7(a)是测试视频的其中另一帧图像；图7(b)是采用已有网络DenseASPP对图7(a)处理后得到的分割结果图像示意图；图7(c)是采用本发明方法对图7(a)处理后得到的分割结果图像示意图；图7(d)是该图像的标注结果图像，即ground truth。

本发明的效果可以通过实验进一步说明，本发明采用已有的DenseASPP作为基础的语义分割网络，表1比较了本发明和已有网络的语义分割结果的准确度。

表1

表1中第一行中的mIoU即前面提到的分割结果的准确度；road、sidewalk、building、wall、fence、pole、traffic light、traffic sign、vegetation、terrain、sky、person、rider、car、truck、bus、train、motorcycle及bicycle为测试集中包含的19个类别。

如表1所示，本发明得到的分割结果相比已有的网络，语义分割的准确度由76.08％提高到77.56％。实验结果表明，本发明可以有效提高视频语义分割的准确度。

Claims

1.一种基于ConvLSTM卷积神经网络的视频语义分割方法，其特征在于，包括以下步骤：

A、构建并训练视频语义分割网络

(1)获取数据集

训练集中的输入数据即数据集为视频序列，数据集相应的标注数据为语义分割后的结果图像；

(2)构建视频语义分割网络

所述视频语义分割网络包括依次连接的卷积层、若干个密集连接块、密集连接的空洞空间金字塔池化模块、ConvLSTM模块、上采样层；

所述卷积层用于提取输入图像的特征，输入图像的特征包括边缘、角点、纹理、形状；所述密集连接块用于：每个密集连接块将之前所有密集连接块的特征进行拼接作为输入，并将输出的特征图传递给之后的所有密集连接块；所述密集连接的空洞空间金字塔池化模块用于将所述密集连接块的输出送入不同的空洞卷积分支，各个空洞卷积分支采用不同采样率的空洞卷积进行并行计算，分支之间采用密集连接，将所述密集连接块的输出和各个空洞卷积分支提取的特征按照通道维度进行拼接融合；ConvLSTM模块即ConvLSTM卷积神经网络用于：通过遗忘门、输入门、输出门来控制信息的保留程度，并且在输入与状态和状态与状态的计算中采用卷积运算；上采样层通过双线性插值方法将ConvLSTM模块得到的结果图像调整到原大小；

(3)训练视频语义分割网络

(4)测试视频语义分割网络分割的准确度

利用步骤(1)获取的数据集中验证集的数据对视频语义分割网络的性能进行测试，先通过网络生成语义分割结果图像，后根据相应的标注数据计算分割结果的准确度；

B、通过训练好的视频语义分割网络进行视频语义分割

2.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法，其特征在于，步骤(1)中，数据集为Cityscapes数据集。

3.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法，其特征在于，所述视频语义分割网络包括四个依次连接的密集连接块，四个依次连接的密集连接块中的密集连接的网络层数分别为6、12、36、24。

4.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法，其特征在于，所述密集连接的空洞空间金字塔池化模块采用五个不同采样率的空洞卷积分支，五个不同采样率的空洞卷积分支的采样率分别为3、6、12、18、24。

5.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法，其特征在于，在所述ConvLSTM模块的前后分别使用1*1卷积层。

6.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法，其特征在于，执行步骤(3)之前，对数据集中训练集的数据进行数据增广，包括：对训练集的数据进行随机水平翻转、随机亮度调整和随机裁剪，扩大训练集的数据。

7.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法，其特征在于，步骤(3)中，采用学习率衰减策略训练视频语义分割网络。

8.根据权利要求7所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法，其特征在于，设置初始学习率l₀为0.0003，训练过程中学习率l通过式(I)进行衰减：

9.根据权利要求1-8任一所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法，其特征在于，步骤(4)中，分割结果的准确度mIoU指所有类别的平均IoU，IoU的求取如式(II)所示：

式(II)中，IoU是指每一个类别的交集与并集之比，在语义分割的问题中，这两个集合为真实值和预测值；Area of Union指预测出的分割区域和标注图像的分割区域的并集，Area of Overlap指预测出的分割区域和标注图像的分割区域的交集，A_pred指预测出的分割区域，A_true指标注图像的分割区域。