CN111860386B - 一种基于ConvLSTM卷积神经网络的视频语义分割方法 - Google Patents

一种基于ConvLSTM卷积神经网络的视频语义分割方法 Download PDF

Info

Publication number
CN111860386B
CN111860386B CN202010732937.3A CN202010732937A CN111860386B CN 111860386 B CN111860386 B CN 111860386B CN 202010732937 A CN202010732937 A CN 202010732937A CN 111860386 B CN111860386 B CN 111860386B
Authority
CN
China
Prior art keywords
semantic segmentation
network
video semantic
video
convlstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010732937.3A
Other languages
English (en)
Other versions
CN111860386A (zh
Inventor
元辉
周兰
黄文俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010732937.3A priority Critical patent/CN111860386B/zh
Publication of CN111860386A publication Critical patent/CN111860386A/zh
Application granted granted Critical
Publication of CN111860386B publication Critical patent/CN111860386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于ConvLSTM卷积神经网络的视频语义分割方法,包括以下步骤:A、构建并训练视频语义分割网络(1)获取数据集;(2)构建视频语义分割网络;(3)训练视频语义分割网络;(4)测试视频语义分割网络分割的准确度;B、通过训练好的视频语义分割网络结构进行视频语义分割。本发明通过采用ConvLSTM模块考虑视频相邻帧之间的相关性,提高视频语义分割的准确度。本发明还采用了密集连接块、密集连接的空洞空间金字塔池化模块,使得特征和梯度的传递更加有效,解决了深度网络训练过程中的梯度消失问题,并且能够系统地聚合多尺度上下文信息,扩大感受野。

Description

一种基于ConvLSTM卷积神经网络的视频语义分割方法
技术领域
本发明涉及一种基于ConvLSTM卷积神经网络的视频语义分割方法,属于计算机视觉技术领域。
背景技术
神经网络是一种模拟大脑神经系统的机器学习技术,通过学习,网络能够具有特定的非线性表达能力。增加网络层的数量可以提高神经网络的表达性能,目前,深层神经网络已经成为深度学习的基础。
在前馈神经网络的研究基础上,卷积神经网络(Convolutional NeuralNetworks,CNN)、循环神经网络(Recurrent Neural Network,RNN)已成为研究的热点并得到了广泛应用。
卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,能够对特征进行有效地提取,在图像处理方面表现出色,目前已经被大范围使用到图像分类、定位等领域中,另外卷积层间的稀疏连接使得网络需要的参数相对较少。
在循环神经网络中,隐藏层的神经元之间也建立连接,上一时刻神经元的信息会通过权值与下一时刻的神经元相连接,这种反馈机制使得RNN能够处理输入之间前后关联的数据。长短期记忆网络(Long Short-Term Memory,LSTM)是RNN的变种,引入输入门、遗忘门和输出门,通过“门”的机制解决了RNN中存在的梯度消失问题,同时具有长期记忆和短期记忆。LSTM可以很好地处理时序数据,但不能刻画空间数据的局部特征,对于空间数据存在冗余。ConvLSTM是LSTM的变种,它将输入与状态、状态与状态之间的前向全连接计算更换为卷积运算,结合了CNN和LSTM,不仅具有时序建模能力,而且还能像CNN一样提取局部特征。
目前,神经网络因其强大的学习和表征能力而被广泛应用于计算机视觉领域。计算机视觉又称为机器视觉,是使用计算机及相关设备对生物视觉的一种模拟,包含诸多不同的研究方向,语义分割是其中热门研究方向之一。
语义分割可以看作是一种特殊的分类,即对图像中的每个像素做分类,不区分同类物体,只关心像素,应用领域包括自动驾驶、视频监控、医疗影像分析、人机交互、虚拟现实与增强现实等。图像语义分割就是从像素级别理解图片,给图像上的每一个像素赋予一个带有语义的标签,视频语义分割就是给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签。由于视频本质上就是多幅图像,因此视频语义分割是基于图像语义分割实现的。
目前,用于图像语义分割的网络都得益于2015年提出的全卷积神经网络(FullyConvolutional Network,FCN),随后残差连接、空洞卷积、金字塔池化、密集连接等网络模块的提出和使用大大提升了网络的性能。与单独的图像不同,视频相邻的帧之间具有很强的相关性,每一帧都不是独立存在的。现有的研究方法对视频中的每一帧依次进行图像语义分割,虽然可以达到语义分割的要求,但这种方法忽略了视频相邻帧之间内在的相关性。因此,为了对视频进行准确的语义分割,需要在图像语义分割的基础上,充分考虑帧之间的时序信息。
发明内容
针对现有技术的不足,本发明提出了一种基于ConvLSTM卷积神经网络的视频语义分割方法,通过该方法可以提升视频语义分割的准确度。
本发明的技术方案为:
一种基于ConvLSTM卷积神经网络的视频语义分割方法,包括以下步骤:
A、构建并训练视频语义分割网络
(1)获取数据集
神经网络需要通过大量的数据来进行学习,大部分网络采用监督学习的方式,即在网络训练过程中输入数据具有相应的标注数据。训练集中的输入数据即数据集为视频序列,数据集相应的标注数据为语义分割后的结果图像;在视频语义分割中,由于视频包含的帧较多,因此一个视频序列中只有若干帧具有对应的标注图像,在Cityscapes数据集中,每一个视频序列具有30帧,其中第20帧具有标注信息。
(2)构建视频语义分割网络
本发明在图像语义分割网络的基础上,采用ConvLSTM模块来捕捉视频相邻帧之间的相关性,以提高视频语义分割的准确度。
所述视频语义分割网络包括依次连接的卷积层、若干个密集连接块(DenseBlock)、密集连接的空洞空间金字塔池化模块(DenseAtrousSpatial PyramidPoolingBlock,DenseAsppBlock)、ConvLSTM模块、上采样层;
所述卷积层用于提取输入图像的特征,输入图像的特征包括边缘、角点、纹理、形状;卷积层数越深,提取到的特征语义程度越高。
所述密集连接块用于:每个密集连接块将之前所有密集连接块的特征进行拼接作为输入,并将输出的特征图传递给之后的所有密集连接块。密集连接块中网络的每一层都接受它前面所有层的特征作为输入,并将产生的特征图传递给之后的所有层,每一层都可以直接利用损失函数的梯度以及最开始的输入信息,可以减轻视频语义分割网络训练过程中的梯度消失现象,并加强特征的传递,使得特征和梯度的传递更加有效。
所述空洞空间金字塔池化模块用于将所述密集连接块的输出送入不同的空洞卷积分支,各个空洞卷积分支采用不同采样率的空洞卷积进行并行计算,将所述密集连接块的输出和各个空洞卷积分支提取的特征按照通道维度进行拼接融合;
DenseAsppBlock就是在ASPP中不同采样率的分支之间采用密集连接,可以捕捉多尺度的信息,能够在不丢失分辨率的情况下系统地聚合多尺度上下文信息,扩大感受野。
ConvLSTM模块即ConvLSTM卷积神经网络用于:通过遗忘门、输入门、输出门来控制信息的保留程度,并且在输入与状态和状态与状态的计算中采用卷积运算。
通过遗忘门、输入门、输出门来控制信息的保留程度,遗忘门、输入门、输出门分别都由一个Sigmoid神经网络层和一个点乘法运算组成,Sigmoid神经网络层的输出在0到1之间,表示控制信息通过的程度,0表示不通过任何信息,1表示全部通过;网络当前时刻的输入为上一时刻的状态和当前时刻的输入信息,遗忘门决定着从之前的状态中丢弃什么信息,输入门决定在当前状态中保存什么信息,输出门决定当前时刻输出什么信息。ConvLSTM将LSTM中输入与状态的前向全连接计算更改为卷积运算,因此,ConvLSTM结合了LSTM和CNN,不仅具有时序建模能力,而且还能像CNN一样提取图像的局部特征。当前帧的信息通过ConvLSTM传递到下一帧,网络可以利用视频相邻帧之间的相关性,以此来提升分割结果的准确度。
上采样层通过双线性插值方法将ConvLSTM模块得到的结果图像调整到原大小;
(3)训练视频语义分割网络
利用步骤(1)获取的数据集中训练集的数据对视频语义分割网络进行训练,通过梯度下降和反向传播对网络中的权重参数进行不断优化;
(4)测试视频语义分割网络分割的准确度
利用步骤(1)获取的数据集中验证集的数据对视频语义分割网络的性能进行测试,先通过网络生成语义分割结果图像,后根据相应的标注数据计算分割结果的准确度。
B、通过训练好的视频语义分割网络进行视频语义分割
将需要语义分割的视频序列输入训练好的视频语义分割网络,得到最终的结果。
根据本发明优选的,目前有不同的用于语义分割的公开数据集,步骤(1)中,数据集为Cityscapes数据集。Cityscapes数据集包含来自50个不同城市的街道场景中记录的多种视频序列,包括20000个弱注释帧和5000帧的高质量像素级注释,可以从其官网进行下载。
根据本发明优选的,所述视频语义分割网络包括四个依次连接的密集连接块,四个依次连接的密集连接块中的密集连接的网络层数分别为6、12、36、24。
根据本发明优选的,所述空洞空间金字塔池化模块采用五个不同采样率的空洞卷积分支,五个不同采样率的空洞卷积分支的采样率分别为3、6、12、18、24。
根据本发明优选的,在所述ConvLSTM模块的前后分别使用1*1卷积层。来实现降低特征通道维数和升高特征通道维数,以减少网络参数。
根据本发明优选的,执行步骤(3)之前,对数据集中训练集的数据进行数据增广,包括:对训练集的数据进行随机水平翻转、随机亮度调整和随机裁剪,扩大训练集的数据。从而避免网络发生过拟合,提高网络的泛化能力。
根据本发明优选的,步骤(3)中,采用学习率衰减策略训练视频语义分割网络。随着迭代次数增加,学习率逐渐减小,可以保证模型在训练后期不会有太大的波动,从而更加接近最优解。
进一步优选的,设置初始学习率l0为0.0003,训练过程中学习率l通过式(I)进行衰减:
Figure BDA0002603851210000041
式(I)中,epoch_num指当前视频语义分割网络训练迭代次数,max_epoch_num指视频语义分割网络训练最大迭代次数。
根据本发明优选的,步骤(4)中,通常使用mIoU(mean Intersection overUnion),衡量语义分割的准确度,mIoU指所有类别的平均IoU,IoU的求取如式(II)所示:
Figure BDA0002603851210000042
式(II)中,IoU是指每一个类别的交集与并集之比,在语义分割的问题中,这两个集合为真实值(ground truth)和预测值;
A4ea of Union指预测出的分割区域和标注图像的分割区域的并集,34ea ofOverlap指预测出的分割区域和标注图像的分割区域的交集,Apred指预测出的分割区域,Atrue指标注图像的分割区域。
本发明的有益效果为:
1.本发明提出了一种基于ConvLSTM卷积神经网络的视频语义分割方法,通过采用ConvLSTM模块考虑视频相邻帧之间的相关性,提高视频语义分割的准确度。
2.本发明的网络结构中除了具有普通的卷积层和ConvLSTM模块,还采用了密集连接块、密集连接的空洞空间金字塔池化模块,使得特征和梯度的传递更加有效,解决了深度网络训练过程中的梯度消失问题,并且能够系统地聚合多尺度上下文信息,扩大感受野。
3.本发明在训练网络的过程中对数据进行了数据增广,并采用学习率衰减策略,有效避免了网络训练过程中的过拟合现象,提高了网络的泛化能力。
附图说明
图1是本发明ConvLSTM模块的结构示意图;
图2是密集连接块的结构示意图;
图3(a)是卷积核为3*3的卷积示意图;
图3(b)是卷积核为3*3,采样率为2的空洞卷积示意图;
图4是密集连接的空洞空间金字塔池化模块的结构示意图;
图5是本发明视频语义分割网络的结构示意图;
图6(a)是测试视频的其中一帧图像示意图;
图6(b)是采用已有网络对图6(a)处理后得到的分割结果图像示意图;
图6(c)是采用本发明方法对图6(a)处理后得到的分割结果图像示意图;
图6(d)是该图像的标注结果图像示意图;
图7(a)是测试视频的其中另一帧图像示意图;
图7(b)是采用已有网络对图7(a)处理后得到的分割结果图像示意图;
图7(c)是采用本发明方法对图7(a)处理后得到的分割结果图像示意图;
图7(d)是该图像的标注结果图像。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于ConvLSTM卷积神经网络的视频语义分割方法,包括以下步骤:
A、构建并训练视频语义分割网络
(1)获取数据集
神经网络需要通过大量的数据来进行学习,大部分网络采用监督学习的方式,即在网络训练过程中输入数据具有相应的标注数据。训练集中的输入数据即数据集为视频序列,数据集相应的标注数据为语义分割后的结果图像;在视频语义分割中,由于视频包含的帧较多,因此一个视频序列中只有若干帧具有对应的标注图像,在Cityscapes数据集中,每一个视频序列具有30帧,其中第20帧具有标注信息。数据集为Cityscapes数据集。Cityscapes数据集包含来自50个不同城市的街道场景中记录的多种视频序列,包括20000个弱注释帧和5000帧的高质量像素级注释,可以从其官网进行下载。
(2)构建视频语义分割网络
本发明在图像语义分割网络的基础上,采用ConvLSTM模块来捕捉视频相邻帧之间的相关性,以提高视频语义分割的准确度。
如图5所示,视频语义分割网络包括依次连接的卷积层、若干个密集连接块(DenseBlock)、密集连接的空洞空间金字塔池化模块(DenseAtrousSpatial PyramidPoolingBlock,DenseAsppBlock)、ConvLSTM模块、上采样层;
卷积层用于提取输入图像的特征,输入图像的特征包括边缘、角点、纹理、形状;卷积层数越深,提取到的特征语义程度越高。提取输入图像的特征的方法是通过现有的卷积层运算,卷积层的主要作用就是提取图像的各种特征图(feature map),通过卷积运算来完成。卷积运算,主要是通过设定各种特征提取滤波器矩阵即卷积核(通常设定大小为3x3或者5x5的矩阵),使用该卷积核在原图像矩阵滑动,实现卷积运算。
密集连接块用于:每个密集连接块将之前所有密集连接块的特征进行拼接作为输入,并将输出的特征图传递给之后的所有密集连接块。密集连接块中网络的每一层都接受它前面所有层的特征作为输入,并将产生的特征图传递给之后的所有层,每一层都可以直接利用损失函数的梯度以及最开始的输入信息,可以减轻视频语义分割网络训练过程中的梯度消失现象,并加强特征的传递,使得特征和梯度的传递更加有效。视频语义分割网络包括四个依次连接的密集连接块,四个依次连接的密集连接块中的密集连接的网络层数分别为6、12、36、24。如图2所示,网络层数为4层的一个密集连接块包括H1、H2、H3、H4,x0是密集连接块的输入特征图,H1的输入是x0,H1的输出是x1,H2的输入是x0和x1按通道拼接后的结果,H2的输出是x2,H3的输入是x0、x1、x2按通道拼接后的结果,H3的输出是x3,H4的输入是x0、x1、x2、x3按通道拼接后的结果,H4的输出是x4
空洞空间金字塔池化模块用于将所述密集连接块的输出送入不同的空洞卷积分支,各个空洞卷积分支采用不同采样率的空洞卷积进行并行计算,将所述密集连接块的输出和各个空洞卷积分支提取的特征按照通道维度进行拼接融合;空洞空间金字塔池化模块采用五个不同采样率的空洞卷积分支,五个不同采样率的空洞卷积分支的采样率分别为3、6、12、18、24。空洞空间金字塔池化模块的结构如图4所示。采样率指卷积核的间隔数量,当采样率为1时,空洞卷积就是普通的卷积运算,如图3(a)所示,当采样率大于1时,扩张后的卷积核对输入数据进行采样计算,如图3(b)所示。
DenseAsppBlock就是在ASPP中不同采样率的分支之间采用密集连接,可以捕捉多尺度的信息,能够在不丢失分辨率的情况下系统地聚合多尺度上下文信息,扩大感受野。
ConvLSTM模块即ConvLSTM卷积神经网络用于:通过遗忘门、输入门、输出门来控制信息的保留程度,并且在输入与状态和状态与状态的计算中采用卷积运算。通过遗忘门、输入门、输出门来控制信息的保留程度,遗忘门、输入门、输出门分别都由一个Sigmoid神经网络层和一个点乘法运算组成,Sigmoid神经网络层的输出在0到1之间,表示控制信息通过的程度,0表示不通过任何信息,1表示全部通过;网络当前时刻的输入为上一时刻的状态和当前时刻的输入信息,遗忘门决定着从之前的状态中丢弃什么信息,输入门决定在当前状态中保存什么信息,输出门决定当前时刻输出什么信息。ConvLSTM将LSTM中输入与状态的前向全连接计算更改为卷积运算,因此,ConvLSTM结合了LSTM和CNN,不仅具有时序建模能力,而且还能像CNN一样提取图像的局部特征。当前帧的信息通过ConvLSTM传递到下一帧,网络可以利用视频相邻帧之间的相关性,以此来提升分割结果的准确度。ConvLSTM模块的结构如图1所示,图1中,“A”代表ConvLSTM模块,结构同图1中的中间模块;xt-1是上一时刻的输入,ht-1是上一时刻的输出状态,xt是当前时刻的输入,σ是Sigmoid激活函数,Banh是双曲正切激活函数,ht是当前时刻的输出状态,xt+1是下一时刻的输入,ht+1是下一时刻的输出状态。
上一时刻的输出状态ht-1和当前时刻的输入xt经过Sigmoid激活函数,通过点乘运算构成遗忘门,作用于上一时刻的状态信息;上一时刻的输出状态ht-1和当前时刻的输入xt经过Sigmoid激活函数,通过点乘运算构成输入门,作用于当前时刻的输入信息;上一时刻的输出状态ht-1和当前时刻的输入xt经过Sigmoid激活函数,通过点乘运算构成输出门,作用于当前时刻的输出信息;
ConvLSTM模块的前后分别使用1*1卷积层,来实现降低特征通道维数和升高特征通道维数,以减少网络参数。
上采样层通过双线性插值方法将ConvLSTM模块得到的结果图像调整到原大小;
(3)训练视频语义分割网络
利用步骤(1)获取的数据集中训练集的数据对视频语义分割网络进行训练,通过梯度下降和反向传播对网络中的权重参数进行不断优化;
(4)测试视频语义分割网络分割的准确度
利用步骤(1)获取的数据集中验证集的数据对视频语义分割网络的性能进行测试,先通过网络生成语义分割结果图像,后根据相应的标注数据计算分割结果的准确度。
B、通过训练好的视频语义分割网络进行视频语义分割
将需要语义分割的视频序列输入训练好的视频语义分割网络,得到最终的结果。
实施例2
根据实施例1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法,其区别在于:
执行步骤(3)之前,对数据集中训练集的数据进行数据增广,包括:对训练集的数据进行随机水平翻转、随机亮度调整和随机裁剪,扩大训练集的数据。从而避免网络发生过拟合,提高网络的泛化能力。
步骤(3)中,采用学习率衰减策略训练视频语义分割网络。随着迭代次数增加,学习率逐渐减小,可以保证模型在训练后期不会有太大的波动,从而更加接近最优解。设置初始学习率l0为0.0003,训练过程中学习率l通过式(I)进行衰减:
Figure BDA0002603851210000081
式(I)中,epoch_num指当前视频语义分割网络训练迭代次数,max_epoch_num指视频语义分割网络训练最大迭代次数。
步骤(4)中,衡量语义分割的准确度通常使用mIoU(mean Intersection overUnion),mIoU指所有类别的平均IoU,IoU的求取如式(II)所示:
Figure BDA0002603851210000082
式(II)中,IoU是指每一个类别的交集与并集之比,在语义分割的问题中,这两个集合为真实值(ground truth)和预测值;
Area of Union指预测出的分割区域和标注图像的分割区域的并集,Area ofOverlap指预测出的分割区域和标注图像的分割区域的交集,Apred指预测出的分割区域,Atrue指标注图像的分割区域。
图6(a)是测试视频的其中一帧图像示意图;图6(b)是采用已有网络DenseASPP对图6(a)处理后得到的分割结果图像示意图;图6(c)是采用本发明方法对图6(a)处理后得到的分割结果图像示意图;图6(d)是该图像的标注结果图像示意图,即ground truth。
图7(a)是测试视频的其中另一帧图像;图7(b)是采用已有网络DenseASPP对图7(a)处理后得到的分割结果图像示意图;图7(c)是采用本发明方法对图7(a)处理后得到的分割结果图像示意图;图7(d)是该图像的标注结果图像,即ground truth。
本发明的效果可以通过实验进一步说明,本发明采用已有的DenseASPP作为基础的语义分割网络,表1比较了本发明和已有网络的语义分割结果的准确度。
表1
Figure BDA0002603851210000083
表1中第一行中的mIoU即前面提到的分割结果的准确度;road、sidewalk、building、wall、fence、pole、traffic light、traffic sign、vegetation、terrain、sky、person、rider、car、truck、bus、train、motorcycle及bicycle为测试集中包含的19个类别。
如表1所示,本发明得到的分割结果相比已有的网络,语义分割的准确度由76.08%提高到77.56%。实验结果表明,本发明可以有效提高视频语义分割的准确度。

Claims (9)

1.一种基于ConvLSTM卷积神经网络的视频语义分割方法,其特征在于,包括以下步骤:
A、构建并训练视频语义分割网络
(1)获取数据集
训练集中的输入数据即数据集为视频序列,数据集相应的标注数据为语义分割后的结果图像;
(2)构建视频语义分割网络
所述视频语义分割网络包括依次连接的卷积层、若干个密集连接块、密集连接的空洞空间金字塔池化模块、ConvLSTM模块、上采样层;
所述卷积层用于提取输入图像的特征,输入图像的特征包括边缘、角点、纹理、形状;所述密集连接块用于:每个密集连接块将之前所有密集连接块的特征进行拼接作为输入,并将输出的特征图传递给之后的所有密集连接块;所述密集连接的空洞空间金字塔池化模块用于将所述密集连接块的输出送入不同的空洞卷积分支,各个空洞卷积分支采用不同采样率的空洞卷积进行并行计算,分支之间采用密集连接,将所述密集连接块的输出和各个空洞卷积分支提取的特征按照通道维度进行拼接融合;ConvLSTM模块即ConvLSTM卷积神经网络用于:通过遗忘门、输入门、输出门来控制信息的保留程度,并且在输入与状态和状态与状态的计算中采用卷积运算;上采样层通过双线性插值方法将ConvLSTM模块得到的结果图像调整到原大小;
(3)训练视频语义分割网络
利用步骤(1)获取的数据集中训练集的数据对视频语义分割网络进行训练,通过梯度下降和反向传播对网络中的权重参数进行不断优化;
(4)测试视频语义分割网络分割的准确度
利用步骤(1)获取的数据集中验证集的数据对视频语义分割网络的性能进行测试,先通过网络生成语义分割结果图像,后根据相应的标注数据计算分割结果的准确度;
B、通过训练好的视频语义分割网络进行视频语义分割
将需要语义分割的视频序列输入训练好的视频语义分割网络,得到最终的结果。
2.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法,其特征在于,步骤(1)中,数据集为Cityscapes数据集。
3.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法,其特征在于,所述视频语义分割网络包括四个依次连接的密集连接块,四个依次连接的密集连接块中的密集连接的网络层数分别为6、12、36、24。
4.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法,其特征在于,所述密集连接的空洞空间金字塔池化模块采用五个不同采样率的空洞卷积分支,五个不同采样率的空洞卷积分支的采样率分别为3、6、12、18、24。
5.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法,其特征在于,在所述ConvLSTM模块的前后分别使用1*1卷积层。
6.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法,其特征在于,执行步骤(3)之前,对数据集中训练集的数据进行数据增广,包括:对训练集的数据进行随机水平翻转、随机亮度调整和随机裁剪,扩大训练集的数据。
7.根据权利要求1所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法,其特征在于,步骤(3)中,采用学习率衰减策略训练视频语义分割网络。
8.根据权利要求7所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法,其特征在于,设置初始学习率l0为0.0003,训练过程中学习率l通过式(I)进行衰减:
Figure FDA0002603851200000021
式(I)中,epoch_num指当前视频语义分割网络训练迭代次数,max_epoch_num指视频语义分割网络训练最大迭代次数。
9.根据权利要求1-8任一所述的一种基于ConvLSTM卷积神经网络的视频语义分割方法,其特征在于,步骤(4)中,分割结果的准确度mIoU指所有类别的平均IoU,IoU的求取如式(II)所示:
Figure FDA0002603851200000022
式(II)中,IoU是指每一个类别的交集与并集之比,在语义分割的问题中,这两个集合为真实值和预测值;Area of Union指预测出的分割区域和标注图像的分割区域的并集,Area of Overlap指预测出的分割区域和标注图像的分割区域的交集,Apred指预测出的分割区域,Atrue指标注图像的分割区域。
CN202010732937.3A 2020-07-27 2020-07-27 一种基于ConvLSTM卷积神经网络的视频语义分割方法 Active CN111860386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010732937.3A CN111860386B (zh) 2020-07-27 2020-07-27 一种基于ConvLSTM卷积神经网络的视频语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010732937.3A CN111860386B (zh) 2020-07-27 2020-07-27 一种基于ConvLSTM卷积神经网络的视频语义分割方法

Publications (2)

Publication Number Publication Date
CN111860386A CN111860386A (zh) 2020-10-30
CN111860386B true CN111860386B (zh) 2022-04-08

Family

ID=72947358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010732937.3A Active CN111860386B (zh) 2020-07-27 2020-07-27 一种基于ConvLSTM卷积神经网络的视频语义分割方法

Country Status (1)

Country Link
CN (1) CN111860386B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465834B (zh) * 2020-11-26 2024-05-24 中科麦迪人工智能研究院(苏州)有限公司 一种血管分割方法及装置
CN112381831B (zh) * 2020-11-26 2022-08-16 南开大学 基于图像间语义辅助的个性化图像分割方法及系统
CN112652296B (zh) * 2020-12-23 2023-07-04 北京华宇信息技术有限公司 流式语音端点检测方法、装置及设备
CN112767402B (zh) * 2021-01-08 2024-06-07 北京闭环科技有限公司 一种基于三维卷积神经网络的图像分割方法及系统
CN112966723B (zh) * 2021-02-08 2022-05-03 北京百度网讯科技有限公司 视频数据增广方法、装置、电子设备及可读存储介质
CN113065459B (zh) * 2021-03-31 2022-05-17 山东师范大学 一种基于动态条件卷积的视频实例分割方法及系统
CN113160345B (zh) * 2021-04-02 2024-09-06 浙江工业大学 一种基于ConvLSTM的时间序列影像重建方法
CN113191367B (zh) * 2021-05-25 2022-07-29 华东师范大学 基于密集尺度动态网络的语义分割方法
CN113570658A (zh) * 2021-06-10 2021-10-29 西安电子科技大学 基于深度卷积网络的单目视频深度估计方法
CN113421236B (zh) * 2021-06-17 2024-02-09 同济大学 基于深度学习的建筑墙面渗漏水表观发育状况预测方法
CN113538457B (zh) * 2021-06-28 2022-06-24 杭州电子科技大学 利用多频动态空洞卷积的视频语义分割方法
CN113971780B (zh) * 2021-11-04 2024-06-18 大连民族大学 基于CNN和累加隐层状态ConvLSTM的视频人体行为识别方法
CN115100652A (zh) * 2022-08-02 2022-09-23 北京卫星信息工程研究所 基于高分遥感图像的电子地图自动化生成方法
CN115810016B (zh) * 2023-02-13 2023-04-28 四川大学 肺部感染cxr图像自动识别方法、系统、存储介质及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101975A (zh) * 2018-08-20 2018-12-28 电子科技大学 基于全卷积神经网络的图像语义分割方法
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN110046226A (zh) * 2019-04-17 2019-07-23 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法
CN110263833A (zh) * 2019-06-03 2019-09-20 韩慧慧 基于编码-解码结构的图像语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101975A (zh) * 2018-08-20 2018-12-28 电子科技大学 基于全卷积神经网络的图像语义分割方法
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN110046226A (zh) * 2019-04-17 2019-07-23 桂林电子科技大学 一种基于分布词向量cnn-rnn网络的图像描述方法
CN110263833A (zh) * 2019-06-03 2019-09-20 韩慧慧 基于编码-解码结构的图像语义分割方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"DenseASPP for Segmentation in Street Scenes";Maoke Yang et al.;《IEEE》;20181217;全文 *
"Future Semantic Segmentation with Convolutional LSTM";Seyed shahabeddin Nabavi et al.;《arXiv》;20180720;全文 *
"Referring Image Segmentation via Recurrent Refinement Networks";Ruiyu Li et al.;《IEEE》;20181217;全文 *
"全卷积神经网络研究综述";章琳 等;《万方数据知识服务平台》;20201107;第56卷(第1期);全文 *
"遥感图像语义分割方法及其应用";靳淇兆;《万方数据知识服务平台》;20191022;全文 *

Also Published As

Publication number Publication date
CN111860386A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111860386B (zh) 一种基于ConvLSTM卷积神经网络的视频语义分割方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110111335B (zh) 一种自适应对抗学习的城市交通场景语义分割方法及系统
CN109543502B (zh) 一种基于深度多尺度神经网络的语义分割方法
CN108229338A (zh) 一种基于深度卷积特征的视频行为识别方法
CN110909594A (zh) 一种基于深度融合的视频显著性检测方法
CN111582397B (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN110458085B (zh) 基于注意力增强三维时空表征学习的视频行为识别方法
CN111523546A (zh) 图像语义分割方法、系统及计算机存储介质
CN110363770B (zh) 一种边缘引导式红外语义分割模型的训练方法及装置
CN111382759B (zh) 一种像素级分类方法、装置、设备及存储介质
CN111882620A (zh) 一种基于多尺度信息道路可行驶区域分割方法
CN110599502B (zh) 一种基于深度学习的皮肤病变分割方法
CN112766062B (zh) 一种基于双流深度神经网络的人体行为识别方法
CN116740362B (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN114821058A (zh) 一种图像语义分割方法、装置、电子设备及存储介质
CN114267025A (zh) 基于高分辨率网络与轻量注意力机制的交通标志检测方法
CN115222750A (zh) 基于多尺度融合注意力的遥感图像分割方法及系统
CN115471831B (zh) 一种基于文本增强学习的图像显著性检测方法
CN112085680B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN117454971A (zh) 基于自适应掩码加权的投影式知识蒸馏方法
CN112989955A (zh) 基于空时双流异构嫁接卷积神经网络人体动作识别方法
CN117198056A (zh) 路口交通指挥模型的构建方法及相关装置、应用
CN116309165A (zh) 一种基于ResNet的深度可分离卷积神经网络的图像去雾方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant