CN111507215B

CN111507215B - 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法

Info

Publication number: CN111507215B
Application number: CN202010268501.3A
Authority: CN
Inventors: 龚声蓉; 徐牧洲; 王朝晖
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2022-01-28
Anticipated expiration: 2040-04-08
Also published as: CN111507215A

Abstract

本发明公开了一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法，包括步骤一、建立编码器‑解码器网络结构，编码器的最顶层利用多个空洞率不同的卷积核，从多个尺寸对目标进行捕捉，以获得更精确的外观信息。在解码器阶段，每一个卷积循环神经网络单元将接收不同尺寸的特征图，并将上一帧该目标的分割结果、上一个卷积循环神经网络单元得到的特征图作为输入；步骤二、利用数据集对编码器‑解码器网络结构进行训练；步骤三、将待分割视频输入训练好的编码器‑解码器网络结构输出分割结果。本发明具有可靠的时空相关性，能提高目标分割准确性和分割速度。

Description

基于时空卷积循环神经网络与空洞卷积的视频目标分割方法

技术领域

本发明涉及一种视频目标分割方法，特别是涉及一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法。

背景技术

视频目标分割，即将视频中的主体运动目标从背景中分割出来。由于视频中存在的各种复杂场景使得视频目标分割任务的完成面临很大的挑战。首先，视频中出现的遮掩、目标的非刚性运动、形变以及拍摄视角的变化使得目标的外观在不同帧中会有很大差异；其次，目标在视频中的非连续运动、高速运动以及运动模糊使得在视频序列中建立可靠的时序相关性存在着较大的难度。

现有的视频目标分割方法主要包括基于检测的视频目标分割方法和基于运动的视频目标分割方法。基于检测的视频目标分割方法即不考虑视频中存在的时序信息，仅通过学到的目标外观来对视频进行分割。SergiCaelles等人通过在通用分割模型上对每个视频序列进行微调产生微调模型的方法，来识别每个视频序列的感兴趣目标，他们的方法仅是通过外观相似度来对目标进行分割，并没有将时序信息考虑在内。Qiang Wang等人使用孪生网络，并利用目标之间的外观相似性来同时解决视频目标分割任务与视频目标追踪任务，分割速度达到了35fps。基于运动的目标分割方法通过建立视频帧之间的时序相关性来进行分割。Federico Perazzi等人利用光流以及掩码传播，将上一帧的分割结果输出作为下一帧的分割输入来进行分割，使模型的分割过程更具连续性。Carles Ventura等人利用长短时记忆神经网络来建立帧之间的时间以及空间相关性，当视频中出现短暂的目标丢失(例如发生了遮挡)时，网络模型仍然会记住目标的相关信息，从而能够更好地建立视频中的时空相关性。

上述两种方法面对不同的复杂场景展现出了不同的适应能力。基于检测的视频目标分割方法在面对具有巨大形变的情况，例如遭遇遮掩或者目标的非刚性运动时，由于学习到的目标外观与当前目标外观有较大差异，所以无法很好地检测到目标外观；基于运动的视频目标分割方法，由于利用连续帧之间的时序相关性来进行分割，所以对目标外观的变化适应较好，但是较难适应视频中出现的非连续运动，例如目标的快速移动，遮挡。为此，很多方法采用微调或者数据增强等方式来提升模型的分割效果，然而，这些方法在提升模型分割效果的同时，会消耗巨大的计算资源，减慢了模型的分割速度。

发明内容

针对上述现有技术的缺陷，本发明提供了一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法，提升目标分割准确性和分割速度。

本发明技术方案如下：一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法，包括以下步骤：

步骤一、建立编码器-解码器网络结构；

步骤二、利用数据集对编码器-解码器网络结构进行训练；

步骤三、将待分割视频输入训练好的编码器-解码器网络结构输出分割结果；

所述编码器-解码器网络结构包括编码器和解码器，所述编码器包括第一卷积模块、第二卷积模块、第三卷积模块、第一空洞卷积模块和并行空洞卷积模块，所述并行空洞卷积模块包括若干空洞卷积模块，所述空洞卷积模块的输出与浅层特征图拼接后得到多尺度模块的特征图作为所述并行空洞卷积模块的输出，所述并行空洞卷积模块的输出连接第一降维卷积模块，所述第一空洞卷积模块的输出连接第二降维卷积模块，所述第三卷积模块的输出连接第三降维卷积模块，所述第二卷积模块的输出连接第四降维卷积模块，所述第一卷积模块的输出连接第五降维卷积模块；所述解码器包括第一卷积循环神经网络模块、第二卷积循环神经网络模块、第三卷积循环神经网络模块和第四卷积循环神经网络模块，所述第一卷积循环神经网络模块的输入由上一帧的分割结果和所述第一降维卷积模块的输出进行拼接得到，所述第二卷积循环神经网络模块的输入由上一帧的分割结果、所述第二降维卷积模块的输出和所述第一卷积循环神经网络模块的输出进行拼接得到，所述第三卷积循环神经网络模块的输入由上一帧的分割结果、所述第三降维卷积模块的输出和所述第二卷积循环神经网络模块的输出进行拼接得到，所述第四卷积循环神经网络模块的输入由上一帧的分割结果、所述第四降维卷积模块的输出和所述第三卷积循环神经网络模块的输出进行拼接得到，上一帧的分割结果、所述第五降维卷积模块的输出和所述第四卷积循环神经网络模块的输出进行拼接然后上采样得到编码器-解码器网络结构的输出。

进一步地，所述第一卷积模块、第二卷积模块和第三卷积模块输出的特征图尺寸依次下降，所述第三卷积模块输出和第一空洞卷积模块所述的特征图尺寸相同。

进一步地，所述第一卷积模块输出的特征图大小为原图的1/4，所述第二卷积模块输出的特征图大小为原图的1/8，所述第三卷积模块输出的特征图大小为原图的1/16，所述第一降维卷积模块、所述第二降维卷积模块、所述第三降维卷积模块、所述第四降维卷积模块和所述第五降维卷积模块是1*1卷积模块。

进一步地，所述并行空洞卷积模块中的若干空洞卷积模块的空洞率各不相同。

进一步地，所述第一卷积循环神经网络模块、所述第二卷积循环神经网络模块、所述第三卷积循环神经网络模块和所述第四卷积循环神经网络模块的输出均包括当前帧分割出的目标掩码、当前帧建立的空间相关性和当前帧建立的时间相关性。

进一步地，所述步骤二利用数据集对编码器-解码器网络结构进行训练包括以下两阶段训练：阶段一，在前若干步迭代过程中，以真实标定数据掩膜作为引导掩膜输入至下一帧卷积循环神经网络操作；阶段二，在其余步迭代过程中，将所述编码器-解码器网络结构模型分割出的掩膜作为引导掩膜输入至下一帧卷积循环神经网络操作。

进一步地，为了防止过拟合，所述步骤二利用数据集对编码器-解码器网络结构进行训练首先在Youtube-VOS数据集训练，之后将经过Youtube-VOS数据集训练的编码器-解码器网络结构迁移到Davis-2017数据集上进行训练。

本发明所提供的技术方案的优点在于：通过将空洞卷积、多尺度采样与卷积循环神经网络相结合，从而建立了视频中的时空相关性来实现分割，多尺度采样与空洞卷积的引入使得模型相比于其他方法提取到更好的空间细节信息，从而更可靠的建立了时空相关性。

附图说明

图1为编码器-解码器网络结构的总体框架图。

图2为卷积循环神经网络计算过程示意图。

图3为本发明实施例与RVOS分割比较图。

具体实施方式

下面结合实施例对本发明作进一步说明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等同形式的修改均落于本申请所附权利要求所限定的范围内。

本实施例涉及的一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法，包括如下步骤：

步骤一：建立编码器-解码器网络结构，请结合图1所示，整体网络架构采用U-型结构。首先利用深度卷积神经网络对其进行特征提取，得到三个尺寸不同的特征图。之后利用空洞卷积对深层的特征图提取特征以获得具有更充分空间细节信息的深度特征。在编码器的最顶层利用多个空洞率不同的卷积核，从多个尺寸对目标进行捕捉，以获得更精确的外观信息。在解码器阶段，每一个卷积循环神经网络(ConvLSTM)模块将接收不同尺寸的特征图，并将上一帧该目标的分割结果、上一个ConvLSTM模块得到的特征图作为输入，来在视频帧中建立时空相关性。

(1)、编码器：

编码器的基础网络架构为ResNet-101。在此基础之上，根据Deeplab-V3，将编码器最深层的模块中的卷积操作替换为空洞卷积，并且添加多个并行操作的不同空洞率的卷积模块，以从多个尺度捕获目标。为了能够充分利用编码器中每个模块提取到的特征信息，输出了每个模块中的特征图，并用1*1的卷积操作对特征图进行降维。突出了深层特征图对解码器的影响，减弱了浅层特征图的影响。最终，为了充分利用各个模块提取到的特征信息，编码器每个模块提取到的特征图将被输出，最终作为解码器中的输入，参与到时空相关性的构建中。具体的，编码器包括第一卷积模块1、第二卷积模块2、第三卷积模块3、第一空洞卷积模块4和并行空洞卷积模块5，并行空洞卷积模块5包括四个空洞卷积模块，四个空洞卷积模块的输出与浅层特征图6拼接后得到多尺度模块的特征图作为并行空洞卷积模块5的输出，并行空洞卷积模块5的输出连接第一降维卷积模块7，第一空洞卷积模块4的输出连接第二降维卷积模块8，第三卷积模块3的输出连接第三降维卷积模块9，第二卷积模块2的输出连接第四降维卷积模块10，第一卷积模块1的输出连接第五降维卷积模块11。

第一卷积模块1、第二卷积模块2和第三卷积模块3进行卷积操作后分别得到三个尺寸(尺寸大小分别为原图的1/4、1/8、1/16)不同的特征图，之后利用第一空洞卷积模块4进行空洞卷积，在不下降特征图尺寸的同时对其进行特征提取。在输出方面，将每一个模块得到的特征图通过1*1卷积进行特征降维，输入至解码器中。

2)、解码器：

解码器包括第一卷积循环神经网络模块12、第二卷积循环神经网络模块13、第三卷积循环神经网络模块14和第四卷积循环神经网络模块15，第一卷积循环神经网络模块12的输入由上一帧的分割结果和第一降维卷积模块7的输出进行拼接得到，第二卷积循环神经网络模块13的输入由上一帧的分割结果、第二降维卷积模块8的输出和第一卷积循环神经网络模块12的输出进行拼接得到，第三卷积循环神经网络模块14的输入由上一帧的分割结果、第三降维卷积模块9的输出和第二卷积循环神经网络模块13的输出进行拼接得到，第四卷积循环神经网络模块15的输入由上一帧的分割结果、第四降维卷积模块10的输出和第三卷积循环神经网络模块14的输出进行拼接得到，上一帧的分割结果、第五降维卷积模块11的输出和第四卷积循环神经网络模块15的输出进行拼接然后上采样得到编码器-解码器网络结构的输出。

每个卷积循环神经网络模块对每一个尺寸的特征图进行计算，以建立视频中的时空相关性。垂直方向代表着空间相关性，是指在同一帧中建立不同目标之间的关联；水平方向代表着时间相关性，指的是建立同一目标在不同帧之间的关联。在一个视频序列中，编码器-解码器网络结构运作方式如图2所示，每一张图像经过编码器进行特征提取后，由ConvLSTM建立时空相关性。每一个ConvLSTM模块接受的输入包括上一帧分割出的目标掩码、上一帧由ConvLSTM建立的时间相关性、上一个目标由ConvLSTM建立的空间相关性、当前帧由编码器提取到的特征图；每个ConvLSTM模块的输出包括当前帧分割出的目标掩码、当前帧建立的空间相关性、当前帧建立的时间相关性。

步骤二：训练编码器-解码器网络结构，在模型的训练过程中，采用二阶段训练策略。阶段一：在模型训练的第一阶段，模型自主分割出的掩膜效果较差，无法充当引导掩膜。所以在前40个迭代中，利用真实标定数据(Ground-Truth)掩膜作为引导掩膜并将其输入到下一帧卷积循环神经网络(ConvLSTM)的操作中。阶段二：在第二阶段，后20次迭代过程中，模型已经能较好的分割出感兴趣目标，于是将模型分割出的掩膜作为引导掩膜。由于Youtube-VOS数据集是目前最大的视频目标分割数据集，拥有最多的复杂场景和目标类别，于是先将模型在Youtube-VOS上进行训练以防过拟合的发生，之后将在Youtube-VOS训练好的模型迁移到Davis-2017数据集上进一步训练。受内存限制，在训练过程中，batchsize大小设置为4，同时选取5个连续帧作为一个剪辑。

步骤三：将欲分割视频输入训练完成的编码器-解码器网络得到结果。

为验证本发明效果，所使用的数据集包括DAVIS-2017和Youtube-VOS。DAVIS-2017数据集由150个视频序列组成，其中共包含384个目标，10474个标注帧。该数据集的主要评估指标有三：(1)、J—分割掩码与Ground-Truth之间的交并比；(2)、F--分割掩码的轮廓精确度；(3)、D—随时间增长的分割掩码在J和F上的效果衰减。Youtube-VOS是目前视频目标分割任务上最大的数据集，共由3252个视频序列组成，其中包含78个目标类别，6048个目标以及133886个标注帧。Youtbue-VOS数据集的评估指标与DAVIS-2017数据集类似，采用交并比以及轮廓精确度作为主要的衡量标准。

首先将本发明和RVOS比较。结果表明，RVOS在对目标进行分割时会产生一定的掩码漂移的情况并且不能很好识别目标外观，本发明虽然同样会随着时间有一定的掩码漂移，但是已经更好地识别目标外观。结果如图3所示

另外，评估了目前最先进的几种方法在DAVIS-2017数据集上的表现，OL代表在线学习，可以看到使用了在线学习的方法，在速度上低于未使用在线学习的方法100倍以上，在与未使用在线学习的方法做对比，本发明的方法在各个指标上的表现均达到了最佳，结果如下表所示。

下标展示了Youtube-VOS数据集上各个方法之间的效果对比，可以看到使用了在线学习方法的OnAVOS的分割效果相比于在DAVIS-2017上有明显的下降，本发明方法在两个数据集上的表现均非常稳定。

Claims

1.一种基于时空卷积循环神经网络与空洞卷积的视频目标分割方法，其特征在于，包括如下步骤：

步骤一、建立编码器-解码器网络结构；

步骤二、利用数据集对编码器-解码器网络结构进行训练，包括以下两阶段训练：阶段一，在前40次迭代过程中，以真实标定数据掩膜作为引导掩膜输入至下一帧卷积循环神经网络操作；阶段二，在后20次迭代过程中，将所述编码器-解码器网络结构模型分割出的掩膜作为引导掩膜输入至下一帧卷积循环神经网络操作；

所述编码器-解码器网络结构包括编码器和解码器，所述编码器包括第一卷积模块、第二卷积模块、第三卷积模块、第一空洞卷积模块和并行空洞卷积模块，所述并行空洞卷积模块包括四个空洞卷积模块，所述空洞卷积模块的输出与浅层特征图拼接后得到多尺度模块的特征图作为所述并行空洞卷积模块的输出，所述并行空洞卷积模块的输出连接第一降维卷积模块，所述第一空洞卷积模块的输出连接第二降维卷积模块，所述第三卷积模块的输出连接第三降维卷积模块，所述第二卷积模块的输出连接第四降维卷积模块，所述第一卷积模块的输出连接第五降维卷积模块；所述解码器包括第一卷积循环神经网络模块、第二卷积循环神经网络模块、第三卷积循环神经网络模块和第四卷积循环神经网络模块，所述第一卷积循环神经网络模块的输入由上一帧的分割结果和所述第一降维卷积模块的输出进行拼接得到，所述第二卷积循环神经网络模块的输入由上一帧的分割结果、所述第二降维卷积模块的输出和所述第一卷积循环神经网络模块的输出进行拼接得到，所述第三卷积循环神经网络模块的输入由上一帧的分割结果、所述第三降维卷积模块的输出和所述第二卷积循环神经网络模块的输出进行拼接得到，所述第四卷积循环神经网络模块的输入由上一帧的分割结果、所述第四降维卷积模块的输出和所述第三卷积循环神经网络模块的输出进行拼接得到，上一帧的分割结果、所述第五降维卷积模块的输出和所述第四卷积循环神经网络模块的输出进行拼接然后上采样得到编码器-解码器网络结构的输出。

2.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法，其特征在于，所述第一卷积模块、第二卷积模块和第三卷积模块输出的特征图尺寸依次下降，所述第三卷积模块输出和第一空洞卷积模块输出的特征图尺寸相同。

3.根据权利要求2所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法，其特征在于，所述第一卷积模块输出的特征图大小为原图的1/4，所述第二卷积模块输出的特征图大小为原图的1/8，所述第三卷积模块输出的特征图大小为原图的1/16，所述第一降维卷积模块、所述第二降维卷积模块、所述第三降维卷积模块、所述第四降维卷积模块和所述第五降维卷积模块是1*1卷积模块。

4.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法，其特征在于，所述并行空洞卷积模块中的四个空洞卷积模块的空洞率各不相同。

5.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法，其特征在于，所述第一卷积循环神经网络模块、所述第二卷积循环神经网络模块、所述第三卷积循环神经网络模块和所述第四卷积循环神经网络模块的输出均包括当前帧分割出的目标掩码、当前帧建立的空间相关性和当前帧建立的时间相关性。

6.根据权利要求1所述的基于时空卷积循环神经网络与空洞卷积的视频目标分割方法，其特征在于，所述步骤二利用数据集对编码器-解码器网络结构进行训练首先在Youtube-VOS数据集训练，之后将经过Youtube-VOS数据集训练的编码器-解码器网络结构迁移到Davis-2017数据集上进行训练。