CN111310594B

CN111310594B - 一种基于残差纠正的视频语义分割方法

Info

Publication number: CN111310594B
Application number: CN202010065173.7A
Authority: CN
Inventors: 李玺; 冯君逸; 李颂元
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2023-04-28
Anticipated expiration: 2040-01-20
Also published as: CN111310594A

Abstract

本发明公开了一种基于残差纠正的视频语义分割方法，具体包括如下步骤：1)获取语义分割数据集，并定义算法目标；2)训练轻量级的图像语义分割的卷积神经网络模型；3)对待分割的视频进行解码，得到残差图、运动向量以及RGB图像；4)如果当前帧为关键帧，则用2)中得到的分割模型进行语义分割；5)如果当前帧为非关键帧，则利用运动向量将其前一帧的深层特征传递至当前，同时使用浅层卷积神经网络对当前帧提取空间特征，并对传递来的深层特征进行纠正；6)如此重复步骤4)、5)至完成所有视频帧的分割。本发明极大提升了基于帧间特征传递的视频分割方法的鲁棒性及准确性，同时保持基于特征传递方法的高效性。

Description

一种基于残差纠正的视频语义分割方法

技术领域

本发明属于计算机视觉领域，特别地涉及一种基于残差纠正的视频语义分割方法。

背景技术

视频语义分割，是将视频的帧序列的每个像素指定一个语义类别的计算机视觉任务。由于视频的帧与帧之间存在信息的冗余，许多视频语义分割方法利用帧间运动信息以减少冗余计算。这些方法把上一帧的分割结果传播到当前帧，这就大大加速了当前帧的计算过程。然而，当前的这类方法在分割精度上会有很大的损失，其原因有两方面。一方面，这些方法不能很好的保留局部细节，因为运动信息往往粒度较粗。另一方面，随着传播的帧越来越多，传播带来的误差也会累积，以致数帧之后的传播结果几乎不可用。如何利用帧间信息加速，又保证分割准确，是本方法解决的关键。

发明内容

为解决上述问题，本发明的目的在于提供一种基于残差纠正的视频语义分割方法。该方法基于深度神经网络，以图像语义分割模型为基础，在利用帧间特征传递实现实时的语义视频分割效果的基础上，进一步引入基于残差学习的纠正模块，从而提升基于特征传递分割方法的准确度和鲁棒性。

为实现上述目的，本发明的技术方案为：

一种基于残差纠正的语义视频分割方法，其包括以下步骤：

S1.获取用于训练语义视频分割的数据集，并定义算法目标；

S2.训练轻量级的图像语义分割卷积神经网络，得到语义分割模型；

S3.对视频进行解码，得到每一帧图像的残差图、运动向量、RGB图像；

S4.对于视频中的当前帧，如果当前帧为关键帧，则直接使用S2中得到的卷积神经网络模型对其RGB图像进行完整的语义图像分割；

S5.对于视频中的当前帧，如果当前帧为非关键帧，则利用其运动向量将其前一帧的深层特征传递至当前帧，同时使用浅层卷积神经网络对当前帧提取空间特征，并对传递来的深层特征进行纠正后完成其语义图像分割；

S6.对视频中的所有帧重复步骤S4和S5，至完成所有视频帧的语义分割。

在上述方案基础上，本发明的各步骤还可以进一步采用如下优选方式。

优选的，步骤S1中所述的算法目标为对于数据集中的每个视频V，检测V中每一帧图像的所有像素的语义分类。

优选的，步骤S2中所述的训练轻量级的图像语义分割卷积神经网络模型具体包括以下子步骤：

S21.利用卷积神经网络对单张图片中的每一个像素进行分类提取，得到图像I的分类预测结果为φ(I)；同时，得到卷积神经网络的中间层输出特征图F；

S22.对分类预测结果和给定的分类标签计算交叉熵损失，不断优化卷积神经网络中的参数，训练得到最终的语义分割模型φ，φ包含编码器φ_head和解码器φ_tail。

优选的，步骤S3中所述的对视频进行解码时使用MPEG-4视频编解码标准，当前帧时刻为t，则解码过程如下：

S31.若当前第t帧为关键帧，则直接解码得到其RGB图像I(t)；

S32.若当前第t帧为非关键帧，则首先部分解码得到其运动向量Mv(t)与残差向量Res(t)，再依据像素域的平移及补偿变换进一步解码得到RGB图像I(t)。

优选的，步骤S4中所述的图像语义分割具体步骤如下：

S41.将当前RGB图像I(t)输入S2中训练的分割模型φ中进行预测；

S42.预测得到其语义分割结果Y(t)＝φ(I(t))，同时得到语义分割模型输出的中间层特征F(t)。

优选的，步骤S5具体包含以下子步骤：

S51.使用当前第t帧的运动向量Mv(t)对前一帧的中间层特征F(t-1)进行像素域的平移，得到当前帧的中间层特征的估计值：

其中

表示经过平移后得到当前帧的中间层特征

中像素位置p处的估计值；p为像素坐标；Mv(t)[p]表示当前帧的运动向量图Mv(t)中像素位置p处的值；

S52.将当前帧的RGB图像I(t)输入S2中训练的语义分割模型φ的编码器φ_head提取浅层特征f(t)：

f(t)＝φ_head(I(t))

S53.利用当前帧的残差图Res(t)，通过一个单层神经网络φ_Z计算其注意力图Z(t)：

A(t)＝φ_Z(Res(t))

S54.引入一个新的单层残差学习网络φ_R，利用f(t)对传递来的特征

通过残差学习的方式进行纠正，同时利用A(t)引入基于图像空间残差的注意力机制，计算得到特征空间的残差图ΔF(t)：

S55.利用

ΔF(t)计算出当前帧的特征F(t)：

将特征F(t)输入S2中的分割模型φ的解码器φ_tail进行解码，最终输出语义分割结果：

Y(t)＝φ_tail(F(t))

基于S5步骤的非关键帧分割算法准确率比已有的基于帧间分割结果传递的算法准确率和鲁棒性高很多；同时，该方法的效率比逐帧通过卷积神经网络进行分割处理的方法高很多。

本发明充分利用了视频中相邻帧的相关性，同时，基于残差学习的理念，使用轻量级网络学习特征空间中的残差量，对帧间传播的特征图进行纠正。基于残差纠正的处理能够明显提升帧间传播分割方法的鲁棒性和准确率、避免错误累积，同时保持较高的处理速度。

附图说明

图1为本发明的的流程示意图。

图2为实施例中三种方法的可视化效果对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

如图1所示，一种基于残差纠正的语义视频分割方法，该方法的步骤如下：

S1.获取用于训练语义视频分割的数据集，并定义算法目标。本步骤中，算法目标为对于数据集中的每个视频V，检测V中每一帧图像的所有像素的语义分类。

S2.训练轻量级的图像语义分割卷积神经网络，得到语义分割模型。本步骤中，训练轻量级的图像语义分割卷积神经网络模型具体包括以下子步骤：

S3.对视频进行解码，得到每一帧图像的残差图、运动向量、RGB图像。本步骤中，对视频进行解码时使用MPEG-4视频编解码标准，设定图片组GOP参数g、非关键帧比率β；当前帧时刻为t，则解码过程如下：

S31.若当前第t帧为关键帧，则直接解码得到其RGB图像I(t)；

S4.对于视频中的当前帧，如果当前帧为关键帧，则直接使用S2中得到的卷积神经网络模型对其RGB图像进行完整的语义图像分割。本步骤中，图像语义分割具体步骤如下：

S41.将当前RGB图像I(t)输入S2中训练的分割模型φ中进行预测；

S5.对于视频中的当前帧，如果当前帧为非关键帧，则利用其运动向量将其前一帧的深层特征传递至当前帧，同时使用浅层卷积神经网络对当前帧提取空间特征，并对传递来的深层特征进行纠正后完成其语义图像分割。本步骤具体包含以下子步骤：

其中

表示经过平移后得到当前帧的中间层特征

f(t)＝φ_head(I(t))

S53.利用当前帧的残差图Res(t)，通过一个单层神经网络φ_A计算其注意力图A(t)：

A(t)＝φ_A(Res(t))

S55.利用

ΔF(t)计算出当前帧的特征F(t)：

Y(t)＝φ_tail(F(t))。

基于上述步骤的非关键帧分割算法准确率比已有的基于帧间分割结果传递的算法准确率和鲁棒性高很多；同时，该方法的效率比逐帧通过卷积神经网络进行分割处理的方法高很多。

当然，上述过程中的各神经网络在使用前先需要进行参数训练，训练完毕后在测试阶段，即可针对视频中的所有帧重复步骤S4和S5，完成所有视频帧的分割。

上述实施例中，本发明的语义视频分割方法首先训练了一个图片语义分割的卷积神经网络模型，接着利用视频前后帧之间的强相关性，以及卷积神经网络的空间保持特性，把中间层特征进行帧间传播。在此基础上，本发明采用了轻量级的纠正网络，对特征传播中出现的错误进行纠正。同时，依据注意力机制的设计方案，使用图像空间的残差对特征空间的残差学习进行注意力监督。本发明在维持帧间传播方法的高效率的同时，极大提升了该类方法的准确率以及鲁棒性。

本方法具有非常强的泛化能力，其框架可以被应用于其他更多视频的像素域识别任务中，包括视频目标检测、视频实例分割、视频全景分割等。且该模型的速度不依赖于具体的卷积神经网络网络结构，对于高精度模型和轻量级模型均有数倍至数十倍的速度提升。

实施例

下面基于上述方法进行仿真实验，本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅展示实验结果。

本实施例使用FCN+Lateral Connections(LC)作为轻量级图像语义分割卷积神经网络模型。并在语义分割公开数据集Cityscapes上实施多次实验，其包含5000段视频短片段，证明了本方法可以明显地提升语义视频分割的效率，并保证准确性。算法中，设定图片组GOP参数g为12、B-帧比率β设置为0。

将本发明的方法与逐帧通过卷积神经网络进行图像分割处理的方法、只进行帧间传播而不采用残差学习和纠正的方法分别进行了对比，从算法流程可见其区别主要在是否进行S3～S5的帧间特征传播、残差学习与纠正操作。三种方法的实施效果如表1所示；三种方法的可视化效果如图2所示。

表1本发明在Cityscapes数据集上的实施效果

由此可见，通过以上技术方案，本发明实施例基于深度学习技术发展了一种基于残差纠正的语义视频分割方法。本发明利用帧间特征传播，在提高处理速度的同时，采用轻量级残差学习的方法对传播过程中可能产生的误差进行高效纠正。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于残差纠正的语义视频分割方法，其特征在于，包括以下步骤：

S1.获取用于训练语义视频分割的数据集，并定义算法目标；

S6.对视频中的所有帧重复步骤S4和S5，至完成所有视频帧的语义分割；

步骤S5具体包含以下子步骤：

其中表示经过平移后得到当前帧的中间层特征中像素位置p处的估计值；p为像素坐标；Mv(t)[p]表示当前帧的运动向量图Mv(t)中像素位置p处的值；

f(t)＝φ_head(I(t))

A(t)＝φ_A(Res(t))

S54.引入一个新的单层残差学习网络φ_R，利用f(t)对传递来的特征通过残差学习的方式进行纠正，同时利用A(t)引入基于图像空间残差的注意力机制，计算得到特征空间的残差图ΔF(t)：

S55.利用ΔF(t)计算出当前帧的特征F(t)：

Y(t)＝φ_tail(F(t))。

2.根据权利要求1所述的语义视频分割方法，其特征在于步骤S1中所述的算法目标为对于数据集中的每个视频V，检测V中每一帧图像的所有像素的语义分类。

3.根据权利要求1所述的语义视频分割方法，其特征在于步骤S2中所述的训练轻量级的图像语义分割卷积神经网络模型具体包括以下子步骤：

4.根据权利要求1所述的语义视频分割方法，其特征在于步骤S3中所述的对视频进行解码时使用MPEG-4视频编解码标准，当前帧时刻为t，则解码过程如下：

S31.若当前第t帧为关键帧，则直接解码得到其RGB图像I(t)；

5.根据权利要求1所述的语义视频分割方法，其特征在于步骤S4中所述的图像语义分割具体步骤如下：

S41.将当前RGB图像I(t)输入S2中训练的分割模型φ中进行预测；