CN112669325A

CN112669325A - 一种基于主动式学习的视频语义分割方法

Info

Publication number: CN112669325A
Application number: CN202110012126.0A
Authority: CN
Inventors: 朱锦程; 杨鑫; 乔羽; 朴海音; 杜振军
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-04-16
Anticipated expiration: 2041-01-06
Also published as: US11810359B2; US20220215662A1; CN112669325B

Abstract

本发明属于计算机视觉技术领域，提供了一种基于主动式学习的视频语义分割方法，包括图像语义分割、主动式学习数据筛选以及标签传播三个模块；图像语义分割模块负责分割图像结果和提取数据筛选模块所需的高维特征；数据筛选模块在图像层面选取信息量较丰富的数据子集，并在像素层面上选择需要标注的像素块；标签传播模块实现图像到视频任务的迁移，快速补全视频的分割结果从而得到弱监督数据。本发明能快速生成弱监督数据集，减少数据制作成本，优化语义分割网络的性能。

Description

一种基于主动式学习的视频语义分割方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及基于深度学习的图像语义分割技术，利用主动式学习的思想和方法，针对视频语义分割数据集制作十分困难的问题，在保证较高的分割精度的前提下，尽可能减少数据标注。

背景技术

视频语义分割技术是计算机视觉中的一个重要的研究课题，它旨在通过给定某个视频的RGB图像作为输入，预测出图像中的每一个像素点的类别，从而在图像上分割出每一个类别对象的具体位置。目前较为热门的卷积神经网络(Convolutional neuralnetworks,CNNs)因为其强大的特征提取能力而被广泛的运用在语义分割任务上。语义分割能够将RGB图像中属于同一部分的像素聚集在一起，能够很好的解决一些场景理解问题，语义分割常见的应用领域主要包括自动驾驶、医学医疗等领域，具有较高的研究价值。

在语义分割问题上，需要通过输入数据来训练网络来达到高精度分割效果。在训练卷积神经网络的过程中，要想提升网络在分割上的效果，除了设计精细的网络结构和模块以外，大量高质量的语义分割数据集也是一个非常重要的因素。卷积神经网络需要大量的数据来进行支撑，才能达到更好的泛化性。现如今在语义分割领域中，也出现了许多高精度的室内或室外的视频分割数据集，给分割领域提供了很大的帮助，使得不同的卷积神经网络在分割问题上的效果得到了很大的提升。然而，由于近几年深度学习领域的迅猛发展，在多个计算机视觉领域上都出现了数据集严重缺乏的问题，尽管高质量数据集也在不断地扩充，但是与神经网络框架的数量的增长速度相比还是相差甚远。

针对上述数据缺乏的问题，主动式学习随之再次进入人们的视野中。通过利用主动式学习方法，可以在大量未标注的数据中寻找出对神经网络效果影响最大的数据子集，通过标注挑选出的子集并输入到CNN中进行训练，就可以让网络达到较高的分割效果。这种方法旨在给予尽可能少的带标签数据，使得卷积神经网络尽可能达到原来全部数据集输入网络得到的效果。因此，通过主动式学习与深度学习两者相结合，可以很好的解决语义分割领域中缺乏数据的问题，并保证网络的分割精度，为语义分割技术的进步提供了更多的潜在可能性。接下来详细介绍上述领域的相关技术背景。

(1)语义分割

在早期图像分割的领域中，因为计算机的性能有限，所以在当时的分割技术只能处理一些灰度图，提取一些低级的特征值。随着机器学习和深度学习这些理论知识的快速发展，以及高性能硬件的涌现，以深度学习为基础的语义分割技术不断更新迭代。利用神经网络可以在语义分割任务上建立起输入RGB图像与输出的像素级分类的映射。

在深度学习应用于计算机视觉领域的起初阶段，Long等人提出了全卷积神经网络(Fully Convolutional Network,FCN)。在FCN的分割下，不仅能在RGB图像上按照物体的类别分割，还可以在分割结果中很明了的看出分割后的物体信息。目前，大多数的基于深度学习的语义分割网络都在FCN的基础上进行调整和修改，FCN被认为是语义分割领域上的一个里程碑。随后，为了扩大神经网络的感受野，Chen等人提出了条件随机场(CRF)，Yu等人提出了多尺度空洞卷积的概念。CRF通过后处理来细化分割结果，而多尺度空洞卷积通过高维特征和低维特征相结合来提高分割的性能。随后PSPNet提出了一种金字塔网络结构，通过不同尺度的池化层来获取图像中更多的上下文信息，并连接在一起从而改进分割结果。随着扩张卷积技术不断地完善和发展，目前较为流行的Deeplabv3开始出现。这种网络结构既采用了空洞卷积ASPP结构，又加深了卷积层数，进一步提升了语义分割精度，成为了目前通用的一种语义分割框架。

(2)主动式学习

基于深度学习的语义分割技术都是依靠大量数据才能达到较好的泛化性，从而在其他没有标签的RGB图像上进行高精度的分割任务。在真实的数据分析场景中，我们可以通过相机或者摄像机获得很多我们需要的RGB图像，但是这些数据都是未标注的数据，不能为神经网络提供一个有利的监督学习，因此不能直接为其所用。虽然尝试通过人工标注就可以使得该数据成为网络的训练集，但是语义分割任务是基于像素层面的分类任务，通过人来标注会消耗大量的人力和时间，制作这样的数据集所消耗的金钱和时间成本是巨大的。

主动式学习可以主动地提出一些标注请求，将一些经过筛选的数据提交给专家(标注者)进行标注，通过这样的筛选操作可以很大程度上减少人工标注的工作量。现如今常见的Uncertainty方法在深度学习上结合使用的非常多，也取得了较好的效果。常用的最不自信策略(LeastConfidence)、交叉熵策略(Cross Entropy)以及投票熵等策略都比随机选择样本策略的效果要好，说明了主动式学习策略的可靠性。然而对于多分类像素级别的语义分割任务上来讲，这些方法由于自身的局限性，还不能很好的迁移至语义分割任务上。

发明内容

本发明针对视频语义分割数据集的匮乏且制作困难、成本高，以及传统主动式学习策略在语义分割任务上表现不佳的技术难题，设计一个多层次(图像层面和像素层面)的基于主动式学习方法的数据筛选算法。结合现有的图像语义分割网络，能够加速网络的训练收敛，减少数据的依赖；此外，结合光流估计算法可以实现图像到视频任务的迁移，快速生成大量弱监督数据，缓解视频语义分割数据集的缺乏。

本发明的技术方案：

一种基于主动式学习的视频语义分割方法，包括图像语义分割、主动式学习数据筛选以及标签传播三个模块；图像语义分割模块负责分割图像结果和提取数据筛选模块所需的高维特征；数据筛选模块在图像层面选取信息量较丰富的数据子集，并在像素层面上选择需要标注的像素块；标签传播模块实现图像到视频任务的迁移，快速补全视频的分割结果从而得到弱监督数据。

(1)图像语义分割模块

图像语义分割模块是由改良的全卷积网络组成的，主体网络结构采用Mobilenetv2的结构来提取RGB图像的特征，得到高维特征信息后经过解码器将特征通道数转为类别数大小来达到像素分类的效果，最后经过上采样得到和RGB图像相同大小的带有分类信息的语义标签图。

(1.1)图像语义分割模块输入：

通常图像语义分割网络对输入的RGB图像没有大小限制，但本发明在像素层面的筛选策略需要固定图像的大小，因此对输入的训练数据需要缩放或扩张处理。输入的训练数据分为两个部分：一个是RGB图像(记为x)，另一个是对应的语义标签(记为y)。采用如下方式进行输入数据的调整：

X＝B(x) (1)

Y＝N(y) (2)

其中B(x)表示RGB图像采用双线性插值方式进行处理，N(y)表示语义标签采用最邻近插值法。

(1.2)特征提取编码模块：

RGB图像输入到网络中，首先经过初始卷积层将通道数由3通道转为32通道，该层特征记为F_init。然后经过7个残差卷积得到一个长和宽大小为16和32的高维特征，本发明采用Mobilenetv2的Bottleneck残差块，最终通道数为320，因此高维特征(HLF)维度为16×32×320。其中输入加上经过前3个Bottleneck残差块的特征作为低维特征(LLF)。LLF可表示为：

LLF＝[F_init，BN_1(x)，BN_2(x)，BN_3(x)] (3)

其中BN_1(x)，BN_2(x)，BN_3(x)分别表示经过了前三个残差块的特征。[·]是串联连接操作。

(1.3)解码器模块：

采用空洞空间卷积池化金字塔(ASPP)对上述高维特征HLF以不同采样率的空洞卷积并行采样，采样后的特征经过融合与低维特征LLF输入到解码模块中进行通道数解码，最终得到图像中相应物体类别数的通道大小。整个过程表述如下：

F_decode＝DEC(F_ASPP，LLF) (4)

其中F_ASPP是ASPP输出的联合特征。DEC表示本发明设计的解码模块，将F_ASPP经过卷积层使得维度和LLF中的特征维度相同，将两者在通道维度上连接起来并经过反卷积层得到F_decode。得到F_decode后将其输入到双线性上采样层中，使得该特征转换为与原RGB图像一样大小的尺寸，让图像上的每一个像素都对应预测的类别结果F_class。语义分割网络框架如图2所示。

(2)基于主动式学习的数据筛选模块

(2.1)图像级别数据筛选模块：

RGB图像通过图像语义分割模块后除了得到最终预测结果F_class，本发明提取编码器的中间特征F_decode作为为数据筛选模块的输入。将F_decode输入到设计的拟合评分网络中，首先用一个卷积核为输入特征的后两个维度大小的全局池化层进行降维操作，得到一个与类别数大小相同的向量V_class。将V_class输入到三个全连接层(FC)，通道数从类别数大小、16、8、1依次下降，最终得到一个数值S。S越接近于0代表着筛选的这张图像在语义分割模块上的表现越好；反之，效果越差。

语义分割网络在训练过程中计算损失的公式采用交叉熵函数，其函数表示如公式(5)：

其中，M表示类别的数量，y_c表示变量的类别判断，类别相同则为1，不同则为0，p_c表示对于观测样本属于类别c的预测概率。在主动式学习筛选模块得到V_class之后，通过设计如下公式(7)的MSE损失函数，来提升筛选模块的性能：

L_pre＝(L_seg-V_class)² (6)

其中，L_seg为语义分割模块训练时得到的loss，V_class为筛选模块得到的数值，通过优化器不断迭代优化，缩小两者的差距，从而使得筛选模块的抉择优化的目的，整体优化过程如图2所示。总体的损失函数如公式(7)表示：

L_total＝L_seg+λL_pre (7)

其中λ是超参数，用于控制L_pre在整个损失中的占比，一般取值范围为0～1之间。通过训练之后，可以固定参数在未标注的数据上进行预测，每一张图像得到对应的L_pre，通过对L_pre的排序，选择出前N个数值大的图像作为下一轮需要标注的数据子集。

(2.2)像素级别数据筛选模块：

通过图像级别数据筛选模块后，选择出部分需要标注的数据子集。为了使得标注的工作量进一步减少，并且考虑到图像中各个类别的占比不同，很多像素上的信息是重复的，所以提出像素级别数据筛选模块。通过输入筛选出的数据子集，得到每一张图上的信息熵的分布。信息熵计算使用投票熵的方式来计算，在公式(5)的基础上进行改进，表述如下：

其中D表示进行了多少次投票，本发明D设为20次。之后采用16*16大小的像素窗口在图像上滑动，计算每一个像素窗口中的信息量，最终排序选择出信息量较大的像素窗口。此模块从整张图像的标注进一步缩小到了范围标注。

(3)标签传播模块

为了实现快速获取视频语义分割的带标签数据集，在收集数据的过程中，大部分数据是以视频形式存在的。考虑到视频是由一组有序的图像组成，即称为帧，前一帧和后一帧之间的差别微小，相似性极大。在前序筛选图像步骤完成之后，例如数据筛选模块筛选出了第t帧，可以通过光流估计(OpticalFlow,OF)来得到第t帧和第t+1帧之间每个像素移动的距离(δx，δy)。具体描述如下：

p_(δx，δy)＝OF(t，t+1) (9)

其中p_(δx，δy)是该像素点移动的距离。本发明采用现有的FlowNetS作为传播模块进行像素移动距离估计。得到像素移动距离p_(δx，δy)之后，通过输入第t帧的语义分割标签，对应上每个像素，就可以得到第t+1帧的语义分割结果。整个过程表述如下：

G_t+1＝warp(G_t，p_(δx，δy)) (10)

其中warp是像素扭曲函数，即让RGB图像上对应到G_t上的像素点进行x，y方向上的叠加计算。视频语义分割总体的实现流程如图1所示。

本发明的有益效果：

本发明提出了一种基于主动式学习的视频语义分割方法。该方法在图像分割模块上采用轻量级的MobileNetv2，使得分割速度上得到了很大的提升。由于大量的数据缺乏高精度的标签，因此不能用于神经网络进行监督训练。本发明提出了一种基于主动式学习的拟合网络，通过只输入RGB图像，提取图像中丰富的信息和特征，经过拟合网络得到每张图像的损失，从而凭借图像损失的大小来筛选需要标注的数据子集，并且可以利用像素筛选模块进一步筛选。一方面大大减少了制作分割数据集的人力和时间成本；另一方面，筛选出来的数据子集包含更加丰富的类别信息和细节，能加速语义分割网络的收敛。本发明能快速生成弱监督数据集，减少数据制作成本，优化语义分割网络的性能。

附图说明

图1是针对于视频场景的基于主动式学习的语义分割技术实现思路图。

图2是本发明的主动式学习网络架构图。包含了两个模块，分别是语义分割的编码、解码模块和基于主动式学习策略的拟合网络筛选模块。总体框架流程构成了一个循环结构，可以不断优化分割性能和筛选准确度。

具体实施方式

下面结合具体实施方式对本发明作进一步详细说明，但本发明并不局限于以下实施方式。

(1)训练数据集

本发明使用数据集需要满足以下需求：首先，本发明采用的数据集中的RGB图像像素大小统一(1024×2048)，本发明中自带图像缩放模块，可以使得像素大小大于512×1024的图像统一缩放到512×1024。如果采用其他小于该标准的数据集，需要自行修改代码中拟合网络的池化层参数。其次，使用的数据集需要拥有少量RGB图像对应的语义分割标签作为整个网络适应新数据集的初始化训练子集。

(2)网络训练

首先，输入数据集中的初始化训练子集，即少量带有标签的数据，语义分割模块和基于主动式学习的筛选模块根据公式(8)来计算损失函数，使用随机梯度下降算法(SGD)训练整个网络并优化损失。批处理大小设置为4，初始化训练数据子集设为20张带标签图像，选择轮数设置为10，每次选择数据大小N为120张，每次选择完毕训练轮数为50轮。所有卷积层的学习率设置为0.0004，学习率策略采用步进策略(35轮之后学习率乘上0.1)。loss损失中的超参数λ设置为0.1，训练过程中每5轮在验证集上验证一次。

(3)网络测试

在分割测试过程中，对每个测试视频序列，将其先输入到基于主动式学习的语义分割方法中，如图2所示关闭训练loss的分支，只使用数据筛选模块进行关键视频帧的筛选。通过筛选之后得到的数据子集(关键帧)，可以手动给出标注标签，也可以通过语义分割模块自动分割标签，两种方式选择取决于对精度高低和运行速度的要求。得到关键帧的标签之后与关键帧RGB图像一一对应，通过脚本生成关键帧图像文件路径的文本。将文本输入到光流估计代码中，使其在未标注的其他图像上进行标签自动传播，最终将整个测试视频序列分割完毕。

Claims

1.一种基于主动式学习的视频语义分割方法，包括图像语义分割、基于主动式学习的数据筛选以及标签传播三个模块；图像语义分割模块负责分割图像结果和提取基于主动式学习的数据筛选模块所需的高维特征；基于主动式学习的数据筛选模块在图像层面选取信息量较丰富的数据子集，并在像素层面上选择需要标注的像素块；标签传播模块实现图像到视频任务的迁移，快速补全视频的分割结果从而得到弱监督数据；

(1)图像语义分割模块

图像语义分割模块是由改良的全卷积网络组成的，主体网络结构采用Mobilenet v2的结构来提取RGB图像的特征，得到高维特征信息后经过解码器将特征通道数转为类别数大小来达到像素分类的效果，最后经过上采样得到和RGB图像相同大小的带有分类信息的语义标签图；

(1.1)图像语义分割模块输入：

语义分割网络对输入的RGB图像没有大小限制，在像素层面的筛选策略需要固定图像的大小，因此对输入的训练数据进行缩放或扩张处理；输入的训练数据分为两个部分：一个是RGB图像记为x，另一个是对应的语义标签记为y；采用如下方式进行输入数据的调整：

X＝B(x) (1)

Y＝N(y) (2)

其中，B(x)表示RGB图像采用双线性插值方式进行处理，N(y)表示语义标签采用最邻近插值法；

(1.2)特征提取编码模块：

RGB图像输入到语义分割网络中，首先经过初始卷积层将通道数由3通道转为32通道，该初始卷积层特征记为F_init；然后经过7个残差卷积得到一个长和宽大小为16和32的高维特征，采用Mobilenetv2的Bottleneck残差块，最终通道数为320，因此高维特征(HLF)维度为16×32×320；其中输入加上经过前3个Bottleneck残差块的特征作为低维特征(LLF)；LLF表示为：

LLF＝[F_init，BN_1(x)，BN_2(x)，BN_3(x)] (3)

其中，BN_1(x)，BN_2(x)，BN_3(x)分别表示经过前三个残差块的特征；[·]是串联连接操作；

(1.3)解码器模块：

采用空洞空间卷积池化金字塔对上述高维特征HLF以不同采样率的空洞卷积并行采样，采样后的特征经过融合与低维特征LLF输入到解码器模块中进行通道数解码，最终得到图像中相应物体类别数的通道大小；整个过程表述如下：

F_decode＝DEC(F_ASPP，LLF) (4)

其中，F_ASPP是ASPP输出的联合特征；DEC表示本方法设计的解码器模块，将F_ASPP经过卷积层使得维度和LLF中的特征维度相同，将两者在通道维度上连接起来并经过反卷积层得到F_decode；得到F_decode后将其输入到双线性上采样层中，使得该特征转换为与原RGB图像一样大小的尺寸，让图像上的每一个像素都对应预测的类别结果F_class；

(2)基于主动式学习的数据筛选模块

(2.1)图像级别数据筛选模块：

RGB图像通过图像语义分割模块后除了得到最终预测结果F_class，本方法提取编码器模块的中间特征F_decode作为为图像级别数据筛选模块的输入；将F_decode输入到设计的拟合评分网络中，首先用一个卷积核为输入特征的后两个维度大小的全局池化层进行降维操作，得到一个与类别数大小相同的向量V_class；将V_class输入到三个全连接层，通道数从类别数大小、16、8、1依次下降，最终得到一个数值S；S越接近于0代表着筛选的这张图像在图像语义分割模块上的表现越好；反之，效果越差；

图像语义分割网络在训练过程中计算损失的公式采用交叉熵函数，其函数表示如公式(5)：

其中，M表示类别的数量，y_c表示变量的类别判断，类别相同则为1，不同则为0，p_c表示对于观测样本属于类别c的预测概率；在基于主动式学习的数据筛选模块得到V_class之后，通过设计如下公式(7)的MSE损失函数，来提升筛选模块的性能：

L_pre＝(L_seg-V_class)² (6)

其中，L_seg为图像语义分割模块训练时得到的loss，V_class为筛选模块得到的数值，通过优化器不断迭代优化，缩小两者的差距，从而使得筛选模块的抉择优化的目的；总体的损失函数如公式(7)表示：

L_total＝L_seg+λL_pre (7)

其中，λ是超参数，用于控制L_pre在整个损失中的占比，取值范围为0～1之间；通过训练之后，固定参数在未标注的数据上进行预测，每一张图像得到对应的L_pre，通过对L_pre的排序，选择出前N个数值大的图像作为下一轮需要标注的数据子集；

(2.2)像素级别数据筛选模块：

通过图像级别数据筛选模块后，选择出部分需要标注的数据子集；通过输入筛选出的数据子集，得到每一张图上的信息熵的分布；信息熵计算使用投票熵的方式来计算，在公式(5)的基础上进行改进，表述如下：

其中，D表示进行了多少次投票，D设为20次；之后采用16*16大小的像素窗口在图像上滑动，计算每一个像素窗口中的信息量，最终排序选择出信息量较大的像素窗口；

(3)标签传播模块

基于主动式学习的数据筛选模块筛选出了第t帧，通过光流估计来得到第t帧和第t+1帧之间每个像素移动的距离(δx，δy)；描述如下：

p_(δx，δy)＝OF(t，t+1) (9)

其中，p_(δx，δy)是该像素点移动的距离；本方法采用现有的FlowNetS作为传播模块进行像素移动距离估计；得到像素移动距离p_(δx，δy)之后，通过输入第t帧的语义分割标签，对应上每个像素，就得到第t+1帧的语义分割结果；整个过程表述如下：

G_t+1＝warp(G_t，p_(δx，δy)) (10)

其中，warp是像素扭曲函数，即让RGB图像上对应到G_t上的像素点进行x，y方向上的叠加计算。