CN111461129B

CN111461129B - 一种基于上下文先验的场景分割方法和系统

Info

Publication number: CN111461129B
Application number: CN202010253715.3A
Authority: CN
Inventors: 余昌黔; 高常鑫; 桑农
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2022-08-02
Anticipated expiration: 2040-04-02
Also published as: CN111461129A

Abstract

本发明公开了一种基于上下文先验的场景分割方法及系统，属于模式识别领域。方法包括：构建场景分割网络；该网络包括特征提取模块、特征聚合模块、上下文先验模块和特征融合模块；前两个模块依次对输入图像进行特征提取和特征聚合；上下文先验模块，对聚合得到的特征进行学习得到上下文先验图，上下文先验图学习得到类内先验和类间先验，将其与特征聚合模块的输出进行加权，对应得到类内特征和类间特征；特征融合模块，将特征提取模块输出的特征图、类内特征和类间特征进行级联融合和上采样后输出；将待分割场景图像输入训练好的场景分割模型，得到分割结果。本发明能够清楚地捕获类内特征和类间特征，有效提高了场景分割的准确度。

Description

一种基于上下文先验的场景分割方法和系统

技术领域

本发明属于模式识别技术领域，更具体地，涉及一种基于上下文先验的场景分割方法和系统。

背景技术

场景分割的目标是为每个像素分配一个类别标签，以提供全面的场景理解，在增强现实、自动驾驶、人机交互和视频监控等领域有着广泛的应用，是计算机视觉中一个长期存在且具有挑战性的问题。

受益于全卷积网络(FCN)的强大特征表示，许多方法都实现了不错的场景分割性能。但是，受卷积层结构的限制，FCN提供的上下文信息不足，导致对场景的理解不够全面，影响了识别结果的准确性。因此，出现了各种方法探索上下文信息以获得更准确的分割结果。目前，聚合上下文信息的途径主要有两种：1)基于金字塔的聚合方法；该类方法采用基于金字塔的模块或全局池化规律地聚合区域或全局上下文信息。但是，它们并不区分不同类别的上下文依赖关系，进而可能混入错误的上下文依赖关系。2)基于注意力的聚合方法；最近，几种基于注意力的方法学习通道注意力、空间注意力或逐像素注意力以选择性地聚合上下文信息。但是，由于缺乏显式的正则化，注意力机制对关系的描述并不清晰。因此，它可能会选择错误的上下文依赖关系，影响分割结果。

总体而言，上述两类方法都在没有区分类别的情况下整合了上下文信息，从而导致了不同上下文关系的混乱，造成场景分割结果准确度较低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于上下文先验的场景分割方法和系统，其目的在于解决现有场景分割方法存在上下文关系混乱，造成场景分割结果准确度低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于上下文先验的场景分割方法，包括：

S1.构建场景分割网络；场景分割网络包括特征提取模块、特征聚合模块、上下文先验模块和特征融合模块；

特征提取模块，用于对输入图像进行特征提取；特征聚合模块，用于对提取到的图像特征进行聚合；

上下文先验模块，用于对聚合得到的特征进行学习，得到上下文先验图，所述上下文先验图根据理想上下文先验关系图学习得到类内先验和类间先验，所述类内先验和类间先验分别与特征聚合模块的输出进行加权，对应得到类内特征和类间特征；

特征融合模块，用于将特征提取模块输出的特征图、上下文先验模块输出的类内特征和类间特征进行级联融合，并对融合后的特征图进行上采样，得到最终的场景分割结果；

S2.将复杂场景下的图像分割数据集作为训练集，对场景分割网络进行迭代训练，得到场景分割模型；

S3.将待分割场景图像输入至训练好的场景分割模型，得到待分割场景图像中每个像素所属的类别。

进一步地，特征提取模块采用ResNet作为主干网络。

进一步地，ResNet后两个阶段去掉下采样的同时使用空洞卷积使得经过后两个阶段的特征图尺寸保持不变。

进一步地，特征聚合模块包括依次连接的卷积层、批归一化层、非线性激活层、全分离卷积层、批归一化层和非线性激活层。

进一步地，全分离卷积层包含两个并列的空间分离卷积，每个空间分离卷积均使用通道分离卷积。

进一步地，理想上下文先验关系图表征图像上每个像素与其他像素是否属于同一类；由经过下采样和独热编码后的真值图进行矩阵乘法得到。

按照本发明的另一方面，提供了一种基于上下文先验的场景分割系统，该系统采用上述基于上下文先验的场景分割方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

(1)本发明提出的上下文先验模块可以学习到明确的类内先验和类间先验，进而可以清楚地捕获类内特征和类间特征，增强特征的表征能力，提高场景分割的准确度。

(2)本发明利用真值标签编码得到理想上下文先验关系图，明确约束特征间类内关系和类间关系，进而学习到明确的上下文先验，有利于场景分割中类别推理、提高了分割准确度。

(3)本发明提出的特征聚合模块利用全分离卷积层，高效地增大感受野、增强语义表征，进而聚合特征，有利于推理特征间的依赖关系，增强了场景分割的鲁棒性。

附图说明

图1为本发明实施例提供的场景分割方法流程图；

图2为本发明实施例提供的特征聚合模块结构示意图；

图3为本发明实施例提供的理想上下文先验关系图的构造示意图；

图4为本发明实施例提供的上下文关系示意图，其中图4(a)为缺乏监督的注意力图，图4(b)为本发明学到的上下文关系图，图4(c)为理想上下文关系图；

图5(a)-图8(d)为本发明实施例提供的待测图像分割效果图，其中，图5(a)-图8(a)为不同场景下的待测图像，依次为人与墙壁、床与柜子、道路场景、山川与湖泊，图5(b)-图8(b)为待测图像对应的Groundtruth，图5(c)-图8(c)为传统FCN输出的分割效果图，图5(d)-图8(d)为本发明的场景分割模型输出的分割效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例提供了一种基于上下文先验的场景分割方法，包括：

S1.构建场景分割网络；

具体地，本发明中的场景是指2D相机所拍摄的场景，例如街道湖泊、山川、沙滩等自然场景以及街道、桥梁、公路等社会场景。上下文先验关系指场景中不同物体类别之间相互依赖的条件概率，例如电脑显示屏依赖于鼠标键盘更容易被识别为电脑显示屏而不是电视，人行道依赖于行人被识别为人行道而不是公路等。场景分割网络包括特征提取模块、特征聚合模块、上下文先验模块和特征融合模块；特征提取模块，用于对输入图像进行特征提取；特征聚合模块，用于对提取到的图像特征进行聚合；上下文先验模块，用于对聚合得到的特征进行学习，得到上下文先验图，上下文先验图根据理想上下文先验关系图学习得到类内先验和类间先验，类内先验和类间先验分别与特征聚合模块的输出进行加权，对应得到类内特征和类间特征；特征融合模块，用于将特征提取模块输出的特征图、上下文先验模块输出的类内特征和类间特征进行级联融合，并对融合后的特征图进行上采样，得到最终的场景分割结果；

本发明实施例中，特征提取模块采用ResNet作为主干网络，ResNet后两个阶段去掉下采样的同时使用空洞卷积使得经过后两个阶段的特征图尺寸保持不变。原始图像经过ResNet后得到的特征图尺寸为原始图像尺寸的1/8、通道数为2048。

本发明实施例中，特征聚合模块利用全分离卷积增大感受野、增强语义上下文来聚合特征，具体结构如图2所示，包括依次连接的卷积层、批归一化层、非线性激活层、全分离卷积层、批归一化层和非线性激活层；其中，全分离卷积层包含两个并列的空间分离卷积FsConv，每个空间分离卷积均使用通道分离卷积DWConv；特征提取模块输出的特征图经过特征聚合模块后得到通道数为256的特征图，特征图尺寸保持不变。

聚合后的特征图经过经过卷积层、批归一化层和非线性激活层得到通道数为输入特征图H*W的特征图，然后重塑为通道数为1，长宽分别为H*W的上下文先验图，上下文先验图根据理想上下文先验关系图学习得到类内先验和类间先验，将该上下文先验关系加权特征聚合模块的输出进而提取类内特征和类间特征。

图3为本发明实施例提供的理想上下文先验关系图的构造示意图，Groundtruth经过下采样后使用独热编码得到编码后的真值图，其大小为H*W*C，其中C为类别数。真值图中的每个向量都由一个高值(1)和其余低值(0)组成，然后编码后的真值图进行矩阵乘法得到理想上下文先验关系图。

Ground truth：在图像语义分割中，对图像上每个像素点标注上对应的类别，从而形成的具有语义类别标签的图像。Ground truth与原图尺寸上等大，Ground truth上的值由原图中所含类别值构成。

具体地，本发明的实施例采用ADE20K，它是一个复杂场景下的图像分割数据集，包含2万张图像作为训练集、2千张图像用于验证集和3千张图像用于测试集。每个像素都标注好预先定义的类别，数据集具有150类预先定义的语义标签。将训练集随机分成大小相同的训练子集，本实施例中每个训练子集大小为16。对每个训练子集的数据进行数据扩增，以提高准确率，具体包括：计算训练集中图像每一通道的均值；训练子集中每张图像减去图像均值；随机水平翻转，并随机缩放，缩放系数为中{0.5,0.75,1.0,1.5,1.7}任一个。

在本实施例中，每次训练一个训练子集，所有的训练子集训练结束为一次迭代结束。重复上述操作直至迭代次数到达上限，得到最终的权值，实现深度卷积神经网络的训练。在本实施例中，迭代次数上限优选80000。

一次迭代中的训练过程如下：利用正向传播算法和后向传播算法训练上下文先验网络的网络参数，正向传播计算每个训练子集对应的损失函数，反向传播会得到这个训练子集相应的梯度。利用Softmax损失函数

其中，N为标签总数，p_i为第i个标签的概率，计算场景分割网络的总损失函数

其中，

为主损失函数，即网络输出的损失；

为辅助损失函数，即主干网络Resnet第三阶段输出的损失；

为上下文先验损失，即理想上下文先验关系图对上下文先验关系图监督所得损失；参数λ_s,λ_a,λ_p用以均衡主损失函数、辅助损失函数和上下文先验损失函数，本发明中λ_s,λ_p的值为1，λ_a的值为0.4。利用小批量随机梯度下降算法最小化损失函数，然后更新权值，更新之后的权值作为训练下一个训练子集的初始值。

S3.将待分割场景图像输入利用训练好的场景分割模型，得到待分割场景图像中每个像素所属的类别。

图4本发明实施例提供的上下文关系示意图，其中，图4(a)为缺乏监督的注意力图，图4(b)为本发明的场景分割模型学到的上下文关系图，图4(c)为理想上下文关系图。可以看出图4(b)与图4(c)非常接近，因此，利用本发明提出的场景分割模型对目标类内类间关系进行建模归类，能够清晰地提取出对应的类内特征和类间特征。

图5为本发明实施例提供的待测图分割效果图，其中，图5(a)-图8(a)为不同场景下的待测图像，图5(b)-图8(b)为待测图像对应的Groundtruth，图5(c)-图8(c)为传统FCN输出的分割效果图，图5(d)-图8(d)为本发明的场景分割模型输出的分割效果图。相比图5(c)-图8(c)，显然图5(d)-图8(d)与待测图像对应的Groundtruth更为接近，因此，利用本发明提出的场景分割模型对目标进行分割归类，能够对场景中的人、墙壁、床、柜子、公交车、小车、山、湖等进行准确的定位与识别，提供更详细的场景理解。

本发明提出的场景分割方法可应用于自动驾驶、地理信息系统、视频监控、医疗影像分析以及机器人等领域。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于上下文先验的场景分割方法，其特征在于，包括：

S1.构建场景分割网络；所述场景分割网络包括特征提取模块、特征聚合模块、上下文先验模块和特征融合模块；

所述特征提取模块，用于对输入图像进行特征提取；所述特征聚合模块，用于对提取到的图像特征进行聚合；所述特征聚合模块包括依次连接的卷积层、批归一化层、非线性激活层、全分离卷积层、批归一化层和非线性激活层；所述全分离卷积层包含两个并列的空间分离卷积，每个空间分离卷积均使用通道分离卷积；

所述上下文先验模块，用于对聚合得到的特征进行学习，得到上下文先验图，所述上下文先验图根据理想上下文先验关系图学习得到类内先验和类间先验，所述类内先验和类间先验分别与特征聚合模块的输出进行加权，对应得到类内特征和类间特征；所述理想上下文先验关系图表征图像上每个像素与其他像素是否属于同一类；由经过下采样和独热编码后的真值图进行矩阵乘法得到；

所述特征融合模块，用于将特征提取模块输出的特征图、上下文先验模块输出的类内特征和类间特征进行级联融合，并对融合后的特征图进行上采样，得到最终的场景分割结果；

S2.将复杂场景下的图像分割数据集作为训练集，对所述场景分割网络进行迭代训练，得到场景分割模型；

2.根据权利要求1所述的一种基于上下文先验的场景分割方法，其特征在于，所述特征提取模块采用ResNet作为主干网络。

3.根据权利要求2所述的一种基于上下文先验的场景分割方法，其特征在于，所述ResNet后两个阶段去掉下采样的同时使用空洞卷积使得经过后两个阶段的特征图尺寸保持不变。

4.一种基于上下文先验的场景分割系统，其特征在于，该系统采用权利要求1-3任一项所述的一种基于上下文先验的场景分割方法。