CN114494699A

CN114494699A - 基于语义传播与前背景感知的图像语义分割方法及系统

Info

Publication number: CN114494699A
Application number: CN202210109479.7A
Authority: CN
Inventors: 陈羽中; 占小路
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-13
Anticipated expiration: 2042-01-28
Also published as: CN114494699B

Abstract

本发明涉及一种基于语义传播与前背景感知的图像语义分割方法及系统，该方法包括以下步骤：步骤A：收集特定场景的图像样本，并标注每个像素所属的对象类别，构建带类别标签的训练集；步骤B：利用图像增强技术对训练集进行数据增强，得到增强后的训练集S_E；步骤C：使用训练集S_E训练基于语义传播与前背景感知的深度学习网络模型，用于分析图像中每个像素的语义类别；步骤D：将待分割图像输入到训练后的深度学习网络模型中，输出与原图大小相同的语义分割图，得到语义分割结果。该方法及系统有利于提高图像语义分割的像素准确性与平均交并比。

Description

基于语义传播与前背景感知的图像语义分割方法及系统

技术领域

本发明属于计算机视觉与图像语义分割领域，具体涉及一种基于语义传播与前背景感知的图像语义分割方法及系统。

背景技术

图像语义分割(Image Semantic Segmentation)是计算机视觉中长期存在且充满挑战的基础任务。它的基本目标是对于给定图片中每一个像素都分配一个对应语义类别的标签，最后得到对应类别的分割图，因此图像分割也可以被看作是像素级的分类任务，是细粒度最小的图像语义理解任务。

随着深度神经网络的发展，出现了许多基于卷积神经网络的图像语义分割算法。全卷积神经网络FCNs(Fully Convolutional Neural Networks)首次将完全卷积用于语义分割，其将分类网络的全连接层替换成卷积层，能够更有效地进行端到端训练，且输入图像大小不受限制，能够产生对应大小的密集预测，从而实现像素级别的分类预测。此后，研究人员提出了一系列基于FCN的改进算法，并在图像语义分割任务上取得了进展。但是，由于FCN通过堆叠卷积与池化操作提取特征，造成图像分辨率不断下降，从而导致位置信息的损失。此外，上述模型受到感受野的限制，易出现错误的上下文信息聚合，难以适应包括存在多类别的场景在内的一些复杂场景。因此，图像语义分割研究的重点在于解决分辨率重建以及上下文关系建模问题。

针对分辨率重建问题，大多数研究工作采用空洞卷积或编解码结构。基于空洞卷积的模型主要是在骨干网络中以空洞卷积替代原来的卷积操作从而维持图像的分辨率。此类方法没有引入额外参数，但是高分辨率的特征图显著增加了内存消耗与计算复杂度，限制了模型的应用范围。基于编解码结构的模型则通过聚合编码器的多层次特征逐步恢复分辨率，在恢复过程中不断进行上采样以及特征融合操作。通常上采样操作采用双线性插值方法，但双线性插值在预测像素时仅考虑局部的像素，像素重建能力有限，且不可学习。特征融合操作则多采用普通的加法或拼接操作，但许多工作表明高层特征与低层特征进行简单的相加与拼接操作无法得到高质量的特征。主要因为高层特征包含丰富的语义信息，但缺少空间的细节信息，低层特征有着较大的空间信息，但语义表示能力很弱，两者之间存在语义差距。因此，加强低层特征语义的表示是融合的关键问题。

针对上下文关系建模，早期的研究工作主要通过概率图模型来描述像素之间的关系，如条件随机场和马尔科夫随机场。上述模型基于前端-后端结构，前端采用深度神经网络DCNNs(Deep Convolutional Neural Networks)进行特征提取，后端则使用概率图模型提取像素间的依赖关系。但是，由于模型多在离散的标签空间中进行建模，计算代价高昂。一些模型则在骨干网络后通过金字塔聚合或自注意力机制来捕获上下文关系。基于金字塔聚合的模型主要通过池化操作或空洞卷积操作获得更大范围的上下文信息，进而融合多尺度特征的上下文信息得到更有鉴别力的特征。虽然特征金字塔能够收集丰富的上下文信息，但未对上下文信息的重要性进行有效区分，且忽略了前景与背景上下文之间的依赖关系，影响构建的特征的类别区分能力。近来，基于自注意力机制的方法被广泛应用于包括图像语义分割在内的各种计算机视觉任务中。该方法的主要思想是通过一个注意力图对特征进行有选择的增强，即将注意力更多地放在感兴趣的区域内。在图像语义分割任务中，则是通过注意力机制，提取各种依赖关系来建模上下文信息，从而增强特征表示。因此。如何构建一个有效的依赖关系来表示上下文之间的联系是现有研究的一个关键。

发明内容

本发明的目的在于提供一种基于语义传播与前背景感知的图像语义分割方法及系统，该方法及系统有利于提高图像语义分割的像素准确性与平均交并比。

为实现上述目的，本发明采用的技术方案是：一种基于语义传播与前背景感知的图像语义分割方法，包括以下步骤：

步骤A：收集特定场景的图像样本，并标注每个像素所属的对象类别，构建带类别标签的训练集；

步骤B：利用图像增强技术对训练集进行数据增强，得到增强后的训练集S_E；

步骤C：使用训练集S_E训练基于语义传播与前背景感知的深度学习网络模型，用于分析图像中每个像素的语义类别；

步骤D：将待分割图像输入到训练后的深度学习网络模型中，输出与原图大小相同的语义分割图，得到语义分割结果。

进一步地，所述步骤B中，对训练集中的原始图像及对应掩码标注进行随机水平翻转，并在设定范围内进行随机缩放以及随机亮度抖动。

进一步地，所述步骤C具体包括以下步骤：

步骤C1：将训练集S_E中的样本图像的特征图输入深度卷积神经网络，提取高层特征与低层特征的提取，然后送入联合语义传播上采样模块；

步骤C2：在联合语义传播上采样模块中，通过语义传播方法，利用高层特征的语义信息指导低层特征增强语义表示，并嵌入到层次上采样结构中，得到分辨率大且富含语义信息的特征图X_out，并送入金字塔前背景感知模块；

步骤C3：在金字塔前背景感知模块中，对输入特征提取多尺度的前景上下文特征以及背景上下文特征，并计算出每个前景上下文特征与背景上下文特征之间的依赖关系图，利用依赖关系图与对应的前景上下文特征进行加权，增强前景特征的表示能力，最后融合得到特征图E_out；

步骤C4：将E_out输入softmax层，根据目标损失函数loss，利用反向传播方法计算深度学习网络模型中的各参数的梯度，并利用随机梯度下降方法更新参数；

步骤C5：当深度学习网络模型产生的损失值迭代变化小于设定阈值或迭代达到最大迭代次数，终止深度学习网络模型的训练。

进一步地，所述步骤C1具体包括以下步骤：

步骤C11：将训练集S_E中的一个样本图像的特征图X，输入深度卷积神经网络ResNet101进行特征提取，ResNet101包含五个特征提取层，分别为layer₁-layer₅，每经过一个特征提取层，输出的特征图大小减半，每个特征提取层的输出表示为：

l₁＝layer₁(X)

l₂＝layer₂(l₁)

l₃＝layer₃(l₂)

l₄＝layer₄(l₃)

l₅＝layer₅(l₄)

其中，layer₁包含输出通道数为64、步幅为2的7×7卷积，步幅为2的3×3最大池化操作；layer₂由3个卷积块组成，每个卷积块由输出通道数为64的1×1卷积、输出通道数为64的3×3卷积、输出通道数为256的1×1卷积组成，每个卷积块之间都有一个残差连接；Layer₃由4个卷积块组成，每个卷积块由输出通道数为128的1×1卷积、输出通道数为128的3×3卷积、输出通道数为512的1×1卷积组成，每个卷积块之间都有一个残差连接；layer₄由23个卷积块组成，每个卷积块由输出通道数为256的1×1卷积、输出通道数为256的3×3卷积、输出通道数为1024的1×1卷积组成，每个卷积块之间都有一个残差连接；layer₅由3个卷积块组成，每个卷积块由输出通道数为512的1×1卷积、输出通道数为512的3×3卷积、输出通道数为2048的1×1卷积组成，每个卷积块之间都有一个残差连接；

步骤C12：将l₃,l₄,l₅输入联合语义传播上采样模块。

进一步地，所述语义传播方法通过两个分支提取高层特征的全局语义以及局部语义，其中全局语义分支的组成为平均池化+1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数，局部语义分支组成为1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数，将两分支的输出进行相加并通过sigmoid函数激活，得到高层特征的语义表示；然后，通过与低层特征进行逐像素乘法，将语义信息传入低层，增强低层特征的语义表示；增强后的低层特征与原低层特征进行融合，得到经过语义传播的最终输出；整个过程用公式表示为：

其中，T(·)为语义传播函数，t为语义传播函数返回的输出特征，与l具有相同维度，l、h分别为低层特征输入与高层特征输入，Mpool(·)为最大池化操作，Mpool(；1)表示最后输出的空间尺寸为1×1，F(·)为分支结构函数，包含全局语义分支以及局部语义分支操作过程，参数θ、μ表示全局语义分支的两个1×1卷积操作，

ω表示局部语义分支的两个1×1卷积操作。

进一步地，所述步骤C2具体包括以下步骤：

步骤C21：将输入特征l₅通过双线性插值上采样两倍得到l'₅，将l'₅与l₄输入语义传播函数T(·)进行语义传播，l'₅、l₄分别作为输入语义传播函数的高层特征与低层特征，将语义传播函数输出的特征向量与l'₅进行融合得到输出特征l₅₄；

其中，

为逐像素加法；

步骤C22：将输入特征l₄通过双线性插值上采样两倍得到l'₄，将l'₄与l₃输入语义传播函数T(·)进行语义传播，l'₄、l₃分别作为输入语义传播函数的高层特征与低层特征，将语义传播函数输出的特征向量与l'₄进行融合得到输出特征l₄₃；

步骤C23：将输出特征l₅₄通过双线性插值上采样两倍得到l'₅₄,将l'₅₄与l₄₃输入语义传播函数T(·)进行语义传播，l'₅₄、l₄₃分别作为语义传播函数的高层特征与低层特征，将语义传播函数输出的特征向量与l'₅₄进行融合得到输出特征l₅₄₃；

步骤C24：将输入特征l₃通过一个3×3卷积层以提取更细粒度的特征表示，然后与步骤C22输出特征l₄₃、步骤C23输出特征l₅₄₃按通道维度进行拼接，即所有特征空间维度保持一致，将所有通道合并在一起，组合成一个新的特征，得到输出特征X_out，空间维度与l₃相同，通道维度为l₃通道数的三倍；

X_out＝concat(ε₁(l₃),l₄₃,l₅₄₃)#

其中，

为逐像素加法，ε₁为3×3卷积操作，concat(·)表示按通道维度拼接；

步骤C25：将X_out输入前背景感知模块。

进一步地，所述步骤C3具体包括以下步骤：

步骤C31：将输入特征X_out通过四个并行的不同尺寸的空洞卷积，提取出四个不同的前景特征；

q_i＝atrous(X_out；r_i),i＝[1,2,3,4]

r＝{r₁,r₂,r₃,r₄}＝{1,6,12,18},

Q＝{q₁,q₂,q₃,q₄}

其中，Q为前景特征集合，atrous(·)为空洞卷积操作，r为空洞率，q₁,q₂,q₃,

C为通道个数，是输入特征X_out通道数的1/8，H、W为空间尺寸大小，与输入特征X_out空间尺寸相同；

步骤C32：背景特征由最大池化分支以及平均池化分支获得，其中最大池化分支由四个并行的不同尺寸的最大池化层及1×1卷积层组成，平均池化分支由四个并行的不同尺寸的平均池化层及1×1卷积层组成，将X_out输入两个分支后得到8个背景特征，将其按空间平铺展开并拼接在一起得到最后的背景特征B；

mb_i＝ρ_i(Mpool(X_out；b_i)),i＝[1,2,3,4]

ab_j＝τ_j(Apool(X_out；b_j)),j＝[1,2,3,4]

b＝{b₁,b₂,b₃,b₄}＝{1,2,3,6},

MB＝{Flat(mb₁),Flat(mb₂),Flat(mb₃),Flat(mb₄)}

AB＝{Flat(ab₁),Flat(ab₂),Flat(ab₃),Flat(ab₄)}

B＝concat2(AB,MB)

其中，B为拼接后的背景特征，

C为通道数量，是输入特征X_out通道数的1/8，S表示背景区域个数，根据背景区域划分计算；

b_i为背景划分区域个数；Apool()、Mpool()为平均池化操作和最大池化操作；Flat()表示将特征向量按空间平铺展开，即保持通道维度不变，将空间维度变换为一维，MB与AB集合中的特征维度均为

concat2为空间拼接操作，即通道维度保持一致，将所有空间维度合并在一起，组合成一个新的特征；ρ、τ表示1×1卷积操作；

步骤C33：将前景特征q₁通过形状变换成

即将前景特征q₁的空间尺寸由H×W变换成1×N，N＝H×W,将特征向量q'₁的转置q'₁ ^T与背景特征B进行矩阵乘法，并通过softmax函数激活，得到依赖关系图

之后通过线性插值得到最后的依赖关系图

计算过程如下：

M'₁＝softmax(q'₁ ^T×B)

M₁＝Interpolation(M₁)

步骤C34：前景特征

与依赖关系图

通过矩阵乘法对前景特征进行激励与约束，得到鉴别能力更强的特征

A'₁经过形状变换得到

后与

融合得到最后的输出特征，记为前背景感知特征

A'₁＝α(q'₁×M₁)

A”₁＝reshape(A'₁)

其中，α初始值置为0，通过模型学习得到一个分配权重；

步骤C35：分别对前景特征q₂，q₃，q₄采用步骤C33与步骤C34的操作，得到前背景感知特征A₂，A₃，A₄；

步骤C36：将输入特征X_out通过全局池化分支以捕获全局上下文特征G，全局池化分支由平均池操作、1×1卷积和双线性插值组成，计算公式如下：

G＝bilinear(δ(Apool(X_out；1)))

其中，Apool为平均池操作，1表示最后输出的空间尺寸为1×1、δ表示1×1卷积且输出通道数与输入特征X_out相同，bilinear为双线性插值操作；

步骤C37：将前背景感知特征A₁，A₂，A₃，A₄与全局上下文特征G按通道进行拼接，即所有特征空间维度保持一致，将所有通道合并在一起，组合成一个新的特征，之后通过1×1卷积，减少通道数量，同时加入DropOut层保证模型的泛化能力，获得语义特征图E_out；

E_out＝ε₂(concat(A₁,A₂,A₃,A₄,G))

其中ε₂表示1×1卷积，concat按通道维度进行拼接。

进一步地，所述步骤C4具体包括以下步骤：

步骤C41：特征E_out经过两个1×1卷积，将特征通道数量缩减至与类别个数相同，并通过双线性插值恢复到原图大小，使用softmax归一化，计算每个像素属于各个类别的概率，计算公式如下：

Y＝softmax(bilinear(σ₂(σ₁(E_out)))

其中，Y为输出特征，

C为通道数，与分类类别个数相同，每个通道预测了该像素属于类别i的概率，σ₁，σ₂表示1×1卷积；

步骤C42：用交叉熵作为损失函数计算损失值，通过梯度优化算法SGD进行学习率更新，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型；

其中，最小化损失函数

的计算公式如下：

其中，N是每次迭代训练数据大小的数量，K表示像素空间位置，I表示类别数，Y_nij和

是模型的预测和真实标签结果，

表示辅助分支的预测结果，

为模型最终输出的损失值，

为在骨干网络第四层中添加的辅助损失，计算方法与步骤C41相同，λ为损失占比。

本发明还提供了一种采用上述方法的图像语义分割系统，包括：

数据收集模块，用于收集特定场景的图像样本，并标注每个像素所属的对象类别，构建带类别标签的训练集；

预处理模块，用于对训练集中的训练样本进行数据增强，包括随机水平翻转、缩放和亮度抖动；

网络训练模块，用于将图像特征输入到深度学习网络中，得到图像语义分割特征图并以此训练深度学习网络，利用图像语义分割特征图中每个像素属于某一类别的概率以及训练集中的标注作为损失，以最小化损失为目标来对整个深度学习网络进行训练，得到基于语义传播与前背景感知的深度学习网络模型；以及

图像语义分割分析模块，用于利用图像处理工具，读取输入的图像特征，之后利用训练好的基于语义传播与前背景感知的深度学习网络模型对输入的图像特征进行分析处理，输出图像语义分割图，显示每个像素的所属类别。

与现有技术相比，本发明具有以下有益效果：本发明结合了语义传播和前背景感知，不仅可以得到分辨率大且富含语义信息的特征，而且能够增强前景特征的表示能力，从而提高了图像语义分割的像素准确性与平均交并比，具有很强的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的方法实现流程图；

图2是本发明实施例中基于语义传播与前背景感知的深度学习网络模型架构图；

图3是本发明实施例中联合语义传播上采样模块的结构图；

图4是本发明实施例中金字塔前背景感知模块的结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于语义传播与前背景感知的图像语义分割方法，包括以下步骤：

步骤A：收集特定场景的图像样本，并标注每个像素所属的对象类别，构建带类别标签的训练集。

步骤B：利用图像增强技术对训练集进行数据增强，得到增强后的训练集S_E。

其中，数据增强的方法包括：对训练集中的原始图像及对应掩码标注进行随机水平翻转，以及在设定范围内进行随机缩放和随机亮度抖动。

步骤C：使用训练集S_E训练基于语义传播与前背景感知的深度学习网络模型，用于分析图像中每个像素的语义类别。所述基于语义传播与前背景感知的深度学习网络模型的架构图如图2所示。

所述步骤C具体包括以下步骤：

步骤C1：将训练集S_E中的样本图像的特征图输入深度卷积神经网络，提取高层特征与低层特征的提取，然后送入如图3所示的联合语义传播上采样模块。

所述步骤C1具体包括以下步骤：

l₁＝layer₁(X)

l₂＝layer₂(l₁)

l₃＝layer₃(l₂)

l₄＝layer₄(l₃)

l₅＝layer₅(l₄)

其中，layer₁包含输出通道数为64、步幅为2的7×7卷积，步幅为2的3×3最大池化操作；layer₂由3个卷积块组成，每个卷积块由输出通道数为64的1×1卷积、输出通道数为64的3×3卷积、输出通道数为256的1×1卷积组成，每个卷积块之间都有一个残差连接；Layer₃由4个卷积块组成，每个卷积块由输出通道数为128的1×1卷积、输出通道数为128的3×3卷积、输出通道数为512的1×1卷积组成，每个卷积块之间都有一个残差连接；layer₄由23个卷积块组成，每个卷积块由输出通道数为256的1×1卷积、输出通道数为256的3×3卷积、输出通道数为1024的1×1卷积组成，每个卷积块之间都有一个残差连接；layer₅由3个卷积块组成，每个卷积块由输出通道数为512的1×1卷积、输出通道数为512的3×3卷积、输出通道数为2048的1×1卷积组成，每个卷积块之间都有一个残差连接。

步骤C12：将l₃,l₄,l₅输入联合语义传播上采样模块。

步骤C2：在联合语义传播上采样模块中，通过语义传播方法，利用高层特征的语义信息指导低层特征增强语义表示，并嵌入到层次上采样结构中，得到分辨率大且富含语义信息的特征图X_out，并送入如图4所示的金字塔前背景感知模块。

所述语义传播方法通过两个分支提取高层特征的全局语义以及局部语义，其中全局语义分支的组成为平均池化+1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数，局部语义分支组成为1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数，将两分支的输出进行相加并通过sigmoid函数激活，得到高层特征的语义表示；然后，通过与低层特征进行逐像素乘法，将语义信息传入低层，增强低层特征的语义表示；增强后的低层特征与原低层特征进行融合，得到经过语义传播的最终输出；整个过程用公式表示为：

ω表示局部语义分支的两个1×1卷积操作。

所述步骤C2具体包括以下步骤：

其中，

为逐像素加法。

X_out＝concat(ε₁(l₃),l₄₃,l₅₄₃)#

其中，

为逐像素加法，ε₁为3×3卷积操作，concat(·)表示按通道维度拼接。

步骤C25：将X_out输入前背景感知模块。

步骤C3：在金字塔前背景感知模块中，对输入特征提取多尺度的前景上下文特征以及背景上下文特征，并计算出每个前景上下文特征与背景上下文特征之间的依赖关系图，利用依赖关系图与对应的前景上下文特征进行加权，增强前景特征的表示能力，最后融合得到特征图E_out。

所述步骤C3具体包括以下步骤：

q_i＝atrous(X_out；r_i),i＝[1,2,3,4]

r＝{r₁,r₂,r₃,r₄}＝{1,6,12,18},

Q＝{q₁,q₂,q₃,q₄}

C为通道个数，是输入特征X_out通道数的1/8，H、W为空间尺寸大小，与输入特征X_out空间尺寸相同。

mb_i＝ρ_i(Mpool(X_out；b_i)),i＝[1,2,3,4]

ab_j＝τ_j(Apool(X_out；b_j)),j＝[1,2,3,4]

b＝{b₁,b₂,b₃,b₄}＝{1,2,3,6},

MB＝{Flat(mb₁),Flat(mb₂),Flat(mb₃),Flat(mb₄)}

AB＝{Flat(ab₁),Flat(ab₂),Flat(ab₃),Flat(ab₄)}

B＝concat2(AB,MB)

其中，B为拼接后的背景特征，

concat2为空间拼接操作，即通道维度保持一致，将所有空间维度合并在一起，组合成一个新的特征；ρ、τ表示1×1卷积操作。

步骤C33：将前景特征q₁通过形状变换成

之后通过线性插值得到最后的依赖关系图

计算过程如下：

M'₁＝softmax(q'₁ ^T×B)

M₁＝Interpolation(M₁)。

步骤C34：前景特征

与依赖关系图

A'₁经过形状变换得到

后与

融合得到最后的输出特征，记为前背景感知特征

A'₁＝α(q'₁×M₁)

A”₁＝reshape(A'₁)

其中，α初始值置为0，通过模型学习得到一个分配权重。

步骤C35：分别对前景特征q₂，q₃，q₄采用步骤C33与步骤C34的操作，得到前背景感知特征A₂，A₃，A₄。

G＝bilinear(δ(Apool(X_out；1)))

其中，Apool为平均池操作，1表示最后输出的空间尺寸为1×1、δ表示1×1卷积且输出通道数与输入特征X_out相同，bilinear为双线性插值操作。

E_out＝ε₂(concat(A₁,A₂,A₃,A₄,G))

其中ε₂表示1×1卷积，concat按通道维度进行拼接。

步骤C4：将E_out输入softmax层，根据目标损失函数loss，利用反向传播方法计算深度学习网络模型中的各参数的梯度，并利用随机梯度下降方法更新参数。

所述步骤C4具体包括以下步骤：

Y＝softmax(bilinear(σ₂(σ₁(E_out)))

其中，Y为输出特征，

C为通道数，与分类类别个数相同，每个通道预测了该像素属于类别i的概率，σ₁，σ₂表示1×1卷积。

步骤C42：用交叉熵作为损失函数计算损失值，通过梯度优化算法SGD进行学习率更新，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型。

其中，最小化损失函数

的计算公式如下：

是模型的预测和真实标签结果，

表示辅助分支的预测结果，

为模型最终输出的损失值，

本实施例还提供了采用上述方法的图像语义分割系统，包括数据收集模块、预处理模块、网络训练模块和图像语义分割分析模块。

所述数据收集模块用于收集特定场景的图像样本，并标注每个像素所属的对象类别，构建带类别标签的训练集；

所述预处理模块用于对训练集中的训练样本进行数据增强，包括随机水平翻转、缩放和亮度抖动；

所述网络训练模块用于将图像特征输入到深度学习网络中，得到图像语义分割特征图并以此训练深度学习网络，利用图像语义分割特征图中每个像素属于某一类别的概率以及训练集中的标注作为损失，以最小化损失为目标来对整个深度学习网络进行训练，得到基于语义传播与前背景感知的深度学习网络模型；以及

所述图像语义分割分析模块用于利用图像处理工具，读取输入的图像特征，之后利用训练好的基于语义传播与前背景感知的深度学习网络模型对输入的图像特征进行分析处理，输出图像语义分割图，显示每个像素的所属类别。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于语义传播与前背景感知的图像语义分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于语义传播与前背景感知的图像语义分割方法，其特征在于，所述步骤B中，对训练集中的原始图像及对应掩码标注进行随机水平翻转，并在设定范围内进行随机缩放以及随机亮度抖动。

3.根据权利要求1所述的基于语义传播与前背景感知的图像语义分割方法，其特征在于，所述步骤C具体包括以下步骤：

4.根据权利要求3所述的基于语义传播与前背景感知的图像语义分割方法，其特征在于，所述步骤C1具体包括以下步骤：

l₁＝layer₁(X)

l₂＝layer₂(l₁)

l₃＝layer₃(l₂)

l₄＝layer₄(l₃)

l₅＝layer₅(l₄)

步骤C12：将l₃，l₄，l₅输入联合语义传播上采样模块。

5.根据权利要求3所述的基于语义传播与前背景感知的图像语义分割方法，其特征在于，所述语义传播方法通过两个分支提取高层特征的全局语义以及局部语义，其中全局语义分支的组成为平均池化+1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数，局部语义分支组成为1×1卷积且输出通道数为高级特征通道数的1/2+1×1卷积且输出通道数为高级特征通道数，将两分支的输出进行相加并通过sigmoid函数激活，得到高层特征的语义表示；然后，通过与低层特征进行逐像素乘法，将语义信息传入低层，增强低层特征的语义表示；增强后的低层特征与原低层特征进行融合，得到经过语义传播的最终输出；整个过程用公式表示为：