CN112446381A

CN112446381A - 一种利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法

Info

Publication number: CN112446381A
Application number: CN202011250856.6A
Authority: CN
Inventors: 王蒙; 马意; 郭正兵; 付佳伟
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-03-05
Anticipated expiration: 2040-11-11
Also published as: CN112446381B

Abstract

本发明涉及利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法。本发明用全卷积网络的分层特征映射，经过训练完成对语义分割掩膜的合成；提出在特征映射合成中嵌入测地线活动轮廓初始水平集的演化；再通过高斯卷积对得到的特征掩膜进行平滑处理以构建初始水平集；基于图像梯度将水平集不断迭代从而优化特征输出；进化后的零水平集包含更多准确边缘细节，并输出到下一卷积层进行前馈。水平集的迭代过程还被单独封装为一个独立的水平集层，并整合到统一的端对端训练训练框架中，最终获得语义分割模板。本方法对图像分割的精度有明显的提升，解决了图像语义分割中对目标边缘易混淆边界分割不准确的问题。

Description

一种利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法

技术领域

本发明涉及一种利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法，属于深度学习、计算机视觉和人工智能技术领域。

背景技术

图像分割是计算机视觉研究中的一个经典难题，已经成为图像理解领域关注的一个热点，图像分割是图像分析的第一步，是计算机视觉的基础。语义分割更是视觉理解和其他后续高级任务的关键程序之一。为了从视觉场景中推断出相关知识，应通过语义分割尽可能多地找出前景的详细空间分布。图像的分割方法已在许多情况下得到广泛实施，例如自动驾驶，人机交互，医学图像，图像搜索引擎和增强现实。目前，存在各种对图像分割的解决方案，包括火热的深度学习的方法，和传统的基于活动轮廓、阈值、区域、边缘和图论等分割方法。不同都方法都具有他们各自的优势与不足。图像分割的挑战仍然在于提高分割的精确度和处理复杂场景的准确识别。

测地线活动轮廓(GAC)以曲线演化和水平集方法作为理论基础。该模型的总体思想是隐式地将平面闭合曲线表示为高维表面函数的零阶集合，并将曲线的演化方程转换为偏微分方程的高阶表面，然后迭代更新零水平集以将不断变化的曲线移动到目标轮廓。但是这类方法也有较多的瓶颈，测地线活动轮廓(GAC)的能量方程仅利用简单的特征，这导致特征表示缺乏区分性和学习能力，难以适应实际的复杂场景。尽管有许多研究试图缓解这一弱点，但活动轮廓的体系结构本质上是具有局部收敛性和初始局限性的。此外，基于单个灰色通道的分割可能导致分割掩模的劣化和细节损失，因为彩色通道本质上包含更多的细分的区域特征。

深度神经网络作为一种完全由数据驱动的体系结构得到了广泛研究，它有效改善了以前的浅层方法的局限性。这些深层架构专注于图像数据集的表征学习，并且大量的训练示例可用于自动学习不同层的特征表示，然后将其用于构成与场景语义对齐的最终分割掩膜。这些深度神经网络，尤其是卷积神经网络(CNN)在许多视觉任务中都取得了巨大的成功。基于此，全卷积网络(FCN)利用分层的空间特征以从粗到精的方式组成最终的分割掩膜。FCN的特征映射图通过不同步长的反卷积上采样以生成密集的像素级标签，较好的解决了语义分割的问题。近年来，基于FCN的更复杂的体系结构一直在不断发展。SegNet构建了对称的编码器-解码器结构，以实现端到端的像素级图像分割。同样，PSPNet减少了不同子区域之间上下文信息的丢失，并增加了接收范围来获取更多有用的上下文信息。深度感知的CNN通过发明新颖的深度感知卷积和池化操作来改善低层卷积的运算。但是，日益复杂的体系结构并不能显着改善掩膜输出的边界细节，因为当前的FCN无法专注于自然的分隔不同语义区域的边界特征。此缺陷可能导致不正确地提取低级特征，而通过应用更深，更复杂的深度网络也很难改善这一缺陷。

发明内容

本发明提供了一种利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法，本方法基于测地线活动轮廓(GAC)，利用图像梯度和构建初始水平集来迭代演化；基于全卷积网络(FCN)，通过训练网络提取特征掩码，获得最终预测。

本发明的技术方案是：一种利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法，本发明利用具有深层网络架构的全卷积网络(FCN)的分层特征映射，经过训练完成对语义分割掩膜的合成；提出在特征映射合成中嵌入测地线活动轮廓(GAC)初始水平集的演化；该嵌入模块以由图像颜色，纹理和边缘渐变之类的低层空间特征驱动；再通过高斯卷积对得到的特征掩膜进行平滑处理以构建初始水平集；基于图像梯度将水平集不断迭代从而优化特征输出；进化后的零水平集包含更多准确边缘细节，并输出到下一卷积层进行前馈。水平集的迭代过程还被单独封装为一个独立的水平集层，并整合到统一的端对端训练训练框架中，最终获得语义分割模板进行分割。

所述方法的具体步骤如下：

Step1：全卷积网络FCN对输入图像数据进行训练并提取特征；

Step2：将输入的图像进行平均池化处理，通过高斯卷积来平滑图像并计算图像梯度力；

Step3：对特征图进行另一个高斯平滑处理使之构建为初始水平集，利用Step2中的图像梯度力与初始水平集进行迭代演化，优化特征图的输出；

Step4：优化后的特征图输入到整合的网络的下一层，继续参与训练，最终获得语义预测。

进一步地，所述Step1是指全卷积网络FCN经过卷积层和最大池化层分别得到尺寸为1/8、1/16和1/32的特征小图。

进一步地，所述Step2中计算图像梯度力的具体步骤为：

(1)对输入图像I进行平均池化操作，缩放到与上述Step1提取的特征小图尺寸对齐的图像I_↓；然后将一个高斯卷积应用于I_↓得到

其中

为正态分布

的高斯核；

(2)梯度力的计算

在前述基础上，在缩放的图像上计算梯度幅度：

其中

和

分别表示在X轴和Y轴上的渐变操作，采用了梯度终止函数g_σ来确保曲线随着实际边界向真实边界的方向发展；然后，在缩放图像上计算图像梯度力大小，如下所示：

其中，k是调整梯度变化的参数。

进一步地，所述Step3中，水平集进化的具体步骤为：

(1)初始水平集的构建

设一个单通道的特征图为F_l ^c，其中l＝1,2,...,L和c＝1,2,...,C表示在l层上第c通道的输出；设置l为默认层，根据测地线活动轮廓GAC，应通过具有标准化可微分边界的曲面例如圆锥体初始化水平集，以执行各向同性曲线的演化；特征图F^c∈[0,1]被认为是具有不同通道信息的先验分割掩膜，因此通过对每个F^c执行统一的高斯平滑操作来获得初始化的水平集

其中

为正态分布

的高斯核；

(2)水平集的演化

边界曲线能在通道c上设置为

的零水平集；然后，这些边界曲线在独立特征通道上的水平集演化由下面的运动方程式表示：

其中，φ^c表示通道c上的水平集；

编写由独立通道表示的水平集的并行演化函数，如下所示：

其中，

表示通道c的图像梯度力；

然后，从全卷积网络FCN中第l层的输出中设置特征图掩膜；为了确定演化曲线上每个点的能量变化，通过在x轴和y轴上分别计算来执行梯度算子

和

在水平集演化的迭代下，步骤索引t处的更新方程式表示为：

其中Δt是步长，λ是加权系数，

表示图像梯度力；在以下曲线演化的迭代过程中，应该通过全局线性变换将水平集φ^c(t)重复归一化为φ^c(t)∈[0,1]

否则很容易引起各向异性和不可微的水平集，以影响整体的细分属性，在执行了T次的迭代之后，获得最终的水平集

然后将其输出给下一个层。

进一步地，所述Step4的具体步骤为：

根据全卷积网络FCN，原始输入图像穿过深层网络的卷积层和池化层，并将逐渐获得较小尺寸比例和通道数增加的特征图；在使用卷积和池化层进行组合操作之后，将特征图F_1/2压缩为原始空间尺寸的1/2；类似地，后续的池化操作将特征图F_1/8、F_1/16、和F_1/32的空间尺寸减小；然后，将这些特征图合成为以下等式：

通过K通道的卷积

以及按比例向上采样的图像2倍上采样h_↑×2和8倍上采样h_↑×8的运算，获得带有K掩码类的最终预测

公式(8)中的

即是

另外，在每个卷积层上应用零填充操作，以确保在进行分层操作后，特征图的比例尺保持不变；其中，下标1/8、1/16、1/32均表示的是不同的图像尺寸比例；

如上所述，对原始输入图像进行平滑和下采样以进一步计算层l上的梯度图像G_l，并且全卷积网络FCN上执行编码操作以生成特征图F_l；然后，将G_l和F_l都输入到封装好的水平集层中；

最终将归一化的水平集

输出到后续图层；在这种混合体系结构中，通过在不同尺度上执行差分操作演化迭代，将水平集进化应用于进一步优化特征图；图像尺寸为原图像的1/16、1/8的归一化的水平集

和

是通过以下掩膜合成获得的：

基于测地线活动轮廓并利用全卷积网络驱动的混合语义分割的方法能使用反向传播，并通过统一的过程来训练；这意味着应该在整个网络中满足推导的链规则，尤其是在层l上的水平集演化；因此，相关推导表示为

其中使用输入F_l将层l+1中的错误e_l+1反向传播到水平集层h_LS；然而，水平集层的另一个输入G_l上的梯度被停止为

以限制用于全卷积网络FCN的权重更新；

通过基于其自身的空间梯度和边界先验约束的能量场进行曲线演化，水平集层捕获由特征图表示的更明确的边界；此外，该演进过程与批量数据

集成到每个网络前馈中，因此用以下方式表示迭代过程，水平集迭代后的结果如下：

水平集迭代后的结果与迭代批量数据B对齐，并且此迭代连续执行T次以获得稳定的前馈输出；因此，进化过程缓解了由大量具有复杂纹理的边缘片段引起的对象外部或内部边界检测困难的问题；通过对最终掩膜进行上采样，然后与输入图像相同的空间比例获得语义预测；

在训练阶段，将交叉熵损失应用于整个网络的输出，如下

其中Y_K是带注释的掩膜，与预测

具有相同的尺寸；训练完成后，水平集层能提供优化的特征输出，以指导整个语义分割过程。

本发明的有益效果是：

本发明提出了一种混合的语义分割网络，通过集成可微分的水平集层来精确分割前景边界。该层可以对具有多通道的分层特征图执行边界演化，并将这一方案再单独封装到一个独立的层中。而且，这可以在统一的网络结构下进行端到端的训练，并将边界先验信息和低层空间特征引入到完整的数据驱动网络(FCN)中。这一方法可以有效克服现有深层网络结构中固有的缺陷，即难以增强模糊边界上的分割性能。对真实实验场景的评估验证了所提出的发明达到了更优秀的语义分割性能，并进一步表明所提出的水平集层具有通用性。该层可以整合到其他深度网络中进行训练，并对特征掩膜进行优化来改善边缘分割效果。

附图说明

图1为本发明中的流程图。

具体实施方式

实施例1：如图1所示，一种利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法，本发明利用最精细全卷积网络结构(FCN8s)提取特征掩膜，通过构建一个独立封装的水平集层来优化特征图的输出，并整合为统一的可微分的训练和预测框架。浅层信息可以帮助深度更好的学习到图像的边缘特征和提取到更多的细节信息，以帮助网络完成更精细的语义分割预测。

本发明的实验过程中，使用系统Ubuntu18.04，采用硬件CPU为AMD R5 2600，16G运行内存，并利用英伟达GeForce RTX 1070(8GB)显卡为计算加速。编程语言为python3.6，深度学习框架为TensorFlow 1.14.0和Keras 2.2.5；

其具体实施过程如下：

Step1：全卷积网络FCN对输入图像数据CityScapes数据集进行训练并提取特征；具体指全卷积网络(FCN8s)经过卷积层和最大池化层分别得到尺寸为1/8、1/16和1/32的特征小图；

Step2：将输入的图像进行平均池化处理，处理后的图像空间尺寸与全卷积网络(FCN8s)中得到的特征小图一致；利用高斯卷积平滑图像并计算图像的梯度幅度，再通过一个Sigmoid函数计算图像梯度力，如式(2)所示；

所述Step2中计算图像梯度力的具体步骤为：

其中

为正态分布

的高斯核；

(2)梯度力的计算

在前述基础上，在缩放的图像上计算梯度幅度：

其中

和

其中，k是调整梯度变化的参数。

Step3：对通道为c的特征图为F_l ^c进行高斯平滑处理并构建为初始水平集

利用Step2中的图像梯度力与初始水平集进行迭代演化(如式(6))，经过迭代后的水平集保留大量边缘特征，对特征图起到优化作用；

所述Step3中，水平集进化的具体步骤为：

(1)初始水平集的构建

其中

为正态分布

的高斯核；

(2)水平集的演化

边界曲线能在通道c上设置为

其中，φ^c表示通道c上的水平集；

编写由独立通道表示的水平集的并行演化函数，如下所示：

其中，

表示通道c的图像梯度力；

和

在水平集演化的迭代下，步骤索引t处的更新方程式表示为：

其中Δt是步长，λ是加权系数，

然后将其输出给下一个层。

Step4：优化后的特征图输入到整合的网络的下一层，继经过下一个卷积层抹平通道数，并与之前训练得到的同尺寸特征图相加，再经过步长为8的上采样层和最终的Softmax层从而获得语义分割预测。

所述Step4的具体步骤为：

通过K通道的卷积

公式(8)中的

即是

最终将归一化的水平集

和

是通过以下掩膜合成获得的：

以限制用于全卷积网络FCN的权重更新；

在训练阶段，将交叉熵损失应用于整个网络的输出，如下

其中Y_K是带注释的掩膜，与预测

与现有的其他方法相比，本例的实施通过使用水平集迭代演化来优化特征提取，然后整合到整个网络中，参与训练与预测。这能帮助到深层卷积网络获取到更多有用的边缘信息，优化特征，得到更精细的预测结果。

本方法对图像分割的精度有明显的提升，解决了图像语义分割中对目标边缘易混淆边界分割不准确的问题。此外，所采用的封装水平集层也可以被整合到更多的深度网络中，从而提升整个网络的分割效果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法，其特征在于：所述方法的具体步骤如下：

Step1：全卷积网络FCN对输入图像数据进行训练并提取特征；

2.根据权利要求1所述的利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法，其特征在于：所述Step1是指全卷积网络FCN经过卷积层和最大池化层分别得到尺寸为1/8、1/16和1/32的特征小图。

3.根据权利要求1所述的利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法，其特征在于：所述Step2中计算图像梯度力的具体步骤为：

其中

为正态分布

的高斯核；

(2)梯度力的计算

在前述基础上，在缩放的图像上计算梯度幅度：

其中

和

其中，k是调整梯度变化的参数。

4.根据权利要求1所述的利用全卷积网络驱动的基于测地线活动轮廓的混合语义分割方法，其特征在于：所述Step3中，水平集进化的具体步骤为：

(1)初始水平集的构建

设一个单通道的特征图为

其中l＝1,2,...,L和c＝1,2,...,C表示在l层上第c通道的输出；设置l为默认层，根据测地线活动轮廓GAC，应通过具有标准化可微分边界的曲面例如圆锥体初始化水平集，以执行各向同性曲线的演化；特征图F^c∈[0,1]被认为是具有不同通道信息的先验分割掩膜，因此通过对每个F^c执行统一的高斯平滑操作来获得初始化的水平集