CN110569851B

CN110569851B - 门控多层融合的实时语义分割方法

Info

Publication number: CN110569851B
Application number: CN201910802653.4A
Authority: CN
Inventors: 张灿龙; 程庆贺; 李志欣; 解盛
Original assignee: Guangxi Normal University
Current assignee: Shenzhen Wanzhida Technology Co ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2022-03-15
Anticipated expiration: 2039-08-28
Also published as: CN110569851A

Abstract

本发明公开一种门控多层融合的实时语义分割方法，先构建门控多层融合网络，再利用训练集和测试集对门控多层融合网络进行训练和测试得到最终分割的预测模型，最后利用最终分割的预测模型对实时采集图像进行处理，得到最终的分割图像输出。本发明采用轻量级模型作为主架构，并合理运用1×1卷积进行通道降维，最终设计出的模型在保证精度的同时提高运行速度。多层融合架构实现了不同层的不同语义特征进行融合，这样更能提高语义信息的还原，并且大大降低预测图像的边界平滑性。门控结构加权下采样平行层语义信息，使U型连接更加高效，并且促进相邻层间的反馈与监督，低层次监督高层次进行语义补充，高层次对低层次进行更好的下采样。

Description

门控多层融合的实时语义分割方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种门控多层融合的实时语义分割方法。

背景技术

语义分割已经成为计算机视觉领域中一项关键性技术，通过语义分割任务能够更好的从计算机场景中获取相关信息，因此更好的解决语义分割任务能够为计算机的场景理解提供有效的帮助，具体的应用包括自动驾驶，医疗影像分析和人机交互等。语义分割可定义为检测图像的每个像素的值，然后与所给标签进行逐像素对比，将图像的每个像素点都进行精确分类。

随着深度学习的快速发展，越来越多的深度学习算法被用于解决语义分割问题，不仅简化了执行语义分割的通道，并且极大地提高了预测精度。FCN，VGG16和GoogleNet是一些用于语义分割的最简单，最流行的基础架构。虽然在这些基础结构上的部分简单分割网络已经能够表现不错的性能，但是由于深层的精确定位像素和浅层的像素不能够高效结合，导致像素的还原不够精确，从而输出不均匀并且造成像素的重叠，这些问题直接导致预测图像的边缘平滑问题，不能够精确分割出图像与背景。

发明内容

本发明所要解决的是现有的语义分割方法在进行深度学习时损失大量有效特征和模型运行速度的问题，提供一种门控多层融合的实时语义分割方法，其在模型复杂度降低的情况下，能保持一个不错的预测精度。

为解决上述问题，本发明是通过以下技术方案实现的：

门控多层融合的实时语义分割方法，具体包括步骤如下：

步骤1、构建门控多层融合网络，该门控多层融合网络包括64维的1/2倍下采样层、128维的1/4倍下采样模块、256维的1/8倍下采样模块、512维的1/16倍下采样模块、1028维的1/32倍下采样模块、512维的2倍上采样模块、256维的2倍上采样模块、256维的4倍上采样模块、128维的2倍上采样模块、128维的4倍上采样模块、2个64维的2倍上采样模块、512维的降维模块、3个256维的降维模块、3个128维的降维模块、2个64维的降维模块、5个门控通道、6个拼接通道、以及1个像素预测卷积模块；

64维的1/2倍下采样层的输入端形成门控多层融合网络的输入端；64维的1/2倍下采样层的输出端分为2路，一路连接第一门控通道的输入端，另一路连接128维的1/4倍下采样模块的输入端；128维的1/4倍下采样模块的输出端分为2路，一路连接第二门控通道的输入端，另一路连接256维的1/8倍下采样模块的输入端；256维的1/8倍下采样模块的输出端分为2路，一路连接第三门控通道的输入端，另一路连接512维的1/16倍下采样模块的输入端；512维的1/16倍下采样模块的输出端分为2路，一路连接第四门控通道的输入端，另一路连接1028维的1/32倍下采样模块的输入端；1028维的1/32倍下采样模块的输出端连接第五门控通道的输入端；

第五门控通道的输出端连接512维的降维模块的输入端，512维的降维模块的输出端分为2路，一路连接第一256维的降维模块的输入端，另一路连接512维的2倍上采样模块的输入端；第四门控通道的输出端和512维的2倍上采样模块的输出端同时连接第一拼接通道的输入端；第一拼接通道的输出端连接第二256维的降维模块的输入端；256维的降维模块的输出端分为2路，一路连接第一128维的降维模块的输入端，另一路连接256维的2倍上采样模块的输入端；第三门控通道的输出端和256维的2倍上采样模块的输出端同时连接第二拼接通道的输入端；第二拼接通道的输出端连接第三256维的降维模块的输入端；第一256维的降维模块的输出端连接256维的4倍上采样模块的输入端，256维的4倍上采样模块的输出端和第三256维的降维模块的输出端连接第三拼接通道的输入端；第三拼接通道的输出端连接第二128维的降维模块的输入端；第二128维的降维模块的输出端连接128维的2倍上采样模块的输入端，第二门控通道的输出端和128维的2倍上采样模块的输出端同时连接第四拼接通道的输入端；第四拼接通道的输出端连接第三128维的降维模块的输入端；第一128维的降维模块的输出端连接128维的4倍上采样模块的输入端；第三128维的降维模块的输出端和128维的4倍上采样模块的输出端同时连接第五拼接通道的输入端；第五拼接通道的输出端连接第一64维的降维模块的输入端，第一64维的降维模块的输出端连接第一64维的2倍上采样模块的输入端；第一门控通道的输出端和第一64维的2倍上采样模块的输出端同时连接第六接通道的输入端；第六接通道的输出端连接第二64维的降维模块的输入端，第二64维的降维模块输出端连接第二64维的2倍上采样模块的输入端，第二64维的2倍上采样模块的输出端连接像素预测卷积模块的输入端，像素预测卷积模块的输出端形成门控多层融合网络的输出端；

步骤2、将已知的语义分割数据集中的图像分为训练集和测试集，并分别对训练集和测试集中的图像进行预处理；

步骤3、利用训练集对门控多层融合网络进行训练，得到分割预测模型；

步骤4、利用测试集对实时语义分割的预测模型进行测试，得到最终分割的预测模型；

步骤5、从场景中采集图像，并将采集到的图像送入最终分割的预测模型进行处理，得到最终的分割图像输出，即我们需要的图像分割结果。

上述方案中，5个门控通道的结构相同，即均由通道可控降维模块、通道可控升维模块、全局池化模块、1×1卷积模块、归一化与Relu函数模块、Sigmoid函数模块、加权模块和通道叠加模块组成；通道可控降维模块的输入端形成门控通道的输入端；通道可控降维模块的输出端分为3路，一路连接全局池化模块的输入端，另一路连接加权模块的一个输入端，又一路连接通道叠加模块的一个输入端；全局池化模块的输出端连接1×1卷积模块的输入端，1×1卷积模块的输出端连接归一化与Relu函数模块的输入端；归一化与Relu函数模块的输出端连接Sigmoid函数模块的输入端，Sigmoid函数模块的输出端连接加权模块的另一个输入端；加权模块的输出端连接通道叠加模块的另一个输入端；通道叠加模块的输出端连接通道可控升维模块的输入端；通道可控升维模块的输出端形成门控通道的输出端。

上述方案中，5个门控通道的结构相同，即均由通道可控降维模块、通道可控升维模块、全局池化模块、1×1卷积模块、归一化与Relu函数模块、Sigmoid函数模块、加权模块和通道叠加模块组成；通道可控降维模块的输入端形成门控通道的输入端；通道可控降维模块的输出端分为2路，一路连接全局池化模块的输入端，另一路连接加权模块的一个输入端；全局池化模块的输出端连接1×1卷积模块的输入端，1×1卷积模块的输出端连接归一化与Relu函数模块的输入端；归一化与Relu函数模块的输出端连接Sigmoid函数模块的输入端，Sigmoid函数模块的输出端连接加权模块的另一个输入端；加权模块的输出端连接通道可控升维模块的输入端，通道可控升维模块的输出端和通道可控降维模块的输入端同时连接通道叠加模块的输入端；通道叠加模块的输出端形成门控通道的输出端。

上述方案中，所述语义分割数据集为Pascal Voc 2012和CamVid。

上述方案中，对训练图像和测试集中的图像进行预处理过程分别如下：先对图像进行固定大小的随机裁剪，再将裁剪后的图像进行随机水平翻转和亮度变换，后将翻转后的训练图像进行归一化。

与现有技术相比，本发明利用门控多层融合网络来实现图像的语义分割，具有以下几个特点：

(1)为保证网络的时效性，采用轻量级模型作为主架构，并合理运用1×1卷积进行通道降维，最终设计出的模型在保证精度的同时提高运行速度。

(2)多层融合架构实现了不同层的不同语义特征进行融合，这样更能提高语义信息的还原，并且大大降低预测图像的边界平滑性。

(3)门控通道加权下采样平行层语义信息，使U型连接更加高效，并且促进相邻层间的反馈与监督，低层次监督高层次进行语义补充，高层次对低层次进行更好的下采样。

附图说明

图1为本发明用于语义分割的门控多层融合网络结构示意图。

图2为现有注意力机制的示意图。

图3为本发明所提出的一种门控通道结构示意图。

图4为本发明所提出的另一种门控通道结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

一种门控多层融合的实时语义分割方法，具体包括步骤如下：

(一)构建门控多层融合网络：

本发明所构建的用于语义分割的门控多层融合网络，如图1所示，包括64维的1/2倍下采样层、128维的1/4倍下采样模块、256维的1/8倍下采样模块、512维的1/16倍下采样模块、1028维的1/32倍下采样模块、512维的2倍上采样模块、256维的2倍上采样模块、256维的4倍上采样模块、128维的2倍上采样模块、128维的4倍上采样模块、2个64维的2倍上采样模块、512维的降维模块、3个256维的降维模块、3个128维的降维模块、2个64维的降维模块、5个门控通道、6个拼接通道、以及1个像素预测卷积模块。

64维的1/2倍下采样层的输入端形成门控多层融合网络的输入端；64维的1/2倍下采样层的输出端分为2路，一路连接第一门控通道的输入端，另一路连接128维的1/4倍下采样模块的输入端；128维的1/4倍下采样模块的输出端分为2路，一路连接第二门控通道的输入端，另一路连接256维的1/8倍下采样模块的输入端；256维的1/8倍下采样模块的输出端分为2路，一路连接第三门控通道的输入端，另一路连接512维的1/16倍下采样模块的输入端；512维的1/16倍下采样模块的输出端分为2路，一路连接第四门控通道的输入端，另一路连接1028维的1/32倍下采样模块的输入端；1028维的1/32倍下采样模块的输出端连接第五门控通道的输入端。

第五门控通道的输出端连接512维的降维模块的输入端，512维的降维模块的输出端分为2路，一路连接第一256维的降维模块的输入端，另一路连接512维的2倍上采样模块的输入端；第四门控通道的输出端和512维的2倍上采样模块的输出端同时连接第一拼接通道的输入端；第一拼接通道的输出端连接第二256维的降维模块的输入端；256维的降维模块的输出端分为2路，一路连接第一128维的降维模块的输入端，另一路连接256维的2倍上采样模块的输入端；第三门控通道的输出端和256维的2倍上采样模块的输出端同时连接第二拼接通道的输入端；第二拼接通道的输出端连接第三256维的降维模块的输入端；第一256维的降维模块的输出端连接256维的4倍上采样模块的输入端，256维的4倍上采样模块的输出端和第三256维的降维模块的输出端连接第三拼接通道的输入端；第三拼接通道的输出端连接第二128维的降维模块的输入端；第二128维的降维模块的输出端连接128维的2倍上采样模块的输入端，第二门控通道的输出端和128维的2倍上采样模块的输出端同时连接第四拼接通道的输入端；第四拼接通道的输出端连接第三128维的降维模块的输入端；第一128维的降维模块的输出端连接128维的4倍上采样模块的输入端；第三128维的降维模块的输出端和128维的4倍上采样模块的输出端同时连接第五拼接通道的输入端；第五拼接通道的输出端连接第一64维的降维模块的输入端，第一64维的降维模块的输出端连接第一64维的2倍上采样模块的输入端；第一门控通道的输出端和第一64维的2倍上采样模块的输出端同时连接第六接通道的输入端；第六接通道的输出端连接第二64维的降维模块的输入端，第二64维的降维模块输出端连接第二64维的2倍上采样模块的输入端，第二64维的2倍上采样模块的输出端连接像素预测卷积模块的输入端，像素预测卷积模块的输出端形成门控多层融合网络的输出端。

左侧的部分采用轻量级模型进行快速下采样，每个结构框下方数字表示通道数。下采样过程我们采用的是最大池化进行处理，来扩大感受野，最终通过五层处理将原图缩小32倍，最终的特征维度达到1028维。采用轻量级的优势在于提高模型的运行速度，减少结构的参数。中间GC表示门控通道，本发明采用的是U型的整体架构，在进行横向连接过程中已有结构采用注意力机制进行特征提取，然后对上采样特征图进行像素补充，本发明的提出，既保证了像素的补充又减少了模型的参数，使模型达到实时的效果。右侧表示多层融合上采样，C表示通道拼接融合过程，在通道维度进行相加，使输出维度为输入维度之和。

为了保证网络结构的运行速度，在上采样前先对特征图通道用1×1卷积进行降维处理，使其通道数等于上采样后需要拼接的特征图通道数，这样做的优势在于大大降低了模型参数，使其能够达到实时的效果。从图中我们可以将2倍下采样看做第一层，依次类推，32倍下采样时为第五层。由图中可以清楚的看出本发明所提多层融合结构的表示，在进行上采样过程中我们将第三层的结果分别与第四层的2倍上采样和第五层的4倍上采样结果进行融合，第二层的结果分别与第三层融合后的2倍上采样和第四层的4倍上采样分别融合。这样能够结合不同层像素的多样性，并且使定位更加准确，使预测结果的边缘更加精细。在融合过程中本发明都是采用通道维度拼接进行融合，并且考虑到模型运行速度的原因，我们会在融合之前对特征图的维度进行降维处理来保证模型的实时性。

在上述门控多层融合网络中，5个门控的结构相同，且均基于现有的注意力机制进行改进。

图2为现有的注意力机制，此结构的优势在于，对特征图像素进行加权处理，使得主要特征表达的更加明确，通过权值对特征图进行加权来保留更重要的特征像素，×表示权值与特征图相乘。此结构主要运用到全局池化处理，此种处理结果是用一个特征值来表示整个特征图的特征，然后用1×1卷积进行特征值的表达，再通过Sigmoid函数进行权值的获取，然后进行跳跃连接来加权特征图，最后利用跳跃的残差连接来修正加权的特征图。

本发明的主体网络架构为U型的结构框架，在进行横向通道拼接时先对特征图进行门控处理，这样做的优势在于横向连接能够更好的补充像素信息，门控通道的加入能够更精确的筛选补充像素，并且通过1×1的降维能够很大程度减少模型参数，提高运算速度，使模型达到实时效果。图3和图4为本发明所提出的两种门控通道的结构，两种门控通道均在保留注意机制提取主要特征的同时，采用了1×1卷积运算来减少模型的运算参数，这样的结构运行速度更加高效，并且保持不错的预测精度。

图3为本发明所提出的一种门控通道结构，由由通道可控降维模块、通道可控升维模块、全局池化模块、1×1卷积模块、归一化与Relu函数模块、Sigmoid函数模块、加权模块和通道叠加模块组成。通道可控降维模块的输入端形成门控通道的输入端；通道可控降维模块的输出端分为3路，一路连接全局池化模块的输入端，另一路连接加权模块的一个输入端，又一路连接通道叠加模块的一个输入端；全局池化模块的输出端连接1×1卷积模块的输入端，1×1卷积模块的输出端连接归一化与Relu函数模块的输入端；归一化与Relu函数模块的输出端连接Sigmoid函数模块的输入端，Sigmoid函数模块的输出端连接加权模块的另一个输入端；加权模块的输出端连接通道叠加模块的另一个输入端；通道叠加模块的输出端连接通道可控升维模块的输入端；通道可控升维模块的输出端形成门控通道的输出端。在该门控通道中，特征图首先经过1×1卷积进行通道降维，降维大小通过C进行控制，降维过后大大减少了运行的参数，然后通过传统注意力机制进行加权处理(即通过全局池化操作，将图片信息用一个特征值概括，随后通过一个1×1卷积进行权值表达，然后采用归一化和Relu函数进行优化处理，然后Sigmoid函数获取权重，×表示对特征图加权，最后使用残差方式进行连接)，之后我们再通过控制C来升维，还原像素通道。

图4为本发明所提出的另一种门控通道结构，由由通道可控降维模块、通道可控升维模块、全局池化模块、1×1卷积模块、归一化与Relu函数模块、Sigmoid函数模块、加权模块和通道叠加模块组成。通道可控降维模块的输入端形成门控通道的输入端；通道可控降维模块的输出端分为2路，一路连接全局池化模块的输入端，另一路连接加权模块的一个输入端；全局池化模块的输出端连接1×1卷积模块的输入端，1×1卷积模块的输出端连接归一化与Relu函数模块的输入端；归一化与Relu函数模块的输出端连接Sigmoid函数模块的输入端，Sigmoid函数模块的输出端连接加权模块的另一个输入端；加权模块的输出端连接通道可控升维模块的输入端，通道可控升维模块的输出端和通道可控降维模块的输入端同时连接通道叠加模块的输入端；通道叠加模块的输出端形成门控通道的输出端。在该门控通道中，将跳跃的残差连接放在降维通道外，这样的优势在于避免减少修正特征图的有利像素，使得还原时像素的补充更加全面，预测结果更加精确。

上述Relu优化函数可表示为：

上述Sigmoid函数可表示为：

两种种门控通道与现有加权方法不同之处在于，通过通道参数C进行通道维度调节，这样可以控制后续特征图处理的维度和参数，在权值处理过程中减少参数，使模型轻量化以达到实时的效果，处理完加权操作后再通过C对通道维度进行升维，来保证特征像素的保留，使得后续输出能够保留更多的特征值。通过实验对比得出，两种形式得到的运算精度各不相同，实验表明图4的门控通道较优于图3的门控通道。

多层融合结构能够结合不同特征层的特征像素，可以更好的发挥深层结构大感受野的优势，同时结合浅层特征像素的细节补充，将更精确的特征像素进行上采样还原，使得还原更准确，可以有效的解决预测结果的边界平滑，本发明提出的多层融合结构主要针对像素还原问题，将深层的精细特征通过多个上采样和不同尺度的上采样，尽可能的发挥出大感受野的优势，同时结合浅层特征图的补充，从而使预测的边缘更加精细，准确。另外也有一些结构着手于解决下采样的像素损失问题。空洞卷积和大核卷积的提出在获取大感受域的同时保留了更多空间信息，相对于池化结构，具有更优越的预测结果。还有一些网络采用跳跃式连接将之前层的像素信息传递给更深层。ResNet和U-Net都采用跳跃连接。后者具有从卷积块的输出到同一层转置卷积块的相应输入的跳跃连接，这种跳跃连接允许梯度更好地传递，并且能够提供不同尺度的语义信息。浅层的大尺度特征图可以帮助模型更好地分类，深层的小尺度特征图能够帮助模型更好地定位。不过这种单一跳跃连接的像素补充往往不能发挥出这种结构的全部优势。本发明考虑到针对有效像素的传递问题提出采用门控通道来过滤非必要像素。门控通道的优点在于根据需要来输出特征像素，从而使跳跃式连接变得更加高效。上述结构的介绍极大地改进了网络的预测精度问题，但是复杂的网络结构和繁重的参数降低了网络的运行速度。考虑到预测精度和运行速度同样重要，本发明提出了门控多层融合结构(Gated Multi-layer Fusion，GMFNet)。

(二)处理给定的语义分割数据集：

对大型语义分割数据集Pascal Voc 2012和CamVid进行图像预处理：首先，将整个数据集图片按照7:3分为训练集和测试集。然后，将它们的图像大小全部裁剪或扩充为512×512像素。接着，把图像水平翻转和亮度变换。最后，将照片归一化为每张照片所有像素值的均值为0，方差为1。

(三)利用训练集对所构建的门控多层融合网络进行训练，得到分割预测模型：

基于所构建的门控多层融合网络，整个训练过程大致分为四阶段：第一阶段是通过快速下采样来提取图像的主要特征值；第二阶段是通过门控通道来加权横向连接的特征图，使得在像素补充时的像素更加精确；第三阶段通过双线性插值方法对最深层特征图进行上采样处理来还原像素，并采用多层融合方法进行处理；第四阶段将特征图进行像素预测，得到最终分割图输出。

基于本发明的门控多层融合网络，其所实现的训练过程具体包括步骤如下：

步骤1、将原训练图像进行1/2倍下采样处理，1/2倍下采样先利用卷积通道为64维的卷积层提取图像的卷积特征，再将提取的卷积特征送入最大池化层提取图像的最大池化特征，得到缩小2倍的下采样特征图；

步骤2、将步骤1所得的下采样特征图进行1/4倍下采样处理，1/4倍下采样先利用卷积通道为128维的卷积层进行卷积运算，并应用最大池化层来扩大感受野，获取最大池化特征，得到缩小4倍的下采样特征图；

步骤3、将步骤2所得的下采样特征图进行1/8倍下采样处理，1/8倍下采样利用卷积通道为256维的卷积层进行卷积运算，并应用最大池化层来扩大感受野，获取最大池化特征，得到缩小8倍的下采样特征图；

步骤4、将步骤3所得的最大池化特征进行1/16倍下采样处理，1/16倍下采样利用卷积通道为512维的卷积层进行卷积运算，并应用最大池化层来扩大感受野，获取最大池化特征，得到缩小16倍的下采样特征图；

步骤5、将步骤4所得的最大池化特征进行1/32倍下采样处理，1/32倍下采样利用卷积通道为1028维的卷积层进行卷积运算，并应用最大池化层来扩大感受野，获取最大池化特征，得到缩小32倍的下采样特征图；

步骤6、对于步骤5所得的下采样特征图通过一个门控通道处理，得到加权特征图，然后通过一个1×1卷积核进行降维，得到512维的特征图；

步骤7、将步骤6所得的特征图进行2倍上采样处理后，得到维度为512的上采样特征图；

步骤8、先将步骤4所得的下采样特征图通过一个门控通道处理，得到加权特征图，再将该加权特征图与步骤7所得到的上采样特征图进行通道拼接处理后，通过一个1×1卷积进行降维，得到256维的特征图；

步骤9、将步骤8所得的特征图进行2倍上采样处理，得到维度为256的上采样特征图；

步骤10、对步骤3所得的下采样特征图通过一个门控通道处理，得到加权特征图，再将该加权特征图与步骤9所得的上采样特征图道拼接处理后，通过1×1卷积进行降维处理，得到256维的特征图；

步骤11、将步骤6所得的特征图通过1×1卷积进行降维处理，维度变为256维，之后进行4倍上采样处理，得到256维上采样特征图；

步骤12、将步骤10所得的特征图与步骤11所得的上采样特征图进行通道拼接后，通过一个1×1卷积进行降维，得到128维的特征图；

步骤13、将步骤12所得的特征图进行2倍上采样处理，得到128维的上采样特征图；

步骤14、先对步骤2所得的特征图通过一个门控通道处理，得到加权特征图，再将该加权特征图与步骤13所得的上采样特征图进行通道拼接处理后，通过1×1卷积进行降维处理，得到128维的特征图；

步骤15、将步骤8所得的特征图通过1×1卷积进行降维处理，维度变为128维，之后进行4倍上采样处理，得到128维上采样特征图；

步骤16、将步骤14所得的特征图与步骤15所得上采样特征图进行通道拼接处理，之后通过1×1卷积进行降维处理，得到64维特征图；

步骤17、将步骤16所得的特征图进行2倍上采样处理，得到64维上采样特征图；

步骤18、先将步骤1所得的特征图通过一个门控通道处理，得到加权特征图，再将该加权特征图与步骤17所得的上采样特征图进行通道拼接处理后，通过1×1卷积进行降维处理，得到64维的特征图；

步骤19、将步骤18所得的特征图进行2倍上采样处理，得到64维上采样特征图；

步骤20、将步骤19得到的上采样特征图进行像素预测，得到最终分割图输出，由此得到分割预测模型。

(四)利用测试集对实时语义分割的预测模型进行测试，得到最终分割的预测模型：

测试集对测试所得的语义分割的预测模型进行测试，以验证模型的训练效果和性能。对测试集的图像除了需要完成与训练过程相同的图像处理过程，还需要完成对图像处理结果进行精度预测的过程。即整个测试过程大致分为五个阶段：第一阶段是通过快速下采样来提取图像的主要特征值；第二阶段是通过门控通道来加权横向连接的特征图，使得在像素补充时的像素更加精确；第三阶段通过双线性插值方法对最深层特征图进行上采样处理来还原像素，在多层融合阶段采用多层融合方法进行处理；第四阶段将得到特征图进行像素预测，得到最终分割图输出；第五阶段将最终分割图与标签对比，通过平均交并比函数(Miou)运算来计算模型精度。

基于本发明的门控多层融合网络，其所实现的测试过程具体包括步骤如下：

步骤20、将步骤19得到的上采样特征图进行像素预测，得到最终分割图输出；

步骤21、将最终分割图与标签对比，通过平均交并比函数(Miou)运算来计算模型精度，由此得到最终的最终分割的预测模型。

(五)利用最终语义分割的预测模型进行图像的分割处理：

从场景中采集我们所需要的各类图像，并将这些图像通过训练和验证后的语义分割模型进行处理，得到最终的分割图像输出，即我们需要的图像分割结果。

基于本发明的门控多层融合网络，其所实现的与图像的分割处理过程具体包括步骤如下：

步骤1、将原训练图像进行1/2倍下采样处理,1/2倍下采样先利用卷积通道为64维的卷积层提取图像的卷积特征，再将提取的卷积特征送入最大池化层提取图像的最大池化特征，得到缩小2倍的下采样特征图；

步骤18、先将步骤1所得的特征图通过一个门控通道处理，得到加权特征图后，再将该加权特征图与步骤17所得的上采样特征图进行通道拼接处理后，通过1×1卷积进行降维处理，得到64维的特征图；

步骤20、将步骤19得到的上采样特征图进行像素预测，得到最终分割图输出。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.门控多层融合的实时语义分割方法，其特征是，具体包括步骤如下：

2.根据权利要求1所述的门控多层融合的实时语义分割方法，其特征是，5个门控通道的结构相同，即均由通道可控降维模块、通道可控升维模块、全局池化模块、1×1卷积模块、归一化与Relu函数模块、Sigmoid函数模块、加权模块和通道叠加模块组成；

通道可控降维模块的输入端形成门控通道的输入端；通道可控降维模块的输出端分为3路，一路连接全局池化模块的输入端，另一路连接加权模块的一个输入端，又一路连接通道叠加模块的一个输入端；全局池化模块的输出端连接1×1卷积模块的输入端，1×1卷积模块的输出端连接归一化与Relu函数模块的输入端；归一化与Relu函数模块的输出端连接Sigmoid函数模块的输入端，Sigmoid函数模块的输出端连接加权模块的另一个输入端；加权模块的输出端连接通道叠加模块的另一个输入端；通道叠加模块的输出端连接通道可控升维模块的输入端；通道可控升维模块的输出端形成门控通道的输出端。

3.根据权利要求1所述的门控多层融合的实时语义分割方法，其特征是，5个门控通道的结构相同，即均由通道可控降维模块、通道可控升维模块、全局池化模块、1×1卷积模块、归一化与Relu函数模块、Sigmoid函数模块、加权模块和通道叠加模块组成；

通道可控降维模块的输入端形成门控通道的输入端；通道可控降维模块的输出端分为2路，一路连接全局池化模块的输入端，另一路连接加权模块的一个输入端；全局池化模块的输出端连接1×1卷积模块的输入端，1×1卷积模块的输出端连接归一化与Relu函数模块的输入端；归一化与Relu函数模块的输出端连接Sigmoid函数模块的输入端，Sigmoid函数模块的输出端连接加权模块的另一个输入端；加权模块的输出端连接通道可控升维模块的输入端，通道可控升维模块的输出端和通道可控降维模块的输入端同时连接通道叠加模块的输入端；通道叠加模块的输出端形成门控通道的输出端。

4.根据权利要求1所述的门控多层融合的实时语义分割方法，其特征是，所述语义分割数据集为Pascal Voc 2012和CamVid。

5.根据权利要求1所述的门控多层融合的实时语义分割方法，其特征是，对训练图像和测试集中的图像进行预处理过程分别如下：先对图像进行固定大小的随机裁剪，再将裁剪后的图像进行随机水平翻转和亮度变换，后将翻转后的训练图像进行归一化。