CN115995002B

CN115995002B - 一种网络构建方法及城市场景实时语义分割方法

Info

Publication number: CN115995002B
Application number: CN202310293401.XA
Authority: CN
Inventors: 李振生; 刘茜
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-16
Anticipated expiration: 2043-03-24
Also published as: CN115995002A

Abstract

本发明公开了一种网络构建方法，利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM，构建编码器模块；利用6个上下文指导模块CGM，构建解码器模块；将编码器模块的输出端与解码器模块的输入端连接，将解码器模块的输出端与拼接运算层的输入端连接，将拼接运算层的输出端与卷积层的输入端连接，将卷积层的输出端与上采样层的输入端连接，构成初始语义分割模型；利用样本数据训练初始语义分割模型，得到目标语义分割模型。本发明利用目标语义分割模型实现了对城市场景常见物体的语义分割，充分利用多尺度的全局以及局部信息和大感受野中更多的远程上下文信息，有效提高语义分割的精度。

Description

一种网络构建方法及城市场景实时语义分割方法

技术领域

本发明涉及图像语义分割领域，特别涉及一种网络构建方法及城市场景实时语义分割方法。

背景技术

随着计算机视觉技术的发展，图像语义分割在无人驾驶、医学影像诊断和机器人等领域的应用也越来越深入和广泛。图像语义分割是一项基本的视觉任务，旨在正确分类图片中的每个像素。在语义分割领域发展的进程中，每年都会出现很多表现优秀的模型达到更高的精度。近几年语义分割模型在精度的提高方面越来越缓慢，并且高精度模型往往伴随巨大的计算开销，进而严重影响模型的推理速度。在一些需要实时分割的场景中，例如无人驾驶汽车领域，受限于算力因素而难以在实际应用中部署现有的高精度模型，语义分割模型的应用受到相当程度的限制，实时性成为语义分割领域新的需求。

要减少语义分割模型的计算开销实现模型的实时性，目前常见的方案有以下两种：(1)减小输入图片尺寸：通过随机缩放和裁剪等方式减小输入图片尺寸，这可以从根本上降低模型计算量，但是图片尺寸减小太多会严重破坏图片中的空间细节信息，尤其是各类物体的边界信息，导致分割的精度大大降低。(2)降低分割模型的复杂度：通过更换或者重新设计骨干网络来减少模型各个阶段中特征的通道数、使用到的卷积核数目和大小等方式降低整体模型的复杂度，进而达到减少计算开销的目的，但是这个方式会降低骨干网络的特征提取能力、丢失一部分空间信息并且减小感受野，间接影响最终精度。

用于语义分割的现有网络存在以下缺陷：网络DFANet利用轻量级骨干网络来加速其网络，并通过跨层特征聚合来提高精度，但是跨层特征直接聚合会将噪声引入模型，导致模型精度降低；DeepLab系列、DenseASPP和PSPNet通过使用膨胀卷积证明了大感受野中的上下文信息对于语义分割非常重要，但是膨胀卷积会加大计算开销，进而降低推理速度；网络SFNet使用主流的编码器-解码器结构，解码器中接收来自PPM的特征并使用光流对齐模块直接和同阶段特征进行上采样融合，但是PPM获得的上下文信息少、上采样时不引入其他阶段的信息，严重影响最终的分割精度。

发明内容

发明目的：针对以上问题，本发明目的是提供一种网络构建方法及城市场景实时语义分割方法，将城市场景图进行实时语义分割。

技术方案：本发明的第一方面公开一种网络构建方法，所述方法包括：

利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM，构建编码器模块；

利用6个上下文指导模块CGM，构建解码器模块；

将编码器模块的输出端与解码器模块的输入端连接，将解码器模块的输出端与拼接运算层的输入端连接，将拼接运算层的输出端与卷积层的输入端连接，将卷积层的输出端与上采样层的输入端连接，构成初始语义分割模型；

利用样本数据训练初始语义分割模型，得到目标语义分割模型。

进一步，利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM，构建编码器模块，包括：

骨干网络包括四个阶段，第一阶段输出端与第一门控融合模块GFM₁的输入端连接，第二阶段输出端与第二门控融合模块GFM₂的输入端连接，第三阶段输出端与第三门控融合模块GFM₃的输入端连接，第四阶段输出端与SPSEM的输入端连接。

进一步，利用6个上下文指导模块CGM，构建解码器模块，包括：

第一上下文指导模块CGM₁的输入端分别连接SPSEM的输出端和GFM₃的输出端，第二上下文指导模块CGM₂的输入端分别连接CGM₁的输出端和GFM₂的输出端，第三上下文指导模块CGM₃的输入端分别连接CGM₂的输出端和GFM₁的输出端，第四上下文指导模块CGM₄的输入端分别连接CGM₂的输出端和CGM₃的输出端，第五上下文指导模块CGM₅的输入端分别连接CGM₁的输出端和CGM₃的输出端，第六上下文指导模块CGM₆的输入端分别连接CGM₃的输出端和SPSEM的输出端。

进一步，将解码器模块的输出端与拼接运算层的输入端连接，包括：

将CGM₃的输出端、CGM₄的输出端、CGM₅的输出端以及CGM₆的输出端分别连接拼接运算层的输入端。

进一步，条形池化语义增强模块SPSEM包含五个并行分支，第一分支由

卷积构成，第二分支由/>

卷积和/>

膨胀卷积构成，第三分支由/>

卷积和/>

膨胀卷积构成，第四分支由/>

卷积和/>

膨胀卷积构成，第五分支由条形池化层构成，将五个并行分支的输出端分别连接第一拼接层的输入端，第一拼接层的输出端连接/>

的卷积层输入端；

门控融合模块GFM由信息发送端和信息接收端构成，信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层，信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层，将信息发送端的输出端连接信息接收端的输入端；

上下文指导模块CGM包含两个并行分支，第一分支由

卷积和/>

卷积构成，第二分支由/>

卷积和上采样UP构成，将两个并行分支的输出端分别连接融合运算的输入端。

进一步，信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层，包括：

第一特征连接第一门控模块Gate₁的输入端，第一门控模块Gate₁的输出端和第一特征分别连接第一乘法运算的输入端，第二特征连接第二门控模块Gate₂的输入端，第二门控模块Gate₂的输出端和第二特征分别连接第二乘法运算的输入端，第三特征连接第三门控模块Gate₃的输入端，第三门控模块Gate₃的输出端和第三特征分别连接第三乘法运算的输入端，第一乘法运算的输出端、第二乘法运算的输出端及第三乘法运算的输出端分别连接第一融合运算的输入端，第一融入运算的输出端依次连接全局平均池化GAP层和Sigmoid函数层，Sigmoid函数层的输出端和第一融合运算的输出端分别连接第四乘法运算的输入端；

信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层，包括：

第四特征连接第四门控模块Gate₄的输入端，第四门控模块Gate₄的输出端和第四特征分别连接第五乘法运算的输入端，第四门控模块Gate₄的输出端连接取反模块的输入端，取反模块的输出端和第四乘法运算的输出端分别连接第六乘法运算的输入端，第五乘法运算的输出端、第六乘法运算的输出端以及第四特征分别连接第二融合运算的输入端，第二融合运算的输出端依次连接全局平均池化GAP层和Sigmoid函数层，Sigmoid函数层的输出端和第二融合运算的输出端分别连接第七乘法运算的输入端；其中取反模块用于将第四门控模块Gate₄的输出I进行1-I运算。

本发明的第二方面提供一种城市场景实时语义分割方法，应用于本发明第一方面公开的网络构建方法所构建的目标语义分割模型，所述城市场景实时语义分割方法包括：

获取城市场景数据集并进行数据预处理，将预处理后的图像数据输入至目标语义分割模型，获取目标语义分割模型的输出，得到城市场景语义分割结果。

进一步，将城市场景数据集进行数据预处理，包括：

将数据集中的图片以及其对应标签进行缩放、左右反转、随机裁剪和随机旋转，得到第一图像。

进一步，将预处理后的图像数据输入至目标语义分割模型，包括：

将第一图像输入至骨干网络，利用骨干网络的第一阶段得到特征X₁，利用骨干网络的第二阶段得到特征X₂，利用骨干网络的第三阶段得到特征X₃，利用骨干网络的第四阶段得到特征X₄；

将特征X₂、X₃和X₄输入至GFM₁的信息发送端，得到特征F₁，再将特征X₁和特征F₁输入至GFM₁的信息接收端，得到特征F₅；

将特征X₁、X₃和X₄输入至GFM₂的信息发送端，得到特征F^’ ₁，再将特征X₂和特征F^’ ₁输入至GFM₂的信息接收端，得到特征F^’ ₅；

将特征X₁、X₂和X₄输入至GFM₃的信息发送端，得到特征F^’’ ₁，再将特征X₃和特征F^’’ ₁输入至GFM₃的信息接收端，得到特征F^’’ ₅；

将特征X₄输入至SPSEM，得到特征S。

进一步，将预处理后的图像数据输入至目标语义分割模型，还包括：

利用CGM₁对特征S和特征F^’’ ₅进行整合上采样，得到特征C₁；

利用CGM₂对特征C₁和特征F^’ ₅进行整合上采样，得到特征C₂；

利用CGM₃对特征C₂和特征F₅进行整合上采样，得到特征C₃；

利用CGM₄对特征C₂和特征C₃进行整合上采样，得到特征C₄；

利用CGM₅对特征C₁和特征C₃进行整合上采样，得到特征C₅；

利用CGM₆对特征C₃和特征S进行整合上采样，得到特征C₆；

将特征C₃、特征C₄、特征C₅和特征C₆进行拼接，得到特征C₇；

利用卷积层将特征C₇的通道数处理成分割类别数，再利用双线性插值上采样至原始输入图像的尺寸大小，得到最终的语义分割结果。

有益效果：本发明与现有技术相比，其显著优点是：

1、本发明提出条形池化语义增强模块SPSEM，使用先卷积再膨胀卷积的方式结合条形池化，有效避免卷积神经网络难以获得大感受野中更多远程上下文信息的缺陷，同时使用卷积核分解策略减少了计算成本；

2、提出门控融合模块GFM，使用门控的思想去除噪声，将骨干网络中各阶段的强语义和更细节信息传输到当前阶段特征，实现多尺度选择性特征融合，进而使各类物体轮廓更明确；

3、提出上下文指导模块CGM，以简易的方式整合门控融合模块GFM、条形池化语义增强模块SPSEM输出特征的局部以及远程上下文信息进行上采样逐步恢复图像尺寸，有效提高了模型对远处小物体的分割效果，进而提高整体分割精度；

4、本发明提出的目标语义分割网络在预测精度和推理速度两方面取得了良好的权衡，在提高模型分割精度的同时，减少整个分割过程耗费的时间。

附图说明

图1为实施例一网络构建方法流程图；

图2为目标语义分割模型结构示意图；

图3为骨干网络结构示意图；

图4为条形池化语义增强模块SPSEM结构示意图；

图5为门控融合模块GFM结构示意图；

图6为门控模块Gate示意图；

图7为上下文指导模块CGM示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。

实施例一

现有技术中SFNet是目前实时语义分割中精度和速度权衡较好的模型之一，其使用主流的编码器-解码器结构，在编码器中，使用ResNet18作为模型的骨干网络，将输入图片下采样到原始尺寸的1/32，相比以往采用ResNet101作为骨干网络，将输入图片下采样到原来尺寸1/8的绝大部分模型，大大降低了整体模型的复杂度减少了计算开销。而解码器中接收来自PPM的特征并使用光流对齐模块直接和同阶段特征进行上采样融合获得更快的速度，但是PPM获得的上下文信息少、上采样时不引入其他阶段的信息，严重影响最终的分割精度。

如图1所示为本实施例所述的一种网络构建方法流程图，本实施例中在SFNet模型的基础上对其进行改进，通过对ResNet18进行改进作为骨干网络，通过条形池化语义增强模块（SPSEM）避免卷积神经网络难以获得大感受野中更多远程上下文信息的缺陷，同时使用卷积核分解策略减少了计算成本；利用门控融合模块（GFM），通过门控的方式去除噪声并融合多尺度特征中的有效信息；使用上下文指导模块（CGM）提高了模型对远处小物体的分割效果；在提高模型分割精度的同时，减少整个分割过程耗费的时间。本实施例中所述的网络构建方法包括以下步骤：

步骤1，利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM，构建编码器模块。

上述骨干网络以ResNet18为基础，结构如图3所示，将原本ResNet18尾部的全局平均池化层和全连接层去除后，使用剩余部分Conv1~5作为骨干网络，对输入图片进行低级特征和高级特征的提取。

具体地，本实施例的骨干网络中，Conv1包含一个

卷积，通道数为64，步长为2；Conv2包含一个/>

最大池化和两个残差模块，/>

最大池化的步长为2，每个残差模块包含两个/>

卷积和一个跳跃连接，残差模块中每个/>

卷积的通道数为64，步长为1；Conv3包含两个残差模块，每个残差模块包含两个/>

卷积和一个跳跃连接，残差模块中每个/>

卷积的通道数为128，第一个/>

卷积步长为2，其他/>

卷积步长为1；Conv4包含两个残差模块，每个残差模块包含两个/>

卷积和一个跳跃连接，残差模块中每个/>

卷积的通道数为256，第一个/>

卷积步长为2，其他/>

卷积步长为1；Conv5包含两个残差模块，每个残差模块包含两个/>

卷积和一个跳跃连接，残差模块中每个

卷积的通道数为512，第一个/>

卷积步长为2，其他/>

卷积步长为1。

可以理解的是，本示例中的低级特征是指分辨率低于第一预设分辨率的图像，高级特征是指分辨率高于第一预设分辨率的图像，具体对于低级特征和高级特征的定义，在此不做具体限定。输入图像输入至骨干网络后，Conv2~5将输出四个阶段特征，依据特征尺寸大小，依次为原输入图像的1/4，1/8，1/16以及1/32。骨干网络前三个阶段输出特征为低级特征，第四阶段输出为高级特征。

骨干网络提取高级特征后，采用条形池化语义增强模块SPSEM（Strip PoolingSemantic Enhancement Module）对骨干网络输出的高级特征进一步语义增强，进而获取大感受野中更多的远程上下文信息。

采用门控融合模块GFM（Gated Fusion Module）对骨干网络的四个阶段特征信息进行选择性的融合。具体而言，每个阶段的特征都会获得从更高级和更低级的特征中的强语义和更细节的信息，通过门控的方式来去除噪声。

具体地，利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM，构建编码器模块，包括：

在本实施例中使用三个结构相同的门控融合模块，分别为第一门控融合模块GFM₁、第二门控融合模块GFM₂以及第三门控融合模块GFM₃。

如图5所示，门控融合模块GFM由信息发送端和信息接收端构成，其中图5中的（a）为信息发送端，图5中的（b）为信息发送端，信息发送端的输出特征作为信息接收端的输入特征。其中信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层。信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层，将信息发送端的输出端连接信息接收端的输入端。

具体地，信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层，包括：

第一特征连接第一门控模块Gate₁的输入端，第一门控模块Gate₁的输出端和第一特征分别连接第一乘法运算的输入端，第二特征连接第二门控模块Gate₂的输入端，第二门控模块Gate₂的输出端和第二特征分别连接第二乘法运算的输入端，第三特征连接第三门控模块Gate₃的输入端，第三门控模块Gate₃的输出端和第三特征分别连接第三乘法运算的输入端，第一乘法运算的输出端、第二乘法运算的输出端及第三乘法运算的输出端分别连接第一融合运算的输入端，第一融入运算的输出端依次连接全局平均池化GAP层和Sigmoid函数层，Sigmoid函数层的输出端和第一融合运算的输出端分别连接第四乘法运算的输入端。

上述第一特征、第二特征、第三特征以及第四特征是指骨干网络四个阶段输出特征，将骨干网络在第一阶段输出特征记为X₁，第二阶段输出特征记为X₂，第三阶段输出特征记为X₃，第四阶段输出特征记为X₄。在每一个GFM中都包括四个特征作为输入特征，其中三个特征作为信息发送端的输入特征，另外一个特征作为信息接收端的输入特征，具体地，GFM₁中信息发送端中输入特征X_i、X_j、X_k分别为X₂、X₃、X₄，信息接收端中输入特征X_l为X₁；GFM₂中信息发送端中输入特征X_i、X_j、X_k分别为X₁、X₃、X₄，信息接收端中输入特征X_l为X₂；GFM₃中信息发送端中输入特征X_i、X_j、X_k分别为X₁、X₂、X₄，信息接收端中输入特征X_l为X₃。

上述信息发送端和信息接收端中均包含门控模块Gate，结构如图6所示，包括

卷积和sigmoid函数。上述信息发送端中使用3个结构相同的门控模块，分别为第一门控模块Gate₁、第二门控模块Gate₂以及第三门控模块Gate₃，信息接收端中使用结构相同的门控模块，记为第四门控模块Gate₄。

具体地，如图4所示，条形池化语义增强模块SPSEM包含五个并行分支，第一分支由

卷积构成，用来跨通道的信息交互；第二分支由/>

卷积和/>

膨胀卷积构成，第三分支由/>

卷积和/>

膨胀卷积构成，第四分支由/>

卷积和/>

膨胀卷积构成，第二三四分支中均使用卷积分解策略，以此获得大感受野的上下文信息；第五分支由条形池化（Strip Pooling）层构成，分别从宽、高两个方向进行池化获取远程的上下文信息；将五个并行分支的输出端分别连接第一拼接层C的输入端，第一拼接层的输出端连接/>

的卷积层输入端，将/>

的卷积层输出端作为语义增强模块的输出端。在一个具体示例中，上述第二、三、四分支中膨胀卷积的膨胀率分别设置为2、3、5。

骨干网络前三个阶段输出特征为低级特征，故GFM₁、GFM₂、GFM₃输出特征均为低级特征，骨干网络的第四阶段输出特征为高级特征，故条形池化语义增强模块SPSEM输出特征为高级特征。

步骤2，利用6个上下文指导模块CGM，构建解码器模块。

将对应阶段的门控融合模块输出特征与条形池化语义增强模块的输出特征输入至上下文指导模块CGM（Context Guide Module）中，通过上采样逐渐恢复空间信息来捕获更清晰的对象边界。通过3个相同结构的上下文指导模块，将第一阶段的特征图上采样到原始输入图像尺寸的1/4。再利用其它三个相同结构的上下文指导模块，将第二、三、四阶段的特征，上采用至原始输入图像尺寸的1/4。

具体地，利用6个上下文指导模块CGM，构建解码器模块，包括：

如图7所示为上下文指导模块CGM结构示意图，上下文指导模块CGM包含两个并行分支，第一分支由

卷积和/>

卷积构成，第二分支由/>

卷积和上采样UP构成，将两个并行分支的输出端分别连接融合运算的输入端。第一分支的输入端为低级特征，第二分支的输入端为高级特征，将融合运算的输出端作为CGM的输出端。具体地，CGM₁的第一分支输入端连接GFM₃的输出端，第二分支输入端连接SPSEM的输出端；CGM₂的第一分支输入端连接GFM₂的输出端，第二分支输入端连接CGM₁的输出端；CGM₃的第一分支输入端连接GFM₁的输出端，第二分支输入端连接CGM₂的输出端；CGM₄的第一分支输入端连接GFM₃的输出端，第二分支输入端连接CGM₂的输出端；CGM₅的第一分支输入端连接GFM₃的输出端，第二分支输入端连接CGM₁的输出端；CGM₆的第一分支输入端连接GFM₃的输出端，第二分支输入端连接SPSEM的输出端。

步骤3，将编码器模块的输出端与解码器模块的输入端连接，将解码器模块的输出端与拼接运算层的输入端连接，将拼接运算层的输出端与卷积层的输入端连接，将卷积层的输出端与上采样层的输入端连接，构成初始语义分割模型。

将CGM₃的输出端、CGM₄的输出端、CGM₅的输出端以及CGM₆的输出端分别连接拼接运算层的输入端，将上采样层的输出端作为初始语义分割模型的输出端。

步骤4，利用样本数据训练初始语义分割模型，得到目标语义分割模型，结构如图2所示。

进一步，上述样本数据集可以是从Cityscapes官网下载Cityscapes的数据集。Cityscapes数据集是由不同的城市道路场景的图片组成，包含5000张精细标注的标签以及20000张粗标签，本实施例仅使用5000张精细标注的图片和19个分割类别，5000张精细标注图片包含2975张训练集图片、500张验证集图片、1525张测试集图片。利用训练集图片、验证集图片及其对应的分割类别对初始语义分割模型进行训练，得到目标语义分割模型。

可选的，训练过程包括以下步骤：

步骤S4.1：设定训练模型初始参数如下：

初始学习率（learning rate）：0.01；

优化器（optimization）：SGD优化器；

学习率衰减（learning rate decay）：poly策略；

权重衰减（weight decay）：0.0005；

动量（momentum）：0.9；

批大小（batch size）：16；

训练轮数（epoch）：300；

步骤S4.2：在训练过程中使用Dropout进行正则化，采用交叉熵损失函数（CrossEntropy loss）计算loss，计算公式如下：

式中，

表示真实值，/>

表示预测值，当/>

=1时，/>

，此时/>

越接近1，损失值越小，/>

越接近0，损失值越大。当/>

为0时，/>

，此时/>

越接近1，损失值越大，/>

越接近0，损失值越小；

步骤S4.3：根据将步骤S4.2得到的损失函数计算梯度，采用SGD优化器更新神经网络权重以及偏置；

步骤S4.4：采用poly策略进行学习率衰减，衰减公式如下：

式中，

表示初始学习率，/>

表示当前训练轮数，

表示设置总训练轮数，power表示多项式的幂值；

步骤S4.5：使用平均交并比mIoU（mean Intersection over Union）对模型进行评估，mIoU表示网络模型分割的精度，mIoU值越高则表示图像分割效果越好；计算方法如下：

式中，TP（True Positive）表示真正例，即模型预测与实际均为正例；FP（FalsePositive）表示假正例，即模型预测该类别为正例，但真实标签中该类别为反例；FN（FalseNegative）表示真负例，即模型预测该类别为反例，真实标签中该类别为正例；N代表类别数，

代表第/>

类；

步骤S4.6：重复步骤S4.2至S4.5训练过程，每训练完一轮使用验证数据集对网络模型进行评估，按照最优mIoU值保存模型参数，直至训练轮数300轮全部完成；

步骤S4.7：将测试集数据输入到步骤S4.6得到目标语义分割网络，得到城市道路场景图像语义分割结果：

导入步骤S4.6中获得的最优模型参数，读入测试集图片以及标签，计算mIoU评分，保存测试结果。

实施例二

与上述本发明实施例提供的一种网络构建方法相对应，本发明实施例提供的一种城市场景实时语义分割方法，该城市场景实时语义分割方法应用于上述网络构建方法所构建的目标语义分割模型，该城市场景实时语义分割方法包括：

进一步，将城市场景数据集进行数据预处理，包括：

将特征X₄输入至SPSEM，得到特征S。

在本实施例中共使用3个结构相同的GFM模块，本示例中以第三门控融合模块GFM₃为例进行说明其内部运算过程，具体为：将特征X₁、X₂和X₄输入至GFM₃的信息发送端，特征X₁、X₂和X₄分别输入至Gate模块输出后与原特征X₁、X₂、X₄相乘后融合，再通过全局平均池化GAP层、Sigmoid函数层与融合后特征相乘动态调整各通道信息的重要性，得到输出特征F₁。将信息发送端的输出特征F₁作为信息接收端的输入特征输入至第三乘法运算中。信息接收端分三个部分，第一部分使用特征X₃输入至门控模块Gate₄得到空间信息权重

后与原特征X₃相乘得到特征F₂；第二部分通过/>

获得当前特征所缺空间信息的权重后与信息发送端输出特征F₁相乘得到特征/>

后，将特征X₃、特征F₃和特征F₂进行融合得到特征F₄；第四部分通过全局平均池化GAP、Sigmoid函数与融合后特征F₄相乘动态调整各通道信息的重要性，输出门控融合模块特征F₅；

利用CGM₆对特征C₃和特征S进行整合上采样，得到特征C₆；

具体地，利用CGM₁对特征S和特征F^’’ ₅进行整合上采样，其中特征F^’’ ₅作为低级特征输入至CGM₁的第一分支，特征S作为高级特征输入至CGM₁的第二分支，将第一分支的输出和第二分支的输出进行融合，得到特征C₁，将特征C₁作为CGM₁的输出特征。

利用CGM₂对特征C₁和特征F^’ ₅进行整合上采样，其中特征F^’ ₅作为低级特征输入至CGM₂的第一分支，特征C₁作为高级特征输入至CGM₂的第二分支，将第一分支的输出和第二分支的输出进行融合，得到特征C₂，将特征C₂作为CGM₂的输出特征。

利用CGM₃对特征C₂和特征F₅进行整合上采样，其中特征F₅作为低级特征输入至CGM₃的第一分支，特征C₂作为高级特征输入至CGM₃的第二分支，将第一分支的输出和第二分支的输出进行融合，得到特征C₃，将特征C₃作为CGM₃的输出特征。

利用CGM₄对特征C₂和特征C₃进行整合上采样，其中特征C₃作为低级特征输入至CGM₄的第一分支，特征C₂作为高级特征输入至CGM₄的第二分支，将第一分支的输出和第二分支的输出进行融合，得到特征C₄，将特征C₄作为CGM₄的输出特征。

利用CGM₅对特征C₁和特征C₃进行整合上采样，其中特征C₃作为低级特征输入至CGM₅的第一分支，特征C₁作为高级特征输入至CGM₅的第二分支，将第一分支的输出和第二分支的输出进行融合，得到特征C₅，将特征C₅作为CGM₅的输出特征。

利用CGM₆对特征C₃和特征S进行整合上采样，其中特征C₃作为低级特征输入至CGM₆的第一分支，特征S作为高级特征输入至CGM₆的第二分支，将第一分支的输出和第二分支的输出进行融合，得到特征C₆，将特征C₆作为CGM₆的输出特征。

将特征C₃、特征C₄、特征C₅和特征C₆进行拼接，得到特征C₇。

Claims

1.一种城市场景实时语义分割方法，其特征在于，应用于目标语义分割模型，所述城市场景实时语义分割方法包括：

获取城市场景数据集并进行数据预处理，将预处理后的图像数据输入至目标语义分割模型，获取目标语义分割模型的输出，得到城市场景语义分割结果；

目标语义分割模型建立过程包括：

利用6个上下文指导模块CGM，构建解码器模块；

利用样本数据训练初始语义分割模型，得到目标语义分割模型；

其中，利用骨干网络、条形池化语义增强模块SPSEM和门控融合模块GFM，构建编码器模块，包括：

骨干网络包括四个阶段，第一阶段输出端与第一门控融合模块GFM₁的输入端连接，第二阶段输出端与第二门控融合模块GFM₂的输入端连接，第三阶段输出端与第三门控融合模块GFM₃的输入端连接，第四阶段输出端与SPSEM的输入端连接；

利用6个上下文指导模块CGM，构建解码器模块，包括：

第一上下文指导模块CGM₁的输入端分别连接SPSEM的输出端和GFM₃的输出端，第二上下文指导模块CGM₂的输入端分别连接CGM₁的输出端和GFM₂的输出端，第三上下文指导模块CGM₃的输入端分别连接CGM₂的输出端和GFM₁的输出端，第四上下文指导模块CGM₄的输入端分别连接CGM₂的输出端和CGM₃的输出端，第五上下文指导模块CGM₅的输入端分别连接CGM₁的输出端和CGM₃的输出端，第六上下文指导模块CGM₆的输入端分别连接CGM₃的输出端和SPSEM的输出端；

将解码器模块的输出端与拼接运算层的输入端连接，包括：

2.根据权利要求1所述的城市场景实时语义分割方法，其特征在于，条形池化语义增强模块SPSEM包含五个并行分支，第一分支由1×1卷积构成，第二分支由3×3卷积和3×3膨胀卷积构成，第三分支由3×3卷积和3×3膨胀卷积构成，第四分支由3×3卷积和3×3膨胀卷积构成，第五分支由条形池化层构成，将五个并行分支的输出端分别连接第一拼接层的输入端，第一拼接层的输出端连接1×1的卷积层输入端；

上下文指导模块CGM包含两个并行分支，第一分支由1×1卷积和3×3卷积构成，第二分支由1×1卷积和上采样UP构成，将两个并行分支的输出端分别连接融合运算的输入端。

3.根据权利要求2所述的城市场景实时语义分割方法，其特征在于，信息发送端包括门控模块Gate、全局平均池化GAP层和Sigmoid函数层，具体包括：

信息接收端包括门控模块Gate、取反模块、全局平均池化GAP层和Sigmoid函数层，具体包括：

4.根据权利要求1所述的城市场景实时语义分割方法，其特征在于，将城市场景数据集进行数据预处理，包括：

5.根据权利要求4所述的城市场景实时语义分割方法，其特征在于，将预处理后的图像数据输入至目标语义分割模型，包括：

将特征X₁、X₂和X₄输入至GFM₃的信息发送端，得到特征F”₁，再将特征X₃和特征F”₁输入至GFM₃的信息接收端，得到特征F”₅；

将特征X₄输入至SPSEM，得到特征S。

6.根据权利要求5所述的城市场景实时语义分割方法，其特征在于，将预处理后的图像数据输入至目标语义分割模型，还包括：

利用CGM₁对特征S和特征F”₅进行整合上采样，得到特征C₁；

利用CGM₆对特征C₃和特征S进行整合上采样，得到特征C₆；