CN114419381B

CN114419381B - 一种语义分割方法及应用其的道路积水检测方法和装置

Info

Publication number: CN114419381B
Application number: CN202210335825.3A
Authority: CN
Inventors: 陈斌; 张香伟; 毛云青; 金仁杰
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-06-24
Anticipated expiration: 2042-04-01
Also published as: CN114419381A

Abstract

本申请提出了一种语义分割方法及道路积水检测方法和装置，该语义分割方法包括：将待处理图像输入语义分割模型，语义分割模型包括主干网络、多尺度特征提取网络和语义分割预测头部，多尺度特征提取网络包括并联的多个全局特征提取网络，其中，每一全局特征提取网络至少包括串联的一个或多个全局特征提取模块，全局特征提取模块为嵌入了多个堆叠的全局注意力模块的CNN模块，使得该全局特征提取模块既具有卷积的性质，又能进行全局的建模。该道路积水检测方法使用上述语义分割方法快速获取待处理图像的语义分割结果，识别是否存在道路积水，以实现城市道路管理中对于道路积水的高效治理。

Description

一种语义分割方法及应用其的道路积水检测方法和装置

技术领域

本申请涉及计算机视觉领域，特别是涉及一种语义分割方法及应用其的道路积水检测方法和装置。

背景技术

在计算机视觉领域中，语义分割技术是完全按照人类感知的方式从像素级别来识别图像，与其他的图像识别技术相比，它是一个将图像中的每个像素链接到对应的类别标签的过程，因此可以将语义分割视为像素级别的图像分类。

Transformer模型抛弃了以往深度学习任务里面使用到的卷积神经网络和循环神经网络，是一个利用注意力机制来提高模型训练速度的模型，将Transformer模型应用于计算机视觉领域中，也就是Vision Transformer（Vision Transformer），利用多头部自注意力机制建立特征的长距离依赖关系。但Transformer在计算机视觉中的应用仍然受到限制。

由于卷积神经网络的空间归纳偏差允许在不同的视觉任务中以较少的参数学习视觉表征，而Vision Transformer忽略了卷积神经网络固有的空间归纳偏差，因此，在使用Vision Transformer识别图像时，导致需要更多的参数学习视觉表征以及更长的训练时间来训练模型。

并且，卷积神经网络在空间上是局部建模的，卷积神经网络通过计算局部相邻的像素点之间的联系能够提取局部特征，比如边缘和角，能在浅层提供丰富局部特征(localfeature)，然而在深层CNN很难建立长距离依赖关系。

发明内容

本申请实施例提供了一种语义分割方法及应用其的道路积水检测方法和装置。

第一方面，本申请实施例提供了一种语义分割方法，包括：

将待处理图像输入语义分割模型，所述语义分割模型包括主干网络、多尺度特征提取网络和语义分割预测头部，所述多尺度特征提取网络包括并联的多个全局特征提取网络，其中，每一所述全局特征提取网络至少包括串联的一个或多个全局特征提取模块，所述全局特征提取模块为嵌入了多个堆叠的全局注意力模块的CNN模块；

使用所述主干网络提取所述待处理图像的第一特征图，其中所述第一特征图为具有局部注意力的特征图；

将第一特征图输入每一所述全局特征提取网络获取不同尺度的多个第二特征图，其中所述第二特征图为同时具有局部注意力和全局注意力的特征图；

将每一所述第二特征图输入所述语义分割预测头部获取多个预测目标分支结果，通过非极大值抑制输出所有所述预测目标分支结果中损失最小的预测框作为所述待处理图像的语义分割结果。

在一些申请实施例中，使用所述全局特征提取模块将输入的特征图增大感受野并卷积升维，再展开为包括多个不重叠图像块的图像向量序列，将所述图像向量序列输入多个堆叠的全局注意力模块获取具有全局注意力的特征向量，将所述特征向量进行重塑和卷积降维后与输入所述全局特征提取模块的特征图进行堆叠和并联空洞卷积，得到所述全局特征提取模块输出的特征图。

在一些申请实施例中，所述多尺度特征提取网络包括用于提取大尺度的第二特征图的第一全局特征提取网络、用于提取中尺度的第二特征图的第二全局特征提取网络、用于提取小尺度的第二特征图的第三全局特征提取网络。

在一些申请实施例中，所述第一全局特征提取网络包括两个全局特征提取模块，每一所述全局特征提取模块中堆叠2个全局注意力模块；所述第二全局特征提取网络中包括两个全局特征提取模块，每一所述全局特征提取模块中堆叠4个全局注意力模块；所述第三全局特征提取网络中包括一个全局特征提取模块，该全局特征提取模块中堆叠3个全局注意力模块。

在一些申请实施例中，所述第一全局特征提取网络的输入为第一特征图，所述第二全局特征提取网络的输入为所述第一特征图经过瓶颈模块后输出的特征图，所述第三全局特征提取网络的输入为所述第二全局特征提取网络中第一个全局特征提取模块输出的特征图经过瓶颈模块后输出的特征图；所述第一、第二全局特征提取网络中的第一个全局特征提取模块输出的特征图均分别输入所述第一、第二、第三全局特征提取模网络中的第二个全局特征提取模块；所述第三全局特征提取网络中的全局特征提取模块输出的特征图输入所述第二全局特征提取网络中的第二个全局特征提取模块，所述第二全局特征提取网络中第二个全局特征提取模块输出的特征图输入第一全局特征提取网络中的第二个全局特征提取模块；所述第一、第二、第三全局特征提取网络输出的特征图均为所述第二特征图。

在一些申请实施例中，所述主干网络包括依次连接的卷积层、渐进感受野递增模块、瓶颈模块、两个堆叠的渐进感受野递增模块和瓶颈模块，其中：所述卷积层和所述瓶颈模块,用于对所述待处理图像进行下采样获取相应的特征图；所述渐进感受野递增模块，用于将输入的特征图增大感受野。

在一些申请实施例中，所述渐进感受野递增模块包括并行的第一分支和第二分支，所述第一分支将输入的特征图进行恒等映射，所述第二分支包括多层深度可分离空洞卷积，且所述第二分支内每一层的输入为前每一层的输出分别堆叠输入的特征图后再依据层级关系依次堆叠得到相应的特征图，每一层将输入的特征图进行深度可分离空洞卷积后再进行逐点卷积获得该层输出的特征图，将每一层输出的特征图依次与所述第一分支输出的特征图进行特征堆叠，并卷积堆叠后的所有特征图得到该渐进感受野递增模块输出的特征图。

在一些申请实施例中，所述瓶颈模块包括并行的第三分支和第四分支，所述第三分支用于将输入的特征图进行逐点卷积扩张特征通道，并采用深度可分离卷积进行特征提取和空间维度降采样，再进行逐点卷积进行特征融合和特征通道降维，所述第四分支用于采用深度可分离卷积将输入的特征图进行特征空间上降采样，并卷积所述深度可分离卷积输出的结果进行特征融合，将所述第三分支和所述第四分支输出的特征图进行元素级相加作为该瓶颈模块输出的特征图。

在一些申请实施例中，所述全局注意力模块为Vision Transformer。

在一些申请实施例中，所述全局注意力模块于对输入的图像向量序列进行归一化处理，并用多头部注意力机制联合来自不同头部学习到的信息，将所述信息进行Dropout缓解过拟合后与输入所述全局注意力模块的图像向量序列进行元素级相加，将元素级相加后得到的特征图再次进行归一化处理并输入MLP模块进行特征提取和特征转换，将所述MLP模块输出的特征图进行Dropout缓解过拟合后与前一元素级相加得到的特征图再次进行元素级相加，得到所述全局注意力输出的特征图。

第二方面，本申请实施例提供了一种道路积水检测方法，包括以下步骤：

获取待处理图像；

根据第一方面中任一申请实施例所述的语义分割方法获取所述待处理图像的语义分割结果；

根据所述语义分割结果识别所述待处理图像中存在的道路积水。

第三方面，本申请实施例提供了一种道路积水检测装置，用于实现第二方面中所述的道路积水检测方法，该装置包括以下单元：

获取单元，用于获取待处理图像；

语义分割单元，用于根据第一方面中任一申请实施例所述的语义分割方法获取所述待处理图像的语义分割结果；

识别单元，用于根据所述语义分割结果识别所述待处理图像中存在的道路积水。

第四方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以如上任意申请实施例所述的语义分割方法或道路积水检测方法。

第五方面，本申请实施例提供了一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据如上任意申请实施例所述的语义分割方法或道路积水检测方法。

本申请实施例的主要贡献和创新点如下：

本申请提供了一种语义分割方法，结合了CNN空间归纳偏置、对数据增强的较低敏感性、Vision Transformer输入自适应加权和全局处理的优点，使用并联空洞卷积对小于最大空洞卷积的区域的局部信息进行编码，确保不丢失每个图像块内像素的空间顺序，使用Transformer模块将卷积中的局部建模替换为全局建模，使得该模型具有CNN和VisionTransformer的性质，也就是既具有卷积的性质，又能进行全局建模，并使用简单的训练方式学习更好的表示。

特别的是，本申请使用分治的思想，将Transformer模块中分别建模局部关系和长距离依赖关系，再将两者融合起来，引入CNN能够提升transformer模块的性能，保证了相应的模型训练时的稳定性。

本申请还提供了一种道路积水检测方法，使用语义分割方法快速获取待处理图像的语义分割结果，识别是否存在道路积水，以实现城市道路管理中对于道路积水的高效治理。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的语义分割模型的结构示意图；

图2是根据本申请实施例的渐进感受野递增模块的结构示意图；

图3是根据本申请实施例的瓶颈模块的结构示意图；

图4是根据本申请实施例的全局特征提取模块的结构示意图；

图5是根据本申请实施例的全局注意力模块的结构示意图；

图6是根据本申请实施例的MLP模块的示意图；

图7是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本实施例提供了一种语义分割方法，将待处理图像输入语义分割模型以获取相应的语义分割结果。

在本实施例中，该语义分割模型的结构如图1所示，包括主干网络、多尺度特征提取网络和语义分割预测头部，所述多尺度特征提取网络包括并联的多个全局特征提取网络，其中，每一所述全局特征提取网络至少包括串联的一个或多个全局特征提取模块，所述全局特征提取模块为嵌入了多个堆叠的全局注意力模块的CNN模块；

所述主干网络，用于提取所述待处理图像的第一特征图，其中所述第一特征图为具有局部注意力的特征图；

所述全局特征提取网络，用于根据所述第一特征图获取不同尺度的多个第二特征图，其中所述第二特征图为同时具有局部注意力和全局注意力的特征图；

所述语义分割预测头部，用于根据每一所述第二特征图获取对应的预测目标分支结果，通过非极大值抑制输出所有所述预测目标分支结果中损失最小的预测框作为所述待处理图像的语义分割结果。

相应的，该语义分割方法包括：

具体的，所述主干网络包括依次连接的卷积层、渐进感受野递增模块、瓶颈模块、两个堆叠的渐进感受野递增模块和瓶颈模块，其中：所述卷积层和所述瓶颈模块,用于对所述待处理图像进行下采样获取相应的特征图；所述渐进感受野递增模块，用于将输入的特征图增大感受野。

这样做的好处是使用多个渐进感受野递增模块，可以获得更大的感受野，使得提取的特征图建立长距离关系更加逼近全局特征。

如图2所示，所述渐进感受野递增模块包括并行的第一分支和第二分支，所述第一分支将输入的特征图进行恒等映射，所述第二分支包括多层深度可分离空洞卷积，且所述第二分支内每一层的输入为前每一层的输出分别堆叠输入的特征图后再依据层级关系依次堆叠得到相应的特征图，每一层将输入的特征图进行深度可分离空洞卷积后再进行逐点卷积获得该层输出的特征图，将每一层输出的特征图依次与所述第一分支输出的特征图进行特征堆叠，并卷积堆叠后的所有特征图得到该渐进感受野递增模块输出的特征图。

具体的，在渐进感受野递增模块的第一分支经过恒等映射输入的特征图直接输出，在第二分支中，第一层将输入的特征图进行空洞率为3、3*3深度可分离空洞卷积，将卷积得到的结果进行一个逐点卷积（特征融合和降维操作）；第二层将第一个深度可分离空洞卷积输出的特征图和第二分支输入的特征图做特征堆叠，进行空洞率为6、3*3的深度可分离空洞卷积，同样将卷积得到的结果进行逐点卷积后；第三层将之前所有层（也就是第一层、第二层）的输出分别与第二分支输入的特征图进行特征堆叠，将堆叠之后的特征图再依次堆叠进行空洞率为12、3*3的深度可分离卷积，同样将卷积得到的结果进行逐点卷积；第四层与第三层同理。然后，将每一层输出的特征图依次与所述第一分支输出的特征图进行特征堆叠并使用1*1卷积进行特征融合和特征维度降维得到该渐进感受野递增模块输出的特征图。

渐进感受野递增模块的优势在于：

（1）随着卷积深度的增加，感受野越来越大，语义信息越来越丰富，却导致位置信息会越来越模糊,使用空洞卷积解决了特征图的尺寸与感受野之间的矛盾问题。

（2）获取的多尺度信息有助于解决由卷积神经网络的局部特性导致的模糊情况以及特征分类问题；

（3）使用的深度可分离空洞卷积与常规卷积相比，可以获取更大的感受野，同时也降低了参数量的浮点运算；

（4）以密集连接模式生成特征图，缓解由深度网络的退化导致的梯度消失的问题。

因此，渐进感受野递增模块最终输出的特征图不仅可以覆盖大范围的语义信息，并且还能够以非常密集的方式覆盖语义特征信息。也就是说，渐进感受野递增模块将每一层的输出与输入的feature map和较低层的所有输出连接起来，并将这些连接起来的特征图送入下一层。最终输出是由多空洞率、多尺度的卷积生成的特征图。

如图3所示，所述瓶颈模块包括并行的第三分支和第四分支，所述第三分支用于将输入的特征图进行逐点卷积扩张特征通道，并采用深度可分离卷积进行特征提取和空间维度降采样，再进行逐点卷积进行特征融合和特征通道降维，所述第四分支用于采用深度可分离卷积将输入的特征图进行特征空间上降采样，并卷积所述深度可分离卷积输出的结果进行特征融合，将所述第三分支和所述第四分支输出的特征图进行元素级相加作为该瓶颈模块输出的特征图。

具体的，瓶颈模块的设计原则就是利用深度可分离残差单元进行特征提取的同时对特征进行降采样。第三分支使用一个逐点卷积对特征进行通道扩张为6C，激活函数为GELU；随后用3*3深度可分离卷积进行特征提取和空间维度降采样，激活函数为GELU；然后再用一个逐点卷积进行特征融合和通道上降维。第四分支首先用一个步长为2、3*3的深度可分离卷积，进行特征空间上降采样，然后用一个1*1的卷积进行特征融合，最后将第三分支与第四分支输出的特征图进行元素级相加得到该瓶颈模块输出的特征图。

特别的是，本实施例中多尺度特征提取网络包括并联的多个全局特征提取网络，其中，每一所述全局特征提取网络至少包括串联的一个或多个全局特征提取模块，所述全局特征提取模块为嵌入了多个堆叠的全局注意力模块的CNN模块。

其中，每个全局特征提取模块堆叠了数量不同的全局注意力模块。具体的，使用所述全局特征提取模块将输入的特征图增大感受野并卷积升维，再展开为包括多个不重叠图像块的图像向量序列，将所述图像向量序列输入多个堆叠的全局注意力模块获取具有全局注意力的特征向量，将所述特征向量进行重塑和卷积降维后与输入所述全局特征提取模块的特征图进行堆叠和并联空洞卷积，得到所述全局特征提取模块输出的特征图。

在一些具体实施例中，所述多尺度特征提取网络包括用于提取大尺度的第二特征图的第一全局特征提取网络、用于提取中尺度的第二特征图的第二全局特征提取网络、用于提取小尺度的第二特征图的第三全局特征提取网络。具体的，所述第一全局特征提取网络包括两个全局特征提取模块，每一所述全局特征提取模块中堆叠2个全局注意力模块；所述第二全局特征提取网络中包括两个全局特征提取模块，每一所述全局特征提取模块中堆叠4个全局注意力模块；所述第三全局特征提取网络中包括一个全局特征提取模块，该全局特征提取模块中堆叠3个全局注意力模块。

所述第一全局特征提取网络包括两个全局特征提取模块，每一所述全局特征提取模块中堆叠2个全局注意力模块；所述第二全局特征提取网络中包括两个全局特征提取模块，每一所述全局特征提取模块中堆叠4个全局注意力模块；所述第三全局特征提取网络中包括一个全局特征提取模块，该全局特征提取模块中堆叠3个全局注意力模块。

其中，第一全局特征提取网络因为第一特征图的尺寸较大，所以不能堆叠太多全局注意力模块，否则参数量非常大，会导致特征提取效率低下。第二全局特征提取网络的输入为第一特征图的下采样结果，主要是为了缩小输入的特征图，减少参数量进而提高特征提取效率，并且堆叠更多的全局注意力模块是提取更多语义信息特征。

具体的，所述第一全局特征提取网络的输入为第一特征图，所述第二全局特征提取网络的输入为所述第一特征图经过瓶颈模块后输出的特征图，所述第三全局特征提取网络的输入为所述第二全局特征提取网络中第一个全局特征提取模块输出的特征图经过瓶颈模块后输出的特征图；所述第一、第二全局特征提取网络中的第一个全局特征提取模块输出的特征图均分别输入所述第一、第二、第三全局特征提取模网络中的第二个全局特征提取模块；所述第三全局特征提取网络中的全局特征提取模块输出的特征图输入所述第二全局特征提取网络中的第二个全局特征提取模块，所述第二全局特征提取网络中第二个全局特征提取模块输出的特征图输入第一全局特征提取网络中的第二个全局特征提取模块；所述第一、第二、第三全局特征提取网络输出的特征图均为所述第二特征图。

最后所述第一、第二、第三全局特征提取网络输出的特征图均为第二特征图，输入语义分割预测头部即可获取待处理图像的语义分割结果。

其中，每一全局特征提取模块中堆叠了多个全局注意力模块，全局注意力模块的结构如图5所示，所述全局注意力模块于对输入的图像向量序列进行归一化处理，并用多头部注意力机制联合来自不同头部学习到的信息，将所述信息进行Dropout缓解过拟合后与输入所述全局注意力模块的图像向量序列进行元素级相加，将元素级相加后得到的特征图再次进行归一化处理并输入MLP模块进行特征提取和特征转换，将所述MLP模块输出的特征图进行Dropout缓解过拟合后与前一元素级相加得到的特征图再次进行元素级相加，得到所述全局注意力输出的特征图。

需要说明的是，图1中全局特征提取模块顶部的“×2”、“×3”、“×4”，表示相应的全局特征提取模块中堆叠的全局注意力模块的数量，也就是图像块进行建模的重复次数。其中，堆叠不同数量的全局注意力模块需要的参数量和浮点运算量是不同的。

具体的，在如图4所示的全局特征提取模块中，输入的特征图X的张量H*W*C，全局特征提取模块首先用并联空洞卷积和1×1卷积对输入的特征图X进行操作，得到特征图L的张量H*W*D，其中并联空洞卷积用于学习局部的空间信息，1×1卷积用于将输入特征投影到高维空间。为了使图三模块能够学习具有空间归纳偏置的全局表示，首先将特征图L展开为包含N个不重叠的图像块（patch）的图像块向量序列，展开之后的特征图用U表示，张量维度为P*N*D，其中P=w*h,其中h和w都小于最大空洞率为18的空洞卷积，N=W*H/P,N为划分的特征块的数量，图像块向量序列中的每个图像块（patch）通过全局注意力模块进行建模，得到特征图为G，G的张量维度为P*N*D，折叠G得到特征图F，张量为H*W*D，1*1逐点卷积降维得到特征通道为C的特征图T，并联空洞卷积用于融合局部和全局特征，得到特征图Y且通道为C。

其中，归一化的方法采用的是层归一化，这种归一化方法主要是针对NLP领域提出的，这里是对图像块向量序列进行层归一化处理。多头部注意力机制能够联合来自不同头部学习到的信息，自注意力机制是单头部，多头部注意力机制和自注意力机制主要区别在于头部的数量。

另外，在训练深度神经网络的时候，总是会遇到两个缺点：过度拟合和费时。因此采用Dropout来有效缓解过拟合的发生，并且在一定程度上达到正则化的效果。

值得一提的是，由于特征图U使用并联空洞卷积对小于最大空洞卷积的区域的局部信息进行编码，这样不会丢失每个图像块（patch）内的像素的空间顺序；又因为G是由全局注意力模块对N个图像块（patch）中的第p个位置的全局信息进行编码得到的（p={1,…,P}），所以特征图G是对输入的特征图X的全局信息进行了感知，全局注意力模块嵌入到CNN模块中，使得该全局特征提取模块既具有卷积的性质，又能进行全局的建模。

其中，MLP模块的结构如图6所示，就是全连接、GELU激活函数、Dropout组成的模块，需要注意的是第一个全连接层会把输入节点个数翻4倍，第二个全连接层会还原回原节点个数。

最后，语义分割预测头部用于预测最终的多类别分类和边界框位置，本实施例中的损失由两部分组成：Cross Entropy Loss就是普通的交叉熵损失，当语义分割模型利用Softmax对像素点进行分类的时候使用；Dice loss将语义分割的评价指标作为Loss，Dice系数是一种集合相似度度量函数，通常用于计算两个样本的相似度，取值范围在[0,1]，Dice即预测结果和真实结果的交乘上2，除上预测结果加上真实结果，其值在0-1之间，越大表示预测结果和真实结果重合度越大，所以Dice系数是越大越好，作为Loss的话是越小越好，所以使得Dice loss=1-Dice。

将第一全局特征提取网络最终输出的特征图输入神经网络浅层，第二全局特征提取网络最终输出的第七特征图输入神经网络中层，以及第三全局特征提取网络最终输出的第七特征图输入输入神经网络深层。在神经网络浅层输出预测小目标的分支，在神经网络中层输出预测中等目标的分支，在神经网络深层输出预测大目标的分支，最后通过非极大值抑制选出和标签损失最小的预测框作为。

实施例二

本实施例提供了一种道路积水检测方法，应用实施例一中的语义分割方法实现，包括以下步骤：获取待处理图像；根据实施例一中所述的语义分割方法获取所述待处理图像的语义分割结果；根据所述语义分割结果识别所述待处理图像中存在的道路积水。

在使用该方法中的语义分割模型检测道路积水之前，需要训练该模型。

首先，收集样本图像。图像采集人员使用手机采集远景道路积水图像和近景道路积水图像作为样本图像；将不同类的样本图像分为两列放在表格中，第一列放近景道路积水图像，第二列放远景道路积水图像，图像采集人员按天将搜集的样本图像放在表格中。

然后，从监控视频采集训练图像和测试图像。在监控视频中，找出L段不同地点不同时间、不同天气、含有道路积水的视频，V_i表示第i段视频，V_i中共有N_i幅视频图像，从N_i幅视频图像中选取M_i幅视频图像作为训练图像与测试图像，则从L段视频可获得幅视频图像作为训练图像与测试图像。

并且，使用样本图像生成增强数据。也就是说，将采集到的每类中的P张样本图像通过平移、旋转图像（45°，90°，180°，270°）、缩小图像（1/3,1/2）、Mosaic数据增强和剪切变换来增加训练图像和测试图像。

训练配置从基线模型到最终模型基本一致，在自己数据上训练N（总训练代数）代并进行n代的warm-up，训练初始warm-up把学习率设置得很小，随着训练的进行，学习率逐渐上升，最终达到正常训练的学习率，这个阶段就是warm-up的核心阶段，随着训练的进行，神经网络希望逐渐减小学习率（learning rate decay），训练完成时learning rate降为0；优化器为SGD，初始学习率为η，cosine学习机制，weight decay设置为0.0005，momentum设置为0.9，batch视硬件设备而定，输入尺寸为512；神经网络输入端选定Mosaic、CmBN和SAT自对抗训；所述Mosaic数据增强则采用了4张图片，随机缩放、随机裁剪、随机排布的方式进行拼接；所述CmBN只在每个Batch内部使用CBN的方法，如果每个Batch被分割为一个minibatch，则其效果与BN一致；若分割为多个mini batch，则与CBN类似，只是把mini batch当作batch进行计算，其区别在于权重更新时间点不同，同一个batch内权重参数一样，因此计算不需要进行补偿；随机初始化各层的连接权值w和偏置b,神经网络选定激活函数为Mish，Mish非单调且平滑；神经网络预测头部，训练时的边框损失函数GIOU_Loss，以及预测框筛选的nms变为DIOU_nms。

确定好以上各个参数之后将标注图像按批次输入网络模型的体系结构神经网络，通过语义分割预测头部预测一个和目标对应的候选框和掩码，进行最后的卷积输出结果；所述输出的结果是训练时运行非极大值抑制：对于预测层最后的特征会划分多个格子，每个特征单元格中的任何一个都会有三个预测的边界框；其次抛弃概率低的预测，即模型认为这个网格中什么都没有的边界框；最后对于多种检测目标，对于每个类别单独运行非最大值抑制，输出最后的预测边框即为本此模型迭代之后预测边框能力，NMS的意义在于只剔除IOU高于阈值，即高度重叠的box，而不影响多目标检测。

模型训练中在硬件满足要求的情况下使用多个显卡，训练所用的深度学习框架为PyTorch，PyTorch的多GPU（显卡）并行处理机制是，首先将模型加载到主GPU上，然后再将模型复制到各个指定的从GPU中，然后将输入数据按batch（批次）维度进行划分，具体来说就是每个 GPU 分配到的数据batch数量是总输入数据的 batch 除以指定GPU个数；每个 GPU将针对各自的输入数据独立进行forward（前向传播）计算，最后将各个GPU的loss（损失）进行求和，再用反向传播更新单个GPU上的模型参数，再将更新后的模型参数复制到剩余指定的GPU中，这样就完成了一次迭代计算；确定以上神经网络参数之后，输入处理后的数据，反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

实施例三

基于相同的构思，本实施例提供了一种道路积水检测装置，用于实现实施例二中所描述的道路积水检测方法，该装置包括以下单元：

获取单元，用于获取待处理图像；

语义分割单元，用于根据实施例一中所述的语义分割方法获取所述待处理图像的语义分割结果；

实施例四

本实施例还提供了一种电子装置，参考图7，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述实施例中的任意一种语义分割方法或道路积水检测方法的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（Solid State Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerial Bus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（Random Access Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（Erasable Programmable Read-Only Memory，简称为EPROM）、电可擦除PROM（Electrically Erasable Programmable Read-Only Memory，简称为EEPROM）、电可改写ROM（Electrically Alterable Read-Only Memory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-Access Memory，简称为SRAM）或动态随机存取存储器（Dynamic Random AccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（Fast PageMode Dynamic Random Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（Extended Date Out Dynamic Random Access Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种语义分割方法或道路积水检测方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是当前数据表例如疫情流调文档、特征数据、模板表等，输出的信息可以是特征指纹、指纹模板、文本分类推荐信息、文件模板配置映射表、文件模板配置信息表等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

或者：

获取待处理图像；

根据实施例一中所述的语义分割方法获取所述待处理图像的语义分割结果；

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的任意一种语义分割方法或道路积水检测方法，本申请实施例可一种计算机程序产品来实现。该计算机程序产品该计算机程序产品包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述软件代码部分用于执行实现上述实施例中的任意一种语义分割方法或道路积水检测方法。

并且，结合上述实施例中的任意一种语义分割方法或道路积水检测方法，本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种语义分割方法或道路积水检测方法。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语义分割方法，其特征在于，包括：

将待处理图像输入语义分割模型，所述语义分割模型包括主干网络、多尺度特征提取网络和语义分割预测头部，所述多尺度特征提取网络包括用于提取大尺度的第二特征图的第一全局特征提取网络、用于提取中尺度的第二特征图的第二全局特征提取网络、用于提取小尺度的第二特征图的第三全局特征提取网络，其中，每一所述全局特征提取网络至少包括串联的一个或多个全局特征提取模块，所述全局特征提取模块为嵌入了多个堆叠的全局注意力模块的CNN模块；

所述第一全局特征提取网络的输入为第一特征图，所述第二全局特征提取网络的输入为所述第一特征图经过瓶颈模块后输出的特征图，所述第三全局特征提取网络的输入为所述第二全局特征提取网络中第一个全局特征提取模块输出的特征图经过瓶颈模块后输出的特征图；所述第一全局特征提取网络以及第二全局特征提取网络中的第一个全局特征提取模块输出的特征图均分别输入所述第一全局特征提取网络、所述第二全局特征提取网络、所述第三全局特征提取网络中的第二个全局特征提取模块；所述第三全局特征提取网络中的全局特征提取模块输出的特征图输入所述第二全局特征提取网络中的第二个全局特征提取模块，所述第二全局特征提取网络中第二个全局特征提取模块输出的特征图输入第一全局特征提取网络中的第二个全局特征提取模块；所述第一全局特征提取网络、所述第二全局特征提取网络、所述第三全局特征提取网络输出的特征图均为所述第二特征图，其中所述第二特征图为同时具有局部注意力和全局注意力的特征图；

2.根据权利要求1所述的语义分割方法，其特征在于，使用所述全局特征提取模块将输入的特征图增大感受野并卷积升维，再展开为包括多个不重叠图像块的图像向量序列，将所述图像向量序列输入多个堆叠的全局注意力模块获取具有全局注意力的特征向量，将所述特征向量进行重塑和卷积降维后与输入所述全局特征提取模块的特征图进行堆叠和并联空洞卷积，得到所述全局特征提取模块输出的特征图。

3.根据权利要求1所述的语义分割方法，其特征在于，所述第一全局特征提取网络包括两个全局特征提取模块，每一所述全局特征提取模块中堆叠2个全局注意力模块；所述第二全局特征提取网络中包括两个全局特征提取模块，每一所述全局特征提取模块中堆叠4个全局注意力模块；所述第三全局特征提取网络中包括一个全局特征提取模块，该全局特征提取模块中堆叠3个全局注意力模块。

4.根据权利要求1所述的语义分割方法，其特征在于，所述主干网络包括依次连接的卷积层、渐进感受野递增模块、瓶颈模块、两个堆叠的渐进感受野递增模块和瓶颈模块，其中：所述卷积层和所述瓶颈模块,用于对所述待处理图像进行下采样获取相应的特征图；所述渐进感受野递增模块，用于将输入的特征图增大感受野。

5.根据权利要求4所述的语义分割方法，其特征在于，所述渐进感受野递增模块包括并行的第一分支和第二分支，所述第一分支将输入的特征图进行恒等映射，所述第二分支包括多层深度可分离空洞卷积，且所述第二分支内每一层的输入为前每一层的输出分别堆叠输入的特征图后再依据层级关系依次堆叠得到相应的特征图，每一层将输入的特征图进行深度可分离空洞卷积后再进行逐点卷积获得该层输出的特征图，将每一层输出的特征图依次与所述第一分支输出的特征图进行特征堆叠，并卷积堆叠后的所有特征图得到该渐进感受野递增模块输出的特征图。

6.根据权利要求4所述的语义分割方法，其特征在于，所述瓶颈模块包括并行的第三分支和第四分支，所述第三分支用于将输入的特征图进行逐点卷积扩张特征通道，并采用深度可分离卷积进行特征提取和空间维度降采样，再进行逐点卷积进行特征融合和特征通道降维，所述第四分支用于采用深度可分离卷积将输入的特征图进行特征空间上降采样，并卷积所述深度可分离卷积输出的结果进行特征融合，将所述第三分支和所述第四分支输出的特征图进行元素级相加作为该瓶颈模块输出的特征图。

7.根据权利要求1-6任一所述的语义分割方法，其特征在于，所述全局注意力模块为Vision Transformer。

8.根据权利要求7所述的语义分割方法，其特征在于，所述全局注意力模块于对输入的图像向量序列进行归一化处理，并用多头部注意力机制联合来自不同头部学习到的信息，将所述信息进行Dropout缓解过拟合后与输入所述全局注意力模块的图像向量序列进行元素级相加，将元素级相加后得到的特征图再次进行归一化处理并输入MLP模块进行特征提取和特征转换，将所述MLP模块输出的特征图进行Dropout缓解过拟合后与前一元素级相加得到的特征图再次进行元素级相加，得到所述全局注意力输出的特征图。

9.一种道路积水检测方法，其特征在于，包括以下步骤：

获取待处理图像；

根据权利要求1-6任一所述的语义分割方法获取所述待处理图像的语义分割结果；

10.一种道路积水检测装置，其特征自安于，包括以下单元：

获取单元，用于获取待处理图像；

语义分割单元，用于根据权利要求1-6任一所述的语义分割方法获取所述待处理图像的语义分割结果；

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至6任一所述的语义分割方法或权利要求9所述的道路积水检测方法。

12.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1至6任一项所述的语义分割方法或权利要求9所述的道路积水检测方法。