CN113947102A

CN113947102A - 一种用于复杂环境移动机器人场景理解的主干双路图像语义分割方法

Info

Publication number: CN113947102A
Application number: CN202111068237.XA
Authority: CN
Inventors: 李恒宇; 程立; 刘靖逸; 岳涛; 王曰英; 谢少荣; 罗均
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-08-30
Filing date: 2021-09-13
Publication date: 2022-01-18

Abstract

本发明属于图像处理领域，公开一种主干双路图像语义分割方法，具体为：将图像输入语义分割模型进行特征提取，得到初始特征图；初始特征图经残差网络处理后与经下采样、残差网络处理的初始特征图进行一次语义融合，得到一级融合高分辨率特征图和一级融合低分辨率特征图；一级融合高分辨率特征图经残差网络处理后与经下采样、残差网络处理后的一级融合低分辨率特征图进行二次语义融合，得到三级融合高分辨率特征图和三级融合低分辨率特征图；三级融合高分辨率特征图经残差网络处理后与经下采样、残差网络处理后的三级融合低分辨率特征图进行三次语义融合，得到五级融合特征图；五级融合特征图经解码器上采样，得到图像语义分割结果。

Description

一种用于复杂环境移动机器人场景理解的主干双路图像语义分割方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种用于复杂环境移动机器人场景理解的主干双路图像语义分割方法。

背景技术

对于移动机器人，场景理解是其实现真正智能化的最核心技术，其场景理解能力依赖于面向场景解析的高精度语义分割算法具有场景理解能力的服务机器人即拥有了场景语义分割的能力，在配合移动底座和高精度机械臂后，能够进一步实现自主导航、物体送达、室内安保等高级任务。

场景理解在早期的计算机视觉相关的研究工作中就已经被重视，但一直无法找出较有效的解决方法。场景理解研究中存在较多难点，比如：如何在场景中的目标物体受到平移、旋转、光照或畸变等影响时，仍能获得该目标物体的鲁棒特征、为了取得更好的分割效果，研究人员通常会为基于深度学习的语义分割模型设计复杂的结构来提高分割精度，如ASPP模块等，但复杂的结构通常会降低模型的运行速度、为了提高模型的运行速度，很多轻量语义分割模型被提出，然而轻量模型的精度与精确模型相比有一定差距，结构通常也比较特殊，较难改进或者改进后可能需要在ImageNet数据集上进行预训练，设备要求高且训练费时费力。因此，亟需研究一种用于复杂环境移动机器人场景理解的图像语义分割模型，使得该图像语义分割模型应用于移动机器人的面向场景解析直接使用时就能高精度地对场景进行解析，在专用设备上应用时不会因为降低精度的操作而损失过多的场景解析性能。

发明内容

针对现有技术中存在的问题和不足，本发明的目的旨在提供一种用于复杂环境移动机器人场景理解的主干双路图像语义分割方法。

为实现发明目的，本发明采用的技术方案如下：

本发明第一方面提供了一种用于复杂环境移动机器人场景理解的主干双路图像语义分割方法，包括以下步骤：

S1：将待分割图像输入图像语义分割模型的编码器中，采用编码器的初始模块对待分割图像进行初始特征提取，得到初始特征图，初始特征图的空间尺寸为待分割图像的1/2；然后将初始特征图分别输入编码器的高分辨率支路、下采样支路进行处理；

S2：输入高分辨率支路的初始特征图经残差网络进行特征提取，得到空间尺寸与初始特征图相同的一级高分辨率特征图；输入下采样支路的初始特征图依次经下采样、残差网络进行特征提取，得到空间尺寸为初始特征图1/2的一级低分辨率特征图；将一级高分辨率特征图与一级低分辨率特征图采用一级fuse模块进行第一次语义特征信息融合，融合后得到了一级融合高分辨率特征图和一级融合低分辨率特征图，所述一级融合高分辨率特征图是将一级低分辨率特征图的语义特征信息融合到一级高分辨率特征图中得到的特征图；所述一级融合低分辨率特征图是将一级高分辨率特征图的语义特征信息融合到一级低分辨率特征图中得到的特征图；

S3：一级融合高分辨率特征图经残差网络进行特征提取，得到空间尺寸与初始特征图相同的二级融合高分辨率特征图；一级融合低分辨率特征图依次经下采样、残差网络进行特征提取，得到空间尺寸为初始特征图1/4的二级融合低分辨率特征图；将二级融合高分辨率特征图、二级融合低分辨率特征图、一级融合低分辨率特征图采用二级fuse模块进行第二次语义特征信息融合，融合后得到了三级融合高分辨率特征图和三级融合低分辨率特征图，所述三级融合高分辨率特征图是将二级融合低分辨率特征图、一级融合低分辨率特征图的语义特征信息融合到二级融合高分辨率特征图中得到的特征图；所述三级融合低分辨率特征图是将二级融合高分辨率特征图的语义特征信息融合到二级融合低分辨率特征图中得到的特征图；

S4：三级融合高分辨率特征图经残差网络进行特征提取，得到空间尺寸与初始特征图相同的四级融合高分辨率特征图；三级融合低分辨率特征图依次经下采样、残差网络进行特征提取，得到空间尺寸为初始特征图1/8的四级融合低分辨率特征图；将四级融合高分辨率特征图、四级融合低分辨率特征图、三级融合低分辨率特征图、一级融合低分辨率特征图采用三级fuse模块进行第三次语义特征信息融合，融合后得到了五级融合高分辨率特征图，所述五级融合高分辨率特征图是将四级融合低分辨率特征图、三级融合低分辨率特征图、一级融合低分辨率特征图的语义特征信息融合到四级融合高分辨率特征图中得到的特征图；

S5：采用图像语义分割模型的解码器对所述五级融合高分辨率特征图进行上采样处理，得到图像语义分割结果。

根据上述的主干双路图像语义分割方法，优选地，采用一级fuse模块进行第一次语义特征信息融合的具体操作为：

S21：采用语义指导上采样模块对一级低分辨率特征图和一级高分辨率特征图行语义特征信息融合，将语义融合后得到的特征图与经1×1卷积层处理后的一级高分辨率特征图进行对应元素相加，得到一级融合高分辨率特征图；一级融合高分辨率特征图的空间尺寸与一级高分辨率特征图相同；

S22：将一级高分辨率特征图的空间尺寸调整至与一级低分辨率特征图一致，然后将空间尺寸调整后的一级高分辨率特征图与经1×1卷积层处理后的一级低分辨率特征图进行对应元素相加，得到一级融合低分辨率特征图，一级融合低分辨率特征图的空间尺寸与一级低分辨率特征图相同；其中，1×1卷积层的步长为1。

根据上述的主干双路图像语义分割方法，优选地，采用二级fuse模块进行第二次语义特征信息融合的具体操作为：

S31：采用语义指导上采样模块对一级融合低分辨率特征图和二级融合低分辨率特征图进行语义特征信息融合，得到一级融合图，一级融合图的空间尺寸与一级融合低分辨率特征图相同；

S32：采用语义指导上采样模块对一级融合图和二级融合高分辨率特征图进行语义特征信息融合，得到二级融合图，二级融合特征图的空间尺寸与二级融合高分辨率特征图相同；将二级融合图与经1×1卷积层处理后的二级融合高分辨率特征图进行对应元素相加，得到三级融合高分辨率特征图；三级融合高分辨率特征图的空间尺寸与一级高分辨率特征图相同；其中，1×1卷积层的步长为1；

S33：将二级融合高分辨率特征图的空间尺寸调整至与二级融合低分辨率特征图一致，然后将空间尺寸调整后的二级融合高分辨率特征图与经1×1卷积层处理后的二级融合低分辨率特征图进行对应元素相加，得到三级融合低分辨率特征图，三级融合低分辨率特征图的空间尺寸为一级低分辨率特征图的1/2；其中，1×1卷积层的步长为1。

根据上述的主干双路图像语义分割方法，优选地，采用三级fuse模块进行第三次语义特征信息融合的具体操作为：

S41：采用语义指导上采样模块对四级融合低分辨率特征图和三级融合低分辨率特征图进行语义特征信息融合，得到第一融合图，第一融合图的空间尺寸与三级融合低分辨率特征图相同；

S42：采用语义指导上采样模块对第一融合图和一级融合低分辨率特征图进行语义特征信息融合，得到第二融合图，第二融合图的空间尺寸与一级融合低分辨率特征图相同；

S43：采用语义指导上采样模块对第二融合图和四级融合高分辨率特征图进行语义特征信息融合，得到第三融合图，第三融合图的空间尺寸与四级融合高分辨率特征图相同；

S44：将第三融合图与经1×1卷积层处理后的四级融合高分辨率特征图进行对应元素相加，得到五级融合高分辨率特征图，五级融合高分辨率特征图的空间尺寸与一级高分辨率特征图相同，其中，1×1卷积层的步长为1。

根据上述的主干双路图像语义分割方法，优选地，采用语义指导上采样模块对图像进行语义特征信息融合时，先对输入语义指导上采样模块的两个特征图进行特征语义对齐处理，然后将特征语义对齐后的两个特征图进行语义融合。

根据上述的主干双路图像语义分割方法，优选地，所述语义指导上采样模块对输入的两个特征图进行语义特征信息融合的具体过程为：

(1)将输入语义指导上采样模块的两个特征图中空间尺寸较大的特征图记作低层特征图，将空间尺寸较小的特征图记作高层特征图，将经1×1卷积模块处理后的低层特征图与经1×1卷积模块、转置卷积模块处理的高层特征图进行拼接，得到拼接特征图；其中，1×1卷积层的步长为1；

(2)采用Basicblock模块对拼接特征图进行降维处理，得到降维特征图，将降维特征图经3×3卷积模块进行处理，计算低层特征图与高层特征图之间的语义偏移量；其中，3×3卷积层的步长为1；

(3)根据步骤(2)计算得到的语义偏移量，通过Warp变形模块对高层特征图进行变形处理，得到与低层特征图特征语义对齐的变形特征图；

(4)变形特征图经Basicblock模块进行降维处理，得到语义融合后的特征图并输出。

根据上述的主干双路图像语义分割方法，优选地，所述转置卷积模块转置卷积层、批量归一化层和激活函数组成，转置卷积模块的卷积核大小为2，步长为2，填充为0，采用Basicblock模块进行降维处理时，缩放因子为2。

根据上述的主干双路图像语义分割方法，优选地，步骤S5中，所述解码器为全连接网络，所述全连接网络为两层结构。

根据上述的主干双路图像语义分割方法，优选地，所述初始模块为stem模块，所述残差网络为ResNet18网络，所述下采样模块的缩放因子为2。

根据上述的主干双路图像语义分割方法，优选地，步骤S5中，所述上采样为二倍上采样。

本发明第二方面提供了一种用于复杂环境移动机器人场景理解的图像语义分割模型训练方法，所述方法为：

获取训练样本集，所述训练样本集包括多个样本图像，所述样本图像中含有样本分割区域以及样本分割区域对应的样本类别信息；将训练样本集中的样本图像输入图像语义分割模型进行检测，得到所述样本图像的语义分割结果，所述语义分割结果包括基于语义识别得到的所述样本图像的特征区域和特征区域对应的类别信息；根据样本图像中的样本分割区域及样本分割区域对应的样本类别信息以及样本图像的特征区域和特征区域对应的类别信息构建损失函数，根据所述损失函数，采用反向传播对图像语义分割模型进行参数更新，得到训练后的图像语义分割模型；其中，所述图像语义分割模型为上述第一方面所述的图像语义分割模型。

根据上述的图像语义分割模型训练方法，优选地，所述训练样本集中的样本图像来自ImageNet dataset、Cityscapes dataset、ADE20K dataset三种图像数据集中的至少一种。

与现有技术相比，本发明取得的积极有益效果如下：

(1)本发明的公开的主干双路图像语义分割方法中，分别采用高分辨率支路、下采样支路的双路结构对初始特征图进行处理；其中，高分辨率支路能够保留图像的高分辨率以及细节信息保证图像的精度；下采样支路能提取图像重要的特征，减少参数量加快图像处理速度；因此，采用本发明的主干双路图像语义分割方法能够有效的将图像处理的精度和速度结合，使得移动机器人在复杂的环境下应能较快解析场景的同时，也能够精确的分割每个物体的语义信息。

(2)本发明主干双路图像语义分割方法中，采用的fuse模块将高分辨率支路中的高分辨率特征图与下采样支路中的地分辨率特征图进行像素级的对齐融合，使得经过三级fuse模块融合处理得到的五级融合高分辨率特征图融合了更精细的图像语义信息，有效的保留了原图像的更多的细节语义信息，提高了图像语义分割的精度，这也极大地提高了移动机器人在复杂环境下对场景理解的深度，能够很好的应对场景中的目标物体受到平移、旋转、光照或畸变等所带来的问题。

(3)本发明主干双路图像语义分割方法中，采用全卷积网络对五级融合高分辨率特征图进行上采样处理，得到图像语义分割结果；该全卷积网络只有两层结构，结构简单，有效的降低了图像语义分割模型的复杂度，提高了图像语义分割模型的训练速度以及处理速度；这使得移动机器人在复杂多变的环境中能迅速的对突发状况做出快速反应。

(4)本发明采用语义指导上采样模块来代替传统的上采样操作，语义指导上采样模块对低分辨率特征图上采样的过程中间接利用了高分辨率特征图中的语义信息计算解码器中相邻特征图的语义偏移，解决了语义不对齐的问题，进一步提高了图像语义分割的精度，这使得移动机器人在复杂的有较多类别物体的环境中，能够精细的分割每个类别物体的边缘，实现更精确的场景分析。

附图说明

图1为本发明中图像语义分割模型编码器的网络结构示意图；

图2为本发明中采用一级fuse模块进行语义特征信息融合的示意图；

图3为本发明中采用二级fuse模块进行语义特征信息融合的示意图；

图4为本发明中采用三级fuse模块进行语义特征信息融合的示意图；

图5为本发明中语义指导上采样模块的网络架构示意图；

图6为本发明中Warp变形模块对图像进行处理的过程示意图。

具体实施方式

下面结合附图和具体的实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外，还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1：

一种用于复杂环境移动机器人场景理解的主干双路图像语义分割方法，包括以下步骤：

S1：将待分割图像输入图像语义分割模型的编码器(编码器的网络架构示意图如图1所示)中，采用编码器的初始模块对待分割图像进行初始特征提取，得到初始特征图，初始特征图的空间尺寸为待分割图像的1/2；然后将初始特征图分别输入编码器的高分辨率支路、下采样支路进行处理；其中，所述初始模块stem模块。

S2：输入高分辨率支路的初始特征图经残差网络(所述残差网络为ResNet18网络)进行特征提取，得到空间尺寸与初始特征图相同的一级高分辨率特征图；输入下采样支路的初始特征图依次经下采样(下采样的缩放因子为2)、残差网络(所述残差网络为ResNet18网络)进行特征提取，得到空间尺寸为初始特征图1/2的一级低分辨率特征图；将一级高分辨率特征图与一级低分辨率特征图采用一级fuse模块进行第一次语义特征信息融合，融合后得到了一级融合高分辨率特征图和一级融合低分辨率特征图。所述一级融合高分辨率特征图是将一级低分辨率特征图的语义特征信息融合到一级高分辨率特征图中得到的特征图；所述一级融合低分辨率特征图是将一级高分辨率特征图的语义特征信息融合到一级低分辨率特征图中得到的特征图；。

S3：一级融合高分辨率特征图经残差网络(所述残差网络为ResNet18网络)进行特征提取，得到空间尺寸与初始特征图相同的二级融合高分辨率特征图；一级融合低分辨率特征图依次经下采样(下采样的缩放因子为2)、残差网络(所述残差网络为ResNet18网络)进行特征提取，得到空间尺寸为初始特征图1/4的二级融合低分辨率特征图；将二级融合高分辨率特征图、二级融合低分辨率特征图、一级融合低分辨率特征图采用二级fuse模块进行第二次语义特征信息融合，融合后得到了三级融合高分辨率特征图和三级融合低分辨率特征图。所述三级融合高分辨率特征图是将二级融合低分辨率特征图、一级融合低分辨率特征图的语义特征信息融合到二级融合高分辨率特征图中得到的特征图；所述三级融合低分辨率特征图是将二级融合高分辨率特征图的语义特征信息融合到二级融合低分辨率特征图中得到的特征图；。

S4：三级融合高分辨率特征图经残差网络(所述残差网络为ResNet18网络)进行特征提取，得到空间尺寸与初始特征图相同的四级融合高分辨率特征图；三级融合低分辨率特征图依次经下采样(下采样的缩放因子为2)、残差网络(所述残差网络为ResNet18网络)进行特征提取，得到空间尺寸为初始特征图1/8的四级融合低分辨率特征图；将四级融合高分辨率特征图、四级融合低分辨率特征图、三级融合低分辨率特征图、一级融合低分辨率特征图采用三级fuse模块进行第三次语义特征信息融合，融合后得到了五级融合高分辨率特征图。所述五级融合高分辨率特征图是将四级融合低分辨率特征图、三级融合低分辨率特征图、一级融合低分辨率特征图的语义特征信息融合到四级融合高分辨率特征图中得到的特征图。

S5：采用图像语义分割模型的解码器对所述五级融合高分辨率特征图进行二倍上采样处理，得到图像语义分割结果；其中，所述解码器为全连接网络，所述全连接网络为两层结构。

其中，如图2所示，采用一级fuse模块进行第一次语义特征信息融合的具体操作为：

S21：采用语义指导上采样模块对一级低分辨率特征图和一级高分辨率特征图行语义特征信息融合，将语义融合后得到的特征图与经1×1卷积层处理后的一级高分辨率特征图进行对应元素相加，得到一级融合高分辨率特征图；一级融合高分辨率特征图的空间尺寸与一级高分辨率特征图相同。

S22：采用3×3卷积层将一级高分辨率特征图的空间尺寸调整至与一级低分辨率特征图一致，然后将空间尺寸调整后的一级高分辨率特征图与经1×1卷积层处理后的一级低分辨率特征图进行对应元素相加，得到一级融合低分辨率特征图，一级融合低分辨率特征图的空间尺寸与一级低分辨率特征图相同。其中，3×3卷积层的步长为2，1×1卷积层的步长为1。

如图3所示，采用二级fuse模块进行第二次语义特征信息融合的具体操作为：

S31：采用语义指导上采样模块对一级融合低分辨率特征图和二级融合低分辨率特征图进行语义特征信息融合，得到一级融合图，一级融合图的空间尺寸与一级融合低分辨率特征图相同。

S32：采用语义指导上采样模块对一级融合图和二级融合高分辨率特征图进行语义特征信息融合，得到二级融合图，二级融合特征图的空间尺寸与二级融合高分辨率特征图相同；将二级融合图与经1×1卷积层处理后的二级融合高分辨率特征图进行对应元素相加，得到三级融合高分辨率特征图；三级融合高分辨率特征图的空间尺寸与一级高分辨率特征图相同。其中，1×1卷积层的步长为1。

S33：连续采用两个3×3卷积层将二级融合高分辨率特征图的空间尺寸调整至与二级融合低分辨率特征图一致，然后将空间尺寸调整后的二级融合高分辨率特征图与经1×1卷积层处理后的二级融合低分辨率特征图进行对应元素相加，得到三级融合低分辨率特征图，三级融合低分辨率特征图的空间尺寸为一级低分辨率特征图的1/2。其中，3×3卷积层的步长为2，1×1卷积层的步长为1。

如图4所示，采用三级fuse模块进行第三次语义特征信息融合的具体操作为：

S41：采用语义指导上采样模块对四级融合低分辨率特征图和三级融合低分辨率特征图进行语义特征信息融合，得到第一融合图，第一融合图的空间尺寸与三级融合低分辨率特征图相同。

S42：采用语义指导上采样模块对第一融合图和一级融合低分辨率特征图进行语义特征信息融合，得到第二融合图，第二融合图的空间尺寸与一级融合低分辨率特征图相同。

S43：采用语义指导上采样模块对第二融合图和四级融合高分辨率特征图进行语义特征信息融合，得到第三融合图，第三融合图的空间尺寸与四级融合高分辨率特征图相同。

S44：将第三融合图与经1×1卷积层处理后的四级融合高分辨率特征图进行对应元素相加，得到五级融合高分辨率特征图，五级融合高分辨率特征图的空间尺寸与一级高分辨率特征图相同。其中，1×1卷积层的步长为1。

采用语义指导上采样模块对图像进行语义特征信息融合时，先对输入语义指导上采样模块的两个特征图进行特征语义对齐处理，然后将特征语义对齐后的两个特征图进行语义融合。如图5所示，语义指导上采样模块对输入的两个特征图进行语义特征信息融合的具体过程为：

(1)将输入语义指导上采样模块的两个特征图中空间尺寸较大的特征图记作低层特征图，将空间尺寸较小的特征图记作高层特征图，将经1×1卷积模块处理后的低层特征图与经1×1卷积模块、转置卷积模块处理的高层特征图进行拼接，得到拼接特征图。其中，1×1卷积层的步长为1；所述转置卷积模块由转置卷积层、批量归一化层和激活函数组成，转置卷积模块的卷积核大小为2，步长为2，填充为0。

(2)采用Basicblock模块对拼接特征图进行降维处理，得到降维特征图，将降维特征图经3×3卷积模块进行处理，计算低层特征图与高层特征图之间的语义偏移量。其中，3×3卷积层的步长为1；采用Basicblock模块进行降维处理时，缩放因子为2。

(3)根据步骤(2)计算得到的语义偏移量，通过Warp变形模块对高层特征图进行变形处理(如图6所示)，得到与低层特征图特征语义对齐的变形特征图。

(4)变形特征图经Basicblock模块进行降维处理，得到语义融合后的特征图并输出；其中，采用Basicblock模块进行降维处理时，缩放因子为2。

实施例2：

本实施例主要提供一种上述实施例1中所述图像语义分割模型训练方法，所述方法的步骤为：

A：获取样本图像集，所述样本图像集中包括多个样本图像，所述样本图像中含有样本分割区域以及样本分割区域对应的样本类别信息；将样本图像集按比例随机划分为训练集、验证集和测试集；所述样本图像集中的样本图像来自ImageNet dataset、Cityscapesdataset、ADE20K dataset三种图像数据集中的至少一种。

B：将训练集中的样本图像输入预先构建的图像语义分割模型进行检测，得到所述样本图像的语义分割结果，所述语义分割结果包括基于语义识别得到的所述样本图像的特征区域和特征区域对应的类别信息；根据样本图像中的样本分割区域及样本分割区域对应的样本类别信息以及样本图像的特征区域和特征区域对应的类别信息构建损失函数，根据所述损失函数，采用反向传播对图像语义分割模型进行参数更新，得到训练后的图像语义分割模型。

C：采用验证集对步骤B得到的训练后的图像语义分割模型进行验证，从训练后的语义分割模型中选出最优图像语义分割模型；

D：采用测试集对步骤C筛选的最优语义分割模型进行测试，评估最优图像语义分割模型的性能；其中，所述图像语义分割模型为实施例1所述的图像语义分割模型。

采用本发明上述实施例1中所述的图像语义分割模型按实施例1所述的图像语义分割方法对待分割图像进行语义分割；同时采用现有的语义分割模型ResNet-18+FCN(该图像语义分割模型的编码器采用常规的ResNet-18网络，解码器采用全卷积网络，解码器的网络架构与本发明图像语义分割模型的解码器相同)、ResNet-50+FCN(该图像语义分割模型的编码器采用常规的ResNet-50网络，解码器采用全卷积网络，解码器的网络架构与本发明图像语义分割模型的解码器相同)对待分割图像进行处理，比较本发明最优语义分割模型与现有语义分割模型ResNet-18+FCN、ResNet-50+FCN的图像语义分割准确率，其结果如表1所示。

表1本发明图像语义分割模型与现有语义分割模型的语义分割结果对比

由表1可知，本发明设计的图像语义分割模型的图像语义分割精度最高，为73.31％，其时间复杂度为141.18，明显低于ResNet-18+FCN、ResNet-50+FCN模型；而且，本发明图像语义分割模型主干网络(编码器)的参数量只有2.37，大大缩短了训练时长；本发明图像语义分割模型主干网络(编码器)的FPS高达16.23，能好的实现图像的实时处理，更适合使用于复杂环境移动机器人场景理解。

以上所述仅为本发明的较佳实施例而已，但不仅限于上述实例，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于复杂环境移动机器人场景理解的主干双路图像语义分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的主干双路图像语义分割方法，其特征在于，采用一级fuse模块进行第一次语义特征信息融合的具体操作为：

S22：将一级高分辨率特征图的空间尺寸调整至与一级低分辨率特征图一致，然后将空间尺寸调整后的一级高分辨率特征图与经1×1卷积层处理后的一级低分辨率特征图进行对应元素相加，得到一级融合低分辨率特征图，一级融合低分辨率特征图的空间尺寸与一级低分辨率特征图相同。

3. 根据权利要求2所述的主干双路图像语义分割方法，其特征在于，采用二级fuse模块进行第二次语义特征信息融合的具体操作为：

S32：采用语义指导上采样模块对一级融合图和二级融合高分辨率特征图进行语义特征信息融合，得到二级融合图，二级融合特征图的空间尺寸与二级融合高分辨率特征图相同；将二级融合图与经1×1卷积层处理后的二级融合高分辨率特征图进行对应元素相加，得到三级融合高分辨率特征图；三级融合高分辨率特征图的空间尺寸与一级高分辨率特征图相同；

S33：将二级融合高分辨率特征图的空间尺寸调整至与二级融合低分辨率特征图一致，然后将空间尺寸调整后的二级融合高分辨率特征图与经1×1卷积层处理后的二级融合低分辨率特征图进行对应元素相加，得到三级融合低分辨率特征图，三级融合低分辨率特征图的空间尺寸为一级低分辨率特征图的1/2。

4.根据权利要求3所述的主干双路图像语义分割方法，其特征在于，采用三级fuse模块进行第三次语义特征信息融合的具体操作为：

S44：将第三融合图与经1×1卷积层处理后的四级融合高分辨率特征图进行对应元素相加，得到五级融合高分辨率特征图，五级融合高分辨率特征图的空间尺寸与一级高分辨率特征图相同。

5.根据权利要求2-4任一所述的主干双路图像语义分割方法，其特征在于，采用语义指导上采样模块对图像进行语义特征信息融合时，先对输入语义指导上采样模块的两个特征图进行特征语义对齐处理，然后将特征语义对齐后的两个特征图进行语义融合。

6.根据权利要求5所述的主干双路图像语义分割方法，其特征在于，所述语义指导上采样模块对输入的两个特征图进行语义特征信息融合的具体过程为：

（1）将输入语义指导上采样模块的两个特征图中空间尺寸较大的特征图记作低层特征图，将空间尺寸较小的特征图记作高层特征图，将经1×1卷积模块处理后的低层特征图与经1×1卷积模块、转置卷积模块处理的高层特征图进行拼接，得到拼接特征图；

（2）采用Basicblock模块对拼接特征图进行降维处理，得到降维特征图，将降维特征图经3×3卷积模块进行处理，计算低层特征图与高层特征图之间的语义偏移量；

（3）根据步骤（2）计算得到的语义偏移量，通过Warp变形模块对高层特征图进行变形处理，得到与低层特征图特征语义对齐的变形特征图；

（4）变形特征图经Basicblock模块进行降维处理，得到语义融合后的特征图并输出。

7.根据权利要求6所述的主干双路图像语义分割方法，其特征在于，采用Basicblock模块进行降维处理时，缩放因子为2。

8.根据权利要求1所述的主干双路图像语义分割方法，其特征在于，步骤S5中，所述解码器为全连接网络，所述全连接网络为两层结构。

9.根据权利要求8所述的主干双路图像语义分割方法，其特征在于，所述初始模块为stem模块，所述残差网络为ResNet18网络，所述下采样模块的缩放因子为2。

10.一种用于复杂环境移动机器人场景理解的图像语义分割模型训练方法，其特征在于，所述方法为：

获取训练样本集，所述训练样本集包括多个样本图像，所述样本图像中含有样本分割区域以及样本分割区域对应的样本类别信息；将训练样本集中的样本图像输入图像语义分割模型进行检测，得到所述样本图像的语义分割结果，所述语义分割结果包括基于语义识别得到的所述样本图像的特征区域和特征区域对应的类别信息；根据样本图像中的样本分割区域及样本分割区域对应的样本类别信息以及样本图像的特征区域和特征区域对应的类别信息构建损失函数，根据所述损失函数，采用反向传播对图像语义分割模型进行参数更新，得到训练后的图像语义分割模型；其中，所述图像语义分割模型为权利要求1-9任一所述的图像语义分割模型。