CN108876793A

CN108876793A - 语义分割方法、装置和系统及存储介质

Info

Publication number: CN108876793A
Application number: CN201810333109.5A
Authority: CN
Inventors: 章圳黎; 张祥雨; 彭超
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-11-23

Abstract

本发明实施例提供一种语义分割方法、装置和系统以及存储介质。该方法包括：获取待处理图像；将待处理图像输入U型网络，以获得U型网络输出的待处理图像的语义分割结果，其中，U型网络的扩张路径包括至少一个上采样模块，在至少一个上采样模块的每一个中，将输入特征中分别位于p个通道上的同一位置处的p个元素变换为同一通道上的相邻的p个元素，以获得变换后的特征，并将变换后的特征输入后续网络结构，其中，n是大于1的整数，1≤i＜n。上述方法可获得更准确的语义分割结果。

Description

语义分割方法、装置和系统及存储介质

技术领域

本发明涉及计算机领域，更具体地涉及一种语义分割方法、装置和系统以及存储介质。

背景技术

语义分割(semantic segmentation)是计算机视觉中一个比较基本的任务。目前用卷积神经网络(CNN)来解决这个任务主要还是沿袭全卷积网络(Fully ConvolutionalNetwork)的方法，因为语义分割任务需要对图像上的每个像素点进行分类。目前一种比较主流的用于语义分割的网络结构是U型网络(即U-Net)。现有的U-Net尚存在改进的空间。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种语义分割方法、装置和系统以及存储介质。

根据本发明一方面，提供了一种语义分割方法。该方法包括：获取待处理图像；将待处理图像输入U型网络，以获得U型网络输出的待处理图像的语义分割结果，其中，U型网络的扩张路径包括至少一个上采样模块，在至少一个上采样模块的每一个中，将输入特征中分别位于p个通道上的同一位置处的p个元素变换为同一通道上的相邻的p个元素，以获得变换后的特征，并将变换后的特征输入后续网络结构，其中，n是大于1的整数，1≤i＜n。

示例性地，U型网络的收缩路径包括依次连接的n个卷积模块，将待处理图像输入U型网络，以获得U型网络输出的待处理图像的语义分割结果包括：将待处理图像输入n个卷积模块中的第一个卷积模块；对于n个卷积模块中的第m个至第n个卷积模块中的至少一个卷积模块中的每一个，将该卷积模块的输出特征输入至该卷积模块对应的跳跃连接模块；对于至少一个卷积模块中的每一个，将跳跃连接模块的输出特征输入至该卷积模块对应的上采样模块以获得所述变换后的特征，或将所述跳跃连接模块的输出特征输入至该卷积模块对应的合并模块以获得合并后的特征，并将所述合并后的特征输入至该卷积模块对应的上采样模块以获得所述变换后的特征，其中，该卷积模块对应的上采样模块为所述至少一个上采样模块之一；对于至少一个卷积模块中的每一个，将变换后的特征输入在该卷积模块之前的上一卷积模块所对应的合并模块，在合并模块中，将变换后的特征与在该卷积模块之前的上一卷积模块所对应的跳跃连接模块的输出特征进行合并，并将合并后的特征输入后续网络结构，后续网络结构用于输出待处理图像的语义分割结果，其中，n是大于1的整数，1＜m＜n，p是大于1的整数。

示例性地，方法还包括：获取训练图像以及对应的分割标注数据，分割标注数据用于指示训练图像中的每个像素属于至少一个预定类别的概率；将训练图像输入U型网络；对于至少一个卷积模块中的每一个，将该卷积模块对应的上采样模块的输出特征输入到该卷积模块对应的辅助监督模块，以获得辅助监督模块输出的训练图像的语义分割结果；对于至少一个卷积模块中的每一个，基于训练图像的语义分割结果与分割标注数据计算该卷积模块对应的分类损失；基于至少一个卷积模块对应的分类损失计算总的损失；基于总的损失优化U型网络，以获得经训练的U型网络。

示例性地，辅助监督模块包括依次连接的大小调整模块、通道调整模块和第一分类函数层，其中，大小调整模块用于将上采样模块的输出特征的大小调整到与训练图像的大小一致，通道调整模块用于将大小调整模块的输出特征的通道数调整到预定数目，第一分类函数层用于基于通道调整模块的输出特征预测训练图像中的每个像素属于至少一个预定类别的概率。

示例性地，大小调整模块包括至少一个卷积层和/或至少一个池化层，和/或通道调整模块包括至少一个卷积层。

示例性地，对于至少一个卷积模块中的每一个，该卷积模块对应的后续网络结构包括至少一个反卷积模块、在最后一个反卷积模块之后依次连接的密集邻近预测模块和第二分类函数层，其中，最后一个反卷积模块的输出特征的通道划分为k*k组，每个组中的第q个通道用于预测同一类别，其中，k为大于1的整数，q为大于0的整数；密集邻近预测模块用于对最后一个反卷积模块的输出特征求平均，获得平均特征；第二分类函数用于基于平均特征计算待处理图像的语义分割结果。

示例性地，在密集邻近预测模块中，基于以下公式对最后一个反卷积模块的输出特征求平均：

其中，r_i，j表示平均特征中位于位置(i,j)处的元素的值，表示属于k*k组中第(l×k+m)组通道的位于位置处的元素的值。

示例性地，p等于4。

示例性地，跳跃连接模块包括全局卷积网络模块和/或边界细化模块。

根据本发明另一方面，提供了一种语义分割装置，包括：第一获取模块，用于获取待处理图像；第一输入模块，用于将待处理图像输入U型网络，以获得U型网络输出的待处理图像的语义分割结果，其中，U型网络的扩张路径包括至少一个上采样模块，在至少一个上采样模块的每一个中，将输入特征中分别位于p个通道上的同一位置处的p个元素变换为同一通道上的相邻的p个元素，以获得变换后的特征，并将变换后的特征输入后续网络结构，其中，n是大于1的整数，1≤i＜n。

根据本发明另一方面，提供了一种语义分割系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述语义分割方法。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述语义分割方法。

与现有的U-Net相比，根据本发明实施例的U-Net，通过形状变换操作在较深层的特征中增加了分辨率信息，使得深层特征与浅层特征在空间分辨率方面的差距没有原来那么大了，深层和浅层的特征就可以更好地融合了，由此可以带来整个网络的处理效果方面的提升。根据本发明实施例的语义分割方法、装置和系统以及存储介质，由于采用改进的U-Net，因此可以获得更准确的语义分割结果。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出现有的U-Net架构的示意图；

图2示出在现有的U-Net框架下，采用不同特征级获得的分割结果；

图3示出用于实现根据本发明实施例的语义分割方法和装置的示例电子设备的示意性框图；

图4示出根据本发明一个实施例的语义分割方法的示意性流程图；

图5示出根据本发明一个实施例的U-Net的网络结构的示意图；

图6示出ResNeXt-50和ResNeXt-50的网络结构的示意图；

图7示出根据本发明一个实施例的ECRE模块以及相关的辅助监督模块所实施操作的示意图；

图8示出根据本发明一个实施例的DAP模块所实施操作的示意图；

图9示出现有的U-Net与根据本发明实施例的U-Net分别使用给定的特征级所获得的分割结果；

图10示出多种现有的语义分割网络与根据本发明实施例的U-Net分别在PASCALVOC 2012验证集上进行性能测试获得的结果；

图11示出根据本发明一个实施例的语义分割装置的示意性框图；以及

图12示出根据本发明一个实施例的语义分割系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

之前的人设计U-Net这种网络结构主要基于以下主观的想法：将低分辨率高语义信息的特征(feature map)和高分辨率低语义信息的特征融合在一起，就能得到高分辨率高语义信息的特征(想要的结果)。然而，这种想法是否真的正确，这两种特征融合是否真的有效，却很少有人探究。

发明人首先发现，在现有的U-Net框架下，将低分辨率高语义信息的特征和高分辨率低语义信息的特征融合在一起这种主观的想法是存在一定缺陷的。具体表现是在U-Net中，前面两个跳跃连接(shortcut)是否存在，对U-Net的性能影响不大。下面结合实例进行说明。

图1示出现有的U-Net架构的示意图。参考图1，U-Net可以包括左侧的收缩路径和右侧的扩张路径。U-Net可以理解为一种编码器-解码器结构，收缩路径是编码器，扩张路径是解码器。编码器逐渐减少池化层的空间维度，解码器逐步修复物体的细节和空间维度。由于编码器部分的池化过程会造成信息丢失，在解码器部分通过上采样生成的分割图一般较为粗糙，因此可以在编码器和解码器之间引入shortcut来改善上采样的粗糙程度，帮助解码器更好地修复目标的细节。

在图1中，共存在四个shortcut，分别示出为S1、S2、S3和S4。本领域技术人员可以理解，每个shortcut是从U-Net的收缩路径到扩张路径的一种快捷连接方式，本文不对此进行赘述。需理解，图1仅是一种原理上的示意图，U-Net在实现时可能存在一些细节上的变化。

图2示出在现有的U-Net框架下，采用不同特征级获得的分割结果。在图2中，示出两种U-Net的分割结果，这两种U-Net的特征提取网络分别基于预训练的ResNet-50和ResNeXt-101模型构建。在图2中，U-Net的分割结果(代表性能)是针对PASCAL VOC 2012验证集，采用平均交并比(Mean Intersection over Union,mIoU)评估的。在图2中，特征级一列中的每一项表示对应的shortcut被连接，例如，{3,4}表示图1所示的S3和S4被连接，而S1和S2没有连接。如图2所示，无论是在ResNet-50模型下还是在ResNeXt-101模型下，将S2连接起来U-Net的性能增长很少，即使将S1和S2都连接起来性能的增长依然不多。

发明人推测造成上述问题的原因是U-Net中低分辨率高语义信息的特征和高分辨率低语义信息的特征在分辨率和语义信息上都有着很大的区别与间隔(gap)，这种间隔太大，以致融合这两种特征时不能做到彼此互补。

因此，发明人认为，在深层特征中引入更多的分辨率信息，有可能帮助弥补这种间隔，从而使得这两种特征能够更好地融合，达到预期的效果。下面将详细介绍在深层特征中引入更多分辨率信息以帮助特征更好融合的方法。

可以理解，上述高分辨率低语义信息的特征(即浅层特征)可以理解为包括基础模型(basemodel，对应于U-Net的收缩路径)中比较靠前的特征，例如下述conv2、conv3这两个卷积模块输出的特征。低分辨率高语义信息的特征(即深层特征)可以理解为包括基础模型中比较靠后的特征，例如下述conv4、conv5这两个卷积模块输出的特征。此外，由于U-Net的扩张路径是将conv5的输出特征进行上采样，以逐步修复物体的细节和空间维度，因此，扩张路径中各网络层输出的特征也可以视为属于低分辨率高语义信息的特征。

本发明实施例提供了一种语义分割方法、装置和系统以及存储介质。根据本发明实施例的语义分割方法，采用新的U-Net进行图像的语义分割。所述新的U-Net可以通过对现有U-Net的网络结构进行一定改进获得。在新的U-Net中，通过形状变换操作将更多的分辨率信息植入到深层特征的通道中。这样，可以使得基础模型前面和后面的特征能够更好地融合，从而可以提升U-Net的性能，可以获得更好的语义分割效果。根据本发明实施例的语义分割方法和装置可以应用于任何需要进行语义分割的领域，例如地理信息系统、无人车驾驶、医疗影像分析、机器人技术等领域。

首先，参照图3来描述用于实现根据本发明实施例的语义分割方法和装置的示例电子设备300。

如图3所示，电子设备300包括一个或多个处理器302、一个或多个存储装置304。可选地，电子设备300还可以包括输入装置306、输出装置308、以及图像采集装置310，这些组件通过总线系统312和/或其它形式的连接机构(未示出)互连。应当注意，图3所示的电子设备300的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器302可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、微处理器中的至少一种硬件形式来实现，所述处理器302可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备300中的其它组件以执行期望的功能。

所述存储装置304可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器302可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置306可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置308可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，所述输入装置306和所述输出装置308可以集成在一起，采用同一交互装置(例如触摸屏)实现。

所述图像采集装置310可以采集图像，并且将所采集的图像存储在所述存储装置304中以供其它组件使用。图像采集装置310可以是单独的相机或移动终端中的摄像头等。应当理解，图像采集装置310仅是示例，电子设备300可以不包括图像采集装置310。在这种情况下，可以利用其他具有图像采集能力的器件采集图像，并将采集的图像发送给电子设备300。

示例性地，用于实现根据本发明实施例的语义分割方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图4描述根据本发明实施例的语义分割方法。图4示出根据本发明一个实施例的语义分割方法400的示意性流程图。如图4所示，语义分割方法400包括以下步骤S410和S420。

在步骤S410，获取待处理图像。

待处理图像可以是任何需要进行语义分割的图像。待处理图像可以是静态图像，也可以是视频中的视频帧。待处理图像可以是图像采集装置采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。

示例性地，可以将待处理图像提取为张量的形式，获得图像张量，该图像张量可以代表待处理图像。在这种情况下，将待处理图像输入U-Net可以是将上述图像张量输入U-Net。

在步骤S420，将待处理图像输入U型网络，以获得U型网络输出的待处理图像的语义分割结果，其中，U型网络的扩张路径包括至少一个上采样模块，在至少一个上采样模块的每一个中，将输入特征中分别位于p个通道上的同一位置处的p个元素变换为同一通道上的相邻的p个元素，以获得变换后的特征，并将变换后的特征输入后续网络结构，其中，n是大于1的整数，1≤i＜n。

根据本发明实施例，U型网络的收缩路径可以包括依次连接的n个卷积模块，将待处理图像输入U型网络，以获得U型网络输出的待处理图像的语义分割结果包括：将待处理图像输入n个卷积模块中的第一个卷积模块；对于n个卷积模块中的第m个至第n个卷积模块中的至少一个卷积模块中的每一个，将该卷积模块的输出特征输入至该卷积模块对应的跳跃连接模块；对于至少一个卷积模块中的每一个，将跳跃连接模块的输出特征输入至该卷积模块对应的上采样模块以获得变换后的特征，或将跳跃连接模块的输出特征输入至该卷积模块对应的合并模块以获得合并后的特征，并将合并后的特征输入至该卷积模块对应的上采样模块以获得变换后的特征，其中，该卷积模块对应的上采样模块为至少一个上采样模块之一；对于至少一个卷积模块中的每一个，将变换后的特征输入在该卷积模块之前的上一卷积模块所对应的合并模块，在合并模块中，将变换后的特征与在该卷积模块之前的上一卷积模块所对应的跳跃连接模块的输出特征进行合并，并将合并后的特征输入后续网络结构，后续网络结构用于输出待处理图像的语义分割结果，其中，n是大于1的整数，1＜m＜n，p是大于1的整数。

可以理解，本文所述的特征可以是特征图(feature map)。

根据本发明实施例的U-Net的整体网络结构可以参考图1所示的现有U-Net的网络结构。示例性地，除U-Net的扩张路径中的某些反卷积模块被显式通道分辨率植入模块(Explicit Channel Resolution Embedding,ECRE)替代以外，根据本发明实施例的U-Net的其余网络结构可以与现有的U-Net一致。

本领域技术人员可以理解，在现有U-Net的扩张路径中，可以包括若干(例如5个)上采样模块。现有U-Net的上采样模块一般为反卷积(或称上卷积)模块。根据本发明实施例，ECRE模块也可以用作上采样模块。上述步骤S420中描述的至少一个上采样模块为至少一个ECRE模块。为与采用反卷积模块实现的上采样模块进行区分，下文描述步骤S420中的至少一个上采样模块时，主要用ECRE模块来描述。

图5示出根据本发明一个实施例的U-Net的网络结构的示意图。如图5所示，根据本发明实施例的U-Net的收缩路径(即属于基础模型的部分)可以包括5个卷积模块，分别用conv-1、res-2、res-3、res-4和res-5表示。示例性地，U-Net的5个卷积模块可以采用与ResNet模型(例如ResNet-50、ResNet-101等)或者ResNeXt模型(ResNeXt-50、ResNeXt-101等)中的5个卷积模块conv1、conv2、conv3、conv4、conv5一致的网络结构实现。图6示出ResNeXt-50和ResNeXt-50的网络结构的示意图。本领域技术人员可以结合图6理解ResNeXt模型和ResNeXt模型的5个卷积模块的网络结构，进而可以理解根据本发明实施例的U-Net的5个卷积模块的网络结构。

下面描述利用显示通道分辨率植入模块在深层特征中植入分辨率信息的方式。如上所述，深层特征可以包括U-Net的最后几个卷积模块输出的特征。例如，所述最后几个卷积模块可以是最后一个或最后两个卷积模块。例如，可以选择在res-5输出的特征中植入分辨率信息。当然，也可以选择在res-4输出的特征中植入分辨率信息，或者同时在res-4和res-5输出的特征中植入分辨率信息。理论上来说，与相对浅的特征相比，在更深层的特征中植入分辨率信息更有意义，所获得的网络的性能也更好。因此，可以考虑尽量在网络的较深层特征(例如最后一个卷积模块的输出特征)中植入分辨率信息。

以res-5为例，可以将res-5的输出特征连接到res-5对应的跳跃连接模块。经由跳跃连接模块可以将各卷积模块的输出特征跳跃连接到U-Net的扩张路径。示例性地，跳跃连接模块可以包括全局卷积网络(Global Convolutional Network,GCN)模块和/或边界细化(Boundery Refinement,BR)模块。GCN模块可以通过增大卷积核大小来获得更大的感受野，其对提高分类能力有帮助。BR模块可以增加边缘信息。

在跳跃连接模块中，对res-5的输出特征进行了卷积等操作。随后，跳跃连接模块的输出特征连接到ECRE模块。在现有的U-Net中，res-5对应的跳跃连接模块与反卷积模块(附图中用Deconv表示)连接。根据本发明实施例，可以用ECRE模块替换该反卷积模块。

示例性地，在ECRE模块中，可以通过形状变换操作提升特征图的分辨率。与双线性插值、反卷积等上采样方式相比，本发明实施例采用的形状变换操作不损失像素信息，可以获得更高的分辨率。下面描述形状变换操作的实现方式。

图7示出根据本发明一个实施例的ECRE模块以及相关的辅助监督模块所实施操作的示意图。在图7中，最左侧的特征图是输入ECRE模块的特征，即跳跃连接模块的输出特征。图7中间示出的特征图是经过ECRE模块中的形状变换操作之后获得的特征，即ECRE模块的输出特征。

在进ECRE模块之前，特征的通道数是从ECRE模块出来时的通道数的若干倍(即p倍)，图7示出为4倍。在图7中，ECRE模块的输入特征图从后向前分别编号为1、2、3、4(共4个输入特征图，分别占据4个通道)，ECRE模块的输出特征图上的数字1、2、3、4分别表示该像素来自对应编号的输入特征图。在ECRE模块的输出特征图上仅示例性地示出了一块区域与输入特征图的对应关系，其余区域可以参考该区域理解。如图7所示，在ECRE模块中，邻近的4个通道通过形状变换的方式变换到一个通道上，之前在不同通道上同一物理位置的4个像素最后变成同一通道上相邻的4个像素。这一形状变换过程可以称为子像素上采样。

虽然在图7以及上文描述中，以p＝4进行了说明，然而可以理解，其仅为示例，p可以是其他合适的数值，例如9。

经过形状变换操作之后，虽然通道数减少，但是输出特征的分辨率可以提高。

示例性地，为了使ECRE模块的输出特征的通道数与现有U-Net中的反卷积模块的输出特征的通道数保持一致，可以将根据本发明实施例的U-Net中的跳跃连接模块的输出特征的通道数增加到现有U-Net中的跳跃连接模块的输出特征的通道数的p倍，例如4倍。返回参考图5，现有U-Net中的跳跃连接模块的输出特征的大小为16×16×21，该向量中的三个维度分别为宽度W、高度H和通道数C。此外，现有U-Net中的反卷积模块的输出特征的大小为32×32×21。在根据本发明实施例的U-Net中，可以通过网络参数配置使得跳跃连接模块的输出特征的大小为16×16×84，即其通道数为84。经过ECRE模块之后，通道数缩小至原来的1/4，使得ECRE模块的输出特征的通道数恢复为21，该通道数与现有U-Net中的反卷积模块的输出特征的通道数保持一致。

ECRE模块输出的特征输入到后续的合并模块。返回参考图5，“+”表示合并模块。合并模块输出的特征继续输入到后续网络结构中。每个合并模块具有各自的后续网络结构。例如，假设图5中的合并模块从下向上排序，res-4对应的跳跃连接模块的输出特征与res-5对应的反卷积模块(在本发明实施例中替换为ECRE模块)的输出特征在第一个合并模块中合并，res-3对应的跳跃连接模块的输出特征与res-4对应的反卷积模块的输出特征在第二个合并模块中合并，第一个合并模块的后续网络结构与第二个合并模块的后续网络结构不同，并且第一个合并模块的后续网络结构包括第二个合并模块以及第二个合并模块的后续网络结构。也就是说，不同合并模块的后续网络结构存在重合的网络层，而非分别独立的。

与现有的U-Net相比，根据本发明实施例的U-Net，通过形状变换操作在较深层的特征中增加了分辨率信息，使得深层特征与浅层特征在空间分辨率方面的差距没有原来那么大了，深层和浅层的特征就可以更好地融合了，由此可以带来整个网络的处理效果方面的提升。根据本发明实施例的语义分割方法，由于采用改进的U-Net，因此可以获得更准确的语义分割结果。

示例性地，根据本发明实施例的语义分割方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的语义分割方法可以部署在图像采集端处，例如，在安防应用领域，可以部署在门禁系统的图像采集端；在金融应用领域，可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。

替代地，根据本发明实施例的语义分割方法还可以分布地部署在服务器端(或云端)和个人终端处。例如，可以在客户端获取图像，客户端将获取的图像传送给服务器端(或云端)，由服务器端(或云端)进行语义分割。

根据本发明实施例，方法还包括：获取训练图像以及对应的分割标注数据，分割标注数据用于指示训练图像中的每个像素属于至少一个预定类别的概率；将训练图像输入U型网络；对于至少一个卷积模块中的每一个，将该卷积模块对应的上采样模块的输出特征输入到该卷积模块对应的辅助监督模块，以获得辅助监督模块输出的训练图像的语义分割结果；对于至少一个卷积模块中的每一个，基于训练图像的语义分割结果与分割标注数据计算该卷积模块对应的分类损失；基于至少一个卷积模块对应的分类损失计算总的损失；基于总的损失优化U型网络，以获得经训练的U型网络。

为了显式监督分辨率信息的植入效果，可以在U-Net的训练阶段在ECRE模块后面加入一个语义分割的损失函数来监督形状变换的效果。这个辅助的损失函数与加在U-Net最后的语义分割的损失函数一样。如图7所示，损失函数的计算可以利用辅助监督模块实现。辅助监督模块可以基于ECRE模块的输出特征计算训练图像的语义分割结果。随后，可以基于训练图像的语义分割结果与训练图像的分割标注数据(ground truth)计算损失。分割标注数据(groundtruth)用于指示训练图像中的每个像素实际所属的类别，其可以是一个独热(one-hot)向量。例如，在分割标注数据中，训练图像中属于预定类别的像素对应的元素可以取值为1，其余元素可以取值为0。示例性地，用于监督分辨率信息植入效果的损失函数可以是交叉熵损失函数。

示例性地，在将所对应的反卷积模块替换为ECRE模块的卷积模块的数目不止一个的情况下，可以在每个ECRE模块后面加入辅助监督模块并计算对应的损失。随后，可以对所有损失进行加权平均，计算总的损失。随后，可以更新U-Net的参数以使得总的损失最小化直至收敛，最终可以获得经训练的U-Net。可以理解，U-Net的训练可以随时进行，也可以经历一次或多次。此外，在U-Net的任意一次训练过程中，可以将整个U-Net的输出端的损失函数考虑在内。例如，可以基于所有ECRE模块后面的损失与U-Net的输出端的损失计算总的损失，并进而基于总的损失优化U-Net，以获得经训练的U-Net。

需注意，上述辅助监督模块主要在U-Net的训练阶段使用，在U-Net的实际应用阶段可以去除辅助监督模块。

通过上述训练，可以使得ECRE模块输出的特征能够更准确，从而能够提升U-Net的语义分割效果。

可选地，大小调整模块包括至少一个卷积层和/或至少一个池化层，和/或通道调整模块包括至少一个卷积层。示例性地，第一分类函数层可以是softmax层。

例如，可以先将ECRE模块输出的特征图通过卷积、池化等操作调整(resize)到训练图像的大小，然后经过几层卷积操作调整通道数之后，过softmax层，获得训练图像的语义分割结果。

根据本发明实施例，对于所述至少一个卷积模块中的每一个，该卷积模块对应的后续网络结构包括至少一个反卷积模块、在最后一个反卷积模块之后依次连接的密集邻近预测模块和第二分类函数层，其中，最后一个反卷积模块的输出特征的通道划分为k*k组，每个组中的第q个通道用于预测同一类别，其中，k为大于1的整数，q为大于0的整数；密集邻近预测模块用于对最后一个反卷积模块的输出特征求平均，获得平均特征；第二分类函数用于基于平均特征计算待处理图像的语义分割结果。

示例性地，第二分类函数层可以是softmax层。

可以在U-Net的最后一个反卷积模块之后，输出最后的语义分割结果(即分割图，score map)之前，加入密集邻近预测(Densely Adjacent Prediction,DAP)模块。

示例性地，可以在最后一个反卷积模块的反卷积阶段(即最后一个反卷积阶段)，设定一个超参(hyperparameter)k。在根据本发明实施例的U-Net的最后一个反卷积阶段中，基于设定的超参k将现有U-Net中的最后一个反卷积阶段的通道数扩大k*k倍，并且可以将扩大后的通道分成k*k组。本领域技术人员可以理解，可以通过改变某个网络层中的卷积核的数目来改变该网络层的输出特征的通道数。

图8示出根据本发明一个实施例的DAP模块所实施操作的示意图。在图8中，左侧的特征图是U-Net的最后一个反卷积模块的输出特征，右侧的特征图是DAP模块的输出特征。如图8所示，在最后一个反卷积模块的输出特征中，共包括k*k组通道。假设在未扩充通道的情况下，最后一个反卷积模块输出的特征图的通道数为c个，则扩充通道后通道数增长到k*k*c个。c可以是U-Net能够预测的预定类别的数目。在现有U-Net中，可以将最后一个反卷积模块输出的c个通道的特征输入至后续的softmax层，获得softmax层输出的语义分割结果。根据本发明实施例，可以在DAP模块中对最后一个反卷积模块输出的特征进行平均，将通道数恢复到c个，再将DAP模块的输出特征输入至后续的softmax层，获得softmax层输出的语义分割结果。

在上述示例中，根据本发明实施例的U-Net中的最后一个反卷积模块输出的特征图的通道数为k*k*c个。如果将所有通道划分为k*k组，则每组可以包括c个通道。可以将每组中的通道进行排序，例如排序为第1个通道、第2个通道……第c个通道。每个组中的第q个通道可以用于预测同一类别。例如，第1组的第1个通道、第2组的第1个通道……第k*k组的第1个通道用于预测第一类别；第1组的第2个通道、第2组的第2个通道……第k*k组的第2个通道用于预测第二类别；以此类推。此处的类别是指U-Net进行语义分割时能够预测的类别(即上述预定类别)，例如行人、人脸、建筑物、车辆、树木、猫、狗等等。

示例性而非限制性地，最后一个反卷积模块可以包括k*k*c个卷积核，并且可以将卷积核划分为k*k组。在这种情况下，每组卷积核中的第q个卷积核可以采用相同或相近的参数，使得每组卷积核中的第q个卷积核所对应的通道可以用于预测同一类别。

根据本发明实施例，在密集邻近预测模块中，基于以下公式对最后一个反卷积模块的输出特征求平均：

本领域技术人员可以理解，最后一个反卷积模块的输出特征可以为三维向量，其具有宽W、高H和通道C三个维度。将最后一个反卷积模块的输出特征的通道划分为k*k组之后，每组的值仍然可以用三维向量表示。在上述公式中，位置(i,j)中的i和j分别指宽和高维度上的坐标。采用上述公式，可以同时计算平均特征中的所有通道上的值。

上述k*k组通道分别对应于k*k个偏移位置，这些偏移位置在H*W维度上的值相近。在DAP模块中，计算平均时，从不同组通道中选取不同偏移位置处的元素进行计算。

例如，假设k＝3，那么最后过softmax层之前的特征图上的每一个点都是由其邻域的9宫格(如表1所示)的9个值平均得到的。这9个值，分别在9个不同的通道中，并且物理位置与平均后的位置一致。

下面以k＝3为例进行进一步说明。示例性地，在k为3的情况下，偏移量可以是(-1,-1)，(-1,0)之类的数对，共9个数对，其中每个数对表示特征图在宽和高两个维度上位移的像素数。下面的表1示出DAP模块采用的偏移量数对的示例。

表1.DAP模块采用的偏移量数对的示例

-1,-1	0,-1	1,-1
			-1,0	0,0	1,0
-1,1	0,1	1,1

对于某一个点，加入偏移量的目的是想获得这一点邻域的信息。图8中每个立方体内部的长方体在H*W维度上代表一个点，如果k＝3，则图8中的每个长方体分别对应表1的9宫格的一个格。

例如，可以取第1组通道中的c个通道(每个特征图占据一个通道，因此每组对应c个特征图)在(i-1,j-1)处的元素的值，取第2组通道中的c个通道在(i-1,j)处的元素的值，取第3组通道中的c个通道在(i-1,j+1)处的元素的值，……，取第9组通道中的c个通道在(i+1,j+1)处的元素的值。随后，将取出的值进行平均。平均时，可以对不同组中的对应通道取出的值求平均，例如，可以将从第1组通道中的第1个通道至第9组通道中的第1个通道选取的9个值进行平均，获得平均特征中的第1个通道在(i,j)处的值；可以将从第1组通道中的第2个通道至第9组通道中的第2个通道选取的9个值进行平均，获得平均特征中的第2个通道在(i,j)处的值；以此类推。

在一个示例中，可以选择从与最后一个卷积模块连接的跳跃连接模块开始，就将特征的通道数扩大k*k倍。例如，在现有的U-Net中，与res-5连接的GCN模块的输出特征的大小是16×16×21(其仅为示例)，而在根据本发明实施例的U-Net中，可以将与res-5连接的GCN模块的输出特征改变为16×16×189，使其通道数扩大为原来的9倍。后续的反卷积模块以及上述ECRE模块可以维持通道数不变，使得最后一层反卷积模块的输出特征的通道数为189。可选地，也可以从ECRE模块、扩张路径中的任一反卷积模块或者扩张路径中其他网络层开始，使特征的通道数扩大k*k倍。

如上所述，由于每个预测位置处的值是其邻域的多个值的平均，因此深层特征的分辨率信息能够大大增加。

实践证明，采用本发明实施例提供的方法，浅层特征和深层特征确实能够更好地融合。图9示出现有的U-Net与根据本发明实施例的U-Net(用ExFuse表示)分别使用给定的特征级所获得的分割结果。图9所示的现有的U-Net和根据本发明实施例的U-Net均基于ResNeXt-101构建。如图9所示，对于根据本发明实施例的U-Net来说，将前两个shortcut连接起来有1.3的涨点。更好的特征融合也让本发明实施例提供的U-Net模型在benchmark数据集上获得了很大的性能提升。图10示出多种现有的语义分割网络与根据本发明实施例的U-Net(用ExFuse表示)分别在PASCAL VOC 2012验证集上进行性能测试获得的结果。在图10中，各网络的性能采用mIoU衡量。如图10所示，根据本发明实施例的U-Net的性能达到了86.8％的mIoU，超过了图10所示的其他现有方法，达到了本领域领先水平。

根据本发明另一方面，提供一种语义分割装置。图11示出了根据本发明一个实施例的语义分割装置1100的示意性框图。

如图11所示，根据本发明实施例的语义分割装置1100包括第一获取模块1110和第一输入模块1120。所述各个模块可分别执行上文中结合图3-10描述的语义分割方法的各个步骤/功能。以下仅对该语义分割装置1100的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

第一获取模块1110用于获取待处理图像。第一获取模块1110可以由图3所示的电子设备中的处理器302运行存储装置304中存储的程序指令来实现。

第一输入模块1120用于将所述待处理图像输入U型网络，以获得所述U型网络输出的所述待处理图像的语义分割结果，其中，U型网络的扩张路径包括至少一个上采样模块，在至少一个上采样模块的每一个中，将输入特征中分别位于p个通道上的同一位置处的p个元素变换为同一通道上的相邻的p个元素，以获得变换后的特征，并将变换后的特征输入后续网络结构，其中，n是大于1的整数，1≤i＜n。第一输入模块1120可以由图1所示的电子设备中的处理器302运行存储装置304中存储的程序指令来实现。

示例性地，所述U型网络的收缩路径包括依次连接的n个卷积模块，所述第一输入模块1120包括：第一输入子模块，用于将所述待处理图像输入所述n个卷积模块中的第一个卷积模块；第二输入子模块，用于对于所述n个卷积模块中的第m个至第n个卷积模块中的至少一个卷积模块中的每一个，将该卷积模块的输出特征输入至该卷积模块对应的跳跃连接模块；第三输入子模块，用于对于所述至少一个卷积模块中的每一个，将所述跳跃连接模块的输出特征输入至该卷积模块对应的上采样模块以获得所述变换后的特征，或将所述跳跃连接模块的输出特征输入至该卷积模块对应的合并模块以获得合并后的特征，并将所述合并后的特征输入至该卷积模块对应的上采样模块以获得所述变换后的特征，其中，该卷积模块对应的上采样模块为所述至少一个上采样模块之一；第四输入子模块，用于对于所述至少一个卷积模块中的每一个，将所述变换后的特征输入在该卷积模块之前的上一卷积模块所对应的合并模块，在所述合并模块中，将所述变换后的特征与在该卷积模块之前的上一卷积模块所对应的跳跃连接模块的输出特征进行合并，并将合并后的特征输入后续网络结构，所述后续网络结构用于输出所述待处理图像的语义分割结果，其中，n是大于1的整数，1＜m＜n，p是大于1的整数。

示例性地，语义分割装置1100还包括：第二图像获取模块(未示出)，用于获取训练图像以及对应的分割标注数据，分割标注数据用于指示训练图像中的每个像素属于至少一个预定类别的概率；第二输入模块(未示出)，用于将训练图像输入U型网络；第三输入模块(未示出)，用于对于至少一个卷积模块中的每一个，将该卷积模块对应的上采样模块的输出特征输入到该卷积模块对应的辅助监督模块，以获得辅助监督模块输出的训练图像的语义分割结果；第一计算模块(未示出)，用于对于至少一个卷积模块中的每一个，基于训练图像的语义分割结果与分割标注数据计算该卷积模块对应的分类损失；第二计算模块(未示出)，用于基于至少一个卷积模块对应的分类损失计算总的损失；优化模块(未示出)，用于基于总的损失优化U型网络，以获得经训练的U型网络。

示例性地，p等于4。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图12示出了根据本发明一个实施例的语义分割系统1200的示意性框图。语义分割系统1200包括图像采集装置1210、存储装置(即存储器)1220、以及处理器1230。

所述图像采集装置1210用于采集图像。图像采集装置1210是可选的，语义分割系统1200可以不包括图像采集装置1210。在这种情况下，可以利用其他图像采集装置采集图像，并将采集的图像发送给语义分割系统1200。

所述存储装置1220存储用于实现根据本发明实施例的语义分割方法中的相应步骤的计算机程序指令。

所述处理器1230用于运行所述存储装置1220中存储的计算机程序指令，以执行根据本发明实施例的语义分割方法的相应步骤。

在一个实施例中，所述计算机程序指令被所述处理器1230运行时用于执行以下步骤：获取待处理图像；将待处理图像输入U型网络，以获得U型网络输出的待处理图像的语义分割结果，其中，U型网络的扩张路径包括至少一个上采样模块，在至少一个上采样模块的每一个中，将输入特征中分别位于p个通道上的同一位置处的p个元素变换为同一通道上的相邻的p个元素，以获得变换后的特征，并将变换后的特征输入后续网络结构，其中，n是大于1的整数，1≤i＜n。

示例性地，U型网络的收缩路径包括依次连接的n个卷积模块，所述计算机程序指令被所述处理器1230运行时所用于执行的将待处理图像输入U型网络，以获得U型网络输出的待处理图像的语义分割结果的步骤包括：将待处理图像输入n个卷积模块中的第一个卷积模块；对于n个卷积模块中的第m个至第n个卷积模块中的至少一个卷积模块中的每一个，将该卷积模块的输出特征输入至该卷积模块对应的跳跃连接模块；对于至少一个卷积模块中的每一个，将跳跃连接模块的输出特征输入至该卷积模块对应的上采样模块以获得所述变换后的特征，或将所述跳跃连接模块的输出特征输入至该卷积模块对应的合并模块以获得合并后的特征，并将所述合并后的特征输入至该卷积模块对应的上采样模块以获得所述变换后的特征，其中，该卷积模块对应的上采样模块为所述至少一个上采样模块之一；对于至少一个卷积模块中的每一个，将变换后的特征输入在该卷积模块之前的上一卷积模块所对应的合并模块，在合并模块中，将变换后的特征与在该卷积模块之前的上一卷积模块所对应的跳跃连接模块的输出特征进行合并，并将合并后的特征输入后续网络结构，后续网络结构用于输出待处理图像的语义分割结果，其中，n是大于1的整数，1＜m＜n，p是大于1的整数。

示例性地，所述计算机程序指令被所述处理器1230运行时还用于执行以下步骤：获取训练图像以及对应的分割标注数据，分割标注数据用于指示训练图像中的每个像素属于至少一个预定类别的概率；将训练图像输入U型网络；对于至少一个卷积模块中的每一个，将该卷积模块对应的上采样模块的输出特征输入到该卷积模块对应的辅助监督模块，以获得辅助监督模块输出的训练图像的语义分割结果；对于至少一个卷积模块中的每一个，基于训练图像的语义分割结果与分割标注数据计算该卷积模块对应的分类损失；基于至少一个卷积模块对应的分类损失计算总的损失；基于总的损失优化U型网络，以获得经训练的U型网络。

示例性地，p等于4。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的语义分割方法的相应步骤，并且用于实现根据本发明实施例的语义分割装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的语义分割装置的各个功能模块，并和/或者可以执行根据本发明实施例的语义分割方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取待处理图像；将待处理图像输入U型网络，以获得U型网络输出的待处理图像的语义分割结果，其中，U型网络的扩张路径包括至少一个上采样模块，在至少一个上采样模块的每一个中，将输入特征中分别位于p个通道上的同一位置处的p个元素变换为同一通道上的相邻的p个元素，以获得变换后的特征，并将变换后的特征输入后续网络结构，其中，n是大于1的整数，1≤i＜n。

示例性地，U型网络的收缩路径包括依次连接的n个卷积模块，所述程序指令在运行时所用于执行的将待处理图像输入U型网络，以获得U型网络输出的待处理图像的语义分割结果的步骤包括：将待处理图像输入n个卷积模块中的第一个卷积模块；对于n个卷积模块中的第m个至第n个卷积模块中的至少一个卷积模块中的每一个，将该卷积模块的输出特征输入至该卷积模块对应的跳跃连接模块；对于至少一个卷积模块中的每一个，将跳跃连接模块的输出特征输入至该卷积模块对应的上采样模块以获得所述变换后的特征，或将所述跳跃连接模块的输出特征输入至该卷积模块对应的合并模块以获得合并后的特征，并将所述合并后的特征输入至该卷积模块对应的上采样模块以获得所述变换后的特征，其中，该卷积模块对应的上采样模块为所述至少一个上采样模块之一；对于至少一个卷积模块中的每一个，将变换后的特征输入在该卷积模块之前的上一卷积模块所对应的合并模块，在合并模块中，将变换后的特征与在该卷积模块之前的上一卷积模块所对应的跳跃连接模块的输出特征进行合并，并将合并后的特征输入后续网络结构，后续网络结构用于输出待处理图像的语义分割结果，其中，n是大于1的整数，1＜m＜n，p是大于1的整数。

示例性地，所述程序指令在运行时还用于执行以下步骤：获取训练图像以及对应的分割标注数据，分割标注数据用于指示训练图像中的每个像素属于至少一个预定类别的概率；将训练图像输入U型网络；对于至少一个卷积模块中的每一个，将该卷积模块对应的上采样模块的输出特征输入到该卷积模块对应的辅助监督模块，以获得辅助监督模块输出的训练图像的语义分割结果；对于至少一个卷积模块中的每一个，基于训练图像的语义分割结果与分割标注数据计算该卷积模块对应的分类损失；基于至少一个卷积模块对应的分类损失计算总的损失；基于总的损失优化U型网络，以获得经训练的U型网络。

示例性地，p等于4。

根据本发明实施例的语义分割系统中的各模块可以通过根据本发明实施例的实施语义分割的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的语义分割装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语义分割方法，包括：

获取待处理图像；

将所述待处理图像输入U型网络，以获得所述U型网络输出的所述待处理图像的语义分割结果，其中，所述U型网络的扩张路径包括至少一个上采样模块，在所述至少一个上采样模块的每一个中，将输入特征中分别位于p个通道上的同一位置处的p个元素变换为同一通道上的相邻的p个元素，以获得变换后的特征，并将所述变换后的特征输入后续网络结构，其中，n是大于1的整数，1≤i＜n。

2.如权利要求1所述的方法，其中，所述U型网络的收缩路径包括依次连接的n个卷积模块，所述将所述待处理图像输入U型网络，以获得所述U型网络输出的所述待处理图像的语义分割结果包括：

将所述待处理图像输入所述n个卷积模块中的第一个卷积模块；

对于所述n个卷积模块中的第m个至第n个卷积模块中的至少一个卷积模块中的每一个，

将该卷积模块的输出特征输入至该卷积模块对应的跳跃连接模块；

将所述跳跃连接模块的输出特征输入至该卷积模块对应的上采样模块以获得所述变换后的特征，或将所述跳跃连接模块的输出特征输入至该卷积模块对应的合并模块以获得合并后的特征，并将所述合并后的特征输入至该卷积模块对应的上采样模块以获得所述变换后的特征，其中，该卷积模块对应的上采样模块为所述至少一个上采样模块之一；

将所述变换后的特征输入在该卷积模块之前的上一卷积模块所对应的合并模块，在所述合并模块中，将所述变换后的特征与在该卷积模块之前的上一卷积模块所对应的跳跃连接模块的输出特征进行合并，并将合并后的特征输入后续网络结构，所述后续网络结构用于输出所述待处理图像的语义分割结果，

其中，n是大于1的整数，1＜m＜n，p是大于1的整数。

3.如权利要求2所述的方法，其中，所述方法还包括：

获取训练图像以及对应的分割标注数据，所述分割标注数据用于指示所述训练图像中的每个像素属于至少一个预定类别的概率；

将所述训练图像输入所述U型网络；

对于所述至少一个卷积模块中的每一个，

将该卷积模块对应的上采样模块的输出特征输入到该卷积模块对应的辅助监督模块，以获得所述辅助监督模块输出的所述训练图像的语义分割结果；

基于所述训练图像的语义分割结果与所述分割标注数据计算该卷积模块对应的分类损失；

基于所述至少一个卷积模块对应的分类损失计算总的损失；

基于所述总的损失优化所述U型网络，以获得经训练的所述U型网络。

4.如权利要求3所述的方法，其中，所述辅助监督模块包括依次连接的大小调整模块、通道调整模块和第一分类函数层，其中，

所述大小调整模块用于将所述上采样模块的输出特征的大小调整到与所述训练图像的大小一致，所述通道调整模块用于将所述大小调整模块的输出特征的通道数调整到预定数目，所述第一分类函数层用于基于所述通道调整模块的输出特征预测所述训练图像中的每个像素属于所述至少一个预定类别的概率。

5.如权利要求4所述的方法，其中，所述大小调整模块包括至少一个卷积层和/或至少一个池化层，和/或所述通道调整模块包括至少一个卷积层。

6.如权利要求2所述的方法，其中，对于所述至少一个卷积模块中的每一个，该卷积模块对应的后续网络结构包括至少一个反卷积模块、在最后一个反卷积模块之后依次连接的密集邻近预测模块和第二分类函数层，其中，

所述最后一个反卷积模块的输出特征的通道划分为k*k组，每个组中的第q个通道用于预测同一类别，其中，k为大于1的整数，q为大于0的整数；

所述密集邻近预测模块用于对所述最后一个反卷积模块的输出特征求平均，获得平均特征；

所述第二分类函数用于基于所述平均特征计算所述待处理图像的语义分割结果。

7.如权利要求6所述的方法，其中，在所述密集邻近预测模块中，基于以下公式对所述最后一个反卷积模块的输出特征求平均：

其中，r_i，j表示所述平均特征中位于位置(i,j)处的元素的值，表示属于所述k*k组中第(l×k+m)组通道的位于位置处的元素的值。

8.如权利要求2所述的方法，其中，所述跳跃连接模块包括全局卷积网络模块和/或边界细化模块。

9.如权利要求1所述的方法，其中，p等于4。

10.一种语义分割装置，包括：

第一获取模块，用于获取待处理图像；

第一输入模块，用于将所述待处理图像输入U型网络，以获得所述U型网络输出的所述待处理图像的语义分割结果，其中，所述U型网络的扩张路径包括至少一个上采样模块，在所述至少一个上采样模块的每一个中，将输入特征中分别位于p个通道上的同一位置处的p个元素变换为同一通道上的相邻的p个元素，以获得变换后的特征，并将所述变换后的特征输入后续网络结构，其中，n是大于1的整数，1≤i＜n。

11.一种语义分割系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至9任一项所述的语义分割方法。

12.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至9任一项所述的语义分割方法。