CN110880001A

CN110880001A - 一种语义分割神经网络的训练方法、设备和存储介质

Info

Publication number: CN110880001A
Application number: CN201811039142.3A
Authority: CN
Inventors: 黄永祯; 曹春水; 杨家辉; 张俊峰
Original assignee: Watrix Technology Beijing Co Ltd
Current assignee: Watrix Technology Beijing Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2020-03-13

Abstract

本发明公开了一种语义分割神经网络的训练方法、设备和存储介质。该方法包括：连接第一语义分割神经网络和第二语义分割神经网络；利用训练图像及其对应的监督图像，同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。本发明通过训练相互连接的第一语义分割神经网络和第二语义分割神经网络，实现两阶段的语义分割，可以在图像比较模糊，目标对象边缘不清晰，分辨率较低，图像光照条件较差的情况下，对指定的目标对象进行快速的、高精度的语义分割。

Description

一种语义分割神经网络的训练方法、设备和存储介质

技术领域

本发明涉及模型训练技术领域，尤其涉及一种语义分割神经网络的训练方法、设备和存储介质。

背景技术

图像分割是指将图像分成若干个特定的、具有独特性质的区域并提取出感兴趣目标的技术和过程。

目前，图像分割技术通常利用一个神经网络，例如：利用一个U-net神经网络，对图像进行端到端的语义分割，也就是让神经网络学习从RGB(Red、Green、Blue，红、绿、蓝)图像空间直接到分割图像的映射，这种方法在实际应用中取得了比较好的效果，但是依然存在以下问题：

神经网络的结构复杂，运行速度较慢，分割的结果容易受到光照、背景、遮挡物以及图像质量(例如：模糊程度)等因素的影响，导致对目标对象边缘的分割不够精细，尤其在光照较暗或者背景和前景颜色类似的时候，分割图像上会出现大量干扰噪声。例如：如图1所示，左侧的图像为原始图像，右侧的图像为利用U-net神经网络分割后的图像，从分割后的图像可以清楚的看到，人像边缘的分割不清晰，伴随大量的干扰噪声。造成这种问题的原因主要在于，现有的U-net神经网络参数量大、层数较深，并且包含局部最大池化层以便进行下采样卷积，最大池化层的操作丢失了图像信息，所以这种方式的下采样对于语义分割的精度不利。

发明内容

本发明的主要目的在于提供一种语义分割神经网络的训练方法、设备和存储介质，以解决现有技术图像分割方法对目标对象的图像分割精度低的问题。

针对上述技术问题，本发明是通过以下技术方案来解决的：

本发明提供了一种语义分割神经网络的训练方法，包括：连接第一语义分割神经网络和第二语义分割神经网络；利用训练图像及其对应的监督图像，同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。

其中，所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，包括：采用随机梯度下降法，同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。

其中，所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，包括：获取对应的训练图像和监督图像；将所述训练图像输入到用于分割目标对象的第一语义分割神经网络，获得所述目标对象的粗分割图像和所述训练图像的特征图像；将所述训练图像、所述粗分割图像和所述特征图像以通道并联的方式输入到用于进一步分割所述目标对象的第二语义分割神经网络，获得所述目标对象的细分割图像；根据所述训练图像对应的监督图像，确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛；如果否，则调整所述第一语义分割神经网络和所述第二语义分割神经网络，获取下一组对应的训练图像和监督图像，继续对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。

其中，在所述获取对应的训练图像和监督图像之前，还包括：在所述第一语义分割神经网络的输出端设置第一损失函数，在所述第二语义分割神经网络的输出端设置第二损失函数；所述根据所述训练图像对应的监督图像，确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛，包括：利用所述第一损失函数确定所述粗分割图像相对于所述监督图像的第一损失程度；利用所述第二损失函数确定所述细分割图像相对于所述监督图像的第二损失程度；如果在预设次数的端到端训练中，所述第一损失程度和所述第二损失程度都未发生变化，则确定所述第一语义分割神经网络和所述第二语义分割神经网络收敛。

其中，所述训练图像为3通道数据，所述粗分割图像为1通道数据，所述特征图像为n通道数据，所述细分割图像为1通道数据，n为大于等于1的正整数。

其中，所述第一语义分割神经网络为第一U-net神经网络，和/或，所述第二语义分割神经网络为第二U-net神经网络。

其中，所述第一U-net神经网络和/或所述第二U-net神经网络，包括：从输入端到输出端顺序串联一个步幅为1的3×3卷积核，五个步幅为2的3×3卷积核，一个步幅为1的3×3卷积核，五个步幅为2的3×3反卷积核和两个步幅为1的1×1卷积核；其中，所述五个步幅为2的3×3卷积核为下采样卷积核，所述五个步幅为2的3×3反卷积核为上采样反卷积核，将步幅为2的3×3下采样卷积核的输出通过跳连复制的方式与之特征图尺度大小对应的步幅为2的3×3上采样反卷积核的输出进行通道并联。

其中，每个所述3×3卷积核为32通道数据；每个所述3×3反卷积核为32通道数据；从所述输入端到所述输出端，前一个所述1×1卷积核为64通道数据，后一个所述1×1卷积核为1通道数据。

本发明还提供了一种语义分割神经网络的训练设备，所述语义分割神经网络的训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的语义分割神经网络的训练方法的步骤。

本发明还提供了一种存储介质，所述存储介质上存储有语义分割神经网络的训练程序，所述语义分割神经网络的训练程序被处理器执行时实现上述的语义分割神经网络的训练方法的步骤。

本发明有益效果如下：

本发明通过训练相互连接的第一语义分割神经网络和第二语义分割神经网络，实现两阶段的语义分割，可以在图像比较模糊，目标对象边缘不清晰，分辨率较低，图像光照条件较差的情况下，对指定的目标对象进行快速的、高精度的语义分割。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是现有技术的图像分割效果图；

图2是根据本发明实施例一的语义分割神经网络的训练方法的流程图；

图3是根据本发明实施例二的语义分割神经网络的训练方法的流程图；

图4是根据本发明实施例二的图像分割方法的效果图；

图5是根据本发明实施例二的图像分割方法的效果图；

图6是根据本发明实施例二的图像分割方法的效果图；

图7是根据本发明实施例三的U-net神经网络的结构图；

图8是根据本发明实施例三的语义分割神经网络的结构图；

图9为根据本发明实施例四的对视频图像分割的步骤流程图；

图10为根据本发明实施例五的语义分割神经网络的训练设备的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本发明作进一步地详细说明。

实施例一

根据本发明的实施例，提供了一种语义分割神经网络的训练方法。本发明的语义分割神经网络包括第一语义分割神经网络和第二语义分割神经网络。本发明的语义分割神经网络可以用于图像分割。

图2为根据本发明实施例一的语义分割神经网络的训练方法的流程图。

步骤S210，连接第一语义分割神经网络和第二语义分割神经网络。

第一语义分割神经网络用于初步分割出目标对象。第二语义分割神经网络用于进一步分割出目标对象。

将第一语义分割神经网络的输入端和输出端分别连接第二语义分割神经网络的输入端，使得第一语义分割神经网络连接第二语义分割神经网络。

连接第一语义分割神经网络和第二语义分割神经网络，将第一语义分割神经网络和第二语义分割神经网络作为一个训练模型，将第一语义分割神经网络的输入作为训练模型的输入，将第二语义分割神经网络的输出作为训练模型的输出。本实施例的训练模型可以实现高精度、强鲁棒性的语义分割。

在本实施例中，第一语义分割神经网络和第二语义分割神经网络的网络结构可以相同或者不同。第一语义分割神经网络和第二语义分割神经网络的网络类型也可以相同或者不同。

在本实施例中，第一语义分割神经网络为第一U-net神经网络，和/或，第二语义分割神经网络为第二U-net神经网络。

需要说明的是：本实施例的高精度、强鲁棒性的语义分割方式不局限于U-net神经网络框架，任何语义分割的神经网络框架都能适用。

步骤S220，利用训练图像及其对应的监督图像，同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。

预设训练集，在该训练集中包括：多组训练图像和监督图像。利用预先设置的训练集对训练模型进行训练。

训练图像和监督图像成对使用。监督图像是指已经在该训练图像中标注出目标对象的图像。监督图像可以用于确定第一语义分割神经网络和第二语义分割神经网络对训练图像的分割是否准确。

在本实施例中，可以采用随机梯度下降法，同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。

本实施例通过训练相互连接的第一语义分割神经网络和第二语义分割神经网络，实现两阶段的语义分割，可以在图像比较模糊，目标对象边缘不清晰，分辨率较低，图像光照条件较差的情况下，对指定的目标对象进行快速的、高精度的语义分割。

本实施例训练的第一语义分割神经网络和第二语义分割神经网络适用于可以采用语义分割的各种应用场景中，例如：在安防领域中对图像中人形的分割，在工业领域对工业现场各种零件的分割等等。

实施例二

本实施例将对采用随机梯度下降法，对第一语义分割神经网络和第二语义分割神经网络同时进行端到端训练的过程进行进一步地描述。

图3为根据本发明实施例二的语义分割神经网络的训练方法的流程图。

步骤S310，获取对应的训练图像和监督图像。

训练图像为待分割图像。训练图像为RGB图像。

训练图像中包含待分割的目标对象。监督图像中包含已分割的目标对象。该目标对象可以为人像、物像等。

步骤S320，将训练图像输入到用于分割目标对象的第一语义分割神经网络，获得目标对象的粗分割图像和训练图像的特征图像。

步骤S330，将训练图像、粗分割图像和特征图像以通道并联的方式输入到用于进一步分割目标对象的第二语义分割神经网络，获得目标对象的细分割图像。

目标对象的粗分割图像是对目标对象的初步分割结果。

训练图像的特征图像包括：全局特征和局部特征。全局特征用于表示训练图像的整体特征。局部特征用于表示训练图像的局部特征。特征的种类包括但不限于：颜色特征、纹理特征和形状特征。

目标对象的细分割图像是对目标对象的最终分割结果。

在本实施例中，训练图像为3通道数据，粗分割图像为1通道数据，特征图像为n通道数据，细分割图像为1通道数据，n为大于等于1的正整数。进一步地，为了使图像分割效果更优，n可以为大于等于8的正整数。

例如：特征图像为64通道数据。进一步地，3通道数据的训练图像、1通道数据的粗分割图像和64通道数据的特征图像将合并为68通道的数据作为第二语义分割神经网络的输入，3通道数据的训练图像和64通道数据的特征图像将作为强先验信息，使得第二语义分割神经网络中的每个神经元都具有全局视野，并能够依据分割的需要自由地组合全局特征和局部特征，将在第一语义分割神经网络的基础上，利用训练图像修正第一语义分割神经网络的误判，去除粗分割图像中的噪声以及填充粗分割图像中的细节等。

如图4、图5和图6所示，为根据本发明实施例二的图像分割效果图。在图4、图5和图6中，左面的图像为训练图像，中间的图像为人像的粗分割图像，右面的图像为人像的细分割图像。在图4、图5和图6中可以看到，第一语义分割神经网络输出的粗分割图像的人像边缘处理不够精细，受背景、光照、分辨率的影响，存在误判噪声或分割不全的问题，第二语义分割神经网络输出的细分割图像有效地克服了这些因素的影响，人像的边缘分割清晰，进而通过两阶段的语义分割实现了高精度、强鲁棒性的分割。

步骤S340，根据训练图像对应的监督图像，确定第一语义分割神经网络和第二语义分割神经网络是否收敛；如果是，则执行步骤S350；如果否，则执行步骤S360。

步骤S350，输出训练完毕的第一语义分割神经网络和第二语义分割神经网络。

步骤S360，调整第一语义分割神经网络和第二语义分割神经网络，跳转到步骤S310，获取下一组对应的训练图像和监督图像，继续对第一语义分割神经网络和第二语义分割神经网络进行端到端训练，直到第一语义分割神经网络和第二语义分割神经网络收敛为止。

在所述获取对应的训练图像和监督图像之前，在所述第一语义分割神经网络的输出端设置第一损失函数，在所述第二语义分割神经网络的输出端设置第二损失函数；利用所述第一损失函数确定所述粗分割图像相对于所述监督图像的第一损失程度；利用所述第二损失函数确定所述细分割图像相对于所述监督图像的第二损失程度；如果在预设次数的端到端训练中，所述第一损失程度和所述第二损失程度都未发生变化，则确定所述第一语义分割神经网络和所述第二语义分割神经网络收敛。进一步地，向第一语义分割神经网络输入一次训练图像，即为一次端到端训练的开始。

具体的，在第一语义分割神经网络和第二语义分割神经网络的输出端分别设置相同的监督图像；将该监督图像对应的训练图像输入第一语义分割神经网络，以便利用第一语义分割神经网络对该训练图像进行粗分割，输出目标对象的粗分割图像和训练图像的特征图像，利用第一损失函数确定粗分割图像相对于监督图像的第一损失程度；将该监督图像对应的训练图像、目标对象的粗分割图像和训练图像的特征图像以通道并联的方式输入第二语义分割神经网络，以便利用第二语义分割神经网络进行细分割，该细分割是使用该训练图像和特征图像对该粗分割图像进行目标对象的再分割，输出目标对象的细分割图像，利用第二损失函数确定细分割图像相对于监督图像的第二损失程度。根据第一损失函数的值(第一损失程度)调整第一语义分割神经网络中参数，根据第二损失函数的值(第二损失程度)调整第二语义分割神经网络中的参数，再利用下一组训练图像和监督图像，同时对第一语义分割神经网络和第二语义分割神经网络进行端到端训练，以此类推，直到第一损失函数的值和第二损失函数的值不再发生变化为止，确定第一语义分割神经网络和第二语义分割神经网络收敛。

在第一语义分割神经网络和第二语义分割神经网络收敛之后，去除设置在第一语义分割神经网络输出端的第一损失函数和设置在第二语义分割神经网络输出端的第二损失函数，这样就可以将第一语义分割神经网络和第二语义分割神经网络组成的用于图像分割的网络应用到图像分割之中了。

在本实施例中，第一损失函数和/或第二损失函数为均方误差损失函数。

本实施例的训练速度快。本实施例的语义分割精度高、鲁棒性强，在具有遮挡、边缘模糊、分辨率较低、光照条件较差的情况下，本实施例的分割效果较佳，并且能够纠正误判、去除噪声、优化目标对象边界。

实施例三

在训练语义分割神经网络之前，需要设置语义分割神经网络中的第一语义分割神经网络和第二语义分割神经网络，下面对本发明的第一语义分割神经网络和第二语义分割神经网络的网络结构进行进一步地说明。

第一语义分割神经网络为第一U-net神经网络，和/或，所述第二语义分割神经网络为第二U-net神经网络。例如：第一U-net神经网络和/或第二U-net神经网络采用图7所示的U-net神经网络。

由图7可知，所述第一U-net神经网络和/或所述第二U-net神经网络，包括：从输入端到输出端顺序串联一个步幅为1的3×3卷积核，五个步幅为2的3×3卷积核，一个步幅为1的3×3卷积核，五个步幅为2的3×3反卷积核和两个步幅为1的1×1卷积核；其中，所述五个步幅为2的3×3卷积核为下采样卷积核，所述五个步幅为2的3×3反卷积核为上采样反卷积核，将步幅为2的3×3下采样卷积核的输出通过跳连复制的方式与之特征图尺度大小对应的步幅为2的3×3上采样反卷积核的输出进行通道并联。

进一步地，每个3×3卷积核为32通道数据；每个3×3反卷积核为32通道数据；从所述输入端到所述输出端，前一个1×1卷积核为64通道数据，后一个1×1卷积核为1通道数据。在后一个1×1卷积核处可以设置softmax激活函数，该softmax激活函数可以对图像进行归一化。

在U-net神经网络中，前半部分的步幅为2的3×3卷积核的输出通过跳连复制与后半部分与之特征图尺度大小对应的3×3反卷积的输出进行通道并联，从而在后半部分实现不同视野大小的信息整合。

在连接第一U-net神经网络和第二U-net神经网络之后，可以形成本实施例的语义分割神经网络，其可称为图像分割网络。如图8所示，为根据本发明第三实施例的语义分割神经网络的结构图。

由图8可知，第一U-net神经网络和第二U-net神经网络都采用了图7的U-net神经网络，第一U-net神经网络的输入端和输出端分别连接第二U-net神经网络的输入端，从而可以使训练图像、目标对象的粗分割图像和训练图像的特征图像以通道并联的方式输入第二U-net神经网络。3通道数据的原始图像通过图8所示的语义分割神经网络，粗分割图像为1通道数据，特征图像为64通道数据，细分割图像为1通道数据。

在本实施例中，对U-net神经网络的框架进行了精简优化，整个语义分割神经网络的卷积参数大量缩减，取消了最大池化层，而是用步幅为2的卷积核进行下采样，保留了底层信息复制到高层进行信息整合的操作，基于本实施例的U-net神经网络，可以在信息表达能力不损失的情况下，使U-net神经网络的信息处理速度加快，可以实现高精度、强鲁棒性的语义分割。

实施例四

下面给出一个应用本发明训练的语义分割神经网络进行图像分割的实例。图9为根据本发明实施例四的对视频图像分割的步骤流程图。

步骤S910，获取待图像分割的视频数据。

步骤S920，按照视频数据中各帧视频图像的播放顺序，顺次获取视频数据中的每一帧视频图像，将当前获取的视频图像输入第一语义分割神经网络，获取目标对象的粗分割图像和该视频图像的特征图像。

步骤S930，将目标对象的粗分割图像和该视频图像的特征图像输入第二语义分割神经网络，获得目标对象的细分割图像。

在本实施例中，第一语义分割神经网络和第二语义分割神经网络都用于分割出图像中的目标对象。该目标对象例如是图像中的人像。

步骤S940，判断视频数据中的所有视频图像是否都获取完毕；如果是，则执行步骤S950；如果否，则执行步骤S920，以便获取视频数据中的下一帧视频图像。

步骤S950，按照细分割图像对应的视频图像在视频数据中的播放顺序，合成获得的多个细分割图像，得到图像分割视频数据。

图像分割视频数据中的每帧图像都是细分割图像。

例如：在播放视频数据的过程中，获取当前播放的视频图像，将当前播放的视频图像输入第一语义分割神经网络，获取目标对象的粗分割图像和该视频图像的特征图像；再将目标对象的粗分割图像和该视频图像的特征图像输入第二语义分割神经网络，获得目标对象的细分割图像；在视频数据播放完毕之后，将顺次分割出的细分割图像合成为图像分割视频数据。整个图像分割过程快速，且分割精度高，在播放该合成的图像分割视频数据时，可以看到动态的目标对象，可以应用在安防等领域中。

实施例五

本实施例提供一种语义分割神经网络的训练设备。如图10所示，为根据本发明实施例五的语义分割神经网络的训练设备的结构图。

在本实施例中，所述语义分割神经网络的训练设备1000，包括但不限于：处理器1010、存储器1020。

所述处理器1010用于执行存储器1020中存储的图像分割程序，以实现实施例一～实施例四所述的语义分割神经网络的训练方法。

具体而言，所述处理器1010用于执行存储器1020中存储的语义分割神经网络的训练程序，以实现以下步骤：连接第一语义分割神经网络和第二语义分割神经网络；利用训练图像及其对应的监督图像，同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。

可选的，所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，包括：采用随机梯度下降法，同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。

可选的，所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，包括：获取对应的训练图像和监督图像；将所述训练图像输入到用于分割目标对象的第一语义分割神经网络，获得所述目标对象的粗分割图像和所述训练图像的特征图像；将所述训练图像、所述粗分割图像和所述特征图像以通道并联的方式输入到用于进一步分割所述目标对象的第二语义分割神经网络，获得所述目标对象的细分割图像；根据所述训练图像对应的监督图像，确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛；如果否，则调整所述第一语义分割神经网络和所述第二语义分割神经网络，获取下一组对应的训练图像和监督图像，继续对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。

可选的，在所述获取对应的训练图像和监督图像之前，还包括：在所述第一语义分割神经网络的输出端设置第一损失函数，在所述第二语义分割神经网络的输出端设置第二损失函数；所述根据所述训练图像对应的监督图像，确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛，包括：利用所述第一损失函数确定所述粗分割图像相对于所述监督图像的第一损失程度；利用所述第二损失函数确定所述细分割图像相对于所述监督图像的第二损失程度；如果在预设次数的端到端训练中，所述第一损失程度和所述第二损失程度都未发生变化，则确定所述第一语义分割神经网络和所述第二语义分割神经网络收敛。

可选的，所述训练图像为3通道数据，所述粗分割图像为1通道数据，所述特征图像为n通道数据，所述细分割图像为1通道数据，n为大于等于1的正整数。

可选的，所述第一语义分割神经网络为第一U-net神经网络，和/或，所述第二语义分割神经网络为第二U-net神经网络。

可选的，所述第一U-net神经网络和/或所述第二U-net神经网络，包括：从输入端到输出端顺序串联一个步幅为1的3×3卷积核，五个步幅为2的3×3卷积核，一个步幅为1的3×3卷积核，五个步幅为2的3×3反卷积核和两个步幅为1的1×1卷积核；其中，所述五个步幅为2的3×3卷积核为下采样卷积核，所述五个步幅为2的3×3反卷积核为上采样反卷积核，将步幅为2的3×3下采样卷积核的输出通过跳连复制的方式与之特征图尺度大小对应的步幅为2的3×3上采样反卷积核的输出进行通道并联。

可选的，每个所述3×3卷积核为32通道数据；每个所述3×3反卷积核为32通道数据；从所述输入端到所述输出端，前一个所述1×1卷积核为64通道数据，后一个所述1×1卷积核为1通道数据。

实施例六

本发明实施例还提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述的语义分割神经网络的训练方法。

具体而言，所述处理器用于执行存储器中存储的语义分割神经网络的训练程序，以实现以下步骤：连接第一语义分割神经网络和第二语义分割神经网络；利用训练图像及其对应的监督图像，同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种语义分割神经网络的训练方法，其特征在于，包括：

连接第一语义分割神经网络和第二语义分割神经网络；

利用训练图像及其对应的监督图像，同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练。

2.根据权利要求1所述的方法，其特征在于，所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，包括：

采用随机梯度下降法，同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。

3.根据权利要求2所述的方法，其特征在于，所述同时对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，包括：

获取对应的训练图像和监督图像；

将所述训练图像输入到用于分割目标对象的第一语义分割神经网络，获得所述目标对象的粗分割图像和所述训练图像的特征图像；

将所述训练图像、所述粗分割图像和所述特征图像以通道并联的方式输入到用于进一步分割所述目标对象的第二语义分割神经网络，获得所述目标对象的细分割图像；

根据所述训练图像对应的监督图像，确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛；

如果否，则调整所述第一语义分割神经网络和所述第二语义分割神经网络，获取下一组对应的训练图像和监督图像，继续对所述第一语义分割神经网络和所述第二语义分割神经网络进行端到端训练，直到所述第一语义分割神经网络和所述第二语义分割神经网络收敛为止。

4.根据权利要求3所述的方法，其特征在于，

在所述获取对应的训练图像和监督图像之前，还包括：

在所述第一语义分割神经网络的输出端设置第一损失函数，在所述第二语义分割神经网络的输出端设置第二损失函数；

所述根据所述训练图像对应的监督图像，确定所述第一语义分割神经网络和所述第二语义分割神经网络是否收敛，包括：

利用所述第一损失函数确定所述粗分割图像相对于所述监督图像的第一损失程度；利用所述第二损失函数确定所述细分割图像相对于所述监督图像的第二损失程度；

如果在预设次数的端到端训练中，所述第一损失程度和所述第二损失程度都未发生变化，则确定所述第一语义分割神经网络和所述第二语义分割神经网络收敛。

5.根据权利要求3所述的方法，其特征在于，所述训练图像为3通道数据，所述粗分割图像为1通道数据，所述特征图像为n通道数据，所述细分割图像为1通道数据，n为大于等于1的正整数。

6.根据权利要求1～5中任一项所述的方法，其特征在于，所述第一语义分割神经网络为第一U-net神经网络，和/或，所述第二语义分割神经网络为第二U-net神经网络。

7.根据权利要求6所述的方法，其特征在于，所述第一U-net神经网络和/或所述第二U-net神经网络，包括：

从输入端到输出端顺序串联一个步幅为1的3×3卷积核，五个步幅为2的3×3卷积核，一个步幅为1的3×3卷积核，五个步幅为2的3×3反卷积核和两个步幅为1的1×1卷积核；其中，所述五个步幅为2的3×3卷积核为下采样卷积核，所述五个步幅为2的3×3反卷积核为上采样反卷积核，将步幅为2的3×3下采样卷积核的输出通过跳连复制的方式与之特征图尺度大小对应的步幅为2的3×3上采样反卷积核的输出进行通道并联。

8.根据权利要求7所述的方法，其特征在于，

每个所述3×3卷积核为32通道数据；

每个所述3×3反卷积核为32通道数据；

从所述输入端到所述输出端，前一个所述1×1卷积核为64通道数据，后一个所述1×1卷积核为1通道数据。

9.一种语义分割神经网络的训练设备，其特征在于，所述语义分割神经网络的训练设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1～8中任一项所述的语义分割神经网络的训练方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有语义分割神经网络的训练程序，所述语义分割神经网络的训练程序被处理器执行时实现如权利要求1～8中任一项所述的语义分割神经网络的训练方法的步骤。