CN108537292A

CN108537292A - 语义分割网络训练方法、图像语义分割方法及装置

Info

Publication number: CN108537292A
Application number: CN201810315990.6A
Authority: CN
Inventors: 申晖
Original assignee: Shanghai Bai Ze Network Technology Co Ltd
Current assignee: Shanghai Bai Ze Network Technology Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-09-14
Anticipated expiration: 2038-04-10
Also published as: CN108537292B

Abstract

本发明实施例涉及计算机视觉技术领域，提供一种语义分割网络训练方法、图像语义分割方法及装置，所述语义分割网络训练方法包括：获取待训练图像；将待训练图像输入预先建立的语义分割网络，利用语义分割网络的前部网络层对待训练图像进行特征提取，得到包含待训练图像的区块、整体和边缘特征的特征图；将包含待训练图像的区块、整体和边缘特征的特征图输入语义分割网络的后部网络层进行图像像素分类，得到包含分割像素类型的语义分割图；依据语义分割图对语义分割网络进行参数更新。与现有技术相比，本发明实施例对待训练图像的边缘特征单独进行了提取及还原，提高了分割区域边缘处的训练识别效果。

Description

语义分割网络训练方法、图像语义分割方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体而言，涉及一种语义分割网络训练方法、图像语义分割方法及装置。

背景技术

图像语义分割是计算机视觉的三大核心研究问题之一，其融合了传统的图像分割和目标识别两个任务，目的是将图像分割为若干个具有某种特定语义含义的像素区域，并识别出每个区域的类别，最终获得一幅具有像素语义标注的图像。现有的图像语义分割网络，例如，FCN、CRF-RNN等，在分割区域边缘处的训练识别效果比较差，语义分割准确率低。

发明内容

本发明实施例的目的在于提供一种语义分割网络训练方法、图像语义分割方法及装置，用以提升图像语义分割的准确率。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种语义分割网络训练方法，所述方法包括：获取待训练图像；将所述待训练图像输入预先建立的语义分割网络，利用所述语义分割网络的前部网络层对所述待训练图像进行特征提取，得到包含所述待训练图像的区块、整体和边缘特征的特征图；将包含所述待训练图像的区块、整体和边缘特征的特征图输入所述语义分割网络的后部网络层进行图像像素分类，得到包含分割像素类型的语义分割图；依据所述语义分割图对所述语义分割网络进行参数更新。

第二方面，本发明实施例提供了一种图像语义分割方法，所述方法包括：获取待分割的原始图像；将所述原始图像输入利用上述的语义分割模型训练方法训练得到的语义分割网络，得到所述原始图像的语义分割结果。

第三方面，本发明实施例提供了一种语义分割网络训练装置，所述装置包括待训练图像获取模块、特征提取模块、像素分类模块及参数更新模块。其中，待训练图像获取模块用于获取待训练图像；特征提取模块用于将所述待训练图像输入预先建立的语义分割网络，利用所述语义分割网络的前部网络层对所述待训练图像进行特征提取，得到包含所述待训练图像的区块、整体和边缘特征的特征图；像素分类模块用于将包含所述待训练图像的区块、整体和边缘特征的特征图输入所述语义分割网络的后部网络层进行图像像素分类，得到包含分割像素类型的语义分割图；参数更新模块用于依据所述语义分割图对所述语义分割网络进行参数更新。

第四方面，本发明实施例提供了一种图像语义分割装置，所述装置包括原始图像获取模块和语义分割结果获得模块，其中，原始图像获取模块用于获取待分割的原始图像；语义分割结果获得模块用于将所述原始图像输入利用上述的语义分割模型训练方法训练得到的语义分割网络，得到所述原始图像的语义分割结果。

相对现有技术，本发明实施例提供的一种语义分割网络训练方法、图像语义分割方法及装置，首先，将待训练图像输入预先建立的语义分割网络，并利用语义分割网络的前部网络层对待训练图像进行特征提取，得到包含待训练图像的边缘特征的特征图；然后，将包含所述待训练图像的区块、整体和边缘特征的特征图输入语义分割网络的后部网络层进行图像像素分类，得到包含分割像素类型的语义分割图；最后，依据语义分割图对语义分割网络进行参数更新。与现有技术相比，本发明实施例对待训练图像的边缘特征单独进行了提取及还原，提高了分割区域边缘处的训练识别效果。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的电子设备的方框示意图。

图2示出了本发明第一实施例提供的语义分割网络训练方法流程图。

图3为图2示出的步骤S102的子步骤流程图。

图4为图3示出的子步骤S1022的一子步骤流程图。

图5为图3示出的子步骤S1022的又一子步骤流程图。

图6为图2示出的步骤S103的子步骤流程图。

图7示出了本发明第二实施例提供的图像语义分割方法流程图。

图8示出了本发明第三实施例提供的语义分割网络训练装置的方框示意图。

图9示出了本发明第四实施例提供的图像语义分割装置的方框示意图。

图标：100-电子设备；101-存储器；102-存储控制器；103-处理器；200-语义分割网络训练装置；201-待训练图像获取模块；202-特征提取模块；203-像素分类模块；204-参数更新模块；300-图像语义分割装置；301-原始图像获取模块；302-语义分割结果获得模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1示出了本发明实施例提供的电子设备100的方框示意图。电子设备100可以是，但不限于平板电脑、便携计算机、笔记本电脑、台式机等等。所述电子设备100包括语义分割网络训练装置200、图像语义分割装置300、存储器101、存储控制器102和处理器103。

所述存储器101、存储控制器102和处理器103各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述语义分割网络训练装置200、图像语义分割装置300均包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述电子设备100的操作系统(operating system，OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块，例如所述语义分割网络训练装置200、图像语义分割装置300包括的软件功能模块或计算机程序。

其中，存储器101可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器101用于存储程序，所述处理器103在接收到执行指令后，执行所述程序。

处理器103可以是一种集成电路芯片，具有信号处理能力。上述的处理器103可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)、语音处理器以及视频处理器等；还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。

第一实施例

请参照图2，图2示出了本发明第一实施例提供的语义分割网络训练方法流程图。语义分割网络训练方法包括以下步骤：

步骤S101，获取待训练图像。

在本发明实施例中，待训练图像可以是用户通过网络下载的图片、或者是利用相机等拍摄装置拍摄的图片。待训练图像中包括多个不同大小的物体，例如，人、天空、车辆、动物、树木等等。

在本发明实施例中，获取到待训练图像的同时，还需要获取待训练图像的原始标签图，该原始标签图是预先提供的信息，其包括物体类别信息，也就是说，原始标签图标注有待训练图像中每个像素点所属的物体类别，例如，假如待训练图像中包含人和飞机，传统的像素标注信息需要标注出该训练图像中的每个像素点是否属于人或飞机。

步骤S102，将待训练图像输入预先建立的语义分割网络，利用语义分割网络的前部网络层对待训练图像进行特征提取，得到包含待训练图像的区块、整体和边缘特征的特征图。

在本发明实施例中，获取到待训练图像之后，开始训练过程，先将待训练图像输入预先建立的语义分割网络，利用语义分割网络的前部网络层对待训练图像进行特征提取，前部网络层包括传统特征提取子网络和掩膜卷积特征提取子网络。首先，将待训练图像输入传统特征提取子网络，得到预提取特征图，预提取特征图中包含待训练图像的区块特征和整体特征，区块特征可以是识别出来的形状类似于某个主体的拓扑结构，例如，形状类似于人、天空、车辆、动物、树木等主体的单个拓扑结构，均为区块特征，整体特征可以是识别出来的包括所有区块的逻辑结构，例如，包括人、天空、车辆、动物、树木等所有区块的逻辑结构，如天空一定在地面上、车辆一定在地面上行驶、人一定在地面上行走等；然后，利用掩膜卷积特征提取子网络对预提取特征图进行掩膜卷积运算，提取出待训练图像的边缘特征，再将预提取特征图和待训练图像的边缘特征进行加权叠加，得到包含待训练图像的区块、整体和边缘特征的特征图。

在本发明实施例中，现有技术中，前部网络层只包括传统特征提取子网络，待训练图像输入该前部网络层之后，由于池化层的作用，待训练图像会发生尺度下降，特征提取过程中，尺度下降对待训练图像的区块特征和整体特征的影响比较小，但是会使边缘特征大量损失。因此，为了弥补池化层造成的边缘特征损失，在传统特征提取子网络的基础上设置掩膜卷积特征提取子网络来提取待训练图像的边缘特征，增强特征提取的效果。

请参照图3，步骤S102可以包括以下子步骤：

子步骤S1021，将待训练图像输入传统特征提取子网络，得到包含待训练图像的区块和整体特征的预提取特征图。

在本发明实施例中，传统特征提取子网络可以包括多个卷积层及与每个卷积层对应的多个池化层，预提取特征图的尺寸大小与传统特征提取子网络的池化层数量有关，也就是说，预提取特征图的尺寸为待训练图像的其中，n为池化层数量，例如，如果传统特征提取子网络包括3个卷积层和3个池化层，则预提取特征图的尺寸为待训练图像的

将待训练图像输入传统特征提取子网络得到包含待训练图像的区块和整体特征的预提取特征图的方法为现有技术，在此不再赘述。

子步骤S1022，利用掩膜卷积特征提取子网络对预提取特征图进行掩膜卷积运算，提取出待训练图像的边缘特征。

在本发明实施例中，传统特征提取子网络对待训练图像进行特征提取，得到包含待训练图像的区块特征和整体特征的预提取特征图之后，利用掩膜卷积特征提取子网络对包含待训练图像的区块特征和整体特征的预提取特征图进行掩膜卷积运算，提取出待训练图像的边缘特征，掩膜卷积特征提取子网络包括卷积层、Argmax层、上采样层、掩膜卷积层。

作为一种实施方式，掩膜卷积特征提取子网络的处理过程可以是：首先，将包含待训练图像的区块和整体特征的预提取特征图依次输入卷积层和Argmax层，生成预提取识别图，预提取识别图是依据预提取特征图标注出的物体类别图，也就是说，预提取识别图标注有预提取特征图中每个像素点所属的物体类别；然后，利用传统特征提取子网络中的池化层对预提取特征图进行尺度下降处理后得到的下采样后特征图，再将下采样后特征图依次输入卷积层、Argmax层和上采样层生成下采样后识别图，下采样后识别图是对经卷积层和Argmax层处理后标注出的物体类别图进行上采样得到的，也就是说，下采样后识别图标注有下采样后特征图中每个像素点所述的物体类别；最后，将预提取识别图和下采样后识别图均输入掩膜卷积层，掩膜卷积层对预提取识别图和下采样后识别图进行布尔运算生成边缘掩膜，并对边缘掩膜进行卷积运算，提取出待训练图像的边缘特征。

作为另一种实施方式，掩膜卷积特征提取子网络的处理过程：首先，获取待训练图像的原始标签图，并对该原始标签图进行多次下采样，得到与预提取特征图尺寸一致的下采样后标签图；然后，利用传统特征提取子网络中的池化层对预提取特征图进行尺度下降处理后得到的下采样后特征图，再将下采样后特征图依次输入卷积层、Argmax层和上采样层生成下采样后识别图，下采样后识别图是对经卷积层和Argmax层处理后标注出的物体类别图进行上采样得到的，也就是说，下采样后识别图标注有下采样后特征图中每个像素点所述的物体类别；最后，将下采样后标签图和下采样后识别图均输入掩膜卷积层，掩膜卷积层对下采样后标签图和下采样后识别图进行布尔运算生成边缘掩膜，并对边缘掩膜进行卷积运算，提取出待训练图像的边缘特征。

请参照图4，作为一种实施方式，子步骤S1022可以包括以下子步骤：

子步骤S10221，依据预提取特征图，利用卷积层和Argmax层生成预提取识别图。

在本发明实施例中，预提取识别图是依据预提取特征图标注出的物体类别图，也就是说，预提取识别图标注有预提取特征图中每个像素点所属的物体类别。预提取识别图与预提取特征图的尺寸一致，例如，如果预提取特征图的尺寸为待训练图像的则预提取识别图的尺寸也为待训练图像的利用卷积层和Argmax层生成预提取特征图的方法为现有技术，在此不再赘述。

子步骤S10222，获取下采样后特征图，其中，下采样后特征图是利用传统特征提取子网络中的池化层对预提取特征图进行尺度下降处理得到的。

在本发明实施例中，下采样后特征图的尺寸为预提取特征图的一半，也就是说，如果预提取特征图的尺寸为待训练图像的则下采样后特征图的尺寸为待训练图像的

子步骤S10223，依据下采样后特征图，利用卷积层、Argmax层和上采样层生成下采样后识别图。

在本发明实施例中，得到下采样后特征图之后，对下采样后特征图进行卷积和Argmax运算标注出下采样后特征图的物体类别图，再对该物体类别图进行上采样得到下采样后识别图，也就是说，下采样后识别图标注有下采样后特征图中每个像素点所述的物体类别，下采样后识别图的尺寸为下采样后特征图的2倍，即下采样后识别图的尺寸与预提取识别图的尺寸一致，也就是说，如果下采样后特征图的尺寸为待训练图像的则下采样后识别图的尺寸为待训练图像的

子步骤S10224，将预提取识别图和下采样后识别图均输入掩膜卷积层生成边缘掩膜，并对边缘掩膜进行卷积运算，提取出待训练图像的边缘特征。

在本发明实施例中，边缘掩膜是掩膜卷积层对预提取识别图和下采样后识别图进行布尔运算得到的，布尔运算是数字符号化的逻辑推演法，包括联合、相交、相减，边缘掩膜反映的是预提取识别图与下采样后识别图之间的边缘差异。

作为另一种实施方式，请参照图5，子步骤S1022还可以包括以下子步骤：

子步骤S10221，获取待训练图像的原始标签图。

在本发明实施例中，原始标签图是预先提供的信息，其包括物体类别信息，也就是说，原始标签图标注有待训练图像中每个像素点所属的物体类别，例如，假如待训练图像中包含人和飞机，传统的像素标注信息需要标注出该训练图像中的每个像素点是否属于人或飞机。

子步骤S10222，对原始标签图进行多次下采样，得到与预提取特征图尺寸一致的下采样后标签图。

在本发明实施例中，对原始标签图进行多次下采样的次数与传统特征提取子网络中池化层的数量一致，例如，如果传统特征提取子网络包括3个池化层，则对原始标签图进行3次下采样，以使下采样后标签图与预提取特征图的尺寸一致。

子步骤S10223，获取下采样后特征图，其中，下采样后特征图是利用传统特征提取子网络中的池化层对预提取特征图进行尺度下降处理得到的。

子步骤S10224，依据下采样后特征图，利用上采样层、卷积层和Argmax层生成下采样后识别图。

子步骤S10225，将下采样后标签图和下采样后识别图均输入掩膜卷积层生成边缘掩膜，并对边缘掩膜进行卷积运算，提取出待训练图像的边缘特征。

在本发明实施例中，边缘掩膜是掩膜卷积层对下采样后标签图和下采样后识别图进行布尔运算得到的，布尔运算是数字符号化的逻辑推演法，包括联合、相交、相减，边缘掩膜反映的是下采样后标签图和下采样后识别图之间的边缘差异，由于下采样后标签图包含更丰富的边缘信息，因此依据下采样后标签图和下采样后识别图生成边缘掩膜，可以弥补池化层尺度下降操作造成的边缘损失。

子步骤S1023，将预提取特征图和待训练图像的边缘特征进行加权叠加，得到包含待训练图像的区块、整体和边缘特征的特征图。

在本发明实施例中，利用传统特征提取子网络提取出包含待训练图像区块特征和整体特征的预提取特征图、以及利用掩膜卷积特征提取子网络提取出待训练图像的边缘特征之后，将预提取特征图和待训练图像的边缘特征进行加权叠加，就能得到包含待训练图像的区块、整体和边缘特征的特征图。

步骤S103，将包含待训练图像的区块、整体和边缘特征的特征图输入语义分割网络的后部网络层进行图像像素分类，得到包含分割像素类型的语义分割图。

在本发明实施例中，得到包含待训练图像的区块、整体和边缘特征的特征图之后，将该特征图输入语义分割网络的后部网络层，利用后部网络层进行图像像素分类，后部网络层包括第一图像还原子网络和第二图像还原子网络。首先，将包含待训练图像的区块、整体和边缘特征的特征图输入第一图像还原子网络进行像素分类，得到网络隐藏层输出；然后，利用第二图像还原子网络对网络隐藏层输出进行金字塔掩膜卷积运算以恢复网络隐藏层输出的边缘损失，直至恢复边缘损失后的网络隐藏层输出与待训练图像的尺寸一致，得到语义分割图，图像还原的具体过程请参照子步骤S1031～子步骤S1032。

请参照图6，步骤S103可以包括以下子步骤：

子步骤S1031，将包含待训练图像的区块、整体和边缘特征的特征图输入第一图像还原子网络进行像素分类，得到网络隐藏层输出。

在本发明实施例中，第一图像还原子网络包括多个空洞卷积层，采用该多个空洞卷积层进行像素分类得到网络隐藏层输出的方法为现有技术，在此不再赘述。

子步骤S1032，利用第二图像还原子网络对网络隐藏层输出进行金字塔掩膜卷积运算以恢复网络隐藏层输出的边缘损失，直至恢复边缘损失后的网络隐藏层输出与待训练图像的尺寸一致，得到语义分割图。

在本发明实施例中，第二图像还原子网络包括上采样层和掩膜卷积层，利用第二图像还原子网络得到语义分割图的过程包括边缘损失恢复子步骤和迭代子步骤，边缘损失恢复子步骤可以包括：

首先，对网络隐藏层输出进行Argmax运算，得到网络输出标签图，网络输出标签图是依据网络隐藏层输出标注出的物体类别图，也就是说，网络输出标签图标注有网络隐藏层输出中每个像素点所述的物体类别；

然后，对待训练图像的原始标签图进行预设次数下采样，以使下采样后的原始标签图与网络输出标签图的尺寸一致，下采样的预设次数按照网络输出标签图的尺寸进行设置，如果网络输出标签图的尺寸是待训练图像的则下采样的预设次数为n，例如，网络输出标签图的尺寸是待训练图像的则对待训练图像的原始标签图进行3次下采样，即下采样后的原始标签图的尺寸是待训练图像的

接下来，将网络输出标签图和下采样后的原始标签图均输入掩膜卷积层生成边缘掩膜，并对边缘掩膜进行卷积运算，得到掩膜特征图，边缘掩膜是掩膜卷积层对网络输出标签图和下采样后的原始标签图进行布尔运算得到的，边缘掩膜反映的是网络输出标签图和下采样后的原始标签图之间的边缘差异，由于下采样后的原始标签图包含更丰富的边缘信息，因此依据网络输出标签图和下采样后的原始标签图生成边缘掩膜，可以对前部网络层中由于池化层尺度下降操作导致的边缘损失进行恢复。掩膜特征图是由掩膜卷积核在边缘掩膜区域进行卷积运算获得的，此处的卷积运算具有上采样的作用，故掩膜特征图的与上采样后的网络输出标签图的尺寸一致，例如，掩膜特征图的尺寸可以是待训练图像的

再利用上采样层对网络输出标签图进行上采样，并将掩膜特征图和上采样后的网络输出标签图进行加权叠加，得到尺度增加特征量，尺度增加特征量的尺寸为网络输出标签图的2倍，例如，如果网络输出标签图的尺寸是待训练图像的则尺度增加特征量的尺寸为待训练图像的

迭代子步骤可以包括：以网络隐藏层输出的尺度增加特征量替代边缘损失恢复子步骤中的网络隐藏层并执行边缘损失恢复子步骤以恢复网络隐藏层输出的边缘损失，直至恢复边缘损失后的网络隐藏层输出与待训练图像的尺寸一致，得到语义分割图。例如，如果第一图像还原子网络输出的是尺寸为待训练图像的的网络输出标签图，那么，首先，将尺寸为待训练图像的的网络输出标签图作为输入，执行边缘损失恢复子步骤恢复网络隐藏层输出的边缘损失，得到尺寸为待训练图像的的尺度增加特征量；然后，以尺寸为待训练图像的的尺度增加特征量为输入，执行边缘损失恢复子步骤进一步恢复网络隐藏层输出的边缘损失，得到尺寸为待训练图像的的尺度增加特征量；接下来，以尺寸为待训练图像的的尺度增加特征量为输入，执行边缘损失恢复子步骤进一步恢复网络隐藏层输出的边缘损失，并得到尺寸与待训练图像一致的尺度增加特征量，该尺寸与待训练图像一致的尺度增加特征量即为语义分割图。

另外，第二图像还原子网络还包括LOSS评价层，在掩膜卷积层生成语义分割图的同时，LOSS评价层可以利用网络输出标签图和下采样后的原始标签图生成LOSS评价结果。例如，如果第一图像还原子网络输出的是尺寸为待训练图像的的网络输出标签图，那么，LOSS评价层首先利用尺寸为待训练图像的的网络输出标签图和下采样后的原始标签图，生成LOSS评价函数1；然后，利用尺寸为待训练图像的的网络输出标签图和下采样后的原始标签图，生成LOSS评价函数2；第三，利用尺寸为待训练图像的的网络输出标签图和下采样后的原始标签图，生成LOSS评价函数3；第四，利用尺寸为待训练图像一致的网络输出标签图和下采样后的原始标签图，生成LOSS评价函数4。LOSS评价结果包括LOSS评价函数1、LOSS评价函数2、LOSS评价函数3和LOSS评价函数4。

步骤S104，依据语义分割图对语义分割网络进行参数更新。

在本发明实施例中，得到语义分割图之后，依据后部网络层输出的LOSS评价结果对语义分割网络进行参数更新。步骤S101～步骤S104为语义分割网络的训练步骤，迭代执行步骤S101～步骤S104直至语义分割网络的训练结果满足预设迭代条件，预设迭代条件可以是迭代次数达到预定迭代次数(例如，20000次)、以及LOSS评价结果的损失率低于预定值(例如，0.1)，当满足该预设迭代条件时，迭代过程结束，得到训练好的语义分割网络。

与现有技术相比，本发明实施例具有以下有益效果：

首先，利用掩膜卷积特征提取子网络与传统特征提取子网络的组合对待训练图像进行特征提取，弥补池化层尺度下降操作造成的边缘特征损失，增强特征提取的效果；

其次，利用金字塔掩膜卷积运算恢复网络隐藏层输出的边缘损失，提高了语义分割图分割区域边缘处的训练识别效果；

最后，利用第二图像还原子网络实现语义分割网络的多尺度训练，提高了语义分割网络对于图像的语义分割效果。

第二实施例

请参照图7，图7示出了本发明第二实施例提供的图像语义分割方法流程图。图像语义分割方法包括以下步骤：

步骤S201，获取待分割的原始图像。

在本发明实施例中，待分割的原始图像可以是需要进行图像语义分割的图像，其可以是利用相机等拍摄装置拍摄得到的照片。

步骤S202，将原始图像输入利用第一实施例的语义分割模型训练方法训练得到的语义分割网络，得到原始图像的语义分割结果。

在本发明实施例中，原始图像的语义分割结果包括原始图像中每个像素点所属的物体类别。

第三实施例

请参照图8，图8示出了本发明第三实施例提供的语义分割网络训练装置200的方框示意图。语义分割网络训练装置200包括待训练图像获取模块201、特征提取模块202、像素分类模块203、和参数更新模块204。

待训练图像获取模块201，用于获取待训练图像。

特征提取模块202，用于将待训练图像输入预先建立的语义分割网络，利用语义分割网络的前部网络层对待训练图像进行特征提取，得到包含待训练图像的区块、整体和边缘特征的特征图。

在本发明实施例中，特征提取模块202具体用于，将待训练图像输入传统特征提取子网络，得到包含待训练图像的区块和整体特征的预提取特征图；利用掩膜卷积特征提取子网络对预提取特征图进行掩膜卷积运算，提取出待训练图像的边缘特征；将预提取特征图和待训练图像的边缘特征进行加权叠加，得到包含待训练图像的区块、整体和边缘特征的特征图。

像素分类模块203，用于将包含待训练图像的区块、整体和边缘特征的特征图输入语义分割网络的后部网络层进行图像像素分类，得到包含分割像素类型的语义分割图。

在本发明实施例中，像素分类模块203具体用于，将包含待训练图像的区块、整体和边缘特征的特征图输入第一图像还原子网络进行像素分类，得到网络隐藏层输出；利用第二图像还原子网络对网络隐藏层输出进行金字塔掩膜卷积运算以恢复网络隐藏层输出的边缘损失，直至恢复边缘损失后的网络隐藏层输出与待训练图像的尺寸一致，得到语义分割图。

参数更新模块204，用于依据语义分割图对语义分割网络进行参数更新。

第四实施例

请参照图9，图9示出了本发明第四实施例提供的图像语义分割装置300的方框示意图。图像语义分割装置300包括原始图像获取模块301和语义分割结果获得模块302。

原始图像获取模块301，用于获取待分割的原始图像。

语义分割结果获得模块302，用于将原始图像输入利用第一实施例的语义分割模型训练方法训练得到的语义分割网络，得到原始图像的语义分割结果。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器103执行时实现本发明第一实施例揭示的语义分割网络训练方法和第二实施例揭示的图像语义分割方法。

综上所述，本发明实施例提供的一种语义分割网络训练方法、图像语义分割方法及装置，所述语义分割网络训练方法包括：获取待训练图像；将待训练图像输入预先建立的语义分割网络，利用语义分割网络的前部网络层对待训练图像进行特征提取，得到包含待训练图像的区块、整体和边缘特征的特征图；将包含待训练图像的区块、整体和边缘特征的特征图输入语义分割网络的后部网络层进行图像像素分类，得到包含分割像素类型的语义分割图；依据语义分割图对语义分割网络进行参数更新。所述图像语义分割方法包括：获取待分割的原始图像；将原始图像输入利用上述的语义分割模型训练方法训练得到的语义分割网络，得到原始图像的语义分割结果。与现有技术相比，本发明实施例对待训练图像的边缘特征单独进行了提取及还原，提高了分割区域边缘处的训练识别效果。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种语义分割网络训练方法，其特征在于，所述方法包括：

获取待训练图像；

将所述待训练图像输入预先建立的语义分割网络，利用所述语义分割网络的前部网络层对所述待训练图像进行特征提取，得到包含所述待训练图像的区块、整体和边缘特征的特征图；

将包含所述待训练图像的区块、整体和边缘特征的特征图输入所述语义分割网络的后部网络层进行图像像素分类，得到包含分割像素类型的语义分割图；

依据所述语义分割图对所述语义分割网络进行参数更新。

2.如权利要求1所述的方法，其特征在于，所述前部网络层包括传统特征提取子网络和掩膜卷积特征提取子网络；

利用所述语义分割网络的前部网络层对所述待训练图像进行特征提取，得到包含待训练图像的区块、整体和边缘特征的特征图的步骤，包括：

将所述待训练图像输入传统特征提取子网络，得到包含待训练图像的区块特征和整体特征的预提取特征图；

利用所述掩膜卷积特征提取子网络对所述预提取特征图进行掩膜卷积运算，提取出所述待训练图像的边缘特征；

将所述预提取特征图和所述待训练图像的边缘特征进行加权叠加，得到包含待训练图像的区块、整体和边缘特征的特征图。

3.如权利要求2所述的方法，其特征在于，所述传统特征提取子网络包括多个卷积层及与每个卷积层对应的多个池化层。

4.如权利要求3所述的方法，其特征在于，所述掩膜卷积特征提取子网络包括卷积层、Argmax层、上采样层、掩膜卷积层；

所述利用所述掩膜卷积特征提取子网络对所述预提取特征图进行掩膜卷积运算，提取出所述待训练图像的边缘特征的步骤，包括：

依据所述预提取特征图，利用卷积层和Argmax层生成预提取识别图；

获取下采样后特征图，其中，所述下采样后特征图是利用所述传统特征提取子网络中的池化层对所述预提取特征图进行尺度下降处理得到的；

依据所述下采样后特征图，利用上采样层、卷积层和Argmax层生成下采样后识别图；

将所述预提取识别图和所述下采样后识别图均输入所述掩膜卷积层生成边缘掩膜，并对所述边缘掩膜进行卷积运算，提取出所述待训练图像的边缘特征。

5.如权利要求3所述的方法，其特征在于，所述掩膜卷积特征提取子网络包括卷积层、Argmax层、上采样层、掩膜卷积层；

获取所述待训练图像的原始标签图；

对所述原始标签图进行多次下采样，得到与所述预提取特征图尺寸一致的下采样后标签图；

将所述下采样后标签图和所述下采样后识别图均输入所述掩膜卷积层生成边缘掩膜，并对所述边缘掩膜进行卷积运算，提取出所述待训练图像的边缘特征。

6.如权利要求1所述的方法，其特征在于，所述后部网络层包括第一图像还原子网络和第二图像还原子网络；

将包含所述待训练图像的区块、整体和边缘特征的特征图输入所述语义分割网络的后部网络层进行像素分类，得到包含分割像素类型的语义分割图的步骤，包括：

将包含所述待训练图像的区块、整体和边缘特征的特征图输入所述第一图像还原子网络进行像素分类，得到网络隐藏层输出；

利用所述第二图像还原子网络对所述网络隐藏层输出进行金字塔掩膜卷积运算以恢复所述网络隐藏层输出的边缘损失，直至恢复边缘损失后的网络隐藏层输出与所述待训练图像的尺寸一致，得到语义分割图。

7.如权利要求6所述的方法，其特征在于，所述第二图像还原子网络包括上采样层和掩膜卷积层；

利用所述第二图像还原子网络对所述网络隐藏层输出进行金字塔掩膜卷积运算以恢复所述网络隐藏层输出的边缘损失，直至恢复边缘损失后的网络隐藏层输出与所述待训练图像的尺寸一致，得到语义分割图的步骤，包括边缘损失恢复子步骤和迭代子步骤；其中，

所述边缘损失恢复子步骤包括：

对所述网络隐藏层输出进行Argmax运算，得到网络输出标签图；

对所述待训练图像的原始标签图进行预设次数下采样，以使下采样后的原始标签图与所述网络输出标签图的尺寸一致；

将所述网络输出标签图和下采样后的原始标签图均输入所述掩膜卷积层生成边缘掩膜，并对所述边缘掩膜进行卷积运算，得到掩膜特征图；

利用所述上采样层对所述网络输出标签图进行上采样，并将所述掩膜特征图和上采样后的所述网络输出标签图进行加权叠加，得到尺度增加特征量；

所述迭代子步骤包括：

以所述网络隐藏层输出的尺度增加特征量替代所述边缘损失恢复子步骤中的网络隐藏层并执行所述边缘损失恢复子步骤以恢复所述网络隐藏层输出的边缘损失，直至恢复边缘损失后的网络隐藏层输出与所述待训练图像的尺寸一致，得到语义分割图。

8.一种图像语义分割方法，其特征在于，所述方法包括：

获取待分割的原始图像；

将所述原始图像输入利用权利要求1-7任一项所述的语义分割模型训练方法训练得到的语义分割网络，得到所述原始图像的语义分割结果。

9.一种语义分割网络训练装置，其特征在于，所述装置包括：

待训练图像获取模块，用于获取待训练图像；

特征提取模块，用于将所述待训练图像输入预先建立的语义分割网络，利用所述语义分割网络的前部网络层对所述待训练图像进行特征提取，得到包含所述待训练图像的区块、整体和边缘特征的特征图；

像素分类模块，用于将包含所述待训练图像的区块、整体和边缘特征的特征图输入所述语义分割网络的后部网络层进行图像像素分类，得到包含分割像素类型的语义分割图；

参数更新模块，用于依据所述语义分割图对所述语义分割网络进行参数更新。

10.一种图像语义分割装置，其特征在于，所述装置包括：

原始图像获取模块，用于获取待分割的原始图像；

语义分割结果获得模块，用于将所述原始图像输入利用权利要求1-7任一项所述的语义分割模型训练方法训练得到的语义分割网络，得到所述原始图像的语义分割结果。