CN109389078A

CN109389078A - 图像分割方法、相应的装置及电子设备

Info

Publication number: CN109389078A
Application number: CN201811156790.7A
Authority: CN
Inventors: 陈冠男; 张丽杰
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-02-26
Anticipated expiration: 2038-09-30
Also published as: US11113816B2; CN109389078B; WO2020063426A1; US20200334819A1

Abstract

本申请提供一种图像分割方法、相应的装置及电子设备。该方法包括：在输入图像中提取N个尺度的图像语义特征，N为不小于3的整数；依据预定的级联关系，通过N‑1个级联的密集提炼网络对N个尺度的图像语义特征按照尺度从小到大的顺序依次进行特征处理，以得到输入图像中预定场景区域的二值化掩膜图像。与现有技术中采用复杂的网络结果来进行图像分割相比，本申请采用高效的密集提炼网络多级级联来对输入图像中提取的多个尺度的图像语义特征进行特征处理，可以有效提高网络的整体运算速度。

Description

图像分割方法、相应的装置及电子设备

技术领域

本申请涉及数字图像处理技术领域，具体而言，本申请涉及一种图像分割方法、相应的装置及电子设备。

背景技术

目标识别是在数字图像处理中应用非常广泛的技术，其要求根据指定目标的特征，在复杂的图像内容中，将指定目标识别分割出来。该技术在很多领域中都起着举足轻重的作用，诸如军事、交通、商业、医疗等。而随着深度学习的兴起，目标识别算法也突破了传统算法的瓶颈，有了长足的发展。

对特殊场景的识别分割是目标识别的一种特定应用，其目的是准确识别特殊场景区域，并将其与其他目标进行区分。例如天空场景区域的分割，在无人机视觉、气象监测、娱乐APP等方面均有一定的应用。目前天空场景区域的分割主要基于梯度统计等技术，在天空特征不够明显的情况下(如浓雾，暗夜等)，会有较大几率产生误分割。类似的，对于特殊场景区域，为了达到理想的分割效果，普遍会采用较复杂网络结构进行识别分割，严重影响目标识别的运算效率。

发明内容

本申请提供了一种图像分割方法、相应的装置及电子设备，用于解决图像分割的运算效率低的问题。

第一方面，提供了一种图像分割方法，包括：

在输入图像中提取N个尺度的图像语义特征，N为不小于3的整数；

依据预定的级联关系，通过N-1个级联的密集提炼网络对N个尺度的图像语义特征按照尺度从小到大的顺序依次进行特征处理，以得到输入图像中预定场景区域的二值化掩膜图像；

其中，预定的级联关系为：输入第n个密集提炼网络的两个相邻尺度的语义特征包括第n个尺度的低频语义特征和第n+1个尺度的图像语义特征，第n个尺度的低频语义特征是由第n-1个密集提炼网络输出的，2≤n≤N-1；

输入第1个密集提炼网络的两个相邻尺度的语义特征包括第1个尺度的图像语义特征和第2个尺度的图像语义特征。

第二方面，一种图像分割装置，包括：

提取模块，被配置为在输入图像中提取N个尺度的图像语义特征，N为不小于3的整数；

特征处理模块，被配置为依据预定的级联关系，通过N-1个级联的密集提炼网络对N个尺度的图像语义特征按照尺度从小到大的顺序依次进行特征处理，以得到输入图像中预定场景区域的二值化掩膜图像；

第三方面，提供了一种电子设备，该电子设备包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如第一方面所示的图像分割方法对应的操作。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现第一方面所示的图像分割方法。

本申请实施例提供了一种图像分割方法、相应的装置及电子设备，与现有技术中采用复杂的网络结果来进行图像分割相比，本申请采用高效的密集提炼网络多级级联来对输入图像中提取的多个尺度的图像语义特征进行特征处理，可以有效提高网络的整体运算速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种图像分割方法的流程示意图；

图2为本申请实施例提供的执行图像分割方法的流程示意图；

图3为本申请实施例提供的执行密集提炼网络的流程示意图；

图4为本申请实施例提供的执行密集卷积单元的流程示意图；

图5为本申请实施例提供的执行链式密集池化单元的流程示意图；

图6为本申请实施例提供的一种图像分割装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面将结合附图，以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

本申请实施例提供了一种图像分割方法，如图1所示，该方法包括：

步骤S101、在输入图像中提取N个尺度的图像语义特征，N为不小于3的整数；

提取不同尺度的图像语义特征，是指基于不同的尺度对输入图像进行特征提取，所基于的尺度能够限定所提取的图像语义特征的尺度。例如，可以通过神经网络提取不同尺度的图像语义特征。

其中，基于较小的尺度提取的图像语义特征可以包含高分辨率的细节信息，而基于较大的尺度提取的图像语义特征可以包含用于分类的全局信息。因此，多尺度的结合能够对输入图像进行更准确的解析，提高目标识别的精度。本申请实施例中，基于不同尺度的图像语义特征的目标识别，对于出现遮挡(例如天空场景中的浓雾)、透视(例如天空场景中的暗夜)等情况而造成的输入图像中预定场景区域特征提取效果不理解想的问题，能够起到积极地抗干扰效果。

具体而言，N(N为不小于2的整数)个尺度可以包括输入图像的原始尺度以及1/2尺度、1/4尺度、1/8尺度、1/16尺度、1/32尺度等不同于输入图像原始尺度的各种尺度中的至少一个，或者可以包括1/2尺度、1/4尺度、1/8尺度、1/16尺度、1/32尺度等不同于输入图像的原始尺度的至少二个尺度。

可选地，各个尺度按照从小到大的顺序与下述密集提炼网络(Dense-RefineNet)相对应。

步骤S102、依据预定的级联关系，通过N-1个级联的密集提炼网络对N个尺度的图像语义特征按照尺度从小到大的顺序依次进行特征处理，以得到输入图像中预定场景区域的二值化掩膜图像；

其中，该级联关系为输入第n个密集提炼网络的两个相邻尺度的语义特征包括第n个尺度的低频语义特征和第n+1个尺度的图像语义特征，第n个尺度的低频语义特征是由第n-1个密集提炼网络输出的，2≤n≤N-1。

另外，输入第1个密集提炼网络的两个相邻尺度的语义特征包括第1个尺度的图像语义特征和第2个尺度的图像语义特征。

也就是说，每个密集提炼网络具有两个输入，即针对任一密集提炼网络，将两个相邻尺度的语义特征进行特征处理；两个相邻尺度是指按照从小到大顺序的各个尺度中相邻尺度大小的两个尺度。例如，提取的图像语义特征的N个尺度包括1/2尺度、1/4尺度、1/8尺度、1/16尺度时，两个相邻尺度可以为1/16尺度和1/8尺度，或者为1/8尺度和1/4尺度，或者为1/4尺度和1/2尺度。本领域技术人员应能理解这几种两个相邻尺度仅为示例，基于这些示例进行的适当变化也可适用于本发明，故也应包含在本发明保护范围以内。

本申请实施例中，各个尺度之间的关系可以为：第2个尺度为第1个尺度的2倍；第n+1个尺度为第n个尺度的2倍。

由上述介绍可知，针对第1个密集提炼网络，两个相邻尺度的语义特征为第1个尺度的图像语义特征和第2个尺度的图像语义特征；即第1个密集提炼网络的两个输入为各个尺度中最小两个尺度分别对应的图像语义特征。进一步地，第1个密集提炼网络输出的低频语义特征的尺度与上述第2个尺度相同。

针对第n个密集提炼网络的密集提炼网络，两个相邻尺度的语义特征为第n个尺度的低频语义特征和第n+1个尺度的图像语义特征，其中，图像语义特征是两个相邻尺度中较大尺度对应的语义特征，低频语义特征是两个相邻尺度中较小尺度对应的语义特征，为与当前密集提炼网络级联的前一个密集提炼网络输出的，其尺度与前一个密集提炼网络中输入的尺度较大的图像语义特征的尺度相同。也就是说，第n个密集提炼网络输出的低频语义特征的尺度与上述第n+1个尺度相同。

本申请实施例提供的图像分割方法，与现有技术中采用复杂的网络结果来进行图像分割相比，采用高效的密集提炼网络多级级联来对输入图像中提取的多个尺度的图像语义特征进行特征处理，可以有效提高网络的整体运算速度。

本申请实施例还提供一种可能的实现方式，其中，步骤S102包括：

通过第1个密集提炼网络对第1个尺度的图像语义特征和第2个尺度的图像语义特征进行特征处理，得到第1个密集提炼网络输出的低频语义特征，第1个密集提炼网络输出的低频语义特征的尺度与第2个尺度相同；

通过第n个密集提炼网络对第n-1个密集提炼网络输出的低频语义特征和第n+1个尺度的图像语义特征进行特征处理，得到第n个密集提炼网络输出的低频语义特征，第n个密集提炼网络输出的低频语义特征的尺度与第n+1个尺度相同。

作为示例地，如图2所示，图2中以N＝4为例，示出了依据预定的级联关系，通过3个级联的密集提炼网络对4个尺度的图像语义特征进行特征处理的过程，不同尺度的图像语义特征在密集提炼网络中经过三级级联合并。

具体而言，4个尺度分别为1/16尺度、1/8尺度、1/4尺度、1/2尺度，其中，1/16尺度和1/8尺度对应第1个密集提炼网络，1/8尺度和1/4尺度对应第2个密集提炼网络，1/4尺度和1/2尺度对应第3个密集提炼网络。

实际应用中，可以采用预设的特征提取网络对输入图像进行图像语义特征提取：将输入图像送入预设的特征提取网络，从中获得预定卷积层所输出的特征，例如第4、8、12和16卷积层所输出的特征，分别作为1/2尺度、1/4尺度、1/8尺度和1/16尺度的图像语义特征，传入3个级联的密集提炼网络进行特征处理。

其中，预设的特征提取网络预先经过训练，可以提取和识别预定场景区域的特征。例如，若用于分割天空场景区域，可以使用VGG-19网络作为特征提取网络来实现图像语义特征提取功能。该网络经过超大量的数据集训练，已学习到自然图像中绝大部分的特征信息，能够对输入图像中预定场景区域的特征进行较好的提取与识别。

本申请实施例中，可以在步骤S101中利用卷积神经网络VGG-19在输入图像中提取N个尺度的图像语义特征。例如提取1/2尺度、1/4尺度、1/8尺度和1/16尺度这4个尺度的图像语义特征，便可在步骤S102中通过图2所示的3个级联的密集提炼网络进行特征处理。

该示例中，通过第1个密集提炼网络对1/16尺度的图像语义特征和1/8尺度的图像语义特征进行特征处理，得到第2个密集提炼网络输出的1/8尺度的低频语义特征；

通过第2个密集提炼网络对1/8尺度的低频语义特征和1/4尺度的图像语义特征进行特征处理，得到第2个密集提炼网络输出的1/4尺度的低频语义特征；

通过第3个密集提炼网络对1/4尺度的低频语义特征和1/2尺度的图像语义特征进行特征处理，得到第3个密集提炼网络输出的1/2尺度的低频语义特征。

随后，将1/2尺度的低频语义特征通过尺度放大(2upscale)网络，得到输入图像中预定场景区域的二值化掩膜图像。二值化掩膜图像可以过滤掉输入图像中杂信区域的干扰，得到更为准确的图像分割结果。

本领域技术人员应能理解上述示例仅为举例，基于该示例可以较方便的推断出将上述图像分割方法应用于更为一般的情况，例如N为不小于3的任意整数，也应包含在本申请保护范围以内。

本申请实施例还提供一种密集提炼网络的可能的实现方式，如图3所示，密集提炼网络主要由密集卷积单元(Dense conv uint)、融合单元(Fusion)和链式密集池化单元(Chain dense pooling)构成。

具体而言，针对任一密集提炼网络，将两个相邻尺度的语义特征进行特征处理的过程包括步骤SA(图中未标注)、步骤SB(图中未标注)和步骤SC(图中未标注)，其中，

步骤SA、通过两个密集卷积单元分别对两个相邻尺度的语义特征进行卷积处理，得到两个相邻尺度的图像全局特征；

从上述介绍可以知道，若该密集提炼网络为第1个密集提炼网络，则两个尺度的语义特征为各个尺度中最小两个尺度分别对应的图像语义特征(其中，较小尺度的图像语义特征对应图3中小尺度层，较大尺度的图像语义特征对应图3中大尺度层)；若该密集提炼网络为第n个密集提炼网络，则两个尺度的语义特征为两个相邻尺度中较大尺度(第n+1个尺度)对应的图像语义特征(对应图3中大尺度层)，以及两个相邻尺度中较小尺度(第n个尺度)对应的低频语义特征(对应图3中小尺度层)。

本步骤中，密集卷积单元的主要作用是对输入的语义特征进行进一步特征提取，使得其输出含有充分的全局语义特征。因此，通过两个密集卷积单元分别对两个尺度的语义特征进行卷积处理，可以得到两个尺度的图像全局特征。其中，具体的卷积方式例如可以是残差卷积，本申请实施例对此不作限定。

步骤SB、将两个相邻尺度的图像全局特征进行特征融合，得到融合处理后的图像全局特征，融合处理后的图像全局特征的尺度与两个相邻尺度中的较大尺度相同；

本步骤可以通过密集提炼网络中融合单元进行处理。

具体而言，如图3的虚线框中的内容所示，对两个尺度中的较小尺度的图像全局特征进行上采样；再将上采样后的图像全局特征与两个尺度中的较大尺度的图像全局特征进行叠加，得到两个尺度中的较大尺度的图像全局特征。

实际应用中，可以使用反卷积等方式作为上采样的操作，本申请实施例对此不作限定。对两个尺度中的较小尺度的图像全局特征经过一个卷积操作(例如Conv 3×3)后进行上采样，可以将较小尺度的图像全局特征上采样至两个尺度中的较大尺度的图像全局特征对应的尺度。那么，便可将经过上采样后的图像全局特征与两个尺度中的较大尺度的图像全局特征经过一个卷积操作(例如Conv 3×3)后进行线型叠加。

作为示例地，若需要将1/8尺度的图像全局特征和1/4尺度的图像全局特征进行特征融合，就对1/8尺度的图像全局特征进行上采样，得到上采样后的1/4尺度的图像全局特征，将上采样后的1/4尺度的图像全局特征与用于特征融合的1/4尺度的图像全局特征进行线型叠加，得到融合处理后的1/4尺度的图像全局特征。

步骤SC、通过链式密集池化单元对融合处理后的图像全局特征进行池化处理，以根据池化处理结果得到较大尺度的低频语义特征。

本步骤中，链式密集池化单元的主要作用是通过池化过程获取图像全局特征中预定场景区域对应的低频语义特征，实际应用中，可以再经过一个卷积操作(例如Conv 3×3)，输出的便是密集提炼网络对应的两个尺度中较大尺度的低频语义特征。

对于本申请实施例，每个密集提炼网络通过密集卷积单元、融合单元和链式密集池化单元将两个相邻尺度的语义特征进行处理，得到较大尺度的低频语义特征，由于密集卷积单元和链式密集池化单元运算速度快，所以使得每个密集提炼网络的处理速度非常高效，在经过多个密集提炼网络多级级联来对多个尺度的图像语义特征进行特征处理时，可以有效提升网络的整体运算速度。

本申请实施例还提供一种密集卷积单元的可能的实现方式，其中，

任一密集卷积单元包括M层卷积子网络，M为不小于2的整数，每层卷积子网络可以包括激活函数层(ReLU)、卷积层(Conv 1x1)、(BN)、激活函数层(ReLU)、卷积层(Conv 3x3)、批量归一化层(BN)。各层卷积子网络之间存在着密集的连接关系，这样大量的特征可以得到复用，使得每个卷积层使用少量数目的卷积核就可以提取充分的特征信息，因此能够有效提升密集卷积单元的运算速度。实际应用中，本领域技术人员可以根据实际情况对每层卷积子网络的卷积核数目进行设置，例如为16或32等。

具体而言，通过一个密集卷积单元对一个尺度的语义特征进行卷积处理，得到一个尺度的图像全局特征的处理过程为：

将一个尺度的语义特征输入到第一层卷积子网络，输出第一结果并，将一个尺度的语义特征和第一结果进行合并，得到第一合并结果；

将第一合并结果输入到第二层卷积子网络，输出第二结果，并将一个尺度的语义特征、第一合并结果和第二结果进行合并，得到第二合并结果；

在各个卷积子网络中连续执行卷积处理，直至将第M-1合并结果输入到第M层卷积子网络，输出第M结果，并将一个尺度的语义特征、第一合并结果至第M-1合并结果和第M结果进行合并，得到第M合并结果；

根据第M合并结果得到一个尺度的图像全局特征。

具体地，可以再通过一个卷积子网络对第M合并结果进行卷积处理，得到一个尺度的图像全局特征。此时，密集卷积单元包括M+1层卷积子网络。

作为示例地，如图4所示，图4中以M＝4为例，示出了有4个卷积子网络构成的密集卷积单元对一个尺度的语义特征进行卷积处理，得到一个尺度的图像全局特征的过程。

该示例中，每一层卷积子网络的卷积核数据可以很小，使得密集卷积单元的输出信道数也很少，提升密集提炼网络的处理效率。可选地，该示例中每层卷积子网络的卷积核数目为32。

具体而言，如图4所示，将一个的语义特征输入到第一层卷积子网络，输出第一结果，并将一个尺度的语义特征和第一结果进行合并(Concat)，得到第一合并结果；

将得到的第一合并结果输入到第二层卷积子网络，输出第二结果；并将一个尺度的语义特征、第一合并结果和第二结果进行合并，得到第二合并结果；

将得到的第二合并结果输入到第三层卷积子网络，输出第三结果；并将一个尺度的语义特征、第一合并结果、第二合并结果和第三结果进行合并，得到第三合并结果；

将得到的第三合并结果输入到第四层卷积子网络，输出一个尺度的图像全局特征。

对于本申请实施例，密集卷积单元可以对输入的语义特征进行进一步特征提取，由于密集卷积单元中的每层卷积子网络是将上一层的输出结果与该层的卷积结果进行通道连结并降维，所以每层卷积子网络的输出均含有充分的全局语义特征，使得每个卷积层使用少量数目的卷积核就可以提取充分的特征信息，因此能够有效提升密集卷积单元的运算速度进而有效提升密集提炼网络的处理效率，进一步提升网络的整体运算速度。

本申请实施例还提供一种链式密集池化单元的可能的实现方式，其中，

链式密集池化单元包括W个池化网络和一个卷积子网络，W为不小于2的整数。本申请实施例中，每个池化网络包括一个池化层(pooling)、一个卷积层(conv)和一个批量归一化层(BN)。卷积子网络可以包括激活函数层(ReLU)、卷积层(Conv 1x1)、(BN)、激活函数层(ReLU)、卷积层(Conv 3x3)、批量归一化层(BN)。本领域技术人员可以根据实际情况对链式密集池化单元中卷积核数量进行设置，例如为32等。

具体而言，通过链式密集池化单元对融合处理后的图像全局特征进行池化处理的过程为：

将融合处理后的图像全局特征输入到第一个池化网络，输出第一低频语义特征，并将第一低频语义特征与融合处理后的图像全局特征进行合并，输出第一联结结果；

将第一低频语义特征输入到第二个池化网络，输出第二低频语义特征，并将第二低频语义特征与第一联结结果进行合并，输出第二联结结果；

在各个池化网络中连续执行池化处理，直至将第W-1低频语义特征输入到第W个池化网络，输出第W低频语义特征，并将第W低频语义特征与第W-1联结结果进行合并，输出第W个联结结果；

通过卷积子网络对第W个联结结果进行卷积处理，得到较大尺度的低频语义特征。

作为示例地，如图5所示，图5中以W＝2为例，示出了链式密集池化单元对融合处理后的图像全局特征进行池化处理的过程。

该示例中，将融合处理后的图像全局特征输入到第一个池化网络(对应图5的虚线框中的部分)，输出第一低频语义特征，并将第一低频语义特征与融合处理后的图像全局特征进行合并(Concat)，输出第一联结结果；

将第一低频语义特征输入到第二个池化网络，输出第二低频语义特征，并将第二低频语义特征与第一联结结果进行合并，得到第二联结结果；通过卷积子网络对第二联结结果进行卷积处理，得到较大尺度的低频语义特征。

对于本申请实施例，采用链式密集池化单元可以通过池化过程获取语义特征中的低频语义特征，并通过密集卷积的方式与输入的语义特征进行融合，进而获得全局的低频语义特征，有效提高对预定场景区域识别的准确性。且链式密集池化单元中的各个池化网络之间存在着密集的连接关系，这样大量的特征可以得到复用，使得每个池化网络使用少量数目的池化核及卷积核就可以实现低频语义特征的提取，因此能够有效提升链式密集池化单元的运算速度，进而有效提升密集提炼网络的处理效率，进一步提升网络的整体运算速度。

本申请实施例还提供了一种损失函数，应用于上述各实施例中执行图像分割方法的网络。具体而言，令网络对输入图像中特定场景区域分割的预测结果为I’,输入图像中特定场景区域分割的真实结果为I，则定义网络的损失函数为：

实际应用中，卷积神经网络VGG-19和N-1个级联的密集提炼网络包含于网络模型中，本申请实施例还提供了一种训练该网络模型的方式。

具体而言，在步骤S101之前，对网络模型进行训练。

进一步地，对网络模型进行训练的过程包括：

获取卷积神经网络VGG-19的网络参数及训练样本；

基于网络参数及训练样本，采用随机梯度下降法对网络模型进行训练。

实际应用中，本领域技术人员可以根据预定场景区域选取合适的训练样本，一般训练样本中会区分一定数量的场景，本申请实施例对训练样本的选取不作限定。

作为示例地，以预定场景区域为天空场景区域为例，对网络的训练过程包括如下内容：

可选地，在训练过程中，可以直接导入VGG-19的预训练参数，能够节省训练时间。

可选地，利用skyFinder数据集进行训练与测试，其中，skyFinder数据集有46个场景，8万余帧图片。

本领域技术人员可以根据实际情况设置训练集与测试集的数量，例如设置训练集与测试集的比例为9：1。

作为示例地，训练时，每次迭代过程会从每个场景随机抽取20帧图片进行训练，即每次迭代抽取900帧图片进行训练，训练100次迭代，会有90000帧次图像参与训练。而在参与训练的图像中，某些图像会被抽取多次，某些图像则不会被抽取。这样可以防止出现过拟合的情况。

可选地，本申请实施例还可以使用随机梯度下降法对网络进行训练，学习率设置为1e^-4。

本申请实施例采用的训练过程，结合上述各实施例的图像分割方法可以对输入图像中的天空场景区域有较好的识别精度。

本领域技术人员可以基于此进行的适当变化而应用于其他预定场景区域的识别，故也应包含在本申请保护范围以内。

本申请实施例还提供了一种图像分割装置，如图6所示，该图像分割装置60可以包括：提取模块601和特征处理模块602，其中，

提取模块601被配置为在输入图像中提取N个尺度的图像语义特征，N为不小于3的整数；

特征处理模块602被配置为依据预定的级联关系，通过N-1个级联的密集提炼网络对N个尺度的图像语义特征按照尺度从小到大的顺序依次进行特征处理，以得到输入图像中预定场景区域的二值化掩膜图像；

可选地，特征处理模块602具体被配置为：

通过第n个密集提炼网络对第n-1个密集提炼网络输出的低频语义特征和第n+1个尺度的图像语义特征进行特征处理，得到第n个密集提炼网络输出的低频语义特征，第n个密集提炼网络输出的低频语义特征的尺度与第n+1个尺度相同；

可选地，特征处理模块602包括密集卷积单元、融合单元和链式密集池化单元；

密集卷积单元被配置为通过两个密集卷积单元分别对两个相邻尺度的语义特征进行卷积处理，得到两个相邻尺度的图像全局特征；

融合单元被配置为将两个相邻尺度的图像全局特征进行特征融合，得到融合处理后的图像全局特征，融合处理后的图像全局特征的尺度与两个相邻尺度中的较大尺度相同；

链式密集池化单元被配置为通过链式密集池化单元对融合处理后的图像全局特征进行池化处理，以根据池化处理结果得到较大尺度的低频语义特征。

可选地，任一密集卷积单元包括M层卷积子网络，M为不小于2的整数，密集卷积单元具体被配置为：

根据第M合并结果得到一个尺度的图像全局特征。

可选地，链式密集池化单元包括W个池化网络和一个卷积子网络，W为不小于2的整数，池化网络包括池化层、卷积层和批量归一化层，链式密集池化单元具体被配置为：

可选地，融合单元具体被配置为：对两个相邻尺度中的较小尺度的图像全局特征进行上采样；将上采样后的图像全局特征与两个尺度中的较大尺度的图像全局特征进行叠加。

可选地，第2个尺度为第1个尺度的2倍；第n+1个尺度为第n个尺度的2倍。

可选地，提取模块601具体被配置为利用卷积神经网络VGG-19在输入图像中提取N个尺度的图像语义特征。

实际应用中，卷积神经网络VGG-19和N-1个级联的密集提炼网络包含于网络模型。

可选地，本申请实施例提供的图像分割装置60还包括训练模块。

训练模块被配置为获取卷积神经网络VGG-19的网络参数及训练样本；基于网络参数及训练样本，采用随机梯度下降法对网络模型进行训练。

本申请实施例的图像分割装置，与现有技术中采用复杂的网络结果来进行图像分割相比，本申请采用高效的密集提炼网络多级级联来对输入图像中提取的多个尺度的图像语义特征进行特征处理，可以有效提高网络的整体运算速度。

本实施例的图像分割装置可执行适用于上述方法实施例，其实现原理相类似，此处不再赘述。

本申请实施例还提供了一种电子设备，如图7所示，图7所示的电子设备7000包括：处理器7001和存储器7003。其中，处理器7001和存储器7003相连，如通过总线7002相连。可选地，电子设备7000还可以包括收发器7004。需要说明的是，实际应用中收发器7004不限于一个，该电子设备7000的结构并不构成对本申请实施例的限定。

其中，处理器7001应用于本申请实施例中，用于实现图6所示的提取模块601和特征处理模块602的功能。收发器7004包括接收机和发射机。

处理器7001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器7001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线7002可包括一通路，在上述组件之间传送信息。总线7002可以是PCI总线或EISA总线等。总线7002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器7003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器7003用于存储执行本申请方案的应用程序代码，并由处理器7001来控制执行。处理器7001用于执行存储器7003中存储的应用程序代码，以实现图6所示实施例提供的图像分割装置的功能。

本申请实施例提供的电子设备，与现有技术中采用复杂的网络结果来进行图像分割相比，本申请采用高效的密集提炼网络多级级联来对输入图像中提取的多个尺度的图像语义特征进行特征处理，可以有效提高网络的整体运算速度。

本申请实施例提供的电子设备适用于上述方法实施例，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述方法实施例所示的图像分割方法。

本申请实施例提供了一种计算机可读存储介质，与现有技术中采用复杂的网络结果来进行图像分割相比，本申请采用高效的密集提炼网络多级级联来对输入图像中提取的多个尺度的图像语义特征进行特征处理，可以有效提高网络的整体运算速度。

本申请实施例提供的计算机可读存储介质适用于上述方法实施例，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像分割方法，其特征在于，包括：

依据预定的级联关系，通过N-1个级联的密集提炼网络对所述N个尺度的图像语义特征按照尺度从小到大的顺序依次进行特征处理，以得到输入图像中预定场景区域的二值化掩膜图像；

其中，所述预定的级联关系为：输入第n个密集提炼网络的两个相邻尺度的语义特征包括第n个尺度的低频语义特征和第n+1个尺度的图像语义特征，所述第n个尺度的低频语义特征是由第n-1个密集提炼网络输出的，2≤n≤N-1；

2.根据权利要求1所述的图像分割方法，其特征在于，针对任一密集提炼网络，将输入的两个相邻尺度的语义特征进行特征处理，包括：

通过两个密集卷积单元分别对所述两个相邻尺度的语义特征进行卷积处理，得到所述两个相邻尺度的图像全局特征；

将所述两个相邻尺度的图像全局特征进行特征融合，得到融合处理后的图像全局特征，所述融合处理后的图像全局特征的尺度与所述两个相邻尺度中的较大尺度相同；

通过链式密集池化单元对所述融合处理后的图像全局特征进行池化处理，以根据池化处理结果得到所述较大尺度的低频语义特征。

3.根据权利要求2所述的图像分割方法，其特征在于，任一密集卷积单元包括M层卷积子网络，M为不小于2的整数，通过一个密集卷积单元对一个尺度的语义特征进行卷积处理，得到所述一个尺度的图像全局特征，包括：

将所述一个尺度的语义特征输入到第一层卷积子网络，输出第一结果并，将所述一个尺度的语义特征和所述第一结果进行合并，得到第一合并结果；

将所述第一合并结果输入到第二层卷积子网络，输出第二结果，并将所述一个尺度的语义特征、所述第一合并结果和所述第二结果进行合并，得到第二合并结果；

在各个卷积子网络中连续执行卷积处理，直至将第M-1合并结果输入到第M层卷积子网络，输出第M结果，并将所述一个尺度的语义特征、所述第一合并结果至第M-1合并结果和第M结果进行合并，得到第M合并结果；

根据第M合并结果得到所述一个尺度的图像全局特征。

4.根据权利要求2所述的图像分割方法，其特征在于，所述链式密集池化单元包括W个池化网络和一个卷积子网络，W为不小于2的整数，所述池化网络包括池化层、卷积层和批量归一化层，所述通过链式密集池化单元对所述融合处理后的图像全局特征进行池化处理，包括：

将所述融合处理后的图像全局特征输入到第一个池化网络，输出第一低频语义特征，并将所述第一低频语义特征与所述融合处理后的图像全局特征进行合并，输出第一联结结果；

将所述第一低频语义特征输入到第二个池化网络，输出第二低频语义特征，并将所述第二低频语义特征与所述第一联结结果进行合并，输出第二联结结果；

在各个池化网络中连续执行池化处理，直至将第W-1低频语义特征输入到第W个池化网络，输出第W低频语义特征，并将所述第W低频语义特征与所述第W-1联结结果进行合并，输出第W个联结结果；

通过所述卷积子网络对第W个联结结果进行卷积处理，得到所述较大尺度的低频语义特征。

5.根据权利要求2所述的图像分割方法，其特征在于，所述将所述两个相邻尺度的图像全局特征进行特征融合，包括：

对所述两个相邻尺度中的较小尺度的图像全局特征进行上采样；

将上采样后的图像全局特征与两个尺度中的较大尺度的图像全局特征进行叠加。

6.根据权利要求1-5任一项所述的图像分割方法，其特征在于，

所述第2个尺度为所述第1个尺度的2倍；

所述第n+1个尺度为所述第n个尺度的2倍。

7.根据权利要求1-5任一项所述的图像分割方法，其特征在于，所述在输入图像中提取N个尺度的图像语义特征，包括：

利用卷积神经网络VGG-19在输入图像中提取N个尺度的图像语义特征。

8.根据权利要求7所述的图像分割方法，其特征在于，所述卷积神经网络VGG-19和所述N-1个级联的密集提炼网络包含于网络模型中，所述在输入图像中提取N个尺度的图像语义特征之前，还包括：

对所述网络模型进行训练；

所述对所述网络模型进行训练，包括：

获取卷积神经网络VGG-19的网络参数及训练样本；

基于所述网络参数及所述训练样本，采用随机梯度下降法对所述网络模型进行训练。

9.一种图像分割装置，其特征在于，包括：

特征处理模块，被配置为依据预定的级联关系，通过N-1个级联的密集提炼网络对所述N个尺度的图像语义特征按照尺度从小到大的顺序依次进行特征处理，以得到输入图像中预定场景区域的二值化掩膜图像；

10.根据权利要求9所述的图像分割装置，其特征在于，所述特征处理模块包括密集卷积单元、融合单元和链式密集池化单元；

所述密集卷积单元被配置为通过两个密集卷积单元分别对所述两个相邻尺度的语义特征进行卷积处理，得到所述两个相邻尺度的图像全局特征；

所述融合单元被配置为将所述两个相邻尺度的图像全局特征进行特征融合，得到融合处理后的图像全局特征，所述融合处理后的图像全局特征的尺度与所述两个相邻尺度中的较大尺度相同；

所述链式密集池化单元被配置为通过链式密集池化单元对所述融合处理后的图像全局特征进行池化处理，以根据池化处理结果得到所述较大尺度的低频语义特征。

11.根据权利要求10所述的图像分割装置，其特征在于，任一密集卷积单元包括M层卷积子网络，M为不小于2的整数，所述密集卷积单元具体被配置为：

将一个尺度的语义特征输入到第一层卷积子网络，输出第一结果并将所述一个尺度的语义特征和所述第一结果进行合并，得到第一合并结果；

根据第M合并结果得到所述一个尺度的图像全局特征。

12.根据权利要求10所述的图像分割装置，其特征在于，所述链式密集池化单元包括W个池化网络和一个卷积子网络，W为不小于2的整数，所述池化网络包括池化层、卷积层和批量归一化层，所述链式密集池化单元具体被配置为：

13.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的图像分割方法。