CN111915627A

CN111915627A - 语义分割方法、网络、设备及计算机存储介质

Info

Publication number: CN111915627A
Application number: CN202010846563.8A
Authority: CN
Inventors: 张勇东; 刘荪傲; 谢洪涛
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-10
Anticipated expiration: 2040-08-20
Also published as: CN111915627B

Abstract

本发明公开了一种语义分割方法，该方法包括：提取输入图像的深层特征，基于所述深层特征进行粗分割，得到粗分割结果；基于所述深层特征进行区域存在性预测，得到区域存在性预测结果；提取所述输入图像的浅层特征，并以所述浅层特征为基础在所述区域存在性预测结果指导下提取区域存在性指导的局部特征；结合粗分割结果和所述区域存在性指导的局部特征进行分割修正，得到分割修正结果；基于所述分割修正结果计算得到像素级语义分割结果。解决了精确语义分割存在的问题。达到了明确、高效的多层特征融合，减少了计算开销和对于原始粗分割结果和双线性插值的依赖性，最终实现高效、准确的像素级语义分割。

Description

语义分割方法、网络、设备及计算机存储介质

技术领域

本发明涉及计算机视觉领域，尤其涉及计算机视觉领域。

背景技术

语义分割是一种像素级别的分类任务，为输入图像的每个像素分配所属的语义标签，广泛应用于自动驾驶、增强现实等应用中。目前，卷积神经网络是语义分割的主流方法，通过堆叠卷积核和下采样操作扩大感受野，由浅到深的提取不同层次的信息。一般而言，低层特征提取局部、纹理信息，有利于边界精细分割；深层特征提取全局、语义信息，从而更准确地判断物体类别。但深层特征经过多次下采样，而语义分割要求与输入尺寸一致的精细预测结果。为了语义分割的高分辨率要求，主要有两类处理方法：(1)使用编码器-解码器结构，通过跳跃连接融合多层特征，逐层恢复空间分辨率；(2)使用空洞卷积修改主干网络，减少特征提取过程中的分辨率损失。

第一种方法要求解码器结构的精心设计，并且随着编码器部分的主干网络加深，有限的计算资源限制了解码器的尺寸。此外，尽管低层特征可以补充高分辨率的信息，但由于其局部响应特性，这些特征难以具有语义类别的区分性。因此，低层特征提取的信息对于语义分割而言是带噪的，而现有的跳跃连接和通道级联方法难以对其进行去噪处理。第二种方法通常伴随一个连接在主干网络后的头部模块，侧重于头部模块的设计以增强全局信息的提取和传播。尽管这种方法减少了下采样次数，但最终预测结果由下采样的粗分割直接插值得到，精度严重受限于粗分割结果和插值算法。

发明内容

有鉴于此，提供一种语义分割方法，解决精确语义分割存在的问题。

本申请实施例提供了一种语义分割方法，其特征在于，包括：

提取输入图像的深层特征，基于所述深层特征进行粗分割，得到粗分割结果；

基于所述深层特征进行区域存在性预测，得到区域存在性预测结果；

提取所述输入图像的浅层特征，并以所述浅层特征为基础在所述区域存在性预测结果指导下提取区域存在性指导的局部特征；其中所述区域存在性指导的局部特征为具有类别区分性的浅层特征；

结合粗分割结果和所述区域存在性指导的局部特征进行分割修正，得到分割修正结果；

基于所述分割修正结果计算得到像素级语义分割结果。

在一实施例中，所述基于所述深层特征进行粗分割，得到粗分割结果，包括：

基于所述深层特征进行1×1卷积计算将通道降至预设语义类别数。

在一实施例中，所述提取输入图像的深层特征，包括：

通过特征提取网络对输入图像进行深层特征提取。

在一实施例中，所述提取所述输入图像的浅层特征，包括：

对输入图像特征进行对称卷积，并进行批标准化；

对输入图像特征引入两支与对称卷积平行的不对称卷积层进行不对称卷积，并进行批标准化；

将对称卷积批标准化结果和两个不对称卷积批标准化结果相加；

经过激活函数激活得到所述输入图像的浅层特征。

在一实施例中，所述以所述浅层特征为基础在所述区域存在性预测结果指导下提取区域存在性指导的局部特征，包括：

采用1×1卷积及批标准化将所述对称卷积批标准化结果和两个不对称卷积批标准化结果相加产生的通道维度降至所述预设语义类别数；

以所述区域存在性预测结果为输入，经过归一化处理得到区域存在性预测概率图；其中所述区域存在性预测概率图为每个区域内各预设语义类别存在的概率；

将所述区域存在性预测概率图映射到与对应浅层特征同分辨率的区域，得到区域存在性预测概率映射结果；

将所述浅层特征和所述区域存在性预测概率映射结果进行哈达玛积计算，得到哈达玛积结果；

将所述浅层特征与所述哈达玛积结果进行残差连接；

获得所述区域存在性指导的局部特征。

在一实施例中，所述结合粗分割结果和所述区域存在性指导的局部特征进行分割修正，得到分割修正结果，包括：

对所述粗分割结果上采样至浅层特征的尺寸，并与所述区域存在性指导的局部特征级联后通过1×1卷积计算，得到分割修正结果。

在一实施例中，所述基于所述分割修正结果计算得到像素级语义分割结果，包括：

对所述分割修正结果经上采样后由归一化处理得到每个像素属于所述预设语义类别的概率；

为每个像素取最大概率对应的所述预设语义类别，得到所述像素级语义分割结果。

为实现上述目的，还提供了一种语义分割网络，其特征在于，所述网络包括：

主干网络，被配置为提取输入图片的深层特征，发送至头部模块强化长距离信息提取，并将提取结果发送至粗预测模块和区域存在性预测模块；

粗预测模块，被配置为获得由主干网络发送的所述深层特征，进行卷积计算得到粗分割结果，并将所述粗分割结果发送至分割修正模块；

区域存在性预测模块，被配置为获得由主干网络发送的所述深层特征，进行计算得到区域存在性预测结果，并将所述区域存在性预测结果发送至纹理模块；

纹理模块，被配置为提取输入图片的浅层特征，并以所述浅层特征为基础在由区域存在性预测模块发送的区域存在性预测结果指导下进行特征提取，获得区域存在性指导的局部特征并发送至分割修正模块；

分割修正模块，被配置为结合获得的所述粗分割结果和所述区域存在性指导的局部特征进行分割修正。

为实现上述目的，还提供了一种计算机可读存储介质，其特征在于，其上存储有语义分割方法程序，其特征在于，该用于语义分割方法程序被处理器执行时实现上述任一所述的方法。

为实现上述目的，还提供了一种设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的用于语义分割方法程序，所述处理器执行所述语义分割方法程序时实现上述任一所述的方法。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：提取输入图像的深层特征，基于所述深层特征进行粗分割，得到粗分割结果；保留传统的粗分割结果，以作为分割修正的基础。基于所述深层特征进行区域存在性预测，得到区域存在性预测结果；根据低分辨率像素和高分辨率区域的对应关系进行区域存在性预测，平等的考虑了区域内不同分辨率像素的类别。提取所述输入图像的浅层特征，并以所述浅层特征为基础在所述区域存在性预测结果指导下提取区域存在性指导的局部特征；其中所述区域存在性指导的局部特征为具有类别区分性的浅层特征；区域存在性预测结果被用于指导具有类别区分性的浅层特征的提取，以提取高分辨率下具有语义相关性的浅层特征。结合粗分割结果和所述区域存在性指导的局部特征进行分割修正，得到分割修正结果。基于所述分割修正结果计算得到像素级语义分割结果。为每个像素取最大概率对应的所述预设语义类别，得到像素级语义分割结果，最终实现高效、准确的像素级的语义分割。

附图说明

图1为本申请语义分割方法的硬件结构示意图；

图2为本申请语义分割方法的第一实施例的流程示意图；

图3为本申请语义分割方法中基于标注计算理想区域存在性图的示意图；

图4为本申请语义分割方法对第一实施例中步骤S130细化的流程示意图；

图5为本申请语义分割方法对第一实施例中步骤S130另一细化的流程示意图；

图6为本申请语义分割方法对第一实施例中步骤S150细化的流程示意图；

图7为本申请语义分割网络的结构示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：提取输入图像的深层特征，基于所述深层特征进行粗分割，得到粗分割结果；基于所述深层特征进行区域存在性预测，得到区域存在性预测结果；提取所述输入图像的浅层特征，并以所述浅层特征为基础在所述区域存在性预测结果指导下提取区域存在性指导的局部特征；其中所述区域存在性指导的局部特征为具有类别区分性的浅层特征；结合粗分割结果和所述区域存在性指导的局部特征进行分割修正，得到分割修正结果；基于所述分割修正结果计算得到像素级语义分割结果。解决了精确语义分割存在的问题。达到了明确、高效的多层特征融合，减少了计算开销和对于原始粗分割结果和双线性插值的依赖性，最终实现高效、准确的像素级语义分割。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本申请涉及一种设备010，该设备010包括如图1所示：至少一个处理器012、存储器011。

处理器012可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器012中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器012可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器011，处理器012读取存储器011中的信息，结合其硬件完成上述方法的步骤。

可以理解，本发明实施例中的存储器011可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ReadOnly Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本发明实施例描述的系统和方法的存储器011旨在包括但不限于这些和任意其它适合类型的存储器。

参照图2，图2为本申请语义分割方法的第一实施例，所述语义分割方法，包括以下步骤：

步骤S110：提取输入图像的深层特征，基于所述深层特征进行粗分割，得到粗分割结果。

图像是人类视觉的基础，是自然景物的客观反映，是人类认识世界和人类本身的重要源泉。“图”是物体反射或透射光的分布，“像“是人的视觉系统所接受的图在人脑中所形版的印象或认识，照片、绘画、剪贴画、地图、书法作品、手写汉学、传真、卫星云图、影视画面、X光片、脑电图、心电图等都是图像。其中本实施例中的输入图像可以是任意分辨率的图像，输入图像的尺寸也不作限定。

特征提取是计算机视觉和图像处理中的一个概念。特征提取指的是使用计算机提取图像信息，决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。特征提取的好坏对泛化性能有至关重要的影响。本实施例中特征提取包括输入图像的深层特征、输入图像的浅层特征和区域存在性指导的局部特征等。

卷积神经网络是语义分割的主流方法，通过堆叠卷积核和下采样操作扩大感受野，由浅到深的提取不同层次的信息。一般而言，浅层特征提取局部、纹理信息，有利于边界精细分割；深层特征提取全局、语义信息，从而更准确地判断物体类别。

语义分割是在像素级别上的分类，属于同一类的像素都要被归为一类，因此语义分割是从像素级别来理解图像的。比如说输入图片中为一个人骑着摩托车奔驰在路上，其中属于人的像素都要分成一类，属于摩托车的像素也要分成一类，除此之外还有背景像素也被分为一类。注意语义分割不同于实例分割，举例来说，如果一张照片中有多个人，对于语义分割来说，只要将所有人的像素都归为一类，但是实例分割还要将不同人的像素归为不同的类。也就是说实例分割比语义分割更进一步。

给定一张输入图像，卷积网络提取的深层特征往往经过下采样。在之前的很多工作如Deeplabv3当中，深层特征的分辨率为输入图像的1/8(输出步长为8)或1/16(输出步长为16)。这些工作在低分辨率下通过1x1卷积将通道降至类别数K得到原始分割结果，上采样后由概率归一化(softmax函数)得到像素属于每个类别的概率，取最大概率对应的类别(argmax函数)得到最终分割结果。可以看到，这里的原始分割结果分辨率与深层特征一致，因此称为粗分割结果。

步骤S120：基于所述深层特征进行区域存在性预测，得到区域存在性预测结果。

低分辨率图上的一个像素实际上对应了高分辨率图中的一个区域，对于复杂场景，这样的区域中可能包含多个语义类别。而现有的粗分割方法只为低分辨率下的每个像素赋予预测概率最高的类别，忽视了其他同样存在于高分辨率区域内的类别，导致插值后的结果无法实现精确分割。因此，提出对深层特征进行区域存在性预测以在低分辨率下预测所有类别的区域内存在概率。

为了保证网络区域存在性预测的准确性，还提出了多任务损失函数：

L＝λ_fL_f+λ_aL_a+λ_rL_r

其中L_f最终分割损失，L_a为辅助分割损失(由连接在主干网络第3层后的辅助分割层产生分割结果)，L_r为区域存在性预测损失，λ_f,λ_a,λ_r为可调节的权重因子，可设置为1，0.4，0.4。L_f,L_a均通过上采样至原图大小与标注结果计算多类别交叉熵损失，L_r则在下采样尺寸与理想区域存在性图计算二值交叉熵损失。

其中理想的区域存在性图由语义分割标注图得到。记输出步长为S，则深层特征的分辨率为输入的1/S。记语义类别数为K，标注图首先转化为K张二值图，设第k类、位置为(p,q)的标签为

对应的区域存在性标签

由下式计算得到：

其中I(·)为示性函数：

因此，给定一张尺寸为H×W的分割图，可以得到K个类别的区域存在性图，尺寸为

每个低分辨率像素被显式地指定对应高分辨率下的像素区域。这种计算方法平等的考虑了区域内不同尺寸的类别，只要有一个像素属于该类别，则对应的区域存在性置1，否则置0。具体如图3给出了区域存在性的示意图(输出步长为8)，其中上方给出了一个区域的计算结果，底部为输入图像的完整结果。

其中理想的区域存在性图在网络训练过程中用于监督区域存在性的学习，与区域存在性预测结果计算二值交叉熵。

二值图是指图像上的每一个像素只有两种可能的取值或灰度等级状态，人们经常用黑白、B&W、单色图像表示二值图像。二值图可以是图像中灰度等级只有两种，也就是说，图像中的任何像素点的灰度值均为0或者255，分别代表黑色和白色。

步骤S130：提取所述输入图像的浅层特征，并以所述浅层特征为基础在所述区域存在性预测结果指导下提取区域存在性指导的局部特征；其中所述区域存在性指导的局部特征为具有类别区分性的浅层特征。

浅层特征提取局部、纹理信息，有利于边界精细分割。

区域存在性指导的局部特征是以浅层特征为基础在区域存在性预测结果指导下提取的具有类别区分性的浅层特征。

步骤S140：结合粗分割结果和所述区域存在性指导的局部特征进行分割修正，得到分割修正结果。

分割修正是结合粗分割结果和区域存在性指导的局部特征进行计算。其中分割修正结果因为分辨率高于粗分割，故也可以称分割修正结果为精细分割结果。

步骤S150：基于所述分割修正结果计算得到像素级语义分割结果。

对分割修正结果进行上采样和归一化，并取每个像素的最大概率类别得到与输入同尺寸的像素级语义分割结果。

在其中一个实施例中，所述提取输入图像的深层特征，基于所述深层特征进行粗分割，得到粗分割结果，包括：

预设语义类别数取决于数据集中标注的类别数，例如Cityscapes数据集中标注有19类场景，则预设语义类别数为19。

上述实施例中在本申请语义提取网络中保留了粗分割结果。为后续的分割修正提供准确的特征。

在其中一个实施例中，所述提取输入图像的深层特征，包括：

通过特征提取网络对输入图像进行深层特征提取。

其中特征提取网络可以是ResNet、VGGNet等网络。

RetNet(残差网络)是由来自Microsoft Research的4位学者提出的卷积神经网络，在2015年的ImageNet大规模视觉识别竞赛(ImageNet Large Scale VisualRecognition Challenge,ILSVRC)中获得了图像分类和物体识别的优胜。残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

VGGNet由牛津大学计算机视觉组合和Google DeepMind公司研究员一起研发的深度卷积神经网络。它探索了卷积神经网络的深度和其性能之间的关系，通过反复的堆叠3×3的小型卷积核和2×2的最大池化层，成功的构建了16～19层深的卷积神经网络。VGGNet获得了ILSVRC 2014年比赛的亚军和定位项目的冠军，在top5上的错误率为7.5％。目前为止，VGGNet依然被用来提取图像的特征。

特征提取网络也可以是其他具有特征提取功能的网络，不限于上述提到的特征提取网络。上述提到的特征提取网络中卷积核大小、神经网络结构和神经网络深度是可以随情况随时调整的。

在本实施中，特征提取网络提取下采样后的深层特征，随后进行强化长距离信息提取，其中强化长距离信息提取在语义分割网络中的头部模块进行处理，头部模块可以使用任意模块，比如ASPP、PPM、Non-local等。

在上述实施例中存在的有益效果，采用特征提取网络能够把输入图像的深层特征提取的更加全面和准确，能够保证粗分割的准确性。

在其中一个实施例中，所述结合粗分割结果和所述区域存在性指导的局部特征进行分割修正，得到分割修正结果，包括：

上采样(upsampling)的主要目的是放大原图像，从而可以显示在更高分辨率的显示设备上。上采样原理是在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。

其中上采样也可以简单的理解为任何可以让图像变成更高分辨率的技术，上采样的三种方式：插值法、反卷积和反池化。可以采用最近邻差值法、双线性插值法、均值插值、中间插值法等，本申请中采用双线差值法进行上采用。

级联(concatenate)操作是网络结构设计中很重要的一种操作，经常用于将特征联合，多个卷积特征提取框架提取的特征融合或者是将输出层的信息进行融合。在本实施例中，级联(concatenate)可以是粗分割结果和区域存在性指导的局部特征在通道维度上进行拼接。

在本实施例中，具体语义分割修正的计算过程可以是：粗分割结果C首先被上采样至区域存在性指导特征D的尺寸(原始图像的1/2)，与之级联后使用卷积进行分割修正，最后再2倍上采样至原始尺寸，得到最终结果。计算公式如下：

Y＝U_b(g(concat(U_b(C)),D))

其中，上采样由双线性插值U_b(·)实现，粗分割结果C，区域存在性指导的局部特征D，concat(·)为级联函数，卷积函数g(·)。

其中，使用的卷积层可以是1×1卷积的计算方式。

在上述实施例中存在的有益效果，提取输入图像的深层特征，基于所述深层特征得到多层次特征；基于所述多层次特征进行粗分割，得到粗分割结果；保留传统的粗分割结果，以作为分割修正的基础。基于所述深层特征进行区域存在性预测，得到区域存在性预测结果；根据低分辨率像素和高分辨率区域的对应关系进行区域存在性预测，平等的考虑了区域内不同分辨率像素的类别。提取所述输入图像的浅层特征，并以所述浅层特征为基础在所述区域存在性预测结果指导下提取区域存在性指导的局部特征；其中所述区域存在性指导的局部特征为具有类别区分性的浅层特征；区域存在性预测结果被用于指导具有类别区分性的浅层特征的提取，以提取高分辨率下具有语义相关性的浅层特征。结合粗分割结果和所述区域存在性指导的局部特征进行分割修正，得到分割修正结果。基于所述分割修正结果计算得到像素级语义分割结果。为每个像素取最大概率对应的所述预设语义类别，得到像素级语义分割结果，最终实现高效、准确的像素级的语义分割。

参照图4，图4为本申请语义分割方法的第一实施例中S130的细化步骤，所述提取所述输入图像的浅层特征，包括：

步骤S131：对输入图像特征进行对称卷积，并进行批标准化。

对称卷积是指正方形卷积，可以是d×d的正方形卷积，其中d可以取任意正整数，如3×3的正方形卷积。

批标准化(Batch Normalization,BN)，又叫批量归一化，是一种用于改善人工神经网络的性能和稳定性的技术。这是一种为神经网络中的任何层提供零均值/单位方差输入的技术。批标准化用于通过调整和缩放激活来规范化输入层。

步骤S132：对输入图像特征引入两支与对称卷积平行的不对称卷积层进行不对称卷积，并进行批标准化。

不对称卷积是指水平核卷积和垂直核卷积，水平核卷积可以是d×1，垂直核卷积可以是1×d。其中d可以取任意正整数，如3×1的水平核卷积和1×3的垂直核卷积。

步骤S133：将对称卷积批标准化结果和两个不对称卷积批标准化结果相加。

将d×d、1×d、d×1卷积后批标准化结果进行相加计算，因为卷积具有可加性。卷积可加性是指如果几个大小兼容的二维核在相同的输入以相同的步长操作以产生相同分辨率的输出，并且它们的输出被求和，即可以将这些核在对应的位置相加，从而得到一个产生相同输出的等效核。也就是说，二维卷积的可加性可以成立，即使核大小不同。其中，1×3和3×1是和3×3兼容的，是可以相加的，通过研究滑动窗口形式的卷积计算，可以很容易地验证。

步骤S134：经过激活函数激活得到所述输入图像的浅层特征。

激活函数(Activation Function)，是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。激活函数对于人工神经网络模型去学习、理解复杂和非线性的函数来说具有十分重要的作用，激活函数把非线性特性引入到我们的网络中。

如果不用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合，这种情况就是最原始的感知机。

如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

激活函数可以是Sigmoid函数、ReLU函数、tanh函数、PReLU函数、ELU函数和MaxOut函数等。

其中，Sigmoid函数是常用的非线性的激活函数，解析式如下：

能够把输入的连续实值变换为0和1之间的输出，特别的，如果是非常小的负数，输出为0；如果是非常大的正数，输出为1。但其在深度神经网络中梯度反向传递时导致梯度爆炸和梯度消失。

ReLU函数的解析式为：

ReLU＝max(0,x)

ReLU函数解决了梯度消失的问题；计算速度非常快，因为其只需要判断输入是否大于0；收敛速度远快于Sigmoid函数和tanh函数。

在本实施例中，具体的采用强化卷积核的卷积方式提取输入图像的浅层特征的计算方法可以如下：

其中X为输入特征，f_j为三个卷积层，BN为批标准化，激活函数为ReLU。

在上述实施例中存在的有益效果，对三个分别具有正方形，水平和垂直核的卷积分支的输出批标准化进行求和，通过强化卷积核的骨架部分进一步增强特征提取能力，为语义分割提供更精确的浅层特征。

参照图5，图5为本申请语义分割方法的第一实施例中S130的另一细化步骤，所述以所述浅层特征为基础在所述区域存在性预测结果指导下提取区域存在性指导的局部特征，包括：

步骤S131'：采用1×1卷积及批标准化将所述对称卷积批标准化结果和两个不对称卷积批标准化结果相加产生的通道维度降至所述预设语义类别数；

通道维度决定了一个像素点由多少个值构成，比如单通道是一个像素点由1个值构成；双通道是一个像素点由2个值构成，n维通道是一个像素点由n个值构成。

其中通过对称卷积批标准化结果和两个不对称卷积批标准化结果相加，产出的通道维度和预设类别数量不一致，需要通过卷积和批标准化的方式将通道维度降至预设类别数量，如3×3、1×3和3×1三支卷积层结果相加，会产生64维通道。

步骤S132'：以所述区域存在性预测结果为输入，经过归一化处理得到区域存在性预测概率图；其中所述区域存在性预测概率图为每个区域内各预设语义类别存在的概率；

激活函数可以是Sigmoid函数，在此不再赘述。

步骤S133'：将所述区域存在性预测概率图映射到与对应浅层特征同分辨率的区域，得到区域存在性预测概率映射结果；

其中映射方法可以是最近邻插值法，最近邻插值法是将变换后的图像中的原像素点最邻近像素的灰度值赋给原像素点的方法。造成的空间偏移误差为像素单位，计算简单，但不够精确。但当图像中的像素灰度级有细微变化时，该方法会在图像中产生人工的痕迹。

步骤S134'：将所述浅层特征和所述区域存在性预测概率映射结果进行哈达玛积计算，得到哈达玛积结果；

哈达玛积(Hadamard product)是矩阵的一类运算，若A＝(a_ij)和B＝(b_ij)是两个同阶矩阵，若c_ij＝a_ij×b_ij,则称矩阵C＝(c_ij)为A和B的哈达玛积，或称基本积。

步骤S135'：将所述浅层特征与所述哈达玛积结果进行残差连接；

残差连接可以是F(x)和x连接在一起，即F(x)+x，在原来函数F(x)基础上增加了一项x，那么该层网络在对x求偏导的时候，多了一个常数项，所以在反向传播时候，梯度连乘，不会造成梯度消失。

步骤S136'：获得所述区域存在性指导的局部特征。

获得的区域存在性指导的局部特征是区域存在性预测结果为基础，进行一系列计算得到的区域存在性指导的局部特征。

在本实施例中，具体的区域存在性指导的局部特征的计算方式可以如下：

对于第i个类别，记其对应的局部特征为F_i，区域存在性为P_i，区域存在性指导的局部特征D_i，区域存在性预测结果经过Sigmoid函数σ(·)激活得到区域预测概率图，并通过最近邻插值U_n(·)映射到与F_i同分辨率下的区域。

在上述实施例中存在的有益效果，以区域存在性预测结果为基础，进行计算，得到以区域存在性预测结果指导的局部特征。其中以残差连接方式解决梯度消失的问题；获得的区域存在性指导的局部特征为后续语义分割修正提供更加可靠的特征数据。

参照图6，图6为本申请语义分割方法的第一实施例中S150的另一细化步骤，所述基于所述分割修正结果计算得到像素级语义分割结果，包括：

步骤S151：对所述分割修正结果经上采样后由归一化处理得到每个像素属于所述预设语义类别的概率；

其中上采样可以是双线性插值法，归一化处理可以使用softmax函数。

步骤S152：为每个像素取最大概率对应的所述预设语义类别，得到所述像素级语义分割结果。

取最大概率可以用argmax函数。

在上述实施例中存在的有益效果，对分割修正结果进行进一步的处理，将分割修正得到的精细分割结果上升至像素级语义分割结果，产生了更加精确的语义分割结果。

为验证本申请语义分割方法的性能，我们进行了如下实验：

网络的输入为RGB彩色自然图像。用于训练的数据集包括Cityscapes和ADE20K。Cityscapes为19类的场景分割数据集，图像分辨率为2048×1024，用于训练、验证和测试的图像数量分别为2975、500和1525。ADE20K包括150个语义类别，数据集被划分为20000/2000/3000用于训练、验证和预测。

模型在Cityscapes训练时，输入尺寸为768×768。ADE20K的输入尺寸为520×520。为提升网络性能，使用的数据增广方法包括随机水平翻转、随机裁剪和随机缩放。在网络训练时，使用随机梯度下降法(SGD)作为优化器，学习率衰减策略使用多项式衰减：

其中lr_init、iter、max_iter分别为初始学习率、当前迭代次数、最大迭代次数。

在上述实验中，采用的基于语义分割的区域存在性指导网络的网络结构图如图7所示，主干网络使用在ImageNet上预训练的残差网络(ResNet)，其中首个7×7卷积改为3支3×3卷积，并根据输出步长在第3、4层使用空洞卷积。当输出步长为8时，移除第3、4层的下采样操作，分别使用扩张率为2和4的卷积运算。当输出步长为16时，移除第4层的下采样操作并设置扩张率为2。头部模块使用空洞金字塔池化(ASPP)模块，包括一支全图池化、一支1×1卷积和3支不同扩张率的3×3卷积。输出步长为8时，扩张率为{12,24,36}；输出步长为16时，扩张率为{6,12,18}。为了处理Cityscapes数据集上类别不平衡的问题，对于损失函数中的多类别交叉熵使用在线难样本挖掘(OHEM)，只对预测概率低于0.7的像素计算交叉熵损失。

本方法设计的区域存在性指导网络在Cityscapes测试集上达到了81.8％的平均交并比(mIoU)，在ADE20K验证集上达到了45.19％mIoU和81.96％的像素准确率。

此外，相比于同样使用ResNet-101和ASPP的Deeplabv3，本网络在输出步长为16时在Cityscapes验证集上的精度超过了输出步长为8的Deeplabv3，并且计算量远小于后者。在输入尺寸为3×768×768时，输出步长为8的Deeplabv3的平均交并比为78.29％，浮点数运算次数(FLOPs)为569.12G，而输出步长为16的本网络精度为79.04％，浮点数运算次数仅为187.11G。

与现有方法相比，本发明提出的区域存在性考虑了低分辨率像素和高分辨率区域的对应关系，以进行更合理的低分辨率预测，通过预测区域内所有类别的存在概率，加强网络的特征编码能力。此外，区域存在性被用于指导纹理模块以提取高分辨率下具有语义相关性的低层特征，从而对局部的低层特征进行去噪，并进一步对粗分割结果进行修正，以产生更精确的语义分割结果。相比于传统的编码器-解码器结构，本方法提出的网络结构通过区域存在性指导实现了明确、高效的多层特征融合，减少了计算开销。这种两级的分割框架也减小了传统基于空洞卷积和头部模块的网络对于原始粗分割结果和双线性插值的依赖性，从而可以在使用更大的输出步长时保持高精度，保证了在低运算量限制下的算法有效性。本发明提出的区域存在性指导网络可以简单地与现有任意网络进行融合，实现性能提升，并根据计算资源的限制调整主干网络的大小，具有广泛的应用场景。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语义分割方法，其特征在于，包括：

基于所述分割修正结果计算得到像素级语义分割结果。

2.如权利要求1所述的语义分割方法，其特征在于，所述基于所述深层特征进行粗分割，得到粗分割结果，包括：

3.如权利要求1所述的语义分割方法，其特征在于，所述提取输入图像的深层特征，包括：

通过特征提取网络对输入图像进行深层特征提取。

4.如权利要求1所述的语义分割方法，其特征在于，所述提取所述输入图像的浅层特征，包括：

对输入图像特征进行对称卷积，并进行批标准化；

经过激活函数激活得到所述输入图像的浅层特征。

5.如权利要求1所述的语义分割方法，其特征在于，所述以所述浅层特征为基础在所述区域存在性预测结果指导下提取区域存在性指导的局部特征，包括：

将所述浅层特征与所述哈达玛积结果进行残差连接；

获得所述区域存在性指导的局部特征。

6.如权利要求1所述的语义分割方法，其特征在于，所述结合粗分割结果和所述区域存在性指导的局部特征进行分割修正，得到分割修正结果，包括：

7.如权利要求1所述的语义分割方法，其特征在于，所述基于所述分割修正结果计算得到像素级语义分割结果，包括：

8.一种语义分割网络，其特征在于，所述网络包括：

9.一种计算机可读存储介质，其特征在于，其上存储有语义分割方法程序，其特征在于，该用于语义分割方法程序被处理器执行时实现权利要求1-7任一所述的方法。

10.一种设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的用于语义分割方法程序，所述处理器执行所述语义分割方法程序时实现权利要求1-7任一所述的方法。