CN110428428B

CN110428428B - 一种图像语义分割方法、电子设备和可读存储介质

Info

Publication number: CN110428428B
Application number: CN201910684190.6A
Authority: CN
Inventors: 陈沅涛; 陶家俊; 王进; 王磊; 张建明; 陈曦; 邝利丹; 谷科; 刘林武; 王志
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2022-03-25
Anticipated expiration: 2039-07-26
Also published as: CN110428428A

Abstract

本发明公开了一种图像语义分割方法、电子设备和可读存储介质，基于深度特征融合的FCN模型，将传统卷积操作替换为空洞卷积，构造不同分辨率的原始图像，形成图像金字塔，分层输入该FCN模型，并使上一层的输出特征与下一层融合，自顶向下逐层融合至底层，底层的输出特征进行转置卷积，使输出分辨率与底层输入图像一致，提高对目标定位的敏感性，后续通过全连接条件随机场进行优化处理，保证分割精度，从而获得较好的分割效果。

Description

一种图像语义分割方法、电子设备和可读存储介质

技术领域

本发明涉及图像语义分割技术领域，具体涉及一种图像语义分割方法、电子设备和可读存储介质。

背景技术

语义分割是计算机视觉领域的重要基石之一，其不仅对图像中的每个像素进行分类，还标注该像素在图像中所属的对象类别，即不但能分割出区域，还能对区域进行内容上的标注。

语义分割通常可以分为几类不同任务，如图1所示，其中，图1(a)：像素级别的分割；图1(b)：场景解析；图1(c)：定位和分类的结合。在图1(a)中，给定一张图像，可能需要区分图像中属于人的所有像素和属于马的所有像素，每种类别的像素分别标注不同的颜色，以实现像素级别的图像分割。图1(b)中的场景理解可以做出这样的描述：沙发的前面是一张桌子，或者桌子旁边围绕着三张椅子，其关键在于将整个场景分解成几个单独的实体，以推理目标的不同行为。虽然目标检测可以帮助绘制某些实体的大致边框，但还不能够像人类那样以像素级别的精细程度对每个实体标记精确的边界。已开始发展的自动驾驶和智能机器人等都需要对周围的环境进行深入的理解，背后的实际需求均是精确且高效的分割技术。图1(c)在分类问题中仅需回答有摩托车或有山羊，与分类问题不同的是，语义分割需要模型对给定图像进行密集的像素级预测，在逐个像素点分类的同时把where(在哪里)和what(是什么)两个问题结合在了一起解决。可见，语义分割对图像进行了更加细致的了解，对诸如增强现实及图像搜索引擎等领域都非常重要。

早期语义分割一般使用基于像素自身低阶视觉信息的无监督方法，或依赖于手工提取特征并与分类器相结合的传统机器学习方法。Long等^[1]基于深度卷积神经网络(DeepConvolutional Neural Network,DCNN)提出了全卷积网络(Fully ConvolutionalNetwork,FCN)方法，以卷积层代替全连接层构造全卷积网络应用到语义分割上，获得了更高的分割精度。全卷积网络由于不需要全连接层因而能够对任意分辨率的图像进行语义分割，其端到端特性更是突破了传统机器学习方法中手工提取特征困难且提取的特征表达能力受限等问题，得到了广泛关注。

在图像语义分割中，使用卷积网络进行特征提取时，由于最大池化和下采样操作的重复组合引起特征分辨率降低导致上下文信息丢失情况，使得分割结果失去对目标位置的敏感性。Yu等^[2]和Wang等^[3]使用空洞卷积支持FCN中感受野的指数级扩展以有效地聚合图像的全局信息而不丢失分辨率。Liu等^[4]和Nguyen等^[5]结合图模型将空间信息合并到FCN中希望更好地控制空间约束从而提高基于DCNN的语义分割方法的性能。文献^[6-7]认为基于强监督的语义分割需要大规模令人信服的像素精确标记数据的存在，这种昂贵的像素注释限制了可训练数据集的大小，间接影响到深度网络的性能，于是提出仅利用容易获得的边界框线索和少量注释便可得到具有竞争力的准确性的弱监督方法。Vijay等^[8]采用最大池化索引代替FCN中的编码器特征来达到占用更少内存空间的目的，Samuel等^[9]则引入了损失最大池化概念来处理训练数据分布不平衡的问题。Lin等^[10-11]通过捕获相邻图像区域之间的语义相关性并结合条件随机场(Conditional Random Field,CRF)构建深度结构化模型，证明其对于提高性能是有效的。Chen等^[12]也将CRF结合到多尺度空间采样的FCN中，在定性和定量两方面均提高了语义分割的性能。此外，还有基于多分辨率重建的方法^[13]重建对象的分段边界，而Bertasius等^[14]则引入了一个简单但有效的卷积随机游走网络解决边界定位不良和空间碎片预测的问题。

上述诸多方法大多尝试从卷积层、池化层、图像区域甚至数据集等方面提高语义分割的性能，难以平衡对象分类的准确率与目标分割的精度，改善效果有限。

参考文献：

[1]LONG J,SHELHAMER E,DARRELL T.Fully convolutional networks forsemantic segmentation[C].Proceedings of IEEE Conference on Computer Visionand Pattern Recognition.Boston:IEEE Press,2015:3431-3440.

[2]Yu F,KOLTUM V.Multi-Scale Context Aggregation by DilatedConvolutions[C].Proceedings of International Conference on LearningRepresentations.Puerto Rico.2016,https://arxiv.org/abs/1511.07122

[3]WANG P,CHEN P,YUAN Y,et al.Understanding Convolution for SemanticSegmentation[C].Proceedings of IEEE Winter Conference on Applications ofComputer Vision.Santa Rosa:IEEE Press,2017:1451-1460.

[4]LIU Z,LI X,LUO P,et al.Semantic Image Segmentation via DeepParsing Network[C].Proceedings of IEEE International Conference on ComputerVision.Santiago,Chile:IEEE Press,2015:1377-1385.

[5]NGUYEN K,FOOKES C,SRIDHARAN S.Deep Context Modeling for SemanticSegmentation[C].Proceedings of IEEE Winter Conference on Applications ofComputer Vision.Santa Rosa,California,United States:IEEE Press,2017:56-63.

[6]DAI J,HE K,SUN J.BoxSup:Exploiting Bounding Boxes to SuperviseConvolutional Networks for Semantic Segmentation[C].Proceedings of IEEEInternational Conference on Computer Vision.Santiago,Chile:IEEE Press,2015:1635-1643.

[7]WANG G,LUO P,LIN L,et al.Learning Object Interactions andDescriptions for Semantic Image Segmentation[C].Proceedings of IEEEConference on Computer Vision and Pattern Recognition.Honolulu,Hawaii,USA:IEEE Press,2017:5235-5243.

[8]BADRINARAYANAN V,KENDALL A,CIPOLLA R.SegNet:A Deep ConvolutionalEncoder-Decoder Architecture for Image Segmentation[J].IEEE Transactions onPattern Analysis&Machine Intelligence,2017,39(12):2481-2495.

[9]BULO S R,NEUHOLD G,KONTSCHIEDER P.Loss Max-Pooling for SemanticImage Segmentation[C].Proceedings of IEEE Conference on Computer Vision andPattern Recognition.Honolulu,Hawaii,USA:IEEE Press,2017:7082-7091.

[10]LIN G,SHEN C,HENGEL A V,et al.Efficient Piecewise Training ofDeep Structured Models for Semantic Segmentation[C].Proceedings of IEEEConference on Computer Vision and Pattern Recognition.Las Vegas,NV,UnitedStates:IEEE Press,2016:3194-3203.

[11]LIN G,SHEN C,HENGEL A V,et al.Exploring Context with DeepStructured Models for Semantic Segmentation[J].IEEE Transactions on PatternAnalysis&Machine Intelligence,2018,40(6):1352-1366.

[12]CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2016,40(4):834-848.

[13]GHIASI G,FOWLKES C C.Laplacian Pyramid Reconstruction andRefinement for Semantic Segmentation[C].Proceedings of European Conference onComputer Vision.Cham:Springer Press,2016:519-534.

[14]BERTASIUS G,TORRESANI L,Yu S X,et al.Convolutional Random WalkNetworks for Semantic Image Segmentation[C].Proceedings of IEEE Conference onComputer Vision and Pattern Recognition.Honolulu,Hawaii:IEEE Press,2017:6137-6145.

发明内容

针对FCN无法很好地平衡高层抽象的分类问题和低层精确的定位问题这一缺陷，本发明提供一种图像语义分割方法、电子设备和可读存储介质，兼顾目标定位的敏感性和分割精度。

第一方面，提供一种图像语义分割方法，包括：

通过高斯函数对原始图像进行预处理生成若干层不同分辨率的图像，形成图像金字塔；

将所述图像金字塔输入训练好的全卷积网络模型中，所述全卷积网络模型由与所述图像金字塔层数同数量的全卷积VGG16模型并联构建，并在后端设有转置卷积层，每一所述全卷积VGG16模型的第11至14个卷积层为空洞卷积，所述图像金字塔的每一层分别输入一个所述全卷积VGG16模型，对于相邻的两层全卷积VGG16模型，上层的输出特征均与下层第5个最大池化层的输出特征融合，然后依次输入该下层的后续卷积层，得到该下层的输出特征，如此自顶向下逐层融合至底层，底层的输出特征输入所述转置卷积层，得到跟原始图像等尺寸的得分图；

将所述得分图送入训练好的全连接条件随机场，联合图像中各像素的空间位置信息和颜色向量信息进行优化处理，获取语义分割效果。

优选的，所述全卷积网络模型训练中，利用与图像金字塔中各层图像等分辨率的理想分割图标签来监督每一层提取的输出特征，改进损失函数。

优选的，所述全卷积网络模型中，每一所述全卷积VGG16模型的第11至14个卷积层的扩张率依次为2、4、8、16，前三个最大池化层步幅为2，后两个最大池化层步幅为1，所述转置卷积层步幅为8。

优选的，特征融合策略如下：对于相邻的两层全卷积VGG16模型，利用双线性插值法对上层的输出特征进行步幅为2的空间上采样，再输入扩张率为2的3×3空洞卷积操作，所得特征与下层第5个最大池化层的输出特征进行串联拼接，然后依次输入该下层的后续卷积层，得到该下层的输出特征。

优选的，全连接条件随机场的建模过程如下：根据像素i和像素j的颜色向量I_i和I_j以及空间位置p_i和p_j定义两个核函数k_c和k_p分别为：

得到双核势函数为：

k(f_i,f_j)＝w⁽¹⁾k_c+w⁽²⁾k_p

式中，w⁽¹⁾为^k _c核函数项的权重，w⁽²⁾为k_p核函数项的权重，θ_α、θ_β和θ_γ均为超参数，θ_α和θ_β控制像素的邻近与相似程度，θ_γ决定k_p的平滑程度；

利用高维滤波算法对k_c、k_p和k(f_i,f_j)的参数进行交叉验证，直至模型收敛。

第二方面，提供一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的至少一个存储器；所述至少一个存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法。

第三方面，提供一种可读存储介质，其上存储有计算机程序，当所述计算机程序被处理执行时，实现上述方法的步骤。

本发明的有益效果：

基于深度特征融合的FCN模型，将传统卷积操作替换为空洞卷积，构造不同分辨率的原始图像，形成图像金字塔，分层输入该FCN模型，并使上一层的输出特征与下一层融合，自顶向下逐层融合至底层，底层的输出特征进行转置卷积，使输出分辨率与底层输入图像一致，提高对目标定位的敏感性，后续通过全连接条件随机场进行优化处理，保证分割精度，从而获得较好的分割效果。

附图说明

图1展示了现有语义分割的类型；

图2是一种实施方式的电子设备结构示意图；

图3展示了具体实施例的全卷积VGG16模型架构图及深度特征提取过程；

图4展示了具体实施例的特征融合网络架构图；

图5是具体实施例的特征融合策略的示意图；

图6展示了具体实施例全卷积网络模型训练的学习率迭代策略；

图7显示了在PASCAL VOC 2012和PASCAL CONTEXT数据集上全卷积网络模型训练的收敛情况；

图8显示了完成全卷积网络模型训练及全连接条件随机场训练后，整体模型在PASCAL VOC 2012和PASCAL CONTEXT数据集上的性能提升过程；

图9显示了具体实施例与已知语义分割方法的图像语义分割效果。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，不能理解为对本发明保护范围的限制。

在本发明的描述中，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，不具有限制性。涉及到数量描述，若干的含义是一个或者多个，多个的含义是两个以上。

如图2所示的电子设备，包括处理器101、网络接口104、用户接口103和存储器102，各单元之间通信连接。该电子设备可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，平板电脑、智能手机、智能式穿戴式设备等。

用户接口103用于连接用户端，可以包括显示屏、键盘等，网络接口104可以是有线接口、无线接口等，主要用于数据通信。存储器102可以是不同类型存储设备或计算机可读存储介质，例如，可以是电子设备的内存，还可以是可外接于该电子设备的存储卡，如闪存、SD卡等。存储器102存储有可被处理器101执行的指令，可以包括操作系统、网络通信模块、图像语义分割程序等。处理器101包括但不限于CPU、微处理器(如图形处理器GPU)等，能够调用存储器102中存储的指令，从而实现以下图像语义分割方法：

该方法将不同层级的特征输出予以整合，提高对目标定位的敏感性，后续通过全连接条件随机场进行优化，保证分割精度，从而获得较好的分割效果。

如背景技术所描述的，现有语义分割的难以综合精细程度和准确度，不能满足诸如增强现实、图像搜索引擎、自动驾驶和智能机器人等领域的应用需求。本申请实施例采用基于深度特征融合的全卷积网络模型，使输出分辨率与输入图像一致，解决传统图像语义分割中卷积操作的连续池化和下采样过程引起特征分辨率急剧降低导致上下文信息丢失使得分割结果对目标定位不敏感的问题。在网络架构后端通过全连接条件随机场对图像中像素之间的类别相关关系进行建模，联合图像像素的空间位置信息和颜色向量信息建立双核势函数，优化模型捕捉空间细节的能力。

基于全卷积网络的语义分割方法虽然能够接受任意尺寸的输入图像，但连续的池化操作在增大感受野的同时也减小了特征的分辨率。虽然通过上采样可以将缩小的特征图还原到图像的原始尺寸，但这个过程必然造成丢失的信息无法还原，上采样恢复的特征图将失去对图像细节的敏感性。并且，频繁的上采样操作也需要额外的内存和时间，而使用空洞卷积可以很好地克服这一问题。

首先考虑一维信号。一维输入信号x[i]∈R与长度为K的滤波器w[k]∈R的空洞卷积输出y[i]定义如下：

其中扩张率r是对输入信号进行采样的步幅，相当于将输入x与在两个连续滤波值之间插入r-1个零而得到的滤波器进行卷积，因此称为空洞卷积。标准卷积相当于扩张率r＝1的特殊情形。

对于二维情形，将全分辨率图像与空洞滤波器进行卷积操作，例如将原始滤波器上采样2倍，并在滤波器值之间插入零值，虽然有效滤波器的尺寸有所增加，但无需考虑中间插入的零值，即空洞，因此滤波器参数的数量和每个位置的操作数量保持不变。可以通过改变扩张率r以自适应地修改感受野的大小，进而有效地控制卷积网络中特征的分辨率而无需学习额外的参数。

输入图像在经过连续3次3×3的标准卷积后，感受野尺寸分别为3×3，5×5和7×7。若连续卷积操作的核尺寸为(2d+1)×(2d+1)且不变，则第n层感受野尺寸为：

f_n＝2dn+1，d∈N⁺ (2)

即标准卷积下感受野大小呈线性增长，而若为空洞卷积选取适当的扩张率参数，则可以使卷积网络在不增加额外计算量的情况下使感受野呈指数型增长，从而获取图像的密集特征。

本实施例的全卷积网络模型以并行的多层VGG16模型为基础架构。在VGG16模型中，每一层数据都是尺寸为h×w×d的三维数组，其中空间维度h和w即特征的高和宽，而d是特征图的通道数。第一层数据即分辨率为h×w且彩色通道数d＝3的原始图像。标准卷积网络最初设计用于图像分类，采用固定尺寸的输入产生非空间的输出，这些网络的全连接层输出固定长度的一维向量而丢弃空间信息。语义分割这种密集分类问题在结构上与图像分类不同，首先需要修改网络的最后三层全连接层为卷积层构造全卷积网络，以适应语义分割问题。

基于VGG16的FCN模型经过每次池化操作后输出的数据体变为原来的1/2，第5次池化操作后输出尺寸为

将其后3层全连接层转换为卷积层，卷积核的大小分别为1×1×4096，1×1×4096和1×1×N，最终输出

的数据体。这里N是指目标对象类别的个数，例如PASCAL VOC 2012数据集中共有20个对象类别加一个背景，即N＝21。为提取图像的初始深度特征，将其中第五组卷积模块的标准卷积(即第11至13个卷积层)以及第六组卷积模块的第一个标准卷积(即第14个卷积层)改为空洞卷积，如图3所示。而为了维持部分卷积和池化操作的输出数据体尺寸与输入数据体一致，利用padding对输入数据体进行零值填充，同时设置采样步幅stride＝1。padding的大小通常取p＝(f-1)/2，其中滤波器尺寸f通常为奇数。

本实施例的全卷积VGG16模型，保持全卷积VGG16的前4组卷积模块不动，前3个最大池化层步幅stride＝2，输出通道依次为64，128，256，512。第4个最大池化层开始设置步幅stride＝1，在第5组卷积模块中依次引入扩张率r＝2,4,8的空洞卷积，保持特征的分辨率不变并在不增加计算量的情况下扩大感受野。第5个最大池化层步幅也设为stride＝1，紧接着通道为4096且r＝16的空洞卷积。由于前3次最大池化步幅均为stride＝2，模型最后输出的特征尺寸变为原始图像的1/8，后续添加步幅stride＝8的转置卷积进行上采样，可将其恢复成原始图像的分辨率大小，从而在对每个像素产生预测的同时保留原始图像的空间信息。

图像语义分割时先通过高斯函数对原始图像进行预处理生成若干层不同分辨率的图像，形成图像金字塔，每一层图像均输入一层该全卷积VGG16模型中，结合不同层级的特征输出，对多种尺度的信息予以整合。一方面，细粒度或者说相对局部的信息对于提高像素级别标注的正确性来说是关键的，另一方面，整合图像的全局上下文信息对于解决局部模糊性问题来说也十分重要。在高层抽象的语义信息与低层精确的细节信息之间取得平衡，能够最大限度地提高输出空间的精度。

具体的，本实施例通过原始图像构建四层图像金字塔，金字塔是一组图层，由底层至顶层，图层尺寸依次减小，分辨率依次降低，将图像金字塔的各个图层输入相同层数的、并行的上述全卷积VGG16模型，相当于提取了原始图像不同层级的特征。

在特征融合时，并不直接融合所有的层级特征，而使上一层的输出特征与下一层第5个最大池化层的输出特征融合，如此自顶向下逐层融合至底层。作为相对局部与相对全局的信息先行融合，可以将不同尺度的上下文特征逐层嵌入到网络架构的最后一层分支，这个逐步调优过程在得到很好的细节基础上获得了尽可能强的语义信息，以更好地恢复由于分辨率降低而丢失的空间精度。

如图4所示，从顶层1/8大小的图像开始提取得到1/64分辨率的特征，为了获得高质量的分割，从下一层开始将上一层得到的输出特征与当前层第5个最大池化层的输出特征融合，从而有效地集成不同区域的上下文，逐步细化。为了从特征图中得到最终的分割效果，需要在最后一层全卷积VGG16模型进行步幅stride＝8的上采样操作，并加上softmax对各像素归属不同类别的概率进行评估。

本实施例的特征融合策略如下：如图5所示，设上一层的输出特征I₁尺寸为

则下一层第5个最大池化层的输出特征I₂尺寸为W×H×C₂，首先利用双线性插值法对I₁进行步幅stride＝2的空间上采样，使之与I₂的空间分辨率相同。上采样后的特征输入扩张率r＝2的3×3空洞卷积操作，细化上采样后的特征，新特征的空间分辨率为W×H×C₁。空洞卷积可以从一系列原始邻接像素中合并特征信息，相比转置卷积上采样，使用双线性插值法紧跟空洞卷积操作只需要很小的卷积核就能获得同样大小的感受野，占用更少的计算资源。将该新特征与I₂按通道维度进行串联拼接，得到W×H×(C₁+C₂)的特征，然后输入r＝16的3×3空洞卷积操作，得到分辨率为W×H×C₃的融合特征。本模型中的C₁＝N即目标类别的个数，C₂＝512即第5个池化模块的输出，C₃＝4096。将该融合特征继续送入当前层的最后两个卷积层，得到该层最终提取的输出特征。

进一步，本实施例利用与图像金字塔中各层图像等分辨率的理想分割图标签来监督每一层提取的输出特征，对损失函数进行改进，提升全卷积网络模型中每一层分支的学习能力。

在给定的T＝4个分支中，每层提取的特征的通道数即训练集中的类别个数为N，第t个分支末尾上采样后的特征F^t的空间分辨率为W_t×H_t，其对应特定坐标位置(w,h,n)的值为F^t _w,h,n。对每层分支加入带权重的softmax交叉熵损失，对应权重为λ_t。将F^t输入到softmax函数中，计算图像中每个像素归属不同类别的概率

softmax函数层的具体公式为：

将预测

映射到真实标签P^t _w,h,n上，最终用于训练的损失函数如式(4)所示：

逐层标签监督策略使得梯度优化更加平滑，模型也更容易训练。监督下的每一层分支各自拥有强大的学习能力，能够学到各个层级丰富的语义特征。通过融合使得最终得到的分割图精度不依赖于任意单独的分支。

将空洞卷积、每一层的初始特征提取、特征融合以及辅助监督的加权损失函数相结合，对全卷积网络模型进行训练，用于语义分割的数据集主要有PASCAL VOC，Cityscapes，Microsoft COCO，CamVid等，在具体实施例中，训练数据集为PASCAL VOC 2012和PASCAL CONTEXT。

引入条件随机场作为全卷积网络模型的后端处理模块，对分割模型的输出进行调优并强化其捕捉细粒度信息，从而将卷积网络的识别能力和全连接条件随机场的定位精度优化能力耦合在一起，在相对细节的层面上恢复对象的轮廓。完成全卷积网络模型训练后，同样的，需要对全连接条件随机场进行训练。

根据像素i和像素j的颜色向量I_i，I_j及空间位置p_i，p_j定义对比度敏感的双核势函数。颜色向量由RGB三维向量组成，位置向量由水平和垂直两个方向组成，定义在颜色向量I_i和I_j以及空间位置p_i和p_j上的两个核函数k_c和k_p分别为：

最终得到双核势函数：

k(f_i,f_j)＝w⁽¹⁾k_c+w⁽²⁾k_p (7)

其中w⁽¹⁾为k_c核函数项的权重，w⁽²⁾为k_p核函数项的权重。k_c项同时定义在像素的空间位置和颜色向量上，其基于相似颜色的邻近像素可能属于同一类别的假设因而称为外观核函数，其中像素的邻近与相似程度由超参数θ_α和θ_β控制。k_p项只定义在像素的空间位置上，用于执行强制平滑以去除孤立的小区域，因而称为平滑核函数，超参数θ_γ的大小决定k_p的平滑程度。

利用高维滤波算法(ADAMS A,BAEK J,DAVIS M A.Fast High-DimensionalFiltering Using the Permutohedral Lattice[J].Computer Graphics Forum,2010,29(2):753-762.)对式(5)，式(6)和式(7)中的参数进行交叉验证，可以加快计算速度。

在一示例性实施例中，采用PASCAL VOC 2012和PASCAL CONTEXT两个数据集进行评估，电子设备为计算机，处理器101包括Core i7处理器，3.6GHz主频，48G内存，以及GPU(NVIDIA GTX 1080)，代码运行在TensorFlow深度学习框架上。

PASCAL VOC 2012是目前语义分割领域中最常用的数据集(EVERINGHAM M,ESLAMIS M A,Van G L,et al.The PASCAL Visual Object Classes Challenge:ARetrospective[J].International Journal of Computer Vision,2015,111(1):98-136.)，其分割基准涉及20个前景类别，包括飞机(Aero)、自行车(Bike)、船(Boat)、公共汽车(Bus)、汽车(Car)、摩托车(Mbike)、火车(Train)、瓶子(Bottle)、椅子(Chair)、餐桌(Table)、盆栽(Plant)、沙发(Sofa)、电视机(Tv)、鸟(Bird)、猫(Cat)、牛(Cow)、狗(Dog)、马(Horse)、羊(Sheep)和人(Person)，以及1个背景类别。最初该数据集包含1464张用于训练的图像，1449张用于验证的图像和1456张用于测试的图像，随后Hariharan等(HARIHARANB,BOURDEV L,ARBELAEZ P,MALIK J,et al.Semantic Contours from Inverse Detectors[C].Proceedings of IEEE International Conference on ComputerVision.Barcelona:IEEE Press,2011:991-998.)为该数据集提供了额外的注释增强，将训练集的数量扩充至10582张。本实施例使用的是PASAL VOC 2012扩充数据集，由于其数据量较大，具有比原始PASCAL VOC 2012数据集得到更加广泛的关注和应用。

PASCAL CONTEXT数据集(MOTTAGHI R,CHEN X,LIU X,et al.The Role ofContext for Object Detection and Semantic Segmentation in the Wild[C].Proceedings of IEEE Conference on Computer Vision and PatternRecognition.Washington,DC:ACM Press,2014:891-898.)是比PASCAL VOC 2012更加具有挑战性的自然数据集，提供了对整幅图像的标注，同时标注了不同的类别和场景，包括4998张用于训练的图像和5105张用于验证的图像。该数据集总共包含457个类别，大多数类别出现次数极少，因此通常只对其中59个出现较为频繁的类别进行评估。与PASCAL VOC数据集不同，PASCAL CONTEXT的分割任务既包含对目标类别如飞机，自行车，鸟，船，瓶子等的分割，还包括对背景类别，如天花板，地板，草地，地面的分割。因为其对目标考虑更加全面，划分更加细致，多数标签具有相似的上下文，包含更多易混淆的类别，对模型的分类和分割能力提出了更大的挑战。

已经有许多评估标准被提出用于评估语义分割技术的精度，这些指标通常是像素精度和交并比(IoU)的变体。其中平均交并比(mIoU)是语义分割评价指标常用的标准，计算的是两个集合的交集与其并集的重合比例：

其中，k是前景对象的个数，p_ij是指原本属于第i类却被分类到第j类的像素的数量。

为了生成图像金字塔中的第i+1层，用如式(9)所示的高斯核k_Gaussian对G_i进行预处理并删除每个偶数行和列，生成的图像是其前驱的四分之一。对于边界点而言把已有的点拷贝到另一面的对应位置便可以模拟出完整的矩阵。

全卷积网络模型的训练过程中采用如图6所示的学习率策略，学习率遵循迭代协议：

相比于以固定的步长减小学习率，迭代策略更加高效。实验设置初始学习率lr₀＝0.01，power＝0.9。iter为当前训练迭代的次数，网络的性能随着迭代次数的增加可以逐渐提升，设置最大迭代次数max_iter＝600000，训练中批处理图像张数为20。

为防止过拟合，损失函数中加入了L2正则项做惩罚约束，正则项的权值衰减设为0.0001，并设置动量υ＝0.9。数据增强方面，实验会预先对整个数据集进行预处理，包括随机翻转，0.5到1.5倍的随机缩放，-10度到10度的随机旋转，以及对训练集数据进行逐样本均值削减，在每个样本上减去整个训练集的统计平均值等操作。图7显示了在PASCAL VOC2012以及PASCAL CONTEXT两个数据集上全卷积网络模型训练的收敛情况，图中横坐标是迭代次数，纵坐标是对数损失。可以看出，目标的优化过程并非一帆风顺，加权损失函数在训练过程中有所震荡，经过次数较大的迭代之后才会逐渐显现出整体收敛趋势。最终经过600000次迭代逐渐收敛至某个较为优化的区域，基本收敛。

完成前端网络的训练后，将得分图送入全连接条件随机场做后端优化。利用高维滤波算法对式(5)，式(6)和式(7)中的参数进行交叉验证时，使用默认的超参数w⁽²⁾＝5，θ_γ＝3，然后从验证集中选出100张图像的子集进行交叉验证以搜索最佳的w⁽¹⁾，θ_α，θ_β值。在交叉验证中搜索的超参数取值区间设为w⁽¹⁾∈[5,10]，θ_α∈[50,100]，θ_β∈[3,10]，w⁽¹⁾和θ_β每次取值间隔为1，θ_α每次取值间隔为10。平均场迭代次数一般固定为10，实际上迭代5到8次模型便已基本收敛。

图8显示了训练过程中整个模型的性能提升过程。可见在PASCAL VOC2012以及PASCAL CONTEXT测试集上的mIoU随目标函数的优化而逐渐变高，模型的输出精度增加。在PASCAL VOC 2012测试集上，mIoU变化相对平缓，而在数据集更加复杂的PASCAL CONTEXT上，目标类别划分细致且易混淆，以致mIoU性能变化曲线不断震荡，直至接近迭代次数尽头才逐渐平缓，没有再出现大的变化幅度。

本节在PASCAL VOC 2012和PASCAL CONTXET数据集上进行了几种方法的实验比较分析。首先，在PASCAL VOC 2012测试集上与现有的FCN，DeepLab(参考文献12)，DPN，BoxSup(参考文献6)，Piecewise(参考文献10)以及LRR(参考文献13)等算法进行了对比，其中，DPN(CHEN Y P,Li JN,Xiao H X,et al.Dual Path Networks[J].arXiv preprint arXiv:1707.01629,2017.)将两种热门的网络结构ResNet和DenseNet的优点结合到一起，具有高复用率和高冗余度的特点，是一种整体上比较优秀的语义分割架构。

各方法在测试集上的逐类别准确率如表1所示。

表1 PASCAL VOC 2012测试集上逐类别的准确率

为了分析不同对象的分割，列出了PASCAL VOC 2012数据集中所有对象的分割效果。可以看出最好的方法并不是对所有对象的分割效果都是最佳的，一些特殊或者被局部遮挡导致不连通的对象分割难度较大。如台式计算机因主机和显示器分离，分割算法在视觉上很难将两者同时标注为同属一个对象的事物；再如自行车车轮因其圆环形状所以视觉上其中间包含背景或其他对象，算法有时会错误地将其分割为整个圆的效果。在mIoU上本实施例与DeepLab进行比较时，有一半左右的类别准确率高于DeepLab，且部分类别的准确率属于远远高出，最终总的准确率略高于DeepLab。在与前沿的LRR方法进行比较时，本实施例在大部分类别上具有较高的准确率，其中自行车、船、瓶子、椅子、盆栽、沙发、电视等类别上比LRR高出3％，有的甚至高出15％到20％，这些类别都是分割难度较大且易混淆的类别。由于本方法由粗到细融合了多个层级的特征，因此在处理有较多细节的自行车、椅子、盆栽等类别时具有特征提取上的优势，可以分割出较为精细的目标，对于奶牛，羊，狗等具有相似外观的类别目标，也能够分割出复杂语义类别的精确像素。

从表1可见，从FCN到LRR和DeepLab，大多数算法在准确率方面都在不断提升，而DeepLab和DPN也使用了条件随机场做后端处理操作，但受到基本卷积网络特征表达能力的限制，虽然能够较好地识别目标类别，在对象边界的细节问题上往往缺乏一致性。而本发明方法从粗粒度图像语义分割网络中获取了各个层级丰富的语义特征和细节特征，最终取得了更好的语义分割效果，在PASCAL VOC 2012上取得了80.5％的准确率，比DeepLab高出0.8％，比LRR高出1.2％，说明提出的特征融合策略的确改进了卷积网络在语义分割问题上的有效性。部分方法也采用了类似空洞卷积的结构，但未在此基础上平衡对象分类的准确率与目标边界的精度之间的矛盾，本发明方法在这一方面拥有明显的优势。

图9展示了几种比较方法的图像语义分割效果。可以看出DPN和DeepLab方法对于栏杆边上的马的处理有明显的分割错误，栏杆没有完全识别出来，更是将马的后半身误识别为沙发，而本发明方法相对而言效果更好，体现出强大的图像语义细节识别能力。在人和沙发一栏，沙发部分被遮挡，沙发的视觉外观和椅子又非常相似，二者属于易混淆类别。这其中，FCN只简单识别出了沙发却不能很好地分割像素，DPN更是错误地将沙发识别为椅子，DeepLab在此处效果甚至低于FCN，而本方法除去细微的误识别之外，基本能够准确分割，说明了层级特征融合使得图像语义精细化对分割效果的有效性。

除PASCAL VOC 2012数据集外，本发明方法还在PASCAL CONTEXT数据集常用的59个类别上进行相关实验，并将测试结果与FCN，Piecewise，DeepLab等方法进行比较。

各方法的准确率数据如表2所示。

表2 PASCAL CONTEXT测试集上的准确率比较

在众多比较方法中，算法采用的架构起到了比较重要的作用，使用了更深层主干网络的方法如VeryDeep(WU Z,SHEN C,and ANTON V D H.Bridging Category-Level andInstance-Level Semantic Image Segmentation[J].arXiv preprint arXiv:1605.06885,2016.)和DeepLab等都取得了较好的结果。2017年CVPR中的CAMN方法(ABDULNABI A H,SHUAI B,Winkler S,et al.Episodic CAMN:Contextual Attention-Based Memory Networks with Iterative Feedback for Scene Labeling[C].Proceedings of IEEE Conference on Computer Vision and PatternRecognition.Honolulu,Hawaii,USA:IEEE Press,2018:6278-6287.)在FCN的基础上加入了细化后处理和融合上下文的RNN网络，准确率有了较大提升。本发明方法比VeryDeep准确率高1.4％，比DeepLab高0.2％，大大高于FCN和CRFasRNN(ZHENG S,JAYASUMANA S,VineetV,et al.Conditional Random Fields as Recurrent Neural Networks[C].Proceedingsof IEEE International Conference on Computer Vision,Santiago.Chile:IEEEPress,2015:1529-1537.)，在道路、地面、草地、树等语义近似而细节纹理不同的类别上表现出更好的分类性能，对存在较多难分类以及易混淆样例的数据集具有很好的鲁棒性。与PASCAL VOC 2012相比，PASCAL CONTEXT数据集包含更多相似的上下文，若融合更多的全局上下文特征，则性能上还有提升空间。实验效果证明，本发明提出的特征融合架构与辅助监督的加权损失函数大大增加了网络的判别能力，在对复杂场景进行语义分割时，起到了显著作用。

由以上结果可知，与当前表现较好的语义分割方法相比，本方法在PASCAL VOC2012和PASCAL CONTEXT数据集上的实验效果均有性能上的提升，能很好地平衡对象分类的准确率与目标分割的精度之间的矛盾，得到相对较优的分割效果。

以上实施例是对本发明的解释，但是，本发明并不局限于上述实施方式中的具体细节，本领域的技术人员在本发明的技术构思范围内进行的多种等同替代或简单变型方式，均应属于本发明的保护范围。

Claims

1.一种图像语义分割方法，其特征在于，包括：

2.根据权利要求1所述的图像语义分割方法，其特征在于，所述全卷积网络模型训练中，利用与图像金字塔中各层图像等分辨率的理想分割图标签来监督每一层提取的输出特征，改进损失函数。

3.根据权利要求1所述的图像语义分割方法，其特征在于：

每一所述全卷积VGG16模型的第11至14个卷积层的扩张率依次为2、4、8、16，前三个最大池化层步幅为2，后两个最大池化层步幅为1，所述转置卷积层步幅为8。

4.根据权利要求3所述的图像语义分割方法，其特征在于，特征融合策略如下：

对于相邻的两层全卷积VGG16模型，利用双线性插值法对上层的输出特征进行步幅为2的空间上采样，再输入扩张率为2的3×3空洞卷积操作，所得特征与下层第5个最大池化层的输出特征进行串联拼接，然后依次输入该下层的后续卷积层，得到该下层的输出特征。

5.根据权利要求1所述的图像语义分割方法，其特征在于，全连接条件随机场的建模过程如下：

根据像素i和像素j的颜色向量I_i和I_j以及空间位置p_i和p_j定义两个核函数k_c和k_p分别为：

得到双核势函数为：

k(f_i,f_j)＝w⁽¹⁾k_c+w⁽²⁾k_p

式中，w⁽¹⁾为k_c核函数项的权重，w⁽²⁾为k_p核函数项的权重，θ_α、θ_β和θ_γ均为超参数；

利用高维滤波算法对k_c、k_p和k(f_i,f_j)中的参数进行交叉验证，直至模型收敛。

6.一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的至少一个存储器；

所述至少一个存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-5任一项所述的图像语义分割方法。

7.一种可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理执行时，实现如权利要求1-5中任一项所述的图像语义分割方法。