CN111292330A

CN111292330A - 基于编解码器的图像语义分割方法及装置

Info

Publication number: CN111292330A
Application number: CN202010082637.5A
Authority: CN
Inventors: 青晨; 禹晶; 杨亚飞; 肖创柏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2020-06-16

Abstract

本发明实施例提供一种基于编解码器的图像语义分割方法及装置，该方法包括：将待检测图像输入至预设的图像语义分割网络模型的编码器，利用卷积网络提取特征后，分别输入多个不同尺寸池化层，根据多个不同尺寸池化层的输出结果进行特征融合，得到待检测图像的高层语义特征图；将特征图输入图像语义分割网络模型的解码器，得到语义分析的检测结果；其中，图像语义分割网络模型根据带有确定的语义标签的样本图像进行训练后得到。由于多个不同尺寸池化层融合了局部和全局信息，多尺度的感受域有助于不同尺寸目标的学习，从而能够得到准确的待检测图像的高层语义特征图。利用解码器进行分析后，得到语义分析的检测结果中目标边界的分割精度更高。

Description

基于编解码器的图像语义分割方法及装置

技术领域

本发明涉及基于深度学习的语义分割领域，尤其涉及一种基于编解码器的图像语义分割方法及装置。

背景技术

图像语义分割是计算机视觉领域中的一项关键技术，对图像理解、场景解析和目标跟踪等任务起着至关重要的作用。语义分割是像素级的图像理解，即对图像中的每一个像素标注所属的类别，其任务是将图像分割成若干个有意义的目标，并为各个目标分配指定类型标签。传统的图像分割方法根据图像的颜色、纹理信息和空间结构等特征将图像分割成不同的区域，同一区域内具有一致的语义信息，不同区域之间属性不同。从最简单的阈值分割、区域生长、边缘检测到图划分(Graph partitioning)的分割方法，图像分割方法层出不穷。

目前的由编码器网络和相应的解码器网络实现的方法，在编码器网络中，将图像输入一个预训练的分类网络生成低分辨率的特征图，而在解码器中，通过上采样将低分辨率的特征图映射到原图像尺寸，产生像素级的语义标签，从而获得语义分割的结果。虽然在一定程度上提高了预测结果的准确率，但是目标边界的分割精度仍然有待提高。

发明内容

为了解决上述问题，本发明实施例提供一种基于编解码器的图像语义分割方法及装置。

第一方面，本发明实施例提供一种基于编解码器的图像语义分割方法，包括：将待检测图像输入至预设的图像语义分割网络模型的编码器，利用卷积网络提取特征后，分别输入多个不同尺寸池化层，根据多个不同尺寸池化层的输出结果进行特征融合，得到待检测图像的特征图；将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果；其中，所述图像语义分割网络模型根据带有确定的语义标签的样本图像进行训练后得到。

进一步地，所述根据多个不同尺寸池化层的输出结果进行特征融合之前，还包括：对多个池化层的输出结果分别进行批标准化和1×1的卷积操作，以使融合后的特征通道数与卷积层提取的特征图通道数一致。

进一步地，所述将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果，包括：获取编码器的卷积网络提取的低层特征；对待检测图像的特征图进行上采样，得到与所述低层特征维度相同的特征图；将所述低层特征和上采样后的特征图进行特征融合，并进行上采样得到与待检测图像相同维度的特征图；根据所述与待检测图像相同维度的特征图，得到语义分析的检测结果。

进一步地，所述进行上采样，包括：基于双线性插值进行上采样。

进一步地，所述卷积网络包括ResNet101网络。

进一步地，所述将待检测图像输入至预设的图像语义分割网络模型的编码器之前，还包括：获取多个带有确定的语义标签的样本图像；基于包含动量系数的随机梯度下降法和poly学习率更新策略，对建立的图像语义分割网络模型进行训练，以得到所述预设的图像语义分割网络模型。

进一步地，所述获取多个带有确定的语义标签的样本图像之后，还包括：对样本图像进行图像扩张处理；所述图像扩增处理的方式包括，图像水平镜像、图像尺度随机放缩和图像尺寸随机裁剪。

第二方面，本发明实施例提供一种基于编解码器的图像语义分割装置，包括：编码模块，用于将待检测图像输入至预设的图像语义分割网络模型的编码器，利用卷积网络提取特征后，分别输入多个不同尺寸池化层，根据多个不同尺寸池化层的输出结果进行特征融合，得到待检测图像的特征图；解码模块，用于将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果；其中，所述图像语义分割网络模型根据带有确定的语义标签的样本图像进行训练后得到。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本发明第一方面基于编解码器的图像语义分割方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面基于编解码器的图像语义分割方法的步骤。

本发明实施例提供的基于编解码器的图像语义分割方法及装置，由于多个不同尺寸池化层构成的多尺度池化模型融合了局部和全局信息，多尺度的感受域有助于不同尺寸目标的学习，从而能够得到准确的待检测图像的低分辨率特征图。利用解码器进行分析后，得到语义分析的检测结果中目标边界的分割精度更高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于编解码器的图像语义分割方法流程图；

图2为本发明实施例提供的图像语义分割网络模型结构示意图；

图3为本发明实施例提供的双线性插值示意图；

图4为本发明实施例提供的基于编解码器的图像语义分割装置结构图；

图5为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的基于编解码器的图像语义分割方法流程图，如图1所示，本发明实施例提供一种基于编解码器的图像语义分割方法，包括：

101、将待检测图像输入至预设的图像语义分割网络模的编码器，利用卷积网络提取特征后，分别输入多个不同尺寸池化层，根据多个不同尺寸池化层的输出结果进行特征融合，得到待检测图像的特征图。

在基于编码-解码器结构的网络中，编码的过程是将检测图像输入一个预训练的分类网络，生成低分辨率的特征图，而解码的过程是通过上采样将低分辨率的特征图映射到原图像尺寸，产生像素级的语义标签，从而获得语义分割的结果。解码器的输出是一个表示图像类别标签(Class label)的矩阵，矩阵中每一个元素的值与像素所属的类别相对应。编码器部分由卷积层和池化层组合形成，解码器部分由上采样层和卷积层组合形成，通过Softmax分类器输出分割结果。如在解码器网络中，最后一个解码器生成一幅多通道的特征图，每个通道对应一种类别，再输入Softmax分类器对每一个像素进行分类。

本发明实施例的卷积网络由多个卷积层构成，可以为ResNet101网络，即本实施例的编码器由ResNet101和多尺度池化模型组成。

现有的深度卷积神经网络一般会在卷积层之后插入池化层减少参数量。池化层最直接的作用是对卷积层进行空间下采样(Down-sampling)。常见的池化操作会对输入特征图的空间尺寸高度与宽度进行下采样。例如，池化核为2×2，步长(stride)为2的池化操作，其池化结果会变为原特征图空间尺寸的一半，即

与

这里W₀为原宽度，H₀为原高度。池化操作主要有平均池化和最大化池化。对于平均池化操作(Averagepooling)，输出值为该区域数值的平均值。而对于最大化池化操作(Max pooling)，输出值为区域数值中的最大值。

本发明实施例中，采用多个池化层构成多尺度池化模型，根据多个不同尺寸池化层的输出结果进行特征融合，主要为通道方向的特征融合，从而得到经多尺度池化模型提取后的待检测图像的特征图(如在多尺度池化模型中，可包括四种不同的池化尺寸，分别为1×1、2×2、3×3和6×6)。

102、将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果；其中，所述图像语义分割网络模型根据带有确定的语义标签的样本图像进行训练后得到。

本实施例中预设的图像语义分割网络模型，已根据带有确定的语义标签的样本图像进行了训练。从而能够实现准确的图像语义分割。得到待检测图像的特征图后，通过解码器的上采样将融合后的低分辨率特征图映射到原图像尺寸，产生像素级的语义标签，从而获得语义分割的结果。

得到语义分析的检测结果具体可以为，选择每个像素对应的最大概率的类别作为像素的最终类别，不同类别对应不同的颜色，通过类别到颜色的映射输出结果分割图。

本发明实施例提供的基于编解码器的图像语义分割方法，由于多个不同尺寸池化层构成的多尺度池化模型融合了局部和全局信息，多尺度的感受域有助于不同尺寸目标的学习，从而能够得到准确的待检测图像的低分辨率特征图。利用解码器进行分析后，得到语义分析的检测结果中目标边界的分割精度更高。

基于上述实施例的内容，作为一种可选实施例，所述卷积网络为ResNet101网络。以下以此为例说明。

本实施例中，先将待检测图像输入ResNet101网络，为了提取图像的多尺度信息，将ResNet101输出的特征图送入多尺度池化模型，即多个不同尺寸池化层。同样地，在多尺度池化模型中，可包括四种不同的池化尺寸，分别为1×1、2×2、3×3和6×6，其中1×1池化即全局平均池化，通过全局平均池化能够将图像级特征整合到模型中。图2为本发明实施例提供的图像语义分割网络模型结构示意图，可参见图2所示的编码器部分。

ResNet101是具有101层卷积层的残差网络，其参数如下：第一组是一层卷积层，卷积核大小为7×7，滑动步长为2，第二组、第三组、第四组和第五组分别由3个、4个、23个和3个残差结构构成，残差结构由三个卷积层组成，这三个卷积层的卷积核大小分别为1×1、3×3和1×1。第一组输出特征图的尺寸为112×112，通道数为64；第二组输出特征图的尺寸为56×56，通道数为256；第三组输出特征图的尺寸为28×28，通道数为512；第四组输出特征图的尺寸为14×14，通道数为1024；第五组输出特征图的尺寸为7×7，通道数为2048。表1列出了本发明使用的ResNet101网络配置，具体如下。

表1

基于上述实施例的内容，作为一种可选实施例，所述根据多个不同尺寸池化层的输出结果进行特征融合之前，还包括：对多个池化层的输出结果分别进行批标准化和1×1的卷积操作，以使融合后的特征通道数与卷积层提取的特征图通道数一致。

基于上述实施例的内容，作为一种可选实施例，批标准化包括：对特征数据进行减均值和除方差操作后作归一化处理；对归一化后的处理结果，进行缩放和偏移。

以四种不同的池化尺寸为例，为了保持多尺度特征的权重，即与ResNet101提取的特征图的通道数保持一致，将多尺度池化模型中经过不同池化尺寸后的特征图的通道数分别降为原来的四分之一，即在每个尺度的池化操作后使用1×1的卷积降维，再通过批标准化层生成多尺度池化特征。

批标准化层可包括两个步骤，第一步通过对特征数据减均值和除方差的操作后，进行归一化。设数据子集B＝{x₁，x₂，x₃，...，x_n}，该数据可以是输入数据也可以是某一网络层的输出数据，批标准化层的输出为

首先计算该数据子集的均值：

以及方差：

再进行归一化：

第二步进行缩放和偏移：

其中γ和β是需要网络学习的参数。

本发明实施例中，通过批标准化加快了网络的收敛速度并抑制了过拟合现象，减少了梯度对参数值或初始值的依赖，使网络在使用较大学习速率训练网络参数时，也不会出现梯度爆炸或梯度消失的情况。

基于上述实施例的内容，作为一种可选实施例，所述将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果，包括：获取编码器的卷积网络提取的低层特征；对待检测图像的特征图进行上采样，得到与所述低层特征维度相同的特征图；将所述低层特征和上采样后的特征图进行特征融合，并进行上采样得到与待检测图像相同维度的特征图；根据所述与待检测图像相同维度的特征图，得到语义分析的检测结果。

作为一种可选实施例，将所述低层特征和上采样后的特征进行特征融合后，还包括：对融合后特征进行卷积层提取特征以及1×1的卷积降维后，再进行上采样。

本发明的解码器由高低层特征融合和上采样操作组成，将编码器生成的高层语义特征与深度卷积神经网络中间层输出的低层细节特征相融合，再利用上采样将融合后的低分辨率特征图映射到原图像尺寸，产生像素级的语义标签，从而获得语义分割的结果。

以卷积网络为ResNet101网络为例，将ResNet101中间层输出的特征作为低层细节特征，在ResNet101提取的特征图的基础上添加了多尺度特征，将ResNet101和多尺度池化模型输出的特征图作为高层语义特征。通过高层语义特征与低层细节特征的融合，能够在提取目标语义信息的同时进一步保留目标的细节信息，从而进一步提升网络模型分割结果的准确度。在编码器提取特征的过程中包含多个池化操作，池化过程减小了特征图的尺寸，一方面，为了将多尺度的池化特征图与未送入多尺度池化模型之前特征图进行通道方向的连接，需要保持特征图尺寸一致，因此通过对多尺度的池化特征图进行上采样，将该特征图恢复到未送入多尺度池化模型之前的尺寸。另一方面，在高层语义特征和低层细节特征融合后，也需要上采样操作将融合的特征图恢复到原图像尺寸，产生像素级的语义标签。

具体地，如图2所示的解码器部分，本发明将ResNet101第二组输出的特征作为低层细节特征(通道数为256)。通过对多尺度池化模型输出的特征图(通道数为256)进行双线性插值，使其特征图的尺寸与ResNet101第五组输出的特征图(通道数为2048)尺寸一致，然后将双线性插值后的特征图与ResNet101第五组输出的特征图进行通道方向的连接，将连接后的特征图作为高层语义特征(通道数为4096)。然后分别对低层细节特征和高层语义特征进行1×1的卷积，低层细节特征的维度降维至128个通道，高层语义特征的维度降维至256个通道，然后通过双线性插值将高层语义特征图的尺寸转变为低层细节特征图的尺寸，再将低层细节特征与双线性插值后的高层语义特征进行通道方向的连接，连接后的特征图通道数为384。然后经过一个3×3的卷积细化特征和一个1×1的卷积降维，最终利用上采样(如下述的双线性插值方法)将特征图尺寸恢复为输入图像的尺寸，从而产生像素级的语义标签。

本实施例通过高层语义特征与低层细节特征的融合，将所述低层特征和上采样后的特征进行特征融合，进行上采样后，得到语义分析的检测结果，能够在提取目标语义信息的同时进一步保留目标的细节信息，从而进一步提升网络模型分割结果的准确度。

基于上述实施例的内容，作为一种可选实施例，所述进行上采样，包括：基于双线性插值进行上采样。

本发明使用的上采样方法是双线性插值。双线性插值是在线性插值的基础上进行的扩展，其基本思路是在两个不同坐标方向上先后进行一次线性插值操作。图3为本发明实施例提供的双线性插值示意图，如图3所示，在已知点Q₁₁、Q₁₂、Q₂₁、Q₂₂像素值的情况下，通过双线性插值法在点P处插入对应的像素。首先在x轴方向在点R₁和R₂处进行插值，假设函数f表示某一点处的像素值，已知点Q₁₁(x₁，x₂)、Q₁₂(x₁，y₂)、Q₂₁(x₂，y₁)、Q₂₂(x₂，x₂)的像素值可以用f(Q₁₁)、f(Q₁₂)、f(Q₂₁)、f(Q₂₂)来表示。此时，可以得到R₁(x，y₁)，R₂(x，y₂)处的像素值：

然后在y方向上进行线性插值，得到在点P处插入像素的值：

将f(R₁)和f(R₂)的计算式代入f(P)，最终可得求解插入像素点(x，y)处的像素值f(x，y)：

双线性插值的结果与插值的顺序无关，首先进行y方向的插值，然后进行x方向的插值，所得结果相同。

基于上述实施例的内容，作为一种可选实施例，所述将待检测图像输入至预设的图像语义分割网络模型的编码器之前，还包括：获取多个带有确定的语义标签的样本图像；基于包含动量系数的随机梯度下降法和poly学习率更新策略，对建立的图像语义分割网络模型进行训练，以得到所述预设的图像语义分割网络模型。

多个带有确定的语义标签的样本图像可以为PASCAL VOC 2012数据集，具体应用时，可将PASCAL VOC 2012数据集划分为训练集和测试集两部分，其中训练集包括1464幅图像、测试集包括1452幅图像，训练集和测试集中的每一幅图像都有与其对应的标注图像。

将训练集输入构建的语义分割模型，在模型的输出端可使用如下交叉熵损失函数计算网络传输的损失：

其中，θ是模型参数；M为Batch的值；N为输入图像的像素数；I(y＝k)为指示函数；

为网络预测像素点

属于第κ类的概率，由Softmax函数计算得到，即

其中

为网络在k通道输出的像素点

的值。通过Softmax函数，可以使

的范围在0到1之间。

本发明使用包含动量系数的随机梯度下降法和poly学习率更新策略。学习率是用于调整网络权重的超参数，该参数影响权重的更新幅度。学习率过大可能会无法收敛到最小值，最后在误差最小值附近来回跳动，反之，学习率过小会导致损失函数的收敛速度非常慢。poly学习率更新策略中学习率的计算方式为：

其中L为计算得出的学习率，用于更新随机梯度下降算法中的权重参数，b为初始学习率，i为当前迭代次数，N为训练的最大迭代次数，p为多项式衰减的变化程度(本发明中可设p＝0.9)。当网络迭代到30000个epoch时，停止模型的训练，保存模型。

基于上述实施例的内容，作为一种可选实施例，所述获取多个带有确定的语义标签的样本图像之后，还包括：对样本图像进行图像扩增处理；所述图像扩增处理的方式包括，图像水平镜像、图像尺度随机放缩和图像尺寸随机裁剪。

为了在一定程度上减小过拟合现象，在网络输入端对训练集进行图像扩增处理，以实现在不影响网络训练的情况下增加图像数据多样性。本发明实施例采用的图像扩增方式包括图像水平镜像、图像尺度随机放缩(尺度放缩比例的可选范围在[0.5，2]之间)和图像尺寸为随机裁剪(如513×513的随机裁剪)。

基于上述各实施例的一个具体实例中，基于深度学习框架Tensorflow实现，使用Python语言开发，在单频为2.10GHz的至强ES-2620v4的CPU，内存为64GB的服务器上实现，并使用两块NVIDIAGeforce RTX 2080Ti的GPU实现加速。表2列出了本发明的实验环境配置。

表2

本发明在PASCAL VOC 2012数据集上分别针对FCN、SegNet、DeepLabv1、DPN、DeepLabv3+(ResNet101)和本发明的模型这六种网络模型进行了实验。该数据集包括人类、动物(鸟、猫、牛、狗、马、羊)、交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)、室内物品(瓶子、椅子、餐桌、盆栽植物、沙发、电视)和背景等21个类别。

交并比(IoU)是预测某一种类别的真实值和预测值这两个集合的交集和并集之比，求类别k的交并比，其公式为：

其中，p_ij是将i类预测为j类的像素数，p_ii表示真实值为i，预测值为i的像素数；p_ij表示真实值为i，预测值为j的像素数；p_ji表示真实值为j，预测值为i的像素数。平均交并比是语义分割性能的标准度量值，其计算图像中所有类别的真实值和预测值这两个集合的交集和并集之比的平均值:

其中，一共有c+1个类别(包括个目标类和1个背景类)。表3直观地显示了在PASCAL VOC 2012数据集上的各个语义分割模型的平均交并比(MIoU)。观察表3可以看出，本发明模型在所有类别的交并比均高于其他几个语义分割模型(最大值用加粗标记)。

表3

图4为本发明实施例提供的基于编解码器的图像语义分割装置结构图，如图4所示，该基于编解码器的图像语义分割装置包括：编码模块401和解码模块402。其中，编码模块401用于将待检测图像输入至预设的图像语义分割网络模型的编码器，利用卷积网络提取特征后，分别输入多个不同尺寸池化层，根据多个不同尺寸池化层的输出结果进行特征融合，得到待检测图像的特征图；解码模块402用于将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果；其中，所述图像语义分割网络模型根据带有确定的语义标签的样本图像进行训练后得到。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的基于编解码器的图像语义分割装置，由于多个不同尺寸池化层构成的多尺度池化模型融合了局部和全局信息，多尺度的感受域有助于不同尺寸目标的学习，从而能够得到准确的待检测图像的低分辨率特征图。利用解码器进行分析后，得到语义分析的检测结果中目标边界的分割精度更高。

图5为本发明实施例提供的一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和总线504，其中，处理器501，通信接口502，存储器503通过总线504完成相互间的通信。通信接口502可以用于电子设备的信息传输。处理器501可以调用存储器503中的逻辑指令，以执行包括如下的方法：将待检测图像输入至预设的图像语义分割网络模型的编码器，利用卷积网络提取特征后，分别输入多个不同尺寸池化层，根据多个不同尺寸池化层的输出结果进行特征融合，得到待检测图像的特征图；将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果；其中，所述图像语义分割网络模型根据带有确定的语义标签的样本图像进行训练后得到。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：将待检测图像输入至预设的图像语义分割网络模型的编码器，利用卷积网络提取特征后，分别输入多个不同尺寸池化层，根据多个不同尺寸池化层的输出结果进行特征融合，得到待检测图像的特征图；将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果；其中，所述图像语义分割网络模型根据带有确定的语义标签的样本图像进行训练后得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于编解码器的图像语义分割方法，其特征在于，包括：

将待检测图像输入至预设的图像语义分割网络模型的编码器，利用卷积网络提取特征后，分别输入多个不同尺寸池化层，根据多个不同尺寸池化层的输出结果进行特征融合，得到待检测图像的特征图；

将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果；

其中，所述图像语义分割网络模型根据带有确定的语义标签的样本图像进行训练后得到。

2.根据权利要求1所述的基于编解码器的图像语义分割方法，其特征在于，所述根据多个不同尺寸池化层的输出结果进行特征融合之前，还包括：

对多个池化层的输出结果分别进行批标准化和1×1的卷积操作，以使融合后的特征通道数与卷积层提取的特征图通道数一致。

3.根据权利要求1所述的基于编解码器的图像语义分割方法，其特征在于，所述将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果，包括：

获取编码器的卷积网络提取的低层特征；

对待检测图像的特征图进行上采样，得到与所述低层特征维度相同的特征图；

将所述低层特征和上采样后的特征图进行特征融合，并进行上采样得到与待检测图像相同维度的特征图；

根据所述与待检测图像相同维度的特征图，得到语义分析的检测结果。

4.根据权利要求1-3任一项所述的基于编解码器的图像语义分割方法，其特征在于，所述进行上采样，包括：

基于双线性插值进行上采样。

5.根据权利要求1所述的基于编解码器的图像语义分割方法，其特征在于，所述卷积网络包括ResNet101网络。

6.根据权利要求1所述的基于编解码器的图像语义分割方法，其特征在于，所述将待检测图像输入至预设的图像语义分割网络模型的编码器之前，还包括：

获取多个带有确定的语义标签的样本图像；

基于包含动量系数的随机梯度下降法和poly学习率更新策略，对建立的图像语义分割网络模型进行训练，以得到所述预设的图像语义分割网络模型。

7.根据权利要求6所述的基于编解码器的图像语义分割方法，其特征在于，所述获取多个带有确定的语义标签的样本图像之后，还包括：

对样本图像进行图像扩增处理；

所述图像扩增处理的方式包括，图像水平镜像、图像尺度随机放缩和图像尺寸随机裁剪。

8.一种基于编解码器的图像语义分割装置，其特征在于，包括：

编码模块，用于将待检测图像输入至预设的图像语义分割网络模型的编码器，利用卷积网络提取特征后，分别输入多个不同尺寸池化层，根据多个不同尺寸池化层的输出结果进行特征融合，得到待检测图像的特征图；

解码模块，用于将所述特征图输入所述图像语义分割网络模型的解码器，得到语义分析的检测结果；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于编解码器的图像语义分割方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于编解码器的图像语义分割方法的步骤。