CN108345887B

CN108345887B - 图像语义分割模型的训练方法及图像语义分割方法

Info

Publication number: CN108345887B
Application number: CN201810085275.8A
Authority: CN
Inventors: 袁春; 黎健成
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2018-01-29
Filing date: 2018-01-29
Publication date: 2020-10-02
Anticipated expiration: 2038-01-29
Also published as: CN108345887A

Abstract

本发明公开了一种图像语义分割模型的训练方法及图像语义分割方法，训练方法包括：将预先标注语义分割信息的训练图像分别输入到至少两个基础语义分割子模型中，得到对应的至少两个包含语义信息的特征图；将至少两个特征图及其预先标注的语义分割信息同时输入到注意力模型中，以计算出每个特征图的权重；利用融合单元将至少两个所述特征图按相应权重进行融合，得到所述训练图像的预测语义分割结果；依据所述训练图像的预测语义分割结果和预先标注的语义分割信息，对至少两个基础语义分割子模型和注意力模型的参数进行修正；利用若干训练图像不断迭代执行上述训练步骤直至至少两个基础语义分割子模型和注意力模型的训练结果满足预设的收敛条件。

Description

图像语义分割模型的训练方法及图像语义分割方法

技术领域

本发明涉及计算机视觉与图像处理领域，尤其是涉及一种基于注意力模型融合的图像语义分割方法和模型的训练方法。

背景技术

图像语义分割是计算机视觉领域中一项重要的研究内容，其目标是将图像分割成具有不同语义信息的区域，并且标注每个区域相应的语义标签，例如通过对一幅图像进行图像语义分割后可为图像中的物体添加语义标签(譬如桌子、墙壁、天空、人、狗等)，可应用于例如无人驾驶等领域。

目前，用于图像语义分割的最主流的解决方案主要基于卷积神经网络(Convolutional Neural Networks，简称CNN)，该网络学习图像的语义特征表示。比如全卷积网络(Fully Convolutional Networks，简称为FCN)通过构建包含卷积层、池化层和反卷积层的卷积神经网络，以端到端的方式将任意大小的输入图像转换为像素级的分类结果，为研究人员和工程师提供了一种简单而有效的方法来解决图像语义分割问题。DeepLab和DilatedNet把全卷积网络中普通卷积替换为扩散卷积使得语义分割预测时结合更多的上下文和场景信息。

然而，这些模型还存在各种各样的问题，特别是对于复杂的对象和多样的场景。例如全卷积网络忽略了图像的全局信息和潜在有用的场景语义上下文信息，因此容易将一些物体的某些部分错误地标注为其他物体。而DeepLab和DilatedNet扩大了滤波器的感受野以融合更多的上下文，但遗漏了详细的信息，会把同一个物体预测成多个标签。

最近一些学者提出融合同一个模型不同层提取的特征或不同模型提取的特征的方法。比较简单的融合方法有求和、求最大值和合并操作。求和即把所有特征图按每个元素进行相加求和；求最大值则把所有特征图按每个元素求最大值而得；合并操作把所有特征按某个维度进行合并操作。这些方法虽然计算简单，但往往只对某些类型的特征适用，而且还有可能融合之后效果提升不明显甚至不如原来的特征。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明针对特征融合效果提升不明显的问题，提出了一种基于注意力模型融合的图像语义分割方法，通过采用多个基础的语义分割子模型对输入图像分别提取出具有语义信息的特征，并通过注意力模型合理地计算出每个特征融合的权重，再依据相应权重进行多个特征图的融合，最后使用融合后的特征进行分割结果的预测，从而达到提高图像语义分割预测准确率的目的。

本发明为达上述目的所提出的其中一种技术方案如下：

一种图像语义分割模型的训练方法，用于训练一基于注意力模型融合的图像语义分割模型，所述图像语义分割模型包括至少两个基础语义分割子模型、一注意力模型以及一融合单元；所述训练方法包括：

S1、将预先标注语义分割信息的训练图像分别输入到所述至少两个基础语义分割子模型中，得到所述训练图像对应的至少两个包含语义信息的特征图；

S2、将所述训练图像的至少两个所述特征图及其预先标注的语义分割信息同时输入到注意力模型中，以通过所述注意力模型计算出所述训练图像的每个特征图的权重；

S3、利用所述融合单元将所述训练图像的至少两个所述特征图按照步骤S2得到的相应权重进行融合，得到所述训练图像的预测语义分割结果；

S4、依据所述训练图像的预测语义分割结果和预先标注的语义分割信息，对所述至少两个基础语义分割子模型和所述注意力模型的参数进行修正；

S5、利用若干训练图像不断迭代执行步骤S1至S4，直至所述至少两个基础语义分割子模型和所述注意力模型的训练结果满足预设的收敛条件。

本发明另还提出了一种图像语义分割方法，包括以下步骤P1和P2：

P1、提供一经过前述训练方法训练得到的基于注意力模型融合的图像语义分割模型；

P2、将待分割图像输入到步骤P1提供的所述图像语义分割模型中，以执行以下分割步骤P21至P23：

P21、分别通过所述至少两个基础语义分割子模型对所述待分割图像进行语义分割，得到所述待分割图像对应的至少两个包含语义信息的特征图；

P22、通过所述注意力模型根据所述待分割图像的至少两个所述特征图及其所述语义信息，计算出所述待分割图像的每个特征图的权重；

P23、通过所述融合单元将所述待分割图像的至少两个所述特征图按照步骤P23得到的相应权重进行融合，得到所述待分割图像的预测语义分割结果。

本发明提出的上述技术方案，所述基于注意力模型融合的图像语义分割模型在采用前述训练方法进行训练后即可用于对待处理(此处“处理”即是指进行图像语义分割)的图像进行图像语义分割，对待处理图像先采用基础语义分割子模型提取出不同的特征图及其语义信息，再采用注意力模型计算每个特征图的权重，再根据权重对特征图进行融合，得到待处理图像的预测语义分割结果，该预测的语义分割结果相对于采用传统的基础语义分割模型(例如FCN、DilatedNet等)得到语义分割结果，以及采用传统的基础语义分割模型之后再进行求最大值、求和的融合所得到的语义分割结果而言，其预测准确率均有提升。

附图说明

图1是本发明提供的基于注意力模型融合的图像语义分割模型的训练方法流程图；

图2是本发明提供的一种示例性的基于注意力模型融合的图像语义分割模型的示意图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步说明。

本发明旨在提供一种基于注意力模型融合的图像语义分割方法，通过对多个基础语义分割子模型输出的含语义信息的特征图采用基于注意力模型的特征权重进行融合，以得到具有较高像素准确率的语义分割结果。为此，本发明的具体实施方式提供了一种基于注意力模型融合的图像语义分割模型，以及对该图像语义分割模型进行训练的方法和使用该图像语义分割模型进行图像语义分割的方法。

参考图2，本发明其中一实施例提供的基于注意力模型融合的图像语义分割模型的示意图，该图像语义分割模型包括至少两个基础语义分割子模型(例如FCN、DilatedNet、DeepLab等)、一注意力模型20以及一融合单元30，对该图像语义分割模型进行训练后，即可用于对输入的图像进行基于注意力模型融合的图像语义分割。

参考图1，对图2所示例的该图像语义分割模型进行训练方法包括以下步骤S1至S5：

步骤S1、将预先标注语义分割信息的训练图像分别输入到所述至少两个基础语义分割子模型中，得到所述训练图像对应的至少两个包含语义信息的特征图。用于训练的训练集包含大量的训练图像P0，对训练图像，可预先采用相关的软件进行图像的语义分割信息标注(像素级别的，标注每个像素所属的类别信息)。以图2为例，对于每一训练图像P0，都同时输入到FCN和DilatedNet两个基础语义分割子模型中，通过基础语义分割子模型对训练图像进行传统的图像语义分割，得到训练图像P0所对应的两个包含了语义信息的特征图FM1和FM2。如果是多个基础语义分割子模型，则对于一训练图像P0而言，就可得到对应个数的特征图。

步骤S2、将所述训练图像的至少两个所述特征图及其预先标注的语义分割信息同时输入到注意力模型中，以通过所述注意力模型计算出所述训练图像的每个特征图的权重。继续图2所示的例子，当得到训练图像P0的两个包含语义信息的特征图FM1和FM2后，又将特征图FM1和FM2输入到注意力模型20中，通过注意力模型进行每个特征图的权重计算，即得到该两个特征图对应的权重w1和w2，这里的权重并非是一个数值，而是以权重图的形式(矩阵)呈现。同样地，特征图也是矩阵的形式。

步骤S3、利用所述融合单元30将所述训练图像的至少两个所述特征图按照步骤S2得到的相应权重进行融合，得到所述训练图像的预测语义分割结果。在一种优选的实施例中，所述融合单元将训练图像P0的至少两个特征图按照步骤S2得到的权重进行融合的过程具体包括：首先，对训练图像P0的每个特征图(特征图是三维矩阵，W×H×m，m表示该特征图所包含的语义信息中的分割元素的数量，不同基础语义分割子模型得到的特征图的m相同)，均从特征图的每个语义分割元素的维度去和相应的权重相乘，即相当于将三维的特征图分成m个二维的矩阵去和该特征图的权重相乘，则该特征图得到m个相乘结果；然后，对训练图像P0的所有特征图(本例中是两个特征图)，将相乘结果按对应元素进行求和，再从求和结果中选取最大值所在的标号作为训练图像P0的预测语义分割结果。

对于步骤S3，也可以是其它按权重进行特征融合的方法，本发明不作限制。

步骤S4、依据所述训练图像的预测语义分割结果和预先标注的语义分割信息，对所述至少两个基础语义分割子模型和所述注意力模型的参数进行修正。此处的参数修正的方法例如可以是采用交叉熵损失函数计算所述预测语义分割结果与所述预先标注的语义分割信息之间的误差，并利用反向传播算法，依据所述误差更新所述基础语义分割子模型和所述注意力模型的参数。

步骤S5、利用若干训练图像不断迭代执行步骤S1至S4，直至所述至少两个基础语义分割子模型和所述注意力模型的训练结果满足预设的收敛条件。利用训练集中的不同训练图像来不断地迭代训练所述图像语义分割模型，当所述交叉熵损失函数计算的所述误差的值小于一预设阈值，或者迭代次数达到预定值时，可认为训练结果收敛，训练结束，得到训练好的所述图像语义分割模型，可直接用于对待处理图像进行基于注意力模型融合的图像语义分割。

图2所示例的基于注意力模型融合的图像语义分割模型的其中一个基础语义分割子模型为FCN，另一个为DilatedNet。当然，也可以还有第三个、第四个……第n个基础语义分割子模型，这些基础语义分割子模型除了可以是FCN、DilatedNet，还可以是其它常用的语义分割模型例如DeepLab等，在此不作限制。

在如图2所示的实施例中，经典的FCN包含依次连接的5个卷积模块(每个卷积模块之后接一个池化层)、3个卷积层和1个反卷积层。图像输入后先经过5个卷积模块，再经过所述3个卷积层和所述1个反卷积层，最后得到FCN语义分割结果(即FCN输出的包含语义信息的特征图)。其中，每个所述卷积模块包含2至3层，每个所述卷积模块内的每个卷积层之后又接一个非线性响应ReLU层。所述3个卷积层中的前两个卷积层也各接一个非线性响应ReLU层，最后一个卷积层则直接连所述反卷积层。

经典的DilatedNet也包括依次连接的5个卷积模块(但其中只有前三个卷积模块之后接池化层，后两个卷积模块不接池化层)、3个卷积层和1个反卷积层，其中第5个卷积模块的卷积层为扩散卷积(Dilated Convolution)。

训练的时候，两个模型FCN和DilatedNet的最后两个非线性响应ReLU层之后可以添加Dropout层使训练结果不容易过拟合。但在训练好之后，正式使用来进行基于注意力模型融合的图像语义分割时，不需要Dropout层。

步骤S1中，得到的特征图则取自基础语义分割子模型中倒数第二个卷积层的输出结果。在前述具体的实施例中，可取FCN和DilatedNet的倒数第二个卷积层后作为分界线，分界线前端是特征提取器，用于提取特征图，分界线后端是像素分类器。即倒数第二个卷积层的输出结果作为特征图。本发明并不对基础语义分割子模型有过多约束，只需提取出合理的具有语义信息的特征图即可。一种优选的方案中，所述基础语义分割子模型的像素分类器可作为交叉熵损失函数的一部分，对基础语义分割子模型的参数进行修正。

在一种优选的实施例中，图2中所示的注意力模型20可以包含两个卷积层，其中：第一个卷积层有512个内核大小为3×3的滤波器；第二个卷积层则是全卷积层，包含至少两个内核大小为1×1的滤波器，第二个卷积层的滤波器的数量与所述基础语义分割子模型的数量保持一致，在图2所示的实施例中，第二个卷积层的滤波器数量为2，输入的特征图合并后依次经过两个卷积层的计算，卷积层之后使用Softmax运算将输出转换为权重图。当然，所述注意力模型也可以不只含有两个卷积层，还可以是其它形式，在此不作限制。

经过前述训练后满足预设收敛条件的图像语义分割模型，可用于对任意待分割图像进行基于注意力模型融合的图像语义分割，具体包括：将待分割图像输入到训练好的所述图像语义分割模型中，所述图像语义分割模型对输入的图像作以下处理：

首先，通过基础语义分割子模型同时对输入的待分割图像进行语义分割，从而每个基础语义分割子模型可输出一个含有语义信息的特征图；接着，得到的至少两个所述特征图同时输入到注意力模型中，注意力模型即可输出两个特征图对应的权重；最后通过所述融合单元将至少两个特征图按照权重进行融合，得到待分割图像的预测语义分割结果。

继续以图2为例对上述图像语义分割过程进行说明：

在使用训练好的所述图像语义分割模型时，输入的图像P0即为待分割图像，该待分割的图像分别输入FCN和DilatedNet中，得到待分割图像P0的两个特征图FM1和FM2，再将两个特征图FM1和FM2输入到注意力模型20中，通过注意力模型20的两个卷积层(此处只是举例)进行计算后又采用Softmax运算，即可输出两个特征图对应的权重图w1和w2。再利用融合单元，按照训练时步骤S3对训练图像的特征图进行融合处理的方法，对待分割图像的两个特征图按权重进行融合，得到待分割图像的预测语义分割结果P。

在优选的实施例中，输入的待分割图像P0还可预先进行一些图像预处理，比如：缩放、旋转、平移、减均值等，但不限于此。另外，还可对预测语义分割结果P进行一些譬如修正等后处理操作，例如进行包括但不限于DenseCRF的修正处理。

为了验证本发明提出的基于注意力模型融合的图像语义分割方法的有效性，下面将与现有的融合算法进行对比。其中用于对比的传统算法包括求和融合操作和求最大值融合操作，数据集则使用公开常用的数据集SIFT Flow、PASCAL-Context和ADE20K，评价标准采用广泛使用的平均交并比(Mean IoU)和总体像素准确率(PixelAccuracy)，所得结果如下表1所示：

表1

平均交并比表示先对每个分割类别计算预先标注的语义分割信息与预测语义分割结果的交并比，再按类别取平均值。预先标注的语义分割信息与预测语义分割结果的交并比则指二者的交集与二者的并集之比，亦即正确预测的像素数量除以预测或标注为该类别的像素数量。总体像素准确率则指所有正确预测的像素数量除以所有像素数量。从表1中可以看出本发明提出的算法比基础语义分割模型(FCN、DilatedNet)和简单的融合方法(MAX、SUM)的预测效果要好，语义分割准确率更高。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种图像语义分割模型的训练方法，其特征在于：用于训练一基于注意力模型融合的图像语义分割模型，所述图像语义分割模型包括至少两个基础语义分割子模型、一注意力模型以及一融合单元；

所述训练方法包括：

S3、利用所述融合单元将所述训练图像的至少两个所述特征图按照步骤S2得到的相应权重进行融合，得到所述训练图像的预测语义分割结果；具体包括：S31、对所述训练图像的每个特征图，均从该特征图的每个语义分割元素的维度去和相应的权重相乘；其中，语义分割元素从所述特征图的所述语义信息中得到；S32、对所有特征图，将相乘结果按对应元素进行求和；S33、从求和结果中选取最大值所在的标号，作为所述训练图像的预测语义分割结果；

2.如权利要求1所述的训练方法，其特征在于：所述基础语义分割子模型为FCN、DeepLab或DilatedNet。

3.如权利要求1所述的训练方法，其特征在于：所述预先标注的语义分割信息包含所述训练图像的每个像素的物体类别信息。

4.如权利要求1所述的训练方法，其特征在于，步骤S4具体包括：利用交叉熵损失函数计算所述预测语义分割结果与所述预先标注的语义分割信息之间的误差，并利用反向传播算法，依据所述误差更新所述基础语义分割子模型和所述注意力模型的参数。

5.如权利要求4所述的训练方法，其特征在于，步骤S5中所述训练结果满足预设的收敛条件是指所述交叉熵损失函数计算的所述误差的值小于一预设阈值，或者迭代次数达到预定值。

6.一种图像语义分割方法，其特征在于，包括以下步骤P1和P2：

P1、提供一基于注意力模型融合的图像语义分割模型，该图像语义分割模型包括至少两个基础语义分割子模型、一注意力模型以及一融合单元；并采用权利要求1至5任一项所述的训练方法对该图像语义分割模型进行训练；

7.如权利要求6所述的图像语义分割方法，其特征在于，步骤P23具体包括以下子步骤：

P231、对所述待分割图像的每个特征图，均从该特征图的每个语义分割元素的维度去和相应的权重相乘；其中，语义分割元素从所述待分割图像的特征图的所述语义信息中得到；

P232、对所述待分割图像的所有特征图，将相乘结果按对应元素进行求和；

P233、从子步骤P232的求和结果中选取最大值所在的标号，作为所述待分割图像的预测语义分割结果。

8.如权利要求6所述的图像语义分割方法，其特征在于，还包括对所述待分割图像的预测语义分割结果进行包括修正处理的后处理操作。