CN110363728A

CN110363728A - 一种基于语义分割的图像trimap生成方法

Info

Publication number: CN110363728A
Application number: CN201910677503.5A
Authority: CN
Inventors: 胡玉琛; 李猛; 仇文彬
Original assignee: Shanghai Zunyi Business Information Consulting Co Ltd
Current assignee: Shanghai Zunyi Business Information Consulting Co Ltd
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-10-22

Abstract

本发明提供了一种基于语义分割的图像trimap生成方法，包括以下步骤：S1，获取海量原始图像数据与其标注数据；S2，对数据进行预处理，提取为RGB色空间的三维特征数据；S3，将三维特征数据输入深度神经网络模型进行训练，得到权重；S4，利用训练得到的模型权重对新图像进行预测，并使用条件随机场对结果进行优化，得到分割掩码图；S5，对步骤S4中产生的分割掩码图进行图像形态学处理，得到精确的原图trimap图。本发明的方法适用于任何前景物体，并且不局限于简单背景与复杂背景，在抗干扰与鲁棒性上非常优秀，产生的trimap精度高、速度快。

Description

一种基于语义分割的图像trimap生成方法

技术领域

本发明涉及计算机视觉领域，主要针对image matting中数据的输入准备，即原图与其trimap，此处特指一种基于语义分割的图像trimap生成方法。

背景技术

Image matting是在图像中将前景与背景分离，并从中提取出前景的技术。而Image matting技术的输入需要两类数据，一类是图像原图，另一类是与原图对应的trimap图。所谓trimap图是一张灰度图，包含3种颜色，黑色为确定的背景，白色为确定的前景，灰色为未知区域。Image matting所要做的就是计算未知区域，并且将其区分为前景或者背景。

对于图像的原图非常容易获得，此处不再展开。但是要获取与原图对应的trimap图就不是一件容易的事。

在文献[Automatic Trimap Generation for Image Matting]中，Vikas Gupta，Shanmuganathan Raman等人通过超像素分割与K-means聚类，结合传统的数字图像处理技术得到了原图的trimap，但是该方法在处理的过程中步骤复杂，并且对原图的环境背景要求较高。

在中国专利[一种基于grabcut算法的交互式图像分割与融合方法，CN107730528A]中，提出了用grabcut算法进行原图中前景边缘的分割，辅以图像的形态学处理得到原图的trimap图，该方法是通过交互式的操作，无法做到全自动。另外grabcut算法最大的缺点在于，如果图像背景复杂，那么就会得到很多干扰，无法正确得到前景物体的边缘，使得该方法效率大大降低。

在中国专利[一种使用全卷积神经网络生成证件照Trimap图的方法CN108986132A]中提出的方法也使用到了语义分割，但是其存在的问题是该方法仅仅针对证件照有效，并且其直接使用了全卷积神经网络的输出作为trimap，在鲁棒性上降低了很多。

因此，本发明在研究了近些年trimap图生成的方法后，希望提出一种适用于任何前景物体，并且不局限于简单背景与复杂背景，在抗干扰与鲁棒性上非常优秀的基于语义分割的图像trimap生成方法。

发明内容

本发明的目的是针对现有技术中的不足，提供一种适用于任何前景物体，并且不局限于简单背景与复杂背景，在抗干扰与鲁棒性上非常优秀的基于语义分割的图像trimap生成方法。

为实现上述目的，本发明采取的技术方案是：

一种基于语义分割的图像trimap生成方法，包括以下步骤：

步骤S1，获取海量原始图像数据与其标注数据；

步骤S2，对数据进行预处理，提取为RGB色空间的三维特征数据；

步骤S3，将三维特征数据输入深度神经网络模型进行训练，得到权重；

步骤S4，利用训练得到的模型权重对新图像进行预测，并使用条件随机场对结果进行优化，得到分割掩码图；

步骤S5，对步骤S4中产生的分割掩码图进行图像形态学处理，得到精确的原图trimap图。

优选地，步骤S5中，所述图像形态学处理选自泛洪填充、随机腐蚀和随机膨胀。

优选地，步骤S5具体为：第一步泛洪填充，接下来随机腐蚀，最后随机膨胀。

优选地，随机膨胀的像素点设置为15-20个之间。

优选地，步骤S1中，还包括对数据进行增广处理的步骤。

优选地，所述增广处理选自图像翻转、旋转特定角度、亮度色度调整和人为增加图像的噪声。

优选地，步骤S4中，对条件随机场进行多轮迭代以得到最佳的预测效果，其中迭代次数在10次以内。

优选地，所述深度神经网络模型其构建分为三部分：第一部分主体网络，也即特征提取网络；第二部分为上采样网络，即采用deconvolution对主体网络提取到的小尺寸特征进行填充回原输入图像的尺寸大小；第三部分为全连接条件随机场。

本发明优点在于：

本发明的设计来源于实际的工程应用，其核心价值在于通过一整套全自动的方式，生成任意原图的trimap图用于image matting，为全自动的image matting提供数据基础，使得相关设计或者技术人员在进行image matting时可以节省时间与精力。在技术手段上：

1、使用了条件随机场对语义分割的输出结果进行了处理，得到了更为精确的语义输出边界结果；

2、采用图像形态学对语义分割结果首先进行泛洪填充的处理，可以将原本可能预测错误的语义分割结果进行一步进行校正，得到更为精确的语义分割图像，提高了语义分割输出的鲁棒性；

3、为了确保trimap图中前景与背景的准确性，首先采用了随机腐蚀的操作，其后对腐蚀操作的结果再进行随机膨胀，由此能得到精确的前景与背景，以及前景与背景边缘处的未知区域，为image matting得到了优质的输入数据。

本发明一旦投入应用，可以实现以下技术效果：

1、经过大量的实验与测试，本发明方法在产生的原图像trimap图的精度可以达到约95％，可以达到了产品级应用。

2、经过大量的试验与测试，本发明方法产生一张原图trimap图的时间约为800ms，而人工手动去用ps找到原图中前景物体的边界从而产生trimap的方式的时间约为2-3秒，效率提升了约2-4倍。

3、本发明方法对任意背景、任意前景图像均可适用，并不局限于单一背景或者单一前景。

附图说明

附图1是本发明基于语义分割的图像trimap生成方法实施流程示意图。

具体实施方式

下面结合附图对本发明提供的具体实施方式作详细说明。

实施例1

为了解决复杂背景、多目标前景下图像的image matting，需要产生原始图像的trimap图输入image matting算法进行计算，得到确定的前景，本发明采用了基于语义分割的方法来产生原始图像的trimap图。采用深度学习神经网络来对语义信息进行预测，并使用条件随机场对结果进行优化，得到分割图，然后通过图像形态学处理，得到精准的trimap图。本发明的主要流程如下：

步骤S1，获取海量原始图像数据与其标注数据，并且对数据进行增广处理比如翻转、旋转、图像亮度等处理，为训练做准备；

步骤S5，对步骤S4中产生的分割掩码图进行图像形态学处理，比如腐蚀膨胀，得到精确的原图trimap图。

实施例2

请参见图1，图1是本发明基于语义分割的图像trimap生成方法实施流程示意图。所述基于语义分割的图像trimap生成方法包括以下主要流程：

S1、数据预处理：

图像原图的数据格式采用jpg格式，而原图的语义分割标注数据集采用png格式。为了使数据量得到增加，以及让训练出来的网络模型能够更加健壮，提升网络模型的泛化能力，这里对原始标注数据集进行增广处理。这里举几个简单图像增广的例子，图像翻转、旋转特定角度、亮度色度调整以及人为增加图像的噪声等等。

所述步骤S1中，为了训练模型而使用的图像增广处理方法，不同于图像分类或检测，在训练语义分割模型中如果使用不当将造成模型的损失无限增大，无法收敛的情况。在语义分割的图像增广中应该避免使用对图像像素值级别的更改的增广。

S2、深度神经网络构建与训练：

S21、深度神经网络构建分为三部分，第一部分主体网络，也即特征提取网络；第二部分为上采样网络，即采用deconvolution对主体网络提取到的小尺寸特征进行填充回原输入图像的尺寸大小；第三部分为全连接条件随机场。

以上S21中所述的主体网络可以采用VGG、ResNet等常用的网络，其中卷积层可以使用常规卷积，可以使用带洞的卷积等，主体网络并无特殊需求，目的仅在于提取到有用的图像特征，相当于对原图像进行编码；

以上S21中所述的上采样网络采用由deconvolution卷积与unpooling操作组成的网络，将主体网络提取到的小尺寸特征进行上采样，将小尺寸特征图填充回原图的尺寸大小。对于上采样网络的层数也没有特定的要求，可以根据自己计算设备的计算能力与小尺寸特征图恢复到原图尺寸的放大倍数进行自行设计。上采样网络对特征图相当于进行解码操作。

以上S21中所述的条件随机场将连接上采样网络的输出。由于上采样网络的输出在语义分割的精细度上有所欠缺，因此连接一个条件随机场可以有效地提高预测的准确度，另外可以对条件随机场进行多轮迭代以得到最佳的效果，一般迭代次数在10次以内为佳。

S22、当网络全部准备完毕后就是采用端到端的训练，训练过程可以采用随机梯度下降、Adam、Adagrad等优化算法，同时为了加快收敛可以采用预训练模型进行微调，比如如果主体网络选择了ResNet101网络，可以找到相应的预训练网络进行初始化后开始训练。

总的来说，步骤S2完成了：对数据进行预处理，提取为RGB色空间的三维特征数据；将三维特征数据输入深度神经网络模型进行训练，得到权重；利用训练得到的模型权重对新图像进行预测，并使用条件随机场对结果进行优化，得到分割掩码图。

S3、trimap的生成：

采用图像形态学对语义分割输出的掩码图进行处理。

S31、由于无法保证语义分割输出的结果一定完全正确地预测了图像中的前景物体，极端情况下可能将背景中的部分内容预测成前景物体，或者将前景中的部分内容预测成背景，因此在图像形态学处理上需要做的第一步是泛洪填充。泛洪填充可以将原来是背景内容由于预测错误而成为前景的内容，重新成为背景，或者将原来是前景内容由于预测错误而成为背景的内容重新成为前景。泛洪填充增加了语义分割输出的鲁棒性。

S32、接下来为了保证前景的确定性，需要将前景往内收缩，采用随机腐蚀操作，腐蚀的像素点设置在5-10个之间为佳。

S33、对语义分割图完成随机腐蚀之后，再进行随机膨胀操作，膨胀的像素点设置为15-20个之间为佳。由此，得到了在前景与背景的边界之间得到了trimap图中最重要的未知区域，这个未知区域就是image matting算法需要去计算的区域。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

Claims

1.一种基于语义分割的图像trimap生成方法，其特征在于，包括以下步骤：

步骤S1，获取海量原始图像数据与其标注数据；

2.根据权利要求1所述的基于语义分割的图像trimap生成方法，其特征在于，步骤S5中，所述图像形态学处理选自泛洪填充、随机腐蚀和随机膨胀。

3.根据权利要求1所述的基于语义分割的图像trimap生成方法，其特征在于，步骤S5具体为：第一步泛洪填充，接下来随机腐蚀，最后随机膨胀。

4.根据权利要求2或3所述的基于语义分割的图像trimap生成方法，其特征在于，随机膨胀的像素点设置为15-20个之间。

5.根据权利要求1所述的基于语义分割的图像trimap生成方法，其特征在于，步骤S1中，还包括对数据进行增广处理的步骤。

6.根据权利要求5所述的基于语义分割的图像trimap生成方法，其特征在于，所述增广处理选自图像翻转、旋转特定角度、亮度色度调整和人为增加图像的噪声。

7.根据权利要求1所述的基于语义分割的图像trimap生成方法，其特征在于，步骤S4中，对条件随机场进行多轮迭代以得到最佳的预测效果，其中迭代次数在10次以内。

8.根据权利要求1所述的基于语义分割的图像trimap生成方法，其特征在于，所述深度神经网络模型其构建分为三部分：第一部分主体网络，也即特征提取网络；第二部分为上采样网络，即采用deconvolution对主体网络提取到的小尺寸特征进行填充回原输入图像的尺寸大小；第三部分为全连接条件随机场。