CN109145922B

CN109145922B - 一种自动抠图系统

Info

Publication number: CN109145922B
Application number: CN201811052988.0A
Authority: CN
Inventors: 张靖淇; 徐滢
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2018-09-10
Filing date: 2018-09-10
Publication date: 2022-03-29
Anticipated expiration: 2038-09-10
Also published as: CN109145922A

Abstract

本发明公开一种自动抠图系统，包括：主体检测模块，用于对待抠图图像中所需抠取的主体进行检测，获取包含所述主体的主体框；主体分割模块，用于对所述主体框中的像素进行分类，获取trimap图；抠图模块，用于根据所述trimap图抠取出所述主体框中的主体；所述主体检测模块为训练后的全卷积深度神经网络；所述主体分割模块和抠图模块均为训练后的Encoder/Decoder结构的全卷积深度神经网络。本发明提供的技术方案，能够自动地将主体从各种背景中分离，从而大大提高抠图效率。

Description

一种自动抠图系统

技术领域

本发明涉及深度学习技术领域，尤其涉及一种自动抠图系统。

背景技术

在摄影摄像技术中，对高精度的抠图一直有着强烈的需求，例如，影视的后期特效合成、影楼照片的精细修图等。这里所说的高精度是指，抠图过程中，除了能将主体从背景中分离出来之外，还能将主体中难以分离的部位准确地从背景中分离，如人物的头发丝、纱质的半透明衣物等，主体从背景中分离的精度越高，后续的合成效果就越真实、自然。

现有技术对于高精度的抠图，通常需要依赖前期特殊的拍摄手法和大量的人工手动抠图。例如，需要在绿幕等纯色背景下进行拍摄，以方便后期的图像处理。而对于自然场景下拍摄的背景复杂的照片，更是需要专业的修图人员使用专业的修图软件进行手工抠图。可见，现有技术的操作非常麻烦，抠图效率低下。且对于前景和背景颜色差异较小的照片，采用现有技术所获得的抠图效果不够理想。

发明内容

本发明旨在提供一种自动抠图系统，能够自动地将主体从各种背景中分离，从而大大提高抠图效率。

为达到上述目的，本发明采用的技术方案如下：

一种自动抠图系统，包括：主体检测模块，用于对待抠图图像中所需抠取的主体进行检测，获取包含所述主体的主体框；主体分割模块，用于对所述主体框中的像素进行分类，获取trimap图；抠图模块，用于根据所述trimap图抠取出所述主体框中的主体；所述主体检测模块为训练后的全卷积深度神经网络；所述主体分割模块和抠图模块均为训练后的Encoder/Decoder结构的全卷积深度神经网络。

进一步地，还包括：抠图细节增强模块，用于增强所述trimap图的细节；所述抠图模块根据增强细节后的trimap图抠取出所述主体框中的主体。

优选地，所述抠图细节增强模块包括：锐化模块，用于对所述抠图模块的Encoder网络预定层的输出特征进行锐化，获取细节增强的输出特征；所述细节增强的输出特征作为所述Encoder网络预定层的下一层网络的输入；导向滤波模块，用于对所述抠图模块的Decoder网络预定层的输入特征进行滤波，获取滤波后的输入特征；所述滤波后的输入特征作为所述Decoder网络预定层的下一层网络的输入。

优选地，所述对所述抠图模块的Encoder网络预定层的输出特征进行锐化，获取细节增强的输出特征的方法为：所述抠图模块的Encoder网络预定层的输出特征为原始输出特征；按照所述原始输出特征的输出尺寸，乘以预定比例作为卷积核半径，根据所述卷积核半径生成高斯卷积核；采用所述高斯卷积核逐一对所述原始输出特征进行卷积运算，得到高斯模糊后的输出特征；将所述原始输出特征与所述高斯模糊后的输出特征相减，获取细节区域；将所述细节区域乘以预定权重值后，再与原始输出特征相加，获取细节增强的输出特征。

优选地，所述对所述抠图模块的Decoder网络预定层的输入特征进行滤波，获取滤波后的输入特征的方法为：将所述细节增强的输出特征作为所述导向滤波模块的I输入；与所述抠图模块的Encoder网络预定层对称的Decoder网络的输入特征为原始输入特征，将所述原始输入特征作为所述导向滤波模块的P输入；逐一对所述原始输入特征执行单通道导向滤波，得到滤波后的输入特征。

优选地，所述主体检测模块包括：检测子模块，用于在下采样倍数为64的输出位置获取第一检测结果，在下采样倍数为48的输出位置获取第二检测结果，在下采样倍数为32的输出位置获取第三检测结果；合并模块，用于采用非极大值抑制算法对所述第一检测结果、第二检测结果、第三检测结果进行合并，获取合并后的检测结果；放大模块，用于对所述合并后的检测结果进行预定比例的放大，获取包含所述主体的主体框。

优选地，所述主体分割模块包括：预处理模块，用于沿所述主体框对所述待抠图图像进行剪裁和缩放，获取主体框图；蒙版图获取模块，用于获取所述主体框图中主体区域蒙版图；腐蚀模块，用于对所述主体区域蒙版图进行腐蚀操作，获取腐蚀结果；膨胀模块，用于对所述主体区域蒙版图进行膨胀操作，获取膨胀结果；trimap图获取模块，用于根据所述腐蚀结果与所述膨胀结果之间的差值，对所述主体区域蒙版图中的每一个像素进行分类和赋值，获取trimap图。

本发明实施例提供的自动抠图系统，将抠图操作分为主体检测模块、主体分割模块和抠图模块，且三个模块均采用训练后的深度神经网络实现，三个模块之间以流水线的形式协同工作，能够自动将主体从输入图像中分离，避免了人工抠图的繁琐操作，从而大大提高了抠图效率。且本发明对抠图模块进行了优化，优化后的抠图模块能够更好地处理主体的细节与边缘部分，例如，人体的头发、半透明的衣物等难以分离的部位，因此，本发明的抠图效果也得到了较大改善。

附图说明

图1为本发明实施例的系统结构图一；

图2为本发明实施例的系统结构图二。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

本发明在架构上主要分为三个大模块，分别为主体检测模块，主体分割模块，抠图模块。本实施例以人体检测为例进行详细说明，因此上述主体检测模块具体为人体检测模块，主体分割模块具体为人体分割模块。

人体检测模块对待抠图图像中的人体进行检测，最终输出包含人体的矩形框，即包含主体的主体框。人体分割模块对人体矩形框中的像素进行分类，分离出人像前景与背景，并对分割结果进行腐蚀与膨胀形态学处理，生成trimap图。抠图模块根据trimap图对主体框中的主体进行精细抠图。

三个模块均使用深度神经网络实现，彼此间以流水线的形式协同工作，但本身互相独立，这样做的好处主要有两个：

(1)可以根据具体任务对某一模块进行特殊优化，从而达到更好的效果：比如婚纱影楼的照片中，婚纱通常是很长的，或者是很大的，而在普通的数据集上训练的人体检测模块是无法完整地框选出婚纱的，所以需要在特定的数据集上重新训练人体检测模块，从而让后续流程也能正确进行。

(2)可以通过替换模块移植成为其它物体的精细抠图。比如将本发明中的人体检测模块和人体分割模块替换为宠物检测模块与宠物分割模块，便可实现针对宠物的精细分割。

下面分别对三个模块进行详细介绍：

一、主体检测模块

本发明实施例中的主体检测模块即人体检测模块。本发明中的人体检测模块是一个最多64倍下采样的全卷积深度神经网络，分别在32、48和64倍下采样倍数的输出Featuremap上获取预测结果，进行合并，去重与比较后输出最终预测出的人体框，是一个端到端的预测模型。

人体检测模块的工作流程：

(1)输入一张64x 64x 3的RGB格式的待抠图图像。

(2)在下采样倍数为64的输出位置，会输出尺寸为10x 10x 5的5个通道的Featuremap，其中Feature map上的每个坐标点，都对应原图上的相应区域，可以看成是将原图划分为了一个10行10列的表格，每个单元格为64x 64像素的图像，例如，Feature map中坐标为(0,0)的点，对应原图最左上角的64x 64像素的区域；坐标为(9,9)的点，对应原图最右下角的64x 64像素的区域，其它区域以此类推。Feature map的5个通道分别表示人体框的x,y,w,h,probability。当原图上有人体框的中心位于某个单元格中时，对应的Feature map坐标点的probability值便为1.0，x为人体框中心点距离单元格上边界的归一距离，y为人体框中心点距离单元格左边界的归一距离，w为人体框与图像宽度的比值，h为人体框与图像高度的比值。例如：当Feature map坐标为(2,3)的点预测出x＝0.2,y＝0.3,w＝0.2,h＝0.3,probability＝0.8时，首先可以知道(4,5)对应原图坐标(256，320)，那么该人体框在原图上的中心点应该为(64x0.2+256,64x0.3+320)，该人体框的尺寸为[640x0.2,640x0.3]，该预测出的人体框与实际人体框只有80％的重合度。当训练网络时，可以将真实的人体框进行偏移和缩放增广，计算出增广后的人体框与原始框的重合度，来作为probability的训练标签。

(3)下采样倍数为32与48的输出位置执行上述同样的运算，获取不同尺度上的预测结果。

(4)按指定的阈值对probability结合非极大值抑制(NMS:non maximumsuppression)算法，对所有的预测结果进行合并和过滤后，得到合并后的检测结果。

(5)对合并后的检测结果进行预定比例的放大，以规避偶尔出现人体框未能完全框住整个人体的情况。

人体检测模块的训练细节：

(1)使用COCO数据集中的人体区域作为训练样本和标签。

(2)对样本使用旋转，缩放，Hue色调随机调整，区域随机裁剪，人体框随机偏移等方法对数据进行增广。

(3)训练时动态修改输入图像的分辨率，以让模型在不同尺寸上都能适应。

(4)对x,y,w,h,probability均分别使用L2损失函数计算误差，以误差之和作为该下采样倍数的loss，再对所有下采样倍数的loss求和，作为总loss用于反向传播训练模型。

二、主体分割模块

本发明中的主体分割模块即人体分割模块。本发明中的人体分割模块是一个Encoder/Decoder结构的全卷积深度神经网络，对输入图像进行逐像素分类。

为了提升分类的准确度，并解决分类歧义的问题，在我们的训练数据集中，将类别划分为三个大类，第一类为人体及其穿戴部分，例如人体本体及衣物、眼镜等；第二类为人体延长或遮挡部分，例如手中拿着的手机、抱在胸前的篮球、背在背上的背包等；第三类为背景，也就是剩余的未分类部分。

所以人体分割模块的输入为RGB图像，即由人体检测模块所获取的包含所述主体的主体框。人体分割模块的输出是尺寸与输入相等的3通道Feature map，每个输出通道用于表示对应像素的所属类别，例如，Feature map上坐标为(100，100)的点，三个通道值为(1，0，0)时，则表示此像素属于人体及其穿戴类别，如果值为(0，0，1)，则表示此像素属于背景类别。

人体分割模块的工作流程：

(1)根据人体检测模块的结果，由预处理模块对每一个框选出的人体，逐一将人体区域从原始图像上裁剪出来，并缩放为本模块需要的尺寸(由于是全卷积网络，所以尺寸可以任意调整，以平衡速度与效果)，输入到蒙版图获取模块。

(2)按实际需求由蒙版图获取模块决定是只取第一个类别，还是合并第一、二类别，得到人体区域蒙版，即一张背景区域为黑色，人体区域为白色的黑白蒙版。

(3)腐蚀模块对原始人体区域蒙版进行腐蚀操作，膨胀模块对原始人体蒙版进行膨胀操作，求腐蚀与膨胀结果的差值。

(4)由trimap图获取模块获取trimap图，具体地，结果为0的像素保持原始值，结果不为0的像素赋值为0.5，这样便得到了一张背景区域为黑色，人体区域为白色，交界处为灰色的trimap图。

人体分割模块的训练细节：

(1)使用自行标注的数据进行训练。

(2)对图像使用旋转，缩放，Hue色调随机调整，区域随机裁剪等方式对图像进行增广。

(3)使用Ground Truth标签作为蒙版，将人体区域抠出，再合成到其它不包含人体的自然场景中，也是重要且有效的数据增广方式。

(4)训练时动态修改输入图像的分辨率，以让模型在不同尺寸上都能适应。

(5)使用2D交叉熵损失函数计算误差。

三、抠图模块

抠图模块是本发明中最核心的部件，也是实现高精度抠图的关键。本发明中的抠图模块同样是一个Encoder/Decoder结构的全卷积深度神经网络，根据主体分割模块所得到的trimap图，对输入图像进行逐像素的软分类预测，所谓软分类是指输出的像素类别不再是确定的前景和背景，而是前景与背景所占的比例，也就是说最终输出结果为一张灰度Alpha蒙版图。

然而对于抠图任务，直接使用常见的Encoder/Decoder结构的网络来实现是无法达到理想效果的。虽然有附加的trimap作为引导信息与RGB图像一同输入神经网络，但从实验结果来看，也只能得到与分割模型类似的结果，同样存在边缘过于粗糙，无法抠出毛发细节等问题。

众所周知，Encoder网络前几层输出的Feature map相比后面的层保留了更多的细节特征，通常的做法是，将Encoder前几层的输出，通过跳链的形式，使用相加或concat的运算，合并到对应的Decoder网络层的输入，以此增加网络对细节的保留。然而从实验结果来看，相加或concat操作，同样不能解决细节部分预测不准确的问题，甚至反而让本身正确的分割区域产生错误的抠图结果。

本发明实施例大幅度优化了网络在细节预测上的表现，并且能加入神经网络的训练过程中，最终的网络仍然是一个端到端的模型。

其根本原理是让网络将更多的注意力放在细节上，方法是对网络中间层输出的Feature map进行锐化，使细节及边缘得到更多的关注，即有更高的权重；同样也使用导向滤波(Guided Filter)的方法，以细节较多的Feature map为向导，对Decoder网络的输入特征进行滤波，让细节及边缘有更好的预测结果，同时半透明区域有更强的平滑效果和连续性。

因此，本发明实施例还包括：抠图细节增强模块，用于增强所述trimap图的细节；所述抠图模块根据增强细节后的trimap图抠取出所述主体框中的主体。具体地，所述抠图细节增强模块包括：锐化模块，用于对所述抠图模块的Encoder网络预定层的输出特征进行锐化，获取细节增强的输出特征；所述细节增强的输出特征作为所述Encoder网络预定层的下一层网络的输入；导向滤波模块，用于对所述抠图模块的Decoder网络预定层的输入特征进行滤波，获取滤波后的输入特征；所述滤波后的输入特征作为所述Decoder网络预定层的下一层网络的输入。

本实施例中，对所述抠图模块的Encoder网络预定层的输出特征进行锐化，获取细节增强的输出特征的方法为：

(1)所述抠图模块的Encoder网络预定层的输出特征为原始输出特征；按照所述原始输出特征的输出尺寸，乘以预定比例作为卷积核半径，根据所述卷积核半径并指定一个sigma值生成固定的高斯卷积核，生成的高斯卷积核在训练过程中不进行更新，为固定值。

(2)采用所述高斯卷积核逐一对所述原始输出特征进行卷积运算，得到高斯模糊后的输出特征；

(3)将所述原始输出特征与所述高斯模糊后的输出特征相减，获取细节区域；

(4)将所述细节区域乘以预定权重值strength后，再与原始输出特征相加，获取细节增强的输出特征。细节增强的输出特征作为下一层网络的输入。

需要注意的是，上述Feature map锐化只存在于Encoder网络中。sigma和strength值作为可调节的网络超参数，在训练时调节。Feature map锐化中的算子包括了卷积、相减、相加、相乘，其训练时的反向传播可以直接通过Chainer/PyTorch等深度学习框架的自动求导功能实现，无需额外的附加代码。

本实施例中，所述对所述抠图模块的Decoder网络预定层的输入特征进行滤波，获取滤波后的输入特征的方法为：

(1)将所述细节增强的输出特征作为所述导向滤波模块的I输入；

(2)与所述抠图模块的Encoder网络预定层对称的Decoder网络的输入特征为原始输入特征，将所述原始输入特征作为所述导向滤波模块的P输入；

(3)逐一对所述原始输入特征执行单通道导向滤波，得到滤波后的输入特征。将滤波后的输入特征作为下一层Decoder网络的输入。

导向滤波中的算子包括了Box Filter、相乘、相加、相减、相除等，其训练时的反向传播同样可以直接通过Chainer/PyTorch等深度学习框架的自动求导功能实现，无需额外的附加代码。

抠图模型的工作流程如下：

(1)将RGB格式的待抠图图像作为Encoder网络第一层的输入。

(2)将trimap图Concat到Encoder网络第一层的输出，作为后续输入。

(3)在部分Encoder网络层的后面加入Feature map细节增加模块。

(4)从Encoder网络的第一层后，新起一个分支网络路径，从Encoder网络第一层原始的输出生成导向滤波需要的I输入，同样在需要地方加入Feature map细节增加模块。

(5)在Decoder网络相应的位置，对输入Feature map进行导向滤波，直到得到输出。

(6)根据实际需求，可以在本次抠图结果的基础上，按人体分割模块的工作流程，生成新的trimap图，再次对图像进行迭代抠图，以获得更精确的结果。

抠图模块的训练细节：

(1)使用高精度的抠图样本进行训练，包含大量有针对性的样本，如包含丰富细节的毛发近景，婚纱等半透明衣物。

(3)同样使用Ground Truth标签作为蒙版，将人体区域抠出，再合成到其它不包含人体的自然场景中作为新的样本。

(4)使用随机的腐蚀与膨胀半径来生成trimap，以让模型在各种尺寸的未知区域上都能有良好表现。

(5)训练时动态修改输入图像的分辨率，以让模型在不同尺寸上都能适应。

(6)使用2D交叉熵损失函数计算误差，对已知区域与未知区域使用不同的权重求和作为总loss。

本发明实施例解决了复杂背景的人像照片精细抠图，很大程度上将人力从繁琐的细节抠图劳动中解放，除了能应用于娱乐领域的特效合成中，也可应用于婚纱影楼的后期修图、广告图像合成等这样极度依赖人工修图的场景，以推动相关产业的自动化程度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种自动抠图系统，其特征在于，包括：

主体检测模块，用于对待抠图图像中所需抠取的主体进行检测，获取包含所述主体的主体框；所述主体检测模块包括：检测子模块，用于在下采样倍数为64的输出位置获取第一检测结果，在下采样倍数为48的输出位置获取第二检测结果，在下采样倍数为32的输出位置获取第三检测结果；合并模块，用于采用非极大值抑制算法对所述第一检测结果、第二检测结果、第三检测结果进行合并，获取合并后的检测结果；放大模块，用于对所述合并后的检测结果进行预定比例的放大，获取包含所述主体的主体框；

主体分割模块，用于对所述主体框中的像素进行分类，获取trimap图；所述主体分割模块包括：预处理模块，用于沿所述主体框对所述待抠图图像进行剪裁和缩放，获取主体框图；蒙版图获取模块，用于获取所述主体框图中主体区域蒙版图；腐蚀模块，用于对所述主体区域蒙版图进行腐蚀操作，获取腐蚀结果；膨胀模块，用于对所述主体区域蒙版图进行膨胀操作，获取膨胀结果；trimap图获取模块，用于根据所述腐蚀结果与所述膨胀结果之间的差值，对所述主体区域蒙版图中的每一个像素进行分类和赋值，获取trimap图；

抠图模块，用于根据所述trimap图抠取出所述主体框中的主体；

所述主体检测模块为训练后的全卷积深度神经网络；所述主体分割模块和抠图模块均为训练后的Encoder/Decoder结构的全卷积深度神经网络。

2.根据权利要求1所述的自动抠图系统，其特征在于，还包括：抠图细节增强模块，用于增强所述trimap图的细节；

所述抠图模块根据增强细节后的trimap图抠取出所述主体框中的主体。

3.根据权利要求2所述的自动抠图系统，其特征在于，所述抠图细节增强模块包括：

锐化模块，用于对所述抠图模块的Encoder网络预定层的输出特征进行锐化，获取细节增强的输出特征；所述细节增强的输出特征作为所述Encoder网络预定层的下一层网络的输入；

导向滤波模块，用于对所述抠图模块的Decoder网络预定层的输入特征进行滤波，获取滤波后的输入特征；所述滤波后的输入特征作为所述Decoder网络预定层的下一层网络的输入。

4.根据权利要求3所述的自动抠图系统，其特征在于，所述对所述抠图模块的Encoder网络预定层的输出特征进行锐化，获取细节增强的输出特征的方法为：

所述抠图模块的Encoder网络预定层的输出特征为原始输出特征；按照所述原始输出特征的输出尺寸，乘以预定比例作为卷积核半径，根据所述卷积核半径生成高斯卷积核；

采用所述高斯卷积核逐一对所述原始输出特征进行卷积运算，得到高斯模糊后的输出特征；

将所述原始输出特征与所述高斯模糊后的输出特征相减，获取细节区域；

将所述细节区域乘以预定权重值后，再与原始输出特征相加，获取细节增强的输出特征。

5.根据权利要求3所述的自动抠图系统，其特征在于，所述对所述抠图模块的Decoder网络预定层的输入特征进行滤波，获取滤波后的输入特征的方法为：

将所述细节增强的输出特征作为所述导向滤波模块的I输入；

与所述抠图模块的Encoder网络预定层对称的Decoder网络的输入特征为原始输入特征，将所述原始输入特征作为所述导向滤波模块的P输入；

逐一对所述原始输入特征执行单通道导向滤波，得到滤波后的输入特征。