CN110197490B

CN110197490B - 基于深度学习的人像自动抠图方法

Info

Publication number: CN110197490B
Application number: CN201910301249.9A
Authority: CN
Inventors: 许征波; 姚若光; 范志鸿; 庞恺
Original assignee: Guangzhou Pixel Solutions Co ltd
Current assignee: Guangzhou Pixel Solutions Co ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2021-02-26
Anticipated expiration: 2039-04-15
Also published as: CN110197490A

Abstract

本发明提出了一种基于深度学习的人像自动抠图方法，该方法通过训练神经网络的方式使用训练数据对神经网络进行训练，然后使用训练好的神经网络对待抠图的人像图片进行处理，得到人像抠图的结果，其能够实现对人像的精准抠出，且无需人工标注三分图，明显提高了人像抠图的效率。相对于传统的人像抠图方法，本发明提供的方法摆脱了依赖于图像中的颜色和空间信息而导致的拖尾和厚实现象。

Description

基于深度学习的人像自动抠图方法

技术领域

本发明涉及图像处理技术领域，更具体地，涉及一种基于深度学习的人像自动抠图方法。

背景技术

人像抠图指的是识别图像中的人像区域，包括头部、半身和全身位置，准确预测出人像与背景交界处之间的不透明度，然后配以不同背景图片、效果进行融合。

现有技术提供的人像抠图工具一般依赖于用户交互来绘制三分图或笔画图的方式来提供颜色样本信息去完成抠图，该过程是繁琐且耗时的，对于一些没有抠图处理知识的专业人士来说，完成一幅满意的抠图需要多次绘制三分图或笔画图。并且这些人像抠图工具无法处理前景与背景对比度小的图像。而无需用户交互的人像抠图工具只能实现对人像的粗略硬分割，这种硬分割造成人像与背景之间没有平滑的过渡，且对复杂结构的前景分割比如对头发的分割会出现异常不精准的情况。

发明内容

本发明为解决现有技术需要用户交互才能够实现对人像精准抠图所存在的抠图过程繁琐、复杂的技术缺陷，提供了一种基于深度学习的人像自动抠图方法。

为实现以上发明目的，采用的技术方案是：

一种基于深度学习的人像自动抠图方法，包括以下步骤：

S1.采集n张人像图片作为训练数据集，然后对训练数据集中的人像图片I_i进行处理，生成表示其前景不透明度的Alpha图A_i；其中i表示人像图片的序号，其取值范围为1，2，3，…，n；对训练数据集中的所有人像图片的Alpha图取平均得到平均模板图M_m；n的范围为2000～4000；

S2.利用训练数据集中的每张人像图片I_i及其对应的Alpha图A_i作为前景图、公开数据集中的n张图片作为背景图进行合成生成n张RGB图；

S3.通过任意数值计算扩展包生成向量间隔等比例的列向量x_a和行向量y_a，列向量x_a和行向量y_a的向量长度分别为l_X、l_y，将列向量x_a向行方向重复l_y次生成l_y×l_X的矩阵图，称为标准坐标x图X_m，将行向量y_a向列方向重复l_X生成l_y×l_X的矩阵图，称为标准坐标y图Y_m；

S4.利用人脸关键点检测算法检测训练数据集所有的人像图片的人脸关键点坐标并取算数平均得到平均关键点坐标F_m；

S5.对训练数据集中人像图片I_i的Alpha图A_i进行二值化操作，得到相应的二值图，然后在二值图上进行膨胀操作得到三分图的不确定区域图，将不确定区域图中像素值为255的像素点的像素值重设为128，然后利用不确定区域图覆盖Alpha图A_i得到对应的三分图T_i；

S6.利用人脸关键点检测算法检测得到训练数据集中人像图片I_i的人脸关键点坐标F_c，其中，c表示第i张人像图片对应的人脸关键点坐标的序号；通过平均关键点坐标F_m与关键点坐标F_c计算得到仿射变换的单应性矩阵H：

其中F_mx和F_my分别表示平均关键点坐标F_m的x坐标点和y坐标点，F_cx和F_cy分别表示当前人像图片I_i的人脸关键点的x坐标点和y坐标点；

基于平均模板图M_m、标准坐标x图X_m、标准坐标y图Y_m利用下式分别求取变换得到人像图片I_i的模板图M_ic、坐标x图X_ic和坐标y图Y_ic：

其中m_x、m_y为平均模板图M_m、标准坐标x图X_m或标准坐标y图Y_m的x坐标点和y坐标点；c_x、c_y为模板图M_ic、坐标x图X_ic或坐标y图Y_ic的x坐标点和y坐标点；

S7.构建神经网络，将训练数据集中的人像图片I_i、人像图片对应的模板图M_ic、人像图片对应的坐标x图X_ic和人像图片对应的坐标y图Y_ic以通道方向合并成图片作为神经网络的输入，神经网络输出人像图片的三分图

S8.计算神经网络输出的三分图

与真实三分图

的交叉熵损失函数值，根据计算的交叉熵损失函数值进行反向求导，并更新神经网络的网络参数；

S9.以训练数据集中不同的人像图片重复执行步骤S7、S8直至交叉熵损失函数值小于设定的阈值，然后执行步骤S10；

S10.将RGB图片CI_i、模板图M_ic、坐标x图X_ic和坐标y图Y_ic以通道方向合并成图片作为神经网络的输入，神经网络输出预测的三分图及预测的人像图片I_i的前景不透明度图；其中RGB图片CI_i由人像图片I_i及其对应的Alpha图A_i与公开数据集中的图片合并生成；

S11.计算预测的三分图与真实三分图的交叉熵损失函数值，以及计算预测的人像图片I_i的前景不透明度图与Alpha图A_i的欧式距离函数值；

S12.根据计算的交叉熵损失函数值、欧式距离函数值进行反向求导，并更新神经网络的参数；

S13.以不同的RGB图片重复执行步骤S10～S12直至欧式距离函数值小于设定的阈值；

S14.对于给定的人像图片k，按照步骤S1～S6的方式生成RGB图片、模板图M_kc、坐标x图X_kc或坐标y图Y_kc，然后将RGB图片CI_k、模板图M_kc、坐标x图X_kc或坐标y图Y_kc作为神经网络的输入，神经网络输出预测的人像图片k的前景不透明度图；输出的人像图片k的前景不透明度图即为抠图的结果。

优选地，所述步骤S1中，利用matlab版的informationFlowMatting工具生成人像图片I_i表示其前景不透明度的Alpha图A_i。

优选地，所述公开数据集为VOC或MSCOCO。

优选地，步骤S2，生成RGB图的具体过程如下：

Q_e＝α_eF_e+(1-α_e)B_e,α_e∈[0,1]

其中F_e、B_e分别表示前景图、背景图中相对应的像素点e的像素值，α_e表示在像素点e的前景不透明度，Q_e表示生成的RGB图的像素点e的像素值。

优选地，所述步骤S3的任意数值计算扩展包为numpy库。

优选地，所述步骤S5中，Alpha图A_i在像素值值域[10,230]做二值化操作，然后在二值图上应用opencv库的dilate函数进行膨胀操作得到三分图的不确定区域图。

优选地，所述步骤S4、S6中的人脸关键点检测算法为dlib函数库算法。

优选地，所述步骤S8计算交叉熵损失函数值的具体过程如下：

优选地，所述步骤S11计算交叉熵损失函数值的具体过程如下：

所述步骤S11计算欧式距离函数值的具体过程如下：

L＝L_α+L_t

其中

表示预测的人像图片I_i的前景不透明度图第i个像素的灰度值，

表示Alpha图A_i的第i个像素的灰度值；ε为常量；

步骤S12基于L进行反向求导，并更新神经网络的参数。

与现有技术相比，本发明的有益效果是：

附图说明

图1为方法的流程示意图。

图2为方法的示例示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本发明提供了一种基于深度学习的人像自动抠图方法，如图1所示，其包括有以下步骤：

S1.采集2400张人像图片作为训练数据集，然后对训练数据集中的人像图片I_i进行处理，生成表示其前景不透明度的Alpha图A_i；其中i表示人像图片的序号，其取值范围为1，2，3，…，2400；对训练数据集中的所有人像图片的Alpha图取平均得到平均模板图M_m；Alpha图A_i保存为Int类型，像素值值域是[0,255]；

S2.利用训练数据集中的每张人像图片I_i及其对应的Alpha图A_i作为前景图、公开数据集中的2400张图片作为背景图进行合成生成2400张RGB图；

S3.通过任意数值计算扩展包生成向量间隔等比例的列向量x_a和行向量y_a，列向量x_a和行向量y_a的向量长度分别为l_X、l_y(大于1000)，将列向量x_a向行方向重复l_y次生成l_y×l_X的矩阵图，称为标准坐标x图X_m，将行向量y_a向列方向重复l_X生成l_y×l_X的矩阵图，称为标准坐标y图Y_m；

S7.构建神经网络，将训练数据集中的人像图片I_i、人像图片对应的模板图M_ic、人像图片对应的坐标x图X_ic和人像图片对应的坐标y图Y_ic以通道方向合并成大小为480×360×6的图片作为神经网络的输入，神经网络输出人像图片的三分图

S8.计算神经网络输出的三分图

与真实三分图

S10.将RGB图片CI_i、模板图M_ic、坐标x图X_ic和坐标y图Y_ic以通道方向合并成大小为480×360×6的图片作为神经网络的输入，神经网络输出预测的三分图及预测的人像图片I_i的前景不透明度图；其中RGB图片CI_i由人像图片I_i及其对应的Alpha图A_i与公开数据集中的图片合并生成；

S14.对于给定的人像图片k，按照步骤S1～S6的方式生成RGB图片、模板图M_kc、坐标x图X_kc或坐标y图Y_kc，然后将RGB图片CI_k、模板图M_kc、坐标x图X_kc或坐标y图Y_kc作为神经网络的输入，神经网络输出预测的人像图片k的前景不透明度图；输出的人像图片k的前景不透明度图即为抠图的结果。方法的具体示例如图2所示。

在具体的实施过程中，所述步骤S1中，利用matlab版的informationFlowMatting工具生成人像图片I_i表示其前景不透明度的Alpha图A_i。

在具体的实施过程中，所述公开数据集为VOC或MSCOCO。

在具体的实施过程中，步骤S2，生成RGB图的具体过程如下：

Q_e＝α_eF_e+(1-α_e)B_e,α_e∈[0,1]

在具体的实施过程中，所述步骤S3的任意数值计算扩展包为numpy库。

在具体的实施过程中，所述步骤S5中，Alpha图A_i在像素值值域[10,230]做二值化操作，然后在二值图上应用ope100cv库的dilate函数进行膨胀操作得到三分图的不确定区域图。

在具体的实施过程中，所述步骤S4、S6中的人脸关键点检测算法为dlib函数库算法。

在具体的实施过程中，所述步骤S8计算交叉熵损失函数值的具体过程如下：

在具体的实施过程中，所述步骤S11计算交叉熵损失函数值的具体过程如下：

所述步骤S11计算欧式距离函数值的具体过程如下：

L＝L_α+L_t

其中

表示Alpha图A_i的第i个像素的灰度值；ε为常量；

步骤S12基于L进行反向求导，并更新神经网络的参数。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。