CN110610526A

CN110610526A - 一种基于wnet对单目人像进行分割和景深渲染的方法

Info

Publication number: CN110610526A
Application number: CN201910746520.XA
Authority: CN
Inventors: 杨洋; 黎曙
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-12-24
Anticipated expiration: 2039-08-12
Also published as: CN110610526B

Abstract

本发明公开了一种基于WNET对单目人像进行分割和景深渲染的方法，通过叠加UNET构建WNET网络参数模型，将训练好的WNET网络参数模型载入移动客户端，在移动客户端内实现对人像图片的初步分割，采用双线性插值法将初步分割的掩膜图像缩放到原图大小；再对掩膜图像进行形态学运算，对掩膜图像进行腐蚀和膨胀处理，去除边缘不在预设区域内的连通区域，保留剩余的连通区域，边缘细化处理得到人像掩膜图像，将分离的前景和高斯模糊后的背景进行合成得到景深渲染图；本发明的方法能够极大地缩减了计算量和模型尺寸，同时提升了人像分割的精度，从而实现移动端单目摄像头的人像景深渲染。

Description

一种基于WNET对单目人像进行分割和景深渲染的方法

技术领域

本发明属于图像处理技术领域，具体是一种基于WNET对单目人像进行分割和景深渲染的方法。

背景技术

随着智能手机的普及和移动端计算性能的提高，针对移动端人像处理的应用越来越多, 而实时的人像分割也变得越来越重要。随着近几年深度学习的兴起和CNN网络在图像处理领域的突出表现，利用CNN做图像分割逐渐成为主流同时也是最佳选择，越来越多的人开始利用FCN网络做前端特征提取，利用条件随机场或者隐马尔科夫做后端处理，这样的方法在一定程度上提升了精度，但是这样的网络模型太耗时，没法在移动端做到实时。

我们在全卷积网络模型的基础上设计一个精简的网络模型，在智能手机上可以做到快速分割，我们称之为WNET网络模型。景深渲染是一种模拟单反景深效果的技术，具有突出拍摄重点的特点。现在比较流行的做法是采用基于双摄像头的设备，通过立体视觉的原理来计算深度图，然后通过镜头模糊的方式来模拟单反的景深效果。基于双摄像头的方法虽然能达到背景虚化的效果，但这样的设备需要配备双摄像头，提高了成本，所以开发基于单摄像头的景深渲染方法就显得特别有必要。

发明内容

本发明根据现有技术中存在的问题，提出了一种基于WNET对单目人像进行分割和景深渲染的方法，提供了一种轻量的网络结构，能够极大地缩减了计算量和模型尺寸，同时提升了人像分割的精度，从而实现移动端单目摄像头的景深渲染。

一种基于WNET对单目人像进行分割和景深渲染的方法，包括以下步骤：

步骤1，通过叠加UNET构建WNET网络参数模型，并完成WNET网络参数模型的训练；

步骤2，将训练好的WNET网络参数模型载入移动客户端，在移动客户端内实现对人像图片的初步分割，获得初步分割的掩膜图像；

步骤3，采用双线性插值法将初步分割的掩膜图像缩放到原图大小；

步骤4，将步骤3处理后的掩膜图像进行形态学运算，对掩膜图像进行腐蚀和膨胀处理，去除边缘不在预设区域内的连通区域，保留剩余的连通区域；

步骤5，把进行腐蚀和膨胀处理后的掩膜图像作为引导滤波的输入图像，使用原始彩色图像作为引导图像，进行图像引导滤波操作，得到边缘细化的人像掩膜图像；

步骤6，对原始彩色图像进行高斯模糊，再根据掩膜图像，将原始彩色图像和高斯模糊图像进行合成得到景深渲染图。

进一步，构建WNET网络参数模型的方法为：

步骤1.1，训练数据集收集：搜集人像图片和标注好人像区域的掩膜图像；

步骤1.2，数据预处理：将掩膜图像和对应的人像图片缩放；

步骤1.3，网络模型设计：通过将两个UNET网络模型进行叠加形成WNET网络参数模型，即将第一个UNET网络模型的输入作为第二个UNET网络模型的输入，最终输出掩膜图像。

进一步，所述形态学运算的核是5×5全1矩阵；

进一步，先将掩膜图片转换成二值图像0和255；腐蚀处理就是将5×5大小的全1矩阵的中心与该点像素的二值化的掩膜图像覆盖区域进行“与”计算，如果覆盖区域全为255则该点像素值为255，否则就为0；膨胀处理就是将5×5大小的全1矩阵中心与该点像素的二值化的掩膜图像覆盖区域进行“或”计算，如果覆盖区域全为0则该点像素值为0，否则就为255；经过腐蚀和膨胀处理后，去除掩膜图像中边缘不在预设区域内的连通区域，保留剩余的连通区域。

进一步，所述引导滤波的半径为5，平滑项为0.16。

进一步，所述景深渲染图的合成公式表示为：

渲染图＝(掩膜图÷255)×原始彩色图+[1－(掩膜图÷255)]×高斯模糊图；

进一步，高斯滤波的标准差是1.6，卷积核大小是9×9。

进一步，所述移动客户端为设有单目摄像头的移动设备，如手机。

本发明的有益效果：

本发明是深度学习在实际中的应用。不同于常用的方法。由于手机计算性能的局限性，所以一个轻量的网络结构也至关重要，我们提出了叠加UNET从而得到WNET。极大地缩减了计算量和模型尺寸，同时提升了人像分割的精度，从而实现移动设备端单目摄像头的景深渲染。

附图说明

图1是本发明方法的流程图；

图2是本发明WNET网络参数模型；

图3中的图3a是初步分割掩膜图，3b导向滤波保边后的图片；

图4中的图4a是原图，4b是景深渲染的效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示，本发明所提出的一种基于WNET对单目人像进行分割和景深渲染的方法；具体过程如下：

步骤1，训练WNET网络参数模型，具体过程如下：

步骤1.1，训练数据集收集：搜集人像图片和每张人像图片标注好人像区域的掩膜图像；

步骤1.2，数据预处理：将掩膜图像和对应的人像图片缩放至256×256的预定尺寸；避免输入图像过大时计算量太大，还可以降低所需要消耗的内存；

步骤1.3，网络模型设计：通过将两个UNET网络模型进行叠加形成WNET网络参数模型，即将第一个UNET网络模型的输入作为第二个UNET网络模型的输入，最终输出掩膜图像；再将人像图片和人像图片对应的掩膜图像输入WNET网络参数模型进行训练，当神经网络收敛后，存储网络参数模型，完成WNET网络参数模型的训练。

结合附图2，本发明的UNET网络模型处理过程中与现有的UNET网络模型的处理具有以下区别：

1、现有的UNET网络模型是用来处理灰色图像输入的图片是一个单通道的图片，本发明中的WNET网络参数模型是一个彩色图片输入的是rgb的三通道图片。

2、现有的UNET网络模型在第四下采样后将通道数增加到1024个通道，本发明只用了512个通道减少了参数数量，减少计算量，提高了效率。

3、现有的UNET网络模型中的上采样过程中因为没有进行边缘填充导致右边尺寸比对应左边的小，所以在与进行拼接(concat)操作前需要将左侧裁剪与右侧同样大小。本发明的WNET网络参数模型是每次上采样都进行了填充所以直接将左侧的复制到右边进行拼接操作。

步骤2，将训练好的WNET网络参数模型载入移动客户端，本实施是搭载在设有单目摄像头的手机中，即把训练好的网络权重信息保存为unet_seg_weights.h文件，加载预训练好的unet_seg_weights模型。将整个模型架构和权重转换成一个可用于移动端的TensorFlow模型。将unet_seg_weights.h文件，转换成unet_seg_weights.pb文件。

将利用手机的单目摄像头获取的人像图片输入WNET网络参数模型，在手机内实现对人像图片的初步分割，获得初步分割的掩膜图像如图3a所示。

步骤3，采用双线性插值法将初步分割的掩膜图像缩放到原图大小。

步骤4，将步骤3处理后的掩膜图像进行形态学运算，具体过程如下：

步骤4.1，将掩膜图片转换成二值图像0和255。

步骤4.2，腐蚀处理就是将5×5大小的全1矩阵的中心与该点像素的二值化的掩膜图像覆盖区域进行“与”计算，如果覆盖区域全为255则该点像素值为255，否则就为0。

步骤4.3，膨胀处理将5×5大小的全1矩阵中心与该点像素的二值化的掩膜图像覆盖区域进行“或”计算，如果覆盖区域全为0则该点像素值为0，否则就为255。

步骤4.5，经过对掩膜图像进行腐蚀和膨胀处理后，去除掩膜图像中边缘不在预设区域内的连通区域，保留剩余的连通区域，如图3b所示。

步骤5，把进行腐蚀和膨胀处理后的掩膜图像作为引导滤波的输入图像，使用原始彩色图像作为引导图像，进行图像引导滤波操作，得到边缘细化的人像掩膜图像，其中，引导滤波的半径为5，平滑项是0.16。

步骤6，对分离出来的背景进行高斯模糊，再将分离的前景和高斯模糊后的背景进行合成得到景深渲染图，其中，高斯滤波的标准差是1.6，卷积核大小是9×9。上述的渲染图合成公式为：渲染图＝(掩膜图÷255)×原始彩色图+[1－(掩膜图÷255)]×高斯模糊背景图， 4a为原图，4b为景深渲染的效果图。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于WNET对单目人像进行分割和景深渲染的方法，其特征在于，包括以下步骤：

步骤6，对原始彩色图像进行高斯模糊，根据掩膜图像，将原始彩色图像和高斯模糊图像进行融合得出最终渲染结果。

2.根据权利要求1所述的一种基于WNET对单目人像进行分割和景深渲染的方法，其特征在于，构建WNET网络参数模型的方法为：

步骤1.2，数据预处理：将掩膜图像和对应的人像图片缩放；

3.根据权利要求1所述的一种基于WNET对单目人像进行分割和景深渲染的方法，其特征在于，所述形态学运算的核是5×5全1矩阵。

4.根据权利要求1所述的一种基于WNET对单目人像进行分割和景深渲染的方法，其特征在于，先将掩膜图片转换成二值图像0和255；腐蚀处理就是将5×5大小的全1矩阵的中心与该点像素的二值化的掩膜图像覆盖区域进行“与”计算，如果覆盖区域全为255则该点像素值为255，否则就为0；膨胀处理就是将5×5大小的全1矩阵中心与该点像素的二值化的掩膜图像覆盖区域进行“或”计算，如果覆盖区域全为0则该点像素值为0，否则就为255；经过腐蚀和膨胀处理后，去除掩膜图像中边缘不在预设区域内的连通区域，保留剩余的连通区域。

5.根据权利要求1所述的一种基于WNET对单目人像进行分割和景深渲染的方法，其特征在于，所述景深渲染图的合成公式表示为：

渲染图＝(掩膜图÷255)×原始彩色图+[1－(掩膜图÷255)]×高斯模糊图。

6.根据权利要求1所述的一种基于WNET对单目人像进行分割和景深渲染的方法，其特征在于，高斯滤波的标准差是1.6，卷积核大小是9×9。

7.根据权利要求1所述的一种基于WNET对单目人像进行分割和景深渲染的方法，其特征在于，所述移动客户端为设有单目摄像头的移动设备。