CN104463865A

CN104463865A - 一种人像分割方法

Info

Publication number: CN104463865A
Application number: CN201410734058.9A
Authority: CN
Inventors: 宋明黎; 周星辰; 冯尊磊; 陈纯; 卜佳俊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-12-05
Filing date: 2014-12-05
Publication date: 2015-03-25

Abstract

本发明公开了一种人像分割方法。本发明首先从电商网站收集多张包含站立人像的照片，并对人像所在区域进行标注，生成训练数据集。然后初始化卷积神经网络，使用训练数据集训练卷积神经网络。在测试图片的过程中，首先使用卷积神经网络在测试图片中标注出可能是人像的区域，然后将该区域作为可能的前景区域，初始化Grabcut算法，最后使用Grabcut算法分割出人像区域。本发明通过卷积神经网络预测出可能存在目标的区域，把可能的目标区域作为掩模，使用掩模初始化Grabcut，解决了Grabcut需要交互的问题，提高了分割的准确性。

Description

一种人像分割方法

技术领域

本发明属于目标检测与识别领域，涉及从图像中分割出特定目标尤其是人像的方法。

背景技术

随着电子商务的发展，越来越多的人选择在网络上购买服装，于是电商的以图搜物功能应运而生。但是在大多数图片中，背景比较复杂，准确的搜索到相似的服装是一件很困难的事情，所以有必要将图片中的人像分割出来。

Grabcut分割算法能得到比较精确的物体分割结果，但它的初始化过程需要人工干预，需要人工指定可能的前景和背景区域，否则它会把图像边界区域作为可能的背景，把图像的中部当作可能的前景。

卷积神经网络是一种深度神经网络，在目标分类、识别、分割等领域取得了非常好的效果。使用卷积网络预测出图片上可能是人像的区域，以此初始化Grabcut，来得到更加精准的分割结果。

发明内容

本发明的目的在于提供一种人像分割方法。

为实现上述目的，本发明所述的人像分割方法包括如下步骤：

1）从电商网站收集包含站立人像与不包含人像的图片样本集，并对人像所在的区域进行标注，得到对应的掩模。

2）使用人像图片以及掩模训练卷积神经网络，用来预测图片上可能是人像的区域。

3）输入待检测的图片，用卷积神经网络预测图片中可能是人像的区域，生成二值掩模。

4）对3）中生成的二值掩模进行腐蚀膨胀操作，过滤孤立点噪音，补全空洞。

5）使用4）中得到的二值掩模作为mask初始化Grabcut算法，使用Grabcut算法分割出人像所在的区域。

所述的图片样本集由多张包含站立人像的图片与不包含人像的图片组成，二者比例为10:1。

所述的样本图片标注的方法为，生成一张与原图长度和宽度完全相同的掩模，对于原图中的每一个像素点，如果该点属于人像区域，就将掩模中相同位置的像素的值设定为1，如果该点不属于人像，就将掩模中对应像素的值设定为0。然后再将样本图片中包含人像的图片作为正样本，不包含人像的图片作为负样本，首先对样本及其掩模进行水平镜像变换来扩充样本集，然后将所有样本的长宽统一缩放为320*240，最后将掩模的大小缩放为80*60。

所述的卷积神经网络的层数设置为7层。第1层为输入层，接受大小为320*240的RGB图像作为输入；第2层是卷积层，包含15个大小为324*244的特征映射图，所用卷积核大小为5*5；第3层为下采样层，将第2层的2*2的邻域下采样为一个像素，采样的间隔为2，第3层包含15个162*122的特征映射图；第4层为卷积层，包含60个大小为166*126的特征映射图；第5层为下采样层，将第4层的2*2的邻域下采样为一个像素，采样的间隔为2，第5层包含60个83*63的特征映射图；第6层为卷积层，包含240个大小为80*60的特征映射图；第7层是输出层，包含1个大小为80*60的二值掩模。

所述的得到卷积神经网络的第7层的方法是，针对80*60的掩模上的每个像素点，训练1个逻辑回归，然后用逻辑回归预测每个点属于前景还是背景。

所述的训练逻辑回归的方法是，把第6层的240张特征映射图上相同位置的点作为一个逻辑回归的输入，训练一个241维的逻辑回归，逻辑回归的标签就是掩模上对应点的值。在预测时，如果某个像素点对应的逻辑回归的输出大于0.5，就将该点判定为前景点，将该点的值设定为1，否则判定为背景点，将像素值设定为0。

所述的使用掩模初始化Grabcut算法的方法为，将掩模的大小缩放为320*240，对于掩模中的每一个点，如果该点的值为1，就将其设为可能的前景点，否则将其设为可能的背景点。

与传统方法相比，本发明通过卷积神经网络预测出可能存在目标的区域，把可能的目标区域作为掩模，使用掩模初始化Grabcut。这一方法能够避免Grabcut自动初始化带来的不确定性。

附图说明

图1是本发明一种人像分割方法的流程示意图；

图2a是本发明所述人像图片；

图2b是图2a对应的掩模示意图；

图3是卷积神经网络在测试图片上的人像分割结果示意图；

图4是Grabcut算法在测试图片上的人像分割结果示意图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清晰、完整的解释。

本发明提出了一种人像分割方法，该方法在已经标注的样本图片集上训练卷积神经网络。在测试的过程中，首先使用卷积神经网络预测出可能是人像的区域，生成掩模，然后用掩模初始化Grabcut算法，最后用Grabcut算法分割出图片中人像所在的区域。图1 是本发明人像分割方法的流程图。如图1所示，本发明人像分割方法包括以下步骤：

步骤1，采集图片样本集，对图片数据进行预处理。从电商网站收集包含站立人像与不包含人像的图片样本集，样本集由多张包含站立人像的图片与不包含人像的图片组成，包含人像的图片作为正样本，不包含人像的图片作为负样本，二者比例为10:1。生成一张与原图长度和宽度完全相同的掩模，对于原图中的每一个像素点，如果该点属于人像区域，就将掩模中相同位置的点的值设定为1，否则将掩模中该点的值设定为0。对样本及其掩模进行水平镜像变换来扩充样本集，然后将所有样本的长宽统一缩放为320*240，最后将掩模的大小缩放为80*60。人像图片及其对应的掩模如图2所示。

步骤2，使用人像图片以及掩模训练卷积神经网络，用来预测图片上可能是人像的区域。

所述的卷积神经网络的层数设置为7层。第1层为输入层，接受大小为320*240的RGB图像作为输入；第2层是卷积层，包含15个大小为324*244的特征映射图，所用卷积核大小为5*5；第3层为下采样层，将第2层的2*2的邻域下采样为一个像素，采样的间隔为2，第3层包含15个162*122的特征映射图；第4层为卷积层，包含60个大小为166*126的特征映射图；第5层为下采样层，将第4层的2*2的邻域下采样为一个像素，采样的间隔为2，第5层包含60个83*63的特征映射图；第6层为卷积层，包含240个大小为80*60的特征映射图；第7层是输出层，包含1个大小为80*60的二值掩模。把第6层的240张特征映射图上相同位置的点作为一个逻辑回归的输入，训练一个241维的逻辑回归，逻辑回归的标签就是第7层掩模上对应点的值。如果某个像素点对应的逻辑回归的输出大于0.5，就将该点判定为前景点，将该点的值设定为1，否则判定为背景点，将像素值设定为0。

步骤3，输入待检测的图片，用卷积神经网络预测图片中可能是人像的区域，生成二值掩模。

步骤4，对步骤3中生成的二值掩模进行腐蚀膨胀操作，过滤孤立点噪音，补全空洞。掩模对应的图像区域如图3所示。

步骤5，使用步骤4中得到的二值掩模作为mask初始化Grabcut算法，使用Grabcut算法分割出人像所在的区域。将掩模的大小缩放为320*240。对于掩模中的每一个点，如果该点的值为1，Grabcut就将其设为可能的前景点，否则将其设为可能的背景点。初始化完毕之后，就可以使用Grabcut更加准确的分割出人像区域。Grabcut分割结果如图4所示。

最后，以上所述仅为本发明较有代表性的实施例。本领域的普通技术人员可在不脱离本发明的发明思想情况下，对上述实施例做出种种修改或变化，因而本发明的保护范围并不被上述实施例所限，而应该是符合权利要求数提到的创新性特征的最大范围。

Claims

1. 一种人像分割方法，其特征在于该方法包括如下步骤：

步骤1）从电商网站收集包含站立人像与不包含人像的图片样本集，并对人像所在的区域进行标注，得到对应的掩模；

步骤2）使用人像图片以及掩模训练卷积神经网络，用来预测图片上可能是人像的区域；

步骤3）输入待检测的图片，用卷积神经网络预测图片中可能是人像的区域，生成二值掩模；

步骤4）对步骤3）中生成的二值掩模进行腐蚀膨胀操作，过滤孤立点噪音，补全空洞；

步骤5）使用步骤4）中得到的二值掩模作为mask初始化Grabcut算法，使用Grabcut算法分割出人像所在的区域。

2.根据权利要求1所述的一种人像分割方法，其特征在于：所述的图片样本集由多张包含站立人像的图片与不包含人像的图片组成，二者比例为10:1。

3.根据权利要求1所述的一种人像分割方法，其特征在于：样本图片标注的方法为：生成一张与原图长度和宽度完全相同的掩模，对于原图中的每一个像素点，如果该点属于人像区域，就将掩模中相同位置的像素的值设定为1，如果该点不属于人像，就将掩模中对应像素的值设定为0。

4.根据权利要求3所述的一种人像分割方法，其特征在于：将样本图片中包含人像的图片作为正样本，不包含人像的图片作为负样本，首先对样本及其掩模进行水平镜像变换来扩充样本集，然后将所有样本的长宽统一缩放为320*240，最后将掩模的大小缩放为80*60。

5.根据权利要求1所述的一种人像分割方法，其特征在于：所述的卷积神经网络的层数设置为7层，其中第1层为输入层，接受大小为320*240的RGB图像作为输入，第7层为输出层，共4800个节点，每个节点分别对应输入图像中的一个像素。

6.根据权利要求5所述一种人像分割方法，其特征在于：所述的卷积神经网络的第2层是卷积层，包含15个大小为324*244的特征映射图，所用卷积核大小为5*5；第3层为下采样层，将第2层的2*2的邻域下采样为一个像素，采样的间隔为2，第3层包含15个162*122的特征映射图；第4层为卷积层，包含60个大小为166*126的特征映射图；第5层为下采样层，将第4层的2*2的邻域下采样为一个像素，采样的间隔为2，第5层包含60个83*63的特征映射图；第6层为卷积层，包含240个大小为80*60的特征映射图；第7层是输出层，包含1个大小为80*60的二值掩模。

7.根据权利要求6所述一种人像分割方法，其特征在于：得到卷积神经网络的第7层的具体是：针对80*60的掩模上的每个像素点，训练1个逻辑回归，然后用逻辑回归预测每个点属于前景还是背景。

8.根据权利要求7所述的一种人像分割方法，其特征在于：训练逻辑回归的具体是：把第6层的240张特征映射图上相同位置的点作为一个逻辑回归的输入，训练一个241维的逻辑回归，逻辑回归的标签就是掩模上对应点的值。

9.根据权利要求7所述的一种人像分割方法，其特征在于：使用逻辑回归预测掩模的具体是：如果某个像素点对应的逻辑回归的输出大于0.5，就将该点判定为前景点，将该点的值设定为1，否则判定为背景点，将像素值设定为0。

10.根据权利要求1所述一种人像分割方法，其特征在于：使用掩模初始化Grabcut算法的具体为：将掩模的大小缩放为320*240，对于掩模中的每一个点，如果该点的值为1，就将其设为可能的前景点，否则将其设为可能的背景点。