CN112330705B

CN112330705B - 一种基于深度学习语义分割的图像二值化方法

Info

Publication number: CN112330705B
Application number: CN202011098156.XA
Authority: CN
Inventors: 苗志斌; 孔慧
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-08-19
Anticipated expiration: 2040-10-14
Also published as: CN112330705A

Abstract

本发明公开了一种基于深度学习语义分割的图像二值化方法，包括步骤：1)对于一张彩色图像，利用轻量级语义分割网络对图像进行实时性分割，根据BCEloss损失函数训练所述网络，待网络收敛，得到特征图；2)对1)中的特征图，使用一种可迭代阈值方法得到两个阈值，利用这两个阈值将图像分割为三值图，其中三值中的中间值代表的区域记为疑似区域；3)将对2)中分割的结果，使用一种连通域方法，首先对图像进行去噪，其次对疑似区域按照一定规则进行划分，最后根据划分结果将图像从三值图变成二值图，即1)中对应的前景和背景。所述方法在满足实时性的前提下，提升了肤色检测的效果。

Description

一种基于深度学习语义分割的图像二值化方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度学习语义分割的图像二值化方法。

背景技术

近年来，随着深度学习技术和相关硬件的发展，“AI”一词已经被我们熟知。深度学习作为前沿技术，它给我们的生活品质带来了极大的提高。尤其是在人脸领域，人脸识别、人脸检测、美颜美妆领域，深度学习技术已经被广泛应用，带来了很大的社会价值。而肤色检测是可以作为人脸人体相关领域的前提技术，可作为美颜美妆领域和人脸识别检测技术的一环来进行研究，具有很高的社会价值和意义。

传统的图像处理方法几乎都是利用图像的颜色信息来进行肤色检测。其中，最常用的传统图像处理方法之一就是椭圆模型，即对于一张YCrCb图像，肤色样本CrCb通道统计值分布为一个椭圆分布。因此，只需要将图像的每个像素点判断其CrCb是否在椭圆内就可以完成肤色检测。但是此方法是大量统计的结果，具有一定的普遍性，鲁棒性不好。最常用的机器学习方法是基于混合高斯模型的方法，通过CrCb通道进行混合高斯完成数据拟合，在实际应用中仍存在与肤色相近的颜色区域被误检的问题。这时就需要深度学习与传统图像处理方法相结合的方法，达到在实时性的前提下提高检测效果的目的。

发明内容

本发明的目的在于提出一种基于深度学习语义分割的图像二值化方法，该方法在满足实时性的前提下，提升了肤色检测的效果。

实现本发明目的的技术方案为：一种基于深度学习语义分割的图像二值化方法，包括以下几个步骤：

步骤1，对备好的训练集中任意一幅彩色图像，首先将图像颜色空间变成YCrCb空间，其次对图像进行降采样，使其变成分辨率为N1*N1的图像，N1为小于96的常数，最后对图像进行归一化处理；

步骤2，对步骤1中归一化处理后的图像输入到轻量级语义分割网络，得到特征图，并根据BCEloss损失函数训练所述网络；如果轻量级语义分割网络收敛即损失函数收敛，执行步骤3，否则执行步骤1；

步骤3，初始化双阈值和双阈值的迭代步长，即第一阈值thres1及其迭代步长s和第二阈值thres2及其迭代步长k；

步骤4，通过thres1和thres2，将步骤2的特征图划分为三值图，对于特征图中每个像素的值，[0,thres2]的记为背景，(thres2,thres1]的记为疑似区域，(thres1,1]的记为前景；

步骤5，通过连通域方法去除小面积前景噪点，小面积指前景面积小于图像大小的百分之三；

步骤6，设定步长d，通过连通域方法将疑似区域中与前景距离≤d的像素划分为疑似前景，其余划分为背景；再将疑似前景区域重新划分，若此疑似前景与前景相连，则划分为前景，否则划分为背景，得到二值图；

步骤7，利用二值图与真值比较，如果thres1收敛，且当前训练的所有图像中，有超过一半图像的二值化结果的召回率R位于[0.98，1]时，执行步骤8；否则，确定新的thres1和thres2，用新的thres1和thres2执行步骤4；

新的thres1和thres2确定方法：用thres1、thres1+s和thres1-s分别与thres2将图像根据步骤4-步骤6得到二值图，用该二值图与真值求交并比，取三者中交并比最大的作为新的thres1；用新的thres1分别与thres2、thres2+k和thres2-k将图像根据步骤4-步骤6得到二值图，用该二值图与真值求召回率，取三者中召回率最大的作为新的thres2；

步骤8，执行一次步骤4-步骤6输出二值图。

进一步的，所述步骤2中轻量级语义分割网络包括编码模块和解码模块，编码模块的输入为步骤1中归一化处理后的图像，编码模块包括卷积层、瓶颈层和序列化层，卷积层通过卷积、批量归一化和激活函数Relu6对输入图像进行处理得到分辨率为N2*N2的图像，满足N2<N1，瓶颈层和序列化层分别将分辨率为N2*N2图像提取特征处理成分辨率为N3*N3和N4*N4的特征图，满足N3≤N2，N4<N2；解码模块使用多尺度信息、金字塔场景分析网络PSPNet中的PSPModule模块和全局平均池化来获取N3*N3和N4*N4特征图的全局特征信息，然后输出分辨率为N1*N1的特征图。

进一步的，所述瓶颈层使用残差结构；所述序列化层不带残差结构；瓶颈层和序列化层都采用激励网络SENet中的SEModule模块的注意力机制，使得瓶颈层和序列化层每个通道有各自的权重。

进一步的，所述轻量级语义分割网络的解码模块采用浮点数计算量为6.667M，参数量为12.192K；编码模块采用浮点数计算量为3.175M，参数量为5.856K。

进一步的，所述PSPModule模块使用步长为16、8、4和2的四种步长。

进一步的，所述步骤1中降采样后的图像的分辨率为64*64。

进一步的，所述步骤3中thres1和thres2初始化为0.5，迭代步长s和k初始化为0.0003。

进一步的，所述步骤4和步骤5所述的连通域方法为深度优先搜索法或广度优先搜索法。

本发明与现有技术相比，其显著优点为：(1)该方法不仅仅关注于效果，还从实际应用角度考虑，在实时性的前提下，提升了肤色检测的效果；(2)该方法结合了深度学习和传统图像处理两种方法，其结果优于任意单独使用一种方法的效果；(3)该方法可以作为美颜美妆或人脸识别检测的前序工作，可用于后续进行人脸或人体等相关领域，具有很好的实用价值。

附图说明

图1为本发明中轻量级语义分割网络的示意图。

图2为本发明的方法流程图。

具体实施方式

下面结合附图对本发明的一种基于深度学习语义分割的图像二值化方法做进一步详细说明。

如图1所示，自定义的轻量级语义分割网络包括编码(Encode)模块和解码(Decode)模块，编码(Encode)模块的输入为分辨率为N1*N1的图像，编码模块包括卷积层、瓶颈层和序列化层，卷积层通过卷积、批量归一化和激活函数Relu6对输入图像进行处理得到分辨率为N2*N2的图像，满足N2<N1，瓶颈层和序列化层分别将分辨率为N2*N2图像提取特征处理成分辨率为N3*N3和N4*N4的特征图，满足N3≤N2，N4<N2，其中，瓶颈层使用了残差结构，有利于网络的反向传播，可有效缓解梯度消失问题；序列化层则为不带残差结构的瓶颈层，用于进一步提取图像特征信息；瓶颈层和序列化层也使用了激励网络SENet中的SEModule模块的注意力机制，使得瓶颈层和序列化层每个通道有各自的权重，有利于该网络学习有效的信息，抑制无效的信息来提取图像特征；解码(Decode)模块输出(Output)为与输入图像同等分辨率的特征图；解码模块使用多尺度信息、金字塔场景分析网络PSPNet中的PSPModule模块和全局平均池化(global avg pooling)来获取全局特征信息，输出特征图，其中，PSPModule模块使用了步长为16、8、4、2四种；在学到多尺度信息的同时没有引入过多的计算量。该网络还利用浅层特征与深层特征叠加融合的方式法提升整体的学习效果。所述轻量级语义分割网络的解码模块采用浮点数计算量为6.667M，参数量为12.192K；编码模块采用浮点数计算量为3.175M，参数量为5.856K。

如图2所示，一种基于深度学习语义分割的图像二值化方法，包括以下几个步骤：

步骤4，通过thres1和thres2，将步骤2的特征图划分为三值图，对于特征图中每个像素的值，[0,thres2]的记为背景,(thres2,thres1]的记为疑似区域，(thres1,1]的记为前景；

步骤7，利用二值图与真值比较，如果thres1收敛，即稳定在某个值上下浮动，且当前训练的所有图像中，有超过一半图像的二值化结果的召回率R位于[0.98，1]时，执行步骤8；否则，确定新的thres1和thres2，用新的thres1和thres2执行步骤4；

步骤8，执行一次步骤4-步骤6输出二值图。

进一步的，所述步骤1中降采样后的图像的分辨率为64*64。

进一步的，所述步骤3中双阈值thres1和thres2初始化为0.5，双阈值迭代步长s和k初始化为0.0003。

进一步的，步骤4和步骤5所述的连通域方法为深度优先搜索法或广度优先搜索法。

实施例

本实施例使用CelebAMask-HQ与网络搜集整合得到的数据作为数据集，其中CelebAMask-HQ数据集主要用于验证与测试，网络搜集整合得到的数据集用于训练。CelebAMask-HQ数据集一共30000张人脸图，网络搜集到的数据集共11281张图像，本发明将网络搜集数据集用于训练集，并且使用CelebAMask-HQ编号27000-29999共3000张用于测试集，24000-26999共3000张用于验证集。CelebAMask-HQ数据集的真值图有19种标签，CelebAMask-HQ数据集由脸部、耳朵、脖子组合并去除眼睛、嘴巴、眉毛作为真值图，网络搜集数据集的真值为自带真值与使用标注工具标记获取真值两种方式。通过对比各类方法，得到实验结果如表1所示。

表1

表1中速度一列是在某手机平台下实验得出；表1方法一列：椭圆模型是常见的基于YCrCb通道的肤色检测方法；Otsu大律法是基于YCrCb图像的Cr通道；混合高斯是对基于CrCb双通道的对肤色和背景的双拟合；本发明网络是基于图1的语义分割网络模型；双阈值如实施方式所述方法的步骤3、4所示；去噪点如实施方式所述方法的步骤5所示，步长限制见实施方式所述方法的步骤6所示。

对于表1中第3-6列每格上下两个数字分别表示验证集结果和测试集结果。

表1中最后一行为本发明所述方法的实验数据，从表1可以看出，本发明一种基于深度学习语义分割的图像二值化方法的交并比和F1-Score这两个重要标上是要优于表1中传统图像处理方法、机器学习方法和单深度学习方法的；同时，本发明方法在某平台上测试速度可以满足实时性。

Claims

1.一种基于深度学习语义分割的图像二值化方法，其特征在于，包括以下几个步骤：

步骤8，执行一次步骤4-步骤6输出二值图。

2.根据权利要求1所述的基于深度学习语义分割的图像二值化方法，其特征在于，所述步骤2中轻量级语义分割网络包括编码模块和解码模块，编码模块的输入为步骤1中归一化处理后的图像，编码模块包括卷积层、瓶颈层和序列化层，卷积层通过卷积、批量归一化和激活函数Relu6对输入图像进行处理得到分辨率为N2*N2的图像，满足N2<N1，瓶颈层和序列化层分别将分辨率为N2*N2图像提取特征处理成分辨率为N3*N3和N4*N4的特征图，满足N3≤N2，N4<N2；解码模块使用多尺度信息、金字塔场景分析网络PSPNet中的PSPModule模块和全局平均池化来获取N3*N3和N4*N4特征图的全局特征信息，然后输出分辨率为N1*N1的特征图。

3.根据权利要求2所述的基于深度学习语义分割的图像二值化方法，其特征在于，所述瓶颈层使用残差结构；所述序列化层不带残差结构；瓶颈层和序列化层都采用激励网络SENet中的SEModule模块的注意力机制，使得瓶颈层和序列化层每个通道有各自的权重。

4.根据权利要求2所述的基于深度学习语义分割的图像二值化方法，其特征在于，所述的轻量级语义分割网络的解码模块采用浮点数计算量为6.667M，参数量为12.192K；编码模块采用浮点数计算量为3.175M，参数量为5.856K。

5.根据权利要求2所述的基于深度学习语义分割的图像二值化方法，其特征在于，所述PSPModule模块使用步长为16、8、4和2的四种步长。

6.根据权利要求1所述的基于深度学习语义分割的图像二值化方法，其特征在于，所述步骤1中降采样后的图像的分辨率为64*64。

7.根据权利要求1所述的基于深度学习语义分割的图像二值化方法，其特征在于，所述步骤3中thres1和thres2初始化为0.5，迭代步长s和k初始化为0.0003。

8.根据权利要求1所述的基于深度学习语义分割的图像二值化方法，其特征在于，所述步骤4和步骤5所述的连通域方法为深度优先搜索法或广度优先搜索法。