CN112330705B - 一种基于深度学习语义分割的图像二值化方法 - Google Patents

一种基于深度学习语义分割的图像二值化方法 Download PDF

Info

Publication number
CN112330705B
CN112330705B CN202011098156.XA CN202011098156A CN112330705B CN 112330705 B CN112330705 B CN 112330705B CN 202011098156 A CN202011098156 A CN 202011098156A CN 112330705 B CN112330705 B CN 112330705B
Authority
CN
China
Prior art keywords
image
thres1
semantic segmentation
thres2
foreground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202011098156.XA
Other languages
English (en)
Other versions
CN112330705A (zh
Inventor
苗志斌
孔慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202011098156.XA priority Critical patent/CN112330705B/zh
Publication of CN112330705A publication Critical patent/CN112330705A/zh
Application granted granted Critical
Publication of CN112330705B publication Critical patent/CN112330705B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习语义分割的图像二值化方法,包括步骤:1)对于一张彩色图像,利用轻量级语义分割网络对图像进行实时性分割,根据BCEloss损失函数训练所述网络,待网络收敛,得到特征图;2)对1)中的特征图,使用一种可迭代阈值方法得到两个阈值,利用这两个阈值将图像分割为三值图,其中三值中的中间值代表的区域记为疑似区域;3)将对2)中分割的结果,使用一种连通域方法,首先对图像进行去噪,其次对疑似区域按照一定规则进行划分,最后根据划分结果将图像从三值图变成二值图,即1)中对应的前景和背景。所述方法在满足实时性的前提下,提升了肤色检测的效果。

Description

一种基于深度学习语义分割的图像二值化方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于深度学习语义分割的图像二值化方法。
背景技术
近年来,随着深度学习技术和相关硬件的发展,“AI”一词已经被我们熟知。深度学习作为前沿技术,它给我们的生活品质带来了极大的提高。尤其是在人脸领域,人脸识别、人脸检测、美颜美妆领域,深度学习技术已经被广泛应用,带来了很大的社会价值。而肤色检测是可以作为人脸人体相关领域的前提技术,可作为美颜美妆领域和人脸识别检测技术的一环来进行研究,具有很高的社会价值和意义。
传统的图像处理方法几乎都是利用图像的颜色信息来进行肤色检测。其中,最常用的传统图像处理方法之一就是椭圆模型,即对于一张YCrCb图像,肤色样本CrCb通道统计值分布为一个椭圆分布。因此,只需要将图像的每个像素点判断其CrCb是否在椭圆内就可以完成肤色检测。但是此方法是大量统计的结果,具有一定的普遍性,鲁棒性不好。最常用的机器学习方法是基于混合高斯模型的方法,通过CrCb通道进行混合高斯完成数据拟合,在实际应用中仍存在与肤色相近的颜色区域被误检的问题。这时就需要深度学习与传统图像处理方法相结合的方法,达到在实时性的前提下提高检测效果的目的。
发明内容
本发明的目的在于提出一种基于深度学习语义分割的图像二值化方法,该方法在满足实时性的前提下,提升了肤色检测的效果。
实现本发明目的的技术方案为:一种基于深度学习语义分割的图像二值化方法,包括以下几个步骤:
步骤1,对备好的训练集中任意一幅彩色图像,首先将图像颜色空间变成YCrCb空间,其次对图像进行降采样,使其变成分辨率为N1*N1的图像,N1为小于96的常数,最后对图像进行归一化处理;
步骤2,对步骤1中归一化处理后的图像输入到轻量级语义分割网络,得到特征图,并根据BCEloss损失函数训练所述网络;如果轻量级语义分割网络收敛即损失函数收敛,执行步骤3,否则执行步骤1;
步骤3,初始化双阈值和双阈值的迭代步长,即第一阈值thres1及其迭代步长s和第二阈值thres2及其迭代步长k;
步骤4,通过thres1和thres2,将步骤2的特征图划分为三值图,对于特征图中每个像素的值,[0,thres2]的记为背景,(thres2,thres1]的记为疑似区域,(thres1,1]的记为前景;
步骤5,通过连通域方法去除小面积前景噪点,小面积指前景面积小于图像大小的百分之三;
步骤6,设定步长d,通过连通域方法将疑似区域中与前景距离≤d的像素划分为疑似前景,其余划分为背景;再将疑似前景区域重新划分,若此疑似前景与前景相连,则划分为前景,否则划分为背景,得到二值图;
步骤7,利用二值图与真值比较,如果thres1收敛,且当前训练的所有图像中,有超过一半图像的二值化结果的召回率R位于[0.98,1]时,执行步骤8;否则,确定新的thres1和thres2,用新的thres1和thres2执行步骤4;
新的thres1和thres2确定方法:用thres1、thres1+s和thres1-s分别与thres2将图像根据步骤4-步骤6得到二值图,用该二值图与真值求交并比,取三者中交并比最大的作为新的thres1;用新的thres1分别与thres2、thres2+k和thres2-k将图像根据步骤4-步骤6得到二值图,用该二值图与真值求召回率,取三者中召回率最大的作为新的thres2;
步骤8,执行一次步骤4-步骤6输出二值图。
进一步的,所述步骤2中轻量级语义分割网络包括编码模块和解码模块,编码模块的输入为步骤1中归一化处理后的图像,编码模块包括卷积层、瓶颈层和序列化层,卷积层通过卷积、批量归一化和激活函数Relu6对输入图像进行处理得到分辨率为N2*N2的图像,满足N2<N1,瓶颈层和序列化层分别将分辨率为N2*N2图像提取特征处理成分辨率为N3*N3和N4*N4的特征图,满足N3≤N2,N4<N2;解码模块使用多尺度信息、金字塔场景分析网络PSPNet中的PSPModule模块和全局平均池化来获取N3*N3和N4*N4特征图的全局特征信息,然后输出分辨率为N1*N1的特征图。
进一步的,所述瓶颈层使用残差结构;所述序列化层不带残差结构;瓶颈层和序列化层都采用激励网络SENet中的SEModule模块的注意力机制,使得瓶颈层和序列化层每个通道有各自的权重。
进一步的,所述轻量级语义分割网络的解码模块采用浮点数计算量为6.667M,参数量为12.192K;编码模块采用浮点数计算量为3.175M,参数量为5.856K。
进一步的,所述PSPModule模块使用步长为16、8、4和2的四种步长。
进一步的,所述步骤1中降采样后的图像的分辨率为64*64。
进一步的,所述步骤3中thres1和thres2初始化为0.5,迭代步长s和k初始化为0.0003。
进一步的,所述步骤4和步骤5所述的连通域方法为深度优先搜索法或广度优先搜索法。
本发明与现有技术相比,其显著优点为:(1)该方法不仅仅关注于效果,还从实际应用角度考虑,在实时性的前提下,提升了肤色检测的效果;(2)该方法结合了深度学习和传统图像处理两种方法,其结果优于任意单独使用一种方法的效果;(3)该方法可以作为美颜美妆或人脸识别检测的前序工作,可用于后续进行人脸或人体等相关领域,具有很好的实用价值。
附图说明
图1为本发明中轻量级语义分割网络的示意图。
图2为本发明的方法流程图。
具体实施方式
下面结合附图对本发明的一种基于深度学习语义分割的图像二值化方法做进一步详细说明。
如图1所示,自定义的轻量级语义分割网络包括编码(Encode)模块和解码(Decode)模块,编码(Encode)模块的输入为分辨率为N1*N1的图像,编码模块包括卷积层、瓶颈层和序列化层,卷积层通过卷积、批量归一化和激活函数Relu6对输入图像进行处理得到分辨率为N2*N2的图像,满足N2<N1,瓶颈层和序列化层分别将分辨率为N2*N2图像提取特征处理成分辨率为N3*N3和N4*N4的特征图,满足N3≤N2,N4<N2,其中,瓶颈层使用了残差结构,有利于网络的反向传播,可有效缓解梯度消失问题;序列化层则为不带残差结构的瓶颈层,用于进一步提取图像特征信息;瓶颈层和序列化层也使用了激励网络SENet中的SEModule模块的注意力机制,使得瓶颈层和序列化层每个通道有各自的权重,有利于该网络学习有效的信息,抑制无效的信息来提取图像特征;解码(Decode)模块输出(Output)为与输入图像同等分辨率的特征图;解码模块使用多尺度信息、金字塔场景分析网络PSPNet中的PSPModule模块和全局平均池化(global avg pooling)来获取全局特征信息,输出特征图,其中,PSPModule模块使用了步长为16、8、4、2四种;在学到多尺度信息的同时没有引入过多的计算量。该网络还利用浅层特征与深层特征叠加融合的方式法提升整体的学习效果。所述轻量级语义分割网络的解码模块采用浮点数计算量为6.667M,参数量为12.192K;编码模块采用浮点数计算量为3.175M,参数量为5.856K。
如图2所示,一种基于深度学习语义分割的图像二值化方法,包括以下几个步骤:
步骤1,对备好的训练集中任意一幅彩色图像,首先将图像颜色空间变成YCrCb空间,其次对图像进行降采样,使其变成分辨率为N1*N1的图像,N1为小于96的常数,最后对图像进行归一化处理;
步骤2,对步骤1中归一化处理后的图像输入到轻量级语义分割网络,得到特征图,并根据BCEloss损失函数训练所述网络;如果轻量级语义分割网络收敛即损失函数收敛,执行步骤3,否则执行步骤1;
步骤3,初始化双阈值和双阈值的迭代步长,即第一阈值thres1及其迭代步长s和第二阈值thres2及其迭代步长k;
步骤4,通过thres1和thres2,将步骤2的特征图划分为三值图,对于特征图中每个像素的值,[0,thres2]的记为背景,(thres2,thres1]的记为疑似区域,(thres1,1]的记为前景;
步骤5,通过连通域方法去除小面积前景噪点,小面积指前景面积小于图像大小的百分之三;
步骤6,设定步长d,通过连通域方法将疑似区域中与前景距离≤d的像素划分为疑似前景,其余划分为背景;再将疑似前景区域重新划分,若此疑似前景与前景相连,则划分为前景,否则划分为背景,得到二值图;
步骤7,利用二值图与真值比较,如果thres1收敛,即稳定在某个值上下浮动,且当前训练的所有图像中,有超过一半图像的二值化结果的召回率R位于[0.98,1]时,执行步骤8;否则,确定新的thres1和thres2,用新的thres1和thres2执行步骤4;
新的thres1和thres2确定方法:用thres1、thres1+s和thres1-s分别与thres2将图像根据步骤4-步骤6得到二值图,用该二值图与真值求交并比,取三者中交并比最大的作为新的thres1;用新的thres1分别与thres2、thres2+k和thres2-k将图像根据步骤4-步骤6得到二值图,用该二值图与真值求召回率,取三者中召回率最大的作为新的thres2;
步骤8,执行一次步骤4-步骤6输出二值图。
进一步的,所述步骤1中降采样后的图像的分辨率为64*64。
进一步的,所述步骤3中双阈值thres1和thres2初始化为0.5,双阈值迭代步长s和k初始化为0.0003。
进一步的,步骤4和步骤5所述的连通域方法为深度优先搜索法或广度优先搜索法。
实施例
本实施例使用CelebAMask-HQ与网络搜集整合得到的数据作为数据集,其中CelebAMask-HQ数据集主要用于验证与测试,网络搜集整合得到的数据集用于训练。CelebAMask-HQ数据集一共30000张人脸图,网络搜集到的数据集共11281张图像,本发明将网络搜集数据集用于训练集,并且使用CelebAMask-HQ编号27000-29999共3000张用于测试集,24000-26999共3000张用于验证集。CelebAMask-HQ数据集的真值图有19种标签,CelebAMask-HQ数据集由脸部、耳朵、脖子组合并去除眼睛、嘴巴、眉毛作为真值图,网络搜集数据集的真值为自带真值与使用标注工具标记获取真值两种方式。通过对比各类方法,得到实验结果如表1所示。
表1
Figure BDA0002724450300000051
Figure BDA0002724450300000061
表1中速度一列是在某手机平台下实验得出;表1方法一列:椭圆模型是常见的基于YCrCb通道的肤色检测方法;Otsu大律法是基于YCrCb图像的Cr通道;混合高斯是对基于CrCb双通道的对肤色和背景的双拟合;本发明网络是基于图1的语义分割网络模型;双阈值如实施方式所述方法的步骤3、4所示;去噪点如实施方式所述方法的步骤5所示,步长限制见实施方式所述方法的步骤6所示。
对于表1中第3-6列每格上下两个数字分别表示验证集结果和测试集结果。
表1中最后一行为本发明所述方法的实验数据,从表1可以看出,本发明一种基于深度学习语义分割的图像二值化方法的交并比和F1-Score这两个重要标上是要优于表1中传统图像处理方法、机器学习方法和单深度学习方法的;同时,本发明方法在某平台上测试速度可以满足实时性。

Claims (8)

1.一种基于深度学习语义分割的图像二值化方法,其特征在于,包括以下几个步骤:
步骤1,对备好的训练集中任意一幅彩色图像,首先将图像颜色空间变成YCrCb空间,其次对图像进行降采样,使其变成分辨率为N1*N1的图像,N1为小于96的常数,最后对图像进行归一化处理;
步骤2,对步骤1中归一化处理后的图像输入到轻量级语义分割网络,得到特征图,并根据BCEloss损失函数训练所述网络;如果轻量级语义分割网络收敛即损失函数收敛,执行步骤3,否则执行步骤1;
步骤3,初始化双阈值和双阈值的迭代步长,即第一阈值thres1及其迭代步长s和第二阈值thres2及其迭代步长k;
步骤4,通过thres1和thres2,将步骤2的特征图划分为三值图,对于特征图中每个像素的值,[0,thres2]的记为背景,(thres2,thres1]的记为疑似区域,(thres1,1]的记为前景;
步骤5,通过连通域方法去除小面积前景噪点,小面积指前景面积小于图像大小的百分之三;
步骤6,设定步长d,通过连通域方法将疑似区域中与前景距离≤d的像素划分为疑似前景,其余划分为背景;再将疑似前景区域重新划分,若此疑似前景与前景相连,则划分为前景,否则划分为背景,得到二值图;
步骤7,利用二值图与真值比较,如果thres1收敛,且当前训练的所有图像中,有超过一半图像的二值化结果的召回率R位于[0.98,1]时,执行步骤8;否则,确定新的thres1和thres2,用新的thres1和thres2执行步骤4;
新的thres1和thres2确定方法:用thres1、thres1+s和thres1-s分别与thres2将图像根据步骤4-步骤6得到二值图,用该二值图与真值求交并比,取三者中交并比最大的作为新的thres1;用新的thres1分别与thres2、thres2+k和thres2-k将图像根据步骤4-步骤6得到二值图,用该二值图与真值求召回率,取三者中召回率最大的作为新的thres2;
步骤8,执行一次步骤4-步骤6输出二值图。
2.根据权利要求1所述的基于深度学习语义分割的图像二值化方法,其特征在于,所述步骤2中轻量级语义分割网络包括编码模块和解码模块,编码模块的输入为步骤1中归一化处理后的图像,编码模块包括卷积层、瓶颈层和序列化层,卷积层通过卷积、批量归一化和激活函数Relu6对输入图像进行处理得到分辨率为N2*N2的图像,满足N2<N1,瓶颈层和序列化层分别将分辨率为N2*N2图像提取特征处理成分辨率为N3*N3和N4*N4的特征图,满足N3≤N2,N4<N2;解码模块使用多尺度信息、金字塔场景分析网络PSPNet中的PSPModule模块和全局平均池化来获取N3*N3和N4*N4特征图的全局特征信息,然后输出分辨率为N1*N1的特征图。
3.根据权利要求2所述的基于深度学习语义分割的图像二值化方法,其特征在于,所述瓶颈层使用残差结构;所述序列化层不带残差结构;瓶颈层和序列化层都采用激励网络SENet中的SEModule模块的注意力机制,使得瓶颈层和序列化层每个通道有各自的权重。
4.根据权利要求2所述的基于深度学习语义分割的图像二值化方法,其特征在于,所述的轻量级语义分割网络的解码模块采用浮点数计算量为6.667M,参数量为12.192K;编码模块采用浮点数计算量为3.175M,参数量为5.856K。
5.根据权利要求2所述的基于深度学习语义分割的图像二值化方法,其特征在于,所述PSPModule模块使用步长为16、8、4和2的四种步长。
6.根据权利要求1所述的基于深度学习语义分割的图像二值化方法,其特征在于,所述步骤1中降采样后的图像的分辨率为64*64。
7.根据权利要求1所述的基于深度学习语义分割的图像二值化方法,其特征在于,所述步骤3中thres1和thres2初始化为0.5,迭代步长s和k初始化为0.0003。
8.根据权利要求1所述的基于深度学习语义分割的图像二值化方法,其特征在于,所述步骤4和步骤5所述的连通域方法为深度优先搜索法或广度优先搜索法。
CN202011098156.XA 2020-10-14 2020-10-14 一种基于深度学习语义分割的图像二值化方法 Expired - Fee Related CN112330705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011098156.XA CN112330705B (zh) 2020-10-14 2020-10-14 一种基于深度学习语义分割的图像二值化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011098156.XA CN112330705B (zh) 2020-10-14 2020-10-14 一种基于深度学习语义分割的图像二值化方法

Publications (2)

Publication Number Publication Date
CN112330705A CN112330705A (zh) 2021-02-05
CN112330705B true CN112330705B (zh) 2022-08-19

Family

ID=74314210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011098156.XA Expired - Fee Related CN112330705B (zh) 2020-10-14 2020-10-14 一种基于深度学习语义分割的图像二值化方法

Country Status (1)

Country Link
CN (1) CN112330705B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115564680B (zh) * 2022-10-17 2023-03-28 陕西师范大学 基于二维多路径匹配追踪算法的图像去噪方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564025B (zh) * 2017-08-09 2020-05-29 浙江大学 一种基于深度神经网络的电力设备红外图像语义分割方法
CN109978890B (zh) * 2019-02-25 2023-07-07 平安科技(深圳)有限公司 基于图像处理的目标提取方法、装置及终端设备
CN111259983B (zh) * 2020-02-13 2022-05-20 电子科技大学 基于深度学习的图像语义分割方法及存储介质
CN111598174B (zh) * 2020-05-19 2020-12-29 中国科学院空天信息创新研究院 基于半监督对抗学习的模型训练方法及图像变化分析方法

Also Published As

Publication number Publication date
CN112330705A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN107886064B (zh) 一种基于卷积神经网络的人脸识别场景适应的方法
CN107506822B (zh) 一种基于空间融合池化的深度神经网络方法
CN115049936B (zh) 一种面向高分遥感影像的边界增强型语义分割方法
CN107480707B (zh) 一种基于信息无损池化的深度神经网络方法
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
US11804074B2 (en) Method for recognizing facial expressions based on adversarial elimination
CN111325751A (zh) 基于注意力卷积神经网络的ct图像分割系统
CN111242288B (zh) 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法
CN111783782A (zh) 融合改进UNet和SegNet的遥感图像语义分割方法
CN109492416A (zh) 一种基于安全区域的大数据图像保护方法和系统
CN110458084B (zh) 一种基于倒置残差网络的人脸年龄估计方法
CN107220655A (zh) 一种基于深度学习的手写、印刷文本的分类方法
CN105117707A (zh) 一种基于区域图像的人脸表情识别方法
CN113344933A (zh) 一种基于多层次特征融合网络的腺体细胞分割方法
CN111984790B (zh) 一种实体关系抽取方法
CN112149526B (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN106203448A (zh) 一种基于非线性尺度空间的场景分类方法
CN114972753B (zh) 基于上下文信息聚合和辅助学习的轻量级语义分割方法及系统
CN112037225A (zh) 一种基于卷积神经的海洋船舶图像分割方法
CN112330705B (zh) 一种基于深度学习语义分割的图像二值化方法
CN114299305B (zh) 聚合密集和注意力多尺度特征的显著性目标检测算法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN114693966A (zh) 一种基于深度学习的目标检测方法
CN117292363A (zh) 一种危险驾驶动作的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220819