CN110197490B - 基于深度学习的人像自动抠图方法 - Google Patents

基于深度学习的人像自动抠图方法 Download PDF

Info

Publication number
CN110197490B
CN110197490B CN201910301249.9A CN201910301249A CN110197490B CN 110197490 B CN110197490 B CN 110197490B CN 201910301249 A CN201910301249 A CN 201910301249A CN 110197490 B CN110197490 B CN 110197490B
Authority
CN
China
Prior art keywords
portrait
picture
coordinate
map
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910301249.9A
Other languages
English (en)
Other versions
CN110197490A (zh
Inventor
许征波
姚若光
范志鸿
庞恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Pixel Solutions Co ltd
Original Assignee
Guangzhou Pixel Solutions Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Pixel Solutions Co ltd filed Critical Guangzhou Pixel Solutions Co ltd
Priority to CN201910301249.9A priority Critical patent/CN110197490B/zh
Publication of CN110197490A publication Critical patent/CN110197490A/zh
Application granted granted Critical
Publication of CN110197490B publication Critical patent/CN110197490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于深度学习的人像自动抠图方法,该方法通过训练神经网络的方式使用训练数据对神经网络进行训练,然后使用训练好的神经网络对待抠图的人像图片进行处理,得到人像抠图的结果,其能够实现对人像的精准抠出,且无需人工标注三分图,明显提高了人像抠图的效率。相对于传统的人像抠图方法,本发明提供的方法摆脱了依赖于图像中的颜色和空间信息而导致的拖尾和厚实现象。

Description

基于深度学习的人像自动抠图方法
技术领域
本发明涉及图像处理技术领域,更具体地,涉及一种基于深度学习的人像自动抠图方法。
背景技术
人像抠图指的是识别图像中的人像区域,包括头部、半身和全身位置,准确预测出人像与背景交界处之间的不透明度,然后配以不同背景图片、效果进行融合。
现有技术提供的人像抠图工具一般依赖于用户交互来绘制三分图或笔画图的方式来提供颜色样本信息去完成抠图,该过程是繁琐且耗时的,对于一些没有抠图处理知识的专业人士来说,完成一幅满意的抠图需要多次绘制三分图或笔画图。并且这些人像抠图工具无法处理前景与背景对比度小的图像。而无需用户交互的人像抠图工具只能实现对人像的粗略硬分割,这种硬分割造成人像与背景之间没有平滑的过渡,且对复杂结构的前景分割比如对头发的分割会出现异常不精准的情况。
发明内容
本发明为解决现有技术需要用户交互才能够实现对人像精准抠图所存在的抠图过程繁琐、复杂的技术缺陷,提供了一种基于深度学习的人像自动抠图方法。
为实现以上发明目的,采用的技术方案是:
一种基于深度学习的人像自动抠图方法,包括以下步骤:
S1.采集n张人像图片作为训练数据集,然后对训练数据集中的人像图片Ii进行处理,生成表示其前景不透明度的Alpha图Ai;其中i表示人像图片的序号,其取值范围为1,2,3,…,n;对训练数据集中的所有人像图片的Alpha图取平均得到平均模板图Mm;n的范围为2000~4000;
S2.利用训练数据集中的每张人像图片Ii及其对应的Alpha图Ai作为前景图、公开数据集中的n张图片作为背景图进行合成生成n张RGB图;
S3.通过任意数值计算扩展包生成向量间隔等比例的列向量xa和行向量ya,列向量xa和行向量ya的向量长度分别为lX、ly,将列向量xa向行方向重复ly次生成ly×lX的矩阵图,称为标准坐标x图Xm,将行向量ya向列方向重复lX生成ly×lX的矩阵图,称为标准坐标y图Ym
S4.利用人脸关键点检测算法检测训练数据集所有的人像图片的人脸关键点坐标并取算数平均得到平均关键点坐标Fm
S5.对训练数据集中人像图片Ii的Alpha图Ai进行二值化操作,得到相应的二值图,然后在二值图上进行膨胀操作得到三分图的不确定区域图,将不确定区域图中像素值为255的像素点的像素值重设为128,然后利用不确定区域图覆盖Alpha图Ai得到对应的三分图Ti
S6.利用人脸关键点检测算法检测得到训练数据集中人像图片Ii的人脸关键点坐标Fc,其中,c表示第i张人像图片对应的人脸关键点坐标的序号;通过平均关键点坐标Fm与关键点坐标Fc计算得到仿射变换的单应性矩阵H:
Figure GDA0002773866450000021
其中Fmx和Fmy分别表示平均关键点坐标Fm的x坐标点和y坐标点,Fcx和Fcy分别表示当前人像图片Ii的人脸关键点的x坐标点和y坐标点;
基于平均模板图Mm、标准坐标x图Xm、标准坐标y图Ym利用下式分别求取变换得到人像图片Ii的模板图Mic、坐标x图Xic和坐标y图Yic
Figure GDA0002773866450000022
其中mx、my为平均模板图Mm、标准坐标x图Xm或标准坐标y图Ym的x坐标点和y坐标点;cx、cy为模板图Mic、坐标x图Xic或坐标y图Yic的x坐标点和y坐标点;
S7.构建神经网络,将训练数据集中的人像图片Ii、人像图片对应的模板图Mic、人像图片对应的坐标x图Xic和人像图片对应的坐标y图Yic以通道方向合并成图片作为神经网络的输入,神经网络输出人像图片的三分图
Figure GDA0002773866450000023
S8.计算神经网络输出的三分图
Figure GDA0002773866450000024
与真实三分图
Figure GDA0002773866450000025
的交叉熵损失函数值,根据计算的交叉熵损失函数值进行反向求导,并更新神经网络的网络参数;
S9.以训练数据集中不同的人像图片重复执行步骤S7、S8直至交叉熵损失函数值小于设定的阈值,然后执行步骤S10;
S10.将RGB图片CIi、模板图Mic、坐标x图Xic和坐标y图Yic以通道方向合并成图片作为神经网络的输入,神经网络输出预测的三分图及预测的人像图片Ii的前景不透明度图;其中RGB图片CIi由人像图片Ii及其对应的Alpha图Ai与公开数据集中的图片合并生成;
S11.计算预测的三分图与真实三分图的交叉熵损失函数值,以及计算预测的人像图片Ii的前景不透明度图与Alpha图Ai的欧式距离函数值;
S12.根据计算的交叉熵损失函数值、欧式距离函数值进行反向求导,并更新神经网络的参数;
S13.以不同的RGB图片重复执行步骤S10~S12直至欧式距离函数值小于设定的阈值;
S14.对于给定的人像图片k,按照步骤S1~S6的方式生成RGB图片、模板图Mkc、坐标x图Xkc或坐标y图Ykc,然后将RGB图片CIk、模板图Mkc、坐标x图Xkc或坐标y图Ykc作为神经网络的输入,神经网络输出预测的人像图片k的前景不透明度图;输出的人像图片k的前景不透明度图即为抠图的结果。
优选地,所述步骤S1中,利用matlab版的informationFlowMatting工具生成人像图片Ii表示其前景不透明度的Alpha图Ai
优选地,所述公开数据集为VOC或MSCOCO。
优选地,步骤S2,生成RGB图的具体过程如下:
Qe=αeFe+(1-αe)Bee∈[0,1]
其中Fe、Be分别表示前景图、背景图中相对应的像素点e的像素值,αe表示在像素点e的前景不透明度,Qe表示生成的RGB图的像素点e的像素值。
优选地,所述步骤S3的任意数值计算扩展包为numpy库。
优选地,所述步骤S5中,Alpha图Ai在像素值值域[10,230]做二值化操作,然后在二值图上应用opencv库的dilate函数进行膨胀操作得到三分图的不确定区域图。
优选地,所述步骤S4、S6中的人脸关键点检测算法为dlib函数库算法。
优选地,所述步骤S8计算交叉熵损失函数值的具体过程如下:
Figure GDA0002773866450000031
优选地,所述步骤S11计算交叉熵损失函数值的具体过程如下:
Figure GDA0002773866450000032
所述步骤S11计算欧式距离函数值的具体过程如下:
Figure GDA0002773866450000041
L=Lα+Lt
其中
Figure GDA0002773866450000042
表示预测的人像图片Ii的前景不透明度图第i个像素的灰度值,
Figure GDA0002773866450000043
表示Alpha图Ai的第i个像素的灰度值;ε为常量;
步骤S12基于L进行反向求导,并更新神经网络的参数。
与现有技术相比,本发明的有益效果是:
本发明提出了一种基于深度学习的人像自动抠图方法,该方法通过训练神经网络的方式使用训练数据对神经网络进行训练,然后使用训练好的神经网络对待抠图的人像图片进行处理,得到人像抠图的结果,其能够实现对人像的精准抠出,且无需人工标注三分图,明显提高了人像抠图的效率。相对于传统的人像抠图方法,本发明提供的方法摆脱了依赖于图像中的颜色和空间信息而导致的拖尾和厚实现象。
附图说明
图1为方法的流程示意图。
图2为方法的示例示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
本发明提供了一种基于深度学习的人像自动抠图方法,如图1所示,其包括有以下步骤:
S1.采集2400张人像图片作为训练数据集,然后对训练数据集中的人像图片Ii进行处理,生成表示其前景不透明度的Alpha图Ai;其中i表示人像图片的序号,其取值范围为1,2,3,…,2400;对训练数据集中的所有人像图片的Alpha图取平均得到平均模板图Mm;Alpha图Ai保存为Int类型,像素值值域是[0,255];
S2.利用训练数据集中的每张人像图片Ii及其对应的Alpha图Ai作为前景图、公开数据集中的2400张图片作为背景图进行合成生成2400张RGB图;
S3.通过任意数值计算扩展包生成向量间隔等比例的列向量xa和行向量ya,列向量xa和行向量ya的向量长度分别为lX、ly(大于1000),将列向量xa向行方向重复ly次生成ly×lX的矩阵图,称为标准坐标x图Xm,将行向量ya向列方向重复lX生成ly×lX的矩阵图,称为标准坐标y图Ym
S4.利用人脸关键点检测算法检测训练数据集所有的人像图片的人脸关键点坐标并取算数平均得到平均关键点坐标Fm
S5.对训练数据集中人像图片Ii的Alpha图Ai进行二值化操作,得到相应的二值图,然后在二值图上进行膨胀操作得到三分图的不确定区域图,将不确定区域图中像素值为255的像素点的像素值重设为128,然后利用不确定区域图覆盖Alpha图Ai得到对应的三分图Ti
S6.利用人脸关键点检测算法检测得到训练数据集中人像图片Ii的人脸关键点坐标Fc,其中,c表示第i张人像图片对应的人脸关键点坐标的序号;通过平均关键点坐标Fm与关键点坐标Fc计算得到仿射变换的单应性矩阵H:
Figure GDA0002773866450000051
其中Fmx和Fmy分别表示平均关键点坐标Fm的x坐标点和y坐标点,Fcx和Fcy分别表示当前人像图片Ii的人脸关键点的x坐标点和y坐标点;
基于平均模板图Mm、标准坐标x图Xm、标准坐标y图Ym利用下式分别求取变换得到人像图片Ii的模板图Mic、坐标x图Xic和坐标y图Yic
Figure GDA0002773866450000052
其中mx、my为平均模板图Mm、标准坐标x图Xm或标准坐标y图Ym的x坐标点和y坐标点;cx、cy为模板图Mic、坐标x图Xic或坐标y图Yic的x坐标点和y坐标点;
S7.构建神经网络,将训练数据集中的人像图片Ii、人像图片对应的模板图Mic、人像图片对应的坐标x图Xic和人像图片对应的坐标y图Yic以通道方向合并成大小为480×360×6的图片作为神经网络的输入,神经网络输出人像图片的三分图
Figure GDA0002773866450000053
S8.计算神经网络输出的三分图
Figure GDA0002773866450000054
与真实三分图
Figure GDA0002773866450000055
的交叉熵损失函数值,根据计算的交叉熵损失函数值进行反向求导,并更新神经网络的网络参数;
S9.以训练数据集中不同的人像图片重复执行步骤S7、S8直至交叉熵损失函数值小于设定的阈值,然后执行步骤S10;
S10.将RGB图片CIi、模板图Mic、坐标x图Xic和坐标y图Yic以通道方向合并成大小为480×360×6的图片作为神经网络的输入,神经网络输出预测的三分图及预测的人像图片Ii的前景不透明度图;其中RGB图片CIi由人像图片Ii及其对应的Alpha图Ai与公开数据集中的图片合并生成;
S11.计算预测的三分图与真实三分图的交叉熵损失函数值,以及计算预测的人像图片Ii的前景不透明度图与Alpha图Ai的欧式距离函数值;
S12.根据计算的交叉熵损失函数值、欧式距离函数值进行反向求导,并更新神经网络的参数;
S13.以不同的RGB图片重复执行步骤S10~S12直至欧式距离函数值小于设定的阈值;
S14.对于给定的人像图片k,按照步骤S1~S6的方式生成RGB图片、模板图Mkc、坐标x图Xkc或坐标y图Ykc,然后将RGB图片CIk、模板图Mkc、坐标x图Xkc或坐标y图Ykc作为神经网络的输入,神经网络输出预测的人像图片k的前景不透明度图;输出的人像图片k的前景不透明度图即为抠图的结果。方法的具体示例如图2所示。
在具体的实施过程中,所述步骤S1中,利用matlab版的informationFlowMatting工具生成人像图片Ii表示其前景不透明度的Alpha图Ai
在具体的实施过程中,所述公开数据集为VOC或MSCOCO。
在具体的实施过程中,步骤S2,生成RGB图的具体过程如下:
Qe=αeFe+(1-αe)Bee∈[0,1]
其中Fe、Be分别表示前景图、背景图中相对应的像素点e的像素值,αe表示在像素点e的前景不透明度,Qe表示生成的RGB图的像素点e的像素值。
在具体的实施过程中,所述步骤S3的任意数值计算扩展包为numpy库。
在具体的实施过程中,所述步骤S5中,Alpha图Ai在像素值值域[10,230]做二值化操作,然后在二值图上应用ope100cv库的dilate函数进行膨胀操作得到三分图的不确定区域图。
在具体的实施过程中,所述步骤S4、S6中的人脸关键点检测算法为dlib函数库算法。
在具体的实施过程中,所述步骤S8计算交叉熵损失函数值的具体过程如下:
Figure GDA0002773866450000071
在具体的实施过程中,所述步骤S11计算交叉熵损失函数值的具体过程如下:
Figure GDA0002773866450000072
所述步骤S11计算欧式距离函数值的具体过程如下:
Figure GDA0002773866450000073
L=Lα+Lt
其中
Figure GDA0002773866450000074
表示预测的人像图片Ii的前景不透明度图第i个像素的灰度值,
Figure GDA0002773866450000075
表示Alpha图Ai的第i个像素的灰度值;ε为常量;
步骤S12基于L进行反向求导,并更新神经网络的参数。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于深度学习的人像自动抠图方法,其特征在于:包括以下步骤:
S1.采集n张人像图片作为训练数据集,然后对训练数据集中的人像图片Ii进行处理,生成表示其前景不透明度的Alpha图Ai;其中i表示人像图片的序号,其取值范围为1,2,3,…,n;对训练数据集中的所有人像图片的Alpha图取平均得到平均模板图Mm;n的范围为2000~4000;
S2.利用训练数据集中的每张人像图片Ii及其对应的Alpha图Ai作为前景图、公开数据集中的n张图片作为背景图进行合成生成n张RGB图;
S3.通过任意数值计算扩展包生成向量间隔等比例的列向量xa和行向量ya,列向量xa和行向量ya的向量长度分别为lX、ly,将列向量xa向行方向重复ly次生成ly×lX的矩阵图,称为标准坐标x图Xm,将行向量ya向列方向重复lX生成ly×lX的矩阵图,称为标准坐标y图Ym
S4.利用人脸关键点检测算法检测训练数据集所有的人像图片的人脸关键点坐标并取算数平均得到平均关键点坐标Fm
S5.对训练数据集中人像图片Ii的Alpha图Ai进行二值化操作,得到相应的二值图,然后在二值图上进行膨胀操作得到三分图的不确定区域图,将不确定区域图中像素值为255的像素点的像素值重设为128,然后利用不确定区域图覆盖Alpha图Ai得到对应的三分图Ti
S6.利用人脸关键点检测算法检测得到训练数据集中人像图片Ii的人脸关键点坐标Fc,其中,c表示第i张人像图片对应的人脸关键点坐标的序号;通过平均关键点坐标Fm与关键点坐标Fc计算得到仿射变换的单应性矩阵H:
Figure FDA0002773866440000011
其中Fmx和Fmy分别表示平均关键点坐标Fm的x坐标点和y坐标点,Fcx和Fcy分别表示当前人像图片Ii的人脸关键点的x坐标点和y坐标点;
基于平均模板图Mm、标准坐标x图Xm、标准坐标y图Ym利用下式分别求取变换得到人像图片Ii的模板图Mic、坐标x图Xic和坐标y图Yic
Figure FDA0002773866440000012
其中mx、my为平均模板图Mm、标准坐标x图Xm或标准坐标y图Ym的x坐标点和y坐标点;cx、cy为模板图Mic、坐标x图Xic或坐标y图Yic的x坐标点和y坐标点;
S7.构建神经网络,将训练数据集中的人像图片Ii、人像图片对应的模板图Mic、人像图片对应的坐标x图Xic和人像图片对应的坐标y图Yic以通道方向合并成图片作为神经网络的输入,神经网络输出人像图片的三分图
Figure FDA0002773866440000021
S8.计算神经网络输出的三分图
Figure FDA0002773866440000023
与真实三分图
Figure FDA0002773866440000022
的交叉熵损失函数值,根据计算的交叉熵损失函数值进行反向求导,并更新神经网络的网络参数;
S9.以训练数据集中不同的人像图片重复执行步骤S7、S8直至交叉熵损失函数值小于设定的阈值,然后执行步骤S10;
S10.将RGB图片CIi、模板图Mic、坐标x图Xic和坐标y图Yic以通道方向合并成图片作为神经网络的输入,神经网络输出预测的三分图及预测的人像图片Ii的前景不透明度图;其中RGB图片CIi由人像图片Ii及其对应的Alpha图Ai与公开数据集中的图片合并生成;
S11.计算预测的三分图与真实三分图的交叉熵损失函数值,以及计算预测的人像图片Ii的前景不透明度图与Alpha图Ai的欧式距离函数值;
S12.根据计算的交叉熵损失函数值、欧式距离函数值进行反向求导,并更新神经网络的参数;
S13.以不同的RGB图片重复执行步骤S10~S12直至欧式距离函数值小于设定的阈值;
S14.对于给定的人像图片k,按照步骤S1~S6的方式生成RGB图片、模板图Mkc、坐标x图Xkc或坐标y图Ykc,然后将RGB图片CIk、模板图Mkc、坐标x图Xkc或坐标y图Ykc作为神经网络的输入,神经网络输出预测的人像图片k的前景不透明度图;输出的人像图片k的前景不透明度图即为抠图的结果。
2.根据权利要求1所述的基于深度学习的人像自动抠图方法,其特征在于:所述步骤S1中,利用matlab版的informationFlowMatting工具生成人像图片Ii表示其前景不透明度的Alpha图Ai
3.根据权利要求1所述的基于深度学习的人像自动抠图方法,其特征在于:所述公开数据集为PASCALVOC或MSCOCO。
4.根据权利要求1所述的基于深度学习的人像自动抠图方法,其特征在于:步骤S2,生成RGB图的具体过程如下:
Qe=αeFe+(1-αe)Be,αe∈[0,1]
其中Fe、Be分别表示前景图、背景图中相对应的像素点e的像素值,αe表示在像素点e的前景不透明度,Qe表示生成的RGB图的像素点e的像素值。
5.根据权利要求4所述的基于深度学习的人像自动抠图方法,其特征在于:所述步骤S3的任意数值计算扩展包为numpy库。
6.根据权利要求5所述的基于深度学习的人像自动抠图方法,其特征在于:所述步骤S5中,Alpha图Ai在像素值值域[10,230]做二值化操作,然后在二值图上应用opencv库的dilate函数进行膨胀操作得到三分图的不确定区域图。
7.根据权利要求5所述的基于深度学习的人像自动抠图方法,其特征在于:所述步骤S4、S6中的人脸关键点检测算法为dlib函数库算法。
8.根据权利要求1~7任一项所述的基于深度学习的人像自动抠图方法,其特征在于:所述步骤S8计算交叉熵损失函数值的具体过程如下:
Figure FDA0002773866440000031
9.根据权利要求8所述的基于深度学习的人像自动抠图方法,其特征在于:所述步骤S11计算交叉熵损失函数值的具体过程如下:
Figure FDA0002773866440000032
所述步骤S11计算欧式距离函数值的具体过程如下:
Figure FDA0002773866440000033
L=Lα+Lt
其中
Figure FDA0002773866440000034
表示预测的人像图片Ii的前景不透明度图第i个像素的灰度值,
Figure FDA0002773866440000035
表示Alpha图Ai的第i个像素的灰度值;ε为常量;
步骤S12基于L进行反向求导,并更新神经网络的参数。
CN201910301249.9A 2019-04-15 2019-04-15 基于深度学习的人像自动抠图方法 Active CN110197490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910301249.9A CN110197490B (zh) 2019-04-15 2019-04-15 基于深度学习的人像自动抠图方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910301249.9A CN110197490B (zh) 2019-04-15 2019-04-15 基于深度学习的人像自动抠图方法

Publications (2)

Publication Number Publication Date
CN110197490A CN110197490A (zh) 2019-09-03
CN110197490B true CN110197490B (zh) 2021-02-26

Family

ID=67751962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910301249.9A Active CN110197490B (zh) 2019-04-15 2019-04-15 基于深度学习的人像自动抠图方法

Country Status (1)

Country Link
CN (1) CN110197490B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311485B (zh) * 2020-03-17 2023-07-04 Oppo广东移动通信有限公司 图像处理方法及相关装置
CN111462161B (zh) * 2020-03-31 2023-09-26 厦门亿联网络技术股份有限公司 一种实时视频人像提取的系统、方法、存储介质和设备
CN113012169B (zh) * 2021-03-22 2023-07-07 深圳市人工智能与机器人研究院 一种基于非局部注意力机制的全自动抠图方法
CN113973178A (zh) * 2021-10-24 2022-01-25 云景文旅科技有限公司 一种旅游过程中交互拍照处理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120154633A1 (en) * 2009-12-04 2012-06-21 Rodriguez Tony F Linked Data Methods and Systems
CN108257144A (zh) * 2018-01-25 2018-07-06 深圳市商汤科技有限公司 基于神经网络的抠图方法、装置、设备、存储介质及程序
CN108960064A (zh) * 2018-06-01 2018-12-07 重庆锐纳达自动化技术有限公司 一种基于卷积神经网络的人脸检测及识别方法
CN108986101A (zh) * 2018-05-31 2018-12-11 浙江大学 基于循环“抠图-分割”优化的人体图像分割方法
CN109461167A (zh) * 2018-11-02 2019-03-12 Oppo广东移动通信有限公司 图像处理模型的训练方法、抠图方法、装置、介质及终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120154633A1 (en) * 2009-12-04 2012-06-21 Rodriguez Tony F Linked Data Methods and Systems
CN108257144A (zh) * 2018-01-25 2018-07-06 深圳市商汤科技有限公司 基于神经网络的抠图方法、装置、设备、存储介质及程序
CN108986101A (zh) * 2018-05-31 2018-12-11 浙江大学 基于循环“抠图-分割”优化的人体图像分割方法
CN108960064A (zh) * 2018-06-01 2018-12-07 重庆锐纳达自动化技术有限公司 一种基于卷积神经网络的人脸检测及识别方法
CN109461167A (zh) * 2018-11-02 2019-03-12 Oppo广东移动通信有限公司 图像处理模型的训练方法、抠图方法、装置、介质及终端

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Automatic Portrait Segmentation for Image Stylization;Xiaoyong Shen 等;《Computer Graphics Forum》;20161231;全文 *
Three-layer graph framework with the sumD feature for alpha matting;Chao Li 等;《Computer Vision and Image Understanding》;20171231;全文 *
实时绿屏与深度肖像抠像技术研究;奉倚;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115;全文 *

Also Published As

Publication number Publication date
CN110197490A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110197490B (zh) 基于深度学习的人像自动抠图方法
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN108898610B (zh) 一种基于mask-RCNN的物体轮廓提取方法
CN104732506B (zh) 一种基于人脸语义分析的人物照片颜色风格转换方法
CN105046196B (zh) 基于级联卷积神经网络的前车车辆信息结构化输出方法
JP6088792B2 (ja) 画像検出装置及び制御プログラム並びに画像検出方法
CN110751655B (zh) 一种基于语义分割和显著性分析的自动抠图方法
CN111784747B (zh) 一种基于关键点检测和校正的车辆多目标跟踪系统及方法
JP4933186B2 (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
CN103177446A (zh) 基于邻域和非邻域平滑先验的图像前景精准提取方法
CN111507334B (zh) 一种基于关键点的实例分割方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN113608663B (zh) 一种基于深度学习和k-曲率法的指尖跟踪方法
CN111222507B (zh) 数字式仪表读数的自动识别方法、计算机可读存储介质
CN110969171A (zh) 基于改进卷积神经网络的图像分类模型、方法及应用
CN109977834B (zh) 从深度图像中分割人手与交互物体的方法和装置
CN113989794B (zh) 一种车牌检测和识别方法
CN111815528A (zh) 基于卷积模型和特征融合的恶劣天气图像分类增强方法
CN111539980B (zh) 一种基于可见光的多目标追踪方法
CN111414938B (zh) 一种板式换热器内气泡的目标检测方法
CN111274964A (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN107133964A (zh) 一种基于Kinect的抠像方法
CN108491796A (zh) 一种时域周期点目标检测方法
JP2003044853A (ja) 顔検出装置、顔向き検出装置、部分画像抽出装置及びそれらの方法
CN113887468B (zh) 一种三阶段网络框架的单视角人-物交互的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant