CN114022930B - 一种人像证件照自动生成方法 - Google Patents
一种人像证件照自动生成方法 Download PDFInfo
- Publication number
- CN114022930B CN114022930B CN202111260977.3A CN202111260977A CN114022930B CN 114022930 B CN114022930 B CN 114022930B CN 202111260977 A CN202111260977 A CN 202111260977A CN 114022930 B CN114022930 B CN 114022930B
- Authority
- CN
- China
- Prior art keywords
- portrait
- feature
- image
- module
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012937 correction Methods 0.000 claims abstract description 91
- 230000004927 fusion Effects 0.000 claims abstract description 69
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 34
- 230000033001 locomotion Effects 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 51
- 230000009471 action Effects 0.000 claims description 28
- 230000009466 transformation Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000011084 recovery Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 7
- 241000282326 Felis catus Species 0.000 claims description 5
- 230000010339 dilation Effects 0.000 claims description 3
- 230000003628 erosive effect Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 claims 3
- 238000005516 engineering process Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000003796 beauty Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一套人像证件照自动生成方法,由多个子任务深度神经网络模块衔接处理实现,包括人像姿态矫正模块以及人像背景着装置换模块;通过人像姿态矫正模块实现保持人像身份的前提下完成动作姿态调整的任务,其中用动作姿态提取模块进行人像动作姿态特征提取,用特征融合模块实现来自不同人像的身份特征与动作姿态特征的融合。本发明能提高被拍摄人自主获取标准人像证件照速度且降低标准人像证件照拍摄难度。
Description
技术领域
本发明涉及标准证件照的智能处理技术领域,特别是涉及一个由多个子任务深度神经网络模块衔接处理实现的人像证件照自动生成方法。
背景技术
人像证件照自动生成的目的是摒弃常规证件照拍摄过程中由工作人员手持照相机以及被拍摄人摆正身体及面部姿态配合工作人员的繁杂拍摄方式,利用深度学习方法实现由被拍摄人自主拍摄包含面部在内的图像,并使用深度神经网络模型自动生成符合人像证件照使用标准的证件照。人像标准证件照在日常工作学习中,尤其在涉及人员档案管理时具有极其重要的作用,被广泛应用在政府机关,公司企业以及学校日常档案管理工作中,其中,人像标准证件照通常具有以下几点要求:首先被拍摄人不得佩戴帽子,即需为免冠照;其次,被拍摄人需为正面照,同时人像需具备双耳轮廓以及男士喉结位置以上的全部人脸特征;最后,被拍摄人面部不得有明显化妆痕迹,即被拍摄人不得有较为严重的状容覆盖或遮掩面部原有特征。
常规人像证件照拍摄方式需要被拍摄人主动前往照相馆单独拍摄,需要被拍摄人与工作人员进行频繁的互动,并且在拍摄完成后仍然需要工作人员逐张进行后处理,这些繁杂的拍摄过程极大的浪费了工作人员以及被拍摄人的时间精力。因此,探索更加便捷化、智能化的证件照获取方式是十分具有实用意义的,这有利于证件照收集获取过程的智能化以及避免由于人工因素造成的重复工作。
常规人像证件照拍摄流程,首先需要拍摄人员布置证件照背景,并设置拍摄空间,在拍摄过程中需要被拍摄人根据拍摄人员的指令不断调整自身身体姿态及面部姿态,在被拍摄人姿态调整完毕后由拍摄人员拍摄被拍摄人当前正面姿态照,然后由后处理工作人员逐张进行照片姿态确认,并利用PhotoShop、美图秀秀等图像后处理软件进行必要的微处理,最后得到被拍摄人正面姿态证件照。其中在使用PhotoShop、美图秀秀等图像后处理软件对前期拍摄的人像证件照进行后期处理的过程中,需要操作人员具备一定的图像后处理操作基础能力,因此,这一过程成为常规人像证件照拍摄流程中最为耗时的环节,同时该过程在标准人像证件照拍摄整体过程中又是最为关键的环节。总体来说,整个过程费时费力,并且存在众多人为不确定因素,诸如被拍摄人眼部姿态存在问题,拍摄人员疏忽以及后处理工作人员遗漏等问题,这些问题都将影响证件照质量,同时,处理周期长问题导致被拍摄人无法得到及时的反馈。
随着深度学习技术的发展,基于深度学习的图像生成技术在人像姿态矫正以及人像前景分割领域得到了广泛应用,并且取得了十分显著的成果。基于深度学习的图像生成技术依靠生成对抗式网络(GAN)的强大的学习生成能力,以纯数据的方式学习图像与图像之间变换映射以及图像到标签的端到端映射。首先大量的人像姿态矫正方法被提出,包括利用3D结构先验知识学习生成姿态矫正图像,利用空间特征先验知识学习生成姿态矫正图像,以及利用传统图像算法中尺度变换,旋转等方式实现的人像面部转正等,其中早期的传统图像算法只是针对人像区域像素进行尺度变换,并利用旋转角度实现人像的正面化;在此之后,利用空间特征先验知识学习生成姿态矫正图像的方法,则是以数据驱动的方式,利用大量人脸正面侧面照的对抗式学习,实现人脸姿态矫正后缺失部分的生成任务;时至今日,利用3D结构先验知识学习生成姿态矫正图像的方法依靠了3D重建技术中对人像图像进行三维映射,得到人像在三维空间的映射结果然后利用三维空间旋转技术实现二维人像旋转,但是该方法的计算复杂度大,前向推导耗时而且对计算机系统环境要求较高,实际使用难度较大。同时,大量人像前景分割方法被提出,包括利用Trimap图根据最近邻算法或支持向量机算法SVM实现人像前景分割,利用生成对抗网络直接学习生成人像前景分割,利用多尺度特征交替融合结合跳跃连接Skip Connection逐层解码生成人像前景分割等,其中,利用多尺度特征交替融合跳跃连接逐层解码生成人像前景分割的技术将人像前景分割任务视为语义分割任务的子任务,利用语义分割任务中较为可靠的系统框架,对边缘信息进行多次处理保证边缘信息的完整性;而早期的利用Trimap图进行进行逼近式学习的人像前景分割方法,由于其要求输入多,且分割效果依赖于Trimap效果,存在分割结果粗糙的问题;而利用生成对抗式网络直接学习生成人像分割的方法,受数据影响问题,在前景与背景存在相似性时,表现不佳。由此,人像前景分割任务中目前较为合理并且表现优异的方法大多均为利用多尺度特征交替融合并解码生成人像前景分割的方法。
然而,现有人像姿态矫正网络存在着动作姿态难以迁移,身份特征与动作姿态特征融合困难以及3D结构先验难获取等问题,同时人像前景分割方法存在边界分割模糊以及分割结果丢失前景结构等问题。
如何有效提取人像动作姿态特征,实现人像身份特征与动作姿态特征的合理融合以及如何有效提取人像边界信息成为利用人像姿态矫正网络与人像前景分割网络实现证件照自动生成的关键。
发明内容
本发明的目的针对现有技术中存在的技术缺陷,提出一套人像证件照自动生成方法,旨在提高被拍摄人自主获取证件照速度并且降低证件照拍摄难度。
为实现本发明的目的所采用的技术方案是:
一个人像证件照自动生成方法,由多个子任务深度神经网络模块衔接处理实现,该多个子任务深度神经网络模块包括人像姿态矫正模块以及人像背景置换模块;人像姿态矫正模块包括身份特征提取模块、动作姿态特征提取模块、特征融合模块以及特征解码生成模块;人像背景着装置换模块包括语义特征提取模块、边界特征提取模块、特征融合解码模块以及背景着装置换模块;处理步骤如下:
身份特征提取模块与动作姿态特征模块分别提取待处理图像xi的身份特征Iid、参考模板xr的多尺度动作姿态特征Rp;
将身份特征Iid与多尺度动作姿态特征Rp送入特征融合模块利用自注意力机制获得融合特征fip,融合特征fip送入特征解码生成模块逐层特征解码,输出姿态矫正图像yi;
语义特征提取模块提取输出yi的多尺度语义特征LR8x和LR2x,其中,LR8x表示大小为姿态矫正图像yi尺寸1/8的特征图,LR2x表示大小为输出yi尺寸1/2的特征图,多尺度语义特征LR2x与姿态矫正图像yi送入边界特征提取模块获得边界特征HR2x,多尺度语义特征LR8x和HR2x以及姿态矫正图像yi送入特征融合解码模块逐层解码生成人像前景分割结果alpha;姿态矫正图像yi与人像前景分割结果alpha送入背景着装置换模块进行背景着装置换,生成完成人像姿态矫正与背景着装置换的标准证件照y输出。
优选的,所述动作姿态特征提取模块具体处理步骤如下:
对输入的参考模板进行深度为n层的编码并经由线性层处理,获得潜在空间各尺度的动作姿态特征组合:
其中,xr表示参考模板,rp与Rp分别表示经过深度为n层的编码器获得的潜在空间各尺度的动作姿态特征组合,atten(·)表示空间自注意力机制,En(·,Nn)表示第n层编码结构,Nn表示该层编码结构中所包含SE残差结构个数,fc表示线性层。
优选的,所述特征融合模块的具体处理步骤如下:
对提取的身份特征Iid与动作姿态特征Rp进行AdaIn编码,然后通过自注意力机制获得融合特征:
其中,p表示利用身份特征Iid生成的AdaIn参数,mid表示利用参数p对潜在空间各尺度动作姿态特征组合Rp编码得到的深层特征,fip表示多尺度融合特征,A(·)表示AdaIn参数化层,AdaIn参数化层为全连接层Linear,M(·)表示自适应实例归一化层的编码器,mask(·)表示掩码编码器,F(·)表示特征计算器
优选的,所述边界特征提取模块具体操作步骤如下:
首先对输入的人像姿态矫正模块输出的姿态矫正图像yi进行二维离散小波变换并做锐化处理,随后利用编码结构获得边界特征编码:
其中,y0表示人像姿态矫正模块输出的姿态矫正图像yi经由灰度变换后的灰度图,k表示离散度量,K为灰度图尺寸,h[k]与g[k]分别表示垂直方向与水平方向变换核,v1,H表示人像灰度图中方向为垂直方向的高通处理结果,ha0表示v1,H中方向为水平方向的低通处理结果,LR2x表示多尺度语义特征,HR2x表示边界特征,FH为编码结构,gray(·)表示灰度变换,h(·)与g(·)分别表示高通滤波器与低通滤波器,Gu(·)与Ca(·)分别表示高斯滤波器与Canny算子层,cat(·)表示按照维度为1的特征拼接层。
优选的,所述边界特征提取模块具体操作步骤如下:
首先对输入的人像姿态矫正模块输出的姿态矫正图像yi进行二维离散小波变换并做锐化处理,随后利用编码结构获得边界特征编码:
其中,y0表示人像姿态矫正模块的输出yi经由灰度变换后的灰度图,k表示离散度量,K为灰度图尺寸,h[k]与g[k]分别表示垂直方向与水平方向变换核,v1,H表示人像灰度图中方向为垂直方向的高通处理结果,ha0表示v1,H中方向为水平方向的低通处理结果,LR2x表示多尺度语义特征,HR2x表示边界特征,FH为编码结构,gray(·)表示灰度变换,h(·)与g(·)分别表示高通滤波器与低通滤波器,Gu(·)与Ca(·)分别表示高斯滤波器与Canny算子层,cat(·)表示按照维度为1的特征拼接层。
优选的,所述特征融合解码模块具体步骤如下:
对LR8x逐层上采样并进行特征编码,表示如下:
其中,上采样多尺度特征UR4x与UR2x分别表示由LR8x经特征融合编码的逐层编码特征,Up表示最近邻上采样层Interpolate(mode=nearest),Fff(·)表示编码结构,由卷积层Conv,实例批量归一化层IBNorm组成;然后将LR2x与HR2x进行AdaIn组合编码,并与人脸姿态矫正模块输出进行融合,编码生成特征融合模块输出人像前景分割:
其中,hr表示利用边界特征HR2x生成的AdaIn参数,fLR表示利用参数hr对边界特征UR2x编码得到的深层特征,alpha表示人像前景背景分割,A(·)表示AdaIn参数化层,结构为全连接层Linear,FLR(·,hr)表示采用hr作为参数的自适应实例归一化层的编码器,由卷积层Conv,自适应实例归一化层AdaIn与Relu激活函数组成,Fff(·)表示编码结构,由卷积层Conv,实例批量归一化层IBNorm组成,sigmoid(·)表示sigmoid激活层。
优选的,所述人像背景着装置换模块设置边界特征损失函数辅助边界特征生成过程,该边界特征损失函数为二分类交叉熵损失函数BCE-Loss,具体计算过程如下:
其中,gtalpha表示输入的人像前景背景分割真图Ground Truth,
boun表示分割真图的边界信息,由传统图像处理方法中膨胀卷积与腐蚀卷积的差值计算得到,表示边界特征HR2x与边界信息boun的二分类交叉熵损失,Di与Er分别表示传统图像算法的膨胀卷积与腐蚀卷积,BCE(·,·)表示二分类损失函数计算层。
优选的,该人像姿态矫正模块设置双损失计算训练网络结构辅助人像姿态矫正过程,包括身份损失计算以及循环一致性损失计算;
具体操作步骤如下:
由前向生成器利用输入的待处理图像xi以及参考模板xr生成保持待处理图像身份不变的人像姿态矫正模块输出的姿态矫正图像yi,以及利用输入的待处理图像xi以及参考模板xr生成保持参考模板身份不变的姿态变换图像yr;
由反馈生成器利用姿态矫正图像yi与姿态变换图像yr生成保持姿态矫正图像yi身份不变的姿态矫正恢复图像yir以及保持姿态变换图像yr身份不变的姿态变换恢复图像yri:
其中,G(·)表示生成器编码,由身份特征提取模块、动作姿态特征提取模块、特征融合模块以及特征解码生成模块组成;
计算待处理图像与姿态矫正图像以及姿态恢复图像之间的身份损失:
其中,与/>分别表示待处理图像、姿态矫正图像以及姿态恢复图像yir身份特征编码,/>表示待处理图像xi中身份特征编码所具有的数据分布,编码由身份特征提取模块实现,/>表示身份损失;
计算待处理图像与姿态恢复图像,参考模板与姿态变换图像之间的循环一致性损失:
其中,xi、xr、yir与yri分别表示待处理图像、参考模板、姿态恢复图像与姿态恢复图像,pdata(i)与pdata(r)分别表示待处理图像xi与参考模板xr所具有的数据分布,表示循环一致性损失。
其中,所述待处理图像xi为随机拍摄的非正面人像图像,包含有人像部分;所述参考模板xr应为单张标准人像证件照,包含人像正面部分,人像着装以及标准人像证件照背景等组成信息,符合人像标准证件照要求。
本发明通过人像姿态矫正模块实现保持人像身份的前提下完成动作姿态调整的任务,其中用动作姿态提取模块进行人像动作姿态特征提取,用特征融合模块实现来自不同人像的身份特征与动作姿态特征的融合。
本发明利用人像背景置换模块,实现人像前景分割并利用分割结果实现背景置换的过程,其中用边界特征提取模块实现边界信息的完整提取,用特征解码融合模块实现语义信息与边界信息融合生成潜在特征。
本发明利用传统图像处理算法实现边界特征约束学习的损失函数,进一步增强边界特征学习能力;双损失计算训练网络结构辅助人像姿态矫正过程,进一步保证人像姿态矫正过程中人像身份的不变性。
附图说明
图1为本发明实施例的人像证件照自动生成方法结构图。
图2为本发明实施例的特征融合模块(FF)的结构图。
图3为本发明实施例的边界特征提取模块(BFE)的结构图。
图4为本发明实施例的特征融合解码模块(FFD)的结构图。
图5为本发明实施例的双损失计算辅助训练网络结构图。
具体实施方式
以下结合附图与具体实施例对本发明做进一步解释说明。应当注意,此处所描述的具体实施例仅用于解释本发明,并不限定于本发明。
本发明利用人像姿态矫正技术与人像前景分割技术对未处理人像图像进行自动处理,首先利用人像姿态矫正网络生成人像正面姿态图像,随后利用人像前景分割技术对人像正面姿态图像进行前景分割并置换背景与人像着装,最终生成达到使用要求的标准证件照。
在自动化流程中,必须注意人像姿态矫正模块中动作姿态的正确迁移,以及注意人像背景着装置换模块中人像前景分割的边界分割模糊问题。为此,本发明提出人像姿态矫正任务中的动作姿态特征提取模块,以及人像前景分割任务中的边界特征提取模块,用以保证人像姿态矫正中动作姿态的完整性以及人像前景分割中边界信息的完整性;其次,为了有效利用上述两个模块提取到的有效信息,提出了人像姿态矫正特征融合模块与人像前景分割特征融合解码模块,用以有效利用提取到的动作姿态特征与边界特征;最后,为了有效约束边界特征约束模块,本发明提出边界特征损失函数,用以提高边界特征提取模块对边界特征的提取能力以及准确度,同时为了辅助人像姿态矫正任务中生成器的有效生成,提出双损失循环训练网络结构用以辅助保证人像姿态矫正过程中待处理图像的身份特征与参考模板的动作姿态特征。
所述的动作姿态特征提取模块,通过与身份特征提取模块的分离使用,提取人像图像的动作姿态特征,实现人像图像的身份特征与动作姿态特征解耦,保证了人像姿态矫正过程中身份不变性。
所述的特征融合模块,实现了身份特征与动作姿态特征的合理融合,通过利用AdaIn变换,实现人像图像的身份特征与动作姿态特征融合,达到在保证身份不变性的前提下实现动作姿态矫正的目的。
所述的边界特征提取模块来解决人像前景分割任务中边界信息丢失的问题,利用传统图像算法中边缘提取算法实现边缘信息收集,并利用深度学习方法实现不必要边缘信息滤除,最终实现人像前景分割任务中对边界信息的高质量要求。
所述的融合解码模块,利用高级特征中语义部分与低级特征中边缘部分实现特征融合,为语义部分在边缘信息缺失问题上提供边缘信息编码融合,进一步增强了人像前景分割任务的准确性。
所述的边界特征损失函数和双损失计算训练网络结构,分别用于人像前景分割任务中边界特征损失的计算与人像姿态矫正任务中身份不变性以及动作姿态迁移完整性,有效提高了人像前景分割中边界信息的保存度与人像姿态矫正中动作姿态的完整性。
本发明提出的人像证件照自动生成方法所采用的网络模型的完整结构,如图1所示,包括人像姿态矫正模块与人像背景着装置换模块,人像姿态矫正模块包括身份特征提取模块、动作姿态特征提取模块、特征融合模块以及特征解码生成模块;人像背景置换模块包括语义特征提取模块、边界特征提取模块、特征融合解码模块以及背景着装置换模块;
人像证件照自动生成方法所采用的网络模型的处理过程如下:
首先,由身份特征提取模块对输入的待处理图像xi进行处理,提取待处理图像身份特征Iid,身份特征提取模块表示如下:
Iid=Fid(xi) (1)
其中,Fid表示身份特征提取模块。
本发明中动作姿态特征模块在身份特征提取模块提取输入的待处理图像身份特征的同时,对输入的参考模板xr进行处理,提取参考模板动作姿态特征Rp;具体处理步骤如下:
对输入的参考模板进行深度为n的编码并经由线性层处理,获得潜在空间各尺度的动作姿态特征组合:
其中,rp与Rp分别表示经过深度为n层的编码器获得的各尺度的动作姿态特征组合,atten(·)表示空间自注意力机制,由卷积层Conv,批量归一化层BatchBorm以及Softmax层组成,En(·,Nn)表示第n层编码结构,Nn表示该层编码结构中所包含SE残差结构个数,由卷积层Conv,批量归一化层BatchNorm,Relu激活函数层组成,fc表示线性层。
随后Iid与Rp被送入特征融合模块利用自注意力机制融合获得多尺度融合特征fip,然后融合特征fip送入特征解码生成模块生成网络逐层进行特征解码,生成人像姿态矫正模块输出--姿态矫正图像yi。
具体来说,首先对输入的多尺度融合特征fip进行编码:
其中,表示多尺度融合特征的潜在编码,/>与/>分别表示多尺度融合特征的实例归一化编码,R(·)表示残差编码,由卷积层Conv与最近邻插值层Interpolate(mode=nearest)组成,F1(·)与F2(·)分别表示实例归一化编码结构,由卷积层Conv,LeakyRelu激活函数层以及实例归一化层InstanceNorm组成,其中F1(·)编码结构还包括最近邻插值层Interpolate(mode=nearest)。
然后,根据残差跳跃连接,实现姿态矫正图像的输出:
其中,表示多尺度融合特征的残差编码,/>表示多尺度融合特征的实例归一化编码。
至此,人像姿态矫正任务完成,交由人像背景置换模块中语义特征提取模块提取人像姿态矫正模块的输出yi的多尺度语义特征LR8x以及LR2x。
其中,LR2x与Lr8x分别表示不同尺度语义特征,LR8x表示经由语义提取模块中子模块SE(·)处理后得到的尺度为输入尺寸1/8大小的语义特征,Fres表示语义提取模块,由MobileNetv2实现,SE(·)表示SE-block结构;随后,LR2x与人像姿态矫正模块输出的姿态矫正图像yi被送入边界特征提取模块获得边界特征HR2x。
其中,y0表示人像姿态矫正模块的输出经由灰度变换后的灰度图,v1,H表示人像灰度图中方向为n的高通处理结果,haar0表示v1,H中方向为m的低通处理结果,LR2x表示多尺度语义特征,HR2x表示边界特征,编码结构FH由卷积层Conv,批量归一化层BatchNorm组成以及sigmoid激活函数层,gray(·)表示灰度变换,h(·)与g(·)分别表示高通滤波器与低通滤波器,Gu(·)与Ca(·)分别表示高斯滤波器与Canny算子层,cat(·)表示按照维度为1的特征拼接层。随后LR8x、HR2x以及人像姿态矫正模块输出的姿态矫正图像yi被送入特征融合解码模块逐层解码生成人像前景背景分割结果alpha。
对LR8x逐层上采样并进行特征编码,然后将LR2x与HR2x进行AdaIn组合编码,并与人脸姿态矫正模块输出进行融合,编码生成特征融合模块输出人像前景分割alpha。
最后,人像姿态矫正模块输出的姿态矫正图像yi与人像前景分割alpha被送入背景着装置换模块进行背景融合,生成完成人像姿态矫正与背景着装置换的证件照y输出。
y=Mrb(alpha,Mrc(yi),Ibg) (7)
其中,Mrc(·)表示对姿态矫正图像yi进行换装处理,Mrb(alpha,Mrc(yi),Ibg)表示以alpha为参考依据,将换装后的姿态矫正图像yi中背景替换为预设背景Ibg。
本发明实施例中,通过特征融合模块将人像图像中身份特征与动作特征实现融合生成潜在编码,有效地保证了人像姿态矫正任务中的身份不变性。
其中,特征融合模块的结构如图2所示,将身份特征编码进行AdaIn参数化,随后与动作姿态特征实现仿射变换,最终生成利用自注意力机制获得融合特征。
首先对提取的身份特征与动作姿态特征进行AdaIn编码,然后通过自注意力机制获得融合特征:
其中,p表示利用身份特征Iid生成的AdaIn参数,mid表示利用参数p对潜在空间各尺度动作姿态特征组合Rp编码得到的深层特征,fip表示融合特征,A(·)表示AdaIn参数化层,AdaIn参数化层为全连接层Linear,M(·)表示采用自适应实例归一化层的编码器,由卷积层Conv,自适应实例归一化层AdaIn与Relu激活函数组成,mask(·)表示掩码编码器,由卷积层Conv与Sigmoid激活函数组成,F(·)表示特征计算器,由卷积层Conv组成。
本发明实施例中,通过边界特征提取模块,利用图像算法中锐化、平滑等操作,提取人像图像中的边缘信息,保证了边界信息完整性,边界特征提取模块的结构如图3所示,其处理步骤如下:
首先对输入的人像姿态矫正模块输出进行二维离散小波变换并做锐化处理,随后利用编码结构获得边界特征编码:
其中,y0表示人像姿态矫正模块的输出经由灰度变换后的灰度图,k表示离散度量,K为灰度图尺寸,h[k]与g[k]分别表示垂直方向与水平方向变换核,v1,H表示人像灰度图中方向为垂直方向的高通处理结果,ha0表示v1,H中方向为水平方向的低通处理结果,LR2x表示多尺度语义特征,HR2x表示边界特征,融合编码结构FH由卷积层Conv,批量归一化层BatchNorm以及sigmoid激活函数层组成,gray(·)表示灰度变换,Gu(·)与Ca(·)分别表示高斯滤波器与Canny算子层,cat(·)表示按照维度为1的特征拼接层。
本发明实施例中,通过特征融合解码模块,将边界特征AdaIn参数化,实现边界特征与语义特征的融合解码;特征融合解码模块结构如图4所示,其处理步骤如下:
首先对LR8x逐层上采样并进行特征编码,表示如下:
其中,上采样多尺度特征UR4x与UR2x分别表示由LR8x经特征融合编码的逐层编码特征,Up表示最近邻上采样层Interpolate(mode=nearest),Fff表示编码结构,由卷积层Conv,实例批量归一化层IBNorm组成;然后将LR2x与HR2x进行AdaIn组合编码,并与人脸姿态矫正模块输出进行融合,编码生成特征融合模块输出人像前景分割:
其中,hr表示利用边界特征HR2x生成的AdaIn参数,fLR表示利用参数hr对边界特征UR2x编码得到的深层特征,alpha表示人像前景背景分割,A(·)表示AdaIn参数化层,结构为全连接层Linear,FLR(·,hr)表示采用hr作为参数的自适应实例归一化层的编码器,由卷积层Conv,自适应实例归一化层AdaIn与Relu激活函数组成,Fff(·)表示编码结构,由卷积层Conv,实例批量归一化层IBNorm以及sigmoid激活层组成。
本发明实施例中,为了保证人像姿态矫正模块在生成姿态矫正图像时的身份不变性,设计双损失计算训练网络结构辅助训练,其结构如图5所示。
首先,由前向生成器,利用输入的待处理图像xi以及参考模板xr生成保持待处理图像身份不变的姿态矫正图像yi,以及保持参考模板身份不变的姿态变换图像yr,然后再次由反馈生成器,利用姿态矫正图像yi与姿态变换图像yr生成保持姿态矫正图像yi身份不变的姿态矫正恢复图像yir以及保持姿态变换图像yr身份不变的姿态变换恢复图像yri:
其中,G(·)表示生成器编码,由身份特征提取模块、动作姿态特征提取模块、特征融合模块以及特征解码生成模块组成;
然后,进行双损失计算,身份损失计算待处理图像与姿态矫正图像以及姿态恢复图像之间的身份损失:
其中,与/>分别表示待处理图像、姿态矫正图像以及姿态恢复图像yir身份特征编码,/>表示待处理图像xi中身份特征编码所具有的数据分布,编码由身份特征提取模块实现,/>表示身份损失;
循环一致性损失计算待处理图像与姿态恢复图像,参考模板与姿态变换图像之间的循环一致性损失:
其中,xi、xr、yir与yri分别表示待处理图像、参考模板、姿态恢复图像与姿态恢复图像,pdata(i)与pdata(r)分别表示待处理图像xi与参考模板xr所具有的数据分布,表示循环一致性损失。
本发明中,人像姿态矫正模块中由上述两种损失函数组合进行约束,其表达式如下所示:
上式中对身份损失以及循环一致性损失的联合计算,有效地保证了人像姿态矫正模块中身份不变性与动作姿态迁移完整性,进一步提升了人像姿态矫正任务的实现水准。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.人像证件照自动生成方法,其特征在于,由多个子任务深度神经网络模块处理实现,该多个子任务深度神经网络模块包括人像姿态矫正模块、人像背景着装置换模块;人像姿态矫正模块包括身份特征提取模块、动作姿态特征提取模块、特征融合模块以及特征解码生成模块;人像背景着装置换模块包括语义特征提取模块、边界特征提取模块、特征融合解码模块以及背景着装置换模块;处理步骤如下:
身份特征提取模块与动作姿态特征提取模块分别提取待处理图像xi的身份特征Iid、参考模板xr的多尺度动作姿态特征Rp;
将身份特征Iid与多尺度动作姿态特征Rp送入特征融合模块利用自注意力机制获得融合特征fip,融合特征fip送入特征解码生成模块逐层特征解码,输出姿态矫正图像yi;
语义特征提取模块提取输出yi的多尺度语义特征LR8x和LR2x,其中,LR8x表示大小为姿态矫正图像yi尺寸1/8的特征图,LR2x表示大小为输出yi尺寸1/2的特征图,多尺度语义特征LR2x与姿态矫正图像yi送入边界特征提取模块获得边界特征HR2x,多尺度语义特征LR8x和HR2x以及姿态矫正图像yi送入特征融合解码模块逐层解码生成人像前景分割结果alpha;姿态矫正图像yi与人像前景分割结果alpha送入背景着装置换模块进行背景着装置换,生成完成人像姿态矫正与背景着装置换的标准证件照y输出。
2.根据权利要求1所述人像证件照自动生成方法,其特征在于,所述动作姿态特征提取模块具体处理步骤如下:
对输入的参考模板进行深度为n层的编码并经由线性层处理,获得潜在空间各尺度的动作姿态特征组合:
其中,xr表示参考模板,rp与Rp分别表示经过深度为n层的编码器获得的潜在空间各尺度的动作姿态特征组合,atten(·)表示空间自注意力机制,En(·,Nn)表示第n层编码结构,Nn表示该层编码结构中所包含SE残差结构个数,fc表示线性层。
3.根据权利要求2所述人像证件照自动生成方法,其特征在于,所述特征融合模块的具体处理步骤如下:
对提取的身份特征Iid与动作姿态特征Rp进行AdaIn编码,然后通过自注意力机制获得融合特征:
其中,p表示利用身份特征Iid生成的AdaIn参数,mid表示利用参数p对潜在空间各尺度动作姿态特征组合Rp编码得到的深层特征,fip表示多尺度融合特征,A(·)表示AdaIn参数化层,AdaIn参数化层为全连接层Linear,M(·)表示自适应实例归一化层的编码器,mask(·)表示掩码编码器,F(·)表示特征计算器。
4.根据权利要求3所述人像证件照自动生成方法,其特征在于,所述边界特征提取模块具体操作步骤如下:
首先对输入的人像姿态矫正模块输出的姿态矫正图像yi进行二维离散小波变换并做锐化处理,随后利用编码结构获得边界特征编码:
其中,y0表示人像姿态矫正模块输出的姿态矫正图像yi经由灰度变换后的灰度图,k表示离散度量,K为灰度图尺寸,h[k]与g[k]分别表示垂直方向与水平方向变换核,v1,H表示人像灰度图中方向为垂直方向的高通处理结果,ha0表示v1,H中方向为水平方向的低通处理结果,LR2x表示多尺度语义特征,HR2x表示边界特征,FH为编码结构,gray(·)表示灰度变换,h(·)与g(·)分别表示高通滤波器与低通滤波器,Gu(·)与Ca(·)分别表示高斯滤波器与Canny算子层,cat(·)表示按照维度为1的特征拼接层。
5.根据权利要求4所述人像证件照自动生成方法,其特征在于,所述特征融合解码模块具体步骤如下:
对LR8x逐层上采样并进行特征编码,表示如下:
其中,上采样多尺度特征UR4x与UR2x分别表示由LR8x经特征融合编码的逐层编码特征,Up表示最近邻上采样层,Fff表示编码结构;
将UR2x与边界特征HR2x进行AdaIn组合编码,并与人像姿态矫正模块输出的姿态矫正图像yi融合,编码生成人像前景分割alpha输出:
其中,hr表示利用边界特征HR2x生成的AdaIn参数,fLR表示利用参数hr对边界特征UR2x编码得到的深层特征,alpha表示人像前景背景分割结果,A(·)表示AdaIn参数化层,结构为全连接层Linear,FLR(·,hr)表示采用hr作为参数的自适应实例归一化层的编码器,Fff(·)表示编码结构,sigmoid(·)表示sigmoid激活层。
6.根据权利要求5所述人像证件照自动生成方法,其特征在于,所述人像背景着装置换模块设置边界特征损失函数辅助边界特征生成过程;
边界特征损失函数为二分类交叉熵损失函数BCE-Loss,计算过程如下:
其中,gtalpha表示输入的人像前景背景分割真图Ground Truth,
boun表示人像前景分割真图的边界信息,表示边界特征HR2x与边界信息boun的二分类交叉熵损失,Di与Er分别表示图像算法中的膨胀卷积与腐蚀卷积,BCE(·,·)表示二分类损失函数计算层。
7.根据权利要求6所述人像证件照自动生成方法,其特征在于,该人像姿态矫正模块设置双损失计算训练网络结构辅助人像姿态矫正过程,包括身份损失计算以及循环一致性损失计算;
具体操作步骤如下:
由前向生成器利用输入的待处理图像xi以及参考模板xr生成保持待处理图像xi身份不变的人像姿态矫正模块输出的姿态矫正图像yi,以及利用输入的待处理图像xi以及参考模板xr生成保持参考模板xr身份不变的姿态变换图像yr;
由反馈生成器利用姿态矫正图像yi与姿态变换图像yr生成保持姿态矫正图像yi身份不变的姿态矫正恢复图像yir以及保持姿态变换图像yr身份不变的姿态变换恢复图像yri:
其中,G(·)表示生成器编码,由身份特征提取模块、动作姿态特征提取模块、特征融合模块以及特征解码生成模块组成;
计算待处理图像xi与姿态矫正图像yi以及姿态恢复图像yir之间的身份损失:
其中,与/>分别表示待处理图像xi、姿态矫正图像yi以及姿态恢复图像yir的身份特征编码,/>表示待处理图像xi中身份特征编码所具有的数据分布,身份特征编码由身份特征提取模块实现,/>表示身份损失;
计算待处理图像xi与姿态恢复图像yir,参考模板xr与姿态变换图像yri之间的循环一致性损失:
其中,xi、xr、yir与yri分别表示待处理图像、参考模板、姿态恢复图像与姿态恢复图像,pdata(i)与pdata(r)分别表示待处理图像xi与参考模板xr所具有的数据分布表示循环一致性损失。
8.根据权利要求1所述人像证件照自动生成方法,其特征在于,所述待处理图像xi为随机拍摄的非正面人像图像,包含有人像部分;
所述参考模板xr为单张标准人像证件照,包含人像正面部分、人像着装以及标准人像证件照背景组成信息,符合人像标准证件照要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111260977.3A CN114022930B (zh) | 2021-10-28 | 2021-10-28 | 一种人像证件照自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111260977.3A CN114022930B (zh) | 2021-10-28 | 2021-10-28 | 一种人像证件照自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114022930A CN114022930A (zh) | 2022-02-08 |
CN114022930B true CN114022930B (zh) | 2024-04-16 |
Family
ID=80058051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111260977.3A Active CN114022930B (zh) | 2021-10-28 | 2021-10-28 | 一种人像证件照自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022930B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071352A (zh) * | 2023-03-06 | 2023-05-05 | 四川轻化工大学 | 一种电力安全工器具表面缺陷图像的生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344724A (zh) * | 2018-09-05 | 2019-02-15 | 深圳伯奇科技有限公司 | 一种证件照自动背景替换方法、系统及服务器 |
CN111243066A (zh) * | 2020-01-09 | 2020-06-05 | 浙江大学 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
WO2020168731A1 (zh) * | 2019-02-19 | 2020-08-27 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN112418074A (zh) * | 2020-11-20 | 2021-02-26 | 重庆邮电大学 | 一种基于自注意力的耦合姿态人脸识别方法 |
-
2021
- 2021-10-28 CN CN202111260977.3A patent/CN114022930B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344724A (zh) * | 2018-09-05 | 2019-02-15 | 深圳伯奇科技有限公司 | 一种证件照自动背景替换方法、系统及服务器 |
WO2020168731A1 (zh) * | 2019-02-19 | 2020-08-27 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
CN111243066A (zh) * | 2020-01-09 | 2020-06-05 | 浙江大学 | 一种基于自监督学习与生成对抗机制的人脸表情迁移方法 |
JP6830707B1 (ja) * | 2020-01-23 | 2021-02-17 | 同▲済▼大学 | ランダムバッチマスクとマルチスケール表現学習を融合した人物再同定方法 |
CN112418074A (zh) * | 2020-11-20 | 2021-02-26 | 重庆邮电大学 | 一种基于自注意力的耦合姿态人脸识别方法 |
Non-Patent Citations (1)
Title |
---|
傣文贝叶经的图像增强与二值化方法研究;钟卿;余鹏飞;李海燕;陈瑞新;;云南大学学报(自然科学版);20170910(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114022930A (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Deep dense multi-scale network for snow removal using semantic and depth priors | |
Feng et al. | Doctr: Document image transformer for geometric unwarping and illumination correction | |
CN111243050B (zh) | 肖像简笔画生成方法、系统及绘画机器人 | |
CN108491763B (zh) | 三维场景识别网络的无监督训练方法、装置及存储介质 | |
Chen et al. | Cross parallax attention network for stereo image super-resolution | |
Wei et al. | Learning flow-based feature warping for face frontalization with illumination inconsistent supervision | |
CN111125403B (zh) | 一种基于人工智能的辅助设计绘图方法及系统 | |
CN112819692B (zh) | 一种基于双重注意力模块的实时任意风格迁移方法 | |
Meng et al. | CORNet: Context-based ordinal regression network for monocular depth estimation | |
CN114022930B (zh) | 一种人像证件照自动生成方法 | |
CN112560865A (zh) | 一种室外大场景下点云的语义分割方法 | |
Wang et al. | AAGAN: enhanced single image dehazing with attention-to-attention generative adversarial network | |
CN115496650A (zh) | 一种基于生成对抗网络的妆容迁移方法 | |
CN115588237A (zh) | 一种基于单目rgb图像的三维手部姿态估计方法 | |
Voleti et al. | Smpl-ik: Learned morphology-aware inverse kinematics for ai driven artistic workflows | |
Basak et al. | Monocular depth estimation using encoder-decoder architecture and transfer learning from single RGB image | |
Yin et al. | Segmentation-reconstruction-guided facial image de-occlusion | |
Yu et al. | Stacked generative adversarial networks for image compositing | |
CN110147809B (zh) | 图像处理方法及装置、存储介质及图像设备 | |
Yin et al. | Non-deterministic face mask removal based on 3D priors | |
Li et al. | Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems | |
Van Gansbeke et al. | A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting | |
CN113128624B (zh) | 一种基于多尺度字典的图网络人脸恢复方法 | |
Wang et al. | Physical Priors Augmented Event-Based 3D Reconstruction | |
CN114241167A (zh) | 一种从视频到视频的无模板虚拟换衣方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |