CN114022930B

CN114022930B - 一种人像证件照自动生成方法

Info

Publication number: CN114022930B
Application number: CN202111260977.3A
Authority: CN
Inventors: 陈瑞; 安仕鹏; 刘继鑫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2024-04-16
Anticipated expiration: 2041-10-28
Also published as: CN114022930A

Abstract

本发明提出一套人像证件照自动生成方法，由多个子任务深度神经网络模块衔接处理实现，包括人像姿态矫正模块以及人像背景着装置换模块；通过人像姿态矫正模块实现保持人像身份的前提下完成动作姿态调整的任务，其中用动作姿态提取模块进行人像动作姿态特征提取，用特征融合模块实现来自不同人像的身份特征与动作姿态特征的融合。本发明能提高被拍摄人自主获取标准人像证件照速度且降低标准人像证件照拍摄难度。

Description

一种人像证件照自动生成方法

技术领域

本发明涉及标准证件照的智能处理技术领域，特别是涉及一个由多个子任务深度神经网络模块衔接处理实现的人像证件照自动生成方法。

背景技术

人像证件照自动生成的目的是摒弃常规证件照拍摄过程中由工作人员手持照相机以及被拍摄人摆正身体及面部姿态配合工作人员的繁杂拍摄方式，利用深度学习方法实现由被拍摄人自主拍摄包含面部在内的图像，并使用深度神经网络模型自动生成符合人像证件照使用标准的证件照。人像标准证件照在日常工作学习中，尤其在涉及人员档案管理时具有极其重要的作用，被广泛应用在政府机关，公司企业以及学校日常档案管理工作中，其中，人像标准证件照通常具有以下几点要求：首先被拍摄人不得佩戴帽子，即需为免冠照；其次，被拍摄人需为正面照，同时人像需具备双耳轮廓以及男士喉结位置以上的全部人脸特征；最后，被拍摄人面部不得有明显化妆痕迹，即被拍摄人不得有较为严重的状容覆盖或遮掩面部原有特征。

常规人像证件照拍摄方式需要被拍摄人主动前往照相馆单独拍摄，需要被拍摄人与工作人员进行频繁的互动，并且在拍摄完成后仍然需要工作人员逐张进行后处理，这些繁杂的拍摄过程极大的浪费了工作人员以及被拍摄人的时间精力。因此，探索更加便捷化、智能化的证件照获取方式是十分具有实用意义的，这有利于证件照收集获取过程的智能化以及避免由于人工因素造成的重复工作。

常规人像证件照拍摄流程，首先需要拍摄人员布置证件照背景，并设置拍摄空间，在拍摄过程中需要被拍摄人根据拍摄人员的指令不断调整自身身体姿态及面部姿态，在被拍摄人姿态调整完毕后由拍摄人员拍摄被拍摄人当前正面姿态照，然后由后处理工作人员逐张进行照片姿态确认，并利用PhotoShop、美图秀秀等图像后处理软件进行必要的微处理，最后得到被拍摄人正面姿态证件照。其中在使用PhotoShop、美图秀秀等图像后处理软件对前期拍摄的人像证件照进行后期处理的过程中，需要操作人员具备一定的图像后处理操作基础能力，因此，这一过程成为常规人像证件照拍摄流程中最为耗时的环节，同时该过程在标准人像证件照拍摄整体过程中又是最为关键的环节。总体来说，整个过程费时费力，并且存在众多人为不确定因素，诸如被拍摄人眼部姿态存在问题，拍摄人员疏忽以及后处理工作人员遗漏等问题，这些问题都将影响证件照质量，同时，处理周期长问题导致被拍摄人无法得到及时的反馈。

随着深度学习技术的发展，基于深度学习的图像生成技术在人像姿态矫正以及人像前景分割领域得到了广泛应用，并且取得了十分显著的成果。基于深度学习的图像生成技术依靠生成对抗式网络(GAN)的强大的学习生成能力，以纯数据的方式学习图像与图像之间变换映射以及图像到标签的端到端映射。首先大量的人像姿态矫正方法被提出，包括利用3D结构先验知识学习生成姿态矫正图像，利用空间特征先验知识学习生成姿态矫正图像，以及利用传统图像算法中尺度变换，旋转等方式实现的人像面部转正等，其中早期的传统图像算法只是针对人像区域像素进行尺度变换，并利用旋转角度实现人像的正面化；在此之后，利用空间特征先验知识学习生成姿态矫正图像的方法，则是以数据驱动的方式，利用大量人脸正面侧面照的对抗式学习，实现人脸姿态矫正后缺失部分的生成任务；时至今日，利用3D结构先验知识学习生成姿态矫正图像的方法依靠了3D重建技术中对人像图像进行三维映射，得到人像在三维空间的映射结果然后利用三维空间旋转技术实现二维人像旋转，但是该方法的计算复杂度大，前向推导耗时而且对计算机系统环境要求较高，实际使用难度较大。同时，大量人像前景分割方法被提出，包括利用Trimap图根据最近邻算法或支持向量机算法SVM实现人像前景分割，利用生成对抗网络直接学习生成人像前景分割，利用多尺度特征交替融合结合跳跃连接Skip Connection逐层解码生成人像前景分割等，其中，利用多尺度特征交替融合跳跃连接逐层解码生成人像前景分割的技术将人像前景分割任务视为语义分割任务的子任务，利用语义分割任务中较为可靠的系统框架，对边缘信息进行多次处理保证边缘信息的完整性；而早期的利用Trimap图进行进行逼近式学习的人像前景分割方法，由于其要求输入多，且分割效果依赖于Trimap效果，存在分割结果粗糙的问题；而利用生成对抗式网络直接学习生成人像分割的方法，受数据影响问题，在前景与背景存在相似性时，表现不佳。由此，人像前景分割任务中目前较为合理并且表现优异的方法大多均为利用多尺度特征交替融合并解码生成人像前景分割的方法。

然而，现有人像姿态矫正网络存在着动作姿态难以迁移，身份特征与动作姿态特征融合困难以及3D结构先验难获取等问题，同时人像前景分割方法存在边界分割模糊以及分割结果丢失前景结构等问题。

如何有效提取人像动作姿态特征，实现人像身份特征与动作姿态特征的合理融合以及如何有效提取人像边界信息成为利用人像姿态矫正网络与人像前景分割网络实现证件照自动生成的关键。

发明内容

本发明的目的针对现有技术中存在的技术缺陷，提出一套人像证件照自动生成方法，旨在提高被拍摄人自主获取证件照速度并且降低证件照拍摄难度。

为实现本发明的目的所采用的技术方案是：

一个人像证件照自动生成方法，由多个子任务深度神经网络模块衔接处理实现，该多个子任务深度神经网络模块包括人像姿态矫正模块以及人像背景置换模块；人像姿态矫正模块包括身份特征提取模块、动作姿态特征提取模块、特征融合模块以及特征解码生成模块；人像背景着装置换模块包括语义特征提取模块、边界特征提取模块、特征融合解码模块以及背景着装置换模块；处理步骤如下：

身份特征提取模块与动作姿态特征模块分别提取待处理图像x_i的身份特征I_id、参考模板x_r的多尺度动作姿态特征R_p；

将身份特征I_id与多尺度动作姿态特征R_p送入特征融合模块利用自注意力机制获得融合特征f_ip，融合特征f_ip送入特征解码生成模块逐层特征解码，输出姿态矫正图像y_i；

语义特征提取模块提取输出y_i的多尺度语义特征LR_8x和LR_2x,其中，LR_8x表示大小为姿态矫正图像y_i尺寸1/8的特征图，LR_2x表示大小为输出y_i尺寸1/2的特征图，多尺度语义特征LR_2x与姿态矫正图像y_i送入边界特征提取模块获得边界特征HR_2x，多尺度语义特征LR_8x和HR_2x以及姿态矫正图像y_i送入特征融合解码模块逐层解码生成人像前景分割结果alpha；姿态矫正图像y_i与人像前景分割结果alpha送入背景着装置换模块进行背景着装置换，生成完成人像姿态矫正与背景着装置换的标准证件照y输出。

优选的，所述动作姿态特征提取模块具体处理步骤如下：

对输入的参考模板进行深度为n层的编码并经由线性层处理，获得潜在空间各尺度的动作姿态特征组合：

其中，x_r表示参考模板，r_p与R_p分别表示经过深度为n层的编码器获得的潜在空间各尺度的动作姿态特征组合，atten(·)表示空间自注意力机制，Eⁿ(·,Nⁿ)表示第n层编码结构，Nⁿ表示该层编码结构中所包含SE残差结构个数，f_c表示线性层。

优选的，所述特征融合模块的具体处理步骤如下：

对提取的身份特征I_id与动作姿态特征R_p进行AdaIn编码，然后通过自注意力机制获得融合特征：

其中，p表示利用身份特征Iid生成的AdaIn参数，mid表示利用参数p对潜在空间各尺度动作姿态特征组合R_p编码得到的深层特征，fip表示多尺度融合特征，A(·)表示AdaIn参数化层，AdaIn参数化层为全连接层Linear，M(·)表示自适应实例归一化层的编码器，mask(·)表示掩码编码器，F(·)表示特征计算器

优选的，所述边界特征提取模块具体操作步骤如下：

首先对输入的人像姿态矫正模块输出的姿态矫正图像y_i进行二维离散小波变换并做锐化处理，随后利用编码结构获得边界特征编码：

其中，y₀表示人像姿态矫正模块输出的姿态矫正图像y_i经由灰度变换后的灰度图，k表示离散度量，K为灰度图尺寸，h[k]与g[k]分别表示垂直方向与水平方向变换核，v_1,H表示人像灰度图中方向为垂直方向的高通处理结果，ha₀表示v_1,H中方向为水平方向的低通处理结果，LR_2x表示多尺度语义特征，HR_2x表示边界特征，F_H为编码结构，gray(·)表示灰度变换，h(·)与g(·)分别表示高通滤波器与低通滤波器，Gu(·)与Ca(·)分别表示高斯滤波器与Canny算子层，cat(·)表示按照维度为1的特征拼接层。

优选的，所述边界特征提取模块具体操作步骤如下：

其中，y₀表示人像姿态矫正模块的输出y_i经由灰度变换后的灰度图，k表示离散度量，K为灰度图尺寸，h[k]与g[k]分别表示垂直方向与水平方向变换核，v_1,H表示人像灰度图中方向为垂直方向的高通处理结果，ha₀表示v_1,H中方向为水平方向的低通处理结果,LR_2x表示多尺度语义特征，HR_2x表示边界特征，F_H为编码结构，gray(·)表示灰度变换，h(·)与g(·)分别表示高通滤波器与低通滤波器，Gu(·)与Ca(·)分别表示高斯滤波器与Canny算子层，cat(·)表示按照维度为1的特征拼接层。

优选的，所述特征融合解码模块具体步骤如下：

对LR_8x逐层上采样并进行特征编码，表示如下：

其中，上采样多尺度特征UR_4x与UR_2x分别表示由LR_8x经特征融合编码的逐层编码特征，Up表示最近邻上采样层Interpolate(mode＝nearest)，F_ff(·)表示编码结构，由卷积层Conv，实例批量归一化层IBNorm组成；然后将LR_2x与HR_2x进行AdaIn组合编码，并与人脸姿态矫正模块输出进行融合，编码生成特征融合模块输出人像前景分割：

其中，hr表示利用边界特征HR_2x生成的AdaIn参数，f_LR表示利用参数hr对边界特征UR_2x编码得到的深层特征，alpha表示人像前景背景分割，A(·)表示AdaIn参数化层，结构为全连接层Linear，F_LR(·,hr)表示采用hr作为参数的自适应实例归一化层的编码器，由卷积层Conv，自适应实例归一化层AdaIn与Relu激活函数组成，F_ff(·)表示编码结构，由卷积层Conv，实例批量归一化层IBNorm组成，sigmoid(·)表示sigmoid激活层。

优选的，所述人像背景着装置换模块设置边界特征损失函数辅助边界特征生成过程，该边界特征损失函数为二分类交叉熵损失函数BCE-Loss，具体计算过程如下：

其中，gt_alpha表示输入的人像前景背景分割真图Ground Truth，

boun表示分割真图的边界信息，由传统图像处理方法中膨胀卷积与腐蚀卷积的差值计算得到，表示边界特征HR_2x与边界信息boun的二分类交叉熵损失，Di与Er分别表示传统图像算法的膨胀卷积与腐蚀卷积，BCE(·,·)表示二分类损失函数计算层。

优选的，该人像姿态矫正模块设置双损失计算训练网络结构辅助人像姿态矫正过程，包括身份损失计算以及循环一致性损失计算；

具体操作步骤如下：

由前向生成器利用输入的待处理图像x_i以及参考模板x_r生成保持待处理图像身份不变的人像姿态矫正模块输出的姿态矫正图像y_i，以及利用输入的待处理图像x_i以及参考模板x_r生成保持参考模板身份不变的姿态变换图像y_r；

由反馈生成器利用姿态矫正图像y_i与姿态变换图像y_r生成保持姿态矫正图像y_i身份不变的姿态矫正恢复图像y_ir以及保持姿态变换图像y_r身份不变的姿态变换恢复图像y_ri：

其中，G(·)表示生成器编码，由身份特征提取模块、动作姿态特征提取模块、特征融合模块以及特征解码生成模块组成；

计算待处理图像与姿态矫正图像以及姿态恢复图像之间的身份损失：

其中，与/>分别表示待处理图像、姿态矫正图像以及姿态恢复图像y_ir身份特征编码，/>表示待处理图像x_i中身份特征编码所具有的数据分布，编码由身份特征提取模块实现，/>表示身份损失；

计算待处理图像与姿态恢复图像，参考模板与姿态变换图像之间的循环一致性损失：

其中，x_i、x_r、y_ir与y_ri分别表示待处理图像、参考模板、姿态恢复图像与姿态恢复图像，p_data(i)与p_data(r)分别表示待处理图像x_i与参考模板x_r所具有的数据分布，表示循环一致性损失。

其中，所述待处理图像x_i为随机拍摄的非正面人像图像，包含有人像部分；所述参考模板x_r应为单张标准人像证件照，包含人像正面部分，人像着装以及标准人像证件照背景等组成信息，符合人像标准证件照要求。

本发明通过人像姿态矫正模块实现保持人像身份的前提下完成动作姿态调整的任务，其中用动作姿态提取模块进行人像动作姿态特征提取，用特征融合模块实现来自不同人像的身份特征与动作姿态特征的融合。

本发明利用人像背景置换模块，实现人像前景分割并利用分割结果实现背景置换的过程，其中用边界特征提取模块实现边界信息的完整提取，用特征解码融合模块实现语义信息与边界信息融合生成潜在特征。

本发明利用传统图像处理算法实现边界特征约束学习的损失函数，进一步增强边界特征学习能力；双损失计算训练网络结构辅助人像姿态矫正过程，进一步保证人像姿态矫正过程中人像身份的不变性。

附图说明

图1为本发明实施例的人像证件照自动生成方法结构图。

图2为本发明实施例的特征融合模块(FF)的结构图。

图3为本发明实施例的边界特征提取模块(BFE)的结构图。

图4为本发明实施例的特征融合解码模块(FFD)的结构图。

图5为本发明实施例的双损失计算辅助训练网络结构图。

具体实施方式

以下结合附图与具体实施例对本发明做进一步解释说明。应当注意，此处所描述的具体实施例仅用于解释本发明，并不限定于本发明。

本发明利用人像姿态矫正技术与人像前景分割技术对未处理人像图像进行自动处理，首先利用人像姿态矫正网络生成人像正面姿态图像，随后利用人像前景分割技术对人像正面姿态图像进行前景分割并置换背景与人像着装，最终生成达到使用要求的标准证件照。

在自动化流程中，必须注意人像姿态矫正模块中动作姿态的正确迁移，以及注意人像背景着装置换模块中人像前景分割的边界分割模糊问题。为此，本发明提出人像姿态矫正任务中的动作姿态特征提取模块，以及人像前景分割任务中的边界特征提取模块，用以保证人像姿态矫正中动作姿态的完整性以及人像前景分割中边界信息的完整性；其次，为了有效利用上述两个模块提取到的有效信息，提出了人像姿态矫正特征融合模块与人像前景分割特征融合解码模块，用以有效利用提取到的动作姿态特征与边界特征；最后，为了有效约束边界特征约束模块，本发明提出边界特征损失函数，用以提高边界特征提取模块对边界特征的提取能力以及准确度，同时为了辅助人像姿态矫正任务中生成器的有效生成，提出双损失循环训练网络结构用以辅助保证人像姿态矫正过程中待处理图像的身份特征与参考模板的动作姿态特征。

所述的动作姿态特征提取模块，通过与身份特征提取模块的分离使用，提取人像图像的动作姿态特征，实现人像图像的身份特征与动作姿态特征解耦，保证了人像姿态矫正过程中身份不变性。

所述的特征融合模块，实现了身份特征与动作姿态特征的合理融合，通过利用AdaIn变换，实现人像图像的身份特征与动作姿态特征融合，达到在保证身份不变性的前提下实现动作姿态矫正的目的。

所述的边界特征提取模块来解决人像前景分割任务中边界信息丢失的问题，利用传统图像算法中边缘提取算法实现边缘信息收集，并利用深度学习方法实现不必要边缘信息滤除，最终实现人像前景分割任务中对边界信息的高质量要求。

所述的融合解码模块，利用高级特征中语义部分与低级特征中边缘部分实现特征融合，为语义部分在边缘信息缺失问题上提供边缘信息编码融合，进一步增强了人像前景分割任务的准确性。

所述的边界特征损失函数和双损失计算训练网络结构，分别用于人像前景分割任务中边界特征损失的计算与人像姿态矫正任务中身份不变性以及动作姿态迁移完整性，有效提高了人像前景分割中边界信息的保存度与人像姿态矫正中动作姿态的完整性。

本发明提出的人像证件照自动生成方法所采用的网络模型的完整结构，如图1所示，包括人像姿态矫正模块与人像背景着装置换模块，人像姿态矫正模块包括身份特征提取模块、动作姿态特征提取模块、特征融合模块以及特征解码生成模块；人像背景置换模块包括语义特征提取模块、边界特征提取模块、特征融合解码模块以及背景着装置换模块；

人像证件照自动生成方法所采用的网络模型的处理过程如下：

首先，由身份特征提取模块对输入的待处理图像x_i进行处理，提取待处理图像身份特征I_id，身份特征提取模块表示如下：

I_id＝F_id(x_i) (1)

其中，F_id表示身份特征提取模块。

本发明中动作姿态特征模块在身份特征提取模块提取输入的待处理图像身份特征的同时，对输入的参考模板x_r进行处理，提取参考模板动作姿态特征R_p；具体处理步骤如下：

对输入的参考模板进行深度为n的编码并经由线性层处理，获得潜在空间各尺度的动作姿态特征组合：

其中，r_p与R_p分别表示经过深度为n层的编码器获得的各尺度的动作姿态特征组合，atten(·)表示空间自注意力机制，由卷积层Conv，批量归一化层BatchBorm以及Softmax层组成，Eⁿ(·,Nⁿ)表示第n层编码结构，Nⁿ表示该层编码结构中所包含SE残差结构个数，由卷积层Conv，批量归一化层BatchNorm，Relu激活函数层组成，f_c表示线性层。

随后I_id与R_p被送入特征融合模块利用自注意力机制融合获得多尺度融合特征f_ip，然后融合特征f_ip送入特征解码生成模块生成网络逐层进行特征解码，生成人像姿态矫正模块输出--姿态矫正图像y_i。

具体来说，首先对输入的多尺度融合特征f_ip进行编码：

其中，表示多尺度融合特征的潜在编码，/>与/>分别表示多尺度融合特征的实例归一化编码，R(·)表示残差编码，由卷积层Conv与最近邻插值层Interpolate(mode＝nearest)组成，F¹(·)与F²(·)分别表示实例归一化编码结构，由卷积层Conv，LeakyRelu激活函数层以及实例归一化层InstanceNorm组成，其中F¹(·)编码结构还包括最近邻插值层Interpolate(mode＝nearest)。

然后，根据残差跳跃连接，实现姿态矫正图像的输出：

其中，表示多尺度融合特征的残差编码，/>表示多尺度融合特征的实例归一化编码。

至此，人像姿态矫正任务完成，交由人像背景置换模块中语义特征提取模块提取人像姿态矫正模块的输出y_i的多尺度语义特征LR_8x以及LR_2x。

其中，LR_2x与Lr_8x分别表示不同尺度语义特征，LR_8x表示经由语义提取模块中子模块SE(·)处理后得到的尺度为输入尺寸1/8大小的语义特征，F_res表示语义提取模块，由MobileNetv2实现，SE(·)表示SE-block结构；随后，LR_2x与人像姿态矫正模块输出的姿态矫正图像y_i被送入边界特征提取模块获得边界特征HR_2x。

其中，y₀表示人像姿态矫正模块的输出经由灰度变换后的灰度图，v_1,H表示人像灰度图中方向为n的高通处理结果，haar₀表示v_1,H中方向为m的低通处理结果，LR_2x表示多尺度语义特征，HR_2x表示边界特征，编码结构F_H由卷积层Conv，批量归一化层BatchNorm组成以及sigmoid激活函数层，gray(·)表示灰度变换，h(·)与g(·)分别表示高通滤波器与低通滤波器，Gu(·)与Ca(·)分别表示高斯滤波器与Canny算子层，cat(·)表示按照维度为1的特征拼接层。随后LR_8x、HR_2x以及人像姿态矫正模块输出的姿态矫正图像y_i被送入特征融合解码模块逐层解码生成人像前景背景分割结果alpha。

对LR_8x逐层上采样并进行特征编码，然后将LR_2x与HR_2x进行AdaIn组合编码，并与人脸姿态矫正模块输出进行融合，编码生成特征融合模块输出人像前景分割alpha。

最后，人像姿态矫正模块输出的姿态矫正图像y_i与人像前景分割alpha被送入背景着装置换模块进行背景融合，生成完成人像姿态矫正与背景着装置换的证件照y输出。

y＝M_rb(alpha,M_rc(y_i),I_bg) (7)

其中，M_rc(·)表示对姿态矫正图像y_i进行换装处理，M_rb(alpha,M_rc(y_i),I_bg)表示以alpha为参考依据，将换装后的姿态矫正图像y_i中背景替换为预设背景I_bg。

本发明实施例中，通过特征融合模块将人像图像中身份特征与动作特征实现融合生成潜在编码，有效地保证了人像姿态矫正任务中的身份不变性。

其中，特征融合模块的结构如图2所示，将身份特征编码进行AdaIn参数化，随后与动作姿态特征实现仿射变换，最终生成利用自注意力机制获得融合特征。

首先对提取的身份特征与动作姿态特征进行AdaIn编码，然后通过自注意力机制获得融合特征：

其中，p表示利用身份特征I_id生成的AdaIn参数，mid表示利用参数p对潜在空间各尺度动作姿态特征组合R_p编码得到的深层特征，fip表示融合特征，A(·)表示AdaIn参数化层，AdaIn参数化层为全连接层Linear，M(·)表示采用自适应实例归一化层的编码器，由卷积层Conv，自适应实例归一化层AdaIn与Relu激活函数组成，mask(·)表示掩码编码器，由卷积层Conv与Sigmoid激活函数组成，F(·)表示特征计算器，由卷积层Conv组成。

本发明实施例中，通过边界特征提取模块，利用图像算法中锐化、平滑等操作，提取人像图像中的边缘信息，保证了边界信息完整性，边界特征提取模块的结构如图3所示，其处理步骤如下：

首先对输入的人像姿态矫正模块输出进行二维离散小波变换并做锐化处理，随后利用编码结构获得边界特征编码：

其中，y₀表示人像姿态矫正模块的输出经由灰度变换后的灰度图,k表示离散度量，K为灰度图尺寸，h[k]与g[k]分别表示垂直方向与水平方向变换核，v_1,H表示人像灰度图中方向为垂直方向的高通处理结果，ha₀表示v_1,H中方向为水平方向的低通处理结果,LR_2x表示多尺度语义特征，HR_2x表示边界特征，融合编码结构F_H由卷积层Conv，批量归一化层BatchNorm以及sigmoid激活函数层组成，gray(·)表示灰度变换，Gu(·)与Ca(·)分别表示高斯滤波器与Canny算子层，cat(·)表示按照维度为1的特征拼接层。

本发明实施例中，通过特征融合解码模块，将边界特征AdaIn参数化，实现边界特征与语义特征的融合解码；特征融合解码模块结构如图4所示，其处理步骤如下：

首先对LR_8x逐层上采样并进行特征编码，表示如下：

其中，上采样多尺度特征UR_4x与UR_2x分别表示由LR_8x经特征融合编码的逐层编码特征，Up表示最近邻上采样层Interpolate(mode＝nearest)，F_ff表示编码结构，由卷积层Conv，实例批量归一化层IBNorm组成；然后将LR_2x与HR_2x进行AdaIn组合编码，并与人脸姿态矫正模块输出进行融合，编码生成特征融合模块输出人像前景分割：

其中，hr表示利用边界特征HR_2x生成的AdaIn参数，f_LR表示利用参数hr对边界特征UR_2x编码得到的深层特征，alpha表示人像前景背景分割，A(·)表示AdaIn参数化层，结构为全连接层Linear，F_LR(·,hr)表示采用hr作为参数的自适应实例归一化层的编码器，由卷积层Conv，自适应实例归一化层AdaIn与Relu激活函数组成，F_ff(·)表示编码结构，由卷积层Conv，实例批量归一化层IBNorm以及sigmoid激活层组成。

本发明实施例中，为了保证人像姿态矫正模块在生成姿态矫正图像时的身份不变性，设计双损失计算训练网络结构辅助训练，其结构如图5所示。

首先，由前向生成器，利用输入的待处理图像x_i以及参考模板x_r生成保持待处理图像身份不变的姿态矫正图像y_i，以及保持参考模板身份不变的姿态变换图像y_r，然后再次由反馈生成器，利用姿态矫正图像y_i与姿态变换图像y_r生成保持姿态矫正图像y_i身份不变的姿态矫正恢复图像y_ir以及保持姿态变换图像y_r身份不变的姿态变换恢复图像y_ri：

然后，进行双损失计算，身份损失计算待处理图像与姿态矫正图像以及姿态恢复图像之间的身份损失：

循环一致性损失计算待处理图像与姿态恢复图像，参考模板与姿态变换图像之间的循环一致性损失：

本发明中，人像姿态矫正模块中由上述两种损失函数组合进行约束，其表达式如下所示：

上式中对身份损失以及循环一致性损失的联合计算，有效地保证了人像姿态矫正模块中身份不变性与动作姿态迁移完整性，进一步提升了人像姿态矫正任务的实现水准。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.人像证件照自动生成方法，其特征在于，由多个子任务深度神经网络模块处理实现，该多个子任务深度神经网络模块包括人像姿态矫正模块、人像背景着装置换模块；人像姿态矫正模块包括身份特征提取模块、动作姿态特征提取模块、特征融合模块以及特征解码生成模块；人像背景着装置换模块包括语义特征提取模块、边界特征提取模块、特征融合解码模块以及背景着装置换模块；处理步骤如下：

身份特征提取模块与动作姿态特征提取模块分别提取待处理图像x_i的身份特征I_id、参考模板x_r的多尺度动作姿态特征R_p；

语义特征提取模块提取输出y_i的多尺度语义特征LR_8x和LR_2x，其中，LR_8x表示大小为姿态矫正图像y_i尺寸1/8的特征图，LR_2x表示大小为输出y_i尺寸1/2的特征图，多尺度语义特征LR_2x与姿态矫正图像y_i送入边界特征提取模块获得边界特征HR_2x，多尺度语义特征LR_8x和HR_2x以及姿态矫正图像y_i送入特征融合解码模块逐层解码生成人像前景分割结果alpha；姿态矫正图像y_i与人像前景分割结果alpha送入背景着装置换模块进行背景着装置换，生成完成人像姿态矫正与背景着装置换的标准证件照y输出。

2.根据权利要求1所述人像证件照自动生成方法，其特征在于，所述动作姿态特征提取模块具体处理步骤如下：

其中，x_r表示参考模板，r_p与R_p分别表示经过深度为n层的编码器获得的潜在空间各尺度的动作姿态特征组合，atten(·)表示空间自注意力机制，Eⁿ(·，Nⁿ)表示第n层编码结构，Nⁿ表示该层编码结构中所包含SE残差结构个数，f_c表示线性层。

3.根据权利要求2所述人像证件照自动生成方法，其特征在于，所述特征融合模块的具体处理步骤如下：

其中，p表示利用身份特征Iid生成的AdaIn参数，mid表示利用参数p对潜在空间各尺度动作姿态特征组合R_p编码得到的深层特征，fip表示多尺度融合特征，A(·)表示AdaIn参数化层，AdaIn参数化层为全连接层Linear，M(·)表示自适应实例归一化层的编码器，mask(·)表示掩码编码器，F(·)表示特征计算器。

4.根据权利要求3所述人像证件照自动生成方法，其特征在于，所述边界特征提取模块具体操作步骤如下：

首先对输入的人像姿态矫正模块输出的姿态矫正图像yi进行二维离散小波变换并做锐化处理，随后利用编码结构获得边界特征编码：

其中，y₀表示人像姿态矫正模块输出的姿态矫正图像y_i经由灰度变换后的灰度图，k表示离散度量，K为灰度图尺寸，h[k]与g[k]分别表示垂直方向与水平方向变换核，v_1，H表示人像灰度图中方向为垂直方向的高通处理结果，ha₀表示v_1，H中方向为水平方向的低通处理结果，LR_2x表示多尺度语义特征，HR_2x表示边界特征，F_H为编码结构，gray(·)表示灰度变换，h(·)与g(·)分别表示高通滤波器与低通滤波器，Gu(·)与Ca(·)分别表示高斯滤波器与Canny算子层，cat(·)表示按照维度为1的特征拼接层。

5.根据权利要求4所述人像证件照自动生成方法，其特征在于，所述特征融合解码模块具体步骤如下：

对LR_8x逐层上采样并进行特征编码，表示如下：

其中，上采样多尺度特征UR_4x与UR_2x分别表示由LR_8x经特征融合编码的逐层编码特征，Up表示最近邻上采样层，F_ff表示编码结构；

将UR_2x与边界特征HR_2x进行AdaIn组合编码，并与人像姿态矫正模块输出的姿态矫正图像y_i融合，编码生成人像前景分割alpha输出：

其中，hr表示利用边界特征HR_2x生成的AdaIn参数，f_LR表示利用参数hr对边界特征UR_2x编码得到的深层特征，alpha表示人像前景背景分割结果，A(·)表示AdaIn参数化层，结构为全连接层Linear，F_LR(·，hr)表示采用hr作为参数的自适应实例归一化层的编码器，F_ff(·)表示编码结构，sigmoid(·)表示sigmoid激活层。

6.根据权利要求5所述人像证件照自动生成方法，其特征在于，所述人像背景着装置换模块设置边界特征损失函数辅助边界特征生成过程；

边界特征损失函数为二分类交叉熵损失函数BCE-Loss，计算过程如下：

其中，gt_alpha表示输入的人像前景背景分割真图Ground Truth，

boun表示人像前景分割真图的边界信息，表示边界特征HR_2x与边界信息boun的二分类交叉熵损失，Di与Er分别表示图像算法中的膨胀卷积与腐蚀卷积，BCE(·，·)表示二分类损失函数计算层。

7.根据权利要求6所述人像证件照自动生成方法，其特征在于，该人像姿态矫正模块设置双损失计算训练网络结构辅助人像姿态矫正过程，包括身份损失计算以及循环一致性损失计算；

具体操作步骤如下：

由前向生成器利用输入的待处理图像x_i以及参考模板x_r生成保持待处理图像x_i身份不变的人像姿态矫正模块输出的姿态矫正图像y_i，以及利用输入的待处理图像x_i以及参考模板x_r生成保持参考模板x_r身份不变的姿态变换图像y_r；

计算待处理图像x_i与姿态矫正图像y_i以及姿态恢复图像y_ir之间的身份损失：

其中，与/>分别表示待处理图像x_i、姿态矫正图像y_i以及姿态恢复图像y_ir的身份特征编码，/>表示待处理图像x_i中身份特征编码所具有的数据分布，身份特征编码由身份特征提取模块实现，/>表示身份损失；

计算待处理图像x_i与姿态恢复图像y_ir，参考模板x_r与姿态变换图像y_ri之间的循环一致性损失：

其中，x_i、x_r、y_ir与y_ri分别表示待处理图像、参考模板、姿态恢复图像与姿态恢复图像，p_data(i)与p_data(r)分别表示待处理图像x_i与参考模板x_r所具有的数据分布表示循环一致性损失。

8.根据权利要求1所述人像证件照自动生成方法，其特征在于，所述待处理图像x_i为随机拍摄的非正面人像图像，包含有人像部分；

所述参考模板x_r为单张标准人像证件照，包含人像正面部分、人像着装以及标准人像证件照背景组成信息，符合人像标准证件照要求。