CN113569789B

CN113569789B - 图像处理方法及装置、处理器、电子设备及存储介质

Info

Publication number: CN113569789B
Application number: CN202110897049.1A
Authority: CN
Inventors: 何悦; 张韵璇; 张四维; 李�诚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2024-04-16
Anticipated expiration: 2039-07-30
Also published as: TWI779969B; TWI779970B; WO2021017113A1; TWI753327B; CN110399849B; CN113569790A; TW202213265A; TW202105238A; CN113569789A; US20210232806A1; SG11202103930TA; KR20210057133A; JP2022504579A; JP7137006B2; CN113569790B; CN110399849A; CN113569791B; CN113569791A; TW202213275A

Abstract

本申请公开了一种图像处理方法及装置。该方法包括：获取参考人脸图像和参考人脸姿态图像；对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据，并对所述参考人脸姿态图像进行人脸关键点提取处理获得所述人脸姿态图像的第一人脸掩膜；依据所述人脸纹理数据和所述第一人脸掩膜，获得目标图像。公开了相应的装置。以实现基于参考人脸图像和参考人脸姿态图像生成目标图像。

Description

图像处理方法及装置、处理器、电子设备及存储介质

技术领域

本申请设计图像处理技术领域，尤其涉及一种图像处理方法及装置、处理器、电子设备及存储介质。

背景技术

随着人工智能(artificial intelligence，AI)技术的发展，AI技术的应用也越来越多，如：通过AI技术对视频或图像中的人物进行“换脸”。所谓“换脸”是指保留视频或图像中的人脸姿态，并通过用目标人物的人脸纹理数据替换视频或图像中的人脸纹理数据，以实现将视频或图像中的人物的人脸更换为目标人物的人脸。其中，人脸姿态包括人脸轮廓的位置信息、五官的位置信息和面部表情信息，人脸纹理数据包括人脸皮肤的光泽信息、人脸皮肤的肤色信息、人脸的皱纹信息和人脸皮肤的纹理信息。

传统方法通过将大量包含目标人物的人脸的图像作为训练集对神经网络进行训练，通过向训练后的神经网络输入参考人脸姿态图像(即包含人脸姿态信息的图像)和包含目标人物的人脸的参考人脸图像可获得一张目标图像，该目标图像中的人脸姿态为参考人脸图像中的人脸姿态，该目标图像中的人脸纹理为目标人物的人脸纹理。但通过该种方法训练获得的神经网络只能用于更改目标人物的人脸姿态。

发明内容

本申请提供一种图像处理方法及装置、处理器、电子设备及存储介质。

第一方面，提供了一种图像处理方法，所述方法包括：获取参考人脸图像和参考人脸姿态图像；对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据，并对所述参考人脸姿态图像进行人脸关键点提取处理获得所述人脸姿态图像的第一人脸掩膜；依据所述人脸纹理数据和所述第一人脸掩膜，获得目标图像。

在该方面中，通过对参考人脸图像进行编码处理可获得参考人脸图像中目标人物的人脸纹理数据，通过对参考人脸姿态图像进行人脸关键点提取处理可获得人脸掩膜，再通过对人脸纹理数据和人脸掩膜进行融合处理、编码处理可获得目标图像，实现改变任意目标人物的人脸姿态。

在一种可能实现的方式中，所述依据所述人脸纹理数据和所述第一人脸掩膜，获得目标图像，包括：对所述人脸纹理数据进行解码处理，获得第一人脸纹理数据；对所述第一人脸纹理数据和所述第一人脸掩膜进行n级目标处理，获得所述目标图像；所述n级目标处理包括第m-1级目标处理和第m级目标处理；所述n级目标处理中的第1级目标处理的输入数据为所述人脸纹理数据；所述第m-1级目标处理的输出数据为所述第m级目标处理的输入数据；所述n级目标处理中的第i级目标处理包括对所述第i级目标处理的输入数据和调整所述第一人脸掩膜的尺寸后获得的数据依次进行融合处理、解码处理；所述n为大于或等于2的正整数；所述m为大于或等于2且小于或等于所述n的正整数；所述i为大于或等于1且小于或等于所述n的正整数。

在该种可能实现的方式中，通过在对第一人脸掩膜和第一人脸纹理数据进行n级目标处理的过程中对目标处理的输入数据与调整尺寸后的第一人脸掩膜进行融合可提升第一人脸掩膜与第一人脸纹理数据融合的效果，进而提升基于对人脸纹理数据进行解码处理和目标处理获得目标图像的质量。

在另一种可能实现的方式中，所述对所述第i级目标处理的输入数据和调整所述第一人脸掩膜的尺寸后获得的数据依次进行融合处理、解码处理包括：根据所述第i级目标处理的输入数据，获得所述第i级目标处理的被融合数据；对所述第i级目标处理的被融合数据和第i级人脸掩膜进行融合处理，获得第i级融合后的数据；所述第i级人脸掩膜通过对所述第一人脸掩膜进行下采样处理获得；所述第i级人脸掩膜的尺寸与所述第i级目标处理的输入数据的尺寸相同；对所述第i级融合后的数据进行解码处理，获得所述第i级目标处理的输出数据。

在该种可能实现的方式中，通过将不同尺寸的人脸掩膜与不同级的目标处理的输入数据融合，实现将人脸掩膜与人脸纹理数据融合，并可提升融合的效果，进而提升目标图像的质量。

在又一种可能实现的方式中，所述对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据之后，所述方法还包括：对所述人脸纹理数据进行j级解码处理；所述j级解码处理中的第1级解码处理的输入数据为所述人脸纹理数据；所述j级解码处理包括第k-1级解码处理和第k级解码处理；所述第k-1级解码处理的输出数据为所述第k级解码处理的输入数据；所述j为大于或等于2的正整数；所述k为大于或等于2且小于或等于所述j的正整数；所述根据所述第i级目标处理的输入数据，获得所述第i级目标处理的被融合数据，包括：将所述j级解码处理中的第r级解码处理的输出数据与所述第i级目标处理的输入数据进行合并，获得第i级合并后的数据，作为所述第i级目标处理的被融合数据；所述第r级解码处理的输出数据的尺寸与所述第i级目标处理的输入数据的尺寸相同；所述r为大于或等于1且小于或等于所述j的正整数。

在该种可能实现的方式中，通过将第r级解码处理后的数据和第i级目标处理的输入数据合并获得第i级目标处理的被融合数据，进而在对第i级目标处理的被融合数据与第i级人脸掩膜进行融合时，可进一步提升人脸纹理数据与第一人脸掩膜的融合效果。

在又一种可能实现的方式中，所述将所述j级解码处理中的第r级解码处理的输出数据与所述第i级目标处理的输入数据进行合并，获得第i级合并后的数据，包括：将所述第r级解码处理的输出数据与所述第i级目标处理的输入数据在通道维度上合并，获得所述第i级合并后的数据。

在该种可能实现的方式中，将第r级解码处理的输出数据和第i级目标处理的输入数据在通道维度上合并实现对第r级解码处理的输入数据的信息与第i级目标处理的输入数据的信息的合并，有利于提升后续基于第i级合并后的数据的获得的目标图像的质量。

在又一种可能实现的方式中，所述第r级解码处理包括：对所述第r级解码处理的输入数据依次进行激活处理、反卷积处理、归一化处理，获得所述第r级解码处理的输出数据。

在该种可能实现的方式中，通过对人脸纹理数据进行逐级解码处理，获得不同尺寸下的人脸纹理数据(即不同解码层的输出数据)，以便在后续处理过程中对不同尺寸的人脸纹理数据与不同级的目标处理的输入数据进行融合。

在又一种可能实现的方式中，所述对所述第i级目标处理的被融合数据和所述第i级人脸掩膜进行融合处理，获得所述第i级融合后的数据，包括：使用第一预定尺寸的卷积核对所述第i级人脸掩膜进行卷积处理获得第一特征数据，并使用第二预定尺寸的卷积核对所述第i级人脸掩膜进行卷积处理获得第二特征数据；依据所述第一特征数据和所述第二特征数据确定归一化形式；依据所述归一化形式对所述第i级目标处理的被融合数据进行归一化处理，获得所述第i级融合后的数据。

在该种可能实现的方式中，分别使用第一预定尺寸的卷积核和第二预定尺寸的卷积核对第i级人脸掩膜进行卷积处理，获得第一特征数据和第二特征数据。并根据第一特征数据和第二特征数据对第i级目标处理的被融合数据进行归一化处理，以提升人脸纹理数据与人脸掩膜的融合效果。

在又一种可能实现的方式中，所述归一化形式包括目标仿射变换；所述依据所述归一化形式对所述第i级目标处理的被融合数据进行归一化处理，获得所述第i级融合后的数据，包括：依据所述目标仿射变换对所述第i级目标处理的被融合数据进行仿射变换，获得所述第i级融合后的数据。

在该种可能实现的方式中，上述归一化形式为仿射变换，通过第一特征数据和第二特征数据确定仿射变换的形式，并根据仿射变换的形式对第i级目标处理的被融合数据进行仿射变换，实现对第i级目标处理的被融合数据的归一化处理。

在又一种可能实现的方式中，所述依据所述人脸纹理数据和所述第一人脸掩膜，获得目标图像，包括：对所述人脸纹理数据和所述第一人脸掩膜进行融合处理，获得目标融合数据；对所述目标融合数据进行解码处理，获得所述目标图像。

在该种可能实现的方式中，通过先对人脸纹理数据和人脸掩膜进行融合处理获得目标融合数据，再对目标融合数据进行解码处理，可获得目标图像。

在又一种可能实现的方式中，所述对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据，包括：通过多层编码层对所述参考人脸图像进行逐级编码处理，获得所述参考人脸图像的人脸纹理数据；所述多层编码层包括第s层编码层和第s+1层编码层；所述多层编码层中的第1层编码层的输入数据为所述参考人脸图像；所述第s层编码层的输出数据为所述第s+1层编码层的输入数据；所述s为大于或等于1的正整数。

在该种可能实现的方式中，通过多层编码层对参考人脸图像进行逐级编码处理，逐步从参考人脸图像中提取出特征信息，最终获得人脸纹理数据。

在又一种可能实现的方式中，所述多层编码层中的每一层编码层均包括：卷积处理层、归一化处理层、激活处理层。

在该种可能实现的方式中，每一层编码层的编码处理包括卷积处理、归一化处理、激活处理，通过对每一层编码层的输入数据依次进行卷积处理、归一化处理、激活处理可从每一层编码层的输入数据中提取特征信息。

在又一种可能实现的方式中，所述方法还包括：分别对所述参考人脸图像和所述目标图像进行人脸关键点提取处理，获得所述参考人脸图像的第二人脸掩膜和所述目标图像的第三人脸掩膜；依据所述第二人脸掩膜和所述第三人脸掩膜之间的像素值的差异，确定第四人脸掩膜；所述参考人脸图像中的第一像素点的像素值与所述目标图像中的第二像素点的像素值之间的差异与所述第四人脸掩膜中的第三像素点的值呈正相关；所述第一像素点在所述参考人脸图像中的位置、所述第二像素点在所述目标图像中的位置以及所述第三像素点在所述第四人脸掩膜中的位置均相同；将所述第四人脸掩膜、所述参考人脸图像和所述目标图像进行融合处理，获得新的目标图像。

在该种可能实现的方式中，通过对第二人脸掩膜和第三人脸掩膜获得第四人脸掩膜，并依据第四人脸掩膜对参考人脸图像和目标图像进行融合可在提升目标图像中的细节信息的同时，保留目标图像中的五官位置信息、人脸轮廓位置信息和表情信息，进而提升目标图像的质量。

在又一种可能实现的方式中，所述根据所述第二人脸掩膜和所述第三人脸掩膜之间的像素值的差异，确定第四人脸掩膜，包括：依据所述第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的平均值，所述第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的方差，确定仿射变换形式；依据所述仿射变换形式对所述第二人脸掩膜和所述第三人脸掩膜进行仿射变换，获得所述第四人脸掩膜。

在该种可能实现的方式中，根据第二人脸掩膜和第三人脸掩膜确定仿射变换形式，再依据仿射变换形式对第二人脸掩膜和第三人脸掩膜进行仿射变换，可确定第二人脸掩膜与第三人脸掩膜中相同位置的像素点的像素值的差异，有利于后续对像素点进行针对性的处理。

在又一种可能实现的方式中，所述方法应用于人脸生成网络；所述人脸生成网络的训练过程包括：将训练样本输入至所述人脸生成网络，获得所述训练样本的第一生成图像和所述训练样本的第一重构图像；所述训练样本包括样本人脸图像和第一样本人脸姿态图像；所述第一重构图像通过对所述样本人脸图像编码后进行解码处理获得；根据所述样本人脸图像和所述第一生成图像的人脸特征匹配度获得第一损失；根据所述第一样本人脸图像中的人脸纹理信息和所述第一生成图像中的人脸纹理信息的差异获得第二损失；根据所述第一样本人脸图像中第四像素点的像素值和所述第一生成图像中第五像素点的像素值的差异获得第三损失；根据所述第一样本人脸图像中第六像素点的像素值和所述第一重构图像中第七像素点的像素值的差异获得第四损失；根据所述第一生成图像的真实度获得第五损失；所述第四像素点在所述第一样本人脸图像中的位置和所述第五像素点在所述第一生成图像中的位置相同；所述第六像素点在所述第一样本人脸图像中的位置和所述第七像素点在所述第一重构图像中的位置相同；所述第一生成图像的真实度越高表征所述第一生成图像为真实图片的概率越高；根据所述第一损失、所述第二损失、所述第三损失、所述第四损失和所述第五损失，获得所述人脸生成网络的第一网络损失；基于所述第一网络损失调整所述人脸生成网络的参数。

在该种可能实现的方式中，通过人脸生成网络实现基于参考人脸图像和参考人脸姿态图像获得目标图像，并根据第一样本人脸图像、第一重构图像和第一生成图像获得第一损失、第二损失、第三损失、第四损失和第五损失，再根据上述五个损失确定人脸生成网络的第一网络损失，并根据第一网络损失完成对人脸生成网络的训练。

在又一种可能实现的方式中，所述训练样本还包括第二样本人脸姿态图像；所述第二样本人脸姿态图像通过在所述第二样本人脸图像中添加随机扰动以改变所述第二样本图像的五官位置和/或人脸轮廓位置获得；所述人脸生成网络的训练过程还包括：将所述第二样本人脸图像和第二样本人脸姿态图像输入至所述人脸生成网络，获得所述训练样本的第二生成图像和所述训练样本的第二重构图像；所述第二重构图像通过对所述第二样本人脸图像编码后进行解码处理获得；根据所述第二样本人脸图像和所述第二生成图像的人脸特征匹配度获得第六损失；根据所述第二样本人脸图像中的人脸纹理信息和所述第二生成图像中的人脸纹理信息的差异获得第七损失；根据所述第二样本人脸图像中第八像素点的像素值和所述第二生成图像中第九像素点的像素值的差异获得第八损失；根据所述第二样本人脸图像中第十像素点的像素值和所述第二重构图像中第十一像素点的像素值的差异获得第九损失；根据所述第二生成图像的真实度获得第十损失；所述第八像素点在所述第二样本人脸图像中的位置和所述第九像素点在所述第二生成图像中的位置相同；所述第十像素点在所述第二样本人脸图像中的位置和所述第十一像素点在所述第二重构图像中的位置相同；所述第二生成图像的真实度越高表征所述第二生成图像为真实图片的概率越高；根据所述第六损失、所述第七损失、所述第八损失、所述第九损失和所述第十损失，获得所述人脸生成网络的第二网络损失；基于所述第二网络损失调整所述人脸生成网络的参数。

在该种可能实现的方式中，通过将第二样本人脸图像和第二样本人脸姿态图像作为训练集，可增加人脸生成网络训练集中图像的多样性，有利于提升人脸生成网络的训练效果，能提升训练获得的人脸生成网络生成的目标图像的质量

在又一种可能实现的方式中，所述获取参考人脸图像和参考姿态图像，包括：接收用户向终端输入的待处理人脸图像；获取待处理视频，所述待处理视频包括人脸；将所述待处理人脸图像作为所述参考人脸图像，将所述待处理视频的图像作为所述人脸姿态图像，获得目标视频。

在该种可能实现的方式中，终端可将用户输入的待处理人脸图像作为参考人脸图像，并将获取的待处理视频中的图像作为参考人脸姿态图像，基于前面任意一种可能实现的方式，可获得目标视频。

第二方面，提供了一种图像处理装置，所述装置包括：获取单元，用于获取参考人脸图像和参考人脸姿态图像；第一处理单元，用于对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据，并对所述参考人脸姿态图像进行人脸关键点提取处理获得所述人脸姿态图像的第一人脸掩膜；第二处理单元，用于依据所述人脸纹理数据和所述第一人脸掩膜，获得目标图像。

在一种可能实现的方式中，所述第二处理单元用于：对所述人脸纹理数据进行解码处理，获得第一人脸纹理数据；以及对所述第一人脸纹理数据和所述第一人脸掩膜进行n级目标处理，获得所述目标图像；所述n级目标处理包括第m-1级目标处理和第m级目标处理；所述n级目标处理中的第1级目标处理的输入数据为所述人脸纹理数据；所述第m-1级目标处理的输出数据为所述第m级目标处理的输入数据；所述n级目标处理中的第i级目标处理包括对所述第i级目标处理的输入数据和调整所述第一人脸掩膜的尺寸后获得的数据依次进行融合处理、解码处理；所述n为大于或等于2的正整数；所述m为大于或等于2且小于或等于所述n的正整数；所述i为大于或等于1且小于或等于所述n的正整数。

在另一种可能实现的方式中，所述第二处理单元用于：根据所述第i级目标处理的输入数据，获得所述第i级目标处理的被融合数据；对所述第i级目标处理的被融合数据和第i级人脸掩膜进行融合处理，获得第i级融合后的数据；所述第i级人脸掩膜通过对所述第一人脸掩膜进行下采样处理获得；所述第i级人脸掩膜的尺寸与所述第i级目标处理的输入数据的尺寸相同；以及对所述第i级融合后的数据进行解码处理，获得所述第i级目标处理的输出数据。

在又一种可能实现的方式中，所述装置还包括：解码处理单元，用于在所述对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据之后，对所述人脸纹理数据进行j级解码处理；所述j级解码处理中的第1级解码处理的输入数据为所述人脸纹理数据；所述j级解码处理包括第k-1级解码处理和第k级解码处理；所述第k-1级解码处理的输出数据为所述第k级解码处理的输入数据；所述j为大于或等于2的正整数；所述k为大于或等于2且小于或等于所述j的正整数；第二处理单元，用于将所述j级解码处理中的第r级解码处理的输出数据与所述第i级目标处理的输入数据进行合并，获得第i级合并后的数据，作为所述第i级目标处理的被融合数据；所述第r级解码处理的输出数据的尺寸与所述第i级目标处理的输入数据的尺寸相同；所述r为大于或等于1且小于或等于所述j的正整数。

在又一种可能实现的方式中，所述第二处理单元用于：将所述第r级解码处理的输出数据与所述第i级目标处理的输入数据在通道维度上合并，获得所述第i级合并后的数据。

在又一种可能实现的方式中，所述第二处理单元用于：使用第一预定尺寸的卷积核对所述第i级人脸掩膜进行卷积处理获得第一特征数据，并使用第二预定尺寸的卷积核对所述第i级人脸掩膜进行卷积处理获得第二特征数据；以及依据所述第一特征数据和所述第二特征数据确定归一化形式；以及依据所述归一化形式对所述第i级目标处理的被融合数据进行归一化处理，获得所述第i级融合后的数据。

在又一种可能实现的方式中，所述归一化形式包括目标仿射变换；所述第二处理单元用于：依据所述目标仿射变换对所述第i级目标处理的被融合数据进行仿射变换，获得所述第i级融合后的数据。

在又一种可能实现的方式中，所述第二处理单元用于：对所述人脸纹理数据和所述第一人脸掩膜进行融合处理，获得目标融合数据；以及对所述目标融合数据进行解码处理，获得所述目标图像。

在又一种可能实现的方式中，所述第一处理单元用于：通过多层编码层对所述参考人脸图像进行逐级编码处理，获得所述参考人脸图像的人脸纹理数据；所述多层编码层包括第s层编码层和第s+1层编码层；所述多层编码层中的第1层编码层的输入数据为所述参考人脸图像；所述第s层编码层的输出数据为所述第s+1层编码层的输入数据；所述s为大于或等于1的正整数。

在又一种可能实现的方式中，所述装置还包括：人脸关键点提取处理单元，用于分别对所述参考人脸图像和所述目标图像进行人脸关键点提取处理，获得所述参考人脸图像的第二人脸掩膜和所述目标图像的第三人脸掩膜；确定单元，用于依据所述第二人脸掩膜和所述第三人脸掩膜之间的像素值的差异，确定第四人脸掩膜；所述参考人脸图像中的第一像素点的像素值与所述目标图像中的第二像素点的像素值之间的差异与所述第四人脸掩膜中的第三像素点的值呈正相关；所述第一像素点在所述参考人脸图像中的位置、所述第二像素点在所述目标图像中的位置以及所述第三像素点在所述第四人脸掩膜中的位置均相同；融合处理单元，用于将所述第四人脸掩膜、所述参考人脸图像和所述目标图像进行融合处理，获得新的目标图像。

在又一种可能实现的方式中，所述确定单元用于：依据所述第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的平均值，所述第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的方差，确定仿射变换形式；以及依据所述仿射变换形式对所述第二人脸掩膜和所述第三人脸掩膜进行仿射变换，获得所述第四人脸掩膜。

在又一种可能实现的方式中，所述装置执行的图像处理方法应用于人脸生成网络；所述图像处理装置用于执行所述人脸生成网络训练过程；所述人脸生成网络的训练过程包括：将训练样本输入至所述人脸生成网络，获得所述训练样本的第一生成图像和所述训练样本的第一重构图像；所述训练样本包括样本人脸图像和第一样本人脸姿态图像；所述第一重构图像通过对所述样本人脸图像编码后进行解码处理获得；根据所述样本人脸图像和所述第一生成图像的人脸特征匹配度获得第一损失；根据所述第一样本人脸图像中的人脸纹理信息和所述第一生成图像中的人脸纹理信息的差异获得第二损失；根据所述第一样本人脸图像中第四像素点的像素值和所述第一生成图像中第五像素点的像素值的差异获得第三损失；根据所述第一样本人脸图像中第六像素点的像素值和所述第一重构图像中第七像素点的像素值的差异获得第四损失；根据所述第一生成图像的真实度获得第五损失；所述第四像素点在所述第一样本人脸图像中的位置和所述第五像素点在所述第一生成图像中的位置相同；所述第六像素点在所述第一样本人脸图像中的位置和所述第七像素点在所述第一重构图像中的位置相同；所述第一生成图像的真实度越高表征所述第一生成图像为真实图片的概率越高；根据所述第一损失、所述第二损失、所述第三损失、所述第四损失和所述第五损失，获得所述人脸生成网络的第一网络损失；基于所述第一网络损失调整所述人脸生成网络的参数。

在又一种可能实现的方式中，所述获取单元用于：接收用户向终端输入的待处理人脸图像；以及获取待处理视频，所述待处理视频包括人脸；以及将所述待处理人脸图像作为所述参考人脸图像，将所述待处理视频的图像作为所述人脸姿态图像，获得目标视频。

第三方面，提供了一种处理器，所述处理器用于执行如上述第一方面及其任意一种可能实现的方式的方法。

第四方面，提供了一种电子设备，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1为本申请实施例提供的一种图像处理方法的流程示意图；

图2为本申请实施例提供的一种人脸关键点的示意图；

图3为本申请实施例提供的一种解码层和融合处理的架构示意图；

图4为本申请实施例提供的一种不同图像中相同位置的元素的示意图；

图5为本申请实施例提供的另一种图像处理方法的流程示意图；

图6为本申请实施例提供的另一种图像处理方法的流程示意图；

图7为本申请实施例提供的一种解码层和目标处理的架构示意图；

图8为本申请实施例提供的另一种解码层和目标处理的架构示意图；

图9为本申请实施例提供的另一种图像处理方法的流程示意图；

图10为本申请实施例提供的一种人脸生成网络的架构示意图；

图11为本申请实施例提供的一种基于参考人脸图像和参考人脸姿态图像获得的目标图像的示意图；

图12为本申请实施例提供的一种图像处理装置的结构示意图；

图13为本申请实施例提供的一种图像处理装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

应用本申请实施例提供的技术方案可实现将参考人脸图像中目标人物的面部表情、五官和人脸轮廓更换为参考人脸姿态图像的面部表情、人脸轮廓和五官，而保留参考人脸图像中的人脸纹理数据，得到目标图像。其中，目标图像中的面部表情、五官和人脸轮廓与参考人脸姿态图像中的面部表情、五官和人脸轮廓的匹配度高，表征目标图像的质量高。同时，目标图像中的人脸纹理数据与参考人脸图像中的人脸纹理数据的匹配度高，也表征目标图像的质量高。

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1是本申请实施例(一)提供的一种图像处理方法的流程示意图。

101、获取参考人脸图像和参考人脸姿态图像。

本申请实施例中，参考人脸图像指包括目标人物的人脸图像，其中，目标人物指待更换表情和人脸轮廓的人物。举例来说，张三想要将自己的一张自拍照a中的表情和人脸轮廓更换为图像b中的表情和人脸轮廓，那么自拍照a为参考人脸图像，张三为目标人物。

本申请实施例中，参考人脸姿态图像可以是任意一张包含人脸的图像。

获取参考人脸图像和/或参考人脸姿态图像的方式可以是接收用户通过输入组件输入的参考人脸图像和/或参考人脸姿态图像，其中，输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。也可以是接收终端发送的参考人脸图像和/或参考人脸姿态图像，其中，终端包括手机、计算机、平板电脑、服务器等。本申请对获取参考人脸图像和参考人脸姿态图像的方式不做限定。

102、对参考人脸图像进行编码处理获得参考人脸图像的人脸纹理数据，并对参考人脸姿态图像进行人脸关键点提取处理获得人脸姿态图像的第一人脸掩膜。

本申请实施例中，编码处理可以是卷积处理，也可以是卷积处理、归一化处理和激活处理的组合。

在一种可能实现的方式中，依次通过多层编码层对参考人脸图像进行逐级编码处理，其中，每一层编码层均包含卷积处理、归一化处理和激活处理，且卷积处理、归一化处理和激活处理依次串联，即卷积处理的输出数据为归一化处理的输入数据，归一化处理的输出数据为激活处理的输入数据。卷积处理可通过卷积核对输入编码层的数据进行卷积实现，通过对编码层的输入数据进行卷积处理，可从编码层的输入数据中提取出特征信息，并缩小编码层的输入数据的尺寸，以减小后续处理的计算量。而通过对卷积处理后的数据进行归一化处理，可去除卷积处理后的数据中不同数据之间的相关性，突出卷积处理后的数据中不同数据之间的分布差异，有利于通过后续处理从归一化处理后的数据中继续提取特征信息。激活处理可通过将归一化处理后的数据代入激活函数实现，可选的，激活函数为线性整流函数(rectified linear unit，ReLU)。

本申请实施例中，人脸纹理数据至少包括人脸皮肤的肤色信息、人脸皮肤的光泽度信息、人脸皮肤的皱纹信息、人脸皮肤的纹理信息。

本申请实施例中，人脸关键点提取处理指提取出参考人脸姿态图像中的人脸轮廓的位置信息、五官的位置信息以及面部表情信息，其中，人脸轮廓的位置信息包括人脸轮廓上的关键点在参考人脸姿态图像坐标系下的坐标，五官的位置信息包括五官关键点在参考人脸姿态图像坐标系下的坐标。

举例来说，如图2所示，人脸关键点包含人脸轮廓关键点和五官关键点。五官关键点包括眉毛区域的关键点、眼睛区域的关键点、鼻子区域的关键点、嘴巴区域的关键点、耳朵区域的关键点。人脸轮廓关键点包括人脸轮廓线上的关键点。需要理解的是图2所示人脸关键点的数量和位置仅为本申请实施例提供的一个示例，不应对本申请构成限定。

上述人脸轮廓关键点和五官关键点可根据用户实施本申请实施例的实际效果进行调整。上述人脸关键点提取处理可通过任意人脸关键点提取算法实现，本申请对此不作限定。

本申请实施例中，第一人脸掩膜包括人脸轮廓关键点的位置信息和五官关键点的位置信息，以及面部表情信息。为表述方便，下文将人脸关键点的位置信息与面部表情信息称为人脸姿态。

需要理解的是，本申请实施例中，获得参考人脸图像的人脸纹理数据和获得人脸姿态图像的第一人脸掩膜两个处理过程之间不存在先后顺序，可以是先获得参考人脸图像的人脸纹理数据再获得参考人脸姿态图像的第一人脸掩膜。也可以是先获得参考人脸姿态图像的第一人脸掩膜再获得参考人脸图像的人脸纹理数据。还可以是在对参考人脸图像进行编码处理获得参考人脸图像的人脸纹理数据的同时，对参考人脸姿态图像进行人脸关键点提取处理获得人脸姿态图像的第一人脸掩膜。

103、依据人脸纹理数据和第一人脸掩膜，获得目标图像。

由于对同一个人而言，人脸纹理数据是固定不变的，即只要不同的图像中包含的人物相同，则对不同的图像进行编码处理获得人脸纹理数据是相同的，也就是说，好比指纹信息、虹膜信息可作为一个人的身份信息，人脸纹理数据也可视为一个人的身份信息。因此，若通过将大量包含同一个人物的图像作为训练集对神经网络进行训练，该神经网络将通过训练学习到图像中的人物的人脸纹理数据，得到训练后的神经网络。由于训练后的神经网络只包含图像中的人物的人脸纹理数据，在使用训练后的神经网络生成图像时，也只能得到包含该人物的人脸纹理数据的图像。

举例来说，将2000张包含李四的人脸的图像作为训练集对神经网络进行训练，则神经网络在训练的过程中将从这2000张图像中学习到李四的人脸纹理数据。在应用训练后的神经网络生成图像时，无论输入的参考人脸图像中包含的人物是否是李四，最终得到的目标图像中的人脸纹理数据均为李四的人脸纹理数据，也就是说目标图像中的人物是李四。

在102中，本申请实施例通过对参考人脸图像进行编码处理以获得参考人脸图像中的人脸纹理数据，而不从参考人脸图像中提取人脸姿态，以实现从任意一张参考人脸图像中获得目标人物人脸纹理数据，且目标人物的人脸纹理数据不包含目标人物的人脸姿态。再通过对参考人脸姿态图像进行人脸关键点提取处理以获得参考人脸姿态图像的第一人脸掩膜，而不从参考人脸姿态图像中提取人脸纹理数据，以实现获得任意目标人脸姿态(用于替换参考人脸图像中的人物的人脸姿态)，且目标人脸姿态不包含参考人脸姿态图像中的人脸纹理数据。这样，再通过对人脸纹理数据和第一人脸掩膜进行解码、融合等处理可提高获得的目标图像中的人物的人脸纹理数据与参考人脸图像的人脸纹理数据的匹配度，且可提高目标图像中的人脸姿态与参考人脸姿态图像中的人脸姿态的匹配度，进而提升目标图像的质量。其中，目标图像的人脸姿态与参考人脸姿态图像的人脸姿态的匹配度越高，表征目标图像中的人物的五官、轮廓和面部表情与参考人脸姿态图像中的人物的五官、轮廓和面部表情的相似度就越高。目标图像中的人脸纹理数据与参考人脸图像中的人脸纹理数据的匹配度越高，表征目标图像中的人脸皮肤的肤色、人脸皮肤的光泽度信息、人脸皮肤的皱纹信息、人脸皮肤的纹理信息与参考人脸图像中的人脸皮肤的肤色、人脸皮肤的光泽度信息、人脸皮肤的皱纹信息、人脸皮肤的纹理信息的相似度就越高(在用户的视觉感受上，目标图像中的人物与参考人脸图像中的人物就越像同一个人)。

在一种可能实现的方式中，将人脸纹理数据和第一人脸掩膜融合，获得既包含目标人物的人脸纹理数据又包含目标人脸姿态的融合数据，再通过对融合数据进行解码处理，即可获得目标图像。其中，解码处理可以是反卷积处理。

在另一种可能实现的方式中，通过多层解码层对人脸纹理数据进行逐级解码处理，可获得不同尺寸下的解码后的人脸纹理数据(即不同的解码层输出的解码后的人脸纹理数据的尺寸不同)，再通过将每一层解码层的输出数据与第一人脸掩膜进行融合，可提升人脸纹理数据与第一人脸掩膜在不同尺寸下的融合效果，有利于提升最终获得的目标图像的质量。举例来说，如图3所示，人脸纹理数据依次经过第一层解码层，第二层解码层，…，第八层解码层的解码处理获得目标图像。其中，将第一层解码层的输出数据与第一级人脸掩膜融合后的数据作为第二层解码层的输入数据，将第二层解码层的输出数据与第二级人脸掩膜融合后的数据作为第三层解码层的输入数据，…，将第七层解码层的输出数据与第七级人脸掩膜融合后的数据作为第八层解码层的输入数据，最终将第八层解码层的输出数据作为目标图像。上述第七级人脸掩膜为参考人脸姿态图像的第一人脸掩膜，第一级人脸掩膜，第二级人脸掩膜，…，第六级人脸掩膜均可通过对参考人脸姿态图像的第一人脸掩膜进行下采样处理获得。第一级人脸掩膜的尺寸与第一层解码层的输出数据的尺寸相同，第二级人脸掩膜的尺寸与第二层解码层的输出数据的尺寸相同，…，第七级人脸掩膜的尺寸与第七层解码层的输出数据的尺寸相同。上述下采样处理可以是线性插值、最近邻插值、双线性插值。

需要理解的是，图3中的解码层的数量仅是本实施例提供一个示例，不应对本申请构成限定。

上述融合可以是对进行融合的两个数据在通道维度上合并(concatenate)。例如，第一级人脸掩膜的通道数为3，第一层解码层的输出数据的通道数为2，则将第一级人脸掩膜与第一层解码层的输出数据融合得到的数据的通道数为5。

上述融合也可以是将进行融合的两个数据中的相同位置的元素相加。其中，两个数据中的相同位置的元素可参见图4，元素a在数据A中的位置与元素e在数据B中的位置相同，元素b在数据A中的位置与元素f在数据B中的位置相同，元素c在数据A中的位置与元素g在数据B中的位置相同，元素d在数据A中的位置与元素h在数据B中的位置相同。

本实施例通过对参考人脸图像进行编码处理可获得参考人脸图像中目标人物的人脸纹理数据，通过对参考人脸姿态图像进行人脸关键点提取处理可获得第一人脸掩膜，再通过对人脸纹理数据和第一人脸掩膜进行融合处理、解码处理可获得目标图像，实现改变任意目标人物的人脸姿态。

请参阅图5，图5是本申请实施例(二)提供的实施例(一)中102一种可能实现方式。

501、通过多层编码层对参考人脸图像进行逐级编码处理，获得参考人脸图像的人脸纹理数据，并对参考人脸姿态图像进行人脸关键点提取处理获得人脸姿态图像的第一人脸掩膜。

对参考人脸姿态图像进行人脸关键点提取处理获得参考人脸姿态图像的第一人脸掩膜的过程可参见102，此处将不再赘述。

本实施例中，编码层的数量大于或等于2，多层编码层中的每个编码层依次串联，即上一层编码层的输出数据为下一层编码层的输入数据。假定多层编码层包括第s层编码层和第s+1层编码层，则多层编码层中的第1层编码层的输入数据为参考人脸图像，第s层编码层的输出数据为第s+1层编码层的输入数据，最后一层编码层的输出数据为参考人脸图像的人脸纹理数据。其中，每一层编码层均包括卷积处理层、归一化处理层、激活处理层，s为大于或等于1的正整数。

通过多层编码层对参考人脸图像进行逐级编码处理可从参考人脸图像中提取出人脸纹理数据，其中，每层编码层提取出的人脸纹理数据均不一样。具体表现为，经过多层编码层的编码处理一步步地将参考人脸图像中的人脸纹理数据提取出来，同时也将逐步去除相对次要的信息(此处的相对次要的信息指非人脸纹理数据，包括人脸的毛发信息、轮廓信息)。因此，越到后面提取出的人脸纹理数据的尺寸越小，且人脸纹理数据中包含的人脸皮肤的肤色信息、人脸皮肤的光泽度信息、人脸皮肤的皱纹信息和人脸皮肤的纹理信息越浓缩。这样，可在获得参考人脸图像的人脸纹理数据的同时，将图像的尺寸缩小，减小系统的计算量，提高运算速度。

在一种可能实现的方式中，每层编码层均包括卷积处理层、归一化处理层、激活处理层，且这3个处理层依次串联，即卷积处理层的输入数据为编码层的输入数据，卷积处理层的输出数据为归一化处理层的输入数据，归一化处理层的输出数据为激活处理层的输出数据，最终经归一化处理层获得编码层的输出数据。卷积处理层的功能实现过程如下：对编码层的输入数据进行卷积处理，即利用卷积核在编码层的输入数据上滑动，并将编码层的输入数据中元素的值分别与卷积核中所有元素的值相乘，然后将相乘后得到的所有乘积的和作为该元素的值，最终滑动处理完编码层的输入数据中所有的元素，得到卷积处理后的数据。归一化处理层可通过将卷积处理后的数据输入至批归一化处理(batch norm，BN)层实现，通过BN层对卷积处理后的数据进行批归一化处理使卷积处理后的数据符合均值为0且方差为1的正态分布，以去除卷积处理后的数据中数据之间的相关性，突出卷积处理后的数据中数据之间的分布差异。由于前面的卷积处理层以及归一化处理层从数据中学习复杂映射的能力较小，仅通过卷积处理层和归一化处理层无法处理复杂类型的数据，例如图像。因此，需要通过对归一化处理后的数据进行非线性变换，以处理诸如图像等复杂数据。在BN层后连接非线性激活函数，通过非线性激活函数对归一化处理后的数据进行非线性变换实现对归一化处理后的数据的激活处理，以提取参考人脸图像的人脸纹理数据。可选的，上述非线性激活函数为ReLU。

本实施例通过对参考人脸图像进行逐级编码处理，缩小参考人脸图像的尺寸获得参考人脸图像的人脸纹理数据，可减小后续基于人脸纹理数据进行处理的数据处理量，提高处理速度，且后续处理可基于任意参考人脸图像的人脸纹理数据以及任意人脸姿态(即第一人脸掩膜)获得目标图像，以获得参考人脸图像中的人物在任意人脸姿态下的图像。

请参阅图6，图6为本申请实施例(三)提供的实施例(一)103的一种可能实现的方式的流程示意图。

601、对人脸纹理数据进行解码处理，获得第一人脸纹理数据。

解码处理为编码处理的逆过程，通过对人脸纹理数据进行解码处理可获得参考人脸图像，但为了将人脸掩膜与人脸纹理数据融合，以获得目标图像，本实施例通过对人脸纹理数据进行多级解码处理，并在多级解码处理的过程中将人脸掩膜与人脸纹理数据融合。

在一种可能实现的方式中，如图7所示，人脸纹理数据将依次经过第一层生成解码层，第二层生成解码层(即第一级目标处理中的生成解码层)，…，第七层生成解码层的解码处理(即第六级目标处理中的生成解码层)，最终获得目标图像。其中，将人脸纹理数据输入至第一层生成解码层进行解码处理，获得第一人脸纹理数据。在其他实施例中，人脸纹理数据也可以先经过前几层(如前两层)生成解码层进行解码处理，获得第一人脸纹理数据。

602、对第一人脸纹理数据和第一人脸掩模进行n级目标处理，获得目标图像。

本实施例中，n为大于或等于2的正整数，目标处理包括融合处理和解码处理，第一人脸纹理数据为第1级目标处理的输入数据，即将第一人脸纹理数据作为第1级目标处理的被融合数据，对第1级目标处理的被融合数据与第1级人脸掩膜进行融合处理获得第1级融合后的数据，再对第1级融合后的数据进行解码处理获得第1级目标处理的输出数据，作为第2级目标处理的被融合数据，第2级目标处理再对第2级目标处理的输入数据与第2级人脸掩膜进行融合处理获得第2级融合后的数据，再对第2级融合后的数据进行解码处理获得第2级目标处理的输出数据，作为第3级目标处理的被融合数据，…，直到获得第n级目标处理的数据，作为目标图像。上述第n级人脸掩膜为参考人脸姿态图像的第一人脸掩膜，第1级人脸掩膜，第2级人脸掩膜，…，第n-1级人脸掩膜均可通过对参考人脸姿态图像的第一人脸掩膜进行下采样处理获得。且第1级人脸掩膜的尺寸与第1级目标处理的输入数据的尺寸相同，第2级人脸掩膜的尺寸与第2级目标处理的输入数据的尺寸相同，…，第n级人脸掩膜的尺寸与第n级目标处理的输入数据的尺寸相同。

可选的，本实施中的解码处理均包括反卷积处理和归一化处理。

n级目标处理中的任意一级目标处理通过对该目标处理的输入数据和调整第一人脸掩膜的尺寸后获得的数据依次进行融合处理、解码处理实现。举例来说，n级目标处理中的第i级目标处理通过对第i级目标处理的输入数据和调整第一人脸掩膜的尺寸后获得的数据先进行融合处理获得第i级目标融合数据，再对第i级目标融合数据进行解码处理，获得第i级目标处理的输出数据，即完成对第i级目标处理的输入数据的第i级目标处理。

通过将不同尺寸的人脸掩膜(即调整第一人脸掩膜的尺寸后获得的数据)与不同级的目标处理的输入数据融合可提升人脸纹理数据与第一人脸掩膜的融合效果，有利于提升最终获得的目标图像的质量。

上述调整第一人脸掩膜的尺寸可以是对第一人脸掩膜进行上采样处理，也可以是对第一人脸掩膜进行下采样处理，本申请对此不作限定。

在一种可能实现的方式中，如图7所示，第一人脸纹理数据依次经过第1级目标处理，第2级目标处理，…，第6级目标处理获得目标图像。

由于若直接将不同尺寸的人脸掩膜与不同级目标处理的输入数据进行融合，再通过解码处理中的归一化处理对融合后的数据进行归一化处理时会使不同尺寸的人脸掩膜中的信息流失，进而降低最终得到的目标图像的质量。本实施例根据不同尺寸的人脸掩膜确定归一化形式，并依据归一化形式对目标处理的输入数据进行归一化处理，实现将第一人脸掩膜与目标处理的数据进行融合。这样可更好的将第一人脸掩膜中每个元素包含的信息与目标处理的输入数据中相同位置的元素包含的信息融合，有利于提升目标图像中每个像素点的质量。

可选的，使用第一预定尺寸的卷积核对第i级人脸掩膜进行卷积处理获得第一特征数据，并使用第二预定尺寸的卷积核对第i级人脸掩膜进行卷积处理获得第二特征数据。再依据第一特征数据和所述第二特征数据确定归一化形式。其中，第一预定尺寸和第二预定尺寸不同，i为大于或等于1且小于或等于n的正整数。

在一种可能实现的方式中，通过对第i级目标处理的输入数据进行仿射变换可实现对第i级目标处理的非线性变换，以实现更复杂的映射，有利于后续基于非线性归一化后的数据生成图像。假设第i级目标处理的输入数据为β＝x_1→m，共m个数据，输出是y_i＝BN(x)，对第i级目标处理的输入数据进行仿射变换即对第i级目标处理的输入数据进行如下操作：

首先，求出上述i级目标处理的输入数据β＝x_1→m的平均值，即再根据上述平均值μ_β，确定上述i级目标处理的输入数据的方差，即/>然后根据上述平均值μ_β和方差/>对上述i级目标处理的输入数据进行仿射变换，得到/>最后，基于缩放变量γ和平移变量δ，得到仿射变换的结果，即/>其中γ和δ可依据第一特征数据和第二特征数据获得。例如，将第一特征数据作为缩放变量γ，将第二特征数据作为δ。

在确定归一化形式后，可依据归一化形式对第i级目标处理的输入数据进行归一化处理，获得第i级融合后的数据。再对第i级融合后的数据进行解码处理，可获得第i级目标处理的输出数据。

为了更好的融合第一人脸掩膜和人脸纹理数据，可对参考人脸图像的人脸纹理数据进行逐级解码处理，获得不同尺寸的人脸纹理数据，再将相同尺寸的人脸掩膜和目标处理的输出数据融合，以提升第一人脸掩膜和人脸纹理数据的融合效果，提升目标图像的质量。

本实施例中，对参考人脸图像的人脸纹理数据进行j级解码处理，以获得不同尺寸的人脸纹理数据。上述j级解码处理中的第1级解码处理的输入数据为人脸纹理数据，j级解码处理包括第k-1级解码处理和第k级解码处理，第k-1级解码处理的输出数据为所述第k级解码处理的输入数据。每一级解码处理均包括激活处理、反卷积处理、归一化处理，即对解码处理的输入数据依次进行激活处理、反卷积处理、归一化处理可获得解码处理的输出数据。其中，j为大于或等于2的正整数，k为大于或等于2且小于或等于j的正整数。

在一种可能实现的方式中，如图8所示，重构解码层的数量与目标处理的数量相同，且第r级解码处理的输出数据(即第r级重构解码层的输出数据)的尺寸与第i级目标处理的输入数据的尺寸相同。通过将第r级解码处理的输出数据与第i级目标处理的输入数据进行合并，获得第i级合并后的数据，此时将第i级合并后的数据作为第i级目标处理的被融合数据，再对第i级被融合后的数据进行第i级目标处理，获得第i级目标处理的输出数据。通过上述方式，可将不同尺寸下的参考人脸图像的人脸纹理数据更好的利用到获得目标图像的过程中，有利于提升获得的目标图像的质量。可选的，上述合并包括在通道维度上合并(concatenate)。此处对第i级被融合后的数据进行第i级目标处理的过程可参见上一种可能实现的方式。

需要理解的是，图7中的目标处理中第i级被融合的数据为第i级目标处理的输入数据，而在图8中第i级被融合的数据为第i级目标处理的输入数据与第r级解码处理的输出数据合并后获得的数据，而后续对第i级被融合后的数据和第i级人脸掩膜进行融合处理的过程均相同。

需要理解的是，图7和图8中目标处理的数量以及图8中合并的次数均为本申请实施例提供的示例，不应对本申请构成限定。例如，图8包含6次合并，即每一层解码层的输出数据都将与相同尺寸的目标处理的输入数据进行合并。虽然每一次合并对最终获得的目标图像的质量都有提升(即合并的次数越多，目标图像的质量越好)，但每一次合并都将带来较大的数据处理量，所需耗费的处理资源(此处为本实施例的执行主体的计算资源)也将增大，因此合并的次数可根据用户的实际使用情况进行调整，例如可以使用部分(如最后几层)重构解码层的输出数据与相同尺寸的目标处理的输入数据进行合并。

本实施例通过在对人脸纹理数据进行逐级目标处理的过程中，将通过调整第一人脸掩膜的尺寸获得的不同尺寸的人脸掩膜与目标处理的输入数据进行融合，提升第一人脸掩膜与人脸纹理数据的融合效果，进而提升目标图像的人脸姿态与参考人脸姿态图像的人脸姿态的匹配度。通过对参考人脸图像的人脸纹理数据进行逐级解码处理，获得不同尺寸的解码后的人脸纹理数据(即不同的重构解码层的输出数据的尺寸不同)，并将相同尺寸的解码后的人脸纹理数据和目标处理的输入数据融合，可进一步提升第一人脸掩膜与人脸纹理数据的融合效果，进而提升目标图像的人脸纹理数据与参考人脸图像的人脸纹理数据的匹配度。在通过本实施例提供的方法提升以上两个匹配度的情况下，可提升目标图像的质量。

本申请实施例还提供了一种通过对参考人脸图像的人脸掩膜和目标图像的人脸掩膜进行处理的方案，丰富目标图像中的细节(包括胡须信息、皱纹信息以及皮肤的纹理信息)，进而提升目标图像的质量。

请参阅图9，图9是本申请实施例(四)提供的另一种图像处理方法的流程示意图。

901、分别对参考人脸图像和目标图像进行人脸关键点提取处理，获得参考人脸图像的第二人脸掩膜和目标图像的第三人脸掩膜。

本实施例中，人脸关键点提取处理可从图像中提取出人脸轮廓的位置信息、五官的位置信息以及面部表情信息。通过分别对参考人脸图像和目标图像进行人脸关键点提取处理，可获得参考人脸图像的第二人脸掩膜和目标图像的第三人脸掩膜。第二人脸掩膜的尺寸以及第三人脸掩膜的尺寸以及参考人脸图像的尺寸以及参考目标图像的尺寸均相同。第二人脸掩膜包括参考人脸图像中的人脸轮廓关键点的位置信息和五官关键点的位置信息以及面部表情，第三人脸掩膜包括目标图像中的人脸轮廓关键点的位置信息和五官关键点的位置信息以及面部表情。

902、依据第二人脸掩膜和第三人脸掩膜之间的像素值的差异，确定第四人脸掩膜。

通过比较第二人脸掩膜和第三人脸掩膜之间的像素值的差异(如均值、方差、相关度等统计数据)，可获得参考人脸图像和目标图像之间的细节差异，并基于该细节差异可确定第四人脸掩膜。

在一种可能实现的方式中，依据第二人脸掩膜和第三人脸掩膜中相同位置的像素点的像素值之间的平均值(下文将称为像素平均值)，以及第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的方差(下文将称为像素方差)，确定仿射变换形式。再依据该仿射变换形式对第二人脸掩膜和第三人脸掩膜进行仿射变换，可获得第四人脸掩膜。其中，可将像素平均值作为仿射变换的缩放变量，并将像素方差作为仿射变换的平移变量。也可将像素平均值作为仿射变换的平移变量，并将像素方差作为仿射变换的缩放变量。缩放变量和平移变量的含义可参见步骤602。

本实施例中，第四人脸掩膜的尺寸与第二人脸掩膜的尺寸以及第三人脸掩膜的尺寸相同。第四人脸掩膜中每个像素点都有一个数值。可选的，该数值的取值范围为0至1。其中，像素点的数值越接近于1，表征在该像素点所在的位置上，参考人脸图像的像素点的像素值与目标图像的像素点的像素值差异越大。

举例来说，第一像素点在参考人脸图像中的位置以及第二像素点在目标图像中的位置以及第三像素点在第四人脸掩膜中的位置均相同，第一像素点的像素值与第二像素点的像素值之间的差异越大，第三像素点的数值也就越大。

903、将第四人脸掩膜、参考人脸图像和所述目标图像进行融合处理，获得新的目标图像。

目标图像与参考人脸图像中相同位置的像素点的像素值的差异越小，目标图像中的人脸纹理数据与参考人脸图像中的人脸纹理数据的匹配度就越高。而通过步骤902的处理，可确定参考人脸图像与目标图像中相同位置的像素点的像素值的差异(下文将称为像素值差异)。因此，可依据第四人脸掩膜使对目标图像和参考人脸图像进行融合，以减小融合后的图像与参考人图像相同位置的像素点的像素值的差异，使融合后的图像与参考人脸图像的细节的匹配度更高。

在一种可能实现的方式中，可通过下式对参考人脸图像和目标图像进行融合：

I_fuse＝I_gen*(1-mask)+I_ref*mask…公式(1)

其中，I_fuse为融合后的图像，I_gen为目标图像，I_ref为参考人脸图像，mask为第四人脸掩膜。(1-mask)指使用一张尺寸与第四人脸掩膜的尺寸相同，且每个像素点的数值均为1的人脸掩膜与第四人脸掩膜中相同位置的像素点的数值相减。I_gen*(1-mask)指(1-mask)获得的人脸掩膜与参考人脸图像中相同位置的数值相乘。I_ref*mask指将第四人脸掩膜与参考人脸图像中相同位置的像素点的数值相乘。

通过I_gen*(1-mask)可强化目标图像中与参考人脸图像的像素值差异小的位置的像素值，并弱化目标图像中与参考人脸图像的像素值差异大的位置的像素值。通过I_ref*mask可强化参考人脸图像中与目标图像的像素值差异大的位置的像素值，并弱化参考人脸图像中与目标图像的像素值差异小的位置的像素值。再将I_gen*(1-mask)获得的图像与I_ref*mask获得的图像中相同位置的像素点的像素值相加，即可强化目标图像的细节，提高目标图像的细节与参考人脸图像的细节匹配度。

举例来说，假定像素点a在参考人脸图像中的位置以及像素点b在目标图像中的位置以及像素点c在第四人脸掩膜中的位置相同，且像素点a的像素值为255，像素点b的像素值为0，像素点c的数值为1。通过I_ref*mask获得的图像中的像素点d的像素值为255(像素点d在通过I_ref*mask获得的图像中的位置与像素点a在参考人脸图像中的位置相同)，且通过I_gen*(1-mask)获得的图像中的像素点e的像素值为0(像素点d在通过I_gen*(1-mask)获得的图像中的位置与像素点a在参考人脸图像中的位置相同)。再将像素点d的像素值和像素点e的像素值相加确定融合后的图像中像素点f的像素值为255，也就是说，通过上述融合处理获得的图像中像素点f的像素值与参考人脸图像中像素点a的像素值相同。

本实施例中，新的目标图像为上述融合后的图像。

本实施通过第二人脸掩膜和第三人脸掩膜获得第四人脸掩膜，并依据第四人脸掩膜对参考人脸图像和目标图像进行融合可在提升目标图像中的细节信息的同时，保留目标图像中的五官位置信息、人脸轮廓位置信息和表情信息，进而提升目标图像的质量。

本申请实施例还提供了一种人脸生成网络，用于实现实施例(一)至实施例(三)中的方法。请参阅图10，图10是本申请实施例(五)提供的一种人脸生成网络的结构示意图。

如图10所示，人脸生成网络的输入为参考人脸姿态图像和参考人脸图像。对参考人脸姿态图像进行人脸关键点提取处理，获得人脸掩膜。对人脸掩膜进行下采样处理可获得第一级人脸掩膜、第二级人脸掩膜、第三级人脸掩膜、第四级人脸掩膜、第五级人脸掩膜，并将人脸掩膜作为第六级人脸掩膜。其中，第一级人脸掩膜、第二级人脸掩膜、第三级人脸掩膜、第四级人脸掩膜、第五级人脸掩膜均是通过不同的下采样处理获得，上述下采样处理可通过以下任意一种方法实现：双线性插值、最邻近点插值、高阶插值、卷积处理、池化处理。

通过多层编码层对参考人脸图像进行逐级编码处理，获得人脸纹理数据。再通过多层解码层对人脸纹理数据进行逐级解码处理，可获得重构图像。通过重构图像和参考人脸图像中相同位置之间的像素值的差异，可衡量通过对参考人脸图像先进行逐级编码处理再进行逐级解码处理获得的重构图像与生成图像之间的差异，该差异越小，表征对参考人脸图像的编码处理和解码处理获得的不同尺寸的人脸纹理数据(包括图中的人脸纹理数据和每个解码层的输出数据)的质量高(此处的质量高指不同尺寸的人脸纹理数据包含的信息与参考人脸图像包含的人脸纹理信息的匹配度高)。

通过在对人脸纹理数据进行逐级解码处理的过程中，将第一级人脸掩膜、第二级人脸掩膜、第三级人脸掩膜、第四级人脸掩膜、第五级人脸掩膜、第六级人脸掩膜分别与相应的数据进行融合，可获得目标图像。其中，融合包括自适应仿射变换，即分别使用第一预定尺寸的卷积核和第二预定尺寸的卷积核对第一级人脸掩膜或第二级人脸掩膜或第三级人脸掩膜或第四级人脸掩膜或第五级人脸掩膜或第六级人脸掩膜进行卷积处理，获得第三特征数据和第四特征数据，再根据第三特征数据和第四特征数据确定仿射变换的形式，最后根据仿射变换的形式对相应的数据进行仿射变换。这样可提升人脸掩膜与人脸纹理数据的融合效果，有利于提升生成图像(即目标图像)的质量。

通过对人脸纹理数据进行逐级解码处理获得重构图像的过程中解码层的输出数据与对人脸纹理数据进行逐级解码获得目标图像的过程中解码层的输出数据进行concatenate处理，可进一步提升人脸掩膜与人脸纹理数据的融合效果，更进一步提升目标图像的质量。

从实施例(一)至实施例(三)可以看出，本申请通过将从参考人脸姿态图像中获得人脸掩膜和从参考人脸图像中获得人脸纹理数据分开处理，可获得参考人脸姿态图像中任意人物的人脸姿态和参考人脸图像中的任意人物的人脸纹理数据。这样后续基于人脸掩膜和人脸纹理数据进行处理可获得人脸姿态为参考人脸图像中的人脸姿态，且人脸纹理数据为参考人脸图像中的人脸纹理数据的目标图像，即实现对任意人物进行“换脸”。

基于上述实现思想以及实现方式，本申请提供了一种人脸生成网络的训练方法，以使训练后的人脸生成网络可从参考人脸姿态图像中获得高质量的人脸掩膜(即人脸掩膜包含的人脸姿态信息与参考人脸姿态图像包含的人脸姿态信息的匹配度高)，以及从参考人脸图像中获得高质量的人脸纹理数据(即人脸纹理数据包含的人脸纹理信息与参考人脸图像包含的人脸纹理信息的匹配度高)，并可基于人脸掩膜和人脸纹理数据获得高质量的目标图像。

在对人脸生成网络进行训练的过程中，可将第一样本人脸图像和第一样本人脸姿态图像输入至人脸生成网络，获得第一生成图像和第一重构图像。其中，第一样本人脸图像中的人物与第一样本人脸姿态图像中的人物不同。

第一生成图像是基于对人脸纹理数据进行解码获得的，也就是说，从第一样本人脸图像中提取的人脸纹理特征的效果越好(即提取出的人脸纹理特征包含的人脸纹理信息与第一样本人脸图像包含的人脸纹理信息的匹配度高)，后续获得的第一生成图像的质量越高(即第一生成图像包含的人脸纹理信息与第一样本人脸图像包含的人脸纹理信息的匹配度高)。因此，本实施例通过分别对第一样本人脸图像和第一生成图像进行人脸特征提取处理，获得第一样本人脸图像的特征数据和第一生成图像的人脸特征数据，再通过人脸特征损失函数衡量第一样本人脸图像的特征数据和第一生成图像的人脸特征数据的差异，获得第一损失。上述人脸特征提取处理可通过人脸特征提取算法实现，本申请不做限定。

如102所述，人脸纹理数据可视为人物身份信息，也就是说，第一生成图像中的人脸纹理信息与第一样本人脸图像中的人脸纹理信息的匹配度越高，第一生成图像中的人物与第一样本人脸图像中的人物的相似度就越高(从用户的视觉感官上，第一生成图像中的人物与第一样本人脸图像中的人物就越像同一个人)。因此，本实施例通过感知损失函数衡量第一生成图像的人脸纹理信息和第一样本人脸图像的人脸纹理信息的差异，获得第二损失。

第一生成图像与第一样本人脸图像的整体相似度越高(此处的整体相似度包括：两张图像中相同位置的像素值的差异、两张图像整体颜色的差异、两张图像中除人脸区域外的背景区域的匹配度)，获得的第一生成图像的质量也越高(从用户的视觉感官上，第一生成图像与第一样本人脸图像除人物的表情和轮廓不同之外，其他所有图像内容的相似度越高，第一生成图像中的人物与第一样本人脸图像中的人物就越像同一个人，且第一生成图像中除人脸区域外的图像内容与第一样本人脸图像中除人脸区域外的图像内容的相似度也越高)。因此，本实施例通过重构损失函数来衡量第一样本人脸图像和第一生成图像的整体相似度，获得第三损失。

在基于人脸纹理数据和人脸掩膜获得第一生成图像的过程中，通过将不同尺寸的解码处理后的人脸纹理数据(即基于人脸纹理数据获得第一重构图像过程中每层解码层的输出数据)与基于人脸纹理数据获得第一生成图像过程中每层解码层的输出数据进行concatenate处理，以提升人脸纹理数据与人脸掩膜的融合效果。也就是说，基于人脸纹理数据获得第一重构图像的过程中每层解码层的输出数据的质量越高(此处指解码层的输出数据包含的信息与第一样本人脸图像包含的信息的匹配度高)，获得的第一生成图像的质量就越高，且获得的第一重构图像与第一样本人脸图像的相似度也越高。因此，本实施例通过重构损失函数衡量第一重构图像与第一样本人脸图像之间的相似度，获得第四损失。

需要指出的是，在上述人脸生成网络的训练过程中，将参考人脸图像和参考人脸姿态图像输入至人脸生成网络，获得第一生成图像和第一重构图像，并通过上述损失函数使第一生成图像的人脸姿态尽量与第一样本人脸图像的人脸姿态保持一致，可使训练后的人脸生成网络中的多层编码层对参考人脸图像进行逐级编码处理获得人脸纹理数据时更专注于从参考人脸图像中提取人脸纹理特征，而不从参考人脸图像中提取人脸姿态特征，获得人脸姿态信息。这样在应用训练后的人脸生成网络生成目标图像时，可减少获得的人脸纹理数据中包含的参考人脸图像的人脸姿态信息，更有利于提升目标图像的质量。

本实施例提供的人脸生成网络属于生成对抗网络的生成网络，第一生成图像为通过人脸生成网络生成的图像，即第一生成图像不是真实图像(即通过摄像器材或摄影器材拍摄得到的图像)，为提高获得的第一生成图像的真实度(第一生成图像的真实度越高，从用户的视觉角度来看，第一生成图像就越像真实图像)，可通过生成对抗网络损失(generative adversarial networks，GAN)函数来衡量目标图像的真实度获得第五损失。

基于上述第一损失、第二损失、第三损失、第四损失、第五损失，可获得人脸生成网络的第一网络损失，具体可参见下式：

L_total＝α₁L₁+α₂L₂+α₃L₃+α₄L₄+α₅L₅…公式(2)

其中，L_total为网络损失，L₁为第一损失，L₂为第二损失，L₃为第三损失，L₄为第四损失，L₅为第五损失。α₁，α₂，α₃，α₄，α₅均为任意自然数。

可选的，α₄＝25，α₃＝25，α₁＝α₂＝α₅＝1。

可基于公式(2)获得的第一网络损失，通过反向传播对人脸生成网络进行训练，直至收敛完成训练，获得训练后的人脸生成网络。

可选的，在对人脸生成网络进行训练的过程，训练样本还可包括第二样本人脸图像和第二样本姿态图像。其中，第二样本姿态图像可通过在第二样本人脸图像中添加随机扰动，以改变第二样本人脸图像的人脸姿态(如：使第二样本人脸图像中的五官的位置和/或第二样本人脸图像中的人脸轮廓位置发生偏移)，获得样第二本人脸姿态图像。将第二样本人脸图像和第二样本人脸姿态图像输入至人脸生成网络进行训练，获得第二生成图像和第二重构图像。再根据第二样本人脸图像和第二生成图像获得第六损失(获得第六损失的过程可参见根据第一样本人脸图像和第一生成图像获得第一损失的过程)，根据第二样本人脸图像和第二生成图像获得第七损失(获得第七损失的过程可参见根据第一样本人脸图像和第一生成图像获得第二损失的过程)，根据第二样本人脸图像和第二生成图像获得第八损失(获得第八损失的过程可参见根据第一样本人脸图像和第一生成图像获得第三损失的过程)，根据第二样本人脸图像和第二重构图像获得第九损失(获得第九损失的过程可参见根据第一样本人脸图像和第一重构图像获得第四损失的过程)，根据第二生成图像获得第十损失(获得第十损失的过程可参见根据第一生成图像获得第五损失的过程)。

再基于上述第六损失、第七损失、第八损失、第九损失、第十损失以及公式(3)，可获得人脸生成网络的第二网络损失，基具体可参见下式：

L_total2＝α₆L₆+α₇L₇+α₈L₈+α₉L₉+α₁₀L₁₀…公式(3)

其中，L_total2为第二网络损失，L₆为第六损失，L₇为第七损失，L₈为第八损失，L₉为第九损失，L₁₀为第十损失。α₆，α₇，α₈，α₉，α₁₀均为任意自然数。

可选的，α₉＝25，α₈＝25，α₆＝α₇＝α₁₀＝1。

通过将第二样本人脸图像和第二样本人脸姿态图像作为训练集，可增加人脸生成网络训练集中图像的多样性，有利于提升人脸生成网络的训练效果，能提升训练获得的人脸生成网络生成的目标图像的质量。

在上述训练过程中，通过使第一生成图像中的人脸姿态与第一样本人脸姿态图像中的人脸姿态相同，或使第二生成图像中的人脸姿态与第二样本人脸姿态图像中的人脸姿态相同，可使训练后的人脸生成网络对参考人脸图像进行编码处理获得人脸纹理数据时更专注于从参考人脸图像中提取人脸纹理特征，以获得人脸纹理数据，而不从参考人脸图像中提取人脸姿态特征，获得人脸姿态信息。这样在应用训练后的人脸生成网络生成目标图像时，可减少获得的人脸纹理数据中包含的参考人脸图像的人脸姿态信息，更有利于提升目标图像的质量。

需要理解的是，基于本实施例提供的人脸生成网络和人脸生成网络训练方法，训练所用图像数量可以是一张。即只将一张包含人物的图像作为样本人脸图像与任意一张样本人脸姿态图像输入是人脸生成网络，利用上述训练方法完成对人脸生成网络的训练，获得训练后的人脸生成网络。

还需要指出的是，应用本实施例所提供的人脸生成网络获得的目标图像可包含参考人脸图像中的“缺失信息”。上述“缺失信息”指由于参考人脸图像中人物的面部表情和参考人脸姿态图像中人物的面部表情之间的差异产生的信息。

举例来说，参考人脸图像中人物的面部表情是闭眼睛，而参考人脸姿态图像中人物的面部表情是睁开眼睛。由于目标图像中的人脸面部表情需要和参考人脸姿态图像中人物的面部表情保持一致，而参考人脸图像中又没有眼睛，也就是说，参考人脸图像中的眼睛区域的信息是“缺失信息”。

再举例来说(例1)，如图11所示，参考人脸图像d中的人物的面部表情是闭嘴，也就是说d中的牙齿区域的信息是“缺失信息”。而参考人脸姿态图像c中的人物的面部表情是张嘴。

实施例(五)所提供的人脸生成网络通过训练过程学习到“缺失信息”与人脸纹理数据的映射关系。在应用训练好的人脸生成网络获得目标图像时，若参考人脸图像中存在“缺失信息”，将根据参考人脸图像的人脸纹理数据以及上述映射关系，为目标图像“估计”该“缺失信息”。

接着例1继续举例，将c和d输入至人脸生成网络，人脸生成网络从d中获得d的人脸纹理数据，并从训练过程中学习到的人脸纹理数据中确定与d的人脸纹理数据匹配度最高的人脸纹理数据，作为目标人脸纹理数据。再根据牙齿信息与人脸纹理数据的映射关系，确定与目标人脸纹理数据对应的目标牙齿信息。并根据目标牙齿信息确定目标图像e中的牙齿区域的图像内容。

本实施例基于第一损失、第二损失、第三损失、第四损失和第五损失对人脸生成网络进行训练，可使训练后的人脸生成网络从任意参考人脸姿态图像中获取人脸掩膜，并从任意参考人脸图像中获取人脸纹理数据，再基于人脸掩膜和人脸纹理数据可获得目标图像。即通过本实施例提供的人脸生成网络和人脸生成网络的训练方法获得的训练后的人脸生成网络，可实现将任意人物的脸替换至任意图像中，即本申请提供的技术方案具有普适性(即可将任意人物作为目标人物)。

基于实施例(一)至实施例(四)提供的图像处理方法，以及实施例(五)提供的人脸生成网络和人脸生成网络的训练方法，本申请实施例(六)提供了几种可能实现的应用场景。

人们在对人物进行拍摄时，由于外界因素(如被拍摄人物的移动，拍摄器材的晃动，拍摄环境的光照强度较弱)的影响，拍摄获得的人物照可能存在模糊(本实施例指人脸区域模糊)、光照差(本实施例指人脸区域光照差)等问题。终端(如手机、电脑等)可利用本申请实施例提供的技术方案，对模糊图像或光照差的图像(即存在模糊问题的人物图像)进行人脸关键点提取处理，获得人脸掩膜，再对包含模糊图像中的人物的清晰图像进行编码处理可获得该人物的人脸纹理数据，最后基于人脸掩膜和人脸纹理数据可获得目标图像。其中，目标图像中的人脸姿态为模糊图像或光照差的图像中的人脸姿态。

此外，用户还可通过本申请提供的技术方案获得各种各样表情的图像。举例来说，A觉得图像a中的人物的表情很有趣，想获得一张自己做该表情时的图像，可将自己的照片和图像a输入至终端。终端将A的照片作为参考人脸图像和并将图像a作为参考姿态图像，利用本申请提供的技术方案对A的照片和图像a进行处理，获得目标图像。该目标图像中，A的表情即为图像a中的人物的表情。

在另一种可能实现的场景下，B觉得电影中的一段视频很有意思，并想看看将电影中演员的脸替换成自己的脸后的效果。B可将自己的照片(即待处理人脸图像)和该段视频(即待处理视频)输入至终端，终端将B的照片作为参考人脸图像，并将视频中每一帧图像中作为参考人脸姿态图像，利用本申请提供的技术方案对B的照片和视频中每一帧图像进行处理，获得目标视频。目标视频中的演员就被“替换”成了B。

在又一种可能实现的场景下，C想用图像c中的人脸姿态替换图像d中的人脸姿态，如图11所示，可将图像c作为参考人脸姿态图像，并将图像d作为参考人脸图像输入至终端。终端依据本申请提供的技术方案对c和d进行处理，获得目标图像e。

需要理解的是，在使用实施例(一)至实施例(四)所提供的方法或实施例(五)所提供的人脸生成网络获得目标图像时，可同时将一张或多张人脸图像作为参考人脸图像，也可同时将一张或多张人脸图像作为参考人脸姿态图像。

举例来说，将图像f、图像g、图像h作为人脸姿态图像依次输入至终端，并将图像i、图像j、图像k作为人脸姿态图像依次输入至终端，则终端将利用本申请所提供的技术方案基于图像f和图像i生成目标图像m，基于图像g和图像j生成目标图像n，基于图像h和图像k生成目标图像p。

再举例来说，将图像q、图像r作为人脸姿态图像依次输入至终端，并将图像s、作为人脸姿态图像输入至终端，则终端将利用本申请所提供的技术方案基于图像q和图像s生成目标图像t，基于图像r和图像s生成目标图像u。

从本实施例提供的一些应用场景可以看出，应用本申请提供的技术方案可实现对将任意人物的人脸替换至任意图像或视频中，获得目标人物(即参考人脸图像中的人物)在任意人脸姿态下的图像或视频。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图12，图12为本申请实施例提供的一种图像处理装置的结构示意图，该装置1包括：获取单元11、第一处理单元12和第二处理单元13；可选地，该装置1还可以包括：解码处理单元14、人脸关键点提取处理单元15、确定单元16以及融合处理单元17中的至少一个单元。其中：

获取单元11，用于获取参考人脸图像和参考人脸姿态图像；

第一处理单元12，用于对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据，并对所述参考人脸姿态图像进行人脸关键点提取处理获得所述人脸姿态图像的第一人脸掩膜；

第二处理单元13，用于依据所述人脸纹理数据和所述第一人脸掩膜，获得目标图像。

在一种可能实现的方式中，所述第二处理单元13用于：对所述人脸纹理数据进行解码处理，获得第一人脸纹理数据；以及对所述第一人脸纹理数据和所述第一人脸掩膜进行n级目标处理，获得所述目标图像；所述n级目标处理包括第m-1级目标处理和第m级目标处理；所述n级目标处理中的第1级目标处理的输入数据为所述人脸纹理数据；所述第m-1级目标处理的输出数据为所述第m级目标处理的输入数据；所述n级目标处理中的第i级目标处理包括对所述第i级目标处理的输入数据和调整所述第一人脸掩膜的尺寸后获得的数据依次进行融合处理、解码处理；所述n为大于或等于2的正整数；所述m为大于或等于2且小于或等于所述n的正整数；所述i为大于或等于1且小于或等于所述n的正整数。

在另一种可能实现的方式中，所述第二处理单元13用于：根据所述第i级目标处理的输入数据，获得所述第i级目标处理的被融合数据；对所述第i级目标处理的被融合数据和第i级人脸掩膜进行融合处理，获得第i级融合后的数据；所述第i级人脸掩膜通过对所述第一人脸掩膜进行下采样处理获得；所述第i级人脸掩膜的尺寸与所述第i级目标处理的输入数据的尺寸相同；以及对所述第i级融合后的数据进行解码处理，获得所述第i级目标处理的输出数据。

在又一种可能实现的方式中，所述装置1还包括：解码处理单元14，用于在所述对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据之后，对所述人脸纹理数据进行j级解码处理；所述j级解码处理中的第1级解码处理的输入数据为所述人脸纹理数据；所述j级解码处理包括第k-1级解码处理和第k级解码处理；所述第k-1级解码处理的输出数据为所述第k级解码处理的输入数据；所述j为大于或等于2的正整数；所述k为大于或等于2且小于或等于所述j的正整数；第二处理单元13，用于将所述j级解码处理中的第r级解码处理的输出数据与所述第i级目标处理的输入数据进行合并，获得第i级合并后的数据，作为所述第i级目标处理的被融合数据；所述第r级解码处理的输出数据的尺寸与所述第i级目标处理的输入数据的尺寸相同；所述r为大于或等于1且小于或等于所述j的正整数。

在又一种可能实现的方式中，所述第二处理单元13用于：将所述第r级解码处理的输出数据与所述第i级目标处理的输入数据在通道维度上合并，获得所述第i级合并后的数据。

在又一种可能实现的方式中，所述第二处理单元13用于：使用第一预定尺寸的卷积核对所述第i级人脸掩膜进行卷积处理获得第一特征数据，并使用第二预定尺寸的卷积核对所述第i级人脸掩膜进行卷积处理获得第二特征数据；以及依据所述第一特征数据和所述第二特征数据确定归一化形式；以及依据所述归一化形式对所述第i级目标处理的被融合数据进行归一化处理，获得所述第i级融合后的数据。

在又一种可能实现的方式中，所述归一化形式包括目标仿射变换；所述第二处理单元13用于：依据所述目标仿射变换对所述第i级目标处理的被融合数据进行仿射变换，获得所述第i级融合后的数据。

在又一种可能实现的方式中，所述第二处理单元13用于：对所述人脸纹理数据和所述第一人脸掩膜进行融合处理，获得目标融合数据；以及对所述目标融合数据进行解码处理，获得所述目标图像。

在又一种可能实现的方式中，所述第一处理单元12用于：通过多层编码层对所述参考人脸图像进行逐级编码处理，获得所述参考人脸图像的人脸纹理数据；所述多层编码层包括第s层编码层和第s+1层编码层；所述多层编码层中的第1层编码层的输入数据为所述参考人脸图像；所述第s层编码层的输出数据为所述第s+1层编码层的输入数据；所述s为大于或等于1的正整数。

在又一种可能实现的方式中，所述装置1还包括：人脸关键点提取处理单元15，用于分别对所述参考人脸图像和所述目标图像进行人脸关键点提取处理，获得所述参考人脸图像的第二人脸掩膜和所述目标图像的第三人脸掩膜；确定单元16，用于依据所述第二人脸掩膜和所述第三人脸掩膜之间的像素值的差异，确定第四人脸掩膜；所述参考人脸图像中的第一像素点的像素值与所述目标图像中的第二像素点的像素值之间的差异与所述第四人脸掩膜中的第三像素点的值呈正相关；所述第一像素点在所述参考人脸图像中的位置、所述第二像素点在所述目标图像中的位置以及所述第三像素点在所述第四人脸掩膜中的位置均相同；融合处理单元17，用于将所述第四人脸掩膜、所述参考人脸图像和所述目标图像进行融合处理，获得新的目标图像。

在又一种可能实现的方式中，所述确定单元16用于：依据所述第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的平均值，所述第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的方差，确定仿射变换形式；以及依据所述仿射变换形式对所述第二人脸掩膜和所述第三人脸掩膜进行仿射变换，获得所述第四人脸掩膜。

在又一种可能实现的方式中，所述装置1执行的图像处理方法应用于人脸生成网络；所述图像处理装置1用于执行所述人脸生成网络训练过程；所述人脸生成网络的训练过程包括：将训练样本输入至所述人脸生成网络，获得所述训练样本的第一生成图像和所述训练样本的第一重构图像；所述训练样本包括样本人脸图像和第一样本人脸姿态图像；所述第一重构图像通过对所述样本人脸图像编码后进行解码处理获得；根据所述样本人脸图像和所述第一生成图像的人脸特征匹配度获得第一损失；根据所述第一样本人脸图像中的人脸纹理信息和所述第一生成图像中的人脸纹理信息的差异获得第二损失；根据所述第一样本人脸图像中第四像素点的像素值和所述第一生成图像中第五像素点的像素值的差异获得第三损失；根据所述第一样本人脸图像中第六像素点的像素值和所述第一重构图像中第七像素点的像素值的差异获得第四损失；根据所述第一生成图像的真实度获得第五损失；所述第四像素点在所述第一样本人脸图像中的位置和所述第五像素点在所述第一生成图像中的位置相同；所述第六像素点在所述第一样本人脸图像中的位置和所述第七像素点在所述第一重构图像中的位置相同；所述第一生成图像的真实度越高表征所述第一生成图像为真实图片的概率越高；根据所述第一损失、所述第二损失、所述第三损失、所述第四损失和所述第五损失，获得所述人脸生成网络的第一网络损失；基于所述第一网络损失调整所述人脸生成网络的参数。

在又一种可能实现的方式中，所述获取单元11用于：接收用户向终端输入的待处理人脸图像；以及获取待处理视频，所述待处理视频包括人脸；以及将所述待处理人脸图像作为所述参考人脸图像，将所述待处理视频的图像作为所述人脸姿态图像，获得目标视频。

本实施例通过对参考人脸图像进行编码处理可获得参考人脸图像中目标人物的人脸纹理数据，通过对参考人脸姿态图像进行人脸关键点提取处理可获得人脸掩膜，再通过对人脸纹理数据和人脸掩膜进行融合处理、编码处理可获得目标图像，实现改变任意目标人物的人脸姿态。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图13为本申请实施例提供的一种图像处理装置的硬件结构示意图。该图像处理装置2包括处理器21和存储器22。可选地，该图像处理装置2还可以包括：输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本申请实施例对此不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。可选的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输出装置23和输入装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本申请实施例中，存储器22不仅可用于存储相关指令，还可用于存储相关图像，如该存储器22可用于存储通过输入装置23获取的参考人脸图像和参考人脸姿态图像，又或者该存储器22还可用于存储通过处理器21搜索获得的目标图像等等，本申请实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图13仅仅示出一种图像处理装置的简化设计。在实际应用中，图像处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本申请实施例的图像处理装置都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种图像处理方法，其特征在于，所述方法应用于人脸生成网络，所述方法包括：

所述人脸生成网络获取参考人脸图像和参考人脸姿态图像；

所述人脸生成网络对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据，并对所述参考人脸姿态图像进行人脸关键点提取处理获得所述参考人脸姿态图像的第一人脸掩膜；

所述人脸生成网络依据所述人脸纹理数据和所述第一人脸掩膜，获得目标图像；

所述人脸生成网络的训练过程包括：

将训练样本输入至所述人脸生成网络，获得所述训练样本的第一生成图像和所述训练样本的第一重构图像；所述训练样本包括第一样本人脸图像和第一样本人脸姿态图像；所述第一重构图像通过对所述样本人脸图像编码后进行解码处理获得；

根据所述样本人脸图像和所述第一生成图像的人脸特征匹配度获得第一损失；根据所述第一样本人脸图像中的人脸纹理信息和所述第一生成图像中的人脸纹理信息的差异获得第二损失；根据所述第一样本人脸图像中第四像素点的像素值和所述第一生成图像中第五像素点的像素值的差异获得第三损失；根据所述第一样本人脸图像中第六像素点的像素值和所述第一重构图像中第七像素点的像素值的差异获得第四损失；根据所述第一生成图像的真实度获得第五损失；所述第四像素点在所述第一样本人脸图像中的位置和所述第五像素点在所述第一生成图像中的位置相同；所述第六像素点在所述第一样本人脸图像中的位置和所述第七像素点在所述第一重构图像中的位置相同；所述第一生成图像的真实度越高表征所述第一生成图像为真实图片的概率越高；

根据所述第一损失、所述第二损失、所述第三损失、所述第四损失和所述第五损失，获得所述人脸生成网络的第一网络损失；

基于所述第一网络损失调整所述人脸生成网络的参数。

2.根据权利要求1所述的方法，其特征在于，所述依据所述人脸纹理数据和所述第一人脸掩膜，获得目标图像，包括：

对所述人脸纹理数据和所述第一人脸掩膜进行融合处理，获得目标融合数据；

对所述目标融合数据进行解码处理，获得所述目标图像。

3.根据权利要求2所述的方法，其特征在于，所述对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据，包括：

通过多层编码层对所述参考人脸图像进行逐级编码处理，获得所述参考人脸图像的人脸纹理数据；所述多层编码层包括第s层编码层和第s+1层编码层；所述多层编码层中的第1层编码层的输入数据为所述参考人脸图像；所述第s层编码层的输出数据为所述第s+1层编码层的输入数据；所述s为大于或等于1的正整数；所述多层编码层中的每一层编码层均包括：卷积处理层、归一化处理层、激活处理层。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

分别对所述参考人脸图像和所述目标图像进行人脸关键点提取处理，获得所述参考人脸图像的第二人脸掩膜和所述目标图像的第三人脸掩膜；

依据所述第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的平均值，所述第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的方差，确定仿射变换形式；

依据所述仿射变换形式对所述第二人脸掩膜和所述第三人脸掩膜进行仿射变换，获得所述第四人脸掩膜所述参考人脸图像中的第一像素点的像素值与所述目标图像中的第二像素点的像素值之间的差异与所述第四人脸掩膜中的第三像素点的值呈正相关；所述第一像素点在所述参考人脸图像中的位置、所述第二像素点在所述目标图像中的位置以及所述第三像素点在所述第四人脸掩膜中的位置均相同；

将所述第四人脸掩膜、所述参考人脸图像和所述目标图像进行融合处理，获得新的目标图像。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述训练样本还包括第二样本人脸图像和第二样本人脸姿态图像；所述第二样本人脸姿态图像通过在所述第二样本人脸图像中添加随机扰动以改变所述第二样本图像的五官位置和/或人脸轮廓位置获得；

所述人脸生成网络的训练过程还包括：

将所述第二样本人脸图像和第二样本人脸姿态图像输入至所述人脸生成网络，获得所述训练样本的第二生成图像和所述训练样本的第二重构图像；所述第二重构图像通过对所述第二样本人脸图像编码后进行解码处理获得；

根据所述第二样本人脸图像和所述第二生成图像的人脸特征匹配度获得第六损失；根据所述第二样本人脸图像中的人脸纹理信息和所述第二生成图像中的人脸纹理信息的差异获得第七损失；根据所述第二样本人脸图像中第八像素点的像素值和所述第二生成图像中第九像素点的像素值的差异获得第八损失；根据所述第二样本人脸图像中第十像素点的像素值和所述第二重构图像中第十一像素点的像素值的差异获得第九损失；根据所述第二生成图像的真实度获得第十损失；所述第八像素点在所述第二样本人脸图像中的位置和所述第九像素点在所述第二生成图像中的位置相同；所述第十像素点在所述第二样本人脸图像中的位置和所述第十一像素点在所述第二重构图像中的位置相同；所述第二生成图像的真实度越高表征所述第二生成图像为真实图片的概率越高；

根据所述第六损失、所述第七损失、所述第八损失、所述第九损失和所述第十损失，获得所述人脸生成网络的第二网络损失；

基于所述第二网络损失调整所述人脸生成网络的参数。

6.根据权利要求1至3中任意一项所述的方法，其特征在于，所述获取参考人脸图像和参考姿态图像，包括：

接收用户向终端输入的待处理人脸图像；

获取待处理视频，所述待处理视频包括人脸；

将所述待处理人脸图像作为所述参考人脸图像，将所述待处理视频的图像作为所述人脸姿态图像，获得目标视频。

7.一种图像处理装置，其特征在于，所述装置执行的图像处理方法应用于人脸生成网络，所述装置包括：

获取单元，所述人脸生成网络通过所述获取单元获取参考人脸图像和参考人脸姿态图像；

第一处理单元，所述人脸生成网络通过所述第一处理单元对所述参考人脸图像进行编码处理获得所述参考人脸图像的人脸纹理数据，并对所述参考人脸姿态图像进行人脸关键点提取处理获得所述参考人脸姿态图像的第一人脸掩膜；

第二处理单元，所述人脸生成网络通过所述第二处理单元依据所述人脸纹理数据和所述第一人脸掩膜，获得目标图像；

所述图像处理装置还用于执行所述人脸生成网络训练过程，所述人脸生成网络的训练过程包括：

将训练样本输入至所述人脸生成网络，获得所述训练样本的第一生成图像和所述训练样本的第一重构图像；所述训练样本包括样本人脸图像和第一样本人脸姿态图像；所述第一重构图像通过对所述样本人脸图像编码后进行解码处理获得；

基于所述第一网络损失调整所述人脸生成网络的参数。

8.根据权利要求7所述的装置，其特征在于，所述第二处理单元用于：

以及对所述目标融合数据进行解码处理，获得所述目标图像。

9.根据权利要求8所述的装置，其特征在于，所述第一处理单元用于：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

人脸关键点提取处理单元，用于分别对所述参考人脸图像和所述目标图像进行人脸关键点提取处理，获得所述参考人脸图像的第二人脸掩膜和所述目标图像的第三人脸掩膜；

确定单元，用于依据所述第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的平均值，所述第二人脸掩膜和所述第三人脸掩膜中相同位置的像素点的像素值之间的方差，确定仿射变换形式；

以及依据所述仿射变换形式对所述第二人脸掩膜和所述第三人脸掩膜进行仿射变换，获得所述第四人脸掩膜所述参考人脸图像中的第一像素点的像素值与所述目标图像中的第二像素点的像素值之间的差异与所述第四人脸掩膜中的第三像素点的值呈正相关；所述第一像素点在所述参考人脸图像中的位置、所述第二像素点在所述目标图像中的位置以及所述第三像素点在所述第四人脸掩膜中的位置均相同；

融合处理单元，用于将所述第四人脸掩膜、所述参考人脸图像和所述目标图像进行融合处理，获得新的目标图像。

11.根据权利要求7至9任一项所述的装置，其特征在于，所述训练样本还包括第二样本人脸图像和第二样本人脸姿态图像；所述第二样本人脸姿态图像通过在所述第二样本人脸图像中添加随机扰动以改变所述第二样本图像的五官位置和/或人脸轮廓位置获得；

所述人脸生成网络的训练过程还包括：

基于所述第二网络损失调整所述人脸生成网络的参数。

12.根据权利要求7至9中任意一项所述的装置，其特征在于，所述获取单元用于：

接收用户向终端输入的待处理人脸图像；

以及获取待处理视频，所述待处理视频包括人脸；

以及将所述待处理人脸图像作为所述参考人脸图像，将所述待处理视频的图像作为所述人脸姿态图像，获得目标视频。

13.一种处理器，其特征在于，所述处理器用于执行如权利要求1至6任一项所述的方法。

14.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器执行所述计算机指令时，所述电子设备执行如权利要求1至6任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被电子设备的处理器执行时，使所述处理器执行权利要求1至6任一项所述的方法。