CN114298894A

CN114298894A - 图像处理方法、装置、存储介质及电子设备

Info

Publication number: CN114298894A
Application number: CN202111602636.XA
Authority: CN
Inventors: 柳毅恒; 刘炎; 覃建策; 陈邦忠
Original assignee: Perfect World Beijing Software Technology Development Co Ltd
Current assignee: Perfect World Beijing Software Technology Development Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-08

Abstract

本说明书公开了一种图像处理方法、装置、存储介质及电子设备，所述方法包括：获取源图像和参照图像；对参照图像进行语义分割处理，得到包含参照图像的非面部组件的参照语义分割图；对源图像、参照图像以及参照语义分割图进行处理，得到在对应于参照图像的面部组件的位置上，融合有源图像和参照图像的特征的待定图；以及根据参照图像的关键点信息，对待定图对应于参照图像的面部组件的部分进行颜色处理，得到合成图像。通过上述方案，不仅能够使得融合的结果中表示出源图像的特征，还能使得合成图像中的源图像的面部组件特征能够与参照图像的内部特征所处的区域相匹配。

Description

图像处理方法、装置、存储介质及电子设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理方法、装置、存储介质及电子设备。

背景技术

在广告、影视、娱乐等场景中，人脸图像的替换应用越来越广泛。

人脸替换是指将参照图像中的人脸替换为源图像中的人脸，目标要得到的合成图像中包含有源图像中的人脸、并且包含有参照图像中的人物头发、身体、背景等非人脸部分。也就是说，换脸的目标是希望得到的，是在合成图像中保留源图像的身份信息(该身份信息可以通过五官、神情、肤色等几个维度表征)，而不是在合成图像中以参照图像中人物的身份信息取代源图像中人物的身份信息。

相关技术中的换脸方法，多是对源图像和参照图像进行编码，然后对编码后的文件进行解码得到合成图像。然而，这种换脸的方法会将源图像和参照图像中人物的身份信息融合在一起，使得合成图像中同时包含源图像和参照图像中的人物身份信息。在源图像和参照图像中人物的身份信息差异较大时，这种“身份混淆”的现象就更加明显。可见，相关技术中的换脸方式无法实现目标的换脸效果。

发明内容

本说明书实施例提供一种图像处理方法、装置、存储介质及电子设备，以部分的解决现有技术存在的上述问题。

本说明书实施例采用下述技术方案：

第一方面，本申请提供一种图像处理方法，包括：

获取源图像和参照图像；

对所述参照图像进行语义分割处理，得到包含所述参照图像的非面部组件的参照语义分割图；

对所述源图像、参照图像以及所述参照语义分割图进行处理，得到在对应于所述参照图像的面部组件的位置上，融合有所述源图像和参照图像的特征的待定图；

根据所述参照图像的关键点信息，对所述待定图对应于所述参照图像的面部组件的部分进行颜色处理，得到合成图像。

在本说明书一个可选的实施例中，根据所述参照图像的关键点信息，对所述待定图对应于所述参照图像的内部组件的位置进行颜色处理，得到合成图像，包括：

根据所述参照图像的关键点信息，确定混合权重图；其中，所述混合权重图反映了所述参照图像上不同像素点的权重分配，所述参照图像上的关键点对应的权重小于所述参照图像上的非关键点对应的权重；

根据所述混合权重图和所述参照图像，对所述待定图对应于所述参照图像的面部组件的位置进行颜色处理，得到合成图像。

在本说明书一个可选的实施例中，对所述源图像、参照图像以及所述参照语义分割图进行处理，得到在对应于所述参照图像的面部组件的位置上，融合有所述源图像和参照图像的特征的待定图，包括：

对所述源图像和所述参照图像进行融合，得到包含所述源图像的特征和所述参照图像的特征的第一图；

按照所述参照语义分割图表示出的面部组件与非面部组件的界限，确定所述第一图对应于所述面部组件的部分，作为重建区域；

对所述重建区域进行重建，得到待定图。

在本说明书一个可选的实施例中，对所述源图像和所述参照图像进行融合，得到包含所述源图像的特征和所述参照图像的特征的第一图，包括：

对所述源图像进行语义分割处理，得到包含所述源图像的面部组件的源语义分割图；

基于所述源语义分割图、所述源图像和所述参照图像，得到所述第一图。

在本说明书一个可选的实施例中，基于所述源语义分割图、所述源图像和所述参照图像，得到所述第一图，包括：

根据所述源图像和所述参照图像，构建三维融合模型；

根据所述三维融合模型及所述源语义分割图，得到所述第一图。

在本说明书一个可选的实施例中，该图像处理方法还包括：

确定关键点检测模型；

利用所述关键点检测模型，对所述参照图像进行关键点检测，得到所述参照图像的参照关键点信息。

在本说明书一个可选的实施例中，确定关键点检测模型，包括：

确定待训练的模型；

根据待训练的模型基于样本集输出的检测结果，确定第一损失和第二损失；其中，所述第一损失用于表征以下至少一种引起的损失：面部的位姿、表情、遮挡程度。第二损失用于表征由训练样本和标注的准确性引起的损失；

以第一损失、第二损失之和最小化为训练目标，执行模型训练，直至收敛，得到关键点检测模型。

第二方面，本说明书提供一种图像处理装置，所述装置包括：

图像获取模块，配置为：获取源图像和参照图像；

语义分割处理模块，配置为：对所述参照图像进行语义分割处理，得到包含所述参照图像的非面部组件的参照语义分割图；

待定图生成模块，配置为：对所述源图像、参照图像以及所述参照语义分割图进行处理，得到在对应于所述参照图像的面部组件的位置上，融合有所述源图像和参照图像的特征的待定图；

合成图像模块，配置为：根据所述参照图像的关键点信息，对所述待定图对应于所述参照图像的面部组件的部分进行颜色处理，得到合成图像。

本说明书提供的电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述图像处理方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

本说明书实施例中的图像处理方法、装置、存储介质及电子设备，在得到合成图像的过程中，对参照图像进行分割处理，将参照图像中的面部组件分割出去，则得到参照语义分割图中保留了参照图像中的外部组件，此后，基于参照语义分割图得到的合成图形中也能够包含参照图像中的外部组件。此外，通过本说明书中的方法能够在参照图像的面部组件的位置上对源图像和参照图像的特征进行融合，一方面，能够使得融合的结果中表示出源图像的特征；另一方面，还能使得合成图像中的源图像的面部组件特征能够与参照图像的内部特征所处的区域相匹配。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书实施例提供的图像处理方法的流程示意图；

图2为本说明书实施例提供的图像处理方法的至少部分步骤中得到在中间图像的流程示意图；

图3为本说明书实施例提供的图像处理方法中进行语义分割处理的流程示意图；

图4为本说明书实施例提供的图像处理方法经历的至少部分阶段中采用模型得到相应的数据的流程示意图；

图5为本说明书实施例提供的图像处理方法对关键点检测模型进行训练的流程示意图；

图6为本说明书实施例提供的图像处理方法构建三维融合模型的流程示意图；

图7为本说明书实施例提供的图像处理装置的结构示意图；

图8为本说明书实施例提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

为解决现有技术中存在的，换脸会造成合成图像中源图像中人物身份信息缺失的现象，本说明书提供一种图像处理过程，使得合成图像中尽可能的保留源图像的中人物的身份信息。

在对本说明书中的过程进行说明之前，对本说明书涉及的至少部分概念进行说明。

本说明书中的源图像、参照图像可以是经拍摄得到的一帧图像；也可以是视频中的某一帧图像，则对视频中的至少部分帧实施本说明书中的图像处理过程，即能够实现对视频中的人物的换脸。

在本说明书的定义中，图像的前景由若干个组件构成，以暴露在图像表示出的人体的各个部分中，除内部组件以外的部分是外部组件。内部组件包括以下至少一项：眼睛、眉毛、鼻子、嘴、耳朵。外部组件包括以下至少一项：头发、脸颊、额头。除此之外，未暴露在图像表示出的人体的部分，可以是被衣服遮挡的前景部分。为了契合本说明书中的图像处理过程，本说明书将图像的构成分为面部组件和非面部组件。面部组件为暴露在图像表示出的人体的各个部分中所属于人体的面部的组件，可以包括：眼睛、眉毛、鼻子、嘴、耳朵、脸颊、额头。非面部组件是图像中除面部组件以外的组件，可以包括：头发、手臂、衣服、背景。

本说明书中涉及的身份信息是由面部组件表示出的、用于对人物进行区分的信息。示例性地，身份信息可以包括以下至少一项：五官的形状、五官的比例、五官在面部上的相对位置、人物的神情、人物的肤色。

本说明书中的人物可以是真实的人物(例如张三)也可以是虚拟的人物(例如某卡通角色)。

关键点是是预先规定的能够反映人脸的至少部分面部组件特征的点，如左内眼角点、右嘴角点、鼻尖点等。人脸的关键点可以通过编号进行标识。例如，关键点集合M＝[M1，M2……Mn]，编号1到n按照一定顺序分别对应一个人脸关键点，则n为关键点个数，n的数值由人脸识别算法预先设置的要检测的人脸关键点的个数决定，常用的n可以为68、83、101等，Mn表示第编号为n的人脸关键点的二维坐标(xn，yn)。

图1为本说明书实施例提供的图像处理过程，具体可以包括以下步骤中的一个或多个：

S100：获取源图像和参照图像。

本说明书中的方法的执行主体是图像处理设备。本说明书中的过程旨在将源图像中的人脸替换至参照图像中，以得到合成图像。其中，源图像和参照图像均包含人物的面部(即，人脸)。

本步骤对源图像和/或参照图像执行的获取操作，可以是由用户上传至图像处理设备，以使得图像处理设备获取到图像；也可以是由图像处理设备对视频进行抽帧处理，以获取到图像。本说明书还可以有其他的获取图像的方式，在此不一一赘述。

S102：对所述参照图像进行语义分割处理，得到包含所述参照图像的非面部组件的参照语义分割图。

示例性地，本说明书中的图像处理的流程如图2所示。本步骤至少能够将参照图像的面部组件在参照图像中所处的区域，和非面部组件在参照图像中所处的区域区分开来。通过本步骤得到的参照语义分割图至少能够表征：参照图像中的非面部组件在参照图像中所处的区域。

在本说明书一个可选的实施例中，图像由若干个像素点构成，图像可以表示为其包含的各像素点表示出的信息的集合。则本步骤执行的语义分割处理可以是：在构成参照图像的各像素点中，确定出对应于所述参照图像的面部组件的像素点，作为第一像素点。将第一像素点从构成参照图像的各像素点中删除，得到参照语义分割图。

可见，本步骤旨在将参照图像的面部组件的部分从参照图像中分割出去，而非对各个面部组件之间进行区分。也就是说，本说明书中的分割只要区分出人物的面部即可，而无需对面部中眼睛、鼻子进行区分。可见，本说明书中的语义分割处理所处理的数据的量，相较于对面部组件之间进行区分的情况下，所处理的数据的量要少，有利于降低图像处理过程中消耗的资源。

S104：对所述源图像、参照图像以及所述参照语义分割图进行处理，得到在对应于所述参照图像的面部组件的位置上，融合有所述源图像和参照图像的特征的待定图。

本步骤中的处理旨在，在参照图像的面部组件的位置，形成融合有参照图像的面部组件的特征、和源图像的面部组件的特征的图像。而在非面部组件的位置上，则保留有参照图像的特征。

在本说明书一个可选的实施例中，得到待定图的过程可以是：获取源图像的面部组件的特征，作为第一特征；获取参照图像的面部组件的特征，作为第二特征。对第一特征和第二特征进行融合，合成特征。将合成特征添加至参照语义分割图中表示出的面部组件的区域，得到待定图。可选地，本说明书中的第一特征用于表征源图像的关键点的位置，第二特征用于表征参照图像中的关键点的位置。则合成特征至少能够表示出：在对应于面部组件的关键点能够与参照图像的非面部组件相匹配的情况下，源图像的关键点在待定图中的位置。

也就是说，通过本步骤得到的待定图至少能够表示出源图像中的人物的五官等表征身份信息的要素在目标要得到的合成图像中的位置。

S106：根据所述参照图像的关键点信息，对所述待定图对应于所述参照图像的面部组件的部分进行颜色处理，得到合成图像。

本说明书中的图像处理过程，基于源图像的颜色信息(能够表示出源图像中的人物的肤色)对待定图上对应于参照图像的面部组件的位置进行颜色处理，能够将源图像中的人脸替换至参照图像上的同时，使得得到的合成图像上的人物体现出源图像中的人物的肤色。

在本说明书一个可选的实施例中，可以针对源图像上对应于面部组件的像素点的颜色信息，作为目标信息。将目标信息作为待定图上的对应于面部组件的像素点的颜色信息；并且采用参照图像的关键点信息，对所述待定图对应于所述参照图像的面部组件的部分进行颜色处理的过程具体可以是，将待定图中对应于参照图像的关键点的像素点，确定为指定点。采用参照图像中对应于待定图的非关键点的像素点的颜色对待定图上与之对应的点进行渲染，得到合成图像。

本说明书实施例中的图像处理方法，在得到合成图像的过程中，对参照图像进行分割处理，将参照图像中的面部组件分割出去，则得到参照语义分割图中保留了参照图像中的非面部组件，此后，基于参照语义分割图得到的合成图形中也能够包含参照图像中的非面部组件。此外，通过本说明书中的方法能够在参照图像的面部组件的位置上对源图像和参照图像的特征进行融合，一方面，能够使得融合的结果中表示出源图像的特征；另一方面，还能使得合成图像中的源图像的面部组件特征能够与参照图像的内部特征所处的区域相匹配。进一步地，本说明书中的过程还根据参照图像的关键点信息，对待定图对应于参照图像的面部组件的部分进行颜色处理，能够使得合成图像中对应于参照图像的面部组件的区域中还原出源图像的肤色(身份信息的一种)。此外，本说明书中的图像处理过程，能够将源图像中的人物的肤色还原至合成图像的同时，能够使得合成图像中的人物的肤色能够体现出参照图像中的人脸由角度、脸型等因素引起的光感特征。

例如，颜色处理后的合成图像中的人物在对应于关键点的位置的肤色保留源图像中的人物的肤色。而在非关键点的位置上，例如，发际线、下巴等位置，保留源图像中的人物的肤色的同时，能够体现出参照图像中由于光源相对于人物的位置、光线强度导致的“高光”效果。

在如图2所示的a区域所示，首先对所述源图像和所述参照图像进行融合，得到包含所述源图像的特征和所述参照图像的特征的第一图。然后，对第一图进行处理，得到待定图。

现就如何得到第一图的过程进行说明。在本说明书可选的实施例中，得到第一图的过程可以包括以下几个阶段中的至少一个：语义分割、关键点信息提取、面部拟合。

一、语义分割。

本说明书中的语义分割至少能够确定面部组件和非面部组件之间的界线。在本说明书一个可选的实施例中，语义分割处理由语义分割模型执行。如图3所示，对图像(例如，本说明书中的源图像和参照图像)进行语义分割处理的过程可以是：

S300：对图像中包含人物面部的区域做外接矩形，将外接矩形圈选的区域作为子图像。

在本说明书一个可选的实施例中，采用人脸检测器(例如Bl azeFace)对图像I进行处理，确定外接矩形的尺寸和外接矩形在图像中的位置。

根据关键点检测模型(将在下文中进行介绍)的检测结果(包含了检测到的关键点)，对外接矩形在图像中框选的区域进行对齐处理。

之后，采用RoI Tanh-warping将对齐处理得到的结果，扭曲成固定尺度(该过程可以称为正向变形处理)，得到子图像I'。

本说明书中的语义分割模型包括：第一骨干网络、特征提取模块以及输出模块。第一骨干网络可选的是MobileNetV3轻量网络。本步骤中的子图像可以基于第一骨干网络得到。MobileNetV3轻量网络具有体积小、数据处理速度快等特点。

S302：对子图像执行特征提取，得到面部组件特征和/或非面部组件特征。其中，面部组件特征至少能够表示出子图像上对应于人物的面部的区域，非面部组件特征至少能够表示出子图像上未对应于人物的面部的区域。可见，面部组件特征和非面部组件特征在表征其与人物面部的对应关系时，具有一定的互斥性。

则在本说明书一个可选的实施例中，针对子图像上的每个像素点，确定该像素点的面部组件特征(包括但不限于该像素点是面部组件上的点的概率)，并确定该像素点的非面部组件特征(包括但不限于该像素点不是面部组件上的点的概率)。若该像素点的面部组件特征的特征性强于非面部组件特征的特征性，则确定该像素点是面部组件上的像素点；若反之，则确定该像素点是非面部组件上的像素点。

在本说明一个可选的实施例中，可以采用语义分割模型的特征提取模块(featureextraction module)，特征提取模块包含多卷积层，以提取子图像的全局特征。然后基于全局特征，得到面部组件特征和/或非面部组件特征。

S304：根据面部组件特征和/或非面部组件特征，得到中间语义图。

可以根据子图像中的各像素点的面部组件特征和/或非面部组件特征表现出的特征性，对各像素点进行聚类，得到中间语义图。通过本步骤得到的中间语义图至少能够表示出非面部组件在子图像中对应的区域。

S306：采用RoI Tanh-warping对中间语义图进行反向变形处理，得到语义分割图。

在本说明书一个可选的实施例中，本步骤可以由语义分割模型的输出模块执行。如图4所示，在语义分割处理的处理对象是源图像时，本步骤输出的是源语言分割图；在语义分割处理的处理对象是参照图像时，本步骤输出的是参照语言分割图。

可见，在本说明书中的图像处理过程中，可以对所述源图像进行语义分割处理，得到包含所述源图像的面部组件的源语义分割图；基于所述源语义分割图、所述源图像和所述参照图像，得到所述第一图。

二、关键点信息提取。

本说明书中的关键点信息至少能够表示出图像(例如，本说明书中的源图像和参照图像)上人物面部上的至少部分点(可以是像素点)在图像上的位置和其所属的组件,例如，像素点a在图像上的坐标是(xa,ya)，像素点a是所属于右眼的内眼角的点。

关键点信息提取可以采用本说明书设计的关键点检测模型实现。该关键点检测模型包括：第二骨干网络、卷积网络以及全连接网络。可选地，该第二骨干是优化MobileNetV3网络。相较于一般的MobileNetV3网络，优化MobileNetV3网络中的Inverted ResidualBlock被替换成Ghost Module。并且，本说明书还适当的缩减了卷积网络和全连接网络的卷积核数和单元数，以减少模型参数数量。

则得到图像的关键点信息的过程可以是，将图像输入关键点检测模型，得到关键点检测模型输出的关键点信息。

可知，本说明中关键点信息提取效果与关键点检测模型的性能有关。有鉴于此，如图4和图5所示，本说明书提供一种训练关键点检测模型的过程：

S500：确定待训练的模型。

在确定第二骨干网络、卷积网络以及全连接网络之后，对其至少部分参数进行初始化，即得到待训练的模型。

S502：根据样本集，得到待训练的模型输出的检测结果。

S504：根据检测结果确定第一损失和第二损失。

其中，第一损失用于表征以下至少一种引起的损失：面部的位姿、表情、遮挡程度。第二损失表示出由训练样本和标注的准确性引起的损失。

在本说明书一个可选的实施例中，第一损失(L₁)是根据：样本集中的样本的数量(M)，预测的关键点的数量(N)，面部朝向某一方向的偏航角(θ¹)、俯仰角(θ²)和横滚角(θ³)，人脸的类型(C，例如正脸、侧脸、抬头、低头表情以及遮挡程度)计算得到的。

其中，人脸的类型可以通过指定权重

表征，指定权重的作用是：对于样本数量比较大的数据(如正脸，即欧拉角都相对较小的情况)，给予一个小的指定权值，在进行梯度的反向传播的时候，对模型训练的贡献小一些；对于样本数量比较少的数据(侧脸、低头、抬头、表情极端)，给予一个较大的指定权值，从而使在进行梯度的反向传播的时候，对模型训练的贡献大一些。

第一损失(L₁)可以通过以下公式1计算得到。

公式中‖·‖是一种评价指标，用于度量第m个样本的第n个关键点的预测误差。该评价指标可以是L₂损失，即Ridge损失。

第二损失用于表征由样本集的标注的准确性引起的损失。在本说明书一个可选的实施例中，第二损失可以通过以下公式2计算得到。

其中，t是与训练精度有关的系数，训练精度要求越高，t越小，用于将非线性部分的范围限制在[-t,t]。∈的取值是一个很小的数值，因为它会使网络训练变得不稳定，并且会因为很小的误差导致梯度爆炸问题。F＝t-t ln(1+∈x)。x是关键点在图像中的坐标。

S506：以第一损失、第二损失之和最小化为训练目标，执行模型训练，直至收敛，得到关键点检测模型。

此外，为提高关键点检测模型对闭眼、大姿态(例如低头)条件下针对关键点的检测效果，采用样本扩增的方式，对样本集中数据量较少的某一人脸的类型的数据进行扩增，并采用扩增后的样本集进行训练。

通过本说明书中的关键点检测模型得到的关键点信息可以用于步骤S200确定外接矩形的尺寸和外接矩形在图像中的位置。具体地，在步骤S200中对外接矩形在图像中框选的区域进行对齐处理时，以关键点检测模型输出的关键点信息为依据。

三、面部拟合。

本说明书中的面部特征可以视为关键点信息的集合，在微观上，面部特征至少表示出关键点在图像上的位置；在宏观上，面部特征可以表示出人物面部的朝向、五官的形状、五官的比例、五官在面部上的相对位置、人物的神情等。

本说明书中的面部拟合旨在将源图像的面部特征和参照图像的面部特征进行融合，以使得融合得到的合成特征能够表征源图像中人物的五官的形状、五官的比例、五官在面部上的相对位置、人物的神情，还能够表征参照图像中的人物的面部的朝向。这样，基于合成特征得到的合成图像即能够包含源图像中人物的身份信息，也能够使得合成图像中人物的面部组件与非面部组件相匹配，避免出现“失和”的现象。

在本说明书一个可选的实施例中，如图4和图6所示，可以采用以下步骤实现面部拟合：

S600：根据源图像的关键点信息，得到第一模型参数；并根据参照图像的关键点信息，得到第二模型参数。

其中，第一模型参数用于表征源图像中人物的三维特征。第二模型参数用于表征参照图像中人物的三维特征。

在本说明书一个可选的实施例中，可以用基准面部模型集，得到第一模型参数和/或第二模型参数。具体地，首先确定基准面部模型集。基准面部模型集包含若干个基准三维面部模型。基准面部模型集可以表示为Shapes＝[S_₁,S_₂,…S__n]，其中，S__n是第n个基准三维面部模型。不同的基准三维面部模型表示出不用的面部朝向、五官信息、神情等。

然后，采用基准面部模型集中的各基准三维面部模型去拟合图像中的关键点信息。例如，针对任意一个基准三维面部模型，确定该基准三维面部模型在图形所处平面内的投影的图形，作为基准图形。以基准图形的关键点信息与图像(例如，源图像、参照图像)的关键点信息的差异最小化为目标，确定基准三维面部模型的混合参数P_Mix、数旋转矩阵、平移量和缩放量，作为该基准三维面部模型的模型参数。将基准面部模型集中的各基准三维面部模型的模型参数的集合，作为第一模型参数(此时，前述的图像是源图像)或第二模型参数(此时，前述的图像是参照图像)。

其中，第i个基准三维面部模型的模型参数可以表示为：旋转矩阵

具体地，得到模型参数的过程可以通过以下公式3和公式4表示：

L_p＝S*R*(P_Mix·Shapes)+T 公式4

式中，Loss_L是关键点信息与图像的关键点信息的差异，确定模型参数的过程即为求Loss_L最小值的过程。L_real是各关键点信息表示出的关键点的坐标，L_proj是各基准三维面部模型投影到图像所处平面的关键的坐标点(由基准图形的关键点信息表征)。L_p为基于待定的模型参数构建的三维模型，在求解出模型参数之前，通过公式3和公式4确定出的模型的参数均可以称为待定的模型参数。

在本说明书一个可选的实施例中，可以采用高斯牛顿法迭代求解模型参数。

S602：根据第一模型参数构建第一三维模型；并根据第二模型参数构建第二三维模型。

具体地，可以根据前述步骤中得到的第一模型参数对基准面部模型集中的各基准三维面部模型进行调整，得到第一三维模型S_S；根据前述步骤中得到的第二模型参数对基准面部模型集中的各基准三维面部模型进行调整，得到第二三维模型S_T。

S604：根据第一三维模型和第二三维模型，构建三维融合模型。

本说明书中的三维融合模型包含了第一三维模型和第二三维模型各自体现的特征。在本说明书一个可选的实施例中，构建三维融合模型的过程可以是：采用普氏分析法对齐第一三维模型和第二三维模型，得到三维融合模型S_ALIGNED。

为使得三维融合模型S_ALIGNED能够更加精确的表征人脸的结构信息，在本说明书一个可选的实施例中，将三维融合模型S_ALIGNED作为待定模型。将待定模型对齐至源语义分割图，根据得到的结果更新后的三维融合模型S_ALIGNED。以后，基于新后的三维融合模型S_ALIGNED，执行后续步骤。

可见，在本说明书中的图像处理过程中，可以根据所述源图像和所述参照图像，构建三维融合模型；根据所述三维融合模型及所述源语义分割图，得到所述第一图。

四、人脸重建。

由于源图像和参照图像中的人物的面部轮廓很可能存在差异，而在某些情况下，由于头发等外部组件的遮挡，该差异有可能较为明显。也就是说，有可能存在将前述步骤得到的第一图直接添加至参照语义分割图的面部位置，会导致某些位置填充不满的现象。则有必要基于前述步骤得到的第一图进行人脸重建。

在本说明书一个可选的实施例中，可以按照所述参照语义分割图表示出的面部组件与非面部组件的界限，确定所述第一图对应于所述面部组件的部分，作为重建区域。然后，对所述重建区域进行重建，得到待定图。

具体地，本说明书中的人脸重建是采用重建模型Gr实现的。可选地，重建模型Gr采用ResNet18作为骨干网络，以逐像素的l₁损失-即，MAE(mean abserror)-作为损失函数进行训练。训练重建模型Gr采用的数据集则为CelebAMask-HQ，CelebAMask-HQ中的每个作为样本的图像都对应于CelebA的人脸属性的分割掩码。

训练重建模型Gr的过程可以是：对数据集中的数据进行预处理，使得数据集中的每个样本均包含面部组件区域I_F和面部掩膜M_F。针对每个样本，将该样本的掩膜M_F进行随机局部遮挡处理，得到处理后的面部组件区域I′_F和处理后的面部掩膜M_F′。以处理后的面部组件区域I′_F、以及面部掩膜M_F作为重建模型Gr的输入，以面部组件区域I_F、以及处理后的面部掩膜M_F′作为输出，对重建模型Gr进行训练，直至收敛。

在对重建模型Gr进行训练之后，将第一图和参照语义分割组件作为重建模型Gr的输入，重建模型Gr的输出包含重建后的面部图形，作为本说明书中的待定图。

五、颜色处理。

经前述“面部拟合”步骤得到的第一图能够体现出合成的面部的结构信息，例如，五官的位置、神情等。但此时的第一图还不能体现出人物的肤色。在本说明书一个可选的实施例中，将经前述“面部拟合”输出的第一图作为待处理图。获取三维融合模型S_ALIGNED(可以是更新后的三维融合模型S_ALIGNED)的Mesh信息。基于Mesh信息、三维融合模型S_ALIGNED经投影得到的关键点坐标(即，前述的“L_proj”)，将源图像各关键点的颜色渲染至待处理图，将第一图更新为所述渲染得到的结果。该实施例中得到的第一图能够体现出源图像中人物的肤色。

由前述内容可知，本说明书中的图像处理过程至少能够实现在得到的合成图像中较大程度的保留源图像的身份信息，而身份信息包含肤色。一方面，将源图像中人物面部的肤色添加到合成图像对应于人物面部的部分，却能实现对源图像人物身份信息的保留；但是另一方面，由于源图像和参照图像中的人物所处的环境不同、光照等条件不同，则有可能导致合成图像中人物的面部与其他部位存在违和感。若机械的将源图像中的人物的脸换到参照图像的人物上，将会造成得到的合成图像上的人脸的区域和非人脸的区域具有不同的光感，造成合成图像中的人脸与其他区域“失和”。

有鉴于此，在本说明书一个可选的实施例中，根据前述步骤得到的参照图像的关键点信息，确定混合权重图。根据混合权重图和参照图像，对待定图对应于参照图像的面部组件的位置进行颜色处理，得到合成图像。

其中，混合权重图反映了参照图像上不同像素点的权重分配，参照图像上的关键点对应的权重小于参照图像上的非关键点对应的权重。例如，关键点对应的权重为0.05，非关键点对应的权重为0.1。

具体地，在基于混合权重图得到合成图像时，可以针对参照图像上的每个参照像素点，从混合权重图中确定出该参照像素点对应的权重值，并从待定图中确定出与该参照像素点对应的目标像素点(可选地，在待定图和参照像素点尺寸相同、且两者处于同一坐标系的情况下，若一参照像素点的坐标与待定图上的一像素点的坐标相同，则该待定图上的一像素点即为参照像素点对应的目标像素点)。将参照像素点的颜色值与其对应的权重值的乘积，叠加至其对应的目标像素点的颜色值上，得到合成图像上对应于该参照像素点的合成像素点的颜色值。

可见，本说明书中的图像处理过程，能够将源图像中的人物的肤色还原至合成图像的同时，能够使得合成图像中的人物的肤色能够体现出参照图像中的人脸由角度、脸型等因素引起的光感特征，以让源图像中的人脸在合成图像中与参照图像的外部组件相契合，尽量降低由换脸引起的违和感。

基于同样的思路，本说明书实施例还提供了对应于图1所示过程的图像处理装置，该图像处理装置如图7所示。

图7为本说明书实施例提供的图像处理装置的结构示意图，该图像处理装置可以包括以下模块中的一个或多个：

图像获取模块700，配置为：获取源图像和参照图像；

语义分割处理模块702，配置为：对所述参照图像进行语义分割处理，得到包含所述参照图像的非面部组件的参照语义分割图；

待定图生成模块704，配置为：对所述源图像、参照图像以及所述参照语义分割图进行处理，得到在对应于所述参照图像的面部组件的位置上，融合有所述源图像和参照图像的特征的待定图；

合成图像模块706，配置为：根据所述参照图像的关键点信息，对所述待定图对应于所述参照图像的面部组件的部分进行颜色处理，得到合成图像。

在本说明书一个可选的实施例中，合成图像模块706具体配置为：根据所述参照图像的关键点信息，确定混合权重图；其中，所述混合权重图反映了所述参照图像上不同像素点的权重分配，所述参照图像上的关键点对应的权重小于所述参照图像上的非关键点对应的权重；根据所述混合权重图和所述参照图像，对所述待定图对应于所述参照图像的面部组件的位置进行颜色处理，得到合成图像。

在本说明书一个可选的实施例中，待定图生成模块704具体配配置为：对所述源图像和所述参照图像进行融合，得到包含所述源图像的特征和所述参照图像的特征的第一图；按照所述参照语义分割图表示出的面部组件与非面部组件的界限，确定所述第一图对应于所述面部组件的部分，作为重建区域；对所述重建区域进行重建，得到待定图。

在本说明书一个可选的实施例中，待定图生成模块704具体配配置为：对所述源图像进行语义分割处理，得到包含所述源图像的面部组件的源语义分割图；基于所述源语义分割图、所述源图像和所述参照图像，得到所述第一图。

在本说明书一个可选的实施例中，待定图生成模块704具体配配置为：根据所述源图像和所述参照图像，构建三维融合模型；根据所述三维融合模型及所述源语义分割图，得到所述第一图。

在本说明书一个可选的实施例中，所述图像处理装置还包括关键点检测模块708，配置为：确定关键点检测模型；利用所述关键点检测模型，对所述参照图像进行关键点检测，得到所述参照图像的参照关键点信息。

在本说明书一个可选的实施例中，所述图像处理装置还包括训练模块710，配置为：确定待训练的模型；根据待训练的模型基于样本集输出的检测结果，确定第一损失和第二损失；其中，所述第一损失用于表征以下至少一种引起的损失：面部的位姿、表情、遮挡程度。第二损失用于表征由训练样本和标注的准确性引起的损失；以第一损失、第二损失之和最小化为训练目标，执行模型训练，直至收敛，得到关键点检测模型。

本说明书实施例还提供了计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的图像处理的过程。

本说明书实施例还提出了图8所示的电子设备的示意结构图。如图8，在硬件层面，该电子设备可以包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述任一个图像处理的过程。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件异或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field ProgrammableGateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种图像处理方法，其特征在于，包括：

获取源图像和参照图像；

2.如权利要求1所述的方法，其特征在于，根据所述参照图像的关键点信息，对所述待定图对应于所述参照图像的内部组件的位置进行颜色处理，得到合成图像，包括：

3.如权利要求1所述的方法，其特征在于，对所述源图像、参照图像以及所述参照语义分割图进行处理，得到在对应于所述参照图像的面部组件的位置上，融合有所述源图像和参照图像的特征的待定图，包括：

对所述重建区域进行重建，得到待定图。

4.如权利要求3所述的方法，其特征在于，对所述源图像和所述参照图像进行融合，得到包含所述源图像的特征和所述参照图像的特征的第一图，包括：

5.如权利要求4所述的方法，其特征在于，基于所述源语义分割图、所述源图像和所述参照图像，得到所述第一图，包括：

根据所述源图像和所述参照图像，构建三维融合模型；

6.如权利要求1至5中任一所述的方法，其特征在于，还包括：

确定关键点检测模型；

7.根据权利要求6所述的方法，其特征在于，确定关键点检测模型，包括：

确定待训练的模型；

根据待训练的模型基于样本集输出的检测结果，确定第一损失和第二损失；其中，所述第一损失用于表征以下至少一种引起的损失：面部的位姿、表情、遮挡程度；第二损失用于表征由训练样本和标注的准确性引起的损失；

8.一种图像处理装置，其特征在于，所述装置包括：

图像获取模块，配置为：获取源图像和参照图像；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的图像处理方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-7任一项所述的图像处理方法的步骤。