CN112613374A

CN112613374A - 人脸可见区域解析与分割方法、人脸上妆方法及移动终端

Info

Publication number: CN112613374A
Application number: CN202011492577.0A
Authority: CN
Inventors: 林煜; 苏灿平
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-06

Abstract

本发明公开了一种人脸可见区域解析与分割方法、人脸上妆方法及移动终端，其通过获取样本图像的脸部区域图像，得到初始图像；从素材库中随机选择一个以上的遮挡物，并将所述遮挡物添加到所述脸部区域图像的随机区域，得到遮挡图像；利用所述初始图像和所述遮挡图像构成图像对，并采用U‑Net网络分别对所述图像对进行训练，得到人脸解析模型；利用所述人脸解析模型对待处理图像进行预测，得到待处理图像的分割结果图；并可适用于根据预测结果对待处理图像进行上妆处理等应用场景，极大的提高了人脸解析与分割处理的实时性和鲁棒性，适用范围更广。

Description

人脸可见区域解析与分割方法、人脸上妆方法及移动终端

技术领域

本发明涉及图像处理技术领域，特别是一种人脸可见区域解析与分割方法及其应用该方法的人脸上妆方法、移动终端及计算机可读存储介质。

背景技术

人脸解析，人脸解析，是将人的头部包含人脸五官构成进行分解，得到人脸的各个面部区域解析结果，包括但不限于以下17种语义区域：背景、脸部、皮肤、左/右眉毛、左/右眼睛、鼻子、上嘴唇/嘴内部/下嘴唇、左/右耳朵、脖子、眼镜和墨镜；不同的部位用不同颜色予以标注。

但是，现有的人脸方法主要存在以下缺点：一是耗时大，几乎都需要依靠强大的GPU、例如英伟达1080TI、英伟达TITIAN等，并没有针对移动端(运行iOS或者Android，尤其Android硬件能力更差，实时更困难)的开发；二是过度专注于学术数据集，对于现实中可能出现的各种遮挡情况不够鲁棒。

发明内容

本发明的主要目的在于提供了一种人脸可见区域解析与分割方法、人脸上妆方法及移动终端，旨在提高人脸解析与分割处理的鲁棒性，并且还具备实时性，更适于移动终端。

本发明的目的之一，在于提供了一种人脸可见区域解析与分割方法，其包括以下步骤：

A.获取样本图像的脸部区域图像，得到初始图像；

B.从素材库中随机选择一个以上的遮挡物，并将所述遮挡物添加到所述脸部区域图像的随机区域，得到遮挡图像；

C.利用所述初始图像和所述遮挡图像构成图像对，并采用U-Net网络分别对所述图像对进行训练，得到人脸解析模型；

D.利用所述人脸解析模型对待处理图像进行预测，得到待处理图像的分割结果图。

优选的，所述的步骤A中，是通过对样本图像进行对齐处理，并基于对齐后的样本图像进行裁剪，得到所述脸部区域图像；所述的步骤D中，也通过对待处理图像进行对齐处理，并基于对齐后的待处理图像进行裁剪，得到待处理的的脸部区域图像，将所述待处理的脸部区域图像输入所述人脸解析模型中进行预测。

优选的，所述的步骤B中，还包括对所述遮挡物施加一种以上的变形处理，所述变形处理包括旋转变形、缩放变形；所述缩放变形是根据遮挡物的大小和脸部的大小的比例，对所述遮挡物进行缩放变形。

进一步的，所述的步骤B中，所述随机区域包括眉毛区域、眼睛区域、鼻子区域、嘴巴区域中的一个以上五官区域，并对所述五官区域进行区域切分，对切分后的区域添加所述遮挡物。

优选的，所述的步骤C中，所述人脸解析模型是在损失函数的指导下进行学习和训练；所述损失函数如下：

L＝a*L_ohem+b*L_dice+c*L_pairs；

其中，损失函数中的a、b、c分别表示系数权重；

L_ohem表示预测结果的OHEM损失度量；

L_dice表示预测结果的Dice损失度量；

L_pairs表示所述初始图像和所述遮挡图像构成的图像对的预测结果的差异度量，所述差异度量采用Contrastive损失计算。

进一步的，所述的步骤C中，对所述图像对进行训练之前，还包括动态选择所述图像对的语义区域，并根据选择的语义区域进行训练；所述语义区域的选择方法是通过对每个语义区域标注对应的数值，通过选择数值类型进行动态选择对应的语义区域。

优选的，所述的步骤D中，使用人脸关键点对前后帧图像进行网格对齐处理，并对前后帧图像的解析结果进行融合，得到平滑后的预测结果。

本发明的目的之二，还在所述人脸可见区域解析与分割方法的基础上，提供一种人脸上妆方法，其包括以下步骤：

根据上述任一项所述的人脸可见区域解析与分割方法获得待处理图像的分割结果图；

将所述分割结果图与所述待处理图像进行叠加处理，得到待上妆区域；

将妆容素材图与所述待上妆区域进行叠加处理，得到上妆效果图。

本发明的目的之三，还在于提供一种移动终端，所述移动终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像处理程序，所述图像处理程序被所述处理器执行时实现如上述任一项所述的人脸可见区域解析与分割方法的步骤和/或实现如上所述的人脸上妆方法的步骤。

本发明的目的之四，还在于提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像处理程序，所述图像处理程序被处理器执行时实现如上述任一项所述的人脸可见区域解析与分割方法的步骤和/或实现如上所述的人脸上妆方法的步骤。

本发明的有益效果是：

(1)针对遮挡的鲁棒性，本发明在训练过程中添加了随机遮挡物，并且采用成对的数据形式，使预测结果更稳定；

(2)针对移动设备的实时性，本发明设计了满足需求的轻量级神经网络，结合多种监督函数进行联合训练，极大的提高了计算效率；

(3)本发明可以动态的选择解析区域进行分割，能够进一步提高实时性、抗遮挡鲁棒的效果；

(4)实际应用场景存在各种不同的噪声，导致网络的预测结果存在明显的跳动现象，本发明还提出基于网格对齐的平滑后处理，进一步提升轻量型网络预测结果的稳定性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明第一实施例的人脸可见区域解析与分割方法的训练过程示意图；

图2为本发明第一实施例的人脸可见区域解析与分割方法的预测过程示意图；

图3-a是本发明第一实施例的初始图像示意图；

图3-b是本发明第一实施例的遮挡图像示意图；

图4-a是图3-a对应的分割真值图；

图4-b是图3-b对应的分割真值图；

图5是图3-a仅选取双眼鼻子嘴巴区域的对应的分割真值图；

图6是本发明第一实施例的U-Net模型的输入输出关系图；

图7为本发明第一实施例的平滑处理过程示意图；

图8为本发明第二实施例的人脸上妆方法的初始图像示意图；

图9为本发明第二实施例的人脸上妆方法的妆容素材图；

图10为本发明第二实施例的人脸上妆方法的分割结果图；

图11为本发明第二实施例的人脸上妆方法的待上妆区域示意图；

图12为本发明第二实施例的人脸上妆方法的上妆效果图；

图13为现有技术的人脸上妆方法的上妆效果图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例(人脸分割方法)

如图1和图2所示，本实施例提供了一种人脸可见区域解析与分割方法，其包括以下步骤：

A.获取样本图像的脸部区域图像，得到初始图像；

C.利用所述初始图像和所述遮挡图像构成图像对(如图3-a和图3-b)，并采用U-Net网络分别对所述图像对进行训练，得到人脸解析模型；

D.利用所述人脸解析模型对待处理图像进行预测(如图2所示)，得到待处理图像的分割结果图(如图4-a和图4-b)。

本实施例中，所述分割结果图是指分割真值图。一张初始图像可通过添加一个或多个遮挡物，并且添加至一个以上的随机区域，得到一个以上的遮挡图像，并对所述遮挡图像进行不断迭代的训练。

所述的步骤A中，是通过对样本图像进行对齐处理，并基于对齐后的样本图像进行裁剪，得到所述脸部区域图像；所述的步骤D中，也通过对待处理图像进行对齐处理，并基于对齐后的待处理图像进行裁剪，得到待处理的的脸部区域图像，将所述待处理的脸部区域图像输入所述人脸解析模型中进行预测。

所述的步骤B中，所述遮挡物是有针对性的，因为考虑到五官区域往往是上妆的重点区域，需要着重关注该五官区域的遮挡情况。因此，本实施例所述随机区域包括眉毛区域、眼睛区域、鼻子区域、嘴巴区域中的一个以上五官区域，并对所述五官区域进行区域切分，对切分后的区域添加所述遮挡物。所述遮挡物包括预先裁剪好的手指、手掌、等躯体，还包括日常生活中出现的常用物品，如杯子、口红、笔之类；从而使所述素材库的类别保持丰富，预先设计实际拍照场景可能出现的各种情况。

还包括对所述遮挡物施加一种以上的变形处理，所述变形处理包括旋转变形、缩放变形；所述缩放变形是根据遮挡物的大小和脸部的大小的比例，对所述遮挡物进行缩放变形，用来符合现实认知。通过上述操作后可以额外获得眼睛遮挡数据集、眉毛遮挡数据集、鼻子遮挡数据集、嘴巴遮挡数据集等补充数据，更有利于本实施例的深度学习模型训练，以五官区域为着重点，达到精确分割解析的目的。

所述的步骤C中，所述人脸解析模型是在损失函数的指导下进行学习和训练；所述损失函数如下：

L＝a*L_ohem+b*L_dice+c*L_pairs；

其中，损失函数中的a、b、c分别表示系数权重；

L_ohem表示预测结果的OHEM损失度量；

L_dice表示预测结果的Dice损失度量；

L_pairs表示所述初始图像和所述遮挡图像构成的图像对的预测结果的差异度量，所述差异度量采用Contrastive损失(对比损失)计算。

如图6所示，初始图像和遮挡图像是分别进行训练的，然后每个图像对的分割结果再去计算损失函数，目的就是要让二者相同的部分的预测结果是一致的；即，对于一张图像的初始图像和遮挡图像，它们没有遮挡的区域的预测结果应该是一样的，而有遮挡的区域反之预测结果应该是不一样的。正是因为如此我们考虑使用了Contrastive Loss(对比损失)，用于满足我们的这种预期。

本实施例中，训练网络采用基于encoder-decoder的U-Net网络，U-Net网络结构像U型，整体的流程是编码和解码(encoder-decoder)，其包括两部分：

1)特征提取部分：每经过一个池化层就一个尺度，包括原图尺度一共有5个尺度。

2)上采样部分：每上采样一次，就和特征提取部分对应的通道数相同尺度融合，但是融合之前对其进行crop处理。

U-Net更专注于生成的效果，在目标明确的情况下使用U-Net做监督训练可以快速收敛、并且部署到移动端设备的时候，耗时更低。

本实施例中，对所述图像对进行训练之前，还包括动态选择所述图像对的语义区域，并根据选择的语义区域进行训练；所述语义区域的选择方法是通过对每个语义区域标注对应的数值，通过选择数值类型进行动态选择对应的语义区域。本实施例可以动态的选择解析区域进行分割，也就是说，如果只想要鼻子眼睛嘴巴，可以在训练模型的时候选择这三个区域，同样能达到实时、抗遮挡鲁棒的效果。如图5所示为仅选择双眼区域、鼻子区域和嘴巴区域的分割真值图。一旦选择之后，训练出来的模型就可支持该特定区域的预测，从而可根据不同的实际应用场景去进行选择，做到个性化、针对化。

本实施例支持对解析区域进行自定义选择，通过随机素材遮挡数据构造训练数据对，结合多种损失监督，可以训练出精妙的轻量级模型。该模型可以在移动设备上进行实时计算，即使硬件性能较差的安卓手机也不在话下。对于骁龙660的移动设备，单次计算时间低于10毫秒。并且，对于遮挡鲁棒性有较大提升。

所述的步骤D中，使用人脸关键点对前后帧图像进行网格对齐处理，并对前后帧图像的解析结果进行融合，得到平滑后的预测结果。如图7所示，本实施例的网格对齐处理主要采用grid_sample()函数，利用平滑后处理使得帧间结果更稳定。

第二实施例(人脸上妆方法)

人脸解析的准确性对于以人脸为中心的分析相当重要，可以应用在表情分析、虚拟现实、妆容特效等领域。本实施例还在所述人脸可见区域解析与分割方法的基础上，提供一种人脸上妆方法，其包括以下步骤：

根据上述任一项所述的人脸可见区域解析与分割方法获得待处理图像(如图8所示)的分割结果图(如图10所示)；

将所述分割结果图与所述待处理图像进行叠加处理，得到待上妆区域(如图11所示)；

将妆容素材图(如图9所示)与所述待上妆区域进行叠加处理，得到上妆效果图(如图12所示)。

其中，所述分割结果图是一张灰度图，每个像素点的范围为0-1，1代表未遮挡置信度，0代表了遮挡置信度。即，分割结果图的某个点的值越高，表示其处于遮挡位置的可能性越低；因此，基于每个像素点的遮挡置信度，就可以判断出待处理图像的遮挡区域以及遮挡严重情况，并对该图像进行上妆，得到真实合理的人脸上妆图。

采用本实施例的人脸上妆方法，可以在非遮挡区域进行上妆，例如对于遮挡的手指则可以跳过，从而达到以假乱真的超真实用户体验。对于每一张待处理图像，都可采用本发明的方法得到对应的分割结果图，作为一个先验条件，那么所选择的妆容素材图只需要按照这个分割结果图所指定的区域去上妆即可。需要注意的是，该妆容素材图并不唯一。

第三实施例(具有图像处理功能或虚拟化妆功能的移动终端)

本实施例还提供一种移动终端，所述移动终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像处理程序，所述图像处理程序被所述处理器执行时实现如上述任一项所述的人脸可见区域解析与分割方法的步骤和/或实现如上所述的人脸上妆方法的步骤。

所述移动终端包括：手机、数码相机或平板电脑等具有拍照功能的移动终端，或者具有图像处理功能的移动终端，或者具有图像显示功能的移动终端。所述移动终端可包括存储器、处理器、输入单元、显示单元、电源等部件。

其中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像播放功能等)等；存储数据区可存储根据移动终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符或图像信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，本实施例的输入单元除了包括摄像头，还可包括触敏表面(例如触摸显示屏)以及其他输入移动终端。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及移动终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类型，随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。

第四实施例(存储有图像处理程序或虚拟上妆程序的存储介质)

本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有图像处理程序，所述图像处理程序被处理器执行时实现如上述任一项所述的人脸可见区域解析与分割方法的步骤和/或实现如上所述的人脸上妆方法的步骤。

所述计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入移动终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以上所述的人脸可见区域解析与分割方法。所述计算机可读存储介质可以是只读存储器，磁盘或光盘等。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于移动终端实施例及存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种人脸可见区域解析与分割方法，其特征在于，包括以下步骤：

A.获取样本图像的脸部区域图像，得到初始图像；

2.根据权利要求1所述的一种人脸可见区域解析与分割方法，其特征在于：所述的步骤A中，是通过对样本图像进行对齐处理，并基于对齐后的样本图像进行裁剪，得到所述脸部区域图像；所述的步骤D中，也通过对待处理图像进行对齐处理，并基于对齐后的待处理图像进行裁剪，得到待处理的的脸部区域图像，将所述待处理的脸部区域图像输入所述人脸解析模型中进行预测。

3.根据权利要求1所述的一种人脸可见区域解析与分割方法，其特征在于：所述的步骤B中，还包括对所述遮挡物施加一种以上的变形处理，所述变形处理包括旋转变形、缩放变形；所述缩放变形是根据遮挡物的大小和脸部的大小的比例，对所述遮挡物进行缩放变形。

4.根据权利要求1或3所述的一种人脸可见区域解析与分割方法，其特征在于：所述的步骤B中，所述随机区域包括眉毛区域、眼睛区域、鼻子区域、嘴巴区域中的一个以上五官区域，并对所述五官区域进行区域切分，对切分后的区域添加所述遮挡物。

5.根据权利要求1所述的一种人脸可见区域解析与分割方法，其特征在于：所述的步骤C中，所述人脸解析模型是在损失函数的指导下进行学习和训练；所述损失函数如下：

L＝a*L_ohem+b*L_dice+c*L_pairs；

其中，损失函数中的a、b、c分别表示系数权重；

L_ohem表示预测结果的OHEM损失度量；

L_dice表示预测结果的Dice损失度量；

6.根据权利要求1或5所述的一种人脸可见区域解析与分割方法，其特征在于：所述的步骤C中，对所述图像对进行训练之前，还包括动态选择所述图像对的语义区域，并根据选择的语义区域进行训练；所述语义区域的选择方法是通过对每个语义区域标注对应的数值，通过选择数值类型进行动态选择对应的语义区域。

7.根据权利要求1所述的一种人脸可见区域解析与分割方法，其特征在于：所述的步骤D中，使用人脸关键点对前后帧图像进行网格对齐处理，并对前后帧图像的解析结果进行融合，得到平滑后的预测结果。

8.一种人脸上妆方法，其特征在于，包括以下步骤：

根据权利要求1至7任一项所述的人脸可见区域解析与分割方法获得待处理图像的分割结果图；

9.一种移动终端，其特征在于，所述移动终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像处理程序，所述图像处理程序被所述处理器执行时实现如权利要求1至7任一项所述的人脸可见区域解析与分割方法的步骤和/或实现如权利要求8所述的人脸上妆方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有图像处理程序，所述图像处理程序被处理器执行时实现如权利要求1至7任一项所述的人脸可见区域解析与分割方法的步骤和/或实现如权利要求8所述的人脸上妆方法的步骤。