CN113902611A

CN113902611A - 图像美颜处理方法、装置、存储介质与电子设备

Info

Publication number: CN113902611A
Application number: CN202111176571.7A
Authority: CN
Inventors: 朱家成
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-10-09
Filing date: 2021-10-09
Publication date: 2022-01-07

Abstract

本公开提供一种图像美颜处理方法、装置、存储介质与电子设备，涉及图像与视频处理技术领域。该图像美颜处理方法包括：获取待美颜人脸图像；通过预先训练的深度神经网络对所述待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，所述三维网格是对所述待美颜人脸图像的空域与像素值域所形成的三维空间进行划分而得到的；利用所述信息矩阵对所述待美颜人脸图像进行处理，得到所述待美颜人脸图像对应的美颜人脸图像。本公开改善了图像美颜效果，并降低了计算量。

Description

图像美颜处理方法、装置、存储介质与电子设备

技术领域

本公开涉及图像与视频处理技术领域，尤其涉及一种图像美颜处理方法、图像美颜处理装置、计算机可读存储介质与电子设备。

背景技术

美颜是指利用图像处理技术对图像或视频中的人像进行美化处理，以更好地满足用户的审美需求。

相关技术中，图像美颜处理通常包括固定的多个算法流程，例如基于人为设计的图像特征计算、空间滤波处理、图层融合等。然而，实际拍摄场景中可能面临复杂多样的光照条件，且拍摄对象的皮肤状况多种多样，采用上述方法无法较好地应对不同的情况，导致美颜效果不理想。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种图像美颜处理方法、图像美颜处理装置、计算机可读存储介质与电子设备，进而至少在一定程度上改善图像美颜效果。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种图像美颜处理方法，包括：获取待美颜人脸图像；通过预先训练的深度神经网络对所述待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，所述三维网格是对所述待美颜人脸图像的空域与像素值域所形成的三维空间进行划分而得到的；利用所述信息矩阵对所述待美颜人脸图像进行处理，得到所述待美颜人脸图像对应的美颜人脸图像。

根据本公开的第二方面，提供一种图像美颜处理装置，包括：图像获取模块，被配置为获取待美颜人脸图像；信息矩阵生成模块，被配置为通过预先训练的深度神经网络对所述待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，所述三维网格是对所述待美颜人脸图像的空域与像素值域所形成的三维空间进行划分而得到的；美颜处理模块，被配置为利用所述信息矩阵对所述待美颜人脸图像进行处理，得到所述待美颜人脸图像对应的美颜人脸图像。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的图像美颜处理方法及其可能的实施方式。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面的图像美颜处理方法及其可能的实施方式。

本公开的技术方案具有以下有益效果：

基于本公开的图像美颜处理方法，一方面，通过深度神经网络的处理实现去瑕疵或其他美颜功能，以替代相关技术中固定的多个算法流程，增加了图像美颜处理的灵活性，适用于多样的光照条件或皮肤状况，改善了图像美颜效果，并且降低了耗时与内存占用。另一方面，本方案中的深度神经网络输出信息矩阵，并不直接输出美颜后的图像，由此减少了深度神经网络的计算量，有利于实现轻量化的网络，降低方案的实现成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中一种系统架构的示意图；

图2示出本示例性实施方式中一种电子设备的结构示意图；

图3示出本示例性实施方式中一种图像美颜处理方法的流程图；

图4示出本示例性实施方式中一种生成待美颜人脸图像的流程图；

图5示出本示例性实施方式中一种获取待确定人脸的稳定包围盒的流程图；

图6示出本示例性实施方式中一种组合原始人脸子图像的示意图；

图7示出本示例性实施方式中一种深度神经网络以及图像美颜处理的示意图；

图8示出本示例性实施方式中一种获得信息矩阵的流程图；

图9示出本示例性实施方式中根据美颜信息矩阵得到美颜人脸图像的流程图；

图10示出本示例性实施方式中一种训练深度神经网络的流程图；

图11示出本示例性实施方式中一种边界区域渐变处理的示意图；

图12示出本示例性实施方式中一种图像美颜处理方法的示意性流程图；

图13示出本示例性实施方式中一种图像美颜处理装置的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

人像去瑕疵是图像美颜处理的一部分，通常是图像美颜处理中的第一阶段处理。人像去瑕疵包括但不限于祛斑祛痘、祛眼袋、显脏嘴角处理、光影平整、干燥唇纹处理等。在人像去瑕疵之后，可以继续进行磨皮、肤色调整、五官形变、亮度调整等处理。

相关技术中，人像去瑕疵的效果依赖于人为设计的图像特征计算。而人为设计的图像特征计算难以应对实际应用中的所有情况，通常难以准确、充分地检测出皮肤上的瑕疵，导致人像瑕疵去除不干净。并且，相关技术还存在人像去瑕疵后皮肤不真实的问题，例如人脸的痣被去除后与周围的皮肤形成反差，导致看上去不自然。

鉴于上述一个或多个问题，本公开的示例性实施方式提供一种图像美颜处理方法。下面结合图1对本示例性实施方式运行环境的系统架构与应用场景进行示例性说明。

图1示出了系统架构的示意图，该系统架构100可以包括终端110与服务器120。其中，终端110可以是智能手机、平板电脑、台式电脑、笔记本电脑等终端设备，服务器120泛指提供本示例性实施方式中图像美颜相关服务的后台系统，可以是一台服务器或多台服务器形成的集群。终端110与服务器120之间可以通过有线或无线的通信链路形成连接，以进行数据交互。

在一种实施方式中，终端110可以拍摄或者通过其他方式获取待美颜的图像或视频，将其上传至服务器120。例如，用户在终端110上打开美颜App(Application，应用程序)，从相册中选取待美颜的图像或视频，将其上传至服务器120以进行美颜，或者用户在终端110上打开直播App中的美颜功能，将实时采集的视频上传至服务器120以进行美颜。服务器120执行上述图像美颜处理方法，以得到经过美颜的图像或视频，并返回终端110。

在一种实施方式中，服务器120可以执行对深度神经网络的训练，将经过训练的深度神经网络发送至终端110进行部署，例如将该深度神经网络的相关数据打包在上述美颜App或直播App的更新包中，使终端110通过更新App而获得该深度神经网络并部署在本地。进而，终端110在拍摄或者通过其他方式获取待美颜的图像或视频后，可以通过执行上述图像美颜处理方法，调用该深度神经网络实现图像或视频的美颜处理。

在一种实施方式中，可以由终端110执行对深度神经网络的训练，例如从服务器120处获取深度神经网络的基本架构，通过本地的数据集进行训练，或者从服务器120处获取数据集，对本地构建的深度神经网络进行训练，或者完全不依赖服务器120而训练得到深度神经网络。进而，终端110可以通过执行上述图像美颜处理方法，调用该深度神经网络实现图像或视频的美颜处理。

由上可知，本示例性实施方式中的图像美颜处理方法的执行主体可以是上述终端110或服务器120，本公开对此不做限定。

本公开的示例性实施方式还提供一种用于执行上述深度神经网络训练方法或图像美颜处理方法的电子设备，该电子设备可以是上述终端110或服务器120。下面以图2中的移动终端200为例，对上述电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图2中的构造也能够应用于固定类型的设备。

如图2所示，移动终端200具体可以包括：处理器201、存储器202、总线203、移动通信模块204、天线1、无线通信模块205、天线2、显示屏206、摄像模块207、音频模块208、电源模块209与传感器模块210。

处理器201可以包括一个或多个处理单元，例如：处理器201可以包括AP(Application Processor，应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit，图形处理器)、ISP(Image Signal Processor，图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor，数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit，神经网络处理器)等。本示例性实施方式中的深度神经网络可以运行于GPU、DSP或NPU上，DSP与NPU通常以int型数据(整数型)运行深度神经网络，GPU通常以float型数据(浮点型)运行深度神经网络，相较而言，DSP与NPU上运行的功耗较低，响应速度较快，精度较低，GPU上运行的功耗较高，响应速度较满，精度较高。实际应用中，可以根据设备性能与实际需求选择合适的处理单元运行深度神经网络，例如在对视频中的图像进行实时美颜时，由于对速度要求较高，可以选择DSP或NPU来运行深度神经网络。

编码器可以对图像或视频数据进行编码(即压缩)，形成对应的码流数据，以减少数据传输所占的带宽；解码器可以对图像或视频的码流数据进行解码(即解压缩)，以还原出图像或视频数据。移动终端200可以处理多种编码格式的图像或视频，例如：JPEG(JointPhotographic Experts Group，联合图像专家组)、PNG(Portable Network Graphics，便携式网络图形)、BMP(Bitmap，位图)等图像格式，MPEG(Moving Picture Experts Group，动态图像专家组)1、MPEG2、H.263、H.264、HEVC(High Efficiency Video Coding，高效率视频编码)等视频格式。

处理器201可以通过总线203与存储器202或其他部件形成连接。

存储器202可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器201通过运行存储在存储器202的指令，执行移动终端200的各种功能应用以及数据处理。存储器202还可以存储应用数据，例如存储图像，视频等文件。

移动终端200的通信功能可以通过移动通信模块204、天线1、无线通信模块205、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块204可以提供应用在移动终端200上2G、3G、4G、5G等移动通信解决方案。无线通信模块205可以提供应用在移动终端200上的无线局域网、蓝牙、近场通信等无线通信解决方案。

显示屏206用于实现显示功能，如显示用户界面、图像、视频等。摄像模块207用于实现拍摄功能，如拍摄待美颜人脸图像或待美颜原始图像等。音频模块208用于实现音频功能，如播放音频，采集语音等。电源模块209用于实现电源管理功能，如为电池充电、为设备供电、监测电池状态等。传感器模块210可以包括深度传感器2101、压力传感器2102、陀螺仪传感器2103、气压传感器2104等，以实现相应的感应检测功能。

下面结合图3对本示例性实施方式中的图像美颜处理方法进行说明，图3示出了该图像美颜处理方法的示例性流程，可以包括：

步骤S310，获取待美颜人脸图像；

步骤S320，通过预先训练的深度神经网络对待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，三维网格是对待美颜人脸图像的空域与像素值域所形成的三维空间进行划分而得到的；

步骤S330，利用信息矩阵对待美颜人脸图像进行处理，得到待美颜人脸图像对应的美颜人脸图像。

深度神经网络(Deep Neural Network，DNN)用于输出信息矩阵，信息矩阵用于实现美颜功能，也就是说，深度神经网络用于间接实现美颜功能。本示例性实施方式中，深度神经网络可以被训练为实现任意一种美颜功能或任意多种美颜功能的组合，美颜功能包括但不限于去瑕疵(如祛斑、祛痘、祛眼袋)、形变、肤色调整、磨皮、光影调整、显脏嘴角处理、唇部处理等。由此，可以将图3的图像美颜处理方法作为一个阶段的美颜处理，在图3的图像美颜处理方法之前或之后，增加其他阶段的美颜处理。例如，深度神经网络用于对待美颜人脸图像进行去瑕疵处理。在获取待美颜人脸图像后，通过图3的图像美颜处理方法进行处理，得到的美颜人脸图像为去瑕疵美颜图像。后续还可以对去瑕疵美颜图像进行个性化美颜处理，得到最终的美颜图像。

一般的，去瑕疵处理对于图像美颜来说是必需的，且用户对于去瑕疵处理的需求较为固定化，可以通过图3的图像美颜处理方法实现通用化的去瑕疵美颜处理流程。相比之下，磨皮、形变、立体、肤色调整、光影调整等美颜功能不是必需的，且用户对于这些美颜功能的具体需求也呈现个性化的特点，可以将这些美颜功能称为个性化美颜处理，通常需要用户进行具体的设置后进行处理，例如用户选择其中的一种或多种美颜功能，并设置磨皮度、形变度等参数，然后由终端或服务器根据用户的设置进行处理。

需要说明的是，本公开对于图3的图像美颜处理与其他美颜处理的先后顺序不做限定。例如可以先对图像进行个性化美颜处理，得到中间美颜图像，再以中间美颜图像作为待美颜人脸图像，执行图3的图像美颜处理方法，得到的美颜人脸图像为最终输出的美颜图像。

基于上述图像美颜处理方法，一方面，通过深度神经网络的处理实现去瑕疵或其他美颜功能，以替代相关技术中固定的多个算法流程，增加了图像美颜处理的灵活性，适用于多样的光照条件或皮肤状况，改善了图像美颜效果，并且降低了耗时与内存占用。另一方面，本方案中的深度神经网络输出信息矩阵，并不直接输出美颜后的图像，由此减少了深度神经网络的计算量，有利于实现轻量化的网络，降低方案的实现成本。

下面对图3中的每个步骤做具体说明。

参考图3，在步骤S310中，获取待美颜人脸图像。

其中，待美颜人脸图像可以是拍摄的待美颜原始图像，也可以是待美颜原始图像经过一定处理后的图像，例如，待美颜原始图像包括较多的人脸以外的其他图像内容，这些图像内容不需要进行美颜处理，因此可以从待美颜原始图像中截取人脸部分，作为待美颜人脸图像。

在一种实施方式中，待美颜人脸图像可以是连续多帧图像中的一帧或多帧图像。其中，连续多帧图像可以是视频，也可以是连拍的图像等。该连续多帧图像为需要进行美颜处理的对象。以视频为例，其可以是当前实时拍摄或实时接收的视频流，也可以是已完成拍摄或接收的完整视频，如本地存储的一段视频。本公开对于视频的帧率、图像分辨率等参数不做限定，例如视频帧率可以采用30fps(帧每秒)、60fps、120fps等，图像分辨率可以采用720P、1080P、4K等以及对应的不同宽高比。可以对视频中的每一帧图像均进行美颜处理，也可以从视频中筛选出一部分图像进行美颜处理，将需要进行美颜处理的图像作为上述待美颜原始图像或待美颜人脸图像。举例来说，实时接收视频流时，可以将所接收的每一帧图像均作为待美颜人脸图像。

在一种实施方式中，参考图4所示，上述获取待美颜人脸图像，可以包括以下步骤S410和S420：

步骤S410，从待美颜原始图像中提取一张或多张原始人脸子图像。

原始人脸子图像是在待美颜原始图像中截取人脸部分所得到的子图像。本示例性实施方式对于待美颜原始图像中的人脸数量不做限定，例如待美颜原始图像中包括多张人脸时，可以提取多张原始人脸子图像，并通过后续步骤的处理，实现同时美颜多张人脸。

在一种实施方式中，上述从待美颜原始图像中提取一张或多张原始人脸子图像，可以包括以下步骤：

根据在待美颜原始图像中识别到的人脸关键点，在待美颜原始图像中生成一个或多个人脸的包围盒；

保留面积大于或等于人脸面积阈值的包围盒，并截取包围盒内的图像，得到一张或多张原始人脸子图像。

其中，人脸关键点可以包括人脸关键部位以及人脸边缘的点。包围盒(BoundingBox)是指图像中包围人脸、且具有一定几何形状的区域，本公开对于包围盒的形状不做限定，如可以是矩形、梯形等任意形状。每张人脸的人脸关键点均处于包围盒内。在一种实施方式中，包围盒可以是包括人脸关键点的最小矩形。

一般的，通过人脸检测算法可以在待美颜原始图像中检测出所有的人脸，其中可能包括不需要美颜的人脸(例如远处路人的人脸)，考虑到在图像美颜的场景中，通常需要对较大的人脸进行美颜(较小的人脸美颜后效果不明显，因此通常无需进行美颜)，因此可以通过人脸面积阈值对包围盒进行过滤。可以根据经验或者待美颜原始图像的大小，设置人脸面积阈值，示例性的，人脸面积阈值可以是待美颜原始图像的尺寸*0.05；如果包围盒的面积大于或等于人脸面积阈值，则为需要美颜的人脸，保留该包围盒；如果包围盒的面积小于人脸面积阈值，则为不需要美颜的人脸，删除该包围盒。

在对包围盒完成过滤后，所保留的包围盒为有效人脸的包围盒。截取每个包围盒内的图像，得到与包围盒数量相同的原始人脸子图像。

在一种实施方式中，为便于后续对原始人脸子图像进行组合，可以设置原始人脸子图像的数量上限，即设置包围盒的数量上限。如可以设置为4，如果经过上述人脸面积阈值的过滤后，所保留的包围盒数量大于4，则可以从中选取4个包围盒，如可以是面积最大的4个包围盒，也可以是距离待美颜原始图像的中心最近的4个包围盒，对应截取4张原始人脸子图像，对于其他包围盒内的人脸不进行美颜；或者可以进行多次美颜处理，本次处理中选取4个包围盒并截取原始人脸子图像进行美颜，下次处理中选取其他的包围盒并截取原始人脸子图像进行美颜，从而完成对待美颜原始图像中所有面积大于人脸面积阈值的包围盒内的人脸进行美颜。

在一种实施方式中，在截取包围盒内的图像前，还可以对包围盒进行扩大处理，使包围盒包括少量的人脸以外的区域，以便于后续进行图像融合时进行渐变处理。在进行扩大处理时，可以按照预设比例将包围盒向一个或多个方向扩大。例如，预设比例为1.1，将包围盒按照向四周均匀扩大，使扩大后的包围盒尺寸为原尺寸的1.1倍。需要说明的是，在对包围盒进行扩大处理时，如果包围盒的一个或多个边界到达待美颜原始图像的边界，则使包围盒的该边界停留在待美颜原始图像的边界处。

针对待美颜原始图像为连续多帧图像中的一帧或多帧图像的情况，可以基于连续多帧图像中的其他帧图像的信息进行原始人脸子图像的提取。在一种实施方式中，将待美颜原始图像中的人脸与待美颜原始图像的参考帧图像中的人脸进行匹配，根据匹配结果确定待美颜原始图像中的人脸的稳定包围盒；基于待美颜原始图像中的人脸的稳定包围盒，从待美颜原始图像中提取原始人脸子图像。

其中，将初始检测出的人脸的包围盒称为基础包围盒，例如可以是包括人脸关键点的最小矩形、或者通过相关算法得到的人脸框。对基础包围盒进行优化，例如扩展、位置修正等，将优化后的包围盒称为稳定包围盒。

本示例性实施方式中，可以对待美颜原始图像进行人脸检测，以得到人脸的相关信息，本公开对于人脸检测算法不做限定，例如可以通过特定的神经网络检测人脸关键点，包括脸部边界的关键点，根据脸部边界的关键点生成人脸的基础包围盒，通过优化得到稳定包围盒。

参考帧图像可以是上述连续多帧图像中已确定人脸稳定包围盒或者已完成美颜处理的任一帧图像，例如在对视频进行逐帧美颜处理时，可以将待美颜原始图像的上一帧图像作为参考帧图像。通过匹配待美颜原始图像与参考帧图像中的人脸，可以基于参考帧图像中的人脸的稳定包围盒，确定待美颜原始图像中的人脸的稳定包围盒。

在一种实施方式中，参考图5所示，上述将待美颜原始图像中的人脸与待美颜原始图像的参考帧图像中的人脸进行匹配，根据匹配结果确定待美颜原始图像中的人脸的稳定包围盒，可以包括以下步骤S510至S530：

步骤S510，检测待美颜原始图像中的人脸，记为待确定人脸，将待确定人脸与待美颜原始图像的参考帧图像中的已确定人脸进行匹配。

其中，待确定人脸是指需要进行美颜、但未被确定稳定包围盒的人脸，可视为身份未知的人脸，已确定人脸是指已被确定稳定包围盒的人脸，可视为身份已知的人脸。参考帧图像中已被确定稳定包围盒的人脸均为已确定人脸。相对应的，待美颜原始图像中所检测出的人脸为未被确定稳定包围盒的人脸，即待确定人脸。将待美颜原始图像中的待确定人脸与参考帧图像中的已确定人脸进行匹配，可以推断待确定人脸的稳定包围盒与该待确定人脸匹配的已确定人脸的稳定包围盒之间具有相关性，可以由此确定待确定人脸的稳定包围盒。

在一种实施方式中，可以根据经验或者待美颜原始图像的大小，设置人脸面积阈值；如果人脸的基础包围盒的面积大于或等于人脸面积阈值，则为需要美颜的人脸，可以将该人脸的基础包围盒等信息予以保留，也可以将该人脸记为待确定人脸；如果人脸的基础包围盒的面积小于人脸面积阈值，则为不需要美颜的人脸，可以删除该人脸的基础包围盒等相关信息，不对其进行后续处理。

在一种实施方式中，为便于后续对原始人脸子图像进行处理，例如对原始人脸子图像进行组合处理，或者考虑到设备性能的限制，可以设置原始人脸子图像的数量上限，即设置待确定人脸的数量上限。如可以设置为4，如果经过上述人脸面积阈值的过滤后，所保留的人脸的数量大于4，则可以从中进一步筛选出4张待确定人脸，如可以是面积最大的4张人脸，也可以是距离待美颜原始图像的中心最近的4张人脸，这样在后续对应截取4张原始人脸子图像，对于其他人脸则不进行后续处理。或者，可以进行多次美颜处理，本次处理中选取4张人脸作为待确定人脸，截取其对应的原始人脸子图像并进行美颜处理，下次处理中选取其他人脸作为待确定人脸，并截取其对应的原始人脸子图像进行美颜处理，从而完成对待处理图像中所有面积大于人脸面积阈值的基础包围盒内的人脸进行美颜处理。

在一种实施方式中，为便于跟踪与识别连续多帧图像中的人脸，可以对每一张人脸分配ID(Identity Document，标识)。例如，从第一帧开始，为每一张人脸分配ID；后续在每一帧中检测出人脸后，将每一张人脸与上一帧中的人脸进行匹配；如果匹配成功，则继承上一帧中的人脸ID与其他相关信息；如果匹配不成功，则作为新的人脸，分配新的ID。

本公开对于匹配待确定人脸与已确定人脸的方式不做限定，例如可以采用人脸识别算法，将每一张待确定人脸与每一张已确定人脸进行识别比对，如果相似度高于预设的相似度阈值，则确定待确定人脸与已确定人脸匹配成功。

在一种实施方式中，可以根据待确定人脸的基础包围盒与已确定人脸的基础包围盒的重叠度(Intersection Over Union，IOU，也称为交并比)，确定待确定人脸与已确定人脸是否匹配成功。下面提供计算重叠度的示例性方式：

获取待确定人脸的基础包围盒在待美颜原始图像中的位置，以及已确定人脸的基础包围盒在参考帧图像中的位置，统计两个基础包围盒中位置重合的像素点数量，记为k1，以及位置不重合的像素点数量，记为k2(表示待确定人脸的基础包围盒中与已确定人脸的基础包围盒不重合的像素点数量)与k3(表示已确定人脸的基础包围盒中与未确定人脸的基础包围盒不重合的像素点数量)，则两个基础包围盒的重叠度为：

在确定重叠度后，如果该重叠度达到预设的重叠度阈值，则确定该待确定人脸与该已确定人脸匹配成功。重叠度阈值可以根据经验与实际需求设定，例如可以设为0.75。

此外，还可以通过ICP(Iterative Closest Point，迭代最近邻点)算法等对待确定人脸的基础包围盒与已确定人脸的基础包围盒中的任一个进行迭代变换，并根据最终变换后的待确定人脸的基础包围盒与已确定人脸的基础包围盒中像素值相同的像素点数量与像素值不同的像素点数量计算两个基础包围盒的重叠度，由此判断是否匹配成功。

需要说明的是，由于待美颜原始图像中可能存在多个待确定人脸，参考帧图像中存在多个已确定人脸，可以分别对每一张待确定人脸与每一张已确定人脸进行匹配计算，得到相似度矩阵或重叠度矩阵，进而可以采用匈牙利算法等实现全局的最大匹配，再根据每一对待确定人脸与已确定人脸的相似度或重叠度确定其是否匹配成功。

步骤S520，如果待确定人脸与已确定人脸匹配不成功，则根据第一预设参数对待确定人脸的基础包围盒进行扩展，得到待确定人脸的稳定包围盒；

待确定人脸与已确定人脸匹配不成功，说明该待确定人脸为连续多帧图像中新出现的人脸，无法从参考帧图像中获得参考信息。因此可以在该待确定人脸的基础包围盒基础上，进行适当的扩展，得到稳定包围盒。第一预设参数为针对新出现人脸的基础包围盒的扩展参数，可以根据经验或实际需求确定，例如可以是对基础包围盒的宽度与高度均扩展1/4。

假设待确定人脸的基础包围盒表示为[bb0，bb1，bb2，bb3]，bb0为基础包围盒左上点的横坐标，bb1为基础包围盒左上点的纵坐标，bb2为基础包围盒右下点的横坐标，bb3为基础包围盒右下点的纵坐标，该基础包围盒的宽度为w，高度为h。请注意，图像中的像素坐标通常是以图像左上点为(0，0)，右下点为(Wmax，Hmax)，Wmax与Hmax表示图像的宽度与高度。因此有bb0<bb2，bb1<bb3。以E1表示第一预设参数，当根据第一预设参数对该基础包围盒进行中心扩展(即上下左右均匀扩展)时，可以得到稳定包围盒的尺寸为：

其中，expand_w与expand_h分别为待确定人脸的稳定包围盒的宽度与高度。需要说明的是，如果扩展后的宽度expand_w超出待美颜原始图像的宽度Wmax，则expand_w＝Wmax；如果扩展后的高度expand_h超出待美颜原始图像的高度Hmax，则expand_h＝Hmax。

稳定包围盒的中心点坐标等于基础包围盒的中心点坐标，即：

其中，center_x表示待确定人脸的稳定包围盒的中心点x坐标，center_y表示待确定人脸的稳定包围盒的中心点y坐标。

则可以计算稳定包围盒的左上点与右下点的坐标如下：

其中，expand_bb0为稳定包围盒左上点的横坐标，expand_bb1为稳定包围盒左上点的纵坐标，expand_bb2为稳定包围盒右下点的横坐标，expand_bb3为稳定包围盒右下点的纵坐标。由此得到待确定人脸的稳定包围盒。如果计算出的坐标超出了待美颜原始图像的边界，则以待美颜原始图像的边界坐标替代该超出边界的坐标。最终可以将该扩展包围表示为[expand_bb0，expand_bb1，expand_bb2，expand_bb3]的形式。

需要补充的是，上述各坐标通常采用图像中的像素坐标，为整数，因此在计算时，可以采用float型数据进行计算，然后进行取整，并将结果保存为int型数据。示例性的，在涉及到除法运算时，采用float型数据进行计算并缓存中间结果，在计算最终的结果(包括上述expand_w、expand_h、center_x、center_y、expand_bb0、expand_bb1、expand_bb2、expand_bb3)时进行取整，并以int型数据进行保存。

对于中心点坐标，由于保存int型数据会影响后续处理其他帧的精确性，可以保存int型与float型数据，例如将公式(3)中计算的结果保存为float型数据，如下所示：

其中，center_x_float、center_y_float表示以float型数据所保存的中心点坐标，center_x、center_y表示以int型数据所保存的中心点坐标，int()表示取整运算。

进一步的，为保证结果的准确性，可以将公式(4)更改为如下计算方法：

步骤S530，如果待确定人脸与已确定人脸匹配成功，则根据已确定人脸的稳定包围盒确定待确定人脸的稳定包围盒。

一般的，待美颜原始图像中的待确定人脸相对于与之匹配的参考帧图像中的已确定人脸来说，变化不会太大，体现为位置变化与尺寸变化均不会太大，因此可以在已确定人脸的稳定包围盒的基础上，进行适当的位置变化与尺寸变化，得到待确定人脸的稳定包围盒。

在一种实施方式中，可以根据待确定人脸的基础包围盒相对于已确定人脸的基础包围盒的位置变化参数与尺寸变化参数，对该已确定人脸的稳定包围盒进行位置变化与尺寸变化，得到该待确定人脸的稳定包围盒。

在一种实施方式中，上述根据已确定人脸的稳定包围盒确定待确定人脸的稳定包围盒，可以包括以下步骤：

基于预设稳定系数，对已确定人脸的稳定包围盒的中心点坐标与待确定人脸的基础包围盒的中心点坐标进行加权，得到待确定人脸的稳定包围盒的中心点坐标。

上述步骤表示将已确定人脸的稳定包围盒的位置与待确定人脸的基础包围盒的位置进行融合，以作为待确定人脸的稳定包围盒的位置。在融合时，采用预设稳定系数对两者的中心点坐标进行加权，预设稳定系数可以是已确定人脸的稳定包围盒的权重，可以根据经验或实际场景确定。一般的，人脸移动越快的场景，预设稳定系数越小。示例性的，在直播场景中，人脸通常在一定的范围内移动幅度很小，预设稳定系数可以设为0.9，则计算待确定人脸的稳定包围盒的中心点坐标如下：

其中，pre_center_x表示已确定人脸的稳定包围盒的中心点x坐标，pre_center_y表示已确定人脸的稳定包围盒的中心点y坐标。可见，公式(7)表示以已确定人脸的稳定包围盒的中心点坐标权重为0.9，待确定人脸的基础包围盒的中心点坐标权重为0.1，对两个中心点坐标进行加权，得到待确定人脸的稳定包围盒的中心点坐标。

与上述公式(5)类似的，可以保存int型与float型数据中心点坐标，则有：

其中，pre_center_x_float是已保存的pre_center_x的float型数据，pre_center_y_float是已保存的pre_center_y的float型数据。

通过上述加权以计算中心点坐标的方式，实质上采用了对中心点坐标进行动量更新的机制，能够避免同一张人脸的稳定包围盒的中心点坐标从参考帧图像到待美颜原始图像出现过度移动，以导致后续截取的原始人脸子图像发生抖动，影响美颜效果。

如果待确定人脸的基础包围盒的尺寸大于已确定人脸的稳定包围盒的尺寸与第一倍率之积，则根据第二预设参数对已确定人脸的稳定包围盒的尺寸进行扩展，得到待确定人脸的稳定包围盒的尺寸；

如果待确定人脸的基础包围盒的尺寸小于已确定人脸的稳定包围盒的尺寸与第二倍率之积，则根据第三预设参数对已确定人脸的稳定包围盒的尺寸进行缩小，得到待确定人脸的稳定包围盒的尺寸；第一倍率大于第二倍率；

如果待确定人脸的基础包围盒的尺寸小于已确定人脸的稳定包围盒的尺寸与第一倍率之积、且大于已确定人脸的稳定包围盒的尺寸与第二倍率之积，则将已确定人脸的稳定包围盒的尺寸作为待确定人脸的稳定包围盒的尺寸。

上述步骤表示根据待确定人脸的基础包围盒的尺寸与已确定人脸的稳定包围盒的尺寸的比较结果，分为三种情况分别进行计算。第一倍率与第二倍率可以是整数倍率，也可以是非整数倍率。在一种实施方式中，第一倍率大于或等于1，第二倍率小于1。示例性的，第一倍率可以是1，第二倍率可以是0.64。

在进行计算时，可以对宽度与高度分别进行比较与计算，例如宽度的比较结果属于上述第一种情况，高度的比较结果属于第二种情况，则分别在两种情况下计算待确定人脸的稳定包围盒的宽度与高度。

假设第一倍率为t1，第二倍率为t2，对宽度的计算进行说明：

第一种情况、如果w>pre_expand_w·t1，以E2表示第二预设参数，则有：

expand_w＝pre_expand_w+pre_expand_w·E2 (9)

第二种情况、如果w<pre_expand_w·t2，以E3表示第三预设参数，则有：

expand_w＝pre_expand_w-pre_expand_w·E3 (10)

第三种情况、如果pre_expand_w·t2<w<pre_expand_w·t1，则有：

expand_w＝pre_expand_w (11)

对于高度，同样可以按照上述三种情况分别进行计算，得到expand_h。

一般的，在视频连续多帧图像中，只要人脸不快速靠近镜头、不快速远离镜头或者不移出画面，人脸的尺寸不会发生剧烈变化，则满足上述第三种情况，此时使待确定人脸的稳定包围盒的尺寸等于已确定人脸的稳定包围盒的尺寸，即保持稳定包围盒的尺寸不变。而上述第一种情况与第二种情况均是人脸的尺寸发生剧烈变化的情况，第一种情况是人脸剧烈变大，此时根据第二预设参数适当扩大已确定人脸的稳定包围盒的尺寸，得到待确定人脸的稳定包围盒的尺寸，第二预设参数可以根据经验与实际场景确定；第二种情况是人脸剧烈变小，此时根据第三预设参数适当缩小已确定人脸的稳定包围盒的尺寸，得到待确定人脸的稳定包围盒的尺寸，第三预设参数可以根据经验与实际场景确定。

如果扩展后的宽度expand_w超出待美颜原始图像的宽度Wmax，则expand_w＝Wmax；如果扩展后的高度expand_h超出待美颜原始图像的高度Hmax，则expand_h＝Hmax。

通过上述三种情况的计算，能够避免同一张人脸的稳定包围盒的尺寸从参考帧图像到待美颜原始图像出现过度变化，以导致后续截取的原始人脸子图像发生抖动，影响美颜效果

分别得到待确定人脸的稳定包围盒的中心点坐标与尺寸后，可以计算出该稳定包围盒的左上点与右下点的坐标。如果计算出的坐标超出了待美颜原始图像的边界，则以待美颜原始图像的边界坐标替代该超出边界的坐标。最终可以将该稳定包围盒表示为[expand_bb0，expand_bb1，expand_bb2，expand_bb3]的形式。

由上可知，在待确定人脸与已确定人脸匹配成功的情况下，根据已确定人脸的稳定包围盒确定待确定人脸的稳定包围盒，使得待确定人脸在一定程度上继承了已确定人脸的稳定包围盒的信息，从而保证了不同帧图像之间人脸的稳定包围盒具有一定的连续性与稳定性，不会发生剧烈的位置或尺寸变化，进而保证了后续进行美颜处理时人脸美颜效果的一致性，防止由于人脸的剧烈变化导致美颜后的人脸发生闪动现象。

在一种实施方式中，得到待确定人脸的稳定包围盒后，可以保存其稳定包围盒的相关参数，并将该待确定人脸标记为已确定人脸，以用于后续帧中待确定人脸的匹配与稳定包围盒的确定。

在得到待美颜原始图像中的人脸的稳定包围盒后，可以截取稳定包围盒内的图像，得到原始人脸子图像。当待美颜原始图像中包括多张人脸的稳定包围盒时，可以截取每一张人脸对应的原始人脸子图像。

步骤S420，基于深度神经网络的输入图像尺寸将原始人脸子图像进行组合，生成待美颜人脸图像。

输入图像尺寸是与深度神经网络的输入层匹配的图像尺寸。本示例性实施方式将原始人脸子图像组合为一张原始人脸组合图像，该原始人脸组合图像的尺寸为输入图像尺寸。本示例性实施方式对于输入图像尺寸的大小以及宽高比不做限定，示例性的，可以设置输入图像尺寸的长边与短边的比例接近

在一种实施方式中，深度神经网络可以是全卷积网络，全卷积网络可以处理不同尺寸的图像。在这种情况下，深度神经网络对于输入的图像尺寸没有要求，尺寸的大小对于计算量、内存占用、美颜精细度有影响。可以根据用户设置的美颜精细度或者终端设备的性能，确定输入图像尺寸。由此，该深度神经网络可以部署在高、中、低等不同性能的设备上，适用范围很广，无需针对不同的设备部署不同的深度神经网络，降低了网络的训练成本。示例性的，考虑在移动终端上适合进行轻量化计算，可以将输入图像尺寸确定为较小的数值，例如为宽640*高448。

在获取输入图像尺寸后，需要将原始人脸子图像组合为该尺寸大小的待美颜人脸图像。具体组合的方式与原始人脸子图像的数量相关。在一种实施方式中，上述基于深度神经网络的输入图像尺寸将原始人脸子图像进行组合，生成待美颜人脸图像，可以进一步包括以下步骤：

根据原始人脸子图像的数量，将输入图像尺寸分割为与原始人脸子图像一一对应的子图像尺寸；

分别基于每个子图像尺寸将对应的原始人脸子图像进行变换；

将变换后的原始人脸子图像进行组合，生成待美颜人脸图像。

下面结合图6举例说明。图6中Q表示原始人脸子图像的数量，图6分别示出了Q为1～4时的输入图像尺寸分割与图像组合的示例性方式。假设输入图像尺寸为宽640*高448，Q为1时，子图像尺寸也为宽640*高448；Q为2时，子图像尺寸为输入图像尺寸的一半，即宽320*高448；Q为3时，子图像尺寸分别为输入图像尺寸的0.5、0.25、0.25，即宽320*高448、宽320*高224、宽320*高224；Q为4时，子图像尺寸分别均为输入图像尺寸的0.25，即宽320*高224。将各个原始人脸子图像分别变换为与子图像尺寸一致，需要特别说明的是，当各个子图像尺寸不一致时，如Q为3的情况，可以按照原始人脸子图像的大小顺序与子图像尺寸的大小顺序，将原始人脸子图像与子图像尺寸进行一一对应，即最大的原始人脸子图像对应到最大的子图像尺寸，最小的原始人脸子图像对应到最小的子图像尺寸。在将原始人脸子图像进行变换后，再将变换后的原始人脸子图像按照图6所示的方式进行组合，生成一张待美颜人脸图像。

在一种实施方式中，当Q为偶数时，可以将输入图像尺寸进行Q等分，得到Q个相同的子图像尺寸。具体地，可以将Q分解为两个因数的乘积，即Q＝q₁*q₂，使q₁/q₂的比例与输入图像尺寸的宽高比(如

)尽可能接近，将输入图像尺寸的宽度进行q₁等分，高度进行q₂等分。当Q为奇数时，将输入图像尺寸进行Q+1等分，得到Q+1个相同的子图像尺寸，将其中的两个子图像尺寸合并为一个子图像尺寸，其余Q-1个子图像尺寸不变，由此得到Q个子图像尺寸。

在一种实施方式中，可以先计算原始人脸子图像的尺寸比例(或面积比例)，如可以是S₁：S₂：S₃：…：S_Q，再按照该比例将输入图像尺寸分割为Q个子图像尺寸。

确定每个原始人脸子图像对应的子图像尺寸后，可以基于子图像尺寸对原始人脸子图像进行变换。在一种实施方式中，上述分别基于每个子图像尺寸将对应的原始人脸子图像进行变换，可以包括以下任意一条或多条：

①当原始人脸子图像的宽度与高度的大小关系与子图像尺寸的宽度与高度的大小关系不同时，将原始人脸子图像旋转90度。也就是说，在原始人脸子图像与子图像尺寸中，均为宽度大于高度或者均为宽度小于高度，则原始人脸子图像与子图像尺寸的宽度与高度的大小关系相同，无需旋转原始人脸子图像；否则，原始人脸子图像与子图像尺寸的宽度与高度的大小关系不同，需要将原始人脸子图像旋转90度(顺时针或逆时针旋转皆可)。例如，子图像尺寸为宽320*高448时，即宽度小于高度，如果原始人脸子图像为宽度大于高度的情况，则将原始人脸子图像旋转90度。

在一种实施方式中，为了保持原始人脸子图像中人脸的角度，也可以不对原始人脸子图像进行旋转。

②当原始人脸子图像的尺寸大于子图像尺寸时，根据子图像尺寸将原始人脸子图像进行下采样。其中，原始人脸子图像的尺寸大于子图像尺寸，是指原始人脸子图像的宽度大于子图像尺寸的宽度，或者原始人脸子图像的高度大于子图像尺寸的高度。在图像美颜场景中，待美颜原始图像一般是终端设备拍摄的清晰图像，其尺寸较大，因此原始人脸子图像的尺寸大于子图像尺寸是比较常见的情况，即通常情况下需要对原始人脸子图像进行下采样。

下采样可以采用双线性插值、最近邻插值等方法实现，本公开对此不做限定。

在进行下采样后，原始人脸子图像的宽度与高度中的至少一个与子图像尺寸对齐，具体包括以下几种情况：

原始人脸子图像的宽度、高度均与子图像尺寸相同；

原始人脸子图像的宽度与子图像尺寸的宽度相同，高度小于子图像尺寸的高度；

原始人脸子图像的高度与子图像尺寸的高度相同，宽度小于子图像尺寸的宽度。

需要说明的是，如果已经对原始人脸子图像进行了上述旋转，得到经过旋转的原始人脸子图像，则当该原始人脸子图像的尺寸大于子图像尺寸时，根据子图像尺寸对其进行下采样，具体的实现方式与上述原始人脸子图像的下采样方式相同，因而不再赘述。

反之，当原始人脸子图像(或经过旋转的原始人脸子图像)的尺寸小于或等于子图像尺寸时，可以不进行下采样的处理步骤。

③当原始人脸子图像的尺寸小于子图像尺寸时，根据原始人脸子图像与子图像尺寸的差值将原始人脸子图像进行填充，使填充后的原始人脸子图像的尺寸等于子图像尺寸。其中，原始人脸子图像的尺寸小于子图像尺寸，是指原始人脸子图像的宽度与高度中的至少一个小于子图像尺寸，另一个不大于子图像尺寸，具体包括以下几种情况：

原始人脸子图像的宽度小于子图像尺寸的宽度，高度也小于子图像尺寸的高度；

原始人脸子图像的宽度小于子图像尺寸的宽度，高度等于子图像尺寸的高度；

原始人脸子图像的高度小于子图像尺寸的高度，宽度等于子图像尺寸的高度。

填充时可以采用预设像素值，通常是与人脸颜色差别较大的像素值，如(R0，G0，B0)、(R255，G255，B255)等。

一般可以填充在原始人脸子图像的四周，例如将原始人脸子图像的中心与子图像尺寸的中心重合，对原始人脸子图像四周的差值部分进行填充，使填充后原始人脸子图像的尺寸与子图像尺寸一致。当然也可以将原始人脸子图像与子图像尺寸的一侧边缘对齐，对另一侧进行填充。本公开对此不做限定。

需要说明的是，如果已经对原始人脸子图像进行了上述旋转与下采样中至少一种处理，得到经过旋转与下采样中至少一种处理的原始人脸子图像，则当该原始人脸子图像的尺寸小于子图像尺寸时，根据其与子图像尺寸的差值进行填充，具体的实现方式与上述原始人脸子图像的填充方式相同，因而不再赘述。

上述①～③为常用的三种变换方式，可以根据实际需求使用其中的任意一种或多种。例如，依次采用①、②、③对每张原始人脸子图像进行处理，将处理后的原始人脸子图像组合为待美颜人脸图像。

在上述变换中，改变了原始人脸子图像的方向、尺寸等，这是为了便于深度神经网络的统一处理。后续还需要对美颜后的人脸图像进行逆变换，使其恢复为与原始人脸子图像的方向、尺寸等一致，以适应待处理图像的尺寸。因此，可以保存相应的变换信息，包括但不限于：对每张原始人脸子图像旋转的方向与角度，下采样的比例，填充的像素的坐标。这样便于后续根据该变换信息进行逆变换。

在将变换后的原始人脸子图像进行组合后，可以保存组合信息，包括但不限于每张原始人脸子图像的尺寸(即对应的子图像尺寸)以及在待美颜人脸图像中的位置，各原始人脸子图像的排列方式与顺序。后续可以根据该组合信息对美颜人脸图像进行拆分，以得到每个单独的美颜人脸子图像。

以上说明了如何获取待美颜人脸图像。继续参考图3，在步骤S320中，通过预先训练的深度神经网络对待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，三维网格是对待美颜人脸图像的空域与像素值域所形成的三维空间进行划分而得到的。

其中，待美颜人脸图像的空域即待美颜人脸图像的图像平面所在的二维空间，具有两个维度，第一维度例如可以是图像的宽度方向，第二维度例如可以是图像的高度方向。像素值域是指待美颜人脸图像的像素值的数值范围，如可以是[0,255]，或者将像素值进行归一化，则像素值域为[0,1]。将像素值域作为第三维度，与上述第一维度、第二维度形成三维空间。本示例性实施方式可以预先对该三维空间进行划分，包括对空域进行划分以及对像素值域进行划分，得到三维网格。三维网格在空域上的二维投影称为空域网格；三维网格在像素值域上的一维投影称为值域分区。示例性的，可以以16像素*16像素的区域作为空域网格，以[0,1/8)、[1/8,1/4)、[1/4,3/8)等(将[0,1]均分为8个分区)作为值域分区，从而得到三维网格。由此，可以对待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵。信息矩阵是用于对待美颜人脸图像进行美颜处理的参数矩阵。

在一种实施方式中，深度神经网络的结构可以参考图7所示，包括基础卷积层、网格特征卷积层、局部特征卷积层、输出层这4个主要部分，每部分又可以包括多个中间层，网格特征卷积层、局部特征卷积层是处于基础卷积层与输出层之间的两个并列的部分。

参考图8所示，上述通过预先训练的深度神经网络对待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，可以包括以下步骤S810至S840：

步骤S810，通过基础卷积层按照空域网格的尺寸对待美颜人脸图像进行下采样卷积处理，得到基础特征图像。

下采样卷积处理是指通过卷积来减小图像尺寸，达到下采样效果。可以采用步长大于1的卷积层来实现下采样卷积处理。结合图7举例来说，待处理人脸图像的维度为(B,W,H,C)，B表示图像数量，可以将一张或多张待美颜人脸图像输入深度神经网络进行处理，因此B可以是任意正整数；W表示图像宽度，H表示图像高度，C表示图像通道数，当待美颜人脸图像为RGB图像时，C为3。空域网格的尺寸为16像素*16像素。基础卷积层可以包括4个步长为2的3*3卷积层(3*3表示卷积核尺寸，仅为示例性，也可替换为其他尺寸)，待美颜人脸图像经过其处理后，高度与宽度均缩减为1/16；当然本公开也可以设置其他数量与步长的卷积层，以达到相同的下采样效果，如可以将上述4个步长为2的3*3卷积层替换为两个步长为4的5*5卷积层。此外，基础卷积层还可以包括一个或多个步长为1的3*3卷积层(3*3表示卷积核尺寸，仅为示例性，也可替换为其他尺寸)，用于对下采样卷积后的图像进一步提取特征同时不改变图像尺寸，得到基础特征图像；当然设置步长为1的卷积层并非必需。基础特征图像的维度为(B,W/16,H/16,k1)，k1为基础特征图像的通道数，表示特征的维度，与基础卷积层中最后一个卷积层的卷积核数量相关，本公开不做限定。基础特征图像中的一个像素点相当于待美颜人脸图像中的16像素*16像素。

由上可知，基础卷积层的处理过程是在待美颜人脸图像中每个空域网格的范围内逐步提取特征，通过卷积核的设置将不同维度的特征表示在不同的通道中，最终得到基础特征图像，基础特征图像是待美颜人脸图像在空域网格的尺度上的特征图像。

步骤S820，通过网格特征卷积层对基础特征图像提取空域网格内的特征，得到网格特征图像。

基础卷积层所提取的基础特征图像反映了待美颜人脸图像中的基础性特征，可以通过网格特征卷积层进一步在空域网格范围内提取更加深度的特征，得到网格特征图像。结合图7举例来说，网格特征卷积层可以包括一个或多个步长为1的3*3卷积层(3*3表示卷积核尺寸，仅为示例性，也可替换为其他尺寸)，用于对基础卷积图像进一步提取网格特征同时不改变图像尺寸，得到网格特征图像。网格特征图像的维度为(B,W/16,H/16,k2)，k2为网格特征图像的通道数，表示特征的维度，与网格特征卷积层中最后一个卷积层的卷积核数量相关，本公开不做限定。

步骤S830，通过局部特征卷积层对基础特征图像提取空域网格间的特征，得到局部特征图像。

基于基础卷积层所提取的基础特征图像，可以通过局部特征卷积层进一步在空域网格间提取更加深度的特征，得到局部特征图像，相比于上述网格特征图像，局部特征图像为局部的多个空域网格范围内的特征，其尺度相对更大。结合图7举例来说，局部特征卷积层可以包括下采样层、一个或多个步长为1的3*3卷积层(3*3表示卷积核尺寸，仅为示例性，也可替换为其他尺寸)、上采样层。其中，下采样层可以是2*2(或其他尺寸)的池化层，可以采用最大值池化、平均值池化等，通过池化融合了局部的2*2个空域网格范围内的特征；当然也可以采用池化以外的方式(如步长大于1的卷积)实现下采样。进而，通过卷积层从下采样后的特征图像中提取特征，为空域网格间的特征。上采样层可以是2*2(或其他尺寸)的转置卷积层，其通过对卷积层输出的特征图像进行转置卷积来实现上采样，从而恢复下采样前的图像尺寸(即W/16*H/16)；当然也可以采用转置卷积以外的方式(如插值)实现上采样。上采样后得到局部特征图像，其维度为(B,W/16,H/16,k3)，k3为局部特征图像的通道数，表示特征的维度，与局部特征卷积层中最后一个卷积层的卷积核数量相关，本公开不做限定。

步骤S840，通过输出层按照值域分区的数量对网格特征图像与局部特征图像进行维度转换，得到信息矩阵。

网格特征图像与局部特征图像从不同尺度上反映了待美颜人脸图像的特征。输出层可以将网格特征图像与局部特征图像进行合并，再进行维度转换。合并的方式包括但不限于相加、拼接(concat)等。由上可知，网格特征图像与局部特征图像的维度中，图像尺寸W/16、H/16与空域网格的尺寸相对应，而通道数k2、k3与卷积核的数量相关，通过维度转换使通道数与值域分区的数量相匹配，从而使输出的信息矩阵与三维网格相对应。结合图7举例说明，输出层可以包括拼接层与一个或多个步长为1的1*1卷积层(1*1表示卷积核尺寸，仅为示例性，也可替换为其他尺寸)，拼接层用于对网格特征图像与局部特征图像进行拼接，得到维度为(B,W/16,H/16,k2+k3)的拼接特征图像，卷积层用于对拼接特征图像进行维度转换，得到信息矩阵G，其维度为(B,W/16,H/16,G_z*G_n)。G_z为值域分区的数量，如在进行三维网格的划分时，将像素值域进行8等分，则G_z为8；G_n为每个三维网格对应的子信息矩阵gi的维度(即子信息矩阵gi的元素个数)，i表示三维网格的序数。

在一种实施方式中，步骤S840所得到的信息矩阵G可视为子信息矩阵gi的集合，对于每张待美颜人脸图像，深度神经网络可以输出其对应的信息矩阵G，包括W/16*H/16*G_z个子信息矩阵gi，而W/16*H/16*G_z正是三维网格的数量，即信息矩阵G包括每个三维网格对应的子信息矩阵gi。

以上说明了如何获得信息矩阵。继续参考图3，在步骤S330中，利用信息矩阵对待美颜人脸图像进行处理，得到待美颜人脸图像对应的美颜人脸图像。

一般的，可以将待美颜人脸图像的像素值与信息矩阵相乘，实现对像素值的数值转换，得到美颜人脸图像。

在一种实施方式中，信息矩阵可以包括每个三维网格对应的基准信息矩阵，该基准信息矩阵相当于上述子信息矩阵gi。参考图9所示，上述利用信息矩阵对待美颜人脸图像进行处理，得到待美颜人脸图像对应的美颜人脸图像，可以包括以下步骤S910和S920：

步骤S910，基于待美颜人脸图像对基准信息矩阵进行插值，得到待美颜人脸图像的每个像素点对应的美颜信息矩阵。

基准信息矩阵可以是三维网格内所有像素点进行美颜处理的基准信息，可视为该三维网格内所有像素点进行美颜处理所需信息的概括，而美颜信息矩阵是用于每个像素点的美颜处理的具体信息。基准信息矩阵可以进一步对应于三维网格的基准点，例如该基准点可以是三维网格的中心点。由于待美颜人脸图像的每个像素点分布在各自所属的三维网格中的不同位置，相对于三维网格内的基准点存在偏移，因此可以对基准信息矩阵进行插值，得到待美颜人脸图像的每个像素点对应的美颜信息矩阵。

在一种实施方式中，可以根据待美颜人脸图像的每个像素点相对于一个或多个三维网格的中心点的偏移，对一个或多个基准信息矩阵进行插值，得到待美颜人脸图像的每个像素点对应的美颜信息矩阵。示例性的，假设待美颜人脸图像的宽度为128，高度也为128，空域网格的大小为16像素*16像素，则三维空间的第一维度与第二维度均被8等分；像素值域[0,1]也被均分为8个值域分区，则三维空间被划分为8*8*8个三维网格。以{0,0,0}表示位于待美颜人脸图像左上角，且像素值为[0,1/8)的三维网格，该三维网格的中心点坐标为(8,8,1/16)；获取待美颜人脸图像中处于该三维网格内的像素点，对每个像素点计算其与中心点的偏移，包括在第一维度、第二维度、第三维度上的偏移量，并根据偏移量分别基于{0,0,0}三维网格的基准信息矩阵以及其相邻的三维网格{1,0,0}、{0,1,0}、{0,0,1}的基准信息矩阵进行三线性插值，得到{0,0,0}三维网格中每个像素点对应的美颜信息矩阵。需要说明的是，如果三维网格未处于边界上，则可以基于该三维网格的基准信息矩阵以及其相邻的6个三维网格的基准信息矩阵进行三线性插值，得到该三维网格中每个像素点对应的美颜信息矩阵。

应当理解，本公开对于具体的插值算法不做限定，例如也可以采用非线性插值算法。

由上可知，在进行插值时，需要计算像素点的像素值与基准点的像素值的偏移，即像素点与基准点在第三维度上的偏移。当待美颜人脸图像为单通道图像时，可以直接采用待美颜人脸图像的像素值进行计算。当待美颜人脸图像为多通道图像时，则难以基于多通道的像素值与基准点的像素值进行计算。基于此，在一种实施方式中，上述基于待美颜人脸图像对基准信息矩阵进行插值，得到待美颜人脸图像的每个像素点对应的美颜信息矩阵，可以包括以下步骤：

当待美颜人脸图像为多通道图像时，将待美颜人脸图像转换为单通道的参考值图像；

基于参考值图像对基准信息矩阵进行插值，得到待美颜人脸图像的每个像素点对应的美颜信息矩阵。

其中，参考值图像是通过单通道对待美颜人脸图像的多通道进行表征的图像，如待美颜人脸图像为RGB图像时，参考值图像可以是其对应的灰度图像，灰度可以采用归一化的数值，值域为[0,1]。请注意参考值图像与上述参考帧图像为不同的概念。

在一种实施方式中，可以采用以下公式将待美颜人脸图像转换为单通道的参考值图像：

其中，R、G、B为待美颜人脸图像中每个像素点归一化后的像素值；n表示将R、G、B的值域划分为n个分区，j表示分区的序数；a_rj、a_gj、a_bj分别为R、G、B的每个分区的转换系数，可以根据经验或实际需求确定；shift_rj、shift_gj、shift_bj分别为R、G、B的每个分区中设置的转换阈值，表示只对大于该转换阈值的像素值进行转换，转换阈值可以根据经验或实际需求设置；guidemap_r、guidemap_g、guidemap_b分别为通过分区转换后的R、G、B的单通道图像；g_r、g_g、g_b分别为R、G、B的融合系数，可以是经验系数；guidemap_bias为融合后添加的偏移量，也可以根据经验确定；guidemap_z为参考值图像，其值域为[0,1]。

在一种实施方式中，也可以通过预设的模型训练得到上述a_rj、a_gj、a_bj、shift_rj、shift_gj、shift_bj、g_r、g_g、g_b、guidemap_bias等参数，通过设置模型的初始值，使得最终得到的参考值图像的值域满足[0,1]。

参考图7所示，可以基于参考值图像对信息矩阵G中的基准信息矩阵进行插值，得到待美颜人脸图像的每个像素点对应的美颜信息矩阵，可以将这些美颜信息矩阵作为一个集合，其维度为(B,W,H,G_n)。

步骤S920，根据待美颜人脸图像的每个像素点对应的美颜信息矩阵，分别对待美颜人脸图像的每个像素点进行处理，得到美颜人脸图像。

可以将每个像素点的像素值与对应的美颜信息矩阵相乘，得到处理后的像素值，从而形成美颜人脸图像。示例性的，将像素点i的像素值表示为像素值向量[r,g,b]，其对应的美颜信息矩阵为：

则有以下关系：

其中，[r′g′b′]表示美颜后的像素值。

在一种实施方式中，上述根据待美颜人脸图像的每个像素点对应的美颜信息矩阵，分别对待美颜人脸图像的每个像素点进行处理，得到美颜人脸图像，可以包括：

根据美颜信息矩阵的维度对待美颜人脸图像添加新通道，并将新通道设置为预设数值；

分别将待美颜人脸图像的每个像素点的像素值向量与每个像素点对应的美颜信息矩阵相乘，得到美颜人脸图像；每个像素点的像素值向量为每个像素点的各通道的数值所形成的向量。

其中，美颜信息矩阵的维度表示美颜信息矩阵的行数与列数。由公式(13)可知，需要将每个像素点的像素值向量与美颜信息矩阵进行叉乘运算，说明像素值向量的维度与美颜信息矩阵的行数需要相同。而像素值向量的维度等同于待美颜人脸图像的通道数，因此，如果待美颜人脸图像的通道数不等于(一般是小于)美颜信息矩阵的行数，则可以对待美颜人脸图像添加新通道。对于添加的新通道，可以填充预设数值，如可以是1。由此，相当于将待美颜人脸图像中每个像素点的像素值向量转换为齐次向量。

示例性的，假设像素点i对应的美颜信息矩阵为：

即该美颜信息矩阵的行数为4，待美颜人脸图像为RGB图像，其通道数为3，因此需要添加一个新通道，将新通道统一填充数值1。则像素点i的像素值向量为[r,g,b,1]，从而满足以下关系：

由此，通过信息矩阵的处理，得到美颜人脸图像，其维度为(B,W,H,C)，在公式(13)与(14)中，C＝3。美颜人脸图像与待美颜人脸图像的维度相同，说明本示例性实施方式的美颜处理过程不改变图像维度。

如果在将待美颜人脸图像输入深度神经网络前，对其像素值进行了归一化处理，则得到美颜人脸图像后，可以对其像素值进行反归一化处理，如可以将[0,1]值域内的像素值统一乘以255，以得到[0,255]值域内的像素值。

在一种实施方式中，图像美颜处理方法还可以包括对深度神经网络的训练过程，参考图10所示，可以包括以下步骤S1010至S1030：

步骤S1010，将待美颜样本图像输入待训练的深度神经网络，以输出样本信息矩阵；

步骤S1020，利用样本信息矩阵对待美颜样本图像进行处理，得到待美颜样本图像对应的美颜样本图像；

步骤S1030，基于待美颜样本图像对应的标注图像与美颜样本图像的差别，更新深度神经网络的参数。

深度神经网络可以间接实现不同美颜功能的组合，本示例性实施方式可以根据实际需求，获取对应于不同美颜功能的美颜图像数据集，以训练所需的深度神经网络。例如，如果需要训练去瑕疵的深度神经网络，则获取具有瑕疵的待美颜样本图像，通过人工去瑕疵处理，得到对应的标注图像(Ground truth)，由此构建去瑕疵的美颜图像数据集；如果需要训练去瑕疵+形变的深度神经网络，则获取具有瑕疵的待美颜样本图像，通过人工去瑕疵与形变处理，得到对应的标注图像，由此构建去瑕疵+形变的美颜图像数据集。当然，也可以先获取标注图像，经过反向处理，得到待美颜样本图像，例如获取无瑕疵的人脸图像，对其进行添加瑕疵、反向形变(是指与美颜中的形变相反的处理，例如美颜中常进行“瘦脸”的形变，反向形变可以是将脸部拉宽)等处理，得到待美颜样本图像，将无瑕疵的人脸图像作为其对应的标注图像，构建去瑕疵+形变的美颜图像数据集。可见，本示例性实施方式可以通过构建不同的美颜图像数据集，训练任意一种或多种美颜功能组合的深度神经网络。

在一种实施方式中，可以将多张人脸图像进行组合，得到一张待美颜样本图像，并可以将该多张人脸图像对应的人工美颜后图像进行组合，得到该待美颜样本图像对应的一张标注图像，然后将该待美颜样本图像与标注图像添加至美颜图像数据集中。换句话说，美颜图像数据集可以包括单人脸的图像、多人脸的图像、组合人脸的图像等不同类型。

深度神经网络的结构可以参考上述图7部分的内容，因而不再赘述。将待美颜样本图像输入深度神经网络，输出对应的样本信息矩阵。然后利用样本信息矩阵对待美颜样本图像进行处理，得到待美颜样本图像对应的美颜样本图像。处理过程可以参考步骤S320与S330部分的内容。由于此时深度神经网络未经训练或未经充分地训练，因此样本信息矩阵无法对待美颜样本图像进行高质量的处理，使得所得到的美颜样本图像与标注图像存在差别，基于该差别可以构建损失函数，进而根据损失函数值进行反向传播以更新深度神经网络的参数，以实现对深度神经网络的训练。一般的，当深度神经网络在美颜图像数据集中的测试集上的准确率或其他指标达到预设的标准时，确定训练完成。

基于图10所示的方法步骤可知，用于训练本示例性实施方式中的深度神经网络的数据集可以是普通的美颜图像数据集，其中的待美颜样本图像及其对应的标注图像相对较易于获取，无需专门对信息矩阵设置标签，使得方案具有较高的实用性。

在一种实施方式中，如果待美颜人脸图像是由待美颜原始图像中的原始人脸子图像组合而成的，则在得到美颜人脸图像后，可以从美颜人脸图像中拆分出与原始人脸子图像对应的美颜人脸子图像，美颜人脸子图像为单张人脸对应的美颜后的图像。其中，在对美颜人脸组合图像进行拆分时，可以采用上述保存的组合信息，从美颜人脸组合图像中拆分出特定位置、特定尺寸的子图像，即美颜人脸子图像，美颜人脸子图像与原始人脸子图像一一对应。

在一种实施方式中，可以将待美颜原始图像中的原始人脸子图像替换为对应的美颜人脸子图像，得到待美颜原始图像对应的目标美颜图像，由此实现对待美颜原始图像中的人脸的美颜处理。

在一种实施方式中，如果在将原始人脸子图像组合为待美颜人脸图像时，对原始人脸子图像进行了变换，则可以相应的对拆分得到的美颜人脸子图像进行逆变换，包括去除填充的像素、上采样、反向旋转90度等，使逆变换后的美颜人脸子图像与原始人脸子图像的方向、尺寸等一致，这样在待美颜原始图像中可以进行1:1替换，得到目标美颜图像。

美颜人脸子图像是经过美颜处理后的人脸子图像，通常是美颜程度较高的人脸子图像。在一种实施方式中，为了增加美颜人脸子图像的真实感，在上述将待美颜原始图像中的原始人脸子图像替换为对应的美颜人脸子图像前，可以利用原始人脸子图像对美颜人脸子图像进行美颜弱化处理。美颜弱化处理是指降低美颜人脸子图像的美颜程度，以增加。下面提供美颜弱化处理的两种示例性方式：

方式一、根据设定的美颜程度参数，将原始人脸子图像融合至美颜人脸子图像。其中，美颜程度参数可以是特定美颜功能下的美颜力度参数，如去瑕疵程度。本示例性实施方式中，美颜程度参数可以是用于当前设定的参数，系统默认的参数，或者上一次美颜所使用的参数等。在确定美颜程度参数后，可以以美颜程度参数作为比重，将原始人脸子图像与美颜人脸子图像进行融合。举例来说，假设去瑕疵程度的范围为0～100，当前设定的值为a，参考如下公式：

其中，image_blend表示融合后的图像，image_ori表示原始人脸子图像，image_deblemish表示美颜人脸子图像。当a为0时，表示不进行去瑕疵处理，则完全使用原始人脸子图像；当a为100时，表示完全去瑕疵处理，则完全使用美颜人脸子图像。因此，公式(15)表示通过融合，得到介于原始人脸子图像与美颜人脸子图像中间的图像，a越大，所得到的图像越接近于美颜人脸子图像，即美颜程度越高，美颜效果越明显。

需要说明的是，如果在将原始人脸子图像组合为待美颜人脸图像时，对原始人脸子图像进行了变换，可以对拆分得到的美颜人脸子图像进行逆变换。原始人脸子图像与美颜人脸子图像具有如下关系：变换前的原始人脸子图像与逆变换后的美颜人脸子图像方向、尺寸等一致；变换后的原始人脸子图像与逆变换前的美颜人脸子图像方向、尺寸等一致。因此，在利用上述公式(15)将原始人脸子图像与美颜人脸子图像进行融合时，可以融合上述变换前的原始人脸子图像与逆变换后的美颜人脸子图像，也可以融合上述变换后的原始人脸子图像与逆变换前的美颜人脸子图像。

方式二、将原始人脸子图像的高频图像融合至美颜人脸子图像。其中，高频图像是指包含原始人脸子图像中细节纹理等高频信息的图像。

在一种实施方式中，可以通过以下方式获取高频图像：

在基于深度神经网络的输入图像尺寸将上述一张或多张原始人脸子图像进行组合时，如果对原始人脸子图像进行下采样，则将下采样后得到的下采样人脸子图像进行上采样，得到上采样人脸子图像；

根据原始人脸子图像与上采样人脸子图像的差别，获取原始人脸子图像的高频图像。

其中，下采样人脸子图像的分辨率低于原始人脸子图像，一般在下采样的过程中，不可避免地会损失图像的高频信息。对下采样人脸子图像进行上采样，使得到的上采样人脸子图像与原始人脸子图像的分辨率相同。需要说明的是，如果对原始人脸子图像进行下采样前，还进行了旋转，则对下采样人脸子图像进行上采样后，还可以进行反向旋转，使得到的上采样人脸子图像与原始人脸子图像的方向也相同。

上采样可以采用双线性插值、最近邻插值等方法。通过上采样虽然能够恢复分辨率，但是难以完全恢复出所损失的高频信息，即上采样人脸子图像可视为原始人脸子图像的低频图像。由此，确定原始人脸子图像与上采样人脸子图像的差别，例如可以将原始人脸子图像与上采样人脸子图像相减，结果为原始人脸子图像的高频信息，将相减后的值形成图像，即原始人脸子图像的高频图像。

在另一种实施方式中，还可以通过对原始人脸子图像进行滤波，以提取高频信息，得到高频图像。

在将上述高频图像融合至美颜人脸子图像时，可以采用直接相加的方式，将高频图像叠加到美颜人脸子图像中，使得美颜人脸子图像中增加细节纹理等高频信息，更具有真实感。

由于原始人脸子图像与上采样人脸子图像通常是非常相近的，基于其差值得到的高频图像中，像素值一般较小，如RGB各通道值不超过4。然而，对于原始人脸子图像中的突变位置，比如脸上的小黑痣等，其具有强烈的高频信息，因此在高频图像中对应位置的像素值可能比较大。在将高频图像融合至原始人脸子图像时，这些位置的像素值可能产生不良影响，例如产生“痣印”等锐利边缘，导致视觉感受不自然。

针对于上述问题，在一种实施方式中，图像美颜处理方法还可以包括以下步骤：

在高频图像中确定瑕疵点；

将高频图像中上述瑕疵点周围预设区域内的像素值调整到预设数值范围内。

其中，瑕疵点是具有强烈高频信息的像素点，可以将高频图像中像素值较大的点确定为瑕疵点。或者，在一种实施方式中，可以通过以下方式确定瑕疵点：

将美颜人脸子图像与对应的原始人脸子图像相减，得到每个像素点的差值；

当判断某个像素点的差值满足预设瑕疵条件时，将该像素点在高频图像中对应的像素点确定为瑕疵点。

其中，预设瑕疵条件用于衡量美颜人脸子图像与原始人脸子图像的差别，以判断每个像素点是否为被去除的瑕疵点。在去瑕疵处理中，通常会将人脸中的小黑痣、痘等去除，并填充人脸肤色，在该位置处，美颜人脸子图像与原始人脸子图像的差别很大，因此可以通过设定预设瑕疵条件来甄别瑕疵点。

示例性的，预设瑕疵条件可以包括：各个通道的差值均大于第一颜色差阈值，且各个通道的差值中的至少一个大于第二颜色差阈值。第一颜色差阈值与第二颜色差阈值可以是经验阈值。例如，当上述通道包括RGB时，第一颜色差阈值可以是20，第二颜色差阈值可以是40。由此，得到每个像素点在美颜人脸子图像中与在原始人脸子图像中的差值后，对差值中RGB三个通道的具体差值进行判断，判断每个通道的差值是否均大于20，以及其中是否有至少一个通道的差值大于40，当满足这两个条件时，表示满足预设瑕疵条件，则将高频图像中对应位置的像素点确定为瑕疵点。

确定瑕疵点后，可以在高频图像中进一步确定瑕疵点周围的预设区域，例如可以是以瑕疵点为中心的5*5像素区域，具体的尺寸可以根据高频图像的尺寸来确定，本公开不做限定。将预设区域内的像素值调整到预设数值范围内，预设数值范围一般是较小的数值范围，可以根据经验与实际需求确定，在调整时通常需要减小像素值。示例性的，预设数值范围可以是-2～2，而瑕疵点周围的像素值可能超出-5～5，将其调整到-2～2内，实际上进行了限值处理。由此能够弱化“痣印”等锐利边缘，增加视觉上的自然感受。

以上说明了两种美颜弱化处理方式。本示例性实施方式可以同时采用这两种美颜弱化处理方式，例如，先通过方式一进行原始人脸子图像与美颜人脸子图像的融合，在此基础上，再通过方式二将高频图像叠加到其中，得到经过美颜弱化处理的美颜人脸子图像，该的美颜人脸子图像兼具有较好的美颜效果与真实感。

在一种实施方式中，在将待处理图像中的原始人脸子图像替换为对应的美颜人脸子图像时，还可以执行以下步骤：

对位于待美颜原始图像中的未替换区域与美颜人脸子图像之间的边界区域进行渐变处理，使边界区域形成平滑过渡。

其中，待美颜原始图像中的未替换区域即待美颜原始图像中除原始人脸子图像以外的区域。上述未替换区域与美颜人脸子图像之间的边界区域实际包括两部分：未替换区域中与美颜人脸子图像相邻的边界区域，以及美颜人脸子图像中与未替换区域相邻的边界区域。本示例性实施方式可以对其中任一部分进行渐变处理，也可以同时对两部分进行渐变处理。

参考图11所示，可以在美颜人脸子图像中确定一定比例(如10％)的边界区域，其从美颜人脸子图像的边缘向内延伸。需要注意的是，边界区域通常需要避开人脸部分，以避免渐变处理中改变人脸部分的颜色。例如，通过上述稳定包围盒截取原始人脸子图像，使得原始人脸子图像中的人脸与边界具有一定的距离，则美颜人脸子图像中的人脸与边界也具有一定的距离，这样在进行渐变处理时，可以较好地避开人脸部分。确定边界区域后，获取边界区域的内边缘颜色，记为第一颜色；获取未替换区域的内边缘颜色，记为第二颜色；再对边界区域进行第一颜色与第二颜色的渐变处理。由此，未替换区域与美颜人脸子图像的边界处为渐变色区域(图11中的斜线区域)，这样形成平滑过渡，防止产生颜色突变，导致视觉感受不和谐。

需要说明的是，当有多张美颜人脸子图像时，可以分别将每一张美颜人脸子图像替换掉待处理图像中对应的原始人脸子图像，并进行边界区域的渐变处理，得到一张目标美颜图像，使其具有自然、和谐的视觉感受。

在一种实施方式中，得到美颜人脸图像后，可以利用待美颜人脸图像对美颜人脸图像进行美颜弱化处理。美颜弱化处理可以具体参考上述两种方式，因而不再赘述。在待美颜人脸图像仅包括一张人脸或者待美颜人脸图像等同于待美颜原始图像的情况下，可以无需对美颜人脸图像进行拆分而直接进行美颜弱化处理。在待美颜人脸图像由多张原始人脸子图像组合而成的情况下，也可以先对美颜人脸图像整体进行美颜弱化处理，然后再拆分为美颜人脸子图像，从而无需单独对每张美颜人脸子图像进行美颜弱化处理，提高效率。

图12示出了图像美颜处理方法的示意性流程，包括：

步骤S1201，获取待美颜原始图像，例如可以将视频中的当前帧图像作为待美颜原始图像。

步骤S1202，从待美颜原始图像中提取原始人脸子图像。

步骤S1203，根据原始人脸子图像的数量将深度神经网络的输入图像尺寸划分为多个子图像尺寸，根据子图像尺寸对原始人脸子图像进行下采样，还可以进行旋转、填充等处理，得到每张原始人脸子图像对应的下采样人脸子图像。

步骤S1204，将下采样人脸子图像进行上采样，如果在获取下采样人脸子图像时还进行了旋转、填充等处理，则还可以进行反向旋转、去除填充等处理，得到上采样人脸子图像，其与对应的原始人脸子图像的分辨率一致。

步骤S1205，将原始人脸子图像与对应的上采样人脸子图像相减，得到原始人脸子图像的高频图像。

步骤S1206，将下采样人脸子图像组合为一张待美颜人脸图像。

步骤S1207，将待美颜人脸图像输入深度神经网络，输出信息矩阵。

步骤S1208，利用信息矩阵对待美颜人脸图像进行处理，得到美颜人脸图像。

步骤S1209，将美颜人脸图像拆分为与原始人脸子图像一一对应的美颜人脸子图像。

步骤S1210，将美颜人脸子图像与对应的原始人脸子图像按照美颜程度参数进行融合，再与该原始人脸子图像的高频图像相加，得到待替换人脸子图像。

步骤S1211，将待替换人脸子图像融合至待美颜原始图像，具体地，可以由待替换人脸子图像替换掉待美颜原始图像中的原始人脸子图像的部分，并进行边缘的颜色渐变处理，使得待美颜原始图像中的人脸被替换为美颜后的人脸，最终得到目标美颜图像。后续还可以进行个性化美颜处理。

本公开的示例性实施方式还提供一种图像美颜处理装置。参考图13所示，该图像美颜处理装置1300可以包括：

图像获取模块1310，被配置为获取待美颜人脸图像；

信息矩阵生成模块1320，被配置为通过预先训练的深度神经网络对待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，三维网格是对待美颜人脸图像的空域与像素值域所形成的三维空间进行划分而得到的；

美颜处理模块1330，被配置为利用信息矩阵对待美颜人脸图像进行处理，得到待美颜人脸图像对应的美颜人脸图像。

在一种实施方式中，深度神经网络包括基础卷积层、网格特征卷积层、局部特征卷积层、输出层。上述通过预先训练的深度神经网络对待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，包括：

通过基础卷积层按照空域网格的尺寸对待美颜人脸图像进行下采样卷积处理，得到基础特征图像，空域网格为三维网格在空域上的二维投影；

通过网格特征卷积层对基础特征图像提取空域网格内的特征，得到网格特征图像；

通过局部特征卷积层对基础特征图像提取空域网格间的特征，得到局部特征图像；

通过输出层按照值域分区的数量对网格特征图像与局部特征图像进行维度转换，得到信息矩阵，值域分区为三维网格在像素值域上的一维投影。

在一种实施方式中，信息矩阵包括每个三维网格对应的基准信息矩阵。上述利用信息矩阵对待美颜人脸图像进行处理，得到待美颜人脸图像对应的美颜人脸图像，包括：

基于待美颜人脸图像对基准信息矩阵进行插值，得到待美颜人脸图像的每个像素点对应的美颜信息矩阵；

根据待美颜人脸图像的每个像素点对应的美颜信息矩阵，分别对待美颜人脸图像的每个像素点进行处理，得到美颜人脸图像。

在一种实施方式中，上述基于待美颜人脸图像对基准信息矩阵进行插值，得到待美颜人脸图像的每个像素点对应的美颜信息矩阵，包括：

基准信息矩阵对应于三维网格的中心点；基于待美颜人脸图像对基准信息矩阵进行插值，得到待美颜人脸图像的每个像素点对应的美颜信息矩阵，包括：

根据待美颜人脸图像的每个像素点相对于一个或多个三维网格的中心点的偏移，对一个或多个基准信息矩阵进行插值，得到待美颜人脸图像的每个像素点对应的美颜信息矩阵。

在一种实施方式中，上述根据待美颜人脸图像的每个像素点对应的美颜信息矩阵，分别对待美颜人脸图像的每个像素点进行处理，得到美颜人脸图像，包括：

在一种实施方式中，图像美颜处理装置1300还可以包括网络训练模块，被配置为：

将待美颜样本图像输入待训练的深度神经网络，以输出样本信息矩阵；

利用样本信息矩阵对待美颜样本图像进行处理，得到待美颜样本图像对应的美颜样本图像；

基于待美颜样本图像对应的标注图像与美颜样本图像的差别，更新深度神经网络的参数。

在一种实施方式中，获取待美颜人脸图像，包括：

从待美颜原始图像中提取一张或多张原始人脸子图像；

基于深度神经网络的输入图像尺寸将原始人脸子图像进行组合，生成待美颜人脸图像；

在得到美颜人脸图像后，方法还包括：

从美颜人脸图像中拆分出与原始人脸子图像对应的美颜人脸子图像。

在一种实施方式中，上述基于深度神经网络的输入图像尺寸将原始人脸子图像进行组合，生成待美颜人脸图像，包括：

在一种实施方式中，上述分别基于每个子图像尺寸将对应的原始人脸子图像进行变换，包括以下任意一条或多条：

当原始人脸子图像的宽度与高度的大小关系与子图像尺寸的宽度与高度的大小关系不同时，将原始人脸子图像旋转90度；

当原始人脸子图像或者经过旋转的原始人脸子图像的尺寸大于子图像尺寸时，根据子图像尺寸将原始人脸子图像或者经过旋转的原始人脸子图像进行下采样；

当原始人脸子图像或者经过旋转与下采样中至少一种处理的原始人脸子图像的尺寸小于子图像尺寸时，根据原始人脸子图像的尺寸与子图像尺寸的差值将原始人脸子图像进行填充，或者根据经过旋转与下采样中至少一种处理的原始人脸子图像的尺寸与子图像尺寸的差值将经过旋转与下采样中至少一种处理的原始人脸子图像进行填充。

在一种实施方式中，美颜处理模块1330，还被配置为：

将待美颜原始图像中的原始人脸子图像替换为对应的美颜人脸子图像，得到待美颜原始图像对应的目标美颜图像。

在一种实施方式中，美颜处理模块1330，还被配置为：

在将待美颜原始图像中的原始人脸子图像替换为对应的美颜人脸子图像前，利用原始人脸子图像对美颜人脸子图像进行美颜弱化处理。

在一种实施方式中，上述利用原始人脸子图像对美颜人脸子图像进行美颜弱化处理，包括：

根据设定的美颜程度参数，将原始人脸子图像融合至美颜人脸子图像。

将原始人脸子图像的高频图像融合至美颜人脸子图像。

在一种实施方式中，美颜处理模块1330，还被配置为：

在将原始人脸子图像的高频图像融合至美颜人脸子图像前，在高频图像中确定瑕疵点，并将高频图像中瑕疵点周围预设区域内的像素值调整到预设数值范围内。

在一种实施方式中，美颜处理模块1330，还被配置为：

在将待美颜原始图像中的原始人脸子图像替换为对应的美颜人脸子图像时，对位于待美颜原始图像中的未替换区域与美颜人脸子图像之间的边界区域进行渐变处理，使边界区域形成平滑过渡。

在一种实施方式中，美颜人脸图像包括去瑕疵美颜图像。美颜处理模块1330，还被配置为：

在得到去瑕疵美颜图像后，对去瑕疵美颜图像进行个性化美颜处理，得到最终的美颜图像。

上述装置中各部分的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

本公开的示例性实施方式还提供了一种计算机可读存储介质，可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种可选的实施方式中，该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种图像美颜处理方法，其特征在于，包括：

获取待美颜人脸图像；

通过预先训练的深度神经网络对所述待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，所述三维网格是对所述待美颜人脸图像的空域与像素值域所形成的三维空间进行划分而得到的；

利用所述信息矩阵对所述待美颜人脸图像进行处理，得到所述待美颜人脸图像对应的美颜人脸图像。

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络包括基础卷积层、网格特征卷积层、局部特征卷积层、输出层；所述通过预先训练的深度神经网络对所述待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，包括：

通过所述基础卷积层按照空域网格的尺寸对所述待美颜人脸图像进行下采样卷积处理，得到基础特征图像，所述空域网格为所述三维网格在所述空域上的二维投影；

通过所述网格特征卷积层对所述基础特征图像提取所述空域网格内的特征，得到网格特征图像；

通过所述局部特征卷积层对所述基础特征图像提取所述空域网格间的特征，得到局部特征图像；

通过所述输出层按照值域分区的数量对所述网格特征图像与所述局部特征图像进行维度转换，得到所述信息矩阵，所述值域分区为所述三维网格在所述像素值域上的一维投影。

3.根据权利要求1所述的方法，其特征在于，所述信息矩阵包括每个所述三维网格对应的基准信息矩阵；所述利用所述信息矩阵对所述待美颜人脸图像进行处理，得到所述待美颜人脸图像对应的美颜人脸图像，包括：

基于所述待美颜人脸图像对所述基准信息矩阵进行插值，得到所述待美颜人脸图像的每个像素点对应的美颜信息矩阵；

根据所述待美颜人脸图像的每个像素点对应的美颜信息矩阵，分别对所述待美颜人脸图像的每个像素点进行处理，得到所述美颜人脸图像。

4.根据权利要求3所述的方法，其特征在于，所述基于所述待美颜人脸图像对所述基准信息矩阵进行插值，得到所述待美颜人脸图像的每个像素点对应的美颜信息矩阵，包括：

当所述待美颜人脸图像为多通道图像时，将所述待美颜人脸图像转换为单通道的参考值图像；

基于所述参考值图像对所述基准信息矩阵进行插值，得到所述待美颜人脸图像的每个像素点对应的美颜信息矩阵。

5.根据权利要求3所述的方法，其特征在于，所述基准信息矩阵对应于所述三维网格的中心点；所述基于所述待美颜人脸图像对所述基准信息矩阵进行插值，得到所述待美颜人脸图像的每个像素点对应的美颜信息矩阵，包括：

根据所述待美颜人脸图像的每个像素点相对于一个或多个所述三维网格的中心点的偏移，对一个或多个所述基准信息矩阵进行插值，得到所述待美颜人脸图像的每个像素点对应的美颜信息矩阵。

6.根据权利要求3所述的方法，其特征在于，所述根据所述待美颜人脸图像的每个像素点对应的美颜信息矩阵，分别对所述待美颜人脸图像的每个像素点进行处理，得到所述美颜人脸图像，包括：

根据所述美颜信息矩阵的维度对所述待美颜人脸图像添加新通道，并将所述新通道设置为预设数值；

分别将所述待美颜人脸图像的每个像素点的像素值向量与所述每个像素点对应的美颜信息矩阵相乘，得到所述美颜人脸图像；所述每个像素点的像素值向量为所述每个像素点的各通道的数值所形成的向量。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将待美颜样本图像输入待训练的所述深度神经网络，以输出样本信息矩阵；

利用所述样本信息矩阵对所述待美颜样本图像进行处理，得到所述待美颜样本图像对应的美颜样本图像；

基于所述待美颜样本图像对应的标注图像与所述美颜样本图像的差别，更新所述深度神经网络的参数。

8.根据权利要求1所述的方法，其特征在于，所述获取待美颜人脸图像，包括：

从待美颜原始图像中提取一张或多张原始人脸子图像；

基于所述深度神经网络的输入图像尺寸将所述原始人脸子图像进行组合，生成所述待美颜人脸图像；

在得到所述美颜人脸图像后，所述方法还包括：

从所述美颜人脸图像中拆分出与所述原始人脸子图像对应的美颜人脸子图像。

9.根据权利要求8所述的方法，其特征在于，所述基于所述深度神经网络的输入图像尺寸将所述原始人脸子图像进行组合，生成所述待美颜人脸图像，包括：

根据所述原始人脸子图像的数量，将所述输入图像尺寸分割为与所述原始人脸子图像一一对应的子图像尺寸；

分别基于每个子图像尺寸将对应的所述原始人脸子图像进行变换；

将变换后的所述原始人脸子图像进行组合，生成所述待美颜人脸图像。

10.根据权利要求9所述的方法，其特征在于，所述分别基于每个子图像尺寸将对应的所述原始人脸子图像进行变换，包括以下任意一条或多条：

当所述原始人脸子图像的宽度与高度的大小关系与所述子图像尺寸的宽度与高度的大小关系不同时，将所述原始人脸子图像旋转90度；

当所述原始人脸子图像或者经过旋转的原始人脸子图像的尺寸大于所述子图像尺寸时，根据所述子图像尺寸将所述原始人脸子图像或者所述经过旋转的原始人脸子图像进行下采样；

当所述原始人脸子图像或者经过旋转与下采样中至少一种处理的原始人脸子图像的尺寸小于所述子图像尺寸时，根据所述原始人脸子图像的尺寸与所述子图像尺寸的差值将所述原始人脸子图像进行填充，或者根据所述经过旋转与下采样中至少一种处理的原始人脸子图像的尺寸与所述子图像尺寸的差值将所述经过旋转与下采样中至少一种处理的原始人脸子图像进行填充。

11.根据权利要求8所述的方法，其特征在于，所述方法还包括：

将所述待美颜原始图像中的所述原始人脸子图像替换为对应的所述美颜人脸子图像，得到所述待美颜原始图像对应的目标美颜图像。

12.根据权利要求11所述的方法，其特征在于，在将所述待美颜原始图像中的所述原始人脸子图像替换为对应的所述美颜人脸子图像前，所述方法还包括：

利用所述原始人脸子图像对所述美颜人脸子图像进行美颜弱化处理。

13.根据权利要求12所述的方法，其特征在于，所述利用所述原始人脸子图像对所述美颜人脸子图像进行美颜弱化处理，包括：

根据设定的美颜程度参数，将所述原始人脸子图像融合至所述美颜人脸子图像。

14.根据权利要求12所述的方法，其特征在于，所述利用所述原始人脸子图像对所述美颜人脸子图像进行美颜弱化处理，包括：

将所述原始人脸子图像的高频图像融合至所述美颜人脸子图像。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

在基于所述深度神经网络的输入图像尺寸将从所述待美颜原始图像中提取的所述原始人脸子图像进行组合时，如果对所述原始人脸子图像进行下采样，则将下采样后得到的下采样人脸子图像进行上采样，得到上采样人脸子图像，所述上采样人脸子图像与所述原始人脸子图像的分辨率相同；

根据所述原始人脸子图像与所述上采样人脸子图像的差别，获取所述原始人脸子图像的高频图像。

16.根据权利要求15所述的方法，其特征在于，在将所述原始人脸子图像的高频图像融合至所述美颜人脸子图像前，所述方法还包括：

在所述高频图像中确定瑕疵点；

将所述高频图像中所述瑕疵点周围预设区域内的像素值调整到预设数值范围内。

17.根据权利要求11所述的方法，其特征在于，在将所述待美颜原始图像中的所述原始人脸子图像替换为对应的所述美颜人脸子图像时，所述方法还包括：

对位于所述待美颜原始图像中的未替换区域与所述美颜人脸子图像之间的边界区域进行渐变处理，使所述边界区域形成平滑过渡。

18.根据权利要求1所述的方法，其特征在于，所述美颜人脸图像包括去瑕疵美颜图像，在得到所述去瑕疵美颜图像后，所述方法还包括：

对所述去瑕疵美颜图像进行个性化美颜处理，得到最终的美颜图像。

19.一种图像美颜处理装置，其特征在于，包括：

图像获取模块，被配置为获取待美颜人脸图像；

信息矩阵生成模块，被配置为通过预先训练的深度神经网络对所述待美颜人脸图像提取基于三维网格的特征，并根据所提取的特征生成信息矩阵，所述三维网格是对所述待美颜人脸图像的空域与像素值域所形成的三维空间进行划分而得到的；

美颜处理模块，被配置为利用所述信息矩阵对所述待美颜人脸图像进行处理，得到所述待美颜人脸图像对应的美颜人脸图像。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至18任一项所述的方法。

21.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至18任一项所述的方法。