CN110008817A

CN110008817A - 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN110008817A
Application number: CN201910087657.9A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-07-12
Anticipated expiration: 2039-01-29
Also published as: CN110008817B

Abstract

本发明提供了一种模型训练、图像处理方法、装置、电子设备、计算机可读存储介质，该训练方法包括：获取训练样本集，训练样本集包括第一图像和第二图像，第一图像包括清晰的人脸区域，第二图像为对第一图像的人脸区域作模糊处理后得到的图像；获取第二图像的人脸语义分割结果；将第二图像和人脸语义分割结果输入至神经网络模型，得到第三图像；识别第三图像和第一图像之间在人脸区域上的差异数据；根据差异数据对神经网络模型进行迭代更新；经过迭代更新的神经网络模型用于对任意一个人脸区域模糊的图像进行人脸区域的修复，生成人脸区域清晰的图像。本发明训练的神经网络模型能够对图像中模糊的人脸区域进行去模糊处理，提升人脸区域的清晰度。

Description

模型训练、图像处理方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及机器学习技术领域，特别是涉及一种模型训练、图像处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着计算机技术的不断发展，有越来越多的电子设备能够拍摄图像。但是基于各种原因，往往会造成拍摄的图像或者经过后期处理后的图像中人脸区域比较模糊的问题。造成图像模糊的原因有很多，例如拍摄图像的电子设备的硬件配置较低、拍摄环境较差、图像的后期处理降低了图像的分辨率、图像损坏等等。

目前，相关技术中尚无法对图像中模糊的人脸区域进行去模糊处理。

发明内容

本发明提供了一种模型训练、图像处理方法、装置、电子设备及计算机可读存储介质，以解决相关技术中的图像处理方案所存在的无法对图像中模糊的人脸区域进行去模糊处理的问题。

为了解决上述问题，根据本发明的第一方面，本发明公开了一种模型训练方法，包括：

获取训练样本集，所述训练样本集包括第一图像和第二图像，其中，所述第一图像包括清晰的人脸区域，所述第二图像为对所述第一图像的人脸区域作模糊处理后得到的图像；

获取所述第二图像的人脸语义分割结果；

将所述第二图像和所述人脸语义分割结果输入至神经网络模型，得到第三图像；

识别所述第三图像和所述第一图像之间在人脸区域上的差异数据；

根据所述差异数据对所述神经网络模型进行迭代更新；

其中，经过迭代更新的所述神经网络模型用于对任意一个人脸区域模糊的图像进行人脸区域的修复，生成人脸区域清晰的图像。

根据本发明的第二方面，本发明公开了一种图像处理方法，包括：

获取待修复的第一图像，其中，所述第一图像包括模糊的人脸区域；

获取所述第一图像的人脸语义分割结果；

将所述第一图像和所述人脸语义分割结果输入至预先经过训练的人脸修复模型，以使得所述人脸修复模型根据所述人脸语义分割结果，对所述第一图像进行人脸区域的修复，生成人脸区域清晰的所述第二图像。

根据本发明的第三方面，本发明公开了一种模型训练装置，包括：

第一获取模块，用于获取训练样本集，所述训练样本集包括第一图像和第二图像，其中，所述第一图像包括清晰的人脸区域，所述第二图像为对所述第一图像的人脸区域作模糊处理后得到的图像；

第二获取模块，用于获取所述第二图像的人脸语义分割结果；

输入模块，用于将所述第二图像和所述人脸语义分割结果输入至神经网络模型，得到第三图像；

识别模块，用于识别所述第三图像和所述第一图像之间在人脸区域上的差异数据；

更新模块，用于根据所述差异数据对所述神经网络模型进行迭代更新；

根据本发明的第四方面，本发明公开了一种图像处理装置，包括：

第一获取模块，用于获取待修复的第一图像，其中，所述第一图像包括模糊的人脸区域；

第二获取模块，用于获取所述第一图像的人脸语义分割结果；

输入模块，用于将所述第一图像和所述人脸语义分割结果输入至预先经过训练的人脸修复模型，以使得所述人脸修复模型根据所述人脸语义分割结果，对所述第一图像进行人脸区域的修复，生成人脸区域清晰的所述第二图像。

根据本发明的第五方面，本发明还公开了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序或图像处理程序，所述模型训练程序被所述处理器执行时实现如上述任意一项所述的模型训练方法的步骤，所述图像处理程序被所述处理器执行时实现上述图像处理方法的步骤。

根据本发明的第六方面，本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有模型训练程序或图像处理程序，所述模型训练程序被处理器执行时实现如上述任意一项所述的模型训练方法中的步骤，所述图像处理程序被所述处理器执行时实现上述图像处理方法的步骤。

与现有技术相比，本发明包括以下优点：

本发明实施例在训练神经网络模型时，不只是将人脸区域模糊的第二图像输入到神经网络模型中，还将该第二图像的人脸语义分割结果一起输入至神经网络模型，并根据神经网络模型输出的第三图像与人脸区域清晰的第一图像之间的差异数据，来对神经网络模型进行迭代更新，从而能够使得训练后的神经网络模型能够参考第二图像的人脸语义分割结果，即人脸区域中各个部件的位置，来针对第二图像的人脸区域中的不同部件分别进行去模糊处理，使得第二图像中人脸区域的各个部件得到修复，生成人脸区域更加清晰的第三图像。

附图说明

图1是本发明的一种模型训练方法实施例的步骤流程图；

图2是本发明的另一种模型训练方法实施例的步骤流程图；

图3是本发明的又一种模型训练方法实施例的步骤流程图；

图4是本发明的再一种模型训练方法实施例的步骤流程图；

图5是本发明的再一种模型训练方法实施例的步骤流程图；

图6是本发明的一种图像处理方法实施例的步骤流程图；

图7是本发明的一种模型训练装置实施例的结构框图；

图8是本发明的一种图像处理装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种模型训练方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，获取训练样本集，所述训练样本集包括第一图像和第二图像；

其中，为了对本发明实施例的神经网络模型进行训练，使得训练后的神经网络模型可以作为人脸修复模型对人脸区域模糊的图像进行人脸区域的修复，这里需要获取训练样本集，该训练样本集中的每组样本包括一对图像，分别为第一图像和第二图像。

其中，所述第一图像包括清晰的人脸区域，即所述第一图像为人脸区域清晰的图像，影响图像清晰度的参数有很多种，例如拍摄图像的电子设备的硬件配置参数、拍摄环境参数、图像的后期处理参数、图像分辨率、图像损坏程度等。

而在获取训练样本集时，可以获取人脸区域清晰多个第一图像，然后，再对每个第一图像中的人脸区域分别作模糊处理(例如增加噪声)，从而得到与每个第一图像匹配的多个第二图像，从而获取到多组图像样本，每组图像样本包括对应同一个人脸图像的清晰图和模糊图。

而在获取第一图像时，可以通过从视频流中抽帧的方式，来抽取一帧包括清晰的人脸区域的图像，也可以从图像集中直接获取包含清晰的人脸区域的图像。

可选地，在执行步骤102之前，如果神经网络模型对输入的图像有尺寸要求，则本发明实施例的方法还可以包括对所述训练样本集中的第一图像以及第二图像进行预处理的步骤。

具体预处理的方法可以是对图像进行拉伸、压缩、填充(即在图像的外边缘增加白边，来使图像达到预设尺寸)等操作，来将训练样本集中的图像的尺寸调整至神经网络模型要求的预设尺寸(例如400*400)。

步骤102，获取所述第二图像的人脸语义分割结果；

其中，在神经网络模型训练之前，可以预先配置该神经网络模型需要参考人脸的哪些部件来进行人脸区域的修复。例如预先配置的人脸部件可以包括但不限于鼻子、眼睛、嘴巴、眉毛、耳朵，则这里的人脸语义分割结果分别表达了上述各个人脸部件在第二图像中的各个位置信息。即人脸语义分割结果包括：第二图像中的哪个区域是鼻子、哪个区域是眼睛、哪个区域是嘴巴、哪个区域是眉毛、哪个区域是耳朵的信息。

那么在获取一个图像的人脸语义分割结果时，可以利用传统的人脸语义分割模型、或未来开发的人脸语义分割模型来实现，也可以采用其他获取人脸语义分割结果的方式来实现。

步骤103，将所述第二图像和所述人脸语义分割结果输入至神经网络模型，得到第三图像；

其中，在本发明实施例中，在训练神经网络模型时，不只是将第二图像(后文以模糊图像来说明)输入到神经网络模型中，还将该模糊图像的人脸语义分割结果一同输入至神经网络模型，来对该神经网络模型进行训练，从而能够使得训练后的神经网络模型，即人脸修复模型可以参考人脸区域中各个部件的位置来对模糊图像进行去模糊处理，从而生成人脸区域更加清晰的第三图像(后文以修复图像来说明)。

其中，本发明实施例的人脸修复模型的网络结构可以采用任意一种神经网络模型的网络结构，本发明对此不做限制。

步骤104，识别所述第三图像和所述第一图像之间在人脸区域上的差异数据；

其中，由于训练样本集中不仅包括某个人脸A的模糊图像，还包括该人脸A的清晰图像，那么这里就可以识别该神经网络模型输出的人脸A的修复图像与该人脸A的清晰图像之间的差异数据，这个差异数据可以理解为在本轮训练过程中，神经网络模型的总损失。

步骤105，根据所述差异数据对所述神经网络模型进行迭代更新；

这里，就可以利用本轮训练的总损失来对上述神经网络模型中各个网络层的参数进行迭代更新。

那么利用训练样本集中的任意一组图像样本，都可以执行上述步骤101～步骤105，从而完成对神经网络模型的一轮迭代更新，那么在模型训练过程中，可以利用所述训练样本集对所述神经网络模型进行多轮迭代更新，循环执行图1所示的方法多次，直至所述差异数据收敛，即直至所述总损失不再下降，并保持稳定。

对于迭代更新的次数(即轮数)可以根据经验值来确定，优选地，该轮数高于经验值。例如经验值为2000轮，则这里可以训练3000轮。

最后，经过多轮迭代更新的神经网络模型，即所述人脸修复模型就可以实现对图像中人脸区域的修复，使得原本人脸区域模糊的图像，能够被人脸修复模型进行人脸区域的修复，修复后输出的图像中人脸区域变得清晰。

所以，本发明实施例的经过多轮迭代更新的所述神经网络模型，即人脸修复模型用于对任意一个人脸区域模糊的图像进行人脸区域的修复，生成人脸区域清晰的图像。

借助于本发明上述实施例的技术方案，本发明实施例在训练神经网络模型时，不只是将人脸区域模糊的第二图像输入到神经网络模型中，还将该第二图像的人脸语义分割结果一起输入至神经网络模型，并根据神经网络模型输出的第三图像与人脸区域清晰的第一图像之间的差异数据，来对神经网络模型进行迭代更新，从而能够使得训练后的神经网络模型能够参考第二图像的人脸语义分割结果，即人脸区域中各个部件的位置，来针对第二图像的人脸区域中的不同部件分别进行去模糊处理，使得第二图像中人脸区域的各个部件得到修复，生成人脸区域更加清晰的第三图像。

可选地，如图2所示，在执行步骤102时，可以通过S201和S202来实现：

S201，获取与所述第二图像匹配的第二图像矩阵；

其中，第二图像为RGB图像，因此，第二图像中的每个像素点都包括R(红色)值、G(绿色)值和B(蓝色)值，例如第二图像的尺寸为W*H，即宽度为W，在宽度方向上包括W个像素点，长度为H，在长度方向上包括H个像素点。那么第二图像中任意一个颜色都可以构成一个W*H*1的矩阵，第二图像中的R值构成一个矩阵，G值构成一个矩阵，B值构成一个矩阵，且每个矩阵的长度是H，宽度是W，所以，第二图像的第二图像矩阵是W*H*3的图像矩阵，即包括三层W*H的矩阵。

因此，一个图像的图像矩阵就是以矩阵的方式来表达出的图像数据，或者说是该图像的矩阵结构。

S202，将所述第二图像矩阵输入至预先经过训练的人脸语义分割模型，得到与多个人脸部件匹配的全局人脸语义分割矩阵。

其中，人脸语义分割模型的网络结构可以是任意一种语义分割结构，例如VGG(Oxford Visual Geometry Group，牛津视觉几何集团)模型。

其中，由于这里输入至人脸语义分割模型的图像为模糊图像，而人脸语义分割模型对模糊图像的学习效果不好，因此，在本发明实施例中，在对该人脸语义分割模型进行训练时，可以首先使用清晰图像对人脸语义分割模型进行训练，在训练后损失不再降低并保持稳定后，再使用模糊图像对该人脸语义分割模型的参数进行优化，达到优化训练的目的，使得最终训练完成的本发明实施例的人脸语义分割模型对输入的模糊图像，即这里的第二图像，也可以进行较为准确的人脸语义分割，输出人脸语义分割结果。

那么在将所述第二图像矩阵输入至预先经过训练的人脸语义分割模型后，人脸语义分割模型可以对第二图像矩阵进行语义分割，将需要分割的各个人脸部件分割出来，具体可以体现为将第二图像矩阵中属于预先配置的人脸部件(例如上述步骤102所述的鼻子、眼睛、嘴巴、眉毛、耳朵)的像素点的数值设置为1，其他像素点的数值设置为0，从而得到与预先配置的多个人脸部件(例如上述步骤102所述的鼻子、眼睛、嘴巴、眉毛、耳朵)匹配的全局人脸语义分割矩阵。这里的预先配置的人脸部件为人脸语义分割模型在训练之后可以支持分割并识别的多个人脸部件。

在一个示例中，如图3所示，第二图像(即模糊图像)的模糊图像矩阵可以输入到预先经过训练的人脸语义分割模型，得到全局人脸语义分割矩阵。

可选地，如图2所示，在执行步骤103时，可以通过S301～S302来实现：

S301，将所述第二图像矩阵和所述全局人脸语义分割矩阵作矩阵连接处理；

在一个示例中，如图3所示，模糊图像的模糊图像矩阵和人脸语义分割模型输出的全局人脸语义分割矩阵可以作矩阵连接处理。例如上述预先配置的人脸部件的数量为11个，则全局人脸语义分割矩阵为W*H*11的矩阵，而模糊图像矩阵(参照第二图像矩阵的描述)为W*H*3的矩阵，则通过矩阵连接可以得到W*H*14的矩阵。

S302，将经过所述矩阵连接处理后的矩阵数据输入至神经网络模型，得到第三图像。

如图3所述，将连接后的W*H*14的矩阵输入到待训练的神经网络模型(即图3所示的人脸修复模型)，人脸修复模型对该矩阵进行11个人脸部件的修复，则可以输出第三图像，即修复图像。

关于用于模糊的人脸区域进行修复的神经网络模型的网络结构可以参照后文的描述，这里不再赘述。

这样，本发明实施例通过获取第二图像的RGB矩阵(即第二图像矩阵)，并将RGB矩阵输入到人脸语义分割模型，来获取与多个人脸部件匹配的全局人脸语义分割矩阵，并将RGB矩阵和全局人脸语义分割矩阵拼接并输入到待训练的神经网络模型中，得到神经网络模型输出的第三图像，并结合第三图像和第一图像之间的差异数据来对神经网络模型进行迭代更新。在模型训练的过程中，以矩阵的形式来表达第二图像中的各个人脸部件区域，以及整个第二图像，使得训练的神经网络模型能够准确的对各个人脸部件区域进行去模糊处理，提升第二图像中人脸区域的清晰度。

可选地，如图4所示，在执行步骤104时，可以通过S401～S404来实现：

S401，识别所述第三图像和所述第一图像之间在图像特征上的第一损失数据；

在一个示例中，如图3所示，第三图像为图3中的修复图像，第一图像为图3中的清晰图像，那么本步骤中，可以计算两个图像在高维特征上的差异，即第一损失数据。该第一损失数据表达了两个图像之间在人眼感知上的差异，因此，这里的第一损失数据可以称作感知损失。

S402，根据所述人脸语义分割结果，识别所述第三图像和所述第一图像之间在目标人脸部件上的第二损失数据；

如上文所述，预先配置的人脸部件的数量为11个，则全局人脸语义分割矩阵为W*H*11的矩阵，但是用户一般只关注11个人脸部件中的部分人脸部件是否是清晰的，这里的用户关注的需要清晰的人脸部件即为预先配置的11个人脸部件中的目标人脸部件。

一般情况下，用户希望眼睛、鼻子、嘴巴、眉毛是清晰的，而对于脸颊区域则不要求清晰度过高，清晰度较低(即比较模糊)反倒可以起到瘦脸美颜的视觉效果。而人脸语义分割结果(全局人脸语义分割矩阵为W*H*11的矩阵)则描述了11个预先配置的人脸部件的位置信息，但是这里关注上述四个目标人脸部件(眼睛、鼻子、嘴巴、眉毛)，因此，这里可以基于模糊图像的人脸语义分割结果，来识别修复图像和清晰图像在眼睛、鼻子、嘴巴、眉毛上的损失数据。由于这些损失数据表达了人脸区域的不同部件的损失，因此，第二损失数据称作结构损失。

在一个示例中，如图3所示，本步骤可以根据人脸语义分割模型输出的全局人脸语义分割矩阵，来识别清晰图像和修复图像之间在目标人脸部件上的结构损失，即上述第二损失数据。

S403，识别所述第三图像和所述第一图像之间在像素点上的第三损失数据；

在一个示例中，如图3所示，本步骤还可以识别修复图像和清晰图像在每个像素点上的差异，那么两个图像之间所有像素点的差异之和，即为这里的第三损失数据。由于第三损失数据表达了像素级别的损失，所以第三损失数据也可以称作像素级损失。具体的，可以计算上述两个图像的逐个像素点之间的损失和，得到像素级损失。

其中，在计算修复图像和清晰图像之间在任意两个像素点上的损失时，两个像素点分别对应于所述修复图像和所述清晰图像的同一位置。

S404，根据预设的图像特征权重、人脸部件权重、像素点权重，对所述第一损失数据、所述第二损失数据和所述第三损失数据进行加权求和，得到所述第三图像和所述第一图像之间在人脸区域上的差异数据。

其中，本发明实施例可以预先配置针对上述三类损失的权重，三类损失三个权重根据需要灵活配置。可选地，三个权重均大于零且小于一，使得三个权重的和为1；可选地，三个权重也可以均大于1。

通过公式1可以计算得到第三图像(修复图像)和第一图像(清晰图像)之间的全局损失Loss_total，即在人脸区域上的差异数据。

Loss_total＝λ_l2Loss_l2+λ_sLoss_s+λ_pLoss_p，公式1；

其中，Loss_l2为第三损失数据(即像素级L2损失)，λ_l2为预设的像素点权重；Loss_s为第二损失数据(即结构损失)，λ_s为预设的人脸部件权重；Loss_p为第一损失数据(即感知损失)，λ_p为预设的图像特征权重。

可选地，由于Loss_s表达了两个图像在目标人脸部件上的差异，而Loss_l2表达的是两个图像之间的像素级损失，Loss_p表达的是两个图像之间的特征级损失，所以为了能够使训练后的神经网络模型，即人脸修复模型对上述目标人脸部件具有较高的修复性，在配置上述三个权重时，可以使λ_s＞λ_p，λ_s＞λ_l2。

如图3所示，利用公式1所计算的全局损失可以对神经网络模型进行迭代更新。

这样，本发明实施例在获取清晰的第一图像和修复后的第三图像之间的差异数据时，通过分别识别两个图像之间的三类损失，第一损失数据表达了两个图像的图像特征上的差异，该第一损失数据体现了人脸区域之间在人眼感知上的差异；第二损失数据表达了两个图像在目标人脸部件(用户关注的需要提升清晰度的人脸部件)上的差异；第三损失数据表达了两个图像在像素级别上的差异；那么通过对上述三类损失数据进行加权求和，并利用求和后的全局损失来对神经网络模型进行迭代更新。由于上述三类损失包括了第二损失数据，从而可以着重对不同人脸语义区域进行不同权重的损失计算，使得神经网络模型能够有针对性的对指定区域(即目标人脸部件所在的区域)进行高权重的学习，提升迭代更新后的神经网络模型对人脸模糊的图像中，用户关注的人脸部件的去模糊修复能力和修复效果。

需要说明的是，本发明对于S401～S403的执行顺序不做限制。并且，在其他可选实施例中，根据图像修复要求和修复标准的不同，上述S401～S403中可以只选择一个或两个步骤来执行，来达到对神经网络模型的训练目的。

可选地，在执行S401来识别感知损失时，可以通过将所述第三图像和所述第一图像分别输入至预先经过训练的图像特征提取模型，得到所述第三图像的图像特征数据以及所述第一图像的图像特征数据；然后，再根据所述第三图像的图像特征数据和所述第一图像的图像特征数据之间的差异，获取所述第三图像和所述第一图像之间在图像特征上的第一损失数据。

其中，预先经过训练的图像特征提取模型可以包括但不限于以下之一：VGG-16、VGG-19、VGG-Face等。

具体而言，可以按照公式2来获取上述第一损失数据(感知损失)Loss_p。

其中，α表示上述神经网络模型；γ表示预先经过训练的人脸语义分割模型；δ表示预先经过训练的图像特征提取模型；

B表示输入的清晰图像(即第二图像)的第二图像矩阵；C表示输入的模糊图像(即第一图像)的第一图像矩阵；

δ_l(x)表示预先经过训练的图像特征提取模型对图像x提取的该模型δ中的第l层特征；例如该图像特征提取模型为VGG模型，则这里为VGG模型的第l层，δ_l(x)表示获取VGG模型的第l层对输入的图像x提取的图像特征。

冒号表示矩阵连接；γ(C)表示上述全局人脸语义分割矩阵；α(C：γ(C))表示神经网络模型输出的第三图像(即修复图像)；

按照公式2所述，那么上述第三图像的图像特征数据包括图像特征提取模型对修复图像提取的第l层特征；同理，所述第一图像的图像特征数据包括图像特征提取模型对清晰图像提取的第l层特征。

根据公式2，可以计算修复图像的该第l层特征和清晰图像的该第l层特征之间的L2损失(即均方误差)，当l取多个数值时(例如l分别取1、2和3)，则两个图像的三层特征分别对应三个L2损失，根据公式2将三个L2损失求和，即得到感知损失Loss_p。

由于图像特征提取模型的网络中的不同层对图像提取的特征不同，那么可以根据实际需要来灵活设置提取网络中哪一层(即l的取值)的图像特征，并对该层的图像特征作L2损失计算；此外，以第一图像的图像特征数据为例，提取的该图像特征数据可以是图像特征提取模型的一层网络的提取结果，也可以是图像特征提取模型的多层网络的提取结果，即l可以取一个值或多个值。

这样，本发明实施例通过获取神经网络模型输出的修复图像的图像特征，以及获取对应该修复图像的清晰图像的图像特征，从而可以计算修复图像和清晰图像在各种图像特征上的差异，并将各种图像特征上的总差异来作为两个图像之间在图像特征上的第一损失数据，即感知损失。那么在利用该感知损失来对神经网络模型进行训练时，则可以提升训练得到的人脸修复模型对模糊图像中各个人脸特征的修复能力。

可选地，在通过上述S201和S202来实现步骤102的情况下，那么在执行S402时，可以通过如图5所示的方法来实现：

S501，获取与所述第三图像匹配的第三图像矩阵；

本步骤的执行原理与上述S201类似，这里不再赘述。

S502，获取与所述第一图像匹配的第一图像矩阵；

本步骤的执行原理与上述S201类似，这里不再赘述。

后续步骤S503～S506的执行步骤可以参照公式3；

其中，公式3中与公式2的相同的符号标记这里不再赘述，参照公式2的相关描述即可。

其中，⊙表示矩阵乘法，即点乘运算；

M_k(y)表示对预先经过训练的语义分割模型的输出结果y(即上述实施例的全局人脸语义分割矩阵)和第k类掩膜进行点乘运算。其中，k的取值为正整数，可以取一个或多个数值。

掩膜用于提取感兴趣区域，通过使用预先制作的感兴趣区域的掩膜与待处理图像进行点乘运算，可以得到感兴趣区域图像。其中，感兴趣区域内的图像值保持不变，而感兴趣区域外的图像值都为0。

因此，本发明实施例可以预先对关注的感兴趣的目标部件区域分别设置掩膜，例如目标部件区域包括上文所述的眼睛、眉毛、鼻子、嘴巴，则可以分别配置对应上述每个目标部件区域的四类掩膜，例如k取1，则例如这里的第1类掩膜对应的是眼睛掩膜，M_k(y)表示将眼睛掩膜与模糊图像的全局人脸语义分割矩阵y进行相乘，则可以得到模糊图像中的眼睛部件所在的区域构成的矩阵，即从全局人脸语义分割矩阵中提取了描述眼睛区域的矩阵信息。

S503，获取所述第三图像矩阵和所述第一图像矩阵之间的差异矩阵；

其中，可以对第三图像矩阵和第一图像矩阵作矩阵减法运算，从而得到该差异矩阵。

其中，该差异矩阵对应于公式3中的α(C：γ(C))-B。

S504，获取所述全局人脸语义分割矩阵中，与所述目标人脸部件匹配的局部人脸语义分割矩阵；

其中，例如预先配置的人脸部件为11个，则全局人脸语义分割矩阵为W*H*11，则局部人脸语义分割矩阵为该11维的矩阵中的一个对应于例如眼睛部件的矩阵W*H*1。该局部人脸语义分割矩阵对应于公式3中的(M_k(γ(C)。其中，如果目标人脸部件为多个，则k取多个数值，就可以得到多个关注的部件区域，在两张图片之间的差异。

S505，将所述局部人脸语义分割矩阵和所述差异矩阵作点乘运算，得到与所述目标人脸部件匹配的子损失数据；

该目标人脸部件对应的子损失数据对应于公式3中的(M_k(γ(C))⊙(α(C：γ(C))-B)。

S506，将与多个所述目标人脸部件匹配的多个所述子损失数据求和，得到所述第三图像和所述第一图像之间在目标人脸部件上的第二损失数据。

其中，当k取多个数值时，则需要对于不同目标人脸部件匹配的多个子损失数据求和，即公式3的结果为第二损失数据。

这样，本发明实施例通过获取修复图像和清晰图像对应的两个图像矩阵之间的差异矩阵，并在模糊图像对应的全局人脸语义分割矩阵中提取出对应目标人脸部件的局部人脸语义分割矩阵，然后，将该局部人脸语义分割矩阵和上述表示两个图像之间整体差异的差异矩阵进行点乘运算，从而可以得到修复图像和清晰图像在目标人脸部件上的差异。那么利用关注的每个目标人脸部件上的差异来对神经网络模型进行迭代更新，从而能够使训练后的人脸修复模型在每个目标人脸部件上的修复能力增强，能够有针对性的对模糊的人脸图像中目标人脸部件所在的区域的清晰度进行提升，提升修复后的第三图像中的目标人脸部件的清晰度。

需要说明的是，本发明对于S501和S502之间的执行顺序不做限制，对S503和S504之间的执行顺序不做限制。

可选地，在执行S403时，可以按照公式4来计算

其中，公式4中与公式2的相同的符号标记这里不再赘述，参照公式2的相关描述即可。

公式4的原理与公式2的原理类似，公式2在计算两个图像的各个l层特征之间的L2损失的和，而公式4则在计算修复图像和清晰图像之间在每个像素点上的L2损失的和(即计算两个图像的相同位置的两个像素点之间的L2损失，然后图像中所有位置对应的所有L2损失求和，得到像素级损失)。

用于人脸修复的神经网络模型的网络结构：

第1层为有128个3×3卷积核的卷积层，输入尺寸为w×h×14，输出尺寸为w×h×128。

第2层为有128个3×3卷积核的卷积层，输入尺寸为w×h×128，输出尺寸为w×h×128。

第3层为有2×2池化核的最大池化层，输入尺寸为w×h×128，输出尺寸为w/2×h/2×128。

第4层为有256个3×3卷积核的卷积层，输入尺寸为w/2×h/2×128，输出尺寸为w/2×h/2×256。

第5层为有256个3×3卷积核的卷积层，输入尺寸为w/2×h/2×256，输出尺寸为w/2×h/2×256。

第6层为有2×2池化核的最大池化层，输入尺寸为w/2×h/2×256，输出尺寸为w/4×h/4×256。

第7层为有512个3×3卷积核的卷积层，输入尺寸为w/4×h/4×256，输出尺寸为w/4×h/4×512。

第8层为有512个3×3卷积核的卷积层，输入尺寸为w/4×h/4×512，输出尺寸为w/4×h/4×512。

第9层为有2×2池化核的最大池化层，输入尺寸为w/4×h/4×512，输出尺寸为w/8×h/8×512。

第10层为有1024个3×3卷积核的卷积层，输入尺寸为w/8×h/8×512，输出尺寸为w/8×h/8×1024。

第11层为有1024个3×3卷积核的卷积层，输入尺寸为w/8×h/8×1024，输出尺寸为w/8×h/8×1024。

第12层为有2×2池化核的最大池化层，输入尺寸为w/8×h/8×1024，输出尺寸为w/16×h/16×1024。

第13层为有2048个3×3卷积核的卷积层，输入尺寸为w/16×h/16×1024，输出尺寸为w/16×h/16×2048。

第14层为有2048个3×3卷积核的卷积层，输入尺寸为w/16×h/16×2048，输出尺寸为w/16×h/16×2048。

第15层为有2×2池化核的最大池化层，输入尺寸为w/16×h/16×2048，输出尺寸为w/32×h/32×2048。

第16层为行和列上采样因子为(2,2)的上采样层，输入尺寸为w/32×h/32×2048，输出尺寸为w/16×h/16×2048。

第17层为有1024个3×3卷积核的卷积层，输入尺寸为w/16×h/16×2048，输出尺寸为w/16×h/16×1024。

第18层为拼接层，将第17层的输出和第12层的输出拼接，输入尺寸为两个w/16×h/16×1024，输出尺寸为w/16×h/16×2048。

第19层为有1024个3×3卷积核的卷积层，输入尺寸为w/16×h/16×2048，输出尺寸为w/16×h/16×1024。

第20层为行和列上采样因子为(2,2)的上采样层，输入尺寸为w/16×h/16×1024，输出尺寸为w/8×h/8×1024。

第21层为有512个3×3卷积核的卷积层，输入尺寸为w/8×h/8×1024，输出尺寸为w/8×h/8×512。

第22层为拼接层，将第21层的输出和第9层的输出拼接，输入尺寸为两个w/8×h/8×512，输出尺寸为w/8×h/8×1024。

第23层为有512个3×3卷积核的卷积层，输入尺寸为w/8×h/8×1024，输出尺寸为w/8×h/8×512。

第24层为行和列上采样因子为(2,2)的上采样层，输入尺寸为w/8×h/8×512，输出尺寸为w/4×h/4×512。

第25层为有256个3×3卷积核的卷积层，输入尺寸为w/4×h/4×512，输出尺寸为w/4×h/4×256。

第26层为拼接层，将第25层的输出和第6层的输出拼接，输入尺寸为两个w/4×h/4×256，输出尺寸为w/4×h/4×512。

第27层为有256个3×3卷积核的卷积层，输入尺寸为w/4×h/4×512，输出尺寸为w/4×h/4×256。

第28层为行和列上采样因子为(2,2)的上采样层，输入尺寸为w/4×h/4×256，输出尺寸为w/2×h/2×256。

第29层为有128个3×3卷积核的卷积层，输入尺寸为w/2×h/2×256，输出尺寸为w/2×h/2×128。

第30层为拼接层，将第29层的输出和第3层的输出拼接，输入尺寸为两个w/2×h/2×128，输出尺寸为w/2×h/2×256。

第31层为有128个3×3卷积核的卷积层，输入尺寸为w/2×h/2×256，输出尺寸为w/2×h/2×128。

第32层为行和列上采样因子为(2,2)的上采样层，输入尺寸为w/2×h/2×128，输出尺寸为w×h×128。

第33层为有128个3×3卷积核的卷积层，输入尺寸为w×h×128，输出尺寸为w×h×128。

第34层为拼接层，将第33层的输出和第1层的输出拼接，输入尺寸为两个w×h×128，输出尺寸为w×h×256。

第35层为有128个3×3卷积核的卷积层，输入尺寸为w×h×256，输出尺寸为w×h×128。

第36层为有64个3×3卷积核的卷积层，输入尺寸为w×h×128，输出尺寸为w×h×64。

第37层为有3个3×3卷积核的卷积层，输入尺寸为w×h×64，输出尺寸为w×h×3。

参照图6，示出了本发明的一种图像处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤601，获取待修复的第一图像；

这里的第一图像不同于上述图1～图5实施例所述的第一图像，而是实际应用中需要修复的图像，其中，所述第一图像包括模糊的人脸区域。例如，该第一图像中的人脸区域的清晰度较低，该清晰度小于第二预设清晰度阈值。

步骤602，获取所述第一图像的人脸语义分割结果；

其中，对于获取人脸语义分割结果的具体实现可以参照图1～图5实施例中的相关描述，这里不再赘述。

步骤603，将所述第一图像和所述人脸语义分割结果输入至预先经过训练的人脸修复模型，以使得所述人脸修复模型根据所述人脸语义分割结果，对所述第一图像进行人脸区域的修复，生成人脸区域清晰的第二图像。

其中，对于人脸修复模型的输入数据的具体结构可以参照图1～图5实施例中的相关描述，这里不再赘述。本步骤中，由于人脸修复模型已经经过图1～图5中任意一个可选实施例的训练，所以这里的人脸修复模型可以结合该待修复的第一图像的人脸语义分割结果来对该第一图像中模糊的人脸区域进行修复，从而得到第二图像。

其中，所述人脸修复模型用于根据所述人脸语义分割结果，对所述第一图像进行人脸区域的修复，生成人脸区域清晰的所述第二图像。

这里的第二图像不同于上述图1～图5实施例中的第二图像。这里的第二图像的人脸区域更加清晰，图像质量更好。例如该第二图像中人脸区域的清晰度大于第一预设清晰度阈值。

本发明实施例的人脸修复模型能够参考待修复的第一图像的人脸语义分割结果，即人脸区域中各个部件的位置来对第一图像中的人脸区域进行去模糊处理，从而生成人脸区域更加清晰的第二图像。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

与上述本发明实施例所提供的模型训练方法相对应，参照图7，示出了本发明一种模型训练装置实施例的结构框图，具体可以包括如下模块：

第一获取模块701，用于获取训练样本集，所述训练样本集包括第一图像和第二图像，其中，所述第一图像包括清晰的人脸区域，所述第二图像为对所述第一图像的人脸区域作模糊处理后得到的图像；

第二获取模块702，用于获取所述第二图像的人脸语义分割结果；

输入模块703，用于将所述第二图像和所述人脸语义分割结果输入至神经网络模型，得到第三图像；

识别模块704，用于识别所述第三图像和所述第一图像之间在人脸区域上的差异数据；

更新模块705，用于根据所述差异数据对所述神经网络模型进行迭代更新；

可选地，所述第二获取模块702包括：

第一获取子模块，用于获取与所述第二图像匹配的第二图像矩阵；

第一输入子模块，用于将所述第二图像矩阵输入至预先经过训练的人脸语义分割模型，得到与多个人脸部件匹配的全局人脸语义分割矩阵；

所述输入模块703包括：

拼接子模块，用于将所述第二图像矩阵和所述全局人脸语义分割矩阵作矩阵连接处理；

第二输入子模块，用于将经过所述矩阵连接处理后的矩阵数据输入至神经网络模型，得到第三图像。

可选地，所述识别模块704包括：

第一识别子模块，用于识别所述第三图像和所述第一图像之间在图像特征上的第一损失数据；

第二识别子模块，用于根据所述人脸语义分割结果，识别所述第三图像和所述第一图像之间在目标人脸部件上的第二损失数据；

第三识别子模块，用于识别所述第三图像和所述第一图像之间在像素点上的第三损失数据；

第二获取子模块，用于根据预设的图像特征权重、人脸部件权重、像素点权重，对所述第一损失数据、所述第二损失数据和所述第三损失数据进行加权求和，得到所述第三图像和所述第一图像之间在人脸区域上的差异数据。

可选地，所述第一识别子模块包括：

输入单元，用于将所述第三图像和所述第一图像分别输入至预先经过训练的图像特征提取模型，得到所述第三图像的图像特征数据以及所述第一图像的图像特征数据；

第一获取单元，用于根据所述第三图像的图像特征数据与所述第一图像的图像特征数据之间的差异，获取所述第三图像和所述第一图像之间在图像特征上的第一损失数据。

可选地，所述第二获取模块702包括：上述第一获取子模块和第一输入子模块；

所述第二识别子模块包括：

第二获取单元，用于获取与所述第三图像匹配的第三图像矩阵；

第三获取单元，用于获取与所述第一图像匹配的第一图像矩阵；

第四获取单元，用于获取所述第三图像矩阵和所述第一图像矩阵之间的差异矩阵；

第五获取单元，用于获取所述全局人脸语义分割矩阵中，与所述目标人脸部件匹配的局部人脸语义分割矩阵；

第六获取单元，用于将所述局部人脸语义分割矩阵和所述差异矩阵作点乘运算，得到与所述目标人脸部件匹配的子损失数据；

第七获取单元，用于将与多个所述目标人脸部件匹配的多个所述子损失数据求和，得到所述第三图像和所述第一图像之间在目标人脸部件上的第二损失数据。

可选地，所述更新模块705，还用于根据所述差异数据对所述神经网络模型进行迭代更新，直至所述差异数据收敛。

对于装置实施例而言，由于其与模型训练方法实施例基本相似，所以描述的比较简单，相关之处参见对应方法实施例的部分说明即可。

与上述本发明实施例所提供的图像处理方法相对应，参照图8，示出了本发明一种图像处理装置实施例的结构框图，具体可以包括如下模块：

第一获取模块801，用于获取待修复的第一图像，其中，所述第一图像包括模糊的人脸区域；

第二获取模块802，用于获取所述第一图像的人脸语义分割结果；

输入模块803，用于将所述第一图像和所述人脸语义分割结果输入至预先经过训练的人脸修复模型，以使得所述人脸修复模型根据所述人脸语义分割结果，对所述第一图像进行人脸区域的修复，生成人脸区域清晰的所述第二图像。

对于装置实施例而言，由于其与图像处理方法实施例基本相似，所以描述的比较简单，相关之处参见对应方法实施例的部分说明即可。

根据本发明的又一个实施例，本发明还提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序或图像处理程序，所述模型训练程序被所述处理器执行时实现如上述任意一个实施例所述的模型训练方法的步骤，所述图像处理程序被所述处理器执行时实现上述任意一个实施例所述的图像处理方法的步骤。

根据本发明的再一个实施例，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有模型训练程序或图像处理程序，所述模型训练程序被处理器执行时实现如上述任意一个实施例所述的模型训练方法中的步骤，所述图像处理程序被所述处理器执行时实现上述任意一个实施例所述的图像处理方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种模型训练方法、一种模型训练装置、一种图像处理方法、一种图像处理装置、一种电子设备、一种计算机可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种模型训练方法，其特征在于，包括：

获取所述第二图像的人脸语义分割结果；

根据所述差异数据对所述神经网络模型进行迭代更新；

2.根据权利要求1所述的方法，其特征在于，

所述获取所述第二图像的人脸语义分割结果，包括：

获取与所述第二图像匹配的第二图像矩阵；

将所述第二图像矩阵输入至预先经过训练的人脸语义分割模型，得到与多个人脸部件匹配的全局人脸语义分割矩阵；

所述将所述第二图像和所述人脸语义分割结果输入至神经网络模型，得到第三图像，包括：

将所述第二图像矩阵和所述全局人脸语义分割矩阵作矩阵连接处理；

将经过所述矩阵连接处理后的矩阵数据输入至神经网络模型，得到第三图像。

3.根据权利要求1所述的方法，其特征在于，所述识别所述第三图像和所述第一图像之间在人脸区域上的差异数据，包括：

识别所述第三图像和所述第一图像之间在图像特征上的第一损失数据；

根据所述人脸语义分割结果，识别所述第三图像和所述第一图像之间在目标人脸部件上的第二损失数据；

识别所述第三图像和所述第一图像之间在像素点上的第三损失数据；

根据预设的图像特征权重、人脸部件权重、像素点权重，对所述第一损失数据、所述第二损失数据和所述第三损失数据进行加权求和，得到所述第三图像和所述第一图像之间在人脸区域上的差异数据。

4.根据权利要求3所述的方法，其特征在于，所述识别所述第三图像和所述第一图像之间在图像特征上的第一损失数据，包括：

将所述第三图像和所述第一图像分别输入至预先经过训练的图像特征提取模型，得到所述第三图像的图像特征数据以及所述第一图像的图像特征数据；

根据所述第三图像的图像特征数据与所述第一图像的图像特征数据之间的差异，获取所述第三图像和所述第一图像之间在图像特征上的第一损失数据。

5.根据权利要求3所述的方法，其特征在于，

所述获取所述第二图像的人脸语义分割结果，包括：

获取与所述第二图像匹配的第二图像矩阵；

所述根据所述人脸语义分割结果，识别所述第三图像和所述第一图像之间在目标人脸部件上的第二损失数据，包括：

获取与所述第三图像匹配的第三图像矩阵；

获取与所述第一图像匹配的第一图像矩阵；

获取所述第三图像矩阵和所述第一图像矩阵之间的差异矩阵；

获取所述全局人脸语义分割矩阵中，与所述目标人脸部件匹配的局部人脸语义分割矩阵；

将所述局部人脸语义分割矩阵和所述差异矩阵作点乘运算，得到与所述目标人脸部件匹配的子损失数据；

将与多个所述目标人脸部件匹配的多个所述子损失数据求和，得到所述第三图像和所述第一图像之间在目标人脸部件上的第二损失数据。

6.根据权利要求1所述的方法，其特征在于，所述根据所述差异数据对所述神经网络模型进行迭代更新，包括：

根据所述差异数据对所述神经网络模型进行迭代更新，直至所述差异数据收敛。

7.一种图像处理方法，其特征在于，包括：

获取所述第一图像的人脸语义分割结果；

8.一种模型训练装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，

所述第二获取模块包括：

所述输入模块包括：

10.根据权利要求8所述的装置，其特征在于，所述识别模块包括：

11.根据权利要求10所述的装置，其特征在于，所述第一识别子模块包括：

12.根据权利要求10所述的装置，其特征在于，

所述第二获取模块包括：

所述第二识别子模块包括：

13.根据权利要求8所述的装置，其特征在于，

所述更新模块，还用于根据所述差异数据对所述神经网络模型进行迭代更新，直至所述差异数据收敛。

14.一种图像处理装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型训练程序或图像处理程序，所述模型训练程序被所述处理器执行时实现如权利要求1至6中任一项所述的模型训练方法的步骤，所述图像处理程序被所述处理器执行时实现如权利要求7所述的图像处理方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有模型训练程序或图像处理程序，所述模型训练程序被处理器执行时实现如权利要求1至6中任一项所述的模型训练方法中的步骤，所述图像处理程序被所述处理器执行时实现如权利要求7所述的图像处理方法的步骤。