CN113168573A

CN113168573A - 一种模型的训练方法、装置、终端设备及存储介质

Info

Publication number: CN113168573A
Application number: CN202180000377.5A
Authority: CN
Inventors: 韩永刚; 姜涛; 黄凯明
Original assignee: Streamax Technology Co Ltd
Current assignee: Streamax Technology Co Ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-07-23
Anticipated expiration: 2041-03-02
Also published as: CN113168573B; WO2022183363A1

Abstract

本申请适用于人脸识别技术领域，提供了一种模型的训练方法、装置、终端设备及存储介质，方法包括：获取人脸图像，其中，所述人脸图像为训练样本；基于所述人脸图像和第i次训练得到的特征图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型；本申请利用第i次训练得到的特征图像，作为第i+1次训练的输入对五官识别网络模型进行增强训练，使得到的五官识别网络模型更准确。

Description

一种模型的训练方法、装置、终端设备及存储介质

技术领域

本申请属于人脸识别技术领域，尤其涉及一种模型的训练方法、装置、终端设备及存储介质。

背景技术

近几年随着计算机视觉技术的发展，人脸识别作为人工智能浪潮兴起后的一个重要方向，现已经在各个住宅小区、学校、办公楼等重要的日常生活场景有着越来越广泛的具体应用。

目前，人脸五官识别的方法可以通过图像分析技术或神经网络模型进行识别的。现在的五官识别网络模型在对人脸五官识别时，由于五官识别网络模型不够准确，导致识别出的人脸五官的不准确。

发明内容

本申请实施例提供了一种模型的训练方法、装置、终端设备及存储介质，可以解决目前五官识别网络模型不准确的问题。

第一方面，本申请实施例提供了一种模型的训练方法，包括：

获取人脸图像，其中，所述人脸图像为训练样本；

基于所述人脸图像和第i次训练得到的特征图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型，其中，i≥1。

第二方面，本申请实施例提供了一种模型的训练装置，包括：

样本获取模块，用于获取人脸图像，其中，所述人脸图像为训练样本；

模型训练模块，用于基于所述人脸图像和第i次训练得到的特征图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型，其中，i≥1。

第三方面，本申请实施例提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的模型的训练方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的模型的训练方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的模型的训练方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：本申请获取人脸图像，基于人脸图像和第i次训练得到的特征图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型；本申请利用第i次训练得到的特征图像，作为第i+1次训练的输入对五官识别网络模型进行增强训练，使得到的五官识别网络模型更准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的模型的训练方法的应用场景示意图；

图2是本申请一实施例提供的模型的训练方法的流程示意图；

图3是本申请一实施例提供的利用第i次训练得到的五官掩码图像对五官识别网络模型进行训练的具体方法的流程示意图；

图4是本申请另一实施例提供的利用第i次训练得到的五官掩码图像对五官识别网络模型进行训练的具体方法的流程示意图；

图5是本申请另一实施例提供的模型的训练方法的流程示意图；

图6是本申请另一实施例提供的训练五官识别网络模型时的五官识别网络模型的结构示意图；

图7是本申请一实施例提供的模型的训练装置的结构示意图；

图8是本申请一实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1为本申请实施例提供的模型的训练方法的应用场景示意图，上述模型的训练方法可以用于对人脸五官进行识别。其中，图像采集设备10用于采集和存储人脸图像，处理器20用于从图像采集设备10中获取人脸图像，并基于人脸图像对五官识别网络模型进行训练，得到训练后的五官识别网络模型。

以下结合图1对本申请实施例的模型的训练方法进行详细说明。

图2示出了本申请提供的模型的训练方法的示意性流程图，参照图2，对该方法的详述如下：

S101，获取人脸图像，其中，所述人脸图像为训练样本。

在本实施例中，人脸图像可以是通过采集设备采集的一个或多个人脸的图像。因此，人脸图像可以从采集设备中获得。一个人脸可以采集一张或多张图像，也就是一个人脸可以对应一张或多张人脸图像。

作为举例，人脸A的图像可以包括人脸图像a、人脸图像b和人脸图像c等。

在本实施例中，采集同一人脸的人脸图像时，采集设备在多次采集时的位置相对于人脸的位置相差不大，具体的采集设备与人脸的相对位置可以根据需要进行设置。

在本实施例中，采集设备可以是照相机、摄像机等。若采集设备为摄像机，摄像机采集的为人脸视频图像，通过获取摄像机采集的人脸视频图像，并基于人脸视频图像中的帧图像可以得到人脸图像。

在本实施例中，人脸图像还可以从存储设备、图像处理设备等中获得。

S102，基于所述人脸图像和第i次训练得到的特征图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型，其中，i≥1，第i次训练输入的人脸图像与第i+1次训练输入的人脸图像为同一人脸的图像。

在本实施例中，五官识别网络模型可以包括多个依次连接的CNN模块。具体的，五官识别网络模型中存在多少个CNN模块可以根据需要进行设置，例如，五官识别网络模型中可以包括3个CNN模块、4个CNN模块或5个CNN模块等。多个CNN模块依次连接，例如，存在3个CNN模块时，可以包括第一个CNN模块、第二个CNN模块和第三个CNN模块，其中，第一个CNN模块与第二CNN模块相连，第二个CNN模块和第三个CNN模块相连。

在本实施例中，在每次对五官识别网络模型进行训练后，五官识别网络模型均可以输出一张特征图像。五官识别网络模型可以是基于语义分割的模型。五官识别网络模型输出的特征图像可以是五官掩码图像。五官掩码图像可以是对人脸的五官部位分别用不同的数字进行掩码后的图像，例如，眼部用1进行掩码，五官掩码图像中眼部均用1进行标识；鼻子用2进行掩码，五官掩码图像中鼻子部分均用2进行标识。

在本实施例中，如果人脸图像是从人脸视频图像的帧图像中获得的，则第i次训练输入的人脸图像对应的帧图像在第i+1次训练输入的人脸图像对应的帧图像之前或之后。

在本实施例中，第i+1次训练输入的人脸图像和第i次训练输入的人脸图像可以为排序后的人脸图像中相邻的两人脸图像。由于相邻的两人脸图像的差异相对较小，采用相邻的训练结果对五官识别网络模型进行训练，可以使训练后的五官识别网络模型更准确。例如，当前人脸图像为排序后的人脸图像中第4张图像，则上一人脸图像为排序后的人脸图像中第3张图像或第5张人脸图像。

具体的，可以从帧图像中选出预设数量的帧图像作为人脸图像，并将选出的人脸图像按照帧数进行排序，得到排序后的人脸图像，例如，第一帧图像为第一个人脸图像，第三帧图像为第二个人脸图像。可以从第一个人脸图像开始从前往后依次作为训练样本对五官识别网络模型进行训练，则第i次训练输入的人脸图像对应的帧图像在第i+1次训练输入的人脸图像对应的帧图像之前。也可以从最后一个人脸图像开始从后往前依次作为训练样本对五官识别网络模型进行训练，则第i次训练输入的人脸图像对应的帧图像在第i+1次训练输入的人脸图像对应的帧图像之后。

在本实施例中，如果人脸图像中一个人脸对应至少两个人脸图像，则可以采用该人脸对应至少两个人脸图像对五官识别网络模型进行至少两次训练。

在本实施例中，对五官识别网络模型的训练需要使用到第i次训练得到的特征图像，且使用的输入人脸图像是同一人脸对应的图像。因此，如果一人脸只对应一张人脸图像，或者使用一人脸对应的人脸图像进行第1次训练时，均可以只采用一张人脸图像对五官识别网络模型进行训练。

具体的，在使用每个人脸对应的人脸图像进行第1次训练时，将所述人脸图像输入上一人脸最后一次训练后的五官识别网络模型中，得到第1次训练的特征图像和第1次训练后的五官识别网络模型，其中，所述上一人脸为与本次使用的人脸不相同的人脸。

在本实施例中，如果一个人脸只对应一张人脸图像，则将该人脸图像输入五官识别网络模型中对五官识别网络模型进行训练。然后再取另一人脸对应的人脸图像对五官识别网络模型进行训练。

在本实施例中，如果一个人脸对应至少两张人脸图像。如果是使用该人脸对应的人脸图像中的第一张图像进行第1次训练，则可以只将第一张图像输入五官识别网络模型中对网络进行训练。

然后从该人脸对应的人脸图像中取出第二张图像，将第二张图像和使用第一张图像训练时得到的特征图像共同对第一张图像训练得到的五官识别网络模型进行训练。

依次类推，直到使用该人脸对应的人脸图像对五官识别网络模型训练预设次数后，停止使用该人脸对应人脸图像对五官识别网络模型进行训练。

作为举例，如果人脸A对应人脸图像a、人脸图像b和人脸图像c。人脸B对应人脸图像d。

对于人脸A：第1次训练时，将人脸图像a输入五官识别网络模型对五官识别网络模型进行训练，得到第一特征图像和第一五官识别网络模型；第2次训练时，基于人脸图像b和第一特征图像对第一五官识别网络模型进行训练，得到第二特征图像和第二五官识别网络模型；第3次训练时，基于人脸图像c和第二特征图像对第二五官识别网络模型进行训练，得到第三特征图像和第三五官识别网络模型。

对于人脸B：第1次训练时，将人脸图像d输入第三五官识别网络模型对第三五官识别网络模型进行训练，得到第四特征图像和第四五官识别网络模型。

本申请实施例中，在对五官识别网络模型进行训练时，采用第i次训练得到的特征图像对五官识别网络模型进行增强训练，可以得到更准确的训练后的五官识别网络模型。本申请中在使用第i次训练得到的特征图像对五官识别网络模型进行增强训练时，第i次训练和第i+1次训练输入的人脸图像为同一人脸对应的图像，可以提高训练后的五官识别网络模型的准确性。

如图3所示，在一种可能的实现方式中，特征图像为所述五官识别网络模型输出的五官掩码图像，步骤S102的实现过程可以包括：

S1021，对第i次训练得到的五官掩码图像进行缩小处理和/或放大处理，得到至少一个第一掩码图像，其中，得到至少两个第一掩码图像时，则所述至少两个第一掩码图像的维数不同。

在本实施例中，五官掩码图像可以是n×n的矩阵，五官掩码图像的维度为n。对第i次训练得到的五官掩码图像进行缩小处理和/或放大处理可以得到预设维数的掩码图像，本申请中记作第一掩码图像。

在本实施例中，缩小处理指的是将五官掩码图像的维数缩小，放大处理指的是将五官掩码图像的维数增大。将五官掩码图像进行多次缩放处理可以得到不同维数的第一掩码图像。

作为举例，如果五官掩码图像为256×256的图像，则缩小处理后的五官掩码图像可以是128×128的图像和64×64的图像。

具体的，将五官掩码图像缩放至多大维数的图像，可以根据五官识别网络模型中需要使用到第i次训练得到的五官掩码图像的CNN模块决定。需要使用到第i次训练得到的五官掩码图像的CNN模块输出的图像的维数是多少，则可以将第i次训练得到的五官掩码图像缩放至多大维数的图像。

在本实施例中，在得到第一掩码图像后，还可以对掩码图像做膨胀运算，得到处理后的第一掩码图像。

S1022，对所述至少一个第一掩码图像进行掩码处理，得到第二掩码图像，其中，所述第二掩码图像为将人脸部分和背景部分分割后的图像。

在本实施例中，本申请使用第i次训练得到的特征图像对第i+1次训练的五官识别网络模型做增强处理时，主要是为了减小背景对五官识别时造成的影响。由于第一掩码图像是分割了五官的图像，因此还需要对第一掩码图像做进一步处理得到分割了人脸部分和背景部分的掩码图像，本申请中将分割了人脸部分和背景部分的掩码图像记作第二掩码图像。

作为举例，在对第一掩码图像进行掩码处理时，得到的第二掩码图像的背景部分可以是0，人脸部分可以是数字1。

S1023，基于所述人脸图像和所述第二掩码图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型。

在本实施例中，将人脸图像和第二掩码图像输入第i次训练后的五官识别网络模型中，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型。

本申请实施例中，对第i次训练得到的五官掩码图像进行处理后得到分割了人脸部分和背景部分的第二掩码图像，然后将第二掩码图像和人脸图像输入第i次训练后的五官识别网络模型，对第i次训练后的五官识别网络模型进行训练，使训练后的五官识别网络模型更准确。利用第二掩码图像可以降低人脸图像的背景对五官识别时的影响，使识别的五官更准确，

如图4所示，在一种可能的实现方式中，在所述第二掩码图像为一个时，步骤S1023的实现过程可以包括：

S10231，将所述人脸图像输入第i次训练后的五官识别网络模型中的第一个CNN模块中，对所述第一个CNN模块进行训练，得到第一个候选特征图像。

在本实施例中，从与第二掩码图像对应人脸的人脸图像中选出一张作为第i+1次训练的样本图像输入第一个CNN模块中，得到第一个CNN模块输出的图像，本申请中将第一个CNN模块输出的图像记作第一个候选特征图像。

S10232，将所述第二掩码图像和第M-1个候选特征图像输入第M个CNN模块中，对所述第M个CNN模块进行训练，得到第M个候选特征图像，其中，1＜M＜K，K为所述五官识别网络模型中CNN模块的总个数，所述第M-1个候选特征图像为第M-1个CNN模块输出的图像，所述第二掩码图像的维数与所述第M个CNN模块输出的特征图像的维数相匹配。

在本实施例中，在哪一个CNN模块用第二掩码图像进行增强处理，可以根据需要进行选择。具体的，可以选择五官识别网络模型中的后边的一个或几个CNN模块进行增强处理，其中，五官识别网络模型中的后边的一个或几个CNN模块不包括五官识别网络模型中的最后一个CNN模块。

在一种可能的实现方式中，步骤S10232的实现过程具体可以包括：

S102321，所述第M个CNN模块对所述第M-1个候选特征图像进行至少一个卷积运算，得到第M个图像。

S102322，将所述第M个图像与所述第二掩码图像做点乘运算，得到第M个候选特征图像。

在本实施例中，第二掩码图像中人脸部分为1，背景部分为0，第M个图像与第二掩码图像做点乘运算后，得到结果与第M个图像相同，也就是第M个CNN模块输出的结果不会发生改变。

在本实施例中，也就是用第二掩码图像作为权重对第M个CNN模块进行训练。

S10233，将第K-1个候选特征图像输入第K个CNN模块中，对所述第K个CNN模块进行训练，得到第i+1次训练的特征图像及第i+1次训练后的五官识别网络模型。

在本实施例中，第K个CNN模块为五官识别网络模型中最后一个CNN模块，最后一个CNN模块用于输出结果图像，也就是第i+1次训练的特征图像。经过一次训练后，可以得到第i+1次训练后的五官识别网络模型。

在一种可能的实现方式中，在第二掩码图像为多个时，可以利用多个第二掩码图像对不同的CNN模块进行增强处理。具体的，将多个第二掩码图像分别输入不同的CNN模块中对五官识别网络模型进行训练。

具体的，在所述第二掩码图像为两个时，步骤S1023的实现过程可以包括：

S10234，将所述人脸图像输入第一个CNN模块中，对所述第一个CNN模块进行训练，得到第一个候选特征图像。

S10235，将第一个第二掩码图像和第S-1个候选特征图像输入第S个CNN模块中，对所述第S个CNN模块进行训练，得到第S个候选特征图像，其中，1＜S＜F，F为所述五官识别网络模型中CNN模块的总个数，所述第S-1个候选特征图像为第S-1个CNN模块输出的图像，所述第一个第二掩码图像的维数与所述第S个CNN模块输出的特征图像的维数相匹配。

在本实施例中，本步骤的具体过程可以参考步骤S10232的过程，再次不再赘述。

S10236，将第二个第二掩码图像和第D-1个候选特征图像输入第D个CNN模块中，对所述第D个CNN模块进行训练，得到第D个候选特征图像，其中，1＜S＜D＜K，所述第D-1个候选特征图像为第D-1个CNN模块输出的图像，所述第二个第二掩码图像的维数与所述第D个CNN模块输出的特征图像的维数相匹配。

在本实施例中，本步骤的具体过程可以参考步骤S10232的过程，在此不再赘述。

S10237，将第F-1个候选特征图像输入第F个CNN模块中，对所述第F个CNN模块进行训练，得到第i+1次训练的特征图像及第i+1次训练后的五官识别网络模型。

如图5所示，在一种可能的实现方式中，在对五官识别网络模型训练时，还可以进行特征融合处理，具体的，在步骤S101之后，上述方法还可以包括：

S201，将所述人脸图像输入第一个CNN模块中，对所述第一个CNN模块进行训练，得到第一个中间特征图像。

在本实施例中，由于第一个CNN模块不用做特征融合，因此第一个CNN模块输出的第一个特像可以记作第一个中间特征图像。

S202，将第i个中间特征图像输入第j个CNN模块中，对第j个CNN模块输出的第j个图像进行特征融合，得到第j个中间特征图像，其中，1≤i＜j＜G，G为所述五官识别网络模型中CNN模块的总个数，所述第i个中间特征图像的维数与第j个图像的维数相匹配。

在本实施例中，特征融合是指利用前边CNN模块的输出结果对后边CNN模块的输出结果做特征融合。

进行特征融合的两个图像的维数需要相同，因此，五官识别网络模型中可以包括下采样过程和上采样过程，且下采样过程在上采样过程之前。

作为举例，第一个CNN模块输出第一个中间特征图像，第四个CNN模块输出第四个中间特征图像。将第四个中间特征图像输入第五个CNN模块中得到第五个图像。利用第一个中间特征图像与第五个图像做特征融合，得到第五个中间特征图像。

S203，将第G-1个中间特征图像输入第G个CNN模块中，对所述第G个CNN模块进行训练，得到第i+1次训练的特征图像及第i+1次训练后的五官识别网络模型。

在本实施例中，还可以利用多个CNN模块输出的中间特征图像五官识别网络模型中的多个CNN模块进行特征融合。具体的，将多个中间特征图像分别输入不同的CNN模块中进行特征融合，以完成对五官识别网络模型的训练。

本申请实施例中，利用CNN模块输出的中间特征图像对之后的CNN模块输出的图像进行特征融合，可以使训练的五官识别网络更准确。

在一种可能的实现方式中，上述方法还可以包括：

S301，将所述人脸图像输入第一个CNN模块中，对所述第一个CNN模块进行训练，得到第一个目标特征图像。

S302，将第R个目标特征图像输入第H个CNN模块中，对第H个CNN模块输出的第H个图像进行特征融合，得到第H个目标特征图像，其中，1≤R＜H＜Y，Y为所述五官识别网络模型中CNN模块的总个数，所述第R个目标特征图像的维数与第H个图像的维数相匹配，第R个目标特征图像为第R个CNN模块输出的特征图像。

S303，将一个第二掩码图像和第J-1个目标特征图像输入第J个CNN模块中，对所述第J个CNN模块进行训练，得到第J个目标特征图像，其中，H＜J＜Y，所述第J-1个目标特征图像为第J-1个CNN模块输出的图像，所述第二掩码图像的维数与所述第J个CNN模块输出的特征图像的维数相匹配；

S304，将第H-1个目标特征图像输入第H个CNN模块中，对所述第H个CNN模块进行训练，得到第i+1次训练的特征图像及第i+1次训练后的五官识别网络模型。

需要说明的是，做增强处理的CNN模块与做特征融合处理的CNN模块的顺序不限于上述顺序。也就是五官识别网络模型在进行训练时，可以如上述S302至S303所述的先做特征融合处理再做增强处理。

五官识别网络模型在进行训练时，还可以先做增强处理，再做特征融合处理。

作为举例，五官识别网络模型中第四个CNN模块可以利用第二掩码图像做增强处理。第五个CNN模块可以利用第四个CNN模块输出的第四个目标特征图像进行特征融合处理。

五官识别网络模型在进行训练时，还可以同时做增强处理和特征融合处理。

作为举例，五官识别网络模型中第六个CNN模块可以利用第二掩码图像做增强处理，同时还可以利用第五个CNN模块输出的第五个目标特征图像做特征融合处理。

在一种可能的实现方式中，在获得训练后的五官识别网络模型后，还可以利用训练后的五官识别网络模型进行五官识别。具体的，在步骤S102之后，上述方法还可以包括：

获取待识别的目标图像。将所述目标图像输入所述训练后的五官识别网络模型中对人脸五官进行识别，得到目标五官掩码图像。

在本实施例中，目标图像可以是任意一张图像。

在一种可能的实现方式中，上述方法还可以包括：

若五官识别网络模型包括六个CNN模块，分别为第一个CNN模块，第二个CNN模块、第三个CNN模块、第四个CNN模块、第五个CNN模块和第六个CNN模块。六个CNN模块依次连接。其中，第一个CNN模块和第五个CNN模块为128×128的，也就是第一个CNN模块和第五个CNN模块输出的图像为128×128的图像。第二个CNN模块和第四个CNN模块为64×64的。第三个CNN模块为32×32的。第六个CNN模块为256×256的，如图6所示。

第j次训练得到的第二掩码图像包括128×128图像和64×64图像。

S401，将人脸图像输入第一个CNN模块，得到第一图像；

S402，将第一图像输入第二个CNN模块，得到第二图像；

S403，将第二图像输入第三个CNN模块，得到第三图像；

S404，将第三图像、第二图像和64×64的第二掩码图像输入第四个CNN模块中，得到第四图像；

S405，将第四图像、第一图像和128×128的第二掩码图像输入第五个CNN模块中，得到第五图像；

S406，将第五图像输入第六个CNN模块，得到第j+1次训练的特征图像和第j+1次训练后的五官识别网络模型。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的模型的训练方法，图7示出了本申请实施例提供的模型的训练装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图7，该装置500可以包括：样本获取模块510、模型训练模块520。

其中，样本获取模块510，用于获取人脸图像，其中，所述人脸图像为训练样本；

模型训练模块520，用于基于所述人脸图像和第i次训练得到的特征图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型，其中，i≥1。

在一种可能的实现方式中，样本获取模块510还可以用于：

在使用每个人脸对应的人脸图像进行第1次训练时，将所述人脸图像输入上一人脸最后一次训练后的五官识别网络模型中，得到第1次训练的特征图像和第1次训练后的五官识别网络模型，其中，所述上一人脸为与本次使用的人脸不相同的人脸。

在一种可能的实现方式中，样本获取模块510具体可以用于：

获取人脸视频图像；

基于所述人脸视频图像，得到所述人脸图像，其中，第i次训练输入的人脸图像对应的帧图像在第i+1次训练输入的人脸图像对应的帧图像之前。

在一种可能的实现方式中，所述特征图像为所述五官识别网络模型输出的五官掩码图像。

在一种可能的实现方式中，所述五官识别网络模型包括多个依次连接的CNN模块。

在一种可能的实现方式中，所述模型训练模块还包括：

缩放单元，用于对第i次训练得到的五官掩码图像进行缩小处理和/或放大处理，得到至少一个第一掩码图像，其中，得到至少两个第一掩码图像时，则所述至少两个第一掩码图像的维数不同；

掩码处理单元，用于对所述至少一个第一掩码图像进行掩码处理，得到第二掩码图像，其中，所述第二掩码图像为将人脸部分和背景部分分割后的图像；

第二训练单元，用于基于所述人脸图像和所述第二掩码图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型，其中，第i次训练输入的人脸图像与第i+1次训练输入的人脸图像为同一人脸的图像。

在一种可能的实现方式中，在所述第二掩码图像为一个时，所述第二训练单元用于：

将所述人脸图像输入第i次训练后的五官识别网络模型中的第一个CNN模块中，对所述第一个CNN模块进行训练，得到第一个候选特征图像；

将所述第二掩码图像和第M-1个候选特征图像输入第M个CNN模块中，对所述第M个CNN模块进行训练，得到第M个候选特征图像，其中，1＜M＜K，K为所述五官识别网络模型中CNN模块的总个数，所述第M-1个候选特征图像为第M-1个CNN模块输出的图像，所述第二掩码图像的维数与所述第M个CNN模块输出的特征图像的维数相匹配；

将第K-1个候选特征图像输入第K个CNN模块中，对所述第K个CNN模块进行训练，得到第i+1次训练的特征图像及第i+1次训练后的五官识别网络模型。

在一种可能的实现方式中，所述第二训练单元还可以用于：

所述第M个CNN模块对所述第M-1个候选特征图像进行至少一个卷积运算，得到第M个图像；

将所述第M个图像与所述第二掩码图像做点乘运算，得到第M个候选特征图像。

在一种可能的实现方式中，与样本获取模块510相连的还包括：

中间特征图像获得模块，用于将所述人脸图像输入第一个CNN模块中，对所述第一个CNN模块进行训练，得到第一个中间特征图像；

特征融合模块，用于将第i个中间特征图像输入第j个CNN模块中，对第j个CNN模块输出的第j个图像进行特征融合，得到第j个中间特征图像，其中，1≤i＜j＜G，G为所述五官识别网络模型中CNN模块的总个数，所述第i个中间特征图像的维数与第j个图像的维数相匹配；

结果输出模块，用于将第G-1个中间特征图像输入第G个CNN模块中，对所述第G个CNN模块进行训练，得到第i+1次训练的特征图像及第i+1次训练后的五官识别网络模型。

在一种可能的实现方式中，与模型训练模块520相连的还包括：

图像获取模块，用于获取待识别的目标图像；

五官识别模块，用于将所述目标图像输入所述训练后的五官识别网络模型中对人脸五官进行识别，得到目标五官掩码图像。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，参见图8，该终端设备600可以包括：至少一个处理器610、存储器620以及存储在所述存储器620中并可在所述至少一个处理器610上运行的计算机程序，所述处理器610执行所述计算机程序时实现上述任意各个方法实施例中的步骤，例如图2所示实施例中的步骤S101至步骤S102。或者，处理器610执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块510至520的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器620中，并由处理器610执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段，该程序段用于描述计算机程序在终端设备600中的执行过程。

本领域技术人员可以理解，图8仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如输入输出设备、网络接入设备、总线等。

处理器610可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器620可以是终端设备的内部存储单元，也可以是终端设备的外部存储设备，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。所述存储器620用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器620还可以用于暂时地存储已经输出或者将要输出的数据。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请实施例提供的模型的训练方法可以应用于计算机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述模型的训练方法各个实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述模型的训练方法各个实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种模型的训练方法，其特征在于，包括：

获取人脸图像，其中，所述人脸图像为训练样本；

2.如权利要求1所述的模型的训练方法，其特征在于，在所述获取人脸图像之后，包括：

3.如权利要求1所述的模型的训练方法，其特征在于，所述获取人脸图像，包括：

获取人脸视频图像；

4.如权利要求1所述的模型的训练方法，其特征在于，所述特征图像为所述五官识别网络模型输出的五官掩码图像。

5.如权利要求1所述的模型的训练方法，其特征在于，所述五官识别网络模型包括多个依次连接的CNN模块。

6.如权利要求5所述的模型的训练方法，其特征在于，所述基于所述人脸图像和第i次训练得到的特征图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型，包括：

对第i次训练得到的五官掩码图像进行缩小处理和/或放大处理，得到至少一个第一掩码图像，其中，得到至少两个第一掩码图像时，所述至少两个第一掩码图像的维数不同；

对所述至少一个第一掩码图像进行掩码处理，得到第二掩码图像，其中，所述第二掩码图像为将人脸部分和背景部分分割后的图像；

基于所述人脸图像和所述第二掩码图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型，其中，第i次训练输入的人脸图像与第i+1次训练输入的人脸图像为同一人脸的图像。

7.如权利要求6所述的模型的训练方法，其特征在于，在所述第二掩码图像为一个时，所述基于所述人脸图像和所述第二掩码图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型，包括：

8.如权利要求7所述的模型的训练方法，其特征在于，所述对所述第M个CNN模块进行训练，得到第M个候选特征图像，包括：

9.如权利要求5所述的模型的训练方法，其特征在于，在获取人脸图像，之后，包括：

将所述人脸图像输入第一个CNN模块中，对所述第一个CNN模块进行训练，得到第一个中间特征图像；

将第i个中间特征图像输入第j个CNN模块中，对第j个CNN模块输出的第j个图像进行特征融合，得到第j个中间特征图像，其中，1≤i＜j＜G，G为所述五官识别网络模型中CNN模块的总个数，所述第i个中间特征图像的维数与第j个图像的维数相匹配；

将第G-1个中间特征图像输入第G个CNN模块中，对所述第G个CNN模块进行训练，得到第i+1次训练的特征图像及第i+1次训练后的五官识别网络模型。

10.如权利要求1至9任一项所述的模型的训练方法，其特征在于，在所述基于所述人脸图像和第i次训练得到的特征图像，对第i次训练后的五官识别网络模型进行训练，得到第i+1次训练后的五官识别网络模型之后，包括：

获取待识别的目标图像；

将所述目标图像输入所述训练后的五官识别网络模型中对人脸五官进行识别，得到目标五官掩码图像。

11.一种模型的训练装置，其特征在于，包括：

12.如权利要求11所述的模型的训练装置，其特征在于，所述特征图像为所述五官识别网络模型输出的五官掩码图像。

13.如权利要求11所述的模型的训练装置，其特征在于，所述五官识别网络模型包括多个依次连接的CNN模块。

14.如权利要求13所述的模型的训练装置，其特征在于，所述模型训练模块还包括：

15.如权利要求14所述的模型的训练装置，其特征在于，在所述第二掩码图像为一个时，所述第二训练单元用于：

16.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述的模型的训练方法。

17.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的模型的训练方法。