CN114519378A

CN114519378A - 特征提取单元的训练方法、人脸识别方法及装置

Info

Publication number: CN114519378A
Application number: CN202111601633.4A
Authority: CN
Inventors: 葛主贝; 朱树磊; 郝敬松; 殷俊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-05-20
Anticipated expiration: 2041-12-24
Also published as: CN114519378B

Abstract

本申请公开了一种特征提取单元的训练方法、人脸识别方法及装置。其中，该特征提取单元的训练方法包括：利用特征提取单元对训练图像进行特征提取，得到训练图像的特征图；基于训练图像的特征图，确定训练图像对训练图像所属类别的响应图；基于响应图确定训练图像对于类别的响应区域；对训练图像上的响应区域进行遮掩，得到遮掩图像；基于遮掩图像对特征提取单元进行训练。本申请可以让特征提取单元自发有效提取更多有用信息的特征，充分利用已有样本。

Description

特征提取单元的训练方法、人脸识别方法及装置

技术领域

本申请涉及深度学习技术领域，特别是涉及一种特征提取单元的训练方法、人脸识别方法及装置。

背景技术

在训练图像集中样本不充裕的情况下，通常会对训练图像集中训练图像进行各种数据增强操作，以扩充训练图像集中样本，并让模型尽可能的挖掘图像信息。

目前常见的数据增强方式，虽然数倍增加了训练样本，但增强操作具有一定的盲目性，有时并不知道何种增强方式是有利于模型的鲁棒，有时甚至因为加入过多的噪声，而降低了识别精度。并且一味的增加训练数据，会消耗大量的计算资源，该方法让模型剔除了这些增强部分的变化影响，而始终没有让模型自行去挖掘样本中的更加重要的信息，训练过程缺乏信息反馈。

发明内容

本申请提供一种特征提取单元的训练方法、人脸识别方法及装置，可以使得本申请扩充进训练图像集中的数据有利于模型自行挖掘样本图像中有效信息，并且充分利用反馈信息，从而使得本申请训练得到的特征提取单元自行挖掘训练图像上的其余图像信息，从而让特征提取单元自发有效提取图像中更多有用信息的特征，且可以避免人为干预，也可充分利用已有样本。

为达到上述目的，本申请提供一种特征提取单元的训练方法，该方法包括：

利用所述特征提取单元对训练图像进行特征提取，得到所述训练图像的特征图；

基于所述训练图像的特征图，确定所述训练图像对所述训练图像所属类别的响应图；

基于所述响应图确定所述训练图像对于所述类别的响应区域；

对所述训练图像上的所述响应区域进行遮掩，得到遮掩图像；

基于所述遮掩图像对所述特征提取单元进行训练。

其中，所述基于所述训练图像的特征图，确定所述训练图像对所述训练图像所属类别的响应图的步骤包括：

利用分类单元对所述训练图像的特征图进行分类处理，确定所述类别；

基于所述训练图像的特征图绘制出所述训练图像对所述类别的响应图。

其中，所述利用所述特征提取单元对训练图像进行特征提取，之前包括：利用训练图像集对包括特征提取单元的分类网络进行训练，得到初步训练后的分类网络；

所述利用所述特征提取单元对训练图像进行特征提取，包括：利用所述初步训练后的分类网络中的特征提取单元对所述训练图像集中至少部分训练图像中每一训练图像进行特征提取，得到所述每一训练图像的特征图；

所述基于所述遮掩图像对所述特征提取单元进行训练，包括：将所述至少部分训练图像各自的遮掩图像加入到所述训练图像集中，以对所述训练图像集进行更新；利用更新后的训练图像集对所述初步训练后的分类网络进行训练，得到当前训练后的分类网络；

所述方法还包括：在满足预设条件的情况下，将所述当前训练后的分类网络作为初始训练后的分类网络，返回执行所述利用所述初步训练后的分类网络中的特征提取单元对所述训练图像集中至少部分训练图像中每一训练图像进行特征提取，得到所述每一训练图像的特征图的步骤。

其中，所述在满足预设条件的情况下，将所述当前训练后的分类网络作为初始训练后的分类网络，包括：

在所述训练图像集中训练图像满足遮掩条件和/或所述分类网络的迭代训练总次数小于或等于次数阈值的情况下，确定满足所述预设条件。

其中，在所述更新后的训练图像集中，所述遮掩图像的占比小于或等于第一阈值。

其中，所述基于所述训练图像的特征图绘制出所述训练图像对所述类别的响应图，包括：

计算所述训练图像对其所属类别的输出相对于所述训练图像的特征图的各通道的梯度；

将各通道的梯度和所述特征图的各通道相乘；

将所有通道的乘积的和作为所述训练图像对其所属类别的响应图。

其中，所述基于所述响应图确定所述训练图像对于所述类别的响应区域的步骤包括：

将所述响应图中像素值大于阈值的像素点构成的至少一个区域作为所述响应区域；或，

将所述响应图中的至少一个连通区域作为所述响应区域。

其中，所述对所述训练图像上的所述响应区域进行遮掩，得到遮掩图像，包括：

若所述响应区域的占比满足预设要求，执行所述对所述训练图像上的所述响应区域进行遮掩，得到遮掩图像的步骤。

若所述训练图像上的响应区域和已遮掩区域的总占比大于第二阈值，则所述响应区域的占比不满足预设要求；若所述训练图像上的响应区域和已遮掩区域的总占比小于或等于第二阈值，则所述响应区域的占比满足预设要求。

为达到上述目的，本申请还提供一种人脸识别方法，该方法包括：

获取待识别图像；

利用人脸识别模型对所述待识别图像进行人脸识别，得到人脸识别结果；

其中，所述人脸识别模型包括由上述方法训练得到的特征提取单元

为达到上述目的，本申请还提供一种电子设备，该电子设备包括处理器；处理器用于执行指令以实现上述方法。

为达到上述目的，本申请还提供一种计算机可读存储介质，其用于存储指令/程序数据，指令/程序数据能够被执行以实现上述方法。

本申请特征提取单元的训练方法中，基于当前特征提取单元确定训练图像的类别响应图，继而基于训练图像的类别响应图确定训练图像对于训练图像所属类别的响应区域，然后对训练图像上的响应区域进行遮掩，得到遮掩图像；接着基于遮掩图像对特征提取单元再次进行训练，如此可以基于训练图像的类别响应图对训练中响应区域进行遮掩，使得特征提取单元可以自行挖掘训练图像上的其余图像信息，可以避免人为干预，也可充分利用已有样本；且在人脸有遮挡时，模型也能自发有效提取更多有用信息的特征；并且可以提高各神经元相应权重分布的平均度，可以有效抑制过拟合。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是现有特征提取单元的类别响应图的示意图；

图2是本申请特征提取单元的遮掩训练的效果示意图；

图3是本申请特征提取单元的训练方法一实施方式的流程示意图；

图4是本申请特征提取单元的训练方法中响应图的计算示意图；

图5是本申请特征提取单元的训练方法另一实施方式的流程示意图；

图6是本申请特征提取单元的训练方法另一实施方式的过程示意图；

图7是本申请人脸识别方法一实施方式的流程示意图；

图8是本申请电子设备一实施方式的结构示意图；

图9是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。另外，除非另外指明(例如，“或另外”或“或在替代方案中”)，否则如本文所使用的术语“或”指代非排他性的“或”(即，“和/或”)。并且，本文所描述的各种实施例不一定相互排斥，因为一些实施例可以与一个或多个其它实施例组合以形成新的实施例。

经过对现有特征提取模型进行分析，发现模型对一些训练样本，并没有挖掘到主要信息，有些甚至对一些非目标信息进行了拟合。例如图1所示，利用类别响应图可以发现人脸特征提取单元只响应了小部分区域的图像，并且这小部分区域的图像包括非人脸区域，这说明该人脸特征提取模型中，有部分高权重的神经元过分注重了人脸非关键信息区域。

另外，如图2所示，本申请申请人经过长期研究发现：将响应图映射回训练图像中，并对训练图像的响应区域进行“关键信息”遮掩，神经元对图像中其他区域做出了响应。例如，在人脸识别模型的训练场景中，人脸特征提取单元一开始只对未进行遮掩处理的原始人脸图像中的人脸少部分轮廓表现出响应；在对这部分人脸少部分轮廓进行遮掩后，发现特征提取单元响应了图像中人的左眼以及较多的轮廓；进一步将图像中的人脸左眼和部分轮廓进行遮掩，可发现特征提取单元的神经元则对额头、鼻子嘴巴、轮廓等较全面的区域表现出较大的响应。在人脸识别或人体识别等应用场景中，我们总是希望神经元的权重相对平均，从而能对图像各区域信息进行响应，并做出综合评判，而不是依据某些神经元(例如眼睛响应神经元)仅靠某单一部位(眼睛)甚至是非关键信息做出分类判断。

基于此，本申请提出了一种特征提取单元的训练方法，该方法首先基于当前特征提取单元确定训练图像的类别响应图，继而基于训练图像的类别响应图确定训练图像对于训练图像所属类别的响应区域，然后对训练图像上的响应区域进行遮掩，得到遮掩图像；接着基于遮掩图像对特征提取单元再次进行训练，如此可以基于训练图像的类别响应图对训练中响应区域进行遮掩，使得特征提取单元可以自行挖掘训练图像上的其余图像信息，可以避免人为干预，也可充分利用已有样本；且在人脸有遮挡时，模型也能自发有效提取非遮挡区域中有用信息的特征；并且可以提高各神经元相应权重分布的平均度，可以有效抑制过拟合。

具体地，如图3所示，本申请的特征提取单元的训练方法包括以下步骤。需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S101：利用特征提取单元对训练图像进行特征提取，得到训练图像的特征图。

可以利用特征提取单元对训练图像进行特征提取，得到训练图像的特征图；以便后续可以基于特征图确定训练图像对训练图像所属类别的响应图，继而确认训练图像的响应区域。

可选地，可以将训练图像输入到特征提取单元，以使特征提取单元对训练图像进行特征提取，得到训练图像的特征图。

本申请的特征提取单元的网络结构不受限制，只需要特征提取单元具有特征提取功能即可。具体地，该特征提取单元可由若干卷积(Conv)、池化(Pooling)和/或全连接(fc)等构成。

在步骤S101之前，可以先对特征提取单元进行训练，即步骤S101是利用训练过的特征提取单元对训练图像进行特征提取以确定训练图像的响应区域，然后后续利用响应区域遮掩过的图像对特征提取单元再次进行训练，如此在训练过程中利用响应区域遮掩过的图像再次对特征提取单元进行训练，可以使得特征提取单元自行挖掘图像上其他有用信息的特征，使得特征提取单元可以充分挖掘人脸图像信息。

S102：基于训练图像的特征图，确定训练图像对其所属类别的响应图。

基于上述步骤获得训练图像的特征图后，可以确定训练图像对其所属类别的响应图。

在一实现方式中，可以基于训练图像的特征图确定训练图像对其所属类别的梯度类别响应图(Grad-CAM，Class Activation Map)。

具体地，可以计算训练图像对其所属类别的输出相对于训练图像的特征图的各通道的梯度；接着将各通道的梯度和特征图的各通道相乘；并将所有通道的乘积的和作为训练图像对其所属类别的梯度类别响应图。

具体地，如图4所示，可以计算训练图像的特征图各层对训练图像所属类别——c类的梯度值，记为

这些回传梯度值的均值，代表了该层各神经元对训练图像所属类别响应程度的权重：

公式(1)中，

代表训练图像的特征图中，第k个通道对训练图像所属类别的“重要程度”(即权重)；i，j分别代表特征图中每一个神经元所在的位置，Z为该特征图包含的神经元总数。

将上述各通道权重

与各通道的特征图做乘积，并将所有通道的乘积结果叠加，再通过一个RELU函数，就可以得到训练图像对其所属类别的梯度类别响应图：

其中，得到的梯度类别响应图的尺寸与训练图像的特征图尺寸一致。为了将梯度类别响应图中的响应信息反应到训练图像上，在训练图像的特征图的尺寸与训练图像的尺寸不一致的情况下，可以对梯度类别响应图进行上采样至训练图像大小，进而以便后续基于上采样后的梯度类别响应图确定训练图像上的响应区域。

在另一实现方式中，可以基于训练图像的特征图确定训练图像对其所属类别的层次化类别响应图(layer-CAM)。

在又一实现方式中，可以基于训练图像的特征图确定出训练图像对其所属类别的score-CAM图。

可选地，上述的“训练图像所属类别”可以指训练图像的目标类别，即训练图像的真实类别。或者，在特征提取单元已经训练到相对收敛的情况下，上述的“训练图像所属类别”也可以指训练图像的预测类别，即置信度最大的那个类别。

S103：基于响应图确定训练图像对于类别的响应区域。

基于上述步骤确定出训练图像对其所属类别的响应图后，可以基于响应图确定出训练图像对其所属类别的响应区域。

在一可实现方式中，可以将响应图中像素值大于阈值的像素点构成的至少一个区域作为响应区域。其中，阈值可以根据实际情况进行设定，在此不做限定，例如可为200或180。

进一步地，确定响应图中像素值大于阈值的像素点构成的至少一个区域后，可以将至少一个区域中像素点少于数量阈值的区域删除，以避免个别像素点响应值计算错误导致响应区域确认错误。其中，数量阈值可以根据实际情况进行设定，在此不做限定，例如可为10或5。

在另一可实现方式中，可以将响应图中的连通区域作为训练图像对于类别的响应区域。

具体地，可以先设置背景色，将响应图中的非背景色像素进行连通，得到响应图中的至少一个响应区域。

优选地，可以先将响应图进行二值化处理，得到二值化图像；然后对二值化图像进行连通区域检测，以更好地确定出响应图中的响应区域。

S104：对训练图像上的响应区域进行遮掩，得到遮掩图像。

基于上述步骤确定训练图像对于类别的响应区域之后，可以对训练图像上的响应区域进行遮掩，以便后续利用遮掩后的图像对特征提取单元进行训练，使得特征提取单元可以关注于训练图像上其余有效信息，可以充分利用训练样本。

可选地，可以通过多种方式对训练图像上的响应区域进行遮掩。

其一：可以将训练图像上响应区域中所有像素的像素值置为预设值。其中，预设值可根据实际情况进行设定，在此不做限制，例如可为0或100，又例如可为训练图像上所有像素点的像素平均值。

其二：可以对训练图像上响应区域进行马赛克处理。

其三：可以利用预设图像对训练图像上响应区域进行遮掩。

其四：可以对训练图像上响应区域进行高斯噪声或泊松噪声等噪声处理。

S105：基于遮掩图像对特征提取单元进行训练。

基于上述步骤对训练图像上的响应区域进行遮掩后，可以利用遮掩后的图像对特征提取单元进行训练，使得特征提取单元可以关注于训练图像上其余有效信息，可以充分利用训练样本。

可选地，可以将遮掩图像加入到训练图像集中，利用包含有遮掩图像的训练图像集对特征提取单元进行训练。

在本实施方式中，基于特征提取单元确定训练图像的类别响应图，继而基于训练图像的类别响应图确定训练图像对于训练图像所属类别的响应区域，然后对训练图像上的响应区域进行遮掩，得到遮掩图像；接着基于遮掩图像对特征提取单元再次进行训练，如此可以基于训练图像的类别响应图对训练中响应区域进行遮掩，使得特征提取单元可以自行挖掘训练图像上的其余图像信息，可以避免人为干预，也可充分利用已有样本；且在人脸有遮挡时，模型也能自发有效提取非遮挡区域的有用信息的特征；并且可以提高各神经元相应权重分布的平均度，可以有效抑制过拟合。

可选地，为便于对特征提取单元进行训练，可以对由特征提取单元和分类单元组成的分类网络进行训练，如此可以基于分类单元的分类结果对特征提取单元进行监督训练。在分类网络收敛，能正确分类训练样本后，本申请可根据该图像以及该图像的标签做反向传播，并根据最后卷积层的特征图绘制出类别响应图，基于类别响应图确定训练图像的响应区域，遮掩掉训练图像中响应区域对应的信息，并将遮掩掉的图像增加到训练集中，作下一轮迭代训练使用，如此反复以对包含特征提取单元的分类网络进行训练，保证特征提取单元能够自行挖掘图像信息，充分利用图像上有用信息。可以理解的是，本申请训练方法训练得到的特征提取单元不限于和分类网络中的分类单元连接，本申请训练方法训练得到的特征提取单元还可以和其他的分类单元、输出单元或全连接单元组成识别模型或分类模型。具体地，如图5和图6所示，本申请的特征提取单元的训练方法包括以下步骤。需要注意的是，以下步骤编号仅用于简化说明，并不旨在限制步骤的执行顺序，本实施方式的各步骤可以在不违背本申请技术思想的基础上，任意更换执行顺序。

S201：利用训练图像集对包括特征提取单元的分类网络进行训练，得到初步训练后的分类网络。

可以利用训练图像集对包括特征提取单元的分类网络进行训练，得到初步训练后的分类网络。

较为优选的是，可以对包括特征提取单元的分类网络训练到分类网络收敛时，进入步骤S202，以对训练图像集中至少部分训练图像的响应区域进行遮掩；并将遮掩后的图像作为训练图像加入到训练图像集中，以对训练图像集进行更新；利用更新后的训练图像集对分类网络再次进行训练。

具体地，在对包括特征提取单元的分类网络进行预设次数迭代训练的情况下，就可确认对包括特征提取单元的分类网络训练到分类网络收敛，可进入步骤S202，以进行后续的遮掩和训练过程。其中，预设次数可以根据实际情况(例如分类网络的结构复杂度)进行设定，在此不做限制，例如可为20或50次。

其中，每一次迭代训练指的是：利用分类网络对图像进行分类，基于分类结果确定损失，利用损失更新分类网络的参数的一次过程。

在步骤S201之前，还可对分类网络的优化方法、学习率、迭代训练次数、权重衰减或动量等训练超参进行设置。当然，在步骤S201之前，还可设置上述的预设次数，即从哪次迭代训练开始引入“响应区域遮掩”。

可选地，本申请的分类网络的结构不受限制，例如可为卷积神经网络(Convolutional Neural Networks，CNN)。

S202：利用初步训练后的分类网络中的特征提取单元对当前训练图像集中至少部分训练图像中每一训练图像进行特征提取，得到每一训练图像的特征图。

可选地，可以将训练图像集中至少部分训练图像中每一训练图像进行特征提取，得到每一训练图像的特征图；然后执行后续步骤，以基于每一训练图像的特征图对每一训练图像的响应区域进行遮掩；接着将遮掩后的图像作为训练图像加入到训练图像集中以对训练图像集进行更新，且利用更新后的训练图像集对初步训练后的分类网络进行训练；在满足预设条件的情况下，将当前训练后的分类网络作为初步训练后的分类网络，返回步骤S202再次执行遮掩和训练步骤，直至不满足预设条件。

可选地，在第1次遮掩和训练过程中，可以对训练图像集中至少部分训练图像中每一训练图像进行特征提取，以便后续基于至少部分训练图像各自的特征图对至少部分训练图像中每一张训练图像进行响应区域的遮掩，得到至少部分训练图像各自的遮掩图像；进而将至少部分训练图像各自的遮掩图像加入到训练图像集中；进而以便利用更新后的训练图像集对初步训练后的分类网络再次进行训练。

在第n次遮掩和训练过程中，其中n大于或等于2，训练图像集中训练图像包括原始训练图像和遮掩图像，在步骤S202中，可以仅利用初步训练后的分类网络中的特征提取单元确定出训练图像集中遮掩图像的响应区域，以便后续对遮掩图像中的新的响应区域进行遮掩，继而将再次遮掩后的图像加入到训练图像集中；进而可以利用包含再次遮掩后的图像的训练图像集对初步训练后的分类网络进行训练。

在其他可替换的实施例中，在第n次遮掩和训练过程中，其中n大于或等于2，可以利用初步训练后的分类网络中的特征提取单元确定出训练图像集中至少部分遮掩图像和至少部分原始训练图像各自的响应区域，以便后续对至少部分遮掩图像和至少部分原始训练图像中各自的响应区域进行遮掩，且将至少部分遮掩图像和至少部分原始训练图像中各自的遮掩后的图像加入到训练图像集中；进而可以利用包含至少部分遮掩图像和至少部分原始训练图像中各自的遮掩后的图像的训练图像集对初步训练后的分类网络进行训练。

上述的原始训练图像可以指训练图像集中没有进行过响应区域遮掩的训练图像。

可以理解的是，上述的一次遮掩和训练过程是指：依次执行步骤S202、S203、S204、S205和S206的过程。

可选地，在第n次遮掩和训练过程中，即当前训练图像集包含原始训练图像和遮掩图像的情况下，在步骤S202中，当存在遮掩图像中已遮掩区域的占比(即已遮掩区域的面积或像素量与遮掩图像的总面积或总像素量的比例)大于第二阈值的情况下，可以不确定已遮掩区域的占比大于第二阈值的遮掩图像的特征图，即不对已遮掩区域的占比大于第二阈值的遮掩图像进行响应区域的遮掩，如此避免图像中有效信息遮掩过多导致分类网络无法训练至收敛，保证了训练后的包含特征提取单元的分类网络的分类准确性，从而保证特征提取单元能够提取到有效信息。其中，第二阈值可根据实际情况进行设定，在此不做限定，例如可为30％或50％。

可选地，在训练图像集中训练图像包括原始训练图像和遮掩图像的情况下，训练图像集中遮掩图像的占比可以小于或等于第一阈值，如此使得训练图像集包含一定量的原始训练图像，可以在利用遮掩图像对包含特征提取单元的分类网络进行遮掩训练时，通过训练图像集中原始训练图像保证特征提取单元能够提取到图像上更多的信息。

其中，第一阈值可根据实际情况进行设定，在此不做限定，例如可为30％或40％。

S203：基于每一训练图像的特征图，确定每一训练图像对每一训练图像所属类别的响应图。

S204：基于每一训练图像的响应图确定每一训练图像对于类别的响应区域。

S205：对每一训练图像上的响应区域进行遮掩，得到每一训练图像的遮掩图像。

可选地，在步骤S205中，可以确定每一训练图像上的响应区域的占比是否满足预设要求；对满足预设要求的训练图像进行响应区域的遮掩；对不满足预设要求的训练图像不进行响应区域的遮掩。

在一可实现方式中，若训练图像上的响应区域的占比(即响应区域的面积或像素量与训练图像的总面积或总像素量的比例)大于第三阈值，则该训练图像不满足预设要求；若训练图像上的响应区域的占比小于或等于第三阈值，则该训练图像满足预设要求，如此可避免图像中有效信息遮掩过多导致分类网络无法训练至收敛，保证了训练后的包含特征提取单元的分类网络的分类准确性。其中，第三阈值可根据实际情况进行设定，在此不做限定，例如可为20％或30％。

在另一可实现方式中，若训练图像上的响应区域和已遮掩区域的总占比大于第二阈值，则该训练图像不满足预设要求；若训练图像上的响应区域和已遮掩区域的总占比小于或等于第二阈值，则该训练图像满足预设要求，如此可避免图像中有效信息遮掩过多导致分类网络无法训练至收敛，保证了训练后的包含特征提取单元的分类网络的分类准确性。其中，响应区域和已遮掩区域的总占比可以理解为：响应区域和已遮掩区域的并集的面积或像素量与训练图像的总面积或总像素量的比例。若训练图像为原始训练图像，则上述的响应区域和已遮掩区域的总占比仅为：响应区域的面积或像素量与训练图像的总面积或总像素量的比例。

S206：将至少部分训练图像各自的遮掩图像加入到训练图像集中，利用更新后的训练图像集对初步训练后的分类网络进行训练，得到当前训练后的分类网络。

在一应用场景中，可以通过遮掩图像替换训练图像集中原有图像的方式，将至少部分训练图像各自的遮掩图像加入到训练图像集中。例如，通过上述步骤获取到原始训练图像的第k次遮掩图像，则可以用原始训练图像的第k次遮掩图像替换训练图像集中原始训练图像的第k-1次遮掩图像。

在上述通过遮掩图像替换训练图像集中原有图像的情况下，在第1次遮掩和训练过程中，可以仅对训练图像集中第一阈值比例的训练图像进行响应区域的遮掩，得到第一阈值比例的训练图像中每一训练图像的遮掩图像；然后用第一阈值比例的训练图像中每一训练图像的遮掩图像替换训练图像集中对应图像；将更新过的训练图像集对初步训练后的分类网络进行训练，得到当前训练后的分类网络；将当前训练后的分类网络作为初步训练后的分类网络，返回步骤S202，以进行第2次遮掩和训练过程。在第n次遮掩和训练过程中，可以仅对训练图像集中遮掩图像进行响应区域的遮掩，如此通过上述方案保证训练图像集中遮掩图像的占比可以等于第一阈值，以保证训练图像集包含一定量的原始训练图像，保证对包含特征提取单元的分类网络的训练效果。

在另一应用场景中，可以将遮掩图像直接加入且保留训练图像集中原有图像的方式，将至少部分训练图像各自的遮掩图像加入到训练图像集中。

在本实施例中，对初步训练后的分类网络进行训练可以指对初步训练后的分类网络训练至收敛，得到当前训练后的分类网络；如此保证当前训练后的分类网络能够正确分类训练集，利用当前训练后的分类网络确定的训练图像的响应区域才有意义，从而保证遮掩和训练过程的有效性。

在其他可替换的实施例中，在步骤S206中，可以对初步训练后的分类网络进行第一次数迭代训练，得到当前训练后的分类网络。其中，第一次数可根据实际情况进行设定，在此不做限定，例如可为1次、3次或7次。

可选地，在以包含遮掩图像的训练图像集对分类网络进行训练时，会将遮掩图像的原始训练图像的类别作为遮掩图像的类别，对分类网络进行监督训练；如此使得遮掩图像与原始训练图像进行类别匹配，可以让分类网络充分利用图像上更多的信息对图像进行准确分类，从而使得训练后的分类网络中的特征提取单元可以提取到图像上较多的有用信息。

S207：将当前训练后的分类网络作为初始训练后的分类网络，返回执行步骤S202。

另外，在不满足预设条件的情况下，可以结束训练，既不再返回至步骤S202进行遮掩和训练过程；在满足预设条件的情况下，可以将当前训练后的分类网络作为初始训练后的分类网络，将更新后的训练图像集作为训练图像集，返回执行步骤S202。

其中，在训练图像集中训练图像能满足遮掩条件和/或迭代训练总次数小于或等于次数阈值的情况下，满足预设条件；否则，即训练图像集中训练图像不能满足遮掩条件或迭代训练总次数大于次数阈值的情况下，不满足预设条件。

其中，上述的“迭代训练总次数”可以指：所有次遮掩和训练过程中的迭代次数总和，再加上步骤S201中迭代训练的次数后得到的值。

另外，在满足训练图像集中遮掩图像的占比小于或等于第一阈值的条件、以及训练图像上的响应区域和已遮掩区域的总占比小于或等于第二阈值的条件的情况下，已经无法对任一训练图像执行响应区域的遮掩，此时训练图像集中训练图像不能满足遮掩条件，可以结束训练。

可选地，可以将上述特征提取单元的训练方法应用到人脸识别模型的训练中，具体地，上述特征提取单元可以为人脸识别模型中的特征提取单元，如此通过上述方法模拟了遮挡下的人脸识别过程，可以有效环节人脸遮挡带来的识别问题，并且如此在人脸识别模型训练时也无须预判遮挡模式，神经元可自动响应人脸关键信息区域，并提取有效人脸特征。当然，也可以将上述特征提取单元的训练方法应用到其他模型(例如位姿识别模型)的训练中。

具体地，如图7所示，本申请还提供一种人脸识别方法，该人脸识别方法具体包括以下步骤。

S301：获取待识别图像。

S302：利用人脸识别模型对待识别图像进行人脸识别，得到人脸识别结果。

其中，人脸识别模型包括由上述方法训练得到的特征提取单元。

请参阅图8，图8是本申请电子设备20一实施方式的结构示意图。本申请电子设备20包括处理器22，处理器22用于执行指令以实现本申请上述任一实施方式的方法及任意不冲突的组合所提供的方法。

电子设备20可为摄像装置或服务器等设备，在此不做限定。

处理器22还可以称为CPU(Central Processing Unit，中央处理单元)。处理器22可能是一种集成电路芯片，具有信号的处理能力。处理器22还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器，或者该处理器22也可以是任何常规的处理器等。

电子设备20还可进一步包括存储器21，用于存储处理器22运行所需的指令和数据。

请参阅图9，图9为本申请实施方式中计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质30存储有指令/程序数据31，该指令/程序数据31被执行时实现本申请上述方法任一实施例以及任意不冲突的组合所提供的方法。其中，该指令/程序数据31可以形成程序文件以软件产品的形式存储在上述存储介质30中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质30包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种特征提取单元的训练方法，其特征在于，所述方法包括：

基于所述遮掩图像对所述特征提取单元进行训练。

2.根据权利要求1所述的方法，其特征在于，所述基于所述训练图像的特征图，确定所述训练图像对所述训练图像所属类别的响应图的步骤包括：

3.根据权利要求2所述的方法，其特征在于，

所述利用所述特征提取单元对训练图像进行特征提取，之前包括：利用训练图像集对包括特征提取单元的分类网络进行训练，得到初步训练后的分类网络；

4.根据权利要求3所述的方法，其特征在于，所述在满足预设条件的情况下，将所述当前训练后的分类网络作为初始训练后的分类网络，包括：

5.根据权利要求3所述的方法，其特征在于，

在所述更新后的训练图像集中，所述遮掩图像的占比小于或等于第一阈值。

6.根据权利要求2所述的方法，其特征在于，所述基于所述训练图像的特征图绘制出所述训练图像对所述类别的响应图，包括：

将各通道的梯度和所述特征图的各通道相乘；

7.根据权利要求1所述的方法，其特征在于，所述基于所述响应图确定所述训练图像对于所述类别的响应区域的步骤包括：

将所述响应图中的至少一个连通区域作为所述响应区域。

8.根据权利要求1所述的方法，其特征在于，所述对所述训练图像上的所述响应区域进行遮掩，得到遮掩图像，包括：

9.根据权利要求8所述的方法，其特征在于，所述对所述训练图像上的所述响应区域进行遮掩，得到遮掩图像，包括：

10.一种人脸识别方法，其特征在于，所述方法包括：

获取待识别图像；

其中，所述人脸识别模型包括由权利要求1-9中任一项所述的方法训练得到的特征提取单元。

11.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行指令以实现如权利要求1-10中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有程序和/或指令，其特征在于，所述程序和/或指令被执行时实现权利要求1-10中任一项所述方法的步骤。